JP2021015264A - 視覚支援スピーチ処理 - Google Patents

視覚支援スピーチ処理 Download PDF

Info

Publication number
JP2021015264A
JP2021015264A JP2019231729A JP2019231729A JP2021015264A JP 2021015264 A JP2021015264 A JP 2021015264A JP 2019231729 A JP2019231729 A JP 2019231729A JP 2019231729 A JP2019231729 A JP 2019231729A JP 2021015264 A JP2021015264 A JP 2021015264A
Authority
JP
Japan
Prior art keywords
audio
visual
model
data
visual feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019231729A
Other languages
English (en)
Other versions
JP7242520B2 (ja
Inventor
クリスティーナ・バスコンセロス
Vasconcelos Cristina
ズイッリ・リ
Zili Li
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoundHound Inc
Original Assignee
SoundHound Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoundHound Inc filed Critical SoundHound Inc
Publication of JP2021015264A publication Critical patent/JP2021015264A/ja
Application granted granted Critical
Publication of JP7242520B2 publication Critical patent/JP7242520B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】人間の発声をより正確にトランスクリプションすることおよび解析することができるスピーチ処理システムおよび方法を提供する。【解決手段】クライアントサーバアーキテクチャにおいて提供されるスピーチを処理するためのシステムのクライアントデバイスおいて、画像データは、ビジュアル特徴抽出器がビジュアル特徴テンソルを生成するために使用され、オーディオデータは、オーディオ特徴抽出器がオーディオ特徴テンソルを生成するために使用される。ビジュアル特徴テンソルおよびオーディオ特徴テンソルは、ユーザの発声を解析するのに使用可能である言語的特徴を決定するために言語的モデルによって使用される。言語的モデルは、発声を解析するために使用可能な言語的特徴を決定するように構成されており、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成される。【選択図】図2

Description

発明の分野
本技術はスピーチ処理の分野に存在する。
背景
コンピューティングにおける最近の進歩は、多くの長く求められてきた音声制御アプリケーションを実現する可能性を高めている。たとえば、有効なニューラルネットワークアーキテクチャのための実際的なフレームワークを含む統計モデルにおける改善は、以前のスピーチ処理システムの精度および信頼性を大幅に増加させている。これは、アプリケーションプログラミングインターフェイスを使用して単純にアクセスされ得るある範囲のモジュラーサービスを提供するワイドエリアコンピュータネットワークの興隆に結び付けられている。したがって、音声は急速に、ユーザインターフェイスを提供するための実行可能なオプションになっている。
スピーチは人間のコミュニケーションの自然なモードであるので、音声制御は、キーボードおよびマウスまたはより最近の場合では静電容量式タッチスクリーンのような従来のユーザインターフェイスに対する多くの利点を提供する。スピーチを使用してデバイスを制御することは、モータビークルもしくは重機械を安全に動作させるかまたは食事を料理するといったように、ユーザがマルチタスクを行うことを可能にする。このように、音声制御デバイスは、家庭において一般的になっており、質問を尋ねたり、音楽を再生したり、リマインダをセットしたりするためにしばしば使用される。音声制御はさらに、自動車システム設計における活発な研究領域である。
これらの進歩にもかかわらず、ユーザは、現在のシステムが人間レベルの応答性およびインテリジェンスを欠くとしばしば報告している。空気中の圧力変動を解析されたコマンドに変換することは、信じられないほどに困難である。スピーチ処理は典型的に複雑な処理パイプラインを伴っており、如何なるステージにおけるエラーによっても、マシン解析の成功が頓挫され得る。これらの困難さの多くは、意識的な思考なく皮質構造および皮質下構造を使用してスピーチを処理することができる人間には直ちに明白ではない。しかしながら、当該分野で働くエンジニアは、人間の能力と現状技術のマシン処理との間のギャップに急速に気が付いてきている。
ある特許公報は、画像とともに動作するためのシステムを記載している。
US8,768,693B2は、画像ファイルに1つ以上のタグを割り当てるためのシステムおよび方法を記載している。画像ファイルは、付加的なメタデータとして画像ファイルに関連付けられるテキストタグに変換されるよう、そこに埋め込まれたオーディオコンポーネントを含み得る。
US2009/0060351A1は、画像分類のためのビジュアル言語モデリングのためのシステムおよび方法を記載している。当該システムおよび方法は、「ビジュアルワード(visual word)」のマトリックスとして複数の画像カテゴリに対応する学習画像をモデリングする。
人間の発声をより正確にトランスクリプションすることおよび解析することができるスピーチ処理システムおよび方法を提供することが望まれている。さらに、現実世界のデバイスにより実際的に実現され得るスピーチ処理方法を提供することが望まれている。たとえば、ほとんどのユーザは、スーパーコンピュータまたはデータセンタの処理リソースへのアクセスを有しておらず、日常の対象物に容易に埋め込まれ得る低コストのデバイスを望んでいる。さらに、モータビークルは、システムインテグレーションおよびコネクティビティについての困難さを示している。
発明の概要
本願明細書において記載されるある例は、スピーチを処理するための方法およびシステムを提供する。ある例は、スピーチを処理するためにオーディオデータおよび画像データの両方を使用する。ある例は、オーディオデータおよび画像データからオーディオ特徴およびビジュアル特徴をそれぞれ抽出する。当該特徴は、たとえばデータの顕著な局面を表わす数値配列といった特徴テンソルとして提供され得る。ある例は、オーディオ特徴およびビジュアル特徴がクライアントデバイスにおいて抽出され、さらなる処理のためにサーバデバイスに送信されるクライアントサーバアーキテクチャを提供する。オーディオ特徴およびビジュアル特徴は、たとえばサーバデバイスにおいて実現される言語的モデルに供給される。言語的モデルは、オーディオデータに関連付けられる発声を解析するために使用される。オーディオ特徴および画像特徴の両方の使用は、発声を解析するために使用される言語的モデルの精度を向上させる。処理フレームワークはさらに、低コストの埋込音声アシスタントからビークル内音声制御システムに至るある範囲の現実世界のデバイスにおいて実現されることが可能である。
1つの局面では、スピーチを処理するためのクライアントデバイスが提供される。クライアントデバイスは、ユーザからの発声を特徴とするオーディオデータをキャプチャするオーディオキャプチャデバイスと、ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスとを含む。ビジュアル特徴抽出器は、1つ以上のビジュアル特徴テンソルを生成するために、画像キャプチャデバイスから画像データのフレームを受け取る。ビジュアル特徴テンソルは、画像データのフレーム未満である情報コンテンツを有しており、たとえば、画像データのフレームの圧縮された表現を提供する。オーディオ特徴抽出器は、オーディオキャプチャデバイスからオーディオデータを受け取り、1つ以上のオーディオ特徴テンソルを生成する。クライアントデバイスのトランスミッタが、ビジュアル特徴テンソルおよびオーディオ特徴テンソルをサーバデバイスに送信するように使用され、サーバデバイスは、少なくともビジュアル特徴テンソルおよびオーディオ特徴テンソルを言語的モデルに供給するように構成されており、言語的モデルは、発声を解析するために使用可能な言語的特徴を決定するように構成される。この局面において、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成される。
上記の局面に従うと、クライアントデバイスは、ユーザからの音声コマンドのような発声が記録される環境の情報が豊富な表現を生成することができる。共同の構成により、ビジュアル特徴テンソルは、発声についての解析エラーを低減する態様で、発声の環境のビジュアル特徴を表わす出力を生成する。ビジュアル特徴テンソルは、オーディオ入力を明確にするのに有用であるビジュアル特徴の圧縮された表現と理解され得る。
別の局面に従うと、スピーチを処理するためのサーバデバイスが提供される。サーバデバイスは、クライアントデバイスから1つ以上のビジュアル特徴テンソルおよび1つ以上のオーディオ特徴テンソルを受け取るレシーバを含む。クライアントデバイスは上記の局面のクライアントデバイスであり得る。ビジュアル特徴テンソルは、クライアントデバイスによってキャプチャされる画像データのフレームに基づいて、クライアントデバイスのビジュアル特徴抽出器によって生成される。画像データのフレームは、クライアントデバイスの環境を特徴とし、ビジュアル特徴テンソルより大きい情報コンテンツを有する。たとえば、ビジュアル特徴テンソルは、画像データのフレームの圧縮された表現を提供する。オーディオ特徴テンソルは、ユーザの発声の後でクライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、クライアントデバイスのオーディオ特徴抽出器によって生成される。サーバデバイスはさらに、ビジュアル特徴テンソルおよびオーディオ特徴テンソルを受け取り、かつ、発声を解析するために使用可能な言語的特徴を決定する言語的モデルを含み、言語的モデルは、クライアントデバイスのビジュアル特徴抽出器およびオーディオ特徴抽出器と共同で構成される。
クライアントデバイスにおいてオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成することによって、サーバデバイスに送信される発声を解析するために使用される情報のデータサイズが低減され得る。このように構成されるクライアントサーバモデルを使用することによって、クライアントデバイスでの処理が低減され得、ビークル、家電またはウェアラブルデバイスにおけるような埋込デバイスの範囲を含むクライアント実現例のより大きな多様性が可能になる。
1つの変形例では、ビジュアル特徴抽出器およびオーディオ特徴抽出器のうちの1つ以上は、ニューラルネットワークアーキテクチャを含み、たとえば畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの1つ以上を含む。1つの場合では、ビジュアル特徴抽出器は畳み込みニューラルネットワークを含み得、オーディオ特徴抽出器はリカレントニューラルネットワークを含み得る。これらの場合では、共同の構成は、ニューラルネットワークの共同学習を含み得る。これは、たとえば、学習データの好適なセットが与えられる場合、エンドツーエンドの態様で共同の構成を行なうためのメカニズムを提供する。この変形例は、音および視覚の両方におけるニューラルネットワークアーキテクチャの最近の進歩が、スピーチ処理パイプライン内においてモジュールで実現されることを可能にする。
1つの変形例において、ビジュアル特徴テンソルは、環境についてのビジュアルコンテキストの数値表現を含む。この場合、クライアントデバイスのトランスミッタは、オーディオ特徴テンソルとともにオーディオデータをサーバデバイスに送信するように構成されており、サーバデバイスの言語的モデルは、オーディオデータに基づいて言語的特徴を決定するよう、オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用して構成される。この変形例では、オーディオデータは、レガシースピーチ処理パイプラインでのように、時系列サンプルまたは周波数特徴を含み得る。ビジュアル特徴テンソルおよび/またはオーディオ特徴テンソルは、レガシースピーチ処理パイプラインの拡張として使用され得る。これらのテンソルは、スピーチ処理パイプラインの言語的モデルに有益である発声の環境の数値表現を提供し、たとえば、音素および/またはトランスクリプションされたテキストの予測のような言語的モデルの予測を向上させる圧縮された形態の付加的な情報を提供する発声の環境の数値表現を提供する。
1つの変形例では、画像データはビデオデータを含み、オーディオデータは時間的にビデオデータに相関される。この変形例では、ビジュアル特徴抽出器およびオーディオ特徴抽出器はビデオデータおよびオーディオデータに並列に適用される。これにより、例は、たとえば音声コマンドへの人間のような応答性といった、発声に対する迅速な応答を提供するよう、低コストの埋込デバイスでもますます使用されているマルチコア中央処理装置および/またはグラフィカルプロセッシングユニット(CPUおよび/またはGPU)を活用し得る。
1つの変形例では、ビジュアル特徴抽出器は、画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャを含み、第1の畳み込みニューラルネットワークアーキテクチャは、複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータのセットは、1つ以上の付加的な分類層が第1の出力層に結合された状態で、学習動作から導出される。この変形例では、ビジュアル特徴抽出器はさらに、第2の入力層および第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャを含み、第2の入力層は、第1の畳み込みニューラルネットワークアーキテクチャの第1の出力層に結合されており、第2の出力層は、第1の出力層の次元数未満である次元数を有する。この変形例は、ビジュアル特徴学習の適切性および安定性を保証するよう、予め学習された畳み込みニューラルネットワーク(たとえば「既製」のシステム)からビジュアル特徴抽出器が構築されることを可能にしつつ、第2のニューラルネットワークアーキテクチャがオーディオ処理に適切であるビジュアル特徴をラーニングするよう情報ボトルネックを実現することを可能にする。
上記の変形例において、第2のニューラルネットワークアーキテクチャは、学習動作において、オーディオ特徴抽出器および言語的モデルと共同で学習され得、第1の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータのセットは、学習動作中は固定され得る。これにより、予め学習された畳み込みニューラルネットワークのパラメータは、いわゆる破滅的忘却(catastrophic forgetting)を回避するために固定され得る。破滅的忘却とは、すなわち、低いエラーの多様体(manifold)から学習が離れると、当該多様体を表わすパラメータ値が失われることである。
1つの変形例では、アテンションプリプロセッサ(attention pre-processor)が、言語的モデルによる使用に先立って、オーディオ特徴テンソルおよびビジュアル特徴テンソルに重みを適用するように使用される。アテンションプリプロセッサの使用は、ラーニングされた経験に基づいて、ビジュアル特徴テンソルおよび/またはオーディオ特徴テンソルのある要素に重み付けするように作用し得る。これは、パフォーマンスを向上させ得、たとえば、エラーレートを低減し、学習を向上させ得る。1つの場合では、これは、ある特徴を重み付けするために「先の」項を導入することを伴い得る。
1つの変形例では、言語的モデルは、入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、発声のテキスト表現を出力するニューラルネットワークアーキテクチャを含む。当該ニューラルネットワークアーキテクチャは、リカレントニューラルネットワークアーキテクチャであり得る。この変形例では、発声を解析するのに使用可能なテキストは言語的モデルによって生成され得、言語的モデルは、オーディオおよびトランスクリプションされたテキスト(たとえば字幕)を有するビデオのデータセットに基づいて共同で学習され得る。したがって、変形例は、スピーチを処理する際に解析エラーを低減するために、大きなオンラインデータセットを活用し得る。
1つの変形例では、オーディオ特徴テンソルは、環境のためのオーディオコンテキストの表現を含み、ビジュアル特徴テンソルは、環境のためのビジュアルコンテキストの表現を含む。この変形例では、サーバデバイスのレシーバは、オーディオ特徴テンソルに加えてオーディオデータを受け取るように構成され、言語的モデルは、オーディオデータからの発声を解析するために使用される音素データを生成する音響モデルを含み、音響モデルは、オーディオ特徴テンソルおよびビジュアル特徴テンソルに基づいて構成される。この変形例では、たとえば時間および/または周波数データからの音素のシーケンスをトランスクリプションするモデルといった音響モデルは、環境のコンテキストの表現としてビジュアル特徴テンソルおよびオーディオ特徴テンソルを供給することにより向上され得る。たとえば、この変形例は、たとえば確率および/またはnグラムシーケンスを使用する非ニューラル統計モデルが向上されることを可能にし得る。環境のコンテキストは、雨の中または公共交通機関上といったような困難性のあるオーディオ環境において、音素の正確なシーケンスを明確にするよう音響モデルを支援することができる。
1つの変形例では、音響モデルは、音響モデル構成のデータベースと、オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいて、データベースから音響モデル構成を選択する音響モデルセレクタと、オーディオデータを処理する音響モデルインスタンスとを含み、音響モデルインスタンスは、音響モデルセレクタによって選択される音響モデル構成に基づいてインスタンス化され、音響モデルインスタンスは、発声を解析するために使用される音素データを生成するように構成される。この変形例では、オーディオ特徴テンソルおよびビジュアル特徴テンソルはたとえば、環境について適切な音響モデルを選択するために使用される数ビットの出力を有する低次元数表現を含み得る。この変形例は、効率的に実現され得、かつ、クライアントデバイスからサーバデバイスに送信される付加的なデータを低減し得る。この変形例はさらに、現実世界のデータと共に使用される場合、堅牢であり得る。たとえば、アーキテクチャを制限することにより、学習問題および複雑なエラーモードの可能性が低減される。
1つの変形例では、言語的モデルはさらに、音素データを受け取り、かつ、発声を表わすテキストデータを生成する、音響モデルに伝達可能に結合される言語モデルを含む。この変形例では、言語モデルは、オーディオ特徴テンソルおよびビジュアル特徴テンソルを、発声を表わすテキストデータを生成するために使用される入力として受け取るように構成され得る。したがって、この変形例は、ある条件下で直接的な特徴・ツー・テキスト実現例(feature-to-text implementation)より信頼性があり得る2層または2ステージの言語的モデルを提供する。
1つの局面では、クライアントデバイスにおいてスピーチを処理するための方法が提供される。当該方法は、上記クライアントデバイス局面に関連して行なわれ得る。当該方法は、クライアントデバイスにおいて、ユーザからの発声を特徴とするオーディオデータをキャプチャすることと、クライアントデバイスにおいて、ユーザの環境を特徴とする画像データをキャプチャすることと、クライアントデバイスにおいてビジュアル特徴抽出器を使用して、画像データの1つ以上のフレームからビジュアル特徴テンソルのセットを抽出することとを含み、画像データのフレームは、ビジュアル特徴テンソルのセットより大きい情報コンテンツを有しており、たとえば、ビジュアル特徴テンソルは、画像データのフレームの圧縮された表現を提供しており、上記方法はさらに、クライアントデバイスにおいてオーディオ特徴抽出器を使用してオーディオデータからオーディオ特徴テンソルのセットを抽出することと、クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをサーバデバイスに送信することとを含み、サーバデバイスは、少なくともビジュアル特徴テンソルおよびオーディオ特徴テンソルを言語的モデルに供給するように構成されており、言語的モデルは、発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成される。
1つの局面では、サーバデバイスにおいてスピーチを処理するための方法が提供される。当該方法は、サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをクライアントデバイスから受け取ることを含み、ビジュアル特徴テンソルは、クライアントデバイスによってキャプチャされる画像データのフレームに基づいてクライアントデバイスのビジュアル特徴抽出器によって生成され、画像データのフレームは、クライアントデバイスの環境を特徴とし、かつ、ビジュアル特徴テンソルより大きい情報コンテンツを有しており、たとえば、ビジュアル特徴テンソルは、画像データのフレームの圧縮された表現を提供する。オーディオ特徴テンソルは、ユーザの発声の後でクライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、クライアントデバイスのオーディオ特徴抽出器によって生成される。上記方法はさらに、サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットを入力として言語的モデルに提供することを含み、言語的モデルは、発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成され、上記方法はさらに、言語的モデルの出力を使用して発声を解析することを含む。上記方法は、上記の局面に記載されるクライアント側の動作に応答してサーバ側の方法として行なわれ得る。
両方の局面の方法は、上記のデバイス局面について説明された利点と同様の利点を提供し得る。
1つの変形例では、当該サーバ側の方法は、サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られたセットに基づいて、音響モデル構成を選択することと、サーバデバイスにおいて、オーディオデータを受け取ることと、発声に対応する音素データを決定するために、音響モデル構成に従って構成される音響モデルをオーディオデータに適用することと、音素データを使用して発声を解析することとを含む。たとえば、この変形例は、上述したような堅牢な2層モデルを可能にし得る。
1つの変形例では、当該クライアント側の方法は、クライアントデバイスにおいて、発声に対する応答をサーバデバイスから受け取ることと、クライアントデバイスにおいて、サーバデバイスから受け取られる発声に対する応答に基づいてユーザに対する応答を提供することとを含む。たとえば、発声は質問のような音声コマンドを含み得、応答は、ユーザに対して口述される質問応答を含み得る。別の場合では、発声はスピーチを含み得、応答はスピーチの口述の指示を含み得る。さらに別の場合では、発声は、デバイスを制御する音声コマンドを含み得、応答は、音声コマンドの実行の後の当該デバイスの状態の指示を含み得る。
1つの変形例では、クライアント側の方法は、画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャに、キャプチャされた画像データから導出されるデータを提供することと、第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャに第1の出力層の出力を提供することとを含み、第2の出力層は、第1の出力層の次元数未満である次元数を有しており、第2の出力層の出力は、ビジュアル特徴テンソルのセットを生成するために使用される。この変形例は上述したような利点を有し得る。
1つの局面では、スピーチを処理するためのシステムを構成する方法が存在する。この局面では、当該方法は、スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、言語的モデルは、言語的特徴のセットを決定するために、オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、上記方法はさらに、時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、モデルパラメータのそれぞれのセットについて学習された値を決定するために、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルを、学習データを使用して共同で構成することとを含み、共同で構成することは、スピーチ認識モデルを通じて言語的モデルのエラーをバックプロパゲーションすることを含む。
上記の局面は、以前に記載されたクライアントデバイスおよびサーバデバイスを学習させる効率的な方法を提供し得る。オーディオ特徴抽出器と、ビジュアル特徴抽出器と、言語的モデルとを共同で構成することにより、言語的モデルによる予測におけるエラーは、言語的モデルを通ってオーディオ特徴抽出器およびビジュアル特徴抽出器へ「流れ」、当該エラーを最小化する出力特徴につながる態様でこれらの抽出器のパラメータを修正することが可能になる。従って、オーディオ特徴抽出器およびビジュアル特徴抽出器は、言語的モデルのパフォーマンスを向上させる特徴表現をラーニングする。この態様でのエンドツーエンドの学習は、自動化されたパイプラインの部分として構成および実現するのが容易である。
1つの変形例では、上記方法は、オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された値を1つ以上のクライアントデバイスに伝達することと、言語的モデルについての学習された値を1つ以上のサーバデバイスに伝達することと、学習された値を使用して1つ以上のクライアントデバイスおよび1つ以上のサーバデバイスを構成することとを含み、1つ以上のクライアントデバイスは、1つ以上のサーバデバイスによって処理されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成するために使用するために、学習された値をロードするように構成される。これにより、共同の構成は、分散されたシステムにおいて複数のデバイスに送達されるパラメータにより中央位置において行なわれ得る。
1つの変形例では、学習中に、言語的モデルによって使用されるオーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上が重み付けされ得る。特徴テンソルのうちの1つに対する値は、たとえば、オーディオ特徴テンソルおよびビジュアル特徴テンソルの1つ以上が利用不可能でも、言語的モデルが発声を解析することができるように堅牢性を向上させるために大きさが低減され得る。これにより、ビジュアル特徴テンソルが利用可能でない場合、言語的モデルは、オーディオのみのモードへ「フォールバック」することが可能であり得る。
1つの変形例では、上記方法は、学習されたビジュアル分類モデルを得ることと、学習されたビジュアル分類モデルのための新しい出力層を生成するために、構成されたビジュアル分類モデルの1つ以上の分類層を除去することと、ビジュアル特徴抽出器を得るために、1つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを新しい出力層に伝達可能に結合することとを含み、さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、新しい出力層の次元数より小さい。これは、たとえば、上で論じたように、予め学習されたモデルの使用と、これがもたらす利点との使用を可能にし得る。
1つの局面では、コンピュータプロセッサによって実行されると、上で記載した方法の局面のうちの1つ以上をマシンに実現させる命令を含むコードを格納する一時的でないコンピュータ読取可能媒体が存在する。
1つの局面では、スピーチ処理装置が存在する。当該スピーチ処理装置は、スピーチデータを解析するために使用される音素データを生成する音響モデルと、音響モデルからの音素データを使用してスピーチデータのトランスクリプションを生成する言語モデルと、スピーチデータがキャプチャされるビジュアル環境の表現を提供する、音響モデルおよび言語モデルのうちの少なくとも1つに伝達可能に結合されるビジュアルコンテキストインジケータとを含み、音響モデルおよび言語モデルのうちの1つは、ビジュアル環境の表現に基づいて区別的に構成される。
例に従ったスピーチ処理システムを示す概略図である。 例に従ったスピーチ処理のためのクライアントデバイスを示す概略図である。 例に従ったスピーチ処理機器を含むモータビークルを示す概略図である。 例に従ったスピーチ処理機器を含むモバイルコンピューティングデバイスを示す概略図である。 例に従った、クライアントデバイスとサーバデバイスとの間の通信を示すシーケンス図である。 例に従った、クライアントデバイスとサーバデバイスとの間の通信を示すシーケンス図である。 例に従った、クライアントデバイスとサーバデバイスとの間の通信を示すシーケンス図である。 例に従ったビジュアル特徴抽出器を示す概略図である。 例に従ったスピーチを処理するためのシステムを示す概略図である。 図6のシステムがどのように学習され得るかについての例を示す概略図である。 例に従った音響モデルセレクタを含む、スピーチを処理するためのシステムを示す概略図である。 例に従ったクライアントデバイスにおいてスピーチを処理するための方法を示すフロー図である。 例に従ったサーバデバイスにおいてスピーチを処理するための方法を示すフロー図である。 例に従ったスピーチを処理するためのシステムを構成する方法を示すフロー図である。 例示的なコンピューティングデバイスを示す概略図である。 例に従った、スピーチを処理するためのシステムを構成する間のコンピューティングデバイスのセット間の通信を示すシーケンス図である。
詳細な説明
以下に、さまざまな興味深い局面を示す本技術のさまざまな例を記載する。一般に、例は、記載された局面を任意の組合せで使用し得る。
本願明細書において記載されるある例は、スピーチ処理を向上するためにビジュアル情報を使用する。これらの例は、我々の環境内において普及した画像キャプチャデバイスを利用して、スピーチ処理パイプライン内で使用され得る環境の表現をエンコードする。そのため、これらの例は、オーディオ処理の精度および信頼性を向上するマルチモーダルな能力によりスピーチ処理システムを拡張するように理解され得る。
本願明細書において記載されるある例は、音声アシスタント、携帯電話、モータビークルおよびウェアラブルデバイスといった埋込スピーチ処理デバイスを含む多くのさまざまなデバイスにおいて向上が実現されることを可能にする実際的なクライアントサーバインプリメンテーションを提供する。これらの例は、ネットワーク上で交換されるデータ量を低減するが高度なスピーチ処理方法が適用されることを可能にするマルチモーダルなデータを処理するためのフレームワークを提供する。
本技術のある例は、スピーチ処理システムのためのシステムおよび方法を提供することにおいて、US8,768,693B2およびUS2009/0060351A1に対して利点を有する。US8,768,693B2は、オーディオデータをテキストに変換して画像にタグをつけることに関係があり、スピーチ処理を向上させるためにオーディオデータおよび画像データを使用していない。US2009/0060351A1は画像分類に関係がある。US2009/0060351A1は、画像をパッチに分割することを教示しており、これらのパッチについての特徴は「ビジュアルワード」として公知である。これらの「ビジュアルワード」は、言語的特徴とは対照的なハッシュコードの形態として理解され得る。「ビジュアルワード」は画像をカテゴライズするために使用される。US2009/0060351A1はスピーチ処理について有用な教示を提供していない。
クライアントサーバアーキテクチャ
図1は、例に従ったクライアントサーバアーキテクチャ100を示す。クライアントサーバアーキテクチャ100は、少なくとも1つのネットワーク130を介してサーバデバイス120と通信する複数のクライアントデバイス110を含む。ネットワーク130は、さまざまな物理的な技術(たとえば、イーサネット(登録商標)のような有線技術および/またはWi−Fi(登録商標)(IEEE802.11)規格およびセルラー通信技術のような無線技術)を使用して実現され得る1つ以上のローカルおよび/またはワイドエリアネットワークを含み得る。ある場合において、ネットワーク130は、1つ以上のプライベートネットワークおよびインターネットのようなパブリックネットワークの混合を含み得る。クライアントデバイス110およびサーバデバイス120は、異なる技術および通信経路を使用してネットワークを介して通信し得る。
クライアントデバイス110は、たとえば非コンピューティングデバイス内に位置する電子回路内の処理リソースといった埋込コンピューティングデバイスを含むある範囲のコンピューティングデバイスを含み得る。図1において、クライアントデバイス110は、例として、パーソナルコンピューティングデバイス112、ウェアラブルデバイス114、モータビークル116およびホームアシスタント118を含む。これらの例は限定的ではなく、たとえば、クライアントデバイスは代替的には、冷蔵庫およびテレビジョンのような「スマート」家電と、セキュリティ機器と、デスクトップおよびオフィスコンピューティングデバイスと、カメラと、ロボティックデバイスとを含んでもよい。パーソナルコンピューティングデバイス112は、セルラー通信デバイスおよび/または無線ネットワーキングデバイスを含んでもよい。パーソナルコンピューティングデバイス112はスマートフォン、タブレットまたはラップトップデバイスを含んでもよい。図1におけるウェアラブルデバイス114はいわゆる「スマート」ウォッチとして示されているが、代替的には、ヘッドマウントユーザインターフェイスデバイス、イヤーピース、ウェアラブルフィットネストラッカー、および、埋込回路を有する「スマート」衣類デバイスといったデバイスを含んでもよい。モータビークル116は車として示されており、たとえば、クライアントデバイスは車両制御システム内に埋め込まれてもよいが、たとえば航空および海上ビークルといった他のビークルタイプおよび形態が使用されてもよい。ビークルは手動で制御されてもよく、および/または、自律機能(たとえば航空「ドローン」)を有してもよい。ホームアシスタント118は、家で使用されるオーディオデバイスを含み得る。例示的なクライアントデバイスのさらに別の特徴は、後のセクションにおいてより詳細に記載される。
サーバデバイス120は、1つ以上の中央処理装置および/またはグラフィックスプロセッシングユニットを有するコンピューティングデバイスと、メモリリソースとを含み得る。図1において、サーバデバイス120は、レシーバ122および言語的モデル124を含む。レシーバ122は、通信インターフェイスと、(たとえばマルチレイヤー通信スタックにおける)1つ以上の通信プロトコルのインプリメンテーションとを含み得る。レシーバ122は、ネットワーク130を介してクライアントデバイス110からデータを受け取るように構成される。1つの実現例において、レシーバ122は、有線または無線物理インターフェイスと、予め規定されたフォーマットでの要求を受け取るための方法を提供する1つ以上の通信プロトコルとを含み得る。1つの場合では、レシーバ122は、インターネットプロトコルスイート上で動作するアプリケーションレイヤーインターフェイスを含み得る。この場合、アプリケーションレイヤーインターフェイスは、サーバデバイス120を識別する特定のインターネットプロトコルアドレスに方向付けされる通信を受け取るように構成され得、パス名またはウェブアドレスに基づいたルーティングが1つ以上のプロキシおよび/または通信(たとえば「ウェブ」)サーバによって行なわれる。
図1におけるサーバデバイス120は、ユーザ(たとえばクライアントデバイス110のユーザ)によって発される発声に関するデータをクライアントデバイス110の1つ以上から受け取るように構成される。このコンテキストにおける発声は、スピーチのような、言語的情報を表わす、ユーザによって作り出されるボーカル音に関連付けられる。たとえば、発声は、ユーザの喉頭から発せられるスピーチを含み得る。発声は、たとえばユーザからの話された要求といった音声コマンドを含み得る。音声コマンドはたとえば、アクションを実行するための要求(たとえば、「音楽を再生」、「暖房をオン」、「リマインダをセット」)、要求に関するさらに別の情報(たとえば、「アルバムXY」、「華氏68度」、「火曜日の午前9時」)」、トランスクリプションされるスピーチ(「たとえば、…を筆記)」または「ユーザAに次のメッセージを送信…」)、および/または、情報の要求(たとえば「Cの交通量はどんな感じ?」、「今日の天気は?」、または、「最高のビーガンタコスはどこ?」)を含み得る。ユーザは、人間またはマシンであり得る(たとえば、後者は、人工スピーチを使用するマシンツーマシンの通信を表わし得る)。
図1の例では、クライアントデバイス110は、ユーザからの発声を特徴とするオーディオデータをキャプチャするように構成される。1つの場合では、オーディオデータはクライアントデバイス自身によってキャプチャされ得、別の場合では、別のデバイスがオーディオデータをキャプチャし得る。たとえば、ウェアラブルデバイス114を動作するユーザは、ウェアラブルデバイス114に向かって話し得るか、または、ホームアシスタント118または別のオーディオキャプチャデバイスを含む部屋の中へ話し得る。オーディオデータは、1つ以上のオーディオキャプチャデバイス(たとえば1つ以上のマイクロフォン)からの時系列測定値を含み得る。たとえば、パルス符号変調(PCM: Pulse Code Modulation)データの1つ以上のチャンネルが、予め規定されたサンプリングレート(たとえば8kHzまたは44.1kHz)でキャプチャされ得、各サンプルは予め規定された数のビットによって表わされる(たとえば1つのサンプル当たり8ビット、16ビットまたは24ビットであり、各サンプルは整数または浮動小数点値を含む)。キャプチャの後、オーディオデータは、たとえば、時間および周波数ドメインのうちの1つ以上においてフィルタリングすることによって、ビームフォーミングおよびノイズ低減を適用することによって、および/または、フィルタリングおよび正規化によって処理され得る。1つの場合において、オーディオデータは、たとえば、スペクトログラムデータの1つ以上のフレームを作成するために高速フーリエ変換を行なうことによって、周波数ドメインにおいて時間にわたる測定値に変換され得る。ある場合には、フィルタバンクが、メル周波数ケプストラム係数のような1つ以上の周波数ドメイン特徴についての値を決定するために適用され得る。本願明細書に記載されるようなオーディオデータは、オーディオ処理パイプラインに沿ってなされた任意の測定値を含み得る。
図1の例において、キャプチャされたオーディオデータは、クライアントデバイス110のうちの少なくとも1つからネットワークを介してサーバデバイス120のレシーバ122に送信されるオーディオ特徴140のセットに変換される。これらのオーディオ特徴140は、たとえば1つ以上の要素を有する1つ以上の次元を有するアレイといったオーディオ特徴テンソルを含み得る。1つの場合では、オーディオ特徴テンソルは、固定長1次元アレイ(たとえばベクトル)、または、たとえばアレイの各要素についての1つの値といった数値を含み得る。数値は、(たとえば、8ビットは0から255の範囲を与えるといったように、特定のビット長によってセットされる範囲内の)整数値、または、(たとえば、32ビットまたは64ビットの浮動小数点値として規定される)浮動小数点値を含み得る。浮動小数点値は、正規化がオーディオ特徴テンソルに適用される場合、たとえば値が0〜1または−1〜1の範囲にマッピングされる場合、使用され得る。たとえばオーディオ特徴テンソルのサイズ(単位はビットまたはバイト)は、大きさがより小さくなる順である場合、生のキャプチャされたオーディオデータのサイズより小さくあり得る。したがって、たとえば、データサイズおよび/またはデータ要素の数によって表わされるようなオーディオ特徴テンソルの情報コンテンツは、オーディオデータの情報コンテンツよりも少ない。たとえば44.1kHzで16ビットサンプルを有するオーディオデータの1秒は、88200バイトのサイズを有するデータに帰着し得、その一方、32ビットの浮動小数点値の256個の要素は1024バイトのサイズを有するデータに帰着し得る(8ビットの整数値は、256バイトであるさらに小さなサイズを有する)。これは、圧縮された表現を提供すると理解され得、たとえば、ビジュアル特徴テンソルのサイズが、入力として使用される画像データの対応するフレームまたは複数のフレームのサイズ未満であると理解され得る。一般に、ビジュアル特徴テンソルは、たとえばその後のスピーチ処理のためにそれでも非常に情報を与えるものであり、サイズは、スピーチ処理に適切でない情報を廃棄することにより低減され、これはロッシー圧縮(lossy compression)の形態として機能する。
図1の例において、オーディオデータと同様の態様で、クライアントデバイス110はさらに、クライアントデバイスの環境を特徴とする画像データをキャプチャするように構成される。1つの場合では、画像データはクライアントデバイス自身によってキャプチャされ得、別の場合では、別のデバイスが画像データをキャプチャし得る。たとえば、ウェアラブルデバイス114はカメラを含み得、画像データはカメラからキャプチャされる画像を含み得る。別の場合では、ユーザはウェアラブルデバイス114とインタラクションしており、オーディオデータのキャプチャは、環境内の別の画像キャプチャデバイスからの画像データのキャプチャをトリガし得る。たとえば、ユーザは、1つ以上のインターネットプロトコルカメラを含むホーム監視システムを有し得る。この場合において、ユーザがウェアラブルデバイス114に音声コマンドを発すると、ウェアラブルデバイス114は、ユーザの識別された位置をカバーする1つ以上のインターネットプロトコルカメラからの画像データのフレームのキャプチャを命令し得る。1つの場合では、クライアントデバイス110はビデオキャプチャデバイスを含み得、画像データは、ビデオデータの1つ以上のフレームおよび/または静止画像キャプチャデバイスを含み、画像データは、静止画像の1つ以上のフレームを含む。画像データは、たとえば、高さおよび幅(たとえば、アレイの行および列に相当する)を有する2次元アレイを含み得る。1つの場合において、画像データは、複数のカラーチャンネルを有し得、たとえば、赤、緑、青(RGB)のカラーの各々のための3つのカラーチャンネルを含み得、各カラーチャンネルは、カラー値の関連付けられる2次元アレイを有する(たとえば1つのアレイ要素当たり8ビット、16ビットまたは24ビット)。カラーチャンネルは、異なる画像「面」とも称され得る。ある場合では、たとえば明るさチャンネルを表わす単一のチャンネルだけが使用されてもよい。異なるカラースペースが用途に依存して使用されてもよく、たとえば、画像キャプチャデバイスは、明るさチャンネルY(たとえば輝度)ならびに2つの対向するカラーチャンネルUおよびV(たとえば、概略的に青−緑また赤−緑に整列される2つのクロミナンスコンポーネント)を特徴とするYUV画像データのフレームをネイティブに生成し得る。オーディオデータと同様に、キャプチャの後、画像データのフレームが処理され得、たとえば、1つ以上の画像フィルタリング動作が適用され得る。
図1の例において、キャプチャされた画像データは、クライアントデバイス110のうちの少なくとも1つからネットワークを介してサーバデバイス120のレシーバ122に送信されるビジュアル特徴150のセットに変換される。これらのビジュアル特徴150は、たとえば1つ以上の要素を有する1つ以上の次元を有するアレイといったビジュアル特徴テンソルを含み得る。1つの場合では、ビジュアル特徴テンソルは、固定長1次元アレイ(たとえばベクトル)、または、たとえばアレイの各要素についての1つの値といった数値を含み得る。数値は、(たとえば、8ビットは0から255の範囲を与えるといったように、特定のビット長によってセットされる範囲内の)整数値、または、(たとえば、32ビットまたは64ビットの浮動小数点値として規定される)浮動小数点値を含み得る。浮動小数点値は、正規化がビジュアル特徴テンソルに適用される場合、たとえば値が0〜1または−1〜1の範囲にマッピングされる場合、使用され得る。ビジュアル特徴テンソルはオーディオ特徴テンソルと同じサイズであってもよく、または、異なるサイズであってもよい。たとえば、オーディオ特徴テンソルは、各要素が8ビットの値である32要素アレイを含み得、ビジュアル特徴テンソルは、各要素が8ビットまたは16ビットの値である256要素アレイを含み得る。一般に、ビジュアル特徴テンソルは、画像データの対応するフレーム未満である情報コンテンツを有しており、たとえば、前述の例を使用すると、8ビットの値を有する長さ256のビジュアル特徴テンソルは、8ビットの値の3つのチャンネルを有する640×480のビデオフレームより小さい、すなわち、2048ビットvs7372800ビットである。情報コンテンツは、ビットで測定され得るか、または、エントロピー測定の形態で測定され得る。
図1の例では、言語的モデル124は、レシーバ122からオーディオ特徴140およびビジュアル特徴150を受け取り、ユーザの発声を解析するためにこれらを使用する。1つの場合では、言語的モデル124は、発声を解析するのに使用可能な言語的特徴のセットを決定するように構成される。言語的モデルはスピーチ処理モジュールとも称され得る。たとえば、言語的特徴は、音素、単語部分(たとえば語幹または原始語)、および単語(句読点にマッピングされる句切りのようなテキスト特徴を含む)を含み得る。1つの場合では、言語的特徴は、発声を表わすテキスト出力を生成するために使用され得る。この場合、テキスト出力はそのまま使用されてもよく、または、コマンドおよび/もしくはコマンドデータの予め規定されたセットにマッピングされてもよい。別の場合では、言語的特徴は、コマンドおよび/またはコマンドデータの予め規定されたセットに直接的にマッピングされてもよい。言語的モデル124は、オーディオ特徴140およびビジュアル特徴150のみに基づいて動作し得るか、または、これらおよび付加的なオーディオデータとに基づいて動作し得る。当該付加的なオーディオデータはたとえば、クライアントデバイスにおけるオーディオ特徴140の生成の前のオーディオ処理パイプラインの出力を表わすオーディオデータである。
オーディオ特徴140に加えてビジュアル特徴150を使用することは、言語的モデル124のパフォーマンスを向上させ得る。ビジュアル特徴150は、オーディオ特徴140によって表わされるオーディオコンテキストと異なる、発声についてのビジュアルコンテキストを提供し得る。たとえば、ビジュアル特徴150のセットは、ユーザがモータビークル内にいることを示す表現を提供し得るか、または、ユーザが公園において外にいることを示す表現を提供し得る。言語的モデル124によって可能性のあるものとしてランク付けされる複数の候補音素シーケンス(たとえば、しきい値より大きな確率を有する)が存在する場合、「モータビークル」の場合では、言語的モデル124は、周囲の道路およびビークルノイズの存在と一致している音素シーケンスを選択し得、その一方、「外にいる」場合では、言語的モデル124は、風のノイズの存在と一致している音素シーケンスを選択し得る。各場合において、ビジュアル特徴150に基づいて異なる音素シーケンスが選択され得る。別の例として、音素シーケンス「AY S K R IY M」は、ビジュアル特徴150のセットが明るい外部環境、スーパーマーケットまたはアイスクリームコーンを表わす場合には、「アイスクリーム(ice cream)」テキスト(または「アイスクリーム(ice cream)」の知識ベースオブジェクト表現)にマッピングされ得るが、ビジュアル特徴150のセットがガレージまたは納屋のようなダークもしくは暗い環境または蜘蛛のような動物を表わす場合には、「アイ・スクリーム(I scream)」テキスト(またはユーザおよび「スクリーム(scream)」するアクションの知識ベースのオブジェクト表現)にマッピングされる。
本願明細書において記載される例において、適切なオーディオおよび/またはビジュアル特徴140,150は、言語的モデル124とともにビジュアル特徴抽出器およびオーディオ特徴抽出器を共同で構成することによって、生成され得る。いくつかの例の場合、言語的モデル124は、ビジュアル特徴抽出器およびオーディオ特徴抽出器のセットと共同で学習され得るか、および/または、抽出器とパラメータを共有し得る。可能な共同の構成のさらなる詳細は後で以下に記載される。他の例の場合、ビジュアル特徴抽出器およびオーディオ特徴抽出器を言語的モデルにより共同で構成することは、ビジュアル特徴抽出器、オーディオ特徴抽出器および言語的モデルは、連係された態様で互いに動作するように構成され得ることを意味する。ビジュアル特徴抽出器、オーディオ特徴抽出器および言語的モデルは、学習されたニューラルネットワークである場合、別個のネットワークとして扱われることになるが、勾配の学習プロセス計算は、言語的モデルからビジュアル特徴抽出器およびオーディオ特徴抽出器にバックプロパゲーションされることになる。
例示的なクライアントデバイス
図2は、クライアントデバイス210の例200を示す。クライアントデバイス210は、図1に示されるクライアントデバイス110のうちの1つのバージョンを含み得る。なお、クライアントデバイス210は、本記載に関連するある特徴を示すのみであり、クライアントデバイス210は、説明の明瞭さのためにここで示されない付加的な特徴を含んでもよい。たとえば、クライアントデバイスは、ディスプレイスクリーンを有さないイヤーピースのように、スクリーンレスであってもよい。いくつかのクライアントデバイスは、自動販売機のように静置されてもよい。いくつかのクライアントデバイスは、自動車またはロボティックデバイスのように移動可能であってもよい。いくつかのクライアントデバイスは携帯電話のようにポータブルであってもよい。いくつかのクライアントデバイスは、キーボードまたはタッチスクリーンのような手動インターフェイスを含んでもよい。さらに、クライアントデバイス210は、コンポーネントの1つの可能な配置を提供し、たとえば分散ベースの他の配置も可能である。
図2のクライアントデバイス210は、オーディオキャプチャデバイス220および画像キャプチャデバイス230を含む。オーディオキャプチャデバイス220は、クライアントデバイス210の外部の環境から音225を表わすオーディオデータをキャプチャするように構成される。上述したように、オーディオキャプチャデバイス220は、予め規定されたサンプリングレートでオーディオサンプルを記録するように構成されるマイクロフォンまたはマイクロフォンのアレイを含み得る。ある場合には、サンプリングレート、ビット分解能、チャンネルの数およびサンプルフォーマットのようなオーディオキャプチャデバイス220の局面が構成可能であり得る。オーディオデータはパルスコード変調され得る。オーディオキャプチャデバイス220はさらに、オーディオ前処理コンポーネントおよび/またはフィルタリングコンポーネント(たとえばコントラスト調節、ノイズ除去など)を含み得る。本願明細書において記載されるコンポーネントおよび方法は、共同の構成ステージにより幅広いさまざまなオーディオフォーマットに対応することができる。
画像キャプチャデバイス230は、クライアントデバイス210の外部のビジュアル環境235を特徴とする画像データのフレームをキャプチャするように構成される。上述したように、画像キャプチャデバイス230は、コマンドにより、または、予め規定されたサンプリングレートで画像データのフレームをキャプチャするように構成される1つ以上のスチルカメラまたはビデオカメラを含み得る。1つの場合において、予め規定されたサンプリングレートは、全解像度ビデオのためのフレームレート未満であり得、たとえば、ビデオストリームは1秒当たり30個のフレームでキャプチャされ得るが、画像キャプチャデバイスのサンプリングレートはこのレートでキャプチャしてもよく、または、1秒当たり1フレームのような低いレートでキャプチャしてもよい。当該例において、画像データの1つ以上のフレーム(たとえば合計または1秒当たり)は、さらなるスピーチ処理で使用するために、ビジュアル環境235の状態をキャプチャするのに十分であり得る。画像キャプチャデバイス230は、1つ以上のカラーチャンネル(たとえば、上述したようなRGBまたはYUV)を有する画像データの1つ以上のフレームをキャプチャし得る。ある場合には、フレームレート、フレームサイズおよび解像度、カラーチャンネルの数ならびにサンプルフォーマットのような画像キャプチャデバイス230の局面が構成可能であり得る。ある場合において、画像データのフレームはダウンサンプリングされ得、たとえば、3840×2160の「4K」解像度でビデオをキャプチャするビデオキャプチャデバイスでは、640×480以下にダウンサンプリングされ得る。代替的には、低コストの埋込デバイスの場合、320×240以下で画像データのフレームをキャプチャする低解像度画像キャプチャデバイスが使用され得る。ある場合において、安価な低解像度画像キャプチャデバイスでも、スピーチ処理が向上するために十分な視覚情報を提供し得る。前述のように、画像キャプチャデバイス230はさらに、画像前処理コンポーネントおよび/またはフィルタリングコンポーネント(たとえばコントラスト調節、ノイズ除去、色調節、クロッピング(cropping)など)を含み得る。本願明細書において記載されるコンポーネントおよび方法は、共同の構成ステージにより幅広いさまざまなオーディオフォーマットに対応することができる。
ある場合において、画像キャプチャデバイスは、ビジュアル環境の広い視界をキャプチャするために1つ以上のレンズを含み得る。たとえば、レンズは、180度までの視界をキャプチャすることができる広角レンズまたは魚眼レンズを含み得る。ある場合において、画像データが、(たとえばビークルなどの上部にマウントされるような)360度のパノラマカメラからキャプチャされ得る。キャプチャされた画像データは人間によって解釈可能である必要はなく、組み合わせたスピーチ処理システムの共同の構成は、画像フォーマットの幅広いアレイからの関連する特徴表現を「ラーニング」することになる。
図2のクライアントデバイス210はさらにオーディオ特徴抽出器240およびビジュアル特徴抽出器250を含む。オーディオ特徴抽出器240は、オーディオキャプチャデバイス220に通信可能に結合され、ビジュアル特徴抽出器250は、画像キャプチャデバイス230に通信可能に結合される。
オーディオ特徴抽出器240は、オーディオキャプチャデバイス220からオーディオデータを受け取るように構成される。これは、生のオーディオサンプルおよび/または前処理されたオーディオデータのセットを含み得る。1つの場合では、オーディオ特徴抽出器240は、たとえばオーディオ要素の固定長アレイといった、初期テンソルの形態でオーディオデータを受け取るように構成される。オーディオデータは、時間サンプル当たり供給される大きさを有するパルスコード変調されたオーディオデータであり得る。オーディオデータは、1つの時間サンプルのためのデータ(たとえば、シーケンスとして供給される)、および/または、時間サンプルのセットのためのデータ(たとえば、予め規定された時間窓に対応するデータのフレームとして受け取られる)を含み得る。たとえば、44.1kHzのサンプリングレートでは、1つの秒窓についての1つのチャンネルのためのオーディオデータのアレイは、たとえば44100個の8ビット、16ビットまたは24ビットの値といった44100個のサンプルを含み得る。オーディオデータは、t秒の時間期間をカバーするサンプルのセットのローリングにおいて供給され得る。1つの場合において、オーディオ特徴抽出器240は、周波数データのフレームとして、たとえば1つ以上の時間点についての周波数の範囲についての振幅(および/または位相)の値のセットとして、オーディオデータを受け取るように構成され得る。
オーディオ特徴抽出器240は、オーディオキャプチャデバイス240からオーディオデータを受け取り、かつ、1つ以上のオーディオ特徴テンソル260を生成するように構成される。上述したように、オーディオ特徴テンソルは、1つ以上の次元を有する値のアレイを含み得る。1つの場合では、オーディオ特徴テンソルは、オーディオデータにおいて検出されるオーディオ特徴を表わす数値のベクトルを含み得る。たとえば、オーディオ特徴テンソルは、8ビットもしくは16ビットの整数値または32ビットもしくは64ビットの浮動小数点値の16要素アレイ、32要素アレイ、64要素アレイまたは256要素アレイを含み得る。1つの場合では、オーディオ特徴テンソル260は、1つ以上の2値または整数値のアレイを含み得る。この場合、ビジュアル特徴テンソル270の要素は、特定のオーディオ環境を識別するフラグまたは分類を表わし得る(たとえば、「屋内/屋外」、「車内/車外」、「群衆/非群衆」、「大音/静音」など)。別の場合では、オーディオ特徴テンソル260は、2つ以上の次元を含み得、たとえば、第2の次元は一連の時間サンプルを表わし得、および/または、各次元は異なる特徴セットを表わし得る。たとえば、発声について生成されるオーディオ特徴テンソル260は、t個の時間サンプルに亘るs個の特徴セットからのf個の特徴を表わすf×s×tテンソル(たとえば、A[i,j,k])を含み得る。
ビジュアル特徴抽出器250は画像キャプチャデバイス230から画像データを受け取るように構成される。これは、生の画像もしくはビデオフレームおよび/または前処理された画像データのセットを含み得る。1つの場合において、ビジュアル特徴抽出器250は、たとえば1つ以上のy×x×c画像平面のシーケンス、および/または、付加的な時間次元に亘るそのような平面のボリューム(たとえばy×x×c×t)といった初期テンソルの形態の画像データを受け取るように構成され、上記式中、yは行(たとえば画像高さ)の数であり、xは列(たとえば画像幅)の数であり、cはカラーチャンネルの数(たとえばRGBの場合は3つ)である。ある場合では、画像データはたとえば、時間tでの画像データが同じ時間のオーディオサンプルに対応するように、オーディオデータと同期されてもよい。他の場合では、画像データは、オーディオサンプルと時間的に相関されなくてもよく、たとえば、発声がなされる直前、発声がなされている間、および/または、発声がなされた後にキャプチャされた画像データであってもよい。
ビジュアル特徴抽出器250は、画像キャプチャデバイス230から画像データを受け取り、かつ、1つ以上のビジュアル特徴テンソル270を生成するように構成される。上述したように、ビジュアル特徴テンソルは、1つ以上の次元を有する値のアレイを含み得る。ビジュアル特徴テンソル270は、オーディオ特徴テンソル260に類似する形態を有し得る。ある場合には、ビジュアル特徴テンソル270は、サイズ、次元およびデータタイプのうちの少なくとも1つによって、オーディオ特徴テンソル260と異なり得る。1つの場合では、ビジュアル特徴テンソルは、画像データにおいて検出されるビジュアル特徴を表わす数値のベクトルを含み得る。たとえば、ビジュアル特徴テンソルは、8ビットもしくは16ビットの整数値または32ビットもしくは64ビットの浮動小数点値の16要素アレイ、32要素アレイ、64要素アレイまたは256要素アレイを含み得る。1つの場合では、ビジュアル特徴テンソル270は、1つ以上の2値または整数値のアレイを含み得る。この場合、ビジュアル特徴テンソル270の要素は、特定のビジュアル環境を識別するフラグまたは分類を表わし得る(たとえば、「屋内/屋外」、「車内/車外」、「群衆/非群衆」、「位置分類」など)。別の場合では、ビジュアル特徴テンソル270は、2つ以上の次元を含み得、たとえば、第2の次元は一連の時間サンプルを表わし得、および/または、各次元は異なる特徴セットを表わし得る。たとえば、発声について生成されるビジュアル特徴テンソル270は、t個の時間サンプルに亘るs個の特徴セットからのf個の特徴を表わすf×s×tテンソル(たとえば、V[i,j,k])を含み得る。この場合、f、sおよびtはf、sおよびtと等しくてもよく、等しくなくてもよい。ある場合には、最適な特徴テンソルサイズは、精度と、学習時間および推論速度に対する負の影響との間のトレードオフとして選択され得る。
図2に戻って、クライアントデバイス210は、たとえば図1に示されるサーバデバイス120に類似するサーバデバイスにオーディオ特徴テンソル260およびビジュアル特徴テンソル270を送信するトランスミッタ280を含む。トランスミッタ280は、図1のレシーバ122と同様の態様で、通信インターフェイスと、(たとえばマルチレイヤー通信スタックにおける)1つ以上の通信プロトコルのインプリメンテーションとを含み得る。トランスミッタ280は、図1に示されるネットワーク130のような1つ以上のネットワークを介して、クライアントデバイス210からデータを送信するように構成され得る。1つの実現例において、トランスミッタ280は、有線または無線物理インターフェイスと、予め規定されたフォーマットでの要求を開始するための方法を提供する1つ以上の通信プロトコルとを含み得る。1つの場合では、トランスミッタ280は、たとえばデバイスアドレスおよびポート番号を使用してセットアップされると、構成された通信リンクを介してデータを送信し得る。トランスミッタ280は、特定のインターネットプロトコルアドレス(および、いくつかの場合には、ポート番号)を使用して識別されるアプリケーションレイヤーインターフェイスにデータを送信するように構成され得る。
図1を参照して記載されたように、オーディオ特徴テンソル260およびビジュアル特徴テンソル270は、最初にキャプチャされたオーディオデータおよび画像データに関連付けられる発声を解析するために、サーバデバイスにおいて言語的モデルによって使用され得る。一例では、オーディオ特徴テンソル260およびビジュアル特徴テンソル270は、発声によって表わされる音声コマンドを決定するために直接的に使用され得る。他の例において、オーディオ特徴テンソル260およびビジュアル特徴テンソル270は、発声を解析するために、オーディオデータと一緒に付加的な入力として使用され得る。両方の場合において、少なくとも、ビジュアル特徴テンソル270は、発声の環境についてのビジュアルコンテキストの数値表現を提供する。オーディオ特徴テンソル260は、発声自体の数値表現または環境についての音響コンテキストの数値表現のうちの1つ以上を提供し得る。
1つの場合では、オーディオデータは、複数の部分と、環境の周囲のオーディオ記録を表わす第1の部分と、発声のオーディオ記録を表わす第2の部分とを含み得る。第1の部分は、第2の部分の前、第2の部分中、または、第2の部分の後に記録され得る。オーディオデータの第1の部分は、オーディオ特徴テンソル260を生成するために、オーディオ特徴抽出器240によって処理され得、オーディオデータの第2の部分は、オーディオ特徴テンソル260と一緒に発声を解析するために送信され得る。発声は、キャプチャされたスピーチを特徴としないオーディオ時間の連なりのセクション同士の間のキャプチャされたスピーチの期間として規定され得、オーディオデータは両方を表わし得る。
ある場合には、画像データの複数のフレームが異なる時間においてキャプチャされ得る。たとえば、画像データのフレームは、以下の時間のうちの1つ以上においてキャプチャされ得る。すなわち、発声の前、発声の開始時、発声中、発声の終了時、および/または、発声の後のうちの1つ以上においてキャプチャされ得る。画像データのフレームは、画像データが異なる時間から処理され得るようにバッファされ得る。ある場合において、バッファは、発声の特定の部分からの複数のフレームでポピュレートされ得、当該複数のフレームは、ビジュアル特徴抽出器への入力のためのデータボリュームとして取得され得る。
例示的なモータビークル
図3Aは、クライアントデバイス300の1つの例示的な実現例を示す。これは、図1のクライアントデバイス116または図2のクライアントデバイス210の実現例であり得る。この場合、クライアントデバイスは自動車305に組み込まれる。図3Aは、自動車305の側面図を示す。自動車305は、自動車305のコンポーネントを制御するための制御ユニット310を含む。クライアントデバイス210のコンポーネントはこの制御ユニット310に組み込まれ得る。他の場合では、クライアントデバイス210のコンポーネントは、制御ユニット310とのコネクティビティのオプションを有する別個のユニットとして実現され得る。自動車305はさらに、多くの画像キャプチャデバイス315、320および325を含む。これらは、複数の外部ビデオカメラ315および320と、少なくとも1つの内部ビデオカメラ325とを含んでいる。この例において、画像キャプチャデバイス315、320および325は、制御ユニット310に通信可能に結合され得、かつ、制御ユニット310によって制御され得る。複数の外部ビデオカメラ315および320は、駐車動作および/または自律運転機能のために使用され得る。少なくとも1つの内部ビデオカメラ325は、たとえばビデオデータによるボイスオーバインターネットプロトコルコールといったビデオ通信、および/または、環境モニタリングのために使用され得る。
本例における自動車305は、スピーチキャプチャのために前方にマウントされたマイクロフォン330のための方位に乗客を保持するための前方シートおよび後方シートを含む。自動車305はさらに、安全性について重大な表示情報を有する運転手ビジュアルコンソール(図示せず)、ならびに/または、ナビゲーション機能、娯楽機能および環境制御機能を有する一般的なコンソール(図示せず)を含み得る。運転手ビジュアルコンソールおよび一般的なコンソールも、制御ユニット310に通信可能に結合され得る。この例における制御ユニット310はさらに、ローカル処理モジュールおよび無線ネットワーク通信モジュールを含む。
この例において、前方にマウントされたマイクロフォン330は、図2のオーディオキャプチャデバイス220を実現し得、画像キャプチャデバイス315、320および325のうちの1つ以上は、画像キャプチャデバイス230を実現し得る。ローカル処理モジュールは、オーディオ特徴抽出器240およびビジュアル特徴抽出器250を実現するために少なくとも1つのプロセッサおよびメモリを含み得る。無線ネットワーク通信モジュールはトランスミッタ280を実現し得る。
ある場合には、自動車はさらに、側方にマウントされたマイクロフォン、前方オーバーヘッドマルチマイクロフォンスピーチキャプチャユニット、後方オーバーヘッドマルチマイクロフォンスピーチキャプチャユニットといった、付加的なオーディオキャプチャデバイスを含み得る。側方のマイクロフォンならびに前方および後方スピーチキャプチャユニットは、スピーチオーディオをキャプチャし、ノイズをキャンセリングし、話者の位置を識別することを提供し得る。この場合、オーディオ特徴抽出器240を実現するために、これらのマイクロフォンおよびキャプチャユニットのうちの1つ以上は、制御ユニット310にオーディオデータを提供し得る。制御ユニット310は、画像キャプチャデバイス315、320および325のうちの1つ以上によって得られる画像データから1つ以上のビジュアル特徴テンソルのセットを生成するように構成される。無線ネットワーク通信モジュールは、制御ユニット310によって生成されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを処理のためにリモートサーバに送信し得る。ある場合には、制御ユニット310はさらに、図1におけるサーバデバイス120のようなサーバ側の機能を実現し得る。これは「オフライン」モードにおける場合であり得る。1つの場合では、1つ以上のマイクロフォンおよびキャプチャユニットが、発声を特徴とするオーディオデータをキャプチャし得、1つ以上の他のマイクロフォンおよびキャプチャユニットが、オーディオ特徴テンソルの生成のためのオーディオデータをキャプチャし得る。別の場合では、各利用可能なマイクロフォンおよびキャプチャユニットが、発声解析のために少なくともオーディオ特徴テンソルを生成するために処理されるオーディオデータの異なるチャンネルを提供し得る。
例示的なモバイルコンピューティングデバイス
図3Bは、クライアントデバイス350の別の例を示す。これは、図1のクライアントデバイス112または図2のクライアントデバイス210の実現例であり得る。この場合、クライアントデバイスはモバイルコンピューティングデバイス355に組み込まれる。図3Bは、モバイルコンピューティングデバイス355の前方図および後方図を示す。モバイルコンピューティングデバイス355はスマートフォンまたはタブレットを含み得る。モバイルコンピューティングデバイス355の前方部は、ユーザへ情報を表示するためのディスプレイスクリーン360を特徴とする。ディスプレイスクリーンはタッチスクリーンを含み得る。モバイルコンピューティングデバイス355の前方部はさらに、前方向きカメラ365および前方向きマイクロフォン370を特徴とする。モバイルコンピューティングデバイス355の後方部は、後方向きカメラ375および低部内部マイクロフォン380を特徴とする。モバイルコンピューティングデバイス355の後方図はさらに、内部マルチコアプロセッサ390および無線ネットワーク通信モジュール395を強調している。モバイルコンピューティングデバイス355は、複数の付加的なコンポーネントを特徴とし得るが、これらは明瞭さのために示されていない。前方および後方向きカメラ365および375は、静止画カメラまたはビデオカメラを含み得る。
使用において、前方向きマイクロフォン370および低位置内部マイクロフォン380のうちの1つ以上は、図2のオーディオキャプチャデバイス220を実現するために使用され得る。図3Aの例により記載されたように、1つのマイクロフォンがスピーチデータ(すなわち発声)をキャプチャし得るとともに1つのマイクロフォンが周囲の音データをキャプチャし得るか、または、両方のマイクロフォンが、発声とスピーチがない期間とを特徴とするマルチチャンネルオーディオデータを提供するために使用され得る。同様に、前方向きカメラ365および後方向きカメラ375のうちの1つ以上は、図2の画像キャプチャデバイス240として使用され得る。1つの場合では、画像データは、ユーザの環境を最も良く示すカメラからキャプチャされ得る。たとえば、モバイルコンピューティングデバイス355がテーブル上で上を向けられている場合、画像データは前方向きカメラ365からキャプチャされ得る。ユーザが歩いている場合、または、自身の前にモバイルコンピューティングデバイス355を保持している場合、画像データは両方のカメラからキャプチャされ得る。ユーザが自身の耳に対してモバイルコンピューティングデバイス355を保持している場合、後方向きカメラ374のみが使用され得る。
図3Bの例では、マルチコアプロセッサ390は、図2のオーディオ特徴抽出器240およびビジュアル特徴抽出器250を実現し得る。1つの場合では、これらは、メモリからロードされるとともにマルチコアプロセッサ390上でパラレルスレッドとして実行されるコンピュータプログラムコードを含み得る。他の例において、モバイルコンピューティングデバイス355は、図2のオーディオ特徴抽出器240およびビジュアル特徴抽出器250の各々を実現するために、専用デジタル信号プロセッサを含み得る。複数のアプローチが可能である。
1つの場合では、画像データを使用するべきか否かの決定は、ビジュアル特徴抽出器250の実現例に残され得る。たとえば、両方の前方向きカメラ365および後方向きカメラ375からのフレームは、異なるチャンネルとしてビジュアル特徴抽出器250に提供され得る。別の場合では、マルチコアプロセッサ390は、画像データの単一フレームを提供するために前方向きカメラ365および後方向きカメラ375から選択を行うスイッチを実現し得る。図3Bの例では、無線ネットワーク通信モジュールは、図2のトランスミッタ280を実現するために、セルラーデータまたは無線ネットワーキングモジュールを含み得る。
クライアントサーバ通信
図4A、図4Bおよび図4Cは、クライアントデバイス402とサーバデバイス404との間の異なる通信を表わすシーケンス図400、440、470のセットを示す。クライアントデバイス402は、図1におけるクライアントデバイス110のうちの1つ、図2におけるクライアントデバイス210、および/または、図3Aおよび図3Bに示されるクライアントデバイス300,350のうちの1つを含み得る。サーバデバイス404は、図1からのサーバデバイス120を含み得る。
図4Aは、ユーザの発声を解析するためにプロセスの1つのセットを設定する第1のシーケンス図400を示す。ブロック406では、画像データはサブブロック408においてキャプチャされ、オーディオデータはサブブロック410においてキャプチャされる。サブブロック408および410は、たとえば、別個の処理スレッドとして、および/または、異なるハードウェアデバイスによって、並列で行なわれ得る。ブロック406は、発声の時間期間に亘る複数のデータサンプルのキャプチャを含み得る。1つの場合では、ブロック406は、共通のビデオ記録のためにビデオおよびオーディオデータチャンネルを生成することを含み得る。サブブロック408および410は、図2における画像キャプチャデバイス230およびオーディオキャプチャデバイス220によってそれぞれ行なわれ得る。
ブロック412では、ビジュアル特徴テンソルがサブブロック414において生成され、オーディオ特徴テンソルがサブブロック416において生成される。サブブロック414および416は、たとえば別個の処理スレッドとして、および/または、異なるハードウェアデバイスによって、並列で行なわれ得る。サブブロック414および416は、図2におけるビジュアル特徴抽出器250およびオーディオ特徴抽出器240によってそれぞれ行なわれ得る。
ブロック418では、クライアントデバイス402はサーバデバイス404にビジュアル特徴テンソルおよびオーディオ特徴テンソルを送信する。これは図2のトランスミッタ280によって行なわれ得る。ビジュアル特徴テンソルおよびオーディオ特徴テンソルはブロック420においてサーバデバイスにて受け取られる。テンソルの受け取りは図1のレシーバ122によって扱われ得る。ブロック422では、言語的モデル(LM: linguistic model)が、受け取られたビジュアル特徴テンソルおよびオーディオ特徴テンソルに適用される。言語的モデルは図1に示されるような言語的モデル124を含み得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの1つ以上を含み得る。音響モデルは音素または他の原言語単位のシーケンスを示すデータを生成し得る。言語モデルはテキストデータを生成し得る。1つの場合では、音響モデルの出力は言語モデルによって受け取られ得る。
ブロック424では、言語的モデルの出力が処理される。これは、発声を表わすテキストデータを解析することを含み得る。ブロック424は、言語的モデルからのデータを音声コマンドおよび音声コマンドのためのデータのセットにマッピングすることを含み得る。ブロック424は、言語的モデルの出力からの音声コマンドを実行する適切なサービスを識別することを伴い得る。ブロック424は、識別されたサーバにアプリケーションプログラミングインターフェイス(API: application programming interface)要求を行うことを含み得、当該要求は、言語モデルの出力から識別されるコマンドおよび任意のコマンドデータを含む。たとえば「今日の天気は何?」という発声は、たとえば現在時間または日付といった「今日」の時間パラメータとともに天候データについての天候サービスAPI要求にマッピングされ得る「今日の天気は何」というテキスト出力に帰着し得る。
ある場合において、発声が、サーバデバイス404からの応答を必要としない場合があり得る。たとえば、特定のデバイスをオフにする音声コマンドは、クライアントデバイス402でないデバイスに対する要求を開始し得、クライアントデバイスへのフィードバックが必要ではない場合があり得る。または、別のユーザに通知を送る音声コマンドも、応答がクライアントデバイス402に送られることが必要でない場合があり得る。しかしながら、他の場合では、クライアントデバイスに対する応答は必要であるかまたは望まれる。これらの場合は図4Aにおける破線によって示される。
ブロック424の実行が、クライアントデバイス402にフィードバックされるべき情報に帰着する場合、ブロック426において、この情報は、パッケージ化され、クライアントデバイス402に送信され得る。たとえば、1つの場合では、図1のレシーバ122は、ネットワーク130を介して応答を送信することができるトランシーバを含み得る。ブロック426では、たとえばブロック406においてキャプチャされた際の発声に対する応答がクライアントデバイス402にて受け取られる。この場合、トランスミッタ280はさらに、ネットワーク130を介してデータを受け取ることができるトランシーバを含み得る。発声に対する応答は応答データを含む。これは、たとえばユーザインターフェイスまたは音声出力を介してユーザに伝達されるべきマシン読取可能データを含み得る。ブロック430では、応答データが処理され、ユーザに対する応答がクライアントデバイス402によって出力される。これは、図3Bにおけるディスプレイスクリーン360上でのテキストおよび/または画像の表示であり得るか、または、テキストツースピーチモジュールを介した音の出力であり得る。ある場合には、応答データは、クライアントデバイスにおいて処理され得るとともにたとえば1つ以上のスピーカを介してオーディオ出力を生成するために使用され得るオーディオデータを含み得る。図3Aの自動車の例では、応答は、自動車305の内部にマウントされたスピーカを介してユーザに話され得るか、および/または、一般的なコンソール上に情報として表示され得る。
図4Bは、ある実現例において行なわれ得る通信の代替的なセットを示す。当該通信はそれでも、クライアントデバイス402とサーバデバイス404との間で行われる。しかしながら、図4Bの場合には、画像データおよびオーディオデータが別個の時間に処理される。
図4Bのブロック442では、画像データの1つ以上のフレームがキャプチャされる。これは、カメラからの画像データのスチル(still)をキャプチャすること、または、ビデオからフレームのグループをキャプチャすることを含み得る。ブロック442は、たとえばt秒または分ごとといったように周期的に行なわれ得るか、または、たとえば動きの検出またはスピーチの開始といったユーザアクションによってトリガされ得る。ブロック442は、図4Aにおけるサブブロック408と同様のプロセスを含み得る。
ブロック444では、少なくとも1つのビジュアル特徴テンソルは、ブロック442においてキャプチャされた画像データの1つ以上のフレームに基づいて生成される。また、これは、図4Aにおけるサブブロック414と同様のプロセスを含み得る。ブロック444も、周期的に行なわれ得るか、または、トリガ条件に基づいて行われ得る。ある場合には、ブロック444は、たとえば画像キャプチャデバイスから受け取られた際の画像データのフレームの存在に応答して行なわれ得る。画像データの複数フレームがブロック442でキャプチャされる場合、これは複数のビジュアル特徴テンソルに帰着し得る。他の場合、たとえば、ビジュアル特徴抽出器がシーケンスプロセッサを含む場合、画像データの複数の入力フレームは単一のビジュアル特徴テンソルに帰着し得る。
ブロック446では、ブロック444において生成された少なくとも1つのビジュアル特徴テンソルが、クライアントデバイス402からサーバデバイス404に送信される。これは、図4Aにおけるブロック418と同様のプロセスを含み得、この場合のみにおいて、オーディオ特徴テンソルはこの時に送信されない。ブロック448では、サーバデバイス404は少なくとも1つのビジュアル特徴テンソルを受け取る。この段階では、サーバデバイス404は、受け取ったデータに基づいて言語的モデルを構成するためにアクションを開始し得る。ある構成において、ブロック442〜448は、サーバデバイス404が、言語的モデルの構成に利用可能である少なくとも1つのビジュアル特徴テンソルの形態にあるビジュアル環境状態を有するように、周期的に繰り返され得る。たとえば、ブロック442〜448は、1分ごと、5分ごと、または、1時間ごとに繰り返され得る。ある場合には、ブロック442〜448は、クライアントデバイス402における加速度計および/または位置データの変化に基づいてトリガされ得る。たとえば、ブロック442〜448は、動きのない期間(または予め規定されたしきい値を下回る動きの期間)の後に動きが検出されると、行なわれ得るか、または、クライアントデバイス402が特定のジオフェンスが設けられた(geo-fenced)位置から離れると、行なわれ得る。このように、クライアントデバイス402の環境が変化すると、サーバデバイス404はアップデートされたビジュアル特徴テンソルを受け取り得る。ブロック442、444および446のうちの1つ以上がトリガイベントに基づいて行なわれる場合、これは、エネルギー消費を低減することを支援し得る。これは、クライアントデバイス402がバッテリ駆動である場合、たとえばスマートフォンまたはセンサデバイスである場合、有益であり得る。たとえば、画像キャプチャおよびビジュアルテンソル生成のうちの1つ以上に関連付けられる処理は、たとえば環境が変化する場合または発声が検出される場合を含むある条件下で行なわれ得る。ある場合には、バッテリの電力が低い場合、ビジュアル処理パイプラインが抑制され得る。使用が抑制される場合、精度が低減するが処理リソースが保存され得る。
図4Bにおけるクライアントデバイス402に戻って、ブロック450〜456において、ブロック442〜448と同様の動作のセットが、サーバデバイス404にオーディオ特徴テンソルを送るために行なわれる。1つの場合では、ブロック442〜448とブロック450〜456とは、非同期的にサーバデバイス404へデータを送信する別個および独立した処理であり得る。これにより、ブロック450〜456は、ブロック442〜448の前、ブロック442〜448中、または、ブロック442〜448の後に行なわれ得る。
ブロック450において、オーディオデータは、図4Aにおけるサブブロック410と同様の態様でキャプチャされる。ブロック452では、少なくとも1つのオーディオ特徴テンソルが、図4Aにおけるサブブロック416と同様の態様で生成される。ブロック454では、少なくとも1つのオーディオ特徴テンソルが、図4Bにおけるブロック446または図4Aのブロック418と同様の態様で、サーバデバイス404に送信される。ブロック456では、サーバデバイス404はオーディオ特徴テンソルを受け取る。ブロック456は、図4Aのブロック422および424と同様のブロック458および460を行なうためのトリガとして解釈され得る。示されていないが、ブロック460において出力される言語的モデルの処理の後、応答データも、たとえば図4Aのブロック426〜430と同様の態様でサーバデバイス404から送信され得る。
図4Bの例は、環境のビジュアルコンテキストおよび音響コンテキストがサーバデバイス404においてどのように非同期的に維持され得るかを示す。1つの場合では、言語的モデルの動作状態は、受け取られたビジュアル特徴テンソルおよびオーディオ特徴テンソルに基づいて、継続的にアップデートされ得る。たとえば、これらは言語的モデルの動作パラメータをセットするために使用され得る。
図4Cは、図4Bの例の変形例を示す。図4Cの変形例も図4Aのような他の例に適用されてもよい。図4Cにおいて、ブロック442〜452は、図4Bを参照して記載したものと同じである。しかしながら、ブロック472において、ブロック450においてキャプチャされたオーディオデータは、オーディオ特徴テンソルと一緒にサーバデバイス404に送信され、サーバデバイス404においてブロック474にて受け取られる。図4Cの例では、言語的モデルは音響モデル(AM: acoustic model)および言語モデル(LaM: language model)を含む。この場合、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上は、ユーザの環境についてのビジュアルおよび音響コンテキストのそれぞれ1つの以上を提供する。ビジュアルおよび/または音響コンテキストは、音響モデルおよび言語モデルのうちの1つ以上を構成するために使用され得る。1つの場合では、音響モデルおよび言語モデルはともに、入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取る。ある場合には、音響モデルおよび/または言語モデルは、オーディオ特徴テンソルおよびビジュアル特徴テンソルに加えて入力を受け取り得る。図4Cにおいて、音響モデルは、構成入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、特定の発声に関連付けられる入力としてブロック474において受け取られたオーディオデータを受け取る。1つの場合では、オーディオ特徴テンソル、ビジュアル特徴テンソルおよびオーディオデータのうちの2つ以上の数値表現が、たとえば連結といったように組み合わせられ得、数値のより大きなベクトルおよび/またはデータ値の多次元ボリュームにされ得る。ある場合には、オーディオデータがブロック472において送信の間にストリーミングされ得る。他の場合では、オーディオデータは、固定長ベクトルと比較すると、たとえば周波数特徴のストリームといったオーディオ特徴テンソルへのオーディオ特徴の異なるセットを含み得る。ブロック476では、たとえば上で論じたように入力に音響モデルが適用される。ブロック478では、言語モデルが音響モデルの出力に適用される。たとえば、音響モデルは、音素のシーケンス(たとえば選択された言語または検出された言語での各音素を表わすテキストシンボルまたは整数のシーケンス)を出力し得る。言語モデルは、構成入力としてオーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り得、ブロック476の後の音素シーケンス出力を特定の発声に関連付けられる入力として受け取り得る。言語モデルは、たとえば、特定のコマンドに関連付けられる識別されたデータオブジェクトといった、テキストまたは音声コマンド表現を出力し得る。後者の場合、たとえば、コマンドセットは、複数のコマンドをクラスまたはコンピュータオブジェクトとして表し得、当該オブジェクトは関連付けられるデータおよびメソッドを有し得る。ブロック480では、言語モデルの出力が処理される。これは、テキスト出力を解析すること、または、音声コマンド表現を選択することと、ある場合において言語モデル出力からのデータとともにその表現に利用可能なメソッドを開始することとを含み得る。また、図4Aの426〜430と同様のブロックも行なわれ得る。
ニューラルネットワーク実現例
ある例では、オーディオ特徴抽出器、ビジュアル特徴抽出器および言語的モデルのうちの1つ以上は、ニューラルネットワークアーキテクチャを含み得る。1つの場合では、これらのコンポーネントの各々はニューラルネットワークアーキテクチャを含み得る。この後者の場合では、組み合わされたニューラルネットワークアーキテクチャは、共同でコンポーネントを構成するためにエンドツーエンドで学習され得る。
1つの場合では、ビジュアル特徴抽出器およびオーディオ特徴抽出器は、畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの1つ以上を含む。たとえば、ビジュアル特徴抽出器は、畳み込みニューラルネットワークを含み得、オーディオ特徴抽出器は、リカレントニューラルネットワークを含み得る。後者の場合に、オーディオ特徴テンソルは、たとえば時間サンプルのシーケンスの後のリカレントニューラルネットワークの隠れ状態(hidden state)、および/または、たとえば入力時間サンプルのセットの後の組み合わされた出力シーケンスといったリカレントニューラルネットワークの出力、および/または、発声を表わす入力時間サンプルのセットの入力の後に得られる出力のうちの1つ以上を含み得る。
ビジュアル特徴抽出器
図5は、ビジュアル特徴抽出器500の例示的な実現例を示す。たとえば、その実現例は、図2におけるビジュアル特徴抽出器250を実現するために使用され得る。この例において、ビジュアル特徴抽出器500は、第1の畳み込みニューラルネットワークアーキテクチャ510および第2のニューラルネットワークアーキテクチャ550を含む。
第1の畳み込みニューラルネットワークアーキテクチャ510は複数の層512〜520を含む。これらは、画像データ530のフレームを受け取る第1の入力層512と、フレームの処理された表現を出力する第1の出力層520とを含む。第1の入力層512と第1の出力層520との間には、複数の畳み込みニューラルネットワーク層514、516および518が存在する。あるアーキテクチャにおいて、最後の畳み込みニューラルネットワーク層と出力層520との間に1つ以上のフィードフォワードニューラルネットワーク層(feed-forward neural network layer)が存在し得る。畳み込みニューラルネットワークアーキテクチャ510は、AlexNet、VGGNet、GoogLeNetまたはResNetアーキテクチャの適合された形態を含み得る。第1の畳み込みニューラルネットワークアーキテクチャ510は、より正確なアーキテクチャが利用可能になる場合、モジュラーの態様で置換され得る。
本例では、第1の畳み込みニューラルネットワークアーキテクチャ510は、複数の層の各々について学習されたパラメータのセットを使用してパラメータ化される。たとえば、これらの学習されたパラメータは、各層について少なくとも重みのセットを含み得る。1つの場合では、学習されたパラメータはさらに、当該層についてのバイアスのセットについての値を含み得る。重みは、より以前の層からの入力により畳み込まれる固定数のフィルタまたはカーネルについての重みを含み得る。第1の畳み込みニューラルネットワークアーキテクチャのためのハイパーパラメータは、実験を介してか、および/または、低エラーレートを有するパラメータの公開されたセットを使用してセットされ得る。
本例では、第1の畳み込みニューラルネットワークアーキテクチャ510は、予め学習された画像分類アーキテクチャとして解釈され得る。たとえば、学習されたパラメータについての値は、低エラーレートを有する公開されたモデルから得られ得る。1つの場合において、第1の畳み込みニューラルネットワークアーキテクチャ510は最初に、画像分類コンポーネントを含み得る。当該画像分類コンポーネントは、(たとえば、第1の要素が第1の分類に関し、第2の要素が第2の分類に関するなどといった)画像分類のセットを表わすワンホットベクトル(one-hot vector)(すなわち0と1との間の正規化された数のベクトル)を出力するように出力層において構成される。この場合、画像分類コンポーネントは最後の出力層としてソフトマックス層(softmax layer)を含み得る。第1の畳み込みニューラルネットワークアーキテクチャ510の層のための学習されたパラメータは、第1の出力層520に結合されるソフトマックス層を含む1つ以上の付加的な分類層により学習動作から導出されるパラメータであり得る。本願明細書に記載されるようにビジュアル特徴抽出器としての使用のために学習された畳み込みニューラルネットワークアーキテクチャ510を適合させるために、少なくともソフトマックス層は、出力層520がワンホットな表現または確率でない数値のテンソルを出力するように除去され得る。
第2のニューラルネットワークアーキテクチャ550は1つ以上の層552〜556を含む。これらは、(たとえばビジュアル特徴抽出器500に関する)第2の入力層552および第2の出力層556を含んでいる。第2の入力層552は、第1の畳み込みニューラルネットワークアーキテクチャ510の第1の出力層520に結合される。これらの層はたとえば、畳み込み層またはフィードフォワード層を含み得る。第2の出力層556は、ビジュアル特徴テンソルを出力するように構成される。第2の出力層556は、第1の出力層520の次元数(たとえばアレイ長さまたはサイズ)未満である次元数(たとえばアレイ長さまたはサイズ)を有する。1つの場合では、第2のニューラルネットワークアーキテクチャ550は、オートエンコーダまたは変分オートエンコーダ(variational autoencoder)の少なくとも部分を含み得、第2の出力層の出力560は数値の固定長「コード」を形成する。これらの場合において、第2のニューラルネットワークアーキテクチャ550の各層は、当該層に対する入力テンソル未満の長さを有するテンソル出力を生成するように構成され得る。たとえば、各層は、フィードフォワードまたは他のレデューシング(reducing)構成を含み得る。これにより、第2のニューラルネットワークアーキテクチャ550は、第1の出力層520の出力の圧縮された表現を表わす「コード」が学習中に得られる情報「ボトルネック」を形成する。この場合、オートエンコーダ構成は、特徴出力ごとに、たとえばビジュアル特徴テンソルの1つの要素ごとに、情報コンテンツを最大化し得る。たとえば、入力層552において受け取られるテンソルは、長さが4096であり得る(すなわち、各々が浮動小数点数によって表わされる4096個の要素を有し得る)一方、第2の出力層556でのテンソル出力は長さが32〜256であり得る。ある場合において、第2のニューラルネットワークアーキテクチャ550はさらに、たとえば、64ビットの浮動小数点値の代わりに8ビットの整数値の連なりを作り出すために、第1の畳み込みニューラルネットワークアーキテクチャ510の出力を量子化し得る。
第2のニューラルネットワークアーキテクチャ550は、学習動作において、オーディオ特徴抽出器および言語的モデルと共同で学習され得る。しかしながら、第1の畳み込みニューラルネットワークアーキテクチャ510が予め学習された画像分類アーキテクチャに基づく場合、第1の畳み込みニューラルネットワークアーキテクチャ510のための学習されたパラメータのセットは、学習動作中に固定され得る。実際、予め学習された画像分類アーキテクチャの固定された画像分類特性は保持され、次いで、たとえば後の層の出力といった修正された出力が、学習された第2のニューラルネットワークアーキテクチャ550を通じて圧縮されて、スピーチ処理の使用のために、修正された出力の顕著な特徴を表わす出力ビジュアル特徴テンソルをラーニングする。第2のニューラルネットワークアーキテクチャ550の共同学習によって、第2のニューラルネットワークアーキテクチャ550は、発声解析におけるエラーを低減するために表現を有用にする予め学習された画像分類アーキテクチャの後の出力の変換をラーニングすることになる。これにより、予め学習された画像分類アーキテクチャ内に有用な画像特徴を生成する予め学習されたパラメータ値の破滅的忘却が回避され得る。その後、スピーチ処理システムは、第2のニューラルネットワークアーキテクチャ550を単に再学習することにより、現状技術のアーキテクチャを迅速に活用し得る。なお、2つのニューラルネットワークアーキテクチャが図5に示されるが、他の例は、ビジュアル特徴抽出器を実現するために単一のニューラルネットワークアーキテクチャを使用してもよい。
ニューラルスピーチ処理システム
図6は、例に従ったニューラルスピーチ処理システム600を示す。ニューラルスピーチ処理システム600は、クライアント側ニューラルコンポーネント610およびサーバ側ニューラルコンポーネント650に分割される。この場合、「ニューラル」という用語は、システムおよびコンポーネントが、バックプロバゲーション(backpropagation)および勾配降下(gradient descent)アプローチを使用して学習され得る1つ以上のニューラルネットワーク層を含むということを示すために使用される。各ニューラルネットワーク層の後には非線形関数(「非線形性」または「活性化関数(activation function)」とも称される)が続き得、複数のニューラルネットワーク層が非線形のマッピングまたは変換を提供する。非線形関数は、双曲線正接もしくはシグモイド関数、または、正規化線形ユニット(RELU: REctified Linear Unit)であり得る。クライアント側およびサーバ側という用語が使用されるが、当該用語は、ある例において、たとえば図3Aにおける制御ユニット310の2つの部分といった共通のコンピューティングデバイスの異なるコンポーネントに関し得るか、または、たとえば図3Bにおけるモバイルコンピューティングデバイス355といった共通のデバイス内の2つのハードウェアデバイスに関し得る。
クライアント側ニューラルコンポーネント610は、ビジュアル特徴抽出器620およびオーディオ特徴抽出器630を含む。ビジュアル特徴抽出器620は、画像データ625を受け取り、かつ、ビジュアル特徴テンソル640を生成するように構成される。たとえば図2および図5といった以前の例を参照して記載されるように、ビジュアル特徴抽出器620が構成され得る。ビジュアル特徴抽出器620は、たとえば図5に示されたような畳み込みニューラルネットワーク、および/または、ニューラルオートエンコーダのエンコーディング部分を含み得る。後者の場合では、エンコーディング部分は、デコーディング部によってデコードされ得る圧縮された「コード」を生成するように学習され得る。この場合、エンコーディングおよびデコーディング部は、(たとえば、エンコーディング部に入力として提供されるような)オリジナル画像データを、(たとえばデコーディング部によって出力されるような)再構築された画像データと比較することにより学習され得る。使用において、圧縮された「コード」からビジュアル特徴テンソル640を生成するためにエンコーディング部のみが使用される。ある場合において、ビジュアル特徴エンコーダ620の第1のステージの出力(たとえば畳み込みニューラルネットワークまたはオートエンコーダの出力)は、この出力を時間にわたって統合するために、(ロングショートタームメモリ(LSTM: Long Short-Term Memory)またはゲーテッドリカレントユニット(GRU: Gated Recurrent Unit)といった)さらに別のリカレントニューラルネットワークに入力され得る。これらの場合では、リカレントニューラルネットワークの1つ以上の出力および/またはリカレントニューラルネットワークの隠れ状態が、ビジュアル特徴テンソル620として得られ得る。
オーディオ特徴抽出器630は、オーディオデータ635を受け取り、かつ、オーディオ特徴テンソル645を生成するように構成される。たとえば図2および図5といった以前の例を参照して記載されるように、オーディオ特徴抽出器630が構成され得る。ビジュアル特徴抽出器620のように、オーディオ特徴抽出器630は、畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの1つ以上を含み得る。ネットワークアーキテクチャは、オーディオデータのフォーマットに依存し得る。オーディオデータがスペクトログラムを表わすフレームのセットとして提供される場合、これらのフレームは、上述したように、各スペクトログラムが画像データのフレームとして扱われる状態で、ビジュアル特徴抽出器620と同様のアーキテクチャによって処理され得る。オーディオデータがメル周波数ケプストラム係数のシーケンスを含む場合、これらはリカレントニューラルネットワークに入力され得、オーディオ特徴テンソル645は、リカレントニューラルネットワークの1つ以上の出力および/またはリカレントニューラルネットワークの隠れ状態を含み得る。リカレントニューラルネットワークは上記のようにLSTMまたはGRUを含み得る。1つの場合では、リカレントニューラルネットワークの異なる階層化されたヒエラルキー(tiered hierarchies)が、異なる時間的または周波数分解能でオーディオ特徴をエンコードするために提供され得る。
図4A〜図4Cを参照して記載されるように、ビジュアル特徴テンソル640およびオーディオ特徴テンソル645は、言語的モデル655に伝達される。この例において、言語的モデル655はさらに、たとえば畳み込みニューラルネットワークおよびリカレントニューラルネットワークのうちの1つ以上といったニューラルネットワークアーキテクチャを含む。1つの場合では、言語的モデル655は、入力として、ビジュアル特徴テンソル640およびオーディオ特徴テンソル645の両方を受け取るように構成されるリカレントニューラルネットワークを含む。ある場合では、言語的モデル655は、ビジュアル特徴テンソル640およびオーディオ特徴テンソル645を前処理するために、たとえば、アテンションメカニズムを適用および/または次元数(たとえば組み合わされたアレイの長さ)をさらに低減するために、1つ以上の畳み込みニューラルネットワークまたはフィードフォワードニューラルネットワークを含み得る。1つの場合では、ビジュアル特徴テンソル640およびオーディオ特徴テンソル645は、テンソルの単純連結(simple concatenation)によって組み合わされる。別の場合では、マージされたテンソルを生成するために前処理機能が使用され得る。この場合、ビジュアル特徴テンソル640およびオーディオ特徴テンソル645は、たとえば32〜512個の要素の長さのベクトルを含み得る。各要素はたとえば、正規化された量(たとえば0と1との間)を表わす浮動小数点値である。この場合、LSTMまたはGRUアーキテクチャへの連結された入力は、たとえば256〜1024個の要素のベクトルを含み得る。
言語的モデル655はテキスト出力660を生成するように構成される。たとえば、これは、文字ずつ、単語部分ずつ、または単語ずつで生成され得る。文字、単語部分または単語は、固定長出力ベクトルによって表わされるボキャブラリから選択され得る(たとえば、小文字およびシンプルな句読点について30個の要素が存在し得、または、単語もしくは単語部分について10,000までの要素が存在し得る)。この場合における単語部分は、繰り返し使用される語幹、語尾および/または単語部位(word part)を含み得る。この場合、言語的モデル655は、音響および言語モデリング機能の両方を包含すると考えられ得る。
言語的モデル655は、出力テキストシーケンスを多くの態様で構築し得る。1つの場合では、出力テキストシーケンスは、時間ステップのシーケンスに亘って、リカレントニューラルネットワークの出力を取得することにより構築され得る。たとえば、ビジュアル特徴テンソル640およびオーディオ特徴テンソル645は、(たとえばビデオの場合は30または60Hzまでであり得、オーディオの場合はそれよりも高くあり得るf Hzの入力フレームまたはデータレートでの)複数の時間サンプルについて生成され得る。ビジュアル特徴テンソル640およびオーディオ特徴テンソル645が、異なるレートで生成される場合、より遅いレートで変化するテンソルは、他のテンソルについての変化する値が入力される間、一定に保持され得る。1つの場合では、1つのビジュアル特徴テンソル640のみが存在し得、それぞれの複数の時間ステップに亘って生成される複数のオーディオ特徴テンソル645が存在し得る。1つの場合では、ビジュアル特徴テンソル640は、0の値のベクトルおよび/または制御コードのいずれかを提供することによりオミットされ得る。存在しないビジュアル特徴テンソル640の対応は、学習データ内においてある画像入力(またはビジュアル特徴テンソル入力)を0にセットすることにより学習され得る。別の場合では、ビジュアル特徴テンソル640およびオーディオ特徴テンソル645は、連結され、リカレントニューラルネットワークの最初の隠れ状態をセットするために使用され得る。この場合、第1の入力は<START>制御シンボルを含み得、第1の出力シンボルは第2の入力として使用されるようにフィードバックされ得、このプロセスは、<END>制御シンボルが出力されるまで繰り返される。この場合、リカレントニューラルネットワークは入力としてシンボル(たとえば文字または単語)を受け取るように適合される。この場合、シンボルは、リカレントニューラルネットワークに提供される前に、最初は数値表現にマッピングされ得、次いでシンボル埋込(symbol embedding)にさらにマッピングされる。たとえば利用可能なデータの形態、使用されるアーキテクチャの形態、データの時間的な可用性、出力の形態、リカレントニューラルネットワークの精度、典型的な発声の長さなどに依存して、異なるバリエーションが提供され得る。
ニューラルスピーチ処理システムの学習
図7は、図6のニューラルスピーチ処理システムのための例示的な学習構成700を示す。図7は、図6のビジュアル特徴抽出器620、オーディオ特徴抽出器630および言語的モデル655の伝達結合を示す。1つの場合において、学習のために、ビジュアル特徴抽出器620、オーディオ特徴抽出器630および言語的モデル655の各々の実現例は、単一のコンピューティングデバイスまたはコンピューティングデバイスの好適に結合されたクラスタ上で構成され得る。学習は、プロダクションサーバデバイスおよびクライアントデバイス、たとえば以前の例において示されるようなデバイス上で行なわれる必要はない(しかしながら、所望の場合、これは行われ得る)。1つの場合では、学習は、たとえば複数の処理ユニット(CPU、GPU、FPGA(フィールドプログラマブルゲートアレイ(Field Programmable Gate Array))または他の専用のプロセッサアーキテクチャ)と、学習データのバッチを保持する大きなメモリ部分といった実質的な処理リソースへのアクセスを有するコンピューティングデバイス上で行なわれ得る。ある場合には、学習は、たとえば結合可能なFPGAまたはGPUベースのデバイスといった結合されたアクセラレータデバイスを使用して行なわれ得る。図7に示されるような学習は、ビジュアル特徴抽出器620およびオーディオ特徴抽出器630の出力が言語的モデル655の入力に結合され、結合されたシステムが単一ユニットとして学習されるので、「エンドツーエンド」学習と称され得る。
本例では、学習は、学習データのセットに対して行なわれる。学習データのセットは、データトリプル(data triple)、すなわち、画像データ710、オーディオデータ720およびグラウンドトゥールーステキストデータ730を含む。画像データ710およびオーディオデータ720は、環境の記録から導出され得、時間にわたるサンプルのシーケンスを含み得る。学習中において、画像データ710がビジュアル特徴抽出器620に提供され、オーディオデータ720はオーディオ特徴抽出器630に提供される。フォワードパス(forward pass)では、図6を参照して記載されるように、出力テキストデータ740が生成される。生成された出力テキストデータ740は、グラウンドトゥールーステキストデータ730と比較され、エラーeが決定される。1つの場合では、エラーは、入力として出力テキストデータ740およびグラウンドトゥールーステキストデータ730を取得する損失関数を評価することにより決定され得る。ある場合には、エラーはシンボルごと(たとえば、予測されたシンボルをグラウンドトゥールーステキストデータ730における対応するシンボルと比較すること)に決定される。
エラーeは、ひとたび決定されると、システムにわたるパラメータ値の変化を決定するために使用される。この変化は、システムにおいて各コンポーネントを自動的に区別し、システムを通じてエラーをフローバックすることにより、各コンポーネントについてのパラメータアップデートを決定するために当該区別を使用して決定され得る。図7では、エラーeは、言語的モデルパラメータ750のセットをアップデートするために使用され、付加的なエラーe′およびe″はそれぞれビジュアル特徴抽出器620およびオーディオ特徴抽出器630の各々に言語的モデル655を通って伝播される。エラーe′およびe″は、ビジュアル抽出器パラメータ760およびオーディオ抽出器パラメータ770をアップデートするために使用される。エラーe、e′およびe″を低減するパラメータアップデートの方向を決定するために、勾配降下が使用されてもよい。システムが全体として学習されるので、ビジュアル抽出器パラメータ760およびオーディオ抽出器パラメータ770は、言語的モデル655の最終出力エラーを低減する態様で調節される。換言すると、ビジュアル抽出器パラメータ760およびオーディオ抽出器パラメータ770は、ビジュアル特徴抽出器620およびオーディオ特徴抽出器630が、低いエラー出力を生成することにおいて言語的モデル655に有益であるビジュアル特徴テンソルおよびオーディオ特徴テンソルを生成するように調節される。ニューラルネットワークアーキテクチャを学習する多くの異なる方法が存在することと、ハイパーパラメータ、損失関数、勾配降下法およびバッチングなどのような特徴は特定の実現例に基づいて較正され得るということとは、当業者であれば理解するであろう。
ある場合には、ビジュアル特徴テンソルおよびオーディオ特徴テンソルの1つ以上の長さが、学習出力に基づいてセットされ得る。たとえば、最初の特徴テンソル長さが選択され得る。次いで、学習の間の要素値の分析が行なわれ得る。ある要素の出力の特定の割合が予め規定されたしきい値を下回る場合(たとえばほとんど0である場合)、その要素はプロダクション特徴テンソルからオミットされ得る。
音響モデル選択
図8は、本願明細書において記載されるあるコンポーネントを使用する代替的なスピーチ処理システム800を示す。図6および以前の例のように、代替的なスピーチ処理システム800は、ビジュアル特徴抽出器820、オーディオ特徴抽出器830および言語的モデル855を含む。これらは前述のようにニューラルネットワークコンポーネントを含み得る。ビジュアル特徴抽出器820は、画像データ825からビジュアル特徴テンソル840を生成し、オーディオ特徴抽出器830は、オーディオデータ835からオーディオ特徴テンソル845を生成する。ビジュアル特徴抽出器820およびオーディオ特徴抽出器830はクライアントデバイス810の部分を形成し得、言語的モデル855はサーバデバイス850の部分を形成し得る。同様の参照番号は同様の特徴を参照するために使用されており、図6に関して上で議論されたバリエーションは、図8の構成に適用され得る。
図8の代替的なスピーチ処理システム800は、言語的モデル855が多くのサブコンポーネントを含む点で図6のスピーチ処理システム600と異なる。この例において、これらは、音響モデル構成862のデータベース、音響モデルセレクタ864および音響モデルインスタンス866を含む。音響モデル構成862のデータベースは、音響モデルを構成するためにパラメータ数を格納する。この例において、音響モデルインスタンス866は、音響モデル構成862のデータベースからのパラメータ値の特定のセットを使用してインスタンス化(たとえば、構成または較正)される一般的な音響モデルを含み得る。たとえば、音響モデル構成862のデータベースは複数の音響モデル構成を格納し得る。各構成は、音響モデルの特定のクラスに関連付けられ得る。
基本的な場合では、2つの音響モデル構成が存在し得る。たとえば、これらは「屋内」および「屋外」の音響モデル構成に関し得る。音響モデルセレクタ864は、ビジュアル特徴抽出器820およびオーディオ特徴抽出器830からビジュアル特徴テンソル840およびオーディオ特徴テンソル845を受け取る。音響モデルセレクタ864は、入力としてビジュアル特徴テンソル840およびオーディオ特徴テンソル845を受け取り、かつ、分類ラベルを出力するように構成される分類器を含み得る。音響モデルセレクタ864の出力は、各々の可能な音響モデル構成のための要素を有するベクトルの形態のテンソルを含み得る。この場合、音響モデルセレクタ864のベクトル出力は、異なる音響モデル構成の確率(たとえば0と1の間の値)を示し得る。当該基本的な場合において、ベクトルまたは[0.6,0.4]は、第1の音響モデル構成(たとえば「屋内」)が60%の確率または重みを有し、第2の音響モデル構成(たとえば「屋外」)が40%の確率または重みを有するということを示す。これらの確率は、どの音響モデル構成を使用するかを決定するために、サンプリングされ得るか、または、最大の確率が選択され得る。選択された構成に関するパラメータ値は、音響モデル構成862のデータベースから抽出され得、音響モデルインスタンス866をインスタンス化するために使用され得る。上記の例において、第1の音響モデル構成は、確率に基づく可能性がより高いので、音響モデルインスタンスは、「屋内」音響モデルとしてセットされる可能性がより高い。他の例において、任意数(たとえば2以上)の異なる分類および対応する構成が存在してもよい。
図8において、たとえば、音響モデル構成のデータベースから抽出された構成を使用して音響モデルセレクタ864によって構成されるような音響モデルインスタンス866も、たとえばクライアントデバイス810からオーディオデータ835を受け取る。音響モデルインスタンス866は、オーディオデータ835に関連付けられる(たとえば、オーディオデータ835内において特徴とされる)発声を解析するために使用される音素データ870を生成するように構成される。音素データ870は、たとえば予め規定されたアルファベットまたは辞書からの音素シンボルのシーケンスを含み得る。従って、図8の例において、音響モデルセレクタ864は、オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいてデータベース862から音響モデル構成を選択し、音響モデル構成は、オーディオデータ835を処理するよう音響モデルインスタンス866をインスタンス化するために使用される。
1つの場合では、ビジュアル特徴抽出器820、オーディオ特徴抽出器830および音響モデルセレクタ864は、ニューラルネットワークアーキテクチャを含み得る。これらの特徴は、図7でのように組合せで学習され得る。たとえば、この場合の学習データは、画像データ825、オーディオデータ835およびグラウンドトゥールース音響モデル選択のトリプルを含み得る(たとえば、音響モデルセレクタによって出力される分類)。この場合、ビジュアル特徴テンソル840およびオーディオ特徴テンソル845は、図6のシステム600より小さなサイズであり得る。これは、単にこれらのテンソルが、完全なシーケンス出力を生成するのではなく、正確な音響モデル選択をするために十分な情報を提供する必要があるからである。1つの場合では、ビジュアル特徴テンソル840およびオーディオ特徴テンソル845は、サイズが数ビットまたは数バイトであり得、たとえば1〜32個の要素を有し、当該要素は、バイナリまたは低い(<8)ビット値といった限られた範囲を有し得る。したがって、帯域幅が限定されおよび/またはクライアントデバイス810が限られた処理リソースのみを有する実現例のこの形態は好適であり得る。
1つの場合では、音響モデルインスタンス866は非ニューラルモデルを含み得る。たとえば、音響モデルインスタンス866は統計モデルを含み得る。統計モデルは、シンボル周波数(たとえばnグラム)および/または確率を使用し得る。1つの場合では、統計モデルは、ベイジアンネットワークまたは分類器のようなベイジアンモデルを含み得る。これらの場合では、音響モデル構成は、異なる環境において測定されたシンボル周波数および/または事前確率の特定のセットを含み得る。したがって、音響モデルセレクタ864は、発声についての特定の環境が、ビジュアルおよびオーディオ情報の両方に基づいて決定されることを可能にし、音素シーケンス870を生成するためにオーディオデータ835を単独で使用することに対して改善を提供し得る。1つの場合では、オーディオ特徴テンソル845は、音響モデルインスタンス866を構成することにおいて、環境におけるノイズの源が使用されることを可能にし得る。比較例では、これらのノイズの源は、(たとえば、オーディオデータ835から音響モデルインスタンス866に至る図8におけるパイプライン内において)スピーチ処理中にフィルタリングされ得る。しかしながら、環境におけるノイズの源は、音素生成に影響を与えるグローバルパラメータ(たとえば屋内/屋外、混雑/平穏、風が強い/風が強くない)を決定するのに有用であり得る。
システム800の変形例において、ビジュアル特徴抽出器820、オーディオ特徴抽出器830、音響モデルセレクタ864および音響モデルインスタンス866は、ニューラルネットワークアーキテクチャを含み得る。この場合、音響モデル構成862のデータベースはオミットされ得、音響モデルセレクタ864が、インスタンスを構成するために音響モデルインスタンス866にテンソル入力を提供し得る。この場合、学習データは、画像データ825、オーディオデータ835および音素出力870のグラウンドトゥールースセットから構築され得る。また、結合されたシステムの学習は、図7に示される学習に類似し得る。
代替的な例
ある場合には、以前に記載された言語的モデルの局面がスピーチ処理装置として実現され得る。この場合、スピーチ処理装置は、スピーチデータを解析するために使用される音素データを生成する音響モデルと、音響モデルからの音素データを使用してスピーチデータのトランスクリプションを生成する言語モデルとを含み得る。音響モデルは、たとえば、構成された音響モデルインスタンス866によって実現されたような音響モデル、および/または、図4Cのブロック476において適用されたような音響モデルといった、前述のような音響モデルを含み得る。音響モデルは、統計モデルまたはニューラルネットワークアーキテクチャを含み得る。言語モデルはさらに、たとえば、図4Cのブロック478において適用されたような言語モデルといった、前述のような言語モデルを含み得る。そのトランスクリプションはテキストベースの出力を含み得る。
音響モデルおよび言語モデルに加えて、スピーチ処理装置はさらにビジュアルコンテキストインジケータを含み得る。ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの少なくとも1つに伝達可能に結合される。ある場合において、ビジュアルコンテキストインジケータが音響モデルおよび言語モデルの両方に結合され得る。他の場合では、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの1つのみに結合され得る。ビジュアルコンテキストインジケータは、スピーチデータがキャプチャされるビジュアル環境の表現を提供するように構成される。たとえば、ビジュアルコンテキストインジケータは、前述のようにビジュアル特徴抽出器を含み得る。1つの場合では、ビジュアルコンテキストインジケータは、たとえばサーバコンピューティングデバイス内といったように、音響モデルおよび言語モデルと同じデバイス内に存在し得るか、または、図3Aにおける制御ユニット310のような単一デバイスに存在し得る。ある場合には、スピーチ処理装置は、本願明細書に記載されるようにクライアントデバイスの部分を形成し得、たとえば、記載されるようなサーバ側の機能がクライアント側に移動されてもよい。異なる分散化された構成を含む異なる組合せが可能である。
ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの少なくとも1つにビジュアル環境の表現を提供するように構成される。当該表現は、本願明細書に記載されるようなビジュアル特徴テンソルを含み得、たとえば、ビジュアルコンテキストインジケータは図5のビジュアル特徴抽出器500と同様の構成を含み得る。本例では、ビジュアルコンテキストインジケータは、音響モデルセレクタ864と同様の態様で機能し得、たとえば、少なくとも音響モデルの構成をセットし得る。一般に、この例では、音響モデルおよび言語モデルのうちの少なくとも1つは、ビジュアル環境の表現に基づいて区別的に構成される。ここで、「区別的に」という用語は、異なる表現が提供される場合に音響モデルおよび/または言語モデルの処理が異なり得、さらに、表現が提供されない場合とも異なり得るということを示すために使用される。1つの場合では、スピーチ処理は、提供される表現に基づいて、音響モデルおよび言語モデルのうちの1つ以上内で向上される。
1つの場合では、表現は、本願明細書に記載されるようなビジュアル特徴テンソルを含み得る。これは、音響モデルおよび言語モデルの構成をセットするために入力として使用され得る。音響モデルおよび言語モデルのうちの少なくとも1つが、ニューラルネットワークアーキテクチャを含む場合、ビジュアル特徴テンソルは、ニューラルネットワークアーキテクチャへの入力の部分として使用され得、および/または、ニューラルネットワークアーキテクチャの状態をセットするために使用され得る。たとえば、表現は、数値のベクトルを含む場合、オーディオベースの入力に連結され得、および/または、リカレントニューラルネットワークアーキテクチャの隠れ状態をセットするために使用され得る。この場合、スピーチ処理装置は、たとえば図8のようにスピーチデータを提供するオーディオデータが提供されるといったように、図6のビジュアル特徴抽出器620および言語的モデル655の組合せと同様であると理解され得る。
1つの場合では、たとえば、スピーチ処理装置はさらに、スピーチ音がどのように発生するかについての特定のモデルに基づいて音響モデルおよび言語モデルのうちの1つ以上を構成するよう発音モデルを含み得る。発音モデルは、特定の方言およびアクセントならびに/または時間にわたってスピーチが学習された特定のユーザのためにスピーチ処理を適合し得る。ある場合には、たとえばビジュアル特徴テンソルといった表現はさらに、発音モデルを構成するために使用され得、他の場合では、発音モデルは、当該表現に基づいて構成されない場合があり得る。
1つの場合では、ビジュアルコンテキストインジケータは、リモートのビジュアル特徴抽出器から表現を受け取り得る。この場合、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの1つ以上を構成する際の使用の前に当該表現を処理してもよく、または、処理しなくてもよい。1つの場合では、ビジュアルコンテキストインジケータは、画像データまたは1つ以上の画像から導出されるデータを受け取り得る。1つの場合では、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの1つ以上と共同で学習または構成され得る。別の場合では、ビジュアルコンテキストインジケータは、音響モデルおよび言語モデルのうちの1つ以上と独立して学習または構成されてもよく、たとえば、ビジュアルコンテキストインジケータを学習する場合、音響モデルおよび/または言語モデルのパラメータは固定されてもよく、音響モデルおよび/または言語モデルを学習する場合、ビジュアルコンテキストインジケータのパラメータが固定されてもよい。
スピーチ処理の例示的な方法
図9Aは、クライアントデバイスにおいてスピーチを処理するための例示的な方法900を示す。方法900は、ユーザからの発声に関連付けられるオーディオデータがキャプチャされるブロック905において始まる。これは、図3Aおよび図3Bにおけるデバイス330、370または380のような1つ以上のマイクロフォンからのデータをキャプチャすることを含み得る。オーディオデータは、発声の前または後の記録の部分と、発声自体とを含み得る。ブロック910では、ユーザの環境を特徴とする画像データがキャプチャされる。たとえば、画像データは、図3Aおよび図3Bにおける315、320、325、365および375のうちの1つ以上のようなカメラデバイスからキャプチャされ得る。1つの場合では、画像データは、クライアントデバイスの外部のカメラからデータを受け取ることによりキャプチャされ得る。
ブロック915では、当該方法は、ビジュアル特徴抽出器を使用して、画像データの1つ以上のフレームからビジュアル特徴テンソルのセットを抽出することを含む。ビジュアル特徴抽出器はクライアントデバイスの部分であり得る。画像データのフレームは、ビジュアル特徴テンソルのセットより大きい情報コンテンツを有しており、たとえば、より多いビットの情報を含み得る。ビジュアル特徴テンソルのセットは1つのビジュアル特徴テンソルを含み得、または、ビジュアル特徴テンソルのシーケンスを含み得る。たとえば、前者は図8のシステム800のために使用されてもよく、後者は図6のシステム600において使用されてもよい。ブロック920では、クライアントデバイスにおいてオーディオ特徴抽出器を使用してオーディオデータからオーディオ特徴テンソルのセットが抽出される。また、オーディオ特徴テンソルのセットは、1つのオーディオ特徴テンソルを含み得るか、または、オーディオ特徴テンソルのシーケンスを含み得、前者は図8のシステム800のために使用され、後者は図6のシステム600のために使用される。
ブロック925では、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットがサーバデバイスに送信される。これは、図1に示されるサーバデバイス120または図6および図8に示されるサーバ側コンポーネント650,850を含み得る。サーバデバイスは、言語的モデルに少なくともビジュアル特徴テンソルおよびオーディオ特徴テンソルを提供するように構成され、言語的モデルは、発声を解析するのに使用可能な言語的特徴のセットを決定するように構成される。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの1つ以上を含み得、言語的特徴は、音素シーケンス、文字シーケンス、単語部分シーケンスまたは単語シーケンスのうちの1つ以上を含み得る。この方法では、ビジュアル特徴抽出器およびオーディオ特徴抽出器は、たとえば図7を参照して説明されるように、言語的モデルと共同で構成される。
図9Bは、サーバデバイスにおいてスピーチを処理するための方法950を示す。当該方法は、方法900の後に行なわれてもよく、および/または、ビジュアルおよびオーディオ特徴生成の別の方法の後に行なわれてもよい。ブロック955では、オーディオおよびビジュアル特徴テンソルのセットはクライアントデバイスから受け取られる。ビジュアル特徴テンソルは、図9Aにおけるブロック915のように生成され得る。すなわち、クライアントデバイスによってキャプチャされる画像データのフレームに基づいてクライアントデバイスのビジュアル特徴抽出器によって生成され得、画像データのフレームは、クライアントデバイスの環境を特徴とする。オーディオ特徴テンソルは、図9Aにおけるブロック920のように生成され得る。すなわち、ユーザの発声に関連してクライアントデバイスによってキャプチャされる対応するオーディオデータに基づいてクライアントデバイスのオーディオ特徴抽出器によって生成され得る。
ブロック960では、オーディオおよびビジュアル特徴テンソルのセットは入力として言語的モデルに提供される。言語的モデルはたとえば、図1の言語的モデル124、図6の言語的モデル655または図8の言語的モデル855を含み得る。言語的モデルは、発声を解析するのに使用可能な言語的特徴のセットを決定するように構成されており、ビジュアル特徴抽出器およびオーディオ特徴抽出器は言語的モデルと共同で構成される。ブロック965では、発声は言語的モデルの出力を使用して解析される。これは、コマンド、および/または、発声に関連付けられるコマンドデータを決定することを含み得る。その場合、当該方法はさらに、コマンドデータに従ってコマンドの実行を指示することを含み得る。これにより、応答データがクライアントデバイスに送信され得る。クライアントデバイスは、サーバデバイスからの発声に対する応答を受け取り得、たとえばコマンド実行の出力といったユーザに対する対応する応答を提供し得る。
1つの場合において、サーバデバイスでの方法はさらに、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られたセットに基づいて音響モデル構成を選択することと、オーディオデータを受け取ることと、発声に対応する音素データを決定するために、音響モデル構成に従って構成された音響モデルをオーディオデータに適用することとを含む。これはたとえば、図8の言語的モデル855を使用して行なわれ得る。したがって、その発声は、音素データを使用して解析され得る。1つの場合では、音素データは、発声を解析するためにさらに別の言語的処理パイプラインに入力され得、たとえば、音素データは言語的トランスクリプションへと処理され得、これが発声を解析するために使用され得る。
ある場合では、言語的モデルは、たとえばビジュアル特徴テンソルおよびオーディオ特徴テンソルのうちの1つ以上から導出されるような、環境情報のための統計的言語モデルおよび別個の「メタ」言語モデルを含み得る。この場合、メタ言語モデルは、メタモデルの出力に基づいて、統計的言語モデルによる出力として、代替的な仮定を再スコアリングするように構成され得る。
ある場合には、言語的モデルは、たとえば、オーディオデータ、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上を受け取る複数のモデルを含み得る。この場合、言語的モデルは、トランスクリプションのような、言語的特徴を決定するために投票(voting)を使用するアンサンブルモデルを含み得る。ある場合には、音響モデルおよび/または言語モデルが複数の候補シンボルシーケンスを出力し得る。これらの場合において、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上を受け取る自然言語処理の付加的なステージが、さまざまなシーケンス仮説を処理し、かつ、出力として各シーケンスについてのスコアを提供するように構成され得る。
共同で構成する方法
図10は、例に従った、スピーチを処理するためのシステムを構成する方法1000を示す。ブロック1010では、当該方法は、スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含む。たとえば、これは、図7に示されるエンドツーエンドシステムを構成することを含み得る。図7に示されるように、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルは、たとえば重みおよびバイアスのセットといったモデルパラメータのそれぞれのセットによってパラメータ化され得る。ブロック1020では、当該方法は、時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることを含む。この場合、時間的な相関は、オーディオデータおよび画像データの両方がユーザの発声の所与の時間窓内でキャプチャされたということであり得る。ある場合には、画像データおよびオーディオデータが集合的に、ビデオデータを含み得、オーディオデータがビデオデータのための1つ以上のオーディオチャンネルを形成する。グラウンドトゥールース言語的特徴は、音素、文字、単語部分および単語の1つ以上のシーケンスを含み得る。1つの場合では、グラウンドトゥールース言語的特徴は、発声のテキストトランスクリプションの形態で提供され得る。ブロック1030では、当該方法は、モデルパラメータのそれぞれのセットについて学習された値を決定するために、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルを、学習データを使用して共同で構成することを含み、共同で構成することは、スピーチ認識モデルを通じて言語的モデルのエラーをバックプロパゲーションすることを含む。これは、図7に示されるプロセスを行なうことを含み得る。ブロック1030は、ニューラルネットワーク機能のライブラリにおいて供給されると、損失関数および学習ルーチンの実現例を規定すること含み得る。
例示的なサーバデバイス
図11は、図1におけるサーバデバイス120を実現し得るか、または、図9Bおよび図10の方法のうちの1つ以上を行ない得る例示的なサーバデバイス1100を示す。サーバデバイスは、ラックマウントサーバブレードマルチプロセッササーバシステム(rack-mounted server blade multi-processor server system)を含み得る。サーバデバイスは、ソフトウェアを並列で実行する複数のネットワーク接続されたコンピュータプロセッサを含み得る。サーバデバイス110は、コンピュータプロセッサ(CPU)コア1110のマルチコアクラスタおよびグラフィックスプロセッサ(GPU)コア1120のマルチコアクラスタを含む。これらのプロセッサは、プログラムコードおよびデータストレージのためのランダムアクセスメモリ(RAM)デバイス1140にボードレベルのインターコネクト1130を通じて接続する。サーバシステム1100はさらに、プロセッサがインターネットにアクセスすることを可能にするようネットワークインターフェイス1150を含む。インターフェイス1130を通じてRAMデバイスに格納される命令を実行することによって、CPU1110およびGPU1120は、本願明細書に記載されるような方法のステップを行ない得る。ある場合では、本願明細書に記載されるようなクライアントデバイスは、コンポーネントの同様の一般的な構成を有し得るが、ある場合において、より少ないコンピューティングリソースを有し得、専用のグラフィックスプロセッサ1120を有さない場合もあり得る。クライアントデバイスは、サーバデバイス1100と同様の態様で本願明細書において記載される方法のステップを行なう1つ以上のCPUを有し得る。
例示的なシステムの構成
図12は、スピーチ処理システムを構成するための動作1200の例示的なセットを示すシーケンス図である。動作1200のセットは図10の方法1000の拡張と理解され得る。動作1200のセットは、学習デバイス1202と、サーバデバイス1204と、1つ以上のクライアントデバイス1206のセットとを含む分散コンピューティングシステムに亘って行なわれる。たとえば、学習デバイス1202および/またはサーバデバイス1204は、図11に示されるもののようなコンピューティングシステムを含み得、クライアントデバイス1206は、図1、図2、図3Aおよび図3Bに示されるもののようなクライアントデバイスを含み得る。
ブロック1210〜1220は、学習デバイス1202において行なわれ、図10の動作と同様である。ブロック1210では、オーディオ特徴抽出器およびビジュアル特徴抽出器が言語的モデルに伝達可能に結合される。これは、メモリにロードされるとともに1つ以上のプロセッサ上で実行されるコンピュータプログラムコード内に規定されるモデルクラスをロードおよびインスタンス化することを含み得る。1つの場合では、これは、オーディオ特徴抽出器およびビジュアル特徴抽出器の出力同士間の結合と、言語的モデルの対応する入力とを規定することを含み得る。当該結合は、コンピュータプログラムコードに規定され得、および/または、グラフィカル開発環境を通じて規定され得る。ブロック1215では、学習データが得られる。これは、データベースまたは1つ以上のコンピュータファイルからの学習データの1つ以上のバッチをロードすることを含み得る。学習データは、オーディオ特徴抽出器およびビジュアル特徴抽出器のための入力と、言語的モデルのための対応するグラウンドトゥールース出力とを含む。学習データは、(audio_samples, video_frames, text_output)または(audio_samples, video_frames, phoneme_output)により構成されるトリプルを含み得る。学習データはそのまま使用されてもよいし、または、前処理されてもよい。たとえば、テキストまたは音素出力は、音素、文字または単語のようなシンボルのシーケンスへ分割され得る。オーディオサンプルは、生のオーディオデータを含む場合、プロダクションオーディオ処理パイプラインのように、クライアントデバイスにおけるオーディオ特徴抽出器の適用に先立って前処理され得る。同様に、ビデオフレームは、生の画像データを含む場合、プロダクション画像処理パイプラインのように、クライアントデバイスにおけるビジュアル特徴抽出器の適用に先立って前処理され得る。
ブロック1220では、ブロック1210において規定される結合されたシステムは、ブロック1215において得られた学習データを使用して共同で学習される。これは、学習データから個々のデータサンプルを抽出し、オーディオ特徴抽出器およびビジュアル特徴抽出器に入力を適用し、言語的モデルの出力および学習データからのグラウンドトゥールース値の比較に基づき損失関数値を計算するスクリプトおよび/または予め規定されたトレーニングプロシージャを実行することを含み得る。他の場合において、結合されたシステムの形態と、利用可能である学習データとに依存して、さまざまな学習アプローチが適用され得る。たとえば、学習は、教師あり学習であってもよく、または、教師なし学習であってもよい(たとえば、後者はグラウンドトゥールース値の代わりにクラスタリングを使用する)。ブロック1220での共同学習の出力は、たとえば図7に示されるように、オーディオ特徴抽出器、ビジュアル特徴抽出器および言語的モデルの各々についての学習されたパラメータのセットを含む。これらの学習されたパラメータは、重みおよびバイアスの1つ以上のセットについての値(たとえば整数または浮動小数点値)を含み得る。1つの場合では、学習されたパラメータは、たとえば1つ以上のマトリックス(数値配列)またはベクトルといった、1つ以上のテンソルとして規定され得る。これらは構成ファイルに格納され得る。
ブロック1225では、言語的モデルのための学習されたパラメータは、サーバデバイス1204に伝達される。1つのサーバデバイスがこの例において示されるが、他の例において、たとえば、並列のサーバデバイス実現例を有するロードバランスされたインフラストラクチャを実現する場合、複数のサーバデバイスが存在し得る。ブロック1230では、学習されたパラメータがサーバデバイス1204において受け取られる。学習されたパラメータは、たとえば、ファイル転送プロトコルを使用して1つ以上の構成ファイルを転送することによってネットワークを介して伝達され得、および/または、(たとえば学習デバイス1202およびサーバデバイス1204が物理的および/もしくは仮想環境において同じ場所に位置する場合)ローカルインターコネクトによって転送され得る。ブロック1235では、学習されたパラメータは、言語的モデルをインスタンス化するためにサーバデバイス1204によってロードされる。たとえば、これは、学習されたパラメータ内の重みおよびバイアスの1つ以上のセットについての値に従ってニューラルネットワークアーキテクチャを構成することを含み得る。ブロック1235は、サーバデバイス1204がクライアントデバイス1206からのデータを処理することを開始するようアクティベートされると、行なわれ得る。
ブロック1240では、ブロック1225〜1235と同様のプロセスは、1つ以上のクライアントデバイス1206について繰り返される。ブロック1240では、オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された値は、1つ以上のクライアントデバイス1206に伝達される。これらは、すべてのクライアントデバイス1206について同時に生じる必要はなく、たとえば、学習されたパラメータは、コンピュータプログラムコードに埋め込まれてもよく、ならびに/または、ソフトウェアアップデートの形態でクライアントデバイスに伝達され、および/もしくは、クライアントデバイス上で実行されるエージェントによってダウン可能(downable)であるデータに埋め込まれてもよい。ブロック1245では、学習されたパラメータ値は、1つ以上のクライアントデバイス1206によって受け取られる。ブロック1250では、オーディオ特徴抽出器のための学習されたパラメータは、オーディオ特徴抽出器を構成するために使用され、たとえば、重みおよびバイアスの1つ以上のセットについての値は、リカレントニューラルネットワークアーキテクチャをインスタンス化するために使用され得る。ブロック1255では、ビジュアル特徴抽出器のための学習されたパラメータは、ビジュアル特徴抽出器を構成するために使用され、たとえば、重みおよびバイアスの1つ以上のセットについての値は、畳み込みニューラルネットワークアーキテクチャをインスタンス化するために使用され得る。ブロック1250および1255の後、クライアントデバイス1206は、サーバデバイス1204による処理のために、たとえば図4A〜図4Cの動作のように、オーディオおよびビジュアル特徴テンソルを生成する準備ができている。
図12では、ブロック1225〜1255は製造時に行なわれ得る。この場合、ブロック1225または1240での送信は、たとえば工場環境内において、1つ以上の結合されたデータインターフェイス(たとえばユニバーサルシリアルバス)を介してデータを送信することを含み得る。
1つの場合において、図10におけるブロック1030または図12におけるブロック1220では、オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上が、言語的モデルへの入力の前に、学習中に重み付けされ得る。たとえば、「ドロップアウト」アプローチと同様の態様で、あるサンプルに関しておよび/またはサンプルのあるランダムに選択された割合に関して、(全体、または、テンソル内の要素の規定された割合について)ビジュアル特徴テンソルからの入力がゼロにされ得る。これは、ビジュアル特徴テンソルが存在しない場合において、使用可能な出力をそれでも作り出す変換を言語的モデルがラーニングするのを支援し得る。これは、画像データが利用可能でない場合に有用であり得る(たとえば、ユーザがカメラをディアクティベートしてもよく、および/または、カメラが存在していなくてもよく、もしくは、動作してなくてもよい)。
ある場合において、ブロック1210は、学習されたビジュアル分類モデルを得ることと、学習されたビジュアル分類モデルのための新しい出力層を生成するために、構成されたビジュアル分類モデルの1つ以上の分類層を除去することとを含み得る。たとえば、これは、モデルについて、予め構築されたビジュアル分類モデルおよび学習されたパラメータのセットを得ることを含み得る。ビジュアル分類モデルは、ImageNetのような公開データセットを使用して学習され得る。1つ以上の分類層を除去することは、分類確率と、後のフィードフォワードおよび/または畳み込みニューラルネットワークステージを出力するために使用されるソフトマックス層の1つ以上を除去することを含み得る。分類層は、たとえばコードエディタおよび/またはグラフィカル開発環境を介して、ビジュアル分類モデルを規定するコンピュータプログラムコードを編集することにより除去され得る。ひとたび1つ以上の分類層が除去されると、ブロック1210はさらに、ビジュアル特徴抽出器を得るために、1つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを新しい出力層に伝達可能に結合することを含み得る。この場合、さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、新しい出力層の次元数より小さい。すなわち、さらに別のニューラルネットワークアーキテクチャは、オートエンコーダと同様の態様で、ビジュアル特徴テンソルとしての使用のための圧縮された「コード」を生成するよう作用する。
ニューラルネットワークモデルに関連して本願明細書におけるある例が記載された。他の場合では、1つ以上の統計モデルが使用されてもよく、および/または、ニューラルネットワークおよび統計モデルのミックスが使用されてもよい。言語的モデルが統計モデルを含む例において、共同で言語的モデルを構成することは、たとえばニューラルネットワークモデルの重みおよび/またはバイアスと同様の態様で、言語的モデルのために確率値および/または周波数値をロードすることを含み得る。
例示的な実現例
自動音声認識を含むスピーチ処理に関するある例が記載される。ある例は、ある話された言語の処理に関する。さまざまな例は、他の言語または言語の組合せについても同様に動作する。ある例は、言語外の環境情報を組み込むことによりスピーチ処理の精度および堅牢性を向上させる。言語外の環境情報は言語的モデルを向上させるために使用され得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの1つ以上を含み得る。
ある例において、言語外の環境情報は、たとえば画像データから導出される表現といった、環境のビジュアル表現を含む。ある例において、言語外の環境情報は、たとえば、処理すべき発声を表わし得るかまたは表わし得ないオーディオデータから導出される表現といった、環境の音響表現を含む。後者の場合では、環境の音響の表現は、発声の音響の表現に加えて提供され得る。ある例は、スピーチ処理の精度を向上させるために、ビジュアル特徴と音響的特徴との間の相関を使用し得る。たとえば、音響モデルでは、人々の群衆の画像は、「お喋り」のバックグラウンドノイズに相関され得、屋外のシーンの画像は風のノイズに相関され得る。「お喋り」のノイズおよび風のノイズは異なる音響的特徴を有し得る。したがって、ビジュアル表現によって、音響モデルは「より正確な」ノイズ表現を選択することが可能となり得、たとえば、音響表現およびビジュアル表現と一貫する音素のシーケンスを選択することが可能となり得る。ある場合には、日時情報またはジオロケーション情報のような付加的な言語外の環境情報も使用され得る。たとえば、ジオロケーション情報は、音響モデリングの目的のために「戸外」の分類の信頼を高め得る。ある場合には、言語外の情報は、文単語統計(sentence word statistics)の開始のために特定の改善を提供し得る。たとえばシーケンスのトランスクリプションに使用されるコンテキストを選択するために特定の改善を提供し得、異なるコンテキストは異なるシーケンスにつながり得る。
携帯電話のようなクライアントデバイスは、環境の音響の表現の歪曲をコストとして音声データを記録するようにしばしば高度に適合されるので、音響の表現を既存のオーディオデータに加えることは有用であり得る。たとえば、マイクロフォン上のノイズキャンセルは、(たとえば人間のプレイバックのための)知覚されたスピーチオーディオ品質を向上させるが、マシンの処理についての有益な情報を廃棄する。図8のシステム800のような例では、音声表現および環境表現のための並列オーディオ経路によって、言語的モデルが、ノイズキャンセルおよびビームフォーミングのようなクライアントデバイス処理の負の効果を抑制することが可能になる。ある場合では、オーディオ特徴抽出器は、言語的モデルニューラルネットワークアーキテクチャとは異なるニューラルネットワークアーキテクチャを有し得、たとえば、直接的なスピーチ処理に好適ではない場合があり得る、畳み込みニューラルネットワークが使用され得る環境の音響表現を提供する。これらの場合では、オーディオ特徴テンソルがスピーチオーディオを増強するために使用され得る。本願明細書において記載されるある例は、環境情報の特徴のモデルおよび言語的モデルを共同で構成しており、当該特徴はビジュアルおよび音響であり得る。
ある方法および動作のセットは、一時的でないコンピュータ読取可能媒体上に格納される命令によって行なわれ得る。一時的でないコンピュータ読取可能媒体は、1つ以上のコンピュータによって実行されると、本願明細書において記述された方法のステップをコンピュータに行なわせる命令を含むコードを格納する。一時的でないコンピュータ読取可能媒体は、回転磁気ディスク、回転光ディスク、フラッシュランダムアクセスメモリ(RAM)チップ、他の機械的に動く記憶媒体またはソリッドステート記憶媒体のうちの1つ以上を含み得る。データセンタは、サーバプロセッサのための命令を含むデータおよびコードを格納するために一般に磁気ディスクおよびフラッシュメモリを使用する。モバイルデバイスは一般に、システムオンチップデバイス内のプロセッサのためにデータおよびコードを格納するためにフラッシュメモリを使用する。任意のタイプのコンピュータ読取可能媒体は、さまざまな例に従った命令を含むコードを格納するために適切である。
本願明細書において記載されるある例は、いわゆるシステムオンチップ(SoC)デバイスとして実現され得る。SoCデバイスは、多くの埋込システムおよびIoTデバイスを制御し、本願明細書において記載されるクライアントデバイス機能を実現するために使用され得る。1つの場合では、ビジュアル特徴抽出器およびオーディオ特徴抽出器のうちの1つ以上は、SoCデバイスとして実現され得る。SoCデバイスは、1つ以上のプロセッサ(たとえばCPUまたはGPU)と、ランダムアクセスメモリ(たとえばオフチップダイナミックRAMすなわちDRAMといったRAM)と、イーサネット(登録商標)、WiFi(登録商標)、3G、4Gロングタームエボリューション(LTE: long-term evolution)、5Gおよび他の無線インターフェイス規格の無線のような有線または無線接続のためのネットワークインターフェイスとを含み得る。SoCデバイスはさらに、タッチスクリーンセンサ、ジオロケーションレシーバ、マイクロフォン、スピーカ、ブルートゥース(登録商標)周辺機器、ならびに、キーボードおよびマウスのようなUSBデバイスといった異なる周辺機器デバイスに必要とされるようなさまざまなI/Oインターフェイスデバイスを含み得る。RAMデバイスに格納された命令を実行することによって、SoCデバイスのプロセッサは、本願明細書に記載されるように方法のステップを行ない得る。
ある例が本願明細書において記載されており、異なる例からの異なるコンポーネントの異なる組合せが可能であり得る。顕著な特徴は、例をより良く説明するために示されるが、記載したようなこれらの例の機能的な局面を修正することがなければ、ある特徴が、加えられてもよく、修正されてもよく、および/または省略されてもよいということが明らかである。
さまざまな例は、人間およびマシンのいずれかまたはその組合せの挙動を使用する方法である。方法の例は、世界においてほとんどの構成ステップが生じる場合はどこでも完全である。いくつかの例は、本願明細書において記載される方法についてそのような命令を格納するように構成される1つ以上の一時的でないコンピュータ読取可能媒体である。必要なコードのうちのいずれかを含む一時的でないコンピュータ読取可能媒体を保持するどのようなマシンでも例を実現し得る。いくつかの例は、次のように実現され得る。すなわち、半導体チップのような物理デバイス、そのようなデバイスの論理または機能的挙動のハードウェア記述言語表現、および、そのようなハードウェア記述言語表現を格納するように構成される1つ以上の一時的でないコンピュータ読取可能媒体のように実現され得る。原則、局面および実施形態を説明する本願明細書における記載は、その構造的および機能的な等価物を包含する。結合されると本願明細書において記載される要素は、直接的な接続によって、または、1つ以上の多くの他の介在要素により間接的に実現可能な有効な関係を有する。

Claims (24)

  1. スピーチを処理するためのクライアントデバイスであって、
    ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
    前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
    前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する1つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
    前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、1つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
    前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
    前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成される、クライアントデバイス。
  2. 前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器のうちの1つ以上は、ニューラルネットワークアーキテクチャを含む、請求項1に記載のクライアントデバイス。
  3. 前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの数値表現を含み、前記トランスミッタは、前記オーディオ特徴テンソルとともに前記オーディオデータを前記サーバデバイスに送信するように構成されており、前記サーバデバイスの前記言語的モデルは、前記オーディオデータに基づいて言語的特徴を決定するよう、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用して構成される、請求項1または2に記載のクライアントデバイス。
  4. 前記画像データはビデオデータを含み、前記オーディオデータは前記ビデオデータに時間的に相関されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記ビデオデータおよび前記オーディオデータに並列に適用される、請求項1〜3のいずれか1項に記載のクライアントデバイス。
  5. 前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャを含み、前記第1の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第1の出力層に結合される1つ以上の付加的な分類層による学習動作から導出され、
    前記ビジュアル特徴抽出器はさらに、第2の入力層および第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャを含み、前記第2の入力層は、前記第1の畳み込みニューラルネットワークアーキテクチャの前記第1の出力層に結合されており、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有する、請求項1〜4のいずれか1項に記載のクライアントデバイス。
  6. 前記第2のニューラルネットワークアーキテクチャは、学習動作において、前記オーディオ特徴抽出器および前記言語的モデルと共同で学習され、前記第1の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータの前記セットは、前記学習動作中は固定される、請求項5に記載のクライアントデバイス。
  7. スピーチを処理するためのサーバデバイスであって、
    クライアントデバイスから1つ以上のビジュアル特徴テンソルおよび1つ以上のオーディオ特徴テンソルを受け取るレシーバを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは、前記クライアントデバイスの環境を特徴としており、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、
    前記サーバデバイスはさらに、
    前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを受け取り、かつ、前記発声を解析するために使用可能な言語的特徴を決定する言語的モデルを含み、
    前記言語的モデルは、前記クライアントデバイスの前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成される、サーバデバイス。
  8. 前記言語的モデルによる使用に先立って、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに重みを適用するアテンションプリプロセッサを含む、請求項7に記載のサーバデバイス。
  9. 前記言語的モデルは、入力として前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、前記発声のテキスト表現を出力するニューラルネットワークアーキテクチャを含む、請求項7または8に記載のサーバデバイス。
  10. 前記オーディオ特徴テンソルは、前記環境についてのオーディオコンテキストの表現を含み、前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの表現を含み、
    前記サーバデバイスの前記レシーバは、前記オーディオ特徴テンソルに加えて前記オーディオデータを受け取るように構成され、
    前記言語的モデルは、前記オーディオデータからの前記発声を解析するために使用される音素データを生成する音響モデルを含み、前記音響モデルは、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに基づいて構成される、請求項7〜9のいずれか1項に記載のサーバデバイス。
  11. 前記音響モデルは、
    音響モデル構成のデータベースと、
    前記オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいて、前記データベースから音響モデル構成を選択する音響モデルセレクタと、
    前記オーディオデータを処理する音響モデルインスタンスとを含み、前記音響モデルインスタンスは、前記音響モデルセレクタによって選択される前記音響モデル構成に基づいてインスタンス化され、前記音響モデルインスタンスは、前記発声を解析するために使用される前記音素データを生成するように構成される、請求項10に記載のサーバデバイス。
  12. 前記言語的モデルはさらに、
    前記音素データを受け取り、かつ、前記発声を表わすテキストデータを生成する、前記音響モデルに伝達可能に結合される言語モデルを含み、
    前記言語モデルは、前記オーディオ特徴テンソルおよび前記ビジュアル特徴テンソルを、前記発声を表わす前記テキストデータを生成するために使用される入力として受け取るように構成される、請求項10または11に記載のサーバデバイス。
  13. クライアントデバイスにおいてスピーチを処理するための方法であって、
    前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
    前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
    画像データの1つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
    前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
    前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
    前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成される、方法。
  14. 前記クライアントデバイスにおいて、前記発声に対する応答を前記サーバデバイスから受け取ることと、
    前記クライアントデバイスにおいて、前記サーバデバイスから受け取られる前記発声に対する前記応答に基づいて前記ユーザに対する応答を提供することとを含む、請求項13に記載の方法。
  15. 前記ビジュアル特徴抽出器を使用して抽出することは、
    画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャに、キャプチャされた前記画像データから導出されるデータを提供することと、
    第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャに前記第1の出力層の出力を提供することとを含み、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有しており、前記第2の出力層の出力は、ビジュアル特徴テンソルの前記セットを生成するために使用される、請求項13または14に記載の方法。
  16. サーバデバイスにおいてスピーチを処理するための方法であって、
    前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをクライアントデバイスから受け取ることを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは前記クライアントデバイスの環境を特徴とし、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、
    前記方法はさらに、
    前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットを入力として言語的モデルに提供することを含み、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
    前記方法はさらに、
    前記言語的モデルの出力を使用して前記発声を解析することを含む、方法。
  17. 前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られた前記セットに基づいて、音響モデル構成を選択することと、
    前記サーバデバイスにおいて、前記オーディオデータを受け取ることと、
    前記発声に対応する音素データを決定するために、前記音響モデル構成に従って構成される音響モデルを前記オーディオデータに適用することと、
    前記音素データを使用して前記発声を解析することとを含む、請求項16に記載の方法。
  18. スピーチを処理するためのシステムを構成する方法であって、
    スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、前記オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、前記ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、前記言語的モデルは、言語的特徴のセットを決定するために、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、
    前記方法はさらに、
    時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、
    モデルパラメータの前記それぞれのセットについて学習された値を決定するために、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルを、前記学習データを使用して共同で構成することとを含み、前記共同で構成することは、前記スピーチ認識モデルを通じて前記言語的モデルのエラーをバックプロパゲーションすることを含む、方法。
  19. 前記オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された前記値を1つ以上のクライアントデバイスに伝達することと、
    前記言語的モデルについての学習された前記値を1つ以上のサーバデバイスに伝達することと、
    学習された前記値を使用して前記1つ以上のクライアントデバイスおよび前記1つ以上のサーバデバイスを構成することとを含み、前記1つ以上のクライアントデバイスは、前記1つ以上のサーバデバイスによって処理されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成するために使用するために、学習された前記値をロードするように構成される、請求項18に記載の方法。
  20. 学習中に前記言語的モデルによって使用される前記オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上に重み付けすることを含む、請求項18または19に記載の方法。
  21. 学習されたビジュアル分類モデルを得ることと、
    学習された前記ビジュアル分類モデルのための新しい出力層を生成するために、構成された前記ビジュアル分類モデルの1つ以上の分類層を除去することと、
    前記ビジュアル特徴抽出器を得るために、1つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを前記新しい出力層に伝達可能に結合することとを含み、前記さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、前記新しい出力層の次元数より小さい、請求項18〜20のいずれか1項に記載の方法。
  22. 命令を含むプログラムコードであって、
    前記命令は、マシンのコンピュータプロセッサによって実行されると、前記マシンに、
    ユーザからの発声に関連付けられるオーディオデータを得ることと、
    前記ユーザの環境を特徴とする画像データを得ることと、
    前記画像データの1つ以上のフレームからのビジュアル特徴テンソルのセットの抽出を命令することとを行わせ、画像データの前記フレームは、ビジュアル特徴テンソルの前記セットより大きい情報コンテンツを有しており、ビジュアル特徴テンソルの前記セットの前記抽出はパラメータの第1のセットによって構成され、
    前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
    前記オーディオデータからのオーディオ特徴テンソルのセットの抽出を命令することを行わせ、オーディオ特徴テンソルの前記セットの前記抽出はパラメータの第2のセットによって構成され、
    前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
    少なくともオーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットに基づく前記発声の解析を命令することを行わせ、前記発声の前記解析はパラメータの第3のセットによって構成され、
    パラメータの前記第1のセット、第2のセットおよび第3のセットについての値は、共同学習プロシージャを使用して決定される、プログラムコード。
  23. スピーチデータを解析するために使用される音素データを生成する音響モデルと、
    前記音響モデルからの前記音素データを使用して前記スピーチデータのトランスクリプションを生成する言語モデルと、
    前記スピーチデータがキャプチャされるビジュアル環境の表現を提供する、前記音響モデルおよび前記言語モデルのうちの少なくとも1つに伝達可能に結合されるビジュアルコンテキストインジケータとを含み、
    前記音響モデルおよび前記言語モデルのうちの1つは、前記ビジュアル環境の前記表現に基づいて区別的に構成される、スピーチ処理装置。
  24. 命令を含むプログラムコードであって、前記命令は、デバイスのコンピュータプロセッサによって実行されると、前記デバイスに請求項13〜17のいずれか1項に記載の方法を実行させる、プログラムコード。
JP2019231729A 2019-07-11 2019-12-23 視覚支援スピーチ処理 Active JP7242520B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16/509,029 2019-07-11
US16/509,029 US11257493B2 (en) 2019-07-11 2019-07-11 Vision-assisted speech processing
KR1020190121046A KR20210007786A (ko) 2019-07-11 2019-09-30 시각 보조 음성 처리
KR10-2019-0121046 2019-09-30

Publications (2)

Publication Number Publication Date
JP2021015264A true JP2021015264A (ja) 2021-02-12
JP7242520B2 JP7242520B2 (ja) 2023-03-20

Family

ID=74101823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019231729A Active JP7242520B2 (ja) 2019-07-11 2019-12-23 視覚支援スピーチ処理

Country Status (3)

Country Link
US (2) US11257493B2 (ja)
JP (1) JP7242520B2 (ja)
KR (5) KR20210007786A (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11416714B2 (en) * 2017-03-24 2022-08-16 Revealit Corporation Method, system, and apparatus for identifying and revealing selected objects from video
US11011162B2 (en) 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
US11508374B2 (en) * 2018-12-18 2022-11-22 Krystal Technologies Voice commands recognition method and system based on visual and audio cues
US11663814B2 (en) * 2019-08-23 2023-05-30 Arm Limited Skip predictor for pre-trained recurrent neural networks
KR102231909B1 (ko) * 2019-09-20 2021-03-25 엘지전자 주식회사 인공지능 장치
US11580869B2 (en) * 2019-09-23 2023-02-14 Revealit Corporation Computer-implemented interfaces for identifying and revealing selected objects from video
CN114616620A (zh) 2019-10-18 2022-06-10 谷歌有限责任公司 端到端多讲话者视听自动语音识别
US11948076B2 (en) * 2019-10-25 2024-04-02 Sony Group Corporation Media rendering device control based on trained network model
US11635299B2 (en) * 2020-02-06 2023-04-25 Mitsubishi Electric Research Laboratories, Inc. Method and system for scene-aware interaction
US11657799B2 (en) * 2020-04-03 2023-05-23 Microsoft Technology Licensing, Llc Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition
US11450310B2 (en) * 2020-08-10 2022-09-20 Adobe Inc. Spoken language understanding
US11802894B2 (en) * 2020-09-17 2023-10-31 Silicon Laboratories Inc. Compressing information in an end node using an autoencoder neural network
US11908478B2 (en) * 2021-08-04 2024-02-20 Q (Cue) Ltd. Determining speech from facial skin movements using a housing supported by ear or associated with an earphone
CN114120074B (zh) * 2021-11-05 2023-12-12 北京百度网讯科技有限公司 基于语义增强的图像识别模型的训练方法和训练装置
CN114338385B (zh) * 2021-12-31 2024-05-17 上海商汤智能科技有限公司 网络配置方法及系统、电子设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268683A (ja) * 2001-03-09 2002-09-20 Canon Inc 情報処理方法及び装置
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
JP2004333738A (ja) * 2003-05-06 2004-11-25 Nec Corp 映像情報を用いた音声認識装置及び方法
WO2011111221A1 (ja) * 2010-03-12 2011-09-15 三菱電機株式会社 エレベータの音声呼び登録装置
JP2012022053A (ja) * 2010-07-12 2012-02-02 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
JP2018036653A (ja) * 2012-08-10 2018-03-08 エイディシーテクノロジー株式会社 音声応答装置
US20180075849A1 (en) * 2016-09-12 2018-03-15 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US20180285752A1 (en) * 2017-03-31 2018-10-04 Samsung Electronics Co., Ltd. Method for providing information and electronic device supporting the same
JP2019097016A (ja) * 2017-11-22 2019-06-20 株式会社デンソーアイティーラボラトリ コーパス生成装置、コーパス生成方法、およびプログラム
JP2020066472A (ja) * 2018-10-19 2020-04-30 株式会社日立ビルシステム エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2323693B (en) 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6594629B1 (en) 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6633844B1 (en) 1999-12-02 2003-10-14 International Business Machines Corporation Late integration in audio-visual continuous speech recognition
US6442820B1 (en) 2000-10-26 2002-09-03 F & P Mfg., Inc. Method and apparatus for forming a tube having an article inserted therein
US6964023B2 (en) 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US6952674B2 (en) 2002-01-07 2005-10-04 Intel Corporation Selecting an acoustic model in a speech recognition system
JP2004260641A (ja) 2003-02-27 2004-09-16 Shibasoku:Kk 信号処理装置
JP4463526B2 (ja) 2003-10-24 2010-05-19 株式会社ユニバーサルエンターテインメント 声紋認証システム
JP4599244B2 (ja) 2005-07-13 2010-12-15 キヤノン株式会社 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
US8126274B2 (en) 2007-08-30 2012-02-28 Microsoft Corporation Visual language modeling for image classification
KR100903348B1 (ko) 2007-11-28 2009-06-23 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
CN101187990A (zh) 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
US8645123B2 (en) 2008-10-27 2014-02-04 Microsoft Corporation Image-based semantic distance
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
KR101092820B1 (ko) 2009-09-22 2011-12-12 현대자동차주식회사 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
TWI399739B (zh) 2009-11-13 2013-06-21 Ind Tech Res Inst 語音留言與傳達之系統與方法
JP5928606B2 (ja) 2011-12-26 2016-06-01 インテル・コーポレーション 搭乗者の聴覚視覚入力の乗り物ベースの決定
US9418674B2 (en) * 2012-01-17 2016-08-16 GM Global Technology Operations LLC Method and system for using vehicle sound information to enhance audio prompting
TWI466101B (zh) 2012-05-18 2014-12-21 Asustek Comp Inc 語音識別方法及系統
US8768693B2 (en) 2012-05-31 2014-07-01 Yahoo! Inc. Automatic tag extraction from audio annotated photos
US20150199960A1 (en) 2012-08-24 2015-07-16 Microsoft Corporation I-Vector Based Clustering Training Data in Speech Recognition
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9190058B2 (en) 2013-01-25 2015-11-17 Microsoft Technology Licensing, Llc Using visual cues to disambiguate speech inputs
KR20150031896A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 음성인식장치 및 그 동작방법
JP6025690B2 (ja) 2013-11-01 2016-11-16 ソニー株式会社 情報処理装置および情報処理方法
US10741182B2 (en) 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
US9728185B2 (en) 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
US20160034811A1 (en) 2014-07-31 2016-02-04 Apple Inc. Efficient generation of complementary acoustic models for performing automatic speech recognition system combination
CN104463250B (zh) 2014-12-12 2017-10-27 广东工业大学 一种基于达芬奇技术的手语识别翻译方法
US9697833B2 (en) 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
JP2017090612A (ja) 2015-11-09 2017-05-25 三菱自動車工業株式会社 音声認識制御システム
US20170186044A1 (en) * 2015-12-29 2017-06-29 Picsoneye Segmentation Innovations Ltd System and method for profiling a user based on visual content
US10896681B2 (en) * 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US10964326B2 (en) 2016-02-16 2021-03-30 Carnegie Mellon University, A Pennsylvania Non-Profit Corporation System and method for audio-visual speech recognition
CN107134279B (zh) * 2017-06-30 2020-06-19 百度在线网络技术(北京)有限公司 一种语音唤醒方法、装置、终端和存储介质
CN107507612B (zh) 2017-06-30 2020-08-28 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
US11290518B2 (en) * 2017-09-27 2022-03-29 Qualcomm Incorporated Wireless control of remote devices through intention codes over a wireless connection
CN109872379B (zh) 2017-12-05 2022-12-02 富士通株式会社 数据处理装置和方法
JP6973110B2 (ja) 2018-01-23 2021-11-24 株式会社リコー 情報処理システム、情報処理端末、情報処理方法及びプログラム
US20210065712A1 (en) 2019-08-31 2021-03-04 Soundhound, Inc. Automotive visual speech recognition

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002268683A (ja) * 2001-03-09 2002-09-20 Canon Inc 情報処理方法及び装置
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2003271182A (ja) * 2002-03-18 2003-09-25 Toshiba Corp 音響モデル作成装置及び音響モデル作成方法
JP2004333738A (ja) * 2003-05-06 2004-11-25 Nec Corp 映像情報を用いた音声認識装置及び方法
WO2011111221A1 (ja) * 2010-03-12 2011-09-15 三菱電機株式会社 エレベータの音声呼び登録装置
JP2012022053A (ja) * 2010-07-12 2012-02-02 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JP2012059121A (ja) * 2010-09-10 2012-03-22 Softbank Mobile Corp 眼鏡型表示装置
JP2018036653A (ja) * 2012-08-10 2018-03-08 エイディシーテクノロジー株式会社 音声応答装置
US20180075849A1 (en) * 2016-09-12 2018-03-15 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US20180285752A1 (en) * 2017-03-31 2018-10-04 Samsung Electronics Co., Ltd. Method for providing information and electronic device supporting the same
JP2019097016A (ja) * 2017-11-22 2019-06-20 株式会社デンソーアイティーラボラトリ コーパス生成装置、コーパス生成方法、およびプログラム
JP2020066472A (ja) * 2018-10-19 2020-04-30 株式会社日立ビルシステム エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杣田裕太: "経年変化に頑健な顔認識のための照合手法に関する研究", 三重大学大学院工学研究科情報工学専攻修士論文, JPN6021037328, March 2018 (2018-03-01), pages 1 - 71, ISSN: 0004827435 *
重冨達哉ほか: "深層学習を用いた環境変化に対して頑健な場所推定手法", 第22回日本バーチャルリアリティ学会大会論文集, JPN6022029894, September 2017 (2017-09-01), pages 1 - 3, ISSN: 0004827434 *

Also Published As

Publication number Publication date
KR20210007786A (ko) 2021-01-20
KR20210152430A (ko) 2021-12-15
KR102380689B1 (ko) 2022-04-01
US20220139393A1 (en) 2022-05-05
US11257493B2 (en) 2022-02-22
US20210012769A1 (en) 2021-01-14
KR102451100B1 (ko) 2022-10-06
JP7242520B2 (ja) 2023-03-20
KR20220045116A (ko) 2022-04-12
KR20240037205A (ko) 2024-03-21
KR20220139841A (ko) 2022-10-17

Similar Documents

Publication Publication Date Title
JP7242520B2 (ja) 視覚支援スピーチ処理
US20240038218A1 (en) Speech model personalization via ambient context harvesting
US10403266B2 (en) Detecting keywords in audio using a spiking neural network
US20210065712A1 (en) Automotive visual speech recognition
US11830505B2 (en) Identification of fake audio content
EP3783605A1 (en) Vehicle-mounted apparatus, method of processing utterance, and program
US11270684B2 (en) Generation of speech with a prosodic characteristic
US11457033B2 (en) Rapid model retraining for a new attack vector
CN113205793B (zh) 音频生成方法、装置、存储介质及电子设备
WO2024114303A1 (zh) 音素识别方法、装置、电子设备及存储介质
CN116075888A (zh) 用于减少云服务中的延迟的系统和方法
US11775617B1 (en) Class-agnostic object detection
KR20210030160A (ko) 전자 장치 및 이의 제어 방법
CN111971670A (zh) 在对话中生成响应
US20240104311A1 (en) Hybrid language translation on mobile devices
CN117649848A (zh) 语音信号的处理设备及方法
KR20230149894A (ko) 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템
CN117809640A (zh) 服务器、语音唤醒方法及介质
CN115273803A (zh) 模型训练方法和装置、语音合成方法、设备和存储介质
CN117892778A (zh) 一种服务器、终端设备及模型压缩方法
KR20200048976A (ko) 전자 장치 및 그 제어 방법
CN118098203A (zh) 说话对象识别的方法、装置以及计算机可读存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210928

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230207

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230308

R150 Certificate of patent or registration of utility model

Ref document number: 7242520

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150