JP2021015264A - 視覚支援スピーチ処理 - Google Patents
視覚支援スピーチ処理 Download PDFInfo
- Publication number
- JP2021015264A JP2021015264A JP2019231729A JP2019231729A JP2021015264A JP 2021015264 A JP2021015264 A JP 2021015264A JP 2019231729 A JP2019231729 A JP 2019231729A JP 2019231729 A JP2019231729 A JP 2019231729A JP 2021015264 A JP2021015264 A JP 2021015264A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- visual
- model
- data
- visual feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 379
- 238000012545 processing Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000013528 artificial neural network Methods 0.000 claims description 85
- 238000013527 convolutional neural network Methods 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 19
- 230000000875 corresponding effect Effects 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 12
- 238000013518 transcription Methods 0.000 claims description 8
- 230000035897 transcription Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims 3
- 238000004891 communication Methods 0.000 description 28
- 230000000306 recurrent effect Effects 0.000 description 26
- 239000013598 vector Substances 0.000 description 18
- 238000010586 diagram Methods 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 230000007613 environmental effect Effects 0.000 description 12
- 238000007667 floating Methods 0.000 description 12
- 230000001537 neural effect Effects 0.000 description 12
- 238000013179 statistical model Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 235000015243 ice cream Nutrition 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010267 cellular communication Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004043 responsiveness Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000239290 Araneae Species 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002739 subcortical effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
本技術はスピーチ処理の分野に存在する。
コンピューティングにおける最近の進歩は、多くの長く求められてきた音声制御アプリケーションを実現する可能性を高めている。たとえば、有効なニューラルネットワークアーキテクチャのための実際的なフレームワークを含む統計モデルにおける改善は、以前のスピーチ処理システムの精度および信頼性を大幅に増加させている。これは、アプリケーションプログラミングインターフェイスを使用して単純にアクセスされ得るある範囲のモジュラーサービスを提供するワイドエリアコンピュータネットワークの興隆に結び付けられている。したがって、音声は急速に、ユーザインターフェイスを提供するための実行可能なオプションになっている。
US8,768,693B2は、画像ファイルに1つ以上のタグを割り当てるためのシステムおよび方法を記載している。画像ファイルは、付加的なメタデータとして画像ファイルに関連付けられるテキストタグに変換されるよう、そこに埋め込まれたオーディオコンポーネントを含み得る。
本願明細書において記載されるある例は、スピーチを処理するための方法およびシステムを提供する。ある例は、スピーチを処理するためにオーディオデータおよび画像データの両方を使用する。ある例は、オーディオデータおよび画像データからオーディオ特徴およびビジュアル特徴をそれぞれ抽出する。当該特徴は、たとえばデータの顕著な局面を表わす数値配列といった特徴テンソルとして提供され得る。ある例は、オーディオ特徴およびビジュアル特徴がクライアントデバイスにおいて抽出され、さらなる処理のためにサーバデバイスに送信されるクライアントサーバアーキテクチャを提供する。オーディオ特徴およびビジュアル特徴は、たとえばサーバデバイスにおいて実現される言語的モデルに供給される。言語的モデルは、オーディオデータに関連付けられる発声を解析するために使用される。オーディオ特徴および画像特徴の両方の使用は、発声を解析するために使用される言語的モデルの精度を向上させる。処理フレームワークはさらに、低コストの埋込音声アシスタントからビークル内音声制御システムに至るある範囲の現実世界のデバイスにおいて実現されることが可能である。
以下に、さまざまな興味深い局面を示す本技術のさまざまな例を記載する。一般に、例は、記載された局面を任意の組合せで使用し得る。
図1は、例に従ったクライアントサーバアーキテクチャ100を示す。クライアントサーバアーキテクチャ100は、少なくとも1つのネットワーク130を介してサーバデバイス120と通信する複数のクライアントデバイス110を含む。ネットワーク130は、さまざまな物理的な技術(たとえば、イーサネット(登録商標)のような有線技術および/またはWi−Fi(登録商標)(IEEE802.11)規格およびセルラー通信技術のような無線技術)を使用して実現され得る1つ以上のローカルおよび/またはワイドエリアネットワークを含み得る。ある場合において、ネットワーク130は、1つ以上のプライベートネットワークおよびインターネットのようなパブリックネットワークの混合を含み得る。クライアントデバイス110およびサーバデバイス120は、異なる技術および通信経路を使用してネットワークを介して通信し得る。
図2は、クライアントデバイス210の例200を示す。クライアントデバイス210は、図1に示されるクライアントデバイス110のうちの1つのバージョンを含み得る。なお、クライアントデバイス210は、本記載に関連するある特徴を示すのみであり、クライアントデバイス210は、説明の明瞭さのためにここで示されない付加的な特徴を含んでもよい。たとえば、クライアントデバイスは、ディスプレイスクリーンを有さないイヤーピースのように、スクリーンレスであってもよい。いくつかのクライアントデバイスは、自動販売機のように静置されてもよい。いくつかのクライアントデバイスは、自動車またはロボティックデバイスのように移動可能であってもよい。いくつかのクライアントデバイスは携帯電話のようにポータブルであってもよい。いくつかのクライアントデバイスは、キーボードまたはタッチスクリーンのような手動インターフェイスを含んでもよい。さらに、クライアントデバイス210は、コンポーネントの1つの可能な配置を提供し、たとえば分散ベースの他の配置も可能である。
図3Aは、クライアントデバイス300の1つの例示的な実現例を示す。これは、図1のクライアントデバイス116または図2のクライアントデバイス210の実現例であり得る。この場合、クライアントデバイスは自動車305に組み込まれる。図3Aは、自動車305の側面図を示す。自動車305は、自動車305のコンポーネントを制御するための制御ユニット310を含む。クライアントデバイス210のコンポーネントはこの制御ユニット310に組み込まれ得る。他の場合では、クライアントデバイス210のコンポーネントは、制御ユニット310とのコネクティビティのオプションを有する別個のユニットとして実現され得る。自動車305はさらに、多くの画像キャプチャデバイス315、320および325を含む。これらは、複数の外部ビデオカメラ315および320と、少なくとも1つの内部ビデオカメラ325とを含んでいる。この例において、画像キャプチャデバイス315、320および325は、制御ユニット310に通信可能に結合され得、かつ、制御ユニット310によって制御され得る。複数の外部ビデオカメラ315および320は、駐車動作および/または自律運転機能のために使用され得る。少なくとも1つの内部ビデオカメラ325は、たとえばビデオデータによるボイスオーバインターネットプロトコルコールといったビデオ通信、および/または、環境モニタリングのために使用され得る。
図3Bは、クライアントデバイス350の別の例を示す。これは、図1のクライアントデバイス112または図2のクライアントデバイス210の実現例であり得る。この場合、クライアントデバイスはモバイルコンピューティングデバイス355に組み込まれる。図3Bは、モバイルコンピューティングデバイス355の前方図および後方図を示す。モバイルコンピューティングデバイス355はスマートフォンまたはタブレットを含み得る。モバイルコンピューティングデバイス355の前方部は、ユーザへ情報を表示するためのディスプレイスクリーン360を特徴とする。ディスプレイスクリーンはタッチスクリーンを含み得る。モバイルコンピューティングデバイス355の前方部はさらに、前方向きカメラ365および前方向きマイクロフォン370を特徴とする。モバイルコンピューティングデバイス355の後方部は、後方向きカメラ375および低部内部マイクロフォン380を特徴とする。モバイルコンピューティングデバイス355の後方図はさらに、内部マルチコアプロセッサ390および無線ネットワーク通信モジュール395を強調している。モバイルコンピューティングデバイス355は、複数の付加的なコンポーネントを特徴とし得るが、これらは明瞭さのために示されていない。前方および後方向きカメラ365および375は、静止画カメラまたはビデオカメラを含み得る。
図4A、図4Bおよび図4Cは、クライアントデバイス402とサーバデバイス404との間の異なる通信を表わすシーケンス図400、440、470のセットを示す。クライアントデバイス402は、図1におけるクライアントデバイス110のうちの1つ、図2におけるクライアントデバイス210、および/または、図3Aおよび図3Bに示されるクライアントデバイス300,350のうちの1つを含み得る。サーバデバイス404は、図1からのサーバデバイス120を含み得る。
ある例では、オーディオ特徴抽出器、ビジュアル特徴抽出器および言語的モデルのうちの1つ以上は、ニューラルネットワークアーキテクチャを含み得る。1つの場合では、これらのコンポーネントの各々はニューラルネットワークアーキテクチャを含み得る。この後者の場合では、組み合わされたニューラルネットワークアーキテクチャは、共同でコンポーネントを構成するためにエンドツーエンドで学習され得る。
図5は、ビジュアル特徴抽出器500の例示的な実現例を示す。たとえば、その実現例は、図2におけるビジュアル特徴抽出器250を実現するために使用され得る。この例において、ビジュアル特徴抽出器500は、第1の畳み込みニューラルネットワークアーキテクチャ510および第2のニューラルネットワークアーキテクチャ550を含む。
図6は、例に従ったニューラルスピーチ処理システム600を示す。ニューラルスピーチ処理システム600は、クライアント側ニューラルコンポーネント610およびサーバ側ニューラルコンポーネント650に分割される。この場合、「ニューラル」という用語は、システムおよびコンポーネントが、バックプロバゲーション(backpropagation)および勾配降下(gradient descent)アプローチを使用して学習され得る1つ以上のニューラルネットワーク層を含むということを示すために使用される。各ニューラルネットワーク層の後には非線形関数(「非線形性」または「活性化関数(activation function)」とも称される)が続き得、複数のニューラルネットワーク層が非線形のマッピングまたは変換を提供する。非線形関数は、双曲線正接もしくはシグモイド関数、または、正規化線形ユニット(RELU: REctified Linear Unit)であり得る。クライアント側およびサーバ側という用語が使用されるが、当該用語は、ある例において、たとえば図3Aにおける制御ユニット310の2つの部分といった共通のコンピューティングデバイスの異なるコンポーネントに関し得るか、または、たとえば図3Bにおけるモバイルコンピューティングデバイス355といった共通のデバイス内の2つのハードウェアデバイスに関し得る。
図7は、図6のニューラルスピーチ処理システムのための例示的な学習構成700を示す。図7は、図6のビジュアル特徴抽出器620、オーディオ特徴抽出器630および言語的モデル655の伝達結合を示す。1つの場合において、学習のために、ビジュアル特徴抽出器620、オーディオ特徴抽出器630および言語的モデル655の各々の実現例は、単一のコンピューティングデバイスまたはコンピューティングデバイスの好適に結合されたクラスタ上で構成され得る。学習は、プロダクションサーバデバイスおよびクライアントデバイス、たとえば以前の例において示されるようなデバイス上で行なわれる必要はない(しかしながら、所望の場合、これは行われ得る)。1つの場合では、学習は、たとえば複数の処理ユニット(CPU、GPU、FPGA(フィールドプログラマブルゲートアレイ(Field Programmable Gate Array))または他の専用のプロセッサアーキテクチャ)と、学習データのバッチを保持する大きなメモリ部分といった実質的な処理リソースへのアクセスを有するコンピューティングデバイス上で行なわれ得る。ある場合には、学習は、たとえば結合可能なFPGAまたはGPUベースのデバイスといった結合されたアクセラレータデバイスを使用して行なわれ得る。図7に示されるような学習は、ビジュアル特徴抽出器620およびオーディオ特徴抽出器630の出力が言語的モデル655の入力に結合され、結合されたシステムが単一ユニットとして学習されるので、「エンドツーエンド」学習と称され得る。
図8は、本願明細書において記載されるあるコンポーネントを使用する代替的なスピーチ処理システム800を示す。図6および以前の例のように、代替的なスピーチ処理システム800は、ビジュアル特徴抽出器820、オーディオ特徴抽出器830および言語的モデル855を含む。これらは前述のようにニューラルネットワークコンポーネントを含み得る。ビジュアル特徴抽出器820は、画像データ825からビジュアル特徴テンソル840を生成し、オーディオ特徴抽出器830は、オーディオデータ835からオーディオ特徴テンソル845を生成する。ビジュアル特徴抽出器820およびオーディオ特徴抽出器830はクライアントデバイス810の部分を形成し得、言語的モデル855はサーバデバイス850の部分を形成し得る。同様の参照番号は同様の特徴を参照するために使用されており、図6に関して上で議論されたバリエーションは、図8の構成に適用され得る。
ある場合には、以前に記載された言語的モデルの局面がスピーチ処理装置として実現され得る。この場合、スピーチ処理装置は、スピーチデータを解析するために使用される音素データを生成する音響モデルと、音響モデルからの音素データを使用してスピーチデータのトランスクリプションを生成する言語モデルとを含み得る。音響モデルは、たとえば、構成された音響モデルインスタンス866によって実現されたような音響モデル、および/または、図4Cのブロック476において適用されたような音響モデルといった、前述のような音響モデルを含み得る。音響モデルは、統計モデルまたはニューラルネットワークアーキテクチャを含み得る。言語モデルはさらに、たとえば、図4Cのブロック478において適用されたような言語モデルといった、前述のような言語モデルを含み得る。そのトランスクリプションはテキストベースの出力を含み得る。
図9Aは、クライアントデバイスにおいてスピーチを処理するための例示的な方法900を示す。方法900は、ユーザからの発声に関連付けられるオーディオデータがキャプチャされるブロック905において始まる。これは、図3Aおよび図3Bにおけるデバイス330、370または380のような1つ以上のマイクロフォンからのデータをキャプチャすることを含み得る。オーディオデータは、発声の前または後の記録の部分と、発声自体とを含み得る。ブロック910では、ユーザの環境を特徴とする画像データがキャプチャされる。たとえば、画像データは、図3Aおよび図3Bにおける315、320、325、365および375のうちの1つ以上のようなカメラデバイスからキャプチャされ得る。1つの場合では、画像データは、クライアントデバイスの外部のカメラからデータを受け取ることによりキャプチャされ得る。
図10は、例に従った、スピーチを処理するためのシステムを構成する方法1000を示す。ブロック1010では、当該方法は、スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含む。たとえば、これは、図7に示されるエンドツーエンドシステムを構成することを含み得る。図7に示されるように、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルは、たとえば重みおよびバイアスのセットといったモデルパラメータのそれぞれのセットによってパラメータ化され得る。ブロック1020では、当該方法は、時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることを含む。この場合、時間的な相関は、オーディオデータおよび画像データの両方がユーザの発声の所与の時間窓内でキャプチャされたということであり得る。ある場合には、画像データおよびオーディオデータが集合的に、ビデオデータを含み得、オーディオデータがビデオデータのための1つ以上のオーディオチャンネルを形成する。グラウンドトゥールース言語的特徴は、音素、文字、単語部分および単語の1つ以上のシーケンスを含み得る。1つの場合では、グラウンドトゥールース言語的特徴は、発声のテキストトランスクリプションの形態で提供され得る。ブロック1030では、当該方法は、モデルパラメータのそれぞれのセットについて学習された値を決定するために、オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに言語的モデルを、学習データを使用して共同で構成することを含み、共同で構成することは、スピーチ認識モデルを通じて言語的モデルのエラーをバックプロパゲーションすることを含む。これは、図7に示されるプロセスを行なうことを含み得る。ブロック1030は、ニューラルネットワーク機能のライブラリにおいて供給されると、損失関数および学習ルーチンの実現例を規定すること含み得る。
図11は、図1におけるサーバデバイス120を実現し得るか、または、図9Bおよび図10の方法のうちの1つ以上を行ない得る例示的なサーバデバイス1100を示す。サーバデバイスは、ラックマウントサーバブレードマルチプロセッササーバシステム(rack-mounted server blade multi-processor server system)を含み得る。サーバデバイスは、ソフトウェアを並列で実行する複数のネットワーク接続されたコンピュータプロセッサを含み得る。サーバデバイス110は、コンピュータプロセッサ(CPU)コア1110のマルチコアクラスタおよびグラフィックスプロセッサ(GPU)コア1120のマルチコアクラスタを含む。これらのプロセッサは、プログラムコードおよびデータストレージのためのランダムアクセスメモリ(RAM)デバイス1140にボードレベルのインターコネクト1130を通じて接続する。サーバシステム1100はさらに、プロセッサがインターネットにアクセスすることを可能にするようネットワークインターフェイス1150を含む。インターフェイス1130を通じてRAMデバイスに格納される命令を実行することによって、CPU1110およびGPU1120は、本願明細書に記載されるような方法のステップを行ない得る。ある場合では、本願明細書に記載されるようなクライアントデバイスは、コンポーネントの同様の一般的な構成を有し得るが、ある場合において、より少ないコンピューティングリソースを有し得、専用のグラフィックスプロセッサ1120を有さない場合もあり得る。クライアントデバイスは、サーバデバイス1100と同様の態様で本願明細書において記載される方法のステップを行なう1つ以上のCPUを有し得る。
図12は、スピーチ処理システムを構成するための動作1200の例示的なセットを示すシーケンス図である。動作1200のセットは図10の方法1000の拡張と理解され得る。動作1200のセットは、学習デバイス1202と、サーバデバイス1204と、1つ以上のクライアントデバイス1206のセットとを含む分散コンピューティングシステムに亘って行なわれる。たとえば、学習デバイス1202および/またはサーバデバイス1204は、図11に示されるもののようなコンピューティングシステムを含み得、クライアントデバイス1206は、図1、図2、図3Aおよび図3Bに示されるもののようなクライアントデバイスを含み得る。
自動音声認識を含むスピーチ処理に関するある例が記載される。ある例は、ある話された言語の処理に関する。さまざまな例は、他の言語または言語の組合せについても同様に動作する。ある例は、言語外の環境情報を組み込むことによりスピーチ処理の精度および堅牢性を向上させる。言語外の環境情報は言語的モデルを向上させるために使用され得る。言語的モデルは、音響モデル、発音モデルおよび言語モデルのうちの1つ以上を含み得る。
Claims (24)
- スピーチを処理するためのクライアントデバイスであって、
ユーザからの発声に関連付けられるオーディオデータをキャプチャするオーディオキャプチャデバイスと、
前記ユーザの環境を特徴とする画像データのフレームをキャプチャする画像キャプチャデバイスと、
前記画像キャプチャデバイスから画像データの前記フレームを受け取り、かつ、画像データの前記フレームの圧縮された表現を提供する1つ以上のビジュアル特徴テンソルを生成するビジュアル特徴抽出器と、
前記オーディオキャプチャデバイスから前記オーディオデータを受け取り、かつ、1つ以上のオーディオ特徴テンソルを生成するオーディオ特徴抽出器と、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルをサーバデバイスに送信するトランスミッタとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴を決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成される、クライアントデバイス。 - 前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器のうちの1つ以上は、ニューラルネットワークアーキテクチャを含む、請求項1に記載のクライアントデバイス。
- 前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの数値表現を含み、前記トランスミッタは、前記オーディオ特徴テンソルとともに前記オーディオデータを前記サーバデバイスに送信するように構成されており、前記サーバデバイスの前記言語的モデルは、前記オーディオデータに基づいて言語的特徴を決定するよう、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用して構成される、請求項1または2に記載のクライアントデバイス。
- 前記画像データはビデオデータを含み、前記オーディオデータは前記ビデオデータに時間的に相関されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記ビデオデータおよび前記オーディオデータに並列に適用される、請求項1〜3のいずれか1項に記載のクライアントデバイス。
- 前記ビジュアル特徴抽出器は、画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャを含み、前記第1の畳み込みニューラルネットワークアーキテクチャは、前記複数の層の各々について学習されたパラメータのセットを使用してパラメータ化され、学習されたパラメータの前記セットは、前記第1の出力層に結合される1つ以上の付加的な分類層による学習動作から導出され、
前記ビジュアル特徴抽出器はさらに、第2の入力層および第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャを含み、前記第2の入力層は、前記第1の畳み込みニューラルネットワークアーキテクチャの前記第1の出力層に結合されており、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有する、請求項1〜4のいずれか1項に記載のクライアントデバイス。 - 前記第2のニューラルネットワークアーキテクチャは、学習動作において、前記オーディオ特徴抽出器および前記言語的モデルと共同で学習され、前記第1の畳み込みニューラルネットワークアーキテクチャのための学習されたパラメータの前記セットは、前記学習動作中は固定される、請求項5に記載のクライアントデバイス。
- スピーチを処理するためのサーバデバイスであって、
クライアントデバイスから1つ以上のビジュアル特徴テンソルおよび1つ以上のオーディオ特徴テンソルを受け取るレシーバを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは、前記クライアントデバイスの環境を特徴としており、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、
前記サーバデバイスはさらに、
前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを受け取り、かつ、前記発声を解析するために使用可能な言語的特徴を決定する言語的モデルを含み、
前記言語的モデルは、前記クライアントデバイスの前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器と共同で構成される、サーバデバイス。 - 前記言語的モデルによる使用に先立って、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに重みを適用するアテンションプリプロセッサを含む、請求項7に記載のサーバデバイス。
- 前記言語的モデルは、入力として前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを受け取り、かつ、前記発声のテキスト表現を出力するニューラルネットワークアーキテクチャを含む、請求項7または8に記載のサーバデバイス。
- 前記オーディオ特徴テンソルは、前記環境についてのオーディオコンテキストの表現を含み、前記ビジュアル特徴テンソルは、前記環境についてのビジュアルコンテキストの表現を含み、
前記サーバデバイスの前記レシーバは、前記オーディオ特徴テンソルに加えて前記オーディオデータを受け取るように構成され、
前記言語的モデルは、前記オーディオデータからの前記発声を解析するために使用される音素データを生成する音響モデルを含み、前記音響モデルは、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルに基づいて構成される、請求項7〜9のいずれか1項に記載のサーバデバイス。 - 前記音響モデルは、
音響モデル構成のデータベースと、
前記オーディオ特徴テンソルおよびビジュアル特徴テンソルの共同のセットに基づいて、前記データベースから音響モデル構成を選択する音響モデルセレクタと、
前記オーディオデータを処理する音響モデルインスタンスとを含み、前記音響モデルインスタンスは、前記音響モデルセレクタによって選択される前記音響モデル構成に基づいてインスタンス化され、前記音響モデルインスタンスは、前記発声を解析するために使用される前記音素データを生成するように構成される、請求項10に記載のサーバデバイス。 - 前記言語的モデルはさらに、
前記音素データを受け取り、かつ、前記発声を表わすテキストデータを生成する、前記音響モデルに伝達可能に結合される言語モデルを含み、
前記言語モデルは、前記オーディオ特徴テンソルおよび前記ビジュアル特徴テンソルを、前記発声を表わす前記テキストデータを生成するために使用される入力として受け取るように構成される、請求項10または11に記載のサーバデバイス。 - クライアントデバイスにおいてスピーチを処理するための方法であって、
前記クライアントデバイスにおいて、ユーザからの発声に関連付けられるオーディオデータをキャプチャすることと、
前記クライアントデバイスにおいて、前記ユーザの環境を特徴とする画像データをキャプチャすることと、
画像データの1つ以上のフレームの圧縮された表現を提供するビジュアル特徴テンソルのセットを前記画像データの前記フレームから、前記クライアントデバイスにおいてビジュアル特徴抽出器を使用して抽出することと、
前記クライアントデバイスにおいてオーディオ特徴抽出器を使用して前記オーディオデータからオーディオ特徴テンソルのセットを抽出することと、
前記クライアントデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットをサーバデバイスに送信することとを含み、前記サーバデバイスは、少なくとも前記ビジュアル特徴テンソルおよび前記オーディオ特徴テンソルを言語的モデルに供給するように構成されており、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、
前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成される、方法。 - 前記クライアントデバイスにおいて、前記発声に対する応答を前記サーバデバイスから受け取ることと、
前記クライアントデバイスにおいて、前記サーバデバイスから受け取られる前記発声に対する前記応答に基づいて前記ユーザに対する応答を提供することとを含む、請求項13に記載の方法。 - 前記ビジュアル特徴抽出器を使用して抽出することは、
画像データのフレームを受け取る第1の入力層と、第1の出力層とを含む複数の層を含む第1の畳み込みニューラルネットワークアーキテクチャに、キャプチャされた前記画像データから導出されるデータを提供することと、
第2の出力層を含む1つ以上の層を含む第2のニューラルネットワークアーキテクチャに前記第1の出力層の出力を提供することとを含み、前記第2の出力層は、前記第1の出力層の次元数未満である次元数を有しており、前記第2の出力層の出力は、ビジュアル特徴テンソルの前記セットを生成するために使用される、請求項13または14に記載の方法。 - サーバデバイスにおいてスピーチを処理するための方法であって、
前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルのセットをクライアントデバイスから受け取ることを含み、前記ビジュアル特徴テンソルは、前記クライアントデバイスによってキャプチャされる画像データのフレームに基づいて前記クライアントデバイスのビジュアル特徴抽出器によって生成され、画像データの前記フレームは前記クライアントデバイスの環境を特徴とし、前記ビジュアル特徴テンソルは、画像データの前記フレームの圧縮された表現を提供し、前記オーディオ特徴テンソルは、ユーザの発声に関連して前記クライアントデバイスによってキャプチャされる対応するオーディオデータに基づき、前記クライアントデバイスのオーディオ特徴抽出器によって生成され、
前記方法はさらに、
前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットを入力として言語的モデルに提供することを含み、前記言語的モデルは、前記発声を解析するために使用可能な言語的特徴のセットを決定するように構成されており、前記ビジュアル特徴抽出器および前記オーディオ特徴抽出器は前記言語的モデルと共同で構成され、
前記方法はさらに、
前記言語的モデルの出力を使用して前記発声を解析することを含む、方法。 - 前記サーバデバイスにおいて、オーディオ特徴テンソルおよびビジュアル特徴テンソルの受け取られた前記セットに基づいて、音響モデル構成を選択することと、
前記サーバデバイスにおいて、前記オーディオデータを受け取ることと、
前記発声に対応する音素データを決定するために、前記音響モデル構成に従って構成される音響モデルを前記オーディオデータに適用することと、
前記音素データを使用して前記発声を解析することとを含む、請求項16に記載の方法。 - スピーチを処理するためのシステムを構成する方法であって、
スピーチ認識モデルを得るために、オーディオ特徴抽出器およびビジュアル特徴抽出器を言語的モデルに伝達可能に結合することを含み、前記オーディオ特徴抽出器は、オーディオデータを受け取り、かつ、オーディオ特徴テンソルを出力するように構成されており、前記ビジュアル特徴抽出器は、画像データを受け取り、かつ、ビジュアル特徴テンソルを出力するように構成されており、前記言語的モデルは、言語的特徴のセットを決定するために、前記オーディオ特徴テンソルおよびビジュアル特徴テンソルを使用するように構成されており、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルは、モデルパラメータのそれぞれのセットによってパラメータ化されており、
前記方法はさらに、
時間的に相関されるオーディオデータおよび画像データと、グラウンドトゥールース言語的特徴とを含む学習データを得ることと、
モデルパラメータの前記それぞれのセットについて学習された値を決定するために、前記オーディオ特徴抽出器およびビジュアル特徴抽出器ならびに前記言語的モデルを、前記学習データを使用して共同で構成することとを含み、前記共同で構成することは、前記スピーチ認識モデルを通じて前記言語的モデルのエラーをバックプロパゲーションすることを含む、方法。 - 前記オーディオ特徴抽出器およびビジュアル特徴抽出器についての学習された前記値を1つ以上のクライアントデバイスに伝達することと、
前記言語的モデルについての学習された前記値を1つ以上のサーバデバイスに伝達することと、
学習された前記値を使用して前記1つ以上のクライアントデバイスおよび前記1つ以上のサーバデバイスを構成することとを含み、前記1つ以上のクライアントデバイスは、前記1つ以上のサーバデバイスによって処理されるオーディオ特徴テンソルおよびビジュアル特徴テンソルを生成するために使用するために、学習された前記値をロードするように構成される、請求項18に記載の方法。 - 学習中に前記言語的モデルによって使用される前記オーディオ特徴テンソルおよびビジュアル特徴テンソルのうちの1つ以上に重み付けすることを含む、請求項18または19に記載の方法。
- 学習されたビジュアル分類モデルを得ることと、
学習された前記ビジュアル分類モデルのための新しい出力層を生成するために、構成された前記ビジュアル分類モデルの1つ以上の分類層を除去することと、
前記ビジュアル特徴抽出器を得るために、1つ以上の層を含むさらに別のニューラルネットワークアーキテクチャを前記新しい出力層に伝達可能に結合することとを含み、前記さらに別のニューラルネットワークアーキテクチャの出力層の次元数は、前記新しい出力層の次元数より小さい、請求項18〜20のいずれか1項に記載の方法。 - 命令を含むプログラムコードであって、
前記命令は、マシンのコンピュータプロセッサによって実行されると、前記マシンに、
ユーザからの発声に関連付けられるオーディオデータを得ることと、
前記ユーザの環境を特徴とする画像データを得ることと、
前記画像データの1つ以上のフレームからのビジュアル特徴テンソルのセットの抽出を命令することとを行わせ、画像データの前記フレームは、ビジュアル特徴テンソルの前記セットより大きい情報コンテンツを有しており、ビジュアル特徴テンソルの前記セットの前記抽出はパラメータの第1のセットによって構成され、
前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
前記オーディオデータからのオーディオ特徴テンソルのセットの抽出を命令することを行わせ、オーディオ特徴テンソルの前記セットの前記抽出はパラメータの第2のセットによって構成され、
前記命令はさらに、前記マシンの前記コンピュータプロセッサによって実行されると、前記マシンに、
少なくともオーディオ特徴テンソルおよびビジュアル特徴テンソルの前記セットに基づく前記発声の解析を命令することを行わせ、前記発声の前記解析はパラメータの第3のセットによって構成され、
パラメータの前記第1のセット、第2のセットおよび第3のセットについての値は、共同学習プロシージャを使用して決定される、プログラムコード。 - スピーチデータを解析するために使用される音素データを生成する音響モデルと、
前記音響モデルからの前記音素データを使用して前記スピーチデータのトランスクリプションを生成する言語モデルと、
前記スピーチデータがキャプチャされるビジュアル環境の表現を提供する、前記音響モデルおよび前記言語モデルのうちの少なくとも1つに伝達可能に結合されるビジュアルコンテキストインジケータとを含み、
前記音響モデルおよび前記言語モデルのうちの1つは、前記ビジュアル環境の前記表現に基づいて区別的に構成される、スピーチ処理装置。 - 命令を含むプログラムコードであって、前記命令は、デバイスのコンピュータプロセッサによって実行されると、前記デバイスに請求項13〜17のいずれか1項に記載の方法を実行させる、プログラムコード。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/509,029 | 2019-07-11 | ||
US16/509,029 US11257493B2 (en) | 2019-07-11 | 2019-07-11 | Vision-assisted speech processing |
KR1020190121046A KR20210007786A (ko) | 2019-07-11 | 2019-09-30 | 시각 보조 음성 처리 |
KR10-2019-0121046 | 2019-09-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021015264A true JP2021015264A (ja) | 2021-02-12 |
JP7242520B2 JP7242520B2 (ja) | 2023-03-20 |
Family
ID=74101823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019231729A Active JP7242520B2 (ja) | 2019-07-11 | 2019-12-23 | 視覚支援スピーチ処理 |
Country Status (3)
Country | Link |
---|---|
US (2) | US11257493B2 (ja) |
JP (1) | JP7242520B2 (ja) |
KR (5) | KR20210007786A (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11416714B2 (en) * | 2017-03-24 | 2022-08-16 | Revealit Corporation | Method, system, and apparatus for identifying and revealing selected objects from video |
US11011162B2 (en) | 2018-06-01 | 2021-05-18 | Soundhound, Inc. | Custom acoustic models |
US11508374B2 (en) * | 2018-12-18 | 2022-11-22 | Krystal Technologies | Voice commands recognition method and system based on visual and audio cues |
US11663814B2 (en) * | 2019-08-23 | 2023-05-30 | Arm Limited | Skip predictor for pre-trained recurrent neural networks |
KR102231909B1 (ko) * | 2019-09-20 | 2021-03-25 | 엘지전자 주식회사 | 인공지능 장치 |
US11580869B2 (en) * | 2019-09-23 | 2023-02-14 | Revealit Corporation | Computer-implemented interfaces for identifying and revealing selected objects from video |
CN114616620A (zh) | 2019-10-18 | 2022-06-10 | 谷歌有限责任公司 | 端到端多讲话者视听自动语音识别 |
US11948076B2 (en) * | 2019-10-25 | 2024-04-02 | Sony Group Corporation | Media rendering device control based on trained network model |
US11635299B2 (en) * | 2020-02-06 | 2023-04-25 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for scene-aware interaction |
US11657799B2 (en) * | 2020-04-03 | 2023-05-23 | Microsoft Technology Licensing, Llc | Pre-training with alignments for recurrent neural network transducer based end-to-end speech recognition |
US11450310B2 (en) * | 2020-08-10 | 2022-09-20 | Adobe Inc. | Spoken language understanding |
US11802894B2 (en) * | 2020-09-17 | 2023-10-31 | Silicon Laboratories Inc. | Compressing information in an end node using an autoencoder neural network |
US11908478B2 (en) * | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
CN114120074B (zh) * | 2021-11-05 | 2023-12-12 | 北京百度网讯科技有限公司 | 基于语义增强的图像识别模型的训练方法和训练装置 |
CN114338385B (zh) * | 2021-12-31 | 2024-05-17 | 上海商汤智能科技有限公司 | 网络配置方法及系统、电子设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268683A (ja) * | 2001-03-09 | 2002-09-20 | Canon Inc | 情報処理方法及び装置 |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
JP2004333738A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
WO2011111221A1 (ja) * | 2010-03-12 | 2011-09-15 | 三菱電機株式会社 | エレベータの音声呼び登録装置 |
JP2012022053A (ja) * | 2010-07-12 | 2012-02-02 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
JP2012059121A (ja) * | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | 眼鏡型表示装置 |
JP2018036653A (ja) * | 2012-08-10 | 2018-03-08 | エイディシーテクノロジー株式会社 | 音声応答装置 |
US20180075849A1 (en) * | 2016-09-12 | 2018-03-15 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
US20180285752A1 (en) * | 2017-03-31 | 2018-10-04 | Samsung Electronics Co., Ltd. | Method for providing information and electronic device supporting the same |
JP2019097016A (ja) * | 2017-11-22 | 2019-06-20 | 株式会社デンソーアイティーラボラトリ | コーパス生成装置、コーパス生成方法、およびプログラム |
JP2020066472A (ja) * | 2018-10-19 | 2020-04-30 | 株式会社日立ビルシステム | エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法 |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
US6594629B1 (en) | 1999-08-06 | 2003-07-15 | International Business Machines Corporation | Methods and apparatus for audio-visual speech detection and recognition |
US6633844B1 (en) | 1999-12-02 | 2003-10-14 | International Business Machines Corporation | Late integration in audio-visual continuous speech recognition |
US6442820B1 (en) | 2000-10-26 | 2002-09-03 | F & P Mfg., Inc. | Method and apparatus for forming a tube having an article inserted therein |
US6964023B2 (en) | 2001-02-05 | 2005-11-08 | International Business Machines Corporation | System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input |
US6952674B2 (en) | 2002-01-07 | 2005-10-04 | Intel Corporation | Selecting an acoustic model in a speech recognition system |
JP2004260641A (ja) | 2003-02-27 | 2004-09-16 | Shibasoku:Kk | 信号処理装置 |
JP4463526B2 (ja) | 2003-10-24 | 2010-05-19 | 株式会社ユニバーサルエンターテインメント | 声紋認証システム |
JP4599244B2 (ja) | 2005-07-13 | 2010-12-15 | キヤノン株式会社 | 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体 |
US8126274B2 (en) | 2007-08-30 | 2012-02-28 | Microsoft Corporation | Visual language modeling for image classification |
KR100903348B1 (ko) | 2007-11-28 | 2009-06-23 | 중앙대학교 산학협력단 | 특징 융합 기반 감정인식 방법 및 시스템 |
CN101187990A (zh) | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
US8645123B2 (en) | 2008-10-27 | 2014-02-04 | Microsoft Corporation | Image-based semantic distance |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
KR101092820B1 (ko) | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
TWI399739B (zh) | 2009-11-13 | 2013-06-21 | Ind Tech Res Inst | 語音留言與傳達之系統與方法 |
JP5928606B2 (ja) | 2011-12-26 | 2016-06-01 | インテル・コーポレーション | 搭乗者の聴覚視覚入力の乗り物ベースの決定 |
US9418674B2 (en) * | 2012-01-17 | 2016-08-16 | GM Global Technology Operations LLC | Method and system for using vehicle sound information to enhance audio prompting |
TWI466101B (zh) | 2012-05-18 | 2014-12-21 | Asustek Comp Inc | 語音識別方法及系統 |
US8768693B2 (en) | 2012-05-31 | 2014-07-01 | Yahoo! Inc. | Automatic tag extraction from audio annotated photos |
US20150199960A1 (en) | 2012-08-24 | 2015-07-16 | Microsoft Corporation | I-Vector Based Clustering Training Data in Speech Recognition |
US9031293B2 (en) * | 2012-10-19 | 2015-05-12 | Sony Computer Entertainment Inc. | Multi-modal sensor based emotion recognition and emotional interface |
US9190058B2 (en) | 2013-01-25 | 2015-11-17 | Microsoft Technology Licensing, Llc | Using visual cues to disambiguate speech inputs |
KR20150031896A (ko) * | 2013-09-17 | 2015-03-25 | 한국전자통신연구원 | 음성인식장치 및 그 동작방법 |
JP6025690B2 (ja) | 2013-11-01 | 2016-11-16 | ソニー株式会社 | 情報処理装置および情報処理方法 |
US10741182B2 (en) | 2014-02-18 | 2020-08-11 | Lenovo (Singapore) Pte. Ltd. | Voice input correction using non-audio based input |
US9728185B2 (en) | 2014-05-22 | 2017-08-08 | Google Inc. | Recognizing speech using neural networks |
US20160034811A1 (en) | 2014-07-31 | 2016-02-04 | Apple Inc. | Efficient generation of complementary acoustic models for performing automatic speech recognition system combination |
CN104463250B (zh) | 2014-12-12 | 2017-10-27 | 广东工业大学 | 一种基于达芬奇技术的手语识别翻译方法 |
US9697833B2 (en) | 2015-08-25 | 2017-07-04 | Nuance Communications, Inc. | Audio-visual speech recognition with scattering operators |
JP2017090612A (ja) | 2015-11-09 | 2017-05-25 | 三菱自動車工業株式会社 | 音声認識制御システム |
US20170186044A1 (en) * | 2015-12-29 | 2017-06-29 | Picsoneye Segmentation Innovations Ltd | System and method for profiling a user based on visual content |
US10896681B2 (en) * | 2015-12-29 | 2021-01-19 | Google Llc | Speech recognition with selective use of dynamic language models |
US10964326B2 (en) | 2016-02-16 | 2021-03-30 | Carnegie Mellon University, A Pennsylvania Non-Profit Corporation | System and method for audio-visual speech recognition |
CN107134279B (zh) * | 2017-06-30 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
CN107507612B (zh) | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
US11290518B2 (en) * | 2017-09-27 | 2022-03-29 | Qualcomm Incorporated | Wireless control of remote devices through intention codes over a wireless connection |
CN109872379B (zh) | 2017-12-05 | 2022-12-02 | 富士通株式会社 | 数据处理装置和方法 |
JP6973110B2 (ja) | 2018-01-23 | 2021-11-24 | 株式会社リコー | 情報処理システム、情報処理端末、情報処理方法及びプログラム |
US20210065712A1 (en) | 2019-08-31 | 2021-03-04 | Soundhound, Inc. | Automotive visual speech recognition |
-
2019
- 2019-07-11 US US16/509,029 patent/US11257493B2/en active Active
- 2019-09-30 KR KR1020190121046A patent/KR20210007786A/ko not_active IP Right Cessation
- 2019-12-23 JP JP2019231729A patent/JP7242520B2/ja active Active
-
2021
- 2021-12-03 KR KR1020210171630A patent/KR102380689B1/ko active IP Right Grant
- 2021-12-10 US US17/547,917 patent/US20220139393A1/en active Pending
-
2022
- 2022-03-25 KR KR1020220037343A patent/KR102451100B1/ko active IP Right Grant
- 2022-09-29 KR KR1020220123895A patent/KR20220139841A/ko not_active Application Discontinuation
-
2024
- 2024-03-04 KR KR1020240030412A patent/KR20240037205A/ko not_active Application Discontinuation
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002268683A (ja) * | 2001-03-09 | 2002-09-20 | Canon Inc | 情報処理方法及び装置 |
JP2003241788A (ja) * | 2002-02-20 | 2003-08-29 | Ntt Docomo Inc | 音声認識装置及び音声認識システム |
JP2003271182A (ja) * | 2002-03-18 | 2003-09-25 | Toshiba Corp | 音響モデル作成装置及び音響モデル作成方法 |
JP2004333738A (ja) * | 2003-05-06 | 2004-11-25 | Nec Corp | 映像情報を用いた音声認識装置及び方法 |
WO2011111221A1 (ja) * | 2010-03-12 | 2011-09-15 | 三菱電機株式会社 | エレベータの音声呼び登録装置 |
JP2012022053A (ja) * | 2010-07-12 | 2012-02-02 | Fujitsu Toshiba Mobile Communications Ltd | 音声認識装置 |
JP2012059121A (ja) * | 2010-09-10 | 2012-03-22 | Softbank Mobile Corp | 眼鏡型表示装置 |
JP2018036653A (ja) * | 2012-08-10 | 2018-03-08 | エイディシーテクノロジー株式会社 | 音声応答装置 |
US20180075849A1 (en) * | 2016-09-12 | 2018-03-15 | Pindrop Security, Inc. | End-to-end speaker recognition using deep neural network |
US20180285752A1 (en) * | 2017-03-31 | 2018-10-04 | Samsung Electronics Co., Ltd. | Method for providing information and electronic device supporting the same |
JP2019097016A (ja) * | 2017-11-22 | 2019-06-20 | 株式会社デンソーアイティーラボラトリ | コーパス生成装置、コーパス生成方法、およびプログラム |
JP2020066472A (ja) * | 2018-10-19 | 2020-04-30 | 株式会社日立ビルシステム | エレベーター、及び、エレベーター用の緊急通信を支援する通信支援方法 |
Non-Patent Citations (2)
Title |
---|
杣田裕太: "経年変化に頑健な顔認識のための照合手法に関する研究", 三重大学大学院工学研究科情報工学専攻修士論文, JPN6021037328, March 2018 (2018-03-01), pages 1 - 71, ISSN: 0004827435 * |
重冨達哉ほか: "深層学習を用いた環境変化に対して頑健な場所推定手法", 第22回日本バーチャルリアリティ学会大会論文集, JPN6022029894, September 2017 (2017-09-01), pages 1 - 3, ISSN: 0004827434 * |
Also Published As
Publication number | Publication date |
---|---|
KR20210007786A (ko) | 2021-01-20 |
KR20210152430A (ko) | 2021-12-15 |
KR102380689B1 (ko) | 2022-04-01 |
US20220139393A1 (en) | 2022-05-05 |
US11257493B2 (en) | 2022-02-22 |
US20210012769A1 (en) | 2021-01-14 |
KR102451100B1 (ko) | 2022-10-06 |
JP7242520B2 (ja) | 2023-03-20 |
KR20220045116A (ko) | 2022-04-12 |
KR20240037205A (ko) | 2024-03-21 |
KR20220139841A (ko) | 2022-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7242520B2 (ja) | 視覚支援スピーチ処理 | |
US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
US10403266B2 (en) | Detecting keywords in audio using a spiking neural network | |
US20210065712A1 (en) | Automotive visual speech recognition | |
US11830505B2 (en) | Identification of fake audio content | |
EP3783605A1 (en) | Vehicle-mounted apparatus, method of processing utterance, and program | |
US11270684B2 (en) | Generation of speech with a prosodic characteristic | |
US11457033B2 (en) | Rapid model retraining for a new attack vector | |
CN113205793B (zh) | 音频生成方法、装置、存储介质及电子设备 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
CN116075888A (zh) | 用于减少云服务中的延迟的系统和方法 | |
US11775617B1 (en) | Class-agnostic object detection | |
KR20210030160A (ko) | 전자 장치 및 이의 제어 방법 | |
CN111971670A (zh) | 在对话中生成响应 | |
US20240104311A1 (en) | Hybrid language translation on mobile devices | |
CN117649848A (zh) | 语音信号的处理设备及方法 | |
KR20230149894A (ko) | 개인화 가능한 기계학습 기반의 운전자 이상행동 감지 시스템 | |
CN117809640A (zh) | 服务器、语音唤醒方法及介质 | |
CN115273803A (zh) | 模型训练方法和装置、语音合成方法、设备和存储介质 | |
CN117892778A (zh) | 一种服务器、终端设备及模型压缩方法 | |
KR20200048976A (ko) | 전자 장치 및 그 제어 방법 | |
CN118098203A (zh) | 说话对象识别的方法、装置以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200826 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210928 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20211129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220719 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221017 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230207 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230308 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7242520 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |