JP7146869B2 - 音声インタラクション制御のための方法、装置、機器及び媒体 - Google Patents
音声インタラクション制御のための方法、装置、機器及び媒体 Download PDFInfo
- Publication number
- JP7146869B2 JP7146869B2 JP2020170837A JP2020170837A JP7146869B2 JP 7146869 B2 JP7146869 B2 JP 7146869B2 JP 2020170837 A JP2020170837 A JP 2020170837A JP 2020170837 A JP2020170837 A JP 2020170837A JP 7146869 B2 JP7146869 B2 JP 7146869B2
- Authority
- JP
- Japan
- Prior art keywords
- confidence
- sound signal
- acoustic
- unit
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims description 378
- 238000000034 method Methods 0.000 title claims description 59
- 230000005236 sound signal Effects 0.000 claims description 266
- 238000012549 training Methods 0.000 claims description 57
- 230000004927 fusion Effects 0.000 claims description 56
- 230000004044 response Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 33
- 238000010801 machine learning Methods 0.000 description 25
- 230000008569 process Effects 0.000 description 25
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 5
- 230000001149 cognitive effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 238000013106 supervised machine learning method Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 235000019580 granularity Nutrition 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Description
本開示の実施例によれば、音声インタラクション制御を改良した技術案が提供される。当該技術案では、音信号及び/又は音信号から取得された認識情報に基づいて、音響又はセマンティックの全体から、音信号が音声インタラクション機器とインタラクションするための音であるインタラクション信頼度を決定する。また、認識情報と音信号とのマッチング状況も決定する。インタラクション信頼度とマッチング状況とは、音信号に対する音声インタラクション機器の応答を決定するのに提供される。このようにすることで、複数の次元から、音声インタラクション機器が取得された音信号に応答するべきか否か、及びどのように音信号に応答するかを決定することができ、より正確且つインテリジェントな音声インタラクション制御を実現し、ユーザ体験を向上させることができる。
図1は、本開示の複数の実施例が実現され得る環境100の概略図を示す。当該例示的な環境100では、ユーザ110は、音声インタラクション機器120に音声命令を出して音声インタラクション機器120の動作を制御することができる。例えば、音声インタラクション機器120がスマートスピーカーである場合、音声命令は、「…歌手の…歌を再生して」などであってもよく、音声インタラクション機器120は、音声信号が正しく認識された後、対応する歌を検索し、ユーザ110に再生することができる。
図2は、本開示のいくつかの実施例に係る音声インタラクション制御のためのプロセス200のフローチャートを示す。プロセス200は、インタラクション制御装置140によって実現することができる。検討を容易にするために、図1を参照してプロセス200を説明する。
上記のように、インタラクション制御装置140は、機械学習モデルを用いてインタラクション信頼度及び/又は認識情報と音信号とのマッチング状況を決定することができる。
本明細書では、「機械学習モデル」という用語は、「学習モデル」、「学習ネットワーク」、「ネットワークモデル」、又は「モデル」と呼ぶこともできる。「ニューラルネットワーク」又は「ニューラルネットワークモデル」は、深層機械学習モデルである。一般的には、機械学習モデルは、入力情報を受信し、入力情報に基づいて予測を実行する。
音響信頼度モデル330は、音信号がヒューマン・マシンインタラクションのための音声である確率(音響信頼度と呼ばれる)を決定するように構成され、すなわち、音信号が実際の音声である確率、又は人と音声インタラクション機器とがインタラクションする時の音声である確率を決定する。音響信頼度モデル330の入力は音信号である。音響信頼度モデル330は、音信号の音響特徴表現を抽出し、音響特徴表現に基づいて、音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定するように構成することができる。
セマンティック信頼度モデル340は、セマンティックから、認識情報がヒューマン・マシンインタラクションのための音声から認識された情報である確率(セマンティック信頼度と言う)を決定するように構成され、すなわち、認識情報が人と音声インタラクション機器とがインタラクションする時の実際の音声から認識された情報である確率、又は非ヒューマン・マシンインタラクションの音から認識された情報である確率を決定する。セマンティック信頼度モデル340の入力は、認識情報である。セマンティック信頼度モデル340は、認識情報に関連付けられたセマンティック特徴表現を取得し、セマンティック特徴表現に基づいて、認識情報がヒューマン・マシンインタラクションのための音声であるセマンティック信頼度を決定するように構成することができる。
上記のように、認識情報は、一つ又は複数のユニットを含むユニットシーケンスとして表すことができる。各ユニットは、単語、音節、ピクセル(例えば、中国語では単一の文字を指し、英語では単語を構成するアルファベットなど、これに基づいて類推する)、音素、サブ音素、マルチ音素の組み合わせセグメント、又はマルチピクセルの組み合わせセグメントのいずれかを含むことができる。いくつかの実施例では、認識情報によって変換されるユニットシーケンス内の一つ又は複数のユニットは、コンテキスト関連ユニットをさらに含むことができ、当該コンテキスト関連ユニットは、認識情報によって直接に変換されるユニット(例えば、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント)のコンテキストに関連する。これは、各ユニットのコンテキストを区分するのに役立つ。例えば、認識テキスト「私の祖国」について、音素シーケンスに変換した後に「w o d e z u g u o」として表すことができる。次に、コンテキストに関連する組み合わせを音素シーケンスに追加することにより、音素シーケンスは、「^_w+o, w_o+d, o_d+e……」などに変換することができる。ここでは、コンテキストの組み合わせは、異なるコンテキスト内の同じ音素を区別するために使用される。
ローカル情報音信頼度モデル350と比較して、グローバル情報音信頼度モデル360は、音信号の全体から、認識情報における各ユニットが正確に認識された状況、認識情報の全体が正確に認識されていない時の具体的なエラーのタイプ及びエラーが発生可能な位置を判断するように構成される。
融合モデル370は、音響信頼度モデル330、セマンティック信頼度モデル340、ローカル情報音信頼度モデル350及び/又はグローバル情報音信頼度モデル360によって提供されるモデルの最終出力又は特徴表現から最終のインタラクション信頼度372及びマッチング状況374を決定するように構成される。四つのモデル330、340、350、及び360は、それぞれ独自の焦点があるので、融合モデル370は、各モデルの情報を融合することにより、より正確な判断をし、性能をさらに向上させることができる。
通常、従来の音声終了点検出技術は、ユーザの沈黙に基づいて音声命令の終了を決定するが、これは、ユーザが質問をためらっている時(この時、音声命令がまだ完了していない)に音の収集を終了させる可能性があり、これにより、後続の音声信頼度の頻繁な判断をもたらし、非音声インタラクションの音を頻繁に判断するようになる。これにより、良くないユーザ体験をもたらすだけでなく、インタラクション制御装置140のリソースの無駄ももたらす。
図10は、本開示のいくつかの実施例に係る音声インタラクション制御のための装置1000の概略ブロックを示す。装置1000は、図1のインタラクション制御装置140-1、140-2、又は音声インタラクション機器120に含むことができる。
図11は、本開示の実施例を実施できる示例的な機器1100の概略ブロックを示す。機器1100は、図1のインタラクション制御装置140-1、140-2、又は音声インタラクション機器120を実現するために使用することができる。
Claims (39)
- 音声インタラクション機器における音信号と、前記音信号から認識された認識情報とを取得するステップと、
少なくとも前記音信号の音響特徴表現及び前記認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて前記音信号のインタラクション信頼度を決定するステップと、
前記認識情報と前記音信号とのマッチング状況を決定するステップと、
前記音信号に対する前記音声インタラクション機器の応答を制御するように、前記インタラクション信頼度と前記マッチング状況とを提供するステップと、
を含み、
前記マッチング状況を決定するステップが、
前記認識情報をユニットシーケンスとして表し、前記音信号を、前記ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成するステップと、
ローカル情報音信頼度モデルを用いて、前記少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、前記少なくとも一つのユニット音響セグメント特徴表現に基づいて前記少なくとも一つのユニットと前記少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することと、のうちの一つ又は複数を実行するステップと、
融合モデルを用いて、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するステップと、
を含む音声インタラクション制御のための方法。 - 前記インタラクション信頼度を決定するステップが、
音響信頼度モデルを用いて、
前記音信号の前記音響特徴表現を抽出することと、
前記音響特徴表現に基づいて、前記音信号がヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するステップと、
融合モデルを用いて、少なくとも前記音響特徴表現及び前記音響信頼度のうちの少なくとも一つに基づいて前記インタラクション信頼度を決定するステップと、
を含む請求項1に記載の方法。 - 前記音響信頼度モデルのトレーニングが、第1の正の例のサンプルと第1の負の例のサンプルとに基づいており、前記第1の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号を含み、前記第1の負の例のサンプルが、非ヒューマン・マシンインタラクションの音信号を含む請求項2に記載の方法。
- 前記インタラクション信頼度を決定するステップが、
前記認識情報に関連付けられた前記セマンティック特徴表現を抽出するステップと、
セマンティック信頼度モデルを用いて、前記セマンティック特徴表現に基づいて、前記認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するステップと、
融合モデルを用いて、少なくとも前記セマンティック特徴表現及び前記セマンティック信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するステップと、
を含む請求項1に記載の方法。 - 前記セマンティック信頼度モデルのトレーニングが、第2の正の例のサンプルと第2の負の例のサンプルとに基づいており、前記第2の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、前記第2の負の例のサンプルが、非ヒューマン・マシンインタラクションの情報を含む請求項4に記載の方法。
- 前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択される請求項1に記載の方法。
- 前記インタラクション信頼度を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するステップを含む請求項6に記載の方法。 - 前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、前記マッチング状況を決定するステップ含む請求項6に記載の方法。 - 前記ローカルユニット音響信頼度モデルのトレーニングが、第3の正の例のサンプルと第3の負の例のサンプルとに基づいており、前記第3の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号内の第1の音響セグメントと、前記第1の音響セグメントからラベル付けられた第1のユニットとを含み、前記第3の負の例のサンプルが、第2の音響セグメントと、前記第2の音響セグメントに出現したユニットとは異なる第2のユニットとを含む請求項6に記載の方法。
- 前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、
前記マッチング状況を決定するステップが、
グローバル情報音信頼度モデルを用いて、前記音響特徴表現と前記セマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、前記グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、のうちの一つ又は複数を実行するステップであって、前記タグシーケンスは、前記ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、各マッチングタグは、前記ユニットシーケンスにおける各ユニットが前記音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグは、前記ユニットシーケンスにおける開始ユニットが前記音信号の開始位置に出現したか否かを示し、前記終了タグは、前記ユニットシーケンスにおける最後のユニットが前記音信号の終了位置に出現したか否かを示すステップと、
融合モデルを用いて、少なくとも前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つに基づいて、前記マッチング状況を決定するステップと、
を含む請求項1に記載の方法。 - 前記ユニットシーケンスが、複数のユニットを含み、前記タグシーケンスを生成するステップが、
前記複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含む前記タグシーケンスを生成するステップであって、各隣接指示タグが、前記複数のユニット内の隣接する二つのユニットが前記音信号内の隣接する位置に出現したか否かを示すステップを含む請求項10に記載の方法。 - 前記インタラクション信頼度を決定するステップが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つとに基づいて、
前記音信号全体が前記音声インタラクション機器とインタラクションするための音声である信頼度とと、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するステップを含む請求項10に記載の方法。 - 前記グローバル情報音信頼度モデルのトレーニングが、第4の正の例のサンプルと第4の負の例のサンプルとに基づいており、前記第4の正の例のサンプルが、ヒューマン・マシンインタラクションのための第1の音信号と、前記第1の音信号からラベル付けられた第1の情報と、前記第1の情報及び前記第1の音信号に対して生成された正しいタグシーケンスとを含み、前記第4の負の例のサンプルが、前記第4の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む請求項10に記載の方法。
- 前記音信号と前記認識情報とを取得するステップが、
前記音声インタラクション機器のサウンドコレクタによって音声を収集する間に、前記サウンドコレクタによって収集された処理対象音信号の終了を決定するステップと、
前記処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するステップと、
前記処理対象情報のセマンティックが完全であると決定されたことに応じて、前記処理対象音信号を前記音信号として決定し、前記処理対象情報を前記認識情報として決定するステップと、を含む請求項1から13のいずれか一項に記載の方法。 - 前記処理対象情報のセマンティックが完全ではないと決定されたことに応じて、前記サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するステップを含む請求項14に記載のインタラクション方法。
- 前記処理対象音信号が、前記音声インタラクション機器が前記サウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される請求項14に記載の方法。
- 前記認識情報が、テキスト情報を含む請求項1から13のいずれか一項に記載のインタラクション方法。
- 前記インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、前記音信号に応答しないように前記音声インタラクション機器を制御するステップと、
前記インタラクション信頼度が前記所定の信頼度閾値以上であると決定されたことに応じて、前記マッチング状況に基づいて、前記音声インタラクション機器によって提供される、前記音信号に対する応答を決定するステップであって、前記応答は、前記音信号に対する直接フィードバック又は前記音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックは、前記音声インタラクション機器に対する所望の命令を明確にするように前記ユーザをガイドするステップと、
を含む請求項1から13のいずれか一項に記載の方法。 - 音声インタラクション機器における音信号と、前記音信号から認識された認識情報とを取得するように構成される取得モジュールと、
少なくとも前記音信号の音響特徴表現及び前記認識情報に関連付けられたセマンティック特徴表現の少なくとも一つに基づいて前記音信号のインタラクション信頼度を決定するように構成されるインタラクション信頼度決定モジュールと、
前記認識情報と前記音信号とのマッチング状況を決定するように構成されるマッチング状況決定モジュールと、
前記音信号に対する前記音声インタラクション機器の応答を制御するように、前記インタラクション信頼度と前記マッチング状況とを提供するように構成される提供モジュールと、
を備え、
前記マッチング状況決定モジュールが、前記認識情報をユニットシーケンスとして表し、前記音信号を、前記ユニットシーケンス内のユニットにそれぞれ対応する少なくとも一つの音響セグメントに分割し、各ユニットと各音響セグメントとを順次整列して、少なくとも一つのユニット音響セグメントペアを構成するように構成される音分割モジュールと、
ローカルユニット音響信頼度モデルを用いて、前記少なくとも一つのユニット音響セグメントペアの少なくとも一つのユニット音響セグメント特徴表現をそれぞれ抽出することと、前記少なくとも一つのユニット音響セグメント特徴表現に基づいて、前記少なくとも一つのユニットと前記少なくとも一つの音響セグメントとの対応するマッチング信頼度をそれぞれ決定することと、のうちの一つ又は複数を実行するように構成される第3のモデル実行モジュールと、
融合モデルを用いて、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つに基づいて前記マッチング状況を決定するように構成される第3の融合決定モジュールと、
を備える、音声インタラクション制御のための装置。 - 前記インタラクション信頼度決定モジュールが、
音響信頼度モデルを用いて、
前記音信号の前記音響特徴表現を抽出することと、前記音響特徴表現に基づいて、前記音信号のヒューマン・マシンインタラクションのための音声である音響信頼度を決定することとのうちの一つ又は複数を実行するように構成される第1のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記音響特徴表現及び前記音響信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するように構成される第1の融合決定モジュールと、
を備える請求項19に記載の装置。 - 前記音響信頼度モデルのトレーニングが、第1の正の例のサンプルと第1の負の例のサンプルとに基づいており、前記第1の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号を含み、前記第1の負の例のサンプルが、非ヒューマン・マシンインタラクションの音信号を含む請求項20に記載の装置。
- 前記インタラクション信頼度モジュールが、
前記認識情報に関連付けられた前記セマンティック特徴表現を抽出するように構成される情報特徴抽出モジュールと、
セマンティック信頼度モデルを用いて、前記セマンティック特徴表現に基づいて、前記認識情報がヒューマン・マシンインタラクションのための音声から認識された情報であるセマンティック信頼度を決定するように構成される第2のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記セマンティック特徴表現及び前記セマンティック信頼度の少なくとも一つに基づいて前記インタラクション信頼度を決定するように構成される第2の融合決定モジュールと、
を備える請求項19に記載の装置。 - 前記セマンティック信頼度モデルのトレーニングが、第2の正の例のサンプルと第2の負の例のサンプルとに基づいており、前記第2の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号からラベル付けられた実際の情報を含み、前記第2の負の例のサンプルが、非ヒューマン・マシンインタラクションの情報を含む請求項22に記載の装置。
- 前記ユニットシーケンスは、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択される請求項19に記載の装置。
- 前記インタラクション信頼度決定モジュールが、前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するように構成される第4の融合決定モジュールを備える請求項24に記載の装置。 - 前記第4の融合決定モジュールが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記少なくとも一つのユニット音響セグメント特徴表現及び前記対応するマッチング信頼度の少なくとも一つとに基づいて、前記マッチング状況を決定するように構成される請求項25に記載の装置。 - 前記ローカルユニット音響信頼度モデルのトレーニングが、第3の正の例のサンプルと第3の負の例のサンプルとに基づいており、前記第3の正の例のサンプルが、ヒューマン・マシンインタラクションのための音信号内の第1の音響セグメントと、前記第1の音響セグメントからラベル付けられた第1のユニットとを含み、前記第3の負の例のサンプルが、第2の音響セグメントと、前記第2の音響セグメントに出現したユニットとは異なる第2のユニットとを備える請求項24に記載の装置。
- 前記ユニットシーケンスが、少なくとも一つのユニットを含み、各ユニットが、単語、音節、ピクセル、音素、サブ音素、マルチ音素の組み合わせセグメント、マルチピクセルの組み合わせセグメント、及び上記のいずれかのコンテキスト関連ユニットを含むグループから選択され、
前記マッチング状況決定モジュールが、グローバル情報音信頼度モデルを用いて、
前記音響特徴表現と前記セマンティック特徴表現とに基づいてグローバル音響セマンティック特徴表現を抽出することと、前記グローバル音響セマンティック特徴表現に基づいてタグシーケンスを生成することと、うちの一つ又は複数を実行するように構成され第4のモデル実行モジュールであって、前記タグシーケンスが、前記ユニットシーケンスに対応するマッチングタグ、開始タグ、及び終了タグを含み、各マッチングタグが、前記ユニットシーケンスにおける各ユニットが前記音信号内の対応する音響セグメントにマッチングするか否かを示し、前記開始タグが、前記ユニットシーケンスにおける開始ユニットが前記音信号の開始位置に出現したか否かを示し、前記終了タグが、前記ユニットシーケンスにおける最後のユニットが前記音信号の終了位置に出現したか否かを示す第4のモデル実行モジュールと、
融合モデルを用いて、少なくとも前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つに基づいて前記マッチング状況を決定するように構成される第5の融合決定モジュールと、
を備える請求項19に記載の装置。 - 前記ユニットシーケンスが、複数のユニットを含み、前記第4のモデル実行モジュールが、
前記複数のユニット内の隣接する二つのユニットのマッチングタグ間に位置する少なくとも一つの隣接指示タグをさらに含む前記タグシーケンスを生成するように構成され、各隣接指示タグは、前記複数のユニット内の隣接する二つのユニットが前記音信号内の隣接する位置に出現したか否かを示す請求項28に記載の装置。 - 前記インタラクション信頼度決定モジュールが、
前記融合モデルを用いて、前記音響特徴表現及び前記セマンティック特徴表現の少なくとも一つと、前記グローバル音響セマンティック特徴表現及び前記タグシーケンスの少なくとも一つとに基づいて、
前記音信号の全体が前記音声インタラクション機器とインタラクションするための音声である信頼度と、前記音信号の一部が前記音声インタラクション機器とインタラクションするための音声である信頼度とのうちの少なくとも一つを示す前記インタラクション信頼度を決定するように構成される第6の融合決定モジュールを備える請求項28に記載の装置。 - 前記グローバル情報音信頼度モデルのトレーニングが、第4の正の例のサンプルと第4の負の例のサンプルとに基づいており、前記第4の正の例のサンプルが、ヒューマン・マシンインタラクションのための第1の音信号と、前記第1の音信号からラベル付けられた第1の情報と、前記第1の情報及び前記第1の音信号に対して生成された正しいタグシーケンスとを含み、前記第4の負の例のサンプルが、前記第4の正の例のサンプル以外の音信号、情報、及びタグシーケンスの組み合わせを含む請求項28に記載の装置。
- 前記取得モジュールが、
前記音声インタラクション機器のサウンドコレクタによって音声を収集する間に、前記サウンドコレクタによって収集された処理対象音信号の終了を決定するように構成される終了決定モジュールと、
前記処理対象音信号から認識された処理対象情報のセマンティックが完全であるか否かを決定するように構成されるセマンティック完全性検出モジュールと、
前記処理対象情報のセマンティックが完全であると決定されたことに応じて、前記処理対象音信号を前記音信号として決定し、前記処理対象情報を前記認識情報として決定するように構成される音及び情報決定モジュールと、
を備える請求項19から31のいずれか一項に記載の装置。 - 前記処理対象情報のセマンティックが完全ではないと決定されたことに応じて、前記サウンドコレクタによって収集された後続の処理対象音信号を待機して取得するように構成される待機取得モジュールを備える請求項32に記載の装置。
- 前記処理対象音信号が、前記音声インタラクション機器が前記サウンドコレクタによって収集された元の信号に対してエコーキャンセルを実行した後に生成される請求項32に記載の装置。
- 前記認識情報が、テキスト情報を含む請求項19から31のいずれか一項に記載の装置。
- 前記インタラクション信頼度が所定の信頼度閾値未満であると決定されたことに応じて、前記音信号に応答しないように前記音声インタラクション機器を制御し、
前記インタラクション信頼度が前記所定の信頼度閾値以上であると決定されたことに応じて、前記マッチング状況に基づいて、前記音声インタラクション機器によって提供される、前記音信号に対する応答を決定するように構成される応答決定モジュールであって、前記応答は、前記音信号に対する直接フィードバック又は前記音声インタラクション機器のユーザに対するガイドフィードバックを含み、前記ガイドフィードバックが、前記音声インタラクション機器に対する所望の命令を明確にするように前記ユーザをガイドする応答決定モジュールを備える請求項19から31のいずれか一項に記載の装置。 - 一つ又は複数のプロセッサと、
一つ又は複数のプログラムを記憶するための記憶装置と、を備える電子機器であって、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサによって実行される場合、前記一つ又は複数のプロセッサが請求項1から18のいずれか一項に記載の方法を実現する電子機器。 - コンピュータプログラムに記憶されているコンピュータ読み取り可能な記憶媒体であって、
前記プログラムがプロセッサによって実行される場合、請求項1から18のいずれか一項に記載の方法が実現されるコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムが実行される場合、コンピュータに請求項1から18のいずれか一項に記載の方法を実行させるコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911033410.5 | 2019-10-28 | ||
CN201911033410.5A CN110718223B (zh) | 2019-10-28 | 2019-10-28 | 用于语音交互控制的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021067939A JP2021067939A (ja) | 2021-04-30 |
JP7146869B2 true JP7146869B2 (ja) | 2022-10-04 |
Family
ID=69214476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020170837A Active JP7146869B2 (ja) | 2019-10-28 | 2020-10-09 | 音声インタラクション制御のための方法、装置、機器及び媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11503155B2 (ja) |
JP (1) | JP7146869B2 (ja) |
CN (1) | CN110718223B (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210064928A (ko) * | 2019-11-26 | 2021-06-03 | 삼성전자주식회사 | 전자장치와 그의 제어방법, 및 기록매체 |
CN113160854A (zh) * | 2020-01-22 | 2021-07-23 | 阿里巴巴集团控股有限公司 | 语音交互系统、相关方法、装置及设备 |
JP7482640B2 (ja) * | 2020-02-05 | 2024-05-14 | キヤノン株式会社 | 音声入力装置およびその制御方法ならびにプログラム |
CN111428017B (zh) * | 2020-03-24 | 2022-12-02 | 科大讯飞股份有限公司 | 人机交互优化方法以及相关装置 |
CN111508493B (zh) * | 2020-04-20 | 2022-11-15 | Oppo广东移动通信有限公司 | 语音唤醒方法、装置、电子设备及存储介质 |
CN111583956B (zh) * | 2020-04-30 | 2024-03-26 | 联想(北京)有限公司 | 语音处理方法和装置 |
CN111785262B (zh) * | 2020-06-23 | 2022-08-05 | 电子科技大学 | 一种基于残差网络及融合特征的说话人年龄性别分类方法 |
CN111768783B (zh) * | 2020-06-30 | 2024-04-02 | 北京百度网讯科技有限公司 | 语音交互控制方法、装置、电子设备、存储介质和系统 |
CN111949178B (zh) * | 2020-08-13 | 2022-02-22 | 百度在线网络技术(北京)有限公司 | 技能切换方法、装置、设备以及存储介质 |
CN112133307A (zh) * | 2020-08-31 | 2020-12-25 | 百度在线网络技术(北京)有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN112150153A (zh) * | 2020-10-12 | 2020-12-29 | 中国农业银行股份有限公司 | 电信诈骗用户识别方法和装置 |
CN112259080B (zh) * | 2020-10-20 | 2021-06-22 | 北京讯众通信技术股份有限公司 | 一种基于神经网络模型的语音识别方法 |
CN112489644B (zh) * | 2020-11-04 | 2023-12-19 | 三星电子(中国)研发中心 | 用于电子设备的语音识别方法及装置 |
CN112295226B (zh) * | 2020-11-25 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 一种音效播放控制方法、装置、计算机设备及存储介质 |
CN112466280B (zh) * | 2020-12-01 | 2021-12-24 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备和可读存储介质 |
CN113571063B (zh) * | 2021-02-02 | 2024-06-04 | 腾讯科技(深圳)有限公司 | 语音信号的识别方法、装置、电子设备及存储介质 |
CN112995419B (zh) * | 2021-02-05 | 2022-05-24 | 支付宝(杭州)信息技术有限公司 | 一种语音对话的处理方法和系统 |
CN112883178B (zh) * | 2021-02-18 | 2024-03-29 | Oppo广东移动通信有限公司 | 对话方法、装置、服务器及存储介质 |
CN113035180A (zh) * | 2021-03-22 | 2021-06-25 | 建信金融科技有限责任公司 | 语音输入完整性判断方法、装置、电子设备和存储介质 |
WO2022222045A1 (zh) * | 2021-04-20 | 2022-10-27 | 华为技术有限公司 | 语音信息处理方法及设备 |
CN113724712B (zh) * | 2021-08-10 | 2023-05-30 | 南京信息工程大学 | 一种基于多特征融合和组合模型的鸟声识别方法 |
CN113674732B (zh) * | 2021-08-16 | 2022-05-17 | 北京百度网讯科技有限公司 | 语音置信度检测方法、装置、电子设备和存储介质 |
CN113674742B (zh) * | 2021-08-18 | 2022-09-27 | 北京百度网讯科技有限公司 | 人机交互方法、装置、设备以及存储介质 |
CN113658599A (zh) * | 2021-08-18 | 2021-11-16 | 平安普惠企业管理有限公司 | 基于语音识别的会议记录生成方法、装置、设备及介质 |
CN113793597A (zh) * | 2021-09-15 | 2021-12-14 | 云知声智能科技股份有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114242113B (zh) * | 2021-12-16 | 2023-08-08 | 北京百度网讯科技有限公司 | 语音检测方法、训练方法、装置和电子设备 |
CN114453852A (zh) * | 2022-02-16 | 2022-05-10 | 上海海事大学 | 基于语音识别控制机械臂进行叶片装配的方法和系统 |
CN114678012A (zh) * | 2022-02-18 | 2022-06-28 | 青岛海尔科技有限公司 | 语音交互数据的处理方法和装置、存储介质及电子装置 |
CN115376491B (zh) * | 2022-07-06 | 2023-08-18 | 北京数美时代科技有限公司 | 一种语音置信度计算方法、系统、电子设备及介质 |
CN115472165A (zh) * | 2022-07-07 | 2022-12-13 | 脸萌有限公司 | 用于语音识别的方法、装置、设备和存储介质 |
CN115116442B (zh) * | 2022-08-30 | 2023-01-10 | 荣耀终端有限公司 | 语音交互方法和电子设备 |
CN115662397B (zh) * | 2022-12-29 | 2023-04-18 | 北京百度网讯科技有限公司 | 语音信号的处理方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014103099A (ja) | 2012-11-21 | 2014-06-05 | Hyundai Motor Company Co Ltd | 燃料電池システムの圧縮空気冷却装置 |
CN107665708A (zh) | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN109461446A (zh) | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
US20190295564A1 (en) | 2018-03-21 | 2019-09-26 | Unlimiter Mfa Co., Ltd. | Artificial intelligence voice interaction method, computer program product, and near-end electronic device thereof |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7640159B2 (en) * | 2004-07-22 | 2009-12-29 | Nuance Communications, Inc. | System and method of speech recognition for non-native speakers of a language |
GB0426347D0 (en) * | 2004-12-01 | 2005-01-05 | Ibm | Methods, apparatus and computer programs for automatic speech recognition |
WO2006069381A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking confidence |
US20090198496A1 (en) * | 2008-01-31 | 2009-08-06 | Matthias Denecke | Aspect oriented programmable dialogue manager and apparatus operated thereby |
CN101996631B (zh) * | 2009-08-28 | 2014-12-03 | 国际商业机器公司 | 用于对齐文本的方法和装置 |
CN104956436B (zh) | 2012-12-28 | 2018-05-29 | 株式会社索思未来 | 带有语音识别功能的设备以及语音识别方法 |
US9437186B1 (en) | 2013-06-19 | 2016-09-06 | Amazon Technologies, Inc. | Enhanced endpoint detection for speech recognition |
US9552816B2 (en) * | 2014-12-19 | 2017-01-24 | Amazon Technologies, Inc. | Application focus in speech-based systems |
US10515150B2 (en) * | 2015-07-14 | 2019-12-24 | Genesys Telecommunications Laboratories, Inc. | Data driven speech enabled self-help systems and methods of operating thereof |
KR20180052347A (ko) * | 2016-11-10 | 2018-05-18 | 삼성전자주식회사 | 음성 인식 장치 및 방법 |
CN108694940B (zh) * | 2017-04-10 | 2020-07-03 | 北京猎户星空科技有限公司 | 一种语音识别方法、装置及电子设备 |
US10366692B1 (en) * | 2017-05-15 | 2019-07-30 | Amazon Technologies, Inc. | Accessory for a voice-controlled device |
KR102445382B1 (ko) * | 2017-07-10 | 2022-09-20 | 삼성전자주식회사 | 음성 처리 방법 및 이를 지원하는 시스템 |
CN107437417B (zh) * | 2017-08-02 | 2020-02-14 | 中国科学院自动化研究所 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
US10720166B2 (en) * | 2018-04-09 | 2020-07-21 | Synaptics Incorporated | Voice biometrics systems and methods |
WO2019203795A1 (en) * | 2018-04-16 | 2019-10-24 | Google Llc | Automatically determining language for speech recognition of spoken utterance received via an automated assistant interface |
TWI682368B (zh) * | 2018-07-03 | 2020-01-11 | 緯創資通股份有限公司 | 利用多維度感測器資料之監控系統及監控方法 |
CN109036384B (zh) * | 2018-09-06 | 2019-11-15 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
-
2019
- 2019-10-28 CN CN201911033410.5A patent/CN110718223B/zh active Active
-
2020
- 2020-09-24 US US17/031,598 patent/US11503155B2/en active Active
- 2020-10-09 JP JP2020170837A patent/JP7146869B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014103099A (ja) | 2012-11-21 | 2014-06-05 | Hyundai Motor Company Co Ltd | 燃料電池システムの圧縮空気冷却装置 |
CN107665708A (zh) | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
US20190295564A1 (en) | 2018-03-21 | 2019-09-26 | Unlimiter Mfa Co., Ltd. | Artificial intelligence voice interaction method, computer program product, and near-end electronic device thereof |
CN109461446A (zh) | 2018-12-24 | 2019-03-12 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP2021067939A (ja) | 2021-04-30 |
US20210127003A1 (en) | 2021-04-29 |
US11503155B2 (en) | 2022-11-15 |
CN110718223B (zh) | 2021-02-12 |
CN110718223A (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7146869B2 (ja) | 音声インタラクション制御のための方法、装置、機器及び媒体 | |
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
Vashisht et al. | Speech recognition using machine learning | |
US10878807B2 (en) | System and method for implementing a vocal user interface by combining a speech to text system and a speech to intent system | |
CN114694076A (zh) | 基于多任务学习与层叠跨模态融合的多模态情感分析方法 | |
JP7300435B2 (ja) | 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体 | |
JP2022044550A (ja) | ネットワークの訓練方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP7063937B2 (ja) | 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム | |
US11132994B1 (en) | Multi-domain dialog state tracking | |
CN112825249A (zh) | 语音处理方法和设备 | |
US20230368796A1 (en) | Speech processing | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
Tanveer et al. | Ensemble deep learning in speech signal tasks: a review | |
Xu et al. | A comprehensive survey of automated audio captioning | |
Chowdhury et al. | What do end-to-end speech models learn about speaker, language and channel information? a layer-wise and neuron-level analysis | |
Mehra et al. | Deep fusion framework for speech command recognition using acoustic and linguistic features | |
Kheddar et al. | Automatic speech recognition using advanced deep learning approaches: A survey | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
KR20210079061A (ko) | 정보 처리 방법 및 정보 처리 장치 | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
Yun et al. | End-to-end emotional speech recognition using acoustic model adaptation based on knowledge distillation | |
Sartiukova et al. | Remote Voice Control of Computer Based on Convolutional Neural Network | |
Liu et al. | Keyword retrieving in continuous speech using connectionist temporal classification | |
CN113421593A (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
KR102635031B1 (ko) | 의미 단위 시각화를 기반으로 한 화자 분리 실시간 통역 서비스 제공 방법, 장치 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201009 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220826 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220920 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7146869 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |