JP2022552662A - 音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体 - Google Patents
音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体 Download PDFInfo
- Publication number
- JP2022552662A JP2022552662A JP2022522366A JP2022522366A JP2022552662A JP 2022552662 A JP2022552662 A JP 2022552662A JP 2022522366 A JP2022522366 A JP 2022522366A JP 2022522366 A JP2022522366 A JP 2022522366A JP 2022552662 A JP2022552662 A JP 2022552662A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- recognition result
- speech
- error correction
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 title claims abstract description 189
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000004364 calculation method Methods 0.000 claims description 86
- 238000012549 training Methods 0.000 claims description 81
- 239000013598 vector Substances 0.000 claims description 77
- 238000000605 extraction Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 7
- 239000010410 layer Substances 0.000 description 129
- 230000004900 autophagic degradation Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000003062 neural network model Methods 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000019771 cognition Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000002411 adverse Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000002356 single layer Substances 0.000 description 3
- 238000013179 statistical model Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000005352 clarification Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011862 kidney biopsy Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
Description
ある中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとを含む。
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果からキーワードを抽出することと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとを含む。
前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出することを含む。
音声データに対して第2回認識を行い、第2回認識結果を取得することは、
前記音声データの音響的特徴を取得することと、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得することとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することを含む。
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む。
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得することと、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む。
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを
取得することとを含み、
そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む。
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含む。
前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得することと、
前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することとを含む。
認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第1の音声認識ユニットと、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む。
認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
前記第1回認識結果からキーワードを抽出するキーワード抽出ユニットと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第2の音声認識ユニットと、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む。
前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出する領域語彙抽出ユニットを含む。
前記音声データの音響的特徴を取得する音響的特徴取得ユニットと、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得するモデル処理ユニットとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。
記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果におけるキーワードとを含む。
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行う符号化・アテンション計算ユニットと、
計算結果に基づいて、第2回認識結果を取得する認識ユニットとを含む。
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得する第1の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する第1のアテンション計算ユニットとを含み、そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む。
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記
結合ベクトルの音響的高級特徴を取得する第2の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得する第2のアテンション計算ユニットとを含む。
前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得する信頼度取得ユニットと、
前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定する決定ユニットとを含む。
前記プロセッサは、前記プログラムを実行し、上記の音声認識誤り認識方法の各ステップを実現するために使用される。
」と認識されている。
S101:認識対象音声データ及びその第1回認識結果を取得する。
本実施例において、認識対象音声データは、ユーザーがメッセージ送信やチャットを行う際に音声入力手段で入力された音声データなど、アプリケーションのニーズに応じてユーザが発声した音声データである。認識対象音声データは、汎用領域の音声データまたは特殊な場面(専門領域など)の音声データであってもよい。
に、第1回認識結果における各語彙を「オートファジー」とマッチングさせ、「このときの反応」とのマッチ度が50%であり、設定されたマッチ度の下限値を30%とすれば、第1回認識結果における「このときの反応」を「オートファジー」で置き換えることで、第2回認識結果の「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、オートファジーががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した」を取得することができる。
S201は、上記のS101と同様であり、詳細な実施手順について前述したものを参照できるので、ここで省略する。
本実施例では、前記キーワードは第1の認識結果から抽出された領域特徴を有する語彙であってもよい。すなわち、キーワードは、第1回認識結果に現れる領域に関する語彙、通常、領域特徴を有する語彙であってもよい。例えば、医療領域におけるオートファジー、骨格牽引、腎生検などの語彙、計算機領域におけるフィードフォワード・ニューラルネットワーク、プーリング層など。
タに対して第2回認識を行い、第2回認識結果を取得する。
S204は、上記のS103と同様であり、詳細な実施手順について前述したものを参照できるので、ここで省略する。
ル特徴であってもよい。本出願では、主流となる任意の音響的特徴の抽出方法を用いて各音声データの音響的特徴を抽出でき、これについては、本出願で何ら限定されない。
に対応するテキストと、前記1件の音声データに対応する第1回認識結果とを含む。
特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することが挙げられる。
ネットワーク)であってもよく、本出願で何も限定されない。
了したとみなされ、P(yi)は、現時点の出力結果がyiである確率を表し、P(yi)=Decode(sai,swi,sri,cai,cwi,cri)である。
第1の符号化モジュールを用いて前記音声データの音響的特徴を符号化し、前記音声データの音響的高級特徴を取得し、第1のアテンションモジュールを用いて、前記音声データに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対してアテンション計算を行い、前記音声データに関する隠れ層状態を取得し、第1のアテンションモジュールを用いて前記音声データの音響的高級特徴及び前記音声データに関する隠れ層状態に対してアテンション計算を行い、前記音声データに関する語義ベクトルを取得する。
ンション計算を行い、前記キーワードに関する隠れ層状態を取得し、第3のアテンションモジュールを用いて前記キーワードの高級特徴及び前記キーワードに関する隠れ層状態に対してアテンション計算を行い、前記キーワードに関する語義ベクトルを取得する。
るキーワードの特性評価Qからなる結合ベクトル[X、P、Q]である。符号化層の出力は、音響的特徴の高級特徴Ha、認識対象音声データの第1回認識結果の特性評価Pの高級特徴Hw及び認識対象音声データの第1回認識結果におけるキーワードの特性評価Qの高級特徴Hrからなる結合ベクトル[Ha、Hw、Hr]である。
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含んでもよい。
認識対象音声データ及びその第1回認識結果を取得する取得ユニット51と、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第1の音声認識ユニット52と、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニット53とを含んでもよい。
認識対象音声データ及びその第1回認識結果を取得する取得ユニット51と、
前記第1回認識結果からキーワードを抽出するキーワード抽出ユニット54と、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第2の音声認識ユニット55と、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニット53とを含んでもよい。
前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出する領域語彙抽出ユニットを含む。
前記音声データの音響的特徴を取得する音響的特徴取得ユニットと、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得するモデル処理ユニットとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。
そのうち、前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果におけるキーワードとを含む。
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行う符号化・アテンション計算ユニットと、
計算結果に基づいて、第2回認識結果を取得する認識ユニットとを含む。
前記結合ユニットは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得するために使用される。
前記第2の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。
前記第2の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得するために使用される。
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクト
を符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得する第1の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する第1のアテンション計算ユニットとを含み、そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む。
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得する第2の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得する第2のアテンション計算ユニットとを含む。
前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得する信頼度取得ユニットと、
前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定する決定ユニットとを含む。
もよい。
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果からキーワードを抽出することと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果からキーワードを抽出することと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
た一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本出願は本明細書で示されたこれらの実施例に限定されなく、本明細書で公開されている原理や新規特徴と一致する最も広い範囲と一致しなければならない。
Claims (15)
- 音声認識誤り訂正方法であって、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することと、
を含むことを特徴とする音声認識誤り訂正方法。 - 音声認識誤り訂正方法であって、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果からキーワードを抽出することと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することと、
を含むことを特徴とする音声認識誤り訂正方法。 - 前記第1回認識結果からキーワードを抽出することは、前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出することを含む、
ことを特徴とする請求項2に記載の方法。 - 前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することは、
前記音声データの音響的特徴を取得することと、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られた音声誤り訂正認識モデルに入力し、第2回認識結果を取得することとを含み、
そのうち、前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果におけるキーワードとを含む、
ことを特徴とする請求項2に記載の方法。 - 前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得することは、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することを含む、
ことを特徴とする請求項4に記載の方法。 - 前記音声誤り訂正認識モデルを用いて、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することは、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む、
ことを特徴とする請求項5に記載の方法。 - 前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することは、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得することと、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む、
ことを特徴とする請求項5に記載の方法。 - 前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得することとを含み、
そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む、
ことを特徴とする請求項6に記載の方法。 - 前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含む、
ことを特徴とする請求項7に記載の方法。 - 前記第2回認識結果に基づいて、最終的な認識結果を決定することは、前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得することと、前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することとを含む、
ことを特徴とする請求項2に記載の方法。 - 音声認識誤り訂正装置であって、
認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第1の音声認識ユニットと、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む、
ことを特徴とする音声認識誤り訂正装置。 - 音声認識誤り訂正装置であって、
認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
前記第1回認識結果からキーワードを抽出するキーワード抽出ユニットと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第2の音声認識ユニットと、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含むこと、
を特徴とする音声認識誤り訂正装置。 - 音声認識誤り訂正システムであって、
プログラムを格納するメモリと、前記プログラムを実行し、請求項1~10のいずれか1項に記載の音声認識誤り訂正方法の各ステップを実現するプロセッサとを含む、
ことを特徴とする音声認識誤り訂正システム。 - コンピュータプログラムを格納する読取可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1~10のいずれか1項に記載の音声認識誤り訂正方法の各ステップを実現する、
ことを特徴とするコンピュータ読取可能な記憶媒体。 - コンピュータプログラム製品であって、
端末装置で実行されると、前記端末装置に請求項1~10のいずれか1項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911167009.0 | 2019-11-25 | ||
CN201911167009.0A CN110956959B (zh) | 2019-11-25 | 2019-11-25 | 语音识别纠错方法、相关设备及可读存储介质 |
PCT/CN2020/129314 WO2021104102A1 (zh) | 2019-11-25 | 2020-11-17 | 语音识别纠错方法、相关设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022552662A true JP2022552662A (ja) | 2022-12-19 |
JP7514920B2 JP7514920B2 (ja) | 2024-07-11 |
Family
ID=
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108428447A (zh) * | 2018-06-19 | 2018-08-21 | 科大讯飞股份有限公司 | 一种语音意图识别方法及装置 |
KR20200064181A (ko) * | 2018-11-16 | 2020-06-08 | 엘지전자 주식회사 | 디스플레이 장치를 갖는 인공지능 냉장고 |
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108428447A (zh) * | 2018-06-19 | 2018-08-21 | 科大讯飞股份有限公司 | 一种语音意图识别方法及装置 |
KR20200064181A (ko) * | 2018-11-16 | 2020-06-08 | 엘지전자 주식회사 | 디스플레이 장치를 갖는 인공지능 냉장고 |
Also Published As
Publication number | Publication date |
---|---|
EP4068280A1 (en) | 2022-10-05 |
KR102648306B1 (ko) | 2024-03-15 |
CN110956959B (zh) | 2023-07-25 |
CN110956959A (zh) | 2020-04-03 |
WO2021104102A1 (zh) | 2021-06-03 |
US20220383853A1 (en) | 2022-12-01 |
KR20220035222A (ko) | 2022-03-21 |
EP4068280A4 (en) | 2023-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021104102A1 (zh) | 语音识别纠错方法、相关设备及可读存储介质 | |
CN107767863B (zh) | 语音唤醒方法、系统及智能终端 | |
CN108711421B (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
JP7407968B2 (ja) | 音声認識方法、装置、設備及び記憶媒体 | |
JP7278477B2 (ja) | 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体 | |
CN112927682B (zh) | 一种基于深度神经网络声学模型的语音识别方法及系统 | |
JP6677419B2 (ja) | 音声対話方法及び装置 | |
CN107644638A (zh) | 语音识别方法、装置、终端和计算机可读存储介质 | |
US10152298B1 (en) | Confidence estimation based on frequency | |
WO2022141706A1 (zh) | 语音识别方法、装置及存储介质 | |
CN111539199B (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
WO2021040842A1 (en) | Optimizing a keyword spotting system | |
Chi et al. | Speaker role contextual modeling for language understanding and dialogue policy learning | |
WO2021135457A1 (zh) | 基于循环神经网络的情绪识别方法、装置及存储介质 | |
CN116884391B (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
CN110570855A (zh) | 通过对话机制控制智能家居设备的系统、方法及装置 | |
WO2012004955A1 (ja) | テキスト補正方法及び認識方法 | |
CN112802461A (zh) | 语音识别方法和装置、服务器、计算机可读存储介质 | |
JP7278309B2 (ja) | 文章レベルテキストの翻訳方法及び装置 | |
CN113221681B (zh) | 模型训练方法、动作姿态生成方法、装置、设备及介质 | |
Chen et al. | Active learning for domain classification in a commercial spoken personal assistant | |
JP7514920B2 (ja) | 音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体 | |
CN112466282B (zh) | 一种面向航天专业领域的语音识别系统和方法 | |
CN112509559B (zh) | 音频识别方法、模型训练方法、装置、设备及存储介质 | |
CN110428814B (zh) | 一种语音识别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230905 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20231205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20240408 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240425 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240604 |