JP2022552662A

JP2022552662A - 音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体

Info

Publication number: JP2022552662A
Application number: JP2022522366A
Authority: JP
Inventors: シュ，リー; パン，ジャ; ワン，チグォ; フー，グォピン
Original assignee: アイフライテックカンパニー，リミテッド
Priority date: 2019-11-25
Filing date: 2020-11-17
Publication date: 2022-12-19
Anticipated expiration: 2040-11-17
Also published as: EP4068280A1; KR102648306B1; CN110956959B; CN110956959A; WO2021104102A1; US20220383853A1; KR20220035222A; EP4068280A4

Abstract

音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体であって、認識対象音声データ及びその第１回認識結果を取得すること（Ｓ１０１）と、第１回認識結果の文脈情報を参考し、音声データに対して第２回認識を行い、第２回認識結果を取得すること（Ｓ１０２）と、第２回認識結果に基づいて、最終的な認識結果を決定すること（Ｓ１０３）とを含む。上記の解決案において、第１回認識結果の文脈情報を参考し、音声データに対して第２回認識を行い、認識結果の文脈情報及び音声データの適用場面を十分に考慮し、第１回認識結果に誤りがある場合、第２回認識を用いて誤り訂正を行うので、音声認識の精度を向上させることができる。さらに第１回認識結果からキーワードを抽出でき、これにより、第１回認識結果の文脈情報及びキーワードを参考し、音声データの第２回認識を行うこともでき、第２回認識結果の精度をさらに向上させることができる。

Description

本出願は、２０１９年１１月２５日に中国特許局へ提出した出願番号２０１９１１１６７００９.０、発明名称「音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体」で
ある中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。

ここ数年、人工知能装置はどんどん人々の生活や仕事に導入され、不可欠な部分となり、これらはいずれも人工知能技術の急速な発展のおかげである。音声インタラクションは最も自然なヒューマン・コンピュータ・インタラクション方式として、さまざまな人工知能装置に広く応用され、人間と機械のスムーズなコミュニケーションが可能となる。音声インタラクションの際には、音声認識技術に基づいて、機械が人間の言葉を「分かり」、人間にサービスを提供することができる。

現在、ディープラーニングによる音声認識技術は成熟しつつあり、従来の音声認識モデルは、汎用場面での認識精度が満足な効果を達成したが、一部の特殊な場面（専門領域など）での音声内容には、汎用場面で出現する頻度が低い専門的な語彙が存在するため、従来の音声認識モデルによるこのような語彙のカバー率が低い。ある特殊な場面では、このような語彙を含む認識対象音声を従来の音声認識モデルで認識すると、認識の誤りが発生しやすく、音声認識の精度が低下する。

したがって、音声認識の精度の向上は、当業者が早急に解決すべき技術的課題となっている。

上記の問題に鑑み、本出願は、音声認識誤り訂正方法、関連設備及び読取可能な記憶媒体を提供する。具体的な解決案は以下の通りである。

本出願の第一態様において、音声認識誤り訂正方法を提供し、前記方法は、
認識対象音声データ及びその第１回認識結果を取得することと、
前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することと、
前記第２回認識結果に基づいて、最終的な認識結果を決定することとを含む。

本出願の第二態様において、別の音声認識誤り訂正方法を提供し、前記方法は、
認識対象音声データ及びその第１回認識結果を取得することと、
前記第１回認識結果からキーワードを抽出することと、
前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することと、
前記第２回認識結果に基づいて、最終的な認識結果を決定することとを含む。

オプションとして、前記第１回認識結果からキーワードを抽出することは、
前記第１の認識結果から領域特徴を有する語彙をキーワードとして抽出することを含む。

オプションとして、前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記
音声データに対して第２回認識を行い、第２回認識結果を取得することは、
前記音声データの音響的特徴を取得することと、
前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得することとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。

そのうち、前記誤り訂正訓練データセットには、少なくとも１群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、１件の音声データに対応する音響的特徴と、前記１件の音声データに対応するテキストと、前記１件の音声データに対応する第１回認識結果と、前記第１回認識結果におけるキーワードとを含む。

オプションとして、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得することは、
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得することを含む。

オプションとして、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得することは、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得することとを含む。

オプションとして、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得することは、
前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを結合し、結合ベクトルを取得することと、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得することとを含む。

オプションとして、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを
取得することとを含み、
そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを含む。

オプションとして、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含む。

オプションとして、前記第２回認識結果に基づいて、最終的な認識結果を決定することは、
前記第１回認識結果の信頼度及び前記第２回認識結果の信頼度を取得することと、
前記第１回認識結果及び前記第２回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することとを含む。

本出願の第三態様において、音声認識誤り訂正装置を提供し、前記装置は、
認識対象音声データ及びその第１回認識結果を取得する取得ユニットと、
前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する第１の音声認識ユニットと、
前記第２回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む。

本出願の第四態様において、別の音声認識誤り訂正装置を提供し、前記装置は、
認識対象音声データ及びその第１回認識結果を取得する取得ユニットと、
前記第１回認識結果からキーワードを抽出するキーワード抽出ユニットと、
前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する第２の音声認識ユニットと、
前記第２回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む。

オプションとして、前記キーワード抽出ユニットは、
前記第１の認識結果から領域特徴を有する語彙をキーワードとして抽出する領域語彙抽出ユニットを含む。

オプションとして、前記第２の音声認識ユニットは、
前記音声データの音響的特徴を取得する音響的特徴取得ユニットと、
前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得するモデル処理ユニットとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。

そのうち、前記誤り訂正訓練データセットには、少なくとも１群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、１件の音声データに対応する音響的特徴と、前
記１件の音声データに対応するテキストと、前記１件の音声データに対応する第１回認識結果と、前記第１回認識結果におけるキーワードとを含む。

オプションとして、モデル処理ユニットは、
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行う符号化・アテンション計算ユニットと、
計算結果に基づいて、第２回認識結果を取得する認識ユニットとを含む。

オプションとして、前記符号化・アテンション計算ユニットは、第１の符号化・アテンション計算ユニットを含み、前記認識ユニットは、第１の復号化ユニットを含む。

前記第１の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。

前記第１の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得するために使用される。

オプションとして、前記モデル処理ユニットは、結合ユニットをさらに含み、前記符号化・アテンション計算ユニットは、第２の符号化・アテンション計算ユニットを含み、前記認識ユニットは、第２の復号化ユニットを含む。

前記結合ユニットは、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを結合し、結合ベクトルを取得するために使用される。

前記第２の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。

前記第２の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得するために使用される。

オプションとして、前記第１の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得する第１の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する第１のアテンション計算ユニットとを含み、そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを含む。

オプションとして、前記第２の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記
結合ベクトルの音響的高級特徴を取得する第２の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得する第２のアテンション計算ユニットとを含む。

オプションとして、前記認識結果決定ユニットは、
前記第１回認識結果の信頼度及び前記第２回認識結果の信頼度を取得する信頼度取得ユニットと、
前記第１回認識結果及び前記第２回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定する決定ユニットとを含む。

本出願の第五態様において、メモリ及びプロセッサを含む音声認識誤り訂正システムを提供する。

前記メモリは、プログラムを格納するために使用される。
前記プロセッサは、前記プログラムを実行し、上記の音声認識誤り認識方法の各ステップを実現するために使用される。

本出願の第六態様において、コンピュータプログラムを格納する読取可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時に、上記の音声認識誤り訂正方法の各ステップを実現する。

本出願の第七態様において、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、端末装置で実行される時に、前記端末装置に上記の音声認識誤り訂正方法の各ステップを実行させる。

上記の技術案により、本出願は、音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体を開示し、認識対象音声データ及びその第１回認識結果を取得することと、第１回認識結果の文脈情報を参考し、音声データに対して第２回認識を行い、第２回認識結果を取得することと、最後には、第２回認識結果に基づいて、最終的な認識結果を決定することとを含む。上記の解決案において、第１回認識結果の文脈情報を参考し、音声データに対して第２回認識を行う時には、認識結果の文脈情報及び音声データの適用場面を十分に考慮し、第１回認識結果に誤りがある場合、第２回認識を用いて誤り訂正を行うので、音声認識の精度を向上させることができる。

その上で、さらに、第１回認識結果からキーワードを抽出することができ、これに基づいて、第１回認識結果の文脈情報及び前記キーワードを参考し、音声データに対して第２回認識を行うことで、さらに第２回認識結果の精度を向上させることができる。

以下の好ましい実施形態の詳細な説明を読むことにより、当業者にとっては、他のさまざまな利点やメリットが明らかになる。図面は、好ましい実施形態を示すために使用され、本出願を限定したものとみなされない。なお、図面全体において、同一の参照符号で同一の構成要素を示している。
は本出願の実施例に係る音声認識誤り訂正方法のフローチャートである。は本出願の実施例に係る別の音声認識誤り訂正方法のフローチャートである。は本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するためのトポロジーを示す図である。は本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するための別のトポロジーを示す図である。は本出願の実施例に係る音声認識誤り訂正装置の構造を示す図である。は本出願の実施例に係る別の音声認識誤り訂正装置の構造を示す図である。は本出願の実施例に係る音声認識誤り訂正システムのハードウェア構成を示すブロック図である。

以下、本出願の実施形態の図面を併せて、本出願の実施例の技術案を明確かつ詳細に説明する。記載された実施例は本出願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本出願の実施例に基づいて、当業者は、創造的な作業なしに得られた本発明のすべての他の実施例は本発明の保護範囲内にある。

特殊な場面（専門領域など）における音声認識の精度を向上させるために、本案の発明者は研究を行い、当初の考えは次の通りである。

特殊な場面における領域特徴のある語彙を含むテキストをコーパスとして収集し、従来の音声認識モデルの最適化とカスタマイズを行い、カスタマイズと最適化を行ったモデルを用いて、前記特殊な場面における認識対象音声を認識すると、高い精度を達成できるが、カスタマイズと最適化を行ったモデルを用いて、汎用場面における認識対象音声を認識すると、従来の音声認識モデルに比べて精度が低下する。

汎用場面と特殊な場面における音声認識の精度を両立させるために、認識対象音声を認識する前に、認識対象音声が汎用場面で発生するのか、特殊な場面で発生するのかを、予め判定する必要がある。認識対象音声が汎用場面で発生したものであると判定された場合、従来の音声認識モデルを用いて認識する。認識対象音声が特殊な場面で発生したものであると判定された場合、カスタマイズと最適化を行ったモデルを用いて認識する。そのように、汎用場面における音声認識の精度と特殊な場面における音声認識の精度との両方を保証することができる。しかし、音声認識を実現するシステムでは、認識対象音声が汎用場面で発生するのか、特殊な場面で発生するのかを、認識対象音声を認識する前に予めに判定することができない。

上述の考え方に存在する問題に鑑み、本案の発明者が深く研究したところ、従来の音声認識技術が通常、音声データストリームに基づいてその認識結果を与え、一旦認識結果が与えられた後に修正しないことが分かった。しかし、実際の応用では、音声データストリーム中の第１節を認識する時に、文脈情報が十分でないために第１節を誤認識したが、第１節以降の節を認識する時に、文脈情報が十分であるために、第１節以降の節を正しく認識する場合がある。つまり、同一の単語が第１節に出現した時に誤認識されても、第２節に出現した時に正しく認識される可能性がある。

例えば、認識対象音声の内容は、「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、オートファジーががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した」であるが、「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、このときの反応ががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した
」と認識されている。

上記の例では、オートファジーが初めて現れた場合、前文の内容とあまり関連性がないので、オートファジーはよく見慣れない領域の語彙であり、認識誤りを引き起こしているが、オートファジーが二度目に現れた場合、前文に抑制が含まれ、オートファジーの抑制という組み合わせ言語モデルのスコアが高いため、正しく認識されている。

上述の研究に基づいて、本案の発明者は、認識結果自体に持たれる文脈情報が認識結果の正否に影響を与えることを気づいた、認識対象音声データの第１回認識結果の文脈情報に基づいて、認識対象音声データの第２回認識を行い、第２回認識結果を取得し、第２回認識結果では第１回認識結果における誤って認識された領域語彙を訂正した可能性があるので、音声認識結果の精度を向上させる。

以上に基づいて、本案の発明者は、音声認識誤り訂正方法を提案する。次に、以下の実施例により、本出願に係る音声認識誤り訂正方法を説明する。

図１は、本出願の実施例に係る音声認識誤り訂正方法のフローチャートであり、当該方法は以下のステップを含んでもよい。
Ｓ１０１：認識対象音声データ及びその第１回認識結果を取得する。
本実施例において、認識対象音声データは、ユーザーがメッセージ送信やチャットを行う際に音声入力手段で入力された音声データなど、アプリケーションのニーズに応じてユーザが発声した音声データである。認識対象音声データは、汎用領域の音声データまたは特殊な場面（専門領域など）の音声データであってもよい。

本出願では、さまざまな方法を用いて認識対象音声データの第１回認識結果を取得してもよい。例えば、ニューラルネットワークモデルに基づいて実現することができる。もちろん、認識対象音声データの第１回認識結果を取得する他の方法も、本出願の保護範囲内にある。例えば、認識対象音声データの第１回認識結果を予め記憶しておき、必要に応じて、記憶媒体から直接的に取得すればよい。

Ｓ１０２：前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する。

前述した発明者の研究成果によれば、認識結果自体に持たれる文脈情報は、認識結果の正否に一定の影響を与えるので、本実施例では、第１回認識結果の文脈情報を参考し、音声データの第２回認識を行い、第２回認識結果を取得する。

本実施例では、前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する実施形態は多様であってもよい。例えば、ニューラルネットワークモデルに基づいて実現してもよい。

もちろん、他の実施形態も本出願の保護範囲内にある。例えば、前記第１回認識結果に含まれる領域語彙を決定し、当該領域語彙を第１回認識結果における他の語彙とマッチングさせ、マッチ度が設定されたマッチ度の下限値より高く、且つ完全に同一ではない語彙を選別し、選別された語彙を当該領域語彙で置き換え、第２回認識結果を取得する。

前述した例を説明すると、第１回認識結果の「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、このときの反応ががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した」から、「オートファジー」のような領域語彙を抽出できる。さら
に、第１回認識結果における各語彙を「オートファジー」とマッチングさせ、「このときの反応」とのマッチ度が５０％であり、設定されたマッチ度の下限値を３０％とすれば、第１回認識結果における「このときの反応」を「オートファジー」で置き換えることで、第２回認識結果の「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、オートファジーががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した」を取得することができる。

Ｓ１０３：前記第２回認識結果に基づいて、最終的な認識結果を決定する。

本出願では、前記第２回認識結果を最終的な認識結果として直接的に決定してもよい。しかし、場合によって、第２回認識結果が必ずしも第１回認識結果より優れるとは限らず、第２回認識結果を最終的な認識結果として直接的に決定すると、認識の精度が低下する可能性がある。しがたって、この場合、第１回認識結果及び第２回認識結果から１つの最適な認識結果を最終的な認識結果として決定してもよい。

第１回認識結果及び第２回認識結果から１つの最適な認識結果を決定する方法は多様であり、１つの実施形態として、前記第１回認識結果の信頼度及び前記第２回認識結果の信頼度を取得し、前記第１回認識結果及び前記第２回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することができる。

もちろん、他の方法も本出願の保護範囲内にあり、例えば、手動検証を用いて、第１回認識結果及び第２回認識結果から１つの最適な認識結果を決定してもよい。

本実施例では、音声認識誤り訂正方法を開示し、認識対象音声データ及びその第１回認識結果を取得し、第１回認識結果の文脈情報を参考し、音声データに対して第２回認識を行い、第２回認識結果を取得し、最後には、第２回認識結果に基づいて、最終的な認識結果を決定する。上記の方法において、第１回認識結果の文脈情報を参考し、音声データに対して第２回認識を行う時には、認識結果の文脈情報の適用シーンを十分に考慮し、第１回認識結果に誤りがある場合、第２回認識を用いて誤り訂正を行うので、音声認識の精度を向上させることができる。

本出願の別の実施例では、別の音声認識誤り訂正方法をさらに提供し、上記の実施例に基づいて、第１回認識結果からキーワードを抽出し、その同時に第１回認識結果の文脈情報及びキーワードを参考し、音声データの第２回認識を行い、第２回認識結果の精度をさらに向上させることができる。具体的な実施手順については、図２を参照してもよい。当該方法は以下のステップを含む。

Ｓ２０１：認識対象音声データ及びその第１回認識結果を取得する。
Ｓ２０１は、上記のＳ１０１と同様であり、詳細な実施手順について前述したものを参照できるので、ここで省略する。

Ｓ２０２：前記第１回認識結果におけるキーワードを抽出する。
本実施例では、前記キーワードは第１の認識結果から抽出された領域特徴を有する語彙であってもよい。すなわち、キーワードは、第１回認識結果に現れる領域に関する語彙、通常、領域特徴を有する語彙であってもよい。例えば、医療領域におけるオートファジー、骨格牽引、腎生検などの語彙、計算機領域におけるフィードフォワード・ニューラルネットワーク、プーリング層など。

Ｓ２０３：前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声デー
タに対して第２回認識を行い、第２回認識結果を取得する。

本実施例では、前記第１回認識結果の文脈情報及び前記キーワードを同時に参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する実施形態は多様であってもよい。例えば、ニューラルネットワークモデルに基づいて実現してもよい。

もちろん、他の実施形態も本出願の保護範囲内にある。例えば、前記第１回認識結果のうち、前記キーワードとマッチした語彙を決定し、マッチ度が設定されたマッチ度の下限値よりも高く、且つ完全に同一でない語彙を選別し、選別された語彙を前記キーワードで置き換え、第２回認識結果を取得する。

Ｓ２０４：前記第２回認識結果に基づいて、最終的な認識結果を決定する。
Ｓ２０４は、上記のＳ１０３と同様であり、詳細な実施手順について前述したものを参照できるので、ここで省略する。

本実施例で開示された音声認識誤り訂正方法はさらに、第１回認識結果からキーワードを抽出し、当該キーワードは、領域特徴を有する語彙であってもよい。そして、第１回認識結果の文脈情報及び前記キーワードを同時に参考し、音声データの第２回認識を行い、第２回認識結果の精度を向上させる。

本出願では、認識対象音声データの第１回認識結果を取得する方法は、ニューラルネットワークモデルに基づいて実現される場合、前記音声データを、予め訓練された音声認識モデルに入力し、第１回認識結果を取得することができる。予め訓練された音声認識モデルは、具体的には従来の音声認識モデルであってもよい。又は、認識訓練データセットに基づいて、予め設定されたモデルを訓練して生成された音声認識モデルであってもよい。認識訓練データセットには、少なくとも１群の認識訓練データが含まれ、各群の認識訓練データには、１件の音声データに対応するテキスト及び当該音声データの音響的特徴が含まれる。予め設定されたモデルは、任意のニューラルネットワークモデルであってもよい。これに対して、本出願で何も限定されない。

説明すべき点については、予め訓練された音声認識モデルは、認識訓練データセットに基づいて、予め設定されたモデルを訓練して生成された音声認識モデルである場合、認識訓練データセットにおける各認識訓練データは次のように取得できる。１件の音声データを取得し、当該音声データに対して手動で注記を行い、当該音声データに対応するテキストを取得し、当該音声データの音響的特徴を抽出し、１つの認識訓練データを生成する。前記認識訓練データには、音声データに対応するテキスト及び当該音声データの音響的特徴が含まれる。

本出願では、音声データを取得する方法は多様であり、例えば、スマート端末であるマイクロフォンを介して音声データを受信し、前記スマート端末は、スマートフォン、コンピュータ、翻訳機、ロボット、スマートホーム、スマート家電など、音声認識機能を備える電子機器である。又は、予め記憶された音声データを取得してもよい。もちろん、音声データを取得する他の方法は、本出願の保護範囲内にあり、これについては、本出願で何ら限定されない。

本出願では、各音声データの音響的特徴は、ＭＦＣＣ（Mel-Frequency Cepstral Coefficients、メル周波数ケプストラム係数）やＦＢａｎｋ特徴など、音声データのスペクト
ル特徴であってもよい。本出願では、主流となる任意の音響的特徴の抽出方法を用いて各音声データの音響的特徴を抽出でき、これについては、本出願で何ら限定されない。

本出願では、音声認識モデルの訓練のために予め設定されたモデルは、従来のアテンション（attention）に基づく第３の符号化モジュールであるデコーダ（Decoder）（アテンションメカニズムに基づく符号化・復号化）モデル構造又は他のモデル構造であってもよく、これについては、本出願で何ら限定されない。

本出願では、認識訓練データに基づいて、予め設定されたモデルを訓練する時には、各認識訓練データにおける音声データの音響的特徴を予め設定されたモデルの入力とし、各認識訓練データにおける音声データに対応するテキストを訓練ターゲットとし、予め設定されたモデルのパラメータを訓練する。

本出願では、ＮＥＲ（Named Entity Recognition、固有表現抽出）技術を用いて、第１回認識結果におけるキーワードを抽出してもよい。もちろん、第１回認識結果におけるキーワードを抽出する他の方法も本出願の保護範囲内にある。例えば、手動方法を用いて第１回認識結果からキーワードを抽出してもよい。

現在、ＮＥＲ（Named Entity Recognition、固有表現抽出）技術は、ニューラルネットワークモデルに基づいて実現できる。この場合、第１回認識結果におけるキーワードを抽出する実施形態としては、具体的には、第１回認識結果を予め訓練されたキーワード抽出モデルに入力し、前記第１回認識結果におけるキーワードを取得することが挙げられる。

説明すべき点としては、キーワード抽出モデルは、抽出訓練データセットに基づいて、予め設定されたモデル構造を訓練して生成されてもよい、そのうち、抽出訓練データセットには、少なくとも１群の抽出訓練データが含まれ、各群の抽出訓練データには、１つのテキストが含まれ、当該テキストに現れている、領域特徴を有する専門語彙が注記される。各テキストは、特殊な場面におけるテキストであってもよい。具体的には、手動の注記方法を用いて各テキストに現れている、領域特徴を有する専門語彙にタグをつけて注記を行ってもよい。

予め設定されたモデルは、ディープラーニングに基づくＢｉＬＳＴＭ＿ＣＲＦ（双方向長短記憶モデル_条件付き確率場）モデルなどであってもよい。

例えば、第１回認識結果は、「従来の人間の認知とは正反対である、オートファジーががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがある」であり、第１回認識結果をキーワード抽出モデルに入力した後、キーワード抽出モデルはキーワードであるオートファジー、がん、治療法を出力できる。

また、ＮＥＲ（Named Entity Recognition、固有表現抽出）技術は、統計モデルに基づいて実現されてもよい。この場合、第１回認識結果におけるキーワードを抽出する実施形態としては、具体的には、第１回認識結果を統計モデルに入力し、前記第１回認識結果におけるキーワードを取得することが挙げられる。統計モデルの構築方法は実績ある技術であるので、これについては、本出願で省略する。

本出願では、前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する実施形態は、ニューラルネットワークモデルに基づく場合、前記音声データの音響的特徴、前記第１回認識結果を、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得する。前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られる。前記誤り訂正訓練データセットには、少なくとも１群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、１件の音声データに対応する音響的特徴と、前記１件の音声データ
に対応するテキストと、前記１件の音声データに対応する第１回認識結果とを含む。

説明すべき点として、音声誤り訂正認識モデルを訓練する時には、前記１件の音声データに対応する音響的特徴及び前記１件の音声データに対応する第１回認識結果は、前記予め設定された音声誤り訂正認識モデル構造の入力であり、前記１件の音声データに対応するテキストは、前記予め設定された音声誤り訂正認識モデル構造の訓練ターゲットである。

そのうち、各群の誤り訂正訓練データは、次のように取得される。１件の音声データを取得する。当該音声データに対して手動で注記を行い、当該音声データに対応するテキストを取得する。当該音声データの音響的特徴を抽出する。当該音声データを予め訓練された音声認識モデルに入力し、当該音声データに対応する第１回認識結果を取得する。

他の実施例では、前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する実施形態は、ニューラルネットワークモデルに基づく場合、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得する。前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られる。前記誤り訂正訓練データセットには、少なくとも１群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、１件の音声データに対応する音響的特徴と、前記１件の音声データに対応するテキストと、前記１件の音声データに対応する第１回認識結果と、前記第１回認識結果のキーワードとを含む。

説明すべき点として、音声誤り訂正認識モデルを訓練する時には、前記１件の音声データに対応する音響的特徴、前記１件の音声データに対応する第１回認識結果及び前記第１回認識結果のキーワードは、前記予め設定された音声誤り訂正認識モデル構造の入力であり、前記１件の音声データに対応するテキストは、前記予め設定された音声誤り訂正認識モデル構造の訓練ターゲットである。

そのうち、各群の誤り訂正訓練データは、次のように取得される。１件の音声データを取得する。当該音声データに対して手動で注記を行い、当該音声データに対応するテキストを取得する。当該音声データの音響的特徴を抽出する。当該音声データを予め訓練された音声認識モデルに入力し、当該音声データに対応する第１回認識結果を取得し、第１回認識結果を予め訓練されたキーワード抽出モデルに入力し、当該第１回認識結果におけるキーワードを取得する。

以上のことから、本出願の実施例は、２つの方法により第２回認識結果を取得することができ、当該２つの実施形態はいずれも、音声誤り訂正認識モデルに基づいて実現され、区別点として、２つの方法でモデルに入力されるデータが異なることであり、そのうち、第１の方法でモデルに入力されるのは音声データの音響的特徴及び第１回認識結果であり、第２の方法でモデルに入力されるのは音声データの音響的特徴、第１回認識結果及び第１回認識結果から抽出されたキーワードである。すなわち、第１の方法に比べ、第２の方法は、モデルに入力されるデータにキーワードの情報を追加している。

そして、第２の方法を例として、音声誤り訂正認識モデルの具体的な処理手順について説明する。

本出願では、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得するための具体的な実施形態としては、前記音声誤り訂正認識モデルを用いて前記音声データの音響的
特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得することが挙げられる。

図３は、本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するためのトポロジーを示す図であり、当該モデルは、符号化層と、アテンション層と、復号化層との３層を含む。符号化層の機能は、高級特徴の抽出であり、アテンション層の機能は、当該層の入力と最終的な出力結果との関連性を計算することであり、復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現在時刻の出力結果である。復号化層の具体的な形態は、ｓｏｆｔｍａｘを有する単層ニューラルネットワークであってもよく、本出願で何も限定されない。

符号化層はさらに、第１の符号化モジュールと、第２の符号化モジュールと、第３の符号化モジュールとの３つの部分に分かれる。

第１の符号化モジュール、第２の符号化モジュール、第３の符号化モジュールの具体的な構造は、逆ピラミッド構造の双方向ＲＮＮ（Recurrent Neural Network、再帰型ニューラルネットワーク）又はＣＮＮ（Convolutional Neural Networks、畳み込みニューラル
ネットワーク）であってもよく、本出願で何も限定されない。

アテンション層はさらに、第１のアテンションモジュールと、第２のアテンションモジュールと、第３のアテンションモジュールとの３つの部分に分かれる。第１のアテンションモジュール、第２のアテンションモジュール、第３のアテンションモジュールの具体的な構造は、双方向ＲＮＮ（Recurrent Neural Network、再帰型ニューラルネットワーク）又は単方向RNNであってもよく、本出願で何も限定されない。

復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現時点の出力結果である。Ｄｅｃｏｄｅの具体的な形態は、ｓｏｆｔｍａｘを有する単層ニューラルネットワークであってもよく、本出願で何も限定されない。

第１の符号化モジュールの入力は、認識対象音声データに対応する音響的特徴Ｘであり、出力は、音響的高級特徴Ｈａであり、第２の符号化モジュールの入力は、認識対象音声データに対応する第１回認識結果の特性評価Ｐであり、出力は認識対象音声データの第１回認識結果の特性評価Ｐの高級特徴Ｈｗであり、第３の符号化モジュールの入力は、認識対象音声データの第１回認識結果におけるキーワードの特性評価Ｑであり、出力は、認識対象音声データの第１回認識結果におけるキーワードの特性評価Ｑの高級特徴Ｈｒである。

前の時点の出力結果ｙ_ｉ－１は、第１のアテンションモジュール、第２のアテンションモジュール、第３のアテンションモジュールの共通入力であり、それ以外にも、各部分にも異なる入力と出力があり、そのうち、第１のアテンションモジュールの入力はHa、出力は音声に関する隠れ層状態ｓａ_ｉ及び語義ベクトルｃａ_ｉであり、第２のアテンションモジュールの入力はＨｗ、出力は第１回認識結果に関する隠れ層状態ｓｑ_ｉ及び語義ベクトルｃｗ_ｉであり、第３のアテンションモジュールの入力はＨｒ、出力は第１回認識結果におけるキーワードに関する隠れ層状態ｓｒ_ｉ及び語義ベクトルｃｒ_ｉである。

復号化層の入力は、アテンション層の出力ｓａ_ｉ、ｃａ_ｉ、ｓｗ_ｉ、ｃｗ_ｉ、ｓｒ_ｉ、ｃｒ_ｉであり、復号化層の出力は、現時点の出力結果ｙ_ｉであり、ｙ_ｉは、認識対象音声データの認識結果である。

一般に、訓練段階では、Ｐ（ｙ_ｉ）は予め設定された閾値よりも大きい場合、訓練が終
了したとみなされ、Ｐ（ｙ_ｉ）は、現時点の出力結果がｙｉである確率を表し、Ｐ（ｙ_ｉ）＝Ｄｅｃｏｄｅ（ｓａ_ｉ，ｓｗ_ｉ，ｓｒ_ｉ，ｃａ_ｉ，ｃｗ_ｉ，ｃｒ_ｉ）である。

上記のモデルに基づいて、可能な一実施形態として、本出願では、前記音声誤り訂正認識モデルを用いて、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得するための具体的な実施形態としては、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得し、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得することが挙げられる。

そのうち、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得する実施形態は以下の通りであってもよい、前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得し、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することが挙げられる。

前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する。

そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを含む。

具体的なプロセスは以下の通りである。
第１の符号化モジュールを用いて前記音声データの音響的特徴を符号化し、前記音声データの音響的高級特徴を取得し、第１のアテンションモジュールを用いて、前記音声データに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対してアテンション計算を行い、前記音声データに関する隠れ層状態を取得し、第１のアテンションモジュールを用いて前記音声データの音響的高級特徴及び前記音声データに関する隠れ層状態に対してアテンション計算を行い、前記音声データに関する語義ベクトルを取得する。

第２の符号化モジュールを用いて前記第１回認識結果を符号化し、前記第１回認識結果の高級特徴を取得し、第２のアテンションモジュールを用いて前記第１回認識結果に関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対してアテンション計算を行い、前記第１回認識結果に関する隠れ層状態を取得し、第２のアテンションモジュールを用いて前記第１回認識結果の高級特徴及び前記第１回認識結果に関する隠れ層状態に対してアテンション計算を行い、前記第１回認識結果に関する語義ベクトルを取得する。

第３の符号化モジュールを用いて前記キーワードを符号化し、前記キーワードの高級特徴を取得し、第３のアテンションモジュールを用いて前記キーワードに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対してアテ
ンション計算を行い、前記キーワードに関する隠れ層状態を取得し、第３のアテンションモジュールを用いて前記キーワードの高級特徴及び前記キーワードに関する隠れ層状態に対してアテンション計算を行い、前記キーワードに関する語義ベクトルを取得する。

上記の例は、入力データが音声データの音響的特徴、前記第１回認識結果及び前記キーワードである場合の音声誤り訂正認識モデルの選択可能な処理手順であることが理解される。入力データが音声データの音響的特徴及び前記第１回認識結果である場合、図３のキーワードに関わるすべてのモデル構造及び処理の流れを省略し、すなわち、音声誤り訂正認識モデルから第３の符号化モジュール及び第３のアテンションモデルを取り除き、残りのモデル構造をそのままにすればよい。具体的な流れについては、前述したものを参照できるので、ここで省略する。

さらに、第２の形態を例に、図４は、本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するための他のトポロジーを示す図であり、当該モデルは、符号化層と、アテンション層と、復号化層との３層を含む。Ｅｎｃｏｄｅ層の機能は、高級特徴の抽出であり、アテンション層の機能は、当該層の入力と最終的な出力結果との関連性を計算することであり、復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現在時刻の出力結果である。Ｄｅｃｏｄｅの具体的な形態は、ｓｏｆｔｍａｘを有する単層ニューラルネットワークであってもよく、本出願で何も限定されない。

符号化層の入力は、認識対象音声データに対応する音響的特徴Ｘ、認識対象音声データに対応する第１回認識結果の特性評価P及び認識対象音声データの第１回認識結果におけ
るキーワードの特性評価Ｑからなる結合ベクトル［Ｘ、Ｐ、Ｑ］である。符号化層の出力は、音響的特徴の高級特徴Ｈａ、認識対象音声データの第１回認識結果の特性評価Ｐの高級特徴Ｈｗ及び認識対象音声データの第１回認識結果におけるキーワードの特性評価Ｑの高級特徴Ｈｒからなる結合ベクトル［Ｈａ、Ｈｗ、Ｈｒ］である。

符号化層の出力及びモデル前の時点の出力結果ｙ_ｉ－１は、アテンション層の入力であり、アテンション層の出力は、音声に関する隠れ層状態ｓａ_ｉ及び語義ベクトルｃａ_ｉ、第１回認識結果に関する隠れ層状態ｓｗ_ｉ及び語義ベクトルｃｗ_ｉ、第１回認識結果におけるキーワードに関する隠れ層状態ｓｒ_ｉ及び語義ベクトルｃｒ_ｉからなるベクトル［ｓａ_ｉ、ｃａ_ｉ、ｓｑ_ｉ、ｃｗ_ｉ、ｓｒ_ｉ、ｃｒ_ｉ］である。

復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現時点の出力結果ｙ_ｉであり、ｙ_ｉは、認識対象音声データの認識結果である。

上記のモデルに基づいて、可能な一実施形態として、本出願では、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得するための具体的な実施形態としては、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを結合し、結合ベクトルを取得し、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得し、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得することが挙げられる。

そのうち、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得するための実施形態は、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含んでもよい。

説明すべき点として、従来の音声認識モデル及びアテンション層の主要注目点は、従来の音声認識モデルの出力結果及び音声データの音響的特徴の関連性であり、本出願の音声誤り訂正認識モデルでは、音声データの第１回認識結果及び第１回認識結果におけるキーワードをアテンション層に組み入れることで、音声誤り訂正認識モデルの出力結果が認識結果の誤り訂正情報及び認識結果の文脈情報に注目することができる。これは、出力結果と文脈情報に関連するアテンションメカニズム及び出力結果と誤り訂正に関するアテンションメカニズムを音声誤り訂正認識モデルが学習することが望ましいからである。上記の２つのアテンションメカニズムを通じて現在の音声データから注目される文脈情報及び誤り訂正情報を発見し、すなわち、入力された音声データに基づいて、第１回認識結果及び第１回認識結果におけるキーワード情報に注目するか否かを自動的に選択することができ、音声誤り訂正認識モデルに第１回認識結果及び第１回認識結果におけるキーワードに基づいて誤りを自動的に訂正する能力を持たせることに相当する。

上記の例は、入力データが音声データの音響的特徴、前記第１回認識結果及び前記キーワードである場合の音声誤り訂正認識モデルの別の選択可能な処理手順であることが理解される。入力データは、音声データの音響的特徴及び前記第１回認識結果である場合、図４の符号化層の入力は、認識対象音声データに対応する音響的特徴Ｘ、認識対象音声データに対応する第１回認識結果の特性評価Ｐからなる結合ベクトル［Ｘ、Ｐ］であり、符号化層の出力は、音響的特徴の高級特徴Ｈａ及び認識対象音声データの第１回認識結果の特性評価Ｐの高級特徴Ｈｗからなる結合ベクトル［Ｈａ、Ｈｗ］である。さらに、アテンション層の出力結果は、音声に関する隠れ層状態ｓａ_ｉ及び語義ベクトルｃａ_ｉ、第１回認識結果に関する隠れ層状態ｓｗ_ｉ及び語義ベクトルｃｗ_ｉからなるベクトル［ｓａ_ｉ、ｃａ_ｉ、ｓｗ_ｉ、ｃｗ_ｉ］である。復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現時点の出力結果ｙ_ｉであり、ｙ_ｉは、認識対象音声データの認識結果である。

すなわち、入力モデルのデータからキーワードの情報が削減されると、区別点は符号化層の入力組み合わせベクトルからキーワード情報を取り除くことだけであり、符号化層に対するモデルの他の各層の入力は、本来の処理ロジックを参考して処理すればよい。具体的な手順は、前述したものを参照できるので、ここで省略する。

また、本出願は、認識訓練データセット及び誤り訂正訓練データセット生成の実施形態を提供し、具体的には以下の通りである。

音声認識モデル及び音声誤り訂正認識モデルを訓練するための音声データを収集し、このような音声データは、スマート端末のマイクで受信し、スマート端末は、スマートフォン、コンピュータ、翻訳機、ロボット、スマートホーム（家電）などの音声認識機能を備える電子機器である。手動で各音声データを注記し、すなわち、各音声データを手動で対応するテキストデータに変換する。また、各音声データの音響的特徴を抽出し、前記音響的特徴は通常、音声データのスペクトル特徴（ＭＦＣＣ又はＦＢａｎｋなどの特徴）であり、当該音響的特徴の具体的な取得方法は従来の方法であるので、ここで省略する。最終的には、音声データの音響的特徴及び音声データに対応する手動注記テキストを取得する。

上記のステップで得られた音声データの音響的特徴及び音声データに対応する手動注記テキストを２つの部分に分け、本出願では、第１の部分をＡセットで、第２の部分をＢセットで表す。例えば、上記のステップで得られた音声データの音響的特徴及び音声データに対応する手動注記テキストは合計１００万群であり、この１００万群をランダムにＡセット及びＢセットの等量の２つの群に分ける。Ａセット及びＢセットは、複数群の訓練データを含み、各群の訓練データは、１件の音声データに対応する音響的特徴及び当該音声データに対応する手動注記テキストを含む。

Ａセットを認識訓練データセットとし、訓練により音声認識モデルを取得する。

Ｂセットを訓練された音声認識モデルに入力し、Ｂセットに対応する認識結果を取得し、次にＢセットに対応する認識結果をキーワード抽出モデルに入力し、Ｂセットに対応する認識結果におけるキーワードを取得する。Ｂセットに対応する音響的特徴、手動注記テキスト、認識結果及びキーワードからＣセットとなり、Ｃセットには複数の訓練データが含まれ、各群の訓練データは、１件の音声データに対応する音響的特徴、当該音声データに対応する手動注記テキスト、当該音声データに対応する認識結果及び当該認識結果におけるキーワードを含む。

Ｃセットを誤り訂正訓練データセットとし、訓練により音声誤り訂正認識モデルを取得する。

さらに説明すべき点として、Ｂセットを訓練された音声認識モデルに入力し、Ｂセットに対応するＮｂｅｓｔ的認識結果を取得し、次に各認識結果をキーワード抽出モデルに入力し、各認識結果におけるキーワードを取得する。Ｂセットデータにはｎ件の音声データがあり、各音声にはＮｂｅｓｔ認識結果がある場合、最終的にはｎ＊Ｎ件の訓練データを取得することができる。このような処理により、誤り訂正訓練データセットを充実し、音声誤り訂正認識モデルのカバー率を向上させることができる。

上記の認識訓練データセット及び誤り訂正訓練データセットはいずれもキーワードを含み、音声誤り訂正認識モデルの入力データは、キーワード情報を除き、音声データの音響的特徴及び第１回認識結果だけを含む場合、上記の手順におけるキーワードの取得ステップを省略できるので、最終的に得られた認識訓練データセット及び誤り訂正訓練データセットにはキーワードが含まれないと理解されてもよい。

以下、本出願の実施例に係る音声認識誤り訂正装置を説明し、下述した音声認識誤り訂正装置及び上述した音声認識誤り訂正方法は互いに対応して参照することができる。

図５は、本出願の実施例に係る音声認識誤り訂正装置の構造を示す図である。図５に示すように、当該音声認識誤り訂正装置は、
認識対象音声データ及びその第１回認識結果を取得する取得ユニット５１と、
前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する第１の音声認識ユニット５２と、
前記第２回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニット５３とを含んでもよい。

本出願の別の実施例において、別の音声認識誤り訂正装置を開示し、図６に示すように、当該音声認識誤り訂正装置は、
認識対象音声データ及びその第１回認識結果を取得する取得ユニット５１と、
前記第１回認識結果からキーワードを抽出するキーワード抽出ユニット５４と、
前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する第２の音声認識ユニット５５と、
前記第２回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニット５３とを含んでもよい。

オプションとして、前記第２の音声認識ユニットは、
前記音声データの音響的特徴を取得する音響的特徴取得ユニットと、
前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得するモデル処理ユニットとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。
そのうち、前記誤り訂正訓練データセットには、少なくとも１群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、１件の音声データに対応する音響的特徴と、前記１件の音声データに対応するテキストと、前記１件の音声データに対応する第１回認識結果と、前記第１回認識結果におけるキーワードとを含む。

オプションとして、前記モデル処理ユニットは、結合ユニットをさらに含み、前記符号化・アテンション計算ユニットは、第２の符号化・アテンション計算ユニットを含み、前記認識ユニットは、第２の復号化ユニットを含む。
前記結合ユニットは、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを結合し、結合ベクトルを取得するために使用される。
前記第２の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。
前記第２の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得するために使用される。

オプションとして、前記第１の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクト
を符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得する第１の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する第１のアテンション計算ユニットとを含み、そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを含む。

オプションとして、前記第２の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得する第２の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得する第２のアテンション計算ユニットとを含む。

図７は、音声認識誤り訂正システムのハードウェア構造を示すブロック図であり、図７に示すように、音声認識誤り訂正システムのハードウェア構造は、少なくとも１つのプロセッサ１、少なくとも１つの通信ポート２、少なくとも１つのメモリ３及び少なくとも１つの通信バス４を含んでもよい。

本出願の実施例において、プロセッサ１、通信ポート２、メモリ３、通信バス４の数が少なくとも１つであり、且つプロセッサ１、通信ポート２、メモリ３は、通信バス４を介して相互通信を行う。

プロセッサー１は、ＣＰＵ、又は特定のＡＳＩＣ（Application Specific Integrated Circuit）、又は本発明の実施例を実施するための１つ又は複数の集積回路などであって
もよい。

メモリ３は高速ＲＡＭを含むことができ、さらに少なくとも１つの磁気ディスク装置など、不揮発性メモリ（non-volatile memory）などを含むこともできる。

そのうち、メモリにはプログラムが格納され、プロセッサはメモリに格納されているプログラムを呼び出すことができ、前記プログラムは、
認識対象音声データ及びその第１回認識結果を取得することと、
前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することと、
前記第２回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。

あるいは、前記プログラムは、
認識対象音声データ及びその第１回認識結果を取得することと、
前記第１回認識結果からキーワードを抽出することと、
前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することと、
前記第２回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。

オプションとして、前記プログラムの細分化機能及び拡張機能は上述の説明を参照することができる。

本出願の実施例は、記憶媒体をさらに提供する。当該記憶媒体は、プロセッサ実行に適するプログラムを格納することができ、前記プログラムは、
認識対象音声データ及びその第１回認識結果を取得することと、
前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することと、
前記第２回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。

本出願の実施例は、コンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の音声認識誤り訂正方法うちの、いずれかの実現方式を実行させる。

最後に、説明すべき点については、本明細書で、「第１」及び「第２」のような関係用語は１つの実体あるいは操作を、別の実体あるいは操作から区別するために使用され、これらの実体あるいは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「１つの・・・を含む」という文言によって限定される要素は、それ以上の制限がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。

本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点に重点を置いて説明され、各実施例が相互に結合してもよく、同一又は類似している部分は互いに参照すればよい。

開示された実施例の上記の説明から、当業者が本出願を実現または使用することを可能にする。これらの実施例のさまざまな修正は当業者に明らかであり、本明細書で定義され
た一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本出願は本明細書で示されたこれらの実施例に限定されなく、本明細書で公開されている原理や新規特徴と一致する最も広い範囲と一致しなければならない。

Claims

音声認識誤り訂正方法であって、
認識対象音声データ及びその第１回認識結果を取得することと、
前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することと、
前記第２回認識結果に基づいて、最終的な認識結果を決定することと、
を含むことを特徴とする音声認識誤り訂正方法。
音声認識誤り訂正方法であって、
認識対象音声データ及びその第１回認識結果を取得することと、
前記第１回認識結果からキーワードを抽出することと、
前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することと、
前記第２回認識結果に基づいて、最終的な認識結果を決定することと、
を含むことを特徴とする音声認識誤り訂正方法。
前記第１回認識結果からキーワードを抽出することは、前記第１の認識結果から領域特徴を有する語彙をキーワードとして抽出することを含む、
ことを特徴とする請求項２に記載の方法。
前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得することは、
前記音声データの音響的特徴を取得することと、
前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られた音声誤り訂正認識モデルに入力し、第２回認識結果を取得することとを含み、
そのうち、前記誤り訂正訓練データセットには、少なくとも１群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、１件の音声データに対応する音響的特徴と、前記１件の音声データに対応するテキストと、前記１件の音声データに対応する第１回認識結果と、前記第１回認識結果におけるキーワードとを含む、
ことを特徴とする請求項２に記載の方法。
前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第２回認識結果を取得することは、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得することを含む、
ことを特徴とする請求項４に記載の方法。
前記音声誤り訂正認識モデルを用いて、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得することは、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得することとを含む、
ことを特徴とする請求項５に記載の方法。
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第２回認識結果を取得することは、
前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを結合し、結合ベクトルを取得することと、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第２回認識結果を取得することとを含む、
ことを特徴とする請求項５に記載の方法。
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得することとを含み、
そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第１回認識結果及び前記キーワードを含む、
ことを特徴とする請求項６に記載の方法。
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含む、
ことを特徴とする請求項７に記載の方法。
前記第２回認識結果に基づいて、最終的な認識結果を決定することは、前記第１回認識結果の信頼度及び前記第２回認識結果の信頼度を取得することと、前記第１回認識結果及び前記第２回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することとを含む、
ことを特徴とする請求項２に記載の方法。
音声認識誤り訂正装置であって、
認識対象音声データ及びその第１回認識結果を取得する取得ユニットと、
前記第１回認識結果の文脈情報を参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する第１の音声認識ユニットと、
前記第２回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む、
ことを特徴とする音声認識誤り訂正装置。
音声認識誤り訂正装置であって、
認識対象音声データ及びその第１回認識結果を取得する取得ユニットと、
前記第１回認識結果からキーワードを抽出するキーワード抽出ユニットと、
前記第１回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第２回認識を行い、第２回認識結果を取得する第２の音声認識ユニットと、
前記第２回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含むこと、
を特徴とする音声認識誤り訂正装置。
音声認識誤り訂正システムであって、
プログラムを格納するメモリと、前記プログラムを実行し、請求項１～１０のいずれか１項に記載の音声認識誤り訂正方法の各ステップを実現するプロセッサとを含む、
ことを特徴とする音声認識誤り訂正システム。
コンピュータプログラムを格納する読取可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項１～１０のいずれか１項に記載の音声認識誤り訂正方法の各ステップを実現する、
ことを特徴とするコンピュータ読取可能な記憶媒体。
コンピュータプログラム製品であって、
端末装置で実行されると、前記端末装置に請求項１～１０のいずれか１項に記載の方法を実行させる、
ことを特徴とするコンピュータプログラム製品。