JP2022552662A - 音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体 - Google Patents

音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体 Download PDF

Info

Publication number
JP2022552662A
JP2022552662A JP2022522366A JP2022522366A JP2022552662A JP 2022552662 A JP2022552662 A JP 2022552662A JP 2022522366 A JP2022522366 A JP 2022522366A JP 2022522366 A JP2022522366 A JP 2022522366A JP 2022552662 A JP2022552662 A JP 2022552662A
Authority
JP
Japan
Prior art keywords
recognition
recognition result
speech
error correction
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022522366A
Other languages
English (en)
Other versions
JP7514920B2 (ja
Inventor
シュ,リー
パン,ジャ
ワン,チグォ
フー,グォピン
Original Assignee
アイフライテック カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイフライテック カンパニー,リミテッド filed Critical アイフライテック カンパニー,リミテッド
Publication of JP2022552662A publication Critical patent/JP2022552662A/ja
Application granted granted Critical
Publication of JP7514920B2 publication Critical patent/JP7514920B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体であって、認識対象音声データ及びその第1回認識結果を取得すること(S101)と、第1回認識結果の文脈情報を参考し、音声データに対して第2回認識を行い、第2回認識結果を取得すること(S102)と、第2回認識結果に基づいて、最終的な認識結果を決定すること(S103)とを含む。上記の解決案において、第1回認識結果の文脈情報を参考し、音声データに対して第2回認識を行い、認識結果の文脈情報及び音声データの適用場面を十分に考慮し、第1回認識結果に誤りがある場合、第2回認識を用いて誤り訂正を行うので、音声認識の精度を向上させることができる。さらに第1回認識結果からキーワードを抽出でき、これにより、第1回認識結果の文脈情報及びキーワードを参考し、音声データの第2回認識を行うこともでき、第2回認識結果の精度をさらに向上させることができる。

Description

本出願は、2019年11月25日に中国特許局へ提出した出願番号201911167009.0、発明名称「音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体」で
ある中国特許出願の優先権を主張し、その全ての内容はここで参照として本出願に引用される。
ここ数年、人工知能装置はどんどん人々の生活や仕事に導入され、不可欠な部分となり、これらはいずれも人工知能技術の急速な発展のおかげである。音声インタラクションは最も自然なヒューマン・コンピュータ・インタラクション方式として、さまざまな人工知能装置に広く応用され、人間と機械のスムーズなコミュニケーションが可能となる。音声インタラクションの際には、音声認識技術に基づいて、機械が人間の言葉を「分かり」、人間にサービスを提供することができる。
現在、ディープラーニングによる音声認識技術は成熟しつつあり、従来の音声認識モデルは、汎用場面での認識精度が満足な効果を達成したが、一部の特殊な場面(専門領域など)での音声内容には、汎用場面で出現する頻度が低い専門的な語彙が存在するため、従来の音声認識モデルによるこのような語彙のカバー率が低い。ある特殊な場面では、このような語彙を含む認識対象音声を従来の音声認識モデルで認識すると、認識の誤りが発生しやすく、音声認識の精度が低下する。
したがって、音声認識の精度の向上は、当業者が早急に解決すべき技術的課題となっている。
上記の問題に鑑み、本出願は、音声認識誤り訂正方法、関連設備及び読取可能な記憶媒体を提供する。具体的な解決案は以下の通りである。
本出願の第一態様において、音声認識誤り訂正方法を提供し、前記方法は、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとを含む。
本出願の第二態様において、別の音声認識誤り訂正方法を提供し、前記方法は、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果からキーワードを抽出することと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとを含む。
オプションとして、前記第1回認識結果からキーワードを抽出することは、
前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出することを含む。
オプションとして、前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記
音声データに対して第2回認識を行い、第2回認識結果を取得することは、
前記音声データの音響的特徴を取得することと、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得することとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。
そのうち、前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果におけるキーワードとを含む。
オプションとして、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得することは、
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することを含む。
オプションとして、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することは、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む。
オプションとして、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することは、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得することと、
前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む。
オプションとして、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを
取得することとを含み、
そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む。
オプションとして、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含む。
オプションとして、前記第2回認識結果に基づいて、最終的な認識結果を決定することは、
前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得することと、
前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することとを含む。
本出願の第三態様において、音声認識誤り訂正装置を提供し、前記装置は、
認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第1の音声認識ユニットと、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む。
本出願の第四態様において、別の音声認識誤り訂正装置を提供し、前記装置は、
認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
前記第1回認識結果からキーワードを抽出するキーワード抽出ユニットと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第2の音声認識ユニットと、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む。
オプションとして、前記キーワード抽出ユニットは、
前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出する領域語彙抽出ユニットを含む。
オプションとして、前記第2の音声認識ユニットは、
前記音声データの音響的特徴を取得する音響的特徴取得ユニットと、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得するモデル処理ユニットとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。
そのうち、前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前
記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果におけるキーワードとを含む。
オプションとして、モデル処理ユニットは、
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行う符号化・アテンション計算ユニットと、
計算結果に基づいて、第2回認識結果を取得する認識ユニットとを含む。
オプションとして、前記符号化・アテンション計算ユニットは、第1の符号化・アテンション計算ユニットを含み、前記認識ユニットは、第1の復号化ユニットを含む。
前記第1の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。
前記第1の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得するために使用される。
オプションとして、前記モデル処理ユニットは、結合ユニットをさらに含み、前記符号化・アテンション計算ユニットは、第2の符号化・アテンション計算ユニットを含み、前記認識ユニットは、第2の復号化ユニットを含む。
前記結合ユニットは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得するために使用される。
前記第2の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。
前記第2の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得するために使用される。
オプションとして、前記第1の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得する第1の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する第1のアテンション計算ユニットとを含み、そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む。
オプションとして、前記第2の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記
結合ベクトルの音響的高級特徴を取得する第2の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得する第2のアテンション計算ユニットとを含む。
オプションとして、前記認識結果決定ユニットは、
前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得する信頼度取得ユニットと、
前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定する決定ユニットとを含む。
本出願の第五態様において、メモリ及びプロセッサを含む音声認識誤り訂正システムを提供する。
前記メモリは、プログラムを格納するために使用される。
前記プロセッサは、前記プログラムを実行し、上記の音声認識誤り認識方法の各ステップを実現するために使用される。
本出願の第六態様において、コンピュータプログラムを格納する読取可能な記憶媒体を提供し、前記コンピュータプログラムがプロセッサによって実行される時に、上記の音声認識誤り訂正方法の各ステップを実現する。
本出願の第七態様において、コンピュータプログラム製品を提供し、前記コンピュータプログラム製品は、端末装置で実行される時に、前記端末装置に上記の音声認識誤り訂正方法の各ステップを実行させる。
上記の技術案により、本出願は、音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体を開示し、認識対象音声データ及びその第1回認識結果を取得することと、第1回認識結果の文脈情報を参考し、音声データに対して第2回認識を行い、第2回認識結果を取得することと、最後には、第2回認識結果に基づいて、最終的な認識結果を決定することとを含む。上記の解決案において、第1回認識結果の文脈情報を参考し、音声データに対して第2回認識を行う時には、認識結果の文脈情報及び音声データの適用場面を十分に考慮し、第1回認識結果に誤りがある場合、第2回認識を用いて誤り訂正を行うので、音声認識の精度を向上させることができる。
その上で、さらに、第1回認識結果からキーワードを抽出することができ、これに基づいて、第1回認識結果の文脈情報及び前記キーワードを参考し、音声データに対して第2回認識を行うことで、さらに第2回認識結果の精度を向上させることができる。
以下の好ましい実施形態の詳細な説明を読むことにより、当業者にとっては、他のさまざまな利点やメリットが明らかになる。図面は、好ましい実施形態を示すために使用され、本出願を限定したものとみなされない。なお、図面全体において、同一の参照符号で同一の構成要素を示している。
は本出願の実施例に係る音声認識誤り訂正方法のフローチャートである。 は本出願の実施例に係る別の音声認識誤り訂正方法のフローチャートである。 は本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するためのトポロジーを示す図である。 は本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するための別のトポロジーを示す図である。 は本出願の実施例に係る音声認識誤り訂正装置の構造を示す図である。 は本出願の実施例に係る別の音声認識誤り訂正装置の構造を示す図である。 は本出願の実施例に係る音声認識誤り訂正システムのハードウェア構成を示すブロック図である。
以下、本出願の実施形態の図面を併せて、本出願の実施例の技術案を明確かつ詳細に説明する。記載された実施例は本出願の実施例の一部に過ぎず、それらのすべてではないことは明らかである。本出願の実施例に基づいて、当業者は、創造的な作業なしに得られた本発明のすべての他の実施例は本発明の保護範囲内にある。
特殊な場面(専門領域など)における音声認識の精度を向上させるために、本案の発明者は研究を行い、当初の考えは次の通りである。
特殊な場面における領域特徴のある語彙を含むテキストをコーパスとして収集し、従来の音声認識モデルの最適化とカスタマイズを行い、カスタマイズと最適化を行ったモデルを用いて、前記特殊な場面における認識対象音声を認識すると、高い精度を達成できるが、カスタマイズと最適化を行ったモデルを用いて、汎用場面における認識対象音声を認識すると、従来の音声認識モデルに比べて精度が低下する。
汎用場面と特殊な場面における音声認識の精度を両立させるために、認識対象音声を認識する前に、認識対象音声が汎用場面で発生するのか、特殊な場面で発生するのかを、予め判定する必要がある。認識対象音声が汎用場面で発生したものであると判定された場合、従来の音声認識モデルを用いて認識する。認識対象音声が特殊な場面で発生したものであると判定された場合、カスタマイズと最適化を行ったモデルを用いて認識する。そのように、汎用場面における音声認識の精度と特殊な場面における音声認識の精度との両方を保証することができる。しかし、音声認識を実現するシステムでは、認識対象音声が汎用場面で発生するのか、特殊な場面で発生するのかを、認識対象音声を認識する前に予めに判定することができない。
上述の考え方に存在する問題に鑑み、本案の発明者が深く研究したところ、従来の音声認識技術が通常、音声データストリームに基づいてその認識結果を与え、一旦認識結果が与えられた後に修正しないことが分かった。しかし、実際の応用では、音声データストリーム中の第1節を認識する時に、文脈情報が十分でないために第1節を誤認識したが、第1節以降の節を認識する時に、文脈情報が十分であるために、第1節以降の節を正しく認識する場合がある。つまり、同一の単語が第1節に出現した時に誤認識されても、第2節に出現した時に正しく認識される可能性がある。
例えば、認識対象音声の内容は、「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、オートファジーががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した」であるが、「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、このときの反応ががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した
」と認識されている。
上記の例では、オートファジーが初めて現れた場合、前文の内容とあまり関連性がないので、オートファジーはよく見慣れない領域の語彙であり、認識誤りを引き起こしているが、オートファジーが二度目に現れた場合、前文に抑制が含まれ、オートファジーの抑制という組み合わせ言語モデルのスコアが高いため、正しく認識されている。
上述の研究に基づいて、本案の発明者は、認識結果自体に持たれる文脈情報が認識結果の正否に影響を与えることを気づいた、認識対象音声データの第1回認識結果の文脈情報に基づいて、認識対象音声データの第2回認識を行い、第2回認識結果を取得し、第2回認識結果では第1回認識結果における誤って認識された領域語彙を訂正した可能性があるので、音声認識結果の精度を向上させる。
以上に基づいて、本案の発明者は、音声認識誤り訂正方法を提案する。次に、以下の実施例により、本出願に係る音声認識誤り訂正方法を説明する。
図1は、本出願の実施例に係る音声認識誤り訂正方法のフローチャートであり、当該方法は以下のステップを含んでもよい。
S101:認識対象音声データ及びその第1回認識結果を取得する。
本実施例において、認識対象音声データは、ユーザーがメッセージ送信やチャットを行う際に音声入力手段で入力された音声データなど、アプリケーションのニーズに応じてユーザが発声した音声データである。認識対象音声データは、汎用領域の音声データまたは特殊な場面(専門領域など)の音声データであってもよい。
本出願では、さまざまな方法を用いて認識対象音声データの第1回認識結果を取得してもよい。例えば、ニューラルネットワークモデルに基づいて実現することができる。もちろん、認識対象音声データの第1回認識結果を取得する他の方法も、本出願の保護範囲内にある。例えば、認識対象音声データの第1回認識結果を予め記憶しておき、必要に応じて、記憶媒体から直接的に取得すればよい。
S102:前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する。
前述した発明者の研究成果によれば、認識結果自体に持たれる文脈情報は、認識結果の正否に一定の影響を与えるので、本実施例では、第1回認識結果の文脈情報を参考し、音声データの第2回認識を行い、第2回認識結果を取得する。
本実施例では、前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する実施形態は多様であってもよい。例えば、ニューラルネットワークモデルに基づいて実現してもよい。
もちろん、他の実施形態も本出願の保護範囲内にある。例えば、前記第1回認識結果に含まれる領域語彙を決定し、当該領域語彙を第1回認識結果における他の語彙とマッチングさせ、マッチ度が設定されたマッチ度の下限値より高く、且つ完全に同一ではない語彙を選別し、選別された語彙を当該領域語彙で置き換え、第2回認識結果を取得する。
前述した例を説明すると、第1回認識結果の「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、このときの反応ががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した」から、「オートファジー」のような領域語彙を抽出できる。さら
に、第1回認識結果における各語彙を「オートファジー」とマッチングさせ、「このときの反応」とのマッチ度が50%であり、設定されたマッチ度の下限値を30%とすれば、第1回認識結果における「このときの反応」を「オートファジー」で置き換えることで、第2回認識結果の「カリフォルニア州ソーク研究所の科学者たちは、従来の人間の認知とは正反対である、オートファジーががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがあると指摘した」を取得することができる。
S103:前記第2回認識結果に基づいて、最終的な認識結果を決定する。
本出願では、前記第2回認識結果を最終的な認識結果として直接的に決定してもよい。しかし、場合によって、第2回認識結果が必ずしも第1回認識結果より優れるとは限らず、第2回認識結果を最終的な認識結果として直接的に決定すると、認識の精度が低下する可能性がある。しがたって、この場合、第1回認識結果及び第2回認識結果から1つの最適な認識結果を最終的な認識結果として決定してもよい。
第1回認識結果及び第2回認識結果から1つの最適な認識結果を決定する方法は多様であり、1つの実施形態として、前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得し、前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することができる。
もちろん、他の方法も本出願の保護範囲内にあり、例えば、手動検証を用いて、第1回認識結果及び第2回認識結果から1つの最適な認識結果を決定してもよい。
本実施例では、音声認識誤り訂正方法を開示し、認識対象音声データ及びその第1回認識結果を取得し、第1回認識結果の文脈情報を参考し、音声データに対して第2回認識を行い、第2回認識結果を取得し、最後には、第2回認識結果に基づいて、最終的な認識結果を決定する。上記の方法において、第1回認識結果の文脈情報を参考し、音声データに対して第2回認識を行う時には、認識結果の文脈情報の適用シーンを十分に考慮し、第1回認識結果に誤りがある場合、第2回認識を用いて誤り訂正を行うので、音声認識の精度を向上させることができる。
本出願の別の実施例では、別の音声認識誤り訂正方法をさらに提供し、上記の実施例に基づいて、第1回認識結果からキーワードを抽出し、その同時に第1回認識結果の文脈情報及びキーワードを参考し、音声データの第2回認識を行い、第2回認識結果の精度をさらに向上させることができる。具体的な実施手順については、図2を参照してもよい。当該方法は以下のステップを含む。
S201:認識対象音声データ及びその第1回認識結果を取得する。
S201は、上記のS101と同様であり、詳細な実施手順について前述したものを参照できるので、ここで省略する。
S202:前記第1回認識結果におけるキーワードを抽出する。
本実施例では、前記キーワードは第1の認識結果から抽出された領域特徴を有する語彙であってもよい。すなわち、キーワードは、第1回認識結果に現れる領域に関する語彙、通常、領域特徴を有する語彙であってもよい。例えば、医療領域におけるオートファジー、骨格牽引、腎生検などの語彙、計算機領域におけるフィードフォワード・ニューラルネットワーク、プーリング層など。
S203:前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声デー
タに対して第2回認識を行い、第2回認識結果を取得する。
本実施例では、前記第1回認識結果の文脈情報及び前記キーワードを同時に参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する実施形態は多様であってもよい。例えば、ニューラルネットワークモデルに基づいて実現してもよい。
もちろん、他の実施形態も本出願の保護範囲内にある。例えば、前記第1回認識結果のうち、前記キーワードとマッチした語彙を決定し、マッチ度が設定されたマッチ度の下限値よりも高く、且つ完全に同一でない語彙を選別し、選別された語彙を前記キーワードで置き換え、第2回認識結果を取得する。
S204:前記第2回認識結果に基づいて、最終的な認識結果を決定する。
S204は、上記のS103と同様であり、詳細な実施手順について前述したものを参照できるので、ここで省略する。
本実施例で開示された音声認識誤り訂正方法はさらに、第1回認識結果からキーワードを抽出し、当該キーワードは、領域特徴を有する語彙であってもよい。そして、第1回認識結果の文脈情報及び前記キーワードを同時に参考し、音声データの第2回認識を行い、第2回認識結果の精度を向上させる。
本出願では、認識対象音声データの第1回認識結果を取得する方法は、ニューラルネットワークモデルに基づいて実現される場合、前記音声データを、予め訓練された音声認識モデルに入力し、第1回認識結果を取得することができる。予め訓練された音声認識モデルは、具体的には従来の音声認識モデルであってもよい。又は、認識訓練データセットに基づいて、予め設定されたモデルを訓練して生成された音声認識モデルであってもよい。認識訓練データセットには、少なくとも1群の認識訓練データが含まれ、各群の認識訓練データには、1件の音声データに対応するテキスト及び当該音声データの音響的特徴が含まれる。予め設定されたモデルは、任意のニューラルネットワークモデルであってもよい。これに対して、本出願で何も限定されない。
説明すべき点については、予め訓練された音声認識モデルは、認識訓練データセットに基づいて、予め設定されたモデルを訓練して生成された音声認識モデルである場合、認識訓練データセットにおける各認識訓練データは次のように取得できる。1件の音声データを取得し、当該音声データに対して手動で注記を行い、当該音声データに対応するテキストを取得し、当該音声データの音響的特徴を抽出し、1つの認識訓練データを生成する。前記認識訓練データには、音声データに対応するテキスト及び当該音声データの音響的特徴が含まれる。
本出願では、音声データを取得する方法は多様であり、例えば、スマート端末であるマイクロフォンを介して音声データを受信し、前記スマート端末は、スマートフォン、コンピュータ、翻訳機、ロボット、スマートホーム、スマート家電など、音声認識機能を備える電子機器である。又は、予め記憶された音声データを取得してもよい。もちろん、音声データを取得する他の方法は、本出願の保護範囲内にあり、これについては、本出願で何ら限定されない。
本出願では、各音声データの音響的特徴は、MFCC(Mel-Frequency Cepstral Coefficients、メル周波数ケプストラム係数)やFBank特徴など、音声データのスペクト
ル特徴であってもよい。本出願では、主流となる任意の音響的特徴の抽出方法を用いて各音声データの音響的特徴を抽出でき、これについては、本出願で何ら限定されない。
本出願では、音声認識モデルの訓練のために予め設定されたモデルは、従来のアテンション(attention)に基づく第3の符号化モジュールであるデコーダ(Decoder)(アテンションメカニズムに基づく符号化・復号化)モデル構造又は他のモデル構造であってもよく、これについては、本出願で何ら限定されない。
本出願では、認識訓練データに基づいて、予め設定されたモデルを訓練する時には、各認識訓練データにおける音声データの音響的特徴を予め設定されたモデルの入力とし、各認識訓練データにおける音声データに対応するテキストを訓練ターゲットとし、予め設定されたモデルのパラメータを訓練する。
本出願では、NER(Named Entity Recognition、固有表現抽出)技術を用いて、第1回認識結果におけるキーワードを抽出してもよい。もちろん、第1回認識結果におけるキーワードを抽出する他の方法も本出願の保護範囲内にある。例えば、手動方法を用いて第1回認識結果からキーワードを抽出してもよい。
現在、NER(Named Entity Recognition、固有表現抽出)技術は、ニューラルネットワークモデルに基づいて実現できる。この場合、第1回認識結果におけるキーワードを抽出する実施形態としては、具体的には、第1回認識結果を予め訓練されたキーワード抽出モデルに入力し、前記第1回認識結果におけるキーワードを取得することが挙げられる。
説明すべき点としては、キーワード抽出モデルは、抽出訓練データセットに基づいて、予め設定されたモデル構造を訓練して生成されてもよい、そのうち、抽出訓練データセットには、少なくとも1群の抽出訓練データが含まれ、各群の抽出訓練データには、1つのテキストが含まれ、当該テキストに現れている、領域特徴を有する専門語彙が注記される。各テキストは、特殊な場面におけるテキストであってもよい。具体的には、手動の注記方法を用いて各テキストに現れている、領域特徴を有する専門語彙にタグをつけて注記を行ってもよい。
予め設定されたモデルは、ディープラーニングに基づくBiLSTM_CRF(双方向長短記憶モデル_条件付き確率場)モデルなどであってもよい。
例えば、第1回認識結果は、「従来の人間の認知とは正反対である、オートファジーががんの発生を抑制できることを発見したため、オートファジーを抑制する治療法はかえって悪い結果をもたらすおそれがある」であり、第1回認識結果をキーワード抽出モデルに入力した後、キーワード抽出モデルはキーワードであるオートファジー、がん、治療法を出力できる。
また、NER(Named Entity Recognition、固有表現抽出)技術は、統計モデルに基づいて実現されてもよい。この場合、第1回認識結果におけるキーワードを抽出する実施形態としては、具体的には、第1回認識結果を統計モデルに入力し、前記第1回認識結果におけるキーワードを取得することが挙げられる。統計モデルの構築方法は実績ある技術であるので、これについては、本出願で省略する。
本出願では、前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する実施形態は、ニューラルネットワークモデルに基づく場合、前記音声データの音響的特徴、前記第1回認識結果を、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得する。前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られる。前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前記1件の音声データ
に対応するテキストと、前記1件の音声データに対応する第1回認識結果とを含む。
説明すべき点として、音声誤り訂正認識モデルを訓練する時には、前記1件の音声データに対応する音響的特徴及び前記1件の音声データに対応する第1回認識結果は、前記予め設定された音声誤り訂正認識モデル構造の入力であり、前記1件の音声データに対応するテキストは、前記予め設定された音声誤り訂正認識モデル構造の訓練ターゲットである。
そのうち、各群の誤り訂正訓練データは、次のように取得される。1件の音声データを取得する。当該音声データに対して手動で注記を行い、当該音声データに対応するテキストを取得する。当該音声データの音響的特徴を抽出する。当該音声データを予め訓練された音声認識モデルに入力し、当該音声データに対応する第1回認識結果を取得する。
他の実施例では、前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する実施形態は、ニューラルネットワークモデルに基づく場合、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得する。前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られる。前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果のキーワードとを含む。
説明すべき点として、音声誤り訂正認識モデルを訓練する時には、前記1件の音声データに対応する音響的特徴、前記1件の音声データに対応する第1回認識結果及び前記第1回認識結果のキーワードは、前記予め設定された音声誤り訂正認識モデル構造の入力であり、前記1件の音声データに対応するテキストは、前記予め設定された音声誤り訂正認識モデル構造の訓練ターゲットである。
そのうち、各群の誤り訂正訓練データは、次のように取得される。1件の音声データを取得する。当該音声データに対して手動で注記を行い、当該音声データに対応するテキストを取得する。当該音声データの音響的特徴を抽出する。当該音声データを予め訓練された音声認識モデルに入力し、当該音声データに対応する第1回認識結果を取得し、第1回認識結果を予め訓練されたキーワード抽出モデルに入力し、当該第1回認識結果におけるキーワードを取得する。
以上のことから、本出願の実施例は、2つの方法により第2回認識結果を取得することができ、当該2つの実施形態はいずれも、音声誤り訂正認識モデルに基づいて実現され、区別点として、2つの方法でモデルに入力されるデータが異なることであり、そのうち、第1の方法でモデルに入力されるのは音声データの音響的特徴及び第1回認識結果であり、第2の方法でモデルに入力されるのは音声データの音響的特徴、第1回認識結果及び第1回認識結果から抽出されたキーワードである。すなわち、第1の方法に比べ、第2の方法は、モデルに入力されるデータにキーワードの情報を追加している。
そして、第2の方法を例として、音声誤り訂正認識モデルの具体的な処理手順について説明する。
本出願では、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得するための具体的な実施形態としては、前記音声誤り訂正認識モデルを用いて前記音声データの音響的
特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することが挙げられる。
図3は、本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するためのトポロジーを示す図であり、当該モデルは、符号化層と、アテンション層と、復号化層との3層を含む。符号化層の機能は、高級特徴の抽出であり、アテンション層の機能は、当該層の入力と最終的な出力結果との関連性を計算することであり、復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現在時刻の出力結果である。復号化層の具体的な形態は、softmaxを有する単層ニューラルネットワークであってもよく、本出願で何も限定されない。
符号化層はさらに、第1の符号化モジュールと、第2の符号化モジュールと、第3の符号化モジュールとの3つの部分に分かれる。
第1の符号化モジュール、第2の符号化モジュール、第3の符号化モジュールの具体的な構造は、逆ピラミッド構造の双方向RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)又はCNN(Convolutional Neural Networks、畳み込みニューラル
ネットワーク)であってもよく、本出願で何も限定されない。
アテンション層はさらに、第1のアテンションモジュールと、第2のアテンションモジュールと、第3のアテンションモジュールとの3つの部分に分かれる。第1のアテンションモジュール、第2のアテンションモジュール、第3のアテンションモジュールの具体的な構造は、双方向RNN(Recurrent Neural Network、再帰型ニューラルネットワーク)又は単方向RNNであってもよく、本出願で何も限定されない。
復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現時点の出力結果である。Decodeの具体的な形態は、softmaxを有する単層ニューラルネットワークであってもよく、本出願で何も限定されない。
第1の符号化モジュールの入力は、認識対象音声データに対応する音響的特徴Xであり、出力は、音響的高級特徴Haであり、第2の符号化モジュールの入力は、認識対象音声データに対応する第1回認識結果の特性評価Pであり、出力は認識対象音声データの第1回認識結果の特性評価Pの高級特徴Hwであり、第3の符号化モジュールの入力は、認識対象音声データの第1回認識結果におけるキーワードの特性評価Qであり、出力は、認識対象音声データの第1回認識結果におけるキーワードの特性評価Qの高級特徴Hrである。
前の時点の出力結果yi-1は、第1のアテンションモジュール、第2のアテンションモジュール、第3のアテンションモジュールの共通入力であり、それ以外にも、各部分にも異なる入力と出力があり、そのうち、第1のアテンションモジュールの入力はHa、出力は音声に関する隠れ層状態sa及び語義ベクトルcaであり、第2のアテンションモジュールの入力はHw、出力は第1回認識結果に関する隠れ層状態sq及び語義ベクトルcwであり、第3のアテンションモジュールの入力はHr、出力は第1回認識結果におけるキーワードに関する隠れ層状態sr及び語義ベクトルcrである。
復号化層の入力は、アテンション層の出力sa、ca、sw、cw、sr、crであり、復号化層の出力は、現時点の出力結果yであり、yは、認識対象音声データの認識結果である。
一般に、訓練段階では、P(y)は予め設定された閾値よりも大きい場合、訓練が終
了したとみなされ、P(y)は、現時点の出力結果がyiである確率を表し、P(y)=Decode(sa,sw,sr,ca,cw,cr)である。
上記のモデルに基づいて、可能な一実施形態として、本出願では、前記音声誤り訂正認識モデルを用いて、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得するための具体的な実施形態としては、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得し、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することが挙げられる。
そのうち、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得する実施形態は以下の通りであってもよい、前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得し、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することが挙げられる。
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する。
そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む。
具体的なプロセスは以下の通りである。
第1の符号化モジュールを用いて前記音声データの音響的特徴を符号化し、前記音声データの音響的高級特徴を取得し、第1のアテンションモジュールを用いて、前記音声データに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対してアテンション計算を行い、前記音声データに関する隠れ層状態を取得し、第1のアテンションモジュールを用いて前記音声データの音響的高級特徴及び前記音声データに関する隠れ層状態に対してアテンション計算を行い、前記音声データに関する語義ベクトルを取得する。
第2の符号化モジュールを用いて前記第1回認識結果を符号化し、前記第1回認識結果の高級特徴を取得し、第2のアテンションモジュールを用いて前記第1回認識結果に関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対してアテンション計算を行い、前記第1回認識結果に関する隠れ層状態を取得し、第2のアテンションモジュールを用いて前記第1回認識結果の高級特徴及び前記第1回認識結果に関する隠れ層状態に対してアテンション計算を行い、前記第1回認識結果に関する語義ベクトルを取得する。
第3の符号化モジュールを用いて前記キーワードを符号化し、前記キーワードの高級特徴を取得し、第3のアテンションモジュールを用いて前記キーワードに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対してアテ
ンション計算を行い、前記キーワードに関する隠れ層状態を取得し、第3のアテンションモジュールを用いて前記キーワードの高級特徴及び前記キーワードに関する隠れ層状態に対してアテンション計算を行い、前記キーワードに関する語義ベクトルを取得する。
上記の例は、入力データが音声データの音響的特徴、前記第1回認識結果及び前記キーワードである場合の音声誤り訂正認識モデルの選択可能な処理手順であることが理解される。入力データが音声データの音響的特徴及び前記第1回認識結果である場合、図3のキーワードに関わるすべてのモデル構造及び処理の流れを省略し、すなわち、音声誤り訂正認識モデルから第3の符号化モジュール及び第3のアテンションモデルを取り除き、残りのモデル構造をそのままにすればよい。具体的な流れについては、前述したものを参照できるので、ここで省略する。
さらに、第2の形態を例に、図4は、本出願の実施例に係る音声誤り訂正認識モデルの予め設定されたモデルを訓練するための他のトポロジーを示す図であり、当該モデルは、符号化層と、アテンション層と、復号化層との3層を含む。Encode層の機能は、高級特徴の抽出であり、アテンション層の機能は、当該層の入力と最終的な出力結果との関連性を計算することであり、復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現在時刻の出力結果である。Decodeの具体的な形態は、softmaxを有する単層ニューラルネットワークであってもよく、本出願で何も限定されない。
符号化層の入力は、認識対象音声データに対応する音響的特徴X、認識対象音声データに対応する第1回認識結果の特性評価P及び認識対象音声データの第1回認識結果におけ
るキーワードの特性評価Qからなる結合ベクトル[X、P、Q]である。符号化層の出力は、音響的特徴の高級特徴Ha、認識対象音声データの第1回認識結果の特性評価Pの高級特徴Hw及び認識対象音声データの第1回認識結果におけるキーワードの特性評価Qの高級特徴Hrからなる結合ベクトル[Ha、Hw、Hr]である。
符号化層の出力及びモデル前の時点の出力結果yi-1は、アテンション層の入力であり、アテンション層の出力は、音声に関する隠れ層状態sa及び語義ベクトルca、第1回認識結果に関する隠れ層状態sw及び語義ベクトルcw、第1回認識結果におけるキーワードに関する隠れ層状態sr及び語義ベクトルcrからなるベクトル[sa、ca、sq、cw、sr、cr]である。
復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現時点の出力結果yであり、yは、認識対象音声データの認識結果である。
上記のモデルに基づいて、可能な一実施形態として、本出願では、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得するための具体的な実施形態としては、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得し、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得し、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することが挙げられる。
そのうち、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得するための実施形態は、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含んでもよい。
説明すべき点として、従来の音声認識モデル及びアテンション層の主要注目点は、従来の音声認識モデルの出力結果及び音声データの音響的特徴の関連性であり、本出願の音声誤り訂正認識モデルでは、音声データの第1回認識結果及び第1回認識結果におけるキーワードをアテンション層に組み入れることで、音声誤り訂正認識モデルの出力結果が認識結果の誤り訂正情報及び認識結果の文脈情報に注目することができる。これは、出力結果と文脈情報に関連するアテンションメカニズム及び出力結果と誤り訂正に関するアテンションメカニズムを音声誤り訂正認識モデルが学習することが望ましいからである。上記の2つのアテンションメカニズムを通じて現在の音声データから注目される文脈情報及び誤り訂正情報を発見し、すなわち、入力された音声データに基づいて、第1回認識結果及び第1回認識結果におけるキーワード情報に注目するか否かを自動的に選択することができ、音声誤り訂正認識モデルに第1回認識結果及び第1回認識結果におけるキーワードに基づいて誤りを自動的に訂正する能力を持たせることに相当する。
上記の例は、入力データが音声データの音響的特徴、前記第1回認識結果及び前記キーワードである場合の音声誤り訂正認識モデルの別の選択可能な処理手順であることが理解される。入力データは、音声データの音響的特徴及び前記第1回認識結果である場合、図4の符号化層の入力は、認識対象音声データに対応する音響的特徴X、認識対象音声データに対応する第1回認識結果の特性評価Pからなる結合ベクトル[X、P]であり、符号化層の出力は、音響的特徴の高級特徴Ha及び認識対象音声データの第1回認識結果の特性評価Pの高級特徴Hwからなる結合ベクトル[Ha、Hw]である。さらに、アテンション層の出力結果は、音声に関する隠れ層状態sa及び語義ベクトルca、第1回認識結果に関する隠れ層状態sw及び語義ベクトルcwからなるベクトル[sa、ca、sw、cw]である。復号化層の入力は、アテンション層の出力であり、復号化層の出力は、現時点の出力結果yであり、yは、認識対象音声データの認識結果である。
すなわち、入力モデルのデータからキーワードの情報が削減されると、区別点は符号化層の入力組み合わせベクトルからキーワード情報を取り除くことだけであり、符号化層に対するモデルの他の各層の入力は、本来の処理ロジックを参考して処理すればよい。具体的な手順は、前述したものを参照できるので、ここで省略する。
また、本出願は、認識訓練データセット及び誤り訂正訓練データセット生成の実施形態を提供し、具体的には以下の通りである。
音声認識モデル及び音声誤り訂正認識モデルを訓練するための音声データを収集し、このような音声データは、スマート端末のマイクで受信し、スマート端末は、スマートフォン、コンピュータ、翻訳機、ロボット、スマートホーム(家電)などの音声認識機能を備える電子機器である。手動で各音声データを注記し、すなわち、各音声データを手動で対応するテキストデータに変換する。また、各音声データの音響的特徴を抽出し、前記音響的特徴は通常、音声データのスペクトル特徴(MFCC又はFBankなどの特徴)であり、当該音響的特徴の具体的な取得方法は従来の方法であるので、ここで省略する。最終的には、音声データの音響的特徴及び音声データに対応する手動注記テキストを取得する。
上記のステップで得られた音声データの音響的特徴及び音声データに対応する手動注記テキストを2つの部分に分け、本出願では、第1の部分をAセットで、第2の部分をBセットで表す。例えば、上記のステップで得られた音声データの音響的特徴及び音声データに対応する手動注記テキストは合計100万群であり、この100万群をランダムにAセット及びBセットの等量の2つの群に分ける。Aセット及びBセットは、複数群の訓練データを含み、各群の訓練データは、1件の音声データに対応する音響的特徴及び当該音声データに対応する手動注記テキストを含む。
Aセットを認識訓練データセットとし、訓練により音声認識モデルを取得する。
Bセットを訓練された音声認識モデルに入力し、Bセットに対応する認識結果を取得し、次にBセットに対応する認識結果をキーワード抽出モデルに入力し、Bセットに対応する認識結果におけるキーワードを取得する。Bセットに対応する音響的特徴、手動注記テキスト、認識結果及びキーワードからCセットとなり、Cセットには複数の訓練データが含まれ、各群の訓練データは、1件の音声データに対応する音響的特徴、当該音声データに対応する手動注記テキスト、当該音声データに対応する認識結果及び当該認識結果におけるキーワードを含む。
Cセットを誤り訂正訓練データセットとし、訓練により音声誤り訂正認識モデルを取得する。
さらに説明すべき点として、Bセットを訓練された音声認識モデルに入力し、Bセットに対応するNbest的認識結果を取得し、次に各認識結果をキーワード抽出モデルに入力し、各認識結果におけるキーワードを取得する。Bセットデータにはn件の音声データがあり、各音声にはNbest認識結果がある場合、最終的にはn*N件の訓練データを取得することができる。このような処理により、誤り訂正訓練データセットを充実し、音声誤り訂正認識モデルのカバー率を向上させることができる。
上記の認識訓練データセット及び誤り訂正訓練データセットはいずれもキーワードを含み、音声誤り訂正認識モデルの入力データは、キーワード情報を除き、音声データの音響的特徴及び第1回認識結果だけを含む場合、上記の手順におけるキーワードの取得ステップを省略できるので、最終的に得られた認識訓練データセット及び誤り訂正訓練データセットにはキーワードが含まれないと理解されてもよい。
以下、本出願の実施例に係る音声認識誤り訂正装置を説明し、下述した音声認識誤り訂正装置及び上述した音声認識誤り訂正方法は互いに対応して参照することができる。
図5は、本出願の実施例に係る音声認識誤り訂正装置の構造を示す図である。図5に示すように、当該音声認識誤り訂正装置は、
認識対象音声データ及びその第1回認識結果を取得する取得ユニット51と、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第1の音声認識ユニット52と、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニット53とを含んでもよい。
本出願の別の実施例において、別の音声認識誤り訂正装置を開示し、図6に示すように、当該音声認識誤り訂正装置は、
認識対象音声データ及びその第1回認識結果を取得する取得ユニット51と、
前記第1回認識結果からキーワードを抽出するキーワード抽出ユニット54と、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第2の音声認識ユニット55と、
前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニット53とを含んでもよい。
オプションとして、前記キーワード抽出ユニットは、
前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出する領域語彙抽出ユニットを含む。
オプションとして、前記第2の音声認識ユニットは、
前記音声データの音響的特徴を取得する音響的特徴取得ユニットと、
前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得するモデル処理ユニットとを含み、前記音声誤り訂正認識モデルは、誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られたものである。
そのうち、前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果におけるキーワードとを含む。
オプションとして、モデル処理ユニットは、
前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行う符号化・アテンション計算ユニットと、
計算結果に基づいて、第2回認識結果を取得する認識ユニットとを含む。
オプションとして、前記符号化・アテンション計算ユニットは、第1の符号化・アテンション計算ユニットを含み、前記認識ユニットは、第1の復号化ユニットを含む。
前記第1の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。
前記第1の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得するために使用される。
オプションとして、前記モデル処理ユニットは、結合ユニットをさらに含み、前記符号化・アテンション計算ユニットは、第2の符号化・アテンション計算ユニットを含み、前記認識ユニットは、第2の復号化ユニットを含む。
前記結合ユニットは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得するために使用される。
前記第2の符号化・アテンション計算ユニットは、前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得するために使用される。
前記第2の復号化ユニットは、前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得するために使用される。
オプションとして、前記第1の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクト
を符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得する第1の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得する第1のアテンション計算ユニットとを含み、そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む。
オプションとして、前記第2の符号化・アテンション計算ユニットは、
前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得する第2の符号化ユニットと、
前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得し、及び、前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得する第2のアテンション計算ユニットとを含む。
オプションとして、前記認識結果決定ユニットは、
前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得する信頼度取得ユニットと、
前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定する決定ユニットとを含む。
図7は、音声認識誤り訂正システムのハードウェア構造を示すブロック図であり、図7に示すように、音声認識誤り訂正システムのハードウェア構造は、少なくとも1つのプロセッサ1、少なくとも1つの通信ポート2、少なくとも1つのメモリ3及び少なくとも1つの通信バス4を含んでもよい。
本出願の実施例において、プロセッサ1、通信ポート2、メモリ3、通信バス4の数が少なくとも1つであり、且つプロセッサ1、通信ポート2、メモリ3は、通信バス4を介して相互通信を行う。
プロセッサー1は、CPU、又は特定のASIC(Application Specific Integrated Circuit)、又は本発明の実施例を実施するための1つ又は複数の集積回路などであって
もよい。
メモリ3は高速RAMを含むことができ、さらに少なくとも1つの磁気ディスク装置など、不揮発性メモリ(non-volatile memory)などを含むこともできる。
そのうち、メモリにはプログラムが格納され、プロセッサはメモリに格納されているプログラムを呼び出すことができ、前記プログラムは、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
あるいは、前記プログラムは、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果からキーワードを抽出することと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
オプションとして、前記プログラムの細分化機能及び拡張機能は上述の説明を参照することができる。
本出願の実施例は、記憶媒体をさらに提供する。当該記憶媒体は、プロセッサ実行に適するプログラムを格納することができ、前記プログラムは、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
あるいは、前記プログラムは、
認識対象音声データ及びその第1回認識結果を取得することと、
前記第1回認識結果からキーワードを抽出することと、
前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
前記第2回認識結果に基づいて、最終的な認識結果を決定することとに用いられる。
オプションとして、前記プログラムの細分化機能及び拡張機能は上述の説明を参照することができる。
本出願の実施例は、コンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品は端末装置で実行される時に、前記端末装置に上記の音声認識誤り訂正方法うちの、いずれかの実現方式を実行させる。
最後に、説明すべき点については、本明細書で、「第1」及び「第2」のような関係用語は1つの実体あるいは操作を、別の実体あるいは操作から区別するために使用され、これらの実体あるいは操作の間に何らかの実際の関係又は順序が存在することを必ずしも要求又は示唆するものではない。さらに、用語「含む」、「含み」又はそれらのあらゆる変形は、要素のリストを含む過程、方法、物品及び装置がそれらの要素に限らないが、そのような過程、方法、物品及び装置に明確に記載されていない他の要素、又はそのような過程、方法、物品及び装置に固有の他の要素を含み得るように、非排他的な包含をカバーすることを意図している。「1つの・・・を含む」という文言によって限定される要素は、それ以上の制限がない限り、前記要素を含む過程、方法、物品又は装置に同様の要素が他にも存在することは排除されない。
本明細書中の各実施例は、漸進的に説明されており、各実施例は、他の実施例との相違点に重点を置いて説明され、各実施例が相互に結合してもよく、同一又は類似している部分は互いに参照すればよい。
開示された実施例の上記の説明から、当業者が本出願を実現または使用することを可能にする。これらの実施例のさまざまな修正は当業者に明らかであり、本明細書で定義され
た一般的な原理は、本出願の精神又は範囲から逸脱することなく、他の実施例で実現されてもよい。したがって、本出願は本明細書で示されたこれらの実施例に限定されなく、本明細書で公開されている原理や新規特徴と一致する最も広い範囲と一致しなければならない。

Claims (15)

  1. 音声認識誤り訂正方法であって、
    認識対象音声データ及びその第1回認識結果を取得することと、
    前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
    前記第2回認識結果に基づいて、最終的な認識結果を決定することと、
    を含むことを特徴とする音声認識誤り訂正方法。
  2. 音声認識誤り訂正方法であって、
    認識対象音声データ及びその第1回認識結果を取得することと、
    前記第1回認識結果からキーワードを抽出することと、
    前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することと、
    前記第2回認識結果に基づいて、最終的な認識結果を決定することと、
    を含むことを特徴とする音声認識誤り訂正方法。
  3. 前記第1回認識結果からキーワードを抽出することは、前記第1の認識結果から領域特徴を有する語彙をキーワードとして抽出することを含む、
    ことを特徴とする請求項2に記載の方法。
  4. 前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得することは、
    前記音声データの音響的特徴を取得することと、
    前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め誤り訂正訓練データセットを用いて予め設定されたモデルを訓練して得られた音声誤り訂正認識モデルに入力し、第2回認識結果を取得することとを含み、
    そのうち、前記誤り訂正訓練データセットには、少なくとも1群の誤り訂正訓練データが含まれ、各群の誤り訂正訓練データは、1件の音声データに対応する音響的特徴と、前記1件の音声データに対応するテキストと、前記1件の音声データに対応する第1回認識結果と、前記第1回認識結果におけるキーワードとを含む、
    ことを特徴とする請求項2に記載の方法。
  5. 前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを、予め訓練された音声誤り訂正認識モデルに入力し、第2回認識結果を取得することは、前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することを含む、
    ことを特徴とする請求項4に記載の方法。
  6. 前記音声誤り訂正認識モデルを用いて、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することは、
    前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
    前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む、
    ことを特徴とする請求項5に記載の方法。
  7. 前記音声誤り訂正認識モデルを用いて前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、計算結果に基づいて、第2回認識結果を取得することは、
    前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを結合し、結合ベクトルを取得することと、
    前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することと、
    前記音声誤り訂正認識モデルの復号化層を用いて、前記計算結果を復号化し、第2回認識結果を取得することとを含む、
    ことを特徴とする請求項5に記載の方法。
  8. 前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、それぞれ前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
    前記音声誤り訂正認識モデルの符号化層を用いて、それぞれ各ターゲットオブジェクトを符号化し、前記各ターゲットオブジェクトの音響的高級特徴を取得することと、
    前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデルにおける前の時点の出力結果に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する隠れ層状態を取得することと、
    前記音声誤り訂正認識モデルのアテンション層を用いて、それぞれ前記各ターゲットオブジェクトの音響的高級特徴及び前記各ターゲットオブジェクトに関する隠れ層状態に対して、アテンション計算を行い、前記各ターゲットオブジェクトに関する語義ベクトルを取得することとを含み、
    そのうち、前記ターゲットオブジェクトは、前記音声データの音響的特徴、前記第1回認識結果及び前記キーワードを含む、
    ことを特徴とする請求項6に記載の方法。
  9. 前記音声誤り訂正認識モデルの符号化層及びアテンション層を用いて、前記結合ベクトルに対して符号化及びアテンション計算を行い、前記計算結果を取得することは、
    前記音声誤り訂正認識モデルの符号化層を用いて、前記結合ベクトルを符号化し、前記結合ベクトルの音響的高級特徴を取得することと、
    前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルに関する前の時点の語義ベクトル及び前記音声誤り訂正認識モデル前の時点の出力結果に対して、アテンション計算を行い、前記結合ベクトルに関する隠れ層状態を取得することと、
    前記音声誤り訂正認識モデルのアテンション層を用いて、前記結合ベクトルの音響的高級特徴及び前記結合ベクトルに関する隠れ層状態に対して、アテンション計算を行い、前記結合ベクトルに関する語義ベクトルを取得することとを含む、
    ことを特徴とする請求項7に記載の方法。
  10. 前記第2回認識結果に基づいて、最終的な認識結果を決定することは、前記第1回認識結果の信頼度及び前記第2回認識結果の信頼度を取得することと、前記第1回認識結果及び前記第2回認識結果から、信頼度の高い認識結果を最終的な認識結果として決定することとを含む、
    ことを特徴とする請求項2に記載の方法。
  11. 音声認識誤り訂正装置であって、
    認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
    前記第1回認識結果の文脈情報を参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第1の音声認識ユニットと、
    前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含む、
    ことを特徴とする音声認識誤り訂正装置。
  12. 音声認識誤り訂正装置であって、
    認識対象音声データ及びその第1回認識結果を取得する取得ユニットと、
    前記第1回認識結果からキーワードを抽出するキーワード抽出ユニットと、
    前記第1回認識結果の文脈情報及び前記キーワードを参考し、前記音声データに対して第2回認識を行い、第2回認識結果を取得する第2の音声認識ユニットと、
    前記第2回認識結果に基づいて、最終的な認識結果を決定する認識結果決定ユニットとを含むこと、
    を特徴とする音声認識誤り訂正装置。
  13. 音声認識誤り訂正システムであって、
    プログラムを格納するメモリと、前記プログラムを実行し、請求項1~10のいずれか1項に記載の音声認識誤り訂正方法の各ステップを実現するプロセッサとを含む、
    ことを特徴とする音声認識誤り訂正システム。
  14. コンピュータプログラムを格納する読取可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行されると、請求項1~10のいずれか1項に記載の音声認識誤り訂正方法の各ステップを実現する、
    ことを特徴とするコンピュータ読取可能な記憶媒体。
  15. コンピュータプログラム製品であって、
    端末装置で実行されると、前記端末装置に請求項1~10のいずれか1項に記載の方法を実行させる、
    ことを特徴とするコンピュータプログラム製品。
JP2022522366A 2019-11-25 2020-11-17 音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体 Active JP7514920B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911167009.0 2019-11-25
CN201911167009.0A CN110956959B (zh) 2019-11-25 2019-11-25 语音识别纠错方法、相关设备及可读存储介质
PCT/CN2020/129314 WO2021104102A1 (zh) 2019-11-25 2020-11-17 语音识别纠错方法、相关设备及可读存储介质

Publications (2)

Publication Number Publication Date
JP2022552662A true JP2022552662A (ja) 2022-12-19
JP7514920B2 JP7514920B2 (ja) 2024-07-11

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428447A (zh) * 2018-06-19 2018-08-21 科大讯飞股份有限公司 一种语音意图识别方法及装置
KR20200064181A (ko) * 2018-11-16 2020-06-08 엘지전자 주식회사 디스플레이 장치를 갖는 인공지능 냉장고

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108428447A (zh) * 2018-06-19 2018-08-21 科大讯飞股份有限公司 一种语音意图识别方法及装置
KR20200064181A (ko) * 2018-11-16 2020-06-08 엘지전자 주식회사 디스플레이 장치를 갖는 인공지능 냉장고

Also Published As

Publication number Publication date
EP4068280A1 (en) 2022-10-05
KR102648306B1 (ko) 2024-03-15
CN110956959B (zh) 2023-07-25
CN110956959A (zh) 2020-04-03
WO2021104102A1 (zh) 2021-06-03
US20220383853A1 (en) 2022-12-01
KR20220035222A (ko) 2022-03-21
EP4068280A4 (en) 2023-11-01

Similar Documents

Publication Publication Date Title
WO2021104102A1 (zh) 语音识别纠错方法、相关设备及可读存储介质
CN107767863B (zh) 语音唤醒方法、系统及智能终端
CN108711421B (zh) 一种语音识别声学模型建立方法及装置和电子设备
JP7407968B2 (ja) 音声認識方法、装置、設備及び記憶媒体
JP7278477B2 (ja) 復号化ネットワーク構築方法、音声認識方法、装置、設備及び記憶媒体
CN112927682B (zh) 一种基于深度神经网络声学模型的语音识别方法及系统
JP6677419B2 (ja) 音声対話方法及び装置
CN107644638A (zh) 语音识别方法、装置、终端和计算机可读存储介质
US10152298B1 (en) Confidence estimation based on frequency
WO2022141706A1 (zh) 语音识别方法、装置及存储介质
CN111539199B (zh) 文本的纠错方法、装置、终端、及存储介质
WO2021040842A1 (en) Optimizing a keyword spotting system
Chi et al. Speaker role contextual modeling for language understanding and dialogue policy learning
WO2021135457A1 (zh) 基于循环神经网络的情绪识别方法、装置及存储介质
CN116884391B (zh) 基于扩散模型的多模态融合音频生成方法及装置
CN110570855A (zh) 通过对话机制控制智能家居设备的系统、方法及装置
WO2012004955A1 (ja) テキスト補正方法及び認識方法
CN112802461A (zh) 语音识别方法和装置、服务器、计算机可读存储介质
JP7278309B2 (ja) 文章レベルテキストの翻訳方法及び装置
CN113221681B (zh) 模型训练方法、动作姿态生成方法、装置、设备及介质
Chen et al. Active learning for domain classification in a commercial spoken personal assistant
JP7514920B2 (ja) 音声認識誤り訂正方法、関連装置及び読取可能な記憶媒体
CN112466282B (zh) 一种面向航天专业领域的语音识别系统和方法
CN112509559B (zh) 音频识别方法、模型训练方法、装置、设备及存储介质
CN110428814B (zh) 一种语音识别的方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230905

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240405

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20240408

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240425

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240604