JP2016110087A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
JP2016110087A
JP2016110087A JP2015210588A JP2015210588A JP2016110087A JP 2016110087 A JP2016110087 A JP 2016110087A JP 2015210588 A JP2015210588 A JP 2015210588A JP 2015210588 A JP2015210588 A JP 2015210588A JP 2016110087 A JP2016110087 A JP 2016110087A
Authority
JP
Japan
Prior art keywords
word
sentence
speech recognition
language model
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015210588A
Other languages
English (en)
Other versions
JP6762701B2 (ja
Inventor
喜 烈 崔
Hee Youl Choi
喜 烈 崔
鎬 式 李
Ho-Shik Lee
鎬 式 李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2016110087A publication Critical patent/JP2016110087A/ja
Application granted granted Critical
Publication of JP6762701B2 publication Critical patent/JP6762701B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

【課題】文章内の前後文脈に基づいた言語モデルに基づいて音声認識された文章の正確度を向上させる音声認識方法及び音声認識装置を提供する。【解決手段】第2認識部120において、音声認識によって生成した文章を受信する。文章内の他の単語との関係に基づいて、文章に含まれた単語それぞれの適合度を算出する算出部121と、単語それぞれの適合度に基づいて、単語のうち修正が求められる対象単語を検出する検出部122と、対象単語に応する候補単語のいずれか1つにより対象単語を代替する代替部123と、を含む。【選択図】図8

Description

以下の実施形態は、音声認識方法及び音声認識装置等に関する。
一般に、音声認識システムに適用されている現在の音声認識方式は技術的に完璧ではなく、ノイズなどの様々な要因によって必然的な認識エラーを有する。従来における音声認識装置は、このような音声認識エラーに対して正解候補を提示することができず、あるいは正解候補を提示するとしても当該の音声認識装置の復号化過程で正解である可能性の高い候補を提示するにすぎず、音声認識正確度は低い。
実施形態は、文章内の前後文脈に基づいた言語モデルに基づいて音声認識された文章の正確度を向上させる技術を提供する。
一側面に係る音声認識方法は、音声認識によって生成した文章を受信するステップと、前記文章内の他の単語との関係に基づいて、前記文章に含まれた単語それぞれの適合度を算出するステップと、前記単語それぞれの適合度に基づいて、前記単語のうち修正が求められる対象単語を検出するステップと、前記対象単語に対応する候補単語のいずれか1つにより前記対象単語を代替するステップとを含む。
前記適合度を算出するステップは、双方向回帰神経網言語モデルを用いて前記単語それぞれの適合度を算出するステップを含んでもよい。
前記対象単語を検出するステップは、予め決定した閾値未満の適合度を有する単語を検出するステップと、適合度が小さい順に予め決定した数の単語を検出するステップと、のうち少なくとも1つを含んでもよい。
前記対象単語を代替するステップは、前記文章で前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも1つに基づいて前記候補単語を決定するステップを含むんでもよい。
前記候補単語を決定するステップは、予め備えられた単語辞書から前記候補単語を取得するステップを含んでもよい。
前記対象単語を代替するステップは、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第1モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第2モデルのうち少なくとも1つに基づいて当該候補単語の適合度を算出するステップを含んでもよい。
前記対象単語を代替するステップは、前記第1モデルのための第1重み及び前記第2モデルのための第2重みを設定するステップをさらに含んでもよい。
前記第1重み及び前記第2重みを設定するステップは、前記文章に関する第1モデル基盤確率分布に基づいて、前記第1重み及び前記第2重みを動的に制御するステップを含んでもよい。
前記音声認識方法は、ユーザの音声を受信するステップと、前記音声から特徴を抽出するステップと、音声モデルを用いて前記特徴から音素シーケンスを認識するステップと、言語モデルを用いて前記音素シーケンスから単語を認識することによって前記文章を生成するステップとをさらに含んでもよい。
前記言語モデルはバイグラム(Bi−Gram)言語モデルを含んでもよい。
他の一実施形態に係る音声認識装置は、ユーザの音声を認識することによって文章を生成する第1認識部と、前記文章内の前後文脈に基づいた言語モデルに基づいて、前記文章内の少なくとも1つの単語を修正する第2認識部とを含む。
前記第1認識部は、前記音声を受信する受信部と、前記音声から特徴を抽出する抽出部と、前記特徴から音素シーケンスをデコーディングするデコーディング部と、前記音素シーケンスから単語を認識することによって前記文章を生成する生成部とを含んでもよい。
前記言語モデルは双方向回帰神経網言語モデルを含んでもよい。
前記第2認識部は、前記文章内の他の単語との関係に基づいて前記文章に含まれた単語それぞれの適合度を算出する算出部と、前記単語それぞれの適合度に基づいて前記単語のうち修正が求められる対象単語を検出する検出部と、前記対象単語に対応する候補単語のいずれか1つにより前記対象単語を代替する代替部とを含んでもよい。
前記検出部は、予め決定した閾値未満の適合度を有する単語を検出し、適合度が小さい順に予め決定した数の単語を検出してもよい。
前記代替部は、前記文章内前記対象単語の位置、前記文章から前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも1つに基づいて前記候補単語を決定してもよい。
前記代替部は、予め備えられた単語辞書から前記候補単語を取得してもよい。
前記代替部は、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第1モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第2モデルのうち少なくとも1つに基づいて当該候補単語の適合度を算出してもよい。
前記代替部は、前記文章に関する第1モデル基盤確率分布に基づいて前記第1モデルのための第1重み及び前記第2モデルのための第2重みを動的に制御してもよい。
一実施形態に係る音声認識装置は、第1言語モデルを用いてユーザによって表現された音声から文章を認識する第1認識装置と、前記第1言語モデルよりも高い複雑度を有する第2言語モデルを用いて前記文章の正確度を向上させる第2認識装置とを含む。
前記第1認識装置は、音声モデルを用いて前記音声から音素を認識し、前記第1言語モデルを用いて前記音素から前記文章を認識してもよい。
前記第2認識装置は、前記第2言語モデルを用いて前記文章内の単語のうち最も不正確なものとして予測される単語を識別し、前記第2言語モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替してもよい。
前記第2認識装置は、前記第2言語モデルと音声モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替してもよい。
前記第1認識装置は、前記言語モデルを用いて前記音声から音素を認識し、前記第1言語モデルを用いて前記音素から前記文章を認識してもよい。
前記第2認識装置は、前記識別された単語に基づいて候補単語を取得し、前記候補単語から前記文章の正確度を向上させる単語を選択してもよい。
前記第2認識装置は、前記第2言語モデル及び音声モデルのうち少なくとも1つ、前記識別された単語及び前記文章内の他の単語に基づいて予め備えられた辞書から前記候補単語を取得してもよい。
本発明によると、文章内の前後文脈に基づいた言語モデルに基づいて、音声認識された文章の正確度を向上させる技術を提供することができる。
一実施形態に係る音声認識装置を示すブロック図である。 一実施形態に係る双方向回帰神経網言語モデルを説明する図である。 一実施形態に係る双方向回帰神経網言語モデルを説明する図である。 一実施形態に係る双方向回帰神経網言語モデルを説明する図である。 一実施形態に係る双方向回帰神経網言語モデルを説明する図である。 一実施形態に係る双方向回帰神経網言語モデルを説明する図である。 一実施形態に係る音声認識装置の動作を説明する図である。 一実施形態に係る第2認識部を示すブロック図である。 実施形態に係る第2認識部の動作を説明する図である。 実施形態に係る第2認識部の動作を説明する図である。 実施形態に係る第2認識部の動作を説明する図である。 実施形態に係る第2認識部の動作を説明する図である。 実施形態に係る第2認識部の動作を説明する図である。 実施形態に係る第2認識部の動作を説明する図である。 一実施形態に係る第1認識部を示すブロック図である。 他の実施形態に係る音声認識装置を示すブロック図である。 実施形態に係る音声認識方法を示した動作フローチャートである。 実施形態に係る音声認識方法を示した動作フローチャートである。 実施形態に係る音声認識方法を示した動作フローチャートである。
以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。下記で説明する実施形態は音声認識方式に適用することができ、音声認識方式が活用される移動端末、スマート家電製品、医療装置、車制御装置、及びその他のコンピュータ装置で利用され得る。
図1は、一実施形態に係る音声認識装置を示すブロック図である。図1を参照すると、一実施形態に係る音声認識装置100は、第1認識部110と第2認識部120を含む。第1認識部110は、ユーザの音声を一次的に認識することで臨時認識結果を生成し得る。第1認識部110は、臨時認識結果に該当する文章を生成することができる。
第1認識部110は臨時認識結果に該当する文章を生成するため、第1言語モデルに基づいてユーザの音声を認識する。第1言語モデルは、第2認識部120によって用いられる第2言語モデルに比べて単純な言語モデルであり、例えば、N−グラム(N−Gram)言語モデルなどを含む。第2言語モデルは、第1言語モデルに比べて複雑なモデルである。この場合、第2言語モデルは第1言語モデルよりも高い複雑度を有する。
第1認識部110は、様々な方式でユーザの音声を受信できる。例えば、第1認識部110は、マイクロホンを用いて入力されるユーザの音声を受信したり、予め備えられた格納装置に格納されたユーザの音声を受信したり、ネットワークを介して遠隔に位置するユーザの音声を受信し得る。第1認識部110の動作に関する詳細な事項は後述する。
第2認識部120は、臨時認識結果に基づいて最終認識結果を生成する。以下、最終認識結果は音声認識結果と称されてもよい。第2認識部120は、第2言語モデルに基づいて臨時認識結果に該当する文章内の少なくとも1つの単語を修正することによって音声認識結果を出力することができる。音声認識結果は、少なくとも1つの単語が修正された文章である。第2認識部120は、第1認識部110によって認識された臨時結果に対応する文章の正確度を向上させることができる。
第2言語モデルは文章内の前後文脈に基づいた言語モデルであって、例えば、双方向回帰神経網言語モデルを含む。第2認識部120の動作を具体的に説明する以前に、図2〜図6を参照して双方向回帰神経網言語モデルを簡略に説明することにする。
図2を参照すると、神経網200は、連結線に連結された複数の人工ニューロンを用いて生物学的なシステムの算出能力を模倣する認識モデルである。神経網200は、生物学的なニューロンの機能を単純化した人工ニューロンを用いる。人工ニューロンはノードと称されてもよい。人工ニューロンは、結合重み(connection weight)を有する連結線を介して相互連結されている。神経網200は、人工ニューロンを介して人の認知作用や学習過程を行うことができる。
神経網200は複数のレイヤを含む。例えば、神経網200は、入力レイヤ210、隠れレイヤ220、出力レイヤ230を含む。入力レイヤ210は、学習を行うための入力を受信して隠れレイヤ220に伝達し、出力レイヤ230は、隠れレイヤ220から受信した信号に基づいて神経網200の出力を生成する。隠れレイヤ220は、入力レイヤ210と出力レイヤ230との間に位置し、入力レイヤ210によって伝えられた学習データを予測しやすい値に変化させることができる。
入力レイヤ210に含まれた入力ノードと隠れレイヤ220に含まれた隠れノードは、結合重みを有する連結線を用いて連結され得る。隠れレイヤ220に含まれた隠れノードと出力レイヤ230に含まれた出力ノードは、結合重みを有する連結線を介して連結され得る。
神経網200の学習過程で、人工ニューロン間の結合重みは、エラー逆伝搬学習(back−propagation learning)によりアップデートされることができる。エラー逆伝搬学習は、与えられた学習データに対してフォワード算出によってエラーを推定した後、出力レイヤ230から開始して隠れレイヤ220及び入力レイヤ210に向かう逆方向に推定したエラーを伝搬しながら、エラーを減らすように結合重みをアップデートする方法である。
図3を参照すると、回帰神経網300は、互いに異なる時間区間で隠れノードの間に再帰的な連結がある神経網である。一般的な神経網とは異なって、回帰神経網は、任意のインプットシーケンスを処理する内部メモリを用いることができる。以前の時間区間310における隠れノードの出力は、現在の時間区間320における隠れノードに連結されている。現在の時間区間320における隠れノードの出力は、次の時間区間330における隠れノードに連結されている。
一例として、以前の時間区間310における第1隠れノード311、現在の時間区間320における第2隠れノード321、及び次の時間区間330における第3隠れノード331は、互いに図4に示すように連結されてもよい。図4を参照すると、第1隠れノード311の出力は第2隠れノード321に入力され、第2隠れノード321の出力は第3隠れノード331に入力されてもよい。
図5を参照すると、双方向回帰神経網500は、互いに異なる時間区間で隠れノードの間に双方向に再帰的な連結のある神経網である。双方向回帰神経網も回帰神経網のように任意のインプットシーケンスを処理する内部メモリを用いることができる。以前の時間区間510における隠れノードの出力は、現在の時間区間520における隠れノードに連結され、現在の時間区間520における隠れノードの出力は、次の時間区間530における隠れノードに連結されている。また、次の時間区間530における隠れノードの出力は、現在の時間区間520における隠れノードに連結され、現在の時間区間520における隠れノードの出力は、以前の時間区間510における隠れノードに連結されている。
一例として、以前の時間区間510における第1−1隠れノード511、第1−2隠れノード512、現在の時間区間520における第2−1隠れノード521、第2−2隠れノード522、次の時間区間530における第3−1隠れノード531、及び第3−2隠れノード532は互いに図6に示すように連結されている。図4を参照すると、第3−1隠れノード531の出力は第2−1隠れノード521に入力され、第2−1隠れノード521の出力は第1−1隠れノード511から入力される。また、第1−2隠れノード512の出力は第2−2隠れノード522に入力され、第2−2隠れノード522の出力は第3−2隠れノード532から入力されている。
双方向回帰神経網言語モデルは、双方向回帰神経網を用いて言語の文脈及び文法などを学習したモデルである。再び図1を参照すると、第2認識部120は、双方向回帰神経網言語モデルを用いることで、文章の前後文脈に基づいて臨時認識結果に該当する文章内の単語を修正することができる。例えば、臨時認識結果に該当する文章内任意の単語が双方向回帰神経網で現在の時間区間に対応すると仮定すれば、当該の単語よりも前に位置する単語は、双方向回帰神経網で以前の時間区間に対応する。また、臨時認識結果に該当する文章内の当該単語よりも後に位置する単語は、双方向回帰神経網で次の時間区間に対応する。
以下、説明の便宜のために第2認識部120が双方向回帰神経網言語モデルを用いる場合を説明するが、第2認識部120の動作はこれに制限されることはない。例えば、第2認識部120は、双方向回帰神経網言語モデルの他にも文章内の前後文脈に基づくいずれの言語モデルでも利用できる。
図7は、一実施形態に係る音声認識装置の動作を説明する図である。図7を参照すると、第1認識部110は、ユーザの音声710を一次的に認識することによって臨時認識結果を生成し、第2認識部120は、臨時認識結果を2次的に検証することによって最終認識結果を生成することができる。
例えば、第1認識部110は、「Today my mom taught me a story.」という音声710を受信してもよい。第1認識部110は、ノイズなどの影響で音声710を正確に認識できないことがある。例えば、音声710のうち「taught」が受信される時点にノイズ715が発生した場合、第1認識部110は、「taught」を「sought」に間違って認識することがある。この場合、第1認識部110により生成される臨時認識結果は、「Today my mom sought me a story」となる。
第2認識部120は、双方向回帰神経網言語モデルを用いて前後文脈上「sought」が適していないと判断する。第2認識部120は、適していないと判断された「sought」を「taught」に修正することができる。第2認識部120は、修正された文章を出力する。この場合、第2認識部120によって生成される最終認識結果は、「Today my mom taught me a story」である。以下、図8〜図13を参照して第2認識部120の動作を詳細に説明する。
図8は、一実施形態に係る第2認識部を示すブロック図である。図8を参照すると、第2認識部120は、算出部121、検出部122、及び代替部123を含む。算出部121、検出部122、及び代替部123は、ソフトウェアモジュール、ハードウェアモジュール、又はその組合で実現し得る。
算出部121は、第1認識部110によって生成した文章に含まれた単語それぞれに対して、文章内の残り単語との関係に基づいた適合度を算出し得る。検出部122は、算出された単語の適合度に基づいて単語のうち修正が求められる対象単語を検出することができる。代替部123は、検出された対象単語に対応する候補単語のいずれか1つに対象単語を代替できる。
図9A〜図13は、実施形態に係る第2認識部の動作を説明する図である。一例として、図9Aを参照すると、算出部121は、双方向回帰神経網言語モデルを用いて臨時認識結果に該当する文章に含まれた単語の適合度を算出し得る。双方向回帰神経網言語モデルは、臨時認識結果に該当する文章が入力され、当該文章に含まれた単語それぞれの適合度を出力する。
双方向回帰神経網言語モデルは、文章の前後文脈に基づいて「Today」の適合度(s1)を出力する。「Today」の適合度(s1)は条件付き確率(conditional probability)である。例えば、「Today」の適合度(s1)は残り単語が与えられた状況で「Today」が文章の当該位置に登場する可能性として表現される。双方向回帰神経網言語モデルは、「my」の適合度(s2)、「mom」の適合度(s3)、「sought」の適合度(s4)、「me」の適合度(s5)、「a」の適合度(s6)、「story」の適合度(s7)など、臨時認識結果に該当する文章内の残り単語の適合度も出力することができる。
検出部122は算出された適合度(s1〜s7)に基づいて、修正が求められる対象単語を検出することができる。例えば、検出部122は、予め決定した閾値未満の適合度を有する単語を検出したり、適合度の小さい順に予め決定した数の単語を検出する。以下、説明の便宜のために適合度が最も小さい1つの単語を検出する場合について説明する。
前述した例示で、算出された適合度(s1〜s7)のうち、「sought」の適合度(s4)が最も小さい。例えば、「sought」は、前後文脈上、他の単語と似合わず、「sought」は言語文法上、5形式の文章構造(例えば、主語+他動詞+目的語+目的補語)に適していないなど、様々な要因によって「sought」の適合度(s4)が最も小さく算出される。この場合、検出部122は、「sought」を修正の求められる対象単語として検出することができる。
他の例として、図9Bを参照すると、算出部121は「Today」と文章内の残り単語の間の関係に基づいて「Today」の適合度(s1)を算出し得る。「Today」と文章内の残り単語の間の関係は、双方向回帰神経網言語モデルを用いてスコアとして表現され得る。例えば、算出部121は、「Today」と「my」の間の関係に対応するスコア(s1−1)、「Today」と「mom」の間の関係に対応するスコア(s1−2)、「Today」と「sought」の間の関係に対応するスコア(s1−3)、「Today」と「me」の間の関係に対応するスコア(s1−4)、「Today」と「a」の間の関係に対応するスコア(s1−5)、及び「Today」と「story」の間の関係に対応するスコア(s1−6)を算出し得る。
算出部121は、スコア(s1−1)、スコア(s1−2)、スコア(s1−3)、スコア(s1−4)、スコア(s1−5)、及びスコア(s1−6)に基づいて「Today」の適合度(s1)を算出することができる。例えば、算出部は、スコア(s1−1)、スコア(s1−2)、スコア(s1−3)、スコア(s1−4)、スコア(s1−5)、及びスコア(s1−6)の合計、平均、分散、標準偏差などの様々な統計を用いて「Today」の適合度(s1)を算出し得る。算出部121は、同じ方式で「my」の適合度(s2)、「mom」の適合度(s3)、「sought」の適合度(s4)、「me」の適合度(s5)、「a」の適合度(s6)、及び「story」の適合度(s7)を算出し得る。
図10を参照すると、代替部123は、対象単語のための候補単語1020を決定し、決定された候補単語1020のうち最適の候補単語を選択することができる。代替部123は、様々な方式で候補単語1020を決定することができる。例えば、代替部123は、臨時認識結果に該当する文章内の対象単語の位置、臨時認識結果に該当する文章から対象単語を除いた残り単語との関係、対象単語の音素シーケンス(phoneme sequence)との類似度、臨時認識結果に該当する文章に先行する以前文章の文脈(context)などに基づいて候補単語1020を決定することができる。又は、代替部123は、前述した方式の様々な組合を用いて単語辞書124から候補単語1020を取得できる。
代替部123は、単語辞書124から候補単語1020を取得するために前述した第2言語モデルを用いる。又は、代替部123は、単語辞書124から候補単語1020を取得するために前述した第1言語モデルを用いる。又は、代替部123は、単語辞書124から候補単語1020を取得するために、図11によって後述する言語モデルを用いることができる。又は、代替部123は、単語辞書124から候補単語1020を取得するために、図11又は図15によって後述する音声モデルを用いることができる。又は、代替部123は、単語辞書124から候補単語1020を取得するために前述した第1言語モデル、図11に示す言語モデル、図11及び図15に示す音声モデルのうち2以上の組合を用いることができる。第2言語モデルは、図11によって後述する言語モデル、図15によって後述する第2言語モデル1545、又は他の言語モデルであってもよい。第1言語モデルは、図11によって後述する言語モデル、図15によって後述する第1言語モデル1535、又は、他の言語モデルであってもよい。音声モデルは、図11によって後述する音声モデル、図15によって後述する音声モデル1525、又は、他の音声モデルであってもよい。
代替部123は、予め備えられた単語辞書124から候補単語1020を取得することができる。代替部123は、臨時認識結果に該当する文章内の対象単語の位置、臨時認識結果に該当する文章から対象単語を除いた残り単語との関係、対象単語の音素シーケンスとの類似度、臨時認識結果に該当する文章に先行する以前文章の文脈などに基づいて、予め備えられた単語辞書124から候補単語1020を取得し得る。
例えば、代替部123は、対象単語1010を除いた残り単語との関係で文脈的に対象単語1010の位置に代入可能な候補単語1020を単語辞書124から取得し得る。又は、代替部123は、文法的に臨時認識結果に該当する文章内の対象単語1010の位置に代入可能な候補単語1020を単語辞書124から取得し得る。又は、代替部は123は、対象単語1010の音素シーケンスと類似度が一定以上である候補単語1020を単語辞書124から取得したり、対象単語1010の音素シーケンスと類似度が一定以上差異のある単語を候補単語1020から排除することができる。又は、代替部123は、以前文章の文脈により対象単語1010の位置に代入するのに適切な候補単語1020を単語辞書124から取得し得る。
候補単語1020が決定されれば、代替部123は候補単語1020のうち最適の候補単語を選択する。代替部123は、様々な方式で最適の候補単語を選択することができる。例えば、代替部123は、候補単語1020のうち対象単語の音素シーケンス1015と最も類似の音素シーケンスを有する候補単語を最適の候補単語として選択することができる。代替部123は、対象単語1010を最適の候補単語1030に代替することができる。
一例として、候補単語1020は、「told」、「taught」、「said」、「asked」などを含んでもよい。代替部123は、候補単語1020のうち、対象単語の音素シーケンス1015である「sought」と最も類似の音素シーケンスを有する候補単語である「taught」を最適の候補単語として選択する。代替部123は、臨時認識結果に該当する文章で「sought」を「taught」に修正した後、修正された文章を出力することができる。
代替部123は、言語モデルに基づいた情報と音声モデルに基づいた情報をともに考慮して候補単語1020のうち最適の候補単語を選択することができる。図11を参照すると、言語モデルに基づいた情報1115と音声モデルに基づいた情報1125をともに考慮して候補単語の適合度1130を算出し得る。
言語モデルに基づいた情報1115は、言語モデルに基づいて算出された候補単語の文脈点数を含む。言語モデルは、双方向回帰神経網言語モデルを含む。候補単語それぞれの文脈点数は条件付き確率であってもよい。例えば、文章内の残り単語が与えられた状況で、言語モデルに基づいて候補単語それぞれの条件付き確率を算出することができる。
音声モデルに基づいた情報1125は、音声モデルに基づいて算出された候補単語の発音点数を含む。候補単語それぞれの発音点数は、音素シーケンスの類似度である。例えば、言語モデルに基づいて、対象単語の音素シーケンスと候補単語それぞれの音素シーケンスの間の類似度が算出される。
代替部123は、言語モデルの重み1110と音声モデルの重み1120を用いて、言語モデルに基づいた情報1115及び音声モデルに基づいた情報1125が候補単語の適合度1130に反映される比率を調整する。代替部123は、言語モデルの重み1110と音声モデルの重み1120を動的に制御し得る。例えば、代替部123は、音声モデルの信頼度が高い場合、音声モデルの重み1120を増加させたり言語モデルの重み1110を減少させる。又は、代替部123は、言語モデルの信頼度が高い場合、言語モデルの重み1110を増加させたり音声モデルの重み1120を減少させる。
図12は、音声モデルの信頼度に応じて言語モデルの重み及び音声モデルの重みを動的に制御する実施形態を説明する図である。図12を参照すると、代替部123は、臨時認識結果に含まれた各単語の確率分布に基づいて音声モデルの信頼度を判断する。臨時認識結果が生成されるとき、音声認識結果に含まれた各単語は、音声モデル基盤確率分布(音声モデルに基づく確率分布)に基づいて複数の候補単語のうち選択されたものである。例えば、グラフ1200の実線1210に示すように、特定の候補単語に対して音声モデル基盤確率分布が集中している場合にエントロピーが低いと表現される。エントロピーが低い場合、複数の候補単語のうち特定の候補単語を選択するための認識信頼度が高いものと理解され、音声モデルの信頼度が高いと判断される。この場合、代替部123は、音声モデルの重みを言語モデルの重みに比べて相対的に高く設定する。又は、代替部123は、言語モデルの重みを音声モデルの重みに比べて相対的に低く設定してもよい。
また、グラフ1200の点線1220に示すように、複数の候補単語に対して音声モデル基盤確率分布が等しく分布している場合、エントロピーが高いと表現される。エントロピーが高い場合、特定の候補単語を選択するための認識信頼度が低いと理解され、音声モデルの信頼度が低いと判断される。この場合、代替部123は、音声モデルの重みを言語モデルの重みに比べて相対的に低く設定する。又は、代替部123は、言語モデルの重みを音声モデルの重みに比べて相対的に高く設定してもよい。
代替部123は、候補単語の適合度に基づいて候補単語のうち最適の候補単語を選択することができる。例えば、代替部123は、最も高い適合度を有する候補単語を最適の候補単語として選択する。
実施形態によると、前述した音声認識装置100の動作方式は様々に応用される。図13を参照すると、第1認識部110は、複数の候補文章を生成することができる。第1認識部110は、受信された音声に基づいて様々な候補文章を生成することができる。
候補文章は、互いに異なる音素の長さの単語を含んだり、互いに異なる数の単語を含むことができる。例えば、第1候補文章1311の最初の単語の音素の長さは、第2候補文章1312の最初の単語の音素の長さよりも短い。また、第1候補文章1311及び第2候補文章1312は合わせて4つの単語を含むものの、第3候補文章1313は合わせて3つの単語のみを含んでもよい。
候補文章それぞれは文章スコアで評価され得る。例えば、第1候補文章1311の文章スコアは70であり、第2候補文章1312の文章スコアは65であり、第3候補文章1313の文章スコアは50であってもよい。
第2認識部120は、候補文章それぞれに対して修正が求められる少なくとも1つの対象単語を検出することができる。第2認識部120は、前述した方式によって候補文章それぞれのための対象単語を最適の候補単語に修正することができる。1つの候補文章に2以上の対象単語が選択されてもよく、第2認識部120は対象単語を順次修正したり、同時に修正してもよい。
修正された候補文章は、文章スコアで評価され得る。例えば、修正された第1候補文章1321の文章スコアは75であり、修正された第2候補文章1322の文章スコアは70であり、修正された第3候補文章1323の文章スコアは60であってもよい。
第2認識部120は、一定レベル以上の文章スコアを有する候補文章が生成されるまで修正作業を繰り返す。第2認識部120は、修正された候補文章から対象単語を検出し、検出された対象単語を最適の候補単語に修正できる。
繰り返される修正過程により、候補文章の間の文章スコアの順位が逆転することもある。例えば、再修正された第1候補文章1331の文章スコアは80であり、再修正された第2候補文章1332の文章スコアは90であり、再修正された第3候補文章1333の文章スコアは70であってもよい。第2認識部120は、再修正された第2候補文章1332を最終結果として出力する。
第2認識部120は、候補文章に対するリスコアリング(rescoring)によって最適の候補文章を検出することに終わることなく、双方向回帰神経網言語モデルを用いて候補文章内の対象単語を修正することができる。第2認識部120は、ノイズなどによって候補文章に正解がない場合であっても、音声認識の正確度を向上させ得る。このように、双方向回帰神経網言語モデルを用いて単語を検索する第2認識部120の動作は、人の音声認識機構(メカニズム)と同様である。
図14は、一実施形態に係る第1認識部を示すブロック図である。図14を参照すると、第1認識部110は、受信部111、抽出部112、デコーディング部113、及び生成部114を含む。受信部111、抽出部112、デコーディング部113、及び生成部114は、ソフトウェアモジュール、ハードウェアモジュール、又はその組合で実現し得る。
受信部111はユーザの音声を受信し、抽出部112は受信された音声から特徴を抽出できる。抽出部112は、様々な方式で特徴を抽出することができる。例えば、抽出部112は、LPC(Linear Predictive Coding)方式、MFCC(Mel Frequency Cepstral Coefficients)方式などを用いて音声から特徴を抽出する。
デコーディング部113は、抽出された特徴から音素シーケンスを復号化する。例えば、デコーディング部113は、音声モデルを用いて特徴から音素シーケンスを復号化する。音声モデルは、テンプレート基盤でパターンをマッチングするDTW(Dynamic Time Warping)方式を用いるか、統計的にパターンを認識するHMM(Hidden Markov Modeling)方式を用いる。
生成部114は、音素シーケンスから単語を認識することで臨時認識結果に該当する文章を生成する。例えば、生成部114は、第1言語モデルを用いて音素シーケンスから単語を認識する。第1言語モデルは、バイグラム(Bi−Gram)などの第2認識部120によって用いられる第2言語モデルに比べて単純な言語モデルであり得る。
図面には図示していないが、第1認識部110は、受信された音声で認識区間を抽出し、認識区間内雑音を処理するなど前処理作業を行う前処理部をさらに含む。
図15は、他の実施形態に係る音声認識装置を示すブロック図である。図15を参照すると、音声認識装置1500は、特徴抽出部1510、音素認識部1520、デコーディング部1530、評価部1540、及びサンプリング部1550を含む。特徴抽出部1510、音素認識部1520、デコーディング部1530、評価部1540、及びサンプリング部1550は、ソフトウェアモジュール、ハードウェアモジュール、又はその組合で実現し得る。
特徴抽出部1510は、音声から特徴を抽出する。特徴抽出部1510は、LPC方式、MFCC方式などを用いて音声から特徴を抽出できる。音素認識部1520は、音声モデル1525を用いて特徴から音素を認識する。音声モデル1525は、DTW基盤音声モデル、HMM基盤音声モデルなどであってもよい。デコーディング部1530は、第1言語モデル1535を用いて音素から単語を認識することで、臨時認識結果に該当する文章を生成することができる。第1言語モデル1535は、N−グラム言語モデルであり得る。
評価部1540は、臨時認識結果に該当する文章内の単語に対する適合度を評価する。評価部1540は、第2言語モデル1545に基づいて臨時認識結果に該当する文章内の各単語に対して前後文脈に基づいて適合度を評価する。第2言語モデル1545は、双方向回帰神経網言語モデルであってもよい。評価部1540は、評価結果に基づいて、全体文章のうち修正が求められる対象単語があるか否かを判別する。例えば、評価部1540は、全体文章の全ての単語に対する条件付き確率を算出した後、修正が求められる対象単語を検出することができる。
サンプリング部1550は、対象単語のための候補単語を推薦し得る。例えば、サンプリング部1550は、第2言語モデル1545に基づいて対象単語の位置に適する単語を推薦し得る。第2言語モデル1545は、双方向回帰神経網言語モデルであってもよい。サンプリング部1550は、双方向回帰神経網言語モデルを用いることで、文章全体を考慮して対象単語の位置に推薦される候補単語の確率を提示することができる。例えば、サンプリング部1550は、文章の前部から対象単語の位置までの第1部分と文章の後部分から対象単語の位置までの第2部分を考慮し、対象単語の位置に適する単語の確率を算出し得る。サンプリング部1550は、単語辞書1560から確率が高い順に予め決定した数の候補単語を選択することができる。
場合に応じて、サンプリング部1550は、各候補単語と対象単語の位置における音声モデル基盤音素シーケンスとの距離を比較することができる。サンプリング部1550は、対象単語の位置における音声モデル基盤音素シーケンスとの距離が一定以上離れた候補単語は脱落させてもよい。候補単語の音素シーケンスは、単語辞書1560に格納されている。
サンプリング部1550は、文脈情報を活用して候補単語を推薦し得る。例えば、サンプリング部1550は以前文章のトピックを検出し、検出されたトピックを用いてその次の文章から候補単語を推薦する。サンプリング部1550は、単語辞書1560に格納された単語のトピックと以前文章から検出されたトピックとを比較した後、トピックが類似の単語を集中的に候補単語として推薦し得る。
評価部1540は、サンプリングされた単語に対して適合度を評価する。評価部1540は、対象単語と第2言語モデル1545に基づいて推薦された候補単語を比較することにより最適の候補単語を選択できる。評価部1540は、対象単語と候補単語とを比較するとき、第2言語モデルの重みと音声モデル1525の重みを動的に制御することができる。例えば、音声モデル1525に基づいて算出された確率分布が特定の候補単語に集中するなどエントロピーが低い場合、音声モデル1525に高い重みを与える。一方、音声モデル基盤確率分布が複数の候補単語に等しく分布するなどエントロピーが高い場合、音声モデル1525に低い重みを与える。
音声モデル1525、第1言語モデル1535、及び第2言語モデル1545は、それぞれ音声認識装置1500内に予め備えられた格納空間に格納されたり、遠隔に位置するサーバに格納されてもよい。音声モデル1525、第1言語モデル1535、又は第2言語モデル1545が遠隔のサーバに格納される場合、音声認識装置1500は、ネットワークを介してサーバに格納されたモデルを用いることができる。
音声認識装置1500は、イベント性ノイズに対して剛健な音声認識結果を出力する。音声認識装置1500は、ノイズなどにより認識率が低下する状況で言語モデルに基づいたサンプリングによって認識率を向上させる技術を提供することができる。
前述した実施形態で候補単語を推薦するためにサンプリング部1550が第2言語モデル1545を使用するが、実施形態は様々に変形され得る。例えば、図15において点線で表示したように、サンプリング部1550は、候補単語を推薦するために第1言語モデル1535又は音声モデル1525を用いることができる。又は、サンプリング部1550は、第2言語モデル1545、第1言語モデル1535、及び音声モデル1525のうち2以上の様々な組合を用いて候補単語を推薦することができる。
図16〜図18は、実施形態に係る音声認識方法を示した動作フローチャートである。図16を参照すると、一実施形態に係る音声認識方法は、音声認識によって生成した文章を受信するステップS1610と、文章に含まれた単語それぞれに対して文章内の残り単語との関係に基づいた適合度を算出するステップS1620と、単語の適合度に基づいて単語のうち修正が求められる対象単語を検出するステップS1630と、対象単語に対応する候補単語のいずれか1つに対象単語を代替するステップS1640とを含む。図16に示された各ステップには図1に示す第2認識部120の動作がそのまま適用され得るため、より詳細な説明は省略する。
図17を参照すると、一実施形態に係る音声認識方法は、ユーザの音声を受信するステップS1710と、音声から特徴を抽出するステップS1720と、音声モデルを用いて特徴から音素シーケンスを認識するステップS1730と、言語モデルを用いて音素シーケンスから単語を認識することにより文章を生成するステップS1740とをさらに含む。図17に示された各ステップには、図1に示す第1認識部110の動作がそのまま適用され得るため、より詳細な説明は省略する。
図18を参照すると、一実施形態に係る音声認識方法は、音声から特徴を抽出するステップS1810と、特徴から音素を認識するステップS1820と、音素から単語をデコーディングするステップS1830と、単語を評価するステップS1840と、適していない単語が存在するか否かを判断するステップS1850と、適していない単語が存在する場合に、当該単語を代替するための候補単語をサンプリングするステップS1860とを含む。
ステップS1840において、サンプリングされた候補単語が評価されるものであって、適していない単語を代替するための最適の候補単語が選択される。ステップS1840、ステップS1850、及びステップS1860は、適していない単語が存在しないまで繰り返される。これ以上、適していない単語が存在しない場合にステップS1870で最適の文章が出力される。
図18に示された各ステップには、図15に示す音声認識装置1500の動作がそのまま適用され得るため、より詳細な説明は省略する。
以上で説明された実施形態は、ハードウェア構成要素、ソフトウェア構成要素、及び/又はハードウェア構成要素及びソフトウェア構成要素の組合で実現してもよい。例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、または、命令(instruction)を実行して応答できる異なる装置のように、1つ以上の汎用コンピュータまたは特殊目的のコンピュータを用いて実現され得る。処理装置は、オペレーティングシステム(OS)及び前記オペレーティングシステム上で行われる1つ以上のソフトウェアアプリケーションを行ってもよい。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理及び生成してもよい。理解の便宜のために、処理装置は1つ使用されるものと説明される場合もあるが、当該の技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含んでいることが分かる。例えば、処理装置は、複数のプロセッサまたは1つのプロセッサ及び1つのコントローラを含んでもよい。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、またはこのうちの1つ以上の組合せを含んでもよく、希望の通りに動作するよう処理装置を構成したり独立的または結合的に処理装置を命令してもよい。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令またはデータを提供するためどのような類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体または装置、送信される信号波に永久的または一時的に具体化できる。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散し、分散された方法で格納されたり実行されてもよい。ソフトウェア及びデータは1つ以上のコンピュータで読み出し可能な記録媒体に格納されてもよい。
実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータで読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうち1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。プログラム命令の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを用いてコンピュータによって実行できる高級言語コードが含まれる。前記したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同様である。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。

Claims (27)

  1. 音声認識によって生成した文章を受信するステップと、
    前記文章内の他の単語との関係に基づいて、前記文章に含まれた単語それぞれの適合度を算出するステップと、
    前記単語それぞれの適合度に基づいて、前記単語のうち修正が求められる対象単語を検出するステップと、
    前記対象単語に対応する候補単語のいずれか1つにより前記対象単語を代替するステップと、
    を含む、音声認識方法。
  2. 前記適合度を算出するステップは、双方向回帰神経網言語モデルを用いて前記単語それぞれの適合度を算出するステップを含む、請求項1に記載の音声認識方法。
  3. 前記対象単語を検出するステップは、
    予め決定した閾値未満の適合度を有する単語を検出するステップと、
    適合度が小さい順に予め決定した数の単語を検出するステップと、
    のうち少なくとも1つを含む、請求項1又は2に記載の音声認識方法。
  4. 前記対象単語を代替するステップは、前記文章で前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも1つに基づいて前記候補単語を決定するステップを含む、請求項1〜3のうち何れか一項に記載の音声認識方法。
  5. 前記候補単語を決定するステップは、予め備えられた単語辞書から前記候補単語を取得するステップを含む、請求項4に記載の音声認識方法。
  6. 前記対象単語を代替するステップは、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第1モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第2モデルのうち少なくとも1つに基づいて当該候補単語の適合度を算出するステップを含む、請求項1に記載の音声認識方法。
  7. 前記対象単語を代替するステップは、前記第1モデルのための第1重み及び前記第2モデルのための第2重みを設定するステップをさらに含む、請求項6に記載の音声認識方法。
  8. 前記第1重み及び前記第2重みを設定するステップは、前記文章に関する第1モデル基盤確率分布に基づいて、前記第1重み及び前記第2重みを動的に制御するステップを含む、請求項7に記載の音声認識方法。
  9. ユーザの音声を受信するステップと、
    前記音声から特徴を抽出するステップと、
    音声モデルを用いて前記特徴から音素シーケンスを認識するステップと、
    言語モデルを用いて前記音素シーケンスから単語を認識することによって前記文章を生成するステップと、
    をさらに含む、請求項1〜8のうち何れか一項に記載の音声認識方法。
  10. 前記言語モデルはバイグラム(Bi−Gram)言語モデルを含む、請求項9に記載の音声認識方法。
  11. 請求項1〜請求項10のいずれか一項に記載の音声認識方法を、音声認識装置のコンピュータに実行させるコンピュータプログラム。
  12. ユーザの音声を認識することによって文章を生成する第1認識部と、
    前記文章内の前後文脈に基づいた言語モデルに基づいて、前記文章内の少なくとも1つの単語を修正する第2認識部と、
    を含む、音声認識装置。
  13. 前記第1認識部は、
    前記音声を受信する受信部と、
    前記音声から特徴を抽出する抽出部と、
    前記特徴から音素シーケンスをデコーディングするデコーディング部と、
    前記音素シーケンスから単語を認識することによって前記文章を生成する生成部と、
    を含む、請求項12に記載の音声認識装置。
  14. 前記言語モデルは双方向回帰神経網言語モデルを含む、請求項12又は13に記載の音声認識装置。
  15. 前記第2認識部は、
    前記文章内の他の単語との関係に基づいて前記文章に含まれた単語それぞれの適合度を算出する算出部と、
    前記単語それぞれの適合度に基づいて前記単語のうち修正が求められる対象単語を検出する検出部と、
    前記対象単語に対応する候補単語のいずれか1つにより前記対象単語を代替する代替部と、
    を含む、請求項12〜14のうち何れか一項に記載の音声認識装置。
  16. 前記検出部は、予め決定した閾値未満の適合度を有する単語を検出し、適合度が小さい順に予め決定した数の単語を検出する、請求項15に記載の音声認識装置。
  17. 前記代替部は、前記文章内前記対象単語の位置、前記文章から前記対象単語を除いた残り単語との関係、前記対象単語の音素シーケンスとの類似度、及び前記文章に先行する以前文章の文脈のうち少なくとも1つに基づいて前記候補単語を決定する、請求項15又は16に記載の音声認識装置。
  18. 前記代替部は、予め備えられた単語辞書から前記候補単語を取得する、請求項17に記載の音声認識装置。
  19. 前記代替部は、前記候補単語それぞれに対して前記対象単語の音素シーケンスとの類似度に基づいた第1モデル、及び前記文章から前記対象単語を除いた残り単語との関係に基づいた第2モデルのうち少なくとも1つに基づいて当該候補単語の適合度を算出する、請求項15〜18のうち何れか一項に記載の音声認識装置。
  20. 前記代替部は、前記文章に関する第1モデル基盤確率分布に基づいて前記第1モデルのための第1重み及び前記第2モデルのための第2重みを動的に制御する、請求項19に記載の音声認識装置。
  21. 第1言語モデルを用いてユーザによって表現された音声から文章を認識する第1認識装置と、
    前記第1言語モデルよりも高い複雑度を有する第2言語モデルを用いて前記文章の正確度を向上させる第2認識装置と、
    を含む、音声認識装置。
  22. 前記第1認識装置は、音声モデルを用いて前記音声から音素を認識し、前記第1言語モデルを用いて前記音素から前記文章を認識する、請求項21に記載の音声認識装置。
  23. 前記第2認識装置は、
    前記第2言語モデルを用いて前記文章内の単語のうち最も不正確なものとして予測される単語を識別し、
    前記第2言語モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替する、請求項21又は22に記載の音声認識装置。
  24. 前記第2認識装置は、前記第2言語モデルと音声モデルを用いて前記識別された単語を前記文章の正確度を向上させる単語に代替する、請求項23に記載の音声認識装置。
  25. 前記第1認識装置は、前記言語モデルを用いて前記音声から音素を認識し、前記第1言語モデルを用いて前記音素から前記文章を認識する、請求項24に記載の音声認識装置。
  26. 前記第2認識装置は、前記識別された単語に基づいて候補単語を取得し、前記候補単語から前記文章の正確度を向上させる単語を選択する、請求項23〜25のうち何れか一項に記載の音声認識装置。
  27. 前記第2認識装置は、前記第2言語モデル及び音声モデルのうち少なくとも1つ、前記識別された単語及び前記文章内の他の単語に基づいて予め備えられた辞書から前記候補単語を取得する、請求項26に記載の音声認識装置。
JP2015210588A 2014-12-02 2015-10-27 音声認識方法及び音声認識装置 Active JP6762701B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0170818 2014-12-02
KR1020140170818A KR102380833B1 (ko) 2014-12-02 2014-12-02 음성 인식 방법 및 음성 인식 장치

Publications (2)

Publication Number Publication Date
JP2016110087A true JP2016110087A (ja) 2016-06-20
JP6762701B2 JP6762701B2 (ja) 2020-09-30

Family

ID=54478654

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015210588A Active JP6762701B2 (ja) 2014-12-02 2015-10-27 音声認識方法及び音声認識装置

Country Status (5)

Country Link
US (2) US9940933B2 (ja)
EP (1) EP3029669B1 (ja)
JP (1) JP6762701B2 (ja)
KR (1) KR102380833B1 (ja)
CN (1) CN105654946B (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180018031A (ko) * 2016-08-12 2018-02-21 한국전자통신연구원 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법
WO2018135303A1 (ja) 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2018135302A1 (ja) 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP2019507362A (ja) * 2016-02-05 2019-03-14 グーグル エルエルシー 外部データソースを用いた音声の再認識
JP2019526080A (ja) * 2016-07-26 2019-09-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識結果の修正方法及び装置
JP2019537307A (ja) * 2016-09-30 2019-12-19 ロヴィ ガイズ, インコーポレイテッド キャプションテキストにおける間違いを訂正するためのシステムおよび方法
JP2020518861A (ja) * 2017-06-29 2020-06-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声認識方法、装置、デバイス、及び記憶媒体

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10643616B1 (en) * 2014-03-11 2020-05-05 Nvoq Incorporated Apparatus and methods for dynamically changing a speech resource based on recognized text
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
KR102450853B1 (ko) * 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
JP6604836B2 (ja) * 2015-12-14 2019-11-13 株式会社日立製作所 対話テキスト要約装置及び方法
GB2552014B (en) * 2016-07-07 2020-05-13 Advanced Risc Mach Ltd Reconfigurable artificial neural networks comprising programmable non-volatile memory elements
CN106169094A (zh) * 2016-07-07 2016-11-30 江苏大学 一种基于分布式神经元的rnnlm系统及其设计方法
KR102604552B1 (ko) * 2016-07-15 2023-11-22 삼성전자주식회사 단어 임베딩 방법, 단어 임베딩 장치, 음성 인식 방법 및 음성 인식 장치
US10019986B2 (en) * 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
US9959861B2 (en) 2016-09-30 2018-05-01 Robert Bosch Gmbh System and method for speech recognition
KR102617717B1 (ko) * 2016-10-18 2023-12-27 삼성전자주식회사 전자 장치 및 그 제어 방법
US9984689B1 (en) * 2016-11-10 2018-05-29 Linearhub Apparatus and method for correcting pronunciation by contextual recognition
CN108073929B (zh) * 2016-11-15 2023-11-24 北京三星通信技术研究有限公司 基于动态视觉传感器的物体检测方法及设备
KR102426435B1 (ko) * 2016-11-29 2022-07-29 삼성전자주식회사 사용자 입력에 기반한 문장을 제공하는 장치 및 방법
KR20180068475A (ko) 2016-12-14 2018-06-22 삼성전자주식회사 순환 모델에 기초한 인식 및 순환 모델을 트레이닝하는 방법과 장치
KR20180071029A (ko) 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
KR102692670B1 (ko) 2017-01-04 2024-08-06 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR101881862B1 (ko) * 2017-02-10 2018-07-25 한국외국어대학교 연구산학협력단 의료 영상 판독문 생성 장치 및 방법
CN106782560B (zh) * 2017-03-06 2020-06-16 海信集团有限公司 确定目标识别文本的方法及装置
CN108694163B (zh) * 2017-04-06 2021-11-26 富士通株式会社 计算句子中的词的概率的方法、装置和神经网络
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
CA3064771A1 (en) * 2017-06-01 2018-12-06 Royal Bank Of Canada System and method for test generation
CN109144284B (zh) * 2017-06-15 2022-07-15 百度在线网络技术(北京)有限公司 信息显示方法和装置
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
US20190147855A1 (en) * 2017-11-13 2019-05-16 GM Global Technology Operations LLC Neural network for use in speech recognition arbitration
US10409898B2 (en) 2017-11-17 2019-09-10 Adobe Inc. Generating a targeted summary of textual content tuned to a target audience vocabulary
CN107978315B (zh) * 2017-11-20 2021-08-10 徐榭 基于语音识别的对话式放射治疗计划系统及制定方法
KR102458244B1 (ko) * 2017-11-23 2022-10-24 삼성전자주식회사 기계 번역 방법 및 장치
CN108573707B (zh) * 2017-12-27 2020-11-03 北京金山云网络技术有限公司 一种语音识别结果的处理方法、装置、设备及介质
CN108417210B (zh) * 2018-01-10 2020-06-26 苏州思必驰信息科技有限公司 一种词嵌入语言模型训练方法、词语识别方法及系统
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
KR20190090646A (ko) * 2018-01-25 2019-08-02 필아이티 주식회사 단어 예측을 수행하는 방법 및 모바일 장치
US11004453B2 (en) * 2018-04-04 2021-05-11 Sensory, Incorporated Avoiding wake word self-triggering
CN108664466B (zh) * 2018-04-11 2022-07-08 广州视源电子科技股份有限公司 候选词评估方法、装置、计算机设备和存储介质
CN109062888B (zh) * 2018-06-04 2023-03-31 昆明理工大学 一种出现错误文本输入时的自纠正方法
CN110689881B (zh) * 2018-06-20 2022-07-12 深圳市北科瑞声科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
KR20200030789A (ko) * 2018-09-13 2020-03-23 삼성전자주식회사 음성 인식 방법 및 장치
KR102622350B1 (ko) * 2018-10-12 2024-01-09 삼성전자주식회사 전자 장치 및 그 제어 방법
CN112997247A (zh) * 2018-11-05 2021-06-18 株式会社赛斯特安国际 利用大数据的最佳语言模型生成方法及用于其的装置
CN109598002A (zh) * 2018-11-15 2019-04-09 重庆邮电大学 基于双向循环神经网络的神经机器翻译方法和系统
KR20200059703A (ko) 2018-11-21 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN109767763B (zh) * 2018-12-25 2021-01-26 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
CN109740126B (zh) * 2019-01-04 2023-11-21 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
KR102181742B1 (ko) * 2019-01-10 2020-11-24 주식회사 케이티 추천 문장을 제공하는 대화 분석 서버, 방법 및 컴퓨터 프로그램
US11615786B2 (en) * 2019-03-05 2023-03-28 Medyug Technology Private Limited System to convert phonemes into phonetics-based words
US11158307B1 (en) * 2019-03-25 2021-10-26 Amazon Technologies, Inc. Alternate utterance generation
KR20210016767A (ko) * 2019-08-05 2021-02-17 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN112562675B (zh) * 2019-09-09 2024-05-24 北京小米移动软件有限公司 语音信息处理方法、装置及存储介质
KR20210044559A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 출력 토큰 결정 방법 및 장치
KR102577589B1 (ko) * 2019-10-22 2023-09-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR20210060897A (ko) * 2019-11-19 2021-05-27 삼성전자주식회사 음성 처리 방법 및 장치
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
CN111613214A (zh) * 2020-05-21 2020-09-01 重庆农村商业银行股份有限公司 一种用于提升语音识别能力的语言模型纠错方法
CN111933129B (zh) * 2020-09-11 2021-01-05 腾讯科技(深圳)有限公司 音频处理方法、语言模型的训练方法、装置及计算机设备
CN112669845B (zh) * 2020-12-25 2024-04-12 竹间智能科技(上海)有限公司 语音识别结果的校正方法及装置、电子设备、存储介质
WO2022203167A1 (en) 2021-03-25 2022-09-29 Samsung Electronics Co., Ltd. Speech recognition method, apparatus, electronic device and computer readable storage medium
CN113378530A (zh) * 2021-06-28 2021-09-10 北京七维视觉传媒科技有限公司 语音编辑方法及装置、设备和介质
CN113362809B (zh) * 2021-07-02 2023-02-21 上海淇玥信息技术有限公司 语音识别方法、装置和电子设备
KR20230037804A (ko) * 2021-09-10 2023-03-17 삼성전자주식회사 전자 장치 및 전자 장치의 음성 처리 방법
CN113707135B (zh) * 2021-10-27 2021-12-31 成都启英泰伦科技有限公司 一种高精度连续语音识别的声学模型训练方法
CN114399998B (zh) * 2021-12-03 2022-09-27 北京百度网讯科技有限公司 语音处理方法、装置、设备、存储介质及程序产品
US20230245649A1 (en) * 2022-02-03 2023-08-03 Soundhound, Inc. Token confidence scores for automatic speech recognition
KR20230127783A (ko) * 2022-02-25 2023-09-01 삼성전자주식회사 사용자의 음성 입력을 처리하는 방법 및 이를 위한 장치
US11657803B1 (en) * 2022-11-02 2023-05-23 Actionpower Corp. Method for speech recognition by using feedback information

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100789A (ja) * 1999-09-27 2001-04-13 Nippon Hoso Kyokai <Nhk> 連続音声認識装置の音素認識性能測定装置
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2004101963A (ja) * 2002-09-10 2004-04-02 Advanced Telecommunication Research Institute International 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2008064815A (ja) * 2006-09-05 2008-03-21 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US6167377A (en) 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
EP1209659B1 (en) * 2000-11-22 2005-10-05 Matsushita Electric Industrial Co., Ltd. Method and apparatus for text input utilizing speech recognition
US7716050B2 (en) * 2002-11-15 2010-05-11 Voice Signal Technologies, Inc. Multilingual speech recognition
ATE417346T1 (de) * 2003-03-26 2008-12-15 Koninkl Philips Electronics Nv Spracherkennungs- und korrektursystem, korrekturvorrichtung und verfahren zur erstellung eines lexikons von alternativen
JP4050755B2 (ja) * 2005-03-30 2008-02-20 株式会社東芝 コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems
US8204739B2 (en) 2008-04-15 2012-06-19 Mobile Technologies, Llc System and methods for maintaining speech-to-speech translation in the field
US8612225B2 (en) * 2007-02-28 2013-12-17 Nec Corporation Voice recognition device, voice recognition method, and voice recognition program
CN101802812B (zh) * 2007-08-01 2015-07-01 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8494835B2 (en) * 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
CA2787390A1 (en) * 2010-02-01 2011-08-04 Ginger Software, Inc. Automatic context sensitive language correction using an internet corpus particularly for small keyboard devices
US9262397B2 (en) * 2010-10-08 2016-02-16 Microsoft Technology Licensing, Llc General purpose correction of grammatical and word usage errors
KR101739531B1 (ko) 2010-10-13 2017-05-25 삼성전자주식회사 음성 인식 장치 및 방법
JP5861649B2 (ja) * 2011-02-03 2016-02-16 日本電気株式会社 モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US8260615B1 (en) * 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
US8738375B2 (en) * 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US9135237B2 (en) 2011-07-13 2015-09-15 Nuance Communications, Inc. System and a method for generating semantically similar sentences for building a robust SLM
US9009041B2 (en) * 2011-07-26 2015-04-14 Nuance Communications, Inc. Systems and methods for improving the accuracy of a transcription using auxiliary data such as personal data
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
US9196246B2 (en) * 2013-06-14 2015-11-24 Mitsubishi Electric Research Laboratories, Inc. Determining word sequence constraints for low cognitive speech recognition
US9286897B2 (en) * 2013-09-27 2016-03-15 Amazon Technologies, Inc. Speech recognizer with multi-directional decoding
US20150179169A1 (en) * 2013-12-19 2015-06-25 Vijay George John Speech Recognition By Post Processing Using Phonetic and Semantic Information
CN103745731B (zh) * 2013-12-31 2016-10-19 科大讯飞股份有限公司 一种语音识别效果自动化测试系统及测试方法
US9971765B2 (en) * 2014-05-13 2018-05-15 Nuance Communications, Inc. Revising language model scores based on semantic class hypotheses

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001100789A (ja) * 1999-09-27 2001-04-13 Nippon Hoso Kyokai <Nhk> 連続音声認識装置の音素認識性能測定装置
JP2002358097A (ja) * 2001-06-01 2002-12-13 Mitsubishi Electric Corp 音声認識装置
JP2004101963A (ja) * 2002-09-10 2004-04-02 Advanced Telecommunication Research Institute International 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム
JP2005084436A (ja) * 2003-09-09 2005-03-31 Advanced Telecommunication Research Institute International 音声認識装置及びコンピュータプログラム
JP2008064815A (ja) * 2006-09-05 2008-03-21 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2012003090A (ja) * 2010-06-17 2012-01-05 Ntt Docomo Inc 音声認識装置および音声認識方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
小川厚徳他: "Bidirectional RNNを用いた音声認識誤り検出と認識率推定", 日本音響学会2014年秋季研究発表会講演論文集[CD−ROM], JPN6019046273, September 2014 (2014-09-01), pages 27 - 28, ISSN: 0004163440 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019507362A (ja) * 2016-02-05 2019-03-14 グーグル エルエルシー 外部データソースを用いた音声の再認識
JP2019526080A (ja) * 2016-07-26 2019-09-12 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声認識結果の修正方法及び装置
US11024287B2 (en) 2016-07-26 2021-06-01 Baidu Online Network Technology (Beijing) Co., Ltd. Method, device, and storage medium for correcting error in speech recognition result
KR20180018031A (ko) * 2016-08-12 2018-02-21 한국전자통신연구원 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법
KR102033411B1 (ko) * 2016-08-12 2019-10-17 한국전자통신연구원 주의집중 기반 문맥 종속 음향 모델을 이용한 음성 인식 장치 및 방법
JP2019537307A (ja) * 2016-09-30 2019-12-19 ロヴィ ガイズ, インコーポレイテッド キャプションテキストにおける間違いを訂正するためのシステムおよび方法
US11863806B2 (en) 2016-09-30 2024-01-02 Rovi Guides, Inc. Systems and methods for correcting errors in caption text
WO2018135303A1 (ja) 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
WO2018135302A1 (ja) 2017-01-18 2018-07-26 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
JP2020518861A (ja) * 2017-06-29 2020-06-25 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 音声認識方法、装置、デバイス、及び記憶媒体

Also Published As

Publication number Publication date
JP6762701B2 (ja) 2020-09-30
US20180226078A1 (en) 2018-08-09
US9940933B2 (en) 2018-04-10
CN105654946B (zh) 2022-03-01
KR102380833B1 (ko) 2022-03-31
KR20160066441A (ko) 2016-06-10
EP3029669B1 (en) 2020-05-27
CN105654946A (zh) 2016-06-08
EP3029669A1 (en) 2016-06-08
US11176946B2 (en) 2021-11-16
US20160155436A1 (en) 2016-06-02

Similar Documents

Publication Publication Date Title
JP6762701B2 (ja) 音声認識方法及び音声認識装置
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
CN110148416B (zh) 语音识别方法、装置、设备和存储介质
US10467340B2 (en) Grammar correcting method and apparatus
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
US8849668B2 (en) Speech recognition apparatus and method
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
US20070100814A1 (en) Apparatus and method for detecting named entity
CN110021293B (zh) 语音识别方法及装置、可读存储介质
Alon et al. Contextual speech recognition with difficult negative training examples
CN112700778B (zh) 语音识别方法和语音识别设备
CN109036471B (zh) 语音端点检测方法及设备
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
US10152298B1 (en) Confidence estimation based on frequency
KR102117082B1 (ko) 음성 인식 방법 및 음성 인식 장치
CN112825249B (zh) 语音处理方法和设备
CN112331206A (zh) 语音识别方法及设备
JP2007041319A (ja) 音声認識装置および音声認識方法
JP2020042257A (ja) 音声認識方法及び装置
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
WO2019126881A1 (en) System and method for tone recognition in spoken languages
CN110991155B (zh) 文本修正方法、设备及介质
KR20180062859A (ko) 음성 인식 장치 및 방법
Ogawa et al. Joint estimation of confidence and error causes in speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200302

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200811

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200909

R150 Certificate of patent or registration of utility model

Ref document number: 6762701

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250