JP2017076127A - 音響モデル入力データの正規化装置及び方法と、音声認識装置 - Google Patents

音響モデル入力データの正規化装置及び方法と、音声認識装置 Download PDF

Info

Publication number
JP2017076127A
JP2017076127A JP2016202591A JP2016202591A JP2017076127A JP 2017076127 A JP2017076127 A JP 2017076127A JP 2016202591 A JP2016202591 A JP 2016202591A JP 2016202591 A JP2016202591 A JP 2016202591A JP 2017076127 A JP2017076127 A JP 2017076127A
Authority
JP
Japan
Prior art keywords
window
frame
normalization
acoustic model
normalizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016202591A
Other languages
English (en)
Other versions
JP6875819B2 (ja
Inventor
仁 哲 宋
In Chul Song
仁 哲 宋
榮 相 崔
Youngsang Choi
榮 相 崔
輝 棟 羅
Hwi Dong Na
輝 棟 羅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2017076127A publication Critical patent/JP2017076127A/ja
Application granted granted Critical
Publication of JP6875819B2 publication Critical patent/JP6875819B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 音響モデル入力データの正規化装置及び方法と、音声認識装置と、を提供する。【解決手段】 音響モデル入力データの正規化装置は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、音響モデルに入力するフレームデータを抽出されたウィンドウ単位で正規化する正規化部と、を含みうる。【選択図】 図1

Description

本発明は、音声認識で漸進的デコーディングのために音響モデル入力データを正規化する技術に関する。
一般的に、音声認識エンジンは、音響モデル、言語モデル及びデコーダで構成される。音響モデルは、入力される音声信号の各フレームに対して発音別の確率を計算し、言語モデルは、特定の単語や文章がどれほどよく使われるかに関する情報を提供する。デコーダは、音響モデルと言語モデルとで提供する情報に基づいて入力された音声が、如何なる単語や文章に近いかを計算して出力する。一般的に、GMM(Gaussian Mixture Model)音響モデルが主に使われ、最近、DNN(Deep Neural Network)音響モデルの登場によって音声認識性能が向上した。BRDNN(Bidirectional Recurrent Deep Neural Network)は、音声の各フレームに対して発音別の確率を計算するとき、双方向情報、すなわち、前側と裏側とのフレーム情報を共に考慮して計算するために、全体音声を入力として受ける。BRDNN音響モデルは、モデル練習のときに入力される音声信号の各フレームをN次元ベクトルと表現するとき、ベクトルの各次元の値が、特定の範囲内にあるように正規化を行い、一般的に、正規化は、全体練習データを基準に行うこともでき、各発話(Utterance)を基準に行うこともできるが、BRDNN音響モデルは、発話を単位にして正規化を行う。
本発明が解決しようとする課題は、音響モデル入力データの正規化装置及び方法と、音声認識装置と、を提供するところにある。
一実施形態によれば、音響モデル入力データの正規化装置は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、音響モデルに入力するフレームデータを抽出されたウィンドウ単位で正規化する正規化部と、を含みうる。
ウィンドウ抽出部は、認識する音声のフレームデータの各フレームが入力される間に、所定個数のフレーム単位で連続してウィンドウを抽出することができる。
正規化部は、現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームとパディングフレームとを共に正規化することができる。
正規化部は、現在ウィンドウに属したフレームを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化することができる。
正規化部は、現在ウィンドウに属するフレームを正規化するとき、以前ウィンドウに属するフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化することができる。
正規化部は、現在ウィンドウ及び以前ウィンドウに属するフレームの総個数が基準値よりも小さい場合、総個数と基準値との差に該当する個数のフレームを練習データから獲得することができる。
正規化部は、抽出されたウィンドウに属するフレームデータに対する平均が0、標準偏差が1になるように正規化することができる。
一態様によれば、音響モデル入力データの正規化方法は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出する段階と、音響モデルに入力するフレームデータを抽出されたウィンドウ単位で正規化する段階と、を含みうる。
ウィンドウを抽出する段階は、認識する音声のフレームデータの各フレームが入力される間に、所定個数のフレーム単位で連続してウィンドウを抽出することができる。
正規化する段階は、現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームとパディングフレームとを共に正規化することができる。
正規化する段階は、現在ウィンドウに属したフレームを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化することができる。
正規化する段階は、現在ウィンドウに属するフレームを正規化するとき、以前ウィンドウに属するフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化することができる。
正規化する段階は、現在ウィンドウが抽出されれば、現在ウィンドウ及び以前ウィンドウに属するフレームの総個数と基準値とを比較する段階と、比較の結果、総個数が基準値よりも小さければ、総個数と基準値との差に該当する個数のフレームを前記練習データから獲得する段階と、を含みうる。
正規化する段階は、抽出されたウィンドウに属するフレームデータに対する平均が0、標準偏差が1になるように正規化することができる。
一態様によれば、コンピュータで読み取り可能な記録媒体は、プロセッサに、前述した方法を行わせるための命令語を収録することができる。
一態様によれば、音声認識装置は、認識する音声のフレームデータから音響モデルに入力するフレームデータのウィンドウを抽出し、該抽出されるウィンドウ単位で正規化を行う前処理部と、多層構造ニューラルネットワーク(Deep Neural Network)に基づく音響モデルを用いて、正規化が行われたウィンドウ単位で音響点数を計算する音響点数計算部と、ウィンドウ単位で計算される音響点数を解析して、認識する音声の認識結果を出力する解析部と、を含みうる。
前処理部は、現在ウィンドウを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化することができる。
前処理部は、以前ウィンドウに属するフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して、現在ウィンドウを正規化することができる。
解析部は、認識する音声の入力が進行する途中で、既定の基準を満足するか、ユーザの入力があれば、現在ウィンドウの認識結果を認識する音声全体に対する最終認識結果として出力することができる。
多層構造ニューラルネットワークは、双方向再帰型多層構造ニューラルネットワーク(Bidirectional Recurrent Deep Neural Network)であり得る。
音声認識装置は、言語モデルを用いて言語点数を計算する言語点数計算部をさらに含み、言語点数をさらに基にして、認識結果を出力することができる。
他の態様による音響モデル入力データの正規化装置は、認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、音声認識が可能な十分な量のフレームデータに基づいて、音響モデルに入力するフレームデータを正規化する正規化部と、を含みうる。
正規化部は、最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームに基づいて、フレームデータを正規化することができる。
正規化部は、最初に抽出されたウィンドウから現在抽出されたウィンドウのあらゆるフレーム及び練習データのフレームに基づいて、フレームデータを正規化することができる。
この際、練習データのフレームの個数は、最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームの総個数と音声認識が可能な最小限の個数を示す基準値との差と同一であり得る。
正規化部は、ウィンドウが抽出される度に現在抽出されたウィンドウのフレームを正規化することができる。
一実施形態による音声認識装置のブロック図である。 一実施形態による正規化装置のブロック図である。 他の実施形態による正規化装置のブロック図である。 一実施形態による正規化方法を説明する図面である。 一実施形態による正規化方法を説明する図面である。 一実施形態による正規化方法を説明する図面である。 一実施形態による正規化方法を説明する図面である。 一実施形態による正規化方法のフローチャートである。 他の実施形態による正規化方法のフローチャートである。 一実施形態による音声認識技術が適用された電子装置のブロック図である。
その他の実施形態の具体的な事項は、詳細な説明及び図面に含まれている。記載の技術の利点及び特徴、そして、それらを果たす方法は、図面と共に詳細に後述されている実施形態を参照すると、明確になる。明細書の全般に亘って同じ参照符号は、同じ構成要素を指称する。
以下、音響モデル入力データの正規化装置及び方法と、音声認識装置の実施形態を図面を参考にして詳しく説明する。
図1は、一実施形態による音声認識装置のブロック図である。音声認識装置100は、入力された音声信号に対する音声認識結果を出力する独立したハードウェア装置として具現されるか、音声認識結果を用いて、各種の機能(例:翻訳/通訳、自律走行/TV/ナビゲーション関連制御命令など)を行う電子装置にハードウェアまたはソフトウェアモジュールとして搭載されうる。
図1を参照すれば、音声認識装置100は、前処理部110、音響点数計算部120、言語点数計算部130及び解析部140を含みうる。音声認識装置100の各構成110、120、130、140は、それぞれ独立して、または2つ以上が共に具現可能である。一例として、前処理部110は、図2を参照して後述するように、別途の正規化装置200として具現可能である。
前処理部110は、認識する音声信号が入力されれば、音声認識のための前処理作業を行う。
例えば、入力された音声信号がアナログ信号であれば、それをデジタル信号に変換して多数の音声フレームに分けることができる。一般的に、1秒の音声信号に対して100フレームに分けられうる。また、前処理部110は、このように分けられた音声フレームデータを用いて音響モデルに入力するウィンドウを抽出することができる。この際、前処理部110は、認識する音声信号全体が入力されるまで待たず、音声信号が入力されている間にウィンドウサイズに該当するフレームが入力される度にウィンドウを抽出することができる。
ここで、ウィンドウは、音響モデルに入力されるフレームデータの単位を示し、ウィンドウサイズは、ウィンドウに含まれるフレームの個数を意味し、認識する音声信号の全体フレーム個数よりも少ない個数で設定しうる。この際、ウィンドウサイズは、音声認識の適用分野、装置のコンピュータ性能などに基づいて、設定及び調整されうる。例えば、音声認識の適用分野が、翻訳または通訳であれば、迅速性よりも正確性がさらに重要であるので、ウィンドウサイズは、相対的に大きく設定しうる。また、音声認識の適用分野が、TVなどの装置に内蔵されている命令語を処理することであれば、その装置と関連した命令語の数は制限されており、迅速に命令を処理することがさらに重要であるので、ウィンドウサイズは、相対的に小さく設定しうる。
前処理部110は、このように音響モデルに入力するためのウィンドウが抽出されれば、該抽出されたウィンドウ単位で正規化を行うことができる。すなわち、前処理部110は、ウィンドウが抽出される度に、抽出されたウィンドウに属した各フレームを正規化することができる。
音響点数計算部120は、音響モデルを用いて抽出されるウィンドウ単位で音響点数を計算することができる。この際、音響モデルは、DNN音響モデルのうちの何れか1つ、例えば、BRDNN音響モデルであり得る。音響点数計算部120は、前処理部110によってウィンドウが抽出されて、そのウィンドウに属したフレームが正規化されれば、該正規化されたフレームを音響モデルに入力して音響点数を計算することができる。この際、音響点数は、発音別の確率であり得る。但し、点数算出の単位において、例示された発音に限定されず、音素、形態素、単語、句、文章などの多様な言語認識単位のうちの何れか1つであり得る。
一方、前処理部110は、音響点数計算部120がより正確に音響点数を計算できるように、抽出したウィンドウの両側にパディングフレームを追加することができる。この際、パディングフレームの追加有無及び追加されるパディングフレームの個数は、あらかじめ設定しうる。前処理部110は、現在ウィンドウを抽出してパディングフレームを追加した場合、追加されたパディングフレームも、そのウィンドウに属したものと仮定し、ウィンドウに属したフレーム及びパディングフレームを共に正規化することができる。
前処理部110は、パディングフレームを追加すると設定されている場合、抽出された現在ウィンドウの最初のフレームと最後のフレームとに隣接する左右側フレームをそれぞれ現在ウィンドウの左右に追加することができる。したがって、最初のウィンドウの左側と最後のウィンドウの右側には、パディングフレームが追加されないこともある。例えば、もし、2つのパディングフレームが追加され、現在ウィンドウが、フレーム1、2、3、4を含む最初のフレームであれば、現在ウィンドウの左側には、パディングフレームが追加されず、フレーム5、6が、現在ウィンドウの右側に追加される。もし、現在ウィンドウが、フレーム5、6、7、8を含む二番目のウィンドウであれば、フレーム3、4が、現在ウィンドウの左側に追加され、フレーム9、10が、現在ウィンドウの右側に追加される。もし、現在ウィンドウが、フレーム13、14、15、16を含む最後のウィンドウであれば、フレーム11及び12が、現在ウィンドウの左側に追加され、現在ウィンドウの右側には、パディングフレームが追加されない。
音響点数計算部120は、ウィンドウにパディングフレームが追加された場合、ウィンドウに属したフレームとパディングフレームとを共にDNN音響モデルに入力して音響点数を計算することができる。この際、DNN音響モデルは、BRDNN音響モデルであり得る。音響点数計算部120は、以前ウィンドウに追加されたパディングフレームに対して計算された音響点数に基づいて、そのパディングフレームと重畳する現在ウィンドウのフレームに対する音響点数を計算することができる。この際、音響点数計算部120は、現在ウィンドウに属したフレームと以前ウィンドウのパディングフレームとが重畳する場合、その重畳する現在ウィンドウのフレームとパディングフレームとに対して算出された各音響点数を平均した値、または、各音響点数に加重値を付与した後の平均した値を、その重畳する現在ウィンドウのフレームに対する音響点数として使うことができる。
例えば、以前ウィンドウのフレームが、フレーム9、10、11、12であると仮定すれば、フレーム7、8は、以前ウィンドウのパディングフレームとしてフレーム9の左側に追加され、フレーム13、14は、以前ウィンドウのパディングフレームとしてフレーム12の右側に追加される。現在ウィンドウのフレームが、フレーム13、14、15、16であると仮定すれば、現在ウィンドウのフレーム13は、以前ウィンドウのパディングフレーム13と重畳される。音響点数計算部120は、現在ウィンドウのフレーム13に対して計算された音響点数と以前ウィンドウのパディングフレーム13に対して計算された音響点数との平均を使うことができる。この際、音響点数計算部120は、数式Y=(a+b)/2を使って平均を計算し、ここで、Yは、現在ウィンドウのフレーム13に対して再計算された音響点数であり、aは、以前ウィンドウのパディングフレーム13の音響点数であり、bは、現在ウィンドウのフレーム13の音響点数を示す。但し、これに制限されるものではなく、音響点数計算部120は、現在ウィンドウのフレーム13及び以前ウィンドウのパディングフレーム13に対して計算された音響点数を加重値を付与して計算された値の平均を、現在ウィンドウのフレーム13に対する音響点数として使うことができる。この際、音響点数計算部120は、数式 Y=((1−α)a+αb)/2、ここで、Yは、現在ウィンドウのフレーム13に対する再計算された音響点数であり、αは、加重値(0≦α≦1)、aは、以前ウィンドウのパディングフレーム13の音響点数、及びbは、現在ウィンドウ13に対して計算された音響点数を示す。
言語点数計算部130は、音響点数計算部120によって計算された音響点数及び言語モデルを用いて単語や文章などに関する情報、例えば、単語や文章の使用頻度に関する言語点数を出力することができる。この際、言語モデルは、N−Gramまたはニューラルネットワークを基盤とすることができる。
解析部140は、多様な解析技法を活用してウィンドウ単位で音響点数計算部120及び言語点数計算部130から出力される音響点数及び言語点数を解析して、ウィンドウ単位の認識結果を出力することができる。すなわち、解析部140は、最後の音声信号に対するウィンドウの音響点数及び言語点数を待つ必要なしに、現在ウィンドウの音響点数及び言語点数が計算されれば、現在ウィンドウの音響点数及び言語点数に基づいて、全体音声に対する認識結果を出力することができる。
解析部140は、現在ウィンドウの認識結果が、既定の基準を満足するか、ユーザの入力がある場合、その現在ウィンドウの認識結果を全体音声信号に対する最終認識結果として出力することができる。この際、既定の基準は、抽出されるウィンドウの個数であるか、認識結果に対する臨界値であり得る。但し、これは、1つの例を説明するものであって、例示されたものに限定されるものではない。例えば、迅速な音声認識が必要な場合、相対的に少ない個数のウィンドウサイズ(例:2)に設定され、この場合、解析部140は、二番目のウィンドウの認識結果が出力されれば、その認識結果を認識しようとする全体音声信号に対する最終認識結果として出力することができる。他の例として、二番目のウィンドウに対して特定の単語/文章の使用確率が既定の臨界値(例:70%)よりも大きければ、解析部140は、二番目のウィンドウまでの認識結果を認識する全体音声信号に最終認識結果として出力することができる。
図2は、一実施形態による正規化装置のブロック図である。本実施形態の正規化装置200は、図1の前処理部110の一実施形態であって、漸進的デコーディングのために必要な音響モデル入力データの抽出及びその入力データの正規化方法をさらに詳細に説明する。
図2を参照すれば、正規化装置200は、ウィンドウ抽出部210及び正規化部220を含みうる。
ウィンドウ抽出部210は、認識する音声信号に対する音声フレームデータの入力が進行すれば、全体フレームが入力されるまで待たず、既定のウィンドウサイズの単位で音響モデルに入力するフレームデータであるウィンドウを順次に抽出することができる。
例えば、認識する音声信号に対する音声フレームの個数がN、設定されたウィンドウのサイズがKであるとすれば、ウィンドウ抽出部210は、最初のフレームからK番目のフレームが入力されるまで待機し、K番目のフレームが入力されれば、最初のフレームからK番目のフレームまでを最初のウィンドウとして抽出し、以後、2K番目のフレームまで入力されれば、K+1番目のフレームから2K番目のフレームまでを二番目のウィンドウとして抽出することができる。このような過程を最後のフレームが入力されるまで繰り返し行うことができる。
また、ウィンドウ抽出部210は、ウィンドウが抽出されれば、該抽出されたウィンドウの両側にパディングフレームを追加することができる。すなわち、BRDNN音響モデルでより正確な音響点数が計算されるように、ウィンドウにパディングフレームを追加し、この際、パディングフレームの追加有無及び追加されるパディングフレームのサイズは、あらかじめ設定しうる。特定のウィンドウに追加されたパディングフレームは、そのウィンドウの音響点数計算のときに共に計算され、他のウィンドウの音響点数計算のときに用いられうる。
正規化部220は、ウィンドウ抽出部210によって音響モデルに入力するウィンドウが順次に抽出されれば、該抽出されるウィンドウ単位で正規化することができる。この際、正規化部220は、現在ウィンドウが抽出されて正規化を行うとき、現在ウィンドウにパディングフレームが追加されている場合、パディングフレームも、ウィンドウに属したフレームと見なし、正規化を行うことができる。
一例として、正規化部220は、現在ウィンドウに属した各フレームを正規化するとき、現在ウィンドウの以前ウィンドウに属したフレームの情報を考慮して正規化することができる。この際、下記の(式1)のように、現在ウィンドウに属した最後のフレームが、L番目のフレーム、すなわち、最初のウィンドウから現在ウィンドウまで総L個のフレームが抽出され、該抽出されたフレームをd次元のベクトルxと表現するとき、ベクトルの各次元dの値x[d]の分布が、平均(M(d))が0、標準偏差(SD(d))が1になるようにx[d]をx^[d]に正規化することができる。この際、xは、i番目のフレームの値を意味し、ウィンドウの右側にパディングフレームが追加されている場合には、Lは、ウィンドウの最後のフレームにパディングフレームの個数を合わせた値であり得る。例えば、現在ウィンドウの最後のフレームの番号が16であり、2つのパディングフレームが、現在ウィンドウの右側に追加されるならば、L=16+2=18。
図3は、他の実施形態による正規化装置のブロック図である。図3を参照すれば、他の実施形態による正規化装置300は、ウィンドウ抽出部310、正規化部320及び練習データ330を含みうる。この際、ウィンドウ抽出部310及び正規化部320は、図2を参照して説明した構成210、220と同一なので、重複されていない機能を中心に簡単に説明する。練習データ330は、いくつかのメモリ、他の保存機器に保存され、図1の音響点数計算部に含まれた音響モデルを練習させるために使われる練習データであり得る。その練習データは、図1の音声認識分野が適用される分野から獲得される。したがって、音声認識装置100に入力される音声信号は、練習データ330に含まれる構文であり得る。本実施形態によれば、正規化部320は、練習データ330をさらに考慮して現在抽出されたウィンドウに属した各フレームを正規化することができる。この際、正規化部320は、現在ウィンドウが抽出されれば、最初のウィンドウから現在ウィンドウまで抽出された総フレームの個数が正確な音声認識のために十分であるか否かを判断し、十分ではない場合、練習データ330をさらに考慮することができる。
例えば、正規化部320は、現在ウィンドウが抽出されれば、最初のウィンドウから現在ウィンドウまで抽出された総フレームの個数(L)と既定の基準値(G)とを比較し、総フレームの個数(L)が、基準値(G)よりも小さければ、練習データ330から必要なフレーム、例えば、基準値(G)と総フレーム個数(L)との差(G−L)に該当する個数のフレームを練習データ330から獲得して、現在ウィンドウの正規化のときに考慮することができる。
このために、前記の(式1)で、平均(M(d))と標準偏差(SD(d))の計算式は、下記の(式2)のように変更されうる。
この際、xは、練習データのj番目のフレーム値を意味し、Nは、練習データの総フレーム数を示す。
正規化部320は、(式2)のように、練習データを反映して平均(M(d))と標準偏差(SD(d))とを算出すれば、該算出された平均と標準偏差とを(式1)の最初の式に代入してx[d]をx^[d]に正規化することができる。
図2及び図3の実施形態によれば、認識する全体フレームのうちから漸進的デコーディングのために、音響モデルに一部のフレームのみを入力して音声認識を行っても、正確な音声認識が可能となる。すなわち、一実施形態によれば、最初のウィンドウや二番目のウィンドウのように十分ではないフレームに対して正規化を行っても、音声認識が可能な十分なフレームを考慮することによって、十分ではないフレームを正規化する場合、そのフレームが、ユーザの音声に該当するフレームではないとしても、音声としての誤認識を防止することができる。
但し、図2及び図3の実施形態に限定されるものではなく、正規化部220は、現在抽出されたウィンドウに属したフレームの個数が十分な場合、例えば、正確な音声認識のためにウィンドウのサイズを十分に大きく設定した場合には、以前ウィンドウのフレームや練習データのフレームを考慮する必要なしに、現在ウィンドウに属したフレームの情報のみを用いて正規化することも可能である。
図4Aないし図4Dは、一実施形態による正規化方法を説明する図面である。図2ないし図4Dを参照して、正規化を行う実施形態を例として説明する。まず、認識する音声信号の全体フレームデータの個数は18、ウィンドウサイズは4であると仮定する。
図4Aは、認識する音声信号に対するフレームデータから、音響モデルに入力するウィンドウを抽出する例を図示したものであって、ウィンドウ抽出部210、310は、音声信号に対するフレームデータがフレーム1から順次に入力され始めれば、ウィンドウサイズ4に該当するフレーム4が入力されるまで待機し、フレーム4が入力されれば、最初のウィンドウW1を抽出する。次いで、フレーム8まで入力されれば、フレーム5からフレーム8を二番目のウィンドウW2として抽出する。ウィンドウ抽出部210、310は、認識する音声信号に対するあらゆるフレームが入力されるまで、この過程を繰り返す。この際、総フレームの個数18がウィンドウサイズ4の倍数ではないので、最後のウィンドウは、フレーム個数が4にならないこともある。このように、抽出されるウィンドウは、順次に音響モデルに入力され、ウィンドウ単位で音響点数、例えば、発音別の確率が計算されうる。
図4Bは、正規化部220によって行われる正規化方法の一実施形態であって、正規化部220は、抽出された現在ウィンドウW3に属したフレーム9、10、11、12のみを考慮して正規化を行うことができる。本実施形態は、ウィンドウのサイズが正確な音声認識のために十分に大きく設定された場合に適用可能である。
図4Cは、正規化部220によって行われる正規化方法の他の実施形態であって、正規化部220は、抽出された現在ウィンドウW3を正規化するとき、以前ウィンドウに属するフレーム、すなわち、フレーム1ないしフレーム8を考慮して正規化し、この際、(式1)を用いて正規化することができる。
図4Dは、正規化部320によって行われる正規化方法の実施形態であって、既定の基準値が8であるとするとき、正規化部320は、最初のウィンドウW1が抽出されれば、現在総抽出されたフレームの個数が4なので、基準値8よりも小さいので、その差である4つのフレームを練習データから持って来て正規化を行うことができる。この際、正規化部320は、(式2)によって平均及び標準偏差を計算し、(式1)によって正規化することができる。
図5は、一実施形態による正規化方法のフローチャートである。
図5の正規化方法は、図2の正規化装置200によって行われる実施形態であって、正規化装置200は、認識する音声信号に対するフレームを順次に入力される(510)。
次いで、音声信号のフレームが入力される間に、既定のウィンドウサイズに該当するフレームが入力されれば、音響モデルに入力するフレームデータとしてウィンドウを抽出する(520)。この際、正規化装置200は、抽出されたウィンドウの両側にパディングフレームを追加することができる。
次いで、正規化装置200は、音響モデルに入力するウィンドウが抽出されれば、現在抽出されたウィンドウの正規化を行うことができる(530)。この際、正規化装置200は、現在ウィンドウにパディングフレームが追加されている場合、パディングフレームを共に考慮して正規化を行うことができる。正規化装置200は、現在ウィンドウに属した各フレームを正規化するとき、より正確な音声認識のために、以前に抽出されたあらゆるウィンドウに属したフレームの情報を考慮して正規化することができる。この際、(式1)を用いて正規化することができる。但し、これに限定されず、以前ウィンドウのうちの一部を用いて正規化し、現在ウィンドウのサイズが正規化に十分な場合には、現在ウィンドウに属したフレームのみを用いて正規化することも可能である。
次いで、正規化装置200は、次に抽出されるウィンドウが存在するか、すなわち、現在ウィンドウが最後のウィンドウであるか否かを判断し(540)、現在ウィンドウが最後のウィンドウではなければ、段階(520)に移動して、次のウィンドウを抽出する。
一方、図1の音声認識装置100は、段階(530)から抽出された現在ウィンドウに対して正規化が行われれば、そのウィンドウに属したフレームを音響モデルに入力して音響点数を計算することができる(550)。
図6は、他の実施形態による正規化方法のフローチャートである。
図6の正規化方法は、図3の正規化装置300によって行われる実施形態であって、正規化装置300は、認識する音声信号に対するフレームを順次に入力される(610)。
次いで、音声信号のフレームが入力される間に、既定のウィンドウサイズに該当するフレームが入力されれば、音響モデルに入力するフレームデータとしてウィンドウを抽出する(620)。この際、正規化装置300は、抽出されたウィンドウの両側にパディングフレームを追加することができる。
次いで、正規化装置300は、抽出された現在ウィンドウに属したフレームを正規化するために必要な情報が十分であるか否かを判断することができる(630)。例えば、最初のフレームから現在ウィンドウに属した最後のフレームまでの総個数と既定の基準値とを比較して、総個数が基準値よりも小さければ、情報が十分ではないと判断することができる。
次いで、正規化装置300は、正規化のために必要な情報が十分ではないと判断されれば、練習データから必要なフレームを獲得することができる(640)。この際、基準値と総フレーム個数との差に該当する個数のフレームを練習データから獲得して、現在ウィンドウの正規化のときに考慮することができる。
次いで、正規化装置300は、練習データから獲得されたフレームをさらに考慮して現在抽出されたウィンドウに属した各フレームを正規化することができる(650)。この際、正規化装置300は、(式2)を通じて正規化を行うことができる。
次いで、正規化装置300は、次に抽出されるウィンドウが存在するか、すなわち、現在ウィンドウが最後のウィンドウであるか否かを判断し(660)、現在ウィンドウが最後のウィンドウではなければ、段階(620)に移動して、次のウィンドウを抽出する。
一方、図1の音声認識装置100は、段階(670)で現在ウィンドウに対して正規化を行えば、そのウィンドウに属したフレームを音響モデルに入力して音響点数を計算することができる(670)。
図7は、一実施形態による音声認識技術が適用された電子装置のブロック図である。
図7を参照すれば、電子装置700は、音声入力部710、音声認識部720及び処理部730を含みうる。音声認識部720は、図1の音声認識装置100の一実施形態であり得る。
音声入力部710は、電子装置700のマイクロホンを通じて、ユーザが入力する音声信号を受信することができる。ユーザの音声信号は、他の言語への翻訳/通訳、TV制御や自動車走行制御のために電子装置700にエンベデッドされた命令の遂行と関連する。
音声認識部720は、入力される音声信号に対するフレームが順次に入力されれば、該入力されるフレームデータから音響モデルに入力するためのウィンドウを抽出することができる。音声認識部720は、抽出されたウィンドウ単位で正規化を行い、この際、ウィンドウの両側にパディングフレームを追加した場合、パディングフレームを共に正規化することができる。また、音声認識部720は、ウィンドウ単位で正規化が行われれば、音響モデル及び/または言語モデルを適用し、音響点数及び/または音響点数を漸進的に解析して認識結果を出力することができる。
処理部730は、音声認識結果が出力されれば、それに相応する動作を行うことができる。例えば、音声認識結果を音声として出力するか、ディスプレイにテキスト形式で提供し、電子装置700にエンベデッドされた命令語(例:電源オン/オフ、ボリューム調節、自動車走行制御など)の処理動作を行うことができる。また、翻訳/通訳などを行うことができる。但し、これに限定されるものではなく、その他の多様な分野で活用が可能である。
一方、本実施形態は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。
コンピュータで読み取り可能な記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、搬送波(例えば、インターネットを介した伝送)の形態で具現するものを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。そして、本実施形態を具現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されうる。
当業者ならば、開示された技術的思想や必須的な特徴を変更せずとも、他の具体的な形態で実施可能であることを理解できるであろう。したがって、前述した実施形態は、あらゆる面で例示的なものであり、限定的ではないということを理解せねばならない。
本発明は、音響モデル入力データの正規化装置及び方法と、音声認識装置関連の技術分野に適用可能である。
110 前処理部
120 音響点数計算部
130 言語点数計算部
140 解析部

Claims (26)

  1. 認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、
    前記音響モデルに入力するフレームデータを前記抽出されたウィンドウ単位で正規化する正規化部と、
    を含む音響モデル入力データの正規化装置。
  2. 前記ウィンドウ抽出部は、
    前記認識する音声のフレームデータの各フレームが入力される間に、前記認識する音声のフレームデータから所定個数のフレーム単位で連続してウィンドウを抽出する請求項1に記載の音響モデル入力データの正規化装置。
  3. 前記正規化部は、
    現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームと前記パディングフレームとを共に正規化する請求項1又は2に記載の音響モデル入力データの正規化装置。
  4. 前記正規化部は、
    現在ウィンドウに属したフレームを正規化するとき、前記現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化する請求項1乃至3のいずれか一項に記載の音響モデル入力データの正規化装置。
  5. 前記正規化部は、
    前記現在ウィンドウに属するフレームを正規化するとき、前記以前ウィンドウに属したフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化する請求項4に記載の音響モデル入力データの正規化装置。
  6. 前記正規化部は、
    前記現在ウィンドウ及び以前ウィンドウに属するフレームの総個数が基準値よりも小さい場合、前記総個数と基準値との差に該当する個数のフレームを前記練習データから獲得する請求項5に記載の音響モデル入力データの正規化装置。
  7. 前記正規化部は、
    抽出されたウィンドウに属するフレームデータに対する平均が0、標準偏差が1になるように正規化する請求項1乃至6のいずれか一項に記載の音響モデル入力データの正規化装置。
  8. 認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出する段階と、
    前記音響モデルに入力するフレームデータを前記抽出されたウィンドウ単位で正規化する段階と、
    を含む音響モデル入力データの正規化方法。
  9. 前記ウィンドウを抽出する段階は、
    前記認識する音声のフレームデータの各フレームが入力される間に、前記認識する音声のフレームデータから所定個数のフレーム単位で連続してウィンドウを抽出する請求項8に記載の音響モデル入力データの正規化方法。
  10. 前記正規化する段階は、
    現在ウィンドウの両側に追加されたパディングフレームが存在すれば、現在ウィンドウに属したフレームと前記パディングフレームとを共に正規化する請求項8又は9に記載の音響モデル入力データの正規化方法。
  11. 前記正規化する段階は、
    現在ウィンドウに属したフレームを正規化するとき、前記現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化する請求項8乃至10のいずれか一項に記載の音響モデル入力データの正規化方法。
  12. 前記正規化する段階は、
    前記現在ウィンドウに属するフレームを正規化するとき、前記以前ウィンドウに属したフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して正規化する請求項11に記載の音響モデル入力データの正規化方法。
  13. 前記正規化する段階は、
    現在ウィンドウが抽出されれば、前記現在ウィンドウ及び以前ウィンドウに属するフレームの総個数と基準値とを比較する段階と、
    前記比較の結果、総個数が基準値よりも小さければ、前記総個数と基準値との差に該当する個数のフレームを前記練習データから獲得する段階と、
    を含む請求項12に記載の音響モデル入力データの正規化方法。
  14. 前記正規化する段階は、
    抽出されたウィンドウに属するフレームデータに対する平均が0、標準偏差が1になるように正規化する請求項8乃至13のいずれか一項に記載の音響モデル入力データの正規化方法。
  15. プロセッサに、請求項8乃至14のいずれか一項に記載の方法を実行させるコンピュータプログラム。
  16. 認識する音声のフレームデータから音響モデルに入力するフレームデータのウィンドウを抽出し、前記抽出されるウィンドウ単位で正規化を行う前処理部と、
    多層構造ニューラルネットワークに基づく音響モデルを用いて、前記正規化が行われたウィンドウ単位で音響点数を計算する音響点数計算部と、
    前記ウィンドウ単位で計算される音響点数を解析して、前記認識する音声の認識結果を出力する解析部と、
    を含む音声認識装置。
  17. 前記前処理部は、
    現在ウィンドウを正規化するとき、前記現在ウィンドウの以前ウィンドウに属したフレームを考慮して正規化する請求項16に記載の音声認識装置。
  18. 前記前処理部は、
    前記以前ウィンドウに属したフレームの個数が十分ではない場合、練習データのフレームをさらに考慮して、前記現在ウィンドウを正規化する請求項17に記載の音声認識装置。
  19. 前記解析部は、
    前記認識する音声の入力が進行する途中で、既定の基準を満足するか、ユーザの入力があれば、現在ウィンドウの認識結果を前記認識する音声全体に対する最終認識結果として出力する請求項16乃至18のいずれか一項に記載の音声認識装置。
  20. 前記多層構造ニューラルネットワークは、双方向再帰型多層構造ニューラルネットワークである請求項16乃至19のいずれか一項に記載の音声認識装置。
  21. 言語モデルを用いて言語点数を計算する言語点数計算部をさらに含み、
    前記解析部は、
    前記解析された点数及び言語点数を基にして、前記認識結果を出力する請求項16乃至18のいずれか一項に記載の音声認識装置。
  22. 認識する音声のフレームデータから、音響モデルに入力するフレームデータのウィンドウを抽出するウィンドウ抽出部と、
    音声認識が可能な十分な量のフレームデータに基づいて、前記音響モデルに入力するフレームデータを正規化する正規化部と、
    を含む音響モデル入力データの正規化装置。
  23. 前記正規化部は、
    最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームに基づいて、前記フレームデータを正規化する請求項22に記載の音響モデル入力データの正規化装置。
  24. 前記正規化部は、
    最初に抽出されたウィンドウから現在抽出されたウィンドウのあらゆるフレーム及び練習データのフレームに基づいて、前記フレームデータを正規化する請求項22に記載の音響モデル入力データの正規化装置。
  25. 前記練習データのフレームの個数は、前記最初に抽出されたウィンドウから現在抽出されたウィンドウまでのあらゆるウィンドウのフレームの総個数と音声認識が可能な最小限の個数を示す基準値との差と同一である請求項24に記載の音響モデル入力データの正規化装置。
  26. 前記正規化部は、
    ウィンドウが抽出される度に現在抽出されたウィンドウのフレームを正規化する請求項22に記載の音響モデル入力データの正規化装置。
JP2016202591A 2015-10-16 2016-10-14 音響モデル入力データの正規化装置及び方法と、音声認識装置 Active JP6875819B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150144947A KR102192678B1 (ko) 2015-10-16 2015-10-16 음향 모델 입력 데이터의 정규화 장치 및 방법과, 음성 인식 장치
KR10-2015-0144947 2015-10-16

Publications (2)

Publication Number Publication Date
JP2017076127A true JP2017076127A (ja) 2017-04-20
JP6875819B2 JP6875819B2 (ja) 2021-05-26

Family

ID=57136789

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016202591A Active JP6875819B2 (ja) 2015-10-16 2016-10-14 音響モデル入力データの正規化装置及び方法と、音声認識装置

Country Status (5)

Country Link
US (1) US9972305B2 (ja)
EP (1) EP3157004B1 (ja)
JP (1) JP6875819B2 (ja)
KR (1) KR102192678B1 (ja)
CN (1) CN106601240B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018186028A1 (ja) 2017-04-06 2018-10-11 アルプス電気株式会社 シフト装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
IT201900015506A1 (it) 2019-09-03 2021-03-03 St Microelectronics Srl Procedimento di elaborazione di un segnale elettrico trasdotto da un segnale vocale, dispositivo elettronico, rete connessa di dispositivi elettronici e prodotto informatico corrispondenti
CN114061568B (zh) * 2021-11-30 2023-11-14 北京信息科技大学 基于地磁数据的飞行体转速测量方法、装置及系统

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5093899A (en) 1988-09-17 1992-03-03 Sony Corporation Neural network with normalized learning constant for high-speed stable learning
JP2699447B2 (ja) 1988-09-17 1998-01-19 ソニー株式会社 信号処理装置
US5502790A (en) 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
WO1995030193A1 (en) 1994-04-28 1995-11-09 Motorola Inc. A method and apparatus for converting text into audible signals using a neural network
US5621848A (en) 1994-06-06 1997-04-15 Motorola, Inc. Method of partitioning a sequence of data frames
KR100202424B1 (ko) 1995-12-08 1999-06-15 정호선 실시간 음성인식방법
JP4394752B2 (ja) 1996-10-02 2010-01-06 エスアールアイ インターナショナル 言語教育のために発音をテキスト独立に自動グレード付けする方法及びシステム
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US5913194A (en) 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
US6317710B1 (en) 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6173258B1 (en) 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6308155B1 (en) 1999-01-20 2001-10-23 International Computer Science Institute Feature extraction for automatic speech recognition
US6947890B1 (en) 1999-05-28 2005-09-20 Tetsuro Kitazoe Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
US6453284B1 (en) 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
DE19957221A1 (de) 1999-11-27 2001-05-31 Alcatel Sa Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
US7197456B2 (en) 2002-04-30 2007-03-27 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition
KR20040100592A (ko) 2003-05-23 2004-12-02 엘지전자 주식회사 이동 기기에서의 실시간 화자독립가변어 음성인식 방법
US7480615B2 (en) 2004-01-20 2009-01-20 Microsoft Corporation Method of speech recognition using multimodal variational inference with switching state space models
JP4358229B2 (ja) * 2004-07-09 2009-11-04 日本電信電話株式会社 信号検出システム、信号検出サーバ、信号検出方法及びプログラム
US7590529B2 (en) 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US7496548B1 (en) 2005-09-26 2009-02-24 Quintura, Inc. Neural network for electronic search applications
US20070249406A1 (en) * 2006-04-20 2007-10-25 Sony Ericsson Mobile Communications Ab Method and system for retrieving information
EP2363852B1 (en) 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
AU2012217153B2 (en) 2011-02-14 2015-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
CN103548015B (zh) * 2011-03-28 2017-05-17 新加坡科技研究局 索引用于文件检索的文件的方法及装置
DE102012200512B4 (de) 2012-01-13 2013-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Lautsprechersignalen für eine Mehrzahl von Lautsprechern unter Verwendung einer Verzögerung im Frequenzbereich
US8725498B1 (en) 2012-06-20 2014-05-13 Google Inc. Mobile speech recognition with explicit tone features
US8527276B1 (en) 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
EP2731030A1 (en) * 2012-11-13 2014-05-14 Samsung Electronics Co., Ltd Music information searching method and apparatus thereof
KR20140066640A (ko) * 2012-11-23 2014-06-02 삼성전자주식회사 다국어 음향 모델 구축 장치 및 이의 다국어 음향 모델 구축 방법, 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체
US9153231B1 (en) * 2013-03-15 2015-10-06 Amazon Technologies, Inc. Adaptive neural network speech recognition models
US9466292B1 (en) * 2013-05-03 2016-10-11 Google Inc. Online incremental adaptation of deep neural networks using auxiliary Gaussian mixture models in speech recognition
US9202462B2 (en) 2013-09-30 2015-12-01 Google Inc. Key phrase detection
US9715660B2 (en) 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9665823B2 (en) 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
US9613624B1 (en) * 2014-06-25 2017-04-04 Amazon Technologies, Inc. Dynamic pruning in speech recognition
US9653093B1 (en) * 2014-08-19 2017-05-16 Amazon Technologies, Inc. Generative modeling of speech using neural networks
US10540957B2 (en) 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
US10580401B2 (en) 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US9600231B1 (en) * 2015-03-13 2017-03-21 Amazon Technologies, Inc. Model shrinking for embedded keyword spotting
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies
CN105096939B (zh) * 2015-07-08 2017-07-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105632501B (zh) * 2015-12-30 2019-09-03 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
CN105590625A (zh) * 2016-03-18 2016-05-18 上海语知义信息技术有限公司 声学模型自适应方法及系统
CN105976812B (zh) * 2016-04-28 2019-04-26 腾讯科技(深圳)有限公司 一种语音识别方法及其设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018186028A1 (ja) 2017-04-06 2018-10-11 アルプス電気株式会社 シフト装置

Also Published As

Publication number Publication date
KR20170045041A (ko) 2017-04-26
CN106601240A (zh) 2017-04-26
EP3157004A1 (en) 2017-04-19
CN106601240B (zh) 2021-10-01
EP3157004B1 (en) 2018-07-25
US9972305B2 (en) 2018-05-15
JP6875819B2 (ja) 2021-05-26
KR102192678B1 (ko) 2020-12-17
US20170110115A1 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US11848008B2 (en) Artificial intelligence-based wakeup word detection method and apparatus, device, and medium
US10074363B2 (en) Method and apparatus for keyword speech recognition
Wang et al. First Step Towards End-to-End Parametric TTS Synthesis: Generating Spectral Parameters with Neural Attention.
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
US20190266998A1 (en) Speech recognition method and device, computer device and storage medium
CN109313892B (zh) 稳健的语言识别方法和系统
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN113707125B (zh) 一种多语言语音合成模型的训练方法及装置
CN109686383B (zh) 一种语音分析方法、装置及存储介质
WO2022134894A1 (zh) 语音识别方法、装置、计算机设备及存储介质
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
US20180047387A1 (en) System and method for generating accurate speech transcription from natural speech audio signals
US20090024390A1 (en) Multi-Class Constrained Maximum Likelihood Linear Regression
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN109697978B (zh) 用于生成模型的方法和装置
CN114999463B (zh) 语音识别方法、装置、设备及介质
Rahman et al. Arabic Speech Recognition: Advancement and Challenges
US12100388B2 (en) Method and apparatus for training speech recognition model, electronic device and storage medium
CN114387950A (zh) 语音识别方法、装置、设备和存储介质
CN113920987A (zh) 一种语音识别的方法、装置、设备及存储介质
Tripathi et al. Multilingual and multimode phone recognition system for Indian languages
JP2020173441A (ja) 音声認識方法及び装置
CN116844555A (zh) 车辆语音交互的方法及装置、车辆、电子设备和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210406

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210423

R150 Certificate of patent or registration of utility model

Ref document number: 6875819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE

Ref document number: 6875819

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250