JP6837298B2 - 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 - Google Patents

音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 Download PDF

Info

Publication number
JP6837298B2
JP6837298B2 JP2016134954A JP2016134954A JP6837298B2 JP 6837298 B2 JP6837298 B2 JP 6837298B2 JP 2016134954 A JP2016134954 A JP 2016134954A JP 2016134954 A JP2016134954 A JP 2016134954A JP 6837298 B2 JP6837298 B2 JP 6837298B2
Authority
JP
Japan
Prior art keywords
window
acoustic
acoustic score
score
padding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016134954A
Other languages
English (en)
Other versions
JP2017027044A (ja
Inventor
仁 哲 宋
仁 哲 宋
榮 相 崔
榮 相 崔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2017027044A publication Critical patent/JP2017027044A/ja
Application granted granted Critical
Publication of JP6837298B2 publication Critical patent/JP6837298B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Description

本発明は、音声認識技術に係り、双方向循環深層神経網(Bidirectional Recurrent Deep Neural Network;以下、BRDNNと称する)を用いて漸進的音声認識を行う技術に関する。
一般的に、音声認識エンジンは、音響モデル(acoustic model)、言語モデル(language model)及びデコーダ(decoder)を含む。デコーダは、入力された音声信号の解釈を行うために、音響モデル及び言語モデルを使う。例えば、入力された音声信号を受信すれば、音声認識エンジンは、入力される音声信号の各フレームに対して発音別の確率を計算する音響モデルと、特定の単語や文章がどれほどよく使われるかに関する情報を提供する言語モデルと、を使うことができる。デコーダは、入力された音声信号をシーケンスや単語に変換するために、音響モデルと言語モデルとで提供する情報に基づいて入力された音声が、如何なる単語や文章に近いかを計算して出力する。GMM(Gaussian Mixture Model)音響モデルが主に使われていたが、最近、DNN(Deep Neural Network)音響モデルの登場によって音声認識性能が大きく向上した。特に、BRDNNは、音声のように経時的に変わるデータをよくモデリングすることができ、現在、音声認識分野で比較的優れた性能を有する音響モデルとして知られている。
しかし、BRDNNは、音声の各フレームに対して発音別の確率を計算する時、双方向情報、すなわち、前側と裏側とのフレーム情報を共に考慮して計算するために、常に全体音声を入力として受ける。したがって、ユーザの音声が入力される途中で認識結果を出す漸進的デコーディング方式への適用には難点がある。
本発明が解決しようとする課題は、音声認識及び音響点数計算装置及び方法を提供するところにある。
一態様によれば、音声認識のための音響点数計算装置は、音声フレームを順次にウィンドウに抽出する前処理部と、深層神経網(Deep Neural Network)に基づく音響モデルを用いて、順次に抽出されたウィンドウの音響点数を計算する点数計算部と、を含みうる。
この際、深層神経網は、双方向循環深層神経網であり得る。
また、音響点数計算装置は、抽出されたウィンドウの両側にパッディングフレームを追加するパッディング追加部をさらに含みうる。
この際、抽出されたウィンドウの一部のフレームは、抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームと重畳することができる。
点数計算部は、抽出されたウィンドウに対して音響点数が計算されれば、隣接ウィンドウのパッディングフレームに対して、既計算の音響点数に基づいて統計的技法を用いて、抽出されたウィンドウの重畳する一部のフレームに対する音響点数を再計算することができる。
この際、統計的技法は、算術平均及び幾何平均のうちの少なくとも1つを計算することを含みうる。
この際、ウィンドウのサイズ及びパッディングサイズは、音声認識の適用分野、装置が適用された機器のコンピューティング性能のうちの1つ以上に基づいて決定されうる。
一態様によれば、音声認識のための音響点数計算方法は、音声フレームを順次にウィンドウに抽出する段階と、深層神経網音響モデルを用いて抽出されるウィンドウの音響点数を計算する段階と、を含みうる。
この際、深層神経網は、双方向循環深層神経網であり得る。
音響点数計算方法は、抽出されたウィンドウの両側にパッディングフレームを追加する段階をさらに含みうる。
この際、抽出されたウィンドウの一部のフレームは、抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームと重畳することができる。
隣接ウィンドウに追加されたパッディングフレームに対して、既計算の音響点数に基づいて統計的技法を用いて、抽出されたウィンドウの重畳された一部のフレームに対する音響点数を再計算する段階をさらに含みうる。
この際、統計的技法は、算術平均及び幾何平均のうちの少なくとも1つを計算することを含みうる。
この際、ウィンドウサイズ及びパッディングサイズは、音声認識の適用分野、音響点数計算方法を行う機器のコンピューティング性能のうちの1つ以上に基づいて決定されうる。
一態様によれば、音声認識装置は、認識する音声信号のフレームが連続して入力される間に、フレームをウィンドウに抽出する前処理部と、深層神経網に基づく音響モデルを用いて、抽出されたウィンドウの音響点数を出力する音響モデル適用部と、順次に出力されるウィンドウの音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する解釈部と、を含みうる。
音声認識装置は、言語モデルを用いて単語/文章別の点数を出力する言語モデル適用部をさらに含み、解釈部は、出力された単語/文章別の点数をさらに基にして、現在ウィンドウまでの漸進的認識結果を出力することができる。
解釈部は、既定の基準を満足する場合、現在ウィンドウまでの漸進的認識結果を音声信号に対する最終認識結果として出力することができる。
この際、深層神経網は、双方向循環深層神経網であり得る。
この際、言語モデルは、N−Gramまたは神経網(Neural Network)モデルを基礎とすることができる。
音響モデル適用部は、抽出されたウィンドウの両側にパッディングフレームを追加して、パッディングフレームが追加されたウィンドウの各フレームに対して音響点数を計算するが、抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して、既計算の音響点数を考慮して、抽出されたウィンドウの音響点数を計算することができる。
一態様によれば、音声認識方法は、認識する音声信号のフレームが連続して入力される間に、そのフレームをウィンドウに抽出する段階と、深層神経網に基づく音響モデルを用いて、抽出されたウィンドウの音響点数を出力する段階と、順次に出力されるウィンドウ単位の音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する段階と、を含みうる。
また、音声認識方法は、言語モデルを用いて単語/文章別の点数を出力する段階をさらに含み、漸進的認識結果を出力する段階は、出力された単語/文章別の点数をさらに基にして、現在ウィンドウまでの漸進的認識結果を出力することができる。
また、音声認識方法は、既定の基準を満足するか否かを判断する段階と、判断の結果、既定の基準を満足する場合、現在ウィンドウまでの漸進的認識結果を音声信号に対する最終認識結果として出力する段階と、をさらに含みうる。
また、音声認識方法は、抽出されたウィンドウの両側にパッディングフレームを追加する段階をさらに含み、音響点数を出力する段階は、パッディングフレームが追加されたウィンドウの各フレームに対して音響点数を計算するが、抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して、既計算の音響点数を考慮して、抽出されたウィンドウの音響点数を計算することができる。
一態様によれば、電子装置は、ユーザから音声信号を入力される音声入力部と、ユーザの音声信号が入力される間に、深層神経網音響モデルを用いて現在入力された音声信号のフレームをウィンドウ単位で音響点数を出力し、該出力されたウィンドウ単位の音響点数を漸進的に解釈してユーザの音声信号を認識する音声認識部と、認識結果に該当する動作を行う処理部と、を含みうる。
この際、動作は、認識結果を、テキストまたは音声として出力、他の言語に翻訳、及び電子装置に関する命令語の処理のうち、少なくとも1つを含みうる。
一実施形態による音響点数計算装置のブロック図である。 他の実施形態による音響点数計算装置のブロック図である。 一般的なBRDNNに基づく音響モデルを説明する図面である。 一実施形態によるBRDNNに基づく音響モデルを説明する図面である。 一実施形態によるBRDNNに基づく音響モデルを説明する図面である。 一実施形態による音響点数計算方法のフローチャートである。 他の実施形態による音響点数計算方法のフローチャートである。 一実施形態による音声認識装置のブロック図である。 一実施形態による音声認識方法のフローチャートである。 一実施形態による音声認識技術が適用された電子装置のブロック図である。 図10の電子装置が行う音声認識動作のフローチャートである。
その他の実施形態の具体的な事項は、詳細な説明及び図面に含まれている。記載の技術の利点及び特徴、そして、それらを果たす方法は、図面と共に詳細に後述されている実施形態を参照すると、明確になる。明細書の全般に亘って同じ参照符号は、同じ構成要素を指称する。
以下、音声認識のための音響点数計算装置及び方法、音声認識装置及び方法、電子装置の実施形態を図面を参考にして詳しく説明する。
図1は、一実施形態による音響点数計算装置のブロック図である。図1を参照すれば、音声認識のための音響点数計算装置100は、前処理部110及び点数計算部120を含みうる。前処理部110及び点数計算部120は、1つ以上の回路、プロセッサ、メモリまたはそれらの組合わせによって具現化されうる。
前処理部110は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームをウィンドウ単位で抽出する。一例として、前処理部110は、音声フレームを互いに重畳されないように連続したウィンドウに分けて順に抽出することができる。前処理過程は、音声信号から特定の特徴を抽出し、音声信号を音声フレームに変換することを含みうる。音声フレームは、言語で意味のある最も小さな音の単位である1つ以上の音素を含みうる。
例えば、認識しようとする全体音声信号に対する音声フレームの個数がN、設定されたウィンドウのサイズがKであるとする時、前処理部110は、最初のフレームからK番目のフレームが入力されるまで待機し、K番目のフレームが入力されれば、最初のフレームからK番目のフレームまでを最初のウィンドウW1に出力する。以後、引き続きK+1番目のフレームから2K番目のフレームまでを二番目のウィンドウW2に出力し、最後のフレームが入力されるまでK個のフレーム単位でウィンドウを抽出する過程を行う。
ここで、ウィンドウのサイズは、音声認識適用分野、適用装置のコンピューティング性能などに基づいて決定されうる。但し、これに制限されず、その他の多様な基準が共に考慮されうる。この際、ウィンドウサイズは、全体音声信号のフレーム個数よりも少ない個数で設定しうる。
一例として、音声認識分野が、他の言語への翻訳であれば、音声認識結果を迅速に提供するよりは正確に提供することがさらに重要であるので、ウィンドウサイズは、相対的に大きく設定しうる。
他の例として、音声認識分野が、TVのような装置の命令語を処理することであれば、その装置と関連した命令語の数は制限されており、迅速に命令を処理することがさらに重要であるので、ウィンドウサイズは、相対的に小さく設定しうる。
この際、ウィンドウのサイズは、音声認識技術が適用されている装置のコンピューティング性能が共に考慮されうる。ここで、装置は、TV、ナビゲーション、自動車電子装置、スマートフォン、タブレットPC、スマートウォッチ、デスクトップコンピュータ、ノート型パソコンなどを含むが、これらに制限されるものではない。
一方、ウィンドウサイズは、このような多様な基準に基づいてあらかじめ設定されうる。または、前処理部110が、音声認識過程でユーザによって設定された基準やコンピューティング性能などを収集して動的に決定するか、調整することも可能である。
点数計算部120は、DNN音響モデルを用いて順次に抽出されるウィンドウ単位で音響点数を計算することができる。この際、DNN音響モデルは、BRDNN音響モデルであり得る。この際、音響点数は、音素別、発音別、形態素別、音節別または単語別の確率や状態情報を含みうる。但し、これらに制限されるものではなく、言語を形態学的に区分することができるあらゆる単位に係る確率や状態情報などを含みうる。以下、説明の便宜上、音響点数中の発音別の点数、例えば、発音別の確率を例として説明する。
点数計算部120は、前処理部110によってウィンドウが抽出される度に、抽出されたウィンドウに属したフレームを音響モデルに入力して、抽出されたウィンドウに属した各フレームに対する発音別の点数を計算することができる。このように、点数計算部120は、前処理部110によって抽出されるウィンドウ単位で発音別の点数を計算することができる。この際、発音別の点数は、特定のフレームに対して発音(例:a、e、i、o、u)別の確率や状態情報を含みうる。
開示された実施形態によれば、全体音声フレームを音響モデルに入力せず、ウィンドウ単位で音響モデルに入力して発音別の点数を計算するので、図8を参照して詳しく後述するところによっても分かるように、音声認識装置は、ユーザが音声を入力する途中でウィンドウ単位で漸進的に解釈して音声認識結果を返還することが可能となる。
図2は、他の実施形態による音響点数計算装置のブロック図である。図2を参照すれば、音響点数計算装置200は、前処理部210、点数計算部220及びパッディング追加部230を含みうる。前処理部210、点数計算部220及びパッディング追加部230は、1つ以上の回路、プロセッサ、メモリまたはそれらの組合わせによって具現されうる。一例として、前処理部210は、全体または部分的にパッディング追加部230の機能を行える。前処理部210及び点数計算部220の構成は、図1の音響点数計算装置100の前処理部210及び点数計算部220と同一なので、詳しい説明は省略する。
前処理部210は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームを互いに重畳されないように連続したウィンドウに分けて順に抽出することができる。この際、ウィンドウのサイズは、前述したように音声認識の適用分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定され、全体音声信号のフレーム個数よりも少ない個数で設定しうる。
例えば、翻訳のように正確性がより重要な分野の場合には、ウィンドウサイズが相対的に大きく設定され、制限された命令語を処理する組み込み環境では、迅速性がより重要なので、ウィンドウサイズは、相対的に小さく設定しうる。
前処理部210は、既定のウィンドウサイズを参考にしてウィンドウを抽出し、このような基準に基づいて動的に決定してウィンドウを抽出することもできる。
パッディング追加部230は、前処理部210によってウィンドウが抽出されれば、抽出された現在ウィンドウの両側にパッディングフレームを追加する。
一般的なBRDNN音響モデルは、特定のフレームの発音別の確率を計算する時、双方向フレーム情報を共に考慮する。本実施形態において、特定のウィンドウに属したフレームのうちの左側、右側端に近いフレームは、それぞれ左側、右側フレーム情報が不足であって計算される発音別の点数が比較的正確ではないこともある。
このために、パッディング追加部230は、現在ウィンドウに隣接する両側ウィンドウの一部のフレームを現在ウィンドウのパッディングフレームで追加することができる。追加されたパッディングフレームは、現在ウィンドウに属したフレームの発音別の確率を計算する時、追加情報として活用される。この際、パッディングサイズ、すなわち、現在ウィンドウに追加されるパッディングフレームの個数は、前述したように音声認識分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定されうる。
例えば、ウィンドウのサイズKが4であり、左側パッディングサイズLPが2、右側パッディングサイズRPが2であるとすれば、抽出された現在ウィンドウのフレーム4個と両側にそれぞれ2個のフレームが追加されて、総8個のフレームが点数計算部220に入力される1つのウィンドウ単位になりうる。但し、現在ウィンドウが最初のウィンドウW1である場合には、左側に実際に追加されるパッディングフレームの個数は0になる。現在ウィンドウが最後のウィンドウである場合には、右側に追加されるパッディングフレームの個数は0から2までになりうる。
すなわち、前処理部210が、フレーム1からフレーム4までを最初のウィンドウW1に抽出すれば、パッディング追加部230は、引き続き入力されるフレーム5と6とを最初のウィンドウW1の右側にパッディングフレームで追加する。この際、前処理部210は、フレーム5からフレーム8までを二番目のウィンドウW2に抽出し、パッディング追加部230は、隣接する最初のウィンドウW1に属するフレーム3と4とを二番目のウィンドウW2の左側にパッディングフレームで追加し、引き続き入力されるフレーム9及び10をウィンドウW2の右側にパッディングフレームで追加する。前処理部210とパッディング追加部230は、最後の音声フレームが入力されるまでこのような過程を繰り返して行う。
点数計算部220は、DNN音響モデルを用いて順次に抽出されるウィンドウ単位で発音別の点数を計算することができる。この際、DNN音響モデルは、BRDNN音響モデルであり得る。
また、点数計算部220は、前処理部210によってウィンドウが抽出され、パッディング追加部230によって抽出されたウィンドウにパッディングフレームが追加されれば、パッディングフレームが追加された現在ウィンドウを音響モデルに入力して、ウィンドウに属した各フレーム及びパッディングフレームに対する発音別の点数を計算することができる。
一実施形態によれば、点数計算部220は、音響モデルを通じて現在ウィンドウに属した各フレーム及びパッディングフレームに対する発音別の点数が計算されれば、現在ウィンドウに属した一部のフレームと隣接ウィンドウのパッディングフレームとが重畳されるか否かを判断することができる。判断の結果、重畳するフレームが存在すれば、重畳する隣接ウィンドウのパッディングフレームに対して、既計算の発音別の点数に基づいて現在ウィンドウの一部のフレームに対して発音別の点数を再び計算することができる。
一例として、点数計算部220は、現在ウィンドウの一部のフレーム(f)に対する特定の発音の点数aと隣接ウィンドウのパッディングフレーム(f)に対する特定の発音の点数をbであるとする時、下記の数式(1)のように算術平均(arithmetic mean)して、現在ウィンドウの一部のフレーム(f)に対する最終点数s(f)を計算することができる。
他の例として、点数計算部220は、下記の数式(2)のように幾何平均(geometric mean)を活用して、現在ウィンドウの一部のフレーム(f)に対する最終点数s(f)を計算することができる。
さらに他の例として、点数計算部220は、aとbとに加重値(α)を互いに異ならせて付与し、下記の数式(3)または数式(4)のように算術平均または幾何平均して、最終点数s(f)を計算することができる。
このように、連続して隣接する2つのウィンドウに対して2回計算された発音別の点数を総合して最終点数を計算するので、さらに正確な点数計算が可能となる。また、数式(1)ないし数式(4)は、一例に過ぎず、その他の多様な統計的技法を活用して重畳されるフレームに対する点数計算が可能である。
図3は、一般的なBRDNNに基づく音響モデルを説明する図面である。図4及び図5は、一実施形態によるBRDNNに基づく音響モデルを説明する図面である。図3を参照すれば、一般的なBRDNN音響モデルでは、全体音声信号が入力されれば、全体音声信号に対する音声フレーム全体がBRDNN音響モデルの入力ノードに入力され、全体音声フレームに対して発音(例:a、e、i、o、u)別の確率を出力する。
図4及び図5を参照すれば、音声信号が入力される途中で音響点数計算装置200は、ウィンドウの音声フレームをBRDNN音響モデルの入力ノードに入力し、BRDNN音響モデルは、各ウィンドウの発音別の確率を出力する。
この際、図4及び図5は、ウィンドウサイズは4、パッディングサイズは2に設定されたことを例示したものであって、音声フレームは、時間順序上、左側から右側に入力が進行し、順に1、2、3、4…、18番フレームであると仮定する。
図4を参照すれば、前処理部210は、音声信号が入力される途中でウィンドウサイズに該当する4個の音声フレームが入力されるまで待ち、1番から4番フレームまで入力されれば、最初のウィンドウW1を抽出する。この際、パッディング追加部230は、5、6番フレームが入力されれば、5、6番フレームを抽出された最初のウィンドウW1の右側にパッディングフレームで追加する。
点数計算部220は、最初のウィンドウW1に対するパッディングフレーム追加が完了されれば、ウィンドウW1の各フレーム、すなわち、1番から6番フレームを音響モデルに入力して発音別の確率点数を出力する。
次いで、前処理部210は、5番から8番フレームまで入力されれば、二番目のウィンドウW2を抽出する。この際、パッディング追加部230は、二番目のウィンドウW2が抽出されれば、最初のウィンドウに属した3、4番フレームを二番目のウィンドウW2の左側にパッディングフレームで追加し、引き続き連続して入力される9、10番フレームをウィンドウW2の右側にパッディングフレームで追加する。
同様に、点数計算部220は、二番目のウィンドウW2に対するパッディングフレーム追加が完了されれば、ウィンドウW2の各フレーム、すなわち、3番から10番フレームを音響モデルに入力して発音別の確率点数を出力する。
前処理部210、パッディング追加部230及び点数計算部220は、音声信号が連続して入力される間に、このような過程を繰り返しながらウィンドウ単位で発音別の点数を計算する。
図5は、連続する二番目のウィンドウW2と三番目のウィンドウW3とを音響モデルに順次に入力して発音別の点数を計算したことを例示したものである。この際、音響モデル、特に、BRDNN音響モデルは、ウィンドウW2に属したフレームの点数計算時に、左右パッディングフレームLP2、RP2を活用し、三番目のウィンドウW3に属したフレームの点数計算時に、左右パッディングフレームLP3、RP3を活用する。
この際、示したように、三番目のウィンドウW3に属した一部のフレームは、二番目のウィンドウW2の右側パッディングフレームRP2と重畳される。この場合、点数計算部220は、二番目のウィンドウW2の右側パッディングフレームRP2に対して計算された発音別の点数と三番目のウィンドウW3に属したフレームに対して計算された発音別の点数とを前述したような統計的技法を活用して再計算し、その結果を三番目のウィンドウW3に属した重畳されるフレームに対する発音別の点数で最終出力することができる。
図6は、一実施形態による音響点数計算方法のフローチャートである。図6の実施形態は、図1の音響点数計算装置100によって行われる。前述したところによって解釈され、詳しい説明は省略する。
まず、音響点数計算装置100は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームをウィンドウ単位で抽出する(310)。この際、音声フレームを互いに重畳されないように連続して抽出することができる。ここで、ウィンドウのサイズは、音声認識分野、適用装置のコンピューティング性能などの多様な基準によって決定され、あらかじめ設定されるか、音声認識過程で動的に設定または調整されることもある。
次いで、音響点数計算装置100は、DNN音響モデルを用いて順次に抽出されるウィンドウ単位で発音別の点数を計算することができる(320)。この際、DNN音響モデルは、BRDNN音響モデルであり得る。
音響点数計算装置100は、ウィンドウが抽出される度に、順次にウィンドウを音響モデルに入力してウィンドウ単位で発音別の点数を計算することができる。
次いで、音響点数計算装置100は、音声認識装置が漸進的音声認識を行うように段階(320)から計算されたウィンドウの発音別の点数を出力することができる(330)。
次いで、引き続き入力される音声フレームが存在すれば(340)、ウィンドウを抽出する段階(310)に移動して、以下の過程を繰り返して行い、音声入力が終了して、これ以上の音声フレームが存在しなければ(340)、点数計算過程を終了する。
図7は、他の実施形態による音響点数計算方法のフローチャートである。図7の実施形態の音響点数計算方法は、図2の音響点数計算装置200が行うことができる。図2ないし図5を参照して詳しく説明したので、以下、詳細な説明は省略する。
音響点数計算装置200は、認識しようとする音声信号を音声フレームに変換し、該変換された音声フレームを互いに重畳されないように連続したウィンドウに分けて順に抽出することができる(410)。この際、ウィンドウのサイズは、前述したように音声認識分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定され、全体音声信号のフレーム個数よりも少ない個数で設定しうる。
次いで、ウィンドウが抽出されれば、抽出された現在ウィンドウの両側にパッディングフレームを追加する(420)。この際、現在ウィンドウに隣接する両側ウィンドウの一部のフレームを現在ウィンドウのパッディングフレームで追加することができる。追加されたパッディングフレームは、現在ウィンドウに属したフレームの発音別の確率を計算する時、追加情報として活用されうる。この際、パッディングサイズは、前述したように音声認識分野、適用装置のコンピューティング性能のような多様な基準を考慮して決定されうる。
次いで、DNN音響モデルを用いて順次に抽出されるウィンドウの各フレームに対して発音別の点数を計算する(430)。この際、DNN音響モデルは、BRDNN音響モデルであり得る。
次いで、音響モデルを通じて現在ウィンドウに属した各フレーム及びパッディングフレームに対する発音別の点数が計算されれば、現在ウィンドウに属した一部のフレームと隣接ウィンドウのパッディングフレームとが重畳されるか否かを判断することができる(440)。
次いで、重畳するフレームが存在すれば(440)、重畳する隣接ウィンドウのパッディングフレームに対して、既計算の発音別の点数に基づいて現在ウィンドウの一部のフレームに対して発音別の点数を再び計算することができる(450)。
この際、前述したように、重畳する2つのウィンドウのフレームに対して計算された発音別の点数を算術平均や幾何平均を行って、最終点数を計算し、必要に応じて重畳するフレームに対して計算された発音別の点数に加重値を付与し、算術平均や幾何平均を行って、最終点数を計算することができる。
次いで、現在抽出されたウィンドウに対して計算された発音別の点数を音声認識装置が漸進的音声認識を行うように出力することができる(460)。
次いで、音声信号が引き続き入力されて、まだ処理されていない音声フレームが存在する場合(470)、その音声フレームからウィンドウを抽出する段階(410)に移動し、そうでなければ、終了する。
図8は、一実施形態による音声認識装置のブロック図である。図8の音声認識装置500は、前述した実施形態による音響点数計算装置100、200がハードウェアまたはソフトウェア形態として具現された装置であり得る。
図8を参照すれば、前処理部510、音響モデル適用部520、言語モデル適用部530及び解釈部540を含みうる。
前処理部510は、認識する音声信号のフレームが連続して入力される間に、ウィンドウサイズに該当するフレームが入力されれば、ウィンドウを抽出する。
音響モデル適用部520は、前処理部510によって抽出されたウィンドウをDNN音響モデル、特に、BRDNN音響モデルに入力してウィンドウの各フレームに対して発音別の点数を計算する。
一実施形態によれば、前処理部510は、抽出されたウィンドウの両側にパッディングフレームを追加し、音響モデル適用部520は、パッディングフレームが追加されたウィンドウをDNN音響モデルに入力してパッディングフレームを含んだウィンドウの各フレームに対して発音別の点数を計算することができる。この際、DNN音響モデルは、BRDNN音響モデルであり得る。
この際、ウィンドウにパッディングフレームの追加によって、現在ウィンドウの一部のフレームと隣接するウィンドウ、例えば、現在ウィンドウの直前に抽出されたウィンドウの右側パッディングフレームが重畳することができる。この場合、音響モデル適用部520は、現在ウィンドウの重畳されたフレームに対して直前ウィンドウの右側パッディングフレームに対する発音別の点数に基づいて統計的技法を活用して再計算することができる。
言語モデル適用部530は、言語モデルを用いて単語/文章に関する情報、例えば、単語/文章の実際使用頻度に関する点数を出力することができる。この際、言語モデルは、N−Gramまたは神経網を基礎とすることができる。
解釈部540は、多様な解釈技法を活用してウィンドウ単位で出力される発音別の点数及び言語モデル適用部530の出力結果を漸進的に解釈して、現在ウィンドウまでの漸進的認識結果を出力することができる。
例えば、音声フレームが入力される間に、最初のウィンドウに対する発音別の点数が出力されれば、言語モデルの単語/文章別の点数を共に考慮して最初のウィンドウに対して認識結果を出力する。引き続き二番目のウィンドウに対する発音別の点数が出力されれば、二番目のウィンドウに対して出力された発音別の点数と言語モデルの単語/文章別の点数とを考慮して、二番目のウィンドウまでの認識結果を出力する。このように、新たなウィンドウに対して発音別の点数が出力されれば、漸進的に解釈しながら認識結果を出力することができる。
この際、解釈部540は、最終認識結果出力に関する既定の基準を確認し、既定の基準を満足する場合、現在ウィンドウまでの漸進的認識結果を認識しようとする全体音声信号に対する最終認識結果として出力することができる。この際、既定の基準は、ウィンドウの個数であるか、認識結果に対する臨界値であり得る。但し、これは、1つの例を説明するものであって、例示されたところに限定されるものではない。
例えば、迅速な認識結果提供のために、ウィンドウ個数が相対的に少ない数(例:2)に設定される場合、解釈部540は、二番目のウィンドウまでの漸進的認識結果を最終認識結果として出力することができる。
また、二番目のウィンドウまでの発音別の点数と言語モデルの単語/文章別の点数とを解釈した結果、特定の単語/文章が使われる確率が既定の臨界値(例:70%)以上である場合、二番目のウィンドウまでの認識結果を最終認識結果として出力することができる。
開示された実施形態によれば、BRDNNに基づく音響モデルを適用して正確な音声認識が可能であると共に、全体音声が入力される前でも、最終認識結果の提供が可能となる。
図9は、一実施形態による音声認識方法のフローチャートである。図9の音声認識方法は、図8の音声認識装置500によって行われる。
まず、音声認識装置500は、認識する音声信号のフレームが連続して入力される間に、入力された音声信号のフレームをウィンドウ単位で抽出する(610)。
次いで、音声認識装置500は、抽出されたウィンドウをDNN音響モデル、特に、BRDNN音響モデルに入力して、ウィンドウの各フレームに対して発音別の点数を計算して出力することができる(620)。
一実施形態によれば、音声認識装置500は、抽出されたウィンドウの両側にパッディングフレームを追加し、パッディングフレームが追加されたウィンドウをDNN音響モデルに入力して、パッディングフレームを含んだウィンドウの各フレームに対して発音別の点数を計算することができる。この際、ウィンドウにパッディングフレームの追加によって、現在ウィンドウの一部のフレームと隣接するウィンドウのパッディングフレームとが重畳する場合、現在ウィンドウの重畳されたフレームに対して直前ウィンドウのパッディングフレームに対して、既計算の発音別の点数に基づいて統計的技法を活用して再計算することができる。
次いで、音声認識装置500は、言語モデルを用いて単語/文章別の点数を出力することができる(630)。この際、言語モデルは、N−Gramまたは神経網に基づく言語モデルであり得る。
次いで、音声認識装置500は、多様な解釈技法を活用してウィンドウ単位で出力される発音別の点数及び言語モデル適用部530の出力結果を漸進的に解釈して、現在ウィンドウまでの漸進的認識結果を出力することができる(640)。
次いで、音声認識装置500は、所定の基準を確認して(650)、満足する場合、現在ウィンドウまでの漸進的認識結果を全体音声信号に対する最終認識結果として出力することができる(660)。この際、既定の基準は、ウィンドウの個数または認識結果の臨界値であり得るが、これに限定されるものではない。
確認の結果(650)、所定の基準を満足しなければ、音声フレームから次のウィンドウを抽出する段階(610)に移動する。
図10は、一実施形態による音声認識技術が適用された電子装置のブロック図である。
一実施形態による電子装置700は、TV、ナビゲーション、自動車電子装置、スマートフォン、タブレットPC、スマートウォッチ、デスクトップコンピュータ、ノート型パソコンなどを含みうるが、これらに制限されるものではない。
図10を参照すれば、電子装置700は、音声入力部710、音声認識部720及び処理部730を含みうる。音声認識部720は、図8の実施形態による音声認識装置500をハードウェアまたはソフトウェア形態で製作して搭載したものであり得る。この際、音声認識部720は、前述した実施形態によって解釈されうるので、詳しい説明は省略する。
音声入力部710は、電子装置700のマイクロホンなどを通じて、ユーザが入力する音声信号を受信することができる。示したように、ユーザの音声信号は、他の言語への翻訳のための文章や、TV制御、自動車走行制御などのための命令語などと関連する。
音声認識部720は、アナログ形態に入力されるユーザの音声信号をデジタル信号に変換して多数の音声フレームに分ける前処理過程を行うことができる。また、音声フレームを音響モデルに入力するために、ウィンドウ単位で抽出することができる。
また、音声認識部720は、抽出されたウィンドウの両側にパッディングフレームを追加し、パッディングフレームが追加されたウィンドウのあらゆるフレームを音響モデルに入力して、各フレームに対する発音別の点数を計算することができる。この際、パッディングフレームの追加によって、連続するウィンドウの間の重畳されるフレームが存在すれば、その重畳されるフレームに対する発音別の点数は、多様な統計的技法を活用して再計算されうる。また、音声認識部720は、言語モデルを用いて単語/文章別の点数を出力することができる。
また、音声認識部720は、音響モデル及び言語モデルの出力結果を活用してウィンドウ単位で漸進的に解釈して、現在ウィンドウまでの漸進的認識結果を出力し、所定の基準を満足する場合、現在ウィンドウまでの認識結果を認識する全体音声信号に対する最終認識結果として出力することができる。
処理部730は、電子装置700の機能を制御する電子装置700のプロセッサであり得る。処理部730は、音声認識部720によって出力された音声認識結果に基づいて相応する動作を行うことができる。例えば、ユーザが入力した音声の認識結果を、スピーカーなどを通じて、音声として出力するか、ディスプレイにテキスト形式で提供することができる。または、電子装置700と関連した命令語(例:電源オン/オフ、ボリューム調節など)の処理動作を行うことができる。
または、他の言語に翻訳する場合、音声認識結果を翻訳しようとする他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。但し、これに限定されるものではなく、その他の多様な分野で活用が可能である。
図11は、図10の電子装置700が行う音声認識動作のフローチャートである。
まず、電子装置700は、マイクロホンなどを通じて、ユーザが入力する音声信号を受信することができる(810)。
次いで、電子装置700は、ユーザの音声信号のフレームをウィンドウ単位で抽出し、音響モデルを用いて抽出されたウィンドウ単位で発音別の点数を計算し、ウィンドウ単位で順に出力される発音別の点数を漸進的に解釈して音声信号を認識することができる(820)。この際、言語モデルを用いて単語/文章別の点数を計算し、該計算された単語/文章別の点数を共に考慮して解釈することができる。
この際、電子装置700は、抽出されたウィンドウの両側にパッディングフレームを追加して音響モデルに入力し、パッディングフレームの追加によって、重畳されるウィンドウのフレームに対しては、そのウィンドウフレームと重畳される隣接ウィンドウのパッディングフレームの計算結果に基づいて、統計的技法を活用して再計算することによって、より正確な発音別の点数を計算することができる。
一実施形態によれば、電子装置700は、電子装置700のコンピューティング性能や、音声認識分野(例:翻訳、命令語処理)によって、既定の基準を満足するか否かをチェックし、満足する場合、現在ウィンドウまでの認識結果を全体音声信号に対する最終認識結果に返還することができる。
次いで、電子装置700は、出力された音声認識結果に基づいて相応する動作を行うことができる(830)。例えば、ユーザが入力した音声の認識結果を、スピーカーなどを通じて、音声として出力するか、ディスプレイにテキスト形式で提供することができる。または、電子装置700と関連した命令語(例:電源オン/オフ、ボリューム調節など)の処理動作を行うことができる。または、他の言語に翻訳する場合、音声認識結果を翻訳しようとする他の言語に翻訳し、該翻訳された結果を音声やテキスト形式で出力することができる。
一方、本実施形態は、コンピュータで読み取り可能な記録媒体にコンピュータで読み取り可能なコードとして具現することが可能である。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取れるデータが保存されるあらゆる種類の記録装置を含む。
コンピュータで読み取り可能な記録媒体の例としては、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ保存装置などがあり、また、キャリアウェーブ(例えば、インターネットを介した伝送)の形態で具現するものを含む。また、コンピュータで読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散されて、分散方式でコンピュータで読み取り可能なコードとして保存されて実行可能である。そして、本実施形態を具現するための機能的なプログラム、コード及びコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されうる。
当業者ならば、開示された技術的思想や必須的な特徴を変更せずとも、他の具体的な形態で実施可能であることを理解できるであろう。したがって、前述した実施形態は、あらゆる面で例示的なものであり、限定的ではないということを理解せねばならない。
本発明は、音声認識及び音響点数計算装置及び方法関連の技術分野に適用可能である。
100 音響点数計算装置
110 前処理部
120 点数計算部

Claims (26)

  1. 音声認識のための音響点数計算装置において、
    音声フレームを順次にウィンドウに抽出する前処理部と、
    深層神経網に基づく音響モデルを用いて、前記順次に抽出されたウィンドウの音響点数を計算する点数計算部と、
    を含み、前記点数計算部は、前記抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音響点数計算装置。
  2. 前記深層神経網は、双方向循環深層神経網である請求項1に記載の音響点数計算装置。
  3. 前記抽出されたウィンドウの両側にパッディングフレームを追加するパッディング追加部をさらに含む請求項1又は2に記載の音響点数計算装置。
  4. 前記抽出されたウィンドウの一部のフレームは、前記抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームと重畳する請求項3に記載の音響点数計算装置。
  5. 前記点数計算部は、
    前記抽出されたウィンドウに対して音響点数が計算されると、前記隣接ウィンドウのパッディングフレームに対して既に計算された音響点数に基づ統計的技法を用いて、前記抽出されたウィンドウの重畳する一部のフレームに対する音響点数を再計算する請求項4に記載の音響点数計算装置。
  6. 前記統計的技法は、算術平均及び幾何平均のうちの少なくとも1つを計算することを含む請求項5に記載の音響点数計算装置。
  7. 前記ウィンドウのサイズ及びパッディングのサイズは、音声認識適用分野及び前記音響点数計算装置が適用された機器のコンピューティング性能のうちの1つ以上に基づいて決定される請求項3に記載の音響点数計算装置。
  8. 音声認識のための音響点数計算方法において、
    音声フレームを順次にウィンドウに抽出する段階と、
    深層神経網に基づく音響モデルを用いて、前記順次に抽出されたウィンドウの音響点数を計算する段階と、
    を含み、前記音響点数を計算する段階は、前記抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音響点数計算方法。
  9. 前記深層神経網は、双方向循環深層神経網である請求項8に記載の音響点数計算方法。
  10. 前記抽出されたウィンドウの両側にパッディングフレームを追加する段階をさらに含む請求項8又は9に記載の音響点数計算方法。
  11. 前記抽出されたウィンドウの一部のフレームは、前記抽出されたウィンドウの隣接ウィンドウに追加されたパッディングフレームと重畳する請求項10に記載の音響点数計算方法。
  12. 前記隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数に基づ統計的技法を用いて、前記抽出されたウィンドウの重畳された一部のフレームに対する音響点数を再計算する段階をさらに含む請求項11に記載の音響点数計算方法。
  13. 前記統計的技法は、算術平均及び幾何平均のうちの少なくとも1つを計算することを含む請求項12に記載の音響点数計算方法。
  14. 前記ウィンドウのサイズ及びパッディングのサイズは、音声認識適用分野及び前記音響点数計算方法を行う機器のコンピューティング性能のうちの1つ以上に基づいて決定される請求項11に記載の音響点数計算方法。
  15. 認識する音声信号のフレームが連続して入力される間に、前記フレームをウィンドウに抽出する前処理部と、
    深層神経網に基づく音響モデルを用いて、前記抽出されたウィンドウの音響点数を出力する音響モデル適用部と、
    前記出力されたウィンドウの音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する解釈部と、
    を含み、前記音響モデル適用部は、抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音声認識装置。
  16. 言語モデルを用いて単語/文章別の点数を出力する言語モデル適用部をさらに含み、
    前記解釈部は、
    前記出力された単語/文章別の点数をさらに基にして、前記現在ウィンドウまでの漸進的認識結果を出力する請求項15に記載の音声認識装置。
  17. 前記解釈部は、
    既定の基準を満足する場合、前記現在ウィンドウまでの漸進的認識結果を、前記音声信号に対する最終認識結果として出力する請求項15又は16に記載の音声認識装置。
  18. 前記深層神経網は、双方向循環深層神経網である請求項15ないし17のうちの何れか1項に記載の音声認識装置。
  19. 前記言語モデルは、N−Gramまたは神経網モデルを基礎とする請求項16に記載の音声認識装置。
  20. 前記音響モデル適用部は、
    前記抽出されたウィンドウの両側にパッディングフレームを追加して、パッディングフレームが追加されたウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数に基づく統計的技法を用いて、前記対象ウィンドウの音響点数を計算する請求項15ないし19のうちの何れか1項に記載の音声認識装置。
  21. 認識する音声信号のフレームが連続して入力される間に、前記フレームをウィンドウに抽出する段階と、
    抽出されたウィンドウにパッディングフレームを追加する段階と、
    深層神経網に基づく音響モデルを用いて、前記抽出されたウィンドウの音響点数を出力する段階と、
    前記出力されたウィンドウの音響点数に基づいて、現在ウィンドウまでの漸進的認識結果を出力する段階と、
    を含み、前記音響点数を出力する段階は、対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、音声認識方法。
  22. 言語モデルを用いて単語/文章別の点数を出力する段階をさらに含み、
    前記漸進的認識結果を出力する段階は、
    前記出力された単語/文章別の点数をさらに基にして、前記現在ウィンドウまでの漸進的認識結果を出力する請求項21に記載の音声認識方法。
  23. 既定の基準を満足するか否かを判断する段階と、
    前記判断の結果、既定の基準を満足する場合、前記現在ウィンドウまでの漸進的認識結果を、前記音声信号に対する最終認識結果として出力する段階と、
    をさらに含む請求項21又は22に記載の音声認識方法。
  24. 記音響点数を出力する段階は、
    前記パッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数に基づく統計的技法を用いて、前記対象ウィンドウの音響点数を計算する請求項21ないし23のうち何れか1項に記載の音声認識方法。
  25. ユーザから音声信号を入力される音声入力部と、
    ユーザの音声信号が入力される間に、深層神経網音響モデルを用いて現在入力された音声信号のフレームをウィンドウ単位で音響点数を出力し、該出力されたウィンドウ単位の音響点数を漸進的に解釈してユーザの音声信号を認識する音声認識部と、
    認識結果に該当する動作を行う処理部と、
    を含み、前記音声認識部は、前記音声信号から抽出されたウィンドウにパッディングフレームが追加された対象ウィンドウの各フレームに対して音響点数を計算し、前記対象ウィンドウの隣接ウィンドウに追加されたパッディングフレームに対して既に計算された音響点数を考慮して、前記対象ウィンドウの音響点数を計算する、電子装置。
  26. 前記動作は、前記認識結果を、テキストまたは音声として出力、他の言語に翻訳、及び前記電子装置に関する命令語の処理のうち、少なくとも1つを含む請求項25に記載の電子装置。
JP2016134954A 2015-07-24 2016-07-07 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置 Active JP6837298B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020150105358A KR102413692B1 (ko) 2015-07-24 2015-07-24 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
KR10-2015-0105358 2015-07-24

Publications (2)

Publication Number Publication Date
JP2017027044A JP2017027044A (ja) 2017-02-02
JP6837298B2 true JP6837298B2 (ja) 2021-03-03

Family

ID=56507519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016134954A Active JP6837298B2 (ja) 2015-07-24 2016-07-07 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置

Country Status (5)

Country Link
US (1) US10714077B2 (ja)
EP (1) EP3121810B1 (ja)
JP (1) JP6837298B2 (ja)
KR (1) KR102413692B1 (ja)
CN (1) CN106373561B (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CA3036067C (en) 2016-09-06 2023-08-01 Deepmind Technologies Limited Generating audio using neural networks
US10366173B2 (en) * 2016-09-09 2019-07-30 Electronics And Telecommunications Research Institute Device and method of simultaneous interpretation based on real-time extraction of interpretation unit
US10825445B2 (en) * 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
KR102410831B1 (ko) * 2017-03-23 2022-06-21 삼성전자주식회사 음향 모델을 트레이닝하는 방법 및 그 장치
KR101891778B1 (ko) * 2017-04-07 2018-08-24 네이버 주식회사 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
CN109697977B (zh) * 2017-10-23 2023-10-31 三星电子株式会社 语音识别方法和设备
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
US10628486B2 (en) * 2017-11-15 2020-04-21 Google Llc Partitioning videos
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN111091817B (zh) * 2018-10-24 2022-10-11 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
KR102093822B1 (ko) * 2018-11-12 2020-03-26 한국과학기술연구원 음원 분리 장치
US20220199074A1 (en) * 2019-04-18 2022-06-23 Dolby Laboratories Licensing Corporation A dialog detector
CN110648690B (zh) * 2019-09-26 2020-12-15 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器
CN110827837B (zh) * 2019-10-18 2022-02-22 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
US11195533B2 (en) * 2020-03-25 2021-12-07 Disney Enterprises, Inc. Systems and methods for incremental natural language understanding
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing

Family Cites Families (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5093899A (en) 1988-09-17 1992-03-03 Sony Corporation Neural network with normalized learning constant for high-speed stable learning
JP2699447B2 (ja) 1988-09-17 1998-01-19 ソニー株式会社 信号処理装置
JPH0642159B2 (ja) * 1989-10-03 1994-06-01 株式会社エイ・ティ・アール自動翻訳電話研究所 連続音声認識装置
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
JPH06348299A (ja) * 1993-06-07 1994-12-22 Nippondenso Co Ltd 音素認識装置および音素認識方法
CA2161540C (en) 1994-04-28 2000-06-13 Orhan Karaali A method and apparatus for converting text into audible signals using a neural network
US5621848A (en) 1994-06-06 1997-04-15 Motorola, Inc. Method of partitioning a sequence of data frames
KR100202424B1 (ko) 1995-12-08 1999-06-15 정호선 실시간 음성인식방법
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US5913194A (en) 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
JP2002515610A (ja) * 1998-05-11 2002-05-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 位相変化からの雑音寄与度の決定に基づく音声符号化
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6173258B1 (en) 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6308155B1 (en) 1999-01-20 2001-10-23 International Computer Science Institute Feature extraction for automatic speech recognition
US6947890B1 (en) 1999-05-28 2005-09-20 Tetsuro Kitazoe Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
US6453284B1 (en) 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
DE19957221A1 (de) 1999-11-27 2001-05-31 Alcatel Sa Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7197456B2 (en) 2002-04-30 2007-03-27 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
CN100495535C (zh) * 2003-02-19 2009-06-03 松下电器产业株式会社 语音识别装置及语音识别方法
KR20040100592A (ko) 2003-05-23 2004-12-02 엘지전자 주식회사 이동 기기에서의 실시간 화자독립가변어 음성인식 방법
US7480615B2 (en) 2004-01-20 2009-01-20 Microsoft Corporation Method of speech recognition using multimodal variational inference with switching state space models
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
DE602004015518D1 (de) * 2004-12-28 2008-09-11 Loquendo Societa Per Azioni System und verfahren zur automatischen spracherkennung
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
US7496548B1 (en) 2005-09-26 2009-02-24 Quintura, Inc. Neural network for electronic search applications
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
JP2008116744A (ja) * 2006-11-06 2008-05-22 Nippon Telegr & Teleph Corp <Ntt> 連続音声認識方法、連続音声認識装置、プログラム
KR100883657B1 (ko) * 2007-01-26 2009-02-18 삼성전자주식회사 음성 인식 기반의 음악 검색 방법 및 장치
CN101515456A (zh) * 2008-02-18 2009-08-26 三星电子株式会社 语音识别接口装置及其语音识别方法
US8503653B2 (en) * 2008-03-03 2013-08-06 Alcatel Lucent Method and apparatus for active speaker selection using microphone arrays and speaker recognition
CN101826263B (zh) * 2009-03-04 2012-01-04 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
ATE526662T1 (de) * 2009-03-26 2011-10-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zur änderung eines audiosignals
JP5243325B2 (ja) * 2009-03-30 2013-07-24 Kddi株式会社 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
EP2363852B1 (en) 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
BR112013020699B1 (pt) * 2011-02-14 2021-08-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Aparelho e método para codificar e decodificar um sinal de áudio utilizando uma parte antecipada alinhada
US8756061B2 (en) * 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
CN102915728B (zh) * 2011-08-01 2014-08-27 佳能株式会社 声音分段设备和方法以及说话者识别系统
CN102956238B (zh) * 2011-08-19 2016-02-10 杜比实验室特许公司 用于在音频帧序列中检测重复模式的方法及设备
CN102436816A (zh) * 2011-09-20 2012-05-02 安徽科大讯飞信息科技股份有限公司 一种语音数据解码方法和装置
DE102012200512B4 (de) * 2012-01-13 2013-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Lautsprechersignalen für eine Mehrzahl von Lautsprechern unter Verwendung einer Verzögerung im Frequenzbereich
US8725498B1 (en) * 2012-06-20 2014-05-13 Google Inc. Mobile speech recognition with explicit tone features
US8527276B1 (en) 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN104038804B (zh) * 2013-03-05 2017-09-29 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
US9842585B2 (en) * 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network
US9190053B2 (en) * 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US9202462B2 (en) * 2013-09-30 2015-12-01 Google Inc. Key phrase detection
JP6222821B2 (ja) * 2013-10-10 2017-11-01 日本放送協会 誤り修正モデル学習装置、及びプログラム
US9715660B2 (en) 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US10186282B2 (en) * 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9858922B2 (en) * 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
WO2016037311A1 (en) * 2014-09-09 2016-03-17 Microsoft Technology Licensing, Llc Variable-component deep neural network for robust speech recognition
CN104681036B (zh) * 2014-11-20 2018-09-25 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US9892731B2 (en) * 2015-09-28 2018-02-13 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks

Also Published As

Publication number Publication date
US20170025119A1 (en) 2017-01-26
EP3121810A1 (en) 2017-01-25
KR20170011905A (ko) 2017-02-02
JP2017027044A (ja) 2017-02-02
CN106373561B (zh) 2021-11-30
US10714077B2 (en) 2020-07-14
KR102413692B1 (ko) 2022-06-27
EP3121810B1 (en) 2018-05-09
CN106373561A (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
JP6837298B2 (ja) 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置
US11848008B2 (en) Artificial intelligence-based wakeup word detection method and apparatus, device, and medium
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
US11450313B2 (en) Determining phonetic relationships
US20150325240A1 (en) Method and system for speech input
KR20170041105A (ko) 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
JPWO2016120904A1 (ja) 意図推定装置及び意図推定方法
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
WO2020252935A1 (zh) 声纹验证方法、装置、设备及存储介质
CN114495905A (zh) 语音识别方法、装置及存储介质
CN114999463B (zh) 语音识别方法、装置、设备及介质
US20230114386A1 (en) Textual Echo Cancellation
JP7291099B2 (ja) 音声認識方法及び装置
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
JPWO2012093451A1 (ja) 音声認識システム、音声認識方法および音声認識プログラム
CN112329484A (zh) 自然语言的翻译方法及装置
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
CN113506561B (zh) 文本拼音的转换方法及装置、存储介质及电子设备
US20230107695A1 (en) Fusion of Acoustic and Text Representations in RNN-T
KR20220059759A (ko) 종단형 음성 인식 방법 및 장치
CN117059091A (zh) 一种语音识别智能断句方法及装置
CN113793597A (zh) 一种语音识别方法、装置、电子设备和存储介质
JP2017156614A (ja) 対応付け編集装置、対応付け編集方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190618

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210209

R150 Certificate of patent or registration of utility model

Ref document number: 6837298

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250