JP2011039434A - 音声認識装置およびその特徴量正規化方法 - Google Patents

音声認識装置およびその特徴量正規化方法 Download PDF

Info

Publication number
JP2011039434A
JP2011039434A JP2009189159A JP2009189159A JP2011039434A JP 2011039434 A JP2011039434 A JP 2011039434A JP 2009189159 A JP2009189159 A JP 2009189159A JP 2009189159 A JP2009189159 A JP 2009189159A JP 2011039434 A JP2011039434 A JP 2011039434A
Authority
JP
Japan
Prior art keywords
value
time
correction value
speech recognition
initial value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009189159A
Other languages
English (en)
Other versions
JP5473116B2 (ja
Inventor
Kengo Fujita
顕吾 藤田
Masaki Naito
正樹 内藤
Tsuneo Kato
恒夫 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2009189159A priority Critical patent/JP5473116B2/ja
Publication of JP2011039434A publication Critical patent/JP2011039434A/ja
Application granted granted Critical
Publication of JP5473116B2 publication Critical patent/JP5473116B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】応答遅延を生じること無く、入力音声の音響特徴量と音響モデルとのミスマッチを解消できるCM値を算出する音声認識装置およびその特徴量正規化方法を提供する。
【解決手段】初期補正値蓄積部101には正規化用CM値の初期値cm_initが蓄積されている。各時刻補正値算出部102は、音声認識ごとに所定の時刻周期で入力される音響特徴量x(t)の、認識開始時刻sから現在時刻cまでの経過期間TcにおけるCM値[cm_current(c)]を算出する。補正値更新部103は、現在の初期CM値cm_initおよび各時刻CM値cm_current(c)に基づいて正規化用CM値cm(c)を算出し、これを特徴量正規化部2で用いるCM値として更新登録する。音響特徴量蓄積部104は、音響特徴量を入力音声全体にわたって蓄積する。初期補正値算出部105は、音響特徴量蓄積部104に蓄積された音響特徴量を用いて、初期補正値蓄積部101に蓄積する初期CM値cm_initを算出する。
【選択図】図2

Description

本発明は、音声認識装置およびその特徴量正規化方法に係り、特に、音声信号から抽出された音響特徴量を正規化して音声認識に用いる音声認識装置およびその特徴量正規化方法に関する。
従来の音声認識装置は、図3に一例を示したように、マイクロフォン(図示せず)で検出されてA/D変換された入力音声を分析して音響特徴量を抽出する音響分析部1と、この音響特徴量と音響モデルとのミスマッチを解消するために、予め記憶されている固定補正値6を用いて音響特徴量を正規化する特徴量正規化部2と、辞書4による制限下で正規化後の音響特徴量と音響モデル5とを比較・照合し、入力音声として尤もらしい音(素)の並びを出力する辞書探索部3とから構成される。
音響特徴量は、MFCC(Mel-Frequency Cepstrum Coefficient)等の次元ベクトルであり、入力音声から単位時間毎に得られる時系列データである。音声認識で用いる音素(子音や母音など)に多数の音声データから分析された音響特徴量の分布を集計すると、次元毎に複数の正規分布の重み付け和で近似される統計モデルが作成できる。このように学習された統計モデルは音響モデルと呼ばれ、音声認識処理においては、入力音声から分析された音響特徴量と音響モデルとの照合が行われる。
しかしながら、マイク特性、背景雑音、話者等の特性差が入力音声と音響モデル学習用音声データとで異なることから、入力音声の音響特徴量の分布と音響モデルの確率密度分布との間にミスマッチが生じ、認識精度が低下するという問題がある。このミスマッチを解消するために、入力音声全体にわたって各時刻の音響特徴量の平均値(CM値)を算出し、音響特徴量を各時刻において音響モデルと照合する際に、音響特徴量からCM値を減算した正規化後の音響特徴量を用いるCMN(Cepstral Mean Normalization)が広く利用されている。CMNでは、次式(1)で算出されるCM値を音響特徴量x(t)から減算し、音響特徴量の平均値をゼロとすることで、入力音声の音響特徴量と音響モデルとのミスマッチを解消するようにしている。
Figure 2011039434
ここで、Tは入力音声全体の単位時間数、x(t)は時刻tにおける音響特徴量を表す。また、入力音声の音響特徴量の平均値に加えて分散値を用いるMVN(Mean and Variance Normalization)も提案されている。以下ではCMNについて述べるが、MVNで用いる平均値についてもCMNにおけるCM値と同様に取り扱うことができる。
特許文献1には、入力発声全体の特徴量を用いてCM値を算出することによる処理遅延を回避するため、1つ以上前に入力された音声の音響特徴量を用いて算出したCM値を正規化処理に利用する方法が開示されている。また、1つ以上前に入力された複数音声を用いてそれぞれCM値を算出し、それらの平均CM値を正規化処理に利用することで、単一音声を用いる場合と比較してCM値の精度を向上させる技術も開示されている。
特許文献2には、入力発声の特徴量の平均値であるCM値に加えて分散値を正規化に用いるMVNにおいて、局所的な分散値の算出を繰り返すことで認識精度を改善する正規化法が開示されている。CM値に関しては、入力発声全体の特徴量により算出されたCM値、または予め多数の発声データ等により算出されたCM値を用いる方法と、分散値同様局所的なCM値を用いる方法とが開示されている。局所的なCM値は、直前局所CM値と現在の局所CM値との重み付け和をとることにより算出される。
特開平9−90990号公報 特開2008−233782号公報
音響特徴量を正規化後に音響モデルと比較、照合すれば、CMNにより入力音声と音響特徴量とのミスマッチが解消されるために音声認識精度の低下を防ぐことができる。しかしながら、上式(1)に示したように、CM値の算出には入力音声全体にわたる音響特徴量が必要となるため、入力音声全体の音響特徴量が得られるまで辞書探索処理が開始できず、応答遅延が生じてしまう。
このような技術課題を解決するために、入力開始から一定時間分の音響特徴量のみを用いてCM値を算出する方法、予め算出しておいた固定CM値を用いる方法、あるいは現入力音声以前の1つ以上のユーザ入力音声の特徴量を用いてCM値を算出する方法も提案されている。
しかしながら、一定時間分のみの音響特徴量を用いる場合でも応答遅延は生じる。また、使用する一定の区間に実際にユーザ発声が含まれていない、あるいは突発的に過大な背景雑音が含まれている、といった場合、CM値の精度が低くなるので認識精度が低下する。また、予め算出しておいた固定CM値を用いる場合、応答遅延は生じないものの、入力音声と固定補正値を算出するために用いた音声データとの特性差が大きい場合、認識精度が低下してしまう。現入力音声以前の1つ以上のユーザ入力音声の音響特徴量を用いる場合も同様に、応答遅延は生じないものの、現入力以前と現入力時点で音声認識使用環境が大きく変動するなど、過去の入力音声と現入力音声との特性差が大きい場合には認識精度が低下してしまう。
本発明の目的は、上記した従来技術の課題を全て解決し、応答遅延を生じさせること無く、CMNにおいて入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できる音声認識装置およびその特徴量正規化方法を提供することにある。
上記の目的を達成するために、本発明は、音声信号から抽出された音響特徴量を正規化して音声認識に用いる音声認識装置において、正規化用の補正値を音響特徴量の時系列に基づいて適応的に決定する補正値適応的決定手段を設け、この補正値適応的決定手段が、以下の構成を具備した点に特徴がある。
(1)補正値の初期値を記憶する手段と、所定の時刻周期で音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて各時刻補正値を算出する手段と、現在時刻における補正値を、前記初期値および各時刻補正値の重み付け和として算出する手段とを具備したことを特徴とする。
(2)音響特徴量の時系列を蓄積する手段と、蓄積された音響特徴量の少なくとも一つの時系列に基づいて補正値の初期値を算出する手段と、算出された初期値を前記初期値を記憶する手段に更新登録する手段とを具備したことを特徴とする。
(3)正規化された音響特徴量が音響モデルと照合されるようにしたことを特徴とする。
(4)正規化された音響特徴量を用いて音響モデルを入力音声に適応させるようにしたことを特徴とする。
(5)各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の平均値を算出することを特徴とする。
(6)音声認識の開始時刻が、音声の入力が最初に検出された時刻であることを特徴とする。
(7)各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の時系列から無音区間を除いた発声区間の平均値を算出することを特徴とする。
(8)初期値を記憶する手段には、音声信号の入力デバイスごとに初期値が記憶されており、入力デバイスに対応した初期値が前記補正値の算出に用いられることを特徴とする。
(9)初期値を記憶する手段には、発話者ごとに初期値が記憶されており、発話者に対応した初期値が前記補正値の算出に用いられることを特徴とする。
(10)初期値を記憶する手段には、音声に含まれる背景雑音の種類やレベルといった特性ごとに初期値が記憶されており、背景雑音特性に対応した初期値が前記補正値の算出に用いられることを特徴とする。
本発明によれば、以下のような効果が達成される。
(1)音響特徴量を正規化するための補正値が、音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて算出されるので、応答遅延を生じさせること無く、入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できるようになり、その結果、音声認識の精度を向上させることが可能になる。
(2)正規化用の補正値の初期値が音響特徴量の履歴情報に基づいて更新されるようにしたので、周囲環境の変動が大きな場所での音響認識においても、入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できるようになる。
(3)正規化された音響特徴量が音響モデルと照合されるようにしたので、発話後の早い段階から音響特徴量と音響モデルとのミスマッチを解消することが可能となり、その結果、発話後の早い段階から認識精度を向上させることができるようになる。
(4)正規化された音響特徴量を用いて音響モデルを入力音声に適応させるようにしたので、発声終了とほぼ同時に音響モデルを発話者や環境音に適応させることができるようになる。したがって、同一話者あるいは同一環境で音声認識が連続して行われるような場合には、次の音声認識から発話者や環境音に対して最適化された音響モデルによる音声認識が可能になり、その結果、次回以降の音声認識では発話の最初から認識精度を向上させることができるようになる。
(5)正規化用の補正値が、音声認識の開始時刻から現在時刻までの音響特徴量の平均値に基づいて算出されるので、一時的な外乱やノイズにかかわらず、入力音声の音響特徴量と音響モデルとのミスマッチを十分に解消できるようになる。
(6)音声認識の開始時刻を音声の入力が最初に検出された時刻としたので、真の音声入力のみに基づいて正規化を行えるようになる。
(7)音声認識の開始時刻から現在時刻までの音響特徴量の時系列から無音区間を除いた発声区間の平均値に基づいて正規化用の補正値を算出するようにしたので、真の音声入力のみに基づいて正規化を行えるようになる。
(8)正規化用の補正値の初期値を入力デバイスごとに用意すれば、入力デバイスの電気特性に依存しない正規化が可能になる。
(9)正規化用の補正値の初期値を発話者ごとに用意すれば、発話者の音声特性に依存しない正規化が可能になる。
(10)正規化用の補正値の初期値を音声に含まれる背景雑音の種類やレベルといった特性ごとに用意すれば、背景雑音特性に依存しない正規化が可能になる。
本発明を適用した音声認識装置の主要部の構成を示したブロック図である。 本発明の一実施形態の動作を示したフローチャートである。 従来の音声認識装置の構成を示したブロック図である。
以下、図面を参照して本発明の実施形態について詳細に説明する。図1は、本発明を適用した音声認識装置の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。本実施形態では、特徴量正規化部2において音響特徴量を正規化するための補正値(CM値)が、補正値適応的決定部10により音響特徴量の時系列データに基づいて適応的に決定されるようにした点に特徴がある。
補正値適応的決定部10において、初期補正値蓄積部101には、正規化用CM値の初期値cm_initが予め蓄積されている。この初期CM値cm_initは、後に詳述するように、音響特徴量の履歴に基づいて周期的あるいは所定のイベントを契機に更新される。
なお、音声信号を検出するマイクロフォンやA/D変換器等の入力デバイスが複数種用意されている場合には、入力デバイスごとに初期CM値cm_initを蓄積しておき、使用する入力デバイスに対応した初期CM値cm_initが用いられるようにすることが望ましい。同様に、音声認識の対象者が限られている場合には、発話者ごとに初期CM値cm_initを蓄積しておき、発話者に対応した初期CM値cm_initが用いられるようにすることが望ましい。
各時刻補正値算出部102は、音声認識ごとに所定の時刻周期で入力される音響特徴量x(t)の、認識開始時刻sから現在時刻cまでの経過期間Tc(=c−s+1)におけるCM値[cm_current(c)]を次式(2)に基づいて算出する。
Figure 2011039434
前記認識開始時刻sは、入力音声が検知された時刻であっても良いし、入力音声が検知されてから所定の期間が経過した時刻であっても良いし、あるいは音声認識装置によりユーザ発声の入力が検出された時刻であっても良い。
なお、音声認識装置により認識されたユーザ発声の開始時刻と現在時刻との間であっても、息継ぎ等による無音区間が挿入されている場合があり、これがCM値に誤差を生じさせる原因となることがある。したがって、例えば入力音声のパワー変化を閾値処理する等により前記無音区間を検出し、この無音区間を除外した厳密なユーザ発声区間Tdのみを対象に、CM値[cm_current(c)]を次式(3)に基づいて算出するようにしても良い。
Figure 2011039434
補正値更新部103は、初期補正値蓄積部101に蓄積されている現在の初期CM値cm_init、および前記各時刻補正値算出部102で算出された現在時刻cにおける各時刻CM値cm_current(c)を次式(4)に適用して現在時刻cにおける正規化用CM値cm(c)を算出し、これを特徴量正規化部2で用いるCM値として更新登録する。
Figure 2011039434
ここで、符号τは単位時間当たりのCM値更新度を決定する重み係数であり、τにより現入力音声へのCM値の適応速度を調節することができるため、例えば背景雑音レベルの大きさに応じて異なるτを用いるようにしても良い。すなわち、音声認識では始めに背景雑音レベルが計測され、この背景雑音レベルを基準に設定される所定の閾値を超える入力信号がユーザ発声と認識される。一般的に初期CM値cm_initは背景雑音レベルが低い環境を想定して設定されるので、前記計測された背景雑音レベルが小さければ重み係数τを大きめの値に設定して初期値の影響を大きくする一方、背景雑音レベルが大きければ重み係数τを小さめ値に設定して現入力音声の影響を大きくすることが望ましい。
特徴量正規化部2は、前記補正値更新部103により更新された現在時刻cにおけるCM値cm(c)および音響特徴量x(c)を単位時間毎に次式(5)に適用し、正規化された音響特徴量x'(c)を得る。
Figure 2011039434
音響特徴量蓄積部104は、音声認識ごとに音響特徴量を入力音声全体にわたって蓄積する。このとき、音声認識装置により検出されたユーザ発声の始端時刻および終端時刻も併せて記憶される。初期補正値算出部105は、音響特徴量蓄積部104に蓄積された1つ以上の音声の音響特徴量を用いて、初期補正値蓄積部101に蓄積する初期CM値cm_initを次式(6)に従って算出する。ここで、符号Mは算出に用いる音声データ数であり、符号eは音声データにおいて算出に用いる最終時刻である。
Figure 2011039434
なお、前記初期CM値cm_initが入力デバイス毎あるいは発話者毎に蓄積されている場合には、初期補正値算出部105も音響特徴量xi(t)を入力デバイス毎あるいは発話者毎に上式(6)に適用し、初期CM値cm_initを入力デバイス毎あるいは発話者毎に算出して初期補正値蓄積部101に更新登録することが望ましい。
図2は、本発明の一実施形態の動作を示したフローチャートであり、主に前記補正値適応的決定部10におけるCM値cm(c)の決定手順を示している。
ステップS1において音声認識の開始が検知され、ステップS2において、時刻tjで検出された入力音声の音響特徴量x(tj)が補正値適応的決定部10へ入力されると、ステップS3では、当該音響特徴量x(tj)が蓄積部104に蓄積される。各音響特徴量x(tj)には、その検出時刻tjと共に今回の入力音声系列に固有の識別子iが記述されており、各音響特徴量x(tj)は、その検出時刻tjおよび入力音声系列識別子iと共に蓄積される。また、音声分析部1により検出されたユーザ発声の始端時刻tsおよび終端時刻teも、所定のタイミングで補正値適応的決定部10に通知され、入力音声系列識別子iと対応付けられて蓄積部104に蓄積される。
ステップS4では、前記各時刻補正値算出部102により現在時刻cに固有の各時刻CM値cm_current(c)が上式(2)または(3)に基づいて算出される。ステップS5では、補正値更新部103により初期補正値蓄積部101から初期CM値cm_initが読み込まれる。ステップS6では、前記各時刻補正値算出部102により算出された各時刻CM値cm_current(c)と前記初期CM値cm_initとが上式(4)に適用されて現在時刻cにおけるCM値cm(c)が算出される。ステップS7では、前記CM値cm(c)が特徴量正規化部2へ通知されて音響特徴量の正規化に利用される。ステップS8では、今回の音声認識に関する音声入力が完了したか否かが判定される。完了していなければステップS2へ戻り、続いて入力される音響特徴量に関して上記の各処理が繰り返される。
音声入力が完了し、これがステップS8で検知されるとステップS9へ進む。ステップS9では、初期CM値cm_initに関して所定の更新タイミングであるか否かが判定される。更新タイミングであればステップS10へ進み、音響特徴量蓄積部104に蓄積されている正規化前の音響特徴量(履歴情報)が初期補正値算出部105に取り込まれる。ステップS11では、音響特徴量の履歴情報が上式(6)に適用されて初期CM値cm_initが算出される。ステップS12では、前記初期補正値蓄積部101に既登録の初期CM値cm_initが、前記ステップS11で新たに算出された初期CM値cm_initに更新登録される。
上記のCM値cm(c)の算出を含む一連の手順は、コンピュータにより実行可能なプログラム言語で記述することができ、当該プログラムをCD-ROMやDVDなどの記憶媒体に記録し、これをコンピュータに読み込ませて実行させることにより音声認識装置を構成することができる。
なお、上記の実施形態では、本発明を音声認識用に入力音声の音響特徴量を正規化する場合を例にして説明したが、本発明はこれのみに限定されるものではなく、汎用の音響モデルを発話者や環境音に適応させて話者/環境適応モデルを構築する最尤線形回帰MLLR(Maximum Likelihood Linear Regression)適応法、最大事後確率MAP(Maximum a Posterior)適応法あるいは他の適応法において、入力音声の音響特徴量を正規化する場合にも同様に適用できる。
このようにすれば、音響モデルを発話者や環境音にほぼリアルタイムで適応させることができるようになるので、発声終了とほぼ同時に音響モデルを発話者や環境音に適応させることができるようになる。したがって、同一話者あるいは同一環境で音声認識が連続して行われるような場合には、次の音声認識から発話者や環境音に対して最適化された音響モデルによる音声認識が可能になる。
1…音響分析部,2…特徴量正規化部,3…辞書探索部,4…辞書,5…音響モデル,6…固定補正値,10…補正値適応的決定部,101…初期補正値蓄積部,102…各時刻補正値算出部,103…補正値更新部,104…音響特徴量蓄積部,105…初期補正値算出部

Claims (12)

  1. 音声信号から抽出された音響特徴量を正規化して音声認識に用いる音声認識装置において、
    前記正規化用の補正値を音響特徴量の時系列に基づいて適応的に決定する補正値適応的決定手段を具備し、
    前記補正値適応的決定手段は、
    補正値の初期値を記憶する手段と、
    所定の時刻周期で音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて各時刻補正値を算出する手段と、
    現在時刻における補正値を、前記初期値および各時刻補正値の重み付け和として算出する手段とを具備したことを特徴とする音声認識装置。
  2. 前記音響特徴量の時系列を蓄積する手段と、
    前記蓄積された音響特徴量の少なくとも一つの時系列に基づいて補正値の初期値を算出する手段と、
    前記算出された初期値を前記初期値を記憶する手段に更新登録する手段とを具備したことを特徴とする請求項1に記載の音声認識装置。
  3. 前記正規化された音響特徴量が音響モデルと照合されることを特徴とする請求項1または2に記載の音声認識装置。
  4. 前記正規化された音響特徴量を用いて音響モデルを入力音声に適応させる手段をさらに具備したことを特徴とする請求項1または2に記載の音声認識装置。
  5. 前記音響モデルを入力音声に適応させる手段がMAP適応法およびMLLR適応法のいずれかであることを特徴とする請求項4に記載の音声認識装置。
  6. 前記各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の平均値を算出することを特徴とする請求項1ないし5のいずれかに記載の音声認識装置。
  7. 前記音声認識の開始時刻が、音声の入力が最初に検出された時刻であることを特徴とする請求項1ないし6のいずれかに記載の音声認識装置。
  8. 前記各時刻補正値を算出する手段は、音声認識の開始時刻から現在時刻までの音響特徴量の時系列から無音区間を除いた発声区間の平均値を算出することを特徴とする請求項1ないし7のいずれかに記載の音声認識装置。
  9. 前記初期値を記憶する手段には、音声信号の入力デバイスごとに初期値が記憶されており、入力デバイスに対応した初期値が前記補正値の算出に用いられることを特徴とする請求項1ないし8のいずれかに記載の音声認識装置。
  10. 前記初期値を記憶する手段には、入力音声の発話者ごとに初期値が記憶されており、発話者に対応した初期値が前記補正値の算出に用いられることを特徴とする請求項1ないし8のいずれかに記載の音声認識装置。
  11. 前記初期値を記憶する手段には、音声に含まれる背景雑音特性ごとに初期値が記憶されており、背景雑音特性に対応した初期値が前記補正値の算出に用いられることを特徴とする請求項1ないし8のいずれかに記載の音声認識装置。
  12. 音声信号から抽出された音響特徴量を正規化して音響モデルと照合する音声認識装置の特徴量正規化方法において、
    補正値の初期値を記憶する手順と、
    所定の時刻周期で音声認識の開始時刻から現在時刻までの音響特徴量の時系列に基づいて各時刻補正値を算出する手順と、
    現在時刻における補正値を、前記初期値および各時刻補正値の重み付け和として算出する手順とを含むことを特徴とする音声認識装置の特徴量正規化方法。
JP2009189159A 2009-08-18 2009-08-18 音声認識装置およびその特徴量正規化方法 Expired - Fee Related JP5473116B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009189159A JP5473116B2 (ja) 2009-08-18 2009-08-18 音声認識装置およびその特徴量正規化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009189159A JP5473116B2 (ja) 2009-08-18 2009-08-18 音声認識装置およびその特徴量正規化方法

Publications (2)

Publication Number Publication Date
JP2011039434A true JP2011039434A (ja) 2011-02-24
JP5473116B2 JP5473116B2 (ja) 2014-04-16

Family

ID=43767244

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009189159A Expired - Fee Related JP5473116B2 (ja) 2009-08-18 2009-08-18 音声認識装置およびその特徴量正規化方法

Country Status (1)

Country Link
JP (1) JP5473116B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015108654A (ja) * 2013-12-03 2015-06-11 三菱電機株式会社 音声認識装置
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
JP6128287B1 (ja) * 2016-05-20 2017-05-17 三菱電機株式会社 音声認識装置および音声認識方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214097A (ja) * 1996-11-29 1998-08-11 N T T Data Tsushin Kk 音声特徴量の適応化方法及び音声認識装置、記録媒体
JP2008233782A (ja) * 2007-03-23 2008-10-02 Kddi Corp パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
JP2008309945A (ja) * 2007-06-13 2008-12-25 Kddi Corp パターンマッチング方法および装置ならびにその特徴量正規化方法および装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10214097A (ja) * 1996-11-29 1998-08-11 N T T Data Tsushin Kk 音声特徴量の適応化方法及び音声認識装置、記録媒体
JP2008233782A (ja) * 2007-03-23 2008-10-02 Kddi Corp パタンマッチング装置、パタンマッチングプログラム、およびパタンマッチング方法
JP2008309945A (ja) * 2007-06-13 2008-12-25 Kddi Corp パターンマッチング方法および装置ならびにその特徴量正規化方法および装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015108654A (ja) * 2013-12-03 2015-06-11 三菱電機株式会社 音声認識装置
CN105161092A (zh) * 2015-09-17 2015-12-16 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
CN105161092B (zh) * 2015-09-17 2017-03-01 百度在线网络技术(北京)有限公司 一种语音识别方法和装置
JP6128287B1 (ja) * 2016-05-20 2017-05-17 三菱電機株式会社 音声認識装置および音声認識方法
WO2017199417A1 (ja) * 2016-05-20 2017-11-23 三菱電機株式会社 音声認識装置および音声認識方法

Also Published As

Publication number Publication date
JP5473116B2 (ja) 2014-04-16

Similar Documents

Publication Publication Date Title
KR101616054B1 (ko) 음성 검출 장치 및 방법
JP5229234B2 (ja) 非音声区間検出方法及び非音声区間検出装置
JP5621783B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP6654611B2 (ja) 成長型対話装置
US20120130716A1 (en) Speech recognition method for robot
JP6464005B2 (ja) 雑音抑圧音声認識装置およびそのプログラム
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6336219B1 (ja) 音声認識装置および音声認識方法
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
KR100682909B1 (ko) 음성 인식 방법 및 장치
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP7191792B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP5473116B2 (ja) 音声認識装置およびその特徴量正規化方法
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
US9311916B2 (en) Apparatus and method for improving voice recognition
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
GB2564607A (en) Acoustic model learning device, acoustic model learning method, speech recognition device, and speech recognition method
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2014092751A (ja) 音響モデル生成装置とその方法とプログラム
JP5225952B2 (ja) 音声認識装置およびその特徴量正規化方法
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
JP2001109491A (ja) 連続音声認識装置および方法
JP5895501B2 (ja) 音声認識装置および音声認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130520

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130619

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130814

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140203

R150 Certificate of patent or registration of utility model

Ref document number: 5473116

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees