JP4843646B2 - 音声認識装置とその方法と、プログラムと記録媒体 - Google Patents

音声認識装置とその方法と、プログラムと記録媒体 Download PDF

Info

Publication number
JP4843646B2
JP4843646B2 JP2008156501A JP2008156501A JP4843646B2 JP 4843646 B2 JP4843646 B2 JP 4843646B2 JP 2008156501 A JP2008156501 A JP 2008156501A JP 2008156501 A JP2008156501 A JP 2008156501A JP 4843646 B2 JP4843646 B2 JP 4843646B2
Authority
JP
Japan
Prior art keywords
speech recognition
adjustment parameter
score
output probability
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008156501A
Other languages
English (en)
Other versions
JP2009300837A (ja
Inventor
哲 小橋川
浩和 政瀧
敏 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008156501A priority Critical patent/JP4843646B2/ja
Publication of JP2009300837A publication Critical patent/JP2009300837A/ja
Application granted granted Critical
Publication of JP4843646B2 publication Critical patent/JP4843646B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、調整パラメータを用いて音響特徴量を求める音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体に関する。
近年、統計的手法に基づく音声認識技術は、色々な場面で使用されるようになって来た。よって、環境変動、特に雑音に対して頑健な音声認識技術の確立が重要な課題となっている。音声認識装置に雑音が重畳した音声信号が入力されると、その入力音声の音響特徴量の分布が変化し、音響モデルとのミスマッチが生じる。それが誤認識の原因となる。
従来の音声認識装置では、雑音抑圧を目的として調整パラメータを用いて音響分析特徴量の正規化を行う方法が用いられている。図7にその方法を用いた音声認識装置700の機能構成を示して簡単に説明する。音声認識装置700は、A/D変換部70、特徴量算出部71、言語モデルパラメータメモリ72、音響モデルパラメータメモリ73、音声認識部74、正解文メモリ75、精度評価部76、調整パラメータ管理部77、調整パラメータ記録部78を備える。
A/D変換部70は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量算出部71は、離散値化された音声信号を入力として、調整パラメータ記録部78に記録された調整パラメータを用い、例えば320個の音声信号を1フレーム(20ms)としたフレーム毎に、音響特徴量を算出する。音響特徴量は、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
音声認識部74は、音響特徴量と、言語モデルパラメータメモリ72と音響モデルパラメータメモリ73とからの言語モデルと音響モデルとを入力として、音響モデル内の状態尤度と、言語尤度の総和が最も高い音声認識結果候補を音声認識結果として出力する。精度評価部76は、音声認識された単語列と、正解文メモリ75に記録されたその単語列に対応する正解文とを比較して認識精度を評価する。
調整パラメータ管理部77は、事前に用意された複数の調整パラメータの全てについての認識精度値の中から、最も認識精度値が高い調整パラメータを求めて調整パラメータ記録部78に記録する。最も認識精度が高くなる調整パラメータに設定された後は、その調整パラメータを用いて音声認識が行われる。
このように調整パラメータを用いて音響モデルと音響特徴量とのミスマッチを減らす音響分析パラメータ生成方法を用いることで、雑音に対して頑健な音声認識装置とすることが出来る。この音響分析パラメータ生成方法は、例えば非特許文献1にスペクトルサブトラクション法として示されている。
松本 弘「雑音環境下の音声認識手法」、平成15年9月10日、情報処理学会、インターネット<URL:http://https//www.ipsj.or.jp/10jigyo/fit/fit2003/fit2003program/html/>
従来の音響分析パラメータ生成方法は、認識精度値を求めるのに正解文を必要とするので正解文を作成するコストが必要であった。また、単語単位、文章単位で認識精度を求めるので調整パラメータを求めるのに多くの処理時間を要し、応答性が悪化する問題点があった。また、正解文を必要とするのでメモリを消費してしまう問題点もあった。
この発明は、このような点に鑑みてなされたものであり、高速・省メモリ化できる音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置と、プログラムと記録媒体を提供することを目的とする。
この発明の音声認識装置は、出力確率計算部と、スコア計算部と、スコア評価部と、特徴量算出部と、音声認識部と、調整パラメータ管理部とを具備する。調整パラメータ管理部は、音響特徴量を正規化するための調整パラメータαを複数種類備え、各調整パラメータαを所定フレームに対して出力する。出力確率計算部は、離散化された音声信号を入力として算出され各調整パラメータαごとにその調整パラメータαを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力としてフレーム毎の各状態の出力確率を各調整パラメータαごとに計算する。スコア計算部は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアSCORE(α)を各調整パラメータαごと求める。スコア評価部は、各調整パラメータαごとの出力確率スコアSCORE(α)を評価して出力確率スコアSCORE(α)が最大になる調整パラメータαを出力する。特徴量算出部は、離散化された音声信号を入力として、スコア評価部が出力する調整パラメータα を用いてフレーム単位で正規化した音響特徴量を算出する。音声認識部は、上記音響モデルと言語モデルとを入力として、特徴量算出部が出力する音響特徴量と音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和がもっとも高い音声認識結果を出力する。
この発明の音響分析パラメータ生成装置は、調整パラメータを用いて算出されたフレーム単位の音響特徴量と音響モデルとを用いてフレーム毎の各状態の出力確率を計算する。そして、最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求め、出力確率スコアが最大になる調整パラメータを、それ以降に使用する最適調整パラメータとして出力する。したがって、従来法のように正解文を必要とせずに調整パラメータが生成できるので、正解文を用意するコストが発生しない。また、所定フレーム数単位で処理するので調整パラメータが短時間で求められ応答性が改善される。また、所定フレーム数単位の状態系列を保存するだけで良く、正解文も必要としないので装置のメモリ資源を消費しない効果を奏する。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の音響分析パラメータ生成装置100を用いた音声認識装置200の機能構成例を示す。音声認識装置200は、音響分析パラメータ生成装置100の生成する調整パラメータを、音響特徴量の算出に用いて雑音抑圧するものである。音声認識装置200として特徴付けているA/D変換部70、特徴量算出部71、言語モデルパラメータメモリ72、音響モデルパラメータメモリ73、音声認識部74は、従来の音声認識装置700と同じものである。よって、その部分の説明は省略する。
音響分析パラメータ生成装置100とそれを含んだ音声認識装置200のそれぞれは、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
図2に音響分析パラメータ生成装置100の動作フローを示し、図1と図2を参照して音響分析パラメータ生成装置100の動作を説明する。音響分析パラメータ生成装置100は、出力確率計算部10と、スコア計算部11と、スコア評価部12と、最適調整パラメータ候補記録部13と、調整パラメータ管理部14とを備える。
出力確率計算部10は、調整パラメータ管理部14が出力する調整パラメータを用いて算出されたフレーム単位の音響特徴量と、音響モデルパラメータメモリ73に記録された音響モデルとを入力としてフレーム毎の各状態の出力確率を計算する(ステップS10)。音響モデルと各状態については後述する。
スコア計算部11は、出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアを求める(ステップS11)。スコア評価部12は、出力確率スコアを評価して出力確率スコアが最大になる調整パラメータを最適調整パラメータ候補として出力する(ステップS12)。最適調整パラメータ候補記録部13は、その最適調整パラメータ候補を記録する(ステップS13)。
調整パラメータ管理部14は、複数の調整パラメータを備え、その複数の調整パラメータを、出力確率スコアを求めた所定フレーム数に対してそれぞれ出力した後に、最適調整パラメータ候補記録部13に記録された最適調整パラメータ候補を調整パラメータとして出力する(ステップS14)。つまり、全ての調整パラメータを、所定フレーム数に対して出力するまでの間、ステップS10〜ステップS14までの動作が繰り返される。
以上述べたように動作することで、所定フレーム数の単位で調整パラメータが更新されて音響特徴量が算出され、その音響特徴量に対応する最尤状態系列から出力確率スコアが求められる。そして、出力確率スコアが最大になる最適調整パラメータ候補が調整パラメータとして出力される。したがって、予め用意された調整パラメータの数にもよるが、所定フレーム数の整数倍の比較的短い時間で調整パラメータを最適化することが出来る。また、従来法のように正解文を必要とすることも無い。
ここで各状態と音素モデルについて図3と図4を用いて説明する。音響モデルを構成する音素モデルは、図3に示す状態によって構築される。各状態sは、混合正規分布Msとして表現される。混合正規分布Msは、例えば3つの正規分布、N(μs1,Us1),N(μs2,Us2),N(μs3,Us3)で構成される。
音素モデルは、状態sの数個〜十数個程度の確率連鎖によって構築される。図4に3状態で構成される音素モデルの概念図を一例として示す。図4に示す例は、left−to−right型HMM(Hidden Markov Model)と呼ばれるもので、3つの状態s(第1状態)、s(第2状態)、s(第3状態)を並べたものであり、状態の確率連鎖(状態遷移)としては、自己遷移a11、a22、a33と、次状態へのa12、a23、a34からなる。この状態遷移系列の中で最も尤度の高い音素モデルの組み合わせが、音声認識結果として出力される。
状態sから得られる出力確率P(s,o(α))は式(1)で求められる。
Figure 0004843646
ここでoは調整パラメータαiを用いて求めたフレームtの音響特徴量、N(o(α);μms,Ums)は平均ベクトルμms,共分散行列Umsから計算されるスコア、cmsは重み係数、Mは状態sに属する分布数である。
図5に、状態sとフレームtとの時系列の関係を示す。横軸は時間経過でありフレーム
番号で表す。縦軸は、各フレームの状態sである。各状態sは図3に示したように混合正
規分布からなる。●は各フレーム内で出力確率スコアが最大になる最尤状態P(sbest,o(α))である。各フレームの最尤状態P(sbest,o(α))を時系列で見たのが、●を線で結んだ最尤状態系列である。
図6に、音響分析パラメータ生成装置100のより具体的な動作フローを示して更に詳しく説明する。調整パラメータ管理部14は、予め調整パラメータαを複数個備える。調整パラメータ管理部14が、例えば、0.8〜1.2の範囲を0.1の分解能で5種類の調整パラメータαを持ち、例えば小さな値のパラメータから順に出力するものと仮定する。
音響分析パラメータ生成装置100が動作を開始すると、調整パラメータ管理部14は、調整パラメータα=0.8を出力する(ステップS140)。出力確率計算部10は、調整パラメータα=0.8を用いて算出された音響特徴量o(α)と音響モデルμms,Umsとを入力として式(1)により出力確率を計算する(ステップS10)。スコア計算部11は、調整パラメータαに対する出力確率スコアSCORE(α)を式(2)で求める(ステップS110)。
Figure 0004843646
ここでTは認識対象データの時間長である所定フレーム数、sbest(t)はフレームtにおける最尤状態である(図5の●)。フレームtが所定フレーム数Tになるまで、ステップS10〜S11が繰り返される(ステップS111のN)。ここで、所定フレーム数Tは、認識対象データの時間長に限らず、計算量削減のため、認識対象データ長よりも短い時間長としても構わない。
スコア評価部12は、フレームtが所定フレーム数に達すると前回の出力確率スコアSCORE(αi-1)と、今回計算した出力確率スコアSCORE(α)とを比較する(ステップS12)。最初の比較動作では、前回の出力確率スコアSCORE(αi-1)が存在しない。よって、スコア評価部12は最適調整パラメータとして今回の調整パラメータαi(初回i=0なのでαと等価)を最適調整パラメータ候補として出力する(ステップS12のY)。2回目以降の比較動作では、前回の出力確率スコアSCORE(αi-1)と最新の出力確率スコアSCORE(α)とを比較して、出力確率スコアの大きい方の調整パラメータを最適調整パラメータ候補として出力する(ステップS12のY又はN)。最適調整パラメータ候補記録部13は、スコア評価部12が出力する調整パラメータαを最適調整パラメータ候補として記録する(ステップS130又はS131)。
調整パラメータ管理部14は、出力確率計算過程(ステップS10)、スコア計算過程(ステップS11)、スコア評価過程(ステップS12)、最適調整パラメータ候補記録過程(ステップS13)の動作を、調整パラメータαが最終値になるまで繰り返す(ステップS141のN)。調整パラメータαは、最終値になるまでステップS143で次の調整パラメータαi+1に更新される。この例では、予め用意された調整パラメータαの種類が5種類であるので、ステップS143は4回繰り返される。調整パラメータ管理部14は、全ての調整パラメータαを出力した後、最適調整パラメータ候補記録部13に記録されている最適調整パラメータ候補を調整パラメータとして出力する。以上の動作により、調整パラメータ管理部14は、所定フレーム数内で出力確率スコアSCORE(α)を最大にする調整パラメータαを出力する(ステップS142)。
実施例2の音響分析パラメータ生成装置120は、計算対象状態取得部20を備える。実施例1を説明した図1中に計算対象状態取得部20を破線で示す。その動作フローを図2に示す。計算対象状態取得部20は、音響モデルパラメータメモリ73に記録された音響モデルの内、環境独立音素モデル(モノフォン)に絞って、その音素モデルのみを出力確率計算部10に出力する(ステップS20、図2)。この場合、出力確率計算部10と、スコア計算部11とはモノフォンのみについて処理を行う。
モノフォンのみについて処理を行うことで、計算量を削減することができる。実施例1の場合では、前後の音素環境を考慮した環境独立音素(トライフォン)や片側依存音素(バイフォン)を用いるため、その状態数はおおよそ2000状態である。音素数を30とした場合のトライフォンの音素数は30×30×30であり、バイフォンの音素数は2×30×30であるので最終的な音素数は計算上28800個になる。各音素の状態数を3とするとこの音素数に3を乗じた値が総状態数となる。しかし、存在しない音素や共有化することでおよそ2000状態に縮退させることができる。
この2000状態をモノフォンのみに絞ることで、音素数30×状態数3=90状態にすることが出来る。計算量は約90/2000×100=4.5%で済む。よって処理を高速化できる。
また、更に、計算量を削減する方法として、音声GMMと無音モデルに対応する状態尤度を用いて出力確率計算部10が出力確率を計算するようにしても良い。通常、音声GMMは状態数1で表現されることが多く、また無音モデルを3状態とすると、合わせて4状態となり、モノフォンを用いた90状態から統計量を蓄積する方法に比べて更に計算量を削減することが可能である。
実施例3の音響分析パラメータ生成装置130は、計算対象状態取得部20と最尤状態系列記録部30とを備える。実施例1を説明した図1中に計算対象状態取得部20と最尤状態系列記録部30を破線で示す。その動作フローを図2に示す。最尤状態系列記録部30は、最尤状態系列を記録する。そして、実施例3の出力確率計算部10は、その最尤状態系列のみの各状態について出力確率を計算するようにしたものである。
この実施例3の最尤状態系列を求める計算も、図5に示す縦軸方向の全ての状態sについて行うが、一度、最尤状態系列を求めた後は、各フレーム毎に最尤状態系列の1状態のみの出力確率を計算するものである。つまり、最初に求めた最尤状態系列を2回目以降も用いることで計算量を削減する考えである。
音響分析パラメータ生成装置130が置かれた環境は、個々に異なることが予想されるが、最尤状態系列は、調整パラメータの値が変わっても大きく変化することは少ない。特に、初期の調整パラメータが最適調整パラメータに近い場合は、初期の調整パラメータの最尤状態系列を、2回目以降も用いることが可能になる。その点に注目してこの実施例では、最初に求めた最尤状態系列を最尤状態系列記録部30に記録する(ステップS30、図2)。そして、調整パラメータ管理部14がステップS143で次の調整パラメータαi+1に更新する。その後、計算対象状態取得部20が、最尤状態系列記録部30に所定フレーム数Tの時間幅で記録された最尤状態系列に対応する状態のみを出力確率計算部10に入力する(ステップS20)。よって、一度、最尤状態系列が求められると以降の出力確率は、フレーム毎に最尤状態の1状態のみが計算される。このように、求めた最尤状態系列を2回目以降も用いることで実施例1の計算量を削減することが出来る。また、この実施例3の考えを実施例2と組み合わせることで、更に実施例2の計算量も削減することが可能である。
なお、出力確率計算部10が、最尤状態系列記録部30に記録された最尤状態系列を参照して、最尤状態系列のみの出力確率を計算するように構成しても良い。
この発明の技術思想に基づく音響分析パラメータ生成装置とその方法と、それを用いた音声認識装置は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
なお、この発明の音響分析パラメータ生成装置を、音声認識装置の雑音抑圧を目的とした調整パラメータを生成するものとして説明を行った。しかし、この発明の音響分析パラメータ生成装置は、声道長正規化に関する調整パラメータ等、他の目的の音響特徴量に関する調整パラメータの最適化に関して利用することも可能である。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の音響分析パラメータ生成装置100,120,130を用いた音声認識装置200の機能構成例を示す図。 音響分析パラメータ生成装置100,120,130の動作フローを示す図。 音素モデルを構成する1状態を模式的に示す図。 音素モデルの一例を示す図。 フレームと状態sとの関係を模式的に示す図。 音響分析パラメータ生成装置100,120のより具体的な動作フローを示す図。 従来の音声認識装置700の機能構成例を示す図。

Claims (11)

  1. 音響特徴量を正規化するための調整パラメータαを複数種類備え、各調整パラメータαを所定フレームに対して出力する調整パラメータ管理部と、
    離散化された音声信号を入力として算出され各調整パラメータαごとに上記調整パラメータαを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力として上記フレーム毎の各状態の出力確率を各調整パラメータαごとに計算する出力確率計算部と、
    上記出力確率の最尤状態系列を上記所定フレーム数に渡って累積して出力確率スコアSCORE(α)を各調整パラメータαごとに求めるスコア計算部と、
    上記各調整パラメータαごとの出力確率スコアSCORE(α)を評価して上記出力確率スコアSCORE(α)が最大になる上記調整パラメータαを出力するスコア評価部と、
    上記離散化された音声信号を入力として、上記スコア評価部が出力する調整パラメータα を用いてフレーム単位で正規化した音響特徴量を算出する特徴量算出部と、
    上記音響モデルと言語モデルとを入力として、上記特徴量算出部が出力する上記音響特徴量と上記音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和が最も高い音声認識結果候補を出力する音声認識部と、
    を具備する音声認識装置。
  2. 請求項1に記載した音声認識装置において、
    上記調整パラメータαは、声道長正規化のパラメータであることを特徴とする音声認識装置。
  3. 請求項1又は2に記載した音声認識装置において、
    上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得部を具備することを特徴とする音声認識装置。
  4. 請求項1乃至3の何れかに記載した音声認識装置において、
    上記最尤状態系列を記録する最尤状態系列記録部を備え、
    上記出力確率計算部は上記最尤状態系列のみの出力確率を計算することを特徴とする音声認識装置。
  5. 調整パラメータ管理部が、音響特徴量を正規化するための調整パラメータαを複数種類備え、各調整パラメータαを所定フレームに対して出力する調整パラメータ管理過程と、
    出力確率計算部が、離散化された音声信号を入力として算出され各調整パラメータαごとに上記調整パラメータαを用いて正規化されたフレーム単位の音響特徴量と音響モデルとを入力として、上記フレーム毎の各状態の出力確率を各調整パラメータαごとに計算する出力確率計算過程と、
    スコア計算部が、上記出力確率の最尤状態系列を所定フレーム数に渡って累積して出力確率スコアSCORE(α)を各調整パラメータαごとに求めるスコア計算過程と、
    スコア評価部が、上記各調整パラメータαごとの出力確率スコアSCORE(α)を評価して上記出力確率スコアSCORE(α)が最大になる上記調整パラメータαを出力するスコア評価過程と、
    特徴量算出部が、上記離散化された音声信号を入力として、上記スコア評価部が出力する調整パラメータα を用いてフレーム単位で正規化した音響特徴量を算出する特徴量算過程と、
    音声認識部が、上記音響モデルと言語モデルとを入力として、上記特徴量算出部が出力する上記音響特徴量と上記音響モデルとの状態尤度と、言語モデルに基づく言語尤度と、の総和が最も高い音声認識結果候補を出力する音声認識過程と、
    を含む音声認識方法。
  6. 請求項5に記載した音声認識方法において、
    上記調整パラメータαは、声道長正規化のパラメータであることを特徴とする音声認識方法。
  7. 請求項5又は6に記載した音声認識方法において、
    計算対象状態取得部が、上記音響モデルを環境独立音素モデルに絞って上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音声認識方法。
  8. 請求項5又は6に記載した音声認識において、
    計算対象状態取得部が、上記音響モデルを音声GMMと無音モデルから生成して上記出力確率計算部に出力する計算対象状態取得過程を含むことを特徴とする音声認識方法。
  9. 請求項5乃至8の何れかに記載した音声認識方法において、
    最尤状態系列記録部が、上記最尤状態系列を記録する最尤状態系列記録過程を含み、
    上記出力確率計算過程は、上記最尤状態系列のみの出力確率を計算する過程であることを特徴とする音声認識方法。
  10. 請求項5乃至9の何れかに記載した音声認識方法の各過程をコンピュータに実行させるためのプログラム。
  11. 請求項10に記載した何れかの方法プログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008156501A 2008-06-16 2008-06-16 音声認識装置とその方法と、プログラムと記録媒体 Active JP4843646B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008156501A JP4843646B2 (ja) 2008-06-16 2008-06-16 音声認識装置とその方法と、プログラムと記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008156501A JP4843646B2 (ja) 2008-06-16 2008-06-16 音声認識装置とその方法と、プログラムと記録媒体

Publications (2)

Publication Number Publication Date
JP2009300837A JP2009300837A (ja) 2009-12-24
JP4843646B2 true JP4843646B2 (ja) 2011-12-21

Family

ID=41547784

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008156501A Active JP4843646B2 (ja) 2008-06-16 2008-06-16 音声認識装置とその方法と、プログラムと記録媒体

Country Status (1)

Country Link
JP (1) JP4843646B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5166195B2 (ja) * 2008-10-14 2013-03-21 日本電信電話株式会社 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
CN110634474B (zh) * 2019-09-24 2022-03-25 腾讯科技(深圳)有限公司 一种基于人工智能的语音识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4461557B2 (ja) * 2000-03-09 2010-05-12 パナソニック株式会社 音声認識方法および音声認識装置
JP4245617B2 (ja) * 2006-04-06 2009-03-25 株式会社東芝 特徴量補正装置、特徴量補正方法および特徴量補正プログラム

Also Published As

Publication number Publication date
JP2009300837A (ja) 2009-12-24

Similar Documents

Publication Publication Date Title
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
JP4340685B2 (ja) 音声認識装置及び音声認識方法
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP2006146090A (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7315819B2 (en) Apparatus for performing speaker identification and speaker searching in speech or sound image data, and method thereof
JP7191792B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP4843646B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP2008129527A (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
JP5852550B2 (ja) 音響モデル生成装置とその方法とプログラム
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
JP5089651B2 (ja) 音声認識装置及び音響モデル作成装置とそれらの方法と、プログラムと記録媒体
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
JP4981850B2 (ja) 音声認識装置とその方法と、プログラムと記録媒体
JP2011039434A (ja) 音声認識装置およびその特徴量正規化方法
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
JP5136621B2 (ja) 情報検索装置及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110405

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110809

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110927

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111007

R150 Certificate of patent or registration of utility model

Ref document number: 4843646

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350