JP4705557B2 - 音響モデル生成装置、方法、プログラム及びその記録媒体 - Google Patents

音響モデル生成装置、方法、プログラム及びその記録媒体 Download PDF

Info

Publication number
JP4705557B2
JP4705557B2 JP2006317361A JP2006317361A JP4705557B2 JP 4705557 B2 JP4705557 B2 JP 4705557B2 JP 2006317361 A JP2006317361 A JP 2006317361A JP 2006317361 A JP2006317361 A JP 2006317361A JP 4705557 B2 JP4705557 B2 JP 4705557B2
Authority
JP
Japan
Prior art keywords
acoustic model
learning data
reinforcement
model generation
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006317361A
Other languages
English (en)
Other versions
JP2008129527A (ja
Inventor
哲 小橋川
克年 大附
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006317361A priority Critical patent/JP4705557B2/ja
Publication of JP2008129527A publication Critical patent/JP2008129527A/ja
Application granted granted Critical
Publication of JP4705557B2 publication Critical patent/JP4705557B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力された音声信号から計算した音響特徴パラメータ系列に対して、各音素の音響的特徴を表現した確率モデルを作成する音響モデル生成装置、方法、プログラム及びその記録媒体に関する。
従来の音声認識において、認識結果候補を構成する音素、音節、単語などの音声単位のカテゴリ毎に隠れマルコフモデル(Hidden Markov Model;以下「HMM」と表す。)によってモデル化して音響モデルを作成する手法は、認識性能が高く、現在の音声認識技術の主流となっている。HMMについては、例えば非特許文献1に詳しい。
図3を参照して、従来技術による音響モデル生成装置の例について説明する。図3は、従来技術による音響モデル生成装置9の機能構成を例示する図である。図4は、従来技術による音響モデル生成方法の処理手順を例示する図である。
音響モデル生成装置9は、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが記録された学習データ記録部11、学習前の音響モデルであるベース音響モデルが記録されたベース音響モデル記録部12、学習部13、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部14、モデル合成部15、学習後の音響モデルが記録される音響モデル記録部16から構成される。
学習部13は、学習データ記録部11から読み出した学習データと、ベース音響モデル記録部12から読み出したベース音響モデルとから統計量の蓄積を行って十分統計量を計算する(ステップS91)。計算された十分統計量は十分統計量記録部14に格納される。十分統計量については、例えば非特許文献2に詳しい。
モデル合成部15は、十分統計量記録部14から読み出した十分統計量を用いて学習後の音響モデルを生成する(ステップS92)。生成された音響モデルは音響モデル記録部16に記録される。学習部13の処理とモデル合成部15の処理は、例えば非特許文献2に詳しい。
中川聖一著,「確率モデルによる音声認識」,電子情報通信学会編,コロナ社,1988年7月 Lawrence Rabiner, Biing-Hwang Juang 共著,古井貞熙監訳,「音声認識の基礎(下)」,NTTアドバンステクノロジ、1995年
従来技術の音響モデル生成装置9では、学習データにおける出現頻度が高い音素系列を持つ単語ほど、認識されやすいように音響モデルが生成される。逆に言えば、学習データにおける出現頻度が低い音素系列を持つ単語ほど、音響モデルで認識されづらくなる。このため、認識しようとする重要単語・キーワードの音素系列が、学習データに含まれる割合が小さい場合には、この重要単語・キーワードの認識性能が低くなるという問題があった。
本発明は、学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する。所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする。上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する。上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する。
所定のキーワードと同一及び/又は類似のキーワードを含む学習データから計算した強化十分統計量に重みを付けて強化音響モデルを生成することにより、その所定のキーワードの認識性能を改善することができる。また、これにより、誤って認識する単語の数が減少するため、音声認識性能を改善することができる。
図1と図2を参照して、本発明による音響モデル生成装置1について説明する。図1は、音響モデル生成装置1の機能構成を例示する図である。図2は、音響モデル生成装置1の処理を例示する図である。
図1に例示するように、音響モデル生成装置1は、学習データ記録部11、ベース音響モデル記録部12、学習部13、音響パラメータを計算するために必要な統計量である十分統計量が記録された十分統計量記録部14、強化キーワードリスト記録部21、強化学習データ選択部22、強化学習データ記録部23、強化学習部24、強化十分統計量記録部25、強化モデル合成部26、学習後の音響モデルである音響モデルが記録される強化音響モデル記録部27、から構成される。
<ステップS1>
学習データ記録部11には、音声データとこの音声データに音素等を対応付けたラベルとから構成される学習データが複数予め格納されている。ベース音響モデルには、学習前の音響モデルであるベース音響モデルが予め格納されている。
学習部13は、学習データ記録部11から読み出した学習データと、ベース音響モデルから読み出したベース音響モデルとから、十分統計量を計算して十分統計量記録部14に格納する(ステップS1)。
以下、十分統計量について説明する。十分統計量とは、HMMを特徴付けるパラメータであり、遷移確率に関わる統計量、混合正規分布の混合重み、平均、分散に関わる統計量等である。具体的には、音響モデルλと、観測系列Oが与えられたとき、時刻tに状態iに存在し、時刻t+1に状態jに存在する確率ξ(i,j)、また、音響モデルλと観測系列Oが与えられ、状態はN個の状態から構成されるとき、時刻tに状態iに存在する確率γ(i)をそれぞれ、
Figure 0004705557
とする。このとき、音響モデルパラメータである、時刻t=1に状態iに存在すると期待される頻度(回数)π、状態遷移確率aij、状態jで特徴ベクトルvが観測される確率b(k)、状態iのm番目の混合分布に対する混合重み係数cjm、状態iのm番目の混合分布の平均ベクトルμjm、共分散行列Ujmは、例えば、それぞれ次のように定義される。
Figure 0004705557
ここで、プライムはベクトルの転置を表し、γ(i,k)は、観測された特徴量oを考慮したときに、時刻tに状態iのm番目の混合要素に存在する確率である。
このとき、上記式の分子と分母に記載された各数式で定義される値がそれぞれ十分統計量となる。すなわち、aijについては、Σt=1 T−1ξ(i,j)と、Σt=1 T−1γ(i)とがそれぞれ十分統計量となる。また、b(k)についは、Σt=1(s.t. ot=Vk) γ(j)と、Σt=1 γ(j)とがそれぞれ十分統計量となる。cim,μim,Ujkについても同様である。なお、πについては、γ(i)が十分統計量となる。これらの十分統計量は、学習データ記録部11から読み出した学習データを用いて、例えば、Baum−Welchアルゴリズム等の既存のアルゴリズムを用いて推定することができる。Baum−Welchアルゴリズムは、非特許文献2に詳しい。
なお、後述するように、十分統計量は、学習データ記録部11に記録された学習データ毎に計算される。
<ステップS2>
強化キーワードリスト記録部21には、所定のキーワードのリストが記録されている。所定のキーワードとは、例えば、認識性能を改善したいキーワードや、誤認識キーワードであり、ステップS2の処理に先立ち予め登録しておく。ここで、本発明において、キーワードとは、ひとつの単語に限らず、複数の単語から構成される分節や、キーフレーズをも意味することにする。
強化学習データ選択部22は、強化キーワードリスト記録部21から読み出したキーワードと同一及び/又は類似のキーワードを含む学習データを、学習データ記録部11から抽出して、強化学習データを作成する(ステップS2)。作成された強化学習データは、強化学習データ記録部23に記録される。
例えば、強化学習データ選択部22は、ある学習データの一部に所定のキーワードと同一及び/又は類似のキーワードが含まれている場合には、その学習データのうち所定のキーワードと同一及び/又は類似のキーワードに係る部分の学習データを抜き出して強化学習データとする。また、所定のキーワードと同一及び/又は類似のキーワードが含まれている文節や文や発話や発声を抜き出して、強化学習データとしてもよい。さらに、例えば、学習データが、発話・発声毎に作成されている場合には、所定のキーワードと同一及び/又は類似のキーワード含まれている学習データの全体を抜き出して強化学習データを作成しても良い。
「同一及び/類似のキーワード」とは、同一のキーワードと類似のキーワードの何れか一方のキーワード、又は、同一のキーワードと類似のキーワードの両方のキーワードを意味する。すなわち、「強化キーワードリスト記録部21から読み出したキーワードと同一及び/類似のキーワード」とは、強化キーワードリスト記録部21から読み出したキーワードと同一のキーワードと強化キーワードリスト記録部21から読み出したキーワードと類似のキーワードとの何れか一方のキーワード、又は、強化キーワードリスト記録部21から読み出したキーワードと同一のキーワードと強化キーワードリスト記録部21から読み出したキーワードと類似のキーワードの両方のキーワードを意味する。
学習データの中に所定のキーワードと同一のキーワードが含まれていない場合に、又は、学習データの中に含まれている、所定のキーワードと同一のキーワードの数が少ない場合に、所定のキーワードと類似のキーワードを含む学習データを抽出することにするとよい。これにより、後述する強化十分統計量の量を確保することができ、認識性能を向上することができる。もちろん、学習データの中に含まれている、所定のキーワードと同一のキーワードの数が多い場合も、所定のキーワードと類似のキーワードを含む学習データを抽出してもよい。
なお、所定のキーワードと同一のキーワードとは、称呼と観念が共通しているキーワードだけではなく、称呼が共通しているが観念が異なるキーワードを含んでもよい。例えば、「雲」と「蜘蛛」は、称呼が「クモ」で共通しているが、観念が異なる。所定のキーワードである「雲」と称呼と観念が共通するキーワード「蜘蛛」が含まれている学習データの数が少ない場合には、「雲」と称呼が共通しているが観念が異なるキーワード「蜘蛛」を含む学習データを抽出することにしてもよい。このように、観念が異なるが称呼が共通するキーワードを含む学習データも抽出することにより、後述する強化十分統計量の量を確保することができ、認識性能を向上することができる。
なお、所定のキーワードと類似しているかどうかの類比判断は例えば以下のようにして行うことができる。所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素を比較して、一致する音素の割合が閾値z以上である場合に類似していると判断する。かかる場合には、強化学習データ選択部22の音素系列変換部31が、強化キーワードリスト記録部21から読み出した各キーワードを音素系列に変換する。強化学習データ選択部22は、所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素を比較して、一致する音素の割合が閾値z以上である場合に類似していると判断する。
また、強化学習データ選択部22が、所定のキーワードと、類比判断の対象となるキーワードとについて音韻論上の音素間類似距離を求め、その距離の総和の逆数が閾値z以上であるかどうかにより類比を判断してもよい。かかる場合、音素系列変換部31が所定のキーワードを音素系列に変換し、強化学習データ選択部22の距離計算部32が音韻論上の音素間類似距離を計算する。
さらに、強化学習データ選択部22が、ベース音響モデル記録部12から読み出したベース音響モデルにおいて、所定のキーワードを構成する音素と、類比判断の対象となるキーワードを構成する音素との分布間距離を求め、その距離の総和の逆数が閾値z以上であるかどうかにより類比を判断してもよい。すなわち、分布間距離の和を求めることにより状態間距離を求め、その状態間距離の和を求めることにより音素間の距離を求め、その音素間の距離から類比の判断を行う。かかる場合、音素系列変換部31が強化キーワードリスト記録部21から読み出した所定のキーワードを音素系列に変換し、距離計算部32’が分布間距離を計算する。
<ステップS3>
強化学習部24は、強化学習データ記録部23から読み出した強化学習データから、強化十分統計量を計算する(ステップS3)。計算された強化十分統計量は、強化十分統計量記録部25に格納される。
強化十分統計量は、強化学習データ記録部23から読み出した強化学習データに基づいて計算された十分統計量のことである。すなわち、十分統計量と強化十分統計量は、数式で表現した定義は同じであるが、十分統計量は学習データ記録部11から読み出した学習データに基づいて計算されたものであるのに対し、強化十分統計量は強化学習データ記録部23から読み出した強化学習データに基づいて計算されたものである点において異なる。強化十分統計量の計算方法は、ステップS1で説明した十分統計量の計算方法と同様である。
<ステップS4>
強化モデル合成部26は、十分統計量記録部14から読み出した十分統計量と、強化十分統計量記録部25から読み出した強化十分統計量に重みをかけたものとから強化音響モデルを生成する(ステップS4)。生成された強化音響モデルは、強化音響モデル記録部27に格納される。
ステップS1の処理において複数の学習データからG個の十分統計量が得られたとする。このとき、十分統計量は、g=1,…,Gとして、
Figure 0004705557
と表現される。
また、ステップS3の処理において複数の強化学習データからH個の強化十分統計量が得られたとする。このとき、強化十分統計量は、h=1,…,Hとして、
Figure 0004705557
と表現される。
このとき、強化モデル合成部26は、下式で各音響パラメータを計算することにより、強化音響モデルを生成する。
Figure 0004705557
ここで、w(h=1,…,H)は、強化十分統計量にかけられる重みであり1以上の数である。重みw(h=1,…,H)は、同一の値であってもよいし、互いに異なる値であってもよい。例えば、所定のキーワードと同一のキーワードに係る学習データから計算された十分統計量にかける重みを、所定のキーワードと類似のキーワードに係る学習データから計算された強化十分統計量にかける重みよりも大きくすることができる。このように、より信頼性が高いデータにより大きな重みをつけることにより、さらに認識性能を向上させた音響モデルを生成することができる。
≪変形例等≫
図1に破線で示すように、生成された音響モデルの認識性能を評価する評価部41、強化十分統計量にかける適切な重みを計算する重み決定部40、評価対象データを近似した開発データが記録された開発データ記録部42を設けて、強化十分統計量にかける適切な重みを決定するようにしてもよい。
音響モデル生成装置1は、予め定められた複数の重みに基づいてそれぞれ強化音響モデルを生成して、強化音響モデル記録部27に格納する。評価部41は、生成された強化音響モデル毎に、開発データ記録部42から読み出した、評価対象データを近似した開発データについての認識精度を調べ、その認識精度についての評価値を重み決定部40に出力する。重み決定部40は、最も良い認識精度が得られた強化音響モデルに対応した重みを決定する。すなわち、重み決定部40は、最も高い評価値が得られた強化音響モデルを生成するために用いた重みを選択して、その重みを強化モデル合成部26に設定する。重み決定部40で決定された重みについての情報は、強化モデル合成部26に出力される。
また、閾値決定部43を設けて、強化学習データ選択部22の処理で用いる閾値についての適切な値を決定することができる。適切な閾値の決定方法は、上記説明した適切な重みの決定方法と同様である。すなわち、予め定められた複数の閾値に基づいてそれぞれ生成された強化音響モデル毎に、開発データについての認識精度を調べ、最も良い認識精度が得られた強化音響モデルを生成するために用いた閾値を、強化学習データ選択部22で用いる閾値として設定する。なお、図1において、閾値決定部43から出力され強化学習データ選択部22に入力されているアスタリスク「*」は、閾値決定部43で決定された閾値についての情報が、強化学習データ選択部22に入力されることを意味する。
なお、ステップS1の処理よりも、ステップS2とS3の処理を先に行ってもよいし、ステップS1の処理と、ステップS2とS3の処理を並列して行ってもよい。
上記音響モデル生成装置1の処理機能をコンピュータによって実現することができる。この場合、音響モデル生成装置1の処理機能の内容はプログラムによって記述される。そして、このプログラムを、図5に示すようなコンピュータで実行することにより、上記音響モデル生成装置1の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音響モデル生成装置1を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
以上の各実施形態の他、本発明である音響モデル生成装置、方法、プログラム及びその記録媒体は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
[実験例]
学習データ全45264発話から、開発データにおける音声認識結果から誤認識となった6つのキーワードを含む2718発話を選択し、強化十分統計量の重みを50倍とし、ベースとなる十分統計量と統合(マージ)して作成した強化音響モデルを用いることで、キーワード再現率を82.4%から83.6%へと改善した(誤り削減率6.5%)。
本発明による音響モデル生成装置の機能構成を例示する図。 本発明による音響モデル生成装置の処理を例示する図。 従来技術による音響モデル生成装置の機能構成を例示する図。 従来技術による音響モデル生成装置の処理を例示する図。 本発明による音響モデル生成装置をコンピュータに実行させる場合の機能構成を例示する図。
符号の説明
1 音響モデル生成装置
9 音響モデル生成装置
11 学習データ記録部
12 ベース音響モデル記録部
13 学習部
14 十分統計量記録部
15 モデル合成部
16 音響モデル記録部
21 強化キーワードリスト記録部
22 強化学習データ選択部
23 強化学習データ記録部
24 強化学習部
25 強化十分統計量記録部
26 強化モデル合成部
27 強化音響モデル記録部
31 音素系列変換部
32 距離計算部
40 決定部
41 評価部
42 開発データ記録部
43 閾値決定部

Claims (10)

  1. 学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習手段と、
    所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択手段と、
    上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習手段と、
    上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成手段と、
    を有する音響モデル生成装置。
  2. 請求項1に記載の音響モデル生成装置において、
    上記強化学習データ選択手段は、
    上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列を音素毎に一致しているかどうかを比較することにより、上記所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを抽出する手段である、
    ことを特徴とする音響モデル生成装置。
  3. 請求項1に記載の音響モデル生成装置において、
    上記強化学習データ選択手段は、
    上記所定のキーワードと、類比判断の対象となるキーワードとについて音韻論上の音素間類似距離を求めることにより、上記所定のキーワードと称呼が同一及び/類似のキーワードを含む学習データを抽出する手段である、
    ことを特徴とする音響モデル生成装置。
  4. 請求項1に記載の音響モデル生成装置において、
    上記強化学習データ選択手段は、
    上記所定のキーワードを音素系列に変換し、上記変換された音素系列と他の音素系列の、上記ベース音響モデルにおける音素毎の分布間距離の和を計算することにより、上記所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを抽出する手段である、
    ことを特徴とする音響モデル生成装置。
  5. 請求項1から4の何れかに記載の音響モデル生成装置において、
    上記所定のキーワードと称呼が同一のキーワードには、観念が異なるが称呼が共通しているキーワードが含まれる、
    ことを特徴とする音響モデル生成装置。
  6. 請求項1から5の何れかに記載の音響モデル生成装置において、
    上記強化モデル合成手段における、上記所定のキーワードと称呼が同一のキーワードを含む学習データから計算された強化十分統計量にかける重みの方が、上記所定のキーワードと称呼が類似のキーワードを含む学習データから計算された強化十分統計量にかける重みよりも大きい、
    ことを特徴とする音響モデル生成装置。
  7. 請求項1から6の何れかに記載の音響モデル生成装置において、
    請求項1から6の何れかに記載の音響モデル生成装置により複数の重みに基づいてそれぞれ生成された強化音響モデル毎に、評価対象データを近似したデータについての認識精度を調べ、最も良い認識精度が得られた強化音響モデルに対応した重みを、上記強化十分統計量にかける重みとする重み決定手段を有する、
    ことを特徴とする音響モデル生成装置。
  8. 学習データ記録手段から読み出した学習データと、ベース音響モデルとから十分統計量を計算する学習ステップと、
    所定のキーワードと称呼が同一及び/又は類似のキーワードを含む学習データを上記学習データ記録手段から抽出して、強化学習データとする強化学習データ選択ステップと、
    上記強化学習データと上記ベース音響モデルから強化十分統計量を計算する強化学習ステップと、
    上記十分統計量と、上記強化十分統計量に重みをかけたものとから強化音響モデルを生成する強化モデル合成ステップと、
    を有する音響モデル生成方法。
  9. 請求項1から7に記載の何れかの音響モデル生成装置の各手段としてコンピュータを機能させるための音響モデル生成プログラム。
  10. 請求項9に記載の音響モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2006317361A 2006-11-24 2006-11-24 音響モデル生成装置、方法、プログラム及びその記録媒体 Expired - Fee Related JP4705557B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006317361A JP4705557B2 (ja) 2006-11-24 2006-11-24 音響モデル生成装置、方法、プログラム及びその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006317361A JP4705557B2 (ja) 2006-11-24 2006-11-24 音響モデル生成装置、方法、プログラム及びその記録媒体

Publications (2)

Publication Number Publication Date
JP2008129527A JP2008129527A (ja) 2008-06-05
JP4705557B2 true JP4705557B2 (ja) 2011-06-22

Family

ID=39555354

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006317361A Expired - Fee Related JP4705557B2 (ja) 2006-11-24 2006-11-24 音響モデル生成装置、方法、プログラム及びその記録媒体

Country Status (1)

Country Link
JP (1) JP4705557B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5155811B2 (ja) * 2008-10-15 2013-03-06 日本電信電話株式会社 音響モデル作成方法、その装置、プログラム、その記録媒体
JP5376341B2 (ja) * 2008-10-31 2013-12-25 日本電気株式会社 モデル適応装置、その方法及びそのプログラム
JP2020148593A (ja) * 2019-03-13 2020-09-17 株式会社明電舎 自動操縦ロボットを制御する操作推論学習モデルの学習システム及び学習方法
JP7098587B2 (ja) * 2019-08-29 2022-07-11 株式会社東芝 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
CN115831100B (zh) * 2023-02-22 2023-05-05 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104779A (ja) * 1993-10-01 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2000352993A (ja) * 1999-06-14 2000-12-19 Oki Electric Ind Co Ltd 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP2002372987A (ja) * 2001-06-13 2002-12-26 Nec Corp 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104779A (ja) * 1993-10-01 1995-04-21 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2000352993A (ja) * 1999-06-14 2000-12-19 Oki Electric Ind Co Ltd 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP2002372987A (ja) * 2001-06-13 2002-12-26 Nec Corp 音響モデル学習装置、音響モデル学習方法、およびそのプログラム
JP2003099086A (ja) * 2001-09-25 2003-04-04 Nippon Hoso Kyokai <Nhk> 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム
JP2004317845A (ja) * 2003-04-17 2004-11-11 Nagoya Industrial Science Research Inst モデルデータ生成装置、モデルデータ生成方法、およびこれらの方法

Also Published As

Publication number Publication date
JP2008129527A (ja) 2008-06-05

Similar Documents

Publication Publication Date Title
JP3933750B2 (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
US8290773B2 (en) Information processing apparatus, method and recording medium for generating acoustic model
US8301450B2 (en) Apparatus, method, and medium for dialogue speech recognition using topic domain detection
US7103544B2 (en) Method and apparatus for predicting word error rates from text
JP5072206B2 (ja) 音声分類および音声認識のための隠れ条件付確率場モデル
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP4571822B2 (ja) テキストおよび音声の分類のための言語モデルの判別トレーニング
US8224648B2 (en) Hybrid approach in voice conversion
JP2010170137A (ja) 音声理解装置
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP6552999B2 (ja) テキスト補正装置、テキスト補正方法、およびプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
JP4705557B2 (ja) 音響モデル生成装置、方法、プログラム及びその記録媒体
JP4829871B2 (ja) 学習データ選択装置、学習データ選択方法、プログラムおよび記録媒体、音響モデル作成装置、音響モデル作成方法、プログラムおよび記録媒体
US20030171931A1 (en) System for creating user-dependent recognition models and for making those models accessible by a user
JP4950600B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
JP4881357B2 (ja) 音響モデル作成装置、その装置を用いた音声認識装置、これらの方法、これらのプログラム、およびこれらの記録媒体
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
JP2007078943A (ja) 音響スコア計算プログラム
JP6006678B2 (ja) 音声モデル生成装置、方法、プログラム
JP4801107B2 (ja) 音声認識装置、方法、プログラム及びその記録媒体
JP5155811B2 (ja) 音響モデル作成方法、その装置、プログラム、その記録媒体
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110311

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees