JP2008026721A - 音声認識装置、音声認識方法、および音声認識用プログラム - Google Patents
音声認識装置、音声認識方法、および音声認識用プログラム Download PDFInfo
- Publication number
- JP2008026721A JP2008026721A JP2006200938A JP2006200938A JP2008026721A JP 2008026721 A JP2008026721 A JP 2008026721A JP 2006200938 A JP2006200938 A JP 2006200938A JP 2006200938 A JP2006200938 A JP 2006200938A JP 2008026721 A JP2008026721 A JP 2008026721A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- language model
- rate
- utterance speed
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Abstract
【課題】入力音声信号の発話速度が時々刻々変動することにより発音変形が生じても、発話速度に応じて正確な音声認識結果を出力できる音声認識装置を提供する。
【解決手段】発話速度推定手段14は、入力音声信号の発話速度を逐次推定し、言語モデル混合手段13は、発音変形を考慮して出現確率が設定された複数個の言語モデルを、発話速度推定手段14の推定結果に基づいた重み係数で混合して新しい言語モデルを生成し、単語列探索手段12に送る。
【選択図】 図1
【解決手段】発話速度推定手段14は、入力音声信号の発話速度を逐次推定し、言語モデル混合手段13は、発音変形を考慮して出現確率が設定された複数個の言語モデルを、発話速度推定手段14の推定結果に基づいた重み係数で混合して新しい言語モデルを生成し、単語列探索手段12に送る。
【選択図】 図1
Description
本発明は音声認識装置および音声認識用プログラムに関し、特に、統計的言語モデルを用いて文発声をテキスト化する大語彙連続音声認識を行う音声認識装置、音声認識方法、および音声認識用プログラムに関する。
従来の音声認識装置の一例が、非特許文献1に記載されている。図2に示すように、この従来の音声認識装置は、音響特徴量算出手段21と、複数個の単語列探索手段221、222、…、22nと、音響モデル記憶手段241、242、…、24nと、言語モデル記憶手段25と、単語列選択手段23とから構成されている。
このような構成を有する従来の音声認識装置は次のように動作する。
すなわち、音響特徴量算出手段21は、音声認識の対象となる音声信号を受け取り、特徴ベクトルの時系列のような形式で特徴量を算出する。単語列探索手段221、222、…、22nは、各々が異なる発話速度に向けて最適化された音響モデルをそれぞれ音響モデル記憶手段241、242、…、24nから読み出し、かつ言語モデルを言語モデル記憶手段25から読み出し、音響特徴量算出手段21から受け取った特徴量にもっとも適合する単一もしくは複数の単語列すなわち認識結果と、各々の認識結果の確からしさを表すスコアを出力する。単語列選択手段23は、単語列探索手段221、222、…、22nからすべての認識結果とスコアを受け取り、もっともよいスコアに対応する認識結果を選択肢し出力する。
大河、鈴木、伊藤、牧野著「持続時間制御機能を持ったマルチパスHMM」日本音響学会2003年春季研究発表会講演論文集I、2003年3月、pp.1−2 従来の音声認識装置の別の一例が、非特許文献2に記載されている。図3に示すように、この従来の音声認識装置は、音響特徴量算出手段31と、単語列探索手段32と、音響モデル記憶手段33と、発音変形依存言語モデル記憶手段34とから構成されている。このような構成を有する従来の音声認識装置は次のように動作する。
すなわち、音響特徴量算出手段31は、前記音響特徴量算出手段21と同じく、音声認識の対象となる音声信号を受け取り、特徴量を算出する。単語列探索手段32は、音響モデルを音響モデル記憶手段33から読み出し、かつ発音変形に依存した言語モデルを発音変形異存言語モデル記憶手段34から読み出し、音響特徴量算出手段31から受け取った特徴量にもっとも適合する単一もしくは複数の単語列すなわち認識結果と、各々の認識結果の確からしさを表すスコアを出力する。
ここで発音変形とは、母音の長音化/短音化、母音/子音の脱落/挿入、子音の濁音化/清音化、音節の促音化/拗音化/撥音化、その他発音の怠け等の現象を指す。例えば「洗濯機」という語の発音の基本形は「センタクキ」であるが、一部が促音化した「センタッキ」という発音形があり得る。
発音変形に依存した言語モデルとは、同じ「洗濯機」という単語でも、「センタクキ」と「センタッキ」のように発音が異なる場合は別の単語として扱い、他の単語と連接して現れる確率も、それぞれ異なるように設定された言語モデルである。これは、複数通りの発音形を持つ2種類の単語が連接する場合に、基本形同士は連接しやすいが基本形と変形発音は連接しにくい、というように、ある単語の発音形は隣接する単語の発音形に依存するという仮説に基づいている。
阿部、武田、加藤、小坂、好田著「日本語話し言葉コーパスを用いた発音変形依存モデルによる講演音声認識の性能評価」日本音響学会2005年秋季研究発表会講演論文集、2005年9月、pp.37−38
第1の問題点は、発音変形の主たる要因とされる発話速度の変動に対して、必ずしも正確な認識結果を出力できないということである。
その理由は、入力音声信号の発話速度の情報を考慮して音声認識処理を制御していないためである。例えば、前記従来の音声認識装置の第1の例では、入力音声信号のあらゆる発話速度に対応するために、発話速度の高低をいくつかの段階に分け、それぞれの段階に適した音響モデルを備えている。しかしながら、各々の音響モデルを用いて獲得された認識結果は、各認識結果に付随するスコアによって選択する以外の方法がないため、実際の入力音声信号の発話速度と適合していない音響モデルを用いて獲得された(誤った)認識結果が選択されることが少なくない。まして、近年音響モデルとして広く採用されている隠れマルコフモデル(HMM)の場合、入力音声信号の長短、すなわち発話速度の大小に対してモデル側で制約をかける仕組みがなく、発話速度ごとに適したHMMを用意したところで、どのHMMもそれなりによいスコアを出力してしまう。つまり、スコアに基づいて認識結果を選択しても、正しい認識結果を選択することが難しい。
また、前記従来の音声認識装置の第2の例では、発話速度の大小が一つの大きな要因となって現れるとされる種々の発音変形が、実際の発話速度に関係なく、すべて1個の静的な言語モデルに格納されている。このため、実際の入力音声信号がもつ発話速度とは異なる発話速度で現れる発音変形が、偶発的に高いスコアを持ち、結果として誤った認識結果を誘発する場合がある。本来的に発音変形は、発話速度ごとにそれぞれ異なるグループを形成していると考えられることから、発話速度の変動に応じて、適切な発音変形を過不足なく備えた言語モデルをもって音声認識処理がなされることが望ましい。
第2の問題点は、想定される幾種類もの発話速度に細かく対応しようとすると、処理量が増大してしまうということである。
その理由は、前記従来の音声認識装置の第1の例のように、発話速度の段階ごとに音響モデルを用意し、音響モデルごとに音声認識処理を行うようにすると、音響モデルの個数に比例して処理量の増加が起こるからである。
本発明の目的は、入力音声信号の発話速度が時々刻々変動することにより発音変形が生じても、発話速度に応じて正確な音声認識結果を出力できる音声認識装置を提供することにある。
本発明の他の目的は、様々の発話速度の音声信号に対しても、比較的少ない処理量で音声認識を行うことができる音声認識装置を提供することにある。
本発明の音声認識装置は、入力音声信号の発話速度を推定する発話速度推定手段と、発話速度ごとに各々最適化された複数の言語モデルを混合して新しい言語モデルを生成する言語モデル混合手段とを備え、前記発話速度推定手段が推定する発話速度に応じて、言語モデル混合手段が言語モデルを逐次更新するよう動作する。このような構成を採用し、入力音声信号の発話速度に適合した言語モデルを用いて入力音声信号に対する音声認識処理を行うことにより本発明の目的を達成することができる。
第1の効果は、入力音声信号の発話速度が時々刻々変動することにより発音変形が生じても、発話速度に応じて正確な音声認識結果を出力できることにある。
その理由は、発話速度推定手段が推定した入力音声信号の発話速度に基づいて、言語モデル混合手段がその発話速度において起こり得る発音変形を過不足なく備えた言語モデルを生成することにより、その発話速度では起こり得ない発音変形から導かれる誤った認識結果が発生することを抑制できるためである。
第2の効果は、様々の発話速度の音声信号に対しても、比較的少ない処理量で音声認識を実行できることにある。
その理由は、発話速度推定手段が入力音声信号の発話速度を推定し、その発話速度に適した言語モデルを作成して音声認識を実行することにより、想定される発話速度のすべてに対して個別に音声認識を実行することを回避できるからである。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1を参照すると、本発明の第1の実施の形態は、音声認識に必要な特徴量を音声信号から算出する特徴量算出手段11と、前記特徴量ともっともよく整合する単語列すなわち認識結果を探索する単語列探索手段12と、前期認識結果から音声信号の発話速度を推定する発話速度推定手段14と、単語列探索手段12が参照する音響モデルを記憶する音響モデル記憶手段15と、単語列探索手段12が参照する言語モデルを前記発話速度と複数個の言語モデルをもとに作成して出力する言語モデル混合手段13と、前記複数個の言語モデルを各々記憶する言語モデル記憶手段161、162、…、16nとから構成されている。
これらの手段はそれぞれ概略次のように動作する。
特徴量算出手段11は、音声認識に必要な特徴量を、入力音声信号から算出し、単語列探索手段12に送る。この特徴量について特に規定はなく、元の音声信号そのものであっても別段構わないが、通常は、パワーやメルケプストラム係数(MFCC)、およびそれらの変化率といった特徴パラメータを、特徴ベクトルの時系列のような形式で算出する。なお、個々の特徴ベクトルは一般にフレームという単位で数えられる。
単語列探索手段12は、入力音声信号から算出された特徴量を、特徴量算出手段11より順次受け取り、また音響モデル記憶手段15から音響モデルを受け取り、さらに後述する動作に従って言語モデル混合手段13にて作成された言語モデルを受け取り、特徴量ともっともよく整合する少なくとも1つの単語列すなわち認識結果を探索し出力する。この単語列の探索は大規模な組合せ最適化問題となるが、近年の音声認識装置で広く用いられているフレーム同期ビームサーチ等の高速なアルゴリズムによって実現することが可能である。
単語列探索手段12は、認識結果を出力すると同時に、認識結果と音声信号の間の時刻アラインメントも算出し、発話速度推定手段14に送る。時刻アラインメントまたは単にアラインメントとは、認識結果と特徴量のフレーム、もしくは認識結果と音声信号の時刻の対応関係のことである。具体的には、図4に例を示すように、例えば認識結果から「こんにちわ」という単語が得られたとき、/こ/ん/に/ち/わ/と音節に分割し、入力音声の0〜87msecの区間(継続時間長87msec)が/こ/に対応する、というように各音節が入力音声信号のどの区間に対応するかを示したものがアラインメントである。アラインメントは、多くの音声認識システムでは認識結果を得る際に副次的に得られる情報であり、またそうでなくとも、音声認識分野でよく知られたビタビ(Viterbi)アルゴリズムを適用することで容易に得られる。なお、ここでは音節単位のアラインメントの例を示したが、音節以外の単位、例えば音節をさらに細分化した音素を単位としたアラインメントを用いても構わない。
発話速度推定手段14は、単語列探索手段12からアラインメント情報を受け取り、入力音声信号の各時刻での発話速度を推定する。発話速度の定義はいくつか考えられるが、例えば単位時間当たりの音節数とすればよく、他の定義でも構わない。単位時間当たり音節数を発話速度とする場合は、音節数を継続時間長で割った値となる。分母の音節数が少ないと推定値がばらつくので、例えば連続する3音節の単位で発話速度を推定することにすると、図4の例では、
こ→2/( 87+ 64)*1000=13.2音節/秒
ん→3/( 87+ 64+104)*1000=11.8音節/秒
に→3/( 64+104+128)*1000=10.1音節/秒
ち→3/(104+128+259)*1000= 6.1音節/秒
わ→2/(128+259 )*1000= 5.2音節/秒
となる。さらに音声全体としては図5のような発話速度の推移が得られる。発話速度推定手段14はまた、発話速度の推定値に加えて、推定値の信頼区間(例えば継続時間長の標準偏差の逆数)、あるいは発話速度の確率分布(例えば継続時間長の平均と分散の逆数を母数とした逆ガウス分布)を求める。ただしこれらは必須ではない。
こ→2/( 87+ 64)*1000=13.2音節/秒
ん→3/( 87+ 64+104)*1000=11.8音節/秒
に→3/( 64+104+128)*1000=10.1音節/秒
ち→3/(104+128+259)*1000= 6.1音節/秒
わ→2/(128+259 )*1000= 5.2音節/秒
となる。さらに音声全体としては図5のような発話速度の推移が得られる。発話速度推定手段14はまた、発話速度の推定値に加えて、推定値の信頼区間(例えば継続時間長の標準偏差の逆数)、あるいは発話速度の確率分布(例えば継続時間長の平均と分散の逆数を母数とした逆ガウス分布)を求める。ただしこれらは必須ではない。
言語モデル混合手段13は、発話速度推定手段14から、入力音声信号の各時刻における発話速度の推定値および/または信頼区間等の情報を受け取り、言語モデル記憶手段161、162、…、16nにそれぞれ記憶された言語モデルを適宜混合した新しい言語モデルを生成し、単語列探索手段12に送る。以下、言語モデル混合手段13が言語モデル記憶手段161、162、…、16nに記憶された複数の言語モデルを混合する方法について、詳しく述べる。
言語モデル記憶手段161、162、…、16nには、発話速度ごとに最適化された言語モデルが記憶されている。ここで言語モデルとは、通常の大語彙連続音声認識で広く用いられるNグラム(N−gram)言語モデルであり、特に、前出の非特許文献2に記載されている発音変形依存言語モデルである。このような言語モデルは、発話速度ごとに分類された音声データベースの書き起こしテキストから作成することができる。これらの言語モデルでは、例えば「音声認識」という単語を考えた場合、低い発話速度に対応する言語モデルでは「オンセーニンシキ」という読みで出現する確率が高く設定されおり、逆に高い発話速度に対応する言語モデルでは母音が短音化した「オンセニンシキ」という読みで出現する確率が高く設定されているであろう。
言語モデル記憶手段161、162、…、16nには、言語モデルに加えて、その言語モデルが想定する発話速度の代表値、または発話速度の想定範囲が記憶されている。例えば3個の言語モデル記憶手段161,162,163を備えた実施の形態を考えた場合、各々の言語モデル記憶手段には以下のような情報が記憶されている。
言語モデル記憶手段161:言語モデル{P低速(w|h)},想定発話速度=5
言語モデル記憶手段162:言語モデル{P中速(w|h)},想定発話速度=10
言語モデル記憶手段163:言語モデル{P高速(w|h)},想定発話速度=15
ここにP(w|h)は一般的なN−gram言語モデルの表式で、wは1個の単語、hはwの直前の単語履歴で、一般的に用いられるtrigram(3−gram)言語モデルの場合、hは2単語からなる単語列である。P(w|h)は単語履歴hを仮定した場合にhの直後にwが出現する確率を意味する多項分布。また発話速度の単位は音節/秒である。
言語モデル記憶手段161:言語モデル{P低速(w|h)},想定発話速度=5
言語モデル記憶手段162:言語モデル{P中速(w|h)},想定発話速度=10
言語モデル記憶手段163:言語モデル{P高速(w|h)},想定発話速度=15
ここにP(w|h)は一般的なN−gram言語モデルの表式で、wは1個の単語、hはwの直前の単語履歴で、一般的に用いられるtrigram(3−gram)言語モデルの場合、hは2単語からなる単語列である。P(w|h)は単語履歴hを仮定した場合にhの直後にwが出現する確率を意味する多項分布。また発話速度の単位は音節/秒である。
言語モデル混合手段13は、前記の言語モデル記憶手段161、162、…、16nから言語モデルおよびその想定発話速度を受け取り、発話速度推定手段14から発話速度の推定値を受け取ると、発話速度の推定値と一番近い想定発話速度を持つ言語モデルを選択し、その言語モデルを単語列探索手段12に送る。あるいは、発話速度の推定値と想定発話速度の近さに比例した重みを設定し、全言語モデルの重み付き平均を取ることによって混合された言語モデルを生成し、単語列探索手段12に送る。重み平均の取り方はいくつかあり得るが、例えば数1のように計算することができる。
ここにrは発話速度の推定値、r1,r2,…,rnはそれぞれ言語モデルP1(w|h),P2(w|h),…,Pn(w|h)に対応する想定発話速度。αは適当な正の定数で、α=1などと設定する。例えばn=1かつα=1の場合、数1は、2つの言語モデルの重み付き平均として数2のように書き下すことができる。
言語モデル混合手段13の別の実施の形態として、言語モデル混合手段13は、前記の言語モデル記憶手段161、162、…、16nから言語モデルおよびその想定発話速度を受け取り、発話速度推定手段14から発話速度の信頼区間を受け取ると、発話速度の信頼区間全域にわたって、各言語モデルの想定発話速度との近さを測り、その近さの総和に比例した重みをかけて、全言語モデルの平均を取ることによって混合された言語モデルを生成し、単語列探索手段12に送る。重み平均の計算方法は数1や数2に準ずる。
言語モデル混合手段13のさらに別の実施の形態として、言語モデル混合手段13は、前記の言語モデル記憶手段161、162、…、16nから言語モデルおよびその想定発話速度を受け取り、発話速度推定手段14から発話速度の確率分布P(r)を受け取ると、数3のような重み平均によって言語モデルを生成し、単語列探索手段12に送る。なお、発話速度の確率分布P(r)は、例えば前述した各音節の継続時間長の平均と分散の逆数を母数とした逆ガウス分布のようなパラメトリックモデルとして定義すれば、発話速度推定手段14や言語モデル混合手段13で扱うことが可能である。
ここに、重み係数λ1,λ2,…,λnは各々の言語モデルの事前確率に相当し、発話速度の確率分布P(r)から数4によって計算される。
なお、発話速度推定手段14が発話速度を推定するためには、何らかの認識結果が必要であり、認識結果を得るためには言語モデルが必要であるが、その場合は、言語モデル混合手段13は、暫定的な言語モデル、例えば言語モデル記憶手段161、162、…、16nに記憶された言語モデルを均等に混合した言語モデル
{P1(w|h)+P2(w|h)+…+Pn(w|h)}/n
を生成し、単語列探索手段12に送るものとする。多少の認識誤りが生じていても発話速度の推定精度はほとんど低下しないことから、発話速度の推定にあたって上記のような言語モデルを用いることに問題はない。
{P1(w|h)+P2(w|h)+…+Pn(w|h)}/n
を生成し、単語列探索手段12に送るものとする。多少の認識誤りが生じていても発話速度の推定精度はほとんど低下しないことから、発話速度の推定にあたって上記のような言語モデルを用いることに問題はない。
単語列探索手段12は、言語モデル混合手段13から受け取った新しい言語モデルを使用して、入力音声信号の特徴量に対して再度単語列探索を行い、認識結果を出力する。
次に、図1および図6のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、音響特徴量算出手段11は、認識対象となる音声信号を読み込み(図6のステップA1)、パワーやメルケプストラム係数(MFCC)、およびそれらの変化率といった音声認識に必要な特徴量を、特徴ベクトルの時系列のような形式で算出する(ステップA2)。次に、単語列探索手段12は、音響モデル記憶手段15に記憶された音響モデルを読み込む(ステップA3)。また、言語モデル混合手段13は、言語モデル記憶手段161、162、…、16nに記憶された言語モデルおよび想定発話速度を順次読み込み(ステップA4)、すべての言語モデルを均等に混合した仮言語モデルを生成し、単語列探索手段12に送る(ステップA5)。続いて、単語列探索手段12は、ステップA2で得た特徴量を前記音響モデルおよび言語モデルと照合し、もっともよく整合する単語列、すなわち仮の認識結果を探索し(ステップA6)、かつ前記音声信号と認識結果の間で、音素、音節等のレベルでの時刻アラインメントを算出する(ステップA7)。さらに、発話速度推定手段14は、時刻アラインメントから入力音声信号の各時刻における発話速度を推定する、あるいは発話速度の信頼区間または発話速度の確率分布を推定する(ステップA8)。言語モデル混合手段13は、前記発話速度の推定値等および言語モデル記憶手段161、162、…、16nから読み込んだ想定発話速度を用いて、言語モデル記憶手段161、162、…、16nから読み込んだ言語モデルの重み付き平均を計算し、新しい言語モデルを作成し、単語列探索手段12に送る(ステップA9)。最後に、単語列探索手段12は、前記発話速度の推定値に応じて作成された言語モデルと前記音響モデルを前記特徴量と再度照合し、もっともよく整合する単語列を探索し、最終的な認識結果として出力する(ステップA10)。
なお、音響特徴量の算出(ステップA2)、音響モデルの読み込み(ステップA3)、言語モデルの読み込みと生成(ステップA4、A5)は自由に順序を入替えることが可能である。
次に、本実施の形態の効果について説明する。
本実施の形態では、発話速度推定手段14が仮の認識結果から入力音声信号の発話速度を推定し、その推定された発話速度に応じて、言語モデル混合手段13が発音変形に依存した複数の言語モデルを混合し単語列探索手段12に送るように構成されているため、入力音声信号の発話速度が時々刻々変動することにより発音変形が生じていても、発話速度に応じて正確な音声認識結果を出力できる。
次に、本発明の第2の発明を実施するための最良の形態について図面を参照して詳細に説明する。
図7を参照すると、本発明の第2の発明を実施するための最良の形態は、第1の発明を実施するための最良の形態をプログラムにより構成した場合に、そのプログラムにより動作されるコンピュータの構成図である。
当該プログラムは、データ処理装置73に読み込まれ、データ処理装置73の動作を制御する。データ処理装置73は音声認識用プログラム72の制御により、入力装置71から入力される音声信号に対し、以下の処理、すなわち第1の実施の形態における音響特徴量算出手段11、単語列探索手段12、言語モデル混合手段13、および発話速度推定手段14による処理、と同一の処理を実行する。音響モデルおよび言語モデルは、記憶装置740に設けられ、音響モデル記憶部740、言語モデル記憶部741乃至74nに保持される。
本発明によれば、音声信号をテキスト化する音声認識装置や、音声認識装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、音声入力をキーとして種々の情報検索を行う情報検索装置や、音声を伴う映像コンテンツにテキストインデクスを自動付与して検索することができるコンテンツ検索装置、録音された音声データの書き起こし支援装置、といった用途にも適用可能である。
11 音響特徴量算出手段
12 単語列探索手段
13 言語モデル混合手段
14 発話速度推定手段
15 音響モデル記憶手段
161,162,16n 言語モデル記憶手段
21 音響特徴量算出手段
221,222,22n 単語列探索手段
23 単語列選択手段
241,242,24n 音響モデル記憶手段
25 言語モデル記憶手段
31 音響特徴量算出手段
32 単語列探索手段
33 音響モデル記憶手段
34 発音変形依存言語モデル記憶手段
71 入力装置
72 音声認識用プログラム
73 データ処理装置
74 記憶装置
740 音響モデル記憶部
741,742,74n 言語モデル記憶部
12 単語列探索手段
13 言語モデル混合手段
14 発話速度推定手段
15 音響モデル記憶手段
161,162,16n 言語モデル記憶手段
21 音響特徴量算出手段
221,222,22n 単語列探索手段
23 単語列選択手段
241,242,24n 音響モデル記憶手段
25 言語モデル記憶手段
31 音響特徴量算出手段
32 単語列探索手段
33 音響モデル記憶手段
34 発音変形依存言語モデル記憶手段
71 入力装置
72 音声認識用プログラム
73 データ処理装置
74 記憶装置
740 音響モデル記憶部
741,742,74n 言語モデル記憶部
Claims (18)
- 音声信号もしくはこれに準ずる特徴量から発話速度を推定する発話速度推定手段と、
前記発話速度の推定結果に制御される言語モデルを参照し、前記音声信号もしくは特徴量ともっともよく整合する少なくとも1つの単語列を探索する単語列探索手段と、
を備えたことを特徴とする音声認識装置。 - 想定発話速度ごとに用意された複数個の発音変形依存言語モデルを、前記発話速度の推定結果に応じて選択または混合する言語モデル混合手段を備えたことを特徴とする請求項1記載の音声認識装置。
- 前記発話速度推定手段は、前記単語列探索手段が探索した仮の単語列を用いて、前記音声信号中の各時刻の発話速度を推定し、
前記言語モデル混合手段は、前記推定の結果に応じて逐次的に言語モデルの選択または混合を行うことを特徴とする請求項2記載の音声認識装置。 - 前記発話速度推定手段は、発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか1つを求めることを特徴とする請求項1乃至3記載の音声認識装置。
- 前記言語モデル混合手段は、前記発話速度の推定結果と最も近い想定発話速度に対応する言語モデルを選択することを特徴とする請求項2乃至4記載の音声認識装置。
- 前記言語モデル混合手段は、前記発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか1つに基づいて、各言語モデルの重み係数を決定し、前記重み係数に基づいて前記各言語モデルを混合することを特徴とする請求項2乃至4記載の音声認識装置。
- 音声信号もしくはこれに準ずる特徴量から発話速度を推定する発話速度推定ステップと、前記発話速度の推定結果に制御される言語モデルを参照し、前記音声信号もしくは特徴量ともっともよく整合する少なくとも1つの単語列を探索する単語列探索ステップとを含むことを特徴とする音声認識方法。
- 想定発話速度ごとに用意された複数個の発音変形依存言語モデルを、前記発話速度推定ステップにおける前記発話速度の推定結果に応じて選択または混合する言語モデル混合ステップを含むことを特徴とする請求項7記載の音声認識方法。
- 前記発話速度推定ステップは、前記単語列探索ステップにおいて探索した仮の単語列を用いて、前記音声信号中の各時刻の発話速度を推定し、前記言語モデル混合ステップは、前記発話速度推定ステップにおける前記推定の結果に応じて逐次的に言語モデルの選択または混合を行うことを特徴とする請求項8記載の音声認識方法。
- 前記発話速度推定ステップは、発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか1つを求めることを特徴とする請求項7乃至9記載の音声認識方法。
- 前記言語モデル混合ステップは、前記発話速度の推定結果と最も近い想定発話速度に対応する言語モデルを選択することを特徴とする請求項8乃至10記載の音声認識方法。
- 前記言語モデル混合ステップは、前記発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか1つに基づいて、各言語モデルの重み係数を決定し、前記重み係数に基づいて前記各言語モデルを混合することを特徴とする請求項8乃至10記載の音声認識方法。
- 音声信号もしくはこれに準ずる特徴量から発話速度を推定する処理と、
前記発話速度の推定結果に制御される言語モデルを参照し、前記音声信号もしくは特徴量ともっともよく整合する少なくとも1つの単語列を探索する処理と、
をコンピュータに実行させるためのプログラム。 - 想定発話速度ごとに用意された複数個の発音変形依存言語モデルを、前記発話速度の推定結果に応じて選択または混合する処理をコンピュータに実行させるための請求項13記載のプログラム。
- 前記発話速度推定は、前記単語列探索手段が探索した仮の単語列を用いて、前記音声信号中の各時刻の発話速度を推定し、前記言語モデル混合は、前記推定の結果に応じて逐次的に言語モデルの選択または混合を行う処理をコンピュータに実行させるための請求項13のプログラム。
- 前記発話速度推定は、発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか1つを求める処理をコンピュータに実行させる請求項13乃至15記載のプログラム。
- 前記言語モデル混合は、前記発話速度の推定結果と最も近い想定発話速度に対応する言語モデルを選択する処理を実行させる請求項14乃至16記載のプログラム。
- 前記言語モデル混合は、前記発話速度の推定値、発話速度の信頼区間、発話速度の確率分布のうちの少なくともいずれか1つに基づいて、各言語モデルの重み係数を決定し、前記重み係数に基づいて前記各言語モデルを混合する処理を実行させる請求項14乃至16記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006200938A JP2008026721A (ja) | 2006-07-24 | 2006-07-24 | 音声認識装置、音声認識方法、および音声認識用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006200938A JP2008026721A (ja) | 2006-07-24 | 2006-07-24 | 音声認識装置、音声認識方法、および音声認識用プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008026721A true JP2008026721A (ja) | 2008-02-07 |
Family
ID=39117391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006200938A Withdrawn JP2008026721A (ja) | 2006-07-24 | 2006-07-24 | 音声認識装置、音声認識方法、および音声認識用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008026721A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176103A (ja) * | 2009-02-02 | 2010-08-12 | Nippon Hoso Kyokai <Nhk> | 発音辞書修正装置、音声認識装置、およびコンピュータプログラム |
JP2017527846A (ja) * | 2015-04-16 | 2017-09-21 | 三菱電機株式会社 | 音声認識装置およびリスコアリング装置 |
KR20180065759A (ko) * | 2016-12-08 | 2018-06-18 | 한국전자통신연구원 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
-
2006
- 2006-07-24 JP JP2006200938A patent/JP2008026721A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010176103A (ja) * | 2009-02-02 | 2010-08-12 | Nippon Hoso Kyokai <Nhk> | 発音辞書修正装置、音声認識装置、およびコンピュータプログラム |
JP2017527846A (ja) * | 2015-04-16 | 2017-09-21 | 三菱電機株式会社 | 音声認識装置およびリスコアリング装置 |
US10600407B2 (en) | 2016-07-20 | 2020-03-24 | Kabushiki Kaisha Toshiba | Generation device, recognition system, and generation method for generating finite state transducer |
KR20180065759A (ko) * | 2016-12-08 | 2018-06-18 | 한국전자통신연구원 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
KR102072235B1 (ko) * | 2016-12-08 | 2020-02-03 | 한국전자통신연구원 | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
JP4274962B2 (ja) | 音声認識システム | |
KR101056080B1 (ko) | 음운 기반의 음성 인식 시스템 및 방법 | |
JP4657736B2 (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
Wester | Pronunciation modeling for ASR–knowledge-based and data-derived methods | |
US20110077943A1 (en) | System for generating language model, method of generating language model, and program for language model generation | |
JP4129989B2 (ja) | テキスト音声合成を支援するシステム | |
JP2006038895A (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
JP5660441B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
JP2007047412A (ja) | 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置 | |
JP4836076B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
EP3309778A1 (en) | Method for real-time keyword spotting for speech analytics | |
JP4283133B2 (ja) | 音声認識装置 | |
JP4239479B2 (ja) | 音声認識装置、音声認識方法、および、音声認識プログラム | |
US20130117026A1 (en) | Speech synthesizer, speech synthesis method, and speech synthesis program | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
Golda Brunet et al. | Transcription correction using group delay processing for continuous speech recognition | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20091006 |