JP2002229589A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2002229589A
JP2002229589A JP2001020572A JP2001020572A JP2002229589A JP 2002229589 A JP2002229589 A JP 2002229589A JP 2001020572 A JP2001020572 A JP 2001020572A JP 2001020572 A JP2001020572 A JP 2001020572A JP 2002229589 A JP2002229589 A JP 2002229589A
Authority
JP
Japan
Prior art keywords
syllable
language model
word string
model
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001020572A
Other languages
English (en)
Inventor
Yuzo Maruta
裕三 丸田
Yoshiharu Abe
芳春 阿部
Hirotaka Goi
啓恭 伍井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001020572A priority Critical patent/JP2002229589A/ja
Publication of JP2002229589A publication Critical patent/JP2002229589A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 話題が発話中に変わっても認識性能を劣化さ
せない音声認識装置を提供する。 【解決手段】 ユーザの発話した音声を音声データの形
で取得する音声入力手段101、音声データを所定時刻
毎に音響分析して音響特徴ベクトルを出力する音響分析
手段102、音響モデル記憶手段103、音響特徴ベク
トルと音響モデルとから音節認識処理を行い最適な認識
音節列を出力する音節認識手段104、認識音節列の中
で話題が変わる話題遷移候補点を設定する話題遷移候補
点設定手段105、設定された話題遷移候補点で分割し
た各音節区間に適応する言語モデルを設定する言語モデ
ル設定手段106、複数の言語モデル記憶手段109、
複数の言語モデルのうち、各音節区間でそれぞれ設定さ
れた言語モデルを用いて最適な単語列を探索し認識単語
列を求めて出力する単語列探索手段107を備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識に用い
る言語モデルを発話中に切り替えて用いるようにした音
声認識装置に関するものである。
【0002】
【従来の技術】図7は、特開平2000−20086号
公報に開示された音声認識装置を示す構成図である。図
7において、5は操作制御部、31はマイク、32は入
力信号処理部、33は認識処理部、34は辞書管理部、
35は認識制御部であり、これらにより音声認識装置3
0を構成している。
【0003】次に動作を説明する。認識処理部33は、
入力信号処理部32から入力された音声データを、設定
された辞書データ中に存在する比較対象パターン候補と
比較して一致度の高い上位比較対象パターンを認識制御
部35へ出力する。入力音声中の単語系列の認識は、入
力信号処理部32から入力された音声データを順次音響
分析して音響的特徴量(例えばケプストラム)を抽出
し、この音響分析によって得られた音響的特徴量時系列
データを得、そして、たとえば周知のDP(dynamic pr
ogram)マッチング法(非線形伸縮パターンマッチング
法)によって、その時系列データをいくつかの区間に分
け、各区間が辞書データとして格納されたどの単語に対
応しているかを求める。
【0004】そして、認識制御部35は、その認識結果
を操作制御部5へ出力すると共に、操作制御部5からは
状態を取得する。この状態とは、音声認識装置30と連
動しているシステム(図示していない)が現時点でどの
ような設定状態にあるのかなどを取得する。そして、そ
の取得した状態に基づいて辞書管理部34に対して辞書
指定を行う。
【0005】辞書管理部34は、記憶している辞書デー
タを認識処理部33に設定する。認識処理部33は、こ
の設定された辞書データに基づいて認識処理を行うので
あるが、辞書管理部34は、記憶している辞書データを
常に同じ状態で認識処理部33に設定するとは限らず、
認識制御部35から辞書指定があると、その指定に基づ
いて編集した辞書データを認識処理部33に設定する。
【0006】例えば、カーナビにおける音声認識システ
ムについて考える。音声認識システムと連動しているシ
ステムのディスプレイ(図示していない)に「レストラ
ン」のリスト表示がされている状態にて音声認識機能が
起動した場合には、ユーザの操作に応じてこのレストラ
ンリストを表示していることは明らかで、この状態にお
いて、ユーザが「地図向きの変更」や「地図尺度の変
更」といった地図操作に関する要求を行うことは考えら
れない。また、他のリスト、例えば「温泉リスト」や
「ゴルフ場リスト」が表示されている場合に要求される
温泉やゴルフ場に関するデータなどについても、この状
態(「レストラン」のリスト表示がされている状態)で
要求されることは考えられない。
【0007】そこで、ディスプレイにレストランリスト
が表示されている状態でユーザが要求するのは、レスト
ランの店名そのものの指定か、あるいはレストランとい
うジャンルをさらに詳細に区別するジャンル指定のいず
れかであると想定でき、絞り込むことができる。そこ
で、認識制御部35は、操作制御部5からレストランリ
ストが表示されているという状態を取得し、辞書管理部
34に対して、「レストランに関する辞書」という指定
を行う。
【0008】このように、ユーザの操作に基づいて状態
が変更されていくに従い、その変更された状態において
必要な認識語彙のみを含む選択辞書が随時設定されてい
く。つまり、その時点でのシステムの状態から必要と思
われる認識語彙はそのまま残って有効とされ、それ以外
の認識語彙が辞書データとして無効となるので、誤認識
を極力防止できながら本来認識すべき語彙についての音
声認識は適切に実現することができる。
【0009】
【発明が解決しようとする課題】このように、分野もし
くは話題を限定することによって認識性能を向上させる
ことは知られているが、以上のような従来例において
は、辞書管理部34が予期する必要分のみの辞書を抽出
するので、1発話中に話題や該当分野が途中で変わって
しまい、その分野が辞書に設定されていない場合、認識
性能が劣化したり、認識が不能になる。
【0010】この発明は上述した点に鑑みてなされたも
ので、話題が発話中に変わっても認識性能を劣化させな
い音声認識装置を提供しようとするものである。
【0011】
【課題を解決するための手段】この発明に係る音声認識
装置は、ユーザの発話した音声を音声データの形で取得
する音声入力手段と、上記音声入力手段からの音声デー
タを所定時刻毎に音響分析して音響特徴ベクトルを出力
する音響分析手段と、音響モデルを記憶する音響モデル
記憶手段と、上記音響分析手段からの音響特徴ベクトル
と上記音響モデル記憶手段に記憶されている音響モデル
とから音節認識処理を行い最適な認識音節列を出力する
音節認識手段と、上記音節認識手段から出力される認識
音節列の中で話題が変わる話題遷移候補点を設定する話
題遷移候補点設定手段と、上記話題遷移候補点設定手段
により設定された話題遷移候補点で分割したそれぞれの
音節区間に適応する言語モデルを設定する言語モデル設
定手段と、話題を限定した言語モデルを記憶する複数の
言語モデル記憶手段と、上記複数の言語モデル記憶手段
に記憶された言語モデルのうち、上記言語モデル設定手
段により各音節区間でそれぞれ設定された言語モデルを
用いて最適な単語列を探索し、各音節区間で探索した単
語列より認識単語列を求めて認識結果として出力する単
語列探索手段とを備えたものである。
【0012】また、条件付き確率を表す各音節区間の混
合行列を差分モデルとして記憶する差分モデル記憶手段
をさらに備え、上記単語列探索手段は、言語モデルに基
づく言語尤度に上記条件付き確率を乗算した確率が最大
になる単語列を探索することを特徴とするものである。
【0013】また、言語モデルに対応するコーパスを記
憶する複数のコーパス記憶手段と、上記複数のコーパス
記憶手段に記憶されたコーパスのうち、各言語モデルに
対応したコーパスから言語モデルを特徴づける固有の値
を計算する計算手段とをさらに備え、上記単語列探索手
段は、言語モデルを用いて最適な単語列を探索する際
に、上記計算手段により計算された固有の値の関係を認
識仮説の尤度に乗算または加算した確率が最大となる単
語列を各音節区間毎に求めることを特徴とするものであ
る。
【0014】さらに、上記計算手段は、固有の値とし
て、各言語モデルに対応したコーパスにおける平均トラ
イグラム確率を計算する平均トライグラム計算手段であ
ることを特徴とするものである。
【0015】
【発明の実施の形態】実施の形態1.図1は、この発明
の実施の形態1に係る音声認識装置の構成図である。図
1において、101はユーザの発話した音声から音声デ
ータを取得する音声入力手段、102は入力した音声を
分析して音響特徴ベクトルを出力する音響分析手段、1
03は音響モデルを記憶する音響モデル記憶手段、10
4は音節認識手段、105は話題遷移候補点設定手段、
106は言語モデル設定手段、107は単語列探索手
段、108は差分モデル記憶手段、109−1〜109
−nは言語モデル記憶手段である。
【0016】ここで、理解を容易にするために、まず、
最初に言語モデルが1つしか存在せず、話題遷移候補点
設定手段105と言語モデル設定手段106が存在しな
い従来の動作を文献1(Y. abe, H. Itsui, Y. Maruta,
K. Nakajima, “A Two-Stage Speech Recognition Met
hod with An Error Correction Model “ In Proc. Eur
ospeech'99, pp.443-446(1999))に基づいて説明す
る。
【0017】図2は、話題遷移候補点設定手段105と
言語モデル設定手段106が存在しない従来の動作を説
明するフローチャートである。まず、音声入力手段10
1は、ユーザの発話した音声を音声データの形で取得す
る(S0001)。次に、音響分析手段102は、音声
データを所定時刻毎に音響分析して音響特徴ベクトルを
出力する(S0002)。音節認識手段104は、音響
特徴ベクトルと音響モデル記憶手段103に記憶されて
いる音響モデルとから音節認識処理を行い、最適な認識
音節列Xi={x1,x2,...,xi}を出力する(S
0003)。
【0018】ここで、xkは音節認識手段104が出力
する最小単位であり、通常は、“a”(あ)、“ka”
(か)などの音節である。音節認識手段104が認識音
節列を出力する手続きについては、たとえば文献2(中
川聖一著「確率モデルによる音声認識」電子情報通信学
会,1988年)の20ページから26ページに開示さ
れているOne Pass DPアルゴリズムによって実現するこ
とが可能である。
【0019】次に、単語列探索手段107は、式(1)
の確率P0を最大にするような単語列Wk={w1
2,...,wk}を最良優先探索アルゴリズムを用い
て探索する(S0004)。
【0020】 P0=P(Xi|Ym)P(Wk) (1)
【0021】ここで、Ym={y1,y2,...,ym
は単語列Wkを音節表記した場合の音節表記列であり、
例えば、Wk={今日,は、晴れ、です}という単語列
であれば、Ym={kjo,o,wa,ha,re,d
e,su}となる。この場合、w1=“今日”,w2
“は”,w3=“晴れ”,w4=“です”,k=4,y1
“kjo”,y2=“o”,y3=“wa”,y4=“h
a”,y5=“re”,y 6=“de”,y7=“s
u”,m=7である。単語の音節表記が確定していれ
ば、Wkが定まると、Ymは一意に決定する。
【0022】式(1)において、P(Xi|Ym)は以下
のような意味をもっている。入力発声が「今日は晴れで
す」であっても、一般的には音節認識結果には誤りを含
み得るので、音声認識手段104が出力する音節列Xi
は、たとえばXi={to,o,wa,a,re,d
e,e,su}「とうはあれでえす」となる。単語列仮
説がWk={“今日”,“は”,“晴れ”,“です”}
であったとき、P(Xi|Y m)は“kjo,o,o,w
a,ha,re,de,su”という音節列が“to,
o,wa,a,re,de,e,su”という認識音節
列であるという条件付き確率を表わす。
【0023】このような条件付き確率は、混同行列(co
nfusion matrix)と考えることができ、具体的には文献
1の式(6)で示されるように前もって学習データから
学習することによって値を計算しておくことができ、差
分モデル記憶手段105はこの混合行列を差分モデルと
して記憶する。
【0024】一方、P(Wk)は言語モデルに基づく言
語尤度と呼ばれ、単語列Wk={w1,w2,...,
k}が出現する言語的な確率を表わす。言語モデル
は、一般には単語の連鎖に対する制約を記述したもので
ある。従来、言語モデルとしてはNグラムモデルと呼ば
れる、単語N個の連鎖の出現する確率を記述するモデル
が一般に用いられてきている。Nとして大きな値をとる
と、組み合わせの数が膨大となるので、通常、Nとして
は2,3などの値が用いられる。N=2の場合をバイグ
ラム、N=3の場合はトライグラムと呼ばれる。
【0025】ここでは、トライグラムを例にとって説明
する。直前の出現単語列がw1,w2だったとき、次の単
語がw3である条件付確率P(w3|w1,2)をトライ
グラムの条件付確率と呼ぶ。この条件付確率をすべての
出現可能な単語列(w1,w2,w3)について保持した
もの(または計算可能にしたもの)がトライグラム言語
モデルである。この条件付確率は、通常、ある大きなデ
ータベースにおいて、実際に起きる事象をカウントする
ことによって得られる。
【0026】言語モデル用のデータベースはコーパスと
呼ばれる。しばしば新聞などがその用途に用いられ、近
年は数百万文から構成される大規模コーパスがしばしば
利用されている。例えばトライグラムの場合、条件付確
率P(w3|w1,w2)は、もっとも単純には単語列
(w1,w2,w3)がコーパス内に出現するカウント数
N(w1,w2,w3)を単語列(w1,w2)がコーパス
内に出現するカウント数N(w1,w2)で割ることによ
り得られる。
【0027】すなわち、 P(w3|w1,w2)=N(w1,w2,w3)/N(w1,w2) (2) である。これを用いると、言語尤度P(Wk)は、 P(Wk) =P(w1,w2,...,wk) =P(w1|$,$)P(w2|$,w1)P(w3|w1,w2) ...P(wk|wk-2,wk-1)P($|wk-1,wk)P($|wk,$) (3) と表わすことができる。ここにおいて、$は文頭または
文末を表現する記号である。
【0028】最良優先探索アルゴリズムは、具体的には
文献3(「1段目の最適解と正解の差分傾向を考慮した
2段階探索法」、日本音響学会平成10年秋季研究発表
会講演論文集I、pp.147-148)の2.2節に開示されて
いる。
【0029】以上のようにして、各認識仮説Wkに対し
て式(1)の確率P0を計算し、最大の値を与えるよう
なWkを求め、認識結果出力手段(図示していない)は
最終的な認識結果としてWkを出力する(S000
5)。
【0030】次に、図3に示すフローチャートを用い
て、本実施の形態1に係る動作を説明する。音節認識手
段104が音節列Xi={x1,x2,...,xi}を出
力するまでのステップ(S0001)〜(S0003)
は上述した説明と同様であるので省略する。次に、話題
遷移候補点設定手段105は、音節列の中で話題が変わ
る話題遷移候補点を仮に1組設定する(S1001)。
たとえば、1つの発声内に許される話題数を3とする
と、話題遷移候補点は2つであり、N音節の場合には話
題遷移点の組み合わせは最大N-12で与えられるが、こ
のうちの1組を設定する。
【0031】ここでは、音節xpとxqを話題遷移候補点
として、音節列を話題遷移候補点で分割したそれぞれの
音節列をXi={x1,x2,...,xi}=
{x1,...,xp-1,xp,...,xq-1
q,...,xi}={Xi1,Xi2,Xi3}と表現する
(図4(a)、(b)参照)。
【0032】次に、言語モデル設定手段106は、話題
遷移候補点で分割したそれぞれの音節区間に適応する言
語モデルを1組設定する(S1002)。たとえば、x
1〜xp-1の音節区間に言語モデルA,xp〜xq-1の音節
区間に言語モデルB,xq〜xiの音節区間に言語モデル
Cを適応させるように設定する(図4(c)参照)。し
たがって、言語モデルがN個ある場合には、言語モデル
の設定の仕方は話題遷移候補点が2つの場合N3通りあ
ることになるが、そのうちの1組を設定する。
【0033】次に、単語列探索手段107は、各音節区
間で、それぞれ設定された言語モデルを用いて、最適な
単語列を求める(S1003)。たとえば、図4に示す
ように、3つの区間に分割した場合、まず、音節x1
p-1に対して、言語モデルAについて単語列候補Wk1
={wA 1,wA 2,...,wA k1}を仮定し、P(Xi1
|Ym1)P(Wk1)を最大にするような単語列候補Wk1
を前述した手続きと同様な手続きで求める。同様に、音
節xp〜xq-1に対して、言語モデルBについてP(Xi2
|Ym2)P(Wk2)を最大にするような単語列候補Wk2
={wB 1,wB 2,...,wB k2}を求め、さらに、音
節xq〜xiに対して、言語モデルCについてP(Xi3
m3)P(Wk3)を最大にするような単語列候補Wk3
{wC 1,w C 2,...,wC k2}を求める。ここで、wA
などは単語wが言語モデルAのものであると明示的に表
現している記号である。
【0034】次に、単語列探索手段107は、それぞれ
の区間内で求めた単語列より、単語列W={Wk1
k2,Wk3,...}を作成し、P0=P(Xi1
m1)P(W k1)P(Xi2|Ym2)P(Wk2)P(Xi3
|Ym3)P(Wk3)...を求める(S1004)。
【0035】以上の処理を話題遷移候補点が定まってい
る下ですべての話題の組み合わせについて行い(S10
05,S1006)、さらに、話題遷移候補点設定手段
105は、すべての話題遷移候補点の組み合わせについ
て行う(S1007,S1008)。最終的な認識結果
は、すべての組み合わせの中でP0を最大にするWを与
える(S1009)。
【0036】以上のような処理により、1つの発声内で
話題が遷移して、最適な言語モデルの変更が必要な場合
でも高い認識性能をもつ音声認識装置を提供することが
できる。
【0037】また、本実施の形態1では、文献1による
認識処理をもとに説明したが、その他の認識方式、例え
ばViterbiによる認識方式でも同様な処理が可能である
ことは言うまでもない。さらに、本実施の形態1では、
音節認識結果に対して話題遷移候補点を設定したが、音
声波形レベルにおいても話題遷移候補点を設けることも
可能である。この場合、予め定めた基本パターン(たと
えば、一定時間以上の無音区間など)と類似している音
声波形部分を話題遷移候補点と定めたり、発話から所定
時間経過した音声波形部分を話題遷移点と定めたりすれ
ばよい。また、音響特徴ベクトルのレベルにおいても同
様に話題遷移候補点を設けることも可能である。
【0038】実施の形態2.次に、この発明の実施の形
態2について説明する。本実施の形態2は、1発話内
で、たとえば住所のみを扱う話題と新聞の内容の話題な
ど、言語モデル同士の複雑さが大きく異なる場合に有効
である。
【0039】図5は、本実施の形態2に係る音声認識装
置を示す構成図である。図5において、図1に示す実施
の形態1と同一部分は同一符号を付してその説明は省略
する。新たな符号として、110は各言語モデルに対応
したコーパスから言語モデルを特徴づける固有の値とし
て平均トライグラム確率を計算する平均トライグラム確
率計算手段、111−1〜111−nは言語モデル記憶
手段109−1〜109−nにそれぞれ対応したコーパ
ス記憶手段である。また、図6は、本実施の形態2の動
作を示すフローチャートである。
【0040】以下、図5と図6を用いて動作を説明す
る。まず、始めに、平均トライグラム確率計算手段11
0は、各言語モデルに対応したコーパスから、固有の値
としての平均トライグラム確率を計算する(S200
0)。すなわち、ある言語モデルA(これを109−A
とする)に対応するコーパス記憶手段111−Aについ
て、 R(A)=ΣP(wA i+2|wA i,wA i+1)/N0 (4) を計算する。なお、Σはコーパスに存在するすべての単
語の3連鎖についてとり、P(wA i+2|wA i,wA i+1
は対応する言語モデルの確率値、具体的には前述した式
(2)を用いる。また、N0はコーパス記憶手段111
−A内に存在する単語の3連鎖の総数(延べ数)であ
る。
【0041】ここで、R(A)の意味について説明す
る。言語モデル同士の複雑さが大きく違う場合には、単
語連鎖確率P(wi+2|wi,wi+1)の確率はそれぞれ
の言語モデルによって大きく異なるため、その差を補正
する必要がある。すなわち、一般に、語彙が大きい場合
や,言い回しが多様な場合には、wiとwi+1の次に来る
可能性がある単語種類は大きくなるため、P(wi+2
i,wi+1)は小さくなり、語彙が小さいまたは言い回
しが固定の場合には、wiとwi+1の次にくる単語種類は
限定されているため、P(wi+2|wi,wi+1)は大き
くなる。
【0042】たとえば、wi,wi+1の次に来る可能性の
ある単語wi+2が10種類あり、それらが等しい確率で
あれば、P(wi+2|wi,wi+1)=0.1であるが、
i,wi+1の次に来る可能性のある単語wi+2が100
0種類あり、それらが等しい確率であればP(wi+2
i,wi+1)=0.001となる。したがって、異なっ
た言語モデルを利用した仮説同士の言語尤度を比較する
場合、常に語彙が小さいまたは言い回しが固定的な言語
モデルを用いた方の言語尤度が大きくなるため、直接比
較が困難である。
【0043】そこで、この偏りを解消するために、各言
語モデルの差を補正することが必要である。言語モデル
AとBについて計算したR(A)とR(B)は、大量の
データについて単語3連鎖の条件付き確率を計算する
と、言語モデルAと言語モデルBとでは平均的にR
(A)とR(B)だけ異なっているということを意味し
ている。したがって、これを補正のための情報として用
いることができる。
【0044】具体的には、言語モデルBでの条件付き確
率PB(wB i+2|wB i,wB i+1)にR(A)/R(B)
をかけたPB(wB i+2|wB i,wB i+1)R(A)/R
(B)を計算する。この値が言語モデルAでのPA(wA
i+2|wA i,wA i+1)と比較しうる条件付確率になる。
この補正は、単語3連鎖の条件付き確率を計算するたび
に必要である。
【0045】次の処理(S0001)〜(S1002)
までは実施の形態1と同様であるので説明を省略する。
【0046】次に、単語列探索手段107は、各音節区
間内で設定された言語モデルを用い、最良優先探索アル
ゴリズムを用いて、以下のP1(n)を最大とする第n
音節区間内の単語列をそれぞれのnについて求める(S
2003)。
【0047】 P1(n) =P(Xin|Ymn)P(Wkn)(R(1)/R(Ln))kn (5) ここで、Lnは第n音節区間内に設定される言語モデル
である。また、(R(1)/R(Ln))knは(R
(1)/R(Ln))のkn乗であり、言語モデルを特
徴づける固有の値の関係を示している。knは仮説単語
列Wknの単語数である。このようにすることで、全ての
仮説は言語モデル1と比較可能になる。
【0048】次に、単語列探索手段107は、それぞれ
の区間内で求めた音節列候補より、単語列W={Wk1
k2,Wk3,...}を作成し、 P1=P1(1)×P(2)×P(3)... (6) を求める(S2004)。
【0049】以降の処理(S1005)〜(S100
8)は実施の形態1と同様であるので説明を省略する。
最終的な認識結果は、すべての組み合わせの中でP1を
最大にするW={Wk1,Wk2,...}を、最終的な認
識結果として与える(S2009)。
【0050】以上のような処理により、言語モデルが大
きく異なっている場合でも、相互に比較できるように補
正を加えたので、認識の性能がより向上する効果を奏す
る。
【0051】また、本実施の形態では言語モデルを特徴
づけるR(A)を確率P(Xin|Y mn)P(Wkn)に対
し乗算または除算したが、認識に対数尤度を用いる場合
には、加算または減算になる。
【0052】以上述べた実施の形態1〜実施の形態2に
ついて、各手段はハードウエア・ソフトウエアのいずれ
でも構成できることはいうまでもない。また、ソフトウ
エアによって構成する場合には、そのソフトウエアプロ
グラムを記録した記録媒体が必要となる。
【0053】
【発明の効果】以上のように、この発明によれば、話題
を限定した言語モデルを複数持ち、認識に用いる言語モ
デルを発話の途中で切り替えるようにしたので、話題が
発話中に変わっても認識性能を劣化させない音声認識装
置を提供することができる。
【0054】また、条件付き確率を表す各音節区間の混
合行列を差分モデルとして記憶する差分モデル記憶手段
を備え、単語列探索手段により、言語モデルに基づく言
語尤度に上記条件付き確率を乗算した確率が最大になる
単語列を探索するようにしたので、言語モデルを用いて
最適な単語列を探索することができる。
【0055】また、言語モデルに対応するコーパスを記
憶する複数のコーパス記憶手段と、上記複数のコーパス
記憶手段に記憶されたコーパスのうち、各言語モデルに
対応したコーパスから言語モデルを特徴づける固有の値
を計算する計算手段とを備え、単語列探索手段により、
言語モデルを用いて最適な単語列を探索する際に、上記
計算手段により計算された固有の値の関係を認識仮説の
尤度に乗算または加算した確率が最大となる単語列を各
音節区間毎に求めるようにしたので、言語モデルが大き
く異なっていても相互に比較するように補正を加えて認
識の性能を向上させることができる。
【0056】さらに、上記計算手段は、固有の値とし
て、各言語モデルに対応したコーパスにおける平均トラ
イグラム確率を計算する平均トライグラム計算手段を用
いるようにしたので、各言語モデルに対応したコーパス
における固有の値として単語連鎖確率の平均値を求める
ことができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1に係る音声認識装置
を示す構成図である。
【図2】 図1において話題遷移候補点設定手段105
と言語モデル設定手段106が存在しない従来の動作を
説明するフローチャートである。
【図3】 この発明の実施の形態1に係る処理を説明す
るフローチャートである。
【図4】 図1の話題遷移候補点設定手段105と言語
モデル設定手段106における設定処理の説明図であ
る。
【図5】 この発明の実施の形態2に係る音声認識装置
を示す構成図である。
【図6】 この発明の実施の形態2に係る処理を説明す
るフローチャートである。
【図7】 従来の音声認識装置を示す構成図である。
【符号の説明】
101 音声入力手段、102 音響分析手段、103
音響モデル記憶手段、104 音節認識手段、105
話題遷移候補点設定手段、106 言語モデル設定手
段、107 単語列探索手段、108 差分モデル記憶
手段、109−1〜109−n 言語モデル記憶手段、
110 平均トライグラム確率計算手段、111−1〜
111−n コーパス記憶手段。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 伍井 啓恭 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5D015 AA01 AA05 BB02 HH03 HH07 KK02 LL10

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ユーザの発話した音声を音声データの形
    で取得する音声入力手段と、 上記音声入力手段からの音声データを所定時刻毎に音響
    分析して音響特徴ベクトルを出力する音響分析手段と、 音響モデルを記憶する音響モデル記憶手段と、 上記音響分析手段からの音響特徴ベクトルと上記音響モ
    デル記憶手段に記憶されている音響モデルとから音節認
    識処理を行い最適な認識音節列を出力する音節認識手段
    と、 上記音節認識手段から出力される認識音節列の中で話題
    が変わる話題遷移候補点を設定する話題遷移候補点設定
    手段と、 上記話題遷移候補点設定手段により設定された話題遷移
    候補点で分割したそれぞれの音節区間に適応する言語モ
    デルを設定する言語モデル設定手段と、 話題を限定した言語モデルを記憶する複数の言語モデル
    記憶手段と、 上記複数の言語モデル記憶手段に記憶された言語モデル
    のうち、上記言語モデル設定手段により各音節区間でそ
    れぞれ設定された言語モデルを用いて最適な単語列を探
    索し、各音節区間で探索した単語列より認識単語列を求
    めて認識結果として出力する単語列探索手段とを備えた
    音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、 条件付き確率を表す各音節区間の混合行列を差分モデル
    として記憶する差分モデル記憶手段をさらに備え、 上記単語列探索手段は、言語モデルに基づく言語尤度に
    上記条件付き確率を乗算した確率が最大になる単語列を
    探索することを特徴とする音声認識装置。
  3. 【請求項3】 請求項1または2に記載の音声認識装置
    において、 言語モデルに対応するコーパスを記憶する複数のコーパ
    ス記憶手段と、 上記複数のコーパス記憶手段に記憶されたコーパスのう
    ち、各言語モデルに対応したコーパスから言語モデルを
    特徴づける固有の値を計算する計算手段とをさらに備
    え、 上記単語列探索手段は、言語モデルを用いて最適な単語
    列を探索する際に、上記計算手段により計算された固有
    の値の関係を認識仮説の尤度に乗算または加算した確率
    が最大となる単語列を各音節区間毎に求めることを特徴
    とする音声認識装置。
  4. 【請求項4】 請求項3に記載の音声認識装置におい
    て、 上記計算手段は、固有の値として、各言語モデルに対応
    したコーパスにおける平均トライグラム確率を計算する
    平均トライグラム計算手段であることを特徴とする音声
    認識装置。
JP2001020572A 2001-01-29 2001-01-29 音声認識装置 Pending JP2002229589A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001020572A JP2002229589A (ja) 2001-01-29 2001-01-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001020572A JP2002229589A (ja) 2001-01-29 2001-01-29 音声認識装置

Publications (1)

Publication Number Publication Date
JP2002229589A true JP2002229589A (ja) 2002-08-16

Family

ID=18886259

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001020572A Pending JP2002229589A (ja) 2001-01-29 2001-01-29 音声認識装置

Country Status (1)

Country Link
JP (1) JP2002229589A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
US9043209B2 (en) 2008-11-28 2015-05-26 Nec Corporation Language model creation device

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004362584A (ja) * 2003-06-03 2004-12-24 Microsoft Corp テキストおよび音声の分類のための言語モデルの判別トレーニング
JP4571822B2 (ja) * 2003-06-03 2010-10-27 マイクロソフト コーポレーション テキストおよび音声の分類のための言語モデルの判別トレーニング
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale
JP5212910B2 (ja) * 2006-07-07 2013-06-19 日本電気株式会社 音声認識装置、音声認識方法、および音声認識用プログラム
US9043209B2 (en) 2008-11-28 2015-05-26 Nec Corporation Language model creation device
CN103903619A (zh) * 2012-12-28 2014-07-02 安徽科大讯飞信息科技股份有限公司 一种提高语音识别准确率的方法及系统
CN103903619B (zh) * 2012-12-28 2016-12-28 科大讯飞股份有限公司 一种提高语音识别准确率的方法及系统

Similar Documents

Publication Publication Date Title
US6574597B1 (en) Fully expanded context-dependent networks for speech recognition
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
EP1575030B1 (en) New-word pronunciation learning using a pronunciation graph
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US8494847B2 (en) Weighting factor learning system and audio recognition system
JP2001249684A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2000075895A (ja) 連続音声認識用n最良検索方法
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JPH1063291A (ja) 連続密度ヒドンマルコフモデルを用いた音声認識方法及び装置
JPS62231995A (ja) 音声認識方法
JPS63259697A (ja) 音声認識方法
JP2011065120A (ja) すべての言語の音声識別及び音声識別を利用した単字入力の方法
JP2013125144A (ja) 音声認識装置およびそのプログラム
Fujimura et al. Simultaneous speech recognition and acoustic event detection using an LSTM-CTC acoustic model and a WFST decoder
JP2002229589A (ja) 音声認識装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2000056795A (ja) 音声認識装置
JP4733436B2 (ja) 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体
JP2938865B1 (ja) 音声認識装置
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP3494338B2 (ja) 音声認識方法
WO2002027535A1 (en) Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
JP2005091504A (ja) 音声認識装置
JPH1097275A (ja) 大語彙音声認識装置