JP2003140683A - 音声認識装置、音声認識方法および音声認識プログラム - Google Patents

音声認識装置、音声認識方法および音声認識プログラム

Info

Publication number
JP2003140683A
JP2003140683A JP2001338176A JP2001338176A JP2003140683A JP 2003140683 A JP2003140683 A JP 2003140683A JP 2001338176 A JP2001338176 A JP 2001338176A JP 2001338176 A JP2001338176 A JP 2001338176A JP 2003140683 A JP2003140683 A JP 2003140683A
Authority
JP
Japan
Prior art keywords
hypothesis
word
likelihood
voice
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001338176A
Other languages
English (en)
Inventor
Yuzo Maruta
裕三 丸田
Hirotaka Goi
啓恭 伍井
Yoshiharu Abe
芳春 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001338176A priority Critical patent/JP2003140683A/ja
Publication of JP2003140683A publication Critical patent/JP2003140683A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 間投詞を含んだ発声の場合には認識性能が劣
化してしまうという課題があった。 【解決手段】 音声をデジタル信号に変換する音声入力
手段1と、デジタル信号から発声区間のみを検出する音
声切り出し手段2と、発声区間から音響特徴ベクトルを
抽出する音響分析手段3と、音響モデル記憶手段4の音
響モデルを使って音響特徴ベクトルの最尤音節列を出力
する音節認識手段5と、差分モデル記憶手段8の差分モ
デルと言語モデル記憶手段9の言語モデルとを使って最
尤音節列の仮説を複数生成し、複数の仮説から最尤の認
識単語列を探索して認識結果として出力する単語列探索
手段7と、発声区間の音声パワーを各フレーム毎に計算
するパワー検出手段6と、間投詞を含む仮説について
は、間投詞に対応する音声パワーが減少している場合
に、その言語尤度を増加させる間投詞尤度増加手段10
とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、音声認識装置、
音声認識方法および音声認識プログラムに関するもので
ある。
【0002】
【従来の技術】図12は特開2001−13988公報
に開示された従来の音声認識装置の構成を示す図であ
る。図12において、101は入力された信号を分析し
て発声区間を検出する発声区間検出部、102は発声区
間検出部101で検出された発声区間の音声信号を音響
分析することにより特徴ベクトルを抽出する特徴ベクト
ル抽出部、103は発声区間検出部101で検出された
発声区間の音声信号からこの音声信号のパワーを用いて
無音区間を検出する無音区間検出部、104は予め学習
された所定の各認識候補の標準特徴パターンが記憶され
ている標準特徴パターン記憶部である。
【0003】また、図12において、105はパターン
照合部であり、無音区間検出部103で検出された無音
区間情報を用いて、特徴ベクトル抽出部102で抽出さ
れた特徴ベクトル系列と、標準特徴パターン記憶部10
4に記憶された各認識候補の標準特徴パターンとをHM
Mを用いた照合方式で照合する。106はパターン照合
部105で得られる認識候補毎の照合結果をもとに認識
された発声内容を判定する認識結果判定部である。
【0004】なお、図12では、発声者が発声した音声
を入力してデジタルの電気信号(デジタル音声信号)に
変換するマイクロホン、A/D(アナログ/デジタル)
変換器を含む音声入力部は省略されている。
【0005】次に図12の音声認識装置の処理概要につ
いて説明する。発声区間検出部101において検出され
た発声区間の音声信号は、予め定められた複数の周波数
帯域毎に特徴ベクトル抽出部102で周波数分析され、
特徴ベクトル系列(特徴ベクトル時系列){xt}に変
換される。特徴ベクトル(特徴パラメータ)はフレーム
と呼ばれる固定の時間長を単位に求められる。
【0006】音声認識に使用される代表的な特徴ベクト
ルとしては、バンドパスフィルタまたはフーリエ変換に
よって求めることができるパワースペクトラムや、LP
C(線形予測)分析によって求められるケプストラム係
数などがよく知られている。特徴ベクトル抽出部102
により抽出された特徴ベクトルの時系列は、パターン照
合部105へ送られる。
【0007】一方、発声区間の音声信号は無音区間検出
部103にも送られ、特徴ベクトル系列のフレームと同
期して音声信号の短時間パワーから無音区間検出部10
3で無音区間が検出される。図13は無音区間検出部1
03によって無音区間が検出された信号の様子を概念的
に表わす図である。図13の横軸は時間、縦軸は信号の
短時間パワーであり、THは予め設定されているパワー
の閾値である。
【0008】図13に示すように、無音区間検出部10
3では、各時刻tの短時間パワーの値Ptとパワーの閾
値THが毎時刻比較され、Pt<THとなる区間が無音
区間と判定される。このようにして得られた無音区間を
示す情報(無音区間情報)は、パターン照合部105へ
送られる。なお、ここで時刻tは、発声区間におけるt
番目のフレームを指す。
【0009】パターン照合部105では、入力された特
徴ベクトル系列、無音区間情報および予め学習しておい
た標準特徴パターン(標準パターン)を用いて、パター
ン照合が行われる。標準特徴パターンは、所定の認識候
補(認識単位)毎にHMMとして標準特徴パターン記憶
部104に予め記憶されている。認識の際には、このH
MMをそのまま、あるいは組み合わせて用いる。
【0010】図14は照合に用いられるHMMの構造を
表わす図である。ここで状態遷移のうち符号cが付され
た遷移はナル遷移であり、符号aおよび符号bが付され
た遷移はそれぞれ通常の状態遷移および自己ループであ
る。なお、図14のHMMでは、ナル遷移は全ての状態
間に仮定しているが、ここに制約を設けてナル遷移が生
じる状態を制限することも可能である。
【0011】パターン照合部105で適用される、図1
4の構造のHMMを用いたパターン照合方式について図
15のフローチャートを参照して次に説明する。ステッ
プST101では、入力された時刻tの信号、すなわち
t番目のフレームの信号が発声区間であるか否かが、発
声区間検出部101での検出結果に基づいて判定され
る。時刻tの入力信号が発声区間の信号である場合(ス
テップST101でY)にはステップST102へ、発
声区間の信号でなければ(ステップST101でN)ス
テップST106へ進む。
【0012】ステップST102では、無音区間検出部
103での検出結果に基づいて、入力された時刻tの信
号が無音区間の信号であるか否かが判定される。無音区
間の信号と判定された場合(ステップST102でY)
にはステップST107へ、有音区間の信号と判定され
た場合(ステップST102でN)にはステップST1
03へ進む。
【0013】ステップST103では、フラグ(FLA
G)の値が評価される。フラグは0または1の値を取
り、時刻t−1の信号(つまり1フレーム前の信号)が
無音区間に属していたか(FLAG=0の場合)、有音
区間に属していたか(FLAG=1の場合)をフラグは
示す。フラグの値が0の場合(ステップST103で
Y)には時刻tが(時刻t−1までの)無音区間から有
音期間に切り替わった(変化した)時刻であると判定さ
れて最終ステップST108へ進み、一方フラグの値が
1の場合(ステップST103でN)には無音区間が継
続していると判定されてステップST104へ進む。
【0014】ステップST104では、図14に示され
るHMMにおいて、時刻tの信号に対する、ナル遷移を
除く全ての状態遷移確率および全ての分布の出力確率が
計算され、最適な遷移が決定される。決定後、ステップ
ST105へ進む。ステップST105では時刻tが次
の時刻t+1に設定され、ステップST101へ戻る。
【0015】ステップST106では、図14に示され
たHMMにおいて、発声区間終了時刻tで照合スコアが
最大となる状態が各認識候補毎に選択され、その認識候
補毎の照合スコアが認識結果判定部106へ送られて処
理を終了する。ここで照合スコアとは、周知のように入
力音声信号の特徴ベクトル系列と標準特徴パターンとの
類似度または距離を表す評価値である。ステップST1
07では、ステップST102で時刻tの信号が無音区
間の信号であると判定されたことを受け、前述したフラ
グの値を0に設定し、ステップST105へ進む。
【0016】ステップST108では、時刻tの信号が
無音区間から有音区間へ切り替わった時刻であるとステ
ップST103で判定されたことを受け、図14に示さ
れたHMMにおいてナル遷移をまず行い、各状態におけ
る時刻t−1における照合スコアを更新する。照合スコ
ア更新後、ナル遷移を除く全ての状態遷移確率および全
ての分布の出力確率が計算され、最適な遷移が決定され
る。決定後、ステップST109へ進む。
【0017】ステップST109では、時刻tの信号が
有音区間の信号であるとステップST102で判定され
たことを受けて、前述したフラグの値を1に設定し、ス
テップST105へ進む。最終的に認識候補の照合スコ
アが計算され、認識結果判定部106において最大スコ
アをとる認識候補が認識結果として選択される。
【0018】以上の処理により、検出した発声区間の音
声信号の短時間パワーから音声信号の無音区間を検出
し、その無音区間の特徴ベクトル系列をパターン照合の
対象外とすると共に、無音区間から有音区間へ変化する
時刻に相当する特徴ベクトル系列については、無音区間
の影響を考慮した照合方式として、ナル遷移を許すHM
M照合方式を適用しているため、発声に対する認識候補
の照合において、無音区間の誤ったマッチングにより、
誤った認識候補の照合スコアが大きくなることを回避で
きる。その結果、照合スコアの精度が向上するので、認
識率の改善につながる。
【0019】
【発明が解決しようとする課題】従来の音声認識装置は
以上のように構成されているので、無音区間の影響を考
慮しているものの、間投詞を含んだ発声の場合には認識
性能が劣化してしまうという課題があった。
【0020】すなわち、比較的自由な発声に頻繁に存在
する「あー」や「うー」などの間投詞は、発声が曖昧で
他の単語に比べて弱く発声されることが多いので照合ス
コアに差がつきにくく、認識性能が劣化してしまうとい
う点については考慮がなされていない。
【0021】また、比較的自由な発声では、読み上げ調
の発声よりも話速やピッチに変動が大きく、特に、文章
末で決まったような言い回し(例えば「〜ではないでし
ょうか」、「〜と思います」、「〜お願いします」な
ど)では話速が速くなり、発声がなまける場合がある。
このような発声では音声認識の精度が低下するが、この
問題についても考慮されていなかった。
【0022】さらに、口語表現ではなまけや脱落が生じ
やすい単語列が存在し、これらを発声した場合には認識
性能が劣化するが、この問題についても考慮されていな
かった。
【0023】この発明は上記のような課題を解決するた
めになされたもので、自由度の高い発話において間投詞
を含んだ発声の場合でも認識性能が劣化しない音声認識
装置、音声認識方法および音声認識プログラムを提供す
ることを目的とする。
【0024】また、この発明は、話速やピッチに変動が
大きいような自由度の高い発話でも認識性能の劣化を抑
えることが可能な音声認識装置、音声認識方法および音
声認識プログラムを提供することを目的とする。
【0025】さらに、この発明は、口語表現ではなまけ
や脱落が生じやすい単語列についても認識性能の劣化を
抑えることが可能な音声認識装置、音声認識方法および
音声認識プログラムを提供することを目的とする。
【0026】
【課題を解決するための手段】この発明に係る音声認識
装置は、発声中のパワー変動またはピッチ変動に特徴を
持つ特定の単語列を含んだ仮説に関しては、仮説中にお
ける特定の単語列のパワー変動またはピッチ変動を検出
し、パワー変動またはピッチ変動の検出結果に応じてそ
の言語尤度を変化させるようにしたものである。
【0027】この発明に係る音声認識装置は、単語変形
ルールを参照して、言語モデルから取得した単語連鎖を
変形して記憶するようにしたものである。
【0028】この発明に係る音声認識装置は、発声区間
の音声パワーをフレーム毎に計算するパワー検出手段
と、最尤の仮説を探索する前に、間投詞を含んだ仮説に
ついては、間投詞に対応する音声パワーを参照してその
言語尤度を増加させる間投詞尤度増加手段とを備えるよ
うにしたものである。
【0029】この発明に係る音声認識装置は、仮説に含
まれた間投詞の音声平均パワーと、間投詞前後の単語、
間投詞前後の文節または仮説全体のうちいずれか1つの
音声平均パワーとのパワー比を間投詞尤度増加手段が参
照し、パワー比が所定の閾値よりも小さい場合に、間投
詞を含んだ仮説の言語尤度を間投詞尤度増加手段が増加
させるようにしたものである。
【0030】この発明に係る音声認識装置は、仮説に含
まれた間投詞中における母音の音声平均パワーと、間投
詞前後の単語中における母音、間投詞前後の文節中にお
ける母音または仮説全体中における母音のうちいずれか
1つの音声平均パワーとのパワー比を間投詞尤度増加手
段が参照し、パワー比が所定の閾値よりも小さい場合
に、仮説の言語尤度を間投詞尤度増加手段が増加させる
ようにしたものである。
【0031】この発明に係る音声認識装置は、特定の言
い回しを記憶する特定の言い回しデータ記憶手段と、発
声区間の音声ピッチをフレーム毎に検出するピッチ検出
手段と、特定の言い回しを含んだ仮説については、特定
の言い回しに対応する音声ピッチを参照してその言語尤
度を増加させる仮説尤度増加手段とを備えるようにした
ものである。
【0032】この発明に係る音声認識装置は、仮説中の
特定の言い回しに対応した音声ピッチの傾きを仮説尤度
増加手段が参照し、傾きが負でその絶対値が所定の閾値
の大きさよりも小さい場合に、仮説の言語尤度を仮説尤
度増加手段が増加させるようにしたものである。
【0033】この発明に係る音声認識装置は、特定の言
い回しが仮説中の所定の位置にあり、仮説中の特定の言
い回しに対応した音声ピッチの傾きを仮説尤度増加手段
が参照し、傾きが負でその絶対値が所定の閾値の大きさ
よりも小さい場合に、仮説の言語尤度を仮説尤度増加手
段が増加させるようにしたものである。
【0034】この発明に係る音声認識装置は、単語変形
ルールを記憶する単語変形ルール記憶手段と、単語変形
ルールを参照して、言語モデルから取得した単語連鎖を
変形して新規単語を作成するとともに、新規単語を言語
モデル記憶手段に追加する単語変形手段とを備えるよう
にしたものである。
【0035】この発明に係る音声認識装置は、単語変形
ルールとして、単語変形事例の対応表を単語変形ルール
記憶手段が記憶するようにしたものである。
【0036】この発明に係る音声認識装置は、言語モデ
ルから取得した単語連鎖のうち、所定の条件を満たすも
ののみ単語変形ルールを参照して単語変形手段が単語連
鎖を変形するようにしたものである。
【0037】この発明に係る音声認識装置は、コーパス
に含まれる単語連鎖の出現頻度が所定数以上であること
を単語変形手段が所定の条件とするようにしたものであ
る。
【0038】この発明に係る音声認識装置は、音響モデ
ル記憶手段の音響モデルを用いて音響特徴ベクトルの最
尤音節列を生成する音節認識手段と、音節列のまちがい
やすさをデータ化した差分モデルを記憶する差分モデル
記憶手段と、言語モデル記憶手段の言語モデルおよび差
分モデル記憶手段の差分モデルを用いて最尤音節列の仮
説を複数生成する単語列探索手段とから認識手段が構成
されるようにしたものである。
【0039】この発明に係る音声認識方法は、発声中の
パワー変動またはピッチ変動に特徴を持つ特定の単語列
を含んだ仮説に関しては、仮説中における特定の単語列
のパワー変動またはピッチ変動を検出し、パワー変動ま
たはピッチ変動の検出結果に応じてその言語尤度を変化
させるようにしたものである。
【0040】この発明に係る音声認識方法は、単語変形
ルールを参照して、言語モデルから取得した単語連鎖を
変形して記憶するようにしたものである。
【0041】この発明に係る音声認識方法は、発声区間
の音声パワーをフレーム毎に計算するパワー検出ステッ
プと、最尤の仮説を探索する前に、間投詞を含んだ仮説
については、間投詞に対応する音声パワーを参照してそ
の言語尤度を増加させる間投詞尤度増加ステップとを備
えるようにしたものである。
【0042】この発明に係る音声認識方法は、間投詞尤
度増加ステップでは、仮説に含まれた間投詞の音声平均
パワーと、間投詞前後の単語、間投詞前後の文節または
仮説全体のうちいずれか1つの音声平均パワーとのパワ
ー比を参照し、パワー比が所定の閾値よりも小さい場合
に、間投詞を含んだ仮説の言語尤度を増加させるように
したものである。
【0043】この発明に係る音声認識方法は、間投詞尤
度増加ステップでは、仮説に含まれた間投詞中における
母音の音声平均パワーと、間投詞前後の単語中における
母音、間投詞前後の文節中における母音または仮説全体
中における母音のうちいずれか1つの音声平均パワーと
のパワー比を参照し、パワー比が所定の閾値よりも小さ
い場合に、仮説の言語尤度を増加させるようにしたもの
である。
【0044】この発明に係る音声認識方法は、発声区間
の音声ピッチをフレーム毎に検出するピッチ検出ステッ
プと、特定の言い回しデータ記憶手段に記憶された特定
の言い回しを含んだ仮説については、特定の言い回しに
対応する音声ピッチを参照してその言語尤度を増加させ
る仮説尤度増加ステップとを備えるようにしたものであ
る。
【0045】この発明に係る音声認識方法は、仮説尤度
増加ステップでは、仮説中の特定の言い回しに対応した
音声ピッチの傾きを参照し、傾きが負でその絶対値が所
定の閾値の大きさよりも小さい場合に、仮説の言語尤度
を増加させるようにしたものである。
【0046】この発明に係る音声認識方法は、仮説尤度
増加ステップでは、特定の言い回しが仮説中の所定の位
置にあり、仮説中の特定の言い回しに対応した音声ピッ
チの傾きを参照し、傾きが負でその絶対値が所定の閾値
の大きさよりも小さい場合に、仮説の言語尤度を増加さ
せるようにしたものである。
【0047】この発明に係る音声認識方法は、単語変形
ルール記憶手段に記憶された単語変形ルールを参照し
て、言語モデルから取得した単語連鎖を変形して新規単
語を作成するとともに、新規単語を言語モデル記憶ステ
ップに追加する単語変形ステップとを備えるようにした
ものである。
【0048】この発明に係る音声認識方法は、単語変形
ステップでは、単語変形ルール記憶手段に単語変形ルー
ルとして記憶された単語変形事例の対応表を参照するよ
うにしたものである。
【0049】この発明に係る音声認識方法は、単語変形
ステップでは、言語モデルから取得した単語連鎖のう
ち、所定の条件を満たすもののみ単語変形ルールを参照
して単語連鎖を変形するようにしたものである。
【0050】この発明に係る音声認識方法は、単語変形
ステップでは、コーパスに含まれる単語連鎖の出現頻度
が所定数以上であることを所定の条件とするようにした
ものである。
【0051】この発明に係る音声認識方法は、音響モデ
ル記憶手段の音響モデルを用いて音響特徴ベクトルの最
尤音節列を生成する音節認識ステップと、言語モデル記
憶手段の言語モデルおよび差分モデル記憶手段に記憶さ
れ、音節列のまちがいやすさをデータ化した差分モデル
を用いて最尤音節列の仮説を複数生成する単語列探索ス
テップとから認識ステップが構成されるようにしたもの
である。
【0052】この発明に係る音声認識プログラムは、発
声中のパワー変動またはピッチ変動に特徴を持つ特定の
単語列を含んだ仮説に関しては、仮説中における特定の
単語列のパワー変動またはピッチ変動を検出し、パワー
変動またはピッチ変動の検出結果に応じてその言語尤度
を変化させるようにしたものである。
【0053】この発明に係る音声認識プログラムは、単
語変形ルールを参照して、言語モデルから取得した単語
連鎖を変形して記憶するようにしたものである。
【0054】この発明に係る音声認識プログラムは、発
声区間の音声パワーをフレーム毎に計算するパワー検出
手順と、最尤の仮説を探索する前に、間投詞を含んだ仮
説については、間投詞に対応する音声パワーを参照して
その言語尤度を増加させる間投詞尤度増加手順とを備え
るようにしたものである。
【0055】この発明に係る音声認識プログラムは、間
投詞尤度増加手順では、仮説に含まれた間投詞の音声平
均パワーと、間投詞前後の単語、間投詞前後の文節また
は仮説全体のうちいずれか1つの音声平均パワーとのパ
ワー比を参照し、パワー比が所定の閾値よりも小さい場
合に、間投詞を含んだ仮説の言語尤度を増加させるよう
にしたものである。
【0056】この発明に係る音声認識プログラムは、間
投詞尤度増加手順では、仮説に含まれた間投詞中におけ
る母音の音声平均パワーと、間投詞前後の単語中におけ
る母音、間投詞前後の文節中における母音または仮説全
体中における母音のうちいずれか1つの音声平均パワー
とのパワー比を参照し、パワー比が所定の閾値よりも小
さい場合に、仮説の言語尤度を増加させるようにしたも
のである。
【0057】この発明に係る音声認識プログラムは、発
声区間の音声ピッチをフレーム毎に検出するピッチ検出
手順と、特定の言い回しデータ記憶手段に記憶された特
定の言い回しを含んだ仮説については、特定の言い回し
に対応する音声ピッチを参照してその言語尤度を増加さ
せる仮説尤度増加手順とを備えるようにしたものであ
る。
【0058】この発明に係る音声認識プログラムは、仮
説尤度増加手順では、仮説中の特定の言い回しに対応し
た音声ピッチの傾きを参照し、傾きが負でその絶対値が
所定の閾値の大きさよりも小さい場合に、仮説の言語尤
度を増加させるようにしたものである。
【0059】この発明に係る音声認識プログラムは、仮
説尤度増加手順では、特定の言い回しが仮説中の所定の
位置にあり、仮説中の特定の言い回しに対応した音声ピ
ッチの傾きを参照し、傾きが負でその絶対値が所定の閾
値の大きさよりも小さい場合に、仮説の言語尤度を増加
させるようにしたものである。
【0060】この発明に係る音声認識プログラムは、単
語変形ルール記憶手段に記憶された単語変形ルールを参
照して、言語モデルから取得した単語連鎖を変形して新
規単語を作成するとともに、新規単語を言語モデル記憶
手順に追加する単語変形手順とを備えるようにしたもの
である。
【0061】この発明に係る音声認識プログラムは、単
語変形手順では、単語変形ルール記憶手段に単語変形ル
ールとして記憶された単語変形事例の対応表を参照する
ようにしたものである。
【0062】この発明に係る音声認識プログラムは、単
語変形手順では、言語モデルから取得した単語連鎖のう
ち、所定の条件を満たすもののみ単語変形ルールを参照
して単語連鎖を変形するようにしたものである。
【0063】この発明に係る音声認識プログラムは、単
語変形手順では、コーパスに含まれる単語連鎖の出現頻
度が所定数以上であることを所定の条件とするようにし
たものである。
【0064】この発明に係る音声認識プログラムは、音
響モデル記憶手段の音響モデルを用いて音響特徴ベクト
ルの最尤音節列を生成する音節認識手順と、言語モデル
記憶手段の言語モデルおよび差分モデル記憶手段に記憶
され、音節列のまちがいやすさをデータ化した差分モデ
ルを用いて最尤音節列の仮説を複数生成する単語列探索
手順とから認識手順が構成されるようにしたものであ
る。
【0065】
【発明の実施の形態】以下、この発明の実施の一形態を
説明する。 実施の形態1.図1はこの発明の実施の形態1による音
声認識装置の構成を示す図である。図1において、1は
取り込んだ音声をデジタル信号に変換するマイクなどの
音声入力手段、2は音声入力手段1が取り込んだ音声か
ら無音区間やノイズ区間を除き人間の発声している音声
データの範囲(発声区間)のみを検出する音声切り出し
手段、3は音声切り出し手段2が検出した音声データか
ら音声認識に適するような特徴(音響特徴ベクトル)を
抽出する音響分析手段である。
【0066】また、図1において、4は音響モデルを記
憶する音響モデル記憶手段、5は音響分析手段3で抽出
した特徴と音響モデル記憶手段4の音響モデルとから尤
もらしい音節列(最尤音節列)を出力する音節認識手段
(第1段階認識手段、認識手段)、6は音声切り出し手
段2が切り出した音声データから音声の強弱を計算する
パワー検出手段、7は尤もらしい認識単語列を探索する
単語列探索手段(第2段階認識手段、認識手段)であ
る。
【0067】さらに、図1において、8は音節列のまち
がいやすさ(「よ」は「お」と間違えやすいなど)をデ
ータ化した差分モデルを記憶する差分モデル記憶手段
(認識手段)、9はトライグラムなどの言語モデルを記
憶する言語モデル記憶手段、10はパワーが低い部分で
間投詞が存在する仮説の言語尤度を増加させる間投詞尤
度増加手段である。
【0068】次に動作について説明する。図2はこの発
明の実施の形態1による音声認識装置の動作を示すフロ
ーチャートである。なお、図2のステップST1〜ステ
ップST4は以下の引用文献1に基づいて説明する。
【0069】引用文献1 ‘A Two−Stage Speech Recog
nition Method with An Err
or Correction Model’,Y.ab
e,H.Itsui,Y.Maruta,K.Naka
jima,InProc.Eurospeech’9
9,pp.443−446(1999)
【0070】まず音声入力手段1は、入力された音声を
サンプリングしてデジタル信号に変換し、音声切り出し
手段2へ送付する。音声切り出し手段2は、音声切り出
し手段2から入力されたデジタル信号のうち、無音区間
やノイズ区間を除き、実際に音声である部分を切り出す
(ステップST1)。音響分析手段3は、音声切り出し
手段2が切り出した発声区間の音声データから、フレー
ムt毎に音声認識に適するような音響特徴ベクトル(例
えば周知であるメルケプストラムなどの特徴)を抽出す
る(ステップST2)。
【0071】パワー検出手段6は音声データの短時間パ
ワーpow(t)を各フレーム毎に計算する(ステップ
ST3)。一方、音節認識手段5は、音響モデル記憶手
段4に記憶されている音響モデルと音響分析手段3が抽
出した音響特徴ベクトルとから音節認識処理を行い、最
適な認識音節列Xi ={x1 ,x2 ,…,xi }を出力
する(ステップST4)。ここでxk は音節認識手段5
が出力する最小単位であり、通常は、“a”(あ)、
“ka”(か)などの音節である。
【0072】音節認識手段5が認識音節列Xを出力す
る手続きについては、例えば文献2(中川聖一著「確率
モデルによる音声認識」電子情報通信学会、1988
年)の20ページから26ページに開示されている周知
のOne Pass DPアルゴリズムによって実現す
ることが可能である。このとき、最適な認識音節列Xi
に対応して、各音節の開始時刻と終了時刻も確定する。
【0073】単語列探索手段7は認識候補(以下仮説と
いう)である単語列Wk ={w1 ,w2 ,…,wk }を
複数個作成する(ステップST5)。間投詞尤度増加手
段10は単語列Wk とパワー情報とにしたがって以下の
式(1)で定義されるP0を計算する(ステップST
6)。単語列探索手段7はP0を最大にするような単語
列Wk ={w1 ,w2 ,…,wk }を求める(ステップ
ST7)。
【0074】 P0=P(Xi |Ym )f(P(Wk ),pow(t)) (1)
【0075】式(1)において、Xは音節認識手段5
が出力した音節列であり、Ym は単語列Wk を音節表記
した音節列である。最終的な認識結果として、不図示の
認識結果出力手段(認識手段。単語列探索手段7に含め
て考えても良い)は最大の値を与えるような単語列Wk
を出力する(ステップST8)。
【0076】ここで、ステップST5〜ステップST8
をより詳細に説明する。Ym ={y1 ,y2 ,…,
m }は単語列Wk を音節表記した場合の音節表記列で
あるので、例えばWk ={今日、は、晴れ、です}とい
う単語列であれば、Ym ={kjo,o,wa,ha,
re,de,su}となる。この場合、w1=“今
日”、w2 =“は”、w3 =“晴れ”、w4 =“で
す”、k=4,y1 =“kjo”,y2 =“o”,y3
=“wa”,y4 =“ha”,y5 =“re”,y6
“de”,y7 =“su”,m=7である。単語の音節
表記が確定していれば、Wk が定まるとYm は一意に決
定する。
【0077】式(1)において、P(Xi |Ym )は以
下のような意味をもっている。入力された発声が例えば
「今日は晴れです」であっても、一般的には音節認識結
果には誤りを含み得るので、音節認識手段5が出力する
音節列Xi は、例えばXi ={to,o,wa,a,r
e,de,e,su}「とうはあれでえす」となる。P
(Xi |Ym )は、単語列仮説がWk={“今日”、
“は”、“晴れ”、“です”}であったとき、“kj
o,o,wa,ha,re,de,su”という音節列
が“to,o,wa,a,re,de,e,su”とい
う認識音節列であるという条件付き確率を表わす。
【0078】このような条件付き確率は混同行列(co
nfusion matrix)と考えることができ、
具体的には引用文献1の式(6)で示されるように、前
もって学習データから学習することによって値を計算し
ておくことができる。
【0079】一方、P(Wk )は言語モデルに基づく言
語尤度と呼ばれ、単語列Wk ={w 1 ,w2 ,…,
k }が出現する言語的な確率を表わす。言語モデル
は、一般には単語の連鎖に対する制約を記述したもので
ある。従来、言語モデルとしてはNグラムモデルと呼ば
れる、単語N個の連鎖の出現する確率を記述するモデル
が一般に用いられている。Nとして大きな値をとると組
み合わせの数が膨大となるので、Nとしては2,3など
の値が通常用いられる。N=2の場合にはバイグラム、
N=3の場合にはトライグラムと呼ばれる。ここではト
ライグラムを例にとって説明する。
【0080】直前の出現単語列がw1 ,w2 だったと
き、次の単語がw3 である条件付確率P(w3 |w1
2 )をトライグラムの条件付確率と呼ぶ。この条件付
確率を全ての出現可能な単語列(w1 ,w2 ,w3 )に
ついて保持したもの(または計算可能にしたもの)がト
ライグラム言語モデルである。この条件付確率は、ある
大きなデータベースにおいて実際に起きる事象をカウン
トすることによって通常得られる。言語モデル用のデー
タベースはコーパスと呼ばれる。新聞などがその用途に
しばしば用いられ、近年は数百万文から構成される大規
模コーパスがよく利用されている。
【0081】例えばトライグラムの場合、条件付確率P
(w3 |w1 ,w2 )は、もっとも単純には単語列(w
1 ,w2 ,w3 )がコーパス内(例えば新聞)に出現す
る単語3連鎖のカウント数N(w1 ,w2 ,w3 )を単
語列(w1 ,w2 )がコーパス内に出現する単語2連鎖
のカウント数N(w1 ,w2 )で割ることにより得られ
る。すなわち、次の式(2)のようになる。
【0082】 P(w3 |w1 ,w2 )=N(w1 ,w2 ,w3 )/N(w1 ,w2 ) (2)
【0083】トライグラムを用いると言語尤度P
(Wk )は式(3)のように表わすことができる。なお
式(3)において、$は文頭または文末を表現する記号
である。
【0084】 P(Wk ) =P(w1 ,w2 ,…,wk ) =P(w1 |$,$)・P(w2 |$,w1 )・P(w3 |w1 ,w2 )・… ・P(wk |wk-2 ,wk-1 )・P($|wk-1 ,wk ) ・P($|wk ,$) (3)
【0085】f(P(Wk ),pow(t))は、言語
モデルとパワー情報とから、パワーが低い部分で間投詞
が存在する仮説の言語尤度を増加させる関数である。以
下トライグラム言語モデルを用いて具体的に説明する。
図3は間投詞が存在する仮説の言語尤度を増加させる間
投詞尤度増加手段10の動作を示すフローチャートであ
り、図4は間投詞尤度増加手段10の動作を説明するた
めの図である。トライグラム言語モデルを用いた場合、
P(Wk )は式(3)のように分解できるので、ここで
はf(P(Wk ),pow(t))も式(4)のように
分解する。
【0086】 f(P(Wk ),pow(t)) =f(P(w1 |$,$),pow(t)) ・f(P(w2 |$,w1 ),pow(t))・… ・f(P(wk |wk-2 ,wk-1 ),pow(t)) ・f(P($|wk ,$),pow(t)) (4)
【0087】間投詞尤度増加手段10は仮説内の各単語
k の開始時刻tsk と終了時刻tek とを最初に求め
る(ステップST9)。これは音節認識結果の出力にお
いて、各音節の開始時刻と終了時刻とが定まっているの
で、図4に示すように容易に求めることができる。い
ま、発声「今日はあのー晴れです」に対して、(誤りを
含んだ)音節認識結果がXi ={to,o,wa,a,
no,o,a,re,de,e,su}であったとす
る。単語列仮説が正解の場合、Wk =“今日”、
“は”、“あのー”、“晴れ”、“です”、であってk
=5であり、Ym =“kyo”,“o”,“wa”,
“a”,“no”,“o”,“ha”,“re”,“d
e”,“su”でm=10である。
【0088】次に間投詞尤度増加手段10は各単語wk
に対応する時刻の始端tsk と終端tek とを用いて、
単語wk の平均パワーを計算する(ステップST1
0)。単語wk の平均パワーPavk は、式(5)のよ
うに定義される。
【0089】 Pavk =(pow(tsk )+pow(tsk+1) +…+pow(tek )) /(tek −tsk +1) (5)
【0090】次に間投詞尤度増加手段10は、各単語の
うち、間投詞である単語について上の平均パワーを参照
し、間投詞に対応する音声のパワーが減少していれば、
この仮説はより尤もらしいと判断して言語尤度を増加さ
せる(ステップST11)。すなわち、式(6)で表さ
れる処理を行なう。
【0091】 f(P(wk |wk-2 ,wk-1 ),pow(t)) =αP(wk |wk-2 ,wk-1 ) wk が間投詞であり、Pavk <β(Pavk-1 +Pavk+1 )/2の場合 f(P(wk |wk-2 ,wk-1 ),pow(t)) =P(wk |wk-2 ,wk-1 ) 上記以外の場合 (6)
【0092】ここで、αは定数であり、α>1である。
またβはパラメータである。α,βは実験的に最適な値
を選択する。なお、f(P($|wk-2 ,wk-1 ),p
ow)≡P($|wk-2 ,wk-1 ),f(P(w1
$,$),pow)≡P(w1|$,$)とする。
【0093】この処理の意味は以下のようなものであ
る。すなわち、発声が「今日はあのー晴れです」という
ように間投詞を含む場合、一般には「あのー」の部分が
前後の発声より強調されることはなく、パワーが減少す
る。そこで仮説のうち、間投詞を含む仮説について、そ
の間投詞の位置とパワーの情報とが合致していれば、そ
の仮説は尤もらしさが大きくなったとして尤度を増加さ
せる。
【0094】以上のようにして、間投詞尤度増加手段1
0は各認識仮説Wk に対してP0を計算し、その後は前
述したように単語列探索手段7が最大の値を与えるよう
なW k を求め、不図示の認識結果出力手段(認識手段。
単語列探索手段7に含めて考えても良い)は最終的な認
識結果として最大の値を与えるようなWk を出力する
(ステップST7,ステップST8)。
【0095】この例では、正解である仮説「今日はあの
ー晴れです」の尤度は増加し、一方正解でない仮説、例
えば「今日はあ脳晴れです」などの仮説の尤度は増加し
ない。結果として、正解である仮説の尤度が増加するの
で認識性能が向上する。
【0096】以上のように、この実施の形態1によれ
ば、取り込んだ音声をデジタル信号に変換する音声入力
手段1と、音声入力手段1が変換したデジタル信号から
無音区間やノイズ区間を除いて発声区間のみを検出する
音声切り出し手段2と、発声区間から音響特徴ベクトル
を抽出する音響分析手段3と、音響モデル記憶手段4の
音響モデルを使って音響特徴ベクトルの最尤音節列を出
力する音節認識手段5と、差分モデル記憶手段8の差分
モデルと言語モデル記憶手段9の言語モデルとを使って
最尤音節列の仮説を複数生成するとともに、複数の仮説
から最尤の認識単語列を探索して認識結果として出力す
る単語列探索手段7と、発声区間の音声パワーを各フレ
ーム毎に計算するパワー検出手段6と、間投詞を含む仮
説については、間投詞に対応する音声パワーが減少して
いる場合に、その言語尤度を増加させる間投詞尤度増加
手段10とを備えるようにしたので、間投詞の特徴であ
る発話の強弱の情報も参照するため、認識性能を向上で
きるという効果が得られる。
【0097】なお、この実施の形態1(式(6))で
は、間投詞wkの前後の単語、すなわちwk-1とwk+1
で平均したパワーPavk-1,Pavk+1を用いたが、発
声全体で平均化したパワーを用いることも可能である。
この場合、発声全体の開始時刻と終了時刻とをそれぞれ
ts,teとすると、以下の式(7),式(8)のよう
になる。
【0098】 Pav=(pow(ts)+pow(ts+1)+…+pow(te)) /(te−ts+1) (7) f(P(wk|wk-2,wk-1),pow(t))=αP(wk|wk-2,wk-1) wkが間投詞であり、Pavk<βPavの場合 f(P(wk|wk-2,wk-1),pow(t))=P(wk|wk-2,wk-1) 上記以外の場合 (8)
【0099】また、この実施の形態1(式(6))で
は、間投詞wk の前後の単語wk-1 ,wk+1 で平均した
パワーPavk-1 ,Pavk+1 を用いたが、前後の文節
の単位で平均したパワーを用いることも可能である。前
後の文節の単位を用いた場合には格助詞など短い単語が
存在しないため、パワー検出の信頼性が向上するという
利点がある。
【0100】さらに、この実施の形態1(式(6))で
は、間投詞wk の前後の単語wk-1,wk+1 で平均した
パワーPavk-1 ,Pavk+1 を用いたが、間投詞wk
のうちの母音に相当する部分の平均パワーと、前後の単
語wk-1 ,wk+1 のうちの母音に相当する部分の平均パ
ワーとを用いることも可能である。この場合、パワー変
動の大きい子音が除かれ、パワーが安定している母音の
情報を用いるので、より精度が向上する利点がある。
【0101】さらに、この実施の形態1では、間投詞w
k のうちの母音に相当する部分の平均パワーと、前後の
文節のうちの母音に相当する部分の平均パワーとを用い
ることも可能である。この場合でもパワー変動の大きい
子音が除かれ、パワーが安定している母音の情報を用い
るので、より精度が向上する利点がある。もちろん、間
投詞wk のうちの母音に相当する部分の平均パワーと、
発声全体のうちの母音に相当する部分の平均パワーとを
用いても良い。
【0102】さらに、この実施の形態1では、引用文献
1による認識処理をもとに説明したが、その他の認識方
式、例えば文献3(李他、「日本音響学会1999年春
季研究発表会2−1−12」)に採用されている認識方
式でも同様な処理が可能であることは言うまでもない。
【0103】実施の形態2.図5はこの発明の実施の形
態2による音声認識装置の構成を示す図である。図6は
特定の言い回しデータ記憶手段12に記憶されている特
定の言い回しデータの例を示す図である。また図7はこ
の発明の実施の形態2による音声認識装置の動作を示す
フローチャートである。図5において、11は音声のピ
ッチ(音の高低)を検出するピッチ検出手段、12は特
定の言い回しデータ記憶手段、13は仮説尤度増加手段
である。
【0104】次にこの実施の形態2の概略について説明
する。一般的に、自由な発声では、読み上げ調の発声よ
りも話速やピッチに変動が大きい。特に、文章末で決ま
ったような特定の言い回し(例えば「〜ではないでしょ
うか」、「〜と思います」、「〜お願いします」など)
では、話速が速くなり、発声がなまける場合がある。さ
らにその場合にはピッチが下がる場合が多い。
【0105】このような発声がなまけるような場合で
は、従来の音声認識装置では音声認識の精度が低下して
しまう。そこでこの実施の形態2では、発話の最後の方
でピッチが複数音節にまたがって下がっている場合、話
速が上がっている可能性が高く、特定の言い回しである
可能性が高いと判断し(例えば「〜ではないでしょう
か」、「〜と思います」、「〜お願いします」など)、
それらの特定の言い回しを含む認識単語候補列の尤度を
増加させ、認識性能を向上させるものである。
【0106】次に動作について説明する。ステップST
1〜ステップST2は実施の形態1と同様の動作なので
説明を省略する。次にピッチ検出手段11は各フレーム
毎に音声のピッチF0(t)を計算する(ステップST
12)。ピッチの具体的な計算方法は、例えば文献4
(L.R.Rabiner,R.W.Schafer
著、鈴木久喜訳「音声のディジタル信号処理(下)」コ
ロナ社、1983年)の135ページから140ページ
に開示されている。次のステップST4〜ステップST
5は実施の形態1と同様の動作なので説明を省略する。
【0107】仮説尤度増加手段13は、Wk とピッチ情
報とにしたがって式(9)で定義されるP0を計算する
(ステップST13)。単語列探索手段7はP0を最大
にするような単語列Wk ={w1 ,w2 ,…,wk }を
求める(ステップST7)。不図示の認識結果出力手段
(認識手段。単語列探索手段7に含めて考えても良い)
は最終的な認識結果として最大の値を与えるようなWk
を出力する(ステップST8)。
【0108】 P0=P(Xi |Ym )・P(Wk )・g(Wk ,F0(t)) (9)
【0109】ここで、ステップST12〜ステップST
8をより詳細に説明する。g(Wk ,F0(t))は、
特定の言い回しデータとピッチ情報F0(t)とから、
上述したような、文章末で決まったような特定の言い回
しでの認識精度の劣化を防ぐために、仮説の言語尤度を
増加させる関数である。
【0110】図8は仮説の尤度を増加させる仮説尤度増
加手段13の動作を示すフローチャートである。最初に
仮説尤度増加手段13は、仮説内の各単語wk の開始時
刻tsk と終了時刻tek とを求める(ステップST
9)。これは実施の形態1と同様なので詳細な説明は省
略する。
【0111】次に仮説尤度増加手段13は、仮説の単語
列Wの最後の方の部分単語列に、特定の言い回しに一
致するものがあるかどうかを調べる(ステップST1
4)。すなわち、wk-1 k ,wk-2 k-1 k ,w
k-3 k-2 k-1 k ,…などについて、特定の言い回
しデータ記憶手段12に記憶されている特定の言い回し
データに一致するものがあるかを調べる。
【0112】もしも、仮説の単語列Wk の最後の方の部
分単語列(これをWとする)に特定の言い回しデータに
一致するものがある場合には、仮説尤度増加手段13は
Wに対応する時刻の始端tswと終端tewとを用い
て、部分単語列Wのピッチの傾きFavk を計算する
(ステップST15)。ピッチF0(t)の微分をF
0’(t)とすると、部分単語列Wのピッチの傾きは、
式(10)のように定義される。
【0113】 Favk =(F0’(tsw)+F0’(tsw+1)+…+F0’(tew)) /(tew−tsw+1) (10)
【0114】次に仮説尤度増加手段13は、特定の言い
回しデータに部分単語列Wが一致しており、かつ発声の
最後でピッチF0が急激に下がっている場合に、その仮
説の尤度を増加させる(ステップST16)。すなわ
ち、式(11)のようにする。なお、ここでα,γは定
数であり、α>1,γ<0である。α,γは実験的に最
適な値を選択する。
【0115】 g(Wk ,F0(t))=α Wk の最後の部分単語列Wが特定の言い回しに一致しておりFavk <γの場合 g(Wk ,F0(t))=1 上記以外の場合 (11)
【0116】次に図9に具体的な例を用いてこの処理を
説明する。図9は仮説尤度増加手段13の動作を説明す
るための図である。ここでは、発声が「天気だと思いま
す」という場合を考える(「思います」は早口で発声す
る)。このとき、音節認識手段5は、尤もらしい音節列
「te,N,ki,da,to,mo,i,ma,s
u」(てんきだともいます)を出力する。ここでは、
「思います」が速く発声されているため、「おもいま
す」であるべきところを「もいます」と1音節脱落して
認識したとする。
【0117】単語列探索手段7は、差分モデルと言語モ
デルとから「te,N,ki,da,to,mo,i,
ma,su」に対する認識候補単語列を作成する。例え
ば、「天気だ友います」と「天気だと思います」とが認
識候補単語列である。仮説「天気だと思います」の方で
は、差分モデルから、「おも」は「も」に間違える可能
性があるという情報を用いているので、仮説として存在
する。
【0118】仮説尤度増加手段13は、特定の言い回し
データ記憶手段12を参照して、仮説の単語列の後方に
4 5 =「思います」という部分文字列が、特定の言
い回しに一致することを検出する。次に上述のように、
ピッチの傾きFavk とg(Wk ,F0(t))とを計
算する。この場合、w4 5 の部分でピッチF0が急激
に下がっているので式(11)第1式の条件を満たし、
尤度が増加される。一方、正解でない仮説「天気だ友い
ます」の場合は、特定の言い回しに一致する部分単語列
がないので尤度は増加させない。最終的に仮説「天気だ
と思います」が尤度上有利になるので認識結果として出
力される。
【0119】以上のように、この実施の形態2によれ
ば、取り込んだ音声をデジタル信号に変換する音声入力
手段1と、音声入力手段1が変換したデジタル信号から
無音区間やノイズ区間を除いて発声区間のみを検出する
音声切り出し手段2と、発声区間から音響特徴ベクトル
を抽出する音響分析手段3と、音響モデル記憶手段4の
音響モデルを使って音響特徴ベクトルの最尤音節列を出
力する音節認識手段5と、差分モデル記憶手段8の差分
モデルと言語モデル記憶手段9の言語モデルとを使って
最尤音節列の仮説を複数生成するとともに、複数の仮説
から最尤の認識単語列を探索して認識結果として出力す
る単語列探索手段7と、発声区間の音声ピッチを各フレ
ーム毎に検出するピッチ検出手段11と、特定の言い回
しデータを記憶する特定の言い回しデータ記憶手段12
と、特定の言い回しデータ記憶手段12中の特定の言い
回しデータが認識候補単語列に含まれている場合には、
特定の言い回しに対応する音声ピッチの傾きFavk
所定の閾値γ以下の場合に、その言語尤度を増加させる
仮説尤度増加手段13とを備えるようにしたので、話速
が速くなって認識音節列が多少脱落しても、特定の言い
回しを含んでいれば尤度を増加させるので、認識性能を
向上できるという効果が得られる。
【0120】なお、以上では、「〜ではないでしょう
か」、「〜と思います」、「〜お願いします」などの文
章末における特定の言い回しについて説明してきたが、
例えば発声の文頭や途中に用いられる特定の言い回しに
ついてもこの実施の形態2を適用することが可能であ
り、発声中における特定の言い回しの位置が特に限定さ
れるものではない。また、仮説中における特定の言い回
しの位置(文頭や文章末)も考慮することにより、認識
性能をより向上できるようになる。
【0121】実施の形態3.図10はこの発明の実施の
形態3による音声認識装置の構成を示す図であり、図1
1はこの発明の実施の形態3による音声認識装置の動作
を示すフローチャートである。図10において、14は
単語変形ルール記憶手段、15は単語変形手段である。
この実施の形態3は、口語表現で頻出するなまけや脱落
が生じた単語列が発声されても、認識性能が劣化しない
音声認識装置を提供するものである。
【0122】次に動作について説明する。単語変形ルー
ル記憶手段14は、例えば以下のような単語変形ルール
を持っておく。
【0123】(単語変形ルール1) 2つの連続した母
音音節は片方を省略できる。 (単語変形ルール2) 単語列「toyuu(とい
う)」は「chuu(ちゅう)」と変形する。
【0124】単語変形手段15は、単語と単語の組み合
わせの情報とを言語モデル記憶手段9から取得する(ス
テップST17)。具体的には、コーパス内でN
(w1 ,w 2 ,w3 )>0であるようなw1 −w2 −w
3 の組を単語の組み合わせ情報として取得する。
【0125】次に単語変形手段15は、言語モデル記憶
手段9から取得した単語の組み合わせの情報から、単語
変形ルール記憶手段14の単語変形ルールに合致するも
のがあれば、変形させたものを新しい単語として作成す
る(ステップST18)。
【0126】例えば、「思い」、「ます」という単語の
組み合わせ「思います(omoimasu)」からは、
単語変形ルール1を適用して「思います(omomas
u,読み:おもます、iを省略)」、「思います(om
imasu,読み:おみます、oを省略)」という変形
を新しい単語として作成する。あるいは、「車という
(kurumatoyuu)」という単語の組み合わせ
からは、「車という(kurumachuu,読み:く
るまちゅう)」という変形を単語として作成する。いず
れも、かな漢字表記は同じで、読みが変形されている。
【0127】そして、単語変形手段15は作成した新し
い単語を言語モデル記憶手段9に追加する(ステップS
T19)。以降の認識処理は実施の形態1と同様なので
説明は省略する。
【0128】以上のように、この実施の形態3によれ
ば、単語変形ルール1,2を記憶する単語変形ルール記
憶手段14と、単語変形ルール1,2を参照して、言語
モデル記憶手段9から取得した単語連鎖「思います(o
moimasu)」、「車という(kurumatoy
uu)」を変形して新規単語「思います(omomas
u)」、「思います(omimasu)」、「車という
(kurumachuu)」を作成するとともに、新規
単語「思います(omomasu)」、「思います(o
mimasu)」、「車という(kurumachu
u)」を言語モデル記憶手段9に追加する単語変形手段
15とを備えるようにしたので、なまけや脱落が生じや
すい単語について、話速が速くなって発話のなまけや音
節の省略が起きても、認識性能を向上できるという効果
が得られる。
【0129】なお、単語変形ルール記憶手段14が持っ
ている単語変形ルールは、もちろん上述したものに限ら
ず、単語変換規則のルールでも良いし、具体的な単語変
換の事例集でも良い。
【0130】また、単語変形手段15は言語モデル記憶
手段9から取得した単語の組み合わせのうち所定の条件
を満たすもの、例えばコーパス中で頻度が高いものの
み、すなわちN(w1 ,w2 ,w3 )>TH(THは所
定閾値)であるようなw1 −w 2 −w3 のみを対象とし
て、単語変形ルールを適用させても良い。この場合、適
用させる単語の組み合わせを少なくすることができ、言
語モデルの規模を抑えることができるという効果が得ら
れる。
【0131】さらに、図10の音声認識装置では、単語
変形ルール記憶手段14,単語変形手段15を実施の形
態1の音声認識装置(図1)に適用した構成としている
が、この実施の形態3はこれに限定されるものではな
く、実施の形態2の音声認識装置(図5)やその他の音
声認識装置にも適用可能である。
【0132】以上述べた実施の形態1〜実施の形態3
は、装置・方法に限定されるものではなく、ソフトウエ
ア(プログラム)によっても実現することが可能であ
り、同様の効果が得られる。加えて、このソフトウエア
は通信媒体を介してコンピュータにダウンロードされる
ものであっても構わない。もちろん、ソフトウエアによ
ってこの発明を実現する場合には、この発明の動作(方
法)を手順化してソフトウエアとし、このソフトウエア
をコンピュータに読取らせて実行させるようにすれば良
い。
【0133】
【発明の効果】以上のように、この発明によれば、発声
中のパワー変動またはピッチ変動に特徴を持つ特定の単
語列を含んだ仮説に関しては、仮説中における特定の単
語列のパワー変動またはピッチ変動を検出し、パワー変
動またはピッチ変動の検出結果に応じてその言語尤度を
変化させるようにしたので、発話の強弱や話速も参照し
て音声認識するようになり、認識性能を向上できるとい
う効果が得られる。
【0134】この発明によれば、単語変形ルールを参照
して、言語モデルから取得した単語連鎖を変形して記憶
するようにしたので、なまけや脱落が生じやすい単語に
ついて、話速が速くなって発話のなまけや音節の省略が
起きても、認識性能を向上できるという効果が得られ
る。
【0135】この発明によれば、発声区間の音声パワー
をフレーム毎に計算するパワー検出手段と、最尤の仮説
を探索する前に、間投詞を含んだ仮説については、間投
詞に対応する音声パワーを参照してその言語尤度を増加
させる間投詞尤度増加手段とを備えるようにしたので、
間投詞の特徴である発話の強弱の情報も参照するため、
認識性能を向上できるという効果が得られる。
【0136】この発明によれば、仮説に含まれた間投詞
の音声平均パワーと、間投詞前後の単語、間投詞前後の
文節または仮説全体のうちいずれか1つの音声平均パワ
ーとのパワー比を間投詞尤度増加手段が参照し、パワー
比が所定の閾値よりも小さい場合に、間投詞を含んだ仮
説の言語尤度を間投詞尤度増加手段が増加させるように
したので、間投詞の特徴である発話の強弱の情報も参照
するため、認識性能を向上できるという効果が得られ
る。
【0137】この発明によれば、仮説に含まれた間投詞
中における母音の音声平均パワーと、間投詞前後の単語
中における母音、間投詞前後の文節中における母音また
は仮説全体中における母音のうちいずれか1つの音声平
均パワーとのパワー比を間投詞尤度増加手段が参照し、
パワー比が所定の閾値よりも小さい場合に、仮説の言語
尤度を間投詞尤度増加手段が増加させるようにしたの
で、間投詞の特徴である発話の強弱の情報も参照するた
め、認識性能を向上できるという効果が得られ、パワー
変動の大きい子音が除かれ、パワーが安定している母音
の情報を用いるので、より精度を向上できるという効果
が得られる。
【0138】この発明によれば、特定の言い回しを記憶
する特定の言い回しデータ記憶手段と、発声区間の音声
ピッチをフレーム毎に検出するピッチ検出手段と、特定
の言い回しを含んだ仮説については、特定の言い回しに
対応する音声ピッチを参照してその言語尤度を増加させ
る仮説尤度増加手段とを備えるようにしたので、話速が
速くなって認識音節列が多少脱落しても、特定の言い回
しを含んでいれば尤度を増加させるので、認識性能を向
上できるという効果が得られる。
【0139】この発明によれば、仮説中の特定の言い回
しに対応した音声ピッチの傾きを仮説尤度増加手段が参
照し、傾きが負でその絶対値が所定の閾値の大きさより
も小さい場合に、仮説の言語尤度を仮説尤度増加手段が
増加させるようにしたので、話速が速くなって認識音節
列が多少脱落しても、特定の言い回しを含んでいれば尤
度を増加させるので、認識性能を向上できるという効果
が得られる。
【0140】この発明によれば、特定の言い回しが仮説
中の所定の位置にあり、仮説中の特定の言い回しに対応
した音声ピッチの傾きを仮説尤度増加手段が参照し、傾
きが負でその絶対値が所定の閾値の大きさよりも小さい
場合に、仮説の言語尤度を仮説尤度増加手段が増加させ
るようにしたので、話速が速くなって認識音節列が多少
脱落しても、特定の言い回しを含んでいれば尤度を増加
させるので、認識性能を向上できるという効果が得ら
れ、また、仮説中における特定の言い回しの位置も考慮
することにより、認識性能をより向上できるという効果
が得られる。
【0141】この発明によれば、単語変形ルールを記憶
する単語変形ルール記憶手段と、単語変形ルールを参照
して、言語モデルから取得した単語連鎖を変形して新規
単語を作成するとともに、新規単語を言語モデル記憶手
段に追加する単語変形手段とを備えるようにしたので、
なまけや脱落が生じやすい単語について、話速が速くな
って発話のなまけや音節の省略が起きても、認識性能を
向上できるという効果が得られる。
【0142】この発明によれば、単語変形ルールとし
て、単語変形事例の対応表を単語変形ルール記憶手段が
記憶するようにしたので、単語変形を容易に行なうこと
ができるという効果が得られる。
【0143】この発明によれば、言語モデルから取得し
た単語連鎖のうち、所定の条件を満たすもののみ単語変
形ルールを参照して単語変形手段が単語連鎖を変形する
ようにしたので、適用させる単語の組み合わせを少なく
することができ、言語モデルの規模を抑えることができ
るという効果が得られる。
【0144】この発明によれば、コーパスに含まれる単
語連鎖の出現頻度が所定数以上であることを単語変形手
段が所定の条件とするようにしたので、適用させる単語
の組み合わせを少なくすることができ、言語モデルの規
模を抑えることができるという効果が得られる。
【0145】この発明によれば、音響モデル記憶手段の
音響モデルを用いて音響特徴ベクトルの最尤音節列を生
成する音節認識手段と、音節列のまちがいやすさをデー
タ化した差分モデルを記憶する差分モデル記憶手段と、
言語モデル記憶手段の言語モデルおよび差分モデル記憶
手段の差分モデルを用いて最尤音節列の仮説を複数生成
する単語列探索手段とから認識手段が構成されるように
したので、認識処理における負担を分散できるという効
果が得られる。
【0146】この発明によれば、発声中のパワー変動ま
たはピッチ変動に特徴を持つ特定の単語列を含んだ仮説
に関しては、仮説中における特定の単語列のパワー変動
またはピッチ変動を検出し、パワー変動またはピッチ変
動の検出結果に応じてその言語尤度を変化させるように
したので、発話の強弱や話速も参照して音声認識するよ
うになり、認識性能を向上できるという効果が得られ
る。
【0147】この発明によれば、単語変形ルールを参照
して、言語モデルから取得した単語連鎖を変形して記憶
するようにしたので、なまけや脱落が生じやすい単語に
ついて、話速が速くなって発話のなまけや音節の省略が
起きても、認識性能を向上できるという効果が得られ
る。
【0148】この発明によれば、発声区間の音声パワー
をフレーム毎に計算するパワー検出ステップと、最尤の
仮説を探索する前に、間投詞を含んだ仮説については、
間投詞に対応する音声パワーを参照してその言語尤度を
増加させる間投詞尤度増加ステップとを備えるようにし
たので、間投詞の特徴である発話の強弱の情報も参照す
るため、認識性能を向上できるという効果が得られる。
【0149】この発明によれば、間投詞尤度増加ステッ
プでは、仮説に含まれた間投詞の音声平均パワーと、間
投詞前後の単語、間投詞前後の文節または仮説全体のう
ちいずれか1つの音声平均パワーとのパワー比を参照
し、パワー比が所定の閾値よりも小さい場合に、間投詞
を含んだ仮説の言語尤度を増加させるようにしたので、
間投詞の特徴である発話の強弱の情報も参照するため、
認識性能を向上できるという効果が得られる。
【0150】この発明によれば、間投詞尤度増加ステッ
プでは、仮説に含まれた間投詞中における母音の音声平
均パワーと、間投詞前後の単語中における母音、間投詞
前後の文節中における母音または仮説全体中における母
音のうちいずれか1つの音声平均パワーとのパワー比を
参照し、パワー比が所定の閾値よりも小さい場合に、仮
説の言語尤度を増加させるようにしたので、間投詞の特
徴である発話の強弱の情報も参照するため、認識性能を
向上できるという効果が得られ、パワー変動の大きい子
音が除かれ、パワーが安定している母音の情報を用いる
ので、より精度を向上できるという効果が得られる。
【0151】この発明によれば、発声区間の音声ピッチ
をフレーム毎に検出するピッチ検出ステップと、特定の
言い回しデータ記憶手段に記憶された特定の言い回しを
含んだ仮説については、特定の言い回しに対応する音声
ピッチを参照してその言語尤度を増加させる仮説尤度増
加ステップとを備えるようにしたので、話速が速くなっ
て認識音節列が多少脱落しても、特定の言い回しを含ん
でいれば尤度を増加させるので、認識性能を向上できる
という効果が得られる。
【0152】この発明によれば、仮説尤度増加ステップ
では、仮説中の特定の言い回しに対応した音声ピッチの
傾きを参照し、傾きが負でその絶対値が所定の閾値の大
きさよりも小さい場合に、仮説の言語尤度を増加させる
ようにしたので、話速が速くなって認識音節列が多少脱
落しても、特定の言い回しを含んでいれば尤度を増加さ
せるので、認識性能を向上できるという効果が得られ
る。
【0153】この発明によれば、仮説尤度増加ステップ
では、特定の言い回しが仮説中の所定の位置にあり、仮
説中の特定の言い回しに対応した音声ピッチの傾きを参
照し、傾きが負でその絶対値が所定の閾値の大きさより
も小さい場合に、仮説の言語尤度を増加させるようにし
たので、話速が速くなって認識音節列が多少脱落して
も、特定の言い回しを含んでいれば尤度を増加させるの
で、認識性能を向上できるという効果が得られ、また、
仮説中における特定の言い回しの位置も考慮することに
より、認識性能をより向上できるという効果が得られ
る。
【0154】この発明によれば、単語変形ルール記憶手
段に記憶された単語変形ルールを参照して、言語モデル
から取得した単語連鎖を変形して新規単語を作成すると
ともに、新規単語を言語モデル記憶ステップに追加する
単語変形ステップとを備えるようにしたので、なまけや
脱落が生じやすい単語について、話速が速くなって発話
のなまけや音節の省略が起きても、認識性能を向上でき
るという効果が得られる。
【0155】この発明によれば、単語変形ステップで
は、単語変形ルール記憶手段に単語変形ルールとして記
憶された単語変形事例の対応表を参照するようにしたの
で、単語変形を容易に行なうことができるという効果が
得られる。
【0156】この発明によれば、単語変形ステップで
は、言語モデルから取得した単語連鎖のうち、所定の条
件を満たすもののみ単語変形ルールを参照して単語連鎖
を変形するようにしたので、適用させる単語の組み合わ
せを少なくすることができ、言語モデルの規模を抑える
ことができるという効果が得られる。
【0157】この発明によれば、単語変形ステップで
は、コーパスに含まれる単語連鎖の出現頻度が所定数以
上であることを所定の条件とするようにしたので、適用
させる単語の組み合わせを少なくすることができ、言語
モデルの規模を抑えることができるという効果が得られ
る。
【0158】この発明によれば、音響モデル記憶手段の
音響モデルを用いて音響特徴ベクトルの最尤音節列を生
成する音節認識ステップと、言語モデル記憶手段の言語
モデルおよび差分モデル記憶手段に記憶され、音節列の
まちがいやすさをデータ化した差分モデルを用いて最尤
音節列の仮説を複数生成する単語列探索ステップとから
認識ステップが構成されるようにしたので、認識処理に
おける負担を分散できるという効果が得られる。
【0159】この発明によれば、発声中のパワー変動ま
たはピッチ変動に特徴を持つ特定の単語列を含んだ仮説
に関しては、仮説中における特定の単語列のパワー変動
またはピッチ変動を検出し、パワー変動またはピッチ変
動の検出結果に応じてその言語尤度を変化させるように
したので、発話の強弱や話速も参照して音声認識するよ
うになり、認識性能を向上できるという効果が得られ
る。
【0160】この発明によれば、単語変形ルールを参照
して、言語モデルから取得した単語連鎖を変形して記憶
するようにしたので、なまけや脱落が生じやすい単語に
ついて、話速が速くなって発話のなまけや音節の省略が
起きても、認識性能を向上できるという効果が得られ
る。
【0161】この発明によれば、発声区間の音声パワー
をフレーム毎に計算するパワー検出手順と、最尤の仮説
を探索する前に、間投詞を含んだ仮説については、間投
詞に対応する音声パワーを参照してその言語尤度を増加
させる間投詞尤度増加手順とを備えるようにしたので、
間投詞の特徴である発話の強弱の情報も参照するため、
認識性能を向上できるという効果が得られる。
【0162】この発明によれば、間投詞尤度増加手順で
は、仮説に含まれた間投詞の音声平均パワーと、間投詞
前後の単語、間投詞前後の文節または仮説全体のうちい
ずれか1つの音声平均パワーとのパワー比を参照し、パ
ワー比が所定の閾値よりも小さい場合に、間投詞を含ん
だ仮説の言語尤度を増加させるようにしたので、間投詞
の特徴である発話の強弱の情報も参照するため、認識性
能を向上できるという効果が得られる。
【0163】この発明によれば、間投詞尤度増加手順で
は、仮説に含まれた間投詞中における母音の音声平均パ
ワーと、間投詞前後の単語中における母音、間投詞前後
の文節中における母音または仮説全体中における母音の
うちいずれか1つの音声平均パワーとのパワー比を参照
し、パワー比が所定の閾値よりも小さい場合に、仮説の
言語尤度を増加させるようにしたので、間投詞の特徴で
ある発話の強弱の情報も参照するため、認識性能を向上
できるという効果が得られ、パワー変動の大きい子音が
除かれ、パワーが安定している母音の情報を用いるの
で、より精度を向上できるという効果が得られる。
【0164】この発明によれば、発声区間の音声ピッチ
をフレーム毎に検出するピッチ検出手順と、特定の言い
回しデータ記憶手段に記憶された特定の言い回しを含ん
だ仮説については、特定の言い回しに対応する音声ピッ
チを参照してその言語尤度を増加させる仮説尤度増加手
順とを備えるようにしたので、話速が速くなって認識音
節列が多少脱落しても、特定の言い回しを含んでいれば
尤度を増加させるので、認識性能を向上できるという効
果が得られる。
【0165】この発明によれば、仮説尤度増加手順で
は、仮説中の特定の言い回しに対応した音声ピッチの傾
きを参照し、傾きが負でその絶対値が所定の閾値の大き
さよりも小さい場合に、仮説の言語尤度を増加させるよ
うにしたので、話速が速くなって認識音節列が多少脱落
しても、特定の言い回しを含んでいれば尤度を増加させ
るので、認識性能を向上できるという効果が得られる。
【0166】この発明によれば、仮説尤度増加手順で
は、特定の言い回しが仮説中の所定の位置にあり、仮説
中の特定の言い回しに対応した音声ピッチの傾きを参照
し、傾きが負でその絶対値が所定の閾値の大きさよりも
小さい場合に、仮説の言語尤度を増加させるようにした
ので、話速が速くなって認識音節列が多少脱落しても、
特定の言い回しを含んでいれば尤度を増加させるので、
認識性能を向上できるという効果が得られ、また、仮説
中における特定の言い回しの位置も考慮することによ
り、認識性能をより向上できるという効果が得られる。
【0167】この発明によれば、単語変形ルール記憶手
段に記憶された単語変形ルールを参照して、言語モデル
から取得した単語連鎖を変形して新規単語を作成すると
ともに、新規単語を言語モデル記憶手順に追加する単語
変形手順とを備えるようにしたので、なまけや脱落が生
じやすい単語について、話速が速くなって発話のなまけ
や音節の省略が起きても、認識性能を向上できるという
効果が得られる。
【0168】この発明によれば、単語変形手順では、単
語変形ルール記憶手段に単語変形ルールとして記憶され
た単語変形事例の対応表を参照するようにしたので、単
語変形を容易に行なうことができるという効果が得られ
る。
【0169】この発明によれば、単語変形手順では、言
語モデルから取得した単語連鎖のうち、所定の条件を満
たすもののみ単語変形ルールを参照して単語連鎖を変形
するようにしたので、適用させる単語の組み合わせを少
なくすることができ、言語モデルの規模を抑えることが
できるという効果が得られる。
【0170】この発明によれば、単語変形手順では、コ
ーパスに含まれる単語連鎖の出現頻度が所定数以上であ
ることを所定の条件とするようにしたので、適用させる
単語の組み合わせを少なくすることができ、言語モデル
の規模を抑えることができるという効果が得られる。
【0171】この発明によれば、音響モデル記憶手段の
音響モデルを用いて音響特徴ベクトルの最尤音節列を生
成する音節認識手順と、言語モデル記憶手段の言語モデ
ルおよび差分モデル記憶手段に記憶され、音節列のまち
がいやすさをデータ化した差分モデルを用いて最尤音節
列の仮説を複数生成する単語列探索手順とから認識手順
が構成されるようにしたので、認識処理における負担を
分散できるという効果が得られる。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置
の構成を示す図である。
【図2】 この発明の実施の形態1による音声認識装置
の動作を示すフローチャートである。
【図3】 間投詞が存在する仮説の言語尤度を増加させ
る間投詞尤度増加手段の動作を示すフローチャートであ
る。
【図4】 間投詞尤度増加手段の動作を説明するための
図である。
【図5】 この発明の実施の形態2による音声認識装置
の構成を示す図である。
【図6】 特定の言い回しデータ記憶手段に記憶されて
いる特定の言い回しデータの例を示す図である。
【図7】 この発明の実施の形態2による音声認識装置
の動作を示すフローチャートである。
【図8】 仮説の尤度を増加させる仮説尤度増加手段の
動作を示すフローチャートである。
【図9】 仮説尤度増加手段の動作を説明するための図
である。
【図10】 この発明の実施の形態3による音声認識装
置の構成を示す図である。
【図11】 この発明の実施の形態3による音声認識装
置の動作を示すフローチャートである。
【図12】 特開2001−13988公報に開示され
た従来の音声認識装置の構成を示す図である。
【図13】 無音区間検出部によって無音区間が検出さ
れた信号の様子を概念的に表わす図である。
【図14】 照合に用いられるHMMの構造を表わす図
である。
【図15】 図14の構造のHMMを用いたパターン照
合方式を説明するためのフローチャートである。
【符号の説明】
1 音声入力手段、2 音声切り出し手段、3 音響分
析手段、4 音響モデル記憶手段、5 音節認識手段
(認識手段)、6 パワー検出手段、7 単語列探索手
段(認識手段)、8 差分モデル記憶手段(認識手
段)、9 言語モデル記憶手段、10 間投詞尤度増加
手段、11 ピッチ検出手段、12 特定の言い回しデ
ータ記憶手段、13 仮説尤度増加手段、14 単語変
形ルール記憶手段、15 単語変形手段。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 阿部 芳春 東京都千代田区丸の内二丁目2番3号 三 菱電機株式会社内 Fターム(参考) 5D015 BB01 CC13 CC14 DD03 HH23

Claims (39)

    【特許請求の範囲】
  1. 【請求項1】 発声を音響分析して上記発声の最尤音節
    列を生成するとともに、上記最尤音節列から複数の仮説
    を生成し、上記複数の仮説から最尤の仮説を選択して上
    記発声の認識結果として出力する音声認識装置におい
    て、 上記発声中のパワー変動またはピッチ変動に特徴を持つ
    特定の単語列を含んだ上記仮説に関しては、上記仮説中
    における上記特定の単語列の上記パワー変動または上記
    ピッチ変動を検出し、上記パワー変動または上記ピッチ
    変動の検出結果に応じてその言語尤度を変化させること
    を特徴とする音声認識装置。
  2. 【請求項2】 発声を音響分析して上記発声の最尤音節
    列を生成するとともに、上記最尤音節列から複数の仮説
    を生成し、上記複数の仮説から最尤の仮説を選択して上
    記発声の認識結果として出力する音声認識装置におい
    て、 単語変形ルールを参照して、言語モデルから取得した単
    語連鎖を変形して記憶することを特徴とする音声認識装
    置。
  3. 【請求項3】 音声を取り込んでデジタルデータに変換
    する音声入力手段と、上記デジタルデータから発声区間
    のみを検出する音声切り出し手段と、上記発声区間をフ
    レーム毎に音響分析して音響特徴ベクトルを抽出する音
    響分析手段と、音響モデルを記憶する音響モデル記憶手
    段と、言語モデルを記憶する言語モデル記憶手段と、上
    記音響モデルおよび上記言語モデルを使って上記音響特
    徴ベクトルの最尤音節列を出力するとともに、上記最尤
    音節列に関する複数の仮説から最尤の仮説を探索する認
    識手段とを備えた音声認識装置において、 上記発声区間の音声パワーを上記フレーム毎に計算する
    パワー検出手段と、 上記最尤の仮説を探索する前に、間投詞を含んだ上記仮
    説については、上記間投詞に対応する上記音声パワーを
    参照してその言語尤度を増加させる間投詞尤度増加手段
    とを備えることを特徴とする音声認識装置。
  4. 【請求項4】 間投詞尤度増加手段は、 仮説に含まれた間投詞の音声平均パワーと、上記間投詞
    前後の単語、上記間投詞前後の文節または上記仮説全体
    のうちいずれか1つの音声平均パワーとのパワー比を参
    照し、 上記パワー比が所定の閾値よりも小さい場合に、上記間
    投詞を含んだ上記仮説の言語尤度を増加させることを特
    徴とする請求項3記載の音声認識装置。
  5. 【請求項5】 間投詞尤度増加手段は、 仮説に含まれた間投詞中における母音の音声平均パワー
    と、上記間投詞前後の単語中における母音、上記間投詞
    前後の文節中における母音または上記仮説全体中におけ
    る母音のうちいずれか1つの音声平均パワーとのパワー
    比を参照し、 上記パワー比が所定の閾値よりも小さい場合に、上記仮
    説の言語尤度を増加させることを特徴とする請求項3記
    載の音声認識装置。
  6. 【請求項6】 音声を取り込んでデジタルデータに変換
    する音声入力手段と、上記デジタルデータから発声区間
    のみを検出する音声切り出し手段と、上記発声区間をフ
    レーム毎に音響分析して音響特徴ベクトルを抽出する音
    響分析手段と、音響モデルを記憶する音響モデル記憶手
    段と、言語モデルを記憶する言語モデル記憶手段と、上
    記音響モデルおよび上記言語モデルを使って上記音響特
    徴ベクトルの最尤音節列を出力するとともに、上記最尤
    音節列に関する複数の仮説から最尤の仮説を探索する認
    識手段とを備えた音声認識装置において、 特定の言い回しを記憶する特定の言い回しデータ記憶手
    段と、 上記発声区間の音声ピッチを上記フレーム毎に検出する
    ピッチ検出手段と、 上記特定の言い回しを含んだ上記仮説については、上記
    特定の言い回しに対応する上記音声ピッチを参照してそ
    の言語尤度を増加させる仮説尤度増加手段とを備えるこ
    とを特徴とする音声認識装置。
  7. 【請求項7】 仮説尤度増加手段は、 仮説中の特定の言い回しに対応した音声ピッチの傾きを
    参照し、上記傾きが負でその絶対値が所定の閾値の大き
    さよりも小さい場合に、上記仮説の言語尤度を増加させ
    ることを特徴とする請求項6記載の音声認識装置。
  8. 【請求項8】 仮説尤度増加手段は、 特定の言い回しが仮説中の所定の位置にあり、上記仮説
    中の上記特定の言い回しに対応した音声ピッチの傾きを
    参照し、上記傾きが負でその絶対値が所定の閾値の大き
    さよりも小さい場合に、上記仮説の言語尤度を増加させ
    ることを特徴とする請求項7記載の音声認識装置。
  9. 【請求項9】 音声を取り込んでデジタルデータに変換
    する音声入力手段と、上記デジタルデータから発声区間
    のみを検出する音声切り出し手段と、上記発声区間をフ
    レーム毎に音響分析して音響特徴ベクトルを抽出する音
    響分析手段と、音響モデルを記憶する音響モデル記憶手
    段と、言語モデルを記憶する言語モデル記憶手段と、上
    記音響モデルおよび上記言語モデルを使って上記音響特
    徴ベクトルの最尤音節列を出力するとともに、上記最尤
    音節列に関する複数の仮説から最尤の仮説を探索する認
    識手段とを備えた音声認識装置において、 単語変形ルールを記憶する単語変形ルール記憶手段と、 上記単語変形ルールを参照して、上記言語モデルから取
    得した単語連鎖を変形して新規単語を作成するととも
    に、上記新規単語を上記言語モデル記憶手段に追加する
    単語変形手段とを備えることを特徴とする音声認識装
    置。
  10. 【請求項10】 単語変形ルール記憶手段は、 単語変形ルールとして、単語変形事例の対応表を記憶す
    ることを特徴とする請求項9記載の音声認識装置。
  11. 【請求項11】 単語変形手段は、 言語モデルから取得した単語連鎖のうち、所定の条件を
    満たすもののみ単語変形ルールを参照して上記単語連鎖
    を変形することを特徴とする請求項9記載の音声認識装
    置。
  12. 【請求項12】 単語変形手段は、 コーパスに含まれる単語連鎖の出現頻度が所定数以上で
    あることを所定の条件とすることを特徴とする請求項1
    1記載の音声認識装置。
  13. 【請求項13】 認識手段は、 音響モデル記憶手段の音響モデルを用いて音響特徴ベク
    トルの最尤音節列を生成する音節認識手段と、 音節列のまちがいやすさをデータ化した差分モデルを記
    憶する差分モデル記憶手段と、 言語モデル記憶手段の言語モデルおよび上記差分モデル
    記憶手段の上記差分モデルを用いて上記最尤音節列の仮
    説を複数生成する単語列探索手段とから構成されること
    を特徴とする請求項3,請求項6または請求項9のうち
    のいずれか1項記載の音声認識装置。
  14. 【請求項14】 発声を音響分析して上記発声の最尤音
    節列を生成するとともに、上記最尤音節列から複数の仮
    説を生成し、上記複数の仮説から最尤の仮説を選択して
    上記発声の認識結果として出力する音声認識方法におい
    て、 上記発声中のパワー変動またはピッチ変動に特徴を持つ
    特定の単語列を含んだ上記仮説に関しては、上記仮説中
    における上記特定の単語列の上記パワー変動または上記
    ピッチ変動を検出し、上記パワー変動または上記ピッチ
    変動の検出結果に応じてその言語尤度を変化させること
    を特徴とする音声認識方法。
  15. 【請求項15】 発声を音響分析して上記発声の最尤音
    節列を生成するとともに、上記最尤音節列から複数の仮
    説を生成し、上記複数の仮説から最尤の仮説を選択して
    上記発声の認識結果として出力する音声認識方法におい
    て、 単語変形ルールを参照して、言語モデルから取得した単
    語連鎖を変形して記憶することを特徴とする音声認識方
    法。
  16. 【請求項16】 音声を取り込んでデジタルデータに変
    換する音声入力ステップと、上記デジタルデータから発
    声区間のみを検出する音声切り出しステップと、上記発
    声区間をフレーム毎に音響分析して音響特徴ベクトルを
    抽出する音響分析ステップと、音響モデル記憶手段に記
    憶された音響モデルと、言語モデル記憶手段に記憶され
    た言語モデルとを使って上記音響特徴ベクトルの最尤音
    節列を出力するとともに、上記最尤音節列に関する複数
    の仮説から最尤の仮説を探索する認識ステップとを備え
    た音声認識方法において、 上記発声区間の音声パワーを上記フレーム毎に計算する
    パワー検出ステップと、 上記最尤の仮説を探索する前に、間投詞を含んだ上記仮
    説については、上記間投詞に対応する上記音声パワーを
    参照してその言語尤度を増加させる間投詞尤度増加ステ
    ップとを備えることを特徴とする音声認識方法。
  17. 【請求項17】 間投詞尤度増加ステップでは、 仮説に含まれた間投詞の音声平均パワーと、上記間投詞
    前後の単語、上記間投詞前後の文節または上記仮説全体
    のうちいずれか1つの音声平均パワーとのパワー比を参
    照し、 上記パワー比が所定の閾値よりも小さい場合に、上記間
    投詞を含んだ上記仮説の言語尤度を増加させることを特
    徴とする請求項16記載の音声認識方法。
  18. 【請求項18】 間投詞尤度増加ステップでは、 仮説に含まれた間投詞中における母音の音声平均パワー
    と、上記間投詞前後の単語中における母音、上記間投詞
    前後の文節中における母音または上記仮説全体中におけ
    る母音のうちいずれか1つの音声平均パワーとのパワー
    比を参照し、 上記パワー比が所定の閾値よりも小さい場合に、上記仮
    説の言語尤度を増加させることを特徴とする請求項16
    記載の音声認識方法。
  19. 【請求項19】 音声を取り込んでデジタルデータに変
    換する音声入力ステップと、上記デジタルデータから発
    声区間のみを検出する音声切り出しステップと、上記発
    声区間をフレーム毎に音響分析して音響特徴ベクトルを
    抽出する音響分析ステップと、音響モデル記憶手段に記
    憶された音響モデルと、言語モデル記憶手段に記憶され
    た言語モデルとを使って上記音響特徴ベクトルの最尤音
    節列を出力するとともに、上記最尤音節列に関する複数
    の仮説から最尤の仮説を探索する認識ステップとを備え
    た音声認識方法において、 上記発声区間の音声ピッチを上記フレーム毎に検出する
    ピッチ検出ステップと、 特定の言い回しデータ記憶手段に記憶された特定の言い
    回しを含んだ上記仮説については、上記特定の言い回し
    に対応する上記音声ピッチを参照してその言語尤度を増
    加させる仮説尤度増加ステップとを備えることを特徴と
    する音声認識方法。
  20. 【請求項20】 仮説尤度増加ステップでは、 仮説中の特定の言い回しに対応した音声ピッチの傾きを
    参照し、上記傾きが負でその絶対値が所定の閾値の大き
    さよりも小さい場合に、上記仮説の言語尤度を増加させ
    ることを特徴とする請求項19記載の音声認識方法。
  21. 【請求項21】 仮説尤度増加ステップでは、 特定の言い回しが仮説中の所定の位置にあり、上記仮説
    中の上記特定の言い回しに対応した音声ピッチの傾きを
    参照し、上記傾きが負でその絶対値が所定の閾値の大き
    さよりも小さい場合に、上記仮説の言語尤度を増加させ
    ることを特徴とする請求項20記載の音声認識方法。
  22. 【請求項22】 音声を取り込んでデジタルデータに変
    換する音声入力ステップと、上記デジタルデータから発
    声区間のみを検出する音声切り出しステップと、上記発
    声区間をフレーム毎に音響分析して音響特徴ベクトルを
    抽出する音響分析ステップと、音響モデル記憶手段に記
    憶された音響モデルと、言語モデル記憶手段に記憶され
    た言語モデルとを使って上記音響特徴ベクトルの最尤音
    節列を出力するとともに、上記最尤音節列に関する複数
    の仮説から最尤の仮説を探索する認識ステップとを備え
    た音声認識方法において、 単語変形ルール記憶手段に記憶された単語変形ルールを
    参照して、上記言語モデルから取得した単語連鎖を変形
    して新規単語を作成するとともに、上記新規単語を上記
    言語モデル記憶ステップに追加する単語変形ステップと
    を備えることを特徴とする音声認識方法。
  23. 【請求項23】 単語変形ステップでは、 単語変形ルール記憶手段に単語変形ルールとして記憶さ
    れた単語変形事例の対応表を参照することを特徴とする
    請求項22記載の音声認識方法。
  24. 【請求項24】 単語変形ステップでは、 言語モデルから取得した単語連鎖のうち、所定の条件を
    満たすもののみ単語変形ルールを参照して上記単語連鎖
    を変形することを特徴とする請求項22記載の音声認識
    方法。
  25. 【請求項25】 単語変形ステップでは、 コーパスに含まれる単語連鎖の出現頻度が所定数以上で
    あることを所定の条件とすることを特徴とする請求項2
    4記載の音声認識方法。
  26. 【請求項26】 認識ステップでは、 音響モデル記憶手段の音響モデルを用いて音響特徴ベク
    トルの最尤音節列を生成する音節認識ステップと、 言語モデル記憶手段の言語モデルおよび差分モデル記憶
    手段に記憶され、音節列のまちがいやすさをデータ化し
    た差分モデルを用いて上記最尤音節列の仮説を複数生成
    する単語列探索ステップとから構成されることを特徴と
    する請求項16,請求項19または請求項22のうちの
    いずれか1項記載の音声認識方法。
  27. 【請求項27】 発声を音響分析して上記発声の最尤音
    節列を生成するとともに、上記最尤音節列から複数の仮
    説を生成し、上記複数の仮説から最尤の仮説を選択して
    上記発声の認識結果として出力する音声認識プログラム
    において、 上記発声中のパワー変動またはピッチ変動に特徴を持つ
    特定の単語列を含んだ上記仮説に関しては、上記仮説中
    における上記特定の単語列の上記パワー変動または上記
    ピッチ変動を検出し、上記パワー変動または上記ピッチ
    変動の検出結果に応じてその言語尤度を変化させること
    を特徴とする音声認識プログラム。
  28. 【請求項28】 発声を音響分析して上記発声の最尤音
    節列を生成するとともに、上記最尤音節列から複数の仮
    説を生成し、上記複数の仮説から最尤の仮説を選択して
    上記発声の認識結果として出力する音声認識プログラム
    において、 単語変形ルールを参照して、言語モデルから取得した単
    語連鎖を変形して記憶することを特徴とする音声認識プ
    ログラム。
  29. 【請求項29】 音声を取り込んでデジタルデータに変
    換する音声入力手順と、上記デジタルデータから発声区
    間のみを検出する音声切り出し手順と、上記発声区間を
    フレーム毎に音響分析して音響特徴ベクトルを抽出する
    音響分析手順と、音響モデル記憶手段に記憶された音響
    モデルと、言語モデル記憶手段に記憶された言語モデル
    とを使って上記音響特徴ベクトルの最尤音節列を出力す
    るとともに、上記最尤音節列に関する複数の仮説から最
    尤の仮説を探索する認識手順とを備えた音声認識プログ
    ラムにおいて、 上記発声区間の音声パワーを上記フレーム毎に計算する
    パワー検出手順と、 上記最尤の仮説を探索する前に、間投詞を含んだ上記仮
    説については、上記間投詞に対応する上記音声パワーを
    参照してその言語尤度を増加させる間投詞尤度増加手順
    とを備えることを特徴とする音声認識プログラム。
  30. 【請求項30】 間投詞尤度増加手順では、 仮説に含まれた間投詞の音声平均パワーと、上記間投詞
    前後の単語、上記間投詞前後の文節または上記仮説全体
    のうちいずれか1つの音声平均パワーとのパワー比を参
    照し、 上記パワー比が所定の閾値よりも小さい場合に、上記間
    投詞を含んだ上記仮説の言語尤度を増加させることを特
    徴とする請求項29記載の音声認識プログラム。
  31. 【請求項31】 間投詞尤度増加手順では、 仮説に含まれた間投詞中における母音の音声平均パワー
    と、上記間投詞前後の単語中における母音、上記間投詞
    前後の文節中における母音または上記仮説全体中におけ
    る母音のうちいずれか1つの音声平均パワーとのパワー
    比を参照し、 上記パワー比が所定の閾値よりも小さい場合に、上記仮
    説の言語尤度を増加させることを特徴とする請求項29
    記載の音声認識プログラム。
  32. 【請求項32】 音声を取り込んでデジタルデータに変
    換する音声入力手順と、上記デジタルデータから発声区
    間のみを検出する音声切り出し手順と、上記発声区間を
    フレーム毎に音響分析して音響特徴ベクトルを抽出する
    音響分析手順と、音響モデル記憶手段に記憶された音響
    モデルと、言語モデル記憶手段に記憶された言語モデル
    とを使って上記音響特徴ベクトルの最尤音節列を出力す
    るとともに、上記最尤音節列に関する複数の仮説から最
    尤の仮説を探索する認識手順とを備えた音声認識プログ
    ラムにおいて、 上記発声区間の音声ピッチを上記フレーム毎に検出する
    ピッチ検出手順と、 特定の言い回しデータ記憶手段に記憶された特定の言い
    回しを含んだ上記仮説については、上記特定の言い回し
    に対応する上記音声ピッチを参照してその言語尤度を増
    加させる仮説尤度増加手順とを備えることを特徴とする
    音声認識プログラム。
  33. 【請求項33】 仮説尤度増加手順では、 仮説中の特定の言い回しに対応した音声ピッチの傾きを
    参照し、上記傾きが負でその絶対値が所定の閾値の大き
    さよりも小さい場合に、上記仮説の言語尤度を増加させ
    ることを特徴とする請求項32記載の音声認識プログラ
    ム。
  34. 【請求項34】 仮説尤度増加手順では、 特定の言い回しが仮説中の所定の位置にあり、上記仮説
    中の上記特定の言い回しに対応した音声ピッチの傾きを
    参照し、上記傾きが負でその絶対値が所定の閾値の大き
    さよりも小さい場合に、上記仮説の言語尤度を増加させ
    ることを特徴とする請求項33記載の音声認識プログラ
    ム。
  35. 【請求項35】 音声を取り込んでデジタルデータに変
    換する音声入力手順と、上記デジタルデータから発声区
    間のみを検出する音声切り出し手順と、上記発声区間を
    フレーム毎に音響分析して音響特徴ベクトルを抽出する
    音響分析手順と、音響モデル記憶手段に記憶された音響
    モデルと、言語モデル記憶手段に記憶された言語モデル
    とを使って上記音響特徴ベクトルの最尤音節列を出力す
    るとともに、上記最尤音節列に関する複数の仮説から最
    尤の仮説を探索する認識手順とを備えた音声認識プログ
    ラムにおいて、 単語変形ルール記憶手段に記憶された単語変形ルールを
    参照して、上記言語モデルから取得した単語連鎖を変形
    して新規単語を作成するとともに、上記新規単語を上記
    言語モデル記憶手順に追加する単語変形手順とを備える
    ことを特徴とする音声認識プログラム。
  36. 【請求項36】 単語変形手順では、 単語変形ルール記憶手段に単語変形ルールとして記憶さ
    れた単語変形事例の対応表を参照することを特徴とする
    請求項35記載の音声認識プログラム。
  37. 【請求項37】 単語変形手順では、 言語モデルから取得した単語連鎖のうち、所定の条件を
    満たすもののみ単語変形ルールを参照して上記単語連鎖
    を変形することを特徴とする請求項35記載の音声認識
    プログラム。
  38. 【請求項38】 単語変形手順では、 コーパスに含まれる単語連鎖の出現頻度が所定数以上で
    あることを所定の条件とすることを特徴とする請求項3
    7記載の音声認識プログラム。
  39. 【請求項39】 認識手順では、 音響モデル記憶手段の音響モデルを用いて音響特徴ベク
    トルの最尤音節列を生成する音節認識手順と、 言語モデル記憶手段の言語モデルおよび差分モデル記憶
    手段に記憶され、音節列のまちがいやすさをデータ化し
    た差分モデルを用いて上記最尤音節列の仮説を複数生成
    する単語列探索手順とから構成されることを特徴とする
    請求項29,請求項32または請求項35のうちのいず
    れか1項記載の音声認識プログラム。
JP2001338176A 2001-11-02 2001-11-02 音声認識装置、音声認識方法および音声認識プログラム Pending JP2003140683A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001338176A JP2003140683A (ja) 2001-11-02 2001-11-02 音声認識装置、音声認識方法および音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001338176A JP2003140683A (ja) 2001-11-02 2001-11-02 音声認識装置、音声認識方法および音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2003140683A true JP2003140683A (ja) 2003-05-16

Family

ID=19152709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001338176A Pending JP2003140683A (ja) 2001-11-02 2001-11-02 音声認識装置、音声認識方法および音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2003140683A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008055A1 (ja) * 2007-07-09 2009-01-15 Fujitsu Limited 音声認識装置、音声認識方法、および、音声認識プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009008055A1 (ja) * 2007-07-09 2009-01-15 Fujitsu Limited 音声認識装置、音声認識方法、および、音声認識プログラム
JPWO2009008055A1 (ja) * 2007-07-09 2010-09-02 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US8738378B2 (en) 2007-07-09 2014-05-27 Fujitsu Limited Speech recognizer, speech recognition method, and speech recognition program

Similar Documents

Publication Publication Date Title
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP3126985B2 (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US8972243B1 (en) Parse information encoding in a finite state transducer
JP5040909B2 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US7299178B2 (en) Continuous speech recognition method and system using inter-word phonetic information
JP4301102B2 (ja) 音声処理装置および音声処理方法、プログラム、並びに記録媒体
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones
Kwon et al. Korean large vocabulary continuous speech recognition with morpheme-based recognition units
US7890325B2 (en) Subword unit posterior probability for measuring confidence
Hazen et al. Pronunciation modeling using a finite-state transducer representation
JPWO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
JP2008176202A (ja) 音声認識装置及び音声認識プログラム
Réveil et al. An improved two-stage mixed language model approach for handling out-of-vocabulary words in large vocabulary continuous speech recognition
Hwang et al. Building a highly accurate Mandarin speech recognizer
JP2001195087A (ja) 音声認識システム
Fu et al. A survey on Chinese speech recognition
Geutner et al. Phonetic-distance-based hypothesis driven lexical adaptation for transcribing multlingual broadcast news.
Lee et al. A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin
JP2003140683A (ja) 音声認識装置、音声認識方法および音声認識プログラム
Hwang et al. Building a highly accurate Mandarin speech recognizer with language-independent technologies and language-dependent modules
Kurian et al. Automated Transcription System for MalayalamLanguage
Béchet et al. Very large vocabulary proper name recognition for directory assistance
Hirose et al. Continuous speech recognition of Japanese using prosodic word boundaries detected by mora transition modeling of fundamental frequency contours
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム