JP2003271187A - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number
JP2003271187A
JP2003271187A JP2002069388A JP2002069388A JP2003271187A JP 2003271187 A JP2003271187 A JP 2003271187A JP 2002069388 A JP2002069388 A JP 2002069388A JP 2002069388 A JP2002069388 A JP 2002069388A JP 2003271187 A JP2003271187 A JP 2003271187A
Authority
JP
Japan
Prior art keywords
model
language model
analysis
phoneme chain
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002069388A
Other languages
English (en)
Other versions
JP3917880B2 (ja
Inventor
Kazumasa Honda
和正 本田
Akira Tsuruta
彰 鶴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2002069388A priority Critical patent/JP3917880B2/ja
Publication of JP2003271187A publication Critical patent/JP2003271187A/ja
Application granted granted Critical
Publication of JP3917880B2 publication Critical patent/JP3917880B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 未知語の検出を精度よく行い、さらに未知語
以外の部分の認識にも影響を及ぼさない未知語処理を実
現できる音声認識装置を提供する。 【解決手段】 単語の情報を記憶した認識辞書と、上記
認識辞書に記憶された各単語を学習した言語モデルと、
音韻連鎖の規則を記憶した音韻連鎖モデルを備え、上記
言語モデルと音韻連鎖モデルを用いた分析を行う認識部
と、音韻連鎖モデル重み記憶部と、上記音韻連鎖モデル
重み記憶部に記憶された値を変更する音韻連鎖モデル重
み変更部を備えることで、精度の高い未知語検出が可能
となる。さらに、上記言語モデルの重みを記憶する言語
モデル重み記憶部と、上記言語モデルと上記音韻連鎖モ
デルを用いた分析結果から上記言語モデル重み記憶部に
記憶された重みを変更する言語モデル重み変更部を備え
ることで、未知語検出時に言語的な制約を緩くでき、未
知語の後に続く単語も精度良く認識できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発声された音声を
認識する音声認識装置に関するものである。
【0002】
【従来の技術】音声認識技術はここ数年で広く利用され
るようになってきている。近年の計算機技術の発展に伴
い、単語音声認識だけでなく連続音声認識もPC上のソ
フトウェアなどで利用可能になっている。
【0003】音声認識においては、認識辞書に記憶され
ていない単語(未知語)をユーザが発声する可能性があ
る。連続音声認識における未知語への対応手法として
は、“連続音声認識における未知語の扱い”(信学技
報、SP91−96、Dec。1991)で述べられて
いるように音韻タイプライタを利用するものがある。音
韻タイプライタは、日本語としてありうる発声すべてを
認識できるように声の特徴をサブワードでモデル化した
ものであり、そのサブワードには音素がよく用いられ
る。
【0004】以下、従来の、音韻タイプライタを用いた
未知語処理について説明する。図3は従来の、音韻タイ
プライタを用いた未知語処理の一例を表したブロック図
である。
【0005】音声認識装置300に入力された話者の音
声は、入力部301に入力され、ディジタル信号化され
る。ディジタル信号化された音声波形は、音響分析部3
02に入力され、分析される。分析方法としては、20
〜40msecの区間ごとに、比較的短時間の時間窓を
かけて、8〜16msecごとに窓をシフトしていく短
時間スペクトル分析の手法が使われることが多い。時間
窓によって切り出された音声波形は、切り出された時間
長を持つフレームと呼ばれる単位ごとの特徴ベクトルの
時系列に変換される。特徴ベクトルは、その時刻におけ
る音声スペクトルの特徴量を抽出したもので、通常10
〜50次元であり、メル周波数ケプストラム係数などが
広く用いられている。変換した特徴ベクトルを認識部3
03へ出力する。
【0006】音響モデル307には、認識単位ごとに用
意されたHMM(隠れマルコフモデル)が広く用いられ
ており、認識単位としては音素片が用いられることが多
い。HMMとは複数個の状態を持つ非決定性確率有限オ
ートマトンであり、非定常信号源を定常信号源の連結で
表す統計的信号源モデルとして用いられている。HMM
は、遷移する状態の集まりとして表され、状態の遷移の
確率を表す遷移確率と、状態が遷移するときに観測ベク
トルの確率を出力する出力確率とからなる。音声認識に
用いられる、HMMで表現された音響モデルは、音韻の
性質をモデル化している。このHMMでは、状態は、お
およそ音韻のイベント(閉鎖、破裂、摩擦、定常母音な
ど、安定な区間)に対応する。出力確率は、遷移に伴っ
て出力される信号の揺らぎの確率である。認識辞書の語
彙に含まれる各単語について、認識単位(音素片等)そ
れぞれに対応する状態の出力によって構成される系列
(以下HMMの出力系列と表記する)が、入力信号の系
列(それぞれ特徴ベクトルの時系列であることが多い)
と一致する確率を出力確率と遷移確率から求め、その値
が最大となる単語を認識結果とすることで、音声認識が
実現される。この場合、入力信号の系列は、すでに起き
た事象の観測データとして得られており、そのデータと
比較して、HMMの出力系列がどれだけもっともらしい
か、ということを求めている。すでに起きている事象
(入力信号の系列)を説明する仮説(HMMの出力系
列)の正しさを求めるために、確率ではなく尤度という
概念を用いて分析が行われる。HMMの状態系列の尤度
を計算するときは、尤度の積の代わりに対数尤度の和を
求めることが多い。こういった状態系列を求めるアルゴ
リズムとしてViterbiアルゴリズムが広く用いら
れている。連続音声認識の場合は、言語モデルによって
文章中の各単語のならびに文法的な制限が設けられてい
る。
【0007】出力確率、遷移確率などのパラメータは、
対応する学習音声を与えてバウム−ウェルチアルゴリズ
ムと呼ばれるアルゴリズムなどであらかじめ学習されて
いる。以下は、認識単位が音素であるHMMが音響モデ
ル307に記憶されているとする。
【0008】認識辞書304には、認識可能な語彙の情
報が記憶されている。単語の表記、音素記号列が記憶さ
れている。
【0009】言語モデル305には、認識辞書304に
含まれる語彙に基づいたn−gramモデルが広く用い
られている。n−gramモデルとは、サンプルデータ
から統計的な手法によって確率推定を行う統計的言語モ
デルの一種であり、n−gramモデルを用いた言語モ
デルの実装について、「音声認識システム」(オーム社
出版局)に詳しく記載されている。
【0010】音韻連鎖モデル306には、日本語として
ありうる音韻連鎖の規則が記憶されている。音韻タイプ
ライタを利用した未知語処理においては、通常の連続音
声認識とともに、未知語検出用の音韻認識が並列に行わ
れる。音韻連鎖モデル306の実装としては、認識部3
03の実装を共通化するために、上記言語モデル305
と同じデータ構造で記憶される事が多い。
【0011】認識部303では、音響分析部302の出
力、音響モデル307、言語モデル305、音韻連鎖モ
デル306のそれぞれの情報を用いて音声認識処理を行
う。通常の連続認識処理については、上記「音声認識シ
ステム」(オーム社出版局)にその実現方法が書かれて
いる。ただし、ここでは認識処理において、探索は1パ
スフレーム同期ビームサーチで行われるとする。このと
き、各フレームで音韻タイプライタを用いた音韻認識も
並列に行われる。図4は認識部303における各フレー
ムでの処理をフローチャートで表したものである。以
下、図4にしたがってi番目のフレームでの認識処理に
ついて説明する。
【0012】まず、ステップ401で、対応するフレー
ムにおいて、通常の認識処理をおこなう。具体的には、
音響分析部302の出力した特徴ベクトルから、音響モ
デル307と言語モデル305を用いて各仮説の尤度を
計算し、尤度の低い仮説を評価の対象からはずす(枝刈
り)処理を行う。尤度の計算方法、枝刈りについても上
記「音声認識システム」(オーム社出版局)に記載され
ている。さらに、各仮説の累積尤度を記憶しておく。例
えば、フレームiに対応する累積尤度を配列P1[i]
として、P1を仮説ごと別々に記憶する。
【0013】次に、ステップ402で、言語モデル30
5の代わりに音韻連鎖モデル306を用いてステップ4
01と同様の処理を行う。ただし、ステップ401での
各仮説中の最大尤度を枝刈りするスコアの閾値とする。
なぜなら、言語モデル305を用いた認識の場合は言語
的制約があるため、日本語としてありうる音韻連鎖の可
能性がある音韻連鎖モデル306を用いた認識における
尤度のほうが最大値は高くなり、さらに未知語検出のた
めには音韻連鎖モデルを用いた認識の仮説はひとつ残っ
ていればよいためである。このとき、対応するフレーム
における音韻連鎖モデルを用いた場合の最大の累積尤度
を配列P2[i]に記憶しておく。
【0014】すべてのフレームについて上記の処理が終
了したら、もっともスコアの高い仮説に対応する文の各
単語について、それぞれの単語における最後のフレーム
(ここではj番目とする)の、音韻連鎖モデルを用いた
分析での最大累積尤度に上記音韻連鎖モデル重み記憶部
に記憶された値と言語モデル305を用いた分析での累
積尤度の差を求め、それをSとして、各単語で記憶す
る。つまり、上記音韻連鎖モデル重み記憶部に記憶され
た値をαとすると、α×P2[j]―P1[j]=Sで
ある。この値を各単語について求める。最後に、最もス
コアの高い仮説に対応する文の各単語の表記と、Sの値
を未知語区間検出部309に出力する。
【0015】未知語区間検出部309は、認識部303
の出力を入力とする。入力された各単語におけるSが0
より大きい単語を未知語として、その単語の表記を「未
知語」と変換した文字列を出力部310に出力する。こ
こで、音韻連鎖モデル重み記憶部308にはあらかじめ
騒音などの発話環境を考慮して適当に決定された音韻連
鎖モデル重みが記憶されている。
【0016】出力部310は、ディスプレイなど、文字
列を出力できる装置であり、未知語区間検出部から出力
された文字列を出力する。
【0017】上記の音韻連鎖モデル重みは、話者や発声
環境によって大きく変化するため、精度よく未知語の検
出を行うためには、それらの環境によって音韻連鎖モデ
ル重みを変化させる必要がある。環境の違いによらない
未知語の検出としては、特開平4−255900号報に
見られる手法を用いることで、音韻タイプライタによる
分析と言語制約をもった分析での尤度から適切な音韻連
鎖モデル重みを求めるというものがある。
【0018】
【発明が解決しようとする課題】しかしながら、上記従
来の技術で述べた方法では、適切な音韻連鎖モデル重み
が環境によって異なるという問題がある。それを解決す
るための特開平4−255900号公報で見られる手法
においては、発声最後まで分析しなければ適切な音韻連
鎖モデル重みがわからないという欠点があり、フレーム
同期探索時などに未知語であるかどうかの情報がまった
くわからない。n−gramなどの統計的言語モデルを
用いた音声認識では、未知語が発声された後の認識結果
はあまり信用できず、音韻タイプライタとの差が大きい
部分だけを未知語と認識しても、その後の部分に正しい
単語が結果として選ばれていない場合が多いので、未知
語以外の部分の認識に問題がある。
【0019】そこで本発明の目的は、精度よく未知語の
検出を行い、未知語以外の部分の認識にも頑健な未知語
処理を実現できる音声認識装置を提供することにある。
【0020】
【課題を解決するための手段】本発明は、単語を記憶し
た認識辞書と、上記認識辞書に記憶された単語をあらか
じめ学習した言語モデルと、認識対象言語においてあり
うる音韻連鎖の規則を記憶した音韻連鎖モデルとを有す
る音声認識装置において、上記言語モデルを用いた分析
と上記音韻連鎖モデルを用いた分析を行う認識部と、上
記音韻連鎖モデルを用いた分析結果に重みをかける値を
記憶する音韻連鎖モデル重み記憶部と、上記言語モデル
を用いた分析と上記音韻連鎖モデルを用いた分析の結果
を利用して上記音韻連鎖モデル重み記憶部に記憶された
値を変更する音韻連鎖モデル重み変更部と、を備えたこ
とを特徴とする。
【0021】また、本発明は、上記言語モデルの重みを
記憶する言語モデル重み記憶部と、上記言語モデルを用
いた分析と上記音韻連鎖モデルを用いた分析との結果か
ら上記言語モデル重み記憶部に記憶された重みを変更す
る言語モデル重み変更部と、を備えたことを特徴とす
る。
【0022】また、本発明は、上記言語モデル重み変更
部は、上記言語モデルの重みを上記認識部における上記
言語モデルを用いた分析と上記音韻連鎖モデルを用いた
分析で得られる尤度の差の値あるいは上記言語モデル重
み記憶部に記憶されている値の関数によって得られる値
に変更することを特徴とする。
【0023】また、本発明は、上記音韻連鎖モデル重み
記憶部は、上記音韻連鎖モデル重みを上記認識部におけ
る上記言語モデルを用いた分析と上記音韻連鎖モデルを
用いた分析で得られる尤度の差の値あるいは上記音韻連
鎖モデル重み記憶部に記憶された値の関数によって得ら
れる値に変更することを特徴とする。
【0024】また、本発明は、上記認識部は、尤度計算
時の探索において複数パスの探索を行い、二つ目以降の
パスでは、上記言語モデル重み変更部は上記言語モデル
の重み記憶部に記憶されている値を維持することを特徴
とする。
【0025】また、本発明は、上記認識部は、尤度計算
時の探索において複数パスの探索を行い、二つ目以降の
パスでは、上記音韻連鎖モデル重み変更部は上記音韻連
鎖モデル重み記憶部に記憶されている値を維持すること
を特徴とする。
【0026】また、本発明は、上記言語モデル重み記憶
部は、発声前の値を別に記憶し、上記言語モデル重み変
更部は、発声が終了したと判断されたときに、上記言語
モデル重み記憶部に記憶された値を発声前の値に変更す
ることを特徴とする。
【0027】また、本発明は、上記音韻連鎖モデル重み
記憶部は、発声前の値を別に記憶し、上記音韻連鎖モデ
ル重み変更部は、発声が終了したと判断されたときに、
上記音韻連鎖モデル重み記憶部に記憶された値を発声前
の値に変更することを特徴とする。
【0028】また、本発明は、上記言語モデル重み変更
部は、無音部分と判断される処理単位においては、上記
言語モデル重み記憶部に記憶された値を維持することを
特徴とする。
【0029】また、本発明は、上記音韻連鎖モデル重み
変更部は、無音部分と判断される処理単位においては、
上記音韻連鎖モデル重み記憶部に記憶された値を維持す
ることを特徴とする。
【0030】また、本発明は、単語を記憶した認識辞書
と、上記認識辞書に記憶された各単語をあらかじめ学習
した言語モデルと、認識対象言語においてありうる音韻
連鎖の規則を記憶した音韻連鎖モデルとを用いる音声認
識方法において、時間で分割された処理単位ごとに、上
記言語モデルを用いた分析と上記音韻連鎖モデルを用い
た分析を行い、それぞれの分析における最大尤度の値を
出力する認識手段と、上記音韻連鎖モデルを用いた分析
に重みをかける値を記憶する音韻連鎖モデル重み記憶手
段と、上記処理単位ごとに、上記言語モデルを用いた分
析と上記音韻連鎖モデルを用いた分析のそれぞれの最大
尤度の値を用いて上記音韻連鎖モデル重み記憶手段で記
憶した値を変更する音韻連鎖モデル重み変更手段と、を
備えたことを特徴とする。
【0031】また、本発明は、上記言語モデルの重みを
記憶する言語モデル重み記憶手段と、上記処理単位ごと
に、上記言語モデルを用いた分析と上記音韻連鎖モデル
を用いた分析のそれぞれの最大尤度の値を用いて上記言
語モデル重み記憶手段で記憶した重みを変更する言語モ
デル重み変更手段と、を備えたことを特徴とする。
【0032】また、本発明は、単語を記憶した認識辞書
と、上記認識辞書に記憶された各単語をあらかじめ学習
した言語モデルと、認識対象言語においてありうる音韻
連鎖の規則を記憶した音韻連鎖モデルとを有する音声認
識方法において、上記言語モデルを用いた分析と上記音
韻連鎖モデルを用いた分析を行う認識手段と、上記音韻
連鎖モデルを用いた分析結果に重みをかける値を記憶す
る音韻連鎖モデル重み記憶手段と、上記言語モデルを用
いた分析と上記音韻連鎖モデルを用いた分析の結果を利
用して上記音韻連鎖モデル重み記憶手段によって記憶さ
れた値を変更する音韻連鎖モデル重み変更手段と、を備
えたことを特徴とする。
【0033】また、本発明は、上記言語モデルの重みを
記憶する言語モデル重み記憶手段と、上記言語モデルを
用いた分析と上記音韻連鎖モデルを用いた分析の結果か
ら上記言語モデル重み記憶手段によって記憶された重み
を変更する言語モデル重み変更手段と、を備えたことを
特徴とする。
【0034】また、本発明は、単語の情報を記憶した認
識辞書と、上記認識辞書に記憶された各単語をあらかじ
め学習した言語モデルと、認識対象言語においてありう
る音韻連鎖の規則を記憶した音韻連鎖モデルとを用いる
音声認識プログラムであって、コンピュータを、上記言
語モデルを用いた分析と上記音韻連鎖モデルを用いた分
析を行う認識手段と、上記音韻連鎖モデルを用いた分析
結果に重みをかける値を記憶する音韻連鎖モデル重み記
憶手段と、上記言語モデルを用いた分析と上記音韻連鎖
モデルを用いた分析の結果を利用して上記音韻連鎖モデ
ル重み記憶手段によって記憶された値を変更する音韻連
鎖モデル重み変更手段として機能させるための音声認識
プログラムを提供する。
【0035】また、本発明は、上記音声認識プログラム
において、コンピュータを、上記言語モデルの重みを記
憶する言語モデル重み記憶手段と、上記言語モデルを用
いた分析と上記音韻連鎖モデルを用いた分析の結果から
上記言語モデル重み記憶手段によって記憶された重みを
変更する言語モデル重み変更手段として機能させるため
の音声認識プログラムを提供する。
【0036】
【発明の実施の形態】以下、本発明を実施例に基づき詳
細に説明する。
【0037】図1は本発明による音声認識装置の一例を
表すブロック図である。この音声認識装置100は、入
力部101、音響分析部102、認識部103、音響モ
デル107、認識辞書104、言語モデル105、音韻
連鎖モデル106、音韻連鎖モデル重み変更部110、
音韻連鎖モデル重み記憶部111、言語モデル重み変更
部108、言語モデル重み記憶部109、未知語区間検
出部112、出力部113で構成される。
【0038】入力部101は、入力された音声をディジ
タル信号化する。
【0039】音響分析部102は、入力されたディジタ
ル信号を特徴ベクトルの時系列に変換する。
【0040】音響モデル107は、音素片ごとに用意さ
れたHMMを用いて発声の音韻的特徴が記憶されてい
る。認識部103での2パス探索に対応するために、精
度が低いがより高速な認識を行うことのできるモデル
と、精度がより高いが低速で認識するモデルとの2つの
モデルをそれぞれ記憶している。
【0041】認識辞書104には、認識可能な語彙の情
報として、単語の表記を表す文字列と音素記号列を表す
文字列が記憶されている。
【0042】言語モデル105には、n−gramモデ
ルによる統計的な言語情報が記憶されている。
【0043】音韻連鎖モデル106には、日本語として
ありうる音韻連鎖の規則が、言語モデルと同様のデータ
構造で記憶されている。
【0044】音韻連鎖モデル重み記憶部111には、認
識部における認識で使用する音韻連鎖モデル重みを記憶
しており、初期値としては1が記憶されている。音韻連
鎖モデル重みの使い方については後述する。
【0045】言語モデル重み記憶部109には、認識部
における認識処理で使用する言語モデルの重みを記憶し
ており、初期値としては1が記憶されている。
【0046】認識部103では、音響分析部102の出
力、音響モデル107、言語モデル105、音韻連鎖モ
デル106のそれぞれの情報を用いて音声認識処理を行
う。ここでは、認識部103は2パスで認識処理を行う
とし、どちらのパスでもフレーム同期ビームサーチを行
うとするが、1パス目では単純な音響モデルで高速化を
図りつつ候補を絞り、2パス目で高精度な音響モデルを
用いて精度の高い認識を行う。図2は認識部における1
パス目でのi番目のフレームの処理を表したフローチャ
ートである。以下、図2にしたがってi番目のフレーム
での認識処理について説明する。
【0047】ステップ201において、対応するフレー
ムにおいて、音響モデル107と言語モデル105を用
いて従来の技術で述べた方法と同じように通常の認識処
理を行う。ここでも、フレームiに対応する累積尤度を
配列P1[i]として、尤度P1を仮説ごとに記憶す
る。
【0048】次に、ステップ202で、言語モデル10
5の代わりに音韻連鎖モデル106を用いてステップ2
01と同様の処理を行う。このときステップ201の各
仮説の最大尤度を枝刈りするスコアの閾値とする。同様
に、対応するフレームにおける音韻連鎖モデルを用いた
場合の最大の累積尤度を配列P2[i]として記憶して
おく。
【0049】ステップ203において、無音部分かどう
かの判定を行う。音響モデル107において、無音に対
応するHMMの状態が最も尤度が高いときに無音である
と判断する。無音だった場合はそのまま次へ進み、無音
でなかった場合はステップ204に進む。無音部分にお
いては、言語モデルを用いた認識において尤度の差は出
ないため、言語モデル重みの値や音韻連鎖モデル重みを
変更しても期待した効果は得られないためである。音韻
連鎖モデル重み変更部に変更の通知と、配列P2[i]
の値と配列P1[i]の値を出力する。
【0050】ステップ205において、言語モデル重み
変更部に値を変更する通知を送るかどうかの判定を行
う。ここで、音韻連鎖モデル重み記憶部に記憶されてい
る値をαとすると、α×P2[i]―P1[i]が正の
値であるときは、ステップ206において、配列P2
[i]の値と配列P1[i]の値を、変更の通知ととも
に言語モデル重み変更部および音韻連鎖モデル重み記憶
部に出力する。そうでなければ次のフレームに移る。
【0051】2パス目では高精度な音響モデルを用いる
以外はほぼ同様の処理を行うのであるが、2パス目では
言語モデル重み変更部、音韻連鎖モデル重み変更部への
変更通知を行わず、言語モデル重み変更部、音韻連鎖モ
デル重み変更部は前回の値を維持する。1パス目ですべ
ての入力フレームでの音韻連鎖モデルを用いた分析が終
わっているので、その発声すべての情報を用いることが
できるからである。
【0052】また、今回の発声によって変更された言語
モデル重みの値および音韻連鎖モデル重みは、必ずしも
発声前の値に戻さなくてよい。携帯電話など、発声時の
騒音などの環境が特定されない機器へ応用する場合は、
発声前の値に戻すことで次回の発生で環境が大きく変わ
っている場合にも、今回の値を記憶したことによる悪影
響を防ぐことができる。逆に、家庭用コンピュータな
ど、発声時の環境がほぼ一定である機器へ応用する場合
は、発声前の状態に戻さず今回の発声によって変更され
た値を記憶しつづけることで、次回の発声においても適
切な値で認識処理を行うことが可能となる。
【0053】すべてのフレームにおいて上記の処理を終
え、2パス目の処理も終えたら、未知語区間検出部11
2に、尤度が最大の仮説と仮説の各単語の累積尤度の差
Sを出力する。
【0054】音韻連鎖モデル重み変更部110では、認
識部103からの通知を受け取り、音韻連鎖モデル重み
記憶部に記憶されている値を変更する。ここで、音韻連
鎖モデルを用いた分析においては、認識辞書や言語モデ
ルによる言語的な制約を受けないため、得られる尤度が
大きくなる。音韻連鎖モデルを用いた分析と言語モデル
を用いた分析の尤度を比較する際に、発声が未知語でな
い部分でも、音韻連鎖モデルを用いた分析で得られた尤
度が大きくなってしまうことが多いため、重みを示す係
数(ペナルティ)は必ず1より小さい値に設定される。
【0055】変更は、音韻連鎖モデル重み記憶部に記憶
されている値をαとすると、α=(P2[i]―P1
[i])/iとする。これは、環境の違いによる配列P
2[i]と配列P1[i]の尤度の差は、音響モデル1
07と発声された音声の特徴の違いもあって大きくなる
ことが多いからである。
【0056】言語モデル重み変更部108は、認識部1
03からの通知にしたがって言語モデル重み記憶部に記
憶されている値を変更する。変更は、言語モデル重み記
憶部に記憶されている値をβとすると、β=β×((P
2[i]―P1[i])/P2[i])とする。これ
は、配列P2[i]と配列P1[i]の値の差が大きい
ほどそのあとの言語モデルの数値が信用できなくなるた
めである。
【0057】未知語区間検出部112では、認識部10
3の出力を入力とし、入力された各単語における累積尤
度の差Sが0より大きい単語を未知語として、その単語
の表記を「未知語」と変換した文字列を出力部113に
出力する。
【0058】出力部113は、ディスプレイなどの文字
列を出力できる装置が使用され、認識部103から出力
された文字列を出力する。 (実施例1)以下、「自由が丘に行く」という文章が発
声された場合の具体的な処理動作を示す。このとき、
「自由が丘」という単語は認識辞書104に含まれてい
ないものとする。
【0059】まず、入力された音声は入力部101によ
ってディジタル信号化される。ディジタル信号化された
音声は短時間スペクトル分析の手法でフレーム単位に分
割され、各フレームでの音声は音響分析部102によっ
て特徴ベクトルの時系列に変換され、認識部103に出
力される。
【0060】認識部103では、各フレームにおいて図
2のフローチャートに従って処理が行われる。
【0061】まずステップ201で、 言語モデル10
5と音響モデル107を用いて尤度P1の計算を行う。
【0062】つぎにステップ202で、音韻連鎖モデル
106と音響モデル107を用いて尤度P2の計算を行
う。ここでは、「自由が丘」という単語は認識辞書10
4に含まれていないため、尤度P1が最大となるのは認
識辞書104に含まれる別の単語、例えば「自営業」な
どとなる。「自由が丘」と「自営業」では音素の並びが
異なるために、「自営業」の尤度P1の値は認識辞書1
04に含まれる単語の中では高いものの、認識語彙によ
る音素の並びの制約をうけない音韻連鎖モデル106を
用いて計算した尤度P2よりは低くなると考えられる。
【0063】次に、ステップ203において無音部分か
どうかの判定を行い、無音だった場合には、そのまま次
のフレームの処理へ進み、無音でなかった場合はステッ
プ204へ進む。
【0064】ステップ204においては、音韻連鎖モデ
ル重み変更部に重みの変更通知と、尤度P1および尤度
P2の値を出力する。適切な音韻連鎖モデル重みは、騒
音や残響などの周囲の環境によって大きく変わるため、
それまでの分析で得られた値をもとに適切な音韻連鎖モ
デル重みを設定するためである。
【0065】次に、ステップ205で、言語モデルの重
みを変更するかどうかの判定を行う。α×P2[i]―
P1[i]が正の値であればステップ205で言語モデ
ルの重みを変更し、そうでなければなにもせずに次のフ
レームの処理に移る。2パス目でも高精度な音響モデル
を用いる以外はほぼ同様の処理を行うのであるが、2パ
ス目では言語モデル重み変更部、音韻連鎖モデル重み変
更部への変更通知を行わず、言語モデル重み変更部、音
韻連鎖モデル重み変更部は前回の値を維持する。また、
すべてのフレームでの処理が終了したら、言語モデル重
みの値と音韻連鎖モデル重みを発声前の値に戻す。
【0066】言語モデル105にはn−gramモデル
による統計的な言語情報が記憶されているため、「自営
業に行く」という日本語としてありえない単語の並び
は、音響モデル107を用いて得られる尤度は高いもの
の、言語モデル105を用いて得られる尤度が低くなっ
てしまい、例えば「自営業である」、「自営業を営む」
などといった単語の並びの尤度のほうが高くなり、発声
における「に行く」の部分で認識誤りが生じてしまう。
しかしながら、ステップ205において言語モデルの重
みを変更することで言語的な制約を緩くして、「自営
業」のあとに、音響尤度の高い「に行く」といった単語
の並びが続くことを可能にすることができる。すべての
フレームにおいて上記の処理を終え、2パス目の処理も
終えたら、未知語区間検出部112に、尤度が最大の仮
説(この例では「自営業に行く」)と仮説の各単語の累
積尤度の差Sをそれぞれ出力する。言語モデルの重みを
変更しなかった場合は、尤度が最大の仮説は「自営業で
ある」などといった、日本語として正しい単語列になる
ことが多い。
【0067】未知語区間検出部112では、認識部10
3の出力である、「自営業に行く」という仮説と、「自
営業」、「に」、「行く」の各単語についての尤度の差
Sのそれぞれを入力とする。ここでは、各単語での累積
尤度の差Sが0より大きい単語を未知語と判定する。
「自由が丘」と「自営業」の音素の並びの違いから、
「自営業」では尤度P1と尤度P2の差が大きいので、
「自営業」が未知語と判定できる。音韻連鎖モデル重み
を変更しなかった場合は、発声環境により適切な音韻連
鎖モデル重みの設定が困難なため、「自営業」を未知語
と判定できなかったり、「に」や「行く」を未知語と判
定してしまうことがある。未知語区間検出部112で
は、「自営業」の部分を「未知語」と変換して出力部1
13に出力し、出力部113はその結果をディスプレイ
などの表示装置に出力する。 (実施例2)以下さらに、本発明の音声認識方法を用い
た音声認識装置を単語音声認識装置として使用した場合
の例として、「自由が丘」という単語が発声された場合
の動作を示す。図5は本発明の音声認識方法を用いて、
単語認識を行う音声認識装置の例である。単語のみを対
象とした認識処理の場合は、n−gramによる統計的
な言語情報は用いない点が異なっている。また、単語認
識では先ほどの文章の認識でよく用いられている複数パ
スの認識は行わないことも多い。ここでは1パスで処理
を行うとする。さらに、「自由が丘」という単語は認識
辞書504に含まれないものとする。
【0068】まず、入力された音声は入力部501によ
ってディジタル信号化される。ディジタル信号化された
音声は短時間スペクトル分析の手法でフレーム単位に分
割され、各フレームでの音声は音響分析部502によっ
て特徴ベクトルの時系列に変換され、認識部503に出
力される。
【0069】認識部503では、各フレームにおいて図
6のフローチャートに従って処理が行われる。
【0070】まずステップ601で、音響モデル507
を用いて尤度P1の計算を行う。つぎにステップ602
で、音韻連鎖モデル506と音響モデル507を用いて
尤度P2の計算を行う。ここでは、「自由が丘」という
単語は認識辞書504に含まれないため、尤度P1が最
大となるのは認識辞書504に含まれる別の単語、例え
ば「自営業」などとなる。「自由が丘」と「自営業」で
は音素の並びが異なるために、「自営業」の尤度P1の
値は認識辞書504に含まれる単語の中では高いもの
の,認識語彙による音素の並びの制約をうけない音韻連
鎖モデル506を用いて計算した尤度P2よりは低くな
ることが多い。
【0071】次に、ステップ603において無音部分か
どうかの判定を行い、無音だった場合、そのまま次のフ
レームの処理へ進み、無音でなかった場合はステップ6
04に進む。
【0072】次に、ステップ604において音韻連鎖モ
デル重み変更部に重みの変更通知と、尤度P1および尤
度P2の値を出力する。これは、適切な音韻連鎖モデル
重みは、騒音や残響などの周囲の環境によって大きく変
わるため、それまでの分析で得られた値をもとに適切な
音韻連鎖モデル重みを設定するためである。すべてのフ
レームでの処理が終了したら、音韻連鎖モデル重みを発
声前の値に戻す。
【0073】未知語区間検出部512では、認識部50
3の出力である「自営業」という候補と、「自営業」の
累積尤度の差Sのそれぞれを入力とする。ここでは、S
が0より大きい単語を未知語と判定する。「自由が丘」
と「自営業」の音素の並びの違いから、「自営業」では
尤度P1と尤度P2の差が大きいので、「自営業」が未
知語と判定できる。音韻連鎖モデル重みを変更しなかっ
た場合は、発声環境により適切な音韻連鎖モデル重みの
設定が困難なため「自営業」を未知語と判定できないこ
とがある。未知語区間検出部512では、「自営業」の
部分を「未知語」と変換して出力部513に出力し、出
力部513はその結果をディスプレイなどの表示装置に
出力する。
【0074】
【発明の効果】以上のように、本発明によれば、音声認
識を行う際に、精度よく未知語の検出を行うことができ
る。また、未知語以外の部分の認識にも頑健な未知語処
理を実現することができる。
【図面の簡単な説明】
【図1】 本発明による音声認識装置の一例を示すブロ
ック図である。
【図2】 本発明による認識部の動作を示すフローチャ
ートである。
【図3】 従来の音声認識装置の一例を示すブロック図
である。
【図4】 従来の音声認識装置における認識部の動作を
表すフローチャートである。
【図5】 本発明による音声認識方法を用いて単語認識
を行う音声認識装置の一例を示すブロック図である。
【図6】 本発明による認識部の単語認識の際の動作を
示すフローチャートである。
【符号の説明】
100、300,500 音声認識装置 101、301、501 入力部 102、302、502 音響分析部 103、303、503 認識部 104、304、504 認識辞書 105、305 言語モデル 106、306、506 音韻連鎖モデル 107、307、507 音響モデル 108 言語モデル重み変更部 109 言語モデル重み記憶部 110、510 音韻連鎖モデル重み変更部 111、308、511 音韻連鎖モデル重み記憶部 112、309、512 未知語区間検出部 113、310、513 出力部

Claims (16)

    【特許請求の範囲】
  1. 【請求項1】 単語を記憶した認識辞書と、上記認識辞
    書に記憶された単語をあらかじめ学習した言語モデル
    と、認識対象言語においてありうる音韻連鎖の規則を記
    憶した音韻連鎖モデルとを有する音声認識装置におい
    て、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析を行う認識部と、 上記音韻連鎖モデルを用いた分析結果に重みをかける値
    を記憶する音韻連鎖モデル重み記憶部と、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析の結果を利用して上記音韻連鎖モデル重み記憶
    部に記憶された値を変更する音韻連鎖モデル重み変更部
    と、を備えたことを特徴とする音声認識装置。
  2. 【請求項2】 上記言語モデルの重みを記憶する言語モ
    デル重み記憶部と、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析との結果から上記言語モデル重み記憶部に記憶
    された重みを変更する言語モデル重み変更部と、を備え
    たことを特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 上記言語モデル重み変更部は、上記言語
    モデルの重みを上記認識部における上記言語モデルを用
    いた分析と上記音韻連鎖モデルを用いた分析で得られる
    尤度の差の値あるいは上記言語モデル重み記憶部に記憶
    されている値の関数によって得られる値に変更すること
    を特徴とする請求項1または請求項2に記載の音声認識
    装置。
  4. 【請求項4】 上記音韻連鎖モデル重み記憶部は、上記
    音韻連鎖モデル重みを上記認識部における上記言語モデ
    ルを用いた分析と上記音韻連鎖モデルを用いた分析で得
    られる尤度の差の値あるいは上記音韻連鎖モデル重み記
    憶部に記憶された値の関数によって得られる値に変更す
    ることを特徴とする請求項1または請求項2に記載の音
    声認識装置。
  5. 【請求項5】 上記認識部は、尤度計算時の探索におい
    て複数パスの探索を行い、二つ目以降のパスでは、上記
    言語モデル重み変更部は上記言語モデルの重み記憶部に
    記憶されている値を維持することを特徴とする請求項1
    または請求項2に記載の音声認識装置。
  6. 【請求項6】 上記認識部は、尤度計算時の探索におい
    て複数パスの探索を行い、二つ目以降のパスでは、上記
    音韻連鎖モデル重み変更部は上記音韻連鎖モデル重み記
    憶部に記憶されている値を維持することを特徴とする請
    求項1または請求項2に記載の音声認識装置。
  7. 【請求項7】 上記言語モデル重み記憶部は、発声前の
    値を別に記憶し、上記言語モデル重み変更部は、発声が
    終了したと判断されたときに、上記言語モデル重み記憶
    部に記憶された値を発声前の値に変更することを特徴と
    する請求項1または請求項2に記載の音声認識装置。
  8. 【請求項8】 上記音韻連鎖モデル重み記憶部は、発声
    前の値を別に記憶し、上記音韻連鎖モデル重み変更部
    は、発声が終了したと判断されたときに、上記音韻連鎖
    モデル重み記憶部に記憶された値を発声前の値に変更す
    ることを特徴とする請求項1または請求項2に記載の音
    声認識装置。
  9. 【請求項9】 上記言語モデル重み変更部は、無音部分
    と判断される処理単位においては、上記言語モデル重み
    記憶部に記憶された値を維持することを特徴とする請求
    項1または請求項2に記載の音声認識装置。
  10. 【請求項10】 上記音韻連鎖モデル重み変更部は、無
    音部分と判断される処理単位においては、上記音韻連鎖
    モデル重み記憶部に記憶された値を維持することを特徴
    とする請求項1または請求項2に記載の音声認識装置。
  11. 【請求項11】 単語を記憶した認識辞書と、上記認識
    辞書に記憶された各単語をあらかじめ学習した言語モデ
    ルと、認識対象言語においてありうる音韻連鎖の規則を
    記憶した音韻連鎖モデルとを用いる音声認識方法におい
    て、 時間で分割された処理単位ごとに、上記言語モデルを用
    いた分析と上記音韻連鎖モデルを用いた分析を行い、そ
    れぞれの分析における最大尤度の値を出力する認識手段
    と、 上記音韻連鎖モデルを用いた分析に重みをかける値を記
    憶する音韻連鎖モデル重み記憶手段と、 上記処理単位ごとに、上記言語モデルを用いた分析と上
    記音韻連鎖モデルを用いた分析のそれぞれの最大尤度の
    値を用いて上記音韻連鎖モデル重み記憶手段で記憶した
    値を変更する音韻連鎖モデル重み変更手段と、を備えた
    ことを特徴とする音声認識方法。
  12. 【請求項12】 上記言語モデルの重みを記憶する言語
    モデル重み記憶手段と、 上記処理単位ごとに、上記言語モデルを用いた分析と上
    記音韻連鎖モデルを用いた分析のそれぞれの最大尤度の
    値を用いて上記言語モデル重み記憶手段で記憶した重み
    を変更する言語モデル重み変更手段と、を備えたことを
    特徴とする請求項11に記載の音声認識方法。
  13. 【請求項13】 単語を記憶した認識辞書と、上記認識
    辞書に記憶された各単語をあらかじめ学習した言語モデ
    ルと、認識対象言語においてありうる音韻連鎖の規則を
    記憶した音韻連鎖モデルとを有する音声認識方法におい
    て、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析を行う認識手段と、 上記音韻連鎖モデルを用いた分析結果に重みをかける値
    を記憶する音韻連鎖モデル重み記憶手段と、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析の結果を利用して上記音韻連鎖モデル重み記憶
    手段によって記憶された値を変更する音韻連鎖モデル重
    み変更手段と、を備えたことを特徴とする音声認識方
    法。
  14. 【請求項14】 上記言語モデルの重みを記憶する言語
    モデル重み記憶手段と、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析の結果から上記言語モデル重み記憶手段によっ
    て記憶された重みを変更する言語モデル重み変更手段
    と、を備えたことを特徴とする請求項13に記載の音声
    認識方法。
  15. 【請求項15】 単語の情報を記憶した認識辞書と、上
    記認識辞書に記憶された各単語をあらかじめ学習した言
    語モデルと、認識対象言語においてありうる音韻連鎖の
    規則を記憶した音韻連鎖モデルとを用いる音声認識プロ
    グラムであって、 コンピュータを、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析を行う認識手段と、 上記音韻連鎖モデルを用いた分析結果に重みをかける値
    を記憶する音韻連鎖モデル重み記憶手段と、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析の結果を利用して上記音韻連鎖モデル重み記憶
    手段によって記憶された値を変更する音韻連鎖モデル重
    み変更手段として機能させるための音声認識プログラ
    ム。
  16. 【請求項16】 コンピュータを、 上記言語モデルの重みを記憶する言語モデル重み記憶手
    段と、 上記言語モデルを用いた分析と上記音韻連鎖モデルを用
    いた分析の結果から上記言語モデル重み記憶手段によっ
    て記憶された重みを変更する言語モデル重み変更手段と
    して機能させるための、請求項15に記載の音声認識プ
    ログラム。
JP2002069388A 2002-03-14 2002-03-14 音声認識装置、音声認識方法及び音声認識プログラム Expired - Fee Related JP3917880B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002069388A JP3917880B2 (ja) 2002-03-14 2002-03-14 音声認識装置、音声認識方法及び音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002069388A JP3917880B2 (ja) 2002-03-14 2002-03-14 音声認識装置、音声認識方法及び音声認識プログラム

Publications (2)

Publication Number Publication Date
JP2003271187A true JP2003271187A (ja) 2003-09-25
JP3917880B2 JP3917880B2 (ja) 2007-05-23

Family

ID=29200232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002069388A Expired - Fee Related JP3917880B2 (ja) 2002-03-14 2002-03-14 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (1)

Country Link
JP (1) JP3917880B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010175807A (ja) * 2009-01-29 2010-08-12 Kddi Corp 音声認識方法および装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010175807A (ja) * 2009-01-29 2010-08-12 Kddi Corp 音声認識方法および装置

Also Published As

Publication number Publication date
JP3917880B2 (ja) 2007-05-23

Similar Documents

Publication Publication Date Title
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
US10607602B2 (en) Speech recognition device and computer program
EP1557822A1 (en) Automatic speech recognition adaptation using user corrections
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
Hadian et al. Flat-start single-stage discriminatively trained HMM-based models for ASR
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
KR20080018622A (ko) 휴대용 단말기의 음성 인식 시스템
JP2006215564A (ja) 自動音声認識システムにおける単語精度予測方法、及び装置
US7653541B2 (en) Speech processing device and method, and program for recognition of out-of-vocabulary words in continuous speech
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
JP2004226982A (ja) 隠れ軌跡隠れマルコフモデルを使用した音声認識の方法
Jeon et al. Voice trigger detection from lvcsr hypothesis lattices using bidirectional lattice recurrent neural networks
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP2001195087A (ja) 音声認識システム
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP4741452B2 (ja) 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
Militaru et al. ProtoLOGOS, system for Romanian language automatic speech recognition and understanding (ASRU)
JP5161174B2 (ja) 経路探索装置、音声認識装置、これらの方法及びプログラム
Siniscalchi et al. An attribute detection based approach to automatic speech processing
Kurian et al. Automated Transcription System for MalayalamLanguage
Rani et al. Error analysis to improve the speech recognition accuracy on Telugu language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100216

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110216

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees