JP2001195083A

JP2001195083A - 音声認識装置および方法

Info

Publication number: JP2001195083A
Application number: JP2000001032A
Authority: JP
Inventors: Makoto Shosakai; 誠庄境
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2000-01-06
Filing date: 2000-01-06
Publication date: 2001-07-19
Anticipated expiration: 2020-01-06
Also published as: JP3936827B2

Abstract

(57)【要約】【課題】特定話者の音声認識性能を向上させる。【解決手段】語彙ラベルネットワーク蓄積手段ｆに記
憶しておく登録のラベル系列のラベルに自己ループ回数
を付加する。音声認識時にラベルの自己ループ回数を計
数し、その計数結果と、記憶されている自己ループ回数
とを比較する。その比較結果に基づいて、ラベルの遷移
確率を可変設定して、音声認識時の遷移状態を音声登録
時に近付けて、尤度を計算することにより、特定話者の
登録語以外の音を高い精度で棄却することにより登録語
の音声認識性能を向上させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本願発明は、語彙に含まれる
単語以外の音を高い精度で棄却することが可能な音声認
識装置および音声認識方法に関するものである。

【０００２】

【従来の技術】特定の話者に固有の登録語を認識する技
術を一般に特定話者音声認識と呼ぶ。特定話者音声認識
においては、特定の話者が予め音声認識させたい単語を
登録するという作業が発生する。この作業は具体的に
は、特定の話者が予め発声した単語の音声サンプルをあ
る特徴パラメータの系列（テンプレートと呼ぶ）に変換
し、その系列を単語のラベルとともにメモリーやハード
ディスクなどの記憶装置に蓄積する。音声サンプルをあ
る特徴パラメータの系列に変換する方法としては、ケプ
ストラム分析や線形予測分析などが知られており、「音
声・音情報のディジタル信号処理」（鹿野清宏、中村
哲、伊勢史郎共著、（株）昭晃堂）にも詳述されてい
る。特定話者音声認識においては、記憶装置に蓄積され
た特徴パラメータの系列と入力された音声から変換され
た特徴パラメータの系列とを比較し、入力された音声か
ら変換された特徴パラメータの系列に最も類似した特徴
パラメータの系列を持つ単語のラベルを認識結果として
出力する。記憶装置に蓄積された特徴パラメータの系列
と入力された音声から変換された特徴パラメータの系列
とを比較する方法としては、動的計画法(Dynamic Progr
amming)による時間軸伸縮マッチング(Dynamic Time War
ping, DTW)が広く用いられており、上記「音声・音情報
のディジタル信号処理」にも詳しく述べられている。特
定話者音声認識装置においては、入力音から求められた
特徴パラメータの系列と登録語のテンプレート（特徴パ
ラメータの系列）との類似度を上記のＤＴＷなどの方法
で求め、その類似度があるしきい値より大きい場合に、
登録語以外の音が入力されたとして棄却するという方法
が一般に採用されている。一方、不特定の話者に共通の
固定語を認識する技術を一般に不特定話者音声認識と呼
ぶ。不特定話者音声認識においては、不特定の話者に共
通の固定語の特徴パラメータに関する情報が予め記憶装
置に蓄積されているため、特定話者音声認識のようにユ
ーザーが音声認識させたい単語を登録するという作業は
発生しない。音声サンプルをある特徴パラメータの系列
に変換する方法としては、特定話者音声認識と同様にケ
プストラム分析や線形予測分析などが知られている。ま
た、不特定の話者に共通の固定語の特徴パラメータに関
する情報の作成およびその情報と入力された音声から変
換された特徴パラメータの系列との比較には、隠れマル
コフモデル(Hidden Markov Model, HMM)による方法が一
般に用いられている。ＨＭＭによる不特定話者音声認識
についても、上記「音声・音情報のディジタル信号処
理」に詳しく述べられている。例えば、日本語の場合、
音声単位を上記「音声・音情報のディジタル信号処理」
の第２章に記載されている音韻のセットとし、各音韻が
ＨＭＭによりモデル化されているとする。図３に音韻の
セットのラベルの一覧を示す。この時、例えば「コンピ
ュータ」という単語は図４のような話者に共通の音韻ラ
ベルのネットワーク（固定語ラベル系列と呼ぶ）でモデ
ル化することができる。

【０００３】ＨＭＭによる音韻モデルのデータと固定語
ラベル系列を用意すれば、上記「音声・音情報のディジ
タル信号処理」の第４章に記載されているビタビアルゴ
リズムにより、当業者は不特定話者音声認識装置を容易
に構成することができる。不特定話者音声認識装置にお
いては、入力音から求められた特徴パラメータの系列と
固定語の固定語ラベル系列との類似度（一般に、尤度と
呼ぶ。）を上記のビタビアルゴリズムなどにより求め、
その尤度があるしきい値より小さい場合に、固定語以外
の音が入力されたとして棄却するという方法が用いられ
る。

【０００４】また、固定語以外の入力音を受理可能なＨ
ＭＭによるモデル（一般に、「ガーベッジモデル」と呼
ばれる。）を予め用意しておき、このガーベッジモデル
の尤度が固定語の尤度よりも大きい場合に、固定語以外
の音が入力されたとして棄却するという方法が広く用い
られる。

【０００５】このガーベッジモデルの構成方法について
は、R. C. Rose, "Keywords Detection in Conversati
onal Speech Utterances Using Hidden Markov Model B
asedContinuous Speech Recognizer" Computer, Speech
and Language, Vol.9, No.9, pp.303-333, 1995.、
「H. Boulard, B. D'hoore and J.-M. Boite, "Optimiz
ing Recognition and Rejection Performance in Words
potting Systems," Proc. ICASSP, Adelaide, Australi
a, pp.I-373-376, 1994.などに詳述されている。

【０００６】最近提供されている音声認識装置は、予め
単語を登録する必要がないという使用上の利便性を追求
するという観点から、不特定話者音声認識装置であるこ
とが多い。しかしながら、不特定話者音声認識装置であ
っても、認識が困難な固定語については、話者の音声を
登録して登録語として扱うことにより認識精度を高めた
いという要求や、不特定話者固定語以外に特定話者の登
録語を新たに登録したいという要求がある。そのため
に、１つの登録語に対して、ユーザーに３回以上の発声
を要求し、それらの発声から得られた特徴パラメータ系
列を用いて、最尤推定法によりＨＭＭによる登録語の単
語モデルを学習する方法が一般的である。

【０００７】最尤推定法により、ＨＭＭの単語モデルを
学習する方法は、上記「音声・音情報のディジタル信号
処理」の第４章に詳述されている。最尤推定法による、
ＨＭＭの単語モデルの学習においては、モデルのパラメ
ータの推定精度の問題から、３回以上の発声をユーザー
に要求し、学習に十分な量の特徴パラメータ系列を取得
する必要がある。しかしながら、ユーザーにとっては必
ず３回以上の発声を要求されることは心理的に苦痛であ
る。

【０００８】そこで、１回の発声で登録語を登録できる
機能を実現するために、USP5,732,187、特願平１０−
２５５１９６が提案されている。これらの方法では、１
回の発声から得られる特徴パラメータ系列から、上記ビ
タビアルゴリズムにより、音韻または音韻のＨＭＭから
分解されて生成された音響イベントのラベル系列を求
め、それを登録語のテンプレート（登録語ラベル系列）
とすることにより、簡便な登録語の登録機能を実現して
いる。

【０００９】

【発明が解決しようとする課題】特定話者の登録語を登
録する機能を有する不特定話者音声認識装置において、
特定話者が登録した登録語以外の音を高い精度で棄却す
る機能が強く望まれている。

【００１０】例えば、特定話者の登録語を登録する機能
を有する不特定話者音声認識装置のユーザーが自分だけ
の特別な言葉（以後、パスワードと呼ぶ。）を音声で登
録し、自分のパスワード以外の音が入力された場合にそ
れらが全て棄却されれば、他人に自分の不特定話者音声
認識装置を悪用されることが避けられ、自分だけのパー
ソナルな音声認識装置とすることができる。

【００１１】また、音声認識装置に音声認識処理を行わ
せるトリガーとして用いられる物理的なスイッチを無く
したいという要求に以下のようにして答えることも可能
になる。例えば、自動車を運転している場合は、安全上
の理由から両手はハンドルを握っている必要がある。

【００１２】一方、カーオーディオ装置、カーナビゲー
ション装置、自動車電話などの装置を運転者が声で操作
する場合、短時間の間、運転者は少なくとも片手をハン
ドルから話して、上記スイッチを操作し、音声認識処理
を駆動しなければならない。このスイッチ操作を行う
時、短時間の間、視線が前方からスイッチに移動するこ
とも起こり得るため、決して安全とは言えない。

【００１３】もし、物理的なスイッチが一切不要の音声
認識装置があれば、両手はハンドルから離れることもな
く、視線も前方から逸れることがないので、安全を確保
することができる。そこで、上記と同様にしてパスワー
ドを登録し、パスワードのみを受理可能な認識（パスワ
ード認識）モードを設けることにより、外部雑音、自動
車内での会話音声、カーオーディオのスピーカー音など
の音は、パスワード以外の音として音声認識装置が棄却
できる。音声認識装置を駆動したい場合にのみパスワー
ドを発声し、その音声が受理されるという仕組みによ
り、スイッチを一切不要にすることが可能である。

【００１４】さらに、住宅内において、声で住宅内の機
器を操作する場合でも、パスワード認識モードを設け、
パスワード認識を物理的なスイッチの代わりに用いるこ
とにより、声で離れたところにある住宅内の機器を操作
することが容易になる。例えば、まずパスワードを発声
し、次に、「照明」と発声することにより、壁に埋め込
まれたスイッチに触れることなく、照明のＯＮ／ＯＦＦ
を制御することが可能になる。

【００１５】ベッドに寝たきりの障害者やお年寄りは、
まずパスワードを発声し、次に住宅内機器の制御コマン
ドを発声することにより、ベッドから移動しなくても、
テレビの電源のＯＮ／ＯＦＦ制御やチャンネルの切替が
できたり、エアコンのＯＮ／ＯＦＦ制御や暖房／冷房の
切替ができるようになる。スピーカーから流れるテレビ
放送の音、家の外から聞こえる雑音などのパスワード以
外の音が全てパスワード認識モードにおいて棄却されれ
ば、住宅内の機器が勝手に操作されることはない。

【００１６】これらの例は、特定話者の登録語をパスワ
ードとして使用し、パスワード認識モードを物理的なス
イッチの代わりに使用した場合のものである。他の例と
して、機器を制御するための音声コマンドを特定話者の
登録語として登録する場合が考えられる。たとえば、住
宅内の応用例においては、照明のことを「電気」、「電
灯」、「ライト」などの呼び方で呼ぶ人がいる。

【００１７】このように、１つの機器を人によって、地
方によって、習慣によって異なった呼び方をする。この
ようなケースに対応するためには、１つの機器に対する
あらゆる呼び方を全国から収集し、予め不特定話者音声
認識装置の中に組み込んでおく必要があるが、そのため
に要する手間は現実的な規模ではないであろう。

【００１８】また、人によっては、ある機器を他の人と
違った呼び方、例えばニックネームで呼びたいという希
望も考えられる。このようなケースに備えて、特定話者
の登録語を登録できる機能を準備することが有効である
が、これらの登録語以外の音を高い精度で棄却できれ
ば、機器が誤動作することを抑制することができる。そ
こで、本発明の目的は、予め登録されたある特定話者の
登録語の音声のみを高い精度で認識し、特定話者の登録
語以外の全ての音を高い精度で棄却する機能を有する音
声認識装置および方法を提供することにある。

【００１９】

【課題を解決するための手段】このような目的を達成す
るために，請求項１の発明は、予め、１つの登録語に関
して特定の音声認識対象者の音声から音響パラメータ系
列を抽出し、当該抽出された音声の音響パラメータ系列
を自己ループを許容した音響イベントモデルのラベル系
列に変換し、登録語についての音響イベントモデルのラ
ベル系列と、音声認識時に抽出された音響パラメータ系
列とをビタビアルゴリズムにより照合することにより音
声認識を行う音声認識装置において、音声登録時の音響
イベントモデルのラベル系列のラベルの第１の自己ルー
プ回数を記憶しておく記憶手段と、登録語の音響イベン
トモデルのラベル系列に従って、音響イベントモデルを
接続して構成される登録語のモデルにおいて、生起可能
な全ての遷移の第２の自己ループ回数を計数する計数手
段と、ビタビアルゴリズムによる照合において、音声登
録時の音響イベントモデルのラベル系列の遷移に近づけ
るように、該計数手段により計数された第２の自己ルー
プ回数および該第２の自己ループ回数と対応しており前
記記憶手段に記憶された第１の自己ループ回数とに基づ
いて、登録語のモデルの遷移確率を補正する遷移確率補
正手段とを具えたことを特徴とする。

【００２０】請求項２の発明は、請求項１に記載の音声
認識装置において、前記特定の音声認識対象者に関する
自己ループ回数に加えて、不特定の音声認識対象者の音
声から変換された音響イベントモデルのラベル系列のラ
ベルの自己ループ回数が前記第１の自己ループ回数とし
て前記記憶手段に記憶されていることを特徴とする。

【００２１】請求項３の発明は、予め、１つの登録語に
関して特定の音声認識対象者の音声から音響パラメータ
系列を抽出し、当該抽出された音声の音響パラメータ系
列を自己ループを許容した音響イベントモデルのラベル
系列に変換し、登録語についての音響イベントモデルの
ラベル系列と、音声認識時に抽出された音響パラメータ
系列とをビタビアルゴリズムにより照合することにより
音声認識を行う音声認識方法において、音声登録時の音
響イベントモデルのラベル系列のラベルの第１の自己ル
ープ回数を記憶しておき、登録語の音響イベントモデル
のラベル系列に従って、音響イベントモデルを接続して
構成される登録語のモデルにおいて、生起可能な全ての
遷移の第２の自己ループ回数を計数し、ビタビアルゴリ
ズムによる照合において、音声登録時の音響イベントモ
デルのラベル系列の遷移に近づけるように、該計数手段
により計数された第２の自己ループ回数および該第２の
自己ループ回数と対応しており前記記憶手段に記憶され
た第１の自己ループ回数とに基づいて、登録語のモデル
の遷移確率を補正することを特徴とする。

【００２２】請求項４の発明は、請求項３に記載の音声
認識方法において、前記特定の音声認識対象者に関する
自己ループ回数に加えて、不特定の音声認識対象者の音
声から変換された音響イベントモデルのラベル系列のラ
ベルの自己ループ回数が前記第１の自己ループ回数とし
て記憶されていることを特徴とする。

【００２３】

【実施形態】本発明は、特定話者の登録語を登録する機
能を有する不特定話者音声認識装置において、予め登録
されたある特定話者の登録語の音声のみを高い精度で認
識し、特定話者の登録語以外の全ての音を高い精度で棄
却する機能を有する音声認識装置を提供するものであ
る。

【００２４】そのために、特定話者の登録語を登録する
機能において、登録語の音声から得られた音響パラメー
タ系列をビタビアルゴリズムを用いて、音韻のＨＭＭか
ら分解されて生成された、音響イベントのラベル系列に
変換し、それを登録語のテンプレート（登録語ラベル系
列）とする。この際に、各音響イベント毎に自己ループ
を連続して遷移した回数（以後、自己ループ回数と呼
ぶ。）を記録しておく。音響イベント毎の自己ループ回
数は、当業者であれば、ビタビアルゴリズムを用いて容
易に算出することが可能である。

【００２５】登録語以外の音が入力された場合に、その
音が登録語の中の１つであると誤認識される場合がしば
しば起こる。これは、誤認識された単語が登録されたと
きの自己ループ回数を伴う状態遷移に関係なく、尤度が
最大になるような状態遷移を行った時の尤度を求める性
質をビタビアルゴリズムが原理的に有していることに起
因する。従って、登録語以外の音が入力された場合で
も、ビタビアルゴリズムにより得られる登録語の尤度
が、ガーベッジモデルの尤度を上回る場合に、棄却する
ことができずに誤認識するということが起こる。

【００２６】登録単語が登録された場合の自己ループ回
数を伴う状態遷移に近い状態遷移が起こるようにビタビ
アルゴリズムを制御することにより、ビタビアルゴリズ
ムにより得られる登録語の尤度が、ガーベッジモデルの
尤度を上回る頻度を抑制することができ、登録語以外の
音が入力された場合にその音を棄却しやすくなると考え
られる。

【００２７】そこで、特定話者の登録語の認識時におい
ては、登録語ラベル系列から構成されるネットワークを
用いて、ビタビアルゴリズムにより、登録語の尤度計算
を行う際に、上記ネットワーク内に存在する音響イベン
トの各状態において、自己ループ回数を記録しておく
（図５参照）。認識時の自己ループ回数が、登録時の自
己ループ回数よりもかなり小さい場合は、別の音響イベ
ントの状態へ遷移する確率を小さな値に動的に置き換え
て、自己ループしやすいように制御する。

【００２８】逆に、認識時の自己ループ回数が、登録時
の自己ループ回数よりもかなり大きい場合は、自己ルー
プの遷移確率を小さな値に動的に置き換えて、自己ルー
プしにくいように制御する。このように、音響イベント
の状態間の遷移確率を動的に操作して、認識時の自己ル
ープ回数が登録時に記録された自己ループ回数に接近す
るように制御する。こうすることにより、登録時に記録
された自己ループ回数に類似した自己ループ回数を伴う
状態遷移を行った時の登録語の尤度を求めることができ
る。

【００２９】登録語の中で最も高い尤度を持つ登録語の
尤度と、上述のガーベッジモデルの尤度を比較する。前
者が大きければ、登録語が発声されたと判断することが
でき、後者が大きければ、登録語以外の音が入力された
と判断することができる。

【００３０】このような音声認識方法を実現するための
音声認識装置を以下、図面を参照して説明する。

【００３１】図１は本発明第１の実施形態の機能構成を
示す。図１において、アナログ音声信号１１はＡＤコン
バータによる入力手段ａによりデジタル信号２２に変換
される。デジタル信号２２は変換手段ｂにより一定のフ
レーム周期で音響パラメータ３３に変換される。音響パ
ラメータとしては、上記「音声・音情報のディジタル信
号処理」にも記述されているケプストラムなどを用いれ
ばよい。

【００３２】特定の話者に固有の登録語を登録する場合
には、音響パラメータ３３が登録語ラベル系列抽出手段
ｄに送られ、認識用データ蓄積手段ｃに蓄積された認識
用データ４４を参照しながら、図５の登録語ラベル系列
５５に変換される。このとき、ラベルの自己ループ回数
が計数され、計数結果が、ラベルとともに語彙ラベルネ
ットワーク蓄積手段ｆに蓄積される。なお、認識用デー
タ蓄積手段ｃに蓄積された認識用データ４４としては、
隠れマルコフモデルでモデル化された音声単位のモデル
のデータおよび音響パラメータ３３を登録語ラベル系列
５５に変換するための音声単位のモデルのネットワーク
データの２つが蓄積されている。

【００３３】音声単位としては、音節、半音節、音韻な
どが考えられるが、以下では、音韻よりも小さな音声単
位として、音韻ＨＭＭから分解されて生成された音響イ
ベントを用いた場合について説明を加える。言語や音韻
の種類を問わず、一般に音韻は図６に示される４つの状
態からなるＨＭＭでモデル化されることが多い。

【００３４】状態１は初期状態であり、状態遷移は必ず
状態１から開始される。状態４は最終状態であり、この
状態に遷移するとそれ以上状態遷移は発生しない。ａ
（ｉ、ｊ）は状態ｉから状態ｊへの遷移する確率を表
し、遷移確率と呼ばれる。ｊ＝ｉ＋１とすると、ａ
（ｉ、ｉ）＋ａ（ｉ、ｊ）＝１．０である。ｂ（ｉ、
ｘ）は状態ｉへ状態遷移する際に、観測ベクトルｘが出
力される確率を表し、出力確率と呼ばれる。観測ベクト
ルは、図１の音響パラメータ３３に対応し、ケプストラ
ムがよく用いられる。出力確率ｂ（ｉ、ｘ）は１個以上
の正規分布の重ね合わせで表現される。また、出力確率
は状態ｉから状態遷移する際に、観測ベクトルｘが出力
される確率ｂ（ｉ、ｘ）として定式化される場合や、状
態ｉから状態ｊへ状態遷移する際に、観測ベクトルｘが
出力される確率ｂ（ｉ、ｊ、ｘ）として定式化される場
合もある。出力確率ｂ（ｉ、ｘ）が１個以上の正規分布
の重ね合わせで定式化される場合、ＨＭＭを連続ＨＭＭ
と呼ぶ。その他に、半連続ＨＭＭや離散ＨＭＭで音韻を
モデル化する場合があるが、本実施形態はいずれのモデ
ル化にも同様に適用が可能である。

【００３５】図６に示される４状態の音韻ＨＭＭを図
７、図８、図９の３つの２状態からなるＨＭＭに分割す
る。これらは音韻を構成する音響イベントに対応すると
考えることが可能であるため、音響イベントＨＭＭと呼
ぶこととし、状態番号に合わせて、＊．１、＊．２、
＊．３と表すこととする。ここで、＊は図３の音韻ラベ
ルを表す。

【００３６】これらの音響イベントＨＭＭが任意の順番
で任意の長さで接続しうるネットワークを図１０に示
す。このネットワークを音響イベントネットワークと呼
ぶことにする。この音響イベントネットワークを用いて
ビタビアルゴリズムにより、特定話者の登録語の音声を
音響イベント系列に変換する。例えば、「コンピュー
タ」という音声からは、図５のような登録語ラベル系列
が得られる。このようにして得られた音響イベント系列
を図１の登録語ラベル系列５５として用いることによ
り、登録語に対してより高い近似性の高いテンプレート
が得られる。尚、図１０の形状の音響イベントネットワ
ーク以外にも、図１１に示すような音響イベントの位置
に関する制約を設けたネットワークを使用することも可
能であるが、特願平１０−２５５１９６号にも詳述され
ているので、さらなる説明を省略する。

【００３７】ここで、従来のビタビアルゴリズムを図１
２を用いて説明しておく。この図において、時刻ｔにお
いて、登録語ｍの音響イベントｎが有する尤度をｐ
（ｔ、ｍ、ｎ）で表す。また、登録語ｍの音響イベント
ｎから音響イベントｎへ遷移する遷移確率をａ（ｍ、
ｎ、ｎ）で表す。この遷移は、自己ループに対応する。

【００３８】登録語ｍの音響イベントｎ−１から音響イ
ベントｎへ遷移する遷移確率をａ（ｍ、ｎ−１、ｎ）で
表す。この遷移は、自己ループではなく、次の音響イベ
ントへの遷移に対応する。また、ｂ（ｍ、ｎ、ｘ
（ｔ））は、時刻ｔにおいて登録語ｍの音響イベントｎ
へ状態遷移する際に、観測ベクトルｘ（ｔ）が出力され
る出力確率を表す。この時、時刻ｔでの登録語ｍの音響
イベントｎで行われる従来のビタビアルゴリズムは一般
に次式で表現される。ｐ（ｔ−１、ｍ、ｎ−１）＊ａ（ｍ、ｎ−１、ｎ）＞＝
ｐ（ｔ−１、ｍ、ｎ）＊ａ（ｍ、ｎ、ｎ）ならば、ｐ（ｔ、ｍ、ｎ）＝ｐ（ｔ−１、ｍ、ｎ−１）＊ａ
（ｍ、ｎ−１、ｎ）＊ｂ（ｍ、ｎ、ｘ（ｔ））。ｐ（ｔ−１、ｍ、ｎ−１）＊ａ（ｍ、ｎ−１、ｎ）＜ｐ
（ｔ−１、ｍ、ｎ）＊ａ（ｍ、ｎ、ｎ）ならば、ｐ（ｔ、ｍ、ｎ）＝ｐ（ｔ−１、ｍ、ｎ）＊ａ（ｍ、
ｎ、ｎ）＊ｂ（ｍ、ｎ、ｘ（ｔ））。

【００３９】すなわち、時刻ｔ−１における登録語ｍの
音響イベントｎ−１の尤度に音響イベントｎ−１から音
響イベントｎへの遷移確率をかけた値が、時刻ｔ−１に
おける登録語ｍの音響イベントｎの尤度に音響イベント
ｎから音響イベントｎへ自己ループする遷移確率をかけ
た値よりも大きければ、時刻ｔにおいて音響イベントｎ
−１から音響イベントｎへ遷移するパスが選択される。
逆の場合は、時刻ｔにおいて音響イベントｎから音響イ
ベントｎへ自己ループするパスが選択される。

【００４０】従来のビタビアルゴリズムにおいては、自
己ループするか、他の状態へ遷移するかは上式に従って
判断される。どの音響イベントで何回自己ループするか
は全く管理されず、最終的に尤度が最大になるような音
響イベント間の遷移を行った時の尤度が算出される。も
し、入力音声の音響パラメータ系列の一部が、ある登録
語の音響イベント系列の一部に非常に似通っていれば、
その登録語を認識結果として判断することになる。従っ
て、例え、登録語以外の音が入力されたとしても、ビタ
ビアルゴリズムにより得られる登録語の尤度が、ガーベ
ッジモデルの尤度を上回る場合には、その入力を棄却す
ることができずに誤認識するということが起こる。

【００４１】登録単語が登録された場合の自己ループ回
数を伴う状態遷移に近い状態遷移が起こるようにビタビ
アルゴリズムを制御することにより、ビタビアルゴリズ
ムにより得られる登録語の尤度が、ガーベッジモデルの
尤度を上回る頻度を抑制することができ、登録語以外の
音が入力された場合にその音を棄却しやすくなると考え
られる。

【００４２】音響イベントネットワークを用いて、ビタ
ビアルゴリズムにより、特定話者の登録語の音声を登録
語ラベル系列５５に変換する際に、登録語ラベル系列を
構成する音響イベントＨＭＭ毎の自己ループ回数を求め
ることができる。今、登録語ｍの音響イベントｎの自己
ループ回数をＬ（ｍ、ｎ）で表すことにする。登録時に
おいては、全ての登録語について、その登録語ラベル系
列の全ての音響イベントの自己ループ回数Ｌ（ｍ、ｎ）
を語彙ラベルネットワーク蓄積手段ｆとしてのメモリな
どの記憶手段に記録しておく。

【００４３】実際の認識時においては、変換手段ｂで出
力された音響パラメータ３３、認識用データ蓄積手段ｃ
に蓄積された音響イベントモデルのデータからなる認識
用データ４５、登録語ラベル系列蓄積手段ｆに蓄積され
た登録語ラベル系列５５を用いて、認識手段ｇにおいて
ビタビアルゴリズムにより、認識結果８８を得ることが
できるが、本実施形態では、語彙に含まれる単語以外の
音を高い精度で棄却することができるように、以下の工
夫を加える。

【００４４】ビタビアルゴリズムにより、登録語ラベル
系列の各音響イベント毎の尤度を求める場合の、時刻ｔ
での登録語ｍの音響イベントｎの連続した自己ループ回
数を不図示の計数手段により計数し、その計数結果をＫ
（ｔ、ｍ、ｎ）で表すことにする。

【００４５】この時、Ｋ（ｔ−１、ｍ、ｎ）＜Ｌ
（ｍ、ｎ）−ｐである場合には、図１３に示すように
音響イベントｎから音響イベントｎ＋１に遷移する確率
ａ（ｍ、ｎ、ｎ＋１）を不図示の補正手段により十分に
小さな値（例えば、０．０１）に動的に置き換えたの
ち、従来のビタビアルゴリズムを実行する。これによ
り、音響イベントｎから音響イベントｎ＋１に遷移する
可能性が低くなり、結果として音響イベントｎで続けて
自己ループ遷移をしやすくなる。

【００４６】一方、Ｋ（ｔ−１、ｍ、ｎ）＞Ｌ（ｍ、
ｎ）＋ｐである場合には、図１４に示すように音響イ
ベントｎから音響イベントｎへの自己ループの遷移確率
ａ（ｍ、ｎ、ｎ）を十分に小さな値（例えば、０．０
１）に動的に置き換えたのち、従来のビタビアルゴリズ
ムを実行する。これにより、音響イベントｎから音響イ
ベントｎへの自己ループ遷移の可能性が低くなり、結果
として音響イベントｎ＋１に遷移しやすくなるので、音
響イベントｎでの自己ループ回数の増加が抑えられる。

【００４７】こうして、登録単語が登録された場合の自
己ループ回数を伴う状態遷移に近い状態遷移が起こるよ
うにビタビアルゴリズムを制御することが可能になる。
ここで、ｐは自然数であり、登録単語が登録された場合
の自己ループ回数を伴う状態遷移にどの程度近い状態遷
移が起こるようにするかを制御する変数である。

【００４８】こうして得られた登録語の尤度は、自己ル
ープ回数の制御を行わない従来のビタビアルゴリズムに
より得られた登録語の尤度よりも低い値になる。従っ
て、登録語の尤度がガーベッジモデルの尤度を上回る頻
度を抑制することができ、登録語以外の音が入力された
場合にその音を棄却しやすくなると考えられる。

【００４９】登録語の中で最も高い尤度を持つ登録語の
尤度と、ガーベッジモデルの尤度を比較し、前者が大き
ければ、登録語を認識結果８８とする。一方、後者が大
きければ、登録語以外の音が入力されたと判断すること
ができ、入力音の棄却を認識結果８８とすれば良い。

【００５０】認識結果８８は、スピーカーやディスプレ
ーなどの出力手段ｈにより、音声や画面による出力結果
９９として話者に出力される。

【００５１】ここで、従来のビタビアルゴリズムを用い
た場合と本実施形態によるビタビアルゴリズムを用いた
場合の２つについて、語彙以外の音が棄却される性能に
ついて比較した２つのタスクのデータを示す。

【００５２】まず、１つ目のタスクでは、１単語のみを
特定話者の登録語として登録し、それ以外の９９単語が
棄却できるかどうかを比較した。その結果、従来法で
は、棄却できる確率が８０％であったが、本実施形態に
依れば、１００％であった。尚、本実施形態では、登録
した登録語の認識率も１００％であった。

【００５３】２つ目のタスクでは、９９単語のみを特定
話者の登録語として登録し、それ以外の１単語が棄却で
きるかどうかを比較した。その結果、従来法では、棄却
できる確率が５％であったが、実施形態に依れば、５０
％であった。尚、本実施形態では、登録した登録語の認
識率は９０％であった。

【００５４】以上の結果から、特定話者の登録語以外の
音の棄却に関する本発明の有効性が明らかとなった。

【００５５】最後に、認識語彙が特定話者の登録語と不
特定話者の固定語の２つからなる第２の実施形態につい
て説明する。図２に示すように、第２の実施形態では、
新たに、不特定の話者に共通の固定語のスペルからある
ルールに従い予め抽出された音声単位のラベル系列を記
憶する固定語ラベル系列記憶手段eを追加する。これを
実現する音声認識装置および音声認識方法に関しては、
既にＰＣＴＪＰ９９−０４８８５で出願済みであ
る。不特定話者の固定語以外の音を高い確率で棄却でき
るように、本発明を適用することができるの言うまでも
ない。

【００５６】具体的には、不特定話者に固定語の音声デ
ータから、不特定の話者に共通の固定語のスペルからあ
るルールに従い予め抽出された音声単位のラベル系列の
各ラベル毎の自己ループ回数の分布の情報（固定語自己
ループ回数６９）を予め算出しておき、固定語ラベル系
列記憶手段eに固定語ラベル系列６６とともに記憶して
おけばよい。

【００５７】そして、認識手段ｇにおいては、固定語自
己ループ回数６９を利用して、上述の方法に従って、遷
移確率を動的に十分小さな値に置換しながら、ビタビア
ルゴリズムにより照合を行えばよい。例えば、固定語自
己ループ回数６９の上限値と下限値の範囲から乖離した
状態遷移が起こらないように制御するなどの方法が考え
られる。

【００５８】上述の実施形態の他に次の形態を実施でき
る。１）図１および図２に示す機能形成は、たとえば、
パソコンやデジタルプロセッサなどでソフトウェアをＣ
ＰＵが実行し、メモリに音声認識に関連する上述のデー
タを記憶（蓄積）しておくことにより実現できる。本発
明に関わる自己ループ回数は次のように計数すればよ
い。

【００５９】音声登録時および音声認識時において、ラ
ベル系列をビタビアルゴリズムを用いてＣＰＵにより作
成して行く過程で取得されるラベルとその開始時刻と終
了時刻を一時的にメモリに記憶しておく。終了時刻と開
始時刻の差の時刻をラベルの自己ループ回数として計数
すればよい。

【００６０】また、音声認識時に得られるラベルの自己
ループ回数と、登録時に得られた自己ループ回数を比較
し、比較結果に基づきラベルの遷移確率を補正する処理
はＣＰＵの簡単な情報処理で実現できるので、詳細な説
明を要しないであろう。

【００６１】

【発明の効果】以上、説明したように、本発明では、音
声登録時および音声認識に得られるラベルの自己ループ
回数を比較する。その比較結果に基づいて、ラベルの遷
移確率を可変設定して、音声認識時の遷移状態を音声登
録時に近付けて、尤度を計算する。また、これにより、
誤認識がなくなるだけでなく、音声登録者の音声認識精
度もさらに向上する。

【図面の簡単な説明】

【図１】本発明第１の実施形態の機能構成を示すブロッ
ク図である。

【図２】本発明第２の機能構成を示すブロック図であ
る。

【図３】音韻の分類を示す説明図である。

【図４】「コンピュータ」の固定語ラベル系列を示す説
明図である。

【図５】「コンピュータ」の登録語ラベル系列を示す説
明図である。

【図６】（Ａ）および（Ｂ）は音韻ＨＭＭの構造を示す
説明図である。

【図７】（Ａ）および（Ｂ）は音響イベントＨＭＭ
＊．１の構造を示す説明図である。

【図８】（Ａ）および（Ｂ）は音響イベントＨＭＭ
＊．２の構造を示す説明図である。

【図９】（Ａ）および（Ｂ）は音響イベントＨＭＭ
＊．３の構造を示す説明図である。

【図１０】音響イベントネットワークの内容を示す説明
図である。

【図１１】音響イベントの位置に関する制約を設けたネ
ットワークの内容を示す説明図である。

【図１２】従来のビタビアルゴリズムによる処理内容を
示す説明図である。

【図１３】本発明を適用し、ビタビアルゴリズム（登録
時よりも自己ループ回数が少ない場合）に基づく処理内
容を示す説明図である。

【図１４】本発明を適用し、ビタビアルゴリズム（登録
時よりも自己ループ回数が多い場合）に基づく処理内容
を示す説明図である。

【符号の説明】

１１アナログ音声信号２２デジタル信号３３音響パラメータ４４、４５音声認識用データ５５登録語ラベル系列５９登録語自己ループ回数６６固定語ラベル系列６９固定語自己ループ回数７７語彙ラベルネットワーク８８認識結果９９出力結果

Claims

【特許請求の範囲】

【請求項１】予め、１つの登録語に関して特定の音声
認識対象者の音声から音響パラメータ系列を抽出し、当
該抽出された音声の音響パラメータ系列を自己ループを
許容した音響イベントモデルのラベル系列に変換し、登
録語についての音響イベントモデルのラベル系列と、音
声認識時に抽出された音響パラメータ系列とをビタビア
ルゴリズムにより照合することにより音声認識を行う音
声認識装置において、音声登録時の音響イベントモデルのラベル系列のラベル
の第１の自己ループ回数を記憶しておく記憶手段と、登録語の音響イベントモデルのラベル系列に従って、音
響イベントモデルを接続して構成される登録語のモデル
において、生起可能な全ての遷移の第２の自己ループ回
数を計数する計数手段と、ビタビアルゴリズムによる照合において、音声登録時の
音響イベントモデルのラベル系列の遷移に近づけるよう
に、該計数手段により計数された第２の自己ループ回数
および該第２の自己ループ回数と対応しており前記記憶
手段に記憶された第１の自己ループ回数とに基づいて、
登録語のモデルの遷移確率を補正する遷移確率補正手段
とを具えたことを特徴とする音声認識装置。
【請求項２】請求項１に記載の音声認識装置におい
て、前記特定の音声認識対象者に関する自己ループ回数
に加えて、不特定の音声認識対象者の音声から変換され
た音響イベントモデルのラベル系列のラベルの自己ルー
プ回数が前記第１の自己ループ回数として前記記憶手段
に記憶されていることを特徴とする音声認識装置。
【請求項３】予め、１つの登録語に関して特定の音声
認識対象者の音声から音響パラメータ系列を抽出し、当
該抽出された音声の音響パラメータ系列を自己ループを
許容した音響イベントモデルのラベル系列に変換し、登
録語についての音響イベントモデルのラベル系列と、音
声認識時に抽出された音響パラメータ系列とをビタビア
ルゴリズムにより照合することにより音声認識を行う音
声認識方法において、音声登録時の音響イベントモデルのラベル系列のラベル
の第１の自己ループ回数を記憶しておき、登録語の音響イベントモデルのラベル系列に従って、音
響イベントモデルを接続して構成される登録語のモデル
において、生起可能な全ての遷移の第２の自己ループ回
数を計数し、ビタビアルゴリズムによる照合において、音声登録時の
音響イベントモデルのラベル系列の遷移に近づけるよう
に、該計数手段により計数された第２の自己ループ回数
および該第２の自己ループ回数と対応しており前記記憶
手段に記憶された第１の自己ループ回数とに基づいて、
登録語のモデルの遷移確率を補正することを特徴とする
音声認識方法。
【請求項４】請求項３に記載の音声認識方法におい
て、前記特定の音声認識対象者に関する自己ループ回数
に加えて、不特定の音声認識対象者の音声から変換され
た音響イベントモデルのラベル系列のラベルの自己ルー
プ回数が前記第１の自己ループ回数として記憶されてい
ることを特徴とする音声認識方法。