JP2001195083A - 音声認識装置および方法 - Google Patents

音声認識装置および方法

Info

Publication number
JP2001195083A
JP2001195083A JP2000001032A JP2000001032A JP2001195083A JP 2001195083 A JP2001195083 A JP 2001195083A JP 2000001032 A JP2000001032 A JP 2000001032A JP 2000001032 A JP2000001032 A JP 2000001032A JP 2001195083 A JP2001195083 A JP 2001195083A
Authority
JP
Japan
Prior art keywords
self
speech recognition
label
registered word
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000001032A
Other languages
English (en)
Other versions
JP3936827B2 (ja
Inventor
Makoto Shosakai
誠 庄境
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Asahi Kasei Corp
Original Assignee
Asahi Kasei Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Corp filed Critical Asahi Kasei Corp
Priority to JP2000001032A priority Critical patent/JP3936827B2/ja
Publication of JP2001195083A publication Critical patent/JP2001195083A/ja
Application granted granted Critical
Publication of JP3936827B2 publication Critical patent/JP3936827B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 特定話者の音声認識性能を向上させる。 【解決手段】 語彙ラベルネットワーク蓄積手段fに記
憶しておく登録のラベル系列のラベルに自己ループ回数
を付加する。音声認識時にラベルの自己ループ回数を計
数し、その計数結果と、記憶されている自己ループ回数
とを比較する。その比較結果に基づいて、ラベルの遷移
確率を可変設定して、音声認識時の遷移状態を音声登録
時に近付けて、尤度を計算することにより、特定話者の
登録語以外の音を高い精度で棄却することにより登録語
の音声認識性能を向上させる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本願発明は、語彙に含まれる
単語以外の音を高い精度で棄却することが可能な音声認
識装置および音声認識方法に関するものである。
【0002】
【従来の技術】特定の話者に固有の登録語を認識する技
術を一般に特定話者音声認識と呼ぶ。特定話者音声認識
においては、特定の話者が予め音声認識させたい単語を
登録するという作業が発生する。この作業は具体的に
は、特定の話者が予め発声した単語の音声サンプルをあ
る特徴パラメータの系列(テンプレートと呼ぶ)に変換
し、その系列を単語のラベルとともにメモリーやハード
ディスクなどの記憶装置に蓄積する。音声サンプルをあ
る特徴パラメータの系列に変換する方法としては、ケプ
ストラム分析や線形予測分析などが知られており、「音
声・音情報のディジタル信号処理」(鹿野清宏、中村
哲、伊勢史郎共著、(株)昭晃堂)にも詳述されてい
る。特定話者音声認識においては、記憶装置に蓄積され
た特徴パラメータの系列と入力された音声から変換され
た特徴パラメータの系列とを比較し、入力された音声か
ら変換された特徴パラメータの系列に最も類似した特徴
パラメータの系列を持つ単語のラベルを認識結果として
出力する。記憶装置に蓄積された特徴パラメータの系列
と入力された音声から変換された特徴パラメータの系列
とを比較する方法としては、動的計画法(Dynamic Progr
amming)による時間軸伸縮マッチング(Dynamic Time War
ping, DTW)が広く用いられており、上記「音声・音情報
のディジタル信号処理」にも詳しく述べられている。特
定話者音声認識装置においては、入力音から求められた
特徴パラメータの系列と登録語のテンプレート(特徴パ
ラメータの系列)との類似度を上記のDTWなどの方法
で求め、その類似度があるしきい値より大きい場合に、
登録語以外の音が入力されたとして棄却するという方法
が一般に採用されている。一方、不特定の話者に共通の
固定語を認識する技術を一般に不特定話者音声認識と呼
ぶ。不特定話者音声認識においては、不特定の話者に共
通の固定語の特徴パラメータに関する情報が予め記憶装
置に蓄積されているため、特定話者音声認識のようにユ
ーザーが音声認識させたい単語を登録するという作業は
発生しない。音声サンプルをある特徴パラメータの系列
に変換する方法としては、特定話者音声認識と同様にケ
プストラム分析や線形予測分析などが知られている。ま
た、不特定の話者に共通の固定語の特徴パラメータに関
する情報の作成およびその情報と入力された音声から変
換された特徴パラメータの系列との比較には、隠れマル
コフモデル(Hidden Markov Model, HMM)による方法が一
般に用いられている。HMMによる不特定話者音声認識
についても、上記「音声・音情報のディジタル信号処
理」に詳しく述べられている。例えば、日本語の場合、
音声単位を上記「音声・音情報のディジタル信号処理」
の第2章に記載されている音韻のセットとし、各音韻が
HMMによりモデル化されているとする。図3に音韻の
セットのラベルの一覧を示す。この時、例えば「コンピ
ュータ」という単語は図4のような話者に共通の音韻ラ
ベルのネットワーク(固定語ラベル系列と呼ぶ)でモデ
ル化することができる。
【0003】HMMによる音韻モデルのデータと固定語
ラベル系列を用意すれば、上記「音声・音情報のディジ
タル信号処理」の第4章に記載されているビタビアルゴ
リズムにより、当業者は不特定話者音声認識装置を容易
に構成することができる。不特定話者音声認識装置にお
いては、入力音から求められた特徴パラメータの系列と
固定語の固定語ラベル系列との類似度(一般に、尤度と
呼ぶ。)を上記のビタビアルゴリズムなどにより求め、
その尤度があるしきい値より小さい場合に、固定語以外
の音が入力されたとして棄却するという方法が用いられ
る。
【0004】また、固定語以外の入力音を受理可能なH
MMによるモデル(一般に、「ガーベッジモデル」と呼
ばれる。)を予め用意しておき、このガーベッジモデル
の尤度が固定語の尤度よりも大きい場合に、固定語以外
の音が入力されたとして棄却するという方法が広く用い
られる。
【0005】このガーベッジモデルの構成方法について
は、R. C. Rose, "Keywords Detection in Conversati
onal Speech Utterances Using Hidden Markov Model B
asedContinuous Speech Recognizer" Computer, Speech
and Language, Vol.9, No.9, pp.303-333, 1995.、
「H. Boulard, B. D'hoore and J.-M. Boite, "Optimiz
ing Recognition and Rejection Performance in Words
potting Systems," Proc. ICASSP, Adelaide, Australi
a, pp.I-373-376, 1994.などに詳述されている。
【0006】最近提供されている音声認識装置は、予め
単語を登録する必要がないという使用上の利便性を追求
するという観点から、不特定話者音声認識装置であるこ
とが多い。しかしながら、不特定話者音声認識装置であ
っても、認識が困難な固定語については、話者の音声を
登録して登録語として扱うことにより認識精度を高めた
いという要求や、不特定話者固定語以外に特定話者の登
録語を新たに登録したいという要求がある。そのため
に、1つの登録語に対して、ユーザーに3回以上の発声
を要求し、それらの発声から得られた特徴パラメータ系
列を用いて、最尤推定法によりHMMによる登録語の単
語モデルを学習する方法が一般的である。
【0007】最尤推定法により、HMMの単語モデルを
学習する方法は、上記「音声・音情報のディジタル信号
処理」の第4章に詳述されている。最尤推定法による、
HMMの単語モデルの学習においては、モデルのパラメ
ータの推定精度の問題から、3回以上の発声をユーザー
に要求し、学習に十分な量の特徴パラメータ系列を取得
する必要がある。しかしながら、ユーザーにとっては必
ず3回以上の発声を要求されることは心理的に苦痛であ
る。
【0008】そこで、1回の発声で登録語を登録できる
機能を実現するために、USP5,732,187、 特願平 10−
255196が提案されている。これらの方法では、1
回の発声から得られる特徴パラメータ系列から、上記ビ
タビアルゴリズムにより、音韻または音韻のHMMから
分解されて生成された音響イベントのラベル系列を求
め、それを登録語のテンプレート(登録語ラベル系列)
とすることにより、簡便な登録語の登録機能を実現して
いる。
【0009】
【発明が解決しようとする課題】特定話者の登録語を登
録する機能を有する不特定話者音声認識装置において、
特定話者が登録した登録語以外の音を高い精度で棄却す
る機能が強く望まれている。
【0010】例えば、特定話者の登録語を登録する機能
を有する不特定話者音声認識装置のユーザーが自分だけ
の特別な言葉(以後、パスワードと呼ぶ。)を音声で登
録し、自分のパスワード以外の音が入力された場合にそ
れらが全て棄却されれば、他人に自分の不特定話者音声
認識装置を悪用されることが避けられ、自分だけのパー
ソナルな音声認識装置とすることができる。
【0011】また、音声認識装置に音声認識処理を行わ
せるトリガーとして用いられる物理的なスイッチを無く
したいという要求に以下のようにして答えることも可能
になる。例えば、自動車を運転している場合は、安全上
の理由から両手はハンドルを握っている必要がある。
【0012】一方、カーオーディオ装置、カーナビゲー
ション装置、自動車電話などの装置を運転者が声で操作
する場合、短時間の間、運転者は少なくとも片手をハン
ドルから話して、上記スイッチを操作し、音声認識処理
を駆動しなければならない。このスイッチ操作を行う
時、短時間の間、視線が前方からスイッチに移動するこ
とも起こり得るため、決して安全とは言えない。
【0013】もし、物理的なスイッチが一切不要の音声
認識装置があれば、両手はハンドルから離れることもな
く、視線も前方から逸れることがないので、安全を確保
することができる。そこで、上記と同様にしてパスワー
ドを登録し、パスワードのみを受理可能な認識(パスワ
ード認識)モードを設けることにより、外部雑音、自動
車内での会話音声、カーオーディオのスピーカー音など
の音は、パスワード以外の音として音声認識装置が棄却
できる。音声認識装置を駆動したい場合にのみパスワー
ドを発声し、その音声が受理されるという仕組みによ
り、スイッチを一切不要にすることが可能である。
【0014】さらに、住宅内において、声で住宅内の機
器を操作する場合でも、パスワード認識モードを設け、
パスワード認識を物理的なスイッチの代わりに用いるこ
とにより、声で離れたところにある住宅内の機器を操作
することが容易になる。例えば、まずパスワードを発声
し、次に、「照明」と発声することにより、壁に埋め込
まれたスイッチに触れることなく、照明のON/OFF
を制御することが可能になる。
【0015】ベッドに寝たきりの障害者やお年寄りは、
まずパスワードを発声し、次に住宅内機器の制御コマン
ドを発声することにより、ベッドから移動しなくても、
テレビの電源のON/OFF制御やチャンネルの切替が
できたり、エアコンのON/OFF制御や暖房/冷房の
切替ができるようになる。スピーカーから流れるテレビ
放送の音、家の外から聞こえる雑音などのパスワード以
外の音が全てパスワード認識モードにおいて棄却されれ
ば、住宅内の機器が勝手に操作されることはない。
【0016】これらの例は、特定話者の登録語をパスワ
ードとして使用し、パスワード認識モードを物理的なス
イッチの代わりに使用した場合のものである。他の例と
して、機器を制御するための音声コマンドを特定話者の
登録語として登録する場合が考えられる。たとえば、住
宅内の応用例においては、照明のことを「電気」、「電
灯」、「ライト」などの呼び方で呼ぶ人がいる。
【0017】このように、1つの機器を人によって、地
方によって、習慣によって異なった呼び方をする。この
ようなケースに対応するためには、1つの機器に対する
あらゆる呼び方を全国から収集し、予め不特定話者音声
認識装置の中に組み込んでおく必要があるが、そのため
に要する手間は現実的な規模ではないであろう。
【0018】また、人によっては、ある機器を他の人と
違った呼び方、例えばニックネームで呼びたいという希
望も考えられる。このようなケースに備えて、特定話者
の登録語を登録できる機能を準備することが有効である
が、これらの登録語以外の音を高い精度で棄却できれ
ば、機器が誤動作することを抑制することができる。そ
こで、本発明の目的は、予め登録されたある特定話者の
登録語の音声のみを高い精度で認識し、特定話者の登録
語以外の全ての音を高い精度で棄却する機能を有する音
声認識装置および方法を提供することにある。
【0019】
【課題を解決するための手段】このような目的を達成す
るために,請求項1の発明は、予め、1つの登録語に関
して特定の音声認識対象者の音声から音響パラメータ系
列を抽出し、当該抽出された音声の音響パラメータ系列
を自己ループを許容した音響イベントモデルのラベル系
列に変換し、登録語についての音響イベントモデルのラ
ベル系列と、音声認識時に抽出された音響パラメータ系
列とをビタビアルゴリズムにより照合することにより音
声認識を行う音声認識装置において、音声登録時の音響
イベントモデルのラベル系列のラベルの第1の自己ルー
プ回数を記憶しておく記憶手段と、登録語の音響イベン
トモデルのラベル系列に従って、音響イベントモデルを
接続して構成される登録語のモデルにおいて、生起可能
な全ての遷移の第2の自己ループ回数を計数する計数手
段と、ビタビアルゴリズムによる照合において、音声登
録時の音響イベントモデルのラベル系列の遷移に近づけ
るように、該計数手段により計数された第2の自己ルー
プ回数および該第2の自己ループ回数と対応しており前
記記憶手段に記憶された第1の自己ループ回数とに基づ
いて、登録語のモデルの遷移確率を補正する遷移確率補
正手段とを具えたことを特徴とする。
【0020】請求項2の発明は、請求項1に記載の音声
認識装置において、前記特定の音声認識対象者に関する
自己ループ回数に加えて、不特定の音声認識対象者の音
声から変換された音響イベントモデルのラベル系列のラ
ベルの自己ループ回数が前記第1の自己ループ回数とし
て前記記憶手段に記憶されていることを特徴とする。
【0021】請求項3の発明は、予め、1つの登録語に
関して特定の音声認識対象者の音声から音響パラメータ
系列を抽出し、当該抽出された音声の音響パラメータ系
列を自己ループを許容した音響イベントモデルのラベル
系列に変換し、登録語についての音響イベントモデルの
ラベル系列と、音声認識時に抽出された音響パラメータ
系列とをビタビアルゴリズムにより照合することにより
音声認識を行う音声認識方法において、音声登録時の音
響イベントモデルのラベル系列のラベルの第1の自己ル
ープ回数を記憶しておき、登録語の音響イベントモデル
のラベル系列に従って、音響イベントモデルを接続して
構成される登録語のモデルにおいて、生起可能な全ての
遷移の第2の自己ループ回数を計数し、ビタビアルゴリ
ズムによる照合において、音声登録時の音響イベントモ
デルのラベル系列の遷移に近づけるように、該計数手段
により計数された第2の自己ループ回数および該第2の
自己ループ回数と対応しており前記記憶手段に記憶され
た第1の自己ループ回数とに基づいて、登録語のモデル
の遷移確率を補正することを特徴とする。
【0022】請求項4の発明は、請求項3に記載の音声
認識方法において、前記特定の音声認識対象者に関する
自己ループ回数に加えて、不特定の音声認識対象者の音
声から変換された音響イベントモデルのラベル系列のラ
ベルの自己ループ回数が前記第1の自己ループ回数とし
て記憶されていることを特徴とする。
【0023】
【実施形態】本発明は、特定話者の登録語を登録する機
能を有する不特定話者音声認識装置において、予め登録
されたある特定話者の登録語の音声のみを高い精度で認
識し、特定話者の登録語以外の全ての音を高い精度で棄
却する機能を有する音声認識装置を提供するものであ
る。
【0024】そのために、特定話者の登録語を登録する
機能において、登録語の音声から得られた音響パラメー
タ系列をビタビアルゴリズムを用いて、音韻のHMMか
ら分解されて生成された、音響イベントのラベル系列に
変換し、それを登録語のテンプレート(登録語ラベル系
列)とする。この際に、各音響イベント毎に自己ループ
を連続して遷移した回数(以後、自己ループ回数と呼
ぶ。)を記録しておく。音響イベント毎の自己ループ回
数は、当業者であれば、ビタビアルゴリズムを用いて容
易に算出することが可能である。
【0025】登録語以外の音が入力された場合に、その
音が登録語の中の1つであると誤認識される場合がしば
しば起こる。これは、誤認識された単語が登録されたと
きの自己ループ回数を伴う状態遷移に関係なく、尤度が
最大になるような状態遷移を行った時の尤度を求める性
質をビタビアルゴリズムが原理的に有していることに起
因する。従って、登録語以外の音が入力された場合で
も、ビタビアルゴリズムにより得られる登録語の尤度
が、ガーベッジモデルの尤度を上回る場合に、棄却する
ことができずに誤認識するということが起こる。
【0026】登録単語が登録された場合の自己ループ回
数を伴う状態遷移に近い状態遷移が起こるようにビタビ
アルゴリズムを制御することにより、ビタビアルゴリズ
ムにより得られる登録語の尤度が、ガーベッジモデルの
尤度を上回る頻度を抑制することができ、登録語以外の
音が入力された場合にその音を棄却しやすくなると考え
られる。
【0027】そこで、特定話者の登録語の認識時におい
ては、登録語ラベル系列から構成されるネットワークを
用いて、ビタビアルゴリズムにより、登録語の尤度計算
を行う際に、上記ネットワーク内に存在する音響イベン
トの各状態において、自己ループ回数を記録しておく
(図5参照)。認識時の自己ループ回数が、登録時の自
己ループ回数よりもかなり小さい場合は、別の音響イベ
ントの状態へ遷移する確率を小さな値に動的に置き換え
て、自己ループしやすいように制御する。
【0028】逆に、認識時の自己ループ回数が、登録時
の自己ループ回数よりもかなり大きい場合は、自己ルー
プの遷移確率を小さな値に動的に置き換えて、自己ルー
プしにくいように制御する。このように、音響イベント
の状態間の遷移確率を動的に操作して、認識時の自己ル
ープ回数が登録時に記録された自己ループ回数に接近す
るように制御する。こうすることにより、登録時に記録
された自己ループ回数に類似した自己ループ回数を伴う
状態遷移を行った時の登録語の尤度を求めることができ
る。
【0029】登録語の中で最も高い尤度を持つ登録語の
尤度と、上述のガーベッジモデルの尤度を比較する。前
者が大きければ、登録語が発声されたと判断することが
でき、後者が大きければ、登録語以外の音が入力された
と判断することができる。
【0030】このような音声認識方法を実現するための
音声認識装置を以下、図面を参照して説明する。
【0031】図1は本発明第1の実施形態の機能構成を
示す。図1において、アナログ音声信号11はADコン
バータによる入力手段aによりデジタル信号22に変換
される。デジタル信号22は変換手段bにより一定のフ
レーム周期で音響パラメータ33に変換される。音響パ
ラメータとしては、上記「音声・音情報のディジタル信
号処理」にも記述されているケプストラムなどを用いれ
ばよい。
【0032】特定の話者に固有の登録語を登録する場合
には、音響パラメータ33が登録語ラベル系列抽出手段
dに送られ、認識用データ蓄積手段cに蓄積された認識
用データ44を参照しながら、図5の登録語ラベル系列
55に変換される。このとき、ラベルの自己ループ回数
が計数され、計数結果が、ラベルとともに語彙ラベルネ
ットワーク蓄積手段fに蓄積される。なお、認識用デー
タ蓄積手段cに蓄積された認識用データ44としては、
隠れマルコフモデルでモデル化された音声単位のモデル
のデータおよび音響パラメータ33を登録語ラベル系列
55に変換するための音声単位のモデルのネットワーク
データの2つが蓄積されている。
【0033】音声単位としては、音節、半音節、音韻な
どが考えられるが、以下では、音韻よりも小さな音声単
位として、音韻HMMから分解されて生成された音響イ
ベントを用いた場合について説明を加える。言語や音韻
の種類を問わず、一般に音韻は図6に示される4つの状
態からなるHMMでモデル化されることが多い。
【0034】状態1は初期状態であり、状態遷移は必ず
状態1から開始される。状態4は最終状態であり、この
状態に遷移するとそれ以上状態遷移は発生しない。a
(i、j)は状態iから状態jへの遷移する確率を表
し、遷移確率と呼ばれる。j=i+1とすると、a
(i、i)+a(i、j)=1.0である。b(i、
x)は状態iへ状態遷移する際に、観測ベクトルxが出
力される確率を表し、出力確率と呼ばれる。観測ベクト
ルは、図1の音響パラメータ33に対応し、ケプストラ
ムがよく用いられる。出力確率b(i、x)は1個以上
の正規分布の重ね合わせで表現される。また、出力確率
は状態iから状態遷移する際に、観測ベクトルxが出力
される確率b(i、x)として定式化される場合や、状
態iから状態jへ状態遷移する際に、観測ベクトルxが
出力される確率b(i、j、x)として定式化される場
合もある。出力確率b(i、x)が1個以上の正規分布
の重ね合わせで定式化される場合、HMMを連続HMM
と呼ぶ。その他に、半連続HMMや離散HMMで音韻を
モデル化する場合があるが、本実施形態はいずれのモデ
ル化にも同様に適用が可能である。
【0035】図6に示される4状態の音韻HMMを図
7、図8、図9の3つの2状態からなるHMMに分割す
る。これらは音韻を構成する音響イベントに対応すると
考えることが可能であるため、音響イベントHMMと呼
ぶこととし、状態番号に合わせて、*.1、*.2、
*.3と表すこととする。ここで、*は図3の音韻ラベ
ルを表す。
【0036】これらの音響イベントHMMが任意の順番
で任意の長さで接続しうるネットワークを図10に示
す。このネットワークを音響イベントネットワークと呼
ぶことにする。この音響イベントネットワークを用いて
ビタビアルゴリズムにより、特定話者の登録語の音声を
音響イベント系列に変換する。例えば、「コンピュー
タ」という音声からは、図5のような登録語ラベル系列
が得られる。このようにして得られた音響イベント系列
を図1の登録語ラベル系列55として用いることによ
り、登録語に対してより高い近似性の高いテンプレート
が得られる。尚、図10の形状の音響イベントネットワ
ーク以外にも、図11に示すような音響イベントの位置
に関する制約を設けたネットワークを使用することも可
能であるが、特願平10−255196号にも詳述され
ているので、さらなる説明を省略する。
【0037】ここで、従来のビタビアルゴリズムを図1
2を用いて説明しておく。この図において、時刻tにお
いて、登録語mの音響イベントnが有する尤度をp
(t、m、n)で表す。また、登録語mの音響イベント
nから音響イベントnへ遷移する遷移確率をa(m、
n、n)で表す。この遷移は、自己ループに対応する。
【0038】登録語mの音響イベントn−1から音響イ
ベントnへ遷移する遷移確率をa(m、n−1、n)で
表す。この遷移は、自己ループではなく、次の音響イベ
ントへの遷移に対応する。また、b(m、n、x
(t))は、時刻tにおいて登録語mの音響イベントn
へ状態遷移する際に、観測ベクトルx(t)が出力され
る出力確率を表す。この時、時刻tでの登録語mの音響
イベントnで行われる従来のビタビアルゴリズムは一般
に次式で表現される。 p(t−1、m、n−1)*a(m、n−1、n)>=
p(t−1、m、n)*a(m、n、n)ならば、 p(t、m、n)=p(t−1、m、n−1)*a
(m、n−1、n)*b(m、n、x(t))。 p(t−1、m、n−1)*a(m、n−1、n)<p
(t−1、m、n)*a(m、n、n)ならば、 p(t、m、n)=p(t−1、m、n)*a(m、
n、n)*b(m、n、x(t))。
【0039】すなわち、時刻t−1における登録語mの
音響イベントn−1の尤度に音響イベントn−1から音
響イベントnへの遷移確率をかけた値が、時刻t−1に
おける登録語mの音響イベントnの尤度に音響イベント
nから音響イベントnへ自己ループする遷移確率をかけ
た値よりも大きければ、時刻tにおいて音響イベントn
−1から音響イベントnへ遷移するパスが選択される。
逆の場合は、時刻tにおいて音響イベントnから音響イ
ベントnへ自己ループするパスが選択される。
【0040】従来のビタビアルゴリズムにおいては、自
己ループするか、他の状態へ遷移するかは上式に従って
判断される。どの音響イベントで何回自己ループするか
は全く管理されず、最終的に尤度が最大になるような音
響イベント間の遷移を行った時の尤度が算出される。も
し、入力音声の音響パラメータ系列の一部が、ある登録
語の音響イベント系列の一部に非常に似通っていれば、
その登録語を認識結果として判断することになる。従っ
て、例え、登録語以外の音が入力されたとしても、ビタ
ビアルゴリズムにより得られる登録語の尤度が、ガーベ
ッジモデルの尤度を上回る場合には、その入力を棄却す
ることができずに誤認識するということが起こる。
【0041】登録単語が登録された場合の自己ループ回
数を伴う状態遷移に近い状態遷移が起こるようにビタビ
アルゴリズムを制御することにより、ビタビアルゴリズ
ムにより得られる登録語の尤度が、ガーベッジモデルの
尤度を上回る頻度を抑制することができ、登録語以外の
音が入力された場合にその音を棄却しやすくなると考え
られる。
【0042】音響イベントネットワークを用いて、ビタ
ビアルゴリズムにより、特定話者の登録語の音声を登録
語ラベル系列55に変換する際に、登録語ラベル系列を
構成する音響イベントHMM毎の自己ループ回数を求め
ることができる。今、登録語mの音響イベントnの自己
ループ回数をL(m、n)で表すことにする。登録時に
おいては、全ての登録語について、その登録語ラベル系
列の全ての音響イベントの自己ループ回数L(m、n)
を語彙ラベルネットワーク蓄積手段fとしてのメモリな
どの記憶手段に記録しておく。
【0043】実際の認識時においては、変換手段bで出
力された音響パラメータ33、認識用データ蓄積手段c
に蓄積された音響イベントモデルのデータからなる認識
用データ45、登録語ラベル系列蓄積手段fに蓄積され
た登録語ラベル系列55を用いて、認識手段gにおいて
ビタビアルゴリズムにより、認識結果88を得ることが
できるが、本実施形態では、語彙に含まれる単語以外の
音を高い精度で棄却することができるように、以下の工
夫を加える。
【0044】ビタビアルゴリズムにより、登録語ラベル
系列の各音響イベント毎の尤度を求める場合の、時刻t
での登録語mの音響イベントnの連続した自己ループ回
数を不図示の計数手段により計数し、その計数結果をK
(t、m、n)で表すことにする。
【0045】この時、K(t−1、m、n)< L
(m、n)−p である場合には、図13に示すように
音響イベントnから音響イベントn+1に遷移する確率
a(m、n、n+1)を不図示の補正手段により十分に
小さな値(例えば、0.01)に動的に置き換えたの
ち、従来のビタビアルゴリズムを実行する。これによ
り、音響イベントnから音響イベントn+1に遷移する
可能性が低くなり、結果として音響イベントnで続けて
自己ループ遷移をしやすくなる。
【0046】一方、K(t−1、m、n)> L(m、
n)+p である場合には、図14に示すように音響イ
ベントnから音響イベントnへの自己ループの遷移確率
a(m、n、n)を十分に小さな値(例えば、0.0
1)に動的に置き換えたのち、従来のビタビアルゴリズ
ムを実行する。これにより、音響イベントnから音響イ
ベントnへの自己ループ遷移の可能性が低くなり、結果
として音響イベントn+1に遷移しやすくなるので、音
響イベントnでの自己ループ回数の増加が抑えられる。
【0047】こうして、登録単語が登録された場合の自
己ループ回数を伴う状態遷移に近い状態遷移が起こるよ
うにビタビアルゴリズムを制御することが可能になる。
ここで、pは自然数であり、登録単語が登録された場合
の自己ループ回数を伴う状態遷移にどの程度近い状態遷
移が起こるようにするかを制御する変数である。
【0048】こうして得られた登録語の尤度は、自己ル
ープ回数の制御を行わない従来のビタビアルゴリズムに
より得られた登録語の尤度よりも低い値になる。従っ
て、登録語の尤度がガーベッジモデルの尤度を上回る頻
度を抑制することができ、登録語以外の音が入力された
場合にその音を棄却しやすくなると考えられる。
【0049】登録語の中で最も高い尤度を持つ登録語の
尤度と、ガーベッジモデルの尤度を比較し、前者が大き
ければ、登録語を認識結果88とする。一方、後者が大
きければ、登録語以外の音が入力されたと判断すること
ができ、入力音の棄却を認識結果88とすれば良い。
【0050】認識結果88は、スピーカーやディスプレ
ーなどの出力手段hにより、音声や画面による出力結果
99として話者に出力される。
【0051】ここで、従来のビタビアルゴリズムを用い
た場合と本実施形態によるビタビアルゴリズムを用いた
場合の2つについて、語彙以外の音が棄却される性能に
ついて比較した2つのタスクのデータを示す。
【0052】まず、1つ目のタスクでは、1単語のみを
特定話者の登録語として登録し、それ以外の99単語が
棄却できるかどうかを比較した。その結果、従来法で
は、棄却できる確率が80%であったが、本実施形態に
依れば、100%であった。尚、本実施形態では、登録
した登録語の認識率も100%であった。
【0053】2つ目のタスクでは、99単語のみを特定
話者の登録語として登録し、それ以外の1単語が棄却で
きるかどうかを比較した。その結果、従来法では、棄却
できる確率が5%であったが、実施形態に依れば、50
%であった。尚、本実施形態では、登録した登録語の認
識率は90%であった。
【0054】以上の結果から、特定話者の登録語以外の
音の棄却に関する本発明の有効性が明らかとなった。
【0055】最後に、認識語彙が特定話者の登録語と不
特定話者の固定語の2つからなる第2の実施形態につい
て説明する。図2に示すように、第2の実施形態では、
新たに、不特定の話者に共通の固定語のスペルからある
ルールに従い予め抽出された音声単位のラベル系列を記
憶する固定語ラベル系列記憶手段eを追加する。これを
実現する音声認識装置および音声認識方法に関しては、
既にPCT JP 99−04885で出願済みであ
る。不特定話者の固定語以外の音を高い確率で棄却でき
るように、本発明を適用することができるの言うまでも
ない。
【0056】具体的には、不特定話者に固定語の音声デ
ータから、不特定の話者に共通の固定語のスペルからあ
るルールに従い予め抽出された音声単位のラベル系列の
各ラベル毎の自己ループ回数の分布の情報(固定語自己
ループ回数69)を予め算出しておき、固定語ラベル系
列記憶手段eに固定語ラベル系列66とともに記憶して
おけばよい。
【0057】そして、認識手段gにおいては、固定語自
己ループ回数69を利用して、上述の方法に従って、遷
移確率を動的に十分小さな値に置換しながら、ビタビア
ルゴリズムにより照合を行えばよい。例えば、固定語自
己ループ回数69の上限値と下限値の範囲から乖離した
状態遷移が起こらないように制御するなどの方法が考え
られる。
【0058】上述の実施形態の他に次の形態を実施でき
る。1)図1および図2に示す機能形成は、たとえば、
パソコンやデジタルプロセッサなどでソフトウェアをC
PUが実行し、メモリに音声認識に関連する上述のデー
タを記憶(蓄積)しておくことにより実現できる。本発
明に関わる自己ループ回数は次のように計数すればよ
い。
【0059】音声登録時および音声認識時において、ラ
ベル系列をビタビアルゴリズムを用いてCPUにより作
成して行く過程で取得されるラベルとその開始時刻と終
了時刻を一時的にメモリに記憶しておく。終了時刻と開
始時刻の差の時刻をラベルの自己ループ回数として計数
すればよい。
【0060】また、音声認識時に得られるラベルの自己
ループ回数と、登録時に得られた自己ループ回数を比較
し、比較結果に基づきラベルの遷移確率を補正する処理
はCPUの簡単な情報処理で実現できるので、詳細な説
明を要しないであろう。
【0061】
【発明の効果】以上、説明したように、本発明では、音
声登録時および音声認識に得られるラベルの自己ループ
回数を比較する。その比較結果に基づいて、ラベルの遷
移確率を可変設定して、音声認識時の遷移状態を音声登
録時に近付けて、尤度を計算する。また、これにより、
誤認識がなくなるだけでなく、音声登録者の音声認識精
度もさらに向上する。
【図面の簡単な説明】
【図1】本発明第1の実施形態の機能構成を示すブロッ
ク図である。
【図2】本発明第2の機能構成を示すブロック図であ
る。
【図3】音韻の分類を示す説明図である。
【図4】「コンピュータ」の固定語ラベル系列を示す説
明図である。
【図5】「コンピュータ」の登録語ラベル系列を示す説
明図である。
【図6】(A)および(B)は音韻HMMの構造を示す
説明図である。
【図7】(A)および(B)は音響イベントHMM
*.1の構造を示す説明図である。
【図8】(A)および(B)は音響イベントHMM
*.2の構造を示す説明図である。
【図9】(A)および(B)は音響イベントHMM
*.3の構造を示す説明図である。
【図10】音響イベントネットワークの内容を示す説明
図である。
【図11】音響イベントの位置に関する制約を設けたネ
ットワークの内容を示す説明図である。
【図12】従来のビタビアルゴリズムによる処理内容を
示す説明図である。
【図13】本発明を適用し、ビタビアルゴリズム(登録
時よりも自己ループ回数が少ない場合)に基づく処理内
容を示す説明図である。
【図14】本発明を適用し、ビタビアルゴリズム(登録
時よりも自己ループ回数が多い場合)に基づく処理内容
を示す説明図である。
【符号の説明】
11 アナログ音声信号 22 デジタル信号 33 音響パラメータ 44、45 音声認識用データ 55 登録語ラベル系列 59 登録語自己ループ回数 66 固定語ラベル系列 69 固定語自己ループ回数 77 語彙ラベルネットワーク 88 認識結果 99 出力結果

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 予め、1つの登録語に関して特定の音声
    認識対象者の音声から音響パラメータ系列を抽出し、当
    該抽出された音声の音響パラメータ系列を自己ループを
    許容した音響イベントモデルのラベル系列に変換し、登
    録語についての音響イベントモデルのラベル系列と、音
    声認識時に抽出された音響パラメータ系列とをビタビア
    ルゴリズムにより照合することにより音声認識を行う音
    声認識装置において、 音声登録時の音響イベントモデルのラベル系列のラベル
    の第1の自己ループ回数を記憶しておく記憶手段と、 登録語の音響イベントモデルのラベル系列に従って、音
    響イベントモデルを接続して構成される登録語のモデル
    において、生起可能な全ての遷移の第2の自己ループ回
    数を計数する計数手段と、 ビタビアルゴリズムによる照合において、音声登録時の
    音響イベントモデルのラベル系列の遷移に近づけるよう
    に、該計数手段により計数された第2の自己ループ回数
    および該第2の自己ループ回数と対応しており前記記憶
    手段に記憶された第1の自己ループ回数とに基づいて、
    登録語のモデルの遷移確率を補正する遷移確率補正手段
    とを具えたことを特徴とする音声認識装置。
  2. 【請求項2】 請求項1に記載の音声認識装置におい
    て、前記特定の音声認識対象者に関する自己ループ回数
    に加えて、不特定の音声認識対象者の音声から変換され
    た音響イベントモデルのラベル系列のラベルの自己ルー
    プ回数が前記第1の自己ループ回数として前記記憶手段
    に記憶されていることを特徴とする音声認識装置。
  3. 【請求項3】 予め、1つの登録語に関して特定の音声
    認識対象者の音声から音響パラメータ系列を抽出し、当
    該抽出された音声の音響パラメータ系列を自己ループを
    許容した音響イベントモデルのラベル系列に変換し、登
    録語についての音響イベントモデルのラベル系列と、音
    声認識時に抽出された音響パラメータ系列とをビタビア
    ルゴリズムにより照合することにより音声認識を行う音
    声認識方法において、 音声登録時の音響イベントモデルのラベル系列のラベル
    の第1の自己ループ回数を記憶しておき、 登録語の音響イベントモデルのラベル系列に従って、音
    響イベントモデルを接続して構成される登録語のモデル
    において、生起可能な全ての遷移の第2の自己ループ回
    数を計数し、 ビタビアルゴリズムによる照合において、音声登録時の
    音響イベントモデルのラベル系列の遷移に近づけるよう
    に、該計数手段により計数された第2の自己ループ回数
    および該第2の自己ループ回数と対応しており前記記憶
    手段に記憶された第1の自己ループ回数とに基づいて、
    登録語のモデルの遷移確率を補正することを特徴とする
    音声認識方法。
  4. 【請求項4】 請求項3に記載の音声認識方法におい
    て、前記特定の音声認識対象者に関する自己ループ回数
    に加えて、不特定の音声認識対象者の音声から変換され
    た音響イベントモデルのラベル系列のラベルの自己ルー
    プ回数が前記第1の自己ループ回数として記憶されてい
    ることを特徴とする音声認識方法。
JP2000001032A 2000-01-06 2000-01-06 音声認識装置および方法 Expired - Fee Related JP3936827B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000001032A JP3936827B2 (ja) 2000-01-06 2000-01-06 音声認識装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000001032A JP3936827B2 (ja) 2000-01-06 2000-01-06 音声認識装置および方法

Publications (2)

Publication Number Publication Date
JP2001195083A true JP2001195083A (ja) 2001-07-19
JP3936827B2 JP3936827B2 (ja) 2007-06-27

Family

ID=18530293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000001032A Expired - Fee Related JP3936827B2 (ja) 2000-01-06 2000-01-06 音声認識装置および方法

Country Status (1)

Country Link
JP (1) JP3936827B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004112283A1 (en) * 2003-06-16 2004-12-23 Kwangwoon Foundation Transmit power control outer loop for improving speech recognition rate management in mobile communications systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004112283A1 (en) * 2003-06-16 2004-12-23 Kwangwoon Foundation Transmit power control outer loop for improving speech recognition rate management in mobile communications systems

Also Published As

Publication number Publication date
JP3936827B2 (ja) 2007-06-27

Similar Documents

Publication Publication Date Title
Juang et al. Automatic speech recognition–a brief history of the technology development
JP5386692B2 (ja) 対話型学習装置
US20220343895A1 (en) User-defined keyword spotting
US6154722A (en) Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
US11043214B1 (en) Speech recognition using dialog history
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JP2000221990A (ja) 音声認識装置
US20120245919A1 (en) Probabilistic Representation of Acoustic Segments
US11705116B2 (en) Language and grammar model adaptation using model weight data
WO2006083020A1 (ja) 抽出された音声データを用いて応答音声を生成する音声認識システム
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
WO2000014723A1 (fr) Dispositif de reconnaissance de la parole
Heinrich et al. Towards robust speech recognition for human-robot interaction
JP2004333543A (ja) 音声対話システム及び音声対話方法
WO2000010160A1 (fr) Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations
Lecouteux et al. Distant speech recognition for home automation: Preliminary experimental results in a smart home
Karan et al. Design of a phoneme based voice controlled home automation system
KR101398639B1 (ko) 음성 인식 방법 및 그 장치
JP2001195083A (ja) 音声認識装置および方法
Ramasubramanian et al. Acoustic modeling by phoneme templates and modified one-pass DP decoding for continuous speech recognition
Yoshida et al. Audio-visual voice activity detection based on an utterance state transition model
US11688394B1 (en) Entity language models for speech processing
Akbacak et al. Environmental sniffing: robust digit recognition for an in-vehicle environment.
Suk et al. Voice activated appliances for severely disabled persons

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060331

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060704

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070316

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070326

R150 Certificate of patent or registration of utility model

Ref document number: 3936827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100330

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110330

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120330

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130330

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140330

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees