JP2001312296A

JP2001312296A - 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体

Info

Publication number: JP2001312296A
Application number: JP2000133973A
Authority: JP
Inventors: Kazuo Nemoto; 和郎根本
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-05-02
Filing date: 2000-05-02
Publication date: 2001-11-09
Anticipated expiration: 2020-05-02
Also published as: JP3542026B2; US20010039492A1; US6968310B2

Abstract

(57)【要約】【課題】音声認識における認識精度、特に複数の読み
が与えられてる文字、単語等の認識精度を向上する。【解決手段】同一人物は同一会話内で一定して同じ読
みを維持するという傾向、つまり、たとえば「７」を
「しち」と発音した人物は、その会話内で一貫して「し
ち」と発音し続ける傾向がある。この傾向を活用して、
会話における１回目の応答においてその人物が使わない
読みに対応する認識確率を下げ、２回目以降の認識を実
行する。また、システムが音声合成により認識結果を復
唱する場合に、既に認識した話者の読み方に対応して復
唱する。たとえば話者が「７」を「しち」と発音した場
合には、システムからの復唱時に「しち」と発音する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識システム
または音声認識方法に関する。特に、複数の読みがある
文字、単語等の認識精度の向上に適用して有効なもので
ある。

【０００２】

【従来の技術】たとえば、「ViaVoice（商標）」等の音
声認識システムにおいては、マイクロフォン、ヘッドセ
ット等の入力デバイスにより入力された音声を音素に分
解し、この解析された音素とデータベースに蓄積された
音素とを対比して入力音声に対応する文字、単語等を抽
出して音声認識を行っている。ここで、データベースに
蓄積されている音素は個別独立的に記録されるのではな
く、一定の規則に則った文法に関連付けて記録される。
すなわち、たとえば図９（ａ）に示すように、４桁の数
字を認識する場合には、<digits>として４桁の<num1>を
定義し、<num1>には０〜９のアラビア数字が入り得るこ
とを規定する。このような文法定義の下に、図９（ｂ）
に示すように、音素表記表を定義する。つまり、「０」
には「ree」（れえ）、「ree:」（れー）、「rei」（れ
い）、「zero」（ぜろ）の４つの音素が対応し、「１」
には「ichi」（いち）の１つの音素を対応させる。その
他同様に数字「２」には３音素が、「３」には１音素
が、「４」には４音素が対応し、「５」以下の各数字も
同様である。図９（ａ）の文法に図９（ｂ）の音素表
記を適用した例を図９（ｃ）に示す。図９（ｃ）の文
法および音素表記が実用的なベースフォームとして用い
られる。

【０００３】<digits>に対応した入力音声がたとえば
「ぜろいちにーさん」であれば、この音声を音素列に分
けて「ぜろ」（zero）、「いち」（ichi）、「にー」
（nii:）、「さん」（sa_n）が得られ、各音素列に対応
する数字「０」、「１」、「２」、「３」が音素対応表
から得られる。各数字は文法定義に当てはめられ、認識
結果の<digits>として「０１２３」の４文字が得られ
る。

【０００４】なお、「ViaVoice（商標）」等の音声認識
システムでは、エンロールメントと称される処理で入力
音声の個人的相違を検出し、その個人に適合した音響特
性を学習して認識精度を向上する手法が適用されてい
る。

【０００５】

【発明が解決しようとする課題】ところが、たとえば日
本語数字の読み上げを考えた場合、数字音声認識の認識
精度は必ずしも高いとはいえない。その原因として、以
下のような事項が考えられる。

【０００６】まず、「いち」「に」「さん」等、日本語
数字は概して単語長が短く、音の冗長性が少ないことが
挙げられる。短い音の音素間にはその相違が少なく、認
識における音素の取り違えが発生しやすい。日本語数字
では「に」「し」「ご」「く」等の一音節のものもあ
り、音の冗長性の少なさは特に顕著である。

【０００７】次に、ひとつの数字に複数の読みが与えら
れていることが挙げられる。たとえば、「０」という数
字には「ぜろ」「れい」「まる」等の読みが与えられ、
「４」という数字には「し」「よん」等、「７」という
数字には「なな」「しち」等、「９」という数字には
「きゅう」「く」という読みが与えられる。複数の読み
が与えられると認識すべき音素の候補が多くなり、誤認
識を誘発する確率が高くなる。

【０００８】また、異なる数字との間に類似する音素の
ものが多い点が挙げられる。たとえば「しち」（７）と
いう音素と「いち」（１）という音素と「はち」（８）
という音素は互いに類似しており、「し」（４）という
音素と「しち」（７）という音素が類似する。また、
「に」（２）、「し」（４）とうい音素間も類似し、
「さん」（３）、「よん」（４）間も類似する。これら
互いに類似する音素間では、その音の類似性により音素
の識別が難しくなり、音の取り違えによる誤認識を生ず
る確率が高くなる。特に電話等を介した音声識別では、
入力音の低周波成分が少なくなり、低周波成分での識別
が必要となるイ段の音の聞き分けが困難になる状況が生
じ、この問題が顕著になる。

【０００９】さらに、必ずしも長母音が付くとは限らな
い長母音付き一音節の発音では、繰り返しが識別し難く
なる問題がある。たとえば「に」「にー」「にーにー」
あるいは「ご」「ごー」「ごーごー」等である。特に通
常は「ごー」と発音される「５」の文字が、「７５３」
の場合には「しちごさん」と発音されたり、「３５８」
の場合には「さんごっぱ」と発音されたりして「ごー」
が「ご」あるいは「ごっ」と短母音化することがあり、
かえって問題を複雑にしている。

【００１０】ところで、数字の音声認識は、たとえば電
話による取引等のビジネスの場面を考えた場合、会員番
号や商品選択等の入力に多用されることが想定され、ビ
ジネスへの展開を考慮した場合には、特に数字の音声認
識精度の向上が強く求められている。

【００１１】なお、前記エンロールメントでは、音響特
性を個人に適合させて認識精度を向上することがある程
度可能であるが、入力される音素自体が類似する場合や
音素に冗長性がない前記のような場合には認識精度の更
なる向上には自ずと限界がある。

【００１２】本発明の目的は、音声認識における認識精
度をさらに向上することにある。特に複数の読みが与え
られてる文字、単語等の認識精度を向上することにあ
る。

【００１３】また、本発明の他の目的は、冗長性の少な
い音たとえば日本語における数字や、異なる文字あるい
は単語に類似の音が与えられている文字等の認識精度を
向上することにある。

【００１４】本発明のさらに他の目的は、長母音付き一
音節文字が短母音化されて繰り返される場合の認識精度
を向上することにある。

【００１５】

【課題を解決するための手段】本願発明は、同一人物は
一回の同一会話内で一定して同じ読みを維持するという
本発明者らによる知見を活用するものである。つまり、
たとえば「７」を「しち」と発音した人物は、その会話
内で一貫して「しち」と発音し続ける傾向がある。この
傾向を活用して、会話における１回目の応答においてそ
の人物が使わない読みに対応する音素列を認識候補から
はずす、またはその認識確率を下げ、２回目以降の認識
を実行するものである。

【００１６】すなわち、本願発明の音声認識システム
は、認識単語とそれを発音表記する音素列との対応が記
録された対応情報を有し、入力された音声から生成され
る音素列と前記対応情報内の音素列との対比によって、
前記音声から一以上の認識単語を認識する音声認識シス
テムであって、同一人物の一定期間内の会話において、
既に行われた認識処理で認識された音素列に対する認識
単語に複数の音素列が対応付けられて記録されている場
合、前記複数の音素列のうち前記認識された音素列と異
なる少なくとも１つの音素列の発声予想確率を低下させ
るものである。また、本願発明の音声認識方法は、同一
人物の一定期間内の会話において、第１音声を入力し、
前記第１音声から音素列を生成するステップと、認識単
語とそれを発音表記する音素列との対応が記録された対
応情報を検索し、前記第１音声で生成された音素列と前
記対応情報内の音素列との対比から一以上の認識単語を
生成するステップと、認識された音素列に対応する認識
単語に複数の音素列が対応付けられて記録されている場
合、前記複数の音素列のうち前記認識された音素列と異
なる少なくとも１つの音素列の発声予想確率を低下させ
るステップと、第２音声を入力し、前記第２音声から音
素列を生成するステップと、前記音素列の発声予想確率
を低下させた対応情報を検索し、前記第２音声で生成さ
れた音素列と前記対応情報内の音素列との対比から一以
上の認識単語を生成するステップとを含む。これにより
２回目以降の誤認識の確率を低下して認識精度を向上で
きる。

【００１７】なお、前記認識単語には字、詞または単語
を含めることができ、前記対応情報には、前記認識単語
が所定の規則で配列される文法情報を含めることができ
る。また、前記認識単語は、日本語または英語の数字、
数詞または数を表す単語とすることができる。このよう
な数字の認識において本願発明の効果は特に著しい。

【００１８】なお、認識された音素列に対応する認識単
語に複数の音素列が対応付けられて記録されている場
合、前記複数の音素列のうち前記認識された音素列と異
なる少なくとも１つの音素列の発声予想確率を低下させ
る態様については、前記認識された音素列と異なる音素
列を前記対応情報から除外し、発声予想確率をゼロにす
る態様も含まれる。

【００１９】また、同一の前記認識単語を発音表記する
異なる音素列について、予め測定された発声予想確率に
適合する数の前記音素列とそれに対応する前記認識単語
とを前記対応情報に含めることができる。これによりさ
らに認識精度を高めることができる。

【００２０】また、前記一定期間は、連続した会話内の
期間または当日内の複数の会話を含む期間とすることが
できる。発音者の発音傾向は１日単位等の短時間特に同
一会話内では維持される傾向が強い。しかし、逆に時間
が経過した後には発音者の発音傾向が変化することもあ
る。このような場合本願発明では長時間の同一発音者の
発音傾向を維持することなく、前記一定期間が経過した
後には認識に用いる前記情報を初期状態に戻すことがで
きる。このような操作が可能なのは、本願発明がたとえ
ば１会話内のその場限りの学習という手法を採用する効
果に基づくものである。

【００２１】なお、前記一定期間内の会話が連続した会
話でない場合には、パスワード、会員番号、発呼側電話
番号、音声を解析して話者を特定する手法、またはこれ
らの組み合わせで、話者を特定する手法を用いることが
できる。

【００２２】また、認識された一以上の認識単語のうち
の少なくとも一部を話者に照会して前記一以上の認識単
語の認識に誤りがあるか否かを判断し、前記誤りが認め
られたときには、前記一以上の認識単語をそれが誤認識
されやすい一以上の認識単語に置換することができる。
このような手段または方法をとることによりたとえばチ
ェックディジットつきの長い数字の連続発声の認識精度
を向上できる。

【００２３】また、認識された前記一以上の認識単語の
数が前記認識システムにおいて予め登録された数に一致
しなかったときには、前記認識された一以上の認識単語
のうち長母音一音節を有する音素に対応する認識単語
を、前記長母音に対応する短母音音素に対応する認識単
語の繰り返しに置換する、または、前記認識された一以
上の単語のうち短母音一音節を有する音素に対応する認
識単語の繰り返しを、前記短母音に対応する長母音音素
に対応する認識単語に置換することができる。このよう
な手段または方法を備えることにより長母音一音節で与
えられる文字等が短母音化されて繰り返される場合、あ
るいは短母音の繰り返しで与えられる文字等が長母音一
音節の文字等と誤認される場合の認識精度を向上でき
る。

【００２４】

【発明の実施の形態】以下、本発明の実施の形態を図面
に基づいて詳細に説明する。ただし、本発明は多くの異
なる態様で実施することが可能であり、本実施の形態の
記載内容に限定して解釈すべきではない。なお、実施の
形態の全体を通して同じ要素には同じ番号を付するもの
とする。

【００２５】以下の実施の形態では、主に方法またはシ
ステムについて説明するが、当業者であれば明らかなと
おり、本発明は方法、システムの他、コンピュータで使
用可能なプログラムコードが記録された媒体としても実
施できる。したがって、本発明は、ハードウェアとして
の実施形態、ソフトウェアとしての実施形態またはソフ
トウェアとハードウェアとの組合せの実施形態をとるこ
とができる。プログラムコードが記録された媒体として
は、ハードディスク、ＣＤ−ＲＯＭ、光記憶装置または
磁気記憶装置を含む任意のコンピュータ可読媒体を例示
できる。

【００２６】本実施の形態で利用できるコンピュータシ
ステムには、中央演算処理装置（ＣＰＵ）、主記憶装置
（メインメモリ：ＲＡＭ(Random Access Memory)）、不
揮発性記憶装置（ＲＯＭ(Read Only Memory)）等を有
し、これらがバスで相互に接続される。バスには、その
他コプロセッサ、画像アクセラレータ、キャッシュメモ
リ、入出力制御装置（Ｉ／Ｏ）等が接続される。バスに
は、適当なインターフェイスを介して外部記憶装置、デ
ータ入力デバイス、表示デバイス、通信制御装置等が接
続されてもよい。その他、一般的にコンピュータシステ
ムに備えられるハードウェア資源を備えることが可能な
ことは言うまでもない。外部記憶装置は代表的にはハー
ドディスク装置が例示できるが、これに限られず、光磁
気記憶装置、光記憶装置、フラッシュメモリ等半導体記
憶装置も含まれる。なお、データの読み出しのみに利用
できるＣＤ−ＲＯＭ等の読み出し専用記憶装置もデータ
あるいはプログラムの読み出しにのみ適用する場合には
外部記憶装置に含まれる。データ入力デバイスには、キ
ーボード等の入力装置、マウス等ポインティングデバイ
スを備えることができる。データ入力デバイスには音声
入力装置も含む。表示装置としては、ＣＲＴ、液晶表示
装置、プラズマ表示装置が例示できる。本実施の形態の
コンピュータシステムには、パーソナルコンピュータ、
ワークステーション、メインフレームコンピュータ等各
種のコンピュータが含まれる。

【００２７】各コンピュータシステムで利用されるプロ
グラムは、他のコンピュータシステムに記録されていて
も良い。つまり、コンピュータシステムで利用する一部
のプログラムをリモートコンピュータで分散的に処理ま
たは実行できる。なお、他のコンピュータシステムに記
録されたプログラムをアドレスで参照する場合には、Ｄ
ＮＳ、ＵＲＬ等を用ることができる。

【００２８】（実施の形態１）図１は、本発明の一実施
の形態である音声認識システムの概要を示したブロック
図である。本実施の形態の音声認識システムは、ユーザ
１の音声が入力される音声認識エンジン２と、音声認識
エンジン２に適用される文法データ（グラマー）３と、
文法データ３に適用される音素表記表４とを有する。

【００２９】ユーザ１からの音声信号は、たとえばマイ
クロフォン、ヘッドセット等の入力装置で電気信号に変
換され、さらにＡ／Ｄ（アナログデジタル）変換等が行
われて、ディジタルデータで表された波形データに変換
される。この波形データは、音声認識エンジン２で音素
に分解され、文法データ３と比較されて音声認識が行わ
れる。

【００３０】音声認識エンジン２では、入力された音素
に最も適合する文法データ３が選択される。文法デー
タ３には音素表記表４が適用されており、入力される音
声が則る可能性のある文法、あるいは発声される可能性
がある音素を含む形態で多数の文法データ３（音素表記
表４に基づいた音素が配置されている）が用意され、こ
の文法データ３のデータベースを参照して入力音素に適
合する文法データ３が選択される。

【００３１】本実施の形態で用いる文法は図９（ａ）に
示すものと同等のものである。しかし、本実施の形態で
用いる音素表記表は図９（ｂ）のものとは相違する。

【００３２】図２は、本実施の形態で用いる音素表記表
の一例を示す表図である。従来、たとえば「０」の場
合、文字「０」と４つの音素（「ｒｅｅ」「ｒｅｅ：」
「ｒｅｉ」「ｚｅｒｏ」）を対応させていたのみである
が、本実施の形態では、文字「０」の読みとして「レ
イ」と「ゼロ」の２種類を考え、各音素に読み（「０」
の場合「レイ」と「ゼロ」）の情報を付加している。な
お、「０」にはほかに「マル」という読みも考えられる
が、ここでは２種類の読みがあるとして例示している。

【００３３】また、「４」については「シ」と「ヨン」
の読みを、「７」については「シチ」と「ナナ」の読み
を、「９」については「ク」と「キュウ」の読みを考え
る。本実施の形態では、「０」「４」「７」「９」につ
いて上記のような複数の読みを考えているがあくまでも
例示であり、その他の読みが考えられるときには音素表
記表に加えても良いことは勿論である。また、上記以外
の数字に複数の読みが考えられるときにはその複数の読
みを加えても良いことは勿論である。さらに、本実施の
形態では数字を例示するが、数字に限らず、その他漢
字、英字等を適用できるし、その読みに複数の候補があ
るときには、前記同様にそれらを含めて音素表記表を作
成しても良い。

【００３４】このような文法と音素表記を用いて音声認
識する場合の手順を以下に説明する。図３は、本実施の
形態の音声認識方法の一例を示したフローチャートであ
る。ここでは、たとえば電話を介して取引データを音声
により入力する場合を考える。

【００３５】まず、本実施の形態の音声認識システムに
ベースとなるベース文法データを導入する（ステップ１
０）。導入されるベース文法データは、図２に示すよう
に、読みの情報が付加されている以外は図９（ｃ）と同
様である。

【００３６】次に、システム側の音声発声手段から「電
話番号をどうぞ」というメッセージをユーザ側に流す
（ステップ１１）。仮に、ユーザ側の発声が「シチヨン
ゼロ」であるとすると、この音声入力に応答してベース
文法データにより認識を行う（ステップ１２）。ここ
で、システムが「７４０」を認識すれば、システム側か
ら「７４０で正しいですか」というメッセージを発する
（ステップ１３）。ユーザが「はい」と応答すれば認識
結果は「７４０」で確定する。仮に、認識結果が誤りで
あれば、ステップ１１に戻って再度音声入力を行う。

【００３７】この１回目の音声認識の結果、「７４０」
が確定すれば、ユーザは、「７」については「シチ」と
読み、「４」については「ヨン」と読み、「０」につい
ては「ゼロ」と読むことがわかる。ここで、このユーザ
については、少なくとも同一会話内あるいは短時間（た
とえば１日内）の会話では、同一の読みをすると仮定す
ることが可能になる。これは、同一人物は、同一会話内
で同じ読み方を維持する傾向があるという本発明者らの
知見に基づく。この傾向を利用し、このユーザが「７」
について「ナナ」と発音する確率は少ないと考えること
ができる。同様に、「４」については「シ」と、「０」
について「レイ」と発音する確率は小さいと考えること
ができる。よって、次ステップでは、減縮した文法デー
タを挿入する（ステップ１４）。

【００３８】図４は、減縮した文法データを示すリスト
図面である。この文法データはＢＮＦ表記によるグラマ
ーに相当する。すなわち、文字「７」については、「ナ
ナ」に対応する音素「ｎａｎａ」を削除し、「シチ」に
対応する音素「ｈｉｃｈｉ」「ｓｈｉｃｈｉ」に限定す
る（２０）。同様に、「４」については、「シ」に対応
する音素「ｓｈｉ」「ｓｈｉｉ」「ｓｈｉｉ：」を削除
し、「ヨン」に対応する音素「ｙｏ＿ｎ」に限定する
（２１）。「０」については、「レイ」に対応する音素
「ｒｅｅ」「ｒｅｅ：」「ｒｅｉ」を削除し、「ゼロ」
に対応する音素「ｚｅｒｏ」に限定する（２２）。この
ように、発声される確率の少ない音素を削除し、この削
除した音素が適用された文法データを用いて認識を行え
ば、より認識率を向上することができる。

【００３９】その後、この減縮した文法データを適用し
て次ステップに進み、２回目の音声入力を促すメッセー
ジを発し（ステップ１５）、音声入力に応答して認識を
行う（ステップ１６）。音声入力が「ゼロサンのイチシ
チキュウ」とすれば、本来識別が困難な「イチ」と「シ
チ」のような発声でも、「シチ」が「７」に限定されて
いるので、ベース文法データを用いる場合よりも認識の
精度を向上することができる。

【００４０】さらに、２回目の認識でこのユーザは
「９」を「キュウ」と発声してるので、音素「ｋｕ」を
削除してさらに減縮した文法データを適用できる（ステ
ップ１８）。図５はさらに減縮した文法データを示すリ
スト図である。「９」について音素「ｋｕ」を削除して
いる（２３）。

【００４１】なお、音素対応表に関連付けた文法データ
は、１回目の認識の前に各読みの組み合わせの数だけ予
め作成しておき、２回目の認識以降で不要な文法データ
を削除する方法をとることができる。

【００４２】本実施の形態によれば、同一人物による発
声では、数字等の読み方が一貫しており、同一会話内で
は同じ読みが維持されるという傾向を利用し、２回目以
降の認識では、読まれる可能性の低い音素を削除して認
識を行える。これにより、２回目以降の認識率を向上す
ることができる。なお、本発明は、発声者に固有な音響
特性を学習するようなものではなく、その場限りの学習
に止まり、他の発声者の場合や、同じ発声者でも日が異
なるような場合では、再度ベース文法データを用いて最
初のステップから認識が開始される。このため、発声者
ごとのデータベースを作成する必要がなく、どのような
発声者にも同じ構成のシステムを適用できる。このた
め、発声者ごとにカスタマイズする必要がなく、簡単に
本発明を実施適用できる。

【００４３】（実施の形態２）クレジットカードのよう
に入力される数字の特定の桁にチェックディジットが含
まれるような場合には、このチェックディジットを用い
て、推定される誤りを入れ替えて誤り訂正を行い、訂正
後の認識結果で次ステップに進めることができる。図６
は実施の形態２の認識方法の一例を示したフローチャー
トである。

【００４４】まず、ベース文法データを導入し（ステッ
プ３０）、カード番号の入力を促すメッセージ（ステッ
プ３１）の後、ベース文法データを適用した認識を行う
（ステップ３２）。仮に入力音声が「イチニサンシコ゛ウロクシチハチク
セ゛ロイチニサンシコ゛ロク」であったとき、「1234567890123456」
と認識しない誤認識の確率は１回目の認識ゆえ低くはな
い。通常クレジットカードの場合は、チェックディジッ
トは下２桁の「５６」なので、このチェックディジット
が合っているかどうかの照合を行う（ステップ３３）。
照合の結果が合わないときには誤認識の可能性のある数
字を交換して（ステップ３４）、再度照合を行う（ステ
ップ３３）。この結果、照合にパスすれば次ステップに
進め、誤り訂正後の認識結果（数字）で確認を行う（ス
テップ３５）。

【００４５】誤認識の可能性のある数字は、たとえば１
「イチ」と７「シチ」と８「ハチ」（「７」が「シチ」
と発声されているときあるいは「７」が認識されていな
いとき）、１「イチ」と８「ハチ」（「７」が「ナナ」
と発声されているとき）、４「シ」と７「シチ」
（「４」が「シ」と発声され、「７」が「シチ」と発声
されているとき）、あるいは６「ロク」と９「ク」
（「９」が「ク」と発声されているとき）、が挙げられ
る。これらを相互に置換することによりステップ３４の
交換が行える。

【００４６】最後に、１回目の認識結果と前記誤り訂正
処理で確定した認識結果から、不要な音素を削除し、減
縮した文法データを作成し、２回目以降の認識のために
これを導入する（ステップ３６）。

【００４７】本実施の形態の音声認識方法によれば、チ
ェックディジットを用いて誤り訂正を行い、ユーザの入
力回数を少なくしてユーザに対する利便性を向上し、ト
ータルの処理時間も短くできる。

【００４８】（実施の形態３）文法で５桁の数字が要求
されているにもかかわらず、４桁の数字しか認識できな
い場合には、長母音一音節の音声（たとえば２「ｎｉ
ｉ：」）が短母音化して２「ｎｉ」が繰り返されていた
可能性がある。この場合の誤り訂正の方法が図７に示さ
れている。図７（ａ）は、本実施の形態の音声認識方法
の一例を示したフローチャートであり、図７（ｂ）は適
用される文法データである。図７（ｂ）に示すよう
に、ここでは５桁の数字が文法として要求されている
（４０）。

【００４９】図７（ａ）に示すように、まず、ベース文
法データを導入し（ステップ４１）、番号の入力を促す
メッセージ（ステップ４２）の後、ベース文法データを
適用した認識を行う（ステップ４３）。ここで、音声入
力として「イチニニサンシ」が入力されたとすると、
「１２３４」と誤認識する可能性がある。ステップ４４
で５文字認識できたかどうかを判断し（ステップ４
４）、４文字しか認識できていないときには、長母音１
音節の文字「２」が誤認識されたと推定する。よって、
「２」を「２２」に置換し（ステップ４５）、確認ステ
ップ（ステップ４６）に進む。５桁の文字が正常に認識
されていたときにはそのままステップ４６に進む。その
後、１回目の認識結果と前記誤り訂正処理で確定した認
識結果から、不要な音素を削除し、減縮下文法データを
作成し、２回目以降の認識のためにこれを導入する（ス
テップ４７）。

【００５０】本実施の形態の音声認識方法によれば、長
母音一音節の音に誤認識されやすい短母音の繰り返しを
誤り訂正することができる。これにより、ユーザの入力
回数を少なくしてユーザに対する利便性を向上し、トー
タルの処理時間も短くできる。なお、上記実施の形態で
は、短母音の繰り返しが長母音の一文字に誤認された例
を示したが、長母音の一文字が短母音の繰り返しに誤認
されて、本来の文字数より多く誤認識された場合につい
ても、上記と同様に誤りの訂正ができることは勿論であ
る。

【００５１】以上、本発明者によってなされた発明を発
明の実施の形態に基づき具体的に説明したが、本発明は
前記実施の形態に限定されるものではなく、その要旨を
逸脱しない範囲で種々変更可能である。

【００５２】たとえば、図８に示すように、文法に非一
様な確率分布を適用できる。すなわち、「０」について
いえば、「ゼロ」と発音される確率が「レイ」と発音さ
れる確率より経験的に大きいことが判明している。この
ようなとき、図８に示すように＜０＞に「ｚｅｒｏ」の
音素を３つ割り当て、＜ｒｅｉ＞を１つ割り当てる。こ
の場合、「セロ」と発声される確率が７５％、「レイ」
と発声される確率が２５％と仮定している。なお、「レ
イ」の発声には「ｒｅｅ」［ｒｅｅ：」「ｒｅｉ」の音
素が均等に割り当てられている。このような非一様確率
分布を適用することにより、より認識精度を向上するこ
とができる。

【００５３】また、本発明は、英語に対しても適用が可
能である。たとえば「1-800-1122」の読み方は、（1）
「one eight hundred double one double two」、
（２）「one eight oh oh eleven twelve」、（３）「o
ne eight hundred one one two two」という各種の読み
方がある。このような読み方についても同様に一会話内
で維持されることが考えられる。このような１つの表記
に対して複数の読みがある場合には、日本語に限られ
ず、英語に対しても本発明を適用して２回目以降の認識
精度を高めることができる。また、英語での文字につい
ても同様である。たとえば「０」について、「zero」あ
るいは「oh」の複数の読みがある。このような場合も同
様に本発明を適用できる。

【００５４】また、英語では、数字の並びに対して、
（１）２桁づつ区切って桁読みする読み方、（２）続け
て数字を読む読み方（べた読み）、（３）正式な桁読
み、（４）同じ数字の連続をdouble-xx triple-xx と表
現する読み方等がある。たとえば「1999」について、
「nineteen ninety nine」、「one nine nine nine」、
「one thousand nine hundred ninety nine」、「one t
riple nine」、「nineteen double nine」、等の読み方
がある。このような複数の読み方に対してはそれに対応
した文法データが各々必要になる。１回目の認識の際に
は全ての読み方を含む文法を用意する必要があるが、２
回目以降の認識では、本発明を適用して、不要と思われ
る文法データを削除できる。これにより、英語において
も２回目以降の認識率を高めることができる。

【００５５】また、数字に限らず、通常の単語に対して
も本発明を適用できる。たとえば、「青/ブルー」、「
空飛ぶ円盤/ユーフォー/ユーエフオー」、「いりぐち/
はいりくち」など、同じ意味を持っていても複数の表現
が可能な単語がある。このような単語に対しても本発明
を提供して、２回目以降の認識では１回目で表現されな
かった単語を削除して２回目以降の認識率を高めること
ができる。

【００５６】また、たとえば助動詞に対しても本発明を
適用できる。たとえば「＊＊だ。」「＊＊です。」のよ
うに通常何れかの表現が安定して用いられる。このよう
な場合にも、１回目で用いられなかった表現を削除し
て、２回目以降の認識率を向上できる。

【００５７】さらに、本発明は、動詞、形容詞その他の
品詞に対しても複数の読み、表現がある場合にこれを適
用することができ、認識精度を向上できる。

【００５８】

【発明の効果】本願で開示される発明のうち、代表的な
ものによって得られる効果は、以下の通りである。

【００５９】すなわち、音声認識における認識精度、特
に複数の読みが与えられている文字、単語等の認識精度
を向上できる。また、冗長性の少ない音たとえば日本語
における数字や、異なる文字あるいは単語に類似の音が
与えられている文字等の認識精度を向上できる。また、
長母音付き一音節文字が短母音化されて繰り返される場
合の認識精度を向上できる。

【図面の簡単な説明】

【図１】本発明の一実施の形態である音声認識システム
の概要を示したブロック図である。

【図２】実施の形態１で用いる音素表記表の一例を示す
表図である。

【図３】実施の形態の音声認識方法の一例を示したフロ
ーチャートである。

【図４】減縮した文法データを示すリスト図面である。

【図５】さらに減縮した文法データを示すリスト図であ
る。

【図６】実施の形態２の認識方法の一例を示したフロー
チャートである。

【図７】（ａ）は、実施の形態３の音声認識方法の一例
を示したフローチャートであり、（ｂ）は適用される文
法データである。

【図８】非一様な確率分布を適用した文法データの一例
を示すリスト図である。

【図９】（ａ）は、４桁の数字を認識する場合の文法を
示すリスト図であり、（ｂ）は、実用的な音素表記を示
す表図であり、（ｃ）は、（ｂ）の音素表記を適用した
文法データの例を示すリスト図である。

【符号の説明】

１…ユーザ、２…音声認識エンジン、３…文法データ、
４…音素表記表。

Claims

【特許請求の範囲】

【請求項１】認識単語とそれを発音表記する音素列と
の対応が記録された対応情報を有し、入力された音声か
ら生成される音素列と前記対応情報内の音素列との対比
によって、前記音声から一以上の認識単語を認識する音
声認識システムであって、同一人物の一定期間内の会話において、既に行われた認
識処理で認識された音素列に対する認識単語に複数の音
素列が対応付けられて記録されている場合、前記複数の
音素列のうち前記認識された音素列と異なる少なくとも
１つの音素列の発声予想確率を低下させることを特徴と
する音声認識システム。
【請求項２】同一の前記認識単語を発音表記する異な
る音素列について、予め測定された発声予想確率に適合
する数の前記音素列とそれに対応する前記認識単語とを
前記対応情報に含める請求項１記載の音声認識システ
ム。
【請求項３】前記一定期間は、連続した会話内の期間
または当日内の複数の会話を含む期間である請求項１ま
たは２記載の音声認識システム。
【請求項４】認識された一以上の認識単語のうちの少
なくとも一部を話者に照会して前記一以上の認識単語の
認識に誤りがあるか否かを判断する手段と、前記誤りが
認められたときには、前記一以上の認識単語をそれが誤
認識されやすい一以上の認識単語に置換する手段と、をさらに備えた請求項１〜３の何れか一項に記載の音声
認識システム。
【請求項５】認識された前記一以上の認識単語の数が
前記認識システムにおいて予め登録された数に一致しな
かったときには、前記認識された一以上の単語のうち長
母音一音節を有する音素に対応する認識単語を、前記長
母音に対応する短母音音素に対応する認識単語の繰り返
しに置換する手段、または、前記認識された一以上の単
語のうち短母音一音節を有する音素に対応する認識単語
の繰り返しを、前記短母音に対応する長母音音素に対応
する認識単語に置換する手段をさらに備えた請求項１〜
４の何れか一項に記載の音声認識システム。
【請求項６】同一人物の一定期間内の会話において、第１音声を入力し、前記第１音声から音素列を生成する
ステップと、認識単語とそれを発音表記する音素列との対応が記録さ
れた対応情報を検索し、前記第１音声で生成された音素
列と前記対応情報内の音素列との対比から一以上の認識
単語を生成するステップと、認識された音素列に対応する認識単語に複数の音素列が
対応付けられて記録されている場合、前記複数の音素列
のうち前記認識された音素列と異なる少なくとも１つの
音素列の発声予想確率を低下させるステップと、第２音声を入力し、前記第２音声から音素列を生成する
ステップと、前記音素列の発声予想確率を低下させた対応情報を検索
し、前記第２音声で生成された音素列と前記対応情報内
の音素列との対比から一以上の認識単語を生成するステ
ップと、を含む音声認識方法。
【請求項７】同一の前記認識単語を発音表記する異な
る音素列について、予め測定された発声予想確率に適合
する数の前記音素列とそれに対応する前記認識単語とを
前記対応情報に含める請求項６記載の音声認識方法。
【請求項８】前記一定期間は、連続した会話内の期間
または当日内の複数の会話を含む期間である請求項６ま
たは７記載の音声認識方法。
【請求項９】認識された一以上の認識単語のうち少な
くとも一部を話者に照会して前記一以上の認識単語の認
識に誤りがあるか否かを判断するステップと、前記誤りが認められたときには、前記一以上の認識単語
をそれが誤認識されやすい一以上の認識単語に置換する
ステップと、をさらに含む請求項６〜８の何れか一項に記載の音声認
識方法。
【請求項１０】認識された前記一以上の認識単語の数
が前記認識システムにおいて予め登録された数に一致し
なかったときには、前記認識された一以上の認識単語の
うち長母音一音節を有する音素に対応する認識単語を、
前記長母音に対応する短母音音素に対応する認識単語の
繰り返しに置換するステップ、または、前記認識された
一以上の単語のうち短母音一音節を有する音素に対応す
る認識単語の繰り返しを、前記短母音に対応する長母音
音素に対応する認識単語に置換するステップ、をさらに
含む請求項６〜９の何れか一項に記載の音声認識方法。
【請求項１１】音声を認識するプログラムコードが記
録されたコンピュータ可読な記録媒体であって、前記プ
ログラムコードには、音声を入力し、前記音声から音素列を生成するプログラ
ムコードと、認識単語とそれを発音表記する音素列との対応が記録さ
れた対応情報を検索し、前記音声で生成された音素列と
前記対応情報内の音素列との対比から一以上の認識単語
を生成するプログラムコードと、認識された音素列に対応する認識単語に複数の音素列が
対応付けられて記録されている場合、前記複数の音素列
のうち前記認識された音素列と異なる少なくとも１つの
音素列の発声予想確率を低下させるプログラムコード
と、を含むコンピュータ可読な記録媒体。