JP2003186494A

JP2003186494A - 音声認識装置および方法、記録媒体、並びにプログラム

Info

Publication number: JP2003186494A
Application number: JP2001382579A
Authority: JP
Inventors: Atsuo Hiroe; 厚夫廣江
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-12-17
Filing date: 2001-12-17
Publication date: 2003-07-04

Abstract

(57)【要約】【課題】未知語を含む入力音声を連続音声認識する。【解決手段】ステップＳ１で、ディジタル音声信号の
入力があると判定するまで待機する。ステップＳ２で、
入力音声から未知語の検出を開始する。ステップＳ３
で、未知語が検出されたか否かを判定し、未知語が検出
された場合、ステップＳ４で、検出した未知語の音韻系
列を取得する。ステップＳ５で、検出した未知語を認識
用辞書に登録し、ステップＳ６で、追加登録した未知語
「タロウ」を反映させて言語モデル８を更新する。ステ
ップＳ３で、未知語が検出されない場合、ステップＳ７
で、入力音声に対して連続音声認識を実行して対応する
文字列を生成する。なお、ステップＳ３乃至Ｓ６の処理
に引き続き、ステップＳ７以降の処理を実行するように
してもよい。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び方法、記録媒体、並びにプログラムに関し、例えば、
未知語を含む入力音声を対応する単語列に変換する場合
に用いて好適な音声認識装置および方法、記録媒体、並
びにプログラムに関する。

【０００２】

【従来の技術】従来、ユーザが発する音声を認識し、認
識結果に対応して所定の動作を実行するロボット（以
下、音声認識ロボットと記述する）などが存在する。

【０００３】例えば、音声認識ロボットに対し、ユーザ
が「君の名前はタロウです」と話し掛ける場合におい
て、発声のうちの「タロウ」が未知語（音声認識ロボッ
トが内蔵する認識用辞書に登録されていない語）である
とする。

【０００４】この場合、一般的な音声認識では、認識用
辞書に予め登録されている語だけが認識されるので、認
識用辞書に未登録の語（未知語）は認識結果に現れな
い。したがって、ユーザの発声「君の名前はタロウで
す」に対する認識結果は、「タロウ」の部分とその前後
の区間が誤認識されたものとなる。

【０００５】このような場合、ユーザの発声「君の名前
はタロウです」のうちの未知語「タロウ」を、音声認識
ロボットが自動的に検出して、未知語を認識用辞書に追
加登録するようになると便利である。

【０００６】さらに、追加登録された単語「タロウ」を
含む任意の入力音声を認識できるようになることが望ま
しい。例えば、ユーザの発声「タロウ」は勿論、入力音
声「タロウさん、こんにちは」、「こっちに来て、タロ
ウくん」なども認識できるようになることが望ましい。

【０００７】ところで、認識用辞書に単語を追加登録す
ることに関し、孤立単語音声認識の場合、単に認識用辞
書に単語を追加すれば、追加した単語が認識されるよう
になる。

【０００８】しかしながら、連続音声認識の場合、単に
認識用辞書に単語を追加しただけでは不十分であり、追
加した単語を言語モデルに反映させる必要がある。例え
ば、単語「タロウ」を認識用辞書に追加するならば、単
語「タロウ」を言語モデルにも反映させることによっ
て、単語「タロウ」を含む任意の単語列「タロウくんこ
んにちは」、「こっちに来て、タロウくん」などの言語
的なスコアを計算できるようにする必要がある。

【０００９】ここで、言語モデルとは、認識用辞書に登
録されている各単語がどのように連鎖するか（接続する
か）に関する情報を記述したものである。言語モデルの
記述方法としては、統計的な単語連鎖確率（n-gram）を
用いる方法、有限状態オートマトンベースの文法を用い
る方法、接続マトリクスを用いる方法などが挙げられ
る。

【００１０】以上のように、音声認識ロボットが未知語
を含むユーザの発声を認識できるようになるためには、
以下の４つの機能を有することが必要となる。入力され
た音声のうちの未知語を検出する第１の機能。検出した
未知語を認識用辞書に追加登録する第２の機能。認識用
辞書に追加登録した単語を言語モデルに反映させる第３
の機能。更新した認識用辞書および言語モデルを用いて
連続音声認識を実行する第４の機能。

【００１１】

【発明が解決しようとする課題】例えば特許第３０２５
９３２号公報には、検出した未知語を認識用辞書に追加
登録する第２の機能については開示されているが、更新
した認識用辞書を連続音声認識に用いる第４の機能につ
いては、開示は勿論、示唆もされていない。また、ここ
で開示されている発明によって更新された認識用辞書
は、後述する理由により、大語彙音声認識で使用される
認識用辞書との整合性が取り難い課題があった。

【００１２】例えば、ユーザの発声「はい」および「い
いえ」の２単語だけを区別して認識させるような、認識
すべき語彙数が少ない小語彙音声認識の場合、各単語に
対応するクラスタや標準テンプレートや隠れマルコフモ
デル（以下、HMM(Hidden Markov Model)などを用意すれ
ば、単語を認識することができる。

【００１３】単語毎にクラスタを用意する方法では、特
徴量の空間において、「はい」に対応したクラスタと、
「いいえ」に対応したクラスタを用意する。そして、入
力音声がどちらのクラスタに属するのか、あるいはどち
らのクラスタにも属さないのかを判定するようにする。

【００１４】単語毎にHMMを用意する方法では、発声
「はい」に対応して学習したHMMと、発声「いいえ」に
対応して学習したHMMとを用意し、入力された音声に対
して最も高いスコアを示すHMMに対応する一方を認識結
果とする。なお、HMMは、２つの単語にそれぞれ対応し
た発声を大量に用意して、予め学習させる必要がある。

【００１５】しかしながら、数多くの単語を認識しなけ
ればならない大語彙音声認識の場合、単語毎にクラス
タ、またはHMMなどの音響モデルを用意することは困難
である。そこで、単語毎ではなく、単語を構成する音韻
毎にHMMを用意する方法が用いられる。

【００１６】例えば単語「とうきょう」を認識するため
のHMMを、４つの音韻“t”，“ｏ：”，“ｋｙ”，
“ｏ：”のそれぞれに対応したHMM（予め学習されてい
るものとする）を連結することで構成する。

【００１７】すなわち、大語彙音声認識の場合、単語を
認識用辞書に登録するためには、登録する単語の音韻系
列（発音の情報）が必要となる。例えば、単語「タロ
ウ」を登録するためには、それに対応する音韻系列“ｔ
/ａ/ｒ/ｏ：”が必要となり、単語「とうきょう」を登
録するためには、それに対応する音韻系列“ｔ/ｏ：/ｋ
ｙ/ｏ：”が必要となる。

【００１８】しかしながら、自動的に未知語を検出して
認識用辞書に登録する従来の技術では、追加登録する単
語に対し、クラスタやHMMなどの単語モデルを新たに作
成する方法がほとんどであり、音韻系列についてはその
情報を有していないので、大語彙音声認識では使用し難
い課題があった。

【００１９】また、例えば特開２００１−９２４８９号
公報には、認識用辞書に追加登録した単語を言語モデル
に反映させる第３の機能と、更新した認識用辞書および
言語モデルを用いて連続音声認識を実行する第４の機能
について開示されているが、未知語を検出する第１の機
能に相当ことと、未知語を認識用辞書に登録する第２の
機能に相当ことについては、ユーザが手動で実行するこ
とを前提としており、第１乃至第４の機能の全てを統合
することについては言及されていない。

【００２０】以上のように、上述した第１乃至第４の機
能のいずれかに関する発明やそれを有する音声認識用の
システムは存在したが、第１乃至第４の機能の全てを統
合する発明や全ての機能を有するシステムは存在してい
ない。すなわち、従来、未知語を含む音声も連続音声認
識できる技術は確立されていない課題があった。

【００２１】本発明はこのような状況に鑑みてなされた
ものであり、未知語を含む入力音声を連続音声認識でき
るようにすることを目的とする。

【００２２】

【課題を解決するための手段】本発明の音声認識装置
は、入力音声に含まれる未知語を検出する検出手段と、
検出手段によって検出された未知語に対応する発音情報
を取得する取得手段と、検出手段によって検出された未
知語を新規語として、取得手段によって取得された発音
情報とを対応付けて認識用辞書に登録する登録手段と、
登録手段によって登録された新規語を反映させて言語モ
デルを更新する更新手段と、更新手段によって更新され
た言語モデルに基づき、未知語を含む入力音声に対応す
る単語列の言語スコアを算出する算出手段とを含むこと
を特徴とする。

【００２３】前記検出手段は、クラスタリング法に従
い、入力音声に含まれる未知語を検出するようにするこ
とができ、前記取得手段は、クラスタリング法に従い、
検出手段によって検出された未知語に対応する発音情報
を取得するようにすることができる。

【００２４】本発明の音声認識装置は、登録手段によっ
て登録された新規語が属するクラスを設定して、認識用
辞書に登録されている単語が属するクラスを示す対応テ
ーブルに追記する設定手段をさらに含むことができ、前
記更新手段は、登録手段によって登録された新規語を反
映させてクラスベースの言語モデルを更新するようにす
ることができる。

【００２５】前記設定手段は、登録手段によって登録さ
れた新規語が属するクラスを設定して、認識用辞書に包
含された対応テーブルに追記するようにすることができ
る。

【００２６】前記設定手段は、クラスベースの有限状態
オートマトンに基づいて算出される言語スコアが最大と
なるように、登録手段によって登録された新規語が属す
るクラスを設定して、対応テーブルに追記するようにす
ることができる。

【００２７】前記設定手段は、クラスベースの統計言語
モデルに基づいて算出される言語スコアが最大となるよ
うに、登録手段によって登録された新規語が属するクラ
スを設定して、対応テーブルに追記するようにすること
ができる。

【００２８】前記設定手段は、クラスベースの有限状態
オートマトンに予め用意されているクラスを、登録手段
によって登録された新規語が属するクラスとして設定し
て、対応テーブルに追記するようにすることができる。

【００２９】前記更新手段は、登録手段によって登録さ
れた新規語を反映させて単語ベースの言語モデルを更新
するようにすることができる。

【００３０】本発明の音声認識方法は、入力音声に含ま
れる未知語を検出する検出ステップと、検出ステップの
処理で検出された未知語に対応する発音情報を取得する
取得ステップと、検出ステップの処理で検出された未知
語を新規語として、取得ステップの処理で取得された発
音情報とを対応付けて認識用辞書に登録する登録ステッ
プと、登録ステップの処理で登録された新規語を反映さ
せて言語モデルを更新する更新ステップと、更新ステッ
プの処理で更新された言語モデルに基づき、未知語を含
む入力音声に対応する単語列の言語スコアを算出する算
出ステップとを含むことを特徴とする。

【００３１】本発明の記録媒体のプログラムは、入力音
声に含まれる未知語を検出する検出ステップと、検出ス
テップの処理で検出された未知語に対応する発音情報を
取得する取得ステップと、検出ステップの処理で検出さ
れた未知語を新規語として、取得ステップの処理で取得
された発音情報とを対応付けて認識用辞書に登録する登
録ステップと、登録ステップの処理で登録された新規語
を反映させて言語モデルを更新する更新ステップと、更
新ステップの処理で更新された言語モデルに基づき、未
知語を含む入力音声に対応する単語列の言語スコアを算
出する算出ステップとを含むことを特徴とする。

【００３２】本発明のプログラムは、入力音声に含まれ
る未知語を検出する検出ステップと、検出ステップの処
理で検出された未知語に対応する発音情報を取得する取
得ステップと、検出ステップの処理で検出された未知語
を新規語として、取得ステップの処理で取得された発音
情報とを対応付けて認識用辞書に登録する登録ステップ
と、登録ステップの処理で登録された新規語を反映させ
て言語モデルを更新する更新ステップと、更新ステップ
の処理で更新された言語モデルに基づき、未知語を含む
入力音声に対応する単語列の言語スコアを算出する算出
ステップとをコンピュータに実行させることを特徴とす
る。

【００３３】本発明の音声認識装置および方法、並びに
プログラムにおいては、入力音声に含まれる未知語が検
出され、検出された未知語に対応する発音情報が取得さ
れ、検出された未知語を新規語として、取得された発音
情報とを対応付けて認識用辞書に登録される。また、登
録された新規語を反映させて言語モデルが更新され、更
新された言語モデルに基づき、未知語を含む入力音声に
対応する単語列の言語スコアが算出される。

【００３４】

【発明の実施の形態】本発明を適用した音声認識装置の
構成例について、図１を参照して説明する。この音声認
識装置は、例えば、音声認識ロボットに搭載したり、デ
ィスプレイに表示させる仮想的なキャラクタに適用した
りすることができる。

【００３５】制御部１は、当該音声認識装置の全体、特
に未知語登録部５および音声認識部６を制御する。マイ
クロフォン２は、ユーザなどが発する音声（以下、入力
音声と記述する）を取得し、アナログ音声信号としてＡ
Ｄ変換部３に出力する。ＡＤ変換部３は、マイクロフォ
ン２から入力されるアナログ音声信号を、サンプリング
し、量子化することにより、ディジタル音声信号に変換
して特徴抽出部４に出力する。特徴抽出部４は、ＡＤ変
換部３から入力されるディジタル音声信号を解析するこ
とにより、所定のフレーム毎、スペクトル、パワー、線
形予測係数、ケプストラム係数、線スペクトル対などの
特徴パラメータを抽出して、未知語登録部５および音声
認識部６に供給する。

【００３６】未知語登録部５は、特徴抽出部４から入力
される特徴パラメータに基づき、入力音声に含まれる未
知語を検出し、検出した未知語の発音を示す音韻系列を
取得する。さらに、未知語登録部５は、検出した未知語
を新規語として、取得する音韻系列と対応付けて認識用
辞書７に追加登録する。さらに、未知語登録部５は、認
識用辞書７に追加登録した新規語を反映させて言語モデ
ル８を更新する。

【００３７】音声認識部６は、内蔵するマッチング部１
０により、入力音声に対して一般的な連続音声認識を実
行し、対応する単語列に変換する。認識結果である単語
列は、後段の装置（入力される文字列に対応して所定の
処理を実行する装置など）に出力される。

【００３８】認識用辞書７には、登録されている各単語
について、その単語シンボル（文字列）と音韻系列、音
韻や音節の連鎖関係を記述したモデルが記録されてい
る。ここで、単語シンボルとは、当該単語と他の単語と
区別するための用途や、言語モデル８に記録されている
情報を照合するために用いる文字列である。音韻系列
は、当該単語の発音記号に関する記号である。

【００３９】なお、本明細書における「単語」の用語
は、後述する一連の処理を実行する場合において、１個
のまとまりとして扱うことが都合よい文字列の単位を指
すものとする。したがって、本明細書における「単語」
の用語は、言語学における「単語」の用語とは一致しな
いことがある。したがって、本発明では、例えば「タロ
ウくん」を、１個の単語として扱うようにしてもよい
し、「タロウ」と「くん」の２個の単語として扱うよう
にしてもよい。さらに、「こんにちはタロウくん」を１
個の単語として扱うようにしてもよい。

【００４０】また、本明細書における「音韻」の用語
は、後述する一連の処理を実行する場合において、音響
的に１個のまとまりとして扱うことが都合よい音の単位
を指すものとする。したがって、本明細書における「音
韻」の用語は、音声学における「音韻」や「音素」の用
語とは、一致しないことがある。

【００４１】したがって、本発明では、例えば単語「東
京」の「東」を、音韻系列“ｔ/ｏ/ｕ”と表わす他、長
音を示す記号“：”を用いて“ｔ/ｏ：”と表わすよう
にしてもよいし、あるいは、“ｔ/ｏ/ｏ”と表わすよう
にしてもよい。また、無音を表わす記号を用意してもよ
い。さらに無音を、「発話前の無音」、「発話に挟まれ
た短い無音」、「発話後の無音」、「促音の無音」のよ
うに細かく分類し、それぞれに記号を用意するようにし
てもよい。

【００４２】言語モデル８には、認識用辞書７に登録さ
れている各単語がどのように連鎖するかを示す情報が記
録されている。当該情報には、クラスベースの有限状態
オートマトン(FSA)、単語ベースの統計言語モデル(n-gr
am)、クラスベースの統計言語モデル(n-gram)、単語ベ
ースの接続マトリクス、またはクラスベースの接続マト
リクスなどを用いることができる。なお、言語モデル８
の詳細については、図５乃至図２２を参照して後述す
る。

【００４３】音響モデル９には、音声認識する音声の個
々の音韻や音節などの音響的な特徴を表わすモデルが記
録されている。音響モデルとしては、例えばHMMを用い
ることができる。

【００４４】マッチング部１０は、認識用辞書７に登録
されている単語を参照することにより、音響モデル９に
記録されている音韻のモデルを接続して、単語に対応す
る音響モデル（単語モデル）を生成する。さらに、マッ
チング部１０は、複数の単語モデルを連結して複数の単
語列（すなわち、認識結果として出力する単語列候補）
を生成し、生成した複数の単語列候補それぞれについ
て、音響スコアおよび言語スコアを算出する。さらに、
マッチング部１０は、生成した複数の単語列候補のう
ち、音響スコアと言語スコアの合計とを統合したスコア
が最も高い単語列候補を、認識結果の単語列として出力
する。なお、生成した複数の単語列のうち、統合スコア
の上位ｎ個の単語列候補を認識結果として出力するよう
にすることもできる。

【００４５】ここで、音響スコアとは、入力音声の音
と、認識結果の単語列の音との近似の程度を表わす尺度
であり、その算出には、例えばHMM法を用いることがで
きる。言語スコアとは、認識結果の単語列が、言語とし
て実際に存在し得る可能性を表わす尺度である。その算
出方法は、言語モデルの種類によって異なる（詳細は後
述する）。

【００４６】次に、図１の音声認識装置の動作につい
て、図２のフローチャートを参照して説明する。

【００４７】ステップＳ１において、制御部１は、特徴
抽出部４に対してディジタル音声信号の入力があるか否
かを判定し、ディジタル音声信号の入力があると判定す
るまで待機する。ディジタル音声信号の入力があると判
定された場合、特徴抽出部４は、制御部１からの制御に
基づき、ディジタル音声信号を解析し、抽出した特徴パ
ラメータを未知語登録部５および音声認識部６に供給す
る。処理はステップＳ２に進む。

【００４８】ステップＳ２において、未知語登録部５
は、制御部１の制御に従い、入力音声から、未知語の検
出を開始する。ステップＳ３において、制御部１は、未
知語登録部５によって入力音声から未知語が検出された
か否かを判定する。未知語が検出されたと判定された場
合、処理はステップＳ４に進む。ステップＳ４におい
て、未知語登録部５は、検出した未知語の音韻系列を取
得する。例えば、未知語が「タロウ」である場合、その
音韻系列“ｔ/ａ/ｒ/ｏ：”を取得する。

【００４９】なお、未知語の検出と音韻系列の取得の方
法には、例えば本出願人が既に提案した特願２００１−
９７８４３号（以下、先願１と記述する）に記載の方法
を適用することができる。

【００５０】先願１の方法は、入力音声から未知語を検
出し、検出した未知語を複数のクラスタに分類するもの
である。例えば、３種類の入力音声「これはあかで
す」、「これはあおです」、および「これはみど
りです」に対し、それぞれ未知語として「あか」、
「あお」、「みどり」が検出されたとする。この場合、
未知語「あか」、「あお」、「みどり」は、それぞれ、
新たに生成される異なる３つのクラスタに分類し、異な
る３つのクラスタに、それぞれ、代表となる音韻系列
“ａ/ｋ/ａ”，“ａ/ｏ”，“ｍ/ｉ/ｄ/ｏ/ｒ/ｉ”を設
定する。

【００５１】この後、例えば、入力音声として「これは
あかです」が再び入力された場合、新たなクラスタ
は生成されることなく、未知語「あか」は、音韻系列
“ａ/ｋ/ａ”を代表とする既成のクラスタに分類され
る。

【００５２】また例えば、入力音声として「これはく
ろです」（「くろ」は未知語であるとする）が入力さ
れた場合には、未知語として「くろ」が検出され、未知
語「くろ」は、音韻系列“ｋ/ｕ/ｒ/ｏ”が代表として
設定され、新たに生成されるクラスタに分類される。

【００５３】以上説明したように、先願１の方法（本明
細書においては、クラスタリング法と称する）を未知語
登録部５による未知語の検出と音韻系列の設定に用いれ
ば、新たなクラスタが生成されたか否かに基づき、入力
音声に未知語が含まれているか否かを判定することがで
きる。また、新たに生成するクラスタには音韻系列を設
定するので、大語彙音声認識に適用することが容易であ
る。

【００５４】図２の説明に戻る。ステップＳ５におい
て、未知語登録部５は、検出した未知語を認識用辞書７
に登録する。具体的には、例えば入力音声のうちの音声
「タロウ」を未知語として登録する場合、図３に示すよ
うに、各単語の単語シンボル（文字列）と音韻系列が記
録されている認識用辞書７に対し、図４に示すように、
仮に「新規語１」などのシリアル番号を含む単語シンボ
ルと、その音韻系列“ｔ/ａ/ｒ/ｏ：”を登録する。

【００５５】ステップＳ６において、未知語登録部５
は、認識用辞書７に追加登録した未知語「タロウ」を反
映させて言語モデル８を更新する。すなわち、認識用辞
書７に追加登録した未知語「タロウ」を含む任意の単語
列について、その言語スコアを算出するために必要な情
報を生成する（詳細は後述する）。この後、認識用辞書
７に未知語が追加登録されたこと、および言語モデル８
が更新されたことを以降に実行される連続音声認識の処
理に反映させるため処理（例えば、当該音声認識装置の
再起動など）を、必要に応じて実行する。

【００５６】ステップＳ３において、未知語が検出され
ないと判定された場合、処理はステップＳ７に進む。ス
テップＳ７において、音声認識部１０は、制御部１から
の制御に従い、入力音声を連続音声認識して対応する文
字列を生成し、ステップＳ８において、認識結果である
文字列を後段に出力する。

【００５７】なお、ステップＳ３乃至Ｓ６の処理に引き
続き、ステップＳ７以降の処理を実行するようにしても
よい。すなわち、例えば、未知語「タロウ」を含む入力
音声「君の名前はタロウです」の「タロウ」を検出し、
認識用辞書７に追加登録し、言語モデル８を更新した直
後に、認識用辞書７および言語モデル８を用いて、入力
音声「君の名前はタロウです」を連続音声認識するよう
にしてもよい。このようにするためには、バッファメモ
リなどを設けて、認識用辞書７に追加登録する処理と言
語モデル８を更新する処理に期間、入力音声を一時的に
記憶するようにする。以上、音声認識装置の動作の説明
を終了する。

【００５８】次に、言語モデル８に用いることができる
クラスベースの有限状態オートマトン(FSA)、単語ベー
スの統計言語モデル(n-gram)、クラスベースの統計言語
モデル(n-gram)、単語ベースの接続マトリクス、および
クラスベースの接続マトリクスと、それぞれに対応する
言語スコアの算出方法（ステップＳ７の通常の音声認識
の処理の中で利用される）について説明する。

【００５９】図５は、言語モデル８に用いることができ
るクラスベースの有限状態オートマトンの一例を示して
いる。ここで「クラスベース」の用語は、有限状態オー
トマトンに、単語を直接的に記述するのではなく、その
代わりに、単語の集合であるクラスを記述するものであ
る。クラスベースの有限状態オートマトンは、文法を表
現するために用いられ、音声認識された単語列が文法的
に受理できるか否か（容認できるか否か）を判定するも
のである。

【００６０】図５において、〈先頭〉および〈終端〉
は、それぞれ、単語列の文頭または文末（あるいは、発
話前の無音または文末の無音）を表わす特殊なシンボル
である。〈物体〉は、物体を表わす単語からなる集合に
対応するクラスシンボルである。〈ロボット名〉は、ロ
ボット名を表わす単語からなる集合に対応するクラスシ
ンボルである。状態ＳＴ１乃至ＳＴ９は、音声認識の進
捗状況を示す状態であり、特に状態ＳＴ９は終了状態で
あり、終了状態まで遷移することができれば、その単語
列は受理されたことになる。

【００６１】オートマトンの各遷移には、遷移確率また
は遷移コストを付与することができる。そのようにする
ことで、単語列の「受理／非受理」だけでなく、受理さ
れた場合の確率やスコアも計算できる。

【００６２】なお、各単語が何処の集合（以下、クラス
と記述する）に属しているかを示す情報は、例えば図６
に示すような、各単語が属するクラスを示すテーブルを
用いて定義する。

【００６３】例えば、単語列「〈先頭〉こんにちは
アイボくん〈終端〉」が図５のクラスベースの有限
状態オートマトンによって受理されるか否かを説明す
る。状態ＳＴ１乃至状態ＳＴ３は問題なく遷移する。状
態ＳＴ３から状態ＳＴ４への遷移は単語「アイボ」が
〈ロボット名〉に属している場合だけ可能である。図６
によれば、単語「アイボ」は〈ロボット名〉に属してい
るので、この遷移は成功する。状態ＳＴ４，ＳＴ５，Ｓ
Ｔ９の遷移も、図５の例と同一であるので成功する。し
たがって、いまの場合、終了状態ＳＴ９まで遷移するこ
とができたので、単語列「〈先頭〉こんにちはアイ
ボくん〈終端〉」は受理される。すなわち、文法的
に容認されて、認識結果として出力される。

【００６４】また、例えば単語列「〈先頭〉アイボ
くんこんにちは〈終端〉」は、図５のクラスベース
の有限状態オートマトンによれば、状態ＳＴ２まで遷移
した後、それ以降に遷移できない、したがって、終了状
態ＳＴ９まで遷移することができないので、単語列
「〈先頭〉アイボくんこんにちは〈終端〉」は
受理されない。

【００６５】上述したように、クラスベースの有限状態
オートマトンを言語モデル８に採用する場合、図６に示
したような、各単語が属するクラスを示すテーブルが必
要となる。したがって、認識用辞書７に未知語「タロ
ウ」が追加登録される際には、図７に示すように、当該
テーブルにも、未知語とその属するクラスを追記して、
当該テーブルを更新する必要がある。このとき、未知語
「タロウ」が属するクラスは、例えば以下の第１乃至第
５の決定方法を用いて決定する。

【００６６】第１の決定方法は、特定のクラスに決め打
ちする方法である。具体的には、例えば、当該音声認識
装置がロボットに搭載されて利用される場合、未知語は
そのロボットの名前である可能性が高いので、全ての未
知語を、クラス〈ロボット名〉に決定するようにする。

【００６７】第２の決定方法は、未知語が属するクラス
をユーザに設定させる方法である。例えば、合成音声に
よって「『タロウ』のクラスを教えてください」、
「『タロウ』はロボット名ですか、または物体ですか」
などとユーザに質問し、その回答を音声認識して、その
音声認識結果に基づき、未知語が属するクラスを決定す
るようにする。

【００６８】第３の決定方法は、遷移に確率やスコアが
付与されたオートマトンを使用している場合や他にクラ
スベースのn-gramを併用している場合に使用可能な方法
で、未知語に対して順次異なるクラスを仮に決定し、そ
の状態で言語スコアを算出し、言語スコアが最大となる
クラスを、未知語のクラスに決定する方法である。例え
ば、未知語「タロウ」が認識用辞書７に追加登録された
後、入力音声「こんにちはタロウくん」を音声認識
する場合、認識結果は単語列「〈先頭〉こんにちは
新規語１くん〈終端〉」となる。

【００６９】ここで例えば、既存のクラスが〈物体〉と
〈ロボット名〉であるとすれば、単語列「〈先頭〉こ
んにちは〈物体〉くん〈終端〉」の言語スコア
と、「〈先頭〉こんにちは〈ロボット名〉くん
〈終端〉」の言語スコアを算出して両者を比較する。

【００７０】単語列「〈先頭〉こんにちは〈物体〉
くん〈終端〉」の言語スコアの方が高い場合、単語
「タロウ」のクラスを〈物体〉に決定するようにする。
反対に、単語列「〈先頭〉こんにちは〈ロボット
名〉くん〈終端〉」の言語スコアの方が高い場合、
単語「タロウ」のクラスを〈ロボット名〉に決定するよ
うにする。

【００７１】第４の決定方法は、未知語に対して順次異
なるクラスを仮に決定し、その状態でクラスベースの有
限状態オートマトンによって受理されるか否かを判定
し、受理されたときのクラスを、未知語のクラスに決定
する方法である。

【００７２】例えば、未知語「タロウ」が認識用辞書７
に追加登録された後、入力音声「こんにちはタロウ
くん」を音声認識する場合、認識結果は単語列「〈先
頭〉こんにちは新規語１くん〈終端〉」となる。
ここで例えば、既存のクラスが〈物体〉と〈ロボット
名〉であるとすれば、単語列「〈先頭〉こんにちは
〈物体〉くん〈終端〉」と、単語列「〈先頭〉こ
んにちは〈ロボット名〉くん〈終端〉」が、クラ
スベースの有限状態オートマトンによって受理されるか
否かを判定する。

【００７３】図６のクラスベースの有限状態オートマト
ンでは、単語列「〈先頭〉こんにちは〈ロボット
名〉くん〈終端〉」は受理されるが、単語列「〈先
頭〉こんにちは〈物体〉くん〈終端〉」は受理され
ないので、単語「タロウ」のクラスを〈ロボット名〉に
決定するようにする。

【００７４】第５の決定方法は、先願１に記載されてい
る方法を拡張した方法である。先願１に記載の方法で
は、例えば、未知語を検出するための文法として、図８
のようなクラスベースの有限状態オートマトンが用意さ
れる。同図において〈ＯＯＶ〉（Out Of Vocabulary。
後述の〈未知語〉とは別のシンボルである）は未知語
（認識辞書に含まれない単語）を表わすシンボルであ
り、入力音声が状態ＳＴ６または状態ＳＴ９まで遷移で
きた場合、〈ＯＯＶ〉に相当する入力音声の音韻系列
を、音韻タイプライタを用いることによって取得する。

【００７５】例えば、未知語「アイボ」を含む入力音声
「君の名前はアイボ」は、状態ＳＴ１乃至ＳＴ
６を問題なく遷移し、入力音声「アイボ」が未知語とし
て検出されると同時に、音韻タイプライタによって入力
音声「アイボ」に対応する音韻系列が取得される。この
後、状態ＳＴ７，ＳＴ１０に遷移して受理される。

【００７６】また例えば、未知語「鉛筆」を含む入力音
声「これは鉛筆」は、状態ＳＴ２，ＳＴ８，ＳＴ９
の順に問題なく遷移し、入力音声「鉛筆」が未知語とし
て検出されると同時に、音韻タイプライタによって入力
音声「鉛筆」に対応する音韻系列が取得される。この
後、状態ＳＴ７，ＳＴ１０に遷移して受理される。

【００７７】本発明の第５の決定方法では、未知語を表
すシンボル〈ＯＯＶ〉を拡張して、属するクラスを示す
未知語のシンボルを設定するようにし、例えば、図９に
示すようなクラスベースの有限状態オートマトンを用意
するようにする。図９において、〈ロボット名〉::〈Ｏ
ＯＶ〉は、クラス〈ロボット名〉に属する未知語のシン
ボルである。また、〈物体名〉::〈ＯＯＶ〉は、クラス
〈物体名〉に属する未知語のシンボルである。

【００７８】図９の有限状態オートマトンにより、例え
ば、未知語「アイボ」を含む入力音声「君の名前は
アイボ」は、状態ＳＴ１乃至ＳＴ６は問題なく遷移
し、入力音声「アイボ」が未知語として検出されると同
時に、未知語「アイボ」はクラス〈ロボット名〉に分類
される。この後、状態ＳＴ７，ＳＴ１０に遷移して受理
される。

【００７９】また例えば、未知語「鉛筆」を含む入力音
声「これは鉛筆」は、状態ＳＴ２，ＳＴ８，ＳＴ９
の順に問題なく遷移し、入力音声「鉛筆」が未知語とし
て検出されると同時に、未知語「鉛筆」はクラス〈物体
名〉に分類される。この後、状態ＳＴ７，ＳＴ１０に遷
移して受理される。

【００８０】言語モデル８にクラスベースの有限状態オ
ートマトンを用いた場合において、ステップＳ７の通常
の音声認識処理の中で用いられる、言語スコアを算出す
る方法について説明する。

【００８１】クラスベースの有限状態オートマトン上を
遷移可能であるか否かを判定する際、クラスに属する単
語をクラスシンボルに置換して（例えば、単語「アイ
ボ」をクラスシンボル〈ロボット名〉に置換して）、遷
移が可能であるか否か（受理か不受理か）を判定するよ
うにし、判定結果に対応して言語スコアを付与するよう
にする。受理と判定された場合、言語スコアとして例え
ば１を付与し、不受理と判定された場合、言語スコアと
して例えば０を付与するようにする。

【００８２】次に、言語モデル８に用いることができる
単語ベースの統計言語モデル(n-gram)について説明す
る。

【００８３】ここで、統計言語モデル(n-gram)とは、ｎ
個の単語が連鎖する可能性を示す確率を記述したデータ
ベースのことであり、一般的には、ｎ＝３のtri-gram、
ｎ＝２のbi-gram、ｎ＝１のuni-gramがよく用いられ
る。

【００８４】図１０は、単語ベースのtri-gramの一例を
示している。同図において、ｗ₁は３連鎖の先頭の単語
を示し、ｗ₂は２番目の単語を示し、ｗ₃は３番目の単語
を示している。例えば「〈先頭〉これはサンプルで
す〈終端〉」という単語列の中の「サンプルです〈終
端〉」という３連鎖に注目した場合、ｗ₁=サンプル，ｗ
₂=です，ｗ₃=〈終端〉である。Ｐ（ｗ₃｜ｗ₁，ｗ₂）は
単語ｗ₁，ｗ₂に続いて単語ｗ₃が連鎖する確率を示して
いる。例えばＰ（サンプル｜これ，は）は、単語「こ
れ」、「は」に続いて単語「サンプル」が連鎖する確率
を示している。

【００８５】ところで、例えば、単語列「〈先頭〉これ
はサンプルの文です〈終端〉」の言語スコア
に相当する生成確率Ｐ（〈先頭〉これはサンプル
の文です〈終端〉）は、次式（１）に従って算出
するが、tri-gramを用いた場合、式（１）は次式（２）
によって近似することができる。

【００８６】Ｐ（〈先頭〉これはサンプルの文です〈終端〉）＝Ｐ（〈先頭〉）・Ｐ（これ｜〈先頭〉）・Ｐ（は｜〈先頭〉，これ）・Ｐ（サンプル｜〈先頭〉，これ，は）・Ｐ（の｜〈先頭〉，これ，は，サンプル）・Ｐ（文｜〈先頭〉，これ，は，サンプル，の）・Ｐ（です｜〈先頭〉，これ，は，サンプル，の，文）・Ｐ（〈終端〉｜〈先頭〉，これ，は，サンプル，の，文，です）・・・（１）

【００８７】Ｐ（〈先頭〉これはサンプルの文です〈終端〉） ≒Ｐ（〈先頭〉）・Ｐ（これ｜〈先頭〉）・Ｐ（は｜〈先頭〉，これ）・Ｐ（サンプル｜これ，は）・Ｐ（の｜は，サンプル）・Ｐ（文｜サンプル，の）・Ｐ（です｜の，文）・Ｐ（〈終端〉｜文，です）・・・（２）

【００８８】図１０の〈未知語〉は、n-gramに出現しな
い単語（認識辞書には含まれていてもよい）を表わす特
殊なシンボルである。このように、〈未知語〉を含むエ
ントリも用意することにより、n-gramに出現しない単語
を含む単語列（未知語を追加登録した場合、このような
単語列が出現し得る）の言語スコアを算出することが可
能となる。

【００８９】なお、tri-gramの確率Ｐ（ｗ₃｜ｗ₁，
ｗ₂）は、音声認識を実行する前に予め算出して設定す
る。具体的には、例えば新聞のような、認識対象の発話
に類似した表現を含む文章を大量に用意し、その文書中
において単語が連鎖している件数をカウントして、カウ
ントした値に基づいてする確率を算出する。

【００９０】例えば、確率Ｐ（サンプル｜これ，は）を
算出するには、文書中の単語「これ」に単語「は」が連
鎖している件数をカウントする。例えば、その値が１０
００件であるとする。つぎに、文書中の単語「これ」、
「は」に単語「サンプル」が連鎖している件数をカウン
トする。例えば、その値が１０件であるとする。この場
合、確率Ｐ（サンプル｜これ，は）は０．０１（＝１０
／１０００）と算出される。ただし、実用的には、後述
するバックオフスムージングを実行して、０．０１より
も小さな値を設定するようにする。

【００９１】なお、上述したような所定の単語が連鎖し
ている件数をカウントする方法では、所定の単語の連鎖
が文書中に存在していなければ、０件とカウントし、そ
の確率を０と算出してしまう。そのような事態を防ぐた
め、一般的には所定の単語の連鎖の確率が０とならない
ように、バックオフスムージングが行なわれる。

【００９２】バックオフスムージングは、tri-gramのエ
ントリが存在しない場合、tri-gramの確率を、次式（３
−１），（３−２）に示すように、bi-gramでの確率を
用いて推定する方法である。Ｐ（ｗ₃｜ｗ₁，ｗ₂）＝β（ｗ₁，ｗ₂）・Ｐ（ｗ₃｜ｗ₂）（バックオフ係数β（ｗ₁，ｗ₂）が存在する場合）・・・（３−１）Ｐ（ｗ₃｜ｗ₁，ｗ₂）＝Ｐ（ｗ₃｜ｗ₂）（バックオフ係数β（ｗ₁，ｗ₂）が存在しない場合）・・・（３−２）

【００９３】さらに、bi-gramでの確率が存在しない場
合、bi-gramでの確率を、次式（４−１），（４−２）
に示すように、uni-gramでの確率を用いて推定する。Ｐ（ｗ₃｜ｗ₂）＝β（ｗ₂）・Ｐ（ｗ₃）（バックオフ係数β（ｗ₂）が存在する場合）・・・（４−１）Ｐ（ｗ₃｜ｗ₂）＝Ｐ（ｗ₃）（バックオフ係数β（ｗ₂）が存在しない場合）・・・（４−２）

【００９４】ここで、バックオフ係数は、確率の総和が
１を超過しないようにするための係数であり、n-gramで
の確率を計算する際に同時に算出する。

【００９５】このように、バックオフスムージングを実
行する場合、tri-gramの他、図１１に示すようなbi-gra
mと、図１２に示すようなuni-gramが必要となる。

【００９６】言語モデル８に単語ベースの統計言語モデ
ル(n-gram)を用いた場合において、認識用辞書７に追加
登録した未知語を言語モデル８に反映させて言語スコア
を算出する第１乃至第３の算出方法について説明する。

【００９７】第１の算出方法は、新聞のような、追加登
録した単語を含む文章および認識対象の発話に類似した
表現を含む文章を用い、再び確率を算出する方法であ
る。

【００９８】第２の算出方法は、追加登録した単語を、
n-gram上で〈未知語〉として扱う方法である。この方法
の場合、〈未知語〉を含むエントリを利用して言語スコ
アが求められる。例えば入力音声「タロウ」が未知語と
して検出され、新規語１として認識用辞書７に追加登録
された後、音声「こんにちはタロウくん」が入力さ
れた場合、この入力音声は、単語列「〈先頭〉こんに
ちは新規語１くん〈終端〉」に対して言語スコアを
算出する必要がある。

【００９９】この言語スコアの算出過程では、「新規語
１」を含むtri-gramの確率Ｐ(新規語１｜〈先頭〉，こ
んにちは)，Ｐ(くん｜こんにちは，新規語１)，Ｐ(〈終
端〉｜新規語１，くん)が必要であるが、これらは予め
用意したtri-gramにはエントリが存在しない。

【０１００】そこでこれらの確率を、〈未知語〉を含む
エントリを用い、次式（５）乃至（７）に示すように算
出する。Ｐ(新規語１｜〈先頭〉，こんにちは) ＝Ｐ(〈未知語〉｜〈先頭〉，こんにちは)・Ｐ(新規語１｜〈未知語〉) ・・・（５）Ｐ(くん｜こんにちは，新規語１) ＝Ｐ(くん｜こんにちは，〈未知語〉) ・・・（６）Ｐ(〈終端〉｜新規語１，くん) ＝Ｐ(〈終端〉｜〈未知語〉，くん) ・・・（７）

【０１０１】ただし、式（５）におけるＰ(新規語１｜
〈未知語〉)は、〈未知語〉に「新規語１」が連鎖して
いる確率であり、例えば〈未知語〉と見なされる単語が
「新規語１」を含めてＭ個だけ存在する場合、Ｐ(新規
語１｜〈未知語〉)＝１／Ｍのように簡単に計算され
る。

【０１０２】第３の算出方法は、例えば図１３に示すよ
うに、認識用辞書７に追加登録した「新規語１」に対応
するエントリをuni-gramに追加し、uni-gram 確率の総
和が１を超過しないように他の確率を小さくして、「新
規語１」に適切な確率値およびバックオフ係数を設定す
る方法である。具体的には、図１３の例のように、「新
規語１」のエントリが追加され、「新規語１」が以降の
認識結果中に出現し易いように、その確率Ｐ（新規語
１）として比較的大きめの値０．１００が設定され、バ
ックオフ係数β（新規語１）として０．０２が設定され
る。

【０１０３】なお、uni-gramだけに「新規語１」に対応
するエントリを追加する理由は、bi-gramやtri-gramは
大量のテキストを用いなければ確率が計算し難いことに
対し、uni-gramは大量のテキストを用いなくとも確率を
計算し易いことに起因している。

【０１０４】言語スコアを算出するために必要な「新規
語１」を含むtri-gramの確率Ｐ（新規語１｜〈先頭〉，
こんにちは）は、tri-gram中に存在しないので、bi-gra
mにバックオフされる。bi-gramへのバックオフは式（３
−１），（３−２）に示したように２種類あるが、いま
の場合、バックオフ係数β（〈先頭〉,こんにちは）が
存在するので、次式（８）に示すようにバックオフされ
る。

【０１０５】さらに式（８）中のbi-gramの確率Ｐ（新
規語１｜こんにちは）は存在しないのでuni-gramにバッ
クオフされる。uni-gramへのバックオフは式（４−
１），（４−２）に示したように２種類あるが、いまの
場合、バックオフ係数β（こんにちは）が存在するの
で、次式（９）に示すようにバックオフされる。

【０１０６】Ｐ（新規語１｜〈先頭〉，こんにちは）＝β（〈先頭〉，こんにちは）・Ｐ（新規語１｜こんにちは）・・・（８）＝β（〈先頭〉，こんにちは）・β（こんにちは）・Ｐ（新規語１）・・・（９）

【０１０７】同様に、言語スコアを算出するために必要
な「新規語１」を含むtri-gramの確率Ｐ（くん｜こんに
ちは，新規語１）は、tri-gram中に存在しないので、bi
-gramにバックオフされるが、いまの場合、バックオフ
係数β（こんにちは，新規語１）は存在しないので、次
式（１０）に示すようにバックオフされる。

【０１０８】さらに式（１０）中のbi-gramの確率Ｐ
（くん｜新規語１）は存在しないのでuni-gramにバック
オフされるが、いまの場合、バックオフ係数β（新規語
１）が存在するので、次式（１１）に示すようにバック
オフされる。Ｐ（くん｜こんにちは，新規語１）＝Ｐ（くん｜新規語１）・・・（１０）＝β（新規語１）・Ｐ（くん）・・・（１１）

【０１０９】また同様に、言語スコアを算出するために
必要な「新規語１」を含むtri-gramの確率Ｐ（〈終端〉
｜新規語１，くん）は、tri-gram中に存在しないので、
bi-gramにバックオフされるが、いまの場合、バックオ
フ係数β（新規語１，くん）は存在しないので、次式
（１２）に示すようにバックオフされる。

【０１１０】Ｐ（〈終端〉｜新規語１，くん）＝Ｐ（〈終端〉｜くん）・・・（１２）

【０１１１】なお、式（１２）の確率Ｐ（〈終端〉｜く
ん）はbi-gramに存在するので、uni-gramへのバックオ
フは必要ない。

【０１１２】次に、言語モデル８に用いることができる
クラスベースの統計言語モデル(n-gram)について説明す
る。クラスベースのn-gramとは、上述した単語ベースn-
gramにおける単語を、クラスシンボルに置換したもので
ある。ただし、単語とクラスシンボルの両方が混在して
もかまわない。

【０１１３】図１４は、単語とクラスシンボルの両方が
混在するクラスベースのuni-gramの一例を示している。
図１４において〈ロボット名〉および〈物体名〉はクラ
スシンボルである。なお、例えば〈名詞〉や〈動詞〉な
どのように各品詞に対応するクラスシンボルを設定する
ことが可能である。

【０１１４】クラスベースのn-gramは、上述した単語ベ
ースn-gramと同様に、uni-gramの他、bi-gramとtri-gra
mが必要である。

【０１１５】なお、各単語が何処のクラスに属している
かの情報は、例えば図１５に示すような、各単語が属す
るクラスを示すテーブルを設定する。また、同図におけ
るＰ（Ｃ｜ｗ）とＰ（ｗ｜Ｃ）については後述する。

【０１１６】言語モデル８にクラスベースの統計言語モ
デル(n-gram)を用いた場合、認識用辞書７に追加登録し
た未知語を言語モデル８に反映させることとは、すなわ
ち、図１５に示した単語とクラスの対応表に、追加登録
した未知語（新規語１）、そのクラス、そのＰ（Ｃ｜
ｗ）と、そのＰ（ｗ｜Ｃ）を追加して、図１６に示すよ
うに対応表を更新することである。

【０１１７】したがって、このとき、未知語のクラスを
推定して決定する必要が生じる。決定の方法は、上述し
た言語モデル８にクラスベースの有限状態オートマトン
を用いる場合における第１および第３の決定方法と同様
であるので、その説明は省略する。

【０１１８】ここで、音声認識の処理に含まれる、単語
列の言語スコアを算出するために必要となる、クラス間
のtri-gram確率から単語間のtri-gram確率を計算する方
法について説明する。すなわち、単語「ｗ₁」、「ｗ₂」
に連鎖して単語「ｗ₃」が存在するクラス間のtri-gram
確率Ｐ（ｗ₃｜ｗ₁，ｗ₂）は、次式（１３）に示すよう
にクラス間のtri-gram確率を用いて算出される。Ｐ（ｗ₃｜ｗ₁，ｗ₂）＝ΣＰ（Ｃ₁｜ｗ₁）・ΣＰ（Ｃ₂｜ｗ₂）・ΣＰ（Ｃ₃｜Ｃ₁，Ｃ₂）・Ｐ（ｗ₃｜Ｃ₃）・・・（１３）

【０１１９】ここで、Ｃ₁，Ｃ₂，Ｃ₃は、それぞれ、単
語「ｗ₁」、「ｗ₂」、「ｗ₃」が属するクラスを示す。
Σは、１つの単語が複数のクラスに属している場合、そ
れぞれのクラスについて確率値を求めた後に総和を算出
する演算を示している。Ｐ（Ｃ ₁｜ｗ₁）は、単語
「ｗ₁」がクラスＣ₁に属する確率を示している。

【０１２０】同様に、Ｐ（Ｃ₂｜ｗ₂）は、単語「ｗ₂」
がクラスＣ₂に属する確率を示している。逆に、Ｐ（ｗ₃
｜Ｃ₃）は、クラスＣ₃から単語「ｗ₃」が生成される確
率を示している。

【０１２１】なお、確率Ｐ（Ｃ₁｜ｗ₁），Ｐ（Ｃ₂｜
ｗ₂），Ｐ（ｗ₃｜Ｃ₃）のいずれも、図１５に示した単
語とクラスの対応表から読み取ることができる。

【０１２２】また、当該確率Ｐ（Ｃ｜ｗ），Ｐ（ｗ｜
Ｃ）を簡単に計算する方法として、単語ｗがＮ個のクラ
スに属する場合、確率Ｐ（Ｃ｜ｗ）＝１／Ｎとし、クラ
スＣにＭ個の単語が属する場合、確率Ｐ（ｗ｜Ｃ）＝１
／Ｍとすればよい。例えば単語「千葉」がクラス〈地
名〉と〈人名〉に属する場合、Ｎ＝２であるので、確率
Ｐ（Ｃ｜千葉）＝０．５と算出される。クラスに属さな
い単語については、その単語単独で１つのクラスを構成
していると考える。すなわち、その場合、確率Ｐ（Ｃ｜
ｗ）＝１であり、確率Ｐ（ｗ｜Ｃ）＝１である。

【０１２３】また、各単語は、１つのクラスにだけ属す
るとの制約を課するようにすれば、確率Ｐ（Ｃ｜ｗ）＝
１であり、確率Ｐ（ｗ｜Ｃ）＝１となるので、この場
合、式（１３）は、次式（１４）に示すように簡略化す
ることができる（詳細は、後述する）。Ｐ（ｗ₃｜ｗ₁，ｗ₂）＝Ｐ（Ｃ₃｜Ｃ₁，Ｃ₂）・Ｐ（ｗ₃｜Ｃ₃）・・・（１４）

【０１２４】ここで、単語列「〈先頭〉こんにちは
新規語１くん〈終端〉」の言語スコアを計算するこ
とを考える。ただし、「新規語１」はクラス〈ロボット
名〉だけに属していると仮定する。

【０１２５】言語スコアを算出するために必要な「新規
語１」を含むtri-gramの確率Ｐ（新規語１｜〈先頭〉，
こんにちは）は、次式（１５）に変形して計算する。Ｐ（新規語１｜〈先頭〉，こんにちは）＝Ｐ（〈ロボット名〉｜〈先頭〉，こんにちは）・Ｐ（新規語１｜〈ロボット名〉）・・・（１５）

【０１２６】また、「新規語１」を含むtri-gramの確率
Ｐ（くん｜こんにちは，新規語１）は、次式（１６）に
変形して計算する。Ｐ（くん｜こんにちは，新規語１）＝Ｐ（くん｜こんにちは，〈ロボット名〉）・・・（１６）

【０１２７】さらに、「新規語１」を含むtri-gramの確
率Ｐ（〈終端〉｜新規語１，くん）は、次式（１７）に
変形して計算する。Ｐ（〈終端〉｜新規語１，くん）＝Ｐ（〈終端〉｜〈ロボット名〉，くん）・・・（１７）

【０１２８】次に、言語モデル８に用いることができる
単語ベースの接続マトリクスについて説明する。単語ベ
ースの接続マトリクスとは、例えば図１７に示すよう
な、２つの単語が接続可能であるか否かを示す表を指
す。同図は、縦列に配置された各単語に対して、横列に
配置された各単語が接続可能であるか否かを「○」また
は「空欄」によって示している。

【０１２９】例えば、単語「です」に対しては、単語
「〈終端〉」だけが接続可能であり、単語「〈未知
語〉」、「〈先頭〉」、「です」、「の」、「は」、
「これ」、「サンプル」が接続不可能であることを示し
ている。また例えば、単語「サンプル」に対しては、単
語「〈終端〉」、「です」、「の」、「は」が接続可能
であり、単語「〈未知語〉」、「〈先頭〉」、「これ」
が接続不可能であることを示している。

【０１３０】なお、図１７に示した単語ベースの接続マ
トリクスの代わりに、それと同等なものとして、接続可
能な単語対を列挙した図１８に示すような単語対文法を
用いてもよい。

【０１３１】言語モデル８に単語ベースの接続マトリク
スを用いた場合、認識用辞書７に追加登録した「新規語
１」を言語モデル８に反映させることとは、すなわち、
図１７に示した単語ベースの接続マトリクスに、追加登
録した単語「新規語１」に対して他の単語が接続可能で
あるか否を示す情報を設定して、図１９に示すように、
単語ベースの接続マトリクスを更新することである。

【０１３２】例えば、図１９の場合、追加登録された単
語「新規語１」に対しては、単語「〈先頭〉」を除く全
ての単語が接続可能であり、単語「新規語１」は、単語
「〈終端〉」を除く全ての単語に接続可能であるように
設定されたことを示している。

【０１３３】言語モデル８に単語ベースの接続マトリク
スを用いた場合の単語列の言語スコアを算出する方法
は、隣接する２単語の対で接続可能であるか否かを、単
語ベースの接続マトリクスを参照して判定し、全ての２
単語の対が接続可能であると判定した場合、当該単語列
の言語スコアを１とするようにし、接続不可能であると
判定された２単語の対が存在する場合、当該単語列の言
語スコアを０とするようにする。あるいは、単語列中に
存在する、接続不可能であると判定された２単語の対の
数に対応して、言語スコアを１以下とするようにしても
よい。

【０１３４】例えば単語列「〈先頭〉これは新規
語１です〈終端〉」に対しては、全ての２単語の対
「〈先頭〉」と「これ」、対「これ」と「は」、対
「は」と「新規語１」、対「新規語１」と「です」、お
よび対「です」と「〈終端〉」が接続可能であると判定
されるので、当該単語列の言語スコアは１とされる。

【０１３５】また例えば、単語列「〈先頭〉新規語１
はです〈終端〉」に対しては、全ての２単語の対
「〈先頭〉」と「新規語１」、対「新規語１」と
「は」、対「は」と「です」、および対「です」と
「〈終端〉」のうち、２単語の対「は」と「です」が、
接続マトリクスによって接続不可能とされているので、
当該単語列の言語スコアは０とされる。

【０１３６】次に、言語モデル８に用いることができる
クラスベースの接続マトリクスについて説明する。クラ
スベースの接続マトリクスとは、例えば図２０に示すよ
うに、図１７に示した単語ベースの接続マトリクスにク
ラスシンボルを混在させた表を指す。図２０においても
図１７と同様に、縦列に配置された各単語およびクラス
シンボルに対して、横列に配置された各単語およびクラ
スシンボルが接続可能であるか否かを「○」または「空
欄」によって示している。

【０１３７】なお、言語モデル８にクラスベースの接続
マトリクスを用いた場合、図６に示したような、各単語
が属するクラスを示すテーブルが必要となる。

【０１３８】言語モデル８にクラスベースの接続マトリ
クスを用いた場合の単語列の言語スコアを算出する方法
は、単語列中の単語うち、クラスシンボルに置換できる
ものを置換した後、隣接する単語（またはクラスシンボ
ル）の対で接続可能であるか否かを、クラスベースの接
続マトリクスを参照して判定し、全ての対が接続可能で
あると判定した場合、当該単語列の言語スコアを１とす
るようにし、接続不可能であると判定された対が存在す
る場合、当該単語列の言語スコアを０とするようにす
る。あるいは、単語列中に存在する、接続不可能である
と判定された対の数に対応して、言語スコアを１以下と
するようにしてもよい。

【０１３９】例えば単語列「〈先頭〉これは新規
語１です〈終端〉」に対しては、例えば、図６に示
した、各単語が属するクラスを示すテーブルが参照され
て、単語「新規語１」がクラスシンボル〈ロボット名〉
に置換される。そして、単語列「〈先頭〉これは
〈ロボット名〉です〈終端〉」の全ての２単語の対
「〈先頭〉」と「これ」、対「これ」と「は」、対
「は」と「〈ロボット名〉」、対「〈クラスシンボ
ル〉」と「です」、および対「です」と「〈終端〉」が
接続可能であると判定されるので、当該単語列の言語ス
コアは１とされる。

【０１４０】以上、言語モデル８に用いることができる
クラスベースの有限状態オートマトン(FSA)、単語ベー
スの統計言語モデル(n-gram)、クラスベースの統計言語
モデル(n-gram)、単語ベースの接続マトリクス、および
クラスベースの接続マトリクスについての説明を終了す
る。

【０１４１】ところで、言語モデル８にクラスベースの
有限状態オートマトン(FSA)を用いた場合、上述した説
明においては、各単語が属するクラスを示すテーブル
（図６）を設けるようにしたが、当該テーブルを認識用
辞書７に包含させるようにしてもよい。このようにすれ
ば、認識用辞書７と当該テーブルとの整合を取ることが
容易になる。また、両者をメンテナンスする手間を軽減
させることが可能となる。

【０１４２】図２１は、各単語が属するクラスを示すテ
ーブルを包含する認識用辞書７の一例を示している。同
図において、単語シンボル「〈ロボット名〉：：アイ
ボ」は、当該単語シンボルがクラス〈ロボット名〉に属
することを表わしている。単語シンボル「〈ロボット
名〉：：新規語１」は、当該単語シンボルがクラス〈ロ
ボット名〉に属することを表わしている。

【０１４３】ところでまた、言語モデル８にクラスベー
スの統計言語モデル(n-gram)を用いた場合、上述した説
明においては、各単語が属するクラスを示すテーブル
（図１５）を設けるようにしたが、当該テーブルを認識
用辞書７に包含させるようにしてもよい。このようにす
れば、認識用辞書７と当該テーブルとの整合を取ること
が容易になる。また、両者をメンテナンスする手間を軽
減させることが可能となる。

【０１４４】図２２は、各単語が属するクラスを示すテ
ーブルを包含する認識用辞書７の一例を示している。こ
の場合、属するクラスの情報を含む単語シンボルに対応
して、確率Ｐ（Ｃ｜ｗ），Ｐ（ｗ｜Ｃ）の欄が設けられ
る。ただし、なお、確率Ｐ（Ｃ｜ｗ）として１／Ｎ（Ｎ
は単語ｗが属するクラスの数）、確率Ｐ（ｗ｜Ｃ）とし
て１／Ｍ（ＭはクラスＣに属する単語の数）を採用する
場合、確率Ｐ（Ｃ｜ｗ），Ｐ（ｗ｜Ｃ）の欄を省略する
ことができる。

【０１４５】同図において、単語シンボル「〈人
名〉：：千葉」と単語シンボル「〈地名〉：：千葉」
は、同一の音韻系列をもつが、それぞれ、クラス〈人
名〉またはクラス〈地名〉に属する異なる単語として扱
われる。換言すれば、「各単語が属するクラスの数を１
に限定する」との制約を課することが可能となる。

【０１４６】このような制約を課することにより、上述
したように、式（１３）の代わりに、それを簡略化した
式（１４）を用いることができるので、単語「千葉」が
クラス〈人名〉と〈地名〉の両方に属するとの条件で式
（１３）を用いて言語スコアを算出する場合に比較し
て、言語スコアの計算コストを削減することができる。

【０１４７】以上説明したように、本発明の音声認識装
置によれば、入力音声の中に未知語が含まれていても、
それを自動的に検出して登録し、以後、当該未知語を含
む発話も音声認識することが可能となる。

【０１４８】したがって、音声認識ロボットなどに本発
明を適用すれば、ユーザが煩雑な単語登録作業をするこ
となく、また、発話中に未知語が含まれているか否か気
にすることなく、音声認識ロボットと対話することがで
きる。

【０１４９】ところで、本発明の上述した一連の処理
は、ハードウェアにより実行させることもできるが、ソ
フトウェアにより実行させることもできる。一連の処理
をソフトウェアにより実行させる場合には、そのソフト
ウェアを構成するプログラムが、専用のハードウェアに
組み込まれているコンピュータ、または、各種のプログ
ラムをインストールすることで、各種の機能を実行する
ことが可能な、例えば汎用のパーソナルコンピュータな
どに、記録媒体（図２３の磁気ディスク３２乃至半導体
メモリ３５）からインストールされる。

【０１５０】図２３は、専用のアプリケーションプログ
ラムを実行することによって音声認識装置として動作す
るパーソナルコンピュータの構成例を示している。

【０１５１】このパーソナルコンピュータは、CPU(Cent
ral Processing Unit)２１を内蔵している。CPU２１に
はバス２４を介して、入出力インタフェース２５が接続
されている。バス２４には、ROM(Read Only Memory)２
２およびRAM(Random Access Memory)２３が接続されて
いる。

【０１５２】入出力インタフェース２５には、ユーザの
音声を入力するマイクロフォンなどよりなる音声入力部
２６、ユーザが操作コマンドを入力するキーボード、マ
ウスなどの入力デバイスよりなる操作入力部２７、操作
画面などの映像信号をディスプレイに出力する表示制御
部２８、プログラムや各種データを格納するハードディ
スクドライブなどよりなる記憶部２９、インタネットに
代表されるネットワークを介してデータを通信する通信
部３０、および磁気ディスク３２乃至半導体メモリ３５
などの記録媒体に対してデータを読み書きするドライブ
３１が接続されている。

【０１５３】このパーソナルコンピュータに音声認識装
置としての動作を実行させるプログラムは、磁気ディス
ク３２（フロッピディスクを含む）、光ディスク３３
（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digit
al Versatile Disc)を含む）、光磁気ディスク３４（Ｍ
Ｄ(Mini Disc)を含む）、もしくは半導体メモリ３５に
格納された状態でパーソナルコンピュータに供給され、
ドライブ３１によって読み出されて記憶部２９に内蔵さ
れるハードディスクドライブにインストールされてい
る。記憶部２９にインストールされているプログラム
は、操作入力部２７に入力されるユーザからのコマンド
に対応するCPU２１の指令によって、記憶部２９からRAM
２３にロードされて実行される。

【０１５４】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に従って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。

【０１５５】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表わすものであ
る。

【０１５６】

【発明の効果】以上のように、本発明の音声認識装置お
よび方法、並びにプログラムによれば、検出した未知語
を新規語として、取得した発音情報とを対応付けて認識
用辞書に登録し、登録した新規語を反映させて言語モデ
ルを更新し、更新した言語モデルに基づいて未知語を含
む入力音声に対応する単語列の言語スコアを算出するよ
うにしたので、未知語を含む入力音声を連続音声認識す
ることが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した音声認識装置の構成例を示す
ブロック図である。

【図２】図１の音声認識装置の動作を説明するフローチ
ャートである。

【図３】認識用辞書７の一例を示す図である。

【図４】認識用辞書７の一例を示す図である。

【図５】クラスベースの有限状態オートマトンの一例を
示す図である。

【図６】各単語が属するクラスを示すテーブル（クラス
ベースの有限状態オートマトン用）の一例を示す図であ
る。

【図７】各単語が属するクラスを示すテーブル（クラス
ベースの有限状態オートマトン用）の一例を示す図であ
る。

【図８】クラスベースの有限状態オートマトンの一例を
示す図である。

【図９】クラスベースの有限状態オートマトンの一例を
示す図である。

【図１０】単語ベースのtri-gramの一例を示す図であ
る。

【図１１】単語ベースのbi-gramの一例を示す図であ
る。

【図１２】単語ベースのuni-gramの一例を示す図であ
る。

【図１３】単語ベースのuni-gramの一例を示す図であ
る。

【図１４】クラスベースのuni-gramの一例を示す図であ
る。

【図１５】各単語が属するクラスを示すテーブル（クラ
スベースのn-gram用）の一例を示す図である。

【図１６】各単語が属するクラスを示すテーブル（クラ
スベースのn-gram用）の一例を示す図である。

【図１７】単語ベースの接続マトリクスの一例を示す図
である。

【図１８】図１７の単語ベースの接続マトリクスに相当
する単語対文法の一例を示す図である。

【図１９】単語ベースの接続マトリクスの一例を示す図
である。

【図２０】クラスベースの接続マトリクスの一例を示す
図である。

【図２１】認識用辞書７に、図６の各単語が属するクラ
スを示すテーブル（クラスベースの有限状態オートマト
ン用）を包含させた一例を示す図である。

【図２２】認識用辞書７に、図１５の各単語が属するク
ラスを示すテーブル（クラスベースのn-gram用）を包含
させた一例を示す図である。

【図２３】一般的なパーソナルコンピュータの構成例を
示すブロック図である。

【符号の説明】

１制御部，２マイクロフォン，３ＡＤ変換
部，４特徴抽出部，５未知語登録部，６音声
認識部，７認識用辞書，８言語モデル，９
音響モデル，１０マッチング部，２１ CPU，
３２磁気ディスク，３３光ディスク，３４光
磁気ディスク，３５半導体メモリ

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 3/00 ５３７Ｇ

Claims

【特許請求の範囲】

【請求項１】認識用辞書および言語モデルを用い、入
力音声を対応する単語列に変換する音声認識装置におい
て、前記入力音声に含まれる未知語を検出する検出手段と、前記検出手段によって検出された前記未知語に対応する
発音情報を取得する取得手段と、前記検出手段によって検出された前記未知語を新規語と
して、前記取得手段によって取得された前記発音情報と
を対応付けて前記認識用辞書に登録する登録手段と、前記登録手段によって登録された前記新規語を反映させ
て前記言語モデルを更新する更新手段と、前記更新手段によって更新された前記言語モデルに基づ
き、前記未知語を含む前記入力音声に対応する単語列の
言語スコアを算出する算出手段とを含むことを特徴とす
る音声認識装置。
【請求項２】前記検出手段は、クラスタリング法に従
い、前記入力音声に含まれる前記未知語を検出し、前記取得手段は、前記クラスタリング法に従い、前記検
出手段によって検出された前記未知語に対応する前記発
音情報を取得することを特徴とする請求項１に記載の音
声認識装置。
【請求項３】前記登録手段によって登録された前記新
規語が属するクラスを設定して、前記認識用辞書に登録
されている単語が属するクラスを示す対応テーブルに追
記する設定手段をさらに含み、前記更新手段は、前記登録手段によって登録された前記
新規語を反映させてクラスベースの言語モデルを更新す
ることを特徴とする請求項１に記載の音声認識装置。
【請求項４】前記クラスベースの言語モデルは、クラ
スベースの有限状態オートマトン、統計言語モデル、接
続マトリクス、または前記接続マトリクスに相当する単
語対文法であることを特徴とする請求項３に記載の音声
認識装置。
【請求項５】前記設定手段は、前記登録手段によって
登録された前記新規語が属するクラスを設定して、前記
認識用辞書に包含された前記対応テーブルに追記するこ
とを特徴とする請求項３に記載の音声認識装置。
【請求項６】前記設定手段は、前記クラスベースの有
限状態オートマトンに基づいて算出される前記言語スコ
アが最大となるように、前記登録手段によって登録され
た前記新規語が属する前記クラスを設定して、前記対応
テーブルに追記することを特徴とする請求項４に記載の
音声認識装置。
【請求項７】前記設定手段は、前記クラスベースの統
計言語モデルに基づいて算出される前記言語スコアが最
大となるように、前記登録手段によって登録された前記
新規語が属する前記クラスを設定して、前記対応テーブ
ルに追記することを特徴とする請求項４に記載の音声認
識装置。
【請求項８】前記設定手段は、前記クラスベースの有
限状態オートマトンに予め用意されている前記クラス
を、前記登録手段によって登録された前記新規語が属す
る前記クラスとして設定して、前記対応テーブルに追記
することを特徴とする請求項４に記載の音声認識装置。
【請求項９】前記更新手段は、前記登録手段によって
登録された前記新規語を反映させて単語ベースの言語モ
デルを更新することを特徴とする請求項１に記載の音声
認識装置。
【請求項１０】前記単語ベースの言語モデルは、単語
ベースの統計言語モデル、接続マトリクス、または前記
接続マトリクスに相当する単語対文法であることを特徴
とする請求項９に記載の音声認識装置。
【請求項１１】認識用辞書および言語モデルを用い、
入力音声を対応する単語列に変換する音声認識装置の音
声認識方法において、前記入力音声に含まれる未知語を検出する検出ステップ
と、前記検出ステップの処理で検出された前記未知語に対応
する発音情報を取得する取得ステップと、前記検出ステップの処理で検出された前記未知語を新規
語として、前記取得ステップの処理で取得された前記発
音情報とを対応付けて前記認識用辞書に登録する登録ス
テップと、前記登録ステップの処理で登録された前記新規語を反映
させて前記言語モデルを更新する更新ステップと、前記更新ステップの処理で更新された前記言語モデルに
基づき、前記未知語を含む前記入力音声に対応する単語
列の言語スコアを算出する算出ステップとを含むことを
特徴とする音声認識方法。
【請求項１２】認識用辞書および言語モデルを用い、
入力音声を対応する単語列に変換するためのプログラム
であって、前記入力音声に含まれる未知語を検出する検出ステップ
と、前記検出ステップの処理で検出された前記未知語に対応
する発音情報を取得する取得ステップと、前記検出ステップの処理で検出された前記未知語を新規
語として、前記取得ステップの処理で取得された前記発
音情報とを対応付けて前記認識用辞書に登録する登録ス
テップと、前記登録ステップの処理で登録された前記新規語を反映
させて前記言語モデルを更新する更新ステップと、前記更新ステップの処理で更新された前記言語モデルに
基づき、前記未知語を含む前記入力音声に対応する単語
列の言語スコアを算出する算出ステップとを含むことを
特徴とするコンピュータが読み取り可能なプログラムが
記録されている記録媒体。
【請求項１３】認識用辞書および言語モデルを用い、
入力音声を対応する単語列に変換するコンピュータに、前記入力音声に含まれる未知語を検出する検出ステップ
と、前記検出ステップの処理で検出された前記未知語に対応
する発音情報を取得する取得ステップと、前記検出ステップの処理で検出された前記未知語を新規
語として、前記取得ステップの処理で取得された前記発
音情報とを対応付けて前記認識用辞書に登録する登録ス
テップと、前記登録ステップの処理で登録された前記新規語を反映
させて前記言語モデルを更新する更新ステップと、前記更新ステップの処理で更新された前記言語モデルに
基づき、前記未知語を含む前記入力音声に対応する単語
列の言語スコアを算出する算出ステップとを実行させる
プログラム。