JP2003186494A - 音声認識装置および方法、記録媒体、並びにプログラム - Google Patents

音声認識装置および方法、記録媒体、並びにプログラム

Info

Publication number
JP2003186494A
JP2003186494A JP2001382579A JP2001382579A JP2003186494A JP 2003186494 A JP2003186494 A JP 2003186494A JP 2001382579 A JP2001382579 A JP 2001382579A JP 2001382579 A JP2001382579 A JP 2001382579A JP 2003186494 A JP2003186494 A JP 2003186494A
Authority
JP
Japan
Prior art keywords
word
class
language model
unknown
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001382579A
Other languages
English (en)
Inventor
Atsuo Hiroe
厚夫 廣江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001382579A priority Critical patent/JP2003186494A/ja
Publication of JP2003186494A publication Critical patent/JP2003186494A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 未知語を含む入力音声を連続音声認識する。 【解決手段】 ステップS1で、ディジタル音声信号の
入力があると判定するまで待機する。ステップS2で、
入力音声から未知語の検出を開始する。ステップS3
で、未知語が検出されたか否かを判定し、未知語が検出
された場合、ステップS4で、検出した未知語の音韻系
列を取得する。ステップS5で、検出した未知語を認識
用辞書に登録し、ステップS6で、追加登録した未知語
「タロウ」を反映させて言語モデル8を更新する。ステ
ップS3で、未知語が検出されない場合、ステップS7
で、入力音声に対して連続音声認識を実行して対応する
文字列を生成する。なお、ステップS3乃至S6の処理
に引き続き、ステップS7以降の処理を実行するように
してもよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び方法、記録媒体、並びにプログラムに関し、例えば、
未知語を含む入力音声を対応する単語列に変換する場合
に用いて好適な音声認識装置および方法、記録媒体、並
びにプログラムに関する。
【0002】
【従来の技術】従来、ユーザが発する音声を認識し、認
識結果に対応して所定の動作を実行するロボット(以
下、音声認識ロボットと記述する)などが存在する。
【0003】例えば、音声認識ロボットに対し、ユーザ
が「君の名前はタロウです」と話し掛ける場合におい
て、発声のうちの「タロウ」が未知語(音声認識ロボッ
トが内蔵する認識用辞書に登録されていない語)である
とする。
【0004】この場合、一般的な音声認識では、認識用
辞書に予め登録されている語だけが認識されるので、認
識用辞書に未登録の語(未知語)は認識結果に現れな
い。したがって、ユーザの発声「君の名前はタロウで
す」に対する認識結果は、「タロウ」の部分とその前後
の区間が誤認識されたものとなる。
【0005】このような場合、ユーザの発声「君の名前
はタロウです」のうちの未知語「タロウ」を、音声認識
ロボットが自動的に検出して、未知語を認識用辞書に追
加登録するようになると便利である。
【0006】さらに、追加登録された単語「タロウ」を
含む任意の入力音声を認識できるようになることが望ま
しい。例えば、ユーザの発声「タロウ」は勿論、入力音
声「タロウさん、こんにちは」、「こっちに来て、タロ
ウくん」なども認識できるようになることが望ましい。
【0007】ところで、認識用辞書に単語を追加登録す
ることに関し、孤立単語音声認識の場合、単に認識用辞
書に単語を追加すれば、追加した単語が認識されるよう
になる。
【0008】しかしながら、連続音声認識の場合、単に
認識用辞書に単語を追加しただけでは不十分であり、追
加した単語を言語モデルに反映させる必要がある。例え
ば、単語「タロウ」を認識用辞書に追加するならば、単
語「タロウ」を言語モデルにも反映させることによっ
て、単語「タロウ」を含む任意の単語列「タロウくんこ
んにちは」、「こっちに来て、タロウくん」などの言語
的なスコアを計算できるようにする必要がある。
【0009】ここで、言語モデルとは、認識用辞書に登
録されている各単語がどのように連鎖するか(接続する
か)に関する情報を記述したものである。言語モデルの
記述方法としては、統計的な単語連鎖確率(n-gram)を
用いる方法、有限状態オートマトンベースの文法を用い
る方法、接続マトリクスを用いる方法などが挙げられ
る。
【0010】以上のように、音声認識ロボットが未知語
を含むユーザの発声を認識できるようになるためには、
以下の4つの機能を有することが必要となる。入力され
た音声のうちの未知語を検出する第1の機能。検出した
未知語を認識用辞書に追加登録する第2の機能。認識用
辞書に追加登録した単語を言語モデルに反映させる第3
の機能。更新した認識用辞書および言語モデルを用いて
連続音声認識を実行する第4の機能。
【0011】
【発明が解決しようとする課題】例えば特許第3025
932号公報には、検出した未知語を認識用辞書に追加
登録する第2の機能については開示されているが、更新
した認識用辞書を連続音声認識に用いる第4の機能につ
いては、開示は勿論、示唆もされていない。また、ここ
で開示されている発明によって更新された認識用辞書
は、後述する理由により、大語彙音声認識で使用される
認識用辞書との整合性が取り難い課題があった。
【0012】例えば、ユーザの発声「はい」および「い
いえ」の2単語だけを区別して認識させるような、認識
すべき語彙数が少ない小語彙音声認識の場合、各単語に
対応するクラスタや標準テンプレートや隠れマルコフモ
デル(以下、HMM(Hidden Markov Model)などを用意すれ
ば、単語を認識することができる。
【0013】単語毎にクラスタを用意する方法では、特
徴量の空間において、「はい」に対応したクラスタと、
「いいえ」に対応したクラスタを用意する。そして、入
力音声がどちらのクラスタに属するのか、あるいはどち
らのクラスタにも属さないのかを判定するようにする。
【0014】単語毎にHMMを用意する方法では、発声
「はい」に対応して学習したHMMと、発声「いいえ」に
対応して学習したHMMとを用意し、入力された音声に対
して最も高いスコアを示すHMMに対応する一方を認識結
果とする。なお、HMMは、2つの単語にそれぞれ対応し
た発声を大量に用意して、予め学習させる必要がある。
【0015】しかしながら、数多くの単語を認識しなけ
ればならない大語彙音声認識の場合、単語毎にクラス
タ、またはHMMなどの音響モデルを用意することは困難
である。そこで、単語毎ではなく、単語を構成する音韻
毎にHMMを用意する方法が用いられる。
【0016】例えば単語「とうきょう」を認識するため
のHMMを、4つの音韻“t”,“o:”,“ky”,
“o:”のそれぞれに対応したHMM(予め学習されてい
るものとする)を連結することで構成する。
【0017】すなわち、大語彙音声認識の場合、単語を
認識用辞書に登録するためには、登録する単語の音韻系
列(発音の情報)が必要となる。例えば、単語「タロ
ウ」を登録するためには、それに対応する音韻系列“t
/a/r/o:”が必要となり、単語「とうきょう」を登
録するためには、それに対応する音韻系列“t/o:/k
y/o:”が必要となる。
【0018】しかしながら、自動的に未知語を検出して
認識用辞書に登録する従来の技術では、追加登録する単
語に対し、クラスタやHMMなどの単語モデルを新たに作
成する方法がほとんどであり、音韻系列についてはその
情報を有していないので、大語彙音声認識では使用し難
い課題があった。
【0019】また、例えば特開2001−92489号
公報には、認識用辞書に追加登録した単語を言語モデル
に反映させる第3の機能と、更新した認識用辞書および
言語モデルを用いて連続音声認識を実行する第4の機能
について開示されているが、未知語を検出する第1の機
能に相当ことと、未知語を認識用辞書に登録する第2の
機能に相当ことについては、ユーザが手動で実行するこ
とを前提としており、第1乃至第4の機能の全てを統合
することについては言及されていない。
【0020】以上のように、上述した第1乃至第4の機
能のいずれかに関する発明やそれを有する音声認識用の
システムは存在したが、第1乃至第4の機能の全てを統
合する発明や全ての機能を有するシステムは存在してい
ない。すなわち、従来、未知語を含む音声も連続音声認
識できる技術は確立されていない課題があった。
【0021】本発明はこのような状況に鑑みてなされた
ものであり、未知語を含む入力音声を連続音声認識でき
るようにすることを目的とする。
【0022】
【課題を解決するための手段】本発明の音声認識装置
は、入力音声に含まれる未知語を検出する検出手段と、
検出手段によって検出された未知語に対応する発音情報
を取得する取得手段と、検出手段によって検出された未
知語を新規語として、取得手段によって取得された発音
情報とを対応付けて認識用辞書に登録する登録手段と、
登録手段によって登録された新規語を反映させて言語モ
デルを更新する更新手段と、更新手段によって更新され
た言語モデルに基づき、未知語を含む入力音声に対応す
る単語列の言語スコアを算出する算出手段とを含むこと
を特徴とする。
【0023】前記検出手段は、クラスタリング法に従
い、入力音声に含まれる未知語を検出するようにするこ
とができ、前記取得手段は、クラスタリング法に従い、
検出手段によって検出された未知語に対応する発音情報
を取得するようにすることができる。
【0024】本発明の音声認識装置は、登録手段によっ
て登録された新規語が属するクラスを設定して、認識用
辞書に登録されている単語が属するクラスを示す対応テ
ーブルに追記する設定手段をさらに含むことができ、前
記更新手段は、登録手段によって登録された新規語を反
映させてクラスベースの言語モデルを更新するようにす
ることができる。
【0025】前記設定手段は、登録手段によって登録さ
れた新規語が属するクラスを設定して、認識用辞書に包
含された対応テーブルに追記するようにすることができ
る。
【0026】前記設定手段は、クラスベースの有限状態
オートマトンに基づいて算出される言語スコアが最大と
なるように、登録手段によって登録された新規語が属す
るクラスを設定して、対応テーブルに追記するようにす
ることができる。
【0027】前記設定手段は、クラスベースの統計言語
モデルに基づいて算出される言語スコアが最大となるよ
うに、登録手段によって登録された新規語が属するクラ
スを設定して、対応テーブルに追記するようにすること
ができる。
【0028】前記設定手段は、クラスベースの有限状態
オートマトンに予め用意されているクラスを、登録手段
によって登録された新規語が属するクラスとして設定し
て、対応テーブルに追記するようにすることができる。
【0029】前記更新手段は、登録手段によって登録さ
れた新規語を反映させて単語ベースの言語モデルを更新
するようにすることができる。
【0030】本発明の音声認識方法は、入力音声に含ま
れる未知語を検出する検出ステップと、検出ステップの
処理で検出された未知語に対応する発音情報を取得する
取得ステップと、検出ステップの処理で検出された未知
語を新規語として、取得ステップの処理で取得された発
音情報とを対応付けて認識用辞書に登録する登録ステッ
プと、登録ステップの処理で登録された新規語を反映さ
せて言語モデルを更新する更新ステップと、更新ステッ
プの処理で更新された言語モデルに基づき、未知語を含
む入力音声に対応する単語列の言語スコアを算出する算
出ステップとを含むことを特徴とする。
【0031】本発明の記録媒体のプログラムは、入力音
声に含まれる未知語を検出する検出ステップと、検出ス
テップの処理で検出された未知語に対応する発音情報を
取得する取得ステップと、検出ステップの処理で検出さ
れた未知語を新規語として、取得ステップの処理で取得
された発音情報とを対応付けて認識用辞書に登録する登
録ステップと、登録ステップの処理で登録された新規語
を反映させて言語モデルを更新する更新ステップと、更
新ステップの処理で更新された言語モデルに基づき、未
知語を含む入力音声に対応する単語列の言語スコアを算
出する算出ステップとを含むことを特徴とする。
【0032】本発明のプログラムは、入力音声に含まれ
る未知語を検出する検出ステップと、検出ステップの処
理で検出された未知語に対応する発音情報を取得する取
得ステップと、検出ステップの処理で検出された未知語
を新規語として、取得ステップの処理で取得された発音
情報とを対応付けて認識用辞書に登録する登録ステップ
と、登録ステップの処理で登録された新規語を反映させ
て言語モデルを更新する更新ステップと、更新ステップ
の処理で更新された言語モデルに基づき、未知語を含む
入力音声に対応する単語列の言語スコアを算出する算出
ステップとをコンピュータに実行させることを特徴とす
る。
【0033】本発明の音声認識装置および方法、並びに
プログラムにおいては、入力音声に含まれる未知語が検
出され、検出された未知語に対応する発音情報が取得さ
れ、検出された未知語を新規語として、取得された発音
情報とを対応付けて認識用辞書に登録される。また、登
録された新規語を反映させて言語モデルが更新され、更
新された言語モデルに基づき、未知語を含む入力音声に
対応する単語列の言語スコアが算出される。
【0034】
【発明の実施の形態】本発明を適用した音声認識装置の
構成例について、図1を参照して説明する。この音声認
識装置は、例えば、音声認識ロボットに搭載したり、デ
ィスプレイに表示させる仮想的なキャラクタに適用した
りすることができる。
【0035】制御部1は、当該音声認識装置の全体、特
に未知語登録部5および音声認識部6を制御する。マイ
クロフォン2は、ユーザなどが発する音声(以下、入力
音声と記述する)を取得し、アナログ音声信号としてA
D変換部3に出力する。AD変換部3は、マイクロフォ
ン2から入力されるアナログ音声信号を、サンプリング
し、量子化することにより、ディジタル音声信号に変換
して特徴抽出部4に出力する。特徴抽出部4は、AD変
換部3から入力されるディジタル音声信号を解析するこ
とにより、所定のフレーム毎、スペクトル、パワー、線
形予測係数、ケプストラム係数、線スペクトル対などの
特徴パラメータを抽出して、未知語登録部5および音声
認識部6に供給する。
【0036】未知語登録部5は、特徴抽出部4から入力
される特徴パラメータに基づき、入力音声に含まれる未
知語を検出し、検出した未知語の発音を示す音韻系列を
取得する。さらに、未知語登録部5は、検出した未知語
を新規語として、取得する音韻系列と対応付けて認識用
辞書7に追加登録する。さらに、未知語登録部5は、認
識用辞書7に追加登録した新規語を反映させて言語モデ
ル8を更新する。
【0037】音声認識部6は、内蔵するマッチング部1
0により、入力音声に対して一般的な連続音声認識を実
行し、対応する単語列に変換する。認識結果である単語
列は、後段の装置(入力される文字列に対応して所定の
処理を実行する装置など)に出力される。
【0038】認識用辞書7には、登録されている各単語
について、その単語シンボル(文字列)と音韻系列、音
韻や音節の連鎖関係を記述したモデルが記録されてい
る。ここで、単語シンボルとは、当該単語と他の単語と
区別するための用途や、言語モデル8に記録されている
情報を照合するために用いる文字列である。音韻系列
は、当該単語の発音記号に関する記号である。
【0039】なお、本明細書における「単語」の用語
は、後述する一連の処理を実行する場合において、1個
のまとまりとして扱うことが都合よい文字列の単位を指
すものとする。したがって、本明細書における「単語」
の用語は、言語学における「単語」の用語とは一致しな
いことがある。したがって、本発明では、例えば「タロ
ウくん」を、1個の単語として扱うようにしてもよい
し、「タロウ」と「くん」の2個の単語として扱うよう
にしてもよい。さらに、「こんにちはタロウくん」を1
個の単語として扱うようにしてもよい。
【0040】また、本明細書における「音韻」の用語
は、後述する一連の処理を実行する場合において、音響
的に1個のまとまりとして扱うことが都合よい音の単位
を指すものとする。したがって、本明細書における「音
韻」の用語は、音声学における「音韻」や「音素」の用
語とは、一致しないことがある。
【0041】したがって、本発明では、例えば単語「東
京」の「東」を、音韻系列“t/o/u”と表わす他、長
音を示す記号“:”を用いて“t/o:”と表わすよう
にしてもよいし、あるいは、“t/o/o”と表わすよう
にしてもよい。また、無音を表わす記号を用意してもよ
い。さらに無音を、「発話前の無音」、「発話に挟まれ
た短い無音」、「発話後の無音」、「促音の無音」のよ
うに細かく分類し、それぞれに記号を用意するようにし
てもよい。
【0042】言語モデル8には、認識用辞書7に登録さ
れている各単語がどのように連鎖するかを示す情報が記
録されている。当該情報には、クラスベースの有限状態
オートマトン(FSA)、単語ベースの統計言語モデル(n-gr
am)、クラスベースの統計言語モデル(n-gram)、単語ベ
ースの接続マトリクス、またはクラスベースの接続マト
リクスなどを用いることができる。なお、言語モデル8
の詳細については、図5乃至図22を参照して後述す
る。
【0043】音響モデル9には、音声認識する音声の個
々の音韻や音節などの音響的な特徴を表わすモデルが記
録されている。音響モデルとしては、例えばHMMを用い
ることができる。
【0044】マッチング部10は、認識用辞書7に登録
されている単語を参照することにより、音響モデル9に
記録されている音韻のモデルを接続して、単語に対応す
る音響モデル(単語モデル)を生成する。さらに、マッ
チング部10は、複数の単語モデルを連結して複数の単
語列(すなわち、認識結果として出力する単語列候補)
を生成し、生成した複数の単語列候補それぞれについ
て、音響スコアおよび言語スコアを算出する。さらに、
マッチング部10は、生成した複数の単語列候補のう
ち、音響スコアと言語スコアの合計とを統合したスコア
が最も高い単語列候補を、認識結果の単語列として出力
する。なお、生成した複数の単語列のうち、統合スコア
の上位n個の単語列候補を認識結果として出力するよう
にすることもできる。
【0045】ここで、音響スコアとは、入力音声の音
と、認識結果の単語列の音との近似の程度を表わす尺度
であり、その算出には、例えばHMM法を用いることがで
きる。言語スコアとは、認識結果の単語列が、言語とし
て実際に存在し得る可能性を表わす尺度である。その算
出方法は、言語モデルの種類によって異なる(詳細は後
述する)。
【0046】次に、図1の音声認識装置の動作につい
て、図2のフローチャートを参照して説明する。
【0047】ステップS1において、制御部1は、特徴
抽出部4に対してディジタル音声信号の入力があるか否
かを判定し、ディジタル音声信号の入力があると判定す
るまで待機する。ディジタル音声信号の入力があると判
定された場合、特徴抽出部4は、制御部1からの制御に
基づき、ディジタル音声信号を解析し、抽出した特徴パ
ラメータを未知語登録部5および音声認識部6に供給す
る。処理はステップS2に進む。
【0048】ステップS2において、未知語登録部5
は、制御部1の制御に従い、入力音声から、未知語の検
出を開始する。ステップS3において、制御部1は、未
知語登録部5によって入力音声から未知語が検出された
か否かを判定する。未知語が検出されたと判定された場
合、処理はステップS4に進む。ステップS4におい
て、未知語登録部5は、検出した未知語の音韻系列を取
得する。例えば、未知語が「タロウ」である場合、その
音韻系列“t/a/r/o:”を取得する。
【0049】なお、未知語の検出と音韻系列の取得の方
法には、例えば本出願人が既に提案した特願2001−
97843号(以下、先願1と記述する)に記載の方法
を適用することができる。
【0050】先願1の方法は、入力音声から未知語を検
出し、検出した未知語を複数のクラスタに分類するもの
である。例えば、3種類の入力音声「これは あか で
す」、「これは あお です」、および「これは みど
り です」に対し、それぞれ未知語として「あか」、
「あお」、「みどり」が検出されたとする。この場合、
未知語「あか」、「あお」、「みどり」は、それぞれ、
新たに生成される異なる3つのクラスタに分類し、異な
る3つのクラスタに、それぞれ、代表となる音韻系列
“a/k/a”,“a/o”,“m/i/d/o/r/i”を設
定する。
【0051】この後、例えば、入力音声として「これは
あか です」が再び入力された場合、新たなクラスタ
は生成されることなく、未知語「あか」は、音韻系列
“a/k/a”を代表とする既成のクラスタに分類され
る。
【0052】また例えば、入力音声として「これは く
ろ です」(「くろ」は未知語であるとする)が入力さ
れた場合には、未知語として「くろ」が検出され、未知
語「くろ」は、音韻系列“k/u/r/o”が代表として
設定され、新たに生成されるクラスタに分類される。
【0053】以上説明したように、先願1の方法(本明
細書においては、クラスタリング法と称する)を未知語
登録部5による未知語の検出と音韻系列の設定に用いれ
ば、新たなクラスタが生成されたか否かに基づき、入力
音声に未知語が含まれているか否かを判定することがで
きる。また、新たに生成するクラスタには音韻系列を設
定するので、大語彙音声認識に適用することが容易であ
る。
【0054】図2の説明に戻る。ステップS5におい
て、未知語登録部5は、検出した未知語を認識用辞書7
に登録する。具体的には、例えば入力音声のうちの音声
「タロウ」を未知語として登録する場合、図3に示すよ
うに、各単語の単語シンボル(文字列)と音韻系列が記
録されている認識用辞書7に対し、図4に示すように、
仮に「新規語1」などのシリアル番号を含む単語シンボ
ルと、その音韻系列“t/a/r/o:”を登録する。
【0055】ステップS6において、未知語登録部5
は、認識用辞書7に追加登録した未知語「タロウ」を反
映させて言語モデル8を更新する。すなわち、認識用辞
書7に追加登録した未知語「タロウ」を含む任意の単語
列について、その言語スコアを算出するために必要な情
報を生成する(詳細は後述する)。この後、認識用辞書
7に未知語が追加登録されたこと、および言語モデル8
が更新されたことを以降に実行される連続音声認識の処
理に反映させるため処理(例えば、当該音声認識装置の
再起動など)を、必要に応じて実行する。
【0056】ステップS3において、未知語が検出され
ないと判定された場合、処理はステップS7に進む。ス
テップS7において、音声認識部10は、制御部1から
の制御に従い、入力音声を連続音声認識して対応する文
字列を生成し、ステップS8において、認識結果である
文字列を後段に出力する。
【0057】なお、ステップS3乃至S6の処理に引き
続き、ステップS7以降の処理を実行するようにしても
よい。すなわち、例えば、未知語「タロウ」を含む入力
音声「君の名前はタロウです」の「タロウ」を検出し、
認識用辞書7に追加登録し、言語モデル8を更新した直
後に、認識用辞書7および言語モデル8を用いて、入力
音声「君の名前はタロウです」を連続音声認識するよう
にしてもよい。このようにするためには、バッファメモ
リなどを設けて、認識用辞書7に追加登録する処理と言
語モデル8を更新する処理に期間、入力音声を一時的に
記憶するようにする。以上、音声認識装置の動作の説明
を終了する。
【0058】次に、言語モデル8に用いることができる
クラスベースの有限状態オートマトン(FSA)、単語ベー
スの統計言語モデル(n-gram)、クラスベースの統計言語
モデル(n-gram)、単語ベースの接続マトリクス、および
クラスベースの接続マトリクスと、それぞれに対応する
言語スコアの算出方法(ステップS7の通常の音声認識
の処理の中で利用される)について説明する。
【0059】図5は、言語モデル8に用いることができ
るクラスベースの有限状態オートマトンの一例を示して
いる。ここで「クラスベース」の用語は、有限状態オー
トマトンに、単語を直接的に記述するのではなく、その
代わりに、単語の集合であるクラスを記述するものであ
る。クラスベースの有限状態オートマトンは、文法を表
現するために用いられ、音声認識された単語列が文法的
に受理できるか否か(容認できるか否か)を判定するも
のである。
【0060】図5において、〈先頭〉および〈終端〉
は、それぞれ、単語列の文頭または文末(あるいは、発
話前の無音または文末の無音)を表わす特殊なシンボル
である。〈物体〉は、物体を表わす単語からなる集合に
対応するクラスシンボルである。〈ロボット名〉は、ロ
ボット名を表わす単語からなる集合に対応するクラスシ
ンボルである。状態ST1乃至ST9は、音声認識の進
捗状況を示す状態であり、特に状態ST9は終了状態で
あり、終了状態まで遷移することができれば、その単語
列は受理されたことになる。
【0061】オートマトンの各遷移には、遷移確率また
は遷移コストを付与することができる。そのようにする
ことで、単語列の「受理/非受理」だけでなく、受理さ
れた場合の確率やスコアも計算できる。
【0062】なお、各単語が何処の集合(以下、クラス
と記述する)に属しているかを示す情報は、例えば図6
に示すような、各単語が属するクラスを示すテーブルを
用いて定義する。
【0063】例えば、単語列「〈先頭〉 こんにちは
アイボ くん 〈終端〉」が図5のクラスベースの有限
状態オートマトンによって受理されるか否かを説明す
る。状態ST1乃至状態ST3は問題なく遷移する。状
態ST3から状態ST4への遷移は単語「アイボ」が
〈ロボット名〉に属している場合だけ可能である。図6
によれば、単語「アイボ」は〈ロボット名〉に属してい
るので、この遷移は成功する。状態ST4,ST5,S
T9の遷移も、図5の例と同一であるので成功する。し
たがって、いまの場合、終了状態ST9まで遷移するこ
とができたので、単語列「〈先頭〉 こんにちは アイ
ボ くん 〈終端〉」は受理される。すなわち、文法的
に容認されて、認識結果として出力される。
【0064】また、例えば単語列「〈先頭〉 アイボ
くん こんにちは 〈終端〉」は、図5のクラスベース
の有限状態オートマトンによれば、状態ST2まで遷移
した後、それ以降に遷移できない、したがって、終了状
態ST9まで遷移することができないので、単語列
「〈先頭〉 アイボ くん こんにちは 〈終端〉」は
受理されない。
【0065】上述したように、クラスベースの有限状態
オートマトンを言語モデル8に採用する場合、図6に示
したような、各単語が属するクラスを示すテーブルが必
要となる。したがって、認識用辞書7に未知語「タロ
ウ」が追加登録される際には、図7に示すように、当該
テーブルにも、未知語とその属するクラスを追記して、
当該テーブルを更新する必要がある。このとき、未知語
「タロウ」が属するクラスは、例えば以下の第1乃至第
5の決定方法を用いて決定する。
【0066】第1の決定方法は、特定のクラスに決め打
ちする方法である。具体的には、例えば、当該音声認識
装置がロボットに搭載されて利用される場合、未知語は
そのロボットの名前である可能性が高いので、全ての未
知語を、クラス〈ロボット名〉に決定するようにする。
【0067】第2の決定方法は、未知語が属するクラス
をユーザに設定させる方法である。例えば、合成音声に
よって「『タロウ』のクラスを教えてください」、
「『タロウ』はロボット名ですか、または物体ですか」
などとユーザに質問し、その回答を音声認識して、その
音声認識結果に基づき、未知語が属するクラスを決定す
るようにする。
【0068】第3の決定方法は、遷移に確率やスコアが
付与されたオートマトンを使用している場合や他にクラ
スベースのn-gramを併用している場合に使用可能な方法
で、未知語に対して順次異なるクラスを仮に決定し、そ
の状態で言語スコアを算出し、言語スコアが最大となる
クラスを、未知語のクラスに決定する方法である。例え
ば、未知語「タロウ」が認識用辞書7に追加登録された
後、入力音声「こんにちは タロウ くん」を音声認識
する場合、認識結果は単語列「〈先頭〉 こんにちは
新規語1 くん 〈終端〉」となる。
【0069】ここで例えば、既存のクラスが〈物体〉と
〈ロボット名〉であるとすれば、単語列「〈先頭〉 こ
んにちは 〈物体〉 くん 〈終端〉」の言語スコア
と、「〈先頭〉 こんにちは 〈ロボット名〉 くん
〈終端〉」の言語スコアを算出して両者を比較する。
【0070】単語列「〈先頭〉 こんにちは 〈物体〉
くん 〈終端〉」の言語スコアの方が高い場合、単語
「タロウ」のクラスを〈物体〉に決定するようにする。
反対に、単語列「〈先頭〉 こんにちは 〈ロボット
名〉 くん 〈終端〉」の言語スコアの方が高い場合、
単語「タロウ」のクラスを〈ロボット名〉に決定するよ
うにする。
【0071】第4の決定方法は、未知語に対して順次異
なるクラスを仮に決定し、その状態でクラスベースの有
限状態オートマトンによって受理されるか否かを判定
し、受理されたときのクラスを、未知語のクラスに決定
する方法である。
【0072】例えば、未知語「タロウ」が認識用辞書7
に追加登録された後、入力音声「こんにちは タロウ
くん」を音声認識する場合、認識結果は単語列「〈先
頭〉こんにちは 新規語1 くん 〈終端〉」となる。
ここで例えば、既存のクラスが〈物体〉と〈ロボット
名〉であるとすれば、単語列「〈先頭〉 こんにちは
〈物体〉 くん 〈終端〉」と、単語列「〈先頭〉 こ
んにちは 〈ロボット名〉 くん 〈終端〉」が、クラ
スベースの有限状態オートマトンによって受理されるか
否かを判定する。
【0073】図6のクラスベースの有限状態オートマト
ンでは、単語列「〈先頭〉 こんにちは 〈ロボット
名〉 くん 〈終端〉」は受理されるが、単語列「〈先
頭〉こんにちは 〈物体〉 くん〈終端〉」は受理され
ないので、単語「タロウ」のクラスを〈ロボット名〉に
決定するようにする。
【0074】第5の決定方法は、先願1に記載されてい
る方法を拡張した方法である。先願1に記載の方法で
は、例えば、未知語を検出するための文法として、図8
のようなクラスベースの有限状態オートマトンが用意さ
れる。同図において〈OOV〉(Out Of Vocabulary。
後述の〈未知語〉とは別のシンボルである)は未知語
(認識辞書に含まれない単語)を表わすシンボルであ
り、入力音声が状態ST6または状態ST9まで遷移で
きた場合、〈OOV〉に相当する入力音声の音韻系列
を、音韻タイプライタを用いることによって取得する。
【0075】例えば、未知語「アイボ」を含む入力音声
「君 の 名前 は アイボ」は、状態ST1乃至ST
6を問題なく遷移し、入力音声「アイボ」が未知語とし
て検出されると同時に、音韻タイプライタによって入力
音声「アイボ」に対応する音韻系列が取得される。この
後、状態ST7,ST10に遷移して受理される。
【0076】また例えば、未知語「鉛筆」を含む入力音
声「これ は 鉛筆」は、状態ST2,ST8,ST9
の順に問題なく遷移し、入力音声「鉛筆」が未知語とし
て検出されると同時に、音韻タイプライタによって入力
音声「鉛筆」に対応する音韻系列が取得される。この
後、状態ST7,ST10に遷移して受理される。
【0077】本発明の第5の決定方法では、未知語を表
すシンボル〈OOV〉を拡張して、属するクラスを示す
未知語のシンボルを設定するようにし、例えば、図9に
示すようなクラスベースの有限状態オートマトンを用意
するようにする。図9において、〈ロボット名〉::〈O
OV〉は、クラス〈ロボット名〉に属する未知語のシン
ボルである。また、〈物体名〉::〈OOV〉は、クラス
〈物体名〉に属する未知語のシンボルである。
【0078】図9の有限状態オートマトンにより、例え
ば、未知語「アイボ」を含む入力音声「君の 名前 は
アイボ」は、状態ST1乃至ST6は問題なく遷移
し、入力音声「アイボ」が未知語として検出されると同
時に、未知語「アイボ」はクラス〈ロボット名〉に分類
される。この後、状態ST7,ST10に遷移して受理
される。
【0079】また例えば、未知語「鉛筆」を含む入力音
声「これ は 鉛筆」は、状態ST2,ST8,ST9
の順に問題なく遷移し、入力音声「鉛筆」が未知語とし
て検出されると同時に、未知語「鉛筆」はクラス〈物体
名〉に分類される。この後、状態ST7,ST10に遷
移して受理される。
【0080】言語モデル8にクラスベースの有限状態オ
ートマトンを用いた場合において、ステップS7の通常
の音声認識処理の中で用いられる、言語スコアを算出す
る方法について説明する。
【0081】クラスベースの有限状態オートマトン上を
遷移可能であるか否かを判定する際、クラスに属する単
語をクラスシンボルに置換して(例えば、単語「アイ
ボ」をクラスシンボル〈ロボット名〉に置換して)、遷
移が可能であるか否か(受理か不受理か)を判定するよ
うにし、判定結果に対応して言語スコアを付与するよう
にする。受理と判定された場合、言語スコアとして例え
ば1を付与し、不受理と判定された場合、言語スコアと
して例えば0を付与するようにする。
【0082】次に、言語モデル8に用いることができる
単語ベースの統計言語モデル(n-gram)について説明す
る。
【0083】ここで、統計言語モデル(n-gram)とは、n
個の単語が連鎖する可能性を示す確率を記述したデータ
ベースのことであり、一般的には、n=3のtri-gram、
n=2のbi-gram、n=1のuni-gramがよく用いられ
る。
【0084】図10は、単語ベースのtri-gramの一例を
示している。同図において、w1は3連鎖の先頭の単語
を示し、w2は2番目の単語を示し、w3は3番目の単語
を示している。例えば「〈先頭〉これ は サンプル で
す〈終端〉」という単語列の中の「サンプル です〈終
端〉」という3連鎖に注目した場合、w1=サンプル,w
2=です,w3=〈終端〉である。P(w3|w1,w2)は
単語w1,w2に続いて単語w3が連鎖する確率を示して
いる。例えばP(サンプル|これ,は)は、単語「こ
れ」、「は」に続いて単語「サンプル」が連鎖する確率
を示している。
【0085】ところで、例えば、単語列「〈先頭〉これ
は サンプル の 文 です〈終端〉」の言語スコア
に相当する生成確率P(〈先頭〉 これ は サンプル
の文 です 〈終端〉)は、次式(1)に従って算出
するが、tri-gramを用いた場合、式(1)は次式(2)
によって近似することができる。
【0086】 P(〈先頭〉 これ は サンプル の 文 です 〈終端〉) =P(〈先頭〉) ・P(これ|〈先頭〉) ・P(は|〈先頭〉,これ) ・P(サンプル|〈先頭〉,これ,は) ・P(の|〈先頭〉,これ,は,サンプル) ・P(文|〈先頭〉,これ,は,サンプル,の) ・P(です|〈先頭〉,これ,は,サンプル,の,文) ・P(〈終端〉|〈先頭〉,これ,は,サンプル,の,文,です) ・・・(1)
【0087】 P(〈先頭〉 これ は サンプル の 文 です 〈終端〉) ≒P(〈先頭〉) ・P(これ|〈先頭〉) ・P(は|〈先頭〉,これ) ・P(サンプル|これ,は) ・P(の|は,サンプル) ・P(文|サンプル,の) ・P(です|の,文) ・P(〈終端〉|文,です) ・・・(2)
【0088】図10の〈未知語〉は、n-gramに出現しな
い単語(認識辞書には含まれていてもよい)を表わす特
殊なシンボルである。このように、〈未知語〉を含むエ
ントリも用意することにより、n-gramに出現しない単語
を含む単語列(未知語を追加登録した場合、このような
単語列が出現し得る)の言語スコアを算出することが可
能となる。
【0089】なお、tri-gramの確率P(w3|w1
2)は、音声認識を実行する前に予め算出して設定す
る。具体的には、例えば新聞のような、認識対象の発話
に類似した表現を含む文章を大量に用意し、その文書中
において単語が連鎖している件数をカウントして、カウ
ントした値に基づいてする確率を算出する。
【0090】例えば、確率P(サンプル|これ,は)を
算出するには、文書中の単語「これ」に単語「は」が連
鎖している件数をカウントする。例えば、その値が10
00件であるとする。つぎに、文書中の単語「これ」、
「は」に単語「サンプル」が連鎖している件数をカウン
トする。例えば、その値が10件であるとする。この場
合、確率P(サンプル|これ,は)は0.01(=10
/1000)と算出される。ただし、実用的には、後述
するバックオフスムージングを実行して、0.01より
も小さな値を設定するようにする。
【0091】なお、上述したような所定の単語が連鎖し
ている件数をカウントする方法では、所定の単語の連鎖
が文書中に存在していなければ、0件とカウントし、そ
の確率を0と算出してしまう。そのような事態を防ぐた
め、一般的には所定の単語の連鎖の確率が0とならない
ように、バックオフスムージングが行なわれる。
【0092】バックオフスムージングは、tri-gramのエ
ントリが存在しない場合、tri-gramの確率を、次式(3
−1),(3−2)に示すように、bi-gramでの確率を
用いて推定する方法である。 P(w3|w1,w2)=β(w1,w2)・P(w3|w2) (バックオフ係数β(w1,w2)が存在する場合)・・・(3−1) P(w3|w1,w2)=P(w3|w2) (バックオフ係数β(w1,w2)が存在しない場合)・・・(3−2)
【0093】さらに、bi-gramでの確率が存在しない場
合、bi-gramでの確率を、次式(4−1),(4−2)
に示すように、uni-gramでの確率を用いて推定する。 P(w3|w2)=β(w2)・P(w3) (バックオフ係数β(w2)が存在する場合) ・・・(4−1) P(w3|w2)=P(w3) (バックオフ係数β(w2)が存在しない場合) ・・・(4−2)
【0094】ここで、バックオフ係数は、確率の総和が
1を超過しないようにするための係数であり、n-gramで
の確率を計算する際に同時に算出する。
【0095】このように、バックオフスムージングを実
行する場合、tri-gramの他、図11に示すようなbi-gra
mと、図12に示すようなuni-gramが必要となる。
【0096】言語モデル8に単語ベースの統計言語モデ
ル(n-gram)を用いた場合において、認識用辞書7に追加
登録した未知語を言語モデル8に反映させて言語スコア
を算出する第1乃至第3の算出方法について説明する。
【0097】第1の算出方法は、新聞のような、追加登
録した単語を含む文章および認識対象の発話に類似した
表現を含む文章を用い、再び確率を算出する方法であ
る。
【0098】第2の算出方法は、追加登録した単語を、
n-gram上で〈未知語〉として扱う方法である。この方法
の場合、〈未知語〉を含むエントリを利用して言語スコ
アが求められる。例えば入力音声「タロウ」が未知語と
して検出され、新規語1として認識用辞書7に追加登録
された後、音声「こんにちは タロウ くん」が入力さ
れた場合、この入力音声は、単語列「〈先頭〉 こんに
ちは 新規語1 くん〈終端〉」に対して言語スコアを
算出する必要がある。
【0099】この言語スコアの算出過程では、「新規語
1」を含むtri-gramの確率P(新規語1|〈先頭〉,こ
んにちは),P(くん|こんにちは,新規語1),P(〈終
端〉|新規語1,くん)が必要であるが、これらは予め
用意したtri-gramにはエントリが存在しない。
【0100】そこでこれらの確率を、〈未知語〉を含む
エントリを用い、次式(5)乃至(7)に示すように算
出する。 P(新規語1|〈先頭〉,こんにちは) =P(〈未知語〉|〈先頭〉,こんにちは)・P(新規語1|〈未知語〉) ・・・(5) P(くん|こんにちは,新規語1) =P(くん|こんにちは,〈未知語〉) ・・・(6) P(〈終端〉|新規語1,くん) =P(〈終端〉|〈未知語〉,くん) ・・・(7)
【0101】ただし、式(5)におけるP(新規語1|
〈未知語〉)は、〈未知語〉に「新規語1」が連鎖して
いる確率であり、例えば〈未知語〉と見なされる単語が
「新規語1」を含めてM個だけ存在する場合、P(新規
語1|〈未知語〉)=1/Mのように簡単に計算され
る。
【0102】第3の算出方法は、例えば図13に示すよ
うに、認識用辞書7に追加登録した「新規語1」に対応
するエントリをuni-gramに追加し、uni-gram 確率の総
和が1を超過しないように他の確率を小さくして、「新
規語1」に適切な確率値およびバックオフ係数を設定す
る方法である。具体的には、図13の例のように、「新
規語1」のエントリが追加され、「新規語1」が以降の
認識結果中に出現し易いように、その確率P(新規語
1)として比較的大きめの値0.100が設定され、バ
ックオフ係数β(新規語1)として0.02が設定され
る。
【0103】なお、uni-gramだけに「新規語1」に対応
するエントリを追加する理由は、bi-gramやtri-gramは
大量のテキストを用いなければ確率が計算し難いことに
対し、uni-gramは大量のテキストを用いなくとも確率を
計算し易いことに起因している。
【0104】言語スコアを算出するために必要な「新規
語1」を含むtri-gramの確率P(新規語1|〈先頭〉,
こんにちは)は、tri-gram中に存在しないので、bi-gra
mにバックオフされる。bi-gramへのバックオフは式(3
−1),(3−2)に示したように2種類あるが、いま
の場合、バックオフ係数β(〈先頭〉,こんにちは)が
存在するので、次式(8)に示すようにバックオフされ
る。
【0105】さらに式(8)中のbi-gramの確率P(新
規語1|こんにちは)は存在しないのでuni-gramにバッ
クオフされる。uni-gramへのバックオフは式(4−
1),(4−2)に示したように2種類あるが、いまの
場合、バックオフ係数β(こんにちは)が存在するの
で、次式(9)に示すようにバックオフされる。
【0106】 P(新規語1|〈先頭〉,こんにちは) =β(〈先頭〉,こんにちは)・P(新規語1|こんにちは) ・・・(8) =β(〈先頭〉,こんにちは)・β(こんにちは)・P(新規語1) ・・・(9)
【0107】同様に、言語スコアを算出するために必要
な「新規語1」を含むtri-gramの確率P(くん|こんに
ちは,新規語1)は、tri-gram中に存在しないので、bi
-gramにバックオフされるが、いまの場合、バックオフ
係数β(こんにちは,新規語1)は存在しないので、次
式(10)に示すようにバックオフされる。
【0108】さらに式(10)中のbi-gramの確率P
(くん|新規語1)は存在しないのでuni-gramにバック
オフされるが、いまの場合、バックオフ係数β(新規語
1)が存在するので、次式(11)に示すようにバック
オフされる。 P(くん|こんにちは,新規語1) =P(くん|新規語1) ・・・(10) =β(新規語1)・P(くん) ・・・(11)
【0109】また同様に、言語スコアを算出するために
必要な「新規語1」を含むtri-gramの確率P(〈終端〉
|新規語1,くん)は、tri-gram中に存在しないので、
bi-gramにバックオフされるが、いまの場合、バックオ
フ係数β(新規語1,くん)は存在しないので、次式
(12)に示すようにバックオフされる。
【0110】 P(〈終端〉|新規語1,くん) =P(〈終端〉|くん) ・・・(12)
【0111】なお、式(12)の確率P(〈終端〉|く
ん)はbi-gramに存在するので、uni-gramへのバックオ
フは必要ない。
【0112】次に、言語モデル8に用いることができる
クラスベースの統計言語モデル(n-gram)について説明す
る。クラスベースのn-gramとは、上述した単語ベースn-
gramにおける単語を、クラスシンボルに置換したもので
ある。ただし、単語とクラスシンボルの両方が混在して
もかまわない。
【0113】図14は、単語とクラスシンボルの両方が
混在するクラスベースのuni-gramの一例を示している。
図14において〈ロボット名〉および〈物体名〉はクラ
スシンボルである。なお、例えば〈名詞〉や〈動詞〉な
どのように各品詞に対応するクラスシンボルを設定する
ことが可能である。
【0114】クラスベースのn-gramは、上述した単語ベ
ースn-gramと同様に、uni-gramの他、bi-gramとtri-gra
mが必要である。
【0115】なお、各単語が何処のクラスに属している
かの情報は、例えば図15に示すような、各単語が属す
るクラスを示すテーブルを設定する。また、同図におけ
るP(C|w)とP(w|C)については後述する。
【0116】言語モデル8にクラスベースの統計言語モ
デル(n-gram)を用いた場合、認識用辞書7に追加登録し
た未知語を言語モデル8に反映させることとは、すなわ
ち、図15に示した単語とクラスの対応表に、追加登録
した未知語(新規語1)、そのクラス、そのP(C|
w)と、そのP(w|C)を追加して、図16に示すよ
うに対応表を更新することである。
【0117】したがって、このとき、未知語のクラスを
推定して決定する必要が生じる。決定の方法は、上述し
た言語モデル8にクラスベースの有限状態オートマトン
を用いる場合における第1および第3の決定方法と同様
であるので、その説明は省略する。
【0118】ここで、音声認識の処理に含まれる、単語
列の言語スコアを算出するために必要となる、クラス間
のtri-gram確率から単語間のtri-gram確率を計算する方
法について説明する。すなわち、単語「w1」、「w2
に連鎖して単語「w3」が存在するクラス間のtri-gram
確率P(w3|w1,w2)は、次式(13)に示すよう
にクラス間のtri-gram確率を用いて算出される。 P(w3|w1,w2) =ΣP(C1|w1)・ΣP(C2|w2) ・ΣP(C3|C1,C2)・P(w3|C3) ・・・(13)
【0119】ここで、C1,C2,C3は、それぞれ、単
語「w1」、「w2」、「w3」が属するクラスを示す。
Σは、1つの単語が複数のクラスに属している場合、そ
れぞれのクラスについて確率値を求めた後に総和を算出
する演算を示している。P(C 1|w1)は、単語
「w1」がクラスC1に属する確率を示している。
【0120】同様に、P(C2|w2)は、単語「w2
がクラスC2に属する確率を示している。逆に、P(w3
|C3)は、クラスC3から単語「w3」が生成される確
率を示している。
【0121】なお、確率P(C1|w1),P(C2
2),P(w3|C3)のいずれも、図15に示した単
語とクラスの対応表から読み取ることができる。
【0122】また、当該確率P(C|w),P(w|
C)を簡単に計算する方法として、単語wがN個のクラ
スに属する場合、確率P(C|w)=1/Nとし、クラ
スCにM個の単語が属する場合、確率P(w|C)=1
/Mとすればよい。例えば単語「千葉」がクラス〈地
名〉と〈人名〉に属する場合、N=2であるので、確率
P(C|千葉)=0.5と算出される。クラスに属さな
い単語については、その単語単独で1つのクラスを構成
していると考える。すなわち、その場合、確率P(C|
w)=1であり、確率P(w|C)=1である。
【0123】また、各単語は、1つのクラスにだけ属す
るとの制約を課するようにすれば、確率P(C|w)=
1であり、確率P(w|C)=1となるので、この場
合、式(13)は、次式(14)に示すように簡略化す
ることができる(詳細は、後述する)。 P(w3|w1,w2) =P(C3|C1,C2)・P(w3|C3) ・・・(14)
【0124】ここで、単語列「〈先頭〉 こんにちは
新規語1 くん 〈終端〉」の言語スコアを計算するこ
とを考える。ただし、「新規語1」はクラス〈ロボット
名〉だけに属していると仮定する。
【0125】言語スコアを算出するために必要な「新規
語1」を含むtri-gramの確率P(新規語1|〈先頭〉,
こんにちは)は、次式(15)に変形して計算する。 P(新規語1|〈先頭〉,こんにちは) =P(〈ロボット名〉|〈先頭〉,こんにちは) ・P(新規語1|〈ロボット名〉) ・・・(15)
【0126】また、「新規語1」を含むtri-gramの確率
P(くん|こんにちは,新規語1)は、次式(16)に
変形して計算する。 P(くん|こんにちは,新規語1) =P(くん|こんにちは,〈ロボット名〉) ・・・(16)
【0127】さらに、「新規語1」を含むtri-gramの確
率P(〈終端〉|新規語1,くん)は、次式(17)に
変形して計算する。 P(〈終端〉|新規語1,くん) =P(〈終端〉|〈ロボット名〉,くん) ・・・(17)
【0128】次に、言語モデル8に用いることができる
単語ベースの接続マトリクスについて説明する。単語ベ
ースの接続マトリクスとは、例えば図17に示すよう
な、2つの単語が接続可能であるか否かを示す表を指
す。同図は、縦列に配置された各単語に対して、横列に
配置された各単語が接続可能であるか否かを「○」また
は「空欄」によって示している。
【0129】例えば、単語「です」に対しては、単語
「〈終端〉」だけが接続可能であり、単語「〈未知
語〉」、「〈先頭〉」、「です」、「の」、「は」、
「これ」、「サンプル」が接続不可能であることを示し
ている。また例えば、単語「サンプル」に対しては、単
語「〈終端〉」、「です」、「の」、「は」が接続可能
であり、単語「〈未知語〉」、「〈先頭〉」、「これ」
が接続不可能であることを示している。
【0130】なお、図17に示した単語ベースの接続マ
トリクスの代わりに、それと同等なものとして、接続可
能な単語対を列挙した図18に示すような単語対文法を
用いてもよい。
【0131】言語モデル8に単語ベースの接続マトリク
スを用いた場合、認識用辞書7に追加登録した「新規語
1」を言語モデル8に反映させることとは、すなわち、
図17に示した単語ベースの接続マトリクスに、追加登
録した単語「新規語1」に対して他の単語が接続可能で
あるか否を示す情報を設定して、図19に示すように、
単語ベースの接続マトリクスを更新することである。
【0132】例えば、図19の場合、追加登録された単
語「新規語1」に対しては、単語「〈先頭〉」を除く全
ての単語が接続可能であり、単語「新規語1」は、単語
「〈終端〉」を除く全ての単語に接続可能であるように
設定されたことを示している。
【0133】言語モデル8に単語ベースの接続マトリク
スを用いた場合の単語列の言語スコアを算出する方法
は、隣接する2単語の対で接続可能であるか否かを、単
語ベースの接続マトリクスを参照して判定し、全ての2
単語の対が接続可能であると判定した場合、当該単語列
の言語スコアを1とするようにし、接続不可能であると
判定された2単語の対が存在する場合、当該単語列の言
語スコアを0とするようにする。あるいは、単語列中に
存在する、接続不可能であると判定された2単語の対の
数に対応して、言語スコアを1以下とするようにしても
よい。
【0134】例えば単語列「〈先頭〉 これ は 新規
語1 です 〈終端〉」に対しては、全ての2単語の対
「〈先頭〉」と「これ」、対「これ」と「は」、対
「は」と「新規語1」、対「新規語1」と「です」、お
よび対「です」と「〈終端〉」が接続可能であると判定
されるので、当該単語列の言語スコアは1とされる。
【0135】また例えば、単語列「〈先頭〉 新規語1
は です 〈終端〉」に対しては、全ての2単語の対
「〈先頭〉」と「新規語1」、対「新規語1」と
「は」、対「は」と「です」、および対「です」と
「〈終端〉」のうち、2単語の対「は」と「です」が、
接続マトリクスによって接続不可能とされているので、
当該単語列の言語スコアは0とされる。
【0136】次に、言語モデル8に用いることができる
クラスベースの接続マトリクスについて説明する。クラ
スベースの接続マトリクスとは、例えば図20に示すよ
うに、図17に示した単語ベースの接続マトリクスにク
ラスシンボルを混在させた表を指す。図20においても
図17と同様に、縦列に配置された各単語およびクラス
シンボルに対して、横列に配置された各単語およびクラ
スシンボルが接続可能であるか否かを「○」または「空
欄」によって示している。
【0137】なお、言語モデル8にクラスベースの接続
マトリクスを用いた場合、図6に示したような、各単語
が属するクラスを示すテーブルが必要となる。
【0138】言語モデル8にクラスベースの接続マトリ
クスを用いた場合の単語列の言語スコアを算出する方法
は、単語列中の単語うち、クラスシンボルに置換できる
ものを置換した後、隣接する単語(またはクラスシンボ
ル)の対で接続可能であるか否かを、クラスベースの接
続マトリクスを参照して判定し、全ての対が接続可能で
あると判定した場合、当該単語列の言語スコアを1とす
るようにし、接続不可能であると判定された対が存在す
る場合、当該単語列の言語スコアを0とするようにす
る。あるいは、単語列中に存在する、接続不可能である
と判定された対の数に対応して、言語スコアを1以下と
するようにしてもよい。
【0139】例えば単語列「〈先頭〉 これ は 新規
語1 です 〈終端〉」に対しては、例えば、図6に示
した、各単語が属するクラスを示すテーブルが参照され
て、単語「新規語1」がクラスシンボル〈ロボット名〉
に置換される。そして、単語列「〈先頭〉 これ は
〈ロボット名〉 です 〈終端〉」の全ての2単語の対
「〈先頭〉」と「これ」、対「これ」と「は」、対
「は」と「〈ロボット名〉」、対「〈クラスシンボ
ル〉」と「です」、および対「です」と「〈終端〉」が
接続可能であると判定されるので、当該単語列の言語ス
コアは1とされる。
【0140】以上、言語モデル8に用いることができる
クラスベースの有限状態オートマトン(FSA)、単語ベー
スの統計言語モデル(n-gram)、クラスベースの統計言語
モデル(n-gram)、単語ベースの接続マトリクス、および
クラスベースの接続マトリクスについての説明を終了す
る。
【0141】ところで、言語モデル8にクラスベースの
有限状態オートマトン(FSA)を用いた場合、上述した説
明においては、各単語が属するクラスを示すテーブル
(図6)を設けるようにしたが、当該テーブルを認識用
辞書7に包含させるようにしてもよい。このようにすれ
ば、認識用辞書7と当該テーブルとの整合を取ることが
容易になる。また、両者をメンテナンスする手間を軽減
させることが可能となる。
【0142】図21は、各単語が属するクラスを示すテ
ーブルを包含する認識用辞書7の一例を示している。同
図において、単語シンボル「〈ロボット名〉::アイ
ボ」は、当該単語シンボルがクラス〈ロボット名〉に属
することを表わしている。単語シンボル「〈ロボット
名〉::新規語1」は、当該単語シンボルがクラス〈ロ
ボット名〉に属することを表わしている。
【0143】ところでまた、言語モデル8にクラスベー
スの統計言語モデル(n-gram)を用いた場合、上述した説
明においては、各単語が属するクラスを示すテーブル
(図15)を設けるようにしたが、当該テーブルを認識
用辞書7に包含させるようにしてもよい。このようにす
れば、認識用辞書7と当該テーブルとの整合を取ること
が容易になる。また、両者をメンテナンスする手間を軽
減させることが可能となる。
【0144】図22は、各単語が属するクラスを示すテ
ーブルを包含する認識用辞書7の一例を示している。こ
の場合、属するクラスの情報を含む単語シンボルに対応
して、確率P(C|w),P(w|C)の欄が設けられ
る。ただし、なお、確率P(C|w)として1/N(N
は単語wが属するクラスの数)、確率P(w|C)とし
て1/M(MはクラスCに属する単語の数)を採用する
場合、確率P(C|w),P(w|C)の欄を省略する
ことができる。
【0145】同図において、単語シンボル「〈人
名〉::千葉」と単語シンボル「〈地名〉::千葉」
は、同一の音韻系列をもつが、それぞれ、クラス〈人
名〉またはクラス〈地名〉に属する異なる単語として扱
われる。換言すれば、「各単語が属するクラスの数を1
に限定する」との制約を課することが可能となる。
【0146】このような制約を課することにより、上述
したように、式(13)の代わりに、それを簡略化した
式(14)を用いることができるので、単語「千葉」が
クラス〈人名〉と〈地名〉の両方に属するとの条件で式
(13)を用いて言語スコアを算出する場合に比較し
て、言語スコアの計算コストを削減することができる。
【0147】以上説明したように、本発明の音声認識装
置によれば、入力音声の中に未知語が含まれていても、
それを自動的に検出して登録し、以後、当該未知語を含
む発話も音声認識することが可能となる。
【0148】したがって、音声認識ロボットなどに本発
明を適用すれば、ユーザが煩雑な単語登録作業をするこ
となく、また、発話中に未知語が含まれているか否か気
にすることなく、音声認識ロボットと対話することがで
きる。
【0149】ところで、本発明の上述した一連の処理
は、ハードウェアにより実行させることもできるが、ソ
フトウェアにより実行させることもできる。一連の処理
をソフトウェアにより実行させる場合には、そのソフト
ウェアを構成するプログラムが、専用のハードウェアに
組み込まれているコンピュータ、または、各種のプログ
ラムをインストールすることで、各種の機能を実行する
ことが可能な、例えば汎用のパーソナルコンピュータな
どに、記録媒体(図23の磁気ディスク32乃至半導体
メモリ35)からインストールされる。
【0150】図23は、専用のアプリケーションプログ
ラムを実行することによって音声認識装置として動作す
るパーソナルコンピュータの構成例を示している。
【0151】このパーソナルコンピュータは、CPU(Cent
ral Processing Unit)21を内蔵している。CPU21に
はバス24を介して、入出力インタフェース25が接続
されている。バス24には、ROM(Read Only Memory)2
2およびRAM(Random Access Memory)23が接続されて
いる。
【0152】入出力インタフェース25には、ユーザの
音声を入力するマイクロフォンなどよりなる音声入力部
26、ユーザが操作コマンドを入力するキーボード、マ
ウスなどの入力デバイスよりなる操作入力部27、操作
画面などの映像信号をディスプレイに出力する表示制御
部28、プログラムや各種データを格納するハードディ
スクドライブなどよりなる記憶部29、インタネットに
代表されるネットワークを介してデータを通信する通信
部30、および磁気ディスク32乃至半導体メモリ35
などの記録媒体に対してデータを読み書きするドライブ
31が接続されている。
【0153】このパーソナルコンピュータに音声認識装
置としての動作を実行させるプログラムは、磁気ディス
ク32(フロッピディスクを含む)、光ディスク33
(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digit
al Versatile Disc)を含む)、光磁気ディスク34(M
D(Mini Disc)を含む)、もしくは半導体メモリ35に
格納された状態でパーソナルコンピュータに供給され、
ドライブ31によって読み出されて記憶部29に内蔵さ
れるハードディスクドライブにインストールされてい
る。記憶部29にインストールされているプログラム
は、操作入力部27に入力されるユーザからのコマンド
に対応するCPU21の指令によって、記憶部29からRAM
23にロードされて実行される。
【0154】なお、本明細書において、記録媒体に記録
されるプログラムを記述するステップは、記載された順
序に従って時系列的に行われる処理はもちろん、必ずし
も時系列的に処理されなくとも、並列的あるいは個別に
実行される処理をも含むものである。
【0155】また、本明細書において、システムとは、
複数の装置により構成される装置全体を表わすものであ
る。
【0156】
【発明の効果】以上のように、本発明の音声認識装置お
よび方法、並びにプログラムによれば、検出した未知語
を新規語として、取得した発音情報とを対応付けて認識
用辞書に登録し、登録した新規語を反映させて言語モデ
ルを更新し、更新した言語モデルに基づいて未知語を含
む入力音声に対応する単語列の言語スコアを算出するよ
うにしたので、未知語を含む入力音声を連続音声認識す
ることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の構成例を示す
ブロック図である。
【図2】図1の音声認識装置の動作を説明するフローチ
ャートである。
【図3】認識用辞書7の一例を示す図である。
【図4】認識用辞書7の一例を示す図である。
【図5】クラスベースの有限状態オートマトンの一例を
示す図である。
【図6】各単語が属するクラスを示すテーブル(クラス
ベースの有限状態オートマトン用)の一例を示す図であ
る。
【図7】各単語が属するクラスを示すテーブル(クラス
ベースの有限状態オートマトン用)の一例を示す図であ
る。
【図8】クラスベースの有限状態オートマトンの一例を
示す図である。
【図9】クラスベースの有限状態オートマトンの一例を
示す図である。
【図10】単語ベースのtri-gramの一例を示す図であ
る。
【図11】単語ベースのbi-gramの一例を示す図であ
る。
【図12】単語ベースのuni-gramの一例を示す図であ
る。
【図13】単語ベースのuni-gramの一例を示す図であ
る。
【図14】クラスベースのuni-gramの一例を示す図であ
る。
【図15】各単語が属するクラスを示すテーブル(クラ
スベースのn-gram用)の一例を示す図である。
【図16】各単語が属するクラスを示すテーブル(クラ
スベースのn-gram用)の一例を示す図である。
【図17】単語ベースの接続マトリクスの一例を示す図
である。
【図18】図17の単語ベースの接続マトリクスに相当
する単語対文法の一例を示す図である。
【図19】単語ベースの接続マトリクスの一例を示す図
である。
【図20】クラスベースの接続マトリクスの一例を示す
図である。
【図21】認識用辞書7に、図6の各単語が属するクラ
スを示すテーブル(クラスベースの有限状態オートマト
ン用)を包含させた一例を示す図である。
【図22】認識用辞書7に、図15の各単語が属するク
ラスを示すテーブル(クラスベースのn-gram用)を包含
させた一例を示す図である。
【図23】一般的なパーソナルコンピュータの構成例を
示すブロック図である。
【符号の説明】
1 制御部, 2 マイクロフォン, 3 AD変換
部, 4 特徴抽出部,5 未知語登録部, 6 音声
認識部, 7 認識用辞書, 8 言語モデル, 9
音響モデル, 10 マッチング部, 21 CPU,
32 磁気ディスク, 33 光ディスク, 34 光
磁気ディスク, 35 半導体メモリ
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 3/00 537G

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 認識用辞書および言語モデルを用い、入
    力音声を対応する単語列に変換する音声認識装置におい
    て、 前記入力音声に含まれる未知語を検出する検出手段と、 前記検出手段によって検出された前記未知語に対応する
    発音情報を取得する取得手段と、 前記検出手段によって検出された前記未知語を新規語と
    して、前記取得手段によって取得された前記発音情報と
    を対応付けて前記認識用辞書に登録する登録手段と、 前記登録手段によって登録された前記新規語を反映させ
    て前記言語モデルを更新する更新手段と、 前記更新手段によって更新された前記言語モデルに基づ
    き、前記未知語を含む前記入力音声に対応する単語列の
    言語スコアを算出する算出手段とを含むことを特徴とす
    る音声認識装置。
  2. 【請求項2】 前記検出手段は、クラスタリング法に従
    い、前記入力音声に含まれる前記未知語を検出し、 前記取得手段は、前記クラスタリング法に従い、前記検
    出手段によって検出された前記未知語に対応する前記発
    音情報を取得することを特徴とする請求項1に記載の音
    声認識装置。
  3. 【請求項3】 前記登録手段によって登録された前記新
    規語が属するクラスを設定して、前記認識用辞書に登録
    されている単語が属するクラスを示す対応テーブルに追
    記する設定手段をさらに含み、 前記更新手段は、前記登録手段によって登録された前記
    新規語を反映させてクラスベースの言語モデルを更新す
    ることを特徴とする請求項1に記載の音声認識装置。
  4. 【請求項4】 前記クラスベースの言語モデルは、クラ
    スベースの有限状態オートマトン、統計言語モデル、接
    続マトリクス、または前記接続マトリクスに相当する単
    語対文法であることを特徴とする請求項3に記載の音声
    認識装置。
  5. 【請求項5】 前記設定手段は、前記登録手段によって
    登録された前記新規語が属するクラスを設定して、前記
    認識用辞書に包含された前記対応テーブルに追記するこ
    とを特徴とする請求項3に記載の音声認識装置。
  6. 【請求項6】 前記設定手段は、前記クラスベースの有
    限状態オートマトンに基づいて算出される前記言語スコ
    アが最大となるように、前記登録手段によって登録され
    た前記新規語が属する前記クラスを設定して、前記対応
    テーブルに追記することを特徴とする請求項4に記載の
    音声認識装置。
  7. 【請求項7】 前記設定手段は、前記クラスベースの統
    計言語モデルに基づいて算出される前記言語スコアが最
    大となるように、前記登録手段によって登録された前記
    新規語が属する前記クラスを設定して、前記対応テーブ
    ルに追記することを特徴とする請求項4に記載の音声認
    識装置。
  8. 【請求項8】 前記設定手段は、前記クラスベースの有
    限状態オートマトンに予め用意されている前記クラス
    を、前記登録手段によって登録された前記新規語が属す
    る前記クラスとして設定して、前記対応テーブルに追記
    することを特徴とする請求項4に記載の音声認識装置。
  9. 【請求項9】 前記更新手段は、前記登録手段によって
    登録された前記新規語を反映させて単語ベースの言語モ
    デルを更新することを特徴とする請求項1に記載の音声
    認識装置。
  10. 【請求項10】 前記単語ベースの言語モデルは、単語
    ベースの統計言語モデル、接続マトリクス、または前記
    接続マトリクスに相当する単語対文法であることを特徴
    とする請求項9に記載の音声認識装置。
  11. 【請求項11】 認識用辞書および言語モデルを用い、
    入力音声を対応する単語列に変換する音声認識装置の音
    声認識方法において、 前記入力音声に含まれる未知語を検出する検出ステップ
    と、 前記検出ステップの処理で検出された前記未知語に対応
    する発音情報を取得する取得ステップと、 前記検出ステップの処理で検出された前記未知語を新規
    語として、前記取得ステップの処理で取得された前記発
    音情報とを対応付けて前記認識用辞書に登録する登録ス
    テップと、 前記登録ステップの処理で登録された前記新規語を反映
    させて前記言語モデルを更新する更新ステップと、 前記更新ステップの処理で更新された前記言語モデルに
    基づき、前記未知語を含む前記入力音声に対応する単語
    列の言語スコアを算出する算出ステップとを含むことを
    特徴とする音声認識方法。
  12. 【請求項12】 認識用辞書および言語モデルを用い、
    入力音声を対応する単語列に変換するためのプログラム
    であって、 前記入力音声に含まれる未知語を検出する検出ステップ
    と、 前記検出ステップの処理で検出された前記未知語に対応
    する発音情報を取得する取得ステップと、 前記検出ステップの処理で検出された前記未知語を新規
    語として、前記取得ステップの処理で取得された前記発
    音情報とを対応付けて前記認識用辞書に登録する登録ス
    テップと、 前記登録ステップの処理で登録された前記新規語を反映
    させて前記言語モデルを更新する更新ステップと、 前記更新ステップの処理で更新された前記言語モデルに
    基づき、前記未知語を含む前記入力音声に対応する単語
    列の言語スコアを算出する算出ステップとを含むことを
    特徴とするコンピュータが読み取り可能なプログラムが
    記録されている記録媒体。
  13. 【請求項13】 認識用辞書および言語モデルを用い、
    入力音声を対応する単語列に変換するコンピュータに、 前記入力音声に含まれる未知語を検出する検出ステップ
    と、 前記検出ステップの処理で検出された前記未知語に対応
    する発音情報を取得する取得ステップと、 前記検出ステップの処理で検出された前記未知語を新規
    語として、前記取得ステップの処理で取得された前記発
    音情報とを対応付けて前記認識用辞書に登録する登録ス
    テップと、 前記登録ステップの処理で登録された前記新規語を反映
    させて前記言語モデルを更新する更新ステップと、 前記更新ステップの処理で更新された前記言語モデルに
    基づき、前記未知語を含む前記入力音声に対応する単語
    列の言語スコアを算出する算出ステップとを実行させる
    プログラム。
JP2001382579A 2001-12-17 2001-12-17 音声認識装置および方法、記録媒体、並びにプログラム Withdrawn JP2003186494A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001382579A JP2003186494A (ja) 2001-12-17 2001-12-17 音声認識装置および方法、記録媒体、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001382579A JP2003186494A (ja) 2001-12-17 2001-12-17 音声認識装置および方法、記録媒体、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2003186494A true JP2003186494A (ja) 2003-07-04

Family

ID=27592875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001382579A Withdrawn JP2003186494A (ja) 2001-12-17 2001-12-17 音声認識装置および方法、記録媒体、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2003186494A (ja)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006038895A (ja) * 2004-07-22 2006-02-09 Sony Corp 音声処理装置および音声処理方法、プログラム、並びに記録媒体
WO2007083637A1 (ja) * 2006-01-17 2007-07-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
WO2007097176A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP2008242059A (ja) * 2007-03-27 2008-10-09 Mitsubishi Electric Corp 音声認識辞書作成装置および音声認識装置
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
JP2008287697A (ja) * 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置およびプログラム
JP2008287210A (ja) * 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
JP2010014885A (ja) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International 音声認識機能付情報処理端末
JP2010145930A (ja) * 2008-12-22 2010-07-01 Nissan Motor Co Ltd 音声認識装置及び方法
JP2010282199A (ja) * 2009-06-02 2010-12-16 Honda Motor Co Ltd 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
US8620658B2 (en) 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US9471568B2 (en) 2013-09-19 2016-10-18 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
JP2020052779A (ja) * 2018-09-27 2020-04-02 株式会社Kddi総合研究所 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006038895A (ja) * 2004-07-22 2006-02-09 Sony Corp 音声処理装置および音声処理方法、プログラム、並びに記録媒体
WO2007083637A1 (ja) * 2006-01-17 2007-07-26 Pioneer Corporation 音声認識装置、音声認識方法、音声認識プログラム、および記録媒体
JP5040909B2 (ja) * 2006-02-23 2012-10-03 日本電気株式会社 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
WO2007097176A1 (ja) * 2006-02-23 2007-08-30 Nec Corporation 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
WO2007138875A1 (ja) * 2006-05-31 2007-12-06 Nec Corporation 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP2008242059A (ja) * 2007-03-27 2008-10-09 Mitsubishi Electric Corp 音声認識辞書作成装置および音声認識装置
JP2008262120A (ja) * 2007-04-13 2008-10-30 Nippon Hoso Kyokai <Nhk> 発話評価装置及び発話評価プログラム
JP2008287697A (ja) * 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置およびプログラム
JP2008287210A (ja) * 2007-04-16 2008-11-27 Sony Corp 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US8620658B2 (en) 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2009294269A (ja) * 2008-06-03 2009-12-17 Nec Corp 音声認識システム
JP2010014885A (ja) * 2008-07-02 2010-01-21 Advanced Telecommunication Research Institute International 音声認識機能付情報処理端末
JP2010145930A (ja) * 2008-12-22 2010-07-01 Nissan Motor Co Ltd 音声認識装置及び方法
JP2010282199A (ja) * 2009-06-02 2010-12-16 Honda Motor Co Ltd 語彙獲得装置、マルチ対話行動システム及び語彙獲得プログラム
US9471568B2 (en) 2013-09-19 2016-10-18 Kabushiki Kaisha Toshiba Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
US10109274B2 (en) 2014-11-28 2018-10-23 Kabushiki Kaisha Toshiba Generation device, recognition device, generation method, and computer program product
JP2020052779A (ja) * 2018-09-27 2020-04-02 株式会社Kddi総合研究所 学習データ作成装置並びに分類モデル学習装置及びカテゴリ付与装置

Similar Documents

Publication Publication Date Title
TW546631B (en) Disambiguation language model
US6694296B1 (en) Method and apparatus for the recognition of spelled spoken words
US9711138B2 (en) Method for building language model, speech recognition method and electronic apparatus
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6973427B2 (en) Method for adding phonetic descriptions to a speech recognition lexicon
US9613621B2 (en) Speech recognition method and electronic apparatus
US8731928B2 (en) Speaker adaptation of vocabulary for speech recognition
US6985863B2 (en) Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech
US20020123894A1 (en) Processing speech recognition errors in an embedded speech recognition system
US20150112674A1 (en) Method for building acoustic model, speech recognition method and electronic apparatus
US20080147404A1 (en) System and methods for accent classification and adaptation
JP2003186494A (ja) 音声認識装置および方法、記録媒体、並びにプログラム
US20060074664A1 (en) System and method for utterance verification of chinese long and short keywords
JP2001101187A (ja) 翻訳装置および翻訳方法、並びに記録媒体
US7502731B2 (en) System and method for performing speech recognition by utilizing a multi-language dictionary
US6963834B2 (en) Method of speech recognition using empirically determined word candidates
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
JP4499389B2 (ja) 音声処理のためのデシジョン・ツリーの質問を生成するための方法および装置
US20040006469A1 (en) Apparatus and method for updating lexicon
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
US20040010405A1 (en) System and method for Mandarin Chinese speech recogniton using an optimized phone set
Rahim et al. Robust numeric recognition in spoken language dialogue
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP3378547B2 (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050301