JP5546565B2

JP5546565B2 - 単語追加装置、単語追加方法、およびプログラム

Info

Publication number: JP5546565B2
Application number: JP2012035964A
Authority: JP
Inventors: 祥子山畠; 義和山口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-02-22
Filing date: 2012-02-22
Publication date: 2014-07-09
Anticipated expiration: 2032-02-22
Also published as: JP2013171222A

Description

この発明は、音声認識システムに用いる認識辞書に単語を追加する単語追加装置、単語追加方法、およびプログラムに関する。

音声認識システムに用いる認識辞書に単語を追加する方法には、入力音声のタスクに関連した音声認識結果を用いてＷｅｂ上から関連文書を収集し、関連文書に含まれる認識辞書に登録されていない未登録単語を全て、ないしは頻度やｔｆ−ｉｄｆ値に応じて登録するものがある（非特許文献１および非特許文献２参照）。

また、入力音声のタスクに関連した音声認識結果と、単語同士の意味の近さを表す語彙データベースを用いて、音声認識結果に出現する各単語と未登録単語の関連度を求め、関連度が高い未登録単語を辞書に登録するもの（特許文献１参照）や、入力音声のタスクに関連した音声認識結果の特徴を表すベクトルを概念ベースから求め、単語の特徴を表すベクトルが格納されている語彙データベースを用いて、音声認識結果の特徴ベクトルと語彙データベース中に存在する未登録単語を辞書に登録するもの（特許文献２参照）がある。特許文献１，２では、未登録単語の特徴を適切にとらえるために、語彙データベースや概念ベースの構築に、大規模なコーパスを用いることを想定している。

特開２００５−２５００７１号公報特開２００５−１４９０１４号公報

C.E.Liu, K.Thambiratnam, F.Seide, "Online Vocabulary Adaptation using Limited Adaptation Data", InterSpeech2007, pp. 1822-1824. 増村亮, 咸聖俊, 伊藤彰則, "教師なし言語モデル適応のためのWeb Documentを用いた単語のトピック表現", 情報処理学会研究報告, Vol.82, No.18, pp.1-6.

しかしながら、非特許文献１，２に記載された方法において、関連文書中の認識辞書未登録単語を全て、ないしは頻度やｔｆ−ｉｄｆ値に応じて登録する場合には、入力音声のタスクに関連しない単語が登録されてしまう。その結果、認識辞書の語彙数の増大を招き、認識精度が劣化することがある。

また、特許文献１，２に記載された方法において、新たな単語を含む関連文書が少量ずつ得られ、頻繁に認識辞書の更新を行いたい場合には、更新の度に、既存の大規模なコーパスと新たに得られた関連文書の両方を用いて、概念ベースや語彙データベースを構築し直さなければいけないため、更新の度に多大な計算コストがかかることになる。また、新たに得られた関連文書にしか出現しない未登録単語は、既存の大規模なコーパスに存在する未登録単語と比較して、関連度の信頼性が低くなってしまう。なお、少量ずつ得られる関連文書とは、具体的には、入力音声のタスクに関連がありそうな単語をクエリとして指定したＷｅｂ検索文書、人手で収集したマニュアル、ＷｅｂＦＡＱ、ニュース文書などである。

この発明はこのような点に鑑みてなされたものであり、少量の関連文書からでも、入力音声のタスクに関連した未登録単語を効果的に選択することで、認識辞書の語彙数の増大を抑え、認識精度を向上することができる単語追加装置を提供することを目的とする。

上記の課題を解決するために、この発明の単語追加装置は、認識辞書記憶部と入力音声記憶部と認識結果記憶部と関連文書記憶部と未登録単語抽出部と未登録単語特徴量抽出部と認識結果特徴量抽出部とタスク関連度算出部と暫定認識辞書登録部と暫定音声認識部と認識信頼度算出部と登録優先度算出部と認識辞書登録部を備える。認識辞書記憶部には、認識辞書が記憶されている。入力音声記憶部には、入力音声が記憶されている。認識結果記憶部には、認識辞書を用いて入力音声を音声認識した認識結果が記憶されている。関連文書記憶部には、入力音声のタスクに関連のある関連文書が記憶されている。未登録単語抽出部は、関連文書から、認識辞書に登録されていない未登録単語を抽出する。未登録単語特徴量抽出部は、未登録単語と関連文書から、未登録単語を特徴づける共起頻度ベクトルを生成する。認識結果特徴量抽出部は、認識結果から、認識結果を特徴づける単語頻度ベクトルを生成する。タスク関連度算出部は、共起頻度ベクトルと単語頻度ベクトルとから、未登録単語ごとにタスク関連度を算出する。暫定認識辞書登録部は、認識辞書に未登録単語を追加して、暫定認識辞書を生成する。暫定音声認識部は、暫定認識辞書を用いて入力音声を音声認識して、暫定認識結果を生成する。認識信頼度算出部は、暫定認識結果を用いて、未登録単語ごとに認識信頼度を算出する。登録優先度算出部は、タスク関連度と、信頼度重みαにより重み付けされた認識信頼度とから、未登録単語ごとに登録優先度を算出する。認識辞書登録部は、未登録単語と登録優先度とから、あらかじめ設定された閾値を用いて追加登録単語を抽出し、認識辞書に追加登録単語を追加して、拡張認識辞書を生成する。

認識結果として出力された単語の正解らしさを表す指標である認識信頼度が高ければ入力音声に含まれる可能性が高いと考えられる。そのため、算出されたタスク関連度が低い単語であっても、追加登録すべき単語として適切に選択することができる。また、タスク関連度が比較的高い未登録単語の中であっても、入力音声中で実際に発話される可能性が高い単語を、より適切に選択することができる。

このように、この発明によれば、入力音声のタスクに関連した未登録単語を効果的に選択して登録することができるため、認識辞書の語彙数が必要以上に増大することがない。その結果、不要な単語が誤認識を起こす湧き出しを抑えることができ、認識精度を向上することができる。

また、大規模なコーパスを用いた概念ベースや語彙データベースを使用せず、少量の関連文書と音声認識結果のみを用いても、入力音声のタスクに必要な単語を選択できるため、未登録単語を認識辞書に追加する際の計算コストを抑えることができる。

さらに、この発明の一実施形態によれば、この発明の動作に大きく影響を与えるパラメータを利用者が推定する必要がなく、自動的に適切なパラメータを設定することができる。そのため、利用者は容易にこの発明を利用することができる。

同じ単語が異なる文脈で使用される例を説明する図。実施例１の単語追加装置の構成例を示すブロック図。実施例１の単語追加装置を構成する各部の構成例を示すブロック図。実施例１の単語追加装置の動作例を示すフローチャート。未登録単語特徴量抽出部が抽出する共起窓を説明する図。認識信頼度の例を説明する図。実施例２の単語追加装置の構成例を示すブロック図。実施例２の単語追加装置の動作例を示すフローチャート。選出単語数による信頼度重み算出の動作例を示す図。実施例３の単語追加装置の構成例を示すブロック図。実施例３の信頼度重み算出部の構成例を示すブロック図。実施例３の単語追加装置の動作例を示すフローチャート。タスク関連度の分布の状況を例示する図。実施例４の単語追加装置の構成例を示すブロック図。実施例５の単語追加装置の構成例を示すブロック図。実施例６の単語追加装置の構成例を示すブロック図。実施例７の単語追加装置の構成例を示すブロック図。実施例８の単語追加装置の構成例を示すブロック図。

実施例の説明に先立ち、この発明の基本的な考え方について説明する。この発明では、入力音声と、入力音声のタスクに関連する文書を用いて、関連文書中に出現する認識辞書に未登録の単語の中から、入力音声に関連の深い単語のみを選出して、認識辞書に追加する。未登録単語と入力音声との関連の深さを算出するために、未登録単語が関連文書中で使用される文脈と入力音声の文脈の類似性であるタスク関連度を用いる。タスク関連度は、未登録単語を特徴づける共起頻度ベクトルおよび認識結果を特徴づける単語頻度ベクトルから求める。

しかしながら、タスク関連度のみに基づいて追加登録すべき単語を選出すると、入力音声中で実際に話されているにもかかわらず、関連文書中で使用される文脈と入力音声中で使用される文脈が異なる未登録単語は選出することが困難である。図１を参照して、同じ単語が入力音声と関連文書とで異なる文脈で使用される例を説明する。図１（Ａ）は入力音声の例であり、図１（Ｂ）は関連文書の例である。入力音声にも関連文書にも「ぷらら」という単語が含まれているが、入力音声中ではプロバイダ名として使われており、関連文書中では企業間の業務提携という文脈で使われている。このような場合には、入力音声に含まれるその他の単語と関連文書に含まれるその他の単語で共通性が低いため、タスク関連度は低く算出されてしまう。

そこで、この発明ではタスク関連度の他に認識信頼度も算出し、タスク関連度と認識信頼度とを用いて登録優先度を算出する。認識信頼度とは音声認識システムが音声を認識するとき、ある音声区間が認識辞書中の特定の単語と結びつくかどうかを決定する困難さを表す指標である。高い認識信頼度に基づいて出力された単語は、その音声区間に適した特定の単語を容易に決定できるため、正しい認識結果である可能性が高く、逆に低い認識信頼度に基づいて出力された単語は、その音声区間に適切な単語が複数あり出力の決定が困難となるため、正しい認識結果である可能性も低くなる。この発明は、認識辞書に追加する単語を選出する際に、タスク信頼度と認識信頼度の２つの尺度を考慮することで、入力音声中で関連文書とは異なる文脈で使用されているためにタスク関連度が低く算出される未登録単語であっても、実際に発話されている可能性が高い単語であれば、追加登録すべき単語として選出することができる。

以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

図２、図３を参照して、この発明の実施例１に係る単語追加装置１０の構成を詳細に説明する。図２は単語追加装置１０の構成例を示すブロック図である。単語追加装置１０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３０、タスク関連度算出部３１０、登録優先度算出部３２０、認識辞書登録部３３０、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、拡張認識辞書記憶部９００を備える。図３は単語追加装置１０を構成する各部の構成例を示すブロック図である。図３（Ａ）は未登録単語特徴量抽出部２１０の構成を示すブロック図である。未登録単語特徴量抽出部２１０は、共起窓抽出手段２１１０と共起頻度ベクトル算出手段２１２０を備える。図３（Ｂ）は認識結果特徴量抽出部２２０の構成を示すブロック図である。認識結果特徴量抽出部２２０は、発話窓抽出手段２２１０と単語頻度ベクトル算出手段２２２０を備える。図３（Ｃ）はタスク関連度算出部３１０の構成を示すブロック図である。タスク関連度算出部３１０は、コサイン距離算出手段３１１０と線形二乗和計算手段３１２０を備える。

図４を参照して、単語追加装置１０の動作を実際に行われる手続きの順に詳細に説明する。図４は単語追加装置１０の動作例を示すフローチャートである。

関連文書記憶部７１０には、入力音声のタスクに関連のある関連文書があらかじめ記憶されている。入力音声記憶部７２０には、過去に音声認識部１２０により処理された入力音声が蓄積されている。認識辞書記憶部７３０には、既存単語が単語クラスごとに登録されている認識辞書があらかじめ記憶されている。

音声認識部１２０は、認識辞書記憶部７３０に記憶されている認識辞書を用いて入力音声を音声認識して、認識結果を生成する。生成した認識結果は、認識結果記憶部８２０に記憶する。音声認識の方法は既知のいかなる音声認識手段を用いることができる。例えば、特許文献１や特許文献２に記載されている音声認識手段が挙げられる。

未登録単語抽出部１１０は、関連文書記憶部７１０に記憶されている関連文書を形態素解析する。ここで、形態素解析済みの関連文書を、例えば関連文書記憶部７１０に記憶しておき、次回以降の処理では新しい関連文書が追加されるまでは形態素解析済みの関連文書を再利用するように構成してもよい。次に、解析した形態素から、認識辞書記憶部７３０に記憶されている認識辞書に登録されていない形態素を抽出する。そして、抽出した未登録の形態素を未登録単語ｏとして未登録単語記憶部８１０へ記憶する。（Ｓ１１０）。この際、未登録の形態素の他に、関連文書に対して固有表現抽出を行い、得られた単語を未登録単語ｏとして未登録単語記憶部８１０へ記憶してもよい。

未登録単語特徴量抽出部２１０の備える共起窓抽出手段２１１０は、関連文書記憶部７１０に記憶されている関連文書を形態素解析する。未登録単語抽出部１１０が形態素解析済みの関連文書を記憶するように構成している場合には、記憶されている形態素解析済みの関連文書を用いてもよい。次に、未登録単語記憶部８１０に記憶されている未登録単語ｏと形態素解析済みの関連文書から、未登録単語ｏが含まれる文とその前後ｎ文を共起窓Ｗ_ｏとして、未登録単語ｏが出現するすべての箇所について共起窓Ｗ_ｏを抽出する（Ｓ２１１０）。すべての共起窓Ｗ_ｏの集合をＷ_{ｏ＿ａｌｌ}と表す。図５に共起窓の例を示す。この例では、未登録単語は「ひかり電話」である。未登録単語「ひかり電話」が含まれる文の前ｎ文と後ｎ文を含む（２ｎ＋１）文が共起窓Ｗ_ｏとして抽出される。

未登録単語特徴量抽出部２１０の備える共起頻度ベクトル算出手段２１２０は、共起窓の集合Ｗ_{ｏ＿ａｌｌ}に含まれる単語である共起単語ｄｔ_ｉ（以下、ｉは１からＩまでの整数、Ｉは共起窓の集合Ｗ_{ｏ＿ａｌｌ}に含まれる単語の種類の数、を表す。）をすべて抽出する。次に、すべての共起単語ｄｔ_ｉについて、共起窓の集合Ｗ_{ｏ＿ａｌｌ}における出現頻度である共起頻度ｄｆ_ｄｔ＿ｉを求める。そして、未登録単語ｏの共起頻度ベクトルｖ_ｏを、式（１）のように生成する。（Ｓ２１２０）。

認識結果特徴量抽出部２２０の備える発話窓抽出手段２２１０は、認識結果記憶部８２０に記憶されている認識結果がＭ発話からなるとして、認識結果をｍ発話ごとに分割して発話窓Ｗ_ｕ＿ｎ（以下、ｎは１からＭ／ｍ（小数点以下繰り上げ）の整数を表す。）を生成する（Ｓ２２１０）。

認識結果特徴量抽出部２２０の備える単語頻度ベクトル算出手段２２２０は、すべての発話窓Ｗ_ｕ＿ｎについて、発話窓Ｗ_ｕ＿ｎに含まれる単語である発話単語ｗｔ_ｊ（以下、ｊは１からＪまでの整数、Ｊは発話窓Ｗ_ｕ＿ｎに含まれる単語の種類の数、を表す。）をすべて抽出する。次に、すべての発話単語ｗｔ_ｊについて、発話窓Ｗ_ｕ＿ｎにおける出現頻度である単語頻度ｗｆ_ｗｔ＿ｊを求める。そして、発話窓Ｗ_ｕ＿ｎに対する単語頻度ベクトルｖ_ｕ＿ｎを、式（２）のように生成する（Ｓ２２２０）。

タスク関連度算出部３１０の備えるコサイン距離算出手段３１１０は、すべての発話窓Ｗ_ｕ＿ｎについて、未登録単語ｏを特徴づける共起頻度ベクトルｖ_ｏと発話窓Ｗ_ｕ＿ｎを特徴づける単語頻度ベクトルｖ_ｕ＿ｎのコサイン距離を算出する（Ｓ３１１０）。

タスク関連度算出部３１０の備える線形二乗和計算手段３１２０は、すべての未登録単語ｏについて、コサイン距離算出手段３１１０の算出したコサイン距離の線形二乗和を計算して、未登録単語ｏ_ｉのタスク関連度ｒ（ｏ_ｉ）を算出する（Ｓ３１２０）。

暫定認識辞書登録部１３０は、認識辞書記憶部７３０に記憶されている認識辞書に、未登録単語記憶部８１０に記憶されている未登録単語ｏ_ｉを追加して、暫定認識辞書を生成する（Ｓ１３０）。生成した暫定認識辞書は、暫定認識辞書記憶部８３０へ記憶する。追加する未登録単語ｏ_ｉは未登録単語記憶部８１０に記憶されているすべての未登録単語ｏ_ｉでもよいし、一部の未登録単語ｏ_ｉを選択してもよい。一部の未登録単語ｏ_ｉのみとする場合には、例えばあらかじめ定めた個数を無作為に選択してもよいし、読みの長さが近い単語や読みが似ていない単語などの基準に則って選択してもよい。追加すべき単語数には制限はなく、例えば無作為に選択した１つの単語のみを追加してもよい。

暫定音声認識部１４０は、暫定認識辞書記憶部８３０に記憶されている暫定認識辞書を用いて入力音声を音声認識して、暫定認識結果を生成する（Ｓ１４０）。生成した暫定認識結果は、暫定認識結果記憶部８４０へ記憶する。

認識信頼度算出部２３０は、暫定認識結果記憶部８４０に記憶されている暫定認識結果を用いて、未登録単語記憶部８１０に記憶されている未登録単語ｏ_ｉごとに認識信頼度として平均認識信頼度ａｃ（ｏ_ｉ）を算出する（Ｓ２３０）。認識信頼度とは、音声認識を行ったときに認識結果として出力された単語ｗについて、どれだけ対立候補があるかを指標にその単語ｗの正解らしさを表す指標である。認識信頼度が高ければその出力は正解である可能性が高く、低ければその出力は正解である可能性が低い。平均認識信頼度とは、認識結果の中に一つの単語が複数回出現する場合にそれぞれの認識信頼度を個別認識信頼度として、すべての個別認識信頼度を平均したものである。未登録単語ｏ_ｉの平均認識信頼度ａｃ（ｏ_ｉ）は、式（３）のように算出する。

ただし、Ｋは暫定認識結果記憶部８４０に記憶されている暫定認識結果のうち未登録単語ｏ_ｉが出現する数、ｃ_ｋ（ｏ_ｉ）は未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度とする。暫定認識結果に出現しない未登録単語ｏ_ｉについては、暫定認識結果に出現した未登録単語ｏ_ｉよりも小さい値を設定する。例えば、平均認識信頼度ａｃ（ｏ_ｉ）を０としてもよいし、他の未登録単語ｏ_ｉに対する平均認識信頼度ａｃ（ｏ_ｉ）のうち最も小さい値としてもよい。

認識信頼度の算出方法は既知のいかなる方法も用いることができるが、例えば以下のように算出することができる（より詳しくは、「李, 河原, 鹿野, “2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”, 情報処理学会研究報告, Vol.2003, No.124, pp.281-286」参照）。音声認識システムは入力音声に対する音響モデルおよび言語モデルの尤度が一番高い単語列を認識結果として出力する。しかし、もし入力音声の発音が曖昧であったり、単語列の繋がりが不自然でない単語が複数あったりしたときには、尤度が同程度の対立候補が多数現れ、音声認識システムが最適な認識結果の識別に困難をきたすことがある。音声認識システムが出力を決定するときに有力な対立候補が多数存在すれば認識信頼度は低くなり、逆に対立候補がほとんど存在しなければ認識信頼度は高くなる。ある単語ｗの認識信頼度ｃ（ｗ）は、以下の式（４）のように計算される。

ここで、ｐ（ｗ）は単語ｗの尤度、ｗ_ｍ ^ｃａｎはｗの認識された区間でのｍ番目の対立候補である。図６を参照して、認識信頼度を算出する例を説明する。図６において、“音声信号”は処理単位である音声区間の音声波形である。“尤度”は単語と数字の組みとなっており、その単語の尤度を数字で表している。“認識結果”は各音声区間において認識結果として出力される単語であり、“認識信頼度”は、その認識結果に対する認識信頼度の値である。例えば、同じ音声区間において「では」の尤度が９、「はい」の尤度が１と算出されたとき、認識結果には「では」が出力され、その認識信頼度は０．９となる。一方、「今日」の出力された音声区間では「京都」という対立候補があり、尤度はそれぞれ６０、４０と近い値となっている。このとき、「今日」という認識結果に対する認識信頼度は０．６となる。この場合は、尤度が最も高い認識結果に対して有力な対立候補があるため、「では」の区間よりも最適な認識結果の選別が困難となり、認識信頼度が低下する。このように求めた認識信頼度の値と認識結果の正解・不正解には相関があるとされているため、認識信頼度をその単語が正解した可能性として用いることは妥当であると考えられる。なお、式（４）から明らかなように、認識信頼度は０〜１の値域をとる。

登録優先度算出部３２０は、認識信頼度算出部２３０の算出した平均認識信頼度ａｃ（ｏ_ｉ）とタスク関連度算出部３１０の算出したタスク関連度ｒ（ｏ_ｉ）とから、式（５）のように未登録単語ｏ_ｉごとの登録優先度Ｐ（ｏ_ｉ）を算出する（Ｓ３２０）。

ここで、αは信頼度重みである。信頼度重みαは、タスク関連度ｒ（ｏ_ｉ）が低くかつ平均認識信頼度ａｃ（ｏ_ｉ）が１に近い（具体的には０．９〜１．０程度）未登録単語ｏ_ｉの登録優先度Ｐ（ｏ_ｉ）が、タスク関連度ｒ（ｏ_ｉ）が高くかつ平均認識信頼度ａｃ（ｏ_ｉ）が低い（具体的には０．４以下程度）未登録単語ｏ_ｉと同程度になるように設定する。このように設定することで、タスク関連度ｒ（ｏ_ｉ）の高い未登録単語ｏ_ｉと、タスク関連度ｒ（ｏ_ｉ）が低い中でも平均認識信頼度ａｃ（ｏ_ｉ）の値が１に近い未登録単語ｏ_ｉのみを優先的に選出することができる。

認識辞書登録部３３０は、登録優先度算出部３２０の算出した登録優先度Ｐ（ｏ_ｉ）を参照して、未登録単語記憶部８１０に記憶されている未登録単語ｏから、あらかじめ設定された閾値θを用いて追加登録単語を抽出する（Ｓ３３０１）。次に、認識辞書記憶部７３０に記憶された認識辞書に、抽出した追加登録単語を追加して拡張認識辞書を生成する（Ｓ３３０２）。生成された拡張認識辞書は、拡張認識辞書記憶部９００へ記憶される。未登録単語ｏ_ｉを追加登録単語として抽出する条件は、例えば未登録単語ｏ_ｉの登録優先度Ｐ（ｏ_ｉ）が閾値θ以上とすることができる。もしくは、登録優先度Ｐ（ｏ_ｉ）の高い順に並べた上位θ位までとすることもできる。

この実施例のように構成することにより、単語追加装置１０は、入力音声のタスクに関連した未登録単語を効果的に選択して登録することができるため、認識辞書の語彙数が必要以上に増大することがない。その結果、不要な単語が誤認識を起こす湧き出しを抑えることができ、認識精度を向上することができる。

実施例１では、タスク関連度ｒ（ｏ_ｉ）の高い未登録単語ｏ_ｉと、タスク関連度ｒ（ｏ_ｉ）が低い中でも平均認識信頼度ａｃ（ｏ_ｉ）の値が１に近い未登録単語ｏ_ｉのみを上位に選出するために、信頼度重みαを適切な値に設定する必要があった。しかし、信頼度重みαのように装置の動作に与える影響が大きいパラメータは、装置の仕組みを理解していない利用者が適切に推定することは困難である。そこで、この実施例では、選出する単語数Ｎを利用者が入力することができる選出単語数入力部を備え、登録優先度算出部および認識辞書登録部の処理の前に、入力された選出単語数Ｎに基づいて登録優先度算出部の用いる信頼度重みαを自動的に決定する。

図７を参照して、この発明の実施例２に係る単語追加装置２０の構成を詳細に説明する。図７は単語追加装置２０の構成例を示すブロック図である。単語追加装置２０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３０、タスク関連度算出部３１０、登録優先度算出部３２１、認識辞書登録部３３０、選出単語数入力部４００、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、拡張認識辞書記憶部９００を備える。したがって、実施例１の単語追加装置１０との相違点は、選出単語数入力部４００をさらに備え、登録優先度算出部の動作が異なる点である。

図８を参照して、単語追加装置２０の動作を実際に行われる手続きの順に詳細に説明する。図８は単語追加装置２０の動作例を示すフローチャートである。

選出単語数入力部４００は、未登録単語ｏ_ｉをタスク関連度ｒ（ｏ_ｉ）の降順に並べて利用者に提示する。利用者は、上位何単語までが必要な単語かを入力する。利用者が入力した数値を選出単語数Ｎとして取得する（Ｓ４００）。

登録優先度算出部３２１は、未登録単語ｏ_ｉをタスク関連度ｒ（ｏ_ｉ）の降順に並べた際の上位Ｎ位である未登録単語ｏ_Ｎのタスク関連度ｒ（ｏ_ｉ）を、信頼度重みαとして決定する（Ｓ３２１１）。次に、決定した信頼度重みαを用いて、登録優先度Ｐ（ｏ_ｉ）を算出する（Ｓ３２１２）。登録優先度Ｐ（ｏ_ｉ）の算出方法は実施例１と同様であるので、ここでは説明を省略する。

このように、利用者の入力した選出単語数Ｎを用いて、上位Ｎ位のタスク関連度ｒ（ｏ_Ｎ）を信頼度重みαとすると、タスク関連度ｒ（ｏ_ｉ）の高い未登録単語ｏ_ｉと、タスク関連度ｒ（ｏ_ｉ）が低い中でも平均認識信頼度ａｃ（ｏ_ｉ）の値が１に近い未登録単語のみを追加登録単語として選出することができる。図９を参照して、選出単語数に基づいて登録優先度を算出する場合の動作例を示す。ここでは、未登録単語をタスク関連度の降順で並べて示している。例えば、未登録単語「ぷらら」は、タスク関連度のみでは上位Ｎ位に入っていないため選出できない。また、未登録単語「ＤＮＳ」は、タスク関連度のみでは上位Ｎ位に入っている。ここで、上位Ｎ位である未登録単語「解像度」のタスク関連度である「０．１３」を信頼度重みαとしてそれぞれの未登録単語の登録優先度を求めると、未登録単語「ＤＮＳ」は、上位Ｎ位から外れ選出されなくなる。そして、未登録単語「ぷらら」は、上位Ｎ位に入るため選出されるようになる。

この実施例のように構成することにより、単語追加装置２０は、利用者が装置の仕組みを理解して信頼度重みαを推定する必要がなく、自動的に適切な信頼度重みαを設定することができる。そのため、利用者は容易にこの発明を利用することができる。この実施例の構成は、後述の実施例４−８にも適宜適用することができる。

実施例１の構成では、利用者が信頼度重みαの適切な値を推定する必要がある。実施例２の構成であれば、利用者は適切な選出単語数を与えればよい。しかし、例えば未登録単語が１０００語以上のように多い場合には、利用者が適切な選出単語数を判断するのは困難である。このように未登録単語数が多く利用者が適切な選出単語数を決定することが困難な場合には、この実施例のように構成することで、適切な信頼度重みαを自動的に設定することができる。

この実施例の基本的な考え方を説明する。信頼度重みαが大きい場合、認識信頼度が低い未登録単語の方が、タスク関連度が低い未登録単語よりも優先して選出される。逆に信頼度重みαが小さい場合には、タスク関連度が低い未登録単語の方が、認識信頼度が低い未登録単語よりも優先して選出される。拡張認識辞書は入力音声とは異なる新たな音声（以下、適用先音声という）に適用されるため、適用先音声に出現する可能性が高い単語を優先的に選出できるようにすることを目的として、どちらを優先すべきかを判断するべきである。すなわち、入力音声と適用先音声において出現する単語の共通性が高いが、関連文書と入力音声のタスク関連度が低い場合は、信頼度重みαを大きくして認識信頼度を重視することにより、多少認識信頼度が低くとも入力音声を音声認識した暫定認識結果に出現する未登録単語を優先的に選出することができる。一方で、関連文書と入力音声のタスク関連度は高いが、入力音声と適用先音声の単語の共通性が低い場合には、信頼度重みαを小さくしてタスク関連度を重視することにより、適用先音声に出現する可能性の高い未登録単語を優先的に選出することができる。

図１０、図１１を参照して、この発明の実施例３に係る単語追加装置３０の構成を詳細に説明する。図１０は単語追加装置３０の構成例を示すブロック図である。単語追加装置３０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、適用先音声認識部１５０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３０、タスク関連度算出部３１０、登録優先度算出部３２０、認識辞書登録部３３０、信頼度重み算出部５００、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、適用先音声記憶部７４０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、適用先認識結果記憶部８５０、拡張認識辞書記憶部９００を備える。したがって、実施例１の単語追加装置１０との相違点は、適用先音声認識部１５０と信頼度重み算出部５００と適用先音声記憶部７４０と適用先認識結果記憶部８５０をさらに備える点である。図１１は単語追加装置３０の備える信頼度重み算出部５００の構成例を示すブロック図である。信頼度重み算出部５００は、文書タスク関連度算出部５０１０と音声関連度算出部５０２０と信頼度重み出力手段５０３０を備える。

図１２を参照して、単語追加装置３０の動作を実際に行われる手続きの順に詳細に説明する。図１２は単語追加装置３０の動作例を示すフローチャートである。

適用先音声記憶部７４０には、あらかじめ収録された適用先音声があらかじめ記憶されている。適用先音声は、拡張認識辞書を用いた音声認識システムを利用する状況を想定した評価音声である。例えば、想定される利用状況に近い環境において実際に発話されている音声を収録して適用先音声とすることができる。

適用先音声認識部１５０は、暫定認識辞書記憶部８３０に記憶されている暫定認識辞書を用いて適用先音声を音声認識して、適用先認識結果を生成する（Ｓ１５０）。生成した適用先認識結果は、適用先認識結果記憶部８５０に記憶する。音声認識の方法は音声認識部１２０が用いる音声認識手段と同じものとする。

信頼度重み算出部５００の備える文書タスク関連度算出部５０１０は、未登録単語ｏ_ｉごとに関連文書と暫定認識結果との文書タスク関連度ｒ_ＤＬ（ｏ_ｉ）を算出する（Ｓ５０１０）。文書タスク関連度ｒ_ＤＬ（ｏ_ｉ）の算出は、関連文書記憶部７１０に記憶されている関連文書と入力音声を音声認識した暫定認識結果との文書間距離を測る手法を用いてもよいし、タスク関連度算出部３１０が算出した未登録単語ｏ_ｉのタスク関連度ｒ（ｏ_ｉ）を降順に並べた際の分布の形状を表すパラメータを利用してもよい。図１３に、タスク関連度を降順に並べた際の分布の例を示す。図１３（Ａ）は、関連文書と入力音声のタスク関連度が低い場合の例である。図１３（Ｂ）は、関連文書と入力音声のタスク関連度が高い場合の例である。タスク関連度を降順に並べた際に、上位の未登録単語のタスク関連度が下位のタスク関連度より突出して高い場合、タスク関連度の分布はべき乗則で近似できる。関連文書と入力音声のタスク関連度が高い場合には、タスク関連度が高い未登録単語が多数を占めるため、分布の形状はなだらかになる。逆に、関連文書と入力音声のタスク関連度が低い場合には、分布の形状は急峻になる。このように、タスク関連度の分布の形状は関連文書と入力音声のタスク関連度を示していると考えられる。したがって、タスク関連度の分布の形状を表すパラメータを、関連文書と入力音声のタスク関連度として利用することができる。

信頼度重み算出部５００の備える音声関連度算出部５０２０は、未登録単語ｏ_ｉごとに暫定認識結果と適用先認識結果との音声関連度ｒ_ＬＡ（ｏ_ｉ）を算出する（Ｓ５０２０）。音声関連度ｒ_ＬＡ（ｏ_ｉ）の算出は、入力音声を音声認識した暫定認識結果と、適用先音声を認識した適用先認識結果の文書間の関連の高さを求めることで行う。例えば、暫定認識結果と適用先認識結果の単語頻度をベクトル化してそのコサイン類似度をはかる手法など、文書間距離を求める手法を用いればよい。適用先音声を十分に用意できない場合には、入力音声と適用先音声の収録された日時の近さや扱う内容の近さなどの付加情報から音声関連度ｒ_ＬＡ（ｏ_ｉ）を推定してもよい。

信頼度重み算出部５００の備える信頼度重み出力手段５０３０は、文書タスク関連度ｒ_ＤＬ（ｏ_ｉ）と音声関連度ｒ_ＬＡ（ｏ_ｉ）とから、信頼度重みαを算出して出力する（Ｓ５０３０）。信頼度重みαは、以下の式（６）のように算出する。

信頼度重みαを求める関数ｆは、例えば以下のようにあらかじめ推定する。まず、関連文書と入力音声と適用先音声の組を開発セットとして複数用意する。次に、各開発セットを用いて文書タスク関連度ｒ_ＤＬ（ｏ_ｉ）と音声関連度ｒ_ＬＡ（ｏ_ｉ）を算出する。そして、文書タスク関連度ｒ_ＤＬ（ｏ_ｉ）と音声関連度ｒ_ＬＡ（ｏ_ｉ）に対して最適となる信頼度重みαの分布から関数ｆの形状を推定する。もしくは、複数の開発セットの中から文書タスク関連度ｒ_ＤＬ（ｏ_ｉ）と音声関連度ｒ_ＬＡ（ｏ_ｉ）の値が最も近い開発セットを選択し、その開発セットにより求められた信頼度重みαに決定してもよい。

この実施例のように構成することにより、単語追加装置３０は、利用者がいずれのパラメータも推定する必要がなく、自動的に適切な信頼度重みαを設定することができる。そのため、利用者は容易にこの発明を利用することができる。この実施例の構成は、後述の実施例４−８にも適宜適用することができる。

実施例１では、認識信頼度算出部２３０は、認識信頼度として平均認識信頼度ａｃ（ｏ_ｉ）を算出したが、認識信頼度として最大認識信頼度ｍｃ（ｏ_ｉ）を算出するように構成することができる。

図１４を参照して、この発明の実施例４に係る単語追加装置４０の構成を詳細に説明する。図１４は単語追加装置４０の構成例を示すブロック図である。単語追加装置４０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３１、タスク関連度算出部３１０、登録優先度算出部３２０、認識辞書登録部３３０、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、拡張認識辞書記憶部９００を備える。したがって、実施例１の単語追加装置１０との相違点は、認識信頼度算出部の動作が異なる点のみである。

認識信頼度算出部２３１は、暫定認識結果記憶部８４０に記憶されている暫定認識結果を用いて、未登録単語記憶部８１０に記憶されている未登録単語ｏ_ｉごとに認識信頼度として最大認識信頼度ｍｃ（ｏ_ｉ）を算出する。最大認識信頼度ｍｃ（ｏ_ｉ）は、式（７）のように算出する。

ただし、ｃ_ｋ（ｏ_ｉ）は未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度、Ｋは暫定認識結果記憶部８４０に記憶されている暫定認識結果のうち未登録単語ｏ_ｉが出現する数とする。

平均認識信頼度による方法では、未登録単語ｏ_ｉが発音の曖昧な部分などで誤って認識されてしまい、信頼度が低い値を出力してしまった場合があると、未登録単語ｏ_ｉが正しく認識されて認識信頼度も高く出力されている部分があったとしても、誤った部分の認識信頼度の影響を受けて平均認識信頼度は小さくなってしまう。最大認識信頼度ｍｃ（ｏ_ｉ）を用いることにより、未登録単語ｏ_ｉが誤認識として出現した部分の影響を抑えることができる。

認識信頼度算出部が平均認識信頼度を求める際に、未登録単語ｏ_ｉの読みの長さに応じた重みをつけて算出するように構成することができる。

図１５を参照して、この発明の実施例５に係る単語追加装置５０の構成を詳細に説明する。図１５は単語追加装置５０の構成例を示すブロック図である。単語追加装置５０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３２、タスク関連度算出部３１０、登録優先度算出部３２０、認識辞書登録部３３０、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、拡張認識辞書記憶部９００を備える。したがって、実施例１の単語追加装置１０との相違点は、認識信頼度算出部の動作が異なる点のみである。

認識信頼度算出部２３２は、暫定認識結果記憶部８４０に記憶されている暫定認識結果を用いて、未登録単語記憶部８１０に記憶されている未登録単語ｏ_ｉごとに認識信頼度として平均認識信頼度ａｃ（ｏ_ｉ）を算出する。平均認識信頼度ａｃ（ｏ_ｉ）は、式（８）のように算出する。

ただし、Ｋは暫定認識結果記憶部８４０に記憶されている暫定認識結果のうち未登録単語ｏ_ｉが出現する数、ｃ_ｋ（ｏ_ｉ）は未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度、ｍは未登録単語ｏ_ｉの読みのモーラ数、ｇ（ｍ_ｉ）はモーラ数に応じた重み関数である。重み関数にはｌｏｇなどの単調増加関数を用いることができる。

読みの短い単語は湧き出し易いため、たとえ高い認識信頼度で認識されても、実際は雑音や言い間違いなどの影響で出現した湧き出し誤りである可能性が高い。一方、読みの長い単語は、その読みがすべてきちんと発音されてはじめて認識結果に出現するため湧き出し難いが、高い認識信頼度をもって出現すれば正解である可能性が高い。したがって、読みの長さで重み付けすることで、湧き出し誤りにより高い認識信頼度が出力されてしまった未登録単語ｏ_ｉの選出を防ぐことができる。

認識信頼度算出部が平均認識信頼度を求める際に、認識信頼度の分散値の逆数により重みをつけて平均認識信頼度を算出するように構成することができる。

図１６を参照して、この発明の実施例６に係る単語追加装置６０の構成を詳細に説明する。図１６は単語追加装置６０の構成例を示すブロック図である。単語追加装置６０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３３、タスク関連度算出部３１０、登録優先度算出部３２０、認識辞書登録部３３０、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、拡張認識辞書記憶部９００を備える。したがって、実施例１の単語追加装置１０との相違点は、認識信頼度算出部の動作が異なる点のみである。

認識信頼度算出部２３３は、暫定認識結果記憶部８４０に記憶されている暫定認識結果を用いて、未登録単語記憶部８１０に記憶されている未登録単語ｏ_ｉごとに認識信頼度として平均認識信頼度ａｃ（ｏ_ｉ）を算出する。まず、認識信頼度の分散値ｖ（ｏ_ｉ）を、式（９）のように算出する。

続いて、算出した認識信頼度の分散値ｖ（ｏ_ｉ）を用いて、平均認識信頼度ａｃ（ｏ_ｉ）を、式（１０）のように算出する。

このように構成することにより、暫定認識結果に湧き出し誤りとして出現している未登録単語ｏ_ｉが追加登録単語として選出されることを防ぐことができる。湧き出し誤りの場合、認識信頼度は０〜０．５程度の値に分布することが多く、正解の場合は０．７〜１程度の値をとることが多い。湧き出し誤りにより出現する未登録単語ｏ_ｉについては認識信頼度が低く、かつ正解の場合と比較し認識信頼度が広く分布する傾向にあるため、分散が大きい未登録単語ｏ_ｉほど湧き出し誤りにより出現している可能性が高いと推定される。そのため、分散値の逆数を重み付けすることで湧き出し誤りとして出現した未登録単語ｏ_ｉの影響を抑えることができる。

認識信頼度算出部が平均認識信頼度を求める際に、総出現回数Ｋがあらかじめ設定された閾値ｋ_θ以下となる未登録単語ｏ_ｉについては、平均認識信頼度ａｃ（ｏ_ｉ）の値を０とすることができる。なお、総出現回数Ｋは、暫定認識結果記憶部８４０に記憶されている暫定認識結果において未登録単語ｏ_ｉが出現する数である。

図１７を参照して、この発明の実施例７に係る単語追加装置７０の構成を詳細に説明する。図１７は単語追加装置７０の構成例を示すブロック図である。単語追加装置７０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３４、タスク関連度算出部３１０、登録優先度算出部３２０、認識辞書登録部３３０、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、拡張認識辞書記憶部９００を備える。したがって、実施例１の単語追加装置１０との相違点は、認識信頼度算出部の動作が異なる点のみである。

認識信頼度算出部２３４は、暫定認識結果記憶部８４０に記憶されている暫定認識結果を用いて、未登録単語記憶部８１０に記憶されている未登録単語ｏ_ｉごとに認識信頼度として平均認識信頼度ａｃ（ｏ_ｉ）を算出する。平均認識信頼度ａｃ（ｏ_ｉ）は、式（１１）のように算出する。

追加登録単語を選出する際に用いる入力音声の量が膨大であれば、認識された回数が少ない未登録単語ｏ_ｉは湧き出し誤りとして偶然出現してしまった場合である可能性が高い。したがって、その出現回数が閾値ｋ_θ以下となる未登録単語は、たとえ平均認識信頼度ａｃ（ｏ_ｉ）の値が高くても湧き出し誤りとして出現した可能性が高いとして選出しない。この実施例のように構成することで、湧き出し誤りを起こす不要な単語が追加登録単語として選出されることを防ぐことができる。

図１８を参照して、この発明の実施例８に係る単語追加装置８０の動作を詳細に説明する。図１８は単語追加装置８０の構成例を示すブロック図である。単語追加装置８０は、未登録単語抽出部１１０、音声認識部１２０、暫定認識辞書登録部１３０、暫定音声認識部１４０、未登録単語特徴量抽出部２１０、認識結果特徴量抽出部２２０、認識信頼度算出部２３０、タスク関連度算出部３１０、登録優先度算出部３２２、認識辞書登録部３３０、関連文書記憶部７１０、入力音声記憶部７２０、認識辞書記憶部７３０、未登録単語記憶部８１０、認識結果記憶部８２０、暫定認識辞書記憶部８３０、暫定認識結果記憶部８４０、拡張認識辞書記憶部９００を備える。したがって、実施例１の単語追加装置１０との相違点は、登録優先度算出部の動作が異なる点のみである。

登録優先度算出部３２２は、認識信頼度算出部２３０の算出した平均認識信頼度ａｃ（ｏ_ｉ）とタスク関連度算出部３１０の算出したタスク関連度ｒ（ｏ_ｉ）とから、式（１２）のように未登録単語ｏ_ｉごとの登録優先度Ｐ（ｏ_ｉ）を算出する。

この実施例のように構成することにより、平均認識信頼度ａｃ（ｏ_ｉ）が低い未登録単語ｏ_ｉは登録優先度Ｐ（ｏ_ｉ）の認識信頼度による補正がより小さくなり、平均認識信頼度ａｃ（ｏ_ｉ）が高い未登録単語ｏ_ｉは登録優先度Ｐ（ｏ_ｉ）の認識信頼度による補正がより大きくなる。そのため、平均認識信頼度ａｃ（ｏ_ｉ）の高い未登録単語ｏ_ｉを優先的に選出することができる。
［プログラム、記録媒体］
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１０−８０単語追加装置
１１０未登録単語抽出部
１２０音声認識部
１３０暫定認識辞書登録部
１４０暫定音声認識部
１５０適用先音声認識部
２１０未登録単語特徴量抽出部
２１１０共起窓抽出手段
２１２０共起頻度ベクトル算出手段
２２０認識結果特徴量抽出部
２２１０発話窓抽出手段
２２２０単語頻度ベクトル算出手段
２３０−２３４認識信頼度算出部
３１０タスク関連度算出部
３１１０コサイン距離算出手段
３１２０線形二乗和計算手段
３２０−３２２登録優先度算出部
３３０認識辞書登録部
４００選出単語数入力部
５００信頼度重み算出部
５０１０文書タスク関連度算出手段
５０２０音声関連度算出手段
５０３０信頼度重み出力手段
７１０関連文書記憶部
７２０入力音声記憶部
７３０認識辞書記憶部
７４０適用先音声記憶部
８１０未登録単語記憶部
８２０認識結果記憶部
８３０暫定認識辞書記憶部
８４０暫定認識結果記憶部
８５０適用先認識結果記憶部
９００拡張認識辞書記憶部

Claims

認識辞書が記憶された認識辞書記憶部と、
入力音声が記憶された入力音声記憶部と、
前記認識辞書を用いて前記入力音声を音声認識した認識結果が記憶された認識結果記憶部と、
前記入力音声のタスクに関連のある関連文書が記憶された関連文書記憶部と、
前記関連文書から、前記認識辞書に登録されていない未登録単語を抽出する未登録単語抽出部と、
前記未登録単語と前記関連文書から、当該未登録単語を特徴づける共起頻度ベクトルを生成する未登録単語特徴量抽出部と、
前記認識結果から、当該認識結果を特徴づける単語頻度ベクトルを生成する認識結果特徴量抽出部と、
前記共起頻度ベクトルと前記単語頻度ベクトルとから、前記未登録単語ごとにタスク関連度を算出するタスク関連度算出部と、
前記認識辞書に前記未登録単語を追加して、暫定認識辞書を生成する暫定認識辞書登録部と、
前記暫定認識辞書を用いて前記入力音声を音声認識して、暫定認識結果を生成する暫定音声認識部と、
前記暫定認識結果を用いて、前記未登録単語ごとに認識信頼度を算出する認識信頼度算出部と、
前記タスク関連度と、信頼度重みαにより重み付けされた前記認識信頼度とから、前記未登録単語ごとに登録優先度を算出する登録優先度算出部と、
前記未登録単語と前記登録優先度とから、あらかじめ設定された閾値を用いて追加登録単語を抽出し、前記認識辞書に前記追加登録単語を追加して、拡張認識辞書を生成する認識辞書登録部と、
を備える単語追加装置。
請求項１に記載の単語追加装置であって、
選出単語数Ｎの入力を受け付ける選出単語数入力部をさらに備え、
前記登録優先度算出部は、
前記信頼度重みαを、前記未登録単語を前記タスク関連度の降順に並べたＮ番目のタスク関連度の値とする
ことを特徴とする単語追加装置。
請求項１に記載の単語追加装置であって、
あらかじめ収録された適用先音声が記憶された適用先音声記憶部と
前記暫定認識辞書を用いて前記適用先音声を音声認識して、適用先認識結果を生成する適用先音声認識部と
前記信頼度重みαを算出する信頼度重み算出部と、をさらに備え、
前記信頼度重み算出部は、
前記関連文書と前記暫定認識結果との文書タスク関連度を算出する文書タスク関連度算出手段と、
前記暫定認識結果と前記適用先認識結果との音声関連度を算出する音声関連度算出手段と、
前記文書タスク関連度と前記音声関連度とから、信頼度重みαを算出して出力する信頼度重み出力手段と、
を備えることを特徴とする単語追加装置。
請求項１から３のいずれかに記載の単語追加装置であって、
Ｉを前記未登録単語の数、ｏ_ｉをｉ（１≦ｉ≦Ｉ）番目の前記未登録単語、Ｋを前記暫定認識結果において前記未登録単語ｏ_ｉの出現する数、ｃ_ｋ（ｏ_ｉ）を前記未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度、ａｃ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記認識信頼度として、
前記認識信頼度算出部は、

を計算することにより前記認識信頼度を算出する
ことを特徴とする単語追加装置。
請求項１から３のいずれかに記載の単語追加装置であって、
Ｉを前記未登録単語の数、ｏ_ｉをｉ（１≦ｉ≦Ｉ）番目の前記未登録単語、Ｋを前記暫定認識結果において前記未登録単語ｏ_ｉの出現する数、ｃ_ｋ（ｏ_ｉ）を前記未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度、ｍｃ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記認識信頼度として、
前記認識信頼度算出部は、

を計算することにより前記認識信頼度を算出する
ことを特徴とする単語追加装置。
請求項１から３のいずれかに記載の単語追加装置であって、
Ｉを前記未登録単語の数、ｏ_ｉをｉ（１≦ｉ≦Ｉ）番目の前記未登録単語、Ｋを前記暫定認識結果において前記未登録単語ｏ_ｉの出現する数、ｃ_ｋ（ｏ_ｉ）を前記未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度、ｍ_ｉを前記未登録単語ｏ_ｉの読みのモーラ数、ｇ（ｍ_ｉ）をモーラ数ｍ_ｉに対する重み関数、ａｃ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記認識信頼度として、
前記認識信頼度算出部は、

を計算することにより前記認識信頼度を算出する
ことを特徴とする単語追加装置。
請求項１から３のいずれかに記載の単語追加装置であって、
Ｉを前記未登録単語の数、ｏ_ｉをｉ（１≦ｉ≦Ｉ）番目の前記未登録単語、Ｋを前記暫定認識結果において前記未登録単語ｏ_ｉの出現する数、ｃ_ｋ（ｏ_ｉ）を前記未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度、ａｃ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記認識信頼度、ｖ（ｏ_ｉ）を前記認識信頼度の分散値として、
前記認識信頼度算出部は、

を計算することにより前記分散値を算出し、

を計算することにより前記認識信頼度を算出する
ことを特徴とする単語追加装置。
請求項１から３のいずれかに記載の単語追加装置であって、
Ｉを前記未登録単語の数、ｏ_ｉをｉ（１≦ｉ≦Ｉ）番目の前記未登録単語、Ｋを前記暫定認識結果において前記未登録単語ｏ_ｉの出現する数、ｃ_ｋ（ｏ_ｉ）を前記未登録単語ｏ_ｉのｋ（１≦ｋ≦Ｋ）番目の認識結果に対する個別認識信頼度、ｋ_θをあらかじめ定めた閾値、ａｃ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記認識信頼度として、
前記認識信頼度算出部は、

を計算することにより前記認識信頼度を算出する
ことを特徴とする単語追加装置。
請求項１から８のいずれかに記載の単語追加装置であって、
Ｉを前記未登録単語の数、ｏ_ｉをｉ（１≦ｉ≦Ｉ）番目の前記未登録単語、ｒ（ｏ_ｉ）を前記未登録単語ｏ_ｉのタスク関連度、ａｃ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記認識信頼度、Ｐ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記登録優先度として、
前記登録優先度算出部は、

を計算することにより前記登録優先度を算出する
ことを特徴とする単語追加装置。
請求項１から８のいずれかに記載の単語追加装置であって、
Ｉを前記未登録単語の数、ｏ_ｉをｉ（１≦ｉ≦Ｉ）番目の前記未登録単語、ｒ（ｏ_ｉ）を前記未登録単語ｏ_ｉのタスク関連度、ａｃ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記認識信頼度、Ｐ（ｏ_ｉ）を前記未登録単語ｏ_ｉの前記登録優先度として、
前記登録優先度算出部は、

を計算することにより前記登録優先度を算出する
ことを特徴とする単語追加装置。
未登録単語抽出部が、入力音声のタスクに関連のある関連文書から、認識辞書に登録されていない未登録単語を抽出する未登録単語抽出ステップと、
未登録単語特徴量抽出部が、前記未登録単語と前記関連文書から、当該未登録単語を特徴づける共起頻度ベクトルを生成する未登録単語特徴量抽出ステップと、
認識結果特徴量抽出部が、前記認識辞書を用いて前記入力音声を音声認識した認識結果から、当該認識結果を特徴づける単語頻度ベクトルを生成する認識結果特徴量抽出ステップと、
タスク関連度算出部が、前記共起頻度ベクトルと前記単語頻度ベクトルとから、前記未登録単語ごとにタスク関連度を算出するタスク関連度算出ステップと、
暫定認識辞書登録部が、前記認識辞書に前記未登録単語を追加して、暫定認識辞書を生成する暫定認識辞書登録ステップと、
暫定音声認識部が、前記暫定認識辞書を用いて前記入力音声を音声認識して、暫定認識結果を生成する暫定音声認識ステップと、
認識信頼度算出部が、前記暫定認識結果を用いて、前記未登録単語ごとに認識信頼度を算出する認識信頼度算出ステップと、
登録優先度算出部が、前記タスク関連度と、信頼度重みαにより重み付けされた前記認識信頼度とから、前記未登録単語ごとに登録優先度を算出する登録優先度算出ステップと、
認識辞書登録部が、前記未登録単語と前記登録優先度から、あらかじめ設定された閾値を用いて追加登録単語を抽出し、前記認識辞書に前記追加登録単語を追加して、拡張認識辞書を生成する認識辞書登録ステップと、
を含む単語追加方法。
請求項１から１０のいずれかに記載の単語追加装置としてコンピュータを機能させるためのプログラム。