実施例の説明に先立ち、この発明の基本的な考え方について説明する。この発明では、入力音声と、入力音声のタスクに関連する文書を用いて、関連文書中に出現する認識辞書に未登録の単語の中から、入力音声に関連の深い単語のみを選出して、認識辞書に追加する。未登録単語と入力音声との関連の深さを算出するために、未登録単語が関連文書中で使用される文脈と入力音声の文脈の類似性であるタスク関連度を用いる。タスク関連度は、未登録単語を特徴づける共起頻度ベクトルおよび認識結果を特徴づける単語頻度ベクトルから求める。
しかしながら、タスク関連度のみに基づいて追加登録すべき単語を選出すると、入力音声中で実際に話されているにもかかわらず、関連文書中で使用される文脈と入力音声中で使用される文脈が異なる未登録単語は選出することが困難である。図1を参照して、同じ単語が入力音声と関連文書とで異なる文脈で使用される例を説明する。図1(A)は入力音声の例であり、図1(B)は関連文書の例である。入力音声にも関連文書にも「ぷらら」という単語が含まれているが、入力音声中ではプロバイダ名として使われており、関連文書中では企業間の業務提携という文脈で使われている。このような場合には、入力音声に含まれるその他の単語と関連文書に含まれるその他の単語で共通性が低いため、タスク関連度は低く算出されてしまう。
そこで、この発明ではタスク関連度の他に認識信頼度も算出し、タスク関連度と認識信頼度とを用いて登録優先度を算出する。認識信頼度とは音声認識システムが音声を認識するとき、ある音声区間が認識辞書中の特定の単語と結びつくかどうかを決定する困難さを表す指標である。高い認識信頼度に基づいて出力された単語は、その音声区間に適した特定の単語を容易に決定できるため、正しい認識結果である可能性が高く、逆に低い認識信頼度に基づいて出力された単語は、その音声区間に適切な単語が複数あり出力の決定が困難となるため、正しい認識結果である可能性も低くなる。この発明は、認識辞書に追加する単語を選出する際に、タスク信頼度と認識信頼度の2つの尺度を考慮することで、入力音声中で関連文書とは異なる文脈で使用されているためにタスク関連度が低く算出される未登録単語であっても、実際に発話されている可能性が高い単語であれば、追加登録すべき単語として選出することができる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図2、図3を参照して、この発明の実施例1に係る単語追加装置10の構成を詳細に説明する。図2は単語追加装置10の構成例を示すブロック図である。単語追加装置10は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。図3は単語追加装置10を構成する各部の構成例を示すブロック図である。図3(A)は未登録単語特徴量抽出部210の構成を示すブロック図である。未登録単語特徴量抽出部210は、共起窓抽出手段2110と共起頻度ベクトル算出手段2120を備える。図3(B)は認識結果特徴量抽出部220の構成を示すブロック図である。認識結果特徴量抽出部220は、発話窓抽出手段2210と単語頻度ベクトル算出手段2220を備える。図3(C)はタスク関連度算出部310の構成を示すブロック図である。タスク関連度算出部310は、コサイン距離算出手段3110と線形二乗和計算手段3120を備える。
図4を参照して、単語追加装置10の動作を実際に行われる手続きの順に詳細に説明する。図4は単語追加装置10の動作例を示すフローチャートである。
関連文書記憶部710には、入力音声のタスクに関連のある関連文書があらかじめ記憶されている。入力音声記憶部720には、過去に音声認識部120により処理された入力音声が蓄積されている。認識辞書記憶部730には、既存単語が単語クラスごとに登録されている認識辞書があらかじめ記憶されている。
音声認識部120は、認識辞書記憶部730に記憶されている認識辞書を用いて入力音声を音声認識して、認識結果を生成する。生成した認識結果は、認識結果記憶部820に記憶する。音声認識の方法は既知のいかなる音声認識手段を用いることができる。例えば、特許文献1や特許文献2に記載されている音声認識手段が挙げられる。
未登録単語抽出部110は、関連文書記憶部710に記憶されている関連文書を形態素解析する。ここで、形態素解析済みの関連文書を、例えば関連文書記憶部710に記憶しておき、次回以降の処理では新しい関連文書が追加されるまでは形態素解析済みの関連文書を再利用するように構成してもよい。次に、解析した形態素から、認識辞書記憶部730に記憶されている認識辞書に登録されていない形態素を抽出する。そして、抽出した未登録の形態素を未登録単語oとして未登録単語記憶部810へ記憶する。(S110)。この際、未登録の形態素の他に、関連文書に対して固有表現抽出を行い、得られた単語を未登録単語oとして未登録単語記憶部810へ記憶してもよい。
未登録単語特徴量抽出部210の備える共起窓抽出手段2110は、関連文書記憶部710に記憶されている関連文書を形態素解析する。未登録単語抽出部110が形態素解析済みの関連文書を記憶するように構成している場合には、記憶されている形態素解析済みの関連文書を用いてもよい。次に、未登録単語記憶部810に記憶されている未登録単語oと形態素解析済みの関連文書から、未登録単語oが含まれる文とその前後n文を共起窓Woとして、未登録単語oが出現するすべての箇所について共起窓Woを抽出する(S2110)。すべての共起窓Woの集合をWo_allと表す。図5に共起窓の例を示す。この例では、未登録単語は「ひかり電話」である。未登録単語「ひかり電話」が含まれる文の前n文と後n文を含む(2n+1)文が共起窓Woとして抽出される。
未登録単語特徴量抽出部210の備える共起頻度ベクトル算出手段2120は、共起窓の集合Wo_allに含まれる単語である共起単語dti(以下、iは1からIまでの整数、Iは共起窓の集合Wo_allに含まれる単語の種類の数、を表す。)をすべて抽出する。次に、すべての共起単語dtiについて、共起窓の集合Wo_allにおける出現頻度である共起頻度dfdt_iを求める。そして、未登録単語oの共起頻度ベクトルvoを、式(1)のように生成する。(S2120)。
認識結果特徴量抽出部220の備える発話窓抽出手段2210は、認識結果記憶部820に記憶されている認識結果がM発話からなるとして、認識結果をm発話ごとに分割して発話窓Wu_n(以下、nは1からM/m(小数点以下繰り上げ)の整数を表す。)を生成する(S2210)。
認識結果特徴量抽出部220の備える単語頻度ベクトル算出手段2220は、すべての発話窓Wu_nについて、発話窓Wu_nに含まれる単語である発話単語wtj(以下、jは1からJまでの整数、Jは発話窓Wu_nに含まれる単語の種類の数、を表す。)をすべて抽出する。次に、すべての発話単語wtjについて、発話窓Wu_nにおける出現頻度である単語頻度wfwt_jを求める。そして、発話窓Wu_nに対する単語頻度ベクトルvu_nを、式(2)のように生成する(S2220)。
タスク関連度算出部310の備えるコサイン距離算出手段3110は、すべての発話窓Wu_nについて、未登録単語oを特徴づける共起頻度ベクトルvoと発話窓Wu_nを特徴づける単語頻度ベクトルvu_nのコサイン距離を算出する(S3110)。
タスク関連度算出部310の備える線形二乗和計算手段3120は、すべての未登録単語oについて、コサイン距離算出手段3110の算出したコサイン距離の線形二乗和を計算して、未登録単語oiのタスク関連度r(oi)を算出する(S3120)。
暫定認識辞書登録部130は、認識辞書記憶部730に記憶されている認識辞書に、未登録単語記憶部810に記憶されている未登録単語oiを追加して、暫定認識辞書を生成する(S130)。生成した暫定認識辞書は、暫定認識辞書記憶部830へ記憶する。追加する未登録単語oiは未登録単語記憶部810に記憶されているすべての未登録単語oiでもよいし、一部の未登録単語oiを選択してもよい。一部の未登録単語oiのみとする場合には、例えばあらかじめ定めた個数を無作為に選択してもよいし、読みの長さが近い単語や読みが似ていない単語などの基準に則って選択してもよい。追加すべき単語数には制限はなく、例えば無作為に選択した1つの単語のみを追加してもよい。
暫定音声認識部140は、暫定認識辞書記憶部830に記憶されている暫定認識辞書を用いて入力音声を音声認識して、暫定認識結果を生成する(S140)。生成した暫定認識結果は、暫定認識結果記憶部840へ記憶する。
認識信頼度算出部230は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oiごとに認識信頼度として平均認識信頼度ac(oi)を算出する(S230)。認識信頼度とは、音声認識を行ったときに認識結果として出力された単語wについて、どれだけ対立候補があるかを指標にその単語wの正解らしさを表す指標である。認識信頼度が高ければその出力は正解である可能性が高く、低ければその出力は正解である可能性が低い。平均認識信頼度とは、認識結果の中に一つの単語が複数回出現する場合にそれぞれの認識信頼度を個別認識信頼度として、すべての個別認識信頼度を平均したものである。未登録単語oiの平均認識信頼度ac(oi)は、式(3)のように算出する。
ただし、Kは暫定認識結果記憶部840に記憶されている暫定認識結果のうち未登録単語oiが出現する数、ck(oi)は未登録単語oiのk(1≦k≦K)番目の認識結果に対する個別認識信頼度とする。暫定認識結果に出現しない未登録単語oiについては、暫定認識結果に出現した未登録単語oiよりも小さい値を設定する。例えば、平均認識信頼度ac(oi)を0としてもよいし、他の未登録単語oiに対する平均認識信頼度ac(oi)のうち最も小さい値としてもよい。
認識信頼度の算出方法は既知のいかなる方法も用いることができるが、例えば以下のように算出することができる(より詳しくは、「李, 河原, 鹿野, “2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”, 情報処理学会研究報告, Vol.2003, No.124, pp.281-286」参照)。音声認識システムは入力音声に対する音響モデルおよび言語モデルの尤度が一番高い単語列を認識結果として出力する。しかし、もし入力音声の発音が曖昧であったり、単語列の繋がりが不自然でない単語が複数あったりしたときには、尤度が同程度の対立候補が多数現れ、音声認識システムが最適な認識結果の識別に困難をきたすことがある。音声認識システムが出力を決定するときに有力な対立候補が多数存在すれば認識信頼度は低くなり、逆に対立候補がほとんど存在しなければ認識信頼度は高くなる。ある単語wの認識信頼度c(w)は、以下の式(4)のように計算される。
ここで、p(w)は単語wの尤度、wm canはwの認識された区間でのm番目の対立候補である。図6を参照して、認識信頼度を算出する例を説明する。図6において、“音声信号”は処理単位である音声区間の音声波形である。“尤度”は単語と数字の組みとなっており、その単語の尤度を数字で表している。“認識結果”は各音声区間において認識結果として出力される単語であり、“認識信頼度”は、その認識結果に対する認識信頼度の値である。例えば、同じ音声区間において「では」の尤度が9、「はい」の尤度が1と算出されたとき、認識結果には「では」が出力され、その認識信頼度は0.9となる。一方、「今日」の出力された音声区間では「京都」という対立候補があり、尤度はそれぞれ60、40と近い値となっている。このとき、「今日」という認識結果に対する認識信頼度は0.6となる。この場合は、尤度が最も高い認識結果に対して有力な対立候補があるため、「では」の区間よりも最適な認識結果の選別が困難となり、認識信頼度が低下する。このように求めた認識信頼度の値と認識結果の正解・不正解には相関があるとされているため、認識信頼度をその単語が正解した可能性として用いることは妥当であると考えられる。なお、式(4)から明らかなように、認識信頼度は0〜1の値域をとる。
登録優先度算出部320は、認識信頼度算出部230の算出した平均認識信頼度ac(oi)とタスク関連度算出部310の算出したタスク関連度r(oi)とから、式(5)のように未登録単語oiごとの登録優先度P(oi)を算出する(S320)。
ここで、αは信頼度重みである。信頼度重みαは、タスク関連度r(oi)が低くかつ平均認識信頼度ac(oi)が1に近い(具体的には0.9〜1.0程度)未登録単語oiの登録優先度P(oi)が、タスク関連度r(oi)が高くかつ平均認識信頼度ac(oi)が低い(具体的には0.4以下程度)未登録単語oiと同程度になるように設定する。このように設定することで、タスク関連度r(oi)の高い未登録単語oiと、タスク関連度r(oi)が低い中でも平均認識信頼度ac(oi)の値が1に近い未登録単語oiのみを優先的に選出することができる。
認識辞書登録部330は、登録優先度算出部320の算出した登録優先度P(oi)を参照して、未登録単語記憶部810に記憶されている未登録単語oから、あらかじめ設定された閾値θを用いて追加登録単語を抽出する(S3301)。次に、認識辞書記憶部730に記憶された認識辞書に、抽出した追加登録単語を追加して拡張認識辞書を生成する(S3302)。生成された拡張認識辞書は、拡張認識辞書記憶部900へ記憶される。未登録単語oiを追加登録単語として抽出する条件は、例えば未登録単語oiの登録優先度P(oi)が閾値θ以上とすることができる。もしくは、登録優先度P(oi)の高い順に並べた上位θ位までとすることもできる。
この実施例のように構成することにより、単語追加装置10は、入力音声のタスクに関連した未登録単語を効果的に選択して登録することができるため、認識辞書の語彙数が必要以上に増大することがない。その結果、不要な単語が誤認識を起こす湧き出しを抑えることができ、認識精度を向上することができる。
また、大規模なコーパスを用いた概念ベースや語彙データベースを使用せず、少量の関連文書と音声認識結果のみを用いても、入力音声のタスクに必要な単語を選択できるため、未登録単語を認識辞書に追加する際の計算コストを抑えることができる。
実施例1では、タスク関連度r(oi)の高い未登録単語oiと、タスク関連度r(oi)が低い中でも平均認識信頼度ac(oi)の値が1に近い未登録単語oiのみを上位に選出するために、信頼度重みαを適切な値に設定する必要があった。しかし、信頼度重みαのように装置の動作に与える影響が大きいパラメータは、装置の仕組みを理解していない利用者が適切に推定することは困難である。そこで、この実施例では、選出する単語数Nを利用者が入力することができる選出単語数入力部を備え、登録優先度算出部および認識辞書登録部の処理の前に、入力された選出単語数Nに基づいて登録優先度算出部の用いる信頼度重みαを自動的に決定する。
図7を参照して、この発明の実施例2に係る単語追加装置20の構成を詳細に説明する。図7は単語追加装置20の構成例を示すブロック図である。単語追加装置20は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部321、認識辞書登録部330、選出単語数入力部400、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、選出単語数入力部400をさらに備え、登録優先度算出部の動作が異なる点である。
図8を参照して、単語追加装置20の動作を実際に行われる手続きの順に詳細に説明する。図8は単語追加装置20の動作例を示すフローチャートである。
選出単語数入力部400は、未登録単語oiをタスク関連度r(oi)の降順に並べて利用者に提示する。利用者は、上位何単語までが必要な単語かを入力する。利用者が入力した数値を選出単語数Nとして取得する(S400)。
登録優先度算出部321は、未登録単語oiをタスク関連度r(oi)の降順に並べた際の上位N位である未登録単語oNのタスク関連度r(oi)を、信頼度重みαとして決定する(S3211)。次に、決定した信頼度重みαを用いて、登録優先度P(oi)を算出する(S3212)。登録優先度P(oi)の算出方法は実施例1と同様であるので、ここでは説明を省略する。
このように、利用者の入力した選出単語数Nを用いて、上位N位のタスク関連度r(oN)を信頼度重みαとすると、タスク関連度r(oi)の高い未登録単語oiと、タスク関連度r(oi)が低い中でも平均認識信頼度ac(oi)の値が1に近い未登録単語のみを追加登録単語として選出することができる。図9を参照して、選出単語数に基づいて登録優先度を算出する場合の動作例を示す。ここでは、未登録単語をタスク関連度の降順で並べて示している。例えば、未登録単語「ぷらら」は、タスク関連度のみでは上位N位に入っていないため選出できない。また、未登録単語「DNS」は、タスク関連度のみでは上位N位に入っている。ここで、上位N位である未登録単語「解像度」のタスク関連度である「0.13」を信頼度重みαとしてそれぞれの未登録単語の登録優先度を求めると、未登録単語「DNS」は、上位N位から外れ選出されなくなる。そして、未登録単語「ぷらら」は、上位N位に入るため選出されるようになる。
この実施例のように構成することにより、単語追加装置20は、利用者が装置の仕組みを理解して信頼度重みαを推定する必要がなく、自動的に適切な信頼度重みαを設定することができる。そのため、利用者は容易にこの発明を利用することができる。この実施例の構成は、後述の実施例4−8にも適宜適用することができる。
実施例1の構成では、利用者が信頼度重みαの適切な値を推定する必要がある。実施例2の構成であれば、利用者は適切な選出単語数を与えればよい。しかし、例えば未登録単語が1000語以上のように多い場合には、利用者が適切な選出単語数を判断するのは困難である。このように未登録単語数が多く利用者が適切な選出単語数を決定することが困難な場合には、この実施例のように構成することで、適切な信頼度重みαを自動的に設定することができる。
この実施例の基本的な考え方を説明する。信頼度重みαが大きい場合、認識信頼度が低い未登録単語の方が、タスク関連度が低い未登録単語よりも優先して選出される。逆に信頼度重みαが小さい場合には、タスク関連度が低い未登録単語の方が、認識信頼度が低い未登録単語よりも優先して選出される。拡張認識辞書は入力音声とは異なる新たな音声(以下、適用先音声という)に適用されるため、適用先音声に出現する可能性が高い単語を優先的に選出できるようにすることを目的として、どちらを優先すべきかを判断するべきである。すなわち、入力音声と適用先音声において出現する単語の共通性が高いが、関連文書と入力音声のタスク関連度が低い場合は、信頼度重みαを大きくして認識信頼度を重視することにより、多少認識信頼度が低くとも入力音声を音声認識した暫定認識結果に出現する未登録単語を優先的に選出することができる。一方で、関連文書と入力音声のタスク関連度は高いが、入力音声と適用先音声の単語の共通性が低い場合には、信頼度重みαを小さくしてタスク関連度を重視することにより、適用先音声に出現する可能性の高い未登録単語を優先的に選出することができる。
図10、図11を参照して、この発明の実施例3に係る単語追加装置30の構成を詳細に説明する。図10は単語追加装置30の構成例を示すブロック図である。単語追加装置30は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、適用先音声認識部150、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、信頼度重み算出部500、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、適用先音声記憶部740、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、適用先認識結果記憶部850、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、適用先音声認識部150と信頼度重み算出部500と適用先音声記憶部740と適用先認識結果記憶部850をさらに備える点である。図11は単語追加装置30の備える信頼度重み算出部500の構成例を示すブロック図である。信頼度重み算出部500は、文書タスク関連度算出部5010と音声関連度算出部5020と信頼度重み出力手段5030を備える。
図12を参照して、単語追加装置30の動作を実際に行われる手続きの順に詳細に説明する。図12は単語追加装置30の動作例を示すフローチャートである。
適用先音声記憶部740には、あらかじめ収録された適用先音声があらかじめ記憶されている。適用先音声は、拡張認識辞書を用いた音声認識システムを利用する状況を想定した評価音声である。例えば、想定される利用状況に近い環境において実際に発話されている音声を収録して適用先音声とすることができる。
適用先音声認識部150は、暫定認識辞書記憶部830に記憶されている暫定認識辞書を用いて適用先音声を音声認識して、適用先認識結果を生成する(S150)。生成した適用先認識結果は、適用先認識結果記憶部850に記憶する。音声認識の方法は音声認識部120が用いる音声認識手段と同じものとする。
信頼度重み算出部500の備える文書タスク関連度算出部5010は、未登録単語oiごとに関連文書と暫定認識結果との文書タスク関連度rDL(oi)を算出する(S5010)。文書タスク関連度rDL(oi)の算出は、関連文書記憶部710に記憶されている関連文書と入力音声を音声認識した暫定認識結果との文書間距離を測る手法を用いてもよいし、タスク関連度算出部310が算出した未登録単語oiのタスク関連度r(oi)を降順に並べた際の分布の形状を表すパラメータを利用してもよい。図13に、タスク関連度を降順に並べた際の分布の例を示す。図13(A)は、関連文書と入力音声のタスク関連度が低い場合の例である。図13(B)は、関連文書と入力音声のタスク関連度が高い場合の例である。タスク関連度を降順に並べた際に、上位の未登録単語のタスク関連度が下位のタスク関連度より突出して高い場合、タスク関連度の分布はべき乗則で近似できる。関連文書と入力音声のタスク関連度が高い場合には、タスク関連度が高い未登録単語が多数を占めるため、分布の形状はなだらかになる。逆に、関連文書と入力音声のタスク関連度が低い場合には、分布の形状は急峻になる。このように、タスク関連度の分布の形状は関連文書と入力音声のタスク関連度を示していると考えられる。したがって、タスク関連度の分布の形状を表すパラメータを、関連文書と入力音声のタスク関連度として利用することができる。
信頼度重み算出部500の備える音声関連度算出部5020は、未登録単語oiごとに暫定認識結果と適用先認識結果との音声関連度rLA(oi)を算出する(S5020)。音声関連度rLA(oi)の算出は、入力音声を音声認識した暫定認識結果と、適用先音声を認識した適用先認識結果の文書間の関連の高さを求めることで行う。例えば、暫定認識結果と適用先認識結果の単語頻度をベクトル化してそのコサイン類似度をはかる手法など、文書間距離を求める手法を用いればよい。適用先音声を十分に用意できない場合には、入力音声と適用先音声の収録された日時の近さや扱う内容の近さなどの付加情報から音声関連度rLA(oi)を推定してもよい。
信頼度重み算出部500の備える信頼度重み出力手段5030は、文書タスク関連度rDL(oi)と音声関連度rLA(oi)とから、信頼度重みαを算出して出力する(S5030)。信頼度重みαは、以下の式(6)のように算出する。
信頼度重みαを求める関数fは、例えば以下のようにあらかじめ推定する。まず、関連文書と入力音声と適用先音声の組を開発セットとして複数用意する。次に、各開発セットを用いて文書タスク関連度rDL(oi)と音声関連度rLA(oi)を算出する。そして、文書タスク関連度rDL(oi)と音声関連度rLA(oi)に対して最適となる信頼度重みαの分布から関数fの形状を推定する。もしくは、複数の開発セットの中から文書タスク関連度rDL(oi)と音声関連度rLA(oi)の値が最も近い開発セットを選択し、その開発セットにより求められた信頼度重みαに決定してもよい。
この実施例のように構成することにより、単語追加装置30は、利用者がいずれのパラメータも推定する必要がなく、自動的に適切な信頼度重みαを設定することができる。そのため、利用者は容易にこの発明を利用することができる。この実施例の構成は、後述の実施例4−8にも適宜適用することができる。
実施例1では、認識信頼度算出部230は、認識信頼度として平均認識信頼度ac(oi)を算出したが、認識信頼度として最大認識信頼度mc(oi)を算出するように構成することができる。
図14を参照して、この発明の実施例4に係る単語追加装置40の構成を詳細に説明する。図14は単語追加装置40の構成例を示すブロック図である。単語追加装置40は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部231、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部231は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oiごとに認識信頼度として最大認識信頼度mc(oi)を算出する。最大認識信頼度mc(oi)は、式(7)のように算出する。
ただし、ck(oi)は未登録単語oiのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、Kは暫定認識結果記憶部840に記憶されている暫定認識結果のうち未登録単語oiが出現する数とする。
平均認識信頼度による方法では、未登録単語oiが発音の曖昧な部分などで誤って認識されてしまい、信頼度が低い値を出力してしまった場合があると、未登録単語oiが正しく認識されて認識信頼度も高く出力されている部分があったとしても、誤った部分の認識信頼度の影響を受けて平均認識信頼度は小さくなってしまう。最大認識信頼度mc(oi)を用いることにより、未登録単語oiが誤認識として出現した部分の影響を抑えることができる。
認識信頼度算出部が平均認識信頼度を求める際に、未登録単語oiの読みの長さに応じた重みをつけて算出するように構成することができる。
図15を参照して、この発明の実施例5に係る単語追加装置50の構成を詳細に説明する。図15は単語追加装置50の構成例を示すブロック図である。単語追加装置50は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部232、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部232は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oiごとに認識信頼度として平均認識信頼度ac(oi)を算出する。平均認識信頼度ac(oi)は、式(8)のように算出する。
ただし、Kは暫定認識結果記憶部840に記憶されている暫定認識結果のうち未登録単語oiが出現する数、ck(oi)は未登録単語oiのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、mは未登録単語oiの読みのモーラ数、g(mi)はモーラ数に応じた重み関数である。重み関数にはlogなどの単調増加関数を用いることができる。
読みの短い単語は湧き出し易いため、たとえ高い認識信頼度で認識されても、実際は雑音や言い間違いなどの影響で出現した湧き出し誤りである可能性が高い。一方、読みの長い単語は、その読みがすべてきちんと発音されてはじめて認識結果に出現するため湧き出し難いが、高い認識信頼度をもって出現すれば正解である可能性が高い。したがって、読みの長さで重み付けすることで、湧き出し誤りにより高い認識信頼度が出力されてしまった未登録単語oiの選出を防ぐことができる。
認識信頼度算出部が平均認識信頼度を求める際に、認識信頼度の分散値の逆数により重みをつけて平均認識信頼度を算出するように構成することができる。
図16を参照して、この発明の実施例6に係る単語追加装置60の構成を詳細に説明する。図16は単語追加装置60の構成例を示すブロック図である。単語追加装置60は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部233、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部233は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oiごとに認識信頼度として平均認識信頼度ac(oi)を算出する。まず、認識信頼度の分散値v(oi)を、式(9)のように算出する。
続いて、算出した認識信頼度の分散値v(oi)を用いて、平均認識信頼度ac(oi)を、式(10)のように算出する。
このように構成することにより、暫定認識結果に湧き出し誤りとして出現している未登録単語oiが追加登録単語として選出されることを防ぐことができる。湧き出し誤りの場合、認識信頼度は0〜0.5程度の値に分布することが多く、正解の場合は0.7〜1程度の値をとることが多い。湧き出し誤りにより出現する未登録単語oiについては認識信頼度が低く、かつ正解の場合と比較し認識信頼度が広く分布する傾向にあるため、分散が大きい未登録単語oiほど湧き出し誤りにより出現している可能性が高いと推定される。そのため、分散値の逆数を重み付けすることで湧き出し誤りとして出現した未登録単語oiの影響を抑えることができる。
認識信頼度算出部が平均認識信頼度を求める際に、総出現回数Kがあらかじめ設定された閾値kθ以下となる未登録単語oiについては、平均認識信頼度ac(oi)の値を0とすることができる。なお、総出現回数Kは、暫定認識結果記憶部840に記憶されている暫定認識結果において未登録単語oiが出現する数である。
図17を参照して、この発明の実施例7に係る単語追加装置70の構成を詳細に説明する。図17は単語追加装置70の構成例を示すブロック図である。単語追加装置70は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部234、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部234は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oiごとに認識信頼度として平均認識信頼度ac(oi)を算出する。平均認識信頼度ac(oi)は、式(11)のように算出する。
追加登録単語を選出する際に用いる入力音声の量が膨大であれば、認識された回数が少ない未登録単語oiは湧き出し誤りとして偶然出現してしまった場合である可能性が高い。したがって、その出現回数が閾値kθ以下となる未登録単語は、たとえ平均認識信頼度ac(oi)の値が高くても湧き出し誤りとして出現した可能性が高いとして選出しない。この実施例のように構成することで、湧き出し誤りを起こす不要な単語が追加登録単語として選出されることを防ぐことができる。
図18を参照して、この発明の実施例8に係る単語追加装置80の動作を詳細に説明する。図18は単語追加装置80の構成例を示すブロック図である。単語追加装置80は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部322、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、登録優先度算出部の動作が異なる点のみである。
登録優先度算出部322は、認識信頼度算出部230の算出した平均認識信頼度ac(oi)とタスク関連度算出部310の算出したタスク関連度r(oi)とから、式(12)のように未登録単語oiごとの登録優先度P(oi)を算出する。
この実施例のように構成することにより、平均認識信頼度ac(oi)が低い未登録単語oiは登録優先度P(oi)の認識信頼度による補正がより小さくなり、平均認識信頼度ac(oi)が高い未登録単語oiは登録優先度P(oi)の認識信頼度による補正がより大きくなる。そのため、平均認識信頼度ac(oi)の高い未登録単語oiを優先的に選出することができる。
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。