JP5546565B2 - 単語追加装置、単語追加方法、およびプログラム - Google Patents

単語追加装置、単語追加方法、およびプログラム Download PDF

Info

Publication number
JP5546565B2
JP5546565B2 JP2012035964A JP2012035964A JP5546565B2 JP 5546565 B2 JP5546565 B2 JP 5546565B2 JP 2012035964 A JP2012035964 A JP 2012035964A JP 2012035964 A JP2012035964 A JP 2012035964A JP 5546565 B2 JP5546565 B2 JP 5546565B2
Authority
JP
Japan
Prior art keywords
recognition
word
unregistered
reliability
unregistered word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012035964A
Other languages
English (en)
Other versions
JP2013171222A (ja
Inventor
祥子 山畠
義和 山口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012035964A priority Critical patent/JP5546565B2/ja
Publication of JP2013171222A publication Critical patent/JP2013171222A/ja
Application granted granted Critical
Publication of JP5546565B2 publication Critical patent/JP5546565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識システムに用いる認識辞書に単語を追加する単語追加装置、単語追加方法、およびプログラムに関する。
音声認識システムに用いる認識辞書に単語を追加する方法には、入力音声のタスクに関連した音声認識結果を用いてWeb上から関連文書を収集し、関連文書に含まれる認識辞書に登録されていない未登録単語を全て、ないしは頻度やtf−idf値に応じて登録するものがある(非特許文献1および非特許文献2参照)。
また、入力音声のタスクに関連した音声認識結果と、単語同士の意味の近さを表す語彙データベースを用いて、音声認識結果に出現する各単語と未登録単語の関連度を求め、関連度が高い未登録単語を辞書に登録するもの(特許文献1参照)や、入力音声のタスクに関連した音声認識結果の特徴を表すベクトルを概念ベースから求め、単語の特徴を表すベクトルが格納されている語彙データベースを用いて、音声認識結果の特徴ベクトルと語彙データベース中に存在する未登録単語を辞書に登録するもの(特許文献2参照)がある。特許文献1,2では、未登録単語の特徴を適切にとらえるために、語彙データベースや概念ベースの構築に、大規模なコーパスを用いることを想定している。
特開2005−250071号公報 特開2005−149014号公報
C.E.Liu, K.Thambiratnam, F.Seide, "Online Vocabulary Adaptation using Limited Adaptation Data", InterSpeech2007, pp. 1822-1824. 増村亮, 咸聖俊, 伊藤彰則, "教師なし言語モデル適応のためのWeb Documentを用いた単語のトピック表現", 情報処理学会研究報告, Vol.82, No.18, pp.1-6.
しかしながら、非特許文献1,2に記載された方法において、関連文書中の認識辞書未登録単語を全て、ないしは頻度やtf−idf値に応じて登録する場合には、入力音声のタスクに関連しない単語が登録されてしまう。その結果、認識辞書の語彙数の増大を招き、認識精度が劣化することがある。
また、特許文献1,2に記載された方法において、新たな単語を含む関連文書が少量ずつ得られ、頻繁に認識辞書の更新を行いたい場合には、更新の度に、既存の大規模なコーパスと新たに得られた関連文書の両方を用いて、概念ベースや語彙データベースを構築し直さなければいけないため、更新の度に多大な計算コストがかかることになる。また、新たに得られた関連文書にしか出現しない未登録単語は、既存の大規模なコーパスに存在する未登録単語と比較して、関連度の信頼性が低くなってしまう。なお、少量ずつ得られる関連文書とは、具体的には、入力音声のタスクに関連がありそうな単語をクエリとして指定したWeb検索文書、人手で収集したマニュアル、WebFAQ、ニュース文書などである。
この発明はこのような点に鑑みてなされたものであり、少量の関連文書からでも、入力音声のタスクに関連した未登録単語を効果的に選択することで、認識辞書の語彙数の増大を抑え、認識精度を向上することができる単語追加装置を提供することを目的とする。
上記の課題を解決するために、この発明の単語追加装置は、認識辞書記憶部と入力音声記憶部と認識結果記憶部と関連文書記憶部と未登録単語抽出部と未登録単語特徴量抽出部と認識結果特徴量抽出部とタスク関連度算出部と暫定認識辞書登録部と暫定音声認識部と認識信頼度算出部と登録優先度算出部と認識辞書登録部を備える。認識辞書記憶部には、認識辞書が記憶されている。入力音声記憶部には、入力音声が記憶されている。認識結果記憶部には、認識辞書を用いて入力音声を音声認識した認識結果が記憶されている。関連文書記憶部には、入力音声のタスクに関連のある関連文書が記憶されている。未登録単語抽出部は、関連文書から、認識辞書に登録されていない未登録単語を抽出する。未登録単語特徴量抽出部は、未登録単語と関連文書から、未登録単語を特徴づける共起頻度ベクトルを生成する。認識結果特徴量抽出部は、認識結果から、認識結果を特徴づける単語頻度ベクトルを生成する。タスク関連度算出部は、共起頻度ベクトルと単語頻度ベクトルとから、未登録単語ごとにタスク関連度を算出する。暫定認識辞書登録部は、認識辞書に未登録単語を追加して、暫定認識辞書を生成する。暫定音声認識部は、暫定認識辞書を用いて入力音声を音声認識して、暫定認識結果を生成する。認識信頼度算出部は、暫定認識結果を用いて、未登録単語ごとに認識信頼度を算出する。登録優先度算出部は、タスク関連度と、信頼度重みαにより重み付けされた認識信頼度とから、未登録単語ごとに登録優先度を算出する。認識辞書登録部は、未登録単語と登録優先度とから、あらかじめ設定された閾値を用いて追加登録単語を抽出し、認識辞書に追加登録単語を追加して、拡張認識辞書を生成する。
認識結果として出力された単語の正解らしさを表す指標である認識信頼度が高ければ入力音声に含まれる可能性が高いと考えられる。そのため、算出されたタスク関連度が低い単語であっても、追加登録すべき単語として適切に選択することができる。また、タスク関連度が比較的高い未登録単語の中であっても、入力音声中で実際に発話される可能性が高い単語を、より適切に選択することができる。
このように、この発明によれば、入力音声のタスクに関連した未登録単語を効果的に選択して登録することができるため、認識辞書の語彙数が必要以上に増大することがない。その結果、不要な単語が誤認識を起こす湧き出しを抑えることができ、認識精度を向上することができる。
また、大規模なコーパスを用いた概念ベースや語彙データベースを使用せず、少量の関連文書と音声認識結果のみを用いても、入力音声のタスクに必要な単語を選択できるため、未登録単語を認識辞書に追加する際の計算コストを抑えることができる。
さらに、この発明の一実施形態によれば、この発明の動作に大きく影響を与えるパラメータを利用者が推定する必要がなく、自動的に適切なパラメータを設定することができる。そのため、利用者は容易にこの発明を利用することができる。
同じ単語が異なる文脈で使用される例を説明する図。 実施例1の単語追加装置の構成例を示すブロック図。 実施例1の単語追加装置を構成する各部の構成例を示すブロック図。 実施例1の単語追加装置の動作例を示すフローチャート。 未登録単語特徴量抽出部が抽出する共起窓を説明する図。 認識信頼度の例を説明する図。 実施例2の単語追加装置の構成例を示すブロック図。 実施例2の単語追加装置の動作例を示すフローチャート。 選出単語数による信頼度重み算出の動作例を示す図。 実施例3の単語追加装置の構成例を示すブロック図。 実施例3の信頼度重み算出部の構成例を示すブロック図。 実施例3の単語追加装置の動作例を示すフローチャート。 タスク関連度の分布の状況を例示する図。 実施例4の単語追加装置の構成例を示すブロック図。 実施例5の単語追加装置の構成例を示すブロック図。 実施例6の単語追加装置の構成例を示すブロック図。 実施例7の単語追加装置の構成例を示すブロック図。 実施例8の単語追加装置の構成例を示すブロック図。
実施例の説明に先立ち、この発明の基本的な考え方について説明する。この発明では、入力音声と、入力音声のタスクに関連する文書を用いて、関連文書中に出現する認識辞書に未登録の単語の中から、入力音声に関連の深い単語のみを選出して、認識辞書に追加する。未登録単語と入力音声との関連の深さを算出するために、未登録単語が関連文書中で使用される文脈と入力音声の文脈の類似性であるタスク関連度を用いる。タスク関連度は、未登録単語を特徴づける共起頻度ベクトルおよび認識結果を特徴づける単語頻度ベクトルから求める。
しかしながら、タスク関連度のみに基づいて追加登録すべき単語を選出すると、入力音声中で実際に話されているにもかかわらず、関連文書中で使用される文脈と入力音声中で使用される文脈が異なる未登録単語は選出することが困難である。図1を参照して、同じ単語が入力音声と関連文書とで異なる文脈で使用される例を説明する。図1(A)は入力音声の例であり、図1(B)は関連文書の例である。入力音声にも関連文書にも「ぷらら」という単語が含まれているが、入力音声中ではプロバイダ名として使われており、関連文書中では企業間の業務提携という文脈で使われている。このような場合には、入力音声に含まれるその他の単語と関連文書に含まれるその他の単語で共通性が低いため、タスク関連度は低く算出されてしまう。
そこで、この発明ではタスク関連度の他に認識信頼度も算出し、タスク関連度と認識信頼度とを用いて登録優先度を算出する。認識信頼度とは音声認識システムが音声を認識するとき、ある音声区間が認識辞書中の特定の単語と結びつくかどうかを決定する困難さを表す指標である。高い認識信頼度に基づいて出力された単語は、その音声区間に適した特定の単語を容易に決定できるため、正しい認識結果である可能性が高く、逆に低い認識信頼度に基づいて出力された単語は、その音声区間に適切な単語が複数あり出力の決定が困難となるため、正しい認識結果である可能性も低くなる。この発明は、認識辞書に追加する単語を選出する際に、タスク信頼度と認識信頼度の2つの尺度を考慮することで、入力音声中で関連文書とは異なる文脈で使用されているためにタスク関連度が低く算出される未登録単語であっても、実際に発話されている可能性が高い単語であれば、追加登録すべき単語として選出することができる。
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図2、図3を参照して、この発明の実施例1に係る単語追加装置10の構成を詳細に説明する。図2は単語追加装置10の構成例を示すブロック図である。単語追加装置10は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。図3は単語追加装置10を構成する各部の構成例を示すブロック図である。図3(A)は未登録単語特徴量抽出部210の構成を示すブロック図である。未登録単語特徴量抽出部210は、共起窓抽出手段2110と共起頻度ベクトル算出手段2120を備える。図3(B)は認識結果特徴量抽出部220の構成を示すブロック図である。認識結果特徴量抽出部220は、発話窓抽出手段2210と単語頻度ベクトル算出手段2220を備える。図3(C)はタスク関連度算出部310の構成を示すブロック図である。タスク関連度算出部310は、コサイン距離算出手段3110と線形二乗和計算手段3120を備える。
図4を参照して、単語追加装置10の動作を実際に行われる手続きの順に詳細に説明する。図4は単語追加装置10の動作例を示すフローチャートである。
関連文書記憶部710には、入力音声のタスクに関連のある関連文書があらかじめ記憶されている。入力音声記憶部720には、過去に音声認識部120により処理された入力音声が蓄積されている。認識辞書記憶部730には、既存単語が単語クラスごとに登録されている認識辞書があらかじめ記憶されている。
音声認識部120は、認識辞書記憶部730に記憶されている認識辞書を用いて入力音声を音声認識して、認識結果を生成する。生成した認識結果は、認識結果記憶部820に記憶する。音声認識の方法は既知のいかなる音声認識手段を用いることができる。例えば、特許文献1や特許文献2に記載されている音声認識手段が挙げられる。
未登録単語抽出部110は、関連文書記憶部710に記憶されている関連文書を形態素解析する。ここで、形態素解析済みの関連文書を、例えば関連文書記憶部710に記憶しておき、次回以降の処理では新しい関連文書が追加されるまでは形態素解析済みの関連文書を再利用するように構成してもよい。次に、解析した形態素から、認識辞書記憶部730に記憶されている認識辞書に登録されていない形態素を抽出する。そして、抽出した未登録の形態素を未登録単語oとして未登録単語記憶部810へ記憶する。(S110)。この際、未登録の形態素の他に、関連文書に対して固有表現抽出を行い、得られた単語を未登録単語oとして未登録単語記憶部810へ記憶してもよい。
未登録単語特徴量抽出部210の備える共起窓抽出手段2110は、関連文書記憶部710に記憶されている関連文書を形態素解析する。未登録単語抽出部110が形態素解析済みの関連文書を記憶するように構成している場合には、記憶されている形態素解析済みの関連文書を用いてもよい。次に、未登録単語記憶部810に記憶されている未登録単語oと形態素解析済みの関連文書から、未登録単語oが含まれる文とその前後n文を共起窓Wとして、未登録単語oが出現するすべての箇所について共起窓Wを抽出する(S2110)。すべての共起窓Wの集合をWo_allと表す。図5に共起窓の例を示す。この例では、未登録単語は「ひかり電話」である。未登録単語「ひかり電話」が含まれる文の前n文と後n文を含む(2n+1)文が共起窓Wとして抽出される。
未登録単語特徴量抽出部210の備える共起頻度ベクトル算出手段2120は、共起窓の集合Wo_allに含まれる単語である共起単語dt(以下、iは1からIまでの整数、Iは共起窓の集合Wo_allに含まれる単語の種類の数、を表す。)をすべて抽出する。次に、すべての共起単語dtについて、共起窓の集合Wo_allにおける出現頻度である共起頻度dfdt_iを求める。そして、未登録単語oの共起頻度ベクトルvを、式(1)のように生成する。(S2120)。
Figure 0005546565
認識結果特徴量抽出部220の備える発話窓抽出手段2210は、認識結果記憶部820に記憶されている認識結果がM発話からなるとして、認識結果をm発話ごとに分割して発話窓Wu_n(以下、nは1からM/m(小数点以下繰り上げ)の整数を表す。)を生成する(S2210)。
認識結果特徴量抽出部220の備える単語頻度ベクトル算出手段2220は、すべての発話窓Wu_nについて、発話窓Wu_nに含まれる単語である発話単語wt(以下、jは1からJまでの整数、Jは発話窓Wu_nに含まれる単語の種類の数、を表す。)をすべて抽出する。次に、すべての発話単語wtについて、発話窓Wu_nにおける出現頻度である単語頻度wfwt_jを求める。そして、発話窓Wu_nに対する単語頻度ベクトルvu_nを、式(2)のように生成する(S2220)。
Figure 0005546565
タスク関連度算出部310の備えるコサイン距離算出手段3110は、すべての発話窓Wu_nについて、未登録単語oを特徴づける共起頻度ベクトルvと発話窓Wu_nを特徴づける単語頻度ベクトルvu_nのコサイン距離を算出する(S3110)。
タスク関連度算出部310の備える線形二乗和計算手段3120は、すべての未登録単語oについて、コサイン距離算出手段3110の算出したコサイン距離の線形二乗和を計算して、未登録単語oのタスク関連度r(o)を算出する(S3120)。
暫定認識辞書登録部130は、認識辞書記憶部730に記憶されている認識辞書に、未登録単語記憶部810に記憶されている未登録単語oを追加して、暫定認識辞書を生成する(S130)。生成した暫定認識辞書は、暫定認識辞書記憶部830へ記憶する。追加する未登録単語oは未登録単語記憶部810に記憶されているすべての未登録単語oでもよいし、一部の未登録単語oを選択してもよい。一部の未登録単語oのみとする場合には、例えばあらかじめ定めた個数を無作為に選択してもよいし、読みの長さが近い単語や読みが似ていない単語などの基準に則って選択してもよい。追加すべき単語数には制限はなく、例えば無作為に選択した1つの単語のみを追加してもよい。
暫定音声認識部140は、暫定認識辞書記憶部830に記憶されている暫定認識辞書を用いて入力音声を音声認識して、暫定認識結果を生成する(S140)。生成した暫定認識結果は、暫定認識結果記憶部840へ記憶する。
認識信頼度算出部230は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oごとに認識信頼度として平均認識信頼度ac(o)を算出する(S230)。認識信頼度とは、音声認識を行ったときに認識結果として出力された単語wについて、どれだけ対立候補があるかを指標にその単語wの正解らしさを表す指標である。認識信頼度が高ければその出力は正解である可能性が高く、低ければその出力は正解である可能性が低い。平均認識信頼度とは、認識結果の中に一つの単語が複数回出現する場合にそれぞれの認識信頼度を個別認識信頼度として、すべての個別認識信頼度を平均したものである。未登録単語oの平均認識信頼度ac(o)は、式(3)のように算出する。
Figure 0005546565
ただし、Kは暫定認識結果記憶部840に記憶されている暫定認識結果のうち未登録単語oが出現する数、c(o)は未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度とする。暫定認識結果に出現しない未登録単語oについては、暫定認識結果に出現した未登録単語oよりも小さい値を設定する。例えば、平均認識信頼度ac(o)を0としてもよいし、他の未登録単語oに対する平均認識信頼度ac(o)のうち最も小さい値としてもよい。
認識信頼度の算出方法は既知のいかなる方法も用いることができるが、例えば以下のように算出することができる(より詳しくは、「李, 河原, 鹿野, “2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法”, 情報処理学会研究報告, Vol.2003, No.124, pp.281-286」参照)。音声認識システムは入力音声に対する音響モデルおよび言語モデルの尤度が一番高い単語列を認識結果として出力する。しかし、もし入力音声の発音が曖昧であったり、単語列の繋がりが不自然でない単語が複数あったりしたときには、尤度が同程度の対立候補が多数現れ、音声認識システムが最適な認識結果の識別に困難をきたすことがある。音声認識システムが出力を決定するときに有力な対立候補が多数存在すれば認識信頼度は低くなり、逆に対立候補がほとんど存在しなければ認識信頼度は高くなる。ある単語wの認識信頼度c(w)は、以下の式(4)のように計算される。
Figure 0005546565
ここで、p(w)は単語wの尤度、w canはwの認識された区間でのm番目の対立候補である。図6を参照して、認識信頼度を算出する例を説明する。図6において、“音声信号”は処理単位である音声区間の音声波形である。“尤度”は単語と数字の組みとなっており、その単語の尤度を数字で表している。“認識結果”は各音声区間において認識結果として出力される単語であり、“認識信頼度”は、その認識結果に対する認識信頼度の値である。例えば、同じ音声区間において「では」の尤度が9、「はい」の尤度が1と算出されたとき、認識結果には「では」が出力され、その認識信頼度は0.9となる。一方、「今日」の出力された音声区間では「京都」という対立候補があり、尤度はそれぞれ60、40と近い値となっている。このとき、「今日」という認識結果に対する認識信頼度は0.6となる。この場合は、尤度が最も高い認識結果に対して有力な対立候補があるため、「では」の区間よりも最適な認識結果の選別が困難となり、認識信頼度が低下する。このように求めた認識信頼度の値と認識結果の正解・不正解には相関があるとされているため、認識信頼度をその単語が正解した可能性として用いることは妥当であると考えられる。なお、式(4)から明らかなように、認識信頼度は0〜1の値域をとる。
登録優先度算出部320は、認識信頼度算出部230の算出した平均認識信頼度ac(o)とタスク関連度算出部310の算出したタスク関連度r(o)とから、式(5)のように未登録単語oごとの登録優先度P(o)を算出する(S320)。
Figure 0005546565
ここで、αは信頼度重みである。信頼度重みαは、タスク関連度r(o)が低くかつ平均認識信頼度ac(o)が1に近い(具体的には0.9〜1.0程度)未登録単語oの登録優先度P(o)が、タスク関連度r(o)が高くかつ平均認識信頼度ac(o)が低い(具体的には0.4以下程度)未登録単語oと同程度になるように設定する。このように設定することで、タスク関連度r(o)の高い未登録単語oと、タスク関連度r(o)が低い中でも平均認識信頼度ac(o)の値が1に近い未登録単語oのみを優先的に選出することができる。
認識辞書登録部330は、登録優先度算出部320の算出した登録優先度P(o)を参照して、未登録単語記憶部810に記憶されている未登録単語oから、あらかじめ設定された閾値θを用いて追加登録単語を抽出する(S3301)。次に、認識辞書記憶部730に記憶された認識辞書に、抽出した追加登録単語を追加して拡張認識辞書を生成する(S3302)。生成された拡張認識辞書は、拡張認識辞書記憶部900へ記憶される。未登録単語oを追加登録単語として抽出する条件は、例えば未登録単語oの登録優先度P(o)が閾値θ以上とすることができる。もしくは、登録優先度P(o)の高い順に並べた上位θ位までとすることもできる。
この実施例のように構成することにより、単語追加装置10は、入力音声のタスクに関連した未登録単語を効果的に選択して登録することができるため、認識辞書の語彙数が必要以上に増大することがない。その結果、不要な単語が誤認識を起こす湧き出しを抑えることができ、認識精度を向上することができる。
また、大規模なコーパスを用いた概念ベースや語彙データベースを使用せず、少量の関連文書と音声認識結果のみを用いても、入力音声のタスクに必要な単語を選択できるため、未登録単語を認識辞書に追加する際の計算コストを抑えることができる。
実施例1では、タスク関連度r(o)の高い未登録単語oと、タスク関連度r(o)が低い中でも平均認識信頼度ac(o)の値が1に近い未登録単語oのみを上位に選出するために、信頼度重みαを適切な値に設定する必要があった。しかし、信頼度重みαのように装置の動作に与える影響が大きいパラメータは、装置の仕組みを理解していない利用者が適切に推定することは困難である。そこで、この実施例では、選出する単語数Nを利用者が入力することができる選出単語数入力部を備え、登録優先度算出部および認識辞書登録部の処理の前に、入力された選出単語数Nに基づいて登録優先度算出部の用いる信頼度重みαを自動的に決定する。
図7を参照して、この発明の実施例2に係る単語追加装置20の構成を詳細に説明する。図7は単語追加装置20の構成例を示すブロック図である。単語追加装置20は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部321、認識辞書登録部330、選出単語数入力部400、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、選出単語数入力部400をさらに備え、登録優先度算出部の動作が異なる点である。
図8を参照して、単語追加装置20の動作を実際に行われる手続きの順に詳細に説明する。図8は単語追加装置20の動作例を示すフローチャートである。
選出単語数入力部400は、未登録単語oをタスク関連度r(o)の降順に並べて利用者に提示する。利用者は、上位何単語までが必要な単語かを入力する。利用者が入力した数値を選出単語数Nとして取得する(S400)。
登録優先度算出部321は、未登録単語oをタスク関連度r(o)の降順に並べた際の上位N位である未登録単語oのタスク関連度r(o)を、信頼度重みαとして決定する(S3211)。次に、決定した信頼度重みαを用いて、登録優先度P(o)を算出する(S3212)。登録優先度P(o)の算出方法は実施例1と同様であるので、ここでは説明を省略する。
このように、利用者の入力した選出単語数Nを用いて、上位N位のタスク関連度r(o)を信頼度重みαとすると、タスク関連度r(o)の高い未登録単語oと、タスク関連度r(o)が低い中でも平均認識信頼度ac(o)の値が1に近い未登録単語のみを追加登録単語として選出することができる。図9を参照して、選出単語数に基づいて登録優先度を算出する場合の動作例を示す。ここでは、未登録単語をタスク関連度の降順で並べて示している。例えば、未登録単語「ぷらら」は、タスク関連度のみでは上位N位に入っていないため選出できない。また、未登録単語「DNS」は、タスク関連度のみでは上位N位に入っている。ここで、上位N位である未登録単語「解像度」のタスク関連度である「0.13」を信頼度重みαとしてそれぞれの未登録単語の登録優先度を求めると、未登録単語「DNS」は、上位N位から外れ選出されなくなる。そして、未登録単語「ぷらら」は、上位N位に入るため選出されるようになる。
この実施例のように構成することにより、単語追加装置20は、利用者が装置の仕組みを理解して信頼度重みαを推定する必要がなく、自動的に適切な信頼度重みαを設定することができる。そのため、利用者は容易にこの発明を利用することができる。この実施例の構成は、後述の実施例4−8にも適宜適用することができる。
実施例1の構成では、利用者が信頼度重みαの適切な値を推定する必要がある。実施例2の構成であれば、利用者は適切な選出単語数を与えればよい。しかし、例えば未登録単語が1000語以上のように多い場合には、利用者が適切な選出単語数を判断するのは困難である。このように未登録単語数が多く利用者が適切な選出単語数を決定することが困難な場合には、この実施例のように構成することで、適切な信頼度重みαを自動的に設定することができる。
この実施例の基本的な考え方を説明する。信頼度重みαが大きい場合、認識信頼度が低い未登録単語の方が、タスク関連度が低い未登録単語よりも優先して選出される。逆に信頼度重みαが小さい場合には、タスク関連度が低い未登録単語の方が、認識信頼度が低い未登録単語よりも優先して選出される。拡張認識辞書は入力音声とは異なる新たな音声(以下、適用先音声という)に適用されるため、適用先音声に出現する可能性が高い単語を優先的に選出できるようにすることを目的として、どちらを優先すべきかを判断するべきである。すなわち、入力音声と適用先音声において出現する単語の共通性が高いが、関連文書と入力音声のタスク関連度が低い場合は、信頼度重みαを大きくして認識信頼度を重視することにより、多少認識信頼度が低くとも入力音声を音声認識した暫定認識結果に出現する未登録単語を優先的に選出することができる。一方で、関連文書と入力音声のタスク関連度は高いが、入力音声と適用先音声の単語の共通性が低い場合には、信頼度重みαを小さくしてタスク関連度を重視することにより、適用先音声に出現する可能性の高い未登録単語を優先的に選出することができる。
図10、図11を参照して、この発明の実施例3に係る単語追加装置30の構成を詳細に説明する。図10は単語追加装置30の構成例を示すブロック図である。単語追加装置30は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、適用先音声認識部150、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、信頼度重み算出部500、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、適用先音声記憶部740、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、適用先認識結果記憶部850、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、適用先音声認識部150と信頼度重み算出部500と適用先音声記憶部740と適用先認識結果記憶部850をさらに備える点である。図11は単語追加装置30の備える信頼度重み算出部500の構成例を示すブロック図である。信頼度重み算出部500は、文書タスク関連度算出部5010と音声関連度算出部5020と信頼度重み出力手段5030を備える。
図12を参照して、単語追加装置30の動作を実際に行われる手続きの順に詳細に説明する。図12は単語追加装置30の動作例を示すフローチャートである。
適用先音声記憶部740には、あらかじめ収録された適用先音声があらかじめ記憶されている。適用先音声は、拡張認識辞書を用いた音声認識システムを利用する状況を想定した評価音声である。例えば、想定される利用状況に近い環境において実際に発話されている音声を収録して適用先音声とすることができる。
適用先音声認識部150は、暫定認識辞書記憶部830に記憶されている暫定認識辞書を用いて適用先音声を音声認識して、適用先認識結果を生成する(S150)。生成した適用先認識結果は、適用先認識結果記憶部850に記憶する。音声認識の方法は音声認識部120が用いる音声認識手段と同じものとする。
信頼度重み算出部500の備える文書タスク関連度算出部5010は、未登録単語oごとに関連文書と暫定認識結果との文書タスク関連度rDL(o)を算出する(S5010)。文書タスク関連度rDL(o)の算出は、関連文書記憶部710に記憶されている関連文書と入力音声を音声認識した暫定認識結果との文書間距離を測る手法を用いてもよいし、タスク関連度算出部310が算出した未登録単語oのタスク関連度r(o)を降順に並べた際の分布の形状を表すパラメータを利用してもよい。図13に、タスク関連度を降順に並べた際の分布の例を示す。図13(A)は、関連文書と入力音声のタスク関連度が低い場合の例である。図13(B)は、関連文書と入力音声のタスク関連度が高い場合の例である。タスク関連度を降順に並べた際に、上位の未登録単語のタスク関連度が下位のタスク関連度より突出して高い場合、タスク関連度の分布はべき乗則で近似できる。関連文書と入力音声のタスク関連度が高い場合には、タスク関連度が高い未登録単語が多数を占めるため、分布の形状はなだらかになる。逆に、関連文書と入力音声のタスク関連度が低い場合には、分布の形状は急峻になる。このように、タスク関連度の分布の形状は関連文書と入力音声のタスク関連度を示していると考えられる。したがって、タスク関連度の分布の形状を表すパラメータを、関連文書と入力音声のタスク関連度として利用することができる。
信頼度重み算出部500の備える音声関連度算出部5020は、未登録単語oごとに暫定認識結果と適用先認識結果との音声関連度rLA(o)を算出する(S5020)。音声関連度rLA(o)の算出は、入力音声を音声認識した暫定認識結果と、適用先音声を認識した適用先認識結果の文書間の関連の高さを求めることで行う。例えば、暫定認識結果と適用先認識結果の単語頻度をベクトル化してそのコサイン類似度をはかる手法など、文書間距離を求める手法を用いればよい。適用先音声を十分に用意できない場合には、入力音声と適用先音声の収録された日時の近さや扱う内容の近さなどの付加情報から音声関連度rLA(o)を推定してもよい。
信頼度重み算出部500の備える信頼度重み出力手段5030は、文書タスク関連度rDL(o)と音声関連度rLA(o)とから、信頼度重みαを算出して出力する(S5030)。信頼度重みαは、以下の式(6)のように算出する。
Figure 0005546565
信頼度重みαを求める関数fは、例えば以下のようにあらかじめ推定する。まず、関連文書と入力音声と適用先音声の組を開発セットとして複数用意する。次に、各開発セットを用いて文書タスク関連度rDL(o)と音声関連度rLA(o)を算出する。そして、文書タスク関連度rDL(o)と音声関連度rLA(o)に対して最適となる信頼度重みαの分布から関数fの形状を推定する。もしくは、複数の開発セットの中から文書タスク関連度rDL(o)と音声関連度rLA(o)の値が最も近い開発セットを選択し、その開発セットにより求められた信頼度重みαに決定してもよい。
この実施例のように構成することにより、単語追加装置30は、利用者がいずれのパラメータも推定する必要がなく、自動的に適切な信頼度重みαを設定することができる。そのため、利用者は容易にこの発明を利用することができる。この実施例の構成は、後述の実施例4−8にも適宜適用することができる。
実施例1では、認識信頼度算出部230は、認識信頼度として平均認識信頼度ac(o)を算出したが、認識信頼度として最大認識信頼度mc(o)を算出するように構成することができる。
図14を参照して、この発明の実施例4に係る単語追加装置40の構成を詳細に説明する。図14は単語追加装置40の構成例を示すブロック図である。単語追加装置40は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部231、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部231は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oごとに認識信頼度として最大認識信頼度mc(o)を算出する。最大認識信頼度mc(o)は、式(7)のように算出する。
Figure 0005546565
ただし、c(o)は未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、Kは暫定認識結果記憶部840に記憶されている暫定認識結果のうち未登録単語oが出現する数とする。
平均認識信頼度による方法では、未登録単語oが発音の曖昧な部分などで誤って認識されてしまい、信頼度が低い値を出力してしまった場合があると、未登録単語oが正しく認識されて認識信頼度も高く出力されている部分があったとしても、誤った部分の認識信頼度の影響を受けて平均認識信頼度は小さくなってしまう。最大認識信頼度mc(o)を用いることにより、未登録単語oが誤認識として出現した部分の影響を抑えることができる。
認識信頼度算出部が平均認識信頼度を求める際に、未登録単語oの読みの長さに応じた重みをつけて算出するように構成することができる。
図15を参照して、この発明の実施例5に係る単語追加装置50の構成を詳細に説明する。図15は単語追加装置50の構成例を示すブロック図である。単語追加装置50は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部232、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部232は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oごとに認識信頼度として平均認識信頼度ac(o)を算出する。平均認識信頼度ac(o)は、式(8)のように算出する。
Figure 0005546565
ただし、Kは暫定認識結果記憶部840に記憶されている暫定認識結果のうち未登録単語oが出現する数、c(o)は未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、mは未登録単語oの読みのモーラ数、g(m)はモーラ数に応じた重み関数である。重み関数にはlogなどの単調増加関数を用いることができる。
読みの短い単語は湧き出し易いため、たとえ高い認識信頼度で認識されても、実際は雑音や言い間違いなどの影響で出現した湧き出し誤りである可能性が高い。一方、読みの長い単語は、その読みがすべてきちんと発音されてはじめて認識結果に出現するため湧き出し難いが、高い認識信頼度をもって出現すれば正解である可能性が高い。したがって、読みの長さで重み付けすることで、湧き出し誤りにより高い認識信頼度が出力されてしまった未登録単語oの選出を防ぐことができる。
認識信頼度算出部が平均認識信頼度を求める際に、認識信頼度の分散値の逆数により重みをつけて平均認識信頼度を算出するように構成することができる。
図16を参照して、この発明の実施例6に係る単語追加装置60の構成を詳細に説明する。図16は単語追加装置60の構成例を示すブロック図である。単語追加装置60は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部233、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部233は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oごとに認識信頼度として平均認識信頼度ac(o)を算出する。まず、認識信頼度の分散値v(o)を、式(9)のように算出する。
Figure 0005546565
続いて、算出した認識信頼度の分散値v(o)を用いて、平均認識信頼度ac(o)を、式(10)のように算出する。
Figure 0005546565
このように構成することにより、暫定認識結果に湧き出し誤りとして出現している未登録単語oが追加登録単語として選出されることを防ぐことができる。湧き出し誤りの場合、認識信頼度は0〜0.5程度の値に分布することが多く、正解の場合は0.7〜1程度の値をとることが多い。湧き出し誤りにより出現する未登録単語oについては認識信頼度が低く、かつ正解の場合と比較し認識信頼度が広く分布する傾向にあるため、分散が大きい未登録単語oほど湧き出し誤りにより出現している可能性が高いと推定される。そのため、分散値の逆数を重み付けすることで湧き出し誤りとして出現した未登録単語oの影響を抑えることができる。
認識信頼度算出部が平均認識信頼度を求める際に、総出現回数Kがあらかじめ設定された閾値kθ以下となる未登録単語oについては、平均認識信頼度ac(o)の値を0とすることができる。なお、総出現回数Kは、暫定認識結果記憶部840に記憶されている暫定認識結果において未登録単語oが出現する数である。
図17を参照して、この発明の実施例7に係る単語追加装置70の構成を詳細に説明する。図17は単語追加装置70の構成例を示すブロック図である。単語追加装置70は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部234、タスク関連度算出部310、登録優先度算出部320、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、認識信頼度算出部の動作が異なる点のみである。
認識信頼度算出部234は、暫定認識結果記憶部840に記憶されている暫定認識結果を用いて、未登録単語記憶部810に記憶されている未登録単語oごとに認識信頼度として平均認識信頼度ac(o)を算出する。平均認識信頼度ac(o)は、式(11)のように算出する。
Figure 0005546565
追加登録単語を選出する際に用いる入力音声の量が膨大であれば、認識された回数が少ない未登録単語oは湧き出し誤りとして偶然出現してしまった場合である可能性が高い。したがって、その出現回数が閾値kθ以下となる未登録単語は、たとえ平均認識信頼度ac(o)の値が高くても湧き出し誤りとして出現した可能性が高いとして選出しない。この実施例のように構成することで、湧き出し誤りを起こす不要な単語が追加登録単語として選出されることを防ぐことができる。
図18を参照して、この発明の実施例8に係る単語追加装置80の動作を詳細に説明する。図18は単語追加装置80の構成例を示すブロック図である。単語追加装置80は、未登録単語抽出部110、音声認識部120、暫定認識辞書登録部130、暫定音声認識部140、未登録単語特徴量抽出部210、認識結果特徴量抽出部220、認識信頼度算出部230、タスク関連度算出部310、登録優先度算出部322、認識辞書登録部330、関連文書記憶部710、入力音声記憶部720、認識辞書記憶部730、未登録単語記憶部810、認識結果記憶部820、暫定認識辞書記憶部830、暫定認識結果記憶部840、拡張認識辞書記憶部900を備える。したがって、実施例1の単語追加装置10との相違点は、登録優先度算出部の動作が異なる点のみである。
登録優先度算出部322は、認識信頼度算出部230の算出した平均認識信頼度ac(o)とタスク関連度算出部310の算出したタスク関連度r(o)とから、式(12)のように未登録単語oごとの登録優先度P(o)を算出する。
Figure 0005546565
この実施例のように構成することにより、平均認識信頼度ac(o)が低い未登録単語oは登録優先度P(o)の認識信頼度による補正がより小さくなり、平均認識信頼度ac(o)が高い未登録単語oは登録優先度P(o)の認識信頼度による補正がより大きくなる。そのため、平均認識信頼度ac(o)の高い未登録単語oを優先的に選出することができる。
[プログラム、記録媒体]
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施例において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
また、上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
10−80 単語追加装置
110 未登録単語抽出部
120 音声認識部
130 暫定認識辞書登録部
140 暫定音声認識部
150 適用先音声認識部
210 未登録単語特徴量抽出部
2110 共起窓抽出手段
2120 共起頻度ベクトル算出手段
220 認識結果特徴量抽出部
2210 発話窓抽出手段
2220 単語頻度ベクトル算出手段
230−234 認識信頼度算出部
310 タスク関連度算出部
3110 コサイン距離算出手段
3120 線形二乗和計算手段
320−322 登録優先度算出部
330 認識辞書登録部
400 選出単語数入力部
500 信頼度重み算出部
5010 文書タスク関連度算出手段
5020 音声関連度算出手段
5030 信頼度重み出力手段
710 関連文書記憶部
720 入力音声記憶部
730 認識辞書記憶部
740 適用先音声記憶部
810 未登録単語記憶部
820 認識結果記憶部
830 暫定認識辞書記憶部
840 暫定認識結果記憶部
850 適用先認識結果記憶部
900 拡張認識辞書記憶部

Claims (12)

  1. 認識辞書が記憶された認識辞書記憶部と、
    入力音声が記憶された入力音声記憶部と、
    前記認識辞書を用いて前記入力音声を音声認識した認識結果が記憶された認識結果記憶部と、
    前記入力音声のタスクに関連のある関連文書が記憶された関連文書記憶部と、
    前記関連文書から、前記認識辞書に登録されていない未登録単語を抽出する未登録単語抽出部と、
    前記未登録単語と前記関連文書から、当該未登録単語を特徴づける共起頻度ベクトルを生成する未登録単語特徴量抽出部と、
    前記認識結果から、当該認識結果を特徴づける単語頻度ベクトルを生成する認識結果特徴量抽出部と、
    前記共起頻度ベクトルと前記単語頻度ベクトルとから、前記未登録単語ごとにタスク関連度を算出するタスク関連度算出部と、
    前記認識辞書に前記未登録単語を追加して、暫定認識辞書を生成する暫定認識辞書登録部と、
    前記暫定認識辞書を用いて前記入力音声を音声認識して、暫定認識結果を生成する暫定音声認識部と、
    前記暫定認識結果を用いて、前記未登録単語ごとに認識信頼度を算出する認識信頼度算出部と、
    前記タスク関連度と、信頼度重みαにより重み付けされた前記認識信頼度とから、前記未登録単語ごとに登録優先度を算出する登録優先度算出部と、
    前記未登録単語と前記登録優先度とから、あらかじめ設定された閾値を用いて追加登録単語を抽出し、前記認識辞書に前記追加登録単語を追加して、拡張認識辞書を生成する認識辞書登録部と、
    を備える単語追加装置。
  2. 請求項1に記載の単語追加装置であって、
    選出単語数Nの入力を受け付ける選出単語数入力部をさらに備え、
    前記登録優先度算出部は、
    前記信頼度重みαを、前記未登録単語を前記タスク関連度の降順に並べたN番目のタスク関連度の値とする
    ことを特徴とする単語追加装置。
  3. 請求項1に記載の単語追加装置であって、
    あらかじめ収録された適用先音声が記憶された適用先音声記憶部と
    前記暫定認識辞書を用いて前記適用先音声を音声認識して、適用先認識結果を生成する適用先音声認識部と
    前記信頼度重みαを算出する信頼度重み算出部と、をさらに備え、
    前記信頼度重み算出部は、
    前記関連文書と前記暫定認識結果との文書タスク関連度を算出する文書タスク関連度算出手段と、
    前記暫定認識結果と前記適用先認識結果との音声関連度を算出する音声関連度算出手段と、
    前記文書タスク関連度と前記音声関連度とから、信頼度重みαを算出して出力する信頼度重み出力手段と、
    を備えることを特徴とする単語追加装置。
  4. 請求項1から3のいずれかに記載の単語追加装置であって、
    Iを前記未登録単語の数、oをi(1≦i≦I)番目の前記未登録単語、Kを前記暫定認識結果において前記未登録単語oの出現する数、c(o)を前記未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、ac(o)を前記未登録単語oの前記認識信頼度として、
    前記認識信頼度算出部は、
    Figure 0005546565

    を計算することにより前記認識信頼度を算出する
    ことを特徴とする単語追加装置。
  5. 請求項1から3のいずれかに記載の単語追加装置であって、
    Iを前記未登録単語の数、oをi(1≦i≦I)番目の前記未登録単語、Kを前記暫定認識結果において前記未登録単語oの出現する数、c(o)を前記未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、mc(o)を前記未登録単語oの前記認識信頼度として、
    前記認識信頼度算出部は、
    Figure 0005546565

    を計算することにより前記認識信頼度を算出する
    ことを特徴とする単語追加装置。
  6. 請求項1から3のいずれかに記載の単語追加装置であって、
    Iを前記未登録単語の数、oをi(1≦i≦I)番目の前記未登録単語、Kを前記暫定認識結果において前記未登録単語oの出現する数、c(o)を前記未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、mを前記未登録単語oの読みのモーラ数、g(m)をモーラ数mに対する重み関数、ac(o)を前記未登録単語oの前記認識信頼度として、
    前記認識信頼度算出部は、
    Figure 0005546565

    を計算することにより前記認識信頼度を算出する
    ことを特徴とする単語追加装置。
  7. 請求項1から3のいずれかに記載の単語追加装置であって、
    Iを前記未登録単語の数、oをi(1≦i≦I)番目の前記未登録単語、Kを前記暫定認識結果において前記未登録単語oの出現する数、c(o)を前記未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、ac(o)を前記未登録単語oの前記認識信頼度、v(o)を前記認識信頼度の分散値として、
    前記認識信頼度算出部は、
    Figure 0005546565

    を計算することにより前記分散値を算出し、
    Figure 0005546565

    を計算することにより前記認識信頼度を算出する
    ことを特徴とする単語追加装置。
  8. 請求項1から3のいずれかに記載の単語追加装置であって、
    Iを前記未登録単語の数、oをi(1≦i≦I)番目の前記未登録単語、Kを前記暫定認識結果において前記未登録単語oの出現する数、c(o)を前記未登録単語oのk(1≦k≦K)番目の認識結果に対する個別認識信頼度、kθをあらかじめ定めた閾値、ac(o)を前記未登録単語oの前記認識信頼度として、
    前記認識信頼度算出部は、
    Figure 0005546565

    を計算することにより前記認識信頼度を算出する
    ことを特徴とする単語追加装置。
  9. 請求項1から8のいずれかに記載の単語追加装置であって、
    Iを前記未登録単語の数、oをi(1≦i≦I)番目の前記未登録単語、r(o)を前記未登録単語oのタスク関連度、ac(o)を前記未登録単語oの前記認識信頼度、P(o)を前記未登録単語oの前記登録優先度として、
    前記登録優先度算出部は、
    Figure 0005546565

    を計算することにより前記登録優先度を算出する
    ことを特徴とする単語追加装置。
  10. 請求項1から8のいずれかに記載の単語追加装置であって、
    Iを前記未登録単語の数、oをi(1≦i≦I)番目の前記未登録単語、r(o)を前記未登録単語oのタスク関連度、ac(o)を前記未登録単語oの前記認識信頼度、P(o)を前記未登録単語oの前記登録優先度として、
    前記登録優先度算出部は、
    Figure 0005546565

    を計算することにより前記登録優先度を算出する
    ことを特徴とする単語追加装置。
  11. 未登録単語抽出部が、入力音声のタスクに関連のある関連文書から、認識辞書に登録されていない未登録単語を抽出する未登録単語抽出ステップと、
    未登録単語特徴量抽出部が、前記未登録単語と前記関連文書から、当該未登録単語を特徴づける共起頻度ベクトルを生成する未登録単語特徴量抽出ステップと、
    認識結果特徴量抽出部が、前記認識辞書を用いて前記入力音声を音声認識した認識結果から、当該認識結果を特徴づける単語頻度ベクトルを生成する認識結果特徴量抽出ステップと、
    タスク関連度算出部が、前記共起頻度ベクトルと前記単語頻度ベクトルとから、前記未登録単語ごとにタスク関連度を算出するタスク関連度算出ステップと、
    暫定認識辞書登録部が、前記認識辞書に前記未登録単語を追加して、暫定認識辞書を生成する暫定認識辞書登録ステップと、
    暫定音声認識部が、前記暫定認識辞書を用いて前記入力音声を音声認識して、暫定認識結果を生成する暫定音声認識ステップと、
    認識信頼度算出部が、前記暫定認識結果を用いて、前記未登録単語ごとに認識信頼度を算出する認識信頼度算出ステップと、
    登録優先度算出部が、前記タスク関連度と、信頼度重みαにより重み付けされた前記認識信頼度とから、前記未登録単語ごとに登録優先度を算出する登録優先度算出ステップと、
    認識辞書登録部が、前記未登録単語と前記登録優先度から、あらかじめ設定された閾値を用いて追加登録単語を抽出し、前記認識辞書に前記追加登録単語を追加して、拡張認識辞書を生成する認識辞書登録ステップと、
    を含む単語追加方法。
  12. 請求項1から10のいずれかに記載の単語追加装置としてコンピュータを機能させるためのプログラム。
JP2012035964A 2012-02-22 2012-02-22 単語追加装置、単語追加方法、およびプログラム Active JP5546565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012035964A JP5546565B2 (ja) 2012-02-22 2012-02-22 単語追加装置、単語追加方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012035964A JP5546565B2 (ja) 2012-02-22 2012-02-22 単語追加装置、単語追加方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2013171222A JP2013171222A (ja) 2013-09-02
JP5546565B2 true JP5546565B2 (ja) 2014-07-09

Family

ID=49265163

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012035964A Active JP5546565B2 (ja) 2012-02-22 2012-02-22 単語追加装置、単語追加方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP5546565B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5713963B2 (ja) * 2012-06-18 2015-05-07 日本電信電話株式会社 音声認識単語追加装置とその方法とプログラム
JP5921601B2 (ja) * 2014-05-08 2016-05-24 日本電信電話株式会社 音声認識辞書更新装置、音声認識辞書更新方法、プログラム
JP6790003B2 (ja) * 2018-02-05 2020-11-25 株式会社東芝 編集支援装置、編集支援方法及びプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001043226A (ja) * 1999-08-03 2001-02-16 Hitachi Ltd 単語辞書作成支援装置、コンピュータ読みとり可能な記録媒体
JP3476008B2 (ja) * 1999-09-10 2003-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
JP3415585B2 (ja) * 1999-12-17 2003-06-09 株式会社国際電気通信基礎技術研究所 統計的言語モデル生成装置、音声認識装置及び情報検索処理装置
JP2002297181A (ja) * 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
JP4528540B2 (ja) * 2004-03-03 2010-08-18 日本電信電話株式会社 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体

Also Published As

Publication number Publication date
JP2013171222A (ja) 2013-09-02

Similar Documents

Publication Publication Date Title
Schuster et al. Japanese and korean voice search
KR100717385B1 (ko) 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
US9672817B2 (en) Method and apparatus for optimizing a speech recognition result
US9190054B1 (en) Natural language refinement of voice and text entry
CN108140019B (zh) 语言模型生成装置、语言模型生成方法以及记录介质
JP6310150B2 (ja) 意図理解装置、方法およびプログラム
JP5775466B2 (ja) 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
US10019514B2 (en) System and method for phonetic search over speech recordings
US9747893B2 (en) Unsupervised training method, training apparatus, and training program for an N-gram language model based upon recognition reliability
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5524138B2 (ja) 同義語辞書生成装置、その方法、及びプログラム
JP5546565B2 (ja) 単語追加装置、単語追加方法、およびプログラム
JP5713963B2 (ja) 音声認識単語追加装置とその方法とプログラム
JPWO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP2013109635A (ja) 単語重要度算出装置とその方法とプログラム
JP6391925B2 (ja) 音声対話装置、方法およびプログラム
JP5670293B2 (ja) 単語追加装置、単語追加方法、およびプログラム
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
Tarján et al. A bilingual study on the prediction of morph-based improvement.
JP5673239B2 (ja) 音声認識装置、音声認識方法、および音声認識プログラム
JP4674609B2 (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2021086362A (ja) 情報処理装置、情報処理方法及びプログラム
JP5762365B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP2014215970A (ja) 誤り検出装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130826

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140224

A131 Notification of reasons for refusal

Effective date: 20140401

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Effective date: 20140507

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Effective date: 20140513

Free format text: JAPANESE INTERMEDIATE CODE: A61

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Country of ref document: JP

Ref document number: 5546565