JP2014035361A - 音声認識装置とその方法とプログラム - Google Patents

音声認識装置とその方法とプログラム Download PDF

Info

Publication number
JP2014035361A
JP2014035361A JP2012174949A JP2012174949A JP2014035361A JP 2014035361 A JP2014035361 A JP 2014035361A JP 2012174949 A JP2012174949 A JP 2012174949A JP 2012174949 A JP2012174949 A JP 2012174949A JP 2014035361 A JP2014035361 A JP 2014035361A
Authority
JP
Japan
Prior art keywords
word
reliability
speech recognition
context
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012174949A
Other languages
English (en)
Other versions
JP5749230B2 (ja
Inventor
Taichi Asami
太一 浅見
Hirokazu Masataki
浩和 政瀧
Osamu Yoshioka
理 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012174949A priority Critical patent/JP5749230B2/ja
Publication of JP2014035361A publication Critical patent/JP2014035361A/ja
Application granted granted Critical
Publication of JP5749230B2 publication Critical patent/JP5749230B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ラベル付き音声認識結果を用いることなく正確な単語信頼度を求めることができる音声認識装置を提供する。
【解決手段】音声データを入力として、音声認識処理を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識部110と、単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベース130を参照して当該音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、補正対象単語の単語信頼度として出力する単語信頼度補正部140と、を具備する。
【選択図】図1

Description

この発明は、音声認識装置と、その装置で用いる音声認識方法とプログラムに関し、特に、入力音声信号に対する音声認識処理により得られる認識結果に付随して、認識結果の信頼度を出力する音声認識装置と、その方法とプログラムに関する。
大量の音声データとその音声認識結果をデータベースに蓄積し、音声認識結果に対して検索やテキストマイニングなどの技術を適用して情報抽出を行うシステムにおいて、音声認識結果に含まれる認識誤り単語が情報抽出に悪影響を与えることはよく知られている。具体的には、検索クエリが認識誤り単語にヒットすることにより利用者の意図しない検索結果が出力される、また、ある単語の出現頻度をカウントした際に、認識誤りとして現れているケースもカウントしてしまうことにより、その単語が実際に音声データ中で発声された回数と、音声認識結果に出現した回数とに異なりが生じる。このように、認識誤り単語によって情報抽出の結果が乱されることにより、利用者が所望の情報を得られない、システムの出力する情報が信頼できない、という問題が発生し、システムの利便性が低下する。
この問題への対処方法としては、音声認識結果に含まれる認識誤り単語を検出し、認識誤り単語を排除するアプローチが有望である。音声認識結果に含まれる各単語に対して認識結果の確からしさを表す認識信頼度(以下、「単語信頼度」と称す)を付与し、単語信頼度が所定の閾値以下となっている単語を認識誤りとして検出/排除した誤り単語の少ない音声認識結果をデータベースに蓄積しておくことで、以後の検索処理やテキストマイニング処理での情報抽出の正確性を向上させることができる。
例えば、特許文献1に開示されている単語信頼度を算出/付与する方法は、音声認識処理の探索結果の上位N位までのNベスト候補のスコア1位の単語Wの単語信頼度を、単語Wのスコアと、スコア2位以下で単語Wと異なる単語Wとのスコア差を、単語Wの継続時間長で正規化した値とする考えである。
また、非特許文献1には、処理対象の単語に付与された単語信頼度と、当該単語の周辺単語の情報にもとづいて、当該単語が正解である確率を計算し、改めて単語信頼度として付与する単語の正誤を確率的に識別する方法が開示されている。
特開2005−148342号公報
松本ほか、「複数の言語情報を用いたCRFによる音声認識誤りの検出」日本音響学会講演論文集,pp.227-228,2009年3月.
特許文献1の方法は、Nベスト候補のみから単語信頼度を計算するため、事前の学習などの手間が不要であるメリットはある。しかし、単語信頼度の誤差が大きく、正解単語なのに単語信頼度が低くなるケースや、誤り単語であるのに単語信頼度が高くなるケースがあり、誤り単語の検出性能が低い課題がある。つまり、誤りを多く検出できるように厳しい閾値を設定した場合には正解単語を多数排除してしまい、逆に正解を排除しないように緩い閾値を設定した場合には排除されずに残る誤り単語の数が多くなってしまう。
また、非特許文献1の方法は、単純な単語信頼度のみを使う特許文献1などの方法に比べて誤り単語の検出性能が高いメリットがある。しかし、正解/誤りを識別するモデルを事前に学習する必要がある。学習には、実際にシステムを利用する場面で発声された音声データを音声認識した音声認識結果の各単語に対して正解であるか誤りであるかのラベルを付与したラベル付き音声認識結果を用いる。ラベルを付与する方法としては、音声データを人が聞きながら音声認識結果に1単語ずつ正解/誤りのラベルを付与する方法や、音声データを人が聞いて書き起こした正解テキストと音声認識結果とでマッチングを取り、正解テキストとマッチした単語に正解ラベル、マッチしなかった単語に誤りラベルを付与する方法などがある。何れの方法も人が音声を聞く作業が必須であり、ラベル付き音声認識結果の作成には大きなコストが必要である。
この発明は、このような課題に鑑みてなされたものであり、大きなコストが必要なラベル付き音声認識結果を用いずに誤り単語の検出性能を向上させることができる音声認識装置と、その方法とプログラムを提供することを目的とする。
この発明の音声認識装置は、音声認識部と、単語信頼度付き音声認識結果データベース(以降、データベースをDBと表記する)と、単語信頼度補正部と、を具備する。音声認識部は、音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する。単語信頼度付き音声認識結果DBは、単語信頼度付き音声認識結果を記憶する。単語信頼度補正部は、単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベースを参照してその単語信頼度付き音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、補正対象単語の単語信頼度として出力する。
この発明の音声認識装置によれば、ラベル付き音声認識結果を用いることなく正確な単語信頼度を求めることができる。正確な単語信頼度を付与することで、音声認識結果に対するテキストマイニングなどの情報抽出の正確性が向上し、音声認識結果を用いるシステムの利便性を高めることができる。また、多数の異なる導入先にシステムを展開する際に、導入先ごとにラベル付き音声認識結果を作成する必要がなくなるので、システムの展開が容易となり、より多くの場面で、音声認識装置を用いたシステムの利用を可能にする。
また、システム導入後の運用フェーズにおいても、この発明の音声認識装置によれば、ラベル付き音声認識結果を用意する必要がないので、新語などを新たに追加するシステムメンテナンスを、低コストで且つ容易に行うことができる。
この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 単語信頼度補正部140の機能構成例を示す図。 対象文脈抽出手段141の動作フローを示す図。 対象文脈抽出手段141の動作フローを示す図。 補正対象単語Wと対象文脈の関係の例を示す図。 補正対象単語Wと補正対象単語事例Wとの関係例を示す図。 音声認識結果出力手段144の動作フローを示す図。 誤り単語検出性能の評価実験結果を示す図。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
〔発明の考え〕
実施例の説明の前に、この発明の音声認識装置における単語信頼度の補正方法に関する考え方を説明する。音声認識において、認識した個々の単語の単語信頼度の値のバラツキは大きい。正解単語であるのに単語信頼度が低くなる場合もあれば、誤り単語であるのに単語信頼度が高くなる場合もある。そのため、ある単語の単語信頼度を一つだけを評価して誤り単語か否かを判定するのは困難である。
一方、多数の正解単語の単語信頼度の平均値は、多数の誤り単語の単語信頼度の平均値よりも明確に高くなる傾向にある。この発明は、この点に着目して単語信頼度の値を補正する考えである。
音声認識結果に同じ単語が同じような文脈で何度か現れているとき、それらは「全て正解」か「全て誤り」かの何れかだと考えられる。例えば、Aの単語の並びが10回、Bの単語の並びも10回、音声認識結果に現れていたと仮定する。「/」は単語区切りを表す。
A:週/の/終わり/は/高気圧/に/覆われ/て/晴れる/日/も/ある/でしょう/
B:梅雨前線/や/湿った/高気圧/の/影響/で/雲/が/広がり/やす/く/
Aの「高気圧」は10回全て正解であり、Bの「高気圧」は10回全て認識誤りである。このとき、Aの場合の10回の「高気圧」の単語信頼度の平均値は、Bの場合の10回の「高気圧」の単語信頼度の平均値よりも高くなる。つまり、個々の「高気圧」の単語信頼度はAの場合に低いこともあり、Bの場合に高くなることもあるが、平均値で見ればその間に違いが現れる。
そこで、Aの場合の各「高気圧」の単語信頼度を、Aの場合の10回の「高気圧」の平均値で補正する。そして、Bの場合の各「高気圧」の単語信頼度を、Bの場合の10回の「高気圧」の平均値に補正し、補正後の両方の単語信頼度に対して閾値処理をすることで、Aの「高気圧」を10回全て正解と判定し、Bの「高気圧」を10回全て誤りと判定できるようにする。このように、この発明では、音声認識結果中のある単語(補正対象単語)の単語信頼度を、同じ単語が別の音声認識結果で出現したときの単語信頼度を参照して補正する。このとき、似た文脈で同じ単語が現れている場合の単語信頼度を重視する。文脈とは、補正対象単語の前後に出現している単語の集合のことである。参照するのは別の音声認識結果と単語信頼度のみ(何れも自動生成される)であり、人手で作成するラベル付き音声認識結果を用いることなく、コストをかけずに単語信頼度を正しく補正することができる。
図1に、この発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、音声認識部110と、単語信頼度付き音声認識結果データベース130と、単語信頼度補正部140と、制御部150と、を具備する。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識部110は、音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する(ステップS110)。音声認識には、例えば参考文献1(政瀧ほか、“顧客との自然な会話を聞き取る自由発話音声認識技術「VoiceRex」”NTT技術ジャーナル,Vol.18,No.11,pp.15-18,2006.)に記載された既存技術を用いる。また、単語信頼度の算出/付与には、例えば上記した特許文献1や参考文献2(F. Wessel et al., “Confidence Measures for Large Vocabulary Continuous Speech Recognition,” IEEE trans. On Speech and Audio Processing,9(3),pp.288-298,2001.)に記載された既存技術を用いる。
単語信頼度付き音声認識結果DB130は、上記した既存技術で音声データを音声認識した結果の単語信頼度付き音声認識結果を大量に記憶する。ここで大量とは、例えば1000時間程度に及ぶ音声データに対応した音声認識結果である。なお、破線で音声認識結果DB登録部120を示すように、音声認識部110の出力する単語信頼度付き音声認識結果を逐次、単語信頼度付き音声認識結果DB130に記憶するようにしても良い。
単語信頼度補正部140は、音声認識部110が出力する単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果DBを参照して当該音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する(ステップS140)。このとき、予め作成した補正対象外とする単語を列挙したストップリストを参照して、例えば「えーと」、「あのー」などの穴埋め語(フィラー)や助詞などを、補正対象外単語として分類しても良い。
制御部150は、全ての音声認識結果についての単語信頼度の補正が終わるまでステップS110〜S140の処理を繰り返すように、各部の動作を制御する(ステップS150)。
音声認識装置100によれば、対象文脈と文脈事例との類似度から求めた補正単語信頼度を、補正対象単語の単語信頼度として出力するので、従来技術で必要としたラベル付き音声認識結果を用いることなく正確な単語信頼度を求めることができる。この発明の主要部である単語信頼度補正部140のより具体的な機能構成例を示して更に詳しく説明する。
〔単語信頼度補正部〕
図3に、単語信頼度補正部140のより具体的な機能構成例を示す。単語信頼度補正部140は、対象文脈抽出手段141と、文脈事例抽出手段142と、補正単語信頼度計算手段143と、音声認識結果出力手段144と、を備える。
〔対象文脈抽出手段〕
対象文脈抽出手段141は、音声認識部110が出力する単語信頼度付き音声認識結果を入力として、補正対象単語を特定しその補正対象単語の前後複数単語の範囲を対象文脈として抽出し、補正対象単語とその単語信頼度と対象文脈との組みと、補正対象外とする補正対象外単語とその単語信頼度との組みと、を出力する。
図4と5に、対象文脈抽出手段141の動作フローを示す。対象文脈抽出手段141は、動作を開始すると音声認識結果の単語列を構成する各単語を特定する変数iをi=1に初期化する(ステップS14100)。まず初めに、音声認識結果の単語列の先頭の単語Wを特定する(ステップS14101)。単語Wが、ストップリストにリストアップされていた場合(ステップS14104のYes)、対象文脈抽出手段141は単語Wとその単語信頼度を、そのまま補正対象外単語Wとその単語信頼度との組みとして音声認識結果出力手段144に出力する(ステップS14102)。そして、変数iをインクリメントして2番目の単語Wを特定する(ステップS14101)。ストップリストとは、上記したように穴埋め語等を補正対象外に分類するための単語の一覧表である。
単語Wが、ストップリストに無かった場合(ステップS14104のNo)、単語Wを補正対象単語Wとして確定する(ステップS14105)。そして、補正対象単語Wの前方の対象文脈の範囲を特定する変数sをs=1に、対象文脈として抽出した単語の数を表す変数nをn=0に初期化する(ステップS14106)。次に、単語W1−sの単語が存在するか否かを判断する。ここでは、単語Wが音声認識結果の先頭の単語であるので単語Wの前には単語W1−sが存在しない(ステップS14107のNo)。そこで対象文脈抽出手段141は、結合子αで結合する図5に示された補正対象単語の後方の対象文脈を抽出する処理を行う。ステップS14107のYesの場合の処理は後述する。
対象文脈抽出手段141は、補正対象単語Wの後方の対象文脈の範囲を特定する変数tをt=1に、対象文脈として抽出した単語の数を表す変数mをm=0に初期化する(ステップS14113)。そして、単語W1+tの単語の存在を確認する。ここでは、音声認識結果の2番目の単語である単語Wは存在するので、単語Wがストップリストにリストアップされている場合は、変数tをインクリメント(ステップS14116)し、ストップリストに単語Wがない場合は、単語Wを後方の対象文脈として抽出する(ステップS14117)。そして、変数mをインクリメント(m=1)して、変数mが、後方の対象文脈の範囲の幅を決定する変数Q(例えばQ=4)以上になるまでステップS14114〜S14119の処理を繰り返す。この例では、4個の単語(m=4)から成る後方の対象文脈が抽出された後に、単語Wが音声認識結果の単語列の文末に当たらない場合(ステップS14120のNo)、変数iがインクリメントされて結合子βで結合する前方の対象文脈を抽出する処理を行う。
変数iがi=2で、補正対象単語Wの前に単語が存在する場合(ステップS14107のYes)、単語W(i−s=1)の単語がストップリストに在ると変数sをインクリメント(ステップS14110)して更に1個前方の単語について処理を行う。単語Wの単語がストップリストに無い場合は単語Wを前方の対象文脈として出力する(ステップS14109)。そして、変数nをインクリメントしてnが、前方の対象文脈の幅を決定する変数P(例えばP=4)以上になるまで、この例では、4個の単語(n=4)から成る前方の対象文脈が抽出されるまで、または、前方の単語が存在しなくなるまでステップS14107〜S14111の処理を繰り返す。以上のようにして補正対象単語Wと対象文脈との組を抽出する。
図6に、抽出した補正対象単語Wと対象文脈との組の例を示す。1行目は音声認識結果の単語列、2行目は上記した処理で抽出された最初の補正対象単語Wとその後方の対象文脈である。最初の補正対象単語Wの前には単語が存在しないので前方の対象文脈は無いが、変数iがインクリメントされて対象とする単語Wが更新されることで前方の対象文脈は逐次増加し、前方の対象文脈の範囲の幅を決定する変数Pを例えばP=4とすることで、最大で4個の単語が前方の対象文脈として抽出される。PとQは異なる値としても良い。PとQは、対象文脈の範囲の幅、つまり文脈窓幅を決定する変数であり、大きくし過ぎた場合は関係性の低い単語が混入し、小さくし過ぎた場合は文脈類似度を測るのに十分な数の単語が含まれなくなる。よって、その値は通常3〜10程度に設定する。なお、不要単語を除外するストップリストは用いなくても良い。
図6に示す例では、補正対象単語W以降、補正対象単語★を中心に前方と後方に4個の単語から成る対象文脈が抽出される。音声認識結果の単語列の終端部では、図6に示した例とは異なり後方の対象文脈の幅が逐次減少するようにして補正対象単語と前後の対象文脈とが抽出される。なお、図6は、単語W〜W12の範囲の単語がストップリストにリストアップされていない場合の例である。例えば、補正対象単語Wの場合に単語Wが補正対象外単語であると仮定した場合、前方の対象文脈は単語W,W,W,Wの4個の単語で構成されるようになる。
〔文脈事例抽出手段〕
文脈事例抽出手段142は、対象文脈抽出手段141が出力する補正対象単語Wを入力として、単語信頼度付き音声認識結果DB130を参照し、単語信頼度付き音声認識結果DB130に記憶されている単語信頼度付き音声認識結果に出現する補正対象単語Wと同じ単語を補正対象単語事例Wとして複数個特定し、その補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、補正対象単語事例Wとその単語信頼度と文脈事例との組を複数個出力する。
補正対象単語事例Wとその単語信頼度と文脈事例との組みを抽出する処理は、抽出する対象が単語信頼度付き音声認識結果DB130に記憶された文書である点のみが異なるだけで、上記した対象文脈抽出手段141と同じである。また、ストップリストを用いて補正対象外単語とする不要単語を除外する点も同じである。よって、動作フローを参照した説明は省略する。
〔補正単語信頼度計算手段〕
補正単語信頼度計算手段143は、対象文脈抽出手段141が出力する補正対象単語Wとその単語信頼度と対象文脈との組と、文脈事例抽出手段142が出力する補正対象単語事例Wとその単語信頼度と文脈事例との組み群と、を入力として対象文脈と文脈事例との類似度を求め、その類似度を用いて補正対象単語事例Wの単語信頼度を補正した補正単語信頼度に置換して出力する。
図7に、補正対象単語Wとその単語信頼度と対象文脈との組と、補正対象単語事例Wとその単語信頼度と文脈事例との組み群と、を例示する。図7は、補正対象単語Wを例えば「高気圧」とした場合の例である。
1行目は補正対象単語Wとその単語信頼度と対象文脈との組であり、2行目以降は補正対象単語事例Wとその単語信頼度と文脈事例との組み群である。補正対象単語Wと補正対象単語事例Wの横の数値は、それぞれの単語信頼度である。
図7を参照して補正単語信頼度計算手段143の動作を説明する。補正単語信頼度計算手段143は、対象文脈Tと文脈事例Tとのコサイン類似度S(T,T)を次式で計算する。kは文脈事例の数に対応する変数である。
Figure 2014035361
ここでMは、対象文脈Tと文脈事例Tに共通して現れる単語の個数であり、Wは文脈事例Tの単語数であり、Wは対象文脈Tの単語数である。
図7に示すS(T,T)=0.1は、対象文脈○と1個目の文脈事例△とのコサイン類似度を表す。S(T,T)=0.8は、対象文脈○と2個目の文脈事例□とのコサイン類似度、S(T,T)=0.9は、対象文脈○とK個目の文脈事例◇とのコサイン類似度を表す。このようにして補正単語信頼度計算手段143は、対象文脈と複数の文脈事例との間のコサイン類似度を計算する。
そして、コサイン類似度の値が、類似度閾値θ以上となる補正対象単語事例Wの単語信頼度と補正対象単語Wの単語信頼度の平均値を求め、補正対象単語事例Wの単語信頼度を、その平均値である補正単語信頼度に置換して出力する。類似度閾値θを例えばθ=0.5とすると、2番目とK番目の単語信頼度0.8と0.9及び補正対象単語Wの単語信頼度0.5の平均値が補正単語信頼度となり、補正対象単語事例W「高気圧」の単語信頼度は0.73の補正単語信頼度に置換されて単語信頼度補正部140に出力される。
ここでは、3個の単語信頼度の平均値を補正単語信頼度とする説明を行った。しかし、実際には、図7に「…」で補正対象単語事例Wとその単語信頼度と文脈事例との組み群を省略して表記しているように、平均値を計算する対象は数十〜百程度の単語信頼度の値を用いて補正単語信頼度の値を求める。
類似度閾値θは、類似度がどの程度あれば似た文脈と見做すかを指定するパラメータ(0以上1以下の実数)であり、θ=1に設定すると完全に単語列が一致する文脈のみを似ていると見做し、θ=0に設定すると全く一致しない(共通単語が1個もない)文脈も似ていると見做す。類似度閾値θを大きく設定すれば単語信頼度の補正に利用される文脈事例の数が少なくなり、逆に小さく設定すれば補正に利用される文脈事例の数が多くなる関係になる。通常、類似度閾値θは、θ=0.5程度に設定する。
また、類似度閾値θを用いないで補正単語信頼度を求める方法も考えられる。各文脈事例との類似度S(T,T)を重みとし、Cを補正対象単語Wの単語信頼度、Cを補正対象単語事例Wの単語信頼度として次式で、補正単語信頼度Cを求めても良い。
Figure 2014035361
式(2)では、類似度S(T,T)を重みとして補正対象単語事例Wの単語信頼度Cの加重平均を取る際に、補正対象単語Wの単語信頼度Cを重み1として追加している。この方法によれば、パラメータの類似度閾値θは不要である。
〔音声認識結果出力手段〕
音声認識結果出力手段144は、対象文脈抽出手段141が出力する補正対象外単語Wとその単語信頼度との組みと上記補正対象単語Wとその単語信頼度との組みと、補正単語信頼度計算手段143が出力する補正対象単語事例Wと補正単語信頼度と、を入力として、上記補正対象単語Wの単語信頼度を上記補正単語信頼度に置換し、上記音声認識結果の単語列の順番に、上記補正対象外単語とその単語信頼度との組みと上記補正対象単語と補正単語信頼度との組みを出力する。
図8に、音声認識結果出力手段144の動作フローを示す。音声認識結果出力手段144は、音声認識結果の単語列を構成する各単語を特定する変数iで一致する(i=j)補正対象単語Wの単語信頼度を、補正対象単語事例W(j=i)の補正単語信頼度に置き換える(ステップS1440)。そして、変数iの順番で、補正対象単語Wiとその補正単語信頼度との組みと、補正対象外単語Wとその単語信頼度との組みと、を出力する(ステップS1441)。
以上の処理により単語信頼度補正部140(音声認識結果出力手段144)が出力する音声認識結果には、音声認識部110が出力した単語信頼度よりも正確な補正単語信頼度が付与されることになる。正確な単語信頼度が付与されることで、音声認識結果に対するテキストマイニングなどの情報抽出の正確性が向上し、音声認識結果を用いるシステムの利便性を高めることができる。
〔評価実験の結果〕
この発明の単語信頼度の補正方法の効果を確認する目的で、評価実験を行った。評価セットとしては、コールセンタでの電話会話音声の295通話を用いた。音声認識にはVoiceRex(上記した参考文献1)を用いた。評価セットの認識結果のうち、本発明による信頼度補正の対象となる内容語は94165単語あり、そのうち正解が79419単語、誤りが14746単語であった。
評価実験では、認識結果の各単語に付与された信頼度が閾値以下であれば誤り単語として検出した。そして各手法の単語信頼度で閾値を動かして誤り単語検出を行い、適合率−再現率曲線で検出性能を評価した。再現率とは、誤り単語のうち正しく誤りとして検出できた割合である。適合率とは、誤りとして検出した単語のうち本当に誤りだった単語の割合である。
図9に、誤り単語検出性能の評価実験の結果を示す。図9の横軸は再現率[%]、縦軸は適合率[%]である。図中の破線が、評価セットと同じドメインの学習セットを用いた状況を評価セットでの4分割交差検定で模擬し、従来法(上記した非特許文献1)を行った結果である。一点鎖線が、評価セットと異なるドメインの学習セットを用いた従来法による誤り単語検出性能である。細い実線が音声認識した結果の単語信頼度による誤り単語検出性能、太い実線が本発明によって補正した単語信頼度によるそれぞれの誤り単語検出性能を示す。補正対象単語の前後の文脈事例として検出する単語数は5個(P=Q=5)とした。
評価セットと同じドメインの学習データを用いた従来法(破線)は高い性能を示したが、同じドメインの学習データが入手できない場合(一点鎖線)は大きく性能を落とす結果となる。本発明の方法(太い実線)では、全ての再現率において従来法の誤り単語検出性能を上回る適合率が得られた。
このように本発明の類似事例を活用した方法によれば、ラベル付き音声認識結果を用いることなく、また、人手を用いることもなく、つまり学習することなく良好な誤り単語検出性能を示す補正単語信頼度を音声認識結果に付与することができる。なお、破線で音声認識結果DB登録部120を示すように、音声認識部110の出力する単語信頼度付き音声認識結果を、単語信頼度付き音声認識結果DB130に逐次記憶するようにしても良い。そのように構成することで、音声データが入力される度に単語信頼度の補正に用いる単語信頼度付き音声認識結果DBが拡充されるため、新たに出現する単語の信頼度も、誤り単語検出性能の高い値に補正することが可能である。
また、上記した実施例では類似度をコサイン類似度とする例で説明を行ったが、類似度は、単語集合間の類似度が得られれば、他の類似度を用いても良い。例えば、ジャッカード係数等を用いることもできる。また、この発明の方法及び装置は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識部と、
    上記単語信頼度付き音声認識結果を記憶する単語信頼度付き音声認識結果データベースと、
    上記単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、上記単語信頼度付き音声認識結果データベースを参照して該単語信頼度付き音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する単語信頼度補正部と、
    を具備する音声認識装置。
  2. 請求項1に記載した音声認識装置において、
    上記単語信頼度補正部は、
    単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、上記補正対象単語とその単語信頼度と上記対象文脈との組みと、補正対象外とする補正対象外単語とその単語信頼度との組みと、を出力する対象文脈抽出手段と、
    上記補正対象単語を入力として、単語信頼度付き音声認識結果データベースを参照し、当該音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、その補正対象単語事例の前後複数単語の範囲を文脈事例として抽出し、補正対象単語事例とその単語信頼度と文脈事例との組を複数個出力する文脈事例抽出手段と、
    上記補正対象単語とその単語信頼度と対象文脈との組と、上記補正対象単語事例とその単語信頼度と文脈事例との組み群と、を入力として対象文脈と文脈事例との類似度を求め、上記補正対象単語事例の単語信頼度を、上記類似度を用いて求めた補正単語信頼度に置換して出力する補正単語信頼度計算手段と、
    上記補正対象外単語とその単語信頼度との組みと、上記補正対象単語とその単語信頼度との組みと、上記補正対象単語事例と補正単語信頼度と、を入力として、上記補正対象単語の単語信頼度を上記補正単語信頼度に置換し、上記音声認識結果の単語列の順番に、上記補正対象外単語とその単語信頼度との組みと上記補正対象単語と補正単語信頼度との組みを出力する音声認識結果出力手段と、
    を備えることを特徴とする音声認識装置。
  3. 請求項2に記載した音声認識装置において、
    上記補正単語信頼度計算手段は、
    複数の上記文脈事例Tと上記対象文脈Tとの類似度S(T,T)を次式で計算し、
    Figure 2014035361

    ここで、Mは文脈事例Tと対象文脈Tとに共通して現れる単語の数、Wは文脈事例Tの単語数、Wは対象文脈Tの単語数であり、
    上記補正単語信頼度は、上記類似度S(T,T)が類似度閾値θ以上となる上記補正対象単語事例の単語信頼度及び上記補正対象単語の単語信頼度の平均値であることを特徴とする音声認識装置。
  4. 請求項2に記載した音声認識装置において、
    上記補正単語信頼度計算手段は、
    複数の上記文脈事例Tと上記対象文脈Tとの類似度S(T,T)を次式で計算し、
    Figure 2014035361

    ここで、Mは文脈事例Tと対象文脈Tとに共通して現れる単語の数、Wは文脈事例Tの単語数、Wは対象文脈Tの単語数であり、
    上記補正単語信頼度Cは、上記類似度S(T,T)を重みとし、Cを補正対象単語の単語信頼度、Cを上記補正対象単語事例の単語信頼度として次式で計算した値である
    Figure 2014035361

    ことを特徴とする音声認識装置。
  5. 音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識過程と、
    上記単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベースを参照して該単語信頼度付き音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する単語信頼度補正過程と、
    を含む音声認識方法。
  6. 請求項1乃至4の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。
JP2012174949A 2012-08-07 2012-08-07 音声認識装置とその方法とプログラム Expired - Fee Related JP5749230B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012174949A JP5749230B2 (ja) 2012-08-07 2012-08-07 音声認識装置とその方法とプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012174949A JP5749230B2 (ja) 2012-08-07 2012-08-07 音声認識装置とその方法とプログラム

Publications (2)

Publication Number Publication Date
JP2014035361A true JP2014035361A (ja) 2014-02-24
JP5749230B2 JP5749230B2 (ja) 2015-07-15

Family

ID=50284393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012174949A Expired - Fee Related JP5749230B2 (ja) 2012-08-07 2012-08-07 音声認識装置とその方法とプログラム

Country Status (1)

Country Link
JP (1) JP5749230B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305768A (zh) * 2016-04-20 2017-10-31 上海交通大学 语音交互中的易错字校准方法
WO2019163242A1 (ja) * 2018-02-20 2019-08-29 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351492A (ja) * 2001-05-25 2002-12-06 Mitsubishi Electric Corp 対話管理装置
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2007004052A (ja) * 2005-06-27 2007-01-11 Nissan Motor Co Ltd 音声対話装置及び音声理解結果生成方法
JP2012078650A (ja) * 2010-10-04 2012-04-19 Nec Corp 音声入力支援装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351492A (ja) * 2001-05-25 2002-12-06 Mitsubishi Electric Corp 対話管理装置
JP2005148342A (ja) * 2003-11-14 2005-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP2007004052A (ja) * 2005-06-27 2007-01-11 Nissan Motor Co Ltd 音声対話装置及び音声理解結果生成方法
JP2012078650A (ja) * 2010-10-04 2012-04-19 Nec Corp 音声入力支援装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200900050002; 松本智彦他: '"複数の言語情報を用いたCRFによる音声認識誤りの検出"' 電子情報通信学会技術研究報告 Vol.108,No.422, 200901, pp.7-12 *
CSNG201200438001; 浅見太一他: '"単語の文脈一貫性を用いた音声ドキュメント認識信頼度の推定"' 日本音響学会誌 68巻,7号, 201207, pp.323-330 *
JPN6015007204; 浅見太一他: '"単語の文脈一貫性を用いた音声ドキュメント認識信頼度の推定"' 日本音響学会誌 68巻,7号, 201207, pp.323-330 *
JPN6015007205; 松本智彦他: '"複数の言語情報を用いたCRFによる音声認識誤りの検出"' 電子情報通信学会技術研究報告 Vol.108,No.422, 200901, pp.7-12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107305768A (zh) * 2016-04-20 2017-10-31 上海交通大学 语音交互中的易错字校准方法
CN107305768B (zh) * 2016-04-20 2020-06-12 上海交通大学 语音交互中的易错字校准方法
WO2019163242A1 (ja) * 2018-02-20 2019-08-29 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11694675B2 (en) 2018-02-20 2023-07-04 Sony Corporation Information processing apparatus, information processing system, and information processing method

Also Published As

Publication number Publication date
JP5749230B2 (ja) 2015-07-15

Similar Documents

Publication Publication Date Title
JP6800946B2 (ja) 音声区間の認識方法、装置及び機器
Barnard et al. The NCHLT speech corpus of the South African languages
CN106057206B (zh) 声纹模型训练方法、声纹识别方法及装置
US20080183468A1 (en) Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments
CN107229627B (zh) 一种文本处理方法、装置及计算设备
CN103544955A (zh) 识别语音的方法及其电子装置
JP2016075740A (ja) 音声処理装置、音声処理方法、およびプログラム
JP6578049B2 (ja) 学習データ生成装置及びそのプログラム
WO2012165529A1 (ja) 言語モデル構築支援装置、方法及びプログラム
CN112951211B (zh) 一种语音唤醒方法及装置
CN112861521B (zh) 语音识别结果纠错方法、电子设备及存储介质
CN111274785A (zh) 一种文本纠错方法、装置、设备及介质
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
CN109891500B (zh) 基于位置的话音查询识别
JP5749230B2 (ja) 音声認識装置とその方法とプログラム
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
CN114530145A (zh) 语音识别结果纠错方法及装置、计算机可读存储介质
CN109377984B (zh) 一种基于ArcFace的语音识别方法及装置
KR102170844B1 (ko) 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템
JP5921601B2 (ja) 音声認識辞書更新装置、音声認識辞書更新方法、プログラム
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP5513461B2 (ja) 音声認識装置とその方法とプログラム
US20230117535A1 (en) Method and system for device feature analysis to improve user experience
JP2016080832A (ja) 学習データ生成装置及びそのプログラム
Ma et al. Finding speaker identities with a conditional maximum entropy model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140710

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150407

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150513

R150 Certificate of patent or registration of utility model

Ref document number: 5749230

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees