JP6066354B2 - 信頼度計算の方法及び装置 - Google Patents

信頼度計算の方法及び装置 Download PDF

Info

Publication number
JP6066354B2
JP6066354B2 JP2014518551A JP2014518551A JP6066354B2 JP 6066354 B2 JP6066354 B2 JP 6066354B2 JP 2014518551 A JP2014518551 A JP 2014518551A JP 2014518551 A JP2014518551 A JP 2014518551A JP 6066354 B2 JP6066354 B2 JP 6066354B2
Authority
JP
Japan
Prior art keywords
word string
target word
target
string
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014518551A
Other languages
English (en)
Other versions
JP2014521115A (ja
Inventor
真 寺尾
真 寺尾
マリ オステンドルフ、
マリ オステンドルフ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2014521115A publication Critical patent/JP2014521115A/ja
Application granted granted Critical
Publication of JP6066354B2 publication Critical patent/JP6066354B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Description

本出願は、2011年7月1日に提出された米国仮出願第61/503,956号の利益を主張し、それは参照によりここに組み込まれている。
本発明は、対象単語または対象単語列の正解らしさの度合いを表す信頼度(confidence measure)の計算に関し、特に、認識結果中での信頼度計算の対象となる単語列と周辺文脈との整合度に基づく信頼度計算の方法及び装置に関する。
近年、自動音声認識(ASR;automatic speech recognition)システムが、例えば、音声によってコンピュータシステムにテキストデータ及びコマンドを直接入力するために、広く使用されている。しかしながら、最先端の音声認識システムであっても、認識誤りを含まない音声認識結果を生成することはできない。したがって、認識結果の信頼度を計算することで、認識誤りを自動的に検出することが重要となる。信頼度は、認識結果の正解らしさを表す尺度であって、信頼度が大きいほど認識結果が正解である確率が高く、信頼度が小さいほど認識結果が間違いである確率が高くなるように、計算される。例えば、音声認識結果を用いる応用アプリケーションの一つである音声コンテンツ検索(spoken document retrieval)において、信頼度が一定値以下の認識結果を検索用インデックスから削除したり、あるいは、検索に用いられる単語の信頼度に応じてそれらの単語の評価点(count)に重み付けを行ったりすることで、検索の精度が向上する。
音声認識結果中の単語の信頼度を計算する技術の一例が、非特許文献1に記載されている。非特許文献1は参照によりここに組み込まれている。非特許文献1によって提案された方法は、正しく認識された単語は周辺の各単語に対して大きな意味的な関連度を持ち、誤って認識された単語は周辺の各単語に対して小さな意味的な関連度しか持たないという考えに基づいている。
非特許文献1で提案された方法について、図1を参照して説明する。図1は、非特許文献1の方法を実施する関連技術における信頼度計算装置の構成を示している。ユーザの音声が音声入力部301に与えられ、与えられた音声は、次に、ASRシステムのような音声認識システム302に送られる。認識結果すなわち認識されたテキストは、信頼度計算対象指定部303及び周辺単語抽出部304に与えられる。訓練用のテキストデータは、訓練テキストデータ記憶部311に格納されている。
非特許文献1に示される装置では、後述するやり方により、訓練テキストデータ格納部311に格納された訓練テキストデータを用いて、あらゆる任意の2単語間の意味的な関連度(semantic relatedness)をあらかじめ計算されている。意味的な関連度の計算は、意味的関連度計算部306で実行され、この計算の結果は、意味的関連度記憶部312に格納される。音声認識システム302から音声認識結果が与えられると、その認識結果の中から信頼度計算対象指定部303が信頼度計算の対象となる対象単語(a target word)を指定し、周辺単語抽出部304が、次に、認識結果から対象単語の周辺の単語を抽出する。最後に、信頼度計算部305が、意味的関連度記憶部312に格納された値を参照して、対象単語と抽出された周辺単語の各々との間の意味的な関連度を計算し、結果として得られた意味的な関連度の値の平均を求める。この平均が、対象単語の信頼度として用いられて、計算結果記憶部313に格納される。
非特許文献1の方法は、潜在的意味解析(LSA;Latent semantic analysis)を用い、訓練テキストデータを用いることによって、いずれの任意の2単語間の意味的な関連度を計算する。LSAは、訓練データにおけるあらゆる任意の2単語間の共起度を求める方法である。2単語間の共起度が大きいということは、その2単語が訓練データにおいて同時に用いられやすい、ということを意味する。しばしば同時に用いられる2単語は、相互に意味的に大きく関連していると考えられるため、LSAを用いて計算される2単語間の共起度は、それら2単語間の意味的な関連度と考えられる。
LSAに基づく意味的な関連度の具体的な計算方法は次の通りである。まず、訓練データを複数の文書(documents)に分割する。訓練データが例えば新聞から得られたものであれば、1つのニュース記事(a newspaper article)を1つの文書として用いればよい。文書内の各単語の重みを要素に持つ単語−文書行列(a term-document matrix)を構築する。単語の重みとしては、TF(単語頻度;term frequency)やTF−IDF(単語頻度−逆文書頻度;term frequency-inverse document frequency)がよく用いられる。単語−文書行列の各行ベクトルは、対応する単語が各文書においてどれだけ頻繁に出現するかを示す分布を表す。その後、より低次元の行ベクトルとして各単語が表現されるように、単語−文書行列に対して特異値分解(SVD;singular value decomposition)を実行する。SVDでは行ベクトル間の類似構造が保存されるので、結果として得られた行ベクトル間のコサイン(余弦)類似度を計算することで、対応する2単語間の意味的な関連度が得られる。
先に述べたように、対象単語と各周辺単語との間の意味的な関連度が小さければ、対象単語がおそらく誤りであると考えられる。非特許文献1で提案された信頼度を計算する方法では、対象単語と各周辺単語との間の意味的な関連度が小さいときに対象単語の信頼度も小さくなり、これによって、計算された信頼度に基づいて認識誤りを検出することが可能となる。
しかしながら、上記の技術は、信頼度計算の対象単語が認識誤りであるときであっても、場合によっては大きな信頼度が得られることがある、という課題を有する。その場合、対象単語の信頼度は、所定のしきい値よりも大いに大きくなりがちであって、対象単語は正しいものであると誤って判断されるであろう。
上記の課題が生ずる理由は、たとえ対象単語が認識誤りであっても、場合によっては対象単語と周辺単語との意味的な関連度が大きくなり得るからである。図2はそのような例を示している。図2は、具体的には、英語ニュース音声の音声認識結果を示している。ここで、音声認識結果320から信頼度計算の対象単語として「guerrillas(ゲリラ(複数))」が選択され、「guerrillas」は認識誤りであって「gorillas(ゴリラ(複数))」が正しいものであるとする。したがって、「guerrillas」と各周辺単語との間の意味的な関連度が小さいことが期待される。英語の訓練テキストデータを用いるLSAを使用して、認識結果における「guerrillas」と各周辺単語との間の意味的な関連度を実際に計算したところ、「guerrillas」は、例えば「parks(公園(複数))」、「protected(保護された)」、「boundaries(境界(複数))」、「tourism(観光)」(すなわち図2において太斜体で示す単語)に対して大きな意味的な関連度を有していた。「guerrillas」が「tourism」に対して大きな意味的な関連度を有する理由は、訓練データ中に、元ゲリラが観光事業を通じて彼らのコミュニティーを立て直そうとしていることに関する記事が実際に存在するからである。その結果、「guerrillas」は認識誤りであったにもかかわらず、非特許文献1の方法を用いて計算された信頼度が、最初の意図に反して大きくなった。一般に、あらゆる一つの単語もしばしば別の多くの単語と関連しているため、非特許文献1で提案された方法は、対象単語が認識誤りであるときに、対象単語と周辺単語との関連度をいつも小さくするわけではない。
S. Cox and S. Dasmahapatra, "High-level approaches to confidence estimation in speech recognition," IEEE Trans. Speech and Audio Processing, vol. 10, no. 7, pp. 460-471, 2002. L. Mangu, E. Brill and A. Stolcke, "Finding consensus in speech recognition: word error minimization and other applications of confusion networks," Computer Speech and Language, vol. 14, no. 4, pp. 373-400, 2000. F. Wessel, R. Schluter, K. Macherey, and H. Ney, "Confidence measures for large vocabulary continuous speech recognition," IEEE Trans. Speech and Audio Processing, vol. 9, no. 3, pp. 288-298, 2001.
本発明の目的は、信頼度計算の対象となる単語または単語列と周辺単語との意味的な関連度が大きい場合であっても、対象単語または対象単語列が認識誤りである場合には、小さな信頼度を出力することができる信頼度計算方法を提供することにある。
本発明の別の目的は、信頼度計算の対象となる単語または単語列と周辺単語との意味的な関連度が大きい場合であっても、対象単語または対象単語列が認識誤りである場合には、小さな信頼度を出力する信頼度計算装置を提供することにある。
より一般的には、本発明の目的は、信頼度計算の対象となる単語または単語列と周辺文脈との整合度が大きい場合であっても、対象単語または対象単語列が認識誤りである場合には、小さな信頼度を出力することができる信頼度計算技術を提供することにある。なお、本明細書及び請求の範囲において、用語「単語列(word string)」とは1つ以上の単語からなる単語連鎖(word concatenation)のことであり、1単語のみの場合も単語列と呼ばれる。
本発明の例示的な一態様によれば、認識結果中の指定された対象単語列の信頼度を計算する方法は、認識結果と対象単語列とを受け取ることと、対象単語列の位置における他の候補単語列を生成することと、対象単語列と他の候補単語列とを区別するように構成された分類器を訓練することと、対象単語列の位置における周辺文脈を表す特徴量を抽出することと、分類器と特徴量とを用いて、対象単語列の位置における真の単語列が対象単語列であるかあるいは他の候補単語列であるかを判別することと、判別結果に基づいて対象単語列の信頼度を計算することと、を含む。
本発明の別の例示的な態様によれば、認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置は、対象単語列の位置における他の候補単語列を生成する生成部と、対象単語列と他の候補単語列とを区別するように構成された分類器を訓練する訓練部と、対象単語列の位置における周辺文脈を表す特徴量を抽出する抽出部と、分類器と特徴量とを用いて対象単語列の位置における真の単語列が対象単語列であるかあるいは他の候補単語列であるかを判別し、判別結果に基づいて対象単語列の信頼度を計算する計算部と、を含む。
本発明のさらに別の例示的な態様によれば、認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置は、対象単語列の位置における他の候補単語列を生成する手段と、対象単語列と他の候補単語列とを区別するように構成された分類器を訓練する手段と、対象単語列の位置における周辺文脈を表す特徴量を抽出する手段と、分類器と特徴量とを用いて対象単語列の位置における真の単語列が対象単語列であるかあるいは他の候補単語列であるかを判別し、判別結果に基づいて対象単語列の信頼度を計算する手段と、を含む。
本発明のこれらの及び他の形態及び利点は、本発明の原理を例として示し添付の図面と併用される、以下の詳細な説明から明らかになるであろう。
関連技術における認識結果中の対象単語の信頼度を計算する信頼度計算装置の構成の一例を示すブロック図である。 音声認識結果の一例を示す図である。 本発明の例示実施形態に基づく信頼度計算装置の構成を示すブロック図である。 図3に示す装置の動作を示すフローチャートである。 実施例の装置の構成を示すブロック図である。 実施例での音声認識システムから得られる認識結果の具体例を示す図である。 実施例での、コンフュージョンネットワーク形式で表現された、音声認識システムから得られる認識結果の具体例を示す図である。 実施例での発音辞書の具体例を示す図である。 実施例での単語間混同行列の具体例を示す図である。 実施例での分類器訓練部によって訓練データから収集された事例の一例を示す図である。 本発明の別の例示実施形態が実行される装置の構成を示すブロック図である。
図3は、例示実施形態に基づく信頼度計算装置の基本的構成を示している。図3に示す信頼度計算装置は、認識結果の中で指定された対象単語列の信頼度を計算するように構成されている。認識結果は、例えば、音声認識システムから得られたものであってよい。信頼度計算装置は、他候補生成部104と分類器訓練部105と特徴抽出部106と信頼度計算部107とを含んでいる。
この装置において他候補生成部104は、信頼度計算の対象となる対象単語列を受け取り、対象単語列の位置において想定できる認識結果であるところの他の候補単語列を生成する。他候補生成部104は認識結果も受け取ってもよい。ここで生成される他の候補単語列は、少なくとも1つの単語を含む単語連鎖であり、1つの単語のみでもよい。この処理では、最も正解らしい単語列が、他の候補単語列として生成される。他候補生成部104は、対象単語列から与えられる情報のみを用いて他の候補単語列を生成してもよいし、あるいは、音声認識システムから得られる様々な情報を用いて他の候補単語列を生成してもよい。
分類器訓練部105は、対象単語列と、他候補生成部104から出力される対応する他の候補単語列とを受け取る。次に分類器訓練部105は、外部記憶装置に格納された訓練データを使用して、対象単語列と他の候補単語列とを区別する分類器を訓練する。
特徴抽出部106は、認識結果に関する情報を受け取り、対象単語列の位置における周辺文脈を表す特徴量を抽出する。
信頼度計算部107は、分類器訓練部105から出力される分類器と特徴抽出部106が出力される特徴量とを用いて、対象単語列の位置における真の単語が対象単語列であるかあるいは他の候補単語列であるかという分類問題を解く。そして信頼度計算部107は、真の単語が対象単語列であることの可能性がより高いことを分類結果が示すときに、より大きな信頼度を出力する。
次に、図4を参照して、図3に示す装置の動作を説明する。
認識結果の中から信頼度計算に関する対象単語列が指定されると、まず、他候補生成部104が、ステップS11において、対象単語列の位置において認識結果として考えることができるものである他の候補単語列を生成する。次にステップS12において、分類器訓練部105が、対象単語列と他候補生成部104から出力された他の候補単語列とを区別する分類器を訓練する。次にステップS13において、特徴抽出部106が、認識結果に関する情報を用いて、対象単語列の位置における周辺文脈を表す特徴量を抽出する。最後にステップS14において、信頼度計算部107が、分類器訓練部105から出力された分類器と特徴抽出部106から出力された特徴量とを用いて分類問題を解き、真の単語が対象単語列であることの可能性がより高いことを分類結果が示すときに、より大きな信頼度を出力する。分類問題は、対象単語列の位置における真の単語列が対象単語列であるか、あるいは他の候補単語列であるかという問題である。
ステップS13での処理は、認識結果に関する情報と対象単語列とだけを使用するので、ステップS13をステップS14の実行前のどの時点で実行してもよい。
もし、認識されるべき複数の発話がある場合には、全ての発話に対してステップS11をまず実行し、対象の複数の位置を取得してもよい。その後、訓練ステップS12を全ての位置に対して実行してもよい。最後に、全ての位置に対してステップS13,S14を実行し、対象の信頼度をすべてまとめて計算してもよい。
以上のように本例示実施形態では、信頼度計算装置100は、分類問題を解き、真の単語が対象単語列であることの可能性がより高いことを分類結果が示すときに、計算結果としてより大きな信頼度を出力する(すなわち、対象単語列の位置において抽出された特徴の文脈において、その対象単語列が大いに真の単語でありそうなときに、大きな信頼度が得られる)。したがって、結果として得られる信頼度は、他の候補単語列と比べて対象単語列がその対象単語列の位置における周辺文脈とどれだけ整合しているかを表す指標となる。
他候補生成部104は、最も正解でありそうな単語列を他の候補単語列として出力するため、対象単語列が認識誤りである場合には、当該他の候補単語列が正解である可能性が高い。また、正解の単語列と周辺文脈との間の整合度が認識誤りと周辺文脈との間の整合度よりも高くなると期待できる。したがって、対象単語列と周辺文脈との整合度が大きいが対象単語列が認識誤りである場合であっても、他の候補単語列と周辺文脈との整合度がさらに大きくなると期待できる。その結果、真の単語列が対象単語列であることの可能性がより小さいことを分類結果が示すので、信頼度計算部107は、より小さな信頼度を出力し、これによって、認識誤りの検出が容易になる。
さらに本実施形態においては、対象単語列と他の候補単語列とを区別することに特化した分類器を分類器訓練部105が訓練するため、信頼度計算部107は、高い精度で分類を行うことが可能である。それにより、結果として得られる信頼度の精度も向上する。
[実施例]
次に、実施例を参照して、本実施形態に基づく信頼度計算装置をより具体的に説明する。図5は、実施例に基づく装置を示している。
図3に示す場合と同様に、本実施例での信頼度計算装置100は、概して、他候補生成部104と分類器訓練部105と特徴抽出部106と信頼度計算部107とを含んでいる。実施例では信頼度計算装置100は、さらに、音声入力部101と音声認識システム102と信頼度計算対象指定部103と訓練データ記憶部111と計算結果記憶部112とを含んでいる。
音声入力部101は、処理対象となる音声データを受け取り、その音声データを音声認識システム102に出力する。音声データの例としては、会議音声データ、放送音声データ、講義音声データ、電話音声データ、インターネットで配信されている音声データ、さらには、カーナビゲーションシステムやロボット、その他のシステムが用いられるときに生成される対話音声データが含まれる。上述した音声データのいずれのものも、事前に録音されたものであっても、あるいは、マイクロホンやビデオカメラ、その他の装置からリアルタイムに入力されるものであってもよい。
音声認識システム102は、音声入力部101から音声データを受け取り、公知の音声認識技術を用いてその音声データを単語列に変換する。例えば、音響モデルと言語モデルとを用いて、フレーム同期ビームサーチを行うことで、音声データを単語列に変換することができる。音響モデルの1つの例は、メル周波数ケプストラム係数(MFCC;mel-frequency cepstral coefficient)を特徴量として用いる隠れマルコフモデル(Hidden Markov Model)であり、言語モデルの1つの例は、単語トライグラム(word trigram)である。図6は、英語ニュース音声を音声認識して得られた認識結果の一例を示している。一般に、音声認識結果は認識誤りを含んでいる。図6に示す音声認識結果120では、例えば、この例における3行目において、「gorillas」と発話された単語が「guerrillas」と誤って認識されている。なお、認識結果は仮説(hypothesis)とも呼ばれる。
音声認識システム102は、典型的には認識結果として複数の仮説を出力できる。認識結果として複数の仮説を出力するための公知の技術の例には、N−bestリスト(N-best list)、単語ラティス(word lattice)、コンフュージョンネットワーク(confusion network)が含まれる。N−bestリストは、スコアが大きい順に複数の仮説文(sentence hypotheses)を第N位まで出力できるようにしたものである。単語ラティスは、グラフ構造を用いて複数の単語を表現できるようにしたものである。コンフュージョンネットワークは、N−bestリストまたは単語ラティスのコンパクトな表現である。
図7は、図6に示す認識結果120の中の下線部(すなわち「the guerrillas are coming(ゲリラ(複数)がやって来る)」)の位置に対応するコンフュージョンネットワークの一例を示している。コンフュージョンネットワーク130は、一連のコンフュージョンセット(confusion set)を並べたものからなり、コンフュージョンセットの各々は複数の単語仮説(word hypotheses)、すなわち第1位(最上位)の単語仮説と他の単語仮説とを含んでいる。図7を参照すると、例えば、左から2番目のコンフュージョンセットにおける第1位の単語仮説は「guerrillas」であり、このコンフュージョンセット内の他の単語仮説が「gorillas」と「growers」であることが分かる。なお、コンフュージョンネットワークの作成方法は、例えば、非特許文献2に記載されており、非特許文献2は参照によりここに組み込まれている。
信頼度計算対象指定部103は、音声認識システム102から出力される認識結果の中から、信頼度計算の対象となるべき対象単語または対象単語列を指定する。どのような単語を指定するかは、結果として得られる信頼度の目的が何であるかに応じて適宜決めればよい。認識結果に含まれるすべての単語を順に指定してもよいし、あるいは、認識結果に含まれる名詞のみを指定してもよい。さらに、指定すべき単語は、第1位の単語仮説に限られるものではない。例えば、図7に示すコンフュージョンネットワーク130の中から、第2位の単語仮説である「gorillas」を信頼度計算の対象単語として指定してもよい。あるいは信頼度計算の対象として、2以上の単語を含む単語連鎖を指定してもよい。例えば、図7に示す「guerrillas are」という2単語連鎖を対象単語列として指定してもよい。本明細書及び請求の範囲において、対象単語列は1以上の単語を含む単語連鎖を表し、単語が1つのみのものも対象単語列と呼ばれる。以下の説明では、図7に示すコンフュージョンネットワーク130の中から、信頼度計算の対象単語列として「guerrillas」が指定されたものとする。
信頼度計算対象指定部103が信頼度計算の対象単語列を指定すると、本実施例の信頼度計算装置100は、音声認識システム102から出力された認識結果と指定された対象単語列とに基づいて、対象単語列の正解らしさの度合いを表す信頼度を出力する。
まず他候補生成部104が、信頼度計算対象指定部103によって指定された対象単語列を読み込み、対象単語列の位置において認識結果として考え得る他の候補単語列を生成する。この処理は、図4のステップS11に対応する。この処理において他候補生成部104は、他の候補単語列として、最も正解でありそうな単語列を出力する。
認識システムが対象単語列の位置において出力した単語仮説であって対象単語列以外の単語仮説を、最も正解でありそうな単語として用いることができる。例えば、図7において対象単語列が「guerrillas」である場合、「guerrillas」の位置における他の単語仮説である「gorillas」及び「growers」を他の候補単語とすることができる。これら他の単語仮説は、正解らしいと認識システムが判定した単語であるため、第1位の単語仮説が誤りであった場合にこれら他の単語仮説のいずれかが正解である可能性は高い。他候補生成部104は、他の候補単語として、コンフュージョンネットワーク中の他の単語仮説の中で最もスコアの高い単語を1つ出力してもよい。他候補生成部104は、他の候補単語として、他の単語仮説の中から複数の単語を出力してもよい。他の候補は、2単語以上の単語連鎖であってもよい。特に、他の候補は、対象単語列と時間的に重なる単語連鎖であってもよい。例えば、対象単語が「guerillas are」の場合、他の候補単語列として、「guerrillas or」、「guerrillas were」、「gorillas are」、「growers or」等々を生成してもよい。
最も正解でありそうな他の候補単語列を出力するために他候補生成部104によって用いられる別の方法として、発音辞書を参照して、対象単語の発音と類似した発音の単語を他の候補単語として生成することもできる。認識システムは、単語が同じように発音される場合にそれらの単語同士を混同しやすいため、対象単語の発音と類似した発音の単語が正解である可能性が高いと考えられる。
発音辞書とは、単語とそれら単語の発音記号列とを列挙したデータテーブルである。図8は、発音辞書の例を示している。発音記号列は、音素列や音節列などで表されることが多い。いかなる任意の2つ単語間の発音の類似性も、対応する2つの発音記号列間の距離を求める公知のDPマッチング技術を用いて計算できる。例えば、図8に示す発音辞書140を参照すると、「guerrillas」の発音記号列と最も類似している発音記号列を有する単語は、発音記号が1つ異なる「gorillas」であることが分かる。したがって、「gorillas」を他の候補単語として出力すればよい。この方法では、他候補生成部104は、コンフュージョンネットワークのような認識結果を必要としない。さらに、類似した発音を有するような対象単語と他の候補単語との対からなるリストをあらかじめ作成しておくことにより、他候補生成部104は、このリストを参照するだけで他の単語を生成することができる。
最も正解でありそうな他の候補単語列を出力するために他候補生成部104によって用いられるさらに別の方法として、単語間混同行列(inter-word confusion matrix)を参照して、認識システムが対象単語と混同しやすい単語を他の候補単語として生成することもできる。認識システムが対象単語と混同しやすい単語は、正解である可能性が高い単語と考えられる。
単語間混同行列は、各行に対応する各単語が認識システムによって認識されたとして、各列に対応する各単語が実際に発話されたものであることの確率を示すものである。図9は、単語間混同行列の例を示している。図9に示す単語間混同行列150において、「guerrillas」が認識結果である場合、実際に発話された単語が「apple」である確率は0.0、実際に発話された単語が「gorillas」である確率は0.2、実際に発話された単語が「guerrillas」である確率は0.4、等々である。「guerrillas」が対象単語である場合、他候補生成部104は、単語間混同行列を参照し、実際に発話された単語である可能性が高い「gorillas」を他の候補単語として出力する。単語間混同行列は、認識システムによって音声データを認識させ、得られた結果を音声データの正しい書き起こし単語列(トランスクリプト)に対応するように配列することによって、あらかじめ自動的に作成することが可能である。
次に、分類器訓練部105が、対象単語列と他候補生成部104から出力される他の候補単語列とを受け取り、訓練データ記憶部111に記憶された訓練データを用いて、対象単語列と他の候補単語列とを区別する分類器を訓練する。この処理は、図4のステップS12に対応する。
分類器訓練部105は、まず、訓練データ記憶部111に記憶された訓練データから、対象単語列の事例(instance)と他の候補単語列の事例とを収集する。図10は、他の候補単語「gorillas」の事例の例を示している。この事例は、訓練テキストデータ160において「gorillas」が出現する位置を検索することによって得られる。訓練データ記憶部111は、例えば、新聞から得られる記事や他のテキストデータを格納すればよい。「guerillas」が対象単語列であり「gorillas」が他の候補単語列である場合、訓練テキストデータ内で「guerillas」が出現する位置を対象単語列の事例とし、訓練テキストデータ内で「gorillas」が出現する位置を他の候補単語列の事例とすればよい。
次に、収集した対象単語列の事例から、対象単語列に対する特徴量が抽出される。同様に、収集した他の候補単語列の事例から、他の候補単語列に対する特徴量が抽出される。これらの特徴量は、訓練データにおいて対象単語列や候補単語列の近傍に存在する単語群に基づいて構成される。例えば、特徴量は、訓練データ中で対象単語列または候補単語列の位置から一定距離内に存在する単語の出現頻度を表す要素を有するベクトルであってよい。図10に示す事例では、例えば、「gorillas」からの15語の距離内に存在する各単語(すなわち下線が付された単語)の頻度を示す要素を有するベクトルを特徴量とすればよい。この例では、可能な特徴量は、『「nest」が1回出現』、『「food」が2回出現』などである。この処理において、一般的にストップワードとみなされる助動詞や冠詞、前置詞などをベクトルから除外してもよい。あるいは、単語の出現頻度の代わりに、対象単語または候補単語の近くに出現する単語について品詞などの単語の属性の出願頻度を特徴量としてもよい。さらにあるいは、対象単語または候補単語の近くに出現する「park rangers」のような2単語連鎖や「a family of」のような3単語連鎖の出現頻度を特徴量としてもよい。出現頻度の代わりに、関心のある単語が出現するか否かを示す2値(例えば、「0」と「1」)によって特徴量を表現してもよい。
またさらに別の考え得る特徴量として、例えば、『2単語前に「family」が存在するか否か』といったような、ある単語が出現する位置を考えてもよい。
最後に、分類器訓練部105は、対象単語列の収集された特徴量と他の候補単語列の収集された特徴量とを用いて、対象単語列と他の候補単語列とを区別する2クラスの分類器を訓練する。分類器の例には、公知の分類器であるロジスティック回帰(logistic regression)やニューラルネットワーク、サポートベクトルマシン(SVM;support vector machine)が含まれてよい。
2クラスのロジスティック回帰では、式(1)によって事後確率P(y|x;w)が定義される。式(1)において、xは事例を表す特徴ベクトルを表し、y∈{+1,−1}は出力クラスを表し、wはモデルパラメータを表している。出力クラスは、例えば、対象単語列の事例に対して+1、他の候補単語列の事例に対して−1とすればよい。
Figure 0006066354
パラメータwは、式(2)に定義される基準に基づいて決定される。
Figure 0006066354
式(2)において、nは、訓練データから収集された事例の総数を表し、wjは、特徴ベクトルのj番目の要素に対応するパラメータであり、mは特徴ベクトルの次元数を表し、Cは正規化係数を表している。式(2)の右辺の最後の項は、過学習(over-fitting)を避けるための正規化項である。
式(1)に示すように、ロジスティック回帰により得られるモデルは、分類結果を確率として出力することができる。すなわち、結果として得られたモデルを用いて新たな事例を分類すると、その事例が対象単語列であるという確率と、その事例が他の候補単語列であるという確率とを求めることができる。
2クラスの分類器は、ロジスティック回帰に基づいて構成されたものである必要はなく、代わりに、他の公知の技術に基づいて構成されたものでもよい。例えば、ニューラルネットワークあるいはサポートベクトルマシンを利用してもよい。
次に、特徴抽出部106が、音声認識システム102から出力される認識結果を受け取り、信頼度計算の対象単語列の位置における周辺文脈を表す特徴量を抽出する。この処理は図4に示すステップS13に対応する。特徴抽出部106は、分類器訓練部105が分類器を訓練するときに用いた特徴量と同じ種類の特徴量を抽出する。例えば、分類器訓練部105が分類器を訓練するために訓練データから抽出した特徴量が「単語列から一定距離内に出現する単語の頻度」であれば、特徴抽出部106が認識結果から抽出する特徴量は「信頼度計算の対象単語列から一定距離内に出現する単語の頻度」である。この場合、図6に示す認識結果120が入力され、かつ対象単語列が「guerrillas」であれば、特徴抽出部106が抽出する特徴量は、「guerrillas」の近くに存在する単語の出現頻度である。例えば、特徴は、『「tourism」が1回出現』、『「park」が3回出現』などである。
特徴抽出部106は、認識結果と信頼度計算の対象単語列が何であるかに関する情報とだけを受け取るため、他候補生成部104や分類器訓練部105を動作させるよりも前に特徴抽出部106を動作させることも可能である。重要なことは、特徴抽出部106が認識結果から抽出する特徴量の種類が、分類器訓練部105が分類器を訓練するために訓練データから抽出する特徴量の種類と同じであることである。
最後に、信頼度計算部107が、分類器訓練部105から受け取った分類器と特徴抽出部106から受け取った特徴量とを用いて、対象単語列の信頼度を計算し出力する。この処理は、図4に示すステップS14に対応する。結果として得られる信頼度を計算結果記憶部112に格納してもよい。
分類器訓練部105が訓練した分類器に対し、特徴抽出部106からの特徴量がまず入力され、この分類器は対象単語列と他の候補単語列とを区別する。言い換えれば、分類器は、実際に発話された単語列(すなわち真の単語列)が、認識結果の中から指定された対象単語列であるか、あるいは他候補生成部104によって生成された他の候補単語列であるかを判定する。
真の単語列は対象単語列であるということを分類結果が示す場合には、対象単語列の信頼度として、所定の値(例えば「1」)が出力され、その一方、真の単語列は他の候補単語列であるということを分類結果が示す場合には、信頼度として、より小さな他の所定の値(例えば「0」)が出力される。あるいは、例えば分類器としてロジスティック回帰を用いることによって真の単語列が対象単語列である確率を求めることができる場合には(すなわち、対象単語列が正解であることの確率を得ることができる場合には)、結果として得られる確率値を対象単語列の信頼度として出力すればよい。
以上述べた処理を実行することによって、本実施例の信頼度計算装置100は、音声認識システム102から認識結果を受け取り、信頼度計算対象指定部103から信頼度計算の対象単語列を受け取って、対象単語列の信頼度を出力する。
他候補生成部104が他の候補単語列を複数出力した場合、分類器訓練部105は、他の候補単語列の事例として、訓練テキストデータ内で他の候補単語列のどれかが出現する位置を使用すればよい。例えば、他候補生成部104が2つの他の候補単語列、「gorillas」と「growers」を出力した場合、分類器訓練部105は、訓練テキストデータ内で「gorillas」または「growers」が出現する位置のすべてを他の候補単語列の事例として収集すればよい。
他候補生成部104が他の候補単語列を複数出力した場合に用いられる別の処理方法として、分類器訓練部105は、複数の他の候補単語列がそれぞれ異なるクラスに属するものとして扱い、対象単語列と他の候補単語列のどれでもとを区別する多クラスの分類器を訓練してもよい。例えば、信頼度計算の候補単語列が「guerillas」であり、他候補生成部104が他の候補単語列として「gorillas」と「growers」とを出力した場合、分類器訓練部105は、「guerillas」と「gorillas」と「growers」とを区別する3クラスの分類器を訓練してもよい。
多クラスの分類器は、クラスの全ての対に関する複数の2クラス分類器を訓練することで実現できる。多クラスの分類は、それぞれの分類を実行する全ての2クラス分類器を使用し、多数決を用いて最も分類された回数が多いクラスが分類結果であると判断することによって実行される。例えば「guerillas」と「gorillas」と「growers」に関して3クラス分類を行う場合、「guerillas」対「gorillas」、「guerillas」対「growers」及び「gorillas」対「growers」の3つの2クラス分類器を訓練する。分類を実行するためにこれら3つの2クラス分類器が全て使用され、最も分類された回数の多いクラスが出力される。例えば、3つの分類器による分類結果が「gorillas, guerillas, gorillas」であった場合、この3クラス問題の分類結果は「gorillas」である。
分類器訓練部105が多クラスの分類器を訓練した場合、信頼度計算部107は、結果として得られた分類器を使用して他クラスの分類を行い、対象単語列の位置における真の単語列が何であるかを見つけ出す。真の単語列は対象単語列であることを分類結果が示すときは、所定の値(例えば、「1」)が対象単語列の信頼度として出力され、一方、真の単語列は他の候補単語列の中のいずれかであるということを分類結果が示すときは、より小さな他の所定の値(例えば、「0」)が信頼度として出力される。
本実施例において求められる信頼度が対象単語列の正解らしさの度合いを適切に表している理由は、次の通りである。
まず、信頼度計算部107が、「対象単語列の位置における真の単語列は対象単語列である」または「真の単語列が対象単語列である可能性が高い」ということを示す分類結果を出力する場合には、その分類結果は、対象単語列(図7の例では「guerillas」)が、他の候補単語列(図7の例では「gorillas」)よりも、対象単語列の位置での周辺文脈に対してよりよく整合していることを意味する。これはすなわち、他の候補単語列よりも対象単語列が高い正解らしさを有すると考えられることを意味する。本実施例によって求められる信頼度は、このようなときに大きくなる。
一方、信頼度計算部107が、「対象単語列の位置における真の単語列は他の候補単語列である」または「真の単語列が対象単語列である可能性は低い」ということを示す分類結果を出力する場合には、その分類結果は、他の候補単語列(「gorillas」)が、対象単語列(「guerillas」)よりも、対象単語列の位置での周辺文脈に対してよりよく整合していることを意味する。これはすなわち、対象単語列よりも他の候補単語列が高い正解らしさを有すると考えられることを意味する。本実施例によって求められる信頼度は、このようなときに小さくなる。
本実施例では、対象単語列と他の候補単語列とを区別することに特化した分類器を分類器訓練部105が訓練するため、信頼度計算部107は、対象単語列の位置における真の単語列が対象単語列であるか他の候補単語列であるかを高精度に判定することができる。それにより、結果として得られる信頼度の精度が向上する。
また本実施例では、信頼度計算の対象単語列と周辺文脈との整合度が大きいが、対象単語列が認識誤りである場合に、小さな信頼度を得ることができる。その理由は次の通りである。
他候補生成部104が最も正解でありそうな単語列を他の候補単語列として出力するため、対象単語列が認識誤りである場合には、他の候補単語列が正解である可能性が高い。
また、正解の単語列と周辺文脈との整合度は認識誤りの単語列と周辺文脈との整合度よりも大きくなる、と期待できる。したがって、たとえ対象単語列と周辺文脈との整合度が大きくても、対象単語列が認識誤りである場合には、他の候補単語列と周辺文脈との整合度がさらに大きくなると期待できる。その結果、信頼度計算部107は、「対象単語列の位置における真の単語列は他の候補単語列である」または「真の単語列が対象単語列である可能性は低い」ということを示す分類結果を出力し、小さな信頼度が得られる。
本実施例において記載された方法を用いて決定された対象単語列の信頼度を用いて、対象単語列が認識誤りか否かを判定することができる。具体的には、信頼度が所定のしきい値以下の場合に、対象単語列が認識誤りであると判定すればよい。
また、本実施例において記載した方法によって求められた対象単語列の信頼度と、認識システムが認識結果中の各単語列に付与する単語事後確率とを組み合わせることによって、さらに正確な形態で、認識誤りを判定することができる。具体的には、例えば、対象単語列の事後確率が所定のしきい値以下であり、かつ、本実施例において記載された方法によって求められた対象単語列の信頼度が別の所定のしきい値以下である場合に、対象単語が認識誤りであると判定すればよい。対象単語列の事後確率は、例えば、非特許文献3に記載された公知の技術によって計算することができる。非特許文献3は参照によりここに組み込まれている。
さらに、本実施例において記載された方法によって求められる信頼度を用いて、より正しいと考えられる他の単語列に対象単語列を修正することができる。具体的には、まず、本実施例において記載された方法を用いて、対象単語列の信頼度と対象単語列の位置における他の候補単語列の信頼度とを計算する。そして、対象単語列を、最も大きな信頼度を有する単語列に修正する。例えば図7の例では、対象単語が「guerrillas」であるときに、「guerrillas」の信頼度を計算するだけでなく、他の候補単語である「gorillas」や「growers」も対象単語とみなしてこれらの信頼度を同様に計算する。もし、これら3つの単語の中で「gorillas」が最も大きな信頼度を有する場合、「guerrillas」を「gorillas」へと修正する。
本実施例の方法によれば、信頼度計算の対象単語列と周辺文脈との整合度が大きいが、対象単語列が認識誤りである場合に、小さな信頼度を出力することができる。さらに、本実施例の方法を用いて求められた信頼度を用いて、認識誤りを精度よく検出することができる。
次に、本発明を実現する他の形態について説明する。
図3に示す装置において、他候補生成部104、分類器訓練部105、特徴抽出部106及び信頼度計算部107の各々は、専用のハードウェアコンポーネントとして構成されてもよい。同様に、図5に示す装置において、音声入力部101、音声認識システム102、信頼度計算対象指定部103、他候補生成部104、分類器訓練部105、特徴抽出部106、信頼度計算部107、訓練データ記憶部111及び計算結果記憶部112の各々は、専用のハードウェアコンポーネントとして構成されてもよい。しかしながら、本発明を実現する形態はこれらの構成に限られるものではない。図11は、本発明を実現する他の形態のための装置を示している。
図11に示す装置は、概して、上述した信頼度計算方法を実施するコンピュータシステムからなっている。コンピュータシステムは、CPUや他のコンポーネントを含むデータ処理装置220と、磁気ディスク、半導体メモリまたは他のコンポーネントを含む記憶装置230と、を含んでいる。信頼度計算方法の処理を実行するためのソフトウェアコード含む信頼度計算用プログラム210が、データ処理装置220に与えられる。プログラム210は、例えば、磁気テープやCD−ROM、フラッシュメモリなどのようなコンピュータ可読の記録媒体によって持ち運ばれる。
記憶装置230内において、訓練データ記憶領域231と信頼度計算結果記憶領域232とが割り当てられる。両方の領域231,232は、特定のデータを格納するためのメモリ領域であって、図5に示す装置における訓練データ記憶部111及び計算結果記憶部112にそれぞれ対応する。
データ処理装置220によって読み込まれてその動作を制御する信頼度計算用プログラム210は、データ処理装置220が図5に示す装置の機能を実現できるようにする。言い換えれば、データ処理装置220は、信頼度計算用プログラム210の制御によって、図5に示す他候補生成部104、分類器訓練部105、特徴抽出部106及び信頼度計算部107の処理を実行する。
本発明は、例えば、音声コンテンツ検索閲覧システムや音声自動通訳システム、他の種々の音声認識システムに適用することができ、また、これらシステムの精度や使い勝手を向上することができる。また、本発明による装置や方法によって計算される信頼度を用いて重み付けされた認識結果を用いることで、本発明は、認識システムの精度を改善するための教師なし音響モデル適応化や教師なし言語モデル適応化にも適用可能である。
例示実施形態及び実施例を参照して本発明を説明したが、本発明は上述した例示実施形態及び実施例に限定されるものではない。本発明の範囲内において、本発明の構造及び詳細に対して、当業者によって理解されるべき種々の変形をなすことができる。

Claims (34)

  1. 認識結果中の指定された対象単語列の信頼度を計算する信頼度計算方法であって、
    前記認識結果と前記対象単語列とを受け取ることと、
    生成部が、前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成することと、
    訓練部が、訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練することと、
    抽出部が、前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出することと、
    計算部が、前記訓練された分類器と前記第三の特徴量とを用いて、前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別することと、
    前記計算部が、判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算することと、
    を有する方法。
  2. 複数の前記他の候補単語列が生成され、前記分類器は、前記対象単語列と前記複数の他の候補単語列のどれでもとを区別するように構成され、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であるかあるいは前記複数の他の候補単語列のいずれかであるかが前記分類器を用いて判別される、請求項1に記載の方法。
  3. 前記分類器は、分類結果の事後確率を出力するように構成され、前記対象単語列が正しいという事後確率が、前記対象単語列の前記信頼度として用いられる、請求項1に記載の方法。
  4. 前記対象単語列の前記位置における前記真の単語列が前記対象単語列であると分類された場合に第一の定数が前記対象単語列の前記信頼度として用いられ、前記対象単語列の前記位置における前記真の単語列が前記他の候補単語列であると分類された場合に前記第一の定数より小さな第二の定数が前記対象単語列の前記信頼度として用いられる、請求項1に記載の方法。
  5. 認識システムによって前記対象単語列の前記位置において出力された仮説であって前記対象単語列以外の仮説が、前記他の候補単語列として用いられる、請求項1に記載の方法。
  6. 発音辞書を参照することにより、前記対象単語列の発音と類似した発音を有する単語列が、前記他の候補単語列として生成される、請求項1に記載の方法。
  7. 単語間混同行列を参照することにより、認識システムが前記対象単語列と混同しやすい単語列が、前記他の候補単語列として生成される、請求項1に記載の方法。
  8. 前記第一、第二及び第三の特徴量は、前記対象単語列の前記位置から一定距離内に出現する単語の頻度数または前記単語の属性の頻度数に基づいて計算される、請求項1に記載の方法。
  9. 前記対象単語列の前記計算された信頼度が所定のしきい値以下であるときに、前記対象単語列は認識誤りであると判断することをさらに有する、請求項1に記載の方法。
  10. 認識システムから出力される前記対象単語列の事後確率が第一のしきい値以下であり、かつ、前記対象単語列の前記計算された信頼度が第二のしきい値以下であるときに、前記対象単語列は認識誤りであると判断することをさらに有する、請求項1に記載の方法。
  11. 前記生成することと前記訓練することと前記抽出することと前記判別することとを実施して、前記対象単語列の信頼度と前記他の候補単語列の信頼度とを得ることと、
    最大の信頼度を有する単語列を出力することと、
    をさらに有する、請求項1に記載の方法。
  12. 認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置であって、
    前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成する生成部と、
    訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練する訓練部と、
    前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出する抽出部と、
    前記訓練された分類器と前記第三の特徴量とを用いて前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別し、判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算する計算部と、
    を有する装置。
  13. 前記生成部は、複数の前記他の候補単語列を生成し、前記分類器は、前記対象単語列と前記複数の他の候補単語列のどれでもとを区別するように構成され、判別に際し、前記計算部は、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であるか前記複数の他の候補単語列のいずれかであるかを判別する、請求項12に記載の装置。
  14. 前記分類器は分類結果の事後確率を出力するように構成され、前記計算部は、前記対象単語列が正しいという事後確率を前記対象単語列の前記信頼度として用いる、請求項12に記載の装置。
  15. 前記計算部は、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であると分類された場合に第一の定数を前記対象単語列の前記信頼度として用い、前記対象単語列の前記位置における前記真の単語列が前記他の候補単語列であると分類された場合に前記第一の定数より小さな第二の定数を前記対象単語列の前記信頼度として用いる、請求項12に記載の装置。
  16. 前記生成部は、前記他の候補単語列として、認識システムによって前記対象単語列の前記位置において出力された仮説であって前記対象単語列以外の仮説を用いる、請求項12に記載の装置。
  17. 前記生成部は、発音辞書を参照し、前記他の候補単語列として、前記対象単語列の発音と類似した発音を有する単語列を生成する、請求項12に記載の装置。
  18. 前記生成部は、単語間混同行列を参照して、前記他の候補単語列として、認識システムが前記対象単語列と混同しやすい単語列を生成する、請求項12に記載の装置。
  19. 前記第一、第二及び第三の特徴量は、前記対象単語列の前記位置から一定距離内に出現する単語の頻度数または前記単語の属性の頻度数に基づいて計算される、請求項12に記載の装置。
  20. 前記対象単語列の前記計算された信頼度が所定のしきい値以下であるときに、前記対象単語列は認識誤りであると判断される、請求項12に記載の装置。
  21. 認識システムから出力される前記対象単語列の事後確率が第一のしきい値以下であり、かつ、前記対象単語列の前記計算された信頼度が第二のしきい値以下であるときに、前記対象単語列は認識誤りであると判断される、請求項12に記載の装置。
  22. 前記対象単語列の信頼度と前記他の候補単語列の信頼度とを計算し、最大の信頼度を有する単語列を出力する、請求項12に記載の装置。
  23. 認識結果中の指定された対象単語列の信頼度を計算する信頼度計算装置であって、
    前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成する手段と、
    訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練する手段と、
    前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出する手段と、
    前記訓練された分類器と前記第三の特徴量とを用いて前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別し、判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算する手段と、
    を有する装置。
  24. コンピュータに、
    認識結果と前記認識結果中で指定された対象単語列とを受け取る処理と、
    前記対象単語列の位置における最も正解らしい単語列を他の候補単語列として生成する処理と、
    訓練データにおける前記対象単語列の位置における周辺文脈を表す第一の特徴量と、前記第一の特徴量と同じ種類であって前記訓練データにおける前記他の候補単語列の位置における周辺文脈を表す第二の特徴量とを用いて、前記対象単語列と前記他の候補単語列とを区別するように構成された分類器を訓練する処理と、
    前記第一の特徴量と同じ種類であって前記認識結果での前記対象単語列の位置における周辺文脈を表す第三の特徴量を抽出する処理と、
    前記訓練された分類器と前記第三の特徴量とを用いて、前記認識結果での前記対象単語列の位置における真の単語列が前記対象単語列であるかあるいは前記他の候補単語列であるかを判別する処理と、
    判別結果に基づいて前記認識結果における前記対象単語列の信頼度を計算する処理と、
    を実行させるコンピュータプログラム。
  25. 記コンピュータに、前記生成する処理において複数の前記他の候補単語列を生成させ、前記訓練する処理において、前記対象単語列と前記複数の他の候補単語列のどれでもとを区別するように構成された分類器を訓練させ、前記判別する処理において、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であるかあるいは前記複数の他の候補単語列のいずれかであるかを前記分類器を用いて判別させる、請求項24に記載のコンピュータプログラム
  26. 前記分類器は、分類結果の事後確率を出力するように構成され、前記コンピュータプログラムは、前記コンピュータに、前記計算する処理において、前記対象単語列が正しいという事後確率を前記対象単語列の前記信頼度として使用させる、請求項24に記載のコンピュータプログラム
  27. 記コンピュータに、前記計算する処理において、前記対象単語列の前記位置における前記真の単語列が前記対象単語列であると分類された場合に第一の定数を前記対象単語列の前記信頼度として使用させ、前記対象単語列の前記位置における前記真の単語列が前記他の候補単語列であると分類された場合に前記第一の定数より小さな第二の定数を前記対象単語列の前記信頼度として使用させる、請求項24に記載のコンピュータプログラム
  28. 記コンピュータに、前記他の候補単語列として、認識システムによって前記対象単語列の前記位置において出力された仮説であって前記対象単語列以外の仮説を使用させる、請求項24に記載のコンピュータプログラム
  29. 記コンピュータに、前記生成する処理において、発音辞書を参照させて、前記対象単語列の発音と類似した発音を有する単語列を前記他の候補単語列として生成させる、請求項24に記載のコンピュータプログラム
  30. 記コンピュータに、前記生成する処理において、単語間混同行列を参照させて、認識システムが前記対象単語列と混同しやすい単語列を前記他の候補単語列として生成させる、請求項24に記載のコンピュータプログラム
  31. 記コンピュータに、前記対象単語列の前記位置から一定距離内に出現する単語の頻度数または前記単語の属性の頻度数に基づいて、前記第一、第二及び第三の特徴量を計算させる、請求項24に記載のコンピュータプログラム
  32. 記コンピュータに、前記対象単語列の前記計算された信頼度が所定のしきい値以下であるときに前記対象単語列は認識誤りであると判断する処理をさらに実行させる、請求項24に記載のコンピュータプログラム
  33. 記コンピュータに、認識システムから出力される前記対象単語列の事後確率が第一のしきい値以下であり、かつ、前記対象単語列の前記計算された信頼度が第二のしきい値以下であるときに、前記対象単語列は認識誤りであると判断する処理をさらに実行させる、請求項24に記載のコンピュータプログラム
  34. 記コンピュータに、
    前記生成する処理と前記訓練する処理と前記抽出する処理と前記判別する処理とを実施して、前記対象単語列の信頼度と前記他の候補単語列の信頼度とを得る処理と、
    最大の信頼度を有する単語列を出力する処理と、
    をさらに実行させる、請求項24に記載のコンピュータプログラム
JP2014518551A 2011-07-01 2012-03-01 信頼度計算の方法及び装置 Active JP6066354B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161503956P 2011-07-01 2011-07-01
US61/503,956 2011-07-01
PCT/US2012/027233 WO2013006215A1 (en) 2011-07-01 2012-03-01 Method and apparatus of confidence measure calculation

Publications (2)

Publication Number Publication Date
JP2014521115A JP2014521115A (ja) 2014-08-25
JP6066354B2 true JP6066354B2 (ja) 2017-01-25

Family

ID=47437338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014518551A Active JP6066354B2 (ja) 2011-07-01 2012-03-01 信頼度計算の方法及び装置

Country Status (3)

Country Link
US (1) US9336769B2 (ja)
JP (1) JP6066354B2 (ja)
WO (1) WO2013006215A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
US9292487B1 (en) * 2012-08-16 2016-03-22 Amazon Technologies, Inc. Discriminative language model pruning
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
JP5932869B2 (ja) 2014-03-27 2016-06-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム
CN105320957B (zh) * 2014-07-10 2022-02-15 腾讯科技(深圳)有限公司 分类器训练方法和装置
US9721564B2 (en) * 2014-07-31 2017-08-01 Rovi Guides, Inc. Systems and methods for performing ASR in the presence of heterographs
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
US9898459B2 (en) * 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US9384188B1 (en) 2015-01-27 2016-07-05 Microsoft Technology Licensing, Llc Transcription correction using multi-token structures
US10048842B2 (en) 2015-06-15 2018-08-14 Google Llc Selection biasing
US10152298B1 (en) * 2015-06-29 2018-12-11 Amazon Technologies, Inc. Confidence estimation based on frequency
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
CN105893414A (zh) * 2015-11-26 2016-08-24 乐视致新电子科技(天津)有限公司 筛选发音词典有效词条的方法及装置
CN105529028B (zh) * 2015-12-09 2019-07-30 百度在线网络技术(北京)有限公司 语音解析方法和装置
US9589049B1 (en) * 2015-12-10 2017-03-07 International Business Machines Corporation Correcting natural language processing annotators in a question answering system
US10140976B2 (en) * 2015-12-14 2018-11-27 International Business Machines Corporation Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10607601B2 (en) 2017-05-11 2020-03-31 International Business Machines Corporation Speech recognition by selecting and refining hot words
CN109271624B (zh) * 2018-08-23 2020-05-29 腾讯科技(深圳)有限公司 一种目标词确定方法、装置及存储介质
CN110265018B (zh) * 2019-07-01 2022-03-04 成都启英泰伦科技有限公司 一种连续发出的重复命令词识别方法
US11238884B2 (en) * 2019-10-04 2022-02-01 Red Box Recorders Limited Systems and methods for recording quality driven communication management
US20230076709A1 (en) 2020-03-16 2023-03-09 Nec Corporation Speech recognition apparatus, control method, and non-transitory storage medium
CN111951805A (zh) * 2020-07-10 2020-11-17 华为技术有限公司 一种文本数据处理方法及装置
KR102660480B1 (ko) * 2021-04-29 2024-04-25 한양대학교 산학협력단 랜덤 워크를 이용한 개인화된 랭킹 방법 및 시스템

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
JP2003308094A (ja) * 2002-02-12 2003-10-31 Advanced Telecommunication Research Institute International 音声認識における認識誤り箇所の訂正方法
ATE508455T1 (de) * 2002-09-27 2011-05-15 Callminer Inc Verfahren zur statistischen analyse von sprache
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
US7363224B2 (en) * 2003-12-30 2008-04-22 Microsoft Corporation Method for entering text
KR20060098673A (ko) 2005-03-03 2006-09-19 삼성전자주식회사 음성 인식 방법 및 장치
US7890325B2 (en) 2006-03-16 2011-02-15 Microsoft Corporation Subword unit posterior probability for measuring confidence
JP2009116075A (ja) 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
US8713433B1 (en) * 2012-10-16 2014-04-29 Google Inc. Feature-based autocorrection
CN104143328B (zh) * 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置

Also Published As

Publication number Publication date
JP2014521115A (ja) 2014-08-25
WO2013006215A1 (en) 2013-01-10
US20140195238A1 (en) 2014-07-10
US9336769B2 (en) 2016-05-10

Similar Documents

Publication Publication Date Title
JP6066354B2 (ja) 信頼度計算の方法及び装置
US10134388B1 (en) Word generation for speech recognition
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US10943583B1 (en) Creation of language models for speech recognition
US9911413B1 (en) Neural latent variable model for spoken language understanding
US9600231B1 (en) Model shrinking for embedded keyword spotting
US11721329B2 (en) Method, system and apparatus for multilingual and multimodal keyword search in a mixlingual speech corpus
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US20180137109A1 (en) Methodology for automatic multilingual speech recognition
US8065149B2 (en) Unsupervised lexicon acquisition from speech and text
US20110224982A1 (en) Automatic speech recognition based upon information retrieval methods
US20070100814A1 (en) Apparatus and method for detecting named entity
JP6323947B2 (ja) 音響イベント認識装置、及びプログラム
Lugosch et al. DONUT: CTC-based query-by-example keyword spotting
WO2010100853A1 (ja) 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
Hanani et al. Spoken Arabic dialect recognition using X-vectors
CA2883076A1 (en) Method and system for predicting speech recognition performance using accuracy scores
JP2004198597A (ja) 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
US20110224985A1 (en) Model adaptation device, method thereof, and program thereof
Hazen et al. Topic modeling for spoken documents using only phonetic information
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Lee et al. Improved spoken term detection using support vector machines based on lattice context consistency
Nguyen et al. Speech recognition with flat direct models
Soto et al. Rescoring confusion networks for keyword search

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20140527

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161215

R150 Certificate of patent or registration of utility model

Ref document number: 6066354

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250