JP5170449B2 - 検出装置、音声認識装置、検出方法、及びプログラム - Google Patents

検出装置、音声認識装置、検出方法、及びプログラム Download PDF

Info

Publication number
JP5170449B2
JP5170449B2 JP2009033701A JP2009033701A JP5170449B2 JP 5170449 B2 JP5170449 B2 JP 5170449B2 JP 2009033701 A JP2009033701 A JP 2009033701A JP 2009033701 A JP2009033701 A JP 2009033701A JP 5170449 B2 JP5170449 B2 JP 5170449B2
Authority
JP
Japan
Prior art keywords
smoothing process
word
language score
language
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009033701A
Other languages
English (en)
Other versions
JP2010191046A (ja
Inventor
健 花沢
亮輔 磯谷
透 岩沢
誠也 長田
剛範 辻川
史博 安達
隆行 荒川
浩司 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009033701A priority Critical patent/JP5170449B2/ja
Publication of JP2010191046A publication Critical patent/JP2010191046A/ja
Application granted granted Critical
Publication of JP5170449B2 publication Critical patent/JP5170449B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力されたデータが想定されたドメインの範囲外である場合に、それを検出する検出装置、検出方法、及びプログラムに関し、更には、当該検出装置を用いた音声認識装置に関する。
音声認識に代表される自然言語処理の分野においては、多くの場合、言語的確からしさを与える統計的言語モデルが用いられる。統計的言語モデルの中でも、大量のコーパスから単語のつながりやすさを学習するNgram(Nグラム)言語モデルは、広く用いられている。
Ngram言語モデルは、ある単語がコーパスに存在する場合に、その単語と直前の単語とのN個の単語の連鎖の頻度を学習する。但し、コーパス量が不十分であった場合には、Ngram言語モデルにおける学習が不十分となり、例えば、音声認識処理における認識精度が低下してしまう。このため、バックオフ(Back-off)補間法のようなNgram言語モデルを補間する方法(平滑化処理)が提案されている。バックオフ補間法は、N−1あるいはN−2など下位の単語連鎖を用いて補間を行う方法である(例えば、非特許文献1参照。)。
ところで、統計的言語モデルが、ある特定の話題、分野、場面等(以下、これらを総じて「ドメイン」という。)に特化して、即ち、ドメイン依存言語モデルとして作成されていれば、これを使用することで、音声認識における認識精度の向上が期待できる。しかし、ドメイン依存言語モデルを使用した音声認識では、対象として想定されたドメインから外れた発話(以下「ドメイン外発話」という。)が入力された場合に、逆に、音声認識における認識精度が劣化することが予想される。
そこで、ドメイン外発話が入力された場合に、そのドメイン外発話を検出する検出装置が提案されている(例えば、特許文献1参照。)。特許文献1に開示の検出装置は、発話セットと、クラス分類器と、ドメイン検証器とを利用して、ドメイン外発話を検出する。発話セットは、ドメイン依存言語モデルのドメインに対応する発話を含むデータの集合であり、トピックが異なる複数個の発話セットに分割されている。
クラス分類器は、SVM(Support Vector Machine)を学習し、入力された発話がいずれかの発話セットに属する可能性を数値で示す信頼度尺度を出力する。SVMは、発話セット毎に用意され、各SVMは、対応する発話セットのトピックに属する文と、それ以外のトピックに属する文とによってトレーニングされ、上記信頼度尺度を出力可能となっている。ドメイン検証器は、信頼度尺度から、入力発話が対象ドメインに含まれるかどうかを判定する。
特開2005−164836号公報
上記の特許文献1に開示された検出装置を用いれば、入力された発話が、事前にドメイン外発話であるかどうかを判定できるので、ドメイン依存言語モデルを用いた音声認識における認識精度の向上が図られると期待される。
しかしながら、上記の特許文献1に開示された検出装置においては、予め、対象ドメインに対応する発話データを用意し、更に、これをトピック毎に複数のセットに分割する必要がある。また、統計的言語モデルとは別にクラス分類器を用意し、これに対して学習を行う必要もある。このように、上記の特許文献1に開示された検出装置には、利用に際して多くの制約があり、これを用いた自然言語処理システムの構成の複雑化や、利用の煩雑化が生じ得る。
本発明の目的は、上記問題を解消し、統計的言語モデルの情報のみを用いることで、入力データが想定されたドメインの範囲外であることを検出し得る、検出装置、検出方法、及びプログラム、更には、音声認識装置を提供することにある。
上記目的を達成するために本発明における検出装置は、入力データとして入力された単語列又は文字列の中から、予め想定されたドメインの範囲外にあるデータを検出する検出装置であって、
前記入力データから、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
前記平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
備えることを特徴とする。
また、上記目的を達成するため本発明における音声認識装置は、入力された音声データに対して音声認識を行う音声認識部と、
前記音声認識によって得られた単語列に対して、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
前記平滑化処理に関する情報を用いて、前記単語列に含まれる単語が、予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
備えることを特徴とする。
更に、上記目的を達成するため本発明における検出方法は、入力データとして入力された単語列又は文字列の中から、予め想定されたドメインの範囲外にあるデータを検出するための検出方法であって、
(a)前記入力データから、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
(b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
有することを特徴とする。
また、上記目的を達成するため本発明におけるプログラムは、入力データとして入力された単語列又は文字列の中からの、予め想定されたドメインの範囲外にあるデータの検出を、コンピュータによって実行するためのプログラムであって、
前記コンピュータに、
(a)前記入力データから、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
(b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
実行させることを特徴とする。
以上の特徴により、検出装置、検出方法、及びプログラム、更には、音声認識装置によれば、統計的言語モデルの情報のみを用いることで、入力データが想定されたドメインの範囲外であることを検出できる。
図1は、本発明の実施の形態における検証装置の概略構成を示すブロック図である。 図2は、本発明の実施の形態における検証方法及び検証装置の動作を示すフロー図である。 図3は、本発明の実施例における音声認識装置の概略構成を示すブロック図である。 図4は、本発明の実施例における音声認識装置の動作を示すフロー図である。
(実施の形態)
以下、本発明の実施の形態における検証装置、検証方法、及びこれらを実現するためのプログラムについて、図1及び図2を参照しながら説明する。最初に、図1を用いて、本実施の形態における検証装置の構成を説明する。図1は、本発明の実施の形態における検証装置の概略構成を示すブロック図である。
図1に示す本実施の形態における検証装置10は、入力データとして入力された単語列又は文字列の中から、予め想定されたドメイン(以下「対象ドメイン」という。)の範囲外にあるデータを検出する。言い換えると、検出装置10は、入力単語列又は入力文字列に対して対象ドメイン外であるかどうかを判定する。
図1に示すように、検証装置10は、言語スコア計算部13と、判定部15とを備えている。また、言語スコア計算部13は、統計的言語モデル14に接続され、これを利用可能となっている。統計的言語モデル14は、本実施の形態で判定する対象ドメインの大量のテキストデータを基に学習を行っており、対象ドメインの言語的性質(単語や単語連鎖の情報)を表している。
言語スコア計算部13は、入力データから、統計的言語モデル14を用いて、言語的確からしさである言語スコアを計算する。更に、言語スコア計算部13は、言語スコアの計算時に平滑化処理(以下「スムージング」という。)を行い、それによって、平滑化処理に関する情報(以下「スムージング情報」という。)を出力する。判定部15は、スムージング情報を用いて、入力データが、対象ドメインの範囲外にあるかどうかを判定する。
このように、検証装置10においては、統計的言語モデルから得られる情報である「平滑化処理に関する情報(スムージング情報)」が、対象ドメイン外かどうかの判定に利用される。検証装置10では、上記特許文献1に開示された検出装置と異なり、分割された
発話データの準備や、クラス分類器は求められていない。よって、検証装置10によれば、統計的言語モデルの情報のみを用いて、入力データ、即ち、入力された単語列又は文字が対象ドメイン外であることを検出できる。
ここで、本実施の形態における検証装置10の構成について更に具体的に説明する。検証装置10は、後述するように、本実施の形態におけるプログラムをコンピュータにインストールし、これを実行することによって具現化されている。また、図1に示すように、本実施の形態では、検証装置10は、単語仮説生成部12も備えている。更に、検証装置10には、入力装置11と、出力装置16とが接続されている。
入力装置11は、入力データを検証装置10に入力可能な装置であれば良く、入力装置11の具体例としては、キーボードやマウス等の入力機器、記録媒体やメモリに記録されているデータを読み取り可能な読取装置、更には、検証装置10以外のコンピュータが挙げられる。また、出力装置16は、判定部15による判定の結果を出力可能な装置であれば良く、出力装置16の具体例としては、液晶ディスプレイ装置等の表示装置や、印刷装置が挙げられる。利用者は、出力装置16に出力された判定結果を確認することができる。
また、本実施の形態では、入力データとして入力される単語列又は文字列は、テキストデータであるが、これは、単語列又は文字列を発声している音声データを音声認識することによって得られていても良いし、機械翻訳によって得られていても良い。
単語仮説生成部12は、入力された単語列(または文字列)から単語仮説を生成する。ここで、「単語仮説」とは、入力された単語列から生成され得る単語又は単語連鎖をいう。単語仮説は、判定部16による判定後に最適な単語列が得られるようにするための、言語スコア計算処理が可能な単位であることが望ましい。なお、「最適な単語列」とは、音声認識においては認識結果、機械翻訳であれば翻訳結果を意味する。また、本実施の形態において、単語仮説生成を実施するための具体的な技術としては、音声認識や機械翻訳において単語仮説の生成を行うために用いられる公知の技術を利用でき、本明細書においては、説明を省略する。
言語スコア計算部13は、本実施の形態では、単語仮説生成部12が生成した単語仮説を受け取り、当該単語仮説に対して統計的言語モデル14を参照して言語スコアを計算する。例えば、後述するように統計的言語モデル14としてNgramが用いられる場合であれば、言語スコア計算部13は、言語スコアとしてNグラム確率を計算する。
また、言語スコア計算部13は、計算した言語スコアを、判定部13と単語仮説生成部12とに出力する。単語仮説生成部12は、上述した「最適な単語列」を得るために、次の単語仮説の生成時に、フィードバックされた言語スコアを利用する。また、同時に、言語スコア計算部13は、上述したように、言語スコア計算の際に得られる、スムージングの頻度を含むスムージング情報を判定部15に出力する。
本実施の形態において、統計的言語モデル14は特に限定されないが、例えば、入力データが単語列であるならば、N個の単語の連鎖確率(Nグラム確率)を与える単語Ngramを用いることができる。更に、入力データが文字列であるならば、N個の文字の連鎖確率(Nグラム確率)を与える文字Ngramを用いることができる。
ここで、スムージング(平滑化処理)とは、統計的言語モデル14の学習の際、つまり、言語スコア(Nグラム確率)の計算時において、学習データにたまたま出現しなかったためにNグラム確率が0となるのを回避するための処理である。スムージングにより、頻
度が小さいなどの理由により学習されなかった学習データが補間される。スムージングのための広く知られている手法としては、バックオフ(Back-off)補間法などが挙げられる。
判定部15は、上述したように、言語スコア計算部13の出力であるスムージング情報を受け取ると、当該スムージング情報を用いて、入力された単語列に対してドメイン外判定を行い、判定結果を出力する。ここで、例えば、統計的言語モデル14として単語Ngramが使用され、スムージング処理としてバックオフ補間法が用いられる場合を想定する。この場合であれば、スムージング情報としては、スムージングが行われた頻度であるバックオフ(Back-off)回数や、スムージングが行われる割合であるバックオフ(Back-off)率を用いるのが良い。なお、スムージング情報は、これらの情報に限定されるものではない。
また、例えば、上述のバックオフ率が、ある閾値以上に高い場合は、入力された単語列と、統計的言語モデル14で使用されている学習データとがミスマッチを起こしている可能性が高いと考えられる。この場合、判定部15は、入力された単語列は、対象ドメイン外であると判定する。なお、スムージング手法としてバックオフ(Back-off)補間法を用いることは、公知技術として良く知られている。このため、本明細書では、スムージングについての詳細な説明は省略する。
次に、本発明の実施の形態における検証方法について図2を用いて説明する。但し、本実施の形態における検証方法は、図1に示す検証装置を動作させることによって実施できる。このため、本実施の形態における検証方法の説明は、図1に示した本実施の形態における検証装置の動作の説明に代える。図2は、本発明の実施の形態における検証方法及び検証装置の動作を示すフロー図である。
図2に示すように、まず、入力装置11から、検証装置10に対して、入力データとなる単語列が入力されると、単語仮説生成部12は単語列の入力を受け付ける(ステップA1)。具体的には、1つ以上の単語を含むテキストデータであって、音声データを音声認識して得られたデータ、又は機械翻訳して得られたデータが入力される。
次に、単語仮説生成部12は、入力された単語列を用いて単語仮説の生成を行う(ステップA2)。具体的には、検証装置10の単語仮説生成部12は、入力された単語列を、統計的言語モデル14への適用が可能な単位ごとに、言語スコア計算部12に渡す。例えば、言語スコア計算部13において、統計的言語モデル14として、単語の3つ組み連鎖確率を表す単語Trigramが使用される場合は、単語仮説生成部12は、各単語とその先行2単語とを言語スコア計算部12に渡せば良い。また、このとき、単語仮説生成部12は、言語スコア計算部12から、先に生成した単語仮説の言語スコアを受け取る。
次に、言語スコア計算部13は、単語仮説に対して、統計的言語モデル14を参照して言語スコアを計算する(ステップA3)。具体的には、言語スコア計算部13は、単語仮説生成部12から受け取った単語または単語列に対して、統計的言語モデル14を用いて受け取った単語または単語列の言語スコアを計算し、その結果を単語仮説生成部12へ出力する。
また、ステップA3において、言語スコア計算部13は、スムージングを実行する。例えば、統計的言語モデル14として単語Trigramが使用される場合は、言語スコア計算部13は、単語仮説生成部12から3単語連鎖を受け取り、その3単語連鎖が言語モデルとして存在すればその確率を言語スコアとする。また、言語スコア計算部13は、3単語連鎖が言語モデルとして存在しなければ、例えばバックオフ補間法を実行し、より下
位のBigram等の確率を用いて当該3単語連鎖の確率を近似し、得られた値を言語スコアとする。
そして、言語スコア計算部13は、バックオフ補間法を実行して得られたスムージング情報を判定部15に出力する。なお、統計的言語モデル14として、単語Ngramを用いる方法、及びそのスムージング手法としてバックオフ(Back-off)補間法を用いる技術は、公知技術として良く知られているものであるから、ここでは詳細な説明を省略する。
次に、判定部15は、入力された単語列又は単語、具体的には、ステップA2で生成された単語仮説が、対象ドメインの範囲内にあるかどうかを判定する(ステップA4)。例えば、バックオフされる頻度や、バックオフされる割合(Back-off率)が、予め設定された閾値以上である場合には、単語仮説が対象ドメインの範囲外にある可能性は、高いと判断できる。よって、判定部15は、言語スコア計算部12から受け取ったスムージング情報に基づいて、スムージングされている頻度又は割合と予め設定された閾値とを対比する。
ステップA4の判定の結果、単語仮説が対象ドメインの範囲内でない場合、即ち、スムージングされている頻度又は割合が閾値より多い場合は、判定部15は、単語仮説が対象ドメインの範囲外であると判定する。そして、判定部15は、判定結果(ドメイン外警告)を出力装置16に出力する(ステップA6)。これにより、例えば、出力装置16の表示画面に、対象ドメインの範囲内にない単語が表示される。ステップA6の実行後、検出装置10における処理は終了する。
一方、ステップA4の判定の結果、単語仮説が対象ドメインの範囲内にある場合は、検出装置10における処理は終了する。なお、この場合であっても、判定部15は、判定結果を出力装置16に出力することができる。これにより、出力装置16の表示画面には、対象ドメインの範囲内にある単語が表示される。
ところで、通常、統計的言語モデルを用いた言語スコア計算の際には、存在しない言語モデル(学習データに存在しなかった単語)にも妥当な言語スコアを与えるため、スムージングが行われる。特に、音声認識や機械翻訳の言語スコアの計算においては、スムージング係数(Back-off係数)の工夫によって、学習データに存在した単語には、スムージングされても高い言語スコアが与えられることが少なくない状態となっている。また、そうなるように言語モデルが作成されることも多くなっている。このような場合、言語スコアが高くても、入力された単語列が対象ドメインの範囲外にあることもあり、このような単語列が用いられた音声認識や機械翻訳では、誤りが発生する可能性が高くなる。
これに対して、本実施の形態では、スムージング情報を用いて、入力された単語列又は文字列が対象ドメインの範囲内にあるかどうかが判定されるので、判定の精度は高められている。また、この場合において、ドメイン判定のためにクラス分類器などを用意する必要性は存在しないため、システム構成の複雑化や、利用の煩雑化は抑制される。
また、本実施の形態では、入力された単語列又は文字列が対象ドメインの範囲外であることが、利用者に提示可能となっている。このため、本実施の形態における検証装置が適用されるシステムが、利用者が期待しない動作を行うことを、未然に防ぐことが可能となる。また、利用者に別の入力を促すことにより、結果的に、ユーザ満足度の向上やタスク達成率の向上が可能となる。
また、本実施の形態におけるプログラムは、コンピュータに、図2に示すステップA1〜A6を実行させるプログラムであれば良い。本実施の形態におけるプログラムをコンピ
ュータにインストールし、このプログラムを実行することによって、本実施の形態における検証装置10及び検証方法を具現化することができる。
コンピュータの構成は図示しないが、コンピュータは、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及び不揮発性記憶装置等を備えていれば良い。この場合、コンピュータのCPU(central processing unit)は、RAM、ROM、又は不揮発性記憶装置に格納されたOS(Operation System)及び本実施の形態におけるプログラムを読み込み、これらを実行する。これにより、CPUは、単語仮説生成部12、言語スコア計算部13、判定部15として機能し、処理を行なう。
なお、本実施の形態におけるプログラムが実行されるコンピュータは1台である必要はなく、複数台のコンピュータであっても良い。また、不揮発性の記憶装置としては、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等が挙げら得る。
次に、本実施の形態における検証装置の実施例について、検証装置を音声認識装置に適用した例を挙げて説明する。最初に、本実施例1における音声認識装置の構成について図3を用いて説明する。図3は、本発明の実施例における音声認識装置の概略構成を示したブロック図である。
[実施例1の音声認識装置の構成]
図3に示すように、音声認識装置20は、音声認識部21と、音響モデル24と、単語辞書25と、検証装置10と、統計的言語モデル14とを備えている。音声認識部21は、音響分析部22と、距離計算部23とを備えている。検証装置10は、図1を用いて既に説明したように、単語仮説生成部12と、言語スコア計算部13と、判定部15とを備えている。
また、音声認識装置20は、汎用的なコンピュータによって実現されており、コンピュータは、図示されていないが、CPU、RAM、ROM、及び不揮発性記憶装置を備えている。そして、実施の形態で述べた検証装置10の場合と同様に、それを備える音声認識装置20も、CPUがRAM、ROM、又は不揮発性記憶装置に格納されたOSと音声認識プログラムとを読み込み、これらを実行することにより具現化される。なお、音声認識プログラムには、検証装置を具現化するためのステップ(図2参照)も含まれている。また、音声認識装置20を具現化するコンピュータも、1台である必要はなく、複数台であっても良い。
また、図4に示すように、音声認識装置20にも、入力装置26と出力装置16とが接続されている。入力装置26としては、図1に示した入力装置11と異なり、例えば、マイクなどの音声入力用の機器が挙げられる。入力装置26は、図示しない構成としてA/D変換回路を含むことができる。
音響分析部22は、入力装置25から出力された音声データ(入力音声)から音響的特徴を抽出し、これを分析して音響特徴量を求め、更に音響特徴量系列に分類する。音響特徴量は、例えばケプストラムである。なお、音声データの音響特徴を分析する技術としては、公知技術を用いることができ、本明細書では詳細な説明を省略する。
距離計算部23は、音響分析部22による分析によって得られた音響特徴量と音響モデル24との音響距離を計算する。ここで、音響モデル24としては、例えば、各音素の特徴を表す特徴量系列を持つHMM(Hidden Markov Model)が挙げられる。
単語仮説生成部12は、実施の形態において図1及び図2を用いて説明したように単語仮説を生成するが、音声認識処理に対応するため、距離計算部23が計算した音響距離に基づき、単語辞書25に含まれる1つ以上の単語から単語仮説を生成する。ここで、単語辞書25としては、単語を音素で表現した音声認識用辞書が挙げられる。即ち、単語仮説生成部12は、音声認識における単語探索(サーチ)を行っている。
また、単語仮説生成部12は、当該単語仮説を言語スコア計算部13に出力し、その後、入力した単語仮説に対して言語スコア計算部13が出力した言語スコアを取得する。そして、単語仮説生成部12は、順次入力される単語列に対する単語仮説の生成と言語スコアの取得とを繰り返し行いながら、音響的確からしさである音響距離と言語的確からしさである言語スコアとに基づいて、単語仮説又はその連鎖である単語列の最も確からしいものを特定し、これを音声認識結果として出力装置16に出力する。
なお、言語スコア計算部13、言語モデル14、及び判定部15は、図1及び図2を用いて説明した言語スコア計算部12、言語モデル14、及び判定部15にそれぞれ対応し、これらと同様の機能を有する。そのため、本実施例では、これらについての説明は省略する。
出力装置16としては、実施の形態で述べたように、表示装置や印刷装置が用いられる。但し、本実施例では、検証装置10が音声認識装置20に組み込まれている。このため、出力装置16は、判定部15が、音声認識によって得られた単語列が対象ドメインの範囲内であると判定した場合は、単語仮説生成部12から得られる最も確からしい単語仮説を、音声認識結果として、例えばテキストデータで出力する。一方、出力装置16は、判定部15が、音声認識によって得られた単語列が対象ドメインの範囲外であると判定した場合は、その旨出力する。
また、本実施例では、音響モデル24、単語辞書25、及び言語モデル14は、コンピュータに接続された、ハードディスクドライブ、光磁気ディスクドライブ、フラッシュメモリ等の不揮発性の記憶装置、又はDRAM(Dynamic Random Access Memory)等の揮発性の記憶装置に、必要な情報を格納することによって実現できる。また、音響モデル24、単語辞書25、及び言語モデル14を実現する記憶装置は、音声認識装置20を構成するコンピュータに内蔵又は直接接続されていても良いし、このコンピュータとネットワークを介して接続された別のコンピュータに内蔵又は直接接続されていても良い。
[実施例1の音響認識装置の動作]
次に、本実施例1における音声認識装置の動作について、図4を用いて説明する。図4は、本発明の実施例における音声認識装置の動作を示すフロー図である。
図4に示すように、先ず、入力装置26から、音声認識装置20に対して、音声データが入力されると、音響分析部22は音声データの入力を受け付ける(ステップA11)。具体的には、音声認識装置20に対して、入力装置26は、マイク等を用いて取得した音声波形を、音声データとして入力する。
次に、音声認識部21の音響分析部22は、音響分析処理を実行する(ステップA12)。具体的には、音響分析部22は、入力された音声データから音響的特徴を抽出し、これを分析して音響特徴量を求め、更に音声特徴量系列に分類する。
次に、音声認識部21の距離計算部23は、距離計算処理を実行する(ステップA13)。具体的には、距離計算部23は、ステップA12による音響分析処理の結果である音響特徴量と、音響モデル24との音響距離を計算する。
次に、検証装置10の単語仮説生成部12は、単語仮説の生成処理を実行する(ステップA14)。具体的には、単語仮説生成部12は、音声認識部21による距離計算処理の結果である音響距離に基づき、単語辞書25に含まれる1つ以上の単語から単語仮説を生成する。
また、ステップA14においては、単語仮説生成部12は、生成した単語仮説に対する言語スコアを言語スコア計算部13から取得する。そして、単語仮説生成部12は、取得した言語スコアを用いて、生成した単語仮説またはその連鎖である単語列のうち、音響距離と言語スコアとの組合せにより最も確からしいものを特定し、これを音声認識結果として出力装置16に出力する。
次に、検証装置10の言語スコア計算部13は、言語スコア計算処理を実行する(ステップA15)。具体的には、言語スコア計算部13は、統計的言語モデル14を用いて、単語仮説生成部12から受け取った単語または単語列の言語スコアを計算する。また、上述したように、言語スコア計算部13は、計算した言語スコアを、単語仮説生成部12に出力する。
ステップA15の実行時においては、言語スコア計算部13は、同時に、スムージングを行い、スムージングの頻度を含むスムージング情報を判定部15に出力する。なお、言語スコア計算部13による言語スコア計算処理は、単語仮説の生成処理において単語仮説を生成するたびに呼び出されて実行される。よって、単語仮説生成部12は、当該言語スコア計算によって得られた言語スコアを用いて、次の単語仮説の生成処理を実行することとなる。
次に、検証装置10の判定部15は、ドメイン判定処理を実行する(ステップA16)。具体的には、音声認識システム200のドメイン判定部15は、言語スコア計算部13から受け取るスムージング情報に基づいて、スムージングされている頻度又は割合と設定された閾値とを比較し、入力された音声データが対象ドメインの範囲にあるかどうかを判定する。
ステップA16の判定の結果、入力された音声データが対象ドメインの範囲内にある場合は、判定部15は、その旨を出力装置16に出力する。そして、出力装置16は、ドメイン判定処理の判定結果が対象ドメインの範囲内であることから、ステップA14において単語仮説生成部12から既に受け取っていた音声認識結果を、表示画面等に出力する(A17)。
一方、ステップA16の判定の結果、入力された音声データが対象ドメインの範囲外にある場合も、判定部15は、その旨を出力装置16に出力するが、この場合は、出力装置16は、対象ドメインの範囲外である旨(ドメイン外警告)のみを、表示画面等に出力する(A18)。
ステップA17又はステップA18の実行後、音声認識装置20における処理は終了する。なお、ドメイン判定処理(ステップA16)は、入力された単語列の初端から終端までが処理された場合に、即ち、音声認識であるならば、入力された音声の初端から終端までが処理された場合に、一度、実行されれば良い。
このように、本実施例1では、音声認識において入力された音声が、対象ドメインの範囲外であったかどうかが判定され、その判定結果の出力が可能となる。このため、タスク達成率の向上が可能となる。
[スムージング情報]
ここで、本実施例1において行われるスムージングについて説明する。本実施例では、判定部15で用いられるスムージング情報は、最も確からしい音声認識結果の単語列に対してのものであっても良いし、最も確からしい音声認識結果の単語列以外を含むもの、即ち、単語仮説生成部12で生成した全ての単語仮説に対してのものであっても良い。この二つの態様について順に説明する。
先ず、スムージング情報が、最も確からしい音声認識結果の単語列に対してのものである場合について説明する。例えば、統計的言語モデル14として単語Trigramが用いられ、スムージング法としてバックオフ(Back-off)補間法が用いられ、ドメイン判定のためのスムージング情報としてバックオフ率が用いられる場合を考える。
そして、最も確からしい音声認識結果単語列、例えば、W={W1,W2,W3,W4,W5}に対してのスムージング情報によってドメイン判定が行われるとする。この場合、言語スコア計算部120は、下記の式(1)によって、言語スコアP(W)を計算する。
(数1)
P(W)=P(W5|W4,W3)*P(W4|W3,W2)
*P(W3|W2,W1)*P(W2|W1)*P(W1)・・・(1)
このとき、例えば、P(W4|W3,W2)の計算と、P(W3|W2,W1)の計算とにおいて、対応する単語Trigramが言語モデル14に存在しないため、バックオフ補間法が実行されていたとする。この場合、延べ5回の言語スコアの計算の中で2回がバックオフされたことになるので、バックオフ率は40%となる。そして、ドメイン判定の閾値が、例えば、バックオフ率で30%であったとすると、この例では、閾値を超えるバックオフ率が得られている。よって、判定部15は、入力された音声は、対象ドメインの範囲外であると判定する。
次に、単語仮説生成部12が生成した全ての単語仮説に対してのスムージング情報が、用いられる場合について説明する。例えば、最も確からしい音声認識結果単語列W={W1,W2,W3,W4,W5}に対して、単語仮説生成部12が、P(W4|W3,W1)や、P(W6|W4,W2)等の他の単語仮説も生成していたとする。
そして、これら全ての単語仮説(W_i,W_j,W_k)に対して、言語スコア計算部12は、P(W_k|W_i,W_j)を計算することになる(単語Trigramの場合)。この場合、言語スコア計算部13は、全てのP(W_k|W_i,W_j)に対して、毎回バックオフを行ったかどうかをカウントしておき、音声の入力の終了後に、最終的なバックオフ率を計算すれば良い。
最も確からしい音声認識結果の単語列のみが用いられる例では、入力音声が短い場合、即ち、単語列を構成する単語数が少ない場合に、バックオフ率の計算の信頼度が低くなることが考えられる。一方、単語仮説生成部12が生成する全ての単語仮説が用いられる例では、バックオフ率の計算の信頼度が低下するという問題を軽減できると考えられる。
尚、上記の説明では、ドメイン判定の閾値は、バックオフの種類に拘わらず、一律のバックオフ率で設定されているが、これに限定されるものではない。例えば、単語Trigramを単語Bigramでバックオフする場合と、単語Bigramも存在しないために、単語Unigramや品詞等の他のNgram情報を用いてバックオフする場合とで、閾値に異なる重みを付与することもできる。
つまり、単語Bigramよりも、単語Unigramによってバックオフする方が、よりドメイン外である特徴が強くなる。よって、例えば、単語Bigramでのバックオフ率Rbの重みに対して、単語Unigramでのバックオフ率Ruの重みを2倍に設定するとする。この場合、判定部150による判定に用いられる尺度(閾値)は、バックオフスコアRs=Rb+Ru*2と定義される。この尺度を用いて閾値判定することで、より高精度なドメイン判定処理の実行が可能となる。
上述の実施例1は、音声認識装置への適用例を示しているが、本発明は、これに限定されるものではない。例えば、本発明は、統計的機械翻訳において、入力単語列が対象ドメインの範囲外にあるかどうかを判定する例にも、同様に適用できる。この場合、統計的機械翻訳において用いられる言語モデルでも、上述した処理と同様の処理によって、入力単語列が対象ドメインの範囲外にあるかどうかを判定することが可能である。
[実施例1による効果]
本実施例1のように、本発明の検証装置を音声認識装置に利用する場合は、検証装置は、単純にテキスト情報としての単語列に対してドメイン判定を行うだけでなく、誤認識を含む音声認識結果から得られた単語列に対しても、ドメイン判定を行うことが可能となる。また、本実施例1では、音響距離と言語スコアとの両方を利用した単語仮説の生成処理が行われ、更に、単語仮説が生成される度に、言語スコア計算処理が行われ、スムージング情報が取得される。このため、ドメイン判定のためのスムージング情報として、音響的確からしさも考慮された、多くの種類の単語連鎖のスムージング情報の利用が可能となる。従って、本実施例1では、単純にテキスト情報を入力する場合と比較して、利用可能な情報が多い分、高精度なドメイン判定が可能となる。
[その他]
近年、音声認識に代表される自然言語処理の技術を用いた製品においては、タスク達成率を高めるため、利用者に適切なフィードバックを返すことが期待されている。本発明は、このようなフィードバックが期待されている用途への適用が有効である。
以上のように、本発明の検証装置、検証方法、及びプログラムは、音声認識に代表される自然言語処理の技術が利用される分野、例えば、音声入力や、テキスト入力が行われる分野に有効である。
10 検証装置
11 入力装置
12 単語仮説生成部
13 言語スコア計算部
14 統計的言語モデル
15 判定部
16 出力装置
20 音声認識装置
21 音声認識部
22 音響分析部
23 距離計算部
24 音響モデル
25 単語辞書
26 入力装置

Claims (23)

  1. 入力データとして入力された単語列又は文字列の中から、予め想定されたドメインの範囲外にあるデータを検出する検出装置であって、
    前記入力データから、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
    前記平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
    備えることを特徴とする検出装置。
  2. 前記平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、
    前記判定部が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値とを対比し、対比の結果に基づいて判定を行う、請求項1に記載の検出装置。
  3. 前記言語スコア計算部が、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項1または2に記載の検出装置。
  4. 前記言語スコア計算部が、前記平滑化処理として、バックオフ補間法を実行する、請求項1〜3のいずれかに記載の検出装置。
  5. 前記入力データを当該検出装置に入力する入力装置と、前記判定部による判定の結果を出力する出力装置とに接続されている、請求項1〜4のいずれかに記載の検出装置。
  6. 前記入力データが、音声データを音声認識することによって得られた単語列である、請求項1〜5のいずれかに記載の検出装置。
  7. 入力された音声データに対して音声認識を行う音声認識部と、
    前記音声認識によって得られた単語列に対して、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
    前記平滑化処理に関する情報を用いて、前記単語列に含まれる単語が、予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
    備えることを特徴とする音声認識装置。
  8. 前記音声認識部が、前記音声認識によって音響距離を算出し、
    当該音声認識装置が、更に、単語仮説生成部を備え、
    前記単語仮説生成部は、前記音響距離に基づいて、単語仮説を生成し、生成した前記単語仮説の連鎖を前記単語列として前記言語スコア計算部に入力し、
    更に、前記音響距離と前記言語スコアとを用いて、前記単語仮説の連鎖のうち、最も確からしいものを特定し、これを前記音声認識の結果として出力する、請求項7に記載の音声認識装置。
  9. 前記判定部が、前記単語仮設の連鎖のうち最も確からしいものに対しての、平滑化処理に関する情報を用いて、判定を行う、請求項8に記載の音声認識装置。
  10. 前記判定部が、前記言語スコアの計算を行った全ての単語または単語列に対しての、平滑化処理に関する情報を用いて、判定を行う、請求項7または8に記載の音声認識装置。
  11. 前記平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、
    前記判定部が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値との対比し、対比結果に基づいて判定を行う、請求項7〜10のいずれかに記載の音声認識装置。
  12. 前記言語スコア計算部が、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項7〜11のいずれかに記載の音声認識装置。
  13. 前記言語スコア計算部が、前記平滑化処理として、バックオフ補間法を実行する、請求項7〜12のいずれかに記載の音声認識装置。
  14. 入力データとして入力された単語列又は文字列の中から、予め想定されたドメインの範囲外にあるデータを検出するための検出方法であって、
    (a)前記入力データから、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
    (b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
    有することを特徴とする検出方法。
  15. 前記(a)のステップで得られる平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、
    前記(b)のステップで、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値とを対比し、対比の結果に基づいて判定を行う、請求項14に記載の検出方法。
  16. 前記(a)のステップで、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項14または15に記載の検出方法。
  17. 前記(a)のステップで、前記平滑化処理として、バックオフ補間法を実行する、請求項14〜16のいずれかに記載の検出方法。
  18. 前記入力データが、音声データを音声認識することによって得られた単語列である、請求項14〜17のいずれかに記載の検出方法。
  19. 入力データとして入力された単語列又は文字列の中からの、予め想定されたドメインの範囲外にあるデータの検出を、コンピュータによって実行するためのプログラムであって、
    前記コンピュータに、
    (a)前記入力データから、統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
    (b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
    実行させることを特徴とするプログラム。
  20. 前記(a)のステップで得られる平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、 前記(b)のステップで、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値とを対比し、対比の結果に基づいて判定を行う、請求項19に記載のプログラム。
  21. 前記(a)のステップで、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項19または20に記載のプログラム。
  22. 前記(a)のステップで、前記平滑化処理として、バックオフ補間法を実行する、請求項19〜21のいずれかに記載のプログラム。
  23. 前記入力データが、音声データを音声認識することによって得られた単語列である、請求項19〜22のいずれかに記載のプログラム。
JP2009033701A 2009-02-17 2009-02-17 検出装置、音声認識装置、検出方法、及びプログラム Active JP5170449B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009033701A JP5170449B2 (ja) 2009-02-17 2009-02-17 検出装置、音声認識装置、検出方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009033701A JP5170449B2 (ja) 2009-02-17 2009-02-17 検出装置、音声認識装置、検出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2010191046A JP2010191046A (ja) 2010-09-02
JP5170449B2 true JP5170449B2 (ja) 2013-03-27

Family

ID=42817174

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009033701A Active JP5170449B2 (ja) 2009-02-17 2009-02-17 検出装置、音声認識装置、検出方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5170449B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854528B2 (en) 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229588A (ja) * 2001-01-29 2002-08-16 Mitsubishi Electric Corp 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体
JP4810789B2 (ja) * 2003-09-26 2011-11-09 日本電気株式会社 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム
JP4191021B2 (ja) * 2003-12-01 2008-12-03 株式会社国際電気通信基礎技術研究所 ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
JP2007017548A (ja) * 2005-07-05 2007-01-25 Advanced Telecommunication Research Institute International 音声認識結果の検証装置及びコンピュータプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854528B2 (en) 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding

Also Published As

Publication number Publication date
JP2010191046A (ja) 2010-09-02

Similar Documents

Publication Publication Date Title
US11164566B2 (en) Dialect-specific acoustic language modeling and speech recognition
CN106463113B (zh) 在语音辨识中预测发音
US10147418B2 (en) System and method of automated evaluation of transcription quality
Henderson et al. Discriminative spoken language understanding using word confusion networks
US9672815B2 (en) Method and system for real-time keyword spotting for speech analytics
CN107615376B (zh) 声音识别装置及计算机程序记录介质
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN104681036A (zh) 一种语言音频的检测系统及方法
US10535339B2 (en) Recognition result output device, recognition result output method, and computer program product
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6031316B2 (ja) 音声認識装置、誤り修正モデル学習方法、及びプログラム
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP4659541B2 (ja) 音声認識装置及び音声認識プログラム
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP5288378B2 (ja) 音響モデルの話者適応装置及びそのためのコンピュータプログラム
JP5170449B2 (ja) 検出装置、音声認識装置、検出方法、及びプログラム
JP3628245B2 (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
JP4362054B2 (ja) 音声認識装置及び音声認識プログラム
JP2938865B1 (ja) 音声認識装置
JP2008083367A (ja) 音声認識装置、音声認識方法及びプログラム
JP4528076B2 (ja) 音声認識装置及び音声認識プログラム
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121218

R150 Certificate of patent or registration of utility model

Ref document number: 5170449

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150