JP2010191046A - 検出装置、音声認識装置、検出方法、及びプログラム - Google Patents
検出装置、音声認識装置、検出方法、及びプログラム Download PDFInfo
- Publication number
- JP2010191046A JP2010191046A JP2009033701A JP2009033701A JP2010191046A JP 2010191046 A JP2010191046 A JP 2010191046A JP 2009033701 A JP2009033701 A JP 2009033701A JP 2009033701 A JP2009033701 A JP 2009033701A JP 2010191046 A JP2010191046 A JP 2010191046A
- Authority
- JP
- Japan
- Prior art keywords
- smoothing process
- word
- speech recognition
- language score
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】入力データとして入力された単語列又は文字列の中から、予め想定されたドメインの範囲外にあるデータを検出する検出装置10を用いる。検出装置10は、入力データから、統計的言語モデル14を用いて、言語的確からしさである言語スコアを計算し、更に、言語スコアの計算時に平滑化処理を行って、平滑化処理に関する情報を出力する言語スコア計算部13と、平滑化処理に関する情報を用いて、入力データが、予め想定されたドメインの範囲外にあるかどうかを判定する判定部15とを備えている。
【選択図】図1
Description
前記入力データから、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
前記平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
備えることを特徴とする。
前記音声認識によって得られた単語列に対して、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
前記平滑化処理に関する情報を用いて、前記単語列に含まれる単語が、予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
備えることを特徴とする。
(a)前記入力データから、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
(b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
有することを特徴とする。
を、コンピュータによって実行するためのプログラムであって、
前記コンピュータに、
(a)前記入力データから、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
(b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
実行させることを特徴とする。
以下、本発明の実施の形態における検証装置、検証方法、及びこれらを実現するためのプログラムについて、図1及び図2を参照しながら説明する。最初に、図1を用いて、本実施の形態における検証装置の構成を説明する。図1は、本発明の実施の形態における検証装置の概略構成を示すブロック図である。
発話データの準備や、クラス分類器は求められていない。よって、検証装置10によれば、統計的言語モデルの情報のみを用いて、入力データ、即ち、入力された単語列又は文字が対象ドメイン外であることを検出できる。
度が小さいなどの理由により学習されなかった学習データが補間される。スムージングのための広く知られている手法としては、バックオフ(Back-off)補間法などが挙げられる。
位のBigram等の確率を用いて当該3単語連鎖の確率を近似し、得られた値を言語スコアとする。
ュータにインストールし、このプログラムを実行することによって、本実施の形態における検証装置10及び検証方法を具現化することができる。
図3に示すように、音声認識装置20は、音声認識部21と、音響モデル24と、単語辞書25と、検証装置10と、統計的言語モデル14とを備えている。音声認識部21は、音響分析部22と、距離計算部23とを備えている。検証装置10は、図1を用いて既に説明したように、単語仮説生成部12と、言語スコア計算部13と、判定部15とを備えている。
次に、本実施例1における音声認識装置の動作について、図4を用いて説明する。図4は、本発明の実施例における音声認識装置の動作を示すフロー図である。
ここで、本実施例1において行われるスムージングについて説明する。本実施例では、判定部15で用いられるスムージング情報は、最も確からしい音声認識結果の単語列に対してのものであっても良いし、最も確からしい音声認識結果の単語列以外を含むもの、即ち、単語仮説生成部12で生成した全ての単語仮説に対してのものであっても良い。この二つの態様について順に説明する。
P(W)=P(W5|W4,W3)*P(W4|W3,W2)
*P(W3|W2,W1)*P(W2|W1)*P(W1)・・・(1)
本実施例1のように、本発明の検証装置を音声認識装置に利用する場合は、検証装置は、単純にテキスト情報としての単語列に対してドメイン判定を行うだけでなく、誤認識を含む音声認識結果から得られた単語列に対しても、ドメイン判定を行うことが可能となる。また、本実施例1では、音響距離と言語スコアとの両方を利用した単語仮説の生成処理が行われ、更に、単語仮説が生成される度に、言語スコア計算処理が行われ、スムージング情報が取得される。このため、ドメイン判定のためのスムージング情報として、音響的確からしさも考慮された、多くの種類の単語連鎖のスムージング情報の利用が可能となる。従って、本実施例1では、単純にテキスト情報を入力する場合と比較して、利用可能な情報が多い分、高精度なドメイン判定が可能となる。
近年、音声認識に代表される自然言語処理の技術を用いた製品においては、タスク達成率を高めるため、利用者に適切なフィードバックを返すことが期待されている。本発明は、このようなフィードバックが期待されている用途への適用が有効である。
11 入力装置
12 単語仮説生成部
13 言語スコア計算部
14 統計的言語モデル
15 判定部
16 出力装置
20 音声認識装置
21 音声認識部
22 音響分析部
23 距離計算部
24 音響モデル
25 単語辞書
26 入力装置
Claims (23)
- 入力データとして入力された単語列又は文字列の中から、予め想定されたドメインの範囲外にあるデータを検出する検出装置であって、
前記入力データから、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
前記平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
備えることを特徴とする検出装置。 - 前記平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、
前記判定部が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値とを対比し、対比の結果に基づいて判定を行う、請求項1に記載の検出装置。 - 前記言語スコア計算部が、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項1または2に記載の検出装置。
- 前記言語スコア計算部が、前記平滑化処理として、バックオフ補間法を実行する、請求項1〜3のいずれかに記載の検出装置。
- 前記入力データを当該検出装置に入力する入力装置と、前記判定部による判定の結果を出力する出力装置とに接続されている、請求項1〜4のいずれかに記載の検出装置。
- 前記入力データが、音声データを音声認識することによって得られた単語列である、請求項1〜5のいずれかに記載の検出装置。
- 入力された音声データに対して音声認識を行う音声認識部と、
前記音声認識によって得られた単語列に対して、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力する言語スコア計算部と、
前記平滑化処理に関する情報を用いて、前記単語列に含まれる単語が、予め想定されたドメインの範囲外にあるかどうかを判定する判定部とを、
備えることを特徴とする音声認識装置。 - 前記音声認識部が、前記音声認識によって音響距離を算出し、
当該音声認識装置が、更に、単語仮説生成部を備え、
前記単語仮説生成部は、前記音響距離に基づいて、単語仮説を生成し、生成した前記単語仮説の連鎖を前記単語列として前記言語スコア計算部に入力し、
更に、前記音響距離と前記言語スコアとを用いて、前記単語仮説の連鎖のうち、最も確からしいものを特定し、これを前記音声認識の結果として出力する、請求項7に記載の音声認識装置。 - 前記判定部が、前記単語仮設の連鎖のうち最も確からしいものに対しての、平滑化処理に関する情報を用いて、判定を行う、請求項8に記載の音声認識装置。
- 前記判定部が、前記言語スコアの計算を行った全ての単語または単語列に対しての、平滑化処理に関する情報を用いて、判定を行う、請求項7または8に記載の音声認識装置。
- 前記平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、
前記判定部が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値との対比し、対比結果に基づいて判定を行う、請求項7〜10のいずれかに記載の音声認識装置。 - 前記言語スコア計算部が、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項7〜11のいずれかに記載の音声認識装置。
- 前記言語スコア計算部が、前記平滑化処理として、バックオフ補間法を実行する、請求項7〜12のいずれかに記載の音声認識装置。
- 入力データとして入力された単語列又は文字列の中から、予め想定されたドメインの範囲外にあるデータを検出するための検出方法であって、
(a)前記入力データから、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
(b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
有することを特徴とする検出方法。 - 前記(a)のステップで得られる平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、
前記(b)のステップで、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値とを対比し、対比の結果に基づいて判定を行う、請求項14に記載の検出方法。 - 前記(a)のステップで、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項14または15に記載の検出方法。
- 前記(a)のステップで、前記平滑化処理として、バックオフ補間法を実行する、請求項14〜16のいずれかに記載の検出方法。
- 前記入力データが、音声データを音声認識することによって得られた単語列である、請求項14〜17のいずれかに記載の検出方法。
- 入力データとして入力された単語列又は文字列の中からの、予め想定されたドメインの範囲外にあるデータの検出を、コンピュータによって実行するためのプログラムであって、
前記コンピュータに、
(a)前記入力データから、前記統計的言語モデルを用いて、言語的確からしさである言語スコアを計算し、更に、前記言語スコアの計算時に平滑化処理を行って、前記平滑化処理に関する情報を出力するステップと、
(b)前記(a)のステップで得られた平滑化処理に関する情報を用いて、前記入力データが、前記予め想定されたドメインの範囲外にあるかどうかを判定するステップとを、
実行させることを特徴とするプログラム。 - 前記(a)のステップで得られる平滑化処理に関する情報が、前記平滑化処理が行われた頻度又は前記平滑化処理が行われる割合を含み、 前記(b)のステップで、前記平滑
化処理が行われた頻度又は前記平滑化処理が行われる割合と、予め設定された閾値とを対比し、対比の結果に基づいて判定を行う、請求項19に記載のプログラム。 - 前記(a)のステップで、前記統計的言語モデルとして、Nグラム言語モデルを用いる、請求項19または20に記載のプログラム。
- 前記(a)のステップで、前記平滑化処理として、バックオフ補間法を実行する、請求項19〜21のいずれかに記載のプログラム。
- 前記入力データが、音声データを音声認識することによって得られた単語列である、請求項19〜22のいずれかに記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009033701A JP5170449B2 (ja) | 2009-02-17 | 2009-02-17 | 検出装置、音声認識装置、検出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009033701A JP5170449B2 (ja) | 2009-02-17 | 2009-02-17 | 検出装置、音声認識装置、検出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010191046A true JP2010191046A (ja) | 2010-09-02 |
JP5170449B2 JP5170449B2 (ja) | 2013-03-27 |
Family
ID=42817174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009033701A Active JP5170449B2 (ja) | 2009-02-17 | 2009-02-17 | 検出装置、音声認識装置、検出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5170449B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11854528B2 (en) | 2020-12-22 | 2023-12-26 | Samsung Electronics Co., Ltd. | Method and system for detecting unsupported utterances in natural language understanding |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229588A (ja) * | 2001-01-29 | 2002-08-16 | Mitsubishi Electric Corp | 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体 |
JP2005106853A (ja) * | 2003-09-26 | 2005-04-21 | Nec Corp | 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム |
JP2005164836A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム |
JP2007017548A (ja) * | 2005-07-05 | 2007-01-25 | Advanced Telecommunication Research Institute International | 音声認識結果の検証装置及びコンピュータプログラム |
-
2009
- 2009-02-17 JP JP2009033701A patent/JP5170449B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229588A (ja) * | 2001-01-29 | 2002-08-16 | Mitsubishi Electric Corp | 統計的言語モデル生成装置、音声認識装置、及び統計的言語モデル生成方法並びに記録媒体 |
JP2005106853A (ja) * | 2003-09-26 | 2005-04-21 | Nec Corp | 言語モデル学習システム、音声認識システム、言語モデル学習方法、及びプログラム |
JP2005164836A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム |
JP2007017548A (ja) * | 2005-07-05 | 2007-01-25 | Advanced Telecommunication Research Institute International | 音声認識結果の検証装置及びコンピュータプログラム |
Non-Patent Citations (2)
Title |
---|
JPN6012056925; イアン・レーン他: '"複数トピック分類の信頼度に基づくドメイン外発話の検出"' 電子情報通信学会技術研究報告 Vol.103,No.520(2003-12), pp.29-34 * |
JPN6012056926; イアン・レーン他: '"対話コンテキストとトピッククラスタリングを用いたドメイン外発話の検出"' 電子情報通信学会技術研究報告 Vol.104,No.543(2004-12), pp.49-54 * |
Also Published As
Publication number | Publication date |
---|---|
JP5170449B2 (ja) | 2013-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11164566B2 (en) | Dialect-specific acoustic language modeling and speech recognition | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
Henderson et al. | Discriminative spoken language understanding using word confusion networks | |
US9672815B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
CN107615376B (zh) | 声音识别装置及计算机程序记录介质 | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US10535339B2 (en) | Recognition result output device, recognition result output method, and computer program product | |
US9595261B2 (en) | Pattern recognition device, pattern recognition method, and computer program product | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2005148342A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
JP5288378B2 (ja) | 音響モデルの話者適応装置及びそのためのコンピュータプログラム | |
JP5170449B2 (ja) | 検出装置、音声認識装置、検出方法、及びプログラム | |
JP3628245B2 (ja) | 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP4362054B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2938865B1 (ja) | 音声認識装置 | |
JP6199994B2 (ja) | コンテキスト情報を使用した音声認識システムにおける誤警報低減 | |
JP2008083367A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP4528076B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP3917880B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121023 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5170449 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |