JP2005017603A - Method and program for estimating speech recognition rate - Google Patents
Method and program for estimating speech recognition rate Download PDFInfo
- Publication number
- JP2005017603A JP2005017603A JP2003181220A JP2003181220A JP2005017603A JP 2005017603 A JP2005017603 A JP 2005017603A JP 2003181220 A JP2003181220 A JP 2003181220A JP 2003181220 A JP2003181220 A JP 2003181220A JP 2005017603 A JP2005017603 A JP 2005017603A
- Authority
- JP
- Japan
- Prior art keywords
- recognition rate
- speech recognition
- score
- speech
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識率推定方法及び音声認識率推定プログラムに係わり、利用者による電話、携帯電話、携帯情報端末、車載情報端末等からの音声入力に対して音声認識機能を有する情報サービス提供システムにおいて、音声入力時において予想される音声認識率を推定する方法に関する。
【0002】
【従来の技術】
ある認識語彙数の場合の認識率が既知であれば、認識誤り率が語彙数の平方根に比例するという経験則から、語彙数n語の場合の認識率を推定することができる(例えば、特許文献1参照)。しかし、音声対話システムの実際の利用状況は、利用者が不特定多数であること、利用者周辺の雑音環境が一定でないこと等の理由から、認識語彙数のみから認識率を推定することは極めて困難である。また従来の音声対話システムでは、認識率をいかに向上させるかという手法が検討されているのみであり、積極的に発話入力時に認識率を推定する手法は見られない。このように、音声認識システムにおいて、利用者に情報サービスを提供する際に、最小限の対話のやり取りで完了させるための戦略として、従来は何らかの技術的工夫により音声認識率の向上を図ることで認識誤りを最小にするということが一般に行われてきたが、現状の音声認識の技術は未だ完全ではなく、様々な利用者の環境下において、常に高い認識率を得ることは非常に困難となっている。
【0003】
【特許文献1】
特開2002−278589号公報
【0004】
【発明が解決しようとする課題】
ところで、一般の音声対話システムでは、一定の認識誤りを前提として対話シナリオが設計されているが、想定した認識率より悪い場合は対話が非常に長くなってしまったり、逆に想定した認識率より良い場合は結果的に必要でない確認応答の割合が多くなることとなる。そこで、様々な利用者の発話状況における対話長さの期待値を最小とするために、ユーザ要求の確率分布と期待ターン数(対話のやり取りを行う回数)から次の確認内容を可変的に決定する手段が提案されている(特許文献1)。
【0005】
しかしながら、期待ターン数を正確に推定するためには、時々刻々と変化する利用者の発話環境に応じて逐次音声認識率を推定する必要があるが、特許文献1に記載の装置ではそのような手段が提案されておらず、実際の利用環境においては期待ターン数の推定精度が悪化し、結果的に対話長さの期待値の短縮が図れない可能性があった。
【0006】
本発明は、このような事情に鑑みてなされたもので、音声対話システムにおいて想定される音声認識率を発話入力時点において逐次推定する音声認識率推定方法及び音声認識率推定プログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
請求項1に記載の発明は、音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて、音声認識率を推定する方法であって、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、対話動作の実行時における音声認識結果を入力する過程と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程とを有することを特徴とする。
【0008】
請求項2に記載の発明は、音声によって利用者とコンピュータシステムが対話を行うことにより情報サービスを提供する音声対話システムにおいて動作する音声認識率推定プログラムであって、入力音声を分析することにより得られた音響スコアと言語スコアとを入力する処理と、対話動作の実行時における音声認識結果を入力する処理と、前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する処理と、前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく処理と、前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する処理とをコンピュータに行わせることを特徴とする。
【0009】
【発明の実施の形態】
以下、本発明の一実施形態による音声認識システムを図面を参照して説明する。図1は同実施形態の構成を示すブロック図である。符号1は、利用者が発話したマイクロホンを通して直接、または電話網、携帯電話網、インターネット、構内網等を経由して間接的に入力される発話音声を取り込み、特徴パラメータを抽出して、内部の辞書中にある単語群に音響スコアを付加し、その結果を送出する音響分析部である。符号2は、内部の辞書内にある各単語列に対し、単語と単語の繋がりやすさを表す言語スコアを付加する言語分析部である。符号3は、内部に蓄積された認識結果を用いて、ある単位発話音声がある合計スコアを獲得したとき、その発話音声が正しく認識される確率を推定する認識率推定部である。符号4は、言語分析部2より出力される音響スコア及び言語スコアの合計等から、認識結果を判断し、その結果を送出する探索部である。符号5は、探索部4からの出力に基づいて対話動作を制御する対話制御部である。
【0010】
次に、図2を参照して、図1に示す認識率推定部3の動作を説明する。
まず、認識率推定部3は、言語分析部2から音響スコアと言語スコアを受信する(ステップS1)。そして、認識率推定部3は、受信した音響スコアと言語スコアの合計スコアを計算する(ステップS2)。続いて、認識率推定部3は、近似曲線の計算式に先に計算した合計スコアを代入し、推定音声認識率を決定する(ステップS3)。そして、認識率推定部3は、計算した推定音声認識率を対話制御部5へ送信する(ステップS4)。対話制御部5は、この推定音声認識率に基づいて、次に行うべき動作を判断して対話動作の制御を行う。
【0011】
一方、認識率推定部3は、対話制御部5から音声認識結果(成功または失敗のいずれか)を受信する(ステップS5)。続いて、認識率推定部3は、受信した認識結果を、この合計スコア幅(範囲)内の認識成否データに追加する(ステップS6)。そして、合計スコア幅(範囲)内における音声認識率を再計算して内部に保持する(ステップS7)。続いて、認識率推定部3は、内部に保持したデータに基づいて、最適近似曲線の計算式を再計算する(ステップS8)。
【0012】
次に、図3を参照しながら具体例を使用して、認識率推定部3の動作を説明する。ここで用いる音響スコア、言語スコアの数値はあくまで一例である。まず、近似曲線を求める動作を説明する。言語分析部2から送出される音響スコアと言語スコアの合計を求める。また、このときの音声認識結果(認識成功または認識失敗のいずれか)を対話制御部5から取得する。続いて、得られた合計スコアを、予め決められた合計スコアの値の範囲(図3では、0−99、100−200、…、500−600、600−の100点刻み)に当てはめ、合計スコアの範囲を特定する。例えば、合計スコアが315点であれば、「300−400」が該当する。そして、対話制御部5より得られた音声認識結果に基づいて、認識成功数または認識失敗数の値に「1」を加算する。この処理を所定回数繰り返すことにより、図3に示す認識率テーブルが生成される。続いて、認識率推定部3は、下記に示す(1)式により、各合計スコア範囲毎の認識率を計算する。この認識率は、各合計スコア範囲の中央値(ここでは、50点、150点、250点、…、550点、650点)における認識率として、認識率テーブルに書き込む。この認識率テーブルは、認識率推定部3内に保持される。
(認識成功数/(認識成功数+認識失敗数))×100 ・・・(1)
【0013】
次に、認識率推定部3は、得られた認識率(33,52,64,82,88,92,96)の点を最も良く近似する曲線を計算する。この近似曲線を求める方法は、周知の方法を用いる。求めた近似曲線(相関曲線)は、認識率推定部3内に保持する。
【0014】
次に、先に求めた近似曲線(相関曲線)に基づいて、音声認識率を推定する動作を説明する。認識率推定部3は、新たに言語分析部2から送出される音響スコアと言語スコアを加算し、合計スコアを求める。そして、内部に保持している近似曲線に照らし合わせ、推定音声認識率を求める。例えば、合計スコアが315点であれば、75%という推定音声認識率を求めることができる。認識率推定部3は、近似曲線に当てはめて得られた推定音声認識率を対話制御部5へ送信する。この推定音声認識率は発話音声が入力される度に対話制御部5に送出され、対話制御部5が対話ターン数の期待値を最小にするよう対話シナリオを制御するためのパラメータとして用いる。
【0015】
次に、近似曲線を更新する動作を説明する。認識率推定部3は、合計スコアと近似曲線に基づいて、音声認識率を推定した後、得られた合計スコアと音声認識結果(成功または失敗)とに基づき、前述した認識率テーブル中の認識成功数または認識失敗数の値を更新する。そして、改めて認識率の計算を行い、新たな近似曲線を求め、内部に保持する。以降の推定音声認識率は、新たに求められた近似曲線に基づいて推定する。
【0016】
なお、合計スコアは音響スコアと言語スコアの単純な和と限定するものではなく、推定音声認識率が最適になるよう適当な係数を掛けたり定数を加える等の操作を行った結果を合計スコアとして用いてもよい。
【0017】
このように、音声対話システム中の音声認識システムが生成する音響スコア、言語スコア及び認識結果から、各スコアの合計と認識率の相関を表す近似曲線を生成し、発話音声入力がなされた時点で、期待される音声認識率を推定することができるため、対話ターン数の期待値の最小化、すなわち、音声対話を利用した情報サービスを提供する際に利用者がサービス利用の目的を達成するまでに要する時間の短縮化を図ることが可能となる。また、認識結果が蓄積するに従い、合計スコアと認識率の相関関係を表す近似曲線の精度を向上させることができる。
【0018】
なお、図1における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声認識率推定処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0019】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【0020】
【発明の効果】
以上説明したように、この発明によれば、音声対話システムにおいて利用者が発話を行う度に精度の高い音声認識率推定を行うことが可能となる。これにより、推定音声認識率を用いて対話シナリオ制御を行う音声対話システムにおいて、対話ターン数の期待値の最小化、すなわち、音声対話を利用した情報サービスを提供する際に、サービスを開始してから完了するまでの対話時間の長さの期待値を最小化することができるため、利用者がサービス利用の目的を達成するまでに要する時間の短縮化を図ることが可能になるという効果が得られる。
【図面の簡単な説明】
【図1】本発明の一実施形態の音声対話システムにおける音声認識部の構成を示すブロック図である。
【図2】図1に示す認識率推定部3の動作を示すフローチャートである。
【図3】合計スコアと認識率結果から認識率推定曲線を算出する方法を示した図である。
【符号の説明】
1・・・音響分析部
2・・・言語分析部
3・・・認識率推定部
4・・・探索部
5・・・対話制御部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech recognition rate estimation method and a speech recognition rate estimation program, and an information service providing system having a speech recognition function for speech input from a user, such as a telephone, a mobile phone, a portable information terminal, and an in-vehicle information terminal. The present invention relates to a method for estimating an expected speech recognition rate at the time of speech input.
[0002]
[Prior art]
If the recognition rate in the case of a certain number of vocabulary is known, the recognition rate in the case of n words can be estimated from an empirical rule that the recognition error rate is proportional to the square root of the number of vocabularies (for example, patents) Reference 1). However, it is extremely difficult to estimate the recognition rate from the number of recognized vocabularies because the number of users is unspecified and the noise environment around the users is not constant. Have difficulty. In addition, in the conventional spoken dialogue system, only a method for improving the recognition rate has been studied, and no method for positively estimating the recognition rate at the time of utterance input is found. In this way, in the speech recognition system, when providing information services to users, as a strategy for completing with minimal interaction, conventionally, the speech recognition rate has been improved by some technical device. It has been common practice to minimize recognition errors, but the current speech recognition technology is not yet perfect, and it is very difficult to always obtain a high recognition rate in various user environments. ing.
[0003]
[Patent Document 1]
JP 2002-278589 A [0004]
[Problems to be solved by the invention]
By the way, in a general voice dialogue system, a dialogue scenario is designed on the assumption of a certain recognition error. If it is good, the proportion of confirmation responses that are not necessary increases. Therefore, in order to minimize the expected value of the dialogue length in the utterance situation of various users, the next confirmation contents are variably determined from the probability distribution of the user request and the expected number of turns (number of dialogue exchanges). Means to do this has been proposed (Patent Document 1).
[0005]
However, in order to accurately estimate the expected number of turns, it is necessary to sequentially estimate the speech recognition rate in accordance with the user's utterance environment that changes from moment to moment. No means have been proposed, and in the actual usage environment, the estimation accuracy of the expected number of turns deteriorated, and as a result, the expected value of the dialog length may not be shortened.
[0006]
The present invention has been made in view of such circumstances, and provides a speech recognition rate estimation method and a speech recognition rate estimation program for sequentially estimating a speech recognition rate assumed in a speech dialogue system at the time of utterance input. Objective.
[0007]
[Means for Solving the Problems]
The invention according to claim 1 is a method for estimating a speech recognition rate in a speech dialogue system that provides an information service by a dialogue between a user and a computer system by speech, and by analyzing input speech A process of inputting an obtained acoustic score and a language score, a process of inputting a speech recognition result at the time of execution of an interactive operation, and a process of calculating a total score by adding the acoustic score and the language score A process of obtaining a correlation curve between the total score and the speech recognition rate in advance based on the total score and the speech recognition result; and a newly input acoustic score and language with reference to the correlation curve And a step of estimating a speech recognition rate corresponding to a total score obtained by adding the scores.
[0008]
The invention according to
[0009]
DETAILED DESCRIPTION OF THE INVENTION
A speech recognition system according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the embodiment. Reference numeral 1 captures speech speech that is input directly through a microphone spoken by a user or indirectly through a telephone network, a mobile phone network, the Internet, a local area network, etc., extracts feature parameters, This is an acoustic analysis unit that adds an acoustic score to a word group in the dictionary and sends the result.
[0010]
Next, the operation of the recognition
First, the recognition
[0011]
On the other hand, the recognition
[0012]
Next, the operation of the recognition
(Number of recognition successes / (Number of recognition successes + Number of recognition failures)) × 100 (1)
[0013]
Next, the recognition
[0014]
Next, an operation for estimating the speech recognition rate based on the previously obtained approximate curve (correlation curve) will be described. The recognition
[0015]
Next, the operation for updating the approximate curve will be described. The recognition
[0016]
The total score is not limited to the simple sum of the acoustic score and the language score. The total score is the result of performing an operation such as multiplying an appropriate coefficient or adding a constant to optimize the estimated speech recognition rate. It may be used.
[0017]
As described above, when an approximate curve representing the correlation between the sum of each score and the recognition rate is generated from the acoustic score, the language score, and the recognition result generated by the speech recognition system in the speech dialogue system, and when the speech input is made. Since the expected speech recognition rate can be estimated, the expected value of the number of dialogue turns is minimized, that is, until the user achieves the purpose of using the service when providing information services using voice dialogue. It is possible to shorten the time required for this. Further, as the recognition result accumulates, the accuracy of the approximate curve representing the correlation between the total score and the recognition rate can be improved.
[0018]
Note that a program for realizing the functions of the processing unit in FIG. 1 is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into a computer system and executed to estimate the speech recognition rate. Processing may be performed. The “computer system” here includes an OS and hardware such as peripheral devices. The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
[0019]
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
[0020]
【The invention's effect】
As described above, according to the present invention, it is possible to estimate a speech recognition rate with high accuracy each time a user speaks in a speech dialogue system. As a result, in a spoken dialogue system that performs dialogue scenario control using the estimated speech recognition rate, the expected value of the number of dialogue turns is minimized, that is, when providing an information service using voice dialogue, the service is started. As a result, it is possible to minimize the expectation of the length of dialogue time from completion to completion, so that the time required for the user to achieve the purpose of using the service can be shortened. It is done.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a voice recognition unit in a voice dialogue system according to an embodiment of the present invention.
FIG. 2 is a flowchart showing an operation of a recognition
FIG. 3 is a diagram showing a method of calculating a recognition rate estimation curve from a total score and a recognition rate result.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ...
Claims (2)
入力音声を分析することにより得られた音響スコアと言語スコアとを入力する過程と、
対話動作の実行時における音声認識結果を入力する過程と、
前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する過程と、
前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく過程と、
前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する過程と、
を有することを特徴とする音声認識率推定方法。A method for estimating a speech recognition rate in a speech dialogue system that provides an information service by a dialogue between a user and a computer system,
A process of inputting an acoustic score and a language score obtained by analyzing the input speech;
A process of inputting a speech recognition result at the time of executing a dialogue operation;
Calculating a total score by adding the acoustic score and the language score;
A process of obtaining a correlation curve between the total score and the speech recognition rate in advance based on the total score and the speech recognition result;
Referring to the correlation curve, estimating a speech recognition rate corresponding to a total score obtained by adding a newly input acoustic score and a language score;
A speech recognition rate estimation method characterized by comprising:
入力音声を分析することにより得られた音響スコアと言語スコアとを入力する処理と、
対話動作の実行時における音声認識結果を入力する処理と、
前記音響スコアと前記言語スコアとを加算することにより合計スコアを計算する処理と、
前記合計スコアと前記音声認識結果とに基づいて、該合計スコアと音声認識率との相関曲線を予め求めておく処理と、
前記相関曲線を参照して、新たに入力された音響スコアと言語スコアとを加算した合計スコアに対応する音声認識率を推定する処理と、
をコンピュータに行わせることを特徴とする音声認識率推定プログラム。A speech recognition rate estimation program that operates in a speech dialogue system that provides information services by dialogue between a user and a computer system,
A process of inputting an acoustic score and a language score obtained by analyzing the input speech;
A process of inputting a speech recognition result at the time of executing a dialogue operation;
A process of calculating a total score by adding the acoustic score and the language score;
Based on the total score and the speech recognition result, a process for obtaining a correlation curve between the total score and the speech recognition rate in advance;
A process of estimating a speech recognition rate corresponding to a total score obtained by adding a newly input acoustic score and a language score with reference to the correlation curve;
A speech recognition rate estimation program characterized by causing a computer to perform.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003181220A JP2005017603A (en) | 2003-06-25 | 2003-06-25 | Method and program for estimating speech recognition rate |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003181220A JP2005017603A (en) | 2003-06-25 | 2003-06-25 | Method and program for estimating speech recognition rate |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005017603A true JP2005017603A (en) | 2005-01-20 |
Family
ID=34181984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003181220A Pending JP2005017603A (en) | 2003-06-25 | 2003-06-25 | Method and program for estimating speech recognition rate |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005017603A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013232017A (en) * | 2006-04-03 | 2013-11-14 | Vocollect Inc | Method and system for assessing and improving performance of speech recognition system |
JP2015530614A (en) * | 2012-08-30 | 2015-10-15 | インタラクティブ・インテリジェンス・インコーポレイテッド | Method and system for predicting speech recognition performance using accuracy scores |
US10019983B2 (en) | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
-
2003
- 2003-06-25 JP JP2003181220A patent/JP2005017603A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013232017A (en) * | 2006-04-03 | 2013-11-14 | Vocollect Inc | Method and system for assessing and improving performance of speech recognition system |
JP2015530614A (en) * | 2012-08-30 | 2015-10-15 | インタラクティブ・インテリジェンス・インコーポレイテッド | Method and system for predicting speech recognition performance using accuracy scores |
US10019983B2 (en) | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
US10360898B2 (en) | 2012-08-30 | 2019-07-23 | Genesys Telecommunications Laboratories, Inc. | Method and system for predicting speech recognition performance using accuracy scores |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200312329A1 (en) | Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words | |
US8306819B2 (en) | Enhanced automatic speech recognition using mapping between unsupervised and supervised speech model parameters trained on same acoustic training data | |
US7925505B2 (en) | Adaptation of language models and context free grammar in speech recognition | |
TW580690B (en) | System and method for voice recognition in a distributed voice recognition system | |
JP5223673B2 (en) | Audio processing apparatus and program, and audio processing method | |
JP2017107078A (en) | Voice interactive method, voice interactive device, and voice interactive program | |
US10468016B2 (en) | System and method for supporting automatic speech recognition of regional accents based on statistical information and user corrections | |
WO2016151698A1 (en) | Dialog device, method and program | |
US20040190732A1 (en) | Method of noise estimation using incremental bayes learning | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
JP2011158902A (en) | Speech recognition apparatus, speech recognition method, and speech recognition robot | |
JP2006087082A (en) | Method and apparatus for multi-sensory voice enhancement | |
EP3092639B1 (en) | A methodology for enhanced voice search experience | |
US20090024390A1 (en) | Multi-Class Constrained Maximum Likelihood Linear Regression | |
JP6051004B2 (en) | Speech recognition apparatus, error correction model learning method, and program | |
JP2004310098A (en) | Method for speech recognition using variational inference with switching state spatial model | |
US20030191637A1 (en) | Method of ITERATIVE NOISE ESTIMATION IN A RECURSIVE FRAMEWORK | |
JP2012504250A (en) | Speech recognition method | |
JP2005522720A (en) | Distributed automatic speech recognition method and distributed automatic speech recognition system | |
JP2001125588A (en) | Method and device for voice recognition and recording medium | |
JP2005017603A (en) | Method and program for estimating speech recognition rate | |
JP2017161644A (en) | Speech processing system and speech processing method | |
JP5715526B2 (en) | Dialog processing device, dialog processing method, and dialog processing program | |
JP2016206442A (en) | Threshold value estimation device, voice synthesis device, method thereof, and program | |
KR101196976B1 (en) | Confirmation enabled Probabilistic and Example-based Spoken Dialog System |