JP6280074B2

JP6280074B2 - 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム

Info

Publication number: JP6280074B2
Application number: JP2015061834A
Authority: JP
Inventors: 智子川瀬; 小林　和則; 和則小林; 仲大室
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-03-25
Filing date: 2015-03-25
Publication date: 2018-02-14
Anticipated expiration: 2035-03-25
Also published as: JP2016180917A

Description

本発明は、ユーザの言い直し発話を検出する言い直し検出装置、言い直し検出装置を含む音声認識システム、言い直し検出方法、プログラムに関する。

従来、音声認識結果の正誤を判定する機能を備える音声認識装置が知られている（例えば特許文献１）。特許文献１の音声認識装置は、利用者から入力された音声（第１の音声）の音声認識結果に対して確認発話を利用者に出力し、この確認発話に対する利用者からの応答（第２の音声）を受け取り、確認発話が誤っている場合に特徴的なパラメータ、利用者の応答内容、この応答における入力音声の発話時間長、同じ発話が繰り返されているかどうか、入力音声信号のピッチがそれまでの平均ピッチよりも高いかどうか、入力音声信号のパワーがそれまでの発声のパワーよりも大きいかどうか、のうちの１つまたは複数の情報を利用して音声認識結果の正誤を判定する。

特許文献１の音声認識装置は、第１の音声の認識結果に対して確認発話を要求する対話音声を提示し、利用者の第２の音声として「はい」「いいえ」のような肯定／否定の確認音声またはその他の発話を認識し、利用者の第２の音声がその他の発話の場合、発話内に直前の発話に類似の内容語を含んでいることに基づき、前回の音声認識結果が誤っている（利用者は何らかの「訂正」の発話を行っている）と判断する。

特開２００１−２３６０９１号公報

しかし２つの音声の間に類似の内容語が含まれていたとしても、両者が訂正発話（言い直し）の関係にあるとは限らない。先の発話は誤認識を含んでいて、その誤認識部分に類似の内容語があるとするならば、内容語だけに着目して訂正発話を判別した結果が正しいとは限らない。

あるいはピッチ周波数の変化や発声のパワーなどの音響特徴量の変化に着目しても、これらの特徴量は発声の都度、発声環境の影響も受けて変化しやすいため、訂正発話（言い直し）の関係であるかどうかの判定に用いることは難しい。

そこで本発明では、訂正発話（言い直し発話）の有無を、発話ごとの音響特徴量の変化を根拠とせずに判定することができる言い直し検出装置を提供する。

本発明の言い直し検出装置は、音響信号を入力とし、音響信号に対する音声認識結果を呈示する言い直し検出装置であって、反応時間測定部と、判定部を含む。

反応時間測定部は、ｍを２以上の整数とし、ｍ−１番目に入力された音響信号に対する音声認識結果が呈示された時刻とｍ番目に入力された音響信号の入力時刻との差分をｍ−１番目の反応時間として測定する。判定部は、ｍ−１番目の反応時間に基づいて、ｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定する。

本発明の言い直し検出装置によれば、訂正発話（言い直し発話）の有無を、発話ごとの音響特徴量の変化を根拠とせずに判定することができる。

実施例１の言い直し検出装置の構成を示すブロック図。実施例１の変形例の音声認識システムの構成を示すブロック図。実施例１の言い直し検出装置、又はその変形例の音声認識システムの音声認識動作を示すフローチャート。実施例１の言い直し検出装置、又はその変形例の音声認識システムの言い直し判定動作を示すフローチャート。実施例１の言い直し検出装置、又はその変形例の音声認識システムの言い直し判定動作を例示する図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下の説明では、音声認識対象とする発声された信号を音声信号、音声信号と音声信号以外の背景雑音信号などが混在した状態で収音した信号を音響信号と呼ぶこととする。

以下、図１、図２を参照して実施例１の言い直し検出装置、およびその変形例の音声認識システムの構成について説明する。図１は、本実施例の言い直し検出装置１７の構成を示すブロック図である。図２は、本実施例の変形例の音声認識システム２の構成を示すブロック図である。図１に示すように本実施例の言い直し検出装置１７は、反応時間測定部１７Ａと、信頼度算出部１７Ｂと、類似度算出部１７Ｃと、判定部１７Ｄと、音響信号取得部１７Ｅと、音声認識部１７Ｆと、呈示部１７Ｇを含む。図１に示した言い直し検出装置１７の構成要件のうち、信頼度算出部１７Ｂと、音声認識部１７Ｆに関しては、外部の装置、例えば図２に示す音声認識サーバ装置２１内の構成要件としてもよい。この場合、反応時間測定部１７Ａ、類似度算出部１７Ｃ、判定部１７Ｄ、音響信号取得部１７Ｅ、呈示部１７Ｇを含む言い直し検出装置２７と、信頼度算出部１７Ｂ、音声認識部１７Ｆを含む音声認識サーバ装置２１とで音声認識システム２が構成される。この場合、言い直し検出装置２７と音声認識サーバ装置２１は、ネットワークを介し、無線または有線で通信可能に接続されているものとする。

図２に示す音声認識システム２の各構成要件は図１に示す言い直し検出装置１７内において同一符号を付した各構成要件と同じ動作をするため、以下の説明では、言い直し検出装置１７のみを説明する。なお、言い直し検出装置１７、２７、音声認識サーバ装置２１はそれぞれ複数台ずつ存在していてもよい。

以下、図３を参照して本実施例の言い直し検出装置１７の音声認識動作を説明する。図３は、本実施例の言い直し検出装置１７、又はその変形例の音声認識システム２の音声認識動作を示すフローチャートである。音響信号取得部１７Ｅは、音響信号を取得する（１７Ｅ）。具体的には、音響信号取得部１７Ｅにはマイクロフォンなどの収音手段が含まれ、音響信号取得部１７Ｅは収音手段により音響信号を取得する。音響信号取得部１７Ｅは、音響信号を取得した時刻を一時記憶するものとする。

ここで、言い直し検出装置１７には全部でＭ個（ＭはＭ≧２を充たす整数）の音響信号が入力されたものとする。音声認識部１７Ｆは入力された音響信号を音声認識する（Ｓ１７Ｆ）。呈示部１７Ｇは、音声認識結果をユーザに呈示する（Ｓ１７Ｇ）。呈示部１７Ｇは、音声認識結果をユーザに呈示した時刻を一時記憶するものとする。

次に、図４を参照して本実施例の言い直し検出装置１７の言い直し判定動作を説明する。図４は、本実施例の言い直し検出装置１７、又はその変形例の音声認識システム２の言い直し判定動作を示すフローチャートである。以下ではｍ番目（ｍを２≦ｍ≦Ｍを充たす整数とする）の音響信号が言い直しであるか否かが判定される場合について説明する。

反応時間測定部１７Ａは、ｍ−１番目に入力された音響信号に対する音声認識結果が呈示された時刻とｍ番目に入力された音響信号の入力時刻との差分をｍ−１番目の反応時間として測定する（Ｓ１７Ａ）。信頼度算出部１７Ｂは、ｍ−１番目に入力された音響信号に対する音声認識結果の信頼度をｍ−１番目の信頼度として算出する（Ｓ１７Ｂ）。類似度算出部１７Ｃは、ｍ−１番目、ｍ番目に入力された各音響信号の類似度をｍ−１番目の第１類似度、ｍ−１番目、ｍ番目に入力された各音響信号に対する各音声認識結果の類似度をｍ−１番目の第２類似度とし、少なくとも何れかのｍ−１番目の類似度を算出する（Ｓ１７Ｃ）。言い直し検出部１７の言い直し判定動作に必須な構成要件は反応時間測定部１７Ａと判定部１７Ｄのみであって、信頼度算出部１７Ｂ、類似度算出部１７Ｃは、適宜省略することができる。

判定部１７Ｄは、少なくともｍ−１番目の反応時間に基づいて、ｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定する（Ｓ１７Ｄ）。判定部１７Ｄは、ｍ−１番目の反応時間に加え、ステップＳ１７Ｂで算出したｍ−１番目の信頼度、ステップＳ１７Ｃで算出したｍ−１番目の第１類似度、またはｍ−１番目の第２類似度に基づいてｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定してもよい（Ｓ１７Ｄ）。判定部１７Ｄは、ｍ番目に入力された音響信号に言い直し発話が含まれないと判定した場合に、ｍ−１番目に入力された音響信号に対する音声認識結果を正解の音声認識結果と判定することができる。また、判定部１７Ｄは、ｍ番目に入力された音響信号に言い直し発話が含まれると判定した場合に、ｍ−１番目に入力された音響信号に対する音声認識結果を誤認識と判定することができる。

典型的には、判定部１７Ｄはｍ−１番目の反応時間が所定の閾値よりも小さく、ｍ−１番目の信頼度が所定の閾値と比較して低く、ｍ−１番目の第１、または第２類似度が所定の閾値よりも高くなる場合などに、ｍ番目に入力された音響信号に言い直し発話が含まれると判定し、ｍ−１番目に入力された音響信号に対する音声認識結果は誤認識であると判定する。ステップＳ１７Ｃにおける類似度は、例えば次のいずれかとすることができる。
・第１類似度として、各音響信号の特徴量のユークリッド距離の逆数値や符号を反転した値。特徴量としてケプストラムやパワー、またはそれらの変化量を用いることができる。
・第２類似度として、音声認識部１７Ｆから得た各音声認識結果の文字列の編集距離の逆数値や符号を反転した値。ここで文字列とは表記上の文字列に限定するものではなく、文字列の読みを読み仮名や音素表記へ変換した文字列でも良い。

ユーザの反応時間は、ユーザが認識結果を読んで理解するまでの時間を意味する。従って、反応時間を判定するための閾値は、認識結果として提示する文字数に比例した値としても良い。また認識結果に漢字が含まれる場合は漢字の文字数に応じてより長い閾値としても良い。

言い直しの判定に上述の反応時間を用いたのは、言い直しの場合、そうでない場合に比べて、前の認識結果の呈示を見てから次の発話を行うまでの時間が短くなる傾向が認められるからである。

例えば、ユーザのｍ−１番目の発話に対する音声認識結果を、呈示部１７Ｇがテキストで呈示する場合に着目する。呈示された音声認識結果が正解である場合、ユーザは当該音声認識結果を文末まで目視で確認した上で次の発話（ｍ番目の発話）を実行するのが一般的である。しかしながらｍ−１番目の発話に対する音声認識結果の途中に誤認識が存在する場合、ユーザは当該音声認識結果を文末まで目視で確認せずに、誤認識を認知した時点で次の発話（ｍ番目の発話）を実行するのが一般的である。このように、音声認識結果が正解であった場合と誤認識を含んでいた場合とで、ユーザの反応時間が異なる。本実施例の言い直し検出装置１７はこのようなユーザの性質に注目したため、発話ごとの音響特徴量の変化を根拠とせずに、言い直し発話の有無を判定することができる。

また言い直しの判定に信頼度を用いたのは、認識結果が誤っている場合、当該音声認識結果の信頼度が低くなる傾向が認められるからである。また言い直しの判定に類似度を用いたのは、言い直しの場合、発話同士の類似度が高くなる傾向が認められるからである。

ｍ−１番目の信頼度（信頼度の例として、例えば参考非特許文献１参照）を確認することによって、ｍ−１番目に入力された音響信号に対する音声認識結果に誤認識が含まれている場合の、ｍ−１番目の信頼度の傾向をつかむことができ、ｍ番目の発話が訂正発話（言い直し発話）であるか否かをより確実に判定することができる。
（参考非特許文献１：中川聖一,堀部千寿,“音響尤度と言語尤度を用いた音声認識結果の信頼度の算出”,情報処理学会研究報告,音声言語情報処理,SLP36-13,pp.87-92,2001）
以下、図５を参照して言い直し検出装置１７の言い直し判定動作の例について説明する。図５は、本実施例の言い直し検出装置１７、又はその変形例の音声認識システム２の言い直し判定動作を例示する図である。図５に示すように、言い直し検出装置１７のユーザ９が、言い直し検出装置１７に向かって「きりゅう」（桐生）と発話（以下、この発話を発話１という）したものとする。音響信号取得部１７Ｅは、発話１を含む音響信号を音声認識部１７Ｆに送信する。音声認識部１７Ｆは、発話１を含む音響信号を音声認識し、音声認識結果「知立」（ちりゅう）を呈示部１７Ｇに送信する（以下、この音声認識結果を認識結果１という）。呈示部１７Ｇは認識結果１をユーザ９に呈示する。

ユーザ９は呈示された認識結果１が誤認識であることに気付いて、先ほどと同じように言い直し検出装置１７に向かって「きりゅう」（桐生）と発話（以下、この発話を発話２という）したものとする。音響信号取得部１７Ｅは、発話２を含む音響信号を音声認識部１７Ｆに送信する。音声認識部１７Ｆは、発話２を含む音響信号を音声認識し、音声認識結果「桐生」（きりゅう）を呈示部１７Ｇに送信する（以下、この音声認識結果を認識結果２という）。呈示部１７Ｇは認識結果２をユーザ９に呈示する。

ユーザ９は呈示された認識結果２を見て、正しく音声認識が実行されたことを確認し、今度は言い直し検出装置１７に向かって「くどう」（工藤）と発話（以下、この発話を発話３という）したものとする。音響信号取得部１７Ｅは、発話３を含む音響信号を音声認識部１７Ｆに送信する。音声認識部１７Ｆは、発話３を含む音響信号を音声認識し、音声認識結果「工藤」（くどう）を呈示部１７Ｇに送信する（以下、この音声認識結果を認識結果３という）。呈示部１７Ｇは認識結果３をユーザ９に呈示する。

上述の例において、反応時間測定部１７Ａは、認識結果１の呈示時刻と発話２を含む音響信号の入力時刻との差分である反応時間（以下、反応時間１という）を測定する（Ｓ１７Ａ）。信頼度算出部１７Ｂは、認識結果１の信頼度を算出する（Ｓ１７Ｂ）。類似度算出部１７Ｃは、発話１を含む音響信号と発話２を含む音響信号の類似度（第１類似度）、あるいは認識結果１と認識結果２の類似度（第２類似度）の少なくとも何れかを算出する（Ｓ１７Ｃ）。この場合、判定部１７Ｄは反応時間１が所定の閾値よりも小さくなる、認識結果１の信頼度が所定の閾値と比較して低くなる、発話１を含む音響信号と発話２を含む音響信号の類似度（第１類似度）、あるいは認識結果１と認識結果２の類似度（第２類似度）が所定の閾値よりも高くなることなどから、認識結果１は誤認識であり、発話２はユーザによる言い直し発話であると判定する（Ｓ１７Ｄ）。

同様に、判定部１７Ｄは反応時間２が所定の閾値よりも小さくならない（反応時間２が十分に長い）、認識結果２の信頼度が所定の閾値と比較して低くならない（認識結果２の信頼度が十分に高い）、発話２を含む音響信号と発話３を含む音響信号の類似度（第１類似度）、あるいは認識結果２と認識結果３の類似度（第２類似度）が所定の閾値よりも高くならない（二つの音響信号、あるいは認識結果が十分に非類似である）ことなどから、認識結果２は正解の音声認識結果であり、発話３はユーザによる言い直し発話ではないものと判定する（Ｓ１７Ｄ）。

前述した言い直し発話の判定は一度限りではなく全てのｍ（ｍ＝２，３，…，Ｍ）に対して実行されてもよい。この場合ステップＳ１７Ｄにおいて、複数回連続して言い直し発話が含まれるものと判定される場合もある。例えば図５において、発話２が言い直し発話と判定された後で、発話２と発話３との間で、反応時間２が所定の閾値よりも小さくなる、認識結果２の信頼度が所定の閾値と比較して低くなる、発話２を含む音響信号と発話３を含む音響信号の類似度（第１類似度）、あるいは認識結果２と認識結果３の類似度（第２類似度）が所定の閾値よりも高くなる、などの場合には、発話３も発話２に続けてユーザによる言い直し発話であると判定されることになる。

このように本実施例の言い直し検出装置１７、本実施例の変形例の音声認識システム２によれば、反応時間測定部１７Ａがｍ−１番目に入力された音響信号に対する音声認識結果が呈示された時刻とｍ番目に入力された音響信号の入力時刻との差分をｍ−１番目の反応時間として測定し、判定部１７Ｄは、少なくともｍ−１番目の反応時間に基づいて、ｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定するため、発話ごとの音響特徴量の変化を根拠とせずに、言い直し発話の有無を高精度に判定することができる。

本実施例の言い直し検出装置１７の好適な適用先として、ユーザが一つの発話ごとに音声認識結果を確認するが、音声による入力操作以外の入力操作が制限された環境で用いられる音声認識システムが挙げられる。このような音声認識システムとして例えば車載音声認識システムが挙げられる。＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

音響信号を入力とし、前記音響信号に対する音声認識結果を呈示する言い直し検出装置であって、
ｍを２以上の整数とし、ｍ−１番目に入力された音響信号に対する音声認識結果が呈示された時刻とｍ番目に入力された音響信号の入力時刻との差分をｍ−１番目の反応時間として測定する反応時間測定部と、
前記ｍ−１番目に入力された音響信号に対する音声認識結果の信頼度をｍ−１番目の信頼度として算出する信頼度算出部と、
前記ｍ−１番目の反応時間と、前記ｍ−１番目の信頼度に基づいて前記ｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定する判定部を含む
言い直し検出装置。
請求項１に記載の言い直し検出装置であって、
前記ｍ−１番目、ｍ番目に入力された各音響信号の類似度をｍ−１番目の第１類似度、前記ｍ−１番目、ｍ番目に入力された各音響信号に対する各音声認識結果の類似度をｍ−１番目の第２類似度とし、少なくとも何れかのｍ−１番目の類似度を算出する類似度算出部を含み、
前記判定部は、
前記ｍ−１番目の反応時間に加え、前記少なくとも何れかのｍ−１番目の類似度に基づいて前記ｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定する
言い直し検出装置。
請求項１または２に記載の言い直し検出装置であって、
前記判定部は、
前記ｍ番目に入力された音響信号に言い直し発話が含まれないと判定した場合に、前記ｍ−１番目に入力された音響信号に対する音声認識結果を正解の音声認識結果と判定する言い直し検出装置。
音響信号を入力とし、前記音響信号に対する音声認識結果を呈示する言い直し検出装置と、前記音響信号に対する音声認識を実行する音声認識サーバ装置を含む音声認識システムであって、
前記音声認識サーバ装置は、
前記ｍ−１番目に入力された音響信号に対する音声認識結果の信頼度をｍ−１番目の信頼度として算出する信頼度算出部を含み、
前記言い直し検出装置は、
ｍを２以上の整数とし、ｍ−１番目に入力された音響信号に対する音声認識結果が呈示された時刻とｍ番目に入力された音響信号の入力時刻との差分をｍ−１番目の反応時間として測定する反応時間測定部と、
前記ｍ−１番目の反応時間と、前記ｍ−１番目の信頼度に基づいて前記ｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定する判定部を含む
音声認識システム。
音響信号を入力とし、前記音響信号に対する音声認識結果を呈示する言い直し検出装置が実行する言い直し検出方法であって、
ｍを２以上の整数とし、ｍ−１番目に入力された音響信号に対する音声認識結果が呈示された時刻とｍ番目に入力された音響信号の入力時刻との差分をｍ−１番目の反応時間として測定するステップと、
前記ｍ−１番目に入力された音響信号に対する音声認識結果の信頼度をｍ−１番目の信頼度として算出するステップと、
前記ｍ−１番目の反応時間と、前記ｍ−１番目の信頼度に基づいて、前記ｍ番目に入力された音響信号に言い直し発話が含まれるか否かを判定するステップを含む
言い直し検出方法。
コンピュータを請求項１から３の何れかに記載の言い直し検出装置として機能させるためのプログラム。