JP2018507446A

JP2018507446A - 音声認識結果の後処理のための方法およびシステム

Info

Publication number: JP2018507446A
Application number: JP2017564802A
Authority: JP
Inventors: ジャン−リュック・フォルスター
Original assignee: ゼテス・インダストリーズ・エス・ア
Priority date: 2015-03-06
Filing date: 2016-03-02
Publication date: 2018-03-15
Anticipated expiration: 2036-03-02
Also published as: WO2016142235A1; CN107750378A; BE1023435A1; US20180151175A1; ES2811771T3; BE1023435B1; PL3065131T3; EP3065131A1; PT3065131T; JP6768715B2; EP3065131B1

Abstract

音声認識結果の後処理のための方法およびシステム。本発明は、音声認識結果(100)の後処理のための方法に関し、前記結果(100)は、先頭(111)、終了(112)、および複数の要素(113)を備え、前記方法は、以下のステップ、すなわち、前記結果(100)を読み取るステップと、その要素(113)のうちの1つを選択するステップと、その要素が有効であるか否かを判定するステップと、要素(113)を選択し、その有効性または無効性を判定するステップを繰り返すステップと、少なくとも1つの要素(113)が、有効であると判定されると、少なくとも1つのそのような有効な要素(113)を再使用することによって、後処理された解(200)を決定するステップとを備える。本発明の方法は、前記要素(113)が、結果(100)の前記終了(112)から前記先頭(111)へと、連続方式で選択されることを特徴とする。

Description

第1の態様に従って、本発明は、音声認識結果を後処理するための方法に関する。第2の態様に従って、本発明は、音声認識結果を後処理するためのシステム(またはデバイス)に関する。第3の態様に従って、本発明は、プログラムに関する。第4の態様に従って、本発明は、命令を備える記憶媒体(たとえば、USBスティック、CD-ROM、またはDVDディスク)に関する。

音声認識エンジンは、話されたまたはオーディオのメッセージから、一般にマシンによって処理され得るテキストまたはコードの形態で、結果が生成されることを可能にする。この技術は、現在広く普及しており、非常に有用であると考えられる。音声認識の様々な応用は、特に米国特許第6754629(B1)号であるドキュメントで教示されている。

音声認識エンジンによって提供される結果を改善するための研究が存在する。たとえば、米国特許出願公開第2014/0278418(A1)号は、それに従って、音声認識エンジンの音声認識アルゴリズムを適合させるために、話者のアイデンティティを使用することを提案する。このアルゴリズムの適合は、たとえば、話者またはユーザがどのように話すのかを考慮するために、その音声学辞書を修正することによって、同じ音声認識エンジン内で生じる。

音声認識結果は一般に、静寂によって分離される、たとえば単語のような要素のシリーズを備える。その結果は、先頭と終了によって特徴付けられ、それらの要素は、この先頭とこの終了との間に時間的に配置される。

音声認識エンジンによって提供される結果は、たとえば、記事番号または実行されるべき命令のような情報を、たとえば、コンピュータシステムへ入力するために使用され得る。この結果はしばしば、そこから後処理された解を抽出するために、粗雑な認識結果を使用するのではなく、1つまたは複数の後処理演算を受ける。たとえば、先頭から終了まで音声認識結果をブラウズし、有用な情報が5つよりも多くの要素(たとえば、要素は単語)を備えてないことが知られているのであれば、たとえば、有効であると考慮される最初の5つの要素を保持することが可能である。実際、有用な情報(たとえば、コード)が5つよりも多くの単語(たとえば、5つの数字)を備えていないことを知っていると、音声認識結果から最初の有効な5つの要素のみを保持するという決定がしばしばなされる。後続するどの追加要素も、期待される情報に対して余分であると考慮され、したがって、無効であると考慮される。

そのような後処理方法は必ずしも、許容可能な解を提供するとは限らない。したがって、発明者は、いくつかの場合において、そのような方法は、後処理された誤った解、すなわち、話者によって実際に提供されねばならない情報と一致しない解の生成に帰着し得ることを発見した。したがって、この後処理方法は、十分に信頼性の高いものではない。

米国特許第6754629(B1)号米国特許出願公開第2014/0278418(A1)号

第1の態様に従って、本発明の目的の1つは、音声認識結果を後処理するための、より信頼性の高い方法を提供することである。この目的のために、発明者は、以下の方法を提案する。音声認識結果を後処理するための方法であって、前記結果は、先頭と、終了と、前記先頭および前記終了の間に分散された複数の要素とを備え、前記後処理方法は、以下のステップ、すなわち、
i)前記結果を受信するステップと、
ii)ステップiii.a)の検証テストを受けていない前記複数の要素のうちの要素を分離する(または、考慮する、選択する)ステップと、
iii)その後、
a.ステップii)の間に要素が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv)へ進むステップと、
iv)ステップii)およびステップiii)を(以下の順序、すなわち、ステップii)、その後ステップiii))で繰り返すステップと、
v)少なくとも1つの要素が、ステップiii.a)において有効であると判定されると、ステップiii.a)において有効であると判定された少なくとも1つの要素を使用して(または、再使用して)、後処理された解を決定するステップとを備える、方法において、
ステップii)において分離された各要素が、結果の前記終了から、結果の前記先頭へと、連続方式で(または、継続方式で、すなわち、要素をスキップすることなく)選択されることを特徴とする、方法。

本発明の方法を用いて、音声認識結果が、終了から先頭へとブラウズされる。実際、発明者は、メッセージを音声認識エンジンへ口述している人は、終了ではなく先頭において、躊躇および/または誤りをする大きな傾向を有することを発見した。先頭からではなく、終了から音声認識結果を処理することによって、本発明の方法は、正しい情報を有する高い可能性を持つ結果の部分を与える。したがって、結局、この方法は、より信頼性が高い。

以下の例を考慮されたい。読まれるべきコードが、4531であるとする。オペレータは、コードを読む場合、「5、4、うーん、4、5、3、1」と言う。一般に、音声認識エンジンは、「5、4、1、4、5、3、1」または「5、4、4、5、3、1」のいずれかの結果を提供するであろう。第1の場合では、「うーん」は「1」に関連付けられる。第2の場合では、エンジンは、「うーん」の結果を提供しない。(音声認識エンジンへ統合され得る)後処理システムが、結果が4つよりも多くの良好な要素(この場合、数字)を有するはずはないことを認識していると仮定すると、結果の先頭から終了まで結果をブラウズする後処理システムは、以下に示す後処理された解、5414または5445(かつ4531ではない)、を提供するであろう。本発明の方法は、4531、すなわち正しい解を提供するであろう。

発明者は、この例によって例示される状況、すなわち、オペレータが、記録されたシーケンスの終了においてではなく、先頭において躊躇または誤りをするより高い傾向を有するという事実が、その逆の場合よりもより一般的であると述べた。したがって、全体として、本発明の方法は、正しくない結果をより少なくしか提供しないので、より信頼性が高い。正しい後処理された解を取得する可能性もまた、本発明の方法ではより高い。したがって、それはより効率的でもある。

本発明の方法は、他の利点を有する。本発明の方法は、実施することが容易である。特に本発明の方法は、多くの実施ステップを必要としない。また、実施ステップは単純である。これらの態様は、たとえば、音声認識結果を使用したコンピュータシステムへの、または、たとえば、音声認識エンジンにおける、本発明の方法の統合を容易にする。

本発明の後処理方法は、音声認識結果をフィルタするための方法であると考慮され得る。実際、無効な要素は、後処理された解を決定するために使用されない。

音声認識結果は、一般に、マシンによって読み取られ得るテキストまたはコードの形態である。結果の要素は、結果に関連付けられた時間スケールtに沿った異なる2つの時間によって境界を定められ、静寂または背景雑音であるとは考慮されない結果からの情報のアイテムを表す。一般に、要素は、音素のグループである。音素は、当業者に知られている。好適には、要素は、単語である。要素はまた、単語のグループまたは組合せであり得る。単語の組合せの例は、「操作をキャンセルする」である。

本発明の範囲内で、異なるタイプの音声認識結果が存在し得る。第1の可能な例に従って、音声認識結果は、ユーザまたは話者によって話されたメッセージから音声認識エンジンによって提供される仮説を表す。一般に、音声認識エンジンは、ユーザによって話されたメッセージから複数(たとえば、3つ)の仮説を提供する。この場合、音声認識エンジンは、一般に、各仮説についてスコア(音声認識エンジンのタイプの機能として様々な単位で表現され得る)を提供する。好適には、本発明の後処理方法はその後、予め決定されたスコア以上のスコアを有する1つまたは複数の仮説のみを選択する予備的ステップを備える。たとえば、使用される音声認識エンジンが、Nuance VoCon(R) 3200 V3.14モデルであれば、前記予め決定されたスコアは4000である。上述されたステップ(ステップi)、ii)、iii)、iv)、v))は、その後、前記予め決定されたスコア以上のスコアを有する結果へのみ適用される。

別の可能な例に従って、音声認識結果は、一般に、音声認識エンジンによって提供された1つまたは複数の仮説へ適用される1つまたは複数の後処理演算から取得される複数の要素を備える解である。したがって、この後者の例において、音声認識結果は、音声認識モジュールから、および、音声認識エンジンによって提供される1つまたは複数の仮説を後処理するための1つまたは複数のモジュールから生じる。

どの要素もステップiii.a)において有効であると判定されないのであれば、ステップv)は好適には、後処理された別の解を提供するサブステップを備える。好適には、後処理されたこの別の解は、前記結果の要素を備えていない後処理された解に対応する。この好ましい変形において、どの要素もステップiii.a)において有効であると判定されない場合、後処理された解の様々な例は、空のメッセージ、すなわち、要素を備えてない(たとえば、単語のない)メッセージと、後処理が不成功に終わったことを明記しているメッセージである。別の可能な変形に従って、この別の後処理された解は、どの要素もステップiii.a)において有効であると判定されない(結果をフィルタしない)のであれば、音声認識結果に対応する。

結果に関連付けられた時間スケールtに沿って(たとえば、図1および図2参照)、結果の先頭は、結果の終了の前である。

好適には、要素は単語である。単語の例は、1、2、自動車、傘である。この好適な変形に従って、本発明の方法は、まさにより良い結果を提供する。各単語は、ユーザによって話されたメッセージから、辞書を使用する音声認識エンジンによって決定される。文法規則は、オプションで、辞書からの単語の可能な選択が、低減されることを可能にする。

好適には、ステップiii.a)の検証テストを受けている要素が、有効であると判定されないのであれば、ステップiii.a)はさらに、直接的にステップv)へ進む命令を備える。この好適な変形に従って、少なくとも1つの要素がステップiii.a)において有効であると判定される後処理された解は、音声認識エンジンの連続した有効な要素のみを備える。連続的な有効な要素の1つのシリーズのみが維持されるので、この方法の信頼性は、その後さらに向上される。

好適には、本発明の方法はさらに、以下のステップ、すなわち、vi)ステップv)の前記後処理された解が、文法規則を満足するか否かを判定するステップを備える。文法規則を使用することによって、本発明の方法の信頼性は、さらに高められ得る。特に、異常な結果が、より良くフィルタされ得る。文法規則の例は、後処理された解のために許可された単語の数の範囲である。たとえば、文法規則は、後処理された解は、3乃至6つの単語を含んでいなければならないとして定義され得る。
好適には、文法規則が使用される場合、本発明の方法はさらに、以下のステップ、すなわち、
vii.
a.ステップvi)のテストに対する応答が肯定的である場合、前記後処理された解を提供し、
b.肯定的ではない場合、前記音声認識結果を提供するステップを備える。
別の可能な変形に従って、本発明の方法は、文法規則が使用される場合、以下のステップ、すなわち、
vii.
a.ステップvi)のテストに対する応答が肯定的である(すなわち、後処理された解が、文法規則を満たす)のであれば、前記後処理された解を提供し、
b.ステップvi)のテストに対する応答が否定的である(すなわち、後処理された解が、文法規則を満たさない)のであれば、後処理された解を提供しないか、または、空のメッセージを提供するか、または、満足できる後処理された解が決定されないことを記述しているメッセージを提供するステップを備える。

様々な検証テストが、ステップiii.a)のために設計され得る。たとえば、ステップiii.a)の検証テストは、要素の持続時間が、低しきい値持続時間以上であれば、要素を有効であると考慮するステップを備え得る。
結果の各要素は、音声認識エンジンによって一般に提供される対応する持続時間または時間インターバルを有する。この好適な実施形態を用いて、たとえば、マシンから生じ得るスプリアス雑音のように、より短い持続時間の要素をより効果的に回避することが可能である。

別の例に従って、ステップiii.a)の検証テストは、要素の持続時間が、高しきい値持続時間以下であれば、要素を有効であると考慮するステップを備え得る。この好適な実施形態を用いて、(たとえば、数字のみが提供されるべきであると明記する予め定義された文法規則を使用するので)音声認識エンジンが「2」という単語を提供することを別にすれば、たとえば、「うーん」と言う、話者による、たとえば躊躇のような長い持続時間の要素を効果的に回避することが可能である。この好適な実施形態を使用することによって、この無効な単語である「2」を除去することがより容易になるであろう。

別の例に従って、ステップiii.a)の前記検証テストは、要素の信頼度係数が、最小の信頼度係数以上であれば、要素を有効であると考慮するステップを備える。
この方法の信頼性は、この場合、さらに高められる。

別の例に従って、ステップiii.a)の前記検証テストは、結果の前記終了へ向かって直接的に隣接している別の要素から要素を分離する時間インターバルが、最小時間インターバル以上であれば、要素を有効であると考慮するステップを備える。
この好適な変形によって、人間によってではなく、むしろ、たとえば、マシンによって生成され、時間的にともに非常に近接している任意の要素が、より効率的に却下され得る。

好適には、ステップiii.a)の前記検証テストは、結果の前記終了へ向かって直接的に隣接している別の要素から要素を分離する時間インターバルが、最大時間インターバル以下であれば、要素を有効であると考慮するステップを備える。この変形によって、互いから時間的に大きく離れた任意の要素が、より効率的に却下され得る。

本方法の別の可能な変形に従って、ステップiii.a)の検証テストは、結果の前記先頭へ向かって直接的に隣接している別の要素から要素を分離する時間インターバルが、最小(時間)インターバルよりも大きいのであれば、要素を有効であると考慮するステップを備える。

本発明の方法の別の可能な変形に従って、ステップiii.a)の検証テストは、結果の前記先頭へ向かって直接的に隣接している別の要素から要素を分離する時間インターバルが、最大(時間)インターバルよりも小さいであれば、要素を有効であると考慮するステップを備える。

好適には、ステップiii.a)の検証テストは、この要素に関連付けられた統計値が、近い範囲内で、同じ要素のため、かつ、この所与の話者のため予め定義された統計値に従うのであれば、所与の話者のために、前記結果の要素を有効であると考慮するステップを備える。
前記要素に関連付けられた統計値(または音声認識統計値)は、一般に、音声認識エンジンによって提供される。要素に関連付けられた統計値の例は、要素の持続時間、その信頼度係数である。他の例も可能である。そのような統計値は、たとえば、仮登録ステップの間、様々な要素、および、様々な話者(またはオペレータ)について記録され得る。音声認識エンジンによって提供された結果に対応するステートメントを記録した話者のアイデンティティが、その後、知られるのであれば、前記結果の様々な要素に関連付けられた統計値は、これら要素について、および、この話者について、予め定義された統計値と比較され得る。したがって、この場合、本発明の方法は、好適には、話者のアイデンティティを判定する追加のステップを備える。
この好適な実施形態によって、信頼性および効率がさらに高められる。なぜなら、話者の有声特徴を考慮することが可能であるからである。

好適には、ステップiii.a)において有効であると判定されたすべての要素が、ステップv)の前記後処理された解を決定するために再使用される。

発明者はまた、第1および第2の音声認識結果から、最適化された解を提供するための、以下のステップ、すなわち、
A.上記記述されたような後処理方法のうちのいずれか1つを、前記第1の結果へ適用するステップと、
B.上記記述されたような後処理方法のうちのいずれか1つを、前記第2の結果へ適用するステップと、
C.前記第1および第2の結果のうちの1つまたは複数の結果に属し、ステップiii.a)の検証ステップによって有効であると判定された、1つまたは複数の要素から、前記最適化された解を決定するステップと、を備える最適化方法を提供する。

第2の態様に従って、本発明は、音声認識結果を後処理するためのシステム(またはデバイス)であって、前記結果は、先頭、終了、および、前記先頭と前記終了との間に分散された複数の要素を備え、前記後処理システムは、
- 前記結果を読み取るための獲得手段と、
- 処理手段であって、
+ 以下のステップ、すなわち、
・前記処理手段によって必要とされる検証テストを以前に受けていない前記複数の要素のうちの要素を分離するステップと、
・検証テストを使用することによって、前記分離された要素が有効であるか否かを判定するステップとを繰り返し実行するため、および
+ 有効であると判定された少なくとも1つの要素を再使用することによって、後処理された解を決定するための処理手段とを備える、システムにおいて、
処理手段によって分離された各要素が、結果の前記終了から、前記先頭へと、連続方式で選択されることを特徴とする、システムに関する。

本発明の第1の態様に従う方法に関連付けられた利点は、必要な変更を加えて、本発明のシステムに適用可能である。したがって、特に、本発明のシステムを用いて、より信頼性の高い後処理された解を有することが可能である。また、正しい後処理された解を提供するための、より効率的なシステムを有することも可能である。本発明の第1の態様に従う方法のために提示された様々な実施形態は、必要な変更を加えて、本発明のシステムに適用可能である。

第3の態様に従って、本発明は、音声認識結果を処理するためのプログラム(好適にはコンピュータプログラム)であって、前記結果は、先頭、終了、および、前記先頭と前記終了との間に分散された複数の要素を備え、前記プログラムは、デバイス(たとえば、音声認識エンジン、音声認識エンジンと通信することが可能なコンピュータ)が以下のステップ、すなわち、
i)前記音声認識結果を読み取るステップと、
ii)ステップiii.a)の検証テストを受けていない前記複数の要素のうちの要素を分離するステップと、
iii)その後、
a.ステップii)において要素が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv)へ進むステップと、
iv)ステップii)およびステップiii)を繰り返すステップと、
v)ステップiii.a)において少なくとも1つの要素が有効であると判定されたのであれば、ステップiii.a)において有効であると判定された少なくとも1つの要素を再使用することによって、後処理された解を決定するステップと、を実行することを可能にするためのコードを備える、プログラムにおいて、
ステップii)において分離された各要素が、結果の前記終了から、結果の前記先頭へと、連続方式で選択されることを特徴とする、プログラムに関する。

本発明の第1および第2の態様に従う方法およびシステムに関連付けられた利点は、必要な変更を加えて、本発明のプログラムに適用可能である。したがって、特に、本発明のプログラムを用いて、より信頼性の高い後処理された解を有することが可能である。また、正しい後処理された解を決定するためのより効率的なプログラムを有することも可能である。本発明の第1の態様に従う方法のために提示された様々な実施形態は、必要な変更を加えて、本発明のプログラムに適用可能である。

ステップiii.a)において、どの要素も有効であると判定されていないのであれば、ステップv)は、好適には、以下のサブステップ、すなわち、前記結果の要素を備えていない後処理された解を決定するステップを備える。この好適な変形において、そして、ステップiii.a)において、どの要素も有効であると判定されていない場合、後処理された解の様々な例は、空のメッセージ、すなわち、要素(たとえば、単語)を備えていないメッセージ、後処理が不成功であったことを記述しているメッセージ、音声認識エンジンによって提供された結果である。

第4の態様に従って、本発明は、デバイス(たとえば、音声認識エンジン、音声認識エンジンと通信することが可能なコンピュータ)へ接続され得、読み取られた場合、前記デバイスが音声認識結果を処理することを可能にする命令を備える記憶媒体(または記録媒体)であって、前記結果は、先頭、終了、および、前記先頭と前記終了との間に分散された複数の要素を備え、前記命令は、前記デバイスが以下のステップ、すなわち、
i)前記結果を読み取るステップと、
ii)ステップiii.a)の検証テストを受けていない前記複数の要素のうちの要素を分離するステップと、
iii)その後、
a.ステップii)において要素が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv)へ進むステップと、
iv)ステップii)およびステップiii)を繰り返すステップと、
v)ステップiii.a)において少なくとも1つの要素が有効であると判定されたのであれば、ステップiii.a)において有効であると判定された少なくとも1つの要素を再使用することによって、後処理された解を決定するステップとを実行することを保証する、記憶媒体(または記録媒体)において、
ステップii)において分離された各要素が、結果の前記終了から、結果の前記先頭へと、連続方式で選択されることを特徴とする、記憶媒体(または記録媒体)に関する。

本発明の第1および第2の態様に従う方法およびシステムに関連付けられた利点は、必要な変更を加えて、本発明の記憶媒体に適用可能である。したがって、特に、より信頼性の高い後処理された解を有することが可能である。また、正しい後処理された解をより効率的に決定することも可能である。本発明の第1の態様に従う方法のために提示された様々な実施形態は、必要な変更を加えて、本発明の記憶媒体に適用可能である。

ステップiii.a)において、どの要素も有効であると判定されていないのであれば、ステップv)は好適には以下のサブステップ、すなわち、前記結果の要素を備えていない後処理された解を決定するステップを備える。この好適な変形において、そして、ステップiii.a)において、どの要素も有効であると判定されていない場合、後処理された解の様々な例は、空のメッセージ、すなわち、要素(たとえば、単語)を備えていないメッセージ、後処理が不成功であったことを記述しているメッセージ、音声認識エンジンによって提供された結果である。

本発明のこれらの態様および他の態様は、以下の添付図面を参照して、本発明の特定の実施形態の詳細説明において明確になるであろう。

音声認識エンジンによって処理されるメッセージを話す話者を概略的に図示する図である。音声認識結果の例を概略的に図示する図である。本発明の方法の好適な変形の様々なステップおよびそれらのインタラクションを概略的に図示する図である。本発明に従う後処理システムの例を概略的に図示する図である。

これら図中の図面は、実際の通りに拡大縮小されるべきではない。一般に、類似の要素は、図中において類似の参照番号を使用して示される。図面上の参照番号の存在は、これら番号が特許請求の範囲において示されている場合であっても、限定するとして考慮されることはできない。

図1は、メッセージ50をマイクロホン5へ向かって話している話者40(またはユーザ40)を図示する。このメッセージ50は、その後、当業者へ知られている音声認識エンジン10へ転送される。様々なモデルおよび様々なブランドが、市場で利用可能である。一般に、マイクロホン5は、音声認識エンジン10の一部を形成する。この音声認識エンジンは、たとえば、隠れマルコフモデル(HMM)に基づいた音声認識アルゴリズムを用いてメッセージ50を処理する。これは、音声認識結果100へ至る。結果100の例は、音声認識エンジン10によって生成された仮説である。結果100の別の例は、たとえば、音声認識エンジン10によって生成された1つまたは複数の仮説へ適用される、音声認識アルゴリズムから、および、後処理演算から取得される解である。そのような解を提供するための後処理モジュールは、音声認識エンジン10の一部を形成し得る。結果100は、一般に、テキストの形態であり、たとえば、マシン、コンピュータ、または処理ユニットによってデコードされ得る。結果100は、先頭111および終了112によって特徴付けられる。先頭111は、時間スケールtに沿って前記終了112の前にある。結果100は、先頭111と終了112との間に時間的に分散された複数の要素113を備える。要素113は、時間スケールtに沿った2つの異なる時間の間に含まれる情報のアイテムを表す。一般に、様々な要素113は、静寂、背景雑音、または、音声認識エンジン10によってどの要素113(たとえば、単語)も認識されない時間インターバルを表す結果100の一部によって分離される。

本発明の方法は、音声認識結果100の後処理に関する。言い換えれば、本発明の方法の入力は、話者40(またはユーザ40)によって話されたメッセージ50へ適用される音声認識アルゴリズムから取得された結果100に対応する。図2は、音声認識結果100を図示する。その先頭111とその終了112との間に、結果100は、図2に図示される場合では7である複数の要素113を備える。この図では、要素113は、時間t(横座標)の関数として図示される。縦座標Cは、信頼度レベルまたは係数を表す。この概念は、当業者に知られている。それは、各要素113に一般に関連付けられた特性または統計値を含み、一般に、音声認識エンジン10によって提供され得る。一般に、信頼度係数は、話された要素から音声認識エンジン10によって決定される音声認識結果の要素が、正しい要素である確率を表す。この特性は、当業者に知られている。音声認識エンジンの一例は、Nuance VoCon(R) 3200 V3.14 modelである。この場合、信頼度係数は、0と10000との間で変動する。0である値は、信頼度係数の最小値(音声認識結果の要素が正しい要素である非常に低い確率)に関し、10000は、信頼度係数の最大値(音声認識結果の要素が正しい要素である非常に高い確率)を表す。図2における要素113の高さは、その信頼度係数160が、より高いか、または、より低いかを示す。

本発明の方法の第1のステップであるステップi)は、結果100を受信することにある。その後、終了112から始まって、この方法は、第1の要素113を分離するであろう。したがって、本発明の方法は、時間スケールtに沿って、結果の最後の要素113を最初に分離するであろう。この要素113が選択されると、方法は、検証テストを使用することによって、要素113が有効であるか否かを判定する。検証テストの様々な例が、以下に示される。この方法は、その後、終了112から始まって、第2の要素113へ進むという具合である。したがって、本発明の方法の可能なバージョンに従って、結果100のすべての要素113が、図2の先頭に図示された矢印の方向にブラウズされ、これは、時間スケールtに沿った第1の要素113が、有効または無効であると判定された場合に停止する。別の好適な変形に従って、図2の先頭における矢印の方向に、結果100の要素113をブラウズするステップは、無効な要素113が検出されるや否や停止する。後処理された解200はその後、好適には、有効であると判定されたすべての要素113を使用することによって、有効であると判定された要素113を再使用することによって決定される。後処理された解200を決定する場合、時間スケールtに沿って選択される様々な要素113の正しい順序が維持されねばならない。したがって、本発明の方法によって処理された第1の要素113は、メッセージ100の最後の要素113を表すこと、したがって、有効であると判定されたのであれば、後処理された解200における最後の位置になければならないこと、という事実を考慮することが重要である。一般に、音声認識エンジン10は、たとえば、各要素113の先頭および終了のように、関連付けられた時間情報を、メッセージ100の様々な要素113とともに提供する。この関連付けられた時間情報は、ステップiii.a)において有効であると判定された要素を、正しい順序で、すなわち、昇順で時系列順に分類するために使用され得る。

好適には、本発明の方法は、文法規則を満足する後処理された解200を検証するステップを備える。文法規則の一例は、単語の数である。後処理された解200がそのような文法規則を満足しないのであれば、前記解を提供するための決定はなされ得ない。この場合、しばしば、音声認識エンジン10の結果100が提供されることが好適である。後処理された解200が、そのような文法規則を満足するのであれば、前記解が提供されることが好適である。

図3は、本発明の方法の好適なバージョンを概要的に図示しており、ここでは、
- 追加の要素113を分離する(または選択する)ステップは、無効な要素113が検出された場合、検証テストを受けることができるように、停止され、ここでは、
- 後処理された解200は、文法規則を満足するか否かを判定するために検証され(ステップvi))、ここでは、
- 後処理された解200が、前記文法規則を満足しているのであれば提供され、ここでは、
- 後処理された解200が、前記文法規則を満足しないのであれば、音声認識エンジン10の結果100が提供される。

ステップiii.a)は、検証テストを使用することによって、ステップii)において選択された要素113が有効であるか否かを判定することにある。このテストは、いくつかの形態を採り得る。

要素113は、先頭と終了によって特徴付けられる。したがって、それはある持続時間150を有する。可能な変形に従って、検証テストは、要素113の持続時間150が、低持続時間しきい値以上であれば、要素113と有効であると考慮するステップを備える。たとえば、低持続時間しきい値は、50乃至160ミリ秒である。好適には、低持続時間しきい値は、120ミリ秒である。低持続時間しきい値は、動的に適合され得る。別の可能な変形に従って、検証テストは、要素113の持続時間150が、高持続時間しきい値以下であれば、要素113を有効であると考慮するステップを備える。たとえば、高持続時間しきい値は、400乃至800ミリ秒である。好適には、高持続時間しきい値は、600ミリ秒である。高持続時間しきい値は、動的に適合され得る。好適には、低持続時間しきい値および/または高持続時間しきい値は、文法規則によって決定される。

一般に、信頼度係数160は、各要素113に関連付けられる。別の可能な変形に従って、検証テストは、要素113の信頼度係数160が、最小信頼度係数161以上であれば、要素113を有効であると考慮するステップを備える。好適には、この最小信頼度係数161は、動的に変動し得る。そのような場合、要素113が有効であるかを判定するために使用される最小信頼度係数161が、別の要素113が有効であるか否かを判定するために使用される最小信頼度係数とは異なるようにすることが可能である。発明者は、3500乃至5000、より好適な値として4000である最小信頼度係数161が、良好な結果を与えることを発見した(これらはNuance VoCon(R) 3200 V3.14モデルに関する値であるが、他のモデルの音声認識エンジンへも適用可能であり得る)。

別の可能な変形に従って、検証テストは、結果100の終了112に向かって、直接的に隣接している別の要素113から要素を分離する時間インターバル170が最小時間インターバル以上であれば、要素113を有効であると考慮するステップを備える。たとえば、そのような最小時間インターバルは、0乃至50ミリ秒である。別の可能な変形に従って、検証テストは、結果100の終了112に向かって、直接的に隣接している別の要素113から要素を分離する時間インターバル170が最大時間インターバル以下であれば、要素113を有効であると考慮するステップを備える。そのような最大時間インターバルは、たとえば、300乃至600ミリ秒であり、好適な値は400ミリ秒である。したがって、検証テストのこれらの2つの例について、時間インターバル170は、要素113を、図2の右手側に向かってすぐ隣から要素113を分離すると考慮される。言い換えれば、時間インターバルは、すぐ右手側の隣、すなわち、時間スケールtに沿ったその後続する隣から要素113を分離すると考慮される。2つの要素113を分離する時間インターバルは、たとえば、音声認識エンジン10が、要素113を認識しない、たとえば、単語がない時間インターバルである。

別の可能な変形に従って、検証テストは、メッセージ50を記録した話者40(またはユーザ)へ適合される。すべての個人は、特定の方式で、要素113または単語を発音する。たとえば、何人かの個人は、単語をゆっくり発音する一方、他の個人は、単語を速く発音する。同様に、単語に関連付けられ、音声認識エンジン10によって提供される信頼度係数160は、一般に、この単語を発音した話者40に依存する。様々な要素113に関連付けられた1つまたは複数の統計値が、所与の話者40について知られているのであれば、これら統計値は、要素113が有効であるか否かを判定するために、ステップiii.a)の検証テスト中に使用され得る。たとえば、この要素113に関連付けられた1つまたは複数の統計値が、厳しいエラー帯域(たとえば、10%)内で、前記話者40について、前記要素113について、予め定義された同じ統計値に従うのであれば、所与の話者40によって話された要素113は、有効であると考慮され得る。検証テストのこの好適な変形は、話者40のアイデンティティを知っていることを必要とする。たとえば、これは、音声認識エンジン10によって提供され得る。別の可能性に従って、本発明の後処理方法は、話者40を識別するステップを備える。

図2において、有効であると考慮された要素113は、実線によって境界を定められる一方、有効であると考慮されていない要素は、破線によって境界を定められる。終了112から始まって第4の要素113は、たとえば、その持続時間150が、低持続時間しきい値よりも短いので、無効であると考慮される。終了112から始まって第5の要素113は、たとえば、その信頼度係数160が最小信頼度係数161未満であるので、無効であると考慮される。

発明者はさらに、第1および第2の音声認識結果100から、最適化された解を生成するための、以下のステップ、すなわち、
A.本発明の第1の態様に従う後処理方法を、前記第1の結果100へ適用するステップと、
B.本発明の第1の態様に従う後処理方法を、前記第2の結果100へ適用するステップと、
C.前記第1および第2の結果100のうちの1つまたは複数の結果100に属し、ステップiii.a)の検証ステップによって有効であると判定された1つまたは複数の要素113から、前記最適化された解を決定するステップと、を備える方法を提案する。

第2の態様に従って、本発明は、後処理システム11に関するか、または、音声認識結果100を後処理するためのデバイスに関する。図4は、音声認識エンジン10およびスクリーン20と結合されたそのような後処理システム11を概略的に図示する。この図では、後処理システム11および音声認識エンジン10は、2つの個別のデバイスである。別の可能なバージョンに従って、後処理システム11は、音声認識エンジン10と区別することができないように、音声認識エンジン10へ統合される。そのような場合では、従来の音声認識エンジン10は、以下に記述するように後処理システム11の機能を実行できるように修正または適合される。

後処理システム11の例は、コンピュータ、本発明の第1の態様に従って後処理方法を実行することが可能なように適合またはプログラムされた音声認識エンジン10、音声認識エンジン10のハードウェアモジュール、音声認識エンジン10と通信することが可能なハードウェアモジュールである。これらにも関わらず、他の例も可能である。後処理システム11は、音声認識結果100を受信し、読み取るための獲得手段12を備える。獲得手段12の例は、たとえばUSBポート、イーサネット（登録商標）ポート、ワイヤレスポート(たとえば、Wi-Fi)のような後処理システム11の入力ポートである。これらにも関わらず、獲得手段12の他の手段も可能である。後処理システム11はさらに、以下のステップ、すなわち、結果100の終了112から先頭111へ、処理手段13による検証テストを以前に受けていない結果100の要素113を分離するステップと、検証テストを使用することによって、前記要素が有効であるか否かを判定するステップと、前記処理手段13によって有効であると判定された少なくとも1つの要素113を再使用することによって、後処理された解200を決定するステップと、を繰り返し実行するための処理手段13を備える。好適には、前記処理手段13は、前記処理手段13によって有効であると判定されたすべての要素113を再使用することによって、後処理された解200を決定する。好適には、後処理システム11は、前記解を表示するために、後処理された解200をスクリーン20へ送ることができる。

処理手段13の例は、制御ユニット、プロセッサまたは中央処理装置、コントローラ、チップ、マイクロチップ、集積回路、マルチコアプロセッサである。これらにも関わらず、当業者に知られている他の例も可能である。1つの可能なバージョンに従って、処理手段13は、これら処理手段13と連携して上記で明記された様々なステップ(要素113を分離するステップ、要素が有効であるか否かを判定するステップ、後処理された解200を決定するステップ)を実行するための様々なユニットを備える。

第3の態様に従って、本発明は、プログラム、好適にはコンピュータプログラムに関する。好適には、このプログラムは、ヒューマン-マシン音声インターフェースの一部を形成する。

第4の態様に従って、本発明は、たとえばコンピュータのように、音声認識エンジン10と通信することが可能なデバイスへ接続され得る記憶媒体に関する。別の可能な変形に従って、このデバイスは、音声認識エンジン10である。本発明に従う記憶媒体の例は、USBスティック、外部ハードドライブ、CD-ROMである。これらにも関わらず、他の例も可能である。

本発明は、特定の実施形態に関して記述された。これらは、純粋に例示的目的のためであり、限定すると考慮されてはならない。一般に、本発明は、上記で例示および/または記述された例に限定されない。「備える」、「含む」、「存在する」という動詞、または他の任意の変形のみならず、これらの語形変化の使用は、上述されたもの以外の存在を決して除外するものではない。要素を紹介するために、不定冠詞「a」、「an」、または、定冠詞「the」を使用することは、複数のこれら要素の存在を除外しない。特許請求の範囲における参照番号は、特許請求の範囲を限定しない。

要約すると、本発明はまた、以下のように記述され得る。音声認識結果100を後処理するための方法であって、前記結果100は、先頭111、終了112、および複数の要素113を備え、前記方法は、以下のステップ、すなわち、前記結果100を読み取るステップと、その要素113のうちの1つを選択するステップと、前記要素が有効であるか否かを判定するステップと、前記要素113を選択し、その有効性または無効性を判定するステップを繰り返すステップと、少なくとも1つの要素113が、有効であると判定されると、有効であると判定された少なくとも1つの要素113を再使用することによって、後処理された解200を決定するステップとを備える。本発明の方法は、各要素113が、結果100の前記終了112から前記先頭111へと、連続方式で選択されることを特徴とする。

5 マイクロホン
10 音声認識エンジン
11 後処理システム
12 獲得手段
13 処理手段
20 スクリーン
40 話者
50 メッセージ
100 音声認識結果
111 先頭
112 終了
113 要素
150 持続時間
160 信頼度係数
161 最小信頼度係数
170 時間インターバル
200 解

Claims

音声認識結果(100)を後処理するための方法であって、前記結果(100)は、先頭(111)、終了(112)、および前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記後処理方法は、以下のステップ、すなわち、
i.前記結果(100)を受信するステップと、
ii.ステップiii.a.の検証テストを受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
iii.その後、
a.要素(113)がステップii.の間に分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、ステップv.へ直接的に進むステップと、
iv.ステップii.およびステップiii.を繰り返すステップと、
v.ステップiii.a.において、少なくとも1つの要素(113)が有効であると判定されたのであれば、ステップiii.a.において、有効であると判定された少なくとも1つの要素(113)を使用して、後処理された解(200)を決定するステップとを備える、方法において、
ステップii.において分離された各要素(113)が、前記結果(100)の前記終了(112)から前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、方法。
前記要素(113)が単語であることを特徴とする、請求項1に記載の方法。
ステップiii.a.はさらに、ステップiii.a.の前記検証テストを受けている前記要素(113)が、有効であると判定されないのであれば、ステップv.へ直接的に進むための命令を備える、ことを特徴とする請求項1または2に記載の方法。
vi.ステップv.の前記後処理された解(200)が文法規則を満足するか否かを判定するステップをさらに備える、ことを特徴とする請求項1から3のいずれか一項に記載の方法。
vii.
a.ステップvi.の前記テストに対する応答が肯定的である場合、前記後処理された解(200)を提供し、
b.肯定的ではない場合、前記音声認識結果(100)を提供するステップをさらに備える、ことを特徴とする請求項4に記載の方法。
ステップiii.a.の前記検証テストは、その持続時間が、低持続時間しきい値以上であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から5のいずれか一項に記載の方法。
ステップiii.a.の前記検証テストは、その持続時間が、高持続時間しきい値以下であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から6のいずれか一項に記載の方法。
前記結果(100)の各要素(113)は、信頼度係数(160)によって特徴付けられ、ステップiii.a.の前記検証テストは、その信頼度係数(160)が、最小信頼度係数(161)以上であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から7のいずれか一項に記載の方法。
ステップiii.a.の前記検証テストは、前記結果(100)の前記終了(112)に向かって、直接的に隣接している別の要素(113)から要素を分離する時間インターバル(170)が最小時間インターバル以上であれば、要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から8のいずれか一項に記載の方法。
ステップiii.a.の前記検証テストは、要素(113)に関連付けられた統計値が、近い範囲内で、同じ要素(113)のため、かつ、この所与の話者(40)のため予め定義された統計値に従うのであれば、前記所与の話者(40)のために、前記結果(100)の前記要素(113)を有効であると考慮するステップを備える、ことを特徴とする請求項1から9のいずれか一項に記載の方法。
ステップiii.a.において有効であると判定されたすべての前記要素(113)は、ステップv.の前記後処理された解(200)を決定するために再使用される、ことを特徴とする請求項1から10のいずれか一項に記載の方法。
第1および第2の音声認識結果(100)から、最適化された解を決定するための方法であって、以下のステップ、すなわち、
A.請求項1から11のいずれか一項に記載の方法に従う後処理方法を、前記第1の結果(100)へ適用するステップと、
B.請求項1から11のいずれか一項に記載の方法に従う後処理方法を、前記第2の結果(100)へ適用するステップと、
C.前記第1および第2の結果(100)のうちの1つまたは複数の結果(100)に属し、ステップiii.a.の前記検証ステップによって有効であると判定された1つまたは複数の要素(113)から、前記最適化された解を決定するステップとを備える、方法。
音声認識結果(100)を後処理するためのシステム(11)であって、前記結果(100)は、先頭(111)、終了(112)、および前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記後処理システム(11)は、
- 前記結果(100)を読み取るための獲得手段(12)と、
- 処理手段(13)であって、
+ 以下のステップ、すなわち、
・前記処理手段(13)によって必要とされる検証テストを以前に受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
・検証テストを使用することによって、前記分離された要素(113)が有効であるか否かを判定するステップと、を繰り返し実行するため、および、
+ 有効であると判定された少なくとも1つの要素(113)を再使用することによって、後処理された解(200)を決定するための処理手段(13)とを備える、システムにおいて、
前記処理手段(13)によって分離された各要素(113)が、前記結果(100)の前記終了(112)から、前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、システム。
音声認識結果(100)を処理するためのプログラムであって、前記結果(100)は、先頭(111)、終了(112)、および前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記プログラムは、デバイスが以下のステップ、すなわち、
i.前記音声認識結果(100)を読み取るステップと、
ii.ステップiii.a.の検証テストを受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
iii.その後、
a.ステップii.において要素(113)が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv.へ進むステップと、
iv.ステップii.およびステップiii.を繰り返すステップと、
v.ステップiii.a.において少なくとも1つの要素(113)が有効であると判定されたのであれば、ステップiii.a.において有効であると判定された少なくとも1つの要素(113)を再使用することによって、後処理された解(200)を決定するステップとを実行することを可能にするためのコードを備える、プログラムにおいて、
ステップii.において分離された各要素(113)が、前記結果(100)の前記終了(112)から、前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、プログラム。
デバイスへ接続され得、読み取られた場合、前記デバイスが音声認識結果(100)を処理することを可能にする命令を備える記憶媒体であって、前記結果(100)は、先頭(111)、終了(112)、および、前記先頭(111)と前記終了(112)との間に分散された複数の要素(113)を備え、前記命令は、前記デバイスが以下のステップ、すなわち、
i.前記結果(100)を読み取るステップと、
ii.ステップiii.a.の前記検証テストを受けていない前記複数の要素(113)のうちの要素(113)を分離するステップと、
iii.その後、
a.ステップii.において要素(113)が分離されたのであれば、検証テストを使用することによって、前記要素が有効であるか否かを判定し、
b.分離されていないのであれば、直接的にステップv.へ進むステップと、
iv.ステップii.およびステップiii.を繰り返すステップと、
v.ステップiii.a.において少なくとも1つの要素(113)が有効であると判定されたのであれば、ステップiii.a.において有効であると判定された少なくとも1つの要素(113)を再使用することによって、後処理された解(200)を決定するステップと、を実行することを保証する、記憶媒体において、
ステップii.において分離された各要素(113)が、前記結果(100)の前記終了(112)から、前記結果(100)の前記先頭(111)へと、連続方式で選択されることを特徴とする、記憶媒体。