JP6113008B2

JP6113008B2 - ハイブリッド型音声認識

Info

Publication number: JP6113008B2
Application number: JP2013146533A
Authority: JP
Inventors: コール，デトレフ
Original assignee: エムモーダルアイピーエルエルシー
Priority date: 2008-08-29
Filing date: 2013-07-12
Publication date: 2017-04-12
Anticipated expiration: 2029-08-31
Also published as: CA3002206C; JP2012501480A; JP2013232001A; WO2010025440A2; US8249877B2; WO2010025440A3; EP2329491A4; CA2732255C; CA2732255A1; EP2329491A2; CA3002206A1; US20100057450A1; EP2329491B1; US20110238415A1; US20120296644A1; US7933777B2

Description

音声をテキストに変換することや、音声に応答してコンピュータの操作を制御することなどの機能を実行するための、様々な自動音声認識装置（ＡＳＲ）が存在する。自動音声認識装置の用途によっては、エンド・ユーザに応答して出力されるように、他の用途よりも短いターンアラウンド・タイム（音声を発話してから音声認識装置が出力を生成するまでの時間）が求められる。例えば、オンスクリーン・カーソルの動きを制御することなど「ライブ」の音声認識用途に使用される音声認識装置は、医学報告の書き起こしを生成するのに使用される音声認識装置よりも短いターンアラウンド・タイム（「応答時間」とも呼ばれている）を必要とすることがある。

所望のターンアラウンド・タイムは、例えば、音声認識装置によって処理される音声発話の内容に依存する。例えば、「ウィンドウを閉じよ」など、短い命令および制御の発話においては、約５００ｍｓのターンアラウンド・タイムは、エンド・ユーザにとって反応が遅く感じられることがある。対照的に、ユーザがテキストに書き起こしたいと望む長い口述文においては、１０００ｍｓの応答時間は、エンド・ユーザにとって許容できることがある。実際、後者の場合では、ユーザは、その音声に応答してテキストが直ちに表示されることにより、普通ならば、その音声が割り込まれていると感じることがあるので、より長い方の応答時間を好むことがある。段落全体など、口述されるより長い文節では、何秒間にもわたるより長い応答時間でさえも、エンド・ユーザによって許容できることがある。

典型的な従来技術の音声認識システムでは、認識確度を維持しながら応答時間を改善するには、音声認識の実行専用であるコンピューティング資源（処理サイクルおよび／またはメモリ）を増大させる必要がある。同様にして、典型的な従来技術の音声認識システムでは、通常、音声認識の実行専用であるコンピューティング資源を増大させることによってのみ、応答時間を犠牲にすることなく認識確度を向上させることができる。これらトレードオフの結果の一例として、所与の音声認識装置を、デスクトップ・コンピュータのプラットフォームから、コンピューティング資源の少ない携帯電話などの組込みシステムにポーティングするときには、同じ応答時間を維持しようとすれば、通常、認識確度が犠牲になるはずである。

組込み式装置との関連でこれら資源の制約条件を克服するための知られた技法の１つは、音声認識処理の負担のいくらかまたはすべてを、組込み式装置から離れて配置され、この組込み式装置よりもコンピューティング資源がはるかに多い音声認識サーバに委ねることである。この状況でユーザが組込み式装置に発話すると、この組込み式装置は、それ自体のコンピューティング資源を使用して音声を認識しようとはしない。代わりに、この組込み式装置は、音声（または、処理された形式の音声）を、ネットワーク接続を介して音声認識サーバに伝送し、この音声認識サーバは、そのより豊富なコンピューティング資源を使用して音声を認識し、したがって、この組込み式装置が同じ確度で生成することのできる場合よりも迅速に認識結果を生成する。次いで、音声認識サーバは、ネットワーク接続を介して、この結果を組込み式装置に伝送して戻す。理想的には、この技法は、組込み式装置のみを使用して他の方法で実現可能になる場合よりも迅速に、非常に正確な音声認識結果を生成する。

しかし実際には、このサーバ側での音声認識技法の使用は、様々な欠点がある。具体的には、サーバ側での音声認識は、高速で高信頼のネットワーク接続の可用性に依存するので、必要なときにこうした接続が利用可能でない場合、この技法は破綻する。例えば、十分に広帯域でないネットワーク接続を使用することにより、サーバ側での音声認識によって可能になる潜在的な速度の増加が無効になることがある。一例として、遠隔サーバに対するＨＴＴＰコールの典型的なネットワーク待ち時間は、１００ｍｓ〜５００ｍｓの範囲になることがある。発話データが、発話されて５００ｍｓ後に音声認識サーバに到達する場合、そのサーバは、命令および制御のアプリケーションが必要とする最小限のターンアラウンド・タイム（５００ｍｓ）を満足させるのに十分なだけ迅速に結果を生成することが不可能になる。その結果、最速の音声認識サーバでさえ、低速のネットワーク接続とともに使用される場合には、生成される結果が遅く感じられることになる。

したがって、必要となるのは、埋込み式装置において、それら装置に必要とされるターンアラウンド・タイム内で、ただし低遅延で可用性の高いネットワーク接続を必要とすることなく、高品質の音声認識結果を生成するための改良された技法である。

ハイブリッド型音声認識システムは、クライアント側での音声認識エンジンおよびサーバ側での音声認識エンジンを使用して、それらの音声に対する音声認識結果を生成する。アービトレーション・エンジンが、クライアント側での音声認識結果およびサーバ側での音声認識結果のうちの、１つまたはその両方に基づいて、音声認識出力を生成する。

本発明の様々な態様および実施形態の他の特徴ならびに利点が、以下の説明および特許請求の範囲から明らかになろう。

本発明の一実施形態による、音声認識システムのデータ流れ図である。本発明の一実施形態による、図１のシステムによって実行される方法の流れ図である。本発明の様々な実施形態による、ハイブリッド型音声認識出力を生成するためにアービトレーション・エンジンが実行する方法の流れ図である。本発明の様々な実施形態による、ハイブリッド型音声認識出力を生成するためにアービトレーション・エンジンが実行する方法の流れ図である。本発明の様々な実施形態による、ハイブリッド型音声認識出力を生成するためにアービトレーション・エンジンが実行する方法の流れ図である。本発明の様々な実施形態による、ハイブリッド型音声認識出力を生成するためにアービトレーション・エンジンが実行する方法の流れ図である。本発明の様々な実施形態による、ハイブリッド型音声認識出力を生成するためにアービトレーション・エンジンが実行する方法の流れ図である。本発明の様々な実施形態による、複数の音声認識エンジンからのオーバラップする認識結果を生成するために音声認識システムが実行する方法の流れ図である。本発明の様々な実施形態による、複数の音声認識エンジンからのオーバラップする認識結果を生成するために音声認識システムが実行する方法の流れ図である。本発明の様々な実施形態による、複数の音声認識エンジンからのオーバラップする認識結果を生成するために音声認識システムが実行する方法の流れ図である。本発明の様々な実施形態による、複数の音声認識エンジンからのオーバラップする認識結果を生成するために音声認識システムが実行する方法の流れ図である。本発明の様々な実施形態による、複数の音声認識エンジンからのオーバラップする認識結果を生成するために音声認識システムが実行する方法の流れ図である。本発明の様々な実施形態による、複数の音声認識エンジンからのオーバラップする認識結果を生成するために音声認識システムが実行する方法の流れ図である。

図１を参照すると、本発明の一実施形態による音声認識システム１００のデータ流れ図が示してある。図２を参照すると、本発明の一実施形態による、図１のシステム１００によって実行される方法２００の流れ図が示してある。

クライアント装置１０６のユーザ１０２が発話し、それにより、クライアント装置に音声１０４を供給する（ステップ２０２）。クライアント装置１０６は、デスクトップ・コンピュータもしくはラップトップ・コンピュータ、携帯電話、携帯型情報端末（ＰＤＡ）、または電話など、どんな装置でもよい。しかし、本発明の各実施形態は、低速なプロセッサもしくは少量のメモリを有するコンピュータまたはモバイル・コンピューティング装置など資源が限られたクライアント、または資源を必要とするソフトウェアを走らせるコンピュータとともに用いると特に有用である。装置１０６は、サウンド・カードに接続されたマイクロフォンなどを介して、任意のやり方でユーザ１０２から音声１０４を受け取ってもよい。音声１０４は、コンピュータ読取り可能な媒体に具体的に格納され、かつ／またはネットワーク接続もしくは他のチャネルを介して伝送されるオーディオ信号内に取り込んでもよい。

クライアント装置１０６は、トランスクリプション・アプリケーションまたは音声１０４を認識する必要のある他のアプリケーションなど、アプリケーション１０８を含む。アプリケーション１０８は、音声１０４を委譲エンジン１１０に伝送する（ステップ２０４）。あるいは、アプリケーション１０８は、何らかのやり方で音声１０４を処理し、音声１０４の処理済みバージョンまたはこの音声１０４から得られる他のデータを、委譲エンジン１１０に供給してもよい。委譲エンジン１１０自体は、認識するために音声を伝送するのに備えて、（アプリケーションによって音声に対して実行される任意の処理に加えて、またはそれの代わりに）音声１０４を処理してもよい。

委譲エンジン１１０は、従来の自動音声認識エンジンが提示するインターフェースと同じインターフェースをアプリケーション１０８に提示してもよい。その結果、アプリケーション１０８は、音声１０４を従来の音声認識エンジンに直接供給するのと同じ方式で、音声１０４を委譲エンジン１１０に供給してもよい。したがって、アプリケーション１０８の作成者は、委譲エンジン１１０それ自体が従来の音声認識エンジンではないことを知る必要がない。以下で詳細に述べるように、委譲エンジン１１０はまた、従来の音声認識エンジンと同じようにして、音声認識結果をアプリケーション１０８に戻す。したがって、委譲エンジン１１０は、アプリケーション１０８の観点からすれば、従来の音声認識エンジンと同じ機能を実行するように見える。

委譲エンジン１１０は、音声１０４（または、音声１０４の処理済みの形態または音声１０４から得られる他のデータ）を、クライアント装置１０６内のクライアント側での自動音声認識エンジン１１２に供給するとともに（ステップ２０６）、ネットワーク１１６を介して遠隔に配置されているサーバ１１８内のサーバ側での自動音声認識エンジン１２０に供給する（ステップ２０８）。サーバ１１８は、クライアント装置よりもはるかに豊富なコンピューティング資源を有するコンピューティング装置でもよい。

クライアント側での音声認識装置１１２およびサーバ側での音声認識装置１２０は、従来の音声認識装置でもよい。しかし、クライアント側での音声認識装置１１２およびサーバ側での音声認識装置１２０は、互いに異なっていてもよい。例えば、サーバ側での音声認識装置１２０は、クライアント側での音声認識装置１１２が使用するコンピューティング資源よりも豊富なコンピューティング資源を必要とする、より複雑な音声認識モデルを使用してもよい。他の例として、音声認識装置１１２および１２０のうちの一方は発話者から独立していてもよく、もう一方はユーザ１０２の声に適合してもよい。クライアント１０６およびサーバ１１８のコンピューティング資源の差と、音声認識装置１１２および１２０それ自体の差と、ネットワーク１１６を介してサーバ側での認識装置１２０からの結果をクライアント装置１０６に戻さなければならないという事実との組合せにより、クライアント側での認識装置１１２およびサーバ側での認識装置１２０は、互いに異なる応答時間を有してもよく、それによって待ち時間が生じるが、これはクライアント側での認識装置１１２が原因ではない。

クライアント側での認識装置１１２とサーバ側での認識装置１２０が互いに異なっていてもいなくても、責任は、こうした認識装置１１２と１２０の間で様々な方式で分割してもよい。例えば、命令および制御の音声認識のために、もっぱらクライアント側での音声認識装置１１２を使用してもよいが、命令および制御の認識と口述認識の両方のために、サーバ側での音声認識装置１１２を使用してもよい。他の例として、クライアント側での認識装置１１２は、クライアント装置１０６でのプロセッサ時間の所定の最大パーセンテージまで利用できるようにするだけでよい。委譲エンジン１１０は、クライアント側での認識装置１１２およびサーバ側での認識装置１２０に、それぞれの責任に従って適切な音声を伝送するように構成してもよい。

クライアント側での認識装置１１２は、音声１０４に基づいたテキストなどの音声認識結果１１４を生成する（ステップ２１０）。同様にして、サーバ側での認識装置１２０は、音声１０４に基づいたテキストなどの音声認識結果１２２を生成する（ステップ２１２）。結果１１４は、最適な単語候補のセット、それらの単語に関連する信頼度測定値、音声認識エンジンが通常もたらす他の出力など、他の情報を含んでもよい。

クライアント側での結果１１４およびサーバ側での結果１２２は、互いに異なってもよい。クライアント側での認識装置１１２およびサーバ側での認識装置１２０は両方とも、それぞれ、その結果１１４および１１２を、クライアント装置１０６内のアービトレーション・エンジン１２４に提供する。アービトレーション・エンジン１２４は、結果１１４および１２２のうちの、一方または両方を解析して、この２つの結果１１４および１２２のうちのいずれを（結果１２６として）委譲エンジン１１０に供給すべきか決定する（ステップ２１４）。以下でより詳細に述べるように、アービトレーション・エンジン１２４は、結果１１４と１２２の両方を受信して後、または、結果１１４および１２２のうちの一方を受信して後ただし他方を受信しない場合、のいずれかにおいてステップ２１４を実行してもよい。したがって、一般に、アービトレーション・エンジン１２４は、クライアント側での結果１１４および／またはサーバ側での結果１２２に基づいて出力１２６を生成する。

委譲エンジン１１０は、選択された結果１２６を、要求アプリケーション１０８に戻す（ステップ２１６）。結果として、要求アプリケーション１０８は、委譲エンジン１１０が単一の統合された音声認識エンジン１１０であると仮定した場合と同様に、委譲エンジン１１０から音声認識結果１２６を受信して戻す。すなわち、委譲エンジン１１０およびアービトレーション・エンジン１２４が実行する動作の詳細は、要求アプリケーション１０８には隠されている。

アービトレーション・エンジン１２４は、様々な技法のうち任意のものを使用して、クライアント側での結果１１４およびサーバ側での結果１２２のうちのいずれを委譲エンジン１１０に供給するのか選択してもよい。例えば、図３Ａの方法３００で示すように、サーバ側での認識装置１２０がネットワークを介してアクセス不能である場合（例えば、クライアント１０６とネットワーク１１６の間の接続がダウンしている場合）（ステップ３０４〜３０６）、アービトレーション・エンジン１２４は、クライアント側での結果１１４が利用可能になるとすぐ、それらの結果１１４を選択してもよい（ステップ３０２）。

逆に言えば、図３Ｂの方法３１０で示すように、クライアント側での認識装置１１２がアクセス不能である場合（ステップ３１４〜３１６）、アービトレーション・エンジン１２４は、サーバ側での結果１２２が利用可能になるとすぐ、それらの結果１２２を選択してもよい（ステップ３１２）。例えば、優先度の高いＣＰＵタスクがクライアント装置１０６上で実行されている結果として、クライアント側での認識装置１１２が使用不可になってしまった場合、このことが起きる可能性がある。

他の例として、また、サーバ側での認識装置１２０が、クライアント側での認識装置１１２よりも平均して高品質の認識結果を提供すると仮定すると、アービトレーション・エンジン１２４は、クライアント側での認識装置の結果１１４が利用可能になって後、所定の待ち時間よりも遅れることなくサーバ側での認識装置の結果１２２が利用可能になる場合には、それらの結果１２２を選択してもよい。すなわち、図３Ｃの方法３２０で示すように、クライアント側での認識装置の結果１１４が利用可能になると（ステップ３２２）、アービトレーション・エンジン１２４は、サーバ側での結果１２２が、所定の待ち時間が経過する（ステップ３２６）前に受信される（ステップ３２４）場合にのみ、それらの結果を戻してもよい（ステップ３３０）。そのときまでにサーバ側での結果１２２が利用可能でない場合、アービトレーション・エンジン１２４は、クライアント側での結果１１４を戻してもよい（ステップ３２８）。

所定の待ち時間は、任意の方式で選択してもよい。例えば、所定の待ち時間は、認識結果のタイプに依存してもよい。例えば、方法３２０によって命令および制御の語法に適用される所定の待ち時間は、口述の語法に適用される所定の待ち時間よりも短くなるように選択してもよい。ほんの一例として、５００ｍｓの所定の待ち時間を命令および制御の語法に適用してもよく、１０００ｍｓの所定の待ち時間を口述の語法に適用してもよい。

さらに他の例として、また、図３Ｄの方法３４０で示すように、サーバ側での認識装置１２０が、クライアント側での認識装置１１２よりも平均して高品質の認識結果を提供すると仮定しても、クライアント側での認識装置の結果１１４に関連する信頼度測定値がある所定の閾値を超える場合（ステップ３４４）、アービトレーション・エンジン１２４は、クライアント側での認識装置の結果１１４が利用可能になるとすぐ（ステップ３４２）、それらの結果１１４を選択してもよい（ステップ３４６）。

アービトレーション・エンジン１２４は、クライアント側での認識装置１１２およびサーバ側での認識装置１２０それぞれによって生成される結果１１４および１２２のうちの、一方または他方を「選択すること」に限定されない。むしろ、例えば、図３Ｅの方法３５０で示すように、アービトレーション・エンジン１２４は、結果１１４および１２２を受信してもよく（ステップ３５２および３５４）、また、それらの結果１１４および１２２を組み合わせても、またはそうでなければ様々な方式で処理して（ステップ３５６）、要求アプリケーション１０８に戻される出力１２６を生成してもよい（ステップ３５８）。例えば、アービトレーション・エンジン１２４は、ローバー（ＲＯＶＥＲ：Recognizer Output Voting Error Reduction）と呼ばれるよく知られた技術を使用して、または他の技法を使用して、結果１１４および１２２を組み合わせて出力１２６を生成してもよい。

アービトレーション・エンジン１２４は、図３Ａ〜３Ｅに関してこれまでに開示された各技法を他の技法とどのような組合せで組み合わせてもよい。例えば、図３Ｃのステップ３２２の後に方法３４０のステップ３４４および３４６を実行し、ステップ３４４での信頼度測定値が閾値を超えない場合に図３Ｃのステップ３２４に進むことにより、図３Ｄの方法３４０を図３Ｃの方法３２０と組み合わせてもよい。

図４Ａの方法４００で示すように、認識装置１１２および１２０のうちの一方からの結果が、もう一方の認識装置からの結果と時間的にオーバラップする可能性がある。例えば、音声１０４は持続時間が５秒であり、音声１０４の最初の２秒に対してクライアント側での認識装置１１２が高信頼度の結果１１４を生成する（ステップ４０２）と仮定する。結果１１４の高信頼度測定の結果として、アービトレーション・エンジン１２４は、それらの結果１１４を委譲エンジン１１０に渡してもよく、委譲エンジン１１０は、サーバ側での結果１２２が利用可能になる前に、それらの結果１１４をコミットする（すなわち、アプリケーション１０８に戻される結果１２６の中に結果１１４を含む）（ステップ４０４）。次いで、音声１０４のそれら５秒のうちの何秒か、または５秒すべてに対するサーバ側での認識結果１２２が利用可能になるとき、それらの結果１２２のうちのいくつかまたはすべてが、クライアント側での結果１１４のいくつかまたはすべてと競合する（時間的にオーバラップする）ことがある（ステップ４０６）。アービトレーション・エンジン１２４は、こうしたオーバラップに応答して、処置をとってもよい（ステップ４０８）。

例えば、図４Ｂの方法４１０で示すように、クライアント側での結果１１４とサーバ側での結果１２２が、何らかの所定の閾値期間（例えば１００ｍｓ）未満だけオーバラップする場合（ステップ４１２）、アービトレーション・エンジン１２４は、結果１１４と１２２がオーバラップしていないものと考え、図３Ａ〜３Ｅに関連して前述した方式のうちの任意の方式でそれらの結果を処理してもよい。そうでない場合、アービトレーション・エンジン１２４は、結果１１４と１２２がオーバラップしているものと考え、したがって、以下の例で説明する方式などで、それらの結果を処理してもよい（ステップ４１６）。

例えば、図４Ｂの方法４２０で示すように、アービトレーション・エンジン１２４は、各認識装置のうちの一方（例えば、サーバ側での認識装置１２０）が、もう一方の認識装置よりも好ましいと考えてもよい。この場合、好ましくない認識装置からの結果（例えば、クライアント側での結果１１４）が最初に到達し（ステップ４２２）、最初にコミットされ（ステップ４２４）、次いで、前にコミットされた好ましくない結果とオーバラップする、好ましい認識装置からの結果（例えば、サーバ側での結果１２２）が到達する場合（ステップ４２８）、アービトレーション・エンジン１２４は、好ましい結果（例えば、サーバ側での結果１２２）もまたコミットしてよい（すなわち、ハイブリッドの結果１２６の中に含んでもよい）（ステップ４３０）。これにより、音声１０４のある部分が２度コミットされるが、これにより、好ましい認識装置の結果を破棄する場合よりも望ましい結果が得られることがある。後に受信された結果が好ましい認識装置からのものではない場合、それらの結果は、コミットするのではなく破棄してもよい（ステップ４３２）。

さらに他の例として、図４Ｄの方法４４０で示すように、好ましい認識装置からの結果（例えば、サーバ側での結果１２２）が最初に到達し（ステップ４４２）、最初にコミットされ（ステップ４４４）、次いで、前にコミットされた好ましい結果とオーバラップする、好ましくない認識装置からの結果（例えば、クライアント側での結果１１４）が到達する場合（ステップ４４６および４４８）、アービトレーション・エンジン１２４は、好ましくない結果を破棄してもよい（ステップ４５０）。そうでない場合、アービトレーション・エンジン１２４は、後に受信した結果をコミットしてもよく、また別のやり方でそれらを処理してもよい（ステップ４５２）。

より一般には、図４Ｅ（図４Ａのステップ４０８の一実施形態を表す）に示すように、アービトレーション・エンジン１２４が、（そのまたはそれとは異なる）音声認識装置から受信された、前にコミットされた任意の結果とオーバラップする認識結果を受信する場合、アービトレーション・エンジン１２４は、（両方の認識結果内のそれぞれの単語に関連するタイム・スタンプを使用して）古い認識結果からの単語と時間的にオーバラップする新規の認識結果からの単語を無視し（ステップ４６２）、次いで、新規の認識結果からの残りの（オーバラップしていない）単語をコミットしてもよい（ステップ４６４）。

さらに他の例として、図４Ｆ（図４Ａのステップ４０８の一実施形態を表す）で示すように、アービトレーション・エンジン１２４が、（そのまたはそれとは異なる）音声認識装置から受信された、前にコミットされた任意の結果とオーバラップする認識結果を受信する場合、アービトレーション・エンジン１２４は、新規に受信した結果を使用して、前にコミットされた結果を更新してもよい（ステップ４７２）。例えば、アービトレーション・エンジン１２４は、新規に受信した結果に関連する信頼度測定値が、前にコミットされた結果に関連する信頼度測定値を超えるかどうか判定してもよく（ステップ４７４）、超える場合には、前にコミットされた結果を新規に受信した結果で置き換えてもよい（ステップ４７６）。

本発明の各実施形態には、様々な利点がある。一般に、本発明の各実施形態により、資源が限られている携帯電話などのクライアント側での装置が、可用性の高い、広帯域のネットワーク接続を必要とすることなく、所定のターンアラウンド・タイム要求内で高品質の音声認識結果を得ることができるようになる。本明細書において開示する各技法は、クライアント側での認識装置１１２とサーバ側での認識装置１１８の両方を使用して、それらの認識装置のいずれかが個別に生成できる場合よりも良好な結果を生成する、ハイブリッド型音声認識エンジンを効果的に生成する。より具体的には、結果として生じるハイブリッド型の結果は、システムの可用性、認識品質、および応答時間に関して、構成している認識装置１１２および１２０のいずれかから個別に得ることができる場合よりも良好な動作特性を有することができる。

例えば、ネットワーク１１６の可用性が時間の経過とともに変動しても、またクライアント装置１０６のＣＰＵに対する処理負荷が時間の経過とともに変動しても、本明細書において開示する各技法を使用して、ユーザのターンアラウンド・タイム要求を満足させることができる。こうした柔軟性は、アービトレーション・エンジン１２４が、クライアント側での認識装置１１２およびサーバ側での認識装置１２０のターンアラウンド・タイムにおける変化、および時間で変化する他の要因に応答する変化に対処することができる結果として生じる。それにより、本発明の各実施形態は、ネットワークの速度が落ち、またはネットワークが利用不能になると破綻する、従来のサーバ側での音声認識技法を上回る明確な利益をもたらす。

本発明の各実施形態に従って実施されるハイブリッド型音声認識システムは、構成している２つの認識装置のうち高速な方の装置（例えば、図１のサーバ側での認識装置１２０）が実現する場合よりも高い音声認識確度を実現することができる。これは、従来のサーバ側での音声認識技法を上回る明確な利点であり、この従来の技法は、サーバ側での認識装置がシステムの使用する唯一の認識装置なので、この認識装置の確度を有する結果を実現するのみである。

同様に、本発明の各実施形態に従って実施されるハイブリッド型音声認識システムは、構成している２つの認識装置のうち低速な方の装置（例えば、図１のクライアント側での認識装置１１２）が実現する場合よりも高速な平均応答時間を実現することができる。これは、従来のサーバ側での音声認識技法を上回る明確な利点であり、この従来の技法は、サーバ側での認識装置がシステムの使用する唯一の認識装置なので、この認識装置の応答時間を有する結果を実現するのみである。

さらに、本発明の各実施形態は、ハイブリッド・システムを形成するのに使用してもよい認識装置のタイプまたは組合せに制約条件を課すものではない。クライアント側での認識装置１１２およびサーバ側での認識装置１２０のそれぞれは、どんな種類の認識装置でもよい。それら装置のそれぞれは、もう一方の装置の特性を知ることなく選択してもよい。場合によっては様々なタイプの複数のクライアント側での認識装置を、単一のサーバ側での認識装置とともに使用して、複数のハイブリッド型認識システムを効果的に形成してもよい。クライアント側での認識装置１１２またはサーバ側での認識装置１２０のいずれも、ハイブリッド・システムを破綻させることなく、修正してもよく、また置き換えてもよい。結果として、本明細書において開示する各技法により、それらの技法を、多種多様なクライアント側での認識装置およびサーバ側での認識装置とともに使用するのに適したものにする柔軟性が広がる。

さらに、音声認識エンジンを利用する既存のアプリケーションにどんな修正も要求することなく、本発明で開示する各技法を実施してよい。前述の通り、例えば、委譲エンジン１１０は、従来の音声認識エンジンと同じインターフェースをアプリケーション１０８に提供してもよい。結果として、アプリケーション１０８は、委譲エンジン１１０が従来の音声認識エンジンである場合と同様に、委譲エンジン１１０に入力を供給し、そこから出力を受け取ってもよい。したがって、委譲エンジン１１０は、アプリケーション１０８にどんな修正も要求することなく、従来の音声認識エンジンの代わりにクライアント装置１０６に入れてもよい。

これまで、具体的な実施形態に関して本発明を説明してきたが、前述の各実施形態は例示的なものとしてのみ示しており、本発明の範囲を限定または定義するものではないことを理解されたい。他の様々な実施形態もまた、以下のものを含むがそれには限定されず、特許請求の範囲に記載の範囲内にある。例えば、本明細書に記載の各要素および各構成部品は、さらなる構成要素にさらに分割してもよく、また一緒に結合して、同じ機能を実行するための構成部品をより少なくなるよう形成してもよい。

前述の各技法は、例えば、ハードウェア、コンピュータ読取り可能な媒体に具体的に格納されたソフトウェア、ファームウェア、またはそれらのどんな組合せで実施してもよい。前述の各技法は、プロセッサ、プロセッサが読取り可能な記憶媒体（例えば、揮発性メモリと不揮発性メモリ、および／または記憶素子）、少なくとも１つの入力装置、ならびに少なくとも１つの出力装置を備える、プログラム可能なコンピュータ上で実行される１つまたは複数のコンピュータ・プログラムで実施してもよい。入力装置を使用して入ってくる入力にプログラム・コードを適用して、説明した各機能を実行し、出力を生成してもよい。出力は、１つまたは複数の出力装置に供給してもよい。

以下の特許請求の範囲に記載の範囲内にある各コンピュータ・プログラムは、アセンブリ言語、機械語、高水準手続き型プログラミング言語、またはオブジェクト指向プログラミング言語など、どんなプログラミング言語で実施してもよい。プログラミング言語は、例えば、コンパイラ型またはインタープリタ型のプログラミング言語でもよい。

このようなコンピュータ・プログラムはそれぞれ、コンピュータ・プロセッサで実行するために、機械読取り可能な記憶装置内に具体的に組み入れられたコンピュータ・プログラム製品で実施してもよい。本発明の方法ステップは、コンピュータ読取り可能な媒体上に具体的に組み入れられたプログラムを実行して、入力に演算を施し出力を生成することにより本発明の各機能を実行するコンピュータ・プロセッサによって実行してもよい。適切なプロセッサには、一例として、汎用マイクロプロセッサと特殊目的のマイクロプロセッサが両方含まれる。一般に、プロセッサは、読取り専用メモリおよび／またはランダム・アクセス・メモリから、命令およびデータを受信する。コンピュータ・プログラム命令を具体的に組み入れるのに適した記憶装置には、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュ・メモリ・デバイスを含む半導体記憶装置、内部ハード・ディスクや取外し可能ディスクなどの磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭなど、あらゆる形態の不揮発性メモリが含まれる。前述のいかなるものも、特別に設計されたＡＳＩＣ（特定用途向け集積回路）またはＦＰＧＡ（フィールド・プログラマブル・ゲート・アレイ）によって補ってもよく、またそれらに組み込んでもよい。一般に、コンピュータはまた、内部ディスク（図示せず）または取外し可能ディスクなどの記憶媒体から、プログラムおよびデータを受信することができる。これらの要素はまた、従来のデスクトップ・コンピュータまたはワークステーション・コンピュータ、ならびに本明細書において説明した各方法を実施するコンピュータ・プログラムを実行するのに適した他のコンピュータ内に見られ、これらのコンピュータは、任意のデジタル印刷エンジンもしくはマーキング・エンジン、表示モニタ、または、カラーもしくはグレー・スケールの画素を紙、フィルム、表示画面、もしくは他の出力媒体上に生成することのできる他のラスタ出力装置とともに使用してもよい。

Claims

クライアント装置が実行する、コンピュータで実施される方法であって、
（Ａ）オーディオ信号に自動音声認識を適用するよう求める要求を、要求者から受信するステップと、
（Ｂ）前記オーディオ信号を、前記クライアント装置内の第１の自動音声認識エンジンに供給するステップと、
（Ｃ）前記オーディオ信号を、サーバ装置内の第２の自動音声認識エンジンに供給するステップと、
（Ｄ）前記第１の自動音声認識エンジンから第１の音声認識結果を、前記クライアント装置内のアービトレーション・エンジンにおいて受信するステップと、
（Ｅ）前記第２の自動音声認識エンジンから第２の音声認識結果を、前記クライアント装置内の前記アービトレーション・エンジンにおいて受信するステップであって、前記クライアント装置が、前記第１および第２の自動音声認識エンジンのうちの一方を好ましい音声認識エンジンとして扱うように構成される、前記受信するステップと、
（Ｆ）前記第１の音声認識結果および／または前記第２の音声認識結果に基づいて、ハイブリッド型音声認識結果を前記要求者に提供するステップであって、
前記提供するステップは、前記第１の音声認識結果を第１の時点で受信し、前記第２の音声認識結果を前記第１の時点よりも後の第２の時点で受信した場合、
（Ｆ）（１）前記ハイブリッド型音声認識結果として前記第１の音声認識結果を提供するステップと、
（Ｆ）（２）前記第２の自動音声認識エンジンが前記好ましい音声認識エンジンである場合にのみ、前記ハイブリッド型音声認識結果として前記第２の音声認識結果を提供するステップと、を含む方法。
クライアント装置が実行する、コンピュータで実施される方法であって、
（Ａ）オーディオ信号に自動音声認識を適用するよう求める要求を、要求者から受信するステップと、
（Ｂ）前記オーディオ信号を、前記クライアント装置内の第１の自動音声認識エンジンに供給するステップと、
（Ｃ）前記オーディオ信号を、サーバ装置内の第２の自動音声認識エンジンに供給するステップと、
（Ｄ）前記第１の自動音声認識エンジンから第１の音声認識結果を、前記クライアント装置内のアービトレーション・エンジンにおいて受信するステップと、
（Ｅ）前記第２の自動音声認識エンジンから第２の音声認識結果を、前記クライアント装置内の前記アービトレーション・エンジンにおいて受信するステップと、
（Ｆ）前記第１の音声認識結果および／または前記第２の音声認識結果に基づいて、ハイブリッド型音声認識結果を前記要求者に提供するステップであって、
前記提供するステップは、前記第１の音声認識結果を第１の時点で受信し、前記第２の音声認識結果を前記第１の時点よりも後の第２の時点で受信した場合、
（Ｆ）（１）前記ハイブリッド型音声認識結果として前記第１の音声認識結果を提供するステップと、
（Ｆ）（２）前記第１の音声認識結果内の任意の単語とオーバラップしない前記第２の音声認識結果内の単語を、それぞれの単語に関連するタイム・スタンプを使用して識別するステップと、
（Ｆ）（３）前記ハイブリッド型音声認識結果として前記第２の音声認識結果からのオーバラップしていない単語のみを提供するステップとを含む方法。
（Ｆ）が、
（Ｆ）（３）前記第１の音声認識結果を、前記ハイブリッド型音声認識結果内の前記第２の音声認識結果で置き換えるステップを含む、請求項１に記載の方法。
オーディオ信号に自動音声認識を適用するよう求める要求を、要求者から受信するための手段と、
前記オーディオ信号を、クライアント装置内の第１の自動音声認識エンジンに供給するための手段と、
前記オーディオ信号を、サーバ装置内の第２の自動音声認識エンジンに供給するための手段と、
前記第１の自動音声認識エンジンから第１の音声認識結果を、前記クライアント装置内のアービトレーション・エンジンにおいて受信するための手段と、
前記第２の自動音声認識エンジンから第２の音声認識結果を、前記クライアント装置内の前記アービトレーション・エンジンにおいて受信するための手段であって、前記クライアント装置が、前記第１および第２の自動音声認識エンジンのうちの一方を好ましい音声認識エンジンとして扱うように構成される、前記受信するための手段と、
前記第１の音声認識結果および／または前記第２の音声認識結果に基づいて、ハイブリッド型音声認識結果を前記要求者に提供するための手段であって、
前記提供するための手段は、前記第１の音声認識結果を第１の時点で受信し、前記第２の音声認識結果を前記第１の時点よりも後の第２の時点で受信した場合、
前記ハイブリッド型音声認識結果として前記第１の音声認識結果を提供するための手段と、
前記第２の自動音声認識エンジンが前記好ましい音声認識エンジンである場合にのみ、前記ハイブリッド型音声認識結果として前記第２の音声認識結果を提供するための手段と、を含む、提供するための手段とを備える装置。
オーディオ信号に自動音声認識を適用するよう求める要求を、要求者から受信するための手段と、
前記オーディオ信号を、前記クライアント装置内の第１の自動音声認識エンジンに供給するための手段と、
前記オーディオ信号を、サーバ装置内の第２の自動音声認識エンジンに供給するための手段と、
前記第１の自動音声認識エンジンから第１の音声認識結果を、前記クライアント装置内のアービトレーション・エンジンにおいて受信するための手段と、
前記第２の自動音声認識エンジンから第２の音声認識結果を、前記クライアント装置内の前記アービトレーション・エンジンにおいて受信するための手段と、
前記第１の音声認識結果および／または前記第２の音声認識結果に基づいて、ハイブリッド型音声認識結果を前記要求者に提供するための手段であって、
前記提供する手段は、前記第１の音声認識結果を第１の時点で受信し、前記第２の音声認識結果を前記第１の時点よりも後の第２の時点で受信した場合、
前記ハイブリッド型音声認識結果として前記第１の音声認識結果を提供するための手段と、
前記第１の音声認識結果内の任意の単語とオーバラップしない前記第２の音声認識結果内の単語を、それぞれの単語に関連するタイム・スタンプを使用して識別するための手段と、
前記ハイブリッド型音声認識結果として前記第２の音声認識結果からのオーバラップしていない単語のみを提供するための手段とを含む、提供するための手段とを備える装置。