JP2022552815A

JP2022552815A - 音響システムにおけるスピーチのオーディオ品質の改善

Info

Publication number: JP2022552815A
Application number: JP2022520788A
Authority: JP
Inventors: ネイラー－ティース、アレクサンダー、ジョン; ダニングス、アンドリュー、ジェームス; マスタース、オリバー、ポール
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-10
Filing date: 2020-10-05
Publication date: 2022-12-20
Also published as: US11151981B2; CN114667568A; US20210110812A1; DE112020003875T5; GB2604498A; WO2021070032A1

Abstract

【課題】音響システムにおけるスピーチのオーディオ品質の改善【解決手段】音響システムのためのコンピュータ実装方法、装置及びコンピュータ・プログラム製品である。スピーチ認識は、音響システムに入力されたスピーチを含む入力オーディオ・データについて実行される。スピーチ認識は、追加的に、音響システムの１つ又はそれ以上のオーディオ・スピーカにより再生されたスピーチを含む出力オーディオ・データの少なくとも１つのインスタンスについて実行される。前記入力オーディオ・データについてのスピーチ認識の結果と、出力オーディオ・データの前記少なくとも１つのインスタンスについてのスピーチ認識の結果との間の違いが判断される。違いが閾値よりも大きいか、又は等しい場合に、再生スピーチの品質が不満足であると判断される。再生された音響のスピーチ品質が不満足と判断される場合には、修正アクションを実行して、音響システムにより再生されるスピーチの品質を改善することができる。

Description

本発明は一般に音響システムからのオーディオ出力の品質を改善するための技術に関し、より具体的には、音響システムのオーディオ出力への聴取者に対するスピーチの品質を改善することに関する。

音響システムは、会議への参加者の、講義の、及び劇場又は公会堂での実演の、又は会議での呼び出しの、及び通信ネットワーク越しに分散された地理的ロケーションでのウェビナーの、といった聴取者へと、オーディオ・スピーカを通してスピーチを再生するために頻繁に使用される。そのようなシステムにおいては、マイクロホンへと入力スピーチが受領され、ホスト・システムにおいて任意的に記録され、オーディオ・データがホスト・システムにより１つ又はそれ以上のオーディオ・スピーカへと通信されると共に、オーディオ・スピーカ（複数でもよい）が、聴取者に対して再生されたスピーチを出力（すなわち“再生”）する。多くの場合、オーディオ・スピーカを通して再生されたスピーチは、入力スピーチの完全な再生ではない（例えば、スピーチが不明瞭な可能性がある。）。例えば、オーディオ・スピーカのセッティングが最適化されていない場合、再生された音響及びその結果としての再生されたスピーチが歪む可能性があり、聴取者が聴取すること、又は理解すること、又はこれらの両方のことを困難とする。他の場合には、入力スピーチは、それ自体が、例えば、スピーチ・ソースに相対するマイクロホンの位置、又はその最適とは言えないセッティングの故に、不完全である可能性がある。このことは、再度オーディオ・スピーカにより再生されるスピーチを聴取すること、又は理解することを困難にする。典型的には、オーディオ出力のスピーチに関連するそのような問題は、音響システムへの調整により解決することができる。例えば、もし、聴取者がスピーチを聞き取ること、又は理解することが難しいことをホストに通知すれば、ホストは、音響システムの構成可能なセッティングを調整するか、若しくは人間の話者に対してマイクロホンに相対して移動するように依頼することができる。しかしならが、これは調整が行われる間の中断及び遅延を生じさせる。加えて、調整は手作業なので、それらは聴取者の困難さを完全には解決できない可能性がある。

本発明の側面によれば、コンピュータ実装方法が提供される。コンピュータ実装方法は、音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行することを含む。コンピュータ実装方法は、さらに音響システムの１つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも１つのインスタンスについてスピーチ認識を実行することを含む。コンピュータ実装方法は、さらに、入力オーディオ・データについてのスピーチ認識の結果と、出力オーディオ・データの少なくとも１つのインスタンスについてのスピーチ認識の結果との間の違いを判断することを含む。コンピュータ実装方法は、さらに、違いが閾値よりも大きいか、又は等しい場合に、再生スピーチの品質が不満足であると判断することを含む。

本発明のもう１つの側面によれば、装置が提供される。装置は、プロセッサ及びストレージを含む。プロセッサは、音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行するように構成される。プロセッサは、さらに、音響システムの１つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも１つのインスタンスについてスピーチ認識を実行するように構成される。プロセッサは、さらに、入力オーディオ・データについてのスピーチ認識の結果と、出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の結果との間の違いを判断するように構成される。プロセッサは、さらに、違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断するように構成される。

本発明のさらにもう１つの側面によれば、コンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、実体化されたプログラム命令それ上に有するコンピュータ可読な記録媒体を含む。コンピュータ・プログラム製品は、プロセッサにより実行されて、前記プロセッサをして：音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行すること；音響システムの１つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも１つのインスタンスについてスピーチ認識を実行すること；入力オーディオ・データについての前記スピーチ認識の結果と、出力オーディオ・データの少なくとも１つのインスタンスについてのスピーチ認識の結果との間の違いを判断すること；及び違いが閾値よりも大きいか、又は等しい場合に、再生スピーチの品質が不満足であると判断することを実行させる。

図１は、本発明の１つの実施形態による音響システムを示す概略図である。図２は、本発明の１つの実施形態による、不満足なスピーチ品質を検出し、かつ訂正するための方法のフローチャートである。図３は、本発明の１つの実施形態による、スピーチ品質を改善するため音響システムを調整するための方法のフローチャートである。図４は、本発明の１つの実施形態による音響システムのブロック図である。

本開示の実施例の実装を、図面を参照して以下に説明する。

本開示は、音響システムにより再生されるスピーチの品質が不満足の場合（例えば、聴取者にとって聴取が困難、又は不明瞭／一貫性がない）ことを検出すると共に、再生されるスピーチの品質を改善するために音響システムを再構成するシステム及び方法を提供する。本開示の本技術は、自動的に実行され、中断を制限すると共に、聴取者のエクスペリエンスを改善する。

特に、本開示によれば、１つ又はそれ以上のマイクロホンは、聴取環境内の位置に分散されており、音響システムの１つ又はそれ以上のオーディオ・スピーカにより再生された再生スピーチを検出するために使用される。１つ又はそれ以上のマイクロホンのそれぞれにより受領された再生スピーチを含む出力オーディオ・データが記録される。１つ又はそれ以上のそれぞれのマイクロホンに関連するオーディオ・データの出力についてスピーチ認識が実行され、対応するマイクロホンの位置で再生されるスピーチの品質が判断される。加えて、スピーチ認識は、音響システムへと入力されるスピーチを含む入力オーディオ・データについて実行されて、ソースからのスピーチの品質が判断される。入力オーディオ・データについて実行されたスピーチ認識の結果と、それぞれのマイクロホンについての対応する出力オーディオ・データについて実行されたスピーチ認識の結果との間の比較が実行される。比較の結果は、スピーチ品質が聴取者にとって不満足であるか否かを判断し、もしそうであれば、再生されたスピーチの品質を改善するために音響システムを調整するといった修正アクションを取るために使用される。

本開示においては、用語“スピーチ”は、スピーチを含む音響、又はオーディオを参照するために使用される。用語“入力オーディオ・データ”は、音響システムのマイクロホン（本明細書おける“入力マイクロホン”）により検出された、ソース（例えば人間の話者）から発生するスピーチを含む音響、又はオーディオについてのデジタル・オーディオ・データを参照する。用語“出力オーディオ・データ”は、音響システムの１つ又はそれ以上のオーディオ・スピーカにより再生され、かつ音響システムのマイクロホン（本明細書における“出力マイクロホン”）によって検出された音響、又はオーディオについてのデジタル・オーディオ・データを参照する。オーディオ・データは、したがって、音響システムのマイクロホンによって受領されたスピーチを含む音響、又はオーディオを“表し”、又は“含む”。オーディオ・データの“記録”を参照することは、データ・ストレージにオーディオ・データを格納することを参照し、これは、オーディオ・データのオーディオ・データ・ファイルとしての時間的に長期のデータ格納に加え、通信のためのオーディオ・データの過渡的な格納を含む。

図１は、本発明の１つの実施形態による、音響システムを示す概略図である。音響システム１００は、データ通信ネットワーク１４０により相互接続された、ホスト・プロセッシング・システム１１０と、複数のマイクロホン１２０と、複数のオーディオ・スピーカ１３０とを含む。図１に示すシステムにおいては、音響システム１００は、異なる位置的ロケーション（例えば、ミーティング又は会議室）における、マイクロホン１２０と、オーディオ・スピーカ１３０とを含む分散システムである。少なくとも１つのロケーション（ロケーション１）は、ホスト・プロセッシング・システム１１０を含み、これは、例示する実施例では、音響システム１００に入力されるスピーチ・ソースのロケーションである。他のロケーション（ロケーション２及び３）は、対応する聴取環境においてオーディオを再生するためのオーディオ・スピーカ１３０を含む。

ホスト・プロセッシング・システム１１０は、典型的には、ユーザ・コンピューティング・システム（例えば、ノートブック・コンピュータ）、専用の音響システム・コントローラなどを含み、これは、音響システム１００を管理するためにユーザにより操作可能である。複数のマイクロホン１２０は、音響システム１００による再生のため、ソース（例えば人間の話者）からのスピーチを検出し、記録するための入力マイクロホン１２２を含む。入力マイクロホン１２２は、音響システム１００に入力される音響を受領するための専用的なマイクロホンなど（例えば、講義台上のマイクロホン）、又はホスト・プロセッシング・システム１１０の制御の下で、“スイッチ・オン”されることが可能なユーザ・コンピューティング・システムのマイクロホンとすることができる。複数のオーディオ・スピーカ１３０は、入力スピーチを再生すると共に、１つ又はそれ以上のロケーション内の異なる位置に分散されており、聴取環境を形成する（ロケーション２及び３）。特に、それぞれのオーディオ・スピーカ１３０は、記録されたスピーチに対応するオーディオ・データをホスト・プロセッシング・システム１１０からネットワーク１４０越しに受領して再生する。オーディオ・スピーカ１３０は、ロケーションで、音響システムの１つ又はそれ以上の専用的なラウドスピーカ１３４（例えば、映画館内で固定されたロケーションのスピーカ）、又はユーザ・コンピュータのオーディオ・スピーカ１３２、ネットワークされた電話などを含む。通信ネットワーク１４０は、ホスト・プロセッシング・システム１１０と、マイクロホン１２０と、オーディオ・スピーカ１３０との間の通信のための好適な有線又は無線ネットワークを含むことができる。

１つの実施形態においては、複数のマイクロホン１２０は、さらに、聴取環境（ロケーション２及び３）内の複数の位置において、本明細書で説明するように分析のため、オーディオ・スピーカ１３０から再生されたスピーチを受領し、かつ記録するため配置された出力マイクロホン１２４を含む。出力マイクロホン１２４は、例えばロケーションのオーディオ・スピーカ１３４に関連する音響システムの専用マイクロホンを含むことができる。出力マイクロホン１２４は、また、聴取環境内に存在するユーザ・コンピューティング・システムのマイクロホン又は他のデバイスを含むことができ、これらはホスト・プロセッシング・システム１１０により識別され、かつその目的のために影響下に置かれる。図１の分散システムにおいて、１つの聴取環境（ロケーション３）内の出力マイクロホン１２４は、それぞれ、ネットワーク１４０越しにホスト・プロセッシング・システム１１０へと通信するための出力オーディオ・データとして再生されたスピーチを記録するためのシステム・デバイスといった、ローカル・プロセッシング・システム１５０に関連付けられる。もう１つの聴取環境（ロケーション２）内の出力マイクロホン１２４は、ホスト・プロセッシング・システム１１０に対してネットワーク１４０越しにオーディオ・データを通信するように構成され、これは、出力オーディオ・データを記録する。当業者は認識できるであろうように、複数のマイクロホン１２０は、デジタル出力信号を生成するデジタル・マイクロホン、又はオーディオ信号チェーンに沿ってもう１つのコンポーネントにより記録され、かつデジタル・オーディオ・データへと変換されるアナログ出力信号を生成するアナログ・マイクロホン又はこれらの両方を含むことができる。

ホスト・プロセッシング・システム１１０は、入力オーディオ・データとしてソースから入力マイクロホン１２２により受領されたスピーチを記録する。追加的に、ホスト・プロセッシング・システム１１０は、それぞれの出力マイクロホン１２４によって記録され、かつネットワーク１４０越しに通信され、オーディオ・スピーカ１３０により再生された再生スピーチに対応する出力オーディオ・データを受領する。本発明の１つの実施形態によれば、ホスト・プロセッシング・システム１１０は、入力マイクロホン１２２に関連する入力オーディオ・データ及びそれぞれの出力マイクロホン１２４に関連する出力オーディオ・データについて、スピーチ認識を実行するように構成される。スピーチ認識技術は、当技術分野において知られており、かつホスト・プロセッシング・システム１１０は、如何なる好適なスピーチ認識技術でも実装することができる。スピーチ認識は、スピーチのトランスクリプト、又は信頼性基準の値又はレベルなど、又はこれらの組み合わせを提供し、スピーチ認識の信頼性を示す。スピーチ認識は、入力オーディオ・データ及び対応する出力オーディオ・データについて連続的に又は定期的に実行される。ホスト・プロセッシング・システム１１０は、さらに、それぞれの出力マイクロホン１２４に関連する出力オーディオ・データについて決定されたスピーチ認識の結果を、入力マイクロホン１２２に関連する入力オーディオ・データに対応して決定されたスピーチ認識の結果と比較する。比較が、１つ又はそれ以上の出力マイクロホン１２４の出力オーディオ・データについて決定された結果と、入力マイクロホン１２２の入力オーディオ・データについて決定された結果に許容できない違いを判断する場合、ホスト・プロセッシング・システム１１０は、記録されたスピーチのスピーチ品質が聴取者に不満足であると判断して、修正アクションを取る。例えば、修正アクションは、音響システムのコンポーネントのパラメータを調整すること（例えば、オーディオ・スピーカを制御するサウンド・カードのゲイン又はチャネル・イコライゼーションのセッティングなど）、又はユーザに対して一定の構造を取らせるためのメッセージ（例えば、人間の話者に対して入力マイクロホンに対してもっと近づくように、又はさらに遠ざかるための指示）を送付することを含む。例えば、許容できない違いは、信頼性レベルにおける差、又はスピーチトランスクリプトにおける測定された差といった、スピーチ認識から得られ、比較された結果が、さらに以下に説明するように閾値より低いか又は等しい場合に決定されることができる。

したがって、ホスト・プロセッシング・システム１１０は、音響システム１００により再生されたスピーチの品質が、聴取者に対して不満足である場合（すなわち、不明瞭、歪む、又は小さすぎるなど）を検出することができ、かつスピーチの品質を改善するためのアクションを取ることかできる。開示される技術は、自動的に、かつリアルタイムに実行することができるので、聴取者のエクスペリエンスが改善される。図１に例示した実施形態においては、開示される本技術は、ホスト・プロセッシング・システム１１０において実行される。当業者は認識するであろうように、本発明は、ローカル・プロセッシング・システム１５０又はプロセッシング・デバイスの組み合わせといった音響システム１００と通信する、如何なる他のプロセッシング・デバイス又はシステムにおいても実装することができる。

図２は、本発明の１つの実施形態による、不満足なスピーチ品質を検出し、修正するための方法２００のフローチャートである。例えば、方法２００は、図１の音響システム１００のホスト・プロセシング・システム１１０により実行することができる。

方法２００は、ステップ２０５で開始する。例えば、ステップ２５５は、音響システムの音響チェックの開始に応答して、話の開始に対応して、又はそれ以外に対応して開始されることができる。

ステップ２１０では、音響システムは、ソースから音響システムへと入力されたスピーチについての入力オーディオ・データを受領する。例えば、入力オーディオ・データは、入力マイクロホン１２２へと話す人間の話者のスピーチに応答して、図１の音響システム１００の入力マイクロホン１２２から受領することができる。入力オーディオ・データは、例えば、図１のホスト・プロセッシング・システム１１０により、典型的には受領され、かつ実質的にリアルタイム（すなわち、最小の遅延）で記録される（例えば、入力オーディオ・データのファイルに格納される）。

ステップ２２０では、音響システムは、入力オーディオ・データについてスピーチ認識を実行して、スピーチ品質を示す入力オーディオ・スピーチの認識の結果を判断する。如何なる好適なスピーチ認識技術又はアルゴリズムでもスピーチ認識を実行するために使用することができる。スピーチ認識の結果は、典型的には関連するオーディオ・データに含まれるスピーチのトランスクリプトを含む。トランスクリプトの品質は、スピーチの品質を示すことができる。追加的に、スピーチ認識の結果は、スピーチ認識の信頼性を示す、信頼性基準の値又はレベルを含むことができる。そのような信頼性基準は、スピーチ認識の技術において周知である。したがって、信頼性レベルは、また、スピーチの品質を示すことができる。スピーチ認識は、スピーチの品質を示す他の結果を提供することができる。

ステップ２３０では、音響システムは、聴取環境内の１つ又はそれ以上の位置で、音響システムの音響スピーカにより再生された再生スピーチに対応する出力オーディオ・データを受領する。例えば、出力オーディオ・データのインスタンスは、図１に示される音響システム１００のオーディオ・スピーカ１３０によって再生された再生スピーチを検出する、１つ又はそれ以上の出力マイクロホン１２４のそれぞれから受領することができる。出力オーディオ・データは、典型的には実質的にリアルタイムで受領されるが、入力オーディオ・データに相対して必然的に遅延する。例えば、遅延は、入力オーディオ・データのオーディオ・スピーカへの通信、及び図１に示すネットワーク１４０越しに出力マイクロホン１２４に関連し、対応する出力オーディオ・データの通信に起因する。いくつかの実装においては、出力オーディオ・データは、例えばローカル・プロセッシング・システム１５０、又は図１に示すホスト・プロセッシング・システム１１により記録される。

ステップ２４０では、音響システムは、出力オーディオ・データについてスピーチ認識を実行して、スピーチ品質を示す出力オーディオ・スピーチ認識の結果を判断する。特に、ステップ２４０では、音響システムは、受領した出力オーディオ・データの、それぞれのインスタンスについてスピーチ認識を実行する。ステップ２４０では、音響システムは、ステップ２２０で使用したスピーチ認識技術を使用するので、ステップ２２０及びステップ２４０それぞれの結果が比較可能である。

したがって、ステップ２１０及びステップ２２０では、音響システムは、入力オーディオ・データについてのスピーチ認識の結果（複数でもよい）を導出し、ステップ２３０及び２４０では、音響システムは、出力オーディオの、それぞれのインスタンスのスピーチ認識の結果（複数でもよい）の導出を実行する。それぞれの場合、スピーチ認識の結果は、スピーチのトランスクリプト、又は信頼性レベル又はそれらの両方などを含む。当業者は認識するであろう様に、実際上、ステップ２１０～ステップ２４０は、入力及び出力オーディオ・データが受領され、かつリアルタイムに、といったように連続的に処理される用途においては特に連続的に実行することができる。

図２の実施例の実装においては、出力オーディオ・データの多数のインスタンスが受領される。特に、出力オーディオ・データのそれぞれのインスタンスは、聴取環境内に配置された特定の出力マイクロホンに関連する。ステップ２５０では、音響システムは、出力オーディオ・データの第１のインスタンスについてのスピーチ認識の結果を選択する。

ステップ２６０では、音響システムは、出力オーディオ・データのインスタンスについての選択されたスピーチ認識の結果を、対応する入力オーディオ・データについてのスピーチ認識結果と比較すると共に、スピーチ品質における違いを判断する。違いは、スピーチ認識結果（複数でもよい）を使用して計算される、スピーチ品質における違いを表す定量的な値である。１つの実装においては、ステップ２６０で音響システムは、出力オーディオ・データのインスタンスについて判断されたスピーチ認識のトランスクリプトのテキストと、対応する入力オーディオ・データのトランスクリプトのテキストとを比較することができると共に、トランスクリプトテキスト内（例えば単語）の生の個数の差、又はパーセンテイジ差といった違いを判断することができる。トランスクリプトスピーチのテキストにおける違いは、オーディオ・スピーカでのスピーチ品質が、ソースでのスピーチ品質に比較して低下していることを示すと共に、違いの量は、品質劣化の量を示す。もう１つの実装において、ステップ２６０では音響システムは、出力オーディオ・データのインスタンスについて判断されたスピーチ認識の信頼性レベルを、対応する入力オーディオ・データについて判断された信頼性レベルと比較することができると共に、相違を判断することができる。上述したように、信頼性レベルは、トランスクリプトされたスピーチの信頼性を示す（例えば、パーセンテイジで表現される信頼性基準の値）。トランスクリプトされたスピーチの信頼性は、聴取者に対する再生スピーチの品質に依存するので、信頼性レベルの違いは、オーディオ・スピーカでの再生スピーチの品質がソースでのスピーチの品質に比較して低下していることを示すと共に、相違の量は、品質劣化の量を示す。他の実装においては、音響システムは、スピーチ認識の結果（複数でもよい）から導出された他の基準を、スピーチ品質の劣化を検出するために使用することができる。当業者は認識するであろう様に、ステップ２６０では、音響システムは、出力オーディオ・データのサンプルについてのスピーチ認識の結果を、対応する入力オーディオ・データのサンプルについてのスピーチ認識の結果と比較することができる。いくつかのシナリオにおいて、ステップ２１０～ステップ２４０は、入力及び再生スピーチについて連続的に実行することができる（例えば、実質的にリアルタイムで）。この場合、入力オーディオ・データ及び出力オーディオ・データの対応するサンプルは、同一の入力及び再生スピーチを含んでおり、１つ又はそれ以上の時間同期及びオーディオ・マッチング（オーディオ・データにおけるオーディオの同一のセクションを識別する）、又はスピーチ認識のトランスクリプトマッチング（トランスクリプトテキスト内のワード及びフレーズをマッチングすることによる同一のセクションの識別）といった、いかなる好適な技術を使用しても識別することができる。他のシナリオにおいては、ステップ２１０～ステップ２４０は、入力及び再生スピーチを定期的にサンプリングすることによって実行することができるので（例えば、同期され、時間的に分離されたタイム・ウィンドウにわたって入力及び再生スピーチをサンプリングする。）、スピーチ認識の結果（複数でもよい）は、対応する入力オーディオ・データ及び出力オーディオ・データのサンプルに関連する。

ステップ２７０では、音響システムは、違いが閾値よりも大きいか、又は等しいかを判断する。閾値は、入力スピーチの品質に比較して再生スピーチのスピーチ品質の許容できない劣化を示す違いの基準の値である（例えば、数字／パーセンテイジ、又はテキスト中のワード、又は信頼性基準）。閾値の値は、用途の要求に従って選択することができると共に、ユーザによって変更することができる。例えば、いくつかの用途においては、スピーチ品質の５％までの違いが許容可能なので、閾値は、５％に設定されるが、他の用途においてはスピーチ品質における１０％までの違いが許容されるので、閾値は、１０％に設定される。いくつかの実施例の実装においては、閾値の値は、以下に説明するように入力スピーチの品質に基づいて調整することができる。

違いが閾値よりも小さい場合（ステップ２７０のＮＯ分岐）、出力オーディオ・データの選択されたインスタンスにおける再生スピーチの品質は、満足されるものであり、音響システムは、ステップ２８０を実行する。ステップ２８０では、音響システムは、考慮するべき出力オーディオ・データのインスタンスがさらにあるかを判断する。考慮するべき出力オーディオ・データのインスタンスがさらにある場合（ステップ２８０のＹＥＳ分岐）、音響システムは、ステップ２５０の実行を開始し、その後、音響システムがステップ２８０で考慮するべき出力オーディオ・データのインスタンスがもうないと判断するまで、ステップ２６０及びステップ２７０を通してループを継続する。音響システムが考慮するべき出力オーディオ・データがもうないと判断した後、音響システムはステップ２９５で処理を停止する。

違いが閾値よりも大きいか等しい場合（ステップ２７０のＹＥＳ分岐）、出力オーディオ・データの選択されたインスタンスの再生スピーチは、不満足なものであり、音響システムは、ステップ２９０を実行する。ステップ２９０では、音響システムは、修正アクションを実行して、音響システムにより再生されるスピーチの品質を改善する。例えば、修正アクションは、図３を参照して以下に説明するように、音響システムの構成パラメータを変更すること、又はユーザにメッセージを送付すること、又はこれらの両方を含むことができる。

当業者は認識するであろう様に、図２に例示された実施例の実装の多くの変更が可能である。例えば、スピーチ認識は、対応するローカル・プロセッシング・デバイス、又はそれに関係するユーザ・デバイスのそれぞれの出力マイクロホンに関連する出力オーディオ・データについて実行することができる。したがって、ステップ２４０では、音響システムは、それに代えて、ネットワーク１４０越しにそれぞれの出力マイクロホンに関連する出力オーディオ・データについての出力オーディオ・スピーチ認識の結果を受領し、ステップ２３０を省略することができる。したがって、スピーチ認識の処理の負担は、多数のプロセッシング・デバイスを横断して分散される。追加的にステップ２１０の前に、音響システムは、聴取環境内の位置で使用可能なマイクロホンを識別し、かつ出力オーディオ・マイクロホンとして使用するためのマイクロホンのセットを選択することができる。例えば、ユーザ・デバイスのマイクロホンは、聴取環境からネットワーク１４０への接続が確立されたこと、又は聴取環境内のグローバル・ポジショニング・システム座標（又は等価なもの）に基づいて識別することができる。この場合、メッセージは、再生スピーチを聴取するためにユーザ・デバイスの識別されたマイクロホンを使用する許可を得ようとするユーザに対して送付することができ、ユーザは、パーミッションを許容するか拒否するか選択することができる。パーミッションが許容された場合、音響システムは、その後、ステップ２３０でマイクロホン及びユーザ・デバイスに対して出力オーディオ・データを送信させるために必要な如何なる他の特徴をもスイッチ・オンする。もう１つの実施例では、聴取環境内でネットワークに接続されたスタンドアローンのマイクロホンを識別すると共に、出力オーディオ・データを送信するために使用することができる（例えば、マイクロホン（複数でもよい）のパーミッションを許容するように構成される場合）。さらに、音響システムは、出力オーディオ・データの単一の選択されたインスタンスにおける再生スピーチの品質が不満足であるというテップ２７０の判断ステップに応答して、修正アクションを実行することができる。他の実装においては、修正アクションは、他の基準に基づいて実行することができる。例えば、音響システムは、出力オーディオ・データの多数のインスタンスについての再生スピーチの品質が不満足であると判断されたことに応答して修正アクションを実行する。もう１つの実施例では、修正アクションは、不満足な再生スピーチに関連する聴取環境内の出力マイクロホン（複数でもよい）の位置に基づいて実行することができる。

図３は、本発明の１つの実施形態による、スピーチ品質を改善するための音響システムを調整する方法のフローチャートである。例えば、方法３００は、図２のステップ２９０における修正アクションとして実行することができる。方法３００は、図１に示す音響システム１００のホスト・プロセッシング・システム１１０、又は音響システムのもう１つのプロセッシング・デバイスにより実行することができる。

方法３００は、ステップ３０５で開始する。例えば、方法３００は、出力オーディオ・データのスピーチ認識の結果（複数でもよい）と、入力オーディオ・データとの間の違いが閾値より大きいか、又は等しいと判断したことに応答して開始することができる。閾値よりも大きいか、又は等しい違いは、再生スピーチの品質が不満足であることを示す。

ステップ３１０では、音響システムは、ソースからの入力スピーチのスピーチ品質をテストする。例えば、ステップ３１０では、音響システムは、スピーチ品質のための閾値と、スピーチ認識の結果とを比較することができる。閾値は、事前決定された信頼性レベル（例えば６６％）とすることができる。閾値は、ユーザにより構成することができる。閾値よりも低いことは、入力スピーチの品質が不満足であることを示す。他の実施例では、ステップ３１０で、音響システムは、入力スピーチに比較してバックグラウンド・ノイズが大きなボリュームである（シグナル・ツウ・ノイズ比が低いことにより示される。）こと、人間の話者が入力マイクロホンに近いこと（“ポッピング”効果により示される。）、入力マイクロホンのセッティング（例えば、オーディオ感度又はゲイン／ボリューム・レベル）などといった、入力スピーチの品質に悪影響を与える問題を識別する、１つ又はそれ以上の技術を使用して入力オーディオ・データを処理することができる。したがって、ステップ３１０では、音響システムは、オーディオ入力に関連する、可能性のある問題を識別するためのテストのシリーズを実行する。

ステップ３２０では、音響システムは、ソースからの入力スピーチの品質が許容可能な否かを判断する。例えばステップ３２０では、音響システムは、音響システムが３１０でスピーチ品質が不満足であることを示す入力スピーチの問題を識別したか否かを判断することができる。入力スピーチの品質が許容可能であるとの判断に応答して（ステップ３２０のＹＥＳ分岐）、音響システムは、ステップ３４０を続ける。しかしながら、入力スピーチの品質が不満足であるとの判断に応答して（ステップ３２０ＮＯ分岐）、音響システムはステップ３３０に進む。

ステップ３３０では、音響システムは、ソースのユーザに対して警告メッセージを送付する。特に、ユーザに対する警告メッセージは、ステップ３１０のテスト（複数でもよい）の結果に基づいて調整させるための指示を含むことができる。例えば、入力オーディオ・データについて実行されたスピーチ認識の結果が閾値を下回る場合、警告メッセージは、人間の話者に対してよりはっきり話すように指示することができる。もう１つの実施例では、テストが人間の話者の入力マイクロホンへの近さが問題と認識する場合、メッセージは、入力マイクロホンに対して近づくか又は遠ざかるように移動させるための指示を含むことができる。さらにもう１つの実施例では、テストが入力マイクロホンの問題を識別する場合、警告メッセージは、マイクロホンのセッティング（例えばオーディオ感度又はゲイン／ボリューム・レベル）を調整させるための指示を含むことができる。他の実装において、音響システムがステップ３１０で入力マイクロホンの問題を識別するシナリオの場合、以下に説明する、例えば、ステップ３４０～ステップ３７０を使用した入力マイクロホンの自動的な調整が実行される。

ステップ３４０では、音響システムは、第１のパラメータ調整を行う。パラメータ調整は、如何なる独立に構成可能なパラメータ、又はサウンド・カード、オーディオ・スピーカ又はマイクロホンといった音響システムの個別的なコンポーネントのセッティングを含むことができる。当業者は理解できるであろうように、イコライゼーションのセッティングは、オーディオ信号の複数の周波数領域（また、周波数バンド、又はチャネルと呼ばれる。）の調整可能なセッティングを含む。したがって、イコライゼーションに関して、コンポーネントのそれぞれの調整可能な周波数バンドは、調整可能なパラメータに対応する。したがって、音響システムの調整可能なパラメータは、音響システムの構成可能なコンポーネント毎の、ゲイン及びイコライゼーションのセッティングといった、構成可能なセッティングを含む。パラメータ調整は、オーディオ・スピーカといった特定のオーディオ・コンポーネントのパラメータの値の、ポジティブな、又はネガティブなインクリメントを含むことができる。パラメータ調整は、コンポーネントのパラメータについて、パラメータの既存の値、又は新たな（ターゲット）の値を増加させることにより定義することができる。ステップ３４０では、音響システムは、任意的に第１のパラメータ調整を選択することができる。代替的に、音響システムは、インテリジェントな調整スキームを使用して第１のパラメータを選択することができ、これは、以下に説明するように事前規定されるか又は学習されることができる。したがって、ステップ３４０で音響システムは、事前規定された量又は増分で音響システムのコンポーネントの識別されたパラメータを調整するために、音響システムのリモート・コンポーネント（例えば、オーディオ・スピーカのサウンド・カード）へと構成命令を送付することを含むことができる。いくつかの実装においては、音響システムは、ステップ３４０でターゲットの値へと、識別されたパラメータを調整するための構成命令を送付することを含むことができる。

ステップ３５０では、音響システムは、ステップ３４０での第１のパラメータ調整の効果を判断し、決定された関係の関係情報を格納する。特にステップ３５０では、音響システムは、図２で示した方法２００のステップ２１０～ステップ２６０を反復して実行することができ、第１のパラメータ調整の後に、調整の影響を判断することができる。例えば、ステップ３５０でシステムは、パラメータ調整の前後で、再生スピーチ及びステップ２６０で判断した入力されたスピーチのスピーチ品質の違いを、図２に示したステップ２１０～ステップ２６０の反復において比較することにより、調整の影響を判断することができる。ステップ３５０では、音響システムは、第１のパラメータの調整から生じた再生スピーチの品質へのポジティブ又はネガティブな影響を判断することができる（例えば、スピーチ品質における改善又は劣化のパーセンテイジ）。音響システムは、パラメータ、パラメータ調整に対応する増分、及びスピーチ品質への判断された影響を格納することができ、ここで、それと共に、音響システムについて、第１のパラメータと、再生スピーチの品質との間の関係についての情報を提供する。

ステップ３６０では、音響システムは、ステップ３４０での第１のパラメータ調整の後に、再生スピーチの品質が満足されるか否かを判断する。例えば、音響システムは、図２に示す方法２００のステップ２７０に対応する。いくつかの実施形態において、再生スピーチの品質が満足されるか否かを判断するためにステップ３６０で使用される閾値の値は、入力スピーチの品質に基づいて調整することができる。例えば、再生スピーチについてのスピーチ認識の結果の信頼レベル（又は等価的な）は、入力スピーチのそれよりも必然的に低い。したがって、閾値の信頼性レベル（又は等価的な）は、再生スピーチの品質に基づいて調整又は決定することができる。例えば、閾値は、例えば固定されるか又はそのパーセンテイジを可変とする（例えば９０％～９５％）というように、入力スピーチについての信頼性レベル（又は等価的な）の値の関数とすることができる。再生スピーチの品質が満足されると判断されたこと（ステップ３６０のＹＥＳ分岐）に応答して、方法は、ステップ３７５で終了する。しかしながら、再生スピーチの品質が依然として不満足と判断されること（ステップ３６０のＮＯ分岐）に応答して、本方法は、ステップ３７０を継続する。

ステップ３７０で、音響システムは、行うことができる構成可能なパラメータ調整がさらにあるか否かを判断する。特に、いくつかの実装においては、音響システムは、図２に示した方法のステップ２９０の修正アクションの部分として、パラメータ調整の事前決定されたセットを通して一度だけサイクルすることができる。行うことができるパラメータ調整がさらに存在する（ステップ３７０のＹＥＳ分岐）との判断に応答して、方法は、ステップ３４０に戻って、次のパラメータ調整を行う。音響システムは、音響システムが行うべきパラメータ調整がないと判断するまで、ステップ３５０～ステップ３７０をループにおいて継続する。音響システムが行うべきパラメータ調整がないと判断の判断に応答して（ステップ３７０のＮＯ分岐）、方法はステップ３７５で終了する。他の実装において、音響システムは、事前規定された条件に一致するまで、音響システムのパラメータ調整のセットを通したサイクルを反復することができる。例えば、この条件は、再生スピーチの品質が満足されること、連続的なパラメータ調整によっては再生スピーチの品質に顕著な改善がないこと、又はタイマが満了したこと、とすることができる。この場合、ステップ３７０が除外されて、音響システムは、ステップ３６０で１つ又はそれ以上の条件が一致したか否かを判断し、そうでない場合、方法３００は、ステップ３４０に戻り、次のパラメータ調整を行う。方法３００は、その後、音響システムがオーディオ出力の品質が満足（又は他の条件に適合する）と判断するまでステップ３５０～ステップ３６０をループにおいて継続し、本方法は、ステップ３７５で終了する。

したがって、方法３００により、音響システムは、音響システムの構成を自動調整することにより入力スピーチが許容される品質を有する時点で、再生スピーチの品質を改善する。特に、音響システムは、音響システムの構成可能なパラメータを自動的に調整して、再生スピーチの品質を改善する。

追加的に、音響システムは、音響システムのコンポーネントの１つ又はそれ以上の構成可能なパラメータと、スピーチ品質との間の関係に関する情報を判断し、格納する。時間にわたり、この情報は、音響システムの構成可能なパラメータの、よりインテリジェントな調整のために使用することができる。例えば、この情報は、聴取環境内での１つ又はそれ以上の特定の位置での不満足なスピーチ品質の検出に応答して、入力と、再生スピーチの品質との間の最小の期待差を提供するパラメータ又はパラメータ・グループについて要求される、特定の調整（複数でもよい）を予測するために使用することができる。

当業者は認識できるであろう様に、音響システムの構成可能なパラメータの間には、スピーチ品質に対する影響又は効果の関係において相互依存性が有る可能性がある。例えば、第１のパラメータのポジティブな増加を含む第１のパラメータの調整が、改善されたが、不満足なスピーチ品質を誘導し、第２のパラメータのポジティブな増加を含む第２のパラメータの調整が、スピーチ品質の劣化を誘導したとしても、それに続く、第１のパラメータのネガティブな増加を含む第３のパラメータの調整－その元のレベルを下回るような－が、満足なスピーチ品質を誘導する。この実施形態においては、第１及び第２のパラメータが相互依存する－スピーチ品質を改善するためには、第１のパラメータのネガティブな調整が第２のパラメータのポジティブな調整との組み合わせとされられるべきである。音響システムの構成可能なパラメータと、スピーチ品質との間の相互依存性のそのようなパターンは、時間的期間にわたって収集された格納情報から判断することができ、かつステップ３４０～ステップ３７０の音響システムのパラメータ調整のインテリジェントなスキームを開発するために使用することができる。

いくつかの実装において、音響システムの調整についてのインテリジェント・スキームは、機械学習を使用して開発することができる。特に、ステップ３５０で格納された情報は、１つ又は増加的なパラメータの調整のシリーズに応答して、１つ又はそれ以上の音響システムに対する中央化されたデータベース内に格納することができ、かつ機械学習モデルのためのトレーニング・データとして使用することができる。このトレーニング・データは、追加的に入力オーディオ・データ（例えば入力マイクロホンのタイプ／品質、ゲイン／増幅率／ボリューム、バックグラウンド・ノイズなど）に関する情報、又は入力スピーチ（例えば、ピッチ、言語、アクセントなど）に関する情報、又はそれら両方を、関連する音響システムのタイプ及び配置についての情報に加えて含むことができる。このやり方において、機械学習モデルは、特定のタイプの入力スピーチ（例えば人間の話者の特定のカテゴリ）について特定の音響システムのための最良の構成を正確に予測するために開発することができる。モデルは、その後、出力スピーチ品質を最適化するため、多数の構成可能なパラメータ（例えば、同一の、又は異なる、又はこれら両方のオーディオ・コンポーネントに関連する。）をインテリジェントに、又は同時的に又はこれらの両方で調整するために使用することができる。予測された最良の構成を達成するための同時的なパラメータ調整は、多数の増分的なパラメータ調整及びステップ３４０～ステップ３７０の反復の必要性を低減、又は排除することを可能とする。モデルの開発の後、ステップ３５０での情報記録は、モデル性能を改善するためのフィードバックとして使用することができる。

図４は、本発明の１つの実施形態によるシステム４００のブロック図である。特に、システム４００は、本明細書で説明されるような音響システムのための処理コンポーネントを含む。

システム４００は、聴取ロケーションで、ネットワーク４４０越しにホスト・プロセッシング・システム４１０に通信する、ホスト・プロセッシング・システム４１０と、データベース４７０と、プロセッシング・デバイス４５０（例えば、ローカル・プロセッシング・デバイス及びユーザ・デバイス）とを含む。ネットワーク４４０は、モバイル通信ネットワーク、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）、又はインターネットといった、如何なる好適な有線、又はワイヤレスデータ通信ネットワークを含むことができる。ホスト・プロセッシング・システム４１０は、Ｉ／Ｏユニット４１６に接続されたユーザ・インタフェース・デバイス４６０を含むことができる。ユーザ・インタフェース・デバイス４６０は、１つ又はそれ以上のディスプレイ（例えばスクリーン又はタッチ・スクリーン）、プリンタ、キーボード、ポインティング・デバイス、（例えばマウス、ジョイスティック、タッチパッド）、オーディオ・デバイス（例えば、マイクロホン又はスピーカ、又はそれら両方）及び如何なる他のタイプのユーザ・インタフェース・デバイスを含むことができる。

メモリ・ユニット４１４は、オーディオ・データ・ファイル４２０及び本開示による方法を実行するための１つ又はそれ以上のプロセッシング・モジュール４３０を含む。オーディオ・データ・ファイル４２０は、音響システムの入力マイクロホンに関連する入力オーディオ・データ４２０Ａを含む。追加的に、オーディオ・データ・ファイル４２０は、聴取環境内で分散された位置の出力マイクロホンに関連し、ネットワーク４４０越しにＩ／Ｏユニット４１２を介して受領された出力オーディオ・データ４２０Ｂを含む。それぞれのプロセッシング・モジュール４３０は、オーディオ・データ・ファイル４２０といった、Ｉ／Ｏユニット４１６、又はメモリ・ユニット４１４に格納、又はそれら両方から受領したデータ、又は命令、又はそれら両方についての処理のため、プロセッシング・ユニット４１２による実行のための命令を含む。

本開示の実施例の実装によれば、プロセッシング・モジュール４３０は、スピーチ評価モジュール４３２と、構成モジュール４３４と、フィードバック・モジュール４３６とを含む。

スピーチ評価モジュール４３２は、音響システムのオーディオ・スピーカにより再生されたオーディオ・データに対応する、再生スピーチの品質を評価するように構成される。特に、スピーチ評価モジュール４３２は、スピーチ認識モジュール４３２Ａ及び検出モジュール４３２Ｂを含む。スピーチ認識モジュール４３２Ａは、図２の方法２００の方法の、ステップ２２０及びステップ２４０としての実施例として、オーディオ・データ・ファイル４２０からの入力オーディオ・データ４２０Ａ及び出力オーディオ・データ４２０Ｂに対してスピーチ認識を実行するように構成される。検出モジュール４３２Ｂは、図２に示される方法２００のステップ２５０～ステップ２７０として例示される、出力オーディオ・データ４２０Ｂ内の再生スピーチの品質が聴取者に対して不満足であるかを検出するように構成される。それに応じて、スピーチ評価モジュール４３２は、図２に示される方法２００を実行するためにオーディオ・データ・ファイル４２０を検索すると共に処理する。特に、スピーチ評価モジュール４３２により実行される処理は、本明細書で説明したように、入力オーディオ・データ４２０Ａ及び出力オーディオ・データ４２０Ｂを使用して、それが音響システムから受領されるにつれ、リアルタイムに実行することができる。

構成モジュール４３４は、再生スピーチの品質を最適化させるため、音響システムの構成可能なパラメータを調整するように構成される。構成モジュール４３４は、較正モジュール４３４Ａと、パラメータ調整モジュール４３４Ｂと、調整評価モジュール４３４Ｃとを含む。較正モジュール４３４Ａは、例えば、セットアップ時及び必要に応じてその後、音響システムを較正するように構成される。特に較正モジュール４３４Ａは、スピーチ認識の目的のために“完璧”であろうと考えられるスピーチを含む、事前に記録された入力オーディオ・データ・ファイル４２０Ａを使用して、スピーチ評価モジュール４３２との組み合わせにおいて、音響システムを較正することができる。検出モジュール４３２Ｂが、再生スピーチの品質が聴取者のために不満足なことを検出する場合、以下に説明するように、再生スピーチの品質が最大化されるまで、パラメータ調整モジュール４３４Ｂ及び調整評価モジュール４３４Ｃを使用して、パラメータ調整が行われ、評価される。当業者は認識するであろう様に、“完璧”なスピーチ・サンプルを使用する音響システムの較正は、入力スピーチに比較した再生スピーチの品質の決定において、最良の場合のシナリオにおいて、音響システムにより達成することができる違いを決定する。これは、例えば、図２で示した方法２００のステップ２７０において使用された再生スピーチ品質を満足するような初期の閾値を設定するために使用することができる。上述したように、閾値は、実際の入力スピーチの品質に基づいて、使用中に調整することができる。パラメータ調整モジュール４３４Ｂは、音響システムの構成可能なパラメータを調整するように構成される。例えば、パラメータ調整モジュール４３４Ｂは、図３に示した方法３００のステップ３４０として例示される、任意的な、又はインテリジェントなスキームを使用してパラメータ調整を反復して行う。調整評価モジュール４３４Ｃは、パラメータ調整モジュール４３４Ｂにより実行されたパラメータ調整の影響を評価するように構成される。特に調整評価モジュール４３４Ｃは、図３に示したス方法３００のテップ３５０～ステップ３６０として、パラメータ調整後に再生スピーチの品質が満足されるか否かを判断するように構成される。上述したように、パラメータ調整モジュール４３４Ｂ及び調整評価モジュール４３４Ｃは、較正モジュール４３４Ａ及び検出モジュール４３２Ｂにより、音響システムのパラメータをそれぞれ較正し、かつ再構成して、再生スピーチの品質を最適化するために呼び出される。

フィードバック・モジュール４３６は、スピーチ評価モジュール４３２、又は較正モジュール４３４、又はこれら両方から得られる情報をフィードバックとして提供するように構成される。例えば、フィードバック・モジュール４３６は、図３に示した方法３００のステップ３１０及びステップ３２０として例示される、スピーチ認識モジュール４３２Ａ又は他の入力オーディオ・データの分析により決定された入力スピーチの品質が不満足なものであることを人間の話者に対して示すフィードバック（例えば警告メッセージ）を提供することができる。追加的に、又は代替的に、フィードバック・モジュール４３６は、図３に示される方法３００のステップ３４０での使用のため、性能を最適化するためのインテリジェント・パラメータ調整スキームを開発、又は改善するために、システム、又はモデルへと、再生スピーチの品質に対するパラメータ調整の影響に関する情報を提供することができる。例えば、フィードバック・モジュール４３６は、図３に示した方法３００のステップ３５０で格納された、音響システムのパラメータと、スピーチ品質との間の関係を考慮した情報を含むフィードバックを、ネットワーク４４０越しに中央化されたデータベース４７０、又はもう１つのデータ・ストレージへと送付することができる。格納されたデータは、音響システムの性能の最適化、又は既存の機械学習モデルを洗練するためのフィードバックとしてのため、機械学習モデルのトレーニング・データとして使用することができる。さらに、フィードバック・モジュール４３４は、満足するスピーチ品質を有する再生スピーチを提供するために音響システムのパラメータを最適化することはできない事態には、ホスト・プロセッシング・システム４１０のユーザに対して、フィードバックを提供することができる。例えば、音響システムが図２に示された方法２００のステップ２８０で、考慮するべきオーディオ・データのインスタンスがもうないと判断した場合、方法２００がステップ２９５で終了する前に警告メッセージを送付することができる。この警告メッセージは、音響システムの所有者に対して、音響システムの性能を改善するような推奨されるアクションといったような推奨を提供することができる。例えば、警告メッセージは、所有者に対して、音響システムのコンポーネントの手動チェックを行うように指示（例えばサウンド・カード）すること、コンポーネントの数、又はロケーションを変更すること、又は音響システムの全体の出力を変更すること、又はこれらの組み合わせを指示することができる。手動チェック及び音響システムへの変更を推奨するための技術は、当技術において知られており、かつ現在知られ、又は将来に開発される、如何なる好適な技術でも使用することができる。

図４を参照すると、コンピュータ・プログラム製品４８０が提供される。コンピュータ・プログラム製品は、記録媒体４８４及びそれに実体化されたプログラム命令４８６（すなわち、プログラム・コード）有するコンピュータ可読な媒体４８２を含む。プログラム命令４８６は、例えば、１つのユーザ・インタフェース・デバイス４６０、又はネットワーク４４０に接続された他のデバイス４５０といったＩ／Ｏユニット４１６を介して、ホスト・プロセッシング・システム４１０のメモリ・ユニット４１４上にロードされるように構成される。実施例の実装においては、プログラム命令４８６は、上述したように、図２及び図３で示された方法のステップといった、本明細書で開示した１つ又はそれ以上の方法のステップを実行するように構成される。

これまで本開示を実施例の実装を参照して説明し例示したが、当業者は、本開示がそれ自体、本明細書でとりわけて例示していない、多くの異なる変更及び修正を与えることについて認識するであろう。

本発明は、システム、方法、コンピュータ・プログラム製品及びこれらの組み合わせとすることができる。コンピュータ・プログラム製品は、それ上にプロセッサが本発明の特徴を遂行するためのコンピュータ可読なプログラム命令を有するコンピュータ可読な記録媒体（又は複数）を含むことができる。

コンピュータ可読な記録媒体は、命令実行デバイスが使用するための複数の命令を保持し格納することができる有形のデバイスとすることができる。コンピュータ可読な媒体は、例えば、これらに限定されないが、電気的記録デバイス、磁気的記録デバイス、光学的記録デバイス、電気磁気的記録デバイス、半導体記録デバイス又はこれらのいかなる好ましい組み合わせとすることができる。コンピュータ可読な記録媒体のより具体的な実施例は、次のポータブル・コンピュータ・ディスク、ハードディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、消去可能なプログラマブル・リード・オンリー・メモリ（ＥＰＲＯＭ又はフラッシュ・メモリ（登録商標））、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・イオンリー・メモリ（ＣＤ－ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリ・スティック、フロッピー・ディスク（登録商標）、パンチ・カード又は命令を記録した溝内に突出する構造を有する機械的にエンコードされたデバイス、及びこれらの好ましい如何なる組合せを含む。本明細書で使用するように、コンピュータ可読な記録媒体は、ラジオ波又は他の自由に伝搬する電磁波、導波路又は他の通信媒体（例えば、光ファイバ・ケーブルを通過する光パルス）といった電磁波、又はワイヤを通して通信される電気信号といったそれ自体が一時的な信号として解釈されることはない。

本明細書において説明されるコンピュータ可読なプログラムは、コンピュータ可読な記録媒体からそれぞれのコンピューティング／プロセッシング・デバイスにダウンロードでき、又は例えばインターネット、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）又はワイヤレス・ネットワーク及びそれからの組み合わせといったネットワークを介して外部コンピュータ又は外部記録デバイスにダウンロードすることができる。ネットワークは、銅通信ケーブル、光通信ファイバ、ワイヤレス通信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ及びエッジ・サーバ又はこれらの組み合わせを含むことができる。それぞれのコンピューティング／プロセッシング・デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読なプログラム命令を受領し、このコンピュータ可読なプログラム命令を格納するためにそれぞれのコンピューティング／プロセッシング・デバイス内のコンピュータ可読な記録媒体内に転送する。

本発明の操作を遂行するためのコンピュータ可読なプログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械語命令、マシン依存命令、マイクロ・コード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は１つ又はそれ以上の、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋などのオブジェクト指向プログラミング言語、“Ｃ”プログラミング言語又は類似のプログラム言語といった従来の手続き型プログラミング言語を含むプログラミング言語のいかなる組合せにおいて記述されたソース・コード又はオブジェクト・コードのいずれかとすることができる。コンピュータ可読なプログラム命令は、全体がユーザ・コンピュータ上で、部分的にユーザ・コンピュータ上でスタンドアローン・ソフトウェア・パッケージとして、部分的にユーザ・コンピュータ上で、かつ部分的にリモート・コンピュータ上で、又は全体がリモート・コンピュータ又はサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）、ワイド・エリア・ネットワーク（ＷＡＮ）を含むいかなるタイプのネットワークを通してユーザ・コンピュータに接続することができ、又は接続は、外部コンピュータ（例えばインターネット・サービス・プロバイダを通じて）へと行うことができる。いくつかの実施形態では、例えばプログラマブル論理回路、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）、又はプログラマブル論理アレイ（ＰＬＡ）を含む電気回路がコンピュータ可読なプログラム命令を、コンピュータ可読なプログラム命令の状態情報を使用して、本発明の特徴を実行するために電気回路をパーソナライズして実行することができる。

本明細書で説明した本発明の特徴を、本発明の実施形態にしたがい、フローチャート命令及び方法のブロック図、又はそれらの両方、装置（システム）、及びコンピュータ・プログラム製品を参照して説明した。フローチャートの図示及びブロック図又はそれら両方及びフローチャートの図示におけるブロック、又はブロック図、又はそれらの両方のいかなる組合せでもコンピュータ可読なプログラム命令により実装することができることを理解されたい。

コンピュータ可読なプログラム命令は、コンピュータのプロセッサ又は機械を生成するための汎用目的、特定目的のコンピュータ、又は他のプログラマブル・データ・プロセッシング装置に提供することができ、コンピュータのプロセッサ又は他のプログラマブル・データ・プロセッシング装置による実行がフローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能／動作を実装するための手段を生成する。コンピュータ、プログラマブル・データ・プロセッシング装置及び他の装置又はこれらの組み合わせが特定の仕方で機能するように指令するこれらのコンピュータ可読なプログラム命令は、またコンピュータ可読な記録媒体に格納することができ、その内に命令を格納したコンピュータ可読な記録媒体は、フローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能／動作の特徴を実装する命令を含む製造品を構成する。

コンピュータ可読なプログラム命令は、またコンピュータ、他のプログラマブル・データ・プロセッシング装置、又は他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、又は他のデバイス上で操作ステップのシリーズに対してコンピュータ実装プロセスを生じさせることで、コンピュータ、他のプログラマブル装置又は他のデバイス上でフローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能／動作を実装させる。

図のフローチャート及びブロック図は、本発明の種々の実施形態にしたがったシステム、方法及びコンピュータ・プログラム製品のアーキテクチャ、機能、及び可能な実装操作を示す。この観点において、フローチャート又はブロック図は、モジュール、セグメント又は命令の部分を表すことかでき、これらは、特定の論理的機能（又は複数の機能）を実装するための１つ又はそれ以上の実行可能な命令を含む。いくつかの代替的な実装においては、ブロックにおいて記述された機能は、図示した以外で実行することができる。例えば、連続して示された２つのブロックは、含まれる機能に応じて、実際上１つのステップとして遂行され、同時的、実質的に同時的に、部分的又は完全に一時的に重ね合わされた仕方で実行することができ、又は複数のブロックは、時として逆の順番で実行することができる。またブロック図及びフローチャートの図示、又はこれらの両方及びブロック図中のブロック及びフローチャートの図示又はこれらの組み合わせは、特定の機能又は動作を実行するか又は特定の目的のハードウェア及びコンピュータ命令を遂行する特定目的のハードウェアに基づいたシステムにより実装することができることを指摘する。

本開示の種々の実施形態の説明は、例示の目的のために再生されたが、開示された実施形態への排他又は限定を意図するものではない。多くの変更例又は変形例は、本開示の範囲及び精神から逸脱することなく、当業者において自明である。本明細書で使用する用語は、本実施形態の原理、実用的用途、又は市場において見出される技術を超える技術的改善を最良に説明するため、又は本明細書において開示された実施形態を当業者の他の者が理解できるようにするために選択したものである。

Claims

コンピュータ実装方法であって、
音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行すること、
前記音響システムの１つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも１つのインスタンスについてスピーチ認識を実行すること、
前記入力オーディオ・データについての前記スピーチ認識の結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の結果との間の違いを判断すること、及び
前記違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断すること
を含む、コンピュータ実装方法。
前記違いは、入力スピーチのサンプルとしての前記入力オーディオ・データについての前記スピーチ認識の結果及び前記入力スピーチの前記サンプルに対応する前記再生スピーチのサンプルとしての前記出力オーディオ・データについての前記スピーチ認識の結果から計算された定量的な値を含む、
請求項１に記載のコンピュータ実装方法。
前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを判断することは、
前記入力オーディオ・データについての前記スピーチ認識のトランスクリプトのテキストと、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識のトランスクリプトのテキストとを比較すること、及び
異なるキャラクタの数、異なるワードの数、及び異なるキャラクタ又はワードのパーセンテイジを含むグループから選択される前記違いについての定量的な値を判断すること
を含む請求項１に記載のコンピュータ実装方法。
前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを判断することが、
前記入力オーディオ・データについての前記スピーチ認識によって決定された第１の信頼性レベルと、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識により決定された第２の信頼性レベルとを比較することであって、前記第１の信頼性レベルが、前記入力オーディオ・データについての前記スピーチ認識の信頼性を示す信頼性基準の値を含み、前記第２の信頼性レベルが前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の信頼性を示す信頼性基準の値を含む、比較すること、及び
前記第１の信頼性レベルと、前記第２の信頼性レベルとの間の差を決定すること
を含む、請求項１に記載のコンピュータ実装方法。
さらに、
前記再生スピーチの品質が不満足であるとの判断に応答して、前記再生スピーチの前記品質を改善するために、前記音響システムの１つ又はそれ以上のパラメータの調整を実行すること
を含む、
先行する請求項の何れかに記載されたコンピュータ実装方法。
前記音響システムの前記１つ又はそれ以上のパラメータの調整を実行することが、
規定された増分により、又はターゲットの値まで前記音響システムのパラメータを調整することを含む第１のパラメータの調整を実行すること、及び
前記再生スピーチの前記品質が依然として不満足であるとの判断に応答して、事前規定された条件に適合するまで、さらにパラメータの調整を実行すること
を含む請求項５に記載のコンピュータ実装方法。
前記事前規定された条件が、前記再生スピーチの品質が満足されること、前記再生スピーチの品質が最大化されること、パラメータ調整の事前規定されたセットが実行されたこと、パラメータ調整の前記事前規定されたセットがインテリジェント・パラメータ調整スキームにしたがって実行されたこと、パラメータ調整の前記事前規定されたセットが、最適化モデルにしたがって実行されたこと、及びタイマが満了したこと、を含むグループから選択される、
請求項６に記載のコンピュータ実装方法。
さらに、
前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の前記結果との違いに基づいて前記再生スピーチの前記品質についてのパラメータ調整の影響を判断することであって、前記入力オーディオ・データ及び前記出力オーディオ・データが入力スピーチ及び前記パラメータ調整後の前記再生スピーチを含む、判断すること、及び
前記再生スピーチを最適化するためのインテリジェント・パラメータ調整の選択スキーム又は機械学習モデルへのフィードバックとして使用するために、前記パラメータと前記パラメータ調整に対応する増分と前記再生スピーチの前記品質についての前記影響とを含む関係情報を格納すること
を含む、
請求項５、６又は７に記載のコンピュータ実装方法。
さらに、
前記音響システムへのスピーチ入力の品質が許容可能であるか否かを判断すること、及び
前記音響システムに入力された前記スピーチの前記品質が許容可能でないことの判断に応答して、ユーザに前記音響システムに入力された前記スピーチに関連して変更させるためのメッセージを送付すること
を含む、先行する請求項の何れかに記載されたコンピュータ実装方法。
前記１つ又はそれ以上のパラメータ調整におけるパラメータが、オーディオ・ゲイン及び前記音響システムのコンポーネントのそれぞれの周波数バンドについてのオーディオ・チャネルのイコライゼーションを含むグループから選択される、
請求項５～８の何れか１項に記載のコンピュータ実装方法。
装置であって、
プロセッサ及びストレージを含み、前記プロセッサが、
音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行し、
前記音響システムの１つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも１つのインスタンスについてスピーチ認識を実行し、
前記入力オーディオ・データについての前記スピーチ認識の結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の結果との間の違いを判断し、及び
前記違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断する
ように構成される、装置。
前記違いは、入力スピーチのサンプルとしての前記入力オーディオ・データについての前記スピーチ認識の結果及び前記入力スピーチの前記サンプルに対応する前記再生スピーチのサンプルとしての前記出力オーディオ・データについての前記スピーチ認識の結果から計算された定量的な値を含む、
請求項１１に記載の装置。
前記プロセッサが、前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを、
前記入力オーディオ・データについての前記スピーチ認識のトランスクリプトのテキストと、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識のトランスクリプトのテキストとを比較し、
異なるキャラクタの数、異なるワードの数、及び異なるキャラクタ又はワードのパーセンテイジを含むグループから選択される前記違いについての定量的な値を判断することにより判断するように構成される
請求項１１に記載の装置。
前記プロセッサが、前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを、
前記入力オーディオ・データについての前記スピーチ認識によって決定された第１の信頼性レベルと、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識により決定された第２の信頼性レベルとを比較し、前記第１の信頼性レベルが、前記入力オーディオ・データについての前記スピーチ認識の信頼性を示す信頼性基準の値を含み、前記第２の信頼性レベルが前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の信頼性を示す信頼性基準の値を含んでおり、
前記第１の信頼性レベルと、前記第２の信頼性レベルとの間の差を決定することによって判断するように構成される
請求項１１に記載の装置。
前記プロセッサが、さらに、前記再生スピーチの品質が不満足であるとの判断に応答して、前記再生スピーチの前記品質を改善するために、前記音響システムの１つ又はそれ以上のパラメータの調整を実行するように構成される
請求項１１～１４の何れか１項に記載された装置。
前記プロセッサが、前記音響システムの前記１つ又はそれ以上のパラメータの調整を実行することを、
規定された増分により、又はターゲットの値まで前記音響システムのパラメータを調整することを含む第１のパラメータの調整を実行し、
前記再生スピーチの前記品質が依然として不満足であるとの判断に応答して、事前規定された条件に適合するまで、さらにパラメータの調整を実行することにより実行するように構成される
請求項１５に記載の装置。
前記事前規定された条件は、前記再生スピーチの品質が満足されること、前記再生スピーチの品質が最大化されること、パラメータ調整の事前規定されたセットが実行されたこと、パラメータ調整の前記事前規定されたセットが、インテリジェント・パラメータ調整スキームにしたがって実行されたこと、パラメータ調整の前記事前規定されたセットが、最適化モデルにしたがって実行されたこと、及びタイマが満了したこと、を含むグループから選択される、
請求項１６に記載の装置。
前記プロセッサが、さらに、
前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の前記結果との違いに基づいて前記再生スピーチの前記品質についてのパラメータ調整の影響を判断することであって、前記入力オーディオ・データ及び前記出力オーディオ・データは入力スピーチ及び前記パラメータ調整後の前記再生スピーチを含む、判断し、
前記再生スピーチを最適化するためのインテリジェント・パラメータ調整の選択スキーム又は機械学習モデルへのフィードバックとして使用するために、前記パラメータと前記パラメータ調整に対応する増分と前記再生スピーチの前記品質についての前記影響とを含む関係情報を格納する
ように構成される、請求項１５、１６又は１７に記載の装置。
前記プロセッサが、さらに、
前記音響システムへのスピーチ入力の品質が許容可能であるか否かを判断し、
前記音響システムに入力された前記スピーチの前記品質が許容可能でないことの判断に応答して、ユーザに前記音響システムに入力された前記スピーチに関連して変更させるためのメッセージを送付する
ように構成される、請求項１１～１８の何れか１項に記載の装置。
前記１つ又はそれ以上のパラメータ調整におけるパラメータが、オーディオ・ゲイン及び前記音響システムのコンポーネントのそれぞれの周波数バンドについてのオーディオ・チャネルのイコライゼーションを含むグループから選択される、
請求項１５～１８の何れかに記載の装置。
実体化されたプログラム命令をそれ上に有するコンピュータ可読な記録媒体を含むコンピュータ・プログラム製品であって、前記プログラム製品がプロセッサにより実行され、前記プロセッサをして、
音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行すること、
前記音響システムの１つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも１つのインスタンスについてスピーチ認識を実行すること、
前記入力オーディオ・データについての前記スピーチ認識の結果と、前記出力オーディオ・データの前記少なくとも１つのインスタンスについての前記スピーチ認識の結果との間の違いを判断すること、及び
前記違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断すること
を実行させる、コンピュータ・プログラム製品。
プログラムがコンピュータ上で実行された場合に、請求項１～１０の何れか１項に記載の前記方法を実行するために適応されたプログラム・コード手段を含む、コンピュータ・プログラム。