JP2022552815A - 音響システムにおけるスピーチのオーディオ品質の改善 - Google Patents
音響システムにおけるスピーチのオーディオ品質の改善 Download PDFInfo
- Publication number
- JP2022552815A JP2022552815A JP2022520788A JP2022520788A JP2022552815A JP 2022552815 A JP2022552815 A JP 2022552815A JP 2022520788 A JP2022520788 A JP 2022520788A JP 2022520788 A JP2022520788 A JP 2022520788A JP 2022552815 A JP2022552815 A JP 2022552815A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- audio data
- speech recognition
- input
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 230000004044 response Effects 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims 2
- 230000009471 action Effects 0.000 abstract description 14
- 238000012545 processing Methods 0.000 description 52
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 12
- 230000015654 memory Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 4
- 238000006731 degradation reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/001—Monitoring arrangements; Testing arrangements for loudspeakers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】 音響システムにおけるスピーチのオーディオ品質の改善【解決手段】 音響システムのためのコンピュータ実装方法、装置及びコンピュータ・プログラム製品である。スピーチ認識は、音響システムに入力されたスピーチを含む入力オーディオ・データについて実行される。スピーチ認識は、追加的に、音響システムの1つ又はそれ以上のオーディオ・スピーカにより再生されたスピーチを含む出力オーディオ・データの少なくとも1つのインスタンスについて実行される。前記入力オーディオ・データについてのスピーチ認識の結果と、出力オーディオ・データの前記少なくとも1つのインスタンスについてのスピーチ認識の結果との間の違いが判断される。違いが閾値よりも大きいか、又は等しい場合に、再生スピーチの品質が不満足であると判断される。再生された音響のスピーチ品質が不満足と判断される場合には、修正アクションを実行して、音響システムにより再生されるスピーチの品質を改善することができる。
Description
本発明は一般に音響システムからのオーディオ出力の品質を改善するための技術に関し、より具体的には、音響システムのオーディオ出力への聴取者に対するスピーチの品質を改善することに関する。
音響システムは、会議への参加者の、講義の、及び劇場又は公会堂での実演の、又は会議での呼び出しの、及び通信ネットワーク越しに分散された地理的ロケーションでのウェビナーの、といった聴取者へと、オーディオ・スピーカを通してスピーチを再生するために頻繁に使用される。そのようなシステムにおいては、マイクロホンへと入力スピーチが受領され、ホスト・システムにおいて任意的に記録され、オーディオ・データがホスト・システムにより1つ又はそれ以上のオーディオ・スピーカへと通信されると共に、オーディオ・スピーカ(複数でもよい)が、聴取者に対して再生されたスピーチを出力(すなわち“再生”)する。多くの場合、オーディオ・スピーカを通して再生されたスピーチは、入力スピーチの完全な再生ではない(例えば、スピーチが不明瞭な可能性がある。)。例えば、オーディオ・スピーカのセッティングが最適化されていない場合、再生された音響及びその結果としての再生されたスピーチが歪む可能性があり、聴取者が聴取すること、又は理解すること、又はこれらの両方のことを困難とする。他の場合には、入力スピーチは、それ自体が、例えば、スピーチ・ソースに相対するマイクロホンの位置、又はその最適とは言えないセッティングの故に、不完全である可能性がある。このことは、再度オーディオ・スピーカにより再生されるスピーチを聴取すること、又は理解することを困難にする。典型的には、オーディオ出力のスピーチに関連するそのような問題は、音響システムへの調整により解決することができる。例えば、もし、聴取者がスピーチを聞き取ること、又は理解することが難しいことをホストに通知すれば、ホストは、音響システムの構成可能なセッティングを調整するか、若しくは人間の話者に対してマイクロホンに相対して移動するように依頼することができる。しかしならが、これは調整が行われる間の中断及び遅延を生じさせる。加えて、調整は手作業なので、それらは聴取者の困難さを完全には解決できない可能性がある。
本発明の側面によれば、コンピュータ実装方法が提供される。コンピュータ実装方法は、音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行することを含む。コンピュータ実装方法は、さらに音響システムの1つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも1つのインスタンスについてスピーチ認識を実行することを含む。コンピュータ実装方法は、さらに、入力オーディオ・データについてのスピーチ認識の結果と、出力オーディオ・データの少なくとも1つのインスタンスについてのスピーチ認識の結果との間の違いを判断することを含む。コンピュータ実装方法は、さらに、違いが閾値よりも大きいか、又は等しい場合に、再生スピーチの品質が不満足であると判断することを含む。
本発明のもう1つの側面によれば、装置が提供される。装置は、プロセッサ及びストレージを含む。プロセッサは、音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行するように構成される。プロセッサは、さらに、音響システムの1つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも1つのインスタンスについてスピーチ認識を実行するように構成される。プロセッサは、さらに、入力オーディオ・データについてのスピーチ認識の結果と、出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の結果との間の違いを判断するように構成される。プロセッサは、さらに、違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断するように構成される。
本発明のさらにもう1つの側面によれば、コンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、実体化されたプログラム命令それ上に有するコンピュータ可読な記録媒体を含む。コンピュータ・プログラム製品は、プロセッサにより実行されて、前記プロセッサをして:音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行すること;音響システムの1つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも1つのインスタンスについてスピーチ認識を実行すること;入力オーディオ・データについての前記スピーチ認識の結果と、出力オーディオ・データの少なくとも1つのインスタンスについてのスピーチ認識の結果との間の違いを判断すること;及び違いが閾値よりも大きいか、又は等しい場合に、再生スピーチの品質が不満足であると判断することを実行させる。
本開示の実施例の実装を、図面を参照して以下に説明する。
本開示は、音響システムにより再生されるスピーチの品質が不満足の場合(例えば、聴取者にとって聴取が困難、又は不明瞭/一貫性がない)ことを検出すると共に、再生されるスピーチの品質を改善するために音響システムを再構成するシステム及び方法を提供する。本開示の本技術は、自動的に実行され、中断を制限すると共に、聴取者のエクスペリエンスを改善する。
特に、本開示によれば、1つ又はそれ以上のマイクロホンは、聴取環境内の位置に分散されており、音響システムの1つ又はそれ以上のオーディオ・スピーカにより再生された再生スピーチを検出するために使用される。1つ又はそれ以上のマイクロホンのそれぞれにより受領された再生スピーチを含む出力オーディオ・データが記録される。1つ又はそれ以上のそれぞれのマイクロホンに関連するオーディオ・データの出力についてスピーチ認識が実行され、対応するマイクロホンの位置で再生されるスピーチの品質が判断される。加えて、スピーチ認識は、音響システムへと入力されるスピーチを含む入力オーディオ・データについて実行されて、ソースからのスピーチの品質が判断される。入力オーディオ・データについて実行されたスピーチ認識の結果と、それぞれのマイクロホンについての対応する出力オーディオ・データについて実行されたスピーチ認識の結果との間の比較が実行される。比較の結果は、スピーチ品質が聴取者にとって不満足であるか否かを判断し、もしそうであれば、再生されたスピーチの品質を改善するために音響システムを調整するといった修正アクションを取るために使用される。
本開示においては、用語“スピーチ”は、スピーチを含む音響、又はオーディオを参照するために使用される。用語“入力オーディオ・データ”は、音響システムのマイクロホン(本明細書おける“入力マイクロホン”)により検出された、ソース(例えば人間の話者)から発生するスピーチを含む音響、又はオーディオについてのデジタル・オーディオ・データを参照する。用語“出力オーディオ・データ”は、音響システムの1つ又はそれ以上のオーディオ・スピーカにより再生され、かつ音響システムのマイクロホン(本明細書における“出力マイクロホン”)によって検出された音響、又はオーディオについてのデジタル・オーディオ・データを参照する。オーディオ・データは、したがって、音響システムのマイクロホンによって受領されたスピーチを含む音響、又はオーディオを“表し”、又は“含む”。オーディオ・データの“記録”を参照することは、データ・ストレージにオーディオ・データを格納することを参照し、これは、オーディオ・データのオーディオ・データ・ファイルとしての時間的に長期のデータ格納に加え、通信のためのオーディオ・データの過渡的な格納を含む。
図1は、本発明の1つの実施形態による、音響システムを示す概略図である。音響システム100は、データ通信ネットワーク140により相互接続された、ホスト・プロセッシング・システム110と、複数のマイクロホン120と、複数のオーディオ・スピーカ130とを含む。図1に示すシステムにおいては、音響システム100は、異なる位置的ロケーション(例えば、ミーティング又は会議室)における、マイクロホン120と、オーディオ・スピーカ130とを含む分散システムである。少なくとも1つのロケーション(ロケーション1)は、ホスト・プロセッシング・システム110を含み、これは、例示する実施例では、音響システム100に入力されるスピーチ・ソースのロケーションである。他のロケーション(ロケーション2及び3)は、対応する聴取環境においてオーディオを再生するためのオーディオ・スピーカ130を含む。
ホスト・プロセッシング・システム110は、典型的には、ユーザ・コンピューティング・システム(例えば、ノートブック・コンピュータ)、専用の音響システム・コントローラなどを含み、これは、音響システム100を管理するためにユーザにより操作可能である。複数のマイクロホン120は、音響システム100による再生のため、ソース(例えば人間の話者)からのスピーチを検出し、記録するための入力マイクロホン122を含む。入力マイクロホン122は、音響システム100に入力される音響を受領するための専用的なマイクロホンなど(例えば、講義台上のマイクロホン)、又はホスト・プロセッシング・システム110の制御の下で、“スイッチ・オン”されることが可能なユーザ・コンピューティング・システムのマイクロホンとすることができる。複数のオーディオ・スピーカ130は、入力スピーチを再生すると共に、1つ又はそれ以上のロケーション内の異なる位置に分散されており、聴取環境を形成する(ロケーション2及び3)。特に、それぞれのオーディオ・スピーカ130は、記録されたスピーチに対応するオーディオ・データをホスト・プロセッシング・システム110からネットワーク140越しに受領して再生する。オーディオ・スピーカ130は、ロケーションで、音響システムの1つ又はそれ以上の専用的なラウドスピーカ134(例えば、映画館内で固定されたロケーションのスピーカ)、又はユーザ・コンピュータのオーディオ・スピーカ132、ネットワークされた電話などを含む。通信ネットワーク140は、ホスト・プロセッシング・システム110と、マイクロホン120と、オーディオ・スピーカ130との間の通信のための好適な有線又は無線ネットワークを含むことができる。
1つの実施形態においては、複数のマイクロホン120は、さらに、聴取環境(ロケーション2及び3)内の複数の位置において、本明細書で説明するように分析のため、オーディオ・スピーカ130から再生されたスピーチを受領し、かつ記録するため配置された出力マイクロホン124を含む。出力マイクロホン124は、例えばロケーションのオーディオ・スピーカ134に関連する音響システムの専用マイクロホンを含むことができる。出力マイクロホン124は、また、聴取環境内に存在するユーザ・コンピューティング・システムのマイクロホン又は他のデバイスを含むことができ、これらはホスト・プロセッシング・システム110により識別され、かつその目的のために影響下に置かれる。図1の分散システムにおいて、1つの聴取環境(ロケーション3)内の出力マイクロホン124は、それぞれ、ネットワーク140越しにホスト・プロセッシング・システム110へと通信するための出力オーディオ・データとして再生されたスピーチを記録するためのシステム・デバイスといった、ローカル・プロセッシング・システム150に関連付けられる。もう1つの聴取環境(ロケーション2)内の出力マイクロホン124は、ホスト・プロセッシング・システム110に対してネットワーク140越しにオーディオ・データを通信するように構成され、これは、出力オーディオ・データを記録する。当業者は認識できるであろうように、複数のマイクロホン120は、デジタル出力信号を生成するデジタル・マイクロホン、又はオーディオ信号チェーンに沿ってもう1つのコンポーネントにより記録され、かつデジタル・オーディオ・データへと変換されるアナログ出力信号を生成するアナログ・マイクロホン又はこれらの両方を含むことができる。
ホスト・プロセッシング・システム110は、入力オーディオ・データとしてソースから入力マイクロホン122により受領されたスピーチを記録する。追加的に、ホスト・プロセッシング・システム110は、それぞれの出力マイクロホン124によって記録され、かつネットワーク140越しに通信され、オーディオ・スピーカ130により再生された再生スピーチに対応する出力オーディオ・データを受領する。本発明の1つの実施形態によれば、ホスト・プロセッシング・システム110は、入力マイクロホン122に関連する入力オーディオ・データ及びそれぞれの出力マイクロホン124に関連する出力オーディオ・データについて、スピーチ認識を実行するように構成される。スピーチ認識技術は、当技術分野において知られており、かつホスト・プロセッシング・システム110は、如何なる好適なスピーチ認識技術でも実装することができる。スピーチ認識は、スピーチのトランスクリプト、又は信頼性基準の値又はレベルなど、又はこれらの組み合わせを提供し、スピーチ認識の信頼性を示す。スピーチ認識は、入力オーディオ・データ及び対応する出力オーディオ・データについて連続的に又は定期的に実行される。ホスト・プロセッシング・システム110は、さらに、それぞれの出力マイクロホン124に関連する出力オーディオ・データについて決定されたスピーチ認識の結果を、入力マイクロホン122に関連する入力オーディオ・データに対応して決定されたスピーチ認識の結果と比較する。比較が、1つ又はそれ以上の出力マイクロホン124の出力オーディオ・データについて決定された結果と、入力マイクロホン122の入力オーディオ・データについて決定された結果に許容できない違いを判断する場合、ホスト・プロセッシング・システム110は、記録されたスピーチのスピーチ品質が聴取者に不満足であると判断して、修正アクションを取る。例えば、修正アクションは、音響システムのコンポーネントのパラメータを調整すること(例えば、オーディオ・スピーカを制御するサウンド・カードのゲイン又はチャネル・イコライゼーションのセッティングなど)、又はユーザに対して一定の構造を取らせるためのメッセージ(例えば、人間の話者に対して入力マイクロホンに対してもっと近づくように、又はさらに遠ざかるための指示)を送付することを含む。例えば、許容できない違いは、信頼性レベルにおける差、又はスピーチトランスクリプトにおける測定された差といった、スピーチ認識から得られ、比較された結果が、さらに以下に説明するように閾値より低いか又は等しい場合に決定されることができる。
したがって、ホスト・プロセッシング・システム110は、音響システム100により再生されたスピーチの品質が、聴取者に対して不満足である場合(すなわち、不明瞭、歪む、又は小さすぎるなど)を検出することができ、かつスピーチの品質を改善するためのアクションを取ることかできる。開示される技術は、自動的に、かつリアルタイムに実行することができるので、聴取者のエクスペリエンスが改善される。図1に例示した実施形態においては、開示される本技術は、ホスト・プロセッシング・システム110において実行される。当業者は認識するであろうように、本発明は、ローカル・プロセッシング・システム150又はプロセッシング・デバイスの組み合わせといった音響システム100と通信する、如何なる他のプロセッシング・デバイス又はシステムにおいても実装することができる。
図2は、本発明の1つの実施形態による、不満足なスピーチ品質を検出し、修正するための方法200のフローチャートである。例えば、方法200は、図1の音響システム100のホスト・プロセシング・システム110により実行することができる。
方法200は、ステップ205で開始する。例えば、ステップ255は、音響システムの音響チェックの開始に応答して、話の開始に対応して、又はそれ以外に対応して開始されることができる。
ステップ210では、音響システムは、ソースから音響システムへと入力されたスピーチについての入力オーディオ・データを受領する。例えば、入力オーディオ・データは、入力マイクロホン122へと話す人間の話者のスピーチに応答して、図1の音響システム100の入力マイクロホン122から受領することができる。入力オーディオ・データは、例えば、図1のホスト・プロセッシング・システム110により、典型的には受領され、かつ実質的にリアルタイム(すなわち、最小の遅延)で記録される(例えば、入力オーディオ・データのファイルに格納される)。
ステップ220では、音響システムは、入力オーディオ・データについてスピーチ認識を実行して、スピーチ品質を示す入力オーディオ・スピーチの認識の結果を判断する。如何なる好適なスピーチ認識技術又はアルゴリズムでもスピーチ認識を実行するために使用することができる。スピーチ認識の結果は、典型的には関連するオーディオ・データに含まれるスピーチのトランスクリプトを含む。トランスクリプトの品質は、スピーチの品質を示すことができる。追加的に、スピーチ認識の結果は、スピーチ認識の信頼性を示す、信頼性基準の値又はレベルを含むことができる。そのような信頼性基準は、スピーチ認識の技術において周知である。したがって、信頼性レベルは、また、スピーチの品質を示すことができる。スピーチ認識は、スピーチの品質を示す他の結果を提供することができる。
ステップ230では、音響システムは、聴取環境内の1つ又はそれ以上の位置で、音響システムの音響スピーカにより再生された再生スピーチに対応する出力オーディオ・データを受領する。例えば、出力オーディオ・データのインスタンスは、図1に示される音響システム100のオーディオ・スピーカ130によって再生された再生スピーチを検出する、1つ又はそれ以上の出力マイクロホン124のそれぞれから受領することができる。出力オーディオ・データは、典型的には実質的にリアルタイムで受領されるが、入力オーディオ・データに相対して必然的に遅延する。例えば、遅延は、入力オーディオ・データのオーディオ・スピーカへの通信、及び図1に示すネットワーク140越しに出力マイクロホン124に関連し、対応する出力オーディオ・データの通信に起因する。いくつかの実装においては、出力オーディオ・データは、例えばローカル・プロセッシング・システム150、又は図1に示すホスト・プロセッシング・システム11により記録される。
ステップ240では、音響システムは、出力オーディオ・データについてスピーチ認識を実行して、スピーチ品質を示す出力オーディオ・スピーチ認識の結果を判断する。特に、ステップ240では、音響システムは、受領した出力オーディオ・データの、それぞれのインスタンスについてスピーチ認識を実行する。ステップ240では、音響システムは、ステップ220で使用したスピーチ認識技術を使用するので、ステップ220及びステップ240それぞれの結果が比較可能である。
したがって、ステップ210及びステップ220では、音響システムは、入力オーディオ・データについてのスピーチ認識の結果(複数でもよい)を導出し、ステップ230及び240では、音響システムは、出力オーディオの、それぞれのインスタンスのスピーチ認識の結果(複数でもよい)の導出を実行する。それぞれの場合、スピーチ認識の結果は、スピーチのトランスクリプト、又は信頼性レベル又はそれらの両方などを含む。当業者は認識するであろう様に、実際上、ステップ210~ステップ240は、入力及び出力オーディオ・データが受領され、かつリアルタイムに、といったように連続的に処理される用途においては特に連続的に実行することができる。
図2の実施例の実装においては、出力オーディオ・データの多数のインスタンスが受領される。特に、出力オーディオ・データのそれぞれのインスタンスは、聴取環境内に配置された特定の出力マイクロホンに関連する。ステップ250では、音響システムは、出力オーディオ・データの第1のインスタンスについてのスピーチ認識の結果を選択する。
ステップ260では、音響システムは、出力オーディオ・データのインスタンスについての選択されたスピーチ認識の結果を、対応する入力オーディオ・データについてのスピーチ認識結果と比較すると共に、スピーチ品質における違いを判断する。違いは、スピーチ認識結果(複数でもよい)を使用して計算される、スピーチ品質における違いを表す定量的な値である。1つの実装においては、ステップ260で音響システムは、出力オーディオ・データのインスタンスについて判断されたスピーチ認識のトランスクリプトのテキストと、対応する入力オーディオ・データのトランスクリプトのテキストとを比較することができると共に、トランスクリプトテキスト内(例えば単語)の生の個数の差、又はパーセンテイジ差といった違いを判断することができる。トランスクリプトスピーチのテキストにおける違いは、オーディオ・スピーカでのスピーチ品質が、ソースでのスピーチ品質に比較して低下していることを示すと共に、違いの量は、品質劣化の量を示す。もう1つの実装において、ステップ260では音響システムは、出力オーディオ・データのインスタンスについて判断されたスピーチ認識の信頼性レベルを、対応する入力オーディオ・データについて判断された信頼性レベルと比較することができると共に、相違を判断することができる。上述したように、信頼性レベルは、トランスクリプトされたスピーチの信頼性を示す(例えば、パーセンテイジで表現される信頼性基準の値)。トランスクリプトされたスピーチの信頼性は、聴取者に対する再生スピーチの品質に依存するので、信頼性レベルの違いは、オーディオ・スピーカでの再生スピーチの品質がソースでのスピーチの品質に比較して低下していることを示すと共に、相違の量は、品質劣化の量を示す。他の実装においては、音響システムは、スピーチ認識の結果(複数でもよい)から導出された他の基準を、スピーチ品質の劣化を検出するために使用することができる。当業者は認識するであろう様に、ステップ260では、音響システムは、出力オーディオ・データのサンプルについてのスピーチ認識の結果を、対応する入力オーディオ・データのサンプルについてのスピーチ認識の結果と比較することができる。いくつかのシナリオにおいて、ステップ210~ステップ240は、入力及び再生スピーチについて連続的に実行することができる(例えば、実質的にリアルタイムで)。この場合、入力オーディオ・データ及び出力オーディオ・データの対応するサンプルは、同一の入力及び再生スピーチを含んでおり、1つ又はそれ以上の時間同期及びオーディオ・マッチング(オーディオ・データにおけるオーディオの同一のセクションを識別する)、又はスピーチ認識のトランスクリプトマッチング(トランスクリプトテキスト内のワード及びフレーズをマッチングすることによる同一のセクションの識別)といった、いかなる好適な技術を使用しても識別することができる。他のシナリオにおいては、ステップ210~ステップ240は、入力及び再生スピーチを定期的にサンプリングすることによって実行することができるので(例えば、同期され、時間的に分離されたタイム・ウィンドウにわたって入力及び再生スピーチをサンプリングする。)、スピーチ認識の結果(複数でもよい)は、対応する入力オーディオ・データ及び出力オーディオ・データのサンプルに関連する。
ステップ270では、音響システムは、違いが閾値よりも大きいか、又は等しいかを判断する。閾値は、入力スピーチの品質に比較して再生スピーチのスピーチ品質の許容できない劣化を示す違いの基準の値である(例えば、数字/パーセンテイジ、又はテキスト中のワード、又は信頼性基準)。閾値の値は、用途の要求に従って選択することができると共に、ユーザによって変更することができる。例えば、いくつかの用途においては、スピーチ品質の5%までの違いが許容可能なので、閾値は、5%に設定されるが、他の用途においてはスピーチ品質における10%までの違いが許容されるので、閾値は、10%に設定される。いくつかの実施例の実装においては、閾値の値は、以下に説明するように入力スピーチの品質に基づいて調整することができる。
違いが閾値よりも小さい場合(ステップ270のNO分岐)、出力オーディオ・データの選択されたインスタンスにおける再生スピーチの品質は、満足されるものであり、音響システムは、ステップ280を実行する。ステップ280では、音響システムは、考慮するべき出力オーディオ・データのインスタンスがさらにあるかを判断する。考慮するべき出力オーディオ・データのインスタンスがさらにある場合(ステップ280のYES分岐)、音響システムは、ステップ250の実行を開始し、その後、音響システムがステップ280で考慮するべき出力オーディオ・データのインスタンスがもうないと判断するまで、ステップ260及びステップ270を通してループを継続する。音響システムが考慮するべき出力オーディオ・データがもうないと判断した後、音響システムはステップ295で処理を停止する。
違いが閾値よりも大きいか等しい場合(ステップ270のYES分岐)、出力オーディオ・データの選択されたインスタンスの再生スピーチは、不満足なものであり、音響システムは、ステップ290を実行する。ステップ290では、音響システムは、修正アクションを実行して、音響システムにより再生されるスピーチの品質を改善する。例えば、修正アクションは、図3を参照して以下に説明するように、音響システムの構成パラメータを変更すること、又はユーザにメッセージを送付すること、又はこれらの両方を含むことができる。
当業者は認識するであろう様に、図2に例示された実施例の実装の多くの変更が可能である。例えば、スピーチ認識は、対応するローカル・プロセッシング・デバイス、又はそれに関係するユーザ・デバイスのそれぞれの出力マイクロホンに関連する出力オーディオ・データについて実行することができる。したがって、ステップ240では、音響システムは、それに代えて、ネットワーク140越しにそれぞれの出力マイクロホンに関連する出力オーディオ・データについての出力オーディオ・スピーチ認識の結果を受領し、ステップ230を省略することができる。したがって、スピーチ認識の処理の負担は、多数のプロセッシング・デバイスを横断して分散される。追加的にステップ210の前に、音響システムは、聴取環境内の位置で使用可能なマイクロホンを識別し、かつ出力オーディオ・マイクロホンとして使用するためのマイクロホンのセットを選択することができる。例えば、ユーザ・デバイスのマイクロホンは、聴取環境からネットワーク140への接続が確立されたこと、又は聴取環境内のグローバル・ポジショニング・システム座標(又は等価なもの)に基づいて識別することができる。この場合、メッセージは、再生スピーチを聴取するためにユーザ・デバイスの識別されたマイクロホンを使用する許可を得ようとするユーザに対して送付することができ、ユーザは、パーミッションを許容するか拒否するか選択することができる。パーミッションが許容された場合、音響システムは、その後、ステップ230でマイクロホン及びユーザ・デバイスに対して出力オーディオ・データを送信させるために必要な如何なる他の特徴をもスイッチ・オンする。もう1つの実施例では、聴取環境内でネットワークに接続されたスタンドアローンのマイクロホンを識別すると共に、出力オーディオ・データを送信するために使用することができる(例えば、マイクロホン(複数でもよい)のパーミッションを許容するように構成される場合)。さらに、音響システムは、出力オーディオ・データの単一の選択されたインスタンスにおける再生スピーチの品質が不満足であるというテップ270の判断ステップに応答して、修正アクションを実行することができる。他の実装においては、修正アクションは、他の基準に基づいて実行することができる。例えば、音響システムは、出力オーディオ・データの多数のインスタンスについての再生スピーチの品質が不満足であると判断されたことに応答して修正アクションを実行する。もう1つの実施例では、修正アクションは、不満足な再生スピーチに関連する聴取環境内の出力マイクロホン(複数でもよい)の位置に基づいて実行することができる。
図3は、本発明の1つの実施形態による、スピーチ品質を改善するための音響システムを調整する方法のフローチャートである。例えば、方法300は、図2のステップ290における修正アクションとして実行することができる。方法300は、図1に示す音響システム100のホスト・プロセッシング・システム110、又は音響システムのもう1つのプロセッシング・デバイスにより実行することができる。
方法300は、ステップ305で開始する。例えば、方法300は、出力オーディオ・データのスピーチ認識の結果(複数でもよい)と、入力オーディオ・データとの間の違いが閾値より大きいか、又は等しいと判断したことに応答して開始することができる。閾値よりも大きいか、又は等しい違いは、再生スピーチの品質が不満足であることを示す。
ステップ310では、音響システムは、ソースからの入力スピーチのスピーチ品質をテストする。例えば、ステップ310では、音響システムは、スピーチ品質のための閾値と、スピーチ認識の結果とを比較することができる。閾値は、事前決定された信頼性レベル(例えば66%)とすることができる。閾値は、ユーザにより構成することができる。閾値よりも低いことは、入力スピーチの品質が不満足であることを示す。他の実施例では、ステップ310で、音響システムは、入力スピーチに比較してバックグラウンド・ノイズが大きなボリュームである(シグナル・ツウ・ノイズ比が低いことにより示される。)こと、人間の話者が入力マイクロホンに近いこと(“ポッピング”効果により示される。)、入力マイクロホンのセッティング(例えば、オーディオ感度又はゲイン/ボリューム・レベル)などといった、入力スピーチの品質に悪影響を与える問題を識別する、1つ又はそれ以上の技術を使用して入力オーディオ・データを処理することができる。したがって、ステップ310では、音響システムは、オーディオ入力に関連する、可能性のある問題を識別するためのテストのシリーズを実行する。
ステップ320では、音響システムは、ソースからの入力スピーチの品質が許容可能な否かを判断する。例えばステップ320では、音響システムは、音響システムが310でスピーチ品質が不満足であることを示す入力スピーチの問題を識別したか否かを判断することができる。入力スピーチの品質が許容可能であるとの判断に応答して(ステップ320のYES分岐)、音響システムは、ステップ340を続ける。しかしながら、入力スピーチの品質が不満足であるとの判断に応答して(ステップ320NO分岐)、音響システムはステップ330に進む。
ステップ330では、音響システムは、ソースのユーザに対して警告メッセージを送付する。特に、ユーザに対する警告メッセージは、ステップ310のテスト(複数でもよい)の結果に基づいて調整させるための指示を含むことができる。例えば、入力オーディオ・データについて実行されたスピーチ認識の結果が閾値を下回る場合、警告メッセージは、人間の話者に対してよりはっきり話すように指示することができる。もう1つの実施例では、テストが人間の話者の入力マイクロホンへの近さが問題と認識する場合、メッセージは、入力マイクロホンに対して近づくか又は遠ざかるように移動させるための指示を含むことができる。さらにもう1つの実施例では、テストが入力マイクロホンの問題を識別する場合、警告メッセージは、マイクロホンのセッティング(例えばオーディオ感度又はゲイン/ボリューム・レベル)を調整させるための指示を含むことができる。他の実装において、音響システムがステップ310で入力マイクロホンの問題を識別するシナリオの場合、以下に説明する、例えば、ステップ340~ステップ370を使用した入力マイクロホンの自動的な調整が実行される。
ステップ340では、音響システムは、第1のパラメータ調整を行う。パラメータ調整は、如何なる独立に構成可能なパラメータ、又はサウンド・カード、オーディオ・スピーカ又はマイクロホンといった音響システムの個別的なコンポーネントのセッティングを含むことができる。当業者は理解できるであろうように、イコライゼーションのセッティングは、オーディオ信号の複数の周波数領域(また、周波数バンド、又はチャネルと呼ばれる。)の調整可能なセッティングを含む。したがって、イコライゼーションに関して、コンポーネントのそれぞれの調整可能な周波数バンドは、調整可能なパラメータに対応する。したがって、音響システムの調整可能なパラメータは、音響システムの構成可能なコンポーネント毎の、ゲイン及びイコライゼーションのセッティングといった、構成可能なセッティングを含む。パラメータ調整は、オーディオ・スピーカといった特定のオーディオ・コンポーネントのパラメータの値の、ポジティブな、又はネガティブなインクリメントを含むことができる。パラメータ調整は、コンポーネントのパラメータについて、パラメータの既存の値、又は新たな(ターゲット)の値を増加させることにより定義することができる。ステップ340では、音響システムは、任意的に第1のパラメータ調整を選択することができる。代替的に、音響システムは、インテリジェントな調整スキームを使用して第1のパラメータを選択することができ、これは、以下に説明するように事前規定されるか又は学習されることができる。したがって、ステップ340で音響システムは、事前規定された量又は増分で音響システムのコンポーネントの識別されたパラメータを調整するために、音響システムのリモート・コンポーネント(例えば、オーディオ・スピーカのサウンド・カード)へと構成命令を送付することを含むことができる。いくつかの実装においては、音響システムは、ステップ340でターゲットの値へと、識別されたパラメータを調整するための構成命令を送付することを含むことができる。
ステップ350では、音響システムは、ステップ340での第1のパラメータ調整の効果を判断し、決定された関係の関係情報を格納する。特にステップ350では、音響システムは、図2で示した方法200のステップ210~ステップ260を反復して実行することができ、第1のパラメータ調整の後に、調整の影響を判断することができる。例えば、ステップ350でシステムは、パラメータ調整の前後で、再生スピーチ及びステップ260で判断した入力されたスピーチのスピーチ品質の違いを、図2に示したステップ210~ステップ260の反復において比較することにより、調整の影響を判断することができる。ステップ350では、音響システムは、第1のパラメータの調整から生じた再生スピーチの品質へのポジティブ又はネガティブな影響を判断することができる(例えば、スピーチ品質における改善又は劣化のパーセンテイジ)。音響システムは、パラメータ、パラメータ調整に対応する増分、及びスピーチ品質への判断された影響を格納することができ、ここで、それと共に、音響システムについて、第1のパラメータと、再生スピーチの品質との間の関係についての情報を提供する。
ステップ360では、音響システムは、ステップ340での第1のパラメータ調整の後に、再生スピーチの品質が満足されるか否かを判断する。例えば、音響システムは、図2に示す方法200のステップ270に対応する。いくつかの実施形態において、再生スピーチの品質が満足されるか否かを判断するためにステップ360で使用される閾値の値は、入力スピーチの品質に基づいて調整することができる。例えば、再生スピーチについてのスピーチ認識の結果の信頼レベル(又は等価的な)は、入力スピーチのそれよりも必然的に低い。したがって、閾値の信頼性レベル(又は等価的な)は、再生スピーチの品質に基づいて調整又は決定することができる。例えば、閾値は、例えば固定されるか又はそのパーセンテイジを可変とする(例えば90%~95%)というように、入力スピーチについての信頼性レベル(又は等価的な)の値の関数とすることができる。再生スピーチの品質が満足されると判断されたこと(ステップ360のYES分岐)に応答して、方法は、ステップ375で終了する。しかしながら、再生スピーチの品質が依然として不満足と判断されること(ステップ360のNO分岐)に応答して、本方法は、ステップ370を継続する。
ステップ370で、音響システムは、行うことができる構成可能なパラメータ調整がさらにあるか否かを判断する。特に、いくつかの実装においては、音響システムは、図2に示した方法のステップ290の修正アクションの部分として、パラメータ調整の事前決定されたセットを通して一度だけサイクルすることができる。行うことができるパラメータ調整がさらに存在する(ステップ370のYES分岐)との判断に応答して、方法は、ステップ340に戻って、次のパラメータ調整を行う。音響システムは、音響システムが行うべきパラメータ調整がないと判断するまで、ステップ350~ステップ370をループにおいて継続する。音響システムが行うべきパラメータ調整がないと判断の判断に応答して(ステップ370のNO分岐)、方法はステップ375で終了する。他の実装において、音響システムは、事前規定された条件に一致するまで、音響システムのパラメータ調整のセットを通したサイクルを反復することができる。例えば、この条件は、再生スピーチの品質が満足されること、連続的なパラメータ調整によっては再生スピーチの品質に顕著な改善がないこと、又はタイマが満了したこと、とすることができる。この場合、ステップ370が除外されて、音響システムは、ステップ360で1つ又はそれ以上の条件が一致したか否かを判断し、そうでない場合、方法300は、ステップ340に戻り、次のパラメータ調整を行う。方法300は、その後、音響システムがオーディオ出力の品質が満足(又は他の条件に適合する)と判断するまでステップ350~ステップ360をループにおいて継続し、本方法は、ステップ375で終了する。
したがって、方法300により、音響システムは、音響システムの構成を自動調整することにより入力スピーチが許容される品質を有する時点で、再生スピーチの品質を改善する。特に、音響システムは、音響システムの構成可能なパラメータを自動的に調整して、再生スピーチの品質を改善する。
追加的に、音響システムは、音響システムのコンポーネントの1つ又はそれ以上の構成可能なパラメータと、スピーチ品質との間の関係に関する情報を判断し、格納する。時間にわたり、この情報は、音響システムの構成可能なパラメータの、よりインテリジェントな調整のために使用することができる。例えば、この情報は、聴取環境内での1つ又はそれ以上の特定の位置での不満足なスピーチ品質の検出に応答して、入力と、再生スピーチの品質との間の最小の期待差を提供するパラメータ又はパラメータ・グループについて要求される、特定の調整(複数でもよい)を予測するために使用することができる。
当業者は認識できるであろう様に、音響システムの構成可能なパラメータの間には、スピーチ品質に対する影響又は効果の関係において相互依存性が有る可能性がある。例えば、第1のパラメータのポジティブな増加を含む第1のパラメータの調整が、改善されたが、不満足なスピーチ品質を誘導し、第2のパラメータのポジティブな増加を含む第2のパラメータの調整が、スピーチ品質の劣化を誘導したとしても、それに続く、第1のパラメータのネガティブな増加を含む第3のパラメータの調整-その元のレベルを下回るような-が、満足なスピーチ品質を誘導する。この実施形態においては、第1及び第2のパラメータが相互依存する-スピーチ品質を改善するためには、第1のパラメータのネガティブな調整が第2のパラメータのポジティブな調整との組み合わせとされられるべきである。音響システムの構成可能なパラメータと、スピーチ品質との間の相互依存性のそのようなパターンは、時間的期間にわたって収集された格納情報から判断することができ、かつステップ340~ステップ370の音響システムのパラメータ調整のインテリジェントなスキームを開発するために使用することができる。
いくつかの実装において、音響システムの調整についてのインテリジェント・スキームは、機械学習を使用して開発することができる。特に、ステップ350で格納された情報は、1つ又は増加的なパラメータの調整のシリーズに応答して、1つ又はそれ以上の音響システムに対する中央化されたデータベース内に格納することができ、かつ機械学習モデルのためのトレーニング・データとして使用することができる。このトレーニング・データは、追加的に入力オーディオ・データ(例えば入力マイクロホンのタイプ/品質、ゲイン/増幅率/ボリューム、バックグラウンド・ノイズなど)に関する情報、又は入力スピーチ(例えば、ピッチ、言語、アクセントなど)に関する情報、又はそれら両方を、関連する音響システムのタイプ及び配置についての情報に加えて含むことができる。このやり方において、機械学習モデルは、特定のタイプの入力スピーチ(例えば人間の話者の特定のカテゴリ)について特定の音響システムのための最良の構成を正確に予測するために開発することができる。モデルは、その後、出力スピーチ品質を最適化するため、多数の構成可能なパラメータ(例えば、同一の、又は異なる、又はこれら両方のオーディオ・コンポーネントに関連する。)をインテリジェントに、又は同時的に又はこれらの両方で調整するために使用することができる。予測された最良の構成を達成するための同時的なパラメータ調整は、多数の増分的なパラメータ調整及びステップ340~ステップ370の反復の必要性を低減、又は排除することを可能とする。モデルの開発の後、ステップ350での情報記録は、モデル性能を改善するためのフィードバックとして使用することができる。
図4は、本発明の1つの実施形態によるシステム400のブロック図である。特に、システム400は、本明細書で説明されるような音響システムのための処理コンポーネントを含む。
システム400は、聴取ロケーションで、ネットワーク440越しにホスト・プロセッシング・システム410に通信する、ホスト・プロセッシング・システム410と、データベース470と、プロセッシング・デバイス450(例えば、ローカル・プロセッシング・デバイス及びユーザ・デバイス)とを含む。ネットワーク440は、モバイル通信ネットワーク、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)、又はインターネットといった、如何なる好適な有線、又はワイヤレスデータ通信ネットワークを含むことができる。ホスト・プロセッシング・システム410は、I/Oユニット416に接続されたユーザ・インタフェース・デバイス460を含むことができる。ユーザ・インタフェース・デバイス460は、1つ又はそれ以上のディスプレイ(例えばスクリーン又はタッチ・スクリーン)、プリンタ、キーボード、ポインティング・デバイス、(例えばマウス、ジョイスティック、タッチパッド)、オーディオ・デバイス(例えば、マイクロホン又はスピーカ、又はそれら両方)及び如何なる他のタイプのユーザ・インタフェース・デバイスを含むことができる。
メモリ・ユニット414は、オーディオ・データ・ファイル420及び本開示による方法を実行するための1つ又はそれ以上のプロセッシング・モジュール430を含む。オーディオ・データ・ファイル420は、音響システムの入力マイクロホンに関連する入力オーディオ・データ420Aを含む。追加的に、オーディオ・データ・ファイル420は、聴取環境内で分散された位置の出力マイクロホンに関連し、ネットワーク440越しにI/Oユニット412を介して受領された出力オーディオ・データ420Bを含む。それぞれのプロセッシング・モジュール430は、オーディオ・データ・ファイル420といった、I/Oユニット416、又はメモリ・ユニット414に格納、又はそれら両方から受領したデータ、又は命令、又はそれら両方についての処理のため、プロセッシング・ユニット412による実行のための命令を含む。
本開示の実施例の実装によれば、プロセッシング・モジュール430は、スピーチ評価モジュール432と、構成モジュール434と、フィードバック・モジュール436とを含む。
スピーチ評価モジュール432は、音響システムのオーディオ・スピーカにより再生されたオーディオ・データに対応する、再生スピーチの品質を評価するように構成される。特に、スピーチ評価モジュール432は、スピーチ認識モジュール432A及び検出モジュール432Bを含む。スピーチ認識モジュール432Aは、図2の方法200の方法の、ステップ220及びステップ240としての実施例として、オーディオ・データ・ファイル420からの入力オーディオ・データ420A及び出力オーディオ・データ420Bに対してスピーチ認識を実行するように構成される。検出モジュール432Bは、図2に示される方法200のステップ250~ステップ270として例示される、出力オーディオ・データ420B内の再生スピーチの品質が聴取者に対して不満足であるかを検出するように構成される。それに応じて、スピーチ評価モジュール432は、図2に示される方法200を実行するためにオーディオ・データ・ファイル420を検索すると共に処理する。特に、スピーチ評価モジュール432により実行される処理は、本明細書で説明したように、入力オーディオ・データ420A及び出力オーディオ・データ420Bを使用して、それが音響システムから受領されるにつれ、リアルタイムに実行することができる。
構成モジュール434は、再生スピーチの品質を最適化させるため、音響システムの構成可能なパラメータを調整するように構成される。構成モジュール434は、較正モジュール434Aと、パラメータ調整モジュール434Bと、調整評価モジュール434Cとを含む。較正モジュール434Aは、例えば、セットアップ時及び必要に応じてその後、音響システムを較正するように構成される。特に較正モジュール434Aは、スピーチ認識の目的のために“完璧”であろうと考えられるスピーチを含む、事前に記録された入力オーディオ・データ・ファイル420Aを使用して、スピーチ評価モジュール432との組み合わせにおいて、音響システムを較正することができる。検出モジュール432Bが、再生スピーチの品質が聴取者のために不満足なことを検出する場合、以下に説明するように、再生スピーチの品質が最大化されるまで、パラメータ調整モジュール434B及び調整評価モジュール434Cを使用して、パラメータ調整が行われ、評価される。当業者は認識するであろう様に、“完璧”なスピーチ・サンプルを使用する音響システムの較正は、入力スピーチに比較した再生スピーチの品質の決定において、最良の場合のシナリオにおいて、音響システムにより達成することができる違いを決定する。これは、例えば、図2で示した方法200のステップ270において使用された再生スピーチ品質を満足するような初期の閾値を設定するために使用することができる。上述したように、閾値は、実際の入力スピーチの品質に基づいて、使用中に調整することができる。パラメータ調整モジュール434Bは、音響システムの構成可能なパラメータを調整するように構成される。例えば、パラメータ調整モジュール434Bは、図3に示した方法300のステップ340として例示される、任意的な、又はインテリジェントなスキームを使用してパラメータ調整を反復して行う。調整評価モジュール434Cは、パラメータ調整モジュール434Bにより実行されたパラメータ調整の影響を評価するように構成される。特に調整評価モジュール434Cは、図3に示したス方法300のテップ350~ステップ360として、パラメータ調整後に再生スピーチの品質が満足されるか否かを判断するように構成される。上述したように、パラメータ調整モジュール434B及び調整評価モジュール434Cは、較正モジュール434A及び検出モジュール432Bにより、音響システムのパラメータをそれぞれ較正し、かつ再構成して、再生スピーチの品質を最適化するために呼び出される。
フィードバック・モジュール436は、スピーチ評価モジュール432、又は較正モジュール434、又はこれら両方から得られる情報をフィードバックとして提供するように構成される。例えば、フィードバック・モジュール436は、図3に示した方法300のステップ310及びステップ320として例示される、スピーチ認識モジュール432A又は他の入力オーディオ・データの分析により決定された入力スピーチの品質が不満足なものであることを人間の話者に対して示すフィードバック(例えば警告メッセージ)を提供することができる。追加的に、又は代替的に、フィードバック・モジュール436は、図3に示される方法300のステップ340での使用のため、性能を最適化するためのインテリジェント・パラメータ調整スキームを開発、又は改善するために、システム、又はモデルへと、再生スピーチの品質に対するパラメータ調整の影響に関する情報を提供することができる。例えば、フィードバック・モジュール436は、図3に示した方法300のステップ350で格納された、音響システムのパラメータと、スピーチ品質との間の関係を考慮した情報を含むフィードバックを、ネットワーク440越しに中央化されたデータベース470、又はもう1つのデータ・ストレージへと送付することができる。格納されたデータは、音響システムの性能の最適化、又は既存の機械学習モデルを洗練するためのフィードバックとしてのため、機械学習モデルのトレーニング・データとして使用することができる。さらに、フィードバック・モジュール434は、満足するスピーチ品質を有する再生スピーチを提供するために音響システムのパラメータを最適化することはできない事態には、ホスト・プロセッシング・システム410のユーザに対して、フィードバックを提供することができる。例えば、音響システムが図2に示された方法200のステップ280で、考慮するべきオーディオ・データのインスタンスがもうないと判断した場合、方法200がステップ295で終了する前に警告メッセージを送付することができる。この警告メッセージは、音響システムの所有者に対して、音響システムの性能を改善するような推奨されるアクションといったような推奨を提供することができる。例えば、警告メッセージは、所有者に対して、音響システムのコンポーネントの手動チェックを行うように指示(例えばサウンド・カード)すること、コンポーネントの数、又はロケーションを変更すること、又は音響システムの全体の出力を変更すること、又はこれらの組み合わせを指示することができる。手動チェック及び音響システムへの変更を推奨するための技術は、当技術において知られており、かつ現在知られ、又は将来に開発される、如何なる好適な技術でも使用することができる。
図4を参照すると、コンピュータ・プログラム製品480が提供される。コンピュータ・プログラム製品は、記録媒体484及びそれに実体化されたプログラム命令486(すなわち、プログラム・コード)有するコンピュータ可読な媒体482を含む。プログラム命令486は、例えば、1つのユーザ・インタフェース・デバイス460、又はネットワーク440に接続された他のデバイス450といったI/Oユニット416を介して、ホスト・プロセッシング・システム410のメモリ・ユニット414上にロードされるように構成される。実施例の実装においては、プログラム命令486は、上述したように、図2及び図3で示された方法のステップといった、本明細書で開示した1つ又はそれ以上の方法のステップを実行するように構成される。
これまで本開示を実施例の実装を参照して説明し例示したが、当業者は、本開示がそれ自体、本明細書でとりわけて例示していない、多くの異なる変更及び修正を与えることについて認識するであろう。
本発明は、システム、方法、コンピュータ・プログラム製品及びこれらの組み合わせとすることができる。コンピュータ・プログラム製品は、それ上にプロセッサが本発明の特徴を遂行するためのコンピュータ可読なプログラム命令を有するコンピュータ可読な記録媒体(又は複数)を含むことができる。
コンピュータ可読な記録媒体は、命令実行デバイスが使用するための複数の命令を保持し格納することができる有形のデバイスとすることができる。コンピュータ可読な媒体は、例えば、これらに限定されないが、電気的記録デバイス、磁気的記録デバイス、光学的記録デバイス、電気磁気的記録デバイス、半導体記録デバイス又はこれらのいかなる好ましい組み合わせとすることができる。コンピュータ可読な記録媒体のより具体的な実施例は、次のポータブル・コンピュータ・ディスク、ハードディスク、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、消去可能なプログラマブル・リード・オンリー・メモリ(EPROM又はフラッシュ・メモリ(登録商標))、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク・リード・イオンリー・メモリ(CD-ROM)、デジタル多目的ディスク(DVD)、メモリ・スティック、フロッピー・ディスク(登録商標)、パンチ・カード又は命令を記録した溝内に突出する構造を有する機械的にエンコードされたデバイス、及びこれらの好ましい如何なる組合せを含む。本明細書で使用するように、コンピュータ可読な記録媒体は、ラジオ波又は他の自由に伝搬する電磁波、導波路又は他の通信媒体(例えば、光ファイバ・ケーブルを通過する光パルス)といった電磁波、又はワイヤを通して通信される電気信号といったそれ自体が一時的な信号として解釈されることはない。
本明細書において説明されるコンピュータ可読なプログラムは、コンピュータ可読な記録媒体からそれぞれのコンピューティング/プロセッシング・デバイスにダウンロードでき、又は例えばインターネット、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)又はワイヤレス・ネットワーク及びそれからの組み合わせといったネットワークを介して外部コンピュータ又は外部記録デバイスにダウンロードすることができる。ネットワークは、銅通信ケーブル、光通信ファイバ、ワイヤレス通信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ及びエッジ・サーバ又はこれらの組み合わせを含むことができる。それぞれのコンピューティング/プロセッシング・デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読なプログラム命令を受領し、このコンピュータ可読なプログラム命令を格納するためにそれぞれのコンピューティング/プロセッシング・デバイス内のコンピュータ可読な記録媒体内に転送する。
本発明の操作を遂行するためのコンピュータ可読なプログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械語命令、マシン依存命令、マイクロ・コード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は1つ又はそれ以上の、Smalltalk(登録商標)、C++などのオブジェクト指向プログラミング言語、“C”プログラミング言語又は類似のプログラム言語といった従来の手続き型プログラミング言語を含むプログラミング言語のいかなる組合せにおいて記述されたソース・コード又はオブジェクト・コードのいずれかとすることができる。コンピュータ可読なプログラム命令は、全体がユーザ・コンピュータ上で、部分的にユーザ・コンピュータ上でスタンドアローン・ソフトウェア・パッケージとして、部分的にユーザ・コンピュータ上で、かつ部分的にリモート・コンピュータ上で、又は全体がリモート・コンピュータ又はサーバ上で実行することができる。後者のシナリオにおいて、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)、ワイド・エリア・ネットワーク(WAN)を含むいかなるタイプのネットワークを通してユーザ・コンピュータに接続することができ、又は接続は、外部コンピュータ(例えばインターネット・サービス・プロバイダを通じて)へと行うことができる。いくつかの実施形態では、例えばプログラマブル論理回路、フィールド・プログラマブル・ゲートアレイ(FPGA)、又はプログラマブル論理アレイ(PLA)を含む電気回路がコンピュータ可読なプログラム命令を、コンピュータ可読なプログラム命令の状態情報を使用して、本発明の特徴を実行するために電気回路をパーソナライズして実行することができる。
本明細書で説明した本発明の特徴を、本発明の実施形態にしたがい、フローチャート命令及び方法のブロック図、又はそれらの両方、装置(システム)、及びコンピュータ・プログラム製品を参照して説明した。フローチャートの図示及びブロック図又はそれら両方及びフローチャートの図示におけるブロック、又はブロック図、又はそれらの両方のいかなる組合せでもコンピュータ可読なプログラム命令により実装することができることを理解されたい。
コンピュータ可読なプログラム命令は、コンピュータのプロセッサ又は機械を生成するための汎用目的、特定目的のコンピュータ、又は他のプログラマブル・データ・プロセッシング装置に提供することができ、コンピュータのプロセッサ又は他のプログラマブル・データ・プロセッシング装置による実行がフローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作を実装するための手段を生成する。コンピュータ、プログラマブル・データ・プロセッシング装置及び他の装置又はこれらの組み合わせが特定の仕方で機能するように指令するこれらのコンピュータ可読なプログラム命令は、またコンピュータ可読な記録媒体に格納することができ、その内に命令を格納したコンピュータ可読な記録媒体は、フローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作の特徴を実装する命令を含む製造品を構成する。
コンピュータ可読なプログラム命令は、またコンピュータ、他のプログラマブル・データ・プロセッシング装置、又は他のデバイス上にロードされ、コンピュータ、他のプログラマブル装置、又は他のデバイス上で操作ステップのシリーズに対してコンピュータ実装プロセスを生じさせることで、コンピュータ、他のプログラマブル装置又は他のデバイス上でフローチャート及びブロック図のブロック又は複数のブロック又はこれらの組み合わせで特定される機能/動作を実装させる。
図のフローチャート及びブロック図は、本発明の種々の実施形態にしたがったシステム、方法及びコンピュータ・プログラム製品のアーキテクチャ、機能、及び可能な実装操作を示す。この観点において、フローチャート又はブロック図は、モジュール、セグメント又は命令の部分を表すことかでき、これらは、特定の論理的機能(又は複数の機能)を実装するための1つ又はそれ以上の実行可能な命令を含む。いくつかの代替的な実装においては、ブロックにおいて記述された機能は、図示した以外で実行することができる。例えば、連続して示された2つのブロックは、含まれる機能に応じて、実際上1つのステップとして遂行され、同時的、実質的に同時的に、部分的又は完全に一時的に重ね合わされた仕方で実行することができ、又は複数のブロックは、時として逆の順番で実行することができる。またブロック図及びフローチャートの図示、又はこれらの両方及びブロック図中のブロック及びフローチャートの図示又はこれらの組み合わせは、特定の機能又は動作を実行するか又は特定の目的のハードウェア及びコンピュータ命令を遂行する特定目的のハードウェアに基づいたシステムにより実装することができることを指摘する。
本開示の種々の実施形態の説明は、例示の目的のために再生されたが、開示された実施形態への排他又は限定を意図するものではない。多くの変更例又は変形例は、本開示の範囲及び精神から逸脱することなく、当業者において自明である。本明細書で使用する用語は、本実施形態の原理、実用的用途、又は市場において見出される技術を超える技術的改善を最良に説明するため、又は本明細書において開示された実施形態を当業者の他の者が理解できるようにするために選択したものである。
Claims (22)
- コンピュータ実装方法であって、
音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行すること、
前記音響システムの1つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも1つのインスタンスについてスピーチ認識を実行すること、
前記入力オーディオ・データについての前記スピーチ認識の結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の結果との間の違いを判断すること、及び
前記違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断すること
を含む、コンピュータ実装方法。 - 前記違いは、入力スピーチのサンプルとしての前記入力オーディオ・データについての前記スピーチ認識の結果及び前記入力スピーチの前記サンプルに対応する前記再生スピーチのサンプルとしての前記出力オーディオ・データについての前記スピーチ認識の結果から計算された定量的な値を含む、
請求項1に記載のコンピュータ実装方法。 - 前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを判断することは、
前記入力オーディオ・データについての前記スピーチ認識のトランスクリプトのテキストと、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識のトランスクリプトのテキストとを比較すること、及び
異なるキャラクタの数、異なるワードの数、及び異なるキャラクタ又はワードのパーセンテイジを含むグループから選択される前記違いについての定量的な値を判断すること
を含む請求項1に記載のコンピュータ実装方法。 - 前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを判断することが、
前記入力オーディオ・データについての前記スピーチ認識によって決定された第1の信頼性レベルと、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識により決定された第2の信頼性レベルとを比較することであって、前記第1の信頼性レベルが、前記入力オーディオ・データについての前記スピーチ認識の信頼性を示す信頼性基準の値を含み、前記第2の信頼性レベルが前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の信頼性を示す信頼性基準の値を含む、比較すること、及び
前記第1の信頼性レベルと、前記第2の信頼性レベルとの間の差を決定すること
を含む、請求項1に記載のコンピュータ実装方法。 - さらに、
前記再生スピーチの品質が不満足であるとの判断に応答して、前記再生スピーチの前記品質を改善するために、前記音響システムの1つ又はそれ以上のパラメータの調整を実行すること
を含む、
先行する請求項の何れかに記載されたコンピュータ実装方法。 - 前記音響システムの前記1つ又はそれ以上のパラメータの調整を実行することが、
規定された増分により、又はターゲットの値まで前記音響システムのパラメータを調整することを含む第1のパラメータの調整を実行すること、及び
前記再生スピーチの前記品質が依然として不満足であるとの判断に応答して、事前規定された条件に適合するまで、さらにパラメータの調整を実行すること
を含む請求項5に記載のコンピュータ実装方法。 - 前記事前規定された条件が、前記再生スピーチの品質が満足されること、前記再生スピーチの品質が最大化されること、パラメータ調整の事前規定されたセットが実行されたこと、パラメータ調整の前記事前規定されたセットがインテリジェント・パラメータ調整スキームにしたがって実行されたこと、パラメータ調整の前記事前規定されたセットが、最適化モデルにしたがって実行されたこと、及びタイマが満了したこと、を含むグループから選択される、
請求項6に記載のコンピュータ実装方法。 - さらに、
前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の前記結果との違いに基づいて前記再生スピーチの前記品質についてのパラメータ調整の影響を判断することであって、前記入力オーディオ・データ及び前記出力オーディオ・データが入力スピーチ及び前記パラメータ調整後の前記再生スピーチを含む、判断すること、及び
前記再生スピーチを最適化するためのインテリジェント・パラメータ調整の選択スキーム又は機械学習モデルへのフィードバックとして使用するために、前記パラメータと前記パラメータ調整に対応する増分と前記再生スピーチの前記品質についての前記影響とを含む関係情報を格納すること
を含む、
請求項5、6又は7に記載のコンピュータ実装方法。 - さらに、
前記音響システムへのスピーチ入力の品質が許容可能であるか否かを判断すること、及び
前記音響システムに入力された前記スピーチの前記品質が許容可能でないことの判断に応答して、ユーザに前記音響システムに入力された前記スピーチに関連して変更させるためのメッセージを送付すること
を含む、先行する請求項の何れかに記載されたコンピュータ実装方法。 - 前記1つ又はそれ以上のパラメータ調整におけるパラメータが、オーディオ・ゲイン及び前記音響システムのコンポーネントのそれぞれの周波数バンドについてのオーディオ・チャネルのイコライゼーションを含むグループから選択される、
請求項5~8の何れか1項に記載のコンピュータ実装方法。 - 装置であって、
プロセッサ及びストレージを含み、前記プロセッサが、
音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行し、
前記音響システムの1つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも1つのインスタンスについてスピーチ認識を実行し、
前記入力オーディオ・データについての前記スピーチ認識の結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の結果との間の違いを判断し、及び
前記違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断する
ように構成される、装置。 - 前記違いは、入力スピーチのサンプルとしての前記入力オーディオ・データについての前記スピーチ認識の結果及び前記入力スピーチの前記サンプルに対応する前記再生スピーチのサンプルとしての前記出力オーディオ・データについての前記スピーチ認識の結果から計算された定量的な値を含む、
請求項11に記載の装置。 - 前記プロセッサが、前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを、
前記入力オーディオ・データについての前記スピーチ認識のトランスクリプトのテキストと、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識のトランスクリプトのテキストとを比較し、
異なるキャラクタの数、異なるワードの数、及び異なるキャラクタ又はワードのパーセンテイジを含むグループから選択される前記違いについての定量的な値を判断することにより判断するように構成される
請求項11に記載の装置。 - 前記プロセッサが、前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の前記結果との間の前記違いを、
前記入力オーディオ・データについての前記スピーチ認識によって決定された第1の信頼性レベルと、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識により決定された第2の信頼性レベルとを比較し、前記第1の信頼性レベルが、前記入力オーディオ・データについての前記スピーチ認識の信頼性を示す信頼性基準の値を含み、前記第2の信頼性レベルが前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の信頼性を示す信頼性基準の値を含んでおり、
前記第1の信頼性レベルと、前記第2の信頼性レベルとの間の差を決定することによって判断するように構成される
請求項11に記載の装置。 - 前記プロセッサが、さらに、前記再生スピーチの品質が不満足であるとの判断に応答して、前記再生スピーチの前記品質を改善するために、前記音響システムの1つ又はそれ以上のパラメータの調整を実行するように構成される
請求項11~14の何れか1項に記載された装置。 - 前記プロセッサが、前記音響システムの前記1つ又はそれ以上のパラメータの調整を実行することを、
規定された増分により、又はターゲットの値まで前記音響システムのパラメータを調整することを含む第1のパラメータの調整を実行し、
前記再生スピーチの前記品質が依然として不満足であるとの判断に応答して、事前規定された条件に適合するまで、さらにパラメータの調整を実行することにより実行するように構成される
請求項15に記載の装置。 - 前記事前規定された条件は、前記再生スピーチの品質が満足されること、前記再生スピーチの品質が最大化されること、パラメータ調整の事前規定されたセットが実行されたこと、パラメータ調整の前記事前規定されたセットが、インテリジェント・パラメータ調整スキームにしたがって実行されたこと、パラメータ調整の前記事前規定されたセットが、最適化モデルにしたがって実行されたこと、及びタイマが満了したこと、を含むグループから選択される、
請求項16に記載の装置。 - 前記プロセッサが、さらに、
前記入力オーディオ・データについての前記スピーチ認識の前記結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の前記結果との違いに基づいて前記再生スピーチの前記品質についてのパラメータ調整の影響を判断することであって、前記入力オーディオ・データ及び前記出力オーディオ・データは入力スピーチ及び前記パラメータ調整後の前記再生スピーチを含む、判断し、
前記再生スピーチを最適化するためのインテリジェント・パラメータ調整の選択スキーム又は機械学習モデルへのフィードバックとして使用するために、前記パラメータと前記パラメータ調整に対応する増分と前記再生スピーチの前記品質についての前記影響とを含む関係情報を格納する
ように構成される、請求項15、16又は17に記載の装置。 - 前記プロセッサが、さらに、
前記音響システムへのスピーチ入力の品質が許容可能であるか否かを判断し、
前記音響システムに入力された前記スピーチの前記品質が許容可能でないことの判断に応答して、ユーザに前記音響システムに入力された前記スピーチに関連して変更させるためのメッセージを送付する
ように構成される、請求項11~18の何れか1項に記載の装置。 - 前記1つ又はそれ以上のパラメータ調整におけるパラメータが、オーディオ・ゲイン及び前記音響システムのコンポーネントのそれぞれの周波数バンドについてのオーディオ・チャネルのイコライゼーションを含むグループから選択される、
請求項15~18の何れかに記載の装置。 - 実体化されたプログラム命令をそれ上に有するコンピュータ可読な記録媒体を含むコンピュータ・プログラム製品であって、前記プログラム製品がプロセッサにより実行され、前記プロセッサをして、
音響システムに入力されるスピーチを含む入力オーディオ・データについてスピーチ認識を実行すること、
前記音響システムの1つ又はそれ以上のオーディオ・スピーカによる再生スピーチを含む出力オーディオ・データの少なくとも1つのインスタンスについてスピーチ認識を実行すること、
前記入力オーディオ・データについての前記スピーチ認識の結果と、前記出力オーディオ・データの前記少なくとも1つのインスタンスについての前記スピーチ認識の結果との間の違いを判断すること、及び
前記違いが閾値よりも大きいか、又は等しい場合に、前記再生スピーチの品質が不満足であると判断すること
を実行させる、コンピュータ・プログラム製品。 - プログラムがコンピュータ上で実行された場合に、請求項1~10の何れか1項に記載の前記方法を実行するために適応されたプログラム・コード手段を含む、コンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/598,621 | 2019-10-10 | ||
US16/598,621 US11151981B2 (en) | 2019-10-10 | 2019-10-10 | Audio quality of speech in sound systems |
PCT/IB2020/059321 WO2021070032A1 (en) | 2019-10-10 | 2020-10-05 | Improving audio quality of speech in sound systems |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022552815A true JP2022552815A (ja) | 2022-12-20 |
Family
ID=75382965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022520788A Pending JP2022552815A (ja) | 2019-10-10 | 2020-10-05 | 音響システムにおけるスピーチのオーディオ品質の改善 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11151981B2 (ja) |
JP (1) | JP2022552815A (ja) |
CN (1) | CN114667568A (ja) |
DE (1) | DE112020003875T5 (ja) |
GB (1) | GB2604498A (ja) |
WO (1) | WO2021070032A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11189265B2 (en) * | 2020-01-21 | 2021-11-30 | Ria Sinha | Systems and methods for assisting the hearing-impaired using machine learning for ambient sound analysis and alerts |
US11657828B2 (en) * | 2020-01-31 | 2023-05-23 | Nuance Communications, Inc. | Method and system for speech enhancement |
JP2022110443A (ja) * | 2021-01-18 | 2022-07-29 | 東芝テック株式会社 | サーバ、端末装置およびオンライン会議用のプログラム |
US20220295204A1 (en) * | 2021-03-11 | 2022-09-15 | Google Llc | Real-Time Adaptation of Audio Playback |
US20220303393A1 (en) * | 2021-03-16 | 2022-09-22 | Lenovo (Singapore) Pte. Ltd. | Resolving bad audio during conference call |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5315689A (en) | 1988-05-27 | 1994-05-24 | Kabushiki Kaisha Toshiba | Speech recognition system having word-based and phoneme-based recognition means |
US6499013B1 (en) | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
JP2001100781A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
US6766294B2 (en) | 2001-11-30 | 2004-07-20 | Dictaphone Corporation | Performance gauge for a distributed speech recognition system |
US7155018B1 (en) | 2002-04-16 | 2006-12-26 | Microsoft Corporation | System and method facilitating acoustic echo cancellation convergence detection |
US6719826B2 (en) | 2002-07-15 | 2004-04-13 | Saika Technological Institute Foundation | Method and apparatus for sample injecting in gas chromatography |
US7228275B1 (en) * | 2002-10-21 | 2007-06-05 | Toyota Infotechnology Center Co., Ltd. | Speech recognition system having multiple speech recognizers |
US7197331B2 (en) | 2002-12-30 | 2007-03-27 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
US20070112563A1 (en) | 2005-11-17 | 2007-05-17 | Microsoft Corporation | Determination of audio device quality |
US8320824B2 (en) | 2007-09-24 | 2012-11-27 | Aliphcom, Inc. | Methods and systems to provide automatic configuration of wireless speakers |
CN102197662B (zh) | 2009-05-18 | 2014-04-23 | 哈曼国际工业有限公司 | 效率优化的音频系统 |
KR101907406B1 (ko) | 2012-05-08 | 2018-10-12 | 삼성전자 주식회사 | 통신 서비스 운용 방법 및 시스템 |
US9480280B2 (en) * | 2012-06-12 | 2016-11-01 | Givaudan S.A. | Taste modifiers |
US9288597B2 (en) | 2014-01-20 | 2016-03-15 | Sony Corporation | Distributed wireless speaker system with automatic configuration determination when new speakers are added |
CN105551498A (zh) | 2015-10-28 | 2016-05-04 | 东莞酷派软件技术有限公司 | 一种语音识别的方法及装置 |
US10522053B2 (en) * | 2016-03-30 | 2019-12-31 | Intel Corporation | Speech clarity systems and techniques |
CN108781330B (zh) | 2016-05-25 | 2020-04-28 | 华为技术有限公司 | 音频信号处理阶段、音频信号处理装置和音频信号处理方法 |
US10154346B2 (en) | 2017-04-21 | 2018-12-11 | DISH Technologies L.L.C. | Dynamically adjust audio attributes based on individual speaking characteristics |
JP6531776B2 (ja) * | 2017-04-25 | 2019-06-19 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
JP7002268B2 (ja) * | 2017-09-28 | 2022-01-20 | 東京エレクトロン株式会社 | プラズマ処理装置 |
US10192554B1 (en) * | 2018-02-26 | 2019-01-29 | Sorenson Ip Holdings, Llc | Transcription of communications using multiple speech recognition systems |
-
2019
- 2019-10-10 US US16/598,621 patent/US11151981B2/en active Active
-
2020
- 2020-10-05 GB GB2206794.6A patent/GB2604498A/en active Pending
- 2020-10-05 DE DE112020003875.0T patent/DE112020003875T5/de active Pending
- 2020-10-05 WO PCT/IB2020/059321 patent/WO2021070032A1/en active Application Filing
- 2020-10-05 CN CN202080071083.7A patent/CN114667568A/zh active Pending
- 2020-10-05 JP JP2022520788A patent/JP2022552815A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE112020003875T5 (de) | 2022-05-12 |
US11151981B2 (en) | 2021-10-19 |
GB2604498A (en) | 2022-09-07 |
US20210110812A1 (en) | 2021-04-15 |
CN114667568A (zh) | 2022-06-24 |
WO2021070032A1 (en) | 2021-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022552815A (ja) | 音響システムにおけるスピーチのオーディオ品質の改善 | |
US11749243B2 (en) | Network-based processing and distribution of multimedia content of a live musical performance | |
US9913056B2 (en) | System and method to enhance speakers connected to devices with microphones | |
US11075609B2 (en) | Transforming audio content for subjective fidelity | |
EP3369175B1 (en) | Object-based audio signal balancing | |
CA2795189C (en) | Automatic gain control | |
US7822498B2 (en) | Using a loudness-level-reference segment of audio to normalize relative audio levels among different audio files when combining content of the audio files | |
US9712934B2 (en) | System and method for calibration and reproduction of audio signals based on auditory feedback | |
US20160239253A1 (en) | Method for audio correction in electronic devices | |
US11735194B2 (en) | Audio input and output device with streaming capabilities | |
GB2550877A (en) | Object-based audio rendering | |
WO2018017878A1 (en) | Network-based processing and distribution of multimedia content of a live musical performance | |
US10389323B2 (en) | Context-aware loudness control | |
US9485578B2 (en) | Audio format | |
US10346126B2 (en) | User preference selection for audio encoding | |
US10972064B2 (en) | Audio processing | |
Jackson et al. | Object-Based Audio Rendering | |
US20230396924A1 (en) | Analysis and optimization of an audio signal | |
JP2020537470A (ja) | オーディオ信号の個人適用のためのパラメータを設定するための方法 | |
JP2019503503A (ja) | オーディオ信号を出力するためのシステム及びそれぞれの方法と設定装置 | |
WO2023235371A1 (en) | Analysis and optimization of an audio signal | |
WO2019014477A1 (en) | AUDIO INPUT AND OUTPUT DEVICE WITH CONTINUOUS DIFFUSION CAPABILITIES |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220413 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220518 |
|
RD16 | Notification of change of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7436 Effective date: 20220425 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230324 |