JP6505252B2

JP6505252B2 - 音声信号を処理するための方法及び装置

Info

Publication number: JP6505252B2
Application number: JP2017553962A
Authority: JP
Inventors: ユアン，ハオレイ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2015-11-04
Filing date: 2016-05-27
Publication date: 2019-04-24
Anticipated expiration: 2036-05-27
Also published as: CN105280195B; EP3373300A1; KR20170129211A; MY179978A; JP2018517167A; EP3373300B1; US20200168237A1; US10586551B2; KR101981879B1; CN105280195A; US10924614B2; US20170365270A1; WO2017075979A1; EP3373300A4

Description

［関連出願への相互参照］
本出願は、2015年11月4日に中国国家知識産権局に出願された「METHOD AND APPARATUS FOR PROCESSING VOICE SIGNAL」という名称の中国特許出願第201510741057.1号の優先権を主張し、この全内容を参照により援用する。

［技術分野］
本開示は、端末技術の分野に関し、特に音声信号処理方法及び装置に関する。

音声了解度は、ユーザが音響システムから伝達された音声信号を理解する割合を意味する。例えば、音響システムが100個の単語を伝達したことをユーザが聞いたが、50個の単語のみを理解した場合、システムの音声了解度は50%である。ポータブルモバイル端末が次第に小型化されているため、モバイル端末により出力されることができる最大音響パワーは次第に減少している。したがって、モバイル端末を使用したユーザの通信中の音声了解度が影響を受ける。音声了解度は、モバイル端末の性能を測定する際の重要な指標である。したがって、音声了解度を改善するためにモバイル端末がどのように音声信号を処理するかは、モバイル端末の開発にとって鍵となっている。

現在、モバイル端末とユーザと雑音源とを含む典型的な音響学適用シナリオでは、対象音声信号（to-be-speech signal）が自動利得制御アルゴリズムを使用することにより検出され、対象音声信号内の小さい信号が増幅され、増幅された信号が電気信号に変換され、電気信号がスピーカに伝達される。増幅された後に、スピーカに伝達される電気信号は、スピーカにより許容される最大値に到達する。スピーカが最大出力パワーに基づいて動作すると、スピーカは、最大出力音圧レベルで音声信号を出力する。

本開示の実現過程において、発明者は、関係する技術が少なくとも以下の問題を有することを見出した。

通常では、音声信号の平均波動振幅は、ピーク波動振幅よりかなり小さい。通常の音声信号による励起中に、最大定格出力が1ワットであるスピーカは、通常通り動作する場合、一般的には最大定格出力の約10%（すなわち、0.1W）のみである平均出力パワーを有する。通常動作状態では、スピーカに入力される電気信号の振幅が更に増加した場合、音声信号内の大きい振幅を有する信号部は、スピーカを過負荷にさせ、飽和歪みを生じ、音声了解度及び明瞭度を減少させる。さらに、音声信号内の小さい信号のみが増幅された場合、音声信号の有効ダイナミックレンジが狭くなる。したがって、音声了解度もあまり改善することができない。

関係する技術における問題を解決するために、本出願の実施例は、音声信号処理方法及び装置を提供する。技術的解決策は以下の通りである。

一態様によれば、音声信号処理方法が提供され、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を含む。

他の態様によれば、音声信号処理装置が提供され、
少なくとも１つのプロセッサと、
プログラム命令を記憶するメモリと
を含み、プロセッサにより実行された場合、命令は、以下の動作、すなわち、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を実行するように装置に命令する。

本出願の実施例において提供される技術的解決策は、以下のような有利な効果をもたらす。

音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。

本出願の実施例の技術的解決策をより明確に説明するために、実施例を示す添付図面について以下に簡単に説明する。明らかに、以下の説明における図面は、本出願の単にいくつかの実施例に過ぎず、当業者は、創造的取り組みなしにこれらの添付図面に基づいて他の図面を導出し得る。
本出願の実施例による音声信号処理方法の実現環境の概略図である。本出願の他の実施例による音声信号処理方法のシステムアーキテクチャの図である。本出願の他の実施例による音声信号処理方法のフローチャートである。本出願の他の実施例による音声信号処理方法のフローチャートである。本出願の他の実施例による音声信号処理方法の信号フローの概略図である。本出願の他の実施例による音声信号処理方法のフローチャートである。本出願の他の実施例による音声信号処理装置の概略構成図である。本出願の他の実施例による音声信号処理端末の概略構成図である。

本開示の目的、技術的解決策及び利点をより明確にするために、以下に、添付図面を参照して本出願の実施例について更に詳細に説明する。明らかに、説明する実施例は、本出願の全ての実施例ではなく、いくつかの実施例のみである。創造的取り組みなしに本出願の実施例に基づいて当業者により得られる他の全ての実施例は、本開示の保護範囲内に入るものとする。

音声インスタントメッセージングアプリケーション（App）は、ボイス・オーバー・インターネット・プロトコル呼又はネットワーク音声会議を行うために使用されることができるアプリケーションであり、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ及びウェアラブル電子製品のようなモバイル端末デバイスに広くインストールされている。モバイル端末が次第に小型化されているため、モバイル端末デバイス内のマイクロスピーカにより出力されることができる最大音響パワーはボトルネックに直面している。

モバイル端末デバイスにより出力される最大音響パワーがボトルネックに直面している主な理由は、以下の２つの側面を含む。

第１の側面では、既存の電気音響学の増幅技術に従って、音波は、主に３つの部分、すなわち、パワー増幅器、スピーカ及びスピーカボックスに依存して生成される。モバイル端末デバイス内のスピーカは、スピーカ及びスピーカボックスの物理サイズが音波の波長に正比例する場合にのみ、できるだけ効率的に電気−音響変換を実現することができる。しかし、ポータブルモバイル端末が次第に小型化されているため、モバイル端末のサイズは、通常では音波の波長よりかなり小さい。波長が340Hzの音波を一例として使用すると、できるだけ効率的に音響−電気変換を実現するために、モバイル端末のサイズは、少なくとも1メートルである必要がある。したがって、スピーカの小型化は、モバイル端末により出力される最大音響パワーを減少させる。さらに、現在一般的に使用されている可動コイルスピーカは、振動板が十分な移動空間を有することを確保するために、或る程度の厚さを有する必要がある。しかし、モバイル端末が次第に小型化されてより薄くなっているため、モバイル端末内の一体化した音響学設計は、物理サイズにより制限される。その結果、モバイル端末により出力される最大音響パワーは制限される。

第２の側面では、モバイル端末にインストールされた音声インスタントメッセージングAppは、一般的にはオペレーティングシステム内で動作し、ハードウェア音量制御は、オペレーティングシステムにより提供されるアプリケーションプログラミングインタフェース（API）を使用することにより実現される必要がある。オーディオ入力及び出力に関して、現在、主流の実現方法は以下の通りである。音声インスタントメッセージングAppは、オーディオ設定モードが必要であることをオペレーティングシステムに通知する。オペレーティングシステムは、関係するハードウェアを設定する。設定が完了した後で、音声インスタントメッセージングAppは、音声信号に対応するデータをオペレーティングシステムの録音APIに定期的に書き込み、次に、オペレーティングシステムの録音APIからのデータを読み取りさえすればよい。しかし、オペレーティングシステムによりサポートされるオーディオ設定モードの種類は限られている。限られたオーディオ設定モードは、モバイル端末製造者によりハードウェア下位層（ファームウェア）において実現される。Appのハードウェア音量制御は、このような要因により制限される。さらに、通常では、ハードウェアベンダは、通常の使用シナリオのみについて下位層のオーディオ最適化を実行し、モバイル端末製造者は、一般的に極度の環境（例えば、大きい周辺雑音が存在する）における使用シナリオについて目標の最適化を実行しない（例えば、モバイル端末製造者は、一般的にハードウェア出力音量を増加させ得る専用ソフトウェアインタフェースを提供しない）。

出力音量の降順に配置すると、一般的なモバイル端末は、ノートブックコンピュータ、タブレットコンピュータ、スマートフォン（ハンドフリーモード）、ウェアラブルデバイス等である。しかし、モバイル端末を使用した通信中に、モバイル端末により受信される周辺雑音の問題は、反対に変化する。通常では、ノートブックコンピュータは、しばしば室内で使用され、ノートブックコンピュータにより受信される雑音は、主に室内の低デシベルの小さい雑音である。タブレットコンピュータ及びスマートフォンは、しばしば公共空間のような室外で使用され、タブレットコンピュータ及びスマートフォンにより受信される雑音は、主に高デシベルの大きい雑音である。ウェアラブルデバイスは、人体に長く装着され、ほとんど雑音のシナリオで使用され、ウェアラブルデバイスにより受信される雑音は最も複雑である。モバイル端末が次第に小型化されているため、モバイル端末により受信される周辺雑音の問題は、より明白であり、これは、モバイル端末を使用した通信中にユーザ体験にかなり影響を与える。

モバイル端末により出力される最大音響パワーがボトルネックに直面しているという問題を解決するため、本出願の実施例は、モバイル端末のハードウェアを変更しないが、音声信号を処理することにより、モバイル端末の音声了解度が改善される方法を提供する。本出願の実施例において提供される方法によれば、騒々しいシナリオであっても、モバイル端末ユーザは、通話中にピアエンドの音声内容を依然として明確に聞くことができる。

図１は、本出願の実施例による音声信号処理方法及び装置の実現環境の概略図である。図１を参照すると、実現環境は、３つの音響学エンティティ、すなわち、モバイル端末P、ユーザU及び雑音源Nを含み、音響出力及び入力デバイス、すなわち、スピーカS及びマイクロフォンMを含む。モバイル端末Pは、１つ以上の音声インスタントメッセージングAppがインストールされたモバイル電話、タブレットコンピュータ、ノートブックコンピュータ、ウェアラブルデバイス等でもよい。音声インスタントメッセージングAppに基づいて、ユーザは、いつでもどこでも他のユーザと通信してもよい。スピーカS及びマイクロフォンMは、モバイル端末に内蔵されてもよく、或いは外部音響ボックス、外部スピーカ、ブルートゥーススピーカ又はブルートゥースヘッドセットのように、外部デバイスとしてモバイル端末に接続されてもよい。マイクロフォンMは、雑音源Nにより放たれる雑音と、ユーザUの話し声と、スピーカSにより再生される音響とを含む全体のシナリオにおいて、音響を取得してもよい。ユーザが音声インスタントメッセージングソフトウェアを使用することによりピアエンドのユーザと通信する場合、モバイル端末は、ピアエンドにより送信された再生対象音声信号（これは、以下では区別のために簡単に音声信号と呼ばれる）を受信する。処理された後に、音声信号は、スピーカにより音波に変換され、空気でユーザUに伝達され、ユーザUにより検知される。同時に、雑音源Nにより放たれた音波は、ユーザUに伝達され、同様にユーザUにより検知される。雑音源Nにより放たれた音波は、ユーザUと干渉し、モバイル端末の音声了解度を低下させる。

音響学の分野では、心理音響学マスキング効果の原理に従って、周波数では近いが振幅ではかなり異なる２つの信号が同時に出現した場合、より大きい振幅を有する信号は、より小さい信号を有する信号を隠蔽する。すなわち、雑音源Nにより放たれた雑音が強い場合、ユーザUは、スピーカSにより再生された音声内容を明確に聞くことができない。この場合、スピーカSの出力パワーを増加させるために、スピーカSは、より大きい物理サイズを有する必要があり、これは、モバイル端末の小型化、軽量化及び薄型化の設計と矛盾する。これを鑑みて、本開示では、雑音信号により音声信号にもたらされる干渉の問題は、心理音響学マスキング効果を使用することにより解決される。

通常では、音声信号及び雑音信号は、単一周波数の信号ではなく、これらは、それぞれ異なる帯域範囲を占有し、周波数におけるこれらのエネルギー分布は均一ではない。雑音信号でエネルギーが最も弱いf_weakとして記される周波数は、音声信号及び雑音信号のパワースペクトルを比較することにより見つけられてもよい。この実施例では、スピーカの出力パワーを超えないという条件で、音声信号は、f_weakの近くに集中したエネルギーで再生され、さらに、スピーカが過負荷になることを妨げるために、周波数f_weakから離れた音声信号のエネルギーは減衰する。このような処理方式では、f_weakの近くの周波数では、雑音信号は、音声信号により隠蔽され、音声信号の内容はユーザにより検知される。f_weakから離れた周波数では、音声信号は、雑音信号により依然として隠蔽される。結論として、増強された音声信号は、いくつかの周波数において雑音信号を隠蔽し、これにより、雑音は全体の音声信号を隠蔽せず、この場合、ユーザは音声信号の内容を明確に聞くことができる。

図２は、本出願による音声信号処理方法のシステムアーキテクチャの図である。図２を参照すると、システムアーキテクチャは、ユーザUと、スピーカSと、マイクロフォンMと、様々な機能モジュールとを含む。機能モジュールは、信号検出及び分類モジュール、スペクトル推定モジュール、ループ伝達関数計算モジュール、音声了解度推定モジュール等を含む。スペクトル推定モジュールは、音声アクティビティ検出モジュールと、雑音パワースペクトルモジュールと、エコーパワースペクトルモジュールとを具体的に含んでもよい。システム内のモジュールの機能及びモジュール間の関係は以下の通りである。

マイクロフォンMは、この実施例では録音信号（xとして記される）と呼ばれる周辺音響を取得し、録音信号xを信号検出及び分類モジュールに送信するように構成される。

信号検出及び分類モジュールは、録音信号を検出及び分類し、３種類の信号、すなわち、ユーザUが話したときの音声信号（近端信号vとして記される）、雑音源Nにより放たれた雑音信号（雑音信号nとして記される）、及びスピーカSが音響を再生しているときにマイクロフォンMにより録音された信号（エコー信号eとして記される）を出力するように構成される。

スペクトル推定モジュールは、雑音信号のパワースペクトル、エコー信号のパワースペクトル及び近端信号のパワー特性値を計算するように構成される。雑音信号のパワースペクトルは、P_nにより表されてもよく、エコー信号のパワースペクトルは、P_eにより表されてもよく、近端信号のパワー特性値は、VAD_vにより表されてもよい。VAD_vは、２つの状態、すなわち、true及びfalseを有する。VAD_v=trueである場合、これは、現時点において近端信号が存在し、すなわち、ユーザUが話し中であることを示す。VAD_v=falseである場合、これは、現時点において近端信号が存在せず、すなわち、ユーザUが話し中でないか、或いは雑音信号又はエコー信号がユーザUの話し声より明らかに大きいことを示す。

ループ伝達関数計算モジュールは、音声信号y及びマイクロフォンにより検出された録音信号xに従って、経路「周波数加重フィルタ--スピーカ--音場--マイクロフォン」上での、H_loopとして記されるループ伝達関数を計算するように構成される。

音声了解度推定モジュールは、H_loop、VAD_v、P_n及びP_eに従って、音声了解度インデックス（「SII」として知られる）を決定するように構成され、周波数加重フィルタWの周波数加重係数を計算するように更に構成される。

図２を参照すると、ユーザ、モバイル端末及び雑音源の具体的な空間位置は、実際の適用中に決定されることができず、音声信号及び録音信号は、マイクロフォンMの位置ではなく、ユーザUの耳の位置でSIIを最大化するように処理される。問題を解決するために、この実施例において提供される方法では、近似処理が適用される。以下の説明を容易にするために、本出願のこの実施例では、スピーカSとユーザUの耳との間の音響伝達経路の長さはh1により表され、雑音源Nとユーザの耳との間の音響伝達経路の長さはh2により表され、雑音源NとマイクロフォンMとの間の音響伝達経路の長さはh3により表され、ユーザUの口とマイクロフォンMとの間の音響伝達経路の長さはh4により表され、マイクロフォンMとスピーカSとの間の音響伝達経路の長さはh5により表される。本出願のこの実施例において使用される近似は以下の通りである。

(1)マイクロフォンにより取得される雑音は、ユーザにより検知される雑音とほぼ同じであること、すなわち、h2≒h3が仮定される。

(2)スピーカから生じてマイクロフォンにより取得されるエコーは、スピーカにより再生されてユーザにより検知される音響とほぼ同じであること、すなわち、h1≒h5が仮定される。

前述の近似条件が満たされるという条件で、ユーザUの位置において最大音声了解度を計算する問題は、マイクロフォンMの位置において最大音声了解度を計算する問題に変換され得る。

前述の全ての選択可能な技術的解決策は、本開示の選択可能な実施例を形成するようにいずれかの方式で組み合わされてもよい。ここでは詳細は１つずつ更に説明しない。

図３は、本出願の実施例による音声信号処理方法のフローチャートである。図３を参照すると、この実施例において提供される方法は以下のステップを含む。

301.録音信号及び音声信号を取得し、例えば、近端からの録音信号を収集し、ピアエンドにより送信された音声信号（すなわち、音声信号）を受信する。録音信号は、雑音信号及びエコー信号を少なくとも含む。

302.録音信号及び音声信号に従って、ループ伝達関数を計算する。

303.録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する。

304.エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する。

305.周波数加重係数に基づいて、音声信号の周波数振幅を調整する。

306.調整された音声信号を出力する。

本出願のこの実施例において提供される方法によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。

本出願の他の実施例では、録音信号及び音声信号に従って、ループ伝達関数を計算する動作は、
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。

本出願の他の実施例では、録音信号のパワースペクトルは、以下の式を録音信号に適用することにより計算され、
P_x=X(n).^2
ここで、P_xは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。

本出願の他の実施例では、録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作は、
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。

本出願の他の実施例では、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する前に、この方法は、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第１の閾値より大きいか否か、音声信号のパワー特性値が第２の閾値より大きいか否か、及びエコー信号のパワー特性値が第３の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第１の閾値より大きく、音声信号のパワー特性値が第２の閾値より大きく、エコー信号のパワー特性値が第３の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算するステップを実行する動作と
を更に含む。

本出願の他の実施例では、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する前に、この方法は、
録音信号のパワー特性値が第１の閾値未満であるか否か、及びエコー信号のパワー特性値が第３の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第１の閾値未満であり、エコー信号のパワー特性値が第３の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を更に含む。

本出願の他の実施例では、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作は、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。

図４は、本出願の他の実施例による音声信号処理方法のフローチャートである。図４を参照すると、この実施例において提供される方法は以下のステップを含む。

401.モバイル端末は、近端から録音信号を収集し、ピアエンドにより送信された音声信号を受信する。

近端は、モバイル端末が現在位置する環境である。モバイル端末により近端から録音信号を収集する方式は、マイクロフォンを開始し、マイクロフォンを使用することにより現在の環境における音響信号を収集し、マイクロフォンにより収集された音響信号を録音信号として使用することを含むが、これに限定されない。録音信号は、雑音信号、エコー信号、近端信号等を含む。この実施例では、録音信号はxにより表されてもよく、雑音信号はnにより表されてもよく、エコー信号はeにより表されてもよく、近端信号はvにより表されてもよい。

ピアエンドは、マイクロフォンを使用することにより、ピアエンドのユーザの音声信号を収集し、収集された音声信号を処理した後に、ネットワークを使用することにより、収集された音声信号をモバイル端末に送信する。モバイル端末上のインスタントメッセージングAppは、ピアエンドにより送信された音声信号を受信し、ピアエンドにより送信された音声信号を音声信号として使用する。ピアエンドは、インスタントメッセージングAppを使用することによりモバイル端末と通信する他のモバイル端末でもよい。この実施例では、音声信号はyにより表されてもよい。

任意選択で、音声インスタントメッセージングAppを使用する適時性を改善するために、モバイル端末側のマイクロフォンは、予め設定された時間長毎に１回録音信号を収集し、ピアエンド側のマイクロフォンもまた、予め設定された時間長毎に１回音声信号を収集し、収集された音声信号をモバイル端末に送信する。予め設定された時間長は、10ミリ秒（ms）、20ms、50ms等でもよい。

この実施例では、近端からモバイル端末により収集された録音信号及びピアエンドにより送信された音声信号は、基本的に時間領域信号である。以下の計算を容易にするために、この実施例において提供される方法によれば、収集された録音信号及び受信した音声信号は、時間領域形式の録音信号を周波数領域の録音信号に変換し、時間領域形式の音声信号を周波数領域の音声信号に変換するために、フーリエ変換のような方法を使用することにより別々に更に処理される。この実施例では、周波数領域形式の録音信号は、使用されるフーリエ変換ポイントの数に等しいベクトル長を有する列ベクトルであり、Xにより表されてもよい。周波数領域形式の音声信号もまた、同様に使用されるフーリエ変換ポイントの数に等しいベクトル長を有する列ベクトルであり、Yにより表されてもよい。

任意選択で、時間領域形式の録音信号及び音声信号上でフーリエ変換を実行した後に取得された周波数領域形式の録音信号及び周波数領域形式の音声信号は、同じ次元を有する。

402.モバイル端末は、録音信号及び音声信号に従って、ループ伝達関数を計算する。

この実施例では、録音信号及び音声信号に従ってループ伝達関数を計算する場合、モバイル端末は、以下のステップ4021〜4023を実行してもよい。

4021.モバイル端末は、録音信号と音声信号との間の周波数領域の相互相関関数を計算する。

相互相関関数は、２つの信号の間の相関度を示すために使用される。録音信号と音声信号との間の周波数領域の相互相関関数を取得する場合、モバイル端末は、以下の式<1>を使用してもよく、
r_xy=E[X.*Y] <1>
ここで、r_xyは録音信号と音声信号との間の相互相関関数であり、E[.]は期待演算子であり、.*は要素毎に１つずつベクトルを乗算するために使用される。例えば、X={a₁,a₂,a₃,a₄}且つY={b₁,b₂,b₃,b₄}である場合、X.*Y={a₁b₁,a₂b₂,a₃b₃,a₄b₄}である。

4022.モバイル端末は、音声信号の周波数領域の自己相関関数を取得する。

自己相関関数は、信号と信号の遅延信号との間の相関度を示すために使用される。音声信号の周波数領域の自己相関関数を取得する場合、モバイル端末は、以下の式<2>を使用してもよく、
R_yy=E[Y(n)*Y’(n-k)] <2>
ここで、R_yyは音声信号の周波数領域の自己相関関数であり、符号*は行列乗算演算を表し、符号’は共役転置演算を表し、Y(n)は第nの時点において収集された音声信号上でフーリエ変換を実行した後に取得されたベクトルであり、Y(n-k)は第(n-k)の時点において収集された音声信号上でフーリエ変換を実行した後に取得されたベクトルであり、k=[0,K_max],k∈Zであり、すなわち、kは整数であり、システム次数はK_maxの値により決定される。

4023.ステップ4021において取得された録音信号と音声信号との間の周波数領域の相互相関関数、及びステップ4022において取得された音声信号の周波数領域の自己相関関数に基づいて、モバイル端末は、以下の式<3>を適用することによりループ伝達関数を計算してもよく、
H_loop=R_yy^-1*r_xy <3>
ここで、H_loopはループ伝達関数であり、符号^-1は行列逆演算を表す。

403.モバイル端末は、録音信号のパワースペクトル及び音声信号のパワースペクトルを取得する。

モバイル端末は、以下の式<4>を録音信号に適用することにより、録音信号のパワースペクトルを計算してもよく、
P_x=X(n).^2 <4>
ここで、P_xは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。

例えば、第nの時点において収集された録音信号がX(n)={a₁,a₂,a₃,...,a_n}であり、モバイル端末は、式P_x=X(n).^2を適用することにより、P_x={a₁ ²,a₂ ²,a₃ ²,...,a_n ²}を取得してもよい。

モバイル端末は、以下の式<5>を音声信号に適用することにより、音声信号のパワースペクトルを計算してもよく、
P_y=Y(n).^2 <5>
ここで、P_yは音声信号のパワースペクトルであり、Y(n)は第nの時点において収集された音声信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はY(n)内の各ベクトル要素の二乗を取得するために使用される。

例えば、第nの時点において収集された音声信号がY(n)={b₁,b₂,b₃,...,b_n}であり、モバイル端末は、式P_y=Y(n).^2を適用することにより、P_y={b₁ ²,b₂ ²,b₃ ²,...,b_n ²}を取得してもよい。

404.モバイル端末は、ループ伝達関数及び音声信号に従って、エコー信号の推定値を計算する。

モバイル端末は、以下の式<6>を適用することにより、ループ伝達関数及び音声信号に従ってエコー信号の推定値を計算してもよく、

ここで、E(n)はエコー信号の推定値である。

405.モバイル端末は、録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を取得する。

録音信号のパワー特性値は、録音信号のパワースペクトルを測定し、録音信号のパワースペクトルを処理することにより取得されてもよい。この実施例では、録音信号のパワー特性値は、VAD_xにより表されてもよく、VAD_xは２値状態であり、２つの状態、すなわち、true及びfalseを有する。VAD_x=trueである場合、これは、録音信号が強いことを示し、VAD_x=falseである場合、これは、録音信号が弱いことを示す。

音声信号のパワー特性値は、音声信号のパワースペクトルを測定し、音声信号のパワースペクトルを処理することにより取得されてもよい。この実施例では、音声信号のパワー特性値は、VAD_yにより表されてもよく、VAD_yは２値状態であり、２つの状態、すなわち、true及びfalseを有する。VAD_y=trueである場合、これは、音声信号が強いことを示し、VAD_y=falseである場合、これは、音声信号が弱いことを示す。

エコー信号のパワー特性値は、エコー信号のパワースペクトルを測定する。この実施例では、エコー信号のパワー特性値は、VAD_eにより表されてもよく、VAD_eは２値状態であり、２つの状態、すなわち、true及びfalseを有する。VAD_e=trueである場合、これは、エコー信号が強いことを示し、VAD_e=falseである場合、これは、エコー信号が弱いことを示す。エコー信号のパワー特性値が取得される場合、エコー信号のパワースペクトルを処理することによりエコー信号のパワー特性値を取得するために、エコー信号のパワースペクトルがエコー信号の推定値に従って事前に計算されてもよい点に留意すべきである。エコー信号のここで計算されたパワースペクトルは、エコー信号の推定パワースペクトルである。エコー信号のパワースペクトルがエコー信号のここで計算されたパワースペクトルであるか否かは、以下のステップ406を実行することにより更に決定される必要がある。

406.モバイル端末は、録音信号のパワー特性値が第１の閾値より大きいか否か、音声信号のパワー特性値が第２の閾値より大きいか否か、及びエコー信号のパワー特性値が第３の閾値より大きいか否かを決定する。そうである場合、ステップ407が実行される。

雑音信号と近端信号とを区別するために、この実施例では、信号検出及び分類モジュールと音声アクティビティ検出機構とが、録音信号のパワー特性値、エコー信号のパワー特性値及び音声信号のパワー特性値に従って、時間に基づいて近端信号（背景雑音を含む）と非近端信号とを区別し、雑音信号のパワースペクトルを取得するために使用される。具体的な決定の間に、モバイル端末は、録音信号のパワー特性値が第１の閾値より大きいか否か、音声信号のパワー特性値が第２の閾値より大きいか否か、及びエコー信号のパワー特性値が第３の閾値より大きいか否かを決定する必要がある。第１の閾値、第２の閾値及び第３の閾値は、予め設定された閾値である。この実施例では、第１の閾値はTxにより表されてもよく、第２の閾値はTyにより表されてもよく、第３の閾値はTeにより表されてもよい。第１の閾値、第２の閾値及び第３の閾値のより小さい値は、モバイル端末が雑音により敏感であることを示す。これに対して、モバイル端末は、雑音が大きいエネルギーを有する場合にのみ、雑音に反応する。

決定処理は、以下の式<7>により表されてもよい。

一般的に、マイクロフォンを使用することによりモバイル端末により収集された録音信号は、近端信号を含まなくてもよい。録音信号が近端信号を含むか否かを更に決定するために、以下の式<8>が決定のために使用されてもよい。
VAD_y=false且つVAD_e=falseである場合、VAD_v=VAD_x <8>
すなわち、モバイル端末のスピーカが音響を再生せず（すなわち、VAD_y=false）、エコー信号が検出されない場合（すなわち、VAD_e=false）、マイクロフォンにより収集された録音信号は、近端信号であり、この場合、ユーザが話し中である。そうでない場合、これは、ユーザが話し中でないことを示す。

決定処理において、録音信号のパワー特性値が第１の閾値より大きく、音声信号のパワー特性値が第２の閾値より大きく、エコー信号のパワー特性値が第３の閾値より大きいと決定された場合、以下のステップ407が実行される。録音信号のパワー特性値が第１の閾値より大きく、音声信号のパワー特性値が第２の閾値より大きく、エコー信号のパワー特性値が第３の閾値以下であると決定された場合、或いは録音信号のパワー特性値が第１の閾値より大きく、音声信号のパワー特性値が第２の閾値以下であると決定された場合、今回取得された録音信号及び音声信号は無視される。

407.モバイル端末は、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する。

録音信号のパワー特性値が第１の閾値より大きく、音声信号のパワー特性値が第２の閾値より大きく、エコー信号のパワー特性値が第３の閾値より大きい場合、モバイル端末は、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する。以下の式<9>が具体的な計算のために適用されてもよく、
P_e=E(n).^2 <9>
ここで、P_eはエコー信号のパワースペクトルである。

408.モバイル端末は、録音信号のパワー特性値が第１の閾値未満であるか否か、及びエコー信号のパワー特性値が第３の閾値未満であるか否かを決定する。そうである場合、ステップ409が実行される。

ステップ407に基づいて、モバイル端末は、雑音信号のパワースペクトルを取得するために、録音信号のパワー特性値が第１の閾値未満であるか否か、及びエコー信号のパワー特性値が第３の閾値未満であるか否かを更に決定する。

決定処理において、録音信号のパワー特性値が第１の閾値未満であり、エコー信号のパワー特性値が第３の閾値未満であると決定された場合、以下のステップ409が実行される。録音信号のパワー特性値が第１の閾値未満であり、エコー信号のパワー特性値が第３の閾値以上であると決定された場合、今回取得された録音信号及び音声信号は無視される。

409.モバイル端末は、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する。

録音信号のパワー特性値が第１の閾値未満であり、エコー信号のパワー特性値が第３の閾値未満であると決定された場合、近端信号が検出されない、すなわち、ユーザが話し中でないと考えられてもよい。この場合、モバイル端末は、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する。具体的な実現の間に、以下の式<10>を参照し、
P_n=P_x-P_e <10>
ここで、P_nは雑音信号のパワースペクトルである。

410.モバイル端末は、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する。

エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する場合、モバイル端末は、以下のステップ4101〜4102を実行してもよい。

4101.モバイル端末は、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する。

音響学の分野では、音声了解度インデックス（SII）は、複数の標準を有する。この実施例では、ASNI-S3.5における標準4が計算のために使用される。標準4では、音声了解度インデックスは、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを独立変数として使用した関数として表されてもよい。したがって、モバイル端末がエコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算した後に、音声了解度インデックスが構築されてもよい。構築される音声了解度インデックスについて、以下の式<11>を参照し、

ここで、i_maxは分割帯域の総数であり、iはimax内のいずれかの帯域であり、SIIは音声了解度インデックスであり、Pe_iは第iの帯域内のエコー信号のパワースペクトルであり、Pn_iは第iの帯域内の雑音信号のパワースペクトルであり、Pu_iは第iの帯域内の標準強度の音声のパワースペクトルであり、I_iは帯域分割重みであり、Pd_iは中間変数であり、以下の式<12>により表されてもよく、

ここで、f_kは第iの帯域内の第kの周波数を表し、C_kは中間変数であり、以下の式<13>により表されてもよく、
C_k=0.6(max{Pn_k,Pe_k-24}-10log₁₀f_k-6.353)-80 <13>
ここで、Pe_kは第kの周波数におけるエコー信号のパワースペクトルであり、Pn_kは第kの周波数における雑音信号のパワースペクトルである。

Pu_i及びI_iの具体的な値について、ANSI-S3.5における標準[4]で指定された数値を参照するか、或いは値が必要に応じて設計者により決定されてもよい点に留意すべきである。

4102.エコー信号のパワースペクトルが不変のままであるという条件で、モバイル端末は、周波数加重係数を取得するために、音声了解度インデックスの最大値を計算する。

この実施例では、周波数加重係数は、モバイル端末内の周波数加重フィルタの係数であり、モバイル端末により出力される音声信号の周波数振幅を調整するために使用される。異なる時点においてモバイル端末により計算された周波数強調係数は異なる。

ステップ401において構築された音声了解度インデックスの観測によって、音声了解度インデックスは、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを独立変数として使用した関数であり、すなわち、音声了解度インデックスは２つの変数を有することが分かる。この場合、音声了解度インデックスの最大値を計算することは困難である。したがって、この実施例において提供される方法では、近似計算が実行される。第nの時点における雑音信号のパワースペクトルが第(n-1)の時点における雑音信号のパワースペクトルとほぼ等しいことが仮定される。このように、第nの時点における周波数加重係数を計算するときに、モバイル端末は、第(n-1)の時点において計算された雑音信号のパワースペクトルを直接使用してもよい。このような処理方式では、モバイル端末は、音声了解度インデックスをエコー信号のパワースペクトルを独立変数として使用した関数に変換する。

スピーカによりユーザに再生される音声信号の音声了解度を改善するために、スピーカを使用することにより音声信号を再生する前に、モバイル端末は、音声信号を処理し、指定の周波数における音声信号の振幅を増加させ、音声信号のエネルギーを増加させるために、周波数加重フィルタを更に使用する。モバイル端末のサイズにより制限されるように、再生中のスピーカの最大音響パワーは最大値を有する。スピーカが過負荷になることを妨げるために、この実施例では、周波数加重係数が構築された音声了解度インデックスに基づいて計算される場合、エコー信号のパワースペクトルが周波数加重フィルタの増強前及び後で不変のままであることが仮定され、次に、音声了解度インデックスの最大値が計算される。このような方法は、数学的に制約条件における極値解と呼ばれる。極値解は、以下の式<14>により表されてもよく、

ここで、Pe_iは増強前の第iの周波数におけるエコー信号のパワースペクトルであり、Pe’_iは増強後の第iの周波数におけるエコー信号のパワースペクトルであり、式

はエコー信号のパワースペクトルが増強前及び後で不変のままであることを確保し、これにより、スピーカが過負荷にならないことを確保する。

信号が周波数加重フィルタにより処理された後に、電気信号が取得され、電気信号がスピーカにより音波に変換される必要がある点に留意すべきである。異なるモデルのモバイル端末のスピーカは、異なる出力周波数応答を作る。異なるモバイル端末のスピーカの出力周波数応答を取得するために、各モバイル端末のスピーカが動作中に測定され、修正され、補償される必要がある。したがって、ハードウェアフラグメンテーション問題が引き起こされる。この問題を回避するために、この実施例において提供される方法では、スピーカの周波数応答における直接の測定を省略するため、以下の方法が使用される。

式<6>の観測によって、E(n)とY(n)との間のマッピング関係が、ループ伝達関数H_loopを使用することにより確立され得ることが分かる。この実施例では、スピーカの周波数応答はH_spkとして記され、マイクロフォンの周波数応答はH_micとして記され、式<6>に従って、以下の式が取得され得る。

式<15>について、式<14>の極値解は、偏導関数解に変換されてもよい。音声了解度インデックスの変曲点は、式<15>の偏導関数を計算することにより取得されてもよい。具体的な処理について、以下の式<16>を参照し、

ここで、|W|²は周波数加重係数であり、|H_loop|²は式<3>を使用することにより取得されてもよく、Py_iは式<5>を使用することにより取得されてもよく、SIIは式<11>を使用することにより取得されてもよい。

現時点における|W|²は、式<16>を計算することにより取得されてもよい。

411.モバイル端末は、周波数加重係数に基づいて、音声信号の周波数振幅を調整する。

モバイル端末は、雑音信号のパワースペクトルP_n及びエコー信号のパワースペクトルP_eにおける変化に自動的に適合させるために、決定された周波数加重係数に基づいて、音声了解度インデックスを動的にトレースして調整する。

412.モバイル端末は、調整された音声信号を出力する。

現時点においてモバイル端末により出力される音声信号の精度を改善するために、モバイル端末は、対応する周波数加重係数及び現時点の前に出力された音声信号と組み合わせて、以下の式<17>に従って、現時点において出力される音声信号を決定し、

ここで、z(n)は出力音声信号であり、w(k)は第nの時点において計算された周波数加重係数に対応する時間領域の値であり、K_maxは周波数加重フィルタWの次数に等しく、y(n-k)は増強前の第(n-k)の時点における音声信号の値である。

このステップにおいて、モバイル端末により出力される調整された音声信号は、雑音信号を隠蔽することができる。したがって、調整された音声信号が再生される場合、ユーザは、音声信号の内容を明確に聞くことができる。

図５は、本出願の実施例による音声信号処理方法に対応する信号フローを示している。図５に示すように、取得された録音信号X及び音声信号Yに基づいて、モバイル端末は、録音信号と音声信号との間の周波数領域の相互相関関数r_xy及び音声信号の周波数領域の自己相関関数R_yyに従って、ループ伝達関数H_loop=R_yy^-1*r_xyを計算してもよい。モバイル端末は、音声信号及びループ伝達関数に従って、エコー信号の推定値E(n)=H_loop・Y(n)を計算してもよい。さらに、モバイル端末は、音声アクティビティ検出機構を使用することにより、録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算し、次に、周波数加重係数を取得するために、音声了解度インデックスの最大値を計算し、最後に、周波数加重フィルタを使用することにより、周波数加重係数に基づいて、音声信号の周波数振幅を調整し、調整された音声信号を出力する。

図６は、本出願の他の実施例による音声信号処理方法のフローチャートである。この方法は、ソフトウェアにより実現されてもよい。音声インスタントメッセージングAppが開始された場合、モバイル端末は、近端からのマイクロフォンにより収集された録音信号xと、ピアエンドにより送信された音声信号yとを定期的に取得し、録音信号のパワースペクトルP_x及び音声信号のパワースペクトルP_yを計算し、前述の式<3>に基づいて、ループ伝達関数H_loopを計算する。ループ伝達関数を決定した後に、モバイル端末は、前述の式<6>に従って、エコー信号の推定値E(n)を計算してもよい。さらに、エコー信号、近端音声信号及び雑音信号が同じマイクロフォンにより取得され、時間で重なる。したがって、前述の式<9>に従ってエコーパワースペクトルP_eを計算し、前述の式<10>に従って雑音パワースペクトルP_nを計算するために、録音信号は分類される必要がある。次に、音声了解度インデックスSIIは、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って構築され、周波数スペクトル強調係数Wは、音声了解度インデックスSIIの最大値を計算することにより取得されてもよい。最後に、増強された音声信号は、前述の式<17>に従って計算され、スピーカに出力され、再生のためにスピーカにより音響に変換される。

この方法は、音声インスタントメッセージングAppレベルにおいて実現されてもよく、或いはオペレーティングシステムレベルにおいて実現されてもよく、或いはハードウェアチップのファームウェアに内蔵されてもよい点に留意すべきである。本出願のこの実施例において提供される音声信号処理方法は、３つのレベルのそれぞれに適用可能であり、差異は、同じ音声信号処理方法が具体的に動作するモバイル端末システム内のレベルのみにある。

本開示は、一例としてモバイル端末を使用することにより記載されており、当業者は、本開示がデスクトップコンピュータのような他の端末デバイスにも適用され得ることを理解し得る点に留意すべきである。さらに、前述の音声信号は、ピアエンドから受信されてもよい。例えば、端末デバイスは、無線又は有線ネットワークを使用することにより、他の端末デバイス（すなわち、ピアエンド）から音声信号を受信する。或いは、音声信号は、端末デバイスにローカルに記憶された音声信号でもよい。その他に、前述の説明は、一例として音声インスタントメッセージングAppを使用することにより提供されており、当業者は、前述の音声インスタントメッセージングAppが他の音声再生Appと置換されてもよいことを理解し得る。

この方法は、音声了解度を改善するために使用され得るだけでなく、他の内容のオーディオ信号を改善するために使用されてもよい点に留意すべきである。例えば、呼び出し音又はアラームの警報音が異なる周辺雑音に従って自動的に増強されてもよく、これにより、増強された警報音は、より明確にユーザにより聞くことができ、周辺雑音からの干渉を克服することができる。

雑音シナリオに適用されることに加えて、この方法は、雑音のない環境に更に適用されてもよい点に留意すべきである。例えば、A及びBが近くにいて同時に通話中である。Aはaと話しており、Bはbと話している。A及びBは近いため、Aの話し声はBの傾聴と干渉し、Bの話し声もAの傾聴と干渉する。本開示において提供される方法はまた、このような音声競合シナリオにおいて使用されてもよい。このシナリオでは、A側のモバイル端末は、Bの音声を雑音信号として使用し、aの音声を増強される必要がある信号として使用する。同様に、B側のモバイル端末は、Aの音声を雑音信号として使用し、bの音声を増強される必要がある信号として使用する。

図７を参照すると、本出願の実施例は、音声信号処理装置の概略構成図を提供する。この装置は、
近端からの録音信号を収集するように構成された収集モジュール701であり、録音信号は、雑音信号及びエコー信号を少なくとも含む収集モジュール701と、
ピアエンドにより送信された音声信号を受信するように構成された受信モジュール702と、
録音信号及び音声信号に従って、ループ伝達関数を計算するように構成された第１の計算モジュール703と、
録音信号のパワースペクトルを計算するように構成された第２の計算モジュール704と、
録音信号のパワースペクトル、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算するように構成された第３の計算モジュール705と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算するように構成された第４の計算モジュール706と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整するように構成された調整モジュール707と、
調整された音声信号を出力するように構成された出力モジュール708と
を含む。

本出願の他の実施例では、第１の計算モジュール703は、録音信号と音声信号との間の周波数領域の相互相関関数を計算し、音声信号の周波数領域の自己相関関数を計算し、録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算するように構成される。

本出願の他の実施例では、第２の計算モジュール704は、以下の式を録音信号に適用することにより録音信号のパワースペクトルを計算するように構成され、
P_x=X(n).^2
ここで、P_xは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。

本出願の他の実施例では、第３の計算モジュール705は、ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算し、エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算し、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算するように構成される。

本出願の他の実施例では、この装置は、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算するように構成された第５の計算モジュールと、
録音信号のパワー特性値が第１の閾値より大きいか否か、音声信号のパワー特性値が第２の閾値より大きいか否か、及びエコー信号のパワー特性値が第３の閾値より大きいか否かを決定するように構成された第１の決定モジュールと
を更に含み、
第３の計算モジュール705は、録音信号のパワー特性値が第１の閾値より大きく、音声信号のパワー特性値が第２の閾値より大きく、エコー信号のパワー特性値が第３の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するように構成される。

本出願の他の実施例では、この装置は、
録音信号のパワー特性値が第１の閾値未満であるか否か、及びエコー信号のパワー特性値が第３の閾値未満であるか否かを決定するように構成された第２の決定モジュールを更に含み、
第３の計算モジュール705は、録音信号のパワー特性値が第１の閾値未満であり、エコー信号のパワー特性値が第３の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算するように構成される。

本出願の他の実施例では、第４の計算モジュール706は、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築し、エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得するように構成される。

結論として、本出願のこの実施例において提供される装置によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。

図８を参照すると、図８は、本出願の実施例による音声信号処理端末の概略構成図である。この端末は、前述の実施例において提供される音声信号処理方法を実現するように構成されてもよい。具体的には以下の通りである。

端末800は、無線周波数（RF）回路110、１つ以上のコンピュータ読み取り可能記憶媒体を含むメモリ120、入力ユニット130、表示ユニット140、センサ150、オーディオ回路160、ワイヤレスフィデリティ（WiFi）モジュール170、１つ以上の処理コアを含むプロセッサ180、及び電源190のような構成要素を含んでもよい。当業者は、図８に示す端末の構成が端末への限定にならず、端末が図面に示す構成要素より多くの構成要素又は少ない構成要素を含んでもよく、或いはいくつかの構成要素が組み合わされてもよく、或いは異なる構成要素の配置が使用されてもよいことを理解し得る。

RF回路110は、情報受信及び送信処理又は呼処理中に信号を受信及び送信するように構成されてもよい。特に、RF回路110は、基地局から下りリンク情報を受信し、次に処理のために下りリンク情報をプロセッサ180に送信し、関係する上りリンクデータを基地局に送信する。通常では、RF回路110は、アンテナ、少なくとも１つの増幅器、チューナ、１つ以上の発振器、加入者識別モジュール（SIM）カード、トランシーバ、カプラ、低雑音増幅器（LNA）、及びデュプレクサを含むが、これらに限定されない。さらに、RF回路110はまた、無線通信を用いてネットワーク及び他のデバイスと通信してもよい。無線通信は、グローバル・システム・フォー・モバイル・コミュニケーションズ（GSM（登録商標））、汎用パケット無線サービス（GPRS）、符号分割多元アクセス（CDMA）、広帯域符号分割多元アクセス（WCDMA（登録商標））、ロングタームエボリューション（LTE）、電子メール、ショートメッセージングサービス（SMS）等を含むが、これらに限定されないいずれかの通信標準又はプロトコルを使用してもよい。

メモリ120は、ソフトウェアプログラム及びモジュールを記憶するように構成されてもよい。プロセッサ180は、様々な機能アプリケーション及びデータ処理を実現するために、メモリ120に記憶されたソフトウェアプログラム及びモジュールを実行する。メモリ120は、プログラム記憶エリア及びデータ記憶エリアを主に含んでもよい。プログラム記憶エリアは、オペレーティングシステム、少なくとも１つの機能（音響再生機能及び画像表示機能等）により要求されるアプリケーションプログラムを記憶してもよい。データ記憶エリアは、端末800の使用に従って生成されたデータ（オーディオデータ及びアドレス帳等）を記憶してもよい。さらに、メモリ120は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリのような不揮発性メモリ、又は他の揮発性ソリッドステート記憶デバイスを含んでもよい。対応して、メモリ120は、メモリ120へのプロセッサ180及び入力ユニット130のアクセスを提供するために、メモリコントローラを更に含んでもよい。

入力ユニット130は、入力された数字又は文字情報を受信し、ユーザ設定及び機能制御に関するキーボード、マウス、ジョイスティック、光学又はトラックボールの信号入力を生成するように構成されてもよい。具体的には、入力ユニット130は、接触式面131又は他の入力デバイス132を含んでもよい。タッチスクリーン又はタッチパネルとも呼ばれ得る接触式面131は、接触式面上又はその近くのユーザのタッチ操作（指又はスタイラスのようないずれか適切な物又はアクセサリを使用することによる接触式面131上又はその近くのユーザ操作等）を収集し、予め設定されたプログラムに従って対応する接続装置を駆動してもよい。任意選択で、接触式面131は、２つの部分、すなわち、タッチ検出装置及びタッチコントローラを含んでもよい。タッチ検出装置は、ユーザのタッチ指示を検出し、タッチ操作により生成された信号を検出し、信号をタッチコントローラに伝達する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチ情報をタッチ点座標に変換し、次に、タッチ点座標をプロセッサ180に送信する。さらに、タッチコントローラは、プロセッサ180から送信されたコマンドを受信して実行することができる。さらに、接触式面131は、抵抗性、容量性、赤外線又は面音波の形式の接触式面でもよい。接触式面131に加えて、入力ユニット130は、他の入力デバイス132を更に含んでもよい。具体的には、他の入力デバイス132は、物理キーボード、機能キー（音量制御キー又はスイッチキー等）、トラックボール、マウス及びジョイスティックのうち１つ以上を含んでもよいが、これらに限定されない。

表示ユニット140は、ユーザにより入力された情報又はユーザのために提供される情報と、端末800の様々なグラフィカルユーザポートとを表示するように構成されてもよい。グラフィカルユーザポートは、図、テキスト、アイコン、ビデオ又はこれらのいずれかの組み合わせにより形成されてもよい。表示ユニット140は、表示パネル141を含んでもよい。任意選択で、表示パネル141は、液晶ディスプレイ（LCD）、有機発光ダイオード（OLED）等を使用することにより構成されてもよい。さらに、接触式面131は、表示パネル141をカバーしてもよい。接触式面131上又はその近くのタッチ操作を検出した後に、接触式面131は、タッチイベントの種類を決定するために、タッチ操作をプロセッサ180に伝達する。次に、プロセッサ180は、タッチイベントの種類に従って、表示パネル141上に対応する視覚出力を提供する。図８では、接触式面131及び表示パネル141は、入力及び出力機能を実現するために２つの別々の部分として使用されているが、いくつかの実施例では、接触式面131及び表示パネル141は、入力及び出力機能を実現するために統合されてもよい。

端末800は、光センサ、動きセンサ及び他のセンサのような少なくとも１つのセンサ150を更に含んでもよい。具体的には、光センサは、周辺光センサ及び近接センサを含んでもよい。周辺光センサは、周辺光の明るさに従って表示パネル141の輝度を調整してもよい。近接センサは、端末800が耳の近くに動かされたときに、表示パネル141及び／又はバックライトをオフに切り替えてもよい。動きセンサの１つの種類として、重力加速度センサは、様々な方向（一般的には３軸）の加速度の大きさを検出してもよく、静止しているときに重力の大きさ及び方向を検出してもよく、モバイル電話のジェスチャの適用（水平画面と垂直画面との間の切り替え、関係するゲーム、及び磁力計のジェスチャ較正等）、バイブレーション識別の関係する機能（歩数計及びノック等）を識別するように構成されてもよい。ジャイロスコープ、気圧計、湿度計、温度計及び赤外線センサのような、端末800内に構成されてもよい他のセンサは、ここでは更に説明しない。

オーディオ回路160、スピーカ161及びマイクロフォン162は、ユーザと端末800との間のオーディオインタフェースを提供してもよい。オーディオ回路160は、受信したオーディオデータから変換された受信した電気信号をスピーカ161に送信してもよい。スピーカ161は、出力のために電気信号を音響信号に変換する。他方、マイクロフォン162は、収集された音響信号を電気信号に変換する。オーディオ回路160は、電気信号を受信し、電気信号をオーディオデータに変換し、処理のためにオーディオデータをプロセッサ180に出力する。次に、プロセッサ180は、RF回路110を使用することにより、オーディオデータを、例えば他の端末に送信するか、或いは更なる処理のためにオーディオデータをメモリ120に出力する。オーディオ回路160は、周辺機器のイヤフォンと端末800との間の通信を提供するために、イヤプラグジャックを更に含んでもよい。

WiFiは、短距離無線送信技術に属する。端末800は、WiFiユニット170を使用することにより、ユーザが電子メールを受信及び送信したり、ウェブページをブラウジングしたり、ストリームメディアにアクセスしたりすること等を支援してもよく、これは、ユーザのための無線ブロードバンドインターネットアクセスを提供する。図８は、WiFiモジュール170を示しているが、WiFiモジュールは、端末800の必要な構成に属さず、本出願の本質の範囲を変更することなく、要求に従って無視されることができることが理解され得る。

プロセッサ180は、端末800の制御センタであり、様々なインタフェース及びラインを使用することにより、モバイル電話の様々な部分に接続する。メモリ120に記憶されたソフトウェアプログラム及び／又はモジュールを動作又は実行し、メモリ120に記憶されたデータを呼び出すことにより、プロセッサ180は、端末800の様々な機能及びデータ処理を実行し、これにより、モバイル電話の全体監視を実行する。任意選択で、プロセッサ180は、１つ以上の処理コアを含んでもよい。任意選択で、プロセッサ180は、アプリケーションプロセッサ及びモデムを統合してもよい。アプリケーションプロセッサは、オペレーティングシステム、ユーザインタフェース、アプリケーションプログラム等を主に処理する。モデムは、無線通信を主に処理する。前述のモデムプロセッサは、プロセッサ180に統合されなくてもよいことが理解され得る。

端末800は、電力を構成要素に供給するための電源190（バッテリ等）を更に含む。好ましくは、電源は、電源管理システムを使用することによりプロセッサ180に論理的に接続してもよく、これにより、電源管理システムを使用することにより、充電、放電及び消費電力管理のような機能を実現する。電源190は、直流又は交流電源、再充電システム、停電検出回路、電源変換器又はインバータ、電源状態インジケータ及び他の構成要素のうち１つ以上を更に含んでもよい。

図面に示されていないが、端末800は、カメラ、ブルートゥース（登録商標）モジュール等を更に含んでもよく、これらはここでは更に説明しない。具体的には、この実施例では、端末800の表示ユニットは、タッチスクリーンディスプレイであり、端末800は、メモリ及び１つ以上のプログラムを更に含む。１つ以上のプログラムは、メモリに記憶され、１つ以上のプロセッサにより実行されるように構成される。

１つ以上のプログラムは、以下の動作、すなわち、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を実行するために使用される命令を含む。

前述のものが第１の可能な実現であると仮定すると、第１の可能な実現に基づいて提供される第２の可能な実現では、録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である。

第２の可能な実現に基づいて提供される第３の可能な実現では、調整された音声信号を出力する動作は、端末デバイスのスピーカを使用することにより、調整された音声信号を再生する動作を含む。音声信号は、ネットワークを使用することにより端末デバイスにより受信された音声信号、又はローカルに記憶され、スピーカを使用することにより再生される音声信号である。

第３の可能な実現に基づいて提供される第４の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。

録音信号及び音声信号に従って、ループ伝達関数を計算する動作は、
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。

或いは、端末のメモリは、以下の動作、すなわち、
以下の式を録音信号に適用することにより録音信号のパワースペクトルを計算し、
P_x=X(n).^2
ここで、P_xは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される動作を含む、
録音信号のパワースペクトルを計算する動作を実行するための命令を更に含む。

第３の可能な実現に基づいて提供される第５の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。

録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作は、
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。

第５の可能な実現に基づいて提供される第６の可能な実現では、端末のメモリは、以下の動作、すなわち、
エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する前に、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第１の閾値より大きいか否か、音声信号のパワー特性値が第２の閾値より大きいか否か、及びエコー信号のパワー特性値が第３の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第１の閾値より大きく、音声信号のパワー特性値が第２の閾値より大きく、エコー信号のパワー特性値が第３の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するステップを実行する動作と
を実行するための命令を更に含む。

第６の可能な実現に基づいて提供される第７の可能な実現では、端末のメモリは、以下の動作、すなわち、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する前に、
録音信号のパワー特性値が第１の閾値未満であるか否か、及びエコー信号のパワー特性値が第３の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第１の閾値未満であり、エコー信号のパワー特性値が第３の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を実行するための命令を更に含む。

第３の可能な実現に基づいて提供される第８の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。

エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作は、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。

本出願のこの実施例において提供される端末によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。

本出願の実施例は、コンピュータ読み取り可能記憶媒体を更に提供する。コンピュータ読み取り可能媒体は、前述の実施例におけるメモリに含まれるコンピュータ読み取り可能記憶媒体でもよく、或いは単独で存在して端末に組み立てられていないコンピュータ読み取り可能記憶媒体でもよい。コンピュータ読み取り可能記憶媒体は、１つ以上のプログラムを含む。１つ以上のプログラムは、音声信号処理方法を実行するために、１つ以上のプロセッサにより実行される。この方法は、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を含む。

第２の可能な実現に基づいて提供される第３の可能な実現では、調整された音声信号を出力する動作は、スピーカを使用することにより、調整された音声信号を再生する動作を含む。音声信号は、ネットワークを使用することにより端末デバイスにより受信された音声信号、又はローカルに記憶され、スピーカを使用することにより再生される音声信号である。

本出願のこの実施例において提供されるコンピュータ読み取り可能記憶媒体によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。

本出願の実施例は、グラフィックユーザインタフェースを提供する。グラフィックユーザインタフェースは、音声信号処理端末上で使用され、音声信号処理端末は、タッチディスプレイと、メモリと、１つ以上のプログラムを実行するように構成された１つ以上のプロセッサとを含み、グラフィカルユーザインタフェースは、
録音信号及び音声信号を取得し、録音信号は、雑音信号及びエコー信号を少なくとも含み、
録音信号及び音声信号に従って、ループ伝達関数を計算し、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算し、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算し、
周波数加重係数に基づいて、音声信号の周波数振幅を調整し、
調整された音声信号を出力すること
を含む。

本出願のこの実施例において提供されるグラフィックユーザインタフェースによれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。

前述の実施例において提供される音声信号処理装置の音声信号処理は、一例として前述の機能モジュールの分割のみを使用することにより記載されている点に留意すべきである。実際の適用では、前述の機能は、必要に応じて異なる機能モジュールに割り当てられて完結されてもよく、すなわち、音声信号処理装置の内部構成は、前述の機能の全部又は一部を完結させるために、異なる機能モジュールに分割される。さらに、前述の実施例において提供される音声信号処理装置は、音声信号処理方法と同じ概念に基づく。その具体的な実現処理について、方法の実施例を参照し、詳細はここでは再び説明しない。

当業者は、前述の実施例のステップの一部又は全部がハードウェアを使用することにより実現されてもよく、或いは関係するハードウェアに命令するプログラムにより実現されてもよいことを理解し得る。プログラムは、コンピュータ読み取り可能記憶媒体に記憶されてもよい。記憶媒体は、読み取り専用メモリ、磁気ディスク、光ディスク等でもよい。

前述の説明は、本出願の単に好ましい実施例であり、本開示を限定することを意図するものではない。本開示の要旨及び原理内で行われる如何なる変更、等価置換又は改良も、本開示の保護範囲内に入るものとする。

Claims

録音信号及び出力対象の音声信号を取得する動作であり、前記録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作と、
前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作と、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作と、
前記周波数加重係数に基づいて、前記音声信号の周波数振幅を調整する動作と、
前記調整された音声信号を出力する動作と
を含み、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作は、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、音声了解度インデックスを構築する動作と、
前記エコー信号の前記パワースペクトルが不変のままであるという条件で、前記音声了解度インデックスの最大値に従って、前記周波数加重係数を取得する動作と
を含む音声信号処理方法。
前記録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である、請求項１に記載の方法。
前記調整された音声信号を出力する動作は、端末デバイスのスピーカを使用することにより、前記調整された音声信号を再生する動作を含み、前記音声信号は、前記スピーカを介して再生される信号であり、ネットワークを使用することにより前記端末デバイスにより受信された信号、又は前記端末デバイスにローカルに記憶された信号である、請求項１に記載の方法。
前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作は、
前記録音信号と前記音声信号との間の周波数領域の相互相関関数を計算する動作と、
前記音声信号の周波数領域の自己相関関数を計算する動作と、
前記録音信号と前記音声信号との間の前記周波数領域の相互相関関数及び前記音声信号の前記周波数領域の自己相関関数に従って、前記ループ伝達関数を計算する動作と
を含む、請求項３に記載の方法。
前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作は、
前記録音信号のパワースペクトルを計算する動作と、
前記ループ伝達関数及び前記音声信号に従って、前記エコー信号の推定スペクトル値を計算する動作と、
前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作と、
前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作と
を含む、請求項３に記載の方法。
前記録音信号のパワー特性値、前記音声信号のパワー特性値及び前記エコー信号のパワー特性値を計算する動作と、
前記録音信号の前記パワー特性値が第１の閾値より大きいか否か、前記音声信号の前記パワー特性値が第２の閾値より大きいか否か、及び前記エコー信号の前記パワー特性値が第３の閾値より大きいか否かを決定する動作と、
を更に含み、
前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作は、
前記録音信号の前記パワー特性値が前記第１の閾値より大きく、前記音声信号の前記パワー特性値が前記第２の閾値より大きく、前記エコー信号の前記パワー特性値が前記第３の閾値より大きい場合、前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算するステップを実行する動作を含む、請求項５に記載の方法。
前記録音信号の前記パワー特性値が前記第１の閾値未満であるか否か、及び前記エコー信号の前記パワー特性値が前記第３の閾値未満であるか否かを決定する動作を更に含み、
前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作は、
前記録音信号の前記パワー特性値が前記第１の閾値未満であり、前記エコー信号の前記パワー特性値が前記第３の閾値未満である場合、前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作を含む、請求項６に記載の方法。
端末デバイスは、周波数加重フィルタ及びマイクロフォンを含み、前記周波数加重係数は、前記音声信号が前記周波数加重フィルタ及びスピーカを通過した後に前記マイクロフォンにより検出される前記音声信号の比を示す、請求項１に記載の方法。
少なくとも１つのプロセッサと、プログラム命令を記憶するメモリとを含む音声信号処理装置であって、
前記プログラム命令は、前記少なくとも１つのプロセッサにより実行された場合、前記装置に対して、以下の動作、すなわち、
録音信号及び出力対象の音声信号を取得する動作であり、前記録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作と、
前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作と、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作と、
前記周波数加重係数に基づいて、前記音声信号の周波数振幅を調整する動作と、
前記調整された音声信号を出力する動作と
を実行させ、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作は、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、音声了解度インデックスを構築する動作と、
前記エコー信号の前記パワースペクトルが不変のままであるという条件で、前記音声了解度インデックスの最大値に従って、前記周波数加重係数を取得する動作と
を含む音声信号処理装置。
前記録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である、請求項９に記載の装置。
前記調整された音声信号を出力する動作は、スピーカを使用することにより、前記調整された音声信号を再生する動作を含み、前記音声信号は、前記スピーカを介して再生される信号であり、ネットワークを使用することにより端末デバイスにより受信された信号、又は前記端末デバイスにローカルに記憶された信号である、請求項９に記載の装置。
前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作は、
前記録音信号と前記音声信号との間の周波数領域の相互相関関数を計算する動作と、
前記音声信号の周波数領域の自己相関関数を計算する動作と、
前記録音信号と前記音声信号との間の前記周波数領域の相互相関関数及び前記音声信号の前記周波数領域の自己相関関数に従って、前記ループ伝達関数を計算する動作と
を含む、請求項１１に記載の装置。
前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作は、
前記録音信号のパワースペクトルを計算する動作と、
前記ループ伝達関数及び前記音声信号に従って、前記エコー信号の推定スペクトル値を計算する動作と、
前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作と、
前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作と
を含む、請求項１１に記載の装置。
前記録音信号のパワー特性値、前記音声信号のパワー特性値及び前記エコー信号のパワー特性値を計算し、
前記録音信号の前記パワー特性値が第１の閾値より大きいか否か、前記音声信号の前記パワー特性値が第２の閾値より大きいか否か、及び前記エコー信号の前記パワー特性値が第３の閾値より大きいか否かを決定し、
前記録音信号の前記パワー特性値が前記第１の閾値より大きく、前記音声信号の前記パワー特性値が前記第２の閾値より大きく、前記エコー信号の前記パワー特性値が前記第３の閾値より大きい場合、前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の推定スペクトル値の二乗を計算するステップを実行するように更に構成される、請求項１１に記載の装置。
前記録音信号のパワー特性値が第１の閾値未満であるか否か、及び前記エコー信号の前記パワー特性値が第３の閾値未満であるか否かを決定し、
前記録音信号の前記パワー特性値が前記第１の閾値未満であり、前記エコー信号の前記パワー特性値が前記第３の閾値未満である場合、前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算するように更に構成される、請求項１１に記載の装置。
コンピューティングデバイスの処理により実行された場合、前記デバイスに対して請求項１乃至８のうちいずれか１項に記載の方法を実行させるプログラム命令を記憶したコンピュータ読み取り可能記憶媒体。