JP6505252B2 - 音声信号を処理するための方法及び装置 - Google Patents

音声信号を処理するための方法及び装置 Download PDF

Info

Publication number
JP6505252B2
JP6505252B2 JP2017553962A JP2017553962A JP6505252B2 JP 6505252 B2 JP6505252 B2 JP 6505252B2 JP 2017553962 A JP2017553962 A JP 2017553962A JP 2017553962 A JP2017553962 A JP 2017553962A JP 6505252 B2 JP6505252 B2 JP 6505252B2
Authority
JP
Japan
Prior art keywords
signal
power spectrum
audio signal
echo
characteristic value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017553962A
Other languages
English (en)
Other versions
JP2018517167A (ja
Inventor
ユアン,ハオレイ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2018517167A publication Critical patent/JP2018517167A/ja
Application granted granted Critical
Publication of JP6505252B2 publication Critical patent/JP6505252B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback

Description

[関連出願への相互参照]
本出願は、2015年11月4日に中国国家知識産権局に出願された「METHOD AND APPARATUS FOR PROCESSING VOICE SIGNAL」という名称の中国特許出願第201510741057.1号の優先権を主張し、この全内容を参照により援用する。
[技術分野]
本開示は、端末技術の分野に関し、特に音声信号処理方法及び装置に関する。
音声了解度は、ユーザが音響システムから伝達された音声信号を理解する割合を意味する。例えば、音響システムが100個の単語を伝達したことをユーザが聞いたが、50個の単語のみを理解した場合、システムの音声了解度は50%である。ポータブルモバイル端末が次第に小型化されているため、モバイル端末により出力されることができる最大音響パワーは次第に減少している。したがって、モバイル端末を使用したユーザの通信中の音声了解度が影響を受ける。音声了解度は、モバイル端末の性能を測定する際の重要な指標である。したがって、音声了解度を改善するためにモバイル端末がどのように音声信号を処理するかは、モバイル端末の開発にとって鍵となっている。
現在、モバイル端末とユーザと雑音源とを含む典型的な音響学適用シナリオでは、対象音声信号(to-be-speech signal)が自動利得制御アルゴリズムを使用することにより検出され、対象音声信号内の小さい信号が増幅され、増幅された信号が電気信号に変換され、電気信号がスピーカに伝達される。増幅された後に、スピーカに伝達される電気信号は、スピーカにより許容される最大値に到達する。スピーカが最大出力パワーに基づいて動作すると、スピーカは、最大出力音圧レベルで音声信号を出力する。
本開示の実現過程において、発明者は、関係する技術が少なくとも以下の問題を有することを見出した。
通常では、音声信号の平均波動振幅は、ピーク波動振幅よりかなり小さい。通常の音声信号による励起中に、最大定格出力が1ワットであるスピーカは、通常通り動作する場合、一般的には最大定格出力の約10%(すなわち、0.1W)のみである平均出力パワーを有する。通常動作状態では、スピーカに入力される電気信号の振幅が更に増加した場合、音声信号内の大きい振幅を有する信号部は、スピーカを過負荷にさせ、飽和歪みを生じ、音声了解度及び明瞭度を減少させる。さらに、音声信号内の小さい信号のみが増幅された場合、音声信号の有効ダイナミックレンジが狭くなる。したがって、音声了解度もあまり改善することができない。
関係する技術における問題を解決するために、本出願の実施例は、音声信号処理方法及び装置を提供する。技術的解決策は以下の通りである。
一態様によれば、音声信号処理方法が提供され、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を含む。
他の態様によれば、音声信号処理装置が提供され、
少なくとも1つのプロセッサと、
プログラム命令を記憶するメモリと
を含み、プロセッサにより実行された場合、命令は、以下の動作、すなわち、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を実行するように装置に命令する。
本出願の実施例において提供される技術的解決策は、以下のような有利な効果をもたらす。
音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。
本出願の実施例の技術的解決策をより明確に説明するために、実施例を示す添付図面について以下に簡単に説明する。明らかに、以下の説明における図面は、本出願の単にいくつかの実施例に過ぎず、当業者は、創造的取り組みなしにこれらの添付図面に基づいて他の図面を導出し得る。
本出願の実施例による音声信号処理方法の実現環境の概略図である。 本出願の他の実施例による音声信号処理方法のシステムアーキテクチャの図である。 本出願の他の実施例による音声信号処理方法のフローチャートである。 本出願の他の実施例による音声信号処理方法のフローチャートである。 本出願の他の実施例による音声信号処理方法の信号フローの概略図である。 本出願の他の実施例による音声信号処理方法のフローチャートである。 本出願の他の実施例による音声信号処理装置の概略構成図である。 本出願の他の実施例による音声信号処理端末の概略構成図である。
本開示の目的、技術的解決策及び利点をより明確にするために、以下に、添付図面を参照して本出願の実施例について更に詳細に説明する。明らかに、説明する実施例は、本出願の全ての実施例ではなく、いくつかの実施例のみである。創造的取り組みなしに本出願の実施例に基づいて当業者により得られる他の全ての実施例は、本開示の保護範囲内に入るものとする。
音声インスタントメッセージングアプリケーション(App)は、ボイス・オーバー・インターネット・プロトコル呼又はネットワーク音声会議を行うために使用されることができるアプリケーションであり、スマートフォン、タブレットコンピュータ、ノートブックコンピュータ及びウェアラブル電子製品のようなモバイル端末デバイスに広くインストールされている。モバイル端末が次第に小型化されているため、モバイル端末デバイス内のマイクロスピーカにより出力されることができる最大音響パワーはボトルネックに直面している。
モバイル端末デバイスにより出力される最大音響パワーがボトルネックに直面している主な理由は、以下の2つの側面を含む。
第1の側面では、既存の電気音響学の増幅技術に従って、音波は、主に3つの部分、すなわち、パワー増幅器、スピーカ及びスピーカボックスに依存して生成される。モバイル端末デバイス内のスピーカは、スピーカ及びスピーカボックスの物理サイズが音波の波長に正比例する場合にのみ、できるだけ効率的に電気−音響変換を実現することができる。しかし、ポータブルモバイル端末が次第に小型化されているため、モバイル端末のサイズは、通常では音波の波長よりかなり小さい。波長が340Hzの音波を一例として使用すると、できるだけ効率的に音響−電気変換を実現するために、モバイル端末のサイズは、少なくとも1メートルである必要がある。したがって、スピーカの小型化は、モバイル端末により出力される最大音響パワーを減少させる。さらに、現在一般的に使用されている可動コイルスピーカは、振動板が十分な移動空間を有することを確保するために、或る程度の厚さを有する必要がある。しかし、モバイル端末が次第に小型化されてより薄くなっているため、モバイル端末内の一体化した音響学設計は、物理サイズにより制限される。その結果、モバイル端末により出力される最大音響パワーは制限される。
第2の側面では、モバイル端末にインストールされた音声インスタントメッセージングAppは、一般的にはオペレーティングシステム内で動作し、ハードウェア音量制御は、オペレーティングシステムにより提供されるアプリケーションプログラミングインタフェース(API)を使用することにより実現される必要がある。オーディオ入力及び出力に関して、現在、主流の実現方法は以下の通りである。音声インスタントメッセージングAppは、オーディオ設定モードが必要であることをオペレーティングシステムに通知する。オペレーティングシステムは、関係するハードウェアを設定する。設定が完了した後で、音声インスタントメッセージングAppは、音声信号に対応するデータをオペレーティングシステムの録音APIに定期的に書き込み、次に、オペレーティングシステムの録音APIからのデータを読み取りさえすればよい。しかし、オペレーティングシステムによりサポートされるオーディオ設定モードの種類は限られている。限られたオーディオ設定モードは、モバイル端末製造者によりハードウェア下位層(ファームウェア)において実現される。Appのハードウェア音量制御は、このような要因により制限される。さらに、通常では、ハードウェアベンダは、通常の使用シナリオのみについて下位層のオーディオ最適化を実行し、モバイル端末製造者は、一般的に極度の環境(例えば、大きい周辺雑音が存在する)における使用シナリオについて目標の最適化を実行しない(例えば、モバイル端末製造者は、一般的にハードウェア出力音量を増加させ得る専用ソフトウェアインタフェースを提供しない)。
出力音量の降順に配置すると、一般的なモバイル端末は、ノートブックコンピュータ、タブレットコンピュータ、スマートフォン(ハンドフリーモード)、ウェアラブルデバイス等である。しかし、モバイル端末を使用した通信中に、モバイル端末により受信される周辺雑音の問題は、反対に変化する。通常では、ノートブックコンピュータは、しばしば室内で使用され、ノートブックコンピュータにより受信される雑音は、主に室内の低デシベルの小さい雑音である。タブレットコンピュータ及びスマートフォンは、しばしば公共空間のような室外で使用され、タブレットコンピュータ及びスマートフォンにより受信される雑音は、主に高デシベルの大きい雑音である。ウェアラブルデバイスは、人体に長く装着され、ほとんど雑音のシナリオで使用され、ウェアラブルデバイスにより受信される雑音は最も複雑である。モバイル端末が次第に小型化されているため、モバイル端末により受信される周辺雑音の問題は、より明白であり、これは、モバイル端末を使用した通信中にユーザ体験にかなり影響を与える。
モバイル端末により出力される最大音響パワーがボトルネックに直面しているという問題を解決するため、本出願の実施例は、モバイル端末のハードウェアを変更しないが、音声信号を処理することにより、モバイル端末の音声了解度が改善される方法を提供する。本出願の実施例において提供される方法によれば、騒々しいシナリオであっても、モバイル端末ユーザは、通話中にピアエンドの音声内容を依然として明確に聞くことができる。
図1は、本出願の実施例による音声信号処理方法及び装置の実現環境の概略図である。図1を参照すると、実現環境は、3つの音響学エンティティ、すなわち、モバイル端末P、ユーザU及び雑音源Nを含み、音響出力及び入力デバイス、すなわち、スピーカS及びマイクロフォンMを含む。モバイル端末Pは、1つ以上の音声インスタントメッセージングAppがインストールされたモバイル電話、タブレットコンピュータ、ノートブックコンピュータ、ウェアラブルデバイス等でもよい。音声インスタントメッセージングAppに基づいて、ユーザは、いつでもどこでも他のユーザと通信してもよい。スピーカS及びマイクロフォンMは、モバイル端末に内蔵されてもよく、或いは外部音響ボックス、外部スピーカ、ブルートゥーススピーカ又はブルートゥースヘッドセットのように、外部デバイスとしてモバイル端末に接続されてもよい。マイクロフォンMは、雑音源Nにより放たれる雑音と、ユーザUの話し声と、スピーカSにより再生される音響とを含む全体のシナリオにおいて、音響を取得してもよい。ユーザが音声インスタントメッセージングソフトウェアを使用することによりピアエンドのユーザと通信する場合、モバイル端末は、ピアエンドにより送信された再生対象音声信号(これは、以下では区別のために簡単に音声信号と呼ばれる)を受信する。処理された後に、音声信号は、スピーカにより音波に変換され、空気でユーザUに伝達され、ユーザUにより検知される。同時に、雑音源Nにより放たれた音波は、ユーザUに伝達され、同様にユーザUにより検知される。雑音源Nにより放たれた音波は、ユーザUと干渉し、モバイル端末の音声了解度を低下させる。
音響学の分野では、心理音響学マスキング効果の原理に従って、周波数では近いが振幅ではかなり異なる2つの信号が同時に出現した場合、より大きい振幅を有する信号は、より小さい信号を有する信号を隠蔽する。すなわち、雑音源Nにより放たれた雑音が強い場合、ユーザUは、スピーカSにより再生された音声内容を明確に聞くことができない。この場合、スピーカSの出力パワーを増加させるために、スピーカSは、より大きい物理サイズを有する必要があり、これは、モバイル端末の小型化、軽量化及び薄型化の設計と矛盾する。これを鑑みて、本開示では、雑音信号により音声信号にもたらされる干渉の問題は、心理音響学マスキング効果を使用することにより解決される。
通常では、音声信号及び雑音信号は、単一周波数の信号ではなく、これらは、それぞれ異なる帯域範囲を占有し、周波数におけるこれらのエネルギー分布は均一ではない。雑音信号でエネルギーが最も弱いf_weakとして記される周波数は、音声信号及び雑音信号のパワースペクトルを比較することにより見つけられてもよい。この実施例では、スピーカの出力パワーを超えないという条件で、音声信号は、f_weakの近くに集中したエネルギーで再生され、さらに、スピーカが過負荷になることを妨げるために、周波数f_weakから離れた音声信号のエネルギーは減衰する。このような処理方式では、f_weakの近くの周波数では、雑音信号は、音声信号により隠蔽され、音声信号の内容はユーザにより検知される。f_weakから離れた周波数では、音声信号は、雑音信号により依然として隠蔽される。結論として、増強された音声信号は、いくつかの周波数において雑音信号を隠蔽し、これにより、雑音は全体の音声信号を隠蔽せず、この場合、ユーザは音声信号の内容を明確に聞くことができる。
図2は、本出願による音声信号処理方法のシステムアーキテクチャの図である。図2を参照すると、システムアーキテクチャは、ユーザUと、スピーカSと、マイクロフォンMと、様々な機能モジュールとを含む。機能モジュールは、信号検出及び分類モジュール、スペクトル推定モジュール、ループ伝達関数計算モジュール、音声了解度推定モジュール等を含む。スペクトル推定モジュールは、音声アクティビティ検出モジュールと、雑音パワースペクトルモジュールと、エコーパワースペクトルモジュールとを具体的に含んでもよい。システム内のモジュールの機能及びモジュール間の関係は以下の通りである。
マイクロフォンMは、この実施例では録音信号(xとして記される)と呼ばれる周辺音響を取得し、録音信号xを信号検出及び分類モジュールに送信するように構成される。
信号検出及び分類モジュールは、録音信号を検出及び分類し、3種類の信号、すなわち、ユーザUが話したときの音声信号(近端信号vとして記される)、雑音源Nにより放たれた雑音信号(雑音信号nとして記される)、及びスピーカSが音響を再生しているときにマイクロフォンMにより録音された信号(エコー信号eとして記される)を出力するように構成される。
スペクトル推定モジュールは、雑音信号のパワースペクトル、エコー信号のパワースペクトル及び近端信号のパワー特性値を計算するように構成される。雑音信号のパワースペクトルは、Pnにより表されてもよく、エコー信号のパワースペクトルは、Peにより表されてもよく、近端信号のパワー特性値は、VAD_vにより表されてもよい。VAD_vは、2つの状態、すなわち、true及びfalseを有する。VAD_v=trueである場合、これは、現時点において近端信号が存在し、すなわち、ユーザUが話し中であることを示す。VAD_v=falseである場合、これは、現時点において近端信号が存在せず、すなわち、ユーザUが話し中でないか、或いは雑音信号又はエコー信号がユーザUの話し声より明らかに大きいことを示す。
ループ伝達関数計算モジュールは、音声信号y及びマイクロフォンにより検出された録音信号xに従って、経路「周波数加重フィルタ--スピーカ--音場--マイクロフォン」上での、H_loopとして記されるループ伝達関数を計算するように構成される。
音声了解度推定モジュールは、H_loop、VAD_v、Pn及びPeに従って、音声了解度インデックス(「SII」として知られる)を決定するように構成され、周波数加重フィルタWの周波数加重係数を計算するように更に構成される。
図2を参照すると、ユーザ、モバイル端末及び雑音源の具体的な空間位置は、実際の適用中に決定されることができず、音声信号及び録音信号は、マイクロフォンMの位置ではなく、ユーザUの耳の位置でSIIを最大化するように処理される。問題を解決するために、この実施例において提供される方法では、近似処理が適用される。以下の説明を容易にするために、本出願のこの実施例では、スピーカSとユーザUの耳との間の音響伝達経路の長さはh1により表され、雑音源Nとユーザの耳との間の音響伝達経路の長さはh2により表され、雑音源NとマイクロフォンMとの間の音響伝達経路の長さはh3により表され、ユーザUの口とマイクロフォンMとの間の音響伝達経路の長さはh4により表され、マイクロフォンMとスピーカSとの間の音響伝達経路の長さはh5により表される。本出願のこの実施例において使用される近似は以下の通りである。
(1)マイクロフォンにより取得される雑音は、ユーザにより検知される雑音とほぼ同じであること、すなわち、h2≒h3が仮定される。
(2)スピーカから生じてマイクロフォンにより取得されるエコーは、スピーカにより再生されてユーザにより検知される音響とほぼ同じであること、すなわち、h1≒h5が仮定される。
前述の近似条件が満たされるという条件で、ユーザUの位置において最大音声了解度を計算する問題は、マイクロフォンMの位置において最大音声了解度を計算する問題に変換され得る。
前述の全ての選択可能な技術的解決策は、本開示の選択可能な実施例を形成するようにいずれかの方式で組み合わされてもよい。ここでは詳細は1つずつ更に説明しない。
図3は、本出願の実施例による音声信号処理方法のフローチャートである。図3を参照すると、この実施例において提供される方法は以下のステップを含む。
301.録音信号及び音声信号を取得し、例えば、近端からの録音信号を収集し、ピアエンドにより送信された音声信号(すなわち、音声信号)を受信する。録音信号は、雑音信号及びエコー信号を少なくとも含む。
302.録音信号及び音声信号に従って、ループ伝達関数を計算する。
303.録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する。
304.エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する。
305.周波数加重係数に基づいて、音声信号の周波数振幅を調整する。
306.調整された音声信号を出力する。
本出願のこの実施例において提供される方法によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。
本出願の他の実施例では、録音信号及び音声信号に従って、ループ伝達関数を計算する動作は、
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。
本出願の他の実施例では、録音信号のパワースペクトルは、以下の式を録音信号に適用することにより計算され、
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。
本出願の他の実施例では、録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作は、
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。
本出願の他の実施例では、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する前に、この方法は、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算するステップを実行する動作と
を更に含む。
本出願の他の実施例では、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する前に、この方法は、
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を更に含む。
本出願の他の実施例では、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作は、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。
図4は、本出願の他の実施例による音声信号処理方法のフローチャートである。図4を参照すると、この実施例において提供される方法は以下のステップを含む。
401.モバイル端末は、近端から録音信号を収集し、ピアエンドにより送信された音声信号を受信する。
近端は、モバイル端末が現在位置する環境である。モバイル端末により近端から録音信号を収集する方式は、マイクロフォンを開始し、マイクロフォンを使用することにより現在の環境における音響信号を収集し、マイクロフォンにより収集された音響信号を録音信号として使用することを含むが、これに限定されない。録音信号は、雑音信号、エコー信号、近端信号等を含む。この実施例では、録音信号はxにより表されてもよく、雑音信号はnにより表されてもよく、エコー信号はeにより表されてもよく、近端信号はvにより表されてもよい。
ピアエンドは、マイクロフォンを使用することにより、ピアエンドのユーザの音声信号を収集し、収集された音声信号を処理した後に、ネットワークを使用することにより、収集された音声信号をモバイル端末に送信する。モバイル端末上のインスタントメッセージングAppは、ピアエンドにより送信された音声信号を受信し、ピアエンドにより送信された音声信号を音声信号として使用する。ピアエンドは、インスタントメッセージングAppを使用することによりモバイル端末と通信する他のモバイル端末でもよい。この実施例では、音声信号はyにより表されてもよい。
任意選択で、音声インスタントメッセージングAppを使用する適時性を改善するために、モバイル端末側のマイクロフォンは、予め設定された時間長毎に1回録音信号を収集し、ピアエンド側のマイクロフォンもまた、予め設定された時間長毎に1回音声信号を収集し、収集された音声信号をモバイル端末に送信する。予め設定された時間長は、10ミリ秒(ms)、20ms、50ms等でもよい。
この実施例では、近端からモバイル端末により収集された録音信号及びピアエンドにより送信された音声信号は、基本的に時間領域信号である。以下の計算を容易にするために、この実施例において提供される方法によれば、収集された録音信号及び受信した音声信号は、時間領域形式の録音信号を周波数領域の録音信号に変換し、時間領域形式の音声信号を周波数領域の音声信号に変換するために、フーリエ変換のような方法を使用することにより別々に更に処理される。この実施例では、周波数領域形式の録音信号は、使用されるフーリエ変換ポイントの数に等しいベクトル長を有する列ベクトルであり、Xにより表されてもよい。周波数領域形式の音声信号もまた、同様に使用されるフーリエ変換ポイントの数に等しいベクトル長を有する列ベクトルであり、Yにより表されてもよい。
任意選択で、時間領域形式の録音信号及び音声信号上でフーリエ変換を実行した後に取得された周波数領域形式の録音信号及び周波数領域形式の音声信号は、同じ次元を有する。
402.モバイル端末は、録音信号及び音声信号に従って、ループ伝達関数を計算する。
この実施例では、録音信号及び音声信号に従ってループ伝達関数を計算する場合、モバイル端末は、以下のステップ4021〜4023を実行してもよい。
4021.モバイル端末は、録音信号と音声信号との間の周波数領域の相互相関関数を計算する。
相互相関関数は、2つの信号の間の相関度を示すために使用される。録音信号と音声信号との間の周波数領域の相互相関関数を取得する場合、モバイル端末は、以下の式<1>を使用してもよく、
r_xy=E[X.*Y] <1>
ここで、r_xyは録音信号と音声信号との間の相互相関関数であり、E[.]は期待演算子であり、.*は要素毎に1つずつベクトルを乗算するために使用される。例えば、X={a1,a2,a3,a4}且つY={b1,b2,b3,b4}である場合、X.*Y={a1b1,a2b2,a3b3,a4b4}である。
4022.モバイル端末は、音声信号の周波数領域の自己相関関数を取得する。
自己相関関数は、信号と信号の遅延信号との間の相関度を示すために使用される。音声信号の周波数領域の自己相関関数を取得する場合、モバイル端末は、以下の式<2>を使用してもよく、
R_yy=E[Y(n)*Y’(n-k)] <2>
ここで、R_yyは音声信号の周波数領域の自己相関関数であり、符号*は行列乗算演算を表し、符号’は共役転置演算を表し、Y(n)は第nの時点において収集された音声信号上でフーリエ変換を実行した後に取得されたベクトルであり、Y(n-k)は第(n-k)の時点において収集された音声信号上でフーリエ変換を実行した後に取得されたベクトルであり、k=[0,Kmax],k∈Zであり、すなわち、kは整数であり、システム次数はKmaxの値により決定される。
4023.ステップ4021において取得された録音信号と音声信号との間の周波数領域の相互相関関数、及びステップ4022において取得された音声信号の周波数領域の自己相関関数に基づいて、モバイル端末は、以下の式<3>を適用することによりループ伝達関数を計算してもよく、
H_loop=R_yy^-1*r_xy <3>
ここで、H_loopはループ伝達関数であり、符号^-1は行列逆演算を表す。
403.モバイル端末は、録音信号のパワースペクトル及び音声信号のパワースペクトルを取得する。
モバイル端末は、以下の式<4>を録音信号に適用することにより、録音信号のパワースペクトルを計算してもよく、
Px=X(n).^2 <4>
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。
例えば、第nの時点において収集された録音信号がX(n)={a1,a2,a3,...,an}であり、モバイル端末は、式Px=X(n).^2を適用することにより、Px={a1 2,a2 2,a3 2,...,an 2}を取得してもよい。
モバイル端末は、以下の式<5>を音声信号に適用することにより、音声信号のパワースペクトルを計算してもよく、
Py=Y(n).^2 <5>
ここで、Pyは音声信号のパワースペクトルであり、Y(n)は第nの時点において収集された音声信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はY(n)内の各ベクトル要素の二乗を取得するために使用される。
例えば、第nの時点において収集された音声信号がY(n)={b1,b2,b3,...,bn}であり、モバイル端末は、式Py=Y(n).^2を適用することにより、Py={b1 2,b2 2,b3 2,...,bn 2}を取得してもよい。
404.モバイル端末は、ループ伝達関数及び音声信号に従って、エコー信号の推定値を計算する。
モバイル端末は、以下の式<6>を適用することにより、ループ伝達関数及び音声信号に従ってエコー信号の推定値を計算してもよく、
Figure 0006505252
ここで、E(n)はエコー信号の推定値である。
405.モバイル端末は、録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を取得する。
録音信号のパワー特性値は、録音信号のパワースペクトルを測定し、録音信号のパワースペクトルを処理することにより取得されてもよい。この実施例では、録音信号のパワー特性値は、VAD_xにより表されてもよく、VAD_xは2値状態であり、2つの状態、すなわち、true及びfalseを有する。VAD_x=trueである場合、これは、録音信号が強いことを示し、VAD_x=falseである場合、これは、録音信号が弱いことを示す。
音声信号のパワー特性値は、音声信号のパワースペクトルを測定し、音声信号のパワースペクトルを処理することにより取得されてもよい。この実施例では、音声信号のパワー特性値は、VAD_yにより表されてもよく、VAD_yは2値状態であり、2つの状態、すなわち、true及びfalseを有する。VAD_y=trueである場合、これは、音声信号が強いことを示し、VAD_y=falseである場合、これは、音声信号が弱いことを示す。
エコー信号のパワー特性値は、エコー信号のパワースペクトルを測定する。この実施例では、エコー信号のパワー特性値は、VAD_eにより表されてもよく、VAD_eは2値状態であり、2つの状態、すなわち、true及びfalseを有する。VAD_e=trueである場合、これは、エコー信号が強いことを示し、VAD_e=falseである場合、これは、エコー信号が弱いことを示す。エコー信号のパワー特性値が取得される場合、エコー信号のパワースペクトルを処理することによりエコー信号のパワー特性値を取得するために、エコー信号のパワースペクトルがエコー信号の推定値に従って事前に計算されてもよい点に留意すべきである。エコー信号のここで計算されたパワースペクトルは、エコー信号の推定パワースペクトルである。エコー信号のパワースペクトルがエコー信号のここで計算されたパワースペクトルであるか否かは、以下のステップ406を実行することにより更に決定される必要がある。
406.モバイル端末は、録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する。そうである場合、ステップ407が実行される。
雑音信号と近端信号とを区別するために、この実施例では、信号検出及び分類モジュールと音声アクティビティ検出機構とが、録音信号のパワー特性値、エコー信号のパワー特性値及び音声信号のパワー特性値に従って、時間に基づいて近端信号(背景雑音を含む)と非近端信号とを区別し、雑音信号のパワースペクトルを取得するために使用される。具体的な決定の間に、モバイル端末は、録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する必要がある。第1の閾値、第2の閾値及び第3の閾値は、予め設定された閾値である。この実施例では、第1の閾値はTxにより表されてもよく、第2の閾値はTyにより表されてもよく、第3の閾値はTeにより表されてもよい。第1の閾値、第2の閾値及び第3の閾値のより小さい値は、モバイル端末が雑音により敏感であることを示す。これに対して、モバイル端末は、雑音が大きいエネルギーを有する場合にのみ、雑音に反応する。
決定処理は、以下の式<7>により表されてもよい。
Figure 0006505252
一般的に、マイクロフォンを使用することによりモバイル端末により収集された録音信号は、近端信号を含まなくてもよい。録音信号が近端信号を含むか否かを更に決定するために、以下の式<8>が決定のために使用されてもよい。
VAD_y=false且つVAD_e=falseである場合、VAD_v=VAD_x <8>
すなわち、モバイル端末のスピーカが音響を再生せず(すなわち、VAD_y=false)、エコー信号が検出されない場合(すなわち、VAD_e=false)、マイクロフォンにより収集された録音信号は、近端信号であり、この場合、ユーザが話し中である。そうでない場合、これは、ユーザが話し中でないことを示す。
決定処理において、録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きいと決定された場合、以下のステップ407が実行される。録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値以下であると決定された場合、或いは録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値以下であると決定された場合、今回取得された録音信号及び音声信号は無視される。
407.モバイル端末は、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する。
録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、モバイル端末は、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する。以下の式<9>が具体的な計算のために適用されてもよく、
Pe=E(n).^2 <9>
ここで、Peはエコー信号のパワースペクトルである。
408.モバイル端末は、録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定する。そうである場合、ステップ409が実行される。
ステップ407に基づいて、モバイル端末は、雑音信号のパワースペクトルを取得するために、録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを更に決定する。
決定処理において、録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満であると決定された場合、以下のステップ409が実行される。録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値以上であると決定された場合、今回取得された録音信号及び音声信号は無視される。
409.モバイル端末は、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する。
録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満であると決定された場合、近端信号が検出されない、すなわち、ユーザが話し中でないと考えられてもよい。この場合、モバイル端末は、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する。具体的な実現の間に、以下の式<10>を参照し、
Pn=Px-Pe <10>
ここで、Pnは雑音信号のパワースペクトルである。
410.モバイル端末は、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する。
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する場合、モバイル端末は、以下のステップ4101〜4102を実行してもよい。
4101.モバイル端末は、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する。
音響学の分野では、音声了解度インデックス(SII)は、複数の標準を有する。この実施例では、ASNI-S3.5における標準4が計算のために使用される。標準4では、音声了解度インデックスは、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを独立変数として使用した関数として表されてもよい。したがって、モバイル端末がエコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算した後に、音声了解度インデックスが構築されてもよい。構築される音声了解度インデックスについて、以下の式<11>を参照し、
Figure 0006505252
ここで、imaxは分割帯域の総数であり、iはimax内のいずれかの帯域であり、SIIは音声了解度インデックスであり、Peiは第iの帯域内のエコー信号のパワースペクトルであり、Pniは第iの帯域内の雑音信号のパワースペクトルであり、Puiは第iの帯域内の標準強度の音声のパワースペクトルであり、Iiは帯域分割重みであり、Pdiは中間変数であり、以下の式<12>により表されてもよく、
Figure 0006505252
ここで、fkは第iの帯域内の第kの周波数を表し、Ckは中間変数であり、以下の式<13>により表されてもよく、
Ck=0.6(max{Pnk,Pek-24}-10log10fk-6.353)-80 <13>
ここで、Pekは第kの周波数におけるエコー信号のパワースペクトルであり、Pnkは第kの周波数における雑音信号のパワースペクトルである。
Pui及びIiの具体的な値について、ANSI-S3.5における標準[4]で指定された数値を参照するか、或いは値が必要に応じて設計者により決定されてもよい点に留意すべきである。
4102.エコー信号のパワースペクトルが不変のままであるという条件で、モバイル端末は、周波数加重係数を取得するために、音声了解度インデックスの最大値を計算する。
この実施例では、周波数加重係数は、モバイル端末内の周波数加重フィルタの係数であり、モバイル端末により出力される音声信号の周波数振幅を調整するために使用される。異なる時点においてモバイル端末により計算された周波数強調係数は異なる。
ステップ401において構築された音声了解度インデックスの観測によって、音声了解度インデックスは、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを独立変数として使用した関数であり、すなわち、音声了解度インデックスは2つの変数を有することが分かる。この場合、音声了解度インデックスの最大値を計算することは困難である。したがって、この実施例において提供される方法では、近似計算が実行される。第nの時点における雑音信号のパワースペクトルが第(n-1)の時点における雑音信号のパワースペクトルとほぼ等しいことが仮定される。このように、第nの時点における周波数加重係数を計算するときに、モバイル端末は、第(n-1)の時点において計算された雑音信号のパワースペクトルを直接使用してもよい。このような処理方式では、モバイル端末は、音声了解度インデックスをエコー信号のパワースペクトルを独立変数として使用した関数に変換する。
スピーカによりユーザに再生される音声信号の音声了解度を改善するために、スピーカを使用することにより音声信号を再生する前に、モバイル端末は、音声信号を処理し、指定の周波数における音声信号の振幅を増加させ、音声信号のエネルギーを増加させるために、周波数加重フィルタを更に使用する。モバイル端末のサイズにより制限されるように、再生中のスピーカの最大音響パワーは最大値を有する。スピーカが過負荷になることを妨げるために、この実施例では、周波数加重係数が構築された音声了解度インデックスに基づいて計算される場合、エコー信号のパワースペクトルが周波数加重フィルタの増強前及び後で不変のままであることが仮定され、次に、音声了解度インデックスの最大値が計算される。このような方法は、数学的に制約条件における極値解と呼ばれる。極値解は、以下の式<14>により表されてもよく、
Figure 0006505252
ここで、Peiは増強前の第iの周波数におけるエコー信号のパワースペクトルであり、Pe’iは増強後の第iの周波数におけるエコー信号のパワースペクトルであり、式
Figure 0006505252
はエコー信号のパワースペクトルが増強前及び後で不変のままであることを確保し、これにより、スピーカが過負荷にならないことを確保する。
信号が周波数加重フィルタにより処理された後に、電気信号が取得され、電気信号がスピーカにより音波に変換される必要がある点に留意すべきである。異なるモデルのモバイル端末のスピーカは、異なる出力周波数応答を作る。異なるモバイル端末のスピーカの出力周波数応答を取得するために、各モバイル端末のスピーカが動作中に測定され、修正され、補償される必要がある。したがって、ハードウェアフラグメンテーション問題が引き起こされる。この問題を回避するために、この実施例において提供される方法では、スピーカの周波数応答における直接の測定を省略するため、以下の方法が使用される。
式<6>の観測によって、E(n)とY(n)との間のマッピング関係が、ループ伝達関数H_loopを使用することにより確立され得ることが分かる。この実施例では、スピーカの周波数応答はHspkとして記され、マイクロフォンの周波数応答はHmicとして記され、式<6>に従って、以下の式が取得され得る。
Figure 0006505252
式<15>について、式<14>の極値解は、偏導関数解に変換されてもよい。音声了解度インデックスの変曲点は、式<15>の偏導関数を計算することにより取得されてもよい。具体的な処理について、以下の式<16>を参照し、
Figure 0006505252
ここで、|W|2は周波数加重係数であり、|H_loop|2は式<3>を使用することにより取得されてもよく、Pyiは式<5>を使用することにより取得されてもよく、SIIは式<11>を使用することにより取得されてもよい。
現時点における|W|2は、式<16>を計算することにより取得されてもよい。
411.モバイル端末は、周波数加重係数に基づいて、音声信号の周波数振幅を調整する。
モバイル端末は、雑音信号のパワースペクトルPn及びエコー信号のパワースペクトルPeにおける変化に自動的に適合させるために、決定された周波数加重係数に基づいて、音声了解度インデックスを動的にトレースして調整する。
412.モバイル端末は、調整された音声信号を出力する。
現時点においてモバイル端末により出力される音声信号の精度を改善するために、モバイル端末は、対応する周波数加重係数及び現時点の前に出力された音声信号と組み合わせて、以下の式<17>に従って、現時点において出力される音声信号を決定し、
Figure 0006505252
ここで、z(n)は出力音声信号であり、w(k)は第nの時点において計算された周波数加重係数に対応する時間領域の値であり、Kmaxは周波数加重フィルタWの次数に等しく、y(n-k)は増強前の第(n-k)の時点における音声信号の値である。
このステップにおいて、モバイル端末により出力される調整された音声信号は、雑音信号を隠蔽することができる。したがって、調整された音声信号が再生される場合、ユーザは、音声信号の内容を明確に聞くことができる。
図5は、本出願の実施例による音声信号処理方法に対応する信号フローを示している。図5に示すように、取得された録音信号X及び音声信号Yに基づいて、モバイル端末は、録音信号と音声信号との間の周波数領域の相互相関関数r_xy及び音声信号の周波数領域の自己相関関数R_yyに従って、ループ伝達関数H_loop=R_yy^-1*r_xyを計算してもよい。モバイル端末は、音声信号及びループ伝達関数に従って、エコー信号の推定値E(n)=H_loop・Y(n)を計算してもよい。さらに、モバイル端末は、音声アクティビティ検出機構を使用することにより、録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算し、次に、周波数加重係数を取得するために、音声了解度インデックスの最大値を計算し、最後に、周波数加重フィルタを使用することにより、周波数加重係数に基づいて、音声信号の周波数振幅を調整し、調整された音声信号を出力する。
図6は、本出願の他の実施例による音声信号処理方法のフローチャートである。この方法は、ソフトウェアにより実現されてもよい。音声インスタントメッセージングAppが開始された場合、モバイル端末は、近端からのマイクロフォンにより収集された録音信号xと、ピアエンドにより送信された音声信号yとを定期的に取得し、録音信号のパワースペクトルPx及び音声信号のパワースペクトルPyを計算し、前述の式<3>に基づいて、ループ伝達関数H_loopを計算する。ループ伝達関数を決定した後に、モバイル端末は、前述の式<6>に従って、エコー信号の推定値E(n)を計算してもよい。さらに、エコー信号、近端音声信号及び雑音信号が同じマイクロフォンにより取得され、時間で重なる。したがって、前述の式<9>に従ってエコーパワースペクトルPeを計算し、前述の式<10>に従って雑音パワースペクトルPnを計算するために、録音信号は分類される必要がある。次に、音声了解度インデックスSIIは、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って構築され、周波数スペクトル強調係数Wは、音声了解度インデックスSIIの最大値を計算することにより取得されてもよい。最後に、増強された音声信号は、前述の式<17>に従って計算され、スピーカに出力され、再生のためにスピーカにより音響に変換される。
この方法は、音声インスタントメッセージングAppレベルにおいて実現されてもよく、或いはオペレーティングシステムレベルにおいて実現されてもよく、或いはハードウェアチップのファームウェアに内蔵されてもよい点に留意すべきである。本出願のこの実施例において提供される音声信号処理方法は、3つのレベルのそれぞれに適用可能であり、差異は、同じ音声信号処理方法が具体的に動作するモバイル端末システム内のレベルのみにある。
本開示は、一例としてモバイル端末を使用することにより記載されており、当業者は、本開示がデスクトップコンピュータのような他の端末デバイスにも適用され得ることを理解し得る点に留意すべきである。さらに、前述の音声信号は、ピアエンドから受信されてもよい。例えば、端末デバイスは、無線又は有線ネットワークを使用することにより、他の端末デバイス(すなわち、ピアエンド)から音声信号を受信する。或いは、音声信号は、端末デバイスにローカルに記憶された音声信号でもよい。その他に、前述の説明は、一例として音声インスタントメッセージングAppを使用することにより提供されており、当業者は、前述の音声インスタントメッセージングAppが他の音声再生Appと置換されてもよいことを理解し得る。
この方法は、音声了解度を改善するために使用され得るだけでなく、他の内容のオーディオ信号を改善するために使用されてもよい点に留意すべきである。例えば、呼び出し音又はアラームの警報音が異なる周辺雑音に従って自動的に増強されてもよく、これにより、増強された警報音は、より明確にユーザにより聞くことができ、周辺雑音からの干渉を克服することができる。
雑音シナリオに適用されることに加えて、この方法は、雑音のない環境に更に適用されてもよい点に留意すべきである。例えば、A及びBが近くにいて同時に通話中である。Aはaと話しており、Bはbと話している。A及びBは近いため、Aの話し声はBの傾聴と干渉し、Bの話し声もAの傾聴と干渉する。本開示において提供される方法はまた、このような音声競合シナリオにおいて使用されてもよい。このシナリオでは、A側のモバイル端末は、Bの音声を雑音信号として使用し、aの音声を増強される必要がある信号として使用する。同様に、B側のモバイル端末は、Aの音声を雑音信号として使用し、bの音声を増強される必要がある信号として使用する。
本出願のこの実施例において提供される方法によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。
図7を参照すると、本出願の実施例は、音声信号処理装置の概略構成図を提供する。この装置は、
近端からの録音信号を収集するように構成された収集モジュール701であり、録音信号は、雑音信号及びエコー信号を少なくとも含む収集モジュール701と、
ピアエンドにより送信された音声信号を受信するように構成された受信モジュール702と、
録音信号及び音声信号に従って、ループ伝達関数を計算するように構成された第1の計算モジュール703と、
録音信号のパワースペクトルを計算するように構成された第2の計算モジュール704と、
録音信号のパワースペクトル、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算するように構成された第3の計算モジュール705と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算するように構成された第4の計算モジュール706と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整するように構成された調整モジュール707と、
調整された音声信号を出力するように構成された出力モジュール708と
を含む。
本出願の他の実施例では、第1の計算モジュール703は、録音信号と音声信号との間の周波数領域の相互相関関数を計算し、音声信号の周波数領域の自己相関関数を計算し、録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算するように構成される。
本出願の他の実施例では、第2の計算モジュール704は、以下の式を録音信号に適用することにより録音信号のパワースペクトルを計算するように構成され、
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。
本出願の他の実施例では、第3の計算モジュール705は、ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算し、エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算し、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算するように構成される。
本出願の他の実施例では、この装置は、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算するように構成された第5の計算モジュールと、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定するように構成された第1の決定モジュールと
を更に含み、
第3の計算モジュール705は、録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するように構成される。
本出願の他の実施例では、この装置は、
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定するように構成された第2の決定モジュールを更に含み、
第3の計算モジュール705は、録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算するように構成される。
本出願の他の実施例では、第4の計算モジュール706は、エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築し、エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得するように構成される。
結論として、本出願のこの実施例において提供される装置によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。
図8を参照すると、図8は、本出願の実施例による音声信号処理端末の概略構成図である。この端末は、前述の実施例において提供される音声信号処理方法を実現するように構成されてもよい。具体的には以下の通りである。
端末800は、無線周波数(RF)回路110、1つ以上のコンピュータ読み取り可能記憶媒体を含むメモリ120、入力ユニット130、表示ユニット140、センサ150、オーディオ回路160、ワイヤレスフィデリティ(WiFi)モジュール170、1つ以上の処理コアを含むプロセッサ180、及び電源190のような構成要素を含んでもよい。当業者は、図8に示す端末の構成が端末への限定にならず、端末が図面に示す構成要素より多くの構成要素又は少ない構成要素を含んでもよく、或いはいくつかの構成要素が組み合わされてもよく、或いは異なる構成要素の配置が使用されてもよいことを理解し得る。
RF回路110は、情報受信及び送信処理又は呼処理中に信号を受信及び送信するように構成されてもよい。特に、RF回路110は、基地局から下りリンク情報を受信し、次に処理のために下りリンク情報をプロセッサ180に送信し、関係する上りリンクデータを基地局に送信する。通常では、RF回路110は、アンテナ、少なくとも1つの増幅器、チューナ、1つ以上の発振器、加入者識別モジュール(SIM)カード、トランシーバ、カプラ、低雑音増幅器(LNA)、及びデュプレクサを含むが、これらに限定されない。さらに、RF回路110はまた、無線通信を用いてネットワーク及び他のデバイスと通信してもよい。無線通信は、グローバル・システム・フォー・モバイル・コミュニケーションズ(GSM(登録商標))、汎用パケット無線サービス(GPRS)、符号分割多元アクセス(CDMA)、広帯域符号分割多元アクセス(WCDMA(登録商標))、ロングタームエボリューション(LTE)、電子メール、ショートメッセージングサービス(SMS)等を含むが、これらに限定されないいずれかの通信標準又はプロトコルを使用してもよい。
メモリ120は、ソフトウェアプログラム及びモジュールを記憶するように構成されてもよい。プロセッサ180は、様々な機能アプリケーション及びデータ処理を実現するために、メモリ120に記憶されたソフトウェアプログラム及びモジュールを実行する。メモリ120は、プログラム記憶エリア及びデータ記憶エリアを主に含んでもよい。プログラム記憶エリアは、オペレーティングシステム、少なくとも1つの機能(音響再生機能及び画像表示機能等)により要求されるアプリケーションプログラムを記憶してもよい。データ記憶エリアは、端末800の使用に従って生成されたデータ(オーディオデータ及びアドレス帳等)を記憶してもよい。さらに、メモリ120は、高速ランダムアクセスメモリを含んでもよく、また、少なくとも1つの磁気ディスク記憶デバイス、フラッシュメモリのような不揮発性メモリ、又は他の揮発性ソリッドステート記憶デバイスを含んでもよい。対応して、メモリ120は、メモリ120へのプロセッサ180及び入力ユニット130のアクセスを提供するために、メモリコントローラを更に含んでもよい。
入力ユニット130は、入力された数字又は文字情報を受信し、ユーザ設定及び機能制御に関するキーボード、マウス、ジョイスティック、光学又はトラックボールの信号入力を生成するように構成されてもよい。具体的には、入力ユニット130は、接触式面131又は他の入力デバイス132を含んでもよい。タッチスクリーン又はタッチパネルとも呼ばれ得る接触式面131は、接触式面上又はその近くのユーザのタッチ操作(指又はスタイラスのようないずれか適切な物又はアクセサリを使用することによる接触式面131上又はその近くのユーザ操作等)を収集し、予め設定されたプログラムに従って対応する接続装置を駆動してもよい。任意選択で、接触式面131は、2つの部分、すなわち、タッチ検出装置及びタッチコントローラを含んでもよい。タッチ検出装置は、ユーザのタッチ指示を検出し、タッチ操作により生成された信号を検出し、信号をタッチコントローラに伝達する。タッチコントローラは、タッチ検出装置からタッチ情報を受信し、タッチ情報をタッチ点座標に変換し、次に、タッチ点座標をプロセッサ180に送信する。さらに、タッチコントローラは、プロセッサ180から送信されたコマンドを受信して実行することができる。さらに、接触式面131は、抵抗性、容量性、赤外線又は面音波の形式の接触式面でもよい。接触式面131に加えて、入力ユニット130は、他の入力デバイス132を更に含んでもよい。具体的には、他の入力デバイス132は、物理キーボード、機能キー(音量制御キー又はスイッチキー等)、トラックボール、マウス及びジョイスティックのうち1つ以上を含んでもよいが、これらに限定されない。
表示ユニット140は、ユーザにより入力された情報又はユーザのために提供される情報と、端末800の様々なグラフィカルユーザポートとを表示するように構成されてもよい。グラフィカルユーザポートは、図、テキスト、アイコン、ビデオ又はこれらのいずれかの組み合わせにより形成されてもよい。表示ユニット140は、表示パネル141を含んでもよい。任意選択で、表示パネル141は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)等を使用することにより構成されてもよい。さらに、接触式面131は、表示パネル141をカバーしてもよい。接触式面131上又はその近くのタッチ操作を検出した後に、接触式面131は、タッチイベントの種類を決定するために、タッチ操作をプロセッサ180に伝達する。次に、プロセッサ180は、タッチイベントの種類に従って、表示パネル141上に対応する視覚出力を提供する。図8では、接触式面131及び表示パネル141は、入力及び出力機能を実現するために2つの別々の部分として使用されているが、いくつかの実施例では、接触式面131及び表示パネル141は、入力及び出力機能を実現するために統合されてもよい。
端末800は、光センサ、動きセンサ及び他のセンサのような少なくとも1つのセンサ150を更に含んでもよい。具体的には、光センサは、周辺光センサ及び近接センサを含んでもよい。周辺光センサは、周辺光の明るさに従って表示パネル141の輝度を調整してもよい。近接センサは、端末800が耳の近くに動かされたときに、表示パネル141及び/又はバックライトをオフに切り替えてもよい。動きセンサの1つの種類として、重力加速度センサは、様々な方向(一般的には3軸)の加速度の大きさを検出してもよく、静止しているときに重力の大きさ及び方向を検出してもよく、モバイル電話のジェスチャの適用(水平画面と垂直画面との間の切り替え、関係するゲーム、及び磁力計のジェスチャ較正等)、バイブレーション識別の関係する機能(歩数計及びノック等)を識別するように構成されてもよい。ジャイロスコープ、気圧計、湿度計、温度計及び赤外線センサのような、端末800内に構成されてもよい他のセンサは、ここでは更に説明しない。
オーディオ回路160、スピーカ161及びマイクロフォン162は、ユーザと端末800との間のオーディオインタフェースを提供してもよい。オーディオ回路160は、受信したオーディオデータから変換された受信した電気信号をスピーカ161に送信してもよい。スピーカ161は、出力のために電気信号を音響信号に変換する。他方、マイクロフォン162は、収集された音響信号を電気信号に変換する。オーディオ回路160は、電気信号を受信し、電気信号をオーディオデータに変換し、処理のためにオーディオデータをプロセッサ180に出力する。次に、プロセッサ180は、RF回路110を使用することにより、オーディオデータを、例えば他の端末に送信するか、或いは更なる処理のためにオーディオデータをメモリ120に出力する。オーディオ回路160は、周辺機器のイヤフォンと端末800との間の通信を提供するために、イヤプラグジャックを更に含んでもよい。
WiFiは、短距離無線送信技術に属する。端末800は、WiFiユニット170を使用することにより、ユーザが電子メールを受信及び送信したり、ウェブページをブラウジングしたり、ストリームメディアにアクセスしたりすること等を支援してもよく、これは、ユーザのための無線ブロードバンドインターネットアクセスを提供する。図8は、WiFiモジュール170を示しているが、WiFiモジュールは、端末800の必要な構成に属さず、本出願の本質の範囲を変更することなく、要求に従って無視されることができることが理解され得る。
プロセッサ180は、端末800の制御センタであり、様々なインタフェース及びラインを使用することにより、モバイル電話の様々な部分に接続する。メモリ120に記憶されたソフトウェアプログラム及び/又はモジュールを動作又は実行し、メモリ120に記憶されたデータを呼び出すことにより、プロセッサ180は、端末800の様々な機能及びデータ処理を実行し、これにより、モバイル電話の全体監視を実行する。任意選択で、プロセッサ180は、1つ以上の処理コアを含んでもよい。任意選択で、プロセッサ180は、アプリケーションプロセッサ及びモデムを統合してもよい。アプリケーションプロセッサは、オペレーティングシステム、ユーザインタフェース、アプリケーションプログラム等を主に処理する。モデムは、無線通信を主に処理する。前述のモデムプロセッサは、プロセッサ180に統合されなくてもよいことが理解され得る。
端末800は、電力を構成要素に供給するための電源190(バッテリ等)を更に含む。好ましくは、電源は、電源管理システムを使用することによりプロセッサ180に論理的に接続してもよく、これにより、電源管理システムを使用することにより、充電、放電及び消費電力管理のような機能を実現する。電源190は、直流又は交流電源、再充電システム、停電検出回路、電源変換器又はインバータ、電源状態インジケータ及び他の構成要素のうち1つ以上を更に含んでもよい。
図面に示されていないが、端末800は、カメラ、ブルートゥース(登録商標)モジュール等を更に含んでもよく、これらはここでは更に説明しない。具体的には、この実施例では、端末800の表示ユニットは、タッチスクリーンディスプレイであり、端末800は、メモリ及び1つ以上のプログラムを更に含む。1つ以上のプログラムは、メモリに記憶され、1つ以上のプロセッサにより実行されるように構成される。
1つ以上のプログラムは、以下の動作、すなわち、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を実行するために使用される命令を含む。
前述のものが第1の可能な実現であると仮定すると、第1の可能な実現に基づいて提供される第2の可能な実現では、録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である。
第2の可能な実現に基づいて提供される第3の可能な実現では、調整された音声信号を出力する動作は、端末デバイスのスピーカを使用することにより、調整された音声信号を再生する動作を含む。音声信号は、ネットワークを使用することにより端末デバイスにより受信された音声信号、又はローカルに記憶され、スピーカを使用することにより再生される音声信号である。
第3の可能な実現に基づいて提供される第4の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。
録音信号及び音声信号に従って、ループ伝達関数を計算する動作は、
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。
或いは、端末のメモリは、以下の動作、すなわち、
以下の式を録音信号に適用することにより録音信号のパワースペクトルを計算し、
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される動作を含む、
録音信号のパワースペクトルを計算する動作を実行するための命令を更に含む。
第3の可能な実現に基づいて提供される第5の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作は、
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。
第5の可能な実現に基づいて提供される第6の可能な実現では、端末のメモリは、以下の動作、すなわち、
エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する前に、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するステップを実行する動作と
を実行するための命令を更に含む。
第6の可能な実現に基づいて提供される第7の可能な実現では、端末のメモリは、以下の動作、すなわち、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する前に、
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を実行するための命令を更に含む。
第3の可能な実現に基づいて提供される第8の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作は、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。
本出願のこの実施例において提供される端末によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。
本出願の実施例は、コンピュータ読み取り可能記憶媒体を更に提供する。コンピュータ読み取り可能媒体は、前述の実施例におけるメモリに含まれるコンピュータ読み取り可能記憶媒体でもよく、或いは単独で存在して端末に組み立てられていないコンピュータ読み取り可能記憶媒体でもよい。コンピュータ読み取り可能記憶媒体は、1つ以上のプログラムを含む。1つ以上のプログラムは、音声信号処理方法を実行するために、1つ以上のプロセッサにより実行される。この方法は、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を含む。
前述のものが第1の可能な実現であると仮定すると、第1の可能な実現に基づいて提供される第2の可能な実現では、録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である。
第2の可能な実現に基づいて提供される第3の可能な実現では、調整された音声信号を出力する動作は、スピーカを使用することにより、調整された音声信号を再生する動作を含む。音声信号は、ネットワークを使用することにより端末デバイスにより受信された音声信号、又はローカルに記憶され、スピーカを使用することにより再生される音声信号である。
第3の可能な実現に基づいて提供される第4の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。
録音信号及び音声信号に従って、ループ伝達関数を計算する動作は、
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。
或いは、端末のメモリは、以下の動作、すなわち、
以下の式を録音信号に適用することにより録音信号のパワースペクトルを計算し、
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される動作を含む、
録音信号のパワースペクトルを計算する動作を実行するための命令を更に含む。
第3の可能な実現に基づいて提供される第5の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作は、
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。
第5の可能な実現に基づいて提供される第6の可能な実現では、端末のメモリは、以下の動作、すなわち、
エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する前に、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するステップを実行する動作と
を実行するための命令を更に含む。
第6の可能な実現に基づいて提供される第7の可能な実現では、端末のメモリは、以下の動作、すなわち、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する前に、
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を実行するための命令を更に含む。
第3の可能な実現に基づいて提供される第8の可能な実現では、端末のメモリは、以下の動作を実行するための命令を更に含む。
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作は、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。
本出願のこの実施例において提供されるコンピュータ読み取り可能記憶媒体によれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。
本出願の実施例は、グラフィックユーザインタフェースを提供する。グラフィックユーザインタフェースは、音声信号処理端末上で使用され、音声信号処理端末は、タッチディスプレイと、メモリと、1つ以上のプログラムを実行するように構成された1つ以上のプロセッサとを含み、グラフィカルユーザインタフェースは、
録音信号及び音声信号を取得し、録音信号は、雑音信号及びエコー信号を少なくとも含み、
録音信号及び音声信号に従って、ループ伝達関数を計算し、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算し、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算し、
周波数加重係数に基づいて、音声信号の周波数振幅を調整し、
調整された音声信号を出力すること
を含む。
本出願のこの実施例において提供されるグラフィックユーザインタフェースによれば、音声信号の周波数振幅は、スピーカが過負荷にならず、元の音声信号の動的な振幅が乱されないことを確保しつつ、雑音信号及び音声信号の相対周波数分布に従って自動的に調整され、これは、音声了解度をかなり改善する。
前述の実施例において提供される音声信号処理装置の音声信号処理は、一例として前述の機能モジュールの分割のみを使用することにより記載されている点に留意すべきである。実際の適用では、前述の機能は、必要に応じて異なる機能モジュールに割り当てられて完結されてもよく、すなわち、音声信号処理装置の内部構成は、前述の機能の全部又は一部を完結させるために、異なる機能モジュールに分割される。さらに、前述の実施例において提供される音声信号処理装置は、音声信号処理方法と同じ概念に基づく。その具体的な実現処理について、方法の実施例を参照し、詳細はここでは再び説明しない。
当業者は、前述の実施例のステップの一部又は全部がハードウェアを使用することにより実現されてもよく、或いは関係するハードウェアに命令するプログラムにより実現されてもよいことを理解し得る。プログラムは、コンピュータ読み取り可能記憶媒体に記憶されてもよい。記憶媒体は、読み取り専用メモリ、磁気ディスク、光ディスク等でもよい。
前述の説明は、本出願の単に好ましい実施例であり、本開示を限定することを意図するものではない。本開示の要旨及び原理内で行われる如何なる変更、等価置換又は改良も、本開示の保護範囲内に入るものとする。

Claims (16)

  1. 録音信号及び出力対象の音声信号を取得する動作であり、前記録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
    前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作と、
    前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作と、
    前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作と、
    前記周波数加重係数に基づいて、前記音声信号の周波数振幅を調整する動作と、
    前記調整された音声信号を出力する動作と
    を含み、
    前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作は、
    前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、音声了解度インデックスを構築する動作と、
    前記エコー信号の前記パワースペクトルが不変のままであるという条件で、前記音声了解度インデックスの最大値に従って、前記周波数加重係数を取得する動作と
    を含む音声信号処理方法。
  2. 前記録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である、請求項1に記載の方法。
  3. 前記調整された音声信号を出力する動作は、端末デバイスのスピーカを使用することにより、前記調整された音声信号を再生する動作を含み、前記音声信号は、前記スピーカを介して再生される信号であり、ネットワークを使用することにより前記端末デバイスにより受信された信号、又は前記端末デバイスにローカルに記憶された信号である、請求項1に記載の方法。
  4. 前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作は、
    前記録音信号と前記音声信号との間の周波数領域の相互相関関数を計算する動作と、
    前記音声信号の周波数領域の自己相関関数を計算する動作と、
    前記録音信号と前記音声信号との間の前記周波数領域の相互相関関数及び前記音声信号の前記周波数領域の自己相関関数に従って、前記ループ伝達関数を計算する動作と
    を含む、請求項3に記載の方法。
  5. 前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作は、
    前記録音信号のパワースペクトルを計算する動作と、
    前記ループ伝達関数及び前記音声信号に従って、前記エコー信号の推定スペクトル値を計算する動作と、
    前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作と、
    前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作と
    を含む、請求項3に記載の方法。
  6. 前記録音信号のパワー特性値、前記音声信号のパワー特性値及び前記エコー信号のパワー特性値を計算する動作と、
    前記録音信号の前記パワー特性値が第1の閾値より大きいか否か、前記音声信号の前記パワー特性値が第2の閾値より大きいか否か、及び前記エコー信号の前記パワー特性値が第3の閾値より大きいか否かを決定する動作と、
    を更に含み、
    前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作は、
    前記録音信号の前記パワー特性値が前記第1の閾値より大きく、前記音声信号の前記パワー特性値が前記第2の閾値より大きく、前記エコー信号の前記パワー特性値が前記第3の閾値より大きい場合、前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算するステップを実行する動作を含む、請求項5に記載の方法。
  7. 前記録音信号の前記パワー特性値が前記第1の閾値未満であるか否か、及び前記エコー信号の前記パワー特性値が前記第3の閾値未満であるか否かを決定する動作を更に含み、
    前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作は、
    前記録音信号の前記パワー特性値が前記第1の閾値未満であり、前記エコー信号の前記パワー特性値が前記第3の閾値未満である場合、前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作を含む、請求項6に記載の方法。
  8. 端末デバイスは、周波数加重フィルタ及びマイクロフォンを含み、前記周波数加重係数は、前記音声信号が前記周波数加重フィルタ及びスピーカを通過した後に前記マイクロフォンにより検出される前記音声信号の比を示す、請求項1に記載の方法。
  9. 少なくとも1つのプロセッサと、プログラム命令を記憶するメモリとを含む音声信号処理装置であって、
    前記プログラム命令は、前記少なくとも1つのプロセッサにより実行された場合、前記装置に対して、以下の動作、すなわち、
    録音信号及び出力対象の音声信号を取得する動作であり、前記録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
    前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作と、
    前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作と、
    前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作と、
    前記周波数加重係数に基づいて、前記音声信号の周波数振幅を調整する動作と、
    前記調整された音声信号を出力する動作と
    を実行させ
    前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作は、
    前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、音声了解度インデックスを構築する動作と、
    前記エコー信号の前記パワースペクトルが不変のままであるという条件で、前記音声了解度インデックスの最大値に従って、前記周波数加重係数を取得する動作と
    を含む音声信号処理装置。
  10. 前記録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である、請求項に記載の装置。
  11. 前記調整された音声信号を出力する動作は、スピーカを使用することにより、前記調整された音声信号を再生する動作を含み、前記音声信号は、前記スピーカを介して再生される信号であり、ネットワークを使用することにより端末デバイスにより受信された信号、又は前記端末デバイスにローカルに記憶された信号である、請求項に記載の装置。
  12. 前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作は、
    前記録音信号と前記音声信号との間の周波数領域の相互相関関数を計算する動作と、
    前記音声信号の周波数領域の自己相関関数を計算する動作と、
    前記録音信号と前記音声信号との間の前記周波数領域の相互相関関数及び前記音声信号の前記周波数領域の自己相関関数に従って、前記ループ伝達関数を計算する動作と
    を含む、請求項11に記載の装置。
  13. 前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作は、
    前記録音信号のパワースペクトルを計算する動作と、
    前記ループ伝達関数及び前記音声信号に従って、前記エコー信号の推定スペクトル値を計算する動作と、
    前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作と、
    前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作と
    を含む、請求項11に記載の装置。
  14. 前記録音信号のパワー特性値、前記音声信号のパワー特性値及び前記エコー信号のパワー特性値を計算し、
    前記録音信号の前記パワー特性値が第1の閾値より大きいか否か、前記音声信号の前記パワー特性値が第2の閾値より大きいか否か、及び前記エコー信号の前記パワー特性値が第3の閾値より大きいか否かを決定し、
    前記録音信号の前記パワー特性値が前記第1の閾値より大きく、前記音声信号の前記パワー特性値が前記第2の閾値より大きく、前記エコー信号の前記パワー特性値が前記第3の閾値より大きい場合、前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の推定スペクトル値の二乗を計算するステップを実行するように更に構成される、請求項11に記載の装置。
  15. 前記録音信号のパワー特性値が第1の閾値未満であるか否か、及び前記エコー信号の前記パワー特性値が第3の閾値未満であるか否かを決定し、
    前記録音信号の前記パワー特性値が前記第1の閾値未満であり、前記エコー信号の前記パワー特性値が前記第3の閾値未満である場合、前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算するように更に構成される、請求項11に記載の装置。
  16. コンピューティングデバイスの処理により実行された場合、前記デバイスに対して請求項1乃至のうちいずれか1項に記載の方法を実行させるプログラム命令を記憶したコンピュータ読み取り可能記憶媒体。
JP2017553962A 2015-11-04 2016-05-27 音声信号を処理するための方法及び装置 Active JP6505252B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510741057.1A CN105280195B (zh) 2015-11-04 2015-11-04 语音信号的处理方法及装置
CN201510741057.1 2015-11-04
PCT/CN2016/083622 WO2017075979A1 (zh) 2015-11-04 2016-05-27 语音信号的处理方法及装置

Publications (2)

Publication Number Publication Date
JP2018517167A JP2018517167A (ja) 2018-06-28
JP6505252B2 true JP6505252B2 (ja) 2019-04-24

Family

ID=55149085

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017553962A Active JP6505252B2 (ja) 2015-11-04 2016-05-27 音声信号を処理するための方法及び装置

Country Status (7)

Country Link
US (2) US10586551B2 (ja)
EP (1) EP3373300B1 (ja)
JP (1) JP6505252B2 (ja)
KR (1) KR101981879B1 (ja)
CN (1) CN105280195B (ja)
MY (1) MY179978A (ja)
WO (1) WO2017075979A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105280195B (zh) 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US20170330566A1 (en) * 2016-05-13 2017-11-16 Bose Corporation Distributed Volume Control for Speech Recognition
EP3490199B1 (en) 2016-09-22 2021-07-21 Tencent Technology (Shenzhen) Company Limited Calling method and terminal
CN106506872B (zh) * 2016-11-02 2019-05-24 腾讯科技(深圳)有限公司 通话状态检测方法及装置
CN108447472B (zh) * 2017-02-16 2022-04-05 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN106878575B (zh) * 2017-02-24 2019-11-05 成都喜元网络科技有限公司 残留回声的估计方法及装置
CN107833579B (zh) * 2017-10-30 2021-06-11 广州酷狗计算机科技有限公司 噪声消除方法、装置及计算机可读存储介质
CN108200526B (zh) * 2017-12-29 2020-09-22 广州励丰文化科技股份有限公司 一种基于可信度曲线的音响调试方法及装置
CN110390947B (zh) * 2018-04-23 2024-04-05 北京京东尚科信息技术有限公司 声源位置的确定方法、系统、设备和存储介质
US11335357B2 (en) * 2018-08-14 2022-05-17 Bose Corporation Playback enhancement in audio systems
CN109727605B (zh) * 2018-12-29 2020-06-12 苏州思必驰信息科技有限公司 处理声音信号的方法及系统
CN111048096B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111048118B (zh) * 2019-12-24 2022-07-26 大众问问(北京)信息科技有限公司 一种语音信号处理方法、装置及终端
CN111128194A (zh) * 2019-12-31 2020-05-08 云知声智能科技股份有限公司 一种提高在线语音识别效果的系统及方法
CN112203188B (zh) * 2020-07-24 2021-10-01 北京工业大学 一种自动音量调节方法
KR102424795B1 (ko) * 2020-08-25 2022-07-25 서울과학기술대학교 산학협력단 음성 구간 검출 방법
CN112259125B (zh) * 2020-10-23 2023-06-16 江苏理工学院 基于噪声的舒适度评价方法、系统、设备及可存储介质
US11610598B2 (en) * 2021-04-14 2023-03-21 Harris Global Communications, Inc. Voice enhancement in presence of noise
CN112820311A (zh) * 2021-04-16 2021-05-18 成都启英泰伦科技有限公司 一种基于空间预测的回声消除方法及装置
CN113178192A (zh) * 2021-04-30 2021-07-27 平安科技(深圳)有限公司 语音识别模型的训练方法、装置、设备及存储介质
CN115665642B (zh) * 2022-12-12 2023-03-17 杭州兆华电子股份有限公司 一种噪声消除方法及系统
DE202023103428U1 (de) 2023-06-21 2023-06-28 Richik Kashyap Ein Sprachqualitätsschätzsystem für reale Signale basierend auf nicht negativer frequenzgewichteter Energie

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04100460A (ja) * 1990-08-20 1992-04-02 Nippon Telegr & Teleph Corp <Ntt> 電話機の歪測定方法
JP3397269B2 (ja) * 1994-10-26 2003-04-14 日本電信電話株式会社 多チャネル反響消去方法
IL115892A (en) * 1994-11-10 1999-05-09 British Telecomm Interference detection system for telecommunications
JP3420705B2 (ja) * 1998-03-16 2003-06-30 日本電信電話株式会社 エコー抑圧方法及び装置並びにエコー抑圧プログラムが記憶されたコンピュータに読取り可能な記憶媒体
EP0980064A1 (de) * 1998-06-26 2000-02-16 Ascom AG Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen
KR100723283B1 (ko) * 1999-06-24 2007-05-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 음향 에코 및 잡음 제거 적응성 필터
WO2002013572A2 (en) * 2000-08-07 2002-02-14 Audia Technology, Inc. Method and apparatus for filtering and compressing sound signals
US7171003B1 (en) * 2000-10-19 2007-01-30 Lear Corporation Robust and reliable acoustic echo and noise cancellation system for cabin communication
US7117145B1 (en) * 2000-10-19 2006-10-03 Lear Corporation Adaptive filter for speech enhancement in a noisy environment
DE10157535B4 (de) * 2000-12-13 2015-05-13 Jörg Houpert Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen
AU2003223359A1 (en) * 2002-03-27 2003-10-13 Aliphcom Nicrophone and voice activity detection (vad) configurations for use with communication systems
JP3864914B2 (ja) * 2003-01-20 2007-01-10 ソニー株式会社 エコー抑圧装置
EP1591995B1 (en) * 2004-04-29 2019-06-19 Harman Becker Automotive Systems GmbH Indoor communication system for a vehicular cabin
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
CN1321400C (zh) * 2005-01-18 2007-06-13 中国电子科技集团公司第三十研究所 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法
US8594320B2 (en) * 2005-04-19 2013-11-26 (Epfl) Ecole Polytechnique Federale De Lausanne Hybrid echo and noise suppression method and device in a multi-channel audio signal
ATE485583T1 (de) * 2005-08-02 2010-11-15 Koninkl Philips Electronics Nv Verbesserung der sprachverständlichkeit in einer mobilen kommunikationsvorrichtung durch steuern der funktion eines vibrators in abhängigkeit von dem hintergrundgeräusch
EP1931169A4 (en) * 2005-09-02 2009-12-16 Japan Adv Inst Science & Tech POST-FILTER FOR A MICROPHONE MATRIX
ATE492979T1 (de) * 2005-09-20 2011-01-15 Ericsson Telefon Ab L M Verfahren zur messung der sprachverständlichkeit
US8046218B2 (en) * 2006-09-19 2011-10-25 The Board Of Trustees Of The University Of Illinois Speech and method for identifying perceptual features
JP4509126B2 (ja) * 2007-01-24 2010-07-21 沖電気工業株式会社 エコーキャンセラ及びエコーキャンセル方法
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
EP2048659B1 (en) * 2007-10-08 2011-08-17 Harman Becker Automotive Systems GmbH Gain and spectral shape adjustment in audio signal processing
DE602007007090D1 (de) * 2007-10-11 2010-07-22 Koninkl Kpn Nv Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems
US8412525B2 (en) * 2009-04-30 2013-04-02 Microsoft Corporation Noise robust speech classifier ensemble
CN101582264A (zh) * 2009-06-12 2009-11-18 瑞声声学科技(深圳)有限公司 语音增强的方法及语音增加的声音采集系统
CN101763858A (zh) * 2009-10-19 2010-06-30 瑞声声学科技(深圳)有限公司 双麦克风信号处理方法
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
DK2563045T3 (da) * 2011-08-23 2014-10-27 Oticon As Fremgangsmåde og et binauralt lyttesystem for at maksimere en bedre øreeffekt
CN102306496B (zh) * 2011-09-05 2014-07-09 歌尔声学股份有限公司 一种多麦克风阵列噪声消除方法、装置及系统
CN102510418B (zh) * 2011-10-28 2015-11-25 声科科技(南京)有限公司 噪声环境下的语音可懂度测量方法及装置
CN104050971A (zh) * 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
CN103578479B (zh) * 2013-09-18 2016-05-25 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN103606374A (zh) * 2013-11-26 2014-02-26 国家电网公司 一种瘦终端的噪音消除和回声抑制方法及装置
US10262677B2 (en) * 2015-09-02 2019-04-16 The University Of Rochester Systems and methods for removing reverberation from audio signals
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US20180358032A1 (en) * 2017-06-12 2018-12-13 Ryo Tanaka System for collecting and processing audio signals

Also Published As

Publication number Publication date
CN105280195B (zh) 2018-12-28
EP3373300A1 (en) 2018-09-12
KR20170129211A (ko) 2017-11-24
MY179978A (en) 2020-11-19
JP2018517167A (ja) 2018-06-28
EP3373300B1 (en) 2020-09-16
US20200168237A1 (en) 2020-05-28
US10586551B2 (en) 2020-03-10
KR101981879B1 (ko) 2019-05-23
CN105280195A (zh) 2016-01-27
US10924614B2 (en) 2021-02-16
US20170365270A1 (en) 2017-12-21
WO2017075979A1 (zh) 2017-05-11
EP3373300A4 (en) 2019-07-31

Similar Documents

Publication Publication Date Title
JP6505252B2 (ja) 音声信号を処理するための方法及び装置
US10609483B2 (en) Method for sound effect compensation, non-transitory computer-readable storage medium, and terminal device
EP3547659B1 (en) Method for processing audio signal and related products
US10923129B2 (en) Method for processing signals, terminal device, and non-transitory readable storage medium
US10349176B1 (en) Method for processing signals, terminal device, and non-transitory computer-readable storage medium
US20170214994A1 (en) Earbud Control Using Proximity Detection
CN108540900B (zh) 音量调节方法及相关产品
US10687142B2 (en) Method for input operation control and related products
US20230008818A1 (en) Sound masking method and apparatus, and terminal device
JP2014531141A (ja) 雑音を制御するための電子デバイス
US10878833B2 (en) Speech processing method and terminal
CN109243488B (zh) 音频检测方法、装置及存储介质
US20140341386A1 (en) Noise reduction
CN111314560A (zh) 一种调整声音响度的方法及通信终端
CN116994596A (zh) 啸叫抑制方法、装置、存储介质及电子设备
CN108810787B (zh) 基于音频设备的异物检测方法和装置、终端
WO2023284406A1 (zh) 一种通话方法及电子设备
CN114040285B (zh) 耳机的前馈滤波器参数生成方法、设备、耳机及存储介质
CN108551648B (zh) 质量检测方法和装置、可读存储介质、终端
WO2023284403A1 (zh) 一种音频处理方法及设备
CN116246645A (zh) 语音处理方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190326

R150 Certificate of patent or registration of utility model

Ref document number: 6505252

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250