JP6505252B2 - 音声信号を処理するための方法及び装置 - Google Patents
音声信号を処理するための方法及び装置 Download PDFInfo
- Publication number
- JP6505252B2 JP6505252B2 JP2017553962A JP2017553962A JP6505252B2 JP 6505252 B2 JP6505252 B2 JP 6505252B2 JP 2017553962 A JP2017553962 A JP 2017553962A JP 2017553962 A JP2017553962 A JP 2017553962A JP 6505252 B2 JP6505252 B2 JP 6505252B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- power spectrum
- audio signal
- echo
- characteristic value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0364—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
Description
本出願は、2015年11月4日に中国国家知識産権局に出願された「METHOD AND APPARATUS FOR PROCESSING VOICE SIGNAL」という名称の中国特許出願第201510741057.1号の優先権を主張し、この全内容を参照により援用する。
本開示は、端末技術の分野に関し、特に音声信号処理方法及び装置に関する。
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を含む。
少なくとも1つのプロセッサと、
プログラム命令を記憶するメモリと
を含み、プロセッサにより実行された場合、命令は、以下の動作、すなわち、
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を実行するように装置に命令する。
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算するステップを実行する動作と
を更に含む。
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を更に含む。
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。
r_xy=E[X.*Y] <1>
ここで、r_xyは録音信号と音声信号との間の相互相関関数であり、E[.]は期待演算子であり、.*は要素毎に1つずつベクトルを乗算するために使用される。例えば、X={a1,a2,a3,a4}且つY={b1,b2,b3,b4}である場合、X.*Y={a1b1,a2b2,a3b3,a4b4}である。
R_yy=E[Y(n)*Y’(n-k)] <2>
ここで、R_yyは音声信号の周波数領域の自己相関関数であり、符号*は行列乗算演算を表し、符号’は共役転置演算を表し、Y(n)は第nの時点において収集された音声信号上でフーリエ変換を実行した後に取得されたベクトルであり、Y(n-k)は第(n-k)の時点において収集された音声信号上でフーリエ変換を実行した後に取得されたベクトルであり、k=[0,Kmax],k∈Zであり、すなわち、kは整数であり、システム次数はKmaxの値により決定される。
H_loop=R_yy^-1*r_xy <3>
ここで、H_loopはループ伝達関数であり、符号^-1は行列逆演算を表す。
Px=X(n).^2 <4>
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。
Py=Y(n).^2 <5>
ここで、Pyは音声信号のパワースペクトルであり、Y(n)は第nの時点において収集された音声信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はY(n)内の各ベクトル要素の二乗を取得するために使用される。
VAD_y=false且つVAD_e=falseである場合、VAD_v=VAD_x <8>
すなわち、モバイル端末のスピーカが音響を再生せず(すなわち、VAD_y=false)、エコー信号が検出されない場合(すなわち、VAD_e=false)、マイクロフォンにより収集された録音信号は、近端信号であり、この場合、ユーザが話し中である。そうでない場合、これは、ユーザが話し中でないことを示す。
Pe=E(n).^2 <9>
ここで、Peはエコー信号のパワースペクトルである。
Pn=Px-Pe <10>
ここで、Pnは雑音信号のパワースペクトルである。
Ck=0.6(max{Pnk,Pek-24}-10log10fk-6.353)-80 <13>
ここで、Pekは第kの周波数におけるエコー信号のパワースペクトルであり、Pnkは第kの周波数における雑音信号のパワースペクトルである。
近端からの録音信号を収集するように構成された収集モジュール701であり、録音信号は、雑音信号及びエコー信号を少なくとも含む収集モジュール701と、
ピアエンドにより送信された音声信号を受信するように構成された受信モジュール702と、
録音信号及び音声信号に従って、ループ伝達関数を計算するように構成された第1の計算モジュール703と、
録音信号のパワースペクトルを計算するように構成された第2の計算モジュール704と、
録音信号のパワースペクトル、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算するように構成された第3の計算モジュール705と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算するように構成された第4の計算モジュール706と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整するように構成された調整モジュール707と、
調整された音声信号を出力するように構成された出力モジュール708と
を含む。
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される。
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算するように構成された第5の計算モジュールと、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定するように構成された第1の決定モジュールと
を更に含み、
第3の計算モジュール705は、録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するように構成される。
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定するように構成された第2の決定モジュールを更に含み、
第3の計算モジュール705は、録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算するように構成される。
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を実行するために使用される命令を含む。
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。
以下の式を録音信号に適用することにより録音信号のパワースペクトルを計算し、
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される動作を含む、
録音信号のパワースペクトルを計算する動作を実行するための命令を更に含む。
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。
エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する前に、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するステップを実行する動作と
を実行するための命令を更に含む。
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する前に、
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を実行するための命令を更に含む。
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。
録音信号及び音声信号を取得する動作であり、録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
録音信号及び音声信号に従って、ループ伝達関数を計算する動作と、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算する動作と、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算する動作と、
周波数加重係数に基づいて、音声信号の周波数振幅を調整する動作と、
調整された音声信号を出力する動作と
を含む。
録音信号と音声信号との間の周波数領域の相互相関関数を計算する動作と、
音声信号の周波数領域の自己相関関数を計算する動作と、
録音信号と音声信号との間の周波数領域の相互相関関数及び音声信号の周波数領域の自己相関関数に従って、ループ伝達関数を計算する動作と
を含む。
以下の式を録音信号に適用することにより録音信号のパワースペクトルを計算し、
Px=X(n).^2
ここで、Pxは録音信号のパワースペクトルであり、X(n)は第nの時点において収集された録音信号上でフーリエ変換を実行することにより取得されたベクトルであり、.^2はX(n)内の各ベクトル要素の二乗を取得するために使用される動作を含む、
録音信号のパワースペクトルを計算する動作を実行するための命令を更に含む。
録音信号のパワースペクトルを計算する動作と、
ループ伝達関数及び音声信号に従って、エコー信号の推定スペクトル値を計算する動作と、
エコー信号のパワースペクトルを取得するために、エコー信号の推定スペクトル値の二乗を計算する動作と、
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を含む。
エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算する前に、
録音信号のパワー特性値、音声信号のパワー特性値及びエコー信号のパワー特性値を計算する動作と、
録音信号のパワー特性値が第1の閾値より大きいか否か、音声信号のパワー特性値が第2の閾値より大きいか否か、及びエコー信号のパワー特性値が第3の閾値より大きいか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値より大きく、音声信号のパワー特性値が第2の閾値より大きく、エコー信号のパワー特性値が第3の閾値より大きい場合、エコー信号のパワースペクトルを取得するために、エコー信号の推定値の二乗を計算するステップを実行する動作と
を実行するための命令を更に含む。
雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する前に、
録音信号のパワー特性値が第1の閾値未満であるか否か、及びエコー信号のパワー特性値が第3の閾値未満であるか否かを決定する動作と、
録音信号のパワー特性値が第1の閾値未満であり、エコー信号のパワー特性値が第3の閾値未満である場合、雑音信号のパワースペクトルを取得するために、録音信号のパワースペクトルからエコー信号のパワースペクトルを減算する動作と
を実行するための命令を更に含む。
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、音声了解度インデックスを構築する動作と、
エコー信号のパワースペクトルが不変のままであるという条件で、音声了解度インデックスの最大値に従って、周波数加重係数を取得する動作と
を含む。
録音信号及び音声信号を取得し、録音信号は、雑音信号及びエコー信号を少なくとも含み、
録音信号及び音声信号に従って、ループ伝達関数を計算し、
録音信号、音声信号及びループ伝達関数に従って、エコー信号のパワースペクトル及び雑音信号のパワースペクトルを計算し、
エコー信号のパワースペクトル及び雑音信号のパワースペクトルに従って、周波数加重係数を計算し、
周波数加重係数に基づいて、音声信号の周波数振幅を調整し、
調整された音声信号を出力すること
を含む。
Claims (16)
- 録音信号及び出力対象の音声信号を取得する動作であり、前記録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作と、
前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作と、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作と、
前記周波数加重係数に基づいて、前記音声信号の周波数振幅を調整する動作と、
前記調整された音声信号を出力する動作と
を含み、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作は、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、音声了解度インデックスを構築する動作と、
前記エコー信号の前記パワースペクトルが不変のままであるという条件で、前記音声了解度インデックスの最大値に従って、前記周波数加重係数を取得する動作と
を含む音声信号処理方法。 - 前記録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である、請求項1に記載の方法。
- 前記調整された音声信号を出力する動作は、端末デバイスのスピーカを使用することにより、前記調整された音声信号を再生する動作を含み、前記音声信号は、前記スピーカを介して再生される信号であり、ネットワークを使用することにより前記端末デバイスにより受信された信号、又は前記端末デバイスにローカルに記憶された信号である、請求項1に記載の方法。
- 前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作は、
前記録音信号と前記音声信号との間の周波数領域の相互相関関数を計算する動作と、
前記音声信号の周波数領域の自己相関関数を計算する動作と、
前記録音信号と前記音声信号との間の前記周波数領域の相互相関関数及び前記音声信号の前記周波数領域の自己相関関数に従って、前記ループ伝達関数を計算する動作と
を含む、請求項3に記載の方法。 - 前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作は、
前記録音信号のパワースペクトルを計算する動作と、
前記ループ伝達関数及び前記音声信号に従って、前記エコー信号の推定スペクトル値を計算する動作と、
前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作と、
前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作と
を含む、請求項3に記載の方法。 - 前記録音信号のパワー特性値、前記音声信号のパワー特性値及び前記エコー信号のパワー特性値を計算する動作と、
前記録音信号の前記パワー特性値が第1の閾値より大きいか否か、前記音声信号の前記パワー特性値が第2の閾値より大きいか否か、及び前記エコー信号の前記パワー特性値が第3の閾値より大きいか否かを決定する動作と、
を更に含み、
前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作は、
前記録音信号の前記パワー特性値が前記第1の閾値より大きく、前記音声信号の前記パワー特性値が前記第2の閾値より大きく、前記エコー信号の前記パワー特性値が前記第3の閾値より大きい場合、前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算するステップを実行する動作を含む、請求項5に記載の方法。 - 前記録音信号の前記パワー特性値が前記第1の閾値未満であるか否か、及び前記エコー信号の前記パワー特性値が前記第3の閾値未満であるか否かを決定する動作を更に含み、
前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作は、
前記録音信号の前記パワー特性値が前記第1の閾値未満であり、前記エコー信号の前記パワー特性値が前記第3の閾値未満である場合、前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作を含む、請求項6に記載の方法。 - 端末デバイスは、周波数加重フィルタ及びマイクロフォンを含み、前記周波数加重係数は、前記音声信号が前記周波数加重フィルタ及びスピーカを通過した後に前記マイクロフォンにより検出される前記音声信号の比を示す、請求項1に記載の方法。
- 少なくとも1つのプロセッサと、プログラム命令を記憶するメモリとを含む音声信号処理装置であって、
前記プログラム命令は、前記少なくとも1つのプロセッサにより実行された場合、前記装置に対して、以下の動作、すなわち、
録音信号及び出力対象の音声信号を取得する動作であり、前記録音信号は、雑音信号及びエコー信号を少なくとも含む動作と、
前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作と、
前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作と、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作と、
前記周波数加重係数に基づいて、前記音声信号の周波数振幅を調整する動作と、
前記調整された音声信号を出力する動作と
を実行させ、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、周波数加重係数を計算する動作は、
前記エコー信号の前記パワースペクトル及び前記雑音信号の前記パワースペクトルに従って、音声了解度インデックスを構築する動作と、
前記エコー信号の前記パワースペクトルが不変のままであるという条件で、前記音声了解度インデックスの最大値に従って、前記周波数加重係数を取得する動作と
を含む音声信号処理装置。 - 前記録音信号は、端末デバイスのマイクロフォンを使用することにより収集された音響信号である、請求項9に記載の装置。
- 前記調整された音声信号を出力する動作は、スピーカを使用することにより、前記調整された音声信号を再生する動作を含み、前記音声信号は、前記スピーカを介して再生される信号であり、ネットワークを使用することにより端末デバイスにより受信された信号、又は前記端末デバイスにローカルに記憶された信号である、請求項9に記載の装置。
- 前記録音信号及び前記音声信号に従って、ループ伝達関数を計算する動作は、
前記録音信号と前記音声信号との間の周波数領域の相互相関関数を計算する動作と、
前記音声信号の周波数領域の自己相関関数を計算する動作と、
前記録音信号と前記音声信号との間の前記周波数領域の相互相関関数及び前記音声信号の前記周波数領域の自己相関関数に従って、前記ループ伝達関数を計算する動作と
を含む、請求項11に記載の装置。 - 前記録音信号、前記音声信号及び前記ループ伝達関数に従って、前記エコー信号のパワースペクトル及び前記雑音信号のパワースペクトルを計算する動作は、
前記録音信号のパワースペクトルを計算する動作と、
前記ループ伝達関数及び前記音声信号に従って、前記エコー信号の推定スペクトル値を計算する動作と、
前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の前記推定スペクトル値の二乗を計算する動作と、
前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算する動作と
を含む、請求項11に記載の装置。 - 前記録音信号のパワー特性値、前記音声信号のパワー特性値及び前記エコー信号のパワー特性値を計算し、
前記録音信号の前記パワー特性値が第1の閾値より大きいか否か、前記音声信号の前記パワー特性値が第2の閾値より大きいか否か、及び前記エコー信号の前記パワー特性値が第3の閾値より大きいか否かを決定し、
前記録音信号の前記パワー特性値が前記第1の閾値より大きく、前記音声信号の前記パワー特性値が前記第2の閾値より大きく、前記エコー信号の前記パワー特性値が前記第3の閾値より大きい場合、前記エコー信号の前記パワースペクトルを取得するために、前記エコー信号の推定スペクトル値の二乗を計算するステップを実行するように更に構成される、請求項11に記載の装置。 - 前記録音信号のパワー特性値が第1の閾値未満であるか否か、及び前記エコー信号の前記パワー特性値が第3の閾値未満であるか否かを決定し、
前記録音信号の前記パワー特性値が前記第1の閾値未満であり、前記エコー信号の前記パワー特性値が前記第3の閾値未満である場合、前記雑音信号の前記パワースペクトルを取得するために、前記録音信号の前記パワースペクトルから前記エコー信号の前記パワースペクトルを減算するように更に構成される、請求項11に記載の装置。 - コンピューティングデバイスの処理により実行された場合、前記デバイスに対して請求項1乃至8のうちいずれか1項に記載の方法を実行させるプログラム命令を記憶したコンピュータ読み取り可能記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510741057.1A CN105280195B (zh) | 2015-11-04 | 2015-11-04 | 语音信号的处理方法及装置 |
CN201510741057.1 | 2015-11-04 | ||
PCT/CN2016/083622 WO2017075979A1 (zh) | 2015-11-04 | 2016-05-27 | 语音信号的处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018517167A JP2018517167A (ja) | 2018-06-28 |
JP6505252B2 true JP6505252B2 (ja) | 2019-04-24 |
Family
ID=55149085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017553962A Active JP6505252B2 (ja) | 2015-11-04 | 2016-05-27 | 音声信号を処理するための方法及び装置 |
Country Status (7)
Country | Link |
---|---|
US (2) | US10586551B2 (ja) |
EP (1) | EP3373300B1 (ja) |
JP (1) | JP6505252B2 (ja) |
KR (1) | KR101981879B1 (ja) |
CN (1) | CN105280195B (ja) |
MY (1) | MY179978A (ja) |
WO (1) | WO2017075979A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105280195B (zh) | 2015-11-04 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
US20170330566A1 (en) * | 2016-05-13 | 2017-11-16 | Bose Corporation | Distributed Volume Control for Speech Recognition |
EP3490199B1 (en) | 2016-09-22 | 2021-07-21 | Tencent Technology (Shenzhen) Company Limited | Calling method and terminal |
CN106506872B (zh) * | 2016-11-02 | 2019-05-24 | 腾讯科技(深圳)有限公司 | 通话状态检测方法及装置 |
CN108447472B (zh) * | 2017-02-16 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 语音唤醒方法及装置 |
CN106878575B (zh) * | 2017-02-24 | 2019-11-05 | 成都喜元网络科技有限公司 | 残留回声的估计方法及装置 |
CN107833579B (zh) * | 2017-10-30 | 2021-06-11 | 广州酷狗计算机科技有限公司 | 噪声消除方法、装置及计算机可读存储介质 |
CN108200526B (zh) * | 2017-12-29 | 2020-09-22 | 广州励丰文化科技股份有限公司 | 一种基于可信度曲线的音响调试方法及装置 |
CN110390947B (zh) * | 2018-04-23 | 2024-04-05 | 北京京东尚科信息技术有限公司 | 声源位置的确定方法、系统、设备和存储介质 |
US11335357B2 (en) * | 2018-08-14 | 2022-05-17 | Bose Corporation | Playback enhancement in audio systems |
CN109727605B (zh) * | 2018-12-29 | 2020-06-12 | 苏州思必驰信息科技有限公司 | 处理声音信号的方法及系统 |
CN111048096B (zh) * | 2019-12-24 | 2022-07-26 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN111048118B (zh) * | 2019-12-24 | 2022-07-26 | 大众问问(北京)信息科技有限公司 | 一种语音信号处理方法、装置及终端 |
CN111128194A (zh) * | 2019-12-31 | 2020-05-08 | 云知声智能科技股份有限公司 | 一种提高在线语音识别效果的系统及方法 |
CN112203188B (zh) * | 2020-07-24 | 2021-10-01 | 北京工业大学 | 一种自动音量调节方法 |
KR102424795B1 (ko) * | 2020-08-25 | 2022-07-25 | 서울과학기술대학교 산학협력단 | 음성 구간 검출 방법 |
CN112259125B (zh) * | 2020-10-23 | 2023-06-16 | 江苏理工学院 | 基于噪声的舒适度评价方法、系统、设备及可存储介质 |
US11610598B2 (en) * | 2021-04-14 | 2023-03-21 | Harris Global Communications, Inc. | Voice enhancement in presence of noise |
CN112820311A (zh) * | 2021-04-16 | 2021-05-18 | 成都启英泰伦科技有限公司 | 一种基于空间预测的回声消除方法及装置 |
CN113178192A (zh) * | 2021-04-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
CN115665642B (zh) * | 2022-12-12 | 2023-03-17 | 杭州兆华电子股份有限公司 | 一种噪声消除方法及系统 |
DE202023103428U1 (de) | 2023-06-21 | 2023-06-28 | Richik Kashyap | Ein Sprachqualitätsschätzsystem für reale Signale basierend auf nicht negativer frequenzgewichteter Energie |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04100460A (ja) * | 1990-08-20 | 1992-04-02 | Nippon Telegr & Teleph Corp <Ntt> | 電話機の歪測定方法 |
JP3397269B2 (ja) * | 1994-10-26 | 2003-04-14 | 日本電信電話株式会社 | 多チャネル反響消去方法 |
IL115892A (en) * | 1994-11-10 | 1999-05-09 | British Telecomm | Interference detection system for telecommunications |
JP3420705B2 (ja) * | 1998-03-16 | 2003-06-30 | 日本電信電話株式会社 | エコー抑圧方法及び装置並びにエコー抑圧プログラムが記憶されたコンピュータに読取り可能な記憶媒体 |
EP0980064A1 (de) * | 1998-06-26 | 2000-02-16 | Ascom AG | Verfahren zur Durchführung einer maschinengestützten Beurteilung der Uebertragungsqualität von Audiosignalen |
KR100723283B1 (ko) * | 1999-06-24 | 2007-05-30 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 음향 에코 및 잡음 제거 적응성 필터 |
WO2002013572A2 (en) * | 2000-08-07 | 2002-02-14 | Audia Technology, Inc. | Method and apparatus for filtering and compressing sound signals |
US7171003B1 (en) * | 2000-10-19 | 2007-01-30 | Lear Corporation | Robust and reliable acoustic echo and noise cancellation system for cabin communication |
US7117145B1 (en) * | 2000-10-19 | 2006-10-03 | Lear Corporation | Adaptive filter for speech enhancement in a noisy environment |
DE10157535B4 (de) * | 2000-12-13 | 2015-05-13 | Jörg Houpert | Verfahren und Vorrichtung zur Reduzierung zufälliger, kontinuierlicher, instationärer Störungen in Audiosignalen |
AU2003223359A1 (en) * | 2002-03-27 | 2003-10-13 | Aliphcom | Nicrophone and voice activity detection (vad) configurations for use with communication systems |
JP3864914B2 (ja) * | 2003-01-20 | 2007-01-10 | ソニー株式会社 | エコー抑圧装置 |
EP1591995B1 (en) * | 2004-04-29 | 2019-06-19 | Harman Becker Automotive Systems GmbH | Indoor communication system for a vehicular cabin |
US7454332B2 (en) * | 2004-06-15 | 2008-11-18 | Microsoft Corporation | Gain constrained noise suppression |
CN1321400C (zh) * | 2005-01-18 | 2007-06-13 | 中国电子科技集团公司第三十研究所 | 客观音质评价中基于噪声掩蔽门限算法的巴克谱失真测度方法 |
US8594320B2 (en) * | 2005-04-19 | 2013-11-26 | (Epfl) Ecole Polytechnique Federale De Lausanne | Hybrid echo and noise suppression method and device in a multi-channel audio signal |
ATE485583T1 (de) * | 2005-08-02 | 2010-11-15 | Koninkl Philips Electronics Nv | Verbesserung der sprachverständlichkeit in einer mobilen kommunikationsvorrichtung durch steuern der funktion eines vibrators in abhängigkeit von dem hintergrundgeräusch |
EP1931169A4 (en) * | 2005-09-02 | 2009-12-16 | Japan Adv Inst Science & Tech | POST-FILTER FOR A MICROPHONE MATRIX |
ATE492979T1 (de) * | 2005-09-20 | 2011-01-15 | Ericsson Telefon Ab L M | Verfahren zur messung der sprachverständlichkeit |
US8046218B2 (en) * | 2006-09-19 | 2011-10-25 | The Board Of Trustees Of The University Of Illinois | Speech and method for identifying perceptual features |
JP4509126B2 (ja) * | 2007-01-24 | 2010-07-21 | 沖電気工業株式会社 | エコーキャンセラ及びエコーキャンセル方法 |
US8954324B2 (en) * | 2007-09-28 | 2015-02-10 | Qualcomm Incorporated | Multiple microphone voice activity detector |
EP2048659B1 (en) * | 2007-10-08 | 2011-08-17 | Harman Becker Automotive Systems GmbH | Gain and spectral shape adjustment in audio signal processing |
DE602007007090D1 (de) * | 2007-10-11 | 2010-07-22 | Koninkl Kpn Nv | Verfahren und System zur Messung der Sprachverständlichkeit eines Tonübertragungssystems |
US8412525B2 (en) * | 2009-04-30 | 2013-04-02 | Microsoft Corporation | Noise robust speech classifier ensemble |
CN101582264A (zh) * | 2009-06-12 | 2009-11-18 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法及语音增加的声音采集系统 |
CN101763858A (zh) * | 2009-10-19 | 2010-06-30 | 瑞声声学科技(深圳)有限公司 | 双麦克风信号处理方法 |
US20110288860A1 (en) * | 2010-05-20 | 2011-11-24 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair |
GB2493327B (en) * | 2011-07-05 | 2018-06-06 | Skype | Processing audio signals |
DK2563045T3 (da) * | 2011-08-23 | 2014-10-27 | Oticon As | Fremgangsmåde og et binauralt lyttesystem for at maksimere en bedre øreeffekt |
CN102306496B (zh) * | 2011-09-05 | 2014-07-09 | 歌尔声学股份有限公司 | 一种多麦克风阵列噪声消除方法、装置及系统 |
CN102510418B (zh) * | 2011-10-28 | 2015-11-25 | 声科科技(南京)有限公司 | 噪声环境下的语音可懂度测量方法及装置 |
CN104050971A (zh) * | 2013-03-15 | 2014-09-17 | 杜比实验室特许公司 | 声学回声减轻装置和方法、音频处理装置和语音通信终端 |
CN103578479B (zh) * | 2013-09-18 | 2016-05-25 | 中国人民解放军电子工程学院 | 基于听觉掩蔽效应的语音可懂度测量方法 |
CN103606374A (zh) * | 2013-11-26 | 2014-02-26 | 国家电网公司 | 一种瘦终端的噪音消除和回声抑制方法及装置 |
US10262677B2 (en) * | 2015-09-02 | 2019-04-16 | The University Of Rochester | Systems and methods for removing reverberation from audio signals |
CN105280195B (zh) * | 2015-11-04 | 2018-12-28 | 腾讯科技(深圳)有限公司 | 语音信号的处理方法及装置 |
US10403299B2 (en) * | 2017-06-02 | 2019-09-03 | Apple Inc. | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition |
US20180358032A1 (en) * | 2017-06-12 | 2018-12-13 | Ryo Tanaka | System for collecting and processing audio signals |
-
2015
- 2015-11-04 CN CN201510741057.1A patent/CN105280195B/zh active Active
-
2016
- 2016-05-27 JP JP2017553962A patent/JP6505252B2/ja active Active
- 2016-05-27 EP EP16861250.5A patent/EP3373300B1/en active Active
- 2016-05-27 MY MYPI2017703990A patent/MY179978A/en unknown
- 2016-05-27 WO PCT/CN2016/083622 patent/WO2017075979A1/zh active Application Filing
- 2016-05-27 KR KR1020177029724A patent/KR101981879B1/ko active IP Right Grant
-
2017
- 2017-08-30 US US15/691,300 patent/US10586551B2/en active Active
-
2020
- 2020-01-28 US US16/774,854 patent/US10924614B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN105280195B (zh) | 2018-12-28 |
EP3373300A1 (en) | 2018-09-12 |
KR20170129211A (ko) | 2017-11-24 |
MY179978A (en) | 2020-11-19 |
JP2018517167A (ja) | 2018-06-28 |
EP3373300B1 (en) | 2020-09-16 |
US20200168237A1 (en) | 2020-05-28 |
US10586551B2 (en) | 2020-03-10 |
KR101981879B1 (ko) | 2019-05-23 |
CN105280195A (zh) | 2016-01-27 |
US10924614B2 (en) | 2021-02-16 |
US20170365270A1 (en) | 2017-12-21 |
WO2017075979A1 (zh) | 2017-05-11 |
EP3373300A4 (en) | 2019-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6505252B2 (ja) | 音声信号を処理するための方法及び装置 | |
US10609483B2 (en) | Method for sound effect compensation, non-transitory computer-readable storage medium, and terminal device | |
EP3547659B1 (en) | Method for processing audio signal and related products | |
US10923129B2 (en) | Method for processing signals, terminal device, and non-transitory readable storage medium | |
US10349176B1 (en) | Method for processing signals, terminal device, and non-transitory computer-readable storage medium | |
US20170214994A1 (en) | Earbud Control Using Proximity Detection | |
CN108540900B (zh) | 音量调节方法及相关产品 | |
US10687142B2 (en) | Method for input operation control and related products | |
US20230008818A1 (en) | Sound masking method and apparatus, and terminal device | |
JP2014531141A (ja) | 雑音を制御するための電子デバイス | |
US10878833B2 (en) | Speech processing method and terminal | |
CN109243488B (zh) | 音频检测方法、装置及存储介质 | |
US20140341386A1 (en) | Noise reduction | |
CN111314560A (zh) | 一种调整声音响度的方法及通信终端 | |
CN116994596A (zh) | 啸叫抑制方法、装置、存储介质及电子设备 | |
CN108810787B (zh) | 基于音频设备的异物检测方法和装置、终端 | |
WO2023284406A1 (zh) | 一种通话方法及电子设备 | |
CN114040285B (zh) | 耳机的前馈滤波器参数生成方法、设备、耳机及存储介质 | |
CN108551648B (zh) | 质量检测方法和装置、可读存储介质、终端 | |
WO2023284403A1 (zh) | 一种音频处理方法及设备 | |
CN116246645A (zh) | 语音处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190326 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6505252 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |