JP2021131536A - ダブルトーク状態検出方法、装置及び電子機器 - Google Patents
ダブルトーク状態検出方法、装置及び電子機器 Download PDFInfo
- Publication number
- JP2021131536A JP2021131536A JP2021019188A JP2021019188A JP2021131536A JP 2021131536 A JP2021131536 A JP 2021131536A JP 2021019188 A JP2021019188 A JP 2021019188A JP 2021019188 A JP2021019188 A JP 2021019188A JP 2021131536 A JP2021131536 A JP 2021131536A
- Authority
- JP
- Japan
- Prior art keywords
- ratio
- energy
- sub
- smoothing
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 105
- 238000009499 grossing Methods 0.000 claims abstract description 358
- 238000001914 filtration Methods 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 85
- 230000008569 process Effects 0.000 claims abstract description 61
- 230000015654 memory Effects 0.000 claims description 21
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 239000000126 substance Substances 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000002547 anomalous effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/002—Applications of echo suppressors or cancellers in telephonic connections
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
- H04M9/082—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
Description
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得ることであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数であることと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得ることと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含むダブルトーク状態検出方法を提供する。
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測することと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得ることと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む。
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算することと、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定することと、を含む。
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得るための第1計算モジュールであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数である第1計算モジュールと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るための平滑化モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態検出モジュールと、を含むダブルトーク状態検出装置を提供する。
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態決定モジュールと、を含む。
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算するための合計モジュールを含み、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定する。
少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサに通信可能に接続されたメモリを含み、
前記少なくとも1つのプロセッサにより実行されると、本願の各実施例に係る方法を前記少なくとも1つのプロセッサに実行させる、前記少なくとも1つのプロセッサによって実行可能な命令が前記メモリに記憶されている電子機器をさらに提供する。
前記コンピュータ命令は、本願の各実施例に係る方法を前記コンピュータに実行させる、非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供する。
ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるN個のサブエネルギー比を含み、ターゲットサブバンドにおけるN個のサブエネルギー比はターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーとターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、ターゲットサブバンドにおける第1エネルギー平滑化比の値はN個のサブエネルギー比に対して第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、ターゲットサブバンドにおける第2エネルギー平滑化比の値はN個の第1サブエネルギー平滑化比の値に対して第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、ターゲットサブバンドはM個のサブバンドのうちのいずれかのサブバンドである。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算するステップと、
合計が所定閾値よりも大きい場合、入力信号がダブルトーク状態であると決定し、又は、合計が所定閾値以下の場合、入力信号がシングルトーク状態であると決定するステップと、を含む。
M個のサブバンドにおける誤差信号のM個の第1エネルギー及びM個のサブバンドにおけるフィルタリング信号のM個の第2エネルギーを計算する。
ratio(n,k)に対して短時間平滑化を行い、ratio_short_sm(n,k)を得る。
式中、k1、k2のそれぞれに対応するサブ周波数範囲が第1所定周波数範囲内にあり、k1は正の整数であり、且つk1≦Mであり、k2は正の整数であり、且つk2≦Mであり、k1≦k2であり、RATIO_SNRは第nフレームの誤差信号におけるk2−k1+1個のエネルギー比の値の信号対雑音比の和であり、また、第nフレームの入力サブ信号におけるk2−k1+1個のエネルギー比の値の信号対雑音比の和であり、即ち、Iはk2−k1+1であるようにしてもよい。
M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得るための第1計算モジュール401であって、誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数である第1計算モジュール401と、
M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るための平滑化モジュール402と、
M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するための状態検出モジュール403と、を含む。
M個の第2エネルギー平滑化比の値に基づいて、M個の第2エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
M個の第1エネルギー平滑化比の値及びM個の第2エネルギー平滑化比の値の雑音に基づいて、M個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、入力信号の状態を決定するための状態決定モジュールと、を含む。
ターゲットサブバンドにおけるエネルギー比の値はターゲットサブバンドにおけるN個のサブエネルギー比を含み、ターゲットサブバンドにおけるN個のサブエネルギー比はターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーとターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、ターゲットサブバンドにおける第1エネルギー平滑化比の値はN個のサブエネルギー比に対して第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、ターゲットサブバンドにおける第2エネルギー平滑化比の値はN個の第1サブエネルギー平滑化比の値に対して第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、ターゲットサブバンドはM個のサブバンドのうちのいずれかのサブバンドである。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。)
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。)
M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値信号対雑音比の合計を計算するための合計モジュールを含み、
合計が所定閾値よりも大きい場合、入力信号がダブルトーク状態であると決定し、又は、合計が所定閾値以下の場合、入力信号がシングルトーク状態であると決定する。
Claims (15)
- M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得することであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数であることと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得ることと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む、ことを特徴とするダブルトーク状態検出方法。 - 前記の前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測することと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得ることと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することと、を含む、ことを特徴とする請求項1に記載の方法。 - 前記フィルタリング信号はNフレームのフィルタリングサブ信号を含み、前記誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである、ことを特徴とする請求項1に記載の方法。 - 以下の式によって前記M個のエネルギー比の値に対して第1平滑化処理を行う、ことを特徴とする請求項3に記載の方法。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。) - 以下の式によって前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行う、ことを特徴とする請求項3に記載の方法。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。) - 前記の前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定することは、
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算することと、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定することと、を含む、ことを特徴とする請求項2に記載の方法。 - M個のサブバンドのそれぞれにおける誤差信号の第1エネルギーと同サブバンドにおけるフィルタリング信号の第2エネルギーとのエネルギー比の値を計算し、M個のエネルギー比の値を得るための第1計算モジュールであって、前記誤差信号はマイクロフォンによって収集された入力信号とフィルタリング信号との差であり、前記フィルタリング信号は基準信号をフィルタリング処理した信号であり、Mは正の整数である第1計算モジュールと、
前記M個のエネルギー比の値に対して第1平滑化処理を行い、M個の第1エネルギー平滑化比の値を得て、前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行い、M個の第2エネルギー平滑化比の値を得るための平滑化モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態検出モジュールと、を含む、ことを特徴とするダブルトーク状態検出装置。 - 前記状態検出モジュールは、
前記M個の第2エネルギー平滑化比の値に基づいて、前記M個の第2エネルギー平滑化比の値の雑音を予測するための雑音予測モジュールと、
前記M個の第1エネルギー平滑化比の値及び前記M個の第2エネルギー平滑化比の値の雑音に基づいて、前記M個のエネルギー比の値の信号対雑音比を得るための信号対雑音比取得モジュールと、
前記M個のエネルギー比の値の信号対雑音比及び所定閾値に基づいてダブルトーク状態検出を行い、前記入力信号の状態を決定するための状態決定モジュールと、を含む、ことを特徴とする請求項7に記載の装置。 - 前記フィルタリング信号はNフレームのフィルタリングサブ信号を含み、前記誤差信号はNフレームの誤差サブ信号を含み、Nは正の整数であり、
ターゲットサブバンドにおける前記エネルギー比の値は前記ターゲットサブバンドにおけるN個のサブエネルギー比を含み、前記ターゲットサブバンドにおけるN個のサブエネルギー比は前記ターゲットサブバンドにおける各フレームの誤差サブ信号の第1エネルギーと前記ターゲットサブバンドにおける対応するフレームのフィルタリングサブ信号の第2エネルギーとのエネルギー比を含み、前記ターゲットサブバンドにおける前記第1エネルギー平滑化比の値は前記N個のサブエネルギー比に対して前記第1平滑化処理を行って得たN個の第1サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドにおける前記第2エネルギー平滑化比の値は前記N個の第1サブエネルギー平滑化比の値に対して前記第2平滑化処理を行って得たN個の第2サブエネルギー平滑化比の値を含み、前記ターゲットサブバンドは前記M個のサブバンドのうちのいずれかのサブバンドである、ことを特徴とする請求項7に記載の装置。 - 前記平滑化モジュールは、以下の式によって前記M個のエネルギー比の値に対して第1平滑化処理を行う、ことを特徴とする請求項9に記載の装置。
ratio_short_sm(n+1,k)=α*ratio_short_sm(n,k)+(1-α)*ratio(n+1,k)
(ただし、αは第1平滑化因子であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_short_sm(1,k)はratio(1,k)に等しく、ratio(1,k)はk番目のサブバンドにおける第1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比である。) - 前記平滑化モジュールは、以下の式によって前記M個のエネルギー平滑化比の値に対して第2平滑化処理を行う、ことを特徴とする請求項9に記載の装置。
ratio_long_sm(n+1,k)=β*ratio_long_sm(n,k)+(1-β)*ratio_short_sm(n+1,k)
(ただし、βは第2平滑化因子であり、前記ratio_long_sm(n+1,k)は前記ratio_short_sm(n+1,k)に対して第2平滑化処理を行って得た第2サブエネルギー平滑化比の値であり、前記ratio_short_sm(n+1,k)は前記ratio(n+1,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、前記ratio(n+1,k)はk番目のサブバンドにおける第n+1フレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第n+1フレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、前記ratio_long_sm(n,k)は前記ratio_short_sm(n,k)に対して第2平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio_short_sm(n,k)は前記ratio(n,k)に対して第1平滑化処理を行って得た第1サブエネルギー平滑化比の値であり、ratio(n,k)はk番目のサブバンドにおける第nフレームの誤差サブ信号の第1エネルギーとk番目のサブバンドにおける第nフレームのフィルタリングサブ信号の第2エネルギーとのサブエネルギー比であり、nは正の整数であり、且つn≦N−1であり、kは正の整数であり、且つk≦Mであり、ratio_long_sm(1,k)はratio_short_sm(1,k)に等しい。) - 前記状態決定モジュールは、前記入力信号の状態を決定し、
前記M個のエネルギー比の値の信号対雑音比のうちのI(Iは正の整数で、且つI≦Mである)個のエネルギー比の値の信号対雑音比の合計を計算するための合計モジュールを含み、
前記合計が前記所定閾値よりも大きい場合、前記入力信号がダブルトーク状態であると決定し、又は、前記合計が前記所定閾値以下の場合、前記入力信号がシングルトーク状態であると決定する、ことを特徴とする請求項8に記載の装置。 - 少なくとも1つのプロセッサ、及び
前記少なくとも1つのプロセッサに通信可能に接続されたメモリを含み、
前記少なくとも1つのプロセッサにより実行されると、請求項1〜6のいずれか1項に記載の方法を前記少なくとも1つのプロセッサに実行させる、前記少なくとも1つのプロセッサによって実行可能な命令が前記メモリに記憶されている、ことを特徴とする電子機器。 - コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、請求項1〜6のいずれか1項に記載の方法を前記コンピュータに実行させる、ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムを含むコンピュータプログラム製品であって、
前記コンピュータプログラムがプロセッサにより実行されると、請求項1〜6のいずれか1項に記載の方法が実現される、ことを特徴とするコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105947.4A CN111161748B (zh) | 2020-02-20 | 2020-02-20 | 一种双讲状态检测方法、装置以及电子设备 |
CN202010105947.4 | 2020-02-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021131536A true JP2021131536A (ja) | 2021-09-09 |
JP7159366B2 JP7159366B2 (ja) | 2022-10-24 |
Family
ID=70566015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021019188A Active JP7159366B2 (ja) | 2020-02-20 | 2021-02-09 | ダブルトーク状態検出方法、装置及び電子機器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11804235B2 (ja) |
EP (1) | EP3869775B1 (ja) |
JP (1) | JP7159366B2 (ja) |
KR (1) | KR102523305B1 (ja) |
CN (1) | CN111161748B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112292844B (zh) * | 2019-05-22 | 2022-04-15 | 深圳市汇顶科技股份有限公司 | 双端通话检测方法、双端通话检测装置以及回声消除系统 |
CN111161748B (zh) * | 2020-02-20 | 2022-09-23 | 百度在线网络技术(北京)有限公司 | 一种双讲状态检测方法、装置以及电子设备 |
CN112837697B (zh) * | 2021-02-20 | 2024-05-14 | 北京猿力未来科技有限公司 | 一种回声抑制方法及装置 |
CN113223547B (zh) * | 2021-04-30 | 2024-05-24 | 杭州网易智企科技有限公司 | 双讲检测方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007110527A (ja) * | 2005-10-14 | 2007-04-26 | Matsushita Electric Works Ltd | 拡声通話装置 |
JP2010055024A (ja) * | 2008-08-29 | 2010-03-11 | Toshiba Corp | 信号補正装置 |
JP2012510779A (ja) * | 2008-12-02 | 2012-05-10 | クゥアルコム・インコーポレイテッド | 音響的に過酷な環境におけるダブルトーク検出のためのシステム及び方法 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020103636A1 (en) * | 2001-01-26 | 2002-08-01 | Tucker Luke A. | Frequency-domain post-filtering voice-activity detector |
US7062040B2 (en) * | 2002-09-20 | 2006-06-13 | Agere Systems Inc. | Suppression of echo signals and the like |
EP1521240A1 (en) * | 2003-10-01 | 2005-04-06 | Siemens Aktiengesellschaft | Speech coding method applying echo cancellation by modifying the codebook gain |
US7577248B2 (en) * | 2004-06-25 | 2009-08-18 | Texas Instruments Incorporated | Method and apparatus for echo cancellation, digit filter adaptation, automatic gain control and echo suppression utilizing block least mean squares |
US20060018460A1 (en) * | 2004-06-25 | 2006-01-26 | Mccree Alan V | Acoustic echo devices and methods |
US7778408B2 (en) * | 2004-12-30 | 2010-08-17 | Texas Instruments Incorporated | Method and apparatus for acoustic echo cancellation utilizing dual filters |
US7764783B1 (en) * | 2005-08-15 | 2010-07-27 | Fortemedia, Inc. | Acoustic echo cancellation with oversampling |
US8081753B2 (en) * | 2007-04-02 | 2011-12-20 | Microsoft Corporation | Hybrid echo canceller controllers |
GB2449720A (en) * | 2007-05-31 | 2008-12-03 | Zarlink Semiconductor Inc | Detecting double talk conditions in a hands free communication system |
WO2009028023A1 (ja) * | 2007-08-24 | 2009-03-05 | Fujitsu Limited | エコー抑制装置、エコー抑制システム、エコー抑制方法及びコンピュータプログラム |
US8175871B2 (en) * | 2007-09-28 | 2012-05-08 | Qualcomm Incorporated | Apparatus and method of noise and echo reduction in multiple microphone audio systems |
GB2456400B (en) * | 2008-01-21 | 2012-12-26 | Skype | Reducing echo in a signal to be transmitted in a communication system |
US8472616B1 (en) * | 2009-04-02 | 2013-06-25 | Audience, Inc. | Self calibration of envelope-based acoustic echo cancellation |
CN103325379A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于声学回声控制的方法与装置 |
US9088336B2 (en) * | 2012-09-06 | 2015-07-21 | Imagination Technologies Limited | Systems and methods of echo and noise cancellation in voice communication |
US8934622B2 (en) * | 2012-10-01 | 2015-01-13 | Via Telecom Co., Ltd. | Method for detecting double-talk condition and system using the same |
CN104050971A (zh) * | 2013-03-15 | 2014-09-17 | 杜比实验室特许公司 | 声学回声减轻装置和方法、音频处理装置和语音通信终端 |
CN105957520B (zh) * | 2016-07-04 | 2019-10-11 | 北京邮电大学 | 一种适用于回声消除系统的语音状态检测方法 |
CN109256145B (zh) | 2017-07-14 | 2021-11-02 | 北京搜狗科技发展有限公司 | 基于终端的音频处理方法、装置、终端和可读存储介质 |
US10863269B2 (en) * | 2017-10-03 | 2020-12-08 | Bose Corporation | Spatial double-talk detector |
CN107742522B (zh) * | 2017-10-23 | 2022-01-14 | 科大讯飞股份有限公司 | 基于麦克风阵列的目标语音获取方法及装置 |
US10115411B1 (en) * | 2017-11-27 | 2018-10-30 | Amazon Technologies, Inc. | Methods for suppressing residual echo |
CN108172233B (zh) * | 2017-12-12 | 2019-08-13 | 天格科技(杭州)有限公司 | 基于远端估计信号和误差信号回归因子的回声消除方法 |
CN108806713B (zh) | 2018-05-22 | 2020-06-16 | 出门问问信息科技有限公司 | 一种双讲状态检测方法及装置 |
US10937441B1 (en) * | 2019-01-04 | 2021-03-02 | Amazon Technologies, Inc. | Beam level based adaptive target selection |
CN112292844B (zh) * | 2019-05-22 | 2022-04-15 | 深圳市汇顶科技股份有限公司 | 双端通话检测方法、双端通话检测装置以及回声消除系统 |
CN110634496B (zh) * | 2019-10-22 | 2021-12-24 | 广州视源电子科技股份有限公司 | 一种双讲检测方法、装置、计算机设备和存储介质 |
CN111161748B (zh) * | 2020-02-20 | 2022-09-23 | 百度在线网络技术(北京)有限公司 | 一种双讲状态检测方法、装置以及电子设备 |
-
2020
- 2020-02-20 CN CN202010105947.4A patent/CN111161748B/zh active Active
-
2021
- 2021-02-05 US US17/169,035 patent/US11804235B2/en active Active
- 2021-02-08 EP EP21155668.3A patent/EP3869775B1/en active Active
- 2021-02-09 JP JP2021019188A patent/JP7159366B2/ja active Active
- 2021-02-10 KR KR1020210019091A patent/KR102523305B1/ko active IP Right Grant
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007110527A (ja) * | 2005-10-14 | 2007-04-26 | Matsushita Electric Works Ltd | 拡声通話装置 |
JP2010055024A (ja) * | 2008-08-29 | 2010-03-11 | Toshiba Corp | 信号補正装置 |
JP2012510779A (ja) * | 2008-12-02 | 2012-05-10 | クゥアルコム・インコーポレイテッド | 音響的に過酷な環境におけるダブルトーク検出のためのシステム及び方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111161748A (zh) | 2020-05-15 |
KR102523305B1 (ko) | 2023-04-19 |
EP3869775A1 (en) | 2021-08-25 |
JP7159366B2 (ja) | 2022-10-24 |
US11804235B2 (en) | 2023-10-31 |
US20210264935A1 (en) | 2021-08-26 |
EP3869775B1 (en) | 2022-12-21 |
CN111161748B (zh) | 2022-09-23 |
KR20210106905A (ko) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021131536A (ja) | ダブルトーク状態検出方法、装置及び電子機器 | |
CN110199351B (zh) | 混合后回声消除系统及方法 | |
EP2973557B1 (en) | Acoustic echo mitigation apparatus and method, audio processing apparatus and voice communication terminal | |
CN109087663B (zh) | 信号处理器 | |
US11349525B2 (en) | Double talk detection method, double talk detection apparatus and echo cancellation system | |
WO2017065989A1 (en) | Audio signal processing | |
US10181329B2 (en) | Audio processing circuit and method for reducing noise in an audio signal | |
US20190132452A1 (en) | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications | |
US20100177884A1 (en) | Echo presence determination in voice conversations | |
KR20010043833A (ko) | 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감 | |
KR20160076059A (ko) | 디스플레이장치 및 그 반향 제거방법 | |
SE1150031A1 (sv) | Metod och anordning för mikrofonval | |
CN111968662A (zh) | 音频信号的处理方法及装置、存储介质 | |
CN112669878B (zh) | 声音增益值的计算方法、装置和电子设备 | |
CN113160846A (zh) | 噪声抑制方法和电子设备 | |
CN112997249B (zh) | 语音处理方法、装置、存储介质及电子设备 | |
WO2000062281A1 (en) | Signal noise reduction by time-domain spectral subtraction | |
US20230138637A1 (en) | Echo residual suppression | |
CN113763975B (zh) | 一种语音信号处理方法、装置及终端 | |
CN112489669A (zh) | 一种音频信号处理方法、装置、设备和介质 | |
CN110971769A (zh) | 通话信号的处理方法、装置、电子设备及存储介质 | |
US20230115316A1 (en) | Double talk detection using capture up-sampling | |
CN116962583A (zh) | 一种回声控制的方法、装置、设备、存储介质及程序产品 | |
Li et al. | Dynamic Neural Network-based Solutions for Acoustic Echo Suppression | |
Pandey et al. | Impementation of LMS and VSLMS Algorithm for Speech Enhancement using TMS320C6713 DSP Processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220322 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221012 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7159366 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |