JP7302597B2 - 信号処理装置、信号処理方法、プログラム - Google Patents
信号処理装置、信号処理方法、プログラム Download PDFInfo
- Publication number
- JP7302597B2 JP7302597B2 JP2020525310A JP2020525310A JP7302597B2 JP 7302597 B2 JP7302597 B2 JP 7302597B2 JP 2020525310 A JP2020525310 A JP 2020525310A JP 2020525310 A JP2020525310 A JP 2020525310A JP 7302597 B2 JP7302597 B2 JP 7302597B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- clip
- microphone
- clipped
- microphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims description 199
- 238000003672 processing method Methods 0.000 title description 6
- PWPJGUXAGUPAHP-UHFFFAOYSA-N lufenuron Chemical compound C1=C(Cl)C(OC(F)(F)C(C(F)(F)F)F)=CC(Cl)=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F PWPJGUXAGUPAHP-UHFFFAOYSA-N 0.000 title 1
- 238000000034 method Methods 0.000 claims description 68
- 230000001629 suppression Effects 0.000 claims description 65
- 238000001514 detection method Methods 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 7
- 230000010365 information processing Effects 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 description 29
- 238000005516 engineering process Methods 0.000 description 28
- 238000011156 evaluation Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 14
- 238000012937 correction Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 238000012546 transfer Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/23—Direction finding using a sum-delay beam-former
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Circuit For Audible Band Transducer (AREA)
- Telephone Function (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
これにより、ユーザの発話レベルが大きい場合には信号の抑圧量を抑えて発話成分が抑圧されてしまうことの防止を図り、またユーザの発話レベルが小さい場合には信号の抑圧量を強めてクリッピング雑音を抑圧することが可能とされる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
<1.信号処理装置の外観構成>
<2.信号処理装置の電気的構成>
<3.信号処理装置の動作>
<4.実施形態におけるエコーキャンセル手法>
<5.実施形態としてのクリップ補償手法>
<6.処理手順>
<7.変形例>
<8.実施形態のまとめ>
<9.本技術>
図1は、本技術に係る実施形態としての信号処理装置1の外観構成例を示した斜視図である。
図示のように信号処理装置1は、略円柱状の筐体11と、筐体11の上方に位置された略円柱状の可動部14とを備えている。
可動部14は、図中の白抜き両矢印で示す方向への回転(パン方向の回転)が可能となるように筐体11によって支持されている。筐体11は、例えばテーブルや床等の所定の位置に載置された状態において、可動部14と連動して回転することはなく、いわば固定部を形成している。
可動部14は、駆動部として信号処理装置1に内蔵されたサーボモータ21(図3を参照して後述する)により回転駆動される。
図2に示されるように、マイクロフォンアレイ12は、複数(図2の例においては8個としている)のマイクロフォン13が円周上に略等間隔に配列されて構成されている。
可動部14側ではなく筐体11側にマイクロフォンアレイ12が設けられていることで、可動部14が回転しても各マイクロフォン13の位置は不変とされる。すなわち、空間100における各マイクロフォン13の位置は可動部14が回転しても変化しない。
信号処理装置1は、例えばスマートスピーカ、音声エージェント、ロボット等に組み込まれ、周囲の音源(例えば人)から音声が発せられた場合、その音声が発せられた発話方向を推定する機能を有している。推定された方向は、信号処理装置1の正面を発話方向に指向させるのに利用される。
図3は、信号処理装置1の電気的な構成例を説明するためのブロック図である。
図示のように信号処理装置1は、図1に示したマイクロフォンアレイ12、表示部15、スピーカ16と共に、音声信号処理部17、制御部18、表示駆動部19、モータ駆動部20、及び音声駆動部22を備えている。
なお、図示は省略したが、各マイクロフォン13からの信号は、それぞれA/D変換器によりアナログ/デジタル変換された上で音声信号処理部17に入力される。
エコー成分抑圧部17aは、後述する出力音声信号Ssを参照信号として、各マイクロフォン13の信号に含まれるスピーカ16からの出力信号成分を抑圧するためのエコーキャンセル処理を行う。なお、本例のエコー成分抑圧部17aは、各マイクロフォン13からの信号を対象としたクリップ補償を行うが、これについては後に改めて説明する。
なお、音声抽出処理部17bの詳細については改めて説明する。
例えば、制御部18は、表示部15による情報表示に係る制御を行う。具体的には、表示部15を表示駆動するためのドライバ回路を備えた表示駆動部19に対する指示を行って表示部15に各種の情報表示を実行させる。
なお、制御部18がインターネット等を介してクラウド60に接続され、クラウド60に音声認識エンジンが存在する場合においては、該音声認識エンジンを用いて音声認識処理を行うこともできる。
モータ駆動部20は、サーボモータ21を駆動するためのドライバ回路等を備え、制御部18から入力した回転角情報に基づきサーボモータ21を駆動する。
なお以下、このように制御部18が音声駆動部22に出力する音声信号を「出力音声信号Ss」と表記する。
図示のように音声信号処理部17は、図3に示したエコー成分抑圧部17a及び音声抽出処理部17bを備えており、エコー成分抑圧部17aはクリップ検出部30、FFT(Fast Fourier Transformation )処理部31、AEC(Acoustic Echo Cancellation)処理部32、クリップ補償部33、及びFFT処理部34を備え、音声抽出処理部17bは、発話区間推定部35、発話方向推定部36、音声強調部37、及び雑音抑圧部38を備えている。
図5は、クリップのイメージを示している。クリップは、A/D変換時に量子化データが最大値に張り付く現象を意味するものである。
クリップ検出部30は、クリップを検出したことに応じ、クリップを検出したマイクロフォン13のチャネルを表す情報をクリップ補償部33に出力する。
また、FFT処理部34は、時間信号として入力される出力音声信号Ssについて、FFTによる直交変換を行って周波数信号に変換する。
ここで、直交変換については、FFTに限定されるものでなく、例えばDCT(Discrete Cosine Transformation)等の他の手法を採用することもできる。
AEC処理部32は、入力された出力音声信号Ssに基づき、各マイクロフォン13からの信号に含まれるエコー成分をキャンセルする処理を行う。すなわち、スピーカ16から出力された音声が所定の時間だけ遅延して、エコーとしてマイクロフォンアレイ12により他の音に混ざって収音されることがある。AEC処理部32は、出力音声信号Ssを参照信号として、各マイクロフォン13の信号から該エコーの成分を相殺するように処理を行う。
また、本例のAEC処理部32は、後述するダブルトーク評価に係る処理を行うが、これについては改めて説明する。
本例では、クリップ補償部33には、AEC処理部32がダブルトークに係る評価を行って生成するダブルトーク評価値Diが入力され、クリップ補償部33は該ダブルトーク評価値Diに基づいてクリップ補償を行うことになるが、これについては改めて説明する。
なお、発話区間の具体的な推定手法については、例えばAI(Artificial Intelligence)の技術(深層学習等)を利用した手法等、種々の手法が考えられ、また本技術に直接的に関わるものでもないことから、具体的な処理の説明については省略する。
なお、発話方向の推定手法としては、MUSIC(Multiple Signal Classification)法を基礎とした推定手法、具体的には、例えば一般化固有値分解を用いたMUSIC法に基づく推定手法等の種々の手法を挙げることができるが、発話方向の推定手法についても本技術に直接的に関わるものではなく、具体的な処理については説明を省略する。
この雑音抑圧部38による出力信号が、前述した抽出音声信号Seとして音声抽出処理部17bより出力される。
続いて、図6のフローチャートを参照して、信号処理装置1の動作について説明する。
なお、図6では、AEC処理部32によるエコーキャンセルやクリップ補償部33によるクリップ補償に係る動作については省略している。
ステップS2では、発話方向推定部36により発話方向推定処理が実行される。
ステップS3では、音声強調部37が信号を強調する。すなわち、発話方向と推定された方向の音声成分が強調される。
さらに、ステップS4では、雑音抑圧部38が雑音成分を抑圧し、SNR(Signal-to-Noise Ratio)を改善する。
さらに、ステップS8で制御部18は、音声駆動部22により音声をスピーカ16から出力させる。
ここで、実施形態としてのクリップ補償の説明に先立ち、先ずは実施形態で前提とするエコーキャンセル手法について説明しておく。
図7を参照し、エコーキャンセル処理の基本的な概念について説明しておく。
先ず、ある時間フレームnにおけるスピーカ16による出力信号(出力音声信号Ss)を、参照信号x(n)と表記する。参照信号x(n)は、スピーカ16から出力された後、空間を通してマイクロフォン13に入力される。このときマイクロフォン13で得られる信号(収音信号)をマイク入力信号d(n)と表記する。
[式3]のように、マイク入力信号d(k,n)から、推定伝達特性w(k,n)を畳み込まれたタップ長L個分の参照信号(x)として得られる推定回り込み信号を差し引くことで、誤差信号e(k,n)を得る。
図7を参照して分かるように、この誤差信号e(k,n)が、エコーキャンセル処理の出力信号に相当する。
LMS法では誤差信号e(k,n)の平均パワーが最小になるようにwを逐次的に更新していく。
なお、LMS法の他に、更新式の参照信号を正規化したNLMS(Normalized LMS)、APA(Affine Projection Algorithm)、RLS(Recursive least square)等の手法がある。何れの手法においても、推定伝達特性を学習するために参照信号xを用いる。
ここで言うダブルトークとは、図9に示すように、ユーザ発話とスピーカ出力とが時間的に重複して生じることを意味する。
ここで、以下の説明においては、時刻情報、周波数情報を説明内で扱わない限り、時刻n、周波数ビン番号kについての表記は省略する。
またエコーキャンセル処理部32aは、誤差信号e、参照信号x、及びダブルトーク評価部32bより入力されるダブルトーク評価値Diに基づき、後述する[式6]に従って推定伝達特性wの逐次的な学習を行う。
続いて、実施形態としてのクリップ補償手法について説明する。
先ず前提として、時間信号でクリップした信号をフーリエ変換により周波数成分に分解した際には、本来空間伝達中には存在しない信号が各周波数にノイズとして現れる(クリッピングノイズ)。このクリッピングノイズは、本例で用いるような線形エコーキャンセラでは除去することができず、クリップした瞬間のみ大音量の消し残りが発生してしまう。この消し残り成分は広域にわたり発生し、後段の音声認識の精度を悪化させる要因となる。
本実施形態では、このような前提を考慮したクリップ補償を行う。
以下の例では、上記の平均パワー比として、クリップしていないチャネルのうちでの最小の平均パワーとの比を用いる。
ここで、以下では、クリップ補償後の信号を「ei^~」と表記する(なお「^~」は「~」を「ei」の上方に表記することを意味する)。
また、「Pi^ ̄」(「^ ̄」は「 ̄」を「Pi」の上方に表記することを意味する)は「Pi^ ̄=E[eiei H]」であり、iチャネルのエコーキャンセル処理後の信号の平均パワーを表し、「PMin^ ̄」(「^ ̄」は「 ̄」を「PMin」の上方に表記することを意味する)は、クリップしていないチャネルのうちでの最小の平均パワーを意味する。
ここでの平均パワーは、スピーカ出力があり且つクリップしていない区間での平均パワーを意味する。
すなわち、クリップしたチャネル(i)の信号からは位相情報だけを抽出し、信号パワーはクリップしていないチャネル(本例では平均パワー最小のチャネル)の瞬時パワーに置き換える。ただし、このままであると、クリップしていなかった場合に出力されたであろうエコーキャンセル処理後の信号パワーにはならないため、逐次的に求めていたチャネル間の信号パワー比を用いて、置き換えた信号パワーを補正する。
換言すれば、[式7]によるクリップ補償は、エコーキャンセル処理後に消し残った非線形成分を抑圧し、クリップしていないチャネルのマイク入力信号情報をもとに、クリップしたチャネルの信号をクリップしていない場合の推定抑圧レベルまでゲイン補正するものであると表現できる。
また、信号パワーはクリップしていないチャネルの瞬時パワーに置き換えるという点については、[式7]における「eMineH Min」の項により表されている。
さらに、置き換えた信号パワーを逐次的に求めていたチャネル間の信号パワー比を用いて補正するという点については、[式7]における「Pi^ ̄/PMin^ ̄」の項により表されている。
具体的に、図中「ケース1」として表す、スピーカ出力とユーザ発話の双方が「あり」の場合には、クリップ補償をしつつ、ユーザ発話に応じてクリップ補償における抑圧量を調整する。
また、「ケース2」としての、スピーカ出力が「あり」且つユーザ発話が「なし」の場合には、クリップ補償を行う。
「ケース3」としての、スピーカ出力が「なし」且つユーザ発話が「あり」の場合には、音声認識エンジンに合わせた処理を行う。
「ケース4」としての、スピーカ出力とユーザ発話の双方が「なし」の場合には、クリップ補償は行わない。この場合、エコーキャンセル処理後の信号は音声認識前に破棄する。
なお、ケース1におけるクリップ原因は、図示のようにダブルトークであると推定できる。また、ケース2、ケース3、ケース4のクリップ原因はそれぞれスピーカ回り込み、ユーザ発話、雑音であると推定できる。
ユーザ発話レベルが大きい場合には、クリッピング雑音の重畳区間においても目的音(発話音)の情報が多分に含まれる傾向となるため、クリップ補償における信号抑圧量を抑えた方が、後段の音声認識処理にとって好適となる。逆に、ユーザ発話レベルが小さい場合、大きなクリッピング雑音に発話成分が埋もれてしまう傾向となるため、クリップ補償における信号抑圧量を強めた方が、後段の音声認識処理にとって好適となる。
下記[式9]は、抑圧量補正係数αdtの調整式の例を示している。[式9]では、シグモイド関数による調整式を例示しており、「a」はシグモイド関数傾き定数、「c」はシグモイド関数中心補正定数である。
「Max」は、下記[式10][式11]により表される値であり、抑圧量補正係数αdtの最大値を意味する。すなわち、[式8]で計算される「ei^~」を、AEC処理部32から入力される「ei」と同一パワーにする値であり、換言すればクリップ補償をキャンセルする(信号抑圧量を最大に弱めた状態とする)値である。
[式9]に示した調整式によれば、ユーザ発話レベル推定値としての「Pdti^ ̄」の大きさが変化することに伴い、抑圧量補正係数αdtの値が「1」から「Max」の間で調整される。具体的には、発話レベル推定値「Pdti^ ̄」が大きい場合には抑圧量補正係数αdtの値が「Max」に近づくことになり、それにより[式8]による信号抑圧量が弱められる。逆に、発話レベル推定値「Pdti^ ̄」が小さい場合には抑圧量補正係数αdtの値が「1」に近づき、[式8]による信号抑圧量が強められる。
これにより、クリップしたマイクロフォン13の信号の発話レベルを、クリップが生じた時刻において適切に得ることができる。
具体的には、出力音声信号Ssに基づきスピーカ出力有無の判定を行い、その結果スピーカ出力ありと判定され、且つダブルトーク評価値Diがダブルトーク判定閾値γ以下であると判定した場合に、ダブルトーク中であるとの判定結果を得る。
ケース2のクリップ補償としては、[式7]に示した手法によるクリップ補償を行う。
ケース3のようにユーザ発話があり且つスピーカ出力がない場合、すなわち、クリップの原因がユーザ発話であると推定される場合には、信号を抑圧しない方が却って後段の音声認識結果が良好となる場合があることが経験上分かっている。そのような場合にはクリップ補償をしないものとすることで、音声認識精度の向上を図ることができる。
なお、[式5]で説明したように、ダブルトーク評価値Diは、ユーザ発話のあるダブルトーク中において値が大きくなる評価値とされている。
図12は、従来技術として、上述した特許文献1に記載のクリップ補償手法を模式化して表している。
特許文献1に記載の手法では、クリップした信号(音声信号Mb)のクリップ部分を含むゼロクロス点間の信号(区分信号m1b)を、クリップしていない信号(音声信号Ma)における対応するゼロクロス点間の信号(区分信号m1a)により置き換えている。
図14のフローチャートを参照し、上記した実施形態としてのクリップ補償手法を実現するために実行すべき具体的な処理手順を説明する。
クリップ補償部33は、図14に示す処理を時間フレームごとに繰り返し実行する。
なお、クリップ補償部33は、図14に示す処理とは別に、マイクロフォン13の各チャネルごとの平均パワー(スピーカ出力があり且つクリップしていない区間でのエコーキャンセル処理後の平均パワー)、及びユーザ発話レベル推定値としての「Pdti^ ̄」を逐次的に計算する処理を実行している。
クリップを検出していないと判定した場合、クリップ補償部33はステップS102で終了条件が成立したか否かを判定する。なお、ここでの終了条件は、例えば信号処理装置1の電源オフ等、処理終了条件として予め定められた条件である。
終了条件が成立していなければ、クリップ補償部33はステップS101に戻り、また終了条件が成立した場合は図14に示す一連の処理を終える。
スピーカ出力があると判定した場合、クリップ補償部33はステップS106でユーザ発話があるか否かを判定する。
ステップS110でユーザ発話があると判定した場合(ケース3)、クリップ補償部33はステップS111に進み、認識エンジンに合わせた抑圧係数に更新する処理を行う。すなわち、音声認識エンジンの特性に応じて定められた抑圧量補正係数αdtをステップS104で求めた抑圧係数に乗じることで、抑圧係数を更新する。
その上でクリップ補償部33は、ステップS112のクリッピング信号抑圧処理として、ステップS111で更新した抑圧係数を用いて[式8]により「ei^~」を計算する処理を行い、ステップS101に戻る。
ここで、実施形態としては上記した具体例に限定されず、本技術の要旨を逸脱しない範囲内において種々の変更が可能である。
例えば、上記では、複数のマイクロフォン13が円周上に配置される例を挙げたが、例えば直線的な配置等の円周上配置以外の配置を採用することもできる。
なお、信号処理装置1としては、スピーカ16ではなくマイクロフォン13側を変位させる構成を採ることもでき、その場合においても上記と同様にクリップが検出されたことに応じてマイクロフォン13を変位させることで、上記と同様の効果を得ることができる。
また、スピーカ16やマイクロフォン13の変位は、回転による変位に限られない。例えば、信号処理装置1としては、車輪とその駆動部とを備える構成等により、自身の移動を可能とする構成を採ることもできる。その場合には、クリップが検出されたことに応じて信号処理装置1自体が移動されるように上記駆動部を制御することもできる。このように信号処理装置1自体が移動することでも、スピーカ16やマイクロフォン13の位置を壁反射等が少ない位置に移動させることが可能となり、上記と同様の効果を得ることができる。
なお、上記のようにクリップの検出に応じてスピーカ16やマイクロフォン13を変位させる構成は、[式7]や[式8]に示したクリップ補償を行わない場合にも適用することができる。
上記のように実施形態としての信号処理装置(同1)は、複数のマイクロフォン(同13)からの信号に対しスピーカ(同16)による出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部(AEC処理部32)と、複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部(同30)と、クリップしていないマイクロフォンの信号に基づいて、クリップしたマイクロフォンのエコーキャンセル処理後の信号を補償するクリップ補償部(同33)とを備えるものである。
従って、クリップ補償精度を高めることができる。
従って、補償によって各マイクロフォン間の位相関係が崩れてしまうことの防止を図ることができる。
実施形態のようにクリップ補償の後段で発話方向推定とビームフォーミング(音声強調)を行って音声認識する構成では、各マイクロフォン間の位相関係が崩れないことで発話方向推定の精度向上が図られ、ビームフォーミングにより適切に目的の発話成分を抽出することができ、音声認識精度の向上を図ることができる。
従って、クリップ補償の精度を高めることができる。
従って、クリップしたマイクロフォンの信号について補償が行われる確実性を最大限に高めることができる。
これにより、ユーザの発話レベルが大きい場合には信号の抑圧量を抑えて発話成分が抑圧されてしまうことの防止を図り、またユーザの発話レベルが小さい場合には信号の抑圧量を強めてクリッピング雑音を抑圧することが可能とされる。
従って、実施形態のようにクリップ補償の後段で音声認識が行われる場合において、音声認識精度の向上を図ることができる。
従って、音声認識精度の向上を図ることができる。
従って、クリップが慢性的に生じる場合や、大きなクリッピング雑音が生じる場合等に対応して、クリップが生じる可能性が低くなるように、或いはクリッピング雑音が小さくなるように、複数のマイクロフォンとスピーカとの位置関係や複数のマイクロフォン自体の位置又はスピーカ自体の位置を変化させることができ、後段の音声認識の精度向上が図られるようにすることができる。
なお本技術は以下のような構成も採ることができる。
(1)
複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備える
信号処理装置。
(2)
前記クリップ補償部は、
クリップした前記マイクロフォンの信号を抑圧することで補償する
前記(1)に記載の信号処理装置。
(3)
前記クリップ補償部は、
クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧する
前記(2)に記載の信号処理装置。
(4)
前記クリップ補償部は、
前記平均パワー比として、クリップしていない前記マイクロフォンのうち平均パワーが最小の前記マイクロフォンの信号との平均パワー比を用いる
前記(3)に記載の信号処理装置。
(5)
前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がある場合には、クリップした前記マイクロフォンの信号の抑圧量を発話レベルに応じて調整する
前記(1)乃至(4)の何れかに記載の信号処理装置。
(6)
前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧する
前記(1)乃至(5)の何れかに記載の信号処理装置。
(7)
前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号に対する前記補償を行わない
前記(1)乃至(5)の何れかに記載の信号処理装置。
(8)
前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる駆動部と、
前記クリップ検出部によりクリップが検出されたことに応じて前記駆動部により前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる制御部と、を備える
前記(1)乃至(7)の何れかに記載の信号処理装置。
Claims (10)
- 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
前記クリップ補償部は、
クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、
クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧する
信号処理装置。 - 前記クリップ補償部は、
前記平均パワー比として、クリップしていない前記マイクロフォンのうち平均パワーが最小の前記マイクロフォンの信号との平均パワー比を用いる
請求項1に記載の信号処理装置。 - 前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がある場合には、クリップした前記マイクロフォンの信号の抑圧量を発話レベルに応じて調整する
請求項1に記載の信号処理装置。 - 前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧する
請求項1に記載の信号処理装置。 - 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル手順と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出手順と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償手順であって、クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧するクリップ補償手順と、を有する
信号処理方法。 - 情報処理装置が実行するプログラムであって、
複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル機能と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出機能と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償機能であって、クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧するクリップ補償機能と、を前記情報処理装置に実現させる
プログラム。 - 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
前記クリップ補償部は、
クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、
ユーザ発話があり且つスピーカ出力がある場合には、クリップした前記マイクロフォンの信号の抑圧量を発話レベルに応じて調整する
信号処理装置。 - 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
前記クリップ補償部は、
クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、
ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧する
信号処理装置。 - 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号に対する前記補償を行わない
信号処理装置。 - 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、
前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる駆動部と、
前記クリップ検出部によりクリップが検出されたことに応じて前記駆動部により前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる制御部と、を備える
信号処理装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018110998 | 2018-06-11 | ||
JP2018110998 | 2018-06-11 | ||
PCT/JP2019/017047 WO2019239723A1 (ja) | 2018-06-11 | 2019-04-22 | 信号処理装置、信号処理方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019239723A1 JPWO2019239723A1 (ja) | 2021-07-01 |
JP7302597B2 true JP7302597B2 (ja) | 2023-07-04 |
Family
ID=68842104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020525310A Active JP7302597B2 (ja) | 2018-06-11 | 2019-04-22 | 信号処理装置、信号処理方法、プログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US11423921B2 (ja) |
EP (1) | EP3806489A4 (ja) |
JP (1) | JP7302597B2 (ja) |
CN (1) | CN112237008B (ja) |
BR (1) | BR112020024840A2 (ja) |
WO (1) | WO2019239723A1 (ja) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005065217A (ja) | 2003-07-31 | 2005-03-10 | Sony Corp | 通話装置 |
US20060147063A1 (en) | 2004-12-22 | 2006-07-06 | Broadcom Corporation | Echo cancellation in telephones with multiple microphones |
JP2006270949A (ja) | 2005-03-19 | 2006-10-05 | Microsoft Corp | 同時キャプチャアプリケーションのための自動オーディオゲイン制御 |
JP2010245657A (ja) | 2009-04-02 | 2010-10-28 | Sony Corp | 信号処理装置及び方法、並びにプログラム |
JP2012093641A (ja) | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
JP2017011541A (ja) | 2015-06-23 | 2017-01-12 | 富士通株式会社 | 音声処理装置、プログラム、及び通話装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3784747A (en) * | 1971-12-03 | 1974-01-08 | Bell Telephone Labor Inc | Speech suppression by predictive filtering |
US5305307A (en) | 1991-01-04 | 1994-04-19 | Picturetel Corporation | Adaptive acoustic echo canceller having means for reducing or eliminating echo in a plurality of signal bandwidths |
US5796819A (en) * | 1996-07-24 | 1998-08-18 | Ericsson Inc. | Echo canceller for non-linear circuits |
US6163608A (en) | 1998-01-09 | 2000-12-19 | Ericsson Inc. | Methods and apparatus for providing comfort noise in communications systems |
US6148078A (en) | 1998-01-09 | 2000-11-14 | Ericsson Inc. | Methods and apparatus for controlling echo suppression in communications systems |
CA2245411A1 (en) * | 1998-08-20 | 2000-02-20 | Mitel Corporation | Echo canceller with compensation for codec limiting effects |
US6507653B1 (en) * | 2000-04-14 | 2003-01-14 | Ericsson Inc. | Desired voice detection in echo suppression |
WO2003010995A2 (en) * | 2001-07-20 | 2003-02-06 | Koninklijke Philips Electronics N.V. | Sound reinforcement system having an multi microphone echo suppressor as post processor |
JP3862545B2 (ja) | 2001-10-22 | 2006-12-27 | 沖電気工業株式会社 | エコーキャンセラ |
US7545926B2 (en) * | 2006-05-04 | 2009-06-09 | Sony Computer Entertainment Inc. | Echo and noise cancellation |
US7894598B2 (en) * | 2004-12-14 | 2011-02-22 | Nuance Communications, Inc. | System for limiting receive audio |
US8295475B2 (en) * | 2006-01-13 | 2012-10-23 | Microsoft Corporation | Selective glitch detection, clock drift compensation, and anti-clipping in audio echo cancellation |
JP2010081004A (ja) * | 2008-09-24 | 2010-04-08 | Nec Electronics Corp | エコーキャンセル装置、通信装置、及びエコーキャンセル方法 |
CN104519212B (zh) | 2013-09-27 | 2017-06-20 | 华为技术有限公司 | 一种消除回声的方法及装置 |
EP3040984B1 (en) * | 2015-01-02 | 2022-07-13 | Harman Becker Automotive Systems GmbH | Sound zone arrangment with zonewise speech suppresion |
-
2019
- 2019-04-22 JP JP2020525310A patent/JP7302597B2/ja active Active
- 2019-04-22 US US16/972,563 patent/US11423921B2/en active Active
- 2019-04-22 CN CN201980037465.5A patent/CN112237008B/zh active Active
- 2019-04-22 BR BR112020024840-1A patent/BR112020024840A2/pt unknown
- 2019-04-22 WO PCT/JP2019/017047 patent/WO2019239723A1/ja active Application Filing
- 2019-04-22 EP EP19819488.8A patent/EP3806489A4/en not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005065217A (ja) | 2003-07-31 | 2005-03-10 | Sony Corp | 通話装置 |
US20060147063A1 (en) | 2004-12-22 | 2006-07-06 | Broadcom Corporation | Echo cancellation in telephones with multiple microphones |
JP2006270949A (ja) | 2005-03-19 | 2006-10-05 | Microsoft Corp | 同時キャプチャアプリケーションのための自動オーディオゲイン制御 |
JP2010245657A (ja) | 2009-04-02 | 2010-10-28 | Sony Corp | 信号処理装置及び方法、並びにプログラム |
JP2012093641A (ja) | 2010-10-28 | 2012-05-17 | Toshiba Corp | 携帯型電子機器 |
JP2017011541A (ja) | 2015-06-23 | 2017-01-12 | 富士通株式会社 | 音声処理装置、プログラム、及び通話装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2019239723A1 (ja) | 2019-12-19 |
EP3806489A1 (en) | 2021-04-14 |
BR112020024840A2 (pt) | 2021-03-02 |
CN112237008B (zh) | 2022-06-03 |
CN112237008A (zh) | 2021-01-15 |
EP3806489A4 (en) | 2021-08-11 |
US20210241781A1 (en) | 2021-08-05 |
US11423921B2 (en) | 2022-08-23 |
JPWO2019239723A1 (ja) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10079026B1 (en) | Spatially-controlled noise reduction for headsets with variable microphone array orientation | |
US10446171B2 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
US9591123B2 (en) | Echo cancellation | |
JP3727258B2 (ja) | エコー抑制処理システム | |
KR101601197B1 (ko) | 마이크로폰 어레이의 이득 조정 장치 및 방법 | |
CN111052767B (zh) | 音频处理装置、音频处理方法以及信息处理装置 | |
US10978086B2 (en) | Echo cancellation using a subset of multiple microphones as reference channels | |
KR20120066134A (ko) | 다채널 음원 분리 장치 및 그 방법 | |
US8761386B2 (en) | Sound processing apparatus, method, and program | |
US20180308503A1 (en) | Real-time single-channel speech enhancement in noisy and time-varying environments | |
CN111145771A (zh) | 语音信号处理方法、处理装置、终端及其存储介质 | |
JP2011166484A (ja) | 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体 | |
US11189297B1 (en) | Tunable residual echo suppressor | |
JP2021522550A (ja) | ギャップ信頼度を用いた背景雑音推定 | |
US9824675B2 (en) | Method for suppressing interference noise in an acoustic system and acoustic system | |
US20140249809A1 (en) | Audio signal noise attenuation | |
JP2012039441A (ja) | 多チャネルエコー消去方法、多チャネルエコー消去装置及びそのプログラム | |
JP7302597B2 (ja) | 信号処理装置、信号処理方法、プログラム | |
JP2010091912A (ja) | 音声強調システム | |
JP2005051744A (ja) | 通話装置 | |
JP2003309493A (ja) | 反響低減方法、反響低減装置、反響低減プログラム | |
KR101418023B1 (ko) | 위상정보를 이용한 자동 이득 조절 장치 및 방법 | |
CN112863532A (zh) | 回音抑制装置、回音抑制方法以及存储介质 | |
WO2018087855A1 (ja) | エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム | |
CN113345457B (zh) | 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220307 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230227 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20230227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230523 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230605 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7302597 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |