JP7302597B2 - 信号処理装置、信号処理方法、プログラム - Google Patents

信号処理装置、信号処理方法、プログラム Download PDF

Info

Publication number
JP7302597B2
JP7302597B2 JP2020525310A JP2020525310A JP7302597B2 JP 7302597 B2 JP7302597 B2 JP 7302597B2 JP 2020525310 A JP2020525310 A JP 2020525310A JP 2020525310 A JP2020525310 A JP 2020525310A JP 7302597 B2 JP7302597 B2 JP 7302597B2
Authority
JP
Japan
Prior art keywords
signal
clip
microphone
clipped
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020525310A
Other languages
English (en)
Other versions
JPWO2019239723A1 (ja
Inventor
和也 立石
秀介 高橋
晃 高橋
和樹 落合
芳明 及川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019239723A1 publication Critical patent/JPWO2019239723A1/ja
Application granted granted Critical
Publication of JP7302597B2 publication Critical patent/JP7302597B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

本技術は、複数のマイクロフォンからの信号について信号処理を施す信号処理装置とその方法、及びプログラムに関するものであり、特には、複数のマイクロフォンの信号にエコーキャンセル処理を施す場合において、クリップしたマイクロフォンの信号を補償するための技術に関する。
近年、スマートスピーカ等と称される、複数のマイクロフォンとスピーカとが同一筐体に設けられた機器が普及している。この種の機器では、複数のマイクロフォンの信号に基づきユーザの発話方向の推定や発話内容の推定(音声認識)を行うものがある。推定した発話方向に基づいて機器の正面をユーザ発話方向に向けたり、音声認識結果に基づいてユーザとの会話を行う等の動作が実現されている。
この種の機器では、複数のマイクロフォンの位置はユーザの位置と比べてスピーカに対して近接していることが通常であり、スピーカによる大音量再生時には、マイクロフォンの信号をA/D変換する過程において、量子化データが最大値に張り付く所謂クリップと呼ばれる現象が生じる。
なお、関連する従来技術として、下記特許文献1には、複数のマイクロフォンからの信号を記録するシステムにおいて、クリップしたマイクロフォンの信号におけるクリップ部分の波形をクリップしていないマイクロフォンの信号の波形により置き換えることで、クリップ補償を実現する技術が開示されている。
特開2010-245657号公報
ここで、スマートスピーカのような機器においては、複数のマイクロフォンからの信号に含まれるスピーカの出力信号成分を抑圧するためのエコーキャンセル処理を施す場合がある。このようなエコーキャンセル処理が行われることで、スピーカによる音出力が行われる下での発話方向推定や音声認識の精度向上を図ることができる。
本技術は上記事情に鑑み為されたものであり、複数のマイクロフォンからの信号にエコーキャンセル処理が施される場合におけるクリップ補償に関して、補償精度を高めることを目的とする。
本技術に係る信号処理装置は、複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備えるものである。
複数のマイクロフォンからの信号にエコーキャンセル処理が施される場合において、エコーキャンセル処理前の信号に対しクリップ補償を行うとした場合は、スピーカの出力信号成分と目的音を含む他成分との切り分けが困難な状態でクリップ補償を行うことになるため、クリップ補償精度が低下する傾向となる。上記のようにエコーキャンセル処理後の信号に対しクリップ補償を行うことで、スピーカの出力信号成分が或る程度抑圧された信号を対象としてクリップ補償を行うことが可能とされる。
上記した本技術に係る信号処理装置においては、前記クリップ補償部は、クリップした前記マイクロフォンの信号を抑圧することで補償することが望ましい。
クリップしたマイクロフォンの信号を抑圧するという補償手法を採ることで、クリップしたマイクロフォンの信号の位相情報が補償によって失われないようにすることが可能とされる。
上記した本技術に係る信号処理装置においては、前記クリップ補償部は、クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧することが望ましい。
これにより、クリップしたマイクロフォンの信号のパワーを、クリップしていなかった場合に得られたであろうエコーキャンセル処理後のパワーに適切に抑圧することが可能とされる。
上記した本技術に係る信号処理装置においては、前記クリップ補償部は、前記平均パワー比として、クリップしていない前記マイクロフォンのうち平均パワーが最小の前記マイクロフォンの信号との平均パワー比を用いることが望ましい。
平均パワーが最小であるマイクロフォンは、クリップが最も生じ難いマイクロフォンであると換言できる。
上記した本技術に係る信号処理装置においては、前記クリップ補償部は、ユーザ発話があり且つスピーカ出力がある場合には、クリップした前記マイクロフォンの信号の抑圧量を発話レベルに応じて調整することが望ましい。
ユーザ発話があり且つスピーカ出力がある所謂ダブルトークの区間では、ユーザの発話レベルが大きい場合、クリッピングによる雑音重畳区間においても発話成分を多分に含む(なお、ここで言うダブルトークとは、図9に示すようにユーザ発話とスピーカ出力とが時間的に重複して生じることを意味する)。一方、発話レベルが小さい場合、大きなクリッピング雑音に発話成分が埋もれてしまう傾向となる。そこで、ダブルトーク区間では、クリップしたマイクロフォンの信号の抑圧量を発話レベルに応じて調整する。
これにより、ユーザの発話レベルが大きい場合には信号の抑圧量を抑えて発話成分が抑圧されてしまうことの防止を図り、またユーザの発話レベルが小さい場合には信号の抑圧量を強めてクリッピング雑音を抑圧することが可能とされる。
上記した本技術に係る信号処理装置においては、前記クリップ補償部は、ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧することが望ましい。
ユーザ発話があり且つスピーカ出力がない場合とは、クリップの原因がユーザ発話であると推定される場合である。上記構成によれば、クリップの原因がユーザ発話であると推定される場合において、例えばクリッピング雑音が重畳していても或る程度の発話レベルがある場合の方が、発話成分が抑圧されてしまう場合よりも音声認識精度を保つことができる等、後段の音声認識処理の特性に応じた適切な抑圧量によるクリップ補償を行うことが可能とされる。
上記した本技術に係る信号処理装置においては、前記クリップ補償部は、ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号に対する前記補償を行わないことが望ましい。
ユーザ発話があり且つスピーカ出力がない場合、すなわち、クリップの原因がユーザ発話であると推定される場合には、信号を抑圧しない方が却って後段の音声認識結果が良好となる場合があることが経験上分かっている。そのような場合には、上記のようにクリップ補償を行わないようにすることで、音声認識精度の向上を図ることができる。
上記した本技術に係る信号処理装置においては、前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる駆動部と、前記クリップ検出部によりクリップが検出されたことに応じて前記駆動部により前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる制御部と、を備えることが望ましい。
これにより、クリップが検出された場合は、各マイクロフォンとスピーカとの位置関係を変化させたり、複数のマイクロフォン又はスピーカの位置を壁反射等が少ない位置に移動させたりすることが可能とされる。
また、本技術に係る信号処理方法は、複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル手順と、前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出手順と、クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償手順と、を有する信号処理方法である。
このような信号処理方法によっても、上記した本技術に係る信号処理装置と同様の作用が得られる。
さらに、本技術に係るプログラムは、情報処理装置が実行するプログラムであって、複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル機能と、前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出機能と、クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償機能と、を前記情報処理装置に実現させるプログラムである。
このような本技術に係るプログラムにより、上記した本技術に係る信号処理装置が実現される。
本技術によれば、複数のマイクロフォンからの信号にエコーキャンセル処理が施される場合におけるクリップ補償に関して、補償精度を高めることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術に係る実施形態としての信号処理装置の外観構成例を示した斜視図である。 実施形態としての信号処理装置が備えるマイクロフォンアレイの説明図である。 実施形態としての信号処理装置の電気的な構成例を説明するためのブロック図である。 実施形態としての信号処理装置が備える音声信号処理部の内部構成例を示したブロック図である。 クリップのイメージを示した図である。 実施形態としての信号処理装置の動作について説明するためのフローチャートである。 エコーキャンセル処理の基本的な概念について説明するための図である。 実施形態としての信号処理装置が備えるAEC処理部の内部構成例を示した図である。 ダブルトークについての説明図である。 各場合に対応してクリップ補償に係る処理を実行し分けることについての説明図である。 実施形態で採用するシグモイド関数の挙動を例示した図である。 従来技術におけるクリップ補償手法を模式化して表した図である。 従来技術における問題点についての説明図である。 実施形態としてのクリップ補償手法を実現するために実行すべき具体的な処理手順を示したフローチャートである。
以下、添付図面を参照し、本技術に係る実施形態を次の順序で説明する。

<1.信号処理装置の外観構成>
<2.信号処理装置の電気的構成>
<3.信号処理装置の動作>
<4.実施形態におけるエコーキャンセル手法>
<5.実施形態としてのクリップ補償手法>
<6.処理手順>
<7.変形例>
<8.実施形態のまとめ>
<9.本技術>
<1.信号処理装置の外観構成>

図1は、本技術に係る実施形態としての信号処理装置1の外観構成例を示した斜視図である。
図示のように信号処理装置1は、略円柱状の筐体11と、筐体11の上方に位置された略円柱状の可動部14とを備えている。
可動部14は、図中の白抜き両矢印で示す方向への回転(パン方向の回転)が可能となるように筐体11によって支持されている。筐体11は、例えばテーブルや床等の所定の位置に載置された状態において、可動部14と連動して回転することはなく、いわば固定部を形成している。
可動部14は、駆動部として信号処理装置1に内蔵されたサーボモータ21(図3を参照して後述する)により回転駆動される。
筐体11の上端部には、マイクロフォンアレイ12が設けられている。
図2に示されるように、マイクロフォンアレイ12は、複数(図2の例においては8個としている)のマイクロフォン13が円周上に略等間隔に配列されて構成されている。
可動部14側ではなく筐体11側にマイクロフォンアレイ12が設けられていることで、可動部14が回転しても各マイクロフォン13の位置は不変とされる。すなわち、空間100における各マイクロフォン13の位置は可動部14が回転しても変化しない。
可動部14には、例えばLCD(Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等による表示部15が設けられている。この例においては、表示部15に顔の絵が表示されており、該顔の向く方向が信号処理装置1の正面方向であることを表すものとされる。後述するように、可動部14は、例えば表示部15が発話方向に向くように回転される。
また、可動部14においては、表示部15の裏側にスピーカ16が収容されている。スピーカ16は、ユーザに対してメッセージや楽曲等の音を出力する。
上記のような信号処理装置1は、例えば室内等の空間100に配置される。
信号処理装置1は、例えばスマートスピーカ、音声エージェント、ロボット等に組み込まれ、周囲の音源(例えば人)から音声が発せられた場合、その音声が発せられた発話方向を推定する機能を有している。推定された方向は、信号処理装置1の正面を発話方向に指向させるのに利用される。
<2.信号処理装置の電気的構成>

図3は、信号処理装置1の電気的な構成例を説明するためのブロック図である。
図示のように信号処理装置1は、図1に示したマイクロフォンアレイ12、表示部15、スピーカ16と共に、音声信号処理部17、制御部18、表示駆動部19、モータ駆動部20、及び音声駆動部22を備えている。
音声信号処理部17は、例えばDSP(Digital Signal Processor)、或いはCPU(Central Processing Unit)を有したコンピュータ装置等で構成することができ、マイクロフォンアレイ12における各マイクロフォン13からの信号を処理する。
なお、図示は省略したが、各マイクロフォン13からの信号は、それぞれA/D変換器によりアナログ/デジタル変換された上で音声信号処理部17に入力される。
音声信号処理部17は、エコー成分抑圧部17aと音声抽出処理部17bとを備え、各マイクロフォン13からの信号はエコー成分抑圧部17aを介して音声抽出処理部17bに入力される。
エコー成分抑圧部17aは、後述する出力音声信号Ssを参照信号として、各マイクロフォン13の信号に含まれるスピーカ16からの出力信号成分を抑圧するためのエコーキャンセル処理を行う。なお、本例のエコー成分抑圧部17aは、各マイクロフォン13からの信号を対象としたクリップ補償を行うが、これについては後に改めて説明する。
音声抽出処理部17bは、エコー成分抑圧部17aを介して入力される各マイクロフォン13の信号に基づき、発話方向の推定や目的音の信号強調や雑音抑圧を行って目的音の抽出(音声抽出)を行う。音声抽出処理部17bは、目的音を抽出した信号としての抽出音声信号Seを制御部18に出力する。また音声抽出処理部17bは、推定した発話方向を表す情報を発話方向情報Sdとして制御部18に出力する。
なお、音声抽出処理部17bの詳細については改めて説明する。
制御部18は、例えばCPU、ROM(Read Only Memory)、RAM(Random Access Memory)等を有するマイクロコンピュータを備えて構成され、ROMに記憶されたプログラムに従った処理を実行することで信号処理装置1の全体制御を行う。
例えば、制御部18は、表示部15による情報表示に係る制御を行う。具体的には、表示部15を表示駆動するためのドライバ回路を備えた表示駆動部19に対する指示を行って表示部15に各種の情報表示を実行させる。
また、本例の制御部18は、不図示の音声認識エンジンを備え、該音声認識エンジンにより音声信号処理部17(音声抽出処理部17b)から入力した抽出音声信号Seに基づいて音声認識処理を行うと共に、音声認識処理の結果に基づき、実行する処理を決定する。
なお、制御部18がインターネット等を介してクラウド60に接続され、クラウド60に音声認識エンジンが存在する場合においては、該音声認識エンジンを用いて音声認識処理を行うこともできる。
また、制御部18は、発話が検出されたことに伴い音声信号処理部17から発話方向情報Sdを入力した場合は、信号処理装置1の正面を発話方向に向けるために必要なサーボモータ21の回転角を計算し、該回転角を表す情報を回転角情報としてモータ駆動部20に出力する。
モータ駆動部20は、サーボモータ21を駆動するためのドライバ回路等を備え、制御部18から入力した回転角情報に基づきサーボモータ21を駆動する。
さらに、制御部18は、スピーカ16による音出力の制御を行う。具体的に、制御部18は、スピーカ16を駆動するためのドライバ回路(D/A変換器やアンプ等を含む)等を備えて構成された音声駆動部22に音声信号を出力してスピーカ16より該音声信号に応じた音出力を実行させる。
なお以下、このように制御部18が音声駆動部22に出力する音声信号を「出力音声信号Ss」と表記する。
図4は、音声信号処理部17の内部構成例を示したブロック図である。
図示のように音声信号処理部17は、図3に示したエコー成分抑圧部17a及び音声抽出処理部17bを備えており、エコー成分抑圧部17aはクリップ検出部30、FFT(Fast Fourier Transformation )処理部31、AEC(Acoustic Echo Cancellation)処理部32、クリップ補償部33、及びFFT処理部34を備え、音声抽出処理部17bは、発話区間推定部35、発話方向推定部36、音声強調部37、及び雑音抑圧部38を備えている。
エコー成分抑圧部17aにおいて、クリップ検出部30は、各マイクロフォン13からの信号についてクリップ検出を行う。
図5は、クリップのイメージを示している。クリップは、A/D変換時に量子化データが最大値に張り付く現象を意味するものである。
クリップ検出部30は、クリップを検出したことに応じ、クリップを検出したマイクロフォン13のチャネルを表す情報をクリップ補償部33に出力する。
エコー成分抑圧部17aにおいて、各マイクロフォン13からの信号は、クリップ検出部30を介してFFT処理部31に入力される。FFT処理部31は、時間信号として入力される各マイクロフォン13からの信号について、FFTによる直交変換を行って周波数信号に変換する。
また、FFT処理部34は、時間信号として入力される出力音声信号Ssについて、FFTによる直交変換を行って周波数信号に変換する。
ここで、直交変換については、FFTに限定されるものでなく、例えばDCT(Discrete Cosine Transformation)等の他の手法を採用することもできる。
AEC処理部32には、FFT処理部31、FFT処理部34によりそれぞれ周波数信号に変換された各マイクロフォン13からの信号、及び出力音声信号Ssが入力される。
AEC処理部32は、入力された出力音声信号Ssに基づき、各マイクロフォン13からの信号に含まれるエコー成分をキャンセルする処理を行う。すなわち、スピーカ16から出力された音声が所定の時間だけ遅延して、エコーとしてマイクロフォンアレイ12により他の音に混ざって収音されることがある。AEC処理部32は、出力音声信号Ssを参照信号として、各マイクロフォン13の信号から該エコーの成分を相殺するように処理を行う。
また、本例のAEC処理部32は、後述するダブルトーク評価に係る処理を行うが、これについては改めて説明する。
クリップ補償部33は、AEC処理部32によるエコーキャンセル処理後の各マイクロフォン13の信号について、クリップ検出部30による検出結果とFFT処理部34を介して入力される周波数信号としての出力音声信号Ssとに基づいたクリップ補償を行う。
本例では、クリップ補償部33には、AEC処理部32がダブルトークに係る評価を行って生成するダブルトーク評価値Diが入力され、クリップ補償部33は該ダブルトーク評価値Diに基づいてクリップ補償を行うことになるが、これについては改めて説明する。
音声抽出処理部17bにおいては、クリップ補償部33を介した各マイクロフォン13からの信号が発話区間推定部35、発話方向推定部36、及び音声強調部37のそれぞれに入力される。
発話区間推定部35は、入力された各マイクロフォン13からの信号に基づき、発話区間(時間方向における発話の区間)を推定する処理を行い、発話区間を表す情報である発話区間情報Spを発話方向推定部36及び音声強調部37に出力する。
なお、発話区間の具体的な推定手法については、例えばAI(Artificial Intelligence)の技術(深層学習等)を利用した手法等、種々の手法が考えられ、また本技術に直接的に関わるものでもないことから、具体的な処理の説明については省略する。
発話方向推定部36は、各マイクロフォン13からの信号と、発話区間情報Spとに基づき、発話方向を推定する。発話方向推定部36は、推定した発話方向を表す情報を発話方向情報Sdとして出力する。
なお、発話方向の推定手法としては、MUSIC(Multiple Signal Classification)法を基礎とした推定手法、具体的には、例えば一般化固有値分解を用いたMUSIC法に基づく推定手法等の種々の手法を挙げることができるが、発話方向の推定手法についても本技術に直接的に関わるものではなく、具体的な処理については説明を省略する。
音声強調部37は、発話方向推定部36が出力する発話方向情報Sdと発話区間推定部35が出力する発話区間情報Spとに基づき、各マイクロフォン13からの信号に含まれる信号成分のうち、目的音(ここでは発話音)に対応した信号成分を強調する。具体的には、ビームフォーミングにより発話方向に存在する音源の成分を強調する処理を行う。
雑音抑圧部38は、音声強調部37による出力信号に含まれる雑音成分(主として定常雑音の成分)を抑圧する。
この雑音抑圧部38による出力信号が、前述した抽出音声信号Seとして音声抽出処理部17bより出力される。
<3.信号処理装置の動作>

続いて、図6のフローチャートを参照して、信号処理装置1の動作について説明する。
なお、図6では、AEC処理部32によるエコーキャンセルやクリップ補償部33によるクリップ補償に係る動作については省略している。
図6において、先ず、ステップS1では、マイクロフォンアレイ12が音声を入力する。すなわち発話者が発生した音声が入力される。
ステップS2では、発話方向推定部36により発話方向推定処理が実行される。
ステップS3では、音声強調部37が信号を強調する。すなわち、発話方向と推定された方向の音声成分が強調される。
さらに、ステップS4では、雑音抑圧部38が雑音成分を抑圧し、SNR(Signal-to-Noise Ratio)を改善する。
ステップS5では、制御部18(又はクラウド60に存在する外部の音声認識エンジン)が音声を認識する処理を行う。すなわち、音声信号処理部17から入力された抽出音声信号Seに基づいて音声を認識する処理を行う。なお、認識結果は必要に応じてテキスト化される。
ステップS6では、制御部18が動作を決定する。すなわち、認識された音声の内容に対応する動作が決定される。そして、ステップS7では、制御部18がモータ駆動部20を制御してサーボモータ21により可動部14を駆動させる。
さらに、ステップS8で制御部18は、音声駆動部22により音声をスピーカ16から出力させる。
これにより、例えば発話者から「こんにちは」等の挨拶が認識された場合、発話者の方向に可動部14が回転され、スピーカ16から「こんにちは。お元気ですか」等といった挨拶が発話者に向けて発せられる。
<4.実施形態におけるエコーキャンセル手法>

ここで、実施形態としてのクリップ補償の説明に先立ち、先ずは実施形態で前提とするエコーキャンセル手法について説明しておく。
図7を参照し、エコーキャンセル処理の基本的な概念について説明しておく。
先ず、ある時間フレームnにおけるスピーカ16による出力信号(出力音声信号Ss)を、参照信号x(n)と表記する。参照信号x(n)は、スピーカ16から出力された後、空間を通してマイクロフォン13に入力される。このときマイクロフォン13で得られる信号(収音信号)をマイク入力信号d(n)と表記する。
スピーカ16からの出力音がマイクロフォン13に到達するまでの空間伝達特性hは未知であり、エコーキャンセル処理ではこの未知の空間伝達特性hを推定し、マイク入力信号d(n)から、推定した空間伝達特性を考慮した参照信号x(n)を差し引くということを行う。この推定した空間伝達特性を以下、推定伝達特性w(n)と表記する。
マイクロフォン13に到達するスピーカ16の出力音としては、直接届く音から、壁などに反射して戻ってくるといったある程度時間遅れを持つ成分も含まれるため、過去の対象とする遅延時間をタップ長Lで表すと、マイク入力信号d(n)、及び推定伝達特性w(n)は下記[式1][式2]のように表現できる。

Figure 0007302597000001
[式1]において、Tは転置を表す。
実際には、時間フレームnに対して高速フーリエ変換した周波数ビン数N個の推定を行うことになる。周波数k(k=1~N)番目のエコーキャンセル処理は、一般的なLMS(Least Mean Square)法を用いる場合、次の[式3][式4]で行う。

Figure 0007302597000002
Hはエルミート転置を、*は複素共役を表す。μは学習速度を決定するステップサイズで通常は0<μ≦2の間の値を選択する。
[式3]のように、マイク入力信号d(k,n)から、推定伝達特性w(k,n)を畳み込まれたタップ長L個分の参照信号(x)として得られる推定回り込み信号を差し引くことで、誤差信号e(k,n)を得る。
図7を参照して分かるように、この誤差信号e(k,n)が、エコーキャンセル処理の出力信号に相当する。
LMS法では誤差信号e(k,n)の平均パワーが最小になるようにwを逐次的に更新していく。
なお、LMS法の他に、更新式の参照信号を正規化したNLMS(Normalized LMS)、APA(Affine Projection Algorithm)、RLS(Recursive least square)等の手法がある。何れの手法においても、推定伝達特性を学習するために参照信号xを用いる。
ここで、AEC処理部32としては、通常、ダブルトーク中における誤学習を避けるために、図8に示すような構成によってダブルトーク中における学習速度を低下させるようにされている。
ここで言うダブルトークとは、図9に示すように、ユーザ発話とスピーカ出力とが時間的に重複して生じることを意味する。
図8において、AEC処理部32は、エコーキャンセル処理部32aとダブルトーク評価部32bとを備えている。
ここで、以下の説明においては、時刻情報、周波数情報を説明内で扱わない限り、時刻n、周波数ビン番号kについての表記は省略する。
ダブルトーク評価部32bは、FFT処理部34を介して入力される周波数信号による出力音声信号Ss、つまり参照信号xと、エコーキャンセル処理部32aによりエコーキャンセル処理が施された各マイクロフォン13の信号(誤差信号e)とに基づいて、ダブルトーク中であるか否かについての確からしさを表すダブルトーク評価値Diを計算する。
エコーキャンセル処理部32aは、FFT処理部31を介して入力される各マイクロフォン13からの信号、すなわちマイク入力信号dと、FFT処理部34を介して入力される出力音声信号Ss(つまり参照信号x)とに基づき、上記した[式3]に従って誤差信号eを計算する。
またエコーキャンセル処理部32aは、誤差信号e、参照信号x、及びダブルトーク評価部32bより入力されるダブルトーク評価値Diに基づき、後述する[式6]に従って推定伝達特性wの逐次的な学習を行う。
ここで、ダブルトークの評価手法については種々提案されているが、代表的なものとして参照信号xの平均パワーとエコーキャンセル処理後瞬時信号パワーの変動を利用した手法がある(ウィーナー型のダブルトーク判定器)。この手法では、ダブルトーク評価値Diは、通常の学習時は「1」に近い値となりダブルトーク時に「0」に近づくような挙動となる。
具体的に、本例では、ダブルトーク評価値Diは次の[式5]により計算する。

Figure 0007302597000003
[式5]において、「Pref^ ̄」(なお「^ ̄」は「 ̄」を「Pref」の上方に表記することを意味する)は、「Pref^ ̄=E[xxH]」であり、参照信号xの平均パワーを意味する(ただし、E[・]は期待値を表す)。また「β」は感度調整定数である。
ダブルトーク時には発話成分の影響で誤差信号eが大きくなる。従って、[式5]によると、ダブルトーク時にはダブルトーク評価値Diが小さくなる。逆に非ダブルトーク中であり誤差信号eが小さい場合には、ダブルトーク評価値Diは大きくなる。
エコーキャンセル処理部32aでは、上記のようなダブルトーク評価値Diに基づき、次の[式6]に従って推定伝達特性wの学習を行う。

Figure 0007302597000004
これにより、ダブルトーク評価値Diが小さくなるダブルトーク時には適応フィルタによる学習速度が低下されるものとなり、ダブルトーク中の誤学習が抑制される。
<5.実施形態としてのクリップ補償手法>

続いて、実施形態としてのクリップ補償手法について説明する。
先ず前提として、時間信号でクリップした信号をフーリエ変換により周波数成分に分解した際には、本来空間伝達中には存在しない信号が各周波数にノイズとして現れる(クリッピングノイズ)。このクリッピングノイズは、本例で用いるような線形エコーキャンセラでは除去することができず、クリップした瞬間のみ大音量の消し残りが発生してしまう。この消し残り成分は広域にわたり発生し、後段の音声認識の精度を悪化させる要因となる。
本実施形態では、このような前提を考慮したクリップ補償を行う。
本実施形態において、クリップ補償部33(図4参照)は、クリップ検出部30による検出結果に基づき、クリップが生じたチャネル(マイクロフォン13のチャネル)の有無を判定する。そして、クリップが生じたチャネルがある場合には、該チャネルを対象として、エコーキャンセル処理後の信号に対し以下で説明するクリップ補償処理を施す。
本実施形態において、クリップ補償処理は、クリップしていないマイクロフォン13の信号に基づいて行う。具体的には、クリップしていないマイクロフォン13の信号とクリップしたマイクロフォン13の信号との平均パワー比に基づいて、クリップしたマイクロフォン13の信号を抑圧することで行う。
以下の例では、上記の平均パワー比として、クリップしていないチャネルのうちでの最小の平均パワーとの比を用いる。
本実施形態において、クリップ補償処理は、基本的に次の[式7]で表す手法によって行う。
ここで、以下では、クリップ補償後の信号を「ei^~」と表記する(なお「^~」は「~」を「ei」の上方に表記することを意味する)。

Figure 0007302597000005
[式7]において、「ei」はiチャネル(クリップしたチャネル)のエコーキャンセル処理後の瞬時信号を、「eMin」はクリップしていないチャネルのうちでの平均パワーが最小であるチャネルのエコーキャンセル処理後の瞬時信号を表す。
また、「Pi^ ̄」(「^ ̄」は「 ̄」を「Pi」の上方に表記することを意味する)は「Pi^ ̄=E[eii H]」であり、iチャネルのエコーキャンセル処理後の信号の平均パワーを表し、「PMin^ ̄」(「^ ̄」は「 ̄」を「PMin」の上方に表記することを意味する)は、クリップしていないチャネルのうちでの最小の平均パワーを意味する。
ここでの平均パワーは、スピーカ出力があり且つクリップしていない区間での平均パワーを意味する。
[式7]によるクリップ補償の基本的な概念は、次のように説明することができる。
すなわち、クリップしたチャネル(i)の信号からは位相情報だけを抽出し、信号パワーはクリップしていないチャネル(本例では平均パワー最小のチャネル)の瞬時パワーに置き換える。ただし、このままであると、クリップしていなかった場合に出力されたであろうエコーキャンセル処理後の信号パワーにはならないため、逐次的に求めていたチャネル間の信号パワー比を用いて、置き換えた信号パワーを補正する。
換言すれば、[式7]によるクリップ補償は、エコーキャンセル処理後に消し残った非線形成分を抑圧し、クリップしていないチャネルのマイク入力信号情報をもとに、クリップしたチャネルの信号をクリップしていない場合の推定抑圧レベルまでゲイン補正するものであると表現できる。
ここで、上記のようにクリップしたチャネルの信号からは位相情報をだけを抽出しているという点については、[式7]における「1/eii H」と「ei」の項により表されている。
また、信号パワーはクリップしていないチャネルの瞬時パワーに置き換えるという点については、[式7]における「eMinH Min」の項により表されている。
さらに、置き換えた信号パワーを逐次的に求めていたチャネル間の信号パワー比を用いて補正するという点については、[式7]における「Pi^ ̄/PMin^ ̄」の項により表されている。
なお、チャネル間の信号パワー比に差が発生する理由は、各チャネルの信号間にスピーカ16の指向特性、空間の伝達経路、マイク感度ばらつき、方向性を持つような定常雑音等に起因した差が生じるためである。
本実施形態のクリップ補償では、クリップしたチャネルについて、信号の波形自体を他チャネルの波形に置き換えるものとはせず、位相情報を残すようにしている。このことで、クリップ補償に伴ってマイクロフォン13間の位相関係が崩れることの防止を図っている。発話方向推定処理ではマイクロフォン13間の位相関係が重要となるため、本手法によれば、クリップ補償によって発話方向推定精度が低下してしまうことの防止を図ることができる。すなわち、音声強調部37によるビームフォーミングに失敗し難くなり、後段の音声認識エンジンによる音声認識精度の向上を図ることができる。
ここで、「Pi^ ̄」及び「PMin^ ̄」としての平均パワーについては、クリップが生じておらず且つスピーカ出力がある区間において、クリップ補償部33が逐次的に算出する。このとき、クリップ補償部33は、クリップが生じておらず且つスピーカ出力がある区間の特定を、クリップ検出部30による検出結果と、FFT処理部34を介して入力される出力音声信号Ss(参照信号x)とに基づいて行う。
クリップ補償として、[式7]による補償は少なくともユーザ発話区間に対し常時行うことも可能であるが、本例では、次の図10に示すような場合分けを行い、各場合に対応してクリップ補償に係る処理を実行し分ける。
具体的に、図中「ケース1」として表す、スピーカ出力とユーザ発話の双方が「あり」の場合には、クリップ補償をしつつ、ユーザ発話に応じてクリップ補償における抑圧量を調整する。
また、「ケース2」としての、スピーカ出力が「あり」且つユーザ発話が「なし」の場合には、クリップ補償を行う。
「ケース3」としての、スピーカ出力が「なし」且つユーザ発話が「あり」の場合には、音声認識エンジンに合わせた処理を行う。
「ケース4」としての、スピーカ出力とユーザ発話の双方が「なし」の場合には、クリップ補償は行わない。この場合、エコーキャンセル処理後の信号は音声認識前に破棄する。
なお、ケース1におけるクリップ原因は、図示のようにダブルトークであると推定できる。また、ケース2、ケース3、ケース4のクリップ原因はそれぞれスピーカ回り込み、ユーザ発話、雑音であると推定できる。
先ず、ケース1の場合に実行する、ユーザ発話レベルに応じた抑圧量調整を伴うクリップ補償について説明する。
ユーザ発話レベルが大きい場合には、クリッピング雑音の重畳区間においても目的音(発話音)の情報が多分に含まれる傾向となるため、クリップ補償における信号抑圧量を抑えた方が、後段の音声認識処理にとって好適となる。逆に、ユーザ発話レベルが小さい場合、大きなクリッピング雑音に発話成分が埋もれてしまう傾向となるため、クリップ補償における信号抑圧量を強めた方が、後段の音声認識処理にとって好適となる。
そこで、ケース1においては、下記[式8]により、ユーザ発話レベルに応じた抑圧量調整を伴うクリップ補償を行う。

Figure 0007302597000006
[式8]において、「αdt」は抑圧量補正係数であり、αdtが「1」のとき信号抑圧量は最大となり、「1」よりも大きくなるに従って信号抑圧量が抑えられていく。
ケース1においては、この抑圧量補正係数αdtの値を発話レベルに応じて調整する。
下記[式9]は、抑圧量補正係数αdtの調整式の例を示している。[式9]では、シグモイド関数による調整式を例示しており、「a」はシグモイド関数傾き定数、「c」はシグモイド関数中心補正定数である。

Figure 0007302597000007
[式9]において、「Pdti^ ̄」(「^ ̄」は「 ̄」を「Pdti」の上方に表記することを意味する)は、「Pdti^ ̄=E[eii H]」であり、iチャネルのエコーキャンセル処理後の信号についてのダブルトーク中且つクリップしていない区間での平均パワーを表す。このような「Pdti^ ̄」は、ユーザ発話レベルの推定値として扱うことができる。
「Max」は、下記[式10][式11]により表される値であり、抑圧量補正係数αdtの最大値を意味する。すなわち、[式8]で計算される「ei^~」を、AEC処理部32から入力される「ei」と同一パワーにする値であり、換言すればクリップ補償をキャンセルする(信号抑圧量を最大に弱めた状態とする)値である。

Figure 0007302597000008
図11は、[式9]によるシグモイド関数の挙動を例示している。
[式9]に示した調整式によれば、ユーザ発話レベル推定値としての「Pdti^ ̄」の大きさが変化することに伴い、抑圧量補正係数αdtの値が「1」から「Max」の間で調整される。具体的には、発話レベル推定値「Pdti^ ̄」が大きい場合には抑圧量補正係数αdtの値が「Max」に近づくことになり、それにより[式8]による信号抑圧量が弱められる。逆に、発話レベル推定値「Pdti^ ̄」が小さい場合には抑圧量補正係数αdtの値が「1」に近づき、[式8]による信号抑圧量が強められる。
なお、上記のようにクリップ補償部33では、ユーザの発話レベルを、クリップしたマイクロフォン13の信号(エコーキャンセル処理後の信号)のクリップしていない区間でのダブルトーク時の平均パワーに基づいて推定している。
これにより、クリップしたマイクロフォン13の信号の発話レベルを、クリップが生じた時刻において適切に得ることができる。
ここで、クリップ補償部33では、ユーザ発話レベル推定値としての「Pdti^ ̄」を逐次的に算出する上で、ダブルトーク中か否かの判定を行うことを要する。このダブルトーク中か否かの判定は、FFT処理部34を介して入力される出力音声信号Ss(参照信号x)と、ダブルトーク評価値Diと、ダブルトーク判定閾値γとに基づき行う。
具体的には、出力音声信号Ssに基づきスピーカ出力有無の判定を行い、その結果スピーカ出力ありと判定され、且つダブルトーク評価値Diがダブルトーク判定閾値γ以下であると判定した場合に、ダブルトーク中であるとの判定結果を得る。
説明を図10に戻す。
ケース2のクリップ補償としては、[式7]に示した手法によるクリップ補償を行う。
また、ケース3において、音声認識エンジンに合わせた処理としては、[式8]において抑圧量補正係数αdtの値を音声認識エンジンの特性(音声認識処理の特性)に合わせた値としたクリップ補償を行う。この際の抑圧量補正係数αdtの値としては、例えば制御部18(或いはクラウド60)における音声認識エンジンに応じて予め定められた固定値を用いる。
なお、ケース3については、上記のように音声認識エンジンに合わせた処理を実行することに限らず、図10中の括弧内に表すようにクリップ補償をしないものとすることもできる。
ケース3のようにユーザ発話があり且つスピーカ出力がない場合、すなわち、クリップの原因がユーザ発話であると推定される場合には、信号を抑圧しない方が却って後段の音声認識結果が良好となる場合があることが経験上分かっている。そのような場合にはクリップ補償をしないものとすることで、音声認識精度の向上を図ることができる。
上記では、クリップ補償部33がスピーカ出力有無とユーザ発話有無とによる場合分けに応じてクリップ補償に係る処理を実行し分けることを述べたが、この際、ユーザ発話有無の判定は、ダブルトーク評価値Diに基づいて行う。具体的に、クリップ補償部33は、例えばダブルトーク評価値Diが所定値以下に小さい場合はユーザ発話あり、ダブルトーク評価値Diが所定値よりも大きい場合はユーザ発話なしとの判定結果を得る。
なお、[式5]で説明したように、ダブルトーク評価値Diは、ユーザ発話のあるダブルトーク中において値が大きくなる評価値とされている。
ここで、[式7][式8]に示した実施形態としてのクリップ補償手法と、従来技術との違いについて図12及び図13を参照して説明しておく。
図12は、従来技術として、上述した特許文献1に記載のクリップ補償手法を模式化して表している。
特許文献1に記載の手法では、クリップした信号(音声信号Mb)のクリップ部分を含むゼロクロス点間の信号(区分信号m1b)を、クリップしていない信号(音声信号Ma)における対応するゼロクロス点間の信号(区分信号m1a)により置き換えている。
図12の例では、クリップしていない音声信号Maにおけるクリップ部分に対応した区分信号m1aが、クリップ部分よりも時間的に後に到来している例を示しているが、この場合、特許文献1の手法によると、図13に時刻t1として示すクリップタイミングにおいて、リアルタイムにクリップ補償を行うことができないものとなる。
これに対し、[式7][式8]に示した実施形態としてのクリップ補償手法によれば、クリップしていない信号におけるクリップ部分に対応した波形区間の到来を待つ必要がなく、クリップが生じたタイミングでリアルタイムにクリップ補償を行うことができる。
<6.処理手順>

図14のフローチャートを参照し、上記した実施形態としてのクリップ補償手法を実現するために実行すべき具体的な処理手順を説明する。
クリップ補償部33は、図14に示す処理を時間フレームごとに繰り返し実行する。
なお、クリップ補償部33は、図14に示す処理とは別に、マイクロフォン13の各チャネルごとの平均パワー(スピーカ出力があり且つクリップしていない区間でのエコーキャンセル処理後の平均パワー)、及びユーザ発話レベル推定値としての「Pdti^ ̄」を逐次的に計算する処理を実行している。
先ず、クリップ補償部33はステップS101で、クリップを検出したか否かを判定する。すなわち、クリップ検出部30の検出結果に基づき、クリップが生じたチャネルの有無を判定する。
クリップを検出していないと判定した場合、クリップ補償部33はステップS102で終了条件が成立したか否かを判定する。なお、ここでの終了条件は、例えば信号処理装置1の電源オフ等、処理終了条件として予め定められた条件である。
終了条件が成立していなければ、クリップ補償部33はステップS101に戻り、また終了条件が成立した場合は図14に示す一連の処理を終える。
ステップS101において、クリップを検出したと判定した場合、クリップ補償部33はステップS103に進み、クリッピングチャネルと最小パワーチャネルとの平均パワー比を取得する。すなわち、逐次的に計算している各チャネルの平均パワーのうち、クリップしたチャネルの平均パワーと、平均パワーが最小のチャネルの平均パワーとの比(「Pi^ ̄/PMin^ ̄」)を計算して取得する。
続くステップS104でクリップ補償部33は、クリッピングチャネルの抑圧係数を計算する。ここで、抑圧係数とは、[式7]の右辺における「eMinH Min」の項と「ei」の項とを除いた部分を意味する。
その上で、クリップ補償部33はステップS105で、スピーカ出力があるか否かを判定する。この判定処理は、図10に示したケース1とケース2の組、ケース3とケース4の組の何れに該当するかを判定していることに相当する。
スピーカ出力があると判定した場合、クリップ補償部33はステップS106でユーザ発話があるか否かを判定する。
ステップS106において、ユーザ発話があると判定した場合(つまりケース1に該当する場合)、クリップ補償部33はステップS107に進み、推定発話レベルに応じて抑圧係数を更新する。すなわち、先ず、発話レベル推定値「Pdti^ ̄」に基づいて、先の[式9]により抑圧量補正係数αdtを計算する。そして、計算した抑圧量補正係数αdtをステップS104で求めた抑圧係数に乗じることで、抑圧係数の更新を行う。
その上で、クリップ補償部33はステップS108のクリッピング信号抑圧処理を実行し、ステップS101に戻る。ステップS108のクリッピング信号抑圧処理としては、ステップS107で更新した抑圧係数を用いて、[式8]により「ei^~」を計算する処理を行う。
また、ステップS106において、ユーザ発話があると判定した場合(つまりケース2に該当する場合)、クリップ補償部33はステップS109に進んでクリッピング信号抑圧処理を実行し、ステップS101に戻る。ステップS109のクリッピング信号抑圧処理としては、ステップS104で求めた抑圧係数を用いて、[式7]により「ei^~」を計算する処理を行う。
また、先のステップS105において、スピーカ発話がないと判定した場合(ケース3又はケース4)、クリップ補償部33はステップS110でユーザ発話があるか否かを判定する。
ステップS110でユーザ発話があると判定した場合(ケース3)、クリップ補償部33はステップS111に進み、認識エンジンに合わせた抑圧係数に更新する処理を行う。すなわち、音声認識エンジンの特性に応じて定められた抑圧量補正係数αdtをステップS104で求めた抑圧係数に乗じることで、抑圧係数を更新する。
その上でクリップ補償部33は、ステップS112のクリッピング信号抑圧処理として、ステップS111で更新した抑圧係数を用いて[式8]により「ei^~」を計算する処理を行い、ステップS101に戻る。
また、ステップS110において、ユーザ発話がないと判定した場合(ケース4)、クリップ補償部33はステップS101に戻る。つまりこの場合は、クリップ補償は行われない。
<7.変形例>

ここで、実施形態としては上記した具体例に限定されず、本技術の要旨を逸脱しない範囲内において種々の変更が可能である。
例えば、上記では、複数のマイクロフォン13が円周上に配置される例を挙げたが、例えば直線的な配置等の円周上配置以外の配置を採用することもできる。
また、実施形態では、信号処理装置1が、サーボモータ21を備えてスピーカ16の向きを変化させることが可能に構成されている、すなわち、スピーカ16に対する各マイクロフォン13の位置を変化させることが可能に構成された例を示したが、このような構成が採られる場合には、クリップが検出されたことに応じて、例えばクリップ補償部33や制御部18がモータ駆動部20に指示を行ってスピーカ16の位置を変化させるようにすることができる。これにより、スピーカ16の位置を壁反射等が少ない位置に移動させることが可能となり、クリップが生じる可能性が低くなるようにしたり、クリッピング雑音が小さくなるようにしたりすることができる。
なお、信号処理装置1としては、スピーカ16ではなくマイクロフォン13側を変位させる構成を採ることもでき、その場合においても上記と同様にクリップが検出されたことに応じてマイクロフォン13を変位させることで、上記と同様の効果を得ることができる。
また、スピーカ16やマイクロフォン13の変位は、回転による変位に限られない。例えば、信号処理装置1としては、車輪とその駆動部とを備える構成等により、自身の移動を可能とする構成を採ることもできる。その場合には、クリップが検出されたことに応じて信号処理装置1自体が移動されるように上記駆動部を制御することもできる。このように信号処理装置1自体が移動することでも、スピーカ16やマイクロフォン13の位置を壁反射等が少ない位置に移動させることが可能となり、上記と同様の効果を得ることができる。
なお、上記のようにクリップの検出に応じてスピーカ16やマイクロフォン13を変位させる構成は、[式7]や[式8]に示したクリップ補償を行わない場合にも適用することができる。
<8.実施形態のまとめ>

上記のように実施形態としての信号処理装置(同1)は、複数のマイクロフォン(同13)からの信号に対しスピーカ(同16)による出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部(AEC処理部32)と、複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部(同30)と、クリップしていないマイクロフォンの信号に基づいて、クリップしたマイクロフォンのエコーキャンセル処理後の信号を補償するクリップ補償部(同33)とを備えるものである。
複数のマイクロフォンからの信号にエコーキャンセル処理が施される場合において、エコーキャンセル処理前の信号に対しクリップ補償を行うとした場合は、スピーカの出力信号成分と目的音を含む他成分との切り分けが困難な状態でクリップ補償を行うことになるため、クリップ補償精度が低下する傾向となる。上記のようにエコーキャンセル処理後の信号に対しクリップ補償を行うことで、スピーカの出力信号成分が或る程度抑圧された信号を対象としてクリップ補償を行うことが可能とされる。
従って、クリップ補償精度を高めることができる。
また、実施形態としての信号処理装置においては、クリップ補償部は、クリップしたマイクロフォンの信号を抑圧することで補償している。
クリップしたマイクロフォンの信号を抑圧するという補償手法を採ることで、クリップしたマイクロフォンの信号の位相情報が補償によって失われないようにすることが可能とされる。
従って、補償によって各マイクロフォン間の位相関係が崩れてしまうことの防止を図ることができる。
実施形態のようにクリップ補償の後段で発話方向推定とビームフォーミング(音声強調)を行って音声認識する構成では、各マイクロフォン間の位相関係が崩れないことで発話方向推定の精度向上が図られ、ビームフォーミングにより適切に目的の発話成分を抽出することができ、音声認識精度の向上を図ることができる。
さらに、実施形態としての信号処理装置においては、クリップ補償部は、クリップしていないマイクロフォンの信号とクリップしたマイクロフォンの信号との平均パワー比に基づいてクリップしたマイクロフォンの信号を抑圧している。
これにより、クリップしたマイクロフォンの信号のパワーを、クリップしていなかった場合に得られたであろうエコーキャンセル処理後のパワーに適切に抑圧することが可能とされる。
従って、クリップ補償の精度を高めることができる。
さらにまた、実施形態としての信号処理装置においては、クリップ補償部は、平均パワー比として、クリップしていないマイクロフォンのうち平均パワーが最小のマイクロフォンの信号との平均パワー比を用いている。
平均パワーが最小であるマイクロフォンは、クリップが最も生じ難いマイクロフォンであると換言できる。
従って、クリップしたマイクロフォンの信号について補償が行われる確実性を最大限に高めることができる。
また、実施形態としての信号処理装置においては、クリップ補償部は、ユーザ発話があり且つスピーカ出力がある場合には、クリップしたマイクロフォンの信号の抑圧量を発話レベルに応じて調整している。
ユーザ発話があり且つスピーカ出力がある所謂ダブルトークの区間では、ユーザの発話レベルが大きい場合、クリッピングによる雑音重畳区間においても発話成分を多分に含む。一方、発話レベルが小さい場合、大きなクリッピング雑音に発話成分が埋もれてしまう傾向となる。そこで、ダブルトーク区間では、クリップしたマイクロフォンの信号の抑圧量を発話レベルに応じて調整する。
これにより、ユーザの発話レベルが大きい場合には信号の抑圧量を抑えて発話成分が抑圧されてしまうことの防止を図り、またユーザの発話レベルが小さい場合には信号の抑圧量を強めてクリッピング雑音を抑圧することが可能とされる。
従って、実施形態のようにクリップ補償の後段で音声認識が行われる場合において、音声認識精度の向上を図ることができる。
さらに、実施形態としての信号処理装置においては、クリップ補償部は、ユーザ発話があり且つスピーカ出力がない場合には、クリップしたマイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧している。
ユーザ発話があり且つスピーカ出力がない場合とは、クリップの原因がユーザ発話であると推定される場合である。上記構成によれば、クリップの原因がユーザ発話であると推定される場合において、例えばクリッピング雑音が重畳していても或る程度の発話レベルがある場合の方が、発話成分が抑圧されてしまう場合よりも音声認識精度を保つことができる等、後段の音声認識処理の特性に応じた適切な抑圧量によるクリップ補償を行うことが可能とされる。
従って、音声認識精度の向上を図ることができる。
さらにまた、実施形態としての信号処理装置においては、クリップ補償部は、ユーザ発話があり且つスピーカ出力がない場合には、クリップしたマイクロフォンの信号に対する補償を行わないものとしている。
ユーザ発話があり且つスピーカ出力がない場合、すなわち、クリップの原因がユーザ発話であると推定される場合には、信号を抑圧しない方が却って後段の音声認識結果が良好となる場合があることが経験上分かっている。そのような場合には、上記のようにクリップ補償を行わないようにすることで、音声認識精度の向上を図ることができる。
また、実施形態としての信号処理装置においては、複数のマイクロフォン又はスピーカの少なくとも何れかの位置を変化させる駆動部(サーボモータ21)と、クリップ検出部によりクリップが検出されたことに応じて駆動部により複数のマイクロフォン又はスピーカの少なくとも何れかの位置を変化させる制御部(クリップ補償部33又は制御部18)とを備えている。
これにより、クリップが検出された場合は、各マイクロフォンとスピーカとの位置関係を変化させたり、複数のマイクロフォン又はスピーカの位置を壁反射等が少ない位置に移動させたりすることが可能とされる。
従って、クリップが慢性的に生じる場合や、大きなクリッピング雑音が生じる場合等に対応して、クリップが生じる可能性が低くなるように、或いはクリッピング雑音が小さくなるように、複数のマイクロフォンとスピーカとの位置関係や複数のマイクロフォン自体の位置又はスピーカ自体の位置を変化させることができ、後段の音声認識の精度向上が図られるようにすることができる。
また、実施形態としての信号処理方法は、複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル手順と、複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出手順と、クリップしていないマイクロフォンの信号に基づいて、クリップしたマイクロフォンのエコーキャンセル処理後の信号を補償するクリップ補償手順とを有する信号処理方法である。
このような実施形態としての信号処理方法によっても、上記した実施形態としての信号処理装置と同様の作用及び効果を得ることができる。
ここで、これまでで説明した音声信号処理部17による機能(特にエコーキャンセル、クリップ検出、及びクリップ補償に係る機能)は、CPU等によるソフトウェア処理として実現することができる。該ソフトウェア処理は、プログラムに基づき実行され、該プログラムは、CPU等のコンピュータ装置(情報処理装置)が読み出し可能な記憶装置に記憶される。
実施形態としてのプログラムは、複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル機能と、複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出機能と、クリップしていないマイクロフォンの信号に基づいて、クリップしたマイクロフォンのエコーキャンセル処理後の信号を補償するクリップ補償機能と、を情報処理装置に実現させるプログラムである。
このようなプログラムによって、上記した実施形態としての信号処理装置を実現することができる。
なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
<9.本技術>

なお本技術は以下のような構成も採ることができる。
(1)
複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備える
信号処理装置。
(2)
前記クリップ補償部は、
クリップした前記マイクロフォンの信号を抑圧することで補償する
前記(1)に記載の信号処理装置。
(3)
前記クリップ補償部は、
クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧する
前記(2)に記載の信号処理装置。
(4)
前記クリップ補償部は、
前記平均パワー比として、クリップしていない前記マイクロフォンのうち平均パワーが最小の前記マイクロフォンの信号との平均パワー比を用いる
前記(3)に記載の信号処理装置。
(5)
前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がある場合には、クリップした前記マイクロフォンの信号の抑圧量を発話レベルに応じて調整する
前記(1)乃至(4)の何れかに記載の信号処理装置。
(6)
前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧する
前記(1)乃至(5)の何れかに記載の信号処理装置。
(7)
前記クリップ補償部は、
ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号に対する前記補償を行わない
前記(1)乃至(5)の何れかに記載の信号処理装置。
(8)
前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる駆動部と、
前記クリップ検出部によりクリップが検出されたことに応じて前記駆動部により前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる制御部と、を備える
前記(1)乃至(7)の何れかに記載の信号処理装置。
1 信号処理装置、11 筐体、12 マイクロフォンアレイ、13 マイクロフォン、14 可動部、15 表示部、16 スピーカ、30 クリップ検出部、32 AEC処理部、32a エコーキャンセル処理部、32b ダブルトーク評価部、33 クリップ補償部、35 発話区間推定部、36 発話方向推定部、37 音声強調部、38 雑音抑圧部

Claims (10)

  1. 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
    前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
    クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
    前記クリップ補償部は、
    クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、
    クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧する
    信号処理装置。
  2. 前記クリップ補償部は、
    前記平均パワー比として、クリップしていない前記マイクロフォンのうち平均パワーが最小の前記マイクロフォンの信号との平均パワー比を用いる
    請求項に記載の信号処理装置。
  3. 前記クリップ補償部は、
    ユーザ発話があり且つスピーカ出力がある場合には、クリップした前記マイクロフォンの信号の抑圧量を発話レベルに応じて調整する
    請求項に記載の信号処理装置。
  4. 前記クリップ補償部は、
    ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧する
    請求項に記載の信号処理装置。
  5. 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル手順と、
    前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出手順と、
    クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償手順であって、クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧するクリップ補償手順と、を有する
    信号処理方法。
  6. 情報処理装置が実行するプログラムであって、
    複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル機能と、
    前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出機能と、
    クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償機能であって、クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、クリップしていない前記マイクロフォンの信号とクリップした前記マイクロフォンの信号との平均パワー比に基づいてクリップした前記マイクロフォンの信号を抑圧するクリップ補償機能と、を前記情報処理装置に実現させる
    プログラム。
  7. 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
    前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
    クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
    前記クリップ補償部は、
    クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、
    ユーザ発話があり且つスピーカ出力がある場合には、クリップした前記マイクロフォンの信号の抑圧量を発話レベルに応じて調整する
    信号処理装置。
  8. 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
    前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
    クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
    前記クリップ補償部は、
    クリップした前記マイクロフォンの信号を抑圧することで補償すると共に、
    ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号を後段の音声認識処理の特性に応じた抑圧量により抑圧する
    信号処理装置。
  9. 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
    前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
    クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、を備え、
    前記クリップ補償部は、
    ユーザ発話があり且つスピーカ出力がない場合には、クリップした前記マイクロフォンの信号に対する前記補償を行わない
    信号処理装置。
  10. 複数のマイクロフォンからの信号に対しスピーカによる出力信号成分をキャンセルするエコーキャンセル処理を施すエコーキャンセル部と、
    前記複数のマイクロフォンからの信号についてクリップ検出を行うクリップ検出部と、
    クリップしていない前記マイクロフォンの信号に基づいて、クリップした前記マイクロフォンの前記エコーキャンセル処理後の信号を補償するクリップ補償部と、
    前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる駆動部と、
    前記クリップ検出部によりクリップが検出されたことに応じて前記駆動部により前記複数のマイクロフォン又は前記スピーカの少なくとも何れかの位置を変化させる制御部と、を備える
    信号処理装置。
JP2020525310A 2018-06-11 2019-04-22 信号処理装置、信号処理方法、プログラム Active JP7302597B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018110998 2018-06-11
JP2018110998 2018-06-11
PCT/JP2019/017047 WO2019239723A1 (ja) 2018-06-11 2019-04-22 信号処理装置、信号処理方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2019239723A1 JPWO2019239723A1 (ja) 2021-07-01
JP7302597B2 true JP7302597B2 (ja) 2023-07-04

Family

ID=68842104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020525310A Active JP7302597B2 (ja) 2018-06-11 2019-04-22 信号処理装置、信号処理方法、プログラム

Country Status (6)

Country Link
US (1) US11423921B2 (ja)
EP (1) EP3806489A4 (ja)
JP (1) JP7302597B2 (ja)
CN (1) CN112237008B (ja)
BR (1) BR112020024840A2 (ja)
WO (1) WO2019239723A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005065217A (ja) 2003-07-31 2005-03-10 Sony Corp 通話装置
US20060147063A1 (en) 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
JP2006270949A (ja) 2005-03-19 2006-10-05 Microsoft Corp 同時キャプチャアプリケーションのための自動オーディオゲイン制御
JP2010245657A (ja) 2009-04-02 2010-10-28 Sony Corp 信号処理装置及び方法、並びにプログラム
JP2012093641A (ja) 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器
JP2017011541A (ja) 2015-06-23 2017-01-12 富士通株式会社 音声処理装置、プログラム、及び通話装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3784747A (en) * 1971-12-03 1974-01-08 Bell Telephone Labor Inc Speech suppression by predictive filtering
US5305307A (en) 1991-01-04 1994-04-19 Picturetel Corporation Adaptive acoustic echo canceller having means for reducing or eliminating echo in a plurality of signal bandwidths
US5796819A (en) * 1996-07-24 1998-08-18 Ericsson Inc. Echo canceller for non-linear circuits
US6163608A (en) 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
US6148078A (en) 1998-01-09 2000-11-14 Ericsson Inc. Methods and apparatus for controlling echo suppression in communications systems
CA2245411A1 (en) * 1998-08-20 2000-02-20 Mitel Corporation Echo canceller with compensation for codec limiting effects
US6507653B1 (en) * 2000-04-14 2003-01-14 Ericsson Inc. Desired voice detection in echo suppression
WO2003010995A2 (en) * 2001-07-20 2003-02-06 Koninklijke Philips Electronics N.V. Sound reinforcement system having an multi microphone echo suppressor as post processor
JP3862545B2 (ja) 2001-10-22 2006-12-27 沖電気工業株式会社 エコーキャンセラ
US7545926B2 (en) * 2006-05-04 2009-06-09 Sony Computer Entertainment Inc. Echo and noise cancellation
US7894598B2 (en) * 2004-12-14 2011-02-22 Nuance Communications, Inc. System for limiting receive audio
US8295475B2 (en) * 2006-01-13 2012-10-23 Microsoft Corporation Selective glitch detection, clock drift compensation, and anti-clipping in audio echo cancellation
JP2010081004A (ja) * 2008-09-24 2010-04-08 Nec Electronics Corp エコーキャンセル装置、通信装置、及びエコーキャンセル方法
CN104519212B (zh) 2013-09-27 2017-06-20 华为技术有限公司 一种消除回声的方法及装置
EP3040984B1 (en) * 2015-01-02 2022-07-13 Harman Becker Automotive Systems GmbH Sound zone arrangment with zonewise speech suppresion

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005065217A (ja) 2003-07-31 2005-03-10 Sony Corp 通話装置
US20060147063A1 (en) 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
JP2006270949A (ja) 2005-03-19 2006-10-05 Microsoft Corp 同時キャプチャアプリケーションのための自動オーディオゲイン制御
JP2010245657A (ja) 2009-04-02 2010-10-28 Sony Corp 信号処理装置及び方法、並びにプログラム
JP2012093641A (ja) 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器
JP2017011541A (ja) 2015-06-23 2017-01-12 富士通株式会社 音声処理装置、プログラム、及び通話装置

Also Published As

Publication number Publication date
WO2019239723A1 (ja) 2019-12-19
EP3806489A1 (en) 2021-04-14
BR112020024840A2 (pt) 2021-03-02
CN112237008B (zh) 2022-06-03
CN112237008A (zh) 2021-01-15
EP3806489A4 (en) 2021-08-11
US20210241781A1 (en) 2021-08-05
US11423921B2 (en) 2022-08-23
JPWO2019239723A1 (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
US10079026B1 (en) Spatially-controlled noise reduction for headsets with variable microphone array orientation
US10446171B2 (en) Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
US9591123B2 (en) Echo cancellation
JP3727258B2 (ja) エコー抑制処理システム
KR101601197B1 (ko) 마이크로폰 어레이의 이득 조정 장치 및 방법
CN111052767B (zh) 音频处理装置、音频处理方法以及信息处理装置
US10978086B2 (en) Echo cancellation using a subset of multiple microphones as reference channels
KR20120066134A (ko) 다채널 음원 분리 장치 및 그 방법
US8761386B2 (en) Sound processing apparatus, method, and program
US20180308503A1 (en) Real-time single-channel speech enhancement in noisy and time-varying environments
CN111145771A (zh) 语音信号处理方法、处理装置、终端及其存储介质
JP2011166484A (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置、多チャネルエコー消去プログラム及びその記録媒体
US11189297B1 (en) Tunable residual echo suppressor
JP2021522550A (ja) ギャップ信頼度を用いた背景雑音推定
US9824675B2 (en) Method for suppressing interference noise in an acoustic system and acoustic system
US20140249809A1 (en) Audio signal noise attenuation
JP2012039441A (ja) 多チャネルエコー消去方法、多チャネルエコー消去装置及びそのプログラム
JP7302597B2 (ja) 信号処理装置、信号処理方法、プログラム
JP2010091912A (ja) 音声強調システム
JP2005051744A (ja) 通話装置
JP2003309493A (ja) 反響低減方法、反響低減装置、反響低減プログラム
KR101418023B1 (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
CN112863532A (zh) 回音抑制装置、回音抑制方法以及存储介质
WO2018087855A1 (ja) エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム
CN113345457B (zh) 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220307

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230227

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230523

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230605

R151 Written notification of patent or utility model registration

Ref document number: 7302597

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151