JP5810903B2 - 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム - Google Patents

音声処理装置、音声処理方法及び音声処理用コンピュータプログラム Download PDF

Info

Publication number
JP5810903B2
JP5810903B2 JP2011286450A JP2011286450A JP5810903B2 JP 5810903 B2 JP5810903 B2 JP 5810903B2 JP 2011286450 A JP2011286450 A JP 2011286450A JP 2011286450 A JP2011286450 A JP 2011286450A JP 5810903 B2 JP5810903 B2 JP 5810903B2
Authority
JP
Japan
Prior art keywords
frequency
range
phase difference
sound
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011286450A
Other languages
English (en)
Other versions
JP2013135433A (ja
Inventor
智佳子 松本
智佳子 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011286450A priority Critical patent/JP5810903B2/ja
Priority to US13/659,410 priority patent/US8886499B2/en
Publication of JP2013135433A publication Critical patent/JP2013135433A/ja
Application granted granted Critical
Publication of JP5810903B2 publication Critical patent/JP5810903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、例えば、複数のマイクロホンを用いて集音した音声のうち、特定方向からの音声を聞き取り易くする音声処理装置、音声処理方法及び音声処理用コンピュータプログラムに関する。
近年、電話会議システム、またはハンズフリー機能を備えた電話機といった、複数のマイクロホンにより音声を集音する音声処理装置が開発されている。このような音声処理装置において、集音した音声のうち、特定方向からの音声を聞き取り易くするために、その特定方向以外からの音声を抑制する技術が研究されている(例えば、特許文献1〜5を参照)。
例えば、特許文献1に開示された指向性集音装置は、複数方向に存在する音源からの音を周波数軸上の信号に変換し、周波数軸上の信号を抑制する抑制関数を算出し、その抑制関数を元の信号の周波数軸上の信号の振幅成分に乗算して周波数軸上の信号を補正する。この指向性集音装置は、各周波数軸上の信号の位相成分を同じ周波数ごとに算出し、位相成分の差分を算出し、その差分に基づいて、所定の方向に音源が存在する確率を示す確率値を特定する。そしてこの指向性集音装置は、その確率値に基づいて所定の方向の音源以外の音源からの音を抑制する抑制関数を算出する。
また、特許文献2に開示された雑音抑制装置は、2つ以上のマイクロホンが受信した音の音源を分離し、分離した音源のうち、目的音の音源方向を推定する。そしてこの雑音抑制装置は、目的音の音源方向を用いてマイクロホン間の位相差を検出し、検出された位相差を用いて位相差の中心値を更新し、更新された中心値を用いて生成された雑音抑制フィルタを用いて、マイクロホンが受信した音の雑音を抑制する。
また、特許文献3に開示された音声信号処理方法は、第1の入力音信号の音声区間と雑音区間を判定し、雑音区間における第1の入力音信号の電力の大きさが第1の閾値より大きいか否か判定する。第1の入力音信号の電力の大きさが第1の閾値以下である場合、この音声信号処理方法は、雑音区間における電力の大きさに基づいて第1の入力音信号の音声区間及び雑音区間に雑音を抑制する。一方、第1の入力音信号の電力の大きさが第1の閾値より大きい場合、この音声信号処理方法は、第1と第2の入力音信号の間の位相差に応じて第1の入力音信号を抑圧する。
さらに、特許文献4に開示された収音装置は、マイクロホンからの2チャネルの音声信号をフレーム毎に複数の周波数帯域に分割し、各チャネル及び周波数帯域毎にレベルまたは位相を算出し、レベル及び位相を過去から現在のフレームにわたって加重平均する。そしてこの収音装置は、加重平均されたレベルまたは位相のチャネル間差に基づき、対応する周波数帯域成分が何れの音源に属するか判定し、同一音源からの信号として判定された周波数帯域成分信号を周波数帯域を跨いで合成する。
さらに、特許文献5に開示された雑音抑制装置は、2つのマイクロホンで取得した音響信号からクロススペクトルを算出し、クロススペクトルの位相成分の時間変動を測定し、変動が少ない周波数成分を音声成分とし、変動が大きい成分を雑音成分とする。そしてこの雑音抑制装置は、雑音成分の振幅を抑圧するような補正係数を算出する。
特開2007−318528号公報 特開2010−176105号公報 特開2011−99967号公報 特開2003−78988号公報 特開2011−33717号公報
しかしながら、音声を集音するために利用されるマイクロホンの個体差またはマイクロホンの設置環境によっては、各マイクロホンにより集音された特定方向に位置する音源からの音の位相差の実測値がその位相差の理論値と必ずしも一致しないことがある。その結果として、音源の方向が正しく推定されないおそれがあった。そのため、何れの先行技術でも、強調したい音声が誤って抑制されたり、あるいは、抑制すべき音声が抑制されないおそれがあった。
そこで本明細書は、マイクロホンの個体差または設置環境によらずに、特定方向からの音を聞き取り易くする音声処理装置を提供することを目的とする。
一つの実施形態によれば、音声処理装置が提供される。この音声処理装置は、第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換する時間周波数変換部と、フレームごとに、第1の周波数信号と第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、フレームごとに、複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に第1の周波数信号と第2の周波数信号間の位相差が含まれるか否か判定することにより、所定数のフレームにおいてその位相差が第1の範囲内に含まれる率を求め、複数の周波数帯域のうち、その率が所定の音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、検出部により検出された周波数帯域について、その音源の方向についての第1の範囲よりも拡張した第2の範囲を設定する範囲設定部と、第2の範囲内に位相差が含まれる場合の第1及び第2の周波数信号の少なくとも一方の振幅を、第2の範囲から位相差が外れた場合のその一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求める信号補正部と、補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する周波数時間変換部とを有する。
本発明の目的及び利点は、請求項において特に指摘されたエレメント及び組み合わせにより実現され、かつ達成される。
上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を限定するものではないことを理解されたい。
本明細書に開示された音声処理装置は、マイクロホンの個体差または設置環境によらずに、特定方向からの音を聞き取り易くできる。
一つの実施形態による音声処理装置を有する音声入力システムの概略構成図である。 第1の実施形態による音声処理装置の概略構成図である。 特定の方向に位置する音源からの音についての第1の周波数信号と第2の周波数信号間の位相差の一例を示す図である。 二つのマイクロホンと各サブ方向範囲の関係の一例を示す図である。 サブ方向範囲ごとの取り得る位相差の範囲の一例を示す図である。 達成率の時間変化の一例を示す図である。 周波数帯域ごとの達成率の最大値、平均値及び分散の一例を表すテーブルを示す。 緩和周波数帯域設定処理の動作フローチャートである。 (a)〜(c)は、それぞれ、基準範囲と緩和周波数帯域について修正された非抑制範囲との関係の一例を示す図である。 音声処理の動作フローチャートである。 第2の実施形態による緩和周波数帯域設定処理の動作フローチャートである。 第3の実施形態による音声処理装置の概略構成図である。
以下、図を参照しつつ、様々な実施形態による音声処理装置について説明する。
この音声処理装置は、複数の音声入力部によりそれぞれ集音された音声信号間の位相差を複数の周波数帯域のそれぞれごとに求め、各周波数帯域の位相差から特定の音源の方向を推定し、その音源の方向以外から到来した音声信号を減衰させる。その際、この音声処理装置は、周波数帯域ごとに、直近の一定期間においてその位相差が集音対象の音源の方向に相当する位相差の範囲内に含まれている率を求める。そしてこの音声処理装置は、その率が低い周波数帯域については、マイクロホンごとの個体差またはマイクロホンの設置環境に起因して位相差が変動しているものと推定して、音声信号を減衰させない位相差の範囲を拡張する。
図1は、一つの実施形態による音声処理装置を有する音声入力システムの概略構成図である。音声入力システム1は、例えば、電話会議システムであり、音声入力部2−1及び2−2と、アナログ/デジタル変換部3と、記憶部4と、記憶媒体アクセス装置5と、音声処理装置6と、制御部7と、通信部8と、出力部9とを有する。
音声入力部2−1及び2−2は、例えば、それぞれ、マイクロホンを有し、音声入力部2−1及び音声入力部2−2の周囲の音声を集音し、その音声の音量に応じたアナログ音声信号をアナログ−デジタル変換部3へ出力する。なお、音声入力部2−1及び音声入力部2−2は、音源の位置に応じて各音声入力部間で音声が達する時間が異なるように、例えば、所定の間隔(例えば、数cm〜数十cm)を空けて配置される。そのため、音源の方向によって、二つの音声入力部2−1及び2−2で得られた音声信号間の位相差も変化する。したがって、この位相差を調べることにより、音声処理装置6は、音源の方向を推定できる。
アナログ/デジタル変換部3は、例えば、アンプと、アナログ/デジタル変換器とを有する。アナログ/デジタル変換部3は、音声入力部2−1及び2−2から受け取ったアナログ音声信号をアンプによりそれぞれ増幅する。そしてアナログ/デジタル変換部3は、、その増幅されたアナログ音声信号をアナログ/デジタル変換器により所定のサンプリング周期でサンプリングすることにより、デジタル化された音声信号を生成する。なお、以下では、便宜上、音声入力部2−1により生成されたアナログ音声信号をデジタル化した音声信号を第1の音声信号と呼び、音声入力部2−2により生成されたアナログ音声信号をデジタル化した音声信号を第2の音声信号と呼ぶ。アナログ/デジタル変換部3は、第1及び第2の音声信号を音声処理装置6へ出力する。
記憶部4は、例えば、読み書き可能な半導体メモリと読み出し専用の半導体メモリとを有する。そして記憶部4は、音声入力システム1で用いられる各種コンピュータプログラム及び各種のデータを記憶する。さらに記憶部4は、音声処理装置6により補正された第1及び第2の音声信号を記憶してもよい。
記憶媒体アクセス装置5は、例えば、磁気ディスク、半導体メモリカード及び光記憶媒体といった記憶媒体10にアクセスする装置である。記憶媒体アクセス装置5は、例えば、記憶媒体10に記憶された制御部7上で実行されるコンピュータプログラムを読み込み、制御部7に渡す。また、後述するように、制御部7が音声処理装置6としての機能を実現するコンピュータプログラムを実行する場合には、記憶媒体アクセス装置5は、記憶媒体10からその音声処理用コンピュータプログラムを読み込んで、制御部7に渡してもよい。
音声処理装置6は、第1及び第2の音声信号に含まれる、特定の方向に位置する音源以外の音源からの音または雑音を減衰させることにより第1及び第2の音声信号を補正して、その特定の方向からの音を聞き取り易くする。そして音声処理装置6は、補正された第1及び第2の音声信号を出力する。
なお、音声処理装置6は、制御部7と一体的に形成されていてもよい。この場合、音声処理装置6により実行される音声処理は、例えば、制御部7が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールにより実行される。そして音声処理装置が生成し、または音声処理装置が利用する各種のデータは記憶部4に記憶される。
なお、音声処理装置6の詳細については後述する。
制御部7は、一つまたは複数のプロセッサと、メモリ回路と、周辺回路とを有する。制御部7は、音声入力システム1全体を制御する。
制御部7は、音声入力システム1が有するキーパッドなどの操作部(図示せず)を介したユーザの操作により、例えば、電話会議が開始されると、音声入力システム1と交換機あるいはSession Initiation Protocol(SIP)サーバとの間における、呼び出し、応答、切断などの呼制御処理を実行する。
そして制御部7は、音声処理装置6により補正された第1及び第2の音声信号を符号化し、その符号化された第1及び第2の音声信号を通信部8を介して出力する。制御部7は、例えば、国際電気通信連合 電気通信標準化部門(International Telecommunication Union Telecommunication Standardization Sector、ITU-T)による勧告G.711、G722.1、あるいはG.729Aに規定された音声符号化技術を用いることができる。
また制御部7は、通信部8を介して他の機器から受け取った、符号化された音声信号を復号し、その復号された音声信号を出力部9を介してスピーカ(図示せず)へ出力してもよい。
通信部8は、音声処理装置6により補正された第1及び第2の音声信号を通信ネットワークを介して音声入力システム1と接続された他の装置へ出力する。そのために、通信部8は、その通信ネットワークに音声入力システム1を接続するためのインターフェース回路を有する。通信部8は、制御部7により符号化された音声信号を、所定の通信規格に従った送信用信号に変換する。そして通信部8は、その送信用信号を通信ネットワークへ出力する。また通信部8は、通信ネットワークから所定の通信形式に従った信号を受信し、その受信した信号から符号化された音声信号を取り出してもよい。そして通信部8は、符号化された音声信号を制御部7へ渡してもよい。なお、所定の通信規格は、例えば、インターネットプロトコル(Internet Protocol、IP)とすることができ、送信用信号及び受信信号は、IPパケット化された信号とすることができる。
出力部9は、制御部7から受け取った音声信号をスピーカ(図示せず)へ出力する。そのために、出力部9は、例えば、制御部7から受け取った音声信号をアナログ化するためのデジタル/アナログ変換器を有する。
以下、音声処理装置6の詳細について説明する。
図2は、音声処理装置6の概略構成図である。音声処理装置6は、時間周波数変換部11と、位相差分算出部12と、検出部13と、抑制範囲設定部14と、抑制関数算出部15と、信号補正部16と、周波数時間変換部17とを有する。
音声処理装置6が有するこれらの各部は、それぞれ、別個の回路として音声処理装置6に実装されてもよく、あるいはそれらの各部の機能を実現する一つの集積回路であってもよい。あるいは、音声処理装置6が有するこれらの各部は、例えば、制御部7が有するプロセッサ上で実行されるコンピュータプログラムによって実現される機能モジュールとして実装されてもよい。
時間周波数変換部11は、第1及び第2の音声信号を、それぞれ、所定の時間長(例えば、数10msec)を持つフレーム単位で周波数領域の第1及び第2の周波数信号へ変換する。そのために、時間周波数変換部11は、例えば、第1及び第2の音声信号に対して、高速フーリエ変換(Fast Fourier Transform, FFT)、または修正離散コサイン変換(Modified Discrete Cosine Transform, MDCT)といった時間周波数変換を実行することにより第1及び第2の周波数信号へ変換する。あるいは、時間周波数変換部11は、Quadrature Mirror Filter(QMF)フィルタバンクあるいはウェーブレット変換を上記の時間周波数変換として用いてもよい。
時間周波数変換部11は、フレームごとに、第1及び第2の周波数信号を位相差分算出部12及び信号補正部16へ出力する。
位相差分算出部12は、第1及び第2の周波数信号を受け取る度に、複数の周波数帯域のそれぞれごとに第1の周波数信号の位相と第2の周波数信号の位相間の差を求める。例えば、位相差分算出部12は、次式に従って周波数帯域ごとの位相差Δθfを求める。
Figure 0005810903
ただし、S1fは、第1の周波数信号のうちの周波数帯域fにおける成分を表し、S2fは、第2の周波数信号のうちの周波数帯域fにおける成分を表す。またfsは、サンプリング周波数を表す。
位相差分算出部12は、各周波数帯域の位相差Δθfを検出部13及び信号補正部16へ渡す。
検出部13は、フレームごとに、複数の周波数帯域のそれぞれについて、集音したい音源の方向に対応する位相差が取り得る範囲内に、位相差Δθfが含まれるか否か判定する。そして検出部13は、直近の所定数のフレームにおいて位相差Δθfがその範囲内に含まれる率を求め、その率が集音したい音源の方向からの音に相当する条件を満たさない周波数帯域を緩和周波数帯域として検出する。この緩和周波数帯域は、集音したい音源の方向に対応する位相差が取り得る範囲よりも広い範囲にわたって、第1及び第2の周波数信号を減衰させない周波数帯域となる。
図3は、特定の方向に位置する音源からの音についての第1の周波数信号と第2の周波数信号間の位相差の一例を示す図である。図3において、横軸は周波数を表し、縦軸は位相差を表す。グラフ300は、あるフレームについて測定された周波数帯域ごとの位相差を表す。また点線310は、特定の音源方向に対する位相差の理論値を表し、範囲320は、音源の方向がその特定の音源方向を中心とする一定の方向幅の範囲で推定される場合に位相差が取り得る値の範囲を表す。さらに、拡大図330は、グラフ300のうちの約500Hz以下についての部分を拡大表示する。図3に示されるように、約300Hzよりも低い周波数帯域については、位相差が範囲320からほとんど外れていることが分かる。これは、音声入力部2−1及び2−2が有するマイクロホンの個体差、またはそのマイクロホンの設置環境における音の反射、残響などに起因している。そしてこのような周波数帯域では、複数のフレームにわたって、その位相差が範囲320から外れ得る。
そこで、検出部13は、周波数帯域ごとに、音源が存在する可能性のある方向範囲を分割した複数のサブ方向範囲のそれぞれについて、そのサブ方向範囲について取り得る位相差の範囲内に位相差Δθfが含まれるか否か判定する。なお、以下では、便宜上、各サブ方向範囲について取り得る位相差の範囲を、そのサブ方向範囲に対する位相差範囲と呼ぶ。
図4は、音声入力部2−1及び2−2と各サブ方向範囲の関係の一例を示す図である。図4に示すように、音声入力部2−1と2−2とを結ぶ線の中点Oにおける、その線の法線方向ndに対する角度が0であるとし、法線方向ndよりも反時計回り方向が正、時計回り方向が負と設定される。そして音源が存在する可能性のある方向範囲は、-π/2〜π/2であるとする。そして、各サブ方向範囲401−1〜401−nは、例えば、中点Oを原点として、音源が存在する可能性のある方向範囲をn等分した範囲の一つに設定される。なお、nは、2以上の整数である。例えば、n=3である場合、サブ方向範囲401−1〜401−3は、それぞれ、-π/2〜-π/6、-π/6〜π/6、π/6〜π/2となる。
検出部13は、各サブ方向範囲を、順番に注目するサブ方向範囲に設定する。そして検出部13は、各周波数帯域について、フレームごとに、位相差が注目するサブ方向範囲についての位相差範囲内に含まれるか否か判定する。なお、音声入力部2−1と音声入力部2−2が離れているほど、特定の音源からの音が音声入力部2−1に到達する時間と音声入力部2−2に到達する時間の差も大きくなり、その結果として位相差も大きくなる。そのため、位相差範囲の中心の位相差は、音声入力部2−1と音声入力部2−2間の距離に応じて設定される。またサブ方向範囲の幅が広いほど、そのサブ方向範囲についての位相差範囲も広くなる。さらに、音の周波数が高いほど、その音の波長が短くなるので、周波数が高くなるほど第1の周波数信号と第2の周波数信号間の位相差も大きくなる。そのため、位相差範囲は、周波数が高くなるほど広くなる。
図5は、サブ方向範囲ごとの位相差範囲の一例を示す図である。この例では、3個のサブ方向範囲が設定されているとする。そして位相差範囲501は、音声入力部2−1と音声入力部2−2とを結ぶ線に対する法線方向ndを含むサブ方向範囲に対応する。また位相差範囲502は、法線方向ndよりも音声入力部2−1側に近い方のサブ方向範囲に対応し、一方、位相差範囲503は、法線方向ndよりも音声入力部2−2側に近い方のサブ方向範囲に対応する。
検出部13は、最新のフレームtについて、位相差が注目するサブ方向範囲についての位相差範囲内に含まれるか否かを表す判定値d(t)を求める。すなわち、検出部13は、位相差が注目するサブ方向範囲についての位相差範囲内に含まれる場合、そのフレームtにおける注目するサブ方向範囲についての判定値d(t)を1とする。一方、位相差がその位相差範囲から外れていれば、検出部13は、判定値d(t)を0とする。そして検出部13は、各周波数帯域について、次式に従って、直近の所定数のフレームにおいて注目するサブ方向範囲に対する位相差が位相差範囲内に含まれる率を算出する。なお、この率を、以下では、便宜上、達成率と呼ぶ。
Figure 0005810903
ここで、ARPf n(t-1)及びARPf n(t)は、それぞれ、フレーム(t-1)、フレームtについてのn番目のサブ方向範囲における周波数帯域fについての達成率を表す。またαは忘却係数であり、達成率の算出に利用するフレーム数の逆数を1から減じた値、例えば、0.9〜0.99の範囲内の値に設定される。(2)式から明らかなように、達成率ARPf n(t)が取り得る値の範囲は、0〜1となる。なお、音声処理装置6の動作開始時においては(2)式により算出される達成率の値が不安定となる。そこで、音声処理装置6が動作開始してから最初のフレームに対しては(すなわち、t=1)、検出部13は(2)式における忘却係数αを0とする。そしてtが10以下の場合、検出部13は忘却係数αを0.5に設定する。そしてtが10を超えると、忘却係数αを0.9〜0.99に設定してもよい。
また検出部13は、例えば、揮発性のメモリ回路を有し、直近の所定フレーム数分の達成率ARPf n(t)をそのメモリ回路に記憶する。このフレーム数は、例えば、達成率の算出に利用されるフレーム数とすることができる。
図6は、達成率の時間変化の一例を示す図である。図6において横軸は時間を表し、縦軸は達成率を表す。また各グラフ601〜608は、それぞれ、周波数100Hz、200Hz、300Hz、600Hz、800Hz、1200Hz、1400Hz、2000Hzにおける達成率の時間変化を表す。図6に示されるように、300Hz以下の周波数帯域では、音声入力部2−1及び2−2が有するマイクロホンの個体差または設置環境に影響され、その周波数における位相差の実測値が理論値と異なっている。そのために、300Hz以下の周波数帯域では、時間経過によらず、達成率が非常に低いある一定値A以下となっている。一方、300Hzよりも高い周波数帯域では、達成率は殆どの時間において一定値Aより高くなることが分かる。
そこで検出部13は、音声処理装置6が動作を開始してから達成率が安定する程度の時間(例えば、1sec〜2sec)が経過すると、フレームごとに、各サブ方向範囲及び各周波数帯域について、メモリ回路に記憶されている達成率ARPf n(t)のうちの最大値MAXARPf nを求める。例えば、サブ方向範囲ni、周波数帯域fjについて計算され、メモリ回路に記憶されているM個の達成率ARPfj ni(t)〜ARPfj ni(t-(M+1))のうち、時刻mにおける達成率ARPfj ni(m)が最大となる場合、MAXARPfj ni=ARPfj ni(m)となる。
さらに、検出部13は、周波数帯域ごとに、全てのサブ方向範囲のMAXARPf nについての平均値AVMAXARPf及び分散VMAXARPfを算出する。一般に、特定の方向に集音対象となる音源が存在すれば、その特定の方向を含むサブ方向範囲のMAXARPf nは高くなる。そのため、平均値AVMAXARPfも高くなる。そしてサブ方向範囲ごとのMAXARPf nの値もばらつくので、分散VMAXARPfも相対的に大きくなる。しかし、マイクロホンの個体差またはマイクロホンの設置環境などにより、第1の周波数信号と第2の周波数信号間の位相差がばらつく周波数帯域では、全てのサブ方向範囲についてMAXARPf nが低くなるので、平均値AVMAXARPfも低くなる。また、その周波数帯域では、サブ方向範囲ごとのMAXARPf nのばらつきも小さくなるので、分散VMAXARPfも相対的に小さくなる。
そこで検出部13は、周波数帯域ごとに、平均値AVMAXARPfが所定の閾値Th1以下、かつ、分散VMAXARPfが分散閾値Th2以下か否か判定する。そして平均値AVMAXARPfが閾値Th1以下であり、かつ、分散VMAXARPfが分散閾値Th2以下である周波数帯域について、検出部13は、第1及び第2の周波数信号を減衰させない位相差の範囲である非抑制範囲を、基準範囲よりも広くすると判定する。なお、基準範囲は、集音対象とする音源からの音が存在する方向に対応する、取り得る位相差の範囲に相当する。したがって、音源の方向をサブ方向範囲ごとに検索する場合には、サブ方向範囲についての位相差範囲は、基準範囲と一致する。一方、平均値AVMAXARPfが閾値Th1より高いか、または、分散VMAXARPfが分散閾値Th2より大きい周波数帯域について、検出部13は、非抑制範囲を基準範囲とすると判定する。そして検出部13は、非抑制範囲を基準範囲よりも広くすると判定された周波数帯域である緩和周波数帯域を抑制範囲設定部14へ通知する。
なお、閾値Th1は、例えば、全ての周波数帯域の達成率の最大値の分布に基づいて決定される。例えば、閾値Th1は、全ての周波数帯域においての達成率のうちの最大値を1から減じた値、あるいは、その値に0.8〜1.0未満の係数を乗じた値に設定される。
また分散閾値Th2は、例えば、フレームごとに求められた各周波数帯域について達成率の最大値MAXARPfの分散のヒストグラムにおける、分散の最頻値または中央値以下で頻度が極小値となる分散値に設定される。
図7は、周波数帯域ごとの達成率の最大値MAXARPf n、平均値AVMAXARPf及び分散VMAXARPfの一例を表すテーブル700を示す。図7において、テーブル700の上端の行701は周波数帯域を表す。この例では、人の可聴域に相当する周波数範囲が、128個の周波数帯域に分割されている。またこの例では、6個のサブ方向範囲が設定されており、テーブル700の左端の列702に、それぞれのサブ方向範囲を表すインデックス'1'〜'6'が示されている。さらに、テーブル700の下の2行には、それぞれ、各周波数帯域のMAXARPf nの平均値AVMAXARPf及び分散VMAXARPfが示されている。
図7を参照すると、例えば、周波数帯域'1'及び'2'については、平均値AVMAXARPfが閾値Th1以下、かつ分散VMAXARPfが分散閾値Th2以下となっている。そのため、周波数帯域'1'及び'2'については、非抑制範囲を基準範囲よりも広くすると判定される。
図8は、検出部13により実行される、緩和周波数帯域設定処理の動作フローチャートである。
検出部13は、複数のサブ方向範囲のそれぞれについて位相差Δθfがそのサブ方向範囲についての位相差範囲内に含まれるか否かを表す評価値を周波数帯域ごとに算出する(ステップS101)。そして検出部13は、複数のサブ方向範囲のそれぞれについて周波数帯域ごとに評価値に基づいて達成率ARP(t)f nを更新する(ステップS102)。
検出部13は、各サブ方向範囲について周波数帯域ごとに直近の所定数のフレームにおける達成率ARP(t)f nの最大値MAXARPf nを算出する(ステップS103)。さらに検出部13は、周波数帯域ごとに、全てのサブ方向範囲におけるMAXARPf nの平均値AVMAXARPf及び分散VMAXARPfを算出する。そして検出部13は、各周波数帯域のうち、AVMAXARPfが閾値Th1以下かつVMAXARPfが分散閾値Th2以下となる周波数帯域を緩和周波数帯域に設定する(ステップS104)。ステップS104の後、検出部13は、緩和周波数帯域設定処理を終了する。
さらに、検出部13は、集音対象となる音源が存在する方向である目的方向範囲を推定するために、周波数帯域ごとに、MAXARPf nが最大となるサブ方向範囲を特定する。そして検出部13は、MAXARPf nが最大となる数が最も多いサブ方向範囲を目的方向範囲と推定する。なお、検出部13は、音源の方向を推定する他の様々な技術の何れかに基づいて、目的方向範囲を推定してもよい。例えば、検出部13は、特開2010-176105号公報に開示されたコスト関数に基づいて目的方向範囲を推定してもよい。そして検出部13は、目的方向範囲を抑制範囲設定部14へ通知する。
抑制範囲設定部14は、範囲設定部の一例であり、周波数帯域ごとに、第1及び第2の周波数信号を減衰させる位相差の範囲である抑制範囲と、第1及び第2の周波数信号を減衰させない位相差の範囲である非抑制範囲とを設定する。その際、抑制範囲設定部14は、検出部13から通知された緩和周波数帯域については、非抑制範囲を目的方向範囲についての基準範囲よりも広くする。なお、抑制範囲と非抑制範囲とは互いに排他的な関係にあり、抑制範囲は、非抑制範囲に含まれない位相差の範囲となる。なお、抑制範囲と非抑制範囲との間には、抑制量の急激な変化を避けるために抑制量を徐々に変化させる中間領域が設けられてもよい。そこで、以下では、非抑制範囲の設定方法について説明する。
抑制範囲設定部14は、例えば、不揮発性の半導体メモリ回路を有する。そのメモリ回路は、例えば、周波数帯域ごとに、一つのサブ方向範囲に対応する位相差の変動幅に対応する位相差の幅δfと、各サブ方向範囲n(n =1, 2, 3,...,N)についての位相差の中心値Cf nとを記憶する。
抑制範囲設定部14は、メモリ回路を参照して、検出部13から通知された目的方向範囲に対応する各周波数帯域の位相差の中心値Cf nを特定し、その中心値Cf nを中心とする幅δfの領域を基準範囲とする。
次に、抑制範囲設定部14は、検出部13から緩和周波数帯域が通知されていると、その緩和周波数帯域については、非抑制範囲を基準範囲よりも広くする。
図9(a)〜図9(c)は、それぞれ、基準範囲と緩和周波数帯域について修正された非抑制範囲との関係の一例を示す図である。図9(a)〜図9(c)において、横軸は周波数を表し、縦軸は位相差を表す。図9(a)の例では、周波数f1以下の周波数帯域が緩和周波数帯域として通知されている。この例では、周波数f1以下の周波数帯域については、位相差-π〜πまで、全て非抑制範囲901に設定される。そして周波数f1よりも高い周波数帯域については、線形的に非抑制範囲901が狭くなり、f1よりも所定のオフセット値だけ高い周波数f2において非抑制範囲901の幅が基準範囲900の幅と一致するように非抑制範囲901が設定される。なお、所定のオフセット値は、例えば、50Hz〜100Hz、あるいは周波数f1に0.1〜0.2を乗じた値に設定される。
図9(b)の例でも、周波数f1以下の周波数帯域が緩和周波数帯域として通知されている。この場合、周波数f1において、非抑制範囲911は、予め設定された位相差の幅dずつ、基準範囲910の位相差の上限及び下限に対して拡張される。さらに、第1及び第2の周波数信号についての最小周波数から最大周波数まで、非抑制範囲が拡張される幅は、周波数が高くなるにつれて線形かつ単調減少するように設定される。
図9(c)の例でも、周波数f1以下の周波数帯域が緩和周波数帯域として通知されている。この場合、周波数f1において、非抑制範囲921は、予め設定された位相差の幅dずつ、基準範囲920の位相差の上限及び下限に対して拡張される。さらに、第1及び第2の周波数信号についての最小周波数から最大周波数まで、非抑制範囲が拡張される幅は、周波数が高くなるにつれて、周波数の逆数に比例し、かつ単調減少するように、例えば、その拡張される幅dは(a/f+b)(ただし、a,bは正の定数)に設定される。
なお、非抑制範囲が拡張される幅dは、目的方向範囲から実際に測定された位相差が外れた量の絶対値に基づいて決定されてもよい。この場合には、検出部13は、各サブ方向範囲について、位相差がそのサブ方向範囲についての位相差範囲より大きいとき、その位相差DPPfと位相差範囲の上限値UPTf nとの差DDUf n(=DPPf-UPTf n)を求める。そして検出部13は、各サブ方向範囲について、DDUf nの最大値MaxDDUf nを求める。同様に、検出部13は、各サブ方向範囲について、位相差がそのサブ方向範囲についての位相差範囲より小さいとき、その位相差DPPfと位相差範囲の下限値LWTf nとの差DDLf n(=DPPf-LWTf n)を求める。そして検出部13は、各サブ方向範囲について、DDLf nの最小値MinDDLf nを求める。そして検出部13は、目的方向範囲についての緩和周波数帯域のMinDDLf n及びMaxDDUf nを抑制範囲設定部14へ通知する。
抑制範囲設定部14は、緩和周波数帯域のMinDDLf n及びMaxDDUf nの絶対値|MinDDLf n|及び|MaxDDUf n|のうちの大きい方を非抑制範囲が拡張される幅dとする。
また、緩和周波数帯域における|MinDDLf n|が0である場合、抑制範囲設定部14は、非抑制範囲の位相差の上限のみを、上記の何れかの方法に従って拡げてもよい。同様に、緩和周波数帯域における|MaxDDUf n|が0である場合、抑制範囲設定部14は、非抑制範囲の位相差の下限のみを、上記の何れかの方法に従って拡げてもよい。
さらにまた、抑制範囲設定部14は、非抑制範囲が拡張される幅dを周波数の関数として決定してもよい。この場合、その幅dを規定する複数の関数のそれぞれを規定する係数の組が、抑制範囲設定部14が有するメモリ回路に予め記憶される。そして抑制範囲設定部14は、通知された1以上の緩和周波数帯域についての|MinDDLf n|及び|MaxDDUf n|が、幅d未満となる関数の係数の組を選択する。そして抑制範囲設定部14は、選択した関数に応じて、非抑制範囲を基準範囲よりも拡張してもよい。
例えば、周波数fと幅dの関数d=g(f)が、g(f)=a×f+bで表されるとする。なお、a,bは、定数である。そして抑制範囲設定部14が有するメモリ回路には、(a,b)の組として、(i)(-0.008, 1.0)、(ii)(-0.015, 2.0)、(iii)(-0.02, 2.5)の3種類が記憶されているとする。この場合において、緩和周波数帯域fが2,3,4,5,6であり、各緩和周波数帯域についてのMinDDLf n及びMaxDDUf nがそれぞれ以下の値であったとする。
f=2 MinDDL2 n=-1.2 MaxDDU2 n=1.0
f=3 MinDDL3 n=-0.2 MaxDDU3 n=0.3
f=4 MinDDL4 n=-0.9 MaxDDU4 n=1.1
f=5 MinDDL5 n=-1.2 MaxDDU5 n=1.8
f=6 MinDDL6 n=-1.1 MaxDDU6 n=1.5
この場合、定数の組(ii)及び(iii)であれば、全ての緩和周波数帯域についてのMinDDLf n及びMaxDDUf nの絶対値が非抑制範囲を拡張する幅d以下となる。そこで、抑制範囲設定部14は、定数の組(ii)及び(iii)のうち、各緩和周波数帯域について幅dが小さくなる方、すなわち、定数の組(ii)を選択し、その組に従って、各周波数帯域についての非抑制範囲の拡張幅dを決定する。
上記の何れの例についても、所定の周波数以下の周波数帯域が緩和周波数帯域とされているが、これは、一般に、長い波長の音の方が反射などの影響を受け易く、音源方向に相当する位相差と実測される位相差とが一致しなくなる可能性が高いためである。しかし、上記の例とは異なる規則に従って、抑制範囲設定部14は、緩和周波数帯域における非抑制範囲の位相差の幅を基準範囲の位相差の幅より拡げてもよい。例えば、抑制範囲設定部14は、通知された緩和周波数帯域のそれぞれについて、単純に予め定められた位相差の幅dだけ基準範囲の位相差の幅よりも拡げてもよい。また、位相差の幅dは、上述した|MaxDDUf n|と|MinDDLf n|のうちの大きい方の値に設定されてもよい。
抑制範囲設定部14は、非抑制範囲を抑制関数算出部15へ通知する。
抑制関数算出部15は、集音対象とする音源が位置する方向と異なる方向から到来する音声信号を抑制するための抑制関数を算出する。そのために、抑制関数は、例えば、周波数帯域ごとに、第1の周波数信号と第2の周波数信号間の位相差Δθfに応じて信号を減衰させる程度を表すゲイン値G(f,Δθf)として設定される。そして抑制関数算出部15は、例えば、周波数帯域fにおけるゲイン値G(f,Δθf)を以下のように設定する。
G(f,Δθf) = 0 (Δθfは、非抑制範囲内)
G(f,Δθf) = 10 (Δθfは、非抑制範囲外)
あるいは、抑制関数算出部15は、他の方法に従って抑制関数を求めてもよい。例えば、抑制関数算出部15は、特開2007-318528号公報に開示されている方法に従って、特定の方向に集音対象とする音源が存在する確率を、周波数帯域ごとに算出し、その確率に基づいて抑制関数を算出する。この場合も、抑制関数算出部15は、位相差Δθfが非抑制範囲内に含まれているときのゲイン値G(f,Δθf)が、位相差Δθfが非抑制範囲から外れているときのゲイン値G(f,Δθf)よりも小さくする。
また、抑制関数算出部15は、非抑制範囲から外れた位相差に対するゲイン値G(f,Δθf)を、位相差と非抑制範囲の上限または下限との差の絶対値が大きくなるにつれて単調増加させてもよい。
抑制関数算出部15は、各周波数帯域のゲイン値G(f,Δθf)を信号補正部16へ渡す。
信号補正部16は、第1及び第2の周波数信号を、例えば、次式に従って、位相差分算出部12から受け取った第1及び第2の周波数信号間の位相差Δθf及び抑制関数算出部15から受け取ったゲイン値G(f,Δθf)に基づいて補正する。
Figure 0005810903
ここで、X(f)は、第1あるいは第2の周波数信号を表し、Y(f)は、補正後の第1あるいは第2の周波数信号を表す。またfは周波数帯域を表す。(3)式から明らかなように、ゲイン値G(f,Δθf)が大きいほど、Y(f)は小さくなる。したがって、位相差Δθfが非抑制範囲から外れていると第1及び第2の周波数信号は信号補正部16によって減衰される。なお、信号補正部16は、(3)式に限らず、非抑制範囲から外れた位相差を持つ第1及び第2の周波数信号を減衰させる他の関数に従って、第1及び第2の周波数信号を補正してもよい。
信号補正部16は、補正後の第1及び第2の周波数信号を周波数時間変換部17へ渡す。
周波数時間変換部17は、補正された第1及び第2の周波数信号を、それぞれ、時間周波数変換部11が用いた時間周波数変換の逆変換を用いて時間領域の信号に変換することにより、補正された第1及び第2の音声信号を得る。
これにより、補正された第1及び第2の音声信号は、集音したい音源が位置する方向とは異なる方向からの音を減衰させることで、集音したい音源からの音を聞き取り易くした音声信号となる。
図10は、音声処理装置6により実行される音声処理の動作フローチャートである。
音声処理装置6は、第1及び第2の音声信号を取得する(ステップS201)。そして第1及び第2の音声信号を時間周波数変換部11へ渡す。時間周波数変換部11は、第1及び第2の音声信号を周波数領域の第1及び第2の周波数信号に変換する(ステップS202)。そして時間周波数変換部11は、第1及び第2の周波数信号を、位相差分算出部12及び信号補正部16へ渡す。
位相差分算出部12は、複数の周波数帯域のそれぞれについて第1の周波数信号と第2の周波数信号間の位相差Δθfを算出する(ステップS203)。そして位相差分算出部12は、各周波数帯域の位相差Δθfを検出部13及び信号補正部16へ渡す。
検出部13は、各周波数帯域の位相差Δθfに基づいて、緩和周波数帯域を設定する(ステップS204)。また検出部13は、音源方向を推定する(ステップS205)。そして検出部13は、緩和周波数帯域及び推定した音源方向を抑制範囲設定部14へ通知する。
抑制範囲設定部14は、緩和周波数帯域の非抑制範囲が基準範囲よりも広くなるように、周波数帯域ごとの非抑制範囲を設定する(ステップS206)。そして抑制範囲設定部14は、非抑制範囲を抑制関数算出部15へ通知する。抑制関数算出部15は、各周波数帯域について非抑制範囲外の位相差を持つ第1及び第2の周波数信号を減衰させる抑制関数を決定する(ステップS207)。そして抑制関数算出部15は、抑制関数を信号補正部16へ渡す。
信号補正部16は、第1及び第2の周波数信号に抑制関数を乗じることでその周波数信号を補正する(ステップS208)。その際、信号補正部16は、位相差Δθfが非抑制範囲に含まれる場合に、第1及び第2の周波数信号を減衰させる。そして信号補正部16は、補正された第1及び第2の周波数信号を周波数時間変換部17へ出力する。
周波数時間変換部17は、補正された第1及び第2の周波数信号を時間領域の補正された第1及び第2の音声信号に変換する(ステップS209)。そして音声処理装置6は、補正された第1及び第2の音声信号を出力し、その後、音声処理を終了する。
以上に説明してきたように、この音声処理装置は、音声入力部の個体差または設置環境により、集音したい音源が位置する方向に対応する位相差と異なる位相差が実測された周波数帯域については、非抑制範囲を拡張する。これにより、この音声処理装置は、集音したい音源からの音が歪むことを防止して、その音を聞き取り易くできる。
次に、第2の実施形態による音声処理装置について説明する。第2の実施形態による音声処理装置は、予め、集音したい音源の方向が分かっている状態で緩和周波数帯域を設定する。
第2の実施形態による音声処理装置は、例えば、車載のハンズフリーホンといった、予め音源の方向が特定される音声入力システムに実装される。あるいは、第2の実施形態による音声処理装置は、サブ方向範囲ごとの緩和周波数帯域をキャリブレーション時に決定し、音声処理を実行する際には、キャリブレーション時に決定された緩和周波数帯域に基づいて非抑制範囲を決定する。
第2の実施形態による音声処理装置は、第1の実施形態による音声処理装置と比較して、検出部13による処理が異なる。そこで以下では、検出部13について説明する。第2の実施形態による音声処理装置のその他の構成要素については、第1の実施形態による音声処理装置の対応する構成要素についての説明を参照されたい。
本実施形態では、検出部13は、例えば、音声処理装置6が実装された音声入力システム1の制御部7から、集音したい音源の方向を受け取る。そして検出部13は、複数のサブ方向範囲のうち、集音したい音源の方向が含まれるサブ方向範囲を注目するサブ方向範囲として特定する。
図11は、第2の実施形態による音声処理装置の検出部13により実行される、緩和周波数帯域設定処理の動作フローチャートである。
検出部13は、注目するサブ方向範囲についてのみ、位相差Δθfが位相差範囲内に含まれるか否かを表す評価値を周波数帯域ごとに算出する(ステップS301)。そして検出部13は、注目するサブ方向範囲についてのみ、各周波数帯域についての評価値に基づいて、達成率ARPf n0(t)を更新する(ステップS302)。ただし、noは、注目するサブ方向範囲を表す指標である。そして検出部13は、各周波数帯域について、直近の所定数のフレームにおける達成率の最大値MAXARPf n0を求める(ステップS303)。
検出部13は、各周波数帯域について、達成率の最大値MAXARPf n0を所定の閾値Th3と比較し、その最大値MAXARPf n0が閾値Th3以下となる周波数帯域を緩和周波数帯域に設定する(ステップS304)。なお、閾値Th3は、例えば、特定の音源の方向からの音が達成率の算出に利用されるフレーム数に相当する期間連続したときに達成率が取り得る下限値に設定される。検出部13は、注目するサブ方向範囲についての緩和周波数帯域を抑制範囲設定部14へ通知する。
抑制範囲設定部14は、注目するサブ方向範囲についての非抑制範囲を設定し、抑制関数算出部15は、その非抑制範囲に基づいて抑制関数を決定する。
なお、この音声処理装置が実装された音声入力システムについてキャリブレーション処理が実行される際に、そのキャリブレーション処理において個々のサブ方向範囲について順次緩和周波数帯域が決定されるようにしてもよい。この場合、信号補正部16は、個々のサブ方向範囲について緩和周波数帯域に基づいて決定された抑制関数を、信号補正部16が有する不揮発性のメモリ回路に記憶しておいてもよい。そして、音声処理の実行時には、図10に示された音声処理のうちのステップS204の処理は省略されてもよい。さらに、この音声処理装置が実装される音声入力システムにおいて、集音したい音源の方向が一つのサブ方向範囲に限定される場合には、ステップS205の処理も省略されてもよい。
この実施形態によれば、音声処理装置は、緩和周波数帯域を決定する際に音源の方向が予め分かっているため、その音源の方向についてのみ達成率を求めればよい。そのため、この音声処理装置は、緩和周波数帯域を決定するための演算量を削減できる。
なお、変形例によれば、この音声処理装置は、緩和周波数帯域を特定する際、注目するサブ方向範囲についての達成率の最大値を閾値Th3と比較する代わりに、達成率そのものを閾値Th3と比較してもよい。この実施形態では、音源の位置はあまり時間的にあまり変動しないと推定されるので、達成率の時間変化も小さいためである。
次に、第3の実施形態による音声処理装置について説明する。第3の実施形態による音声処理装置は、入力された音声信号全体に占める雑音成分の割合が低い場合に限り、その音声信号に基づいて緩和周波数帯域を決定する。
図12は、第3の実施形態による音声処理装置の概略構成図である。第3の実施形態による音声処理装置61は、時間周波数変換部11と、位相差分算出部12と、検出部13と、抑制範囲設定部14と、抑制関数算出部15と、信号補正部16と、周波数時間変換部17と、雑音レベル決定部18と、判定部19とを有する。図12において、第3の音声処理装置61が有する各部には、図2に示された音声処理装置6の対応する構成要素と同一の参照番号を付した。
第3の実施形態による音声処理装置は、第1の実施形態による音声処理装置と比較して、雑音レベル決定部18及び判定部19を有する点で異なる。そこで以下では、雑音レベル決定部18及び判定部19について説明する。第3の実施形態による音声処理装置のその他の構成要素については、第1の実施形態による音声処理装置の対応する構成要素についての説明を参照されたい。
雑音レベル決定部18は、音声入力部2−1及び2−2により集音された音声信号に基づいて定常雑音モデルを推定することにより、第1及び第2の音声信号に含まれる雑音のレベルを決定する。
一般に、各音声入力部からノイズの音源までの距離は、各音声入力部から集音しようとする音源までの距離よりも遠い。そのため、ノイズ成分のパワーは、集音しようとする音源から発した音声のパワーよりも小さい。そこで、雑音レベル決定部18は、音声処理装置61に入力された第1及び第2の音声信号の何れかについて、パワースペクトルが小さいフレームについて、各周波数帯域ごとのパワーの平均値を求めることにより、定常雑音モデルの推定ノイズスペクトルを算出する。
具体的には、雑音レベル決定部18は、各フレームの第1及び第2の周波数信号を時間周波数変換部11から受け取る度に、第1及び第2の周波数信号の一方のパワースペクトルの平均値pを次式に従って算出する。
Figure 0005810903
ここでMは、周波数帯域の数である。またflowは、最も低い周波数帯域を表し、fhighは、最も高い周波数帯域を表す。またS(f)は、第1の周波数信号または第2の周波数信号である。なお、パワースペクトルを算出するのは、第1及び第2の周波数信号の何れでもよいが、ここでは、第1の周波数信号についてパワースペクトルを算出するものとする。
次に、雑音レベル決定部18は、最新のフレームのパワースペクトルの平均値pと、ノイズ成分のパワーの上限に相当する閾値Thrとを比較する。なお、閾値Thrは、例えば、10dB〜20dBの範囲の何れかの値に設定される。そして雑音レベル決定部18は、平均値pが閾値Thr未満である場合、各周波数帯域について次式に従ってパワースペクトルを時間方向に平均することにより、最新のフレームに対する推定ノイズスペクトルNm(f)を算出する。
Figure 0005810903
ただし、Nm-1(f)は、最新のフレームよりも一つ前のフレームに対する推定ノイズスペクトルであり、雑音レベル決定部18が有するバッファから読み込まれる。また、係数βは忘却係数であり、例えば、0.9〜0.99の何れかの値に設定される。一方、平均値pが閾値Thr以上である場合、最新のフレームには、ノイズ以外の成分が含まれると推定されるので、雑音レベル決定部18は推定ノイズスペクトルを更新しない。すなわち、雑音レベル決定部18はNm(f)=Nm-1(f)とする。
なお、雑音レベル決定部18は、パワースペクトルの平均値pを算出する代わりに、全ての周波数帯域のパワースペクトルのうちの最大値を求め、その最大値を閾値Thrと比較してもよい。
また、特に雑音が白色雑音である場合、フレーム間でのパワースペクトルの相関性が無い。そこで雑音レベル決定部18は、最新のフレームと直前のフレーム間における、全ての周波数帯域にわたるパワースペクトルの相互相関値が所定の閾値以下である場合に限り、雑音レベルを更新してもよい。なお、所定の閾値は、例えば、0.1とすることができる。
雑音レベル決定部18は、推定ノイズスペクトルを判定部19へ出力する。また、雑音レベル決定部18は、最新のフレームに対する推定ノイズスペクトルを、雑音レベル決定部18が有するバッファに記憶する。
判定部19は、各フレームの第1及び第2の周波数信号を受け取る度に、そのフレームの第1及び第2の周波数信号が集音したい音源からの音を含んでいるか否か判定する。そのために、判定部19は、第1及び第2の周波数信号のうちの推定ノイズスペクトルが算出されている方のパワースペクトルの平均値pと推定ノイズスペクトルの平均値npとの比(p/np)を求める。そして判定部19は、その比(p/np)が所定の閾値よりも高い場合、そのフレームの第1及び第2の周波数信号には集音したい音源からの音が含まれていると判定する。そして判定部19は、第1及び第2の周波数信号を位相差分算出部12及び信号補正部16へ渡す。そして音声処理装置61は、そのフレームの第1及び第2の周波数信号を用いて、第1の実施形態と同様に、緩和周波数帯域及び非抑制範囲を決定し、その非抑制範囲に応じた抑制関数に従って第1及び第2の周波数信号を補正する。
一方、比(p/np)が所定の閾値以下である場合には、判定部19は、第1及び第2の周波数成分に含まれる雑音成分が多いため、そのフレームの第1及び第2の周波数信号を緩和周波数帯域及び非抑制範囲の決定に利用しない。そして音声処理装置61は、そのフレーム以前のフレームについて求められた抑制関数に基づいて、第1及び第2の周波数信号を補正する。あるいは、音声処理装置61は、比(p/np)が所定の閾値以下であるフレームについては、第1及び第2の周波数信号を補正しなくてもよい。なお、所定の閾値は、例えば、2〜5に設定される。
この実施形態によれば、音声処理装置は、雑音成分が相対的に小さいフレームの音声信号に基づいて非抑制範囲及び抑制関数を決定するので、より適切な非抑制範囲及び抑制関数を決定できる。
次に、第4の実施形態による音声処理装置について説明する。第4の実施形態による音声処理装置は、検出部により求められる、直近の所定数のフレームにおいて位相差Δθfが位相差範囲内に含まれる達成率の最大値の平均値AVMAXARPfに対する閾値Th1を、全ての周波数帯域の達成率の最大値の分布に基づいて決定する。
第4の実施形態による音声処理装置は、第1の実施形態による音声処理装置と比較して、検出部13による処理が異なる。そこで以下では、検出部13について説明する。第4の実施形態による音声処理装置のその他の構成要素については、第1の実施形態による音声処理装置の対応する構成要素の説明を参照されたい。
第1及び第2の音声入力部が有するマイクロホンが理想的であり、かつ、残響などが無視できる理想的な環境にそのマイクロホンが設置された場合、特定の方向に位置する音源からの音に対する第1の音声信号と第2の音声信号間の位相差の値は、ほぼ理論値となる。そのため、殆どのフレームについて、その特定の方向を含む特定のサブ方向範囲についての位相差範囲に算出された位相差Δθfが含まれることになる。一方、その他のサブ方向範囲についての位相差範囲には、算出された位相差Δθfは含まれない。その結果として、その特定のサブ方向範囲の達成率は1に近い値となり、その他のサブ方向範囲については達成率は0に近い値となる。そのため、このような理想的なマイクロホン及び理想的な設置環境下では、全ての周波数帯域における達成率のうちの最大値と最小値とは、以下のような関係となる。
達成率の最小値 ≒ (1.0 - 達成率の最大値)
しかし、音声入力部2−1及び2−2が有するマイクロホンの個体差、またはマイクロホン周辺の設置環境の影響によって第1の音声信号と第2の音声信号間の位相差の値が、その理論値と乖離する場合、何れのサブ方向範囲についても達成率が低くなることがある。その結果として、達成率の最小値は、(1.0 - 達成率の最大値)よりも小さな値になる。そこで、検出部13は、全ての周波数帯域においての達成率のうちの最大値を求める。そして検出部13は、(1.0 - 達成率の最大値)または(1.0 - 達成率の最大値)に0.8〜1.0未満の係数を乗じた値を達成率の最大値の平均値に対する閾値Th1とする。
この実施形態によれば、音声処理装置は、達成率の分布に基づいて、緩和周波数帯域を特定するための達成率の最大値の平均AVMAXARPfに対する閾値Th1を決定する。そのため、この音声処理装置は、その閾値Th1を適切に決定できる。
次に、第5の実施形態による音声処理装置について説明する。第5の実施形態による音声処理装置は、位相差Δθfが各サブ方向範囲についての位相差範囲内に含まれる達成率の最大値の分散VMAXARPfに対する分散閾値Th2を、全ての周波数帯域の達成率の最大値の分散の分布に基づいて決定する。
第5の実施形態による音声処理装置は、第1の実施形態による音声処理装置と比較して、検出部13による処理が異なる。そこで以下では、検出部13について説明する。第5の実施形態による音声処理装置のその他の構成要素については、第1の実施形態による音声処理装置の対応する構成要素の説明を参照されたい。
上記のように、音声入力部2−1及び2−2が有するマイクロホン間に個体差があったり、マイクロホン周辺の設置環境等の影響によって、第1の音声信号と第2の音声信号間の位相差の値が、その理論値と乖離することがある。このような場合、周波数帯域ごとの達成率の最大値の分散の分布において、分散の最頻値あるいは中央値以下で頻度の極小値が存在する傾向があるという知見を発明者は得た。さらに発明者は、その極小値に対応する分散よりも小さい分散値を持つ周波数帯域では、位相差分算出部により算出された位相差が時間的に変動し、何れのサブ方向範囲についても達成率が低下する傾向があるという知見を得た。
そこで、検出部13は、フレームごとに、各周波数帯域について達成率の最大値MAXARPfの分散を求め、その分散のヒストグラムを作成する。そして検出部13は、分散の最頻値または中央値以下で頻度が極小値となる分散値を特定し、その分散値をそのフレームにおける分散閾値Th2とする。なお、検出部13は、一つのフレームだけでなく、直近の複数のフレームについての各周波数帯域における達成率の最大値MAXARPfの分散の分布を求めてもよい。
またこの実施形態において、検出部13は、達成率の最大値の平均値に対する閾値Th1も、第4の実施形態と同様に、達成率の最大値の分布に基づいて決定してもよい。
この実施形態によれば、音声処理装置は、達成率の最大値の分散の分布に基づいて、緩和周波数帯域を特定するための達成率の最大値の分散VMAXARPfに対する分散閾値Th2を決定する。そのため、この音声処理装置は、その分散閾値Th2を適切に決定できる。
なお、上記の各実施形態の変形例によれば、音声処理装置は、第1及び第2の音声信号のうちの一方のみを、モノラル音声信号として出力してもよい。この場合には、音声処理装置の信号補正部は、第1及び第2の周波数信号のうちの一方のみを抑制関数に基づいて補正すればよい。
また、他の変形例によれば、信号補正部は、非抑制範囲から外れた位相差を持つ第1及び第2の周波数信号を減衰させる代わりに、あるいは減衰させるとともに、非抑制範囲内の位相差を持つ第1及び第2の周波数信号を強調してもよい。
さらに、上記の各実施形態による音声処理装置の処理部が有する各機能をコンピュータに実現させるコンピュータプログラムは、磁気記録媒体あるいは光記録媒体といった、コンピュータによって読み取り可能な媒体に記録された形で提供されてもよい。
ここに挙げられた全ての例及び特定の用語は、読者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換する時間周波数変換部と、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定する範囲設定部と、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求める信号補正部と、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する周波数時間変換部と、
を有する音声処理装置。
(付記2)
前記検出部は、前記複数の周波数帯域のうち、前記率が第1の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する、付記1に記載の音声処理装置。
(付記3)
前記検出部は、前記複数の周波数帯域のそれぞれにおいて、複数の音源の方向のそれぞれについての前記所定数の前記フレームにおける前記率の最大値を求め、前記複数の周波数帯域のうち、前記複数の音源の方向のそれぞれにおける当該最大値の平均値が第2の閾値以下であり、かつ、前記複数の音源の方向のそれぞれにおける当該最大値の分散が第3の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する付記1に記載の音声処理装置。
(付記4)
前記検出部は、前記第2の閾値を、前記複数の音源の方向のうちの一つの方向からの音が前記所定数の前記フレームだけ連続したときに前記平均値が取り得る下限値に設定する、付記3に記載の音声処理装置。
(付記5)
前記検出部は、前記第3の閾値を、前記複数の音源の方向のうちの一つの方向からの音が前記所定数の前記フレームだけ連続したときに前記分散が取り得る下限値に設定する、付記3に記載の音声処理装置。
(付記6)
前記範囲設定部は、前記検出部により検出された周波数帯域について、当該周波数帯域における前記所定数のフレームのうちで前記位相差が前記第1の範囲から外れた量の最大値以上、前記第1の範囲を拡張することで前記第2の範囲を設定する、付記1〜5の何れか一項に記載の音声処理装置。
(付記7)
前記信号補正部は、前記第2の範囲から前記位相差が外れた場合の前記第1及び第2の周波数信号の少なくとも一方の周波数信号の振幅を減衰させることで補正された第1及び第2の周波数信号を求める付記1〜6の何れか一項に記載の音声処理装置。
(付記8)
前記信号補正部は、前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の周波数信号の振幅を増幅させることで補正された第1及び第2の周波数信号を求める付記1〜6の何れか一項に記載の音声処理装置。
(付記9)
第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
ことを含む音声処理方法。
(付記10)
第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
ことをコンピュータに実行させる音声処理用コンピュータプログラム。
1 音声入力システム
2−1、2−2 音声入力部
3 アナログ/デジタル変換部
4 記憶部
5 記憶媒体アクセス装置
6、61 音声処理装置
7 制御部
8 通信部
9 出力部
10 記憶媒体
11 時間周波数変換部
12 位相差分算出部
13 検出部
14 抑制範囲設定部
15 抑制関数算出部
16 信号補正部
17 周波数時間変換部
18 雑音レベル算出部
19 判定部

Claims (6)

  1. 第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換する時間周波数変換部と、
    前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出する位相差分算出部と、
    前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出する検出部と、
    前記検出部により検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定する範囲設定部と、
    前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求める信号補正部と、
    前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する周波数時間変換部と、
    を有する音声処理装置。
  2. 前記検出部は、前記複数の周波数帯域のうち、前記率が第1の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する、請求項1に記載の音声処理装置。
  3. 前記検出部は、前記複数の周波数帯域のそれぞれにおいて、複数の音源の方向のそれぞれについての前記所定数の前記フレームにおける前記率の最大値を求め、前記複数の周波数帯域のうち、前記複数の音源の方向のそれぞれにおける当該最大値の平均値が第2の閾値以下であり、かつ、前記複数の音源の方向のそれぞれにおける当該最大値の分散が第3の閾値以下である周波数帯域を、前記率が前記条件を満たさない周波数帯域であると判定する請求項1に記載の音声処理装置。
  4. 前記範囲設定部は、前記検出部により検出された周波数帯域について、当該周波数帯域における前記所定数のフレームのうちで前記位相差が前記第1の範囲から外れた量の最大値以上、前記第1の範囲を拡張することで前記第2の範囲を設定する、請求項1〜3の何れか一項に記載の音声処理装置。
  5. 第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
    前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
    前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
    記検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
    前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
    前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
    ことを含む音声処理方法。
  6. 第1の音声入力部により集音された音を表す第1の音声信号と、第2の音声入力部により集音された音を表す第2の音声信号とを、それぞれ、所定の時間長を持つフレームごとに周波数領域の第1の周波数信号と第2の周波数信号に変換し、
    前記フレームごとに、前記第1の周波数信号と前記第2の周波数信号との位相差を複数の周波数帯域のそれぞれについて算出し、
    前記フレームごとに、前記複数の周波数帯域のそれぞれについて、所定の音源の方向について取り得る位相差の第1の範囲内に前記位相差が含まれるか否か判定することにより、所定数の前記フレームにおいて前記位相差が前記第1の範囲内に含まれる率を求め、前記複数の周波数帯域のうち、当該率が前記音源の方向からの音に相当する条件を満たさない周波数帯域を検出し、
    記検出された周波数帯域について、前記音源の方向についての前記第1の範囲よりも拡張した第2の範囲を設定し、
    前記第2の範囲内に前記位相差が含まれる場合の前記第1及び第2の周波数信号の少なくとも一方の振幅を、前記第2の範囲から前記位相差が外れた場合の当該一方の周波数信号の振幅よりも大きくすることで補正された第1及び第2の周波数信号を求め、
    前記補正された第1及び第2の周波数信号を、それぞれ、時間領域の補正後の第1及び第2の音声信号に変換する、
    ことをコンピュータに実行させる音声処理用コンピュータプログラム。
JP2011286450A 2011-12-27 2011-12-27 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム Active JP5810903B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011286450A JP5810903B2 (ja) 2011-12-27 2011-12-27 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US13/659,410 US8886499B2 (en) 2011-12-27 2012-10-24 Voice processing apparatus and voice processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286450A JP5810903B2 (ja) 2011-12-27 2011-12-27 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2013135433A JP2013135433A (ja) 2013-07-08
JP5810903B2 true JP5810903B2 (ja) 2015-11-11

Family

ID=48655412

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286450A Active JP5810903B2 (ja) 2011-12-27 2011-12-27 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム

Country Status (2)

Country Link
US (1) US8886499B2 (ja)
JP (1) JP5810903B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8744645B1 (en) * 2013-02-26 2014-06-03 Honda Motor Co., Ltd. System and method for incorporating gesture and voice recognition into a single system
JP6156012B2 (ja) * 2013-09-20 2017-07-05 富士通株式会社 音声処理装置及び音声処理用コンピュータプログラム
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
JP6754184B2 (ja) * 2014-12-26 2020-09-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識装置及び音声認識方法
JP6520276B2 (ja) * 2015-03-24 2019-05-29 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び、プログラム
JP2016182298A (ja) * 2015-03-26 2016-10-20 株式会社東芝 騒音低減システム
JP6518482B2 (ja) * 2015-03-30 2019-05-22 アイホン株式会社 インターホン装置
JP6547451B2 (ja) * 2015-06-26 2019-07-24 富士通株式会社 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP6559576B2 (ja) * 2016-01-05 2019-08-14 株式会社東芝 雑音抑圧装置、雑音抑圧方法及びプログラム
JP6677136B2 (ja) 2016-09-16 2020-04-08 富士通株式会社 音声信号処理プログラム、音声信号処理方法及び音声信号処理装置
US10706867B1 (en) * 2017-03-03 2020-07-07 Oben, Inc. Global frequency-warping transformation estimation for voice timbre approximation
US10142730B1 (en) 2017-09-25 2018-11-27 Cirrus Logic, Inc. Temporal and spatial detection of acoustic sources
JP6988321B2 (ja) * 2017-09-27 2022-01-05 株式会社Jvcケンウッド 信号処理装置、信号処理方法、及びプログラム
JP7010136B2 (ja) * 2018-05-11 2022-01-26 富士通株式会社 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置
JP7226107B2 (ja) * 2019-05-31 2023-02-21 富士通株式会社 話者方向判定プログラム、話者方向判定方法、及び、話者方向判定装置
CN110992977B (zh) * 2019-12-03 2021-06-22 北京声智科技有限公司 一种目标声源的提取方法及装置
US20210201937A1 (en) * 2019-12-31 2021-07-01 Texas Instruments Incorporated Adaptive detection threshold for non-stationary signals in noise
CN111857041A (zh) * 2020-07-30 2020-10-30 东莞市易联交互信息科技有限责任公司 一种智能设备的运动控制方法、装置、设备和存储介质
EP4152321A1 (en) * 2021-09-16 2023-03-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for narrowband direction-of-arrival estimation
CN116645973B (zh) * 2023-07-20 2023-09-29 腾讯科技(深圳)有限公司 定向音频增强方法、装置、存储介质及电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3716918B2 (ja) 2001-09-06 2005-11-16 日本電信電話株式会社 収音装置、方法及びプログラム、記録媒体
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
EP1818909B1 (en) * 2004-12-03 2011-11-02 Honda Motor Co., Ltd. Voice recognition system
JP3906230B2 (ja) * 2005-03-11 2007-04-18 株式会社東芝 音響信号処理装置、音響信号処理方法、音響信号処理プログラム、及び音響信号処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4912036B2 (ja) 2006-05-26 2012-04-04 富士通株式会社 指向性集音装置、指向性集音方法、及びコンピュータプログラム
JP5070873B2 (ja) * 2006-08-09 2012-11-14 富士通株式会社 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
US8218033B2 (en) * 2007-09-10 2012-07-10 Sanyo Electric Co., Ltd. Sound corrector, sound recording device, sound reproducing device, and sound correcting method
JP4310371B2 (ja) * 2007-09-11 2009-08-05 パナソニック株式会社 音判定装置、音検知装置及び音判定方法
JP2010124370A (ja) * 2008-11-21 2010-06-03 Fujitsu Ltd 信号処理装置、信号処理方法、および信号処理プログラム
JP5255467B2 (ja) 2009-02-02 2013-08-07 クラリオン株式会社 雑音抑制装置、雑音抑制方法、及び、プログラム
JP2011033717A (ja) 2009-07-30 2011-02-17 Secom Co Ltd 雑音抑圧装置
JP5564873B2 (ja) * 2009-09-25 2014-08-06 富士通株式会社 収音処理装置、収音処理方法、及びプログラム
JP5446745B2 (ja) 2009-11-05 2014-03-19 富士通株式会社 音信号処理方法および音信号処理装置

Also Published As

Publication number Publication date
JP2013135433A (ja) 2013-07-08
US20130166286A1 (en) 2013-06-27
US8886499B2 (en) 2014-11-11

Similar Documents

Publication Publication Date Title
JP5810903B2 (ja) 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP6156012B2 (ja) 音声処理装置及び音声処理用コンピュータプログラム
JP5293817B2 (ja) 音声信号処理装置及び音声信号処理方法
JP5923994B2 (ja) 音声処理装置及び音声処理方法
KR100883712B1 (ko) 음원 방향 추정 방법, 및 음원 방향 추정 장치
JP6107151B2 (ja) 雑音抑圧装置、方法、及びプログラム
US9264804B2 (en) Noise suppressing method and a noise suppressor for applying the noise suppressing method
JP4519169B2 (ja) 信号処理方法および信号処理装置
JP2014232331A (ja) アダプティブ・インテリジェント・ノイズ抑制システム及び方法
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP5672770B2 (ja) マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP5387459B2 (ja) 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム
US9384756B2 (en) Cyclic noise reduction for targeted frequency bands
JP2012128411A (ja) 音声判定装置および音声判定方法
JP2010505283A (ja) 風雑音を検出するための方法およびシステム
US20120148056A1 (en) Method to reduce artifacts in algorithms with fast-varying gain
KR20160091978A (ko) 보청기 시스템을 동작시키는 방법 및 보청기 시스템
JPWO2018173267A1 (ja) 収音装置および収音方法
JP2013153254A (ja) 残響抑制装置、残響抑制方法及び残響抑制用コンピュータプログラム
JP2010112995A (ja) 通話音声処理装置、通話音声処理方法およびプログラム
US8423357B2 (en) System and method for biometric acoustic noise reduction
JP5377167B2 (ja) 悲鳴検出装置および悲鳴検出方法
JP2017015774A (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
JP7144078B2 (ja) 信号処理装置、音声通話端末、信号処理方法および信号処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140904

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150721

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150818

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150831

R150 Certificate of patent or registration of utility model

Ref document number: 5810903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150