JP4462063B2 - 音声処理装置 - Google Patents

音声処理装置 Download PDF

Info

Publication number
JP4462063B2
JP4462063B2 JP2005041533A JP2005041533A JP4462063B2 JP 4462063 B2 JP4462063 B2 JP 4462063B2 JP 2005041533 A JP2005041533 A JP 2005041533A JP 2005041533 A JP2005041533 A JP 2005041533A JP 4462063 B2 JP4462063 B2 JP 4462063B2
Authority
JP
Japan
Prior art keywords
sound source
signal
sound
band
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005041533A
Other languages
English (en)
Other versions
JP2006227328A5 (ja
JP2006227328A (ja
Inventor
真人 戸上
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005041533A priority Critical patent/JP4462063B2/ja
Publication of JP2006227328A publication Critical patent/JP2006227328A/ja
Publication of JP2006227328A5 publication Critical patent/JP2006227328A5/ja
Application granted granted Critical
Publication of JP4462063B2 publication Critical patent/JP4462063B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、例えば複数のマイクロホン素子で観測した音声や音楽や各種雑音が混合した信号から、目的とする音のみを復元する音源分離技術に属する。
従来より、マイクロホン素子を複数使って、音源の方向を推定する音源定位技術があった。従来の音源定位技術として、死角形成型音源定位技術と、音声のスパース性を利用した音源定位技術の二つが存在する。
死角形成型音源定位技術は、判定対象の方向以外に存在する音源方向に死角を形成し、判定対象の方向の音のみを抽出することで、方向毎の音のパワーを算出する。そして、その方向毎の音のパワーから音源方向を推定する。死角形成型音源定位技術は、音源数がマイク数を下回る場合、高精度に音源方向を推定できることが知られている。(例えば、非特許文献1参照)。
音声のスパース性を利用した音源定位技術とは、同じ時間に複数の音源が同じ周波数成分を保持する確率は低いという前提に立ち、各帯域分割信号を、ある一つの方向に全て割り当てることで、方向毎の音のパワーを算出し、その方向毎の音のパワーから音源方向を推定する手法である(例えば、特許文献1参照)。
特開2003−271167号公報
大賀寿郎, 山崎芳男, 金田豊, "音響システムとディジタル処理," 電子情報通信学会,pp.203-209,1995/3/25
従来の死角形成型音源定位技術では、音源数がマイク数より多い場合に音源定位性能が劣化するという課題があった。
また従来の音声のスパース性を利用した音源定位技術は、死角形成型音源定位技術と比べ、音源数がマイク数より多い場合の音源定位性能の劣化は少ないが、原理的に同じ時間に同じ周波数成分を複数の音源が共有する確率が低いという前提が成立しない場合に、性能の劣化が生じる。
音源の中に、音楽などの音声以外の音源が含まれる場合、同じ時間に同じ周波数成分を複数の音源が共有する確率が高くなってしまい、性能の劣化が生じるという課題がある。
帯域分割して得られる帯域分割信号が複数の音源が重複している信号であるか一つの音源だけからなる信号であるかを判定する音源重複判定部を持つ。
具体的には、チャネル毎に複数の周波数帯域に分割されたマイクロホンアレーからの信号から音源方向を推定する音源定位部と、推定された音源方向毎に上記帯域分割信号を強調する音源分離部と、強調された帯域分割信号と上記推定された音源方向の情報を用いて、帯域毎に複数または単数の音源からの信号であるか判定する音源重複判定部とを有し、単数の音源からの帯域分割信号と判断された信号を用いて音源探索を行う音声処理装置。
本発明では、複数の音源が重複しているかどうかを判定し単一の音源が鳴っている帯域分割信号のみを音源定位に用いることで、複数の音源が重複し音源の方向情報が失われた帯域成分を使わない。よって従来技術と比べ、音声や音楽の鳴っている方向を高精度に知ることができる。
本発明の実施の形態について図面を用いて説明する。図1は、本発明の音声処理装置の基本構成図である。マイクロホンアレイ1は複数のマイク構成され音信号を収録する。マイクロホンアレイ1で収録した音信号は帯域分割部2に送られる。帯域分割部2では、マイク毎に音信号を短時間フーリエ変換し、帯域分割信号に変換する。帯域分割部2で帯域分割された音信号は、音源定位部3に送られる。音源定位部3では、帯域ごとに音源方向を推定し、帯域ごとの音源方向を出力する。音源分離部4では、音源定位部3が出力した音源方向の音を帯域毎に強調し抽出し、出力する。音源重複量推定部5では、音源分離部4が出力する帯域毎の強調信号と帯域分割部2が出力する帯域分割信号から、帯域毎に信号が複数の音源が混合した信号であるか単一音源だけからなる信号であるかを判定する指標である音源重複量を計算する。
音源重複判定部6は、音源重複量推定部5が出力する音源重複量尺度から帯域毎に信号が複数の音源が混合した信号であるか単一音源だけからなる信号であるかを判定する。音源方向探索部7では、音源重複判定部6で単一音源だけからなる信号であると判定された帯域分割信号の音源方向だけを用いて、音源方向を探索し、探索した音源方向を出力する。音源方向の探索時に、複数の音源が混合した帯域分割信号を用いると、正しい音源方向を推定することが困難になる。音源方向探索部7は、単一音源だけからなる帯域分割信号のみを用いて、音源方向を探索することができ、高精度に音源方向を推定することが可能となる。尚、図1に示したマイクロホンアレイ以外の各部はコンピュータの制御部にプログラムを読み込むことによって実現される。又は、ハードウェア、ハードとソフトの協調処理によって実現されるものであってもよい。
各処理部ごとに処理の詳細を説明する。マイクロホンアレイ部1は音圧信号x(t)を観測する。
帯域分割部2はx(t)に短時間フーリエ変換を施し、x(f:τ)を得る。τは短時間フーリエ変換のフレームインデックスで、fは周波数である。音源方向dのみから音が伝達する場合、x(f:τ)=ad(f)S(f:τ)とできる。ad(f)は音の空間伝達特性と呼ばれ、音が空間を伝わってマイクまで伝播する際の、振幅の減衰と位相の遅延を考慮してモデル化することができる。
Figure 0004462063
はad(f)を振幅の減衰と位相の遅延を考慮してモデル化したものである。ここで、rd,iは音源dからマイクiまでの距離で、τd,iは、音源dから発せられた音がマイクiに到達するまでにかかる時間である。Dは音源数とする。
Figure 0004462063
は、帯域分割信号ごとに音源方向を求める式である。音源定位部3では、数2にしたがい、時間τ、周波数fごとに音源方向jτ:fを求める。ここで、Λは音源をサーチする音源方向集合である。
Figure 0004462063
は、音源定位部3が推定した帯域分割信号ごとの音源方向から、その音源方向の信号を抽出する式である。音源分離部4では、数3にしたがい、帯域毎に、音源方向jτ:f方向の音だけ分離し抽出する。
Figure 0004462063
は、音源分離部4が分離出力した帯域分割信号ごとの音源方向と強調処理する前の信号の差を計算することで、抽出した音源以外の音源の重複量を計算する式である。音源重複量推定部5では、数4に従い、τ、fごとに音源重複量を推定する。x(f:τ)が単一の音源からなる場合、数4は−∞になる。またx(f:τ)が複数の音源からなる場合、数4は有限の値を取る。複数の音源が重複するほど、数4は大きい値を取る。音源重複判定部6では、τ、fごとに、音源重複量推定部5で推定した音源重複量が予め定められた値以下となる場合に、音源重複が無いと判定する。
Figure 0004462063
は、音源重複量が予め定められた値以下となった、帯域分割信号のみ利用した方向毎の音のパワーを計算する式である。j<Λであり、P(j)は方向ごとの音源パワースペクトルである。Pthは、音源重複量推定部5で用いる音源重複量のいき値である。音源方向探索部7では、音源重複判定部6が重複がないと判定したτ、fのx(f:τ)を用いて、数5を使って方向毎の音のパワーを計算し、方向毎の音のパワーから音源方向を推定する。P(j-1)<P(j)<P(j+1)が成立する音源パワースペクトルP(j)だけを取り出し、P(j)を降順に整列させる。その降順に整列させたP(j)のうち大きいものから予め定めた音源数分だけ取り出し、取り出したP(j)のjを音源方向として出力する。
図2は本発明の音声処理装置と妨害音抑圧装置を組み合わせた装置の構成図である。目的音抽出部8では、予め設定しておいた方向、もしくはユーザからの別途入力手段を介した指定方向から到来する音声成分を帯域分割部の出力信号から抽出する。P(j)のjの空間的な音源方向をD(j)とする。予め定める理想的な目的音方向D0とする。目的音抽出部8では、j_0=argmax| D(j)- D0|を推定目的音方向(以後目的音方向)とし、それ以外の音源方向を妨害音方向とする。以後、x(f:τ)=x(f)と短時間フーリエ変換のフレームインデックスを省略する。そして目的音方向に指向性を持つ二つの線形フィルタを入力信号にかける。
ここで,Ωを妨害音集合とし、d0を目的音、S0(f)を目的音成分、N0(f)をd番目の妨害音成分とする。目的音方向に指向性を持つ二つの線形フィルタg,hを入力信号にかけた後の出力信号から、目的音のみを抽出した信号と、妨害音のみを抽出した信号を、
Figure 0004462063
で算出することができる。y(1)(f)は目的音のみを抽出した信号で、y(2)(f)は妨害音のみを抽出した信号である。g,hは、各妨害音について少なくとも1つの線形フィルタが死角を形成する線形フィルタ対であり、かつ2つの線形フィルタの出力パワーの期待値の積が最も小さくなるような線形フィルタ対であるとする。これら二つの線形フィルタg,hの出力信号を用いて、
Figure 0004462063
で、目的音だけを分離し、抽出する。数7は、目的音を強調した信号から、妨害音のみを抽出した信号をパワースペクトル領域で引くことで、目的音のパワーを高精度に復元するための式である。目的音抽出部8は、数7を使い、目的音を強調した信号を抽出する。
波形生成部9では、目的音抽出部8で抽出した音声成分を逆フーリエ変換して波形を生成し、出力する。
この実施例の構成に基づく妨害音抑圧装置は、目的音や妨害音の方向が未知であり、妨害音数がマイク数より多い場合であっても、高精度に妨害音を抑圧することができる。
本発明の基本構成の一実施例を示す図。 本発明と妨害音抑圧手法を組み合わせた一実施例の詳細を表すブロック図。
符号の説明
1・・・マイクロホンアレイ、2・・・帯域分割部、3・・・音源定位部、4・・・音源分離部、5・・・音源重複量推定部、6・・・音源重複判定部、7・・・音源方向探索部、8・・・目的音抽出部、9・・・波形生成部。

Claims (3)

  1. 少なくとも2チャネル以上のマイクロホン素子を持つマイクロホンアレーと、
    前記マイクロホンアレーからの信号をチャネル毎に複数の周波数帯域に分割する帯域分割部と、
    下記数1に示される式により、前記帯域分割された帯域分割信号から音源方向を推定する音源定位部と、
    Figure 0004462063
    (τ 時間、f 周波数、jτ:f 音源方向、Λ 音源をサーチする音源方向集合)
    上記推定された音源方向毎に上記帯域分割信号を強調する音源分離部と、
    下記数2に示される式により、前記強調された音源帯域信号と前記帯域分割部から出力される音源帯域信号の差を計算し、該差の大きさを音源分離部が出力する信号の大きさで割った値を算出する音源重複量推定部と、
    Figure 0004462063
    前記算出された音源重複量が予め設定された値以上であるかを判断し、該帯域分割信号が複数または単数の音源からの信号であるか判定する音源重複判定部と、
    上記単数の音源からの帯域分割信号と判断された信号を用いて音源探索を行う音源探索部とを有することを特徴とする音声処理装置。
  2. 上記音源方向探索部からの出力に基づいて、特定方向からの信号を上記帯域分割部から出力される音源帯域信号から抽出する目的音抽出部と、
    上記抽出された音源帯域信号の波形を生成して出力する波形生成部とを用いることを特徴とする請求項1記載の音声処理装置。
  3. 前記推定された音源重複量が、予め定められた値以下となる場合に音源重複が無いと判定することを特徴とする請求項1記載の音声処理装置。
JP2005041533A 2005-02-18 2005-02-18 音声処理装置 Expired - Fee Related JP4462063B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005041533A JP4462063B2 (ja) 2005-02-18 2005-02-18 音声処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005041533A JP4462063B2 (ja) 2005-02-18 2005-02-18 音声処理装置

Publications (3)

Publication Number Publication Date
JP2006227328A JP2006227328A (ja) 2006-08-31
JP2006227328A5 JP2006227328A5 (ja) 2007-08-16
JP4462063B2 true JP4462063B2 (ja) 2010-05-12

Family

ID=36988748

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005041533A Expired - Fee Related JP4462063B2 (ja) 2005-02-18 2005-02-18 音声処理装置

Country Status (1)

Country Link
JP (1) JP4462063B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4565162B2 (ja) * 2006-03-03 2010-10-20 独立行政法人産業技術総合研究所 発話イベント分離方法、発話イベント分離システム、及び、発話イベント分離プログラム
JP2008145610A (ja) * 2006-12-07 2008-06-26 Univ Of Tokyo 音源分離定位方法
JP5555987B2 (ja) * 2008-07-11 2014-07-23 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
JP5233772B2 (ja) * 2009-03-18 2013-07-10 ヤマハ株式会社 信号処理装置およびプログラム
JP5493850B2 (ja) * 2009-12-28 2014-05-14 富士通株式会社 信号処理装置、マイクロホン・アレイ装置、信号処理方法、および信号処理プログラム
WO2023058162A1 (ja) 2021-10-06 2023-04-13 マクセル株式会社 音声拡張現実オブジェクト再生装置及び音声拡張現実オブジェクト再生方法

Also Published As

Publication number Publication date
JP2006227328A (ja) 2006-08-31

Similar Documents

Publication Publication Date Title
JP6121481B2 (ja) マルチマイクロフォンを用いた3次元サウンド獲得及び再生
US20170140771A1 (en) Information processing apparatus, information processing method, and computer program product
JP5528538B2 (ja) 雑音抑圧装置
JP5675848B2 (ja) レベルキューによる適応ノイズ抑制
EP2355097B1 (en) Signal separation system and method
JP6019969B2 (ja) 音響処理装置
JP4462063B2 (ja) 音声処理装置
Chiba et al. Amplitude-based speech enhancement with nonnegative matrix factorization for asynchronous distributed recording
WO2015159731A1 (ja) 音場再現装置および方法、並びにプログラム
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
CN103428609A (zh) 用于去除噪声的设备和方法
CN111863015A (zh) 一种音频处理方法、装置、电子设备和可读存储介质
Chatterjee et al. ClearBuds: wireless binaural earbuds for learning-based speech enhancement
JP2007047427A (ja) 音声処理装置
KR100751921B1 (ko) 멀티채널 음성신호의 잡음제거 방법 및 장치
JP4448464B2 (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP2016054421A (ja) 残響抑制装置
JP2007240605A (ja) 複素ウェーブレット変換を用いた音源分離方法、および音源分離システム
JP2006227328A5 (ja)
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP4533126B2 (ja) 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
Ji et al. Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment.
JP4249697B2 (ja) 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP2010217268A (ja) 音源方向知覚が可能な両耳信号を生成する低遅延信号処理装置
EP4036911A1 (en) Audio signal processing device, audio signal processing method, and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070704

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4462063

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140226

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees