JP4594629B2 - 音源分離方法およびそのシステム - Google Patents
音源分離方法およびそのシステム Download PDFInfo
- Publication number
- JP4594629B2 JP4594629B2 JP2004043719A JP2004043719A JP4594629B2 JP 4594629 B2 JP4594629 B2 JP 4594629B2 JP 2004043719 A JP2004043719 A JP 2004043719A JP 2004043719 A JP2004043719 A JP 2004043719A JP 4594629 B2 JP4594629 B2 JP 4594629B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- space side
- noise
- spectrum
- separation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
3話者の同時発話音声の収録を行った。標本化周波数32kHz、16bit量子化で収録を行った。発話者の代わりに音源として、3個のスピーカSC,SR,SLを図4に示す位置に設置した。遮音体であるロボット頭部20(但し、この実験では、ロボット頭部の外殻のみ。)から各スピーカSC,SR,SLまでの距離dは、いずれもd=100cmであり、雑音源としてのスピーカSR,SLは、ロボット頭部20の正面方向(目的音源としてのスピーカSCの方向)に対してθ=60度をなす方向に配置した。また、指向性マイクロホンとして、オーディオ・テクニカ(Audiotechnica)ATM15aを使用し、合計4個の指向性マイクロホンを図4の太矢印に示す方向に配置した。
図5に示す(A)〜(H)の8種類の音声データの処理方法に対する認識性能を評価する。なお、(A)は、目的音源SCに向けられた1つの指向性マイクロホンにより受音し、以降の階層的な分離処理を行わなかった場合である。処理する際のフレーム長、FFTサイズは、2048ポイントとし、フレームシフトは、512ポイントとした。分析窓には、ハニング窓を用いた。そして、処理した音声に対して2万語彙の連続音声認識を行う。認識の際に用いた音響特徴量を以下に示す。
(1)プリエンファシス:1−0.97z-1
(2)フレーム長:25ms
(3)フレーム周期:10ms
(4)周波数分析:12チャンネル等メル間隔フィルタバンク
(5)特徴量(25次元):MFCC+ΔMFCC+Δpower
図6には、3話者の認識結果が示されている。棒グラフの縦軸は、総発話数Tから、置換エラー数S、挿入エラー数I、および脱落エラー数Dを引いた値{T−(S+I+D)}を、総発話数Tで除して得られる単語認識精度である。
20 遮音体であるロボット頭部
30 第1受音装置
31,32,41,42 指向性マイクロホン
40 第2受音装置
50 第1階層処理手段
51 第1空間側雑音分離処理
52 第2空間側雑音分離処理
60 第2階層処理手段
61 第1の目的音分離処理
62 第2の目的音分離処理
70 第3階層処理手段
71 スペクトル統合処理
SC 目的音
SR 第1空間側の雑音
SL 第2空間側の雑音
Claims (14)
- 目的音と雑音とを分離する音源分離方法であって、
前記目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に遮音体を配置し、
この遮音体の前記第1空間側に設けられた第1受音装置により、前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第1空間側主方向およびこの第1空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第1空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行い、
これと並行して、前記遮音体の前記第2空間側に設けられた第2受音装置により、前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第2空間側主方向およびこの第2空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第2空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行った後、
第1階層処理として、前記第2受音装置で前記第2空間側主方向に指向性を向けて得られたスペクトルと前記第1受音装置で前記第1空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第1空間側の前記雑音とそれ以外の音とを分離する第1空間側雑音分離処理を行うとともに、前記第1受音装置で前記第1空間側主方向に指向性を向けて得られたスペクトルと前記第2受音装置で前記第2空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第2空間側の前記雑音とそれ以外の音とを分離する第2空間側雑音分離処理を行い、
続いて、第2階層処理として、前記第1階層処理としての前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルと前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第1の目的音分離処理、および/または前記第1階層処理手段としての前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルと前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第2の目的音分離処理を行う
ことを特徴とする音源分離方法。 - 請求項1に記載の音源分離方法において、
前記第2階層処理として、前記第1および前記第2の目的音分離処理の双方を行い、
その後、第3階層処理として、前記第2階層処理としての前記第1の目的音分離処理で分離された前記目的音のスペクトルと前記第2の目的音分離処理で分離された前記目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを前記目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う
ことを特徴とする音源分離方法。 - 請求項1または2に記載の音源分離方法において、
前記第1階層処理としての前記第1空間側雑音分離処理および前記第2空間側雑音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離方法。 - 請求項1〜3のいずれかに記載の音源分離方法において、
前記第2階層処理としての前記第1の目的音分離処理は、前記第1階層処理としての前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、
前記第2階層処理としての前記第2の目的音分離処理は、前記第1階層処理としての前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理である
ことを特徴とする音源分離方法。 - 請求項1〜3のいずれかに記載の音源分離方法において、
前記第2階層処理としての前記第1および前記第2の目的音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離方法。 - 請求項1〜5のいずれかに記載の音源分離方法において、
前記第1空間側主方向および前記第1空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを用いて前記第1受音装置を構成し、
前記第2空間側主方向および前記第2空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを用いて前記第2受音装置を構成する
ことを特徴とする音源分離方法。 - 請求項1〜6のいずれかに記載の音源分離方法において、
前記第1空間側主方向および前記第2空間側主方向は、前記目的音の到来方向と一致または略一致する方向であり、
前記第1空間側副方向および前記第2空間側副方向は、前記目的音の到来方向と直交または略直交する方向である
ことを特徴とする音源分離方法。 - 目的音と雑音とを分離する音源分離システムであって、
前記目的音の到来方向を含む面で仕切られた第1空間と第2空間との境界位置に配置される遮音体と、
この遮音体の前記第1空間側に設けられて前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第1空間側主方向およびこの第1空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第1空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第1受音装置と、
前記遮音体の前記第2空間側に設けられて前記目的音の到来方向に一致するか若しくは前記目的音の到来方向に対して小さな角度をなす第2空間側主方向およびこの第2空間側主方向よりも前記目的音の到来方向に対して大きな角度をなす第2空間側副方向の2方向に指向性を形成して受音するとともにこれらの受音信号の周波数解析を行う第2受音装置と、
前記第2受音装置で前記第2空間側主方向に指向性を向けて得られたスペクトルと前記第1受音装置で前記第1空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第1空間側の前記雑音とそれ以外の音とを分離する第1空間側雑音分離処理を行うとともに、前記第1受音装置で前記第1空間側主方向に指向性を向けて得られたスペクトルと前記第2受音装置で前記第2空間側副方向に指向性を向けて得られたスペクトルとを用いて、前記第2空間側の前記雑音とそれ以外の音とを分離する第2空間側雑音分離処理を行う第1階層処理手段と、
この第1階層処理手段による前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルと前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第1の目的音分離処理、および/または前記第1階層処理手段による前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルと前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルとを用いて前記目的音を分離する第2の目的音分離処理を行う第2階層処理手段と
を備えたことを特徴とする音源分離システム。 - 請求項8に記載の音源分離システムにおいて、
前記第2階層処理手段は、前記第1および前記第2の目的音分離処理の双方を行う構成とされ、
前記第2階層処理手段による前記第1の目的音分離処理で分離された前記目的音のスペクトルと前記第2の目的音分離処理で分離された前記目的音のスペクトルとを用いて、これらのパワーを周波数帯域毎に加算するか、または周波数帯域毎に各パワーの大小を比較して劣勢な方のパワーを前記目的音のスペクトルとして帰属させることによりスペクトル統合処理を行う第3階層処理手段を備えた
ことを特徴とする音源分離システム。 - 請求項8または9に記載の音源分離システムにおいて、
前記第1階層処理手段による前記第1空間側雑音分離処理および前記第2空間側雑音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離システム。 - 請求項8〜10のいずれかに記載の音源分離システムにおいて、
前記第2階層処理手段による前記第1の目的音分離処理は、前記第1階層処理手段による前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理であり、
前記第2階層処理手段による前記第2の目的音分離処理は、前記第1階層処理手段による前記第1空間側雑音分離処理で分離された前記第1空間側の前記雑音以外の音のスペクトルの各周波数帯域のパワーから、前記第2空間側雑音分離処理で分離された前記第2空間側の前記雑音のスペクトルの同一の周波数帯域のパワーに比例係数を乗じた値を減じるスペクトラル・サブトラクションを行う処理である
ことを特徴とする音源分離システム。 - 請求項8〜10のいずれかに記載の音源分離システムにおいて、
前記第2階層処理手段による前記第1および前記第2の目的音分離処理は、2つの前記スペクトルのうち同一の周波数帯域についての各パワーの大小の比較を周波数帯域毎に行い、それぞれの周波数帯域で大きい方のパワーを、分離して得られるスペクトルに帰属させる帯域選択を行う処理であることを特徴とする音源分離システム。 - 請求項8〜12のいずれかに記載の音源分離システムにおいて、
前記第1受音装置は、
前記第1空間側主方向および前記第1空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを含んで構成され、
前記第2受音装置は、
前記第2空間側主方向および前記第2空間側副方向にそれぞれ指向性を向けて配置された2つの指向性マイクロホンを含んで構成されている
ことを特徴とする音源分離システム。 - 請求項8〜13のいずれかに記載の音源分離システムにおいて、
前記第1空間側主方向および前記第2空間側主方向は、前記目的音の到来方向と一致または略一致する方向であり、
前記第1空間側副方向および前記第2空間側副方向は、前記目的音の到来方向と直交または略直交する方向である
ことを特徴とする音源分離システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004043719A JP4594629B2 (ja) | 2004-02-19 | 2004-02-19 | 音源分離方法およびそのシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004043719A JP4594629B2 (ja) | 2004-02-19 | 2004-02-19 | 音源分離方法およびそのシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005234246A JP2005234246A (ja) | 2005-09-02 |
JP4594629B2 true JP4594629B2 (ja) | 2010-12-08 |
Family
ID=35017259
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004043719A Expired - Fee Related JP4594629B2 (ja) | 2004-02-19 | 2004-02-19 | 音源分離方法およびそのシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4594629B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8135143B2 (en) | 2005-11-15 | 2012-03-13 | Yamaha Corporation | Remote conference apparatus and sound emitting/collecting apparatus |
JP4473829B2 (ja) * | 2006-02-28 | 2010-06-02 | 日本電信電話株式会社 | 収音装置、プログラム及びこれを記録した記録媒体 |
JP5238163B2 (ja) * | 2007-01-15 | 2013-07-17 | クラリオン株式会社 | 音源分離ユーザインタフェース装置 |
JP4519900B2 (ja) * | 2007-04-26 | 2010-08-04 | 株式会社神戸製鋼所 | 目的音抽出装置,目的音抽出プログラム,目的音抽出方法 |
JP4886616B2 (ja) * | 2007-06-25 | 2012-02-29 | 日本電信電話株式会社 | 収音装置、収音方法、その方法を用いた収音プログラム、および記録媒体 |
JP5034734B2 (ja) * | 2007-07-13 | 2012-09-26 | ヤマハ株式会社 | 音処理装置およびプログラム |
WO2013042201A1 (ja) * | 2011-09-20 | 2013-03-28 | トヨタ自動車株式会社 | 音源検出装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322074A (ja) * | 1999-05-13 | 2000-11-24 | Denso Corp | 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク |
JP2001215990A (ja) * | 2000-01-31 | 2001-08-10 | Japan Science & Technology Corp | ロボット聴覚装置 |
-
2004
- 2004-02-19 JP JP2004043719A patent/JP4594629B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000322074A (ja) * | 1999-05-13 | 2000-11-24 | Denso Corp | 音声入力区間判定装置,音声データ抽出装置,音声認識装置,車両用ナビゲーション装置及び入力用マイク |
JP2001215990A (ja) * | 2000-01-31 | 2001-08-10 | Japan Science & Technology Corp | ロボット聴覚装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2005234246A (ja) | 2005-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3707716B1 (en) | Multi-channel speech separation | |
Delcroix et al. | Strategies for distant speech recognitionin reverberant environments | |
EP3387648B1 (en) | Localization algorithm for sound sources with known statistics | |
JP5156260B2 (ja) | 雑音を除去して目的音を抽出する方法、前処理部、音声認識システムおよびプログラム | |
CN112424863B (zh) | 语音感知音频系统及方法 | |
Bagchi et al. | Combining spectral feature mapping and multi-channel model-based source separation for noise-robust automatic speech recognition | |
JP4457221B2 (ja) | 音源分離方法およびそのシステム、並びに音声認識方法およびそのシステム | |
JP2023159381A (ja) | 音声認識オーディオシステムおよび方法 | |
JP2008122927A (ja) | モータ雑音下におけるロボット用音声認識方法 | |
Alam et al. | Use of multiple front-ends and i-vector-based speaker adaptation for robust speech recognition | |
Bashirpour et al. | Robust emotional speech recognition based on binaural model and emotional auditory mask in noisy environments | |
JP6253226B2 (ja) | 音源分離装置 | |
JP4594629B2 (ja) | 音源分離方法およびそのシステム | |
Yamamoto et al. | Making a robot recognize three simultaneous sentences in real-time | |
Okuno et al. | Robot audition: Missing feature theory approach and active audition | |
Yamamoto et al. | Design and implementation of a robot audition system for automatic speech recognition of simultaneous speech | |
Xiong et al. | Channel selection using neural network posterior probability for speech recognition with distributed microphone arrays in everyday environments | |
Kim et al. | Sound source separation using phase difference and reliable mask selection selection | |
Kundegorski et al. | Two-Microphone dereverberation for automatic speech recognition of Polish | |
Liu et al. | Robust speech enhancement techniques for ASR in non-stationary noise and dynamic environments. | |
Kim et al. | Sound source separation using phase difference and reliable mask selection | |
Takiguchi et al. | Single-channel talker localization based on discrimination of acoustic transfer functions | |
Sawada et al. | Improvement of speech recognition performance for spoken-oriented robot dialog system using end-fire array | |
Yamamoto et al. | Genetic algorithm-based improvement of robot hearing capabilities in separating and recognizing simultaneous speech signals | |
Ogawa et al. | Speech enhancement using a square microphone array in the presence of directional and diffuse noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100831 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100917 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130924 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |