JP2019174785A - 音源方向推定装置、音源方向推定方法及びそのプログラム - Google Patents
音源方向推定装置、音源方向推定方法及びそのプログラム Download PDFInfo
- Publication number
- JP2019174785A JP2019174785A JP2018227318A JP2018227318A JP2019174785A JP 2019174785 A JP2019174785 A JP 2019174785A JP 2018227318 A JP2018227318 A JP 2018227318A JP 2018227318 A JP2018227318 A JP 2018227318A JP 2019174785 A JP2019174785 A JP 2019174785A
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- phase difference
- unit
- calculated
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
Abstract
Description
《概要》
図1は、本実施の形態における音声翻訳装置1の外観の一例を示す図である。図2及び図3は、本実施の形態における音声翻訳装置1の使用場面の一例を示す図である。
図5は、本実施の形態における音源方向推定装置10の構成の一例を示す図である。
マイクロホンアレイ部20は、音響信号を取得する。より具体的には、マイクロホンアレイ部20は、互いに離間して配置された2以上のマイクロホンユニットから構成され、音波を収音し、収音した音波を電気信号に変換した音響信号を取得する。なお、マイクロホンアレイ部20は、アダプタとして構成されてもよい。この場合、マイクロホンアレイ部20は音源方向推定装置10に装着されることで機能する。
位相差計算部11は、マイクロホンアレイ部20により取得された音響信号から、2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する。
位相差データベース部12は、予め計算されたマイクロホンアレイ部20のマイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の方向毎の位相差である第2位相差を保持する。位相差データベース部12は、例えばHDD(Hard Disk Drive)またはメモリ等で構成される。
類似度計算部13は、位相差データベース部12に保持された第2位相差と、位相差計算部11により計算された第1位相差との類似度を計算する。なお、類似度計算部13は、類似度の平均をさらに計算して用いてもよい。
ピーク探索部14は、類似度計算部13により計算される類似度が最大となる方向を探索し、探索した方向を音源方向と推定する。
図6は、図5に示す特徴量算出部15の詳細構成の一例を示す図である。
音声/非音声判別部16は、音声判別部の一例であり、特徴量算出部15、15Aにより算出された特徴量を用いて、マイクロホンアレイ部20により取得された音響信号が音声を示すか否かを判別する。音声/非音声判別部16は、複数層からなるニューラルネットワークを用いて、特徴量算出部15、15Aにより算出された特徴量から、マイクロホンアレイ部20により取得された音響信号が音声を示すか否かを判別してもよい。
以上のように構成される音源方向推定装置10が行う動作処理について説明する。
以上のように、本実施の形態の音源方向推定装置10によれば、音源方向を推定する処理で得られる結果を用いて音響特徴量を補正すること特徴量を得る。そして、この特徴量を音声判別に用いることにより、音響特徴量を音声判別に用いる場合と比較して、演算量の増加を抑制しつつ、雑音環境下でも精度よく当該音響信号が音声を示すかを判定できる。つまり、本実施の形態の音源方向推定装置10によれば、演算量の増加を抑制しつつ、雑音環境下での音声判別を精度よく行うことができる音源方向推定装置を実現できる。
図11は、本実施の形態の変形例1における音源方向推定装置10Aの構成の一例を示す図である。図5と同様の要素には同一の符号を付しており、詳細な説明は省略する。
度数分布計算部17は、マイクロホンアレイ部により取得された音響信号が音声を示していると音声/非音声判別部16により判定されている所定期間において、ピーク探索部14により推定される複数の音源方向の度数を計算する。度数分布計算部17は、計算した度数のうち閾値より大きい度数に対応する音源方向を、音源方向推定装置10Aが真に推定する音源方向として出力する。
以上のように、本変形例の音源方向推定装置10Aによれば、音声と判別されている期間においてピーク探索部14により探索された複数の音源方向のヒストグラムを計算することで、発話者の方向である発話方向を、音源方向としてより確実に推定できる。
図12は、本実施の形態の変形例2における音源方向推定装置10Bの構成の一例を示す図である。図5と同様の要素には同一の符号を付しており、詳細な説明は省略する。
時間平均計算部18は、類似度計算部13により計算される類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する。つまり、本変形例では、時間平均計算部18は、類似度計算部13により計算される類似度における一定の時間毎の平均を計算する。
ピーク探索部14Bは、類似度が最大となる方向として、時間平均計算部18により計算される時間平均類似度が最大となる方向を探索する。
以上のように、本変形例2の音源方向推定装置10Bによれば、時間平均類似度を用いて、音声と判別されたときの音源方向を、発話者の方向である発話方向として推定するので、より確実に発話方向を推定できる。
10、10A、10B 音源方向推定装置
11 位相差計算部
12 位相差データベース部
13 類似度計算部
14、14B ピーク探索部
15、15A 特徴量算出部
16 音声/非音声判別部
17 度数分布計算部
18 時間平均計算部
20 マイクロホンアレイ部
31、31a、32、32a ボタン
51 第1話者
52 第2話者
61、61a、62、62a 収音方向
151 音響特徴量計算部
152 補正部
153 次元圧縮部
154 特徴量抽出部
Claims (7)
- 2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算部と、
位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算部により計算された前記第1位相差との類似度を計算する類似度計算部と、
前記類似度計算部により計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索部と、
前記類似度計算部により計算される前記類似度と前記ピーク探索部が推定する前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出部と、
前記特徴量算出部により算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別部と、を備える、
音源方向推定装置。 - さらに、前記類似度計算部により計算される前記類似度の時系列を取得し、所定時間毎に平均した時間平均類似度を計算する時間平均計算部を備え、
前記ピーク探索部は、前記類似度が最大となる方向として、前記時間平均計算部により計算される前記時間平均類似度が最大となる方向を探索する、
請求項1に記載の音源方向推定装置。 - 前記音声判別部は、複数層からなるニューラルネットワークを用いて、前記特徴量算出部により算出された前記特徴量から、前記マイクロホンアレイ部により取得された音響信号が音声を示すか否かを判別する、
請求項1または2に記載の音源方向推定装置。 - 前記特徴量算出部は、前記音響特徴量を、前記類似度計算部により計算される前記類似度で、前記ピーク探索部が推定する前記音源方向に近いほど大きい値となるよう重み付けし、重み付けした前記音響特徴量の次元をメルフィルタバンクを用いて圧縮し、圧縮した前記重み付けした前記音響特徴量と、離散した時系列時点であって過去の複数の時系列時点との差分を、前記特徴量として算出する、
請求項1〜3のいずれか1項に記載の音源方向推定装置。 - さらに、前記マイクロホンアレイ部により取得された前記音響信号が音声を示していると前記音声判別部により判定されている所定期間において、前記ピーク探索部により推定される複数の前記音源方向の度数を計算し、計算した前記度数のうち閾値より大きい度数に対応する前記音源方向を、前記音源方向推定装置が真に推定する音源方向として出力する度数分布計算部を備える、
請求項1〜4のいずれか1項に記載の音源方向推定装置。 - 2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算ステップと、
位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算ステップにおいて計算された前記第1位相差との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、
前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、
前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、を含む、
音源方向推定方法。 - 2以上のマイクロホンユニットから構成されるマイクロホンアレイ部により取得された音響信号から、前記2以上のマイクロホンユニットにおけるマイクペア間の位相差である第1位相差を計算する位相差計算ステップと、
位相差データベース部に保持された、予め計算された前記マイクペア間の位相差であって、所定の方向範囲内における方向毎に音源が存在すると仮定した場合の前記方向毎の位相差である第2位相差と、前記位相差計算ステップにおいて計算された前記第1位相差との類似度を計算する類似度計算ステップと、
前記類似度計算ステップにおいて計算される前記類似度が最大となる方向を探索し、探索した前記方向を音源方向と推定するピーク探索ステップと、
前記類似度計算ステップにおいて計算される前記類似度と前記ピーク探索ステップにおいて推定される前記音源方向と前記マイクロホンアレイ部により取得された前記音響信号から得られる音響特徴量とを用いて、前記音響特徴量を補正した特徴量を算出する特徴量算出ステップと、
前記特徴量算出ステップにおいて算出された前記特徴量を用いて、前記マイクロホンアレイ部により取得された前記音響信号が音声を示すか否かを判別する音声判別ステップと、をコンピュータに実行させる、
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/368,147 US10524051B2 (en) | 2018-03-29 | 2019-03-28 | Sound source direction estimation device, sound source direction estimation method, and recording medium therefor |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862649751P | 2018-03-29 | 2018-03-29 | |
US62/649,751 | 2018-03-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019174785A true JP2019174785A (ja) | 2019-10-10 |
JP7079189B2 JP7079189B2 (ja) | 2022-06-01 |
Family
ID=68166860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018227318A Active JP7079189B2 (ja) | 2018-03-29 | 2018-12-04 | 音源方向推定装置、音源方向推定方法及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7079189B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022244173A1 (ja) * | 2021-05-20 | 2022-11-24 | ||
CN118409278A (zh) * | 2024-04-24 | 2024-07-30 | 南京理工大学 | 一种基于双级搜索mvdr的远场多声源快速定位方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091469A (ja) * | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
JP2015161551A (ja) * | 2014-02-26 | 2015-09-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
JP2017032857A (ja) * | 2015-08-04 | 2017-02-09 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
-
2018
- 2018-12-04 JP JP2018227318A patent/JP7079189B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091469A (ja) * | 2000-09-19 | 2002-03-27 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | 音声認識装置 |
JP2015161551A (ja) * | 2014-02-26 | 2015-09-07 | 株式会社東芝 | 音源方向推定装置、音源方向推定方法およびプログラム |
JP2017032857A (ja) * | 2015-08-04 | 2017-02-09 | 本田技研工業株式会社 | 音声処理装置及び音声処理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2022244173A1 (ja) * | 2021-05-20 | 2022-11-24 | ||
JP7286057B2 (ja) | 2021-05-20 | 2023-06-02 | 三菱電機株式会社 | 集音装置、集音方法、及び集音プログラム |
CN118409278A (zh) * | 2024-04-24 | 2024-07-30 | 南京理工大学 | 一种基于双级搜索mvdr的远场多声源快速定位方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7079189B2 (ja) | 2022-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3387648B1 (en) | Localization algorithm for sound sources with known statistics | |
US10524051B2 (en) | Sound source direction estimation device, sound source direction estimation method, and recording medium therefor | |
Schädler et al. | Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition | |
CN1148720C (zh) | 说话者识别 | |
Thakur et al. | Speech recognition using euclidean distance | |
US10748544B2 (en) | Voice processing device, voice processing method, and program | |
JP2004347761A (ja) | 音声認識装置、音声認識方法、該音声認識方法をコンピュータに対して実行させるためのコンピュータ実行可能なプログラムおよび記憶媒体 | |
EP1500087A1 (en) | On-line parametric histogram normalization for noise robust speech recognition | |
Erzin | Improving throat microphone speech recognition by joint analysis of throat and acoustic microphone recordings | |
CN110176243B (zh) | 语音增强方法、模型训练方法、装置和计算机设备 | |
JP6985221B2 (ja) | 音声認識装置及び音声認識方法 | |
WO2013030134A1 (en) | Method and apparatus for acoustic source separation | |
JP2019174785A (ja) | 音源方向推定装置、音源方向推定方法及びそのプログラム | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
Guo et al. | Robust speaker identification via fusion of subglottal resonances and cepstral features | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
Krishna et al. | Emotion recognition using dynamic time warping technique for isolated words | |
Marti et al. | Automatic speech recognition in cocktail-party situations: A specific training for separated speech | |
Sangeetha et al. | Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network | |
JP2009116278A (ja) | 話者認証の登録及び評価のための方法及び装置 | |
JP3531342B2 (ja) | 音声処理装置および音声処理方法 | |
KR20180087038A (ko) | 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법 | |
KR20130125014A (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
Li et al. | Beamformed feature for learning-based dual-channel speech separation | |
Hossan et al. | Speaker recognition utilizing distributed DCT-II based Mel frequency cepstral coefficients and fuzzy vector quantization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210909 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220428 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220520 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7079189 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |