JP4051325B2 - 話者位置検出方法、装置、プログラム、および記録媒体 - Google Patents
話者位置検出方法、装置、プログラム、および記録媒体 Download PDFInfo
- Publication number
- JP4051325B2 JP4051325B2 JP2003295279A JP2003295279A JP4051325B2 JP 4051325 B2 JP4051325 B2 JP 4051325B2 JP 2003295279 A JP2003295279 A JP 2003295279A JP 2003295279 A JP2003295279 A JP 2003295279A JP 4051325 B2 JP4051325 B2 JP 4051325B2
- Authority
- JP
- Japan
- Prior art keywords
- covariance matrix
- speaker position
- power
- sound
- position detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001514 detection method Methods 0.000 title claims description 58
- 239000011159 matrix material Substances 0.000 claims description 85
- 238000004364 calculation method Methods 0.000 claims description 57
- 230000002087 whitening effect Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 14
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
本発明の他の目的は、高精度な話者位置推定を実現する話者位置検出方法、装置、プログラム、および記録媒体を提供することである。
複数の収音手段の各々で受音された受音信号からチャネル間の共分散を求め、共分散行列を作成する共分散行列計算段階と、
前記共分散行列に、各走査位置に対応した遅延とゲインをもったステアリングベクトルを各々乗じ、各走査位置の音声パワーを推定する音声パワー推定段階と、
前記各走査位置の音声パワーのうち最大値を話者位置として検出する最大パワー位置検出段階とを有する話者位置検出方法であって、
前記共分散行列計算段階が、
前記複数の収音手段の各々で受音された受音信号をFFTにより周波数領域に変換するFFT段階と、
FFT出力の周波数帯域のうち、パワーの小さい帯域以外の帯域の成分だけを取り出すバンドパスフィルタ段階と、
バンドパスフィルタ出力信号をチャネル間で周波数成分ごとに乗算し、前記取り出した帯域のみの共分散行列を求めるスペクトル乗算段階とを含む。
前記共分散行列のうち対角成分で最もパワーの大きい成分、または前記共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを共分散行列に乗算する白色化段階を含む。
図1は本発明の第1の実施形態の話者位置検出装置のブロック図である。
これに対し、本発明では、まず周波数領域に変換するFFT演算(FFTのフレームサイズ=N)で、4(複素数演算)×N×log2N×サンプリング周波数/N回の演算が必要である。FFTのフレームサイズを256とすれば、式(14)に示す計算により、1秒間あたり1.024×106回の積和演算が必要となる。
次に、共分散行列を求める演算は、4(複素数演算)×マイクロホン数×マイクロホン数×N/2×サンプリング周波数/N回となり、式(15)に示す計算により、1秒間あたり0.512×106回の積和演算が必要となる。
ステアリングベクトルの演算は、4(複素数演算)×マイクロホン数×(マイクロホン数+1)×N/2×サンプリング周波数/N回となり、式(16)に示す計算により、1秒間あたり0.640×106回の積和演算が必要となる。
最大パワー位置検出部14の演算量は、上記に比べて微小であるので省略する。
図3は本発明の第2の実施形態の話者位置検出装置のブロック図である。
図4は本発明の第3の実施形態の話者位置検出装置の共分散行列計算部のブロック図である。第3の実施形態の話者位置検出装置は、第1の実施形態または第2の実施形態の話者位置検出装置において、共分散行列計算部12がFFT部1211〜121Mとバンドパスフィルタ(BPF)部1221〜122Mとスペクトル乗算部123とにより実現された例である。
図5は本発明の第4の実施形態である話者位置検出装置の共分散行列計算部のブロック図である。第4の実施形態の話者位置検出装置は、第1の実施形態または第2の実施形態または第3の実施形態の話者位置検出装置において、共分散行列計算部12がFFT部1211〜121Mとバンドパスフィルタ(BPF)部1221〜122Mとスペクトル乗算部123と白色化部124により実現された例である。
次に、本発明の第5の実施形態である話者位置検出装置について説明する。第5の実施形態は、第1〜4の実施形態において、音声パワー推定手段のステアリングベクトルが、各走査位置からの音声信号を各々同位相とし、各々異なるゲイン
12 共分散行列計算部
13 音声パワー推定部
14 最大パワー位置検出部
15 有音・無音検出部
1211〜121M FFT部
1221〜122M バンドパスフィルタ部
123 スペクトル乗算部
124 白色化部
134 雑音共分散記憶部
135 減算部
511〜51M 遅延器
521〜52M ゲイン
53 加算器
54 パワー計算部
55 最大パワー位置検出部
56 指向性走査部
611〜61M フィルタ部
62 共分散行列記憶部
63 フィルタ計算部
64 加算器
65 マイクロホンアレイ処理部
66 話者位置検出部
Claims (10)
- 複数の収音手段の各々で受音された受音信号からチャネル間の共分散を求め、共分散行列を作成する共分散行列計算段階と、
前記共分散行列に、各走査位置に対応した遅延とゲインをもったステアリングベクトルを各々乗じ、各走査位置の音声パワーを推定する音声パワー推定段階と、
前記各走査位置の音声パワーのうち最大値を話者位置として検出する最大パワー位置検出段階とを有する話者位置検出方法であって、
前記共分散行列計算段階が、
前記複数の収音手段の各々で受音された受音信号をFFTにより周波数領域に変換するFFT段階と、
FFT出力の周波数帯域のうち、パワーの小さい帯域以外の帯域の成分だけを取り出すバンドパスフィルタ段階と、
バンドパスフィルタ出力信号をチャネル間で周波数成分ごとに乗算し、前記取り出した帯域のみの共分散行列を求めるスペクトル乗算段階とを含む、話者位置検出方法。 - 前記共分散行列計算段階が、
前記共分散行列のうち対角成分で最もパワーの大きい成分、または前記共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを共分散行列に乗算する白色化段階を含む、請求項1に記載の話者位置検出方法。 - 複数の収音手段の各々で受音された受音信号からチャネル間の共分散を求め、共分散行列を作成する共分散行列計算手段と、
前記共分散行列に、各走査位置に対応した遅延とゲインをもったステアリングベクトルを各々乗じ、各走査位置の音声パワーを推定する音声パワー推定手段と、
前記各走査位置の音声パワーのうち最大値を話者位置として検出する最大パワー位置検出手段とを有する話者位置検出装置であって、
前記共分散行列計算手段が、
前記複数の収音手段の各々で受音された受音信号を周波数領域に変換するFFT手段と、
前記FFT手段の出力の周波数帯域のうち、パワーの小さい帯域以外の帯域の成分だけを取り出すバンドパスフィルタ手段と、
前記バンドパスフィルタ手段の出力信号をチャネル間で周波数成分ごとに乗算し、前記取り出した帯域のみの共分散行列を求めるスペクトル乗算手段とを含む、話者位置検出装置。 - 前記共分散行列計算手段が、
前記共分散行列のうち対角成分で最もパワーの大きい成分、または前記共分散行列の対角成分の加算値の周波数特性を平滑化するゲインを、共分散行列に乗算する白色化手段を含む、請求項5に記載の話者位置検出装置。 - 請求項1から4のいずれかに記載の話者位置検出方法をコンピュータに実行させるための話者位置検出プログラム。
- 請求項9に記載の話者位置検出プログラムを記録した、コンピュータ読取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003295279A JP4051325B2 (ja) | 2003-08-19 | 2003-08-19 | 話者位置検出方法、装置、プログラム、および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003295279A JP4051325B2 (ja) | 2003-08-19 | 2003-08-19 | 話者位置検出方法、装置、プログラム、および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005062096A JP2005062096A (ja) | 2005-03-10 |
JP4051325B2 true JP4051325B2 (ja) | 2008-02-20 |
Family
ID=34371578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003295279A Expired - Lifetime JP4051325B2 (ja) | 2003-08-19 | 2003-08-19 | 話者位置検出方法、装置、プログラム、および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4051325B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4650163B2 (ja) * | 2005-08-25 | 2011-03-16 | パナソニック電工株式会社 | 拡声通話装置 |
NO328582B1 (no) * | 2006-12-29 | 2010-03-22 | Tandberg Telecom As | Mikrofon for lydkildesporing |
CN101762806B (zh) * | 2010-01-27 | 2013-03-13 | 华为终端有限公司 | 声源定位方法和装置 |
KR101673464B1 (ko) * | 2015-03-13 | 2016-11-17 | 한화시스템 주식회사 | 변형 반복 백색화 투영 통계 기법을 이용한 불균일 클러터 환경의 다중 표적 탐지 장치 |
KR101673458B1 (ko) * | 2015-11-30 | 2016-11-07 | 한화시스템 주식회사 | 변형 반복 백색화 투영 통계 기법을 이용한 불균일 클러터 환경의 다중 표적 탐지 방법 |
JP6871718B6 (ja) * | 2016-02-25 | 2021-06-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音源探査装置、音源探査方法およびそのプログラム |
WO2020059977A1 (ko) * | 2018-09-21 | 2020-03-26 | 엘지전자 주식회사 | 연속적으로 스티어링 가능한 2차 디퍼런셜 마이크로폰 어레이 및 그것을 구성하는 방법 |
-
2003
- 2003-08-19 JP JP2003295279A patent/JP4051325B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005062096A (ja) | 2005-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7113605B2 (en) | System and process for time delay estimation in the presence of correlated noise and reverberation | |
US8238569B2 (en) | Method, medium, and apparatus for extracting target sound from mixed sound | |
KR101449433B1 (ko) | 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치 | |
EP3189521B1 (en) | Method and apparatus for enhancing sound sources | |
US20170140771A1 (en) | Information processing apparatus, information processing method, and computer program product | |
US20120163622A1 (en) | Noise detection and reduction in audio devices | |
JP6019969B2 (ja) | 音響処理装置 | |
JP2003534570A (ja) | 適応ビームフォーマーにおいてノイズを抑制する方法 | |
JP2002062348A (ja) | 信号処理装置及び信号処理方法 | |
CN112309417B (zh) | 风噪抑制的音频信号处理方法、装置、系统和可读介质 | |
KR101581885B1 (ko) | 복소 스펙트럼 잡음 제거 장치 및 방법 | |
JP2019004465A (ja) | 収音装置、及び収音方法 | |
JP5016581B2 (ja) | エコー抑圧装置、エコー抑圧方法、エコー抑圧プログラム、記録媒体 | |
JP4051325B2 (ja) | 話者位置検出方法、装置、プログラム、および記録媒体 | |
JP2836271B2 (ja) | 雑音除去装置 | |
JP4568193B2 (ja) | 収音装置とその方法とそのプログラムとその記録媒体 | |
JP2004078021A (ja) | 収音方法、収音装置、および収音プログラム | |
JP4473829B2 (ja) | 収音装置、プログラム及びこれを記録した記録媒体 | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
JP2006178333A (ja) | 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体 | |
JP5044594B2 (ja) | 多チャネルエコー消去装置とその方法、そのプログラム | |
JP5826465B2 (ja) | 瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム | |
JP4249697B2 (ja) | 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体 | |
CN115665606B (zh) | 基于四麦克风的收音方法和收音装置 | |
CN116504264B (zh) | 音频处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050621 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050721 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050721 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20070201 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4051325 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101207 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111207 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121207 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131207 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |