JP2005303898A - マイク位置決定方法、マイク位置決定装置、マイク位置決定プログラム - Google Patents
マイク位置決定方法、マイク位置決定装置、マイク位置決定プログラム Download PDFInfo
- Publication number
- JP2005303898A JP2005303898A JP2004120377A JP2004120377A JP2005303898A JP 2005303898 A JP2005303898 A JP 2005303898A JP 2004120377 A JP2004120377 A JP 2004120377A JP 2004120377 A JP2004120377 A JP 2004120377A JP 2005303898 A JP2005303898 A JP 2005303898A
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- level
- microphone position
- impulse response
- wave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【解決手段】話者模擬スピーカから音声認識用マイクまでのインパルス応答を音声認識用マイクの位置を変えて複数の位置毎に測定し、各位置毎に測定したインパルス応答の振幅の最大値の時刻の波、又はその周辺の時刻の波を直接波として直接波レベルを計算し、直接波以外の時刻の波を反射波として反射波レベルを計算し、直接波レベルと反射波レベルの比が最大となるマイク位置を最適なマイク位置とする。
【選択図】図3
Description
本発明は、上記を鑑みてなされたもので、その目的とするところは、測定したインパルス応答及び収録した背景雑音から各マイク位置での模擬音声を作成し、実際に認識実験を行うのでは無く、インパルス応答及び背景雑音のデータから最適なマイク位置を決定することができる装置を提供することである。
請求項1で提案する本発明にあっては、各マイク位置におけるインパルス応答を測定する。測定したインパルス応答のデータから図1に示すように測定したインパルス応答の振幅の絶対値レベルの最大値、又は最大値の時刻周辺の時刻の絶対値レベルの和をD(直接波レベル)とする。測定したインパルス応答のデータから図1に示すように直接波レベル以外の時刻の絶対値レベルの和をR(反射波レベル)とする。D/Rの比が最も大きいマイク位置を最適なマイク位置とする。
請求項2記載の本発明にあっては、各マイク位置におけるインパルス応答を測定する。測定したインパルス応答のデータから図2に示すように測定したインパルス応答の振幅の絶対値レベルの最大値、又は最大値の時刻周辺の時刻の絶対値レベルの和をD(直接波レベル)とする。測定したインパルス応答のデータから図2に示すようにインパルス応答のデータから直接波の時刻から音声認識に用いる分析フレームを超えた区間の振幅の絶対値レベルの和をR(反射波レベル)とする。D/Rの比が最も大きいマイク位置を最適なマイク位置とする。例えば、音声認識によく用いられるケプストラムやMFCCのような対数スペクトルに関連した特徴パラメータを用いて認識を行なう場合、その長時間平均を減算することにより、請求項2において無視したフレーム内に収まる伝達特性(インパルス応答)の影響を低減することが可能である。
請求項3で提案する本発明にあっては、各マイク位置におけるインパルス応答を測定する。測定したインパルス応答の振幅の絶対値レベルの最大値、又は最大値の時刻周辺の時刻の絶対値レベルの和をD(直接波レベル)とする。前述の請求項1及び請求項2の方法で決めた反射レベルをRとする。各マイク位置で収録した雑音の振幅の絶対値の平均レベルをN(背景雑音レベル)とする。そして、直接波レベルと反射波レベルの比D/R、及び直接波レベルと背景雑音レベルの比D/Nの和が最も大きくなるようなマイク位置を最適なマイク位置とする。直接波レベルの大きさは、マイクに入力する音声のパワーレベルを示しており、直接波レベルと背景雑音レベルの比D/Nは、音声パワーレベルと背景雑音パワーレベル比であるS/Nと相関が高い。S/Nの大小は、音声認識の性能に多大な影響を与えるため、D/Nを知ることで認識性能の推定が可能である。
図3は、本発明の請求項1及び2で提案する最適マイク位置決定装置のブロック図である。図3に示す最適マイク位置決定装置は、各マイク位置において測定したインパルス応答から得られる反射波のレベルRと、直接波のレベルDを比較することにより、最適なマイク位置を決定することを特徴とするものであり、評価関数(例えば、式(1))により各マイク位置を評価し、最適なマイク位置を決定する。
Q=D/R ………(1)
具体的に説明すると、図3に示すように本実施形態の最適マイク位置決定装置は、収録ゲイン調整モジュール100と、インパルス応答測定モジュール200と、評価関数計算モジュール300と、最適マイク位置決定モジュール400とによって構成される。
話者模擬スピーカSPから再生したインパルス応答測定用信号は、音声認識用マイクMで収録されて、A/D変換部202でディジタル信号に変換され、インパルス応答計算部203でインパルス応答に変換され、インパルス応答メモリ204に格納される。
そして、図3の評価関数計算モジュール300では、測定したインパルス応答からマイク位置の最適度を示す評価関数値を計算する。図3の評価関数計算モジュール300では、図6に示すように、測定したインパルス応答が格納されているインパルス応答メモリ204から読み出したインパルス応答の測定値から直接波レベルDを直接波レベル計算手段301で計算し、反射波レベル計算手段302で反射波レベルRを計算する。
これに対して、この発明の請求項2及び5で提案するマイク位置決定方法及びマイク位置決定装置では直接波レベルDに関しては請求項1及び4と同じ計算方法を採るが、反射波レベルRに関しては図2に示すようにインパルス応答の直接波を示す時刻から音声認識に用いる分析フレーム幅(数10ms)を越える時刻以降を反射波として反射レベルRを計算する。
最適マイク位置決定モジュール400は図6に示すように、最大値判定スイッチ401と、最適マイク位置候補メモリ404と、評価関数最大値メモリ405と、非最適マイク位置候補メモリ406とによって構成される。
最大値判定スイッチ401では得られた評価関数値を評価関数最大値メモリ405に記録してある関数値と比較し、他のマイク位置で測定された評価関数値よりも大きいか否かの判定を行い、大きい場合はスイッチを最大値端子402側にし、評価関数の最大値を更新し、評価関数最大値メモリ405に格納している値を書き替え、最適マイク位置を更新し、最適マイク位置候補メモリ404の値を当該マイク位置のID(マイク位置を表わす番号)に書き換える。
図7はこの発明の請求項3及び6で提案するマイク位置決定方法を実現するためのマイク位置決定装置の全体の構成を示す。図3に示したマイク位置決定装置と異なる構成は収録ゲイン調整モジュール100とインパルス応答測定モジュール200との間に、雑音レベル比調整モジュール50と、雑音収録モジュール60を追加した点である。
この場合の評価関数は次式で計算される。
Q=D/R+k・D/N ………(2)
k:インパルス応答と収録レベルのゲイン差の補正係数
図7に示す収録ゲイン調整モジュール100、インパルス応答測定モジュール200は図4、図5と同じであるから、ここでは追加された部分と、それに係わる部分について説明する。
初期設定終了後、各マイク位置において、図9に示す雑音収録モジュール60で雑音の収録を行う。雑音収録モジュール60では、図9に示すように、音声認識用マイクMで収録した背景雑音信号を、A/D変換部61でディジタル信号に変換し、雑音パワーレベル計算部62で雑音のパワーレベルを計算し、雑音パワーレベルメモリ63に格納する。
どのような状態において、システムの初期設定を行ったかを判定する(ステップS91)。
初期設定を行ってない場合は、収録ゲインの調整を行い(ステップS92)、雑音レベル比の調整を行う(ステップS93)。
初期設定が終れば、全てのマイク位置の調査が終るまで(ステップS94)以下の手順を繰返す。
次にインパルス応答を測定する(ステップS96)。
得られたインパルス応答と、収録した雑音のパワーレベルから、直接波レベル、反射波レベル、雑音レベルを求め、マイク位置の最適性を評価する評価関数を計算する(ステップS97)。
評価関数値が他のマイクの評価関数値と比べて最大か否かを判定する(ステップS98)。
最大である場合、最大評価関数値を更新し(ステップS100)、最適マイク位置候補に当該マイク位置を入れ替えて(ステップS101)、他のマイク位置があるかの判定に戻る(ステップS94)。
全てのマイク位置の判定が終った段階で最適マイク位置候補メモリに格納されているIDから最適マイク位置を出力する(ステップS102)。
以上説明した本発明のマイク位置決定装置はコンピュータにマイク位置決定プログラムを解読させて実現することができる。この発明で提案するマイク位置決定プログラムはコンピュータが解読可能なプログラム言語によって記述され、磁気ディスク或はCD−ROM等の記録媒体に記録され、これら記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられた中央演算処理装置に解読されてマイク位置決定装置として機能する。
60 雑音収録モジュール 204 インパルス応答メモリ
100 収録ゲイン調整モジュール 301 直接波レベル計算手段
200 インパルス応答測定モジュール 302 反射波レベル計算手段
300 評価関数計算モジュール 303 評価関数計算部
400 最適マイク位置決定モジュール 401 最大値判定スイッチ
SP 話者模擬スピーカ 404 最適マイク位置候補メモリ
M 音声認識用マイク 405 評価関数最大値メモリ
101 基準信号メモリ 406 非最適マイク位置候補メモリ
102 収録ゲイン調整部 51 A/D変換部
103 D/A変換部 52 背景雑音レベル測定手段
104 A/D変換部 53 背景雑音パワーレベルメモリ
105 収録信号パワーレベル計算部 54 基準/雑音レベル比計算部
106 収録信号パワーレベル判定部 55 基準/雑音レベル比メモリ
107 レベル判定スイッチ 61 A/D変換部
110 基準信号パワーレベルメモリ 62 雑音パワーレベル計算部
201 インパルス応答測定用信号メモリ 63 雑音パワーレベルメモリ
202 A/D変換器
Claims (7)
- 話者模擬スピーカから音声認識用マイクまでのインパルス応答を前記音声認識用マイクの位置を変えて複数の位置毎に測定し、各位置毎に測定したインパルス応答の振幅の最大値の時刻の波、又はその周辺の時刻の波を直接波として直接波レベルを計算し、直接波以外の時刻の波を反射波として反射波レベルを計算し、前記直接波レベルと前記反射波レベルの比が最大となるマイク位置を最適なマイク位置とするマイク位置決定方法。
- 話者模擬スピーカから音声認識用マイクまでのインパルス応答を前記音声認識用マイクの位置を変えて複数の位置毎に測定し、各位置毎に測定したインパルス応答の振幅の最大値の時刻の波、又はその周辺の時刻の波を直接波として直接波レベルを計算し、インパルス応答の直接波を示す時刻から音声認識に用いる分析フレーム幅を超える時刻以降を反射波として反射波レベルを計算し、前記直接波レベルと前記反射波レベルの比が最大となるマイク位置を最適なマイク位置とするマイク位置決定方法。
- 請求項1又は2記載のマイク位置決定方法の何れかにおいて、前記音声認識用マイクの位置を変えて複数の位置毎に前記音声認識用マイクに混入する背景雑音レベルを測定し、前記直接波レベルと前記背景雑音レベルの比を求め、その比と前記直接波レベルと反射波レベルとの比の和が最大となるマイク位置を最適なマイク位置とするマイク位置決定方法。
- 音声認識に用いる最適なマイク位置を決めるための装置であって、
想定した話者の発話位置に置く話者を模擬した話者模擬スピーカと、音声認識用マイクと、前記話者模擬スピーカから音声認識用マイクまでのインパルス応答を前記音声認識用マイクの位置を変えて複数の位置毎に測定するインパルス応答測定手段と、前記各位置毎に測定したインパルス応答の振幅の最大値の時刻の波、又は、その周辺の時刻の波を直接波として直接波レベルを計算する直接波レベル計算手段と、直接波以外の時刻の波を反射波として反射波レベルを計算する反射波レベル計算手段と、前記直接波レベルと前記反射波レベルの比が最大となるマイク位置を最適なマイク位置とする最適マイク位置決定手段を有することを特徴とするマイク位置決定装置。 - 音声認識に用いる最適なマイク位置を決めるための装置であって、
想定した話者の発話位置に置く話者を模擬した話者模擬スピーカと、音声認識用マイクと、前期話者模擬スピーカから音声認識用マイクまでのインパルス応答を前記音声認識用マイクの位置を変えて複数の位置毎に測定するインパルス応答測定手段と、前記各位置毎に測定したインパルス応答の振幅の最大値の時刻の波又はその周辺の時刻の波を直接波として直接波レベルを計算する直接波レベル計算手段と、インパルス応答の直接波を示す時刻から音声認識に用いる分析フレーム幅を超える時刻以降を反射波として反射波レベルを計算する反射波レベル計算手段と、前記直接波レベルと前記反射波レベルの比が最大となるマイク位置を最適なマイク位置とする最適マイク位置決定手段を有することを特徴とするマイク位置決定装置。 - 請求項4又は請求項5記載のマイク位置決定装置の何れかにおいて、前記音声認識用マイクの位置を変えて複数の位置毎に前記音声認識用マイクに混入する背景雑音を収録して背景雑音レベルを測定する背景雑音レベル測定手段と、前記直接波レベルと前記背景雑音レベルの比を求め、その比と前記直接波レベル及び反射波レベルの比の和が最大となるマイク位置を最適なマイク位置とする最適マイク位置決定手段を有することを特徴とするマイク位置決定装置。
- コンピュータが解読可能なプログラム言語によって記述され、コンピュータに前記請求項4乃至6記載のマイク位置決定装置の何れかの機能を実行させるマイク位置決定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004120377A JP4173462B2 (ja) | 2004-04-15 | 2004-04-15 | マイク位置決定方法、マイク位置決定装置、マイク位置決定プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004120377A JP4173462B2 (ja) | 2004-04-15 | 2004-04-15 | マイク位置決定方法、マイク位置決定装置、マイク位置決定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005303898A true JP2005303898A (ja) | 2005-10-27 |
JP4173462B2 JP4173462B2 (ja) | 2008-10-29 |
Family
ID=35334876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004120377A Expired - Fee Related JP4173462B2 (ja) | 2004-04-15 | 2004-04-15 | マイク位置決定方法、マイク位置決定装置、マイク位置決定プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4173462B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012039501A (ja) * | 2010-08-10 | 2012-02-23 | Jvc Kenwood Corp | ディジタルフィルタの係数設定方法、係数設定装置、及び係数設定プログラム、並びにディジタルフィルタを用いた音場補正方法 |
KR101323386B1 (ko) | 2012-08-13 | 2013-10-29 | 한국 한의학 연구원 | 발성 크기 정보 획득을 위한 음성 녹음 장치 및 그 방법 |
KR20190104100A (ko) * | 2019-08-19 | 2019-09-06 | 엘지전자 주식회사 | 마이크의 배치 적합도를 결정하는 방법 및 이를 위한 장치 |
CN111951833A (zh) * | 2020-08-04 | 2020-11-17 | 科大讯飞股份有限公司 | 语音测试方法、装置、电子设备和存储介质 |
JP2021118461A (ja) * | 2020-01-27 | 2021-08-10 | 沖電気工業株式会社 | 収音装置、収音プログラム、及び収音方法 |
US20220076667A1 (en) * | 2020-09-08 | 2022-03-10 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, method and non-transitory computer-readable storage medium |
WO2023080341A1 (en) * | 2021-11-02 | 2023-05-11 | Samsung Electronics Co., Ltd. | Dynamic positioning of ai speaker in an iot ecosystem |
-
2004
- 2004-04-15 JP JP2004120377A patent/JP4173462B2/ja not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012039501A (ja) * | 2010-08-10 | 2012-02-23 | Jvc Kenwood Corp | ディジタルフィルタの係数設定方法、係数設定装置、及び係数設定プログラム、並びにディジタルフィルタを用いた音場補正方法 |
KR101323386B1 (ko) | 2012-08-13 | 2013-10-29 | 한국 한의학 연구원 | 발성 크기 정보 획득을 위한 음성 녹음 장치 및 그 방법 |
KR20190104100A (ko) * | 2019-08-19 | 2019-09-06 | 엘지전자 주식회사 | 마이크의 배치 적합도를 결정하는 방법 및 이를 위한 장치 |
KR102181643B1 (ko) * | 2019-08-19 | 2020-11-23 | 엘지전자 주식회사 | 마이크의 배치 적합도를 결정하는 방법 및 이를 위한 장치 |
US11568202B2 (en) | 2019-08-19 | 2023-01-31 | Lg Electronics Inc. | Method and apparatus for determining goodness of fit related to microphone placement |
JP2021118461A (ja) * | 2020-01-27 | 2021-08-10 | 沖電気工業株式会社 | 収音装置、収音プログラム、及び収音方法 |
CN111951833A (zh) * | 2020-08-04 | 2020-11-17 | 科大讯飞股份有限公司 | 语音测试方法、装置、电子设备和存储介质 |
US20220076667A1 (en) * | 2020-09-08 | 2022-03-10 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, method and non-transitory computer-readable storage medium |
US11978441B2 (en) * | 2020-09-08 | 2024-05-07 | Kabushiki Kaisha Toshiba | Speech recognition apparatus, method and non-transitory computer-readable storage medium |
WO2023080341A1 (en) * | 2021-11-02 | 2023-05-11 | Samsung Electronics Co., Ltd. | Dynamic positioning of ai speaker in an iot ecosystem |
Also Published As
Publication number | Publication date |
---|---|
JP4173462B2 (ja) | 2008-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161752B (zh) | 回声消除方法和装置 | |
CN101385386B (zh) | 混响除去装置和混响除去方法 | |
JP6572894B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20210256971A1 (en) | Detection of replay attack | |
US8160273B2 (en) | Systems, methods, and apparatus for signal separation using data driven techniques | |
KR20080111290A (ko) | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 | |
JP4745916B2 (ja) | 雑音抑圧音声品質推定装置、方法およびプログラム | |
KR20090123921A (ko) | 신호 분리를 위한 시스템, 방법 및 장치 | |
JP2015019124A (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
US20060100809A1 (en) | Transmission characteristic measuring device transmission characteristic measuring method, and amplifier | |
CN110475181B (zh) | 设备配置方法、装置、设备和存储介质 | |
JP4173462B2 (ja) | マイク位置決定方法、マイク位置決定装置、マイク位置決定プログラム | |
CN117693791A (zh) | 言语增强 | |
US8577051B2 (en) | Sound signal compensation apparatus and method thereof | |
CN109741761B (zh) | 声音处理方法和装置 | |
JP5217875B2 (ja) | 音場支援装置、音場支援方法およびプログラム | |
CN102903367A (zh) | 离线迭代的声重放系统频响均衡方法和装置 | |
CN117643075A (zh) | 用于言语增强的数据扩充 | |
CN115273826A (zh) | 歌声识别模型训练方法、歌声识别方法及相关装置 | |
WO2022071188A1 (ja) | 音響処理方法および音響処理システム | |
WO2024024468A1 (ja) | 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム | |
Han et al. | Switching linear dynamic transducer for stereo data based speech feature mapping | |
JP5172797B2 (ja) | 残響抑圧装置とその方法と、プログラムと記録媒体 | |
WO2022230450A1 (ja) | 情報処理装置、情報処理方法、情報処理システムおよびプログラム | |
JP5033109B2 (ja) | 音響エコーキャンセラ装置とその方法と、プログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080813 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |