JP4173462B2 - Microphone position determination method, microphone position determination device, microphone position determination program - Google Patents
Microphone position determination method, microphone position determination device, microphone position determination program Download PDFInfo
- Publication number
- JP4173462B2 JP4173462B2 JP2004120377A JP2004120377A JP4173462B2 JP 4173462 B2 JP4173462 B2 JP 4173462B2 JP 2004120377 A JP2004120377 A JP 2004120377A JP 2004120377 A JP2004120377 A JP 2004120377A JP 4173462 B2 JP4173462 B2 JP 4173462B2
- Authority
- JP
- Japan
- Prior art keywords
- microphone
- level
- microphone position
- impulse response
- wave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、音声認識に用いるマイクの位置を設定する際の最適なマイク位置を決めるマイク位置決定方法、マイク位置決定装置、マイク位置決定プログラムに関する。 The present invention relates to a microphone position determination method, a microphone position determination apparatus, and a microphone position determination program for determining an optimal microphone position when setting the position of a microphone used for speech recognition.
従来、最適なマイク位置を決めるためには、話者位置に置いたスピーカからマイクまでの空間伝達特性、すなわちインパルス応答及び、利用環境においてマイクに混入する背景雑音を収録し、雑音の無いクリーンな環境で、かつ話者の口とマイクの位置が近い環境で収録された接話クリーン音声に対して、各マイク位置で測定したインパルス応答を畳み込み、収録した雑音を重畳することによって得られた各マイク位置の収録音声を模擬した音声に対して、実際に音声認識実験を行い、最も認識性能の高いマイク位置を最適なマイク位置としていた。 Conventionally, in order to determine the optimum microphone position, the spatial transfer characteristics from the speaker to the microphone placed at the speaker position, that is, the impulse response and background noise mixed in the microphone in the usage environment are recorded, and the noise is clean. Each speech obtained by convolving the impulse response measured at each microphone position and superimposing the recorded noise on the close-talked clean speech recorded in an environment where the speaker's mouth and microphone are close to each other A voice recognition experiment was actually performed on the voice simulating the recorded voice at the microphone position, and the microphone position with the highest recognition performance was set as the optimum microphone position.
模擬音声を作成し、実際に認識実験により最適なマイク位置を決定する方法では、評価用の接話クリーン音声を作成したり、インパルス応答を畳み込み、収録した雑音を重畳した音声データを作成したり、実際に音声認識実験を行う時間やコスト、データ格納領域が必要となる。
本発明は、上記を鑑みてなされたもので、その目的とするところは、測定したインパルス応答及び収録した背景雑音から各マイク位置での模擬音声を作成し、実際に認識実験を行うのでは無く、インパルス応答及び背景雑音のデータから最適なマイク位置を決定することができる装置を提供することである。
In the method of creating simulated speech and determining the optimal microphone position through actual recognition experiments, you can create close speech speech for evaluation, or create speech data that convolves the impulse response and superimposes the recorded noise. The time, cost, and data storage area for actual speech recognition experiments are required.
The present invention has been made in view of the above. The purpose of the present invention is not to create a simulated voice at each microphone position from the measured impulse response and recorded background noise, and to actually perform a recognition experiment. Another object of the present invention is to provide an apparatus capable of determining an optimum microphone position from impulse response and background noise data.
上記目的を達成するために、請求項1で提案する本発明は、音声認識に用いる最適なマイク位置を決めるためのマイク位置決定方法において、マイク位置を順次移動させるか又は複数のマイクを切替えて各マイク位置におけるインパルス応答の直接波レベルと、反射波レベルの比を比べ、その比が最も大きいマイク位置を最適マイク位置とすることを要旨とする。
請求項1で提案する本発明にあっては、各マイク位置におけるインパルス応答を測定する。測定したインパルス応答のデータから図1に示すように測定したインパルス応答の振幅の絶対値レベルの最大値、又は最大値の時刻周辺の時刻の絶対値レベルの和をD(直接波レベル)とする。測定したインパルス応答のデータから図1に示すように直接波レベル以外の時刻の絶対値レベルの和をR(反射波レベル)とする。D/Rの比が最も大きいマイク位置を最適なマイク位置とする。
In order to achieve the above object, the present invention proposed in claim 1 is a microphone position determination method for determining an optimum microphone position used for speech recognition. In the microphone position determination method, a microphone position is moved sequentially or a plurality of microphones are switched. The gist is to compare the ratio of the direct wave level of the impulse response at each microphone position and the reflected wave level, and to determine the microphone position having the largest ratio as the optimum microphone position.
In the present invention proposed in claim 1, the impulse response at each microphone position is measured. As shown in FIG. 1, from the measured impulse response data, the maximum value of the absolute value level of the amplitude of the measured impulse response, or the sum of the absolute value levels of the time around the time of the maximum value is defined as D (direct wave level). . From the measured impulse response data, the sum of absolute value levels at times other than the direct wave level is R (reflected wave level) as shown in FIG. The microphone position having the largest D / R ratio is set as the optimum microphone position.
請求項2で提案する本発明は、音声認識に用いる最適なマイク位置を決めるためのマイク位置決定方法において、マイク位置を順次移動させるか又は複数のマイクを切替えて各マイク位置におけるインパルス応答の振幅の絶対値レベルの最大値と、インパルス応答のデータから音声認識に用いる分析フレームの幅を超えた区間のレベルの比を比べ、その比が最も大きいマイク位置を最適マイク位置とすることを要旨とする。
請求項2記載の本発明にあっては、各マイク位置におけるインパルス応答を測定する。測定したインパルス応答のデータから図2に示すように測定したインパルス応答の振幅の絶対値レベルの最大値、又は最大値の時刻周辺の時刻の絶対値レベルの和をD(直接波レベル)とする。測定したインパルス応答のデータから図2に示すようにインパルス応答のデータから直接波の時刻から音声認識に用いる分析フレームを超えた区間の振幅の絶対値レベルの和をR(反射波レベル)とする。D/Rの比が最も大きいマイク位置を最適なマイク位置とする。例えば、音声認識によく用いられるケプストラムやMFCCのような対数スペクトルに関連した特徴パラメータを用いて認識を行なう場合、その長時間平均を減算することにより、請求項2において無視したフレーム内に収まる伝達特性(インパルス応答)の影響を低減することが可能である。
According to a second aspect of the present invention, there is provided a microphone position determining method for determining an optimum microphone position used for speech recognition, wherein the microphone position is sequentially moved or a plurality of microphones are switched to change the amplitude of an impulse response at each microphone position. The sum of the absolute value level and the ratio of the level of the section exceeding the width of the analysis frame used for speech recognition from the impulse response data is compared, and the microphone position with the largest ratio is set as the optimum microphone position. To do.
According to the present invention, the impulse response at each microphone position is measured. From the measured impulse response data, the maximum value of the absolute value level of the amplitude of the measured impulse response as shown in FIG. 2, or the sum of the absolute value levels of the time around the time of the maximum value is D (direct wave level). . As shown in FIG. 2, from the measured impulse response data, the sum of the absolute value levels of the amplitudes from the time of the direct wave to the analysis frame used for speech recognition from the impulse response data is defined as R (reflected wave level). . The microphone position having the largest D / R ratio is set as the optimum microphone position. For example, when recognition is performed using a characteristic parameter related to a logarithmic spectrum, such as a cepstrum or MFCC, which is often used for speech recognition, transmission that falls within the frame ignored in claim 2 by subtracting the long-time average. It is possible to reduce the influence of the characteristic (impulse response).
請求項3で提案する本発明は、音声認識に用いる最適なマイク位置を決めるためのマイク位置決定方法において、請求項1及び請求項2記載のインパルス応答の振幅の直接波レベルと反射レベルの比に基づき、その比が大きい程最適とする判定に加え、各マイク位置に混入する背景雑音のレベルが低い程最適とする判定を加え、両判定結果が最も良好なものを最適なマイク位置とすることを要旨とする。
請求項3で提案する本発明にあっては、各マイク位置におけるインパルス応答を測定する。測定したインパルス応答の振幅の絶対値レベルの最大値、又は最大値の時刻周辺の時刻の絶対値レベルの和をD(直接波レベル)とする。前述の請求項1及び請求項2の方法で決めた反射レベルをRとする。各マイク位置で収録した雑音の振幅の絶対値の平均レベルをN(背景雑音レベル)とする。そして、直接波レベルと反射波レベルの比D/R、及び直接波レベルと背景雑音レベルの比D/Nの和が最も大きくなるようなマイク位置を最適なマイク位置とする。直接波レベルの大きさは、マイクに入力する音声のパワーレベルを示しており、直接波レベルと背景雑音レベルの比D/Nは、音声パワーレベルと背景雑音パワーレベル比であるS/Nと相関が高い。S/Nの大小は、音声認識の性能に多大な影響を与えるため、D/Nを知ることで認識性能の推定が可能である。
According to a third aspect of the present invention, there is provided a microphone position determining method for determining an optimum microphone position used for speech recognition, wherein the ratio of the direct wave level and the reflection level of the amplitude of the impulse response according to the first and second aspects. Based on the above, in addition to the determination that is optimal as the ratio is large, the determination that is optimal is performed as the background noise level mixed in each microphone position is low, and the best microphone position is determined with the best result of both determinations. This is the gist.
In the present invention proposed in claim 3, the impulse response at each microphone position is measured. The maximum value of the absolute value level of the amplitude of the measured impulse response or the sum of the absolute value levels of the time around the time of the maximum value is defined as D (direct wave level). Let R be the reflection level determined by the method of claims 1 and 2 described above. Let N (background noise level) be the average level of the absolute value of the amplitude of noise recorded at each microphone position. Then, the microphone position at which the sum of the ratio D / R between the direct wave level and the reflected wave level and the ratio D / N between the direct wave level and the background noise level is maximized is determined as the optimum microphone position. The magnitude of the direct wave level indicates the power level of the voice input to the microphone, and the ratio D / N between the direct wave level and the background noise level is S / N, which is the ratio of the voice power level to the background noise power level. Correlation is high. Since the magnitude of S / N greatly affects the performance of speech recognition, the recognition performance can be estimated by knowing the D / N.
本発明によれば、各マイク位置における背景雑音の収録、インパルス応答の測定をするだけで、測定したインパルス応答を畳み込み背景雑音を重畳した模擬音声の作成から音声認識実験を行うことなく、最適なマイク位置を決定することができ、処理時間や計算コストを削減することが可能である。 According to the present invention, recording of background noise at each microphone position, measurement of impulse response, and convolution of the measured impulse response without the need for voice recognition experiments from the creation of a simulated voice superimposed with background noise. The microphone position can be determined, and the processing time and calculation cost can be reduced.
以下、図面を用いて本発明の実施の形態について説明する。
図3は、本発明の請求項1及び2で提案する最適マイク位置決定装置のブロック図である。図3に示す最適マイク位置決定装置は、各マイク位置において測定したインパルス応答から得られる反射波のレベルRと、直接波のレベルDを比較することにより、最適なマイク位置を決定することを特徴とするものであり、評価関数(例えば、式(1))により各マイク位置を評価し、最適なマイク位置を決定する。
Q=D/R ………(1)
具体的に説明すると、図3に示すように本実施形態の最適マイク位置決定装置は、収録ゲイン調整モジュール100と、インパルス応答測定モジュール200と、評価関数計算モジュール300と、最適マイク位置決定モジュール400とによって構成される。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 3 is a block diagram of the optimum microphone position determination apparatus proposed in claims 1 and 2 of the present invention. The optimum microphone position determination apparatus shown in FIG. 3 determines the optimum microphone position by comparing the level R of the reflected wave obtained from the impulse response measured at each microphone position with the level D of the direct wave. Each microphone position is evaluated by an evaluation function (for example, Expression (1)), and an optimum microphone position is determined.
Q = D / R (1)
Specifically, as shown in FIG. 3, the optimum microphone position determination apparatus of the present embodiment includes a recording
以上のように構成される最適マイク位置決定装置においては、先ず初期設定として、収録ゲインの調整を行う。図3の収録ゲイン調整モジュール100では、図4に示すように、基準信号メモリ101から基準信号を取り出し、収録ゲイン調整部102でゲインを調整し、D/A変換部103でアナログ信号に変換し、話者模擬スピーカSPから再生、音声認識用マイクMで収録し、収録した信号をA/D変換部104でディジタル信号に変換し、収録信号パワーレベル計算部105で収録信号のパワーレベルを計算し、収録信号パワーレベル判定部106で収録した信号のレベルが適正範囲に収まっているか否かを判定し、適正範囲内である場合は、レベル判定スイッチ107を適正レベル端子108側にし、基準信号パワーレベルメモリ110に収録信号のパワーレベルを格納する。適正範囲外であればレベル判定スイッチ107を不適正レベル端子109側にし、収録ゲイン調整部102で収録ゲインを調整し、再度基準信号の再生収録を行なう。ここで用いる基準信号は、音声の一文あるいは複数分でも良く、話者模擬スピーカSPからの再生レベルが通常の話者の音量レベルと同等にしておく。以上により収録ゲインの初期設定が完了する。
In the optimum microphone position determination apparatus configured as described above, the recording gain is first adjusted as an initial setting. In the recording
収録ゲイン調整部102の初期設定が終了後、図3のインパルス応答測定モジュール200でインパルス応答の測定を行う。図3のインパルス応答測定モジュール200では、図5に示すように、インパルス応答測定用信号メモリ201に保存してあるインパルス応答測定用信号を初期設定された収録ゲイン調整部102で調整し、D/A変換部103でアナログ信号に変換し、話者模擬スピーカSPから再生する。このとき、インパルス応答測定用信号メモリ201に格納されているインパルス応答測定用信号のゲインは、前記基準信号メモリ101に格納されている基準信号のゲインと同一である。
After the initial setting of the recording
従って、話者模擬スピーカSPから放音されるインパルス応答測定用信号の音圧は基準信号メモリ101から読み出された基準信号の音圧と同一となる。
話者模擬スピーカSPから再生したインパルス応答測定用信号は、音声認識用マイクMで収録されて、A/D変換部202でディジタル信号に変換され、インパルス応答計算部203でインパルス応答に変換され、インパルス応答メモリ204に格納される。
そして、図3の評価関数計算モジュール300では、測定したインパルス応答からマイク位置の最適度を示す評価関数値を計算する。図3の評価関数計算モジュール300では、図6に示すように、測定したインパルス応答が格納されているインパルス応答メモリ204から読み出したインパルス応答の測定値から直接波レベルDを直接波レベル計算手段301で計算し、反射波レベル計算手段302で反射波レベルRを計算する。
Therefore, the sound pressure of the impulse response measurement signal emitted from the speaker simulation speaker SP is the same as the sound pressure of the reference signal read from the
The impulse response measurement signal reproduced from the speaker simulation speaker SP is recorded by the voice recognition microphone M, converted into a digital signal by the A /
Then, the evaluation
ここで、この発明の請求項1及び4で提案するマイク位置決定方法及びマイク位置決定装置では直接波レベルを図1に示したインパルス応答の振幅の最大値の時刻の波又は、その周辺の時刻の波を直接波として計算し、直接波以外の時刻の波を反射波として反射波レベルRを計算する。
これに対して、この発明の請求項2及び5で提案するマイク位置決定方法及びマイク位置決定装置では直接波レベルDに関しては請求項1及び4と同じ計算方法を採るが、反射波レベルRに関しては図2に示すようにインパルス応答の直接波を示す時刻から音声認識に用いる分析フレーム幅(数10ms)を越える時刻以降を反射波として反射レベルRを計算する。
Here, in the microphone position determination method and the microphone position determination device proposed in claims 1 and 4 of the present invention, the direct wave level is the time wave of the maximum value of the amplitude of the impulse response shown in FIG. Is calculated as a direct wave, and a reflected wave level R is calculated using a wave at a time other than the direct wave as a reflected wave.
On the other hand, the microphone position determination method and the microphone position determination device proposed in
算出された直接波レベルDと反射波レベルRに基づいて評価関数計算部303は評価関数を、例えば式(1)により計算し、その計算結果を最適マイク位置決定モジュール400に入力する。
最適マイク位置決定モジュール400は図6に示すように、最大値判定スイッチ401と、最適マイク位置候補メモリ404と、評価関数最大値メモリ405と、非最適マイク位置候補メモリ406とによって構成される。
最大値判定スイッチ401では得られた評価関数値を評価関数最大値メモリ405に記録してある関数値と比較し、他のマイク位置で測定された評価関数値よりも大きいか否かの判定を行い、大きい場合はスイッチを最大値端子402側にし、評価関数の最大値を更新し、評価関数最大値メモリ405に格納している値を書き替え、最適マイク位置を更新し、最適マイク位置候補メモリ404の値を当該マイク位置のID(マイク位置を表わす番号)に書き換える。
Based on the calculated direct wave level D and reflected wave level R, the evaluation
As shown in FIG. 6, the optimal microphone
The maximum
評価関数値が他のマイク位置で測定された評価関数値よりも小さい場合は、スイッチ401を非最大値端子403側にし、非最適マイク位置候補メモリ406に当該マイク位置のIDを加える。全てのマイク位置における評価が終った段階で、最適マイク位置候補メモリ404に格納されているマイク位置のIDにより、最適マイク位置が決定される。
図7はこの発明の請求項3及び6で提案するマイク位置決定方法を実現するためのマイク位置決定装置の全体の構成を示す。図3に示したマイク位置決定装置と異なる構成は収録ゲイン調整モジュール100とインパルス応答測定モジュール200との間に、雑音レベル比調整モジュール50と、雑音収録モジュール60を追加した点である。
When the evaluation function value is smaller than the evaluation function value measured at another microphone position, the
FIG. 7 shows the overall configuration of a microphone position determining apparatus for realizing the microphone position determining method proposed in claims 3 and 6 of the present invention. A configuration different from the microphone position determination apparatus shown in FIG. 3 is that a noise level
この追加された構成により図1乃至図6で説明した直接波レベルDと反射波レベルRの比に基づき、その比が大きい程最適とする判定に加えて、各マイク位置で混入する背景雑音のレベルNが低い程最適とする判定を加え、背景雑音の影響を含めた判定を得ようとするものである。
この場合の評価関数は次式で計算される。
Q=D/R+k・D/N ………(2)
k:インパルス応答と収録レベルのゲイン差の補正係数
図7に示す収録ゲイン調整モジュール100、インパルス応答測定モジュール200は図4、図5と同じであるから、ここでは追加された部分と、それに係わる部分について説明する。
Based on the ratio of the direct wave level D and the reflected wave level R described in FIGS. 1 to 6 with this added configuration, in addition to the determination that the larger the ratio is, the background noise mixed at each microphone position is reduced. The determination that is optimal as the level N is lower is added to obtain a determination including the influence of background noise.
The evaluation function in this case is calculated by the following equation.
Q = D / R + k · D / N (2)
k: Correction coefficient for gain difference between impulse response and recording level The recording
図7に示す雑音レベル比調整モジュール50では、図8に示すように、話者模擬スピーカSPからは何も再生せず、背景雑音を音声認識用マイクMで収録し、収録した信号をA/D変換部でディジタルに変換し、背景雑音レベル測定手段52で雑音のパワーレベルを計算し、背景雑音パワーレベルメモリ53に格納し、図4の収録ゲイン調整モジュール100で格納した基準信号パワーレベルメモリ110に格納されている基準信号パワーレベルと合わせて基準/雑音レベル比メモリ55に格納する。
初期設定終了後、各マイク位置において、図9に示す雑音収録モジュール60で雑音の収録を行う。雑音収録モジュール60では、図9に示すように、音声認識用マイクMで収録した背景雑音信号を、A/D変換部61でディジタル信号に変換し、雑音パワーレベル計算部62で雑音のパワーレベルを計算し、雑音パワーレベルメモリ63に格納する。
In the noise level
After completion of the initial setting, noise is recorded by the
評価関数計算モジュール300はこの実施形態では図10に示すように、インパルス応答メモリ204からインパルス測定値を読み出し、直接波レベル計算手段301と反射波レベル計算手段302で直接波レベルDと反射波レベルRを算出する。更に、雑音パワーレベルメモリ63から背景雑音パワーレベルを読み出し、この背景雑音パワーレベルを基準/雑音レベル比メモリ55に格納されている基準レベル/雑音レベルの比に基づき、雑音ゲイン調整部304で調整し、直接波レベル及び反射波レベルとレンジを合わせる。つまり、式(2)に示した補正係数kを決定する。得られた直接波レベルD及び反射波レベルR、雑音レベルNから、例えば式(2)のような評価関数を評価関数計算部303で計算する。評価関数計算部303の計算結果は最適マイク位置決定モジュール400で最大値がソートされ、最適マイク位置が決定される。
In this embodiment, the evaluation
以下では、図11に示すフローチャートを参照してこの発明のマイク位置決定プログラムの概要を説明する。
どのような状態において、システムの初期設定を行ったかを判定する(ステップS91)。
初期設定を行ってない場合は、収録ゲインの調整を行い(ステップS92)、雑音レベル比の調整を行う(ステップS93)。
初期設定が終れば、全てのマイク位置の調査が終るまで(ステップS94)以下の手順を繰返す。
Below, the outline | summary of the microphone position determination program of this invention is demonstrated with reference to the flowchart shown in FIG.
In what state it is determined whether the system has been initialized (step S91).
If the initial setting is not performed, the recording gain is adjusted (step S92), and the noise level ratio is adjusted (step S93).
When the initial setting is completed, the following procedure is repeated until the investigation of all microphone positions is completed (step S94).
まず雑音を収録し、雑音のパワーレベルを求める(ステップS95)。
次にインパルス応答を測定する(ステップS96)。
得られたインパルス応答と、収録した雑音のパワーレベルから、直接波レベル、反射波レベル、雑音レベルを求め、マイク位置の最適性を評価する評価関数を計算する(ステップS97)。
評価関数値が他のマイクの評価関数値と比べて最大か否かを判定する(ステップS98)。
First, noise is recorded and the power level of the noise is obtained (step S95).
Next, the impulse response is measured (step S96).
A direct wave level, a reflected wave level, and a noise level are obtained from the obtained impulse response and the recorded noise power level, and an evaluation function for evaluating the optimum microphone position is calculated (step S97).
It is determined whether or not the evaluation function value is maximum as compared with the evaluation function values of other microphones (step S98).
最大でない場合、当該マイク位置を、最適でないマイク位置のリストに登録し(ステップS99)、他のマイク位置があるのかの判定に戻る(ステップS94)。
最大である場合、最大評価関数値を更新し(ステップS100)、最適マイク位置候補に当該マイク位置を入れ替えて(ステップS101)、他のマイク位置があるかの判定に戻る(ステップS94)。
全てのマイク位置の判定が終った段階で最適マイク位置候補メモリに格納されているIDから最適マイク位置を出力する(ステップS102)。
If it is not the maximum, the microphone position is registered in the list of non-optimal microphone positions (step S99), and the process returns to the determination of whether there is another microphone position (step S94).
If it is the maximum, the maximum evaluation function value is updated (step S100), the microphone position is replaced with the optimum microphone position candidate (step S101), and the process returns to the determination of whether there is another microphone position (step S94).
When all microphone positions have been determined, the optimum microphone position is output from the ID stored in the optimum microphone position candidate memory (step S102).
を実行して終了する。
以上説明した本発明のマイク位置決定装置はコンピュータにマイク位置決定プログラムを解読させて実現することができる。この発明で提案するマイク位置決定プログラムはコンピュータが解読可能なプログラム言語によって記述され、磁気ディスク或はCD−ROM等の記録媒体に記録され、これら記録媒体からコンピュータにインストールされるか、又は通信回線を通じてコンピュータにインストールされ、コンピュータに備えられた中央演算処理装置に解読されてマイク位置決定装置として機能する。
To exit.
The microphone position determination apparatus of the present invention described above can be realized by causing a computer to decode a microphone position determination program. The microphone position determination program proposed in the present invention is written in a computer-readable program language, recorded on a recording medium such as a magnetic disk or CD-ROM, and installed in the computer from the recording medium, or a communication line. Installed in the computer, and decoded by a central processing unit provided in the computer to function as a microphone position determination device.
この発明によるマイク位置決定装置は例えば自動音声案内装置のように音声認識機能を備えた装置を設置する場合に、音声認識用の音声を取り込むためのマイク位置決定時に活用される。 The microphone position determining apparatus according to the present invention is utilized when determining a microphone position for taking in voice for voice recognition when a device having a voice recognition function such as an automatic voice guidance device is installed.
50 雑音レベル比調整モジュール 203 インパルス応答計算部
60 雑音収録モジュール 204 インパルス応答メモリ
100 収録ゲイン調整モジュール 301 直接波レベル計算手段
200 インパルス応答測定モジュール 302 反射波レベル計算手段
300 評価関数計算モジュール 303 評価関数計算部
400 最適マイク位置決定モジュール 401 最大値判定スイッチ
SP 話者模擬スピーカ 404 最適マイク位置候補メモリ
M 音声認識用マイク 405 評価関数最大値メモリ
101 基準信号メモリ 406 非最適マイク位置候補メモリ
102 収録ゲイン調整部 51 A/D変換部
103 D/A変換部 52 背景雑音レベル測定手段
104 A/D変換部 53 背景雑音パワーレベルメモリ
105 収録信号パワーレベル計算部 54 基準/雑音レベル比計算部
106 収録信号パワーレベル判定部 55 基準/雑音レベル比メモリ
107 レベル判定スイッチ 61 A/D変換部
110 基準信号パワーレベルメモリ 62 雑音パワーレベル計算部
201 インパルス応答測定用信号メモリ 63 雑音パワーレベルメモリ
202 A/D変換器
DESCRIPTION OF
Claims (7)
想定した話者の発話位置に置く話者を模擬した話者模擬スピーカと、音声認識用マイクと、前記話者模擬スピーカから音声認識用マイクまでのインパルス応答を前記音声認識用マイクの位置を変えて複数の位置毎に測定するインパルス応答測定手段と、前記各位置毎に測定したインパルス応答の振幅の最大値の時刻の波、又は、その周辺の時刻の波を直接波として直接波レベルを計算する直接波レベル計算手段と、直接波以外の時刻の波を反射波として反射波レベルを計算する反射波レベル計算手段と、前記直接波レベルと前記反射波レベルの比が最大となるマイク位置を最適なマイク位置とする最適マイク位置決定手段を有することを特徴とするマイク位置決定装置。 A device for determining the optimal microphone position used for speech recognition,
A speaker simulation speaker simulating a speaker placed at an assumed speaker's speaking position, a voice recognition microphone, and an impulse response from the speaker simulation speaker to the voice recognition microphone is changed in position of the voice recognition microphone. Impulse response measurement means that measures at multiple positions, and calculates the direct wave level using the wave of the maximum amplitude of the impulse response measured at each position or the surrounding time as a direct wave A direct wave level calculating means, a reflected wave level calculating means for calculating a reflected wave level using a wave at a time other than the direct wave as a reflected wave, and a microphone position at which a ratio of the direct wave level and the reflected wave level is maximum. A microphone position determining device, comprising: an optimum microphone position determining means for setting an optimal microphone position.
想定した話者の発話位置に置く話者を模擬した話者模擬スピーカと、音声認識用マイクと、前期話者模擬スピーカから音声認識用マイクまでのインパルス応答を前記音声認識用マイクの位置を変えて複数の位置毎に測定するインパルス応答測定手段と、前記各位置毎に測定したインパルス応答の振幅の最大値の時刻の波又はその周辺の時刻の波を直接波として直接波レベルを計算する直接波レベル計算手段と、インパルス応答の直接波を示す時刻から音声認識に用いる分析フレーム幅を超える時刻以降を反射波として反射波レベルを計算する反射波レベル計算手段と、前記直接波レベルと前記反射波レベルの比が最大となるマイク位置を最適なマイク位置とする最適マイク位置決定手段を有することを特徴とするマイク位置決定装置。 A device for determining the optimal microphone position used for speech recognition,
A speaker simulation speaker simulating a speaker placed at an assumed speaker's speaking position, a speech recognition microphone, and an impulse response from the previous speaker simulation speaker to the speech recognition microphone, changing the position of the speech recognition microphone And an impulse response measuring means for measuring at each of a plurality of positions, and directly calculating a direct wave level by using a wave at the time of the maximum amplitude of the impulse response measured at each position or a wave at a time around it as a direct wave. A wave level calculating means, a reflected wave level calculating means for calculating a reflected wave level from a time indicating a direct wave of an impulse response as a reflected wave after a time exceeding an analysis frame width used for speech recognition, the direct wave level and the reflected wave What is claimed is: 1. A microphone position determining apparatus comprising: an optimum microphone position determining unit that sets a microphone position having a maximum wave level ratio as an optimal microphone position.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004120377A JP4173462B2 (en) | 2004-04-15 | 2004-04-15 | Microphone position determination method, microphone position determination device, microphone position determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004120377A JP4173462B2 (en) | 2004-04-15 | 2004-04-15 | Microphone position determination method, microphone position determination device, microphone position determination program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005303898A JP2005303898A (en) | 2005-10-27 |
JP4173462B2 true JP4173462B2 (en) | 2008-10-29 |
Family
ID=35334876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004120377A Expired - Fee Related JP4173462B2 (en) | 2004-04-15 | 2004-04-15 | Microphone position determination method, microphone position determination device, microphone position determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4173462B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5605071B2 (en) * | 2010-08-10 | 2014-10-15 | 株式会社Jvcケンウッド | Coefficient setting method of digital filter, coefficient setting device, coefficient setting program, and sound field correction method using digital filter |
KR101323386B1 (en) | 2012-08-13 | 2013-10-29 | 한국 한의학 연구원 | Apparatus of recording voice for acquiring speaking size information and method for the thereof |
KR102181643B1 (en) | 2019-08-19 | 2020-11-23 | 엘지전자 주식회사 | Method and apparatus for determining goodness of fit related to microphone placement |
JP6908142B1 (en) * | 2020-01-27 | 2021-07-21 | 沖電気工業株式会社 | Sound collecting device, sound collecting program, and sound collecting method |
CN111951833B (en) * | 2020-08-04 | 2024-08-23 | 科大讯飞股份有限公司 | Voice test method, device, electronic equipment and storage medium |
JP7395446B2 (en) * | 2020-09-08 | 2023-12-11 | 株式会社東芝 | Speech recognition device, method and program |
WO2023080341A1 (en) * | 2021-11-02 | 2023-05-11 | Samsung Electronics Co., Ltd. | Dynamic positioning of ai speaker in an iot ecosystem |
-
2004
- 2004-04-15 JP JP2004120377A patent/JP4173462B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005303898A (en) | 2005-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101385386B (en) | Reverberation removal device, reverberation removal method | |
US8160273B2 (en) | Systems, methods, and apparatus for signal separation using data driven techniques | |
JP6572894B2 (en) | Information processing apparatus, information processing method, and program | |
US20210256971A1 (en) | Detection of replay attack | |
KR101172180B1 (en) | Systems, methods, and apparatus for multi-microphone based speech enhancement | |
EP2577658B1 (en) | User-specific noise suppression for voice quality improvements | |
CN111161752A (en) | Echo cancellation method and device | |
US20080208538A1 (en) | Systems, methods, and apparatus for signal separation | |
KR20080111290A (en) | System and method of estimating voice performance for recognizing remote voice | |
JP4745916B2 (en) | Noise suppression speech quality estimation apparatus, method and program | |
EP1998320B1 (en) | System and method for evaluating performance of microphone for long-distance speech recognition in robot | |
JP2015019124A (en) | Sound processing device, sound processing method, and sound processing program | |
CN110475181B (en) | Equipment configuration method, device, equipment and storage medium | |
KR20050007352A (en) | Transmission characteristic measuring device, transmission characteristic measuring method, and amplifier | |
JP4173462B2 (en) | Microphone position determination method, microphone position determination device, microphone position determination program | |
CN105513592A (en) | Acoustic impulse response simulation | |
JP2012503212A (en) | Audio signal analysis method | |
WO2009093416A1 (en) | Sound signal processing device and method | |
JP5627440B2 (en) | Acoustic apparatus, control method therefor, and program | |
US8577051B2 (en) | Sound signal compensation apparatus and method thereof | |
JP5217875B2 (en) | Sound field support device, sound field support method and program | |
JP6925995B2 (en) | Signal processor, speech enhancer, signal processing method and program | |
CN102903367A (en) | Method and device for balancing frequency response of off-line iterative sound playback system | |
WO2022103290A1 (en) | Method for automatic quality evaluation of speech signals using neural networks for selecting a channel in multimicrophone systems | |
JP2022045228A (en) | Voice recognition device, method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060725 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060725 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080813 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110822 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120822 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130822 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |