JP5339849B2 - Speech intelligibility improving method and speech intelligibility improving system - Google Patents
Speech intelligibility improving method and speech intelligibility improving system Download PDFInfo
- Publication number
- JP5339849B2 JP5339849B2 JP2008275277A JP2008275277A JP5339849B2 JP 5339849 B2 JP5339849 B2 JP 5339849B2 JP 2008275277 A JP2008275277 A JP 2008275277A JP 2008275277 A JP2008275277 A JP 2008275277A JP 5339849 B2 JP5339849 B2 JP 5339849B2
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- unit
- noise
- time
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012937 correction Methods 0.000 claims description 68
- 238000004364 calculation method Methods 0.000 claims description 47
- 230000005236 sound signal Effects 0.000 claims description 39
- 230000006872 improvement Effects 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 27
- 238000012544 monitoring process Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 238000013500 data storage Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 abstract description 24
- 230000000694 effects Effects 0.000 abstract description 5
- 238000000926 separation method Methods 0.000 description 13
- 238000012935 Averaging Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000013481 data capture Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Images
Landscapes
- Control Of Amplification And Gain Control (AREA)
Abstract
Description
本発明は音声明瞭度改善方法および音声明瞭度改善システムに係り、特に、案内音声信号が出力されていない区間を騒音区間とし、該騒音区間における騒音パワーと非騒音区間における音声パワーを用いて案内音声信号のゲインを制御する音声明瞭度改善方法および音声明瞭度改善システムに関する。 The present invention relates to a speech intelligibility improving method and a speech intelligibility improving system, and in particular, a section where no guidance voice signal is output is defined as a noise section, and guidance is performed using noise power in the noise section and voice power in a non-noise section. The present invention relates to a speech intelligibility improving method and a speech intelligibility improving system for controlling a gain of an audio signal.
スピーカから出力された音声(ナビゲーションガイド音声や,ニュースやメールの読上げ音声等)を騒音下でも明瞭に聞こえるようにする車載の音声明瞭度改善システムがある。例えば、車載用ナビゲーション装置では進路案内等の音声がスピーカから車室内に出力されるが、走行中などでエンジン音、ロードノイズ等の騒音が大きいときはマスキング効果でスピーカ出力音声が聞きづらくなる。そこで、出力する音声データのパワーと騒音のパワーに応じて音声データにラウドネス補償を施して音声帯域全体のゲインを上げるなどして騒音下でもスピーカ出力音声が明瞭に聞こえるようにしている。 There is an in-vehicle speech intelligibility improvement system that makes it possible to clearly hear voices (navigation guide voices, news and mail reading voices) output from speakers even under noisy conditions. For example, in an in-vehicle navigation device, sound such as route guidance is output from a speaker to a vehicle interior, but when noise such as engine sound and road noise is high during traveling, it is difficult to hear the speaker output sound due to a masking effect. Therefore, the loudspeaker output sound can be clearly heard even under noise by performing loudness compensation on the sound data according to the power of the sound data to be output and the power of the noise to increase the gain of the entire sound band.
図7は従来の音声明瞭度改善システム(特許文献1)の構成図である。図7の音声明瞭度改善システムによれば(詳細な動作は特許文献1参照)、同定フィルタ71によりマイク72の設置位置における案内音声信号SGを模擬し、減算器73により、マイク72の出力から前記信号を引くことによって騒音信号SNを抽出している。ラウドネス補償ゲイン算出部74では、案内音声信号および騒音信号のそれぞれの信号をもとにゲインGoptを算出してRG補正部(RouteGuidance音声補正部)75に入力している。この際、同定用フィルタ76における同定処理は、適応フィルタ77を用いて行われ、この中の適応アルゴリズム部78は、種々の適応アルゴリズムを用いて実現することができ、その代表的なものの一つがLMSアルゴリズムであるが、Fast-LMSアルゴリズム(周波数領域におけるLMSアルゴリズム)等を使用してフィルタ係数の更新を行うようにしてもよい。
FIG. 7 is a configuration diagram of a conventional speech intelligibility improvement system (Patent Document 1). According to the speech intelligibility improving system of FIG. 7 (refer to
しかし、音声信号のパワーに推定誤差が生じると、減算器73による減算によって算出される騒音推定パワーの誤差が、音声信号の推定パワーの誤差の符号と逆符号となり、差幅が大きくなってゲインを正しく決定できなくなる。また、従来の音声明瞭度改善システムでは演算量が多すぎて高価なDSPが必要とされる問題がある。
However, if an estimation error occurs in the power of the audio signal, the error in the noise estimation power calculated by subtraction by the
そこで、音声信号の音声パワーと騒音パワーとに基づき音声信号のゲインを制御するシステムにおいて音声パワーが設定レベル以上であるか否かを検出し、すなわち案内音声が出力されているか否かを検出し、音声パワーが設定レベルより小さいとき(案内音声が出力されていないとき)の騒音パワーを測定して保存し、音声パワーが設定レベルより大きいとき(案内音声が出力されているとき)の騒音パワーを前記保存してあるパワーであると推定し、音声パワーと推定した騒音パワーとに基づいて音声信号のゲインを制御する技術が提案されている。 Therefore, in the system that controls the gain of the audio signal based on the audio power and noise power of the audio signal, it is detected whether or not the audio power is above the set level, that is, whether or not the guidance audio is being output. Measure and save the noise power when the voice power is lower than the set level (when no guidance voice is output), and save the noise power when the voice power is higher than the set level (when the guidance voice is output) Has been proposed to control the gain of the audio signal based on the audio power and the estimated noise power.
図8は上記提案されている音声明瞭度改善システムの構成図である。
ナビゲーション装置の案内音声発生部81は、例えば交差点に接近したとき案内音声信号を発生する。サウンドドライバ82はこの案内音声信号に音質制御等を施し、増幅して出力する。RG補正部83は後述する補正値算出部84で決定したゲインgをサウンドドライバ82より出力される音声信号に乗算し、音量補正してDAC85に入力し、DAC85は入力された音声信号をアナログ変換してスピーカ86に入力する。スピーカ86は入力音声信号を出力する。マイク87は案内音声aと周辺の騒音n(エンジン音、ロードノイズ等)の合成音を検出してADC88でディジタルデータに変換し聴感補正フィルタ89aを介してパワー計算部89bに入力する。パワー計算部89bは入力されたマイク検出信号の振幅の二乗演算を行なってパワーを計算し、切替部89cに入力する。
FIG. 8 is a block diagram of the proposed speech intelligibility improving system.
The guidance
切替部89cは、ガイド音声が出力されていない区間において、すなわち、音声信号のパワー(音声パワー)が設定値より小さいとき、パワー計算部89bで計算されたパワーを、固定接点Aを介して騒音パワー平均化部84bに入力し、ガイド音声が出力されている区間において、すなわち、音声パワーが設定値より大きいとき、パワー計算部89bで計算されたパワーをB接点側に出力していずれのユニットにも入力しない。騒音パワー平均化部84bは、ガイド音声が出力されていない区間において、パワー計算部89bから出力するパワーを騒音パワーと見なし、パワー計算部89bから出力する最新のN個(N:定数)のパワーの移動平均値を求め、該移動平均値を騒音パワーとしてパワー保存部84cに保存する。この結果、ガイド音声が出力されたとき、直前のガイド音声が出力されていない区間における最新の騒音パワーがパワー保存部84cに保存されていることになる。ガイド音声出力中の騒音パワーは、パワー保存部84cに保存されている騒音パワーであると見なし、パワー保存部84cに保存されている騒音パワーをラウドネス補償ゲイン算出部84aに入力する。 The switching unit 89c uses the power calculated by the power calculation unit 89b as noise via the fixed contact A in a section where no guide voice is output, that is, when the power of the audio signal (audio power) is smaller than the set value. In the section in which the guide voice is output, which is input to the power averaging unit 84b, that is, when the voice power is larger than the set value, the power calculated by the power calculation unit 89b is output to the B contact side and any unit Also do not enter. The noise power averaging unit 84b regards the power output from the power calculation unit 89b as noise power in a section where no guide voice is output, and the latest N (N: constant) powers output from the power calculation unit 89b. And the moving average value is stored as noise power in the power storage unit 84c. As a result, when the guide voice is output, the latest noise power in the section where the previous guide voice is not output is stored in the power storage unit 84c. The noise power during the output of the guide voice is regarded as the noise power stored in the power storage unit 84c, and the noise power stored in the power storage unit 84c is input to the loudness compensation gain calculation unit 84a.
以上と並行して、案内音声発生部81から出力される音声信号は、聴感補正フィルタ89eを介して音声パワー計算部89fに入力する。音声パワー計算部89fは入力された音声信号の振幅の二乗演算を行なって音声パワーを計算し、該音声パワーを判定部89gと音声パワー平均化部89hに入力する。判定部89gは、入力された音声パワーと設定レベルとを比較し、音声パワーが設定レベルより小さいときはガイド音声が出力されていない区間であると判定し、音声パワーが設定レベルより大きいときはガイド音声が出力されている区間であると判定する。そして、判定部89gは、ガイド音声が出力されていない区間では切替器89cを制御してパワー計算部89bが計算したパワーを騒音パワー平均化部84bに入力し、ガイド音声が出力されている区間では、何れのユニットにも入力しない。音声パワー平均化部89hは音声パワー計算部89fから出力するM個(M:定数)の音声パワーの平均値を演算し可変ゲイン部84dに入力し、可変ゲイン部84dは設定されているゲインGを平均音声パワーに乗算してラウドネス補償ゲイン算出部84aに入力する。なお、可変ゲイン部84dにより設定されるゲインGは、スピーカ86の入力端子からマイク出力端子までの伝播特性をゲインのみで近似できると見なして、特性同定部89iが該ゲインGを別途求めて設定するものである。ラウドネス補償制御部89aは、ガイド音声が出力されている区間において、可変ゲイン部84dから入力する音声パワーとパワー保存部84cから入力する騒音パワーに基づき、騒音のレベルによらず案内音声が明瞭に聞こえるゲインgを人のラウドネス特性により決定して補正部83に入力し、RG補正部83は該ゲインgを入力され、案内音声信号にゲインgを乗算して出力する。なお、ラウドネス補償制御部84aは、ガイド音声が出力されていない区間では、ゲインgの決定制御を行なわない。
In parallel with the above, the voice signal output from the
図9は図8の音声明瞭度改善システムをマルチプロセスの汎用CPU91とDSP(Digital Signal Processor)80とで実現する例であり、図8と同一部分には同一符号を付している。DSP80は、図8におけるRG補正部83、補正値算出部84、騒音分離部89の機能を実行し、マルチプロセスの汎用CPU91は図8の案内音声発生部81の案内音声データ作成処理、該案内音声データのサウンドドライバ82への受け渡し処理等の音声再生処理(VOICEアプリ)91dを行う。汎用CPU91はかかる音声再生処理に加えて、ナビゲーション処理91a、車載オーディオ処理91b、自動車電話処理91c等の複数のアプリケーションを実行するようになっており、優先順位の高い処理を優先的に実行するようになっている。
FIG. 9 shows an example in which the speech intelligibility improvement system of FIG. 8 is realized by a multi-process general-
音声再生処理において、RG生成部81bは案内音声データ保存部81aから符号化された案内音声データを読み出して復号してRG再生部81cに入力すると共に、RG再生部81cは該入力された音声データを一時的に保存し、適宜、該音声データRGをサウンドドライバ82に入力する。サウンドドライバ82は音声データに所定の処理を施して、サウンドドライバ82を介してRG補正部83に入力し、RG補正部83は入力された音声データRGに補正値算出部84が算出した補正値(ゲイン)を乗算し音量補正を行い、補正された音声信号RG’をアナログ信号に変換してスピーカ86に入力する。スピーカ86は入力された音声信号RG’を出力し、マイク87は該音声信号と周囲の雑音を検出し、検出データ(MICデータ)をADC88を介して騒音分離部89に入力する。騒音分離部89はMICデータと案内音声データRGとを用いて案内音声パワーのレベルと騒音パワーのレベルを算出し、補正値算出部84に入力する。補正値算出部84は入力された案内音声パワーのレベルと騒音パワーのレベルに基づいてゲインを算出し、ゲインをRG補正部83に入力し、RG補正部83は入力された補正値を音声データに乗算して出力する。これにより音声信号のゲインが大幅に誤差を持たないようになり、かつ演算量を大幅に削減することができる。
なお、DSPを用いず、マルチプロセスの汎用CPU91のみを用いて、汎用CPU上で音声明瞭度改善処理を行うことも提案されている。
Note that it has also been proposed to perform speech intelligibility improvement processing on a general-purpose CPU using only a multi-process general-
しかし、上記提案されている技術において、汎用のCPUで複数のアプリケーションの処理を行うマルチプロセスではそれぞれのアプリケーションに優先順位が設けられており、常に音声明瞭度改善システムの処理が行われるわけではなく音声データがRG生成部で生成されてスピーカ出力されたRG音声がマイクにより検出されて騒音分離部に入力するまでに時間的遅延が生じる。具体的に図10を用いて説明する。尚、図10では、図9のDSP80の処理を汎用CPU91に実行させる場合を示しており、GAE部(補正部83,補正値算出部84,騒音分離部89)、サウンドドライバ82、RG再生部81c等の配置を変更している。汎用CPU91上のRG再生部81cの処理は優先順位が低く、RG補正部83から入力した音声データをサウンドドライバ82に直ちに出力できるとは限らず、内蔵のバッファに滞留して遅延が生じ、しかも、他の部分でも遅延が生じる。この結果、RG生成部81bが音声データRGを騒音分離部89に入力してから相当の時間が経過してからサウンドドライバ82がマイク検出音声データを騒音分離部89に入力される。かかる遅延が発生すると正確な騒音パワーの測定ができず、音声明瞭度改善処理による効果が低下する。図11は騒音パワーが正確に測定できないことを説明するタイムチャートであり、音声データRGの出力開始時刻RGtime-S、音声データRGの出力終了時刻をRGtime-E、マイクによる音声信号の取り込み開始時刻をMICtime-S、マイクによる音声信号の取り込み終了時刻をMICtime-Eとしている。時刻RGtime-S以前と時刻RGtime-E以降が騒音区間であり、時刻RGtime-S〜RGtime-Eが非騒音区間である。最初の騒音区間では期間Aで音声が出力されていないため騒音パワーの測定誤差はないが、あとの騒音区間では期間Bで音声が出力されているため、該音声も騒音として検出し、正確な騒音パワーを測定できない。
However, in the proposed technique, in a multi-process in which a general-purpose CPU processes a plurality of applications, each application has a priority, and the processing of the speech intelligibility improvement system is not always performed. There is a time delay until the RG sound generated by the RG generation unit and output from the speaker by the microphone is detected by the microphone and input to the noise separation unit. This will be specifically described with reference to FIG. FIG. 10 shows a case where the general-
以上より、本発明の目的は音声データRGが発生してからマイクにより音声が検出されるまでに遅延があっても騒音パワーを正確に測定できるようにすることである。
本発明の別の目的は、音声明瞭度改善処理による効果を改善することである。
As described above, an object of the present invention is to enable accurate measurement of noise power even when there is a delay between the generation of audio data RG and the detection of audio by a microphone.
Another object of the present invention is to improve the effect of the speech intelligibility improving process.
本発明は、音声明瞭度改善方法および音声明瞭度改善システムである。
・ 音声明瞭度改善方法
本発明の音声明瞭度改善方法は、マルチプロセスの1つのプロセスとして音声データ発生部が出力する音声データ列に所定のゲインを乗算してスピーカ側に出力すると共に、マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む第1ステップ、前記音声データ列のスピーカ側への出力開始時刻と出力終了時刻を監視し、かつ、前記マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻を監視する第2ステップ、前記各時刻を用いて前記マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか否か判定する第3ステップ、前記騒音区間の音声データ列を用いて騒音パワーを検出する第4ステップ、を備えており、前記騒音区間でないときに、前記音声データ発生部が出力する音声データ列に基づいて音声パワーを検出する第5ステップ、前記騒音パワーと前記音声パワーを用いて前記音声データ列に乗算するゲインを決定する第6ステップ、を備えている。
The present invention is a speech intelligibility improving method and a speech intelligibility improving system.
-Speech intelligibility improvement method The speech intelligibility improvement method according to the present invention is a multi-process in which a speech data sequence output by an audio data generation unit is multiplied by a predetermined gain and output to a speaker side, and also by a microphone. A first step of converting the detected audio signal into digital data and taking it in a predetermined length unit, monitoring an output start time and an output end time of the audio data string to the speaker side, and taking a predetermined length taken from the microphone A second step of monitoring the acquisition start time and the acquisition end time of the audio data sequence, and determining whether the audio data sequence of a predetermined length acquired from the microphone using each time is an audio data sequence of a noise section A third step, and a fourth step of detecting noise power using the voice data string of the noise section, Sometimes, a fifth step of detecting voice power based on the voice data string output from the voice data generating unit, and a sixth step of determining a gain to be multiplied by the voice data string using the noise power and the voice power. It is equipped with.
・ 音声明瞭度改善システム
本発明の音声明瞭度改善システムは、音声データ列を発生する音声データ発生部と、前記音声データ列を入力され、音声データをアナログデータに変換してスピーカへ出力する音声信号出力部と、マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む音声データ取り込み部と、前記音声データ列の前記音声信号出力部への入力開始時刻と入力終了時刻と、前記音声データ取り込み部における所定長の音声データ列の取り込み開始時刻と所定長の音声データ列の取り込み終了時刻を監視する時刻監視部と、前記各時刻を用いて前記音声データ取り込み部より取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判定する騒音区間判定部と、前記音声データ取り込み部に取り込まれた前記騒音区間の音声データ列を用いて騒音パワーを検出する騒音パワー検出部と、前記騒音パワーを用いて、前記出力する音声データ列に乗算するゲインを算出する補正値算出部と、前記算出したゲインを前記音声データ発生部が発生する音声データ列に乗算して前記音声信号出力部に入力する補正部と、を備えており、前記騒音区間でないときに、前記音声データ発生部が出力する音声データ列に基づいて音声パワーを検出する音声パワー検出部、を更に備え、前記補正値算出部は前記騒音パワーと前記音声パワーを比較して前記音声データ列に乗算するゲインを決定する。
-Voice intelligibility improvement system The audio intelligibility improvement system of this invention is the audio | voice data generation part which produces | generates an audio | voice data sequence, and the audio | voice which receives the said audio | voice data sequence, converts audio | voice data into analog data, and outputs it to a speaker A signal output unit, a sound data capturing unit that converts the sound signal detected by the microphone into digital data and captures the data in units of a predetermined length, and an input start time and an input end time of the sound data string to the sound signal output unit; A time monitoring unit for monitoring a start time for capturing a predetermined length of audio data string and a time for capturing a predetermined length of audio data string in the sound data capturing unit, and a time monitoring unit for capturing the sound data using the respective times. A noise section determination unit for determining whether a predetermined length of the voice data string is a voice data string of a noise section; and the voice data capturing unit A noise power detection unit that detects noise power using the captured audio data sequence of the noise section; a correction value calculation unit that calculates a gain to be multiplied to the output audio data sequence using the noise power; A correction unit that multiplies the calculated gain by an audio data sequence generated by the audio data generation unit and inputs the result to the audio signal output unit, and when the audio data generation unit is not in the noise section, An audio power detection unit that detects audio power based on the audio data sequence to be output; and the correction value calculation unit compares the noise power with the audio power to determine a gain for multiplying the audio data sequence. .
本発明の別の音声明瞭度改善システムは、前記音声データ発生部と、時刻監視部と、騒音区間判定部と、騒音パワー検出部と、補正値算出部と補正部の各処理をマルチプロセスの1つのプロセスとしてCPUにより実現する。 Another speech intelligibility improvement system according to the present invention includes a multi-process process for each of the speech data generation unit, the time monitoring unit, the noise section determination unit, the noise power detection unit, the correction value calculation unit, and the correction unit. It is realized by the CPU as one process.
本発明の別の音声明瞭度改善システムは、前記音声データ発生部と、入力された音声データ列を別のCPUに出力する音声データ出力部の各処理をマルチプロセスの1つのプロセスとして、CPUにより実現し、時刻監視部と、騒音区間判定部と、騒音パワー検出部と、音声信号出力部の各処理をマルチプロセスの1つのプロセスとして別のCPUにより実現する。 Another speech intelligibility improvement system according to the present invention includes a process in which each process of the voice data generation unit and the voice data output unit that outputs an input voice data string to another CPU is performed as one multi-process. The processing of the time monitoring unit, the noise section determination unit, the noise power detection unit, and the audio signal output unit is realized by another CPU as one multi-process.
本発明によれば、音声データ列のスピーカ側への入力開始時刻と入力終了時刻と、マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻とを監視し、それぞれの時刻を用いて、マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判断するようにしたので、音声を騒音として検出することがなくなり、正確な騒音パワーを測定することができる。 According to the present invention, the input start time and the input end time to the speaker side of the audio data sequence, and the acquisition start time and the acquisition end time of the audio data sequence of a predetermined length acquired from the microphone are monitored, and the respective times are monitored. Since it is determined whether or not the audio data string of a predetermined length captured from the microphone is an audio data string in the noise section, the voice is not detected as noise, and accurate noise power can be measured. .
また本発明によれば、正しく騒音区間の騒音パワーを用いてスピーカに入力する音声データ列に乗算するゲインを決定するようにしたので、正確に音声明瞭度改善処理を行うことができ、騒音下でもスピーカ出力音声が明瞭に聞こえるようにすることができる。 Further, according to the present invention, the gain for multiplying the audio data string to be input to the speaker is determined using the noise power of the noise section correctly, so that the speech intelligibility improvement process can be performed accurately and the noise level is reduced. However, the speaker output sound can be heard clearly.
・ 本発明の概略
図1は本発明の概略説明図、図2はマイク検出データが騒音区間の音声データであるかを示す説明図である。図1において、10は汎用CPU、11はRGデータ保存部、12はRG生成部、13はGAE(音声明瞭度改善;Guidance Articulation Enhancement)部、14はRG再生部、15はサウンドドライバ、16はD/A変換器、17はスピーカ、18はマイク、19はA/D変換器であり、RGはRGデータ保存部が保存している音声データ列、RG’はGAE部13が求めた補正値を乗算した音声データ列、MICはマイク18が取り込んだ音声および周囲の雑音を含む信号である。
Outline of the Present Invention FIG. 1 is a schematic explanatory view of the present invention, and FIG. 2 is an explanatory view showing whether the microphone detection data is sound data of a noise section. In FIG. 1, 10 is a general purpose CPU, 11 is an RG data storage unit, 12 is an RG generation unit, 13 is a GAE (Guidance Articulation Enhancement) unit, 14 is an RG playback unit, 15 is a sound driver, and 16 is D / A converter, 17 is a speaker, 18 is a microphone, 19 is an A / D converter, RG is an audio data sequence stored in the RG data storage unit, RG ′ is a correction value obtained by the
RG生成部12はRGデータ保存部11より音声データ列RGを読み出し生成し、騒音分離部13bとRG補正部13dに入力する。RG補正部13dは補正値算出部13cが算出した補正値を音声データ列RGに乗算して、音量補正した音声データ列RG’をRG再生部14に入力する。RG再生部14は音声データ列RG’を一時的に保持すると共にデータ受け渡しのための処理が割り当てられると音声データ列RG’をサウンドドライバ15に入力し該入力時刻を入力開始時刻RGtime-S(図2参照)として騒音区間判定部13aに入力する。サウンドドライバ15は音声データ列RG’をD/A変換器16に入力し、音声データ列がなくなって、その入力を終了した入力終了時刻RGtime-E(図2参照)をRG再生部14を介して、騒音区間判定部13aに入力する。D/A変換器16はアナログ変換した音声データ列RG’をスピーカ17に入力し、スピーカ17は入力された音声データ列RG’に応じた音声を出力する。マイク18はMICデータ(出力された音声データ列RG’の音声と周囲の雑音)を取り込み、A/D変換器19によりディジタル変換してサウンドドライバ15に入力する。サウンドドライバ15は入力されたMICデータを図示しない所定容量のバッファ(保存部)に保存し、該バッファが満杯になった時刻を取り込み終了時刻MICtime-E(図2参照)とし、騒音区間判定部13aに取り込み終了時刻MICtime-Eを入力する。また、サウンドドライバ15は所定容量のMICデータを騒音区間判定部13aと騒音分離部13bに入力する。騒音区間判定部13aは該取り込み終了時刻よりバッファの容量に応じた時間MICbuftimeを差し引いてMICデータの取り込み開始時刻MICtime-S(図2参照)を求める。騒音区間判定部13aは、取り込んだ所定サイズのMICデータ(例えば図2のS3)が騒音区間のデータ(騒音)であるか判定するために、前記取り込み終了時刻MICtime-Eが前記入力開始時刻RGtime-Sより古いか、または前記入力終了時刻RGtime-Eが前記取り込み開始時刻MICtime-Sより古いか判断する。「YES」と判断した場合前記MICデータは騒音区間のデータであると判断し、騒音分離部13bは該音声データ列MICを用いて騒音パワーを算出する。ついで、補正値算出部13cは該騒音パワーと音声データ列のパワーを用いて音声データ列RGに乗算する補正値を算出し、RG補正部13dは音声データ列RGに補正値を乗算し、音量補正した音声データ列RG’をRG再生部14、サウンドドライバ15、D/A変換器16を介してスピーカ17に入力する。また、騒音区間判定部13aは上記判断により「NO」であれば、前記MICデータは騒音区間のデータではないと判定し、前記MICデータを用いて騒音パワーを算出しない。
The
以上より、音声データ列が発生してからマイクにより音声が検出されるまでに遅延があっても、騒音パワーを正確に測定できるようになるので、音声明瞭度改善処理による効果を改善することができる。 From the above, noise power can be measured accurately even if there is a delay between the generation of the audio data sequence and the detection of the audio by the microphone, so that the effect of the audio intelligibility improvement process can be improved. it can.
・ 実施例
図3は本発明の第1実施例の音声明瞭度改善システムの構成図である。
通常時、ナビゲーション装置のRG生成部12は、例えば交差点に接近したときRGデータ保存部(図示せず)より音声データ列を読み出し、案内音声の音声データ列RGを生成する。RG補正部13dは、後述するラウドネス補償ゲイン算出部21で算出した補正値gを入力された音声データ列RGに乗算して音量補正した音声データ列RG’をRG再生部14に入力する。RG再生部14は入力された音声データ列を内蔵のバッファに保存し CPUよりサウンドドライバへの受け渡しが許可されたときFIFO(ファーストインファーストアウト)により該バッファから音声データ列RG’を読み出してサウンドドライバ15aへ入力する。またRG再生部14は、サウンドドライバ15aへの入力を開始した時刻(入力開始時刻RGtime-S)を測定し、騒音区間判定部13aに通知する。
Embodiment FIG. 3 is a configuration diagram of a speech intelligibility improvement system according to a first embodiment of the present invention.
During normal times, the
サウンドドライバ15aはRG再生部14から入力された音声データ列RG’を、D/A変換器16に入力し、全音声データ列のD/A変換器16への入力が終了すれば該終了した時刻(入力終了時刻RGtime-E)を測定し、RG再生部14を介して騒音区間判定部13aに通知する。D/A変換器16は入力された音声データ列RG’をアナログデータに変換して、スピーカ17に入力する。マイク18はスピーカから出力された音声信号と周囲の雑音を集音し、A/D変換器19に入力する。A/D変換器19は、入力された音声信号をディジタルデータに変換して、MICデータとしてサウンドドライバ15bに入力する。サウンドドライバ15bは入力されたMICデータを内蔵の所定容量のバッファ15cに保存すると共に、該バッファ15cが満杯になれば、保存されている所定サイズのデータをGAE部13に入力し、かつ該入力した時刻(取り込み終了時刻MICtime-E)を測定し、騒音区間判定部13aに入力する。以後、サウンドドライバ15bは次のMICデータのバッファ15cへの保存を開始し、満杯になるごとに保存データをGAE部13に入力すると共に、取り込み終了時刻MICtime-Eを騒音区間判定部13aに入力する。
The sound driver 15a inputs the audio data string RG ′ input from the
騒音区間判定部13aは、取り込み終了時刻MICtime-Eとバッファ15cの容量に応じた時間(MICbuftime)を用いて、MICデータの取り込みを開始した時刻(取り込み開始時刻MICtime-S)を算出し(MICtime-S=MICtime-E−MICbuftime)、各時刻RGtime-S、RGtime-E、MICtime-S、MICtime-Eを用いてバッファから取り込んだ音声データが騒音区間のデータであるか判断する(図2参照)。すなわち、騒音区間判定部13aはRGtime-EからRGtime-Sまでの期間を騒音区間、RGtime-SからRGtime-Eまでの期間を非騒音区間とみなし、MICデータの取り込み終了時刻MICtime-Eが入力開始時刻RGtime-Sより古いか、または入力終了時刻RGtime-EがMICデータの取り込み開始時刻MICtime-Sより古いかを判断し、「YES」の場合にはMICデータは騒音区間のデータであると判定し、「NO」の場合には非騒音区間のデータであると判定し、騒音区間もしくは非騒音区間の切り替え信号を切り替え部22に入力する。尚、図2のMICデータS0〜S8のうちS2〜S4が騒音区間のデータとなる。切り替え部22は接点Aに固定しておき、騒音区間判定部13aが入力する非騒音区間の信号により接点Bに切り替える。サウンドドライバ15bは固定接点Aと聴感補正フィルタ23を介してMICデータ(騒音信号)をパワー計算部24に入力し、パワー計算部24は入力されたMICデータの振幅の二乗演算を行って騒音パワーを計算する。
The noise section determination unit 13a calculates the start time of MIC data import (capture start time MICtime-S) using the capture end time MICtime-E and the time (MICbuftime) according to the capacity of the
騒音パワー平均化部25は、騒音区間において、パワー計算部24から出力する最新のN個(N:定数)のパワーの移動平均値を求め、該移動平均値を騒音パワーとしてパワー保存部26に保存する。この結果、音声信号が出力されたときに、直前の騒音区間における最新の騒音パワーがパワー保存部26に保存されていることになる。本発明では非騒音区間における騒音パワーは、パワー保存部26に保存されている騒音パワーであると見なし、パワー保存部26に保存されている騒音パワーをラウドネス補償ゲイン算出部21に入力する。
The noise
以上と並行して、RG生成部12から出力される音声データ列RGは、聴感補正フィルタ27を介して音声パワー計算部28に入力する。音声パワー計算部28は入力された音声データ列RGの振幅の二乗演算を行って音声パワーを計算し、該音声パワーを音声パワー平均化部29に入力し、音声パワー平均化部29は音声パワー計算部28より入力されたM個(M:定数)の音声パワーの平均値を演算し、可変ゲイン部31に入力する。可変ゲイン部31は平均音声パワーにゲインGを乗算して出力する。なお、可変ゲイン部31に設定されるゲインGはスピーカ17の入力端子からマイク出力端子までの伝播特性をゲインのみで近似できるとみなして、特性同定部30が該ゲインGを予め同定して設定するものである。
In parallel with the above, the audio data string RG output from the
ラウドネス補償ゲイン算出部21は、非騒音区間において、可変ゲイン部31から入力する音声パワーとパワー保存部26から入力する騒音パワーに基づき、騒音のレベルによらず音声信号が明瞭に聞こえるゲインgを人のラウドネス特性により決定してRG補正部13dに入力し、RG補正部13dは該ゲインgを入力され、音声データ列RGにゲインgを乗算して出力する。なお、ラウドネス補償ゲイン算出部21は非騒音区間ではゲインgの決定制御を行わない。
The loudness compensation
以上、本発明によれば、図2に示す案内音声を含むMICデータS1、S5を騒音区間のデータとしないから騒音区間の騒音パワーを正確に測定して保存することができる。 As described above, according to the present invention, since the MIC data S1 and S5 including the guidance voice shown in FIG. 2 are not used as the noise section data, the noise power in the noise section can be accurately measured and stored.
図4はRG再生部14およびサウンドドライバ15aの処理フロー、図5は騒音区間判定部13a、補正値算出部13cおよびサウンドドライバ15bの処理フローである。以下、これらの処理フローに沿って音声明瞭度改善システムの騒音区間判定処理について説明を行う。ただし、RG生成部12がRGデータ保存部11から音声データ列RGを読み出し、RG補正部13dに入力し、RG補正部13dは補正値算出部13cが算出したゲインgを乗算し、音声信号である音声データ列RG’をRG再生部14に入力してあるものとする。
FIG. 4 is a processing flow of the
RG再生部14は、CPUより許可されて音声データ列RG’をサウンドドライバ15aに入力開始した入力開始時刻RGtime-Sを測定し(ステップS401)、騒音区間判定部13aに入力開始時刻RGtime-Sを入力する(ステップS402)。
The
ついで、RG再生部14はサウンドドライバ15aに音声データ列RGを渡し(ステップS403)、サウンドドライバ15aは受け取った音声データ列RG’に所定の処理を施して、D/A変換器16に入力し、D/A変換器16はディジタルの音声データ列RG’をアナログ信号に変換し、スピーカ17に入力し、スピーカ17は音声信号を出力する(ステップS404)。
Next, the
サウンドドライバ15aは入力された全音声データ列の出力が終了すれば、該時刻を入力終了時刻RGtime-Eとして測定し(ステップS405)、該入力再生時刻RGtime-EをRG再生部14に入力し(ステップS406)、RG再生部14は騒音区間判定部13aに通知する(ステップS407)。以上により、騒音区間判定部13aはRGtime-EからRGtime-Sまでの期間を騒音区間、RGtime-SからRGtime-Eまでの期間を非騒音区間とみなし、次の図5の処理フローにしたがってMICデータが騒音区間のデータであるか否かを判定する。すなわち、MICデータの取り込み終了時刻MICtime-Eが入力開始時刻RGtime-Sより古い、または入力終了時刻RGtime-EがMICデータの取り込み開始時刻MICtime-Sより古いかを判断し、「YES」の場合にはMICデータは騒音区間のデータであると判定し、「NO」の場合には非騒音区間であると判定する。
When the output of all the input audio data strings is completed, the sound driver 15a measures the time as the input end time RGtime-E (step S405), and inputs the input playback time RGtime-E to the
以下、図5にしたがって、マイク18より取り込んだMICデータが騒音区間のデータであるか否かの処理を説明する。
Hereinafter, the process of determining whether or not the MIC data captured from the
サウンドドライバ15bはマイク18により検出されたMICデータを順にバッファ15cに保存し(ステップS501)、該バッファ15cが満杯になったかの判断を行い(ステップS502)、満杯になった場合はステップS503に進み、満杯になっていない場合はS501〜S502の処理を繰り返す。
The
ステップS502において、バッファ15cが満杯になったと判断した場合、サウンドドライバ15bは該満杯になった時刻(取り込み終了時刻)MICtime-Eを測定し(ステップS503)、取り込み終了時刻MICtime-Eを騒音区間判定部13aに入力すると共に、バッファ15cに保存されているMICデータをGAE部13に入力する(ステップS504)。
If it is determined in step S502 that the
ついで、騒音区間判定部13aは、バッファ15cの容量に応じた時間MICbuftimeをMICtime-Eより差し引いて取り込み開始した取り込み開始時刻MICtime-Sを算出し(ステップS505)、各時刻RGtime-S、RGtime-E、MICtime-S、MICtime-Eを用いてバッファ15cから取り込んだ音声データが騒音区間のデータであるか判断する(ステップS506)。すなわち、ステップS506では、騒音区間判定部13aは取り込み終了時刻MICtime-Eが入力開始時刻RGtime-Sより古いか、または入力終了時刻RGtime-Eが取り込み開始時刻MICtime-Sより古いか判断し、「YES」と判断した場合はステップS507に進み、「NO」と判断した場合にはステップS510に進む。
Next, the noise section determination unit 13a calculates the acquisition start time MICtime-S at which the acquisition starts by subtracting the time MICbuftime corresponding to the capacity of the
ステップS506において、「YES」と判断した場合には、バッファ15cから取り込んだMICデータは騒音区間におけるデータであるとみなし、騒音分離部13bはMICデータを用いて騒音パワーを算出し、騒音パワーを補正値算出部13cに入力する(ステップS507)。
If “YES” is determined in step S506, the MIC data fetched from the
しかる後、補正値算出部13cは入力された騒音パワーを用いて、音声データ列RGに乗算する補正値gを算出し、算出した補正値gをRG補正部13dに入力し(ステップS508)、RG補正部13dは入力された補正値gを音声データ列RGに乗算し音量補正する(ステップS509)。その後、上記の処理を繰り返し行い、補正値の更新および騒音区間の判定を行う。
Thereafter, the correction
ステップS506において、「NO」と判断した場合には、バッファから取り込んだ音声データは騒音区間のデータでないと判断し、騒音パワーを算出しない(ステップS510)。その後、上記の処理を繰り返し行い、補正値の更新および騒音区間の判定を行う。本実施例では、取り込み終了時刻MICtime-Eよりバッファの容量に応じた時間(MICbuftime)を差し引いて、MICデータの取り込み開始時刻MICtime-Sを算出したが、それに限定されるものではなく、例えば、取り込み開始時刻MICtime-Sにバッファの容量に応じた時間(MICbuftime)を加算して、MICデータの取り込みを終了した時刻(取り込み終了時刻MICtime-E)を算出する(MICtime-E=MICtime-S+MICbuftime)ようにしてもよい。 If “NO” is determined in step S506, it is determined that the voice data taken from the buffer is not noise section data, and the noise power is not calculated (step S510). Thereafter, the above process is repeated to update the correction value and determine the noise section. In this embodiment, the acquisition start time MICtime-S of the MIC data is calculated by subtracting the time (MICbuftime) corresponding to the buffer capacity from the acquisition end time MICtime-E. However, the present invention is not limited to this. The time (MICbuftime) corresponding to the buffer capacity is added to the capture start time MICtime-S to calculate the time when the MIC data capture is completed (capture end time MICtime-E) (MICtime-E = MICtime-S + MICbuftime) You may do it.
以上、本実施例によれば、音声データ列の入力開始時刻と入力終了時刻と、マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻とを監視し、それぞれの時刻を用いて、マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判断するようにしたので、音声を騒音として検出することがなくなり(例えば図2のMICデータS1、S5を騒音として検出しないため)、正確な騒音パワーを測定することができる。 As described above, according to the present embodiment, the input start time and input end time of the audio data string and the acquisition start time and the acquisition end time of the audio data string of a predetermined length acquired from the microphone are monitored, and the respective times are used. Therefore, since it is determined whether the audio data string of a predetermined length captured from the microphone is an audio data string in the noise section, the audio is not detected as noise (for example, the MIC data S1 and S5 in FIG. So that the exact noise power can be measured.
また、本実施例によれば、正しく騒音区間の騒音パワーを用いてスピーカに入力する音声データ列に乗算するゲインを決定するようにしたので、正確に音声明瞭度改善処理を行うことができ、騒音下でもスピーカ出力音声が明瞭に聞こえるようにすることができる。 In addition, according to the present embodiment, the gain for multiplying the audio data string input to the speaker by using the noise power of the noise section correctly is determined, so that the speech intelligibility improvement processing can be performed accurately, The speaker output sound can be heard clearly even under noise.
・ 変形例
図6は本発明の変形例の構成図であり、図1と同一部分には同一符号を付している。異なる点は1つの汎用CPUによる音声明瞭度改善処理を、もう1つの別の汎用CPUによる音声明瞭度改善処理に変更した点である。
Modified Example FIG. 6 is a block diagram of a modified example of the present invention, and the same parts as those in FIG. The difference is that the voice clarity improvement processing by one general-purpose CPU is changed to the voice clarity improvement processing by another different general-purpose CPU.
もう1つの別の汎用CPU40は、騒音区間判定部13a、騒音分離部13b、補正値算出部13c、RG補正部13dから構成されており、13a〜13dは上記実施例のGAE部13と同様の処理を行い、音声明瞭度改善処理を行う。
Another general-
以上、本変形例によれば、上記実施例と同様の効果を得ることができ、音声と騒音を検出することがなくなり、正確な騒音パワーを測定でき、かつ、正確に音声明瞭度改善処理を行うことができ、騒音下でもスピーカ出力音声が明瞭に聞こえるようにすることができる。
また、本変形例によれば、アプリの処理を行う第一の汎用CPUとGAEの処理を行う第二の汎用CPUを用いるようにしたので、第一の汎用CPUと第二の汎用CPUが分離可能となり、アプリとGAEが脱着可能となる。
As described above, according to this modification, it is possible to obtain the same effects as in the above-described embodiment, no longer detect voice and noise, accurately measure noise power, and accurately perform speech intelligibility improvement processing. This can be performed, and the speaker output sound can be clearly heard even under noise.
In addition, according to this modification, the first general-purpose CPU that performs application processing and the second general-purpose CPU that performs GAE processing are used. Therefore, the first general-purpose CPU and the second general-purpose CPU are separated. It becomes possible, and the application and GAE can be detached.
10 汎用CPU
10a 〜10d 汎用CPU上が処理するアプリ
11 RGデータ保存部
12 RG生成部
13 音声明瞭度改善システム
13a 騒音区間判定部
13b 騒音分離部
13c 補正値算出部
13d RG補正部
14 RG再生部
15 サウンドドライバ
15c バッファ
23 聴感補正フィルタ
24 パワー計算部
25 騒音パワー平均化部
26 パワー保存部
27 聴感補正フィルタ
28 音声パワー計算部
29 音声パワー平均化部
30 特性同定部
31 可変ゲイン部
40 別の汎用CPU
10 General-purpose CPU
10a to 10d Application processed on general-
Claims (18)
マルチプロセスの1つのプロセスとして音声データ発生部が出力する音声データ列に前記ゲインを乗算してスピーカ側に出力すると共に、マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む第1ステップ、
前記音声データ列のスピーカ側への入力開始時刻と入力終了時刻を監視し、かつ、前記マイクより取り込んだ所定長の音声データ列の取り込み開始時刻と取り込み終了時刻を監視する第2ステップ、
前記各時刻を用いて前記マイクより取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか否か判定する第3ステップ、
前記騒音区間の音声データ列を用いて騒音パワーを検出する第4ステップ、
を備えたことを特徴とする音声明瞭度改善方法。 In the speech intelligibility improving method for controlling the gain of the audio signal using the noise power in the noise interval and the audio power in the non-noise interval as a noise interval in the interval where the audio signal is not output,
As a multi-process, the audio data sequence output from the audio data generation unit is multiplied by the gain and output to the speaker side, and the audio signal detected by the microphone is converted into digital data and captured in units of a predetermined length. First step,
A second step of monitoring an input start time and an input end time to the speaker side of the audio data sequence, and monitoring an acquisition start time and an acquisition end time of a predetermined length of audio data sequence acquired from the microphone;
A third step of determining whether or not the audio data string of a predetermined length captured from the microphone using each time is an audio data string of a noise section;
A fourth step of detecting noise power using the audio data string of the noise section;
A method for improving speech intelligibility, comprising:
前記騒音パワーと前記音声パワーを用いて前記音声データ列に乗算するゲインを決定する第6ステップ、
を備えたことを特徴とする請求項1記載の音声明瞭度改善方法。 A fifth step of detecting voice power based on a voice data sequence output by the voice data generator when not in the noise section;
A sixth step of determining a gain by which the sound data string is multiplied using the noise power and the sound power;
The method for improving speech intelligibility according to claim 1.
該音声データ列の前記サウンドドライバへの入力を開始した時刻を前記入力開始時刻として保存するステップ、
前記サウンドドライバによる前記スピーカへの最後の音声データ列の入力を終了した時刻を前記入力終了時刻として保存するステップ、
を備えたことを特徴とする請求項1または2記載の音声明瞭度改善方法。 When the audio data string output by the audio data generation unit is input to the speaker via a sound driver, the second step includes:
Storing the time when the input of the audio data string to the sound driver is started as the input start time;
Storing the time when the input of the last audio data string to the speaker by the sound driver is ended as the input end time;
The speech intelligibility improving method according to claim 1 or 2, further comprising:
前記マイクより取り込んだ音声データ列を所定容量のバッファに保存すると共に取り込み開始時刻を保存するステップ、
該バッファが満杯になったとき保存した全音声データ列と前記取り込み開始時刻を出力するステップ、
を備えたことを特徴とする請求項1または2記載の音声明瞭度改善方法。 The second step includes
Storing the audio data sequence captured from the microphone in a buffer of a predetermined capacity and storing the capture start time;
Outputting the entire audio data sequence stored when the buffer is full and the capture start time;
The speech intelligibility improving method according to claim 1 or 2, further comprising:
を備えたことを特徴とする請求項4記載の音声明瞭度改善方法。 The third step is a step of obtaining the capture end time by adding a certain time according to the capacity of the buffer to the output capture start time,
The speech intelligibility improving method according to claim 4, further comprising:
前記マイクより取り込んだ音声データ列を所定容量のバッファに保存すると共に該バッファが満杯になったとき、該時刻を取り込み終了時刻として保存するステップ、
保存した全音声データと前記取り込み終了時刻を出力するステップ、
を備えたことを特徴とする請求項1または2記載の音声明瞭度改善方法。 The second step includes
Storing the audio data sequence captured from the microphone in a buffer having a predetermined capacity and storing the time as an end time when the buffer is full;
Outputting all stored audio data and the capture end time;
The speech intelligibility improving method according to claim 1 or 2, further comprising:
を備えたことを特徴とする請求項6記載の音声明瞭度改善方法。 The third step is a step of subtracting a certain time according to the capacity of the buffer from the output capture end time to obtain the capture start time;
The method for improving speech intelligibility according to claim 6.
前記入力開始時刻RGtime-Sと前記取り込み終了時刻MICtime-Eを比較するステップ、
前記入力終了時刻RGtime-Eと前記取り込み開始時刻MICtime-Sを比較するステップ、
前記取り込み終了時刻MICtime-Eが前記最新の入力開始時刻RGtime-Sより古い時刻であるか、または前記最新の入力終了時刻RGtime-Eが前記最新の取り込み開始時刻MICtime-Sより古い時刻であれば前記所定長の音声データ列は前記騒音区間の音声データ列であると判定するステップ、
を有することを特徴とする請求項1または2記載の音声明瞭度改善方法。 When the latest input start time is RGtime-S, the latest input end time is RGtime-E, the latest capture start time is MICtime-S, and the latest capture end time is MICtime-E.
Comparing the input start time RGtime-S and the capture end time MICtime-E;
Comparing the input end time RGtime-E and the capture start time MICtime-S;
If the capture end time MICtime-E is older than the latest input start time RGtime-S, or the latest input end time RGtime-E is older than the latest capture start time MICtime-S Determining that the audio data string of the predetermined length is an audio data string of the noise section;
The speech intelligibility improving method according to claim 1 or 2, characterized by comprising:
音声データ列を発生する音声データ発生部と、
入力された音声データをアナログデータに変換してスピーカへ出力する音声信号出力部と、
マイクにより検出された音声信号をディジタルデータに変換して所定長単位で取り込む音声データ取り込み部と、
前記音声データ列の前記音声信号出力部への入力開始時刻と入力終了時刻と、前記音声データ取り込み部における所定長の音声データ列の取り込み開始時刻と所定長の音声データ列の取り込み終了時刻を監視する時刻監視部と、
前記各時刻を用いて前記音声データ取り込み部により取り込んだ所定長の音声データ列が騒音区間の音声データ列であるか判定する騒音区間判定部と、
前記音声データ取り込み部により取り込まれた前記騒音区間の音声データ列を用いて騒音パワーを検出する騒音パワー検出部と、
前記騒音パワーを用いて、前記出力する音声データ列に乗算するゲインを算出する補正値算出部と、
前記算出したゲインを前記音声データ発生部が発生する音声データ列に乗算して前記音声信号出力部に入力する補正部と、
を備えたことを特徴とする音声明瞭度改善システム。 In a speech intelligibility improving system that controls a gain of a speech signal using a noise power in a noise zone and a voice power in a non-noise zone as a noise zone where a voice signal is not output.
An audio data generator for generating an audio data sequence;
An audio signal output unit that converts the input audio data into analog data and outputs the analog data; and
An audio data capturing unit that converts an audio signal detected by a microphone into digital data and captures the data in units of a predetermined length;
Monitor the input start time and input end time of the audio data sequence to the audio signal output unit, the acquisition start time of the audio data sequence of a predetermined length and the acquisition end time of the audio data sequence of a predetermined length in the audio data acquisition unit A time monitoring unit to
A noise section determination unit that determines whether the predetermined length of the voice data sequence captured by the voice data capturing unit using each time is a noise section voice data sequence;
A noise power detection unit for detecting noise power using a voice data string of the noise section captured by the voice data capturing unit;
Using the noise power, a correction value calculation unit for calculating a gain to be multiplied with the output audio data string;
A correction unit that multiplies the calculated gain by the audio data sequence generated by the audio data generation unit and inputs the multiplication to the audio signal output unit;
A speech intelligibility improvement system characterized by comprising:
前記補正値算出部は前記騒音パワーと前記音声パワーを用いて前記音声データ列に乗算するゲインを決定すること、
を特徴とする請求項9記載の音声明瞭度改善システム。 A voice power detector that detects voice power based on a voice data sequence output by the voice data generator when not in the noise section;
The correction value calculating unit determines a gain by which the audio data string is multiplied using the noise power and the audio power;
The speech intelligibility improvement system according to claim 9.
を特徴とする請求項9または10記載の音声明瞭度改善システム。 The time monitoring unit finishes inputting the last audio data sequence to the audio signal output unit, with the time when the audio data sequence output from the correction unit started to be input to the audio signal output unit as the input start time. Storing the time as the input end time;
The speech intelligibility improvement system according to claim 9 or 10.
前記時刻監視部は、前記音声データ保存部が満杯になったときに保存した全音声データ列と、前記所定長の音声データ列の取り込み開始時刻と、を前記騒音区間判定部へ出力する、
ことを特徴とする請求項9または10記載の音声明瞭度改善システム。 Furthermore, the audio data storage unit of the predetermined length that stores the audio data sequence captured by the audio data capturing unit,
The time monitoring unit outputs to the noise section determination unit the entire audio data sequence stored when the audio data storage unit is full and the start time of capturing the audio data sequence of the predetermined length.
The speech intelligibility improvement system according to claim 9 or 10.
ことを特徴とする請求項12記載の音声明瞭度改善システム。 The noise section determination unit obtains the capture end time by adding a certain time according to the capacity of the audio data storage unit to the capture start time.
The speech intelligibility improvement system according to claim 12.
前記時刻監視部は、前記音声データ保存部が満杯になったときに保存した全音声データ列と、前記取り込み終了時刻と、を前記騒音区間判定部へ出力する、
ことを特徴とする請求項9または10記載の音声明瞭度改善システム。 Furthermore, the audio data storage unit of the predetermined length that stores the audio data sequence captured by the audio data capturing unit,
The time monitoring unit outputs the entire audio data sequence stored when the audio data storage unit is full and the capture end time to the noise section determination unit.
The speech intelligibility improvement system according to claim 9 or 10.
ことを特徴とする請求項14記載の音声明瞭度改善システム。 The noise section determination unit obtains the capture start time by subtracting a certain time according to the capacity of the audio data storage unit from the capture end time.
The speech intelligibility improvement system according to claim 14.
前記騒音区間判定部は、前記入力開始時刻RGtime-Sと前記取り込み終了時刻MICtime-Eを比較し、前記最新の入力終了時刻RGtime-Eと前記最新の取り込み開始時刻MICtime-Sを比較し、前記取り込み終了時刻MICtime-Eが前記最新の入力開始時刻RGtime-Sより古い時刻でああるか、または前記最新の入力終了時刻RGtime-Eが前記最新の取り込み開始時刻MICtime-Sより古い時刻であれば、前記所定長の音声データ列が前記騒音区間の音声データ列であると判定する、
ことを特徴とする請求項9または10記載の音声明瞭度改善システム。 When the latest input start time is RGtime-S, the latest input end time is RGtime-E, the latest capture start time is MICtime-S, and the latest capture end time is MICtime-S.
The noise section determination unit compares the input start time RGtime-S and the capture end time MICtime-E, compares the latest input end time RGtime-E and the latest capture start time MICtime-S, and If the capture end time MICtime-E is older than the latest input start time RGtime-S, or the latest input end time RGtime-E is older than the latest capture start time MICtime-S , Determining that the audio data string of the predetermined length is an audio data string of the noise section,
The speech intelligibility improvement system according to claim 9 or 10.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008275277A JP5339849B2 (en) | 2008-10-27 | 2008-10-27 | Speech intelligibility improving method and speech intelligibility improving system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008275277A JP5339849B2 (en) | 2008-10-27 | 2008-10-27 | Speech intelligibility improving method and speech intelligibility improving system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102223A JP2010102223A (en) | 2010-05-06 |
JP5339849B2 true JP5339849B2 (en) | 2013-11-13 |
Family
ID=42292904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008275277A Expired - Fee Related JP5339849B2 (en) | 2008-10-27 | 2008-10-27 | Speech intelligibility improving method and speech intelligibility improving system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5339849B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9934780B2 (en) | 2012-01-17 | 2018-04-03 | GM Global Technology Operations LLC | Method and system for using sound related vehicle information to enhance spoken dialogue by modifying dialogue's prompt pitch |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6146635U (en) * | 1984-08-25 | 1986-03-28 | 日本信号株式会社 | voice guidance device |
JPH08317497A (en) * | 1995-05-17 | 1996-11-29 | Kiyoshi Kawachi | Voice guidance device |
JP4313294B2 (en) * | 2004-12-14 | 2009-08-12 | アルパイン株式会社 | Audio output device |
JP4953767B2 (en) * | 2006-11-02 | 2012-06-13 | アルパイン株式会社 | Speech generator |
-
2008
- 2008-10-27 JP JP2008275277A patent/JP5339849B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010102223A (en) | 2010-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5219522B2 (en) | Speech intelligibility improvement system and speech intelligibility improvement method | |
JP5092974B2 (en) | Transfer characteristic estimating apparatus, noise suppressing apparatus, transfer characteristic estimating method, and computer program | |
JP4854630B2 (en) | Sound processing apparatus, gain control apparatus, gain control method, and computer program | |
EP2773137B1 (en) | Microphone sensitivity difference correction device | |
US20120057722A1 (en) | Noise removing apparatus and noise removing method | |
US8509451B2 (en) | Noise suppressing device, noise suppressing controller, noise suppressing method and recording medium | |
WO2010131470A1 (en) | Gain control apparatus and gain control method, and voice output apparatus | |
US9959886B2 (en) | Spectral comb voice activity detection | |
JP6668995B2 (en) | Noise suppression device, noise suppression method, and computer program for noise suppression | |
WO2010058804A1 (en) | Noise gate, sound collection device, and noise removal method | |
JP6135106B2 (en) | Speech enhancement device, speech enhancement method, and computer program for speech enhancement | |
JP6878776B2 (en) | Noise suppression device, noise suppression method and computer program for noise suppression | |
JP5339849B2 (en) | Speech intelligibility improving method and speech intelligibility improving system | |
JP6844149B2 (en) | Gain adjuster and gain adjustment program | |
JP4187615B2 (en) | Output sound correction device | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
JP2008070877A (en) | Voice signal pre-processing device, voice signal processing device, voice signal pre-processing method and program for voice signal pre-processing | |
JP2005157086A (en) | Speech recognition device | |
JP7257834B2 (en) | Speech processing device, speech processing method, and speech processing system | |
JP4527654B2 (en) | Voice communication device | |
JP2007264132A (en) | Voice detection device and its method | |
JPH06334457A (en) | Automatic sound volume controller | |
JP6079179B2 (en) | Hands-free call device | |
CN115691532A (en) | Wind noise pollution range estimation method, wind noise pollution range suppression device, medium and terminal | |
JP2023077339A (en) | Imaging device, control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130718 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130806 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130806 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5339849 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130912 |
|
LAPS | Cancellation because of no payment of annual fees |