JP4745837B2 - Acoustic analysis apparatus, computer program, and speech recognition system - Google Patents
Acoustic analysis apparatus, computer program, and speech recognition system Download PDFInfo
- Publication number
- JP4745837B2 JP4745837B2 JP2006016172A JP2006016172A JP4745837B2 JP 4745837 B2 JP4745837 B2 JP 4745837B2 JP 2006016172 A JP2006016172 A JP 2006016172A JP 2006016172 A JP2006016172 A JP 2006016172A JP 4745837 B2 JP4745837 B2 JP 4745837B2
- Authority
- JP
- Japan
- Prior art keywords
- input signal
- noise
- acoustic
- acoustic feature
- suppressed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、音声認識用の音響分析装置及びコンピュータプログラム、音声認識システムに関する。 The present invention relates to an acoustic analyzer for speech recognition, a computer program, and a speech recognition system.
近年、音声認識により情報提供を行うサービスシステムが普及してきている。その音声認識システムの音声認識性能は、音声入力用マイクの周辺の背景雑音が大きい環境において著しく劣化する。そのために背景雑音による性能劣化を抑えるための雑音抑圧手法が従来より提案されている。一般的な雑音抑圧手法では、入力信号から雑音成分を推定し、その推定結果に基づいて入力信号から雑音成分を除去しているが、雑音は常に変動しているために、雑音抑圧後の音声が不自然に聞こえる場合がある。これを音声の歪みとよぶ。音声の歪みは音声認識システムの音声認識性能に悪影響を与える。このため例えば特許文献1記載の従来技術では、信号対雑音比(SNR)が低い場合には雑音区間の推定が難しいので雑音抑圧を停止し、SNRが高い場合にのみ雑音抑圧を行うようにしている。
In recent years, service systems that provide information by voice recognition have become widespread. The voice recognition performance of the voice recognition system is significantly deteriorated in an environment where the background noise around the voice input microphone is large. For this reason, a noise suppression method for suppressing performance degradation due to background noise has been proposed. In general noise suppression methods, the noise component is estimated from the input signal, and the noise component is removed from the input signal based on the estimation result. However, since the noise always fluctuates, May sound unnatural. This is called audio distortion. Speech distortion adversely affects the speech recognition performance of the speech recognition system. For this reason, for example, in the conventional technique described in
また、サーバ・クライアント型の音声認識システムにおける通信量削減のための分散型音声認識(DSR)用の符号化方式として、欧州電気通信標準化機構(European Telecommunications Standards institute:ETSI)により、雑音抑圧のない符号化方式(ES201108)と、雑音抑圧付きの符号化方式(ES202050)とが規格化されている。
通常、音声認識システムにおいては、音声入力用マイクの周辺の背景雑音が大きいときには、雑音抑圧の適用により、音声認識性能は向上する。しかしながら、背景雑音が小さいときに雑音抑圧を適用すると、かえって音声認識性能が低下する場合がある。 Usually, in a speech recognition system, when background noise around the speech input microphone is large, speech recognition performance is improved by applying noise suppression. However, if noise suppression is applied when the background noise is small, the speech recognition performance may be degraded.
また、雑音抑圧付きの符号化方式(ES202050)は、SNRが低いときには、雑音抑圧の効果により、雑音抑圧のない符号化方式(ES201108)よりも音声認識性能が向上する。しかしながら、SNRが高いときには、雑音抑圧の影響により、かえって雑音抑圧のない符号化方式(ES201108)よりも音声認識性能が悪くなる。 Also, the coding method with noise suppression (ES202050) improves speech recognition performance when compared with the coding method without noise suppression (ES201108) due to the effect of noise suppression when the SNR is low. However, when the SNR is high, the speech recognition performance is worse than that of the encoding method without noise suppression (ES201108) due to the effect of noise suppression.
したがって、上述した特許文献1記載の従来技術のように、雑音区間の推定が難しいという理由から、SNRの低い場合には雑音抑圧を行わず、SNRの高い場合にのみ雑音抑圧を行うというのは、音声認識性能の向上という観点からは好ましくない。
Therefore, as in the prior art described in
本発明は、このような事情を考慮してなされたもので、その目的は、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けることができるようにすることにより、音声認識性能の向上を図ることのできる音響分析装置及び音声認識システムを提供することにある。 The present invention has been made in view of such circumstances, and its purpose is to enable effective use of acoustic feature extraction with noise suppression and acoustic feature extraction without noise suppression. Accordingly, an object of the present invention is to provide an acoustic analysis apparatus and a speech recognition system that can improve speech recognition performance.
また、本発明の他の目的は、本発明の音響分析装置をコンピュータを利用して実現するためのコンピュータプログラムを提供することにある。 Another object of the present invention is to provide a computer program for realizing the acoustic analysis apparatus of the present invention using a computer.
上記の課題を解決するために、本発明に係る音響分析装置は、音声認識用の音響分析装置において、話者に発声を促すタイミングに基づき、音声入力手段からの入力信号の中から発声区間の前記入力信号と非発声区間の前記入力信号とを区別して記憶するバッファ手段と、前記バッファ手段に記憶されている非発声区間の前記入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定手段と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧手段と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析手段と、を備え、前記分析手段は、背景雑音の大きさが所定レベル以上である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする。 In order to solve the above-described problem, an acoustic analysis device according to the present invention is a speech recognition acoustic analysis device, in which an utterance section is selected from input signals from speech input means based on a timing for prompting a speaker to speak. Buffer means for distinguishing and storing the input signal and the input signal in the non-speech section , and the background noise is a predetermined level or more based on the input signal in the non-speech section stored in the buffer means From the input signal whose noise component is suppressed by the noise suppression unit according to a determination result of the determination unit, a noise suppression unit that suppresses a noise component included in the input signal, , from the input signal a noise component is not suppressed, comprising an analyzing means for extracting acoustic features, wherein the analysis means, the magnitude of the background noise is at a predetermined level or higher The case was extracted acoustic features from said input signal from which a noise component has been suppressed by the noise suppression means, to extract acoustic features from the input signal a noise component is not suppressed in other cases Features.
本発明に係る音響分析装置は、音声認識用の音響分析装置において、音声入力手段からの入力信号に基づき、信号対雑音比が所定レベル未満であるか判定する判定手段と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧手段と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析手段と、を備えたことを特徴とする。 The acoustic analysis device according to the present invention includes a determination unit that determines whether a signal-to-noise ratio is less than a predetermined level based on an input signal from the voice input unit in the acoustic analysis device for voice recognition, From the input signal in which the noise component is suppressed by the noise suppression unit or from the input signal in which the noise component is not suppressed, according to the determination result of the determination unit And an analysis means for extracting an acoustic feature quantity.
本発明に係る音響分析装置においては、前記分析手段は、信号対雑音比が所定レベル未満である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする。 In the acoustic analysis apparatus according to the present invention, when the signal-to-noise ratio is less than a predetermined level, the analysis unit extracts an acoustic feature amount from the input signal in which a noise component is suppressed by the noise suppression unit, In other cases, an acoustic feature is extracted from the input signal in which noise components are not suppressed.
本発明に係る音響分析装置においては、前記分析手段は、雑音成分が抑圧された前記入力信号から音響特徴量を抽出するときに専用の第1の音響特徴量抽出演算手段と、雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出するときに専用の第2の音響特徴量抽出演算手段と、を有することを特徴とする。 In the acoustic analysis apparatus according to the present invention, the analysis unit includes a first acoustic feature quantity extraction calculation unit dedicated for extracting an acoustic feature quantity from the input signal in which the noise component is suppressed, and the noise component is suppressed. And a second acoustic feature amount extraction calculation unit dedicated for extracting the acoustic feature amount from the input signal that has not been performed.
本発明に係る音響分析装置においては、話者に発声を促すタイミングに基づき、発声区間の前記入力信号と非発声区間の前記入力信号とを区別して記憶するバッファ手段を備えたことを特徴とする。 The acoustic analysis apparatus according to the present invention is characterized by comprising buffer means for distinguishing and storing the input signal in the utterance interval and the input signal in the non-utterance interval based on the timing of prompting the speaker to speak. .
本発明に係る音声認識システムは、前述の音響分析装置を備えたことを特徴とする。 A speech recognition system according to the present invention includes the above-described acoustic analyzer.
本発明に係る音声認識システムは、音声認識サーバ装置と通信回線を介して接続されるクライアント装置に、前述の音響分析装置を備えたことを特徴とする。 The speech recognition system according to the present invention is characterized in that the above-described acoustic analysis device is provided in a client device connected to a speech recognition server device via a communication line.
本発明に係るコンピュータプログラムは、音声認識用の音響分析を行うためのコンピュータプログラムであって、話者に発声を促すタイミングに基づき、音声入力手段からの入力信号の中から発声区間の前記入力信号と非発声区間の前記入力信号とを区別してバッファ手段に記憶させる切替制御機能と、前記バッファ手段に記憶されている非発声区間の前記入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定機能と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧機能と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析機能と、をコンピュータに実現させるコンピュータプログラムであり、前記分析機能は、背景雑音の大きさが所定レベル以上である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする。
A computer program according to the present invention is a computer program for performing acoustic analysis for speech recognition, and is based on the timing for prompting a speaker to speak, the input signal in the utterance section among the input signals from the speech input means And a switching control function for distinguishing and storing the input signal in the non-speech section in the buffer means and the input signal in the non-speech section stored in the buffer means with a background noise level of a predetermined level or higher A determination function for determining whether there is a noise suppression function for suppressing a noise component included in the input signal, and according to a determination result of the determination unit, from the input signal in which the noise component is suppressed by the noise suppression unit, or, from the input signal a noise component is not suppressed, computer to realize an analysis function for extracting acoustic features, to the computer The analysis function extracts an acoustic feature amount from the input signal in which a noise component is suppressed by the noise suppression unit when the magnitude of background noise is a predetermined level or more, and otherwise Is characterized in that an acoustic feature is extracted from the input signal in which noise components are not suppressed .
本発明に係るコンピュータプログラムは、音声認識用の音響分析を行うためのコンピュータプログラムであって、音声入力手段からの入力信号に基づき、信号対雑音比が所定レベル未満であるか判定する判定機能と、前記入力信号に含まれる雑音成分を抑圧する雑音抑圧機能と、前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析機能と、をコンピュータに実現させることを特徴とする。
これにより、前述の音響分析装置がコンピュータを利用して実現できるようになる。
A computer program according to the present invention is a computer program for performing acoustic analysis for speech recognition, and a determination function for determining whether a signal-to-noise ratio is less than a predetermined level based on an input signal from a speech input means; A noise suppression function for suppressing a noise component included in the input signal, and the noise component is suppressed from the input signal in which the noise component is suppressed by the noise suppression unit according to a determination result of the determination unit And an analysis function for extracting an acoustic feature amount from the input signal that is not received.
Thereby, the above-described acoustic analyzer can be realized by using a computer.
本発明によれば、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識システムの音声認識性能を向上させることが可能になる。 According to the present invention, it is possible to effectively use acoustic feature extraction with noise suppression and acoustic feature extraction without noise suppression. Thereby, it becomes possible to improve the speech recognition performance of the speech recognition system.
以下、図面を参照し、本発明の各実施形態について説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施形態]
図1は、本発明の第1の実施形態に係る音響分析装置1の構成を示すブロック図である。図1において、音響分析装置1は、切替部11、背景雑音バッファ12、入力音声バッファ13、切替制御部14、判定部15、雑音抑圧部16、音響特徴量抽出部17a、17b、及び切替部18−1、18−2を有する。
[First Embodiment]
FIG. 1 is a block diagram showing a configuration of an
音響分析装置1には、マイク入力信号が入力される。マイク入力信号は、話者が発声した音声を入力するためのマイクにより入力される信号である。マイク入力信号には、話者の音声とともにマイクで集音された背景雑音が含まれる。
A microphone input signal is input to the
また、音響分析装置1には、発声指示タイミング信号が入力される。発声指示タイミング信号は、話者に対して音声認識入力用の音声の発声を促すタイミングを示す信号である。発声指示タイミング信号が示すタイミングの後に(具体的には数百ミリ秒後に)、話者に対して発声を促す例えば画面表示、電子音出力等が行われる。話者はその画面表示、電子音出力等に従って発声する。
Also, the
切替部11は、マイク入力信号を記憶するバッファの切り替えを行う。背景雑音バッファ12は、話者の音声を含まないマイク入力信号を記憶するためのバッファである。入力音声バッファ13は、話者の音声を含むマイク入力信号を記憶するためのバッファである。
The
切替制御部14は、発声指示タイミング信号に基づき、切替部11の制御を行う。切替制御部14は、発声指示タイミング信号が入力されると、先ず、切替部11に対して、マイク入力信号の出力先を背景雑音バッファ12に切り替えるように指示する。次いで、その発声指示タイミング信号が示すタイミングの後に(具体的には数百ミリ秒後であり、この時点で話者に対して発声を促す画面表示等が行われる)、マイク入力信号の出力先を入力音声バッファ13に切り替えるように指示する。これにより、まだ話者が発声していないときの発声前のマイク入力信号は背景雑音バッファ12に記憶され、その後、話者に対して発声を促す画面表示等が行われてからの話者が発声した音声を含むマイク入力信号は入力音声バッファ13に記憶される。この結果、背景雑音バッファ12には、話者の音声を含まない背景雑音のみのマイク入力信号が記憶されることになる。なお、切替制御部14は、話者の発声終了のタイミングに応じて、切替部11に入力音声バッファ13への出力を停止するように指示する。話者の発声終了のタイミングとしては、例えば、マイク入力信号が背景雑音に基づいた所定レベル以下になり数百ミリ秒〜数秒間経過した時点、所定時間のタイムアウト時点などが挙げられる。
The
本実施形態では、音声認識システムに特有の「話者に発声を促すタイミング」を雑音区間の判別に活用することを着想し、雑音区間と非雑音区間とを区別してマイク入力信号をそれぞれ別のバッファに記憶するように構成している。つまり、話者に発声を促すタイミングに基づき、非発声区間のマイク入力信号については背景雑音バッファ12に記憶し、発声区間のマイク入力信号については入力音声バッファ13に記憶する。これにより、SNRの低い場合においても、雑音区間と非雑音区間とを判別し、雑音区間のマイク入力信号については背景雑音バッファ12に、非雑音区間のマイク入力信号についてはマイク入力信号に、それぞれ記憶することができる。
In this embodiment, it is conceived that “timing to utter a speaker” peculiar to a speech recognition system is used for discrimination of a noise interval, and a microphone input signal is distinguished from each other by distinguishing a noise interval from a non-noise interval. It is configured to store in a buffer. That is, based on the timing of prompting the speaker to speak, the microphone input signal in the non-speech section is stored in the
判定部15は、背景雑音バッファ12に記憶されているマイク入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する。この判定処理では、背景雑音バッファ12に記憶されているマイク入力信号の電力レベルを背景雑音レベルとして算出し、この算出した背景雑音レベルを所定レベルと比較する。判定部15は、この比較結果を切替部18−1、18−2に出力する。
Based on the microphone input signal stored in the
上記判定部15が判定に用いる背景雑音バッファ12には非発声区間のマイク入力信号が入力されている。これにより、話者の音声を含まない非発声区間のマイク入力信号に基づいて背景雑音の大きさの判定が行われるので、その判定精度はよい。
The
切替部18−1、18−2は、判定部15の比較結果に応じて、入出力接続の切替を連動して行う。つまり、切替部18−1が入力音声バッファ13の出力と音響特徴量抽出部17aの入力とを接続するときには、切替部18−2は音響特徴量抽出部17aの出力を自己の出力とする。一方、切替部18−1が入力音声バッファ13の出力と雑音抑圧部16の入力とを接続するときには、切替部18−2は音響特徴量抽出部17bの出力を自己の出力とする。また、音響特徴量抽出部17aと、雑音抑圧部16及び音響特徴量抽出部17bの組とは、切替部18−1、18−2により選択されている一方のみが動作する。
The switching units 18-1 and 18-2 perform input / output connection switching in conjunction with each other according to the comparison result of the
音響特徴量抽出部17aは、入力音声バッファ13からマイク入力信号を読み出し、読み出したマイク入力信号から音響特徴量を抽出する演算を行なう。この音響特徴量抽出部17aとしては、例えばETSI規格の雑音抑圧のない符号化方式(ES201108)が利用できる。音響特徴量抽出部17aは、抽出結果の音響特徴量を切替部18−2に出力する。
The acoustic feature
雑音抑圧部16は、入力音声バッファ13からマイク入力信号を読み出し、読み出したマイク入力信号から雑音成分を抑圧する。この雑音抑圧後のマイク入力信号は、音響特徴量抽出部17bに出力される。
The
音響特徴量抽出部17bは、雑音抑圧部16から入力される雑音抑圧後のマイク入力信号から音響特徴量を抽出する演算を行なう。この音響特徴量抽出部17bとしては、例えばETSI規格の雑音抑圧付きの符号化方式(ES202050)が利用できる。なお、ETSIでは、雑音抑圧及び符号化方式の両方を「ES202050」で規格化している。音響特徴量抽出部17bは、抽出結果の音響特徴量を切替部18−2に出力する。
The acoustic feature
切替部18−2は、判定部15の判定結果に応じて、音響特徴量抽出部17aからの音声特徴量を出力するか、若しくは、音響特徴量抽出部17bからの音声特徴量を出力するか、を切り替える(このとき切替部18−1も連動して入力音声バッファ13の出力の接続先を切り替える)。この切替では、背景雑音の大きさが所定レベル以上である場合には、音響特徴量抽出部17bで抽出された音声特徴量、つまり、雑音成分が抑圧されたマイク入力信号から抽出された音響特徴量を出力する。それ以外の場合、つまり背景雑音の大きさが所定レベル未満である場合には、音響特徴量抽出部17aで抽出された音声特徴量、つまり、雑音成分が抑圧されていないマイク入力信号から抽出された音響特徴量を出力する。切替部18−2から出力された音響特徴量は、本音響分析装置1の出力として音声認識処理に用いられる。
Whether the switching unit 18-2 outputs the audio feature amount from the acoustic feature
これにより、マイク周辺の背景雑音が大きいときには、雑音抑圧を適用して抽出された音響特徴量を用いることにより、音声認識性能を向上させることができる。一方、背景雑音が小さいときには、雑音抑圧を適用せずに抽出された音響特徴量を用いることにより、音声認識性能の低下を回避することができる。このように本実施形態によれば、背景雑音レベルに応じて、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識性能の向上に寄与することが可能になる。 Thereby, when the background noise around the microphone is large, the speech recognition performance can be improved by using the acoustic feature amount extracted by applying the noise suppression. On the other hand, when the background noise is small, a decrease in speech recognition performance can be avoided by using the acoustic feature amount extracted without applying noise suppression. As described above, according to this embodiment, it is possible to effectively use acoustic feature extraction with noise suppression and acoustic feature extraction without noise suppression according to the background noise level. Thereby, it becomes possible to contribute to the improvement of voice recognition performance.
[第2の実施形態]
図2は、本発明の第2の実施形態に係る音響分析装置1の構成を示すブロック図である。この図2において図1の各部に対応する部分には同一の符号を付け、その説明を省略する。
第2の実施形態では、信号対雑音比(SNR)に基づいて、雑音抑圧ありの音響特徴量抽出を行うか、若しくは、雑音抑圧なしの音響特徴量抽出を行うか、を判定する。
[Second Embodiment]
FIG. 2 is a block diagram showing a configuration of the
In the second embodiment, it is determined based on the signal-to-noise ratio (SNR) whether to perform acoustic feature extraction with noise suppression or acoustic feature extraction without noise suppression.
図2において、判定部15aは、背景雑音バッファ12に記憶されているマイク入力信号と、入力音声バッファ13に記憶されているマイク入力信号とに基づき、SNRが所定レベル未満であるか判定する。この判定処理では、入力音声バッファ13に記憶されているマイク入力信号の電力レベルを信号レベルとして算出し、背景雑音バッファ12に記憶されているマイク入力信号の電力レベルを雑音レベルとして算出し、それら信号レベルと雑音レベルからSNRを算出する。そして、その算出したSNRを所定レベルと比較する。判定部15aは、この比較結果を切替部18a−1、18a−2に出力する。
In FIG. 2, the determination unit 15 a determines whether the SNR is less than a predetermined level based on the microphone input signal stored in the
上記判定部15aが判定に用いる背景雑音バッファ12には非発声区間のマイク入力信号が入力されており、また、入力音声バッファ13には発声区間のマイク入力信号が入力されている。これにより、話者の音声を含まない非発声区間のマイク入力信号から雑音レベルを算出し、話者の音声を含む発声区間のマイク入力信号から信号レベルを算出することができるので、判定対象のSNRは精度よく算出され、その結果、SNRの判定精度はよいものとなる。
The
切替部18a−1、18a−2は、図1の切替部18−1、18−2と同様に、判定部15aの比較結果に応じて、入出力接続の切替を連動して行う。また、音響特徴量抽出部17aと、雑音抑圧部16及び音響特徴量抽出部17bの組とは、切替部18a−1、18a−2により選択されている一方のみが動作する。
Similarly to the switching units 18-1 and 18-2 in FIG. 1, the switching
切替部18a−2は、判定部15aの判定結果に応じて、音響特徴量抽出部17aからの音声特徴量を出力するか、若しくは、音響特徴量抽出部17bからの音声特徴量を出力するか、を切り替える(このとき切替部18a−1も連動して入力音声バッファ13の出力の接続先を切り替える)。この切替では、SNRが所定レベル未満である場合には音響特徴量抽出部17bで抽出された音声特徴量、つまり、雑音成分が抑圧されたマイク入力信号から抽出された音響特徴量を出力する。それ以外の場合、つまりSNRが所定レベル以上である場合には、音響特徴量抽出部17aで抽出された音声特徴量、つまり、雑音成分が抑圧されていないマイク入力信号から抽出された音響特徴量を出力する。切替部18a−2から出力された音響特徴量は、本音響分析装置1の出力として音声認識処理に用いられる。
Whether the
これにより、SNRが低いときには、雑音抑圧を適用して抽出された音響特徴量を用いることにより、音声認識性能を向上させることができる。一方、SNRが高いときには、雑音抑圧を適用せずに抽出された音響特徴量を用いることにより、音声認識性能の低下を回避することができる。このように本実施形態によれば、SNRに応じて、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識性能の向上に寄与することが可能になる。 Thereby, when the SNR is low, the speech recognition performance can be improved by using the acoustic feature amount extracted by applying noise suppression. On the other hand, when the SNR is high, a decrease in speech recognition performance can be avoided by using the extracted acoustic feature amount without applying noise suppression. As described above, according to the present embodiment, it is possible to effectively use the acoustic feature extraction with noise suppression and the acoustic feature extraction without noise suppression according to the SNR. Thereby, it becomes possible to contribute to the improvement of voice recognition performance.
次に、上述した各実施形態に係る音響分析装置1を適用した音声認識システムの実施例を説明する。
Next, an example of a speech recognition system to which the
図3は、本発明に係る音響分析装置1を適用した音声認識システムの一実施例である。図3に示される実施例1では、音声認識システムを単独の装置で実現している。
FIG. 3 shows an embodiment of a speech recognition system to which the
図3において、音声認識装置100は、本発明に係る音響分析装置1と、マイク101と、音声認識部102と、制御部103と、表示部104とを有する。マイク101から入力されたマイク入力信号は音響分析装置1に入力される。音響分析装置1は、そのマイク入力信号から音声特徴量を抽出し、抽出した音声特徴量を音声認識部102に出力する。音声認識部102は、その音声特徴量に基づき、音声認識処理を行う。その音声認識結果は、制御部103に出力される。制御部103は、音声認識結果を表示部104で表示させる。
In FIG. 3, the
また、制御部103は音声認識の実行制御を行う。その実行制御では、話者に対する発声の指示を行う。例えば、表示部104でのプロンプト表示により、話者に発声の開始を合図する。そのプロンプト表示を行うタイミングは、発声指示タイミング信号により、音響分析装置1に通知される。
The
本実施例1は、携帯型、据置き型のいずれのタイプの音声認識装置にも適用可能である。 The first embodiment can be applied to any type of speech recognition apparatus of a portable type or a stationary type.
図4は、本発明に係る音響分析装置1を適用した音声認識システムの他の実施例である。この図4において図3の各部に対応する部分には同一の符号を付け、その説明を省略する。図4に示される実施例2では、サーバ・クライアント型の音声認識システムを実現している。
FIG. 4 shows another embodiment of a speech recognition system to which the
図4において、クライアント装置200は、通信部201を有し、通信回線220を介して音声認識サーバ210とデータを送受信する。通信部201は、音響分析装置1で抽出された音声特徴量を音声認識サーバ210に送信して、音声認識要求を行う。音声認識サーバ210は、その音声認識要求に応じて、クライアント装置200から送られた音声特徴量に基づき、音声認識処理を行う。その音声認識結果は、通信回線220を介してクライアント装置200に送信される。クライアント装置200では、通信部201が音声認識サーバ210からの音声認識結果を受信し、該音声認識結果を制御部に出力する。制御部103は、音声認識結果を表示部104で表示させる。
In FIG. 4, the
本実施例2は、携帯型、据置き型のいずれのタイプの音声認識装置にも適用可能であるが、特に携帯通信端末のように十分な処理能力を確保することの難しい装置に適用する場合に有用である。 The second embodiment can be applied to both a portable type and a stationary type voice recognition device, but particularly when applied to a device that is difficult to ensure sufficient processing capability such as a portable communication terminal. Useful for.
上述したように本発明の実施形態によれば、雑音抑圧ありの音響特徴量抽出と、雑音抑圧なしの音響特徴量抽出とを効果的に使い分けすることができる。これにより、音声認識システムの音声認識性能を向上させることが可能になるという優れた効果が得られる。 As described above, according to the embodiment of the present invention, it is possible to effectively use acoustic feature extraction with noise suppression and acoustic feature extraction without noise suppression. Thereby, the outstanding effect that it becomes possible to improve the voice recognition performance of a voice recognition system is acquired.
なお、図1又は図2に示す音響分析装置1の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音響分析処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものであってもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、フラッシュメモリ等の書き込み可能な不揮発性メモリ、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
Note that a program for realizing the function of the
The “computer-readable recording medium” means a flexible disk, a magneto-optical disk, a ROM, a writable nonvolatile memory such as a flash memory, a portable medium such as a CD-ROM, a hard disk built in a computer system, etc. This is a storage device.
さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(例えばDRAM(Dynamic Random Access Memory))のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Further, the “computer-readable recording medium” means a volatile memory (for example, DRAM (Dynamic DRAM) in a computer system that becomes a server or a client when a program is transmitted through a network such as the Internet or a communication line such as a telephone line. Random Access Memory)), etc., which hold programs for a certain period of time.
The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
以上、本発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design changes and the like within a scope not departing from the gist of the present invention.
1…音響分析装置、11…切替部(バッファ手段)、12…背景雑音バッファ(バッファ手段)、13…入力音声バッファ(バッファ手段)、14…切替制御部(バッファ手段)、15,15a…判定部、16…雑音抑圧部、17a、17b…音響特徴量抽出部(分析手段)、18−1〜2,18a−1〜2…切替部(分析手段)、100…音声認識装置、101…マイク(音声入力手段)、102…音声認識部、103…制御部、104…表示部、200…クライアント装置、201…通信部、210…音声認識サーバ、220…通信回線
DESCRIPTION OF
Claims (5)
話者に発声を促すタイミングに基づき、音声入力手段からの入力信号の中から発声区間の前記入力信号と非発声区間の前記入力信号とを区別して記憶するバッファ手段と、
前記バッファ手段に記憶されている非発声区間の前記入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定手段と、
前記入力信号に含まれる雑音成分を抑圧する雑音抑圧手段と、
前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析手段と、を備え、
前記分析手段は、背景雑音の大きさが所定レベル以上である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とする音響分析装置。 In an acoustic analyzer for speech recognition,
Buffer means for distinguishing and storing the input signal of the utterance section and the input signal of the non-vocal section from the input signal from the voice input means based on the timing of prompting the speaker to speak.
Determination means for determining whether the magnitude of background noise is a predetermined level or more based on the input signal of the non-speech interval stored in the buffer means ;
Noise suppression means for suppressing a noise component included in the input signal;
Analyzing means for extracting an acoustic feature quantity from the input signal in which the noise component is suppressed by the noise suppressing means or from the input signal in which the noise component is not suppressed according to the determination result of the determining means; With
The analysis unit extracts an acoustic feature amount from the input signal in which a noise component is suppressed by the noise suppression unit when the magnitude of background noise is a predetermined level or more, and in other cases, the noise component is An acoustic analysis apparatus that extracts an acoustic feature amount from the input signal that is not suppressed .
雑音成分が抑圧された前記入力信号から音響特徴量を抽出するときに専用の第1の音響特徴量抽出演算手段と、
雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出するときに専用の第2の音響特徴量抽出演算手段と、
を有することを特徴とする請求項1に記載の音響分析装置。 The analysis means includes
A first acoustic feature quantity extraction calculation unit dedicated for extracting an acoustic feature quantity from the input signal in which a noise component is suppressed;
A second acoustic feature quantity extraction calculation unit dedicated for extracting an acoustic feature quantity from the input signal in which noise components are not suppressed;
The acoustic analysis apparatus according to claim 1, comprising:
話者に発声を促すタイミングに基づき、音声入力手段からの入力信号の中から発声区間の前記入力信号と非発声区間の前記入力信号とを区別してバッファ手段に記憶させる切替制御機能と、
前記バッファ手段に記憶されている非発声区間の前記入力信号に基づき、背景雑音の大きさが所定レベル以上であるか判定する判定機能と、
前記入力信号に含まれる雑音成分を抑圧する雑音抑圧機能と、
前記判定手段の判定結果に応じて、前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から、若しくは、雑音成分が抑圧されていない前記入力信号から、音響特徴量を抽出する分析機能と、をコンピュータに実現させるコンピュータプログラムであり、
前記分析機能は、背景雑音の大きさが所定レベル以上である場合には前記雑音抑圧手段により雑音成分が抑圧された前記入力信号から音響特徴量を抽出し、それ以外の場合には雑音成分が抑圧されていない前記入力信号から音響特徴量を抽出することを特徴とするコンピュータプログラム。 A computer program for performing acoustic analysis for speech recognition,
A switching control function for distinguishing and storing the input signal of the utterance section and the input signal of the non-vocal section from the input signal from the voice input means based on the timing of prompting the speaker to speak;
A determination function for determining whether the magnitude of background noise is greater than or equal to a predetermined level based on the input signal of the non-speech interval stored in the buffer means ;
A noise suppression function for suppressing a noise component included in the input signal;
According to the determination result of the determination means, from the input signal in which the noise component is suppressed by the noise suppression means, or from the input signal in which the noise component is not suppressed, an analysis function for extracting an acoustic feature amount; Is a computer program that causes a computer to realize
The analysis function extracts an acoustic feature amount from the input signal in which a noise component is suppressed by the noise suppression unit when the magnitude of background noise is a predetermined level or more, and in other cases, the noise component is A computer program that extracts an acoustic feature from the input signal that is not suppressed .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006016172A JP4745837B2 (en) | 2006-01-25 | 2006-01-25 | Acoustic analysis apparatus, computer program, and speech recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006016172A JP4745837B2 (en) | 2006-01-25 | 2006-01-25 | Acoustic analysis apparatus, computer program, and speech recognition system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007199247A JP2007199247A (en) | 2007-08-09 |
JP4745837B2 true JP4745837B2 (en) | 2011-08-10 |
Family
ID=38453937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006016172A Expired - Fee Related JP4745837B2 (en) | 2006-01-25 | 2006-01-25 | Acoustic analysis apparatus, computer program, and speech recognition system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4745837B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015117138A1 (en) * | 2014-02-03 | 2015-08-06 | Kopin Corporation | Smart bluetooth headset for speech command |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0635497A (en) * | 1992-07-16 | 1994-02-10 | Nippon Telegr & Teleph Corp <Ntt> | Speech input device |
JP3171756B2 (en) * | 1994-08-18 | 2001-06-04 | 沖電気工業株式会社 | Noise removal device |
JP3451146B2 (en) * | 1995-02-17 | 2003-09-29 | 株式会社日立製作所 | Denoising system and method using spectral subtraction |
JP2000047697A (en) * | 1998-07-30 | 2000-02-18 | Nec Eng Ltd | Noise canceler |
JP2005130205A (en) * | 2003-10-23 | 2005-05-19 | Chugoku Electric Power Co Inc:The | Business support system and method |
JP4162604B2 (en) * | 2004-01-08 | 2008-10-08 | 株式会社東芝 | Noise suppression device and noise suppression method |
-
2006
- 2006-01-25 JP JP2006016172A patent/JP4745837B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007199247A (en) | 2007-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10586534B1 (en) | Voice-controlled device control using acoustic echo cancellation statistics | |
RU2439716C2 (en) | Detection of telephone answering machine by voice recognition | |
JP6553111B2 (en) | Speech recognition apparatus, speech recognition method and speech recognition program | |
US7848314B2 (en) | VOIP barge-in support for half-duplex DSR client on a full-duplex network | |
US8099277B2 (en) | Speech-duration detector and computer program product therefor | |
US7069221B2 (en) | Non-target barge-in detection | |
US7953590B2 (en) | Using separate recording channels for speech-to-speech translation systems | |
JP4667085B2 (en) | Spoken dialogue system, computer program, dialogue control apparatus, and spoken dialogue method | |
JP7136868B2 (en) | speaker diarization | |
US9467790B2 (en) | Reverberation estimator | |
CN110827795A (en) | Voice input end judgment method, device, equipment, system and storage medium | |
JP5411807B2 (en) | Channel integration method, channel integration apparatus, and program | |
JP2004502985A (en) | Recording device for recording voice information for subsequent offline voice recognition | |
CN110807093A (en) | Voice processing method and device and terminal equipment | |
CN113345473A (en) | Voice endpoint detection method and device, electronic equipment and storage medium | |
US8793128B2 (en) | Speech signal processing system, speech signal processing method and speech signal processing method program using noise environment and volume of an input speech signal at a time point | |
JP6549009B2 (en) | Communication terminal and speech recognition system | |
JP4745837B2 (en) | Acoustic analysis apparatus, computer program, and speech recognition system | |
JP6878776B2 (en) | Noise suppression device, noise suppression method and computer program for noise suppression | |
GB2516208B (en) | Noise reduction in voice communications | |
US20180261238A1 (en) | Confused state determination device, confused state determination method, and storage medium | |
JP2011203480A (en) | Speech recognition device and content reproduction device | |
JP2019139146A (en) | Voice recognition system and voice recognition method | |
KR100574883B1 (en) | Method for Speech Detection Using Removing Noise | |
US6601028B1 (en) | Selective merging of segments separated in response to a break in an utterance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071016 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071016 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080813 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20080814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100907 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110419 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110512 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140520 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4745837 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |