JP2003108188A - Voice recognizing device - Google Patents
Voice recognizing deviceInfo
- Publication number
- JP2003108188A JP2003108188A JP2001303696A JP2001303696A JP2003108188A JP 2003108188 A JP2003108188 A JP 2003108188A JP 2001303696 A JP2001303696 A JP 2001303696A JP 2001303696 A JP2001303696 A JP 2001303696A JP 2003108188 A JP2003108188 A JP 2003108188A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- noise
- hmm
- recognition
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、音声認識装置に関
し、特に、各種方式の符号・復号器(以下、CODEC
という)固有の非線形歪みを受けた音声でも高精度で認
識することができる音声認識装置に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice recognition device, and more particularly to a code / decoder of various systems (hereinafter, CODEC).
That is, the present invention relates to a voice recognition device capable of highly accurately recognizing even a voice that has been subjected to inherent non-linear distortion.
【0002】[0002]
【従来の技術】従来、携帯電話などにおいては、隠れマ
ルコフモデル(Hideden Markov Model、以下、HMMと
いう)を用いてビタービ探索(最尤経路探索)アルゴリ
ズムにより音声を認識する音声認識装置が採用されてい
る。2. Description of the Related Art Conventionally, in a mobile phone or the like, a voice recognition device that recognizes a voice by a Viterbi search (maximum likelihood route search) algorithm using a hidden Markov model (hereinafter referred to as HMM) has been adopted. There is.
【0003】例えば、特開平9−230886号公報に
は、入力される音声と音声HMMとの間の類似度から認
識結果を出力する音声認識方法において、実環境毎に収
録した学習音声により各種雑音に対する耐雑音音声HM
Mを作成し、この耐雑音音声HMMと入力される音声と
の間の類似度から認識結果を出力することが記載されて
いる。For example, Japanese Patent Laid-Open No. 9-230886 discloses a voice recognition method for outputting a recognition result based on the similarity between an input voice and a voice HMM, and learning noises recorded for each real environment cause various noises. Noise-resistant voice HM for
It is described that M is created and a recognition result is output from the similarity between the noise resistant speech HMM and the input speech.
【0004】また、特開2000−284792号公報
には、雑音データベースを用いた学習により外線電話、
内線電話、一般電話、デジタル携帯電話などといった電
話種毎の非音声用HMMパラメータを予め作成してお
き、この非音声用HMMパラメータを用いて音響信号が
どの電話種からのものかを判別した後に当該電話種用の
音響モデルを用いて音声認識を行うこと、音声認識はH
MMを用いるビタービ探索アルゴリズムなどで行うこと
ができることが記載されている。Further, Japanese Patent Laid-Open No. 2000-284792 discloses an external telephone by learning using a noise database.
After creating non-voice HMM parameters for each telephone type such as extension telephones, ordinary telephones, digital mobile telephones, etc., and using the non-voice HMM parameters to determine which telephone type the acoustic signal is from Performing voice recognition using the acoustic model for the phone type, and voice recognition is H
It is described that the Viterbi search algorithm using MM can be performed.
【0005】また、短時間に変動する種々の雑音(以
下、非定常雑音と称す)、例えば、咳、くしゃみ、間投
詞などの話者が発する不要音、周囲の人声、打音、靴
音、車両のエンジン音、電波の乱れから生じる雑音など
を収集してモデル化し、それにより得られるモデルを雑
音HMMとして用いることにより非定常雑音の区間を音
声区間として誤認識しないようすることも、「T.Schult
z I.Rogina“Acoustic andLanguage Modeling of Human
and Nonhuman Noises for Human-to-human Spontaneou
s Speech Recognition,”Proc.ICASSP 95, pp.293-296
(199)」や「T.Yamada et. al:“Voice Activity Detect
ion using Non-speech Models and HMM composition,”
Proc.HSC 2001, pp.131-134 (2001) 」で提案されてい
る。Further, various noises that fluctuate in a short time (hereinafter referred to as non-stationary noises), for example, unnecessary sounds emitted by the speaker such as cough, sneeze, and interjection, surrounding human voices, tap sounds, shoe sounds, vehicles. It is also possible to collect non-stationary noise sections as speech sections by collecting and modeling the engine sound and noise generated from disturbance of radio waves and using the obtained model as a noise HMM. Schult
z I. Rogina “Acoustic and Language Modeling of Human
and Nonhuman Noises for Human-to-human Spontaneou
s Speech Recognition, ”Proc.ICASSP 95, pp.293-296
(199) '' and `` T. Yamada et. Al: “Voice Activity Detect
ion using Non-speech Models and HMM composition, ”
Proc. HSC 2001, pp.131-134 (2001) ".
【0006】[0006]
【発明が解決しようとする課題】ところで、携帯電話な
どでは、その種別に応じて各種方式のCODECが採用
されており、例えば、CELP(Code Excited Linear
Prediction ;符号励振線形予測)に基づく符号化方式
であるCS−ACELP(Conjugate-StructureAlgebra
ic Code Excited Linear Prediction)が採用されてい
るものもあれば、cdmaOneのようにEVRC(En
hanced Variable Rate Codec)が採用されているものも
ある。CODECは、その方式の違いによりその構成が
異なるため、それ固有の非線形特性を有し、CODEC
を通った信号はCODEC依存性の非線形歪みを受け
る。特に、携帯電話などでは帯域幅の狭いCODECが
採用されており、少ない量子化数で量子化を行っている
ため、伝送されてくる音声における非線形歪みが大き
く、また、相手機がどの方式のCODECを採用してい
るかによる非線形歪みの差異も大きい。By the way, various types of CODECs are adopted in mobile phones and the like according to their types. For example, CELP (Code Excited Linear) is used.
Prediction: CS-ACELP (Conjugate-StructureAlgebra), which is an encoding method based on code-excited linear prediction
ic Code Excited Linear Prediction) is used in some cases, and EVRC (En
Some have adopted the hanced Variable Rate Codec). The CODEC has a non-linear characteristic peculiar to the CODEC because its configuration is different depending on the method.
The passed signal is subjected to CODEC-dependent nonlinear distortion. In particular, CODECs having a narrow bandwidth are used in mobile phones and the like, and since the quantization is performed with a small number of quantizations, the nonlinear distortion in the transmitted voice is large, and the CODEC of the other device is used. There is also a large difference in nonlinear distortion depending on whether or not is adopted.
【0007】CODEC依存性の非線形歪みを有する雑
音は、音声認識における特に音声区間の始端検出を実際
より早め、音声区間の誤識別を生じさせ、音声の誤認識
の割合を増加させるという問題を引き起こす要因となる
ものであるが、上記既提案は、種々の非定常雑音をモデ
ル化して作成した雑音HMMを用いるというだけであ
り、入力される音声における雑音がCODEC依存性の
非線形歪みを有することについて何ら考慮していない。
したがって、上記既定案のものでは雑音がCODEC依
存性のものであることに起因して音声区間識別および音
声認識の精度低下するという問題がある。なお、これは
携帯電話による音声を認識するものだけの問題でなく、
程度の違いがあるにせよ各種方式のCODECを通った
音声信号が入力される音声認識装置に共通する問題であ
る。Noise having CODEC-dependent non-linear distortion causes a problem that the beginning detection of a voice section is particularly accelerated in speech recognition, the voice section is misidentified, and the rate of false recognition of voice is increased. Although it is a factor, the above-mentioned proposal only uses a noise HMM created by modeling various non-stationary noises, and that noise in input speech has CODEC-dependent nonlinear distortion. I have not considered anything.
Therefore, the above-mentioned fixed proposal has a problem that the accuracy of the voice section identification and the voice recognition is reduced due to the noise being CODEC-dependent. In addition, this is not only a problem of recognizing voice from mobile phones,
This is a problem that is common to voice recognition devices to which voice signals that have passed through various types of CODECs are input, although they differ in degree.
【0008】本発明は、HMMを用いるビタービ探索ア
ルゴリズムにより音声を認識する音声認識装置におい
て、入力される音声にCODEC依存性の非線形歪みを
有する非定常雑音が含まれていても雑音区間を高精度で
識別することができ、音声区間の識別および音声の認識
を高精度で行うことができる音声認識装置を提供するこ
とを目的とするものである。According to the present invention, in a voice recognition device for recognizing a voice by a Viterbi search algorithm using an HMM, even if the input voice contains non-stationary noise having CODEC-dependent nonlinear distortion, the noise interval is highly accurate. It is an object of the present invention to provide a voice recognition device capable of identifying a voice section and performing voice recognition with high accuracy.
【0009】[0009]
【課題を解決するための手段】上記課題を解決するた
め、本発明は、複数のビタービ探索部と、前記複数のビ
タービ探索部による探索結果のうちの最も尤度の高いも
のを選択する最尤探索結果選択部と、選択された探索結
果を認識結果として出力するおよび認識結果出力部とを
備え、前記複数のビタービ探索部の各々は、音声HMM
と雑音HMMとを含み、それらを用いてビタービ探索ア
ルゴリズムを実行するものであり、前記複数のビター探
索部の各々の雑音HMMは、各種方式のCODECの各
々に依存してモデル化されたものである点に第1の特徴
がある。また、本発明は、前記複数のビタービ探索部の
各々がさらに、無音HMMを備える点に第2の特徴があ
る。また、本発明は、前記音声HMMも、各種方式のC
ODECの各々に依存してモデル化されたものである点
に第3の特徴がある。また、本発明は、前記雑音HMM
は、各種方式のCODECの各々を通して入力される音
声における雑音区間の音声を切り出して得られる雑音デ
ータベースを用いて学習することにより得られるもので
ある点に第4の特徴がある。さらに、本発明は、前記音
声入力部に入力される音声が電話回線を通して入力され
る点に第5の特徴がある。In order to solve the above problems, the present invention provides a maximum likelihood selection of a plurality of Viterbi search units and a search result of the plurality of Viterbi search units having the highest likelihood. A search result selection unit and a recognition result output unit that outputs the selected search result as a recognition result, and each of the plurality of Viterbi search units includes a voice HMM.
And a noise HMM, and the Viterbi search algorithm is executed using them, and the noise HMM of each of the plurality of bitter search units is modeled depending on each CODEC of various methods. One point is the first feature. A second feature of the present invention is that each of the plurality of Viterbi search units further includes a silent HMM. Further, in the present invention, the voice HMM is also a C of various systems.
The third feature is that it is modeled depending on each ODEC. The present invention also provides the noise HMM.
Has a fourth characteristic in that it is obtained by learning by using a noise database obtained by cutting out a voice in a noise section in the voice input through each of various CODECs. Furthermore, the present invention has a fifth feature in that the voice input to the voice input unit is input through a telephone line.
【0010】第1の特徴によれば、入力される音声にC
ODEC依存性の非線形歪みを有する非定常雑音が含ま
れていても雑音区間を高精度で識別でき、音声区間の識
別および音声の認識を高精度で行うことができる。ま
た、第2および第3の特徴によれば、音声区間の識別お
よび音声の認識をより高精度で行うことができる。ま
た、第4の特徴によれば、各種方式のCODECの各々
に依存する雑音HMMを容易に作成することができる。
さらに、第5の特徴によれば、特に電話回線を通して入
力される携帯電話などの音声区間の識別および音声の認
識を高精度で行うことができる。According to the first feature, the input voice has C
Even if non-stationary noise having ODEC-dependent non-linear distortion is included, the noise section can be identified with high accuracy, and the speech section and the speech can be identified with high accuracy. Further, according to the second and third characteristics, it is possible to identify the voice section and recognize the voice with higher accuracy. Further, according to the fourth feature, it is possible to easily create a noise HMM that depends on each of various types of CODECs.
Furthermore, according to the fifth feature, it is possible to identify the voice section and the voice recognition of a mobile phone or the like that is inputted through a telephone line with high accuracy.
【0011】[0011]
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して詳細に説明する。図1は、本発明の一実施形
態を示すブロック図である。図1において、音声入力部
1を介して入力される音声は、複数のビタービ探索部2
−1、2−2、・・・、2−Nに入力されて並列処理さ
れる。BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. FIG. 1 is a block diagram showing an embodiment of the present invention. In FIG. 1, the voice input through the voice input unit 1 includes a plurality of Viterbi search units 2.
, 1, 2-2, ..., 2-N and are processed in parallel.
【0012】音声入力部1は、例えば、携帯電話を用い
た通話などにおいて相手機から電話回線を介して伝送さ
れてくる音声を取り込むものであり、取り込まれる音声
は、相手機が採用しているCODECに応じたCODE
C依存性の非線形歪みを受けている。The voice input unit 1 is for capturing the voice transmitted from the other device through the telephone line in a call using a mobile telephone, for example, and the other device adopts the captured voice. CODE according to CODEC
It is subject to C-dependent nonlinear distortion.
【0013】ビタービ探索部2−1、2−2、・・・、
2−Nについては後に詳細に説明するが、それらの各々
は、音声HMM、無音HMMおよび雑音HMMを含み、
それらを用いてビタービ探索アルゴリズムを実行するこ
とにより、入力される音声の音声区間、無音区間、雑音
区間を識別すると共に音声区間における音声を構成する
音素を認識し、この結果に音声認識用辞書・文法3を適
用することにより音声を認識する。音声HMM、無音H
MMおよび雑音HMMは、認識処理に先立って予め作成
されて格納されている。なお、無音区間は、本来、音声
がない区間であり、その区間が音声区間の識別に影響せ
ず、音声区間の識別で自ずと識別されるのであれば無音
HMMを特別に設ける必要はない。Viterbi search units 2-1, 2-2, ...
2-N will be described in more detail below, each of which includes a speech HMM, a silence HMM and a noise HMM,
By executing the Viterbi search algorithm using them, the speech section of the input speech, the silent section, and the noise section are identified, and the phonemes that compose the speech in the speech section are recognized, and the result is a dictionary for speech recognition. Recognize speech by applying grammar 3. Voice HMM, silence H
The MM and the noise HMM are created and stored in advance prior to the recognition processing. It should be noted that the silent section is originally a section having no voice, and if the section does not affect the identification of the voice section and is naturally identified by the identification of the voice section, the silent HMM does not need to be specially provided.
【0014】ビタービ探索部2−1、2−2、・・・、
2−Nの各々は、各種方式のCODECの各々に対応す
る音声認識系を構成している。これらビタービ探索部2
−1、2−2、・・・、2−Nによる探索結果のうち
の、最も尤度の高いものが最尤探索結果選択部4で選択
され、この選択された探索結果が認識結果として認識結
果出力部5より出力される。Viterbi search units 2-1, 2-2, ...
Each of 2-N constitutes a voice recognition system corresponding to each of various types of CODECs. These Viterbi search unit 2
Among the search results by -1, 2-2, ..., 2-N, the one with the highest likelihood is selected by the maximum likelihood search result selection unit 4, and the selected search result is recognized as the recognition result. It is output from the result output unit 5.
【0015】音声HMMは、入力される音声の音声区間
を識別するとともにその音声を構成する音素を認識する
ために用いられる音声モデルであり、認識されるべき音
素に対する音素HMMの集合からなっている。無音HM
Mは、入力された音声の無音区間を識別するために用い
られる無音モデルである。The voice HMM is a voice model used for identifying the voice section of the input voice and recognizing the phonemes that compose the voice, and is composed of a set of phoneme HMMs for the phonemes to be recognized. . Silent HM
M is a silence model used to identify the silence section of the input voice.
【0016】雑音HMMは、入力される音声における雑
音区間を識別するために用いられる雑音モデルであり、
種々の非定常雑音の各々に対する雑音HMMの集合から
なっている。また、入力される音声における雑音は、通
話する相手機の種別に応じたCODEC依存性のもので
あるため、雑音HMMはCODECに依存してモデル化
されている。したがって、各種方式のCODECの各々
に対応して複数のビタービ探索部2−1、2−2、・・
・、2−Nが設けられている。すなわち、CODEC
1、CODEC2、・・・、CODEC Nを採用して
いる種々の相手機と通話することが予定されている場合
には、CODEC1に依存してモデル化された雑音HM
Mを含むビタービ探索部2−1、CODEC2に依存し
てモデル化された雑音HMMを含むビタービ探索部2−
2、・・・、CODEC Nに依存してモデル化された
雑音HMMを含むビタービ探索部2−Nが設けられてい
る。なお、全ての相手機のCODECに対してビタービ
探索部および雑音HMMを備えることは必ずしも要求さ
れず、典型的な機種で採用されているCODECに対し
て備えるようにしてもよく、そのようにすれば構成が簡
単化され、実用上の支障もない。The noise HMM is a noise model used for identifying a noise section in input speech,
It consists of a set of noise HMMs for each of the various non-stationary noises. Further, the noise in the input voice is CODEC-dependent depending on the type of the other party with whom the call is being made, so the noise HMM is modeled depending on CODEC. Therefore, a plurality of Viterbi search units 2-1, 2-2, ... Corresponding to each of the various types of CODECs.
., 2-N are provided. That is, CODEC
, CODEC2, ..., When it is planned to talk to various parties using CODEC N, noise HM modeled depending on CODEC1
Viterbi search unit 2-1 including M, Viterbi search unit 2-including noise HMM modeled depending on CODEC 2
2, ..., Viterbi search unit 2-N including a noise HMM modeled depending on CODEC N is provided. It should be noted that it is not always necessary to provide the Viterbi search unit and the noise HMM for all the CODECs of the other devices, and it may be provided for the CODECs adopted in the typical model. If so, the structure is simplified and there is no practical problem.
【0017】ビタービ探索部2−1、2−2、・・・、
2−Nで並列的に実行されるビタービ探索アルゴリズム
は、入力される音声と音声HMMを構成する音素HM
M、無音HMMおよび種々の非定常雑音の雑音HMMと
を比較して類似度を計算し、その値に基づいて音声区
間、無音区間、雑音区間を識別すると共に音声を構成す
る音素を認識するものである。この処理において雑音H
MMとしてCODECに依存してモデル化された雑音H
MMを用いていることにより、CODEC依存性の非線
形歪みの影響が除去されて非定常雑音が認識され雑音区
間が識別されるため、音声区間の識別および音声の認識
が高精度で行われ、誤認識が低減される。Viterbi search units 2-1, 2-2, ...
The Viterbi search algorithm executed in parallel in 2-N is the phoneme HM that constitutes the input voice and the voice HMM.
M, a silent HMM, and a noise HMM of various non-stationary noises are compared to calculate a similarity, and a voice section, a silent section, and a noise section are identified based on the calculated values, and phonemes constituting a voice are recognized. Is. Noise H in this process
Noise H modeled as MM depending on CODEC
By using the MM, the influence of the CODEC-dependent non-linear distortion is removed, non-stationary noise is recognized, and the noise section is identified. Therefore, the speech section and the speech are recognized with high accuracy and erroneous. Recognition is reduced.
【0018】なお、上述の実施態様は、特に雑音HMM
をCODECに依存してモデル化したものであるが、こ
れに加えて音声HMMもCODECに依存してモデル化
することができ、そのようにすれば音声区間の識別およ
び音声の認識の精度をより向上させることができる。It should be noted that the above-described embodiment is particularly effective for noise HMMs.
Is modeled depending on CODEC. In addition to this, the speech HMM can also be modeled depending on CODEC. In this case, the accuracy of speech segment identification and speech recognition can be improved. Can be improved.
【0019】図2は、入力される音声の一具体例を示す
波形図であり、図3は、図2の音声に対して実行される
ビタービ探索アルゴリズムの一具体例を示す説明図であ
る。この例では、無音区間−雑音区間−無音区間−音声
区間−無音区間−雑音区間−無音区間が連続し、音声区
間に「あか」、「あお」あるいは「きいろ」のいずれか
の音声が入力される場合を想定している。また、“si
l”は、無音HMMを表し、“noise1”〜“no
ise3”は、非定常雑音の種類毎の雑音HMMを表
し、“a”、“k”、“o”などは、音声HMMに含ま
れる音素HMMを表している。FIG. 2 is a waveform diagram showing a specific example of the input voice, and FIG. 3 is an explanatory diagram showing a specific example of the Viterbi search algorithm executed for the voice of FIG. In this example, the silent section-noise section-silent section-speech section-silent section-noise section-silent section is continuous, and either "red", "blue" or "yellow" is input to the speech section. It is assumed that Also, "si
"1" represents a silent HMM, and "noise1" to "no"
“Ise3” represents a noise HMM for each type of non-stationary noise, and “a”, “k”, “o”, and the like represent phoneme HMMs included in the speech HMM.
【0020】まず、入力される音声の最初の無音状態
が、その音声と無音HMM“sil”との類似度が最尤
であることにより識別され、無音区間の間、無音HMM
“sil”を用いた識別処理が継続される。すなわち、
無音HMM“sil”による識別の自己ループを介する
処理が継続されることにより無音区間が識別される。First, the first silence state of the input voice is identified by the maximum likelihood of the similarity between the voice and the silence HMM "sil", and during the silence interval, the silence HMM is detected.
The identification process using "sil" is continued. That is,
The silent section is identified by continuing the processing through the self-loop of the identification by the silent HMM “sil”.
【0021】非定常雑音が入力されると雑音HMMとの
類似度が最尤となるため、この処理は、無音HMM“s
il”による識別のループを抜け出し、遷移パスを通っ
て雑音区間の識別処理に入る。この処理は、入力された
音声における雑音と雑音HMM“noise1”〜“n
oise3”との類似度が最尤であることに基づいて自
己ループを介する処理を継続して雑音区間を識別する処
理である。“noise1”〜“noise3”のうち
のどの雑音HMMの認識のループに入り込み継続される
かは非定常雑音の種類によるが、いずれにしてもこの処
理により雑音区間が識別される。次に続く無音区間も最
初の無音区間と同様に識別される。When non-stationary noise is input, the similarity with the noise HMM becomes maximum likelihood.
The process of exiting the identification loop by il "and entering the noise section identification process through the transition path. This process includes noise and noise HMMs" noise1 "to" n "in the input speech.
This is a process of continuously performing a process through a self-loop based on that the degree of similarity with "noise3" is maximum likelihood to identify a noise section. A loop for recognizing which noise HMM among "noise1" to "noise3" Depending on the type of non-stationary noise, the noise interval is identified by this process in any case, and the following silent segment is identified in the same manner as the first silent segment.
【0022】続いて例えば、「あか」の音声が入力され
る場合を想定すると、その場合には図3の上段に示した
認識手順が実行されることになる。すなわち、音声
「あ」が入力されると、音素HMM“a”との類似度が
最尤であることに基づいて「あ」が識別、認識され、続
いて「か」が入力されると、音素HMM“k”、“a”
との類似度が最尤であることに基づいて「k」、「a」
が順次識別され、「か」が認識される。図3の音声区間
の中段は、「あお」の音声が入力される場合に実行され
る認識手順を示し、下段は、「きいろ」の音声が入力さ
れる場合に実行される認識手順を示している。Subsequently, for example, assuming that a voice of "red" is input, in that case, the recognition procedure shown in the upper part of FIG. 3 is executed. That is, when the voice "a" is input, "a" is identified and recognized based on the similarity between the phoneme HMM "a" and the phoneme HMM "a" being the maximum likelihood, and then "ka" is input. Phoneme HMM "k", "a"
"K" and "a" based on the maximum likelihood of similarity with
Are sequentially identified, and "ka" is recognized. The middle part of the voice section in FIG. 3 shows the recognition procedure executed when the "blue" voice is input, and the lower part shows the recognition procedure executed when the "yellow" voice is input. There is.
【0023】以上のようにして音声区間の識別と共に音
声の認識が行われ、続く無音区間、雑音区間および無音
区間も上述と同様にして識別されるが、音声区間の前の
雑音が音声区間に含まれるものとして識別され、音声区
間検出の始端が実際より早まってしまうという問題は、
雑音HMMをCODEに依存してモデル化したものにす
ることにより低減される。なお、以上で説明した探索ア
ルゴリズムは一例にすぎず、ビタービ探索において用い
られるHMMがどのように連続するか、どのような音素
HMMが用いられるかは入力される音声によって異なる
ことはもちろんである。As described above, the voice recognition is performed together with the voice section identification, and the subsequent silent section, noise section, and silent section are also identified in the same manner as described above, but the noise before the voice section becomes the voice section. The problem that it is identified as included and the start of voice section detection is earlier than the actual
It is reduced by making the noise HMM model dependent on CODE. The search algorithm described above is merely an example, and it goes without saying that how the HMMs used in the Viterbi search are continuous and what phoneme HMM is used depends on the input voice.
【0024】図4は、本発明で用いられる雑音HMMの
作成方法の一具体例を示すフローチャートである。ステ
ップS1〜S5は、各種CODECの各々について行わ
れるものであり、同図では、CODEC1としてCS−
ACELP、CODEC2としてEVRCを想定し、こ
れら各々に対する雑音HMMを作成する例を図示してい
る。以下では、CS−ACELPに対する雑音HMMを
作成する場合について説明する。FIG. 4 is a flow chart showing a specific example of a method of creating a noise HMM used in the present invention. Steps S1 to S5 are performed for each of the various CODECs, and in FIG.
An EVRC is assumed as ACELP and CODEC2, and an example of creating a noise HMM for each of them is illustrated. Hereinafter, a case of creating a noise HMM for CS-ACELP will be described.
【0025】まず、CS−ACELPを通して街頭、ビ
ル内、オフィス、公園、市街地の道路脇、駅構内など、
種々の非定常雑音を含む音声を収集する(ステップS
1)。これら収集された音声に含まれる種々の非定常雑
音は、CS−ACELPに固有の非線形歪みを含んでい
る。次に、収集した音声における雑音区間の非定常雑音
を切り出し、雑音源の種別毎に分類する(ステップS
2)。雑音区間の非定常雑音の切り出しは、レベルが高
い区間の音声を切り出すことなどにより行うことがで
き、雑音源の種別毎の分類は、レベルや周波数、波形な
どの雑音源毎の雑音の特徴に基づいて行うことができ
る。以上によりCS−ACELPが介在した場合の非線
形歪みを含む非定常雑音の雑音データベースが得られ
る。First, through CS-ACELP, on the street, in buildings, offices, parks, roadsides in urban areas, station premises, etc.
Collect speech containing various non-stationary noises (step S
1). The various non-stationary noises contained in these collected voices include the non-linear distortion inherent in CS-ACELP. Next, the non-stationary noise in the noise section in the collected speech is cut out and classified by the type of noise source (step S
2). The non-stationary noise in the noise section can be cut out by cutting out the speech in the section with a high level, and the classification by noise source type is based on the noise characteristics of each noise source such as level, frequency, and waveform. Can be done based on. As described above, a noise database of non-stationary noise including non-linear distortion when CS-ACELP intervenes can be obtained.
【0026】次に、この雑音データベースを用いて、H
MMの学習を行い(ステップS3)、HMMパラメータ
を得る。これにより得られたHMMパラメータをROM
あるいはRAMに格納し(ステップS4)、CS−AC
ELPに対するビタービ探索部の雑音HMMとする(ス
テップS5)。Next, using this noise database, H
MM learning is performed (step S3) to obtain HMM parameters. HMM parameters obtained by this are stored in ROM
Alternatively, it is stored in RAM (step S4) and CS-AC
The noise HMM of the Viterbi search unit for ELP is set (step S5).
【0027】EVRCあるいはその他のCODECに対
する雑音HMMも同様のステップにより作成することが
できる。このようにして作成された雑音HMMは、CO
DEC依存性の非線形歪みを含む非定常雑音の雑音デー
タベースを用いて学習により作成されるものであるた
め、CODECの各々に依存してモデル化されたものと
なる。A noise HMM for EVRC or other CODEC can be created by similar steps. The noise HMM created in this way is
Since it is created by learning using the noise database of non-stationary noise including DEC-dependent nonlinear distortion, it is modeled depending on each CODEC.
【0028】本発明は、携帯電話の利用が多い音声通話
の音声認識装置として用いることができるが、それに限
らず各種方式のCODECからの音声信号が入力される
音声認識装置として用いることができる。The present invention can be used as a voice recognition device for a voice call in which a mobile phone is frequently used, but is not limited to this and can be used as a voice recognition device to which voice signals from various types of CODECs are input.
【0029】[0029]
【発明の効果】以上の説明から明らかなように、請求項
1の発明によれば、入力される音声にCODEC依存性
の非定常雑音が含まれていてもその非定常雑音を高精度
で識別識別し、音声区間の識別および音声の認識を高精
度で行うことができる。また、請求項2および3の発明
によれば、音声区間の識別および音声の認識をより高精
度で行うことができる。また、請求項4の発明によれ
ば、各種方式のCODECの各々に依存する雑音HMM
を容易に作成することができる。さらに、請求項5の発
明によれば、特に電話回線を通して入力される携帯電話
などの音声区間の識別および音声の認識を高精度で行う
ことができる。As is apparent from the above description, according to the first aspect of the present invention, even if the input voice includes non-stationary noise that depends on CODEC, the non-stationary noise can be identified with high accuracy. It is possible to identify and identify a voice section and recognize a voice with high accuracy. Further, according to the inventions of claims 2 and 3, it is possible to identify the voice section and recognize the voice with higher accuracy. Further, according to the invention of claim 4, the noise HMM depending on each of the various types of CODECs is used.
Can be created easily. Further, according to the invention of claim 5, it is possible to identify the voice section and the voice recognition of a cellular phone or the like which is inputted through a telephone line with high accuracy.
【図1】 本発明の一実施形態を示すブロック図であ
る。FIG. 1 is a block diagram showing an embodiment of the present invention.
【図2】 入力される音声の一具体例を示す波形図であ
る。FIG. 2 is a waveform chart showing a specific example of input voice.
【図3】 図2の音声に対するビタービ探索アルゴリズ
ムの一具体例を示す説明図である。FIG. 3 is an explanatory diagram showing a specific example of a Viterbi search algorithm for the voice of FIG.
【図4】 本発明で用いる雑音HMMの作成方法の一具
体例を示すフローチャートである。FIG. 4 is a flowchart showing a specific example of a method of creating a noise HMM used in the present invention.
1・・・音声入力部、2−1〜2−N・・・ビタービ探索部、
3・・・音声認識用辞書・文法、4・・・最尤探索結果選択
部、5・・・認識結果出力部1 ... Voice input unit, 2-1 to 2-N ... Viterbi search unit,
3 ... Speech recognition dictionary / grammar, 4 ... Maximum likelihood search result selection unit, 5 ... Recognition result output unit
───────────────────────────────────────────────────── フロントページの続き (72)発明者 清水 徹 埼玉県上福岡市大原二丁目1番15号 株式 会社ケイディーディーアイ研究所内 Fターム(参考) 5D015 GG00 HH23 KK02 ─────────────────────────────────────────────────── ─── Continued front page (72) Inventor Toru Shimizu 2-15-1 Ohara, Kamifukuoka City, Saitama Stock Company CAD Research Institute F term (reference) 5D015 GG00 HH23 KK02
Claims (5)
ビタービ探索アルゴリズムによる音声認識装置におい
て、 音声が入力される音声入力部と、 前記音声入力部からの信号を並列処理する複数のビター
ビ探索部と、 前記複数のビタービ探索部による探索結果のうちの最も
尤度の高いものを選択するする最尤探索結果選択部と、 前記最尤探索結果選択部により選択された探索結果を認
識結果として出力する認識結果出力部とを備え、 前記複数のビタービ探索部の各々は、音声HMMと雑音
HMMとを含み、それら用いてビタービ探索アルゴリズ
ムを実行するものであり、前記複数のビター探索部の各
々の雑音HMMは、各種方式のCODECの各々に依存
してモデル化されたものであることを特徴とする音声認
識装置。1. A voice recognition device based on a Viterbi search algorithm using a Hidden Markov Model (HMM), wherein a voice input unit to which a voice is input, and a plurality of Viterbi search units that process signals from the voice input unit in parallel are provided. A maximum likelihood search result selection unit that selects the most likely one of the search results by the plurality of Viterbi search units, and a recognition that outputs the search result selected by the maximum likelihood search result selection unit as a recognition result. A result output unit, each of the plurality of Viterbi search units includes a speech HMM and a noise HMM, and executes a Viterbi search algorithm using them, and the noise HMM of each of the plurality of Viterbi search units. Is a speech recognition apparatus characterized by being modeled depending on each of various types of CODECs.
らに、無音HMMを含むことを特徴とする請求項1に記
載の音声認識装置。2. The voice recognition device according to claim 1, wherein each of the plurality of Viterbi search units further includes a silent HMM.
Cの各々に依存してモデル化されたものであることを特
徴とする請求項1または2に記載の音声認識装置。3. The voice HMM is also a CODE of various types.
The speech recognition apparatus according to claim 1 or 2, wherein the speech recognition apparatus is modeled depending on each C.
Cの各々を通して入力される音声における雑音区間の音
声を切り出して得られる雑音データベースを用いて学習
することにより得られるものであることを特徴とする請
求項1ないし3のいずれかに記載の音声認識装置。4. The noise HMM is a CODE of various types.
4. The voice recognition according to claim 1, wherein the voice recognition is obtained by learning using a noise database obtained by cutting out a voice in a noise section in a voice input through each of C. apparatus.
話回線を通して入力されるものであることを特徴とする
請求項1ないし4のいずれかに記載の音声認識装置。5. The voice recognition device according to claim 1, wherein the voice input to the voice input unit is input via a telephone line.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001303696A JP2003108188A (en) | 2001-09-28 | 2001-09-28 | Voice recognizing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001303696A JP2003108188A (en) | 2001-09-28 | 2001-09-28 | Voice recognizing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2003108188A true JP2003108188A (en) | 2003-04-11 |
Family
ID=19123743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001303696A Pending JP2003108188A (en) | 2001-09-28 | 2001-09-28 | Voice recognizing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2003108188A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084071A (en) * | 2003-09-04 | 2005-03-31 | Kddi Corp | Speech recognizing apparatus |
KR100555547B1 (en) | 2004-01-15 | 2006-03-03 | 삼성전자주식회사 | The method for removing the background noise of Adaptive Multi Rate codec |
US10148807B2 (en) | 2016-02-04 | 2018-12-04 | Samsung Electronics Co., Ltd. | Electronic device and method of voice command processing therefor |
-
2001
- 2001-09-28 JP JP2001303696A patent/JP2003108188A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084071A (en) * | 2003-09-04 | 2005-03-31 | Kddi Corp | Speech recognizing apparatus |
JP4526057B2 (en) * | 2003-09-04 | 2010-08-18 | Kddi株式会社 | Voice recognition device |
KR100555547B1 (en) | 2004-01-15 | 2006-03-03 | 삼성전자주식회사 | The method for removing the background noise of Adaptive Multi Rate codec |
US10148807B2 (en) | 2016-02-04 | 2018-12-04 | Samsung Electronics Co., Ltd. | Electronic device and method of voice command processing therefor |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220343895A1 (en) | User-defined keyword spotting | |
Juang et al. | Automatic speech recognition–a brief history of the technology development | |
KR101056511B1 (en) | Speech Segment Detection and Continuous Speech Recognition System in Noisy Environment Using Real-Time Call Command Recognition | |
Juang et al. | Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication | |
Prasanna et al. | Extraction of speaker-specific excitation information from linear prediction residual of speech | |
Aggarwal et al. | Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system | |
JPS62231997A (en) | Voice recognition system and method | |
Akbacak et al. | Environmental sniffing: noise knowledge estimation for robust speech systems | |
Ge et al. | Deep neural network based wake-up-word speech recognition with two-stage detection | |
AU2684100A (en) | Speaker recognition | |
Sajjan et al. | Leveraging LSTM models for overlap detection in multi-party meetings | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
JP5385876B2 (en) | Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium | |
Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
JPH0792988A (en) | Speech detecting device and video switching device | |
US5487129A (en) | Speech pattern matching in non-white noise | |
Akbacak et al. | Environmental sniffing: noise knowledge estimation for robust speech systems | |
KR20040038419A (en) | A method and apparatus for recognizing emotion from a speech | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
JP2003108188A (en) | Voice recognizing device | |
Cerisara et al. | Multi-band automatic speech recognition | |
Zelenák et al. | Speaker overlap detection with prosodic features for speaker diarisation | |
Sarkar et al. | Data augmentation enhanced speaker enrollment for text-dependent speaker verification | |
Nouza et al. | Fast keyword spotting in telephone speech | |
Nahar et al. | Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment |