JP2005249874A - Device, method, and program for speech recognition - Google Patents
Device, method, and program for speech recognition Download PDFInfo
- Publication number
- JP2005249874A JP2005249874A JP2004056528A JP2004056528A JP2005249874A JP 2005249874 A JP2005249874 A JP 2005249874A JP 2004056528 A JP2004056528 A JP 2004056528A JP 2004056528 A JP2004056528 A JP 2004056528A JP 2005249874 A JP2005249874 A JP 2005249874A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- acoustic model
- data
- signal
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声を認識する音声認識装置、音声認識方法及び音声認識プログラムに関する。 The present invention relates to a voice recognition device, a voice recognition method, and a voice recognition program for recognizing voice.
従来、音声認識は、入力信号の特徴に近い音響モデルを使用したマッチング処理により実現されている。入力信号の特徴は、音声を認識処理するときの話者の環境や発声スタイル等によって変化するので、これらの変化に応じて音声を認識処理する必要がある。 Conventionally, speech recognition is realized by matching processing using an acoustic model close to the characteristics of an input signal. Since the characteristics of the input signal change depending on the speaker environment, utterance style, and the like when the speech is recognized, it is necessary to recognize the speech according to these changes.
例えば、話者の環境の騒音に注目した場合、騒音が存在する環境下においては、その騒音の種類やSN比などに近い音声データを使用して生成された音響モデルを多数用意してマッチング処理を行うことで高性能な音声認識処理を実現できる。 For example, when attention is paid to the noise in the speaker's environment, in an environment where noise exists, a large number of acoustic models generated using voice data close to the type of noise and the SN ratio are prepared and matching processing is performed. Can perform high-performance speech recognition processing.
また、話者の発声スタイルは、話者が早口で話す場合とゆっくり話す場合とでは異なり、また、話者が新聞を読み上げる場合と普段の話し言葉で発声する場合とでは異なる。話者が同じ内容を話す場合でも、話者の性別、年齢、声の大きさなどによって発声スタイルには個人差が生じる。一方、同一の話者でも、電話で話す場合や風呂場のような残響がある部屋で話す場合などでは話者の発声スタイルは異なるものとなる。話者の発声スタイルが異なれば話者の音声の特徴は異なるものとなってしまうので、高い認識性能を実現するためには話者の発声スタイルに近い音声データを使用して生成された音響モデルを多数用意してマッチング処理を行う必要がある。 In addition, the speaker's utterance style is different between when the speaker speaks quickly and when speaking slowly, and when the speaker reads out the newspaper and when speaking in the usual spoken language. Even if the speaker speaks the same content, there are individual differences in the utterance style depending on the gender, age, and loudness of the speaker. On the other hand, even if the same speaker is speaking on the phone or speaking in a room with reverberation such as a bathroom, the speaking style of the speaker is different. Since the speaker's speech characteristics will be different if the speaker's utterance style is different, an acoustic model generated using speech data close to the speaker's utterance style to achieve high recognition performance It is necessary to prepare a large number of matching processes.
前述のように、音声認識の分野においては、音声を認識処理するときの話者の環境や発声スタイル等(以下「環境等」という。)の多様な変化に対応できる頑健な音声認識が要求されており、この要求に対して様々な提案がされている。 As described above, in the field of speech recognition, robust speech recognition that can cope with various changes in the speaker environment, utterance style, etc. (hereinafter referred to as “environment etc.”) during speech recognition processing is required. Various proposals have been made for this requirement.
例えば、非特許文献1に示された車載用の音声認識装置は、学習音声に重畳する車内雑音として走行雑音とアイドリング雑音とを用い、この2つの雑音を含む音声データで作成された音響モデルによって、搭乗者が発声した音声を認識することができるようになっている。
しかしながら、このような従来の音声認識装置では、音声を認識処理する環境等が多様に変化する実環境下において音声を高精度で認識処理しようとすると、想定される個々の環境等の音声データで作成した膨大な音響モデルを用意する必要がある。 However, in such a conventional speech recognition apparatus, if speech recognition processing is to be performed with high accuracy in an actual environment where the speech recognition environment changes in various ways, the speech data of each assumed environment or the like is used. It is necessary to prepare an enormous acoustic model that has been created.
したがって、従来の音声認識装置では、音声認識装置に搭載できるメモリの容量や音声認識処理に要する時間等の制約により、多様な環境等の変化に追随できる音響モデルを用意することは困難であるので、環境等の変化により音声認識の精度が低下してしまうという問題があった。 Therefore, in the conventional speech recognition device, it is difficult to prepare an acoustic model that can follow changes in various environments due to restrictions on the capacity of the memory that can be installed in the speech recognition device and the time required for speech recognition processing. There has been a problem that the accuracy of voice recognition is lowered due to changes in the environment and the like.
本発明は、このような問題を解決するためになされたものであり、音声を認識処理する環境等が変化しても従来の装置よりも高い精度で音声認識を実現することができる音声認識装置、音声認識方法及び音声認識プログラムを提供するものである。 The present invention has been made in order to solve such a problem, and a speech recognition apparatus capable of realizing speech recognition with higher accuracy than conventional apparatuses even when the environment for speech recognition processing changes. A speech recognition method and a speech recognition program are provided.
本発明の音声認識装置は、入力信号の特徴を分析し、前記入力信号の信号状態を予め定められた複数の信号状態のうちのいずれかに分類する信号状態分類手段と、前記信号状態の発生頻度を計算する状態発生頻度計算手段と、予め定められた複数の音響モデルが作成される際に前記音響モデル毎に使用されたデータを混合する混合比率を前記発生頻度に基づいて計算する音響モデル混合比率計算手段と、前記データを前記混合比率で混合して新たに音響モデルを合成する音響モデル合成手段と、前記合成された音響モデルを使用して前記入力信号に対する音声認識処理を行う音声認識手段とを備えたことを特徴とする構成を有している。 The speech recognition apparatus according to the present invention is characterized by analyzing characteristics of an input signal and classifying the signal state of the input signal into one of a plurality of predetermined signal states, and generation of the signal state A state occurrence frequency calculating means for calculating a frequency, and an acoustic model for calculating a mixing ratio based on the occurrence frequency for mixing data used for each of the acoustic models when a plurality of predetermined acoustic models are created Mixing ratio calculating means, acoustic model synthesizing means for newly synthesizing an acoustic model by mixing the data at the mixing ratio, and speech recognition for performing speech recognition processing on the input signal using the synthesized acoustic model And means.
この構成により、本発明の音声認識装置は、音響モデル混合比率計算手段が、音響モデル毎に使用されたデータを混合する混合比率を信号状態の発生頻度に基づいて計算し、音声認識手段が、その時の環境等に合った混合比率で混合されたデータで学習した音響モデルによって入力信号に対する音声認識処理を行うので、音声を認識処理する環境等が変化しても従来の装置よりも高い精度で音声認識を実現することができる。 With this configuration, in the speech recognition apparatus of the present invention, the acoustic model mixing ratio calculation unit calculates the mixing ratio for mixing the data used for each acoustic model based on the occurrence frequency of the signal state, and the speech recognition unit Since the speech recognition process is performed on the input signal using the acoustic model learned from the data mixed at the mixing ratio suitable for the environment at that time, even if the environment for speech recognition processing changes, the accuracy is higher than that of conventional devices. Voice recognition can be realized.
また、本発明の音声認識装置は、前記音響モデル混合比率計算手段は、前記信号状態分類手段によって分類された前記複数の信号状態に対応する前記音響モデル毎に使用された前記データの前記混合比率を前記発生頻度が高くなるに従って大きくすることを特徴とする構成を有している。 Further, in the speech recognition apparatus of the present invention, the acoustic model mixture ratio calculation unit is configured to use the mixing ratio of the data used for each of the acoustic models corresponding to the plurality of signal states classified by the signal state classification unit. Is increased as the frequency of occurrence increases.
この構成により、本発明の音声認識装置は、音響モデル混合比率計算手段が、音響モデル毎に使用されたデータの混合比率を発生頻度が高くなるに従って大きくするので、入力信号の信号状態に適応した音声認識処理を実現することができる。 With this configuration, the speech recognition apparatus of the present invention is adapted to the signal state of the input signal because the acoustic model mixture ratio calculation means increases the mixture ratio of the data used for each acoustic model as the frequency of occurrence increases. Voice recognition processing can be realized.
さらに、本発明の音声認識装置は、前記音響モデル混合比率計算手段は、前記音声認識手段の音声認識結果に基づいて前記混合比率を計算することを特徴とする構成を有している。 Furthermore, the speech recognition apparatus of the present invention has a configuration characterized in that the acoustic model mixture ratio calculation means calculates the mixture ratio based on a speech recognition result of the speech recognition means.
この構成により、本発明の音声認識装置は、音響モデル混合比率計算手段が、音声認識手段の音声認識結果に基づいてデータの混合比率を計算するので、音声認識結果に応じてデータの混合比率を再設定して音声認識の精度を高めることができる。 With this configuration, in the speech recognition apparatus according to the present invention, the acoustic model mixture ratio calculation unit calculates the data mixture ratio based on the speech recognition result of the speech recognition unit. It can be reset to increase the accuracy of voice recognition.
さらに、本発明の音声認識装置は、前記音響モデル混合比率計算手段が、前記音声認識結果の確からしさを数値で表したスコアが所定値以下のとき、前記発生頻度の変化傾向に基づいて前記混合比率を算出することを特徴とする構成を有している。 Furthermore, in the speech recognition apparatus of the present invention, when the acoustic model mixture ratio calculation means has a score representing the probability of the speech recognition result as a numerical value is equal to or less than a predetermined value, the mixing is performed based on the change tendency of the occurrence frequency. It has the structure characterized by calculating a ratio.
この構成により、本発明の音声認識装置は、音響モデル混合比率計算手段が、音声認識結果のスコアが所定値以下のとき、発生頻度の変化傾向に基づいて混合比率を算出するので、入力信号の信号状態及び音声認識結果のスコアに適応する混合比率を算出することができ、従来の装置よりも高い精度で音声認識を実現することができる。 With this configuration, in the speech recognition apparatus of the present invention, the acoustic model mixture ratio calculation means calculates the mixture ratio based on the change tendency of the occurrence frequency when the score of the speech recognition result is a predetermined value or less. The mixing ratio adapted to the signal state and the score of the speech recognition result can be calculated, and speech recognition can be realized with higher accuracy than conventional devices.
さらに、本発明の音声認識装置は、前記混合比率を入力する音響モデル混合比率入力手段を備えたことを特徴とする構成を有している。 Furthermore, the speech recognition apparatus of the present invention has a configuration characterized by comprising acoustic model mixture ratio input means for inputting the mixture ratio.
この構成により、本発明の音声認識装置は、音響モデル混合比率入力手段が、混合比率を入力するので、初期状態等における音響モデルの混合比率を容易に設定することができる。 With this configuration, in the speech recognition apparatus of the present invention, since the acoustic model mixture ratio input means inputs the mixture ratio, the acoustic model mixture ratio in the initial state or the like can be easily set.
さらに、本発明の音声認識装置は、前記混合比率を設定するテストデータを発生するテストデータ発生手段を備えたことを特徴とする構成を有している。 Furthermore, the speech recognition apparatus of the present invention has a configuration characterized by comprising test data generating means for generating test data for setting the mixing ratio.
この構成により、本発明の音声認識装置は、テストデータ発生手段が、混合比率を設定するテストデータを発生するので、信号状態と音声認識結果のスコアとの関係を把握することができ、音声認識の性能の向上を図ることができる。 With this configuration, since the test data generating means generates test data for setting the mixing ratio, the voice recognition device of the present invention can grasp the relationship between the signal state and the score of the voice recognition result, and the voice recognition It is possible to improve the performance.
さらに、本発明の音声認識装置は、前記データが、前記音響モデルを作成する際の音声データの時間波形データ、メルケプストラム係数、デルタメルケプストラム係数及びデルタ対数パワー係数のうちの少なくとも一つを含むことを特徴とする構成を有している。 Furthermore, in the speech recognition apparatus of the present invention, the data includes at least one of time waveform data of voice data, a mel cepstrum coefficient, a delta mel cepstrum coefficient, and a delta logarithmic power coefficient when the acoustic model is created. It has the structure characterized by this.
この構成により、本発明の音声認識装置は、音響モデル格納メモリが、音響モデルを作成する際の音声データの時間波形データやメルケプストラム係数等を格納するので、これらのデータを混合比率で混合して音響モデルを合成することにより、音声を認識処理する環境等が変化しても従来の装置よりも高い精度で音声認識を実現することができる。 With this configuration, in the speech recognition apparatus of the present invention, the acoustic model storage memory stores the time waveform data, mel cepstrum coefficient, etc. of the speech data when creating the acoustic model, so these data are mixed at a mixing ratio. By synthesizing the acoustic model, speech recognition can be realized with higher accuracy than conventional devices even if the environment for speech recognition processing changes.
さらに、本発明の音声認識装置は、前記音響モデルが、隠れマルコフモデルの構造を有し、前記音響モデル格納手段は、前記音響モデルを前記隠れマルコフモデルで定義される遷移確率及び出力確率のデータとして格納することを特徴とする構成を有している。 Furthermore, in the speech recognition apparatus of the present invention, the acoustic model has a hidden Markov model structure, and the acoustic model storage means includes data of transition probability and output probability defined by the hidden Markov model. As a storage feature.
この構成により、本発明の音声認識装置は、音響モデルが、隠れマルコフモデルの構造を有するので、遷移確率又は出力確率のデータの混合比率を計算することにより、音声を認識処理する環境等が変化しても従来の装置よりも高い精度で音声認識を実現することができる。 With this configuration, since the acoustic model has a hidden Markov model structure, the speech recognition environment of the present invention changes the environment for speech recognition processing, etc. by calculating the mixing ratio of transition probability or output probability data. Even so, speech recognition can be realized with higher accuracy than conventional devices.
本発明の音声認識方法は、入力信号の特徴を分析し、前記入力信号の信号状態を予め定められた複数の信号状態のうちのいずれかに分類した後、所定の音響モデルが作成される際に使用されたデータを混合する混合比率を前記信号状態の発生頻度に基づいて計算し、前記データを前記混合比率で混合して前記音響モデルを合成し、合成された前記音響モデルを使用して前記入力信号に対する音声認識処理を行うことを特徴とする方法である。 The speech recognition method of the present invention analyzes the characteristics of an input signal, classifies the signal state of the input signal into one of a plurality of predetermined signal states, and then creates a predetermined acoustic model. The mixing ratio for mixing the data used in the calculation is calculated based on the occurrence frequency of the signal state, the data is mixed at the mixing ratio to synthesize the acoustic model, and the synthesized acoustic model is used. A voice recognition process is performed on the input signal.
この方法により、音響モデル毎に使用されたデータを混合する混合比率を信号状態の発生頻度に基づいて計算し、混合比率で混合されたデータで学習した音響モデルによって入力信号に対する音声認識処理を行うので、音声を認識処理する環境等が変化しても従来の装置よりも高い精度で音声認識を実現することができる。 By this method, the mixing ratio for mixing the data used for each acoustic model is calculated based on the occurrence frequency of the signal state, and the speech recognition process is performed on the input signal by the acoustic model learned from the data mixed at the mixing ratio. Therefore, voice recognition can be realized with higher accuracy than conventional devices even if the environment or the like for voice recognition processing changes.
本発明の音声認識プログラムは、入力信号の特徴を分析するステップと、前記入力信号の信号状態を予め定められた複数の信号状態のうちのいずれかに分類するステップと、所定の音響モデルが作成される際に使用されたデータを混合する混合比率を前記信号状態の発生頻度に基づいて計算するステップと、前記データを前記混合比率で混合して前記音響モデルを合成するステップと、合成された前記音響モデルを使用して前記入力信号に対する音声認識処理を行うステップとを含むことを特徴とするプログラムである。 The speech recognition program according to the present invention includes a step of analyzing a feature of an input signal, a step of classifying the signal state of the input signal into one of a plurality of predetermined signal states, and a predetermined acoustic model Calculating a mixing ratio based on the frequency of occurrence of the signal state, mixing the data at the mixing ratio, and synthesizing the acoustic model. Performing a voice recognition process on the input signal using the acoustic model.
このプログラムにより、従来のプログラムよりも高精度の音声認識処理をコンピュータに実行させることができる。 With this program, it is possible to cause a computer to execute voice recognition processing with higher accuracy than a conventional program.
本発明は、従来の装置よりも高い精度で音声認識を実現することができるという効果を有する音声認識装置を提供することができるものである。 The present invention can provide a speech recognition device having an effect that speech recognition can be realized with higher accuracy than conventional devices.
以下、本発明の実施の形態について図面を用いて説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
(第1の実施の形態)
まず、本発明の第1の実施の形態の音声認識装置の構成について説明する。
(First embodiment)
First, the configuration of the speech recognition apparatus according to the first embodiment of the present invention will be described.
図1に示すように、本実施の形態の音声認識装置10は、入力信号の特徴を分析し、入力信号の信号状態を予め定められた複数の信号状態のうちのいずれかに分類する信号状態分類手段11と、信号状態分類手段11によって分類された信号状態の発生頻度を計算する状態発生頻度計算手段12と、予め定められた複数の音響モデル及び複数の音響モデルが作成される際に使用された複数の音響モデル毎のデータを格納する音響モデル格納メモリ13と、状態発生頻度計算手段12によって計算された発生頻度に基づいてデータの混合比率を計算する音響モデル混合比率計算手段14と、音響モデル格納メモリ13に記憶されたデータを混合比率で混合して音響モデルを合成する音響モデル合成手段15と、音響モデル合成手段15によって合成された音響モデルを使用して入力信号に対する音声認識処理を行う音声認識手段16とを備えている。
As shown in FIG. 1, the
ここで、信号状態分類手段11によって分類される信号状態とは、例えば、騒音の種類やSN比、話者の性別、年齢、話すスピードなどの特徴で分類された状態をいう。 Here, the signal state classified by the signal state classification means 11 refers to a state classified by characteristics such as noise type, SN ratio, speaker gender, age, and speaking speed.
信号状態分類手段11は、入力信号の特徴を分析し、例えば、予め設定された入力信号のSN比による信号状態のうちのいずれかに分類するようになっている。 The signal state classification means 11 analyzes the characteristics of the input signal and classifies it into one of signal states based on, for example, a preset S / N ratio of the input signal.
さらに具体的には、信号状態分類手段11が分類すべき信号状態として、例えば、「SN比が25dB以上の信号状態A」、「SN比が15以上25dB未満の信号状態B」及び「SN比が15dB未満の信号状態C」の3つが予め設定されている場合、信号状態分類手段11は、入力信号のSN比を所定の時間フレーム毎に算出することによって、入力信号の信号状態を時間フレーム毎に信号状態A、B及びCのいずれかに分類するようになっている。
More specifically, the signal states to be classified by the signal
なお、以下の説明において、本実施の形態の音声認識装置10は、前述の信号状態A、B及びCの状態にある入力信号に対して音声認識するものとして説明する。
In the following description, the
状態発生頻度計算手段12は、所定の時間(以下「発生頻度計算時間」という。)内において、入力信号が信号状態A、B及びCの状態にある時間比率を計算することによって、信号状態の発生頻度を計算するようになっている。 The state occurrence frequency calculation means 12 calculates a time ratio in which the input signal is in the signal states A, B, and C within a predetermined time (hereinafter referred to as “occurrence frequency calculation time”). The frequency of occurrence is calculated.
具体的には、例えば発生頻度計算時間を100秒間とした場合、SN比が25dB以上の信号状態A、SN比が15以上25dB未満の信号状態B及びSN比が15dB未満の信号状態Cの状態の時間が、それぞれ、30秒、60秒及び10秒のとき、状態発生頻度計算手段12は、信号状態A、信号状態B及び信号状態Cの発生頻度を、それぞれ、30%、60%及び10%と計算するようになっている。 Specifically, for example, when the occurrence frequency calculation time is 100 seconds, the signal state A with an SN ratio of 25 dB or more, the signal state B with an SN ratio of 15 or more and less than 25 dB, and the signal state C with an SN ratio of less than 15 dB The state occurrence frequency calculation means 12 calculates the occurrence frequencies of the signal state A, the signal state B, and the signal state C, respectively, at 30%, 60%, and 10 seconds, respectively. % Is calculated.
なお、発生頻度計算時間は、前述の100秒間に限定されるものではなく、20秒や10分等でもよい。また、状態発生頻度計算手段12が、発生頻度計算時間を例えばSN比の時間的な変化に応じて設定し、発生頻度を計算するように構成してもよい。この構成により、状態発生頻度計算手段12は、SN比が短時間で変化するときは例えば5秒毎に発生頻度を計算し、またSN比が時間的にほとんど変化しないときは例えば20分毎に発生頻度を計算するので、CPUやメモリ等のリソースを有効に活用することができる。
The occurrence frequency calculation time is not limited to the above-mentioned 100 seconds, and may be 20 seconds or 10 minutes. Further, the state occurrence
音響モデル格納メモリ13は、図2に示すように、例えばSN比30dBで学習した音響モデルA、SN比20dBで学習した音響モデルB及びSN比10dBで学習した音響モデルCと、音響モデルA、B及びCを作成する際に学習で使用したそれぞれの音声データA、B及びCとを格納している。
As shown in FIG. 2, the acoustic
具体的には、音響モデル格納メモリ13は、SN比30dBの環境で収録された複数の音声データA及び音声データAで学習して作成された音響モデルAと、SN比20dBの環境で収録された複数の音声データB及び音声データBで学習して作成された音響モデルBと、SN比10dBの環境で収録された複数の音声データC及び音声データCで学習して作成された音響モデルCとを備えている。なお、図2に示された音響モデルA、B及びCには、それぞれ、音声データA、B及びCが含まれているものとする。
Specifically, the acoustic
音響モデル混合比率計算手段14は、状態発生頻度計算手段12によって計算された発生頻度が高くなるに従って、音響モデルA、B及びCを合成する際の各音響モデルに対応する音声データの混合比率が大きくなるよう計算するようになっている。 The acoustic model mixture ratio calculation means 14 has a sound data mixture ratio corresponding to each acoustic model when the acoustic models A, B, and C are synthesized as the occurrence frequency calculated by the state occurrence frequency calculation means 12 increases. Calculations are made to increase.
例えば図2に示すように、状態発生頻度計算手段12によって計算された信号状態A、B及びCの発生頻度が、それぞれ、30%、60%及び10%の場合、音響モデル混合比率計算手段14は、それぞれの混合比率を0.3、0.6及び0.1と計算するようになっている。
For example, as shown in FIG. 2, when the occurrence frequencies of the signal states A, B, and C calculated by the state occurrence
音響モデル合成手段15は、音響モデル混合比率計算手段14によって計算された混合比率を重み係数とし、音響モデル格納メモリ13に格納された音声データA、B及びCを混合し、新たな音響モデルを合成するようになっている。なお、音響モデル合成手段15によって合成された音響モデルを以下「合成音響モデル」という。
The acoustic
具体的には、音響モデル合成手段15は、図2に示すように、それぞれ複数のデータで構成されたデータA、B及びCから、それぞれの重み係数0.3、0.6及び0.1の割合で各データを使用して学習し、合成音響モデルを生成する。
Specifically, as shown in FIG. 2, the acoustic
音声認識手段16は、合成音響モデルを使用して入力信号に対する音声認識処理を行い、音声認識処理の結果を出力するようになっている。 The voice recognition means 16 performs voice recognition processing on the input signal using the synthetic acoustic model, and outputs the result of the voice recognition processing.
次に、本実施の形態の音声認識装置10の動作について説明する。なお、前述の信号状態A、B及びCの状態における入力信号に対して音声認識を行う場合を例に挙げて説明する。
Next, the operation of the
まず、信号状態分類手段11によって、入力信号の特徴が分析され、入力信号の信号状態が、信号状態A、B及びCのいずれかに分類される。
First, the characteristics of the input signal are analyzed by the signal
次いで、状態発生頻度計算手段12によって、発生頻度計算時間内における信号状態A、B及びCの状態の発生頻度が計算される。 Next, the occurrence frequency of the signal states A, B, and C within the occurrence frequency calculation time is calculated by the state occurrence frequency calculation means 12.
さらに、音響モデル混合比率計算手段14によって、音響モデル格納メモリ13に格納された音声データA、B及びCを混合する混合比率が発生頻度に基づいて計算される。
Further, the acoustic model mixture ratio calculation means 14 calculates a mixture ratio for mixing the audio data A, B, and C stored in the acoustic
続いて、音響モデル合成手段15によって、混合比率を重み係数として音響モデル格納メモリ13に格納された音声データA、B及びCが混合され、合成音響モデルが生成される。
Subsequently, the acoustic
そして、音声認識手段16によって、入力信号に対する音声認識が合成音響モデルを使用して実行され、音声認識結果が出力される。
Then, the
なお、本実施の形態において、信号状態をSN比に基づいて分類したが、本発明はこれに限定されるものではなく、騒音の種類や話者の性別、年齢、話す速度等の特徴で分類してもよい。 In this embodiment, the signal states are classified based on the SN ratio. However, the present invention is not limited to this, and is classified according to characteristics such as noise type, speaker gender, age, and speaking speed. May be.
例えば、本実施の形態の音声認識装置10を携帯可能な音声入力型のカーナビゲーション装置に適用する場合、騒音の種類で入力信号の信号状態を分類するよう信号状態分類手段11を設定し、家庭内及び車両内の騒音で学習した音響モデル及びそのデータを用意すれば、家庭内において音声でルート設定した後、カーナビゲーション装置を家庭内から車内に移動し継続して使用するときでも、使用する環境等の変化に依存せず、騒音の種類に対応した精度のよい音声認識を行うことができる。
For example, when the
また、本実施の形態の音声認識装置10は、例えばコンピュータで構成される。この構成の場合、コンピュータは、音声認識装置10として動作するよう作成されたプログラムを記憶媒体から読み出したり、ネットワークを介して受信したりして実行することにより、従来の装置よりも高い精度で音声認識を実現することができる。
Moreover, the
以上のように、本実施の形態の音声認識装置10によれば、音響モデル合成手段15は、音響モデル格納メモリ13に格納された音声データA、B及びCを信号状態に応じた混合比率で混合して合成音響モデルを生成し、音声認識手段16は、合成音響モデルを使用して入力信号に対する音声認識処理を行う構成としたので、音声を認識処理する環境等が変化しても従来の装置よりも高い精度で音声認識を実現することができる。
As described above, according to the
なお、本実施の形態において、音響モデルを作成するデータを音声データとして説明したが、本発明はこれに限定されるものではなく、音響モデルを作成する際の音声データの時間波形データ、メルケプストラム係数、デルタメルケプストラム係数、デルタ対数パワー係数等のデータであっても同様の効果が得られる。 In the present embodiment, data for creating an acoustic model has been described as speech data. However, the present invention is not limited to this, and time waveform data, mel cepstrum of speech data for creating an acoustic model is not limited to this. Similar effects can be obtained with data such as a coefficient, a delta-mel cepstrum coefficient, and a delta logarithmic power coefficient.
また、本実施の形態における音響モデルが隠れマルコフモデルの構造を有す場合、前述の音響モデルA、B及びCの遷移確率又は出力確率のデータに重み係数を使用して合成音響モデルを生成するよう構成しても同様の効果が得られる。 Further, when the acoustic model in the present embodiment has a hidden Markov model structure, a synthetic acoustic model is generated by using a weighting factor for the transition probability or output probability data of the acoustic models A, B, and C described above. Even if it comprises, the same effect is acquired.
(第2の実施の形態)
まず、本発明の第2の実施の形態の音声認識装置の構成について説明する。ただし、本発明の第1の実施の形態の音声認識装置10と同様な構成については同一の符号を付して説明を省略する。
(Second Embodiment)
First, the configuration of the speech recognition apparatus according to the second embodiment of the present invention will be described. However, the same components as those of the
図3に示すように、本実施の形態の音声認識装置20は、状態発生頻度計算手段12の計算結果及び音声認識手段16の音声認識結果に基づいて混合比率を計算する音響モデル混合比率計算手段14を備えている。
As shown in FIG. 3, the
次に、本実施の形態の音声認識装置20の動作について説明する。ただし、本発明の第1の実施の形態の音声認識装置10と同様な動作については説明を省略する。
Next, the operation of the
音響モデル混合比率計算手段14によって、状態発生頻度計算手段12が計算した発生頻度と、音声認識手段16が出力した音声認識結果とが入力される。 The acoustic model mixture ratio calculation means 14 inputs the occurrence frequency calculated by the state occurrence frequency calculation means 12 and the speech recognition result output by the speech recognition means 16.
ここで、音声認識結果の確からしさを数値で表したスコアが所定値以上のときは、音響モデル混合比率計算手段14は、混合比率の計算結果が入力信号の信号状態に適応していると判断し、本発明の第1の実施の形態で説明したように、状態発生頻度計算手段12の計算結果に基づいて混合比率を計算する。 Here, when the score representing the probability of the speech recognition result as a numerical value is equal to or greater than a predetermined value, the acoustic model mixture ratio calculation means 14 determines that the calculation result of the mixture ratio is adapted to the signal state of the input signal. Then, as described in the first embodiment of the present invention, the mixing ratio is calculated based on the calculation result of the state occurrence frequency calculation means 12.
一方、音声認識結果のスコアが所定値未満のときは、音響モデル混合比率計算手段14は、混合比率の計算結果が入力信号の信号状態に適応していないと判断し、発生頻度の変化傾向に基づいた混合比率を算出する。 On the other hand, when the score of the speech recognition result is less than the predetermined value, the acoustic model mixture ratio calculation means 14 determines that the calculation result of the mixture ratio is not adapted to the signal state of the input signal, and the occurrence frequency tends to change. Based on the mixing ratio.
例えば、入力信号の信号状態が刻々と変化しているような場面では、混合比率の計算結果が入力信号の信号状態に適応しない場合が生じ、音声認識結果のスコアが低下することがある。そこで、音響モデル混合比率計算手段14は、信号状態の発生頻度の時間的な変化傾向に基づき、音声認識結果のスコアが所定値以上になるよう混合比率を算出する。 For example, in a scene where the signal state of the input signal changes every moment, the calculation result of the mixing ratio may not be adapted to the signal state of the input signal, and the score of the speech recognition result may be lowered. Therefore, the acoustic model mixture ratio calculation means 14 calculates the mixture ratio based on the temporal change tendency of the occurrence frequency of the signal state so that the score of the speech recognition result becomes a predetermined value or more.
具体的には、音響モデル混合比率計算手段14は、ある時刻において、信号状態A、B及びCの発生頻度が、それぞれ、10%、50%及び40%であり、また、信号状態Cの時間的な変化傾向が最も大きいとする。このときの音声認識結果のスコアが所定値よりも低いとき、音響モデル混合比率計算手段14は、信号状態A、B及びCの発生頻度を、それぞれ、10%、40%及び50%と仮設定した混合比率を算出する。すなわち、音響モデル混合比率計算手段14は、最も時間的な変化率が大きい信号状態Cの発生頻度を実際の値よりも上げた混合比率を算出し、入力信号に対する音声認識結果のスコアを上げるよう動作する。 Specifically, the acoustic model mixture ratio calculation means 14 has the occurrence frequencies of the signal states A, B, and C at a certain time of 10%, 50%, and 40%, respectively, and the time of the signal state C. Suppose that there is the largest change tendency. When the score of the voice recognition result at this time is lower than a predetermined value, the acoustic model mixture ratio calculation means 14 temporarily sets the occurrence frequencies of the signal states A, B, and C to 10%, 40%, and 50%, respectively. Calculate the mixing ratio. That is, the acoustic model mixture ratio calculation means 14 calculates a mixture ratio obtained by raising the frequency of occurrence of the signal state C having the largest temporal change rate from the actual value so as to increase the score of the speech recognition result for the input signal. Operate.
なお、本実施の形態の音声認識装置20は、信号状態の発生頻度及び時間的変化と音声認識結果のスコアとの関係を音響モデル混合比率計算手段14に学習させる構成を備えることもできる。この構成により、本実施の形態の音声認識装置20は、音声を認識する環境等が急激に変化して音声認識結果のスコアが一時低下しても、短時間で音声認識結果のスコアを所定値以上に復帰させることができる。
Note that the
以上のように、本実施の形態の音声認識装置20によれば、音響モデル混合比率計算手段14が、状態発生頻度計算手段12の計算結果及び音声認識手段16の音声認識結果に基づいて混合比率を計算する構成としたので、入力信号の信号状態及び音声認識結果のスコアに適応する混合比率を算出することができ、従来の装置よりも高い精度で音声認識を実現することができる。
As described above, according to the
なお、本実施の形態において、信号状態の発生頻度の変化傾向と音声認識結果のスコアとに基づく混合比率の算出について説明したが、本発明はこれに限定されるものではなく、例えば、信号状態がほぼ一定で変化しない環境にもかかわらず音声認識結果のスコアが所定値未満の状態の場合においても、音響モデル混合比率計算手段14が、音声認識結果のスコアを参照して混合比率を算出することにより、音声の認識性能を高めることができる。 In the present embodiment, the calculation of the mixing ratio based on the change tendency of the occurrence frequency of the signal state and the score of the speech recognition result has been described. However, the present invention is not limited to this, and for example, the signal state Even when the score of the speech recognition result is less than a predetermined value in spite of the environment in which the sound is almost constant, the acoustic model mixture ratio calculation means 14 calculates the mixture ratio with reference to the score of the speech recognition result. Thus, speech recognition performance can be improved.
(第3の実施の形態)
まず、本発明の第3の実施の形態の音声認識装置の構成について説明する。ただし、本発明の第1の実施の形態の音声認識装置10と同様な構成については同一の符号を付して説明を省略する。
(Third embodiment)
First, the configuration of the speech recognition apparatus according to the third embodiment of the present invention will be described. However, the same components as those of the
図4に示すように、本実施の形態の音声認識装置30は、音響モデル混合比率を入力する音響モデル混合比率入力手段31を備えている。
As shown in FIG. 4, the
音響モデル混合比率入力手段31は、例えば、図5(a)に示すようなスイッチと、図5(b)に示すようなテーブルを記憶するメモリ(図示せず)とによって構成され、スイッチレバーS1〜S3の位置の組み合わせによるスイッチパターンで混合比率を入力するようになっている。 The acoustic model mixture ratio input means 31 includes, for example, a switch as shown in FIG. 5A and a memory (not shown) that stores a table as shown in FIG. 5B, and a switch lever S1. The mixing ratio is input by a switch pattern based on a combination of the positions of S3.
例えば、音響モデル混合比率入力手段31が図5(a)に示されたスイッチパターン「1、1、0」で混合比率を入力したとき、音響モデル混合比率計算手段14は、図5(b)に示すテーブルに基づき、各音響モデルに対応する音声データA、B及びCの混合比率を、それぞれ、0.4、0.4及び0.2に設定するようになっている。 For example, when the acoustic model mixture ratio input means 31 inputs the mixture ratio with the switch pattern “1, 1, 0” shown in FIG. 5A, the acoustic model mixture ratio calculation means 14 displays the result shown in FIG. Based on the table shown in Fig. 4, the mixing ratio of the audio data A, B, and C corresponding to each acoustic model is set to 0.4, 0.4, and 0.2, respectively.
次に、本実施の形態の音声認識装置30の動作について説明する。ただし、本発明の第1の実施の形態の音声認識装置10と同様な動作については説明を省略する。
Next, the operation of the
音響モデル混合比率入力手段31によって、スイッチで設定されたスイッチパターン情報が読み出され、このスイッチパターン情報及びテーブル情報が音響モデル混合比率計算手段14に出力される。 The switch pattern information set by the switch is read by the acoustic model mixture ratio input means 31, and the switch pattern information and table information are output to the acoustic model mixture ratio calculation means 14.
そして、音響モデル混合比率計算手段14によって、スイッチパターン情報及びテーブル情報に基づいて各音響モデルに対応する音声データの混合比率が設定される。 Then, the acoustic model mixture ratio calculation means 14 sets the mixture ratio of the audio data corresponding to each acoustic model based on the switch pattern information and the table information.
以上のように、本実施の形態の音声認識装置30によれば、音響モデル混合比率入力手段31は、スイッチで設定されたスイッチパターン情報による音響モデル混合比率を入力する構成としたので、入力信号の信号状態が予測できる場合や電源投入後及びリセット後の初期状態における場合等において音響モデル混合比率を容易に設定することができる。
As described above, according to the
なお、本実施の形態において、音響モデル混合比率入力手段31がスイッチ及びメモリで構成される例について説明したが、本発明はこれに限定されるものではなく、例えば、キーボード又はポインティングデバイスと、ディスプレイ等とで音響モデル混合比率入力手段31を構成し、音響モデル混合比率をディスプレイに表示された入力画面で入力する場合においても、同様な効果が得られる。 In the present embodiment, an example in which the acoustic model mixture ratio input means 31 is configured by a switch and a memory has been described. However, the present invention is not limited to this, for example, a keyboard or a pointing device, and a display The same effect can be obtained when the acoustic model mixture ratio input means 31 is configured with the above and the acoustic model mixture ratio is input on the input screen displayed on the display.
(第4の実施の形態)
まず、本発明の第4の実施の形態の音声認識装置の構成について説明する。ただし、本発明の第2の実施の形態の音声認識装置20と同様な構成については同一の符号を付して説明を省略する。
(Fourth embodiment)
First, the configuration of the speech recognition apparatus according to the fourth embodiment of the present invention will be described. However, the same components as those of the
図6に示すように、本実施の形態の音声認識装置40は、音声認識の対象である入力信号と切り替えて使用されるテストデータを発生するテストデータ発生手段41を備えている。
As shown in FIG. 6, the
テストデータ発生手段41は、入力信号として想定される様々な信号、例えば、SN比や騒音の種類等を設定した信号をテストデータとして発生するようになっている。 The test data generating means 41 generates various signals assumed as input signals, for example, signals in which the SN ratio, noise type, etc. are set as test data.
次に、本実施の形態の音声認識装置40の動作について説明する。ただし、本発明の第2の実施の形態の音声認識装置20と同様な動作については説明を省略する。
Next, the operation of the
まず、テストデータ発生手段41によって、例えば、様々なSN比のテストデータが発生される。そして、このテストデータは、前述の音声認識装置20と同様な手順で処理され、音声認識手段16によって音声認識処理される。
First, the test data generating means 41 generates test data with various signal-to-noise ratios, for example. The test data is processed in the same procedure as the
次いで、音響モデル混合比率計算手段14によって、音声認識結果のスコアとテストデータの信号状態の分類結果とに基づいて音響モデル混合比率が計算される。
Next, the acoustic model mixture
以上のように、本実施の形態の音声認識装置40によれば、テストデータ発生手段41は、入力信号として想定される様々なテストデータを発生する構成としたので、信号状態と音声認識結果のスコアとの関係を把握することができ、音声認識の性能の向上を図ることができる。
As described above, according to the
以上のように、本発明にかかる音声認識装置は、従来の装置よりも高い精度で音声認識を実現することができるという効果を有し、音声を認識する音声認識装置、音声認識方法及び音声認識プログラム等として有用である。 As described above, the speech recognition device according to the present invention has an effect that speech recognition can be realized with higher accuracy than conventional devices, and a speech recognition device, speech recognition method, and speech recognition that recognize speech. Useful as a program.
10、20、30、40 音声認識装置
11 信号状態分類手段
12 状態発生頻度計算手段
13 音響モデル格納メモリ
14 音響モデル混合比率計算手段
15 音響モデル合成手段
16 音声認識手段
31 音響モデル混合比率入力手段
41 テストデータ発生手段
DESCRIPTION OF
Claims (10)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004056528A JP2005249874A (en) | 2004-03-01 | 2004-03-01 | Device, method, and program for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004056528A JP2005249874A (en) | 2004-03-01 | 2004-03-01 | Device, method, and program for speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005249874A true JP2005249874A (en) | 2005-09-15 |
Family
ID=35030433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004056528A Pending JP2005249874A (en) | 2004-03-01 | 2004-03-01 | Device, method, and program for speech recognition |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005249874A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012137580A (en) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | Voice recognition device and voice recognition program |
US8996373B2 (en) | 2010-12-27 | 2015-03-31 | Fujitsu Limited | State detection device and state detecting method |
-
2004
- 2004-03-01 JP JP2004056528A patent/JP2005249874A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012137580A (en) * | 2010-12-27 | 2012-07-19 | Fujitsu Ltd | Voice recognition device and voice recognition program |
US8996373B2 (en) | 2010-12-27 | 2015-03-31 | Fujitsu Limited | State detection device and state detecting method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109791767B (en) | System and method for speech recognition | |
EP3690875A1 (en) | Training and testing utterance-based frameworks | |
CN1280782C (en) | Extensible speech recognition system that provides user audio feedback | |
US7272561B2 (en) | Speech recognition device and speech recognition method | |
US7660717B2 (en) | Speech recognition system and program thereof | |
US8719019B2 (en) | Speaker identification | |
KR20190100334A (en) | Contextual Hotwords | |
JP3836815B2 (en) | Speech recognition apparatus, speech recognition method, computer-executable program and storage medium for causing computer to execute speech recognition method | |
JP4410265B2 (en) | Speech recognition apparatus and method | |
US20020049587A1 (en) | Speech recognition method, storage medium storing speech recognition program, and speech recognition apparatus | |
JP2002014692A (en) | Device and method for generating acoustic model | |
KR20140025361A (en) | Location-based conversational understanding | |
JPH11119791A (en) | System and method for voice feeling recognition | |
WO2018075224A1 (en) | Determining phonetic relationships | |
KR20040088368A (en) | Method of speech recognition using variational inference with switching state space models | |
CN110097870A (en) | Method of speech processing, device, equipment and storage medium | |
US11776563B2 (en) | Textual echo cancellation | |
JP4906776B2 (en) | Voice control device | |
JP2021033051A (en) | Information processing device, information processing method and program | |
KR20020020237A (en) | Method for recognizing speech | |
JP6632764B2 (en) | Intention estimation device and intention estimation method | |
JP2005249874A (en) | Device, method, and program for speech recognition | |
JP5196114B2 (en) | Speech recognition apparatus and program | |
Seltzer et al. | In-car media search | |
Cen et al. | Generating emotional speech from neutral speech |