JP5302092B2 - Speech recognition model parameter creation device, speech recognition model parameter creation method, and speech recognition device - Google Patents
Speech recognition model parameter creation device, speech recognition model parameter creation method, and speech recognition device Download PDFInfo
- Publication number
- JP5302092B2 JP5302092B2 JP2009115183A JP2009115183A JP5302092B2 JP 5302092 B2 JP5302092 B2 JP 5302092B2 JP 2009115183 A JP2009115183 A JP 2009115183A JP 2009115183 A JP2009115183 A JP 2009115183A JP 5302092 B2 JP5302092 B2 JP 5302092B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- recognition model
- feature amount
- model parameter
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は、音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法および音声認識装置に関し、特に、マルチコンディション学習を用いて音声認識モデルパラメータを作成する音声認識モデルパラメータ作成装置、音声認識モデルパラメータ作成方法、および音声認識装置に関するものである。 The present invention relates to a speech recognition model parameter creation device, a speech recognition model parameter creation method, and a speech recognition device, and in particular, a speech recognition model parameter creation device that creates speech recognition model parameters using multi-condition learning, and a speech recognition model parameter creation. The present invention relates to a method and a speech recognition apparatus.
従来の音声認識方法として、マルチコンディション学習がある。このマルチコンディション学習は、様々な環境の雑音を有する音声データを用いて、音声認識モデルパラメータの学習を行う。そして、入力された音声データにおいて、学習の際に用いた環境の雑音と類似する雑音を有する場合には、音声認識率を向上させることとしている。 There is multi-condition learning as a conventional speech recognition method. In this multi-condition learning, speech recognition model parameters are learned using speech data having noise in various environments. When the input voice data has noise similar to the environmental noise used in learning, the voice recognition rate is improved.
このようなマルチコンディション学習を用いて音声認識を行う技術は、例えば、特開2008−122927号公報(特許文献1)に開示されている。 A technique for performing speech recognition using such multi-condition learning is disclosed in, for example, Japanese Patent Application Laid-Open No. 2008-122927 (Patent Document 1).
ここで、マルチコンディション学習では、入力された音声データにおいて、学習の際に用いた環境の雑音と大きく異なる場合には、音声認識率は低下してしまう。すなわち、マルチコンディション学習は、学習の際に用いた環境の雑音と類似する場合にのみ有効な音声認識方法である。 Here, in multi-condition learning, the speech recognition rate decreases if the input speech data is significantly different from the environmental noise used in the learning. That is, multi-condition learning is a speech recognition method that is effective only when it is similar to environmental noise used during learning.
また、様々な環境の雑音を有する音声データを用いて、音声認識モデルパラメータの学習を行った場合であっても、実際に音声認識を行う際には、学習の際に用いた様々な環境の雑音とは大きく異なる未知の雑音が混入する虞がある。この場合、音声認識率は低下してしまう。 In addition, even when speech recognition model parameters are learned using speech data having noise in various environments, when performing speech recognition, There is a risk of mixing unknown noise that is very different from noise. In this case, the voice recognition rate decreases.
この発明の目的は、音声認識率を向上させることができる音声認識モデルパラメータ作成装置を提供することである。 An object of the present invention is to provide a speech recognition model parameter creation device capable of improving the speech recognition rate.
この発明の他の目的は、音声認識率を向上させることができる音声認識モデルパラメータ作成方法を提供することである。 Another object of the present invention is to provide a speech recognition model parameter creation method capable of improving the speech recognition rate.
この発明のさらに他の目的は、音声認識率を向上させることができる音声認識装置を提供することである。 Still another object of the present invention is to provide a speech recognition apparatus capable of improving the speech recognition rate.
この発明に係る音声認識モデルパラメータ作成装置は、複数の雑音が重畳された音声データの特徴量を算出する特徴量算出手段と、特徴量算出手段により算出された特徴量を正規化する正規化手段と、正規化手段により正規化された特徴量を用いて、複数の雑音下における音声認識モデルパラメータを作成する作成手段とを備える。 The speech recognition model parameter creation device according to the present invention includes a feature amount calculation unit that calculates a feature amount of speech data on which a plurality of noises are superimposed, and a normalization unit that normalizes the feature amount calculated by the feature amount calculation unit And creating means for creating speech recognition model parameters under a plurality of noises using the feature amount normalized by the normalizing means.
好ましくは、正規化手段は、特徴量算出手段により算出された特徴量をバンドパスフィルタを用いてフィルタリングするフィルタリング手段を含む。 Preferably, the normalization unit includes a filtering unit that filters the feature amount calculated by the feature amount calculation unit using a bandpass filter.
さらに好ましくは、正規化手段は、フィルタリング手段によりフィルタリングされた特徴量をその最大振幅値で除算する除算手段を含む。 More preferably, the normalizing means includes dividing means for dividing the feature quantity filtered by the filtering means by the maximum amplitude value.
さらに好ましくは、作成手段は、音声認識モデルパラメータを学習により作成する。 More preferably, the creating means creates the speech recognition model parameter by learning.
また、この発明の他の局面においては、音声認識モデルパラメータ作成方法に関し、複数の雑音が重畳された音声データの特徴量を算出し、算出された特徴量を正規化し、正規化された特徴量を用いて、複数の雑音下における音声認識モデルパラメータを作成することを特徴とする。 In another aspect of the present invention, a method for creating a speech recognition model parameter is used to calculate a feature amount of speech data on which a plurality of noises are superimposed, normalize the calculated feature amount, and normalize the feature amount Is used to create a speech recognition model parameter under a plurality of noises.
また、この発明のさらに他の局面においては、音声認識装置に関し、上記のいずれかに記載の音声認識モデルパラメータ作成装置により作成された音声認識モデルパラメータを用いて、音声認識を行う認識手段を備える。 According to still another aspect of the present invention, the speech recognition apparatus includes a recognition unit that performs speech recognition using a speech recognition model parameter created by any of the speech recognition model parameter creation devices described above. .
この発明に係る音声認識モデルパラメータ作成装置は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。 The speech recognition model parameter creation device according to the present invention normalizes the feature amount of speech data on which a plurality of noises are superimposed, and creates a speech recognition model parameter using the normalized feature amount. Thereby, since a plurality of noises can be generalized, when performing speech recognition, it can be applied to various noises. As a result, the voice recognition rate can be improved.
また、この発明に係る音声認識モデルパラメータ作成方法は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。 The speech recognition model parameter creation method according to the present invention normalizes the feature amount of speech data on which a plurality of noises are superimposed, and creates a speech recognition model parameter using the normalized feature amount. Thereby, since a plurality of noises can be generalized, when performing speech recognition, it can be applied to various noises. As a result, the voice recognition rate can be improved.
また、この発明に係る音声認識装置は、このような音声認識モデルパラメータ作成装置により作成された音声認識モデルパラメータを用いて、音声認識を行うことができるため、音声認識率を向上させることができる。 Further, since the speech recognition apparatus according to the present invention can perform speech recognition using the speech recognition model parameters created by such a speech recognition model parameter creation device, the speech recognition rate can be improved. .
以下、図面を参照して、この発明の一実施形態に係る音声認識モデルパラメータ作成装置について説明する。図1は、音声認識装置10の構成を示すブロック図である。図2は、この発明の一実施形態に係る音声認識モデルパラメータ作成装置20の構成を示すブロック図である。まず、図1を参照して、音声認識装置10の構成について説明する。
A speech recognition model parameter creation device according to an embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing the configuration of the
音声認識装置10は、マイクロフォン14を介して、入力された音声データの特徴量を算出する音声認識装置特徴量算出部11と、音声認識を行う認識部12と、認識部12において音声認識を行う際に用いる音声認識モデルパラメータを記憶する記憶部13とを備える。
The
認識部12は、音声認識装置特徴量算出部11において算出された特徴量および記憶部13において記憶された音声認識モデルパラメータを用いて音声認識を行う。記憶部13は、認識部12において音声認識を行う際に用いる音声認識モデルパラメータを記憶する。音声認識モデルパラメータは、図2に示す音声認識モデルパラメータ作成装置20によって作成される。
The
次に、図2を参照して、音声認識モデルパラメータ作成装置20の構成について説明する。音声認識モデルパラメータ作成装置20は、マイクロフォン24を介して、雑音を含まない無雑音音声データの入力を受け付けると共に、受け付けた無雑音音声データに雑音を重畳して雑音重畳データを作成する雑音重畳部22と、雑音重畳部22によって作成された雑音重畳データの特徴量を算出する作成装置特徴量算出部21と、作成装置特徴量算出部21によって算出された特徴量を用いて、音声認識モデルパラメータを作成する学習部23と、雑音重畳部22において重畳する複数の雑音のデータを保持する保持部25とを備える。
Next, the configuration of the speech recognition model
雑音重畳部22は、保持部25から所定の雑音のデータを抽出する。そして、無雑音音声データに抽出した雑音を重畳して雑音重畳データを作成する。
The
作成装置特徴量算出部21は、雑音重畳データの特徴量を算出する。この特徴量は、例えば、MFCC(Mel Frequency Cepstral Coefficient)を採用することができる。
The creation device
学習部23は、音声認識モデルパラメータを作成する。この音声認識モデルパラメータは、例えば、隠れマルコフモデル(Hidden Markov Model:HMM)の平均値、分散値、遷移確率、重み係数等を採用することができる。
The
保持部25は、複数の雑音のデータを保持する。複数の雑音のデータとしては、例えば、雑踏雑音、白色雑音、工場雑音等の様々な種類の環境の雑音を含む構成である。
The
音声認識モデルパラメータ作成装置20は、音声認識装置10にて用いる音声認識モデルパラメータを作成する。ここで、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる場合について説明する。図3は、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる場合について示すフローチャートである。図1〜図3を参照して、説明する。
The speech recognition model
まず、音声認識モデルパラメータ作成装置20は、マイクロフォン24を介して、無雑音音声データの入力を受け付ける(図3において、ステップS11、以下ステップを省略する)。そうすると、雑音重畳部22により、保持部25から、雑踏雑音のデータを抽出し、無雑音音声データに抽出した雑踏雑音のデータを重畳して雑踏雑音重畳データを作成する。また、白色雑音のデータを抽出し、上記と同様に、白色雑音重畳データを作成する。また、工場雑音のデータを抽出し、上記と同様に、工場雑音重畳データを作成する。このように、複数の雑音のデータを抽出し、複数の雑音重畳データを作成する(S12)。
First, the speech recognition model
そして、作成装置特徴量算出部21により、S12において作成した雑音重畳データ、すなわち、雑踏雑音重畳データ、白色雑音重畳データ、および工場雑音重畳データの特徴量を算出する(S13)。具体的には、雑音重畳データにおいて、20〜30msを1フレームとして、雑音重畳データを複数のフレームに分割することにより、各フレームにおいて、特徴量を算出する。分割においては、その1フレームと後に位置するフレームとが部分的にデータを共有するように分割する。ここで、作成装置特徴量算出部21は、特徴量算出手段として作動する。
Then, the creation device feature
図4は、算出した特徴量を示すグラフである。図4を参照して、点線で雑踏雑音重畳データの特徴量を示し、一点鎖線で白色雑音重畳データの特徴量を示し、実線で工場雑音重畳データの特徴量を示している。また、横軸はフレームを示し、縦軸は特徴量の振幅値を示している。図4を参照して、非音声区間Aにおいて、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量と、工場雑音重畳データの特徴量とは、振幅の差が大きくなっている。また、音声区間Bにおいても、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量および工場雑音重畳データの特徴量とは、振幅の差が大きくなっている。また、フレーム10における特徴量の振幅値を比較すると、雑踏雑音重畳データにおいては0.8を示し、白色雑音重畳データにおいては−4を示し、工場雑音重畳データにおいては−0.3を示している。
FIG. 4 is a graph showing the calculated feature amount. With reference to FIG. 4, the dotted line indicates the feature amount of the hustle noise superimposed data, the alternate long and short dash line indicates the feature amount of the white noise superimposed data, and the solid line indicates the feature amount of the factory noise superimposed data. The horizontal axis indicates the frame, and the vertical axis indicates the amplitude value of the feature amount. Referring to FIG. 4, in the non-speech section A, the difference in amplitude between the feature amount of the white noise superimposed data, the feature amount of the hustle noise superimposed data, and the feature amount of the factory noise superimposed data is large. Also in the speech section B, the difference in amplitude is large between the feature amount of the white noise superimposed data, the feature amount of the hustle noise superimposed data, and the feature amount of the factory noise superimposed data. Further, when comparing the amplitude values of the feature values in the
そして、特徴量の算出が終了すると、算出した特徴量を正規化し、正規化された特徴量、すなわち、正規化特徴量を得る。この正規化特徴量は、音声の時間変化が緩やかであることを利用している。具体的には、まず、バンドパスフィルタを用いて、特徴量をフィルタリングする(S14)。すなわち、所定の範囲の周波数成分のみを通過させ、それ以外の周波数成分は通過させないよう、特徴量をフィルタリングする。また、このバンドパスフィルタは、FIR(Finite impulse response)型のフィルタである。これにより、安定して処理を行うことができる。 Then, when the calculation of the feature amount is completed, the calculated feature amount is normalized to obtain a normalized feature amount, that is, a normalized feature amount. This normalized feature value utilizes the fact that the time change of the voice is gradual. Specifically, first, a feature amount is filtered using a bandpass filter (S14). That is, the feature amount is filtered so that only frequency components in a predetermined range are allowed to pass and other frequency components are not allowed to pass. The bandpass filter is a FIR (Finite impulse response) type filter. Thereby, a process can be performed stably.
図5は、図4に示す特徴量をフィルタリングした場合について示すグラフである。図4と同様に、点線で雑踏雑音重畳データの特徴量を示し、一点鎖線で白色雑音重畳データの特徴量を示し、実線で工場雑音重畳データの特徴量を示している。また、横軸はフレームを示し、縦軸は特徴量の振幅値を示している。図5を参照して、非音声区間Aおよび音声区間Bにおいて、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量と、工場雑音重畳データの特徴量とは、図4に示すよりも、波形が揃い、振幅の差が小さくなっている。また、フレーム10における特徴量の振幅値を比較すると、雑踏雑音重畳データおよび工場雑音重畳データにおいては−0.3を示し、白色雑音重畳データにおいては−0.7を示している。すなわち、フィルタリングすることにより、波形の異なる複数のデータにおいて、波形を揃えることができ、データを一般化することができる。
FIG. 5 is a graph showing the case where the feature amount shown in FIG. 4 is filtered. As in FIG. 4, the dotted line indicates the feature amount of the hustle noise superimposed data, the dashed line indicates the feature amount of the white noise superimposed data, and the solid line indicates the feature amount of the factory noise superimposed data. The horizontal axis indicates the frame, and the vertical axis indicates the amplitude value of the feature amount. Referring to FIG. 5, in the non-voice section A and the voice section B, the feature amount of the white noise superimposed data, the feature amount of the hustle noise superimposed data, and the feature amount of the factory noise superimposed data are as shown in FIG. However, the waveforms are uniform and the difference in amplitude is small. Further, when comparing the amplitude values of the feature values in the
そして、特徴量のフィルタリングが終了すると、フィルタリングされた特徴量を、フィルタリングされた特徴量の最大振幅値で除算(割算)する(S15)。例えば、図5を参照して、雑踏雑音重畳データにおいては、その最大振幅値であるaで除算し、白色雑音重畳データにおいては、その最大振幅値であるbで除算し、工場雑音重畳データにおいては、その最大振幅値であるcで除算する。 Then, when filtering of the feature amount is completed, the filtered feature amount is divided (divided) by the maximum amplitude value of the filtered feature amount (S15). For example, referring to FIG. 5, in the hustle noise superimposition data, the maximum amplitude value is divided by a, and in the white noise superimposition data, the maximum amplitude value is divided by b. Is divided by c which is its maximum amplitude value.
図6は、図5に示す特徴量を最大振幅値a,b,cで除算した場合について示すグラフである。図5と同様に、点線で雑踏雑音重畳データの特徴量を示し、一点鎖線で白色雑音重畳データの特徴量を示し、実線で工場雑音重畳データの特徴量を示している。また、横軸はフレームを示し、縦軸は特徴量の振幅値を示している。図6を参照して、非音声区間Aおよび音声区間Bにおいて、白色雑音重畳データの特徴量と、雑踏雑音重畳データの特徴量と、工場雑音重畳データの特徴量とは、図5に示すよりも、さらに波形が揃い、振幅の差が小さくなっている。また、フレーム10における特徴量の振幅値を比較すると、雑踏雑音重畳データおよび工場雑音重畳データにおいては−0.23を示し、白色雑音重畳データにおいては−0.27を示している。すなわち、最大振幅値で除算することにより、波形の異なる複数のデータにおいて、さらに波形を揃えることができ、データを一般化することができる。
FIG. 6 is a graph showing the case where the feature amount shown in FIG. 5 is divided by the maximum amplitude values a, b, and c. Similar to FIG. 5, the dotted line indicates the feature amount of the hustle noise superimposed data, the alternate long and short dash line indicates the feature amount of the white noise superimposed data, and the solid line indicates the feature amount of the factory noise superimposed data. The horizontal axis indicates the frame, and the vertical axis indicates the amplitude value of the feature amount. Referring to FIG. 6, in the non-voice section A and the voice section B, the feature amount of the white noise superimposed data, the feature amount of the hustle noise superimposed data, and the feature amount of the factory noise superimposed data are as shown in FIG. However, the waveforms are more uniform and the difference in amplitude is smaller. In addition, when comparing the amplitude values of the feature values in the
このように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算することにより、算出した特徴量を正規化し、正規化特徴量を得る。ここで、作成装置特徴量算出部21は、正規化手段、フィルタリング手段、および除算手段として作動する。
In this way, by filtering using a bandpass filter and dividing by the maximum amplitude value, the calculated feature value is normalized to obtain a normalized feature value. Here, the creation device feature
そして、学習部23により、それぞれの正規化特徴量を用いて、音声認識モデルパラメータを作成する(S16)。具体的には、マルチコンディション学習を行うことにより、音声認識モデルパラメータを作成する。ここで、学習部23は、作成手段として作動する。そして、音声認識モデルパラメータを音声認識装置10の記憶部13に記憶させる(S17)。
Then, the
このように、音声認識モデルパラメータ作成装置20は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。
As described above, the speech recognition model
また、このような音声認識モデルパラメータ作成方法は、複数の雑音が重畳された音声データの特徴量を正規化し、この正規化された特徴量を用いて、音声認識モデルパラメータを作成する。これにより、複数の雑音を一般化することができるため、音声認識を行う際には、様々な雑音に適用させることができる。その結果、音声認識率を向上させることができる。 In addition, such a speech recognition model parameter creation method normalizes the feature amount of speech data on which a plurality of noises are superimposed, and creates a speech recognition model parameter using the normalized feature amount. Thereby, since a plurality of noises can be generalized, when performing speech recognition, it can be applied to various noises. As a result, the voice recognition rate can be improved.
なお、図4〜図6に示す特徴量の振幅値は、入力される音声データにより異なる値となる。 Note that the amplitude values of the feature amounts shown in FIGS. 4 to 6 vary depending on the input audio data.
次に、音声認識装置10を用いて、音声認識を行う場合について説明する。図7は、音声認識装置10を用いて、音声認識を行う場合について示すフローチャートである。図1〜図7を参照して、説明する。
Next, a case where voice recognition is performed using the
まず、音声認識装置10は、マイクロフォン14を介して、音声データの入力を受け付ける(S21)。そして、音声認識装置特徴量算出部11により、音声データの特徴量を算出する。
First, the
この特徴量の算出は、上記した図3のS13〜S15と同様に行う。すなわち、音声データを複数のフレームに分割し、各フレームにおいて、特徴量を算出する(S22)。そして、音声データの特徴量の算出が終了すると、算出した特徴量を正規化、すなわち、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算することにより、音声データの正規化特徴量を得る(S23)。 The calculation of the feature amount is performed in the same manner as S13 to S15 in FIG. That is, the audio data is divided into a plurality of frames, and the feature amount is calculated in each frame (S22). When the calculation of the feature value of the voice data is completed, the calculated feature value is normalized, that is, filtered using a bandpass filter, and divided by the maximum amplitude value, thereby obtaining the normalized feature value of the voice data. (S23).
そして、認識部12により、S23において算出した音声データの正規化特徴量および上記した図3において記憶した音声認識モデルパラメータを用いて音声認識を行う(S24)。ここで、認識部12は、認識手段として作動する。音声認識は、例えば、S23において算出した音声データの正規化特徴量と音声認識モデルパラメータとを比較して尤度値を算出し、算出した尤度値に基づいて行う。
Then, the
このように、音声認識装置10は、音声認識モデルパラメータ作成装置20により作成された音声認識モデルパラメータを用いて、音声認識を行うことができるため、音声認識率を向上させることができる。
As described above, since the
なお、上記の実施の形態においては、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる際に、S14〜S15に示すように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算する例について説明したが、これに限ることなく、バンドパスフィルタを用いてフィルタリングしたのちに、分散値で除算してもよい。
In the above-described embodiment, when the speech recognition model parameter is created using the speech recognition model
また、上記の実施の形態においては、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる際に、S14〜S15に示すように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算する例について説明したが、これに限ることなく、以下に示す他の実施形態を採用することもできる。
In the above embodiment, when the speech recognition model parameters are created using the speech recognition model
図8は、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる場合の他の実施形態について示すフローチャートである。なお、S31〜S33においては、図3に示すS11〜S13と同様であるため、説明は省略する。
FIG. 8 is a flowchart illustrating another embodiment in which a speech recognition model parameter is created using the speech recognition model
図8を参照して、まず、S33において特徴量の算出が終了すると、算出した特徴量の平均値を求める(S34)。次に、求めた平均値をS33において算出した特徴量から減算する(S35)。そして、ローパスフィルタを用いて、減算した特徴量をフィルタリングする(S36)。さらに、フィルタリングした特徴量を、フィルタリングした特徴量の最大振幅値で除算する(S37)。 Referring to FIG. 8, first, when the calculation of the feature value is completed in S33, an average value of the calculated feature values is obtained (S34). Next, the obtained average value is subtracted from the feature amount calculated in S33 (S35). Then, the subtracted feature amount is filtered using a low-pass filter (S36). Further, the filtered feature value is divided by the maximum amplitude value of the filtered feature value (S37).
このように、平均値を減算し、ローパスフィルタを用いてフィルタリングし、最大振幅値で除算することにより、算出した特徴量を正規化し、正規化特徴量を得ることとしてもよい。そして、音声認識モデルパラメータを作成し(S38)、記憶部13に記憶させる(S39)。 In this way, the average value is subtracted, filtered using a low-pass filter, and divided by the maximum amplitude value, thereby normalizing the calculated feature value to obtain a normalized feature value. Then, a speech recognition model parameter is created (S38) and stored in the storage unit 13 (S39).
また、上記の実施の形態においては、音声認識モデルパラメータ作成装置20を用いて、音声認識モデルパラメータを作成し、音声認識装置10の記憶部13に記憶させる際に、S14〜S15に示すように、バンドパスフィルタを用いてフィルタリングし、最大振幅値で除算する例について説明したが、これに限ることなく、バンドパスフィルタを用いてフィルタリングするのみであってもよい。
In the above embodiment, when the speech recognition model parameters are created using the speech recognition model
また、上記の実施の形態においては、FIR型のフィルタを採用する例について説明したが、これに限ることなく、IIR(Infinite Impulse Response)型のフィルタを採用してもよい。これにより、処理の演算量を少なくすることができる。 In the above-described embodiment, an example in which an FIR type filter is used has been described. However, the present invention is not limited to this, and an IIR (Infinite Impulse Response) type filter may be used. Thereby, the processing amount of processing can be reduced.
また、上記の実施の形態においては、S12〜S13において、雑踏雑音重畳データ、白色雑音重畳データ、および工場雑音重畳データを作成し、それぞれの特徴量を算出する例について説明したが、これに限ることなく、工場雑音重畳データを作成しない構成としてもよい。すなわち、雑踏雑音重畳データおよび白色雑音重畳データのうちの少なくともいずれか一方のデータの特徴量を算出してもよい。 In the above-described embodiment, an example has been described in which the crowd noise superimposition data, the white noise superimposition data, and the factory noise superimposition data are generated in S12 to S13, and the respective feature amounts are calculated. In addition, the configuration may be such that factory noise superimposition data is not created. That is, the feature amount of at least one of the hustle noise superimposed data and the white noise superimposed data may be calculated.
また、上記の実施の形態においては、S12において、雑音重畳データとして、雑踏雑音重畳データ、白色雑音重畳データ、および工場雑音重畳データを作成する例について説明したが、これに限ることなく、重畳する雑音の量を無視可能な程度に小さくしたデータを含める構成としてもよい。すなわち、雑音重畳データとして、無雑音音声データを含める構成としてもよい。 In the above-described embodiment, the example of creating the hustle noise superimposing data, the white noise superimposing data, and the factory noise superimposing data as the noise superimposing data in S12 has been described. It may be configured to include data in which the amount of noise is made small enough to be ignored. In other words, noiseless data may be included as noise superimposed data.
また、上記の実施の形態においては、保持部25において、様々な環境の複数の雑音のデータを保持する例について説明したが、これに限ることなく、例えば、様々な環境のうち特定種類の複数の雑音を保持してもよい。すなわち、複数の雑音は、特定種類の複数の雑音を含む構成である。例えば、特定種類として工場に関する複数の雑音、具体的には、第1の工場の雑音と、第2の工場の雑音とを保持する。そして、第1の工場の雑音重畳データと、第2の工場の雑音重畳データとを作成することにより、工場における正規化特徴量を得る。また、特定種類として雑踏に関する複数の雑音、具体的には、第1の雑踏の雑音と、第2の雑踏の雑音とを保持し、第1の雑踏の雑音重畳データと、第2の雑踏の雑音重畳データとを作成することにより、雑踏における正規化特徴量を得る。そして、工場における正規化特徴量と、雑踏における正規化特徴量とを用いて、音声認識モデルパラメータを作成してもよい。
In the above-described embodiment, the example in which the holding
また、上記の実施の形態においては、保持部25において、雑踏雑音、白色雑音、工場雑音等の雑音のデータを含む例について説明したが、これに限ることなく、車のエンジン雑音、コンピュータ等が複数設置される部屋の騒音、オーディオ音等の雑音のデータを含む構成としてもよいし、任意に設定可能である。
In the above embodiment, the holding
また、音声認識モデルパラメータ作成装置20は、ハードウェアで実装してもよいし、ソフトウェアで実装してもよい。また、音声認識装置10においても同様に、ハードウェアで実装してもよいし、ソフトウェアで実装してもよい。
Further, the speech recognition model
以上、図面を参照してこの発明の実施形態を説明したが、この発明は、図示した実施形態のものに限定されない。図示された実施形態に対して、この発明と同一の範囲内において、あるいは均等の範囲内において、種々の修正や変形を加えることが可能である。 As mentioned above, although embodiment of this invention was described with reference to drawings, this invention is not limited to the thing of embodiment shown in figure. Various modifications and variations can be made to the illustrated embodiment within the same range or equivalent range as the present invention.
10 音声認識装置、11 音声認識装置特徴量算出部、12 認識部、13 記憶部、14 マイクロフォン、20 音声認識モデルパラメータ作成装置、21 作成装置特徴量算出部、22 雑音重畳部、23 学習部、24 マイクロフォン、25 保持部。
DESCRIPTION OF
Claims (7)
前記複数の雑音を一般化するために、前記特徴量算出手段により算出されたそれぞれの特徴量を正規化する正規化手段とを備え、
前記正規化手段は、所定の範囲の周波数成分のみを通過させるように、前記特徴量算出手段により算出されたそれぞれの特徴量をバンドパスフィルタを用いてフィルタリングするフィルタリング手段を含み、
前記正規化手段により正規化されたそれぞれの特徴量を用いて、前記複数の雑音下における音声認識モデルパラメータを作成する作成手段をさらに備える、音声認識モデルパラメータ作成装置。 Pre retained, and a plurality of noise data, the feature amount calculating means for calculating a plurality of audio data each feature amount created by Rukoto superimposed on noise-free data corresponding to a plurality of noise,
Normalizing means for normalizing each feature quantity calculated by the feature quantity calculating means in order to generalize the plurality of noises,
The normalization means includes filtering means for filtering each feature quantity calculated by the feature quantity calculation means using a bandpass filter so as to pass only frequency components in a predetermined range,
A speech recognition model parameter creation device further comprising creation means for creating a speech recognition model parameter under the plurality of noises using each feature amount normalized by the normalization means.
前記複数の雑音を一般化するために、前記特徴量算出手段により算出されたそれぞれの特徴量を正規化する正規化手段とを備え、
前記正規化手段は、
前記特徴量算出手段により算出されたそれぞれの特徴量から、前記特徴量の平均値を減算する減算手段と、
前記減算手段による減算後の特徴量を、ローパスフィルタを用いてフィルタリングする手段とを含み、
前記正規化手段により正規化されたそれぞれの特徴量を用いて、前記複数の雑音下における音声認識モデルパラメータを作成する作成手段をさらに備える、音声認識モデルパラメータ作成装置。 Pre retained, and a plurality of noise data, the feature amount calculating means for calculating a plurality of audio data each feature amount created by Rukoto superimposed on noise-free data corresponding to a plurality of noise,
Normalizing means for normalizing each feature quantity calculated by the feature quantity calculating means in order to generalize the plurality of noises,
The normalizing means includes
Subtracting means for subtracting an average value of the feature values from each feature value calculated by the feature value calculating means;
Means for filtering the feature amount after subtraction by the subtracting means using a low-pass filter,
A speech recognition model parameter creation device further comprising creation means for creating a speech recognition model parameter under the plurality of noises using each feature amount normalized by the normalization means.
予め保持された、複数の雑音それぞれに対応する複数の雑音データが、無雑音データに重畳されることによって作成された複数の音声データそれぞれの特徴量を算出するステップと、
前記複数の雑音を一般化するために、算出されたそれぞれの特徴量を正規化する正規化ステップとを備え、
前記正規化ステップは、所定の範囲の周波数成分のみを通過させるように、前記算出されたそれぞれの特徴量をバンドパスフィルタを用いてフィルタリングするステップを含み、
正規化されたそれぞれの特徴量を用いて、前記複数の雑音下における音声認識モデルパラメータを作成するステップをさらに備える、音声認識モデルパラメータ作成方法。 A method executed by a speech recognition model parameter creation device,
Pre retained the steps plurality of noise data corresponding to a plurality of noise, which calculates a plurality of audio data each feature amount created by Rukoto superimposed on noiseless data,
In order to generalize the plurality of noises, a normalization step of normalizing each calculated feature amount, and
The normalizing step includes a step of filtering each calculated feature amount using a band-pass filter so as to pass only frequency components in a predetermined range.
A speech recognition model parameter creation method, further comprising creating speech recognition model parameters under the plurality of noises using each normalized feature amount.
予め保持された、複数の雑音それぞれに対応する複数の雑音データが、無雑音データに重畳されることによって作成された複数の音声データそれぞれの特徴量を算出するステップと、
前記複数の雑音を一般化するために、算出されたそれぞれの特徴量を正規化する正規化ステップとを備え、
前記正規化ステップは、
前記算出されたそれぞれの特徴量から、前記特徴量の平均値を減算するステップと、
減算後の特徴量を、ローパスフィルタを用いてフィルタリングするステップとを含み、
正規化されたそれぞれの特徴量を用いて、前記複数の雑音下における音声認識モデルパラメータを作成するステップをさらに備える、音声認識モデルパラメータ作成方法。 A method executed by a speech recognition model parameter creation device,
Pre retained the steps plurality of noise data corresponding to a plurality of noise, which calculates a plurality of audio data each feature amount created by Rukoto superimposed on noiseless data,
In order to generalize the plurality of noises, a normalization step of normalizing each calculated feature amount, and
The normalizing step includes
Subtracting an average value of the feature quantities from the calculated feature quantities;
Filtering the feature amount after subtraction using a low-pass filter,
A speech recognition model parameter creation method, further comprising creating speech recognition model parameters under the plurality of noises using each normalized feature amount.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009115183A JP5302092B2 (en) | 2009-05-12 | 2009-05-12 | Speech recognition model parameter creation device, speech recognition model parameter creation method, and speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009115183A JP5302092B2 (en) | 2009-05-12 | 2009-05-12 | Speech recognition model parameter creation device, speech recognition model parameter creation method, and speech recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010266488A JP2010266488A (en) | 2010-11-25 |
JP5302092B2 true JP5302092B2 (en) | 2013-10-02 |
Family
ID=43363546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009115183A Active JP5302092B2 (en) | 2009-05-12 | 2009-05-12 | Speech recognition model parameter creation device, speech recognition model parameter creation method, and speech recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5302092B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717854A (en) * | 2018-05-08 | 2018-10-30 | 哈尔滨理工大学 | Method for distinguishing speek person based on optimization GFCC characteristic parameters |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63223696A (en) * | 1987-03-12 | 1988-09-19 | 株式会社リコー | Voice pattern generation system |
JPH02165198A (en) * | 1988-12-20 | 1990-06-26 | Sanyo Electric Co Ltd | Voice recognizing device |
JP3023135B2 (en) * | 1990-03-23 | 2000-03-21 | 株式会社東芝 | Voice recognition device |
JPH11311992A (en) * | 1998-04-30 | 1999-11-09 | Seiichiro Hanya | Speech recognision method |
JP4590692B2 (en) * | 2000-06-28 | 2010-12-01 | パナソニック株式会社 | Acoustic model creation apparatus and method |
JP4728791B2 (en) * | 2005-12-08 | 2011-07-20 | 日本電信電話株式会社 | Speech recognition apparatus, speech recognition method, program thereof, and recording medium thereof |
-
2009
- 2009-05-12 JP JP2009115183A patent/JP5302092B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010266488A (en) | 2010-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6411927B1 (en) | Robust preprocessing signal equalization system and method for normalizing to a target environment | |
US20090018826A1 (en) | Methods, Systems and Devices for Speech Transduction | |
US10553236B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
CN106575507B (en) | Method and apparatus for processing audio signal, audio decoder and audio encoder | |
US10755728B1 (en) | Multichannel noise cancellation using frequency domain spectrum masking | |
JP5150165B2 (en) | Method and system for providing an acoustic signal with extended bandwidth | |
JP2007011330A (en) | System for adaptive enhancement of speech signal | |
US20120203549A1 (en) | Noise rejection apparatus, noise rejection method and noise rejection program | |
JP2018041083A5 (en) | ||
CN103827967B (en) | Voice signal restoring means and voice signal restored method | |
Seidel et al. | Y $^ 2$-Net FCRN for Acoustic Echo and Noise Suppression | |
US11140495B2 (en) | Sound signal modelling based on recorded object sound | |
Ramirez et al. | Voice activity detection with noise reduction and long-term spectral divergence estimation | |
JP5302092B2 (en) | Speech recognition model parameter creation device, speech recognition model parameter creation method, and speech recognition device | |
JP2007251354A (en) | Microphone and sound generation method | |
CN109427336B (en) | Voice object recognition method and device | |
US20100049507A1 (en) | Apparatus for noise suppression in an audio signal | |
JP4847581B2 (en) | Speaker recognition device, acoustic model update method, and acoustic model update processing program | |
EP2660814B1 (en) | Adaptive equalization system | |
JP5377167B2 (en) | Scream detection device and scream detection method | |
JP3510458B2 (en) | Speech recognition system and recording medium recording speech recognition control program | |
CN111508512A (en) | Fricative detection in speech signals | |
US11195540B2 (en) | Methods and apparatus for an adaptive blocking matrix | |
WO2021043412A1 (en) | Noise reduction in a headset by employing a voice accelerometer signal | |
JP4242320B2 (en) | Voice recognition method, apparatus and program thereof, and recording medium thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120410 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120618 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20121105 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130402 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130410 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130620 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5302092 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |