JP2019035935A - Voice recognition apparatus - Google Patents

Voice recognition apparatus Download PDF

Info

Publication number
JP2019035935A
JP2019035935A JP2018023256A JP2018023256A JP2019035935A JP 2019035935 A JP2019035935 A JP 2019035935A JP 2018023256 A JP2018023256 A JP 2018023256A JP 2018023256 A JP2018023256 A JP 2018023256A JP 2019035935 A JP2019035935 A JP 2019035935A
Authority
JP
Japan
Prior art keywords
spectrum
phoneme
weighting function
input
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018023256A
Other languages
Japanese (ja)
Other versions
JP7077645B2 (en
Inventor
滋樹 青島
Shigeki Aoshima
滋樹 青島
恭平 増井
Kyohei Masui
恭平 増井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Publication of JP2019035935A publication Critical patent/JP2019035935A/en
Application granted granted Critical
Publication of JP7077645B2 publication Critical patent/JP7077645B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

To provide a voice recognition apparatus having a recognition rate thereof improved under noises.SOLUTION: A voice recognition apparatus includes: an acoustic model-processing part for obtaining a voice input and generating an input spectrum, the spectrum of voice input; an acoustic model-storing part in which each spectrum of phonemes is stored in advance as an acoustic model; and a phoneme-matching part for calculating spectral intervals among the input spectrum and each spectrum of phonemes in the acoustic model, and for specifying the phoneme having a minimum spectral interval as a phoneme for voice input, wherein the phoneme-matching part weights values based on a margin among the input spectrum and each spectrum of phonemes in each of a plurality of frequencies, and calculates the spectral interval by calculating the total amount of the weighted values.SELECTED DRAWING: Figure 2

Description

本発明は、音声認識装置に関する。   The present invention relates to a speech recognition apparatus.

従来、入力音声の特徴と予め作成された音響モデルの各音素の特徴とを比較し、類似度が高いと判定した音素を入力音声に対する音素ラベルとして同定する、音声認識装置が知られている。   2. Description of the Related Art Conventionally, a speech recognition apparatus is known that compares the characteristics of an input speech with the features of each phoneme of an acoustic model created in advance, and identifies the phoneme determined to have a high degree of similarity as a phoneme label for the input speech.

このような音声認識装置において、騒音下での認識率を向上させることが求められている。関連技術として、特許文献1は、発声時の音入力から非発声時の音入力の周波数成分を引き算することで騒音を除去することを開示している。特許文献2は、入力音声と音響モデルとの間の距離を、それぞれの静的特徴パラメータ間の距離と、動的特徴パラメータ間との距離との重みづけ和によって計算し、計算値が小さい音素を同定する際、騒音のパワーの時間変動の分散度合に基づいて変更することを開示している。   In such a speech recognition apparatus, it is required to improve the recognition rate under noise. As a related technique, Patent Document 1 discloses that noise is removed by subtracting a frequency component of sound input during non-speech from sound input during speech. Patent Document 2 calculates a distance between an input speech and an acoustic model by a weighted sum of a distance between each static feature parameter and a distance between dynamic feature parameters, and a phoneme having a small calculated value. Is identified based on the degree of dispersion of noise power over time.

特開平02−179700号公報Japanese Patent Laid-Open No. 02-179700 特開2004−184856号公報JP 2004-184856 A

騒音下での認識率向上のためには、同じ騒音特性の環境下で作成した音響モデルを用いるか、音声入力から騒音を差し引くことが考えられる。騒音環境下で音響モデルを作成する場合、複数の環境に対応させるためには、環境ごとにモデルを作成する必要があり工数がかかる。また、音声入力から騒音をスペクトル領域で差し引くとスペクトル歪みが生じ音響モデルとの比較方法によっては、かえって認識率が低下するおそれがある。このように、騒音下における認識率向上には改善の余地があった。   In order to improve the recognition rate under noise, it is conceivable to use an acoustic model created in an environment with the same noise characteristics or to subtract noise from speech input. When creating an acoustic model in a noisy environment, it is necessary to create a model for each environment in order to deal with a plurality of environments. Also, if noise is subtracted from the speech input in the spectral region, spectral distortion occurs, and the recognition rate may be lowered depending on the method of comparison with the acoustic model. Thus, there is room for improvement in improving the recognition rate under noise.

本発明は、上記課題を鑑みてなされたものであり、騒音下での認識率を向上した音声認識装置を提供することを目的とする。   The present invention has been made in view of the above problems, and an object of the present invention is to provide a speech recognition apparatus that improves the recognition rate under noise.

上記課題を解決するために、本発明の一局面は、音声入力を取得し、音声入力のスペクトルである入力スペクトルを生成する音響処理部と、各音素のスペクトルを音響モデルとして予め記憶している音響モデル記憶部と、入力スペクトルと音響モデルの各音素のスペクトルとのスペクトル間距離を算出し、スペクトル間距離が最小である音素を音声入力に対する音素として特定する音素マッチング部とを備える、音声認識装置である。音素マッチング部は、複数の周波数のそれぞれにおける、入力スペクトルと各音素のスペクトルとの差分に基づく値に重み付けを行い、重み付けした値の総和を計算することによって、スペクトル間距離を算出する。このようなスペクトル間距離の計算方法によって、人間の声を特徴付ける周波数帯を重視した評価や騒音を多く含む周波数帯の影響を小さくした評価を行うことができ、認識率を向上させることができる。   In order to solve the above-described problem, according to one aspect of the present invention, an acoustic processing unit that acquires voice input and generates an input spectrum that is a spectrum of the voice input, and a spectrum of each phoneme are stored in advance as an acoustic model. Speech recognition comprising: an acoustic model storage unit; and a phoneme matching unit that calculates an inter-spectrum distance between an input spectrum and a spectrum of each phoneme of the acoustic model and identifies a phoneme having the smallest inter-spectral distance as a phoneme for speech input Device. The phoneme matching unit weights values based on the difference between the input spectrum and the spectrum of each phoneme at each of a plurality of frequencies, and calculates the inter-spectral distance by calculating the sum of the weighted values. By such a method for calculating the inter-spectral distance, it is possible to perform an evaluation that places importance on the frequency band that characterizes human voice and an evaluation that reduces the influence of a frequency band that contains a lot of noise, and the recognition rate can be improved.

また、音響処理部は、音声入力に含まれる騒音のスペクトルである騒音スペクトルをさらに生成し、音声認識装置は、複数の騒音スペクトルのパターンと重み付け関数とを対応付けて記憶する重み付け関数記憶部と、重み付け関数記憶部を参照し、音響処理部が生成した騒音スペクトルに最も類似する騒音スペクトルに対応付けられた重み付け関数を決定する重み付け関数決定部とをさらに備え、音素マッチング部は、重み付け関数決定部が決定した重み付け関数に基づいて、重み付けを行ってもよい。これにより、音声入力に含まれる騒音の特性に応じてその影響を小さくした評価を行うことができ、認識率をより向上させることができる。   The acoustic processing unit further generates a noise spectrum that is a spectrum of noise included in the voice input, and the voice recognition device includes a weighting function storage unit that stores a plurality of noise spectrum patterns and weighting functions in association with each other. A weighting function determining unit that refers to the weighting function storage unit and determines a weighting function associated with the noise spectrum most similar to the noise spectrum generated by the acoustic processing unit, and the phoneme matching unit determines the weighting function Weighting may be performed based on the weighting function determined by the unit. As a result, it is possible to perform evaluation with a reduced influence according to the characteristics of noise included in the voice input, and to further improve the recognition rate.

また、複数の言語種別と重み付け関数とを対応付けて記憶する言語別重み付け関数記憶部と、音声入力に含まれる音声の言語種別を取得し、言語別重み付け関数記憶部を参照し、取得した言語種別に対応付けられた重み付け関数を決定する言語別重み付け関数決定部とをさらに備え、音素マッチング部は、言語別重み付け関数決定部が決定した重み付け関数に基づいて、重み付けを行ってもよい。これにより、音声入力に含まれる音声の言語種別に応じて、その言語を特徴付ける周波数帯を重視した評価を行うことができ、認識率をより向上させることができる。   In addition, a language-specific weighting function storage unit that associates and stores a plurality of language types and weighting functions, and acquires a language type of speech included in the speech input, refers to the language-specific weighting function storage unit, and acquires the language A language-specific weighting function determining unit that determines a weighting function associated with the type, and the phoneme matching unit may perform weighting based on the weighting function determined by the language-specific weighting function determining unit. Thereby, according to the language type of the voice included in the voice input, it is possible to make an evaluation with an emphasis on the frequency band characterizing the language, and the recognition rate can be further improved.

本発明によれば、騒音下での認識率を向上した音声認識装置を提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the speech recognition apparatus which improved the recognition rate under noise can be provided.

本発明の第1の実施形態に係る音声認識装置の機能ブロック図Functional block diagram of the speech recognition apparatus according to the first embodiment of the present invention 本発明の第1の実施形態に係る音声認識装置の処理を示すフローチャートThe flowchart which shows the process of the speech recognition apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施形態に係るスペクトル間距離を説明する図The figure explaining the distance between spectra concerning a 1st embodiment of the present invention. 本発明の第1の実施形態に係る重み付け関数の例を示す図The figure which shows the example of the weighting function which concerns on the 1st Embodiment of this invention. 本発明の第2の実施形態に係る音声認識装置の機能ブロック図Functional block diagram of the speech recognition apparatus according to the second embodiment of the present invention. 本発明の第2の実施形態に係る音声認識装置の処理を示すフローチャートThe flowchart which shows the process of the speech recognition apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施形態に係る騒音スペクトルと重み付け関数との対応付けの例を示す図The figure which shows the example of matching with the noise spectrum which concerns on the 2nd Embodiment of this invention, and a weighting function 本発明の第3の実施形態に係る音声認識装置の機能ブロック図Functional block diagram of a speech recognition apparatus according to a third embodiment of the present invention 本発明の第3の実施形態に係る音声認識装置の処理を示すフローチャートThe flowchart which shows the process of the speech recognition apparatus which concerns on the 3rd Embodiment of this invention. 本発明の第3の実施形態に係る言語種別と重み付け関数との対応付けの例を示す図The figure which shows the example of matching with the language classification and weighting function which concern on the 3rd Embodiment of this invention.

(概要)
本発明に係る音声認識装置においては、音声入力のスペクトルと音響モデルのスペクトルとのスペクトル間距離を算出する際、特定の周波数成分における差分を他の周波数成分における差分より大きく重み付けする。このようなスペクトル間距離の計算方法によって、人間の声を特徴付ける周波数帯を重視した評価や騒音を多く含む周波数帯の影響を小さくした評価を行うことができ、認識率を向上させることができる。
(Overview)
In the speech recognition apparatus according to the present invention, when calculating the inter-spectral distance between the spectrum of the speech input and the spectrum of the acoustic model, the difference in the specific frequency component is weighted more than the difference in the other frequency components. By such a method for calculating the inter-spectral distance, it is possible to perform an evaluation that places importance on the frequency band that characterizes human voice and an evaluation that reduces the influence of a frequency band that contains a lot of noise, and the recognition rate can be improved.

以下、本発明の実施形態について、図面を参照しながら詳細に説明する。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.

(第1の実施形態)
<構成>
図1に、本実施形態に係る音声認識装置100の機能ブロック図を示す。音声認識装置100は、音響処理部110、音響モデル記憶部120、音素マッチング部130を含む。音響処理部110は高域強調部111、音響分析部112、騒音処理部113を含む。
(First embodiment)
<Configuration>
FIG. 1 shows a functional block diagram of the speech recognition apparatus 100 according to the present embodiment. The speech recognition apparatus 100 includes an acoustic processing unit 110, an acoustic model storage unit 120, and a phoneme matching unit 130. The acoustic processing unit 110 includes a high frequency emphasizing unit 111, an acoustic analysis unit 112, and a noise processing unit 113.

音響処理部110は、外部から音声入力を受け付け、音声入力のスペクトルである入力スペクトルを生成する。音響モデル記憶部120は、予め作成した各音素のスペクトルを参照用の音響モデルとして記憶している。音素マッチング部130は、音響処理部110が生成した入力スペクトルと、音響モデル記憶部120が記憶している音響モデルの各音素のスペクトルとの距離であるスペクトル間距離を算出する。本実施形態におけるスペクトル間距離の詳細については後述する。そして、スペクトル間距離が最小である音素を音声入力に対する音素として同定してラベリングし音素ラベルを出力する。   The acoustic processing unit 110 receives an audio input from the outside, and generates an input spectrum that is a spectrum of the audio input. The acoustic model storage unit 120 stores a spectrum of each phoneme created in advance as a reference acoustic model. The phoneme matching unit 130 calculates an inter-spectrum distance that is a distance between the input spectrum generated by the acoustic processing unit 110 and the spectrum of each phoneme of the acoustic model stored in the acoustic model storage unit 120. Details of the inter-spectrum distance in this embodiment will be described later. Then, the phoneme having the shortest inter-spectral distance is identified as a phoneme with respect to the voice input, labeled, and a phoneme label is output.

<動作>
音声認識装置100が行う処理を説明する。図2に音声認識装置100が行う処理のフローチャートを示す。
<Operation>
Processing performed by the speech recognition apparatus 100 will be described. FIG. 2 shows a flowchart of processing performed by the speech recognition apparatus 100.

ステップS101:音響処理部110は音声入力を受け付け、音声入力に基づいてそのスペクトルである入力スペクトルを生成する。音声入力は、例えばハミング窓を用いてフレーム化され、フレーム単位で以下の処理が行われる。音声入力は、まず、高域強調部111によって一般に特徴部分となりやすい高周波の領域が強調される。つぎに音響分析部112によってFFT(高速フーリエ変換)が行われ、音声入力のスペクトルが生成される。生成されたスペクトルは、騒音処理部113によって、騒音低減処理が行われる。騒音低減は、一例として、音響分析部112が生成したスペクトルから騒音のスペクトルを減算することで行う。騒音のスペクトルは、例えば、音声入力のうちパワーが小さいフレームや非発声期間として指定されたフレームに基づいて生成してもよいし、予め騒音モデルとして記憶しておいてもよい。騒音低減されたスペクトルが、音声入力のスペクトルである入力スペクトルとして、音響処理部110から出力される。なお、本実施形態では、音響処理部110は、騒音処理部113を備えず、音響分析部112が生成したスペクトルを入力スペクトルとして出力してもよい。   Step S101: The acoustic processing unit 110 receives a voice input, and generates an input spectrum that is a spectrum based on the voice input. The voice input is framed using, for example, a Hamming window, and the following processing is performed in units of frames. In speech input, a high frequency region that tends to be a characteristic portion is generally emphasized by the high frequency emphasizing unit 111. Next, FFT (Fast Fourier Transform) is performed by the acoustic analysis unit 112, and a spectrum of the voice input is generated. The generated spectrum is subjected to noise reduction processing by the noise processing unit 113. For example, noise reduction is performed by subtracting the noise spectrum from the spectrum generated by the acoustic analysis unit 112. The spectrum of noise may be generated based on, for example, a low power frame or a frame designated as a non-voicing period in the voice input, or may be stored in advance as a noise model. The noise-reduced spectrum is output from the acoustic processing unit 110 as an input spectrum that is a voice input spectrum. In this embodiment, the acoustic processing unit 110 may not include the noise processing unit 113 and may output the spectrum generated by the acoustic analysis unit 112 as an input spectrum.

ステップS102:音素マッチング部130は、音響処理部110が生成した入力スペクトルを取得し、音響モデル記憶部120から各音素スペクトルを取得して、入力スペクトルと各音素のスペクトルとのスペクトル間距離を順次計算する。   Step S102: The phoneme matching unit 130 acquires the input spectrum generated by the acoustic processing unit 110, acquires each phoneme spectrum from the acoustic model storage unit 120, and sequentially determines the inter-spectrum distance between the input spectrum and the spectrum of each phoneme. calculate.

ここで、図3を参照してスペクトル間距離について説明する。スペクトル間距離は、本実施形態においては、複数の周波数(角周波数)ω(i=1、2、…、l)における2つのスペクトルの差分d(i=1、2、…、l)の重み付け和で定義する。重み付けの係数は、周波数ωの関数F(ω)を重み付け関数として定義し、各ωにおける関数値F(ω)(i=1、2、…、l)により定める。図4に、一例に係る重み付関数F(ω)のグラフを示す。スペクトル間距離Dは以下の数式で表される。 Here, the inter-spectrum distance will be described with reference to FIG. In the present embodiment, the inter-spectral distance is the difference between two spectra d i (i = 1, 2,..., L) at a plurality of frequencies (angular frequencies) ω i (i = 1, 2,..., L). Defined by the weighted sum of The weighting coefficient is defined by a function value F (ω i ) (i = 1, 2,..., L) at each ω i , defining the function F (ω) of the frequency ω as a weighting function. FIG. 4 shows a graph of the weighting function F (ω) according to an example. The inter-spectrum distance D W is expressed by the following mathematical formula.

Figure 2019035935
Figure 2019035935

ここで、重み付け係数F(ω)(i=1、2、…、l)は、いずれかの値が他の値と異なるように予め定められる。すなわち、入力スペクトルと各音素のスペクトルとのスペクトル間距離を計算するにあたり、特定の周波数における差分の影響を他の周波数における差分の影響より大きくする。これにより、人間が騒音下で人間の声を聴き分ける場合などに行っていると考えられる、意識的に人間の声を特徴付ける特定の周波数帯を中心に聞き入るという聴覚特性と同様に、特定の周波数帯を重視した評価が可能となる。例えば、150Hzの周波数を含む帯域と、1kHz以上2kHz以下の範囲の周波数を含む帯域とにおける重み付け係数を他の帯域における重み付け係数より大きくすると、車両騒音下での日本語音声の認識率を向上することができる。重み付け係数はこれに限定されず、適宜設計すればよい。 Here, the weighting coefficient F (ω i ) (i = 1, 2,..., L) is determined in advance so that any value is different from the other values. That is, in calculating the inter-spectrum distance between the input spectrum and the spectrum of each phoneme, the influence of the difference at a specific frequency is made larger than the influence of the difference at another frequency. This makes it possible to hear a specific frequency in the same way as an auditory characteristic that listens mainly to a specific frequency band that characterizes the human voice consciously. Evaluation with emphasis on bands is possible. For example, if the weighting coefficient in a band including a frequency of 150 Hz and a band including a frequency in the range of 1 kHz to 2 kHz is larger than the weighting coefficient in other bands, the recognition rate of Japanese speech under vehicle noise is improved. be able to. The weighting coefficient is not limited to this, and may be designed as appropriate.

音素マッチング部130は、上述の式によって、入力スペクトルと音響モデルに含まれるm個の音素のスペクトルのそれぞれとのスペクトル間距離Dを計算する。入力スペクトルとj番目の音素のスペクトルとのスペクトル間距離をDWj(j=1、2、…、m)とする。 The phoneme matching unit 130 calculates the inter-spectral distance D W between the input spectrum and each of the m phoneme spectra included in the acoustic model by the above-described equation. Let D Wj (j = 1, 2,..., M ) be the inter-spectral distance between the input spectrum and the spectrum of the j-th phoneme.

ステップS103:音素マッチング部130は、スペクトル間距離DWj(j=1、2、…、m)の最小値を与える音素を特定する。音声認識装置100はこのようにして特定した音素を、音声入力フレームに対する音素ラベルとして出力する。1フレームについての処理は以上で終了となるが、次に処理すべきフレームがある場合は、そのフレームについてステップS101〜S103の処理を実行する。 Step S103: The phoneme matching unit 130 specifies a phoneme that gives the minimum value of the inter-spectral distance D Wj (j = 1, 2,..., M ). The speech recognition apparatus 100 outputs the phoneme specified in this way as a phoneme label for the speech input frame. The processing for one frame is completed as described above. However, when there is a frame to be processed next, the processing of steps S101 to S103 is executed for the frame.

<効果>
本実施形態においては、騒音を含む入力スペクトルを音素のスペクトルと比較する際に、人間の声を特徴付ける周波数帯を重視した評価を行うことにより、認識率を向上させることができる。
<Effect>
In this embodiment, when comparing an input spectrum including noise with a phoneme spectrum, it is possible to improve the recognition rate by performing an evaluation focusing on a frequency band characterizing a human voice.

なお、スペクトル間距離Dは差分dの重み付け線形和としたが、周波数ごとの重み付けができれば限定されず、重み付け2乗和でもよい。 The inter-spectrum distance DW is a weighted linear sum of the differences d i , but is not limited as long as the weighting for each frequency can be performed, and may be a weighted square sum.

(第2の実施形態)
<構成>
図5に、本実施形態に係る音声認識装置200の機能ブロック図を示す。音声認識装置200は、第1の実施形態に係る音声認識装置100において、重み付け関数決定部140および重み付け関数記憶部150をさらに備えたものである。音声認識装置200は、音声入力に含まれる騒音のスペクトルのパターンに基づいて、重み付け関数決定部140が、重み付け関数記憶部150を参照して重み付け関数F(ω)を決定する点で、第1の実施形態に係る音声認識装置100と異なる。第1の実施形態に係る音声認識装置100と同様のまたは対応する構成要素には同一の参照符号を付す。
(Second Embodiment)
<Configuration>
FIG. 5 shows a functional block diagram of the speech recognition apparatus 200 according to the present embodiment. The speech recognition apparatus 200 further includes a weighting function determination unit 140 and a weighting function storage unit 150 in the speech recognition apparatus 100 according to the first embodiment. The speech recognition apparatus 200 is the first in that the weighting function determination unit 140 refers to the weighting function storage unit 150 to determine the weighting function F (ω) based on the noise spectrum pattern included in the speech input. This is different from the speech recognition apparatus 100 according to the embodiment. Components that are the same as or correspond to those of the speech recognition apparatus 100 according to the first embodiment are denoted by the same reference numerals.

<動作>
音声認識装置200が行う処理を説明する。図6に音声認識装置200が行う処理のフローチャートを示す。
<Operation>
Processing performed by the speech recognition apparatus 200 will be described. FIG. 6 shows a flowchart of processing performed by the speech recognition apparatus 200.

ステップS201:音響処理部110は音声入力を受け付け、音声入力に基づいてそのスペクトルである入力スペクトルを生成する。本ステップの処理は、第1の実施形態におけるステップS101と同様であるが、本実施形態では、騒音処理部113による騒音低減処理を実行することが好適である。騒音低減処理に用いる騒音のスペクトルは、音声入力に基づいて生成する。例えば音声入力のうち、パワーが小さいフレームや非発声期間として指定されたフレームに基づいてスペクトルを生成することができる。騒音低減されたスペクトルが、音声入力のスペクトルである入力スペクトルとして、音響処理部110から出力される。また、騒音スペクトルも音響処理部110から出力される。   Step S201: The acoustic processing unit 110 receives a voice input, and generates an input spectrum that is a spectrum based on the voice input. The processing in this step is the same as that in step S101 in the first embodiment, but in this embodiment, it is preferable to execute the noise reduction processing by the noise processing unit 113. The spectrum of noise used for noise reduction processing is generated based on voice input. For example, a spectrum can be generated based on a frame having a low power or a frame designated as a non-voicing period, among voice inputs. The noise-reduced spectrum is output from the acoustic processing unit 110 as an input spectrum that is a voice input spectrum. A noise spectrum is also output from the acoustic processing unit 110.

ステップS202:重み付け関数決定部140は、騒音スペクトルに基づいて、重み付け関数記憶部150を参照して、重み付け関数を決定する。重み付け関数記憶部150は、騒音スペクトルのパターンと重み付け関数とを対応付けて記憶している。この対応付けの例を図7に示す。図7に示す騒音A、B、Cの各スペクトルは、車両内、オフィス、トンネルにおける騒音スペクトルである。騒音A、B、Cのそれぞれに重み付け関数F(ω)、F(ω)、F(ω)が対応付けられている。重み付け関数は、例えば、人間の音声を特徴づける帯域の重みを大きくし、かつ、騒音のレベルが大きい帯域の重みを小さくする方針で設計することができる。重み付け関数決定部140は、音響処理部110から取得した騒音スペクトルに最も類似する騒音スペクトルを、重み付け関数記憶部150が記憶している騒音スペクトルから選択し、選択した騒音スペクトルに対応付けられた重み付け関数を決定する。なお、騒音スペクトルの類似の判定は、例えば、重み付けなしのスぺクトル間距離に基づいて行うことができる。 Step S202: The weighting function determination unit 140 refers to the weighting function storage unit 150 based on the noise spectrum and determines a weighting function. The weighting function storage unit 150 stores a noise spectrum pattern and a weighting function in association with each other. An example of this association is shown in FIG. Each spectrum of noise A, B, and C shown in FIG. 7 is a noise spectrum in a vehicle, an office, and a tunnel. Weighting functions F A (ω), F B (ω), and F C (ω) are associated with the noises A, B, and C, respectively. The weighting function can be designed, for example, with a policy of increasing the weight of the band characterizing human speech and decreasing the weight of the band having a high noise level. The weighting function determination unit 140 selects a noise spectrum most similar to the noise spectrum acquired from the acoustic processing unit 110 from the noise spectrum stored in the weighting function storage unit 150, and weights associated with the selected noise spectrum Determine the function. The similarity determination of the noise spectrum can be performed based on, for example, an unweighted inter-spectral distance.

ステップS203:音素マッチング部130は、音響処理部110が生成した入力スペクトルを取得し、重み付け関数決定部140が決定した重み付け関数を取得し、音響モデル記憶部120から各音素スペクトルを取得して、入力スペクトルと各音素のスペクトルとのスペクトル間距離DWj(j=1、2、…、m)を順次計算する。 Step S203: The phoneme matching unit 130 acquires the input spectrum generated by the acoustic processing unit 110, acquires the weighting function determined by the weighting function determination unit 140, acquires each phoneme spectrum from the acoustic model storage unit 120, The inter-spectrum distance D Wj (j = 1, 2,..., M ) between the input spectrum and the spectrum of each phoneme is sequentially calculated.

ステップS204:音素マッチング部130は、スペクトル間距離DWj(j=1、2、…、m)の最小値を与える音素を特定する。音声認識装置200はこのようにして特定した音素を、音声入力フレームに対する音素ラベルとして出力する。1フレームについての処理は以上で終了となるが、次に処理すべきフレームがある場合は、そのフレームについてステップS201〜S204の処理を実行する。 Step S204: The phoneme matching unit 130 specifies a phoneme that gives the minimum value of the inter-spectral distance D Wj (j = 1, 2,..., M ). The speech recognition apparatus 200 outputs the phoneme specified in this way as a phoneme label for the speech input frame. The process for one frame is completed as described above, but if there is a frame to be processed next, the processes of steps S201 to S204 are executed for that frame.

<効果>
本実施形態においては、第1の実施形態と同様、騒音を含む入力スペクトルを音素のスペクトルと比較する際に、人間の声を特徴付ける周波数帯を重視した評価を行うことにより、認識率を向上させることができる。本実施形態ではさらに、騒音の特性に応じてその影響を小さくした評価を行うことができ、認識率をより向上させることができる。
<Effect>
In this embodiment, as in the first embodiment, when an input spectrum including noise is compared with a phoneme spectrum, evaluation is performed with emphasis on the frequency band that characterizes human voice, thereby improving the recognition rate. be able to. In the present embodiment, it is further possible to perform evaluation with a reduced influence according to the characteristics of noise, and to further improve the recognition rate.

(第3の実施形態)
<構成>
図8に、本実施形態に係る音声認識装置300の機能ブロック図を示す。音声認識装置300は、第2の実施形態に係る音声認識装置200において、重み付け関数決定部140の代わりに言語別重み付け関数決定部141を備え、重み付け関数記憶部150の代わりに言語別重み付け関数決定部151を備えたものである。第2の実施形態に係る音声認識装置200は、音声入力に含まれる騒音のスペクトルのパターンに基づいて、重み付け関数決定部140が、重み付け関数記憶部150を参照して重み付け関数F(ω)を決定するのに対し、本実施形態に係る音声認識装置300は、音声入力に含まれる音声の言語種別に基づいて、言語別重み付け関数決定部141が、言語別重み付け関数記憶部151を参照して重み付け関数F(ω)を決定する。また、音声認識装置300は、一例として、単語マッチング部160、日本語単語記憶部171、英語単語記憶部172を備える。第1および第2の実施形態に係る音声認識装置100、200と同様のまたは対応する構成要素には同一の参照符号を付す。
(Third embodiment)
<Configuration>
FIG. 8 shows a functional block diagram of the speech recognition apparatus 300 according to the present embodiment. The speech recognition apparatus 300 includes a language-specific weighting function determination unit 141 instead of the weighting function determination unit 140 in the speech recognition apparatus 200 according to the second embodiment, and determines a language-specific weighting function instead of the weighting function storage unit 150. A portion 151 is provided. In the speech recognition apparatus 200 according to the second embodiment, the weighting function determination unit 140 refers to the weighting function storage unit 150 based on the noise spectrum pattern included in the speech input, and calculates the weighting function F (ω). In contrast, in the speech recognition apparatus 300 according to the present embodiment, the language-specific weighting function determining unit 141 refers to the language-specific weighting function storage unit 151 based on the language type of the speech included in the speech input. A weighting function F (ω) is determined. Moreover, the speech recognition apparatus 300 includes a word matching unit 160, a Japanese word storage unit 171, and an English word storage unit 172 as an example. Constituent elements similar or corresponding to those of the speech recognition apparatuses 100 and 200 according to the first and second embodiments are denoted by the same reference numerals.

<動作>
音声認識装置300が行う処理を説明する。図9に音声認識装置300が行う処理のフローチャートを示す。
<Operation>
Processing performed by the speech recognition apparatus 300 will be described. FIG. 9 shows a flowchart of processing performed by the speech recognition apparatus 300.

ステップS301:音響処理部110は音声入力を受け付け、音声入力に基づいてそのスペクトルである入力スペクトルを生成する。本ステップの処理は、第1の実施形態におけるステップS101と同様である。   Step S301: The acoustic processing unit 110 receives a voice input, and generates an input spectrum that is a spectrum based on the voice input. The processing in this step is the same as that in step S101 in the first embodiment.

ステップS302:言語別重み付け関数決定部141は、音声入力に含まれる音声の言語種別に基づいて、言語別重み付け関数記憶部151を参照して、重み付け関数を決定する。言語種別の判定の方法は後述する。   Step S302: The language-specific weighting function determination unit 141 determines a weighting function with reference to the language-specific weighting function storage unit 151 based on the language type of the speech included in the speech input. The method for determining the language type will be described later.

言語別重み付け関数記憶部151は、言語種別と重み付け関数とを対応付けて記憶している。この対応付けの例を図10に示す。図10に示すように、日本語、英語のそれぞれに重み付け関数F(ω)、F(ω)が対応付けられている。重み付け関数は、例えば、各言語における人間の音声を特徴付ける帯域の重みを大きくする方針で設計することができる。 The language-specific weighting function storage unit 151 stores a language type and a weighting function in association with each other. An example of this association is shown in FIG. As shown in FIG. 10, weighting functions F J (ω) and F E (ω) are associated with Japanese and English, respectively. The weighting function can be designed, for example, with a policy of increasing the weight of the band that characterizes human speech in each language.

日本語は、音素が基本的に子音(C)の後に母音(V)が続く「C+V」の構造によって構成され、母音の出現比率が比較的高い。そのため、500Hz以下のフォルマントが支配的である母音が特徴的となる。本実施形態では、一例として、日本語の重み付け関数F(ω)を低、中域から高域にかけて、おおむね一様だが、緩やかに減少するように設定し、日本語音声を特徴づける帯域の重みを大きくする。 Japanese is composed of a structure of “C + V” in which phonemes are basically a consonant (C) followed by a vowel (V), and the appearance ratio of vowels is relatively high. Therefore, a vowel in which formants of 500 Hz or less are dominant is characteristic. In the present embodiment, as an example, the Japanese weighting function F J (ω) is set to be generally uniform from low to mid to high, but gradually decreases, and the band that characterizes Japanese speech is used. Increase the weight.

これに対して英語は、子音の種類が日本語より多く、また、音素が「C+V」に加えて、「C+C+V」、「C」、「C+C」等の構造によって構成され、子音の出現比率が高い。そのため、中域から高域の成分が支配的である子音が特徴的となる。本実施形態では、一例として、英語の重み付け関数F(ω)を低域から中、高域にかけて増加するように設定し、英語音声を特徴づける帯域の重みを大きくする。 In contrast, English has more types of consonants than Japanese, and phonemes are composed of “C + C + V”, “C”, “C + C”, etc. in addition to “C + V”, and the consonant appearance ratio is high. Therefore, a consonant in which the middle to high frequency components are dominant is characteristic. In the present embodiment, as an example, the weighting function F E (ω) for English is set to increase from the low range to the middle to high range, and the weight of the band characterizing the English speech is increased.

ステップS303:音素マッチング部130は、音響処理部110が生成した入力スペクトルを取得し、言語別重み付け関数決定部141が決定した重み付け関数を取得し、音響モデル記憶部120から各音素スペクトルを取得して、入力スペクトルと各音素のスペクトルとのスペクトル間距離DWj(j=1、2、…、m)を順次計算する。 Step S303: The phoneme matching unit 130 acquires the input spectrum generated by the acoustic processing unit 110, acquires the weighting function determined by the language-specific weighting function determination unit 141, and acquires each phoneme spectrum from the acoustic model storage unit 120. Then, the inter-spectral distance D Wj (j = 1, 2,..., M ) between the input spectrum and the spectrum of each phoneme is sequentially calculated.

ステップS304:音素マッチング部130は、スペクトル間距離DWj(j=1、2、…、m)の最小値を与える音素を、音声入力フレームに対する音素ラベルとして特定する。音素マッチング部130はこのようにして特定した音素を、音声入力フレームに対する音素ラベルとして出力する。 Step S304: The phoneme matching unit 130 specifies a phoneme that gives the minimum value of the inter-spectrum distance D Wj (j = 1, 2,..., M ) as a phoneme label for the speech input frame. The phoneme matching unit 130 outputs the phoneme specified in this way as a phoneme label for the voice input frame.

ステップS305:単語マッチング部160は、音素マッチング部130から出力される音素ラベルを順次受け取り、単語マッチングを行う。単語マッチングは、一例として、順次受け取った音素ラベルの配列に対して、最も類似度が高い、すなわち、確率(尤度)が高い単語を対応付けることによって行う。候補となる単語として、日本語の単語が日本語単語記憶部171に記憶されており、英語の単語が英語単語記憶部172に記憶されている。単語マッチング部160は、日本語単語記憶部171および英語単語記憶部172の両方を参照し、最も確率の高い単語を特定する。単語マッチング部160は、音声認識装置300の出力として、この単語を出力する。1フレームについての処理は以上で終了となるが、次に処理すべきフレームがある場合は、そのフレームについてステップS301〜S305の処理を実行する。   Step S305: The word matching unit 160 sequentially receives phoneme labels output from the phoneme matching unit 130, and performs word matching. For example, the word matching is performed by associating a word having the highest similarity, that is, a probability (likelihood) with the sequence of phoneme labels received sequentially. As a candidate word, a Japanese word is stored in the Japanese word storage unit 171, and an English word is stored in the English word storage unit 172. The word matching unit 160 refers to both the Japanese word storage unit 171 and the English word storage unit 172 to identify the word with the highest probability. The word matching unit 160 outputs this word as the output of the speech recognition device 300. The process for one frame is completed as described above. However, when there is a frame to be processed next, the processes of steps S301 to S305 are executed for the frame.

ここで、音声入力に含まれる音声の言語種別の判定の方法の一例を説明する。単語マッチング部160は、上記ステップS305の処理の際、日本語単語記憶部171および英語単語記憶部172から、それぞれ、確率が上位の、例えば、10位以内の単語を選択し、選択した日本語の単語の確率の平均値と、選択した英語の単語の確率の平均値とを比較する。単語マッチング部160は、確率の平均値の高いほうの言語を、音声入力に含まれる音声の言語種別と判定し、判定結果を、言語別重み付け関数決定部141に通知する。言語別重み付け関数決定部141は、ステップS302で、通知された判定結果に基づいて重み付け関数を決定し、音素マッチング部130は、ステップS303で、現在処理対象の入力スペクトルに対して、この重み付け関数を用いた処理を行う。単語マッチング部160による言語種別の判定処理および通知処理は、ステップS305において、常時実行してもよく、所定周期ごとに実行してもよい。また、複数回の判定結果の多数決をとった結果を言語別重み付け関数決定部141に通知してもよい。   Here, an example of a method for determining the language type of speech included in speech input will be described. In the process of step S305, the word matching unit 160 selects, from the Japanese word storage unit 171 and the English word storage unit 172, a word having a higher probability, for example, the 10th or lower word, and selects the selected Japanese The average value of the probabilities of words is compared with the average value of the probabilities of selected English words. The word matching unit 160 determines the language with the higher probability average value as the language type of the speech included in the speech input, and notifies the language-specific weighting function determination unit 141 of the determination result. In step S302, the language-specific weighting function determination unit 141 determines a weighting function based on the notified determination result. In step S303, the phoneme matching unit 130 performs this weighting function on the input spectrum to be processed. The process using is performed. The language type determination process and the notification process by the word matching unit 160 may be executed constantly in step S305 or may be executed at predetermined intervals. Moreover, you may notify the weighting function determination part 141 classified by language of the result of having taken the majority of the determination result in multiple times.

上述の説明では、音声認識装置300は、単語マッチング部160を備えるので、第1、第2の実施形態に係る音声認識装置100、200が音素ラベルを出力するのとは異なり、単語マッチング部160が特定した単語を出力するものとした。しかし、音声認識装置300は、単語の代わりに、あるいは単語に加えて、音素ラベルを出力してもよい。また、音声認識装置300は、単語マッチング部160、日本語単語記憶部171、英語単語記憶部172を備えず、音素ラベルを出力してもよい。この場合、言語別重み付け関数決定部141は、単語マッチング部160から判定結果を受け取る代わりに、音声入力やそのスペクトルを音響処理部110から受け取り、各種の言語識別手法を用いて自身で言語を判定してもよいし、あるいは、音素ラベルに基づいて外部の機器が行った言語種別の判定処理の結果を受け取ってもよい。   In the above description, since the speech recognition device 300 includes the word matching unit 160, the word matching unit 160 is different from the speech recognition devices 100 and 200 according to the first and second embodiments that output phoneme labels. To output the specified word. However, the speech recognition apparatus 300 may output a phoneme label instead of or in addition to the word. The speech recognition apparatus 300 may not include the word matching unit 160, the Japanese word storage unit 171, and the English word storage unit 172, and may output a phoneme label. In this case, instead of receiving the determination result from the word matching unit 160, the language-specific weighting function determining unit 141 receives the voice input and its spectrum from the acoustic processing unit 110, and determines the language by itself using various language identification methods. Alternatively, the result of the language type determination process performed by an external device based on the phoneme label may be received.

また、言語の例として日本語、英語の2言語を挙げたが、本実施形態においては、言語の種別や数は限定されず、他の言語にも適用可能である。   In addition, although two languages, Japanese and English, are given as examples of languages, in this embodiment, the type and number of languages are not limited, and can be applied to other languages.

<効果>
本実施形態においては、第1の実施形態と同様、騒音を含む入力スペクトルを音素のスペクトルと比較する際に、人間の声を特徴付ける周波数帯を重視した評価を行うことにより、認識率を向上させることができる。本実施形態ではさらに、音声入力に含まれる音声の言語種別に応じて、特にその言語を特徴付ける周波数帯を重視した評価を行うことができ、認識率をより向上させることができる。
<Effect>
In this embodiment, as in the first embodiment, when an input spectrum including noise is compared with a phoneme spectrum, evaluation is performed with emphasis on the frequency band that characterizes human voice, thereby improving the recognition rate. be able to. Furthermore, according to the present embodiment, according to the language type of the speech included in the speech input, it is possible to perform an evaluation that particularly emphasizes the frequency band that characterizes the language, and the recognition rate can be further improved.

なお、本発明は、音声認識装置の機能ブロックの構成として捉えるだけでなく、プロセッサを備えるコンピューターが実行する音声認識方法やプログラムとして捉えることができる。   In addition, this invention can be grasped | ascertained not only as a structure of the functional block of a speech recognition apparatus but the speech recognition method and program which a computer provided with a processor performs.

本発明は、音声認識装置等に有用である。   The present invention is useful for speech recognition devices and the like.

100、200、300 音声認識装置
110 音響処理部
111 高域強調部
112 音響分析部
113 騒音処理部
120 音響モデル記憶部
130 音素マッチング部
140 重み付け関数決定部
141 言語別重み付け関数決定部
150 重み付け関数記憶部
151 言語別重み付け関数記憶部
160 単語マッチング部
171 日本語単語記憶部
172 英語単語記憶部
100, 200, 300 Speech recognition device 110 Acoustic processing unit 111 High frequency enhancement unit 112 Acoustic analysis unit 113 Noise processing unit 120 Acoustic model storage unit 130 Phoneme matching unit 140 Weighting function determination unit 141 Language-specific weighting function determination unit 150 Weighting function storage 151 Language-specific weighting function storage unit 160 Word matching unit 171 Japanese word storage unit 172 English word storage unit

Claims (3)

音声入力を取得し、前記音声入力のスペクトルである入力スペクトルを生成する音響処理部と、
各音素のスペクトルを音響モデルとして予め記憶している音響モデル記憶部と、
前記入力スペクトルと前記音響モデルの各音素のスペクトルとのスペクトル間距離を算出し、前記スペクトル間距離が最小である音素を前記音声入力に対する音素として特定する音素マッチング部とを備える、音声認識装置であって、
前記音素マッチング部は、複数の周波数のそれぞれにおける、前記入力スペクトルと前記各音素のスペクトルとの差分に基づく値に重み付けを行い、重み付けした値の総和を計算することによって、前記スペクトル間距離を算出する、音声認識装置。
An acoustic processing unit that acquires a voice input and generates an input spectrum that is a spectrum of the voice input;
An acoustic model storage unit that stores in advance the spectrum of each phoneme as an acoustic model;
A speech recognition apparatus comprising: a phoneme matching unit that calculates a distance between spectra of the input spectrum and a spectrum of each phoneme of the acoustic model, and specifies a phoneme having a minimum distance between the spectra as a phoneme for the speech input. There,
The phoneme matching unit weights a value based on a difference between the input spectrum and the spectrum of each phoneme at each of a plurality of frequencies, and calculates the inter-spectral distance by calculating a sum of the weighted values. A speech recognition device.
前記音響処理部は、前記音声入力に含まれる騒音のスペクトルである騒音スペクトルをさらに生成し、
複数の騒音スペクトルのパターンと重み付け関数とを対応付けて記憶する重み付け関数記憶部と、
前記重み付け関数記憶部を参照し、前記音響処理部が生成した騒音スペクトルに最も類似する騒音スペクトルに対応付けられた重み付け関数を決定する重み付け関数決定部とをさらに備え、
前記音素マッチング部は、前記重み付け関数決定部が決定した重み付け関数に基づいて、前記重み付けを行う、請求項1に記載の音声認識装置。
The acoustic processing unit further generates a noise spectrum that is a spectrum of noise included in the voice input,
A weighting function storage unit that stores a plurality of noise spectrum patterns and weighting functions in association with each other;
A weighting function determining unit that refers to the weighting function storage unit and determines a weighting function associated with a noise spectrum that is most similar to the noise spectrum generated by the acoustic processing unit;
The speech recognition apparatus according to claim 1, wherein the phoneme matching unit performs the weighting based on a weighting function determined by the weighting function determination unit.
複数の言語種別と重み付け関数とを対応付けて記憶する言語別重み付け関数記憶部と、
前記音声入力に含まれる音声の言語種別を取得し、前記言語別重み付け関数記憶部を参照し、取得した前記言語種別に対応付けられた重み付け関数を決定する言語別重み付け関数決定部とをさらに備え、
前記音素マッチング部は、前記言語別重み付け関数決定部が決定した重み付け関数に基づいて、前記重み付けを行う、請求項1に記載の音声認識装置。
A language-specific weighting function storage unit that associates and stores a plurality of language types and weighting functions;
A language-specific weighting function determining unit that acquires a language type of speech included in the speech input, refers to the language-specific weighting function storage unit, and determines a weighting function associated with the acquired language type; ,
The speech recognition apparatus according to claim 1, wherein the phoneme matching unit performs the weighting based on a weighting function determined by the language-specific weighting function determination unit.
JP2018023256A 2017-08-10 2018-02-13 Speech recognition device Active JP7077645B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017155739 2017-08-10
JP2017155739 2017-08-10

Publications (2)

Publication Number Publication Date
JP2019035935A true JP2019035935A (en) 2019-03-07
JP7077645B2 JP7077645B2 (en) 2022-05-31

Family

ID=65637342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018023256A Active JP7077645B2 (en) 2017-08-10 2018-02-13 Speech recognition device

Country Status (1)

Country Link
JP (1) JP7077645B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421556A (en) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 Speech recognition method, speech recognition device, computer equipment and storage medium
WO2023182016A1 (en) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 Voice authentication device and voice authentication method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635495A (en) * 1992-07-16 1994-02-10 Ricoh Co Ltd Speech recognizing device
JPH0736477A (en) * 1993-07-16 1995-02-07 Ricoh Co Ltd Pattern matching system
JPH10177393A (en) * 1996-12-19 1998-06-30 Toyota Motor Corp Voice recognition device
JP2003501701A (en) * 1999-06-07 2003-01-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Weighted spectral distance calculator

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0635495A (en) * 1992-07-16 1994-02-10 Ricoh Co Ltd Speech recognizing device
JPH0736477A (en) * 1993-07-16 1995-02-07 Ricoh Co Ltd Pattern matching system
JPH10177393A (en) * 1996-12-19 1998-06-30 Toyota Motor Corp Voice recognition device
JP2003501701A (en) * 1999-06-07 2003-01-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Weighted spectral distance calculator

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421556A (en) * 2021-06-30 2021-09-21 平安科技(深圳)有限公司 Speech recognition method, speech recognition device, computer equipment and storage medium
CN113421556B (en) * 2021-06-30 2024-02-13 平安科技(深圳)有限公司 Speech recognition method, device, computer equipment and storage medium
WO2023182016A1 (en) * 2022-03-22 2023-09-28 パナソニックIpマネジメント株式会社 Voice authentication device and voice authentication method

Also Published As

Publication number Publication date
JP7077645B2 (en) 2022-05-31

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
CN108198547B (en) Voice endpoint detection method and device, computer equipment and storage medium
US11475907B2 (en) Method and device of denoising voice signal
KR20080086298A (en) Method and apparatus for estimating noise using harmonics of speech
US20140177853A1 (en) Sound processing device, sound processing method, and program
WO2018159402A1 (en) Speech synthesis system, speech synthesis program, and speech synthesis method
US10032462B2 (en) Method and system for suppressing noise in speech signals in hearing aids and speech communication devices
EP0838805B1 (en) Speech recognition apparatus using pitch intensity information
US9749741B1 (en) Systems and methods for reducing intermodulation distortion
JP5803125B2 (en) Suppression state detection device and program by voice
Lyubimov et al. Non-negative matrix factorization with linear constraints for single-channel speech enhancement
JP7077645B2 (en) Speech recognition device
JP5282523B2 (en) Basic frequency extraction method, basic frequency extraction device, and program
CN110795996A (en) Method, device and equipment for classifying heart sound signals and storage medium
JP6373621B2 (en) Speech evaluation device, speech evaluation method, program
JP6784255B2 (en) Speech processor, audio processor, audio processing method, and program
JP4677548B2 (en) Paralinguistic information detection apparatus and computer program
JP2011154341A (en) Device, method and program for speech recognition
Saleem et al. Ideal binary masking for reducing convolutive noise
JP2011053557A (en) Scream detector and scream detecting method
Płonkowski Using bands of frequencies for vowel recognition for Polish language
Park et al. Emotional information processing based on feature vector enhancement and selection for human–computer interaction via speech
JP6447357B2 (en) Audio signal processing apparatus, audio signal processing method, and audio signal processing program
JP2012252026A (en) Voice recognition device, voice recognition method, and voice recognition program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211026

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220502

R151 Written notification of patent or utility model registration

Ref document number: 7077645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151