JP2016033677A - Voice feature quantity extraction device, voice feature quantity extraction method, and voice feature quantity extraction program - Google Patents

Voice feature quantity extraction device, voice feature quantity extraction method, and voice feature quantity extraction program Download PDF

Info

Publication number
JP2016033677A
JP2016033677A JP2015216661A JP2015216661A JP2016033677A JP 2016033677 A JP2016033677 A JP 2016033677A JP 2015216661 A JP2015216661 A JP 2015216661A JP 2015216661 A JP2015216661 A JP 2015216661A JP 2016033677 A JP2016033677 A JP 2016033677A
Authority
JP
Japan
Prior art keywords
unit
spectrum
average time
voice
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015216661A
Other languages
Japanese (ja)
Other versions
JP6092345B2 (en
Inventor
匡伸 中村
Masanobu Nakamura
匡伸 中村
貴史 益子
Takashi Masuko
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015216661A priority Critical patent/JP6092345B2/en
Publication of JP2016033677A publication Critical patent/JP2016033677A/en
Application granted granted Critical
Publication of JP6092345B2 publication Critical patent/JP6092345B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)

Abstract

PROBLEM TO BE SOLVED: To extract a voice feature quantity capable of improving noise resistance performance of voice recognition.SOLUTION: A voice feature quantity extraction device includes a segmentation section 101 and a calculation section 106. The segmentation section 101 generates one of a unit voice signal 11 and a plurality of sub-band unit voice signals by segmenting a voice waveform over predetermined time length for each unit time from one of an input voice signal 10 and a plurality of sub-band input voice signals obtained by extracting a signal component of a plurality of frequency bands from the input voice signal 10. The calculation section 106 obtains a voice feature quantity 16 by calculating one of average time of the unit voice signal 11 and each of average times of the plurality of sub-band unit voice signals in each of the plurality of frequency bands.SELECTED DRAWING: Figure 1

Description

実施形態は、音声特徴量の抽出技術に関する。   Embodiments described herein relate to a voice feature extraction technique.

雑音環境下で実用可能な音声認識技術の重要性が高まっている。雑音環境下では、雑音による音声認識精度の劣化が問題となる。音声認識は、入力音声信号から抽出された音声特徴量を使用して行われる。音声特徴量の一種としてメル周波数ケプストラム係数(MFCC;Mel−Frequency Cepstrum Coefficient)が知られている。しかしながら、MFCCのみを使用する音声認識はその耐雑音性能が十分に高いとは言い難い。故に、音声認識の耐雑音性能を向上させることのできる音声特徴量が望まれる。   The importance of speech recognition technology that can be used in noisy environments is increasing. In a noisy environment, degradation of speech recognition accuracy due to noise becomes a problem. Speech recognition is performed using speech feature values extracted from the input speech signal. A mel frequency cepstrum coefficient (MFCC) is known as a kind of audio feature quantity. However, it is difficult to say that speech recognition using only MFCC has sufficiently high noise resistance. Therefore, a voice feature quantity that can improve the noise resistance performance of voice recognition is desired.

山本ら,「長時間位相特徴と振幅スペクトル特徴の併用による音声認識の検討」(2011年秋季日本音響学会論文集2−Q−13)Yamamoto et al., "Study on speech recognition by using long-time phase feature and amplitude spectrum feature together" (2011 Autumn Acoustics Society of Japan 2-Q-13) L.コーエン,「時間―周波数解析」(朝倉書店),1998年10月1日,第4−5頁L. Cohen, “Time-Frequency Analysis” (Asakura Shoten), October 1, 1998, pp. 4-5 山本ら,「長時間分析に基づく位相情報を用いた音声認識の検討」(音声信号処理技術報告SP2010−40)Yamamoto et al., "Study on speech recognition using phase information based on long-term analysis" (Speech Signal Processing Technical Report SP2010-40)

実施形態は、音声認識の耐雑音性能を向上させることのできる音声特徴量を抽出することを目的とする。   An object of the embodiment is to extract a speech feature amount that can improve noise resistance performance of speech recognition.

実施形態によれば、音声特徴量抽出装置は、切り出し部と、第1の算出部とを含む。切り出し部は、入力音声信号及び前記入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号のうちいずれか一方から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号及び複数のサブバンド単位音声信号のうちいずれか一方を生成する。第1の算出部は、複数の周波数帯域の各々における前記単位音声信号の平均時間及び前記複数のサブバンド単位音声信号の各々の平均時間のうちいずれか一方を算出することによって、音声特徴量を得る。   According to the embodiment, the speech feature quantity extraction device includes a cutout unit and a first calculation unit. The cut-out unit covers a predetermined time length per unit time from any one of the input audio signal and a plurality of subband input audio signals obtained by extracting signal components of a plurality of frequency bands from the input audio signal. By cutting out the voice waveform, one of the unit voice signal and the plurality of subband unit voice signals is generated. The first calculation unit calculates an audio feature amount by calculating one of an average time of the unit audio signal and an average time of each of the plurality of subband unit audio signals in each of a plurality of frequency bands. obtain.

第1の実施形態に係る音声特徴量抽出装置を例示するブロック図。1 is a block diagram illustrating a speech feature quantity extraction device according to a first embodiment. 図1の音声特徴量抽出装置の動作を例示するフローチャート。3 is a flowchart illustrating an operation of the audio feature quantity extraction device in FIG. 1. 第2の実施形態に係る音声特徴量抽出装置を例示するブロック図。The block diagram which illustrates the voice feature-value extraction device concerning a 2nd embodiment. 図3の音声特徴量抽出装置の動作を例示するフローチャート。FIG. 4 is a flowchart illustrating an operation of the speech feature quantity extraction device of FIG. 第2の実施形態の比較例に係る音声特徴量抽出装置の動作を例示するフローチャート。The flowchart which illustrates operation | movement of the audio | voice feature-value extraction apparatus which concerns on the comparative example of 2nd Embodiment. 第2の実施形態の効果の説明図。Explanatory drawing of the effect of 2nd Embodiment. 第3の実施形態に係る音声認識装置を例示するブロック図。The block diagram which illustrates the voice recognition device concerning a 3rd embodiment. 第4の実施形態に係る音声特徴量抽出装置を例示するブロック図。The block diagram which illustrates the voice feature-value extraction device concerning a 4th embodiment. 図8の音声特徴量抽出装置の動作を例示するフローチャート。The flowchart which illustrates operation | movement of the audio | voice feature-value extraction apparatus of FIG. 第4の実施形態において算出される帯域別平均時間の説明図。Explanatory drawing of the average time according to zone | band calculated in 4th Embodiment. 第1の実施形態及び第4の実施形態において算出される帯域別平均時間を夫々示すグラフ。The graph which shows the average time according to zone | band calculated in 1st Embodiment and 4th Embodiment, respectively. 第1の実施形態及び第4の実施形態において算出される帯域別平均時間を夫々示すグラフ。The graph which shows the average time according to zone | band calculated in 1st Embodiment and 4th Embodiment, respectively. 第5の実施形態に係る音声特徴量抽出装置を例示するブロック図。The block diagram which illustrates the voice feature-value extraction device concerning a 5th embodiment. 図13の音声特徴量抽出装置の動作を例示するフローチャート。14 is a flowchart illustrating an operation of the audio feature quantity extraction device in FIG. 13. 第1の実施形態及び第4の実施形態において算出される帯域別平均時間を夫々示すグラフ。The graph which shows the average time according to zone | band calculated in 1st Embodiment and 4th Embodiment, respectively.

以下、図面を参照しながら実施形態の説明が述べられる。尚、以降、説明済みの要素と同一または類似の要素には同一または類似の符号が付され、重複する説明は基本的に省略される。   Hereinafter, embodiments will be described with reference to the drawings. Hereinafter, the same or similar elements as those already described are denoted by the same or similar reference numerals, and redundant description is basically omitted.

(第1の実施形態)
図1に例示されるように、第1の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、第3のスペクトル算出部103と、フィルタバンク適用部104,105と、帯域別平均時間算出部106と、軸変換部107とを備える。図1の音声特徴量抽出装置は、入力音声信号10から音声特徴量17を抽出する。
(First embodiment)
As illustrated in FIG. 1, the speech feature extraction device according to the first embodiment includes a waveform cutout unit 101, a power spectrum calculation unit 102, a third spectrum calculation unit 103, and a filter bank application unit 104. , 105, an average time calculating unit 106 for each band, and an axis converting unit 107. The voice feature quantity extraction device in FIG. 1 extracts a voice feature quantity 17 from the input voice signal 10.

波形切り出し部101は、外部から入力音声信号10を取得する。波形切り出し部101は、入力音声信号10から単位時間毎に時間長T(例えば、T=56ミリ秒)の音声波形を切り出すことによって時刻(n)での単位音声信号11(x(t))を生成する。尚、以降の説明において、時間長Tは分析窓幅とも呼ばれる。波形切り出し部101は、時間長Tの音声波形を切り出す処理に加えて、切り出した音声波形の直流成分を除去する処理、切り出した音声波形の高周波成分を強調する処理、切り出した音声波形に窓関数(例えば、ハミング窓)を乗算する処理などを行うことによって、単位音声信号11を生成してもよい。波形切り出し部101は、単位音声信号11をパワースペクトル算出部102及び第3のスペクトル算出部103へと出力する。 The waveform cutout unit 101 acquires the input audio signal 10 from the outside. The waveform cutout unit 101 cuts out a sound waveform having a time length T (for example, T = 56 milliseconds) from the input sound signal 10 for each unit time, thereby unit sound signal 11 (x n (t)) at time (n). ) Is generated. In the following description, the time length T is also called an analysis window width. In addition to the process of cutting out a speech waveform of time length T, the waveform cutout unit 101 performs a process of removing a DC component of the cut out voice waveform, a process of enhancing high frequency components of the cut out voice waveform, and a window function on the cut out voice waveform The unit audio signal 11 may be generated by performing a process of multiplying (for example, a Hamming window). The waveform cutout unit 101 outputs the unit audio signal 11 to the power spectrum calculation unit 102 and the third spectrum calculation unit 103.

パワースペクトル算出部102は、波形切り出し部101から単位音声信号11を入力する。パワースペクトル算出部102は、単位音声信号11のパワースペクトル12を算出する。具体的には、単位音声信号11に複素フーリエ変換を施すことによって下記数式(1)に示されるように、周波数(ω)毎の第1のスペクトル(X(ω))が導出できる。   The power spectrum calculation unit 102 receives the unit audio signal 11 from the waveform cutout unit 101. The power spectrum calculation unit 102 calculates the power spectrum 12 of the unit audio signal 11. Specifically, the first spectrum (X (ω)) for each frequency (ω) can be derived by performing complex Fourier transform on the unit audio signal 11 as shown in the following formula (1).

ここで、X(ω)は第1のスペクトル(X(ω))の実部を表し、X(ω)は第1のスペクトル(X(ω))の虚部を表し、jは虚数単位を表す。更に、パワースペクトル算出部102は、下記数式(2)に示されるように、第1のスペクトルのパワーを算出することによってパワースペクトル12を得る。 Here, X R (ω) represents the real part of the first spectrum (X (ω)), X I (ω) represents the imaginary part of the first spectrum (X (ω)), and j is an imaginary number. Represents a unit. Furthermore, the power spectrum calculation unit 102 obtains the power spectrum 12 by calculating the power of the first spectrum as shown in the following mathematical formula (2).

パワースペクトル算出部102は、パワースペクトル12をフィルタバンク適用部104へと出力する。   The power spectrum calculation unit 102 outputs the power spectrum 12 to the filter bank application unit 104.

第3のスペクトル算出部103は、波形切り出し部101から単位音声信号11を入力する。第3のスペクトル算出部103は、前述の第1のスペクトル(X(ω))と、単位音声信号11(x(t))及び時刻(t)の積の第2のスペクトルとを利用して第3のスペクトル13を算出する。例えば、下記数式(3)に示されるように、単位音声信号11(x(t))及び時刻(t)の積に複素フーリエ変換を施すことによって周波数(ω)毎の第2のスペクトルが導出できる。 The third spectrum calculation unit 103 receives the unit audio signal 11 from the waveform cutout unit 101. The third spectrum calculation unit 103 uses the first spectrum (X (ω)) described above and the second spectrum of the product of the unit audio signal 11 (x n (t)) and time (t). To calculate the third spectrum 13. For example, as shown in the following equation (3), the second spectrum for each frequency (ω) is obtained by performing a complex Fourier transform on the product of the unit audio signal 11 (x n (t)) and the time (t). Can be derived.

ここで、Y(ω)は第2のスペクトル(Y(ω))の実部を表し、Y(ω)は第2のスペクトル(Y(ω))の虚部を表す。そして、第3のスペクトル算出部103は、第1のスペクトルの実部(X(ω))と第2のスペクトルの実部(Y(ω))との第1の積を算出し、第1のスペクトルの虚部(X(ω))と第2のスペクトルの虚部(Y(ω))との第2の積を算出し、第1の積及び第2の積を加算することによって、第3のスペクトル13を得る。即ち、第3のスペクトル算出部103は、下記数式(4)に示されるように、周波数(ω)毎の第3のスペクトル13(XY(ω))を算出できる。 Here, Y R (ω) represents the real part of the second spectrum (Y (ω)), and Y I (ω) represents the imaginary part of the second spectrum (Y (ω)). The third spectrum calculation unit 103 calculates a first product of the real part (X R (ω)) of the first spectrum and the real part (Y R (ω)) of the second spectrum, Calculate the second product of the imaginary part (X I (ω)) of the first spectrum and the imaginary part (Y I (ω)) of the second spectrum, and add the first product and the second product By doing so, the third spectrum 13 is obtained. That is, the third spectrum calculation unit 103 can calculate the third spectrum 13 (XY (ω)) for each frequency (ω) as shown in the following mathematical formula (4).

第3のスペクトル算出部103は、第3のスペクトル13をフィルタバンク適用部105へと出力する。   The third spectrum calculation unit 103 outputs the third spectrum 13 to the filter bank application unit 105.

フィルタバンク適用部104は、パワースペクトル算出部102からパワースペクトル12を入力する。フィルタバンク適用部104は、パワースペクトル12にフィルタバンクを適用し、フィルタ処理されたパワースペクトル14を得る。フィルタバンク適用部104は、フィルタ処理されたパワースペクトル14を帯域別平均時間算出部106へと出力する。フィルタバンク適用部104によって適用されるフィルタバンクは、1または複数(例えば、16個)の周波数フィルタを備える。各周波数フィルタは、三角フィルタ、矩形フィルタなどであってよい。また、このフィルタバンクは、メルフィルタバンク、線形フィルタバンクなどであってよい。   The filter bank application unit 104 receives the power spectrum 12 from the power spectrum calculation unit 102. The filter bank application unit 104 applies a filter bank to the power spectrum 12 to obtain a filtered power spectrum 14. The filter bank application unit 104 outputs the filtered power spectrum 14 to the band-based average time calculation unit 106. The filter bank applied by the filter bank application unit 104 includes one or a plurality of (for example, 16) frequency filters. Each frequency filter may be a triangular filter, a rectangular filter, or the like. The filter bank may be a mel filter bank, a linear filter bank, or the like.

フィルタバンク適用部105は、第3のスペクトル算出部103から第3のスペクトル13を入力する。フィルタバンク適用部105は、第3のスペクトル13にフィルタバンクを適用し、フィルタ処理された第3のスペクトル15を得る。フィルタバンク適用部105は、フィルタ処理された第3のスペクトル15を帯域別平均時間算出部106へと出力する。フィルタバンク適用部105によって適用されるフィルタバンクは、フィルタバンク適用部104によって適用されるフィルタバンクと同数の周波数フィルタを備える必要がある。好ましくは、フィルタバンク適用部105は、フィルタバンク適用部104と同一のフィルタバンクを適用する。以降の説明において、フィルタバンク適用部105は、フィルタバンク適用部104と同一のフィルタバンクを適用すると仮定される。   The filter bank application unit 105 inputs the third spectrum 13 from the third spectrum calculation unit 103. The filter bank application unit 105 applies the filter bank to the third spectrum 13 and obtains a filtered third spectrum 15. The filter bank application unit 105 outputs the filtered third spectrum 15 to the band-based average time calculation unit 106. The filter bank applied by the filter bank application unit 105 needs to include the same number of frequency filters as the filter bank applied by the filter bank application unit 104. Preferably, the filter bank application unit 105 applies the same filter bank as the filter bank application unit 104. In the following description, it is assumed that the filter bank application unit 105 applies the same filter bank as the filter bank application unit 104.

帯域別平均時間算出部106は、フィルタバンク適用部104からフィルタ処理されたパワースペクトル14を入力し、フィルタバンク適用部105からフィルタ処理された第3のスペクトル15を入力する。帯域別平均時間算出部106は、フィルタ処理されたパワースペクトル14及びフィルタ処理された第3のスペクトル15に基づいて、1以上の周波数帯域(サブバンドと呼ばれてもよい)の各々における単位音声信号11の平均時間(以降の説明において、帯域別平均時間16とも称される)を算出する。帯域別平均時間算出部106は、帯域別平均時間16を軸変換部107へと出力する。尚、帯域別平均時間算出部106の処理の詳細は後述される。   The band-specific average time calculation unit 106 receives the filtered power spectrum 14 from the filter bank application unit 104, and receives the filtered third spectrum 15 from the filter bank application unit 105. Based on the filtered power spectrum 14 and the filtered third spectrum 15, the band-specific average time calculation unit 106 unit sounds in each of one or more frequency bands (may be referred to as subbands). The average time of the signal 11 (also referred to as band-specific average time 16 in the following description) is calculated. The band-specific average time calculation unit 106 outputs the band-specific average time 16 to the axis conversion unit 107. The details of the processing of the band-specific average time calculation unit 106 will be described later.

軸変換部107は、帯域別平均時間算出部106から帯域別平均時間16を入力する。軸変換部107は、帯域別平均時間16に軸変換処理を施し、音声特徴量17を生成する。以降の説明において、音声特徴量17は、帯域別平均時間ケプストラム(Sub−band Average Time Cepstrum:SATC)とも呼ばれる。軸変換部107は、例えば、離散コサイン変換(Discrete Cosine Transform:DCT)を用いることができる。軸変換部107は、音声特徴量17を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間16が、音声特徴量17として外部へと出力される。例えば、フィルタバンク適用部104,105によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合には、軸変換部107は不要である。   The axis conversion unit 107 receives the average time 16 for each band from the average time calculation unit 106 for each band. The axis conversion unit 107 performs an axis conversion process on the band-based average time 16 to generate the audio feature amount 17. In the following description, the audio feature 17 is also referred to as a band-specific average time cepstrum (SATC). The axis conversion unit 107 can use, for example, Discrete Cosine Transform (DCT). The axis conversion unit 107 outputs the audio feature quantity 17 to the outside. The axis conversion unit 107 may be omitted. In such a case, the average time 16 for each band is output to the outside as the audio feature amount 17. For example, when the total number of frequency filters included in the filter bank applied by the filter bank application units 104 and 105 is 1, the axis conversion unit 107 is unnecessary.

ここで、帯域別平均時間16は、1以上の周波数帯域の各々における単位音声信号11のエネルギー重心までの時間を意味する。尚、一般的な信号の平均時間について、非特許文献2は下記数式(5)に示す定義を開示する。   Here, the average time 16 by band means the time to the energy center of gravity of the unit audio signal 11 in each of one or more frequency bands. In addition, about the average time of a general signal, the nonpatent literature 2 discloses the definition shown to following Numerical formula (5).

ここで、s(t)は分析窓中で信号のパワーを正規化することによって得られるパワー正規化信号を表し、S(ω)はパワー正規化信号(s(t))を複素フーリエ変換することによって得られる周波数(ω)毎のスペクトルを表し、τ(ω)は周波数(ω)毎の群遅延スペクトルを表す。数式(5)は、全周波数帯域に亘る信号の平均時間を定義している。具体的には、数式(5)において、右辺の分子は群遅延スペクトル及びパワースペクトルの積の全周波数帯域に亘る総和を表し、右辺の分母はパワースペクトルの全周波数帯域に亘る総和を表す。他方、帯域別平均時間16は、前述の通り、1以上の周波数帯域の各々における単位音声信号11の平均時間を意味する。そして、第m番目の周波数帯域(Ω)における単位音声信号11の平均時間(<t>(m))は、例えば下記数式(6)に従って算出できる。ここで、mは1以上の周波数帯域の各々を識別するためのインデックスであり、1以上M以下の整数となる。Mは、周波数帯域の総数を表しており、周波数(ω)のbin数よりも小さいとする。 Here, s (t) represents a power normalized signal obtained by normalizing the power of the signal in the analysis window, and S (ω) performs a complex Fourier transform on the power normalized signal (s (t)). The spectrum for each frequency (ω) obtained by the above is expressed, and τ g (ω) represents the group delay spectrum for each frequency (ω). Equation (5) defines the average time of the signal over the entire frequency band. Specifically, in Equation (5), the numerator on the right side represents the sum over the entire frequency band of the product of the group delay spectrum and the power spectrum, and the denominator on the right side represents the sum over the entire frequency band of the power spectrum. On the other hand, the average time 16 by band means the average time of the unit audio signal 11 in each of one or more frequency bands as described above. Then, the average time (<t> (m) ) of the unit audio signal 11 in the mth frequency band (Ω m ) can be calculated according to the following formula (6), for example. Here, m is an index for identifying each of one or more frequency bands, and is an integer of 1 to M. M represents the total number of frequency bands, and is assumed to be smaller than the number of bins of the frequency (ω).

ここで、h(ω)は、フィルタバンク適用部104,105によって適用されるフィルタバンクのうち第m番目の周波数帯域(Ω)に対応する周波数フィルタを表す。数式(6)のうち群遅延スペクトル(τ(ω))は、下記数式(7)に示されるように、表すこともできる。 Here, h m (ω) represents a frequency filter corresponding to the m-th frequency band (Ω m ) in the filter bank applied by the filter bank application units 104 and 105. The group delay spectrum (τ g (ω)) in the formula (6) can also be expressed as shown in the following formula (7).

上記数式(2),(4),(7)によれば、上記数式(6)における群遅延スペクトル及びパワースペクトルの積(τ(ω)|X(ω)|)は、第3のスペクトル(XY(ω))に等しい。故に、数式(7)に基づいて、上記数式(6)は下記数式(8)のように書き換えることができる。 According to the above equations (2), (4), and (7), the product (τ g (ω) | X (ω) | 2 ) of the group delay spectrum and the power spectrum in the above equation (6) It is equal to the spectrum (XY (ω)). Therefore, based on Equation (7), Equation (6) can be rewritten as Equation (8) below.

数式(8)において、h(ω)|X(ω)|は、フィルタ処理されたパワースペクトル14に相当し、h(ω)XY(ω)はフィルタ処理された第3のスペクトル15に相当する。即ち、帯域別平均時間算出部106は、フィルタ処理された第3のスペクトル15の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算することによって、第m番目の周波数帯域(Ω)の帯域別平均時間16を得る。 In Equation (8), h m (ω) | X (ω) | 2 corresponds to the filtered power spectrum 14, and h m (ω) XY (ω) is the filtered third spectrum 15. It corresponds to. In other words, the band-based average time calculation unit 106 calculates the sum in the m-th frequency band (Ω m ) of the filtered third spectrum 15 and filters the m-th frequency band (Ω By dividing by the sum in m 2 ), the band average time 16 of the m th frequency band (Ω m ) is obtained.

図1の音声特徴量抽出装置は、図2に例示されるように動作できる。波形切り出し部101は、外部から取得した入力音声信号10から単位時間毎に時間長Tの音声波形を切り出すことによって単位音声信号11を生成する(ステップS101)。   The voice feature extraction device of FIG. 1 can operate as illustrated in FIG. The waveform cutout unit 101 generates a unit voice signal 11 by cutting out a voice waveform having a time length T for each unit time from the input voice signal 10 acquired from the outside (step S101).

パワースペクトル算出部102は、ステップS101において生成された単位音声信号11のパワースペクトル12を算出する(ステップS102)。具体的には、パワースペクトル算出部102は、前述の第1のスペクトル(X(ω))のパワーを算出することによって、パワースペクトル12を得る。フィルタ適用部104は、ステップS102において算出されたパワースペクトル12にフィルタバンクを適用し、フィルタ処理されたパワースペクトル14を得る(ステップS104)。   The power spectrum calculation unit 102 calculates the power spectrum 12 of the unit audio signal 11 generated in step S101 (step S102). Specifically, the power spectrum calculation unit 102 obtains the power spectrum 12 by calculating the power of the first spectrum (X (ω)). The filter application unit 104 applies a filter bank to the power spectrum 12 calculated in step S102 to obtain a filtered power spectrum 14 (step S104).

第3のスペクトル算出部103は、ステップS101において生成された単位音声信号11のパワースペクトル12を算出する(ステップS103)。具体的には、第3のスペクトル算出部103は、第1のスペクトルの実部(X(ω))と第2のスペクトルの実部(Y(ω))との第1の積を算出し、第1のスペクトルの虚部(X(ω))と第2のスペクトルの虚部(Y(ω))との第2の積を算出し、第1の積及び第2の積を加算することによって、第3のスペクトル13を得る。フィルタ適用部105は、ステップS103において算出された第3のスペクトル13にフィルタバンクを適用し、フィルタ処理された第3のスペクトル15を得る(ステップS105)。 The third spectrum calculation unit 103 calculates the power spectrum 12 of the unit audio signal 11 generated in step S101 (step S103). Specifically, the third spectrum calculation unit 103 calculates the first product of the real part (X R (ω)) of the first spectrum and the real part (Y R (ω)) of the second spectrum. And calculating a second product of an imaginary part (X I (ω)) of the first spectrum and an imaginary part (Y I (ω)) of the second spectrum, and calculating the first product and the second A third spectrum 13 is obtained by adding the products. The filter application unit 105 applies a filter bank to the third spectrum 13 calculated in step S103, and obtains a filtered third spectrum 15 (step S105).

ここで、ステップS102,S104の一連の処理と、ステップS103,S105の一連の処理との間には依存関係が存在しないので、ステップS101の完了後に、両者が並列的に実行されてもよいし、直列的に実行されてもよい。   Here, since there is no dependency between the series of processes in steps S102 and S104 and the series of processes in steps S103 and S105, both may be executed in parallel after step S101 is completed. , May be executed serially.

帯域別平均時間算出部106は、ステップS104において得られたフィルタ処理されたパワースペクトル14及びステップS105において得られたフィルタ処理された第3のスペクトル15に基づいて帯域別平均時間16を算出する(ステップS106)。具体的には、帯域別平均時間算出部106は、フィルタ処理された第3のスペクトル15の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算することによって、第m番目の周波数帯域(Ω)の帯域別平均時間16を得る。軸変換部107は、ステップS106において算出された帯域別平均時間16に対して軸変換処理を施し、音声特徴量17を生成する。 The band-specific average time calculation unit 106 calculates the band-specific average time 16 based on the filtered power spectrum 14 obtained in step S104 and the filtered third spectrum 15 obtained in step S105 ( Step S106). Specifically, the band-based average time calculation unit 106 filters the sum of the filtered third spectrum 15 in the m-th frequency band (Ω m ), and the m-th frequency of the power spectrum 14 that has been filtered. by dividing by the sum of the band (Omega m), obtaining a per-band average time 16 of the m-th frequency band (Omega m). The axis conversion unit 107 performs an axis conversion process on the band-specific average time 16 calculated in step S <b> 106 to generate a voice feature 17.

以上説明したように、第1の実施形態に係る音声特徴量抽出装置は、SATCを音声特徴量として抽出する。この音声特徴量抽出装置によれば、例えば、SATCをMFCCなどの従来の音声特徴量に結合(追加)して使用することによって、音声認識の耐雑音性能を向上させることができる。   As described above, the speech feature amount extraction apparatus according to the first embodiment extracts SATC as a speech feature amount. According to this speech feature amount extraction apparatus, for example, by using (adding) SATC to a conventional speech feature amount such as MFCC, the noise resistance performance of speech recognition can be improved.

尚、本実施形態において、フィルタバンク適用部104,105は、省略されてもよい。係る場合には、帯域別平均時間算出部106は、パワースペクトル12及び第3のスペクトル13に基づいて、帯域別平均時間16を算出する。具体的には、帯域別平均時間算出部106は、下記数式(9)を利用できる。   In the present embodiment, the filter bank application units 104 and 105 may be omitted. In such a case, the band-specific average time calculation unit 106 calculates the band-specific average time 16 based on the power spectrum 12 and the third spectrum 13. Specifically, the band-specific average time calculation unit 106 can use the following mathematical formula (9).

数式(9)において、|X(ω)|は、パワースペクトル12に相当し、XY(ω)は第3のスペクトル13に相当する。即ち、帯域別平均時間算出部106は、第3のスペクトル13の第m番目の周波数帯域(Ω)における総和をパワースペクトル12の第m番目の周波数帯域(Ω)における総和によって除算し、第m番目の周波数帯域(Ω)の帯域別平均時間16を得る。 In Expression (9), | X (ω) | 2 corresponds to the power spectrum 12, and XY (ω) corresponds to the third spectrum 13. That is, the band-based average time calculation unit 106 divides the sum in the m-th frequency band (Ω m ) of the third spectrum 13 by the sum in the m-th frequency band (Ω m ) of the power spectrum 12, An average time 16 for each band of the mth frequency band (Ω m ) is obtained.

(第2の実施形態)
前述の第1の実施形態において、例えば上記数式(8)に従って、パワースペクトル及び第3のスペクトルに基づいて帯域別平均時間が算出される。他方、上記数式(6)によれば、群遅延スペクトル及びパワースペクトルに基づいて帯域別平均時間を算出することもできる。
(Second Embodiment)
In the first embodiment described above, the average time for each band is calculated based on the power spectrum and the third spectrum, for example, according to the equation (8). On the other hand, according to the above formula (6), the average time for each band can be calculated based on the group delay spectrum and the power spectrum.

図3に例示されるように、第2の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、フィルタバンク適用部104と、軸変換部107と、群遅延スペクトル算出部208と、スペクトル乗算部209と、フィルタバンク適用部210と、帯域別平均時間算出部211とを備える。図3の音声特徴量抽出装置は、入力音声信号10から音声特徴量22を抽出する。   As illustrated in FIG. 3, the speech feature extraction device according to the second embodiment includes a waveform cutout unit 101, a power spectrum calculation unit 102, a filter bank application unit 104, an axis conversion unit 107, a group A delay spectrum calculation unit 208, a spectrum multiplication unit 209, a filter bank application unit 210, and an average time calculation unit 211 for each band are provided. The voice feature quantity extraction device in FIG. 3 extracts the voice feature quantity 22 from the input voice signal 10.

群遅延スペクトル算出部208は、波形切り出し部101から単位音声信号11を入力する。群遅延スペクトル算出部208は、単位音声信号11の群遅延スペクトル18を算出する。群遅延スペクトル算出部208は、群遅延スペクトル18をスペクトル乗算部209へと出力する。   The group delay spectrum calculation unit 208 receives the unit audio signal 11 from the waveform cutout unit 101. The group delay spectrum calculation unit 208 calculates the group delay spectrum 18 of the unit audio signal 11. The group delay spectrum calculation unit 208 outputs the group delay spectrum 18 to the spectrum multiplication unit 209.

例えば、群遅延スペクトル算出部208は、上記数式(7)に第1のスペクトルの実部(X(ω))及び虚部(X(ω))と、第2のスペクトルの実部(Y(ω))及び虚部(Y(ω))とを代入することによって、群遅延スペクトル18を算出してもよい。 For example, the group delay spectrum calculation unit 208 adds the real part (X R (ω)) and imaginary part (X I (ω)) of the first spectrum and the real part (X I (ω)) of the second spectrum to the above equation (7). The group delay spectrum 18 may be calculated by substituting Y R (ω)) and the imaginary part (Y I (ω)).

或いは、群遅延スペクトル算出部208は、上記数式(7)とは異なる技法で群遅延スペクトル18を算出してもよい。具体的には、群遅延スペクトル18(τ(ω))は、下記数式(10)に示されるように、第1のスペクトル(X(ω))の位相項(θ(ω))を周波数(ω)について微分し、その符号を反転することによって得られる値として定義される。 Alternatively, the group delay spectrum calculation unit 208 may calculate the group delay spectrum 18 by a technique different from the equation (7). Specifically, the group delay spectrum 18 (τ g (ω)) is obtained by using the phase term (θ (ω)) of the first spectrum (X (ω)) as the frequency as shown in the following formula (10). It is defined as a value obtained by differentiating (ω) and inverting its sign.

ここで、位相項(θ(ω))は下記数式(11)によって定義される。   Here, the phase term (θ (ω)) is defined by the following mathematical formula (11).

従って、群遅延スペクトル算出部208は、非特許文献3に記載されているように、数式(11)に示される位相項(θ(ω))の周波数(ω)軸方向の差分値を用いて群遅延スペクトル18を算出してもよい。尚、本技法によって群遅延スペクトル18を算出する場合には、位相項(θ(ω))の値域を−πからπまでの範囲に収めるために位相アンラッピング処理を行う必要がある。   Therefore, as described in Non-Patent Document 3, the group delay spectrum calculation unit 208 uses the difference value in the frequency (ω) axis direction of the phase term (θ (ω)) shown in Equation (11). The group delay spectrum 18 may be calculated. When the group delay spectrum 18 is calculated by this technique, it is necessary to perform a phase unwrapping process in order to keep the range of the phase term (θ (ω)) within the range from −π to π.

スペクトル乗算部209は、パワースペクトル算出部102からパワースペクトル12を入力し、群遅延スペクトル算出部208から群遅延スペクトル18を入力する。スペクトル乗算部209は、群遅延スペクトル18をパワースペクトル12に乗算し、乗算スペクトル19を得る。スペクトル乗算部209は、乗算スペクトル19をフィルタバンク適用部210へと出力する。尚、乗算スペクトル19は、前述の第3のスペクトル13に相当する。   The spectrum multiplier 209 receives the power spectrum 12 from the power spectrum calculator 102 and receives the group delay spectrum 18 from the group delay spectrum calculator 208. The spectrum multiplication unit 209 multiplies the group delay spectrum 18 by the power spectrum 12 to obtain a multiplication spectrum 19. The spectrum multiplication unit 209 outputs the multiplication spectrum 19 to the filter bank application unit 210. The multiplication spectrum 19 corresponds to the third spectrum 13 described above.

フィルタバンク適用部210は、乗算スペクトル算出部209から乗算スペクトル19を入力する。フィルタバンク適用部210は、乗算スペクトル19にフィルタバンクを適用し、フィルタ処理された乗算スペクトル20を得る。フィルタバンク適用部210は、フィルタ処理された乗算スペクトル20を帯域別平均時間算出部211へと出力する。フィルタバンク適用部210によって適用されるフィルタバンクは、フィルタバンク適用部104によって適用されるフィルタバンクと同数の周波数フィルタを備える必要がある。好ましくは、フィルタバンク適用部210は、フィルタバンク適用部104と同一のフィルタバンクを適用する。以降の説明において、フィルタバンク適用部210は、フィルタバンク適用部104と同一のフィルタバンクを適用すると仮定される。   The filter bank application unit 210 receives the multiplication spectrum 19 from the multiplication spectrum calculation unit 209. The filter bank application unit 210 applies the filter bank to the multiplication spectrum 19 to obtain the filtered multiplication spectrum 20. The filter bank application unit 210 outputs the filtered multiplication spectrum 20 to the band-based average time calculation unit 211. The filter bank applied by the filter bank application unit 210 needs to include the same number of frequency filters as the filter bank applied by the filter bank application unit 104. Preferably, the filter bank application unit 210 applies the same filter bank as the filter bank application unit 104. In the following description, it is assumed that the filter bank application unit 210 applies the same filter bank as the filter bank application unit 104.

帯域別平均時間算出部211は、フィルタバンク適用部104からフィルタ処理されたパワースペクトル14を入力し、フィルタバンク適用部210からフィルタ処理された乗算スペクトル20を入力する。帯域別平均時間算出部211は、フィルタ処理されたパワースペクトル14及びフィルタ処理された乗算スペクトル20に基づいて、1以上の周波数帯域の各々における単位音声信号11の平均時間(以降の説明において、帯域別平均時間21とも称される)を算出する。   The band-specific average time calculation unit 211 receives the filtered power spectrum 14 from the filter bank application unit 104 and receives the filtered spectrum 20 from the filter bank application unit 210. Based on the filtered power spectrum 14 and the filtered multiplication spectrum 20, the average time by band calculation unit 211 calculates the average time of the unit audio signal 11 in each of one or more frequency bands (in the following description, the band (Also referred to as another average time 21).

具体的には、帯域別平均時間算出部211は、上記数式(6)を利用できる。尚、数式(6)において、h(ω)τ(ω)|X(ω)|はフィルタ処理された乗算スペクトル20に相当し、h(ω)|X(ω)|はフィルタ処理されたパワースペクトル14に相当する。即ち、帯域別平均時間算出部211は、フィルタ処理された乗算スペクトル20の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算し、第m番目の周波数帯域(Ω)の帯域別平均時間21を得る。帯域別平均時間算出部211は、帯域別平均時間21を軸変換部107へと出力する。 Specifically, the band-specific average time calculation unit 211 can use the above formula (6). Note that in equation (6), h m (ω ) τ g (ω) | X (ω) | 2 is equivalent to multiplying the spectrum 20, which is filtered, h m (ω) | X (ω) | 2 is Corresponds to the filtered power spectrum 14. That is, the band-by-band average time calculation unit 211, the m-th frequency band of the power spectrum 14 which has been filtered summation for the m-th frequency band of the filtered multiplied spectrum 20 (Ω m) (Ω m ) Is divided by the sum total at, and an average time 21 for each band of the mth frequency band (Ω m ) is obtained. The band-specific average time calculation unit 211 outputs the band-specific average time 21 to the axis conversion unit 107.

軸変換部107は、帯域別平均時間算出部211から帯域別平均時間21を入力する。軸変換部107は、帯域別平均時間21に第1の実施形態と同一または類似の軸変換処理を施し、音声特徴量22を生成する。音声特徴量22は、前述の音声特徴量17に相当し、SATCとも呼ばれる。軸変換部107は、音声特徴量22を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間21が、音声特徴量22として外部へと出力される。例えば、フィルタバンク適用部104,210によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合には、軸変換部107は不要である。   The axis conversion unit 107 receives the average time by band 21 from the average time by band calculation unit 211. The axis conversion unit 107 performs an axis conversion process that is the same as or similar to that of the first embodiment on the average time 21 for each band, and generates a voice feature 22. The audio feature 22 corresponds to the audio feature 17 described above and is also called SATC. The axis conversion unit 107 outputs the audio feature quantity 22 to the outside. The axis conversion unit 107 may be omitted. In such a case, the band-specific average time 21 is output to the outside as the audio feature amount 22. For example, when the total number of frequency filters included in the filter bank applied by the filter bank application units 104 and 210 is 1, the axis conversion unit 107 is unnecessary.

図3の音声特徴量抽出装置は、図4に例示されるように動作できる。群遅延スペクトル算出部208は、ステップS101において生成された単位音声信号11の群遅延スペクトル18を算出する(ステップS208)。具体的には、群遅延スペクトル算出部208は、上記数式(7)を利用して群遅延スペクトル18を算出してもよいし、上記数式(11)に示される位相項(θ(ω))の周波数(ω)軸方向の差分値を用いて群遅延スペクトル18を算出してもよい。   The voice feature extraction device of FIG. 3 can operate as illustrated in FIG. The group delay spectrum calculation unit 208 calculates the group delay spectrum 18 of the unit audio signal 11 generated in step S101 (step S208). Specifically, the group delay spectrum calculation unit 208 may calculate the group delay spectrum 18 using the above formula (7), or the phase term (θ (ω)) shown in the above formula (11). The group delay spectrum 18 may be calculated using the difference value in the frequency (ω) axis direction.

ここで、ステップS102の処理と、ステップS208の処理との間には依存関係が存在しないので、ステップS102の完了後に両者が並列的に実行されてもよいし、直列的に実行されてもよい。   Here, since there is no dependency between the process of step S102 and the process of step S208, both may be executed in parallel after the completion of step S102, or may be executed in series. .

スペクトル乗算部209は、ステップS208において算出された群遅延スペクトル18をステップS102において算出されたパワースペクトル12に乗算し、乗算スペクトル19を得る(ステップS209)。フィルタ適用部210は、ステップS209において算出された乗算スペクトル19にフィルタバンクを適用し、フィルタ処理された乗算スペクトル20を得る(ステップS210)。   The spectrum multiplication unit 209 multiplies the power spectrum 12 calculated in step S102 by the group delay spectrum 18 calculated in step S208 to obtain a multiplication spectrum 19 (step S209). The filter application unit 210 applies the filter bank to the multiplication spectrum 19 calculated in step S209 to obtain the filtered multiplication spectrum 20 (step S210).

ここで、ステップS209,S210の一連の処理と、ステップS104の処理との間には依存関係が存在しないので、ステップS102の完了後に、両者が並列的に実行されてもよいし、直列的に実行されてもよい。但し、ステップS209の処理は、ステップS102だけでなくステップS208の完了後に実行される必要がある。   Here, since there is no dependency between the series of processes in steps S209 and S210 and the process in step S104, both may be executed in parallel after the completion of step S102, or in series. May be executed. However, the process of step S209 needs to be executed not only in step S102 but also after completion of step S208.

帯域別平均時間算出部211は、ステップS104において得られたフィルタ処理されたパワースペクトル14及びステップS210において得られたフィルタ処理された乗算スペクトル20に基づいて帯域別平均時間21を算出する(ステップS211)。具体的には、帯域別平均時間算出部211は、フィルタ処理された第3のスペクトル20の第m番目の周波数帯域(Ω)における総和をフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和によって除算することによって、第m番目の周波数帯域(Ω)の帯域別平均時間21を得る。軸変換部107は、ステップS211において算出された帯域別平均時間21に対して軸変換処理を施し、音声特徴量22を生成する。 The band-specific average time calculation unit 211 calculates the band-specific average time 21 based on the filtered power spectrum 14 obtained in step S104 and the filtered multiplication spectrum 20 obtained in step S210 (step S211). ). Specifically, the band-specific average time calculation unit 211 performs filtering on the sum of the filtered third spectrum 20 in the m-th frequency band (Ω m ) of the power spectrum 14 in the m-th frequency. by dividing by the sum of the band (Omega m), obtaining a per-band average time 21 of the m-th frequency band (Omega m). The axis conversion unit 107 performs an axis conversion process on the band-based average time 21 calculated in step S <b> 211, and generates a voice feature amount 22.

以上説明したように、第2の実施形態に係る音声特徴量抽出装置は、前述のSATCを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第1の実施形態と同一または類似の効果を得ることができる。   As described above, the speech feature amount extraction apparatus according to the second embodiment extracts the above-described SATC as a speech feature amount. Therefore, according to the speech feature quantity extraction device, the same or similar effect as that of the first embodiment can be obtained.

以下、2つの比較例と本実施形態との対比を通じて本実施形態の効果が説明される。以降の説明において、比較例1は、MFCCのみを使用する従来の音声認識に対応する。比較例2は、非特許文献1に開示される長時間群遅延ケプストラムをMFCCに結合して得られる音声特徴量を使用する音声認識に対応する。具体的には、比較例2における長時間群遅延ケプストラムは、図5に例示されるように動作する音声特徴量抽出装置によって抽出される。   Hereinafter, the effects of the present embodiment will be described through comparison between two comparative examples and the present embodiment. In the following description, Comparative Example 1 corresponds to conventional speech recognition that uses only MFCC. Comparative Example 2 corresponds to speech recognition using speech feature values obtained by combining the long-time group delay cepstrum disclosed in Non-Patent Document 1 with MFCC. Specifically, the long-time group delay cepstrum in the comparative example 2 is extracted by an audio feature quantity extraction device that operates as illustrated in FIG.

比較例2に係る音声特徴量抽出装置は、入力音声信号から単位時間毎に音声波形を切り出すことによって単位音声信号を生成する(ステップS101)。この音声特徴量抽出装置は、ステップS101において生成された単位音声信号の群遅延スペクトルを算出する(ステップS208)。この音声特徴量抽出装置は、ステップS208において算出された群遅延スペクトルに基づいて帯域別群遅延スペクトルを算出する(ステップS312)。この音声特徴量抽出装置は、ステップS312において算出された帯域別群遅延スペクトルに対して軸変換処理を施し、長時間群遅延ケプストラムを生成する(ステップS107)。   The speech feature quantity extraction device according to Comparative Example 2 generates a unit speech signal by cutting out speech waveforms from the input speech signal every unit time (step S101). The speech feature quantity extraction device calculates a group delay spectrum of the unit speech signal generated in step S101 (step S208). The speech feature quantity extraction device calculates a band-specific group delay spectrum based on the group delay spectrum calculated in step S208 (step S312). The speech feature extraction device performs axis conversion processing on the band-specific group delay spectrum calculated in step S312 to generate a long-time group delay cepstrum (step S107).

図6は、本実施形態に係る音声特徴量抽出装置によって抽出されたSATCをMFCCに結合して得られる音声特徴量を使用する音声認識の結果と、比較例1に係る音声認識の結果と、比較例2に係る音声認識の結果とを示す。具体的には、図6は、駅構内などの雑音環境下において、上記3種類の特徴量を用いて約10万語彙の孤立単語認識を行った場合の単語認識性能(%)を示す。本評価実験は雑音環境における単語認識性能を確認するために、20,15,10,5,0(dB)の5段階の信号耐雑音比(SNR)の下で単語認識性能を夫々評価した。図6には、5段階のSNRの下で夫々評価された単語認識性能の平均値が示されている。また、本評価実験は、長時間群遅延ケプストラム及びSATCについて、複数段階の分析窓幅(ミリ秒)の下で単語認識性能を夫々評価した。   FIG. 6 shows the results of speech recognition using speech features obtained by combining the SATC extracted by the speech feature extraction device according to the present embodiment with MFCC, and the results of speech recognition according to Comparative Example 1. The result of the speech recognition which concerns on the comparative example 2 is shown. Specifically, FIG. 6 shows the word recognition performance (%) when an isolated word recognition of about 100,000 vocabulary words is performed using the above three types of feature amounts in a noise environment such as a station premises. In this evaluation experiment, in order to confirm the word recognition performance in a noisy environment, the word recognition performance was evaluated under a signal-to-noise ratio (SNR) of 5, 15, 10, 5, 5, 0 (dB). FIG. 6 shows an average value of the word recognition performance evaluated under five levels of SNR. In this evaluation experiment, word recognition performance was evaluated for each of the long-time group delay cepstrum and SATC under a plurality of analysis window widths (milliseconds).

比較例1は、分析窓幅を25ミリ秒に固定して抽出したMFCCのみを用いているため、分析窓幅に依存せず一定の単語認識性能を達成する。また、比較例2は、分析窓幅に依存してその単語認識性能が変動するものの大部分の分析窓幅(=56〜152ミリ秒)の下で比較例1よりも高い単語認識性能を達成する。但し、その性能改善率は、例えば分析窓幅=152ミリ秒の場合に最大で約3.6%に留まる。他方、本実施形態は、全ての分析窓幅(=25〜216ミリ秒)の下で比較例1,2よりも高い単語認識性能を達成する。具体的には、分析窓幅=56ミリ秒の場合の性能改善率が最大で約9.5%となる。以上の通り、本評価実験によれば、例えばMFCCなどの従来の音声特徴量にSATCを結合して得られる音声特徴量を使用することによって音声認識の耐雑音性能が向上することが定量的に理解できる。   Since Comparative Example 1 uses only the MFCC extracted with the analysis window width fixed at 25 milliseconds, a certain word recognition performance is achieved without depending on the analysis window width. Comparative Example 2 achieves higher word recognition performance than Comparative Example 1 under most of the analysis window width (= 56 to 152 milliseconds), although the word recognition performance varies depending on the analysis window width. To do. However, the performance improvement rate remains at a maximum of about 3.6% when the analysis window width is 152 milliseconds, for example. On the other hand, this embodiment achieves higher word recognition performance than Comparative Examples 1 and 2 under all analysis window widths (= 25 to 216 milliseconds). Specifically, the performance improvement rate when the analysis window width is 56 milliseconds is about 9.5% at the maximum. As described above, according to this evaluation experiment, it is quantitatively understood that the noise resistance performance of speech recognition is improved by using a speech feature obtained by combining SATC with a conventional speech feature such as MFCC. Understandable.

尚、本実施形態において、フィルタバンク適用部104,210は、省略されてもよい。係る場合には、帯域別平均時間算出部211は、パワースペクトル12及び乗算スペクトル19に基づいて、帯域別平均時間21を算出する。具体的には、帯域別平均時間算出部211は、下記数式(12)を利用できる。   In the present embodiment, the filter bank application units 104 and 210 may be omitted. In such a case, the band-specific average time calculation unit 211 calculates the band-specific average time 21 based on the power spectrum 12 and the multiplication spectrum 19. Specifically, the band-specific average time calculation unit 211 can use the following formula (12).

数式(12)において、|X(ω)|は、パワースペクトル12に相当し、τ(ω)|X(ω)|は乗算スペクトル19に相当する。即ち、帯域別平均時間算出部211は、乗算スペクトル19の第m番目の周波数帯域(Ω)における総和をパワースペクトル12の第m番目の周波数帯域(Ω)における総和によって除算し、第m番目の周波数帯域(Ω)の帯域別平均時間21を得る。 In Expression (12), | X (ω) | 2 corresponds to the power spectrum 12, and τ g (ω) | X (ω) | 2 corresponds to the multiplication spectrum 19. That is, the band-specific average time calculation unit 211 divides the sum in the m-th frequency band (Ω m ) of the multiplication spectrum 19 by the sum in the m-th frequency band (Ω m ) of the power spectrum 12, and An average time 21 for each band of the first frequency band (Ω m ) is obtained.

(第3の実施形態)
図7に例示されるように、第3の実施形態に係る音声認識装置は、特徴量抽出部400と、デコーダ401と、音響モデル記憶部402と、言語モデル記憶部403とを備える。図7の音声認識装置は、入力音声信号10に対して音声認識処理を行って、当該入力音声信号10の内容を示す言語テキストを音声認識結果として出力する。
(Third embodiment)
As illustrated in FIG. 7, the speech recognition apparatus according to the third embodiment includes a feature amount extraction unit 400, a decoder 401, an acoustic model storage unit 402, and a language model storage unit 403. The speech recognition apparatus in FIG. 7 performs speech recognition processing on the input speech signal 10 and outputs language text indicating the content of the input speech signal 10 as a speech recognition result.

特徴量抽出部400は、前述の第1乃至第2の実施形態または後述される第4乃至第5の実施形態に係る音声特徴量抽出装置が組み込まれてもよい。特徴量抽出部400は、外部から入力音声信号10を取得する。特徴量抽出部400は、入力音声信号10から少なくともSATCを含む音声特徴量17を抽出する。特徴量抽出部400は、デコーダ401へと出力する。   The feature quantity extraction unit 400 may incorporate the speech feature quantity extraction apparatus according to the first or second embodiment described above or the fourth to fifth embodiments described later. The feature amount extraction unit 400 acquires the input audio signal 10 from the outside. The feature quantity extraction unit 400 extracts the voice feature quantity 17 including at least SATC from the input voice signal 10. The feature quantity extraction unit 400 outputs to the decoder 401.

デコーダ401は、特徴量抽出部400から音声特徴量17を入力する。デコーダ401は、音響モデル記憶部402に記憶された音響モデルと、言語モデル記憶部403に記憶された言語モデルとを参照し、音声特徴量17を用いて音声認識処理を行う。デコーダ401は、音響的類似度及び言語的信頼度に基づき、入力音声信号10を図示されない認識辞書記憶部に記憶されている認識辞書の登録単語に順次置き換えることによって音声認識結果を生成する。ここで、音響的類似度とは、認識対象となる音声(即ち、音声特徴量17)と、認識候補となる単語の音響モデルとの間の音響的な類似度を意味する。また、言語的信頼度は、認識候補となる単語を含む系列の言語的(文法的、構文的)な信頼度を意味し、例えば、n−gramモデルなどの言語モデルに基づいて評価される。デコーダ401は、音声認識結果を外部へと出力する。ここで、外部とは、テキストを表示するための表示装置であってもよいし、テキストを印刷するための印刷装置であってもよいし、テキストを別の言語に翻訳するなどの任意の言語処理を行うための言語処理装置であってもよい。   The decoder 401 receives the audio feature value 17 from the feature value extraction unit 400. The decoder 401 refers to the acoustic model stored in the acoustic model storage unit 402 and the language model stored in the language model storage unit 403 and performs speech recognition processing using the speech feature amount 17. The decoder 401 generates a speech recognition result by sequentially replacing the input speech signal 10 with registered words in a recognition dictionary stored in a recognition dictionary storage unit (not shown) based on the acoustic similarity and linguistic reliability. Here, the acoustic similarity means the acoustic similarity between the speech to be recognized (that is, the speech feature 17) and the acoustic model of the word to be recognized. The linguistic reliability means a linguistic (grammatical or syntactic) reliability of a series including words that are recognition candidates, and is evaluated based on a language model such as an n-gram model, for example. The decoder 401 outputs the speech recognition result to the outside. Here, the outside may be a display device for displaying the text, a printing device for printing the text, or any language such as translating the text into another language. It may be a language processing device for performing processing.

音響モデル記憶部402には、音響モデルが記憶されている。音響モデルは、デコーダ401によって必要に応じて参照される。言語モデル記憶部403には、言語モデルが記憶されている。言語モデルは、デコーダ401によって必要に応じて参照される。   The acoustic model storage unit 402 stores an acoustic model. The acoustic model is referred to by the decoder 401 as necessary. The language model storage unit 403 stores language models. The language model is referred to by the decoder 401 as necessary.

以上説明したように、第3の実施形態に係る音声認識装置は、少なくともSATCを含む音声特徴量に基づいて音声認識処理を行う。従って、この音声認識装置によれば、雑音環境下でも高い認識精度を達成できる。   As described above, the speech recognition apparatus according to the third embodiment performs speech recognition processing based on speech feature amounts including at least SATC. Therefore, according to this speech recognition apparatus, high recognition accuracy can be achieved even in a noisy environment.

(第4の実施形態)
図8に例示されるように、第4の実施形態に係る音声特徴量抽出装置は、波形切り出し部101と、パワースペクトル算出部102と、フィルタバンク適用部104と、帯域別平均時間算出部513と、軸変換部107とを備える。図8の音声特徴量抽出装置は、入力音声信号10から音声特徴量32を抽出する。
(Fourth embodiment)
As illustrated in FIG. 8, the speech feature amount extraction apparatus according to the fourth embodiment includes a waveform cutout unit 101, a power spectrum calculation unit 102, a filter bank application unit 104, and a band-based average time calculation unit 513. And an axis conversion unit 107. The voice feature quantity extraction device in FIG. 8 extracts the voice feature quantity 32 from the input voice signal 10.

波形切り出し部101は、外部から入力音声信号10を取得する。波形切り出し部101は、入力音声信号10から単位時間毎に時間長T(例えば、T=25ミリ秒)の音声波形を切り出すことによって時刻(n)での単位音声信号11(x(t))を生成する。即ち、本実施形態において波形切り出し部101は、第1の実施形態または第2の実施形態と同一または類似の波形切り出し処理を行う。波形切り出し部101は、単位音声信号11をパワースペクトル算出部102へと出力する。 The waveform cutout unit 101 acquires the input audio signal 10 from the outside. The waveform cutout unit 101 cuts out a voice waveform having a time length T 0 (for example, T 0 = 25 milliseconds) from the input voice signal 10 for each unit time, so that the unit voice signal 11 (x n ( t)) is generated. That is, in this embodiment, the waveform cutout unit 101 performs the same or similar waveform cutout processing as in the first embodiment or the second embodiment. The waveform cutout unit 101 outputs the unit audio signal 11 to the power spectrum calculation unit 102.

尚、本実施形態において波形切り出し部101が使用する時間長Tは、第1の実施形態または第2の実施形態において波形切り出し部101が使用する時間長T(即ち、分析窓幅)に比べて短くなるように設定されてよい。例えば、T=56ミリ秒と設定され、T=25ミリ秒と設定されてよい。 In this embodiment, the time length T 0 used by the waveform cutout unit 101 is compared with the time length T used by the waveform cutout unit 101 in the first embodiment or the second embodiment (that is, the analysis window width). May be set to be shorter. For example, T = 56 milliseconds may be set and T 0 = 25 milliseconds may be set.

帯域別平均時間算出部513は、フィルタバンク適用部104からフィルタ処理されたパワースペクトル14を入力する。帯域別平均時間算出部513は、フィルタ処理されたパワースペクトル14に基づいて、1以上の周波数帯域の各々における単位音声信号11の平均時間(以降の説明において、帯域別平均時間31とも称される)を算出する。帯域別平均時間算出部513は、帯域別平均時間31を軸変換部107へと出力する。尚、帯域別平均時間算出部513の処理の詳細は後述される。   The band-specific average time calculation unit 513 receives the filtered power spectrum 14 from the filter bank application unit 104. The band-specific average time calculation unit 513 is also referred to as the average time of the unit audio signal 11 in each of one or more frequency bands based on the filtered power spectrum 14 (in the following description, also referred to as the band-specific average time 31). ) Is calculated. The band-specific average time calculation unit 513 outputs the band-specific average time 31 to the axis conversion unit 107. The details of the processing of the band-specific average time calculation unit 513 will be described later.

軸変換部107は、帯域別平均時間算出部513から帯域別平均時間31を入力する。軸変換部107は、帯域別平均時間31に第1の実施形態または第2の実施形態と同一または類似の軸変換処理を施し、音声特徴量32を生成する。音声特徴量32は、前述の音声特徴量17または音声特徴量22に相当し、SATCとも呼ばれる。軸変換部107は、音声特徴量32を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間31が、音声特徴量32として外部へと出力される。例えば、フィルタバンク適用部104によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合には、軸変換部107は不要である。   The axis conversion unit 107 receives the average time by band 31 from the average time by band calculation unit 513. The axis conversion unit 107 performs the same or similar axis conversion processing as that of the first embodiment or the second embodiment on the band-based average time 31 to generate the audio feature amount 32. The audio feature amount 32 corresponds to the above-described audio feature amount 17 or the audio feature amount 22 and is also called SATC. The axis conversion unit 107 outputs the audio feature quantity 32 to the outside. The axis conversion unit 107 may be omitted. In such a case, the average time 31 for each band is output to the outside as the audio feature amount 32. For example, when the total number of frequency filters included in the filter bank applied by the filter bank application unit 104 is 1, the axis conversion unit 107 is unnecessary.

ここで、帯域別平均時間31は、1以上の周波数帯域の各々における単位音声信号11のエネルギー重心までの時間を意味する。故に、帯域別平均時間算出部513は、例えば下記数式(13)に従って、帯域別平均時間31を算出できる。   Here, the average time 31 by band means the time to the energy center of gravity of the unit audio signal 11 in each of one or more frequency bands. Therefore, the average time by band calculation unit 513 can calculate the average time by band 31 according to, for example, the following formula (13).

数式(13)において、τは時刻nからのずれを表し、w(τ)はτに対応する重みを表す。|X(n+τ,ω)|は、時刻n+τにおける周波数ωでのパワースペクトル12を表し、h(ω)|X(n+τ,ω)|は、時刻n+τにおける周波数ωでのフィルタ処理されたパワースペクトル14を表す。 In Equation (13), τ represents a deviation from time n, and w (τ) represents a weight corresponding to τ. | X (n + τ, ω) | 2 represents the power spectrum 12 at frequency ω at time n + τ, and h m (ω) | X (n + τ, ω) | 2 is filtered at frequency ω at time n + τ. Represents the power spectrum 14.

尚、重みw(τ)は、τ=0において最大となり、τの絶対値が大きくなるにつれて線形または非線形に小さくなるように決定されてもよい。或いは、重みw(τ)は、τの値に関わらず一定値(例えば、1)となるように決定されてもよい。或いは、重みw(τ)は、いくつかのτについて0となるように決定されてもよい。   The weight w (τ) may be determined so as to be the maximum at τ = 0 and to decrease linearly or nonlinearly as the absolute value of τ increases. Alternatively, the weight w (τ) may be determined to be a constant value (for example, 1) regardless of the value of τ. Alternatively, the weight w (τ) may be determined to be 0 for some τ.

数式(13)におけるTは、分析窓幅とも呼ばれる。Tは、前述の単位時間以上の値(例えば56ミリ秒)に設定される。数式(13)によれば、第m番目の周波数帯域(Ω)の帯域別平均時間31が得られる。 T in Equation (13) is also called an analysis window width. T is set to a value (for example, 56 milliseconds) that is equal to or more than the unit time described above. According to Expression (13), the average time 31 for each band of the mth frequency band (Ω m ) is obtained.

即ち、帯域別平均時間算出部513は、図10に例示されるように、所与の時刻のフィルタ処理されたパワースペクトル14の第m番目の周波数帯域(Ω)における総和を算出する。そして、帯域別平均時間算出部513は、この総和について時刻n−T/2から時刻n+T/2までの区間内のエネルギー重心位置を算出することにより、第m番目の周波数帯域(Ω)の帯域別平均時間31を得る。 That is, the average time calculation unit 513 for each band calculates the sum in the m-th frequency band (Ω m ) of the filtered power spectrum 14 at a given time, as illustrated in FIG. And the average time calculation part 513 according to zone | band calculates the energy gravity center position in the area from the time n-T / 2 to the time n + T / 2 about this sum total, The m-th frequency band ((omega | ohm) m ) is calculated. An average time 31 for each band is obtained.

図8の音声特徴量抽出装置は、図9に例示されるように動作できる。波形切り出し部101は、外部から取得した入力音声信号10から単位時間毎に時間長Tの音声波形を切り出すことによって単位音声信号11を生成する(ステップS101)。 The voice feature quantity extraction apparatus of FIG. 8 can operate as illustrated in FIG. The waveform cutout unit 101 generates a unit voice signal 11 by cutting out a voice waveform having a time length T 0 per unit time from the input voice signal 10 acquired from the outside (step S101).

帯域別平均時間算出部513は、ステップS104において得られたフィルタ処理されたパワースペクトル14に基づいて帯域別平均時間31を算出する(ステップS513)。軸変換部107は、ステップS513において算出された帯域別平均時間31に対して軸変換処理を施し、音声特徴量32を生成する(ステップS107)。   The band-specific average time calculation unit 513 calculates the band-specific average time 31 based on the filtered power spectrum 14 obtained in step S104 (step S513). The axis conversion unit 107 performs an axis conversion process on the band-based average time 31 calculated in step S513, and generates a speech feature 32 (step S107).

前述の通り、本実施形態における帯域別平均時間31は、第1の実施形態における算出される帯域別平均時間16とも第2の実施形態における帯域別平均時間21とも算出手法において異なる。しかしながら、図11、図12及び図15を用いて説明されるように、帯域別平均時間31は、第1の実施形態において算出される帯域別平均時間16と同一または類似の音声特徴を表現する。   As described above, the average time by band 31 in the present embodiment is different in the calculation method from the average time by band 16 calculated in the first embodiment and the average time by band 21 in the second embodiment. However, as will be described with reference to FIGS. 11, 12, and 15, the average time by band 31 expresses the same or similar voice feature as the average time by band 16 calculated in the first embodiment. .

図15(a)のグラフは帯域別平均時間16を例示し、図15(b)のグラフは帯域別平均時間31を例示している。図15の3次元グラフから切り出された2次元グラフが図11及び図12に示されている。   The graph of FIG. 15A illustrates the average time 16 for each band, and the graph of FIG. 15B illustrates the average time 31 for each band. A two-dimensional graph cut out from the three-dimensional graph of FIG. 15 is shown in FIGS.

図11(a)のグラフは、図15(a)のグラフのうち第1の注目周波数における時刻と帯域別平均時間16との関係を示している。第1の注目周波数は、図15における低周波数帯域側から選択された。図11(b)のグラフは、図15(b)のグラフのうち上記第1の注目周波数における時刻と帯域別平均時間31との関係を示している。図11によれば、低周波数帯域側において帯域別平均時間16及び帯域別平均時間31は概ね同じ特性を持つことが確認できる。   The graph of FIG. 11A shows the relationship between the time at the first frequency of interest and the average time 16 by band in the graph of FIG. The first frequency of interest was selected from the low frequency band side in FIG. The graph of FIG. 11B shows the relationship between the time at the first frequency of interest in the graph of FIG. According to FIG. 11, it can be confirmed that the average time 16 by band and the average time 31 by band have substantially the same characteristics on the low frequency band side.

図12(a)のグラフは、図15(a)のグラフのうち第2の注目周波数における時刻と帯域別平均時間16との関係を示している。第2の注目周波数は、図15における高周波数帯域側から選択された。図12(b)のグラフは、図15(b)のグラフのうち上記第2の注目周波数における時刻と帯域別平均時間31との関係を示している。図12によれば、高周波数帯域側においても帯域別平均時間16及び帯域別平均時間31が概ね同じ特性を持つことが確認できる。   The graph of FIG. 12A shows the relationship between the time at the second frequency of interest in the graph of FIG. The second frequency of interest was selected from the high frequency band side in FIG. The graph of FIG. 12B shows the relationship between the time at the second frequency of interest in the graph of FIG. According to FIG. 12, it can be confirmed that the average time 16 by band and the average time 31 by band have substantially the same characteristics on the high frequency band side.

以上説明したように、第4の実施形態に係る音声特徴量抽出装置は、前述のSATCを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第1の実施形態または第2の実施形態と同一または類似の効果を得ることができる。   As described above, the speech feature amount extraction apparatus according to the fourth embodiment extracts the above-described SATC as a speech feature amount. Therefore, according to the speech feature quantity extraction device, the same or similar effect as in the first embodiment or the second embodiment can be obtained.

尚、本実施形態において、フィルタバンク適用部104は、省略されてもよい。係る場合には、帯域別平均時間算出部513は、パワースペクトル12に基づいて、帯域別平均時間31を算出する。具体的には、帯域別平均時間算出部513は、下記数式(14)を利用できる。   In the present embodiment, the filter bank application unit 104 may be omitted. In such a case, the band-specific average time calculation unit 513 calculates the band-specific average time 31 based on the power spectrum 12. Specifically, the band-specific average time calculation unit 513 can use the following formula (14).

即ち、帯域別平均時間算出部513は、所与の時刻のパワースペクトル12の第m番目の周波数帯域(Ω)における総和を算出する。そして、帯域別平均時間算出部513は、この総和について時刻n−T/2から時刻n+T/2までの区間内のエネルギー重心位置を算出することにより、第m番目の周波数帯域(Ω)の帯域別平均時間31を得る。 That is, the band-specific average time calculation unit 513 calculates the sum in the m-th frequency band (Ω m ) of the power spectrum 12 at a given time. And the average time calculation part 513 according to zone | band calculates the energy gravity center position in the area from the time n-T / 2 to the time n + T / 2 about this sum total, The m-th frequency band ((omega | ohm) m ) is calculated. An average time 31 for each band is obtained.

(第5の実施形態)
図13に例示されるように、第5の実施形態に係る音声特徴量抽出装置は、バンドパスフィルタ適用部614と、波形切り出し部615と、帯域別平均時間算出部616と、軸変換部107とを備える。図13の音声特徴量抽出装置は、入力音声信号10から音声特徴量44を抽出する。
(Fifth embodiment)
As illustrated in FIG. 13, the speech feature amount extraction apparatus according to the fifth embodiment includes a bandpass filter application unit 614, a waveform cutout unit 615, a band-based average time calculation unit 616, and an axis conversion unit 107. With. The voice feature quantity extraction device in FIG. 13 extracts the voice feature quantity 44 from the input voice signal 10.

バンドパスフィルタ適用部614は、外部から入力音声信号10を取得する。バンドパスフィルタ適用部614は、入力音声信号10に対して1以上のバンドパスフィルタを適用する。即ち、バンドパスフィルタ適用部614は、入力音声信号10から1以上(例えば、16個)の周波数帯域の信号成分を抽出することにより、1以上のサブバンド入力音声信号41を得る。バンドパスフィルタ適用部614は、1以上のサブバンド入力音声信号41を波形切り出し部615へと出力する。バンドパスフィルタの数が1である場合にはバンドパスフィルタ適用部614が省略されてもよい。係る場合には、第4の実施形態のフィルタバンク適応部104によって適用されるフィルタバンクが備える周波数フィルタの総数が1である場合と同一もしくは類似の値が得られる。   The band pass filter application unit 614 acquires the input audio signal 10 from the outside. The band pass filter application unit 614 applies one or more band pass filters to the input audio signal 10. That is, the bandpass filter application unit 614 obtains one or more subband input audio signals 41 by extracting signal components of one or more (for example, 16) frequency bands from the input audio signal 10. The bandpass filter application unit 614 outputs one or more subband input audio signals 41 to the waveform cutout unit 615. When the number of bandpass filters is 1, the bandpass filter application unit 614 may be omitted. In such a case, the same or similar value as that obtained when the total number of frequency filters included in the filter bank applied by the filter bank adaptation unit 104 of the fourth embodiment is 1 is obtained.

波形切り出し部615は、バンドパスフィルタ適用部614から1以上のサブバンド入力音声信号41を入力する。波形切り出し部615は、1以上のサブバンド入力音声信号41から単位時間毎に時間長T(例えば、T=56ミリ秒)の音声波形を切り出すことによって、1以上のサブバンド単位音声信号42を生成する。より具体的には、波形切り出し部615は、第m番目のサブバンド入力音声信号41から単位時間毎に時間長Tの音声波形を切り出すことによって時刻(n)での第m番目のサブバンド単位音声信号42(xnm(t))を生成する。波形切り出し部615は、1以上のサブバンド単位音声信号42を帯域別平均時間算出部616へと出力する。 The waveform cutout unit 615 receives one or more subband input audio signals 41 from the bandpass filter application unit 614. The waveform cutout unit 615 cuts out one or more subband unit sound signals 42 from one or more subband input sound signals 41 by cutting out a sound waveform having a time length T (for example, T = 56 milliseconds) per unit time. Generate. More specifically, the waveform cut-out unit 615 cuts out a sound waveform having a time length T for each unit time from the m-th subband input sound signal 41 to thereby unit the m-th subband at time (n). An audio signal 42 (x nm (t)) is generated. The waveform cutout unit 615 outputs one or more subband unit audio signals 42 to the band-based average time calculation unit 616.

波形切り出し部615は、単位時間毎に時間長Tの音声波形を切り出す処理に加えて、切り出した音声波形の直流成分を除去する処理、切り出した音声波形の高周波成分を強調する処理、切り出した音声波形に窓関数(例えば、ハミング窓)を乗算する処理などを行うことによって、1以上のサブバンド単位音声信号42を生成してもよい。   In addition to the process of cutting out a speech waveform having a time length T for each unit time, the waveform cutout unit 615 performs a process of removing a DC component of the cut out voice waveform, a process of enhancing a high frequency component of the cut out voice waveform, and a cut out voice One or more subband unit audio signals 42 may be generated by performing a process of multiplying the waveform by a window function (for example, a Hamming window).

帯域別平均時間算出部616は、波形切り出し部615から1以上のサブバンド単位音声信号42を入力する。帯域別平均時間算出部616は、1以上のサブバンド単位音声信号42の各々の平均時間(以降の説明において、帯域別平均時間43とも称される)を算出する。帯域別平均時間算出部616は、帯域別平均時間43を軸変換部107へと出力する。尚、帯域別平均時間算出部616の処理の詳細は後述される。   The band-specific average time calculation unit 616 receives one or more subband unit audio signals 42 from the waveform cutout unit 615. The band-specific average time calculation unit 616 calculates the average time of each of the one or more subband unit audio signals 42 (also referred to as the band-specific average time 43 in the following description). The band-specific average time calculation unit 616 outputs the band-specific average time 43 to the axis conversion unit 107. Details of the processing of the band-specific average time calculation unit 616 will be described later.

軸変換部107は、帯域別平均時間算出部616から帯域別平均時間43を入力する。軸変換部107は、帯域別平均時間43に第1の実施形態、第2の実施形態または第4の実施形態と同一または類似の軸変換処理を施し、音声特徴量44を生成する。音声特徴量44は、前述の音声特徴量17、音声特徴量22または音声特徴量32に相当し、SATCとも呼ばれる。軸変換部107は、音声特徴量44を外部へと出力する。尚、軸変換部107は省略されてもよい。係る場合には、帯域別平均時間43が、音声特徴量44として外部へと出力される。例えば、バンドパスフィルタ適用部614によって適用されるバンドパスフィルタの総数が1である場合、バンドパスフィルタ適用部614が省略される場合などには軸変換部107は不要である。   The axis conversion unit 107 inputs the average time 43 for each band from the average time calculation unit 616 for each band. The axis conversion unit 107 performs an axis conversion process that is the same as or similar to that of the first embodiment, the second embodiment, or the fourth embodiment on the band-based average time 43 to generate the audio feature amount 44. The audio feature quantity 44 corresponds to the above-described audio feature quantity 17, audio feature quantity 22 or audio feature quantity 32, and is also called SATC. The axis conversion unit 107 outputs the audio feature quantity 44 to the outside. The axis conversion unit 107 may be omitted. In such a case, the average time 43 by band is output to the outside as the audio feature amount 44. For example, when the total number of bandpass filters applied by the bandpass filter application unit 614 is 1, or when the bandpass filter application unit 614 is omitted, the axis conversion unit 107 is unnecessary.

ここで、帯域別平均時間43は、1以上のサブバンド単位音声信号42の各々の平均時間である。故に、帯域別平均時間算出部616は、例えば下記数式(15)に従って、帯域別平均時間43を算出できる。   Here, the average time 43 by band is the average time of each of the one or more subband unit audio signals 42. Therefore, the band-specific average time calculation unit 616 can calculate the band-specific average time 43 according to the following formula (15), for example.

数式(15)において、xnm(t)は時刻nにおける第m番目のサブバンド単位音声信号42を表す。数式(15)におけるTは、分析窓幅とも呼ばれる。数式(15)によれば、第m番目の周波数帯域(Ω)の帯域別平均時間43が得られる。 In Equation (15), x nm (t) represents the m-th subband unit audio signal 42 at time n. T in Expression (15) is also called an analysis window width. According to Equation (15), the average time 43 for each band of the mth frequency band (Ω m ) is obtained.

即ち、帯域別平均時間算出部616は、時刻n−T/2から時刻n+T/2までの区間内の第m番目のサブバンド単位音声信号42のパワー(|x(n+τ)|)のエネルギー重心位置を算出することにより、第m番目の周波数帯域(Ω)の帯域別平均時間43を得る。 That is, the band-based average time calculation unit 616 calculates the power (| x m (n + τ) | 2 ) of the m-th subband unit audio signal 42 in the section from the time n−T / 2 to the time n + T / 2. By calculating the energy barycentric position, an average time 43 by band of the m-th frequency band (Ω m ) is obtained.

尚、数式(15)において、時刻τ=0は、サブバンド単位音声信号42の中心に設定されているものとしているが、必ずしも単位音声信号42の中心に設定する必要はない。τ=0の位置に応じて、数式(15)右辺の分母および分子の総和を求める範囲も適宜変更されてよい。   In Equation (15), the time τ = 0 is set at the center of the sub-band unit audio signal 42, but it is not always necessary to set it at the center of the unit audio signal 42. Depending on the position of τ = 0, the range for calculating the denominator on the right side of Equation (15) and the sum of the numerators may be changed as appropriate.

図13の音声特徴量抽出装置は、図14に例示されるように動作できる。バンドパスフィルタ適用部614は、外部から取得した入力音声信号10に1以上のバンドパスフィルタを適用することによって1以上のサブバンド入力音声信号41を得る(ステップS614)。   The voice feature extraction device of FIG. 13 can operate as illustrated in FIG. The bandpass filter application unit 614 obtains one or more subband input audio signals 41 by applying one or more bandpass filters to the input audio signal 10 acquired from the outside (step S614).

波形切り出し部615は、ステップS614において得られた1以上のサブバンド入力音声信号41から単位時間毎に時間長Tの音声波形を切り出すことによって1以上のサブバンド単位音声信号42を生成する(ステップS615)。   The waveform cutout unit 615 generates one or more subband unit sound signals 42 by cutting out a sound waveform having a time length T per unit time from the one or more subband input sound signals 41 obtained in Step S614 (Step S614). S615).

帯域別平均時間算出部616は、ステップS615において生成された1以上のサブバンド単位音声信号42の各々の平均時間を算出することによって帯域別平均時間43を得る(ステップS616)。軸変換部107は、ステップS616において算出された帯域別平均時間43に対して軸変換処理を施し、音声特徴量44を生成する(ステップS107)。   The band-specific average time calculation unit 616 obtains the band-specific average time 43 by calculating the average time of each of the one or more subband unit audio signals 42 generated in step S615 (step S616). The axis conversion unit 107 performs an axis conversion process on the band-specific average time 43 calculated in step S616 to generate a voice feature amount 44 (step S107).

以上説明したように、第5の実施形態に係る音声特徴量抽出装置は、前述のSATCを音声特徴量として抽出する。従って、この音声特徴量抽出装置によれば、第1の実施形態、第2の実施形態または第4の実施形態と同一または類似の効果を得ることができる。   As described above, the speech feature amount extraction apparatus according to the fifth embodiment extracts the above-described SATC as a speech feature amount. Therefore, according to the speech feature quantity extraction device, the same or similar effect as that of the first embodiment, the second embodiment, or the fourth embodiment can be obtained.

上記各実施形態の処理は、汎用のコンピュータを基本ハードウェアとして用いることで実現可能である。上記各実施形態の処理を実現するプログラムは、コンピュータで読み取り可能な記憶媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記憶媒体に記憶される。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。記憶媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記各実施形態の処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。   The processing of each of the above embodiments can be realized by using a general-purpose computer as basic hardware. The program for realizing the processing of each of the above embodiments may be provided by being stored in a computer-readable storage medium. The program is stored in the storage medium as an installable file or an executable file. Examples of the storage medium include a magnetic disk, an optical disk (CD-ROM, CD-R, DVD, etc.), a magneto-optical disk (MO, etc.), and a semiconductor memory. The storage medium may be any as long as it can store the program and can be read by the computer. Further, the program for realizing the processing of each of the above embodiments may be stored on a computer (server) connected to a network such as the Internet and downloaded to the computer (client) via the network.

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   Although several embodiments of the present invention have been described, these embodiments are presented by way of example and are not intended to limit the scope of the invention. These novel embodiments can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

10・・・入力音声信号
11・・・単位音声信号
12・・・パワースペクトル
13・・・第3のスペクトル
14・・・フィルタ処理されたパワースペクトル
15・・・フィルタ処理された第3のスペクトル
16,21,31,43・・・帯域別平均時間
17,22,32,44・・・音声特徴量
18・・・群遅延スペクトル
19・・・乗算スペクトル
20・・・フィルタ処理された乗算スペクトル
41・・・サブバンド入力音声信号
42・・・サブバンド単位音声信号
101,615・・・波形切り出し部
102・・・パワースペクトル算出部
103・・・第3のスペクトル算出部
104,105,210・・・フィルタバンク適用部
106,211,513,616・・・帯域別平均時間算出部
107・・・軸変換部
208・・・群遅延スペクトル
209・・・スペクトル乗算部
400・・・特徴量抽出部
401・・・デコーダ
402・・・音響モデル記憶部
403・・・言語モデル記憶部
614・・・バンドパスフィルタ適用部
DESCRIPTION OF SYMBOLS 10 ... Input audio signal 11 ... Unit audio signal 12 ... Power spectrum 13 ... Third spectrum 14 ... Filtered power spectrum 15 ... Filtered third spectrum 16, 21, 31, 43 ... Average time by band 17, 22, 32, 44 ... Voice feature amount 18 ... Group delay spectrum 19 ... Multiplication spectrum 20 ... Filtered multiplication spectrum 41 ... Subband input audio signal 42 ... Subband unit audio signal 101,615 ... Waveform cutout unit 102 ... Power spectrum calculation unit 103 ... Third spectrum calculation unit 104,105,210 ... Filter bank application unit 106, 211, 513, 616 ... Average time calculation unit for each band 107 ... Axis conversion unit 208 ..Group delay spectrum 209 ... Spectrum multiplication unit 400 ... Feature amount extraction unit 401 ... Decoder 402 ... Acoustic model storage unit 403 ... Language model storage unit 614 ... Band pass filter application unit

Claims (16)

入力音声信号から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号を生成する切り出し部と、
前記単位音声信号の全周波数帯域を周波数のbin数よりも小さい数で分割することによって得られる複数の周波数帯域の各々におけるエネルギー重心までの時間に相当する平均時間を算出する平均時間算出部と、
前記平均時間に基づいて、音声特徴量を生成する生成部と
を具備する、音声特徴量抽出装置。
A cutout unit that generates a unit voice signal by cutting out a voice waveform over a predetermined time length for each unit time from the input voice signal;
An average time calculation unit that calculates an average time corresponding to the time to the energy centroid in each of a plurality of frequency bands obtained by dividing the entire frequency band of the unit audio signal by a number smaller than the number of bins of the frequency;
An audio feature quantity extraction device comprising: a generation unit that generates an audio feature quantity based on the average time.
前記生成部は、前記平均時間を軸変換することによって、前記音声特徴量を生成する、請求項1の音声特徴量抽出装置。   The voice feature quantity extraction device according to claim 1, wherein the generation unit generates the voice feature quantity by performing axis conversion on the average time. 前記単位音声信号のパワースペクトルを算出するパワースペクトル算出部を更に具備し、
前記切り出し部は、前記入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記単位音声信号を生成し、
前記平均時間算出部は、前記パワースペクトルに基づいて前記平均時間を算出する、
請求項1または請求項2の音声特徴量抽出装置。
A power spectrum calculation unit for calculating a power spectrum of the unit audio signal;
The cutout unit generates the unit audio signal by cutting out the audio waveform over the predetermined time length for each unit time from the input audio signal,
The average time calculation unit calculates the average time based on the power spectrum,
The speech feature amount extraction apparatus according to claim 1 or 2.
前記単位音声信号の第1のスペクトルの実部と前記単位音声信号及び時刻の積の第2のスペクトルの実部との第1の積を算出し、前記第1のスペクトルの虚部と前記第2のスペクトルの虚部との第2の積を算出し、前記第1の積及び前記第2の積を加算することによって、第3のスペクトルを得る第3のスペクトル算出部を更に具備し、
前記平均時間算出部は、前記パワースペクトル及び前記第3のスペクトルに基づいて前記平均時間を算出する、
請求項3の音声特徴量抽出装置。
Calculating a first product of a real part of the first spectrum of the unit audio signal and a real part of a second spectrum of the product of the unit audio signal and time, and calculating an imaginary part of the first spectrum and the first A second spectrum calculation unit for obtaining a third spectrum by calculating a second product with an imaginary part of the spectrum of 2 and adding the first product and the second product;
The average time calculation unit calculates the average time based on the power spectrum and the third spectrum,
The speech feature amount extraction apparatus according to claim 3.
前記平均時間算出部は、所与の周波数帯域における前記第3のスペクトルの総和を当該所与の周波数帯域における前記パワースペクトルの総和によって除算することで、当該所与の周波数帯域における前記平均時間を算出する、請求項4の音声特徴量抽出装置。   The average time calculation unit divides the sum of the third spectra in a given frequency band by the sum of the power spectra in the given frequency band, thereby calculating the average time in the given frequency band. The speech feature amount extraction apparatus according to claim 4, wherein the speech feature amount extraction device calculates. 前記パワースペクトルに第1のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第1の適用部と、
前記第3のスペクトルに第2のフィルタバンクを適用することによって、フィルタ処理された第3のスペクトルを得る第2の適用部と
を更に具備し、
前記平均時間算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された第3のスペクトルに基づいて前記平均時間を算出する、
請求項4の音声特徴量抽出装置。
A first application unit for obtaining a filtered power spectrum by applying a first filter bank to the power spectrum;
A second applying unit that obtains a filtered third spectrum by applying a second filter bank to the third spectrum; and
The average time calculating unit calculates the average time based on the filtered power spectrum and the filtered third spectrum;
The speech feature amount extraction apparatus according to claim 4.
前記単位音声信号の群遅延スペクトルを算出する群遅延スペクトル算出部と、
前記群遅延スペクトルを前記パワースペクトルに乗算することによって、乗算スペクトルを得る乗算部と
を更に具備し、
前記平均時間算出部は、前記パワースペクトル及び前記乗算スペクトルに基づいて前記平均時間を算出する、
請求項3の音声特徴量抽出装置。
A group delay spectrum calculator for calculating a group delay spectrum of the unit audio signal;
A multiplier for multiplying the power spectrum by the group delay spectrum to obtain a multiplication spectrum;
The average time calculation unit calculates the average time based on the power spectrum and the multiplication spectrum.
The speech feature amount extraction apparatus according to claim 3.
前記パワースペクトルに第1のフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る第1の適用部と、
前記乗算スペクトルに第2のフィルタバンクを適用することによって、フィルタ処理された乗算スペクトルを得る第2の適用部と
を更に具備し、
前記平均時間算出部は、前記フィルタ処理されたパワースペクトル及び前記フィルタ処理された乗算スペクトルに基づいて前記平均時間を算出する、
請求項7の音声特徴量抽出装置。
A first application unit for obtaining a filtered power spectrum by applying a first filter bank to the power spectrum;
A second applying unit that obtains a filtered multiplication spectrum by applying a second filter bank to the multiplication spectrum; and
The average time calculation unit calculates the average time based on the filtered power spectrum and the filtered multiplication spectrum.
The speech feature amount extraction apparatus according to claim 7.
前記パワースペクトルにフィルタバンクを適用することによって、フィルタ処理されたパワースペクトルを得る適用部を更に具備し、
前記平均時間算出部は、前記フィルタ処理されたパワースペクトルに基づいて前記平均時間を算出する、
請求項3の音声特徴量抽出装置。
An application unit for obtaining a filtered power spectrum by applying a filter bank to the power spectrum;
The average time calculation unit calculates the average time based on the filtered power spectrum,
The speech feature amount extraction apparatus according to claim 3.
入力音声信号から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号を生成することと、
前記単位音声信号の全周波数帯域を周波数のbin数よりも小さい数で分割することによって得られる複数の周波数帯域の各々におけるエネルギー重心までの時間に相当する平均時間を算出することと、
前記平均時間に基づいて、音声特徴量を生成することと
を具備する、音声特徴量抽出方法。
Generating a unit voice signal by cutting out a voice waveform over a predetermined time length for each unit time from the input voice signal;
Calculating an average time corresponding to the time to the energy center of gravity in each of a plurality of frequency bands obtained by dividing the entire frequency band of the unit audio signal by a number smaller than the number of bins of the frequency;
Generating a voice feature amount based on the average time.
コンピュータを、
入力音声信号から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、単位音声信号を生成する切り出し手段、
前記単位音声信号の全周波数帯域を周波数のbin数よりも小さい数で分割することによって得られる複数の周波数帯域の各々におけるエネルギー重心までの時間に相当する平均時間を算出する平均時間算出手段、
前記平均時間に基づいて、音声特徴量を生成する生成手段、
として機能させるための音声特徴量抽出プログラム。
Computer
Clipping means for generating a unit voice signal by cutting out a voice waveform over a predetermined time length for each unit time from the input voice signal;
Average time calculating means for calculating an average time corresponding to the time to the energy centroid in each of a plurality of frequency bands obtained by dividing the entire frequency band of the unit audio signal by a number smaller than the number of bins of the frequency;
Generating means for generating an audio feature based on the average time;
Voice feature extraction program to function as
入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、複数のサブバンド単位音声信号を生成する切り出し部と、
所定の時間区間内の前記複数のサブバンド単位音声信号の各々のエネルギー重心位置に相当する平均時間を算出する平均時間算出部と、
前記平均時間に基づいて、音声特徴量を生成する生成部と
を具備する、音声特徴量抽出装置。
A plurality of subband unit sound signals are obtained by cutting out a sound waveform over a predetermined time length per unit time from a plurality of subband input sound signals obtained by extracting signal components of a plurality of frequency bands from the input sound signal. A cutout unit for generating
An average time calculation unit that calculates an average time corresponding to the energy barycentric position of each of the plurality of subband unit audio signals within a predetermined time interval;
An audio feature quantity extraction device comprising: a generation unit that generates an audio feature quantity based on the average time.
前記生成部は、前記平均時間を軸変換することによって、前記音声特徴量を生成する、請求項12の音声特徴量抽出装置。   The voice feature quantity extraction device according to claim 12, wherein the generation unit generates the voice feature quantity by converting the average time into an axis. 前記入力音声信号に複数のバンドパスフィルタを適用することによって、前記複数のサブバンド入力音声信号を得る適用部を更に具備し、
前記切り出し部は、前記複数のサブバンド入力音声信号から前記単位時間毎に前記所定の時間長に亘る音声波形を切り出すことによって、前記複数のサブバンド単位音声信号を生成する、
請求項12または請求項13の音声特徴量抽出装置。
An application unit that obtains the plurality of subband input audio signals by applying a plurality of bandpass filters to the input audio signals;
The cutout unit generates the plurality of subband unit sound signals by cutting out the sound waveform over the predetermined time length for each unit time from the plurality of subband input sound signals.
The speech feature amount extraction apparatus according to claim 12 or 13.
入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、複数のサブバンド単位音声信号を生成することと、
所定の時間区間内の前記複数のサブバンド単位音声信号の各々のエネルギー重心位置に相当する平均時間を算出することと、
前記平均時間に基づいて、音声特徴量を生成することと
を具備する、音声特徴量抽出方法。
A plurality of subband unit sound signals are obtained by cutting out a sound waveform over a predetermined time length per unit time from a plurality of subband input sound signals obtained by extracting signal components of a plurality of frequency bands from the input sound signal. Generating
Calculating an average time corresponding to the energy barycentric position of each of the plurality of subband unit audio signals within a predetermined time interval;
Generating a voice feature amount based on the average time.
コンピュータを、
入力音声信号から複数の周波数帯域の信号成分を抽出することによって得られる複数のサブバンド入力音声信号から単位時間毎に所定の時間長に亘る音声波形を切り出すことによって、複数のサブバンド単位音声信号を生成する切り出し手段、
所定の時間区間内の前記複数のサブバンド単位音声信号の各々のエネルギー重心位置に相当する平均時間を算出する平均時間算出手段、
前記平均時間に基づいて、音声特徴量を生成する生成手段、
として機能させるための音声特徴量抽出プログラム。
Computer
A plurality of subband unit sound signals are obtained by cutting out a sound waveform over a predetermined time length per unit time from a plurality of subband input sound signals obtained by extracting signal components of a plurality of frequency bands from the input sound signal. A cutout means for generating
Average time calculation means for calculating an average time corresponding to the energy barycentric position of each of the plurality of subband unit audio signals within a predetermined time interval;
Generating means for generating an audio feature based on the average time;
Voice feature extraction program to function as
JP2015216661A 2012-01-10 2015-11-04 Speech feature extraction device, speech feature extraction method, and speech feature extraction program Expired - Fee Related JP6092345B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015216661A JP6092345B2 (en) 2012-01-10 2015-11-04 Speech feature extraction device, speech feature extraction method, and speech feature extraction program

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012002133 2012-01-10
JP2012002133 2012-01-10
JP2015216661A JP6092345B2 (en) 2012-01-10 2015-11-04 Speech feature extraction device, speech feature extraction method, and speech feature extraction program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012053506A Division JP2013164572A (en) 2012-01-10 2012-03-09 Voice feature quantity extraction device, voice feature quantity extraction method, and voice feature quantity extraction program

Publications (2)

Publication Number Publication Date
JP2016033677A true JP2016033677A (en) 2016-03-10
JP6092345B2 JP6092345B2 (en) 2017-03-08

Family

ID=55452567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015216661A Expired - Fee Related JP6092345B2 (en) 2012-01-10 2015-11-04 Speech feature extraction device, speech feature extraction method, and speech feature extraction program

Country Status (1)

Country Link
JP (1) JP6092345B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066691A (en) * 1998-08-21 2000-03-03 Kdd Corp Audio information sorter
JP2001249674A (en) * 2000-03-06 2001-09-14 Japan Science & Technology Corp Driving signal analyzing device
JP2006145694A (en) * 2004-11-17 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, system implementing the method, program, and recording medium for the same
JP2010085933A (en) * 2008-10-02 2010-04-15 Yamaha Corp Sound field support apparatus, sound field support method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000066691A (en) * 1998-08-21 2000-03-03 Kdd Corp Audio information sorter
JP2001249674A (en) * 2000-03-06 2001-09-14 Japan Science & Technology Corp Driving signal analyzing device
JP2006145694A (en) * 2004-11-17 2006-06-08 Nippon Telegr & Teleph Corp <Ntt> Voice recognition method, system implementing the method, program, and recording medium for the same
JP2010085933A (en) * 2008-10-02 2010-04-15 Yamaha Corp Sound field support apparatus, sound field support method and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6014052599; Donglai Zhu, et al.: 'Product of Power Spectrum and Group Delay Function for Speech Recognition' Proc. ICASSP 2004 Vol.1, 20040517, pp.125-128 *
JPN6016050372; 末吉 英一、外2名: '長時間位相特徴パラメータに依る音声認識の検討' 日本音響学会 2010年 春季研究発表会 , 20100308, pp. 9-10, 社団法人日本音響学会 *

Also Published As

Publication number Publication date
JP6092345B2 (en) 2017-03-08

Similar Documents

Publication Publication Date Title
JP2013164572A (en) Voice feature quantity extraction device, voice feature quantity extraction method, and voice feature quantity extraction program
KR101266894B1 (en) Apparatus and method for processing an audio signal for speech emhancement using a feature extraxtion
Singh et al. Multimedia analysis for disguised voice and classification efficiency
US20150081287A1 (en) Adaptive noise reduction for high noise environments
Rajan et al. Using group delay functions from all-pole models for speaker recognition
JP5530812B2 (en) Audio signal processing system, audio signal processing method, and audio signal processing program for outputting audio feature quantity
Dişken et al. A review on feature extraction for speaker recognition under degraded conditions
Ganapathy et al. Feature extraction using 2-d autoregressive models for speaker recognition.
Loweimi et al. Source-filter separation of speech signal in the phase domain
Lyubimov et al. Non-negative matrix factorization with linear constraints for single-channel speech enhancement
Bharath et al. New replay attack detection using iterative adaptive inverse filtering and high frequency band
Zhang et al. A hierarchical framework approach for voice activity detection and speech enhancement
Sripriya et al. Pitch estimation using harmonic product spectrum derived from DCT
CN115938346B (en) Method, system, equipment and storage medium for evaluating sound level
JP4571871B2 (en) Speech signal analysis method and apparatus for performing the analysis method, speech recognition apparatus using the speech signal analysis apparatus, program for executing the analysis method, and storage medium thereof
JP5325130B2 (en) LPC analysis device, LPC analysis method, speech analysis / synthesis device, speech analysis / synthesis method, and program
JP6092345B2 (en) Speech feature extraction device, speech feature extraction method, and speech feature extraction program
Ganapathy et al. Robust spectro-temporal features based on autoregressive models of hilbert envelopes
JP2003044077A (en) Method, device and program for extracting audio feature amount
Zeremdini et al. Multi-pitch estimation based on multi-scale product analysis, improved comb filter and dynamic programming
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
JP6827908B2 (en) Speech enhancement device, speech enhancement learning device, speech enhancement method, program
Close et al. The Effect of Spoken Language on Speech Enhancement using Self-Supervised Speech Representation Loss Functions
Singh et al. A comparative study on feature extraction techniques for language identification
Prasanna Kumar et al. Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170208

R151 Written notification of patent or utility model registration

Ref document number: 6092345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees