JP4362072B2 - 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 - Google Patents
音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 Download PDFInfo
- Publication number
- JP4362072B2 JP4362072B2 JP2004003239A JP2004003239A JP4362072B2 JP 4362072 B2 JP4362072 B2 JP 4362072B2 JP 2004003239 A JP2004003239 A JP 2004003239A JP 2004003239 A JP2004003239 A JP 2004003239A JP 4362072 B2 JP4362072 B2 JP 4362072B2
- Authority
- JP
- Japan
- Prior art keywords
- power value
- filter
- output signal
- speech
- vectorized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
古井貞煕"音声情報処理"、森北出版株式会社、1998 S.B.Davis and P Mermelstein、"Comparison of Parametric Representations for Monosyllabic Word Recognition in Continuously Spoken Sentences,"IEEE Transactions on Acoustics, Speech and Signal Processmg, Vol.ASSP-28, No.4,1980 P.J.B.Jackson,D.M.Moreno,M.J.Russell and J.Hernando,"Covariation and weighting of harmonically decomposed streams for ASR,"Proceedings of Eurospeech, pp.2321-2324,2003
ここで、請求項3:音声信号をフィルタリングする帯域通過フィルタバンク11と、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部13と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号を基本周期推定部13において推定された基本周期に基づいてフィルタリングする櫛型フィルタ14と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部15および櫛型フィルタ14の出力信号のパワー値を計算する第2のパワー算出部15’と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部16と、減算の結果得られるパワー値をベクトル化する第1のベクトル化部19および櫛型フィルタの出力信号のパワー値をベクトル化する第2のベクトル化部19’と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部18とを具備する音声信号分析装置を構成した。
また、請求項5:音声信号をフィルタリングする帯域通過フィルタバンク11と、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部13と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号を基本周期推定部13において推定された基本周期に基づいてフィルタリングする櫛型フィルタ14と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部15および櫛型フィルタ14の出力信号のパワー値を計算する第2のパワー算出部15’と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部16と、減算の結果得られるパワー値をベクトル化する第1のベクトル化部19および櫛型フィルタの出力信号のパワー値をベクトル化する第2のベクトル化部19’と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部18とより成る音声信号分析装置10を具備し、音声信号分析装置10の出力を特徴パラメータとして音声パターンの学習並びに自動音声認識を行う音声パターン識別器21を具備し、音声信号分析装置10の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部22を具備する音声認識装置を構成した。
ここで、請求項7:コンピュータに対して、音声信号を帯域通過フィルタバンクによりフィルタリングし、その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、各帯域通過フィルタの出力信号を推定された基本周期に基づいて櫛型フィルタによりフィルタリングし、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、櫛型フィルタの出力信号のパワー値を計算し、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、減算結果パワー値をベクトル化し、櫛型フィルタの出力信号のパワー値をベクトル化し、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結すべき指令をする音声信号分析プログラムを構成した。
図1はこの発明による音声信号分析装置の一実施例を示す図である。図1において、10はこの発明による音声信号分析装置の全体を示す。音声信号分析装置10は、帯域通過フィルタバンク11と、音声波形切出部12と、周期推定部13と、櫛型フィルタ14と、パワー算出部15、15’と、減算部16と、離散コサイン変換部17と、ベクトル連結部18によって構成される。
帯域通過フィルタバンク11は、複数の帯域通過デジタルフィルタを用いて、入力された離散音声信号をフィルタリングする。この帯域通過フィルタバンク11としては、例えば、聴覚の特性に基づく等価矩形帯域幅のスケールに対応した中心周波数を持つガンマトーンフィルタバンクが用いられる(M.Slaney, "An Efficient lmplementation of the Patterson-Holdsworth Auditory Filter Bank, "Apple Computer Technical Report #35, 1993)。
周期推定部13は、音声波形切出部12の出力信号を入力としてこの入力信号に含まれる周期を推定する。周期推定には、例えば、基本周波数抽出法の一つである自己相関法(W.Hess、“Pitch determination of speech signals,”Springer-Verlag, New York, 1983)を用いる。自己相関法は、先ず、入力信号の自己相関関数を求める。入力信号の全サンプル点数をN、j番目のサンプル点の信号の振幅をsjとしたときに、自己相関関数の係数ciは以下の式に従って求まる。
H(z)=1−z-n
で表される周波数特性を持つ様に設計する。音声波形切出部12の出力信号をこの離散櫛型フィルタによってフィルタリングすることで得られる出力信号は、その櫛型フィルタの周波数特性における零点に相当する部分、基本周波数成分とその整数倍の周波数成分、のパワーが抑圧された離散信号となる。図4に示した帯域通過フィルタの出力信号を音声波形切出部12により切り出した信号を入力とし、周期に応じて設計された離散櫛型フィルタでフィルタリングして得られた出力信号と櫛型フィルタの周波数特性を図6に例示する。この様にして求められる信号を櫛型フィルタ14の出力信号とする。
power=ΣN j=1sj 2
ここで、sj は入力となる離散信号のサンプル点jにおける振幅を表し、Nは入力信号の全サンプル点数を表し、powerは算出されるパワー値を表す。
減算部16は、第1のパワー算出部15の出力および第2のパワー算出部15’の出力の内の音声波形切出部12の出力から算出されたパワー値powerbpf から、その音声波形切出部12の出力に対応する櫛型フィルタ14の出力から算出されたパワ値powercfを減算する。この操作を、波形切出部12の出力信号とそれに対応する櫛型フィルタ14のすべての組み合わせについて行う。この結果、櫛型フィルタ14によって抑圧された周波数成分のパワー値powersp 、即ち、周期成分のパワー値を求めることができる。この減算操作を以下の式に示す。
周期成分のパワー値を入力する第1の離散コサイン変換部17および非周期成分のパワー値を入力する第2の離散コサイン変換部17’は、すべての帯域通過フィルタに対応して得られる上述のpowersp とpowercf を入力とし、それらを対応する帯域通過フィルタの中心周波数順に整列したものをベクトルとみなした上で、離散コサイン変換(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、"音声認識システム"、オーム社、2001 参照)を行う。例えば、24帯域分の帯域通過フィルタを用いた場合、powersp およびpowercf はそれぞれ24通り算出される。これらをそれぞれ対応する帯域通過フィルタの中心周波数順に整列し、それぞれ24次元のベクトルとして扱う。そのベクトルに対して、離散コサイン変換を例えば下記の式に従って行う。
図2において、20は音声認識装置の全体を示す。この音声認識装置20は、図1を参照して図示説明された音声信号分析装置10の出力を特徴パラメータとして、例えば、隠れマルコフモデル(HMM)の音声パターン識別器21を用いて音声パターンの学習並びに自動音声認識を行う。22は音声信号分析装置10の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部である。
上述した音声認識装置20においては、離散コサイン変換部17を省略し、減算部16によって得られた周期成分のパワー値と第2のパワー算出部15’から得られる非周期成分のパワー値とをベクトル連結部18によって連結し、それらを特徴パラメータとして音声パターン認識器21による音声パターンの学習ならびに音声認識を実施することができる。
12 音声波形切出部 13 周期推定部
14 櫛型フィルタ 15 第1のパワー算出部
15’第2のパワー算出部 16 減算部
17 第1の離散コサイン変換部 17’第2の離散コサイン変換部
18 ベクトル連結部 19 第1のベクトル化部
19’第2のベクトル化部 20 音声認識装置
21 音声パターン識別器 22 学習データ格納部
Claims (8)
- 音声信号を帯域通過フィルタバンクによりフィルタリングし、
その各帯域通過フィルタの出力信号に含まれる基本周期を推定し、
推定された基本周期をnとしたとき、z領域の表現において、
H(z)=1−z -n
で表される周波数特性を持つ櫛型フィルタにより各帯域通過フィルタの出力信号をフィルタリングし、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算し、
櫛型フィルタの出力信号のパワー値を計算し、
帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算し、
減算結果パワー値を帯域通過フィルタの中心周波数順に整列してベクトル化し、
櫛型フィルタの出力信号のパワー値を帯域通過フィルタの中心周波数順に整列してベクトル化し、
ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結することを特徴とする音声信号分析方法。 - 請求項1に記載される音声信号分析方法において、
ベクトル化された減算結果パワー値に離散コサイン変換を施し、
ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施し、
離散コサイン変換を施された両パワー値を連結することを特徴とする音声信号分析方法。 - 音声信号をフィルタリングする帯域通過フィルタバンクと、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部と、基本周期推定部において推定された基本周期をnとしたとき、z領域の表現において、
H(z)=1−z -n
で表される周波数特性を持ち、これに基づいて帯域通過フィルタバンクの各帯域通過フィルタの出力信号をフィルタリングする櫛型フィルタと、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部および櫛型フィルタの出力信号のパワー値を計算する第2のパワー算出部と、帯域通過フィルタバンク11の各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、減算の結果得られるパワー値を帯域通過フィルタの中心周波数順に整列してベクトル化する第1のベクトル化部および櫛型フィルタの出力信号のパワー値を帯域通過フィルタの中心周波数順に整列してベクトル化する第2のベクトル化部と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とを具備することを特徴とする音声信号分析装置。 - 請求項3に記載される音声信号分析装置において、
ベクトル化された減算結果パワー値に離散コサイン変換を施す第1の離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2の離散コサイン変換部とを具備することを特徴とする音声信号分析装置。 - 音声信号をフィルタリングする帯域通過フィルタバンクと、その各帯域通過フィルタの出力信号に含まれる基本周期を推定する基本周期推定部と、基本周期推定部において推定された基本周期をnとしたとき、z領域の表現において、
H(z)=1−z -n
で表される周波数特性を持ち、これに基づいて帯域通過フィルタバンクの各帯域通過フィルタの出力信号をフィルタリングする櫛型フィルタと、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値を計算する第1のパワー算出部および櫛型フィルタの出力信号のパワー値を計算する第2のパワー算出部と、帯域通過フィルタバンクの各帯域通過フィルタの出力信号のパワー値から櫛型フィルタの出力信号のパワー値を減算する減算部と、減算の結果得られるパワー値を帯域通過フィルタの中心周波数順に整列してベクトル化する第1のベクトル化部および櫛型フィルタの出力信号のパワー値を帯域通過フィルタの中心周波数順に整列してベクトル化する第2のベクトル化部と、ベクトル化された減算結果パワー値とベクトル化された櫛型フィルタの出力信号のパワー値を連結するベクトル連結部とより成る音声信号分析装置を具備し、
音声信号分析装置の出力を特徴パラメータとして音声パターンの学習並びに自動音声認
識を行う音声パターン識別器を具備し、
音声信号分析装置の出力する特徴パラメータで予め学習した結果のデータを格納する学習データ格納部を具備することを特徴とする音声認識装置。 - 請求項5に記載される音声認識装置において、
音声信号分析装置は、更に、ベクトル化された減算結果パワー値に離散コサイン変換を施す第1の離散コサイン変換部と、ベクトル化された櫛型フィルタの出力信号のパワー値に離散コサイン変換を施す第2の離散コサイン変換部とを有するものであることを特徴とする音声認識装置。 - コンピュータを請求項3から請求項6の何れかに記載の音声信号分析装置または音声認識装置として機能させるためのプログラム。
- 請求項7に記載されるプログラムを記録した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004003239A JP4362072B2 (ja) | 2004-01-08 | 2004-01-08 | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004003239A JP4362072B2 (ja) | 2004-01-08 | 2004-01-08 | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005195975A JP2005195975A (ja) | 2005-07-21 |
JP4362072B2 true JP4362072B2 (ja) | 2009-11-11 |
Family
ID=34818208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004003239A Expired - Fee Related JP4362072B2 (ja) | 2004-01-08 | 2004-01-08 | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4362072B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4571871B2 (ja) * | 2005-02-03 | 2010-10-27 | 日本電信電話株式会社 | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
JP4630183B2 (ja) * | 2005-12-08 | 2011-02-09 | 日本電信電話株式会社 | 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム |
JPWO2008001779A1 (ja) * | 2006-06-27 | 2009-11-26 | 国立大学法人豊橋技術科学大学 | 基本周波数推定法および音響信号推定システム |
-
2004
- 2004-01-08 JP JP2004003239A patent/JP4362072B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005195975A (ja) | 2005-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | MVA processing of speech features | |
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
Yapanel et al. | A new perceptually motivated MVDR-based acoustic front-end (PMVDR) for robust automatic speech recognition | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
Dua et al. | GFCC based discriminatively trained noise robust continuous ASR system for Hindi language | |
Yapanel et al. | A new perspective on feature extraction for robust in-vehicle speech recognition. | |
US20080167862A1 (en) | Pitch Dependent Speech Recognition Engine | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
JP2005078077A (ja) | 非線形予測子およびターゲットによって案内される時間的制約を使用して声道共鳴を追跡する方法および装置 | |
JP2009003008A (ja) | 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム | |
Revathy et al. | Performance comparison of speaker and emotion recognition | |
JP2002268698A (ja) | 音声認識装置と標準パターン作成装置及び方法並びにプログラム | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
Khonglah et al. | Speech enhancement using source information for phoneme recognition of speech with background music | |
JP4630183B2 (ja) | 音声信号分析装置、音声信号分析方法及び音声信号分析プログラム | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
JP2010102129A (ja) | 基本周波数抽出方法、基本周波数抽出装置、およびプログラム | |
Singhal et al. | Automatic speech recognition for connected words using DTW/HMM for English/Hindi languages | |
Prakash et al. | Fourier-Bessel cepstral coefficients for robust speech recognition | |
Kahrizi et al. | Long-term spectral pseudo-entropy (ltspe): a new robust feature for speech activity detection | |
Suryawanshi et al. | Hardware implementation of speech recognition using mfcc and euclidean distance | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech | |
Sadeghi et al. | The effect of different acoustic noise on speech signal formant frequency location |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060406 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060406 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090424 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090623 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090804 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090814 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120821 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130821 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |