JP4550674B2 - 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム - Google Patents
音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム Download PDFInfo
- Publication number
- JP4550674B2 JP4550674B2 JP2005189280A JP2005189280A JP4550674B2 JP 4550674 B2 JP4550674 B2 JP 4550674B2 JP 2005189280 A JP2005189280 A JP 2005189280A JP 2005189280 A JP2005189280 A JP 2005189280A JP 4550674 B2 JP4550674 B2 JP 4550674B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- feature amount
- feature
- calculating
- fourier transform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1は、音声特徴量抽出装置100の基本的な構成の一例を示すブロック図である。音声特徴量抽出装置100は、周波数分析部110と、周波数シフト不変特徴量算出部120と、周波数シフト可変特徴量算出部130と、特徴量統合部140とを備えている。
次に、実施の形態2にかかる音声特徴量抽出装置100について説明する。図6は、実施の形態2にかかる周波数シフト不変特徴量算出部120の詳細な機能構成を示すブロック図である。
52 ROM
53 RAM
57 通信I/F
62 バス
100 音声特徴量抽出装置
110 周波数分析部
111 フレーム分割部
112 第1分析窓部
113 第1フーリエ変換部
114 パワー算出部
115 フィルタバンク部
116 対数算出部
120 周波数シフト不変特徴量算出部
121 正規化部
122 第2分析窓部
123 自己相関算出部
124 第2フーリエ変換部
125 平方根算出部
126 第3フーリエ変換部
127 絶対値算出部
130 周波数シフト可変特徴量算出部
140 特徴量統合部
Claims (7)
- 入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段と、
前記周波数分析手段により得られた前記周波数特性の自己相関係数を算出する自己相関係数算出手段と、
前記自己相関係数算出手段により算出された前記自己相関係数に対してフーリエ変換を行い、フーリエ変換により得られる値の平方根であるメルフィルタバンク振幅ケプストラムを、前記聴覚周波数軸上におけるフォルマントのシフトに依存しない特徴量である不変特徴量として算出する不変特徴量算出手段と、
を備えることを特徴とする音声特徴量抽出装置。 - 入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析手段と、
前記周波数分析手段により得られた前記周波数特性に対し、フーリエ変換を行うフーリエ変換手段と、
前記フーリエ変換手段により得られた値の絶対値であるメルフィルタバンク振幅ケプストラムを求め、前記メルフィルタバンク振幅ケプストラムを、前記聴覚周波数軸上におけるフォルマントのシフトに依存しない特徴量である不変特徴量とする絶対値算出手段と、
を備えたことを特徴とする音声特徴量抽出装置。 - 前記周波数分析手段は、メルスケールにおける前記周波数特性を求めることを特徴とする請求項1または2に記載の音声特徴量抽出装置。
- 前記周波数分析手段は、対数周波数軸上における前記周波数特性を求めることを特徴とする請求項1または2に記載の音声特徴量抽出装置。
- 前記周波数分析手段により得られた前記周波数特性をコサイン変換し、コサイン変換により得られる値であるメルフィルタバンクケプストラム係数を、前記聴覚周波数軸上におけるフォルマントのシフトに応じて変化する特徴量である可変特徴量として算出する可変特徴量算出手段と、
前記可変特徴量算出手段により算出された前記可変特徴量と、前記不変特徴量算出手段により算出された不変特徴量とを連結し、連結した特徴量と、前記連結した特徴量の微分量とを要素として統合した値を、前記入力音声信号の音声特徴量として算出する特徴量統合手段と
をさらに備えたことを特徴とする請求項1から4のいずれか一項に記載の音声特徴量抽出装置。 - 音声特徴量抽出装置で実行される音声特徴量抽出方法であって、
入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、
前記周波数分析ステップにより得られた前記周波数特性の自己相関係数を算出する自己相関係数算出ステップと、
前記自己相関係数算出ステップにより算出された前記自己相関係数に対してフーリエ変換を行い、フーリエ変換により得られる値の平方根であるメルフィルタバンク振幅ケプストラムを、前記聴覚周波数軸上におけるフォルマントのシフトに依存しない特徴量である不変特徴量として算出する不変特徴量算出ステップと、
を有することを特徴とする音声特徴量抽出方法。 - 音声特徴量抽出処理をコンピュータに実行させるための音声特徴量抽出プログラムであって、
入力音声信号から、人間の聴覚特性を模擬した聴覚周波数軸上における周波数特性を求める周波数分析ステップと、
前記周波数分析ステップにより得られた前記周波数特性の自己相関係数を算出する自己相関係数算出ステップと、
前記自己相関係数算出ステップにより算出された前記自己相関係数に対してフーリエ変換を行い、フーリエ変換により得られる値の平方根であるメルフィルタバンク振幅ケプストラムを、前記聴覚周波数軸上におけるフォルマントのシフトに依存しない特徴量である不変特徴量として算出する不変特徴量算出ステップと、
を前記コンピュータに実行させるための音声特徴量抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005189280A JP4550674B2 (ja) | 2005-06-29 | 2005-06-29 | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005189280A JP4550674B2 (ja) | 2005-06-29 | 2005-06-29 | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007010822A JP2007010822A (ja) | 2007-01-18 |
JP4550674B2 true JP4550674B2 (ja) | 2010-09-22 |
Family
ID=37749456
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005189280A Expired - Fee Related JP4550674B2 (ja) | 2005-06-29 | 2005-06-29 | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4550674B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6831767B2 (ja) * | 2017-10-13 | 2021-02-17 | Kddi株式会社 | 音声認識方法、装置およびプログラム |
CN110376715B (zh) * | 2019-07-18 | 2024-03-26 | 广东奥普特科技股份有限公司 | 一种高解析度定焦镜头 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255886A (ja) * | 2000-03-09 | 2001-09-21 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2005070292A (ja) * | 2003-08-22 | 2005-03-17 | Advanced Telecommunication Research Institute International | 音声認識装置、サブバンド方式の音声認識デコーダに付随する重みベクトルを学習するための方法、及びサブバンド方式hmm学習方法 |
-
2005
- 2005-06-29 JP JP2005189280A patent/JP4550674B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001255886A (ja) * | 2000-03-09 | 2001-09-21 | Matsushita Electric Ind Co Ltd | 音声認識方法および音声認識装置 |
JP2005070292A (ja) * | 2003-08-22 | 2005-03-17 | Advanced Telecommunication Research Institute International | 音声認識装置、サブバンド方式の音声認識デコーダに付随する重みベクトルを学習するための方法、及びサブバンド方式hmm学習方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2007010822A (ja) | 2007-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10565970B2 (en) | Method and a system for decomposition of acoustic signal into sound objects, a sound object and its use | |
JP5505896B2 (ja) | 発話区間検出システム、方法及びプログラム | |
US8891778B2 (en) | Speech enhancement | |
EP3232438B1 (en) | Frequency band extending device, method and program | |
JP4572218B2 (ja) | 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体 | |
US20050143997A1 (en) | Method and apparatus using spectral addition for speaker recognition | |
EP0838805B1 (en) | Speech recognition apparatus using pitch intensity information | |
JP6195548B2 (ja) | 信号解析装置、方法、及びプログラム | |
EP1096475B1 (en) | Frequency warping for speech recognition | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP2006349723A (ja) | 音響モデル作成装置、音声認識装置、音響モデル作成方法、音声認識方法、音響モデル作成プログラム、音声認識プログラムおよび記録媒体 | |
JP6389787B2 (ja) | 音声認識システム、音声認識方法、プログラム | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
JP4550674B2 (ja) | 音声特徴量抽出装置、音声特徴量抽出方法および音声特徴量抽出プログラム | |
Nower et al. | Restoration scheme of instantaneous amplitude and phase using Kalman filter with efficient linear prediction for speech enhancement | |
JP3039623B2 (ja) | 音声認識装置 | |
JP4571871B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 | |
KR101361034B1 (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
Alam et al. | Speech recognition using regularized minimum variance distortionless response spectrum estimation-based cepstral features | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
JP6827908B2 (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP2003271190A (ja) | 雑音除去方法、雑音除去装置及び、それを用いた音声認識装置 | |
JP4537821B2 (ja) | オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体 | |
KR100614932B1 (ko) | 강인한 음성인식을 위한 채널 정규화 장치 및 그 방법 | |
JP4362072B2 (ja) | 音声信号分析方法およびこの分析方法を実施する装置、この音声信号分析装置を用いた音声認識装置、この分析方法を実行するプログラムおよびその記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061102 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20091019 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100608 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100708 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130716 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |