JP4400169B2 - 音声認識装置、音声認識方法及びプログラム - Google Patents
音声認識装置、音声認識方法及びプログラム Download PDFInfo
- Publication number
- JP4400169B2 JP4400169B2 JP2003351501A JP2003351501A JP4400169B2 JP 4400169 B2 JP4400169 B2 JP 4400169B2 JP 2003351501 A JP2003351501 A JP 2003351501A JP 2003351501 A JP2003351501 A JP 2003351501A JP 4400169 B2 JP4400169 B2 JP 4400169B2
- Authority
- JP
- Japan
- Prior art keywords
- power system
- cumulative likelihood
- cumulative
- likelihood
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
Time Warping;時間軸非線形マッチング)と呼ばれる音声認識方法においては、典型的な音声特徴量の時系列を標準パターンとして用いている。また、HMM(Hidden
Markov Model;隠れマルコフモデル)を用いた音声認識方法では、単語毎での状態の遷移確率と、各状態から入力された特徴量を出力する確率(出力確率)と、をパラメータとした標準パターンが用られる。現時、このHMMが、中心的な音声認識方法として広く利用されている。
離散確率分布よりも連続確率分布を用いた表現方法の方が認識精度の点で優れており、多くの音声認識システムでは、連続正規混合分布が採用されている。
Code Modulation;パルス符号化)により量子化された音声振幅の2乗和またはその対数をとることによって得られる音声特徴量(以後、これをパワー系特徴パラメータと呼ぶ)とを組み合わせることによって得られるものである。
図1は、本発明の実施の形態に係る音声認識装置1の構成を示すブロック図である。音声認識装置1は、図1に示すように、音声入力部11と、音声データ格納部12と、時間窓設定部13と、音声特徴量抽出部14と、音声特徴量格納部15と、音素モデル格納部16と、尤度計算部17と、累積尤度格納部18と、文法ファイル格納部19と、単語辞書格納部20と、ノード作成部21と、音声認識部22と、スピーカやディスプレイ等から構成された認識結果出力部23と、から構成されている。
h2, h3」「a1, a2, a3」「ch1, ch2, ch3」…、と表す。
(ステップS102)。
(ステップS104)。
続いて、本発明の第2の実施の形態について説明する。なお、音声認識装置の構成及び音声認識動作については、上記第1の実施の形態と同様であるので、その説明を省略し、上記第1の実施の形態と異なるステップS105の尤度計算処理について、図6に示すフローチャートを参照して説明する。
Disk Drive)34に確保されることによって実現される。音素モデル格納部6が格納する音素モデル、文法ファイル格納部19が格納する文法ファイル及び単語辞書格納部20が格納する単語辞書は、認識処理を行う前に予め外部装置から読み込まれて、HDD34に記憶されたものである。
Only Memory)36に記憶されたプログラムを実行することによって実現される。
Optical Disc)などの青色レーザを用いた次世代光ディスク記憶媒体、赤色レーザを用いるHD−DVD9、青紫色レーザを用いるBlue−Laser−DVD等、今後開発される種々の大容量記憶媒体を用いて本発明を実施することが可能であることはいうまでもない。
Claims (6)
- 認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段と、
入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出手段と、
前記音声特徴量抽出手段により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出手段と、
前記パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第1の判別手段と、
前記第1の判別手段により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第1の判別手段により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出手段と、
前記累積尤度算出手段により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識手段と、
を備える音声認識装置。 - パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータの変化率を示すパワー系加速度特徴パラメータを算出するパワー系加速度特徴パラメータ算出手段と、
前記パワー系加速度特徴パラメータ算出手段により算出されたパワー系加速度特徴パラメータが所定の閾値以上であるか否かを判別する第2の判別手段と、
をさらに備え、
前記累積尤度算出手段は、
前記第2の判別手段により前記パワー系加速度特徴パラメータが所定の閾値より小さいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、
前記第1の判別手段により前記パワー系速度特徴パラメータが所定の閾値以下であると判別され、且つ、該第2の判別手段により該パワー系加速度特徴パラメータが所定の閾値以上であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率から、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する、
ことを特徴とする請求項1に記載の音声認識装置。 - 前記累積尤度算出手段は、前記所定状態の混合ガウス分布を構成する単純正規分布をそれぞれ算出し、該算出した単純正規分布を重み付き和することにより、前記所定状態の出力確率を求める、
ことを特徴とする請求項1又は2に記載の音声認識装置。 - 前記累積尤度算出手段により算出された累積尤度を格納する累積尤度格納手段と、
文法規則を定義したファイルを格納する文法ファイル格納手段と、
単語毎の音素パターン系列情報を登録した単語辞書を格納する単語辞書格納手段と、
前記文法ファイル格納手段に格納されているファイルに基づいて、前記単語辞書格納手段から取得した単語と、前記累積尤度算出手段により算出された累積尤度と、を対応付けて前記累積尤度格納手段に展開する展開手段と、
をさらに備え、
前記音声認識手段は、前記展開手段により展開された累積尤度に基づいて取得した単語を認識結果として出力する、
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声認識装置。 - 認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段を備える音声認識装置における音声認識方法であって、
入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出工程と、
前記音声特徴量抽出工程により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出工程と、
前記パワー系速度特徴パラメータ算出工程により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第1の判別工程と、
前記第1の判別工程により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出工程により抽出された特徴量と前記音素モデル格納工程に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第1の判別工程により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出工程と、
前記累積尤度算出工程により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識工程と、
を備える、ことを特徴とする音声認識方法。 - 認識対象となる音声に含まれる各音素をモデル化した音素モデルを格納した音素モデル格納手段を備えるコンピュータを、
入力された音声を所定時間窓単位で切り出し、該切り出した時間窓単位の音声から、該音声の振幅に関するパワー系特徴パラメータを含む特徴量を抽出する音声特徴量抽出手段、
前記音声特徴量抽出手段により抽出された特徴量に含まれるパワー系特徴パラメータの変化率を示すパワー系速度特徴パラメータを算出するパワー系速度特徴パラメータ算出手段、
前記パワー系速度特徴パラメータ算出手段により算出されたパワー系速度特徴パラメータが所定の閾値以下であるか否かを判別する第1の判別手段、
前記第1の判別手段により前記パワー系速度特徴パラメータが所定の閾値より大きいと判別された場合、前記音声特徴量抽出手段により抽出された特徴量と前記音素モデル格納手段に格納されている音素モデルとに基づいて、該特徴量が抽出された時間窓での所定状態の出力確率を求め、該求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出し、該第1の判別手段により該パワー系速度特徴パラメータが所定の閾値以下であると判別された場合、該特徴量が抽出された時間窓直前の時間窓で求めた出力確率、状態間遷移率及び自己遷移率から状態間遷移の場合での累積尤度と自己遷移の場合での累積尤度とをそれぞれ求め、該求めた累積尤度のうち大きい方の累積尤度を認識候補の累積尤度として算出する累積尤度算出手段、
前記累積尤度算出手段により算出された累積尤度に基づいて、前記入力された音声を認識し、該認識結果を出力する音声認識手段、
として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003351501A JP4400169B2 (ja) | 2003-10-10 | 2003-10-10 | 音声認識装置、音声認識方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003351501A JP4400169B2 (ja) | 2003-10-10 | 2003-10-10 | 音声認識装置、音声認識方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005115191A JP2005115191A (ja) | 2005-04-28 |
JP4400169B2 true JP4400169B2 (ja) | 2010-01-20 |
Family
ID=34542722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003351501A Expired - Fee Related JP4400169B2 (ja) | 2003-10-10 | 2003-10-10 | 音声認識装置、音声認識方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4400169B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7643989B2 (en) * | 2003-08-29 | 2010-01-05 | Microsoft Corporation | Method and apparatus for vocal tract resonance tracking using nonlinear predictor and target-guided temporal restraint |
-
2003
- 2003-10-10 JP JP2003351501A patent/JP4400169B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005115191A (ja) | 2005-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11276390B2 (en) | Audio interval detection apparatus, method, and recording medium to eliminate a specified interval that does not represent speech based on a divided phoneme | |
KR102134201B1 (ko) | 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 | |
EP1701338B1 (en) | Speech recognition method | |
US8290773B2 (en) | Information processing apparatus, method and recording medium for generating acoustic model | |
EP1557822B1 (en) | Automatic speech recognition adaptation using user corrections | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP6011565B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
CN110706714B (zh) | 说话者模型制作系统 | |
KR20100115093A (ko) | 음성 검출 장치 및 방법 | |
JP4515054B2 (ja) | 音声認識の方法および音声信号を復号化する方法 | |
JP3803029B2 (ja) | 音声認識装置 | |
JP5888356B2 (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP2014066779A (ja) | 音声認識装置及び方法、並びに、半導体集積回路装置 | |
JP3919475B2 (ja) | 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、並びに、プログラム記録媒体 | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
JP4400169B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
Anand et al. | Malayalam Speech Recognition system and its application for visually impaired people | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP5315976B2 (ja) | 音声認識装置、音声認識方法、および、プログラム | |
JP4610451B2 (ja) | 音声認識装置及びプログラム | |
JP6604013B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060807 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090729 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4400169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091019 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121106 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131106 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |