JP4883717B2 - 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 - Google Patents
音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 Download PDFInfo
- Publication number
- JP4883717B2 JP4883717B2 JP2008007937A JP2008007937A JP4883717B2 JP 4883717 B2 JP4883717 B2 JP 4883717B2 JP 2008007937 A JP2008007937 A JP 2008007937A JP 2008007937 A JP2008007937 A JP 2008007937A JP 4883717 B2 JP4883717 B2 JP 4883717B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- recognition result
- frame
- likelihood
- unsearched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
Claims (13)
- 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワークとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、
音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、
前記音響特徴パラメータを記憶するパラメータ記憶手段と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手段と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
前記未探索フレーム区間の累積尤度が補完された各認識結果候補について確からしさの尺度を算出する手段と、
前記各認識結果候補の確からしさに基づいて認識結果をマージもしくは取捨選択する手段とを含むことを特徴とする音声認識装置。 - 前記複数の探索を実行する手段が、
前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
前記前向き探索中に、各フレームまでの累積尤度を記憶する手段と、
前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
前記後向き探索中に、各フレームまでの累積尤度を記憶する手段とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、後向き探索で得られた当該未探索フレーム区間の累積尤度で補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前向き探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項1に記載の音声認識装置。 - 前記複数の探索を実行する手段が、
前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで音節タイプライタを用いた探索やディクテーション用モデルを用いた探索を実行するスコア正規化用探索手段と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手段とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記タイプライタ探索で得られた当該未探索フレーム区間の累積尤度で補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項1に記載の音声認識装置。 - 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワ−クとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識装置において、
音声信号からフレーム単位で音響特徴パラメータを抽出する音響分析手段と、
前記音響特徴パラメータを記憶するパラメータ記憶手段と、
前記パラメータ記憶手段から音響特徴パラメータを正順に取り込んで前向き探索を実行する前向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを逆順に取り込んで後向き探索を実行する後向き探索手段と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで音節タイプライタを用いた探索やディクテーション用モデルを用いた探索を実行するスコア正規化用探索手段と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手段と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手段と、
前記スコア正規化用探索で得られた認識結果と前向きおよび後向きの各探索で得られた認識結果との比較結果に基づいて、前向きおよび後向きの各探索で得られた認識結果候補の信頼性尺度を算出する手段と、
前記各認識結果候補の信頼性尺度に基づいて認識結果をマージもしくは取捨選択する手段とを含むことを特徴とする音声認識装置。 - 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワークとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識方法において、
音声信号からフレーム単位で音響特徴パラメータを抽出する手順と、
前記音響特徴パラメータを記憶する手順と、
前記パラメータ記憶手段から音響特徴パラメータを取り込んで、前向き探索および後ろ向き探索を含む複数の探索を実行する手順と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、他の探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
前記未探索フレーム区間の尤度が補完された各認識結果候補のフレーム平均尤度を算出する手順と、
前記各認識結果候補のフレーム平均尤度に基づいて認識結果を判定する手順とを含むことを特徴とする音声認識方法。 - 前記複数の探索を実行する手順が、
音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
前記前向き探索中に、各フレームまでの累積尤度を記憶する手順と、
音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
前記後向き探索中に、各フレームまでの累積尤度を記憶する手順とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、後向き探索で得られた当該未探索フレーム区間の累積尤度で補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前向き探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項5に記載の音声認識方法。 - 前記複数の探索を実行する手順が、
音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
音響特徴パラメータを取り込んでスコア正規化用探索を実行する手順と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手順とを含み、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完し、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完することを特徴とする請求項5に記載の音声認識方法。 - 音声信号から抽出された音響パラメータと音素モデルの確率的な状態遷移ネットワ−クとを照合し、前記音響パラメータと音素モデルとの尤度を計算しながら状態仮説を遷移させ、最尤な状態遷移パスを音声認識結果とする音声認識方法において、
音声信号からフレーム単位で音響特徴パラメータを抽出する手順と、
前記音響特徴パラメータを記憶する手順と、
前記音響特徴パラメータを正順に取り込んで前向き探索を実行する手順と、
前記音響特徴パラメータを逆順に取り込んで後向き探索を実行する手順と、
前記音響特徴パラメータを取り込んでスコア正規化用探索を実行する手順と、
前記スコア正規化用探索中に、各フレームまでの累積尤度を記憶する手順と、
前向き探索で得られた認識結果候補のうち、探索が音声データの最終フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
後向き探索で得られた認識結果候補のうち、探索が音声データの先頭フレームに至る前に出力された認識結果候補の未探索フレーム区間の累積尤度を、前記スコア正規化用探索で得られた当該未探索フレーム区間の累積尤度で補完する手順と、
前記スコア正規化用探索で得られた認識結果と前向きおよび後向きの各探索で得られた認識結果候補との比較結果に基づいて、前向きおよび後向きの各探索で得られた認識結果候補の信頼性尺度を算出する手順と、
前記各認識結果候補の信頼性尺度に基づいて認識結果を判定する手順とを含むことを特徴とする音声認識方法。 - 前記認識結果を判定する手順では、フレーム平均尤度が最も高い認識結果候補が認識結果とされることを特徴とする請求項5ないし7のいずれかに記載の音声認識方法。
- 前記認識結果を判定する手段では、前向き探索および後向き探索に共通する認識結果候補が優先的に認識結果とされることを特徴とする請求項5ないし7のいずれかに記載の音声認識方法。
- 前記認識結果を判定する手順では、信頼性尺度が最も高い認識結果候補が認識結果とされることを特徴とする請求項8に記載の音声認識方法。
- 前記請求項5ないし11のいずれかに記載の音声認識方法を、コンピュータに実行させるための音声認識プログラム。
- 前記請求項12に記載した音声認識プログラムをコンピュータが読み取り可能に記憶した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008007937A JP4883717B2 (ja) | 2008-01-17 | 2008-01-17 | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008007937A JP4883717B2 (ja) | 2008-01-17 | 2008-01-17 | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009169154A JP2009169154A (ja) | 2009-07-30 |
JP4883717B2 true JP4883717B2 (ja) | 2012-02-22 |
Family
ID=40970382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008007937A Expired - Fee Related JP4883717B2 (ja) | 2008-01-17 | 2008-01-17 | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4883717B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113488049A (zh) * | 2021-07-07 | 2021-10-08 | 杭州贯农科技有限公司 | 一种插件式语音识别方法、智能电子秤及交易平台 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097275A (ja) * | 1996-09-20 | 1998-04-14 | Sharp Corp | 大語彙音声認識装置 |
JPH10254486A (ja) * | 1997-03-13 | 1998-09-25 | Canon Inc | 音声認識装置および方法 |
JP2004012615A (ja) * | 2002-06-04 | 2004-01-15 | Sharp Corp | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
JP2005091504A (ja) * | 2003-09-12 | 2005-04-07 | Chubu Electric Power Co Inc | 音声認識装置 |
-
2008
- 2008-01-17 JP JP2008007937A patent/JP4883717B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009169154A (ja) | 2009-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9224386B1 (en) | Discriminative language model training using a confusion matrix | |
US6535850B1 (en) | Smart training and smart scoring in SD speech recognition system with user defined vocabulary | |
JP4757936B2 (ja) | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JP2015520410A (ja) | 音声認識に対する負例(アンチワード)に基づく性能改善 | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US20110218802A1 (en) | Continuous Speech Recognition | |
JP4883717B2 (ja) | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 | |
JP3914709B2 (ja) | 音声認識方法およびシステム | |
JP6026224B2 (ja) | パターン認識方法および装置ならびにパターン認識プログラムおよびその記録媒体 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP3104900B2 (ja) | 音声認識方法 | |
US20040148163A1 (en) | System and method for utilizing an anchor to reduce memory requirements for speech recognition | |
JPH06266386A (ja) | ワードスポッティング方法 | |
JP5008078B2 (ja) | パタン認識方法および装置ならびにパタン認識プログラムおよびその記録媒体 | |
JP5161174B2 (ja) | 経路探索装置、音声認識装置、これらの方法及びプログラム | |
JP2008242059A (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP3615088B2 (ja) | 音声認識方法及び装置 | |
JP5158877B2 (ja) | 音声認識方法および装置 | |
JP2005091504A (ja) | 音声認識装置 | |
JP6497651B2 (ja) | 音声認識装置および音声認識プログラム | |
JPWO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム | |
EP2948943B1 (en) | False alarm reduction in speech recognition systems using contextual information | |
KR101037801B1 (ko) | 부단위 인식을 이용한 핵심어 검출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110922 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111019 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111031 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111130 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111202 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4883717 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |