JP2008058503A - 音声認識装置及びコンピュータプログラム - Google Patents
音声認識装置及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2008058503A JP2008058503A JP2006233935A JP2006233935A JP2008058503A JP 2008058503 A JP2008058503 A JP 2008058503A JP 2006233935 A JP2006233935 A JP 2006233935A JP 2006233935 A JP2006233935 A JP 2006233935A JP 2008058503 A JP2008058503 A JP 2008058503A
- Authority
- JP
- Japan
- Prior art keywords
- word
- speech recognition
- hypotheses
- hypothesis
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Accommodation For Nursing Or Treatment Tables (AREA)
Abstract
【解決手段】音声認識装置40は、音響モデル記憶部64と、予め想定された発話に対応するテキストDB44から作成されたバイグラム、トライグラム言語モデルをそれぞれ記憶する記憶部66、68と、音響モデル及び言語モデルを用いた統計的手法で音声認識を行ない、N−ベスト仮説を出力する音声認識部42と、N−ベスト仮説に含まれる各単語につき、一般化単語事後確率(GWPP)を算出するGWPP計算処理部76と、GWPP計算処理部76により算出されたGWPPがしきい値以下の単語を削除する単語削除部78と、単語が削除された後の各仮説に含まれる単語の一般化単語事後確率に基づいた再スコアリングを各仮説に対し行ない、上位の所定個数の仮説を音声認識結果として出力する再スコアリング部82とを含む。
【選択図】 図3
Description
本実施の形態では、キーワードを含んだ定型文を含んだ発話を音声認識する場合に、大語彙連続音声認識で用いられるNグラムベースの音声認識系を用い、比較的ゆるやかな制約のみを課した定型文的発話を精度よく音声認識することを目的とする。
HMM(Hidden Markov Model:隠れマルコフモデル)を用いる音声認識装置では、所与の音響観測データx1 T=x1,…,xTに対する、最適な単語シーケンスw1 M*=w1 *,…,wM *を、以下に示すように、可能な全ての単語シーケンスからなる空間を探索して、最大事後確率(MAP)を与えるものとして求める。
大語彙の連続音声認識装置(LVCSR)においては、可能な単語列の探索空間は膨大である。しかし、各単語列の事後確率の値には大きな相違があり、比較的低い尤度の単語列については刈込みしても差し支えない。このようにして得た、単語列の仮説の部分集合のみを用いて単語ラティス(又はN‐ベスト単語列リスト)を得ることができる。本実施の形態では、そのように部分集合を用いて得た単語ラティスを使用するものとする。
単語の時間的位置決め(レジストレーション)を[w;s,t]で表わす。別々の仮説中にある同一の単語が出現する場合でも、その位置は仮説によって多少異なることがあり得る。自動音声認識(ASR)の最終的目標は発話中の単語からなる内容を認識することであるから、厳密な時間的制約を多少緩和することにする。ここでは、ある単語がある単語列中において出現する期間が、基準となる単語の期間[s,t]と重なっており(オーバーラップしている)、かつその単語が基準となる単語と一致しているような単語を検索し、それら単語をその基準となる単語の事後確率の計算に含める。その結果式(7)は以下のように書き換えられる。
ここで、本実施の形態に係る単語抽出方式により抽出された注目単語の受入/拒否の際に使用する一般化単語事後確率の算出について検討する。
上記した構成を有する音声認識システム40を含むシステムは以下のように動作する。予め、しきい値記憶部80には適切なしきい値が設定部84により設定され、重み比率記憶部86にも、適切なα及びβの値が設定部84を用いて設定されているものとする。
[コンピュータによる実現及び動作]
本実施の形態の音声認識システム40の各機能部は、いずれもコンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図6はこのコンピュータシステム450の外観を示し、図7はコンピュータシステム450の内部構成を示す。
22 中間制御ボックス
24 ICレコーダ
40 音声認識システム
42 音声認識部
44 テキストDB
60 複写部
62 録音音声格納部
64 音響モデル記憶部
66 バイグラム言語モデル記憶部
68 トライグラム言語モデル記憶部
70 音声認識処理部
72 再計算部
74 N−ベスト選択部
76 GWPP計算処理部
78 単語削除部
80 しきい値記憶部
82 再スコアリング部
84 設定部
90 単語ラティス
Claims (6)
- 統計的音響モデルを記憶するための第1の記憶手段と、
予め想定された発話に対応するテキストから作成された統計的言語モデルを記憶するための第2の記憶手段と、
音声データに対し、前記第1及び第2の記憶手段にそれぞれ記憶された音響モデル及び言語モデルを用いた統計的手法により音声認識を行ない、音声認識の信頼度が上位の所定個数の仮説を出力するための音声認識手段と、
前記所定個数の仮説の各々に含まれる単語の各々について、信頼尺度を算出するための算出手段と、
前記所定個数の仮説において、前記算出手段により算出された信頼尺度が所定のしきい値以下の単語を削除するための削除手段と、
前記削除手段により単語が削除された後の各仮説について、各仮説に含まれる単語の信頼尺度に基づいた再スコアリングを行ない、スコアが上位の所定個数の仮説を音声認識結果として出力するための再スコアリング手段とを含む、音声認識装置。 - 前記再スコアリング手段は、前記削除手段により単語が削除された後の各仮説について、各仮説に含まれる単語の信頼尺度の積の値を各仮説のスコアとする再スコアリングを行ない、スコアが上位の所定個数の仮説を音声認識結果として出力するための手段を含む、請求項1に記載の音声認識装置。
- 前記音声認識手段は、音声データに対し、前記第1及び第2の記憶手段にそれぞれ記憶された音響モデル及び言語モデルを用いた統計的手法により音声認識を行ない、音声認識により得られる単語列事後確率の値が上位の前記所定個数の仮説を出力するための手段を含む、請求項1又は請求項2に記載の音声認識装置。
- 前記削除手段により参照される、前記しきい値を記憶するためのしきい値記憶手段と、
前記しきい値記憶手段に記憶されるしきい値の値を設定するためのしきい値設定手段とをさらに含む、請求項1〜請求項3のいずれかに記載の音声認識装置。 - 前記信頼尺度は一般化単語事後確率である、請求項1〜請求項4のいずれかに記載の音声認識装置。
- 統計的音響モデルを記憶するための第1の記憶手段と、
予め想定された発話に対応するテキストから作成された統計的言語モデルを記憶するための第2の記憶手段とを備えたコンピュータにより実行されると、当該コンピュータを、
音声データに対し、前記第1及び第2の記憶手段にそれぞれ記憶された音響モデル及び言語モデルを用いた統計的手法により音声認識を行ない、音声認識の信頼度が上位の所定個数の仮説を出力するための音声認識手段と、
前記所定個数の仮説の各々に含まれる単語の各々について、信頼尺度を算出するための算出手段と、
前記所定個数の仮説において、前記算出手段により算出された信頼尺度が所定のしきい値以下の単語を削除するための削除手段と、
前記削除手段により単語が削除された後の各仮説について、各仮説に含まれる単語の信頼尺度に基づいた再スコアリングを行ない、スコアが上位の所定個数の仮説を音声認識結果として出力するための手段として機能させる、コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006233935A JP4947545B2 (ja) | 2006-08-30 | 2006-08-30 | 音声認識装置及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006233935A JP4947545B2 (ja) | 2006-08-30 | 2006-08-30 | 音声認識装置及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008058503A true JP2008058503A (ja) | 2008-03-13 |
JP4947545B2 JP4947545B2 (ja) | 2012-06-06 |
Family
ID=39241332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006233935A Expired - Fee Related JP4947545B2 (ja) | 2006-08-30 | 2006-08-30 | 音声認識装置及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4947545B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014098760A (ja) * | 2012-11-13 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 辞書・言語モデル圧縮方法とその装置とプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005164837A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ |
JP2006053683A (ja) * | 2004-08-10 | 2006-02-23 | Advanced Telecommunication Research Institute International | 音声認識および機械翻訳装置 |
-
2006
- 2006-08-30 JP JP2006233935A patent/JP4947545B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005164837A (ja) * | 2003-12-01 | 2005-06-23 | Advanced Telecommunication Research Institute International | 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ |
JP2006053683A (ja) * | 2004-08-10 | 2006-02-23 | Advanced Telecommunication Research Institute International | 音声認識および機械翻訳装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014098760A (ja) * | 2012-11-13 | 2014-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 辞書・言語モデル圧縮方法とその装置とプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4947545B2 (ja) | 2012-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4485694B2 (ja) | 並列する認識エンジン | |
US6212498B1 (en) | Enrollment in speech recognition | |
KR100718147B1 (ko) | 음성인식용 문법망 생성장치 및 방법과 이를 이용한 대화체음성인식장치 및 방법 | |
US6542866B1 (en) | Speech recognition method and apparatus utilizing multiple feature streams | |
US8639509B2 (en) | Method and system for computing or determining confidence scores for parse trees at all levels | |
US20050091054A1 (en) | Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system | |
JP2005165272A (ja) | 多数の音声特徴を利用する音声認識 | |
US20080033720A1 (en) | A method and system for speech classification | |
KR20030076686A (ko) | 계층적 언어 모델 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Thimmaraja Yadava et al. | Enhancements in automatic Kannada speech recognition system by background noise elimination and alternate acoustic modelling | |
CA3179063A1 (en) | Machine learning systems and methods for multiscale alzheimer's dementia recognition through spontaneous speech | |
Qin et al. | Automatic speech assessment for aphasic patients based on syllable-level embedding and supra-segmental duration features | |
JP2013109061A (ja) | 音声データ検索システムおよびそのためのプログラム | |
Chen et al. | Automatic pronunciation assessment for Mandarin Chinese | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP2013117683A (ja) | 音声認識装置、誤り傾向学習方法、及びプログラム | |
Thennattil et al. | Phonetic engine for continuous speech in Malayalam | |
JP4659541B2 (ja) | 音声認識装置及び音声認識プログラム | |
HaCohen-Kerner et al. | Language and gender classification of speech files using supervised machine learning methods | |
Digalakis et al. | Large vocabulary continuous speech recognition in greek: corpus and an automatic dictation system. | |
Rudzionis et al. | Web services based hybrid recognizer of Lithuanian voice commands | |
JP4947545B2 (ja) | 音声認識装置及びコンピュータプログラム | |
JP3088364B2 (ja) | 音声言語理解装置及び音声言語理解システム | |
Jackson | Automatic speech recognition: Human computer interface for kinyarwanda language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090811 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110421 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120228 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4947545 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |