JP4283133B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP4283133B2 JP4283133B2 JP2004046988A JP2004046988A JP4283133B2 JP 4283133 B2 JP4283133 B2 JP 4283133B2 JP 2004046988 A JP2004046988 A JP 2004046988A JP 2004046988 A JP2004046988 A JP 2004046988A JP 4283133 B2 JP4283133 B2 JP 4283133B2
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- phoneme
- word
- model
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図1はこの発明の一実施例に従った音声認識システム20の全体構造を示す図である。図1を参照して、システム20は、トレーニングデータ30を用いて、多数の単語ベースのHMM34をトレーニングするためのHMMトレーニングユニット32と、ユニット32によってトレーニングされたHMM34を用いて、入力発話40を認識し認識テキスト44を出力するための音声認識装置42とを含む。
― 動作 ―
図1から図7に示すシステムは以下のように動作する。最初に、トレーニングデータ30が与えられる。図2を参照して、セグメント化ユニット60がトレーニングデータ30中の発話の各々を、ビタビアライメントによって獲得される時間情報に基づき個々の単語にセグメント化する。音素認識ユニット62は各単語チャンクに音素認識を適用する。このとき、モノフォンより高い音素認識精度を達成するため、ライト・コンテキスト(right-context:右側文字列)のバイフォンモデルが適用される。
― 実験例 ―
評価のため、出願人は、出願人の研究所で収集された、英語を話す11人の日本人による非母国語のデータベースを使用した。各話者あたり12分の読上げ音声が得られ、これを分割してトレーニング用に10分、テストセットに2分とした。タスクのドメインはホテルの予約場面である。
Claims (5)
- 入力音声データの音素を認識して入力音声データの音素ラベルのシーケンスを出力するための手段と、
入力音声データ中の単語を認識して複数個の認識単語のシーケンスをそれぞれの音響スコアと共に出力するための手段と、
再スコアされるべき認識単語のシーケンスに従って選択された発音モデルに前記音素ラベルのシーケンスを適用することにより、前記複数個の認識単語のシーケンスの各々を再スコアするための手段とを含み、前記発音モデルはトレーニングデータセット内の単語とそれらの音素との多数の対を用いてトレーニングされており、さらに
前記複数個の認識単語のシーケンスのうち、前記再スコア手段によって予め定められた条件を満たすスコアが与えられたものを選択するための手段を含む、音声認識装置。 - 選択するための手段は、前記複数個の認識単語のシーケンスのうち、前記再スコア手段によって最も高いスコアが与えられたものを選択するための手段を含む、請求項1に記載の音声認識装置。
- 前記再スコアするための手段は、
前記音素ラベルのシーケンスを、再スコアされるべき前記認識単語のシーケンス内の単語とアライメントすることにより、前記音素ラベルのシーケンスを、再スコアされるべき認識単語のシーケンス内のそれぞれの語とアライメントされた音素ラベルシーケンスの断片にセグメント化するための手段と、
前記音素ラベルシーケンスの断片を、前記音素ラベルシーケンスの断片がアライメントされたそれぞれの単語に対応するそれぞれの前記発音モデルに与えるための手段と、
前記音素ラベルシーケンスの断片を与えたことに応答して前記発音モデルから出力されるスコアを組合せるための手段とを含む、請求項1に記載の音声認識装置。 - 前記組合せるための手段が、
予め選択された言語モデルに従って、前記再スコアされるべき単語シーケンスのために、加重言語モデルスコアを計算するための手段と、
前記音素ラベルシーケンスの断片を与えたことに応答して前記発音モデルから出力されるスコアを、前記加重言語モデルスコアと組合せるための手段とを含む、請求項3に記載の音声認識装置。 - 前記発音モデルの各々が、トレーニングデータセット内の単語とその音素との多数の対によってトレーニングされた離散隠れマルコフモデル(HMM)発音モデルを含む、請求項1〜請求項4のいずれかに記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004046988A JP4283133B2 (ja) | 2004-02-23 | 2004-02-23 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004046988A JP4283133B2 (ja) | 2004-02-23 | 2004-02-23 | 音声認識装置 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005234504A JP2005234504A (ja) | 2005-09-02 |
JP2005234504A5 JP2005234504A5 (ja) | 2005-10-27 |
JP4283133B2 true JP4283133B2 (ja) | 2009-06-24 |
Family
ID=35017481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004046988A Expired - Fee Related JP4283133B2 (ja) | 2004-02-23 | 2004-02-23 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4283133B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11631414B2 (en) | 2019-10-22 | 2023-04-18 | Samsung Electronics Co., Ltd. | Speech recognition method and speech recognition apparatus |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5062171B2 (ja) * | 2006-03-23 | 2012-10-31 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識用プログラム |
TW200926142A (en) * | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
JP5180800B2 (ja) * | 2008-12-11 | 2013-04-10 | 独立行政法人情報通信研究機構 | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム |
KR101587866B1 (ko) | 2009-06-03 | 2016-01-25 | 삼성전자주식회사 | 음성 인식용 발음사전 확장 장치 및 방법 |
CN104157285B (zh) * | 2013-05-14 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
CN112151018A (zh) * | 2019-06-10 | 2020-12-29 | 阿里巴巴集团控股有限公司 | 语音评测及语音识别方法、装置、设备及存储介质 |
CN111862959B (zh) * | 2020-08-07 | 2024-04-19 | 广州视琨电子科技有限公司 | 发音错误检测方法、装置、电子设备及存储介质 |
-
2004
- 2004-02-23 JP JP2004046988A patent/JP4283133B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11631414B2 (en) | 2019-10-22 | 2023-04-18 | Samsung Electronics Co., Ltd. | Speech recognition method and speech recognition apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2005234504A (ja) | 2005-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
Stolcke et al. | Highly accurate phonetic segmentation using boundary correction models and system fusion | |
US10497362B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
US20060041429A1 (en) | Text-to-speech system and method | |
JPH06110493A (ja) | 音声モデルの構成方法及び音声認識装置 | |
Demuynck et al. | A comparison of different approaches to automatic speech segmentation | |
KR20060050361A (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
Gillick et al. | Don't multiply lightly: Quantifying problems with the acoustic model assumptions in speech recognition | |
US20170249953A1 (en) | Method and apparatus for exemplary morphing computer system background | |
JP2007155833A (ja) | 音響モデル開発装置及びコンピュータプログラム | |
JP4283133B2 (ja) | 音声認識装置 | |
AU2020205275B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
Liu et al. | Modeling partial pronunciation variations for spontaneous Mandarin speech recognition | |
Liu et al. | State-dependent phonetic tied mixtures with pronunciation modeling for spontaneous speech recognition | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
JP2006084966A (ja) | 発話音声の自動評定装置およびコンピュータプログラム | |
Hwang et al. | Building a highly accurate Mandarin speech recognizer | |
Liu et al. | Pronunciation modeling for spontaneous Mandarin speech recognition | |
Livescu et al. | Segment-based recognition on the phonebook task: initial results and observations on duration modeling. | |
Pandey et al. | Fusion of spectral and prosodic information using combined error optimization for keyword spotting | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
Grover | Goodness of Pronunciation Pipelines for OOV Problem | |
Kurian | Development of Speech corpora for different Speech Recognition tasks in Malayalam language | |
Khaw et al. | A fast adaptation technique for building dialectal malay speech synthesis acoustic model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050729 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080218 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090303 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090318 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120327 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |