JP2007011027A - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- JP2007011027A JP2007011027A JP2005192199A JP2005192199A JP2007011027A JP 2007011027 A JP2007011027 A JP 2007011027A JP 2005192199 A JP2005192199 A JP 2005192199A JP 2005192199 A JP2005192199 A JP 2005192199A JP 2007011027 A JP2007011027 A JP 2007011027A
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- subword
- hypothesis
- speech recognition
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 22
- 230000001186 cumulative effect Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 35
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 241001070941 Castanea Species 0.000 description 5
- 235000014036 Castanea Nutrition 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【解決手段】 音声認識において仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照し、認識対象の音声と前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする。
【選択図】 図2
Description
202 仮説
203 リンク
Claims (13)
- 音声を認識する音声認識方法であって、
仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照工程と、
認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算工程と、
を有することを特徴とする音声認識方法。 - 前記最大値を与えたサブワードモデルを記憶する記憶工程と、
所定の条件を満たす場合に、前記尤度計算工程に代えて、記憶したサブワードモデルに対して尤度を計算し、前記仮説に対応する音響モデルの尤度とする第二尤度計算工程と、
を有することを特徴とする請求項1に記載の音声認識方法。 - 前記所定の条件は、前記尤度計算工程の実行時から所定時間を経過していないことであることを特徴とする請求項2に記載の音声認識方法。
- 前記所定の条件は、最後に行われた尤度計算工程で対象とされた観測信号と現在の観測信号との差が所定値未満であること、とすることを特徴とする請求項2に記載の音声認識方法。
- 前記所定の条件は、最後に行われた尤度計算工程の実行時から所定時間を経過しておらず、かつ、当該最後に行われた尤度計算工程で対象とされた観測信号と現在の観測信号との差が所定値未満であること、とすることを特徴とする請求項2に記載の音声認識方法。
- 認識対象単語の単語境界のサブワードに対する仮説が、隣接するサブワードに依存して複数のサブワードモデルを参照することを特徴とする請求項1乃至5のいずれかに記載の音声認識方法。
- 請求項1乃至6のいずれかに記載の音声認識方法をコンピュータに実行させるための制御プログラム。
- 音声を認識する音声認識装置であって、
仮説の累積尤度を計算する際に参照する音響モデルの尤度の計算において、隣接するサブワードに依存して決まる一つ以上のサブワードモデルを各仮説で参照する参照手段と、
認識対象の音声と前記各サブワードモデルを基に、前記各サブワードモデルの音響モデルの尤度を計算し、計算された尤度の最大値を前記仮説に対応する音響モデルの尤度とする尤度計算手段と、
を有することを特徴とする音声認識装置。 - 前記最大値を与えたサブワードモデルを記憶する記憶手段と、
所定の条件を満たす場合に、前記尤度計算手段に代えて、記憶したサブワードモデルに対して尤度を計算し、前記仮説に対応する音響モデルの尤度とする第二の尤度計算手段と、
を有することを特徴とする請求項8に記載の音声認識装置。 - 前記所定の条件は、最後に行われた尤度計算手段の実行時から所定時間を経過していないこと、とすることを特徴とする請求項9に記載の音声認識装置。
- 前記所定の条件は、最後に行われた尤度計算手段で対象とされた観測信号と現在の観測信号との距離が所定値未満であること、とすることを特徴とする請求項9に記載の音声認識装置。
- 前記所定の条件は、最後に行われた尤度計算手段の実行時から所定時間を経過しておらず、なおかつ、当該最後に行われた尤度計算手段で対象とされた観測信号と現在の観測信号との距離が所定値未満であること、とすることを特徴とする請求項9に記載の音声認識装置。
- 認識対象単語の単語境界のサブワードに対する仮説が、隣接するサブワードに依存して複数のサブワードモデルを参照することを特徴とする請求項8乃至12のいずれかに記載の音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005192199A JP4732030B2 (ja) | 2005-06-30 | 2005-06-30 | 情報処理装置およびその制御方法 |
US11/475,712 US8099280B2 (en) | 2005-06-30 | 2006-06-27 | Speech recognition method and speech recognition apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005192199A JP4732030B2 (ja) | 2005-06-30 | 2005-06-30 | 情報処理装置およびその制御方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2007011027A true JP2007011027A (ja) | 2007-01-18 |
JP2007011027A5 JP2007011027A5 (ja) | 2010-07-08 |
JP4732030B2 JP4732030B2 (ja) | 2011-07-27 |
Family
ID=37590795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005192199A Expired - Fee Related JP4732030B2 (ja) | 2005-06-30 | 2005-06-30 | 情報処理装置およびその制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8099280B2 (ja) |
JP (1) | JP4732030B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9607613B2 (en) * | 2014-04-23 | 2017-03-28 | Google Inc. | Speech endpointing based on word comparisons |
EP4083998A1 (en) | 2017-06-06 | 2022-11-02 | Google LLC | End of query detection |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0968996A (ja) * | 1995-09-01 | 1997-03-11 | Oki Electric Ind Co Ltd | 音声認識方法 |
JPH09127977A (ja) * | 1995-10-27 | 1997-05-16 | Oki Electric Ind Co Ltd | 音声認識方法 |
JP2000250580A (ja) * | 1999-02-26 | 2000-09-14 | Sharp Corp | 音声認識装置及び記録媒体 |
JP2003005787A (ja) * | 2001-06-20 | 2003-01-08 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識プログラム |
JP2006293033A (ja) * | 2005-04-11 | 2006-10-26 | Canon Inc | 混合分布hmmの状態の出力確率計算方法および装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3033322B2 (ja) | 1992-02-14 | 2000-04-17 | 日本電気株式会社 | 連続音声認識方法 |
JP3042455B2 (ja) | 1997-07-28 | 2000-05-15 | 日本電気株式会社 | 連続音声認識方式 |
JP2003208195A (ja) | 2002-01-16 | 2003-07-25 | Sharp Corp | 連続音声認識装置および連続音声認識方法、連続音声認識プログラム、並びに、プログラム記録媒体 |
US20050256715A1 (en) * | 2002-10-08 | 2005-11-17 | Yoshiyuki Okimoto | Language model generation and accumulation device, speech recognition device, language model creation method, and speech recognition method |
-
2005
- 2005-06-30 JP JP2005192199A patent/JP4732030B2/ja not_active Expired - Fee Related
-
2006
- 2006-06-27 US US11/475,712 patent/US8099280B2/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0968996A (ja) * | 1995-09-01 | 1997-03-11 | Oki Electric Ind Co Ltd | 音声認識方法 |
JPH09127977A (ja) * | 1995-10-27 | 1997-05-16 | Oki Electric Ind Co Ltd | 音声認識方法 |
JP2000250580A (ja) * | 1999-02-26 | 2000-09-14 | Sharp Corp | 音声認識装置及び記録媒体 |
JP2003005787A (ja) * | 2001-06-20 | 2003-01-08 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識プログラム |
JP2006293033A (ja) * | 2005-04-11 | 2006-10-26 | Canon Inc | 混合分布hmmの状態の出力確率計算方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
US20070005362A1 (en) | 2007-01-04 |
US8099280B2 (en) | 2012-01-17 |
JP4732030B2 (ja) | 2011-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7869999B2 (en) | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis | |
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
Lee et al. | Improved acoustic modeling for large vocabulary continuous speech recognition | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
US8600749B2 (en) | System and method for training adaptation-specific acoustic models for automatic speech recognition | |
KR100845428B1 (ko) | 휴대용 단말기의 음성 인식 시스템 | |
KR101120765B1 (ko) | 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법 | |
JP4749387B2 (ja) | 子供に向けられた発話を使用してモデル・ベースの音声の区分化をブートストラップすること、および認識システム | |
JP3459712B2 (ja) | 音声認識方法及び装置及びコンピュータ制御装置 | |
KR20110128229A (ko) | 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법 | |
JP2001282283A (ja) | 音声認識方法及び装置と記憶媒体 | |
KR20040088368A (ko) | 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법 | |
US7133827B1 (en) | Training speech recognition word models from word samples synthesized by Monte Carlo techniques | |
JPH0728487A (ja) | 音声認識方法 | |
JP4732030B2 (ja) | 情報処理装置およびその制御方法 | |
JP2003208195A5 (ja) | ||
WO2003060878A1 (fr) | Appareil de reconnaissance de la parole continue, procede de reconnaissance de la parole continue, programme de reconnaissance de la parole continue et support d'enregistrement de programme | |
US20060136209A1 (en) | Methodology for generating enhanced demiphone acoustic models for speech recognition | |
JP2007163896A (ja) | 音声認識装置および方法 | |
Rybach et al. | On lattice generation for large vocabulary speech recognition | |
US11915688B2 (en) | Prediction device, prediction method, and program | |
JP3171107B2 (ja) | 音声認識装置 | |
US8260614B1 (en) | Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
JP4972660B2 (ja) | 音声学習装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080624 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20100201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100526 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20100630 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100921 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101019 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110314 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110419 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110420 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140428 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |