JP6199994B2 - コンテキスト情報を使用した音声認識システムにおける誤警報低減 - Google Patents
コンテキスト情報を使用した音声認識システムにおける誤警報低減 Download PDFInfo
- Publication number
- JP6199994B2 JP6199994B2 JP2015553683A JP2015553683A JP6199994B2 JP 6199994 B2 JP6199994 B2 JP 6199994B2 JP 2015553683 A JP2015553683 A JP 2015553683A JP 2015553683 A JP2015553683 A JP 2015553683A JP 6199994 B2 JP6199994 B2 JP 6199994B2
- Authority
- JP
- Japan
- Prior art keywords
- context
- model
- word
- threshold
- external
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009467 reduction Effects 0.000 title description 4
- 238000012360 testing method Methods 0.000 claims description 125
- 238000000034 method Methods 0.000 claims description 110
- 238000012549 training Methods 0.000 claims description 62
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000002790 cross-validation Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 73
- 238000013179 statistical model Methods 0.000 description 23
- 238000001514 detection method Methods 0.000 description 13
- 238000012795 verification Methods 0.000 description 13
- 239000013598 vector Substances 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012109 statistical procedure Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Description
Claims (14)
- 音声認識システムにおける誤警報を低減するコンピュータ実装方法であって、
複数のトレーニング例を受信するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による左内部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記左内部コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による右内部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記右内部コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による左外部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記左外部コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による右外部コンテキストのコンパクトな表現を含み、少なくとも一部が前記複数のトレーニング例に基づく前記右外部コンテキストのモデルを生成するステップと、
外部コンテキストを含む少なくとも1つのテスト単語を受信するステップと、
前記少なくとも1つのテスト単語の前記外部コンテキストを、前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルに関連付けられた閾値と比較するステップと、
前記少なくとも1つのテスト単語が前記閾値内に入らない場合に、前記少なくとも1つのテスト単語を拒否するステップと、
を含むことを特徴とする方法。 - 前記テスト単語は、アナログのコンテキストである、請求項1に記載の方法。
- 前記テスト単語をアナログのコンテキストからデジタル形式に変換するステップをさらに含む、請求項2に記載の方法。
- 前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルに対する受け入れ可能な閾値を、クロスバリデーションセットに少なくとも部分的に基づいて学習するステップをさらに含み、
前記比較するステップは、前記各モデルに対する受け入れ可能な閾値を用いて実行される、請求項1に記載の方法。 - 前記複数のトレーニング例における各トレーニング例は、テスト単語及びローカルコンテキストの表現を含み、
各ローカルコンテキストは、複数の類似する単語タイプからの平均音素継続時間及び平均音節継続時間に基づく、請求項1に記載の方法。 - 前記比較するステップは、前記少なくとも1つの単語をパープレキシティテストによって評価するさらなるステップを含む、請求項1に記載の方法。
- 前記左内部コンテキストの前記モデル、前記右内部コンテキストの前記モデル、前記左外部コンテキストの前記モデル、及び前記右外部コンテキストの前記モデルにおける各モデルは、複数のコンパクトな表現を含む、請求項1に記載の方法。
- 音声認識システムにおける誤警報を低減するコンピュータ実装方法であって、
各々が話し言葉及びローカルコンテキストの表現を含む複数のトレーニング例を受信するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による音響コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも1つの前記音響コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による音声コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも1つの前記音声コンテキストのモデルを生成するステップと、
スペクトル、ケプストラム、又は正弦波形状の形式による言語コンテキストのコンパクトな表現を含み、前記複数のトレーニング例に基づく少なくとも1つの前記言語コンテキストのモデルを生成するステップと、
外部コンテキストを含む少なくとも1つのテスト単語を受信するステップと、
前記少なくとも1つのテスト単語を、前記音響コンテキストの前記モデル、前記音声コンテキストの前記モデル、及び前記言語コンテキストの前記モデルにおける各モデルに関連付けられた閾値と比較するステップと、
前記少なくとも1つのテスト単語が前記閾値内に入らない場合に、前記少なくとも1つのテスト単語を拒否するステップと、
を含むことを特徴とする方法。 - 前記話し言葉は、アナログのコンテキストである、請求項8に記載の方法。
- 前記話し言葉をアナログのコンテキストからデジタル形式に変換するステップをさらに含む、請求項9に記載の方法。
- 前記音響コンテキストの前記モデル、前記音声コンテキストの前記モデル、及び前記言語コンテキストの前記モデルにおける各モデルに対する受け入れ可能な閾値を、クロスバリデーションセットに少なくとも部分的に基づいて学習するステップをさらに含み、
前記比較するステップは、前記各モデルに対する受け入れ可能な閾値を用いて実行される、請求項8に記載の方法。 - 前記複数のトレーニング例における各トレーニング例は、話し言葉及びローカルコンテキストの表現を含み、
各ローカルコンテキストは、複数の類似する単語タイプからの平均音素継続時間及び平均音節継続時間に基づく、請求項8に記載の方法。 - 前記比較するステップは、前記少なくとも1つの単語をパープレキシティテストによって評価するさらなるステップを含む、請求項8に記載の方法。
- 前記音響コンテキストのモデルを生成するステップは、前記複数のトレーニング例の中の各話し言葉に対して、左内部モデル、右内部モデル、左外部モデル、及び右外部モデルを生成するステップを含む、請求項8に記載の方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2013/022495 WO2014116199A1 (en) | 2013-01-22 | 2013-01-22 | False alarm reduction in speech recognition systems using contextual information |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016503908A JP2016503908A (ja) | 2016-02-08 |
JP6199994B2 true JP6199994B2 (ja) | 2017-09-20 |
Family
ID=51227875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015553683A Active JP6199994B2 (ja) | 2013-01-22 | 2013-01-22 | コンテキスト情報を使用した音声認識システムにおける誤警報低減 |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP2948943B1 (ja) |
JP (1) | JP6199994B2 (ja) |
AU (1) | AU2013375318B2 (ja) |
BR (1) | BR112015015900B1 (ja) |
CA (1) | CA2896801C (ja) |
NZ (2) | NZ709320A (ja) |
WO (1) | WO2014116199A1 (ja) |
ZA (1) | ZA201504570B (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113284513B (zh) * | 2021-07-26 | 2021-10-15 | 中国科学院自动化研究所 | 基于音素时长特征的虚假语音检测方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3621922B2 (ja) * | 2001-02-01 | 2005-02-23 | 松下電器産業株式会社 | 文認識装置、文認識方法、プログラム、および媒体 |
JP2002358097A (ja) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | 音声認識装置 |
US20030009335A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Speech recognition with dynamic grammars |
US20040148169A1 (en) * | 2003-01-23 | 2004-07-29 | Aurilab, Llc | Speech recognition with shadow modeling |
US7925506B2 (en) * | 2004-10-05 | 2011-04-12 | Inago Corporation | Speech recognition accuracy via concept to keyword mapping |
ES2311872T3 (es) * | 2004-12-28 | 2009-02-16 | Loquendo S.P.A. | Sistema y procedimiento de reconocimiento vocal automatico. |
JP2011227758A (ja) * | 2010-04-21 | 2011-11-10 | Sony Corp | 情報処理装置、情報処理方法及びプログラム |
US9081760B2 (en) * | 2011-03-08 | 2015-07-14 | At&T Intellectual Property I, L.P. | System and method for building diverse language models |
EP2851895A3 (en) * | 2011-06-30 | 2015-05-06 | Google, Inc. | Speech recognition using variable-length context |
-
2013
- 2013-01-22 AU AU2013375318A patent/AU2013375318B2/en active Active
- 2013-01-22 JP JP2015553683A patent/JP6199994B2/ja active Active
- 2013-01-22 NZ NZ709320A patent/NZ709320A/en unknown
- 2013-01-22 NZ NZ724941A patent/NZ724941A/en unknown
- 2013-01-22 BR BR112015015900-1A patent/BR112015015900B1/pt active IP Right Grant
- 2013-01-22 EP EP13872885.2A patent/EP2948943B1/en active Active
- 2013-01-22 WO PCT/US2013/022495 patent/WO2014116199A1/en active Application Filing
- 2013-01-22 CA CA2896801A patent/CA2896801C/en active Active
-
2015
- 2015-06-24 ZA ZA2015/04570A patent/ZA201504570B/en unknown
Also Published As
Publication number | Publication date |
---|---|
CA2896801C (en) | 2021-11-23 |
BR112015015900A2 (pt) | 2017-09-26 |
EP2948943A4 (en) | 2016-12-07 |
EP2948943B1 (en) | 2021-08-25 |
NZ724941A (en) | 2017-12-22 |
NZ709320A (en) | 2017-02-24 |
AU2013375318B2 (en) | 2019-05-02 |
CA2896801A1 (en) | 2014-07-31 |
WO2014116199A1 (en) | 2014-07-31 |
EP2948943A1 (en) | 2015-12-02 |
JP2016503908A (ja) | 2016-02-08 |
AU2013375318A1 (en) | 2015-07-09 |
ZA201504570B (en) | 2018-12-19 |
BR112015015900B1 (pt) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
JP3361732B2 (ja) | 音声認識方法および音声認識装置 | |
US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
Aldarmaki et al. | Unsupervised automatic speech recognition: A review | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
US20100223056A1 (en) | Various apparatus and methods for a speech recognition system | |
US11158307B1 (en) | Alternate utterance generation | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
Williams | Knowing what you don't know: roles for confidence measures in automatic speech recognition | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Zhang et al. | Improved mandarin keyword spotting using confusion garbage model | |
Kou et al. | Fix it where it fails: Pronunciation learning by mining error corrections from speech logs | |
Hwang et al. | Building a highly accurate Mandarin speech recognizer | |
JP6199994B2 (ja) | コンテキスト情報を使用した音声認識システムにおける誤警報低減 | |
Siniscalchi et al. | An attribute detection based approach to automatic speech processing | |
Williams | A study of the use and evaluation of confidence measures in automatic speech recognition | |
JPH08248988A (ja) | 音声認識方法 | |
Scharenborg et al. | 'Early recognition'of words in continuous speech | |
Chen | Resource-dependent acoustic and language modeling for spoken keyword search. | |
He | Segmental models with an exploration of acoustic and lexical grouping in automatic speech recognition | |
Mary et al. | Modeling and fusion of prosody for speaker, language, emotion, and speech recognition | |
Fanty et al. | Neural networks for alphabet recognition | |
Wang et al. | High-resolution acoustic modeling and compact language modeling of language-universal speech attributes for spoken language identification. | |
Liu et al. | Query-by-example spoken term detection using bottleneck feature and Hidden Markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170801 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170824 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6199994 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |