JP2015520410A - 音声認識に対する負例(アンチワード)に基づく性能改善 - Google Patents
音声認識に対する負例(アンチワード)に基づく性能改善 Download PDFInfo
- Publication number
- JP2015520410A JP2015520410A JP2015509160A JP2015509160A JP2015520410A JP 2015520410 A JP2015520410 A JP 2015520410A JP 2015509160 A JP2015509160 A JP 2015509160A JP 2015509160 A JP2015509160 A JP 2015509160A JP 2015520410 A JP2015520410 A JP 2015520410A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- word
- words
- confidence value
- negative example
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006872 improvement Effects 0.000 title abstract description 4
- 238000000034 method Methods 0.000 claims abstract description 75
- 238000001514 detection method Methods 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 6
- 230000008685 targeting Effects 0.000 claims 2
- 241000269627 Amphiuma means Species 0.000 claims 1
- 230000002123 temporal effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 31
- 238000012546 transfer Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 6
- 238000013179 statistical model Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- RWYFURDDADFSHT-RBBHPAOJSA-N diane Chemical compound OC1=CC=C2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1.C1=C(Cl)C2=CC(=O)[C@@H]3CC3[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(C)=O)(OC(=O)C)[C@@]1(C)CC2 RWYFURDDADFSHT-RBBHPAOJSA-N 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 240000003768 Solanum lycopersicum Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000011173 large scale experimental method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Abstract
Description
CAT−>k ae t
BAT−>b ae t
異なるすべての音素について1のスコアが結果としてもたらされ、完全な一致について0のスコアと想定される場合、1つの音素(k <−> b)のみが異なっているため、この例について、スコアは1である。
CAT−>x x k ae t
VACATE:−>w ah k ey t
音素の挿入に1消費し、「ae」と「ey」との間の距離が0.3であると想定される場合、単語間の合計距離は2.3である。「ae」と「ey」との間の距離は、音響モデル120(図1)内の収集物として記憶されている統計モデル間の距離であり得る。
CAT:k ae t x
AFT:x ae f t
音素の挿入に1消費し、欠失に2消費し、音素「t」と「f」との間の距離が0.7であると想定される場合、2つの単語間の合計距離は3.7である。このスコアは、音素の1つの挿入、1つの欠失および1つの置換からなる。
Claims (30)
- 音声認識システムにおいて単語の負例を使用するための方法であって、
a.単語のセットを定義するステップと、
b.前記単語の負例のセットを識別するステップと、
c.単語の前記セットおよび負例の前記セットに対してキーワード認識を実行するステップと、
d.単語の前記セット内の単語の信頼値を決定するステップと、
e.負例の前記セット内の単語の信頼値を決定するステップと、
f.単語の前記セットから、単語の前記セット内の単語の前記信頼値は第1の基準を満たす、少なくとも1つの候補単語を識別するステップと、
g.前記少なくとも1つの候補単語の前記信頼値を、単語の負例の前記セット内の少なくとも1つの単語の前記信頼値と比較するステップと、
h.前記比較が第2の基準を満たす場合に、前記少なくとも1つの候補単語を一致として受け入れるステップと
を含む、方法。 - ステップ(a)は、
a.1)録音された会話をシステム発生源から収集するステップと、
a.2)前記会話を検索可能データベースとして保存するステップと、
a.3)検索可能データベースとして保存された前記会話内の識別のためのキーワードの数を決定するステップと、
a.4)検索可能データベースとして保存された前記会話内の前記キーワードについて検索するステップと、
a.5)検索可能データベースとして保存された前記会話内でキーワードを識別するステップと、
a.6)前記識別されたキーワードを調査するステップと、
a.7)キーワードの負例を検出するステップと、
a.8)キーワードの前記負例を識別するステップと
をさらに含む、請求項1に記載の方法。 - ステップ(a.5)は、
a.5.1)前記会話内に存在するキーワードにタグ付けするステップをさらに含む、請求項2に記載の方法。 - ステップ(a.5.1)は、
a.5.1.1)前記キーワードの誤検出の前記保存された会話内に発生するパターンを識別するステップをさらに含む、請求項3に記載の方法。 - ステップ(a.5)は、
a.5.1)前記システムの混同を書き留めるステップをさらに含む、請求項2に記載の方法。 - ステップ(a)は、
a.1)単語の大きい語彙を選択するステップと、
a.2)キーワードの数を定義するステップと、
a.3)前記キーワードの間の距離メトリックを決定するステップと、
a.4)指定されたキーワードを単語の前記語彙と比較するステップと、
a.5)少なくとも1つの識別される分野特有の単語に最も近い少なくとも1つの混同しやすい単語を単語の前記語彙から選択するステップと
をさらに含む、請求項1に記載の方法。 - ステップ(a.1)は、
a.1.1)単語の前記語彙を特定の分野に対象とするステップをさらに含む、請求項6に記載の方法。 - ステップ(a.4)は、
a.4.1)音素距離測定を実行するステップをさらに含む、請求項6に記載の方法。 - ステップ(a.4)は、
a.4.1)文法経路分析を実行するステップをさらに含む、請求項6に記載の方法。 - ステップ(a.3)は、
a.3.1)類似した発音を有する単語について、所与の言語における単語−発音辞書を検索するステップをさらに含む、請求項6に記載の方法。 - ステップ(b)は、
b.1)キーワードの負例を手作業で入力するステップをさらに含む、請求項1に記載の方法。 - ステップ(a)は、
a.1)音声データを入力するステップと、
a.2)検索を実行するステップと、
a.3)キーワードおよび前記キーワードの少なくとも1つの負例の信頼値を計算するステップと、
a.4)前記キーワードの最良の負例を決定するステップと、
a.5)信頼値が基準を満たすか否かを判定するステップと、
a.6)前記信頼値が前記基準を満たさない場合、前記キーワードを拒絶するステップと
をさらに含む、請求項1に記載の方法。 - ステップ(a.5)は、
a.5.1)前記キーワードの前記信頼値が前記基準を満たすか否かを判定するステップと、
a.5.2)前記キーワードの前記最良の負例の前記信頼値が基準を満たすか否かを判定するステップと、
a.5.3)前記キーワードの負例との重なりの信頼値が基準を満たすか否かを判定するステップと
をさらに含む、請求項12に記載の方法。 - ステップ(a.5.3)は、
a.5.3.1)前記キーワードの負例の時間的な所定の百分率による前記重なりがオーディオストリームに出現すると決定するステップをさらに含む、請求項13に記載の方法。 - 音声認識システムにおいて単語の負例を使用するための方法であって、
a.単語のセットを定義するステップと、
b.単語の前記セットによる第1のキーワード認識を実行するステップと、
c.単語の前記セット内の単語の信頼値を決定するステップと、
d.単語の前記セットから、単語の前記セット内の単語の前記信頼値は第1の基準を満たす、少なくとも1つの候補単語を識別するステップと、
e.前記少なくとも1つの候補単語の負例のセットを選択するステップと、
f.負例の前記セットによる第2のキーワード認識を実行するステップと、
g.負例の前記セット内の単語の信頼値を決定するステップと、
h.前記少なくとも1つの候補単語の前記信頼値を、負例の前記セット内の少なくとも1つの単語の前記信頼値と比較するステップと、
i.前記比較が第2の基準を満たす場合に、前記少なくとも1つの候補単語を一致として受け入れるステップと
を含む、方法。 - ステップ(a)は、
a.1)録音された会話をシステム発生源から収集するステップと、
a.2)前記会話を検索可能データベースとして保存するステップと、
a.3)検索可能データベースとして保存された前記会話内の識別のためのキーワードの数を決定するステップと、
a.4)検索可能データベースとして保存された前記会話内の前記キーワードについて検索するステップと、
a.5)検索可能データベースとして保存された前記会話内でキーワードを識別するステップと、
a.6)前記識別されたキーワードを調査するステップと、
a.7)キーワードの負例を検出するステップと、
a.8)キーワードの前記負例を識別するステップと
をさらに含む、請求項15に記載の方法。 - ステップ(a.5)は、
a.5.1)前記会話内に存在するキーワードにタグ付けするステップをさらに含む、請求項16に記載の方法。 - a.5.1.1)前記キーワードの誤検出の前記保存された会話内に発生するパターンを識別するステップをさらに含む、請求項17に記載の方法。
- a.5.1.1.1)前記システムの混同を書き留めるステップをさらに含む、請求項18に記載の方法。
- ステップ(a)は、
a.1)単語の大きい語彙を選択するステップと、
a.2)キーワードの数を定義するステップと、
a.3)前記キーワードの間の距離メトリックを決定するステップと、
a.4)指定されたキーワードを単語の前記語彙と比較するステップと、
a.5)少なくとも1つの識別される分野特有の単語に最も近い少なくとも1つの混同しやすい単語を単語の前記語彙から選択するステップと
をさらに含む、請求項15に記載の方法。 - ステップ(a.1)は、
a.1.1)単語の前記語彙を特定の分野に対象とするステップをさらに含む、請求項20に記載の方法。 - ステップ(a.4)は、
a.4.1)音素距離測定を実行するステップをさらに含む、請求項20に記載の方法。 - ステップ(a.4)は、
a.4.1)文法経路分析を実行するステップをさらに含む、請求項20に記載の方法。 - ステップ(a.3)は、
a.3.1)類似した発音を有する単語について、所与の言語における単語−発音辞書全体を検索するステップをさらに含む、請求項20に記載の方法。 - ステップ(e)は、
e.1)キーワードの負例を手作業で入力するステップをさらに含む、請求項15に記載の方法。 - ステップ(a)は、
a.1)音声データを入力するステップと、
a.2)検索を実行するステップと、
a.3)キーワードおよび前記キーワードの少なくとも1つの負例の信頼値を計算するステップと、
a.4)前記キーワードの最良の負例を決定するステップと、
a.5)信頼値が基準を満たすか否かを判定するステップと、
a.6)前記信頼値が基準を満たす場合、前記キーワードを拒絶するステップと
をさらに含む、請求項15に記載の方法。 - ステップ(a.5)は、
a.5.1)前記キーワードの前記信頼値が基準を満たすか否かを判定するステップと、
a.5.2)前記キーワードの前記最良の負例の前記信頼値が基準を満たすか否かを判定するステップと、
a.5.3)前記キーワードの負例との重なりの前記信頼値が基準を満たすか否かを判定するステップと
をさらに含む、請求項26に記載の方法。 - ステップ(a.5.3)は、
a.5.3.1)前記キーワードの負例の時間的な所定の百分率による前記重なりがオーディオストリームに出現すると決定するステップをさらに含む、請求項27に記載の方法。 - ステップ(i)は、
i.1)前記受け入れを実行するステップであって、前記第2の基準は、前記候補単語の認識の、負例の前記セット内の前記単語の認識に対する時間的近似性を含む、実行するステップをさらに含む、請求項15に記載の方法。 - キーワードの負例を識別するためのシステムであって、
a.オーディオストリーム内のキーワードを検出するための手段と、
b.オーディオストリーム内の前記キーワードの負例を検出するための手段と、
c.前記検出されたキーワードと、前記キーワードの検出された負例とからの情報を組み合わせるための手段と、
d.検出された単語がキーワードの負例であるか否かを判定するための手段と
を備える、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261639242P | 2012-04-27 | 2012-04-27 | |
US61/639,242 | 2012-04-27 | ||
PCT/US2013/038319 WO2013163494A1 (en) | 2012-04-27 | 2013-04-26 | Negative example (anti-word) based performance improvement for speech recognition |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015520410A true JP2015520410A (ja) | 2015-07-16 |
Family
ID=49478067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015509160A Pending JP2015520410A (ja) | 2012-04-27 | 2013-04-26 | 音声認識に対する負例(アンチワード)に基づく性能改善 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20130289987A1 (ja) |
EP (1) | EP2842124A4 (ja) |
JP (1) | JP2015520410A (ja) |
AU (1) | AU2013251457A1 (ja) |
BR (1) | BR112014026148A2 (ja) |
CA (1) | CA2869530A1 (ja) |
CL (1) | CL2014002859A1 (ja) |
NZ (1) | NZ700273A (ja) |
WO (1) | WO2013163494A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022545557A (ja) * | 2019-08-29 | 2022-10-27 | 株式会社ソニー・インタラクティブエンタテインメント | キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544140A (zh) * | 2012-07-12 | 2014-01-29 | 国际商业机器公司 | 一种数据处理方法、展示方法和相应的装置 |
JP6451171B2 (ja) * | 2014-09-22 | 2019-01-16 | 富士通株式会社 | 音声認識装置、音声認識方法、及び、プログラム |
JP6461660B2 (ja) * | 2015-03-19 | 2019-01-30 | 株式会社東芝 | 検出装置、検出方法およびプログラム |
JP6731581B2 (ja) * | 2015-03-27 | 2020-07-29 | パナソニックIpマネジメント株式会社 | 音声認識システム、音声認識装置、音声認識方法、および制御プログラム |
US20170337923A1 (en) * | 2016-05-19 | 2017-11-23 | Julia Komissarchik | System and methods for creating robust voice-based user interface |
US11024302B2 (en) * | 2017-03-14 | 2021-06-01 | Texas Instruments Incorporated | Quality feedback on user-recorded keywords for automatic speech recognition systems |
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
US10872599B1 (en) * | 2018-06-28 | 2020-12-22 | Amazon Technologies, Inc. | Wakeword training |
US11107475B2 (en) * | 2019-05-09 | 2021-08-31 | Rovi Guides, Inc. | Word correction using automatic speech recognition (ASR) incremental response |
US11308273B2 (en) * | 2019-05-14 | 2022-04-19 | International Business Machines Corporation | Prescan device activation prevention |
US11232786B2 (en) * | 2019-11-27 | 2022-01-25 | Disney Enterprises, Inc. | System and method to improve performance of a speech recognition system by measuring amount of confusion between words |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06118990A (ja) * | 1992-10-02 | 1994-04-28 | Nippon Telegr & Teleph Corp <Ntt> | ワードスポッティング音声認識装置 |
JPH06289893A (ja) * | 1993-02-02 | 1994-10-18 | Sony Corp | 音声認識装置 |
JPH09106297A (ja) * | 1995-10-12 | 1997-04-22 | Nec Corp | 音声認識装置 |
JP2005092310A (ja) * | 2003-09-12 | 2005-04-07 | Kddi Corp | 音声キーワード認識装置 |
JP2005227686A (ja) * | 2004-02-16 | 2005-08-25 | Sharp Corp | 音声認識装置、音声認識プログラムおよび記録媒体。 |
JP2008129263A (ja) * | 2006-11-20 | 2008-06-05 | Fujitsu Ltd | 音声認識装置、音声認識方法、および、音声認識プログラム |
WO2008150003A1 (ja) * | 2007-06-06 | 2008-12-11 | Nec Corporation | キーワード抽出モデル学習システム、方法およびプログラム |
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
US20100082343A1 (en) * | 2008-09-29 | 2010-04-01 | Microsoft Corporation | Sequential speech recognition with two unequal asr systems |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
US5625748A (en) * | 1994-04-18 | 1997-04-29 | Bbn Corporation | Topic discriminator using posterior probability or confidence scores |
US5737489A (en) * | 1995-09-15 | 1998-04-07 | Lucent Technologies Inc. | Discriminative utterance verification for connected digits recognition |
US6026410A (en) * | 1997-02-10 | 2000-02-15 | Actioneer, Inc. | Information organization and collaboration tool for processing notes and action requests in computer systems |
US6125345A (en) * | 1997-09-19 | 2000-09-26 | At&T Corporation | Method and apparatus for discriminative utterance verification using multiple confidence measures |
US6195634B1 (en) * | 1997-12-24 | 2001-02-27 | Nortel Networks Corporation | Selection of decoys for non-vocabulary utterances rejection |
US6473735B1 (en) * | 1999-10-21 | 2002-10-29 | Sony Corporation | System and method for speech verification using a confidence measure |
JP2001154685A (ja) * | 1999-11-30 | 2001-06-08 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US6988063B2 (en) * | 2002-02-12 | 2006-01-17 | Sunflare Co., Ltd. | System and method for accurate grammar analysis using a part-of-speech tagged (POST) parser and learners' model |
US7092883B1 (en) * | 2002-03-29 | 2006-08-15 | At&T | Generating confidence scores from word lattices |
US7191129B2 (en) * | 2002-10-23 | 2007-03-13 | International Business Machines Corporation | System and method for data mining of contextual conversations |
JP4714694B2 (ja) * | 2003-11-05 | 2011-06-29 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声−テキストトランスクリプションシステムの誤り検出 |
US7640160B2 (en) * | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7949529B2 (en) * | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US7634409B2 (en) * | 2005-08-31 | 2009-12-15 | Voicebox Technologies, Inc. | Dynamic speech sharpening |
US20070088436A1 (en) * | 2005-09-29 | 2007-04-19 | Matthew Parsons | Methods and devices for stenting or tamping a fractured vertebral body |
KR100679051B1 (ko) * | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
US8401842B1 (en) * | 2008-03-11 | 2013-03-19 | Emc Corporation | Phrase matching for document classification |
US8548812B2 (en) * | 2008-12-22 | 2013-10-01 | Avaya Inc. | Method and system for detecting a relevant utterance in a voice session |
US8423363B2 (en) * | 2009-01-13 | 2013-04-16 | CRIM (Centre de Recherche Informatique de Montréal) | Identifying keyword occurrences in audio data |
US8700665B2 (en) * | 2009-04-27 | 2014-04-15 | Avaya Inc. | Intelligent conference call information agents |
US8619965B1 (en) * | 2010-05-07 | 2013-12-31 | Abraham & Son | On-hold processing for telephonic systems |
DE102010040553A1 (de) * | 2010-09-10 | 2012-03-15 | Siemens Aktiengesellschaft | Spracherkennungsverfahren |
US9213978B2 (en) * | 2010-09-30 | 2015-12-15 | At&T Intellectual Property I, L.P. | System and method for speech trend analytics with objective function and feature constraints |
US20130110511A1 (en) * | 2011-10-31 | 2013-05-02 | Telcordia Technologies, Inc. | System, Method and Program for Customized Voice Communication |
US9117449B2 (en) * | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
-
2013
- 2013-04-26 WO PCT/US2013/038319 patent/WO2013163494A1/en active Application Filing
- 2013-04-26 CA CA2869530A patent/CA2869530A1/en not_active Abandoned
- 2013-04-26 NZ NZ700273A patent/NZ700273A/en not_active IP Right Cessation
- 2013-04-26 US US13/871,053 patent/US20130289987A1/en not_active Abandoned
- 2013-04-26 AU AU2013251457A patent/AU2013251457A1/en not_active Abandoned
- 2013-04-26 EP EP13781789.6A patent/EP2842124A4/en not_active Withdrawn
- 2013-04-26 JP JP2015509160A patent/JP2015520410A/ja active Pending
- 2013-04-26 BR BR112014026148A patent/BR112014026148A2/pt not_active IP Right Cessation
-
2014
- 2014-10-23 CL CL2014002859A patent/CL2014002859A1/es unknown
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06118990A (ja) * | 1992-10-02 | 1994-04-28 | Nippon Telegr & Teleph Corp <Ntt> | ワードスポッティング音声認識装置 |
JPH06289893A (ja) * | 1993-02-02 | 1994-10-18 | Sony Corp | 音声認識装置 |
JPH09106297A (ja) * | 1995-10-12 | 1997-04-22 | Nec Corp | 音声認識装置 |
JP2005092310A (ja) * | 2003-09-12 | 2005-04-07 | Kddi Corp | 音声キーワード認識装置 |
JP2005227686A (ja) * | 2004-02-16 | 2005-08-25 | Sharp Corp | 音声認識装置、音声認識プログラムおよび記録媒体。 |
JP2008129263A (ja) * | 2006-11-20 | 2008-06-05 | Fujitsu Ltd | 音声認識装置、音声認識方法、および、音声認識プログラム |
WO2008150003A1 (ja) * | 2007-06-06 | 2008-12-11 | Nec Corporation | キーワード抽出モデル学習システム、方法およびプログラム |
JP2009116075A (ja) * | 2007-11-07 | 2009-05-28 | Xanavi Informatics Corp | 音声認識装置 |
JP2010020102A (ja) * | 2008-07-10 | 2010-01-28 | Fujitsu Ltd | 音声認識装置、音声認識方法及びコンピュータプログラム |
US20100082343A1 (en) * | 2008-09-29 | 2010-04-01 | Microsoft Corporation | Sequential speech recognition with two unequal asr systems |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022545557A (ja) * | 2019-08-29 | 2022-10-27 | 株式会社ソニー・インタラクティブエンタテインメント | キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム |
JP7288143B2 (ja) | 2019-08-29 | 2023-06-06 | 株式会社ソニー・インタラクティブエンタテインメント | キーワード適合を伴うカスタマイズ可能なキーワードスポッティングシステム |
Also Published As
Publication number | Publication date |
---|---|
BR112014026148A2 (pt) | 2018-05-08 |
NZ700273A (en) | 2016-10-28 |
CA2869530A1 (en) | 2013-10-31 |
EP2842124A1 (en) | 2015-03-04 |
US20130289987A1 (en) | 2013-10-31 |
WO2013163494A1 (en) | 2013-10-31 |
CL2014002859A1 (es) | 2015-05-08 |
EP2842124A4 (en) | 2015-12-30 |
AU2013251457A1 (en) | 2014-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9646605B2 (en) | False alarm reduction in speech recognition systems using contextual information | |
JP2015520410A (ja) | 音声認識に対する負例(アンチワード)に基づく性能改善 | |
Ferrer et al. | Is the speaker done yet? Faster and more accurate end-of-utterance detection using prosody | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US8209171B2 (en) | Methods and apparatus relating to searching of spoken audio data | |
JP4221379B2 (ja) | 音声特性に基づく電話発信者の自動識別 | |
US6985861B2 (en) | Systems and methods for combining subword recognition and whole word recognition of a spoken input | |
US20200118564A1 (en) | Contextual voice user interface | |
EP1800293B1 (en) | Spoken language identification system and methods for training and operating same | |
US9361879B2 (en) | Word spotting false alarm phrases | |
US20100223056A1 (en) | Various apparatus and methods for a speech recognition system | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
Zhang et al. | Improved mandarin keyword spotting using confusion garbage model | |
JP2011053569A (ja) | 音響処理装置およびプログラム | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Kou et al. | Fix it where it fails: Pronunciation learning by mining error corrections from speech logs | |
Norouzian et al. | An approach for efficient open vocabulary spoken term detection | |
Nouza et al. | Fast keyword spotting in telephone speech | |
JP6199994B2 (ja) | コンテキスト情報を使用した音声認識システムにおける誤警報低減 | |
Smídl et al. | Comparison of keyword spotting methods for searching in speech | |
Norouzian et al. | Facilitating open vocabulary spoken term detection using a multiple pass hybrid search algorithm | |
KR20180057315A (ko) | 자연어 발화 음성 판별 시스템 및 방법 | |
Zacharie et al. | Keyword spotting on word lattices | |
Knill et al. | Low-cost implementation of open set keyword spotting | |
ŠMÍDL et al. | Improving a Keyword Spotting System Using Phoneme Sequence Generated by a Filler Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20161216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170131 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20170420 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20171010 |