JP5310563B2 - 音声認識システム、音声認識方法、および音声認識用プログラム - Google Patents
音声認識システム、音声認識方法、および音声認識用プログラム Download PDFInfo
- Publication number
- JP5310563B2 JP5310563B2 JP2009547096A JP2009547096A JP5310563B2 JP 5310563 B2 JP5310563 B2 JP 5310563B2 JP 2009547096 A JP2009547096 A JP 2009547096A JP 2009547096 A JP2009547096 A JP 2009547096A JP 5310563 B2 JP5310563 B2 JP 5310563B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- hypothesis
- recognition
- speech recognition
- grammar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000001186 cumulative effect Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
12 第2の音声認識処理部
100 音声分析部
200 音声認識部
201 認識仮説グラフ生成部
202 仮説探索部
211 第1の文法記憶部
212 第2の文法記憶部
Claims (24)
- 入力音声に含まれるキーワードを認識する音声認識システムであって、
入力音声の音声特徴量に対して、第1の文法に従った音声認識処理を行い、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第1の音声認識処理部と、
入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法に従った音声認識処理を行い、前記第2の文法に従って導出した仮説の総合スコアから、認識結果を出力する第2の音声認識処理部とを備え、
前記第2の音声認識処理部は、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする音声認識システム。 - 第1の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いることを特徴とする請求項1に記載の音声認識システム。
- 第2の音声認識処理部は、第2の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することを特徴とする請求項1または請求項2に記載の音声認識システム。
- 第2の音声認識処理部は、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択することを特徴とする請求項3に記載の音声認識システム。
- 第1の音声認識処理部は、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項1から請求項4のうちのいずれか1項に記載の音声認識システム。
- 第1の音声認識処理部は、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項1から請求項4のうちのいずれか1項に記載の音声認識システム。
- 第2の音声認識処理部は、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項1から請求項6のうちのいずれか1項に記載の音声認識システム。
- 第2の音声認識処理部は、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項1から請求項6のうちのいずれか1項に記載の音声認識システム。
- 入力音声に含まれるキーワードを認識するための音声認識方法であって、
入力音声の音声特徴量に対して、第1の文法に従った音声認識処理を行い、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第1のステップと、
入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第2の文法に従った音声認識処理を行い、前記第2の文法に従って導出した仮説の総合スコアから、認識結果を出力する第2のステップとを含み、
前記第2のステップで、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする音声認識方法。 - 第1の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いることを特徴とする請求項9に記載の音声認識方法。
- 第2のステップで、第2の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することを特徴とする請求項9または請求項10に記載の音声認識方法。
- 第2のステップで、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択することを特徴とする請求項11に記載の音声認識方法。
- 第1のステップで、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項9から請求項12のうちのいずれか1項に記載の音声認識方法。
- 第1のステップで、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項9から請求項12のうちのいずれか1項に記載の音声認識方法。
- 第2のステップで、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項9から請求項14のうちのいずれか1項に記載の音声認識方法。
- 第2のステップで、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項9から請求項14のうちのいずれか1項に記載の音声認識方法。
- 入力音声に含まれるキーワードを認識するための音声認識用プログラムであって、
コンピュータに、
入力音声の音声特徴量に基づき、前記入力音声を第1の文法に従って認識する第1の音声認識処理、および
入力音声の音声特徴量に基づき、前記入力音声を第2の文法に従って認識する第2の音声認識処理を実行させ、
前記第1の音声認識処理で、前記第1の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成させ、
前記第2の音声認識処理で、前記第2の文法に従って生成される各仮説のガーベージ区間の構造およびスコアを、前記認識仮説グラフから取得させることを特徴とする音声認識用プログラム。 - コンピュータに、
第1の音声認識処理で、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された第1の文法に従って入力音声を認識させることを特徴とする請求項17に記載の音声認識用プログラム。 - コンピュータに、
第2の音声認識処理で、第2の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を1つ以上選択させ、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続させることを特徴とする請求項17または請求項18に記載の音声認識用プログラム。 - コンピュータに、
第2の音声認識処理で、ガーベージ区間に達した仮説に接続する音声区間として、認識仮説グラフから入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択させることを特徴とする請求項19に記載の音声認識用プログラム。 - コンピュータに、
第1の音声認識処理で、入力音声の時間方向と同方向に、入力音声を認識させることを特徴とする請求項17から請求項20のうちのいずれか1項に記載の音声認識用プログラム。 - コンピュータに、
第1の音声認識処理で、入力音声の時間方向と逆方向に、入力音声を認識させることを特徴とする請求項17から請求項20のうちのいずれか1項に記載の音声認識用プログラム。 - コンピュータに、
第2の音声認識処理で、入力音声の時間方向と逆方向に、入力音声を認識させることを特徴とする請求項17から請求項22のうちのいずれか1項に記載の音声認識用プログラム。 - コンピュータに、
第2の音声認識処理で、入力音声の時間方向と同方向に、入力音声を認識させることを特徴とする請求項17から請求項22のうちのいずれか1項に記載の音声認識用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009547096A JP5310563B2 (ja) | 2007-12-25 | 2008-12-22 | 音声認識システム、音声認識方法、および音声認識用プログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007332028 | 2007-12-25 | ||
JP2007332028 | 2007-12-25 | ||
PCT/JP2008/073282 WO2009081895A1 (ja) | 2007-12-25 | 2008-12-22 | 音声認識システム、音声認識方法、および音声認識用プログラム |
JP2009547096A JP5310563B2 (ja) | 2007-12-25 | 2008-12-22 | 音声認識システム、音声認識方法、および音声認識用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009081895A1 JPWO2009081895A1 (ja) | 2011-05-06 |
JP5310563B2 true JP5310563B2 (ja) | 2013-10-09 |
Family
ID=40801196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009547096A Active JP5310563B2 (ja) | 2007-12-25 | 2008-12-22 | 音声認識システム、音声認識方法、および音声認識用プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8639507B2 (ja) |
JP (1) | JP5310563B2 (ja) |
WO (1) | WO2009081895A1 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
US10121493B2 (en) * | 2013-05-07 | 2018-11-06 | Veveo, Inc. | Method of and system for real time feedback in an incremental speech input interface |
US9390708B1 (en) * | 2013-05-28 | 2016-07-12 | Amazon Technologies, Inc. | Low latency and memory efficient keywork spotting |
KR102394485B1 (ko) | 2013-08-26 | 2022-05-06 | 삼성전자주식회사 | 음성 인식을 위한 전자 장치 및 방법 |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US10360904B2 (en) | 2014-05-09 | 2019-07-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
US9653093B1 (en) * | 2014-08-19 | 2017-05-16 | Amazon Technologies, Inc. | Generative modeling of speech using neural networks |
WO2016103358A1 (ja) * | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN107293298B (zh) * | 2016-04-05 | 2021-02-19 | 富泰华工业(深圳)有限公司 | 语音控制系统及方法 |
US11024302B2 (en) * | 2017-03-14 | 2021-06-01 | Texas Instruments Incorporated | Quality feedback on user-recorded keywords for automatic speech recognition systems |
CN110444195B (zh) * | 2018-01-31 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音关键词的识别方法和装置 |
JP6462936B1 (ja) * | 2018-06-18 | 2019-01-30 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
EP3598444B1 (en) * | 2018-07-16 | 2023-12-27 | Tata Consultancy Services Limited | Method and system for muting classified information from an audio |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312293A (ja) * | 2000-04-28 | 2001-11-09 | Matsushita Electric Ind Co Ltd | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 |
JP2002278584A (ja) * | 2001-03-15 | 2002-09-27 | Mitsubishi Electric Corp | 言語モデル生成装置及びこれを用いた音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003140685A (ja) * | 2001-10-30 | 2003-05-16 | Nippon Hoso Kyokai <Nhk> | 連続音声認識装置およびそのプログラム |
JP2004184716A (ja) * | 2002-12-04 | 2004-07-02 | Nissan Motor Co Ltd | 音声認識装置 |
JP2009003205A (ja) * | 2007-06-22 | 2009-01-08 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5613037A (en) * | 1993-12-21 | 1997-03-18 | Lucent Technologies Inc. | Rejection of non-digit strings for connected digit speech recognition |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
JP3039634B2 (ja) | 1997-06-16 | 2000-05-08 | 日本電気株式会社 | 音声認識装置 |
US20030023437A1 (en) * | 2001-01-27 | 2003-01-30 | Pascale Fung | System and method for context-based spontaneous speech recognition |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
-
2008
- 2008-12-22 US US12/808,393 patent/US8639507B2/en active Active
- 2008-12-22 WO PCT/JP2008/073282 patent/WO2009081895A1/ja active Application Filing
- 2008-12-22 JP JP2009547096A patent/JP5310563B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001312293A (ja) * | 2000-04-28 | 2001-11-09 | Matsushita Electric Ind Co Ltd | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 |
JP2002278584A (ja) * | 2001-03-15 | 2002-09-27 | Mitsubishi Electric Corp | 言語モデル生成装置及びこれを用いた音声認識装置、並びにこれらの方法、これらのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2003140685A (ja) * | 2001-10-30 | 2003-05-16 | Nippon Hoso Kyokai <Nhk> | 連続音声認識装置およびそのプログラム |
JP2004184716A (ja) * | 2002-12-04 | 2004-07-02 | Nissan Motor Co Ltd | 音声認識装置 |
JP2009003205A (ja) * | 2007-06-22 | 2009-01-08 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
Also Published As
Publication number | Publication date |
---|---|
US8639507B2 (en) | 2014-01-28 |
WO2009081895A1 (ja) | 2009-07-02 |
JPWO2009081895A1 (ja) | 2011-05-06 |
US20110131043A1 (en) | 2011-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
JP4481035B2 (ja) | 単語間音素情報を利用した連続音声認識方法および装置 | |
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
JP6727607B2 (ja) | 音声認識装置及びコンピュータプログラム | |
US8914286B1 (en) | Speech recognition with hierarchical networks | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
CN112435654A (zh) | 通过帧插入对语音数据进行数据增强 | |
JP2001188781A (ja) | 会話処理装置および方法、並びに記録媒体 | |
JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
JP2013125144A (ja) | 音声認識装置およびそのプログラム | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
US20070038451A1 (en) | Voice recognition for large dynamic vocabularies | |
JP2001343992A (ja) | 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2004133003A (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP2009116075A (ja) | 音声認識装置 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP4741452B2 (ja) | 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム | |
JP3440840B2 (ja) | 音声認識方法及びその装置 | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
KR101068120B1 (ko) | 다중 탐색 기반의 음성 인식 장치 및 그 방법 | |
JPWO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム | |
JP6023543B2 (ja) | 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20110706 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111024 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5310563 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |