JP4867622B2 - 音声認識装置、および音声認識方法 - Google Patents
音声認識装置、および音声認識方法 Download PDFInfo
- Publication number
- JP4867622B2 JP4867622B2 JP2006321295A JP2006321295A JP4867622B2 JP 4867622 B2 JP4867622 B2 JP 4867622B2 JP 2006321295 A JP2006321295 A JP 2006321295A JP 2006321295 A JP2006321295 A JP 2006321295A JP 4867622 B2 JP4867622 B2 JP 4867622B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- word
- keyword
- speech
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 88
- 230000004044 response Effects 0.000 description 22
- 230000014509 gene expression Effects 0.000 description 12
- 235000002597 Solanum melongena Nutrition 0.000 description 6
- 244000061458 Solanum melongena Species 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001591005 Siga Species 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
システム文法とは、ナビゲーション装置を操作するための操作コマンド(システムコマンド)、例えば「はい」、「いいえ」、「自宅に帰る」、および「キャンセル」などを音声認識するために用いる待ち受け単語である。
認識対象語句とは、音声認識の対象となる地名、施設名、道路名などの固有名詞を待ち受けるための待ち受け単語である。
キーワード文法とは、複数の認識対象語句に共通して含まれる音節であるキーワード、すなわち複数の認識対象単語に共通して含まれる音響的に共通する部分であるキーワードと、それ以外の部分を吸収するGarbageとからなるワードスポット文法である。
再認識用文法とは、キーワード文法を含む認識対象語句を再認識するために用いる待ち受け単語である。すなわち、上述したキーワード文法を用いてキーワードを音声認識した後、さらにそのキーワードを含む認識対象語句を音声認識するために用いられる。
「那須国際カントリークラブ」の重み値=(「ナス」の重み値+「コクサイ」の重み値+「クラブ」の重み値)×1/3=(1+1+1)×1/3=1 ・・・(1)
「滋賀国際ゴルフ」の重み値=(「シガ」の重み値+「コクサイ」の重み値+「ゴルフ」の重み値)×1/3=(1/2+1+1)×1/3=5/6≒0.83 ・・・(2)
「那須国際カントリークラブ」の判定用重み値=1×0.6=0.6・・・(3)
「滋賀国際ゴルフ」の判定用重み値=0.83×0.6≒0.5 ・・・(4)
(1)キーワード認識処理による認識結果と再認識処理による認識結果とに基づいて、使用者によって認識対象語句の言い換え語が発話されたか否かを判断し、言い換え語が発話されたと判断した場合には、キーワード認識処理で認識したキーワードに基づいて、言い換え語に対応する認識対象語句を発話音声の音声認識結果として決定するようにした。これによって、使用者が言い換え語を発話した場合でも正しく音声認識をすることができる。
なお、上述した実施の形態の音声認識装置は、以下のように変形することもできる。
(1)上述した実施の形態では、音声認識装置100をナビゲーション装置に搭載する例について説明した。しかしながら、使用者による発話を受け付けて音声認識を行う他の装置に搭載することも可能である。例えば音声によって操作可能なオーディオ装置などに搭載してもよい。
110 制御装置
111 入力制御部
112 音声バッファ
113 音声認識処理部
114 音声認識用辞書・文法
115 理解結果生成部
116 応答生成部
117 GUI表示制御部
118 音声合成部
120 発話開始スイッチ
130 マイク
140 ディスク読取装置
141 ディスク
150 モニタ
160 スピーカ
Claims (14)
- 使用者の発話音声を入力する音声入力手段と、
認識対象語句に含まれるキーワードを待ち受け単語として、入力された前記発話音声に含まれるキーワードを認識する第1の認識手段と、
前記認識対象語句を待ち受け単語として、前記発話音声を認識する第2の認識手段と、
前記第2の認識手段による認識結果として得られる認識スコアが、前記第1の認識手段による認識結果として得られる認識スコアよりも所定以上低い場合に、使用者によって前記認識対象語句の言い換え語が発話された可能性があると判断する言い換え語判断手段と、
前記言い換え語判断手段で前記言い換え語が発話された可能性があると判断した場合には、前記第1の認識手段で認識したキーワードに基づいて、前記言い換え語に対応する前記認識対象語句を特定し、特定した前記認識対象語句を前記発話音声の音声認識結果として決定する認識結果決定手段とを備えることを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記第1の認識手段による認識結果に基づいて、前記発話音声の再認識が必要であるか否かを判断する再認識判断手段をさらに備え、
前記第2の認識手段は、前記再認識判断手段で再認識が必要であると判断した場合に、前記第1の認識手段で認識したキーワードを含む認識対象語句を待ち受け単語として、前記発話音声を認識することを特徴とする音声認識装置。 - 請求項1に記載の音声認識装置において、
前記第1の認識手段による認識処理、および前記第2の認識手段による認識処理を並行して行なうことを特徴とする音声認識装置。 - 請求項1〜3のいずれか一項に記載の音声認識装置において、
複数の前記認識対象語句に共通して含まれる音節を前記キーワードとすることを特徴とする音声認識装置。 - 請求項1〜3のいずれか一項に記載の音声認識装置において、
前記認識対象語句を表す特徴的な語を前記キーワードとすることを特徴とする音声認識装置。 - 使用者の発話音声を入力する音声入力手段と、
認識対象語句に含まれるキーワードを待ち受け単語として、入力された前記発話音声に含まれるキーワードを認識する第1の認識手段と、
前記認識対象語句を待ち受け単語として、前記発話音声を認識する第2の認識手段と、
前記第2の認識手段による認識結果として得られる認識スコアが、所定の閾値を超えない場合に、使用者によって前記認識対象語句の言い換え語が発話された可能性があると判断する言い換え語判断手段と、
前記言い換え語判断手段で前記言い換え語が発話された可能性があると判断した場合には、前記第1の認識手段で認識したキーワードに基づいて、前記言い換え語に対応する前記認識対象語句を特定し、特定した前記認識対象語句を前記発話音声の音声認識結果として決定する認識結果決定手段とを備えることを特徴とする音声認識装置。 - 請求項1〜6のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記第1の認識手段によって前記発話音声から複数のキーワードがキーワード群として認識された場合には、前記キーワード群に関連する前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。 - 請求項1〜6のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記第1の認識手段によって前記発話音声から複数のキーワードが認識されたとき、前記複数のキーワードの中に意味的な矛盾を生じさせるキーワードの組が含まれている場合には、前記キーワードの組の中からいずれか1つのキーワード以外を除外したキーワード群に関連する前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。 - 請求項7または8に記載の音声認識装置において、
前記認識結果決定手段は、前記言い換え語に対応する前記認識対象語句が複数特定された場合には、前記発話音声に含まれるキーワードの出現順序に近い順序で各キーワードを含む1つの前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。 - 請求項7〜9のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記言い換え語に対応する前記認識対象語句が複数特定された場合には、前記キーワード群に含まれるキーワードの数に対する前記言い換え語に対応する前記認識対象語句の中に含まれるキーワードの数の割合が高い1つの前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。 - 請求項7〜10のいずれか一項に記載の音声認識装置において、
前記認識結果決定手段は、前記キーワード群に関連する前記認識対象語句を抽出できない場合には、前記キーワード群から1つ以上のキーワードを除外して、除外後のキーワード群に関連する前記認識対象語句を前記言い換え語に対応する前記認識対象語句として特定することを特徴とする音声認識装置。 - 請求項11に記載の音声認識装置において、
前記認識結果決定手段は、前記キーワード群に関連する前記認識対象語句が抽出できない場合には、前記キーワード群に含まれる各キーワードの認識信頼度を算出し、算出した認識信頼度が低い1つ以上のキーワードを前記キーワード群から除外することを特徴とする音声認識装置。 - 認識対象語句に含まれるキーワードを待ち受け単語として、入力された発話音声に含まれるキーワードを認識し、
前記認識対象語句を待ち受け単語として、前記発話音声を認識し、
前記発話音声の認識結果として得られる認識スコアが、前記キーワードの認識結果として得られる認識スコアよりも所定以上低い場合に、使用者によって前記認識対象語句の言い換え語が発話された可能性があると判断し、
前記言い換え語が発話されたと判断した場合には、認識した前記キーワードに基づいて、前記言い換え語に対応する前記認識対象語句を特定し、特定した前記認識対象語句を前記発話音声の音声認識結果として決定することを特徴とする音声認識方法。 - 認識対象語句に含まれるキーワードを待ち受け単語として、入力された前記発話音声に含まれるキーワードを認識し、
前記認識対象語句を待ち受け単語として、前記発話音声を認識し、
前記発話音声の認識結果として得られる認識スコアが、所定の閾値を超えない場合に、使用者によって前記認識対象語句の言い換え語が発話された可能性があると判断し、
前記言い換え語が発話された可能性があると判断した場合には、認識した前記キーワードに基づいて、前記言い換え語に対応する前記認識対象語句を特定し、特定した前記認識対象語句を前記発話音声の音声認識結果として決定する認識結果決定手段とを備えることを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006321295A JP4867622B2 (ja) | 2006-11-29 | 2006-11-29 | 音声認識装置、および音声認識方法 |
US11/876,348 US8108215B2 (en) | 2006-11-29 | 2007-10-22 | Speech recognition apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006321295A JP4867622B2 (ja) | 2006-11-29 | 2006-11-29 | 音声認識装置、および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008134502A JP2008134502A (ja) | 2008-06-12 |
JP4867622B2 true JP4867622B2 (ja) | 2012-02-01 |
Family
ID=39559378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006321295A Expired - Fee Related JP4867622B2 (ja) | 2006-11-29 | 2006-11-29 | 音声認識装置、および音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8108215B2 (ja) |
JP (1) | JP4867622B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111885A (zh) * | 2005-02-04 | 2008-01-23 | 株式会社查纳位资讯情报 | 使用抽出的声音数据生成应答声音的声音识别系统 |
JP5526396B2 (ja) | 2008-03-11 | 2014-06-18 | クラリオン株式会社 | 情報検索装置、情報検索システム及び情報検索方法 |
JP4845955B2 (ja) * | 2008-12-11 | 2011-12-28 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法 |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
JP5693834B2 (ja) * | 2009-09-17 | 2015-04-01 | アルパイン株式会社 | 音声認識装置及び音声認識方法 |
JP5146429B2 (ja) * | 2009-09-18 | 2013-02-20 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム |
JP5942559B2 (ja) * | 2012-04-16 | 2016-06-29 | 株式会社デンソー | 音声認識装置 |
JP2014006306A (ja) * | 2012-06-21 | 2014-01-16 | Sharp Corp | 表示装置、テレビジョン受像機、表示装置の制御方法、プログラムおよび記録媒体 |
US9953640B2 (en) * | 2014-06-05 | 2018-04-24 | Interdev Technologies Inc. | Systems and methods of interpreting speech data |
KR101863097B1 (ko) * | 2016-11-18 | 2018-05-31 | 주식회사 인텔로이드 | 키워드 인식 장치 및 방법 |
WO2018100705A1 (ja) * | 2016-12-01 | 2018-06-07 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63163496A (ja) * | 1986-12-26 | 1988-07-06 | 日本電信電話株式会社 | 並列検索照合型認識システム |
JPH03200298A (ja) * | 1989-12-28 | 1991-09-02 | Clarion Co Ltd | 音声制御装置 |
JPH06118990A (ja) * | 1992-10-02 | 1994-04-28 | Nippon Telegr & Teleph Corp <Ntt> | ワードスポッティング音声認識装置 |
JP3352144B2 (ja) * | 1993-04-16 | 2002-12-03 | クラリオン株式会社 | 音声認識装置 |
JPH11149294A (ja) * | 1997-11-17 | 1999-06-02 | Toyota Motor Corp | 音声認識装置および音声認識方法 |
JP2000148181A (ja) * | 1998-11-06 | 2000-05-26 | Sony Corp | 音声認識装置 |
JP2000187497A (ja) * | 1998-12-22 | 2000-07-04 | Hitachi Ltd | 音声による言語入力装置 |
JP2001034292A (ja) | 1999-07-26 | 2001-02-09 | Denso Corp | 単語列認識装置 |
US6556970B1 (en) * | 1999-01-28 | 2003-04-29 | Denso Corporation | Apparatus for determining appropriate series of words carrying information to be recognized |
JP3700533B2 (ja) | 2000-04-19 | 2005-09-28 | 株式会社デンソー | 音声認識装置及び処理システム |
JP2002023783A (ja) * | 2000-07-13 | 2002-01-25 | Fujitsu Ltd | 対話処理システム |
US20030204399A1 (en) * | 2002-04-25 | 2003-10-30 | Wolf Peter P. | Key word and key phrase based speech recognizer for information retrieval systems |
AU2003277587A1 (en) * | 2002-11-11 | 2004-06-03 | Matsushita Electric Industrial Co., Ltd. | Speech recognition dictionary creation device and speech recognition device |
JP2005043461A (ja) * | 2003-07-23 | 2005-02-17 | Canon Inc | 音声認識方法及び音声認識装置 |
JP4554272B2 (ja) * | 2004-05-25 | 2010-09-29 | 三菱電機株式会社 | 音声対話装置 |
JP4661216B2 (ja) * | 2004-12-28 | 2011-03-30 | 日産自動車株式会社 | 音声認識装置、方法、およびシステム |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
-
2006
- 2006-11-29 JP JP2006321295A patent/JP4867622B2/ja not_active Expired - Fee Related
-
2007
- 2007-10-22 US US11/876,348 patent/US8108215B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8108215B2 (en) | 2012-01-31 |
US20080262843A1 (en) | 2008-10-23 |
JP2008134502A (ja) | 2008-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4867622B2 (ja) | 音声認識装置、および音声認識方法 | |
US6185530B1 (en) | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system | |
JP4260788B2 (ja) | 音声認識機器制御装置 | |
EP1936606B1 (en) | Multi-stage speech recognition | |
US7672846B2 (en) | Speech recognition system finding self-repair utterance in misrecognized speech without using recognized words | |
WO2015151157A1 (ja) | 意図理解装置および方法 | |
JP5089955B2 (ja) | 音声対話装置 | |
US20050182628A1 (en) | Domain-based dialog speech recognition method and apparatus | |
US20060206331A1 (en) | Multilingual speech recognition | |
US11295741B2 (en) | Dynamic wakewords for speech-enabled devices | |
US8566091B2 (en) | Speech recognition system | |
JP2006189730A (ja) | 音声対話方法および音声対話装置 | |
US20200193985A1 (en) | Domain management method of speech recognition system | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
JP2008076811A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP4639990B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
KR101945190B1 (ko) | 음성인식 작동 시스템 및 방법 | |
JP4951422B2 (ja) | 音声認識装置、および音声認識方法 | |
JP2000056795A (ja) | 音声認識装置 | |
JP4930014B2 (ja) | 音声認識装置、および音声認識方法 | |
JP2004046106A (ja) | 音声認識装置及び音声認識プログラム | |
JP2003216179A (ja) | 音声認識システム | |
JP4736962B2 (ja) | キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置 | |
JP4635743B2 (ja) | 音声対話装置及び音声理解結果生成方法 | |
JP6351440B2 (ja) | 音声認識装置及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110601 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110614 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111018 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111031 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141125 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |