JP2011232619A - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP2011232619A JP2011232619A JP2010103726A JP2010103726A JP2011232619A JP 2011232619 A JP2011232619 A JP 2011232619A JP 2010103726 A JP2010103726 A JP 2010103726A JP 2010103726 A JP2010103726 A JP 2010103726A JP 2011232619 A JP2011232619 A JP 2011232619A
- Authority
- JP
- Japan
- Prior art keywords
- data
- speech recognition
- recognition
- voice
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【解決手段】音声認識装置10は、予め定めた1以上の特定語を記憶する特定語記憶部11と、入力された音声データを認識することで第1言語データを生成する第1音声認識部12と、第1言語データに特定語が少なくとも一つ存在するか否かを判定する判定部13と、第1言語データに少なくとも一つの特定語が含まれていると判定された場合に、音声データを認識することで第2言語データを生成する第2音声認識部15と、判定部13による判定結果と第1言語データおよび/または第2言語データとに基づく認識結果データを出力する認識結果出力部16と、を備える。
【選択図】図1
Description
まず、図1,2を用いて、第1実施形態に係る音声認識装置10の機能及び構成を説明する。音声認識装置10は、マイクなどを介して入力された音声をテキストデータやコマンド信号などに変換する装置である。具体的には、音声認識装置10はまず限られた個数の語彙を有する小規模辞書を用いて音声認識処理(第1の音声認識)を行い、その後必要に応じて、より多くの語彙を有する大規模辞書を用いて音声認識処理(第2の音声認識)を行う。すなわち、音声認識装置10は一段階または二段階の音声認識処理を実行する。音声認識装置10は、パーソナルコンピュータや携帯端末、音響機器などの他の機器に組み込まれた形で実現されてもよいし、他とは独立した専用機器として実現されてもよい。
次に、図4を用いて、第2実施形態に係る音声認識装置20について説明する。音声認識装置20は、第1実施形態における第1音声認識部12、出力決定部14、及び第2音声認識部15に代えて第1音声認識部12A、出力決定部14A、及び第2音声認識部15Aを備える点で、第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
次に、図5を用いて、第3実施形態に係る音声認識装置30について説明する。音声認識装置30は、第1実施形態における出力決定部14に代えて出力決定部14Bを備える点で第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
次に、図6を用いて、第4実施形態に係る音声認識装置40について説明する。音声認識装置40は、第1実施形態における第1音声認識部12、出力決定部14、及び第2音声認識部15に代えて第1音声認識部12C、出力決定部14C、及び第2音声認識部15Cを備える点で、第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
次に、図7を用いて、第5実施形態に係る音声認識装置50について説明する。音声認識装置50は、第1実施形態における出力決定部14及び第2音声認識部15に代えて出力決定部14D及び第2音声認識部15Dを備える点で、第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
次に、図8を用いて、第6実施形態に係る音声認識装置60について説明する。音声認識装置60は、第1実施形態における判定部13に代えて判定部13Eを備える点で第1実施形態における音声認識装置10と異なる。以下では、これらの相違点についてのみ説明し、第1実施形態と同様の部分については説明を省略する。
Claims (13)
- 予め定めた1以上の特定語を記憶する記憶手段と、
入力された音声データを認識することで第1言語データを生成する第1音声認識手段と、
前記音声データ及び前記第1言語データのいずれか一方である判定対象データに、前記記憶手段に記憶されている特定語が少なくとも一つ存在するか否かを判定する判定手段と、
前記判定対象データに少なくとも一つの前記特定語が含まれていると判定された場合に、前記音声データを認識することで第2言語データを生成する第2音声認識手段と、
前記判定手段による判定結果と前記第1言語データおよび/または前記第2言語データとに基づく認識結果データを出力する出力手段と、
を備える音声認識装置。 - 前記判定対象データが前記音声データであり、
前記判定手段が、前記記憶手段に記憶されている特定語を前記判定対象データの順方向または逆方向から探索することにより、該判定対象データに該特定語が少なくとも一つ存在するか否かを判定する、
請求項1に記載の音声認識装置。 - 前記特定語が、1以上の語句で共通の属性を示す語句である、
請求項1又は2に記載の音声認識装置。 - 前記判定手段が、更に前記判定対象データにおける前記特定語の出現位置に基づいて前記第2言語データの生成が必要か否かを判定し、
前記第2音声認識手段が、前記第2言語データの生成が必要であると判定された場合に前記音声データを認識する、
請求項1〜3のいずれか一項に記載の音声認識装置。 - 前記第1音声認識手段が、前記音声データから前記第1言語データを生成する過程で生成される中間データを取得し、
前記第2音声認識手段が、前記音声データに代えて、前記第1音声認識手段により取得された中間データを認識することで前記第2言語データを生成する、
請求項1〜4のいずれか一項に記載の音声認識装置。 - 前記音声データが、前記第1音声認識手段において認識される際には第1の符号化処理により符号化されており、前記第2音声認識手段において認識される際には第2の符号化処理により符号化されている、
請求項1〜4のいずれか一項に記載の音声認識装置。 - 前記出力手段が、前記第2言語データを待つことなく前記第1言語データを第1の認識結果データとして出力し、前記第2言語データが生成された場合には少なくとも該第2言語データに基づく第2の認識結果データを出力する、
請求項1〜6のいずれか一項に記載の音声認識装置。 - 前記判定手段による判定結果に関する情報をユーザに対して出力すると共に、前記第2言語データの生成に関するユーザ入力を受け付ける指示受付手段を更に備え、
前記第2音声認識手段が、前記第2言語データの生成を指示する旨のユーザ入力が前記指示受付手段により受け付けられた場合に前記音声データを認識する、
請求項1〜7のいずれか一項に記載の音声認識装置。 - 前記第2音声認識手段が更に前記第1言語データおよび/または前記判定結果を用いて前記音声データを認識する、
請求項1〜8のいずれか一項に記載の音声認識装置。 - 前記第2音声認識手段が複数の認識手段を備えており、
前記判定手段による判定結果に応じて、前記複数の認識手段のうちの少なくとも一つが前記音声データを認識することで前記第2言語データを生成する、
請求項1〜9のいずれか一項に記載の音声認識装置。 - 前記第2音声認識手段が、前記判定手段による判定結果を待つことなく前記音声データの認識を開始する、
請求項1〜10のいずれか一項に記載の音声認識装置。 - 前記音声認識装置が、互いに独立した第1の装置及び第2の装置を備え、
前記第1の装置が少なくとも前記第1音声認識手段及び前記判定手段を備え、
前記第2の装置が少なくとも前記第2音声認識手段を備え、
前記判定対象データに少なくとも一つの前記特定語が存在すると判定された場合に、前記第1の装置から前記第2の装置に前記音声データが送信される、
請求項1〜11のいずれか一項に記載の音声認識装置。 - 音声認識装置により実行される音声認識方法であって、
入力された音声データを認識することで第1言語データを生成する第1音声認識ステップと、
予め定めた1以上の特定語を記憶する記憶手段を参照して、前記音声データ及び前記第1言語データのいずれか一方である判定対象データに前記特定語が少なくとも一つ存在するか否かを判定する判定ステップと、
前記判定対象データに少なくとも一つの前記特定語が含まれていると判定された場合に、前記音声データを認識することで第2言語データを生成する第2音声認識ステップと、
前記判定ステップにおける判定結果と前記第1言語データおよび/または前記第2言語データとに基づく認識結果データを出力する出力ステップと、
を含むことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010103726A JP2011232619A (ja) | 2010-04-28 | 2010-04-28 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010103726A JP2011232619A (ja) | 2010-04-28 | 2010-04-28 | 音声認識装置および音声認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011232619A true JP2011232619A (ja) | 2011-11-17 |
Family
ID=45321966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010103726A Pending JP2011232619A (ja) | 2010-04-28 | 2010-04-28 | 音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011232619A (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014063088A (ja) * | 2012-09-24 | 2014-04-10 | Toshiba Corp | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
JP2015143866A (ja) * | 2015-02-25 | 2015-08-06 | 株式会社東芝 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
JP2016024379A (ja) * | 2014-07-22 | 2016-02-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、その制御方法及びプログラム |
JP2016024378A (ja) * | 2014-07-22 | 2016-02-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、その制御方法及びプログラム |
JP2016080750A (ja) * | 2014-10-10 | 2016-05-16 | 株式会社Nttドコモ | 音声認識装置、音声認識方法、及び音声認識プログラム |
JPWO2014203495A1 (ja) * | 2013-06-19 | 2017-02-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び機器 |
JP2017151210A (ja) * | 2016-02-23 | 2017-08-31 | Nttテクノクロス株式会社 | 情報処理装置、音声認識方法及びプログラム |
JP2020046564A (ja) * | 2018-09-20 | 2020-03-26 | 東芝映像ソリューション株式会社 | 情報処理装置、情報処理システム、および映像装置 |
JP2020160281A (ja) * | 2019-03-27 | 2020-10-01 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
CN114596855A (zh) * | 2022-03-07 | 2022-06-07 | 云知声智能科技股份有限公司 | 一种语音唤醒方法、装置、电子设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063288A (ja) * | 1996-08-23 | 1998-03-06 | Aqueous Res:Kk | 音声認識装置 |
JPH1097281A (ja) * | 1996-09-19 | 1998-04-14 | Sony Corp | 音声認識装置及びナビゲーション装置 |
JP2002116797A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
JP2002182896A (ja) * | 2000-12-12 | 2002-06-28 | Canon Inc | 音声認識システム及び音声認識装置ならびにそれらの方法 |
JP2003241796A (ja) * | 2002-02-22 | 2003-08-29 | Canon Inc | 音声認識システムおよびその制御方法 |
JP2005249829A (ja) * | 2004-03-01 | 2005-09-15 | Advanced Media Inc | 音声認識を行うコンピュータネットワークシステム |
JP2005266192A (ja) * | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
WO2008072413A1 (ja) * | 2006-12-15 | 2008-06-19 | Mitsubishi Electric Corporation | 音声認識装置 |
WO2010025440A2 (en) * | 2008-08-29 | 2010-03-04 | Multimodal Technologies, Inc. | Hybrid speech recognition |
-
2010
- 2010-04-28 JP JP2010103726A patent/JP2011232619A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1063288A (ja) * | 1996-08-23 | 1998-03-06 | Aqueous Res:Kk | 音声認識装置 |
JPH1097281A (ja) * | 1996-09-19 | 1998-04-14 | Sony Corp | 音声認識装置及びナビゲーション装置 |
JP2002116797A (ja) * | 2000-10-11 | 2002-04-19 | Canon Inc | 音声処理装置、音声処理方法及び記憶媒体 |
JP2002182896A (ja) * | 2000-12-12 | 2002-06-28 | Canon Inc | 音声認識システム及び音声認識装置ならびにそれらの方法 |
JP2003241796A (ja) * | 2002-02-22 | 2003-08-29 | Canon Inc | 音声認識システムおよびその制御方法 |
JP2005249829A (ja) * | 2004-03-01 | 2005-09-15 | Advanced Media Inc | 音声認識を行うコンピュータネットワークシステム |
JP2005266192A (ja) * | 2004-03-18 | 2005-09-29 | Matsushita Electric Ind Co Ltd | 音声認識装置および音声認識方法 |
WO2008072413A1 (ja) * | 2006-12-15 | 2008-06-19 | Mitsubishi Electric Corporation | 音声認識装置 |
WO2010025440A2 (en) * | 2008-08-29 | 2010-03-04 | Multimodal Technologies, Inc. | Hybrid speech recognition |
JP2012501480A (ja) * | 2008-08-29 | 2012-01-19 | マルチモーダル・テクノロジーズ・インク | ハイブリッド型音声認識 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014063088A (ja) * | 2012-09-24 | 2014-04-10 | Toshiba Corp | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
JPWO2014203495A1 (ja) * | 2013-06-19 | 2017-02-23 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声対話方法、及び機器 |
USRE49014E1 (en) | 2013-06-19 | 2022-04-05 | Panasonic Intellectual Property Corporation Of America | Voice interaction method, and device |
JP2015011170A (ja) * | 2013-06-28 | 2015-01-19 | 株式会社ATR−Trek | ローカルな音声認識を行なう音声認識クライアント装置 |
CN105408953A (zh) * | 2013-06-28 | 2016-03-16 | 株式会社ATR-Trek | 进行本地语音识别的语音识别客户端设备 |
JP2016024379A (ja) * | 2014-07-22 | 2016-02-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、その制御方法及びプログラム |
JP2016024378A (ja) * | 2014-07-22 | 2016-02-08 | Necパーソナルコンピュータ株式会社 | 情報処理装置、その制御方法及びプログラム |
JP2016080750A (ja) * | 2014-10-10 | 2016-05-16 | 株式会社Nttドコモ | 音声認識装置、音声認識方法、及び音声認識プログラム |
JP2015143866A (ja) * | 2015-02-25 | 2015-08-06 | 株式会社東芝 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
JP2017151210A (ja) * | 2016-02-23 | 2017-08-31 | Nttテクノクロス株式会社 | 情報処理装置、音声認識方法及びプログラム |
JP2020046564A (ja) * | 2018-09-20 | 2020-03-26 | 東芝映像ソリューション株式会社 | 情報処理装置、情報処理システム、および映像装置 |
JP7009338B2 (ja) | 2018-09-20 | 2022-01-25 | Tvs Regza株式会社 | 情報処理装置、情報処理システム、および映像装置 |
JP2020160281A (ja) * | 2019-03-27 | 2020-10-01 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
JP7278830B2 (ja) | 2019-03-27 | 2023-05-22 | 本田技研工業株式会社 | 端末装置、端末装置の制御方法、およびプログラム |
CN114596855A (zh) * | 2022-03-07 | 2022-06-07 | 云知声智能科技股份有限公司 | 一种语音唤醒方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011232619A (ja) | 音声認識装置および音声認識方法 | |
US10453454B2 (en) | Dialog system with self-learning natural language understanding | |
US9905228B2 (en) | System and method of performing automatic speech recognition using local private data | |
JP3967952B2 (ja) | 文法更新システム及び方法 | |
US20190027147A1 (en) | Automatic integration of image capture and recognition in a voice-based query to understand intent | |
KR101418163B1 (ko) | 컨텍스트 정보를 이용한 음성 인식 복구 | |
WO2015096564A1 (zh) | 一种在线语音翻译方法和装置 | |
KR20200108775A (ko) | 트레이닝 말뭉치를 생성하는 방법, 장치, 기기 및 저장 매체 | |
US11164584B2 (en) | System and method for uninterrupted application awakening and speech recognition | |
CN111159364B (zh) | 对话系统、对话装置、对话方法以及存储介质 | |
WO2015141700A1 (en) | Dialogue system construction support apparatus and method | |
CN105340004A (zh) | 用于发音学习的计算机实现的方法、计算机可读介质和系统 | |
JP6275354B1 (ja) | 意図推定装置及び意図推定方法 | |
KR102021556B1 (ko) | 음성 쿼리들의 검색 결과 프리페치 | |
CN110998719A (zh) | 信息处理设备和信息处理方法 | |
WO2016136207A1 (ja) | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム | |
JP5558284B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
WO2012004955A1 (ja) | テキスト補正方法及び認識方法 | |
US10789946B2 (en) | System and method for speech recognition with decoupling awakening phrase | |
JP5396530B2 (ja) | 音声認識装置および音声認識方法 | |
US11715469B2 (en) | Methods and apparatus for improving search retrieval using inter-utterance context | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP5300576B2 (ja) | 検索装置、検索方法、および検索プログラム | |
JP2019095606A (ja) | 学習データ生成方法、学習データ生成プログラム、サーバ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130924 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131008 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131209 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140520 |