JP2019207329A - 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 - Google Patents
電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 Download PDFInfo
- Publication number
- JP2019207329A JP2019207329A JP2018102754A JP2018102754A JP2019207329A JP 2019207329 A JP2019207329 A JP 2019207329A JP 2018102754 A JP2018102754 A JP 2018102754A JP 2018102754 A JP2018102754 A JP 2018102754A JP 2019207329 A JP2019207329 A JP 2019207329A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- phoneme
- phoneme sequence
- speech
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Description
図1に示すように、本発明の実施形態1に係る電子機器100は、入力装置1、出力装置2、データベース3、および制御装置10を備える。入力装置1は、入力された音声を音声信号に変換して制御装置10に出力する。具体的には、入力装置1は、入力されたユーザの音声を音声信号に変換して、制御装置10に出力する。入力装置1としては、一般的なマイクなどを適用することができる。
(1)電子機器100に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識ステップ。
(2)電子機器100に入力された音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識ステップ。なお、上記第2音素列は、上記第1音素列と先頭が同じで末尾が異なる音素列である。
(3)少なくとも上記第1音声認識ステップで認識する上記第1音素列、および上記第2音声認識ステップで認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップ。
A=0.3秒、B=0.7秒と設定した場合に、「あ(0.5秒)そういえば今日の天気を教えて(1.0秒以上)」という入力があったときを想定する。
A=0.3秒、B=0.7秒と設定した場合に、「ありがとう(0.5秒以上)」という入力があったときを想定する。
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図1に示すように、本発明の実施形態2に係る電子機器100は、実施形態1で説明した電子機器100と同様の構成を有する。ただし、本実施形態では、データベース3には、発話される音声として想定できる言葉があらかじめ格納されている。
A=0.3秒、B=0.7秒と設定し、「コーヒーを飲みますか?」に対しての返答を音声認識する場合に、「あ(0.5秒)はい(1.0秒以上)」という入力があったときを想定する。また、データベース3には、「はい、いいえ、お願いします、要らないです、欲しいです、やめときます、」などの語彙が格納されているものとする。
A=0.3秒、B=0.7秒と設定し、「コーヒーを飲みますか?」に対しての返答を音声認識する場合に、「お願いします(1.0秒以上)」という入力があった時を想定する。また、データベース3には「はい、いいえ、お願いします、要らないです、欲しいです、やめときます、」などの語彙が格納されているものとする。
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図1に示すように、本発明の実施形態3に係る電子機器100は、実施形態1で説明した電子機器100と同様の構成を有する。ただし、本実施形態では、データベース3には、過去に行われた対話のデータが格納されている。
A=0.3秒、B=0.7秒、C=0.5と設定し、これまでに最近の天気について話していた場合に、「あし(0.5秒)たもはれるかな?(1.0秒以上)」という入力があった時を想定する。また、データベース3には「昨日も寒かったね」「今日はいい天気だったね」「晴れていると気持ちがいいよね」などの過去の対話データが格納されているものとする。
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図5に示すように、本実施形態の電子機器200は、制御装置20の構造が図1に示す制御装置10の構造と異なる点で、上述した実施形態と異なっている。
A=0.2秒、B=0.4秒、C=0.6秒、D=0.8秒と設定し、本実施形態の判別方法では、実施形態1と同様に一文字、エラーもしくはノイズの場合は棄却する判別方法を用いる。なお、この判別方法を、実施形態2または3の判別方法に置換しても良い。
電子機器100、200における制御装置10、20の制御ブロック(特に第1音声認識部11、第2音声認識部12、認識結果判別部13、第3音声認識部14および第4音声認識部15)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
本発明の態様1に係る制御装置は、電子機器を制御する制御装置(10)であって、上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識部(11)と、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識部(12)と、少なくとも上記第1音声認識部が認識する上記第1音素列、および上記第2音声認識部が認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部(13)と、を備え、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である構成である。
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
2 出力装置
3 データベース
10,20 制御装置
11 第1音声認識部
12 第2音声認識部
13 認識結果判別部
14 第3音声認識部
15 第4音声認識部
100,200 電子機器
Claims (8)
- 電子機器を制御する制御装置であって、
上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識部と、
上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識部と、
少なくとも上記第1音声認識部が認識する上記第1音素列、および上記第2音声認識部が認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部と、を備え、
上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする制御装置。 - 上記認識結果判別部は、上記第1音素列および上記第2音素列の何れかが一文字、エラーまたはノイズである場合に、上記一文字、上記エラーまたは上記ノイズでない方の音素列を、上記最も確からしい音声認識の結果であると判別することを特徴とする請求項1に記載の制御装置。
- 上記認識結果判別部は、上記第1音素列および上記第2音素列のうち、予めデータベースに登録された登録音素列と一致する音素列を、上記最も確からしい音声認識の結果であると判別することを特徴とする請求項1に記載の制御装置。
- 上記認識結果判別部は、過去の対話に含まれる音素列を格納したデータベースを参照することにより、上記第1音素列および上記第2音素列のそれぞれの、過去の対話における当該音素列の出現する確率を算出し、上記確率が所定の閾値を超える音素列を最も確からしい音声認識の結果であると判別することを特徴とする請求項1に記載の制御装置。
- 上記制御装置は、さらに上記電子機器に入力された音声に係る第3音素列の末尾を、その第3音素列に続く無音時間が上記第1閾値および上記第2閾値より長い第3閾値を超えることにより特定し、上記第3音素列の上記末尾までの音声の音声認識を行う第3音声認識部を少なくとも備え、
上記第1音素列、上記第2音素列および上記第3音素列は先頭が同じで上記末尾が異なる音素列であり、
上記認識結果判別部は、少なくとも上記第1音声認識部が認識する上記第1音素列、上記第2音声認識部が認識する上記第2音素列、および上記第3音声認識部が認識する上記第3音素列、の中から、上記最も確からしい音声認識の結果であると想定される音素列を判別することを特徴とする請求項1に記載の制御装置。 - 少なくとも1つの制御装置を備えた電子機器であって、
上記制御装置は、
上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識処理と、
上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識処理と、
少なくとも上記第1音声認識処理で認識する上記第1音素列、および上記第2音声認識処理で認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別処理と、を行い、
上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする電子機器。 - 請求項1に記載の制御装置としてコンピュータを機能させるための制御プログラムであって、上記第1音声認識部、上記第2音声認識部および上記認識結果判別部としてコンピュータを機能させるための制御プログラム。
- 少なくとも1つの制御装置を備えた電子機器の制御方法であって、
上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識ステップと、
上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識ステップと、
少なくとも上記第1音声認識ステップで認識する上記第1音素列、および上記第2音声認識ステップで認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップと、を含み、
上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする制御方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018102754A JP7096707B2 (ja) | 2018-05-29 | 2018-05-29 | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018102754A JP7096707B2 (ja) | 2018-05-29 | 2018-05-29 | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019207329A true JP2019207329A (ja) | 2019-12-05 |
JP7096707B2 JP7096707B2 (ja) | 2022-07-06 |
Family
ID=68768566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018102754A Active JP7096707B2 (ja) | 2018-05-29 | 2018-05-29 | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7096707B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022501623A (ja) * | 2019-08-16 | 2022-01-06 | ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. | オーディオ処理方法、装置及び記憶媒体 |
JP2022528582A (ja) * | 2019-06-13 | 2022-06-14 | エーアイ スピーチ カンパニー リミテッド | ヒューマンマシン対話方法及び電子デバイス |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934484A (ja) * | 1995-07-20 | 1997-02-07 | Ricoh Co Ltd | 音声認識装置 |
JPH10254475A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JP2001242879A (ja) * | 2000-02-29 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 音声検出装置 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
WO2015098109A1 (ja) * | 2013-12-26 | 2015-07-02 | パナソニックIpマネジメント株式会社 | 音声認識処理装置、音声認識処理方法、および表示装置 |
JP2017078848A (ja) * | 2015-10-19 | 2017-04-27 | グーグル インコーポレイテッド | スピーチエンドポインティング |
-
2018
- 2018-05-29 JP JP2018102754A patent/JP7096707B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0934484A (ja) * | 1995-07-20 | 1997-02-07 | Ricoh Co Ltd | 音声認識装置 |
JPH10254475A (ja) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
JP2001242879A (ja) * | 2000-02-29 | 2001-09-07 | Matsushita Electric Ind Co Ltd | 音声検出装置 |
JP2005017932A (ja) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | 音声認識装置および音声認識用プログラム |
WO2015098109A1 (ja) * | 2013-12-26 | 2015-07-02 | パナソニックIpマネジメント株式会社 | 音声認識処理装置、音声認識処理方法、および表示装置 |
JP2017078848A (ja) * | 2015-10-19 | 2017-04-27 | グーグル インコーポレイテッド | スピーチエンドポインティング |
Non-Patent Citations (1)
Title |
---|
堀田尚希,外2名: "ユーザ発話の誤分割に起因する問題を事後的に修復する音声対話システム", 情報処理学会研究報告, vol. Vol.2013-SLP-96,No.5, JPN6021051986, May 2013 (2013-05-01), pages 1 - 8, ISSN: 0004675847 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022528582A (ja) * | 2019-06-13 | 2022-06-14 | エーアイ スピーチ カンパニー リミテッド | ヒューマンマシン対話方法及び電子デバイス |
JP7108799B2 (ja) | 2019-06-13 | 2022-07-28 | エーアイ スピーチ カンパニー リミテッド | ヒューマンマシン対話方法及び電子デバイス |
JP2022501623A (ja) * | 2019-08-16 | 2022-01-06 | ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. | オーディオ処理方法、装置及び記憶媒体 |
US11264027B2 (en) | 2019-08-16 | 2022-03-01 | Beijing Xiaomi Mobile Software Co., Ltd. | Method and apparatus for determining target audio data during application waking-up |
JP7166294B2 (ja) | 2019-08-16 | 2022-11-07 | ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッド | オーディオ処理方法、装置及び記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP7096707B2 (ja) | 2022-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10803869B2 (en) | Voice enablement and disablement of speech processing functionality | |
US20210193176A1 (en) | Context-based detection of end-point of utterance | |
US9373321B2 (en) | Generation of wake-up words | |
EP3314606B1 (en) | Language model speech endpointing | |
EP3370230B1 (en) | Voice interaction apparatus, its processing method, and program | |
US9251789B2 (en) | Speech-recognition system, storage medium, and method of speech recognition | |
JP2011033680A (ja) | 音声処理装置及び方法、並びにプログラム | |
WO2021188266A1 (en) | Device-directed utterance detection | |
CN106875936B (zh) | 语音识别方法及装置 | |
US11798559B2 (en) | Voice-controlled communication requests and responses | |
WO2010128560A1 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
CN114385800A (zh) | 语音对话方法和装置 | |
JP7096707B2 (ja) | 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 | |
CN111145748B (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
JP2018031851A (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
CN114360514A (zh) | 语音识别方法、装置、设备、介质及产品 | |
CN111640423A (zh) | 一种词边界估计方法、装置及电子设备 | |
JP2017211610A (ja) | 出力制御装置、電子機器、出力制御装置の制御方法、および出力制御装置の制御プログラム | |
US11563708B1 (en) | Message grouping | |
JP2009025579A (ja) | 音声認識装置および音声認識方法 | |
JP2011118290A (ja) | 音声認識装置 | |
Tsai et al. | Customized wake-up word with key word spotting using convolutional neural network | |
TW202129628A (zh) | 細粒度解碼之語音辨識系統 | |
JP2006010739A (ja) | 音声認識装置 | |
JP6287754B2 (ja) | 応答生成装置、応答生成方法及び応答生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210324 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220303 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220614 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7096707 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |