JP6436400B2 - 音声コマンド入力装置および音声コマンド入力方法 - Google Patents
音声コマンド入力装置および音声コマンド入力方法 Download PDFInfo
- Publication number
- JP6436400B2 JP6436400B2 JP2016510046A JP2016510046A JP6436400B2 JP 6436400 B2 JP6436400 B2 JP 6436400B2 JP 2016510046 A JP2016510046 A JP 2016510046A JP 2016510046 A JP2016510046 A JP 2016510046A JP 6436400 B2 JP6436400 B2 JP 6436400B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- voice command
- unit
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Description
以下、図1および図2を用いて、実施の形態1を説明する。
図1は、実施の形態1における音声コマンド入力装置100の一構成例を示すブロック図である。
図2は、実施の形態1における音声コマンド入力装置100の一動作例を示すフローチャートである。
以上のように、本実施の形態において、音声コマンド入力装置は、第1の音声入力部と、第2の音声入力部と、音声コマンド識別部と、を備える。第1の音声入力部は、第1の識別情報を出力する第1の識別情報発生部と、音声を第1の音声コマンド情報に変換する第1の音声認識部と、を備え、第1の識別情報と第1の音声コマンド情報とを含む第1の音声情報を出力する、ように構成されている。第2の音声入力部は、第2の識別情報を出力する第2の識別情報発生部と、音声を第2の音声コマンド情報に変換する第2の音声認識部と、を備え、第2の識別情報と第2の音声コマンド情報とを含む第2の音声情報を出力する、ように構成されている。音声コマンド識別部は、第1の音声情報と第2の音声情報とにもとづき操作対象機器を制御するコントロール信号を生成して出力するように構成されている。そして、音声コマンド識別部は、第1の識別情報と第2の識別情報とを参照してコントロール信号を生成する。
実施の形態1では、第1の識別情報発生部として第1のタイムスタンプ付加部103を設け、第1の識別情報として第1のタイムスタンプ情報を用い、第2の識別情報発生部として第2のタイムスタンプ付加部106を設け、第2の識別情報として第2のタイムスタンプ情報を用いる例を説明した。
図3は、実施の形態2における音声コマンド入力装置300の一構成例を示すブロック図である。
なお、本実施の形態では、音声コマンド識別部310に、3つの音声情報(ここでは、第1の音声情報312、第2の音声情報313および第3の音声情報314)が、ほぼ同時に入力されたとき、もしくは、所定の時間(互いに重複する入力期間が生じる程度の時間。例えば、5秒)以内に入力されたとき、の動作例を説明する。音声コマンド識別部310は、1つの音声情報だけが入力されたときは、その音声情報に含まれる音声コマンド情報に応じたコントロール信号を生成して出力するものとし、その動作の説明は省略する。また、音声コマンド入力装置300を2つの音声入力部または4つ以上の音声入力部を備えた構成としてもよく、音声コマンド識別部310に2つの音声情報または4つ以上の音声情報が入力されてもよい。
以上のように、本実施の形態において、音声コマンド入力装置は、第1の音声入力部と、第2の音声入力部と、音声コマンド識別部と、を備える。第1の音声入力部は、第1の識別情報を出力する第1の識別情報発生部と、音声を第1の音声コマンド情報に変換する第1の音声認識部と、を備え、第1の識別情報と第1の音声コマンド情報とを含む第1の音声情報を出力する、ように構成されている。第2の音声入力部は、第2の識別情報を出力する第2の識別情報発生部と、音声を第2の音声コマンド情報に変換する第2の音声認識部と、を備え、第2の識別情報と第2の音声コマンド情報とを含む第2の音声情報を出力する、ように構成されている。音声コマンド識別部は、第1の音声情報と第2の音声情報とにもとづき操作対象機器を制御するコントロール信号を生成して出力するように構成されている。そして、音声コマンド識別部は、第1の識別情報と第2の識別情報とを参照してコントロール信号を生成する。
本実施の形態では、識別情報発生部としての個人識別部を設け、識別情報として話者情報を用いる例を説明する。
図4は、実施の形態3における音声コマンド入力装置400の一構成例を示すブロック図である。
図5は、実施の形態3における音声コマンド入力装置400の一動作例を示すフローチャートである。
以上のように、本実施の形態において、音声コマンド入力装置は、第1の音声入力部と、第2の音声入力部と、音声コマンド識別部と、を備える。第1の音声入力部は、第1の識別情報を出力する第1の識別情報発生部と、音声を第1の音声コマンド情報に変換する第1の音声認識部と、を備え、第1の識別情報と第1の音声コマンド情報とを含む第1の音声情報を出力する、ように構成されている。第2の音声入力部は、第2の識別情報を出力する第2の識別情報発生部と、音声を第2の音声コマンド情報に変換する第2の音声認識部と、を備え、第2の識別情報と第2の音声コマンド情報とを含む第2の音声情報を出力する、ように構成されている。音声コマンド識別部は、第1の音声情報と第2の音声情報とにもとづき操作対象機器を制御するコントロール信号を生成して出力するように構成されている。そして、音声コマンド識別部は、第1の識別情報と第2の識別情報とを参照してコントロール信号を生成する。
以上のように、本出願において開示する技術の例示として、実施の形態1〜3を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態1〜3で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
101,301,401 第1のマイクロホン
102,302,403 第1の音声認識部
103 第1のタイムスタンプ付加部
104,304,404 第2のマイクロホン
105,305,406 第2の音声認識部
106 第2のタイムスタンプ付加部
107,310,407 音声コマンド識別部
108,311,408 コマンド発行部
109,312,411 第1の音声情報
110,313,412 第2の音声情報
111,112,315,316,317,409,410 音声コマンド
113,330,413 機器制御信号
114,318,418 第1の音声入力部
115,319,419 第2の音声入力部
303 第1の位置情報付加部
306 第2の位置情報付加部
307 第3のマイクロホン
308 第3の音声認識部
309 第3の位置情報付加部
314 第3の音声情報
320 第3の音声入力部
402 第1の個人識別部
405 第2の個人識別部
414 第1の話者情報
415 第2の話者情報
Claims (2)
- 第1の識別情報を出力する第1の識別情報発生部と、音声を第1の音声コマンド情報に変換する第1の音声認識部と、を備え、前記第1の識別情報と前記第1の音声コマンド情報とを含む第1の音声情報を出力する、ように構成された第1の音声入力部と、
第2の識別情報を出力する第2の識別情報発生部と、音声を第2の音声コマンド情報に変換する第2の音声認識部と、を備え、前記第2の識別情報と前記第2の音声コマンド情報とを含む第2の音声情報を出力する、ように構成された第2の音声入力部と、
前記第1の音声情報と前記第2の音声情報とにもとづき、操作対象機器を制御するコントロール信号を生成して出力する、ように構成された音声コマンド識別部と、
を備え、
前記音声コマンド識別部は、前記第1の識別情報と前記第2の識別情報とを参照して前記コントロール信号を生成し、
前記第1の識別情報発生部は、前記第1の音声入力部に音声が入力されるタイミングを示す第1のタイムスタンプ情報を前記第1の識別情報として出力し、
前記第2の識別情報発生部は、前記第2の音声入力部に音声が入力されるタイミングを示す第2のタイムスタンプ情報を前記第2の識別情報として出力し、
前記音声コマンド識別部は、前記第1のタイムスタンプ情報と前記第2のタイムスタンプ情報との時間差にもとづき前記コントロール信号を生成する、
音声コマンド入力装置。 - 第1の識別情報を発生するステップと、
音声を第1の音声コマンド情報に変換するステップと、
第2の識別情報を発生するステップと、
音声を第2の音声コマンド情報に変換するステップと、
前記第1の識別情報と前記第2の識別情報とを参照するステップと、
前記参照の結果と、前記第1の音声コマンド情報および前記第2の音声コマンド情報と、にもとづき、操作対象機器を制御するコントロール信号を生成するステップと、
を備え、
前記第1の識別情報を発生するステップでは、前記第1の音声コマンド情報に変換するステップで用いられる音声が入力されるタイミングを示す第1のタイムスタンプ情報を前記第1の識別情報として出力し、
前記第2の識別情報を発生するステップでは、前記第2の音声コマンド情報に変換するステップで用いられる音声が入力されるタイミングを示す第2のタイムスタンプ情報を前記第2の識別情報として出力し、
前記コントロール信号を生成するステップでは、前記第1のタイムスタンプ情報と前記第2のタイムスタンプ情報との時間差にもとづき前記コントロール信号を生成する、
音声コマンド入力方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014068192 | 2014-03-28 | ||
JP2014068192 | 2014-03-28 | ||
PCT/JP2015/001721 WO2015146179A1 (ja) | 2014-03-28 | 2015-03-26 | 音声コマンド入力装置および音声コマンド入力方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018120925A Division JP6624575B2 (ja) | 2014-03-28 | 2018-06-26 | 音声コマンド入力装置および音声コマンド入力方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2015146179A1 JPWO2015146179A1 (ja) | 2017-04-13 |
JP6436400B2 true JP6436400B2 (ja) | 2018-12-12 |
Family
ID=54194723
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016510046A Active JP6436400B2 (ja) | 2014-03-28 | 2015-03-26 | 音声コマンド入力装置および音声コマンド入力方法 |
JP2018120925A Active JP6624575B2 (ja) | 2014-03-28 | 2018-06-26 | 音声コマンド入力装置および音声コマンド入力方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018120925A Active JP6624575B2 (ja) | 2014-03-28 | 2018-06-26 | 音声コマンド入力装置および音声コマンド入力方法 |
Country Status (3)
Country | Link |
---|---|
US (2) | US10074367B2 (ja) |
JP (2) | JP6436400B2 (ja) |
WO (1) | WO2015146179A1 (ja) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
EP4138075A1 (en) | 2013-02-07 | 2023-02-22 | Apple Inc. | Voice trigger for a digital assistant |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10204622B2 (en) | 2015-09-10 | 2019-02-12 | Crestron Electronics, Inc. | Acoustic sensory network |
US10748539B2 (en) * | 2014-09-10 | 2020-08-18 | Crestron Electronics, Inc. | Acoustic sensory network |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10783888B2 (en) * | 2015-09-10 | 2020-09-22 | Crestron Electronics Inc. | System and method for determining recipient of spoken command in a control system |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10446155B2 (en) * | 2016-02-26 | 2019-10-15 | Mitsubishi Electric Corporation | Voice recognition device |
US10388273B2 (en) * | 2016-08-10 | 2019-08-20 | Roku, Inc. | Distributed voice processing system |
EP3799446A1 (en) | 2016-08-29 | 2021-03-31 | Oticon A/s | Hearing aid device with speech control functionality |
JP6659514B2 (ja) * | 2016-10-12 | 2020-03-04 | 東芝映像ソリューション株式会社 | 電子機器及びその制御方法 |
US11276395B1 (en) * | 2017-03-10 | 2022-03-15 | Amazon Technologies, Inc. | Voice-based parameter assignment for voice-capturing devices |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US10983753B2 (en) | 2017-06-09 | 2021-04-20 | International Business Machines Corporation | Cognitive and interactive sensor based smart home solution |
CN107146616B (zh) * | 2017-06-13 | 2020-05-08 | Oppo广东移动通信有限公司 | 设备控制方法及相关产品 |
JP6513749B2 (ja) | 2017-08-09 | 2019-05-15 | レノボ・シンガポール・プライベート・リミテッド | 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム |
US10448762B2 (en) | 2017-09-15 | 2019-10-22 | Kohler Co. | Mirror |
US11099540B2 (en) | 2017-09-15 | 2021-08-24 | Kohler Co. | User identity in household appliances |
US11314215B2 (en) | 2017-09-15 | 2022-04-26 | Kohler Co. | Apparatus controlling bathroom appliance lighting based on user identity |
US10887125B2 (en) | 2017-09-15 | 2021-01-05 | Kohler Co. | Bathroom speaker |
US11093554B2 (en) | 2017-09-15 | 2021-08-17 | Kohler Co. | Feedback for water consuming appliance |
JP7057647B2 (ja) * | 2017-11-17 | 2022-04-20 | キヤノン株式会社 | 音声制御システム、制御方法及びプログラム |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US20210125613A1 (en) * | 2018-05-18 | 2021-04-29 | Schneider Electric Asia Pte Ltd | A relay device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) * | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109065051B (zh) * | 2018-09-30 | 2021-04-09 | 珠海格力电器股份有限公司 | 一种语音识别处理方法及装置 |
EP3709194A1 (en) | 2019-03-15 | 2020-09-16 | Spotify AB | Ensemble-based data comparison |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN110177033B (zh) * | 2019-05-21 | 2021-08-31 | 四川虹美智能科技有限公司 | 基于物联网控制家电的方法、终端及物联网系统 |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11094319B2 (en) | 2019-08-30 | 2021-08-17 | Spotify Ab | Systems and methods for generating a cleaned version of ambient sound |
US10827028B1 (en) | 2019-09-05 | 2020-11-03 | Spotify Ab | Systems and methods for playing media content on a target device |
US11308959B2 (en) | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11328722B2 (en) | 2020-02-11 | 2022-05-10 | Spotify Ab | Systems and methods for generating a singular voice audio stream |
US11908480B1 (en) * | 2020-03-23 | 2024-02-20 | Amazon Technologies, Inc. | Natural language processing using context |
US11386887B1 (en) | 2020-03-23 | 2022-07-12 | Amazon Technologies, Inc. | Natural language processing using context |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
CN113990298B (zh) * | 2021-12-24 | 2022-05-13 | 广州小鹏汽车科技有限公司 | 语音交互方法及其装置、服务器和可读存储介质 |
WO2023150491A1 (en) * | 2022-02-02 | 2023-08-10 | Google Llc | Speech recognition using word or phoneme time markers based on user input |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657425A (en) * | 1993-11-15 | 1997-08-12 | International Business Machines Corporation | Location dependent verbal command execution in a computer based control system |
JPH0836480A (ja) | 1994-07-22 | 1996-02-06 | Hitachi Ltd | 情報処理装置 |
JP3357629B2 (ja) | 1999-04-26 | 2002-12-16 | 旭化成株式会社 | 設備制御システム |
US20030093281A1 (en) * | 1999-05-21 | 2003-05-15 | Michael Geilhufe | Method and apparatus for machine to machine communication using speech |
ATE328345T1 (de) * | 2000-09-19 | 2006-06-15 | Thomson Licensing | Sprachsteuerung von elektronischen geräten |
JP3715584B2 (ja) | 2002-03-28 | 2005-11-09 | 富士通株式会社 | 機器制御装置および機器制御方法 |
JP4479227B2 (ja) * | 2003-11-19 | 2010-06-09 | ソニー株式会社 | 音声集音・映像撮像装置および撮像条件決定方法 |
JP2010047093A (ja) * | 2008-08-20 | 2010-03-04 | Fujitsu Ten Ltd | 音声認識処理装置および音声認識処理方法 |
KR101972955B1 (ko) * | 2012-07-03 | 2019-04-26 | 삼성전자 주식회사 | 음성을 이용한 사용자 디바이스들 간 서비스 연결 방법 및 장치 |
-
2015
- 2015-03-26 JP JP2016510046A patent/JP6436400B2/ja active Active
- 2015-03-26 US US15/122,429 patent/US10074367B2/en active Active
- 2015-03-26 WO PCT/JP2015/001721 patent/WO2015146179A1/ja active Application Filing
-
2018
- 2018-06-26 JP JP2018120925A patent/JP6624575B2/ja active Active
- 2018-08-06 US US16/055,821 patent/US10304456B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US10074367B2 (en) | 2018-09-11 |
US10304456B2 (en) | 2019-05-28 |
US20170069321A1 (en) | 2017-03-09 |
JPWO2015146179A1 (ja) | 2017-04-13 |
US20180350367A1 (en) | 2018-12-06 |
WO2015146179A1 (ja) | 2015-10-01 |
JP6624575B2 (ja) | 2019-12-25 |
JP2018173653A (ja) | 2018-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6436400B2 (ja) | 音声コマンド入力装置および音声コマンド入力方法 | |
US10743107B1 (en) | Synchronization of audio signals from distributed devices | |
US11023690B2 (en) | Customized output to optimize for user preference in a distributed system | |
EP4345816A2 (en) | Speaker attributed transcript generation | |
US11875796B2 (en) | Audio-visual diarization to identify meeting attendees | |
JP6520878B2 (ja) | 音声取得システムおよび音声取得方法 | |
US11138980B2 (en) | Processing overlapping speech from distributed devices | |
US10812921B1 (en) | Audio stream processing for distributed device meeting | |
US20180090138A1 (en) | System and method for localization and acoustic voice interface | |
US11557306B2 (en) | Method and system for speech enhancement | |
KR20180128838A (ko) | 다수의 음성 인식 장치 간 조정 | |
US11468895B2 (en) | Distributed device meeting initiation | |
US20200111493A1 (en) | Speech recognition device and speech recognition method | |
JP2007168972A (ja) | エレベータ制御装置 | |
JP5534003B2 (ja) | エレベーター装置 | |
KR101544671B1 (ko) | 소리 기반 저전력 전단 이벤트 감지 방법 및 장치 | |
KR20140072727A (ko) | 음성 인식 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180508 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180606 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20180611 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181023 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181101 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6436400 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |