JP2021196599A - 情報を出力するための方法および装置 - Google Patents
情報を出力するための方法および装置 Download PDFInfo
- Publication number
- JP2021196599A JP2021196599A JP2020205115A JP2020205115A JP2021196599A JP 2021196599 A JP2021196599 A JP 2021196599A JP 2020205115 A JP2020205115 A JP 2020205115A JP 2020205115 A JP2020205115 A JP 2020205115A JP 2021196599 A JP2021196599 A JP 2021196599A
- Authority
- JP
- Japan
- Prior art keywords
- information
- wakeup
- preset
- model
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Abstract
Description
Claims (13)
- プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップと、
前記音声情報に対して音声認識を実行し、認識結果を取得するステップと、
前記認識結果には前記プリセットのウェイクアップワードが含まれていないと判定した場合、前記音声情報の特徴情報を抽出するステップと、
前記特徴情報に基づいて、反例トレーニングサンプルを生成するステップと、
前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップと、を含む、
情報を出力するための方法。 - 前述した前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するステップは、
前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を含む、
請求項1に記載の方法。 - 前記プリセットの応答情報が出力されない場合、アラーム情報を出力するステップをさらに含む、
請求項2に記載の方法。 - 前述した前記トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを取得するステップは、
前記反例トレーニングサンプルの数を決定するステップと、
前記反例トレーニングサンプルの数が所定数の閾値以上である場合、前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングするステップと、を含む、
請求項1に記載の方法。 - 前述したデバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップは、
前記デバイスが前記プリセットのウェイクアップワードによってウェイクアップされる場合、前記デバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップを含む、
請求項4に記載の方法。 - プリセットのウェイクアップワードを受信したときにプリセットの応答情報を出力するために使用されるウェイクアップモデルを設けたデバイスがウェイクアップされる前に、所定期間の音声情報を取得するように構成された取得ユニットと、
前記音声情報に対して音声認識を実行し、認識結果を取得するように構成された認識ユニットと、
前記認識結果には前記プリセットのウェイクアップワードが含まれていないと判定した場合、前記音声情報の特徴情報を抽出するように構成された抽出ユニットと、
前記特徴情報に基づいて、反例トレーニングサンプルを生成するように構成されたトレーニングユニットと、
前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングし、トレーニング済みウェイクアップモデルを出力するように構成された出力ユニットと、を含む、
情報を出力するための装置。 - 前記トレーニングユニットは、
前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を実行するようにさらに構成される、
請求項6に記載の装置。 - 前記装置は、
前記ウェイクアップワードを含む音声情報の特徴情報を前記トレーニング済みウェイクアップモデルに入力し、前記プリセットの応答情報が出力されるか否かを判定するステップと、
前記プリセットの応答情報が出力される場合、前記トレーニング済みウェイクアップモデルを出力するステップと、を実行するように構成されたアラームユニットをさらに含む、
請求項7に記載の装置。 - 前記トレーニングユニットは、
前記反例トレーニングサンプルの数を決定するステップと、
前記反例トレーニングサンプルの数が所定数の閾値以上である場合、前記反例トレーニングサンプルを使用して前記ウェイクアップモデルをトレーニングするステップと、を実行するようにさらに構成される、
請求項6に記載の装置。 - 前記取得ユニットは、
前記デバイスが前記プリセットのウェイクアップワードによってウェイクアップされる場合、前記デバイスがウェイクアップされる前に、所定期間の音声情報を取得するステップを実行するようにさらに構成される、
請求項1に記載の装置。 - 1つまたは複数のプロセッサと、
1つまたは複数のプログラムを記憶する記憶装置と、を含み、
前記1つまたは複数のプログラムが前記1つまたは複数のプロセッサによって実行されるとき、前記1つまたは複数のプロセッサが請求項1−5のいずれか一項に記載の方法を実施するようにする、
サーバ。 - コンピュータプログラムを記憶するコンピュータ可読媒体であって、このプログラムがプロセッサによって実行されるとき、請求項1−5のいずれか一項に記載の方法を実施する、コンピュータ可読媒体。
- このプログラムがプロセッサによって実行されるとき、請求項1−5のいずれか一項に記載の方法を実施する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010522739.4A CN111640426A (zh) | 2020-06-10 | 2020-06-10 | 用于输出信息的方法和装置 |
CN202010522739.4 | 2020-06-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021196599A true JP2021196599A (ja) | 2021-12-27 |
Family
ID=72330700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020205115A Pending JP2021196599A (ja) | 2020-06-10 | 2020-12-10 | 情報を出力するための方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11587550B2 (ja) |
EP (1) | EP3923272B1 (ja) |
JP (1) | JP2021196599A (ja) |
CN (1) | CN111640426A (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112114886B (zh) * | 2020-09-17 | 2024-03-29 | 北京百度网讯科技有限公司 | 误唤醒音频的获取方法和装置 |
CN112071323B (zh) * | 2020-09-18 | 2023-03-21 | 阿波罗智联(北京)科技有限公司 | 误唤醒样本数据的获取方法、装置和电子设备 |
CN112233681A (zh) * | 2020-10-10 | 2021-01-15 | 北京百度网讯科技有限公司 | 一种误唤醒语料确定方法、装置、电子设备和存储介质 |
CN112489648B (zh) * | 2020-11-25 | 2024-03-19 | 广东美的制冷设备有限公司 | 唤醒处理阈值调整方法、语音家电、存储介质 |
CN112712801B (zh) * | 2020-12-14 | 2024-02-02 | 北京有竹居网络技术有限公司 | 一种语音唤醒方法、装置、电子设备及存储介质 |
CN112712799A (zh) * | 2020-12-23 | 2021-04-27 | 大众问问(北京)信息科技有限公司 | 一种误触发语音信息的获取方法、装置、设备及存储介质 |
CN113129874B (zh) * | 2021-04-27 | 2022-05-10 | 思必驰科技股份有限公司 | 语音唤醒方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101583912B (zh) * | 2007-01-22 | 2012-03-28 | 皇家飞利浦电子股份有限公司 | 唤醒刺激控制系统 |
JP2011180729A (ja) * | 2010-02-26 | 2011-09-15 | Sony Corp | 情報処理装置、キーワード登録方法及びプログラム |
US8768707B2 (en) * | 2011-09-27 | 2014-07-01 | Sensory Incorporated | Background speech recognition assistant using speaker verification |
US9697828B1 (en) * | 2014-06-20 | 2017-07-04 | Amazon Technologies, Inc. | Keyword detection modeling using contextual and environmental information |
CN107358951A (zh) * | 2017-06-29 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种语音唤醒方法、装置以及电子设备 |
US10475449B2 (en) * | 2017-08-07 | 2019-11-12 | Sonos, Inc. | Wake-word detection suppression |
US10586534B1 (en) * | 2017-09-27 | 2020-03-10 | Amazon Technologies, Inc. | Voice-controlled device control using acoustic echo cancellation statistics |
US10354635B2 (en) * | 2017-11-01 | 2019-07-16 | Bose Corporation | Adaptive nullforming for selective audio pick-up |
US11430421B2 (en) * | 2017-11-01 | 2022-08-30 | Bose Corporation | Adaptive null forming and echo cancellation for selective audio pick-up |
CN108320733B (zh) | 2017-12-18 | 2022-01-04 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
KR20190084789A (ko) * | 2018-01-09 | 2019-07-17 | 엘지전자 주식회사 | 전자 장치 및 그 제어 방법 |
US10574890B2 (en) * | 2018-01-12 | 2020-02-25 | Movidius Ltd. | Methods and apparatus to operate a mobile camera for low-power usage |
EP3756087A4 (en) * | 2018-06-05 | 2021-04-21 | Samsung Electronics Co., Ltd. | PASSIVE WAKE-UP PROCESSES AND SYSTEMS OF A USER INTERACTION DEVICE |
US11423295B2 (en) * | 2018-07-26 | 2022-08-23 | Sap Se | Dynamic, automated fulfillment of computer-based resource request provisioning using deep reinforcement learning |
US11620525B2 (en) * | 2018-09-25 | 2023-04-04 | Advanced Micro Devices, Inc. | Dropout for accelerated deep learning in heterogeneous architectures |
KR20200059054A (ko) * | 2018-11-20 | 2020-05-28 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
CN109637537B (zh) | 2018-12-28 | 2020-06-30 | 北京声智科技有限公司 | 一种自动获取标注数据优化自定义唤醒模型的方法 |
US10728656B1 (en) * | 2019-01-07 | 2020-07-28 | Kikago Limited | Audio device and audio processing method |
KR102246936B1 (ko) * | 2019-06-20 | 2021-04-29 | 엘지전자 주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US11282500B2 (en) * | 2019-07-19 | 2022-03-22 | Cisco Technology, Inc. | Generating and training new wake words |
US11222287B2 (en) * | 2019-07-25 | 2022-01-11 | International Business Machines Corporation | Machine learning for failure event identification and prediction |
CN110517670A (zh) * | 2019-08-28 | 2019-11-29 | 苏州思必驰信息科技有限公司 | 提升唤醒性能的方法和装置 |
US11373760B2 (en) * | 2019-10-12 | 2022-06-28 | International Business Machines Corporation | False detection rate control with null-hypothesis |
US10984086B1 (en) * | 2019-10-18 | 2021-04-20 | Motorola Mobility Llc | Methods and systems for fingerprint sensor triggered voice interaction in an electronic device |
CN111081217B (zh) * | 2019-12-03 | 2021-06-04 | 珠海格力电器股份有限公司 | 一种语音唤醒方法、装置、电子设备及存储介质 |
US20210191845A1 (en) * | 2019-12-23 | 2021-06-24 | Ab Initio Technology Llc | Unit testing of components of dataflow graphs |
US11308959B2 (en) * | 2020-02-11 | 2022-04-19 | Spotify Ab | Dynamic adjustment of wake word acceptance tolerance thresholds in voice-controlled devices |
US11269597B2 (en) * | 2020-03-31 | 2022-03-08 | Sap Se | Real-time code recommendations using machine learning and reinforcement learning |
-
2020
- 2020-06-10 CN CN202010522739.4A patent/CN111640426A/zh active Pending
- 2020-12-10 EP EP20213103.3A patent/EP3923272B1/en active Active
- 2020-12-10 US US17/117,786 patent/US11587550B2/en active Active
- 2020-12-10 JP JP2020205115A patent/JP2021196599A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097876A (zh) * | 2018-01-30 | 2019-08-06 | 阿里巴巴集团控股有限公司 | 语音唤醒处理方法和被唤醒设备 |
Also Published As
Publication number | Publication date |
---|---|
EP3923272A1 (en) | 2021-12-15 |
US20210390947A1 (en) | 2021-12-16 |
CN111640426A (zh) | 2020-09-08 |
EP3923272B1 (en) | 2023-05-24 |
US11587550B2 (en) | 2023-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021196599A (ja) | 情報を出力するための方法および装置 | |
US10614803B2 (en) | Wake-on-voice method, terminal and storage medium | |
CN108829235B (zh) | 语音数据处理方法和支持该方法的电子设备 | |
US11435980B2 (en) | System for processing user utterance and controlling method thereof | |
CN105793921A (zh) | 基于部分热词发起动作 | |
CN111694433B (zh) | 语音交互的方法、装置、电子设备及存储介质 | |
US10996922B2 (en) | Electronic apparatus for processing user utterance | |
CN107948437B (zh) | 熄屏显示方法和装置 | |
US20210090562A1 (en) | Speech recognition control method and apparatus, electronic device and readable storage medium | |
JP2021114284A (ja) | 句読点予測方法および装置 | |
US11474780B2 (en) | Method of providing speech recognition service and electronic device for same | |
CN112309384B (zh) | 一种语音识别方法、装置、电子设备及介质 | |
TW201942896A (zh) | 一種搜尋方法以及一種應用該方法的電子裝置 | |
CN111326146A (zh) | 语音唤醒模板的获取方法、装置、电子设备及计算机可读存储介质 | |
JP2019175453A (ja) | ユーザ音声入力の処理を含むシステム及びその動作方法並びに電子装置 | |
CN113611316A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN113823313A (zh) | 语音处理方法、装置、设备以及存储介质 | |
KR20190114325A (ko) | 사용자 음성 입력을 처리하는 장치 | |
CN112382292A (zh) | 基于语音的控制方法和装置 | |
CN113488050B (zh) | 语音唤醒方法、装置、存储介质及电子设备 | |
CN112306560B (zh) | 用于唤醒电子设备的方法和装置 | |
CN114333017A (zh) | 一种动态拾音方法、装置、电子设备及存储介质 | |
CN111312243B (zh) | 设备交互方法和装置 | |
CN109036379B (zh) | 语音识别方法、设备及存储介质 | |
CN114171063A (zh) | 一种实时话务客户情绪分析辅助方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210830 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20211101 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220805 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220913 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20220921 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20220927 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230131 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230427 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230516 |