JP2019139211A - 音声ウェイクアップ方法及び装置 - Google Patents
音声ウェイクアップ方法及び装置 Download PDFInfo
- Publication number
- JP2019139211A JP2019139211A JP2018230515A JP2018230515A JP2019139211A JP 2019139211 A JP2019139211 A JP 2019139211A JP 2018230515 A JP2018230515 A JP 2018230515A JP 2018230515 A JP2018230515 A JP 2018230515A JP 2019139211 A JP2019139211 A JP 2019139211A
- Authority
- JP
- Japan
- Prior art keywords
- wake
- information
- voice information
- secondary determination
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims description 60
- 230000004044 response Effects 0.000 claims description 32
- 238000012549 training Methods 0.000 claims description 29
- 238000005457 optimization Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012790 confirmation Methods 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 8
- 238000012795 verification Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
Abstract
Description
Claims (20)
- 音声ウェイクアップ(wake up)方法であって、
ユーザの音声情報を受信するステップと、
前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップと、
前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定するステップと、
前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップと、を含む方法。 - 前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得するステップは、
予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得するステップを含む請求項1に記載の方法。 - 前記認識モデルはニューラルネットワークモデルであり、前記ニューラルネットワークモデルは、
サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得するステップと、
トレーニングステップであって、
前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することと、ここで前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すものであり、
前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、
比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含むトレーニングステップと、を実行する、
という方式でトレーニングされる、請求項2に記載の方法。 - 前記ニューラルネットワークモデルをトレーニングするステップは、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する、ステップを更に含む請求項3に記載の方法。 - 前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識が含まれる、請求項3に記載の方法。
- 前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、
前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップは、
前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成するステップと、
前記二次判断結果を受信するステップと、
前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行するステップと、を含む請求項1に記載の方法。 - 音声ウェイクアップ方法であって、
端末から送信された擬似ウェイクアップ音声情報を受信するステップと、
前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得するステップと、
前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするステップと、
マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定するステップであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、ステップと、を含む方法。 - 前記マッチング結果に基づいて前記端末へ二次判断結果を送信するステップは、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信するステップと、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信するステップとを含む請求項7に記載の方法。 - 音声ウェイクアップ装置であって、
ユーザの音声情報を受信する受信ユニットと、
前記音声情報に基づいて前記音声情報に対応するウェイクアップ信頼度を取得する生成ユニットと、
前記ウェイクアップ信頼度に基づいて前記音声情報が擬似ウェイクアップ音声情報であるか否かを確定する第一確定ユニットと、
前記音声情報が擬似ウェイクアップ音声情報であると確定されたことに応じて、前記音声情報に対して二次判断を行って二次判断結果を取得し、前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する第二確定ユニットと、
を備える装置。 - 前記生成ユニットは更に、
予め構築された、音声情報とウェイクアップ信頼度の対応関係を示す認識モデルに前記音声情報を入力して、前記音声情報に対するウェイクアップ信頼度を取得する、請求項9に記載の装置。 - 前記認識モデルはニューラルネットワークモデルであり、
前記装置は、モデルトレーニングユニットを更に備え、前記モデルトレーニングユニットは、
サンプル音声情報と、サンプル音声情報がウェイクアップ音声情報であるか否かを示す注釈情報とが含まれるサンプルのセットを取得する取得ユニットと、
トレーニングステップを実行する実行ユニットと、を備え、
前記トレーニングステップが、
前記サンプルのセットにおける少なくとも一つのサンプル音声情報をそれぞれ初期ニューラルネットワークモデルに入力して、前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報を取得することと、ここで前記予測情報は、サンプル音声情報がウェイクアップ音声情報である確率を示すものであり、
前記少なくとも一つのサンプル音声情報におけるサンプル音声情報毎に対応する予測情報と注釈情報とを比較することと、
比較結果に基づいて前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したか否かを確定することと、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成したと確定されたことに応じて、前記初期ニューラルネットワークモデルをトレーニング済のニューラルネットワークモデルとすることと、を含む、請求項10に記載の装置。 - 前記モデルトレーニングユニットは、
前記初期ニューラルネットワークモデルが所定の最適化目標まで達成されていないと確定されたことに応じて、前記初期ニューラルネットワークモデルのネットワークパラメータを調整し、及び前記トレーニングステップを継続して実行する調整ユニットを更に備える請求項11に記載の装置。 - 前記注釈情報には、ウェイクアップ音声情報であると示す第一標識と、ウェイクアップ音声情報ではないと示す第二標識とが含まれる請求項11に記載の装置。
- 前記二次判断結果には、ウェイクアップ判明と非ウェイクアップ判明が含まれ、
前記第二確定ユニットは更に、
前記音声情報をサービスエンドに送信し、前記サービスエンドにより前記音声情報に基づいて二次判断結果を生成し、
前記二次判断結果を受信し、
前記二次判断結果がウェイクアップ判明であると確定されたことに応じて、ウェイクアップ操作を実行する請求項9に記載の装置。 - 音声ウェイクアップ装置であって、
端末から送信された擬似ウェイクアップ音声情報を受信する情報受信ユニットと、
前記擬似ウェイクアップ音声情報を音声認識して音声認識結果を取得する認識ユニットと、
前記音声認識結果と前記端末の目標ウェイクアップワードとをマッチングするマッチングユニットと、
マッチング結果に基づいて前記端末へ二次判断結果を送信し、前記端末により前記二次判断結果に基づいてウェイクアップ操作を実行するか否かを確定する情報送信ユニットであって、前記二次判断結果にはウェイクアップ判明又は非ウェイクアップ判明が含まれる、情報送信ユニットと、
を備える装置。 - 前記情報送信ユニットは更に、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング成功が確定されたことに応じて、前記端末へウェイクアップ判明を送信し、
前記音声認識結果と前記目標ウェイクアップワードとのマッチング不成功が確定されたことに応じて、前記端末へ非ウェイクアップ判明を送信する請求項15に記載の装置。 - 端末であって、
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項1〜6の何れか一つに記載の方法を実現させる端末。 - コンピュータ読み取り可能な記憶媒体であって、
コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、請求項1〜6の何れか一つに記載の方法を実現させるコンピュータ読み取り可能な記憶媒体。 - サーバであって、
一つ又は複数のプロセッサと、
一つ又は複数のプログラムが記憶されている記憶装置と、を備え、
前記一つ又は複数のプログラムが前記一つ又は複数のプロセッサにより実行されると、前記一つ又は複数のプロセッサに請求項7又は8に記載の方法を実現させるサーバ。 - コンピュータ読み取り可能な記憶媒体であって、
コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサにより実行されると、請求項7又は8に記載の方法を実現させるコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810133876.1A CN108335696A (zh) | 2018-02-09 | 2018-02-09 | 语音唤醒方法和装置 |
CN201810133876.1 | 2018-02-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019139211A true JP2019139211A (ja) | 2019-08-22 |
JP6828001B2 JP6828001B2 (ja) | 2021-02-10 |
Family
ID=62927330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018230515A Active JP6828001B2 (ja) | 2018-02-09 | 2018-12-10 | 音声ウェイクアップ方法及び装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11322138B2 (ja) |
JP (1) | JP6828001B2 (ja) |
CN (1) | CN108335696A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022149688A1 (ko) * | 2021-01-05 | 2022-07-14 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215647A (zh) * | 2018-08-30 | 2019-01-15 | 出门问问信息科技有限公司 | 语音唤醒方法、电子设备及非暂态计算机可读存储介质 |
CN109065046A (zh) * | 2018-08-30 | 2018-12-21 | 出门问问信息科技有限公司 | 语音唤醒的方法、装置、电子设备及计算机可读存储介质 |
CN109273007B (zh) * | 2018-10-11 | 2022-05-17 | 西安讯飞超脑信息科技有限公司 | 语音唤醒方法及装置 |
CN109346076A (zh) * | 2018-10-25 | 2019-02-15 | 三星电子(中国)研发中心 | 语音交互、语音处理方法、装置和系统 |
CN109256134B (zh) * | 2018-11-22 | 2021-11-02 | 深圳市同行者科技有限公司 | 一种语音唤醒方法、存储介质及终端 |
CN109378000B (zh) * | 2018-12-19 | 2022-06-07 | 科大讯飞股份有限公司 | 语音唤醒方法、装置、系统、设备、服务器及存储介质 |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及系统 |
WO2019160396A2 (ko) * | 2019-04-11 | 2019-08-22 | 엘지전자 주식회사 | 안내 로봇 및 안내 로봇의 동작 방법 |
CN110277097B (zh) * | 2019-06-24 | 2022-04-26 | 北京声智科技有限公司 | 数据处理方法及相关设备 |
CN110544468B (zh) * | 2019-08-23 | 2022-07-12 | Oppo广东移动通信有限公司 | 应用唤醒方法、装置、存储介质及电子设备 |
CN110473539B (zh) * | 2019-08-28 | 2021-11-09 | 思必驰科技股份有限公司 | 提升语音唤醒性能的方法和装置 |
CN110534099B (zh) * | 2019-09-03 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
CN110610699B (zh) | 2019-09-03 | 2023-03-24 | 北京达佳互联信息技术有限公司 | 语音信号处理方法、装置、终端、服务器及存储介质 |
CN112445452A (zh) * | 2019-09-04 | 2021-03-05 | 青岛海尔洗衣机有限公司 | 指令处理方法、装置、电子设备及可读存储介质 |
CN110570840B (zh) * | 2019-09-12 | 2022-07-05 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN110600029A (zh) * | 2019-09-17 | 2019-12-20 | 苏州思必驰信息科技有限公司 | 用于智能语音设备的自定义唤醒方法和装置 |
CN110570861B (zh) * | 2019-09-24 | 2022-02-25 | Oppo广东移动通信有限公司 | 用于语音唤醒的方法、装置、终端设备及可读存储介质 |
CN110853633A (zh) * | 2019-09-29 | 2020-02-28 | 联想(北京)有限公司 | 一种唤醒方法及装置 |
CN112581945A (zh) * | 2019-09-29 | 2021-03-30 | 百度在线网络技术(北京)有限公司 | 语音控制方法、装置、电子设备和可读存储介质 |
CN110689889B (zh) * | 2019-10-11 | 2021-08-17 | 深圳追一科技有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN110718212A (zh) * | 2019-10-12 | 2020-01-21 | 出门问问信息科技有限公司 | 语音唤醒方法、装置及系统、终端和计算机可读存储介质 |
CN110706691B (zh) * | 2019-10-12 | 2021-02-09 | 出门问问信息科技有限公司 | 语音验证方法及装置、电子设备和计算机可读存储介质 |
CN112820283B (zh) * | 2019-11-18 | 2024-07-05 | 浙江未来精灵人工智能科技有限公司 | 一种语音处理方法、设备及系统 |
CN110890093B (zh) * | 2019-11-22 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的智能设备唤醒方法和装置 |
CN110941455B (zh) * | 2019-11-27 | 2024-02-20 | 北京声智科技有限公司 | 主动唤醒方法、装置及电子设备 |
CN111081251B (zh) * | 2019-11-27 | 2022-03-04 | 云知声智能科技股份有限公司 | 语音唤醒方法及装置 |
CN113066482A (zh) * | 2019-12-13 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 语音模型更新、语音数据处理方法、设备及存储介质 |
CN111063265B (zh) | 2019-12-26 | 2021-02-02 | 深圳市华星光电半导体显示技术有限公司 | 拼接显示面板及拼接显示装置 |
CN111081225B (zh) * | 2019-12-31 | 2022-04-01 | 思必驰科技股份有限公司 | 技能语音唤醒方法及装置 |
CN111176744A (zh) * | 2020-01-02 | 2020-05-19 | 北京字节跳动网络技术有限公司 | 电子设备控制方法、装置、终端及存储介质 |
CN111491236A (zh) * | 2020-04-23 | 2020-08-04 | 歌尔科技有限公司 | 一种主动降噪耳机及其唤醒方法、装置及可读存储介质 |
KR20210136463A (ko) * | 2020-05-07 | 2021-11-17 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN111614770B (zh) * | 2020-05-22 | 2022-06-17 | 云知声智能科技股份有限公司 | 一种单一唤醒方法、装置和系统 |
CN111667818B (zh) * | 2020-05-27 | 2023-10-10 | 北京声智科技有限公司 | 一种训练唤醒模型的方法及装置 |
CN111653276B (zh) * | 2020-06-22 | 2022-04-12 | 四川长虹电器股份有限公司 | 一种语音唤醒系统及方法 |
CN111724766B (zh) * | 2020-06-29 | 2024-01-05 | 合肥讯飞数码科技有限公司 | 语种识别方法、相关设备及可读存储介质 |
CN111880988B (zh) * | 2020-07-09 | 2022-11-04 | Oppo广东移动通信有限公司 | 一种声纹唤醒日志收集方法及装置 |
CN111883098B (zh) * | 2020-07-15 | 2023-10-24 | 青岛海尔科技有限公司 | 语音处理方法及装置、计算机可读的存储介质、电子装置 |
CN111951793B (zh) * | 2020-08-13 | 2021-08-24 | 北京声智科技有限公司 | 唤醒词识别的方法、装置及存储介质 |
CN111949178B (zh) * | 2020-08-13 | 2022-02-22 | 百度在线网络技术(北京)有限公司 | 技能切换方法、装置、设备以及存储介质 |
CN112201239B (zh) * | 2020-09-25 | 2024-05-24 | 海尔优家智能科技(北京)有限公司 | 目标设备的确定方法及装置、存储介质、电子装置 |
CN112420043A (zh) * | 2020-12-03 | 2021-02-26 | 深圳市欧瑞博科技股份有限公司 | 基于语音的智能唤醒方法、装置、电子设备及存储介质 |
CN113053377B (zh) * | 2021-03-23 | 2024-09-03 | 南京地平线机器人技术有限公司 | 语音唤醒方法和装置、计算机可读存储介质、电子设备 |
CN113628622A (zh) * | 2021-08-24 | 2021-11-09 | 北京达佳互联信息技术有限公司 | 语音交互方法、装置、电子设备及存储介质 |
CN113744734A (zh) * | 2021-08-30 | 2021-12-03 | 青岛海尔科技有限公司 | 一种语音唤醒方法、装置、电子设备及存储介质 |
CN114420115A (zh) * | 2021-12-20 | 2022-04-29 | 北京声智科技有限公司 | 唤醒方法、装置、电子设备及存储介质 |
CN114579192A (zh) * | 2022-01-28 | 2022-06-03 | 北京声智科技有限公司 | 抗误唤醒的训练方法、装置、设备及存储介质 |
CN114915514B (zh) * | 2022-03-28 | 2024-03-22 | 青岛海尔科技有限公司 | 意图的处理方法和装置、存储介质及电子装置 |
CN114999493A (zh) * | 2022-05-07 | 2022-09-02 | 国网河北省电力有限公司建设公司 | 一种智能语音质检方法及电子设备 |
CN114743546B (zh) * | 2022-05-17 | 2024-09-06 | 思必驰科技股份有限公司 | 降低智能语音误唤醒率的方法及装置、电子设备 |
CN115312049B (zh) * | 2022-06-30 | 2024-06-25 | 青岛海尔科技有限公司 | 指令的响应方法、存储介质及电子装置 |
US20240054999A1 (en) * | 2022-08-09 | 2024-02-15 | Samsung Electronics Co., Ltd. | Context-aware false trigger mitigation for automatic speech recognition (asr) systems or other systems |
US20240119925A1 (en) * | 2022-10-10 | 2024-04-11 | Samsung Electronics Co., Ltd. | System and method for post-asr false wake-up suppression |
US20240274127A1 (en) * | 2023-02-10 | 2024-08-15 | Qualcomm Incorporated | Latency reduction for multi-stage speech recognition |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128286A (ja) * | 1991-11-05 | 1993-05-25 | Ricoh Co Ltd | ニユーラルネツトワークによるキーワードスポツテイング方式 |
JP2014063088A (ja) * | 2012-09-24 | 2014-04-10 | Toshiba Corp | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
JP2015184378A (ja) * | 2014-03-20 | 2015-10-22 | 株式会社東芝 | パターン識別装置、パターン識別方法およびプログラム |
JP2016505888A (ja) * | 2012-12-11 | 2016-02-25 | アマゾン テクノロジーズ インコーポレイテッド | 発話認識電力管理 |
US20160125877A1 (en) * | 2014-10-29 | 2016-05-05 | Google Inc. | Multi-stage hotword detection |
JP2017097373A (ja) * | 2010-06-24 | 2017-06-01 | 本田技研工業株式会社 | 音声認識処理のための方法、車載システム及び不揮発性記憶媒体 |
CN107134279A (zh) * | 2017-06-30 | 2017-09-05 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
JP2017181667A (ja) * | 2016-03-29 | 2017-10-05 | トヨタ自動車株式会社 | 音声認識装置および音声認識方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314876B (zh) * | 2010-06-29 | 2013-04-10 | 株式会社理光 | 语音检索的方法和系统 |
US9715660B2 (en) * | 2013-11-04 | 2017-07-25 | Google Inc. | Transfer learning for deep neural network based hotword detection |
KR102146462B1 (ko) * | 2014-03-31 | 2020-08-20 | 삼성전자주식회사 | 음성 인식 시스템 및 방법 |
US10789041B2 (en) * | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
CN107123417B (zh) * | 2017-05-16 | 2020-06-09 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及系统 |
KR102371313B1 (ko) * | 2017-05-29 | 2022-03-08 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법 |
CN107622770B (zh) * | 2017-09-30 | 2021-03-16 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法及装置 |
-
2018
- 2018-02-09 CN CN201810133876.1A patent/CN108335696A/zh active Pending
- 2018-12-10 JP JP2018230515A patent/JP6828001B2/ja active Active
-
2019
- 2019-02-06 US US16/268,865 patent/US11322138B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05128286A (ja) * | 1991-11-05 | 1993-05-25 | Ricoh Co Ltd | ニユーラルネツトワークによるキーワードスポツテイング方式 |
JP2017097373A (ja) * | 2010-06-24 | 2017-06-01 | 本田技研工業株式会社 | 音声認識処理のための方法、車載システム及び不揮発性記憶媒体 |
JP2014063088A (ja) * | 2012-09-24 | 2014-04-10 | Toshiba Corp | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
JP2016505888A (ja) * | 2012-12-11 | 2016-02-25 | アマゾン テクノロジーズ インコーポレイテッド | 発話認識電力管理 |
JP2015184378A (ja) * | 2014-03-20 | 2015-10-22 | 株式会社東芝 | パターン識別装置、パターン識別方法およびプログラム |
US20160125877A1 (en) * | 2014-10-29 | 2016-05-05 | Google Inc. | Multi-stage hotword detection |
JP2017181667A (ja) * | 2016-03-29 | 2017-10-05 | トヨタ自動車株式会社 | 音声認識装置および音声認識方法 |
CN107134279A (zh) * | 2017-06-30 | 2017-09-05 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022149688A1 (ko) * | 2021-01-05 | 2022-07-14 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US12131738B2 (en) | 2021-01-05 | 2024-10-29 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
Also Published As
Publication number | Publication date |
---|---|
US11322138B2 (en) | 2022-05-03 |
JP6828001B2 (ja) | 2021-02-10 |
US20190251963A1 (en) | 2019-08-15 |
CN108335696A (zh) | 2018-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6828001B2 (ja) | 音声ウェイクアップ方法及び装置 | |
EP3770905B1 (en) | Speech recognition method, apparatus and device, and storage medium | |
EP3605537A1 (en) | Speech emotion detection method and apparatus, computer device, and storage medium | |
US11189262B2 (en) | Method and apparatus for generating model | |
US20210241775A1 (en) | Hybrid speech interface device | |
CN111428010B (zh) | 人机智能问答的方法和装置 | |
CN111309883A (zh) | 基于人工智能的人机对话方法、模型训练方法及装置 | |
US10810993B2 (en) | Sample-efficient adaptive text-to-speech | |
CN110288995B (zh) | 基于语音识别的交互方法、装置、存储介质和电子设备 | |
CN107705788A (zh) | 一种语音指令的校验方法及智能终端 | |
CN114550705B (zh) | 对话推荐方法、模型的训练方法、装置、设备及介质 | |
CN110795939A (zh) | 文本处理方法、装置 | |
JP2019008771A (ja) | 情報入力方法 | |
KR20200074690A (ko) | 전자 장치 및 이의 제어 방법 | |
CN113257238B (zh) | 预训练模型的训练方法、编码特征获取方法及相关装置 | |
CN112767916A (zh) | 智能语音设备的语音交互方法、装置、设备、介质及产品 | |
JP2019091012A (ja) | 情報認識方法および装置 | |
US20240321264A1 (en) | Automatic speech recognition | |
CN110223694B (zh) | 语音处理方法、系统和装置 | |
CN115080739A (zh) | 用于训练对话模型的方法以及用于输出应答信息的方法 | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN113689868A (zh) | 一种语音转换模型的训练方法、装置、电子设备及介质 | |
KR20200057501A (ko) | 전자 장치 및 그의 와이파이 연결 방법 | |
US11443735B2 (en) | Method for generating filled pause detecting model corresponding to new domain and device therefor | |
EP3893143A1 (en) | Corpus processing method, apparatus and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181210 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200128 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200417 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20200728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201124 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20201124 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20201202 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20201203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210120 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6828001 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |