JP2017515147A5 - - Google Patents
Download PDFInfo
- Publication number
- JP2017515147A5 JP2017515147A5 JP2016562023A JP2016562023A JP2017515147A5 JP 2017515147 A5 JP2017515147 A5 JP 2017515147A5 JP 2016562023 A JP2016562023 A JP 2016562023A JP 2016562023 A JP2016562023 A JP 2016562023A JP 2017515147 A5 JP2017515147 A5 JP 2017515147A5
- Authority
- JP
- Japan
- Prior art keywords
- user
- keyword
- model
- subwords
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 claims 10
- 230000004913 activation Effects 0.000 claims 4
- 230000003044 adaptive effect Effects 0.000 claims 1
Claims (12)
- ユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイスにおいて実行される、方法であって、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するステップであって、前記少なくとも1つの入力は、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを含む、ステップと、
前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって、少なくとも1つの混合サンプルサウンドを生成するステップと、
前記少なくとも1つのサンプルサウンドおよび前記少なくとも1つの混合サンプルサウンドからサブワードの少なくとも2のシーケンスを生成するとともに、サブワードの前記少なくとも2のシーケンスに基づいて、サブワードのシーケンスを判定するステップと、
サブワードの前記判定されたシーケンスおよび前記サブワードのサブワードモデルに基づいて、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップであって、前記サブワードモデルは、音声データベースに基づいて、前記サブワードの複数の音響特性をモデル化するように構成される、ステップと、
前記ユーザ定義のキーワードに関連する前記キーワードモデルを音声起動ユニットに提供するステップと
を含み、
サブワードの前記少なくとも2つのシーケンスは、前記サブワードモデルに基づいて生成され、
前記方法は、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップの前に:
所定の語句を示す入力サウンドを受信するステップと、
前記所定の語句を示す前記受信した入力サウンドから音響特性を抽出するステップと、
前記抽出した音響特性に基づいて、前記サブワードモデルを適合するステップと
をさらに含む、方法。 - 前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて、さらなる入力サウンド内の前記ユーザ定義のキーワードを、前記音声起動ユニットによって検出するステップをさらに含む、請求項1に記載の方法。
- 前記ユーザ定義のキーワードに関連する機能を実行するステップ
をさらに含む、請求項2に記載の方法。 - 前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップが、前記ユーザ定義のキーワードに関連する前記キーワードモデルの閾値スコアを判定するステップを含む、請求項1に記載の方法。
- 前記ユーザ定義のキーワードに関連する前記キーワードモデルが、
前記ユーザ定義のキーワードを示すテスト入力サウンドを受信するステップと、
前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて前記テスト入力サウンドのマッチングスコアを判定するステップと、
前記マッチングスコアに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルの前記閾値スコアを適合させるステップと
によって、適合される、請求項4に記載の方法。 - 前記サブワードの少なくとも1つのシーケンスのうちの前記サブワードが、音、音素、トライフォン、および音節のうちの少なくとも1つを含む、請求項1に記載の方法。
- サブワードのシーケンスの最初および/または最後のサブワード単位が沈黙部分かどうかを判定するステップと、
サブワードのシーケンスの最初および/または最後の前記サブワード単位が沈黙部分ではないと判定されることに応答して、前記サブワードのシーケンスの最初および/または最後のそれぞれに、サブワード単位として沈黙部分を追加するステップと
をさらに含む、請求項1に記載の方法。 - 前記少なくとも1つの入力が、前記ユーザ定義のキーワードのテキストをさらに含む、請求項1に記載の方法。
- ユーザ定義のキーワードのキーワードモデルを生成するための電子デバイスであって、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するように構成された入力ユニットであって、前記入力ユニットは、前記少なくとも1つの入力として、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを受信するように構成されたサウンドセンサを含む、入力ユニットと、
前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって、少なくとも1つの混合サンプルサウンドを生成するように構成された混合サウンド生成ユニットと、
前記少なくとも1つのサンプルサウンドおよび前記少なくとも1つの混合サンプルサウンドからサブワードの少なくとも2のシーケンスを生成するように構成されたサブワード認識ユニットと、
音声起動ユニットと、
サブワードの前記少なくとも2のシーケンスに基づいて、サブワードのシーケンスを判定し、サブワードの前記判定されたシーケンスおよび前記サブワードのサブワードモデルに基づいて、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成し、前記ユーザ定義のキーワードに関連する前記キーワードモデルを前記音声起動ユニットに提供するように構成されたユーザ定義のキーワードモデル生成ユニットと、
前記ユーザ定義のキーワードモデルに関連する前記キーワードモデルが生成される前に、前記サウンドセンサによって受信された少なくとも1つの語句の入力サウンドに基づいて前記サブワードモデルを適合するように構成された事前適応ユニットとを備え、
前記サブワードモデルは、音声データベースに基づいて前記サブワードの複数の音響特性をモデル化するように構成され、サブワードの前記少なくとも2のシーケンスは、前記サブワードモデルに基づいて生成される、電子デバイス。 - 前記音声起動ユニットは、前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて、入力サウンド内の前記ユーザ定義のキーワードを検出するように構成された、請求項9に記載の電子デバイス。
- 前記音声起動ユニットが、前記ユーザ定義のキーワードに関連する機能を実行するように構成された、請求項9に記載の電子デバイス。
- 電子デバイスにおけるユーザ定義のキーワードのキーワードモデルを生成するための命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサに請求項1〜8のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461980911P | 2014-04-17 | 2014-04-17 | |
US61/980,911 | 2014-04-17 | ||
US14/466,644 US9953632B2 (en) | 2014-04-17 | 2014-08-22 | Keyword model generation for detecting user-defined keyword |
US14/466,644 | 2014-08-22 | ||
PCT/US2015/024873 WO2015160586A1 (en) | 2014-04-17 | 2015-04-08 | Keyword model generation for detecting user-defined keyword |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017515147A JP2017515147A (ja) | 2017-06-08 |
JP2017515147A5 true JP2017515147A5 (ja) | 2018-05-10 |
Family
ID=54322537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016562023A Ceased JP2017515147A (ja) | 2014-04-17 | 2015-04-08 | ユーザ定義のキーワードを検出するためのキーワードモデル生成 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9953632B2 (ja) |
EP (1) | EP3132442B1 (ja) |
JP (1) | JP2017515147A (ja) |
KR (1) | KR20160145634A (ja) |
CN (1) | CN106233374B (ja) |
BR (1) | BR112016024086A2 (ja) |
WO (1) | WO2015160586A1 (ja) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10019983B2 (en) * | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9866741B2 (en) * | 2015-04-20 | 2018-01-09 | Jesse L. Wobrock | Speaker-dependent voice-activated camera system |
US10304440B1 (en) * | 2015-07-10 | 2019-05-28 | Amazon Technologies, Inc. | Keyword spotting using multi-task configuration |
US9792907B2 (en) | 2015-11-24 | 2017-10-17 | Intel IP Corporation | Low resource key phrase detection for wake on voice |
US9972313B2 (en) * | 2016-03-01 | 2018-05-15 | Intel Corporation | Intermediate scoring and rejection loopback for improved key phrase detection |
CN105868182B (zh) * | 2016-04-21 | 2019-08-30 | 深圳市中兴移动软件有限公司 | 一种文本信息处理方法及装置 |
US10043521B2 (en) | 2016-07-01 | 2018-08-07 | Intel IP Corporation | User defined key phrase detection by user dependent sequence modeling |
US10083689B2 (en) * | 2016-12-23 | 2018-09-25 | Intel Corporation | Linear scoring for low power wake on voice |
US10276161B2 (en) * | 2016-12-27 | 2019-04-30 | Google Llc | Contextual hotwords |
JP6599914B2 (ja) * | 2017-03-09 | 2019-10-30 | 株式会社東芝 | 音声認識装置、音声認識方法およびプログラム |
CN107146611B (zh) * | 2017-04-10 | 2020-04-17 | 北京猎户星空科技有限公司 | 一种语音响应方法、装置及智能设备 |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10313845B2 (en) * | 2017-06-06 | 2019-06-04 | Microsoft Technology Licensing, Llc | Proactive speech detection and alerting |
CN110770819B (zh) * | 2017-06-15 | 2023-05-12 | 北京嘀嘀无限科技发展有限公司 | 语音识别系统和方法 |
CN107564517A (zh) * | 2017-07-05 | 2018-01-09 | 百度在线网络技术(北京)有限公司 | 语音唤醒方法、设备及系统、云端服务器与可读介质 |
CN109903751B (zh) * | 2017-12-08 | 2023-07-07 | 阿里巴巴集团控股有限公司 | 关键词确认方法和装置 |
JP7044415B2 (ja) * | 2017-12-31 | 2022-03-30 | 美的集団股▲フン▼有限公司 | ホームアシスタント装置を制御するための方法及びシステム |
CN108665900B (zh) | 2018-04-23 | 2020-03-03 | 百度在线网络技术(北京)有限公司 | 云端唤醒方法及系统、终端以及计算机可读存储介质 |
JP2019191490A (ja) * | 2018-04-27 | 2019-10-31 | 東芝映像ソリューション株式会社 | 音声対話端末、および音声対話端末制御方法 |
CN110797021B (zh) | 2018-05-24 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10714122B2 (en) | 2018-06-06 | 2020-07-14 | Intel Corporation | Speech classification of audio for wake on voice |
US10269376B1 (en) * | 2018-06-28 | 2019-04-23 | Invoca, Inc. | Desired signal spotting in noisy, flawed environments |
US10650807B2 (en) | 2018-09-18 | 2020-05-12 | Intel Corporation | Method and system of neural network keyphrase detection |
US11100923B2 (en) * | 2018-09-28 | 2021-08-24 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
CN109635273B (zh) * | 2018-10-25 | 2023-04-25 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
CN109473123B (zh) * | 2018-12-05 | 2022-05-31 | 百度在线网络技术(北京)有限公司 | 语音活动检测方法及装置 |
CN109767763B (zh) * | 2018-12-25 | 2021-01-26 | 苏州思必驰信息科技有限公司 | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 |
TW202029181A (zh) * | 2019-01-28 | 2020-08-01 | 正崴精密工業股份有限公司 | 語音識別用於特定目標喚醒的方法及裝置 |
CN109979440B (zh) * | 2019-03-13 | 2021-05-11 | 广州市网星信息技术有限公司 | 关键词样本确定方法、语音识别方法、装置、设备和介质 |
US11127394B2 (en) | 2019-03-29 | 2021-09-21 | Intel Corporation | Method and system of high accuracy keyphrase detection for low resource devices |
CN110349566B (zh) * | 2019-07-11 | 2020-11-24 | 龙马智芯(珠海横琴)科技有限公司 | 语音唤醒方法、电子设备及存储介质 |
WO2021030918A1 (en) * | 2019-08-22 | 2021-02-25 | Fluent.Ai Inc. | User-defined keyword spotting |
JP7098587B2 (ja) * | 2019-08-29 | 2022-07-11 | 株式会社東芝 | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム |
CN110634468B (zh) * | 2019-09-11 | 2022-04-15 | 中国联合网络通信集团有限公司 | 语音唤醒方法、装置、设备及计算机可读存储介质 |
US11295741B2 (en) | 2019-12-05 | 2022-04-05 | Soundhound, Inc. | Dynamic wakewords for speech-enabled devices |
CN111128138A (zh) * | 2020-03-30 | 2020-05-08 | 深圳市友杰智新科技有限公司 | 语音唤醒方法、装置、计算机设备和存储介质 |
CN111540363B (zh) * | 2020-04-20 | 2023-10-24 | 合肥讯飞数码科技有限公司 | 关键词模型及解码网络构建方法、检测方法及相关设备 |
CN111798840B (zh) * | 2020-07-16 | 2023-08-08 | 中移在线服务有限公司 | 语音关键词识别方法和装置 |
KR20220111574A (ko) | 2021-02-02 | 2022-08-09 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2023150132A1 (en) * | 2022-02-01 | 2023-08-10 | Apple Inc. | Keyword detection using motion sensing |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5199077A (en) | 1991-09-19 | 1993-03-30 | Xerox Corporation | Wordspotting for voice editing and indexing |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
US5623578A (en) * | 1993-10-28 | 1997-04-22 | Lucent Technologies Inc. | Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words |
US5768474A (en) * | 1995-12-29 | 1998-06-16 | International Business Machines Corporation | Method and system for noise-robust speech processing with cochlea filters in an auditory model |
US5960395A (en) | 1996-02-09 | 1999-09-28 | Canon Kabushiki Kaisha | Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming |
US6473790B1 (en) | 1997-02-07 | 2002-10-29 | Casio Computer Co., Ltd. | Network system for serving information to mobile terminal apparatus |
JP3790038B2 (ja) * | 1998-03-31 | 2006-06-28 | 株式会社東芝 | サブワード型不特定話者音声認識装置 |
US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
JP2001042891A (ja) * | 1999-07-27 | 2001-02-16 | Suzuki Motor Corp | 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体 |
US20060074664A1 (en) | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
GB0028277D0 (en) * | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
EP1215661A1 (en) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Mobile terminal controllable by spoken utterances |
US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
JP4655184B2 (ja) * | 2001-08-01 | 2011-03-23 | ソニー株式会社 | 音声認識装置および方法、記録媒体、並びにプログラム |
CN100349206C (zh) * | 2005-09-12 | 2007-11-14 | 周运南 | 文字语音互转装置 |
KR100679051B1 (ko) | 2005-12-14 | 2007-02-05 | 삼성전자주식회사 | 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법 |
CN101320561A (zh) * | 2007-06-05 | 2008-12-10 | 赛微科技股份有限公司 | 提升个人语音识别率的方法及模块 |
JP5467043B2 (ja) * | 2008-06-06 | 2014-04-09 | 株式会社レイトロン | 音声認識装置、音声認識方法および電子機器 |
JP5375423B2 (ja) * | 2009-08-10 | 2013-12-25 | 日本電気株式会社 | 音声認識システム、音声認識方法および音声認識プログラム |
US8438028B2 (en) * | 2010-05-18 | 2013-05-07 | General Motors Llc | Nametag confusability determination |
US9117449B2 (en) | 2012-04-26 | 2015-08-25 | Nuance Communications, Inc. | Embedded system for construction of small footprint speech recognition with user-definable constraints |
US9672815B2 (en) | 2012-07-20 | 2017-06-06 | Interactive Intelligence Group, Inc. | Method and system for real-time keyword spotting for speech analytics |
US10019983B2 (en) | 2012-08-30 | 2018-07-10 | Aravind Ganapathiraju | Method and system for predicting speech recognition performance using accuracy scores |
CN104700832B (zh) * | 2013-12-09 | 2018-05-25 | 联发科技股份有限公司 | 语音关键字检测系统及方法 |
-
2014
- 2014-08-22 US US14/466,644 patent/US9953632B2/en active Active
-
2015
- 2015-04-08 KR KR1020167030186A patent/KR20160145634A/ko unknown
- 2015-04-08 BR BR112016024086A patent/BR112016024086A2/pt not_active IP Right Cessation
- 2015-04-08 WO PCT/US2015/024873 patent/WO2015160586A1/en active Application Filing
- 2015-04-08 CN CN201580020007.2A patent/CN106233374B/zh active Active
- 2015-04-08 EP EP15717387.3A patent/EP3132442B1/en active Active
- 2015-04-08 JP JP2016562023A patent/JP2017515147A/ja not_active Ceased
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2017515147A5 (ja) | ||
US11227611B2 (en) | Determining hotword suitability | |
JP6630765B2 (ja) | 個別化されたホットワード検出モデル | |
US9911420B1 (en) | Behavior adjustment using speech recognition system | |
US9293136B2 (en) | Multiple recognizer speech recognition | |
JP6420306B2 (ja) | スピーチエンドポインティング | |
EP4235647A3 (en) | Determining dialog states for language models | |
JP6487120B2 (ja) | 音声クエリの検索結果のプリフェッチ処理 | |
JP5996152B2 (ja) | 音声認識システム及び音声認識方法 | |
JP2014066779A5 (ja) | ||
US9110880B1 (en) | Acoustically informed pruning for language modeling | |
KR102442020B1 (ko) | 말하기의 자동 유창성 평가 방법 및 그 장치 | |
JP2017090856A5 (ja) | ||
NZ724941A (en) | False alarm reduction in speech recognition systems using contextual information | |
JP2010151941A (ja) | 音声応答装置、及びプログラム |