JP2017515147A5 - - Google Patents

Download PDF

Info

Publication number
JP2017515147A5
JP2017515147A5 JP2016562023A JP2016562023A JP2017515147A5 JP 2017515147 A5 JP2017515147 A5 JP 2017515147A5 JP 2016562023 A JP2016562023 A JP 2016562023A JP 2016562023 A JP2016562023 A JP 2016562023A JP 2017515147 A5 JP2017515147 A5 JP 2017515147A5
Authority
JP
Japan
Prior art keywords
user
keyword
model
subwords
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2016562023A
Other languages
English (en)
Other versions
JP2017515147A (ja
Filing date
Publication date
Priority claimed from US14/466,644 external-priority patent/US9953632B2/en
Application filed filed Critical
Publication of JP2017515147A publication Critical patent/JP2017515147A/ja
Publication of JP2017515147A5 publication Critical patent/JP2017515147A5/ja
Ceased legal-status Critical Current

Links

Claims (12)

  1. ユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイスにおいて実行される、方法であって、
    前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するステップであって、前記少なくとも1つの入力は、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを含む、ステップと、
    前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって、少なくとも1つの混合サンプルサウンドを生成するステップと、
    前記少なくとも1つのサンプルサウンドおよび前記少なくとも1つの混合サンプルサウンドからサブワードの少なくとも2のシーケンスを生成するとともに、サブワードの前記少なくとも2のシーケンスに基づいて、サブワードのシーケンスを判定するステップと、
    サブワードの前記判定されたシーケンスおよび前記サブワードのサブワードモデルに基づいて、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップであって、前記サブワードモデルは、音声データベースに基づいて、前記サブワードの複数の音響特性をモデル化するように構成される、ステップと、
    前記ユーザ定義のキーワードに関連する前記キーワードモデルを音声起動ユニットに提供するステップと
    を含
    サブワードの前記少なくとも2つのシーケンスは、前記サブワードモデルに基づいて生成され、
    前記方法は、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップの前に:
    所定の語句を示す入力サウンドを受信するステップと、
    前記所定の語句を示す前記受信した入力サウンドから音響特性を抽出するステップと、
    前記抽出した音響特性に基づいて、前記サブワードモデルを適合するステップと
    をさらに含む、方法。
  2. 前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて、さらなる入力サウンド内の前記ユーザ定義のキーワードを、前記音声起動ユニットによって検出するステップをさらに含む、請求項1に記載の方法。
  3. 前記ユーザ定義のキーワードに関連する機能を実行するステップ
    をさらに含む、請求項2に記載の方法。
  4. 前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップが、前記ユーザ定義のキーワードに関連する前記キーワードモデルの閾値スコアを判定するステップを含む、請求項1に記載の方法。
  5. 前記ユーザ定義のキーワードに関連する前記キーワードモデルが、
    前記ユーザ定義のキーワードを示すテスト入力サウンドを受信するステップと、
    前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて前記テスト入力サウンドのマッチングスコアを判定するステップと、
    前記マッチングスコアに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルの前記閾値スコアを適合させるステップと
    によって、適合される、請求項4に記載の方法。
  6. 前記サブワードの少なくとも1つのシーケンスのうちの前記サブワードが、音、音素、トライフォン、および音節のうちの少なくとも1つを含む、請求項1に記載の方法。
  7. サブワードのシーケンスの最初および/または最後のサブワード単位が沈黙部分かどうかを判定するステップと、
    サブワードのシーケンスの最初および/または最後の前記サブワード単位が沈黙部分ではないと判定されることに応答して、前記サブワードのシーケンスの最初および/または最後のそれぞれに、サブワード単位として沈黙部分を追加するステップと
    をさらに含む、請求項1に記載の方法。
  8. 前記少なくとも1つの入力が、前記ユーザ定義のキーワードのテキストをさらに含む、請求項1に記載の方法。
  9. ユーザ定義のキーワードのキーワードモデルを生成するための電子デバイスであって、
    前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するように構成された入力ユニットであって、前記入力ユニットは、前記少なくとも1つの入力として、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを受信するように構成されたサウンドセンサを含む、入力ユニットと、
    前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって、少なくとも1つの混合サンプルサウンドを生成するように構成された混合サウンド生成ユニットと、
    前記少なくとも1つのサンプルサウンドおよび前記少なくとも1つの混合サンプルサウンドからサブワードの少なくとも2のシーケンスを生成するように構成されたサブワード認識ユニットと、
    声起動ユニットと、
    サブワードの前記少なくとも2のシーケンスに基づいて、サブワードのシーケンスを判定し、サブワードの前記判定されたシーケンスおよび前記サブワードのサブワードモデルに基づいて、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成し、前記ユーザ定義のキーワードに関連する前記キーワードモデルを前記音声起動ユニットに提供するように構成されたユーザ定義のキーワードモデル生成ユニットと、
    前記ユーザ定義のキーワードモデルに関連する前記キーワードモデルが生成される前に、前記サウンドセンサによって受信された少なくとも1つの語句の入力サウンドに基づいて前記サブワードモデルを適合するように構成された事前適応ユニットとを備え、
    前記サブワードモデルは、音声データベースに基づいて前記サブワードの複数の音響特性をモデル化するように構成され、サブワードの前記少なくとも2のシーケンスは、前記サブワードモデルに基づいて生成される、電子デバイス。
  10. 前記音声起動ユニットは、前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて、入力サウンド内の前記ユーザ定義のキーワードを検出するように構成された、請求項9に記載の電子デバイス。
  11. 前記音声起動ユニットが、前記ユーザ定義のキーワードに関連する機能を実行するように構成された、請求項9に記載の電子デバイス。
  12. 電子デバイスにおけるユーザ定義のキーワードのキーワードモデルを生成するための命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサに請求項1〜8のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。
JP2016562023A 2014-04-17 2015-04-08 ユーザ定義のキーワードを検出するためのキーワードモデル生成 Ceased JP2017515147A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201461980911P 2014-04-17 2014-04-17
US61/980,911 2014-04-17
US14/466,644 US9953632B2 (en) 2014-04-17 2014-08-22 Keyword model generation for detecting user-defined keyword
US14/466,644 2014-08-22
PCT/US2015/024873 WO2015160586A1 (en) 2014-04-17 2015-04-08 Keyword model generation for detecting user-defined keyword

Publications (2)

Publication Number Publication Date
JP2017515147A JP2017515147A (ja) 2017-06-08
JP2017515147A5 true JP2017515147A5 (ja) 2018-05-10

Family

ID=54322537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016562023A Ceased JP2017515147A (ja) 2014-04-17 2015-04-08 ユーザ定義のキーワードを検出するためのキーワードモデル生成

Country Status (7)

Country Link
US (1) US9953632B2 (ja)
EP (1) EP3132442B1 (ja)
JP (1) JP2017515147A (ja)
KR (1) KR20160145634A (ja)
CN (1) CN106233374B (ja)
BR (1) BR112016024086A2 (ja)
WO (1) WO2015160586A1 (ja)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10019983B2 (en) * 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9866741B2 (en) * 2015-04-20 2018-01-09 Jesse L. Wobrock Speaker-dependent voice-activated camera system
US10304440B1 (en) * 2015-07-10 2019-05-28 Amazon Technologies, Inc. Keyword spotting using multi-task configuration
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
CN105868182B (zh) * 2016-04-21 2019-08-30 深圳市中兴移动软件有限公司 一种文本信息处理方法及装置
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
JP6599914B2 (ja) * 2017-03-09 2019-10-30 株式会社東芝 音声認識装置、音声認識方法およびプログラム
CN107146611B (zh) * 2017-04-10 2020-04-17 北京猎户星空科技有限公司 一种语音响应方法、装置及智能设备
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10313845B2 (en) * 2017-06-06 2019-06-04 Microsoft Technology Licensing, Llc Proactive speech detection and alerting
CN110770819B (zh) * 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别系统和方法
CN107564517A (zh) * 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及系统、云端服务器与可读介质
CN109903751B (zh) * 2017-12-08 2023-07-07 阿里巴巴集团控股有限公司 关键词确认方法和装置
JP7044415B2 (ja) * 2017-12-31 2022-03-30 美的集団股▲フン▼有限公司 ホームアシスタント装置を制御するための方法及びシステム
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
JP2019191490A (ja) * 2018-04-27 2019-10-31 東芝映像ソリューション株式会社 音声対話端末、および音声対話端末制御方法
CN110797021B (zh) 2018-05-24 2022-06-07 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
CN109635273B (zh) * 2018-10-25 2023-04-25 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109473123B (zh) * 2018-12-05 2022-05-31 百度在线网络技术(北京)有限公司 语音活动检测方法及装置
CN109767763B (zh) * 2018-12-25 2021-01-26 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
TW202029181A (zh) * 2019-01-28 2020-08-01 正崴精密工業股份有限公司 語音識別用於特定目標喚醒的方法及裝置
CN109979440B (zh) * 2019-03-13 2021-05-11 广州市网星信息技术有限公司 关键词样本确定方法、语音识别方法、装置、设备和介质
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN110349566B (zh) * 2019-07-11 2020-11-24 龙马智芯(珠海横琴)科技有限公司 语音唤醒方法、电子设备及存储介质
WO2021030918A1 (en) * 2019-08-22 2021-02-25 Fluent.Ai Inc. User-defined keyword spotting
JP7098587B2 (ja) * 2019-08-29 2022-07-11 株式会社東芝 情報処理装置、キーワード検出装置、情報処理方法およびプログラム
CN110634468B (zh) * 2019-09-11 2022-04-15 中国联合网络通信集团有限公司 语音唤醒方法、装置、设备及计算机可读存储介质
US11295741B2 (en) 2019-12-05 2022-04-05 Soundhound, Inc. Dynamic wakewords for speech-enabled devices
CN111128138A (zh) * 2020-03-30 2020-05-08 深圳市友杰智新科技有限公司 语音唤醒方法、装置、计算机设备和存储介质
CN111540363B (zh) * 2020-04-20 2023-10-24 合肥讯飞数码科技有限公司 关键词模型及解码网络构建方法、检测方法及相关设备
CN111798840B (zh) * 2020-07-16 2023-08-08 中移在线服务有限公司 语音关键词识别方法和装置
KR20220111574A (ko) 2021-02-02 2022-08-09 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2023150132A1 (en) * 2022-02-01 2023-08-10 Apple Inc. Keyword detection using motion sensing

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5199077A (en) 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5623578A (en) * 1993-10-28 1997-04-22 Lucent Technologies Inc. Speech recognition system allows new vocabulary words to be added without requiring spoken samples of the words
US5768474A (en) * 1995-12-29 1998-06-16 International Business Machines Corporation Method and system for noise-robust speech processing with cochlea filters in an auditory model
US5960395A (en) 1996-02-09 1999-09-28 Canon Kabushiki Kaisha Pattern matching method, apparatus and computer readable memory medium for speech recognition using dynamic programming
US6473790B1 (en) 1997-02-07 2002-10-29 Casio Computer Co., Ltd. Network system for serving information to mobile terminal apparatus
JP3790038B2 (ja) * 1998-03-31 2006-06-28 株式会社東芝 サブワード型不特定話者音声認識装置
US6292778B1 (en) * 1998-10-30 2001-09-18 Lucent Technologies Inc. Task-independent utterance verification with subword-based minimum verification error training
JP2001042891A (ja) * 1999-07-27 2001-02-16 Suzuki Motor Corp 音声認識装置、音声認識搭載装置、音声認識搭載システム、音声認識方法、及び記憶媒体
US20060074664A1 (en) 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP4655184B2 (ja) * 2001-08-01 2011-03-23 ソニー株式会社 音声認識装置および方法、記録媒体、並びにプログラム
CN100349206C (zh) * 2005-09-12 2007-11-14 周运南 文字语音互转装置
KR100679051B1 (ko) 2005-12-14 2007-02-05 삼성전자주식회사 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
CN101320561A (zh) * 2007-06-05 2008-12-10 赛微科技股份有限公司 提升个人语音识别率的方法及模块
JP5467043B2 (ja) * 2008-06-06 2014-04-09 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JP5375423B2 (ja) * 2009-08-10 2013-12-25 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
US8438028B2 (en) * 2010-05-18 2013-05-07 General Motors Llc Nametag confusability determination
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9672815B2 (en) 2012-07-20 2017-06-06 Interactive Intelligence Group, Inc. Method and system for real-time keyword spotting for speech analytics
US10019983B2 (en) 2012-08-30 2018-07-10 Aravind Ganapathiraju Method and system for predicting speech recognition performance using accuracy scores
CN104700832B (zh) * 2013-12-09 2018-05-25 联发科技股份有限公司 语音关键字检测系统及方法

Similar Documents

Publication Publication Date Title
JP2017515147A5 (ja)
US11227611B2 (en) Determining hotword suitability
JP6630765B2 (ja) 個別化されたホットワード検出モデル
US9911420B1 (en) Behavior adjustment using speech recognition system
US9293136B2 (en) Multiple recognizer speech recognition
JP6420306B2 (ja) スピーチエンドポインティング
EP4235647A3 (en) Determining dialog states for language models
JP6487120B2 (ja) 音声クエリの検索結果のプリフェッチ処理
JP5996152B2 (ja) 音声認識システム及び音声認識方法
JP2014066779A5 (ja)
US9110880B1 (en) Acoustically informed pruning for language modeling
KR102442020B1 (ko) 말하기의 자동 유창성 평가 방법 및 그 장치
JP2017090856A5 (ja)
NZ724941A (en) False alarm reduction in speech recognition systems using contextual information
JP2010151941A (ja) 音声応答装置、及びプログラム