JP2016522910A5 - - Google Patents

Download PDF

Info

Publication number
JP2016522910A5
JP2016522910A5 JP2016512921A JP2016512921A JP2016522910A5 JP 2016522910 A5 JP2016522910 A5 JP 2016522910A5 JP 2016512921 A JP2016512921 A JP 2016512921A JP 2016512921 A JP2016512921 A JP 2016512921A JP 2016522910 A5 JP2016522910 A5 JP 2016522910A5
Authority
JP
Japan
Prior art keywords
sound
feature
features
buffer
sound features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2016512921A
Other languages
English (en)
Other versions
JP2016522910A (ja
Filing date
Publication date
Priority claimed from US14/102,097 external-priority patent/US20140337030A1/en
Application filed filed Critical
Publication of JP2016522910A publication Critical patent/JP2016522910A/ja
Publication of JP2016522910A5 publication Critical patent/JP2016522910A5/ja
Ceased legal-status Critical Current

Links

Claims (15)

  1. モバイルデバイスにおいて、機能をアクティブ化するために入力サウンドからターゲットキーワードを検出する方法であって、前記方法は、
    前記モバイルデバイスによって、バッファにおいて第1の複数のサウンド特徴を受け取ることと、
    一旦前記バッファにおいて前記第1の複数のサウンド特徴が受け取られたら、前記第1の複数のサウンド特徴の特徴統計量を生成することと、
    一旦前記バッファにおいて前記第1の複数のサウンド特徴が受け取られたら、前記モバイルデバイスによって、前記バッファにおいて第2の複数のサウンド特徴を受け取ることと、
    前記バッファにおいて受け取られた前記第2の複数のサウンド特徴の各サウンド特徴について、前記特徴統計量を更新することと、
    前記バッファにおいて前記第2の複数のサウンド特徴のサウンド特徴を受け取っている間に、前記モバイルデバイスによって、前記バッファから第1の数のサウンド特徴を処理すること、前記第1の数のサウンド特徴は、2つ以上のサウンド特徴を含み、ここにおいて、前記処理することは、前記第1の複数のサウンド特徴の前記特徴統計量または前記更新された特徴統計量に基づく、と、
    前記モバイルデバイスによって、前記処理されたサウンド特徴のうちの少なくとも1つのサウンド特徴についてのキーワードスコアを決定することと、
    前記キーワードスコアが閾値スコアより大きいとき、前記モバイルデバイスによって、前記ターゲットキーワードとして前記入力サウンドを検出することと、
    を備える、方法。
  2. 前記第1の数のサウンド特徴を処理することは、
    前記バッファから前記第1の数のサウンド特徴を取り出すことと、
    特徴統計量に基づいて前記取り出されたサウンド特徴を処理することと、
    を備える、請求項1に記載の方法。
  3. 前記特徴統計量は、平均および分散を含み、前記取り出されたサウンド特徴を処理することは、前記特徴統計量に基づいて前記取り出されたサウンド特徴を正規化することを備える、請求項2に記載の方法。
  4. 前記取り出されたサウンド特徴を処理することは、前記第1の複数のサウンド特徴の前記特徴統計量に基づいて、前記第1の複数のサウンド特徴中のサウンド特徴を処理することを備える、請求項2に記載の方法。
  5. 前記取り出されたサウンド特徴を処理することは、
    前記第2の複数のサウンド特徴の第1のサウンド特徴に基づいて前記特徴統計量を更新することと、
    前記更新された特徴統計量に基づいて、前記第2の複数のサウンド特徴の前記第1のサウンド特徴を処理することと、
    を備える、請求項2に記載の方法。
  6. 前記取り出されたサウンド特徴を処理することは、前記特徴統計量に基づいて、選択された数の前記取り出されたサウンド特徴を処理することを備える、請求項2に記載の方法。
  7. 前記選択された数は、前記モバイルデバイスのリソース情報に基づいて調整される、請求項6に記載の方法。
  8. 前記取り出されたサウンド特徴を処理することは、
    前記取り出されたサウンド特徴中のサウンド特徴を、現在のサウンド特徴として識別することと、
    前記現在のサウンド特徴と以前のサウンド特徴との間の差を決定することと、
    前記差が閾値より小さいとき、前記以前のサウンド特徴に対応する処理されたサウンド特徴を、前記現在のサウンド特徴に対応する処理されたサウンド特徴として使用することと、
    を備える、請求項2に記載の方法。
  9. 前記第1の数は、前記モバイルデバイスのリソース情報に基づいて調整される、請求項1に記載の方法。
  10. 前記処理されたサウンド特徴のうちの前記少なくとも1つのサウンド特徴について前記キーワードスコアを決定することは、マルコフ連鎖モデルを使用して前記キーワードスコアを計算することを備える、請求項1に記載の方法。
  11. 前記第1の数のサウンド特徴を処理することは、前記バッファ内の特定の数の前記サウンド特徴が前記第1の数より少ないとき、前記バッファ内にある前記特定の数のサウンド特徴を処理することを備える、請求項1に記載の方法。
  12. 前記バッファにおいて前記第1の複数のサウンド特徴を受け取ることは、
    前記入力サウンドの第1の部分を第1の複数のフレームにセグメント化することと、
    前記第1の複数のフレームのうちの少なくとも1つのフレームから第1のサウンド特徴を抽出することと、
    を備え、
    前記バッファにおいて前記第2の複数のサウンド特徴を受け取ることは、
    前記入力サウンドの第2の部分を第2の複数のフレームにセグメント化することと、
    前記第2の複数のフレームのうちの少なくとも1つのフレームから第2のサウンド特徴を抽出することと、
    を備える、請求項1に記載の方法。
  13. 前記ターゲットキーワードとして検出される前記入力サウンドに応答して、前記ターゲットキーワードに関連付けられた前記機能をアクティブ化することをさらに備える、請求項1に記載の方法。
  14. モバイルデバイスであって、
    バッファにおいてサウンド特徴を受け取り、および記憶するための手段、ここにおいて、前記サウンド特徴は、第1の複数のサウンド特徴と第2の複数のサウンド特徴とを含み、前記第2の複数のサウンド特徴は、前記第1の複数のサウンド特徴が前記バッファにおいて受け取られた後に、前記バッファにおいて受け取られる、と、
    一旦前記バッファにおいて前記第1の複数のサウンド特徴が受け取られたら、前記第1の複数のサウンド特徴の特徴統計量を生成するための手段と、
    前記バッファにおいて受け取られた前記第2の複数のサウンド特徴の各サウンド特徴について前記特徴統計量を更新するための手段と、
    前記サウンド特徴を記憶するための前記手段が前記第2の複数のサウンド特徴のサウンド特徴を受け取る間に、前記サウンド特徴を記憶するための前記手段から第1の数のサウンド特徴を処理するための手段、前記第1の数の前記サウンド特徴は、2つ以上のサウンド特徴を含み、ここにおいて、前記処理することは、前記第1の複数のサウンド特徴の前記特徴統計量または前記更新された特徴統計量に基づく、と、
    前記処理されたサウンド特徴の各々についてのキーワードスコアを決定するための手段と、
    前記キーワードスコアのうちの少なくとも1つが閾値スコアより大きいとき、ターゲットキーワードとして入力サウンドを検出するための手段と、
    を備える、モバイルデバイス。
  15. モバイルデバイスにおける機能をアクティブ化するために、入力サウンドからターゲットキーワードを検出するための命令を記憶する、非一時的なコンピュータ読取可能記憶媒体であって、前記命令は、プロセッサに請求項1〜13のいずれか一項に記載の方法を行わせる、コンピュータ読取可能記憶媒体。
JP2016512921A 2013-05-07 2014-04-24 キーワード検出のための適応的オーディオフレーム処理 Ceased JP2016522910A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361820464P 2013-05-07 2013-05-07
US61/820,464 2013-05-07
US201361859048P 2013-07-26 2013-07-26
US61/859,048 2013-07-26
US14/102,097 US20140337030A1 (en) 2013-05-07 2013-12-10 Adaptive audio frame processing for keyword detection
US14/102,097 2013-12-10
PCT/US2014/035244 WO2014182459A1 (en) 2013-05-07 2014-04-24 Adaptive audio frame processing for keyword detection

Publications (2)

Publication Number Publication Date
JP2016522910A JP2016522910A (ja) 2016-08-04
JP2016522910A5 true JP2016522910A5 (ja) 2017-05-18

Family

ID=51865435

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016512921A Ceased JP2016522910A (ja) 2013-05-07 2014-04-24 キーワード検出のための適応的オーディオフレーム処理

Country Status (6)

Country Link
US (1) US20140337030A1 (ja)
EP (1) EP2994911B1 (ja)
JP (1) JP2016522910A (ja)
KR (1) KR20160005050A (ja)
CN (1) CN105229726B (ja)
WO (1) WO2014182459A1 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
US10460722B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Acoustic trigger detection
US10460729B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Binary target acoustic trigger detecton
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
US11423885B2 (en) 2019-02-20 2022-08-23 Google Llc Utilizing pre-event and post-event input streams to engage an automated assistant
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN112534771B (zh) * 2019-07-17 2024-04-19 谷歌有限责任公司 在基于声学的数字助理应用中验证触发关键字的系统和方法
KR102243325B1 (ko) * 2019-09-11 2021-04-22 넷마블 주식회사 시동어 인식 기술을 제공하기 위한 컴퓨터 프로그램
US20210225366A1 (en) * 2020-01-16 2021-07-22 British Cayman Islands Intelligo Technology Inc. Speech recognition system with fine-grained decoding
US11269592B2 (en) * 2020-02-19 2022-03-08 Qualcomm Incorporated Systems and techniques for processing keywords in audio data
US11778361B1 (en) * 2020-06-24 2023-10-03 Meta Platforms Technologies, Llc Headset activation validation based on audio data

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4837830A (en) * 1987-01-16 1989-06-06 Itt Defense Communications, A Division Of Itt Corporation Multiple parameter speaker recognition system and methods
US5794194A (en) * 1989-11-28 1998-08-11 Kabushiki Kaisha Toshiba Word spotting in a variable noise level environment
US5596679A (en) * 1994-10-26 1997-01-21 Motorola, Inc. Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs
JP3079006B2 (ja) * 1995-03-22 2000-08-21 シャープ株式会社 音声認識制御装置
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
FI114247B (fi) * 1997-04-11 2004-09-15 Nokia Corp Menetelmä ja laite puheen tunnistamiseksi
US6226612B1 (en) * 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US6138095A (en) * 1998-09-03 2000-10-24 Lucent Technologies Inc. Speech recognition
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
US6778961B2 (en) * 2000-05-17 2004-08-17 Wconect, Llc Method and system for delivering text-to-speech in a real time telephony environment
US6671699B1 (en) * 2000-05-20 2003-12-30 Equipe Communications Corporation Shared database usage in network devices
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition
JP2002366187A (ja) * 2001-06-08 2002-12-20 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US7444286B2 (en) * 2001-09-05 2008-10-28 Roth Daniel L Speech recognition using re-utterance recognition
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
JP2004341033A (ja) * 2003-05-13 2004-12-02 Matsushita Electric Ind Co Ltd 音声媒介起動装置およびその方法
US7824455B2 (en) * 2003-07-10 2010-11-02 General Motors Corporation High activity water gas shift catalysts based on platinum group metals and cerium-containing oxides
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
JP4322934B2 (ja) * 2007-03-28 2009-09-02 株式会社東芝 音声認識装置、方法およびプログラム
WO2010078386A1 (en) * 2008-12-30 2010-07-08 Raymond Koverzin Power-optimized wireless communications device
CN102118886A (zh) * 2010-01-04 2011-07-06 中国移动通信集团公司 一种语音信息的识别方法和设备
KR101733205B1 (ko) * 2010-04-05 2017-05-08 삼성전자주식회사 오디오 디코딩 시스템 및 그것의 오디오 디코딩 방법
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US8914285B2 (en) * 2012-07-17 2014-12-16 Nice-Systems Ltd Predicting a sales success probability score from a distance vector between speech of a customer and speech of an organization representative
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9646605B2 (en) * 2013-01-22 2017-05-09 Interactive Intelligence Group, Inc. False alarm reduction in speech recognition systems using contextual information
US9349386B2 (en) * 2013-03-07 2016-05-24 Analog Device Global System and method for processor wake-up based on sensor data
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation

Similar Documents

Publication Publication Date Title
JP2016522910A5 (ja)
JP2016526205A5 (ja)
JP2017531240A5 (ja)
EP4113076A3 (en) Anomalous sound detection training apparatus, and methods and program for the same
JP2017511915A5 (ja)
JP2016513843A5 (ja)
EP3009959A3 (en) Identifying content of interest
JP2018500710A5 (ja)
JP2015506617A5 (ja)
EP4235647A3 (en) Determining dialog states for language models
JP2016535335A5 (ja)
JP2016536648A5 (ja)
JP2016511473A5 (ja)
RU2016150428A (ru) Заполнение записей контактов пользователя
JP2016513830A5 (ja)
JP2015525382A5 (ja)
WO2016020391A3 (en) Image analysis system using context features
EP4276819A3 (en) Electronic device and voice recognition method thereof
JP2016538658A5 (ja)
WO2014140816A3 (en) Apparatus and method for performing actions based on captured image data
JP2016540250A5 (ja)
JP2018128996A5 (ja)
JP2016503554A5 (ja)
JP2017168088A5 (ja)
RU2019119697A (ru) Контекстный поиск в мультимедийном контенте