JP2017535809A - サウンド検出モデルを生成するためのサウンドサンプル検証 - Google Patents

サウンド検出モデルを生成するためのサウンドサンプル検証 Download PDF

Info

Publication number
JP2017535809A
JP2017535809A JP2017521507A JP2017521507A JP2017535809A JP 2017535809 A JP2017535809 A JP 2017535809A JP 2017521507 A JP2017521507 A JP 2017521507A JP 2017521507 A JP2017521507 A JP 2017521507A JP 2017535809 A JP2017535809 A JP 2017535809A
Authority
JP
Japan
Prior art keywords
sound
acoustic feature
sound sample
sample
electronic device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2017521507A
Other languages
English (en)
Other versions
JP2017535809A5 (ja
Inventor
ムン、ソンクク
ジン、ミンホ
シャ、ハイイン
ファン、ヘス
デール、ウォーレン・フレデリック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2017535809A publication Critical patent/JP2017535809A/ja
Publication of JP2017535809A5 publication Critical patent/JP2017535809A5/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)

Abstract

電子デバイスにおいてサウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための方法は、第1のサウンドサンプルを受け取ることと、第1のサウンドサンプルから第1の音響特徴を抽出することと、第2のサウンドサンプルを受け取ることと、第2のサウンドサンプルから第2の音響特徴を抽出することと、第2の音響特徴が第1の音響特徴に類似するかどうかを決定することと、を含む。
【選択図】 図3

Description

関連出願の相互参照
[0001] 本願は、2014年10月22日に提出された「SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL」と題された米国仮特許出願第62/067,322号、および2015年4月8日に提出された「SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL」と題された米国特許出願第14/682,009号からの優先権の利益を主張するものであり、その全体の内容が参照により本明細書に組み込まれている。
[0002] 本願は、一般に、電子デバイスにおいてサウンドサンプルを検証することに関し、より具体的には、電子デバイスにおいてサウンド検出モデルを生成するためにサウンドサンプルを検証することに関する。
[0003] 近年、スマートフォン、タブレットコンピュータ、ウェアラブル電子デバイスなどのような電子デバイスが、消費者の間で急速に普及してきている。これらのデバイスは通常、ワイヤレスまたは有線ネットワークを介してボイスおよび/またはデータ通信機能を提供している。加えて、このような電子デバイスは、ユーザからのボイスコマンドを受け取りかつ認識するための音声認識機能(speech recognition function)を含むことが多い。このような機能は、ユーザからのボイスコマンドが受け取られ、認識されるときに、ボイスコマンド(例えば、キーワード)に関連付けられた機能を電子デバイスが実行することを可能にする。例えば、電子デバイスは、ユーザからのボイスコマンドに応答して、ボイスアシスタントアプリケーションをアクティブ化し、オーディオファイルを再生し、あるいは写真撮影を行い得る。
[0004] 音声認識特徴を有する電子デバイスにおいて、製造業者またはキャリアは、予め定められたキーワードおよび関連付けられたサウンドモデルをデバイスに備えることが多く、それらは、入力サウンド中のキーワードを検出する際に使用され得る。これらのサウンドモデルは通常、様々なサウンド環境における異なる話者からのキーワードの、非常に多くのサウンドレコーディング(例えば、数千以上の音声サンプル)に基づいて生成される。製造業者またはキャリアによって提供されるこのようなサウンドモデルは、電子デバイスのユーザによって洗練され(refined)得る。例えば、電子デバイスは、予め定められたキーワードのうちの数個の発話(utterances)をユーザから受け取り、その発話を使用して、予め定められたキーワードに関連付けられる予め記憶された(pre-stored)サウンドモデルを訓練(train)し得る。いくつかの電子デバイスはまた、あるキーワードをユーザがボイスコマンドに指定することも可能にし得る。この場合、電子デバイスは、指定されたキーワードのうちの数個の発話をユーザから受け取り、指定されたキーワードについてのサウンドモデルをその発話から生成し得る。
[0005] 一般に、サウンドモデルの検出性能は、サウンドモデルが生成または訓練される発話の数と品質に関連する。サウンドモデルの検出性能は、発話の数が増えるにつれて改善され得る。しかしながら、キーワードについての所定数の発話に対し、発話の品質は話者間または発話間で異なり得る。例えば、意図されないユーザからの発話が受け取られた場合、その発話から生成されたキーワードモデルの検出性能は、意図されたユーザからの入力サウンド中のキーワードを検出する際に低くなり得る。一方、ユーザがキーワードを2つの発話で異なって発音する場合、その発話から生成されたサウンドモデルからのキーワードは、正しく検出されない可能性がある。さらに、いくつかの発話は、騒音のある環境で受け取られる可能性があり、そのため、サウンドモデルを生成するのに十分な品質を提供しない可能性がある。よって、このような発話から生成または訓練されたサウンドモデルは、適切な検出性能を実現しない可能性がある。
[0006] 本開示は、電子デバイスにおいてサウンド検出モデルを生成するためのサウンドサンプルを検証することに関する。
[0007] 本開示の1つの態様によると、サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための方法が開示される。方法は、電子デバイスにおいて実行され得る。この方法では、第1のサウンドサンプルが受け取られ得る。第1の音響特徴は、第1のサウンドサンプルから抽出され得る。さらに、第2のサウンドサンプルが受け取られ得る。第2の音響特徴は、第2のサウンドサンプルから抽出され得る。第2の音響特徴が第1の音響特徴に類似するかどうかが、決定される。本開示はまた、この方法に関連する装置、デバイス、システム、手段の組み合わせ、およびコンピュータ可読媒体を説明する。
[0008] 本開示の別の態様によると、サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための電子デバイスが開示される。電子デバイスは、サウンドセンサとサウンドサンプル検証ユニットとを含み得る。サウンドセンサは、第1のサウンドサンプルおよび第2のサウンドサンプルを受け取るように構成され得る。サウンドサンプル検証ユニットは、第1のサウンドサンプルから第1の音響特徴を抽出し、第2のサウンドサンプルから第2の音響特徴を抽出し、第2の音響特徴が第1の音響特徴に類似するかどうかを決定するように構成され得る。
[0009] 本開示の発明の態様の実施形態は、添付の図面とともに読むとき、下記の詳細な説明に関連して理解されるだろう。
[0010] 図1は、本開示の1つの実施形態に従った、サウンド検出モデルを生成するために1つ以上のサウンドサンプルを検証するように構成された電子デバイスを図示する。 [0011] 図2は、本開示の別の実施形態に従った、サウンド検出モデルを生成するために1つ以上のサウンドサンプルを検証するように構成された電子デバイスを図示する。 [0012] 図3は、本開示の1つの実施形態に従った、サウンド検出モデルを生成するために1つ以上のサウンドサンプルを検証するように構成された電子デバイスのブロック図を図示する。 [0013] 図4は、本開示の1つの実施形態に従った、1つ以上のサウンドサンプルが、サウンド検出モデルを生成する際に使用され得るかどうかを決定するように構成された、電子デバイス中のサウンドサンプル検証ユニットのブロック図を図示する。 [0014] 図5は、本開示の1つの実施形態に従った、サウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0015] 図6は、本開示の1つの実施形態に従った、組み合わせられた音響特徴を決定するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0016] 図7は、本開示の別の実施形態に従った、サウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0017] 図8は、本開示の1つの実施形態に従った、一括モード(batch mode)でサウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0018] 図9は、本開示の1つの実施形態に従った、1つ以上のサウンドサンプルの音響特徴が類似するかどうかを決定するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0019] 図10は、本開示のいくつかの実施形態に従った、サウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するための方法および装置が実装され得る電子デバイスのブロック図を図示する。 [0020] 図11は、いくつかの実施形態に従って実装された、先に説明されたサーバのいずれか1つであり得るサーバシステムを図示するブロック図を図示する。
詳細な説明
[0021] 様々な実施形態に対して詳細に参照がなされ、その例が添付の図面で図示される。下記の詳細な説明では、本願の主題の完全な理解を提供するために、多くの特定の詳細が記載される。しかしながら、これらの特定の詳細がなくとも本願の主題が実現され得ることは、当業者にとって明らかだろう。他の事例では、様々な実施形態の態様を余計に曖昧にしないように、周知の方法、プロシージャ、システム、および構成要素は、詳細には説明されていない。
[0022] 図1は、本開示の1つの実施形態に従った、サウンド検出モデルを生成するために複数のサウンドサンプルS1、S2、S3、S4、およびS5を検証するように構成された電子デバイス100を図示する。電子デバイス100は、スマートフォン、セルラフォン、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートテレビジョン、ゲームデバイス、マルチメディアプレーヤなどのような、サウンドキャプチャ能力および処理能力を備えた任意の適切なデバイスであり得る。電子デバイス100は、サウンド検出モデルを生成する際の使用のためのサウンドサンプルS1、S2、S3、S4、およびS5をユーザ120から受け取り得る。
[0023] 電子デバイス100は、5つのサウンドサンプルS1、S2、S3、S4、およびS5を受け取るように図示されているが、任意の適切な数のサウンドサンプルがサウンド検出モデルを生成するために受け取られおよび処理され、また、サウンドサンプルの数は、ユーザの便宜、好み、性能要求のような多数の要素に基づいて、予め定められ得る。1つの実施形態では、サウンドサンプルS1、S2、S3、S4、およびS5が次々に受け取られ、次に、一括モードで処理され得る。別の実施形態では、サウンドサンプルS1、S2、S3、S4、およびS5は、下記の図2を参照してさらに詳細に説明されるように、1つずつ受け取られ、処理され得る。
[0024] 本明細書で使用される際に、「サウンド検出モデル」という用語は、電子デバイス100によって受け取られた入力サウンドのサウンド信号またはデータにおいて、キーワードおよび/または特定のユーザを検出する際に使用されるモデルまたはデータベースを指し得、キーワードおよび/またはユーザを示す1つ以上の音響特徴(acoustic features)または特性を含み得る。例えば、サウンド検出モデルは、キーワードに関連付けられるまたはキーワードを示すキーワード検出モデルであり得、ユーザから受け取った入力音声中のキーワードを検出するように適合され得る。「キーワード」という用語は、電子デバイス100中の機能またはアプリケーションをアクティブ化、動作、または制御するために使用され得る、1つ以上のワードの任意のデジタルまたはアナログサウンド表現を指し得る。追加的にまたは代替的に、サウンド検出モデルは、入力サウンドからユーザを認識するように適合されたスピーカ検証モデルであり得る。
[0025] 1つの実施形態では、音響特徴は、スペクトル特徴、時間領域特徴などを含み得、それらは、キーワードまたは特定のユーザを示し得る。スペクトル特徴は、メル周波数ケプストラム係数(MFCC:mel frequency cepstral coefficients)、ケプストラム差分係数(デルタMFCC)、線スペクトルペア(LSP:line spectral pair)係数などを含み得る。時間領域特徴は、ゼロ交差率(zero crossing rate)、フレームエネルギなどを含み得る。音響特徴はまた、平均値、中央値、モード、変数、標準偏差、共分散、最大値、最小値、尖度、高次運動量(high order momentum)などのような、スペクトル特徴または時間領域特徴の統計的尺度も含み得、それらは、キーワードまたは特定のユーザを示し得る。別の実施形態では、音響特徴は、キーワードまたは特定のユーザを示し得るサブワード(subwords)のシーケンスを含み得る。本明細書で説明されるような「サブワード」または「サブワードユニット」という用語は、音(phone)、音素(phoneme)、トライフォン(triphone)、音節などのような、基本サウンドユニットを指し得る。追加的にまたは代替的に、音響特徴は、サウンド強度レベル(sound intensity level)、信号対雑音比(SNR)、または残響時間(RT)を含み得、それらは、サウンド品質を示し得る。
[0026] 電子デバイス100は、1つ以上の関連付けられた機能またはアプリケーションをアクティブ化または実行するための1つ以上のキーワードを電子デバイス100中に記憶するように構成され得る。キーワードは、1つ以上の予め定められたキーワード(例えば、製造業者によって割り当てられたキーワード)および/または1つ以上のユーザによって定義された(user-defined)キーワードであり得る。予め定められたキーワードについてのキーワード検出モデルは、電子デバイス100によって受け取られた入力サウンド中の予め定められたキーワードを検出する際に使用され得る。1つの実施形態によると、複数の予め定められたキーワードについての複数のキーワード検出モデルは、電子デバイス100のサードパーティプロバイダまたは製造業者によって生成され、電子デバイス100中に予め記憶される、および/または、外部サーバまたはデバイス(図示されない)からダウンロードされ得る。
[0027] 図示される実施形態では、電子デバイス100は、予め定められたキーワード「やあ、スナップドラゴン(Hey Snapdragon)」130を示すサウンドサンプルS1、S2、S3、S4、およびS5をユーザ120から受け取り得る。予め定められたキーワードに関連付けられる予め記憶されたキーワード検出モデルは、ユーザ120からのサウンドサンプルS1、S2、S3、S4、およびS5に基づいてキーワード検出モデルを訓練することによって、ユーザ120に適合され得る。電子デバイス100は次に、入力サウンド中の予め定められたキーワードを検出するために、ユーザ120に適合された、訓練されたキーワード検出モデルを使用し得る。
[0028] 追加的なまたは代替的な実施形態では、ユーザ120はまた、電子デバイス100においてアクティブ化または実行される1つ以上の機能またはアプリケーションに関連付けられる、1つ以上のユーザによって定義されたキーワードを定義し得る。例えば、電子デバイス100は、ユーザによって定義されたキーワードを示すサウンドサンプルとして、ユーザ120からサウンドサンプルS1、S2、S3、S4、およびS5を受け取り得る。本明細書で説明されるような「ユーザによって定義されたキーワード」という用語は、電子デバイス100の機能またはアプリケーションをアクティブ化または実行するために、ユーザ120によって定義または指定され得るキーワードを指し得る。受け取ったサウンドサンプルS1、S2、S3、S4、およびS5に基づいて、電子デバイス100は、ユーザ120に適合された、ユーザによって定義されたキーワードについてのキーワード検出モデルを生成し得る。電子デバイス100は次に、入力サウンド中のユーザによって定義されたキーワードを検出するために、ユーザ120に適合された、生成されたキーワード検出モデルを使用し得る。
[0029] 追加的にまたは代替的に、サウンド検出モデルは、入力サウンドからユーザ120を認識するように適合されたスピーカ検証モデルを含み得る。ユーザ120を認識するためのスピーカ検証モデルを生成するために、電子デバイス100は、予め定められたキーワードまたはユーザによって定義されたキーワードのようなキーワードを、予め定められ得る特定の回数話すようユーザ120に要求し得る。ユーザ120が、要求された数のサウンドサンプル(例えば、サウンドサンプルS1、S2、S3、S4、およびS5)を提供するとき、電子デバイス100は、提供されたサウンドサンプルに基づいて、ユーザ120についてのスピーカ検証モデルを生成し得る。電子デバイス100は次に、ユーザ120に関連付けられているような入力サウンドを認識するために、ユーザ120に適合された、生成されたスピーカ検証モデルを使用し得る。
[0030] サウンド検出モデルを生成するためのサウンドサンプルS1、S2、S3、S4、およびS5が一旦受け取られると、電子デバイス100は、受け取ったサウンドサンプルS1、S2、S3、S4、およびS5の各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。この処理では、サウンドサンプルS1、S2、S3、S4、およびS5の各々から1つ以上の音響特徴が抽出され得る。1つの実施形態では、電子デバイス100は、関連付けられる抽出された音響特徴を比較することによって、サウンドサンプルS1、S2、S3、S4、およびS5の各ペアの音響特徴が類似するかどうかを決定し得る。少なくとも2つのサウンドサンプルの音響特徴が互いに類似すると決定される場合、電子デバイス100は、その少なくとも2つのサウンドサンプルが類似することを決定し、それらは、サウンド検出モデルを生成する際に使用され得る。一方、あるサウンドサンプルの音響特徴が、少なくとも2つの他のサウンドサンプルの音響特徴に類似しないと決定される場合、そのサウンドサンプルは、サウンド検出モデルを生成する際に使用されない可能性がある。
[0031] いくつかの実施形態では、サウンドサンプルS1、S2、S3、S4、およびS5からサウンドサンプルのペアが選択され得、選択されたサウンドサンプルの各々から音響特徴が抽出され得る。電子デバイス100は次に、選択されたサウンドサンプルの音響特徴が互いに類似するかどうかを決定し得る。例えば、電子デバイス100は、サウンドサンプルS1およびS2を選択し、サウンドサンプルS1およびS2の音響特徴が互いに類似するかどうかを決定し得る。サウンドサンプルS1とS2との音響特徴が類似すると決定される場合、電子デバイス100は、サウンドサンプルS1とS2とが類似することを決定し、それらは、サウンド検出モデルを生成する際に使用され得る。
[0032] 1つの実施形態では、電子デバイス100は、サウンドサンプルS1およびS2の音響特徴に基づいて、残りのサウンドサンプルS3、S4、およびS5の各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。例えば、サウンドサンプルS1およびS2の音響特徴は、サウンドサンプルS1およびS2についての組み合わせられた音響特徴を生成するために組み合わせられ得る。電子デバイス100は、サウンドサンプルS3を選択し得、サウンドサンプルS3から音響特徴を抽出し得る。サウンドサンプルS1およびS2の組み合わせられた音響特徴は次に、サウンドサンプルS3から抽出された音響特徴と比較され得る。組み合わせられた音響特徴とサウンドサンプルS3の音響特徴とが類似すると決定される場合、電子デバイス100は、サウンドサンプルS3がサウンド検出モデルを生成する際に使用され得ることを決定し得る。電子デバイス100は、2つ以上のサウンドサンプルの組み合わせられた音響特徴に基づいて、サウンドサンプルS4およびS5がサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。例えば、サウンドサンプルS4は、サウンドサンプルS1およびS2の組み合わせられた音響特徴、またはサウンドサンプルS1、S2、およびS3の組み合わせられた音響特徴に基づいて処理され得る。
[0033] 本明細書で使用されるような「類似する音響特徴」という用語、またはそれのバリエーションに相当する語句は、スペクトル特徴、時間領域特徴、統計的尺度、サブワードなどのようなパラメータまたは特徴値中の指定された許容値または閾値あるいは割合内で、音響特徴が同じかまたは実質的に同じであることを意味し得る。例えば、音響特徴中のサブワードの2つのシーケンスのケースについて、電子デバイス100は、シーケンス中の同一サブワードの割合が閾値を超える場合に、2つのシーケンスが類似することを決定し得る。1つの実施形態では、2つの音響特徴は、それらが30%未満だけ異なるときに、類似すると決定され得る。
[0034] 1つの実施形態では、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5の各々のサウンド強度レベル(例えば、平均のサウンド強度値)を音響特徴として決定し得る。サウンドサンプルのサウンド強度レベルが閾値サウンドレベルよりも低いと決定される場合、それは、そのサウンドサンプルが優れた(good)サウンドサンプルではないことを示し得る。従って、電子デバイス100は、サウンド検出モデルを生成する際にそのサウンドサンプルが使用されない可能性があることを決定し得る。
[0035] 追加的にまたは代替的に、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5の各々のSNRを音響特徴として決定し得る。サウンドサンプルのSNRが閾値SNRよりも低いと決定される場合、それは、そのサウンドサンプルが非常に多くのノイズを有することを示し得る。よって、電子デバイス100は、サウンド検出モデルを生成する際にそのサウンドサンプルが使用されない可能性があることを決定し得る。
[0036] サウンドサンプルS1、S2、S3、S4、およびS5がサウンド検出モデルを生成する際に使用され得るかどうかを決定すると、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5がサウンド検出モデルを生成するために使用され得るかどうかの指示を出力し得る。図示される実施形態では、予め定められたキーワード「やあ、スナップドラゴン」130に関して、電子デバイス100は、キーワードについての5つのサウンドサンプルS1、S2、S3、S4、およびS5をユーザ120から受け取り得る。サウンドサンプルS1、S2、S3、S4、およびS5の各々について、電子デバイス100は、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。例えば、電子デバイス100は、図1で示されるように、サウンドサンプルS1、S2、S4、およびS5がサウンド検出モデルを生成する際に使用され得ることを決定し得る。
[0037] 一方、電子デバイス100は、サウンドサンプルS3がサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。例えば、サウンドサンプルS3の複数のスペクトル特徴がサウンドサンプルS1、S2、S4、およびS5の各々の対応するスペクトル特徴に類似しないことを決定すると、電子デバイス100は、サウンドサンプルS3に関連付けられたユーザと、サウンドサンプルS1、S2、S4、およびS5に関連付けられたユーザとが異なることを決定し得、そのため、サウンドサンプルS3がサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。
[0038] 1つの実施形態では、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5の各々がサウンド検出モデルを生成する際に使用され得るかどうかを示す、サウンドサンプルS1、S2、S3、S4、およびS5のリスト136をディスプレイスクリーン110上に表示し得る。例えば、リスト136は、サンプルS1、S2、S4、およびS5の各々をチェックマークとともにボックス内に表示することによって、サウンドサンプルS1、S2、S4、およびS5が、サウンド検出モデルを生成するために使用され得る優れたサウンドサンプルであることを示し得る。一方、優れたサウンドサンプルではない可能性があるサウンドサンプルS3は、リスト136に丸印で表示され得る。さらに、サウンドサンプルS3が異なるユーザに関連付けられることを示すメッセージ138が、ディスプレイスクリーン110上に表示され得る。追加的にまたは代替的に、サウンドサンプルS3が優れたサウンドサンプルではないためサウンド検出モデルを生成する際に使用されない可能性があることを示す不機嫌な顔(frowning face)132が、サウンドサンプルS3に関する追加のサウンドサンプルを入力するようユーザ120に要求するメッセージ134とともに、ディスプレイスクリーン100上に表示され得る。
[0039] いくつかの実施形態では、メッセージ138は、サウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性がある1つ以上の理由の簡単な説明を含み得る。例えば、メッセージ138は、サウンドサンプルの話者特性(speaker characteristics)が他のサウンドサンプルの話者特性とは異なること、サウンドサンプルの認識されたキーワードが他のサウンドサンプルの認識されたキーワードとは異なること、サウンドサンプルのサウンド強度レベルが閾値サウンド強度レベルよりも低いこと、サウンドサンプルのSNRが閾値SNRよりも低いことなどを示す、1つ以上の理由を含み得る。
[0040] 電子デバイス100はまた、関連付けられた音響特徴に基づいて、サウンドサンプルS1、S2、S3、S4、およびS5の間で最も高い品質のサウンドサンプルを決定するように構成され得る。最も高い品質のサウンドサンプルは、サウンド検出モデルのためサブワードのシーケンスを生成するために使用され得る。この実施形態では、アイコン140(例えば、クリック可能なバー(clickable bar))は、最も高い品質のサウンドサンプルを最も優れたサウンドサンプルとして再生するためのコマンドに関連付けられ、ディスプレイスクリーン110上に表示され得る。ユーザ120がアイコン140を押下するとき、電子デバイス100は、最も優れたサウンドサンプル再生し、それは、ユーザ120によって1つ以上の追加のサウンドサンプルを入力するために参照され得る。追加的にまたは代替的に、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5のうちの1つを最も優れたサウンドサンプルであると識別するユーザ120からの入力を受け取り、識別されたサウンドサンプルに基づいてサウンド検出モデルのためのサブワードのシーケンスを生成し得る。電子デバイス100は、最も優れたサウンドサンプルを再生するためのアイコン140を表示するように構成されるが、それはまた、ユーザ120がリスト136中のサウンドサンプルS1〜S5の間の任意のサウンドサンプルを選択し、選択されたサウンドサンプルを再生することを可能にするようにも構成され得る。
[0041] 1つの実施形態では、電子デバイス100は、1つ以上の代替のまたは追加のサウンドサンプルを入力するために、複数のアイコン142および144を表示し得る。アイコン「前のやり直し(Redo Previous)」142は、前に受け取ったサウンドサンプルを再度入れることをユーザ120に示し得る。ユーザ120がアイコン142を押下するとき、電子デバイス100は、前に受け取ったサウンドサンプルを廃棄し、その廃棄されたサウンドサンプルに対する代替サンプル(replacement sample)として、新規のサウンドサンプルをユーザ120から受け取り得る。一方、アイコン「始めからやり直す(Start Over)」144は、廃棄され得るサウンドサンプルS1〜S5に対して新規のサウンドサンプルを入れることを示し得る。例えば、サウンド検出モデルを生成する際に使用されると決定されるサウンドサンプルS1〜S5がない場合、またはユーザ120がサウンドサンプルS1〜S5に対して新規のサウンドサンプルを入れることを希望する場合、ユーザ120は、アイコン144を押下することによって新規のサウンドサンプルを入力し得る。新規のサウンドサンプルを受け取ると、電子デバイス100は、新規のサウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定し、新規のサウンドサンプルについての結果をディスプレイスクリーン110上に表示し得る。
[0042] いくつかの実施形態によると、電子デバイス100はまた、サウンド検出モデルを生成する際に使用され得る1つ以上のサウンドサンプルS1、S2、S3、S4、およびS5を選択する、ユーザ120からの入力を受け取るように構成され得る。例えば、ユーザ120は、サウンド検出モデルを生成する際の使用のために、サウンドサンプルS1、S2、およびS4を選択し得る。追加的にまたは代替的に、電子デバイス100は、新規のサウンドサンプルと置き換えられる1つ以上のサウンドサンプルを選択する、ユーザ120からの入力を受け取り得る。例えば、ユーザ120は、新規のサウンドサンプルと置き換えられる、電子デバイス100によってサウンド検出モデルを生成する際に使用されると決定されている可能性があるサウンドサンプルS4を選択し得る。このように、電子デバイス100は、ユーザ120による選択に基づいて、サウンドサンプルS1、S2、S3、S4、およびS5に対する1つ以上の新規のサウンドサンプルを受け取り、処理し得る。
[0043] サウンドサンプルS1、S2、S3、S4、およびS5がサウンド検出モデルを生成する際に使用されると決定されるとき、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、またはS5のうちの少なくとも1つに基づいて、サウンド検出モデルを生成し得る。例えば、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5の音響特徴に基づいて、サウンド検出モデルを生成し得る。この場合、音響特徴は、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定するために使用されている音響特徴と同じ音響特徴であり得る。追加的にまたは代替的に、電子デバイス100は、サウンド検出モデルを生成するように適合され、または生成するのに適切なサウンドサンプルから音響特徴を抽出し得る。
[0044] 1つの実施形態では、電子デバイス100は、除外または廃棄されているか、あるいは低いSNRのために新規のサウンドサンプルと置換られている可能性がある少なくとも1つのサウンドサンプルを、生成されたサウンド検出モデルを調整または修正する際に、ノイズが含まれたサウンドサンプル(noise-embedded sound sample)として使用し得る。例えば、人工的に生成されたノイズサンプルを使用することに加えてまたはその代わりに、除外または廃棄されている可能性があるサウンドサンプルは、生成されたサウンド検出モデルを調整する際に、ノイズが含まれたサウンドサンプルとして使用され得る。1つ以上のこのようなサウンドサンプルを使用することは、実質的に騒音のない環境および騒音のある環境を含む様々なサウンド環境において、サウンド検出モデルの検出性能を改善し得る。
[0045] 追加的にまたは代替的に、電子デバイス100は、低いSNR、低いサウンド強度レベルなどのために廃棄されている可能性がある少なくとも1つのサウンドサンプルを、サウンド検出モデルについての閾値(例えば、検出または類似性閾値)を調整するために使用し得る。例えば、キーワードを示す入力サウンドが受け取られるとき、キーワードに関連付けられたサウンド検出モデルを閾値に基づいて識別するために、電子デバイス100中に記憶された複数のサウンド検出モデルがアクセスされ得る。サウンド検出モデルを識別するために、複数のサウンド検出モデル中の入力サウンドとキーワードの各々との間の類似性の度合いが決定され得る。電子デバイス100は次に、非常に高い類似性を有し、その類似性の度合いが閾値以上であるサウンド検出モデルを、キーワードについてのサウンド検出モデルとして識別し得る。1つの実施形態では、サウンド検出モデルについての閾値は、サウンド検出モデルを生成する際に使用されると決定されているサウンドサンプルのうちの少なくとも1つに基づいて決定され得る。サウンド検出モデルについての検出精度を強化するために、サウンド検出モデルについての閾値は、低いSNR、低いサウンド強度レベルなどのために廃棄されている可能性がある、少なくとも1つのサウンドサンプルに基づいて調整され得る。例えば、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5の話者特性とは異なる話者特性、予め定められた閾値SNRより低いSNRなどを有し得る1つ以上のサウンドサンプルを使用して、サウンド検出モデルについての閾値を調整し得る。
[0046] 図2は、本開示の別の実施形態に従った、サウンド検出モデルを生成するための1つ以上のサウンドサンプルS1、S2、S3、S4、およびS5を検証するように構成され得る電子デバイス100を図示する。この実施形態では、サウンドサンプルS1、S2、S3、S4、およびS5は、1つずつ順に受け取られ、処理され得る。1つの実施形態では、電子デバイス100は、サウンドサンプルが受け取られるときに各サウンドサンプルから音響特徴を抽出し、サウンドサンプルのサウンド品質が、サウンド検出モデルを生成する際の使用のための閾値品質以上であるかどうかを、サウンド品質を示す音響特徴に基づいて検証し得る。サウンドサンプルのサウンド品質が閾値品質よりも低いことが決定される場合、電子デバイス100は、サウンドサンプルのサウンド品質が閾値品質以上であると決定されるまで、代替のサウンドサンプルとしてユーザ120から新規のサウンドサンプルを受け取り得る。電子デバイス100は次に、サウンドサンプルの音響特徴と1つ以上の他のサウンドサンプルとが類似するかどうかに基づいて、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定することを進め得る。
[0047] 電子デバイス100は始めに、ユーザ120からサウンドサンプルS1を受け取り、サウンドサンプルS1から音響特徴を抽出し得る。電子デバイス100は、SNR、サウンド強度レベルなどのようなサウンド品質を示す音響特徴に基づいて、サウンドサンプルS1のサウンド品質が、サウンド検出モデルを生成する際の使用のための閾値品質以上であるかどうかを決定し得る。サウンドサンプルS1のサウンド品質が閾値品質よりも低いことを電子デバイス100が決定する場合、サウンドサンプルS1のサウンド品質がサウンド検出モデルを生成する際の使用のための閾値品質以上であると決定されるまで、サウンドサンプルS1を再度入れるようユーザ120に促すメッセージ134を表示し得る。
[0048] 電子デバイス100は、サウンドサンプルS1のサウンド品質がサウンド検出モデルを生成する際の使用のための閾値品質以上であることを決定するとき、ユーザ120から次のサウンドサンプルS2を受け取り、サウンドサンプルS2から音響特徴を抽出し得る。電子デバイス100は、サウンド検出モデルを生成する際の使用のために、サウンドサンプルS1とS2との音響特徴が類似するかどうかを決定し、ディスプレイスクリーン110上にその結果を出力し得る。サウンドサンプルS1とS2との音響特徴が類似すると決定される場合、電子デバイス100は、サウンドサンプルS1およびS2の音響特徴に基づいて、組み合わせられた音響特徴を生成し得る。サウンドサンプルS1とS2との音響特徴が類似しないと決定される場合、電子デバイス100は、サウンドサンプルS1とS2との音響特徴が類似すると決定されるまで、サウンドサンプルS1および/またはS2に対する代替のサウンドサンプルとして、新規のサウンドサンプルを入力するようユーザ120に要求し得る。
[0049] サウンドサンプルS1およびS2の音響特徴が類似することを決定すると、電子デバイス100は、ユーザ120から次のサウンドサンプルS3を受け取り、サウンドサンプルS3から音響特徴を抽出し得る。電子デバイス100は次に、サウンドサンプルS3の音響特徴がサウンドサンプルS1およびS2の組み合わせられた音響特徴に類似するかどうかを決定し得る。追加的にまたは代替的に、電子デバイス100は、サウンドサンプルS1、S2、およびS3の各ペアの音響特徴が類似するかどうかを決定し得る。例えば、電子デバイス100は、サウンドサンプルS1とS3との音響特徴が類似するかどうかを決定する、および/またはサウンドサンプルS2とS3との音響特徴が類似するかどうかを決定し得る。サウンドサンプルS1、S2、およびS3についての結果は、図2で示されるように、ディスプレイスクリーン110上に表示され得る。このように、電子デバイス100はまた、サウンドサンプルS4およびS5を順に受け取ることを進め、サウンドサンプルS4およびS5の各々が、複数の音響特徴または前に受け取ったサウンドサンプルに関連付けられた音響特徴の組み合わせに基づいて、サウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。
[0050] 図示される実施形態で示されるように、電子デバイス100は、サウンドサンプルS1、S2、およびS3の各々がサウンド検出モデルを生成する際に使用され得るかどうかをディスプレイスクリーン110上に示す、サウンドサンプルS1、S2、およびS3のリスト200を表示し得る。例えば、リスト200は、サンプルS1およびS2の各々をチェックマークとともにボックス内に表示することによって、サウンドサンプルS1およびS2が、サウンド検出モデルを生成する際に使用され得る優れたサウンドサンプルであることを示し得る。一方、優れたサウンドサンプルではない可能性があるサウンドサンプルS3は、リスト200に丸印で表示され得る。さらに、サウンドサンプルS3が異なるユーザに関連付けられることを示すメッセージ138もまた、ディスプレイスクリーン110上に表示され得る。追加的にまたは代替的に、サウンドサンプルS3が優れたサウンドサンプルではなく、そのためサウンド検出モデルを生成する際に使用されない可能性があることを示す不機嫌な顔132は、サウンドサンプルS3に関する別のサウンドサンプルを入力するようユーザ120に促すメッセージ134とともに、ディスプレイスクリーン110上に表示され得る。さらに、ディスプレイスクリーン110上のアイコン202は、サウンドサンプルS1、S2、およびS3から選択され得るサウンドサンプルを再生するためのコマンドに関連付けられ得る。サウンドサンプルS3が選択されるときにユーザ120がアイコン202を押下するとき、電子デバイス100は、サウンドサンプルS3を再生し得る。
[0051] 電子デバイス100はまた、1つ以上の代替のまたは追加のサウンドサンプルを入力するために、複数のアイコン142および144も表示し得る。アイコン「前のやり直し」142は、前に受け取ったサウンドサンプル(例えば、サウンドサンプルS3)を再度入れることを示し得る。ユーザ120がアイコン142を押下するとき、電子デバイス100は、廃棄されたサウンドサンプルに対する代替サンプルとして、新規のサウンドサンプルを受け取り得る。一方、アイコン「始めからやり直す」144は、受け取ったサウンドサンプルS1、S2、およびS3に対して、新規のサウンドサンプルを入れることを示し得る。例えば、サウンド検出モデルを生成する際に使用されるサウンドサンプルS1、S2、およびS3がないと決定される場合、またはユーザ120がサウンドサンプルS1、S2、およびS3に対して新規のサウンドサンプルを入れることを希望する場合、ユーザ120は、アイコン144を押下することによって、新規のサウンドサンプルを入力し得る。新規のサウンドサンプルS1、S2、S3、S4、およびS5の各々を順に受け取ると、電子デバイスは、各新規のサウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定し、新規のサウンドサンプルについての決定結果をディスプレイスクリーン110上に表示し得る。
[0052] 図示される実施形態では、サウンドサンプルS4およびS5は、これらがまだ受け取られていないことを示すように、点線の円で図示され得る。電子デバイス100は、サウンドサンプルS3に関して説明されているが、図1を参照して上述される方法でサウンド検出モデルを生成するために、サウンドサンプルS1、S2、S4、およびS5の各々もまた処理し、サウンドサンプルおよび前に受け取ったサウンドサンプルについての情報を累積的に表示し得る。
[0053] 電子デバイス100は、次に続くサウンドサンプルS4およびS5を受け取り、サウンドサンプルS1、S2、S3、S4、およびS5の各々がサウンド検出モデルを生成する際に使用され得ることを決定し得る。サウンドサンプルS1〜S5についての結果は、ディスプレイスクリーン110上に累積的に表示され得る。サウンドサンプルS1、S2、S3、S4、およびS5がサウンド検出モデルを生成する際に使用され得ると決定されるとき、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、またはS5のうちの少なくとも1つに基づいて、サウンド検出モデルを生成し得る。例えば、電子デバイス100は、サウンドサンプルS1、S2、S3、S4、およびS5の音響特徴に基づいてサウンド検出モデルを生成し得る。この場合、音響特徴は、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定するために使用されている音響特徴と同じ音響特徴であり得る。追加的にまたは代替的に、電子デバイス100は、サウンド検出モデルを生成するように適合されたまたは生成するのに適切なサウンドサンプルから、音響特徴を抽出し得る。いくつかの実施形態によると、電子デバイス100はまた、サウンドサンプルの各々がサウンド検出モデルを生成する際に使用され得るかどうかを示す、ユーザ120からの入力を受け取るように構成され得る。この場合、サウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があると電子デバイス100が決定したとしても、ユーザ120によって選択された1つ以上のサウンドサンプルは、サウンド検出モデルを生成する際に使用され得る。
[0054] 図3は、本開示の1つの実施形態に従った、サウンド検出モデルを生成するために1つ以上のサウンドサンプルを検証するように構成された電子デバイス100のブロック図を図示する。電子デバイス100は、サウンドセンサ300、入力/出力(I/O)ユニット310、通信ユニット320、記憶ユニット330、およびプロセッサ340を含み得る。I/Oユニット310は、ディスプレイスクリーン110およびスピーカ(図示されない)を含み得る。ディスプレイスクリーン110は、ユーザからのタッチ入力を受け取るように構成されたタッチディスプレイスクリーンであり得る。プロセッサ340は、サウンドサンプル検証ユニット342、サウンド検出モデル生成ユニット344、サウンド検出ユニット346、およびボイスアシスタントユニット348を含み得る。プロセッサ340は、電子デバイスについての命令を実行するまたは動作を行い得る、中央処理ユニット(CPU)、アプリケーションプロセッサ、マイクロプロセッサなどのような任意の適切な処理ユニットを使用して実装され得る。
[0055] サウンドセンサ300は、ユーザからの入力サウンドストリームを受け取るように構成され得る。本明細書で使用される場合、「サウンドストリーム」という用語は、1つ以上のサウンド信号またはサウンドデータのシーケンスを指し得る。サウンドセンサ300は、電子デバイス100へのサウンド入力を受け取り、キャプチャし、感知し、および/または検出するために使用され得る、1つ以上のマイクロフォンまたは任意の他のタイプのサウンドセンサを含み得る。加えて、サウンドセンサ300は、このような機能を実行するための任意の適切なソフトウェアおよび/またはハードウェアを用い得る。ユーザの受け取られた入力サウンドストリームは、記憶ユニット330中に記憶され得る。サウンドセンサ300は、処理のために、プロセッサ340にユーザの受け取ったサウンドストリームを提供し得る。
[0056] 1つの実施形態では、サウンドセンサ300は、1つ以上のサウンドサンプルを含む入力サウンドストリームをユーザから受け取り得る。入力サウンドストリームを受け取ると、サウンドセンサ300は、任意の適切な終点検出アルゴリズムを使用して入力サウンドストリーム中の独立した発話またはサウンドサンプルの各々の始点と終点とを検出することによって、入力サウンドストリームからサウンドサンプルの各々を検出し得る。検出されたサウンドサンプルが抽出され、記憶ユニット330中に記憶され得る。抽出されたサウンドサンプルは、処理のために、プロセッサ340に提供され得る。
[0057] 記憶ユニット330は、サウンドセンサ300、I/Oユニット340、通信ユニット320、およびプロセッサ340を動作するためのデータおよび命令を記憶するように構成され得る。記憶ユニット330はまた、サウンドセンサ300によって受け取られた入力サウンドストリーム、または入力サウンドストリームから抽出された1つ以上のサウンドサンプルを記憶し得る。記憶ユニット330は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、電気的消去可能プログラマブル読取専用メモリ(EEPROM(登録商標))、フラッシュメモリ、またはソリッドステートドライブ(SSD)のような、任意の適切な記憶装置またはメモリデバイスを使用して実装され得る。
[0058] 記憶ユニット330はまた、記憶ユニット330中に予め記憶され得る、および/または通信ユニット320を介して外部サーバまたはデバイス(図示されない)からダウンロードされ得る少なくとも1つのサブワードモデルを記憶し得る。いくつかの実施形態では、サブワードモデルは、サブワードモデルによって表わされるサブワードのタイプに従った、限定はされないが、音ベースモデル、音素ベースモデル、トライフォンベースモデル、音節ベースモデルなどであり得、サブワードユニットのリストおよび各サブワードユニットについての1つ以上の音響特徴を含み得る。
[0059] 記憶ユニット330はまた、入力サウンド中のサウンド信号またはデータにおいて、キーワードおよび/または特定のユーザを検出する際に使用される1つ以上のサウンド検出モデルを記憶し得る。例えば、サウンド検出モデルは、入力サウンドからユーザを認識するように適合されたスピーカ検証モデルを含み得る。追加的にまたは代替的に、サウンド検出モデルは、予め定められたキーワードを検出するための1つ以上のキーワード検出モデル、および/またはユーザによって定義されたキーワードを検出するための1つ以上のキーワード検出モデルを含み得る。予め定められたキーワードを検出するためのキーワード検出モデルは、記憶ユニット330中に予め記憶され得るか、または通信ユニット320を介して外部サーバまたはデバイス(図示されない)からダウンロードされ得る。1つの実施形態では、キーワード検出モデルは、複数の部分を含むサブワードのシーケンス(すなわち、複数のサブワードまたはサブワードユニット)を含み得、それらは、キーワードを示す1つ以上のサウンドサンプルから決定され得る。キーワード検出モデルはまた、サブワードのシーケンス中の複数のサブワードの各々に関連付けられたモデルパラメータ、およびキーワードを検出するための閾値を含み得る。
[0060] 別の実施形態では、キーワード検出モデルは、サブワードネットワークを含み得る。サブワードネットワークは、複数のノードのうちの少なくとも2つのノードを接続し得る複数のノードおよび複数の線を含み得る。キーワード検出モデルはまた、隠れマルコフモデル(HMM:hidden Markov model)、セミマルコフモデル(SMM:semi-Markov model)などのような少なくとも1つのグラフィカルモデルを含み得、それは、サブワードネットワークのノードに対応する。グラフィカルモデルは、推移確率、状態出力確率などのような、多数の状態およびパラメータを含み得る。
[0061] プロセッサ340中のサウンドサンプル検証ユニット342は、サウンドセンサ300または記憶ユニット330から1つ以上のサウンドサンプルを受け取るように構成され得、受け取ったサウンドサンプルの各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定する。追加的にまたは代替的に、サウンドサンプル検証ユニット342は、サウンドセンサ300または記憶ユニット330から1つ以上のサウンドサンプルを含む入力サウンドストリームを受け取り、任意の適切な終点検出アルゴリズムを使用して、入力サウンドストリームからサウンドサンプルの各々を抽出し得る。この場合、サウンドサンプル検証ユニット342は、抽出されたサウンドサンプルを記憶ユニット330中に記憶し得る。
[0062] 一旦サウンドサンプルが受け取られるかまたは抽出されると、サウンドサンプル検証ユニット342は、サウンドサンプルの各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定するために、サウンドサンプルの各々から1つ以上の音響特徴を抽出し得る。1つの実施形態では、サウンドサンプル検証ユニット342は、サウンド検出モデルを生成する際の使用のために、サウンドサンプルの音響特徴が類似するかどうかを決定し得る。別の実施形態では、サウンドサンプル検証ユニット342は、サウンドサンプルの各々のサウンド品質がサウンド検出モデルを生成する際の使用のための閾値品質以上であるかどうかを、サウンド品質(例えば、SNR、サウンド強度レベルなど)を示す音響特徴に基づいて決定し得る。いくつかの実施形態では、サウンドサンプル検証ユニット342は、関連付けられた音響特徴に基づいて、サウンドサンプル間で最も高い品質のサウンドサンプルを決定するように構成され得る。決定された最も高い品質のサウンドサンプルは、サウンド検出モデルについてのサブワードのシーケンスを生成するために、サウンド検出モデル生成ユニット344に提供され得る。
[0063] 追加的にまたは代替的に、サウンドサンプル検証ユニット342は、I/Oユニット310を介して、サウンドサンプルのうちの1つを最も優れたサウンドサンプルとして識別する、ユーザからの入力を受け取り得る。この場合、識別されたサウンドサンプルは、サウンド検出モデルについてのサブワードのシーケンスを生成するために、サウンド検出モデル生成ユニット344に提供され得る。いくつかの実施形態では、サウンドサンプル検証ユニット342は、I/Oユニット310のスピーカを通して、最も優れたサウンドサンプルを再生するようI/Oユニット310に指示し得る。追加的にまたは代替的に、サウンドサンプル検証ユニット342は、I/Oユニット310を介して再生される1つ以上のサウンドサンプルを識別する、ユーザからの入力を受け取り、I/Oユニット310のスピーカを通して、識別されたサウンドサンプルを再生するようI/Oユニット310に指示し得る。
[0064] いくつかの実施形態では、サウンドサンプル検証ユニット342は、サウンドセンサ300または記憶ユニット330から1つ以上の代替のまたは追加のサウンドサンプルを受け取り得る。例えば、1つ以上の前に受け取ったサウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があることをサウンドサンプル検証ユニット342が決定する場合、1つ以上の前に受け取ったサウンドサンプルを廃棄し、サウンドセンサ300を介して、廃棄されたサウンドサンプルに対する1つ以上の新規のサウンドサンプルを受け取り得る。追加的にまたは代替的に、サウンド検出モデルを生成する際に使用されると決定される、前に受け取ったサウンドサンプルがない場合、サウンドサンプル検証ユニット342は、前に受け取ったサウンドサンプルを廃棄し、サウンドセンサ300を介して1つ以上の新規のサウンドサンプルを受け取り得る。
[0065] 1つの実施形態によると、サウンドサンプル検証ユニット342は、サウンドサンプルを次々に受け取り、次に、受け取ったサウンドサンプルを一括モードで処理し得る。例えば、5つのサウンドサンプルが受け取られるとき、サウンドサンプル検証ユニット342は、5つのサウンドサンプル全てがサウンド検出モデルを生成する際に使用され得るかどうかを決定し、5つのサウンドサンプル全ての決定結果の指示を出力するようI/Oユニット310に指示し得る。別の実施形態では、サウンドサンプル検証ユニット342は、サウンドサンプルを1つずつ受け取り、処理し得る。
[0066] サウンド検出モデル生成ユニット344は、サウンド検出モデルを生成する際に使用されると決定されている1つ以上のサウンドサンプルをサウンドサンプル検証ユニット342から受け取るように構成され得る。サウンド検出モデル生成ユニット344は次に、受け取ったサウンドサンプルの少なくとも1つに基づいて、サウンド検出モデルを生成し得る。サウンド検出モデルは、スピーカ検証モデル、予め定められたキーワードまたはユーザによって定義されたキーワードについてのキーワード検出モデルなどを含み得る。サウンド検出モデル生成ユニット344は、サウンド検出モデルを生成する際に使用されると決定されている受け取ったサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルについての閾値を決定し得る。1つの実施形態では、サウンド検出モデル生成ユニット344は、低いSNRのために廃棄されているかまたは新規のサウンドサンプルと置き換えられている可能性がある少なくとも1つのサウンドサンプルを、生成されたサウンド検出モデルを調整する際に、ノイズが含まれたサウンドサンプルとしてそのサウンドサンプルを使用するために、サウンドサンプル検証ユニット342から受け取り得る。追加的にまたは代替的に、サウンド検出モデル生成ユニット344は、低いSNR、低いサウンド強度レベルなどのために廃棄されている可能性のある少なくとも1つのサウンドサンプルをサウンドサンプル検証ユニット342から受け取り、サウンド検出モデルについての閾値を調整する際にそのサウンドサンプルを使用し得る。サウンド検出モデル生成ユニット344は、生成されたサウンド検出モデルを記憶ユニット330中に記憶し得る。
[0067] サウンド検出ユニット346は、入力サウンドストリームをサウンドセンサ300または記憶ユニット330から受け取り、記憶ユニット330に記憶された少なくとも1つのサウンド検出モデルに基づいて、入力サウンドストリームのサウンド信号またはデータにおいて、キーワードおよび/または特定のユーザを検出するように構成され得る。例えば、キーワードを示す入力サウンドストリームを受け取ると、サウンド検出ユニット346は、入力サウンドストリームから複数の音響特徴を順に抽出し、少なくとも1つのキーワード検出モデルに関連付けられた少なくとも1つのキーワード(少なくとも1つのユーザによって定義されたキーワードおよび少なくとも1つの予め定められたキーワードを含む)に対するマッチングスコアを決定し得る。サウンド検出ユニット346は次に、最も高いマッチングスコアを有するキーワード検出モデルを識別し、かつそのマッチングスコアが入力サウンドストリームへのマッチングしたキーワード検出モデルとして閾値以上であるかを識別し得る。
[0068] キーワードに関連付けられるマッチングしたキーワード検出モデルを識別すると、サウンド検出ユニット346は、キーワードに関連付けられた機能を実行するか、またはキーワードに関連付けられたアプリケーションをアクティブ化、制御、または動作し得る。追加的にまたは代替的に、サウンド検出ユニット346は、キーワードに関連付けられ得るボイスアシスタントユニット348をオンにするために、アクティブ化信号を生成および送信し得る。ボイスアシスタントユニット348は、サウンド検出ユニット346からのアクティブ化信号に応答してアクティブ化され得る。一旦アクティブ化されると、ボイスアシスタントユニット348は、ディスプレイスクリーン110上におよび/またはI/Oユニット310のスピーカを通じて「ご用件は何でしょうか?」のようなメッセージを出力することによって、ボイスアシスタント機能を実行し得る。これに応答して、ユーザは、電子デバイス100の様々な関連付けられた機能をアクティブ化するためのボイスコマンドを話し得る。例えば、インターネット検索のためのボイスコマンドが受け取られるとき、ボイスアシスタントユニット348は、検索コマンドとしてボイスコマンドを認識し、通信ユニット320を介してウェブ検索を実行し得る。
[0069] 図4は、本開示の1つの実施形態に従った、1つ以上のサウンドサンプルが、サウンド検出モデルを生成する際に使用され得るかどうかを決定するように構成された、サウンドサンプル検証ユニット342のブロック図を図示する。サウンドサンプル検証ユニット342は、特徴抽出器400、特徴バッファ410、および類似性決定ユニット420を含み得る。特徴抽出器400は、1つ以上のサウンドサンプルをサウンドセンサ300または記憶ユニット330から受け取り、受け取ったサウンドサンプルの各々から1つ以上の音響特徴を抽出するように構成され得る。例えば、特徴抽出器400は、受け取ったサウンドサンプルの各々からスペクトル特徴、時間領域特徴などを抽出し得る。1つの実施形態では、特徴抽出器400は、各サウンドサンプルについてのサブワードのシーケンスを音響特徴として生成するために、受け取ったサウンドサンプルの各々でサブワード認識を実行し得る。別の実施形態では、特徴抽出器400は、受け取ったサウンドサンプルの各々から、サウンド強度レベル(例えば、平均的なサウンドインテンシブレベル(sound intensive level))またはSNRを抽出し得る。
[0070] いくつかの実施形態では、特徴抽出器400は、受け取ったサウンドサンプルの各々のRTを計算し得る。この処理では、特徴抽出器400は、サウンドサンプルの各々を均等な時間期間の複数の連続的なフレームに分割し、1つ以上の音響特徴(例えば、スペクトル特徴)をそれらフレームから抽出し得る。フレーム中の音響特徴に基づいて、複数のフレーム間の1つ以上の音響特徴における類似性が相関値として決定され得る。相関値に基づいて、特徴抽出器400は、サウンドサンプルのRTとして、閾値相関値以上の相関値を有するサウンドサンプル中の2つのフレーム間の最も長い時間期間を決定し得る。
[0071] サウンドサンプルの各々から1つ以上の音響特徴を抽出すると、特徴抽出器400は、抽出された音響特徴を特徴バッファ410中に記憶し得る。特徴バッファ410は、抽出された音響特徴を特徴抽出器400から受け取り、類似性決定ユニット420にそれらを送信するように構成され得る。抽出された音響特徴はまた、記憶ユニット330中に記憶され得る。
[0072] 類似性決定ユニット420は、抽出された音響特徴を特徴バッファ410または記憶ユニット330から受け取り、サウンドサンプルの抽出された音響特徴が類似するかどうかを決定し得る。1つの実施形態では、類似性決定ユニット420は、関連付けられた音響特徴を比較することによって、サウンドサンプルの各々のペアの音響特徴が類似するかどうかを決定し得る。少なくとも2つのサウンドサンプルの音響特徴が類似すると決定される場合、類似性決定ユニット420は、その少なくとも2つのサウンドサンプルが類似することを決定し得、サウンド検出モデルを生成する際に使用され得る。一方、類似性決定ユニット420が、サウンドサンプルの音響特徴が少なくとも2つの他のサウンドサンプルの音響特徴に類似しないと決定する場合、それは、サウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。
[0073] 別の実施形態では、類似性決定ユニット420は、2つ以上のサウンドサンプルの組み合わせられた音響特徴を決定し、サウンドサンプルの音響特徴が、その組み合わせられた音響特徴に類似するかどうかを決定し得る。組み合わせられた音響特徴は、特徴バッファ410または記憶ユニット330中に記憶され得る。例えば、第1および第2のサウンドサンプルの音響特徴が類似すると決定される場合、類似性決定ユニット420は、第1および第2のサウンドサンプルの音響特徴に基づいて、組み合わせられた音響特徴を決定し得る。その際、第3のサウンドサンプルの音響特徴が、組み合わせられた音響特徴に類似すると決定される場合、類似性決定ユニット420は、第1、第2、および第3のサウンドサンプルが類似することを決定し、サウンド検出モデルを生成する際に使用され得る。一方、類似性決定ユニット420が、第3のサウンドサンプルの音響特徴が組み合わせられた音響特徴に類似しないと決定する場合、それは、第3のサウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。
[0074] 図5は、本開示の1つの実施形態に従った、サウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するために、電子デバイス100において実行される方法500のフローチャートである。始めに、電子デバイス100は、510において、サウンド検出モデルを生成するために第1のサウンドサンプルを受け取り得る。電子デバイス100は、520において、第1のサウンドサンプルから第1の音響特徴を抽出し得る。電子デバイス100は、530において、サウンド検出モデルを生成するために第2のサウンドサンプルを受け取り得る。電子デバイス100は、540において、第2のサウンドサンプルから第2の音響特徴を抽出し得る。電子デバイス100は、550において、第2の音響特徴が第1の音響特徴に類似するかどうかを決定し得る。
[0075] 図6は、本開示の1つの実施形態に従った、組み合わせられた音響特徴を決定するために、電子デバイス100において実行される方法600のフローチャートである。始めに、電子デバイス100は、610において、第1のサウンドサンプルを受け取り、第1のサウンドサンプルから第1の音響特徴を抽出し得る。電子デバイス100は、620において、第2のサウンドサンプルを受け取り、第2のサウンドサンプルから第2の音響特徴を抽出し得る。電子デバイス100は、630において、第2の音響特徴が第1の音響特徴に類似するかどうかを決定し得る。第1および第2の音響特徴が類似すると決定される(すなわち、640でYESである)場合、電子デバイス100は、650において、第1および第2の音響特徴に基づいて、組み合わせられた音響特徴を決定し得る。第1および第2の音響特徴が類似しないと決定される(すなわち、640でNOである)場合、方法600は、第1のサウンドサンプルを受け取るために610へと進み、第1のサウンドサンプルから第1の音響特徴を抽出し得る。
[0076] 図7は、本開示の別の実施形態に従った、サウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するために、電子デバイス100で実行される方法700のフローチャートである。図6で図示されるように、電子デバイス100は、第1および第2の音響特徴に基づいて、組み合わせられた音響特徴を決定し得る。電子デバイス100は、710において、サウンド検出モデルを生成するために第3のサウンドサンプルを受け取り得る。電子デバイス100は、720において、第3のサウンドサンプルから第3の音響特徴を抽出し得る。電子デバイス100は、730において、第3の音響特徴が第1および第2の音響特徴の組み合わせられた音響特徴に類似するかどうかを決定し得る。第3の音響特徴が、組み合わせられた音響特徴に類似すると決定される(すなわち、740でYESである)場合、電子デバイス100は、750において、少なくとも1つの第1のサウンドサンプル、第2のサウンドサンプル、または第3のサウンドサンプルに基づいて、サウンド検出モデルを生成し得る。第3の音響特徴が、組み合わせられた音響特徴に類似しないと決定される(すなわち、740でNOである)場合、方法700は、第3のサウンドサンプルを受け取るために710へと進む。
[0077] 図8は、本開示の1つの実施形態に従った、一括モードでサウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される方法800のフローチャートである。電子デバイス100は、810において、第2のサウンド検出モデルを生成するために複数のサウンドサンプルを受け取り得る。電子デバイス100は、820において、受け取ったサウンドサンプルが類似するかどうかを決定し得る。サウンドサンプルが類似すると決定される(すなわち、830でYESである)場合、電子デバイス100は、850において、サウンドサンプルの少なくとも1つに基づいて、サウンド検出モデルを生成し得る。サウンドサンプルが類似しないと決定される(すなわち、830でNOである)場合、電子デバイス100は、840において、他のサウンドサンプルに類似しないと決定されている少なくとも1つのサウンドサンプルに対する代替のサウンドサンプルとして、少なくとも1つの新規のサウンドサンプルを受け取り得、方法800は、受け取ったサウンドサンプルが類似するかどうかを決定するために、820へと進み得る。
[0078] 図9は、本開示の1つの実施形態に従った、1つ以上のサウンドサンプルの音響特徴が類似するかどうかを決定するために、電子デバイス100において実行される方法820のフローチャートである。電子デバイス100は、900において、サウンドサンプルの各々から1つ以上の音響特徴を抽出し得る。電子デバイス100は、910において、サウンドサンプルの各ペアの音響特徴が類似するかどうかを決定し得る。電子デバイス100は、920において、サウンドサンプルの各ペアの音響特徴が類似するかどうかを決定することに基づいて、サウンドサンプルが類似するかどうかの指示を出力し得る。
[0079] 図10は、いくつかの実施形態に従った、サウンド検出モデルを生成する際に使用される1つ以上のサウンドサンプルを検証するために、本開示の方法および装置が実装され得るワイヤレス通信システム中の例示的な電子デバイス1000のブロック図を図示する。例示的な電子デバイス1000は、セルラフォン、スマートフォン、ウエアラブルコンピュータ、スマートウォッチ、スマートメガネ、タブレットパーソナルコンピュータ、端末、ハンドセット、パーソナルデジタルアシスタント(PDA)、ワイヤレスモデム、コードレスフォン、タブレットなどであり得る。ワイヤレス通信システムは、CDMAシステム、GSM(登録商標)システム、W−CDMA(登録商標)システム、LTE(登録商標)システム、LTEアドバンストシステムなどであり得る。
[0080] 例示的な電子デバイス1000は、受信パスおよび送信パスを介して双方向通信を提供することが可能であり得る。受信パスにおいて、基地局によって送信された信号は、アンテナ1012によって受信され得、受信機(RCVR)1014に提供され得る。受信機1014は、受信した信号を調整およびデジタル化し得、さらなる処理のために、調整されデジタル化されたデジタル信号をデジタルセクションに提供し得る。送信パスでは、送信機(TMTR)1016が、デジタルセクション1020から送信されるデータを受信し、このデータを処理および調整し、変調された信号を生成し得、それは、アンテナ1012を基地局に送信される。受信機1014および送信機1016は、CDMA、GSM、W−CDMA、LTE、LTEアドバンストなどをサポートし得るトランシーバの一部であり得る。
[0081]デジタルセクション1020は、例えば、モデムプロセッサ1022、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1024、コントローラ/プロセッサ1026、内部メモリ1028、汎用オーディオ/ビデオエンコーダ1032、汎用オーディオデコーダ1034、グラフィックス/ディスプレイプロセッサ1036、および外部バスインターフェース(EBI)1038のような様々な処理、インターフェース、およびメモリユニットを含み得る。モデムプロセッサ1022は、例えば、符号化、変調、復調、変調、および復号などの、データ送信および受信のための処理を実行し得る。RISC/DSP 1024は、例示的な電子デバイス1000のための汎用および専用の処理を実行し得る。コントローラ/プロセッサ1026は、デジタルセクション1020中の様々な処理およびインターフェースユニットの動作を実行し得る。内部メモリ1028は、デジタルセクション1020中の様々なユニットについてのデータおよび/または命令を記憶し得る。
[0082] 汎用オーディオ/ビデオエンコーダ1032は、オーディオ/ビデオソース1042、マイクロフォン1044、画像センサ1046などからの入力信号を符号化することを実行し得る。汎用オーディオデコーダ1034は、コード化されたオーディオデータに対する復号を実行し、スピーカ/ヘッドセット1048に出力信号を提供し得る。グラフィックス/ディスプレイプロセッサ1036は、グラフィックス、ビデオ、画像、およびテキストに対する処理を実行し得、それらは、ディスプレイユニット1050に表示され得る。EBI 1038は、デジタルセクション1020とメインメモリ1052との間のデータの転送を容易にし得る。
[0083] デジタルセクション1020は、1つ以上のプロセッサ、DSP、マイクロプロセッサ、RISCなどで実装され得る。デジタルセクション1020はまた、1つ以上の特定用途向け集積回路(ASIC)および/またはいくつかの他のタイプの集積回路(IC)上で組み立てられ得る。
[0084] 図11は、いくつかの実施形態に従って実装された、先に説明されたサーバのうちのいずれか1つであり得るサーバシステム1100を図示するブロック図である。サーバシステム1100は、1つ以上の処理ユニット(例えば、CPU)1102、1つ以上のネットワークまたは他の通信ネットワークインターフェース、メモリ1112、およびこれらの構成要素を相互接続するための1つ以上の通信バス1114を含み得る。サーバシステム1100はまた、ディスプレイデバイスおよびキーボードを有するユーザインターフェース(図示されない)を含み得る。
[0085] メモリ1112は、高速ランダムアクセスメモリ(例えば、DRAM、SRAM、DDR RAM、または他のランダムアクセスソリッドステートメモリデバイス)のような任意の適切なメモリであり得る。メモリ1112は、不揮発性メモリ(例えば、1つ以上の磁気ディスク記憶デバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステート記憶デバイス)を含み得るか、または代替的にそれら不揮発性メモリであり得る。いくつかの実施形態では、メモリ1112は、CPU1102から離れて位置付けられるおよび/または複数の場所(sites)に離れて位置付けられる1つ以上の記憶デバイスを含み得る。
[0086] メモリ1112によって表わされる上記メモリデバイスのうちの任意の1つは、前に説明された任意の処理、動作、および方法を実行するおよび/または行うための命令のセットに対応する任意の数のモジュールまたはプログラムを記憶し得る。例えば、メモリ1112は、様々な基本的システムサービスに対処するための、およびハードウェア依存タスクを実行するためのプロシージャを含む命令を記憶するように構成されたオペレーティングシステム1116を含み得る。メモリ1112のネットワーク通信モジュール1118は、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、大都市エリアネットワークなどのような、1つ以上の通信ネットワークおよび1つ以上の通信ネットワークインターフェース1110(有線またはワイヤレス)を介して、サーバシステム1100を他のコンピュータに接続するために使用され得る。
[0087] メモリ1112はまた、1つ以上のオブジェクト(例えば、テキストオブジェクトおよび非テキストオブジェクト)、分類データベース、文字情報データベース、辞書データベースなどを有する複数の画像の画像データベースを含むように構成されるデータベース1120を含み得る。オペレーティングシステム1116は、ネットワーク通信モジュール1118を通じて、受信および/またはキャプチャされ得る様々な画像を用いて画像データベースをアップデートし得る。オペレーティングシステム1116はまた、ネットワーク通信モジュール1118を介して、画像を複数の電子デバイスに提供し得る。加えて、分類データベース、文字情報データベース、辞書データベースは、画像の少なくとも1つのテキスト領域を検出する際に使用するために、複数の電子デバイスに提供される、および/または少なくとも1つのテキスト領域において1つ以上の文字ストリングを認識し得る。
[0088] 一般に、本明細書で説明される任意のデバイスは、ワイヤレスフォン、セルラフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ(PC)カード、PDA、外部または内部モデム、無線チャネルを通じて通信するデバイスなどのような、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、遠隔局、遠隔端末、遠隔ユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなどのような様々な名称を有し得る。本明細書で説明される任意のデバイスは、命令およびデータを記憶するためのメモリ、並びにハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせを有し得る。
[0089] 本明細書で説明される技法は、様々な手段によって実装され得る。例えば、これらの技術は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせで実装され得る。当業者はさらに、本明細書の開示に関連して説明される様々な例示のための論理ブロック、モジュール、回路、アルゴリズムステップが電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実装され得ることを理解するだろう。ハードウェアおよびソフトウェアのこの互換性を明確に例示するために、様々な例示のための構成要素、ブロック、モジュール、回路、およびステップがそれらの機能の観点から一般的に上記に説明されている。このような機能が、ハードウェアとして実装されるか、またはソフトウェアとして実装されるかは、特定のアプリケーションおよびシステム全体に課せられた設計制約に依存する。当業者は、説明される機能を特定のアプリケーションごとに異なる方法で実装し得るが、このような実装の決定は、本開示の範囲からの逸脱を引き起こしていると解釈されるべきではない。
[0090] ハードウェアの実装について、技術を実行するために使用される処理ユニットは、1つ以上のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細で説明される機能を実行するように設計された他の電子ユニット、コンピュータ、またはこれらの組み合わせ内で実装され得る。
[0091] よって、本明細書の開示に関連して説明される様々な例示のための論理ブロック、モジュール、および回路は、汎用プロセッサ、DSP、ASIC、FPGAまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェア構成要素、または本明細書で説明される機能を実行するように設計されるこれらの任意の組み合わせで実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意のプロセッサ、コントローラ、マイクロプロセッサ、またはステートマシンであり得る。プロセッサはまた、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、DSPコアと結合された1つ以上のマイクロプロセッサ、または任意の他のこのような構成のようなコンピューティングデバイスの組み合わせとして実装され得る。
[0092] ソフトウェアで実装される場合、機能は、コンピュータ可読媒体に記憶され得る。コンピュータ可読媒体は、1つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。例として、限定はされないが、このようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROM、または他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形式で所望されるプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備え得る。本明細書で使用されるようなディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多目的ディスク(DVD)、フロッピー(登録商標)ディスク、およびBlu−ray(登録商標)ディスクを含み、ここで、ディスク(disks)が通常磁気的にデータを再生する一方、ディスク(discs)は、レーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。例えば、コンピュータ可読記憶媒体は、プロセッサによって実行可能な命令を含む、非一時的なコンピュータ可読記憶デバイスであり得る。よって、コンピュータ可読記憶媒体は、信号ではない可能性がある。
[0093] 本開示の上記説明は、当業者が本開示を実施および使用することを可能にするために提供される。本開示への様々な修正は、当業者にとって容易に明らかであり、本明細書に定義される一般的な原理は、本開示の範囲から逸脱することなく、他のバリエーションに適用され得る。よって、本開示は、本明細書で説明される例に限定されることが意図されるものではなく、本明細書に開示される原理および新規の特徴と一致する最も広い範囲が付与されるべきものである。
[0094] 例示的な実装は、1つ以上の独立型(stand-alone)コンピュータシステムのコンテキストにおいて、本開示の主題の態様を利用するように述べられているが、主題は、限定はされないが、むしろ、ネットワークまたは分散型コンピューティング環境のような、任意のコンピューティング環境に関連して実装され得る。さらに、本開示の主題の態様は、複数の処理チップ内でまたはデバイスを介して実装され得、記憶媒体も同様に、複数のデバイスを介して影響を受け得る。このようなデバイスは、PC、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。
[0095] 主題は、構造上の特徴および/または方法論的動作に特有の表現で説明されているが、添付の請求項に定義される主題は、上述される特定の特徴または動作に必ずしも限定されないことが理解されるべきである。むしろ、上述された特定の特徴および動作は、請求項を実現する形態の例として開示されている。
[0096] 上述されるモジュールまたはプログラム(すなわち、命令のセット)は、別個のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要がなく、そのため、様々な実施形態においてこれらのモジュールの様々なサブセットが組み合わせられ得るか、またはそうでなければ再配置され得ることが理解されるだろう。さらに、メモリ1112は、上述されていない追加のモジュールおよびデータ構造を記憶し得る。
<本開示の態様>
[0097] 以下に、本開示のいくつかの態様がさらに記載される。
[0098] (例1)本開示の態様によると、サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための方法が提供され、方法は、第1のサウンドサンプルを受け取ることと、第1のサウンドサンプルから第1の音響特徴を抽出することと、第2のサウンドサンプルを受け取ることと、第2のサウンドサンプルから第2の音響特徴を抽出することと、第2の音響特徴が第1の音響特徴に類似するかどうかを決定することと、を備える。
[0099] (例2)例1の方法は、第2の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルを生成することをさらに備える。
[00100] (例3)例1または2の方法は、第1のサウンドサンプルの信号対雑音比(SNR)を決定することと、第2のサウンドサンプルのSNRを決定することと、第1および第2のサウンドサンプルのSNRに基づいて、第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つを選択することと、第2の音響特徴が第1の音響特徴に類似することを決定すると、選択された少なくとも1つのサウンドサンプルに基づいて、サウンド検出モデルを生成することと、選択されていないサウンドサンプルに基づいて、生成されたサウンド検出モデルを調整することと、をさらに備える。
[00101] (例4)例1乃至3のうちのいずれか1つの方法は、第2の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1の音響特徴および第2の音響特徴に基づいて、組み合わせられた音響特徴を決定することをさらに備える。
[00102] (例5)例1乃至4のうちのいずれか1つの方法は、第3のサウンドサンプルを受け取ることと、第3のサウンドサンプルから第3の音響特徴を抽出することと、第3の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定することと、をさらに備える。
[00103] (例6)例1乃至5のうちのいずれか1つの方法において、第1の音響特徴および第2の音響特徴の各々は、スペクトル特徴または時間領域特徴のうちの少なくとも1つを含む。
[00104] (例7)例1乃至6のうちのいずれか1つの方法において、第1の音響特徴および第2の音響特徴の各々は、サブワードのシーケンスを含む。
[00105] (例8)例1乃至7のうちのいずれか1つの方法において、サブワードは、音、音素、トライフォン、または音節のうちの少なくとも1つを含む。
[00106] (例9)例1乃至8のうちのいずれか1つの方法は、第2の音響特徴が第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取ることと、新規のサウンドサンプルから新規の音響特徴を抽出することと、新規の音響特徴が第1の音響特徴に類似するかどうかを決定することと、をさらに備える。
[00107] (例10)例1乃至9の例のうちのいずれか1つの方法は、新規の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1のサウンドサンプルまたは新規のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルを生成することをさらに備える。
[00108] (例11)例1乃至10のうちのいずれか1つの方法において、サウンド検出モデルを生成することは、第1のサウンドサンプルまたは新規のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルの閾値を決定することと、第2のサウンドサンプルに基づいて、閾値を調整することと、を備える。
[00109] (例12)例1乃至11のいずれか1つの方法は、第2の音響特徴が第1の音響特徴に類似するかどうかを決定することに基づいて、第2のサウンドサンプルが第1のサウンドサンプルに類似するかどうかの指示を出力することと、サウンド検出モデルを生成する際に使用される第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つを示す入力を受け取ることと、をさらに備える。
[00110] (例13)例1乃至12のうちのいずれか1つの方法において、第1のサウンドサンプルおよび第2のサウンドサンプルの各々は、電子デバイスをアクティブ化するためのコマンド、あるいは電子デバイスにおけるアプリケーションまたは機能を制御するためのコマンドのうちの少なくとも1つを示す。
[00111] (例14)例1乃至13のうちのいずれか1つの方法は、音声入力を受け取ることと、サウンド検出モデルに基づいて、音声入力からキーワードまたはユーザのうちの少なくとも1つを認識することと、をさらに備える。
[00112] (例15)本開示の別の態様によると、第1のサウンドサンプルおよび第2のサウンドサンプルを受け取るように構成されたサウンドセンサと、第1のサウンドサンプルから第1の音響特徴を抽出し、第2のサウンドサンプルから第2の音響特徴を抽出し、第2の音響特徴が第1の音響特徴に類似するかどうかを決定するように構成されたサウンドサンプル検証ユニットと、を備える、サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための電子デバイスが提供される。
[00113] (例16)例15の電子デバイスは、第2の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルを生成するように構成されたサウンド検出モデル生成ユニットをさらに備える。
[00114] (例14)例15または16の電子デバイスにおいて、サウンドサンプル検証ユニットは、第2の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1の音響特徴および第2の音響特徴に基づいて、組み合わせられた音響特徴を決定するように構成される。
[00115] (例18)例15乃至17のうちのいずれか1つの電子デバイスにおいて、サウンドセンサは、第3のサウンドサンプルを受け取るように構成され、サウンドサンプル検証ユニットは、第3のサウンドサンプルから第3の音響特徴を抽出し、第3の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定するように構成される。
[00116] (例19)例15乃至18のうちのいずれか1つの電子デバイスにおいて、サウンドセンサは、第2の音響特徴が第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るように構成され、サウンドサンプル検証ユニットは、新規のサウンドサンプルから新規の音響特徴を抽出し、新規の音響特徴が第1の音響特徴に類似するかどうかを決定するように構成される。
[00117] (例20)本開示のさらに別の態様によると、電子デバイスの少なくとも1つのプロセッサに、第1のサウンドサンプルを受け取り、第1のサウンドサンプルから第1の音響特徴を抽出し、第2のサウンドサンプルを受け取り、第2のサウンドサンプルから第2の音響特徴を抽出し、第2の音響特徴が第1の音響特徴に類似するかどうかを決定する、動作を実行させる命令を備える非一時的コンピュータ可読記憶媒体が提供される。
[00118] (例21)例20に記載の非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも1つのプロセッサに、第2の音響特徴が第1の音響特徴に類似すると決定することに応答して、第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルを生成する動作を実行させる命令をさらに備える。
[00119] (例22)例20または21に記載の非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも1つのプロセッサに、第2の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1の音響特徴および第2の音響特徴に基づいて、組み合わせられた音響特徴を決定する動作を実行させる命令をさらに備える。
[00120] (例23)例20乃至22のうちのいずれか1つの非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも1つのプロセッサに、第3のサウンドサンプルを受け取り、第3のサウンドサンプルから第3の音響特徴を抽出し、第3の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定する動作を実行させる命令をさらに備える。
[00121] (例24)例20乃至23のうちのいずれか1つの非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも1つのプロセッサに、第2の音響特徴が第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取り、新規のサウンドサンプルから新規の音響特徴を抽出し、新規の音響特徴が第1の音響特徴に類似するかどうかを決定する動作を実行させる命令をさらに備える。
[00122] (例25)本開示のさらに別の態様によると、第1のサウンドサンプルを受け取るための手段と、第1のサウンドサンプルから第1の音響特徴を抽出するための手段と、第2のサウンドサンプルを受け取るための手段と、第2のサウンドサンプルから第2の音響特徴を抽出するための手段と、第2の音響特徴が第1の音響特徴に類似するかどうかを決定するための手段と、を備える、サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための電子デバイスが提供される。
[00123] (例26)例25の電子デバイスは、第2の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルを生成するための手段をさらに備える。
[00124] (例27)例25または26の電子デバイスは、第2の音響特徴が第1の音響特徴に類似することを決定することに応答して、第1の音響特徴および第2の音響特徴に基づいて、組み合わせられた音響特徴を決定するための手段をさらに備える。
[00125] (例28)例25乃至27のうちのいずれか1の電子デバイスは、第3のサウンドサンプルを受け取るための手段と、第3のサウンドサンプルから第3の音響特徴を抽出するための手段と、第3の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定するための手段と、をさらに備える。
[00126] (例29)例25乃至28のうちのいずれか1つの電子デバイスは、第2の音響特徴が第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るための手段と、新規のサウンドサンプルから新規の音響特徴を抽出するための手段と、新規の音響特徴が第1の音響特徴に類似するかどうかを決定するための手段と、をさらに備える。
[00127] (例30)例25乃至29のうちのいずれか1つの電子デバイスは、第2の音響特徴が第1の音響特徴に類似するかどうかを決定することに基づいて、第2のサウンドサンプルが第1のサウンドサンプルに類似するかどうかの指示を出力するための手段と、サウンド検出モデルを生成する際に使用される第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つを示す入力を受け取るための手段と、をさらに備える。
[00127] (例30)例25乃至29のうちのいずれか1つの電子デバイスは、第2の音響特徴が第1の音響特徴に類似するかどうかを決定することに基づいて、第2のサウンドサンプルが第1のサウンドサンプルに類似するかどうかの指示を出力するための手段と、サウンド検出モデルを生成する際に使用される第1のサウンドサンプルまたは第2のサウンドサンプルのうちの少なくとも1つを示す入力を受け取るための手段と、をさらに備える。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するために、電子デバイスにおいて実行される方法であって、前記方法は、
第1のサウンドサンプルを受け取ることと、
前記第1のサウンドサンプルから第1の音響特徴を抽出することと、
第2のサウンドサンプルを受け取ることと、
前記第2のサウンドサンプルから第2の音響特徴を抽出することと、
前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定することと
を備える、方法。
[C2]
前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成することをさらに備える、C1に記載の方法。
[C3]
前記第1のサウンドサンプルの信号対雑音比(SNR)を決定することと、
前記第2のサウンドサンプルのSNRを決定することと、
前記第1および第2のサウンドサンプルの前記SNRに基づいて、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つを選択することと、
前記第2の音響特徴が前記第1の音響特徴に類似することを決定すると、前記選択された少なくとも1つのサウンドサンプルに基づいて、前記サウンド検出モデルを生成することと、
選択されていないサウンドサンプルに基づいて、前記生成されたサウンド検出モデルを調整することと
をさらに備える、C1に記載の方法。
[C4]
前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定することをさらに備える、C1に記載の方法。
[C5]
第3のサウンドサンプルを受け取ることと、
前記第3のサウンドサンプルから第3の音響特徴を抽出することと、
前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定することと
をさらに備える、C4に記載の方法。
[C6]
前記第1の音響特徴および前記第2の音響特徴の各々は、スペクトル特徴または時間領域特徴のうちの少なくとも1つを含む、C1に記載の方法。
[C7]
前記第1の音響特徴および前記第2の音響特徴の各々は、サブワードのシーケンスを含む、C1に記載の方法。
[C8]
前記サブワードは、音、音素、トライフォン、または音節のうちの少なくとも1つを含む、C7に記載の方法。
[C9]
前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取ることと、
前記新規のサウンドサンプルから新規の音響特徴を抽出することと、
前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定することと
をさらに備える、C1に記載の方法。
[C10]
前記新規の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成することをさらに備える、C9に記載の方法。
[C11]
前記サウンド検出モデルを生成することは、
前記第1のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルの閾値を決定することと、
前記第2のサウンドサンプルに基づいて、前記閾値を調整することと
を備える、C10に記載の方法。
[C12]
前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定することに基づいて、前記第2のサウンドサンプルが前記第1のサウンドサンプルに類似するかどうかの指示を出力することと、
前記サウンド検出モデルを生成する際に使用される前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つを示す入力を受け取ることと
をさらに備える、C1に記載の方法。
[C13]
前記第1のサウンドサンプルおよび前記第2のサウンドサンプルの各々は、前記電子デバイスをアクティブ化するためのコマンド、あるいは前記電子デバイスにおけるアプリケーションまたは機能を制御するためのコマンドのうちの少なくとも1つを示す、C1に記載の方法。
[C14]
音声入力を受け取ることと、
前記サウンド検出モデルに基づいて、前記音声入力からキーワードまたはユーザのうちの少なくとも1つを認識することと
をさらに備える、C2に記載の方法。
[C15]
サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための電子デバイスであって、
第1のサウンドサンプルおよび第2のサウンドサンプルを受け取るように構成されたサウンドセンサと、
前記第1のサウンドサンプルから第1の音響特徴を抽出し、前記第2のサウンドサンプルから第2の音響特徴を抽出し、前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定するように構成されたサウンドサンプル検証ユニットと
を備える、電子デバイス。
[C16]
前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成するように構成されたサウンド検出モデル生成ユニットをさらに備える、C15に記載の電子デバイス。
[C17]
前記サウンドサンプル検証ユニットは、前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定するように構成される、C15に記載の電子デバイス。
[C18]
前記サウンドセンサは、第3のサウンドサンプルを受け取るように構成され、
前記サウンドサンプル検証ユニットは、前記第3のサウンドサンプルから第3の音響特徴を抽出し、前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するように構成される、
C17に記載の電子デバイス。
[C19]
前記サウンドセンサは、前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るように構成され、
前記サウンドサンプル検証ユニットは、前記新規のサウンドサンプルから新規の音響特徴を抽出し、前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定するように構成される、
C15に記載の電子デバイス。
[C20]
前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定することに基づいて、前記第2のサウンドサンプルが前記第1のサウンドサンプルに類似するかどうかの指示を出力するように構成された出力ユニットと、
前記サウンド検出モデルを生成する際に使用される前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つを示す入力を受け取るための入力ユニットと
をさらに備える、C15に記載の電子デバイス。
[C21]
命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、電子デバイスの少なくとも1つのプロセッサに、
第1のサウンドサンプルを受け取り、
前記第1のサウンドサンプルから第1の音響特徴を抽出し、
第2のサウンドサンプルを受け取り、
前記第2のサウンドサンプルから第2の音響特徴を抽出し、
前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定する
動作を実行させる、非一時的コンピュータ可読記憶媒体。
[C22]
前記電子デバイスの前記少なくとも1つのプロセッサに、前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルを生成する動作を実行させる命令をさらに備える、C21に記載の非一時的コンピュータ可読記憶媒体。
[C23]
前記電子デバイスの前記少なくとも1つのプロセッサに、前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定する動作を実行させる命令をさらに備える、C21に記載の非一時的コンピュータ可読記憶媒体。
[C24]
前記電子デバイスの前記少なくとも1つのプロセッサに、
第3のサウンドサンプルを受け取り、
前記第3のサウンドサンプルから第3の音響特徴を抽出し、
前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定する
動作を実行させる命令をさらに備える、C23に記載の非一時的コンピュータ可読記憶媒体。
[C25]
前記電子デバイスの前記少なくとも1つのプロセッサに、
前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取り、
前記新規のサウンドサンプルから新規の音響特徴を抽出し、
前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定する
動作を実行させる命令をさらに備える、C21に記載の非一時的コンピュータ可読記憶媒体。
[C26]
サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための電子デバイスであって、
第1のサウンドサンプルを受け取るための手段と、
前記第1のサウンドサンプルから第1の音響特徴を抽出するための手段と、
第2のサウンドサンプルを受け取るための手段と、
前記第2のサウンドサンプルから第2の音響特徴を抽出するための手段と、
前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定するための手段と
を備える、電子デバイス。
[C27]
前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成するための手段をさらに備える、C26に記載の電子デバイス。
[C28]
前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定するための手段をさらに備える、C26に記載の電子デバイス。
[C29]
第3のサウンドサンプルを受け取るための手段と、
前記第3のサウンドサンプルから第3の音響特徴を抽出するための手段と、
前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するための手段と
をさらに備える、C28に記載の電子デバイス。
[C30]
前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るための手段と、
前記新規のサウンドサンプルから新規の音響特徴を抽出するための手段と、
前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定するための手段と
をさらに備える、C26に記載の電子デバイス。

Claims (30)

  1. サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するために、電子デバイスにおいて実行される方法であって、前記方法は、
    第1のサウンドサンプルを受け取ることと、
    前記第1のサウンドサンプルから第1の音響特徴を抽出することと、
    第2のサウンドサンプルを受け取ることと、
    前記第2のサウンドサンプルから第2の音響特徴を抽出することと、
    前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定することと
    を備える、方法。
  2. 前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成することをさらに備える、請求項1に記載の方法。
  3. 前記第1のサウンドサンプルの信号対雑音比(SNR)を決定することと、
    前記第2のサウンドサンプルのSNRを決定することと、
    前記第1および第2のサウンドサンプルの前記SNRに基づいて、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つを選択することと、
    前記第2の音響特徴が前記第1の音響特徴に類似することを決定すると、前記選択された少なくとも1つのサウンドサンプルに基づいて、前記サウンド検出モデルを生成することと、
    選択されていないサウンドサンプルに基づいて、前記生成されたサウンド検出モデルを調整することと
    をさらに備える、請求項1に記載の方法。
  4. 前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定することをさらに備える、請求項1に記載の方法。
  5. 第3のサウンドサンプルを受け取ることと、
    前記第3のサウンドサンプルから第3の音響特徴を抽出することと、
    前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定することと
    をさらに備える、請求項4に記載の方法。
  6. 前記第1の音響特徴および前記第2の音響特徴の各々は、スペクトル特徴または時間領域特徴のうちの少なくとも1つを含む、請求項1に記載の方法。
  7. 前記第1の音響特徴および前記第2の音響特徴の各々は、サブワードのシーケンスを含む、請求項1に記載の方法。
  8. 前記サブワードは、音、音素、トライフォン、または音節のうちの少なくとも1つを含む、請求項7に記載の方法。
  9. 前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取ることと、
    前記新規のサウンドサンプルから新規の音響特徴を抽出することと、
    前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定することと
    をさらに備える、請求項1に記載の方法。
  10. 前記新規の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成することをさらに備える、請求項9に記載の方法。
  11. 前記サウンド検出モデルを生成することは、
    前記第1のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルの閾値を決定することと、
    前記第2のサウンドサンプルに基づいて、前記閾値を調整することと
    を備える、請求項10に記載の方法。
  12. 前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定することに基づいて、前記第2のサウンドサンプルが前記第1のサウンドサンプルに類似するかどうかの指示を出力することと、
    前記サウンド検出モデルを生成する際に使用される前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つを示す入力を受け取ることと
    をさらに備える、請求項1に記載の方法。
  13. 前記第1のサウンドサンプルおよび前記第2のサウンドサンプルの各々は、前記電子デバイスをアクティブ化するためのコマンド、あるいは前記電子デバイスにおけるアプリケーションまたは機能を制御するためのコマンドのうちの少なくとも1つを示す、請求項1に記載の方法。
  14. 音声入力を受け取ることと、
    前記サウンド検出モデルに基づいて、前記音声入力からキーワードまたはユーザのうちの少なくとも1つを認識することと
    をさらに備える、請求項2に記載の方法。
  15. サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための電子デバイスであって、
    第1のサウンドサンプルおよび第2のサウンドサンプルを受け取るように構成されたサウンドセンサと、
    前記第1のサウンドサンプルから第1の音響特徴を抽出し、前記第2のサウンドサンプルから第2の音響特徴を抽出し、前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定するように構成されたサウンドサンプル検証ユニットと
    を備える、電子デバイス。
  16. 前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成するように構成されたサウンド検出モデル生成ユニットをさらに備える、請求項15に記載の電子デバイス。
  17. 前記サウンドサンプル検証ユニットは、前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定するように構成される、請求項15に記載の電子デバイス。
  18. 前記サウンドセンサは、第3のサウンドサンプルを受け取るように構成され、
    前記サウンドサンプル検証ユニットは、前記第3のサウンドサンプルから第3の音響特徴を抽出し、前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するように構成される、
    請求項17に記載の電子デバイス。
  19. 前記サウンドセンサは、前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るように構成され、
    前記サウンドサンプル検証ユニットは、前記新規のサウンドサンプルから新規の音響特徴を抽出し、前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定するように構成される、
    請求項15に記載の電子デバイス。
  20. 前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定することに基づいて、前記第2のサウンドサンプルが前記第1のサウンドサンプルに類似するかどうかの指示を出力するように構成された出力ユニットと、
    前記サウンド検出モデルを生成する際に使用される前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つを示す入力を受け取るための入力ユニットと
    をさらに備える、請求項15に記載の電子デバイス。
  21. 命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、電子デバイスの少なくとも1つのプロセッサに、
    第1のサウンドサンプルを受け取り、
    前記第1のサウンドサンプルから第1の音響特徴を抽出し、
    第2のサウンドサンプルを受け取り、
    前記第2のサウンドサンプルから第2の音響特徴を抽出し、
    前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定する
    動作を実行させる、非一時的コンピュータ可読記憶媒体。
  22. 前記電子デバイスの前記少なくとも1つのプロセッサに、前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、サウンド検出モデルを生成する動作を実行させる命令をさらに備える、請求項21に記載の非一時的コンピュータ可読記憶媒体。
  23. 前記電子デバイスの前記少なくとも1つのプロセッサに、前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定する動作を実行させる命令をさらに備える、請求項21に記載の非一時的コンピュータ可読記憶媒体。
  24. 前記電子デバイスの前記少なくとも1つのプロセッサに、
    第3のサウンドサンプルを受け取り、
    前記第3のサウンドサンプルから第3の音響特徴を抽出し、
    前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定する
    動作を実行させる命令をさらに備える、請求項23に記載の非一時的コンピュータ可読記憶媒体。
  25. 前記電子デバイスの前記少なくとも1つのプロセッサに、
    前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取り、
    前記新規のサウンドサンプルから新規の音響特徴を抽出し、
    前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定する
    動作を実行させる命令をさらに備える、請求項21に記載の非一時的コンピュータ可読記憶媒体。
  26. サウンド検出モデルを生成する際に使用される少なくとも1つのサウンドサンプルを検証するための電子デバイスであって、
    第1のサウンドサンプルを受け取るための手段と、
    前記第1のサウンドサンプルから第1の音響特徴を抽出するための手段と、
    第2のサウンドサンプルを受け取るための手段と、
    前記第2のサウンドサンプルから第2の音響特徴を抽出するための手段と、
    前記第2の音響特徴が前記第1の音響特徴に類似するかどうかを決定するための手段と
    を備える、電子デバイス。
  27. 前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1のサウンドサンプルまたは前記第2のサウンドサンプルのうちの少なくとも1つに基づいて、前記サウンド検出モデルを生成するための手段をさらに備える、請求項26に記載の電子デバイス。
  28. 前記第2の音響特徴が前記第1の音響特徴に類似することを決定することに応答して、前記第1の音響特徴および前記第2の音響特徴に基づいて、組み合わせられた音響特徴を決定するための手段をさらに備える、請求項26に記載の電子デバイス。
  29. 第3のサウンドサンプルを受け取るための手段と、
    前記第3のサウンドサンプルから第3の音響特徴を抽出するための手段と、
    前記第3の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するための手段と
    をさらに備える、請求項28に記載の電子デバイス。
  30. 前記第2の音響特徴が前記第1の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るための手段と、
    前記新規のサウンドサンプルから新規の音響特徴を抽出するための手段と、
    前記新規の音響特徴が前記第1の音響特徴に類似するかどうかを決定するための手段と
    をさらに備える、請求項26に記載の電子デバイス。
JP2017521507A 2014-10-22 2015-10-02 サウンド検出モデルを生成するためのサウンドサンプル検証 Ceased JP2017535809A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201462067322P 2014-10-22 2014-10-22
US62/067,322 2014-10-22
US14/682,009 US9837068B2 (en) 2014-10-22 2015-04-08 Sound sample verification for generating sound detection model
US14/682,009 2015-04-08
PCT/US2015/053665 WO2016064556A1 (en) 2014-10-22 2015-10-02 Sound sample verification for generating sound detection model

Publications (2)

Publication Number Publication Date
JP2017535809A true JP2017535809A (ja) 2017-11-30
JP2017535809A5 JP2017535809A5 (ja) 2018-03-01

Family

ID=54291746

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017521507A Ceased JP2017535809A (ja) 2014-10-22 2015-10-02 サウンド検出モデルを生成するためのサウンドサンプル検証

Country Status (5)

Country Link
US (1) US9837068B2 (ja)
EP (1) EP3210205B1 (ja)
JP (1) JP2017535809A (ja)
CN (1) CN106796785B (ja)
WO (1) WO2016064556A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019176986A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、および記録媒体
JP2019219468A (ja) * 2018-06-18 2019-12-26 Zホールディングス株式会社 生成装置、生成方法及び生成プログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
US10141010B1 (en) * 2015-10-01 2018-11-27 Google Llc Automatic censoring of objectionable song lyrics in audio
CN105869637B (zh) * 2016-05-26 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
US11250844B2 (en) * 2017-04-12 2022-02-15 Soundhound, Inc. Managing agent engagement in a man-machine dialog
US10943573B2 (en) * 2018-05-17 2021-03-09 Mediatek Inc. Audio output monitoring for failure detection of warning sound playback
US10249319B1 (en) * 2017-10-26 2019-04-02 The Nielsen Company (Us), Llc Methods and apparatus to reduce noise from harmonic noise sources
KR102492727B1 (ko) * 2017-12-04 2023-02-01 삼성전자주식회사 전자장치 및 그 제어방법
CN108182937B (zh) * 2018-01-17 2021-04-13 出门问问创新科技有限公司 关键词识别方法、装置、设备及存储介质
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US10534515B2 (en) * 2018-02-15 2020-01-14 Wipro Limited Method and system for domain-based rendering of avatars to a user
CN108847250B (zh) * 2018-07-11 2020-10-02 会听声学科技(北京)有限公司 一种定向降噪方法、系统及耳机
US11069334B2 (en) * 2018-08-13 2021-07-20 Carnegie Mellon University System and method for acoustic activity recognition
CN109151702B (zh) * 2018-09-21 2021-10-08 歌尔科技有限公司 音频设备的音效调节方法、音频设备及可读存储介质
US11568731B2 (en) 2019-07-15 2023-01-31 Apple Inc. Systems and methods for identifying an acoustic source based on observed sound
CN113450775A (zh) * 2020-03-10 2021-09-28 富士通株式会社 模型训练装置、模型训练方法及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS584198A (ja) * 1981-06-30 1983-01-11 株式会社日立製作所 音声認識装置における標準パタ−ン登録方式
JPS62245295A (ja) * 1986-04-18 1987-10-26 株式会社リコー 特定話者音声認識装置
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
JPH0816186A (ja) * 1994-06-27 1996-01-19 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09218696A (ja) * 1996-02-14 1997-08-19 Ricoh Co Ltd 音声認識装置
JPH10207483A (ja) * 1997-01-16 1998-08-07 Ricoh Co Ltd 音声認識装置および標準パターン登録方法
JP2004508593A (ja) * 2000-09-01 2004-03-18 スナップ − オン テクノロジーズ,インコーポレイテッド コンピュータにより実現される音声認識システムトレーニング
JP2005196035A (ja) * 2004-01-09 2005-07-21 Nec Corp 話者照合方法、話者照合用プログラム、及び話者照合システム
WO2007111197A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2010086925A1 (ja) * 2009-01-30 2010-08-05 三菱電機株式会社 音声認識装置

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4994983A (en) * 1989-05-02 1991-02-19 Itt Corporation Automatic speech recognition system using seed templates
US6134527A (en) * 1998-01-30 2000-10-17 Motorola, Inc. Method of testing a vocabulary word being enrolled in a speech recognition system
US20040190688A1 (en) 2003-03-31 2004-09-30 Timmins Timothy A. Communications methods and systems using voiceprints
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
US7013272B2 (en) 2002-08-14 2006-03-14 Motorola, Inc. Amplitude masking of spectra for speech recognition method and apparatus
CN1547191A (zh) * 2003-12-12 2004-11-17 北京大学 结合语义和声纹信息的说话人身份确认系统
JP3955880B2 (ja) * 2004-11-30 2007-08-08 松下電器産業株式会社 音声認識装置
US20060215821A1 (en) 2005-03-23 2006-09-28 Rokusek Daniel S Voice nametag audio feedback for dialing a telephone call
CN101154380B (zh) * 2006-09-29 2011-01-26 株式会社东芝 说话人认证的注册及验证的方法和装置
CN101465123B (zh) * 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
US8983832B2 (en) * 2008-07-03 2015-03-17 The Board Of Trustees Of The University Of Illinois Systems and methods for identifying speech sound features
US9253560B2 (en) * 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
CN101714355A (zh) * 2008-10-06 2010-05-26 宏达国际电子股份有限公司 语音辨识功能启动系统及方法
US8635237B2 (en) * 2009-07-02 2014-01-21 Nuance Communications, Inc. Customer feedback measurement in public places utilizing speech recognition technology
US20110004474A1 (en) * 2009-07-02 2011-01-06 International Business Machines Corporation Audience Measurement System Utilizing Voice Recognition Technology
US20110320201A1 (en) * 2010-06-24 2011-12-29 Kaufman John D Sound verification system using templates
US8802957B2 (en) * 2010-08-16 2014-08-12 Boardwalk Technology Group, Llc Mobile replacement-dialogue recording system
CN102404287A (zh) * 2010-09-14 2012-04-04 盛乐信息技术(上海)有限公司 用数据复用法确定声纹认证阈值的声纹认证系统及方法
US9262612B2 (en) * 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102237089B (zh) * 2011-08-15 2012-11-14 哈尔滨工业大学 一种减少文本无关说话人识别系统误识率的方法
US8290772B1 (en) * 2011-10-03 2012-10-16 Google Inc. Interactive text editing
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
JPWO2013179464A1 (ja) * 2012-05-31 2016-01-14 トヨタ自動車株式会社 音源検出装置、ノイズモデル生成装置、ノイズ抑圧装置、音源方位推定装置、接近車両検出装置及びノイズ抑圧方法
CN103680497B (zh) * 2012-08-31 2017-03-15 百度在线网络技术(北京)有限公司 基于视频的语音识别系统及方法
CN103685185B (zh) * 2012-09-14 2018-04-27 上海果壳电子有限公司 移动设备声纹注册、认证的方法及系统
CN103841248A (zh) * 2012-11-20 2014-06-04 联想(北京)有限公司 一种信息处理的方法及电子设备
CN106981290B (zh) * 2012-11-27 2020-06-30 威盛电子股份有限公司 语音控制装置和语音控制方法
CN103971689B (zh) * 2013-02-04 2016-01-27 腾讯科技(深圳)有限公司 一种音频识别方法及装置
US9865266B2 (en) 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9785706B2 (en) * 2013-08-28 2017-10-10 Texas Instruments Incorporated Acoustic sound signature detection based on sparse features
WO2015156775A1 (en) * 2014-04-08 2015-10-15 Empire Technology Development Llc Sound verification
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS584198A (ja) * 1981-06-30 1983-01-11 株式会社日立製作所 音声認識装置における標準パタ−ン登録方式
JPS62245295A (ja) * 1986-04-18 1987-10-26 株式会社リコー 特定話者音声認識装置
JPH02210500A (ja) * 1989-02-10 1990-08-21 Ricoh Co Ltd 標準パターン登録方式
JPH0816186A (ja) * 1994-06-27 1996-01-19 Matsushita Electric Ind Co Ltd 音声認識装置
JPH09218696A (ja) * 1996-02-14 1997-08-19 Ricoh Co Ltd 音声認識装置
JPH10207483A (ja) * 1997-01-16 1998-08-07 Ricoh Co Ltd 音声認識装置および標準パターン登録方法
JP2004508593A (ja) * 2000-09-01 2004-03-18 スナップ − オン テクノロジーズ,インコーポレイテッド コンピュータにより実現される音声認識システムトレーニング
JP2005196035A (ja) * 2004-01-09 2005-07-21 Nec Corp 話者照合方法、話者照合用プログラム、及び話者照合システム
WO2007111197A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2010086925A1 (ja) * 2009-01-30 2010-08-05 三菱電機株式会社 音声認識装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019176986A1 (ja) * 2018-03-15 2019-09-19 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、および記録媒体
JPWO2019176986A1 (ja) * 2018-03-15 2021-02-04 日本電気株式会社 信号処理システム、信号処理装置、信号処理方法、およびプログラム
US11842741B2 (en) 2018-03-15 2023-12-12 Nec Corporation Signal processing system, signal processing device, signal processing method, and recording medium
JP2019219468A (ja) * 2018-06-18 2019-12-26 Zホールディングス株式会社 生成装置、生成方法及び生成プログラム

Also Published As

Publication number Publication date
EP3210205B1 (en) 2020-05-27
US9837068B2 (en) 2017-12-05
CN106796785A (zh) 2017-05-31
EP3210205A1 (en) 2017-08-30
US20160118039A1 (en) 2016-04-28
CN106796785B (zh) 2021-05-25
WO2016064556A1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
CN106233374B (zh) 用于检测用户定义的关键字的关键字模型生成
US10381004B2 (en) Display apparatus and method for registration of user command
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
US20150302856A1 (en) Method and apparatus for performing function by speech input
KR102628211B1 (ko) 전자 장치 및 그 제어 방법
CN105874732B (zh) 用于识别音频流中的一首音乐的方法和装置
CN106233376A (zh) 用于通过话音输入激活应用程序的方法和设备
KR102836970B1 (ko) 전자 장치 및 이의 제어 방법
CN103035240A (zh) 用于使用上下文信息的语音识别修复的方法和系统
CN105027574A (zh) 在语音识别系统中控制显示装置的显示装置和方法
CN104123938A (zh) 语音控制系统、电子装置及语音控制方法
WO2018047421A1 (ja) 音声処理装置、情報処理装置、音声処理方法および情報処理方法
CN107977187B (zh) 一种混响调节方法及电子设备
CN112863496B (zh) 一种语音端点检测方法以及装置
KR102890420B1 (ko) 사용자 명령어 등록을 위한 디스플레이 장치 및 방법
JP6571587B2 (ja) 音声入力装置、その方法、及びプログラム
CN120019356A (zh) 基于语音的用户认证
JPWO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170704

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180118

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180118

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20180118

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20180126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180507

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181017

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181218

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20190507