JP2018536889A - 音声データを使用して操作を開始するための方法および装置 - Google Patents

音声データを使用して操作を開始するための方法および装置 Download PDF

Info

Publication number
JP2018536889A
JP2018536889A JP2018518633A JP2018518633A JP2018536889A JP 2018536889 A JP2018536889 A JP 2018536889A JP 2018518633 A JP2018518633 A JP 2018518633A JP 2018518633 A JP2018518633 A JP 2018518633A JP 2018536889 A JP2018536889 A JP 2018536889A
Authority
JP
Japan
Prior art keywords
audio
audio data
speech
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018518633A
Other languages
English (en)
Inventor
スー,ミンキアン
ヤン,ジージエ
ガオ,ジエ
チュー,ミン
Original Assignee
アリババ グループ ホウルディング リミテッド
アリババ グループ ホウルディング リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アリババ グループ ホウルディング リミテッド, アリババ グループ ホウルディング リミテッド filed Critical アリババ グループ ホウルディング リミテッド
Publication of JP2018536889A publication Critical patent/JP2018536889A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音声を使用して操作を開始するための方法が提供される。該方法は、使用段階で検出された第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出するステップと、1つまたは複数の音声特徴に従って第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定するステップであって、第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、判定ステップと、類似度に基づいて第1の音声モデルに対応する操作を実行するステップとを含む。
【選択図】図1

Description

関連出願の相互参照
[0001] 本願は、2015年10月14日に出願された中国特許第201510662029.0号に基づき、その優先権を主張するものであり、この特許の内容全体を参照によって本願明細書に引用したものとする。
[0002] 本願は、音声認識の分野に関し、特に、音声データを使用して操作を開始するための方法および装置に関する。
[0003] 高性能電子デバイスの発展に伴い、音声コマンドを使用して、携帯電話、車載端末、ホームデバイス、および家電製品のような電子デバイスを制御するのは、一般的な特徴となっている。通常、電子デバイスの音声制御は、音声認識に基づいて実現される。電子デバイスは、受信された音声データに音声認識を行い、音声認識結果に従って制御コマンドを判定して、制御コマンドを自動的に実行し得る。
[0004] 音声制御の特徴は、ユーザにとって便利であるが、場合によっては、なりすましが発生して、セキュリティ問題をもたらすことが多い。例えば、携帯電話が音声によってロック解除されるケースでは、権限のない個人がユーザの話したことを盗み聞きして、携帯電話を盗んだ後またはユーザが離れた後に、その言葉を繰り返してユーザになりすます可能性がある。権限のない個人は、その後、セキュリティ保護手段(例えば、画面ロック)を擦り抜けて、携帯電話をロック解除し、携帯電話の中のデータを盗む可能性があり、これはユーザにとって損害となる。別の例では、家電製品が音声で制御されるケースでは、家に居る子供が頻繁に面白半分で音声コマンドを出して家電製品を制御する可能性がある。その結果、家電製品が正常に機能しなくなる可能性があり、子供が怪我をする可能性さえある。
[0005] 本開示は、音声を使用して操作を開始するための方法を提供する。いくつかの実施形態によれば、該方法は、使用段階で検出された第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出するステップと、1つまたは複数の音声特徴に従って第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定するステップであって、第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、判定ステップと、類似度に基づいて第1の音声モデルに対応する操作を実行するステップとを含む。
[0006] いくつかの実施形態によれば、本開示は、音声を使用して操作を開始するための装置を提供する。該装置は、使用段階で検出された第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出する音声特徴抽出モジュールと、1つまたは複数の音声特徴に従って第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定するモデル類似度判定モジュールであって、第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、モデル類似度判定モジュールと、類似度に基づいて第1の音声モデルに対応する操作を実行する操作実行モジュールと、を含む。
[0007] いくつかの実施形態によれば、本開示は、電子デバイスに音声を使用して操作を開始するための方法を実行させるために電子デバイスの少なくとも1つのプロセッサによって実行可能な命令セットを記憶する非一時的なコンピュータ可読媒体を提供する。該方法は、使用段階で検出された第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出するステップと、1つまたは複数の音声特徴に従って第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定するステップであって、第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、判定ステップと、類似度に基づいて第1の音声モデルに対応する操作を実行するステップとを含む。
[0008] 開示されている実施形態のさらなる目的および利点は、一部は後述の説明に記載され、一部は以下の説明から明らかになるであろう、または実施形態を実施することによって理解され得る。開示されている実施形態の目的および利点は、請求項に記載されている要素および組み合わせによって実現され、達成され得る。
[0009] 上述の概要および後述の詳細はいずれも単なる例や説明に過ぎず、請求される本開示の実施形態を制限するものではないことは理解されたい。
[0010] 本明細書に組み込まれ、本明細書の一部を成す添付図面は、本発明に従う実施形態を示しており、詳細な説明と合わせて、本発明の原理を説明する助けとなる。
[0011]本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための例示的な方法のフローチャートである。 [0012]本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための別の例示的な方法のフローチャートである。 [0013]本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための例示的な装置のブロック図である。
[0014] 実施例が添付図面に示されている例示的な実施形態について、詳細に説明する。以下の説明は、添付図面を参照する。図面において、異なる図面内の同一の番号は、別段の指示がない限り、同一または同様の要素を表す。例示的な実施形態の後述の説明の中で示されている実施態様は、本発明に従う全ての実施態様を示すものではない。むしろ、これらの実施態様は、添付の請求項に記載されているような本発明に関連する態様に従うデバイスおよび方法の単なる例に過ぎない。
[0015] 図1は、音声を使用して操作を開始するための例示的な方法100のフローチャートである。例示的な方法100は、電子デバイスによって実行され得る。電子デバイスは、携帯電話、タブレットコンピュータ、携帯情報端末(PDA)、スマートウェアラブルデバイス(例えば、眼鏡や腕時計)のようなモバイル機器であり得る。モバイル機器のオペレーティングシステムは、Android(登録商標)、iOS(登録商標)、Windows(登録商標)Phone、Windows(登録商標)であり得、音声アシスタントアプリケーションの実行を支援し得る。電子デバイスはさらに、スマートテレビ、スマートホームデバイス、スマート家電製品のような固定式デバイスであり得る。電子デバイスのタイプは、本願の開示によって制限されない。図1を参照すると、方法100は、以下のステップを含む。
[0016] ステップ101において、電子デバイスは、使用段階で検出された第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出する。本開示において、ユーザの特定の音声コンテンツのオーディオデータを事前設定する段階は登録段階と呼ばれ、現在のオーディオデータがユーザの事前設定の音声データと一致するか否かを検証する段階は使用段階と呼ばれる。例えば、ユーザがモバイル機器をロック解除するために「hello there,Little Tom」というオーディオデータを事前設定するとき、この段階は登録段階と呼ばれる。登録段階におけるユーザの特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。登録後、モバイル機器の画面がロックされる。画面ロック状態のモバイル機器および画面が起動されると、ユーザは「hello there,Little Tom」をもう一度言うことができる。この間、モバイル機器はマイク入力をモニターし、ロック解除操作を実行するかどうかを判定する。この段階は、使用段階と呼ばれ得る。
[0017] いくつかの実施形態では、ステップ101は、以下のサブステップを含み得る。
[0018] サブステップS11において、電子デバイスは、第1のオーディオデータが使用段階で検出された後、第1のオーディオデータが音声データであるか否かを判定する。第1のオーディオデータが音声データである場合、電子デバイスはサブステップS12を実行し、第1のオーディオデータが音声データでない場合、電子デバイスはサブステップS13を実行する。
[0019] いくつかの実施態様では、音声アシスタントアプリケーションは電子デバイスにインストールされ、いつでもユーザにサービスを提供する必要があり、この場合、音声アシスタントアプリケーションは環境の中のオーディオデータを絶えず収集する。オーディオデータは、ユーザまたは他のユーザによって送信された音声データであり得、また雑音でもあり得る。いくつかの実施形態では、オーディオデータの短期エネルギー特徴および時間周波数変動合計の特徴が抽出されて、トレーニングのためのニューラルネットワークの入力として使用され得、ニューラルネットワークは、それに応じてオーディオデータが音声データであるか、または雑音であるかを判定し得る。例えば、ニューラルネットワークの入力ノードの数はオーディオデータの特徴次元数に等しくなり得、出力ノードの数は1として設定され得る。出力の数値がプリセット値(例えば、0.5)より大きい場合、オーディオデータは音声データとして判定され、それ以外の場合、非音声データとして判定される。
[0020] サブステップS12において、電子デバイスは、第1のオーディオデータの音声特徴を抽出する。
[0021] サブステップS13において、電子デバイスは、第1のオーディオデータを破棄する。
[0022] ステップ101において、検出された第1のオーディオデータに対して音声区間検出(VAD)が実行され得る。音声データの部分(すなわち、人によって発せられた音)において次のテストプロセスが実行され得、非音声データの部分が破棄され得る。検出するための音声データを選択して、非音声データを破棄することによって、計算量が少なくなり、その結果、デバイスの電力消費が低減される。
[0023] いくつかの実施形態では、ステップ101は、以下のサブステップを含み得る。
[0024] サブステップS14において、電子デバイスは、第1のオーディオデータを1つまたは複数の音声セグメントデータに分割する。音声セグメントデータの各々は、音声コンテンツを表し、音声セグメントデータの各々の音声コンテンツは、互いに独立した音声コンテンツであり得る。例えば、ユーザが「hello there,Little Tom」という音声コンテンツを含む第1のオーディオデータを生成した場合、第1のオーディオデータは、「hello」、「there」、「Little」、「Tom」の音声コンテンツを含む4つの音声セグメントに分割され得る。
[0025] いくつかの実施態様において、オーディオデータの分割点が推定され、第1のオーディオデータは分割点で1つまたは複数の音声セグメントデータに分割される。例えば、第1のオーディオデータの各々のフレームは、動的計画法(DP)アルゴリズムを使用したフォースアライメントによって、事前トレーニングされた第1の音声モデルに対応して判定され得る。
[0026] サブステップS15において、電子デバイスは、音声セグメントデータの各々の1つまたは複数の音声特徴を抽出する。
[0027] いくつかの実施形態では、計算量を減らすために、抽出される特徴は、メル周波数ケプストラム係数(MFCC)を含み得る。メル周波数は、人の聴覚特徴に基づいて形成されたスケールであり、ヘルツ周波数との非線形の対応関係を有する。MFCCは、メル周波数とヘルツ周波数との対応関係に基づいて判定されたヘルツスペクトル特徴である。さらに、韻律的特徴(prosodic features)のような他の特徴も抽出され得、本開示によって制限されない。
[0028] ステップ102において、電子デバイスは、1つまたは複数の音声特徴に従って第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定する。
[0029] いくつかの実施形態では、第1の音声モデルは、登録段階においてユーザによって提供された第2のオーディオデータでトレーニングすることによって生成され、ユーザの特定の音声コンテンツのオーディオデータを示す。特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。
[0030] いくつかの実施形態では、第1の音声モデルは、混合ガウスモデル(GMM)であり得る。例えば、対象は、ガウス確率密度関数(正規分布曲線)を使用して量子化され、ガウス確率密度関数(正規分布曲線)に基づいて線形重ね合わせによって形成された複数のモデルに分解され得る。ベイズの理論によれば、GMMモデルは、確率によって人の音声コンテンツを表現する。また、第1の音声モデルは、ベクトル量子化(VQ)モデルまたはサポートベクトルマシン(SVM)モデルのような別のモデルであり得、本開示によって制限されない。
[0031] いくつかの実施形態では、第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、登録段階におけるユーザの第2のオーディオデータでトレーニングすることによって生成される。例えば、ユーザが「hello there,Little Tom」という音声コンテンツを含む第2のオーディオデータを設定し、4つの音声サブモデルがそれぞれ、「hello」、「there」、「Little」、「Tom」の音声コンテンツを含む第2のオーディオデータを使用してトレーニングされ得る。
[0032] いくつかの実施形態では、音声サブモデルは、GMMモデルであり得る。また、音声サブモデルは、VQモデルまたはSVMモデルのような別のモデルであり得、本開示によって制限されない。
[0033] いくつかの実施形態では、ステップ102は、以下のサブステップを含み得る。
[0034] サブステップS21において、電子デバイスは、分割順に従って音声セグメントデータの各々に対応する音声サブモデルを識別する。
[0035] いくつかの実施態様では、音声セグメントデータの各々は、DPアルゴリズムに従って、対応する音声サブモデルと比較され得る。例えば、i番目の音声セグメントデータは、i番目の音声サブモデルと比較される。ここで、iは正の整数である。
[0036] サブステップS22において、電子デバイスは、音声セグメントデータの各々の1つまたは複数の音声特徴と音声サブモデルとの間の音声セグメント類似度を判定する。
[0037] いくつかの実施態様では、音声セグメント類似度は、対数尤度関数を使用して判定され得る。例えば、ユーザが「hello there,Little Tom」の音声コンテンツを含む第1のオーディオデータを生成した場合、「hello」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「hello」の音声コンテンツを含む音声サブモデルと比較され、「there」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「there」の音声コンテンツを含む音声サブモデルと比較され、「Little」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「Little」の音声コンテンツを含む音声サブモデルと比較され、「Tom」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「Tom」の音声コンテンツを含む音声サブモデルと比較される。音声セグメント類似度を判定するのに他の方法が使用され得、本開示によって制限されないことは理解されたい。
[0038] サブステップS23において、電子デバイスは、各々の音声セグメント類似度に従って第1のオーディオデータと第1の音声モデルとの間の類似度を判定する。
[0039] いくつかの実施形態では、音声セグメント類似度(例えば、対数尤度関数の値)は、第1のオーディオデータと第1の音声モデルとの間の類似度を求めるために平均化され得、これはスコアリングと呼ばれ得る。類似度を判定するのに、直接加算または重み付け平均化のような他の方法が使用され得、本開示によって制限されないことは理解されたい。
[0040] いくつかの実施形態では、類似度が求められた後、類似度は正規化され得、例えば、[0−100]の範囲に収まるように調整され得、正規化の後、類似度のダイナミックレンジは狭くなり、類似度の物理的解釈が直感的になる。
[0041] ステップ103において、電子デバイスは、類似度に基づいて第1の音声モデルに対応する操作を実行する。
[0042] 類似度が事前設定の類似度閾値より大きい場合に、第1の音声モデルに対応する操作が実行される。一般に、高い類似度は、現在の話者の第1のオーディオデータがユーザの第2のオーディオデータに類似していることを示している。類似度が事前設定の類似度閾値より大きい(または、いくつかの実施形態では、等しい)場合、現在の話者の第1のオーディオデータがユーザの第2のオーディオデータと同一であると見なされ、事前設定の操作、例えば、事前設定のアプリケーション操作が実行される。それ以外の場合、現在の話者の第1のオーディオデータがユーザの第2のオーディオデータと同一でないと見なされる。それは、話者の同一性(identity)が一致していない、音声コンテンツが一致していない、または同一性および音声コンテンツの両方が一致していないことが原因であり得る。
[0043] 例えば、使用段階で画面ロック状態である場合、操作はロック解除操作および指定アプリケーション(例えば、音声アシスタントアプリケーション)の開始を含み得る。さらに、指紋やパスワードによる支払い、アカウントログイン、およびセキュリティ検証のような他の操作が設定され得、本開示によって制限されない。
[0044] 方法100において、検出された第1のオーディオデータは、ユーザの特定の音声コンテンツのオーディオデータの特徴を示す第1の音声モデルと比較され、対応する操作を実行するために特定の人の音声および同一性の認証が実行される。そうすることで、個別の音声制御が実現され、なりすましの可能性が低減され、音声制御のセキュリティが向上する。
[0045] 図2は、本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための別の例示的な方法200のフローチャートである。例示的な方法200は、電子デバイスによって実行され得る。図2を参照すると、方法200は、以下のステップを含む。
[0046] ステップ201において、電子デバイスは、登録段階においてユーザの1つまたは複数のオーディオデータを取得する。登録段階の初期設定の間、ユーザは、デバイスがユーザの音声を学習するのを容易にするために、特定の音声コンテンツ(例えば、「hello there,Little Tom」)を1回または複数回(例えば、3回)話すことができる。特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。例えば、特定の音声コンテンツは、「hello there,Little Tom」のようにデフォルトとして電子デバイスによって設定され得、または「open sesame」のようにユーザによって定義され得、本開示によって制限されない。
[0047] いくつかの実施形態では、ステップ201は、以下のサブステップを含み得る。
[0048] サブステップS41において、電子デバイスは、オーディオデータが登録段階で検出された後、オーディオデータが音声データであるか否かを判定する。そのオーディオデータが音声データである場合、電子デバイスはサブステップS42を実行し、そのオーディオデータが音声データでない場合、電子デバイスはサブステップS43を実行する。
[0049] サブステップS42において、電子デバイスは、そのオーディオデータがユーザのオーディオデータであると判定する。
[0050] サブステップS43において、電子デバイスは、そのオーディオデータを破棄する。
[0051] いくつかの実施形態では、検出されたオーディオデータに対してVADが実行され得、音声データの部分(すなわち、人によって発せられた音)において次の初期化プロセスが実行され得、非音声データの部分が破棄され得る。初期化のための音声データを選択して、非音声データを破棄することによって、計算量が少なくなり、その結果、デバイスの電力消費が低減される。
[0052] ステップ202において、電子デバイスは、ユーザの1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングする。
[0053] いくつかの実施形態では、第2の音声モデルは、登録段階におけるユーザの非特定の音声コンテンツのオーディオデータでトレーニングすることによって生成され、ユーザの非特定の音声コンテンツのオーディオデータの特徴を示す。非特定の音声コンテンツは、事前選択された特定コンテンツとは異なる場合があり、オーディオコンテンツの順序は、このステップでは問題にならない。
[0054] いくつかの実施形態では、第2の音声モデルは、GMMモデルであり得る。また、第2の音声モデルは、VQモデルまたはSVMモデルのような別のモデルであり得、本開示によって制限されない。
[0055] いくつかの実施形態では、ステップ202は、以下のサブステップをさらに含み得る。
[0056] サブステップS51において、電子デバイスは、事前設定の第3の音声モデルを識別する。第3の音声モデルは、一般の人(ユーザでない話者)の非特定の音声コンテンツのオーディオデータでトレーニングすることによって生成され得、ユーザでない話者の非特定の音声コンテンツのオーディオデータの特徴を示す。非特定の音声コンテンツは、登録段階で検出された事前選択の音声コンテンツとは異なる場合がある。事前設定の第3の音声モデルは、ユーザに無関係であり、話されたコンテンツに無関係であり得るので、グローバル音声モデルと呼ばれる場合がある。
[0057] いくつかの実施形態では、第3の音声モデルは、GMMモデルであり得る。ベイズの理論によれば、グローバルGMMモデルは、人の声の一般的な特徴を示し、第2の音声モデルをトレーニングするための事前確率知識を表す。また、第3の音声モデルは、VQモデルまたはSVMモデルのような別のモデルであり得、本開示によって制限されない。GMMモデルをトレーニングするためのオーディオデータの持続時間は数時間または数十時間であり得、話者の人数は数百人になり得、混合度は高くなり得る(一般に、256〜4096混合度)。いくつかの実施態様では、オーディオデータの音声特徴が抽出され、GMMモデルは期待値最大化(EM)アルゴリズムに従ってトレーニングすることによって取得される。
[0058] サブステップS52において、電子デバイスは、ユーザの1つまたは複数のオーディオデータおよび第3の音声モデルを使用して第2の音声モデルをトレーニングする。
[0059] いくつかの実施形態では、更新された第2の音声モデル(例えば、GMMモデル)は、最大事後確率(MAP)を使用して、ユーザのオーディオデータおよび第3の音声モデルに従ってトレーニングすることによって取得され得る。例えば、指定データが候補推定セット内で検索されたときの最大確率の推定はMAPと呼ばれ、MAPは、各々の候補推定の事後確率を判定するためにベイズの公式を使用して判定され得る。グローバルGMMモデル(例えば、第3の音声モデル)内の各々のガウス分布は音素または音素クラスに対応し、トレーニングデータは多くの異なる話者および異なるバックグラウンドに由来するので、グローバルGMMモデルによって示される統計的分布は、一般の話者の特徴の統計的分布およびバックグラウンドの特徴の統計的分布を表している。
[0060] いくつかの実施形態では、第2の音声モデルはさらに、GMMモデルであり得、グローバルGMMモデルと同じ混合度を有し得る。第2の音声モデルは、MAPアルゴリズムを使用して、ユーザの音声データをグローバルGMMモデルに適合させることによって取得され得る。MAPアルゴリズムを使用することによって、ユーザの音声データの量が少なくても、GMMモデル(例えば、第2の音声モデル)のパラメータの推定は比較的正確になり得る。
[0061] MAPアルゴリズムによって、ガウス確率密度関数の1対1の対応が、第2の音声モデルと第3の音声モデルとの間で確立される。このような対応は、音声の音素の影響を効果的に補償し、ユーザの個人情報を強調し得る。
[0062] ステップ203において、電子デバイスは、ユーザの1つまたは複数のオーディオデータおよび第2の音声モデルに従って第1の音声モデルをトレーニングする。
[0063] MFCC特徴パラメータを採用する場合、EMアルゴリズムを使用してトレーニングすることによって取得されたGMMモデルは、登録者(すなわち、ユーザ)の音声特徴を表している。第2の音声モデルは、全ての登録音声を使用し、異なる時間系列における話されたコンテンツを考慮しないので、GMMモデルは、登録音声に示されているコンテンツに無関係であり、またコンテンツの順序に無関係であり得、音声コンテンツに無関係な登録者の音声特徴を表している。この場合、「hello there,Little Tom」または「Little,Tom,hello there」の音声コンテンツでトレーニングすることによって取得されたGMMモデルは、基本的に同じであり得る。
[0064] いくつかの実施形態では、音声コンテンツが同一であるか否かを検出するために、すなわち、「hello there,Little Tom」と「Little,Tom,hello there」とを区別するために、時間区間ベースのマルチボイスサブモデルスキームが実装され得る。例えば、音声サブモデルは、各々の時間区間内のオーディオデータに対して確立され得、この場合、音声サブモデルは、特定の時間区間内の登録者の特定のコンテンツの音声を示している。したがって、第1の音声モデルは、1つまたは複数の音声サブモデルを含み得、各々の音声サブモデルは、ユーザの特定の音声コンテンツのオーディオデータを表している。このとき、多数の音声サブモデルを組み合わせてもよく、登録者の声紋の特徴を示すことができる。時間区間ベースのマルチボイスサブモデルスキームを実装することによって、第1の音声モデルは、ユーザとなりすました人とを区別し得、さらに「hello there,Little Tom」と「Little Tom,hello there」のような音声コンテンツの違いを区別し得る。
[0065] いくつかの実施形態では、ステップ203は、以下のサブステップを含み得る。
[0066] サブステップS61において、電子デバイスは、ユーザのオーディオデータの各々を1つまたは複数の音声セグメントデータに分割する。
[0067] いくつかの実施態様において、オーディオデータの分割点が推定され、オーディオデータはDPアライメントによって分割点で1つまたは複数の音声セグメントデータに分割される。音声セグメントデータの各々は、互いに独立し得る音声コンテンツを表す。例えば、ユーザが「hello there,Little Tom」という音声コンテンツを含むオーディオデータを生成した場合、オーディオデータは、「hello」、「there」、「Little」、「Tom」の音声コンテンツを含む4つの音声セグメントデータに分割され得る。
[0068] サブステップS62において、電子デバイスは、音声セグメントデータの各々の少なくとも1つの音声特徴を抽出する。
[0069] いくつかの実施形態では、計算量を減らすために、抽出される特徴は、MFCCであり得る。抽出される特徴はさらに、韻律的特徴のような他の特徴であり得、本開示によって制限されない。
[0070] サブステップS63において、電子デバイスは、音声セグメントデータの各々の少なくとも1つの音声特徴および第2の音声モデルを使用して第1の音声モデルをトレーニングする。
[0071] いくつかの実施形態では、第1の音声モデル(例えば、GMMモデル)は、ユーザの特定の音声コンテンツのオーディオデータの特徴を表すために、MAPを使用してユーザのオーディオデータおよび第2の音声モデルに従ってトレーニングすることによって取得され得る。
[0072] ステップ204において、電子デバイスは、使用段階で検出された第1のオーディオデータの1つまたは複数の音声特徴を抽出する。
[0073] ステップ205において、電子デバイスは、第1のオーディオデータの1つまたは複数の音声特徴に従って第1のオーディオデータと第1の音声モデルとの間の類似度を判定する。第1の音声モデルは、ユーザの特定の音声コンテンツのオーディオデータの特徴を表す音声モデルである。
[0074] ステップ206において、電子デバイスは、類似度に従って第1の音声モデルに対応する操作を実行する。
[0075] ステップ207において、電子デバイスは、使用段階で検出された第1のオーディオデータを使用することによって、第1の音声モデルおよび第2の音声モデルを更新する。
[0076] 登録段階において、ユーザエクスペリエンスを向上させるために、登録は、通常は、ユーザが数回(例えば、2回〜5回)話せば完了し得る。ユーザが多く話すほど、モデルはより適切にトレーニングされ、システムの認識精度が高くなる。したがって、方法200において、ターゲットのユーザのオーディオデータをより多く取得するために、「トレーニング」方法が採用される。
[0077] 使用段階において、第1のオーディオデータが第1の音声モデルと比較された後、類似度が事前設定の類似度閾値より高い場合、オーディオデータはユーザから発せられたものであり、特定の音声コンテンツが特徴的であり、その音声コンテンツが既存の第1の音声モデルおよび第2の音声モデルを更新するのに使用可能であると判定され得る。類似度閾値はステップ205において判定された類似度と異なる可能性があり、類似度閾値がそれより高い値である可能性があることに留意されたい。
[0078] 方法200において、第1の音声モデルおよび第2の音声モデルは、使用段階でオーディオデータを使用することによって、絶えず更新される。そうすることによって、第1の音声モデルおよび第2の音声モデルの精度は向上し、使用段階でのオーディオデータの認識精度が向上する。
[0079] 図3は、本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための例示的な装置300のブロック図である。装置300は、 図1および図2に関して上述した電子デバイスの一部または全体として実装され得る。図3を参照すると、装置300は、音声特徴抽出モジュール301と、モデル類似度判定モジュール302と、操作実行モジュール303とを含む。これらのモジュール(および対応するサブモジュール)の各々は、他の構成要素(例えば、集積回路の一部)と併用するように設計されたパッケージ機能ハードウェアユニット、または関連機能の特定の機能を実行するプログラム(コンピュータ可読媒体に記憶される)の一部であり得る。
[0080] 音声特徴抽出モジュール301は、使用段階で検出された第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出するように構成される。
[0081] モデル類似度判定モジュール302は、1つまたは複数の音声特徴に従って第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定するように構成され、第1の音声モデルは、ユーザの特定の音声コンテンツのオーディオデータの特徴に関連付けられる。特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。
[0082] 操作実行モジュール303は、類似度に基づいて第1の音声モデルに対応する操作を実行するように構成される。
[0083] いくつかの実施形態では、音声特徴抽出モジュール301はさらに、第1の音声データ判定サブモジュールと、第1の抽出サブモジュールと、第1の破棄サブモジュールと(図示せず)を含み得る。第1の音声データ判定サブモジュールは、第1のオーディオデータが使用段階で検出された後、第1のオーディオデータが音声データであるか否かを判定するように構成される。第1のオーディオデータが音声データである場合、第1の抽出サブモジュールが呼び出される。第1のオーディオデータが音声データでない場合、破棄サブモジュールが呼び出される。第1の抽出サブモジュールは、第1のオーディオデータの1つまたは複数の音声特徴を抽出するように構成される。第1の破棄サブモジュールは、第1のオーディオデータを破棄するように構成される。
[0084] いくつかの実施形態では、音声特徴抽出モジュール301はさらに、第1の分割サブモジュールと、第2の抽出サブモジュールと(図示せず)を含み得る。第1の分割サブモジュールは、第1のオーディオデータを1つまたは複数の音声セグメントデータに分割するように構成され、音声セグメントデータの各々は別個の音声コンテンツに関連付けられる。第2の抽出サブモジュールは、音声セグメントデータの各々の少なくとも1つの音声特徴を抽出するように構成される。
[0085] いくつか実施形態では、第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、ユーザの特定の音声コンテンツのオーディオデータに関連付けられる。
[0086] いくつかの実施形態では、モデル類似度判定モジュール302はさらに、音声サブモデル識別サブモジュールと、音声セグメント類似度判定サブモジュールと、類似度判定サブモジュールと(図示せず)を含み得る。音声サブモデル識別サブモジュールは、分割順に従って音声セグメントデータの各々に対応する音声サブモデルを識別するように構成される。音声セグメント類似度判定サブモジュールは、音声セグメントデータの各々の1つまたは複数の音声特徴と音声サブモデルとの間のセグメント類似度を判定するように構成される。類似度判定サブモジュールは、各々の音声セグメント類似度に従って第1のオーディオデータと第1の音声モデルとの間の類似度を判定するように構成される。
[0087] いくつかの実施形態では、操作実行モジュール303は、実行サブモジュールを含み得る。実行サブモジュールは、類似度が事前設定の類似度閾値より大きい場合に、アプリケーション操作のような第1の音声モデルに対応する操作を実行するように構成される。例えば、使用段階で画面ロック状態である場合、操作はロック解除操作および事前設定のアプリケーションの開始を含み得る。
[0088] いくつかの実施形態では、装置300はさらに、オーディオデータ取得モジュールと、第2の音声モデルトレーニングモジュールと、第1の音声モデルトレーニングモジュールと(図示せず)を含み得る。オーディオデータ取得モジュールは、登録段階においてユーザの1つまたは複数のオーディオデータを取得するように構成される。第2の音声モデルトレーニングモジュールは、ユーザの1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングするように構成され、この場合、第2の音声モデルは、ユーザの非特定の音声コンテンツのオーディオデータの特徴に関連付けられる。第1の音声モデルトレーニングモジュールは、ユーザの1つまたは複数のオーディオデータおよび第2の音声モデルに従って第1の音声モデルをトレーニングするように構成される。
[0089] いくつかの実施形態では、オーディオデータ取得モジュールはさらに、第2の音声データ判定サブモジュールと、判定サブモジュールと、第2の破棄サブモジュールとを含み得る。第2の音声データ判定サブモジュールは、1つまたは複数のオーディオデータが登録段階で検出された後、1つまたは複数のオーディオデータの各々が音声データであるか否かを判定するように構成される。そのオーディオデータが音声データである場合、判定サブモジュールが呼び出される。そのオーディオデータが音声データでない場合、第2の破棄サブモジュールが呼び出される。判定サブモジュールは、そのオーディオデータがユーザのオーディオデータであると判定するように構成される。第2の破棄サブモジュールは、そのオーディオデータを破棄するように構成される。
[0090] いくつかの実施形態では、第2の音声モデルトレーニングモジュールは、第3の音声モデル識別サブモジュールと、第1のトレーニングサブモジュールとを含み得る。第3の音声モデル識別サブモジュールは、事前設定の第3の音声モデルを識別するように構成され、この場合、第3の音声モデルは、ユーザでない話者の非特定の音声コンテンツのオーディオデータの特徴に関連付けられる。第1のトレーニングサブモジュールは、ユーザの1つまたは複数のオーディオデータおよび第3の音声モデルを使用して第2の音声モデルをトレーニングするように構成される。
[0091] いくつか実施形態では、第1の音声モデルは、1つまたは複数の音声サブモデルを含み得る。第1の音声モデルトレーニングモジュールは、第2の分割サブモジュールと、第3の抽出サブモジュールと、第2のトレーニングサブモジュールとを含み得る。第2の分割サブモジュールは、登録段階のユーザの各々のオーディオデータの各々を1つまたは複数の音声セグメントデータに分割するように構成され、この場合、音声セグメントデータの各々は音声コンテンツに関連付けられる。第3の抽出サブモジュールは、音声セグメントデータの各々から1つまたは複数の音声特徴を抽出するように構成される。第2のトレーニングサブモジュールは、音声セグメントデータの各々の1つまたは複数の音声特徴および第2の音声モデルを使用して第1の音声モデルをトレーニングするように構成される。
[0092] いくつかの実施形態では、装置300はさらに、使用段階で検出された第1のオーディオデータを使用することによって、第1の音声モデルおよび第2の音声モデルを更新するように構成されたモデル更新モジュールを含み得る。
[0093] 例示的な実施形態では、上述の電子デバイスは、プロセッサと、ネットワークインターフェースと、入出力インターフェースと、メモリとを含み得る。メモリは、プロセッサによって実行されたときにデバイスまたはサーバに上述の方法を実行させる命令を記憶し得る。メモリは、ランダム・アクセス・メモリ(RAM)のような有形のおよび/または非一時的なコンピュータ可読媒体、および/または読み取り専用メモリ(ROM)もしくはフラッシュRAMのような他の不揮発性メモリの形態を含み得る。非一時的なコンピュータ可読記憶媒体は、上述の方法を実行するためにデバイスまたはサーバ内のプロセッサによって実行可能な命令を含む。例えば、非一時的なコンピュータ可読記憶媒体は、相変化メモリ(PRAM)、スタティック・ランダム・アクセス・メモリ(SRAM)、ダイナミック・ランダム・アクセス・メモリ(DRAM)、他のタイプのランダム・アクセス・メモリ(RAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、フラッシュメモリもしくは他のメモリ技術、キャッシュ、レジスタ、CD−ROM、デジタル多用途ディスク(DVD)、もしくは他の光学記憶装置、磁気カセット、磁気テープ、もしくは他の磁気ディスク記憶装置などを含み得る。
[0094] 当業者は、上述の実施形態(例えば、図3のモジュール)がハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせによって実装され得ることは理解するであろう。上述の実施形態は、ソフトウェアによって実装される場合、上述のコンピュータ可読媒体に記憶され得る。ソフトウェアは、プロセッサによって実行されたときに、開示されている方法を実行し得る。本開示に示されているコンピューティングモジュールおよび他の機能モジュールは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせによって実装され得る。上述のモジュールの複数のモジュールは、1つのモジュールとして組み合わされ得、上述のユニットの各々は、さらに複数のサブモジュールの分割され得ることは理解される。
[0095] 本発明の他の実施形態は、本明細書の考察および本明細書に開示されている本発明の実施によって、当業者には明らかであろう。示されているステップは、例示的な実施形態を説明するために提示されており、現在行われている技術開発は特定の機能を実行する方法を変えることが考えられる。これらの実施例は、説明のために本明細書に提示されているが、限定的ではない。例えば、本明細書に開示されているステップまたはプロセスは、記載されている順序で実行されるものであると限定されず、任意の順序で実行され得、いくつかのステップは、開示されている実施形態に応じて省略され得る。本願は、本発明の一般的原理に従い、かつ当分野で周知または通常の実施の範囲内にある本開示からの逸脱を含む本発明の任意の変形、使用、または適応を含めるものである。本明細書および実施例は単なる例に過ぎず、本発明の真の範囲および精神は以下の請求項によって示されるものとする。
[0096] 本発明は、上記で説明され添付図面に示されている厳密な構造に限定されず、本発明の範囲から逸脱せずに、さまざまな修正および変更がなされてよいことは理解されるであろう。本発明の範囲は、添付の請求項によってのみ制限されるものである。

Claims (26)

  1. 音声を使用して操作を開始するための方法であって、
    第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出することと、
    前記1つまたは複数の音声特徴に従って前記第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定することであって、前記第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、前記第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、判定することと、
    前記類似度に基づいて前記第1の音声モデルに対応する操作を実行することと
    を含む、前記方法。
  2. 前記1つまたは複数の音声特徴を抽出するステップは、
    前記第1のオーディオデータが音声データであるか否かを判定することと、
    前記第1のオーディオデータが音声データである場合に、前記第1のオーディオデータに基づいて前記1つまたは複数の音声特徴を抽出することと、
    前記第1のオーディオデータが音声データでない場合に、前記第1のオーディオデータを破棄することと
    を含む、請求項1に記載の方法。
  3. 前記1つまたは複数の音声特徴を抽出するステップは、
    前記第1のオーディオデータを1つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと、
    前記音声セグメントデータの各々の1つまたは複数の音声特徴を抽出することと
    を含む、請求項1に記載の方法。
  4. 前記事前設定の第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記第1のオーディオデータと前記事前設定の第1の音声モデルとの間の前記類似度を判定するステップは、
    分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別することと、
    前記音声セグメントデータの各々の前記1つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定することと、
    各々の音声セグメント類似度に従って前記第1のオーディオデータと前記第1の音声モデルとの間の前記類似度を判定することと
    を含む、請求項3に記載の方法。
  5. 前記音声モデルに対応する操作を実行するステップは、
    前記類似度が事前設定の類似度閾値より大きい場合に前記第1の音声モデルに対応する前記操作を実行することを含み、
    デバイスの画面が画面ロック状態であり、前記第1の音声モデルに対応する前記操作はロック解除操作およびアプリケーション開始を含む、請求項1〜請求項4のいずれか一項に記載の方法。
  6. 登録段階において前記ユーザの1つまたは複数のオーディオデータを取得することと、
    前記1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングすることであって、前記1つまたは複数のオーディオデータは前記ユーザの1つまたは複数の音声コンテンツに関連付けられ、前記1つまたは複数の音声コンテンツは前記1つまたは複数の事前選択の音声コンテンツとは異なる、トレーニングすることと、
    前記1つまたは複数のオーディオデータおよび前記第2の音声モデルに従って前記第1の音声モデルをトレーニングすることと
    をさらに含む、請求項1〜請求項5のいずれか一項に記載の方法。
  7. 前記登録段階において前記ユーザの1つまたは複数のオーディオデータを取得するステップは、
    オーディオデータが登録段階で検出された後に前記オーディオデータが音声データであるか否かを判定することと、
    前記オーディオデータが音声データである場合に、前記オーディオデータが前記ユーザに関連付けられていることを判定することと、
    前記オーディオデータが音声データでない場合に、前記オーディオデータを破棄することと
    を含む、請求項6に記載の方法。
  8. 前記1つまたは複数のオーディオデータに従って前記第2の音声モデルをトレーニングするステップは、
    事前設定の第3の音声モデルを識別することであって、前記第3の音声モデルは前記ユーザとは異なる1人または複数人の話者のオーディオデータに関連付けられ、1人または複数人の話者の前記オーディオデータは前記1つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも1つの音声コンテンツに関連付けられることと、
    前記1つまたは複数のオーディオデータおよび前記第3の音声モデルを使用して前記第2の音声モデルをトレーニングすることと
    を含む、請求項6または請求項7に記載の方法。
  9. 前記第1の音声モデルは、1つまたは複数の音声サブモデルを含み、前記第1の音声モデルをトレーニングするステップは、
    前記ユーザの前記オーディオデータの各々を1つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと、
    前記音声セグメントデータの各々から少なくとも1つの音声特徴を抽出することと、
    前記音声セグメントデータの各々の前記少なくとも1つの音声特徴および前記第2の音声モデルを使用して前記第1の音声モデルをトレーニングすることと
    を含む、請求項6〜請求項8のいずれか一項に記載の方法。
  10. 前記第1のオーディオデータに基づいて前記第1の音声モデルおよび前記第2の音声モデルを更新することをさらに含む、請求項6〜請求項9のいずれか一項に記載の方法。
  11. 音声を使用して操作を開始するための装置であって、
    第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出するように構成された音声特徴抽出モジュールと、
    前記1つまたは複数の音声特徴に従って前記第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定するように構成されたモデル類似度判定モジュールであって、前記第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、前記第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、モデル類似度判定モジュールと、
    前記類似度に基づいて前記第1の音声モデルに対応する操作を実行するように構成された操作実行モジュールと
    を含む、前記装置。
  12. 前記音声特徴抽出モジュールは、
    前記第1のオーディオデータが音声データであるか否かを判定して、抽出サブモジュールを呼び出し、前記第1のオーディオデータが音声データでない場合に、第1の破棄サブモジュールを呼び出すように構成された、第1の音声データ判定サブモジュールと、
    前記第1のオーディオデータに基づいて前記1つまたは複数の音声特徴を抽出するように構成された第1の抽出サブモジュールであって、前記第1の音声データ判定サブモジュールが前記第1のオーディオデータが音声データであると判定した場合に呼び出される第1の抽出サブモジュールと、
    前記オーディオデータを破棄するように構成された第1の破棄サブモジュールであって、前記第1の音声データ判定サブモジュールが前記第1のオーディオデータが音声データでないと判定した場合に呼び出される第1の破棄サブモジュールと
    を含む、請求項11に記載の装置。
  13. 前記音声特徴抽出モジュールは、
    前記第1のオーディオデータを1つまたは複数の音声セグメントデータに分割するように構成された第1の分割サブモジュールであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、第1の分割サブモジュールと、
    前記音声セグメントデータの各々の1つまたは複数の音声特徴を抽出するように構成された第2の抽出サブモジュールと
    を含む、請求項11に記載の装置。
  14. 前記事前設定の第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記モデル類似度判定モジュールは、
    分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別するように構成された音声サブモデル識別サブモジュールと、
    前記音声セグメントデータの各々の前記1つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定するように構成された音声セグメント類似度判定サブモジュールと、
    各々の音声セグメント類似度に従って前記第1のオーディオデータと前記第1の音声モデルとの間の前記類似度を判定するように構成された類似度判定サブモジュールと
    を含む、請求項13に記載の装置。
  15. 前記操作実行モジュールは、
    前記類似度が事前設定の類似度閾値より大きい場合に前記第1の音声モデルに対応する前記操作を実行するように構成された実行サブモジュールを含み、
    デバイスの画面が画面ロック状態であり、前記第1の音声モデルに対応する前記操作はロック解除操作およびアプリケーション開始を含む、請求項11〜請求項14のいずれか一項に記載の装置
  16. 登録段階において前記ユーザの1つまたは複数のオーディオデータを取得するように構成されたオーディオデータ取得モジュールと、
    前記1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングするように構成された第2の音声モデルトレーニングモジュールであって、前記1つまたは複数のオーディオデータは前記ユーザの1つまたは複数の音声コンテンツに関連付けられ、前記1つまたは複数の音声コンテンツは前記1つまたは複数の事前選択の音声コンテンツとは異なる、第2の音声モデルトレーニングモジュールと、
    前記1つまたは複数のオーディオデータおよび前記第2の音声モデルに従って前記第1の音声モデルをトレーニングするように構成された第1の音声モデルトレーニングモジュールと
    をさらに含む、請求項11〜請求項15のいずれか一項に記載の装置。
  17. 前記オーディオデータ取得モジュールは、
    オーディオデータが登録段階で検出された後に前記オーディオデータが音声データであるか否かを判定するように構成された第2の音声データ判定サブモジュールと、
    前記オーディオデータが前記ユーザに関連付けられていることを判定するように構成された判定サブモジュールであって、前記第2の音声データ判定サブモジュールが前記オーディオデータは音声データであると判定した場合に呼び出される判定サブモジュールと、
    前記オーディオデータを破棄するように構成された第2の破棄サブモジュールであって、前記第2の音声データ判定サブモジュールが前記オーディオデータは音声データでないと判定した場合に呼び出される第2の破棄サブモジュールと
    を含む、請求項16に記載の装置。
  18. 前記第2の音声モデルトレーニングモジュールは、
    事前設定の第3の音声モデルを識別するように構成された第3の音声モデル識別サブモジュールであって、前記第3の音声モデルは前記ユーザとは異なる1人または複数人の話者のオーディオデータに関連付けられ、1人または複数人の話者の前記オーディオデータは前記1つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも1つの音声コンテンツに関連付けられる、第3の音声モデル識別サブモジュールと、
    前記1つまたは複数のオーディオデータおよび前記第3の音声モデルを使用して前記第2の音声モデルをトレーニングするように構成された第1のトレーニングサブモジュールと
    を含む、請求項16または請求項17に記載の装置。
  19. 前記第1の音声モデルは、1つまたは複数の音声サブモデルを含み、前記第1の音声モデルトレーニングモジュールは、
    前記ユーザの前記オーディオデータの各々を1つまたは複数の音声セグメントデータに分割するよう構成された第2の分割サブモジュールであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、第2の分割サブモジュールと、
    前記音声セグメントデータの各々から少なくとも1つの音声特徴を抽出するように構成された第3の抽出サブモジュールと、
    前記音声セグメントデータの各々の前記少なくとも1つの音声特徴および前記第2の音声モデルを使用して前記第1の音声モデルをトレーニングするように構成された第2のトレーニングサブモジュールと
    を含む、請求項16〜請求項18のいずれか一項に記載の装置。
  20. 前記第1のオーディオデータに基づいて前記第1の音声モデルおよび前記第2の音声モデルを更新するように構成されたモデル更新モジュールをさらに含む、請求項16〜請求項19のいずれか一項に記載の装置。
  21. 音声を使用して操作を開始するための方法を電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能な命令セットを記憶する非一時的なコンピュータ可読媒体であって、前記方法は、
    第1のオーディオデータに基づいて1つまたは複数の音声特徴を抽出することと、
    前記1つまたは複数の音声特徴に従って前記第1のオーディオデータと事前設定の第1の音声モデルとの間の類似度を判定することであって、前記第1の音声モデルはユーザの第2のオーディオデータに関連付けられ、前記第2のオーディオデータは1つまたは複数の事前選択の音声コンテンツに関連付けられる、判定することと、
    前記類似度に基づいて前記第1の音声モデルに対応する操作を実行することと
    を含む、非一時的なコンピュータ可読媒体。
  22. 前記命令セットは、
    前記第1のオーディオデータが音声データであるか否かを判定することと、
    前記第1のオーディオデータが音声データである場合に、前記第1のオーディオデータに基づいて前記1つまたは複数の音声特徴を抽出することと、
    前記第1のオーディオデータが音声データでない場合に、前記第1のオーディオデータを破棄することと
    をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項21に記載の非一時的なコンピュータ可読媒体。
  23. 前記命令セットは、
    前記第1のオーディオデータを1つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと
    前記音声セグメントデータの各々の1つまたは複数の音声特徴を抽出することと
    をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項21に記載の非一時的なコンピュータ可読媒体。
  24. 前記事前設定の第1の音声モデルは、1つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記命令セットは、
    分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別することと、
    前記音声セグメントデータの各々の前記1つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定することと、
    各々の音声セグメント類似度に従って前記第1のオーディオデータと前記第1の音声モデルとの間の前記類似度を判定することと
    をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項23に記載の非一時的なコンピュータ可読媒体。
  25. 前記命令セットは、
    登録段階において前記ユーザの1つまたは複数のオーディオデータを取得することと、
    前記1つまたは複数のオーディオデータに従って第2の音声モデルをトレーニングすることであって、前記1つまたは複数のオーディオデータは前記ユーザの1つまたは複数の音声コンテンツに関連付けられ、前記1つまたは複数の音声コンテンツは前記1つまたは複数の事前選択の音声コンテンツとは異なる、トレーニングすることと、
    前記1つまたは複数のオーディオデータおよび前記第2の音声モデルに従って前記第1の音声モデルをトレーニングすることと
    をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項21〜請求項24のいずれか一項に記載の非一時的なコンピュータ可読媒体。
  26. 前記命令セットは、
    事前設定の第3の音声モデルを識別することであって、前記第3の音声モデルは前記ユーザとは異なる1人または複数人の話者のオーディオデータに関連付けられ、1人または複数人の話者の前記オーディオデータは前記1つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも1つの音声コンテンツに関連付けられる、識別することと、
    前記1つまたは複数のオーディオデータおよび前記第3の音声モデルを使用して前記第2の音声モデルをトレーニングすることと
    をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも1つのプロセッサによって実行可能である、請求項25に記載の非一時的なコンピュータ可読媒体。
JP2018518633A 2015-10-14 2016-10-13 音声データを使用して操作を開始するための方法および装置 Pending JP2018536889A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510662029.0A CN106601238A (zh) 2015-10-14 2015-10-14 一种应用操作的处理方法和装置
CN201510662029.0 2015-10-14
PCT/US2016/056804 WO2017066424A1 (en) 2015-10-14 2016-10-13 Method and apparatus for initiating an operation using voice data

Publications (1)

Publication Number Publication Date
JP2018536889A true JP2018536889A (ja) 2018-12-13

Family

ID=58517892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018518633A Pending JP2018536889A (ja) 2015-10-14 2016-10-13 音声データを使用して操作を開始するための方法および装置

Country Status (6)

Country Link
US (1) US20170110125A1 (ja)
EP (1) EP3405947A4 (ja)
JP (1) JP2018536889A (ja)
CN (1) CN106601238A (ja)
SG (1) SG11201802985PA (ja)
WO (1) WO2017066424A1 (ja)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US12026197B2 (en) 2017-06-01 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481718B (zh) * 2017-09-20 2019-07-05 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
US11894008B2 (en) * 2017-12-12 2024-02-06 Sony Corporation Signal processing apparatus, training apparatus, and method
CN108133703A (zh) * 2017-12-26 2018-06-08 佛山市道静科技有限公司 一种手机控制系统
JP7143599B2 (ja) * 2018-03-09 2022-09-29 オムロン株式会社 メタデータ評価装置、メタデータ評価方法、およびメタデータ評価プログラム
CN110415727B (zh) * 2018-04-28 2021-12-07 科大讯飞股份有限公司 宠物情绪识别方法及装置
JP6810720B2 (ja) * 2018-05-10 2021-01-06 レノボ・シンガポール・プライベート・リミテッド 電子機器、情報処理システム、情報処理方法、及びプログラム
DK201870358A1 (en) * 2018-06-03 2020-01-03 Apple Inc. ACCELERATED TASK PERFORMANCE
CN110677532A (zh) * 2018-07-02 2020-01-10 深圳市汇顶科技股份有限公司 基于指纹识别的语音助手控制方法、系统和电子设备
CN109065026B (zh) * 2018-09-14 2021-08-31 海信集团有限公司 一种录音控制方法及装置
CN109192211A (zh) * 2018-10-29 2019-01-11 珠海格力电器股份有限公司 一种语音信号识别的方法、装置及设备
CN111131601B (zh) * 2018-10-31 2021-08-27 华为技术有限公司 一种音频控制方法、电子设备、芯片及计算机存储介质
CN110798318B (zh) * 2019-09-18 2022-06-24 深圳云知声信息技术有限公司 设备管理方法及装置
US11887589B1 (en) * 2020-06-17 2024-01-30 Amazon Technologies, Inc. Voice-based interactions with a graphical user interface

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020088A (ja) * 1998-07-06 2000-01-21 Matsushita Electric Ind Co Ltd 話者照合装置
JP2000181490A (ja) * 1998-12-18 2000-06-30 Fujitsu Ltd 利用者照合方法および利用者照合装置
JP2010211122A (ja) * 2009-03-12 2010-09-24 Nissan Motor Co Ltd 音声認識装置及び方法
JP2011027905A (ja) * 2009-07-23 2011-02-10 Denso Corp 音声認識装置およびそれを用いたナビゲーション装置
JP2014145932A (ja) * 2013-01-29 2014-08-14 Sogo Keibi Hosho Co Ltd 話者認識装置、話者認識方法及び話者認識プログラム
WO2015005927A1 (en) * 2013-07-11 2015-01-15 Intel Corporation Device wake and speaker verification using the same audio input

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2964518B2 (ja) * 1990-01-30 1999-10-18 日本電気株式会社 音声制御方式
US6081782A (en) * 1993-12-29 2000-06-27 Lucent Technologies Inc. Voice command control and verification system
AU5359498A (en) * 1996-11-22 1998-06-10 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
JP2001249684A (ja) * 2000-03-02 2001-09-14 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
CN101441869A (zh) * 2007-11-21 2009-05-27 联想(北京)有限公司 语音识别终端用户身份的方法及终端
CN101321387A (zh) * 2008-07-10 2008-12-10 中国移动通信集团广东有限公司 基于通信系统的声纹识别方法及系统
JP5621783B2 (ja) * 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
KR200467280Y1 (ko) * 2010-02-19 2013-06-04 최육남 분기용 배관
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
CN102333066A (zh) * 2010-07-13 2012-01-25 朱建政 一种在网络游戏中采用说话者语音身份验证和账号密码保护相结合的网络安全验证方法
CN102411929A (zh) * 2010-09-25 2012-04-11 盛乐信息技术(上海)有限公司 声纹认证系统及其实现方法
CN102413101A (zh) * 2010-09-25 2012-04-11 盛乐信息技术(上海)有限公司 声纹密码语音提示的声纹认证系统及其实现方法
CN102446505A (zh) * 2010-10-15 2012-05-09 盛乐信息技术(上海)有限公司 联合因子分析方法及联合因子分析声纹认证方法
CN102543084A (zh) * 2010-12-29 2012-07-04 盛乐信息技术(上海)有限公司 在线声纹认证系统及其实现方法
CN102647521B (zh) * 2012-04-05 2013-10-09 福州博远无线网络科技有限公司 基于语音短命令和声纹技术解除手机锁屏的方法
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
EP2865203A4 (en) * 2012-06-21 2016-02-17 Cellepathy Ltd DEVICE CONTEXT DETERMINATION
US9633652B2 (en) * 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
JP6149868B2 (ja) * 2013-01-10 2017-06-21 日本電気株式会社 端末、ロック解除方法およびプログラム
US9620123B2 (en) * 2013-05-02 2017-04-11 Nice Ltd. Seamless authentication and enrollment
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
CN104168270B (zh) * 2014-07-31 2016-01-13 腾讯科技(深圳)有限公司 身份验证方法、服务器、客户端及系统
CN104732978B (zh) * 2015-03-12 2018-05-08 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
CN104901807B (zh) * 2015-04-07 2019-03-26 河南城建学院 一种可用于低端芯片的声纹密码方法
US9658704B2 (en) * 2015-06-10 2017-05-23 Apple Inc. Devices and methods for manipulating user interfaces with a stylus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000020088A (ja) * 1998-07-06 2000-01-21 Matsushita Electric Ind Co Ltd 話者照合装置
JP2000181490A (ja) * 1998-12-18 2000-06-30 Fujitsu Ltd 利用者照合方法および利用者照合装置
JP2010211122A (ja) * 2009-03-12 2010-09-24 Nissan Motor Co Ltd 音声認識装置及び方法
JP2011027905A (ja) * 2009-07-23 2011-02-10 Denso Corp 音声認識装置およびそれを用いたナビゲーション装置
JP2014145932A (ja) * 2013-01-29 2014-08-14 Sogo Keibi Hosho Co Ltd 話者認識装置、話者認識方法及び話者認識プログラム
WO2015005927A1 (en) * 2013-07-11 2015-01-15 Intel Corporation Device wake and speaker verification using the same audio input

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11979836B2 (en) 2007-04-03 2024-05-07 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US12009007B2 (en) 2013-02-07 2024-06-11 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US12001933B2 (en) 2015-05-15 2024-06-04 Apple Inc. Virtual assistant in a communication session
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US12014118B2 (en) 2017-05-15 2024-06-18 Apple Inc. Multi-modal interfaces having selection disambiguation and text modification capability
US12026197B2 (en) 2017-06-01 2024-07-02 Apple Inc. Intelligent automated assistant for media exploration
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones

Also Published As

Publication number Publication date
US20170110125A1 (en) 2017-04-20
SG11201802985PA (en) 2018-05-30
CN106601238A (zh) 2017-04-26
EP3405947A1 (en) 2018-11-28
EP3405947A4 (en) 2020-03-04
WO2017066424A1 (en) 2017-04-20

Similar Documents

Publication Publication Date Title
JP2018536889A (ja) 音声データを使用して操作を開始するための方法および装置
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
US20180374487A1 (en) Detection of replay attack
US10096321B2 (en) Reverberation compensation for far-field speaker recognition
US11430449B2 (en) Voice-controlled management of user profiles
Baloul et al. Challenge-based speaker recognition for mobile authentication
US20230401338A1 (en) Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
KR102585231B1 (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
CN116508097A (zh) 说话者识别准确度
JP2019028465A (ja) 話者検証方法及び音声認識システム
EP4295517A2 (en) Hybrid multilingual text-dependent and text-independent speaker verification
Li et al. Feature sparsity analysis for i-vector based speaker verification
US10762905B2 (en) Speaker verification
WO2018137426A1 (zh) 用户声音信息的识别方法及装置
Mittal et al. Age approximation from speech using Gaussian mixture models
EP3989219B1 (en) Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
US20230260521A1 (en) Speaker Verification with Multitask Speech Models
GORAI et al. A GAUSSIAN MIXTURE MODELBASED SPEAKER RECOGNITION SYSTEM
Wu et al. A Study of the Vulnerability of Text-Dependent Speaker Verification System Against Voice Conversion Spoofing Attack
Kurniawati et al. Speaker dependent activation keyword detector based on GMM-UBM.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200911

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201210

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210525