JP2018536889A

JP2018536889A - 音声データを使用して操作を開始するための方法および装置

Info

Publication number: JP2018536889A
Application number: JP2018518633A
Authority: JP
Inventors: スー，ミンキアン; ヤン，ジージエ; ガオ，ジエ; チュー，ミン
Original assignee: アリババグループホウルディングリミテッド
Priority date: 2015-10-14
Filing date: 2016-10-13
Publication date: 2018-12-13
Also published as: US20170110125A1; SG11201802985PA; CN106601238A; EP3405947A1; EP3405947A4; WO2017066424A1

Abstract

音声を使用して操作を開始するための方法が提供される。該方法は、使用段階で検出された第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出するステップと、１つまたは複数の音声特徴に従って第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定するステップであって、第１の音声モデルはユーザの第２のオーディオデータに関連付けられ、第２のオーディオデータは１つまたは複数の事前選択の音声コンテンツに関連付けられる、判定ステップと、類似度に基づいて第１の音声モデルに対応する操作を実行するステップとを含む。
【選択図】図１

Description

関連出願の相互参照
［0001］本願は、２０１５年１０月１４日に出願された中国特許第２０１５１０６６２０２９．０号に基づき、その優先権を主張するものであり、この特許の内容全体を参照によって本願明細書に引用したものとする。

［0002］本願は、音声認識の分野に関し、特に、音声データを使用して操作を開始するための方法および装置に関する。

［0003］高性能電子デバイスの発展に伴い、音声コマンドを使用して、携帯電話、車載端末、ホームデバイス、および家電製品のような電子デバイスを制御するのは、一般的な特徴となっている。通常、電子デバイスの音声制御は、音声認識に基づいて実現される。電子デバイスは、受信された音声データに音声認識を行い、音声認識結果に従って制御コマンドを判定して、制御コマンドを自動的に実行し得る。

［0004］音声制御の特徴は、ユーザにとって便利であるが、場合によっては、なりすましが発生して、セキュリティ問題をもたらすことが多い。例えば、携帯電話が音声によってロック解除されるケースでは、権限のない個人がユーザの話したことを盗み聞きして、携帯電話を盗んだ後またはユーザが離れた後に、その言葉を繰り返してユーザになりすます可能性がある。権限のない個人は、その後、セキュリティ保護手段（例えば、画面ロック）を擦り抜けて、携帯電話をロック解除し、携帯電話の中のデータを盗む可能性があり、これはユーザにとって損害となる。別の例では、家電製品が音声で制御されるケースでは、家に居る子供が頻繁に面白半分で音声コマンドを出して家電製品を制御する可能性がある。その結果、家電製品が正常に機能しなくなる可能性があり、子供が怪我をする可能性さえある。

［0005］本開示は、音声を使用して操作を開始するための方法を提供する。いくつかの実施形態によれば、該方法は、使用段階で検出された第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出するステップと、１つまたは複数の音声特徴に従って第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定するステップであって、第１の音声モデルはユーザの第２のオーディオデータに関連付けられ、第２のオーディオデータは１つまたは複数の事前選択の音声コンテンツに関連付けられる、判定ステップと、類似度に基づいて第１の音声モデルに対応する操作を実行するステップとを含む。

［0006］いくつかの実施形態によれば、本開示は、音声を使用して操作を開始するための装置を提供する。該装置は、使用段階で検出された第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出する音声特徴抽出モジュールと、１つまたは複数の音声特徴に従って第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定するモデル類似度判定モジュールであって、第１の音声モデルはユーザの第２のオーディオデータに関連付けられ、第２のオーディオデータは１つまたは複数の事前選択の音声コンテンツに関連付けられる、モデル類似度判定モジュールと、類似度に基づいて第１の音声モデルに対応する操作を実行する操作実行モジュールと、を含む。

［0007］いくつかの実施形態によれば、本開示は、電子デバイスに音声を使用して操作を開始するための方法を実行させるために電子デバイスの少なくとも１つのプロセッサによって実行可能な命令セットを記憶する非一時的なコンピュータ可読媒体を提供する。該方法は、使用段階で検出された第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出するステップと、１つまたは複数の音声特徴に従って第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定するステップであって、第１の音声モデルはユーザの第２のオーディオデータに関連付けられ、第２のオーディオデータは１つまたは複数の事前選択の音声コンテンツに関連付けられる、判定ステップと、類似度に基づいて第１の音声モデルに対応する操作を実行するステップとを含む。

［0008］開示されている実施形態のさらなる目的および利点は、一部は後述の説明に記載され、一部は以下の説明から明らかになるであろう、または実施形態を実施することによって理解され得る。開示されている実施形態の目的および利点は、請求項に記載されている要素および組み合わせによって実現され、達成され得る。

［0009］上述の概要および後述の詳細はいずれも単なる例や説明に過ぎず、請求される本開示の実施形態を制限するものではないことは理解されたい。

［0010］本明細書に組み込まれ、本明細書の一部を成す添付図面は、本発明に従う実施形態を示しており、詳細な説明と合わせて、本発明の原理を説明する助けとなる。

［0011］本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための例示的な方法のフローチャートである。［0012］本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための別の例示的な方法のフローチャートである。［0013］本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための例示的な装置のブロック図である。

［0014］実施例が添付図面に示されている例示的な実施形態について、詳細に説明する。以下の説明は、添付図面を参照する。図面において、異なる図面内の同一の番号は、別段の指示がない限り、同一または同様の要素を表す。例示的な実施形態の後述の説明の中で示されている実施態様は、本発明に従う全ての実施態様を示すものではない。むしろ、これらの実施態様は、添付の請求項に記載されているような本発明に関連する態様に従うデバイスおよび方法の単なる例に過ぎない。

［0015］図１は、音声を使用して操作を開始するための例示的な方法１００のフローチャートである。例示的な方法１００は、電子デバイスによって実行され得る。電子デバイスは、携帯電話、タブレットコンピュータ、携帯情報端末（ＰＤＡ）、スマートウェアラブルデバイス（例えば、眼鏡や腕時計）のようなモバイル機器であり得る。モバイル機器のオペレーティングシステムは、Ａｎｄｒｏｉｄ（登録商標）、ｉＯＳ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）Ｐｈｏｎｅ、Ｗｉｎｄｏｗｓ（登録商標）であり得、音声アシスタントアプリケーションの実行を支援し得る。電子デバイスはさらに、スマートテレビ、スマートホームデバイス、スマート家電製品のような固定式デバイスであり得る。電子デバイスのタイプは、本願の開示によって制限されない。図１を参照すると、方法１００は、以下のステップを含む。

［0016］ステップ１０１において、電子デバイスは、使用段階で検出された第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出する。本開示において、ユーザの特定の音声コンテンツのオーディオデータを事前設定する段階は登録段階と呼ばれ、現在のオーディオデータがユーザの事前設定の音声データと一致するか否かを検証する段階は使用段階と呼ばれる。例えば、ユーザがモバイル機器をロック解除するために「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」というオーディオデータを事前設定するとき、この段階は登録段階と呼ばれる。登録段階におけるユーザの特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。登録後、モバイル機器の画面がロックされる。画面ロック状態のモバイル機器および画面が起動されると、ユーザは「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」をもう一度言うことができる。この間、モバイル機器はマイク入力をモニターし、ロック解除操作を実行するかどうかを判定する。この段階は、使用段階と呼ばれ得る。

［0017］いくつかの実施形態では、ステップ１０１は、以下のサブステップを含み得る。

［0018］サブステップＳ１１において、電子デバイスは、第１のオーディオデータが使用段階で検出された後、第１のオーディオデータが音声データであるか否かを判定する。第１のオーディオデータが音声データである場合、電子デバイスはサブステップＳ１２を実行し、第１のオーディオデータが音声データでない場合、電子デバイスはサブステップＳ１３を実行する。

［0019］いくつかの実施態様では、音声アシスタントアプリケーションは電子デバイスにインストールされ、いつでもユーザにサービスを提供する必要があり、この場合、音声アシスタントアプリケーションは環境の中のオーディオデータを絶えず収集する。オーディオデータは、ユーザまたは他のユーザによって送信された音声データであり得、また雑音でもあり得る。いくつかの実施形態では、オーディオデータの短期エネルギー特徴および時間周波数変動合計の特徴が抽出されて、トレーニングのためのニューラルネットワークの入力として使用され得、ニューラルネットワークは、それに応じてオーディオデータが音声データであるか、または雑音であるかを判定し得る。例えば、ニューラルネットワークの入力ノードの数はオーディオデータの特徴次元数に等しくなり得、出力ノードの数は１として設定され得る。出力の数値がプリセット値（例えば、０．５）より大きい場合、オーディオデータは音声データとして判定され、それ以外の場合、非音声データとして判定される。

［0020］サブステップＳ１２において、電子デバイスは、第１のオーディオデータの音声特徴を抽出する。

［0021］サブステップＳ１３において、電子デバイスは、第１のオーディオデータを破棄する。

［0022］ステップ１０１において、検出された第１のオーディオデータに対して音声区間検出（ＶＡＤ）が実行され得る。音声データの部分（すなわち、人によって発せられた音）において次のテストプロセスが実行され得、非音声データの部分が破棄され得る。検出するための音声データを選択して、非音声データを破棄することによって、計算量が少なくなり、その結果、デバイスの電力消費が低減される。

［0023］いくつかの実施形態では、ステップ１０１は、以下のサブステップを含み得る。

［0024］サブステップＳ１４において、電子デバイスは、第１のオーディオデータを１つまたは複数の音声セグメントデータに分割する。音声セグメントデータの各々は、音声コンテンツを表し、音声セグメントデータの各々の音声コンテンツは、互いに独立した音声コンテンツであり得る。例えば、ユーザが「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」という音声コンテンツを含む第１のオーディオデータを生成した場合、第１のオーディオデータは、「ｈｅｌｌｏ」、「ｔｈｅｒｅ」、「Ｌｉｔｔｌｅ」、「Ｔｏｍ」の音声コンテンツを含む４つの音声セグメントに分割され得る。

［0025］いくつかの実施態様において、オーディオデータの分割点が推定され、第１のオーディオデータは分割点で１つまたは複数の音声セグメントデータに分割される。例えば、第１のオーディオデータの各々のフレームは、動的計画法（ＤＰ）アルゴリズムを使用したフォースアライメントによって、事前トレーニングされた第１の音声モデルに対応して判定され得る。

［0026］サブステップＳ１５において、電子デバイスは、音声セグメントデータの各々の１つまたは複数の音声特徴を抽出する。

［0027］いくつかの実施形態では、計算量を減らすために、抽出される特徴は、メル周波数ケプストラム係数（ＭＦＣＣ）を含み得る。メル周波数は、人の聴覚特徴に基づいて形成されたスケールであり、ヘルツ周波数との非線形の対応関係を有する。ＭＦＣＣは、メル周波数とヘルツ周波数との対応関係に基づいて判定されたヘルツスペクトル特徴である。さらに、韻律的特徴（prosodic features）のような他の特徴も抽出され得、本開示によって制限されない。

［0028］ステップ１０２において、電子デバイスは、１つまたは複数の音声特徴に従って第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定する。

［0029］いくつかの実施形態では、第１の音声モデルは、登録段階においてユーザによって提供された第２のオーディオデータでトレーニングすることによって生成され、ユーザの特定の音声コンテンツのオーディオデータを示す。特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。

［0030］いくつかの実施形態では、第１の音声モデルは、混合ガウスモデル（ＧＭＭ）であり得る。例えば、対象は、ガウス確率密度関数（正規分布曲線）を使用して量子化され、ガウス確率密度関数（正規分布曲線）に基づいて線形重ね合わせによって形成された複数のモデルに分解され得る。ベイズの理論によれば、ＧＭＭモデルは、確率によって人の音声コンテンツを表現する。また、第１の音声モデルは、ベクトル量子化（ＶＱ）モデルまたはサポートベクトルマシン（ＳＶＭ）モデルのような別のモデルであり得、本開示によって制限されない。

［0031］いくつかの実施形態では、第１の音声モデルは、１つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、登録段階におけるユーザの第２のオーディオデータでトレーニングすることによって生成される。例えば、ユーザが「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」という音声コンテンツを含む第２のオーディオデータを設定し、４つの音声サブモデルがそれぞれ、「ｈｅｌｌｏ」、「ｔｈｅｒｅ」、「Ｌｉｔｔｌｅ」、「Ｔｏｍ」の音声コンテンツを含む第２のオーディオデータを使用してトレーニングされ得る。

［0032］いくつかの実施形態では、音声サブモデルは、ＧＭＭモデルであり得る。また、音声サブモデルは、ＶＱモデルまたはＳＶＭモデルのような別のモデルであり得、本開示によって制限されない。

［0033］いくつかの実施形態では、ステップ１０２は、以下のサブステップを含み得る。

［0034］サブステップＳ２１において、電子デバイスは、分割順に従って音声セグメントデータの各々に対応する音声サブモデルを識別する。

［0035］いくつかの実施態様では、音声セグメントデータの各々は、ＤＰアルゴリズムに従って、対応する音声サブモデルと比較され得る。例えば、ｉ番目の音声セグメントデータは、ｉ番目の音声サブモデルと比較される。ここで、ｉは正の整数である。

［0036］サブステップＳ２２において、電子デバイスは、音声セグメントデータの各々の１つまたは複数の音声特徴と音声サブモデルとの間の音声セグメント類似度を判定する。

［0037］いくつかの実施態様では、音声セグメント類似度は、対数尤度関数を使用して判定され得る。例えば、ユーザが「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」の音声コンテンツを含む第１のオーディオデータを生成した場合、「ｈｅｌｌｏ」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「ｈｅｌｌｏ」の音声コンテンツを含む音声サブモデルと比較され、「ｔｈｅｒｅ」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「ｔｈｅｒｅ」の音声コンテンツを含む音声サブモデルと比較され、「Ｌｉｔｔｌｅ」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「Ｌｉｔｔｌｅ」の音声コンテンツを含む音声サブモデルと比較され、「Ｔｏｍ」の音声コンテンツを含む音声セグメントデータは、音声セグメント類似度を判定するために、「Ｔｏｍ」の音声コンテンツを含む音声サブモデルと比較される。音声セグメント類似度を判定するのに他の方法が使用され得、本開示によって制限されないことは理解されたい。

［0038］サブステップＳ２３において、電子デバイスは、各々の音声セグメント類似度に従って第１のオーディオデータと第１の音声モデルとの間の類似度を判定する。

［0039］いくつかの実施形態では、音声セグメント類似度（例えば、対数尤度関数の値）は、第１のオーディオデータと第１の音声モデルとの間の類似度を求めるために平均化され得、これはスコアリングと呼ばれ得る。類似度を判定するのに、直接加算または重み付け平均化のような他の方法が使用され得、本開示によって制限されないことは理解されたい。

［0040］いくつかの実施形態では、類似度が求められた後、類似度は正規化され得、例えば、［０−１００］の範囲に収まるように調整され得、正規化の後、類似度のダイナミックレンジは狭くなり、類似度の物理的解釈が直感的になる。

［0041］ステップ１０３において、電子デバイスは、類似度に基づいて第１の音声モデルに対応する操作を実行する。

［0042］類似度が事前設定の類似度閾値より大きい場合に、第１の音声モデルに対応する操作が実行される。一般に、高い類似度は、現在の話者の第１のオーディオデータがユーザの第２のオーディオデータに類似していることを示している。類似度が事前設定の類似度閾値より大きい（または、いくつかの実施形態では、等しい）場合、現在の話者の第１のオーディオデータがユーザの第２のオーディオデータと同一であると見なされ、事前設定の操作、例えば、事前設定のアプリケーション操作が実行される。それ以外の場合、現在の話者の第１のオーディオデータがユーザの第２のオーディオデータと同一でないと見なされる。それは、話者の同一性（identity）が一致していない、音声コンテンツが一致していない、または同一性および音声コンテンツの両方が一致していないことが原因であり得る。

［0043］例えば、使用段階で画面ロック状態である場合、操作はロック解除操作および指定アプリケーション（例えば、音声アシスタントアプリケーション）の開始を含み得る。さらに、指紋やパスワードによる支払い、アカウントログイン、およびセキュリティ検証のような他の操作が設定され得、本開示によって制限されない。

［0044］方法１００において、検出された第１のオーディオデータは、ユーザの特定の音声コンテンツのオーディオデータの特徴を示す第１の音声モデルと比較され、対応する操作を実行するために特定の人の音声および同一性の認証が実行される。そうすることで、個別の音声制御が実現され、なりすましの可能性が低減され、音声制御のセキュリティが向上する。

［0045］図２は、本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための別の例示的な方法２００のフローチャートである。例示的な方法２００は、電子デバイスによって実行され得る。図２を参照すると、方法２００は、以下のステップを含む。

［0046］ステップ２０１において、電子デバイスは、登録段階においてユーザの１つまたは複数のオーディオデータを取得する。登録段階の初期設定の間、ユーザは、デバイスがユーザの音声を学習するのを容易にするために、特定の音声コンテンツ（例えば、「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」）を１回または複数回（例えば、３回）話すことができる。特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。例えば、特定の音声コンテンツは、「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」のようにデフォルトとして電子デバイスによって設定され得、または「ｏｐｅｎｓｅｓａｍｅ」のようにユーザによって定義され得、本開示によって制限されない。

［0047］いくつかの実施形態では、ステップ２０１は、以下のサブステップを含み得る。

［0048］サブステップＳ４１において、電子デバイスは、オーディオデータが登録段階で検出された後、オーディオデータが音声データであるか否かを判定する。そのオーディオデータが音声データである場合、電子デバイスはサブステップＳ４２を実行し、そのオーディオデータが音声データでない場合、電子デバイスはサブステップＳ４３を実行する。

［0049］サブステップＳ４２において、電子デバイスは、そのオーディオデータがユーザのオーディオデータであると判定する。

［0050］サブステップＳ４３において、電子デバイスは、そのオーディオデータを破棄する。

［0051］いくつかの実施形態では、検出されたオーディオデータに対してＶＡＤが実行され得、音声データの部分（すなわち、人によって発せられた音）において次の初期化プロセスが実行され得、非音声データの部分が破棄され得る。初期化のための音声データを選択して、非音声データを破棄することによって、計算量が少なくなり、その結果、デバイスの電力消費が低減される。

［0052］ステップ２０２において、電子デバイスは、ユーザの１つまたは複数のオーディオデータに従って第２の音声モデルをトレーニングする。

［0053］いくつかの実施形態では、第２の音声モデルは、登録段階におけるユーザの非特定の音声コンテンツのオーディオデータでトレーニングすることによって生成され、ユーザの非特定の音声コンテンツのオーディオデータの特徴を示す。非特定の音声コンテンツは、事前選択された特定コンテンツとは異なる場合があり、オーディオコンテンツの順序は、このステップでは問題にならない。

［0054］いくつかの実施形態では、第２の音声モデルは、ＧＭＭモデルであり得る。また、第２の音声モデルは、ＶＱモデルまたはＳＶＭモデルのような別のモデルであり得、本開示によって制限されない。

［0055］いくつかの実施形態では、ステップ２０２は、以下のサブステップをさらに含み得る。

［0056］サブステップＳ５１において、電子デバイスは、事前設定の第３の音声モデルを識別する。第３の音声モデルは、一般の人（ユーザでない話者）の非特定の音声コンテンツのオーディオデータでトレーニングすることによって生成され得、ユーザでない話者の非特定の音声コンテンツのオーディオデータの特徴を示す。非特定の音声コンテンツは、登録段階で検出された事前選択の音声コンテンツとは異なる場合がある。事前設定の第３の音声モデルは、ユーザに無関係であり、話されたコンテンツに無関係であり得るので、グローバル音声モデルと呼ばれる場合がある。

［0057］いくつかの実施形態では、第３の音声モデルは、ＧＭＭモデルであり得る。ベイズの理論によれば、グローバルＧＭＭモデルは、人の声の一般的な特徴を示し、第２の音声モデルをトレーニングするための事前確率知識を表す。また、第３の音声モデルは、ＶＱモデルまたはＳＶＭモデルのような別のモデルであり得、本開示によって制限されない。ＧＭＭモデルをトレーニングするためのオーディオデータの持続時間は数時間または数十時間であり得、話者の人数は数百人になり得、混合度は高くなり得る（一般に、２５６〜４０９６混合度）。いくつかの実施態様では、オーディオデータの音声特徴が抽出され、ＧＭＭモデルは期待値最大化（ＥＭ）アルゴリズムに従ってトレーニングすることによって取得される。

［0058］サブステップＳ５２において、電子デバイスは、ユーザの１つまたは複数のオーディオデータおよび第３の音声モデルを使用して第２の音声モデルをトレーニングする。

［0059］いくつかの実施形態では、更新された第２の音声モデル（例えば、ＧＭＭモデル）は、最大事後確率（ＭＡＰ）を使用して、ユーザのオーディオデータおよび第３の音声モデルに従ってトレーニングすることによって取得され得る。例えば、指定データが候補推定セット内で検索されたときの最大確率の推定はＭＡＰと呼ばれ、ＭＡＰは、各々の候補推定の事後確率を判定するためにベイズの公式を使用して判定され得る。グローバルＧＭＭモデル（例えば、第３の音声モデル）内の各々のガウス分布は音素または音素クラスに対応し、トレーニングデータは多くの異なる話者および異なるバックグラウンドに由来するので、グローバルＧＭＭモデルによって示される統計的分布は、一般の話者の特徴の統計的分布およびバックグラウンドの特徴の統計的分布を表している。

［0060］いくつかの実施形態では、第２の音声モデルはさらに、ＧＭＭモデルであり得、グローバルＧＭＭモデルと同じ混合度を有し得る。第２の音声モデルは、ＭＡＰアルゴリズムを使用して、ユーザの音声データをグローバルＧＭＭモデルに適合させることによって取得され得る。ＭＡＰアルゴリズムを使用することによって、ユーザの音声データの量が少なくても、ＧＭＭモデル（例えば、第２の音声モデル）のパラメータの推定は比較的正確になり得る。

［0061］ＭＡＰアルゴリズムによって、ガウス確率密度関数の１対１の対応が、第２の音声モデルと第３の音声モデルとの間で確立される。このような対応は、音声の音素の影響を効果的に補償し、ユーザの個人情報を強調し得る。

［0062］ステップ２０３において、電子デバイスは、ユーザの１つまたは複数のオーディオデータおよび第２の音声モデルに従って第１の音声モデルをトレーニングする。

［0063］ＭＦＣＣ特徴パラメータを採用する場合、ＥＭアルゴリズムを使用してトレーニングすることによって取得されたＧＭＭモデルは、登録者（すなわち、ユーザ）の音声特徴を表している。第２の音声モデルは、全ての登録音声を使用し、異なる時間系列における話されたコンテンツを考慮しないので、ＧＭＭモデルは、登録音声に示されているコンテンツに無関係であり、またコンテンツの順序に無関係であり得、音声コンテンツに無関係な登録者の音声特徴を表している。この場合、「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」または「Ｌｉｔｔｌｅ，Ｔｏｍ，ｈｅｌｌｏｔｈｅｒｅ」の音声コンテンツでトレーニングすることによって取得されたＧＭＭモデルは、基本的に同じであり得る。

［0064］いくつかの実施形態では、音声コンテンツが同一であるか否かを検出するために、すなわち、「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」と「Ｌｉｔｔｌｅ，Ｔｏｍ，ｈｅｌｌｏｔｈｅｒｅ」とを区別するために、時間区間ベースのマルチボイスサブモデルスキームが実装され得る。例えば、音声サブモデルは、各々の時間区間内のオーディオデータに対して確立され得、この場合、音声サブモデルは、特定の時間区間内の登録者の特定のコンテンツの音声を示している。したがって、第１の音声モデルは、１つまたは複数の音声サブモデルを含み得、各々の音声サブモデルは、ユーザの特定の音声コンテンツのオーディオデータを表している。このとき、多数の音声サブモデルを組み合わせてもよく、登録者の声紋の特徴を示すことができる。時間区間ベースのマルチボイスサブモデルスキームを実装することによって、第１の音声モデルは、ユーザとなりすました人とを区別し得、さらに「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」と「ＬｉｔｔｌｅＴｏｍ，ｈｅｌｌｏｔｈｅｒｅ」のような音声コンテンツの違いを区別し得る。

［0065］いくつかの実施形態では、ステップ２０３は、以下のサブステップを含み得る。

［0066］サブステップＳ６１において、電子デバイスは、ユーザのオーディオデータの各々を１つまたは複数の音声セグメントデータに分割する。

［0067］いくつかの実施態様において、オーディオデータの分割点が推定され、オーディオデータはＤＰアライメントによって分割点で１つまたは複数の音声セグメントデータに分割される。音声セグメントデータの各々は、互いに独立し得る音声コンテンツを表す。例えば、ユーザが「ｈｅｌｌｏｔｈｅｒｅ，ＬｉｔｔｌｅＴｏｍ」という音声コンテンツを含むオーディオデータを生成した場合、オーディオデータは、「ｈｅｌｌｏ」、「ｔｈｅｒｅ」、「Ｌｉｔｔｌｅ」、「Ｔｏｍ」の音声コンテンツを含む４つの音声セグメントデータに分割され得る。

［0068］サブステップＳ６２において、電子デバイスは、音声セグメントデータの各々の少なくとも１つの音声特徴を抽出する。

［0069］いくつかの実施形態では、計算量を減らすために、抽出される特徴は、ＭＦＣＣであり得る。抽出される特徴はさらに、韻律的特徴のような他の特徴であり得、本開示によって制限されない。

［0070］サブステップＳ６３において、電子デバイスは、音声セグメントデータの各々の少なくとも１つの音声特徴および第２の音声モデルを使用して第１の音声モデルをトレーニングする。

［0071］いくつかの実施形態では、第１の音声モデル（例えば、ＧＭＭモデル）は、ユーザの特定の音声コンテンツのオーディオデータの特徴を表すために、ＭＡＰを使用してユーザのオーディオデータおよび第２の音声モデルに従ってトレーニングすることによって取得され得る。

［0072］ステップ２０４において、電子デバイスは、使用段階で検出された第１のオーディオデータの１つまたは複数の音声特徴を抽出する。

［0073］ステップ２０５において、電子デバイスは、第１のオーディオデータの１つまたは複数の音声特徴に従って第１のオーディオデータと第１の音声モデルとの間の類似度を判定する。第１の音声モデルは、ユーザの特定の音声コンテンツのオーディオデータの特徴を表す音声モデルである。

［0074］ステップ２０６において、電子デバイスは、類似度に従って第１の音声モデルに対応する操作を実行する。

［0075］ステップ２０７において、電子デバイスは、使用段階で検出された第１のオーディオデータを使用することによって、第１の音声モデルおよび第２の音声モデルを更新する。

［0076］登録段階において、ユーザエクスペリエンスを向上させるために、登録は、通常は、ユーザが数回（例えば、２回〜５回）話せば完了し得る。ユーザが多く話すほど、モデルはより適切にトレーニングされ、システムの認識精度が高くなる。したがって、方法２００において、ターゲットのユーザのオーディオデータをより多く取得するために、「トレーニング」方法が採用される。

［0077］使用段階において、第１のオーディオデータが第１の音声モデルと比較された後、類似度が事前設定の類似度閾値より高い場合、オーディオデータはユーザから発せられたものであり、特定の音声コンテンツが特徴的であり、その音声コンテンツが既存の第１の音声モデルおよび第２の音声モデルを更新するのに使用可能であると判定され得る。類似度閾値はステップ２０５において判定された類似度と異なる可能性があり、類似度閾値がそれより高い値である可能性があることに留意されたい。

［0078］方法２００において、第１の音声モデルおよび第２の音声モデルは、使用段階でオーディオデータを使用することによって、絶えず更新される。そうすることによって、第１の音声モデルおよび第２の音声モデルの精度は向上し、使用段階でのオーディオデータの認識精度が向上する。

［0079］図３は、本開示のいくつかの実施形態に従う、音声を使用して操作を開始するための例示的な装置３００のブロック図である。装置３００は、図１および図２に関して上述した電子デバイスの一部または全体として実装され得る。図３を参照すると、装置３００は、音声特徴抽出モジュール３０１と、モデル類似度判定モジュール３０２と、操作実行モジュール３０３とを含む。これらのモジュール（および対応するサブモジュール）の各々は、他の構成要素（例えば、集積回路の一部）と併用するように設計されたパッケージ機能ハードウェアユニット、または関連機能の特定の機能を実行するプログラム（コンピュータ可読媒体に記憶される）の一部であり得る。

［0080］音声特徴抽出モジュール３０１は、使用段階で検出された第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出するように構成される。

［0081］モデル類似度判定モジュール３０２は、１つまたは複数の音声特徴に従って第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定するように構成され、第１の音声モデルは、ユーザの特定の音声コンテンツのオーディオデータの特徴に関連付けられる。特定の音声コンテンツは、ユーザ、電子デバイス、または電子デバイスにインストールされたアプリケーションによって事前選択され得る。

［0082］操作実行モジュール３０３は、類似度に基づいて第１の音声モデルに対応する操作を実行するように構成される。

［0083］いくつかの実施形態では、音声特徴抽出モジュール３０１はさらに、第１の音声データ判定サブモジュールと、第１の抽出サブモジュールと、第１の破棄サブモジュールと（図示せず）を含み得る。第１の音声データ判定サブモジュールは、第１のオーディオデータが使用段階で検出された後、第１のオーディオデータが音声データであるか否かを判定するように構成される。第１のオーディオデータが音声データである場合、第１の抽出サブモジュールが呼び出される。第１のオーディオデータが音声データでない場合、破棄サブモジュールが呼び出される。第１の抽出サブモジュールは、第１のオーディオデータの１つまたは複数の音声特徴を抽出するように構成される。第１の破棄サブモジュールは、第１のオーディオデータを破棄するように構成される。

［0084］いくつかの実施形態では、音声特徴抽出モジュール３０１はさらに、第１の分割サブモジュールと、第２の抽出サブモジュールと（図示せず）を含み得る。第１の分割サブモジュールは、第１のオーディオデータを１つまたは複数の音声セグメントデータに分割するように構成され、音声セグメントデータの各々は別個の音声コンテンツに関連付けられる。第２の抽出サブモジュールは、音声セグメントデータの各々の少なくとも１つの音声特徴を抽出するように構成される。

［0085］いくつか実施形態では、第１の音声モデルは、１つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、ユーザの特定の音声コンテンツのオーディオデータに関連付けられる。

［0086］いくつかの実施形態では、モデル類似度判定モジュール３０２はさらに、音声サブモデル識別サブモジュールと、音声セグメント類似度判定サブモジュールと、類似度判定サブモジュールと（図示せず）を含み得る。音声サブモデル識別サブモジュールは、分割順に従って音声セグメントデータの各々に対応する音声サブモデルを識別するように構成される。音声セグメント類似度判定サブモジュールは、音声セグメントデータの各々の１つまたは複数の音声特徴と音声サブモデルとの間のセグメント類似度を判定するように構成される。類似度判定サブモジュールは、各々の音声セグメント類似度に従って第１のオーディオデータと第１の音声モデルとの間の類似度を判定するように構成される。

［0087］いくつかの実施形態では、操作実行モジュール３０３は、実行サブモジュールを含み得る。実行サブモジュールは、類似度が事前設定の類似度閾値より大きい場合に、アプリケーション操作のような第１の音声モデルに対応する操作を実行するように構成される。例えば、使用段階で画面ロック状態である場合、操作はロック解除操作および事前設定のアプリケーションの開始を含み得る。

［0088］いくつかの実施形態では、装置３００はさらに、オーディオデータ取得モジュールと、第２の音声モデルトレーニングモジュールと、第１の音声モデルトレーニングモジュールと（図示せず）を含み得る。オーディオデータ取得モジュールは、登録段階においてユーザの１つまたは複数のオーディオデータを取得するように構成される。第２の音声モデルトレーニングモジュールは、ユーザの１つまたは複数のオーディオデータに従って第２の音声モデルをトレーニングするように構成され、この場合、第２の音声モデルは、ユーザの非特定の音声コンテンツのオーディオデータの特徴に関連付けられる。第１の音声モデルトレーニングモジュールは、ユーザの１つまたは複数のオーディオデータおよび第２の音声モデルに従って第１の音声モデルをトレーニングするように構成される。

［0089］いくつかの実施形態では、オーディオデータ取得モジュールはさらに、第２の音声データ判定サブモジュールと、判定サブモジュールと、第２の破棄サブモジュールとを含み得る。第２の音声データ判定サブモジュールは、１つまたは複数のオーディオデータが登録段階で検出された後、１つまたは複数のオーディオデータの各々が音声データであるか否かを判定するように構成される。そのオーディオデータが音声データである場合、判定サブモジュールが呼び出される。そのオーディオデータが音声データでない場合、第２の破棄サブモジュールが呼び出される。判定サブモジュールは、そのオーディオデータがユーザのオーディオデータであると判定するように構成される。第２の破棄サブモジュールは、そのオーディオデータを破棄するように構成される。

［0090］いくつかの実施形態では、第２の音声モデルトレーニングモジュールは、第３の音声モデル識別サブモジュールと、第１のトレーニングサブモジュールとを含み得る。第３の音声モデル識別サブモジュールは、事前設定の第３の音声モデルを識別するように構成され、この場合、第３の音声モデルは、ユーザでない話者の非特定の音声コンテンツのオーディオデータの特徴に関連付けられる。第１のトレーニングサブモジュールは、ユーザの１つまたは複数のオーディオデータおよび第３の音声モデルを使用して第２の音声モデルをトレーニングするように構成される。

［0091］いくつか実施形態では、第１の音声モデルは、１つまたは複数の音声サブモデルを含み得る。第１の音声モデルトレーニングモジュールは、第２の分割サブモジュールと、第３の抽出サブモジュールと、第２のトレーニングサブモジュールとを含み得る。第２の分割サブモジュールは、登録段階のユーザの各々のオーディオデータの各々を１つまたは複数の音声セグメントデータに分割するように構成され、この場合、音声セグメントデータの各々は音声コンテンツに関連付けられる。第３の抽出サブモジュールは、音声セグメントデータの各々から１つまたは複数の音声特徴を抽出するように構成される。第２のトレーニングサブモジュールは、音声セグメントデータの各々の１つまたは複数の音声特徴および第２の音声モデルを使用して第１の音声モデルをトレーニングするように構成される。

［0092］いくつかの実施形態では、装置３００はさらに、使用段階で検出された第１のオーディオデータを使用することによって、第１の音声モデルおよび第２の音声モデルを更新するように構成されたモデル更新モジュールを含み得る。

［0093］例示的な実施形態では、上述の電子デバイスは、プロセッサと、ネットワークインターフェースと、入出力インターフェースと、メモリとを含み得る。メモリは、プロセッサによって実行されたときにデバイスまたはサーバに上述の方法を実行させる命令を記憶し得る。メモリは、ランダム・アクセス・メモリ（ＲＡＭ）のような有形のおよび／または非一時的なコンピュータ可読媒体、および／または読み取り専用メモリ（ＲＯＭ）もしくはフラッシュＲＡＭのような他の不揮発性メモリの形態を含み得る。非一時的なコンピュータ可読記憶媒体は、上述の方法を実行するためにデバイスまたはサーバ内のプロセッサによって実行可能な命令を含む。例えば、非一時的なコンピュータ可読記憶媒体は、相変化メモリ（ＰＲＡＭ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）、他のタイプのランダム・アクセス・メモリ（ＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリもしくは他のメモリ技術、キャッシュ、レジスタ、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）、もしくは他の光学記憶装置、磁気カセット、磁気テープ、もしくは他の磁気ディスク記憶装置などを含み得る。

［0094］当業者は、上述の実施形態（例えば、図３のモジュール）がハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせによって実装され得ることは理解するであろう。上述の実施形態は、ソフトウェアによって実装される場合、上述のコンピュータ可読媒体に記憶され得る。ソフトウェアは、プロセッサによって実行されたときに、開示されている方法を実行し得る。本開示に示されているコンピューティングモジュールおよび他の機能モジュールは、ハードウェア、ソフトウェア、またはハードウェアとソフトウェアの組み合わせによって実装され得る。上述のモジュールの複数のモジュールは、１つのモジュールとして組み合わされ得、上述のユニットの各々は、さらに複数のサブモジュールの分割され得ることは理解される。

［0095］本発明の他の実施形態は、本明細書の考察および本明細書に開示されている本発明の実施によって、当業者には明らかであろう。示されているステップは、例示的な実施形態を説明するために提示されており、現在行われている技術開発は特定の機能を実行する方法を変えることが考えられる。これらの実施例は、説明のために本明細書に提示されているが、限定的ではない。例えば、本明細書に開示されているステップまたはプロセスは、記載されている順序で実行されるものであると限定されず、任意の順序で実行され得、いくつかのステップは、開示されている実施形態に応じて省略され得る。本願は、本発明の一般的原理に従い、かつ当分野で周知または通常の実施の範囲内にある本開示からの逸脱を含む本発明の任意の変形、使用、または適応を含めるものである。本明細書および実施例は単なる例に過ぎず、本発明の真の範囲および精神は以下の請求項によって示されるものとする。

［0096］本発明は、上記で説明され添付図面に示されている厳密な構造に限定されず、本発明の範囲から逸脱せずに、さまざまな修正および変更がなされてよいことは理解されるであろう。本発明の範囲は、添付の請求項によってのみ制限されるものである。

Claims

音声を使用して操作を開始するための方法であって、
第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出することと、
前記１つまたは複数の音声特徴に従って前記第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定することであって、前記第１の音声モデルはユーザの第２のオーディオデータに関連付けられ、前記第２のオーディオデータは１つまたは複数の事前選択の音声コンテンツに関連付けられる、判定することと、
前記類似度に基づいて前記第１の音声モデルに対応する操作を実行することと
を含む、前記方法。
前記１つまたは複数の音声特徴を抽出するステップは、
前記第１のオーディオデータが音声データであるか否かを判定することと、
前記第１のオーディオデータが音声データである場合に、前記第１のオーディオデータに基づいて前記１つまたは複数の音声特徴を抽出することと、
前記第１のオーディオデータが音声データでない場合に、前記第１のオーディオデータを破棄することと
を含む、請求項１に記載の方法。
前記１つまたは複数の音声特徴を抽出するステップは、
前記第１のオーディオデータを１つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと、
前記音声セグメントデータの各々の１つまたは複数の音声特徴を抽出することと
を含む、請求項１に記載の方法。
前記事前設定の第１の音声モデルは、１つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記第１のオーディオデータと前記事前設定の第１の音声モデルとの間の前記類似度を判定するステップは、
分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別することと、
前記音声セグメントデータの各々の前記１つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定することと、
各々の音声セグメント類似度に従って前記第１のオーディオデータと前記第１の音声モデルとの間の前記類似度を判定することと
を含む、請求項３に記載の方法。
前記音声モデルに対応する操作を実行するステップは、
前記類似度が事前設定の類似度閾値より大きい場合に前記第１の音声モデルに対応する前記操作を実行することを含み、
デバイスの画面が画面ロック状態であり、前記第１の音声モデルに対応する前記操作はロック解除操作およびアプリケーション開始を含む、請求項１〜請求項４のいずれか一項に記載の方法。
登録段階において前記ユーザの１つまたは複数のオーディオデータを取得することと、
前記１つまたは複数のオーディオデータに従って第２の音声モデルをトレーニングすることであって、前記１つまたは複数のオーディオデータは前記ユーザの１つまたは複数の音声コンテンツに関連付けられ、前記１つまたは複数の音声コンテンツは前記１つまたは複数の事前選択の音声コンテンツとは異なる、トレーニングすることと、
前記１つまたは複数のオーディオデータおよび前記第２の音声モデルに従って前記第１の音声モデルをトレーニングすることと
をさらに含む、請求項１〜請求項５のいずれか一項に記載の方法。
前記登録段階において前記ユーザの１つまたは複数のオーディオデータを取得するステップは、
オーディオデータが登録段階で検出された後に前記オーディオデータが音声データであるか否かを判定することと、
前記オーディオデータが音声データである場合に、前記オーディオデータが前記ユーザに関連付けられていることを判定することと、
前記オーディオデータが音声データでない場合に、前記オーディオデータを破棄することと
を含む、請求項６に記載の方法。
前記１つまたは複数のオーディオデータに従って前記第２の音声モデルをトレーニングするステップは、
事前設定の第３の音声モデルを識別することであって、前記第３の音声モデルは前記ユーザとは異なる１人または複数人の話者のオーディオデータに関連付けられ、１人または複数人の話者の前記オーディオデータは前記１つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも１つの音声コンテンツに関連付けられることと、
前記１つまたは複数のオーディオデータおよび前記第３の音声モデルを使用して前記第２の音声モデルをトレーニングすることと
を含む、請求項６または請求項７に記載の方法。
前記第１の音声モデルは、１つまたは複数の音声サブモデルを含み、前記第１の音声モデルをトレーニングするステップは、
前記ユーザの前記オーディオデータの各々を１つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと、
前記音声セグメントデータの各々から少なくとも１つの音声特徴を抽出することと、
前記音声セグメントデータの各々の前記少なくとも１つの音声特徴および前記第２の音声モデルを使用して前記第１の音声モデルをトレーニングすることと
を含む、請求項６〜請求項８のいずれか一項に記載の方法。
前記第１のオーディオデータに基づいて前記第１の音声モデルおよび前記第２の音声モデルを更新することをさらに含む、請求項６〜請求項９のいずれか一項に記載の方法。
音声を使用して操作を開始するための装置であって、
第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出するように構成された音声特徴抽出モジュールと、
前記１つまたは複数の音声特徴に従って前記第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定するように構成されたモデル類似度判定モジュールであって、前記第１の音声モデルはユーザの第２のオーディオデータに関連付けられ、前記第２のオーディオデータは１つまたは複数の事前選択の音声コンテンツに関連付けられる、モデル類似度判定モジュールと、
前記類似度に基づいて前記第１の音声モデルに対応する操作を実行するように構成された操作実行モジュールと
を含む、前記装置。
前記音声特徴抽出モジュールは、
前記第１のオーディオデータが音声データであるか否かを判定して、抽出サブモジュールを呼び出し、前記第１のオーディオデータが音声データでない場合に、第１の破棄サブモジュールを呼び出すように構成された、第１の音声データ判定サブモジュールと、
前記第１のオーディオデータに基づいて前記１つまたは複数の音声特徴を抽出するように構成された第１の抽出サブモジュールであって、前記第１の音声データ判定サブモジュールが前記第１のオーディオデータが音声データであると判定した場合に呼び出される第１の抽出サブモジュールと、
前記オーディオデータを破棄するように構成された第１の破棄サブモジュールであって、前記第１の音声データ判定サブモジュールが前記第１のオーディオデータが音声データでないと判定した場合に呼び出される第１の破棄サブモジュールと
を含む、請求項１１に記載の装置。
前記音声特徴抽出モジュールは、
前記第１のオーディオデータを１つまたは複数の音声セグメントデータに分割するように構成された第１の分割サブモジュールであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、第１の分割サブモジュールと、
前記音声セグメントデータの各々の１つまたは複数の音声特徴を抽出するように構成された第２の抽出サブモジュールと
を含む、請求項１１に記載の装置。
前記事前設定の第１の音声モデルは、１つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記モデル類似度判定モジュールは、
分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別するように構成された音声サブモデル識別サブモジュールと、
前記音声セグメントデータの各々の前記１つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定するように構成された音声セグメント類似度判定サブモジュールと、
各々の音声セグメント類似度に従って前記第１のオーディオデータと前記第１の音声モデルとの間の前記類似度を判定するように構成された類似度判定サブモジュールと
を含む、請求項１３に記載の装置。
前記操作実行モジュールは、
前記類似度が事前設定の類似度閾値より大きい場合に前記第１の音声モデルに対応する前記操作を実行するように構成された実行サブモジュールを含み、
デバイスの画面が画面ロック状態であり、前記第１の音声モデルに対応する前記操作はロック解除操作およびアプリケーション開始を含む、請求項１１〜請求項１４のいずれか一項に記載の装置
登録段階において前記ユーザの１つまたは複数のオーディオデータを取得するように構成されたオーディオデータ取得モジュールと、
前記１つまたは複数のオーディオデータに従って第２の音声モデルをトレーニングするように構成された第２の音声モデルトレーニングモジュールであって、前記１つまたは複数のオーディオデータは前記ユーザの１つまたは複数の音声コンテンツに関連付けられ、前記１つまたは複数の音声コンテンツは前記１つまたは複数の事前選択の音声コンテンツとは異なる、第２の音声モデルトレーニングモジュールと、
前記１つまたは複数のオーディオデータおよび前記第２の音声モデルに従って前記第１の音声モデルをトレーニングするように構成された第１の音声モデルトレーニングモジュールと
をさらに含む、請求項１１〜請求項１５のいずれか一項に記載の装置。
前記オーディオデータ取得モジュールは、
オーディオデータが登録段階で検出された後に前記オーディオデータが音声データであるか否かを判定するように構成された第２の音声データ判定サブモジュールと、
前記オーディオデータが前記ユーザに関連付けられていることを判定するように構成された判定サブモジュールであって、前記第２の音声データ判定サブモジュールが前記オーディオデータは音声データであると判定した場合に呼び出される判定サブモジュールと、
前記オーディオデータを破棄するように構成された第２の破棄サブモジュールであって、前記第２の音声データ判定サブモジュールが前記オーディオデータは音声データでないと判定した場合に呼び出される第２の破棄サブモジュールと
を含む、請求項１６に記載の装置。
前記第２の音声モデルトレーニングモジュールは、
事前設定の第３の音声モデルを識別するように構成された第３の音声モデル識別サブモジュールであって、前記第３の音声モデルは前記ユーザとは異なる１人または複数人の話者のオーディオデータに関連付けられ、１人または複数人の話者の前記オーディオデータは前記１つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも１つの音声コンテンツに関連付けられる、第３の音声モデル識別サブモジュールと、
前記１つまたは複数のオーディオデータおよび前記第３の音声モデルを使用して前記第２の音声モデルをトレーニングするように構成された第１のトレーニングサブモジュールと
を含む、請求項１６または請求項１７に記載の装置。
前記第１の音声モデルは、１つまたは複数の音声サブモデルを含み、前記第１の音声モデルトレーニングモジュールは、
前記ユーザの前記オーディオデータの各々を１つまたは複数の音声セグメントデータに分割するよう構成された第２の分割サブモジュールであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、第２の分割サブモジュールと、
前記音声セグメントデータの各々から少なくとも１つの音声特徴を抽出するように構成された第３の抽出サブモジュールと、
前記音声セグメントデータの各々の前記少なくとも１つの音声特徴および前記第２の音声モデルを使用して前記第１の音声モデルをトレーニングするように構成された第２のトレーニングサブモジュールと
を含む、請求項１６〜請求項１８のいずれか一項に記載の装置。
前記第１のオーディオデータに基づいて前記第１の音声モデルおよび前記第２の音声モデルを更新するように構成されたモデル更新モジュールをさらに含む、請求項１６〜請求項１９のいずれか一項に記載の装置。
音声を使用して操作を開始するための方法を電子デバイスに実行させるために前記電子デバイスの少なくとも１つのプロセッサによって実行可能な命令セットを記憶する非一時的なコンピュータ可読媒体であって、前記方法は、
第１のオーディオデータに基づいて１つまたは複数の音声特徴を抽出することと、
前記１つまたは複数の音声特徴に従って前記第１のオーディオデータと事前設定の第１の音声モデルとの間の類似度を判定することであって、前記第１の音声モデルはユーザの第２のオーディオデータに関連付けられ、前記第２のオーディオデータは１つまたは複数の事前選択の音声コンテンツに関連付けられる、判定することと、
前記類似度に基づいて前記第１の音声モデルに対応する操作を実行することと
を含む、非一時的なコンピュータ可読媒体。
前記命令セットは、
前記第１のオーディオデータが音声データであるか否かを判定することと、
前記第１のオーディオデータが音声データである場合に、前記第１のオーディオデータに基づいて前記１つまたは複数の音声特徴を抽出することと、
前記第１のオーディオデータが音声データでない場合に、前記第１のオーディオデータを破棄することと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも１つのプロセッサによって実行可能である、請求項２１に記載の非一時的なコンピュータ可読媒体。
前記命令セットは、
前記第１のオーディオデータを１つまたは複数の音声セグメントデータに分割することであって、前記音声セグメントデータの各々は音声コンテンツに関連付けられる、分割することと
前記音声セグメントデータの各々の１つまたは複数の音声特徴を抽出することと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも１つのプロセッサによって実行可能である、請求項２１に記載の非一時的なコンピュータ可読媒体。
前記事前設定の第１の音声モデルは、１つまたは複数の音声サブモデルを含み、各々の音声サブモデルは、前記ユーザの所定の音声コンテンツのオーディオデータに関連付けられ、前記命令セットは、
分割順に従って前記音声セグメントデータの各々に対応する音声サブモデルを識別することと、
前記音声セグメントデータの各々の前記１つまたは複数の音声特徴と前記音声サブモデルとの間の音声セグメント類似度を判定することと、
各々の音声セグメント類似度に従って前記第１のオーディオデータと前記第１の音声モデルとの間の前記類似度を判定することと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも１つのプロセッサによって実行可能である、請求項２３に記載の非一時的なコンピュータ可読媒体。
前記命令セットは、
登録段階において前記ユーザの１つまたは複数のオーディオデータを取得することと、
前記１つまたは複数のオーディオデータに従って第２の音声モデルをトレーニングすることであって、前記１つまたは複数のオーディオデータは前記ユーザの１つまたは複数の音声コンテンツに関連付けられ、前記１つまたは複数の音声コンテンツは前記１つまたは複数の事前選択の音声コンテンツとは異なる、トレーニングすることと、
前記１つまたは複数のオーディオデータおよび前記第２の音声モデルに従って前記第１の音声モデルをトレーニングすることと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも１つのプロセッサによって実行可能である、請求項２１〜請求項２４のいずれか一項に記載の非一時的なコンピュータ可読媒体。
前記命令セットは、
事前設定の第３の音声モデルを識別することであって、前記第３の音声モデルは前記ユーザとは異なる１人または複数人の話者のオーディオデータに関連付けられ、１人または複数人の話者の前記オーディオデータは前記１つまたは複数の事前選択の音声コンテンツの各々とは異なる少なくとも１つの音声コンテンツに関連付けられる、識別することと、
前記１つまたは複数のオーディオデータおよび前記第３の音声モデルを使用して前記第２の音声モデルをトレーニングすることと
をさらに前記電子デバイスに実行させるために前記電子デバイスの少なくとも１つのプロセッサによって実行可能である、請求項２５に記載の非一時的なコンピュータ可読媒体。