JP7504855B2

JP7504855B2 - 相互接続された音声検証システムの使用を通して相互運用性を達成するためのシステム、方法、およびプログラム

Info

Publication number: JP7504855B2
Application number: JP2021184916A
Authority: JP
Inventors: キーバン・モハジャー; ウォーレン・エス・ハイト
Original assignee: サウンドハウンド，インコーポレイテッド
Priority date: 2020-12-01
Filing date: 2021-11-12
Publication date: 2024-06-24
Anticipated expiration: 2041-11-12
Also published as: EP4009205A1; JP2022087815A; US20220172729A1; KR20220077101A; EP4009206A1; CN114582338A

Description

関連する出願の参照なし。

背景
ヒューマンマシンインターフェースとしての音声が取り上げられている。グーグルのアシスタント、アマゾンのアレクサ、アップルのシリ、マイクロソフトのコルタナ、サウンドハウンドのハウンド、アリババのティーモールウィザード、テンセントのマイクロ、シャオミのシャオアイ、バイドゥのデュアルＯＳ、ファーウェイのセリア、サムスンのビクスビー、ネイバーのクローバ、およびマイクロフトなど、様々な大企業が音声仮想アシスタントを提供する。これらのアシスタントの多くは、組み込みシステム（IoTデバイス）を制御することができる。それぞれについて、ユーザはアカウントを作成しなければならない。そうした後、ユーザは、仮想アシスタント、および、それが制御することができるデバイスを使用することができる。これらは、音声アシスタントによって制御される独自のエコシステムを構成する。音声アシスタントを提供する会社は、アカウントと、それらの使用から収集されるデータとを作成しながら、ユーザについての情報を使用し、有用な機能およびサービスを提供する。しかしながら、各会社は、そのエコシステム内に、ユーザの個人情報を取り込む。ユーザは、新しいアカウントを再作成し、改めてもう一度個人情報を提供することなしには、別の会社の改善されたサービスから恩恵を受けることができない。このことは、ユーザにサービスプロバイダ間の移動を強いるという障壁がなければ有用な新しいサービスを提供し得るであろう革新的で破壊的な企業を阻止しながら、既存のプロバイダに利益をもたらす。その全てが消費者にとって不利益である。

概要
以下の明細書は、個人拡張知識／嗜好データベース（Personal Extension Knowledge/Preference Database: ＰＥＫＤ）と登録署名とに固有に関連付けられたウェイクフレーズの保存と、発話音声の受け付けと、発話音声内の固有のウェイクフレーズの認識と、発話音声からの署名の抽出と、抽出された署名とユーザを認証するための固有のウェイクフレーズに関連付けられた登録署名との比較と、ユーザが関連付けられたＰＥＫＤにアクセスすることを許可することと、を伴う検証システムを開示する。

そのようなシステムは、ユーザ所有のデバイス、第三者アクセスを可能にするサービスプロバイダによる公共の分散型台帳（public distributed ledger）、または、他の適切なデータベースにＰＥＫＤを保存してもよい。

ユーザの、認識および認証は、フレーズに依存しない自動音声認識（automatic speech recognition）によるものであってもよい。これが可能な１つの方法は、訓練されたモデルを使用した音声特徴ベクトルの抽出および計算によるものである。特徴ベクトルは、学習された埋め込み空間（learned embedding space）内にあってもよい。そのような場合、受信されたベクトルと、ユーザプロファイルに保存されているベクトルとの比較は、それらのベクトル間の距離を計算することによって行われてもよい。別の手法は、ウェイクフレーズに対して訓練されたフレーズスポッター（phrase spotter）を使用することである。音声認証は、固有のウェイクフレーズに基づくフレーズ依存型であってもよいし、他の単語の発話に基づくフレーズ非依存型であってもよい。

本明細書はまた、ユーザから個人データを受信することと、データにアクセスするために、サービスプロバイダから要求を受信することと、ユーザに承認を要求することと、ユーザから応答を受信することと、応答に条件付けされたデータのコピーへのアクセスをサービスプロバイダに提供することとを含む、ユーザ認証の方法を開示する。

そのような認証はまた、登録バイオメトリック署名（enrollment biometric signature）を保存することと、それを要求内のバイオメトリック署名と比較することと、それらの署名間の類似性について応答を条件付けすることとを含むことができる。そのバイオメトリック署名は、機械学習された埋め込み空間（machine-learned embedding space）内の特徴ベクトルであってもよく、類似性は、ベクトル間の距離として計算されてもよい。多くのタイプの生体認証（biometrics）が可能であるが、１つの方法は、発話音声から署名を抽出することである。

本明細書はまた、データベース管理のコンピュータが実行する方法を開示しており、方法は、クライアントデバイスから、ＰＥＫＤ上でのデータベース動作のためのＡＰＩ要求を受信することを含み、その要求は、クライアントデバイスのユーザによって開始され、方法はさらに、その要求から、アクセスするユーザの個人データの部分について、そのデータの形式が削除または取得するべきものかを決定することと、データのその形式から、その形式のデータを保存する適切なサーバを決定することと、その適切なサーバに動作要求を送信することと、そのサーバから応答を受信することと、そのデバイスに応答を送信することと、を含む。

そのような方法の場合、応答は、削除確認、ＰＥＫＤを含む取得応答、または他のタイプであってもよい。管理のためのデータベースへのアクセスは、相互認証プロトコルを使用することができる、要求に対する認証プロキシ認証（auth proxy authorization）を伴ってもよい。データベース動作要求は、カフカキュー（Kafka queue）に送られてもよい。さらに、データベース要求は、複数のマップレデュースクラスタ（MapReduce clusters）に分散されてもよい。

仮想アシスタントエコシステムを示す図である。仮想アシスタントエコシステムのブロック図である。ホテルの部屋の仮想アシスタントとのユーザ対話を示す図である。音声検証によってユーザを認証するデバイスを示す図である。音声検証システムにユーザを登録する方法を示す図である。音声フィンガープリンティング（voice fingerprinting）を示す図である。音声フィンガープリント（voice fingerprint）による音声認証を示す図である。販売時点情報管理装置との音声対話を示す図である。ダブル認証のためにユーザを登録する方法を示す図である。フレーズに依存しない音声フィンガープリントによる検証の方法を示す図である。音声変動検出による検証の方法を示す図である。自動販売機との音声対話を示す図である。ビルのセキュリティシステムとの音声対話を示す図である。エッジ処理を用いた音声検証を示す図である。認証されたデータアクセスを有する仮想アシスタントプラットフォームを示す図である。認証されたアクセス、および、キューイングの要求を有する仮想アシスタントプラットフォームを示す図である。非一時的コンピュータ可読媒体を示す図である。別のタイプの非一時的コンピュータ可読媒体を示す図である。システムオンチップ（system-on-chip）を示す図である。システムオンチップのブロック図を示す図である。ラックサーバを示す図である。サーバのブロック図である。

詳細な説明
以下は、相互接続された音声検証システムを通して相互運用性を達成するための、プロセスステップのシステム、ならびに、機械および構成要素のシステムを開示する。いくつかの実施形態は、非一時的コンピュータ可読媒体に保存されたソフトウェア命令を実行するコンピュータを使用する。以下の実施例は、そのようなシステムの種々の局面のための設計選択を示す。概して、異なる局面の設計選択は独立しており、任意の組合せで協働することができる。

ＰＥＫＤ

個人拡張知識／嗜好データベース（ＰＥＫＤ）は、個人データベースの一種である。これは、個々の、個人の、知識／インテリジェンス／嗜好／意識を拡張するのに役立つ。ＰＥＫＤは、個人データサービスプロバイダによって保存され、管理される。ユーザは、音声および他の入力を使用して、ＰＥＫＤおよびそれが保存する個人データの一部を構築し、アクセスすることができる。

図１は、ユーザＰＥＫＤの相互接続されたシステムを使用することによって相互運用性を達成するための例示的なシステムを示す。ユーザ１１は、音声を使用してスマートスピーカー１２を呼び出し、それと対話し、それを制御し、それを使用して他の互換性のあるデバイスを制御する。スマートスピーカーは、インターネットなどのクラウドネットワークを介して仮想アシスタントプラットフォーム１３と通信する。それは、音声認識や自然言語理解を実行し、ウェブＡＰＩを介して、情報または動作を要求し、応答をスマートスピーカーに提供してもよい。仮想アシスタントプラットフォームは、ＰＥＫＤ情報１４を保存し、それを使用して、応答を提供し、ユーザに適切な情報および動作にアクセスする。いくつかのシステムでは、単一の会社が仮想アシスタントプラットフォームとスマートスピーカーとの両方を提供する。しかしながら、示されるシステムでは、スマートスピーカー１２はまた、スマートスピーカー１５を提供する別個の会社と通信することもできる。スマートスピーカーのベンダーはまた、ＰＥＫＤ情報１６を保存し、それを使用して、サービスまたは付加的な機能をスマートスピーカーに提供してもよい。スマートスピーカーはまた、仮想アシスタントプラットフォームとスマートスピーカーとのベンダーから独立して動作可能な、第三者デバイスとサービスとのプロバイダと通信してもよい。そのようなプロバイダは、一般に、商品およびサービスの商業プロバイダである。そのような第三者の中には、ユーザのプライバシーを保証するとの理由で、または、単にそれを必要としないので、ＰＥＫＤ情報を保存しない場合がある。多くのタイプの消費者デバイスは、例えば、スマートフォン、家電製品、または自動車のベンダーを含む、そのようなオープンエコシステム１７の一部であってもよい。そのようなシステムは、異なる企業が望むように、様々なデバイスおよびサービスにユーザが自由にアクセスできる一方で、当該企業が、必要とするＰＥＫＤ情報の少なくとも一部へアクセスすることを可能にする。

いくつかのシステムでは、ＰＥＫＤは、音声サービスプロバイダ、仮想アシスタントプラットフォーム、またはデバイスのベンダーから独立したブロックチェーン等の分散型台帳に保存され、管理される。そのようなシステムは、パスワード、パスフレーズ、指紋、網膜、音声フィンガープリントなどの生体認証などのユーザ固有の情報を使用してＰＥＫＤのデータベースレコードを暗号化することができる。そのようなデータベースレコードへのアクセスのための認証は、データセキュリティを要求されるように、多要素化され得る。分散型台帳は、私的なものでもよいし、公的なものでもよい。それは、読み取り、追加、修正、および削除などの許可をサポートすることができる。それは、ＰＥＫＤデータの全部または一部に対する、さらに複雑な許可をサポートすることができる。そのような分散は、革新的なディスラプターを含む任意のサービスプロバイダが、データを利用することを可能にする。また、それは、データの破損を回避し、ハッキングに対する耐性を提供する。

いくつかのシステムは、プラットフォームとデバイスとの間で自由にやり取り可能な、１以上のデータ形式に依存する標準フォーマットでＰＥＫＤレコードを保存または共有することができる。そのような可搬性は、アマゾン、グーグル、サウンドハウンド、テンセントなどによって今日管理されているようなエコシステムへの不適合性およびロックインを回避するという利益を有する。

ＰＥＫＤのデータのタイプ

ＰＥＫＤデータベースは、音声ベースの、または他のコンピュータサービスのユーザに関する情報を伴うレコードを含む。いくつかのそのような情報は、名前、年齢、性別、住所または地域、および出生地域を含み、これらは、ユーザを異なるタイプにマッチさせるために有用である。ＰＥＫＤ情報の別のタイプは、製品のお薦めおよびターゲットを絞った宣伝に有用である、買い物の嗜好である。そのような情報は、ＰＥＫＤ埋め込み空間内のベクトルとして扱われてもよいし、または、ＰＥＫＤ埋め込み空間内のベクトルに変換されてもよい。そのようなベクトルは有用である。なぜなら、そのようなベクトルは、システムがユーザ間の距離を計算することを可能にし、重心を計算することによるかまたはデービースキャン（ＤＢＳＣＡＮ）等のような密度ベースのアルゴリズムを使用することによるユーザのクラスタリング、および任意の所与のユーザの関心の可能性をマッピングすることを可能にするからである。これらの手法は、広告主および販売者によるより良いターゲティング、ならびに、ユーザにとってより関連性のある検索結果を可能にする。

ＰＥＫＤ情報の別のタイプは、特定の名前および意味論上の意味を有するエンティティ（entities）へのポインタのリストである。例えば、ユーザの連絡先リストは、他人のデータベース内のレコードへのポインタを含む。これらは、ユーザにとって私的であってもよい。しかしながら、連絡先は、電子メールアドレスまたは電話番号などの明確なユーザ属性によって他のユーザに識別可能にリンクされてもよい。そのようなリストの別の例は、以前に購入されたまたは以前に閲覧された製品またはＵＲＬのリストである。特定の名前および意味論上の意味を有する他のエンティティへのポインタのリストは、それらの名前が発話されたときに音声認識がそれらの名前を認識することを可能にし、かつポインタのリストは、そうでなければ標準発音を有する単語として音声認識が認識するであろう類似発音を有する標準単語から名前を区別することによって精度を向上させることを可能にする。対応するユーザ間、または、ユーザと他のタイプのエンティティとの間のポインタは、接続ベースのクラスタリングを可能にする。改善されたクラスタリングは、より良いターゲティングおよびより関連性のある検索結果を提供する。

エコシステム

グーグル等の企業は、そのネストホーム制御（Nest home control）および他の第三者デバイスを伴い、アマゾンは、そのリングホームセキュリティ（Ring home security）および他の第三者デバイスを伴い、ユーザデータの取り込みを伴う独自の閉鎖的なエコシステムを作成する。これらの閉鎖的なエコシステムでは、破壊的な革新者は、彼らの製品／サービスおよび彼らのパートナーが、アマゾンまたはグーグルによって開発されたエコシステム製品を制御することができる音声アシスタントを開発することを可能にすることができない。これは、ユーザを不利にしながら、それらの企業に恩恵をもたらす。サウンドハウンドなどの他の会社は、必須のデータ取り込み契約なしに任意の数の第三者をサポートするエコシステムを提供する。

図２は、第三者に開かれたエコシステムの一例のさらなる詳細を示す。プラットフォーム２０は、複数のクライアント２１ａおよび２１ｂをサポートする。プラットフォームは、データセンタまたは企業の中央オフィスにおいて典型的に見いだされるもの等のクラウドコンピューティング環境において動作することができる。クライアントは、スマートスピーカーなどの固定式のホームデバイス、電話およびウェアラブルなどのデバイス上で動作するアプリを含む、電話およびウェアラブルなどのポータブルデバイス、自動車および他の輸送システムなどの他のモバイルデバイス、自動販売機などの購入システム、販売時点情報管理（ＰＯＳ）端末、またはドライブスルーレストラン注文システムでもよい。

クライアントデバイスは、家庭用スマートスピーカーおよび携帯電話など、それらのユーザによって所有されてもよいし、クライアントデバイスはまた、販売時点情報管理端末など、公共のものでもよいし、もしくは、ホテルの部屋内のスマートスピーカーなど、異なる時間に異なるユーザによって私的に使用されてもよい。ホテルなどの公共または共有のデバイスの所有者、ならびに、食料品店およびファーストフードレストランなどの小売業者は、プラットフォームプロバイダと契約してもよい。公共および共有のクライアントのユーザが提供される商業サービスにアクセスすることを可能にするために、ユーザがＩＤを有するなら、ユーザのＩＤをＰＥＫＤに関連付けることに役立つ。関連付けは、以下で論じるように、電子メールアドレスまたはクレジットカードなどの固有の識別子によって、音声フィンガープリンティングまたは顔認識などの生体認証によって、または、識別フレーズの列挙によって行うことができる。新しいユーザは、自身が決して登録していないプラットフォームに接続された公共または共有のデバイスに遭遇すると、システムは、登録処理を直ちに実行してもよい。これは、固有の識別情報を要求すること、パスワードを要求すること、固有のフレーズを要求すること、生体情報を取り込むこと、または以下で説明される他の手続き等のステップを伴うことができる。しかしながら、時間に追われているユーザを待たせ、公共の場で個人情報を要求することを避けるために、システムは、ユーザの仮アカウントを作成してもよい。仮アカウントは、ホテルのルームサービスまたはファーストフードレストランのメニューの要求などの、特定の重要でない機能を可能にすることができる。仮アカウントは、高価格の購入を行うなどのより重要な機能を可能にしてもよいし、可能にしなくてもよい。いくつかの場合において、低価格の購入は、仮のクレジットで許可されてもよい。人々が音声対応の販売時点情報管理クライアントから多数の小規模購入を行うことによって、そのような提供を乱用することを回避するために、システムは、場所に関連付けられたシリアル番号等のクライアントロケーション識別子を受信してもよい。システムは、代替として、緯度および経度等の地理的情報を販売時点情報管理装置から受信してもよい。乱用を防止するために、システムは、仮のクレジットで購入するユーザの音声の大まかな声紋および地理的情報を保存し、概ね類似した音声特性を有する近くの場所からの短時間内での複数の要求を拒否してもよい。

プラットフォームは、クライアントから音声クエリ（voice query）またはコマンドを受信し、発話された単語を文字に起こすために音声認識を実行し、次いで、自然言語理解（natural language understanding: ＮＬＵ）解釈器２３を用いて単語を解釈する。解釈器は、単語を文法２４と比較することによってＮＬＵを実行する。文法は、会話の特定のドメインに対応し、発話された単語の意図を定義する。発話された単語は、そのような意図に対する異なる一般的なフレーズを含む。システムは、メモリに保存されたデータ構造として意図を表す。プロセッサは、互いの間でデータ構造を渡すことができる。また、プラットフォームとクライアントとは、互いの間でデータ構造を渡すことができる。エクステンシブルマークアップランゲージ（eXtensible Markup Language: ＸＭＬ）、または、ジャバスクリプトオブジェクトノテイション（JavaScript（登録商標） Object Notation: ＪＳＯＮ）などのフォーマットは、意図のデータ構造を表すために適切であり得る。

プラットフォームは、意図を使用して、文法のドメインに適切なデータソース２５を選択する。次いで、プラットフォームは、クエリ（query）に応答する必要に応じて所望のドメインプロバイダから情報を検索する。ウィキペディア（Wikipedia）などの百科事典における情報の検索、ウェザーアンダーグラウンド（Weather Underground）などのソースからの天気予報のチェック、イェルプ（Yelp）などのプロバイダからのお勧めのレストランの検索など、多くの種類のデータソースが可能である。コマンドに対し、プラットフォームは、意図を使用して適切な動作能力２６を呼び出す。ショートメッセージサービス（short message service: ＳＭＳ）のテキストメッセージを送信すること、ウーバー（Uber）などのプロバイダから乗車を要求すること、または、スマートライトスイッチをオンにすることなど、多くの種類の動作が可能である。

いくつかの専用クライアント２７は、独自の動作能力を有していてもよい。例えば、メルセデス製などの自動車は、ヒータまたはエアコンを使用可能にしてもよい。そのようなデバイスは、発話されたコマンドを認識するための専用の文法２８を有してもよい。プラットフォームは、そのようなクライアントに対する発話されたコマンドを受信すると、それを解釈し、合意されたデータ構造のフォーマットで適切なメッセージをクライアントに送信する。

プラットフォームはまた、任意の特定のデータソースまたはクライアントに関連付けられていない専用の文法２９を有してもよい。例えば、プラットフォームは、時間を伝え、計算を実行し、または、内部でユニット間で変換する能力を提供することができる。プラットフォームは、ある部分的な意図の結果でさえも使用して、別の意図を通知することができる。例えば、デスバレー（Death Valley）における現在の、ケルビン度での温度についてのユーザの音声クエリは、気象ドメインの検索と、それに続く結果の単位変換とを必要とする。

第三者クライアント開発者および第三者データソースに開かれたプラットフォームは、いずれかの革新的なプロバイダが他者から恩恵を得ることを可能にする。その結果、ユーザが利用できる機能が向上し、ユーザ体験が向上することでデバイスの販売が向上し、プラットフォームの使用率が向上することでデータソースプロバイダのデータを収益化する機会が増えるという好循環が生まれる。

ホテルシナリオ

音声アシスタントを呼び出すウェイクフレーズは、音声アシスタントに知覚されるアイデンティティを与える。閉鎖的なエコシステムでは、全てのデバイスおよびサービスは、「オーケー、グーグル」、「アレクサ」、又は「シャオアイ」などのフレーズを介してアクセス可能な単一のアシスタントアイデンティティを介してのみアクセスされ得る。単一のプロバイダ定義のアイデンティティを有することにより、ユーザは、そのデバイスをアシスタントであると認識する。

開かれたエコシステムでは、ウェイクフレーズはユーザに固有であり得る。ユーザは、個人のウェイクフレーズを話すことによって、任意の場所の任意のデバイスを介してアシスタントを呼び出すことができる。この普遍性により、ユーザは、全知で全能の守護天使のように、どこにいてもアシスタントが周囲にいると認識できる。

図３に示されるように、この手法では、例えばホテルの客は、例えば、「こんにちは、ビッグさん。私は、ジュリエットよ。」という自分の個人のウェイクフレーズを言うことができる。室内のスマートスピーカーは、ウェイクフレーズを認識し、ジュリエットがウェイクフレーズを述べていることを認識し検証することができる。その時点で、スマートスピーカーは、ジュリエットが彼女のＰＥＫＤ情報へアクセスすることを許可し、ジュリエットの好きな音楽はカントリーミュージックであること、ジュリエットは明日の午後２時にアポイントメントがあること、および、ジュリエットの連絡先リストにいる人が誰であるのかということを直ちに知ることができる。この情報を用いて、スマートスピーカーは、製品メーカにかかわらず、ジュリエットがエコシステム内で自分の声で製品を制御することを可能にすることができる。

これにより、ユーザが以前に使用したことのないデバイスに遭遇する場合、たとえば、ホテルの客がスマートスピーカーを備えたホテルの部屋に入る場合、デバイスを起動するためのウェイクフレーズを発声できる対象のデバイスをどのプロバイダサービス（アマゾンのアレクサ、グーグルのアシスタント、シャオミのシャオアイなど）が提供しているかを判断する必要がない。これにより、よりパーソナライズされたユーザ体験が提供される。

ＶＶＳ

音声検証システムまたは音声検証サーバ（voice verification server: ＶＶＳ）は、個人のウェイクフレーズによるユーザの認証を提供することができる。そのようなシステムは、発話音声を受信し、ユーザの固有のウェイクフレーズを識別し、認証を要求しているデバイスが何であってもユーザのアイデンティティを検証する。ＶＶＳは、認証メッセージでデバイスに応答する。図４は、ＶＶＳを使用する異なる種類のデバイスの一例を示す。スマートスピーカー４１ａ、ロック４１ｂ、セキュリティシステム４１ｃ、レンタカー４１ｄのような車、自動販売機４１ｅ、ＡＴＭ４１ｆ、ＰＯＳシステム４１ｇ、電話機４１ｈ、コンピュータ４１ｉ、電化製品４１ｊ、サーモスタット４１ｋ、ＩｏＴ機器４１ｌ、ホームオートメーション機器４１ｍ、ロボット４１ｎ、ドライブスルーレストラン４１ｏ、およびその他諸々４１ｐは、人４２から音声クエリおよびコマンドを受信することができる。音声駆動デバイスは、インターネット４３を介して、単一の一元化された音声検証システム４４に接続する。協調システムを有することは、デバイスメーカのための一貫したプロトコルおよびソースを提供し、開発時間および労力を改善する。それはまた、ユーザのための一貫した認証体験を提供し、これは、音声対応デバイスに対するユーザの満足度および需要を増加させる。

検証できるようにするために、ユーザはＶＶＳ４４に登録されなければならない。図５は、登録の１つの可能な方法を示す。それは、開始して（５０）、ユーザのアイデンティティを判定する（５１）。アイデンティティの判定は、ユーザがキーボードによって電子メールアドレスを入力することによって行われてもよいし、ユーザは、政府から与えられている識別番号を話すことを含む他の方法によって、または、ユーザが光学または磁気スキャナでバッジをスキャンすることによって、識別情報を提供してもよい。次に、システムは、新しいユーザから、所望のウェイクフレーズを要求する（５２）。次いで、システムは、「こんにちは、ビッグさん。私は、ジュリエットよ。」などのユーザの所望のウェイクフレーズを受信する（５３）。ウェイクフレーズの受信は、タイピングなどのテキスト入力方法、または、自動音声認識（automatic speech recognition: ＡＳＲ）などの発話入力方法によってなされ得る。ＶＶＳは、ユーザの個人のウェイクフレーズのデータベースを保存する。ＶＶＳは、データベース内のユーザの所望のウェイクフレーズを検索して、それが見つからない、したがって、それが固有のウェイクフレーズであることを確認する（５４）。そうでない場合、ＶＶＳは、所望のウェイクフレーズを要求するステップ５２に戻る。ウェイクフレーズが固有である場合、ＶＶＳは、ウェイクフレーズをユーザのアイデンティティと関連付けてデータベースに保存することに進む（５５）。これにより、ウェイクフレーズ登録が完了する（５６）。

各ウェイクフレーズが個人に固有であることを確実にすることによって、ユーザは、任意の場所および任意のデバイスからアシスタントを呼び出すことができる。これは、デバイスと、音声プラットフォームと、データおよびサービスのプロバイダとの間の相互運用性を可能にする。それは、今度は、エコシステムの参加者にとって新しい機会を作り出す。

ユーザがＶＶＳと通信するデバイスに自身の個人のウェイクフレーズを言うと、デバイスはウェイクフレーズをＶＶＳに送信する。ＶＶＳは、ウェイクフレーズを使用して、ユーザのアイデンティティを判定および検証し、ユーザの個々のＰＥＫＤ情報へのアクセスを提供する。これは、誰がそのデバイスを開発したかにかかわらず、ユーザが自分の音声を使用して自分の近くの音声制御製品を制御することを可能にする認証を提供する。

したがって、ホテルの例に戻ると、ホテルのスマートスピーカーはＶＶＳに接続される。ホテルの客が部屋に入って「こんにちは、ビッグさん。私は、ジュリエットよ。」と発話すると、スマートスピーカーは、ウェイクフレーズをＶＶＳに送信する。ＶＶＳは、「こんにちは、ビッグさん。私は、ジュリエットよ。」というウェイクフレーズを受信する。ＶＶＳは、ウェイクフレーズを使用して、ユーザのアイデンティティを判定および検証する。ユーザの判定および検証に応じて、ＶＶＳは、ユーザのＰＥＫＤへの接続を可能にするであろう。ホテルの客は、誰がその製品を開発したかにかかわらず、自分の音声を使用して音声制御製品を制御することができる。

ウェイクフレーズの接頭辞

一般的な大語彙音声認識は、特定の単語またはフレーズに対して訓練されたフレーズスポッターよりも低い精度を有する。さらに、誰の固有のウェイクフレーズであっても検出できることは、デバイスからＶＶＳにテキストまたは音声を絶えず送信することを必要とし、これは、大きなエコシステムをサポートするための膨大な帯域幅を必要とする。

ＶＶＳまたは特定のデバイスは、「コンピュータ．．．」といった単語などの接頭語またはフレーズを必要とし得る。接頭語を必要とすることにより、デバイスは、全語彙連続ＡＳＲ（full-vocabulary continuous ASR）を実行することなく、接頭辞について単純なフレーズスポッターを実行することが可能になる。連続ＡＳＲの必要性を回避することは、ＶＶＳにおけるネットワーク帯域幅のコストを大幅に低減する。それはまた、電力感応デバイスがはるかに少ない電力を使用することを可能にし、それによって、バッテリ寿命およびユーザ体験を拡大する。それはまた、フレーズスポッターは常時オンのＡＳＲよりもプロセッサへの負荷がはるかに少ないため、コストに敏感なデバイスで低コストのプロセッサを使用することを可能にする。

ＡＳＲパーソナライゼーション

音声ベースのエコシステムは、プログラムまたは自然言語理解モデルによって解釈され得るテキストまたは他のフォーマットへの発話音声のＡＳＲ変換に依存する。ＡＳＲが正確であればあるほど、ユーザ体験は良好になり、採用される製品も増える。ＡＳＲは、概して、発話音声を音声情報に変換するために音響モデルを使用し、音声情報を単語または他の言語トークンに変換するために言語モデルを使用する。音響および言語モデリングを１つに統合したエンドツーエンドＡＳＲ（end-to-end ASR）を訓練することも可能である。

ＰＥＫＤ情報の別のタイプは、個人の音響モデルである。個人の音響モデルにより、システムは、所与のユーザの声、アクセント、さらにはユーザの典型的な定常ノイズさえも考慮して、より正確に音声認識を適応させることができる。個人の音響モデルは、ニューラルネットワーク音響モデル内の適応層として、より一般的なモデルからの伝達学習によって訓練されたニューラルモデルとして、または、音声認識音響フロントエンドによって処理されたサンプリングされた音声のメルフィルタバンクもしくは他のスペクトル表現とともに音響モデルへの入力として使用され得る音声音響埋め込みベクトルとして表されてもよい。

ＰＥＫＤ情報の別のタイプは、個人の統計言語モデル（statistical language model: ＳＬＭ）である。これは、単語およびフレーズの所与のユーザの異なる典型的な使用、ならびに、関連する人々の名前などの個人の語彙単語のセットを考慮して、より正確に音声認識を適応させるのに有用である。個人の音響モデルと同様に、個人のＳＬＭは、ニューラルＳＬＭ内の適応層として、より一般的なモデルからの伝達学習によって訓練されたニューラルモデルとして、または、音声または他のトークン化モデルの入力とともにＳＬＭへの入力として使用され得る言語埋め込みベクトルとして表されてもよい。

パーソナライズされた音響モデルおよびＳＬＭは、ＡＳＲの精度を改善し、データソース、製品、および広告との関わりの、ユーザ体験、保持、およびユーザの発見を増加させる。これらの全ては、音声エコシステムのメンバーに追加の収入の機会を提供する。

音声フィンガープリント

ＰＥＫＤ情報の別のタイプは、ユーザの音声の１以上の録音、録音から抽出された１以上の音声フィンガープリント、またはその両方である。音声フィンガープリントは、ユーザの認証、複数ユーザでの会話内のダイアライゼーション（diarization）、および、仮想アシスタントのカスタマイズ化のキーイング（keying）などの様々な用途を有する。音声フィンガープリントに合わせた（keyed）仮想アシスタントは、リアルタイムで計算されたフィンガープリントのＰＥＫＤとの最良のマッチからのマッピングと、そこからＰＥＫＤによって指し示されるユーザ固有の情報にアクセスすることとに従って、別のユーザとは異なる一のユーザに自動的に応答することができる。

図６は、音声フィンガープリンティングの一方法の図を示す。発話音声６１は、マイクロフォンから取り込まれるか、または、ネットワーク接続を介して受信される。処理は、マイクロフォンを有するデバイス内でローカルに、または、クラウドデータセンタサーバ内などのリモートで発生し得る。約２５ミリ秒のサイズを有する発話音声のウィンドウは、フレーム当たり約１０ミリ秒のレートでフレーム毎に処理される。各フレームについて、スペクトルエネルギーは、メルスケールで、４０～８０の範囲などのいくつかの周波数範囲について推定される。計算されたメルスケール測定値のシーケンスは、スペクトログラム６２を生成する。発話音声のシーケンスをベクトルに変換するように訓練されたニューラルネットワーク６３は、スペクトログラムを処理して、話者の音声の署名６４である音声特徴ベクトルを生成する。いくつかのシステムは、スペクトログラムを計算することなく、サンプリングされた発話音声に対して直接訓練されたニューラルネットワークを使用してもよい。

ベクトルは、例えば、ｉベクトル、ｘベクトル、またはｄベクトルを生成するために、異なる隠れマルコフモデル（hidden Markov model: ＨＭＭ）、または、ニューラル手法によって計算されてもよい。生成されたベクトルは、音声特徴の埋め込みに従って学習された次元を有する多次元空間内の音声を表してもよい。

音声ベクトル署名の精度は、概して、より長い量の発話またはフレーズ長によって改善する。それは、特定のウェイクフレーズまたはウェイクフレーズの接頭辞を話すときなど、フレーズ依存であり得る。それは、フレーズ非依存でもあり得、その場合、単語に関係なく計算される。フレーズに依存する音声フィンガープリンティングは、概して、より少ない発話音声に対してはより正確であるが、フレーズに依存しないフィンガープリンティングは、利用可能な場合、より長い発話音声のピースを利用することができる。

いくつかの音声フィンガープリンティング方法は言語に依存する。言語に依存する方法は、概して、より正確であるが、英語、マンダリン、ドイツ語、日本語、フランス語、または韓国語等の各言語に対して別々に訓練されたモデルを必要とする。言語に依存しない音声フィンガープリンティングも可能である。それは、すべての人間の音声に対して単一のモデルを訓練することのみを必要とするが、短いフレーズ長に対しては正確性がより低い。

音声フィンガープリントによる認証は、適切な登録手続きを必要とする。動作中、ＶＶＳは音声を取り込み、フィンガープリントを計算する。それは、計算されたフィンガープリントを、主張されたユーザのアイデンティティに関連付けられたフィンガープリントと比較する。これをサポートするために、ユーザの音声を取り込む必要がある。音声は保存されるか、通常の動作中に計算された音声フィンガープリントと同じベクトル空間内に音声のフィンガープリントが保存されなければならない。登録された音声のレコードを保存することにより、将来的に技術またはシステムリソースが改善するにつれて、改善された埋め込み空間でシステムを再訓練し、ユーザのプロファイルフィンガープリントを再計算することが可能になる。

登録中、正確なフィンガープリント比較のために充分な情報を提供する発話の量が取り込まれなければならない。フレーズに依存する音声フィンガープリンティングシステムにおける、パーソナライズされたウェイクフレーズの場合、典型的には、ユーザがウェイクフレーズを３回話せば充分であろう。ユーザの声の変化を捉えるためには、話す回数が多ければ多いほど良い。フレーズに依存しない音声フィンガープリンティングの場合、通常、正確なフィンガープリントベースの認証のためには、１０秒以上の発話音声が望ましい。

音声処理のためのオープンソースカルディ（Kaldi）パッケージは、その多くの音声処理能力の中で音声フィンガープリンティングをサポートすることができるソフトウェアパッケージの一例である。フィンガープリンティングに使用されるニューラルモデルは、１以上の回帰層と、線形注意モデルとが組み合わされた、層間の最大プーリング（maxpooling）を伴う畳み込みニューラルネットワーク（convolutional neural network: ＣＮＮ）層を含んでいてもよい。

手動ダイヤルを必要とし、電話システムの限られた環境で動作するコールセンターの音声フィンガープリンティングとは異なり、相互接続されたＶＶＳのための音声フィンガープリンティングは、様々な雑音環境およびデバイス音声コンポーネントの歪み、サンプリングレートおよび精度、ならびに、ネットワーク接続のレイテンシおよび帯域幅制限に対してロバスト性を有する完全な音声ベースのユーザインターフェースを可能にする。

図７は、強力な認証を提供するために、固有のウェイクフレーズの識別を音声フィンガープリンティングと組み合わせるプロセスを示す。ＡＳＲは、発話音声の認識を行う（７１）。認識は、ＶＶＳに送信されるテキストを用いてデバイス上でローカルに行われてもよく、または、デバイスから送信される音声についてＶＶＳ内で行われてもよい。認識は、ウェイクフレーズを検出し、ユーザに固有のウェイクフレーズが保存されたデータベース７２においてリアルタイム検索を実行する。データベースは、各固有のウェイクフレーズに関連付けられた、登録中に取り込まれた１以上の音声署名と、対応するＰＥＫＤデータへの接続とを含む。

上述のニューラルモデル６３などの音声フィンガープリンティングモデルは、取り込まれた発話音声の特徴ベクトルとして音声フィンガープリントの抽出を実行する（７３）。フィンガープリント計算は、ＶＶＳに送信されるフィンガープリントベクトルを用いてデバイス内で行われ得るか、または、フィンガープリント計算は、ＶＶＳ内で直接行われ得る。

次に、ＶＶＳは、抽出された署名と、１以上の登録された署名との間で比較を実行する（７４）。ＶＶＳは、ベクトル間の余弦距離を計算することによって、または、他の多次元特徴比較アルゴリズムによって比較を行うことができる。特徴が許容可能な類似性の閾値内で一致する場合、ユーザの声が検証され、認証が提供される。いったん認証が成功すると、ＶＶＳは、ユーザのＰＥＫＤへのアクセスを許可する（７５）。ＶＶＳは、ＰＥＫＤデータベースのプロバイダとは別であってもよい。もしそうであれば、アクセスを提供するために、データベースプロバイダに許可を示す信号が送信される。

音声の比較が類似性の閾値を満たさない場合、認証は失敗し、ＶＶＳは、一致するフィンガープリントがなかったことを知らせる信号をデバイスに送信する。デバイスは、エラーメッセージを与えること、ユーザに再試行を依頼すること、不正アクセスの試みによりデータベースをロックするように信号を送ること、または他の適切な動作などによって、ユーザに適切に応答してもよい。

固有のウェイクフレーズ認識と音声フィンガープリント認証との組み合わせは、ユーザが機密情報の保存を信頼するのに充分なセキュリティを提供しながら、ユーザがデバイスに依存しない周囲の仮想アシスタントを有することを可能にする利便性を提供する。この利便性は、そうでなければ可能ではない金融サービス、健康サービス、および他の個人サービスを可能にする。

ＰＯＳシナリオ

相互接続されたＶＶＳの手法は、広範な用途を有する。図８は、一例を示す。スーパーマーケット８１内のタッチレス音声対応ＰＯＳシステムは、ユーザのバッグまたはカート内の購入品目を集計する。そのような自動化された集計は、製品上のＲＦＩＤタグ、または、棚から製品を選ぶ買い物客を観察するマシンビジョンカメラなどの様々な検出手法を用いることで可能になる。

ユーザは、ＰＯＳデバイスのところに来て精算および支払いを行うとき、手を使用するためにバッグを置くことを必要とする、カードをＰＯＳデバイスに挿入すること、電話をタップすること、または、ＱＲコード（登録商標）をスキャンすることではなく、買い物客は、単に、ＰＯＳシステムに対して自身の個々のウェイクフレーズである「こんにちは、ビッグさん。私は、ジュリエットよ。」を発話することができる。ＰＯＳデバイスは、インターネットを介してＶＶＳに接続されている。ＰＯＳデバイスは、個人のウェイクフレーズである「こんにちは、ビッグさん。私は、ジュリエットよ。」をＶＶＳに送信する。ＶＶＳは、ウェイクフレーズを使用して買い物客のアイデンティティを確認し、音声フィンガープリント認証を実行する。認証が成功すると、ＶＶＳは、ＰＯＳシステムに支払いを提供するようにユーザの銀行に信号を送る。これは直接的であり得るか、または、ＶＶＳは、ＰＯＳが、買い物客のＰＥＫＤに保存された口座番号などの特定の金融情報へのアクセスを得ることを可能にするキーを与えることができる。このようにして、ＰＯＳシステムは、買い物客が購入を行うのに充分な金融資産を有するという確認を得る。

ＰＯＳ市場は一般的に大きい。音声対応ＰＯＳデバイスは、食料品店からレストランや地下鉄の駅まで精算機を有するベンダーの全範囲にわたってアップグレードを必要とする。消費者は、彼らが何を手に持っていても置く必要がないという大きな利便性のために、物理的接触とのインターフェースを介して共有されるであろう細菌を回避する能力のために、およびアクセスの速さのために、音声対応ＰＯＳを提供するようにベンダーに要求するであろう。このエコシステムの革新は、説明されるセキュアな認証方法によってのみ可能である。

ダブル認証

単純なＶＶＳは、なりすまし攻撃の標的になるかもしれない。例えば、詐称者は、個人のウェイクフレーズを話す正当なユーザの音声を記録するかもしれない。記録を再生することによって、単純なＶＶＳは、詐称者がユーザのＰＥＫＤにアクセスすることを可能にするであろう。いくつかのシステムは、ダブル認証によってこれを回避する。ダブル認証の一形態は、予測不可能な単語またはフレーズを言うことをユーザに促すことである。詐称者は、その単語またはフレーズを言った正当なユーザの記録を有さないであろう、したがって、アクセスを得ないであろう。これをサポートすることは、ユーザに追加の単語を話すように求める登録プロセスを必要とする。

図９は、ダブル認証のサポートを伴う登録の１つの可能な方法を示す。それは、図５に示される方法に基づく。具体的には、その方法は、ユーザのアイデンティティを決定すること（９１）によって開始する（９０）。ユーザのアイデンティティは、キーボードによって電子メールアドレスを入力することによって、ユーザが政府発行の識別番号を話すことによって、または、ユーザが光学式または磁気式スキャナでバッジをスキャンすることによって提供されてもよい。次に、システムは、新しいユーザから、所望のウェイクフレーズを要求する（９２）。次いで、システムは、「こんにちは、ビッグさん。私は、ジュリエットよ。」などのユーザの所望のウェイクフレーズを受信する（９３）。ウェイクフレーズは、タイピングなどのテキスト入力方式、または、自動音声認識（ＡＳＲ）などの発話入力方式で提供され得る。ＶＶＳは、全てのユーザの個人のウェイクフレーズのデータベースを保存する。ＶＶＳは、データベース内でユーザの所望のウェイクフレーズを検索することに進み、ユーザの所望のウェイクフレーズがデータベース内に存在せず、したがって固有のウェイクフレーズであることを確認する（９４）。そうでない場合、ＶＶＳは、所望のウェイクフレーズを要求するステップ（９２）に戻る。ウェイクフレーズが固有である場合、ＶＶＳは、ウェイクフレーズをユーザのアイデンティティと関連付けてデータベースに保存すること（９５）に進む。

ＶＶＳ登録プロセスは、「ペネロペ（Penelope）」、「エンサイクロペディア（Encyclopedia）」、「アベニュー（Avenue）」、および「フィフティースリー（Fifty-Three）」などの追加の単語またはフレーズのセットを擬似ランダムに選択または作成することに進む。次いで、ＶＶＳは、ユーザに追加の単語またはフレーズのそれぞれを話すように要求する（９６）。ＶＶＳは、ユーザが話しているフレーズのサンプルを記録し、保存する（９７）。ＶＶＳは、任意に、追加の単語またはフレーズのそれぞれについて、フレーズ依存型音声検証ベクトルを計算および保存することができる。これにより、ウェイクフレーズ登録が完了する（９８）。

ＰＯＳシナリオでは、認証中、ＶＶＳがウェイクフレーズを通じて買い物客のアイデンティティを決定した後、ＶＶＳはランダムに選択された認証ワード（あるいは、音声認識を使用して容易に認識することができる数字などの一連の単語）のうちの１つをＰＯＳシステムに送信する。ＰＯＳシステムは、認証ワードを表示画面に表示する。そして、ユーザは、認証ワードを読んで話す。ＰＯＳシステムは、認証ワードをＶＶＳに送信する。ＶＶＳは、認証ワードを、そのメモリに保存された認証ワードのフィンガープリントと照合する。一致する場合、ＶＶＳはＰＯＳシステムに対しアイデンティティを認証する。一致しない場合、ＰＯＳシステムはユーザを拒否する。

ダブル認証を使用することは、不正行為を大幅に低減または排除する。

スマートフォンなどの個人デバイスによってダブル認証するために、ＶＶＳは、一連の数字または文字、および、数字としての確認コードを買い物客の個人デバイスに送信することができる。ユーザは、コードを読むことができる。フレーズに依存しない音声認識を使用することによって、コードが、ユーザに充分に長い音声サンプルを提供させるのに充分な程に長い限り、詐称者は録音を再生することができない。

図１０は、ＶＶＳによるフレーズに依存しない認証の方法を示す。それは、ユーザのアイデンティティを要求すること（１０１）によって開始する（１００）。ユーザは、電子メールアドレス、ＩＤカードの番号、または固有のウェイクフレーズなどの固有の識別情報を提供することによって、自分のアイデンティティを提供することができる。次に、ＶＶＳは、任意の単純な音声クエリ、例えば、「２の２倍は何ですか」、「ドラゴンという単語を言って下さい」、または「あなたの郵便番号は何番ですか」を生成する（１０２）。質問に対する回答が任意であることを確認することによって、ＶＶＳは、詐称者が録音された音声を使用する危険に対処することができる。ＶＶＳは、ユーザの声の応答を受信し（１０３）、声のマッチングを実行する（１０４）。マッチングが閾値の距離内である場合、ユーザは認証される（１０５）。そうでなければ、認証は失敗し（１０６）、ＶＶＳは、対応する信号を、認証を要求するデバイスに送信する。

ダブル認証のこの特定の形態は、プッシュ通知を必要としない。

音声録音の再生によるなりすましを妨げるダブル認証の別の形態は、音声録音における小さな変化を確かめることである。図１１は、そのような方法を示す。それは、ウェイクフレーズの音声を受信すること（１１１）によって開始する（１１０）。次いで、ＶＶＳは、ウェイクフレーズの音声を将来の参照のために保存する（１１２）。次に、ＶＶＳは、受信したウェイクフレーズの音声を保存された以前の音声サンプルと比較する（１１３）。この比較は、ウェイクフレーズの音声サンプルに対して計算されたフィンガープリントを比較し、それらが、同じユーザであることを確認するのに必要な閾値未満であるが、同じ録音であることを示すであろう閾値よりも大きいことを確かめることによって行うことができる。複数の録音は非常に近いフィンガープリントを生成するかもしれないので、ウェイクフレーズの音声の長さを考慮することも可能であるし、もしくは、音声サンプルを整合する長さに伸張することによって、ウェイクフレーズの音声全体にわたって小さい音声セグメントの累積ベクトル距離を計算することも可能である。ウェイクフレーズの音声サンプル間に充分な差があることを確認した後（１１４）、距離が充分であれば、ユーザは認証される（１１５）。そうでなければ、認証は失敗し（１１６）、ＶＶＳは、対応する信号を、認証を要求するデバイスに送信する。

この方法を用いることで、詐称者によるユーザの音声の同じ録音は、システムを突破するために繰り返し使用することができない。

詐称者が正当なユーザの音声を録音したなりすまし攻撃を識別するためのさらなるセキュリティ特徴として、ＶＶＳはさらに、録音された音声からライブ音声を区別することが可能な音声検証モジュールを採用してもよい。特に、生きている人間から受信された音声（本明細書ではライブ音声と呼ぶ）と、録音装置から再生された音声（本明細書では再生された音声と呼ぶ）との間には、様々な音響差が存在する。検証モジュールは、ライブ音声と再生された音声との間のこれらの差を検出するための多種多様な技術のいずれかに従って動作してもよい。

一実施形態では、音声検証モジュールは、いわゆるポップノイズ（pop noise）の存在を検出してもよい。ポップノイズとは、人間の息がマイクロフォンに到達したときに生じる音声波形の歪みである。この同じ歪みの現象は、再生された音声では起こらない。ポップノイズを使用してライブ音声と再生された音声との間の差異を検出する方法は、例えば、シオト（Shioto）らによる「Voice Liveness Detection Algorithms Based on Pop Noise Caused by Human Breath for Automatic Speaker Verification」と題されたインタースピーチ（Interspeech）の２０１５年の刊行物に記載されており、この刊行物は、参照によりその全体が本明細書に組み込まれる。ポップノイズの有無を検出することによって、音声検証モジュールは、音声が生きているユーザからのライブ音声であるか、再生装置１０２からの再生された音声であるかを識別してもよい。音声検証モジュールは、さらなる実施形態では、他の技術に従って動作してもよい。

自動販売機シナリオ

図１２は、別のシナリオを示す。音声対応自動販売機１２１は、ジュリエットの発話を受信する。彼女は、「こんにちは、ビッグさん。私は、ジュリエットよ。」と言う。自動販売機は、ＶＶＳに接続している。ジュリエットのアイデンティティを検証する。次いで、自動販売機は、ジュリエットのＰＥＫＤに保存された特定の金融情報へのアクセスを取得する。自動販売機は、ジュリエットが購入を行うことを可能にする。

ビルのセキュリティシナリオ

図１３は、別のシナリオを示す。商業ビル用の音声駆動ロック／セキュリティシステムを考える。デイブがビルまで歩いていく。デイブは、ビルに入る許可を持たない詐称者である。デイブは、ジュリエットがそのビルで働いていることを知っている。デイブは「こんにちは、ビッグさん。私は、ジュリエットよ。」というフレーズを発話する。音声駆動ロック／セキュリティシステムは、ウェイクフレーズをＶＶＳに送信する。ＶＶＳは、ウェイクフレーズを保存されたフィンガープリントと照合し、これが一致していないことを認識する。ＶＶＳは、認証失敗の信号を送信する。デイブは、ビルへのアクセスを許可されない。今、ジュリエットがそのビルまで歩いていく。ジュリエットは、「こんにちは、ビッグさん。私は、ジュリエットよ。」というウェイクフレーズを発話する。ＶＶＳは、ジュリエットの音声を認識し、ジュリエットにそのビルへのアクセスを許可する。

エッジ処理

図１４は、別の例示的な構成を示す。ユーザ１４１は、既知のユーザのウェイクフレーズをテキストとしてローカルに保存するエッジデバイス１４２と音声で対話する。新しいユーザが登録されるか、または、ユーザがウェイクフレーズを変更するときはいつでも、システムは、エッジデバイス１４２を含む、ユーザが使用し得るすべてのデバイスに新しいウェイクフレーズを送信する。

通常動作中、それは音声をバッファに保存する。それはまた、スピーカーに依存しない継続的なＡＳＲと、文字に起こされた単語とウェイクフレーズのテキストとの比較とを実行する。話された単語と任意のユーザのウェイクフレーズとの間の一致を見つけると、エッジデバイスは、バッファリングされた音声と、ウェイクフレーズのテキストおよび対応する識別子のいずれかとを、インターネットなどのネットワーク１４３を介してＶＶＳサーバ１４４に送信する。ＶＶＳは、データベースからウェイクフレーズまたは識別子に対応するユーザの音声フィンガープリントを検索し、音声と、保存されたフィンガープリントとを比較する。ＶＶＳは、受諾応答または拒否応答をデバイスに送信する。デバイスは、認証に成功したことに対してドアのロックを解除する、または、認証に失敗したことに対してアラームを駆動するなど、応答を使用して、アプリケーション固有の機能を実行する。

別の例示的な構成では、エッジデバイスは、音声認識を行うＶＶＳに音声を継続的に送信する。この手法は、より高い精度を提供し、サーバベースのＡＳＲを継続的に改善する。それはまた、ウェイクフレーズの更新をデバイスに送信する必要性を回避する。

別の例示的な構成では、デバイスは、音声活動検出を実行し、音声を検出すると音声をＶＶＳに送信する。この手法は、継続的な音声ストリーミングで必要とされる可能性のある高いネットワーク帯域幅要件を回避する。

デバイスは、視覚信号、赤外線信号、超音波信号、またはＲＦＩＤ信号等の他のセンサの任意の組み合わせを使用して、場合によっては音声信号と組み合わせて、ユーザの存在を検出することができる。

データベース管理

あらゆる製品ベンダーが自身の仮想アシスタント（virtual assistant: ＶＡ）を設計し実装することは、ノウハウの非効率的な使用であり得る。ＶＡプラットフォームであって、サウンドハウンドによるハウンディファイ（Houndify）などは、インターネットに接続される多くの製品におけるフル機能のＶＡ能力のニーズを満たすために開発されてきた。それらは、おそらくプラットフォームサーバがＶＡを提供するという知識なしに、製品が、製品またはそのブランドとユーザとを関連付けるユーザインターフェースを提供することを可能にする。これらのサービスは、音声インターフェース、ユーザインターフェースの他のモード、または、これらのモードの組み合わせをサポートする。

ＶＡが、ユーザの過去のクエリの音声、これらのクエリのテキスト表記、ユーザのアドレス帳、ロケーション履歴、および、ユーザの仮想ブラックジャックゲームのスコアなどのＰＥＫＤ情報を使用するとき、ＶＡは、それらのユーザにとってはるかに有用である。いくつかのサーバベースのＶＡは、その情報を収集および保存し、ユーザ体験を向上させるためにそれを使用する。

しかしながら、いくつかのユーザは、ＶＡサーバから自身のＰＥＫＤを削除するか、または、自身のＰＥＫＤのコピーを取得することを望む。ユーザは、削除の要求またはＰＥＫＤのコピーの取得の要求を行ってもよい。ＶＡプラットフォームは情報を収集するが、ユーザは製品ベンダーに自身の要求を行う。製品ベンダーは、ユーザデータの少なくとも一部のコピーを削除または要求するために、対応する要求をＶＡプラットフォームに対し行う方法を必要とする。

図１５は、異なる目的に専用の複数のサーバを含むＶＡプラットフォーム１５１を示す。それは、インターネットなどのネットワーク１５から要求を受信する。許可を与えるプロキシ（認証プロキシ）１５２は許可を確認する。許可は、ＶＶＳまたは他の検証システムから与えられてもよい。この例示的なシステムでは、連絡先サーバ１５５は、ユーザのアドレス帳情報を保存し、テキストサーバ１５６は、ユーザの発話を書き表したものおよび文書を保存し、ゲームサーバ１５７は、ブラックジャックゲームおよび他のゲームのスコアを保存し、並列音声サーバのシステム１５８は、ユーザの発話の録音を保存する。多くのユーザの発話の録音を取り込む仮想アシスタントプラットフォームは、記憶装置を分散させて音声の録音を処理することが必要とされてもよい。記憶装置を分散させることは、データアクセスを分散させるという利益を有し、これは、帯域幅要件を制限し、ネットワーク内でトポロジー的にユーザのデータをそれらにより近づけることによって、待ち時間、したがって、システムの応答性を改善する。並列の音声サーバは、記憶装置のマップレデュースクラスタを使用する。これは、アパッチハドゥープ（Apache Hadoop）、または、クラウドサービス固有のプロトコルなどのオープンプロトコルを用いて実装されることができる。

そのようなＶＡプラットフォームは、削除および取得の要求を与えるＡＰＩを提供してもよい。認証プロキシインターフェースは、外部ネットワークから、削除および取得の要求と、データ形式のオプションの指示とを受信する。要求が許可される場合、認証プロキシは、それらの削除および取得の要求を適切なサーバに転送する。データ形式が指定されていない場合、認証プロキシは、要求をすべてのサーバに転送してもよい。このように、ＶＡプラットフォームは、すべてのサーバにわたって削除および取得の要求を実行するために、認証プロキシに分散型要求アーキテクチャを使用してもよい。

図１６は、仮想アシスタントプラットフォーム１６１の別の実装形態を示す。ネットワーク１５０からの削除および取得の要求は、認証プロキシ１５２へ向かう。それは許可を確認する。拒否された場合、認証プロキシはエラー信号で応答する。許可が確認された場合、認証プロキシは、ユーザデータの取得および削除の要求トピックを有するオープンソースカフカキューに要求を送信する。他のオープンソースまたは独自のキューイングシステムは、異なるシステムへの統合に適している。連絡先サーバ１６５、テキストサーバ１６６、ゲームサーバ１６７、および並列の音声マップレデュースクラスタ１６８のシステム内のサーバなど、ユーザデータを保存するサーバは全て、ユーザデータの取得および削除の要求トピックに、それら自体の固有のグループＩＤで加入しなければならない。認証プロキシは、カフカに加入している。削除および取得の要求を処理した後、各サーバは、確認レコードをカフカに投稿する。サーバがユーザデータを有する場合、サーバは、認証プロキシＡＰＩを介して、取得要求の結果としてそれを投稿する。認証プロキシは、削除および取得の要求の進行を追跡し続け、要求ステータスを報告するためのＡＰＩを提供する。

いくつかのサーバ、特に大量のデータの保存を扱うサーバは、アパッチハドゥープ等のフレームワークを介して通信するマップレデュースクラスタの分散アレイを使用してもよい。そのようなサーバは、認証プロキシを介した削除ＡＰＩ要求に応じて削除要求の分散を処理しなければならない。

認証プロキシＡＰＩは、要求者に、相互トランスポート層セキュリティ（Mutual Transport Layer Security: ｍＴＬＳ）などの相互認証プロトコルを要求してもよい。他の標準的なまたは独自の相互認証プロトコルは、異なるシステムに適している。

ボイラープレート

コンピュータ可読媒体

図１７Ａは、回転する磁気ディスクである、非一時的コンピュータ可読媒体１７１の一例を示す。データセンタは、通常、磁気ディスクを使用して、サーバプロセッサのための命令を含むデータおよびコードを保存する。非一時的コンピュータ可読媒体１７１は、１以上のコンピュータによって実行されると、コンピュータに本明細書で説明される方法のステップを実行させる命令を含むコードを保存する。回転する光ディスクおよび他の機械的に可動する記憶媒体が可能である。

図１７Ｂは、フラッシュランダムアクセスメモリ（ＲＡＭ）チップである非一時的コンピュータ可読媒体１７２の一例を示す。データセンタは、通常、フラッシュメモリを使用して、サーバプロセッサのためのデータおよびコードを保存する。モバイルデバイスは通常、システムオンチップデバイス内のプロセッサのためのデータおよびコードを保存するためにフラッシュメモリを使用する。非一時的コンピュータ可読媒体１７２は、１以上のコンピュータによって実行されると、コンピュータに本明細書で説明される方法のステップを実行させる命令を含むコードを保存する。リードまたははんだボールでパッケージ化された他の非可動記憶媒体も可能である。

システムオンチップ

図１８Ａは、プリント回路基板に表面実装はんだ付けするためのボールグリッドアレイを有するパッケージ化されたシステムオンチップデバイス１８０の底面を示す。さまざまなパッケージの形状およびサイズが、さまざまなチップ実装のために可能である。システムオンチップ（ＳｏＣ）デバイスは、本明細書で説明されるように、多くの組み込みシステムおよびＩｏＴデバイスの実施形態を制御する。

図１８Ｂは、システムオンチップ１８０のブロック図を示す。それは、コンピュータプロセッサ（ＣＰＵ）コア１８１のマルチコアクラスタと、グラフィックプロセッサ（ＧＰＵ）コア１８２のマルチコアクラスタとを備える。プロセッサは、ネットワークオンチップ１８３を介して、プログラム、および、データの揮発性記憶装置のためのオフチップダイナミックランダムアクセスメモリ（ＤＲＡＭ）インターフェース１８４と、フラッシュＲＡＭ非一時的コンピュータ可読媒体におけるコンピュータプログラムコードの不揮発性記憶装置のためのフラッシュインターフェース１８５とに接続する。ＳｏＣ１８０はまた、ＧＵＩを表示するためのディスプレイインターフェース１８６と、異なる周辺デバイスの必要に応じて、様々なＩ／Ｏインターフェースデバイスに接続するためのＩ／Ｏインターフェースモジュール１８７とを有する。Ｉ／Ｏインターフェースは、とりわけ、タッチスクリーンセンサ、測位受信機、マイクロフォン、スピーカー、Ｂｌｕｅｔｏｏｔｈ（登録商標）周辺機器、ならびに、キーボードおよびマウスなどのＵＳＢデバイスなどのセンサを可能にする。ＳｏＣ１８０はまた、ＷｉＦｉ、３Ｇ、４Ｇロングタームエボリューション（long-term evolution: ＬＴＥ）、５Ｇ、および他の無線インターフェース標準無線機、ならびに、イーサネット（登録商標）接続ハードウェア等の、有線または無線接続を通して、プロセッサがインターネットにアクセスすることを可能にするためのネットワークインターフェース１８８を備える。インターフェース１８４を介してＲＡＭデバイスに保存された命令を実行し、または、インターフェース１８５を介してフラッシュデバイスに保存された命令を実行することによって、ＣＰＵ１８１およびＧＰＵ１８２は、本明細書で説明される方法のステップを実行する。

サーバ

図１９Ａは、いくつかの実施形態によるラックマウント型サーバブレードマルチプロセッササーバシステム１９０を示す。サーバシステム１９０は、ソフトウェアを並列に実行する多数のネットワーク接続されたコンピュータプロセッサを含む。

図１９Ｂは、サーバシステム１９０のブロック図を示す。それは、コンピュータプロセッサ（ＣＰＵ）コア１９１のマルチコアクラスタと、グラフィックプロセッサ（ＧＰＵ）コア１９２のマルチコアクラスタとを備える。プロセッサは、ボードレベル相互接続（board-level interconnect）１９３を介して、プログラムコードおよびデータの保存のためのランダムアクセスメモリ（ＲＡＭ）デバイス１９４に接続する。サーバシステム１９０はまた、プロセッサがインターネットにアクセスすることを可能にするネットワークインターフェース１９８を備える。ＲＡＭデバイス１９４に保存された命令を実行することによって、ＣＰＵ１９１およびＧＰＵ１９２は、本明細書で説明される方法のステップを実行する。

特記事項

示され説明される例は、ある話し言葉を使用する。様々な実施形態は、他の言語または複数の言語の組み合わせに対しても同様に動作する。示され説明される例は、知識および能力を有するあるドメインを使用する。様々なシステムは、他のドメインまたは複数のドメインの組み合わせに対して同様に動作する。

いくつかのシステムは、イヤピースなどの表示画面を持たない、スクリーンレスである。いくつかのシステムは、自動販売機などのように、据え付けられている。いくつかのシステムは、自動車などのモバイルである。いくつかのシステムは、携帯電話などのポータブルである。いくつかのシステムは、人体に埋め込む用のものである。いくつかのシステムは、キーボードまたはタッチスクリーンなどの手動インターフェースを備える。

いくつかのシステムは、ＡＲＭまたはｘ８６アーキテクチャを有するものなどの汎用プログラマブルプロセッサ（ＣＰＵ）上でソフトウェアを実行することによって機能する。いくつかの電力感応システム、および、ニューラルネットワークアルゴリズムのためのもののような、特に高い性能を必要とするいくつかのシステムは、ハードウェアの最適化を使用する。いくつかのシステムは、シノプシスのＡＲＣプロセッサ、および、ケイデンスのＸｔｅｎｓａプロセッサなど、専用のシステムオンチップにおいて構成可能な命令セットを有する、アプリケーションをカスタマイズ可能なプロセッサを使用する。いくつかのシステムは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）に焼き付けられた専用のハードウェアブロックを使用する。いくつかのシステムは、グラフィック処理ユニット（ＧＰＵ）のアレイを使用する。いくつかのシステムは、より高い性能を与えるためにカスタマイズされたロジックを有する特定用途向け集積回路（ＡＳＩＣ）を使用する。

本明細書で説明され、特許請求される物理的機械のいくつかのシステムは、多数の変数においてプログラム可能であり、それらの組み合わせは、本質的に、無限多様な動作挙動を提供する。本明細書のいくつかのシステムは、多数のパラメータを提供するソフトウェアツールによって構成され、それらの組み合わせは、本質的に、無限多様な機械の実施形態を提供する。

ハードウェアブロック、カスタムプロセッサ命令、コプロセッサ、およびハードウェアアクセラレータは、特に高い性能、および、電力効率で、ニューラルネットワーク処理、または、ニューラルネットワーク処理アルゴリズムの一部を実行する。これにより、バッテリ駆動デバイスのバッテリ寿命が延長され、多くのクライアントデバイスに同時にサービスを提供するデータセンタにおける熱除去コストが低減される。

Claims

音声によってユーザを認証するための認証システムであって、前記認証システムは、
個人データサービスプロバイダを備え、
前記個人データサービスプロバイダは、個人データベースを含み、
前記個人データベースは、複数のユーザの個人データを含み、
前記個人データサービスプロバイダは、第１の商業システムおよび第２の商業システムと、１以上のネットワークを介して通信することができ、
前記第１の商業システムは、第１の音声対応デバイスに関連付けられ、前記第２の商業システムは、第２の音声対応デバイスに関連付けられ、
音声検証サーバは、前記第１の音声対応デバイスを使用して前記ユーザを認証した結果として、ユーザの個人データの少なくとも一部へのアクセスを前記第１の商業システムに許可することができ、
前記第１の商業システムおよび前記第２の商業システムの各々は、ＰＯＳ（Point of Sale）システムであり、
前記音声検証サーバは、前記第２の音声対応デバイスを使用して前記ユーザを認証した結果として、前記ユーザの個人データの少なくとも一部へのアクセスを前記第２の商業システムに許可することができる、認証システム。
前記ユーザの個人データの少なくとも一部へのアクセスを許可することは、前記第１の商業システムまたは前記第２の商業システムに、前記個人データサービスプロバイダへのアクセスを得ることを可能にするキーを与えることを含む、請求項１に記載の認証システム。
ユーザの個人データは、ユーザの金融情報を含む、請求項１または請求項２に記載のシステム。
ユーザの個人データは、前記個人データサービスプロバイダ内のメモリに保存される、請求項１または請求項２に記載の認証システム。
前記音声検証サーバによる認証は、機械学習された埋め込み空間における音声特徴ベクトルの計算を含む、請求項１または請求項２に記載の認証システム。
前記音声検証サーバによる認証は、前記ユーザに固有のウェイクフレーズを認識することを含む、請求項１または請求項２に記載の認証システム。
前記音声検証サーバによる認証は、前記ウェイクフレーズの認識の後、追加の単語を認識することをさらに含む、請求項６に記載の認証システム。
前記音声検証サーバによる認証は、フレーズに依存しない認証をさらに含む、請求項６に記載の認証システム。
前記音声検証サーバによる認証は、前記ユーザの以前の音声サンプルのフィンガープリントと前記ウェイクフレーズのフィンガープリントとを比較することを含む、請求項６に記載の認証システム。
前記音声検証サーバによる認証は、ポップノイズの存在の検出を含む、請求項１または請求項２に記載の認証システム。
前記認証システムは分散型である、請求項１～請求項１０のいずれか１項に記載の認証システム。
音声によってユーザを認証するための、コンピュータが実行する方法であって、前記方法は、
第１の商業システムに関連付けられた第１の音声対応デバイスから、ウェイクフレーズを含む第１の音声クエリを受信することと、
前記第１の音声クエリに基づいてユーザを認証することと、
複数のユーザの個人データを有する個人データベースを含む個人データサービスプロバイダに第１の認証メッセージを送信することと、を備え、前記第１の音声クエリに基づいて前記ユーザを認証することは、前記ウェイクフレーズに基づく認証と追加の認証とを含み、
第２の商業システムに関連付けられた第２の音声対応デバイスから、前記ウェイクフレーズを含む第２の音声クエリを受信することと、
前記第２の音声クエリに基づいて前記ユーザを認証することと、
前記個人データサービスプロバイダに第２の認証メッセージを送信することとを備え、前記第２の音声クエリに基づいて前記ユーザを認証することは、前記ウェイクフレーズに基づく認証と追加の認証とを含み、
前記第１の商業システムおよび前記第２の商業システムの各々は、ＰＯＳ（Point of Sale）システムであり、
前記第１の認証メッセージは、前記ユーザの個人データの少なくとも一部へのアクセスを前記第１の商業システムに許可し、前記第２の認証メッセージは、前記ユーザの個人データの少なくとも一部へのアクセスを前記第２の商業システムに許可する、方法。
前記追加の認証は、前記ユーザからの追加の単語による認証を含む、請求項１２に記載の方法。
前記追加の認証は、フレーズに依存しない認証を含む、請求項１２に記載の方法。
前記追加の認証は、前記ユーザの以前の音声サンプルのフィンガープリントと前記ウェイクフレーズのフィンガープリントとを比較することを含む、請求項１２に記載の方法。
前記追加の認証は、ポップノイズの検出を含む、請求項１２に記載の方法。
前記ユーザの個人データは、前記ユーザの金融情報を含む、請求項１２に記載の方法。
ユーザを認証することは、
機械学習された埋め込み空間における音声特徴ベクトルの計算と、
機械学習された埋め込み空間における前記音声特徴ベクトルと、データベース内のユーザ固有の音声特徴ベクトルとの比較とを含む、請求項１２～請求項１７のいずれか１項に記載の方法。
ユーザを認証することは、
機械学習された埋め込み空間における音声特徴ベクトルの計算と、
機械学習された埋め込み空間における前記音声特徴ベクトルと、データベース内のユーザ固有の音声特徴ベクトルとの比較とを含み、
前記ユーザ固有の音声特徴ベクトルは、前記ウェイクフレーズを有するユーザに対応する、請求項１２～請求項１８のいずれか１項に記載の方法。
プログラムであって、コンピュータで実行された場合に、請求項１２～請求項１９のいずれか１項に記載の前記方法を前記コンピュータに実施させる、プログラム。