JP2024510798A

JP2024510798A - ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証

Info

Publication number: JP2024510798A
Application number: JP2023558522A
Authority: JP
Inventors: ホイナツカ、ローザ; ペレケーノス、ジェイソン; ワン、クアン; モレノ、イグナシオロペス
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2021-03-24
Filing date: 2022-03-09
Publication date: 2024-03-11
Also published as: US20220310098A1; CN117378006A; EP4295517A2; WO2023158444A3; US11942094B2; WO2023158444A2; KR20230156145A

Abstract

話者検証方法（４００）は発話（１１９）に対応する音声データ（１２０）を受信する。所定ホットワードを特徴付ける音声データの第１部分（１２１）を処理してテキスト依存評価ベクトル（２１４）を生成する。１つまたは複数のテキスト依存信頼度スコア（２１５）を生成する。テキスト依存信頼度スコアの１つが閾値を満たす場合、動作は発話の話者を、閾値を満たすテキスト依存信頼度スコアに関連付けられた各々の登録ユーザとして識別する。話者検証を実行せずにアクションの実行を開始する。テキスト依存信頼度スコアがいずれも閾値を満たさない場合、動作は、クエリを特徴付ける音声データの第２部分（１２２）を処理してテキスト非依存評価ベクトル（２２４）を生成する。１つまたは複数のテキスト非依存信頼度スコア（２２５）を生成する。発話の話者の識別（アイデンティティ）が登録ユーザのいずれかを備えるか判定する。

Description

本開示は、ハイブリッド多言語テキスト依存およびテキスト非依存の話者検証に関する。

家庭や自動車などの音声対応環境（スピーチ＿イネーブルド＿エンバイロンメント）では、ユーザは、音声入力を使用することで、情報にアクセスしたり、さまざまな機能を制御したり、することができる。情報および／または機能は、所定のユーザ用にパーソナライズされる場合がある。そのため、音声対応環境に関連する話者のグループの中から、所定の話者を識別することが有利な場合がある。

話者検証（たとえば、音声認証）は、ユーザ装置（ユーザデバイス、ユーザ機器）のユーザがユーザ装置にアクセスするための、簡単な方法を提供する。話者検証（スピーカ＿ベリフィケーション）では、ユーザは、ユーザ装置にアクセスするべくパスコードを手動入力（たとえば、タイピング）することを必要にはせずに、発話を話すことによってユーザ装置のロックを解除するとともにユーザ装置にアクセスすることができる。

国際公開第２０２０／１１７６３９号

しかし、複数の異なる言語、方言、アクセント、などが存在するので、話者検証には一定の課題がある。

本開示の一態様は、データ処理ハードウェア上で実行されると、ユーザ装置によってキャプチャ済みの発話に対応する音声（オーディオ）データを受信する工程を含む動作をデータ処理に実行させる、話者検証のためのコンピュータ実装方法を提供する。発話は、実行するアクションを指定するクエリが続く所定ホットワードを備えている。動作はまた、テキスト依存話者検証（ＴＤ－ＳＶ）モデルを使用することで、所定ホットワードを特徴付ける音声データの第１部分を処理して、ホットワードの発話の音声特徴を表すテキスト依存評価ベクトルを生成する工程と、１つまたは複数のテキスト依存信頼度スコアを生成する工程と、を備えている。各テキスト依存信頼度スコアは、テキスト依存評価ベクトルが、１つまたは複数のテキスト依存参照ベクトルの各々の１つに一致する尤度を示している。各テキスト依存参照ベクトルは、ユーザ装置の１人または複数の異なる登録ユーザの各々の１人に関連付けられる。動作はさらに、１つまたは複数のテキスト依存信頼度スコアのいずれかが、信頼度閾値を満たすかどうかを判定する工程を備えている。１つまたは複数のテキスト依存信頼度スコアのいずれかが信頼度閾値を満たす場合、動作は、信頼度閾値を満たすテキスト依存信頼度スコアに対応するテキスト依存参照ベクトルに関連付けられる各々の登録ユーザとして発話の話者を識別する工程と、ホットワードに続くクエリを特徴付ける音声データの第２部分に対して話者検証を実行することなく、クエリによって指定済みのアクションの実行を開始する工程と、を備えている。１つまたは複数のテキスト依存信頼度スコアのいずれもが信頼度閾値を満たさない場合、動作は、テキスト非依存話者検証器に命令を提供する工程を備えている。命令は、テキスト非依存話者検証器によって受信されると、テキスト非依存話者検証器に、テキスト非依存話者検証（ＴＩ－ＳＶ）モデルを使用することで、クエリを特徴付ける音声データの第２部分を処理させることによって、テキスト非依存評価ベクトルを生成させる。動作はさらに、テキスト非依存評価ベクトルが１つまたは複数のテキスト非依存参照ベクトルの各々の１つに一致する尤度（可能性）を各々示す、１つまたは複数のテキスト非依存信頼度スコアを生成する工程を備えている。各テキスト非依存参照ベクトルは、ユーザ装置の１人または複数の異なる登録ユーザの各々の１人に関連付けられる。動作はまた、１つまたは複数のテキスト依存信頼度スコアおよび１つまたは複数のテキスト非依存信頼度スコアに基づき、発話を行なった話者の識別（アイデンティティ）がユーザ装置の１人または複数の異なる登録ユーザのいずれかを備えているかどうかを判定する工程を備えている。

本開示の実装は、以下のオプションの特徴のうちの１つまたは複数を含み得る。いくつかの実装では、ユーザ装置の１人または複数の異なる登録ユーザの各々は、個人リソースの異なる各々のセットにアクセスするためのパーミッションを有しており、クエリによって指定済みのアクションの実行は、発話の話者として識別済みの各々の登録ユーザに関連付けられた個人リソースの各々のセットへのアクセスを必要にする。一部の例では、データ処理ハードウェアはテキスト依存話者検証ＴＤ－ＳＶモデルを実行しており、ユーザ装置上に存在している。テキスト非依存話者検証器はテキスト非依存話者検証ＴＩ－ＳＶモデルを実行しており、ネットワークを介してユーザ装置に通信する分散コンピューティングシステム上に存在する。これらの例では、１つまたは複数のテキスト依存信頼度スコアのいずれもが信頼度閾値を満たさない場合、テキスト非依存話者検証器に命令を提供する工程は、命令および１つまたは複数のテキスト依存信頼度スコアを、ユーザ装置から分散コンピューティングシステムに送信する工程を備えている。

いくつかの実装では、データ処理ハードウェアは、ユーザ装置と、またはネットワークを介してユーザ装置に通信する分散コンピューティングシステムと、のうちの１つ上に存在する。ここで、データ処理ハードウェアは、テキスト依存話者検証ＴＤ－ＳＶモデルとテキスト非依存話者検証ＴＩ－ＳＶモデルとの両方を実行する。いくつかの実施例では、テキスト非依存話者検証ＴＩ－ＳＶモデルは、テキスト依存話者検証ＴＤ－ＳＶモデルよりも計算集約的である。いくつかの実施態様において、動作は、ホットワード検出モデルを使用することで、クエリに先行する音声データ内の所定ホットワードを検出する工程をさらに備えている。所定ホットワードを特徴付ける音声データの第１部分は、ホットワード検出モデルによって抽出される。

いくつかの例では、テキスト依存話者検証ＴＤ－ＳＶモデルおよびテキスト非依存話者検証ＴＩ－ＳＶモデルは、複数のトレーニングデータセットでトレーニングされる。各トレーニングデータセットは、異なる各々の言語または方言に関連付けられているだけでなく、異なる話者によって各々の言語または方言で話された対応するトレーニング発話を備えている。各対応するトレーニング発話は、所定ホットワードを特徴付けるテキスト依存部分と、所定ホットワードに続くクエリ文を特徴付けるテキスト非依存（独立）部分と、を備えている。ここで、テキスト依存話者検証ＴＤ－ＳＶモデルは、複数のトレーニングデータセットの各トレーニングデータセットにおける各対応するトレーニング用発話のテキスト依存部分上で、トレーニングされている。テキスト非依存話者検証ＴＩ－ＳＶモデルは、複数のトレーニングデータセットの各トレーニングデータセットにおける各対応するトレーニング用発話のテキスト非依存部分上で、トレーニングされる。これらの例では、トレーニングデータセットの少なくとも１つに関連付けられた各々の言語または方言で話された対応するトレーニング発話は、他のトレーニングデータセットの対応するトレーニング発話とは異なる所定ホットワードを発音する可能性がある。いくつかの追加的な例では、テキスト非依存話者検証ＴＩ－ＳＶモデルは、複数のトレーニングデータセットのうちの１つまたは複数における少なくとも１つの対応するトレーニング用発話のテキスト依存部分上で、トレーニングされる。さらに、または代替的に、トレーニング用発話のテキスト非依存部分によって特徴付けられるクエリ文は、可変の言語コンテンツを備えている。

いくつかの実装では、テキスト非依存評価ベクトルを生成するとき、テキスト非依存話者検証器は、テキスト非依存話者検証ＴＩ－ＳＶモデルを使用することで、所定ホットワードを特徴付ける音声データの第１部分と、クエリを特徴付ける音声データの第２部分と、の両方を処理する。追加的または代替的に、１つまたは複数のテキスト依存参照ベクトルの各々は、ユーザ装置の１人または複数の異なる登録ユーザの各々の１人によって発声された所定ホットワードの１つまたは複数の以前の発話を受信することに応答して、テキスト依存話者検証ＴＤ－ＳＶモデルによって生成される場合がある。１つまたは複数のテキスト非依存参照ベクトルの各々は、ユーザ装置の１人または複数の異なる登録ユーザの各々のうちの１人によって発声された１つまたは複数の以前の発話を受信することに応答して、テキスト非依存話者検証ＴＩ－ＳＶモデルによって生成される場合がある。

本開示の別の態様は、話者検証のためのシステムを提供する。このシステムは、データ処理ハードウェアと、データ処理ハードウェアに通信するメモリハードウェアと、を備えている。メモリハードウェアは、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実行させる命令を記憶する。動作は、ユーザ装置によって捕捉（キャプチャ）された発話に対応する音声（オーディオ）データを受信する工程を備えている。発話は、実行するアクションを指定するクエリが続く所定ホットワードを備えている。動作はまた、テキスト依存話者検証（ＴＤ－ＳＶ）モデルを使用することで、所定ホットワードを特徴付ける音声データの第１部分を処理して、ホットワードの発話の音声特徴を表すテキスト依存評価ベクトルを生成する工程と、１つまたは複数のテキスト依存信頼度スコアを生成する工程と、を備えている。各テキスト依存信頼度スコアは、テキスト依存評価ベクトルが１つまたは複数のテキスト依存参照ベクトルの各々の１つに一致する尤度を示している。各テキスト依存参照ベクトルは、ユーザ装置の１人または複数の異なる登録ユーザの各々の１人に関連付けられる。動作はさらに、１つまたは複数のテキスト依存信頼度スコアのいずれかが信頼度閾値を満たすかどうかを判定する工程を備えている。テキスト依存信頼度スコアのいずれかが信頼度閾値を満たす場合、動作は、信頼度閾値を満たすテキスト依存信頼度スコアに対応するテキスト依存参照ベクトルに関連付けられた各々の登録ユーザとして、発話の話者を識別する工程と、ホットワードに続くクエリを特徴付ける音声データの第２部分に対して話者検証を実行することなく、クエリによって指定済みのアクションの実行を開始する工程と、を備えている。１つまたは複数のテキスト依存信頼度スコアのいずれもが信頼度閾値を満たさない場合、動作は、テキスト非依存話者検証器に命令を提供する工程を備えている。命令は、テキスト非依存話者検証器によって受信されると、テキスト非依存話者検証器に、テキスト非依存話者検証（ＴＩ－ＳＶ）モデルを使用することで、クエリを特徴付ける音声データの第２部分を処理させることによって、テキスト非依存評価ベクトルを生成させる。動作はさらに、テキスト非依存評価ベクトルが１つまたは複数のテキスト非依存参照ベクトルの各々の１つに一致する尤度を各々示す、１つまたは複数のテキスト非依存信頼度スコアを生成する工程を備えている。各テキスト非依存参照ベクトルは、ユーザ装置の１人または複数の異なる登録ユーザの各々の１人に関連付けられる。動作はまた、１つまたは複数のテキスト依存信頼度スコアおよび１つまたは複数のテキスト非依存信頼度スコアに基づき、発話を行なった話者の識別（アイデンティティ）がユーザ装置の１人または複数の異なる登録ユーザのいずれかを備えているかどうかを判定する工程を備えている。

この態様は、以下のオプションの特徴のうちの１つまたは複数を備えていることができる。一部の実装では、ユーザ装置の１人または複数の異なる登録ユーザの各々は、個人リソースの異なる各々のセットにアクセスするための許可（パーミッション）を有している。クエリによって指定済みのアクションの実行には、発話の話者として識別済みの各々の登録ユーザに関連付けられた個人リソースの各々のセットへのアクセスが必要である。一部の例では、データ処理ハードウェアはテキスト依存話者検証ＴＤ－ＳＶモデルを実行しており、ユーザ装置上に存在している。テキスト非依存話者検証器はテキスト非依存話者検証ＴＩ－ＳＶモデルを実行しているとともに、ネットワークを介してユーザ装置に通信する分散コンピューティングシステム上に存在する。これらの例では、１つまたは複数のテキスト依存信頼度スコアのいずれもが信頼度閾値を満たさない場合、テキスト非依存話者検証器に命令を提供する工程は、命令と、１つまたは複数のテキスト依存信頼度スコアと、をユーザ装置から分散コンピューティングシステムに送信する工程を備えている。

いくつかの実装では、データ処理ハードウェアは、ユーザ装置と、ネットワークを介してユーザ装置に通信する分散コンピューティングシステムと、のいずれか上に存在する。ここで、データ処理ハードウェアは、テキスト依存話者検証ＴＤ－ＳＶモデルとテキスト非依存話者検証ＴＩ－ＳＶモデルとの両方を実行する。いくつかの実施例では、テキスト非依存話者検証ＴＩ－ＳＶモデルは、テキスト依存話者検証ＴＤ－ＳＶモデルよりも計算集約的である。いくつかの実施態様において、動作は、ホットワード検出モデルを使用することで、クエリに先行する音声データ内の所定ホットワードを検出する工程をさらに備えている。所定ホットワードを特徴付ける音声データの第１部分は、ホットワード検出モデルによって抽出される。

いくつかの例では、テキスト依存話者検証ＴＤ－ＳＶモデルおよびテキスト非依存話者検証ＴＩ－ＳＶモデルは、複数のトレーニングデータセットでトレーニングされる。各トレーニングデータセットは、異なる各々の言語または方言に関連付けられているとともに、異なる話者によって各々の言語または方言で話された対応するトレーニング発話を備えている。各対応するトレーニング発話は、所定ホットワードを特徴付けるテキスト依存部分と、所定ホットワードに続くクエリ文を特徴付けるテキスト非依存部分と、を備えている。ここで、テキスト依存話者検証ＴＤ－ＳＶモデルは、複数のトレーニングデータセットの各トレーニングデータセットにおける各対応するトレーニング発話のテキスト依存部分上でトレーニングされている。テキスト非依存話者検証ＴＩ－ＳＶモデルは、複数のトレーニングデータセットの各トレーニングデータセットにおける各対応するトレーニング用発話のテキスト非依存部分上でトレーニングされる。これらの例では、トレーニングデータセットの少なくとも１つに関連付けられた各々の言語または方言で話された対応するトレーニング発話は、他のトレーニングデータセットの対応するトレーニング発話とは異なる所定ホットワードを発音する可能性がある。いくつかの追加的な例では、テキスト非依存話者検証ＴＩ－ＳＶモデルは、複数のトレーニングデータセットのうちの１つまたは複数における少なくとも１つの対応するトレーニング用発話のテキスト依存部分上でトレーニングされる。さらにまたは代替的に、トレーニング用発話のテキスト非依存部分によって特徴付けられるクエリ文は、可変の言語コンテンツを備えている。

いくつかの実装では、テキスト非依存評価ベクトルを生成するとき、テキスト非依存話者（スピーカ）検証器は、テキスト非依存話者検証ＴＩ－ＳＶモデルを使用することで、所定ホットワードを特徴付ける音声データの第１部分と、クエリを特徴付ける音声データの第２部分と、の両方を処理する。追加的または代替的に、１つまたは複数のテキスト依存参照ベクトルの各々は、ユーザ装置の１人または複数の異なる登録ユーザの各々の１人によって発声された所定ホットワードの１つまたは複数の以前の発話を受信することに応答して、テキスト依存話者検証ＴＤ－ＳＶモデルによって生成される。１つまたは複数のテキスト非依存参照ベクトルの各々は、ユーザ装置の１人または複数の異なる登録ユーザのうちの各々の１人によって発声された１つまたは複数の以前の発話を受信することに応答して、テキスト非依存話者検証ＴＩ－ＳＶモデルによって生成される場合がある。

本開示の１つまたは複数の実施態様の詳細は、添付の図面および以下の説明に記載されている。他の態様、特徴、および利点、は説明および図面ならびに特許請求の範囲から明らかになるであろう。

多言語話者検証システムを有している音声環境の一例を示す概略図。図１の多言語話者検証システムの概略図。図１の多言語話者検証システムをトレーニングするための、トレーニング処理の一例を示す概略図。話者検証システムを用いて話者の識別を検証する、方法の動作の配置例を示すフローチャート。本明細書で説明するシステムおよび方法を実施するべく使用され得る、例示的なコンピューティング装置の概略図。

様々な図面における同様の参照符号は、同様の要素を示す。
家庭、自動車、職場、学校、などの音声対応環境では、ユーザがクエリ（問い合わせ）やコマンドを話すと、デジタルアシスタントが問い合わせに答えたり、コマンドを実行させたり、することができる。このような音声対応環境は、環境の様々な部屋や領域に分散された、接続されたマイクデバイス同士のネットワークを使用して実装することができる。マイク同士のネットワークを通じて、ユーザは、目の前にコンピュータや他のインタフェースがなくても、話し言葉でデジタルアシスタントに問い合わせる（クエリを送る）ことができる。場合によっては、音声対応環境は、複数の登録ユーザ（例えば、世帯に住む人々）に関連付けられる。このような例は、スマートフォン、スマートスピーカ、スマートディスプレイ、タブレットデバイス、スマートテレビ、スマート家電、車両インフォテインメントシステム、など単一のデバイスが複数のユーザによって共有される場合に適用され得る。ここで、音声対応環境は、音声対応の家庭、オフィス、または自動車、において例えば２人から６人といった限られた人数のユーザによって使用される場合がある。そのため、クエリを発声する特定のユーザの識別（アイデンティティ、身元）を決定することが望ましい。特定の話者／ユーザの識別（アイデンティティ）を決定する処理は、話者検証、話者認識、話者識別、または音声認識、と呼ばれることがある。

話者検証を使用すると、マルチユーザ環境において、ユーザが特定のユーザに代わって動作するクエリを発行したり、パーソナライズされた応答をトリガーしたり、することができる。話者検証（たとえば、音声認証）は、ユーザ装置のユーザがユーザ装置にアクセスするための、簡単な方法を提供する。話者検証では、ユーザは、ユーザ装置にアクセスするべくパスコードを手動で入力（たとえば、タイピング）する必要がないので、発話を話すことでユーザ装置のロックを解除するとともにユーザ装置にアクセスすることができる。ただし、複数の異なる言語、方言、アクセント、などが存在するので、話者検証には一定の課題がある。

いくつかのシナリオでは、ユーザは、ユーザの個人情報に関連する、および／またはユーザに関連する個人リソースのセットからのリソースへのアクセスを要求する、クエリ（問い合わせ）をデジタルアシスタントに行なう。例えば、特定のユーザ（例えば、デジタルアシスタントに登録済みのユーザ）は、デジタルアシスタントに「マットとのミーティングはいつですか」と尋ねたり、デジタルアシスタントに「私の音楽プレイリストを再生してください」と問い合わせたりする。ここで、ユーザは、各々が各々の個人リソースセット（例えば、カレンダー、音楽プレーヤ、電子メール、メッセージング、コンタクトリスト、など）にアクセスする許可を得ている一方で、他の登録ユーザの個人リソースにはアクセスすることを制限されている、１つまたは複数の複数の登録ユーザのうちの１人であってもよい。例えば、ジョンとメグの両方がデジタルアシスタントの登録ユーザである場合、デジタルアシスタントは、ジョンとメグのどちらが「マットとの私のミーティングはいつですか」という発話をしたかを判別するとともに、適切な登録ユーザのカレンダーにアクセスすることで、マットとのミーティングがいつ予定されているかを判定するだけでなく、マットとの予定済みのミーティングの詳細を応答する必要がある。同様に、デジタルアシスタントは、ジョンとメグが固有の音楽プレイリストを持っていることから、音楽プレーヤにアクセスするとともに最終的に適切な音楽プレイリストからのトラックを音声出力するべく、ジョンとメグのどちらが「私の音楽プレイリストを再生して」という発話をしたかを判別する必要がある。

マルチユーザの音声対応環境で、どのユーザが話しているかを判定するべく、音声対応システムには話者検証システム（たとえば、話者識別システムまたは音声認証システム）が含まれる場合がある。話者検証システムでは、２種類のモデルを使用して、話者を検証することができる。発話のうちのホットワード（キーワード、ウェイクワード、トリガーフレーズ、など）部分については、システムは１つまたは複数のテキスト依存モデルを使用することができる。一方、一般的にクエリを特徴付ける発話のうちの残りの部分については、システムは１つまたは複数のテキスト非依存モデルを使用することができる。これら２種類のモデルを組み合わせることで、話者検証の検証精度を、特に話者検証システムの初期使用時において、向上させることができる。

発話中の１つまたは複数の用語の特定のホットワード（例えば、「ヘイ、グーグル」または「オーケー、グーグル」）が話されることによって、ユーザ装置上で実行されるデジタルアシスタントは、特定のホットワードに続く発話で話されたクエリを処理（例えば、自動音声認識（ＡＳＲ）を通じて）および実行するようにトリガー／起動される場合がある。ユーザ装置上で実行されるホットワード検出器は、ユーザ装置によってキャプチャ済みのストリーミングオーディオ内の特定のホットワードの存在を検出するとともに、ユーザ装置がスリープ状態からウェイクアップして発話のクエリ部分を特徴付ける後続の音声データに対する処理（たとえば、自動音声認識ＡＳＲ）を開始するようにトリガーすることができる。ホットワード検出器は、ホットワードを特徴付ける音声データの第１部分を抽出することができ、これはテキスト依存話者検証を実行するための基礎として使用することができる。音声データの最初の部分は、約５００ミリ秒（ｍｓ）の音声データの固定長音声セグメントを備えていることがある。

一般に、発話のホットワードを特徴付ける音声データの第１部分から話者の識別（アイデンティティ）を確認するためのテキスト依存モデルは、音声対応装置上で実行される。一方、ホットワードに続くクエリを特徴付ける音声データの第２部分から話者を識別するためのテキスト非依存モデルは、音声対応装置に通信するリモートサーバ上で実行される。テキスト依存モデルは、各々のテキスト依存話者ベクトルを出力することができる。このテキスト依存話者ベクトルは、ユーザ装置の１人または複数の異なる登録ユーザに各々関連付けられた１つまたは複数の参照ベクトルとで比較されることで、発話を行なった話者が特定の登録ユーザに対応する第１尤度に対応する第１信頼度スコアを決定することができる。テキスト非依存モデルはまた、各々のテキスト非依存話者ベクトルを出力することができる。このテキスト非依存話者ベクトルは、１人または複数の異なる登録ユーザに各々関連付けられた１つまたは複数の参照ベクトルとで比較されることで、発話を話した話者が特定の登録ユーザに対応する第２尤度に対応する、第２信頼度スコアを決定することができる。第１および第２信頼度スコアを組み合わせることで、最終的に、発話を行なった話者が特定の登録ユーザに対応するかどうかを判定することができる。

注目すべきことに、話者検証システムにおいて、複数の異なる言語および方言にまたがる広範なユーザを対象として、これらのテキスト非依存モデルおよびテキスト依存モデルを大規模にトレーニングすることには課題がある。具体的には、各言語および方言のモデルを個別にトレーニングするための音声データのトレーニングサンプルを入手することは、困難であり時間がかかる。低リソース言語では、音声データの十分なトレーニングサンプルが少ないので、困難な課題がある。さらに、言語ごとにテキスト非依存モデルとテキスト依存モデルとを個別に使用する場合、運用中のモデルを維持および更新するべく多大な人的および計算的労力が必要になるので、これまでサポートされていなかった新しい言語用の新しいモデルをトレーニングする必要がある。例えば、追加される新しい言語に対して新しいテキスト依存モデルとテキスト非依存モデルをトレーニングするべく、対象言語について話者ラベル付きの音声データのトレーニングサンプルが利用可能でなければならない。

複数の異なる言語にわたる複数の話者検証システムの構築およびサポートに関する課題を軽減するべく、本明細書の実装は、異なる言語および方言でトレーニング済みのハイブリッド多言語テキスト依存話者検証モデルおよびテキスト非依存話者検証モデルを有している、多言語話者検証システムに向けられている。テキスト依存話者検証モデルおよびテキスト非依存話者検証モデルの各々を、複数の言語および方言でトレーニングすることによって、多言語話者検証システムは、トレーニングに使用されていない未見の言語に汎化することができるだけでなく、トレーニングに使用された高リソース言語および低リソース言語の両方で話者検証性能を維持することができる。本明細書では、多言語テキスト依存話者検証モデルおよびテキスト非依存話者検証モデルは各々、異なる言語または方言を話す話者同士の識別（アイデンティティ）を正確に検証するべく使用できる、単一の各々のモデルを指す。つまり、テキスト依存話者検証モデルもテキスト非依存話者検証モデルも、特定の単一言語または方言による発話に依存または限定されない。その結果、異なる言語、方言、および／またはアクセント、に対して異なるモデルを使用するのではなく、テキスト依存話者検証モデルおよびテキスト非依存話者検証モデルの各々に対して、各々の単一のモデルをトレーニングすることができる。

テキスト依存型話者検証モデルとテキスト非依存型話者検証モデルの組み合わせを利用することで、話者検証システムの話者検証性能／精度が最適化される一方で、テキスト非依存型話者検証モデルを採用すると計算コストが増加する。すなわち、テキスト依存話者検証モデルは、一般的にユーザ装置上で実行される軽量モデルである。一方、テキスト非依存話者検証モデルは、テキスト依存話者検証モデルよりも計算集約的であるとともに、より大きなメモリフットプリントを必要にする。よって、テキスト非依存話者検証モデル、はリモートサーバ上における実行に適している。テキスト非依存話者検証モデルを実行することで発生する計算コストの増加に加えて、クエリを実行するための待ち時間も、テキスト依存話者検証モデルとテキスト非依存話者検証モデルの両方による計算の実行に必要な時間に比例して増加する。全体的な計算負担を軽減するだけでなく、なおかつ話者検証システムの最適な話者検証性能／精度を維持するべく、本明細書の実装は、テキスト依存話者検証に関連するテキスト依存信頼度スコアが信頼度閾値を満たさない場合にのみ、テキスト非依存話者検証モデルにテキスト非依存話者検証を実行させる話者検証トリアージ段階をさらに指向する。そうではない場合、テキスト依存話者検証ＴＤ－ＳＶモデルによって生成されたテキスト依存評価ベクトルが各々のテキスト依存参照ベクトルに一致する尤度（可能性）を示すテキスト依存信頼度スコアが信頼度閾値を満たすとき、トリアージシステムは、テキスト非依存話者検証モデルがテキスト非依存話者検証を実行する必要性を回避することを、話者検証システムに許可することができる。

図１を参照すると、いくつかの実装では、音声対応環境における例示的なシステム１００は、１人または複数のユーザ１０に関連付けられているユーザ装置（ユーザデバイス、ユーザ機器）１０２を備えている。ユーザ装置１０２は、ネットワーク１０４を介してリモートシステム１１１に通信する。ユーザ装置１０２は、携帯電話（移動電話）、コンピュータ（ラップトップまたはデスクトップ）、タブレット、スマートスピーカ／ディスプレイ、スマート家電、スマートヘッドフォン、ウェアラブル、車両インフォテインメントシステム、などのコンピューティング機器に対応することができるとともに、データ処理ハードウェア１０３およびメモリハードウェア１０７を備えている。ユーザ装置１０２は、各々のユーザ１０からの発話を捕捉（キャプチャ）するための１つまたは複数のマイク１０６を備えているか、またはそれらマイク１０６に通信している。リモートシステム１１１は、単一のコンピュータであっても、複数のコンピュータであっても、またはスケーラブル／弾性コンピューティングリソース１１３（例えば、データ処理ハードウェア）および／またはストレージリソース１１５（例えば、メモリハードウェア）を有している分散システム（例えば、クラウド環境）であってもよい。

ユーザ装置１０２は、ストリーミングオーディオ１１８に対して意味解析または音声認識処理を実行することなく、ストリーミングオーディオ１１８内のホットワードの存在を検出するように構成された、ホットワード検出器１１０（ホットワード検出モデルとも呼ばれる）を備えている。ユーザ装置１０２は、ホットワード検出器１１０の一部として、または発話１１９から音声データ１２０を抽出するための別個の構成要素として実装される、音響特徴抽出器（図示せず）を備えていることができる。例えば、音響特徴抽出器は、ユーザ１０によって発声された発話１１９に対応するユーザ装置１０２の１つまたは複数のマイク１０６によって捕捉されたストリーミングオーディオ１１８を受信するとともに、音声データ１２０を抽出することができる。音声データ１２０は、音声信号のウィンドウにわたって計算されたメル周波数セプストラム係数（ＭＦＣＣ）またはフィルタバンクエネルギー、などの音響特徴を備えていることができる。図示の例では、ユーザ１０によって発声された発話１１９は、「オーケー、グーグル、私の音楽プレイリストを再生して」を備えている。

ホットワード検出器１１０は、音声データ１２０を受信して、発話１１９がユーザ１０によって発声された特定のホットワード（例えば、オーケー、グーグル）を備えているかどうかを判定することができる。すなわち、ホットワード検出器１１０は、音声データ１２０内のホットワード（例えば、オーケー、グーグル）またはホットワードの１つまたは複数の変形（例えば、ヘイ、グーグル）の存在を検出して、ユーザ装置１０２をスリープ状態または休止状態からウェイクアップさせ、自動音声認識（ＡＳＲ）システム１８０をトリガーして、ホットワードおよび／またはホットワードに続く１つまたは複数の他の用語、例えば、ホットワードに続き、実行するアクションを指定した音声クエリについて音声認識を実行するようにトレーニングされてもよい。図示の例では、ストリーミングオーディオでキャプチャ済みの発話１１９のホットワードに続くクエリは、デジタルアシスタントが特定のユーザ（例えば、ジョン）１０に関連付けられた音楽プレイリストにアクセスしており、スピーカからの可聴出力のためにユーザ装置１０（および／または１つまたは複数の指定済みのオーディオ出力デバイス）が再生するためのジョンの音楽プレイリストからのオーディオトラックを備えている応答１６０を提供するためのアクションを指定する「Ｐｌａｙｍｙｍｕｓｉｃｐｌａｙｌｉｓｔ」を備えている。ホットワードは、音声対応ユーザ装置１０２に向けられた音以外の音を拾う可能性がある「常時オン」のシステムにとって有用である。例えば、ホットワードの使用は、所定の発話１１９が、環境に存在する別の個人に向けられた発話または背景の発話とは対照的に、デバイス１０２に向けられた発話である場合、デバイス１０２が識別するのに役立つ可能性がある。そうすることで、デバイス１０２は、ホットワードを含まない音または発話に対して、計算コストのかかる処理（音声認識や意味解釈など）をトリガーすることを避けることができる。いくつかの例では、ホットワード検出器１１０は、複数の異なる言語または方言でトレーニング済みの多言語ホットワード検出器１１０である。

システム１００は、音声データ１２０を処理することによって、発話１１９を話しているユーザ１０の識別（アイデンティティ）を決定するように構成された多言語話者検証システム２００を備えている。多言語話者検証システム２００は、ユーザが認可されたユーザとして識別済みの場合にのみクエリが実行される（例えば、クエリによって指定済みのアクションが実行される）ように、識別済みのユーザ１０が認可されたユーザであるかどうかを判定することができる。有利なことに、多言語話者検証システム２００は、ユーザがユーザ装置１０２にアクセスするべくパスコードを手動で入力（たとえば、タイピングを介して）または発声するか、または何らかの他の検証手段を提供する（たとえば、チャレンジ質問に答える、生体認証データを提供する、などする）ことをユーザに要求することなく、発話を話すことによってユーザ装置１０２のロックを解除してアクセスすることを可能にする。

いくつかの例では、システム１００は、複数の異なるユーザ１０、１０ａ～１０ｎ（図２）が各々ユーザ装置１０２に登録されており、そのユーザに関連付けられた個人リソース（例えば、カレンダー、音楽プレーヤ、電子メール、メッセージング、連絡先リスト、など）の各々のセットにアクセスする許可を有している、マルチユーザ、音声対応環境で動作する。登録されたユーザ１０は、他の登録されたユーザに関連付けられた個人リソースの各々のセットからの個人リソースへのアクセスを制限される。各登録ユーザ１０は、そのユーザに関連付けられた個人リソースの各々のセットにリンクする各々のユーザプロファイル、およびそのユーザ１０に関連付けられた他の関連情報（例えば、ユーザ指定のプリファレンス設定）を有していることができる。したがって、多言語話者検証システム２００を使用することで、マルチユーザの音声対応環境１００においてどのユーザが発話１１９を話しているかを判定することができる。例えば、図示の例では、ジョンとメグの両方が、ユーザ装置１０２（またはユーザ装置上で実行されるデジタルアシスタントインタフェース）の登録ユーザ１０である可能性があり、デジタルアシスタントは、メグとジョンが各々固有の音楽プレイリストを持っている可能性があるので、音楽プレーヤにアクセスして、最終的に適切な音楽プレイリストからのトラックを音声出力するべく、ジョンとメグのどちらが発話１１９「オーケー、グーグル、私の音楽プレイリストを再生して」を話したかを判別する必要がある。ここで、多言語話者検証システム２００は、発話１１９に対応する音声データ１２０の１つまたは複数の部分１２１、１２２を処理して、ジョンが発話１１９の話者であることを特定する。

引き続き図１を参照すると、ホットワード検出器１１０が音声データ１２０内のホットワード（例えば、オーケー、グーグル）の存在を検出した後、多言語話者検証システム２００のテキスト依存（ＴＤ）検証器２１０は、ホットワード検出器１１０によって検出されたホットワードを特徴付ける音声データ１２０の第１部分１２１を受信する。ホットワード検出器１１０は、音声データ１２０から、音声データ１２０の第１部分１２１に対応する音声セグメントを抽出することができる。いくつかの例では、音声データ１２０の第１部分１２１は、ホットワード検出器が検出するようにトレーニングされており、テキスト依存ＴＤ検証器２１０が話者検証を実行するようにトレーニングされた、話されたホットワードまたは他の用語／フレーズの音声特徴を備えているのに十分な長さの固定長音声セグメントを備えている。テキスト依存ＴＤ検証器２１０は、テキスト依存話者検証（ＴＤ－ＳＶ）モデル２１２（図２）を使用することで、音声データ１２０の第１部分１２１を処理しており、音声データ１２０の第１部分１２１によって特徴付けられるホットワードが、ユーザ装置１０２の１人または複数の異なる登録ユーザ１０の各々の１つによって発声された尤度を示す１つまたは複数のテキスト依存（ＴＤ）信頼度スコア２１５を各々出力するように構成される。注目すべきことに、発話で話されたときの所定ホットワードは、ユーザ１０が後続の音声クエリを処理するべくユーザ装置１０２を呼び出しているかどうかを判定する工程と、発話を行なったユーザ１０の識別（アイデンティティ）を判定する工程との２つの目的を果たす。テキスト依存（ＴＤ）検証器２１０は、ユーザ装置１０２上で実行するように構成される。さらに、以下でさらに詳細に説明するように、テキスト依存話者検証（ＴＤ－ＳＶ）モデル２１２は、ユーザ装置上における保存および実行に適した軽量モデルを備えている。

話者検証精度を高めるべく、多言語話者検証システム２００は、発話１１９を話したユーザ１０の識別（アイデンティティ）を検証するべく、テキスト非依存（ＴＩ）検証器２２０を採用することもできる。テキスト非依存ＴＩ検証器２２０は、テキスト非依存話者検証（ＴＩ－ＳＶ）モデル２２２（図２）を使用することで、ホットワードに続くクエリを特徴付ける音声データ１２０の第２部分１２２を処理しており、音声データ１２０の第２部分１２２によって特徴付けられるクエリが、ユーザ装置１０２の１人または複数の異なる登録ユーザ１０の各々の１つによって発声された尤度を示す１つまたは複数のテキスト非依存（ＴＩ）信頼度スコア２２５を各々出力するように構成される場合がある。図示の例では、音声データ１２０の第２部分１２２によって特徴付けられるクエリは、「私の音楽プレイリストを再生して」（プレイ＿マイ＿ミュージック＿プレイリスト）を備えている。いくつかの実施例では、テキスト非依存話者検証（ＴＩ－ＳＶ）モデル２２２は、１つまたは複数のテキスト非依存ＴＩ信頼度スコア２２５が音声データ１２０の第１および第２部分１２１、１２２の両方に基づくように、音声データ１２０の第１部分１２１を追加的に処理する。一部の実装では、テキスト非依存（ＴＩ）検証器２２０は、テキスト依存ＴＤ検証器２１０から出力された１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５を受信しており、１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５および１つまたは複数のテキスト非依存ＴＩ信頼度スコア２２５に基づき、発話１１９を発声した話者の識別（アイデンティティ）が、ユーザ装置１０２の１人または複数の異なる登録済みユーザ１０のいずれかを備えているかどうかを判定する。例えば、テキスト非依存ＴＩ検証器２２０は、発話１１９の話者を登録ユーザ１０ａジョンとして識別することができる。

テキスト非依存ＴＩ検証器２２０は、テキスト依存ＴＤ検証器２１０よりも計算集約的であり、したがって、テキスト非依存ＴＩ検証器２２０は、テキスト依存ＴＤ検証器２１０よりも実行に計算コストがかかる。さらに、テキスト非依存ＴＩ検証器２２０は、テキスト依存ＴＤ検証器２１０よりもはるかに大きなメモリフットプリントを必要にする。そのため、テキスト非依存ＴＩ検証器２２０は、リモートシステム１１１上における実行によって適している。ただし、テキスト非依存ＴＩ検証器２２０は、他の実装ではユーザ装置１０２上で実行してもよい。

テキスト依存ＴＤ検証器２１０とテキスト非依存ＴＩ検証器２２０を組み合わせることで、話者を検証／識別する精度が向上する一方で、テキスト非依存ＴＩ検証器２２０で話者検証を実行することで発生する計算コストの増加によるトレードオフがある。テキスト非依存ＴＩ検証器２２０を実行することで発生する計算コストの増加に加えて、クエリを実行するための待ち時間も、音声データ１２０の長い継続時間に対してテキスト非依存ＴＩ検証器２２０が追加の計算を実行するのに必要な時間に比例して増加する。多言語話者検証システム２００の話者検証性能／精度を犠牲にすることなく、全体的な計算負担を軽減しており、待ち時間を短縮するべく、多言語話者検証システム２００は、テキスト依存ＴＤ検証器２１０から出力された１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５のいずれもが信頼度閾値を満たさない場合にのみ、多言語話者検証システム２００がテキスト非依存ＴＩ検証器２２０を呼び出すことを可能にする中間話者検証トリアージ段階２０５を備えている。すなわち、話者検証ＳＶトリアージ段階２０５が、テキスト依存ＴＤ検証器２１０から出力されたテキスト依存ＴＤ信頼度スコア２１５が信頼度閾値を満たす（ＹＥＳ）と判定するシナリオでは、多言語話者検証システム２００は、テキスト非依存ＴＩ検証器２２０における話者検証をバイパスしており、自動音声認識ＡＳＲシステム１８０に、発話１１９の話者を、信頼度閾値を満たした発話ホットワードについてのテキスト依存ＴＤ信頼度スコア２１５に関連付けられた各々の登録ユーザ１０として識別する話者検証ＳＶ確認２０８を提供することができる。話者検証ＳＶ確認２０８は、自動音声認識ＡＳＲシステム１８０によって受信されると、テキスト非依存ＴＩ検証器２２０がホットワードに続くクエリを特徴付ける音声データ１２０の第２部分１２２に対して話者検証を実行することを必要にせずに、クエリによって指定済みのアクションの実行を開始するように自動音声認識ＡＳＲシステム１８０に指示することができる。図示の例では、自動音声認識ＡＳＲシステム１８０は、クエリを特徴付ける音声データ１２０の第２部分１２２（およびオプションとして、第２部分１２２に加えて音声データ１２０の第１部分１２１）に対して音声認識を実行するように構成された自動音声認識ＡＳＲモデル１８２を備えている。

自動音声認識ＡＳＲシステム１８０は、自動音声認識ＡＳＲモデル１８２によって出力された音声認識結果に対してクエリの解釈を実行するように構成された自然言語理解（ＮＬＵ）モジュール１８４も備えている。一般に、自然言語理解ＮＬＵモジュール１８４は、クエリによって指定済みの実行すべきアクションを識別するべく、音声認識結果に対して意味解析を実行することができる。図示の例では、自然言語理解ＮＬＵモジュール１８４は、クエリ「Ｐｌａｙｍｙｍｕｓｉｃｐｌａｙｌｉｓｔ」によって指定済みのアクションの実行には、ユーザ装置１０２の各々の登録ユーザ１０に関連付けられた個人リソースの各々のセットへのアクセスが必要であると判定することができる。したがって、自然言語理解ＮＬＵモジュール１８４は、クエリによって指定済みのアクションには、アクションを実行するべく必要なパラメータ、すなわちユーザのＩＤが欠けていると判定する。したがって、自然言語理解ＮＬＵモジュール１８４は、発話１１９の発話者として特定の登録ユーザ（例えば、Ｊｏｈｎ）１０ａを識別するＳＶ確認２０８を使用しており、したがって、クエリによって指定済みのアクションを実行する出力命令１８５を提供することによって、クエリの履行を開始する。図示の例では、出力命令１８５は、登録されたユーザＪｏｈｎの音楽プレイリストからの音楽トラックをストリーミングするように音楽ストリーミングサービスに指示することができる。デジタルアシスタントインタフェースは、ユーザ装置１０２および／またはユーザ装置１０２に通信している１つまたは複数の他の機器からの可聴出力用に、音楽トラックを備えている問い合わせに対する応答１６０を提供してもよい。

テキスト依存ＴＤ信頼度スコア２１５が信頼度閾値を満たしたので、自然言語理解ＮＬＵモジュール１８４は、テキスト非依存ＴＩ検証器２２０が登録ユーザを識別するべく追加の計算を実行するのを待つことなく、テキスト依存ＴＤ検証器２１０によって決定された登録ユーザの識別（アイデンティティ）に依存することができたので、自然言語理解ＮＬＵモジュール１８４は、クエリの履行を迅速化することができた。

話者検証ＳＶトリアージ段階２０５が、テキスト依存ＴＤ検証器２１０から出力された１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５のいずれもが信頼度閾値を満たさないと判定するシナリオでは、話者検証ＳＶトリアージ段階２０５は、１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５をテキスト非依存ＴＩ検証器２２０に渡しており、発話１１９中のホットワードに続くクエリを特徴付ける音声データ１２０の少なくとも第２部分１２２に対して話者検証を実行するようにテキスト非依存ＴＩ検証器２２０に指示することができる。テキスト非依存ＴＩ検証部２２０は、音声データ１２０の第２部分１２２を処理して、クエリがユーザ装置１０２の１人または複数の異なる登録ユーザ１０の各々の１つによって発声された可能性を各々示す１つまたは複数のテキスト非依存ＴＩ信頼度スコア２２５を生成することによって、話者検証を実行することができる。いくつかの実装では、テキスト非依存ＴＩ検証器２２０は、各々の登録ユーザ１０に関連付けられたテキスト依存ＴＤ信頼度スコア２１５およびテキスト非依存ＴＩ信頼度スコア２２５の生成されたペアを結合して、発話を行なった話者の識別（アイデンティティ）が各々の登録ユーザ１０を備えているかどうかを示す結合信頼度スコアを決定する。例えば、ユーザ装置の４人の登録ユーザ１０ａ～１０ｄが存在する場合、テキスト非依存ＴＩ検証器２２０は、生成されたテキスト依存ＴＤ信頼度スコア２１５およびテキスト非依存ＴＩ信頼度スコア２２５の４つの別々の組を組み合わせて、発話１１９がユーザ装置の４人の異なる登録ユーザ１０の各々の１人が発声した可能性を各々示す４つの結合信頼度スコアを生成する。最も高い結合信頼度スコアに関連付けられた登録ユーザが、発話１１９の発話者として識別される場合がある。

いくつかの例では、テキスト非依存ＴＩ検証器２２０は、テキスト依存ＴＤ信頼度スコア２１５およびテキスト非依存ＴＩ信頼度スコア２２５を平均化することによって、テキスト依存ＴＤ信頼度スコア２１５およびテキスト非依存ＴＩ信頼度スコア２２５を結合する。一部の例では、テキスト非依存ＴＩ検証器２２０は、テキスト依存ＴＤ信頼度スコア２１５およびテキスト非依存ＴＩ信頼度スコア２２５の加重平均を計算しており、結合信頼度スコアを得る。例えば、テキスト依存ＴＤ信頼度スコア２１５はテキスト非依存ＴＩ信頼度スコア２２５よりも重く重み付けされることがある。一例では、テキスト依存ＴＤ信頼度スコア２１５には０．７５の重みが乗じられるが、テキスト非依存ＴＩ信頼度スコア２２５には０．２５の重みが乗じられる。他の例では、テキスト非依存ＴＩ信頼度スコア２２５はテキスト依存ＴＤ信頼度スコア２１５よりも重く重み付けされる。いくつかの実施態様では、テキスト依存ＴＤ信頼度スコア２１５およびテキスト非依存ＴＩ信頼度スコア２２５に適用される重み付けは、適用される重みが時間とともに変化し得るように動的である。すなわち、テキスト依存ＴＤ信頼度スコア２１５は、テキスト非依存ＴＩ信頼度スコア２２５よりも、テキスト非依存ＴＩ検証器２２０とで比較してテキスト依存ＴＤ検証器２１０に関連する精度が高い可能性があることを反映して、当初は重く評価されることがある。しかし、時間の経過とともに、テキスト非依存ＴＩ検証器２２０はユーザの後続の発話に基づき更新されており、最終的には話者検証を実行するべくテキスト依存ＴＤ検証器２１０よりも精度が高くなる可能性がある。その結果、テキスト非依存ＴＩ検証器２２０が出力するテキスト非依存ＴＩ信頼度スコア２２５は、最終的にテキスト依存ＴＤ検証器２１０が出力するテキスト依存ＴＤ信頼度スコア２１５よりも重く評価される可能性がある。

図２は、図１の多言語話者検証システム２００の概略図である。多言語話者検証システム２００は、多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２を有しているテキスト依存ＴＤ検証器２１０と、多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２を有しているテキスト非依存ＴＩ検証器２２０と、を備えている。一部の実装では、ユーザ装置１０２の各登録ユーザ１０は、個人リソースの異なる各々のセットにアクセスするためのアクセス許可を有しており、音声データ１２０の第２部分１２２によって特徴付けられるクエリの実行は、発話１１９の話者として識別される登録ユーザ１０に関連付けられた個人リソースの各々のセットへのアクセスを必要にする。ここで、ユーザ装置１０２の各登録済みユーザ１０は、登録済みユーザ１０によって発声された複数の登録済みフレーズの音声サンプルから各々の登録済みユーザ参照ベクトル２５２、２５４を取得する音声登録処理を実行することができる。たとえば、多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、各々のＴＤ参照ベクトル２５２を形成するべく結合、たとえば平均化または他の方法で蓄積され得る、各登録ユーザ１０によって発声された登録フレーズ内の所定の用語（たとえば、ホットワード）から、１つまたは複数のテキスト依存（ＴＤ）参照ベクトル２５２を生成し得る。さらに、多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、各々のテキスト非依存（ＴＩ）参照ベクトル２５４を形成するべく組み合わされており、たとえば平均化されており、または他の方法で蓄積され得る、各登録ユーザによって発声された登録フレーズの音声サンプルから、１つまたは複数のテキスト非依存ＴＩ参照ベクトル２５４を生成し得る。

登録された１人または複数のユーザ１０は、ユーザ装置１０２を使用して音声登録処理を行なうことができ、マイクロホン１０６は、これらのユーザが登録発話を話す音声サンプルをキャプチャしており、多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２および多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、そこから各々のテキスト依存ＴＤ参照ベクトル２５２およびテキスト非依存ＴＩ参照ベクトル２５４を生成する。さらに、登録されたユーザ１０のうちの１つまたは複数は、ユーザ装置１０２の既存のユーザアカウントに認可および認証資格情報を提供することによって、ユーザ装置１０２に登録することができる。ここで、既存のユーザアカウントは、ユーザアカウントにリンクされた別のデバイスで各々のユーザによって実施された以前の音声登録処理から取得されたテキスト依存ＴＤ参照ベクトル２５２およびテキスト非依存ＴＩ参照ベクトル２５４を記憶することができる。

いくつかの実施例では、登録されたユーザ１０のテキスト依存ＴＤ参照ベクトル２５２は、各々の登録されたユーザ１０が、ユーザ装置をスリープ状態から目覚めさせるべく呼び出すために使用されるホットワード（たとえば、「オーケー、グーグル」）などの所定の用語を話す１つまたは複数の音声サンプルから抽出される。いくつかの実装では、テキスト依存ＴＤ参照ベクトル２５２は、ユーザ装置１０２の各々の登録済みユーザ１０によって発声された所定ホットワードの１つまたは複数の以前の発話を受信することに応答して、多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２によって生成される。たとえば、ホットワード検出器によって高信頼度で検出された所定ホットワードを特徴付ける音声データであって、特定の登録ユーザについて記憶されたテキスト依存ＴＤ参照ベクトル２５２に一致する高信頼度スコアに関連付けられたテキスト依存（ＴＤ）評価ベクトル２１４をもたらす音声データを使用することで、テキスト依存話者検証ＴＤ－ＳＶモデル２１２を改良／更新／再学習することができる。さらに、登録されたユーザ１０のテキスト非依存ＴＩ参照ベクトル２５４は、各々の登録されたユーザ１０が、異なる用語／単語および異なる長さのフレーズを話す１つまたは複数の音声サンプルから得られてもよい。例えば、テキスト非依存ＴＩ参照ベクトル２５４は、ユーザ１０がユーザ装置１０２または同じアカウントにリンクされた他の機器との音声対話から得られた音声サンプルから経時的に得られてもよい。言い換えれば、テキスト非依存ＴＩ参照ベクトル２５４は、ユーザ装置１０２の登録されたユーザ１０によって発声された１つまたは複数の以前の発話を受信することに応答して、多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２によって生成される場合がある。

いくつかの例では、多言語話者検証システム２００は、テキスト依存ＴＤ検証器２１０を使用することで、発話１１９を発声したユーザ１０の識別（アイデンティティ）を解決する。テキスト依存ＴＤ検証器２１０は、まず、ユーザによって発声された所定ホットワードを特徴付ける音声データ１２０の第１部分１２１から、ホットワードの発話の音声特徴を表すテキスト依存ＴＤ評価ベクトル２１４を抽出することによって、発話１１９を発声したユーザ１０を識別する。ここで、テキスト依存ＴＤ検証器２１０は、音声データ１２０の第１部分１２１を入力として受け取り、テキスト依存ＴＤ評価ベクトル２１４を出力として生成するように構成された多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２を実行することができる。多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、テキスト依存ＴＤ評価ベクトル２１４を出力するように機械または人間の監視下でトレーニング済みのニューラルネットワークモデル（例えば、第１ニューラルネットワーク３３０）であってもよい。

多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２からテキスト依存ＴＤ評価ベクトル２１４が出力されると、テキスト依存ＴＤ検証器２１０は、テキスト依存ＴＤ評価ベクトル２１４が、ユーザ装置１０２の登録済みユーザ１０、１０ａ～１０ｎについてユーザ装置１０２に（たとえば、メモリハードウェア１０７に）記憶されたテキスト依存ＴＤ参照ベクトル２５２のいずれかに一致するかどうかを判定する。上述したように、多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、音声登録処理中に、登録されたユーザ１０のテキスト依存ＴＤ参照ベクトル２５２を生成してもよい。各テキスト依存ＴＤ参照ベクトル２５２は、所定ホットワードを話す各々の登録ユーザ１０の音声の特徴を表す声紋または一意の識別子に対応する参照ベクトルとして使用することができる。

いくつかの実装では、テキスト依存ＴＤ検証器２１０は、テキスト依存ＴＤ評価ベクトル２１４を、ユーザ装置１０２の各登録ユーザ１０ａ～１０ｎに関連付けられた各々のテキスト依存ＴＤ参照ベクトル２５２とで比較するテキスト依存（ＴＤ）スコアラー２１６を使用する。ここで、テキスト依存ＴＤスコアラー２１６は、発話１１９が各々の登録済みユーザ１０のアイデンティティに対応する尤度を示すスコアを各比較に対して生成することができる。具体的には、テキスト依存ＴＤスコアラー２１６は、ユーザ装置１０２の各登録ユーザ１０についてテキスト依存（ＴＤ）信頼度スコア２１５を生成する。いくつかの実装では、テキスト依存ＴＤスコアラー２１６は、テキスト依存ＴＤ評価ベクトル２１４と各テキスト依存ＴＤ参照ベクトル２５２との間の各々の余弦距離を計算しており、各登録ユーザ１０のテキスト依存ＴＤ信頼度スコア２１５を生成する。

テキスト依存ＴＤスコアラー２１６が、発話１１９が各々の登録ユーザ１０に対応する尤度を示すテキスト依存ＴＤ信頼度スコア２１５を生成すると、話者検証（ＳＶ）トリアージ段階２０５は、テキスト依存ＴＤ信頼度スコア２１５のいずれかが信頼度閾値を満たすかどうかを判定する。いくつかの実装では、話者検証ＳＶトリアージ段階２０５は、テキスト依存ＴＤ信頼度スコア２１５が信頼度閾値を満たすと判定する。これらの実装では、多言語話者検証システム２００は、テキスト非依存ＴＩ検証器２２０における話者検証をバイパスしており、代わりに、発話１１９の話者を、信頼度閾値を満たしたテキスト依存ＴＤ信頼度スコア２１５に関連付けられた各々の登録ユーザ１０として識別する話者検証ＳＶ確認２０８を自動音声認識ＡＳＲシステム１０８に提供する。

逆に、話者検証ＳＶトリアージ段階２０５が、テキスト依存ＴＤ信頼度スコア２１５のいずれもが信頼度閾値を満たさないと判定した場合、話者検証ＳＶトリアージ段階２０５は、テキスト依存ＴＤ検証器２１０によって生成されたテキスト依存ＴＤ信頼度スコア２１５と、命令２０７とをテキスト非依存ＴＩ検証器２２０に提供する。ここで、命令２０７は、テキスト非依存ＴＩ検証器２２０によって受信されると、テキスト非依存ＴＩ検証器２２０に、発話１１９を発声したユーザ１０の識別（アイデンティティ）を解決させる。テキスト非依存ＴＩ検証器２２０は、まず、所定ホットワードに続くクエリを特徴付ける音声データ１２０の第２部分１２２から、発話１１９の音声特徴を表すテキスト非依存（ＴＩ）評価ベクトル２２４を抽出することによって、発話１１９を発声したユーザ１０を識別する。テキスト非依存ＴＩ評価ベクトル２２４を生成するべく、テキスト非依存ＴＩ検証器２２０は、音声データ１２０の第２部分１２２を入力として受け取り、テキスト非依存ＴＩ評価ベクトル２２４を出力として生成するように構成された多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２を実行してもよい。いくつかの実装では、多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、音声データ１２０の第１部分１２１と音声データ１２０の第２部分１２２の両方を受け取り、第１部分１２１と第２部分１２２の両方を処理してテキスト非依存ＴＩ評価ベクトル２２４を生成する。いくつかの追加の実装では、テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、発話１１９のクエリ部分に続く追加の音声データを処理することができる。例えば、発話１１９は、「ママに次のメッセージを送って」というクエリを備えており、「夕食には家にいるよ」というメッセージの内容に対応する追加の音声も備えていることができる。多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、テキスト非依存ＴＩ評価ベクトル２２４を出力するべく機械または人間の監督の下でトレーニング済みのニューラルネットワークモデル（たとえば、第２ニューラルネットワーク３４０）であってもよい。

多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２からテキスト非依存ＴＩ評価ベクトル２２４が出力されると、テキスト非依存ＴＩ検証器２２０は、テキスト非依存ＴＩ評価ベクトル２２４が、ユーザ装置１０２の異なる登録済みユーザ１０、１０ａ～１０ｎについてユーザ装置１０２に（たとえば、メモリハードウェア１０７に）記憶されたテキスト非依存ＴＩ参照ベクトル２５４のいずれかに一致するかどうかを判定する。上述したように、多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、音声登録処理中に、登録済みのユーザ１０のためのテキスト非依存ＴＩ参照ベクトル２５４を生成してもよい。各テキスト非依存ＴＩ参照ベクトル２５４は、各々の登録ユーザ１０の音声の特徴を表す声紋または一意識別子に対応する、参照ベクトルとして使用され得る。

いくつかの実装では、テキスト非依存ＴＩ検証器２２０はスコアラー２２６を使用する。スコアラー２２６は、テキスト非依存ＴＩ評価ベクトル２２４を、ユーザ装置１０２の各登録ユーザ１０ａ～１０ｎに関連付けられた各々のテキスト非依存ＴＩ参照ベクトル２５４とで比較する。ここで、スコアラー２２６は、発話１１９が各々の登録済みユーザ１０のアイデンティティに対応する尤度を示すスコアを、各比較に対して生成することができる。具体的には、スコアラー２２６は、ユーザ装置１０２の各登録ユーザ１０について、テキスト非依存（ＴＩ）信頼度スコア２２５を生成する。いくつかの実施態様では、スコアラー２２６は、テキスト非依存ＴＩ評価ベクトル２２４と各テキスト非依存ＴＩ参照ベクトル２５４との間の各々の余弦距離を計算することで、各登録ユーザ１０のテキスト非依存ＴＩ信頼度スコア２２５を生成する。さらにスコアラー２２６は、各登録ユーザ１０について、生成済みのテキスト依存ＴＤ信頼度スコア２１５とテキスト非依存ＴＩ信頼度スコア２２５とのペアを結合することで、結合信頼度スコアを決定する。結合信頼度スコアは、発話１１９を発声した話者の識別（アイデンティティ、身元）が、各登録ユーザ１０を備えているかどうかを示す。図１に関して上述したように、結合信頼度スコアを得るべく使用されたテキスト依存ＴＤ信頼度スコア２１５およびテキスト非依存ＴＩ信頼度スコア２２５の重みは、異なる場合があり、および／または時間の経過とともに動的に変化する場合がある。

テキスト非依存ＴＩ検証器２２０は、発話１１９を発声したユーザ１０を、最高の結合（複合、コンバインド）信頼度スコアに関連付けられた各々の登録ユーザとして、識別することができる。これらの実施態様では、テキスト非依存ＴＩ検証器２２０は、発話１１９の話者を、最高の結合スコアに関連付けられた各々の登録ユーザ１０として識別する話者検証ＳＶ確認２０８を、自動音声認識ＡＳＲシステム１０８に提供する。一部の例では、テキスト非依存ＴＩ検証器２２０は、最高結合信頼度スコアが閾値を満たすかどうかを判定するとともに、結合信頼度スコアが閾値を満たす場合にのみ話者を識別する。そうではない場合、テキスト非依存ＴＩ検証器２２０は、追加の検証用発話を話すように、および／または認証用質問に答えるように、ユーザ装置に指示することができる。

図３は、多言語話者検証システム２００をトレーニングするための、多言語話者検証トレーニング処理３００の例を示す。トレーニング処理３００は、図１のリモートシステム１１１上で実行することができる。トレーニング処理３００は、データ記憶装置３０１に記憶された複数のトレーニングデータセット３１０、３１０Ａ～３１０Ｎを取得することで、トレーニングデータセット３１０上でテキスト依存話者検証ＴＤ－ＳＶモデル２１２およびテキスト非依存話者検証ＴＩ－ＳＶモデル２２２の各々をトレーニングする。データストレージ３０１は、リモートシステム１１１のメモリハードウェア１１３上に存在してもよい。各トレーニングデータセット３１０は、異なる各々の言語または方言に関連付けられているとともに、異なる話者によって各々の言語または方言で話された対応するトレーニング発話３２０、３２０Ａａ～３２０Ｎｎを備えている。例えば、第１トレーニングデータセット３１０Ａは、アメリカ英語に関連付けられているとともに、アメリカ合衆国の話者が英語で話す対応するトレーニング発話３２０Ａａ～３２０Ａｎを備えている場合がある。すなわち、第１トレーニングデータセット３１０Ａのトレーニング発話３２０Ａａ～３２０Ａｎは、すべてアメリカ訛りの英語で発声される。一方、イギリス英語に関連する第２トレーニングデータセット３１０Ｂは、同じく英語で話されるがイギリス出身の話者による、対応するトレーニング発話３２０Ｂａ～３２０Ｂｎを備えている。したがって、第２トレーニングデータセット３１０Ｂのトレーニング発話３２０Ｂａ～３２０Ｂｎは、英国訛りの英語で話されているので、したがって、米国訛りの方言に関連付けられたトレーニング発話３２０Ａａ～３２０Ａｎとは異なる方言（すなわち、英国訛り）に関連付けられる。特に、英国訛りの英語話者は、米国訛りの別の英語話者とは異なるように幾つかの単語を発音する場合がある。図３はまた、韓国語話者が話す対応するトレーニング発話３２０Ｎａ～３２０Ｎｎを備えている、韓国語に関連する別のトレーニングデータセット３１０Ｎを示す。

いくつかの実装では、トレーニング処理３００は、各々が異なる各言語に関連付けられた少なくとも１２個のトレーニングデータセット上で、多言語話者検証システム２００をトレーニングする。追加の実装では、トレーニング処理３００は、４６個の異なる言語および６３個の方言をカバーするトレーニング発話３２０上で、多言語話者検証システム２００をトレーニングする。

対応する各トレーニング発話３２０は、テキスト依存部分３２１およびテキスト非依存部分３２２を備えている。テキスト依存部分３２１は、トレーニング発話３２０で発声された所定ホットワード（例えば、「ヘイ、グーグル」）または所定ホットワードの変形（例えば、「オーケー、グーグル」）を特徴付ける、音声セグメント（オーディオ片）を備えている。テキスト依存部分３２１に関連する音声セグメントは、オーディオ特徴（例えば、４０次元ログメルフィルタバンクエナジー特徴またはメル周波数セプトラル係数）を備えている固定長フレームのシーケンスによって表される、固定長音声セグメント（例えば、１，１７５ミリ秒のオーディオ）を備えていることができる。ここで、所定ホットワードおよびその変形は各々、ストリーミングオーディオ１１８で話されたときにホットワード検出器１１０によって検出可能にされているので、所定ホットワードまたはその変形に続く１つまたは複数の用語について、ユーザ装置がウェイクアップして音声認識を開始するトリガーになり得る。いくつかの例では、所定ホットワード（またはその変形）を特徴付ける、対応するトレーニング発話３２０のテキスト依存部分３２１に関連付けられた固定長の音声セグメントが、ホットワード検出器１１０によって抽出される。

同じ所定ホットワードは、複数の異なる言語で使用される場合がある。しかし、言語や方言によってアクセントなどの言語特性が異なるので、同じ所定ホットワードまたはその変形の発音は、言語や方言によって異なる。注目すべきことに、いくつかの地理的地域に配置されたホットワード検出器１１０は、ストリーミングオーディオで異なる所定ホットワードを検出するようにトレーニングされる場合がある。したがって、これらの地理的地域に関連する言語または方言で話された対応するトレーニング発話３２０のテキスト依存部分３２１は、代わりに異なる所定ホットワードを特徴付ける場合がある。明らかになるように、トレーニング済み（学習済み）多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、所定ホットワード、所定ホットワードのバリエーションに基づき、または特定の言語または地理的地域に固有の異なるホットワードに基づき、異なる言語または方言の話者を区別することができる。追加の実装では、一部のトレーニング発話３２０のテキスト依存部分３２１は、所定ホットワードまたは所定ホットワードのバリエーションに加えてまたは所定ホットワードまたは所定ホットワードのバリエーションに代えて、以下のような音声セグメントを備えている。すなわち音声セグメントは、カスタムホットワードまたは一般的に使用される音声コマンド（例えば、再生（プレイ）、一時停止（ポーズ）、音量アップ／ダウン、通話（コール）、メッセージ、ナビゲート／方向指示、など）などの、他の用語／フレーズを特徴付ける。

各トレーニング発話３２０のテキスト非依存部分３２２は、テキスト依存部分３２１によって特徴付けられる所定ホットワードに続いてトレーニング発話３２０で話されるクエリ文を特徴付ける、音声セグメントを備えている。例えば、対応するトレーニング発話３２０は「オーケー、グーグル、外の天気は何ですか」（どうですか）を備えている場合がある。テキスト依存部分３２１は、ホットワード「オーケー、グーグル」を特徴付ける。テキスト非依存部分３２２は、クエリ文「外の天気は何ですか」を特徴付ける。各トレーニング発話３２０のテキスト依存部分３２１は、同じ所定ホットワードまたはそのバリエーションによって音韻的に制約される。しかし、各テキスト非依存（独立）部分３２２によって特徴付けられるクエリ文の語彙は、制約されない。つまり、各クエリ文に関連する継続時間および音素は、可変である。特に、テキスト依存部分３２１によって特徴付けられる話し言葉のクエリ文の言語は、トレーニングデータセット３１０に関連付けられた各々の言語を備えている。例えば、英語で話されたクエリ文「外の天気は何ですか」（ワット＿イズ＿ザ＿ウェザー＿アウトサイド）は、スペイン語で話されると「Ｃｕａｌｅｓｅｌｃｌｉｍａａｆｕｅｒａ」（クエル＿エス＿エル＿クリマ＿アフエラ）に翻訳される。いくつかの例では、各トレーニング発話３２０のクエリ文を特徴付ける音声セグメントは、０．２４秒から１．６０秒までの範囲の可変時間を備えている。

引き続き図３を参照すると、トレーニング処理３００は、各トレーニングデータセット３１０、３１０Ａ～３１０Ｎに関連付けられた各々の言語または方言で話されたトレーニング発話３２０、３２０Ａａ～３２０Ｎｎのテキスト依存部分３２１について、第１ニューラルネットワーク３３０をトレーニングする。トレーニング中、テキスト依存部分３２１に関する追加情報が、第１ニューラルネットワーク３３０への入力として提供される場合がある。例えば、予測方法を学習するべくテキスト依存話者検証ＴＤ－ＳＶモデル２１２をトレーニングするためのグランドトゥルース出力ラベルに対応する、テキスト依存ＴＤターゲットベクトルなどのテキスト依存（ＴＤ）ターゲット３２３は、テキスト依存ＴＤ部分３２１を用いたトレーニング中に第１ニューラルネットワーク３３０への入力として提供されてもよい。したがって、各特定の話者からの所定ホットワードの１つまたは複数の発話は、特定のテキスト依存ＴＤターゲットベクトル３２３とでペアにされてもよい。

第１ニューラルネットワーク３３０は、各ＬＳＴＭ層の後に投影層を有している複数の長短記憶（ＬＳＴＭ）層から形成される、ディープニューラルネットワークを含み得る。いくつかの例では、第１ニューラルネットワークは１２８個のメモリセルを使用しており、投影サイズは６４に等しい。多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、第１ニューラルネットワーク３３０のトレーニング（学習）済みバージョンを備えている。テキスト依存話者検証ＴＤ－ＳＶモデル２１２によって生成されるテキスト依存ＴＤ評価ベクトル２１４および参照ベクトル２５２は、最後の投影層の投影サイズに等しい埋め込みサイズを有しているｄベクトルを含み得る。トレーニング処理は、第１ニューラルネットワーク３３０をトレーニングするべく、一般化エンドツーエンドコントラスト損失を使用してもよい。

トレーニング後、第１ニューラルネットワーク３３０は、多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２を生成する。トレーニング済みの多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、複数の地理的地域に分散していて異なる言語、方言、またはその両方、を話すユーザに関連する複数のユーザ装置１０２に、プッシュされる場合がある。ユーザ装置１０２は、ストリーミングオーディオ１１８内のホットワード検出器１１０によって検出済みの所定ホットワードを特徴付ける音声（オーディオ）セグメントに対してテキスト依存話者検証を実行するべく、多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２を記憶および実行することができる。前述したように、同じホットワードが異なる言語または場所で話されている場合でも、異なる言語、方言、アクセント、または場所、を持つユーザは、ホットワードを異なるように発音する可能性がある。このような発音のばらつき（バリエーション）は、１つの言語のみを対象としてトレーニングされた以前の話者検証モデルでは、言語やアクセントに起因するこの発音のばらつきを、話者識別特性として不適切に帰着させることがよくあった。例えば、これらの先行モデルが、地域アクセントの一般的な特徴を、特定の話者の音声の主な特徴的要素であると解釈する場合、検証における偽陽性（フォールス＿ポジティブ）の割合が増加する。しかし、実際には、その特徴は、同じまたは類似のアクセントで話すすべてのユーザに共通である。本開示のトレーニング済みの多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、或るユーザを、同じ言語、方言、アクセント、または場所、を持つ他のユーザから、区別することができる。

また、トレーニング処理３００は、各トレーニングデータセット３１０、３１０Ａ～３１０Ｎに関連付けられた各々の言語または方言で話されたトレーニング発話３２０、３２０Ａａ～３２０Ｎｎのテキスト非依存（ＴＩ）部分３２２上で、第２ニューラルネットワーク３４０をトレーニングする。ここで、トレーニング発話３２０Ａａについて、トレーニング処理３００は、アメリカ英語で話されたクエリ文「外の天気は何ですか」（ワット＿イズ＿ザ＿ウェザー＿アウトサイド）を特徴付けるテキスト非依存ＴＩ部分３２２上で、第２ニューラルネットワークをトレーニングする。任意選択で、トレーニング処理は、対応するトレーニング発話３２０のテキスト非依存ＴＩ部分３２２に加えて、トレーニングデータセット３１０のうちの１つまたは複数における少なくとも１つの対応するトレーニング発話３２０のテキスト依存ＴＤ部分３２１についても、第２ニューラルネットワーク３４０をトレーニングすることができる。例えば、上記のトレーニング発話３２０Ａａを使用することで、トレーニング処理３００は、発話全体「オーケー、グーグル、外の天気は何？」について第２ニューラルネットワーク３４０をトレーニングすることができる。トレーニング中、テキスト非依存ＴＩ部分３２２に関する追加情報は、第２ニューラルネットワーク３４０への入力として提供される場合がある。例えば、予測方法を学習するべくテキスト非依存話者検証ＴＩ－ＳＶモデル２２２をトレーニングするためのグランドトゥルース出力ラベルに対応するテキスト非依存ＴＩターゲットベクトルなどのテキスト非依存ＴＩターゲット３２４は、テキスト非依存ＴＩ部分３２２を使用するトレーニング中に、第２ニューラルネットワーク３４０への入力として提供されてもよい。したがって、各特定の話者からのクエリ文の１つまたは複数の発話は、特定のテキスト非依存ＴＩターゲットベクトル３２４とでペアにされてもよい。

第２ニューラルネットワーク３４０は、各ＬＳＴＭ層の後に投影層を有している複数のＬＳＴＭ層から形成された、ディープ（深層）ニューラルネットワークを含み得る。いくつかの例では、第２ニューラルネットワークは３８４個のメモリセルを使用しており、投影サイズは１２８に等しい。多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、第２ニューラルネットワーク３４０のトレーニング済み（学習済み）バージョンを備えている。テキスト非依存話者検証ＴＩ－ＳＶモデル２２２によって生成されるテキスト非依存ＴＩ評価ベクトル２２４およびテキスト非依存ＴＩ参照ベクトル２５４は、最後の投影層の投影サイズに等しい埋め込みサイズを有しているｄベクトルを含んでもよい。トレーニング処理３００は、第１ニューラルネットワーク３３０をトレーニングするべく、一般化エンドツーエンドコントラスト損失を使用してもよい。いくつかの例では、トレーニング済みの多言語テキスト依存話者検証ＴＤ－ＳＶモデル２１２は、ユーザ装置１０２上で実行するのに適した小さなメモリフットプリント（例えば、２３５キロパラメータ）に関連付けられる。しかし、トレーニング済みの多言語テキスト非依存話者検証ＴＩ－ＳＶモデル２２２は、より計算集約的であるとともに、リモートシステム上で実行するのに適したはるかに大きな容量（例えば、１３０万パラメータ）を有している。

図４は、ハイブリッド多言語テキスト依存およびテキスト非依存話者検証の方法４００の動作の配置例のフローチャートを備えている。動作４０２において、方法４００は、ユーザ装置１０２によってキャプチャ済みの発話１１９に対応する音声データ１２０を受信する工程を備えている。発話１１９は、実行するアクションを指定するクエリが続く、所定ホットワードを備えている。動作４０４において方法４００はさらに、テキスト依存話者検証（ＴＤ－ＳＶ）モデル２１２を使用することで、所定ホットワードを特徴付ける音声データ１２０の第１部分１２１を処理することによって、ホットワードの発話１１９の音声特徴を表すテキスト依存（ＴＤ）評価ベクトル２１４を生成する工程を備えている。

動作４０６において、方法４００は、１つまたは複数のテキスト依存（ＴＤ）信頼度スコア２１５を生成する工程を備えている。１つまたは複数のテキスト依存（ＴＤ）信頼度スコア２１５は、テキスト依存ＴＤ評価ベクトル２１４が、１つまたは複数のテキスト依存（ＴＤ）参照ベクトル２５２の各々の１つに一致する尤度（可能性）を各々示す。各テキスト依存ＴＤ参照ベクトル２５２は、ユーザ装置１０２の１人または複数の異なる登録ユーザ１０の各々の１人に関連付けられる。方法４００はさらに、動作４０６において、１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５のいずれかが、信頼度閾値を満たすかどうかを判定する工程を備えている。

テキスト依存ＴＤ信頼度スコア２１５のうちの１つが信頼度閾値を満たす場合、方法４００は、動作４０８において、信頼度閾値を満たすテキスト依存ＴＤ信頼度スコア２１５に対応するテキスト依存ＴＤ参照ベクトル２５２に関連付けられる各々の登録ユーザ１０として、発話１１９の話者を識別する工程を備えている。方法４００はまた、動作４１０において、ホットワードに続くクエリを特徴付ける音声データ１２０の第２部分１２２に対して話者検証を実行することなく、クエリによって指定済みのアクションの実行を開始する工程を備えている。１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５のいずれもが信頼度閾値を満たさない場合、方法４００は、動作４１２において、テキスト非依存話者検証（ＴＩ－ＳＶ）モデル２２２を使用することで、クエリを特徴付ける音声データ１２０の第２部分１２２を処理することによって、テキスト非依存（ＴＩ）評価ベクトル２２４を生成するように、テキスト非依存話者検証器２２０に命令を提供する工程を備えている。動作４１４において、方法４００は、テキスト非依存ＴＩ評価ベクトル２２４が１つまたは複数のテキスト非依存（ＴＩ）参照ベクトル２５４の各々の１つに一致する尤度を各々示す、１つまたは複数のテキスト非依存（ＴＩ）信頼度スコア２２５を生成する工程も備えている。各テキスト非依存ＴＩ参照ベクトル２５４は、ユーザ装置１０２の１人または複数の異なる登録ユーザ１０の各々の１人に関連付けられる。動作４１６において、方法４００は、１つまたは複数のテキスト依存ＴＤ信頼度スコア２１５および１つまたは複数のテキスト非依存ＴＩ信頼度スコア２２５に基づき、発話１１９を発声した話者の識別（アイデンティティ）が、ユーザ装置１０２の１人または複数の異なる登録ユーザ１０のいずれかを備えているかどうかを判定する工程をさらに備えている。

図５は、本書に記載されるシステムおよび方法を実施するべく使用され得る例示的なコンピューティング装置５００の概略図である。コンピューティング装置５００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ、などの様々な形態のデジタルコンピュータを表すことを意図している。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものであることのみを意図しつつ本書に記載されているのであり、および／または特許請求される発明の実施を制限することを意図するものではない。

コンピューティング装置５００は、プロセッサ５１０と、メモリ５２０と、記憶装置（ストレージデバイス）５３０と、メモリ５２０および高速拡張ポート５５０に接続する高速インタフェース／コントローラ５４０と、および低速バス５７０およびストレージデバイス５３０に接続する低速インタフェース／コントローラ５６０と、を備えている。各構成要素５１０、５２０、５３０、５４０、５５０、および５６０、はさまざまなバスを使用して相互接続されており、共通のマザーボード上に、または適切な他の方法で、実装することができる。プロセッサ５１０は、高速インタフェース５４０に結合されたディスプレイ５８０などの外部入出力デバイス上にグラフィカルユーザインタフェース（ＧＵＩ）のためのグラフィカル情報を表示するべく、メモリ５２０または記憶装置５３０に記憶された命令を備えている、コンピューティング装置５００内で実行するための命令を処理することができる。他の実施態様では、複数のプロセッサおよび／または複数のバスは、複数のメモリおよびメモリの種類とともに、適宜使用されてもよい。また複数のコンピューティング装置５００は、各装置が必要な動作の一部同士を提供するように互いに接続されてもよい（例えば、サーババンク、ブレードサーバ群、またはマルチプロセッサシステム、として）。プロセッサ５１０は、ユーザ装置１０２のデータ処理ハードウェア１０３またはリモートシステム１１１のデータ処理ハードウェア１１３を含む、データ処理ハードウェア５１０と称される場合がある。メモリ７２０は、ユーザ装置１０２のメモリハードウェア１０７またはリモートシステム１１１のメモリハードウェア１１５を含む、メモリハードウェア７２０と称されることがある。

メモリ５２０は、コンピューティング装置５００内で情報を非一時的（非遷移的）に記憶する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってよい。不揮発性メモリ５２０は、コンピューティング装置５００によって使用されるプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を一時的または永続的に記憶するべく使用される、物理的デバイスであってよい。不揮発性メモリの例としては、フラッシュメモリ、読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、ブートプログラムなどのファームウェアに通常使用される）が挙げられるが、これらに限定されない。揮発性メモリの例としては、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクやテープ、などがあるが、これらに限定されるものではない。

記憶装置（ストレージデバイス５３０）は、コンピューティング装置５００に大容量ストレージを提供することができる。いくつかの実装では、記憶装置５３０は、コンピュータ読み取り可能な媒体である。様々な異なる実装では、記憶装置５３０は、フロッピー（登録商標）ディスク装置、ハードディスク装置、光ディスク装置、またはテープ装置、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたは他の構成のデバイスを備えているデバイスのアレイ、であってもよい。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに具体化される。コンピュータプログラム製品は、実行されると上述したような１つまたは複数の方法を実行する命令を備えている。情報キャリアは、メモリ５２０、記憶装置５３０、またはプロセッサ５１０上のメモリ、などのコンピュータ機械可読媒体または機械可読媒体である。

高速コントローラ５４０は、コンピューティング装置５００の帯域幅集約的な操作を管理する。一方、低速コントローラ５６０は、低帯域幅集約的な操作を管理する。このような任務の割り当ては、例示的なものに過ぎない。一部の実装では、高速コントローラ５４０は、メモリ５２０に、ディスプレイ５８０（たとえば、グラフィックプロセッサまたはアクセラレータを介して）に、および高速拡張ポート５５０に、結合されるとともに、さまざまな拡張カード（図示せず）を受け入れることができる。いくつかの実装では、低速コントローラ５６０は、ストレージデバイス５３０および低速拡張ポート５９０に結合される。低速拡張ポート５９０は、様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット（登録商標））を備えているとともに、キーボード、ポインティングデバイス、スキャナ、などの１つまたは複数の入出力デバイスに、またはネットワークアダプタを介してスイッチやルータなどのネットワークデバイスに、結合される。

コンピューティング装置５００は、図示のように、多数の異なる形態で実装されてもよい。例えばコンピューティング装置５００は、標準的なサーバ５００ａとして、またはそのようなサーバ５００ａのグループ内の複数回、ラップトップコンピュータ５００ｂとして、またはラックサーバシステム５００ｃの一部として、実装することができる。

本明細書で説明するシステムおよび技法の様々な実装は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせで実現することができる。これらの様々な実装は、特殊目的であっても汎用目的であってもよく、記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信したり、記憶システム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスにデータおよび命令を送信したり、するように結合された少なくとも１つのプログラマブルプロセッサを備えているプログラマブルシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実装を備えていることができる。

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティング装置にタスクを実行させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。アプリケーションの例としては、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワープロアプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーション、が挙げられるがこれらに限定されない。

非一過性（非一時的な）メモリは、コンピューティング装置によって使用されるプログラム（例えば、命令シーケンス）またはデータ（例えば、プログラム状態情報）を一時的または永続的に記憶するべく使用される物理的デバイスであってもよい。非一過性メモリは、揮発性および／または不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例としては、フラッシュメモリ、リードオンリーメモリ（ＲＯＭ）／プログラマブルリードオンリーメモリ（ＰＲＯＭ）／消去可能プログラマブルリードオンリーメモリ（ＥＰＲＯＭ）／電子消去可能プログラマブルリードオンリーメモリ（ＥＥＰＲＯＭ）（例えば、ブートプログラムなどのファームウェアに一般的に使用される）が挙げられるが、これらに限定されない。揮発性メモリの例としては、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクやテープ、などがあるが、これらに限定されるものではない。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）は、プログラマブルプロセッサ用の機械命令を備えており、高レベルの手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含めて、機械命令および／またはデータをプログラマブルプロセッサに提供するべく使用される、任意のコンピュータプログラム製品、非一過性コンピュータ可読媒体、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するべく使用される、あらゆる信号を指す。

本明細書で説明する処理および論理フローは、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラマブルプロセッサが、１つまたは複数のコンピュータプログラムを実行することで、入力データに対して動作するとともに出力を生成することによって機能を実行することで実行することができる。処理および論理フローは、特殊用途の論理回路、例えばＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によっても実行できる。コンピュータプログラムの実行に適したプロセッサには、一例として、汎用および特殊用途のマイクロプロセッサが、およびあらゆる種類のデジタルコンピュータの任意の１つまたは複数のプロセッサが、含まれる。一般に、プロセッサは、読み取り専用メモリまたはランダムアクセスメモリ、あるいはその両方から、命令とデータを受け取る。コンピュータの本質的な要素は、命令を実行するためのプロセッサと、命令やデータを格納するための１つまたは複数のメモリ装置と、である。一般に、コンピュータも、データを記憶するための１つまたは複数の大容量記憶装置、例えば磁気ディスク、光磁気ディスク、光ディスク、などを有するか、それらからもデータを受け取るか、データを転送するか、その両方を行なうように動作可能に結合されている。しかし、コンピュータがそのような装置を有している必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性メモリ、媒体およびメモリデバイスが含まれ、例えば、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭおよびフラッシュメモリデバイス；磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク；光磁気ディスク；およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクが含まれる。プロセッサとメモリは、特別な目的の論理回路によって補足されるか、または特別な目的の論理回路に組み込まれることができる。

ユーザとの対話を提供するべく、本開示の１つまたは複数の態様は、ユーザに情報を表示するための例えばＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチスクリーン、のようなディスプレイ装置と、任意選択で、ユーザがコンピュータに入力を提供することができる例えばマウスまたはトラックボール、のようなキーボードおよびポインティングデバイスと、を有しているコンピュータ上で実施することができる。ユーザとの対話（インタラクション）を提供するために、他の種類のデバイスを使用することもできる。例えば、ユーザに提供されるフィードバックは、視覚的フィードバック、聴覚的フィードバック、触覚的フィードバック、などの任意の形式の感覚的フィードバックとすることができる。ユーザからの入力は、音響入力、音声入力、触覚入力、などの任意の形式で受信することができる。さらに、コンピュータは、ユーザが使用するデバイスにドキュメントを送信したりデバイスからドキュメントを受信したりすることによって、例えば、ウェブブラウザから受信した要求に応じてユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザとで対話することができる。

多くの実施態様を説明してきた。それにもかかわらず、本開示の精神および範囲から逸脱することなく、様々な変更がなされ得ることが理解されるであろう。従って、他の実施態様も以下の特許請求の範囲に含まれる。

Claims

データ処理ハードウェア（５１０）上で実行されると前記データ処理ハードウェア（５１０）に動作を実行させる、話者検証のためのコンピュータ実装方法（４００）であって、前記動作は、
ユーザ装置（１０２）によってキャプチャ済みの発話（１１９）に対応する音声データ（１２０）を受信する工程であって、前記発話（１１９）は、実行するアクションを指定するクエリが続く所定ホットワードを備えている、前記音声データ（１２０）を受信する工程と、
テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）を使用することで、前記所定ホットワードを特徴付ける前記音声データ（１２０）の第１部分（１２１）を処理して、前記所定ホットワードの前記発話（１１９）の音声特徴を表すテキスト依存評価ベクトル（２１４）を生成する工程と、
前記テキスト依存評価ベクトル（２１４）が１つまたは複数のテキスト依存参照ベクトル（２５２）の各々の１つに一致する尤度を各々示す、１つまたは複数のテキスト依存信頼度スコア（２１５）を生成する工程であって、前記各テキスト依存参照ベクトル（２５２）は、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々の１人に関連付けられる、前記テキスト依存信頼度スコア（２１５）を生成する工程と、
１つまたは複数の前記テキスト依存信頼度スコア（２１５）のいずれかが、信頼度閾値を満たすかどうかを判定する工程と、
を備えており、前記動作はさらに、
前記テキスト依存信頼度スコア（２１５）のいずれかが前記信頼度閾値を満たす場合、
前記発話（１１９）の話者を、前記信頼度閾値を満たす前記テキスト依存信頼度スコア（２１２）に対応する前記テキスト依存参照ベクトル（２５２）に関連付けられた各々の登録ユーザ（１０）として、識別する工程を備えているとともに、
前記所定ホットワードに続く前記クエリを特徴付ける前記音声データ（１２０）の第２部分（１２２）上で話者検証を実行することなく、前記クエリによって指定済みの前記アクションの実行を開始する工程を備えていることと、
１つまたは複数の前記テキスト依存信頼度スコア（２１５）のいずれもが前記信頼度閾値を満たさない場合、テキスト非依存話者検証器（２２０）に命令を提供する工程を備えていることと、
のうちの１つを備えており、
前記命令は前記テキスト非依存話者検証器（２２０）によって受信されると前記テキスト非依存話者検証器（２２０）に、
テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）を使用することで、前記クエリを特徴付ける前記音声データ（１２０）の前記第２部分（１２２）を処理して、テキスト非依存評価ベクトル（２２４）を生成する工程と、
前記テキスト非依存評価ベクトル（２２４）が１つまたは複数のテキスト非依存参照ベクトル（２５４）の各々の１つに一致する尤度を各々示す、１つまたは複数のテキスト非依存信頼度スコア（２２５）を生成する工程（２２５）であって、前記各テキスト非依存参照ベクトル（２５４）は、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々の１人に関連付けられる、前記テキスト非依存信頼度スコア（２２５）を生成する工程と、
１つまたは複数の前記テキスト依存信頼度スコア（２１５）および１つまたは複数の前記テキスト非依存信頼度スコア（２２５）に基づき、前記発話（１１９）を発声した前記話者の識別が、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）のいずれかを備えているかどうかを判定する工程と、
を実行させる、コンピュータ実装方法（４００）。
前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々は、個人リソースの異なる各々のセットにアクセスするためのアクセス許可を有しており、
前記クエリによって指定済みの前記アクションの実行は、前記発話（１１９）の前記話者として識別済みの各々の登録ユーザ（１０）に関連付けられた個人リソースの各々のセットへのアクセスを必要にする、
請求項１に記載のコンピュータ実装方法（４００）。
前記データ処理ハードウェア（５１０）は前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）を実行しているとともに、前記ユーザ装置（１０２）上に存在しており、
前記テキスト非依存話者検証器（２２０）は、前記テキスト非依存話者検証ＴＩ－ＳＶモデルを実行しているとともに、ネットワークを介して前記ユーザ装置（１０２）に通信する分散コンピューティングシステム（１１１）上に存在する、
請求項１または２に記載のコンピュータ実装方法（４００）。
１つまたは複数の前記テキスト依存信頼度スコア（２１５）のいずれもが前記信頼度閾値を満たさない場合、
前記テキスト非依存話者検証器（２２０）に前記命令を提供する工程は、前記命令と、１つまたは複数の前記テキスト依存信頼度スコア（２１５）と、を前記ユーザ装置（１０２）から前記分散コンピューティングシステム（１１１）に送信する工程を備えている、
請求項３に記載のコンピュータ実装方法（４００）。
前記データ処理ハードウェア（５１０）は、前記ユーザ装置（１０２）と、ネットワークを介して前記ユーザ装置（１０２）に通信する分散コンピューティングシステム（１１１）と、のうちの一方上に存在しており、
前記データ処理ハードウェア（５１０）は、前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）と前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）との両方を実行する、
請求項１または２に記載のコンピュータ実装方法（４００）。
前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）は、前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）よりも計算集約的である、
請求項１～５のいずれか１項に記載のコンピュータ実装方法（４００）。
前記動作はさらに、ホットワード検出モデル（１１０）を用いることで、前記クエリに先行する前記音声データ（１２０）中の前記所定ホットワードを検出する工程を備えており、
前記所定ホットワードを特徴付ける前記音声データ（１２０）の前記第１部分（１２１）は、前記ホットワード検出モデル（１１０）によって抽出される、
請求項１～６のいずれか１項に記載のコンピュータ実装方法（４００）。
前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）および前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）は、複数のトレーニングデータセット（３１０）上でトレーニングされており、
前記各トレーニングデータセット（３１０）は、異なる各々の言語または方言に関連付けられているとともに、異なる話者によって各々の言語または方言で話される対応するトレーニング発話（３２０）を備えており、
各対応するトレーニング発話（３２０）は、前記所定ホットワードを特徴付けるテキスト依存部分と、前記所定ホットワードに続くクエリ文を特徴付けるテキスト非依存部分と、を備えており、
前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）は、前記複数のトレーニングデータセット（３１０）のうちの各トレーニングデータセット（３１０）のうちの各対応するトレーニング発話（３２０）の前記テキスト依存部分上でトレーニングされており、
前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）は、前記複数のトレーニングデータセット（３１０）のうちの各トレーニングデータセット（３１０）のうちの各対応するトレーニング発話（３２０）の前記テキスト非依存部分上でトレーニングされている、
請求項１～７のいずれか１項に記載のコンピュータ実装方法（４００）。
前記トレーニングデータセット（３１０）の少なくとも１つに関連する各々の言語または方言で話された対応する前記トレーニング発話（３２０）は、他のトレーニングデータセット（３１０）の対応するトレーニング発話（３２０）とは異なる前記所定ホットワードを発音する、
請求項８に記載のコンピュータ実装方法（４００）。
前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）は、前記複数のトレーニングデータセット（３１０）のうちの１つまたは複数のトレーニングデータセット（３１０）のうちの少なくとも１つの対応するトレーニング発話（３２０）の前記テキスト依存部分上で、トレーニングされる、
請求項８または９に記載のコンピュータ実装方法（４００）。
前記トレーニング発話（３２０）の前記テキスト非依存部分によって特徴付けられる前記クエリ文は、可変の言語コンテンツを備えている、
請求項８～１０のいずれか１項に記載のコンピュータ実装方法（４００）。
前記テキスト非依存評価ベクトル（２２４）を生成するとき、前記テキスト非依存話者検証器（２２０）は、前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）を使用することで、前記所定ホットワードを特徴付ける前記音声データ（１２０）の前記第１部分（１２１）と、前記クエリを特徴付ける前記音声データ（１２０）の前記第２部分（１２２）と、の両方を処理する、
請求項１～１１のいずれか１項に記載のコンピュータ実装方法（４００）。
１つまたは複数の前記テキスト依存参照ベクトル（２５２）の各々は、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々の１人によって発声された前記所定ホットワードの１つまたは複数の以前の前記発話（１１９）を受信することに応答して（１６０）、前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）によって生成される、
請求項１～１２のいずれか１項に記載のコンピュータ実装方法（４００）。
１つまたは複数の前記テキスト非依存参照ベクトル（２５４）の各々は、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々の１人によって発声された１つまたは複数の以前の前記発話（１１９）を受信することに応答して、前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）によって生成される、
請求項１～１３のいずれか１項に記載のコンピュータ実装方法（４００）。
システム（１００）であって、前記システム（１００）は、
データ処理ハードウェア（５１０）と、
前記データ処理ハードウェア（５１０）に通信するメモリハードウェア（７２０）であって、前記データ処理ハードウェア（５１０）上で実行されると前記データ処理ハードウェア（５１０）に動作を実行させる第１命令を記憶する前記メモリハードウェア（７２０）と、
を備えており、前記動作は、
ユーザ装置（１０２）によってキャプチャ済みの発話（１１９）に対応する音声データ（１２０）を受信する工程であって、前記発話（１１９）は、実行するアクションを指定するクエリが続く所定ホットワードを備えている、前記音声データ（１２０）を受信する工程と、
テキスト依存話者検証ＴＤ－ＳＶモデルを使用することで、前記所定ホットワードを特徴付ける前記音声データ（１２０）の第１部分（１２１）を処理することによって、前記所定ホットワードの前記発話（１１９）の音声特徴を表すテキスト依存評価ベクトル（２１４）を生成する工程と、
前記テキスト依存評価ベクトル（２１４）が１つまたは複数のテキスト依存参照ベクトル（２５２）の各々の１つに一致する尤度を各々示す、１つまたは複数のテキスト依存信頼度スコア（２１５）を生成する工程であって、前記各テキスト依存参照ベクトル（２５２）は、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々の１人に関連付けられる、前記テキスト依存信頼度スコア（２１５）を生成する工程と、
１つまたは複数の前記テキスト依存信頼度スコア（２１５）のいずれかが、信頼度閾値を満たすか否かを判定する工程と、
を備えており、前記動作はさらに、
前記テキスト依存信頼度スコア（２１５）のいずれかが前記信頼度閾値を満たす場合、
前記発話（１１９）の話者を、前記信頼度閾値を満たす前記テキスト依存信頼度スコアに対応する前記テキスト依存参照ベクトル（２５２）に関連付けられた各々の登録ユーザ（１０）として、識別する工程を備えているとともに、
前記所定ホットワードに続く前記クエリを特徴付ける前記音声データ（１２０）の第２部分（１２２）に対して話者検証を実行することなく、前記クエリによって指定済みの前記アクションの実行を開始する工程を備えていることと、または
１つまたは複数の前記テキスト依存信頼度スコア（２１５）のいずれもが前記信頼度閾値を満たさない場合、テキスト非依存話者検証器（２２０）に第２命令を提供する工程を備えていることと、
のうちの１つを備えており、
前記第２命令は前記テキスト非依存話者検証器（２２０）によって受信されると前記テキスト非依存話者検証器（２２０）に、
テキスト非依存話者検証ＴＩ－ＳＶモデルを使用することで、前記クエリを特徴付ける前記音声データ（１２０）の前記第２部分（１２２）を処理して、テキスト非依存評価ベクトル（２２４）を生成する工程と、
前記テキスト非依存評価ベクトル（２２４）が１つまたは複数のテキスト非依存参照ベクトル（２５４）の各々の１つに一致する尤度を各々示す、１つまたは複数のテキスト非依存信頼度スコア（２２５）を生成する工程であって、前記各テキスト非依存参照ベクトル（２５４）は、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々の１人に関連付けられる、前記テキスト非依存信頼度スコア（２２５）を生成する工程と、
１つまたは複数の前記テキスト依存信頼度スコア（２１５）および１つまたは複数の前記テキスト非依存信頼度スコア（２２５）に基づき、前記発話（１１９）を発声した前記話者の識別が、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）のいずれかを備えているかどうかを判定する工程と、
を実行させる、システム（１００）。
前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々は、個人リソースの異なる各々のセットにアクセスするためのアクセス許可を有しており、
前記クエリによって指定済みの前記アクションの実行は、前記発話（１１９）の前記話者として識別済みの各々の登録ユーザ（１０）に関連付けられた個人リソースの各々のセットへのアクセスを必要にする、
請求項１５に記載のシステム（１００）。
前記データ処理ハードウェア（５１０）は、前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）を実行するとともに、前記ユーザ装置（１０２）上に存在しており、かつ
前記テキスト非依存話者検証器（２２０）は、前記テキスト非依存話者検証ＴＩ－ＳＶモデルを実行するとともに、ネットワークを介して前記ユーザ装置（１０２）に通信する分散コンピューティングシステム（１１１）上に存在する、
請求項１５または１６に記載のシステム（１００）。
１つまたは複数の前記テキスト依存信頼度スコア（２１５）のいずれもが前記信頼度閾値を満たさない場合、前記テキスト非依存話者検証器（２２０）に前記第２命令を提供する工程は、前記第２命令と、１つまたは複数の前記テキスト依存信頼度スコア（２１５）と、を前記ユーザ装置（１０２）から前記分散コンピューティングシステム（１１１）に送信する工程を備えている、
請求項１７に記載のシステム（１００）。
前記データ処理ハードウェア（５１０）は、前記ユーザ装置（１０２）と、ネットワークを介して前記ユーザ装置（１０２）に通信する分散コンピューティングシステム（１１１）と、のうちの一方上に存在しており、
前記データ処理ハードウェア（５１０）は、前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）と前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）との両方を実行する、
請求項１５または１６記載のシステム（１００）。
前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）は、前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）よりも計算集約的である、
請求項１５～１９のいずれか１項に記載のシステム（１００）。
前記動作はさらに、
ホットワード検出モデル（１１０）を用いることで、前記クエリに先行する前記音声データ（１２０）中の前記所定ホットワードを検出する工程を備えており、
前記所定ホットワードを特徴付ける前記音声データ（１２０）の前記第１部分（１２１）は、前記ホットワード検出モデル（１１０）によって抽出される、
請求項１５～２０のいずれか１項に記載のシステム（１００）。
前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）および前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）は、複数のトレーニングデータセット（３１０）上でトレーニングされており、
前記各トレーニングデータセット（３１０）は、異なる各々の言語または方言に関連付けられているとともに、異なる話者によって各々の言語または方言で話される各対応するトレーニング発話（３２０）を備えており、
各対応するトレーニング発話（３２０）は、前記所定ホットワードを特徴付けるテキスト依存部分と、前記所定ホットワードに続くクエリ文を特徴付けるテキスト非依存部分と、を備えており、
前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）は、複数のトレーニングデータセット（３１０）のうちの各トレーニングデータセット（３１０）のうちの各対応するトレーニング発話（３２０）のテキスト依存部分上でトレーニングされており、
前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）は、複数のトレーニングデータセット（３１０）のうちの各トレーニングデータセット（３１０）のうちの各対応するトレーニング発話（３２０）のテキスト非依存部分上でトレーニングされる、
請求項１５～２１のいずれか１項に記載のシステム（１００）。
前記トレーニングデータセット（３１０）の少なくとも１つに関連付けられた各々の言語または方言で話された対応するトレーニング発話（３２０）は、他のトレーニングデータセット（３１０）の対応するトレーニング発話（３２０）とは異なる前記所定ホットワードを発音する、
請求項２２に記載のシステム（１００）。
前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２１２）は、前記複数のトレーニングデータセット（３１０）のうちの１つまたは複数のトレーニングデータセット（３１０）のうちの少なくとも１つの対応するトレーニング発話（３２０）のテキスト依存部分上でトレーニングされる、
請求項２２または２３に記載のシステム（１００）。
前記トレーニング発話（３２０）の前記テキスト非依存部分によって特徴付けられる前記クエリ文は、可変の言語コンテンツを備えている、
請求項２２～２４のいずれか１項に記載のシステム（１００）。
前記テキスト非依存評価ベクトルを生成するとき、前記テキスト非依存話者検証器（２２０）は、前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）を使用することで、前記所定ホットワードを特徴付ける前記音声データ（１２０）の前記第１部分（１２１）と、前記クエリを特徴付ける前記音声データ（１２０）の前記第２部分（１２２）と、の両方を処理する、
請求項１５～２５のいずれか１項に記載のシステム（１００）。
１つまたは複数の前記テキスト依存参照ベクトルの各々は、前記ユーザ装置（１０２）の１人または複数の異なる登録ユーザ（１０）の各々の１人によって発声された前記所定ホットワードの１つまたは複数の以前の前記発話（１１９）を受信することに応答して（１６０）、前記テキスト依存話者検証ＴＤ－ＳＶモデル（２１２）によって生成される、
請求項１５～２６のいずれか１項に記載のシステム（１００）。
１つまたは複数の前記テキスト非依存参照ベクトルの各々は、前記ユーザ装置（１０２）の前記１人または複数の異なる登録ユーザ（１０）の各々の１人によって発声された１つまたは複数の以前の前記発話（１１９）を受信することに応答（１６０）して、前記テキスト非依存話者検証ＴＩ－ＳＶモデル（２２２）によって生成される、
請求項１５～２７のいずれか１項に記載のシステム（１００）。