JP7173379B2

JP7173379B2 - 話者認識システムおよびその使用方法

Info

Publication number: JP7173379B2
Application number: JP2021569717A
Authority: JP
Inventors: 瓊瓊王; 浩司岡部; 孝文越仲
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-02-08
Filing date: 2020-02-05
Publication date: 2022-11-16
Anticipated expiration: 2040-02-05
Also published as: EP3921832A1; US20220130397A1; US20200258527A1; CN113557567A; US10803875B2; EP3921832A4; WO2020162639A1; JP2022519391A

Description

話者認識では、システムは、可変数のフレームを有する、音響特徴としても知られる生の特徴のシーケンスを受け取る。フレームは、特徴がデータを含む期間である。生の特徴は、情報が期間に基づいてセグメント化されることを意味するフレームレベルの特徴である。システムは、話者識別方式で話者識別を出力するか、または話者検証方式で本物／偽物の結果を出力することが期待される。出力された話者識別と本物／偽物の結果はどちらも、潜在的に多くのフレームを含む情報セット全体が解析されることを意味する発話レベルで判定される。フレームレベルの入力からそのような発話レベルの出力を生成するために、いくつかの話者認識システムでは、すべての有効フレームにわたるプーリングプロセスが使用される。一般的には、生の特徴のすべてのフレームに、フレーム内の情報の品質に関係なく同じ重要度が与えられることを意味する均等な重み付けのプーリングが使用される。

話者認識方法には、ｉ－ｖｅｃｔｏｒベースの方法とＤＮＮベースの話者埋め込みの方法とが含まれる。これらの方法はどちらも、フレームレベルの情報から発話レベルの話者認識結果の出力をそのように得るために均等な重み付けのプーリングｉを使用する。

ｉ－ｖｅｃｔｏｒベースの方法では、Ｌフレームの特徴シーケンス｛ｙ_１，ｙ_２，…，ｙ_Ｌ｝を有する発話から、次式に従って発話レベルの特徴ｘが抽出され、
Ｍ＝μ＋Ｔｘ
ここで、スーパーベクトルＭは、すべてのＭ_ｃを連結することによって生成され、

ｃは、ＧＭＭ－ＵＢＭにおけるガウス成分の指数である。すべてのフレームは、すべてのフレームの合計

のように等しく扱われる。
ＤＮＮベースの方法では、平均プーリング層がすべてのフレームに同じ重要度を与える。

本開示の少なくとも１つの実施形態は、各フレームの話者顕著性がフレームレベルから発話レベルへのプーリング特徴を重み付けするために使用されるように、話者顕著性マップを使用するニューラルネットワークに関する。ｉ－ｖｅｃｔｏｒベースの方法およびＤＮＮベースの方法における均等な重み付けのプーリングの代わりに、話者顕著性マップは、生の特徴の異なるフレームに異なる重み付けをする。話者認識においてより有益な、すなわち話者識別的なフレームは、プーリングプロセスにおいて他のフレームよりも多くの重みを有することになる。

図面は、詳細な説明と併せて、本発明の音声認識システムおよび方法の原理を説明するのに役立つ。図面は例示のためのものであり、本技術の適用を限定するものではない。

少なくとも１つの実施形態による話者認識システムの構成のブロック図である。少なくとも１つの実施形態による話者認識システムによって行われる動作のフローチャートである。少なくとも１つの実施形態による話者認識システムを訓練するための動作のフローチャートである。少なくとも１つの実施形態による話者特徴を抽出するための動作のフローチャートである。少なくとも１つの実施形態による話者認識システムの構成のブロック図である。少なくとも１つの実施形態による話者認識システムによって行われる動作のフローチャートである。少なくとも１つの実施形態による話者認識システムを訓練するための動作のフローチャートである。少なくとも１つの実施形態による話者特徴を抽出するための動作のフローチャートである。少なくとも１つの実施形態による話者認識システムを実装するためのコンピューティングデバイスのブロック図である。

図中の要素は簡単かつ明瞭にするように例示されており、必ずしも縮尺通りに描かれていないことを当業者は理解するであろう。例えば、集積回路アーキテクチャを示す図中の要素の一部の寸法は、本および代替の例示的な実施形態の理解の向上を助けるために、他の要素に対して誇張されている場合がある。

以下で、図を参照して実施形態を説明する。以下の詳細な説明は、本質的に単なる例示であり、本開示または本開示の用途および使用を限定することを意図されたものではない。さらに、本発明の前述の背景技術または以下の詳細な説明に提示される理論によって縛られる意図はない。

図１は、少なくとも１つの実施形態による話者認識システム１００の構成のブロック図である。話者認識システム１００は、生の特徴を受け取り、処理するように構成された訓練部１２０を含む。話者認識システムは、入力データを受け取り、訓練部１２０からの情報に基づいて話者特徴を出力するように構成された話者特徴抽出部１３０をさらに含む。

訓練部１２０は、訓練データストレージ１０１から受け取られた訓練データから音響特徴を抽出して、訓練データのフレームの各々における音響情報を決定するように構成された音響特徴抽出器１０２＿ａを含む。話者識別ニューラルネットワーク（ＮＮ）訓練器１０４は、音響特徴抽出器１０２＿ａから音響特徴を受け取り、話者ＩＤストレージ１０３から話者ＩＤ情報を受け取るように構成される。話者識別ＮＮ訓練器１０４は、話者識別ＮＮパラメータストレージ１０５に格納するための話者識別ＮＮパラメータを出力する。

話者識別ＮＮ訓練器１０４には、任意のタイプのニューラルネットワーク、例えば、時間遅延ニューラルネットワーク（ＴＤＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、ＬＳＴＭ、またはゲート付き回帰型ユニット（ＧＲＵ）が使用可能である。

話者事後分布抽出器１０６は、話者識別ＮＮパラメータストレージ１０５に格納された話者識別ＮＮパラメータを使用して、訓練データストレージ１０１内の音声発話ごとにターゲット話者事後分布を抽出するように構成される。話者事後分布抽出器１０６によって抽出された話者事後分布は、話者事後分布ストレージ１０７に格納される。少なくとも１つの実施形態では、話者事後分布抽出器１０６によって抽出される話者事後分布は、０から１の範囲のスカラー値である。

アテンションＮＮ訓練器１０８は、音響特徴抽出器１０２＿ａからの音響特徴と、話者事後分布ストレージ１０７からの対応する話者事後分布とを受け取るように構成される。アテンションＮＮ訓練器１０８は、アテンションＮＮを訓練し、アテンションＮＮパラメータを出力するように構成される。少なくとも１つの実施形態では、アテンションＮＮは単一の出力ノードを有する。アテンションＮＮパラメータストレージ１０９は、アテンションＮＮ訓練器１０８によって生成されたアテンションＮＮパラメータを格納するように構成される。

アテンションＮＮには、任意のタイプのニューラルネットワーク、例えば、時間遅延ニューラルネットワーク（ＴＤＮＮ）、畳み込みニューラルネットワーク（ＣＮＮ）、ＬＳＴＭ、またはゲート付き回帰型ユニット（ＧＲＵ）が適用可能である。少なくとも１つの実施形態では、アテンションＮＮ訓練器１０８に使用されるニューラルネットワークのタイプは、話者識別ＮＮ訓練器１０４に使用されるものと同じタイプのニューラルネットワークである。少なくとも１つの実施形態では、アテンションＮＮ訓練器１０８に使用されるニューラルネットワークのタイプは、話者識別ＮＮ訓練器１０４に使用されるものとは異なるタイプのニューラルネットワークである。

アテンションＮＮパラメータストレージ１０９に格納されるアテンションＮＮパラメータは、訓練部１２０が訓練データストレージ１０１からの訓練データを解析した結果である。アテンションＮＮパラメータは、入力データの話者の識別を決定し、かつ／または入力データの話者が偽物であるかどうかを確認するために、話者特徴抽出部１３０を使用して入力データを解析するために使用可能である。

話者特徴抽出部１３０は、入力データから音響特徴を抽出して、入力データのフレームの各々の音響特徴を識別するように構成された音響特徴抽出器１０２＿ｂを含む。音響特徴抽出器１０２＿ａと音響特徴抽出器１０２＿ｂとは、同じ機能を有する。少なくとも１つの実施形態では、音響特徴抽出器１０２＿ａと音響特徴抽出器１０２＿ｂの両方の機能を実施するために同じデバイスが使用される。少なくとも１つの実施形態では、音響特徴抽出器１０２＿ａの機能と音響特徴抽出器１０２＿ｂの機能とを実施するために異なるデバイスが使用される。

入力データからの音響特徴は、話者顕著性計算器１１０に入力される。話者顕著性計算器１１０は、アテンションＮＮパラメータストレージ１０９に格納されたアテンションＮＮパラメータを使用して、入力データのフレームごとの話者顕著性を計算するように構成される。話者顕著性計算器１１０は、入力データのフレームごとの重み係数を提供する。重み係数は、入力データの各フレームにおける有用情報の量に基づくものである。少なくとも１つのフレームの重み係数は、少なくとも１つの他のフレームの重み係数とは異なる。少なくとも１つの実施形態では、入力データの各フレームは、別個の重み係数を有する。少なくとも１つの実施形態では、入力データの少なくとも１つのフレームは、入力データの少なくとも１つの他のフレームと同じ重み係数を有する。多量の有用情報を有するフレームの例には、長時間の連続した音声を含むフレーム、フレーム内で特有の言い回しの使用、または背景雑音がほとんどもしくはまったくないフレームが含まれる。少量の有用データを有するフレームの例には、音声が混濁している、短時間の音声、複数の話者が一度に発話している、または多量の背景雑音のフレームが含まれる。話者顕著性計算器１１０は、より多くの量の有用情報を有するフレームにより高い重み付けを割り当てる。少なくとも１つの実施形態では、入力データのすべてのフレームは同じ持続時間を有する。少なくとも１つの実施形態では、入力データの少なくとも１つのフレームは、入力データの少なくとも１つの他のフレームとは異なる持続時間を有する。

話者特徴抽出器１１２は、話者特徴を識別するために、プーリングプロセス中に顕著性計算器１１０からの顕著性を利用する。発話特徴抽出器１１２はまた、プーリングプロセスで使用するために、話者特徴抽出器ストレージ１１１から話者特徴パラメータを受け取る。話者特徴抽出器１１２内にプーリングプロセスを含めることによって、固定されたＮＮパラメータの使用が回避される。その結果、話者特徴抽出器１１２は、異なる量の使用可能なデータ異なるフレームを有する多種多様な入力データに適応することができる。少なくとも１つの実施形態では、話者特徴は、入力データの話者の識別である。少なくとも１つの実施形態では、話者特徴は、入力データと、格納された話者特徴パラメータとの比較に基づく話者の認証である。

話者特徴抽出器１１２は、少なくとも１つのプーリングプロセスを行うことができる任意のタイプの特徴抽出器である。少なくとも１つの実施形態では、話者特徴抽出器１１２は、深層話者特徴抽出器である。少なくとも１つの実施形態では、話者特徴抽出器１１２は、ｉ－ｖｅｃｔｏｒ抽出器である。

顕著性計算器１１０を含まない他の手法と比較して、話者認識システム１００は、より高い精度で結果を提供することができる。データの異なるフレームに異なる重み付けをすることによって、より多くの量の使用可能なデータを含むフレームにより高い重要度が与えられる。その結果、話者認識システム１００は、他のシステムと比較して、偽陽性、偽陰性、および話者の誤識別の事例を減らすことができる。

話者顕著性計算器１１０は、入力データの異なるフレームに適用されるべき重みを決定する。入力音声発話ｘ＝（ｘ_１，…，ｘ_Ｌ）は、対応するフレーム内の使用可能なデータの量に基づいて入力データのフレームごとの、スカラースコアＳを出力するアテンションＮＮに入力される。フレームの音響特徴に関するスコアの勾配は

であり、ここで、ｘ_ｉは、フレームｉ（＝１，…，Ｌ）における音響特徴ベクトルであり、Ｌは、音声発話におけるフレームの総数であり、ｘは、Ｌ個の特徴ベクトルの行列であり、Ｗは、アテンションＮＮ訓練器１０８によって訓練され、アテンションＮＮパラメータストレージ１０９に格納されたアテンションＮＮパラメータである。フレームｉの顕著性は、勾配ベクトル

のｐノルムとして計算され、ここで、ｇ_ｉｊは、勾配ｇ_ｉのｊ番目の要素であり、ｐは、決定されるべきパラメータである。少なくとも１つの実施形態では、ｐは正の無限大であり、顕著性は勾配ベクトルのすべての次元にわたる最大要素である。ＮＮパラメータＷおよび入力音響特徴ｘ_ｉを使用して、入力データからのフレームの各々の顕著性が計算される。

他の話者特徴抽出器では、統計プーリング層は、可変長のフレームレベルの特徴ベクトルから固定次元の発話レベルの表現：

を取得し、ｈ_ｉは、プーリング層の前の層の出力であるフレームレベルにおけるボトルネック特徴である。対照的に、話者特徴抽出器１１２は、重み付き平均

を計算し、ここで、ｗ_ｉは、顕著性計算器１１０によって決定される。その結果、話者特徴抽出器１１２は、より高い精度およびより高い信頼度の話者特徴のより迅速な判定をもたらすより多くの情報を有するフレームに置かれる重要度を高めることができる。

話者認識システム１００は、顕著性計算の際に、話者認識にとってより重要なフレームに、より高い重みを割り当てる。ターゲット話者または話者候補群である音声発話の事後分布は、アテンションＮＮを訓練するために使用される。その結果、フレームに関するアテンションＮＮパラメータの勾配は、ターゲット話者事後分布に対するフレームの寄与度、すなわち話者認識のためのフレームの重要度を表すことになる。重み付けプーリングにより、結果として得られる話者特徴は、話者のより優れた認識を有することが期待される。よって、話者認識は、より正確であり、決定された話者特徴においてより高い信頼度を提供することが期待される。

図２は、少なくとも１つの実施形態による話者認識システムによって行われる動作のフローチャートである。少なくとも１つの実施形態では、図２の動作は、話者認識システム１００（図１）によって行われる。動作Ａ０１で、ＮＮが訓練される。動作Ａ０２で、動作Ａ０１からのＮＮの訓練に基づいて話者特徴が抽出される。

少なくとも１つの実施形態では、ＮＮ訓練は、１回の反復について行われる。少なくとも１つの実施形態では、ＮＮ訓練は、複数回の反復について行われる。少なくとも１つの実施形態では、ＮＮ訓練は、話者特徴抽出の前に行われ、更新されたデータを使用した話者特徴抽出の後に再び行われる。

図３は、少なくとも１つの実施形態による話者認識システムを訓練するための動作のフローチャートである。少なくとも１つの実施形態では、図３の動作は、話者認識システム１００の訓練部１２０によって行われる。少なくとも１つの実施形態では、図３の動作は、図２のＮＮ訓練Ａ０１の詳細である。以下の説明では、図３の動作の非限定的な例として訓練部１２０を使用する。

動作Ｂ０１で、音響特徴抽出器１０２＿ａが、訓練データストレージ１０１に格納された音声データを読み出す。少なくとも１つの実施形態では、音声データは、標準的な音声データ、例えば、ＮＩＳＴ２００６話者認識評価（ＳＲＥ）または２００８ＳＲＥである。少なくとも１つの実施形態では、音声データは、話者特徴候補に基づいてユーザによって事前に提供された音声データである。少なくとも１つの実施形態では、音声データは、追加の話者特徴候補が追加されるにつれて定期的に更新される。少なくとも１つの実施形態では、音響特徴抽出器１０２＿ａは、無線通信を介して音声データを受信する。少なくとも１つの実施形態では、音響特徴抽出器１０２＿ａは、有線接続を介して音声データを受信する。少なくとも１つの実施形態では、音響特徴抽出器１０２＿ａは、訓練部１２０から離れたサーバから音声データを受信する。

動作Ｂ０２で、音響特徴抽出器１０２＿ａは、音声データから音響特徴を抽出する。

動作Ｂ０３で、話者識別ＮＮ訓練器１０４は、話者ＩＤストレージ１０３に格納された話者ＩＤを読み出す。少なくとも１つの実施形態では、話者ＩＤは、新しい話者候補が含められるにつれて定期的に更新される。少なくとも１つの実施形態では、話者ＩＤは、音声データと同じデバイスに格納される。少なくとも１つの実施形態では、話者ＩＤは、音声データを格納するデバイスとは別のデバイスに格納される。少なくとも１つの実施形態では、話者識別ＮＮ訓練器１０４は、無線通信を介して話者ＩＤを受信する。少なくとも１つの実施形態では、話者識別ＮＮ訓練器１０４は、有線接続を介して話者ＩＤを受信する。少なくとも１つの実施形態では、話者識別ＮＮ訓練器１０４は、訓練部１２０から離れたサーバから話者ＩＤを受信する。

動作Ｂ０４で、話者識別ＮＮ訓練器１０４は、話者識別ＮＮを訓練する。話者特徴識別ＮＮ訓練器１０４は、読み出された話者ＩＤと、音声データからの抽出された音響特徴とに基づいて、話者識別ＮＮとのノードのパラメータを決定することによって、話者識別ＮＮを訓練する。少なくとも１つの実施形態では、話者識別ＮＮは、ＴＤＮＮ、ＣＮＮ、ＬＳＴＭ、ＧＲＵ、または別の適切なＮＮである。少なくとも１つの実施形態では、動作Ｂ０４は、話者ＩＤストレージ１０３への更新および／または訓練データストレージ１０１への更新に基づいて繰り返される。

動作Ｂ０５で、話者識別ＮＮ訓練器１０４によって生成された話者識別ＮＮパラメータが、話者識別ＮＮパラメータストレージ１０５に格納される。少なくとも１つの実施形態では、話者識別ＮＮパラメータは、話者ＩＤおよび音声データと同じデバイスに格納される。少なくとも１つの実施形態では、話者識別ＮＮパラメータは、話者ＩＤまたは音声データの少なくとも一方を格納するデバイスとは別のデバイスに格納される。

動作Ｂ０６で、話者事後分布抽出器１０６は、音声データについての話者事後分布を抽出する。話者事後分布抽出器１０６は、話者識別ＮＮパラメータストレージ１０５に格納されたパラメータに基づいて、話者識別ＮＮを使用して、音響特徴抽出器１０２＿ａからの音声データの抽出された音響特徴に基づいて、話者事後分布を抽出する。少なくとも１つの実施形態では、話者事後分布抽出器１０６によって抽出される話者事後分布は、０から１の範囲のスカラー値である。

動作Ｂ０７で、話者事後分布抽出器１０６からの話者事後分布が、話者事後分布ストレージ１０７に格納される。少なくとも１つの実施形態では、話者事後分布は、話者識別ＮＮパラメータ、話者ＩＤおよび音声データと同じデバイスに格納される。少なくとも１つの実施形態では、話者事後分布は、話者識別ＮＮパラメータ、話者ＩＤ、または音声データのうちの少なくとも１つを格納するデバイスとは別のデバイスに格納される。

動作Ｂ０８で、アテンションＮＮ訓練器１０８は、アテンションＮＮを訓練する。アテンションＮＮ訓練器は、音響特徴抽出器１０２＿ａによって抽出された音響特徴と、話者事後分布ストレージ１０７からの格納された話者事後分布とを使用して、アテンションＮＮを訓練する。少なくとも１つの実施形態では、アテンションＮＮは、ＴＤＮＮ、ＣＮＮ、ＬＳＴＭ、ＧＲＵ、または別の適切なＮＮである。少なくとも１つの実施形態では、アテンションＮＮは、話者識別ＮＮと同じタイプのＮＮである。少なくとも１つの実施形態では、アテンションＮＮは、話者識別ＮＮとは異なるタイプのＮＮである。

ステップＢ０９で、アテンションＮＮパラメータは、アテンションＮＮストレージ１０９に格納される。少なくとも１つの実施形態では、アテンションＮＮパラメータは、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤおよび音声データと同じデバイスに格納される。少なくとも１つの実施形態では、アテンションＮＮパラメータは、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤまたは音声データのうちの少なくとも１つを格納するデバイスとは別のデバイスに格納される。

少なくとも１つの実施形態では、図３の動作の順序が変更される。例えば、少なくとも１つの実施形態では、動作Ｂ０３は動作Ｂ０１の前に行われる。少なくとも１つの実施形態では、図３の少なくとも１つの動作は、別の動作と同時に行われる。例えば、少なくとも１つの実施形態では、動作Ｂ０２は動作Ｂ０３と同時に行われる。少なくとも１つの実施形態では、少なくとも１つの動作が図３の動作の前に行われる。例えば、少なくとも１つの実施形態では、音声データは、図３の動作の前に訓練データストレージ１０１に格納される。少なくとも１つの実施形態では、少なくとも１つの動作が図３の動作の後に行われる。例えば、少なくとも１つの実施形態では、音声データまたは話者ＩＤ情報が更新されるかどうかの判定が、動作Ｂ０９の後に続いて行われる。

図４は、少なくとも１つの実施形態による話者特徴を抽出するための動作のフローチャートである。少なくとも１つの実施形態では、図４の動作は、話者認識システム１００の話者特徴抽出部１３０によって行われる。少なくとも１つの実施形態では、図４の動作は、図２の話者特徴抽出Ａ０２の詳細である。以下の説明では、図４の動作の非限定的な例として話者特徴抽出部１３０を使用する。

動作Ｃ０１で、音響特徴抽出器１０２＿ｂは、入力データから入力音声データを読み出す。少なくとも１つの実施形態では、入力データは、生の発話として受け取られる。少なくとも１つの実施形態では、入力データは、解析のために非一時的記録可能媒体に格納される。少なくとも１つの実施形態では、入力データは２つ以上の発話を含む。

動作Ｃ０２で、音響特徴抽出器１０２＿ｂは、入力音声データから音響特徴を抽出する。少なくとも１つの実施形態では、動作Ｃ０２および動作Ｂ０２（図３）を行うために同じデバイスが使用される。少なくとも１つの実施形態では、動作Ｃ０２を行うために使用されるデバイスは、動作Ｂ０２を行うために使用されるデバイスとは異なる。

動作Ｃ０３で、顕著性計算器１１０は、アテンションＮＮパラメータストレージ１０９から、アテンションＮＮパラメータを読み出す。少なくとも１つの実施形態では、顕著性計算器１１０は、無線通信を介してアテンションＮＮパラメータを受信する。少なくとも１つの実施形態では、顕著性計算器１１０は、有線接続を介してアテンションＮＮパラメータを受信する。少なくとも１つの実施形態では、顕著性計算器１１０は、話者特徴抽出部１３０から離れたサーバからアテンションＮＮパラメータを受信する。

動作Ｃ０４で、顕著性計算器１１０は、入力音声データの各フレームの顕著性を計算する。顕著性計算器１１０は、少なくとも１つの実施形態によれば、上述したように、入力音声データの各フレームに重み割り当てる。入力音声データの異なるフレームに異なる重みを計算することによって、図４の動作は、話者認識の他の方法と比較して、話者特徴を抽出するためのより高い精度およびより高い信頼度を達成することができる。

動作Ｃ０５で、話者特徴抽出器１１２は、話者特徴抽出器ストレージ１１１に格納された話者特徴抽出器データを読み出す。少なくとも１つの実施形態では、話者特徴抽出器１１２は、無線通信を介して話者特徴抽出器データを受信する。少なくとも１つの実施形態では、話者特徴抽出器データは、アテンションＮＮパラメータ、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤおよび音声データと同じデバイスに格納される。少なくとも１つの実施形態では、話者特徴抽出器データは、アテンションＮＮパラメータ、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤまたは音声データのうちの少なくとも１つを格納するデバイスとは別のデバイスに格納される。少なくとも１つの実施形態では、話者特徴抽出器１１２は、有線接続を介して話者特徴抽出器データを受信する。少なくとも１つの実施形態では、話者特徴抽出器１１２は、話者特徴抽出部１３０から離れたサーバから話者特徴抽出器データを受信する。

動作Ｃ０６で、話者特徴抽出器１１２は、顕著性計算器１１０からの重みと、話者特徴抽出器ストレージ１１１からの話者特徴抽出器データとを使用して、話者特徴を抽出する。話者特徴抽出器１１２は、少なくとも１つの実施形態によれば、上述したように、話者特徴を抽出する。少なくとも１つの実施形態では、話者特徴は、入力データの話者の識別である。少なくとも１つの実施形態では、話者特徴は、既知の話者ＩＤと入力データの話者の決定された識別情報との比較に基づく話者の認証である。

少なくとも１つの実施形態では、図４の動作の順序が変更される。例えば、少なくとも１つの実施形態では、動作Ｃ０５は動作Ｃ０４の前に行われる。少なくとも１つの実施形態では、図４の少なくとも１つの動作は、別の動作と同時に行われる。例えば、少なくとも１つの実施形態では、動作Ｃ０３は動作Ｃ０５と同時に行われる。少なくとも１つの実施形態では、少なくとも１つの動作が図４の動作の前に行われる。例えば、少なくとも１つの実施形態では、入力データは、図４の動作の前に非一時的コンピュータ可読媒体に格納される。少なくとも１つの実施形態では、少なくとも１つの動作が図４の動作の後に行われる。例えば、少なくとも１つの実施形態では、図４の動作によって決定された話者特徴に基づいて、外部デバイスが制御される。

少なくとも１つの実施形態では、話者認識システム１００および／または図２～図４の動作は、外部デバイス（図示されていない）を制御するために使用可能である。例えば、話者認識システム１００が話者を認証するために使用される場合、認証されたユーザは、コンピュータシステムまたは物理的位置へのアクセスを提供され、認証されていないユーザは、コンピュータシステムまたは物理的位置へのアクセスを拒否される。少なくとも１つの実施形態では、話者認識システム１００は、有線または無線通信を介して、外部デバイスを遠隔制御するように構成される。少なくとも１つの実施形態では、話者認識システム１００は、認証されていないユーザによるアクセスの試みに応答して警報を発するよう外部デバイスを制御する。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、コンピュータシステムまたは物理的位置への不正アクセスのリスクが低減される。加えて、話者認識システム１００の重み付け方式を使用することによって、誤って正規ユーザに対してアクセスを妨げることが低減または回避される。

少なくとも１つの実施形態では、話者認識システム１００および／または図２～図４の動作は、ユーザにとっての関心対象の話者を識別するために使用可能である。例えば、ユーザが会話を楽しむ場合、ユーザは、話者認識システム１００を利用して話者を識別して、ユーザが話者についてもっとよく知ることができるようにすることができる。少なくとも１つの実施形態では、話者認識システム１００は、話者を調査する目的で話者を識別するために使用可能である。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、検索機能の精度が向上する。加えて、話者認識システム１００の重み付け方式を使用することによって、調査の精度も向上する。

図５は、少なくとも１つの実施形態による話者認識システム２００の構成のブロック図である。話者認識システム２００は、生の特徴を受け取り、処理するように構成された訓練部２２０を含む。話者認識システム２００は、入力データを受け取り、訓練部２２０からの情報に基づいて話者特徴を出力するように構成された話者特徴抽出部２３０をさらに含む。話者認識システム２００は、話者認識システム１００（図１）と同様であり、同様の要素は同じ参照番号を有する。話者認識システム１００からの同じ要素の詳細を、ここでは簡潔にするために省略する。

訓練部２２０は、話者認識システム１００（図１）の訓練部１２０と同様である。訓練部１２０と比較して、訓練部２２０は、話者事後分布ストレージ１０７から話者事後分布を受け取るように構成された分類器２１５を含む。分類器２１５は、話者事後分布をクラスに分類する。少なくとも１つの実施形態では、分類器２１５は、話者事後分布を２つのクラスに分類し、例えば、フレームを指すクラス０は有用データを有し、クラス１は有用データを欠くフレームを指す。少なくとも１つの実施形態では、分類器２１５は、フレーム内の有用データの量に基づいて、話者事後分布を３つ以上のクラスにクラス分けする。分類器２１５は、少なくとも１つの所定の閾値との比較に基づいて、話者事後分布をクラス分けする。所定の閾値の数は、分類器２１５が話者事後分布をクラス分けするクラスの数に基づくものである。

アテンションＮＮ訓練器１０８は、分類器２１５からのクラス分けを利用して、アテンションＮＮを訓練する。少なくとも１つの実施形態では、話者認識システム２００におけるアテンションＮＮは、クラス０およびクラス１に対応する２つの出力ノードのみを有する。話者事後分布ストレージ２０７に格納された話者事後分布と所定の閾値とを比較することによって、訓練部２２０は、より多くの量の有用情報を有するフレームを重視してアテンションＮＮをより正確に訓練することができる。その結果、話者特徴抽出部２３０に提供される情報は、他の手法と比較してより正確になる。

図６は、少なくとも１つの実施形態による話者認識システムによって行われる動作のフローチャートである。少なくとも１つの実施形態では、図６の動作は、話者認識システム２００（図５）によって行われる。動作Ｄ０１で、ＮＮが訓練される。動作Ｄ０２で、動作Ｄ０１からのＮＮの訓練に基づいて、話者特徴が抽出される。

図７は、少なくとも１つの実施形態による話者認識システムを訓練するための動作のフローチャートである。図７の動作は、図３の動作と同様である。図３の動作と比較して、図７は、データをクラスに分類しＥ０７、クラスのラベルを格納するＥ０８ための動作を含む。動作Ｅ０１～Ｅ０６は、図３の動作Ｂ０１～Ｂ０６と同様であり、よって簡潔にするためにこれらの動作の説明を省略する。以下の説明では、図７の動作の非限定的な例として訓練部２２０を使用する。

動作Ｅ０７で、分類器２１５は、事後分布をクラスに分類する。少なくとも１つの実施形態では、分類器２１５は、事後分布を２つのクラス、例えば、閾値以上の事後分布のクラス０および閾値未満の事後分布のクラス１に分類する。少なくとも１つの実施形態では、分類器２１５は、事後分布を３つ以上のクラスに分類する。クラス分けは、多量の有用情報を有するフレームと、有用情報がほとんどまたはまったくないフレームとを区別するために使用される。

ステップＥ０８で、分類器２１５は、クラスラベルを格納する。いくつかの実施形態では、分類器２１５は、話者事後分布ストレージ１０７内の情報の一部としてクラスラベルを格納する。少なくとも１つの実施形態では、クラスラベルは、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤおよび音声データと同じデバイスに格納される。少なくとも１つの実施形態では、クラスラベルは、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤまたは音声データのうちの少なくとも１つを格納するデバイスとは別のデバイスに格納される。

ステップＥ０９で、アテンションＮＮ訓練器１０８は、アテンションＮＮを訓練する。アテンションＮＮ訓練器１０８は、分類器２１５からのクラスラベルを使用するとともに、音響特徴抽出器１０２＿ａによって抽出された音響特徴、および話者事後分布ストレージ１０７からの格納された話者事後分布も使用してアテンションＮＮを訓練する。少なくとも１つの実施形態では、アテンションＮＮは、ＴＤＮＮ、ＣＮＮ、ＬＳＴＭ、ＧＲＵ、または別の適切なＮＮである。少なくとも１つの実施形態では、アテンションＮＮは、話者識別ＮＮと同じタイプのＮＮである。少なくとも１つの実施形態では、アテンションＮＮは、話者識別ＮＮとは異なるタイプのＮＮである。クラスラベルを使用してアテンションＮＮを訓練することによって、より多くの有用情報を有するフレームにより高い重要度が与えられる。その結果、訓練されたアテンションＮＮは、顕著性計算器、例えば、顕著性計算器１１０によって、話者認識システムにおける精度および信頼度を高めるためにより効果的に使用可能になる。

ステップＥ１０で、アテンションＮＮ訓練器２０９は、アテンションＮＮパラメータをストレージ２１０に格納する。少なくとも１つの実施形態では、アテンションＮＮパラメータは、クラスラベル、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤおよび音声データと同じデバイスに格納される。少なくとも１つの実施形態では、アテンションＮＮパラメータは、クラスラベル、話者事後分布、話者識別ＮＮパラメータ、話者ＩＤまたは音声データのうちの少なくとも１つを格納するデバイスとは別のデバイスに格納される。

少なくとも１つの実施形態では、図７の動作の順序が変更される。例えば、少なくとも１つの実施形態では、動作Ｅ０３は動作Ｅ０１の前に行われる。少なくとも１つの実施形態では、図７の少なくとも１つの動作は、別の動作と同時に行われる。例えば、少なくとも１つの実施形態では、動作Ｅ０２は動作Ｅ０３と同時に行われる。少なくとも１つの実施形態では、少なくとも１つの動作が図７の動作の前に行われる。例えば、少なくとも１つの実施形態では、音声データは、図７の動作の前に訓練データストレージ１０１に格納される。少なくとも１つの実施形態では、少なくとも１つの動作が図７の動作の後に行われる。例えば、少なくとも１つの実施形態では、音声データまたは話者ＩＤ情報が更新されるかどうかの判定が、動作Ｅ１０の後に続いて行われる。

図８は、少なくとも１つの実施形態による話者特徴を抽出するための動作のフローチャートである。図８の動作は、図４の動作と同様である。動作Ｆ０１～Ｆ０６は、図４の動作Ｃ０１～Ｃ０６と同様であり、よって、簡潔にするためにこれらの動作の説明を省略する。

少なくとも１つの実施形態では、図８の動作の順序が変更される。例えば、少なくとも１つの実施形態では、動作Ｆ０５は動作Ｆ０４の前に行われる。少なくとも１つの実施形態では、図８の少なくとも１つの動作は、別の動作と同時に行われる。例えば、少なくとも１つの実施形態では、動作Ｆ０３は動作Ｆ０５と同時に行われる。少なくとも１つの実施形態では、少なくとも１つの動作が図８の動作の前に行われる。例えば、少なくとも１つの実施形態では、入力データは、図８の動作の前に非一時的コンピュータ可読媒体に格納される。少なくとも１つの実施形態では、少なくとも１つの動作が図８の動作の後に行われる。例えば、少なくとも１つの実施形態では、図８の動作によって決定された話者特徴に基づいて、外部デバイスが制御される。

少なくとも１つの実施形態では、話者認識システム２００および／または図６～図８の動作は、外部デバイス（図示されていない）を制御するために使用可能である。例えば、話者認識システム２００が話者を認証するために使用される場合、認証されたユーザは、コンピュータシステムまたは物理的位置へのアクセスを提供され、認証されていないユーザは、コンピュータシステムまたは物理的位置へのアクセスを拒否される。少なくとも１つの実施形態では、話者認識システム２００は、有線または無線通信を介して、外部デバイスを遠隔制御するように構成される。少なくとも１つの実施形態では、話者認識システム２００は、認証されていないユーザによるアクセスの試みに応答して警報を発するよう外部デバイスを制御する。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、コンピュータシステムまたは物理的位置への不正アクセスのリスクが低減される。加えて、話者認識システム２００の重み付け方式を使用することによって、誤って正規ユーザに対してアクセスを妨げることが低減または回避される。

少なくとも１つの実施形態では、話者認識システム２００および／または図６～図８の動作は、ユーザにとっての関心対象の話者を識別するために使用可能である。例えば、ユーザが会話を楽しむ場合、ユーザは、話者認識システム２００を利用して話者を識別して、ユーザが話者についてもっとよく知ることができるようにすることができる。少なくとも１つの実施形態では、話者認識システム２００は、話者を調査する目的で話者を識別するために使用可能である。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、検索機能の精度が向上する。加えて、話者認識システム２００の重み付け方式を使用することによって、調査の精度も向上する。

図９は、少なくとも１つの実施形態による話者認識システムを実装するためのコンピューティングデバイスのブロック図である。システム９００は、ハードウェアプロセッサ９０２と、パラメータ９０６、すなわち、話者認識システムのタスクを実施するための実行可能命令セットで符号化された、すなわち、実行可能命令セットを格納する非一時的コンピュータ可読記憶媒体９０４とを含む。コンピュータ可読記憶媒体９０４はまた、話者認識システムを実装する際に利用される外部デバイスまたは他のシステムとインターフェースするための命令９０７でも符号化される。プロセッサ９０２は、バス９０８を介してコンピュータ可読記憶媒体９０４に電気的に結合される。プロセッサ９０２はまた、バス９０８によって入出力インターフェース９１０にも電気的に結合される。ネットワークインターフェース９１２もまた、バス９０８を介してプロセッサ９０２に電気的に接続される。ネットワークインターフェース９１２はネットワーク９１４に接続され、これによりプロセッサ９０２およびコンピュータ可読記憶媒体９０４はネットワーク９１４を介して外部要素に接続することができる。プロセッサ９０２は、システム９００を、話者認識システム動作の一部または全部を行うために使用可能とするために、命令を実行し、コンピュータ可読記憶媒体９０４内のパラメータ９０６を使用するように構成される。

少なくとも１つの実施形態では、プロセッサ９０２は、中央処理装置（ＣＰＵ）、マルチプロセッサ、分散処理システム、特定用途向け集積回路（ＡＳＩＣ）、および／または適切な処理装置である。

少なくとも１つの実施形態では、コンピュータ可読記憶媒体９０４は、電子、磁気、光学、電磁、赤外線、および／または半導体システム（または装置またはデバイス）である。例えば、コンピュータ可読記憶媒体９０４は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、剛性磁気ディスク、および／または光ディスクを含む。光ディスクを使用する少なくとも１つの実施形態では、コンピュータ可読記憶媒体９０４は、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、コンパクトディスク読み出し／書き込み（ＣＤ－Ｒ／Ｗ）、および／またはデジタルビデオディスク（ＤＶＤ）を含む。

少なくとも１つの実施形態では、記憶媒体９０４は、システム９００に話者認識システムの動作を行わせるように構成されたパラメータ９０６を格納する。少なくとも１つの実施形態では、記憶媒体９０４はまた、話者認識システムとして機能するために必要な情報、ならびに訓練データ９１６、話者ＩＤ９１８、話者識別ＮＮパラメータ９２０、話者事後分布９２２、アテンションＮＮパラメータ９２４、入力データ９２６、話者特徴情報９２８、クラス情報９３０、および／または話者認識システムの動作を行うための実行可能命令セットなどの、動作中に生成される情報も格納する。

少なくとも１つの実施形態では、記憶媒体９０４は、話者認識システムを実装するための外部デバイスまたは他のシステムとインターフェースするための命令９０７を格納する。命令９０７は、プロセッサ９０２が、話者認識システムの動作を効果的に実施するために外部デバイスまたは他のシステムによって読み取り可能な命令を生成することを可能にする。

システム９００は、入出力インターフェース９１０を含む。入出力インターフェース９１０は、外部回路に結合される。少なくとも１つの実施形態では、入出力インターフェース９１０は、プロセッサ９０２に情報およびコマンドを伝達するためのキーボード、キーパッド、マウス、トラックボール、トラックパッド、および／またはカーソル方向キーを含む。

システム９００はまた、プロセッサ９０２に結合されたネットワークインターフェース９１２も含む。ネットワークインターフェース９１２は、システム９００が、１つまたは複数の他のコンピュータシステムが接続されているネットワーク９１４と通信することを可能にする。ネットワークインターフェース９１２は、ＢＬＵＥＴＯＯＴＨ、ＷＩＦＩ、ＷＩＭＡＸ、ＧＰＲＳ、もしくはＷＣＤＭＡなどの無線ネットワークインターフェース、またはＥＴＨＥＲＮＥＴ、ＵＳＢ、もしくはＩＥＥＥ－１３９４などの有線ネットワークインターフェースを含む。少なくとも１つの実施形態では、話者認識システムは、２つ以上のシステム９００に実装され、メモリタイプ、メモリアレイレイアウト、入出力電圧、入出力ピン位置およびチャージポンプなどの情報が、ネットワーク９１４を介して異なるシステム９００間で交換される。

本明細書の一態様は、話者認識システムに関する。話者認識システムは、命令を格納するように構成された非一時的コンピュータ可読媒体を含む。話者認識システムは、非一時的コンピュータ可読媒体に接続されたプロセッサをさらに含む。プロセッサは、入力音声データ内の複数のフレームの各フレームから音響特徴を抽出するための命令を実行するように構成される。プロセッサは、抽出された音響特徴に基づいて、第１のニューラルネットワーク（ＮＮ）を使用して複数のフレームのフレームごとの顕著性値を計算するための命令を実行するように構成され、第１のＮＮは、話者事後分布を使用する訓練されたＮＮである。プロセッサは、複数のフレームのフレームごとの顕著性値を使用して話者特徴を抽出するための命令を実行するように構成される。

本明細書の一態様は、話者認識方法に関する。話者認識方法は、入力音声データを受け取ることを含む。話者認識方法は、入力音声データ内の複数のフレームの各フレームから音響特徴を抽出することを含む。話者認識方法は、抽出された音響特徴に基づいて第１のニューラルネットワーク（ＮＮ）を使用して複数のフレームのフレームごとの顕著性値を計算することを含み、第１のＮＮは話者事後分布を使用する訓練されたＮＮである。話者認識方法は、複数のフレームのフレームごとの顕著性値を使用して話者特徴を抽出することを含む。

以上では、当業者が本開示の態様をよりよく理解できるように、いくつかの実施形態の特徴を概説している。当業者は、本明細書で紹介された実施形態と同じ目的を実行し、かつ／または同じ利点を達成するための他のプロセスおよび構造を設計または変更するための基礎として本開示を容易に使用し得ることを理解するはずである。当業者はまた、そのような均等な構成が本開示の趣旨および範囲から逸脱するものではなく、本開示の趣旨および範囲から逸脱することなく本明細書において様々な変更、置換、および改変を行い得ることにも気付くはずである。

上記の例示的な実施形態はまた、以下に限定されないが、以下の付記によってもその全部または一部が説明され得る。

（付記１）
命令を格納するように構成された非一時的コンピュータ可読媒体と、
前記非一時的コンピュータ可読媒体に接続されたプロセッサであって、
入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク（ＮＮ）である第１のＮＮＮＮを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出する
ための前記命令を実行するように構成されるプロセッサと
を含む、話者認識システム。

（付記２）
前記プロセッサが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用して前記話者特徴を抽出するための前記命令を実行するように構成される、付記１に記載の話者認識システム。

（付記３）
前記プロセッサが、前記話者事後分布を使用して前記第１のＮＮを訓練するための前記命令を実行するように構成される、付記１に記載の話者認識システム。

（付記４）
前記プロセッサが、訓練データおよび話者識別情報を使用して前記話者事後分布を生成するための前記命令を実行するように構成される、付記３に記載の話者認識システム。

（付記５）
前記プロセッサが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、付記１に記載の話者認識システム。

（付記６）
前記プロセッサが、前記第１のＮＮの第１のノードおよび前記第１のＮＮの第２のノードを使用して前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成され、前記第１のノードで出力される前記複数のフレームの第１のフレームは、前記第２のノードで出力される前記複数のフレームの第２のフレームよりも前記第１のフレームがより有用な情報を有することを示す、付記１に記載の話者認識システム。

（付記７）
前記プロセッサが、前記抽出された音響特徴に基づく前記第１のＮＮの前記第１のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、付記６に記載の話者認識システム。

（付記８）
前記プロセッサが、前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力するための前記命令を実行するように構成される、付記１に記載の話者認識システム。

（付記９）
前記プロセッサが、前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングするための前記命令を実行するように構成される、付記１に記載の話者認識システム。

（付記１０）
前記プロセッサが、前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可するための前記命令を実行するように構成される、付記１に記載の話者認識システム。

（付記１１）
入力音声データを受け取り、
前記入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク（ＮＮ）である第１のＮＮを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出することと
を含む、話者認識方法。

（付記１２）
前記話者特徴を抽出することが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用することを含む、付記１１に記載の話者認識方法。

（付記１３）
前記話者事後分布を使用して前記第１のＮＮを訓練することをさらに含む、付記１１に記載の話者認識方法。

（付記１４）
訓練データおよび話者識別情報を使用して前記話者事後分布を生成することをさらに含む、付記１３に記載の話者認識方法。

（付記１５）
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、付記１１に記載の話者認識方法。

（付記１６）
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記第１のＮＮの第１のノードからと前記第１のＮＮの第２のノードからの情報を受け取ることを含み、前記第１のノードで出力される前記複数のフレームの第１のフレームは、前記第２のノードで出力される前記複数のフレームの第２のフレームよりも前記第１のフレームがより有用な情報を有することを示す、付記１１に記載の話者認識方法。

（付記１７）
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記第１のＮＮの前記第１のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、付記１６に記載の話者認識方法。

（付記１８）
前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力することをさらに含む、付記１１に記載の話者認識方法。

（付記１９）
前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングすることをさらに含む、付記１１に記載の話者認識方法。

（付記２０）
前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可することをさらに含む、付記１１に記載の話者認識方法。

本出願は、２０１９年２月８日に出願された米国特許出願第１６／２７０，５９７号に基づき、その優先権の利益を主張するものであり、その開示全体が本明細書に組み込まれる。

Claims

命令を格納するように構成された非一時的コンピュータ可読媒体と、
前記非一時的コンピュータ可読媒体に接続されたプロセッサであって、
入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク（ＮＮ）である第１のＮＮを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出する
ための前記命令を実行するように構成されるプロセッサと
を含む、話者認識システム。
前記プロセッサが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用して前記話者特徴を抽出するための前記命令を実行するように構成される、請求項１に記載の話者認識システム。
前記プロセッサが、前記話者事後分布を使用して前記第１のＮＮを訓練するための前記命令を実行するように構成される、請求項１に記載の話者認識システム。
前記プロセッサが、訓練データおよび話者識別情報を使用して前記話者事後分布を生成するための前記命令を実行するように構成される、請求項３に記載の話者認識システム。
前記プロセッサが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、請求項１に記載の話者認識システム。
前記プロセッサが、前記第１のＮＮの第１のノードおよび前記第１のＮＮの第２のノードを使用して前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成され、前記第１のノードで出力される前記複数のフレームの第１のフレームは、前記第２のノードで出力される前記複数のフレームの第２のフレームよりも前記第１のフレームがより有用な情報を有することを示す、請求項１に記載の話者認識システム。
前記プロセッサが、前記抽出された音響特徴に基づく前記第１のＮＮの前記第１のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、請求項６に記載の話者認識システム。
前記プロセッサが、前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力するための前記命令を実行するように構成される、請求項１に記載の話者認識システム。
前記プロセッサが、前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングするための前記命令を実行するように構成される、請求項１に記載の話者認識システム。
前記プロセッサが、前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可するための前記命令を実行するように構成される、請求項１に記載の話者認識システム。
入力音声データを受け取り、
前記入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク（ＮＮ）である第１のＮＮを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出することと
を含む、話者認識方法。
前記話者特徴を抽出することが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用することを含む、請求項１１に記載の話者認識方法。
前記話者事後分布を使用して前記第１のＮＮを訓練することをさらに含む、請求項１１に記載の話者認識方法。
訓練データおよび話者識別情報を使用して前記話者事後分布を生成することをさらに含む、請求項１３に記載の話者認識方法。
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、請求項１１に記載の話者認識方法。
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記第１のＮＮの第１のノードからと前記第１のＮＮの第２のノードからの情報を受け取ることを含み、前記第１のノードで出力される前記複数のフレームの第１のフレームは、前記第２のノードで出力される前記複数のフレームの第２のフレームよりも前記第１のフレームがより有用な情報を有することを示す、請求項１１に記載の話者認識方法。
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記第１のＮＮの前記第１のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、請求項１６に記載の話者認識方法。
前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力することをさらに含む、請求項１１に記載の話者認識方法。
前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングすることをさらに含む、請求項１１に記載の話者認識方法。
前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可することをさらに含む、請求項１１に記載の話者認識方法。