JP7173379B2 - 話者認識システムおよびその使用方法 - Google Patents

話者認識システムおよびその使用方法 Download PDF

Info

Publication number
JP7173379B2
JP7173379B2 JP2021569717A JP2021569717A JP7173379B2 JP 7173379 B2 JP7173379 B2 JP 7173379B2 JP 2021569717 A JP2021569717 A JP 2021569717A JP 2021569717 A JP2021569717 A JP 2021569717A JP 7173379 B2 JP7173379 B2 JP 7173379B2
Authority
JP
Japan
Prior art keywords
speaker
frame
frames
features
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021569717A
Other languages
English (en)
Other versions
JP2022519391A (ja
Inventor
瓊瓊 王
浩司 岡部
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2022519391A publication Critical patent/JP2022519391A/ja
Application granted granted Critical
Publication of JP7173379B2 publication Critical patent/JP7173379B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)

Description

話者認識では、システムは、可変数のフレームを有する、音響特徴としても知られる生の特徴のシーケンスを受け取る。フレームは、特徴がデータを含む期間である。生の特徴は、情報が期間に基づいてセグメント化されることを意味するフレームレベルの特徴である。システムは、話者識別方式で話者識別を出力するか、または話者検証方式で本物/偽物の結果を出力することが期待される。出力された話者識別と本物/偽物の結果はどちらも、潜在的に多くのフレームを含む情報セット全体が解析されることを意味する発話レベルで判定される。フレームレベルの入力からそのような発話レベルの出力を生成するために、いくつかの話者認識システムでは、すべての有効フレームにわたるプーリングプロセスが使用される。一般的には、生の特徴のすべてのフレームに、フレーム内の情報の品質に関係なく同じ重要度が与えられることを意味する均等な重み付けのプーリングが使用される。
話者認識方法には、i-vectorベースの方法とDNNベースの話者埋め込みの方法とが含まれる。これらの方法はどちらも、フレームレベルの情報から発話レベルの話者認識結果の出力をそのように得るために均等な重み付けのプーリングiを使用する。
i-vectorベースの方法では、Lフレームの特徴シーケンス{y,y,…,y}を有する発話から、次式に従って発話レベルの特徴xが抽出され、
M=μ+Tx
ここで、スーパーベクトルMは、すべてのMを連結することによって生成され、
Figure 0007173379000001
cは、GMM-UBMにおけるガウス成分の指数である。すべてのフレームは、すべてのフレームの合計
Figure 0007173379000002
のように等しく扱われる。
DNNベースの方法では、平均プーリング層がすべてのフレームに同じ重要度を与える。
本開示の少なくとも1つの実施形態は、各フレームの話者顕著性がフレームレベルから発話レベルへのプーリング特徴を重み付けするために使用されるように、話者顕著性マップを使用するニューラルネットワークに関する。i-vectorベースの方法およびDNNベースの方法における均等な重み付けのプーリングの代わりに、話者顕著性マップは、生の特徴の異なるフレームに異なる重み付けをする。話者認識においてより有益な、すなわち話者識別的なフレームは、プーリングプロセスにおいて他のフレームよりも多くの重みを有することになる。
図面は、詳細な説明と併せて、本発明の音声認識システムおよび方法の原理を説明するのに役立つ。図面は例示のためのものであり、本技術の適用を限定するものではない。
少なくとも1つの実施形態による話者認識システムの構成のブロック図である。 少なくとも1つの実施形態による話者認識システムによって行われる動作のフローチャートである。 少なくとも1つの実施形態による話者認識システムを訓練するための動作のフローチャートである。 少なくとも1つの実施形態による話者特徴を抽出するための動作のフローチャートである。 少なくとも1つの実施形態による話者認識システムの構成のブロック図である。 少なくとも1つの実施形態による話者認識システムによって行われる動作のフローチャートである。 少なくとも1つの実施形態による話者認識システムを訓練するための動作のフローチャートである。 少なくとも1つの実施形態による話者特徴を抽出するための動作のフローチャートである。 少なくとも1つの実施形態による話者認識システムを実装するためのコンピューティングデバイスのブロック図である。
図中の要素は簡単かつ明瞭にするように例示されており、必ずしも縮尺通りに描かれていないことを当業者は理解するであろう。例えば、集積回路アーキテクチャを示す図中の要素の一部の寸法は、本および代替の例示的な実施形態の理解の向上を助けるために、他の要素に対して誇張されている場合がある。
以下で、図を参照して実施形態を説明する。以下の詳細な説明は、本質的に単なる例示であり、本開示または本開示の用途および使用を限定することを意図されたものではない。さらに、本発明の前述の背景技術または以下の詳細な説明に提示される理論によって縛られる意図はない。
図1は、少なくとも1つの実施形態による話者認識システム100の構成のブロック図である。話者認識システム100は、生の特徴を受け取り、処理するように構成された訓練部120を含む。話者認識システムは、入力データを受け取り、訓練部120からの情報に基づいて話者特徴を出力するように構成された話者特徴抽出部130をさらに含む。
訓練部120は、訓練データストレージ101から受け取られた訓練データから音響特徴を抽出して、訓練データのフレームの各々における音響情報を決定するように構成された音響特徴抽出器102_aを含む。話者識別ニューラルネットワーク(NN)訓練器104は、音響特徴抽出器102_aから音響特徴を受け取り、話者IDストレージ103から話者ID情報を受け取るように構成される。話者識別NN訓練器104は、話者識別NNパラメータストレージ105に格納するための話者識別NNパラメータを出力する。
話者識別NN訓練器104には、任意のタイプのニューラルネットワーク、例えば、時間遅延ニューラルネットワーク(TDNN)、畳み込みニューラルネットワーク(CNN)、LSTM、またはゲート付き回帰型ユニット(GRU)が使用可能である。
話者事後分布抽出器106は、話者識別NNパラメータストレージ105に格納された話者識別NNパラメータを使用して、訓練データストレージ101内の音声発話ごとにターゲット話者事後分布を抽出するように構成される。話者事後分布抽出器106によって抽出された話者事後分布は、話者事後分布ストレージ107に格納される。少なくとも1つの実施形態では、話者事後分布抽出器106によって抽出される話者事後分布は、0から1の範囲のスカラー値である。
アテンションNN訓練器108は、音響特徴抽出器102_aからの音響特徴と、話者事後分布ストレージ107からの対応する話者事後分布とを受け取るように構成される。アテンションNN訓練器108は、アテンションNNを訓練し、アテンションNNパラメータを出力するように構成される。少なくとも1つの実施形態では、アテンションNNは単一の出力ノードを有する。アテンションNNパラメータストレージ109は、アテンションNN訓練器108によって生成されたアテンションNNパラメータを格納するように構成される。
アテンションNNには、任意のタイプのニューラルネットワーク、例えば、時間遅延ニューラルネットワーク(TDNN)、畳み込みニューラルネットワーク(CNN)、LSTM、またはゲート付き回帰型ユニット(GRU)が適用可能である。少なくとも1つの実施形態では、アテンションNN訓練器108に使用されるニューラルネットワークのタイプは、話者識別NN訓練器104に使用されるものと同じタイプのニューラルネットワークである。少なくとも1つの実施形態では、アテンションNN訓練器108に使用されるニューラルネットワークのタイプは、話者識別NN訓練器104に使用されるものとは異なるタイプのニューラルネットワークである。
アテンションNNパラメータストレージ109に格納されるアテンションNNパラメータは、訓練部120が訓練データストレージ101からの訓練データを解析した結果である。アテンションNNパラメータは、入力データの話者の識別を決定し、かつ/または入力データの話者が偽物であるかどうかを確認するために、話者特徴抽出部130を使用して入力データを解析するために使用可能である。
話者特徴抽出部130は、入力データから音響特徴を抽出して、入力データのフレームの各々の音響特徴を識別するように構成された音響特徴抽出器102_bを含む。音響特徴抽出器102_aと音響特徴抽出器102_bとは、同じ機能を有する。少なくとも1つの実施形態では、音響特徴抽出器102_aと音響特徴抽出器102_bの両方の機能を実施するために同じデバイスが使用される。少なくとも1つの実施形態では、音響特徴抽出器102_aの機能と音響特徴抽出器102_bの機能とを実施するために異なるデバイスが使用される。
入力データからの音響特徴は、話者顕著性計算器110に入力される。話者顕著性計算器110は、アテンションNNパラメータストレージ109に格納されたアテンションNNパラメータを使用して、入力データのフレームごとの話者顕著性を計算するように構成される。話者顕著性計算器110は、入力データのフレームごとの重み係数を提供する。重み係数は、入力データの各フレームにおける有用情報の量に基づくものである。少なくとも1つのフレームの重み係数は、少なくとも1つの他のフレームの重み係数とは異なる。少なくとも1つの実施形態では、入力データの各フレームは、別個の重み係数を有する。少なくとも1つの実施形態では、入力データの少なくとも1つのフレームは、入力データの少なくとも1つの他のフレームと同じ重み係数を有する。多量の有用情報を有するフレームの例には、長時間の連続した音声を含むフレーム、フレーム内で特有の言い回しの使用、または背景雑音がほとんどもしくはまったくないフレームが含まれる。少量の有用データを有するフレームの例には、音声が混濁している、短時間の音声、複数の話者が一度に発話している、または多量の背景雑音のフレームが含まれる。話者顕著性計算器110は、より多くの量の有用情報を有するフレームにより高い重み付けを割り当てる。少なくとも1つの実施形態では、入力データのすべてのフレームは同じ持続時間を有する。少なくとも1つの実施形態では、入力データの少なくとも1つのフレームは、入力データの少なくとも1つの他のフレームとは異なる持続時間を有する。
話者特徴抽出器112は、話者特徴を識別するために、プーリングプロセス中に顕著性計算器110からの顕著性を利用する。発話特徴抽出器112はまた、プーリングプロセスで使用するために、話者特徴抽出器ストレージ111から話者特徴パラメータを受け取る。話者特徴抽出器112内にプーリングプロセスを含めることによって、固定されたNNパラメータの使用が回避される。その結果、話者特徴抽出器112は、異なる量の使用可能なデータ異なるフレームを有する多種多様な入力データに適応することができる。少なくとも1つの実施形態では、話者特徴は、入力データの話者の識別である。少なくとも1つの実施形態では、話者特徴は、入力データと、格納された話者特徴パラメータとの比較に基づく話者の認証である。
話者特徴抽出器112は、少なくとも1つのプーリングプロセスを行うことができる任意のタイプの特徴抽出器である。少なくとも1つの実施形態では、話者特徴抽出器112は、深層話者特徴抽出器である。少なくとも1つの実施形態では、話者特徴抽出器112は、i-vector抽出器である。
顕著性計算器110を含まない他の手法と比較して、話者認識システム100は、より高い精度で結果を提供することができる。データの異なるフレームに異なる重み付けをすることによって、より多くの量の使用可能なデータを含むフレームにより高い重要度が与えられる。その結果、話者認識システム100は、他のシステムと比較して、偽陽性、偽陰性、および話者の誤識別の事例を減らすことができる。
話者顕著性計算器110は、入力データの異なるフレームに適用されるべき重みを決定する。入力音声発話x=(x,…,x)は、対応するフレーム内の使用可能なデータの量に基づいて入力データのフレームごとの、スカラースコアSを出力するアテンションNNに入力される。フレームの音響特徴に関するスコアの勾配は
Figure 0007173379000003
であり、ここで、xは、フレームi(=1,…,L)における音響特徴ベクトルであり、Lは、音声発話におけるフレームの総数であり、xは、L個の特徴ベクトルの行列であり、Wは、アテンションNN訓練器108によって訓練され、アテンションNNパラメータストレージ109に格納されたアテンションNNパラメータである。フレームiの顕著性は、勾配ベクトル
Figure 0007173379000004
のpノルムとして計算され、ここで、gijは、勾配gのj番目の要素であり、pは、決定されるべきパラメータである。少なくとも1つの実施形態では、pは正の無限大であり、顕著性は勾配ベクトルのすべての次元にわたる最大要素である。NNパラメータWおよび入力音響特徴xを使用して、入力データからのフレームの各々の顕著性が計算される。
他の話者特徴抽出器では、統計プーリング層は、可変長のフレームレベルの特徴ベクトルから固定次元の発話レベルの表現:
Figure 0007173379000005
を取得し、hは、プーリング層の前の層の出力であるフレームレベルにおけるボトルネック特徴である。対照的に、話者特徴抽出器112は、重み付き平均
Figure 0007173379000006
を計算し、ここで、wは、顕著性計算器110によって決定される。その結果、話者特徴抽出器112は、より高い精度およびより高い信頼度の話者特徴のより迅速な判定をもたらすより多くの情報を有するフレームに置かれる重要度を高めることができる。
話者認識システム100は、顕著性計算の際に、話者認識にとってより重要なフレームに、より高い重みを割り当てる。ターゲット話者または話者候補群である音声発話の事後分布は、アテンションNNを訓練するために使用される。その結果、フレームに関するアテンションNNパラメータの勾配は、ターゲット話者事後分布に対するフレームの寄与度、すなわち話者認識のためのフレームの重要度を表すことになる。重み付けプーリングにより、結果として得られる話者特徴は、話者のより優れた認識を有することが期待される。よって、話者認識は、より正確であり、決定された話者特徴においてより高い信頼度を提供することが期待される。
図2は、少なくとも1つの実施形態による話者認識システムによって行われる動作のフローチャートである。少なくとも1つの実施形態では、図2の動作は、話者認識システム100(図1)によって行われる。動作A01で、NNが訓練される。動作A02で、動作A01からのNNの訓練に基づいて話者特徴が抽出される。
少なくとも1つの実施形態では、NN訓練は、1回の反復について行われる。少なくとも1つの実施形態では、NN訓練は、複数回の反復について行われる。少なくとも1つの実施形態では、NN訓練は、話者特徴抽出の前に行われ、更新されたデータを使用した話者特徴抽出の後に再び行われる。
図3は、少なくとも1つの実施形態による話者認識システムを訓練するための動作のフローチャートである。少なくとも1つの実施形態では、図3の動作は、話者認識システム100の訓練部120によって行われる。少なくとも1つの実施形態では、図3の動作は、図2のNN訓練A01の詳細である。以下の説明では、図3の動作の非限定的な例として訓練部120を使用する。
動作B01で、音響特徴抽出器102_aが、訓練データストレージ101に格納された音声データを読み出す。少なくとも1つの実施形態では、音声データは、標準的な音声データ、例えば、NIST2006話者認識評価(SRE)または2008SREである。少なくとも1つの実施形態では、音声データは、話者特徴候補に基づいてユーザによって事前に提供された音声データである。少なくとも1つの実施形態では、音声データは、追加の話者特徴候補が追加されるにつれて定期的に更新される。少なくとも1つの実施形態では、音響特徴抽出器102_aは、無線通信を介して音声データを受信する。少なくとも1つの実施形態では、音響特徴抽出器102_aは、有線接続を介して音声データを受信する。少なくとも1つの実施形態では、音響特徴抽出器102_aは、訓練部120から離れたサーバから音声データを受信する。
動作B02で、音響特徴抽出器102_aは、音声データから音響特徴を抽出する。
動作B03で、話者識別NN訓練器104は、話者IDストレージ103に格納された話者IDを読み出す。少なくとも1つの実施形態では、話者IDは、新しい話者候補が含められるにつれて定期的に更新される。少なくとも1つの実施形態では、話者IDは、音声データと同じデバイスに格納される。少なくとも1つの実施形態では、話者IDは、音声データを格納するデバイスとは別のデバイスに格納される。少なくとも1つの実施形態では、話者識別NN訓練器104は、無線通信を介して話者IDを受信する。少なくとも1つの実施形態では、話者識別NN訓練器104は、有線接続を介して話者IDを受信する。少なくとも1つの実施形態では、話者識別NN訓練器104は、訓練部120から離れたサーバから話者IDを受信する。
動作B04で、話者識別NN訓練器104は、話者識別NNを訓練する。話者特徴識別NN訓練器104は、読み出された話者IDと、音声データからの抽出された音響特徴とに基づいて、話者識別NNとのノードのパラメータを決定することによって、話者識別NNを訓練する。少なくとも1つの実施形態では、話者識別NNは、TDNN、CNN、LSTM、GRU、または別の適切なNNである。少なくとも1つの実施形態では、動作B04は、話者IDストレージ103への更新および/または訓練データストレージ101への更新に基づいて繰り返される。
動作B05で、話者識別NN訓練器104によって生成された話者識別NNパラメータが、話者識別NNパラメータストレージ105に格納される。少なくとも1つの実施形態では、話者識別NNパラメータは、話者IDおよび音声データと同じデバイスに格納される。少なくとも1つの実施形態では、話者識別NNパラメータは、話者IDまたは音声データの少なくとも一方を格納するデバイスとは別のデバイスに格納される。
動作B06で、話者事後分布抽出器106は、音声データについての話者事後分布を抽出する。話者事後分布抽出器106は、話者識別NNパラメータストレージ105に格納されたパラメータに基づいて、話者識別NNを使用して、音響特徴抽出器102_aからの音声データの抽出された音響特徴に基づいて、話者事後分布を抽出する。少なくとも1つの実施形態では、話者事後分布抽出器106によって抽出される話者事後分布は、0から1の範囲のスカラー値である。
動作B07で、話者事後分布抽出器106からの話者事後分布が、話者事後分布ストレージ107に格納される。少なくとも1つの実施形態では、話者事後分布は、話者識別NNパラメータ、話者IDおよび音声データと同じデバイスに格納される。少なくとも1つの実施形態では、話者事後分布は、話者識別NNパラメータ、話者ID、または音声データのうちの少なくとも1つを格納するデバイスとは別のデバイスに格納される。
動作B08で、アテンションNN訓練器108は、アテンションNNを訓練する。アテンションNN訓練器は、音響特徴抽出器102_aによって抽出された音響特徴と、話者事後分布ストレージ107からの格納された話者事後分布とを使用して、アテンションNNを訓練する。少なくとも1つの実施形態では、アテンションNNは、TDNN、CNN、LSTM、GRU、または別の適切なNNである。少なくとも1つの実施形態では、アテンションNNは、話者識別NNと同じタイプのNNである。少なくとも1つの実施形態では、アテンションNNは、話者識別NNとは異なるタイプのNNである。
ステップB09で、アテンションNNパラメータは、アテンションNNストレージ109に格納される。少なくとも1つの実施形態では、アテンションNNパラメータは、話者事後分布、話者識別NNパラメータ、話者IDおよび音声データと同じデバイスに格納される。少なくとも1つの実施形態では、アテンションNNパラメータは、話者事後分布、話者識別NNパラメータ、話者IDまたは音声データのうちの少なくとも1つを格納するデバイスとは別のデバイスに格納される。
少なくとも1つの実施形態では、図3の動作の順序が変更される。例えば、少なくとも1つの実施形態では、動作B03は動作B01の前に行われる。少なくとも1つの実施形態では、図3の少なくとも1つの動作は、別の動作と同時に行われる。例えば、少なくとも1つの実施形態では、動作B02は動作B03と同時に行われる。少なくとも1つの実施形態では、少なくとも1つの動作が図3の動作の前に行われる。例えば、少なくとも1つの実施形態では、音声データは、図3の動作の前に訓練データストレージ101に格納される。少なくとも1つの実施形態では、少なくとも1つの動作が図3の動作の後に行われる。例えば、少なくとも1つの実施形態では、音声データまたは話者ID情報が更新されるかどうかの判定が、動作B09の後に続いて行われる。
図4は、少なくとも1つの実施形態による話者特徴を抽出するための動作のフローチャートである。少なくとも1つの実施形態では、図4の動作は、話者認識システム100の話者特徴抽出部130によって行われる。少なくとも1つの実施形態では、図4の動作は、図2の話者特徴抽出A02の詳細である。以下の説明では、図4の動作の非限定的な例として話者特徴抽出部130を使用する。
動作C01で、音響特徴抽出器102_bは、入力データから入力音声データを読み出す。少なくとも1つの実施形態では、入力データは、生の発話として受け取られる。少なくとも1つの実施形態では、入力データは、解析のために非一時的記録可能媒体に格納される。少なくとも1つの実施形態では、入力データは2つ以上の発話を含む。
動作C02で、音響特徴抽出器102_bは、入力音声データから音響特徴を抽出する。少なくとも1つの実施形態では、動作C02および動作B02(図3)を行うために同じデバイスが使用される。少なくとも1つの実施形態では、動作C02を行うために使用されるデバイスは、動作B02を行うために使用されるデバイスとは異なる。
動作C03で、顕著性計算器110は、アテンションNNパラメータストレージ109から、アテンションNNパラメータを読み出す。少なくとも1つの実施形態では、顕著性計算器110は、無線通信を介してアテンションNNパラメータを受信する。少なくとも1つの実施形態では、顕著性計算器110は、有線接続を介してアテンションNNパラメータを受信する。少なくとも1つの実施形態では、顕著性計算器110は、話者特徴抽出部130から離れたサーバからアテンションNNパラメータを受信する。
動作C04で、顕著性計算器110は、入力音声データの各フレームの顕著性を計算する。顕著性計算器110は、少なくとも1つの実施形態によれば、上述したように、入力音声データの各フレームに重み割り当てる。入力音声データの異なるフレームに異なる重みを計算することによって、図4の動作は、話者認識の他の方法と比較して、話者特徴を抽出するためのより高い精度およびより高い信頼度を達成することができる。
動作C05で、話者特徴抽出器112は、話者特徴抽出器ストレージ111に格納された話者特徴抽出器データを読み出す。少なくとも1つの実施形態では、話者特徴抽出器112は、無線通信を介して話者特徴抽出器データを受信する。少なくとも1つの実施形態では、話者特徴抽出器データは、アテンションNNパラメータ、話者事後分布、話者識別NNパラメータ、話者IDおよび音声データと同じデバイスに格納される。少なくとも1つの実施形態では、話者特徴抽出器データは、アテンションNNパラメータ、話者事後分布、話者識別NNパラメータ、話者IDまたは音声データのうちの少なくとも1つを格納するデバイスとは別のデバイスに格納される。少なくとも1つの実施形態では、話者特徴抽出器112は、有線接続を介して話者特徴抽出器データを受信する。少なくとも1つの実施形態では、話者特徴抽出器112は、話者特徴抽出部130から離れたサーバから話者特徴抽出器データを受信する。
動作C06で、話者特徴抽出器112は、顕著性計算器110からの重みと、話者特徴抽出器ストレージ111からの話者特徴抽出器データとを使用して、話者特徴を抽出する。話者特徴抽出器112は、少なくとも1つの実施形態によれば、上述したように、話者特徴を抽出する。少なくとも1つの実施形態では、話者特徴は、入力データの話者の識別である。少なくとも1つの実施形態では、話者特徴は、既知の話者IDと入力データの話者の決定された識別情報との比較に基づく話者の認証である。
少なくとも1つの実施形態では、図4の動作の順序が変更される。例えば、少なくとも1つの実施形態では、動作C05は動作C04の前に行われる。少なくとも1つの実施形態では、図4の少なくとも1つの動作は、別の動作と同時に行われる。例えば、少なくとも1つの実施形態では、動作C03は動作C05と同時に行われる。少なくとも1つの実施形態では、少なくとも1つの動作が図4の動作の前に行われる。例えば、少なくとも1つの実施形態では、入力データは、図4の動作の前に非一時的コンピュータ可読媒体に格納される。少なくとも1つの実施形態では、少なくとも1つの動作が図4の動作の後に行われる。例えば、少なくとも1つの実施形態では、図4の動作によって決定された話者特徴に基づいて、外部デバイスが制御される。
少なくとも1つの実施形態では、話者認識システム100および/または図2~図4の動作は、外部デバイス(図示されていない)を制御するために使用可能である。例えば、話者認識システム100が話者を認証するために使用される場合、認証されたユーザは、コンピュータシステムまたは物理的位置へのアクセスを提供され、認証されていないユーザは、コンピュータシステムまたは物理的位置へのアクセスを拒否される。少なくとも1つの実施形態では、話者認識システム100は、有線または無線通信を介して、外部デバイスを遠隔制御するように構成される。少なくとも1つの実施形態では、話者認識システム100は、認証されていないユーザによるアクセスの試みに応答して警報を発するよう外部デバイスを制御する。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、コンピュータシステムまたは物理的位置への不正アクセスのリスクが低減される。加えて、話者認識システム100の重み付け方式を使用することによって、誤って正規ユーザに対してアクセスを妨げることが低減または回避される。
少なくとも1つの実施形態では、話者認識システム100および/または図2~図4の動作は、ユーザにとっての関心対象の話者を識別するために使用可能である。例えば、ユーザが会話を楽しむ場合、ユーザは、話者認識システム100を利用して話者を識別して、ユーザが話者についてもっとよく知ることができるようにすることができる。少なくとも1つの実施形態では、話者認識システム100は、話者を調査する目的で話者を識別するために使用可能である。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、検索機能の精度が向上する。加えて、話者認識システム100の重み付け方式を使用することによって、調査の精度も向上する。
図5は、少なくとも1つの実施形態による話者認識システム200の構成のブロック図である。話者認識システム200は、生の特徴を受け取り、処理するように構成された訓練部220を含む。話者認識システム200は、入力データを受け取り、訓練部220からの情報に基づいて話者特徴を出力するように構成された話者特徴抽出部230をさらに含む。話者認識システム200は、話者認識システム100(図1)と同様であり、同様の要素は同じ参照番号を有する。話者認識システム100からの同じ要素の詳細を、ここでは簡潔にするために省略する。
訓練部220は、話者認識システム100(図1)の訓練部120と同様である。訓練部120と比較して、訓練部220は、話者事後分布ストレージ107から話者事後分布を受け取るように構成された分類器215を含む。分類器215は、話者事後分布をクラスに分類する。少なくとも1つの実施形態では、分類器215は、話者事後分布を2つのクラスに分類し、例えば、フレームを指すクラス0は有用データを有し、クラス1は有用データを欠くフレームを指す。少なくとも1つの実施形態では、分類器215は、フレーム内の有用データの量に基づいて、話者事後分布を3つ以上のクラスにクラス分けする。分類器215は、少なくとも1つの所定の閾値との比較に基づいて、話者事後分布をクラス分けする。所定の閾値の数は、分類器215が話者事後分布をクラス分けするクラスの数に基づくものである。
アテンションNN訓練器108は、分類器215からのクラス分けを利用して、アテンションNNを訓練する。少なくとも1つの実施形態では、話者認識システム200におけるアテンションNNは、クラス0およびクラス1に対応する2つの出力ノードのみを有する。話者事後分布ストレージ207に格納された話者事後分布と所定の閾値とを比較することによって、訓練部220は、より多くの量の有用情報を有するフレームを重視してアテンションNNをより正確に訓練することができる。その結果、話者特徴抽出部230に提供される情報は、他の手法と比較してより正確になる。
図6は、少なくとも1つの実施形態による話者認識システムによって行われる動作のフローチャートである。少なくとも1つの実施形態では、図6の動作は、話者認識システム200(図5)によって行われる。動作D01で、NNが訓練される。動作D02で、動作D01からのNNの訓練に基づいて、話者特徴が抽出される。
少なくとも1つの実施形態では、NN訓練は、1回の反復について行われる。少なくとも1つの実施形態では、NN訓練は、複数回の反復について行われる。少なくとも1つの実施形態では、NN訓練は、話者特徴抽出の前に行われ、更新されたデータを使用した話者特徴抽出の後に再び行われる。
図7は、少なくとも1つの実施形態による話者認識システムを訓練するための動作のフローチャートである。図7の動作は、図3の動作と同様である。図3の動作と比較して、図7は、データをクラスに分類しE07、クラスのラベルを格納するE08ための動作を含む。動作E01~E06は、図3の動作B01~B06と同様であり、よって簡潔にするためにこれらの動作の説明を省略する。以下の説明では、図7の動作の非限定的な例として訓練部220を使用する。
動作E07で、分類器215は、事後分布をクラスに分類する。少なくとも1つの実施形態では、分類器215は、事後分布を2つのクラス、例えば、閾値以上の事後分布のクラス0および閾値未満の事後分布のクラス1に分類する。少なくとも1つの実施形態では、分類器215は、事後分布を3つ以上のクラスに分類する。クラス分けは、多量の有用情報を有するフレームと、有用情報がほとんどまたはまったくないフレームとを区別するために使用される。
ステップE08で、分類器215は、クラスラベルを格納する。いくつかの実施形態では、分類器215は、話者事後分布ストレージ107内の情報の一部としてクラスラベルを格納する。少なくとも1つの実施形態では、クラスラベルは、話者事後分布、話者識別NNパラメータ、話者IDおよび音声データと同じデバイスに格納される。少なくとも1つの実施形態では、クラスラベルは、話者事後分布、話者識別NNパラメータ、話者IDまたは音声データのうちの少なくとも1つを格納するデバイスとは別のデバイスに格納される。
ステップE09で、アテンションNN訓練器108は、アテンションNNを訓練する。アテンションNN訓練器108は、分類器215からのクラスラベルを使用するとともに、音響特徴抽出器102_aによって抽出された音響特徴、および話者事後分布ストレージ107からの格納された話者事後分布も使用してアテンションNNを訓練する。少なくとも1つの実施形態では、アテンションNNは、TDNN、CNN、LSTM、GRU、または別の適切なNNである。少なくとも1つの実施形態では、アテンションNNは、話者識別NNと同じタイプのNNである。少なくとも1つの実施形態では、アテンションNNは、話者識別NNとは異なるタイプのNNである。クラスラベルを使用してアテンションNNを訓練することによって、より多くの有用情報を有するフレームにより高い重要度が与えられる。その結果、訓練されたアテンションNNは、顕著性計算器、例えば、顕著性計算器110によって、話者認識システムにおける精度および信頼度を高めるためにより効果的に使用可能になる。
ステップE10で、アテンションNN訓練器209は、アテンションNNパラメータをストレージ210に格納する。少なくとも1つの実施形態では、アテンションNNパラメータは、クラスラベル、話者事後分布、話者識別NNパラメータ、話者IDおよび音声データと同じデバイスに格納される。少なくとも1つの実施形態では、アテンションNNパラメータは、クラスラベル、話者事後分布、話者識別NNパラメータ、話者IDまたは音声データのうちの少なくとも1つを格納するデバイスとは別のデバイスに格納される。
少なくとも1つの実施形態では、図7の動作の順序が変更される。例えば、少なくとも1つの実施形態では、動作E03は動作E01の前に行われる。少なくとも1つの実施形態では、図7の少なくとも1つの動作は、別の動作と同時に行われる。例えば、少なくとも1つの実施形態では、動作E02は動作E03と同時に行われる。少なくとも1つの実施形態では、少なくとも1つの動作が図7の動作の前に行われる。例えば、少なくとも1つの実施形態では、音声データは、図7の動作の前に訓練データストレージ101に格納される。少なくとも1つの実施形態では、少なくとも1つの動作が図7の動作の後に行われる。例えば、少なくとも1つの実施形態では、音声データまたは話者ID情報が更新されるかどうかの判定が、動作E10の後に続いて行われる。
図8は、少なくとも1つの実施形態による話者特徴を抽出するための動作のフローチャートである。図8の動作は、図4の動作と同様である。動作F01~F06は、図4の動作C01~C06と同様であり、よって、簡潔にするためにこれらの動作の説明を省略する。
少なくとも1つの実施形態では、図8の動作の順序が変更される。例えば、少なくとも1つの実施形態では、動作F05は動作F04の前に行われる。少なくとも1つの実施形態では、図8の少なくとも1つの動作は、別の動作と同時に行われる。例えば、少なくとも1つの実施形態では、動作F03は動作F05と同時に行われる。少なくとも1つの実施形態では、少なくとも1つの動作が図8の動作の前に行われる。例えば、少なくとも1つの実施形態では、入力データは、図8の動作の前に非一時的コンピュータ可読媒体に格納される。少なくとも1つの実施形態では、少なくとも1つの動作が図8の動作の後に行われる。例えば、少なくとも1つの実施形態では、図8の動作によって決定された話者特徴に基づいて、外部デバイスが制御される。
少なくとも1つの実施形態では、話者認識システム200および/または図6~図8の動作は、外部デバイス(図示されていない)を制御するために使用可能である。例えば、話者認識システム200が話者を認証するために使用される場合、認証されたユーザは、コンピュータシステムまたは物理的位置へのアクセスを提供され、認証されていないユーザは、コンピュータシステムまたは物理的位置へのアクセスを拒否される。少なくとも1つの実施形態では、話者認識システム200は、有線または無線通信を介して、外部デバイスを遠隔制御するように構成される。少なくとも1つの実施形態では、話者認識システム200は、認証されていないユーザによるアクセスの試みに応答して警報を発するよう外部デバイスを制御する。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、コンピュータシステムまたは物理的位置への不正アクセスのリスクが低減される。加えて、話者認識システム200の重み付け方式を使用することによって、誤って正規ユーザに対してアクセスを妨げることが低減または回避される。
少なくとも1つの実施形態では、話者認識システム200および/または図6~図8の動作は、ユーザにとっての関心対象の話者を識別するために使用可能である。例えば、ユーザが会話を楽しむ場合、ユーザは、話者認識システム200を利用して話者を識別して、ユーザが話者についてもっとよく知ることができるようにすることができる。少なくとも1つの実施形態では、話者認識システム200は、話者を調査する目的で話者を識別するために使用可能である。フレーム内の有用情報に基づいてフレームに異なる重み付けをすることによって、検索機能の精度が向上する。加えて、話者認識システム200の重み付け方式を使用することによって、調査の精度も向上する。
図9は、少なくとも1つの実施形態による話者認識システムを実装するためのコンピューティングデバイスのブロック図である。システム900は、ハードウェアプロセッサ902と、パラメータ906、すなわち、話者認識システムのタスクを実施するための実行可能命令セットで符号化された、すなわち、実行可能命令セットを格納する非一時的コンピュータ可読記憶媒体904とを含む。コンピュータ可読記憶媒体904はまた、話者認識システムを実装する際に利用される外部デバイスまたは他のシステムとインターフェースするための命令907でも符号化される。プロセッサ902は、バス908を介してコンピュータ可読記憶媒体904に電気的に結合される。プロセッサ902はまた、バス908によって入出力インターフェース910にも電気的に結合される。ネットワークインターフェース912もまた、バス908を介してプロセッサ902に電気的に接続される。ネットワークインターフェース912はネットワーク914に接続され、これによりプロセッサ902およびコンピュータ可読記憶媒体904はネットワーク914を介して外部要素に接続することができる。プロセッサ902は、システム900を、話者認識システム動作の一部または全部を行うために使用可能とするために、命令を実行し、コンピュータ可読記憶媒体904内のパラメータ906を使用するように構成される。
少なくとも1つの実施形態では、プロセッサ902は、中央処理装置(CPU)、マルチプロセッサ、分散処理システム、特定用途向け集積回路(ASIC)、および/または適切な処理装置である。
少なくとも1つの実施形態では、コンピュータ可読記憶媒体904は、電子、磁気、光学、電磁、赤外線、および/または半導体システム(または装置またはデバイス)である。例えば、コンピュータ可読記憶媒体904は、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、剛性磁気ディスク、および/または光ディスクを含む。光ディスクを使用する少なくとも1つの実施形態では、コンピュータ可読記憶媒体904は、コンパクトディスク読み出し専用メモリ(CD-ROM)、コンパクトディスク読み出し/書き込み(CD-R/W)、および/またはデジタルビデオディスク(DVD)を含む。
少なくとも1つの実施形態では、記憶媒体904は、システム900に話者認識システムの動作を行わせるように構成されたパラメータ906を格納する。少なくとも1つの実施形態では、記憶媒体904はまた、話者認識システムとして機能するために必要な情報、ならびに訓練データ916、話者ID918、話者識別NNパラメータ920、話者事後分布922、アテンションNNパラメータ924、入力データ926、話者特徴情報928、クラス情報930、および/または話者認識システムの動作を行うための実行可能命令セットなどの、動作中に生成される情報も格納する。
少なくとも1つの実施形態では、記憶媒体904は、話者認識システムを実装するための外部デバイスまたは他のシステムとインターフェースするための命令907を格納する。命令907は、プロセッサ902が、話者認識システムの動作を効果的に実施するために外部デバイスまたは他のシステムによって読み取り可能な命令を生成することを可能にする。
システム900は、入出力インターフェース910を含む。入出力インターフェース910は、外部回路に結合される。少なくとも1つの実施形態では、入出力インターフェース910は、プロセッサ902に情報およびコマンドを伝達するためのキーボード、キーパッド、マウス、トラックボール、トラックパッド、および/またはカーソル方向キーを含む。
システム900はまた、プロセッサ902に結合されたネットワークインターフェース912も含む。ネットワークインターフェース912は、システム900が、1つまたは複数の他のコンピュータシステムが接続されているネットワーク914と通信することを可能にする。ネットワークインターフェース912は、BLUETOOTH、WIFI、WIMAX、GPRS、もしくはWCDMAなどの無線ネットワークインターフェース、またはETHERNET、USB、もしくはIEEE-1394などの有線ネットワークインターフェースを含む。少なくとも1つの実施形態では、話者認識システムは、2つ以上のシステム900に実装され、メモリタイプ、メモリアレイレイアウト、入出力電圧、入出力ピン位置およびチャージポンプなどの情報が、ネットワーク914を介して異なるシステム900間で交換される。
本明細書の一態様は、話者認識システムに関する。話者認識システムは、命令を格納するように構成された非一時的コンピュータ可読媒体を含む。話者認識システムは、非一時的コンピュータ可読媒体に接続されたプロセッサをさらに含む。プロセッサは、入力音声データ内の複数のフレームの各フレームから音響特徴を抽出するための命令を実行するように構成される。プロセッサは、抽出された音響特徴に基づいて、第1のニューラルネットワーク(NN)を使用して複数のフレームのフレームごとの顕著性値を計算するための命令を実行するように構成され、第1のNNは、話者事後分布を使用する訓練されたNNである。プロセッサは、複数のフレームのフレームごとの顕著性値を使用して話者特徴を抽出するための命令を実行するように構成される。
本明細書の一態様は、話者認識方法に関する。話者認識方法は、入力音声データを受け取ることを含む。話者認識方法は、入力音声データ内の複数のフレームの各フレームから音響特徴を抽出することを含む。話者認識方法は、抽出された音響特徴に基づいて第1のニューラルネットワーク(NN)を使用して複数のフレームのフレームごとの顕著性値を計算することを含み、第1のNNは話者事後分布を使用する訓練されたNNである。話者認識方法は、複数のフレームのフレームごとの顕著性値を使用して話者特徴を抽出することを含む。
以上では、当業者が本開示の態様をよりよく理解できるように、いくつかの実施形態の特徴を概説している。当業者は、本明細書で紹介された実施形態と同じ目的を実行し、かつ/または同じ利点を達成するための他のプロセスおよび構造を設計または変更するための基礎として本開示を容易に使用し得ることを理解するはずである。当業者はまた、そのような均等な構成が本開示の趣旨および範囲から逸脱するものではなく、本開示の趣旨および範囲から逸脱することなく本明細書において様々な変更、置換、および改変を行い得ることにも気付くはずである。
上記の例示的な実施形態はまた、以下に限定されないが、以下の付記によってもその全部または一部が説明され得る。
(付記1)
命令を格納するように構成された非一時的コンピュータ可読媒体と、
前記非一時的コンピュータ可読媒体に接続されたプロセッサであって、
入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク(NN)である第1のNNNNを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出する
ための前記命令を実行するように構成されるプロセッサと
を含む、話者認識システム。
(付記2)
前記プロセッサが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用して前記話者特徴を抽出するための前記命令を実行するように構成される、付記1に記載の話者認識システム。
(付記3)
前記プロセッサが、前記話者事後分布を使用して前記第1のNNを訓練するための前記命令を実行するように構成される、付記1に記載の話者認識システム。
(付記4)
前記プロセッサが、訓練データおよび話者識別情報を使用して前記話者事後分布を生成するための前記命令を実行するように構成される、付記3に記載の話者認識システム。
(付記5)
前記プロセッサが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、付記1に記載の話者認識システム。
(付記6)
前記プロセッサが、前記第1のNNの第1のノードおよび前記第1のNNの第2のノードを使用して前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成され、前記第1のノードで出力される前記複数のフレームの第1のフレームは、前記第2のノードで出力される前記複数のフレームの第2のフレームよりも前記第1のフレームがより有用な情報を有することを示す、付記1に記載の話者認識システム。
(付記7)
前記プロセッサが、前記抽出された音響特徴に基づく前記第1のNNの前記第1のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、付記6に記載の話者認識システム。
(付記8)
前記プロセッサが、前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力するための前記命令を実行するように構成される、付記1に記載の話者認識システム。
(付記9)
前記プロセッサが、前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングするための前記命令を実行するように構成される、付記1に記載の話者認識システム。
(付記10)
前記プロセッサが、前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可するための前記命令を実行するように構成される、付記1に記載の話者認識システム。
(付記11)
入力音声データを受け取り、
前記入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク(NN)である第1のNNを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出することと
を含む、話者認識方法。
(付記12)
前記話者特徴を抽出することが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用することを含む、付記11に記載の話者認識方法。
(付記13)
前記話者事後分布を使用して前記第1のNNを訓練することをさらに含む、付記11に記載の話者認識方法。
(付記14)
訓練データおよび話者識別情報を使用して前記話者事後分布を生成することをさらに含む、付記13に記載の話者認識方法。
(付記15)
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、付記11に記載の話者認識方法。
(付記16)
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記第1のNNの第1のノードからと前記第1のNNの第2のノードからの情報を受け取ることを含み、前記第1のノードで出力される前記複数のフレームの第1のフレームは、前記第2のノードで出力される前記複数のフレームの第2のフレームよりも前記第1のフレームがより有用な情報を有することを示す、付記11に記載の話者認識方法。
(付記17)
前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記第1のNNの前記第1のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、付記16に記載の話者認識方法。
(付記18)
前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力することをさらに含む、付記11に記載の話者認識方法。
(付記19)
前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングすることをさらに含む、付記11に記載の話者認識方法。
(付記20)
前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可することをさらに含む、付記11に記載の話者認識方法。
本出願は、2019年2月8日に出願された米国特許出願第16/270,597号に基づき、その優先権の利益を主張するものであり、その開示全体が本明細書に組み込まれる。

Claims (20)

  1. 命令を格納するように構成された非一時的コンピュータ可読媒体と、
    前記非一時的コンピュータ可読媒体に接続されたプロセッサであって、
    入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
    前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク(NN)である第1のNNを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
    前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出する
    ための前記命令を実行するように構成されるプロセッサと
    を含む、話者認識システム。
  2. 前記プロセッサが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用して前記話者特徴を抽出するための前記命令を実行するように構成される、請求項1に記載の話者認識システム。
  3. 前記プロセッサが、前記話者事後分布を使用して前記第1のNNを訓練するための前記命令を実行するように構成される、請求項1に記載の話者認識システム。
  4. 前記プロセッサが、訓練データおよび話者識別情報を使用して前記話者事後分布を生成するための前記命令を実行するように構成される、請求項3に記載の話者認識システム。
  5. 前記プロセッサが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、請求項1に記載の話者認識システム。
  6. 前記プロセッサが、前記第1のNNの第1のノードおよび前記第1のNNの第2のノードを使用して前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成され、前記第1のノードで出力される前記複数のフレームの第1のフレームは、前記第2のノードで出力される前記複数のフレームの第2のフレームよりも前記第1のフレームがより有用な情報を有することを示す、請求項1に記載の話者認識システム。
  7. 前記プロセッサが、前記抽出された音響特徴に基づく前記第1のNNの前記第1のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づいて前記複数のフレームのフレームごとの前記顕著性値を計算するための前記命令を実行するように構成される、請求項6に記載の話者認識システム。
  8. 前記プロセッサが、前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力するための前記命令を実行するように構成される、請求項1に記載の話者認識システム。
  9. 前記プロセッサが、前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングするための前記命令を実行するように構成される、請求項1に記載の話者認識システム。
  10. 前記プロセッサが、前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可するための前記命令を実行するように構成される、請求項1に記載の話者認識システム。
  11. 入力音声データを受け取り、
    前記入力音声データ内の複数のフレームの各フレームから音響特徴を抽出し、
    前記抽出された音響特徴に基づいて、話者事後分布を使用して訓練されたニューラルネットワーク(NN)である第1のNNを使用して前記複数のフレームのフレームごとの顕著性値を計算し、
    前記複数のフレームのフレームごとの前記顕著性値を使用して話者特徴を抽出することと
    を含む、話者認識方法。
  12. 前記話者特徴を抽出することが、前記複数のフレームのフレームごとの前記顕著性値を使用して実施される重み付けプーリングプロセスを使用することを含む、請求項11に記載の話者認識方法。
  13. 前記話者事後分布を使用して前記第1のNNを訓練することをさらに含む、請求項11に記載の話者認識方法。
  14. 訓練データおよび話者識別情報を使用して前記話者事後分布を生成することをさらに含む、請求項13に記載の話者認識方法。
  15. 前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、請求項11に記載の話者認識方法。
  16. 前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記第1のNNの第1のノードからと前記第1のNNの第2のノードからの情報を受け取ることを含み、前記第1のノードで出力される前記複数のフレームの第1のフレームは、前記第2のノードで出力される前記複数のフレームの第2のフレームよりも前記第1のフレームがより有用な情報を有することを示す、請求項11に記載の話者認識方法。
  17. 前記複数のフレームのフレームごとの前記顕著性値を計算することが、前記抽出された音響特徴に基づく前記第1のNNの前記第1のノードで出力される前記複数のフレームのフレームごとの前記話者事後分布の勾配に基づく、請求項16に記載の話者認識方法。
  18. 前記抽出された話者特徴に基づいて前記入力音声データの話者の識別を出力することをさらに含む、請求項11に記載の話者認識方法。
  19. 前記抽出された話者特徴に基づいて、前記入力音声データの話者を格納された話者識別にマッチングすることをさらに含む、請求項11に記載の話者認識方法。
  20. 前記抽出された話者特徴が正規ユーザと一致することに応答してコンピュータシステムへのアクセスを許可することをさらに含む、請求項11に記載の話者認識方法。
JP2021569717A 2019-02-08 2020-02-05 話者認識システムおよびその使用方法 Active JP7173379B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/270,597 US10803875B2 (en) 2019-02-08 2019-02-08 Speaker recognition system and method of using the same
US16/270,597 2019-02-08
PCT/JP2020/005423 WO2020162639A1 (en) 2019-02-08 2020-02-05 Speaker recognition system and method of using the same

Publications (2)

Publication Number Publication Date
JP2022519391A JP2022519391A (ja) 2022-03-23
JP7173379B2 true JP7173379B2 (ja) 2022-11-16

Family

ID=71946223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021569717A Active JP7173379B2 (ja) 2019-02-08 2020-02-05 話者認識システムおよびその使用方法

Country Status (5)

Country Link
US (2) US10803875B2 (ja)
EP (1) EP3921832A4 (ja)
JP (1) JP7173379B2 (ja)
CN (1) CN113557567A (ja)
WO (1) WO2020162639A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634880A (zh) * 2020-12-22 2021-04-09 北京百度网讯科技有限公司 话者识别的方法、装置、设备、存储介质以及程序产品
CN113643709B (zh) * 2021-08-03 2023-07-18 成都理工大学 一种基于mean-SAP池化模型的说话人识别方法及系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864810A (en) 1995-01-20 1999-01-26 Sri International Method and apparatus for speech recognition adapted to an individual speaker
KR100307623B1 (ko) 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features
WO2010031109A1 (en) * 2008-09-19 2010-03-25 Newsouth Innovations Pty Limited Method of analysing an audio signal
EP2216775B1 (en) 2009-02-05 2012-11-21 Nuance Communications, Inc. Speaker recognition
US9858919B2 (en) 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US20150154002A1 (en) * 2013-12-04 2015-06-04 Google Inc. User interface customization based on speaker characteristics
US9390712B2 (en) 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US10476872B2 (en) * 2015-02-20 2019-11-12 Sri International Joint speaker authentication and key phrase identification
US9865280B2 (en) * 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CA3179080A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
KR101804787B1 (ko) * 2016-09-28 2017-12-06 대한민국 음질특징을 이용한 화자인식장치 및 방법
KR20180080446A (ko) * 2017-01-04 2018-07-12 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition
US10445429B2 (en) * 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
KR102486395B1 (ko) * 2017-11-23 2023-01-10 삼성전자주식회사 화자 인식을 위한 뉴럴 네트워크 장치, 및 그 동작 방법
US20190253558A1 (en) * 2018-02-13 2019-08-15 Risto Haukioja System and method to automatically monitor service level agreement compliance in call centers
US10621991B2 (en) * 2018-05-06 2020-04-14 Microsoft Technology Licensing, Llc Joint neural network for speaker recognition
CN109256135B (zh) * 2018-08-28 2021-05-18 桂林电子科技大学 一种端到端说话人确认方法、装置及存储介质
US10650807B2 (en) * 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US10922044B2 (en) * 2018-11-29 2021-02-16 Bose Corporation Wearable audio device capability demonstration

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OKABE, KOJI, ET AL.,"Attentive Statistics Pooling for Deep Speaker Embedding",INTERSPEECH 2018,2018年09月02日,pp.2252-2256
WANG, QIONGQIONG, ET AL.,"Attention Mechanism in Speaker Recognition: What Does It Learn in Deep Speaker Embedding?",2018 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP (SLT),2018年12月18日,pp.1052-1059

Also Published As

Publication number Publication date
EP3921832A1 (en) 2021-12-15
US20220130397A1 (en) 2022-04-28
US20200258527A1 (en) 2020-08-13
CN113557567A (zh) 2021-10-26
US10803875B2 (en) 2020-10-13
EP3921832A4 (en) 2022-04-06
WO2020162639A1 (en) 2020-08-13
JP2022519391A (ja) 2022-03-23

Similar Documents

Publication Publication Date Title
CN108962237B (zh) 混合语音识别方法、装置及计算机可读存储介质
CN108182394B (zh) 卷积神经网络的训练方法、人脸识别方法及装置
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
KR100543707B1 (ko) 서브그룹별 pca 학습을 이용한 얼굴인식방법 및 장치
Ding et al. Audio and face video emotion recognition in the wild using deep neural networks and small datasets
CN112949780A (zh) 特征模型训练方法、装置、设备及存储介质
JP2022141931A (ja) 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム
KR20170016231A (ko) 사용자 인증을 위한 멀티-모달 퓨전 방법 및 사용자 인증 방법
JP7173379B2 (ja) 話者認識システムおよびその使用方法
KR20200052453A (ko) 딥러닝 모델 학습 장치 및 방법
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
KR102185979B1 (ko) 동영상에 포함된 객체의 운동 유형을 결정하기 위한 방법 및 장치
JP4717872B2 (ja) 話者の音声特徴情報を利用した話者情報獲得システム及びその方法
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
Jain et al. Modified chain code histogram feature for handwritten character recognition
Rahman et al. Dynamic thresholding on speech segmentation
CN110378414B (zh) 基于进化策略的多模态生物特征融合的身份识别方法
US20050047664A1 (en) Identifying a speaker using markov models
CN116612542A (zh) 基于多模态生物特征一致性的音视频人物识别方法及系统
JP7103235B2 (ja) パラメタ算出装置、パラメタ算出方法、及び、パラメタ算出プログラム
KR102408042B1 (ko) 그룹 기반 얼굴 인식 방법 및 장치
CN114462073A (zh) 去标识化效果评估方法、装置、存储介质及产品
Devika et al. A fuzzy-GMM classifier for multilingual speaker identification
Phaneemdra et al. Human Face Detection and Recognition using PCA and DCT in HMM
Iengo et al. Dynamic facial features for inherently safer face recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221017

R151 Written notification of patent or utility model registration

Ref document number: 7173379

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151