JP7173974B2 - ディープニューラルネットワークを使用する端末間話者認識 - Google Patents

ディープニューラルネットワークを使用する端末間話者認識 Download PDF

Info

Publication number
JP7173974B2
JP7173974B2 JP2019535198A JP2019535198A JP7173974B2 JP 7173974 B2 JP7173974 B2 JP 7173974B2 JP 2019535198 A JP2019535198 A JP 2019535198A JP 2019535198 A JP2019535198 A JP 2019535198A JP 7173974 B2 JP7173974 B2 JP 7173974B2
Authority
JP
Japan
Prior art keywords
speech samples
speaker
neural network
network
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019535198A
Other languages
English (en)
Other versions
JP2019532354A (ja
Inventor
コーリー、エリー
ガーランド、マシュー
Original Assignee
ピンドロップ セキュリティー、インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ピンドロップ セキュリティー、インコーポレイテッド filed Critical ピンドロップ セキュリティー、インコーポレイテッド
Publication of JP2019532354A publication Critical patent/JP2019532354A/ja
Priority to JP2022104204A priority Critical patent/JP2022153376A/ja
Application granted granted Critical
Publication of JP7173974B2 publication Critical patent/JP7173974B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Image Processing (AREA)

Description

本出願は、2016年9月12日に出願された米国非仮特許出願第15/262,748号の優先権を主張し、この開示全体は、参照によって本明細書に組み込まれる。
本発明は、話者検証および/または話者の識別を含む音声認識を対象とする。さらに、本発明は、テキスト独立型話者認識を行うために使用され得る。
話者認識に対する現在の最新の手法は、音響混合ガウス分布(GMM)(全体の内容が参照によって本明細書に組み込まれる、Douglas A.Reynolds et al.,“Speaker Verification Using Adapted Gaussian Mixture Models,”Digital Signal Processing,2000を参照されたい)、または音声認識ディープニューラルネットワークアーキテクチャ(全体の内容が参照によって本明細書に組み込まれる、Y.Lei et al.,“A Novel Scheme for Speaker Recognition Using a Phonetically-Aware Deep Neural Network,”Proceedings of ICASSP 2014を参照されたい)のいずれかを使用して推定されるユニバーサルバックグラウンドモデル(UBM)に基づく。最も有効な技術は、全変動パラダイムを使用してUBMモデルを全ての会話発声に適合させることからなる(全体の内容が参照によって本明細書に組み込まれる、N.Dehak et al.,“Front-End Factor Analysis for Speaker Verification,”IEEE Transactions on Audio,Speech,and Language Processing,Vol.19,No.4,pp.788-798,May 2011を参照されたい)。全変動パラダイムは、話者およびチャネルに関する全情報を保存する「iベクトル」として知られる低次元特徴ベクトルを抽出することを目的とする。チャネル補償技術の適用後、結果として生じるiベクトルは、話者の声紋または音声署名とみなされ得る。
かかる手法の主な欠点は、人間の知覚システムを再生するように設計された手作りの特徴のみを使用することによって、それらの手法が、話者を認識または検証するために重要である有用な情報を破棄する傾向にあることである。典型的には、上記の手法は、メル周波数ケプストラム係数(MFCC)等の低位の特徴を利用し、それらをガウス分布の定数(典型的には、1024または2048ガウス)に当てはめることを試みる。これは、ガウス仮定が必ずしも保たれない特徴空間内の複雑な構造をモデル化することを困難にする。
本発明は、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークを利用して、フロントエンド特徴抽出器を訓練するシステムを対象とし、話者の識別情報の検証、または既知の話者の閉集合の中から話者を識別するタスクを実施するために使用される。
代表的な実施形態によると、システムは、メモリデバイスおよびプロセッサ基盤デバイスからなる。メモリデバイスは、同一話者による会話サンプルのデュアルセット、デュアルセットと同一話者によらない会話サンプルのコホートセット、および話者モデルセットを含む、会話サンプルを記憶する。さらに、プロセッサ基盤デバイスは、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークをモデル化するように構成される。プロセッサ基盤デバイスは、会話サンプルのデュアルセットが会話サンプルのコホートセットとの組み合わせでディープニューラルネットワークを通して供給される、バッチ処理に従ってディープニューラルネットワークを訓練する。
さらなる代表的な実施形態によると、ディープニューラルネットワークは、第1の入力を受信および処理して第1の出力を生成する第1のフィードフォワードニューラルネットワークと、第2の入力を受信および処理して第2の出力を生成する第2のフィードフォワードニューラルネットワークと、第3の入力を受信および処理して第3の出力を生成する第3のフィードフォワードニューラルネットワークと、を含み得る。また、複数の話者の各々に関して、メモリデバイスが、話者によるP個の会話サンプルの第1のセット
Figure 0007173974000001

および話者によるP個の会話サンプルの第2のセット
Figure 0007173974000002

を含み、Pが、2以上の整数である。ディープニューラルネットワークは、プロセッサ基盤デバイスによって訓練され、それにより、複数の話者の各々に関して、ディープニューラルネットワークは、バッチ処理を実施し、その間に、対応する会話サンプルの第1のセットが第1のフィードフォワードニューラルネットワークを通して供給され、対応する会話サンプルの第2のセットが第2のフィードフォワードニューラルネットワークを通して供給され、会話サンプルのコホートセットが第3のフィードフォワードニューラルネットワークを通して供給される。バッチ処理が完了すると、対応する会話サンプルの第1のセット、対応する会話サンプルの第2のセット、および会話サンプルのコホートセットにそれぞれ基づいて取得された、第1のネットワーク出力、第2のネットワーク出力、および第3のネットワーク出力に基づいて、損失関数が算出される。算出された損失関数は、バックプロパゲーション法によって第1、第2および第3のフィードフォワードニューラルネットワークの各々の接続重みを修正するために使用される。
さらなる代表的な実施形態によると、上記の損失関数は、会話サンプルの第1のセットのうちの1つ
Figure 0007173974000003

に応じた第1のネットワーク出力と、対応する会話サンプルの第2のセットのうちの1つ
Figure 0007173974000004

に応じた第2のネットワーク出力との間の類似度Sに対応する正の距離dと、会話サンプルの第1のセットのうちの1つ
Figure 0007173974000005

に応じた第1のネットワーク出力と、コホートセットのそれぞれの会話サンプルに応じた第3のネットワーク出力のうちの最も類似の1つとの間の類似度Sに対応する負の距離dと、に基づき得る。さらに、正の距離dおよび負の距離dが、対応する類似度S、Sに異なるそれぞれのマージンM、Mを適用することによって決定され得る。特に、損失関数は、
Figure 0007173974000006

として定義され得、式中、
Figure 0007173974000007

であり、d=2(1-min((S+M),1)であり、d=2(1-max((S+M-1),0)であり、
Figure 0007173974000008

であり、
Figure 0007173974000009

であり、
Figure 0007173974000010

は、N回の反復中に供給されたN個の負の会話サンプルのうちのn番目のものであり、
Figure 0007173974000011

は、会話サンプルの第1のセットのうちの1つに応じた第1のネットワーク出力であり、
Figure 0007173974000012

は、会話サンプルの第2のセットのうちの1つに応じた第2のネットワーク出力であり、
Figure 0007173974000013

は、負の会話サンプル
Figure 0007173974000014

に応じた第3のネットワーク出力であり、Kは、定数である。
代替的な代表的な実施形態によると、損失関数は、等価エラー率(EER)メトリックに関連し得る。この場合において、損失関数は、
Figure 0007173974000015

として定義され得、式中、μおよび
Figure 0007173974000016

は、ガウス分布に基づく正の認識スコアの平均および標準偏差であり、
Figure 0007173974000017

および
Figure 0007173974000018

は、ガウス分布に基づく負の認識スコアの平均および標準偏差である。
代表的な実施形態によると、トリプレットネットワークアーキテクチャに採用されるフィードフォワードニューラルネットワークの各々は、少なくとも1つの重畳層、少なくとも1つの最大プーリング層、および完全に接続された層を含み得る。
さらに、一代表的な実施形態において、本発明は、ユーザが自己識別を入力する話者検証タスクを実施するために使用され得、認識会話サンプルは、ユーザの識別情報が自己識別と同一であることを確認するために使用される。別の代表的な実施形態において、本発明は、それぞれの会話サンプルを伴って記憶された複数の潜在的識別情報からユーザを識別するために認識会話サンプルが使用される、話者識別タスクを実施するために使用され得る。上記の実施形態は、相互排他的ではなく、同一トリプレットネットワークアーキテクチャが、両方のタスクを実施するために使用され得る。
本発明の代表的な実施形態による、話者認識を実施するためのシステムを例示する。 本発明の代表的な実施形態による、訓練での使用のためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワークの概略構造を例示する。 本発明の代表的な実施形態による、特定のユーザに対する加入および試験での使用のためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワークの概略構造を例示する。 訓練での使用のための、前処理された会話サンプルを受信するように設計された、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークの構造の具体例を例示する。 特定のユーザに対する加入および試験での使用のためのディープニューラルネットワークアーキテクチャの構造の具体例を例示する。 訓練での使用のための、生の会話サンプルを処理するように設計された、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークの構造の別の具体例を例示する。 本発明の代表的な実施形態による、話者認識のための概略処理のフローチャートを例示する。 本発明の代表的な実施形態による、話者認識を実施するトリプレットネットワークアーキテクチャのディープニューラルネットワークを利用する処理のフローチャートを例示する。 本発明の代表的な実施形態による、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークを訓練するための処理のフローチャートである。 ソフトマックス関数を組み込み、かつ話者認識を具体的に実施するように事前訓練されるように設計された、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークの構造の一例を例示する。
本発明のより詳細な説明が、ここで、添付図面を参照して提供されることになる。
本発明の代表的な実施形態は、テキスト独立型話者認識を行うために、トリプレットネットワークアーキテクチャを有するディープニューラルネットワーク(DNN)を利用するシステムおよび方法を対象とする。「ディープニューラルネットワーク」および「DNN」という用語は、複数の線形および非線形変換関数からなる、複数の隠れ層を有するニューラルネットワークを指す。本出願において、話者認識の2つのサブタスクは、検証および識別と考えられる。本出願の目的に関して、「検証」は、実際の話者が、その名乗る人物であるかどうかを検出するタスクを指し、一方で「識別」は、話者の所定のリストから話者の識別情報を取得するタスクを指す。以下に説明される本発明の原理は、これらのサブタスクのいずれか一方または両方に適用され得る。また、本出願において、「ユーザ」という用語は、DNNが認識するように訓練される、特定の話者を指すために使用される場合がある。
話者認識を実施するDNNの使用は、DNNが低位の特徴を表現し、かつそれらを高位の特徴にマッピングする点でより良好であるため、混合ガウスモデル(GMM)を使用して推定されたユニバーサルバックグラウンドモデル(UBM)を利用する他の手法に対して有利である。低位の特徴は、生の会話信号と同様に低位であり得る。高位の特徴は、会話信号の全変動を保存する声紋である。したがって、DNNによって抽出された声紋は、UBM/GMMによって取得されたiベクトルに類似し得るが、より優れた結果を与える。
図1は、本発明の代表的な実施形態による、話者認識を実施するためのシステムを例示する。図1によると、ユーザまたは話者は、発声された音を電気信号に変換するためのマイクロフォンを含む入力デバイス10に発声する。図1に特に示されるように、入力デバイス10は、電話(携帯電話または固定電話のいずれか)もしくはコンピュータ、またはボイスオーバーインターネット(VoIP)通信が可能な他のプロセッサ基盤デバイス等の、遠距離通信が可能なデバイスとすることができる。事実上、本発明が、電話詐欺から保護する、例えば、発信者がその名乗る人物であることを検証する、または発信者の識別情報を「ブラックリスト」または「ブロックされた発信者リスト」上の人物として検出する、アプリケーションで具体的に利用され得ると考えられる。
図1によると、話者識別を実施するために使用されるユーザの発声は、本明細書では「認識会話サンプル」と呼ばれることになる。認識会話サンプルは、入力デバイス10から話者認識サブシステム20に電気的に送信され得る。認識会話サンプルが話される入力デバイス10が遠距離通信デバイス(例えば、電話)である場合が考えられるが、そうである必要はない。例えば、入力デバイス10は、話者認識サブシステム20に近接して位置する単なるマイクロフォンであってもよい。
図1の話者認識サブシステム20は、コンピューティングシステム22を含み得、これは、トリプレットネットワークアーキテクチャ(この詳細は、以下により詳細に説明されることになる)を有するディープニューラルネットワークをモデル化するようにプログラムされた、サーバまたは汎用パーソナルコンピュータ(PC)であってもよい。しかしながら、コンピューティングシステム22が、単一デバイスに厳密に限定されるものではなく、代わりに、本明細書に説明されるオペレーションを実施するために協働して働く複数のコンピュータおよび/またはデバイスを備えてもよいことが留意されるべきである(例えば、DNNの訓練は、1つのコンピューティングデバイス内で起こり得るが、実際の検証/識別タスクは、別のコンピューティングデバイス内で実施される)。単一または複数の中央処理装置(CPU)が、訓練および試験の両方のためのコンピューティングデバイスとして使用され得る場合、グラフィック処理ユニット(GPU)もまた使用され得る。例えば、コンピューティングデバイス22におけるGPUの使用は、特に訓練中の算出コストを低減することを助け得る。
図1に示されるように、話者認識サブシステム20はまた、代表的な実施形態においてDNNを訓練するために使用されるメモリデバイス24も含む。特に、このメモリデバイス24は、複数のユーザまたは話者からの複数のサンプルされた会話信号(または「会話サンプル」)、および話者登録サブシステム20に「加入」されているユーザに対して取得された複数の登録された声紋を含み得る。特に、メモリデバイス24は、DNNに対して実施されることになるそれぞれの機能、訓練および試験、に対応する2つの異なるデータセットを含む。
訓練の機能に関して、本発明の代表的な実施形態によると、DNNは、複数の話者に対応する正のサンプルおよび数Nの負のサンプルに従って訓練される。訓練を実施するために、メモリデバイス24は、好ましくは、複数の話者の各々からの実際の発声として取得された少なくとも2つの会話サンプルを含むデータセットを含むことになる。これらの会話サンプルは、関連する話者に関する「正の会話サンプル」と呼ばれる。メモリデバイス24において、DNNを訓練するためのデータセットはまた、上記の話者の各々に対する数Nの「負の会話サンプル」も含むことになる。これらの負の会話サンプルは、関連する話者とは異なる人々による発声に対応する。特定の例において、1000個の負の会話サンプル(すなわち、N=1000)が、DNNを訓練するために使用される複数の話者の各々に関して使用され得る。しかしながら、数Nは、1000より多くてもよく、または少なくてもよい。未知の会話元の会話サンプルが、かかる会話サンプルがDNNを訓練するために現在使用されている話者とは異なる話者iから発生したことが確認され得るか否かにかかわらず、負の会話サンプルの1つとして使用され得ることも留意されるべきである。
メモリデバイス24は、「試験」機能を実施するために別のデータセットを含み得、それによってDNNは、ユーザを確実に検証または識別することによって実際の話者認識を実施する。この機能を実施するために、データセットは、特定のユーザの1つの正の会話サンプルのみを必要とし、これは、話者認識サブシステム22へのユーザの「加入」の結果として取得され得る(これは、以下により詳細に説明されることになる)。さらに、このデータセットは、システムによって検証/識別され得る各ユーザに対応する、1つ以上の登録された声紋を含み得る。
図1を再び参照すると、話者認識分析の結果は、発信者(すなわち、ユーザ)を認証する、すなわち、発信者がその名乗る人物であることを検証することを必要とするエンドアプリケーション30によって使用され得る。代替として、エンドアプリケーション30は、所定のリスト(例えば、ブラックリストまたはブロックされた発信者)にある任意の発信者を識別することを必要とし得る。これは、発端末識別情報(CLID)(「発信者ID」と呼ばれることもある)による検出をすり抜けるために電話番号を偽装する悪意のある発信者を検出することを助け得る。しかしながら、本発明が悪意のある発信者を取り除くように設計されたアプリケーション30によって使用され得るが、本発明は、これらのタイプのアプリケーション30に限定されない。例えば、本発明は、例えば、音声生体認証が、部屋、リソース等へのアクセスを解錠するために使用される、他のアプリケーション30で有利に使用され得る。
様々な変更が図1に例示されたシステムになされ得ることが留意されるべきである。例えば、入力デバイス10は、認識会話サンプルをエンドアプリケーション30に直接送信し得、エンドアプリケーション30は、次いで、認識会話サンプルを話者認識サブシステム20に中継する。この場合において、エンドアプリケーション30はまた、自己識別を表すユーザからいくつかの形態の入力も受信し得る。例えば、話者識別タスクの場合において、エンドアプリケーション30は、ユーザを識別するようにユーザに要求し得(音声的または他の形態の入力のいずれか)、認識会話サンプルおよびユーザの主張された識別情報の両方を認証のために会話認識サブシステム20に送信し得る。他の場合において、ユーザの自己識別は、CLIDによって取得されるような、ユーザの主張された電話番号からなり得る。さらに、図1に例示される様々な要素のそれぞれの場所に関する限定は存在しない。一定の状況において、エンドアプリケーション30は、ユーザから遠隔であり得、したがってユーザに対する遠距離通信の使用を要求して、エンドアプリケーション30と対話する。代替的に、ユーザ(および入力デバイス10)は、例えば、アプリケーション30が音声起動セキュリティゲート等を制御する場合、使用時にエンドアプリケーション30に近接していてもよい。
図2Aは、本発明の代表的な実施形態による、訓練での使用のためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワーク(DNN)の概略構造を例示する。また、図2Aは、P個の音声サンプル、それらの対応するP個の正のサンプル、およびN個の負の会話サンプルのコホートセットが、第1、第2および第3のフィードフォワードニューラルネットワークを訓練するために使用される、バッチ処理の使用を概念的に例示する。
図2Aにおいて、DNNは、同一パラメータを共有する、同一フィードフォワードニューラルネットワーク212、222および232の3つのインスタンスからなる。共有されたパラメータ(図に示されるように)を有すると、3つのフィードフォワードニューラルネットワーク212、222、232は、層の数および構成、層間の接続重み等において同一である。これらのフィードフォワードニューラルネットワーク212、222、232は、それぞれ、入力210、220、230を介して3つの異なるサンプルを提供される。特に、DNNが訓練されているとき、DNNは、バッチ処理を実施し得、それによって第1のフィードフォワードニューラルネットワーク212および第2のフィードフォワードニューラルネットワーク222が、それぞれ入力210および220を介して、各々
Figure 0007173974000019

と示される、P個の会話サンプルの1つのセット、および各々
Figure 0007173974000020

と示される、対応するP個の正の会話サンプルの1つのセットと共に供給される。これらの会話サンプルの2つのセットは、同一話者によって話されている(およびしたがって同一話者に起因する)。さらに、第3のフィードフォワードニューラルネットワーク232は、バッチ処理中に入力230を介して、負の会話サンプルの共通コホートセット
Figure 0007173974000021

を供給する。コホートセット内の負の会話サンプルは、上記のP個のサンプルのセットとして同一話者によって話されておらず(または同一話者によって話されていることが少なくとも既知ではない)、したがって同一話者に起因しない。第1のフィードフォワードニューラルネットワーク212の出力214は、サンプル
Figure 0007173974000022

に応じて第1のP個の埋め込みベクトルセットを生成し、第2のフィードフォワードニューラルネットワーク222の出力224は、サンプル
Figure 0007173974000023

に応じて第2のP個の埋め込みベクトルセットを生成する。また、第3のフィードフォワードニューラルネットワーク232の出力234は、コホートセット内の負の会話サンプルに応じて第3のN個の埋め込みベクトルセットを生成する。所与のバッチが処理された後、これらの埋め込みベクトルは、損失を算出するために使用され(これは、以下により詳細に説明されることになる)、損失は、バックプロパゲーション法に従って3つのフィードフォワードニューラルネットワーク212、222、232の接続重みを修正するために使用される。
さらに、図2Bに示されるように、別のフィードフォワードニューラルネットワーク242は、DNNの訓練が完了した後、ユーザによって(入力デバイス10を介して)入力された認識会話サンプルに基づいて実際の話者認識を実施するために使用される。第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232が、共有されたパラメータを組み込み、したがってDNNの訓練が完了したときに互いに同一であるため、これらの3つのフィードフォワードニューラルネットワークのうちのいずれか1つが、話者認識を実施するフィードフォワードニューラルネットワーク242として互換的に使用され得る。代替的に、3つのフィードフォワードニューラルネットワーク212、222、232の間で共有されたパラメータを組み込む、フィードフォワードニューラルネットワークの新しいインスタンスが、ユーザの加入および/または試験(話者認識)での使用のための図2Bのフィードフォワードニューラルネットワーク242として使用されてもよい。このフィードフォワードニューラルネットワーク242によって実施される加入および試験が以下により詳細に説明されることになる。
ここで、追加の詳細が、DNNの設計に対して提供されることになる。以下に論じられることになるように、重畳ニューラルネットワーク(CNN)の態様は、少なくとも1つの重畳層を第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232の各々に組み込むことによってDNNの態様と組み合わせられ得る。さらに、各重畳層は、3次元、つまり高さ、幅および深さにおいてニューロンを有する。
図3Aは、DNNの訓練での使用のためのトリプレットネットワークアーキテクチャを有するDNNの構造の特定の例を例示する。図3Aに示されるように、第1、第2および第3のフィードフォワードニューラルネットワーク212、222および232の各々は、最大プーリング層に接続された第1の重畳層、第2の最大プーリング層によって追従される第2の重畳層、後続の完全に接続された層、および埋め込みベクトルを含む出力層を含み得る。しかしながら、訓練の終わりの際、フィードフォワードニューラルネットワーク212、222、232の各々の出力層は、入力されたサンプルの特徴表現(すなわち、声紋)を生成するように構成されることになる。
また図3Aに示されるものは、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232のそれぞれの入力210、220、230である。代表的な実施形態によると、ニューラルネットワーク212、222、232のそれぞれ1つに入力される前に、会話サンプルの各々(会話サンプル
Figure 0007173974000024

、正の会話サンプル
Figure 0007173974000025

、および負の会話サンプル
Figure 0007173974000026

)は、対応する発声の「画像」を生成するために前処理され得る。かかる前処理は、信号の非会話部を破棄するために、音声区間検出を適用することを含み得る。前処理はまた、基礎をなす会話信号を一定数(W)のオーバーラッピングウィンドウにパーティション分割することと、一定数(F)の特徴(例えば、メルフィルタバンク特徴)をW個のオーバーラッピングウィンドウの各々から抽出することを含み得る。請求項を限定するように解釈されない、かかる前処理の具体例が、説明されることになる。この非限定的例において、画像が、基礎をなす会話信号を、10ミリ秒のオーバーラップ(またはウィンドウシフト)を含む、20ミリ秒期間のウィンドウにパーティション分割することによって各会話サンプルに対して生成され得る。さらに、各サンプルに対する画像は、500個の上記のオーバーラッピングウィンドウを含み得(W=500)、40個のメルフィルタバンク特徴(F=40)が各ウィンドウから抽出されている(それによって、入力210、220、230の各々におけるサイズ40×500の画像を結果としてもたらす)。これは、5秒間の会話サンプルに対応することになる(40次元の特徴ベクトルが10ミリ秒毎に抽出されている)。しかしながら、これは、単に一例であり、異なる発声期間、異なる数のウィンドウ、ならびに異なる数およびタイプの特徴が使用されてもよいことが留意されるべきである。言い換えると、異なるタイプの会話「画像」がDNNに適用され得る。
上記の前処理が、関連する会話サンプルがメモリデバイス24に記憶される前後のいずれかに実施され得ることが留意されるべきである。ユーザから認識会話サンプルを入力するデバイス10、ならびに正および負の会話サンプルを入力するために使用される他のタイプの会話送信/記録デバイスが、上記の前処理のオペレーションの一部または全部を実施するように構成され得ることも考えられる。
再び図3Aを参照すると、入力信号が上記のようにサイズF×Wの前処理された画像であると仮定すると、第1、第2および第3のフィードフォワードニューラルネットワークの各々の第1の重畳層は、かかる画像を処理する適切な数(N)の重畳フィルタを含み得る。さらに、この層内の各重畳フィルタは、対応するウィンドウの特徴を処理し、したがってF×wのサイズのニューラルユニット(または「ニューロン」)を有するように構成され得る。したがって、各重畳フィルタは、特徴の数Fと比例する高さ、および様々な検討(例えば、会話のダイナミクスを考慮するように、処理およびメモリ要件に合致するように等)に基づいて選択され得る幅(w)を有することになる。
図3Aのフィードフォワードニューラルネットワーク212、222、232内の第1の重畳層の構成の具体的な非限定的例が、ここで説明されることになる。本例の目的に関して、入力された画像が、前処理に関する上記の非限定的例に関して上記のように40×500のサイズ(F×W)で前処理されると仮定され得る(10ミリ秒毎に抽出された40次元の特徴ベクトルを含む、5秒の会話に対応する)。この場合において、第1、第2および第3のフィードフォワードニューラルネットワークの各々の重畳層は、256個の重畳フィルタ(N=256)を含み得、各フィルタが、40ニューロンの高さ(各ウィンドウから抽出された40個の特徴に対応する)、および5ニューロンを超えない(例えば、1または3ニューロン)幅(w)を有する。この場合において、図3Aの第1の重畳層の深さは、256になり、この層の高さは、40になり、層の幅は、w≦5になる。また、この非限定的例において、第1の重畳層のエントリーニューロンは、入力画像の複数のウィンドウに接続され得る。
上記が非限定的例であり、第1の重畳層の深さおよび高さの次元が、それぞれ、上記の256および40とは異なってもよいことが留意されるべきである。しかしながら、この場合において、深さ(すなわち、重畳フィルタの数N)が、好ましくは、入力された画像内のオーバーラッピングウィンドウの数以下であり、一方で高さが、好ましくは、関連する会話サンプルの処理中にウィンドウの各々から抽出された特徴(例えば、メルフィルタバンク特徴)の数に等しいことが提案される。
図3Aを再び参照すると、フィードフォワードニューラルネットワーク212、222、232の各々における第1の重畳層に続いて、1次元の最大プーリング層のサイズsが提供される。最大プーリング層は、一時的な入力系列からの最大値を算出する層である。図3Aにおいて、最大プーリング層の結果は、N個の重畳フィルタからなる、第2の重畳層に提供される。しかしながら、これらのフィルタのサイズは、第1の重畳層のものと同一である必要はない。非限定的例において、第2の重畳層の高さおよび幅は、1であり得る。さらに、図3Aによると、最終的な全体最大プーリング層は、全時間軸にわたって適用されて、結果として生じる埋め込みベクトルを、入力された画像の期間に対して低感度にする。次の層は、完全に接続された層および出力層であり、例えば、各々がN個のニューロン有する。出力層は、訓練中に埋め込みベクトルを提供するが、訓練後、特徴表現、つまり、サンプルの元となる話者の声紋または音声署名を生成するように構成される。具体的には、それぞれの第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232の出力層は、上記にDNNの第1、第2および第3のネットワーク出力214、224、234と呼ばれたものである。
例えば、訓練中、会話サンプル
Figure 0007173974000027

の画像が第1のフィードフォワードニューラルネットワーク212を通して供給されたとき、第1のネットワーク出力214は、
Figure 0007173974000028

に対して埋め込まれたベクトルを表す、
Figure 0007173974000029

として記号化され得る結果を生成する。同様に、正の会話サンプル
Figure 0007173974000030

の画像が第2のフィードフォワードニューラルネットワーク222を通して供給されたとき、第2のネットワーク出力224は、
Figure 0007173974000031

に対して埋め込まれたベクトルを表す、
Figure 0007173974000032

として記号化され得る結果を生成する。同様に、負の会話サンプル
Figure 0007173974000033

の画像が第3のフィードフォワードニューラルネットワーク232を通して供給されたとき(nが1~Nの任意の整数である)、第3のネットワーク出力234は、
Figure 0007173974000034

に対して埋め込まれたベクトルを表す、
Figure 0007173974000035

として記号化され得る結果を生成する。
図3Aに示されるように、サンプルを訓練する所与のバッチが処理された後、損失関数が、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232のそれぞれの出力214、224、234に基づいて算出され得る。算出された損失関数は、DNN内の全ての重みに関して損失関数の勾配を算出することを目的とする、「確率的勾配降下法」オプティマイザを有するバックプロパゲーションアルゴリズムを使用してDNNのそれぞれのニューラルネットワーク212、222、232を訓練するために使用され得る。オプティマイザの目標は、損失関数を最小にするために、重みを更新することである。しかしながら、他のタイプのバックプロパゲーションアルゴリズムが使用され得ることも考えられる。図3Aの例において、損失関数は、第1の重畳層、第2の重畳層、および完全に接続された層の各々の接続重みを更新するために使用され得る。訓練アルゴリズムに関するより詳細は、図6に関して以下に論じられることになる。
ここで、特定のユーザの加入および試験での使用のためのDNNアーキテクチャの具体例を例示する、図3Bを参照することになる。特に、図3Bは、加入および試験機能を実施するためのフィードフォワードニューラルネットワーク242を例示する。図2Bに関して上述されたように、図3Bのフィードフォワードニューラルネットワーク242の構成およびパラメータは、図3AのDNNが訓練された後、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232の各々と同一構成およびパラメータを共有することになる。したがって、訓練の終わりにおいて、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232のいずれか1つは、図3Bのフィードフォワードニューラルネットワーク242として使用され得るか、または共有されたパラメータおよび構成を組み込むニューラルネットワークの新しいインスタンスが使用され得る。
図3Bに示されるように、ニューラルネットワーク242は、その入力240で、会話サンプルの前処理によって生成された画像を受信し得る。加入または試験が実施されるか否かに依存して、入力された画像は、特定のユーザを加入または登録する目的のために入力された会話サンプル(すなわち、「加入会話サンプル」)、または話者認識が行われる際の会話サンプル(すなわち、「認識会話サンプル」)のいずれかに対応することになる。一度、入力された画像がフィードフォワードニューラルネットワーク242を通して供給されると、出力層240は、対応する特徴提示(すなわち、声紋)を生成することになる。出力層240によって生成された各特徴表現は、iベクトルに類似し得るが、それらがDNNによって生成されたため、話者の音声の低位の特徴をより良好に表すように設計される。
上述のように、図3Aおよび図3Bの両方のDNNアーキテクチャの例は、各入力された会話サンプルが画像として前処理されている仮定に基づく。しかしながら、そうである必要はない。例えば、DNNは、図3Cが入力として生の会話サンプルを処理するためのトリプレットネットワークアーキテクチャを有するディープニューラルネットワークの例を例示する、異なるトリプレットネットワークアーキテクチャを呈してもよい。特に、図3Cに示されるように、それぞれのフィードフォワードニューラルネットワーク212、222および232のそれぞれの入力210、220および230で受信された会話サンプルは、図3Aおよび図3Bに関する上記の様式で前処理されない。代わりに、各入力されたサンプルは、一連のサンプルを取得するために生の会話信号(例えば、入力デバイス10を介して入力される)をサンプリングすることによって取得された信号を構築する。さらに、図3Cの特定の例に示されるように、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232の各々は、追加の重畳層および局所最大プーリングを含み、これらは、図3Aに関して説明されたものに類似する他の層の前に位置付けられる。生の会話サンプルを受信するように示される、図3Cの追加された重畳層は、生の会話サンプルから抽出されることになる特徴の数に対応する数(F)の重畳フィルタからなる。追加された最大プーリング層は、サイズsm1の1次元の層とすることができる。これらの追加の層は、図3Aおよび図3Bに関する上記の前処理に類似する変換を適用するように構成され得る。
ここで、本発明の代表的な実施形態による、話者認識のための概略処理400のフローチャートを例示する、図4を参照することになる。この図のオペレーションS410によると、トリプレットネットワークアーキテクチャを有するDNNが訓練される。特定のユーザに対して話者認識を行うために、DNNが、他の話者(かつ、可能であれば、未知の話者)から取得された複数の負の会話サンプルとの組み合わせで、ユーザから取得された少なくとも1つの会話サンプルに基づいて訓練されることになることが考えられる。図4に例示されるように、DNNの訓練に使用される会話サンプルは、メモリデバイス24のストレージから抽出され得る。DNNが訓練された後、特定のユーザは、オペレーションS420において話者認識サブシステム20によって登録または加入され得る。これは、「話者モデル」が、話者検証を実施するために、同一ユーザの特徴表現または声紋との将来的な比較の目的のために、特定のユーザに対して生成され得ることを意味する。その後、認識会話サンプルが、オペレーションS430において取得される。認識会話サンプルは、例えば、入力デバイス10から取得され得る。図4のオペレーションS440において、認識会話サンプルは、DNN(すなわち、ニューラルネットワーク242)を通して供給され、認識会話サンプルに応じたDNNの出力が、オペレーションS450において使用されて(上記の話者モデルと共に)、話者認識を実施する、すなわち、DNN出力に基づいてユーザを検証するか、または識別するかのいずれかを行う。
図5は、本発明の代表的な実施形態による、特定のユーザに対する話者認識を行うためのより具体的な処理500のフローチャートを例示する。図5のオペレーションS510において、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232からなるDNNは、メモリデバイス24内に記憶された会話サンプルを使用してコンピュータシステム22によって訓練される。この訓練処理の代表的な実施形態は、図6に関してより詳細に説明されることになる。メモリデバイス24が、複数の異なるユーザに対応するバッチにおいてDNNを訓練するために有用な会話サンプルのバンクを含み得ることに留意されるべきである。それゆえに、S510による、DNNを訓練することは、話者によるメモリデバイス24内の会話サンプルを分類および抽出するための任意の必要なステップを含み得る。
DNNがS510の結果として訓練された後、コンピュータシステム22は、登録された(または加入された)ユーザのリストに関して話者認識を実施するためにDNNを使用するように動作可能である。これは、DNNが登録された(加入された)ユーザのうちの一人を名乗る話者が、実際にその名乗る人物であるか否かを判定することによって検証を実施し得ることを意味する。また、DNNが、匿名の話者を、話者が実際に登録された(加入された)ユーザのリストに存在するかどうかを識別し、話者がこのリストに存在しない場合、話者が未知であることを示し得ることも意味する。したがって、本発明の代表的な実施形態において、話者モデルが、加入または登録されている各ユーザに関して生成される。かかる話者モデルを生成する特定の例は、特定のユーザを加入させるために、図5のオペレーションS520およびS525に関して開示されている。
図5のオペレーションS520において、特定のユーザの加入は、対応する加入会話サンプル(すなわち、特定のユーザによって実際に発声された会話サンプル)を受信することによって開始される。オペレーションS525において、加入会話サンプルは、対応する声紋(または特徴表現)を出力するために、フィードフォワードニューラルネットワーク242(図2Bおよび図3Bに関して上に説明されたような)を通して供給される。フィードフォワードニューラルネットワーク242によって生成された声紋は、その後、メモリデバイス24内に記憶され、登録されたユーザの話者モデルとして使用され得る。また、ユーザからの1つよりも多い加入会話サンプルが受信され、ユーザを登録するために使用され得ることも可能である。この場合において、複数の加入サンプルは、ユーザの複数の声紋を生成するために、フィードフォワードニューラルネットワーク242を通して供給され得る。この場合において、平均ベクトルは、複数の声紋から算出され、ユーザの話者モデルとして使用され得る。
図5のオペレーションS520およびS525は、代表的な実施形態による、DNNの「加入」機能の例を説明する。しかしながら、DNNが、登録されたユーザの話者モデルを生成するために、上記の様式で使用されることは、本発明の要件ではない。
図5のオペレーションS530~S560の順序に従って、話者認識が特定のユーザに対して実施され得る。したがって、これらのオペレーションは、本発明の代表的な実施形態による、DNNの「試験」機能に対応する。
S530において認識会話サンプルがデバイス10を介してユーザから受信される。この認識会話サンプルは、次いで、オペレーションS530においてフィードフォワードニューラルネットワーク242に供給され、このフィードフォワードニューラルネットワーク242に応じて、ネットワーク出力244でユーザの認識会話サンプルの特徴表現または声紋を生成する。
図5のオペレーションS540において、認識会話サンプルに応じてフィードフォワードニューラルネットワーク242によって出力される声紋または特徴表現は、ユーザを検証または識別するために使用される。特に、この声紋は、オペレーションS525によって生成され、1つ以上の登録されたユーザに関してメモリデバイス24内に記憶された、1つ以上の話者モデルと比較され得る。上述のように、これらの話者モデルの各々は、フィードフォワードニューラルネットワーク242によって同様に生成された声紋であり得る。判断ボックスS550によると、認識会話サンプルの結果としてニューラルネットワーク242によって取得された声紋が記憶された話者モデルのいずれかに「合致」するか否かに対する判断がなされる。各話者モデルが同様に生成された声紋であると仮定すると、この合致は、2つの声紋間の類似性(または距離)の測定によって決定され得る。一方で、各話者モデルが対応するユーザの会話特徴の異なる表現を含む場合、声紋を話者モデルのそれぞれの特徴と比較し、かつ合致が存在するか否かを決定するために、異なる処理がS540~S550で使用され得る。
S550が認識会話サンプルの声紋と記憶された会話サンプルのうちの1つの間で合致が起こったと判断した場合、処理500は、S560に進み、特定のユーザの識別情報が認証されたこと(話者検証タスクにおいて)、または特定のユーザの識別情報が所定のリストもしくは既知の識別情報に存在していること(話者識別タスクにおいて)を示す。一方で、S550がいかなる合致も起こらなかったと判断した場合、処理500は、S570に進み、特定のユーザがその名乗る人物ではない(したがって偽物)であること、または特定のユーザの識別情報が話者認識サブシステム20にとって未知であることを示す。これらの結果は、例えば、ディスプレイおよび/または音声出力上でコンピュータシステム22によって出力され得るか、または結果は、出力される別の場所に送信され得るか、もしくはエンドアプリケーション30に送信され、そこで使用され得る。例えば、話者検証および識別タスクの両方において、エンドアプリケーション30は、結果を使用して、ユーザが特定のリソースまたはパスにアクセスすることを許可/拒否し得る。例えば、エンドアプリケーション30は、ユーザがブラックリストまたはブロックされた発信者のリストの一員であると識別されたとき、ユーザの電話発信をブロックするために使用され得る。アプリケーション30はまた、ユーザの識別情報を偽っているユーザを自動的に合図する(またはそれに関する認証を警告する)ためにも使用され得る。
再び図5を参照すると、1つの話者認識タスクが実施された後、DNNは、S580に例示されるように、登録されたユーザの現在のプールに基づいて、特定のサンプルに対して別の話者認識タスクを実施するために使用され得る(処理500が、S530に戻って、新しい認識会話サンプルを受信することを含む)。将来的な話者認識タスクを行う目的のために、別の話者が加入されること、すなわち、登録されたユーザのプールに加えられることを必要とすることも考えられる。S590に例示されるように、新しいユーザが加入または登録されることを必要とする場合、処理500は、オペレーションS520に戻り、それによって新しい話者モデルが生成される。
次に、より具体的な説明が、処理に関して提供されることになり、それによってDNNは、図5のオペレーションS510によって各登録されたユーザに対して訓練される。
特に、図6は、本発明の代表的な実施形態による、DNNを訓練する処理5100のフローチャートである。DNNのこの訓練は、バッチ処理によって実施され得、それによって損失関数は、サンプルを訓練するバッチがDNNを通して供給された後に算出される。各バッチに関して、同一話者によって全て話された、X(i=1、...、P)として示されたP個の会話サンプルの1つのセットは、続いて、第1のフィードフォワードニューラルネットワーク212を通して適用される。また、各バッチに関して、
Figure 0007173974000036

サンプルと同一話者によって全て話された、対応するP個の会話サンプルの1つのセット
Figure 0007173974000037

は、続いて、第2のフィードフォワードニューラルネットワーク222に適用される。第3のフィードフォワードニューラルネットワーク232に関して、負の会話サンプルのコホートセット
Figure 0007173974000038


Figure 0007173974000039

および
Figure 0007173974000040

会話サンプルを話した人物とは異なる人物によって話されたもの)は、引き続いて、各バッチ中に第3のフィードフォワードニューラルネットワーク232に入力される。非限定的例によると、コホートセット内の負の会話サンプルの数N(および各バッチに対して実行する反復の数)は、1000に等しくてもよい。しかしながら、コホートセットは、異なる数の負の会話サンプルを含んでもよい。負の会話サンプルの同一コホートセットが、DNNの訓練中に、複数のバッチまたは可能であれば全てのバッチのために使用され得ることが可能である。また、各負の会話サンプルが、
Figure 0007173974000041

および
Figure 0007173974000042

の話者とは異なる人物によって話されることになると考えられる場合、コホートセット内の負の会話サンプルのうちの1つとして未知の会話元(すなわち、話者の識別情報が未知である)の会話サンプルを利用することが可能である。
図6を参照すると、オペレーションS5110によって、特定の話者からのP個の会話サンプルの1つのセット
Figure 0007173974000043

が、メモリデバイス24から抽出される。同様に、S5120において、同一話者からのP個の会話サンプルの1つのセットもまた、メモリデバイス24から抽出される。正の会話サンプルの数Pは、少なくとも2つであるべきであり、Pが、2つよりも多くなることが考えられる。さらに、オペレーションS5130によると、N個の負の会話サンプルのコホートセットが、メモリデバイス24から取得される。
上述のように、ディープニューラルネットワーク(DNN)は、各バッチにおいて、P個の会話サンプルの1つのセット
Figure 0007173974000044

および対応するP個の正の会話サンプルの1つのセット
Figure 0007173974000045

が、全て同一話者由来であり、それぞれ、第1のフィードフォワードニューラルネットワーク212および第2のフィードフォワードニューラルネットワーク222を通して供給されるように、バッチ内で訓練を実施することになる。P個の会話サンプルのセット
Figure 0007173974000046

は、引き続いて、オペレーションS5140において第1のニューラルネットワーク212を通して供給され、一方でP個の正の会話サンプルのセット
Figure 0007173974000047

は、オペレーション5150において第2のフィードフォワードニューラルネットワーク222を通して供給される。オペレーションS5160において、コホートセット内のN個の負の会話サンプルが、引き続いて、第3のフィードフォワードニューラルネットワーク232を通して供給される。
所与のバッチがこのようにDNNを通して処理された後、オペレーションS5170が実施される。このオペレーションは、DNNを通して、会話サンプル
Figure 0007173974000048

、正の会話サンプル
Figure 0007173974000049

、負の会話サンプル
Figure 0007173974000050

のコホートセット
Figure 0007173974000051

を供給する結果として生成された埋め込みベクトルセットに基づいて損失を計算する。さらに、S5170によると、計算された損失は、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232の各々の接続重みを修正するために使用される。特に、確率的勾配降下法オプティマイザを利用するバックプロパゲーション法が、一度、損失関数が計算されると、重みを修正するために使用され得る。損失を計算するための関数が、以下により詳細に説明されることになる。
各バッチ(すなわち、P個の会話サンプル
Figure 0007173974000052

の各セットおよび対応するP個の正の会話サンプル
Figure 0007173974000053

のセット)の損失を計算するために使用される損失関数は、以下のパラメータに基づく:
・各会話サンプル
Figure 0007173974000054

に応じた第1のネットワーク出力214(すなわち、埋め込みベクトル
Figure 0007173974000055

)と、対応する正の会話サンプル
Figure 0007173974000056

に応じた第2のネットワーク出力224(すなわち、埋め込みベクトル
Figure 0007173974000057

)との間の類似度S
・各会話サンプル
Figure 0007173974000058

に応じた第1のネットワーク出力214(すなわち、
Figure 0007173974000059

)と、コホートセットに応じた第3のネットワーク出力234のうちの最も類似のもの(すなわち、特徴表現
Figure 0007173974000060

のうちの最も類似のもの)との間の類似度S
・類似度SおよびSにそれぞれ適用される、正のマージンMおよび負のマージンM
・類似度Sおよび対応するマージンMに基づいて計算される正の距離d
・類似度Sおよび対応するマージンMに基づいて計算される負の距離d
正のマージンMおよび負のマージンMの使用は、会話サンプル
Figure 0007173974000061

および
Figure 0007173974000062

が互いに合理的に近く、かつ会話サンプル
Figure 0007173974000063

が負の会話サンプルの最も近くから合理的に遠い状況下で損失関数の追加のコストを回避することを助ける。
代表的な実施形態によると、各バッチの損失関数は、次式のように定義され得る:
Figure 0007173974000064

式中、
Figure 0007173974000065

方程式(2)において、Kは、定数(例えば、1000)を表す。さらに、方程式(2)の正および負の距離dおよびdは、次の方程式によって計算され得る:
=2(1-min((S+M),1) 方程式(3)
および
=2(1-max((S+M-1),0) 方程式(4)。
方程式(3)および(4)に示されるように、正および負の距離dおよびdは、それぞれ、類似度SおよびSならびに対応するマージンMおよびMに基づいて計算される。これらの類似度SおよびSは、次の方程式によって計算され得る:
Figure 0007173974000066

および
Figure 0007173974000067

方程式(5)において、最大演算子は、コホートセットに基づいて第3のフィードフォワードニューラルネットワーク232によって生成された特徴表現
Figure 0007173974000068

のうちの1つを抽出し、これは、特徴表現
Figure 0007173974000069

に最も類似する。
また、正および負のマージンMおよびMは、次の方程式によって計算され得る:
Figure 0007173974000070

および
Figure 0007173974000071

方程式(5)~(8)によると、それぞれの距離(dおよびd)を決定するために使用される、類似度(SおよびS)およびマージン(MおよびM)は、余弦類似度の観点で算出される。正および負のマージンの使用と共に、余弦類似度に基づく距離の使用は、声紋の堅牢な表現を提供する。
再び図6を参照すると、損失関数が所与のバッチに関して計算されるとき、算出された損失は、オペレーションS5170において使用されて、例えば、確率的勾配降下法を使用するバックプロパゲーション法によって、第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232の各々の接続重みを修正する。例えば、DNNが図3Aに例示される特定の構成を有する場合、算出された損失は、第1の重畳層、第2の重畳層、および完全に接続された層に関して重みを修正するために使用され得る。
ドロップアウト訓練が、重みを修正するために、バックプロパゲーション法と併せて使用され得ることも留意される。特に、ドロップアウトアルゴリズムにおいて、訓練中のニューロンの一定の部分またはパーセンテージは、それらの対応する重みの修正を防止するために、訓練中にドロップされる。例えば、ドロップアウトアルゴリズムは、重みの80%のみ(またはさらにちょうど50%)が所与のバッチの結果として修正されるように適用され得る。
図6の処理5100において、DNNの接続重みがオペレーションS5170によって所与のバッチに関して算出された損失によって修正された後、S5180において、DNNが任意のより多くのバッチ(すなわち、会話サンプルの異なるセット
Figure 0007173974000072

および異なる話者に対応する正の
Figure 0007173974000073

)によって訓練されることになるか否かの決定がなされる。処理されることになるより多くのバッチが存在する場合、処理は、オペレーションS5110に戻って、必要なサンプルを抽出し、新しいバッチの処理を開始する。そうでない場合、図6において、DNNの訓練が完了されるようにみなされる。
図4~6のフローチャートが例示の目的のみのために提供され、添付の請求項によって定義される本発明を限定するように意図されないことが留意されるべきである。これらの図に開示された処理は、修正されてもよく、本発明の概念および範囲内に依然として留まる。例えば、これらのフローチャートの各々がオペレーションの順序を例示するが、これらのオペレーションの順番は、変更されてもよく、これらのフローチャートに例示された一定のオペレーションは、省略されてもよく、示されていない他のオペレーションが追加されてもよい。
同様に、図1、2A、2Bおよび3A~3Cに例示された構造および構成もまた、例示の目的のみのために提供される。それらに例示されたシステムおよびニューラルネットワーク構成は、本発明の概念および範囲内で矛盾しない任意の様式で修正されてもよい。
代替的な実施形態
上記の実施形態において、トリプレットネットワークアーキテクチャを有するDNNは、検証(実際の話者がその名乗る人物であるかどうかを検出する)および識別(話者の識別情報を閉集合内の誰かに合致させる)の両方の話者認識タスクを実施するように訓練される。かかる実施形態において、トリプレットネットワークアーキテクチャのDNNモデルは、図3Aおよび図3Bに例示される構造を含み得、図6に示される処理によってさらに訓練され得る。この場合において、トリプレットネットワークアーキテクチャのDNNモデルのパラメータは、訓練前に、ランダムに初期化され得る。
しかしながら、代替的な実施形態によると、DNNは、識別のタスクのために具体的に設計され得、異なるDNN構造および訓練方法が採用され得る。例えば、トリプレットネットワークアーキテクチャを有するDNNモデルのパラメータをランダムに初期化することに代えて、パラメータは、話者の閉集合に対して話者識別タスクを実施するように具体的に訓練されたDNNのパラメータによって代わりに初期化され得、出力クラスは、異なる話者ラベルである。さらに、かかる話者識別訓練中、DNNの構造は、図3Aおよび図3Bに例示されたフィードフォワードニューラルネットワーク212、222、232、242の構造に基づき得るが、少なくとも2つの追加の層によって修正され得る:(1)ソフトマックス層、および(2)訓練セット内のそれぞれの話者の複数のユニットを含む出力層。
例えば、これらの追加の層は、図3Aおよび図3Bに例示されたフィードフォワードニューラルネットワーク構造に付加され得る。上記のように、図3Aおよび図3Bに例示されたフィードフォワードニューラルネットワークの各々は、完全に接続された層、および埋め込みベクトルまたは声紋を生成するための後続層で終わる。代替的な実施形態によると、この後続層は、ソフトマックス層および出力層を供給する、第2の完全に接続された層に転換され得る。ソフトマックス層は、正規化指数関数と呼ばれることもあり、かつシグモイド関数の一般化である、関数を実行する。ソフトマックス関数は、人工ニューラルネットワークによって実装されたものを含む、様々な確率マルチクラス分類法で使用される。付加された出力層に関して、この層のニューラルユニットの数は、DNNが識別するように訓練される話者の数に等価である。例えば、DNNが3000の異なる話者に対して話者識別を実施するように訓練された非限定例において、出力層は、3000の異なるユニットを含むことになる。
DNN(付加された層を有する)が話者の閉集合に対して話者識別を行うように訓練された後、訓練されたパラメータは、次いで、例えば、図6に関して上に説明された処理による、損失関数に基づく後続の訓練のための第1、第2および第3のフィードフォワードニューラルネットワーク212、222、232に与えられ得る。
この代替的な実施形態は、上記のように図3Aおよび図3Bに例示された構造に基づき得るが、他の修正もまた、この代替的な実施形態にフィードフォワードニューラルネットワークの構造になされ得ると考えられる。例えば、図7は、代替的な実施形態に関して使用されるDNNの構造の具体例を例示する。参照として図3Bのフィードフォワードニューラルネットワークの構造を使用して、図7は、3つの重畳層、3つの最大プーリング層、および4つの完全に接続された層を組み込む修正された構造を有するフィードフォワードニューラルネットワーク242’を例示する。図7において、第4の完全に接続された層が、ソフトマックス層710、およびいくつかのユニット(DNNが識別するように訓練される話者の数に等価)からなる出力層720に接続される。話者識別訓練が行われた後、パラメータは、次いで、トリプレットネットワークアーキテクチャによるそれぞれのフィードフォワードニューラルネットワークに与えられ得、上記の損失関数に基づいて訓練され得る。
第2の代替的な実施形態
図6に例示された訓練処理の説明において、具体的な損失関数が、方程式(1)~(8)に関して上に説明されたことが留意される。しかしながら、DNNが、図6に関して上に説明された特定の損失関数によって訓練されることは、要件ではない。代替的な代表的な実施形態において、例えば、等価エラー率(EER)メトリックに直接関連する異なる損失関数がDNNを訓練するために使用され得る。
EERメトリックは、典型的には、話者認識システムの正確さを評価するために使用される。話者認識および他の生体認証システムにおいて、EERは、他人受入率および本人拒否率を等化するための閾値を事前決定するために使用される。EERは、正の認識スコア(合致を示す)および負の認識スコア(不一致を示す)の分布がガウス分布である仮定において引き出され、次の方程式によって表現され得る:
Figure 0007173974000074

方程式(9)において、erf(z)の項は、誤差関数を表し、一方でμおよび
Figure 0007173974000075

は、正の認識スコアの平均および標準偏差であり、
Figure 0007173974000076

および
Figure 0007173974000077

は、負の認識スコアの平均および標準偏差である。この場合において、正および負の認識スコアは、方程式(1)~(8)の損失関数に関して上述された類似度SおよびSに類似する。したがって、正の認識スコアの平均および標準偏差(μおよび
Figure 0007173974000078

)、および負の認識スコアの平均および標準偏差(
Figure 0007173974000079

および
Figure 0007173974000080

)は、次式のようにバッチ処理から引き出され得る:
Figure 0007173974000081

Figure 0007173974000082

Figure 0007173974000083

Figure 0007173974000084

式中、記号P、N、EVx、EVx 、およびEVx は、方程式(1)~(8)に関して上に定義されたものと同一の意味を有する。
上の方程式(9)に示されるように、EERの値を最小にすることは、項
Figure 0007173974000085

の最大化をもたらす。この論理を使用すると、訓練中に最小にされる損失関数は、次式のように定義され得る:
Figure 0007173974000086

それゆえに、方程式(1)~(8)に関して説明された損失関数に対する代替として、トリプレットネットワークアーキテクチャを有するDNNが、方程式(14)によって定義された損失関数によって訓練され得る。しかしながら、他の損失関数もまた、DNNを使用するために使用されてもよく、本発明は、特定の損失関数に限定されるものではない。
特定の実施形態が例の目的のために上に説明されたが、それらは、その範囲が添付の請求項に定義されている本発明を限定することを意図しない。

Claims (22)

  1. 話者認識デバイスであって、
    会話サンプルを記憶するメモリデバイスであって、前記会話サンプルが、
    同一話者による会話サンプルのデュアルセット、
    前記デュアルセットと同一話者によらない会話サンプルのコホートセット、および
    話者モデルセット、を含む、メモリデバイスと、
    トリプレットネットワークアーキテクチャを有するディープニューラルネットワークをモデル化するように構成されたプロセッサ基盤デバイスと、を備え、
    前記プロセッサ基盤デバイスが、前記会話サンプルのデュアルセットが前記会話サンプルのコホートセットとの組み合わせで前記ディープニューラルネットワークを通して供給される、バッチ処理に従って前記ディープニューラルネットワークを訓練し、
    前記プロセッサ基盤デバイスが、前記訓練されたディープニューラルネットワークを通して認識会話サンプルを供給し、前記認識会話サンプルおよび前記話者モデルの少なくとも1つに応じて、前記訓練されたディープニューラルネットワークの出力に基づいてユーザを検証または識別し、
    前記ディープニューラルネットワークが、
    第1の入力を受信および処理して、第1のネットワーク出力を生成する第1のフィードフォワードニューラルネットワークと、
    第2の入力を受信および処理して、第2のネットワーク出力を生成する第2のフィードフォワードニューラルネットワークと、
    第3の入力を受信および処理して、第3のネットワーク出力を生成する第3のフィードフォワードニューラルネットワークと、を含み、
    複数の話者の各々に関して、前記メモリデバイスが、前記話者によるP個の会話サンプルの第1のセット
    Figure 0007173974000087

    および前記話者によるP個の会話サンプルの第2のセット
    Figure 0007173974000088

    を含み、Pが、2以上の整数であり、
    前記ディープニューラルネットワークが、前記プロセッサ基盤デバイスによって訓練され、それにより、前記複数の話者の各々に関して、
    前記ディープニューラルネットワークが、バッチ処理を実施し、その間に、前記対応する会話サンプルの第1のセットが前記第1のフィードフォワードニューラルネットワークを通して供給され、前記対応する会話サンプルの第2のセットが前記第2のフィードフォワードニューラルネットワークを通して供給され、前記会話サンプルのコホートセットが前記第3のフィードフォワードニューラルネットワークを通して供給され、
    前記バッチ処理が完了すると、前記対応する会話サンプルの第1のセット、前記対応する会話サンプルの第2のセット、および前記会話サンプルのコホートセットにそれぞれ基づいて取得された、前記第1のネットワーク出力、前記第2のネットワーク出力、および前記第3のネットワーク出力に基づいて、損失関数が算出され、
    前記算出された損失関数が、バックプロパゲーション法によって前記第1、第2および第3のフィードフォワードニューラルネットワークの各々の接続重みを修正するために使用され、
    前記損失関数が、
    前記会話サンプルの第1のセットのうちの1つ
    Figure 0007173974000089

    に応じた前記第1のネットワーク出力と、前記対応する会話サンプルの第2のセットのうちの1つ
    Figure 0007173974000090

    に応じた前記第2のネットワーク出力との間の類似度Sに対応する正の距離dと、
    前記会話サンプルの第1のセットのうちの前記1つ
    Figure 0007173974000091

    に応じた前記第1のネットワーク出力と、前記コホートセットのそれぞれの会話サンプルに応じた前記第3のネットワーク出力のうちの最も類似の1つとの間の類似度Sに対応する負の距離dと、に基づく、話者認識デバイス。
  2. 前記正の距離dおよび前記負の距離dが、前記対応する類似度S、Sに異なるそれぞれのマージンM、Mを適用することによって決定される、請求項に記載の話者認識デバイス。
  3. 前記損失関数が、
    Figure 0007173974000092

    によって定義され、式中、
    Figure 0007173974000093

    であり、
    =2(1-min((S+M),1)であり、
    =2(1-max((S+M-1),0))であり、
    Figure 0007173974000094

    であり、
    Figure 0007173974000095

    であり、
    Figure 0007173974000096

    が、N回の反復中に供給されたN個の負の会話サンプルのうちのn番目のものであり、
    Figure 0007173974000097

    が、前記会話サンプルの第1のセットのうちの1つに応じた前記第1のネットワーク出力であり、
    Figure 0007173974000098

    が、前記会話サンプルの第2のセットのうちの1つに応じた前記第2のネットワーク出力であり、
    Figure 0007173974000099

    が、前記負の会話サンプル
    Figure 0007173974000100

    に応じた前記第3のネットワーク出力であり、
    Figure 0007173974000101

    であり、
    Figure 0007173974000102

    であり、
    Kが、定数である、請求項に記載の話者認識デバイス。
  4. 前記ディープニューラルネットワークの第1、第2および第3のフィードフォワードニューラルネットワークの各々が、少なくとも1つの重畳層および完全に接続された層を含む、請求項1に記載の話者認識デバイス。
  5. 前記第1、第2および第3のフィードフォワードニューラルネットワークの各々が、少なくとも1つの最大プーリング層および後続の完全に接続された層をさらに含む、請求項に記載の話者認識デバイス。
  6. 前記第1、第2および第3のフィードフォワードニューラルネットワークのそれぞれ1つに入力される、各会話サンプルが、
    基礎会話信号を複数のオーバーラッピングウィンドウにパーティション分割することと、
    複数の特徴を前記オーバーラッピングウィンドウの各々から抽出することと、によって、前処理される、請求項に記載の話者認識デバイス。
  7. 前記第1、第2および第3のフィードフォワードニューラルネットワークが、前記前処理された会話サンプルを受信する第1の重畳層を含み、
    前記第1の重畳層が、数Nの重畳フィルタを含み、
    前記N個の重畳フィルタの各々が、F×w個のニューロンを有し、Fが、前記第1の重畳層の高さに対応し、wが、前記重畳層の幅に対応し、
    Fが、前記オーバーラッピングウィンドウの各々から抽出された前記特徴の数に等しく、wが、5以下である、請求項に記載の話者認識デバイス。
  8. 前記デバイスが、前記ユーザが自己識別を入力する話者検証タスクを実施するように構成され、前記認識会話サンプルが、前記ユーザの識別情報が前記自己識別と同一であることを確認するために使用される、請求項1に記載の話者認識デバイス。
  9. 前記デバイスが、それぞれの会話サンプルを伴って前記メモリデバイス内に記憶された複数の潜在的識別情報から前記ユーザを識別するために前記認識会話サンプルが使用される、話者識別タスクを実施するように構成されている、請求項1に記載の話者認識デバイス。
  10. 会話サンプルを前記ユーザから前記認識会話サンプルとして受信する入力デバイスをさらに備える、請求項1に記載の話者認識デバイス。
  11. 方法であって、
    メモリデバイス内に記憶された複数の会話サンプルに基づいて、トリプレットネットワークアーキテクチャを有するディープニューラルネットワークのコンピュータ実装モデルを訓練することであって、前記複数の会話サンプルが、
    同一話者による会話サンプルのデュアルセットと、
    前記デュアルセットと同一話者によらない会話サンプルのコホートセットと、
    話者モデルセットと、を含む、訓練することと、
    前記訓練されたディープニューラルネットワークを通して認識会話サンプルを供給し、前記認識会話サンプルおよび前記話者モデルの少なくとも1つに応じて、前記訓練されたディープニューラルネットワークの出力に基づいてユーザを検証または識別することと、を含み、
    前記ディープニューラルネットワークの前記訓練が、前記会話サンプルのデュアルセットが前記会話サンプルのコホートセットとの組み合わせで前記ディープニューラルネットワークを通して供給される、バッチ処理に従って実施され、
    前記ディープニューラルネットワークが、
    第1のフィードフォワードニューラルネットワークであって、この各反復が、第1のネットワーク出力を生成するために第1の入力を受信および処理する、第1のフィードフォワードニューラルネットワークと、
    第2のフィードフォワードニューラルネットワークであって、この各反復が、第2のネットワーク出力を生成するために第2の入力を受信および処理する、第2のフィードフォワードニューラルネットワークと、
    第3のフィードフォワードニューラルネットワークであって、この各反復が、第3のネットワーク出力を生成するために第3の入力を受信および処理する、第3のフィードフォワードニューラルネットワークと、
    複数の話者の各々に関して、前記メモリデバイスが、前記話者によるP個の会話サンプルの第1のセット
    Figure 0007173974000103

    および前記話者によるP個の会話サンプルの第2のセット
    Figure 0007173974000104

    を含み、Pが、2以上の整数であり、
    前記ディープニューラルネットワークが訓練され、それにより、前記複数の話者の各々に関して、
    前記ディープニューラルネットワークが、バッチ処理を実施し、その間に、前記対応する会話サンプルの第1のセットが前記第1のフィードフォワードニューラルネットワークを通して供給され、前記対応する会話サンプルの第2のセットが前記第2のフィードフォワードニューラルネットワークを通して供給され、前記会話サンプルのコホートセットが前記第3のフィードフォワードニューラルネットワークを通して供給され、
    前記バッチ処理が完了すると、前記対応する会話サンプルの第1のセット、前記対応する会話サンプルの第2のセット、および前記会話サンプルのコホートセットにそれぞれ基づいて取得された、前記第1のネットワーク出力、前記第2のネットワーク出力、および前記第3のネットワーク出力に基づいて、損失関数が算出され、
    前記算出された損失関数が、バックプロパゲーション法によって前記第1、第2および第3のフィードフォワードニューラルネットワークの各々の接続重みを修正するために使用され、

    Figure 0007173974000105

    に関して算出された前記損失関数が、
    前記会話サンプルの第1のセットのうちの1つ
    Figure 0007173974000106

    に応じた前記第1のネットワーク出力と、前記対応する会話サンプルの第2のセットのうちの1つ
    Figure 0007173974000107

    に応じた前記第2のネットワーク出力との間の類似度Sに対応する正の距離dと、
    前記会話サンプルの第1のセットのうちの前記1つ
    Figure 0007173974000108

    に応じた前記第1のネットワーク出力と、前記コホートセットのそれぞれの会話サンプルに応じた前記第3のネットワーク出力のうちの最も類似の1つとの間の類似度Sに対応する負の距離dと、に基づく、方法。
  12. 前記正の距離dおよび前記負の距離dが、前記対応する類似度S、Sに異なるそれぞれのマージンM、Mを適用することによって決定される、請求項11に記載の方法。
  13. 前記損失関数が、
    Figure 0007173974000109

    によって定義され、式中、
    Figure 0007173974000110

    であり、
    =2(1-min((S+M),1)であり、
    =2(1-max((S+M-1),0))であり、
    Figure 0007173974000111

    であり、
    Figure 0007173974000112

    であり、
    Figure 0007173974000113

    が、N回の反復中に供給されたN個の負の会話サンプルのうちのn番目のものであり、
    Figure 0007173974000114

    が、前記会話サンプルの第1のセットのうちの1つに応じた前記第1のネットワーク出力であり、
    Figure 0007173974000115

    が、前記会話サンプルの第2のセットのうちの1つに応じた前記第2のネットワーク出力であり、
    Figure 0007173974000116

    が、前記負の会話サンプル
    Figure 0007173974000117

    に応じた前記第3のネットワーク出力であり、
    Figure 0007173974000118

    であり、
    Figure 0007173974000119

    であり、
    Kが、定数である、請求項12に記載の方法。
  14. 前記損失関数が、
    Figure 0007173974000120

    によって定義され、式中、
    μおよび
    Figure 0007173974000121

    は、ガウス分布に基づく正の認識スコアの平均および標準偏差であり、
    Figure 0007173974000122

    および
    Figure 0007173974000123

    は、ガウス分布に基づく負の認識スコアの平均および標準偏差である、請求項11に記載の方法。
  15. 前記ディープニューラルネットワークの第1、第2および第3のフィードフォワードニューラルネットワークの各々が、少なくとも1つの重畳層および完全に接続された層を含む、請求項11に記載の方法。
  16. 前記第1、第2および第3のフィードフォワードニューラルネットワークの各々が、少なくとも1つの最大プーリング層および後続の完全に接続された層をさらに含む、請求項15に記載の方法。
  17. 前記第1、第2および第3のフィードフォワードニューラルネットワークの各々が、ソフトマックス層および出力層をさらに含み、
    前記ディープニューラルネットワークのパラメータが、話者識別タスクを話者の閉集合に対して実施するために、事前訓練されたニューラルネットワークのパラメータによって初期化され、前記出力層が、前記話者の各々のための別個のニューラルユニットを含む、請求項16に記載の方法。
  18. 前記第1、第2、第3のフィードフォワードニューラルネットワークのそれぞれ1つに入力される、各会話サンプルを前処理することであって、
    基礎会話信号を複数のオーバーラッピングウィンドウにパーティション分割することと、
    複数の特徴を前記オーバーラッピングウィンドウの各々から抽出することと、による、前処理することをさらに含む、請求項15に記載の方法。
  19. 前記第1、第2および第3のフィードフォワードニューラルネットワークが、前記前処理された会話サンプルを受信する第1の重畳層を含み、
    前記第1の重畳層が、数Nの重畳フィルタを含み、
    前記N個の重畳フィルタの各々が、F×w個のニューロンを有し、Fが、前記第1の重畳層の高さに対応し、wが、前記重畳層の幅に対応し、
    Fが、前記オーバーラッピングウィンドウの各々から抽出された前記特徴の数に等しく、wが、5以下である、請求項18に記載の方法。
  20. 話者検証タスクが実施され、前記ユーザが自己識別を入力し、前記認識会話サンプルが、前記ユーザの識別情報が前記自己識別と同一であることを確認するために使用される、請求項11に記載の方法。
  21. 話者識別タスクが実施され、前記認識会話サンプルが、それぞれの会話サンプルを伴って前記メモリデバイス内に記憶された複数の潜在的識別情報から前記ユーザを識別するために使用される、請求項11に記載の方法。
  22. 会話サンプルをユーザから、入力デバイスを介して、前記認識会話サンプルとして受信することをさらに含む、請求項11に記載の方法。
JP2019535198A 2016-09-12 2017-09-11 ディープニューラルネットワークを使用する端末間話者認識 Active JP7173974B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022104204A JP2022153376A (ja) 2016-09-12 2022-06-29 ディープニューラルネットワークを使用する端末間話者認識

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/262,748 2016-09-12
US15/262,748 US9824692B1 (en) 2016-09-12 2016-09-12 End-to-end speaker recognition using deep neural network
PCT/US2017/050927 WO2018049313A1 (en) 2016-09-12 2017-09-11 End-to-end speaker recognition using deep neural network

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022104204A Division JP2022153376A (ja) 2016-09-12 2022-06-29 ディープニューラルネットワークを使用する端末間話者認識

Publications (2)

Publication Number Publication Date
JP2019532354A JP2019532354A (ja) 2019-11-07
JP7173974B2 true JP7173974B2 (ja) 2022-11-16

Family

ID=59955660

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019535198A Active JP7173974B2 (ja) 2016-09-12 2017-09-11 ディープニューラルネットワークを使用する端末間話者認識
JP2022104204A Pending JP2022153376A (ja) 2016-09-12 2022-06-29 ディープニューラルネットワークを使用する端末間話者認識

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022104204A Pending JP2022153376A (ja) 2016-09-12 2022-06-29 ディープニューラルネットワークを使用する端末間話者認識

Country Status (8)

Country Link
US (4) US9824692B1 (ja)
EP (1) EP3501025B1 (ja)
JP (2) JP7173974B2 (ja)
KR (3) KR102072782B1 (ja)
AU (3) AU2017322591B2 (ja)
CA (3) CA3096378A1 (ja)
ES (1) ES2883326T3 (ja)
WO (1) WO2018049313A1 (ja)

Families Citing this family (118)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10650046B2 (en) 2016-02-05 2020-05-12 Sas Institute Inc. Many task computing with distributed file system
US10642896B2 (en) 2016-02-05 2020-05-05 Sas Institute Inc. Handling of data sets during execution of task routines of multiple languages
US10650045B2 (en) * 2016-02-05 2020-05-12 Sas Institute Inc. Staged training of neural networks for improved time series prediction performance
US10795935B2 (en) 2016-02-05 2020-10-06 Sas Institute Inc. Automated generation of job flow definitions
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
USD898059S1 (en) 2017-02-06 2020-10-06 Sas Institute Inc. Display screen or portion thereof with graphical user interface
WO2018148298A1 (en) 2017-02-07 2018-08-16 Pindrop Security, Inc. Age compensation in biometric systems using time-interval, gender, and age
WO2018160943A1 (en) * 2017-03-03 2018-09-07 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
CN107180628A (zh) * 2017-05-19 2017-09-19 百度在线网络技术(北京)有限公司 建立声学特征提取模型的方法、提取声学特征的方法、装置
USD898060S1 (en) 2017-06-05 2020-10-06 Sas Institute Inc. Display screen or portion thereof with graphical user interface
US10354656B2 (en) * 2017-06-23 2019-07-16 Microsoft Technology Licensing, Llc Speaker recognition
US10091349B1 (en) 2017-07-11 2018-10-02 Vail Systems, Inc. Fraud detection system and method
US10623581B2 (en) 2017-07-25 2020-04-14 Vail Systems, Inc. Adaptive, multi-modal fraud detection system
CN111316281B (zh) * 2017-07-26 2024-01-23 舒辅医疗 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
US10325602B2 (en) * 2017-08-02 2019-06-18 Google Llc Neural networks for speaker verification
US10755142B2 (en) * 2017-09-05 2020-08-25 Cognizant Technology Solutions U.S. Corporation Automated and unsupervised generation of real-world training data
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
US10592732B1 (en) 2017-12-14 2020-03-17 Perceive Corporation Probabilistic loss function for training network with triplets
CN108417217B (zh) * 2018-01-11 2021-07-13 思必驰科技股份有限公司 说话人识别网络模型训练方法、说话人识别方法及系统
CN108447490B (zh) * 2018-02-12 2020-08-18 阿里巴巴集团控股有限公司 基于记忆性瓶颈特征的声纹识别的方法及装置
CN108428455A (zh) * 2018-02-13 2018-08-21 上海爱优威软件开发有限公司 声纹特征的采集方法及系统
CN108399395A (zh) * 2018-03-13 2018-08-14 成都数智凌云科技有限公司 基于端到端深度神经网络的语音和人脸复合身份认证方法
US11995537B1 (en) * 2018-03-14 2024-05-28 Perceive Corporation Training network with batches of input instances
US11586902B1 (en) 2018-03-14 2023-02-21 Perceive Corporation Training network to minimize worst case surprise
CN108875904A (zh) * 2018-04-04 2018-11-23 北京迈格威科技有限公司 图像处理方法、图像处理装置和计算机可读存储介质
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
GB2573809B (en) 2018-05-18 2020-11-04 Emotech Ltd Speaker Recognition
CN108766440B (zh) * 2018-05-28 2020-01-14 平安科技(深圳)有限公司 说话人分离模型训练方法、两说话人分离方法及相关设备
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
WO2019246219A1 (en) 2018-06-19 2019-12-26 Securelogix Corporation Active audio calling device identification system
JP6980603B2 (ja) * 2018-06-21 2021-12-15 株式会社東芝 話者モデル作成システム、認識システム、プログラムおよび制御装置
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
US10721190B2 (en) * 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
US10872601B1 (en) * 2018-09-27 2020-12-22 Amazon Technologies, Inc. Natural language processing
US20200104678A1 (en) * 2018-09-27 2020-04-02 Google Llc Training optimizer neural networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
CN111091020A (zh) * 2018-10-22 2020-05-01 百度在线网络技术(北京)有限公司 自动驾驶状态判别方法和装置
US11475898B2 (en) * 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020104045A1 (en) * 2018-11-23 2020-05-28 Nokia Technologies Oy End-to-end learning in communication systems
KR102644945B1 (ko) 2018-12-14 2024-03-08 삼성전자주식회사 클럭 주파수 공급 장치 및 방법
US20200201970A1 (en) * 2018-12-20 2020-06-25 Cirrus Logic International Semiconductor Ltd. Biometric user recognition
KR102570070B1 (ko) 2018-12-27 2023-08-23 삼성전자주식회사 일반화된 사용자 모델을 이용한 사용자 인증 방법 및 장치
US11114103B2 (en) 2018-12-28 2021-09-07 Alibaba Group Holding Limited Systems, methods, and computer-readable storage media for audio signal processing
CN109840588B (zh) * 2019-01-04 2023-09-08 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN109769099B (zh) * 2019-01-15 2021-01-22 三星电子(中国)研发中心 通话人物异常的检测方法和装置
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US11017783B2 (en) * 2019-03-08 2021-05-25 Qualcomm Incorporated Speaker template update with embedding vectors based on distance metric
US10956474B2 (en) 2019-03-14 2021-03-23 Microsoft Technology Licensing, Llc Determination of best set of suggested responses
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US10659588B1 (en) * 2019-03-21 2020-05-19 Capital One Services, Llc Methods and systems for automatic discovery of fraudulent calls using speaker recognition
US12015637B2 (en) * 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
KR20200126675A (ko) * 2019-04-30 2020-11-09 삼성전자주식회사 전자 장치 및 이의 제어 방법
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
CN110347807B (zh) * 2019-05-20 2023-08-08 平安科技(深圳)有限公司 问题信息处理方法及装置
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
JP2021026050A (ja) * 2019-07-31 2021-02-22 株式会社リコー 音声認識システム、情報処理装置、音声認識方法、プログラム
KR102286775B1 (ko) * 2019-08-02 2021-08-09 서울시립대학교 산학협력단 미등록 화자를 추가할 수 있는 심층 신경망 기반의 화자 식별 장치, 이를 위한 방법 및 이 방법을 수행하기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
US11900246B2 (en) * 2019-09-02 2024-02-13 Samsung Electronics Co., Ltd. Method and apparatus for recognizing user based on on-device training
AU2020363882B9 (en) * 2019-10-11 2024-03-28 Pindrop Security, Inc. Z-vectors: speaker embeddings from raw audio using sincnet, extended cnn architecture, and in-network augmentation techniques
SG11202010803VA (en) * 2019-10-31 2020-11-27 Alipay Hangzhou Inf Tech Co Ltd System and method for determining voice characteristics
US11282495B2 (en) * 2019-12-12 2022-03-22 Amazon Technologies, Inc. Speech processing using embedding data
US11899765B2 (en) 2019-12-23 2024-02-13 Dts Inc. Dual-factor identification system and method with adaptive enrollment
CN111145761B (zh) * 2019-12-27 2022-05-24 携程计算机技术(上海)有限公司 模型训练的方法、声纹确认的方法、系统、设备及介质
CN111310836B (zh) * 2020-02-20 2023-08-18 浙江工业大学 一种基于声谱图的声纹识别集成模型的防御方法及防御装置
KR20220150344A (ko) * 2020-03-05 2022-11-10 핀드롭 시큐리티 인코포레이티드 오디오로부터의 식별 및 검증을 위한 화자 독립 임베딩의 시스템들 및 방법들
CN111354345B (zh) * 2020-03-11 2021-08-31 北京字节跳动网络技术有限公司 生成语音模型和语音识别的方法、装置、设备以及介质
CN111524521B (zh) * 2020-04-22 2023-08-08 北京小米松果电子有限公司 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111524525B (zh) * 2020-04-28 2023-06-16 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
CN111341324B (zh) * 2020-05-18 2020-08-25 浙江百应科技有限公司 一种基于fasttext模型的识别纠错及训练方法
JP2023529912A (ja) * 2020-06-08 2023-07-12 レズメド センサー テクノロジーズ リミテッド ユーザインタフェースを分類及び/又は特徴付けるためのシステム及び方法
US11574622B2 (en) * 2020-07-02 2023-02-07 Ford Global Technologies, Llc Joint automatic speech recognition and text to speech conversion using adversarial neural networks
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
CN112017670B (zh) * 2020-08-13 2021-11-02 北京达佳互联信息技术有限公司 一种目标账户音频的识别方法、装置、设备及介质
US20220165275A1 (en) 2020-10-01 2022-05-26 Pindrop Security, Inc. Enrollment and authentication over a phone call in call centers
US11837238B2 (en) 2020-10-21 2023-12-05 Google Llc Assessing speaker recognition performance
WO2022086045A1 (ko) * 2020-10-22 2022-04-28 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN112071322B (zh) * 2020-10-30 2022-01-25 北京快鱼电子股份公司 一种端到端的声纹识别方法、装置、存储介质及设备
CN112382298B (zh) * 2020-11-17 2024-03-08 北京清微智能科技有限公司 唤醒词声纹识别方法、唤醒词声纹识别模型及其训练方法
CN112447188B (zh) * 2020-11-18 2023-10-20 中国人民解放军陆军工程大学 一种基于改进softmax函数的声学场景分类方法
KR102487936B1 (ko) * 2020-12-07 2023-01-11 서울시립대학교 산학협력단 세그먼트 집계를 통해 짧은 발성을 보상하는 심층 신경망 기반 화자 인증 시스템 및 방법
KR102661876B1 (ko) * 2020-12-21 2024-04-29 한국전자통신연구원 합성곱 신경망 기반 오디오 핑거프린트 추출 방법 및 장치
CN112466311B (zh) * 2020-12-22 2022-08-19 深圳壹账通智能科技有限公司 声纹识别方法、装置、存储介质及计算机设备
CN113555032B (zh) * 2020-12-22 2024-03-12 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
CN112820313B (zh) * 2020-12-31 2022-11-01 北京声智科技有限公司 模型训练方法、语音分离方法、装置及电子设备
CN112784749B (zh) * 2021-01-22 2023-11-10 北京百度网讯科技有限公司 目标模型的训练方法、目标对象的识别方法、装置及介质
US20220366916A1 (en) * 2021-05-13 2022-11-17 Itaú Unibanco S/A Access control system
EP4390919A2 (en) * 2021-06-18 2024-06-26 My Voice AI Limited Methods for improving the performance of neural networks used for biometric authentication
CN113327598B (zh) * 2021-06-30 2023-11-14 北京有竹居网络技术有限公司 模型的训练方法、语音识别方法、装置、介质及设备
WO2023278727A1 (en) * 2021-07-02 2023-01-05 Pindrop Security, Inc. Speaker embedding conversion for backward and cross-channel compatibility
US11558506B1 (en) * 2021-09-27 2023-01-17 Nice Ltd. Analysis and matching of voice signals
US20230186896A1 (en) * 2021-12-15 2023-06-15 My Voice Ai Limited Speaker verification method using neural network
FR3131039A1 (fr) * 2021-12-19 2023-06-23 Oso-Ai Procédé d’analyse d’une donnée numérique
CN114299953B (zh) * 2021-12-29 2022-08-23 湖北微模式科技发展有限公司 一种结合嘴部运动分析的话者角色区分方法与系统
CN114613369A (zh) * 2022-03-07 2022-06-10 哈尔滨理工大学 一种基于特征差异最大化的说话人识别方法
WO2023177616A1 (en) * 2022-03-18 2023-09-21 Sri International Rapid calibration of multiple loudspeaker arrays
KR102612986B1 (ko) * 2022-10-19 2023-12-12 한국과학기술원 온라인 추천 시스템, 메타 학습 기반 추천기 업데이트 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127336A1 (en) 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
US20160019458A1 (en) 2014-07-16 2016-01-21 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery
US20160217367A1 (en) 2015-01-27 2016-07-28 Google Inc. Sub-matrix input for neural network layers

Family Cites Families (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62231993A (ja) 1986-03-25 1987-10-12 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声認識方法
CA1311059C (en) 1986-03-25 1992-12-01 Bruce Allen Dautrich Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words
US4817156A (en) 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5072452A (en) 1987-10-30 1991-12-10 International Business Machines Corporation Automatic determination of labels and Markov word models in a speech recognition system
US5461697A (en) * 1988-11-17 1995-10-24 Sekisui Kagaku Kogyo Kabushiki Kaisha Speaker recognition system using neural network
JP2524472B2 (ja) 1992-09-21 1996-08-14 インターナショナル・ビジネス・マシーンズ・コーポレイション 電話回線利用の音声認識システムを訓練する方法
US6975708B1 (en) 1996-04-17 2005-12-13 Convergys Cmg Utah, Inc. Call processing system with call screening
US5867562A (en) 1996-04-17 1999-02-02 Scherer; Gordon F. Call processing system with call screening
US5835890A (en) 1996-08-02 1998-11-10 Nippon Telegraph And Telephone Corporation Method for speaker adaptation of speech models recognition scheme using the method and recording medium having the speech recognition method recorded thereon
WO1998014934A1 (en) 1996-10-02 1998-04-09 Sri International Method and system for automatic text-independent grading of pronunciation for language instruction
WO1998022936A1 (en) 1996-11-22 1998-05-28 T-Netix, Inc. Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation
JP2991144B2 (ja) 1997-01-29 1999-12-20 日本電気株式会社 話者認識装置
US5995927A (en) 1997-03-14 1999-11-30 Lucent Technologies Inc. Method for performing stochastic matching for use in speaker verification
EP1027700A4 (en) 1997-11-03 2001-01-31 T Netix Inc MODEL ADAPTATION SYSTEM AND SPEAKER CHECKING METHOD
US6009392A (en) 1998-01-15 1999-12-28 International Business Machines Corporation Training speech recognition by matching audio segment frequency of occurrence with frequency of words and letter combinations in a corpus
EP1084490B1 (de) 1998-05-11 2003-03-26 Siemens Aktiengesellschaft Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
US6141644A (en) 1998-09-04 2000-10-31 Matsushita Electric Industrial Co., Ltd. Speaker verification and speaker identification based on eigenvoices
US6411930B1 (en) 1998-11-18 2002-06-25 Lucent Technologies Inc. Discriminative gaussian mixture models for speaker verification
KR20010102549A (ko) 1999-03-11 2001-11-15 내쉬 로저 윌리엄 화자 인식 방법 및 장치
US6463413B1 (en) 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
KR100307623B1 (ko) 1999-10-21 2001-11-02 윤종용 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7318032B1 (en) 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
DE10047723A1 (de) 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE10047724A1 (de) 2000-09-27 2002-04-11 Philips Corp Intellectual Pty Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
EP1197949B1 (en) 2000-10-10 2004-01-07 Sony International (Europe) GmbH Avoiding online speaker over-adaptation in speech recognition
GB0114866D0 (en) * 2001-06-19 2001-08-08 Securivox Ltd Speaker recognition systems
US7209881B2 (en) 2001-12-20 2007-04-24 Matsushita Electric Industrial Co., Ltd. Preparing acoustic models by sufficient statistics and noise-superimposed speech data
US7457745B2 (en) 2002-12-03 2008-11-25 Hrl Laboratories, Llc Method and apparatus for fast on-line automatic speaker/environment adaptation for speech/speaker recognition in the presence of changing environments
US7184539B2 (en) 2003-04-29 2007-02-27 International Business Machines Corporation Automated call center transcription services
US20050039056A1 (en) 2003-07-24 2005-02-17 Amit Bagga Method and apparatus for authenticating a user using three party question protocol
US7328154B2 (en) 2003-08-13 2008-02-05 Matsushita Electrical Industrial Co., Ltd. Bubble splitting for compact acoustic modeling
US7447633B2 (en) 2004-11-22 2008-11-04 International Business Machines Corporation Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US20120253805A1 (en) 2005-04-21 2012-10-04 Anthony Rajakumar Systems, methods, and media for determining fraud risk from audio signals
CA2609247C (en) 2005-05-24 2015-10-13 Loquendo S.P.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US7539616B2 (en) 2006-02-20 2009-05-26 Microsoft Corporation Speaker authentication using adapted background models
US8099288B2 (en) 2007-02-12 2012-01-17 Microsoft Corp. Text-dependent speaker verification
KR101756834B1 (ko) 2008-07-14 2017-07-12 삼성전자주식회사 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
US8886663B2 (en) 2008-09-20 2014-11-11 Securus Technologies, Inc. Multi-party conversation analyzer and logger
EP2182512A1 (en) 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
US8442824B2 (en) 2008-11-26 2013-05-14 Nuance Communications, Inc. Device, system, and method of liveness detection utilizing voice biometrics
EP2221805B1 (en) * 2009-02-20 2014-06-25 Nuance Communications, Inc. Method for automated training of a plurality of artificial neural networks
US8463606B2 (en) 2009-07-13 2013-06-11 Genesys Telecommunications Laboratories, Inc. System for analyzing interactions and reporting analytic results to human-operated and system interfaces in real time
US8160877B1 (en) 2009-08-06 2012-04-17 Narus, Inc. Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US8554562B2 (en) 2009-11-15 2013-10-08 Nuance Communications, Inc. Method and system for speaker diarization
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
TWI403304B (zh) 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
US8484023B2 (en) 2010-09-24 2013-07-09 Nuance Communications, Inc. Sparse representation features for speech recognition
US8484024B2 (en) 2011-02-24 2013-07-09 Nuance Communications, Inc. Phonetic features for speech recognition
US20130080165A1 (en) 2011-09-24 2013-03-28 Microsoft Corporation Model Based Online Normalization of Feature Distribution for Noise Robust Speech Recognition
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
US8781093B1 (en) 2012-04-18 2014-07-15 Google Inc. Reputation based message analysis
US20130300939A1 (en) 2012-05-11 2013-11-14 Cisco Technology, Inc. System and method for joint speaker and scene recognition in a video/audio processing environment
US9262640B2 (en) 2012-08-17 2016-02-16 Charles Fadel Controlling access to resources based on affinity planes and sectors
US9368116B2 (en) 2012-09-07 2016-06-14 Verint Systems Ltd. Speaker separation in diarization
DK2713367T3 (en) 2012-09-28 2017-02-20 Agnitio S L Speech Recognition
US9633652B2 (en) 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US9406298B2 (en) 2013-02-07 2016-08-02 Nuance Communications, Inc. Method and apparatus for efficient i-vector extraction
US9454958B2 (en) 2013-03-07 2016-09-27 Microsoft Technology Licensing, Llc Exploiting heterogeneous data in deep neural network-based speech recognition systems
US20140337017A1 (en) 2013-05-09 2014-11-13 Mitsubishi Electric Research Laboratories, Inc. Method for Converting Speech Using Sparsity Constraints
US9460722B2 (en) 2013-07-17 2016-10-04 Verint Systems Ltd. Blind diarization of recorded calls with arbitrary number of speakers
US9984706B2 (en) 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9336781B2 (en) 2013-10-17 2016-05-10 Sri International Content-aware speaker recognition
US9232063B2 (en) 2013-10-31 2016-01-05 Verint Systems Inc. Call flow and discourse analysis
US9620145B2 (en) 2013-11-01 2017-04-11 Google Inc. Context-dependent state tying using a neural network
US9514753B2 (en) 2013-11-04 2016-12-06 Google Inc. Speaker identification using hash-based indexing
JP5777178B2 (ja) 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9665823B2 (en) 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
EP3373176B1 (en) 2014-01-17 2020-01-01 Cirrus Logic International Semiconductor Limited Tamper-resistant element for use in speaker recognition
US9401143B2 (en) 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
WO2015168606A1 (en) 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
US9792899B2 (en) 2014-07-15 2017-10-17 International Business Machines Corporation Dataset shift compensation in machine learning
US9373330B2 (en) 2014-08-07 2016-06-21 Nuance Communications, Inc. Fast speaker recognition scoring using I-vector posteriors and probabilistic linear discriminant analysis
KR101844932B1 (ko) 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
US9324320B1 (en) 2014-10-02 2016-04-26 Microsoft Technology Licensing, Llc Neural network-based speech processing
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9418656B2 (en) * 2014-10-29 2016-08-16 Google Inc. Multi-stage hotword detection
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
US9875743B2 (en) 2015-01-26 2018-01-23 Verint Systems Ltd. Acoustic signature building for a speaker from multiple sessions
KR101988222B1 (ko) 2015-02-12 2019-06-13 한국전자통신연구원 대어휘 연속 음성 인식 장치 및 방법
US9666183B2 (en) 2015-03-27 2017-05-30 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US9978374B2 (en) * 2015-09-04 2018-05-22 Google Llc Neural networks for speaker verification
US10056076B2 (en) 2015-09-06 2018-08-21 International Business Machines Corporation Covariance matrix estimation with structural-based priors for speech processing
KR102423302B1 (ko) 2015-10-06 2022-07-19 삼성전자주식회사 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
US9883040B2 (en) 2015-10-14 2018-01-30 Pindrop Security, Inc. Fraud detection in interactive voice response systems
US9818431B2 (en) * 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US9584946B1 (en) 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
CA3117645C (en) 2016-09-19 2023-01-03 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10553218B2 (en) 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
CA2984304C (en) 2016-11-01 2023-06-13 Transaction Network Services, Inc. Systems and methods for automatically conducting risk assessments for telephony communications
US10205825B2 (en) 2017-02-28 2019-02-12 At&T Intellectual Property I, L.P. System and method for processing an automated call based on preferences and conditions
US10623581B2 (en) 2017-07-25 2020-04-14 Vail Systems, Inc. Adaptive, multi-modal fraud detection system
US10506088B1 (en) 2017-09-25 2019-12-10 Amazon Technologies, Inc. Phone number verification
US10887452B2 (en) 2018-10-25 2021-01-05 Verint Americas Inc. System architecture for fraud detection
US10554821B1 (en) 2018-11-09 2020-02-04 Noble Systems Corporation Identifying and processing neighbor spoofed telephone calls in a VoIP-based telecommunications network
US10477013B1 (en) 2018-11-19 2019-11-12 Successful Cultures, Inc Systems and methods for providing caller identification over a public switched telephone network
US10375238B1 (en) 2019-04-15 2019-08-06 Republic Wireless, Inc. Anti-spoofing techniques for outbound telephone calls

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150127336A1 (en) 2013-11-04 2015-05-07 Google Inc. Speaker verification using neural networks
US20160019458A1 (en) 2014-07-16 2016-01-21 Deep Learning Analytics, LLC Systems and methods for recognizing objects in radar imagery
US20160217367A1 (en) 2015-01-27 2016-07-28 Google Inc. Sub-matrix input for neural network layers

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Hoffer et al.,DEEP METRIC LEARNING USING TRIPLET NETWORK,arXiv:1412.6622v3,2015年03月23日
Uzan et al.,I Know That Voice: Identifying the Voice Actor Behind the Voice,2015 International Conference on Biometrics (ICB),2015年05月22日
Wang et al.,Learning Fine-grained Image Similarity with Deep Ranking,arXiv:1404.4661v1,2014年04月17日
Zeghidour et al.,Joint Learning of Speaker and Phonetic Similarities with Siamese Networks,Interspeech 2016,2016年09月08日

Also Published As

Publication number Publication date
US20230037232A1 (en) 2023-02-02
US20190392842A1 (en) 2019-12-26
CA3036533C (en) 2020-04-21
KR20210003307A (ko) 2021-01-11
EP3501025A1 (en) 2019-06-26
AU2017322591A1 (en) 2019-05-02
KR20190075914A (ko) 2019-07-01
CA3096378A1 (en) 2018-03-15
CA3075049C (en) 2020-12-01
AU2021286422A1 (en) 2022-01-20
KR102198835B1 (ko) 2021-01-05
KR102072782B1 (ko) 2020-02-03
AU2023263421A1 (en) 2023-11-23
ES2883326T3 (es) 2021-12-07
AU2017322591B2 (en) 2021-10-21
US9824692B1 (en) 2017-11-21
CA3036533A1 (en) 2018-03-15
US20180075849A1 (en) 2018-03-15
CA3075049A1 (en) 2018-03-15
US11468901B2 (en) 2022-10-11
JP2019532354A (ja) 2019-11-07
AU2021286422B2 (en) 2023-08-10
US10381009B2 (en) 2019-08-13
EP3501025B1 (en) 2021-08-11
JP2022153376A (ja) 2022-10-12
KR20200013089A (ko) 2020-02-05
KR102239129B1 (ko) 2021-04-09
WO2018049313A1 (en) 2018-03-15

Similar Documents

Publication Publication Date Title
JP7173974B2 (ja) ディープニューラルネットワークを使用する端末間話者認識
US10553218B2 (en) Dimensionality reduction of baum-welch statistics for speaker recognition
US9401148B2 (en) Speaker verification using neural networks
US10909991B2 (en) System for text-dependent speaker recognition and method thereof
Fu et al. Tandem deep features for text-dependent speaker verification.
US10630680B2 (en) System and method for optimizing matched voice biometric passphrases
TW202213326A (zh) 用於說話者驗證的廣義化負對數似然損失
Georgescu et al. GMM-UBM modeling for speaker recognition on a Romanian large speech corpora
Saleema et al. Voice biometrics: the promising future of authentication in the internet of things
Gupta et al. Text dependent voice based biometric authentication system using spectrum analysis and image acquisition
Mohamed et al. An Overview of the Development of Speaker Recognition Techniques for Various Applications.
Ren et al. A hybrid GMM speaker verification system for mobile devices in variable environments
Kumar et al. Comparison of Isolated and Continuous Text Models for Voice Based Attendance System
Wadehra et al. Comparative Analysis Of Different Speaker Recognition Algorithms
CN114023334A (zh) 说话人识别方法、装置、计算机设备和存储介质
Krishna et al. A Novel Method for Identifying the Keyless Authentication Entry System using Mobile for Auto Mobiles (CAR)
Saini et al. SPEAKER RECOGNITION-A FACT BASED APPROACH USING NEURAL NETWORK AND HMM/GMM
Blomberg Speaker Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220629

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20220629

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20220712

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20220810

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20220812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221104

R150 Certificate of patent or registration of utility model

Ref document number: 7173974

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150