JP2018529157A - ドメイン適応を用いたパターン認識装置、方法およびプログラム - Google Patents

ドメイン適応を用いたパターン認識装置、方法およびプログラム Download PDF

Info

Publication number
JP2018529157A
JP2018529157A JP2018507663A JP2018507663A JP2018529157A JP 2018529157 A JP2018529157 A JP 2018529157A JP 2018507663 A JP2018507663 A JP 2018507663A JP 2018507663 A JP2018507663 A JP 2018507663A JP 2018529157 A JP2018529157 A JP 2018529157A
Authority
JP
Japan
Prior art keywords
data
plda
domain
parameter
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018507663A
Other languages
English (en)
Other versions
JP6620882B2 (ja
Inventor
チョンチョン ワン
チョンチョン ワン
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2018529157A publication Critical patent/JP2018529157A/ja
Application granted granted Critical
Publication of JP6620882B2 publication Critical patent/JP6620882B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • G06F18/21347Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis using domain transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

ドメイン適応を用いたパターン認識装置10は、推定部11を備える。推定部11は、第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する。

Description

本発明は、確率的線形判別分析(PLDA)に基づいて、パターン認識システムのパラメータを新たなドメインに適応させるためのドメイン適応に関する装置、方法、およびプログラムに関する。
科学、工学、農業、電子商取引、医学、医療用画像解析、軍事、国家安全保障等の多様な分野における実際の問題を解決するために、パターン認識システムが日常生活に広く適用されている。パターン認識における1つの重要な技術は、クラス内のばらつきを補償し、不適切な要素からクラス固有の要素を分離するための強力なデータドリブンの仕組みを提供する確率的線形判別分析(PLDA)である。PLDAによって、1つの例から以前に見えなかったクラスのモデルを構築することができ、クラスをよりよく表現するために複数の例を結合することができる。PLDAは、顔認識や話者認識において効力を発揮してきた。
PLDAのパラメータを学習するために、一般的に、同様の条件での数千のクラスのそれぞれに対する複数の観測が要求される。しかし、そのような大量のリソース、すなわち、インドメイン(IND)データを、各アプリケーションでの着目している新たなドメインのために集めることは、高コストであり、さらに非現実的である。既に存在する、最も利用可能な豊富なデータは、着目しているドメインに適合せず、この種のデータは、アウトオブドメイン(OOD)データと呼ばれる。OODデータで学習されたPLDAは、ディベロップメントデータと評価データの間のミスマッチがIND内のばらつきよりも非常に大きいときに、INDで適切に表現されない。従って、ディベロップメントデータと評価データの間のドメインのミスマッチは、パターン認識システムのパフォーマンスを低下させる。
ディベロップメントデータと評価データの間のドメインミスマッチを扱うため、既に利用できるOODデータから展開されたPLDAパラメータを適応させるために、少ない量のインドメインデータだけが利用できる新たなドメインでよいパフォーマンスを達成できるように、ドメイン適応が適用される。
いくつかのドメイン適応の方法は、最尤推定の線形結合を利用している(非特許文献1を参照)。図9に示すように、まず、PLDAパラメータ推定部104が、特徴抽出部103によってOODデータ101とINDデータ102からそれぞれ抽出された特徴を使って、2セットのPLDAパラメータを別々に学習する。OODとINDのクラス内のばらつき
Figure 2018529157

と、クラス間のばらつき
Figure 2018529157

とが得られた後、線形結合部105は、PLDAパラメータの2つのセットを、
Figure 2018529157

となるように結合し、適応されたPLDAパラメータ106を生成する。ここで、
Figure 2018529157

は、INDデータがどの程度、寄与するかを定めるための重み係数である。評価フェーズでは、PLDA分類部107は、登録データとテストデータからそれぞれ抽出された特徴の、与えられたペアに対するスコアを計算する。この方法では、PLDAパラメータ
Figure 2018529157

は、
Figure 2018529157

に偏るので、OODがINDに近い場合にのみ作用する。しかし、常にそうなるとは限らない。OODがINDから離れている場合に、結合されたPLDAパラメータが正しいパラメータに近いとは限らない。さらに、重み係数
Figure 2018529157

を推定するために、追加の学習データが必要となる。そのため、ドメインのミスマッチを補償できない。図9は、OODデータとINDデータによって学習されたPLDAパラメータの2つのセットに基づく線形結合を用いたパラメータ適応という関連技術1のブロック図である。
上述の方法は、パラメータ適応を重点的に扱っているが、方法の他のクラスは、図10に示すデータ補償技術を重点的に扱う。図10は、関連技術2、すなわちi-vector補償のブロック図である。OODデータとINDデータの統計量の知識を用いて、特徴がシフトされることを示している。前述のものと同様に、これらの方法は、特徴抽出部203によって、OODデータ201とINDデータ202から、2セットの特徴をそれぞれ抽出する。ドメインミスマッチのために、ディベロップメント(OOD)データと評価(IND)データとの間にデータのシフトがあると仮定する。データセットのばらつきを特徴空間(204)の中でのシフトとして明示的にモデル化し、前処理のクリーンアップステップ(206)として、それを低減する。その後、PLDAパラメータ推定部207は、データセットのばらつきが低減されたデータから、PLDAパラメータ208を推定する(非特許文献2を参照)。評価フェーズでは、PLDA分類部209は、前述の方法におけるPLDA分類部107と同様に、スコアを計算する。それらの方法では、変換は、PLDAの枠組みでは最適化されない。システムパラメータ全体を最適化するための2以上の基準があり、最尤(ML)や最小距離等が挙げられる。従って、包括的な最適化に到達することができない。
確率的線形判別分析(PLDA)は、パターン認識(顔認識、話者認識等)で広く受け入れられている。その機能は、クラス内のばらつきを補償することと、不適切な要素からクラス固有の特徴の要素を分離するための強力なデータドリブンの仕組みを提供することであり、それによって認識パフォーマンスが向上する。しかし、PLDAの成果は、数千の観測を伴う大きなディベロップメントセットの利用性に依存する。さらに、ディベロップメントデータは、顔認識における照明条件や人種または話者認識における音響環境や伝送チャネル等のドメインの評価データに適合しなければならない。
大量のデータに対するPLDAの厳格な要求や、目標ドメインの十分なインドメイン(IND)データを得ることが難しくかつ高コストであるという現実的な問題によって、我々は、元ドメインの豊富なアウトオブドメイン(OOD)データを使い、ドメイン適応を適用することに着目した。PLDAにおけるドメイン適応は、少ない量のINDデータだけが利用できる新たなドメインで良い結果が得られるように、既に利用できるOODデータから展開されたPLDAパラメータを適応させることである。
ドメイン適応(非特許文献1、非特許文献2)への既存のアプローチがあり、ドメイン適応は問題を解決しようとするものであるが、それらのアプローチには以下のような欠点がある。
それらは、しばしば、OODがINDに近いという非現実的な仮定を置く。そのため、データが近いドメイン内にない多くの実際のアプリケーションでは、PLDAパラメータの適応は、適応されたPLDAパラメータ
Figure 2018529157

が、OODの
Figure 2018529157

に偏るので、特定の用途がない。さらに、追加の重み係数を学習するために、追加のデータおよび学習が必要になる。そして、OODデータとINDデータの間のアフィン変換のような明確な関係がない。しばしば、最尤(ML)や最小距離等のような、システムパラメータを最適化するための2以上の基準が存在する。従って、包括的な最適化に到達することができない。
本発明の目的は、変換パラメータとPLDAパラメータを適切に最適化することができる、ドメイン適応を用いたパターン認識装置、ドメイン適応を用いたパターン認識方法、および、ドメイン適応を用いたパターン認識プログラムを提供することである。
本発明によるドメイン適応を用いたパターン認識装置は、第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する推定部を備える。
本発明によるドメイン適応を用いたパターン認識方法は、第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する。
本発明によるドメイン適応を用いたパターン認識プログラムは、コンピュータに、第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する推定処理を実行させる。
この発明の効果は、変換パラメータとPLDAパラメータを適切に最適化できることである。
本発明の第1の実施形態のフローチャートである。 本発明の第2の実施形態のフローチャートである。 パターン認識のテストフェーズのフローチャートである。 本発明の第1の実施形態のブロック図である。 本発明の第2の実施形態のブロック図である。 本発明の第3の実施形態のブロック図である。 本発明の第4の実施形態のブロック図である。 本発明の概要を示すブロック図である。 OODデータとINDデータによって学習されたPLDAパラメータの2つのセットに基づく線形結合を用いたパラメータ適応という関連技術1のブロック図である。 関連技術2、すなわちi-vector補償のブロック図である。
以下、本発明の実施形態を詳細に説明する。実装は、非常に詳細に説明される。説明図とともにここで示される説明は、当業者にとって本発明を実施するためのしっかりとしたガイドを提供するようにしている。図面は、技術の応用を限定するものではない。
最初に、ここで全体的なアプローチを要約する。クラス間とクラス内の共分散がドメインに依存すると仮定し、さらに、1つのドメイン内の特徴はアフィン変換によって他のドメインに変換され得ると仮定する。従って、INDデータの全ての特徴ベクトルは、変換パラメータを用いて、OODデータのそれと同じドメインに変換される。変換後、INDデータとOODデータは、同じクラス間とクラス内の共分散を共有する。最後に、PLDA分類器が、登録データとテストデータの尤度のスコアを与え、決定する。
本発明の利点は、PLDAパラメータを用いた特徴変換によってドメインミスマッチが補償されるということである。本発明の他の利点は、PLDAパラメータが特徴変換によって適応されるということである。PLDAパラメータは、唯一の包括的な基準によるINDデータとOODデータの両方の知識によって、同時に変換パラメータを自動的に更新することで、反復的に学習される。そして、そのことにより、その基準で定められる目的関数を最大化または最小化することで、より良いパラメータが得られる。さらに、追加ステップで学習される必要がある重み係数はない。本発明を用いることで、パターン認識システムを、異なる音響環境で操作される話者照合システム、異なる照明条件に適用される顔認識システム等の、十分な量のINDデータを集めにくい、多くの実際のアプリケーションに適用することが、より低コストになり、より現実的になる。
本発明は、いくつかのステップと、それらのステップの他のそれぞれのステップに対する1以上の関係とを含み、そして、構成、要素の組合せ、および、それらのステップに割り当てられるように適合された部分の配置を具体化している装置が、以下の詳細な開示、すなわち、図面の説明と詳細な説明において、例示されている。
実施形態1.
図4は、本発明の第1の実施形態のブロック図である。本発明の第1の実施形態は、シングルステップのドメイン適応を示す。第1の実施形態は、PLDAパラメータと変換パラメータを同じステップで推定する。図4によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部303と、パラメータ推定部304と、PLDAパラメータ305の記憶装置と、変換パラメータ306の記憶装置と、特徴変換部307と、PLDA分類部308とを備える。
ディベロップメントパートでは、特徴抽出部303は、OODデータ301とINDデータ302から、2セットの特徴をそれぞれ抽出する。パラメータ推定部304は、2セットの特徴から、PLDAパラメータ305と、変換パラメータ306を推定する。評価パートでは、特徴抽出部303は、登録データとテストデータからそれぞれ特徴を抽出する。特徴変換部307は、変換パラメータ306によって、その特徴を元ドメイン内に変換する。最後に、PLDA分類部308は、テストデータと登録データが同じクラスからのものであるかどうかを分類する。
顔認証の場合、PLDAディベロップメントにおける画像から、画像が、異なる照明条件で撮られたと認識されたならば、ドメインミスマッチが生じていることになる。ディベロップメントのための画像がODDデータであり、認識される画像がINDデータである。特徴抽出部303は、目の間隔、鼻の幅、頬骨の形、下あごの輪郭の長さ等の顔の特徴を抽出する。PLDA分類部308は、顔の登録画像の特徴と、顔のテスト画像の特徴が、同一人からのものであるか否かを分類する。話者認識の場合、システムは、特定のチャネル(IND)で記録された音声に適用され、他のチャネルで記録されたPLDA学習のために利用可能な音声データは、ODDである。特徴抽出部303は、音声データから、メル周波数ケプストラル係数(MECCs)、知覚的線形予測(PLP)等を抽出する。それらは、しばしば、i-vectorと呼ばれる固定次元のベクトル等の、他の形式の特徴に変換され、PLDA分類部308に与えられる。PLDA分類部308は、音声の登録データの特徴と、音声のテストデータの特徴と、音声のテストデータの特徴とが、同じ話者からのものであるか否かを分類する。
特徴抽出部303、パラメータ推定部304、特徴変換部307、および、PLDA分類部308は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部303、パラメータ推定部304、特徴変換部307、および、PLDA分類部308として動作すればよい。また、上記の各要素303,304,307,308が別々のハードウェアによって実現されてもよい。
図1は、図4とともに説明された本発明の第1の実施形態のフローチャートである。これは、実施形態のディベロップメントパートを示している。最初に、特徴抽出部303は、記憶装置からOODデータを読み込む(ステップA01)。2番目に、OODデータから特徴を抽出する(ステップA02)。次に、別の記憶装置からINDデータを読み込む(ステップA03)。その後、INDデータから特徴を抽出する(ステップA04)。ステップA01〜A04の順序は、図1に示される形式に限定されない。ここで、OODの特徴とINDの特徴の両方は、学習に入力される。後のステップは、PLDAパラメータと変換パラメータが、最尤(ML)、最大事後確率(MAP)、ベイズ基準等のある特定の基準に基づいて、同時に推定されることを示す。例えば、MLの場合、これらのパラメータの推定は、EM(expectation-maximization)アルゴリズムによって、反復的に行われ、補助関数が目的関数から導出される。パラメータ推定部304は、最初に、PLDAパラメータと変換パラメータを初期化する(ステップA05)。そして、パラメータ推定部304は、クラス隠れ変数の期待値を計算する(ステップA06)。その期待値に基づいて、パラメータ推定部304は、PLDAパラメータと変換パラメータを再推定する(ステップA07)。最後に、パラメータ推定部304は、INDとOODの両方の観測の尤度を計算し、それと、以前のパラメータの尤度とを比較する(ステップA08)。収束したならば、すなわち、2つの尤度の差がある特定の閾値よりも小さければ、学習は終了し、PLDAパラメータと変換パラメータは記憶される(ステップA09)。そうでなければ、収束するまで、さらにEMアルゴリズムの反復が実行される。
図3は、本発明の第1の実施形態の他のフローチャートである。これは、実施形態の評価パートを示している。最初に、特徴変換部307が、記憶装置に記憶されている変換パラメータ306を読み込み(ステップC01)、PLDA分類部308が、記憶装置からPLDAパラメータ305を読み込む(ステップC02)。ステップC01とステップC02は、交換可能である。2番目に、登録データが特徴抽出部303に与えられる(ステップC03)。そして、特徴抽出部303は、特徴を抽出する(ステップC04)。同じことがテストデータに対して行われる。特徴抽出部303は、テストデータを読み込み(ステップC05)、特徴を抽出する(ステップC06)。ステップC03〜C06の順序も同様に、制限されない。そして、特徴変換部307は、登録データとテストデータの両方の特徴を変換する(ステップC07)。最後に、PLDA分類部308は、変換された特徴が同じクラスからのものであるかどうか分類する(ステップC08)。
本発明は、クラス間とクラス内の共分散
Figure 2018529157

がドメインに依存していて、元ドメインの(OODからの)共分散
Figure 2018529157

と、目標ドメインの(INDからの)共分散
Figure 2018529157

とが異なるという仮定に基づいている。さらに、目標ドメインの特徴
Figure 2018529157

は、元ドメイン
Figure 2018529157

に変換され得るということを仮定し、ここで、この変換は、アフィン変換
Figure 2018529157

を適用することによって行われ、また、元ドメインにおいて、
Figure 2018529157


Figure 2018529157

が同じ共分散と平均
Figure 2018529157

を共有することとなるように、変換が行われると仮定する。ここで
Figure 2018529157

は、IND(目標ドメイン)を表し、
Figure 2018529157

は、OOD(元ドメイン)を表し、
Figure 2018529157

は、元ドメイン内の変換されたINDであり、
Figure 2018529157

と称する。そのため、目標ドメイン内のPLDAパラメータは、
Figure 2018529157

である。
図6と図1を用いて述べたように、PLDAパラメータと変換パラメータ
Figure 2018529157

を同時に最適化(304)するために、本発明は、INDデータとOODデータ内の全ての観測の尤度を最大化してよい(図4)。与えられた
Figure 2018529157

OOD学習パターンと、
Figure 2018529157

IND学習パターンは、
Figure 2018529157


Figure 2018529157

のそれぞれのクラスに分離され、対数尤度は、
Figure 2018529157

となる。ここで、
Figure 2018529157

は、同じクラスに属する
Figure 2018529157

または
Figure 2018529157

のパターンのセットの結合確率分布である。
PLDAに基づく音響モデルのパラメータを更新するために、EMアルゴリズムを用いてもよい。例えば、PLDAパラメータ
Figure 2018529157

と、変換パラメータ
Figure 2018529157

を更新するための補助関数は、
Figure 2018529157

である。以下の表現で、全ての
Figure 2018529157

と、
Figure 2018529157

は、元ドメイン
Figure 2018529157

内のパラメータと、
Figure 2018529157

を表す。

E−ステップ
隠れ変数
Figure 2018529157

の事後確率が、ベイズの定理
Figure 2018529157

を使って計算される。ここで、
Figure 2018529157

である。

M−ステップ
各パラメータに関連する
Figure 2018529157

の微分係数をゼロに設定することによって、以下の式によって解が得られる。
Figure 2018529157

Figure 2018529157

Figure 2018529157

Figure 2018529157

Figure 2018529157

は、PLDAパラメータ305として記憶され、
Figure 2018529157

は、変換パラメータ306として記憶される。
実施形態2.
図5は、本発明の第2の実施形態のブロック図である。本発明の第2の実施形態は、2ステップのドメイン適応学習を示す。本発明の第2の実施形態は、PLDAパラメータ推定と変換パラメータ推定の2つの学習ループを示す(図2を参照)。図5によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部403と、推定部411と、PLDAパラメータ405の記憶装置と、変換パラメータ407の記憶装置と、特徴変換部408と、PLDA分類部409とを備える。推定部411は、PLDAパラメータ推定部404と、変換パラメータ推定部406とを備える。
特徴抽出部403は、OODデータ401とINDデータ402から、2セットの特徴をそれぞれ抽出する。PLDAパラメータ推定部404は、OODデータ301の特徴からPLDAパラメータ405を推定する。変換パラメータ推定部406は、PLDAパラメータ405とINDデータ402の特徴とを使って、基準によって定められる目的関数を最大化または最小化することによって、変換パラメータ407を推定する。評価パートでは、特徴抽出部403は、登録データとテストデータからそれぞれ、特徴を抽出する。特徴変換部408は、変換パラメータ407によって、特徴を元ドメイン内に変換する。最後に、PLDA分類部409は、テストデータと登録データが同じクラスからのものかどうかを分類する。
特徴抽出部403、推定部411(PLDAパラメータ推定部404および変換パラメータ推定部406)、特徴変換部408、および、PLDA分類部409は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部403、推定部411(PLDAパラメータ推定部404および変換パラメータ推定部406)、特徴変換部408、および、PLDA分類部409として動作すればよい。また、上記の各要素403,404,406,408,409が別々のハードウェアによって実現されてもよい。
図2は、図5とともに説明された本発明の第2の実施形態のフローチャートである。これは、実施形態のディベロップメントパートを示している。最初に、特徴抽出部403は、記憶装置からOODデータを読み込む(ステップB01)。2番目に、OODデータから特徴を抽出する(ステップB02)。そして、後続のステップでPLDAパラメータが推定される。最初に、PLDAパラメータ推定部404が、PLDAパラメータを初期化する(ステップB03)。そして、PLDAパラメータ推定部404が、最尤(ML)、最大事後確率(MAP)、ベイズ基準等のある特定の基準に基づいて、PLDAパラメータを推定する。例えば、MLの場合、そのパラメータの推定は、EM(expectation-maximization)アルゴリズムによって、反復的に行われる。PLDAパラメータ推定部404は、クラス隠れ変数の期待値を計算する(ステップB04)。その期待値に基づいて、PLDAパラメータ推定部404は、PLDAパラメータを再推定する(ステップB05)。そして、PLDAパラメータ推定部404は、再度、OODに関する観測の尤度を計算し、それと、以前に推定されたパラメータの尤度とを比較する(ステップB06)。収束したならば、すなわち、2つの尤度の差がある特定の閾値よりも小さければ、学習は終了し、PLDAパラメータは記憶される(ステップB07)。そうでなければ、収束するまで、さらにEMアルゴリズムの反復が実行される。
PLDAパラメータ推定部404は、例えば、参考文献1に記載されている再推定式に従って、PLDAパラメータを推定する。
参考文献1
S. Ioffe, “Probabilistic linear discriminant analysis”, In European Conference on Computer Vision, 2006
PLDAパラメータが推定された後、次のように、変換パラメータが学習される。最初に、特徴抽出部403が、記憶装置からINDデータを読み込む(ステップB08)。2番目に、INDデータから特徴を抽出する(ステップB09)。そして、変換パラメータ推定部406が、変換パラメータを初期化する(ステップB10)。そして、変換パラメータ推定部406が、ML、MAP、ベイズ基準等のある特定の基準に基づいて変換パラメータを推定する。その基準は、様々な基準のうちの1つである。MLの場合、変換パラメータ推定部406は、クラス隠れ変数の期待値を計算する(ステップB11)。その期待値に基づいて、変換パラメータ推定部406は、変換パラメータを再推定する(ステップB12)。変換パラメータ推定部406は、再度、INDの観測の尤度を計算し、それと、以前のパラメータの尤度とを比較する(ステップB13)。収束したならば、すなわち、2つの尤度の差がある特定の閾値よりも小さければ、学習は終了し、変換パラメータは記憶される(ステップB14)。そうでなければ、収束するまで、さらにEMアルゴリズムの反復が実行される。
第2の実施形態の評価パートは、第1の実施形態のそれと同様であり、図3のフローチャートに示されるフローと同じフローを辿る。
第2の実施形態は、クラス間とクラス内の共分散
Figure 2018529157

がドメインに依存し、目標ドメインの特徴
Figure 2018529157

は、元ドメイン
Figure 2018529157

に変換され得ることという同じ仮定を、第1の実施形態と共有する。ここで、この変換は、アフィン変換
Figure 2018529157

を適用することによって行われると仮定する。図5と図2を用いて述べたように、本実施形態は、OODデータを用いてPLDAパラメータを最適化し(404)、INDデータを用いて変換パラメータ
Figure 2018529157

を最適化する(406)。そして、特徴変換部408は、全ての評価データを元ドメイン内に変換し、PLDA分類部409は、変換された特徴に適用される。変換パラメータ
Figure 2018529157

の推定(406)において、元ドメインの共分散
Figure 2018529157

と、平均
Figure 2018529157

が与えられる(405)。ML基準では、各パラメータに関連する
Figure 2018529157

の微分係数をゼロに設定することによって、以下の式からパラメータが推定される。
Figure 2018529157

Figure 2018529157

Figure 2018529157

ここで、
Figure 2018529157

は、クラスの数であり、
Figure 2018529157

は、目標ドメイン内の観測の数である。
前の段落で示されてきたように、第2の実施形態は、PLDAパラメータと変換パラメータを別々に2つのステップで推定し、そのことによって、評価処理は、簡略化され、唯一の包括的な基準が保たれる。第2の実施形態の利点は、第1の実施形態よりも、より高い計算効率と、より少ないメモリ消費で、パラメータを得ることができることである。
最初の2ステップ、すなわち、PLDAパラメータ推定と変換パラメータ推定が完了した後、目標ドメイン内のINDディベロップメントデータと評価データを、全てのデータが適合するように元ドメイン内へ変換することができる変換パラメータを得られる。また、
Figure 2018529157

データセットをOODデータセットに加えることによって、共分散を更新し続けることができる。これらのステップを繰り返すことによって、マージされたドメインのための変換パラメータとPLDAを最適化することができる。
実施形態3.
図6は、本発明の第3の実施形態のブロック図である。第3の実施形態は、ディベロップメントデータに変換を適用するもう一つの形態である。図6によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部503と、パラメータ推定部504と、PLDAパラメータ505の記憶装置と、変換パラメータ506の記憶装置と、特徴変換部507と、PLDA分類部508とを備える。
第1の実施形態では、特徴変換部307は、評価パートにある。一方、第3の実施形態では、特徴変換部507は、ディベロップメントパートにある。特徴変換部507は、変換パラメータ506を用いて、OODデータの特徴を、INDドメインのドメインに変換する。ドメインミスマッチは、ディベロップメントパートで補償される。第3の実施形態の残りの部分(503,504,505,506)は、第1の実施形態におけるそれ(303,304,305,306)と同様に作用する。そのパラメータ推定では、前述の実施形態とは逆のアフィン変換、すなわち、元ドメインから目標ドメインへの変換を仮定して、非常に類似した再推定式が導出される。評価パートでは、PLDA分類部508が、PLDAパラメータ505を用いて、テストデータが登録データと同じクラスに属するか否かを分類する。
特徴抽出部503、パラメータ推定部504、特徴変換部507、および、PLDA分類部508は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部503、パラメータ推定部504、特徴変換部507、および、PLDA分類部508として動作すればよい。また、上記の各要素503,504,507,508が別々のハードウェアによって実現されてもよい。
実施形態4.
図7は、本発明の第4の実施形態のブロック図である。第4の実施形態は、シングルステップの教師なしドメイン適応学習を示す。図7によれば、ドメイン適応を用いたパターン認識装置は、特徴抽出部603と、クラスタリング部604と、パラメータ推定部605と、PLDAパラメータ606の記憶装置と、変換パラメータ607の記憶装置と、特徴変換部608と、PLDA分類部609とを備える。
クラスタリング部604は、同じクラスからのデータのペアのそれぞれが同じクラスタに割り当てられ、異なるクラスからのデータのペアのそれぞれが異なるクラスタに割り当てられるように、INDデータをクラスタリングする。パラメータ推定部605は、クラスタの情報を用いて、PLDAパラメータ606と変換パラメータ607を推定する。第4の実施形態の残りの部分(603,608,609)は、第1の実施形態におけるそれ(303,307,308)と同様に作用する。
特徴抽出部603、クラスタリング部604、パラメータ推定部605、特徴変換部608、および、PLDA分類部609は、例えば、パターン認識プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUは、例えば、プログラム記憶装置といったコンピュータ読み取り可能な記録媒体からプログラムを読み込み、そのプログラムに従って、特徴抽出部603、クラスタリング部604、パラメータ推定部605、特徴変換部608、および、PLDA分類部609として動作すればよい。また、上記の各要素603,604,605,608,609が別々のハードウェアによって実現されてもよい。
これまでに述べた実施形態は、参考文献1に示されたPLDAモデリングの特定のクラスを仮定している。本発明は、参考文献2やその変形である参考文献3等に示されているような他のPLDAモデリングにおいても実施可能である。
参考文献2
S.J.D. Prince, J.H. Elder, “Probabilistic linear discriminant analysis for inferences about identity”, In IEEE International Conference on Computer Vision, 2007
参考文献3
P. Kenny, “Bayesian speaker verification with heavy-tailed priors”, in Proc. Odyssey- The Speaker and Language Recognition Workshop, 2010
これまでに述べた実施形態の評価パートは、2つのデータ入力が同じクラスからのものであるかどうかの決定に注目していたが、マルチクラス分類等の他の種類の決定にも容易に拡張できる。マルチクラス分類は、参考文献2に示されている。そのような場合、複数のテストデータの特徴は、複数のテストデータのそれぞれが登録データと同じクラスに属するかどうかで分類され、登録データに最も類似するテストデータが選択される。
最後のポイントとして、ここで述べられた処理、技術および方法論は、特定の装置に限定されないことを明確にする。構成要素の組合せを用いて実装されてもよい。また、様々なタイプの一般的用途の装置が、ここで述べたことに従って用いられてもよい。本発明について、特定の例を用いて説明してきた。しかし、それらは、単に説明のためのものであり、制限的なものではない。例えば、説明されたソフトウェアは、C++,Java(登録商標),Python,Perl等の幅広い種類の言語で実現されてよい。さらに、本発明の技術の実装は、当業者にとって明らかであろう。
本発明は、唯一の包括的な基準を用いて同時に変換パラメータとPLDAパラメータを最適化し、OODがINDに近くない場合であっても、OODデータとINDデータを同じドメインに変換する。
図8は、本発明の概要を示すブロック図である。ドメイン適応を用いたパターン認識装置10は、推定部11を備える。推定部11(例えば、パラメータ推定部304、推定部411、パラメータ推定部504、パラメータ推定部605)は、第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDAパラメータと変換パラメータとを推定する
実施形態の一部または全体は、以下の付記のようにも記載されるが、以下に限定されるわけではない。
(付記1)
第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する推定部を備える
ことを特徴とする、ドメイン適応を用いたパターン認識装置。
(付記2)
一方のドメインで観測された登録データおよびテストデータの特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
テストデータが登録データと同じクラスに属するかどうかを、PLDAパラメータを用いて分類する分類部とを、さらに備える
付記1に記載のパターン認識装置。
(付記3)
第1ドメインデータおよび第2ドメインデータの一方の特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
テストデータが登録データと同じクラスに属するかどうかを、PLDAパラメータを用いて分類する分類部とを、さらに備える
付記1に記載のパターン認識装置。
(付記4)
PLDAパラメータが、第1ドメインデータの特徴から推定され、PLDAパラメータおよび変換パラメータが目的関数を最大化/最小化するように、PLDAパラメータを用いて、変換パラメータが、第2ドメインデータから推定される
付記1に記載のパターン認識装置。
(付記5)
複数のテストデータの特徴が、複数のテストデータのそれぞれが登録データと同じクラスに属するかどうかで分類され、登録データに最も類似するテストデータが選択される
付記2または付記3に記載のパターン認識装置。
(付記6)
同じクラスからのデータのペアのそれぞれが同じクラスタに割り当てられ、異なるクラスからのデータのペアのそれぞれが異なるクラスタに割り当てられるように、第1ドメインデータおよび第2ドメインデータの一方を、クラスタリングするクラスタリング部をさらに備え、PLDAパラメータおよび変換パラメータは、クラスタの情報を用いて推定される
付記1に記載のパターン認識装置。
(付記7)
目的関数は、PLDAと変換パラメータの尤度、事後確率、ベイズ確率のうちの少なくとも1つである
付記1に記載のパターン認識装置。
(付記8)
PLDAパラメータと変換パラメータは、目的関数から導出される補助関数に従って、反復的に更新される
付記7に記載のパターン認識装置。
(付記9)
特徴変換は、第1ドメインデータと第2ドメインデータの間のアフィン変換として表される
付記1または付記4に記載のパターン認識装置。
(付記10)
第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する
ことを特徴とする、ドメイン適応を用いたパターン認識方法。
(付記11)
コンピュータに、
第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する推定処理
を実行させるための、ドメイン適応を用いたパターン認識プログラム。
303,403,503,603 特徴抽出部
304,504,605 パラメータ推定部
307,408,507,608 特徴変換部
308,409,508,609 PLDA分類部
404 PLDAパラメータ推定部
406 変換パラメータ推定部

Claims (10)

  1. 第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する推定部を備える
    ことを特徴とする、ドメイン適応を用いたパターン認識装置。
  2. 一方のドメインで観測された登録データおよびテストデータの特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
    テストデータが登録データと同じクラスに属するかどうかを、PLDAパラメータを用いて分類する分類部とを、さらに備える
    請求項1に記載のパターン認識装置。
  3. 第1ドメインデータおよび第2ドメインデータの一方の特徴を、変換パラメータを用いて、他方のドメインに変換する特徴変換部と、
    テストデータが登録データと同じクラスに属するかどうかを、PLDAパラメータを用いて分類する分類部とを、さらに備える
    請求項1に記載のパターン認識装置。
  4. PLDAパラメータが、第1ドメインデータの特徴から推定され、PLDAパラメータおよび変換パラメータが目的関数を最大化/最小化するように、PLDAパラメータを用いて、変換パラメータが、第2ドメインデータから推定される
    請求項1に記載のパターン認識装置。
  5. 複数のテストデータの特徴が、複数のテストデータのそれぞれが登録データと同じクラスに属するかどうかで分類され、登録データに最も類似するテストデータが選択される
    請求項2または請求項3に記載のパターン認識装置。
  6. 同じクラスからのデータのペアのそれぞれが同じクラスタに割り当てられ、異なるクラスからのデータのペアのそれぞれが異なるクラスタに割り当てられるように、第1ドメインデータおよび第2ドメインデータの一方を、クラスタリングするクラスタリング部をさらに備え、PLDAパラメータおよび変換パラメータは、クラスタの情報を用いて推定される
    請求項1に記載のパターン認識装置。
  7. 目的関数は、PLDAと変換パラメータの尤度、事後確率、ベイズ確率のうちの少なくとも1つである
    請求項1に記載のパターン認識装置。
  8. PLDAパラメータと変換パラメータは、目的関数から導出される補助関数に従って、反復的に更新される
    請求項7に記載のパターン認識装置。
  9. 第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する
    ことを特徴とする、ドメイン適応を用いたパターン認識方法。
  10. コンピュータに、
    第1ドメインデータと第2ドメインデータの特徴から、その特徴に関する目的関数を最大化/最小化するように、PLDA(Probabilistic Linear Discriminant Analysis)パラメータと変換パラメータとを推定する推定処理
    を実行させるための、ドメイン適応を用いたパターン認識プログラム。
JP2018507663A 2015-09-16 2015-09-16 ドメイン適応を用いたパターン認識装置、方法およびプログラム Active JP6620882B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/004716 WO2017046828A1 (en) 2015-09-16 2015-09-16 Pattern recognition apparatus, method, and program using domain adaptation

Publications (2)

Publication Number Publication Date
JP2018529157A true JP2018529157A (ja) 2018-10-04
JP6620882B2 JP6620882B2 (ja) 2019-12-18

Family

ID=54330828

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018507663A Active JP6620882B2 (ja) 2015-09-16 2015-09-16 ドメイン適応を用いたパターン認識装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US10614343B2 (ja)
JP (1) JP6620882B2 (ja)
WO (1) WO2017046828A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119425A (ko) * 2019-04-01 2020-10-20 한국전자통신연구원 도메인 적응 기반 객체 인식 장치 및 그 방법
JPWO2020234918A1 (ja) * 2019-05-17 2020-11-26
JP2021086241A (ja) * 2019-11-26 2021-06-03 株式会社日立製作所 転移可能性判定装置、転移可能性判定方法、及び転移可能性判定プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6867276B2 (ja) * 2017-12-04 2021-04-28 日本電信電話株式会社 モデル学習装置、モデル学習方法、および、予測システム
WO2020084727A1 (en) * 2018-10-25 2020-04-30 Nec Corporation Unsupervised model adaptation apparatus, method, and program
CN113129900A (zh) * 2021-04-29 2021-07-16 科大讯飞股份有限公司 一种声纹提取模型构建方法、声纹识别方法及其相关设备
WO2023192179A1 (en) * 2022-03-27 2023-10-05 Ohio State Innovation Foundation Venc design and velocity estimation for phase contrast mri

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9865266B2 (en) * 2013-02-25 2018-01-09 Nuance Communications, Inc. Method and apparatus for automated speaker parameters adaptation in a deployed speaker verification system
US9792899B2 (en) * 2014-07-15 2017-10-17 International Business Machines Corporation Dataset shift compensation in machine learning

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200119425A (ko) * 2019-04-01 2020-10-20 한국전자통신연구원 도메인 적응 기반 객체 인식 장치 및 그 방법
KR102366777B1 (ko) * 2019-04-01 2022-02-24 한국전자통신연구원 도메인 적응 기반 객체 인식 장치 및 그 방법
US11380133B2 (en) 2019-04-01 2022-07-05 Electronics And Telecommunications Research Institute Domain adaptation-based object recognition apparatus and method
JPWO2020234918A1 (ja) * 2019-05-17 2020-11-26
JP7207532B2 (ja) 2019-05-17 2023-01-18 日本電信電話株式会社 学習装置、学習方法及び予測システム
JP2021086241A (ja) * 2019-11-26 2021-06-03 株式会社日立製作所 転移可能性判定装置、転移可能性判定方法、及び転移可能性判定プログラム
JP7353940B2 (ja) 2019-11-26 2023-10-02 株式会社日立製作所 転移可能性判定装置、転移可能性判定方法、及び転移可能性判定プログラム

Also Published As

Publication number Publication date
JP6620882B2 (ja) 2019-12-18
WO2017046828A1 (en) 2017-03-23
US20180253628A1 (en) 2018-09-06
US10614343B2 (en) 2020-04-07

Similar Documents

Publication Publication Date Title
JP6620882B2 (ja) ドメイン適応を用いたパターン認識装置、方法およびプログラム
CN110797021B (zh) 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
JP7028345B2 (ja) パタン認識装置、パタン認識方法、及びプログラム
Wen et al. Face reconstruction from voice using generative adversarial networks
Tsagkatakis et al. Online distance metric learning for object tracking
Zhou et al. A compact representation of visual speech data using latent variables
CN113326731B (zh) 一种基于动量网络指导的跨域行人重识别方法
US20110243381A1 (en) Methods for tracking objects using random projections, distance learning and a hybrid template library and apparatuses thereof
Kumar et al. Indian classical dance classification with adaboost multiclass classifier on multifeature fusion
CN114241569B (zh) 人脸识别攻击样本的生成方法、模型训练方法及相关设备
JP6821615B2 (ja) マスク推定装置、モデル学習装置、音源分離装置、マスク推定方法、モデル学習方法、音源分離方法及びプログラム
JP6597914B2 (ja) 画像処理装置、画像処理方法、及びプログラム
CN108564061B (zh) 一种基于二维主元分析的图像识别方法和系统
CN116868206A (zh) 跨域自适应学习
Xu et al. Graphical modeling for multi-source domain adaptation
JP4348202B2 (ja) 顔画像認識装置及び顔画像認識プログラム
Zhu et al. Multiview latent space learning with progressively fine-tuned deep features for unsupervised domain adaptation
Liu et al. Lip event detection using oriented histograms of regional optical flow and low rank affinity pursuit
CN109165587B (zh) 智能图像信息抽取方法
CN109165586B (zh) 用于ai芯片的智能图像处理方法
JP2007249394A (ja) 顔画像認識装置及び顔画像認識プログラム
Kelly et al. Recognition of spatiotemporal gestures in sign language using gesture threshold hmms
Haddad et al. A statistical framework for few-shot action recognition
Radha et al. A person identification system combining recognition of face and lip-read passwords
JP2018055287A (ja) 統合装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191023

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191105

R150 Certificate of patent or registration of utility model

Ref document number: 6620882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150