JP6904483B2 - パターン認識装置、パターン認識方法、及びパターン認識プログラム - Google Patents

パターン認識装置、パターン認識方法、及びパターン認識プログラム Download PDF

Info

Publication number
JP6904483B2
JP6904483B2 JP2020535336A JP2020535336A JP6904483B2 JP 6904483 B2 JP6904483 B2 JP 6904483B2 JP 2020535336 A JP2020535336 A JP 2020535336A JP 2020535336 A JP2020535336 A JP 2020535336A JP 6904483 B2 JP6904483 B2 JP 6904483B2
Authority
JP
Japan
Prior art keywords
domain
vector
pattern recognition
mlp
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020535336A
Other languages
English (en)
Other versions
JP2020533723A (ja
Inventor
チョンチョン ワン
チョンチョン ワン
孝文 越仲
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2020533723A publication Critical patent/JP2020533723A/ja
Priority to JP2021104706A priority Critical patent/JP2021165845A/ja
Application granted granted Critical
Publication of JP6904483B2 publication Critical patent/JP6904483B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Description

本発明は、画像、映像、音声及び音響などのパターンを一定のクラスの1つに分類するための、パターン認識装置、パターン認識方法及びプログラムに関する。
パターン認識技術は、その基礎を機械学習理論及び技術に置いている。当該技法は、科学、工学、農業、電子商取引、医学、医用画像分析、軍事、及び国家安全保障などの多様な領域における、現実の問題を解決するために我々の日常生活に広範囲に適用されている。
ディープラーニングは、多数の線形及び非線形変換からなる多数の処理層を備えた大規模なグラフを用いてデータの高レベルの抽象概念をモデリングしようと試みる、アルゴリズムの組み合わせに基づく機械学習の一分野である。そのような多層構造は、DNN(Deep Neural Network)、又は、より一般的にはNN(Neural Network)と呼ばれる。NNs(Neural Networks)は、現在、現実世界のデータの有用な表現又は抽象概念を学習する手段として十分に確立されている。NNは、サンプル間の複雑で非線形な関係を、事前の仮定を一切用いずに学習する能力によって、多くの既存の方法及びアルゴリズムを凌ぐことが証明されている。事前の仮定は、他の方法においてしばしば不正確さの原因となる。NNは、例えばコンピュータビジョン、自動音声認識、自然言語処理、音認識、画像認識、及びバイオインフォマティックスなどのパターン認識の分野に適用され、それらの分野で、ニューラルネットワークは、様々なタスクについて最先端の結果を生むことが示されている。
NNは、様々な分野に適用できるだけでなく、各分野の様々なフェーズにも適用できる。NNは、例えば、特徴抽出(例えば、ボトルネック特徴量)、ノイズリダクション(例えば、Denoising Auto Encoder;DAE)、識別(例えば、Multi Layer Perception;MLP)、検証(例えば、シャムネットワーク)などのパターン認識システムにおいて使用できる。これらのシステムの性能は、大量のデータがNNのトレーニングに利用可能な場合にのみ、非常に高くなる。
ただし、NNベースのパターン認識は、ドメインの可変性に対して弱みがある。本明細書でいう「ドメイン」は、特定の概念的な(意味論の)カテゴリ又は領域における、データの様々な状態を指す。例えば、「話者認識」のドメインの場合、ドメインは、言語の差異、伝送チャネルの差異、SNR(Signal Noise Ratio)の差異などに応じて異なる。同様に、ドメインが「顔認識」である場合、ドメインは、照明の差異、姿勢の差異、SNRの差異に応じて異なる。あるドメインにおいてよいNNのトレーニングには、そのドメイン(対象ドメイン)における大量のデータが必要である。本明細書における「対象ドメイン」は、パターン認識に適用されるデータの特定のドメインを指す。対象ドメインの中のデータは、IND(in−domain)データと呼ばれる。対象ドメインの外のデータは、OOD(out−of−domain)データと呼ばれる。例えば、広東語の電話データの認識のためのよいNNをトレーニングには、INDデータとして、大量の広東語の電話データが必要である。北京語の電話データはこのトレーニングに不適当であるため、そのデータは、一種のOODデータであろう。広東語データを用いて充分にトレーニングされたNNを含むパターン認識システムは、高い性能となる。他方、北京語データを用いてトレーニングされたNNを含むシステムは、低い性能となる。
しかし、大量のINDデータを収集することは、通常、費用が掛かるか非現実的であり、また、ラベル付きINDデータではいっそう難しい。本明細書でいう「ラベル」は、クラスID、話者認識又は顔認識の場合にはパーソナルIDなどの、個人と、個人が属するクラス(ドメイン又は話者)とを識別するためのID(identifier)を指す。OODデータでトレーニングされたパターン認識システムは、正しく動作することは稀である。このように、トレーニングと評価データとの間のどのようなドメイン不整合も、システムのNNパターン認識の性能を大きく劣化させ得るという事実のために、そのようなNNの性能は、ほとんど最適化されない。
非特許文献1は、話者認識のために音声対(同一話者と異なる話者)を区別するため、シャムネットワークを用いる技術を開示する。この方法は、トレーニングデータが、充分であり、話者認識が適用されるデータ(評価データと呼ばれる)のドメインと同じドメインにある場合、非常に効果的である。これは、NNが、そのドメインにおいて、両方のデータの間の複雑な非線形関係を学習できるからである。
図20に示すように、非特許文献1のトレーニングフェーズでは、特徴抽出部402は、単一の入力から複数の出力へ値を伝えること以外何もしないパッシブノードである、NN(NNの一例を示す図4を参照)の入力層として、DB401から1対の特徴ベクトルを抽出する。本明細書における「特徴ベクトル」は、対象オブジェクトを表す1組の数値(特定データ)を指す。出力層としての「対象」又は「非対象」は、対応する話者ラベルによって定まり、出力層として使用される。それらの話者ラベルが同一であれば、それは、それらは同じ話者からのものであり、出力は「対象」であることを意味する。そうでない場合、それらは異なる話者からのものであり、出力は「非対象」である。NNトレーニング部403は、1対の特徴ベクトルが連結された長いベクトルと、それに対応する「対象/非対象」のラベルとを用いて、NNをトレーニングする。トレーニングされたNNは、NNパラメータ記憶部404に格納される。評価フェーズでは、特徴抽出部402が、登録音声データとテスト音声データとから、1対の特徴ベクトルを抽出する。NN検証部405は、NNパラメータ記憶部404の中のトレーニングされたNNを用いて、その1対の特徴ベクトルのスコアを計算する。本明細書における「スコア」は、異なるクラスの1対のパターンに対する同じクラスの1対のパターンの尤度比に関する、一種の類似度を指す。
特許文献1は、複数の話者を検証するために、TDNN(Time delay Neural Network)及びMLP(Multi Layer Perceptron)を、声量を考慮しながら用いる技術を開示する。パーセプトロンは、二項分類器(数のベクトルによって表される入力が、ある特定のクラスに属するか否かを決定する関数)の教師あり学習のためのアルゴリズムである。声量が所定の範囲を有するフレームのパターンが、所定の言語単位に従ってTDNNを用いて抽出される。登録された話者からの音声の各パターンの確率が、MLPを用いて算出され、平均されてスコアとなる。
非特許文献2は、特徴ベクトルをマイクロフォンドメイン(対象外ドメイン)から電話ドメイン(対象ドメイン)へ変換するためにDAE(Denoising Auto Encoder)を使用し、古典的な分類器を適用する技術を開示する。このシステムは、異なるドメインにおける同じデータがトレーニングに利用可能である場合、DAEを良くトレーニングできる。この技術は、トレーニングにおいて、並列データを必要とする。
特許文献2は、音響の可変性の度合を計算し、短い音声の特徴ベクトルを、充分な長さの音声のそれと、信頼性において比較できるように補う。非特許文献2と同様に、この技術は、トレーニングにおいて並列データを必要とする。この技術は、長い音声長と短い音声長の両方で同じデータを必要とする。短い音声は、長い音声のサブセットである。
加えて、特許文献3、特許文献4、非特許文献3及び非特許文献4は、本発明の関連技術を開示する。
国際公開第03/015078号 米国特許出願公開第2016/0098993号明細書 特開2016−075740号公報 特表2004−538526号公報
D. Snyder, P. Ghahremani、D. Povey, D. Garcia−Romero, Y. Carmiel, S. Khudanpur, "Deep neural network−based speaker embeddings for end−to−end speaker verification", Spoken Language Technology Workshop(SLT), 2016 IEEE F. Richardson, B. Nemsick, D. Reynolds, "Channel compensation for speaker recognition using map adapted PLDA and denoising DNNs", Odyssey 2016, June 21−24, 2016, Bilbao, Spain W. Campbell et al., "Support vector machines using GMM supervectors for speaker verification," IEEE Signal Processing Letters, Vol. 13, 308−311, 2006 N. Dehak, R. Dehak, P. Kenny, N. Brummer, P. Ouellet, and P. Dumouchel, "Support vector machines versus fast scoring in the low−dimensional total variability space for speaker verification", Interspeech, inproceedings, Brighton, 2009−06−22。
しかし、非特許文献1は、ドメイン不整合問題に対処できない。特許文献1は、声量を考慮するが、単に、フレームを選択するために声量を用いる。それも、ドメインの可変性に対処しない。実際、トレーニングと評価データとは、ドメインにおいて不整合があることが多い。その結果、NNが正確に学習した関係は、もう評価データには適しておらず、そして低い性能をもたらす。非特許文献2と、特許文献2の拡張と、は、特徴ベクトルが別のドメインに含まれるように補償できるが、全ての多様なドメインに必ずしも適用できない。これらは、異なるドメイン(伝送チャネル、音声長)における音声データの並列な記録を利用できる場合にのみうまく働く。しかし、それは、例えば言語などの、多様なドメインの大半で現実的でない。したがって、そのような方法は、実際には、多様なドメインをうまく補償できない。
上記状況に鑑みて、本発明の目的は、任意の種類のドメイン可変性に対する分類の頑強性を提供することである。
上記問題を解決するために、本発明の第1の実施態様は、NNに基づくパターン認識装置である。その装置は、少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、NNトレーニング手段と、対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証するNN検証手段と、を含む。
本発明の第2の実施態様は、NNを使用するパターン認識方法である。その方法は、少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する。
本発明の第3の実施態様は、コンピュータにパターンを認識させるための、NNを使用するパターン認識プログラムである。そのプログラムは、少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する。
そのプログラムは、コンピュータ読み取り可能な記憶媒体に格納されていてよい。
本発明によれば、本発明のパターン認識装置、パターン認識方法、及びプログラムは、任意の種類のドメインの可変性に対する分類の頑強性を提供できる。
これらの図面は、詳細な説明とともに、発明の適用方法の原理を説明するために役立つ。これらの図面は、説明を目的とし、この技術の応用を限定するものではない。
図1は、本発明による第1の実施形態のパターン認識装置のブロック図である。 図2は、OODデータ記憶部の内容の一例を示す図である。 図3は、INDデータ記憶部の内容の一例を示す図である。 図4は、第1の実施形態におけるNNアーキテクチャの概念を示す図である。 図5は、第1の実施形態のパターン認識装置の動作を示すフローチャートである。 図6は、第1の実施形態のパターン認識装置のトレーニングフェーズの動作を示すフローチャートである。 図7は、第1の実施形態のパターン認識装置の評価フェーズの動作を示すフローチャートである。 図8は、本発明による第2の実施形態のパターン認識装置のブロック図である。 図9は、第2の実施形態におけるMLPアーキテクチャの概念を示す図である。 図10は、第2の実施形態のパターン認識装置の動作を示すフローチャートである。 図11は、第2の実施形態のパターン認識装置のトレーニングフェーズの動作を示すフローチャートである。 図12は、第2の実施形態のパターン認識装置の評価フェーズの動作を示すフローチャートである。 図13は、本発明による第3の実施形態のパターン認識装置のブロック図である。 図14は、第3の実施形態におけるMLP及び検証NNの結合ネットワーク構造の概念を示す図である。 図15は、第3の実施形態のパターン認識装置の動作を示すフローチャートである。 図16は、第3の実施形態のパターン認識装置のトレーニングフェーズの動作を示すフローチャートである。 図17は、第3の実施形態のパターン認識装置の評価フェーズの動作を示すフローチャートである。 図18は、本発明による第4の実施形態の略図である。 図19は、本発明による実施形態で使用される例示的なコンピュータ構成を示す図である。 図20は、非特許文献1のパターン認識装置のブロック図である。
図中の要素は、簡単さと明確さのために図示されており、必ずしも一定の縮尺で描かれる必要はないことを当業者は認識するであろう。例えば、集積回路のアーキテクチャを示す図におけるいくつかの要素の大きさは、本実施形態と代わりの実施形態の理解の改善を促進ために、他の要素と比べて誇張されている場合がある。
本発明の各実施形態について、図面を参照しながら以下に説明する。以下の詳細な説明は、本質的に代表的であり、本発明、又は、本発明の応用および用途を限定することを意図しない。さらに、本発明の前述の背景技術又は以下の詳細な説明に示されるどのような理論であってもその理論によって拘束される意図はない。
NNは、例えば顔認識、話者認識及び音声認識などのパターン認識において、その能力を示してきた。しかし、NNベースのパターン認識は、ドメインの可変性に対して弱みがある。よいNNのトレーニングは、対象ドメインにおける大量のデータを必要とするが、一方、対象ドメインにおけるデータの収集は、特にラベル付きのデータの場合、困難である。したがって、対象ドメインからのラベル付きのデータなしで、ドメイン補償を行う必要がある。
上記観点から、我々の実施形態は、観測による特徴ベクトルの対に加えて検証に使用されるように、対象ドメインベクトルを予測するために様々なドメインの既存のデータを活用する。ドメイン情報効率を用いることによって、検証性能は、ドメインの可変性に対して頑強になることができる。
対象ドメインを表す対象ドメインベクトルは、対象ドメインを含む(実施形態1)、又は対象ドメインを含まない(実施形態2及び3)様々なドメインの既存のラベルなしデータを用いて、陽に(実施形態1及び2)又は暗に(実施形態3)予測される。本明細書における「ドメインベクトル」は、ドメインを表す数値の組み合わせを指す。したがって、ドメインの間の関係は、検証NNのモデル化における特徴ベクトルに加えて、そのようなドメインベクトルを用いて学習することができる。その結果、新しいドメインにおいて、我々の実施形態は、良好で頑強な性能を達成することができる。加えて、ラベル付きのINDデータは、NNのトレーニングに必須ではない。そのため、どの程度の量のINDデータが利用できるかによらず、どのような実際の分野にも適用が可能である。クラスラベルがないとしても、もしどのような量のINDデータでも利用可能であれば、システムの頑強性は向上するであろう。そのため、どのような種類のドメインの可変性においても、補償を提供できる。我々の実施形態について以下に説明する。
<第1の実施形態>
第1の実施形態のパターン認識装置は、NNにおけるドメインラベルの要求及び予測されたドメインベクトルがなくても、対象ドメインを含む様々なドメインの既存のデータを用いて、任意の種類のドメインの可変性に対する分類の頑強性を提供できる。これは、ドメインの可変性が、同じドメインの特徴の主要な傾向において見られることが多い、特徴空間におけるシフトに帰着する前提に基づく。したがって、この実施形態において、「平均(アベレージ)」がドメインの可変性の単純で直接的な表現として使用される。
<<パターン認識装置の構成>>
本発明の第1の実施形態における、NN内のドメインベクトルとして平均特徴ベクトルを使用するパターン認識装置について説明する。
図1は、第1の実施形態のパターン認識装置100のブロック図である。パターン認識装置100はトレーニングパートと評価パートとを含む。
トレーニングパートは、OODデータ記憶部101_1、101_2、・・・、101_n(以後、101_1〜101_nと表記する。nはドメインの数を表す)と、INDデータ記憶部102と、特徴抽出部103a、103bと、平均抽出部104a、104bと、OODドメインベクトル記憶部105と、INDドメインベクトル記憶部106と、NNトレーニング部107と、NNパラメータ記憶部108とを含む。評価パートは、特徴抽出部103c、103dとNN検証部109とを含む。特徴抽出部103a、103b、103c、103dは、同じ機能を有する。平均抽出部104a、104bは、同じ機能を有する。
OODデータ記憶部101_1〜101_nは、n(nは1以上の整数)個のドメインからの、クラスラベル付きのOODデータを記憶する。OODデータ記憶部101_1〜101_nの内容は、ドメインのタイプごとに分類されていてよい。例えば、図2に示すように、ドメインが「話し言葉」である場合、OODデータ記憶部101_1は、ドメインタイプ1(例えば、英語)の音声記録を記憶し、OODデータ記憶部101_nは、ドメインタイプn(例えば、日本語)の音声記録を記憶する。
INDデータ記憶部102は、クラスラベル付きのINDデータを記憶する。INDデータの内容は、検証が適用される対象ドメインと同じドメインに分類される。例えば、このドメインは「話し言葉」であり、INDデータ記憶部102は、対象ドメイン(例えば、広東語)の音声記録を記憶する。
OODドメインベクトル記憶部105は、n個のOODデータ記憶部101_1〜101_nに対応する、n個のドメインの特徴ベクトルの、n個の平均ベクトルを記憶する。これらの特徴は、観測結果の、個別に測定可能な特性、例えば、音声認識における、例えばメル周波数ケプストラム係数(MFCC;Mel−Frequency Cestrum Coefficients)などの音響特徴である。平均ベクトルは、重心と表記され、分散−共分散行列は、分散又は分散行列と表記される。図2を参照すると、音声記録は、音響特徴(例えば話者1などの、グラフとして示される)を意味する。図2において、OODデータ記憶部101_1は、2人の話者からの4つの音声記録を含む。「話者1」は、話者ラベルであってもよい。
INDドメインベクトル記憶部106は、INDデータ記憶部102に対応する、対象ドメインの特徴ベクトルの平均ベクトルを記憶する。これらの特徴は、観測結果の、個別に測定可能な特性、例えば、MFCCなどの音響特徴である。
NNパラメータ記憶部108は、トレーニングされたNNパラメータを記憶する。
特徴抽出部103aは、OODデータ記憶部101_1〜101_n内のデータから、n組の特徴ベクトルを抽出する。特徴抽出部103bは、INDデータ記憶部102内のデータから、特徴ベクトルを抽出する。例えば、上記のように、特徴抽出部103aは、OODデータ記憶部101_1内のデータから、英語の音声の、一連の音響特徴のシーケンスを抽出する。同様に、特徴抽出部103aは、OODデータ記憶部101_2、101_3・・・101_n内の各言語の音声から音響特徴を抽出する。特徴抽出部103bは、INDデータ記憶部102の各記録からの、対象言語(例えば、広東語)の音声から、音響特徴のシーケンスを抽出する。
平均抽出部104aは、n組のOOD特徴から平均特徴ベクトルを算出し、その結果をOODドメインベクトルとしてOODドメインベクトル記憶部105に格納する。例えば、平均抽出部104aは、OOD記憶部101_1〜101_nの各々において、記録からのMFCCの平均を計算する。これは、ドメインの可変性が、特徴ベクトルの成分が張る空間を指す特徴空間における、特徴ベクトル分布のシフトに帰着するという仮定に基づく。例えば、OOD又はINDデータが言語に関するデータである場合、分布は、その言語において使用されるアクセント又は音素に従って、シフトするかもしれない。シフトへの帰着は、同じドメインにおける特徴の主要な傾向において現れることが多い。したがって、それらの平均は、ドメインの可変性のための単純で直接的な表現として使用できる。
平均抽出部104bは、抽出されたIND特徴ベクトルから平均特徴ベクトルを計算し、その結果をINDドメインベクトルとしてINDドメインベクトル記憶部106に格納する。言い換えれば、計算された平均特徴ベクトルは、INDドメインベクトルになる。例えば、平均抽出部104bは、INDデータ記憶部102の記録からの複数のMFCCについての平均を算出する。
NNトレーニング部107は、特徴抽出部103aからOOD特徴ベクトルの組み合わせを受信し、OODドメインベクトル記憶部105からOODドメインベクトルを受信する。NNトレーニング部107は、受信したOOD特徴ベクトルとOODドメインベクトルとを用いて、対象(例えば、同じ話者からの音声セグメント)又は非対象(例えば、異なる話者からの音声セグメント)を決定するために、NNをトレーニングする。このトレーニングにおいて、受信したOOD特徴ベクトル及びOODドメインベクトルは、入力層に与えられる。また、それらの話者ラベルから決定された「対象/非対象」は、出力層に与えられる。これらの層の詳細は、後述される。その目的のために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化技術が、適用できる。トレーニングの後に、NNトレーニング部107は、NNパラメータを出力し、それらをNNパラメータ記憶部108に格納する。
評価パートにおいて、特徴抽出部103cは、登録データから特徴ベクトルを抽出し、特徴抽出部103dは、テストデータから特徴ベクトルを抽出する。これらのデータと共に、NN検証部109は、INDドメインベクトル記憶部106に格納されている対象ドメインのドメインベクトルと、NNパラメータ記憶部108に格納されているNNパラメータとを受信する。NN検証部109は、検証スコアを計算し、所定のしきい値を比較することによって、計算結果が「対象」を示すか、又は、「非対象」を示すかを決定する。このしきい値は、エンジニアにより設定されてよい。典型的な場合、出力ニュートロンは0から1までで変動するため、しきい値は、0.5に設定される。例えば、検証スコアがしきい値よりも大きい場合、それは「対象」に属する。検証スコアがしきい値以下である場合、それは「非対象」に属する。この評価で、「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。
図4は、NNアーキテクチャの概念(モデル)を示す図である。このモデルは、入力、隠れ、および、出力の、3つのタイプの層を含む。隠れ層は、複数であってよい。少なくとも、入力層と隠れ層との間と、隠れ層と出力層との間と、には線形変換及び/又は活性化(伝達)関数が存在する。
トレーニングパートにおいて、入力層(ベクトルを受け付ける)及び出力層(「対象/非対象」を出力する)の両方が与えられ、その結果、隠れ層(NNパラメータ)が得られる。
評価パートにおいて、入力層及び隠れ層が与えられ、その結果、出力層が得られる。
このモデルにおいて、出力層は、2つのニューロンからなる。トレーニングパートにおいて、ニュートロンは、「対象/非対象」に対応する値「1」又は「0」をとることができる。
評価パートにおいて、各ニューロンは「対象」又は「非対象」の事後確率である。
トレーニングパート及び評価パートにおいて、入力層は、登録データから抽出された特徴ベクトルと、テストデータから抽出された特徴ベクトルと、INDドメインベクトル記憶部106からの平均特徴ベクトルとの、3つのベクトルを受け取る。
評価パートにおいて、隠れ層の各々は、前の層(入力層又は直前の隠れ層)の出力を受信する。出力に基づいて、線形変換及び活性化関数(シグモイド関数などの)が算出される。活性化ベクトルは、以下のような活性化関数によって算出できる。
Figure 0006904483
ここで、lは入力層から出力層までの層の深さを示す、NNのレベルである。「l=0」は入力層を意味し、「l=L」は出力層を意味する。「0<l<L」は、隠れ層を表す。vl−1は、レベルl−1の活性化ベクトルであり、vは、レベルlの活性化ベクトルである。W及びbは、それぞれ、レベルlの重み行列及びバイアスベクトルである。f()は、活性化関数である。ある層の活性化ベクトルは、一般的に、前の層の活性化ベクトルに基づいて、線形変換と活性化関数との組み合わせによって得られる。計算結果は、次の層へ送信される。次の層は、取得したNNパラメータに基づいて、再度同じ計算を繰り返す。
最後に、評価パートにおいて、検証結果が、「対象」又は「非対象」を出力層において示す2つのニューロンの値として、得られる。「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。
<<パターン認識装置の動作>>
次に、パターン認識装置100の動作について図面を参照しながら説明する。
パターン認識装置100の動作全体を、図5を参照することによって説明する。図5は、トレーニングパートと評価パートとの動作を含む。しかし、これは、例を示しており、トレーニングと評価との動作は、連続的に実行されてもよく、また、時間間隔が挿入されてもよい。
ステップA01(トレーニングパート1)において、NN検証部109は、OODドメインベクトル記憶部105に格納されている各OODドメインベクトルの平均に基づいてトレーニングされる。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用できる。トレーニングの結果、NNパラメータが、生成され、NNパラメータ記憶部108に格納される。
ステップA02(トレーニングパート2)において、INDドメインベクトルの平均が、INDデータ特徴ベクトルに基づいて算出され、INDドメインベクトル記憶部106に格納される。
ステップA03(評価パート)において、NN検証部109は、出力層における「対象」及び「非対象」の2つのニューロンの、2つの入力データ(登録データ及びテストデータ)の事後確率を、NNパラメータ記憶部108に格納されているNNパラメータを用いて、INDドメインベクトル記憶部106に格納されているINDドメインベクトルに基づいて算出する。
図6は、検証NNが、ドメインの全ての特徴ベクトルから平均されたドメインベクトルを用いてトレーニングされることを示すフローチャートである。図6は、図5におけるトレーニングパート1及び2を表す。
最初に、ステップB01において、トレーニングパート1の最初として、特徴抽出部103aは、OODデータ記憶部101_1〜101_nの各々から、ドメインラベル(例えば、言語)及び話者ラベル(例えば、話者1)付きのOODデータを読み出す。
ステップB02において、さらに、特徴抽出部103aは、OODデータ記憶部101_1〜101_nから、n組の特徴ベクトルを抽出する。例えば、特徴抽出部103aは、OODデータ記憶部101_1〜101_nの音声記録の各々から、特徴ベクトルとして、MFCCのシーケンスを抽出する。
ステップB03において、平均抽出部104aは、各ドメインに対応する特徴ベクトルから、平均ベクトルを計算する。上述のように、平均値抽出部104aは、各OODドメイン(例えば、英語音声、日本語音声)の音声記録のMFCCについて、平均を計算する。
ステップB04において、平均抽出部104aは、計算したOOD平均ベクトルを、OODドメインベクトル記憶部105に格納する。
ステップB05において、NNトレーニング部107は、特徴抽出部103aから送信されたOOD特徴ベクトルと、OODドメインベクトル記憶部105から取得したOODドメインベクトルとを、話者ラベル(例えば、話者1)とともに用いて、検証NNをトレーニングする。
ステップB06において、トレーニングの結果として、NNトレーニング部107は、NNパラメータを生成し、それらをNNパラメータ記憶部108に格納する。これがトレーニングパート1の終わりである。
ステップB07で、トレーニングパート2の開始処理として、特徴抽出部103bはINDデータ記憶部102からINDデータを読み出す。
ステップB08において、特徴抽出部103bは、INDデータから特徴ベクトルを抽出する。例えば、特徴抽出部103bは、INDデータ記憶部102の音声記録の各々から、MFCCのシーケンスを抽出する。
ステップB09において、平均抽出部104bは、INDデータに対応する特徴ベクトルから、平均ベクトルを計算する。例えば、平均抽出部104bは、INDドメインの音声記録のMFCCについて、平均を計算する。
ステップB10において、平均抽出部104bは、さらに、計算したINDドメインベクトルをINDドメインベクトル記憶部106に格納する。例えば、平均抽出部104bは、INDドメインの音声記録のMFCCについて、平均を計算する。
B01〜B06及びB07〜B10の順序は、図6に提示した手形に限定されることなく、入れ替えられ得ることに注意する。
図7は、対象ドメインの全ての特徴ベクトルから平均されたドメインベクトルを用いたNNの検証の評価フェーズを示すフローチャートである。
最初に、ステップC01において、特徴抽出部103cは、外部デバイス(図1において不図示)から入力された、登録データ(音声記録などの基本データ)を読み出す。
ステップC02において、特徴抽出部103cは、登録データから特徴ベクトルを抽出する。例えば、登録データは、広東語の音声記録である。特徴抽出部103cは、広東語の音声記録のMFCCのシーケンスを抽出する。
ステップC03において、特徴抽出部103dは、外部デバイス(図1において不図示)から入力された、テストデータ(例えば音声など)を読み出す。
ステップC04において、特徴抽出部103dは、テストデータから特徴ベクトルを抽出する。例えば、テストデータは、広東語の音声記録である。特徴抽出部103dは、広東語の音声記録のMFCCのシーケンスを抽出し、抽出されたデータを固定次元特徴ベクトル、例えば、iベクトル(詳細については、非特許文献2を参照)に変換する。
C01〜C02及びC03〜C04の順序は、入れ替えられ得ることに注意する。
ステップC05において、NN検証部109は、INDドメインベクトル記憶部106に格納されている対象ドメインベクトルを読み出す。
ステップC06において、NN検証部109は、NNパラメータ記憶部108に格納されているNNパラメータを読み出す。
ステップC07において、NN検証部109は、図4に示すNNモデルを用いること、及び、式(1)を適用することによって、検証スコアを計算し、検証スコアを所定のしきい値と比較することによって、答え、すなわち、「対象」又は「非対象」、を出す。
ドメインベクトルの表現は、特徴ベクトルの平均に限定されない。例えば、平均を一次統計値とみなすと、他の統計値(二次、三次・・・の統計値)が、使用され得る。統計値の別のオプションは、いわゆるGMM(Gaussian Mixture Model)や、OODデータ記憶部101_1〜101_n及びINDデータ記憶部102から取得されたデータセットから推定された、GMMの重み、平均及び分散である、GSV(Gaussian Super Vectors)であってもよい。さらに別のオプションは、いわゆるiベクトルであってもよい。
(第1の実施形態の効果)
上述のように、第1の実施形態は、検証NNの頑強性を向上できる。その理由は、以下の通りである。NNトレーニング部107は、少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングする。第1の特徴ベクトルは、サブセットの各々から抽出され、ドメインベクトルは、サブセットの各々に対応する識別子を示す。NN検証部109は、対象ドメインベクトルとNNパラメータとに基づいて、特定のドメイン内の1対の第2の特徴ベクトルを、その1対が同じ個人を示すか否かを出力するために、検証する。
この実施形態では、平均は、ドメインの可変性の単純で直接的な表現として使用される。これは、ドメインの可変性が、同じドメインの特徴ベクトルの主要な傾向において見られることが多い、特徴空間におけるシフトに帰着する前提に基づく。
<第2の実施形態>
第1の実施形態では、パターン認識装置100は、検証NNの頑強性を向上できる。しかし、ドメインラベルが不要であるが、ドメインベクトル(平均ベクトル)が抽出される対象ドメイン(INDデータ)において、一定量のデータが必要である。したがって、それは対象ドメインデータが利用可能な場合にのみ適用できる。
本発明の第2の実施形態は、任意の種類のドメインの可変性に対する分類の頑強性を提供できる。第2の実施形態のパターン認識装置は、MLPを使用することによって、INDデータがない様々なドメインの既存のデータを用いて、対象ドメインを表す対象ドメインベクトルを予想する。MLPは、複数の組の入力データを1組の適切な出力にマッピングする、フィードフォワード型人工ニューラルネットワークモデルであり、それは、カテゴリ変数のための数学的モデルを作成する能力が高い。したがって、この実施形態では、様々なドメインのデータを用いてトレーニングされたMLPは、対象ドメインのドメインベクトルを予測できる。
<<パターン認識装置の構成>>
本発明の第2の実施形態において、パターン認識装置は、NNにおいてMLPによって抽出されるボトルネック特徴ベクトルを用いて、対象ドメインを予測する。ボトルネック特徴は、他の層よりも少数のノードの構成のNN隠れ層によって生成される。ボトルネックの構造は、通常の特徴と、音素の本質的な特徴を表すボトルネック特徴とを抽出できる。したがって、この実施形態では、MLPから抽出されたボトルネック特徴は、対象ドメイン特徴として取り扱われる。
図8は、第2の実施形態のパターン認識装置200のブロック図である。パターン認識装置200は、トレーニングパートと評価パートとを含む。
トレーニングパートは、OODデータ記憶部201_1、201_2、・・・、201_n(以後、201_1〜201_nと表記する)と、OODデータ記憶部202と、特徴抽出部203a、203bと、MLPトレーニング部204と、ドメインベクトル抽出部205aと、MLPパラメータ記憶部206と、ドメインベクトル記憶部207と、NNトレーニング部208と、NNパラメータ記憶部209とを含む。評価パートは、特徴抽出部203c、203dと、ドメインベクトル抽出部205bと、NN検証部210とを含む。
OODデータ記憶部201_1〜201_nは、n(nは1以上の整数)個のドメインからの、対応するドメインラベル付きのOODデータを記憶する。OODデータ記憶部201_1〜201_nの内容は、ドメインの種類ごとに分類できる。例えば、図2に示すように、ドメインが「話し言葉」の場合、OODデータ記憶部201_1はドメインタイプ1(例えば、英語)の音声記録を記憶し、OODデータ記憶部201_nはドメインタイプn(例えば、日本語)の音声記録を記憶する。
OODデータ記憶部202は、話者ラベル付きのOODデータを記憶する。OODデータ記憶部202の内容は、話者のドメインごとに分類できる。OODデータ記憶部201_1〜201_n及びOODデータ記憶部202は、同じデータ(例えば同じドメインにおける同じ話者など)、又は、異なるデータ(例えば同じドメインにおける同じ話者など)を保持できる。話者ラベル及びドメインラベル付きの大規模データが利用可能である場合、それは、両方の記憶部のために使用できる。ただし、INDデータは、必須ではない。この実施形態では、話を分かり易くするために、OODデータ記憶部201_1〜201_nの1つが、OODデータ記憶部202と同じドメインデータを保持する必要があるが、その話者は、異なっていてよい。
MLPパラメータ記憶部206は、トレーニングされたMLPパラメータを記憶する。
ドメインベクトル記憶部207は、n個のOODデータ記憶部201_1〜201_nに対応する、n個のドメインベクトル(n個のINDベクトル)を記憶する。これらのドメインベクトルは、MLPパラメータ記憶部206に格納されているMLPパラメータに基づいて計算される。
NNパラメータ記憶部209は、トレーニングされたNNパラメータを記憶する。
特徴抽出203aは、OODデータ記憶部201_1〜201_nにおけるデータから、n組の特徴ベクトルを抽出する。特徴抽出部203bは、OODデータ記憶部202における、話者ラベル付きの音声記録から、特徴ベクトルを抽出する。MLPトレーニング部204は、特徴抽出部203aから、複数の組のOOD特徴ベクトルを受信し、MLPをトレーニングする。トレーニングの後に、MLPトレーニング部204はMLPパラメータ(ドメインベクトル)を出力し、それらのパラメータをMLPパラメータ記憶部206に格納する。
図9は、MLPアーキテクチャの概念(モデル)を示す図である。図9を参照すると、MLPは、一種のニューラルネットワークである、多層パーセプションを表す。MLPは入力層において特徴ベクトルを受信し、出力層からドメインID(ドメインベクトル)を出力する。MLPにおいて、出力層に最も近い最後の層が、ドメインを表すことができる特徴ベクトルとして期待される、すなわち、それがドメインベクトルを表す。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。
ドメインベクトル抽出部205aは、MLPパラメータ記憶部206からMLPパラメータを取得する。ドメインベクトル抽出部205aは、MLPパラメータにおけるボトルネック特徴ベクトルからドメインベクトルを抽出する。ドメインベクトル抽出部205aは、特徴抽出部203bから、話者ラベル付きの特徴抽出ベクトルを取得する。ドメインベクトル抽出部205aは、ドメインラベル付きのドメインベクトルと、対応する話者ラベル、例えば「英語ドメイン」における「話者1」など、付きの特徴ベクトルとを、ドメインベクトル記憶部207に格納する。
NNトレーニング部208は、特徴抽出部203bから、複数の組の、話者ラベル付きのOOD特徴ベクトルを受信し、対応するドメインベクトルをドメインベクトル記憶部207から検索する。NNトレーニング部208は、特徴ベクトルとドメインベクトルとに基づいて、NNをトレーニングする。トレーニングの後に、NNトレーニング部208は、NNパラメータを出力し、それらをNNパラメータ記憶部209に格納する。
評価パートにおいて、特徴抽出部203cは、登録データから特徴ベクトルを抽出し、特徴抽出部203dは、テストデータから特徴ベクトルベクトルを抽出する。ドメインベクトル抽出部205bは、特徴抽出部203cから登録データの特徴ベクトルを受け取り、MLPパラメータ記憶部206からMLPパラメータを受け取る。ドメインベクトル抽出部205bは、特徴ベクトルとドメインベクトルとに基づいて、対象ドメインベクトルを抽出する。
NN検証部210は、特徴抽出部203cと203dとからの登録データとテストデータとの特徴ベクトルと共に、ドメインベクトル抽出部205bから対象ドメインベクトルを受け取り、NNパラメータ記憶部209に格納されているNNパラメータを受け取る。NN検証部210は、図9に示すNNモデルを用いることと、式(1)を適用することとによって、検証スコアを計算する。NN検証部210は、所定のしきい値を比較することによって、計算の結果を決定し、結果が「対象」を示すか、又は、「非対象」を示すかを出力する。「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。
<<パターン認識装置の動作>>
次に、パターン認識装置200の動作について図面を参照しながら説明する。
パターン認識装置200の動作全体を、図10を参照することによって説明する。図10は、トレーニングパートと評価パートとの動作を含む。しかし、これは例を示すが、トレーニングと評価との動作は、連続的に実行されてよく、時間間隔が挿入されてもよい。
ステップD01(トレーニングパート1)において、MLPトレーニング部204は、ドメインベクトルを取得するためのMLPをトレーニングする。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの結果として、MLPパラメータが、生成され、MLPパラメータ記憶部206に格納される。
ステップD02(トレーニングパート2)において、NNトレーニング部208は、n組のOODデータに対応する、ドメインベクトル記憶部207におけるドメインベクトルに基づいて、トレーニングされる。このトレーニングのために、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの結果として、NNパラメータが、生成され、NNパラメータ記憶部209に格納される。
ステップD03(評価パート)において、ドメインベクトル抽出部205bは、MLPパラメータ記憶部206のMLPパラメータに基づいて、対象ドメインベクトルを計算する。NNトレーニング部208は、対象ドメインベクトルと、NNパラメータ記憶部209に格納されているNNパラメータと、に基づいて、2つの入力データ(登録データ及びテストデータ)を検証し、検証の結果、すなわち、テストデータが「対象」であるか「非対象」であるかを出力する。
図11は、様々なドメインのデータによりトレーニングされたMLPによって作られたドメインベクトルを用いて、検証NNがトレーニングされることを表すフローチャートである。これは、図10におけるトレーニングパート1及び2(ステップD01及びD02)を表す。
最初に、ステップE01において、トレーニングパート1の最初として、特徴抽出部203aは、OODデータ記憶部201_1〜201_nからドメインラベル(例えば、言語)付きのOODデータを読み出す。
ステップE02において、特徴抽出部203aは、OODデータ記憶部201_1〜201_nから、n組の特徴ベクトルを抽出する。例えば、特徴抽出部203aは、OODデータ記憶部201_1〜201_nの音声記録の各々から、特徴ベクトルとして、MFCCのシーケンスを抽出する。
ステップE03において、MLPトレーニング部204は、これらの特徴ベクトルとドメインラベル(例えば、英語音声、日本語音声)とを用いて、MLPをトレーニングする。
ステップE04において、トレーニングの結果として、MLPトレーニング部204は、MLPパラメータ(ドメインベクトル)を生成し、それらをMLPパラメータ記憶部206に格納する。これがトレーニングパート1の終わりである。
ステップE05において、トレーニングパート2の最初として、特徴抽出部203bは、OODデータ記憶部202から、話者ラベル(例えば、話者1)付きのOODデータを読み出す。
ステップE06において、特徴抽出部203bは、OODデータから特徴ベクトルを抽出する。例えば、特徴抽出部203bは、OODデータ記憶部202の音声記録の各々から、特徴ベクトルとして、MFCCのシーケンスを抽出する。
ステップE07において、ドメインベクトル抽出部205aは、MLPパラメータ記憶部206からMLPパラメータを読み出す。
ステップE08において、ドメインベクトル抽出部205aは、OODデータ記憶部202のOODデータに対応する各ドメイン(例えば、英語音声、日本語音声)についてのドメインベクトルを抽出する。
ステップE09において、NNトレーニング部208は、特徴抽出部203bから送信された、話者ラベル付きのOODドメインベクトルと、話者ラベル(例えば、話者1)と共にドメインベクトル記憶部207から取得された、ドメインベクトルとに基づいて、検証NNをトレーニングする。
ステップE10において、トレーニングの結果として、NNトレーニング部208は、NNパラメータを生成し、それらをNNパラメータ記憶部209に格納する。
図12は、図9に示すMLPによって作成されるドメインベクトルを用いたNN検証の評価パートを表すフローチャートである。
最初に、ステップF01において、特徴抽出部203cは、外部デバイス(図8において不図示)から入力された登録データ(基本データ)を読み出す。
ステップF02において、特徴抽出部203cは、登録データから特徴ベクトルを抽出する。例えば、エンロールメントデータは、広東語の音声記録である。特徴抽出部203cは、広東語の音声記録のMFCCのシーケンスを抽出する。
ステップF03において、特徴抽出部203dは、外部デバイス(図8において不図示)から入力されたテストデータを読み出す。
ステップF04において、特徴抽出部203dは、テストデータから特徴ベクトルを抽出する。例えば、テストデータは、広東語の音声記録である。特徴抽出部203dは、広東語の音声記録のMFCCのシーケンスを抽出する。
ここで、F01〜F02とF03〜F04との順序は、入れ替えられ得ることに注意する。
ステップF05において、ドメインベクトル抽出部205bは、MLPパラメータ記憶部206に格納されているMLPパラメータを読み出す。
ステップF06において、ドメインベクトル抽出部205bは、登録データの特徴ベクトルから対象ドメインベクトルを抽出する。
ステップF07において、NN検証部210は、209に格納されているNNパラメータを読み出す。
ステップF08において、NN検証部210は、特徴抽出部203c、203dからの登録データ及びテストデータの特徴ベクトルと共に、ドメインベクトル抽出部205bから対象ドメインベクトルを受け取り、NNパラメータ記憶部209に格納されているNNパラメータを受け取る。NN検証部210は、式(1)を適用することによって、図9に示すNNモデル(MLP)を用いて、検証スコアを算出する。NN検証部210は、所定のしきい値を比較することによって、「対象」又は「非対象」を示す、計算の結果を決定する。「対象」は、エンロールメントデータとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。
ボトルネック特徴ベクトルが抽出される層は、MLPの最後の層に限定されない。ボトルネック特徴ベクトルの使用において一般的になされているように、最後から2番目又はそれよりも前の層からボトルネックを抽出することが可能である。評価パートにおいて、テストデータも、ドメインデータ抽出に使用できる。
(第2の実施形態の効果)
上述のように、第2の実施形態は、トレーニングにおいて必要な対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証NNの頑強性を向上できる。第2の実施形態は、実際の適用可能性がより高く、特に、INDデータの収集が極端に困難な場合に有用である。その理由は、以下の通りである。ニューラルネットワークMLPは、トレーニングされる。ニューラルネットワークMLPは、1つ又は複数の特徴ベクトルからドメインベクトルを抽出できる。ドメインベクトルは、検証トレーニングにおいて加えられる。そのため、ドメインは分類において考慮され、そして、結果は、よりロバストである。
<第3の実施形態>
第2の実施形態は、トレーニングにおいて必要な対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証NNの頑強性を向上できる。さらに、本発明の第3の実施形態は、対象ドメインの情報なしに様々なドメインの既存のデータを用いた、NNにおけるドメイン情報に基づく、対象ドメインベクトルの予測とドメイン分類との統合プロセスによって、任意の種類のドメイン可変性に対する分類の頑強性を提供できる。MLPと検証NNとの統合トレーニングによって、幅広い最適化を達成できる。
<<パターン認識装置の構成>>
本発明の第3の実施形態において、ドメインベクトル抽出MLPと検証NNとを同時にトレーニングするパターン認識装置について説明する。この実施形態のパターン認識装置は、第1及び第2の実施形態と比較して、トレーニングのために、話者ラベルとドメインラベルとの両方を備えた大量のOODデータを必要とする。
図13は、第3の実施形態のパターン認識装置300のブロック図を表す。パターン認識装置300は、トレーニングパートと評価パートとを含む。
トレーニングパートは、OODデータ記憶部301_1、301_2、・・・、301_n(以後、301_1〜301_nと表記する)と、特徴抽出部302aと、統合トレーニング部303と、MLP−NNパラメータ記憶部304とを含む。評価パートは、特徴抽出部302b、302cと、MLP−NN検証部305とを含む。
OODデータ記憶部301_1〜301_nは、n(nは1以上の整数)個のドメインからの話者ラベルとドメインラベルとを含む、OODデータを記憶する。OODデータ記憶部301_1〜301_nの内容は、ドメインのタイプごとに分類され得る。例えば、図2に示すように、ドメインが「話し言葉」である場合、OODデータ記憶部301_1は、ドメインタイプ1(例えば、英語)の音声記録を記憶し、OODデータ記憶部301_n、はドメインタイプn(例えば、日本語)の音声記録を記憶する。
MLP−NNパラメータ記憶部304は、トレーニングされたMLP−NNパラメータを記憶する。
特徴抽出部302aは、話者ラベルとドメインラベルとを用いて、OODデータ記憶部301_1〜301_nのデータから、n組の特徴ベクトルを抽出する。
統合トレーニング部303は、特徴抽出部302aから、複数の組のOOD特徴ベクトルを受け取る。統合トレーニング部303は、MLPと検証NNとを同時にトレーニングする。このトレーニングにおいて、例えば、勾配降下法や、交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの後に、統合トレーニング部303は、MLP−NNパラメータを出力し、それらをMLP−NNパラメータ記憶部304に格納する。
図14は、MLPと検証NNとの統合ネットワーク構造の概念(モデル)を表す図である。図14を参照すると、共有層は、MLPの出力層に接続され、検証の最終決定のためのNNの最初の層11に接続されている、最後の層10を含む。MLPは、入力層としての特徴ベクトルの一種(登録特徴)と、出力層としてのドメインID(ラベル)と共に、共有層を含む部分と考えられる。検証NNは、入力層としての2つの連結された特徴ベクトル(登録特徴及びテスト特徴)のベクトルと、出力層としての検証結果の「対象/非対象と共に、共有層と追加層とを含む部分と考えられる。ここで、最後の層10は、潜在的なドメインベクトルと考えらえる。前述のように、ドメインベクトルは、最後の層だけではなく、その前の他の層から抽出され得る。
評価パートにおいて、特徴抽出部302bは、登録データから特徴ベクトルを抽出する。特徴抽出部302cは、テストデータから特徴ベクトルを抽出する。MLP−NN検証部305は、抽出された特徴ベクトルの両方と、MLP−NNパラメータ記憶部304に格納されているMLP−NNパラメータとを取得する。MLP−NN検証部305は、図14に示すNNモデルを用いることと、式(1)を適用することとによって、検証スコアを計算する。MLP−NN検証部305は、所定のしきい値を比較することによって、「対象」又は「非対象」のいずれかを示す計算の結果を決定する。「対象」は、エンロールメントデータとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。
<<パターン認識装置の動作>>
次に、パターン認識装置300の動作について図面を参照しながら説明する。
図15を参照することによって、パターン認識装置300の動作全体を説明する。図15は、トレーニングパートと評価パートとの動作を含む。しかし、これは例を表しており、トレーニングと評価との動作は、連続的に実行されてよく、時間間隔が挿入されてもよい。
ステップG01(トレーニングパート)において、統合トレーニング部303は、OODに対応する特徴ベクトルに基づいてトレーニングされる。このトレーニングにおいて、例えば、勾配降下法や、例えば交差エントロピーなどのあらかじめ定義されたコスト関数を最小化するバックプロパゲーションとして知られるものなど、幅広い最適化方法が適用され得る。トレーニングの結果として、MLP−NNパラメータが、生成され、MLP−NNパラメータ記憶部304に格納される。
ステップG02(評価パート)において、MLP−NN検証部305は、2つの入力データ(登録データ及びテストデータ)を検証し、検証結果(テストデータは「対象」又は「非対象」である)を出力する。
図16は、検証NN及びMLPが共有層を有し、同時に学習することを表すフローチャートである。ドメインベクトルは、共有層の最後の層10(図14参照)である。これは、この実施形態のトレーニングパートを示す。
最初に、ステップH01において、トレーニングパートの最初として、特徴抽出部302aは、OODデータ記憶部301_1〜301_nから、ドメインラベル(例えば、言語)及び話者ラベル(例えば、話者1)付きの、n組のOODデータを読み出す。
ステップH02において、特徴抽出部302aは、OODデータ記憶部301_1〜301_nから、n組の特徴ベクトルを抽出する。例えば、特徴抽出部302aは、OODデータ記憶部301_1〜301_nの音声記録の各々から、特徴ベクトルとしてMFCCのシーケンスを抽出する。
ステップH03において、統合トレーニング部303は、特徴抽出部302aから送信されたOOD特徴ベクトルを、それらのドメインラベル及び話者ラベルと共に用いて、MLP及び検証NNを統合的にトレーニングする。
ステップH04において、トレーニングの結果として、MLP−NN統合トレーニング部303は、MLP−NNパラメータを生成し、それらをMLP−NNパラメータ記憶部304に格納する。これがトレーニングパートの終わりである。
図17は、対象ドメインのドメインベクトルが同時に作成されるMLP−NN検証の、評価パートを表すフローチャートである。
最初に、ステップI01において、特徴抽出部302bは、外部デバイス(図13において不図示)から入力された検証データ(基本データ)を読み出す。
ステップI02において、特徴抽出部302bは、検証データから特徴ベクトルを抽出する。例えば、登録データは、広東語の音声記録である。特徴抽出部302bは、広東語の音声記録のMFCCのシーケンスを抽出する。
ステップI03において、特徴抽出部302cは、外部デバイス(図13において不図示)から入力されたテストデータを読み出す。
ステップI04において、特徴抽出部302cは、テストデータから特徴ベクトルを抽出する。例えば、テストデータは、広東語の音声記録である。特徴抽出部302cは、広東語の音声記録のMFCCのシーケンスを抽出する。
ここで、I01〜I02及びI03〜I04の順序は、入れ替えられ得ることに注意する。
ステップI05において、MLP−NN検証部305は、MLP−NNパラメータ記憶部304からMLP−NNパラメータを読み出す。
最後に、ステップI06において、MLP−NN検証部305は、抽出された特徴ベクトルの両方と、MLP−NNパラメータ記憶部304に記憶されたMLP−NNパラメータと、を取得する。MLP−NN検証部305は、図14に示すNNモデルを用いることと、式(1)を適用することとによって、検証スコアを計算する。MLP−NN検証部305は、所定のしきい値を比較することによって、算出結果が「対象」を示すか又は「非対象」を示すかを決定する。「対象」は、登録データとテストデータとが同じ個人からのものであることを意味し、「非対象」は、それらが異なる個人からのものであることを意味する。
(第3の実施形態の効果)
上述のように、第3の実施形態は、トレーニングにおいて必要な、対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証NNの頑強性を向上できる。第3の実施形態は、MLPと検証NNとのパラメータが同時に推定されるという、第2の実施形態に対する利点もある。これは、それらが、第2の実施形態のものもよりも、グローバルに最適である可能性が高いことを意味する。
3つの実施形態の全てで、検証プロセス(2クラス分類)を、一般的な識別(Nクラス識別)に置き換えることができる。
<第4の実施形態>
第4の実施形態のパターン認識装置を、図18に示す。ニューラルネットワーク(NN)に基づくパターン認識装置500は、少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、第1の特徴ベクトルはサブセットの各々から抽出され、ドメインベクトルはサブセットの各々に対応する識別子を示す、NNトレーニング部501と、対象ドメインベクトルとNNパラメータとに基づいて、特定のドメインにおける1対の第2の特徴ベクトルを、その1対が同じ個人を示すか否かを出力するために検証するNN検証部502と、を含む。
パターン認識装置500は、任意の種類のドメイン可変性に対する分類の頑強性を提供できる。その理由は、全てのクラスのドメインベクトルが、対象ドメインからのラベル付きデータの補償として使用されるからである。様々なドメインの既存のデータを使用することによって、パターン認識装置500は、検証フェーズにおいて使用されるように、対象ドメインベクトルを予測できる。
<情報処理装置の構成>
図19は、本発明の実施形態と関係があるパターン認識装置を実施できる情報処理装置900(コンピュータ)の構成を、例として表す図である。言い換えると、図19は、上述の実施形態における個々の機能を実施できるハードウェア環境を表す、図1、8及び13の装置を実施できるコンピュータ(情報処理装置)の構成を表す図である。
図19に示す情報処理装置900は、以下のコンポーネントを含む。
CPU901(Central Processing Unit);
ROM902(Read Only Memory);
RAM903(Random Access Memory);
ハードディスク904(記憶デバイス);
外部デバイスへの通信インタフェース905;
CD−ROM(Compact Disc Read Only Memory)などの記憶媒体907に格納されたデータの読み出し/書き込みが可能なリーダ/ライタ908;及び
入出力インタフェース909。
情報処理装置900は、これらのコンポーネントがバス906(通信線)を介して接続されている汎用のコンピュータである。
例としての上記実施形態を用いて説明した本発明は、図19に示すコンピュータに、実施形態の説明で参照されたブロック図(図1、8及び13)又はフローチャート(図5〜7、図10−12及び図15〜17)において描かれている機能を実施できるプログラムを供給することと、そして、次に、そのようなハードウェアの中のCPU901にそのコンピュータプログラムを読み込み、それを解釈し、そしてそれを実行することと、によって成し遂げられる。装置に供給されるコンピュータプログラムは、読み書き可能な揮発性記憶メモリ(RAM903)、又は、例えばハードディスク904などの不揮発性記憶デバイスに格納されていてよい。
加えて、上述の場合において、一般的な手順が、コンピュータプログラムをそのようなハードウェアに供給するために使用できる。これらの手順は、例えば、例えばCD−ROMなどの様々な記憶媒体907のいずれかを介して、コンピュータプログラムを装置にインストールすること、又は、例えばインターネットなどの通信線を介して、外部ソースからそれをダウンロードすることを含む。これらの場合、本発明を、そのようなコンピュータプログラムを形成するコードからなるもの、又は、コードを記憶する記憶媒体907からなるものと考えることができる。
最後のポイントとして、ここに説明し図示したプロセス、記述及び方法は、特定の装置に限定されず、また、特定の装置に関連付けられないことは明らかとすべきである。これらのプロセス、技術及び方法は、構成要素の組み合わせを用いて実装できる。また、様々な種類の汎用デバイスを、ここに記載の命令に従って使用できる。本発明は、また、特定の組み合わせの例を用いて説明されている。しかし、これらは、単に例示的に過ぎず、限定的ではない。例えば、記述されたソフトウェアは、例えばC/C++、Java、MATLAB及びPythonなどの、幅広い言語によって実装され得る。さらに、本発明の技術の他の実装は、当業者には明らかであろう。
<付記>
上に開示した実施形態の全部又は一部は、以下の付記として記述として記述できるが、これらに限定されない。
(付記1)
NN(Neural Network)に基づくパターン認識装置であって、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、NNトレーニング手段と、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証するNN検証手段と、
を備えるパターン認識装置。
(付記2)
前記NN検証手段は、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記1に記載のパターン認識装置。
(付記3)
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する平均抽出手段
をさらに備える付記1に記載のパターン認識装置。
(付記4)
前記第1の特徴ベクトルに基づいて、MLP(Multi−Layer Perceptron)を、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングするMLPトレーニング手段
をさらに備える付記1に記載のパターン認識装置。
(付記5)
前記NNトレーニング手段は、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
前記NN検証手段は、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
付記1に記載のパターン認識装置。
(付記6)
NN(Neural Network)を用いるパターン認識方法であって、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
パターン認識方法。
(付記7)
前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記6に記載のパターン認識方法。
(付記8)
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
付記6に記載のパターン認識方法。
(付記9)
前記第1の特徴ベクトルに基づいて、MLPを、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングする
付記6に記載のパターン認識方法。
(付記10)
前記NNのトレーニングにおいて、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
前記NNの検証において、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
付記6に記載のパターン認識方法。
(付記11)
NN(Neural Network)を用いたパターン認識プログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
記憶媒体。
(付記12)
前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記11に記載の記憶媒体。
(付記13)
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
付記11に記載の記憶媒体。
(付記14)
前記第1の特徴ベクトルに基づいて、MLP(Multi−Layer Perceptron)を、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングする
付記11に記載の記憶媒体。
(付記15)
前記NNのトレーニングにおいて、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
前記NNの検証において、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
付記11に記載の記憶媒体。
100 パターン認識装置
101_1・・・101n OODデータ記憶部
102 INDデータ記憶部
103a、103b、103c、103d 特徴抽出部
104a、104b 平均抽出部
105 OODドメインベクトル記憶部
106 INDドメインベクトル記憶部
107 NNトレーニング部
108 NNパラメータ記憶部
109 NN検証部
200 パラメータ認識装置
201_1・・・101n OODデータ記憶部
202 OODデータ記憶部
203a、203b、203c、203d 特徴抽出部
204 MLPトレーニング部
205a、205b ドメインベクトル抽出部
206 MLPパラメータ記憶部
207 ドメインベクトル記憶部
208 NNトレーニング部
209 NNパラメータ記憶部
210 NN検証部
300 パターン認識装置
301_1・・・301n OODデータ記憶部
302a、302b、302c 特徴抽出部
303 統合トレーニング部
304 MLP−NNパラメータ記憶部
305 MLP−NN検証部
401 DB
402 特徴抽出部
403 NNトレーニング部
404 NNパラメータ記憶部
405 NN検証部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク
905 通信インタフェース
906 バス
907 記憶媒体
908 リーダ/ライタ
909 入出力インタフェース

Claims (10)

  1. NN(Neural Network)に基づくパターン認識装置であって、
    少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、NNトレーニング手段と、
    対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証するNN検証手段と、
    を備えるパターン認識装置。
  2. 前記NN検証手段は、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
    請求項1に記載のパターン認識装置。
  3. 前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する平均抽出手段
    をさらに備える請求項1又は2に記載のパターン認識装置。
  4. 前記第1の特徴ベクトルに基づいて、MLP(Multi−Layer Perceptron)を、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングするMLPトレーニング手段
    をさらに備える請求項1乃至3のいずれか1項に記載のパターン認識装置。
  5. 前記NNトレーニング手段は、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
    前記NN検証手段は、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
    請求項1乃至3のいずれか1項に記載のパターン認識装置。
  6. NN(Neural Network)を用いるパターン認識方法であって、
    少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
    対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
    パターン認識方法。
  7. 前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
    請求項6に記載のパターン認識方法。
  8. 前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
    請求項6又は7に記載のパターン認識方法。
  9. 前記第1の特徴ベクトルに基づいて、MLPを、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングする
    請求項6乃至8のいずれか1項に記載のパターン認識方法。
  10. コンピュータにパターンを認識させるための、NN(Neural Network)を用いたパターン認識プログラムであって、
    少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
    対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
    処理をコンピュータに実行させるパターン認識プログラム
JP2020535336A 2017-09-15 2017-09-15 パターン認識装置、パターン認識方法、及びパターン認識プログラム Active JP6904483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021104706A JP2021165845A (ja) 2017-09-15 2021-06-24 情報処理装置、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/033583 WO2019053898A1 (en) 2017-09-15 2017-09-15 PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021104706A Division JP2021165845A (ja) 2017-09-15 2021-06-24 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020533723A JP2020533723A (ja) 2020-11-19
JP6904483B2 true JP6904483B2 (ja) 2021-07-14

Family

ID=65722581

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020535336A Active JP6904483B2 (ja) 2017-09-15 2017-09-15 パターン認識装置、パターン認識方法、及びパターン認識プログラム
JP2021104706A Pending JP2021165845A (ja) 2017-09-15 2021-06-24 情報処理装置、情報処理方法、及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021104706A Pending JP2021165845A (ja) 2017-09-15 2021-06-24 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US11817103B2 (ja)
JP (2) JP6904483B2 (ja)
WO (1) WO2019053898A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11817103B2 (en) 2017-09-15 2023-11-14 Nec Corporation Pattern recognition apparatus, pattern recognition method, and storage medium
CN109584884B (zh) * 2017-09-29 2022-09-13 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
JP6988756B2 (ja) * 2018-09-26 2022-01-05 日本電信電話株式会社 タグ推定装置、タグ推定方法、プログラム
CN110148417B (zh) * 2019-05-24 2021-03-23 哈尔滨工业大学 基于总变化空间与分类器联合优化的说话人身份识别方法
US20230033103A1 (en) * 2019-11-18 2023-02-02 Google Llc Automated mining of real-world audio training data
CN112766080B (zh) * 2020-12-31 2024-09-06 北京搜狗科技发展有限公司 一种手写识别方法、装置、电子设备及介质
CN113077434B (zh) * 2021-03-30 2023-01-24 零氪智慧医疗科技(天津)有限公司 基于多模态信息的肺癌识别方法、装置及存储介质
CN113705322B (zh) * 2021-06-11 2024-05-24 北京易达图灵科技有限公司 基于门限图神经网络的手写汉字识别方法和装置
CN115171654B (zh) * 2022-06-24 2024-07-19 中国电子科技集团公司第二十九研究所 一种改进的基于总变化量因子的语种识别方法及系统
CN116612767B (zh) * 2023-07-17 2023-10-13 国网山东省电力公司菏泽供电公司 基于嵌入增强的超短时说话人确认方法、设备及介质

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100406307B1 (ko) 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
US20160293167A1 (en) * 2013-10-10 2016-10-06 Google Inc. Speaker recognition using neural networks
US9401148B2 (en) * 2013-11-04 2016-07-26 Google Inc. Speaker verification using neural networks
JP6062879B2 (ja) 2014-03-14 2017-01-18 日本電信電話株式会社 モデル学習装置、方法及びプログラム
US9401143B2 (en) * 2014-03-24 2016-07-26 Google Inc. Cluster specific speech model
US9542948B2 (en) * 2014-04-09 2017-01-10 Google Inc. Text-dependent speaker identification
JP6464650B2 (ja) 2014-10-03 2019-02-06 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム
WO2016134183A1 (en) * 2015-02-19 2016-08-25 Digital Reasoning Systems, Inc. Systems and methods for neural language modeling
US10235994B2 (en) * 2016-03-04 2019-03-19 Microsoft Technology Licensing, Llc Modular deep learning model
US10373612B2 (en) * 2016-03-21 2019-08-06 Amazon Technologies, Inc. Anchored speech detection and speech recognition
US20180018973A1 (en) 2016-07-15 2018-01-18 Google Inc. Speaker verification
US20180137109A1 (en) * 2016-11-11 2018-05-17 The Charles Stark Draper Laboratory, Inc. Methodology for automatic multilingual speech recognition
WO2018106971A1 (en) * 2016-12-07 2018-06-14 Interactive Intelligence Group, Inc. System and method for neural network based speaker classification
US11817103B2 (en) 2017-09-15 2023-11-14 Nec Corporation Pattern recognition apparatus, pattern recognition method, and storage medium

Also Published As

Publication number Publication date
US20200211567A1 (en) 2020-07-02
JP2020533723A (ja) 2020-11-19
JP2021165845A (ja) 2021-10-14
WO2019053898A1 (en) 2019-03-21
US11817103B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
JP6904483B2 (ja) パターン認識装置、パターン認識方法、及びパターン認識プログラム
Lozano-Diez et al. An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition
JP6897879B2 (ja) 音声特徴補償装置、方法およびプログラム
JP7367862B2 (ja) ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム
CN112861945B (zh) 一种多模态融合谎言检测方法
CN117337467A (zh) 经由迭代说话者嵌入的端到端说话者分离
Kim et al. Speaker-adaptive lip reading with user-dependent padding
JP7332024B2 (ja) 認識装置、学習装置、それらの方法、およびプログラム
CN113326868B (zh) 一种用于多模态情感分类的决策层融合方法
Ismaiel et al. Deep Learning, Ensemble and Supervised Machine Learning for Arabic Speech Emotion Recognition
CN116935889A (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
JP6220733B2 (ja) 音声分類装置、音声分類方法、プログラム
Jethanandani et al. Adversarial attacks against LipNet: End-to-end sentence level lipreading
US20230229803A1 (en) Sanitizing personally identifiable information (pii) in audio and visual data
CN113111855B (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
Mohammadi et al. Weighted X-vectors for robust text-independent speaker verification with multiple enrollment utterances
KR20210099445A (ko) 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법
Addarrazi et al. A follow-up survey of audiovisual speech integration strategies
Islam et al. BPN Based Likelihood Ratio Score Fusion for Audio‐Visual Speaker Identification in Response to Noise
Oruh et al. Deep learning with optimization techniques for the classification of spoken English digit
Sad et al. Class confusability reduction in audio-visual speech recognition using random forests
CN115982395B (zh) 一种基于量子的媒体信息的情感预测方法、介质及设备
Onasoga et al. Audio classification-feature dimensional analysis
Thakur et al. Audio and text-based emotion recognition system using deep learning
KR102321420B1 (ko) 음향 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200311

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210525

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210607

R150 Certificate of patent or registration of utility model

Ref document number: 6904483

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150