JP6904483B2 - パターン認識装置、パターン認識方法、及びパターン認識プログラム - Google Patents
パターン認識装置、パターン認識方法、及びパターン認識プログラム Download PDFInfo
- Publication number
- JP6904483B2 JP6904483B2 JP2020535336A JP2020535336A JP6904483B2 JP 6904483 B2 JP6904483 B2 JP 6904483B2 JP 2020535336 A JP2020535336 A JP 2020535336A JP 2020535336 A JP2020535336 A JP 2020535336A JP 6904483 B2 JP6904483 B2 JP 6904483B2
- Authority
- JP
- Japan
- Prior art keywords
- domain
- vector
- pattern recognition
- mlp
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003909 pattern recognition Methods 0.000 title claims description 72
- 238000012567 pattern recognition method Methods 0.000 title claims description 14
- 239000013598 vector Substances 0.000 claims description 303
- 238000013528 artificial neural network Methods 0.000 claims description 219
- 238000012549 training Methods 0.000 claims description 120
- 238000000605 extraction Methods 0.000 claims description 106
- 238000012795 verification Methods 0.000 claims description 81
- 238000000034 method Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 4
- 238000013500 data storage Methods 0.000 description 61
- 239000000284 extract Substances 0.000 description 42
- 238000011156 evaluation Methods 0.000 description 34
- 238000012360 testing method Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 230000004913 activation Effects 0.000 description 10
- 238000010200 validation analysis Methods 0.000 description 10
- 238000005457 optimization Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Description
第1の実施形態のパターン認識装置は、NNにおけるドメインラベルの要求及び予測されたドメインベクトルがなくても、対象ドメインを含む様々なドメインの既存のデータを用いて、任意の種類のドメインの可変性に対する分類の頑強性を提供できる。これは、ドメインの可変性が、同じドメインの特徴の主要な傾向において見られることが多い、特徴空間におけるシフトに帰着する前提に基づく。したがって、この実施形態において、「平均(アベレージ)」がドメインの可変性の単純で直接的な表現として使用される。
本発明の第1の実施形態における、NN内のドメインベクトルとして平均特徴ベクトルを使用するパターン認識装置について説明する。
次に、パターン認識装置100の動作について図面を参照しながら説明する。
上述のように、第1の実施形態は、検証NNの頑強性を向上できる。その理由は、以下の通りである。NNトレーニング部107は、少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングする。第1の特徴ベクトルは、サブセットの各々から抽出され、ドメインベクトルは、サブセットの各々に対応する識別子を示す。NN検証部109は、対象ドメインベクトルとNNパラメータとに基づいて、特定のドメイン内の1対の第2の特徴ベクトルを、その1対が同じ個人を示すか否かを出力するために、検証する。
第1の実施形態では、パターン認識装置100は、検証NNの頑強性を向上できる。しかし、ドメインラベルが不要であるが、ドメインベクトル(平均ベクトル)が抽出される対象ドメイン(INDデータ)において、一定量のデータが必要である。したがって、それは対象ドメインデータが利用可能な場合にのみ適用できる。
本発明の第2の実施形態において、パターン認識装置は、NNにおいてMLPによって抽出されるボトルネック特徴ベクトルを用いて、対象ドメインを予測する。ボトルネック特徴は、他の層よりも少数のノードの構成のNN隠れ層によって生成される。ボトルネックの構造は、通常の特徴と、音素の本質的な特徴を表すボトルネック特徴とを抽出できる。したがって、この実施形態では、MLPから抽出されたボトルネック特徴は、対象ドメイン特徴として取り扱われる。
次に、パターン認識装置200の動作について図面を参照しながら説明する。
上述のように、第2の実施形態は、トレーニングにおいて必要な対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証NNの頑強性を向上できる。第2の実施形態は、実際の適用可能性がより高く、特に、INDデータの収集が極端に困難な場合に有用である。その理由は、以下の通りである。ニューラルネットワークMLPは、トレーニングされる。ニューラルネットワークMLPは、1つ又は複数の特徴ベクトルからドメインベクトルを抽出できる。ドメインベクトルは、検証トレーニングにおいて加えられる。そのため、ドメインは分類において考慮され、そして、結果は、よりロバストである。
<第3の実施形態>
本発明の第3の実施形態において、ドメインベクトル抽出MLPと検証NNとを同時にトレーニングするパターン認識装置について説明する。この実施形態のパターン認識装置は、第1及び第2の実施形態と比較して、トレーニングのために、話者ラベルとドメインラベルとの両方を備えた大量のOODデータを必要とする。
次に、パターン認識装置300の動作について図面を参照しながら説明する。
上述のように、第3の実施形態は、トレーニングにおいて必要な、対象ドメインのデータが全くなくても、任意の種類のドメイン可変性に対する検証NNの頑強性を向上できる。第3の実施形態は、MLPと検証NNとのパラメータが同時に推定されるという、第2の実施形態に対する利点もある。これは、それらが、第2の実施形態のものもよりも、グローバルに最適である可能性が高いことを意味する。
第4の実施形態のパターン認識装置を、図18に示す。ニューラルネットワーク(NN)に基づくパターン認識装置500は、少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、第1の特徴ベクトルはサブセットの各々から抽出され、ドメインベクトルはサブセットの各々に対応する識別子を示す、NNトレーニング部501と、対象ドメインベクトルとNNパラメータとに基づいて、特定のドメインにおける1対の第2の特徴ベクトルを、その1対が同じ個人を示すか否かを出力するために検証するNN検証部502と、を含む。
図19は、本発明の実施形態と関係があるパターン認識装置を実施できる情報処理装置900(コンピュータ)の構成を、例として表す図である。言い換えると、図19は、上述の実施形態における個々の機能を実施できるハードウェア環境を表す、図1、8及び13の装置を実施できるコンピュータ(情報処理装置)の構成を表す図である。
CPU901(Central Processing Unit);
ROM902(Read Only Memory);
RAM903(Random Access Memory);
ハードディスク904(記憶デバイス);
外部デバイスへの通信インタフェース905;
CD−ROM(Compact Disc Read Only Memory)などの記憶媒体907に格納されたデータの読み出し/書き込みが可能なリーダ/ライタ908;及び
入出力インタフェース909。
上に開示した実施形態の全部又は一部は、以下の付記として記述として記述できるが、これらに限定されない。
(付記1)
NN(Neural Network)に基づくパターン認識装置であって、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、NNトレーニング手段と、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証するNN検証手段と、
を備えるパターン認識装置。
(付記2)
前記NN検証手段は、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記1に記載のパターン認識装置。
(付記3)
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する平均抽出手段
をさらに備える付記1に記載のパターン認識装置。
(付記4)
前記第1の特徴ベクトルに基づいて、MLP(Multi−Layer Perceptron)を、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングするMLPトレーニング手段
をさらに備える付記1に記載のパターン認識装置。
(付記5)
前記NNトレーニング手段は、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
前記NN検証手段は、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
付記1に記載のパターン認識装置。
(付記6)
NN(Neural Network)を用いるパターン認識方法であって、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
パターン認識方法。
(付記7)
前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記6に記載のパターン認識方法。
(付記8)
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
付記6に記載のパターン認識方法。
(付記9)
前記第1の特徴ベクトルに基づいて、MLPを、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングする
付記6に記載のパターン認識方法。
(付記10)
前記NNのトレーニングにおいて、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
前記NNの検証において、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
付記6に記載のパターン認識方法。
(付記11)
NN(Neural Network)を用いたパターン認識プログラムを記憶するコンピュータ読み取り可能な記憶媒体であって、前記プログラムは、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
記憶媒体。
(付記12)
前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
付記11に記載の記憶媒体。
(付記13)
前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
付記11に記載の記憶媒体。
(付記14)
前記第1の特徴ベクトルに基づいて、MLP(Multi−Layer Perceptron)を、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングする
付記11に記載の記憶媒体。
(付記15)
前記NNのトレーニングにおいて、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
前記NNの検証において、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
付記11に記載の記憶媒体。
101_1・・・101n OODデータ記憶部
102 INDデータ記憶部
103a、103b、103c、103d 特徴抽出部
104a、104b 平均抽出部
105 OODドメインベクトル記憶部
106 INDドメインベクトル記憶部
107 NNトレーニング部
108 NNパラメータ記憶部
109 NN検証部
200 パラメータ認識装置
201_1・・・101n OODデータ記憶部
202 OODデータ記憶部
203a、203b、203c、203d 特徴抽出部
204 MLPトレーニング部
205a、205b ドメインベクトル抽出部
206 MLPパラメータ記憶部
207 ドメインベクトル記憶部
208 NNトレーニング部
209 NNパラメータ記憶部
210 NN検証部
300 パターン認識装置
301_1・・・301n OODデータ記憶部
302a、302b、302c 特徴抽出部
303 統合トレーニング部
304 MLP−NNパラメータ記憶部
305 MLP−NN検証部
401 DB
402 特徴抽出部
403 NNトレーニング部
404 NNパラメータ記憶部
405 NN検証部
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク
905 通信インタフェース
906 バス
907 記憶媒体
908 リーダ/ライタ
909 入出力インタフェース
Claims (10)
- NN(Neural Network)に基づくパターン認識装置であって、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示す、NNトレーニング手段と、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証するNN検証手段と、
を備えるパターン認識装置。 - 前記NN検証手段は、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
請求項1に記載のパターン認識装置。 - 前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する平均抽出手段
をさらに備える請求項1又は2に記載のパターン認識装置。 - 前記第1の特徴ベクトルに基づいて、MLP(Multi−Layer Perceptron)を、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングするMLPトレーニング手段
をさらに備える請求項1乃至3のいずれか1項に記載のパターン認識装置。 - 前記NNトレーニング手段は、複数の前記第1の特徴ベクトルに基づいて、MLP−NNパラメータを生成するように、前記NNモデルトレーニングと共にMLPをさらにトレーニングし、
前記NN検証手段は、前記MLP−NNパラメータに基づいて、前記1対の第2の特徴ベクトルを検証する、
請求項1乃至3のいずれか1項に記載のパターン認識装置。 - NN(Neural Network)を用いるパターン認識方法であって、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
パターン認識方法。 - 前記検証において、前記特定のドメインにおける特定のサブセットを、前記対象ドメインベクトルとして使用する
請求項6に記載のパターン認識方法。 - 前記ドメインベクトルとして、前記サブセットの各々に対応する平均を計算する
請求項6又は7に記載のパターン認識方法。 - 前記第1の特徴ベクトルに基づいて、MLPを、前記サブセットに対応する前記ドメインベクトルを抽出するためにMLPパラメータを生成するようにトレーニングする
請求項6乃至8のいずれか1項に記載のパターン認識方法。 - コンピュータにパターンを認識させるための、NN(Neural Network)を用いたパターン認識プログラムであって、
少なくとも1つの第1の特徴ベクトルと、特定のドメインにおけるサブセットの1つを示す少なくとも1つのドメインベクトルと、に基づいて、NNパラメータを生成するようにNNモデルをトレーニングし、前記第1の特徴ベクトルは前記サブセットの各々から抽出され、前記ドメインベクトルは前記サブセットの各々に対応する識別子を示し、
対象ドメインベクトルと前記NNパラメータとに基づいて、前記特定のドメインにおける1対の第2の特徴ベクトルを、前記1対が同じ個人を示すか否かを出力するために検証する、
処理をコンピュータに実行させるパターン認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021104706A JP2021165845A (ja) | 2017-09-15 | 2021-06-24 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/033583 WO2019053898A1 (en) | 2017-09-15 | 2017-09-15 | PATTERN RECOGNITION APPARATUS, PATTERN RECOGNITION METHOD, AND STORAGE MEDIUM |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021104706A Division JP2021165845A (ja) | 2017-09-15 | 2021-06-24 | 情報処理装置、情報処理方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020533723A JP2020533723A (ja) | 2020-11-19 |
JP6904483B2 true JP6904483B2 (ja) | 2021-07-14 |
Family
ID=65722581
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020535336A Active JP6904483B2 (ja) | 2017-09-15 | 2017-09-15 | パターン認識装置、パターン認識方法、及びパターン認識プログラム |
JP2021104706A Pending JP2021165845A (ja) | 2017-09-15 | 2021-06-24 | 情報処理装置、情報処理方法、及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021104706A Pending JP2021165845A (ja) | 2017-09-15 | 2021-06-24 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11817103B2 (ja) |
JP (2) | JP6904483B2 (ja) |
WO (1) | WO2019053898A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11817103B2 (en) | 2017-09-15 | 2023-11-14 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and storage medium |
CN109584884B (zh) * | 2017-09-29 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 一种语音身份特征提取器、分类器训练方法及相关设备 |
JP6988756B2 (ja) * | 2018-09-26 | 2022-01-05 | 日本電信電話株式会社 | タグ推定装置、タグ推定方法、プログラム |
CN110148417B (zh) * | 2019-05-24 | 2021-03-23 | 哈尔滨工业大学 | 基于总变化空间与分类器联合优化的说话人身份识别方法 |
US20230033103A1 (en) * | 2019-11-18 | 2023-02-02 | Google Llc | Automated mining of real-world audio training data |
CN112766080B (zh) * | 2020-12-31 | 2024-09-06 | 北京搜狗科技发展有限公司 | 一种手写识别方法、装置、电子设备及介质 |
CN113077434B (zh) * | 2021-03-30 | 2023-01-24 | 零氪智慧医疗科技(天津)有限公司 | 基于多模态信息的肺癌识别方法、装置及存储介质 |
CN113705322B (zh) * | 2021-06-11 | 2024-05-24 | 北京易达图灵科技有限公司 | 基于门限图神经网络的手写汉字识别方法和装置 |
CN115171654B (zh) * | 2022-06-24 | 2024-07-19 | 中国电子科技集团公司第二十九研究所 | 一种改进的基于总变化量因子的语种识别方法及系统 |
CN116612767B (zh) * | 2023-07-17 | 2023-10-13 | 国网山东省电力公司菏泽供电公司 | 基于嵌入增强的超短时说话人确认方法、设备及介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100406307B1 (ko) | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
US20160293167A1 (en) * | 2013-10-10 | 2016-10-06 | Google Inc. | Speaker recognition using neural networks |
US9401148B2 (en) * | 2013-11-04 | 2016-07-26 | Google Inc. | Speaker verification using neural networks |
JP6062879B2 (ja) | 2014-03-14 | 2017-01-18 | 日本電信電話株式会社 | モデル学習装置、方法及びプログラム |
US9401143B2 (en) * | 2014-03-24 | 2016-07-26 | Google Inc. | Cluster specific speech model |
US9542948B2 (en) * | 2014-04-09 | 2017-01-10 | Google Inc. | Text-dependent speaker identification |
JP6464650B2 (ja) | 2014-10-03 | 2019-02-06 | 日本電気株式会社 | 音声処理装置、音声処理方法、およびプログラム |
WO2016134183A1 (en) * | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and methods for neural language modeling |
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
US10373612B2 (en) * | 2016-03-21 | 2019-08-06 | Amazon Technologies, Inc. | Anchored speech detection and speech recognition |
US20180018973A1 (en) | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
US20180137109A1 (en) * | 2016-11-11 | 2018-05-17 | The Charles Stark Draper Laboratory, Inc. | Methodology for automatic multilingual speech recognition |
WO2018106971A1 (en) * | 2016-12-07 | 2018-06-14 | Interactive Intelligence Group, Inc. | System and method for neural network based speaker classification |
US11817103B2 (en) | 2017-09-15 | 2023-11-14 | Nec Corporation | Pattern recognition apparatus, pattern recognition method, and storage medium |
-
2017
- 2017-09-15 US US16/647,099 patent/US11817103B2/en active Active
- 2017-09-15 WO PCT/JP2017/033583 patent/WO2019053898A1/en active Application Filing
- 2017-09-15 JP JP2020535336A patent/JP6904483B2/ja active Active
-
2021
- 2021-06-24 JP JP2021104706A patent/JP2021165845A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
US20200211567A1 (en) | 2020-07-02 |
JP2020533723A (ja) | 2020-11-19 |
JP2021165845A (ja) | 2021-10-14 |
WO2019053898A1 (en) | 2019-03-21 |
US11817103B2 (en) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6904483B2 (ja) | パターン認識装置、パターン認識方法、及びパターン認識プログラム | |
Lozano-Diez et al. | An analysis of the influence of deep neural network (DNN) topology in bottleneck feature based language recognition | |
JP6897879B2 (ja) | 音声特徴補償装置、方法およびプログラム | |
JP7367862B2 (ja) | ニューラルネットワークベース信号処理装置、ニューラルネットワークベース信号処理方法、及びプログラム | |
CN112861945B (zh) | 一种多模态融合谎言检测方法 | |
CN117337467A (zh) | 经由迭代说话者嵌入的端到端说话者分离 | |
Kim et al. | Speaker-adaptive lip reading with user-dependent padding | |
JP7332024B2 (ja) | 認識装置、学習装置、それらの方法、およびプログラム | |
CN113326868B (zh) | 一种用于多模态情感分类的决策层融合方法 | |
Ismaiel et al. | Deep Learning, Ensemble and Supervised Machine Learning for Arabic Speech Emotion Recognition | |
CN116935889A (zh) | 一种音频类别的确定方法、装置、电子设备及存储介质 | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
Jethanandani et al. | Adversarial attacks against LipNet: End-to-end sentence level lipreading | |
US20230229803A1 (en) | Sanitizing personally identifiable information (pii) in audio and visual data | |
CN113111855B (zh) | 一种多模态情感识别方法、装置、电子设备及存储介质 | |
Mohammadi et al. | Weighted X-vectors for robust text-independent speaker verification with multiple enrollment utterances | |
KR20210099445A (ko) | 색상 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법 | |
Addarrazi et al. | A follow-up survey of audiovisual speech integration strategies | |
Islam et al. | BPN Based Likelihood Ratio Score Fusion for Audio‐Visual Speaker Identification in Response to Noise | |
Oruh et al. | Deep learning with optimization techniques for the classification of spoken English digit | |
Sad et al. | Class confusability reduction in audio-visual speech recognition using random forests | |
CN115982395B (zh) | 一种基于量子的媒体信息的情感预测方法、介质及设备 | |
Onasoga et al. | Audio classification-feature dimensional analysis | |
Thakur et al. | Audio and text-based emotion recognition system using deep learning | |
KR102321420B1 (ko) | 음향 속성을 이용한 동영상의 감성 인식 시스템 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200311 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200311 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210525 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6904483 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |