JP7124427B2 - マルチビューベクトルの処理方法及び装置 - Google Patents
マルチビューベクトルの処理方法及び装置 Download PDFInfo
- Publication number
- JP7124427B2 JP7124427B2 JP2018089844A JP2018089844A JP7124427B2 JP 7124427 B2 JP7124427 B2 JP 7124427B2 JP 2018089844 A JP2018089844 A JP 2018089844A JP 2018089844 A JP2018089844 A JP 2018089844A JP 7124427 B2 JP7124427 B2 JP 7124427B2
- Authority
- JP
- Japan
- Prior art keywords
- view
- vector
- views
- components
- vectors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims description 157
- 238000003672 processing method Methods 0.000 title description 9
- 238000000034 method Methods 0.000 claims description 92
- 238000012549 training Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- -1 e.g. Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
前記マルチビューベクトルのモデルを形成し、該モデルに、少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値、前記マルチビューベクトルの各ビューの成分、及びノイズを含ませるモデル化ステップ;及び
前記マルチビューベクトルのトレーニングデータを用いて、前記全体平均値、各ビューの成分のパラメータ、及び前記ノイズのパラメータを得るトレーニングステップを含む。
1.マルチビューベクトルのモデル化
2.マルチビューベクトルのモデルの応用
3.マルチビューベクトルの抽出
4.マルチビューベクトルの処理装置
5.本発明の装置及び方法を実現するための計算装置
という順序で説明を行う。
背景技術の部分に述べたように、直觀的且つ分離可能な特徴についてそれぞれモデル化し、その後、簡単に重ね合わせれば良い。しかし、抽出及び利用する必要がある特徴を分離することができない場合がある。このような場合、従来技術では、往々して、抽出及び利用する必要がある特徴に関連する特徴のみに基づいてモデル化を行う。例えば、語音認識の場合、認識された内容をトレーニングターゲットとして各種の特徴を抽出し、大量のトレーニングを行うことしかできず、異なる人からの影響を除去することができないため、語音認識製品(アプリケーション)は、異なる人が使用する時に、適応するために、長期間でのトレーニングを行う必要がある。その原因は、語音の内容及び人間の発声器官を分割することができないことにある。例えば、語音の内容を認識する場合、語音があれば、それは、必ず特定の人からのものであり、必ずその人に依存し、独立して存在することができない。また、身分認識を行う場合、声紋も必ず具体的な語音から抽出されたものである。
(外1)
を含むようにさせるモデル化ステップ;及び、前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外2)
のパラメータを得るトレーニングステップを含む。該実施方式により、即ち、マルチビューベクトルxについて次のようなモデルを形成し、また、トレーニングを行うことでモデルのパラメータを得ることにより、該マルチビューベクトルx中の各成分の影響を得ることができる。
(外3)
は、ノイズ信号(それは、対角行列Σを共分散とするガウス分布を満足する)を表す。kは、前記選択の場合の第k種類のサンプルを表す。θ={μ,S,T,Σ}とし、マルチビューベクトルのモデル中のすべてのパラメータを含み、また、以下の説明を簡略化するために、B=[S T]とする。さらに、モデル中のパラメータが次のような分布、即ち、
である。
本発明の実施例によるマルチビューベクトルのモデル化は、任意の情報を表すベクトル、例えば、画像や音声を表すベクトルに適用することができる。そのうち、音声(語音)を表すマルチビューベクトルは、声紋と称することができる。声紋の確認は、既に、多くの分野、例えば、スマートユーザインターフェース、国土安全、テレホンバンキングなどに幅広く応用されている。本発明の実施例によるマルチビュー声紋のモデル化方法に基づいて、さらに声紋の認識方法が提案され、即ち、2つのマルチビュー声紋が同一の人物及び同一種類のテキストに属する、又は属しない尤度(likelihood)を計算し、その後、該尤度を用いて、更なる決定(判断)を行う。
(外4)
のパラメータを用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである、及び異なる尤度を計算し、そして、該尤度に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断することができる。例えば、スピーカーが同じであるかを判断することができ、即ち、身分認識のために用いられても良く;話した内容(語音の内容)が同じであるかを判断することができ、即ち、語音認識又はパスワード確認のために用いられても良い。また、より正確な声紋認識を行うために用いられても良く、例えば、正確な人が正確な内容を話すことを要する場合に用いられても良い。
前記マルチビューベクトルは、表したい対象に対して直接ベクトル化することにより得ることができる。例(もちろん、この例に限定されない)として、例えば、次のような方法を用いて、收集された語音データに対して処理を行うことで、マルチビューベクトルの例の1つ、即ち、声紋を得ることができる。声紋の抽出は、例えば、前述のメル周波数ケプストラム係数(MFCCs)を抽出する方法を採用しても良い。もちろん、当業者が理解すべきは、語音データに対しての処理は、この分野における他の従来の方法を採用しても良いということである。
以上に述べた方法は、コンピュータ実行可能なプログラムにより完全に実現することができ、或いは、部分的に又は完全にハードウェア及び/又はファームウェアにより実現することができる。また、ハードウェア及び/又はファームウェアにより実現する時に、或いは、コンピュータ実行可能なプログラムをプログラム実行可能なハードウェア装置にインストールする時に、以下に述べるマルチビューベクトルの処理装置を実現することができる。以下、上述した細部を省略した上でこのような装置の概略を説明する。なお、このような装置は、上述した方法を実行することができるが、前記方法は、必ずしもこのような装置により実行される必要がない。
(外5)
を含み、該トレーニング装置は、前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外6)
のパラメータを取得する。
(外7)
のパラメータを用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである及び異なる尤度を計算し、判断装置は、該尤度に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断する。
上述の装置中の各構成モジュールやユニット(構成要素)は、ソフトウェア、ファームウェア、ハードウェア又はその組み合わせにより構成されても良い。なお、構成時に使用し得る具体的な手段や方式は、当業者にとって周知であるため、ここでは省略される。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構造を持つコンピュータ(例えば、図7に示すような汎用コンピュータ700)に、該ソフトウェアを構成するプログラムをインストールすることができ、また、該コンピュータは、各種のプログラムがインストールされている時に、各種の機能を実現することができる。
マルチビューベクトルの処理方法であって、
前記マルチビューベクトルxは、少なくとも2つの分離不可能なビューの情報を含む対象を表すために用いられ、前記方法は、
前記マルチビューベクトルのモデルを形成し、それに、少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
(外8)
を含ませるモデル化ステップ;及び
前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外9)
のパラメータを得るトレーニングステップを含む、方法。
付記1に記載の方法であって、
前記全体平均値μを0と設定する、方法。
付記1に記載の方法であって、
各ビューの成分は、対応するビューの空間の基底Siと、該ビューの特定選択の係数uiとの積によるものであり、iは、ビューの順番号である、方法。
付記3に記載の方法であって、
前記ノイズを、対角行列Σを共分散するガウス分布を満足するように設定する、方法。
付記4に記載の方法であって、
前記トレーニングステップは、
期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底Sn、及び前記Σを得ることを含む、方法。
付記5に記載の方法であって、
前記期待値最大化法では、μ、Sn、及びΣに基づいて、各ビューの成分についての特定選択、xのすべてのサンプルの平均値の期待値、及び各ビューの成分についての特定選択の、共分散に関する期待値を計算し、収束するまで、前記期待値に基づいて、μ、Sn、及びΣを再び計算する、方法。
付記7に記載の方法であって、
前記マルチビューベクトルxijkは、第i個目のスピーカーの、第j種類のテキストについての第k個目のサンプルの声紋を表し、uiは、第i個目のスピーカーの係数であり、vjは、第j種類のテキストの係数である、方法。
付記1~9のうちの任意の1つに記載の方法であって、さらに、
前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外10)
のパラメータを用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである及び異なる尤度を計算し、該尤度に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断することを含む、方法。
付記10に記載の方法であって、さらに、
前記尤度を用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである及び異なる確率を計算し、該確率に基いいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断することを含む、方法。
付記10に記載の方法であって、
2つのマルチビューベクトル中のすべてのビューの成分がすべて同じであるかを判断するために用いられる、方法。
付記8に記載の方法であって、さらに、
確定されたマルチビューベクトルのモデルのパラメータを用いて、2つのマルチビューベクトルの2つのビューの成分がすべて同じである及びすべて同じでない尤度を計算し、該尤度に基づいて、2つのマルチビューベクトルの2つのビューの成分がすべて同じであるかを判断することを含み、
すべてのビューの成分がすべて同じである尤度Aは、
であり、
少なくとも1つのビューの成分が異なる尤度Bは、
であり、
そのうち、xtは、テストベクトルを表し、xsは、ターゲットベクトルを表す、方法。
付記8に記載の方法であって、さらに、
確定されたマルチビューベクトルのモデルのパラメータに基づいて、2つのマルチビューベクトルの2つのビューの成分のうちの1つのビューの成分が同じである及び同じでない尤度を計算し、該尤度に基づいて、2つのマルチビューベクトルの該1つのビューの成分が同じであるかを判断することを含み、
ビューの成分uiが同じである尤度Aは、
であり、
ビューの成分uiが異なる尤度Bは、
であり、
そのうち、xtは、テストベクトルを表し、xsは、ターゲットベクトルを表し、vjの計算は、uiと対称的である、方法。
付記1~9のうちの任意の1つに記載の方法であって、
前記マルチビューベクトルは、表したい対象を直接ベクトル化することにより得られる、方法。
付記1~9のうちの任意の1つに記載の方法であって、
前記マルチビューベクトルは、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより得られる、方法。
付記16に記載の方法であって、
前記分類器は、前記マルチビューベクトルを、表したい対象を直接ベクトル化することで得られた特徴ベクトルから排除することができ、排除されるビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い、方法。
付記16に記載の方法であって、
前記分類器は、次のようなステップによりトレーニングされ、即ち、
トレーニングサンプルの分離不可能な前記複数のビューの特徴を同時に標識し、そのうち、標識されないビューと、標識されるビューとの間の分離可能性は、標識されるビューの間の分離可能性よりも高く;及び
標識されたトレーニングサンプルを用いて前記分類器をトレーニングするステップである、方法。
マルチビューベクトルの処理装置であって、
プロセッサ、及びプログラムを記憶した記憶媒体を含み、
前記プログラムは、プロセッサにより実行される時に、付記1~17のうちの任意の1つに記載の方法を実現する、装置。
プログラムを記憶したコンピュータ可読記憶媒体であって、
前記プログラムは、プロセッサにより実行される時に、付記1~18のうちの任意の1つに記載の方法を実現する、コンピュータ可読記憶媒体。
Claims (8)
- マルチビューベクトルを処理する方法であって、
前記マルチビューベクトルxは、少なくとも2つの分離不可能なビューの情報を含む対象を表すために用いられ、前記方法は、
前記マルチビューベクトルのモデルを形成し、該モデルに、少なくとも、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
(外11)
という成分を含ませるモデル化ステップ;及び
前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外12)
のパラメータを取得するトレーニングステップを含み、
前記マルチビューベクトルは、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより得られ、
前記分類器は、前記マルチビューベクトルを、対象を直接ベクトル化することで得られた特徴ベクトルのうちから排除することができ、排除されるビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い、方法。 - 請求項1に記載の方法であって、
各ビューの成分は、該ビューの空間の基底Siと、該ビューの特定選択の係数uiとの積によるものであり、iは、ビューの順番号である、方法。 - 請求項2に記載の方法であって、
前記ノイズは、対角行列Σを共分散するガウス分布を満足するように設定される、方法。 - 請求項3に記載の方法であって、
前記トレーニングステップは、
期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底Sn、及び前記Σを取得することを含む、方法。 - 請求項6に記載の方法であって、
2つのマルチビューベクトル中のすべてのビューの成分がすべて同じであるかを判断するために用いられる、方法。 - マルチビューベクトルの処理装置であって、
プロセッサと、プログラムを記憶した記憶媒体と、を含み、
前記プログラムは、プロセッサにより実行される時に、請求項1~7のうちの任意の1つに記載の方法を実現する、処理装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710343390.6A CN108875463B (zh) | 2017-05-16 | 2017-05-16 | 多视角向量处理方法和设备 |
CN201710343390.6 | 2017-05-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018194828A JP2018194828A (ja) | 2018-12-06 |
JP7124427B2 true JP7124427B2 (ja) | 2022-08-24 |
Family
ID=62222380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018089844A Active JP7124427B2 (ja) | 2017-05-16 | 2018-05-08 | マルチビューベクトルの処理方法及び装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10796205B2 (ja) |
EP (1) | EP3404584A1 (ja) |
JP (1) | JP7124427B2 (ja) |
CN (1) | CN108875463B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10847177B2 (en) | 2018-10-11 | 2020-11-24 | Cordio Medical Ltd. | Estimating lung volume by speech analysis |
US11011188B2 (en) | 2019-03-12 | 2021-05-18 | Cordio Medical Ltd. | Diagnostic techniques based on speech-sample alignment |
US11024327B2 (en) | 2019-03-12 | 2021-06-01 | Cordio Medical Ltd. | Diagnostic techniques based on speech models |
CN110059465B (zh) * | 2019-04-24 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 身份验证方法、装置及设备 |
US11484211B2 (en) | 2020-03-03 | 2022-11-01 | Cordio Medical Ltd. | Diagnosis of medical conditions using voice recordings and auscultation |
CN111782159B (zh) * | 2020-05-19 | 2023-01-06 | 上汽大众汽车有限公司 | 一种图片分屏同步浏览系统及方法 |
US11417342B2 (en) | 2020-06-29 | 2022-08-16 | Cordio Medical Ltd. | Synthesizing patient-specific speech models |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5130851B2 (ja) * | 2007-09-27 | 2013-01-30 | 富士通株式会社 | モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム |
US9141676B2 (en) * | 2013-12-02 | 2015-09-22 | Rakuten Usa, Inc. | Systems and methods of modeling object networks |
WO2015133830A1 (ko) * | 2014-03-07 | 2015-09-11 | 주식회사 케이티 | 다시점 비디오 신호 처리 방법 및 장치 |
CN104036296B (zh) * | 2014-06-20 | 2017-10-13 | 深圳先进技术研究院 | 一种图像的表示和处理方法及装置 |
CN105868324B (zh) * | 2016-03-28 | 2019-08-27 | 天津大学 | 一种基于隐含状态模型的多视角目标检索方法 |
-
2017
- 2017-05-16 CN CN201710343390.6A patent/CN108875463B/zh active Active
-
2018
- 2018-05-04 US US15/971,549 patent/US10796205B2/en active Active
- 2018-05-04 EP EP18170784.5A patent/EP3404584A1/en not_active Ceased
- 2018-05-08 JP JP2018089844A patent/JP7124427B2/ja active Active
Non-Patent Citations (1)
Title |
---|
Ziqiang Shi et al.,Multi-view Probability Linear Discrimination Analysis for Multi-view Vector Based Text Dependent Speaker Verification,arXiv:1704:06061v1 [cs.LG] 20 Apr 2017,2017年04月20日,pp.1-19,https://arxiv.org/pdf/1704.06061v1.pdf |
Also Published As
Publication number | Publication date |
---|---|
CN108875463A (zh) | 2018-11-23 |
US10796205B2 (en) | 2020-10-06 |
EP3404584A1 (en) | 2018-11-21 |
JP2018194828A (ja) | 2018-12-06 |
CN108875463B (zh) | 2022-08-12 |
US20180336438A1 (en) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7124427B2 (ja) | マルチビューベクトルの処理方法及び装置 | |
JP7023934B2 (ja) | 音声認識方法及び装置 | |
Mannepalli et al. | A novel adaptive fractional deep belief networks for speaker emotion recognition | |
Andrew et al. | Deep canonical correlation analysis | |
CN107564513B (zh) | 语音识别方法及装置 | |
US9368110B1 (en) | Method for distinguishing components of an acoustic signal | |
US8751227B2 (en) | Acoustic model learning device and speech recognition device | |
Khoury et al. | Bi-modal biometric authentication on mobile phones in challenging conditions | |
CN109545227B (zh) | 基于深度自编码网络的说话人性别自动识别方法及系统 | |
Anand et al. | Age estimation based on face images and pre-trained convolutional neural networks | |
US10614343B2 (en) | Pattern recognition apparatus, method, and program using domain adaptation | |
Perero-Codosero et al. | X-vector anonymization using autoencoders and adversarial training for preserving speech privacy | |
Sarvestani et al. | FF-SKPCCA: Kernel probabilistic canonical correlation analysis | |
KR102026226B1 (ko) | 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템 | |
Hong et al. | Transfer learning for PLDA-based speaker verification | |
CN111462762B (zh) | 一种说话人向量正则化方法、装置、电子设备和存储介质 | |
Argones Rua et al. | Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
CN110085236B (zh) | 一种基于自适应语音帧加权的说话人识别方法 | |
JP5881454B2 (ja) | 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム | |
Azam et al. | Speaker verification using adapted bounded Gaussian mixture model | |
Hu et al. | Speaker recognition based on short utterance compensation method of generative adversarial networks | |
KR20180127890A (ko) | 사용자 적응적인 음성 인식 방법 및 장치 | |
CN110188338B (zh) | 文本相关的说话人确认方法和设备 | |
Liang et al. | Controlled autoencoders to generate faces from voices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211126 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220712 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7124427 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |