JP7124427B2 - マルチビューベクトルの処理方法及び装置 - Google Patents

マルチビューベクトルの処理方法及び装置 Download PDF

Info

Publication number
JP7124427B2
JP7124427B2 JP2018089844A JP2018089844A JP7124427B2 JP 7124427 B2 JP7124427 B2 JP 7124427B2 JP 2018089844 A JP2018089844 A JP 2018089844A JP 2018089844 A JP2018089844 A JP 2018089844A JP 7124427 B2 JP7124427 B2 JP 7124427B2
Authority
JP
Japan
Prior art keywords
view
vector
views
components
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018089844A
Other languages
English (en)
Other versions
JP2018194828A (ja
Inventor
シ・ズチアン
リィウ・リィウ
リィウ・ルゥジエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2018194828A publication Critical patent/JP2018194828A/ja
Application granted granted Critical
Publication of JP7124427B2 publication Critical patent/JP7124427B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、情報処理分野に関し、具体的には、マルチビューベクトル(multi-view vector)の分析及び比較に関する。
各種のパターン認識技術では、抽出及び利用される特徴が、往々して、直観的且つ分離可能な(即ち、分離して独立して存在することができる)特徴である。例えば、1つの物体の形状特徴及びテクスチャ特徴は、分離可能なものである。具体的には、1つの物体について、そのテクスチャを考慮せず(テクスチャ項を0とする)、その形状のみを考慮しても良く、又は、逆にその形状を考慮せず(形状項を0とする)、テクスチャのみを考慮しても良い。また、例えば、周波数領域の波形の重ね合わせについて、重ね合わせ後の結果としての波形が分割不可能な(即ち、分離して独立して存在することができない)ものみたいであるが、その高周波数成分及び低周波数成分は、分離可能で且つ独立して存在することができ、言い換えると、対応するもう1つの成分は、0である。このような場合、各独立した特徴についてそれぞれモデル化し、その後、簡単に重ね合わせれば良い。
本発明の目的は、マルチビューベクトルの分析及び比較を行うためのマルチビューベクトルの処理方法及び装置を提供することにある。
本発明の一側面によれば、マルチビューベクトルの処理方法が提供され、そのうち、前記マルチビューベクトルは、少なくとも2つの分離不可能なビューの情報を含む対象を表すために用いられ、該方法は、
前記マルチビューベクトルのモデルを形成し、該モデルに、少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値、前記マルチビューベクトルの各ビューの成分、及びノイズを含ませるモデル化ステップ;及び
前記マルチビューベクトルのトレーニングデータを用いて、前記全体平均値、各ビューの成分のパラメータ、及び前記ノイズのパラメータを得るトレーニングステップを含む。
また、マルチビューベクトルの処理装置がさらに提供され、それは、プロセッサ及びプログラムを記憶した記憶媒体を含み、前記プログラムは、プロセッサにより実行される時に、前述の方法を実現することができる。
また、本発明の他の側面によれば、対応するコンピュータプログラム、コンピュータ可読記憶媒体、及びコンピュータプログラムプロダクトがさらに提供される。
本発明の実施例におけるマルチビューベクトルの処理方法及び装置によれば、互いに分離不可能な複数のビューをモデル化の方式で分離し、そして、形成されたモデルを用いて、各ビューの成分が、異なるマルチビューベクトル間で同じであるかについての判断を行うことができる。このような方法及び装置は、例えば、声紋確認に適用することができる。
分離不可能な成分を示す図である。 分離可能な成分を示す図である。 マルチビューベクトルの処理方法の一実施方式のフローチャートである。 マルチビューベクトルの処理方法の他の実施方式のフローチャートである。 マルチビューベクトルの処理方法の2つのシナリオを示す図である。 マルチビューベクトルの処理方法の他の実施方式のフローチャートである。 マルチビューベクトルの処理方法の他の実施方式のフローチャートである。 本発明の実施例による方法及び/又は装置を実現し得る汎用コンピュータの構成図である。
以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。
また、以下、次のような順序、即ち、
1.マルチビューベクトルのモデル化
2.マルチビューベクトルのモデルの応用
3.マルチビューベクトルの抽出
4.マルチビューベクトルの処理装置
5.本発明の装置及び方法を実現するための計算装置
という順序で説明を行う。
[1.マルチビューベクトルのモデル化]
背景技術の部分に述べたように、直觀的且つ分離可能な特徴についてそれぞれモデル化し、その後、簡単に重ね合わせれば良い。しかし、抽出及び利用する必要がある特徴を分離することができない場合がある。このような場合、従来技術では、往々して、抽出及び利用する必要がある特徴に関連する特徴のみに基づいてモデル化を行う。例えば、語音認識の場合、認識された内容をトレーニングターゲットとして各種の特徴を抽出し、大量のトレーニングを行うことしかできず、異なる人からの影響を除去することができないため、語音認識製品(アプリケーション)は、異なる人が使用する時に、適応するために、長期間でのトレーニングを行う必要がある。その原因は、語音の内容及び人間の発声器官を分割することができないことにある。例えば、語音の内容を認識する場合、語音があれば、それは、必ず特定の人からのものであり、必ずその人に依存し、独立して存在することができない。また、身分認識を行う場合、声紋も必ず具体的な語音から抽出されたものである。
また、言葉の種類や年齢、性別、語音の内容、身分のインターウィーブも同様である。さらに、例えば、画像認識に関連するアプリケーションでは、年齢や性別、種族、身分のインターウィーブなども同じである。
言い換えれば、1つの特徴ベクトルを用いて、1つの人物の語音又は画像を表すときに、上述の各種の要因は、必ず該特徴ベクトルに同時に存在する。このような特徴ベクトルは、“マルチビューベクトル”と称され、そのうち、例えば、語音の内容、語種、年齢、性別、種族などは、すべて、1つの分離不可能な「ビュー」であり、即ち、各ビューは、必ず、ゼロ(0)とすることができないオプションが存在する。具体的に言えば、例えば、語音は、必ず、人間、例えば、人物A、又は、人物B、又は、……からのものであり、人間じゃないものからのものと考えられにくい(もちろん、ロボットも「人」と言われる可能性があり、その意味で、語音は、必ず、ある実体からのものであると言っても良い)。声紋を抽出するために、対象者に何かを話せないといけず、言い換えると、語音の内容というビューも、ゼロ(0)とすることができない。
図1及び図2は、分離不可能なビュー及び分離可能なビューをさらに示している。図1は、分離不可能な2つのビューu及びvを示しており、即ち、両者は、常に関連しており、分離することができず同時に存在しなければならない。ビューuは、常に、空又はゼロになれないオプション、例えば、u1又はu2が存在し、ビューvも、常に、空又はゼロになれないオプション、例えば、v1、v2又はv3が存在する(もちろん、u又はvというビューの数量は、必ずしも限制されない)。2つのビューの共同作用により、研究待ち対象又は情報xを形成することができ、例えば、u1及びv1は、x11n(nは、自然数であり、異なるサンプルを表す)を形成することができ、また、これに基づいて類推することもできる。
一方、図2では、2つのビューu及びvは、分離することができる。これは、一つのビューが空又はゼロになり、もう1つのビューが独立して存在し得ることを意味する。この場合、2つのビューが同時に存在する時に形成する研究対象又は情報は、事実上、2つのビューの和と簡単に表されても良い。例えば、ビューuの具体的な選択u2及びビューvの具体的な選択v1が形成する情報サンプルx21nは、u2が単独で形成した情報x20nと、v1が単独で形成した情報x01nとの和と表することができる。
もちろん、ここでいう「分離可能」及び「分離不可能」の概念は、絶対的なものでなく、言い換えると、完全に分離することが難しいが、両者のもつれ程度がそんなに高くないケースもある。このようなケースの場合、それらを、分離可能なものか、それとも、分離不可能なものかと見なすのは、実際のニーズに応じて確定しても良い。
本発明でいうマルチビューベクトルは、(相対的に)分離不可能な複数のビューの情報を含むマルチビューベクトルである。マルチビューベクトル自身は、従来の任意の方式で得ることができる。例えば、図3に示すように、処理待ちの対象(302)又は情報を任意の方式で直接ベクトル化(304)することで、マルチビューベクトル(306)を得ることができる。例えば、次のような方法を用いて、収集された語音データに対して処理を行っても良く、即ち、語音データを、フレーム長が25msであり且つフレームシフトが10msである信号に分割し、13次元のメル周波数ケプストラム係数(MFCCs)を抽出し、そして、該係数の1階差分及び2階差分と結合し、計39次元を得て特徴とする。また、コンテキストにある計39フレーム(左の25フレーム及び右の13フレーム)とジョイントし、計1521次元(39*39)を得て最終的な特徴とする。このように取得された1521次元のベクトルは、本発明の技術案の処理対象とすることができる。もちろん、当業者が理解すべきは、語音データに対しての処理は、この分野における他の従来の方法を採用しても良いということである。また、ベクトル化の処理を行うことができるのは、もちろん、語音データに限定されない。
マルチビューベクトル(306)を得た後に、本発明の実施例による方法を用いて、ベクトル分解(308)を行い、そして、具体的な応用(310)を行うことができる。また、本発明は、さらに、ベクトル化(304)の方法、ベクトル分解(308)の方法(即ち、マルチビューベクトルのモデル化)及び応用(310)について新しい方法を提案している。以下、まず、本発明で提案される新しいベクトル分解方法、即ち、マルチビューベクトルのモデル化方法について説明する。本発明では、マルチビューベクトル(306)について、本発明で提案される方法で、ベクトル分解モデルを形成又はトレーニング(508)し、ベクトル分解モデルのパラメータ(510)を取得し、そして、該モデルのパラメータ(510)を用いることで、ベクトル分解(308)を行うことができる。アプリケーション層では、前記モデルのパラメータ(510)は、応用(310)に直接適用することができる。なぜなら、モデルのパラメータ(510)を得た後に、「顕性」のベクトル分解(308)があるかどうかは、重要でないからである。幾つかのモデルでは、モデルのパラメータ(510)を研究対象情報のある応用に直接適用することは、対象情報を分解した後にさらに適用することに相当する。
本発明の一実施方式によれば、マルチビューベクトルの処理方法が提供され、そのうち、前記マルチビューベクトルxは、少なくとも2つの分離不可能なビューの情報を含む対象を表すために用いられる。該方法は、該マルチビューベクトルのモデルを形成し、それが少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
(外1)
Figure 0007124427000001
を含むようにさせるモデル化ステップ;及び、前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外2)
Figure 0007124427000002
のパラメータを得るトレーニングステップを含む。該実施方式により、即ち、マルチビューベクトルxについて次のようなモデルを形成し、また、トレーニングを行うことでモデルのパラメータを得ることにより、該マルチビューベクトルx中の各成分の影響を得ることができる。
Figure 0007124427000003
そのうち、Ciは、各ビューの成分であり、iは、ビューの順番号である。
前記全体平均値は、各ビューの成分に割り当てることもできるので、一実施方式では、前記全体平均値μを0と設定することができる。これにより、該モデルは、次のように表すことができる。
Figure 0007124427000004
また、各ビューの成分Ciは、対応するビューの空間の基底Siと、該ビューの特定選択(所定選択)の係数uiとの積と見なすことができ、そのうち、iは、ビューの順番号である。即ち、
Figure 0007124427000005
である。
前記ノイズは、対角行列Σを共分散(covariance)とするガウス分布を満足すると見なすことができる。
前記トレーニングステップでは、期待値最大化法(expectation maximization(EM)algorithm)により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底Si、及び前記Σを得ることができる。具体的に言えば、μ、Si、及びΣに基づいて、前記各ビューの成分についての特定選択、xのすべてのサンプルの平均値の期待値、及び前記各ビューの成分についての特定選択の、共分散に関する期待値を計算し、そして、前記期待値に基づいて、μ、Si、及びΣを再び計算することができ、また、このような処理は、収束するまで行うことができる。
便宜のために、2つのみのビューを例とする。例えば、「スピーカー」(話す人)及び「テキスト」という2つのビューを含む語音から抽出された声紋(即ち、マルチビューベクトル)を例とする。トレーニングデータにI個のスピーカー及びJ種類のテキストがあり、また、各種類のテキストについて各スピーカーがHij個のセグメントの語音に対応するとする。第i個目のスピーカーの第j種類のテキストの第k個目のセグメントの語音に対応するマルチビュー声紋は、xijkとする。この場合、式(3)は、次のようになる。
Figure 0007124427000006
そのうち、μは、すべてのxijkの平均値、即ち、全体平均値を表し、S及びTは、それぞれ、スピーカーというビューの空間の基底及びテキストというビューの空間の基底を表し、Sに関するビューの第i種類の選択の係数は、uiであり、Tに関するビューの第j種類の選択の係数は、vjである。
(外3)
Figure 0007124427000007
は、ノイズ信号(それは、対角行列Σを共分散とするガウス分布を満足する)を表す。kは、前記選択の場合の第k種類のサンプルを表す。θ={μ,S,T,Σ}とし、マルチビューベクトルのモデル中のすべてのパラメータを含み、また、以下の説明を簡略化するために、B=[S T]とする。さらに、モデル中のパラメータが次のような分布、即ち、
Figure 0007124427000008
に符合するとする。
そのうち、N(x|μ,Σ)は、平均値がμであり且つ分散(variance)がΣである正規分布である。言い換えると、パラメータθの前提で、S及びTに関する2つのビューの特定選択ui及びvjについて、マルチビューベクトルxijkの分布は、μ+Sui+Tvjを平均値とし且つΣを方差とする正規分布である。ui及びvj自身は、それぞれ、平均値が0であり且つ方差が単位行列Iである正規分布である。
前述の期待値最大化法の基本プロセスは、次の通りである。
まず、パラメータθ={μ,S,T,Σ}をランダムに初期化する。
その後、トレーニングデータにすべてI個のスピーカー及びJ種類のテキストがあり、また、各種類のテキストについて各スピーカーがHij個のセグメントの語音に対応する場合のマルチビューベクトル(声紋)X={xijk:i=1,…,I;j=1,…,J;k=1,…,Hij}について、次のように計算する。
Figure 0007124427000009
Figure 0007124427000010
そのうち、式(6)は、Xのすべてのサンプルの平均値の期待値であり、式(7)は、前記各ビューの成分についての特定選択の、共分散に関する期待値である。そのうち、θtは、第tステップのパラメータθである。初回の反復、即ち、t=1の時について、それは、前述のように任意に選択された初期値である。そのうち、
Figure 0007124427000011

である。
Uは、変数uiの集合を表し、Vは、変数vjの集合を表し、そのうち、Zと、U及びVとの関係は、×(外積)の関係と表しても良く、即ち、Z=U×Vである。
その後、前述のように計算された期待値に基づいて、新しいパラメータ値を次のように計算する。
Figure 0007124427000012
Figure 0007124427000013
Figure 0007124427000014
Figure 0007124427000015
その後、新しいパラメータ値を用いて、式(6)及び式(7)の期待値を再び計算し、このような処理を、反復が収束するまで行い、これにより、θ={μ,S,T,Σ}を得ることができる。モデルのパラメータを得たら、これは、各ビューの成分を得たということを意味し、各ビューの成分は、次の通りである。
Figure 0007124427000016
である。
[2.マルチビューベクトルのモデルの応用]
本発明の実施例によるマルチビューベクトルのモデル化は、任意の情報を表すベクトル、例えば、画像や音声を表すベクトルに適用することができる。そのうち、音声(語音)を表すマルチビューベクトルは、声紋と称することができる。声紋の確認は、既に、多くの分野、例えば、スマートユーザインターフェース、国土安全、テレホンバンキングなどに幅広く応用されている。本発明の実施例によるマルチビュー声紋のモデル化方法に基づいて、さらに声紋の認識方法が提案され、即ち、2つのマルチビュー声紋が同一の人物及び同一種類のテキストに属する、又は属しない尤度(likelihood)を計算し、その後、該尤度を用いて、更なる決定(判断)を行う。
具体的に言えば、前述のように、前記マルチビューベクトルxijkは、第i個目のスピーカーの、第j種類のテキストについての第k個目のサンプルの声紋を表すことができ、そのうち、uiは、第i個目のスピーカーの係数であり、vjは、第j種類のテキストの係数である。そうすると、一実施方式では、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外4)
Figure 0007124427000017
のパラメータを用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである、及び異なる尤度を計算し、そして、該尤度に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断することができる。例えば、スピーカーが同じであるかを判断することができ、即ち、身分認識のために用いられても良く;話した内容(語音の内容)が同じであるかを判断することができ、即ち、語音認識又はパスワード確認のために用いられても良い。また、より正確な声紋認識を行うために用いられても良く、例えば、正確な人が正確な内容を話すことを要する場合に用いられても良い。
前述のように得られたモデルのパラメータを用いて、上述の異なるシナリオに基づいて応用することができる。
図5は、2つのビューがすべて同じであるかを判断するシナリオを示す図である。具体的な例(もちろん、この例に限定されない)として、例えば、スピーカー及び話した内容(語音の内容)という2つのビューの特徴を含む声紋が完全に一致するかを判断するために用いられる。図5は、式(4)に対応し、u1、u2は、スピーカーというビューの特定選択を表し、v1、v2は、語音内容というビューの特定選択を表す。xは、各種の組み合わせの語音サンプルであり、εは、式(4)中の最後のノイズ項である。そうすると、左側のパターンM0は、4つのセグメントの語音の、スピーカー及び語音の内容のうちの1つが異なり又は2つがすべて異なるすべての状況を示している。右側のパターンM1は、2つのセグメントの語音の、スピーカー及び語音の内容がすべて同じである状況を示している。
そうすると、2つのセグメントの声紋(ターゲット声紋x及びテスト声紋x)がパターンM0のうちの4種類の状況に属する尤度、即ち、2つのセグメントの声紋が同一の人物に属しない、又は、同一種類のテキストでない尤度Bを次のように計算することができる。
Figure 0007124427000018
また、2つのセグメントの声紋(ターゲット声紋x及びテスト声紋x)がパターンM1の状況に属する尤度、即ち、2つのセグメントの声紋が同一の人物且つ同一種類のテキストに属する尤度Aを次のように計算することができる。
Figure 0007124427000019
A>Bの場合、2つのセグメントの声紋が同一人物且つ同一種類のテキストに属することを意味し、A<Bの場合、2つのセグメントの声紋が同一人物に属しない、又は、同一種類のテキストでないことを意味する。
さらに、前記尤度を用いて各状況下での確率を計算し、そして、該確率に基づいて、2つのマルチビューベクトルの2つのビューの成分がすべて同じであるか、それとも、少なくとも1つのビューの成分が異なるかを判断することができる。例えば、次のように判断することができる。
Figure 0007124427000020
P(M1|xt,xs)>P(M0|xt,xs)の場合、即ち、x、xがM1パターンに属する確率が、x、xがM0パターンに属する確率よりも大きい場合、2つのセグメントの声紋が完全に同じであり、即ち、同一人物(スピーカー)からのものであり、且つ話した内容が同じであることを意味する。
前述のように、確定されたマルチビューベクトルのモデルのパラメータを用いて、2つのマルチビューベクトルの2つのビューの成分のうちの1つのビューの成分が同じである又は異なる尤度を計算し、そして、該尤度に基づいて、2つのマルチビューベクトルの該1つのビューの成分が同じであるかを判断することもできる。よって、さらに前記尤度を用いて各状況下での確率を計算し、そして、該確率に基づいて、該1つのビューの成分が同じであるかを判断することができる。
ビューの成分uiが同じである尤度Aは、
Figure 0007124427000021
である。
ビューの成分uiが異なる尤度Bは、
Figure 0007124427000022
(17)
である。
A>Bの場合、ビューの成分uiが同じであり、逆の場合、異なる。また、ビューの成分vjについての尤度の計算は、同様である。
[3.マルチビューベクトルの抽出]
前記マルチビューベクトルは、表したい対象に対して直接ベクトル化することにより得ることができる。例(もちろん、この例に限定されない)として、例えば、次のような方法を用いて、收集された語音データに対して処理を行うことで、マルチビューベクトルの例の1つ、即ち、声紋を得ることができる。声紋の抽出は、例えば、前述のメル周波数ケプストラム係数(MFCCs)を抽出する方法を採用しても良い。もちろん、当業者が理解すべきは、語音データに対しての処理は、この分野における他の従来の方法を採用しても良いということである。
複数の分離不可能なビューの情報を含む対象からマルチビューベクトルを直接抽出する時に、該対象を全面的に表すことができ、その後、本発明の実施例によるモデル化方法を用いて、大量の対象サンプルに基づいて、前記マルチビューベクトルに対してモデル化を行い、異なるビューの特徴の前記マルチビューベクトルへの影響を反映することができ、これにより、モデル化により得られたモデルをテスト対象に適用し、テスト対象の1つ又は複数のビューの特徴を認識又は利用することができる。
言い換えると、例えば、1つの対象の特徴が分離不可能なビューA及びビューBの影響を受ける場合、本発明では、対象から、ビューBの影響をできるだけ受けないビューAの特徴を直接抽出することやビューAの影響をできるだけ受けないビューBの特徴を直接抽出することを追い求めず、又は、ビューA及びビューBをそれぞれ用いてサンプルを標識することでビューA及びビューBについての分類器をそれぞれトレーニングすることも追い求めない。逆に、本発明では、対象特徴の抽出にあたって、ビューA及びビューBが分離不可能なものである現実を認め、その上で、対象の特徴を一緒に抽出してマルチビューベクトルを形成し、その後、本発明の実施例によるモデル化方法を用いてビューA及びビューBの各自の影響を評価する。
しかし、幾つかの状況では、全く処理されていない対象について、それに影響する要因が幾つかある可能性があり、これらの要因のうち、幾つかが相対的に分離可能なものであり、幾つかが相対的に分離不可能なものである。このとき、もし本来相対的に分離可能なビューも含めば、モデル化及びベクトル分解の計算量が増加し、ひいては、変数の過度の増かが原因で、問題の解を求めることができなくなる可能性もある。このような場合、マルチビューベクトルを抽出する時にまず相対的に分離不可能なビューを除去することを考慮しても良い。
そのうち、1つの方法は、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより、相対的に分離可能なビューを排除して相対的に分離不可能なビューのみを残したマルチビューベクトルを取得する。換言すると、排除されたビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い。なお、ここでの「相対的に分離可能」及び「相対的に分離不可能」は、ともに、相対的な概念であり、絶対的な「分離可能」及び「分離不可能」でない。ひいては、ある場合、例えば、ビューが多い場合、すべてが分離不可能なものである可能性があり、このとき、ユーザの選択により、どのビューを排除するか及びどのビューを残すかを確定することができる。
図6Aに示すように、前記分類器は、次のような方法でトレーニングすることにより得ることができ、即ち、まず、トレーニングサンプル、即ち、研究対象(302)の分離不可能な複数のビューの特徴を同時に標識し(404)、そのうち、標識されないビューと、標識されるビューとの間の分離可能性は、標識されるビューの間の分離可能性よりも高くても良い。その後、標識されたトレーニングサンプルを用いて前記分類器をトレーニングし(406)、これにより、トレーニング後の分類器を取得する(408)。
上述の分類器は、ニューラルネットワークを採用しても良い。トレーニング段階では、トレーニングサンプルを標識し、例えば、関心ある各ビューを標識する。例えば、人物の画像について、関心ある年齢、性別を標識することができる。これらの標識された画像サンプルを用いて、ニューラルネットワークに対してトレーニングを行う。そうすると、トレーニングされたニューラルネットワークを用いてテスト画像に対して処理を行えば、該画像の、年齢及び性別という2つのビューを含むマルチビューベクトルを得ることができる。また、語音のマルチビューベクトルを抽出することもできる。ニューラルネットワークをトレーニングする時のサンプルのために標識したビューの特徴、例えば、年齢、性別、種族、具体的な身分、語種、具体的な語音の内容などにより、トレーニングされたニューラルネットワークを用いてテスト語音サンプルを処理することで得られたマルチビューベクトルは、選択されたこれらのビューの特徴を含む。
図6Bは、分類器のトレーニングからマルチビューベクトル分解までのアーキテクチャを示す。そのうち、分類器のトレーニング段階では、相対的に分離可能なビューS1及びS2は、トレーニングサンプルを標識するために用いられず、分離不可能なビューS3及びS4の特徴は、トレーニングサンプルを同時に標識するために用いられ、これにより、トレーニングサンプル集合を取得し(410)、そして、トレーニングを行うことで分類器を得る(408)。分類器(408)は、テストサンプル集合412中のテストサンプルに対して処理を行い、ビューS3及びS4の情報を含むマルチビューベクトル集合(414)を取得する。なお、マルチビューベクトル集合(414)中のベクトルに基づいてマルチビューベクトルの分解のためのモデルをトレーニングするプロセスが、図6B中で示されていない。該モデルに基づいて、各マルチビューベクトル、例えば、ベクトルx1及びベクトルx2(ベクトルx1及びx2は、マルチビューベクトル集合414に由来しても良く、実際の応用において分類器408により新しく抽出されたマルチビューベクトルであっても良い)を分解することができ、それらをビューS3及びS4の成分に分解することができる。このようなビューの成分の分解は、顕性であっても良く、例えば、幾つかの応用は、1つ又は複数のビューの成分を直接得る必要があり、又は、潜性であっても良く、例えば、上述した声紋比較の実施方式において、表面上で声紋の分解がないが、声紋中の各ビューが同じである又は異なる尤度を計算する時に声紋を分解することが含まれている。
[4.マルチビューベクトルの処理装置]
以上に述べた方法は、コンピュータ実行可能なプログラムにより完全に実現することができ、或いは、部分的に又は完全にハードウェア及び/又はファームウェアにより実現することができる。また、ハードウェア及び/又はファームウェアにより実現する時に、或いは、コンピュータ実行可能なプログラムをプログラム実行可能なハードウェア装置にインストールする時に、以下に述べるマルチビューベクトルの処理装置を実現することができる。以下、上述した細部を省略した上でこのような装置の概略を説明する。なお、このような装置は、上述した方法を実行することができるが、前記方法は、必ずしもこのような装置により実行される必要がない。
一実施方式によれば、マルチビューベクトルの処理装置が提供され、そのうち、前記マルチビューベクトルxは、少なくとも2つの分離不可能なビューの情報を含む対象を表すために用いられる。該装置は、マルチビューベクトルのモデルに対してトレーニングを行うためのトレーニング装置を含み、該マルチビューベクトルのモデルは、少なくとも、次のような成分、即ち、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
(外5)
Figure 0007124427000023
を含み、該トレーニング装置は、前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外6)
Figure 0007124427000024
のパラメータを取得する。
同様に、前記全体平均値μは、0と設定されても良い。各ビューの成分は、対応するビューの空間の基底Siと、該ビューの特定選択の係数uiとの積に基づいても良く、そのうち、iは、ビューの順番号である。前記ノイズは、対角行列Σを共分散とするガウス分布を満足するように設定することができる。
一実施方式では、前記トレーニング装置は、期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底Sn、及び前記Σを得るように構成されても良い。前記期待値最大化法では、μ、Sn、及びΣに基づいて、前記各ビューの成分についての特定選択、xのすべてのサンプルの平均値の期待値、及び前記各ビューの成分についての特定選択の、共分散に関する期待値を計算し、また、前記期待値に基づいて再びμ、Sn、及びΣを計算することができ、このような処理は、収束するまで行うことができる。
前記マルチビューベクトルは、2つのビューの場合における前記マルチビューベクトルのモデルの表現(expression)を含み、また、モデル中の各種のパラメータ及び変数の分布は、前述した方法の説明を参照することができ、ここでは、その詳しい説明を省略する。
他の実施方式では、少なくとも1つのビューの成分が同じであるかを判断する装置が提供され、それは、尤度評估装置及び判断装置を含み、尤度評估装置は、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外7)
Figure 0007124427000025
のパラメータを用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである及び異なる尤度を計算し、判断装置は、該尤度に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断する。
該装置は、さらに確率計算装置を含んでも良く、それは、さらに前記尤度を用いて2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである及び異なる確率を計算し、前記判断装置は、さらに、該確率に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断するように構成される。
2つのビューの成分がすべて同じであるかを判断する応用の場合、該装置のワーキング方法は、前述の方法の部分に既に説明されているので、ここでは、その詳しい説明を省略する。このとき、該装置は、声紋確認装置であってもよく、それは、テスト声紋とターゲット声紋とが完全に同じであるか、即ち、2つのビューの成分(スピーカー及び話した内容)が完全に同じであるかを判断するために用いられる。
なお、この実施例中の関連する細部は、マルチビューベクトルの処理方法の実施例において記載されているため、ここでは省略される。
[5.本発明の装置及び方法を実施するための計算装置]
上述の装置中の各構成モジュールやユニット(構成要素)は、ソフトウェア、ファームウェア、ハードウェア又はその組み合わせにより構成されても良い。なお、構成時に使用し得る具体的な手段や方式は、当業者にとって周知であるため、ここでは省略される。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構造を持つコンピュータ(例えば、図7に示すような汎用コンピュータ700)に、該ソフトウェアを構成するプログラムをインストールすることができ、また、該コンピュータは、各種のプログラムがインストールされている時に、各種の機能を実現することができる。
図7では、中央処理装置(CPU)701は、ROM 702に記憶されているプログラム、又は、記憶部708からRAM 703にロードされているプログラムに基づいて、各種の処理を行う。RAM 703には、必要に応じて、CPU 701が各種の処理を実行する時に必要なデータを記憶しても良い。なお、CPU 701、ROM 702及びRAM 703は、バス704を経由して接続される。また、入力/出力インターフェース705も、バス704に接続される。
次のような部品は、入力/出力インターフェース705に接続され、即ち、入力部706(キーボード、マウスなどを含む)、出力部707(表示器、例えば、CRT、LCDなど、及びスピーカーなどを含む)、記憶部708(ハードディスクなどを含む)、及び通信部709(ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む)というような部品である。通信部709は、ネットワーク、例えばインターネットを経由して通信処理を行う。なお、必要に応じて、ドライブ710を入力/出力インターフェース705に接続させても良い。取り外し可能な媒体711、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などは、必要に応じて、ドライブ710にセットされ、その中から読み出されたコンピュータプログラムが必要に応じて記憶部708にインスタールされるようにさせることができる。
ソフトウェアにより上述の一連の処理を実現する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体711から、ソフトウェアを構成するプログラムをインストールすることができる。
なお、当業者が理解すべきは、このような記憶媒体は、図7に示すような取り外し可能な711に限定されないということである。取り外し可能な媒体711は、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器を含む。或いは、記憶媒体は、ROM 702、記憶部分708中のハードディスクなどであっても良い。
本発明は、さらに、マシン可読指令コードを含むプログラムプロダクト(プログラム)に関する。指令コードは、マシン(例えば、コンピュータ)により読み出されて実行される時に、前述の実施例における方法を実現することができる。
それに対応して、前述のようなマシン可読取指令コードを含むプログラムプロダクトを記憶した記憶媒体も本発明の発明に含まれる。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカードなどを含むが、これらに限定されない。
また、上述の各実施例に関し、さらに次のような付記を開示する。
(付記1)
マルチビューベクトルの処理方法であって、
前記マルチビューベクトルxは、少なくとも2つの分離不可能なビューの情報を含む対象を表すために用いられ、前記方法は、
前記マルチビューベクトルのモデルを形成し、それに、少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
(外8)
Figure 0007124427000026
を含ませるモデル化ステップ;及び
前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外9)
Figure 0007124427000027
のパラメータを得るトレーニングステップを含む、方法。
(付記2)
付記1に記載の方法であって、
前記全体平均値μを0と設定する、方法。
(付記3)
付記1に記載の方法であって、
各ビューの成分は、対応するビューの空間の基底Siと、該ビューの特定選択の係数uiとの積によるものであり、iは、ビューの順番号である、方法。
(付記4)
付記3に記載の方法であって、
前記ノイズを、対角行列Σを共分散するガウス分布を満足するように設定する、方法。
(付記5)
付記4に記載の方法であって、
前記トレーニングステップは、
期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底Sn、及び前記Σを得ることを含む、方法。
(付記6)
付記5に記載の方法であって、
前記期待値最大化法では、μ、Sn、及びΣに基づいて、各ビューの成分についての特定選択、xのすべてのサンプルの平均値の期待値、及び各ビューの成分についての特定選択の、共分散に関する期待値を計算し、収束するまで、前記期待値に基づいて、μ、Sn、及びΣを再び計算する、方法。
(付記7)
付記4に記載の方法であって、
前記マルチビューベクトルが2つのビューを含み、対応するビューの空間の基底をS及びTとする場合、前記マルチビューベクトルは、
Figure 0007124427000028

と表され、
そのうち、μは、前記全体平均値を表し、uiは、空間の基底Sに対応するビューの第i種類の選択の係数であり、vjは、空間の基底Tに対応するビューの第j種類の選択の係数であり、εijkは、前記ノイズを表し、kは、前記選択の場合の第k種類のサンプルを表す、方法。
(付記8)
付記7に記載の方法であって、
θ={μ,S,T,Σ}及びB=[S T]とする場合、次のような分布、即ち、
Figure 0007124427000029

を満足し、
そのうち、N(x|μ,Σ)は、平均値がμであり且つ分散がΣである正規分布であり、Iは、単位行列である、方法。
(付記9)
付記7に記載の方法であって、
前記マルチビューベクトルxijkは、第i個目のスピーカーの、第j種類のテキストについての第k個目のサンプルの声紋を表し、uiは、第i個目のスピーカーの係数であり、vjは、第j種類のテキストの係数である、方法。
(付記10)
付記1~9のうちの任意の1つに記載の方法であって、さらに、
前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
(外10)
Figure 0007124427000030
のパラメータを用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである及び異なる尤度を計算し、該尤度に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断することを含む、方法。
(付記11)
付記10に記載の方法であって、さらに、
前記尤度を用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである及び異なる確率を計算し、該確率に基いいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断することを含む、方法。
(付記12)
付記10に記載の方法であって、
2つのマルチビューベクトル中のすべてのビューの成分がすべて同じであるかを判断するために用いられる、方法。
(付記13)
付記8に記載の方法であって、さらに、
確定されたマルチビューベクトルのモデルのパラメータを用いて、2つのマルチビューベクトルの2つのビューの成分がすべて同じである及びすべて同じでない尤度を計算し、該尤度に基づいて、2つのマルチビューベクトルの2つのビューの成分がすべて同じであるかを判断することを含み、
すべてのビューの成分がすべて同じである尤度Aは、
Figure 0007124427000031

であり、
少なくとも1つのビューの成分が異なる尤度Bは、
Figure 0007124427000032

であり、
そのうち、xtは、テストベクトルを表し、xsは、ターゲットベクトルを表す、方法。
(付記14)
付記8に記載の方法であって、さらに、
確定されたマルチビューベクトルのモデルのパラメータに基づいて、2つのマルチビューベクトルの2つのビューの成分のうちの1つのビューの成分が同じである及び同じでない尤度を計算し、該尤度に基づいて、2つのマルチビューベクトルの該1つのビューの成分が同じであるかを判断することを含み、
ビューの成分uiが同じである尤度Aは、
Figure 0007124427000033

であり、
ビューの成分uiが異なる尤度Bは、
Figure 0007124427000034

であり、
そのうち、xtは、テストベクトルを表し、xsは、ターゲットベクトルを表し、vjの計算は、uiと対称的である、方法。
(付記15)
付記1~9のうちの任意の1つに記載の方法であって、
前記マルチビューベクトルは、表したい対象を直接ベクトル化することにより得られる、方法。
(付記16)
付記1~9のうちの任意の1つに記載の方法であって、
前記マルチビューベクトルは、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより得られる、方法。
(付記17)
付記16に記載の方法であって、
前記分類器は、前記マルチビューベクトルを、表したい対象を直接ベクトル化することで得られた特徴ベクトルから排除することができ、排除されるビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い、方法。
(付記18)
付記16に記載の方法であって、
前記分類器は、次のようなステップによりトレーニングされ、即ち、
トレーニングサンプルの分離不可能な前記複数のビューの特徴を同時に標識し、そのうち、標識されないビューと、標識されるビューとの間の分離可能性は、標識されるビューの間の分離可能性よりも高く;及び
標識されたトレーニングサンプルを用いて前記分類器をトレーニングするステップである、方法。
(付記19)
マルチビューベクトルの処理装置であって、
プロセッサ、及びプログラムを記憶した記憶媒体を含み、
前記プログラムは、プロセッサにより実行される時に、付記1~17のうちの任意の1つに記載の方法を実現する、装置。
(付記20)
プログラムを記憶したコンピュータ可読記憶媒体であって、
前記プログラムは、プロセッサにより実行される時に、付記1~18のうちの任意の1つに記載の方法を実現する、コンピュータ可読記憶媒体。
以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims (8)

  1. マルチビューベクトルを処理する方法であって、
    前記マルチビューベクトルxは、少なくとも2つの分離不可能なビューの情報を含む対象を表すために用いられ、前記方法は、
    前記マルチビューベクトルのモデルを形成し、該モデルに、少なくとも、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
    (外11)
    Figure 0007124427000035
    という成分を含ませるモデル化ステップ;及び
    前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
    (外12)
    Figure 0007124427000036
    のパラメータを取得するトレーニングステップを含み、
    前記マルチビューベクトルは、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより得られ、
    前記分類器は、前記マルチビューベクトルを、対象を直接ベクトル化することで得られた特徴ベクトルのうちから排除することができ、排除されるビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い、方法。
  2. 請求項1に記載の方法であって、
    各ビューの成分は、該ビューの空間の基底Siと、該ビューの特定選択の係数uiとの積によるものであり、iは、ビューの順番号である、方法。
  3. 請求項に記載の方法であって、
    前記ノイズは、対角行列Σを共分散するガウス分布を満足するように設定される、方法。
  4. 請求項に記載の方法であって、
    前記トレーニングステップは、
    期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底Sn、及び前記Σを取得することを含む、方法。
  5. 請求項4に記載の方法であって、
    前記マルチビューベクトルが2つのビューを含み、対応するビューの空間の基底をS及びTとする場合、前記マルチビューベクトルは、
    Figure 0007124427000037

    と表され、
    そのうち、μは、前記全体平均値を表し、uiは、空間の基底Sに対応するビューの第i種類の選択の係数であり、vjは、空間の基底Tに対応するビューの第j種類の選択の係数であり、εijkは、前記ノイズを表し、kは、前記選択の場合の第k種類のサンプルを表す、方法。
  6. 請求項1~5のうちの任意の1つに記載の方法であって、
    前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
    (外13)
    Figure 0007124427000038
    のパラメータを用いて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じである尤度、及び、2つのマルチビューベクトルの少なくとも1つのビューの成分が異なる尤度を計算し、前記尤度に基づいて、2つのマルチビューベクトルの少なくとも1つのビューの成分が同じであるかを判断する判断ステップをさらに含む、方法。
  7. 請求項6に記載の方法であって、
    2つのマルチビューベクトル中のすべてのビューの成分がすべて同じであるかを判断するために用いられる、方法。
  8. マルチビューベクトルの処理装置であって、
    プロセッサと、プログラムを記憶した記憶媒体と、を含み、
    前記プログラムは、プロセッサにより実行される時に、請求項1~のうちの任意の1つに記載の方法を実現する、処理装置。
JP2018089844A 2017-05-16 2018-05-08 マルチビューベクトルの処理方法及び装置 Active JP7124427B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710343390.6A CN108875463B (zh) 2017-05-16 2017-05-16 多视角向量处理方法和设备
CN201710343390.6 2017-05-16

Publications (2)

Publication Number Publication Date
JP2018194828A JP2018194828A (ja) 2018-12-06
JP7124427B2 true JP7124427B2 (ja) 2022-08-24

Family

ID=62222380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018089844A Active JP7124427B2 (ja) 2017-05-16 2018-05-08 マルチビューベクトルの処理方法及び装置

Country Status (4)

Country Link
US (1) US10796205B2 (ja)
EP (1) EP3404584A1 (ja)
JP (1) JP7124427B2 (ja)
CN (1) CN108875463B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847177B2 (en) 2018-10-11 2020-11-24 Cordio Medical Ltd. Estimating lung volume by speech analysis
US11011188B2 (en) 2019-03-12 2021-05-18 Cordio Medical Ltd. Diagnostic techniques based on speech-sample alignment
US11024327B2 (en) 2019-03-12 2021-06-01 Cordio Medical Ltd. Diagnostic techniques based on speech models
CN110059465B (zh) * 2019-04-24 2023-07-25 腾讯科技(深圳)有限公司 身份验证方法、装置及设备
US11484211B2 (en) 2020-03-03 2022-11-01 Cordio Medical Ltd. Diagnosis of medical conditions using voice recordings and auscultation
CN111782159B (zh) * 2020-05-19 2023-01-06 上汽大众汽车有限公司 一种图片分屏同步浏览系统及方法
US11417342B2 (en) 2020-06-29 2022-08-16 Cordio Medical Ltd. Synthesizing patient-specific speech models

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5130851B2 (ja) * 2007-09-27 2013-01-30 富士通株式会社 モデル作成支援システム、モデル作成支援方法、モデル作成支援プログラム
US9141676B2 (en) * 2013-12-02 2015-09-22 Rakuten Usa, Inc. Systems and methods of modeling object networks
WO2015133830A1 (ko) * 2014-03-07 2015-09-11 주식회사 케이티 다시점 비디오 신호 처리 방법 및 장치
CN104036296B (zh) * 2014-06-20 2017-10-13 深圳先进技术研究院 一种图像的表示和处理方法及装置
CN105868324B (zh) * 2016-03-28 2019-08-27 天津大学 一种基于隐含状态模型的多视角目标检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ziqiang Shi et al.,Multi-view Probability Linear Discrimination Analysis for Multi-view Vector Based Text Dependent Speaker Verification,arXiv:1704:06061v1 [cs.LG] 20 Apr 2017,2017年04月20日,pp.1-19,https://arxiv.org/pdf/1704.06061v1.pdf

Also Published As

Publication number Publication date
CN108875463A (zh) 2018-11-23
US10796205B2 (en) 2020-10-06
EP3404584A1 (en) 2018-11-21
JP2018194828A (ja) 2018-12-06
CN108875463B (zh) 2022-08-12
US20180336438A1 (en) 2018-11-22

Similar Documents

Publication Publication Date Title
JP7124427B2 (ja) マルチビューベクトルの処理方法及び装置
JP7023934B2 (ja) 音声認識方法及び装置
Mannepalli et al. A novel adaptive fractional deep belief networks for speaker emotion recognition
Andrew et al. Deep canonical correlation analysis
CN107564513B (zh) 语音识别方法及装置
US9368110B1 (en) Method for distinguishing components of an acoustic signal
US8751227B2 (en) Acoustic model learning device and speech recognition device
Khoury et al. Bi-modal biometric authentication on mobile phones in challenging conditions
CN109545227B (zh) 基于深度自编码网络的说话人性别自动识别方法及系统
Anand et al. Age estimation based on face images and pre-trained convolutional neural networks
US10614343B2 (en) Pattern recognition apparatus, method, and program using domain adaptation
Perero-Codosero et al. X-vector anonymization using autoencoders and adversarial training for preserving speech privacy
Sarvestani et al. FF-SKPCCA: Kernel probabilistic canonical correlation analysis
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
Hong et al. Transfer learning for PLDA-based speaker verification
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Argones Rua et al. Audio-visual speech asynchrony detection using co-inertia analysis and coupled hidden markov models
Shivakumar et al. Simplified and supervised i-vector modeling for speaker age regression
CN110085236B (zh) 一种基于自适应语音帧加权的说话人识别方法
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
Azam et al. Speaker verification using adapted bounded Gaussian mixture model
Hu et al. Speaker recognition based on short utterance compensation method of generative adversarial networks
KR20180127890A (ko) 사용자 적응적인 음성 인식 방법 및 장치
CN110188338B (zh) 文本相关的说话人确认方法和设备
Liang et al. Controlled autoencoders to generate faces from voices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220725

R150 Certificate of patent or registration of utility model

Ref document number: 7124427

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150