JP7124427B2

JP7124427B2 - マルチビューベクトルの処理方法及び装置

Info

Publication number: JP7124427B2
Application number: JP2018089844A
Authority: JP
Inventors: シ・ズチアン; リィウ・リィウ; リィウ・ルゥジエ
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-16
Filing date: 2018-05-08
Publication date: 2022-08-24
Anticipated expiration: 2038-05-08
Also published as: CN108875463A; US10796205B2; EP3404584A1; JP2018194828A; CN108875463B; US20180336438A1

Description

本発明は、情報処理分野に関し、具体的には、マルチビューベクトル（multi-view vector）の分析及び比較に関する。

各種のパターン認識技術では、抽出及び利用される特徴が、往々して、直観的且つ分離可能な（即ち、分離して独立して存在することができる）特徴である。例えば、１つの物体の形状特徴及びテクスチャ特徴は、分離可能なものである。具体的には、１つの物体について、そのテクスチャを考慮せず（テクスチャ項を0とする）、その形状のみを考慮しても良く、又は、逆にその形状を考慮せず（形状項を0とする）、テクスチャのみを考慮しても良い。また、例えば、周波数領域の波形の重ね合わせについて、重ね合わせ後の結果としての波形が分割不可能な（即ち、分離して独立して存在することができない）ものみたいであるが、その高周波数成分及び低周波数成分は、分離可能で且つ独立して存在することができ、言い換えると、対応するもう１つの成分は、0である。このような場合、各独立した特徴についてそれぞれモデル化し、その後、簡単に重ね合わせれば良い。

本発明の目的は、マルチビューベクトルの分析及び比較を行うためのマルチビューベクトルの処理方法及び装置を提供することにある。

本発明の一側面によれば、マルチビューベクトルの処理方法が提供され、そのうち、前記マルチビューベクトルは、少なくとも２つの分離不可能なビューの情報を含む対象を表すために用いられ、該方法は、
前記マルチビューベクトルのモデルを形成し、該モデルに、少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値、前記マルチビューベクトルの各ビューの成分、及びノイズを含ませるモデル化ステップ；及び
前記マルチビューベクトルのトレーニングデータを用いて、前記全体平均値、各ビューの成分のパラメータ、及び前記ノイズのパラメータを得るトレーニングステップを含む。

また、マルチビューベクトルの処理装置がさらに提供され、それは、プロセッサ及びプログラムを記憶した記憶媒体を含み、前記プログラムは、プロセッサにより実行される時に、前述の方法を実現することができる。

また、本発明の他の側面によれば、対応するコンピュータプログラム、コンピュータ可読記憶媒体、及びコンピュータプログラムプロダクトがさらに提供される。

本発明の実施例におけるマルチビューベクトルの処理方法及び装置によれば、互いに分離不可能な複数のビューをモデル化の方式で分離し、そして、形成されたモデルを用いて、各ビューの成分が、異なるマルチビューベクトル間で同じであるかについての判断を行うことができる。このような方法及び装置は、例えば、声紋確認に適用することができる。

分離不可能な成分を示す図である。分離可能な成分を示す図である。マルチビューベクトルの処理方法の一実施方式のフローチャートである。マルチビューベクトルの処理方法の他の実施方式のフローチャートである。マルチビューベクトルの処理方法の２つのシナリオを示す図である。マルチビューベクトルの処理方法の他の実施方式のフローチャートである。マルチビューベクトルの処理方法の他の実施方式のフローチャートである。本発明の実施例による方法及び／又は装置を実現し得る汎用コンピュータの構成図である。

以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。

また、以下、次のような順序、即ち、
1．マルチビューベクトルのモデル化
2．マルチビューベクトルのモデルの応用
3．マルチビューベクトルの抽出
4．マルチビューベクトルの処理装置
5．本発明の装置及び方法を実現するための計算装置
という順序で説明を行う。

[1．マルチビューベクトルのモデル化]
背景技術の部分に述べたように、直觀的且つ分離可能な特徴についてそれぞれモデル化し、その後、簡単に重ね合わせれば良い。しかし、抽出及び利用する必要がある特徴を分離することができない場合がある。このような場合、従来技術では、往々して、抽出及び利用する必要がある特徴に関連する特徴のみに基づいてモデル化を行う。例えば、語音認識の場合、認識された内容をトレーニングターゲットとして各種の特徴を抽出し、大量のトレーニングを行うことしかできず、異なる人からの影響を除去することができないため、語音認識製品（アプリケーション）は、異なる人が使用する時に、適応するために、長期間でのトレーニングを行う必要がある。その原因は、語音の内容及び人間の発声器官を分割することができないことにある。例えば、語音の内容を認識する場合、語音があれば、それは、必ず特定の人からのものであり、必ずその人に依存し、独立して存在することができない。また、身分認識を行う場合、声紋も必ず具体的な語音から抽出されたものである。

また、言葉の種類や年齢、性別、語音の内容、身分のインターウィーブも同様である。さらに、例えば、画像認識に関連するアプリケーションでは、年齢や性別、種族、身分のインターウィーブなども同じである。

言い換えれば、１つの特徴ベクトルを用いて、１つの人物の語音又は画像を表すときに、上述の各種の要因は、必ず該特徴ベクトルに同時に存在する。このような特徴ベクトルは、“マルチビューベクトル”と称され、そのうち、例えば、語音の内容、語種、年齢、性別、種族などは、すべて、１つの分離不可能な「ビュー」であり、即ち、各ビューは、必ず、ゼロ（0）とすることができないオプションが存在する。具体的に言えば、例えば、語音は、必ず、人間、例えば、人物A、又は、人物B、又は、……からのものであり、人間じゃないものからのものと考えられにくい（もちろん、ロボットも「人」と言われる可能性があり、その意味で、語音は、必ず、ある実体からのものであると言っても良い）。声紋を抽出するために、対象者に何かを話せないといけず、言い換えると、語音の内容というビューも、ゼロ（0）とすることができない。

図1及び図2は、分離不可能なビュー及び分離可能なビューをさらに示している。図1は、分離不可能な２つのビューu及びvを示しており、即ち、両者は、常に関連しており、分離することができず同時に存在しなければならない。ビューuは、常に、空又はゼロになれないオプション、例えば、u₁又はu₂が存在し、ビューvも、常に、空又はゼロになれないオプション、例えば、v₁、v₂又はv₃が存在する（もちろん、u又はvというビューの数量は、必ずしも限制されない）。２つのビューの共同作用により、研究待ち対象又は情報xを形成することができ、例えば、u₁及びv₁は、x_11n(nは、自然数であり、異なるサンプルを表す)を形成することができ、また、これに基づいて類推することもできる。

一方、図2では、２つのビューu及びvは、分離することができる。これは、一つのビューが空又はゼロになり、もう１つのビューが独立して存在し得ることを意味する。この場合、２つのビューが同時に存在する時に形成する研究対象又は情報は、事実上、２つのビューの和と簡単に表されても良い。例えば、ビューuの具体的な選択u₂及びビューvの具体的な選択v₁が形成する情報サンプルx_21nは、u₂が単独で形成した情報x_20nと、v₁が単独で形成した情報x_01nとの和と表することができる。

もちろん、ここでいう「分離可能」及び「分離不可能」の概念は、絶対的なものでなく、言い換えると、完全に分離することが難しいが、両者のもつれ程度がそんなに高くないケースもある。このようなケースの場合、それらを、分離可能なものか、それとも、分離不可能なものかと見なすのは、実際のニーズに応じて確定しても良い。

本発明でいうマルチビューベクトルは、（相対的に）分離不可能な複数のビューの情報を含むマルチビューベクトルである。マルチビューベクトル自身は、従来の任意の方式で得ることができる。例えば、図3に示すように、処理待ちの対象（302）又は情報を任意の方式で直接ベクトル化（304）することで、マルチビューベクトル（306）を得ることができる。例えば、次のような方法を用いて、収集された語音データに対して処理を行っても良く、即ち、語音データを、フレーム長が25msであり且つフレームシフトが10msである信号に分割し、13次元のメル周波数ケプストラム係数（MFCCs）を抽出し、そして、該係数の１階差分及び２階差分と結合し、計39次元を得て特徴とする。また、コンテキストにある計39フレーム（左の25フレーム及び右の13フレーム）とジョイントし、計1521次元（39*39）を得て最終的な特徴とする。このように取得された1521次元のベクトルは、本発明の技術案の処理対象とすることができる。もちろん、当業者が理解すべきは、語音データに対しての処理は、この分野における他の従来の方法を採用しても良いということである。また、ベクトル化の処理を行うことができるのは、もちろん、語音データに限定されない。

マルチビューベクトル（306）を得た後に、本発明の実施例による方法を用いて、ベクトル分解（308）を行い、そして、具体的な応用（310）を行うことができる。また、本発明は、さらに、ベクトル化（304）の方法、ベクトル分解（308）の方法（即ち、マルチビューベクトルのモデル化）及び応用（310）について新しい方法を提案している。以下、まず、本発明で提案される新しいベクトル分解方法、即ち、マルチビューベクトルのモデル化方法について説明する。本発明では、マルチビューベクトル（306）について、本発明で提案される方法で、ベクトル分解モデルを形成又はトレーニング（508）し、ベクトル分解モデルのパラメータ（510）を取得し、そして、該モデルのパラメータ（510）を用いることで、ベクトル分解（308）を行うことができる。アプリケーション層では、前記モデルのパラメータ（510）は、応用（310）に直接適用することができる。なぜなら、モデルのパラメータ（510）を得た後に、「顕性」のベクトル分解（308）があるかどうかは、重要でないからである。幾つかのモデルでは、モデルのパラメータ（510）を研究対象情報のある応用に直接適用することは、対象情報を分解した後にさらに適用することに相当する。

本発明の一実施方式によれば、マルチビューベクトルの処理方法が提供され、そのうち、前記マルチビューベクトルxは、少なくとも２つの分離不可能なビューの情報を含む対象を表すために用いられる。該方法は、該マルチビューベクトルのモデルを形成し、それが少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
（外１）

を含むようにさせるモデル化ステップ；及び、前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外２）

のパラメータを得るトレーニングステップを含む。該実施方式により、即ち、マルチビューベクトルxについて次のようなモデルを形成し、また、トレーニングを行うことでモデルのパラメータを得ることにより、該マルチビューベクトルx中の各成分の影響を得ることができる。

そのうち、Ciは、各ビューの成分であり、iは、ビューの順番号である。

前記全体平均値は、各ビューの成分に割り当てることもできるので、一実施方式では、前記全体平均値μを0と設定することができる。これにより、該モデルは、次のように表すことができる。

また、各ビューの成分Ciは、対応するビューの空間の基底S_iと、該ビューの特定選択（所定選択）の係数u_iとの積と見なすことができ、そのうち、iは、ビューの順番号である。即ち、

である。

前記ノイズは、対角行列Σを共分散（covariance）とするガウス分布を満足すると見なすことができる。

前記トレーニングステップでは、期待値最大化法（expectation maximization（EM）algorithm）により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底S_i、及び前記Σを得ることができる。具体的に言えば、μ、S_i、及びΣに基づいて、前記各ビューの成分についての特定選択、xのすべてのサンプルの平均値の期待値、及び前記各ビューの成分についての特定選択の、共分散に関する期待値を計算し、そして、前記期待値に基づいて、μ、S_i、及びΣを再び計算することができ、また、このような処理は、収束するまで行うことができる。

便宜のために、２つのみのビューを例とする。例えば、「スピーカー」（話す人）及び「テキスト」という２つのビューを含む語音から抽出された声紋（即ち、マルチビューベクトル）を例とする。トレーニングデータにI個のスピーカー及びJ種類のテキストがあり、また、各種類のテキストについて各スピーカーがH_ij個のセグメントの語音に対応するとする。第i個目のスピーカーの第j種類のテキストの第k個目のセグメントの語音に対応するマルチビュー声紋は、x_ijkとする。この場合、式（3）は、次のようになる。

そのうち、μは、すべてのx_ijkの平均値、即ち、全体平均値を表し、S及びTは、それぞれ、スピーカーというビューの空間の基底及びテキストというビューの空間の基底を表し、Sに関するビューの第i種類の選択の係数は、u_iであり、Tに関するビューの第j種類の選択の係数は、v_jである。
（外３）

は、ノイズ信号（それは、対角行列Σを共分散とするガウス分布を満足する）を表す。ｋは、前記選択の場合の第k種類のサンプルを表す。θ={μ，S，T，Σ}とし、マルチビューベクトルのモデル中のすべてのパラメータを含み、また、以下の説明を簡略化するために、B=[S T]とする。さらに、モデル中のパラメータが次のような分布、即ち、

に符合するとする。

そのうち、N(x｜μ，Σ)は、平均値がμであり且つ分散（variance）がΣである正規分布である。言い換えると、パラメータθの前提で、S及びTに関する２つのビューの特定選択u_i及びv_jについて、マルチビューベクトルx_ijkの分布は、μ+Su_i+Tv_jを平均値とし且つΣを方差とする正規分布である。u_i及びv_j自身は、それぞれ、平均値が0であり且つ方差が単位行列Iである正規分布である。

前述の期待値最大化法の基本プロセスは、次の通りである。

まず、パラメータθ={μ，S，T，Σ}をランダムに初期化する。

その後、トレーニングデータにすべてI個のスピーカー及びJ種類のテキストがあり、また、各種類のテキストについて各スピーカーがH_ij個のセグメントの語音に対応する場合のマルチビューベクトル（声紋）X={x_ijk：i=1，…，I；j=1，…，J；k=1，…，H_ij}について、次のように計算する。

そのうち、式（6）は、Xのすべてのサンプルの平均値の期待値であり、式（7）は、前記各ビューの成分についての特定選択の、共分散に関する期待値である。そのうち、θ_tは、第tステップのパラメータθである。初回の反復、即ち、t=1の時について、それは、前述のように任意に選択された初期値である。そのうち、

である。

Uは、変数u_iの集合を表し、Vは、変数v_jの集合を表し、そのうち、Zと、U及びVとの関係は、×（外積）の関係と表しても良く、即ち、Z=U×Vである。

その後、前述のように計算された期待値に基づいて、新しいパラメータ値を次のように計算する。

その後、新しいパラメータ値を用いて、式（6）及び式（7）の期待値を再び計算し、このような処理を、反復が収束するまで行い、これにより、θ={μ，S，T，Σ}を得ることができる。モデルのパラメータを得たら、これは、各ビューの成分を得たということを意味し、各ビューの成分は、次の通りである。

である。

[2．マルチビューベクトルのモデルの応用]
本発明の実施例によるマルチビューベクトルのモデル化は、任意の情報を表すベクトル、例えば、画像や音声を表すベクトルに適用することができる。そのうち、音声（語音）を表すマルチビューベクトルは、声紋と称することができる。声紋の確認は、既に、多くの分野、例えば、スマートユーザインターフェース、国土安全、テレホンバンキングなどに幅広く応用されている。本発明の実施例によるマルチビュー声紋のモデル化方法に基づいて、さらに声紋の認識方法が提案され、即ち、２つのマルチビュー声紋が同一の人物及び同一種類のテキストに属する、又は属しない尤度（likelihood）を計算し、その後、該尤度を用いて、更なる決定（判断）を行う。

具体的に言えば、前述のように、前記マルチビューベクトル_xijkは、第i個目のスピーカーの、第j種類のテキストについての第k個目のサンプルの声紋を表すことができ、そのうち、u_iは、第i個目のスピーカーの係数であり、v_jは、第j種類のテキストの係数である。そうすると、一実施方式では、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外４）

のパラメータを用いて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じである、及び異なる尤度を計算し、そして、該尤度に基づいて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じであるかを判断することができる。例えば、スピーカーが同じであるかを判断することができ、即ち、身分認識のために用いられても良く；話した内容（語音の内容）が同じであるかを判断することができ、即ち、語音認識又はパスワード確認のために用いられても良い。また、より正確な声紋認識を行うために用いられても良く、例えば、正確な人が正確な内容を話すことを要する場合に用いられても良い。

前述のように得られたモデルのパラメータを用いて、上述の異なるシナリオに基づいて応用することができる。

図5は、２つのビューがすべて同じであるかを判断するシナリオを示す図である。具体的な例（もちろん、この例に限定されない）として、例えば、スピーカー及び話した内容（語音の内容）という２つのビューの特徴を含む声紋が完全に一致するかを判断するために用いられる。図5は、式（4）に対応し、u₁、u₂は、スピーカーというビューの特定選択を表し、v₁、v₂は、語音内容というビューの特定選択を表す。ｘは、各種の組み合わせの語音サンプルであり、εは、式（4）中の最後のノイズ項である。そうすると、左側のパターンM₀は、４つのセグメントの語音の、スピーカー及び語音の内容のうちの１つが異なり又は２つがすべて異なるすべての状況を示している。右側のパターンM₁は、２つのセグメントの語音の、スピーカー及び語音の内容がすべて同じである状況を示している。

そうすると、２つのセグメントの声紋（ターゲット声紋ｘ_ｓ及びテスト声紋ｘ_ｔ）がパターンM₀のうちの４種類の状況に属する尤度、即ち、２つのセグメントの声紋が同一の人物に属しない、又は、同一種類のテキストでない尤度Bを次のように計算することができる。

また、２つのセグメントの声紋（ターゲット声紋ｘ_ｓ及びテスト声紋ｘ_ｔ）がパターンM₁の状況に属する尤度、即ち、２つのセグメントの声紋が同一の人物且つ同一種類のテキストに属する尤度Aを次のように計算することができる。

A＞Bの場合、２つのセグメントの声紋が同一人物且つ同一種類のテキストに属することを意味し、A＜Bの場合、２つのセグメントの声紋が同一人物に属しない、又は、同一種類のテキストでないことを意味する。

さらに、前記尤度を用いて各状況下での確率を計算し、そして、該確率に基づいて、２つのマルチビューベクトルの２つのビューの成分がすべて同じであるか、それとも、少なくとも１つのビューの成分が異なるかを判断することができる。例えば、次のように判断することができる。

P(M₁｜x_t，x_s)＞P(M₀｜x_t，x_s)の場合、即ち、ｘ_ｓ、ｘ_ｔがM₁パターンに属する確率が、ｘ_ｓ、ｘ_ｔがM₀パターンに属する確率よりも大きい場合、２つのセグメントの声紋が完全に同じであり、即ち、同一人物（スピーカー）からのものであり、且つ話した内容が同じであることを意味する。

前述のように、確定されたマルチビューベクトルのモデルのパラメータを用いて、２つのマルチビューベクトルの２つのビューの成分のうちの１つのビューの成分が同じである又は異なる尤度を計算し、そして、該尤度に基づいて、２つのマルチビューベクトルの該１つのビューの成分が同じであるかを判断することもできる。よって、さらに前記尤度を用いて各状況下での確率を計算し、そして、該確率に基づいて、該１つのビューの成分が同じであるかを判断することができる。

ビューの成分u_iが同じである尤度Aは、

である。

ビューの成分u_iが異なる尤度Bは、

（１７）
である。

A＞Bの場合、ビューの成分u_iが同じであり、逆の場合、異なる。また、ビューの成分v_jについての尤度の計算は、同様である。

[3．マルチビューベクトルの抽出]
前記マルチビューベクトルは、表したい対象に対して直接ベクトル化することにより得ることができる。例（もちろん、この例に限定されない）として、例えば、次のような方法を用いて、收集された語音データに対して処理を行うことで、マルチビューベクトルの例の１つ、即ち、声紋を得ることができる。声紋の抽出は、例えば、前述のメル周波数ケプストラム係数（MFCCs）を抽出する方法を採用しても良い。もちろん、当業者が理解すべきは、語音データに対しての処理は、この分野における他の従来の方法を採用しても良いということである。

複数の分離不可能なビューの情報を含む対象からマルチビューベクトルを直接抽出する時に、該対象を全面的に表すことができ、その後、本発明の実施例によるモデル化方法を用いて、大量の対象サンプルに基づいて、前記マルチビューベクトルに対してモデル化を行い、異なるビューの特徴の前記マルチビューベクトルへの影響を反映することができ、これにより、モデル化により得られたモデルをテスト対象に適用し、テスト対象の１つ又は複数のビューの特徴を認識又は利用することができる。

言い換えると、例えば、１つの対象の特徴が分離不可能なビューA及びビューBの影響を受ける場合、本発明では、対象から、ビューBの影響をできるだけ受けないビューAの特徴を直接抽出することやビューAの影響をできるだけ受けないビューBの特徴を直接抽出することを追い求めず、又は、ビューA及びビューBをそれぞれ用いてサンプルを標識することでビューA及びビューBについての分類器をそれぞれトレーニングすることも追い求めない。逆に、本発明では、対象特徴の抽出にあたって、ビューA及びビューBが分離不可能なものである現実を認め、その上で、対象の特徴を一緒に抽出してマルチビューベクトルを形成し、その後、本発明の実施例によるモデル化方法を用いてビューA及びビューBの各自の影響を評価する。

しかし、幾つかの状況では、全く処理されていない対象について、それに影響する要因が幾つかある可能性があり、これらの要因のうち、幾つかが相対的に分離可能なものであり、幾つかが相対的に分離不可能なものである。このとき、もし本来相対的に分離可能なビューも含めば、モデル化及びベクトル分解の計算量が増加し、ひいては、変数の過度の増かが原因で、問題の解を求めることができなくなる可能性もある。このような場合、マルチビューベクトルを抽出する時にまず相対的に分離不可能なビューを除去することを考慮しても良い。

そのうち、１つの方法は、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより、相対的に分離可能なビューを排除して相対的に分離不可能なビューのみを残したマルチビューベクトルを取得する。換言すると、排除されたビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い。なお、ここでの「相対的に分離可能」及び「相対的に分離不可能」は、ともに、相対的な概念であり、絶対的な「分離可能」及び「分離不可能」でない。ひいては、ある場合、例えば、ビューが多い場合、すべてが分離不可能なものである可能性があり、このとき、ユーザの選択により、どのビューを排除するか及びどのビューを残すかを確定することができる。

図6Aに示すように、前記分類器は、次のような方法でトレーニングすることにより得ることができ、即ち、まず、トレーニングサンプル、即ち、研究対象（302）の分離不可能な複数のビューの特徴を同時に標識し（404）、そのうち、標識されないビューと、標識されるビューとの間の分離可能性は、標識されるビューの間の分離可能性よりも高くても良い。その後、標識されたトレーニングサンプルを用いて前記分類器をトレーニングし（406）、これにより、トレーニング後の分類器を取得する（408）。

上述の分類器は、ニューラルネットワークを採用しても良い。トレーニング段階では、トレーニングサンプルを標識し、例えば、関心ある各ビューを標識する。例えば、人物の画像について、関心ある年齢、性別を標識することができる。これらの標識された画像サンプルを用いて、ニューラルネットワークに対してトレーニングを行う。そうすると、トレーニングされたニューラルネットワークを用いてテスト画像に対して処理を行えば、該画像の、年齢及び性別という２つのビューを含むマルチビューベクトルを得ることができる。また、語音のマルチビューベクトルを抽出することもできる。ニューラルネットワークをトレーニングする時のサンプルのために標識したビューの特徴、例えば、年齢、性別、種族、具体的な身分、語種、具体的な語音の内容などにより、トレーニングされたニューラルネットワークを用いてテスト語音サンプルを処理することで得られたマルチビューベクトルは、選択されたこれらのビューの特徴を含む。

図6Bは、分類器のトレーニングからマルチビューベクトル分解までのアーキテクチャを示す。そのうち、分類器のトレーニング段階では、相対的に分離可能なビューS1及びS2は、トレーニングサンプルを標識するために用いられず、分離不可能なビューS3及びS4の特徴は、トレーニングサンプルを同時に標識するために用いられ、これにより、トレーニングサンプル集合を取得し（410）、そして、トレーニングを行うことで分類器を得る（408）。分類器（408）は、テストサンプル集合412中のテストサンプルに対して処理を行い、ビューS3及びS4の情報を含むマルチビューベクトル集合（414）を取得する。なお、マルチビューベクトル集合（414）中のベクトルに基づいてマルチビューベクトルの分解のためのモデルをトレーニングするプロセスが、図6B中で示されていない。該モデルに基づいて、各マルチビューベクトル、例えば、ベクトルx1及びベクトルx2（ベクトルx1及びx2は、マルチビューベクトル集合414に由来しても良く、実際の応用において分類器408により新しく抽出されたマルチビューベクトルであっても良い）を分解することができ、それらをビューS3及びS4の成分に分解することができる。このようなビューの成分の分解は、顕性であっても良く、例えば、幾つかの応用は、１つ又は複数のビューの成分を直接得る必要があり、又は、潜性であっても良く、例えば、上述した声紋比較の実施方式において、表面上で声紋の分解がないが、声紋中の各ビューが同じである又は異なる尤度を計算する時に声紋を分解することが含まれている。

[4．マルチビューベクトルの処理装置]
以上に述べた方法は、コンピュータ実行可能なプログラムにより完全に実現することができ、或いは、部分的に又は完全にハードウェア及び／又はファームウェアにより実現することができる。また、ハードウェア及び／又はファームウェアにより実現する時に、或いは、コンピュータ実行可能なプログラムをプログラム実行可能なハードウェア装置にインストールする時に、以下に述べるマルチビューベクトルの処理装置を実現することができる。以下、上述した細部を省略した上でこのような装置の概略を説明する。なお、このような装置は、上述した方法を実行することができるが、前記方法は、必ずしもこのような装置により実行される必要がない。

一実施方式によれば、マルチビューベクトルの処理装置が提供され、そのうち、前記マルチビューベクトルxは、少なくとも２つの分離不可能なビューの情報を含む対象を表すために用いられる。該装置は、マルチビューベクトルのモデルに対してトレーニングを行うためのトレーニング装置を含み、該マルチビューベクトルのモデルは、少なくとも、次のような成分、即ち、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
（外５）

を含み、該トレーニング装置は、前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外６）

のパラメータを取得する。

同様に、前記全体平均値μは、0と設定されても良い。各ビューの成分は、対応するビューの空間の基底S_iと、該ビューの特定選択の係数u_iとの積に基づいても良く、そのうち、iは、ビューの順番号である。前記ノイズは、対角行列Σを共分散とするガウス分布を満足するように設定することができる。

一実施方式では、前記トレーニング装置は、期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底S_n、及び前記Σを得るように構成されても良い。前記期待値最大化法では、μ、S_n、及びΣに基づいて、前記各ビューの成分についての特定選択、xのすべてのサンプルの平均値の期待値、及び前記各ビューの成分についての特定選択の、共分散に関する期待値を計算し、また、前記期待値に基づいて再びμ、S_n、及びΣを計算することができ、このような処理は、収束するまで行うことができる。

前記マルチビューベクトルは、２つのビューの場合における前記マルチビューベクトルのモデルの表現（expression）を含み、また、モデル中の各種のパラメータ及び変数の分布は、前述した方法の説明を参照することができ、ここでは、その詳しい説明を省略する。

他の実施方式では、少なくとも１つのビューの成分が同じであるかを判断する装置が提供され、それは、尤度評估装置及び判断装置を含み、尤度評估装置は、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外７）

のパラメータを用いて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じである及び異なる尤度を計算し、判断装置は、該尤度に基づいて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じであるかを判断する。

該装置は、さらに確率計算装置を含んでも良く、それは、さらに前記尤度を用いて２つのマルチビューベクトルの少なくとも１つのビューの成分が同じである及び異なる確率を計算し、前記判断装置は、さらに、該確率に基づいて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じであるかを判断するように構成される。

２つのビューの成分がすべて同じであるかを判断する応用の場合、該装置のワーキング方法は、前述の方法の部分に既に説明されているので、ここでは、その詳しい説明を省略する。このとき、該装置は、声紋確認装置であってもよく、それは、テスト声紋とターゲット声紋とが完全に同じであるか、即ち、２つのビューの成分（スピーカー及び話した内容）が完全に同じであるかを判断するために用いられる。

なお、この実施例中の関連する細部は、マルチビューベクトルの処理方法の実施例において記載されているため、ここでは省略される。

[5．本発明の装置及び方法を実施するための計算装置]
上述の装置中の各構成モジュールやユニット（構成要素）は、ソフトウェア、ファームウェア、ハードウェア又はその組み合わせにより構成されても良い。なお、構成時に使用し得る具体的な手段や方式は、当業者にとって周知であるため、ここでは省略される。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから、専用ハードウェア構造を持つコンピュータ（例えば、図7に示すような汎用コンピュータ700）に、該ソフトウェアを構成するプログラムをインストールすることができ、また、該コンピュータは、各種のプログラムがインストールされている時に、各種の機能を実現することができる。

図7では、中央処理装置（CPU）701は、ROM 702に記憶されているプログラム、又は、記憶部708からRAM 703にロードされているプログラムに基づいて、各種の処理を行う。RAM 703には、必要に応じて、CPU 701が各種の処理を実行する時に必要なデータを記憶しても良い。なお、CPU 701、ROM 702及びRAM 703は、バス704を経由して接続される。また、入力／出力インターフェース705も、バス704に接続される。

次のような部品は、入力／出力インターフェース705に接続され、即ち、入力部706（キーボード、マウスなどを含む）、出力部707（表示器、例えば、CRT、LCDなど、及びスピーカーなどを含む）、記憶部708（ハードディスクなどを含む）、及び通信部709（ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む）というような部品である。通信部709は、ネットワーク、例えばインターネットを経由して通信処理を行う。なお、必要に応じて、ドライブ710を入力／出力インターフェース705に接続させても良い。取り外し可能な媒体711、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などは、必要に応じて、ドライブ710にセットされ、その中から読み出されたコンピュータプログラムが必要に応じて記憶部708にインスタールされるようにさせることができる。

ソフトウェアにより上述の一連の処理を実現する場合、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体711から、ソフトウェアを構成するプログラムをインストールすることができる。

なお、当業者が理解すべきは、このような記憶媒体は、図7に示すような取り外し可能な711に限定されないということである。取り外し可能な媒体711は、例えば、磁気ディスク（フロッピーディスク（登録商標）を含む）、ディスク（CD-ROM及びDVDを含む）、光磁気ディスク（MD（登録商標）を含む）、及び半導体記憶器を含む。或いは、記憶媒体は、ROM 702、記憶部分708中のハードディスクなどであっても良い。

本発明は、さらに、マシン可読指令コードを含むプログラムプロダクト（プログラム）に関する。指令コードは、マシン（例えば、コンピュータ）により読み出されて実行される時に、前述の実施例における方法を実現することができる。

それに対応して、前述のようなマシン可読取指令コードを含むプログラムプロダクトを記憶した記憶媒体も本発明の発明に含まれる。該記憶媒体は、フロッピーディスク、光ディスク、光磁気ディスク、メモリカードなどを含むが、これらに限定されない。

また、上述の各実施例に関し、さらに次のような付記を開示する。

（付記1）
マルチビューベクトルの処理方法であって、
前記マルチビューベクトルxは、少なくとも２つの分離不可能なビューの情報を含む対象を表すために用いられ、前記方法は、
前記マルチビューベクトルのモデルを形成し、それに、少なくとも次のような成分、即ち、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
（外８）

を含ませるモデル化ステップ；及び
前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外９）

のパラメータを得るトレーニングステップを含む、方法。

（付記2）
付記1に記載の方法であって、
前記全体平均値μを0と設定する、方法。

（付記3）
付記1に記載の方法であって、
各ビューの成分は、対応するビューの空間の基底S_iと、該ビューの特定選択の係数u_iとの積によるものであり、iは、ビューの順番号である、方法。

（付記4）
付記3に記載の方法であって、
前記ノイズを、対角行列Σを共分散するガウス分布を満足するように設定する、方法。

（付記5）
付記4に記載の方法であって、
前記トレーニングステップは、
期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底S_n、及び前記Σを得ることを含む、方法。

（付記6）
付記5に記載の方法であって、
前記期待値最大化法では、μ、S_n、及びΣに基づいて、各ビューの成分についての特定選択、xのすべてのサンプルの平均値の期待値、及び各ビューの成分についての特定選択の、共分散に関する期待値を計算し、収束するまで、前記期待値に基づいて、μ、S_n、及びΣを再び計算する、方法。

（付記7）
付記4に記載の方法であって、
前記マルチビューベクトルが２つのビューを含み、対応するビューの空間の基底をS及びTとする場合、前記マルチビューベクトルは、

と表され、

そのうち、μは、前記全体平均値を表し、u_iは、空間の基底Sに対応するビューの第i種類の選択の係数であり、v_jは、空間の基底Tに対応するビューの第j種類の選択の係数であり、ε_ijkは、前記ノイズを表し、kは、前記選択の場合の第k種類のサンプルを表す、方法。

（付記8）
付記7に記載の方法であって、
θ={μ，S，T，Σ}及びB=[S T]とする場合、次のような分布、即ち、

を満足し、

そのうち、N(x｜μ，Σ)は、平均値がμであり且つ分散がΣである正規分布であり、Iは、単位行列である、方法。

（付記9）
付記7に記載の方法であって、
前記マルチビューベクトルx_ijkは、第i個目のスピーカーの、第j種類のテキストについての第k個目のサンプルの声紋を表し、u_iは、第i個目のスピーカーの係数であり、v_jは、第j種類のテキストの係数である、方法。

（付記10）
付記1～9のうちの任意の１つに記載の方法であって、さらに、
前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外１０）

のパラメータを用いて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じである及び異なる尤度を計算し、該尤度に基づいて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じであるかを判断することを含む、方法。

（付記11）
付記10に記載の方法であって、さらに、
前記尤度を用いて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じである及び異なる確率を計算し、該確率に基いいて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じであるかを判断することを含む、方法。

（付記12）
付記10に記載の方法であって、
２つのマルチビューベクトル中のすべてのビューの成分がすべて同じであるかを判断するために用いられる、方法。

（付記13）
付記8に記載の方法であって、さらに、
確定されたマルチビューベクトルのモデルのパラメータを用いて、２つのマルチビューベクトルの２つのビューの成分がすべて同じである及びすべて同じでない尤度を計算し、該尤度に基づいて、２つのマルチビューベクトルの２つのビューの成分がすべて同じであるかを判断することを含み、
すべてのビューの成分がすべて同じである尤度Aは、

であり、
少なくとも１つのビューの成分が異なる尤度Bは、

であり、
そのうち、ｘ_tは、テストベクトルを表し、ｘ_sは、ターゲットベクトルを表す、方法。

（付記14）
付記8に記載の方法であって、さらに、
確定されたマルチビューベクトルのモデルのパラメータに基づいて、２つのマルチビューベクトルの２つのビューの成分のうちの１つのビューの成分が同じである及び同じでない尤度を計算し、該尤度に基づいて、２つのマルチビューベクトルの該１つのビューの成分が同じであるかを判断することを含み、
ビューの成分u_iが同じである尤度Aは、

であり、
ビューの成分u_iが異なる尤度Bは、

であり、
そのうち、ｘ_tは、テストベクトルを表し、ｘ_sは、ターゲットベクトルを表し、v_jの計算は、u_iと対称的である、方法。

（付記15）
付記1～9のうちの任意の１つに記載の方法であって、
前記マルチビューベクトルは、表したい対象を直接ベクトル化することにより得られる、方法。

（付記16）
付記1～9のうちの任意の１つに記載の方法であって、
前記マルチビューベクトルは、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより得られる、方法。

（付記17）
付記16に記載の方法であって、
前記分類器は、前記マルチビューベクトルを、表したい対象を直接ベクトル化することで得られた特徴ベクトルから排除することができ、排除されるビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い、方法。

（付記18）
付記16に記載の方法であって、
前記分類器は、次のようなステップによりトレーニングされ、即ち、
トレーニングサンプルの分離不可能な前記複数のビューの特徴を同時に標識し、そのうち、標識されないビューと、標識されるビューとの間の分離可能性は、標識されるビューの間の分離可能性よりも高く；及び
標識されたトレーニングサンプルを用いて前記分類器をトレーニングするステップである、方法。

（付記19）
マルチビューベクトルの処理装置であって、
プロセッサ、及びプログラムを記憶した記憶媒体を含み、
前記プログラムは、プロセッサにより実行される時に、付記1～17のうちの任意の１つに記載の方法を実現する、装置。

（付記20）
プログラムを記憶したコンピュータ可読記憶媒体であって、
前記プログラムは、プロセッサにより実行される時に、付記1～18のうちの任意の１つに記載の方法を実現する、コンピュータ可読記憶媒体。

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は本発明の技術的範囲に属する。

Claims

マルチビューベクトルを処理する方法であって、
前記マルチビューベクトルxは、少なくとも２つの分離不可能なビューの情報を含む対象を表すために用いられ、前記方法は、
前記マルチビューベクトルのモデルを形成し、該モデルに、少なくとも、前記マルチビューベクトルの全体平均値μ、前記マルチビューベクトルの各ビューの成分、及びノイズ
（外１１）

という成分を含ませるモデル化ステップ；及び
前記マルチビューベクトルxのトレーニングデータを用いて、前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外１２）

のパラメータを取得するトレーニングステップを含み、
前記マルチビューベクトルは、分類器を用いて、対象を直接ベクトル化することで得られた特徴ベクトルを処理することにより得られ、
前記分類器は、前記マルチビューベクトルを、対象を直接ベクトル化することで得られた特徴ベクトルのうちから排除することができ、排除されるビューと、前記マルチビューベクトルの複数のビューとの間の分離可能性は、前記複数のビューの間の分離可能性よりも高い、方法。
請求項１に記載の方法であって、
各ビューの成分は、該ビューの空間の基底S_iと、該ビューの特定選択の係数u_iとの積によるものであり、iは、ビューの順番号である、方法。
請求項２に記載の方法であって、
前記ノイズは、対角行列Σを共分散するガウス分布を満足するように設定される、方法。
請求項３に記載の方法であって、
前記トレーニングステップは、
期待値最大化法により、前記トレーニングデータを用いて、前記全体平均値μ、各ビューの空間の基底S_n、及び前記Σを取得することを含む、方法。
請求項４に記載の方法であって、
前記マルチビューベクトルが２つのビューを含み、対応するビューの空間の基底をS及びTとする場合、前記マルチビューベクトルは、

と表され、
そのうち、μは、前記全体平均値を表し、u_iは、空間の基底Sに対応するビューの第i種類の選択の係数であり、v_jは、空間の基底Tに対応するビューの第j種類の選択の係数であり、ε_ijkは、前記ノイズを表し、kは、前記選択の場合の第k種類のサンプルを表す、方法。
請求項１～５のうちの任意の１つに記載の方法であって、
前記全体平均値μ、各ビューの成分のパラメータ、及び前記ノイズ
（外１３）

のパラメータを用いて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じである尤度、及び、２つのマルチビューベクトルの少なくとも１つのビューの成分が異なる尤度を計算し、前記尤度に基づいて、２つのマルチビューベクトルの少なくとも１つのビューの成分が同じであるかを判断する判断ステップをさらに含む、方法。
請求項６に記載の方法であって、
２つのマルチビューベクトル中のすべてのビューの成分がすべて同じであるかを判断するために用いられる、方法。
マルチビューベクトルの処理装置であって、
プロセッサと、プログラムを記憶した記憶媒体と、を含み、
前記プログラムは、プロセッサにより実行される時に、請求項１～７のうちの任意の１つに記載の方法を実現する、処理装置。