JP6923089B2 - 情報処理装置、方法およびプログラム - Google Patents

情報処理装置、方法およびプログラム Download PDF

Info

Publication number
JP6923089B2
JP6923089B2 JP2020542351A JP2020542351A JP6923089B2 JP 6923089 B2 JP6923089 B2 JP 6923089B2 JP 2020542351 A JP2020542351 A JP 2020542351A JP 2020542351 A JP2020542351 A JP 2020542351A JP 6923089 B2 JP6923089 B2 JP 6923089B2
Authority
JP
Japan
Prior art keywords
matrix
data
feature
basis
decomposition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020542351A
Other languages
English (en)
Other versions
JP2021513701A (ja
Inventor
チャイタニャ ナリセッティ
チャイタニャ ナリセッティ
玲史 近藤
玲史 近藤
達也 小松
達也 小松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2021513701A publication Critical patent/JP2021513701A/ja
Application granted granted Critical
Publication of JP6923089B2 publication Critical patent/JP6923089B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface

Description

本発明の実施形態は、広く機械学習のモデル訓練の分野に関する。
パターン認識に対する広いそしてますます増大する関心は、少し例を挙げれば、セキュリティ、医学、および、画像、テキスト、発話の認識に関連する応用へのその適用性から主に生じている。一般に、これらの応用は、データパターンを学習するための機械学習技術を利用しており、そうすると、それらを検出して特定することが可能となる。データパターンを学習するための周知の技術の1つは、行列分解、特に非負値行列因子分解であり、画像および発話に関連する応用において頻繁に用いられる。そのような応用の例は、音声パターンが最初に学習され次に任意の与えられた音声データ入力において検出される、音響イベント検出である。学習および検出のこのプロセスは、今後本発明において、それぞれ訓練およびテストと呼ばれる。
大まかに言って、訓練プロセスにおいて、いくつかのパターンまたは特徴が教師データ入力から抽出され、モデルがそれらに対して訓練される。テストプロセスにおいて、類似の特徴がテストデータ入力から抽出され、訓練されたモデルがこれらの特徴が教師データの特徴と合致するかどうか検出する。この訓練およびテストプロセスは、データ入力の1つのタイプまたはクラスだけには限定されない。モデルは、データ入力の異なるタイプまたはクラスの間で分類するように訓練することもできる。
1つのクラスの教師データは、異なるタイプのソースまたは事例から得ることができる。例えば、叫び声のデータ入力において、叫んでいる男性の100の音声サンプルおよび叫んでいる女性のたった1つの音声サンプルを有することがありうる。これが、データアンバランスの問題を生じさせる。この問題は、異なるクラスサイズからも生じうる。一例は、猫のクラスの100の画像および犬のクラスのたった10の画像を有するデータ入力である。
モデルの多くは、各クラスの全データまたはすべてのクラスの全データを使用して広く訓練される。そのようなモデル訓練を実行するときに、各クラスのデータおよびすべてのクラスのデータがバランスしていると仮定される。この仮定を満たす1つの可能な方法は、用いられるデータ、例えば画像、音声またはテキスト、のデータベースを、1つのクラスの全てのタイプのソースの等しい数の事例を有し、すべてのタイプのクラスに対して総事例の数が等しくなるように製作することである。しかしながら、そのような制約を守るのは困難である。
したがって、その克服のために通常用いられる技術は、データ入力の特徴をサブセットにクラスタ化して各サブセットをモデル化し、それにより混合モデルを生成するというものである。その核心において、混合モデルは、特徴の全体セットの内部に存在する特徴サブセットを表す。一例は、その潜在変数として混合の数を有する混合ガウスモデルである。
この方法のための従来技術が、非特許文献1に記載されている。訓練段階において、特徴ベクトルが教師データから抽出され、特徴ベクトルクラスタのセットにクラスタ化される。教師データのデータラベルを用いた、特徴ベクトルクラスタのセットに対する訓練を通して、モデルパラメータが生成される。生成されたモデルパラメータは、テスト段階で用いられるように保存される。テスト段階において、特徴ベクトルがテストデータから抽出され、テストデータは、モデルパラメータを用いてそのテスト特徴ベクトルを照合することによって特定される。
特徴ベクトルのセットごとにクラスタの正確な数を算定することは、モデルのオーバーフィットまたはアンダーフィットをしないようにするために重要である。クラスタの正確な数が指定されれば、モデルはデータアンバランスを克服して、効果的に教師データをクラスタ化する。しかしながら、教師データが相当に大きいときに、および/または、相関を有するイベント/クラスが存在する場合に、教師特徴ベクトルは多くの相関を有しがちである。このようなクラスタリング手法は、異なるクラスの特徴ベクトルの間に存在する相関を抽出したり、特定のクラスの異なるクラスタの特徴ベクトルの間の相関を抽出したりすることには適していない。なお、「イベント」および「クラス」という言葉は、この特許の全体にわたって互換的に用いられる。
系列データが特徴行列(特徴ベクトルのセット)として表されるときに、行列分解はその系列データに存在するそのような相関を算定する。特徴行列(V)を、N個の特徴ベクトル{vi}、1<=i<=N、のセットとして定義する。特徴ベクトルの分解は以下の通りである。
式1
Figure 0006923089
ここで、各ベクトルviが、基底ベクトル{wk}、1<=i<=N、の線形結合として近似される。
一般に、kはNよりずっと小さい。これは、特徴行列Vを算定するのに、ほんの少数の基底ベクトルだけで十分であることを意味する。基底ベクトルのセットは基底行列(W)であり、H={Hkj}、1<=k<=K、1<=i<=N、がアクティベーションのセットまたはアクティベーション行列である。より簡潔には、Vは以下の通りに分解される。
式2
Figure 0006923089
ここで、上記の式の記号は近似同等を表す。
行列分解の普及している例の1つは、非負値行列因子分解(NMF;Non-Negative Matrix Factorization)である。NMFにおいてWが固定されているときには、教師ありNMFと呼ばれる。事前情報を有する、および有しないNMFを用いてWが算定される場合、それぞれ、半教師あり、および教師なし、と呼ばれる。
上述の相関を考慮に入れる従来技術の非特許文献2は、非負値行列因子分解の概念を用いる。訓練段階において、特徴ベクトルは、教師データから抽出され、基底行列およびアクティベーション行列に分解される。教師データのデータラベルを用いた、アクティベーション行列に対する訓練を通して、モデルパラメータが生成される。テスト段階において、特徴ベクトルは、テストデータから抽出され、訓練段階で生成されたものとして基底行列が固定された状態でアクティベーション行列に分解される。テストデータは、モデルパラメータを用いてそのアクティベーション行列を照合することによって特定される。
Vuegen, L., et al., "An MFCC-GMM approach for event detection and classification," IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), 2013. Ludena-Choez, Jimmy, and Ascension Gallardo-Antolin, "NMF-based spectral analysis for acoustic event classification tasks," International Conference on Nonlinear Speech Processing, 2013.
非特許文献1は、特徴のクラスタリングを実行することによって、データアンバランスの問題を扱う。しかしながら、一対のクラスタの間に存在する相関を考慮しない。これが、教師データ全体の不十分なモデリングの原因となる。
非特許文献2は、基底およびアクティベーション行列を算定する教師なし分解を実行することによって、教師データ間の相関の問題を扱う。そのような行列分解は、全データのコスト関数を最小化するように実行される。しかしながら、行列分解のためのコスト関数は、教師データのすべての特徴ベクトルに、等しい優先度を与える。そのため、教師データに冗長性があるときには、算定された基底ベクトルは教師データのより大きなサブセットのコスト関数を最小化することに焦点を合わせ、それにより、より小さなサブセットを無視する。
本発明の目的は、教師データ間のデータアンバランスおよび相関を考慮した、教師データのより良い表現を得る新規な方法を提供することである。
本発明は、1)複数の教師データを取得し、各教師データから特徴データを抽出し、抽出された特徴データを用いて、複数の教師データを複数のデータクラスタに分割するクラスタリング部、2)データクラスタの教師データから特徴行列を抽出すること、および、特徴行列に対して行列分解を実行して第1の基底行列を生成すること、をデータクラスタごとに実行する第1の分解部、3)複数の第1の基底行列の結合に対する次元縮小を実行して第2の基底行列を生成する次元縮小部、および、4)第2の基底行列を用いて、複数の特徴行列の結合に対する行列分解を実行し、それによりアクティベーション行列を生成する第2の分解部、を備える情報処理装置を提供する。
本発明は、コンピュータによって実行される方法を提供する。この方法は、1)複数の教師データを取得し、各教師データから特徴データを抽出し、抽出された特徴データを用いて、複数の教師データを複数のデータクラスタに分割すること、2)データクラスタの教師データから特徴行列を抽出すること、および、特徴行列に対して行列分解を実行して第1の基底行列を生成すること、をデータクラスタごとに実行すること、3)複数の第1の基底行列の結合に対する次元縮小を実行して第2の基底行列を生成すること、および、4)第2の基底行列を用いて、複数の特徴行列の結合に対する行列分解を実行し、それによりアクティベーション行列を生成すること、を含む。
本発明は、本発明により提供される方法をコンピュータに実行させるプログラムを提供する。
本発明に従い、教師データ間のデータアンバランスおよび相関を考慮した、教師データのより良い表現を得る新規な方法が提供される。
上述の目的、他の目的、特徴および利点は、後述する好適な実施形態および以下の添付の図面から、より明らかとなる。
図1は、実施形態1の情報処理装置がどのように作用するかの概要を例示する。 図2は、実施形態1の情報処理装置2000の機能ベースの構成を例示するブロック図である。 図3は、実施形態1の情報処理装置2000を実現するコンピュータ1000のハードウェア構成の例を示すブロック図である。 図4は、実施形態1の情報処理装置2000によって実行される処理の流れを例示するフローチャートである。 図5は、各イベントに対して実行されるクラスタリングを例示する。
以下、本発明の実施形態が、添付の図面を参照して記載される。すべての図面において、類似の要素は類似の参照番号によって参照され、それについての説明は繰り返されない。
実施形態1
<概要>
図1は、実施形態1の情報処理装置(図2では情報処理装置2000として示す)がどのように作用するかの概要を例示する。情報処理装置2000は、複数の教師データを取得する。教師データごとに、情報処理装置2000は、教師データに関連する特徴データを抽出する。特徴データは、特徴のタイプに応じて、一次元の値から多次元ベクトルまで変化しうる。
情報処理装置2000は、抽出された特徴データを用いて複数の教師データをデータクラスタに分割する。データクラスタごとに、情報処理装置2000は、データクラスタの教師データから特徴行列を抽出して、特徴行列に対して行列分解を実行する。その結果、第1の基底行列、すなわち基底ベクトルのセット、が各データクラスタに対して生成される。情報処理装置2000は、生成された第1の基底行列を単一のマトリックスに結合し、第1の基底行列の結合に対して次元縮小を実行して、それにより第2の基底行列を生成する。
第2の基底行列を用いて、情報処理装置2000は、再び行列分解を実行する。この行列分解は、データクラスタから生成された全ての特徴行列の結合に対して実行される。この行列分解の結果、アクティベーション行列が生成される。このアクティベーション行列は、パターン認識のテスト段階のためのモデルパラメータを生成するために用いられる。
<作用効果>
実施形態1の情報処理装置2000によれば、教師データから抽出された複数の特徴データが用いられ、教師データは複数のデータクラスタに分割され、各データクラスタから特徴行列が抽出されて、各特徴行列に対して行列分解が実行される。各データクラスタに対するこの行列分解を実行することによって、行列分解に対するデータアンバランスの影響が軽減される。
加えて、教師データ間の相関は、行列分解および次元縮小を通して効果的に取り除かれる。具体的には、同じデータクラスタの特徴ベクトル間の相関は、各データクラスタに対して実行される行列分解を通して減少する。次元縮小に関しては、異なるデータクラスタの特徴間の相関を減少させる。
最後に、モデル訓練において用いられるアクティベーション行列が、第2の基底行列(すなわち上述の次元縮小の出力)を用いて、特徴行列に対する行列分解を通して生成される。特徴行列に関しては、各々が、データアンバランスの影響が上記の通りクラスタリングを通して減少して、効果的に抽出される。第2の基底行列に関しては、教師データ間の相関が上記のとおり十分に除去される。そのような特徴行列および第2の基底行列を用いることによって、アクティベーション行列のより効果的な抽出が実現する。その結果、このアクティベーション行列に対する訓練によって、より良いモデルパラメータを得ることができる。
以下の記述において、本実施形態の情報処理装置2000の詳細が説明される。
<機能ベースの構成の例>
図2は、実施形態1の情報処理装置2000の機能ベースの構成を例示するブロック図である。情報処理装置2000は、クラスタリング部2020、第1の分解部2040、次元縮小部2060、および第2の分解部2080を含む。クラスタリング部2020は、複数の教師データを取得し、各教師データから特徴データを抽出して、抽出された特徴データを用いて、複数の教師データを複数のデータクラスタに分割する。データクラスタごとに、第1の分解部2040は、データクラスタの教師データから特徴行列を抽出して、特徴行列に対して行列分解を実行して第1の基底行列を生成する。次元縮小部2060は、複数の第1の基底行列の結合に対して次元縮小を実行して、第2の基底行列を生成する。第2の分解部2080は、第2の基底行列を用いて複数の特徴行列の結合に対して行列分解を実行し、それにより、アクティベーション行列を生成する。
<ハードウェア構成の例>
一部の実施形態では、情報処理装置2000に含まれる各機能部は、少なくとも1つのハードウェア構成要素で実装されてもよく、各ハードウェア構成要素は一つ以上の機能部を実現してもよい。一部の実施形態では、各機能部は、少なくとも1つのソフトウェア構成要素によって実装されてもよい。一部の実施形態では、各機能部は、ハードウェア構成要素およびソフトウェア構成要素の組合せによって実装されてもよい。
情報処理装置2000は、情報処理装置2000を実装するために製造された特別な目的のコンピュータによって実装されてもよく、また、パーソナルコンピュータ(PC)、サーバマシンまたはモバイル機器のような汎用コンピュータによって実装されてもよい。
図3は、実施形態1の情報処理装置2000を実現するコンピュータ1000のハードウェア構成の例を示すブロック図である。図3において、コンピュータ1000は、バス1020、プロセッサ1040、メモリ1060、記憶装置1080、入出力(I/O)インタフェース1100、およびネットワークインタフェース1120を含む。
バス1020は、プロセッサ1040、メモリ1060、記憶装置1080、I/Oインタフェース1100およびネットワークインタフェース1120が、相互にデータを送信および受信するためのデータ伝送チャネルである。プロセッサ1040は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、またはFPGA(Field-Programmable Gate Array)などのプロセッサである。メモリ1060は、RAM(Random Access Memory)などの主記憶装置である。記録媒体1080は、ハードディスク装置、SSD(Solid State Drive)、またはROM(Read Only Memory)などの二次記憶装置である。
I/Oインタフェース1100は、コンピュータ1000と周辺装置、例えばキーボード、マウスまたは表示装置、との間のインタフェースである。ネットワークインタフェース1120は、コンピュータ1000と、コンピュータ1000が他のコンピュータと通信する通信回線と、の間のインタフェースである。
記憶装置1080は、それぞれが情報処理装置2000の機能部(図2を参照)の実装であるプログラムモジュールを格納してもよい。プロセッサ1040は各プログラムモジュールを実行し、それにより情報処理装置2000の各機能部を実現する。
<処理の流れ>
図4は、実施形態1の情報処理装置2000によって実行されるプロセスの流れを例示するフローチャートである。クラスタリング部2020は、複数の教師データを取得する(S102)。クラスタリング部2020は、各教師データから特徴データを抽出する(S104)。クラスタリング部2020は、抽出された特徴データに基づいて、教師データを複数のデータクラスタに分割する(S106)。第1の分解部2040は、データクラスタごとに、教師データから特徴行列を抽出する(S108)。データクラスタごとに、第1の分解部2040は、データクラスタから抽出された特徴行列の結合に対して行列分解を実行して、それにより第1の基底行列を生成する(S110)。次元縮小部2060は、第1の基底行列の結合に対する次元縮小を実行して、それにより第2の基底行列を生成する(S112)。第2の分解部2080は、第2の基底行列を用いて特徴行列の結合に対して行列分解を実行し、それによりアクティベーション行列を生成する(S114)。
<教師データ取得:S102>
クラスタリング部2020は、複数の教師データを取得する(S102)。それらは、異なるイベントの一連のデータポイントである。教師データは、定量的データ収集の任意の手段、例えば音センサ、振動センサ、自動車関連センサ、化学センサ、電気センサ、磁気センサ、放射線センサ、圧力センサ、熱センサ、光学センサ、ナビゲーションセンサ、および天気センサ、から取得されてもよい。
教師データを取得するには様々な方法がある。一部の実施形態では、クラスタリング部2020は、教師データを保存する記憶装置から教師データを取得してもよく、その記憶装置は情報処理装置2000の内部に、または外部に取り付けられてもよい。一部の実施形態では、クラスタリング部2020は、教師データを生成する装置から送信された教師データを受信する。
一部の実施形態では、教師データは、情報処理装置2000によって、例えば一つ以上の画像を生成するビデオデータまたは一つ以上の音声サンプルを生成する音声データ、などのソースデータから生成されてもよい。生成された教師データは、記憶装置、例えば記憶装置1080に書き込まれる。クラスタリング部2020は、その記憶装置から教師データを取得する。
なお、各教師データは、あらかじめクラスまたはイベントの1つに分類される。例えば、クラスタリング部2020は、叫び、または談話、のような音声イベントの1つをタグ付けされた音声サンプルを取得する。この場合、クラスタリング部2020は、各イベントに対してクラスタリングアルゴリズムを実行してもよい。図5は、各イベントに対して実行されるクラスタリングを例示する。
<特徴抽出:S104>
クラスタリング部2020は、教師データに関連する特徴データ、例えば、音声データについてのメル周波数ケプストラム係数およびスペクトログラム、および、画像についての強度およびテクスチャ、を抽出する。教師データから特徴データを抽出するための様々な周知技術があり、クラスタリング部2020はそのような周知技術のいずれを用いてもよい。
<特徴データのクラスタリング:S106>
クラスタリング部2020は、教師データを、それらの特徴データに基づいて複数のデータクラスタに分割する(S106)。データクラスタは、{Cp}、1<=p<=P、と表され、ここでPはデータクラスタの総数を示す。クラスタリング部2020は、互いに類似である特徴データのセットを特定して、それらの対応する教師データを同一のデータクラスタに入れる。これらのデータクラスタのセット{Cp}は、非特許文献1のものと同様であり、非特許文献1においては、各クラスタはモデルを有し、それらの混合モデルは取得された教師データの訓練モデルとして用いられた。
クラスタリング部2020は、教師あり、半教師あり、または教師なしクラスタリング技術を用いてもよい。例えば、多変量ガウシアン、k−meansまたは階層的クラスタリング手法が用いられてよいが、それらには限定されない。
<相関抽出>
情報処理装置2000は、第1の分解部2040および次元縮小部2060を用いて、データクラスタのセット間の相関を抽出し可変性を特定する。相関抽出は、各データクラスタの個々の特徴を、より少数の潜在変数または非観測変数の線形結合としてモデリングすることによって実現される。多数のデータクラスタがあるときに、これが今度は多数の潜在変数の原因となる。多数の潜在変数は、それらの間の相関の問題をやはり引き起こす。それで、各データクラスタの潜在変数の全てのセットから算定される潜在変数の、よりコンパクトな表現を特定することによって、次元は更に減少する。潜在変数のこれらのコンパクトなセットは、クラスタサイズに対する何の偏りも無くすべてのデータクラスタを表す。これは、潜在変数のコンパクトなセットが、全ての教師データを効率的に表すことができることを意味する。
<<特徴抽出:S108>>
第1の分解部2040は、各データクラスタについて特徴ベクトルを抽出し、それにより、各データクラスタCpについて特徴行列{Vp}、1<=p<=P、を生成する。具体的には、特徴行列Vpは、データクラスタCpの教師データから抽出された特徴ベクトルの結合である。この特徴抽出は、特徴が教師データのタイプに関連するという意味で、クラスタリング部2020によって実行されるものと同様である。しかしながら、相違は、データクラスタのこれらの特徴が行列分解のために用いられるということである。したがって、特徴が少なくとも2つの次元を有するベクトルであることが必須である。
図4に例示する全体プロセスのフローチャートにおいて、S104およびS108の2つの特徴抽出ステップがあり、それらの必要性を区別する必要を正当としている。S104で抽出される特徴データは、クラスタリング技術に適した特徴である。すなわち、抽出された特徴データは、意味があるクラスタを抽出するときに効率的でなければならない。音声データの混合ガウスモデルベースのクラスタリングについて主に用いられる特徴の例は、メル周波数ケプストラム係数(MFCC;Mel-Frequency Cepstral Coefficients)である。しかしながら、S108においてデータクラスタから抽出される特徴行列は、行列分解技術に対して効率的な特徴である。パワースペクトログラム行列は、音声データから抽出される一般的な特徴の一つであり、下位潜在因子(基底およびアクティベーション行列)を抽出するために非負値行列因子分解技術において用いられる。
<<第1の行列分解:S110>>
第1の分解部2040は、各特徴行列を分解し、それにより特徴行列それぞれの第1の基底行列を生成する(S110)。以下、特徴行列{Vp}から生成される第1の基底行列は{Wp}と表示される。加えて、第1の分解部2040によって実行される行列分解は、第2の分解部2080によって実行される行列分解と区別するために、「第1の行列分解」と記載される。
大部分の行列分解は、コスト関数が最小化されるまで、基底およびアクティベーション行列を反復的に更新する。教師なしケースについては、基底行列およびアクティベーション行列は、一般にランダム値によって初期化され、反復的に更新される。各データクラスタCpが、クラスタCpの内部のデータ点の全てが互いに類似であるように算定されるので、WpがCpの効率的な表現であることは直観的に理解できることである。
行列分解には様々な技術がある。第1の分解部2040は、教師無し行列分解技術、例えば主成分分析(PCA;Principal Component Analysis)、独立成分分析(ICA;Independent Component Analysis)、非負値行列因子分解(NMF)、固有値分解(EVD;Eigen value decomposition)および特異値分解(SVD;Singular value decomposition)、のいずれを用いてもよい。
<<次元縮小:S112>>
次元縮小部2060は、複数の第1の基底行列を単一の行列に結合して、第1の基底行列の結合に対して次元縮小を実行して、それにより第2の基底行列を生成する(S112)。おそらく、数多くのデータクラスタCpが存在し、それは数多くの基底行列Wpが存在することを意味し、それにより、基底ベクトル全体がより多数であることを意味する。基底ベクトルの総数は、すべての基底行列の列の総数である。これは、同様に基底行列Wp間の相関も存在することを意味する。そのため、第1の基底行列から冗長性を低減するための余地がまだ存在しうる。
基底ベクトルの冗長性を低減する1つの可能な方法は、以下の通りすべての第1の基底行列の水平結合である基底行列Wallの全体セットを表すことが可能な基底ベクトルの、より小さいセットを見いだすことである。
式3
Figure 0006923089
次元縮小部2060は、第1の基底行列{Wp}を、それらを水平に結合することによって単一の行列Wallに結合して、Wallに対する次元縮小を実行することによって、WallからWcを生成する。Wcの次元はWallの次元より小さい。次元縮小には様々な技術、例えばPCA、NMF、カーネルPCA、グラフベースカーネルPCA、線形判別分析(LDA;Linear Discriminant Analysis)および一般化判別分析(GDA;Generalized Discriminant Analysis)、がある。次元縮小部2060は、これらの技術のいずれを用いてもよい。
<第2の行列分解:S114>
第2の分解部2080は、複数のデータクラスタ{Cp}の特徴行列{Vp}を単一の行列Vallに結合して、第2の基底行列Wcを用いてVallを分解し、それによりアクティベーション行列を生成する(S114)。Vallは、以下の通りすべての特徴行列の水平結合である。
式4
Figure 0006923089
本実施形態において、第2の分解部2080は、次元縮小部2060によって生成されたWcとして基底行列を固定することによって、教師あり分解を実行する。なお、以下、第2の分解部2080によって実行される行列分解は、第1の分解部2040によって実行される行列分解、すなわち第1の行列分解と区別するために、「第2の行列分解」と記載される。第2の行列分解によって、アクティベーション行列Hallは、以下のように算定される。
式5
Figure 0006923089
基底行列が固定されるので、第2の分解部2080は、例えばコスト関数の最小化を通してアクティベーション行列だけを反復的に更新する。アクティベーション行列Hallは、アクティベーションベクトルのセットである。
様々な教師あり行列分解技術、例えばサポートベクトルマシン(SVM)、ニューラルネットワーク、閾値化、決定木、k−近傍法、ベイジアンネットワーク、ロジスティック回帰およびランダムフォレスト、が存在する。第2の分解部2080は、教師あり行列分解技術のいずれを用いてもよい。
<情報処理装置2000の応用>
データアンバランスは、音声、画像およびビデオ処理分野で顕著である。実施形態1の情報処理装置の応用例として、音声イベント検出(別個の音声イベントの訓練および検出)が以下に例示される。なお、以下の例は本発明の範囲を限定しない。
4つのタイプの音声イベントを、任意の与えられた音声信号中に特定および検出するために訓練する応用を考える。4つのイベントを、叫び、談話、発砲およびノイズであるとする。ここで、ノイズは、叫びも、談話も、発砲もいずれも含まないバックグランド音声ノイズを指す。イベント検出のこの応用で、ノイズデータは、検出の対象ではないイベントとしての役割を果たす。
そのような音声イベントのデータアンバランスは、主に音声ソースにおけるバリエーションのために発生する。例えば、男性、女性、子供その他の叫びは、異なる特徴を有する。同様なのが、ショットガン、拳銃その他の発砲の場合である。アンバランスはそのような音声ソースのデータの冗長性からもたらされうる。例えば、叫びというイベントデータは、子供からの100のサンプル、女性からの10のサンプル、および男性からの2つのサンプルを含む。同様に、個々のイベントごとに、未知の数の音声ソースおよび未知の数のそれらのサンプルが存在しうる。上述した4つのイベントのラベルは既知であると仮定されるが、各イベント内の音声ソース間のアンバランスは既知ではない。そのようなアンバランスなデータに対する訓練は、結果として1つの音声ソースの他に対する過剰提示になることがありえる。
この問題に取り組むために、実施形態1の情報処理装置2000は、イベントデータをクラスタ化して、音声ソースおよびそれらそれぞれのサンプルの総数を、クラスタリング部2020によってざっと算定する。音声信号にてクラスタを特定するために、ケプストラム係数、デルタケプストラム係数、スペクトログラムのような周知の特徴ベクトルを用いることができるが、これらに限定はされない。
なお、音声信号は時系列データであり、そのため、それぞれが少数の離散的な音声ポイントを含む重なり合う窓に分割する(窓化処理)ことができる。特徴ベクトルは、与えられた窓中のポイントの意味のある修正表現である。音声信号の周波数は、そのような周知の意味のある情報の1つである。
音声データ、イベントおよび特徴の性質の一般的概念が以下に与えられる。音声信号は、音声の離散的な表現である。48kHzのサンプリング周波数を有し、各サンプルが16ビットを用いて表される信号を考慮する。音声イベントは、共通の特徴を有すると特定することができる音声サンプルのグループである。叫びの音声サンプルは、子供、女性または男性の1−2秒の叫びからサンプル抽出することができ、類似のサンプルを他のイベントについても取得することができる。100msの窓長および50msの窓シフトを有する1秒の持続時間の音声サンプルの窓化処理は、0−100ms、50−150ms、100−200ms、...、900−1000msでサンプル抽出されるポイントの窓を出力する。各窓の円滑な開始および終了を確実にするために、ハン窓を用いることができる。ケプストラム係数(CC)の特徴ベクトルは、ポイントの各窓から算定することができる。実用のためには、各CCベクトルの次元は、10から15の範囲とすることができる。これらの特徴ベクトルに基づいて、イベントデータを、データクラスタのいくつかのセットにクラスタ化することができる。
第1の分解部2040は、各データクラスタの特徴行列に対する行列分解を実行し、それにより、特徴行列のより単純な表現、すなわち第1の基底行列のセット、を抽出する。スペクトログラムに関連する特徴行列の行列分解技術は、NMFである。スペクトログラムの振幅が音声信号に存在する周波数成分の情報を有するので、特徴行列から相関を抽出するためにNMFを用いることができる。この応用の特徴行列は特徴ベクトルのセットであり、それぞれが各データクラスタの音声の窓化処理から取得した窓のデータポイントを表す。
なお、音声ソースは別個である(例えば、子供、女性および男性)が、イベント全体が叫びであり、類似の特性を有する。そのため、音声ソース間の相関が抽出されなければならない。この論法がイベント自体の間の相関にまで広がる、すなわち、叫びおよび談話のイベントデータが、両イベントともに発話自体の形であることから、いくらかの類似特性を有する。
第1の基底行列が各データクラスタについて一旦抽出されると、次元縮小部2060が第1の基底行列{Wp}を結合して単一の行列Wallとし、Wallに対する次元縮小を実行し、それにより、第1の基底行列{Wp}のセットのより単純な表現として第2の基底行列Wcを生成する。そして、第2の分解部2080は、基底行列を第2の基底行列Wcとして固定して、Vall(すなわち特徴行列{Vp}の水平結合)に対する教師あり行列分解を実行することによって、アクティベーション行列Hallを生成する。全体の訓練プロセスを完了するために、アクティベーション行列Hallは既知のイベントラベルを用いてモデル化され、モデルパラメータを取得する。その結果、学習されたモデルは、テストされる音声信号を、訓練されたイベント、叫び、談話および発砲、の1つに分類することができる。
任意の与えられた音声信号中の訓練されたイベントを検出して特定するために、テスト段階を続けて行うことができる。簡単にいえば、テストプロセスは3つの主要なステップを有する。最初に、特徴ベクトルは、窓化されたテスト音声信号から算定される。次に、特徴行列全体の行列分解が、上述の第2の基底行列を用いて、教師ありの方法で行われ、それによりアクティベーション行列を取得する。最後に、取得されたアクティベーション行列が、モデルパラメータを使用して、叫び、談話、および発砲のイベントの可能な検出に対して次にテストされる。
実施形態2
実施形態1において、アクティベーション行列Hallは、Wallに対して実行された次元縮小の結果である第2の基底行列Wcとして基底行列を固定して、教師あり行列分解を用いて算定される。第2の基底行列Wcは特徴ベクトルの有効な表現であるが、それがVallからの直接の算定ではなくWallからの算定であるので、この基底行列を改良する余地がまだある。第2の行列分解のためのより良い基底行列を取得することは、結果としてより良いアクティベーション行列Hallを取得することになる。
より最適な基底行列およびアクティベーション行列を得るために、実施形態2の情報処理装置2000は、基底行列を第2の基底行列Wcとして固定せずに特徴行列Vallに対する第2の行列分解を実行する。具体的には、実施形態2の第2の分解部2080は、ランダムな初期化の代わりに基底行列をWcとして初期化することによって、半教師ありの方法で特徴行列Vallを分解する。
Vallに対する半教師あり行列分解の結果、アクティベーション行列Hallは、以下のように得られる。
式6
Figure 0006923089
WFは、最初の基底行列Wcを反復的に更新することによるコスト関数最小化終了後の、算定された基底行列である。そして、この取得されたHallに対する訓練が、テスト段階で用いられるモデルパラメータを生成するために実行される。
実施形態2の第2の分解部2080は、半教師あり行列分解技術のいずれを用いてもよい。例えば、PCA、ICA、NMF、EVD、およびSVDなどであるが、これらには限定されない。
<作用効果>
基底行列が特徴行列Vallの分解でランダムに初期化されていた場合、データアンバランスのために、最終的な取得された基底行列がすべてのデータクラスタをよく表すという保証はない。一方、実施形態2の情報処理装置によれば、基底行列は、基底行列が第2の基底行列Wcとして初期化されるVallの半教師あり分解を通して、最適基底行列WFに収束する見込みが高い。これは、Wcが各クラスタの基底行列を表し、そのため、すべてのデータクラスタから抽出された特徴を、少なくともランダムに初期化された行列よりも、より近似的に表すためである。
<機能ベースの構成の例>
実施形態1の情報処理装置2000と同様に、実施形態2の情報処理装置2000の機能ベースの構成は、図2によって記載されてもよい。
<ハードウェア構成の例>
実施形態2の情報処理装置2000のハードウェア構成は、実施形態1と同様に図3によって例示されてもよい。しかしながら、本実施形態では、上記の記憶装置1080に保存される各プログラムモジュールは、本実施形態に記載される各機能を実現するためのプログラムを含む。
実施形態3
実施形態2において、第2の行列分解は半教師あり行列分解として実現される。半教師あり行列分解において、基底行列の反復更新ステップは、コスト関数最小化に依存する。コスト関数がより大きいデータクラスタの方に依然として偏るので、この偏りは基底行列の更新ステップに入り込む。この偏りは、初期化にかかわりなく入り込み、そのため、コスト関数最小化終了後に取得される最終的な基底行列に影響する。
実施形態3の情報処理装置2000は、Vall、すなわち特徴行列の全体セット、の正規化を、それらの半教師あり分解の前に導入することによって、ある程度この偏りを軽減する。具体的には、第2の分解部2080は、それぞれのデータクラスタ{Cp}に対する重みパラメータ{qp}、1<=p<=Pを特定する。重みパラメータqpの値は、それがコスト関数に対するデータクラスタCpの重みと比例するように選択される。
重みは、非減少正重み割当技術のいずれを用いて指定されてもよい。例えば、データサイズ、特異値、データサイズの指数的増加関数およびデータ量などであるが、これらには限定されない。
第2の分解部は、特徴行列Vpの正規化版の結合として、特徴行列V´allを以下の通り生成する。
式7
Figure 0006923089
Vallの代わりにV´allに基づいて、第2の分解部2080は、第2の行列分解を実行して、第2の基底行列WFおよびアクティベーション行列Hallを以下のように生成する。
式8
Figure 0006923089
上述の通り、本発明の実施形態が添付の図面を参照して説明されたが、これらの実施形態は単に本発明の実例となるだけであり、上記の実施形態の組合せ、および上述の実施形態中の構成以外の種々の構成も採用することができる。
<作用効果>
上記のとおり、第2の行列分解で、コスト関数はより大きいデータクラスタの方へ偏る傾向があり、この偏りは基底行列の更新ステップに入り込む。実施形態3の情報処理装置2000によれば、この偏りは、特徴行列Vallの正規化を通して軽減される。そのため、より最適な第2の基底行列WFおよびアクティベーション行列Hallを得ることが達成される。
<機能ベースの構成の例>
実施形態2の情報処理装置2000と同様に、実施形態3の情報処理装置2000の機能ベースの構成は、図2によって記載されてもよい。
<ハードウェア構成の例>
実施形態3の情報処理装置2000のハードウェア構成は、実施形態2と同様に図3によって例示されてもよい。しかしながら、本実施形態では、上記の記憶装置1080に保存される各プログラムモジュールは、本実施形態に記載される各機能を実現するためのプログラムを含む。
上述の通り、本発明の実施形態が添付の図面を参照して記載されたが、これらの実施形態は単に本発明の実例となるだけであり、上記の実施形態の組合せ、および上述の実施形態中の構成以外の種々の構成も採用することができる。

Claims (9)

  1. 複数の教師データを取得し、各教師データから特徴データを抽出し、抽出された前記特徴データを用いて、前記複数の教師データを複数のデータクラスタに分割するクラスタリング部、
    前記データクラスタの前記教師データから特徴行列を抽出すること、および、前記特徴行列に対して行列分解を実行して第1の基底行列を生成すること、をデータクラスタごとに実行する第1の分解部、
    複数の前記第1の基底行列の結合に対する次元縮小を実行して第2の基底行列を生成する次元縮小部、および、
    前記第2の基底行列を用いて、複数の前記特徴行列の結合に対する行列分解を実行し、それによりアクティベーション行列を生成する第2の分解部、を備える情報処理装置。
  2. 前記特徴行列の結合の分解において、前記第2の分解部が、基底行列を前記第2の基底行列として固定し、反復的に前記アクティベーション行列を更新する、請求項1に記載の情報処理装置。
  3. 前記特徴行列の結合の分解において、前記第2の分解部が、基底行列を前記第2の基底行列として初期化し、反復的に前記基底行列および前記アクティベーション行列を更新する、請求項1に記載の情報処理装置。
  4. 前記第2の分解部によって生成された前記アクティベーション行列が、パターン認識のテスト段階で用いられるモデルパラメータを学習するために用いられる、請求項1から3のいずれか1項に記載の情報処理装置。
  5. 複数の教師データを取得し、各教師データから特徴データを抽出し、抽出された前記特徴データを用いて、前記複数の教師データを複数のデータクラスタに分割すること、
    前記データクラスタの前記教師データから特徴行列を抽出すること、および、前記特徴行列に対して行列分解を実行して第1の基底行列を生成すること、をデータクラスタごとに実行すること、
    複数の前記第1の基底行列の結合に対する次元縮小を実行して第2の基底行列を生成すること、および、
    前記第2の基底行列を用いて、複数の前記特徴行列の結合に対する行列分解を実行し、それによりアクティベーション行列を生成すること、を含む、コンピュータによって実行される方法。
  6. 前記特徴行列の結合の分解において、基底行列を前記第2の基底行列として固定し、反復的に前記アクティベーション行列を更新する、請求項5に記載の方法。
  7. 前記特徴行列の結合の分解において、基底行列を前記第2の基底行列として初期化し、反復的に前記基底行列および前記アクティベーション行列を更新する、請求項に記載の方法。
  8. 成された前記アクティベーション行列が、パターン認識のテスト段階で用いられるモデルパラメータを学習するために用いられる、請求項5から7のいずれか1項に記載の方法。
  9. 請求項5から8のいずれか1項に記載の方法を、コンピュータに実行させるプログラム。
JP2020542351A 2018-02-16 2018-02-16 情報処理装置、方法およびプログラム Active JP6923089B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/005455 WO2019159318A1 (en) 2018-02-16 2018-02-16 Information processing apparatus, method, and program

Publications (2)

Publication Number Publication Date
JP2021513701A JP2021513701A (ja) 2021-05-27
JP6923089B2 true JP6923089B2 (ja) 2021-08-18

Family

ID=67619832

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020542351A Active JP6923089B2 (ja) 2018-02-16 2018-02-16 情報処理装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US20210064928A1 (ja)
JP (1) JP6923089B2 (ja)
WO (1) WO2019159318A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140635A (zh) * 2021-08-10 2022-03-04 北京工业大学 自表示学习监督的非负矩阵分解方法
JP7199487B1 (ja) 2021-09-02 2023-01-05 三菱電機株式会社 内燃機関制御装置
US11875354B2 (en) * 2021-12-14 2024-01-16 Actimize Ltd. System and methods for identifying counterfeit checks using dimensional reduction of serial numbers
KR102531286B1 (ko) * 2022-03-29 2023-05-12 포티투닷 주식회사 깊이 정보 추정 모델 학습을 위한 데이터 처리 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160013773A1 (en) * 2012-11-06 2016-01-14 Pavel Dourbal Method and apparatus for fast digital filtering and signal processing
JP2015135574A (ja) * 2014-01-16 2015-07-27 日本電信電話株式会社 時空間データ特徴量分類方法および装置
JP6566397B2 (ja) * 2014-08-18 2019-08-28 株式会社デンソーアイティーラボラトリ 認識装置、実数行列分解方法、認識方法
JP6747447B2 (ja) * 2015-09-16 2020-08-26 日本電気株式会社 信号検知装置、信号検知方法、および信号検知プログラム

Also Published As

Publication number Publication date
WO2019159318A1 (en) 2019-08-22
JP2021513701A (ja) 2021-05-27
US20210064928A1 (en) 2021-03-04

Similar Documents

Publication Publication Date Title
JP6923089B2 (ja) 情報処理装置、方法およびプログラム
WO2018203555A1 (ja) 信号検索装置、方法、及びプログラム
US20210056127A1 (en) Method for multi-modal retrieval and clustering using deep cca and active pairwise queries
Massoudi et al. Urban sound classification using CNN
Fontes et al. Classification system of pathological voices using correntropy
CN112750442B (zh) 一种具有小波变换的朱鹮种群生态体系监测系统及其方法
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
Ashraf et al. A globally regularized joint neural architecture for music classification
Mannepalli et al. FDBN: Design and development of Fractional Deep Belief Networks for speaker emotion recognition
Biswas et al. Automatic spoken language identification using MFCC based time series features
Akbal et al. Development of novel automated language classification model using pyramid pattern technique with speech signals
CN106710588B (zh) 语音数据句类识别方法和装置及系统
Al-Talabani et al. Emotion recognition from speech: tools and challenges
Bergler et al. Deep Learning for Orca Call Type Identification-A Fully Unsupervised Approach.
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
Mande et al. EMOTION DETECTION USING AUDIO DATA SAMPLES.
CN112489689A (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
Shah et al. Speech recognition using spectrogram-based visual features
Ruiz-Muñoz et al. Enhancing the dissimilarity-based classification of birdsong recordings
Bang et al. Recognition of bird species from their sounds using data reduction techniques
Zang et al. Fast global kernel fuzzy c-means clustering algorithm for consonant/vowel segmentation of speech signal
CN112687280B (zh) 一种具有频谱-时间空间界面的生物多样性监测系统
Rajasekhar et al. A novel speech emotion recognition model using mean update of particle swarm and whale optimization-based deep belief network
CN114566184A (zh) 音频识别方法及相关装置
Cipli et al. Multi-class acoustic event classification of hydrophone data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200804

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210712

R150 Certificate of patent or registration of utility model

Ref document number: 6923089

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150