JP2021513701A - 情報処理装置、方法およびプログラム - Google Patents
情報処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2021513701A JP2021513701A JP2020542351A JP2020542351A JP2021513701A JP 2021513701 A JP2021513701 A JP 2021513701A JP 2020542351 A JP2020542351 A JP 2020542351A JP 2020542351 A JP2020542351 A JP 2020542351A JP 2021513701 A JP2021513701 A JP 2021513701A
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- data
- feature
- basis
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
式1
ここで、各ベクトルviが、基底ベクトル{wk}、1<=i<=N、の線形結合として近似される。
式2
ここで、上記の式の記号は近似同等を表す。
図1は、実施形態1の情報処理装置(図2では情報処理装置2000として示す)がどのように作用するかの概要を例示する。情報処理装置2000は、複数の教師データを取得する。教師データごとに、情報処理装置2000は、教師データに関連する特徴データを抽出する。特徴データは、特徴のタイプに応じて、一次元の値から多次元ベクトルまで変化しうる。
実施形態1の情報処理装置2000によれば、教師データから抽出された複数の特徴データが用いられ、教師データは複数のデータクラスタに分割され、各データクラスタから特徴行列が抽出されて、各特徴行列に対して行列分解が実行される。各データクラスタに対するこの行列分解を実行することによって、行列分解に対するデータアンバランスの影響が軽減される。
図2は、実施形態1の情報処理装置2000の機能ベースの構成を例示するブロック図である。情報処理装置2000は、クラスタリング部2020、第1の分解部2040、次元縮小部2060、および第2の分解部2080を含む。クラスタリング部2020は、複数の教師データを取得し、各教師データから特徴データを抽出して、抽出された特徴データを用いて、複数の教師データを複数のデータクラスタに分割する。データクラスタごとに、第1の分解部2040は、データクラスタの教師データから特徴行列を抽出して、特徴行列に対して行列分解を実行して第1の基底行列を生成する。次元縮小部2060は、複数の第1の基底行列の結合に対して次元縮小を実行して、第2の基底行列を生成する。第2の分解部2080は、第2の基底行列を用いて複数の特徴行列の結合に対して行列分解を実行し、それにより、アクティベーション行列を生成する。
一部の実施形態では、情報処理装置2000に含まれる各機能部は、少なくとも1つのハードウェア構成要素で実装されてもよく、各ハードウェア構成要素は一つ以上の機能部を実現してもよい。一部の実施形態では、各機能部は、少なくとも1つのソフトウェア構成要素によって実装されてもよい。一部の実施形態では、各機能部は、ハードウェア構成要素およびソフトウェア構成要素の組合せによって実装されてもよい。
図4は、実施形態1の情報処理装置2000によって実行されるプロセスの流れを例示するフローチャートである。クラスタリング部2020は、複数の教師データを取得する(S102)。クラスタリング部2020は、各教師データから特徴データを抽出する(S104)。クラスタリング部2020は、抽出された特徴データに基づいて、教師データを複数のデータクラスタに分割する(S106)。第1の分解部2040は、データクラスタごとに、教師データから特徴行列を抽出する(S108)。データクラスタごとに、第1の分解部2040は、データクラスタから抽出された特徴行列の結合に対して行列分解を実行して、それにより第1の基底行列を生成する(S108)。次元縮小部2060は、第1の基底行列の結合に対する次元縮小を実行して、それにより第2の基底行列を生成する(S110)。第2の分解部2080は、第2の基底行列を用いて特徴行列の結合に対して行列分解を実行し、それによりアクティベーション行列を生成する(S112)。
クラスタリング部2020は、複数の教師データを取得する(S102)。それらは、異なるイベントの一連のデータポイントである。教師データは、定量的データ収集の任意の手段、例えば音センサ、振動センサ、自動車関連センサ、化学センサ、電気センサ、磁気センサ、放射線センサ、圧力センサ、熱センサ、光学センサ、ナビゲーションセンサ、および天気センサ、から取得されてもよい。
クラスタリング部2020は、教師データに関連する特徴データ、例えば、音声データについてのメル周波数ケプストラム係数およびスペクトログラム、および、画像についての強度およびテクスチャ、を抽出する。教師データから特徴データを抽出するための様々な周知技術があり、クラスタリング部2020はそのような周知技術のいずれを用いてもよい。
クラスタリング部2020は、教師データを、それらの特徴データに基づいて複数のデータクラスタに分割する(S106)。データクラスタは、{Cp}、1<=p<=P、と表され、ここでPはデータクラスタの総数を示す。クラスタリング部2020は、互いに類似である特徴データのセットを特定して、それらの対応する教師データを同一のデータクラスタに入れる。これらのデータクラスタのセット{Cp}は、非特許文献1のものと同様であり、非特許文献1においては、各クラスタはモデルを有し、それらの混合モデルは取得された教師データの訓練モデルとして用いられた。
情報処理装置2000は、第1の分解部2040および次元縮小部2060を用いて、データクラスタのセット間の相関を抽出し可変性を特定する。相関抽出は、各データクラスタの個々の特徴を、より少数の潜在変数または非観測変数の線形結合としてモデリングすることによって実現される。多数のデータクラスタがあるときに、これが今度は多数の潜在変数の原因となる。多数の潜在変数は、それらの間の相関の問題をやはり引き起こす。それで、各データクラスタの潜在変数の全てのセットから算定される潜在変数の、よりコンパクトな表現を特定することによって、次元は更に減少する。潜在変数のこれらのコンパクトなセットは、クラスタサイズに対する何の偏りも無くすべてのデータクラスタを表す。これは、潜在変数のコンパクトなセットが、全ての教師データを効率的に表すことができることを意味する。
第1の分解部2040は、各データクラスタについて特徴ベクトルを抽出し、それにより、各データクラスタCpについて特徴行列{Vp}、1<=p<=P、を生成する。具体的には、特徴行列Vpは、データクラスタCpの教師データから抽出された特徴ベクトルの結合である。この特徴抽出は、特徴が教師データのタイプに関連するという意味で、クラスタリング部2020によって実行されるものと同様である。しかしながら、相違は、データクラスタのこれらの特徴が行列分解のために用いられるということである。したがって、特徴が少なくとも2つの次元を有するベクトルであることが必須である。
第1の分解部2040は、各特徴行列を分解し、それにより特徴行列それぞれの第1の基底行列を生成する(S110)。以下、特徴行列{Vp}から生成される第1の基底行列は{Wp}と表示される。加えて、第1の分解部2040によって実行される行列分解は、第2の分解部2080によって実行される行列分解と区別するために、「第1の行列分解」と記載される。
次元縮小部2060は、複数の第1の基底行列を単一の行列に結合して、第1の基底行列の結合に対して次元縮小を実行して、それにより第2の基底行列を生成する(S112)。おそらく、数多くのデータクラスタCpが存在し、それは数多くの基底行列Wpが存在することを意味し、それにより、基底ベクトル全体がより多数であることを意味する。基底ベクトルの総数は、すべての基底行列の列の総数である。これは、同様に基底行列Wp間の相関も存在することを意味する。そのため、第1の基底行列から冗長性を低減するための余地がまだ存在しうる。
式3
第2の分解部2080は、複数のデータクラスタ{Cp}の特徴行列{Vp}を単一の行列Vallに結合して、第2の基底行列Wcを用いてVallを分解し、それによりアクティベーション行列を生成する(S114)。Vallは、以下の通りすべての特徴行列の水平結合である。
式4
式5
データアンバランスは、音声、画像およびビデオ処理分野で顕著である。実施形態1の情報処理装置の応用例として、音声イベント検出(別個の音声イベントの訓練および検出)が以下に例示される。なお、以下の例は本発明の範囲を限定しない。
基底行列が特徴行列Vallの分解でランダムに初期化されていた場合、データアンバランスのために、最終的な取得された基底行列がすべてのデータクラスタをよく表すという保証はない。一方、実施形態2の情報処理装置によれば、基底行列は、基底行列が第2の基底行列Wcとして初期化されるVallの半教師あり分解を通して、最適基底行列WFに収束する見込みが高い。これは、Wcが各クラスタの基底行列を表し、そのため、すべてのデータクラスタから抽出された特徴を、少なくともランダムに初期化された行列よりも、より近似的に表すためである。
実施形態1の情報処理装置2000と同様に、実施形態2の情報処理装置2000の機能ベースの構成は、図2によって記載されてもよい。
実施形態2の情報処理装置2000のハードウェア構成は、実施形態1と同様に図3によって例示されてもよい。しかしながら、本実施形態では、上記の記憶装置1080に保存される各プログラムモジュールは、本実施形態に記載される各機能を実現するためのプログラムを含む。
上記のとおり、第2の行列分解で、コスト関数はより大きいデータクラスタの方へ偏る傾向があり、この偏りは基底行列の更新ステップに入り込む。実施形態3の情報処理装置2000によれば、この偏りは、特徴行列Vallの正規化を通して軽減される。そのため、より最適な第2の基底行列WFおよびアクティベーション行列Hallを得ることが達成される。
実施形態2の情報処理装置2000と同様に、実施形態3の情報処理装置2000の機能ベースの構成は、図2によって記載されてもよい。
実施形態3の情報処理装置2000のハードウェア構成は、実施形態2と同様に図3によって例示されてもよい。しかしながら、本実施形態では、上記の記憶装置1080に保存される各プログラムモジュールは、本実施形態に記載される各機能を実現するためのプログラムを含む。
図4は、実施形態1の情報処理装置2000によって実行されるプロセスの流れを例示するフローチャートである。クラスタリング部2020は、複数の教師データを取得する(S102)。クラスタリング部2020は、各教師データから特徴データを抽出する(S104)。クラスタリング部2020は、抽出された特徴データに基づいて、教師データを複数のデータクラスタに分割する(S106)。第1の分解部2040は、データクラスタごとに、教師データから特徴行列を抽出する(S108)。データクラスタごとに、第1の分解部2040は、データクラスタから抽出された特徴行列の結合に対して行列分解を実行して、それにより第1の基底行列を生成する(S110)。次元縮小部2060は、第1の基底行列の結合に対する次元縮小を実行して、それにより第2の基底行列を生成する(S112)。第2の分解部2080は、第2の基底行列を用いて特徴行列の結合に対して行列分解を実行し、それによりアクティベーション行列を生成する(S114)。
Claims (9)
- 複数の教師データを取得し、各教師データから特徴データを抽出し、抽出された前記特徴データを用いて、前記複数の教師データを複数のデータクラスタに分割するクラスタリング部、
前記データクラスタの前記教師データから特徴行列を抽出すること、および、前記特徴行列に対して行列分解を実行して第1の基底行列を生成すること、をデータクラスタごとに実行する第1の分解部、
複数の前記第1の基底行列の結合に対する次元縮小を実行して第2の基底行列を生成する次元縮小部、および、
前記第2の基底行列を用いて、複数の前記特徴行列の結合に対する行列分解を実行し、それによりアクティベーション行列を生成する第2の分解部、を備える情報処理装置。 - 前記特徴行列の結合の分解において、前記第2の分解部が、基底行列を前記第2の基底行列として固定し、反復的に前記アクティベーション行列を更新する、請求項1に記載の情報処理装置。
- 前記特徴行列の結合の分解において、前記第2の分解部が、基底行列を前記第2の基底行列として初期化し、反復的に前記基底行列および前記アクティベーション行列を更新する、請求項1に記載の情報処理装置。
- 前記第2の分解部によって生成された前記アクティベーション行列が、パターン認識のテスト段階で用いられるモデルパラメータを学習するために用いられる、請求項1から3のいずれか1項に記載の情報処理装置。
- 複数の教師データを取得し、各教師データから特徴データを抽出し、抽出された前記特徴データを用いて、前記複数の特徴データを複数のデータクラスタに分割すること、
前記データクラスタの前記教師データから特徴行列を抽出すること、および、前記特徴行列に対して行列分解を実行して第1の基底行列を生成すること、をデータクラスタごとに実行すること、
複数の前記第1の基底行列の結合に対する次元縮小を実行して第2の基底行列を生成すること、および、
前記第2の基底行列を用いて、複数の前記特徴行列の結合に対する行列分解を実行し、それによりアクティベーション行列を生成すること、を含む、コンピュータによって実行される方法。 - 前記特徴行列の結合の分解において、基底行列を前記第2の基底行列として固定し、反復的に前記アクティベーション行列を更新する、請求項5に記載の方法。
- 前記特徴行列の結合の分解において、基底行列を前記第2の基底行列として初期化し、反復的に前記基底行列および前記アクティベーション行列を更新する、請求項6に記載の方法。
- 前記第2の分解部によって生成された前記アクティベーション行列が、パターン認識のテスト段階で用いられるモデルパラメータを学習するために用いられる、請求項5から7のいずれか1項に記載の方法。
- 請求項5から8のいずれか1項に含まれる各ステップを、コンピュータに実行させるプログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/005455 WO2019159318A1 (en) | 2018-02-16 | 2018-02-16 | Information processing apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021513701A true JP2021513701A (ja) | 2021-05-27 |
JP6923089B2 JP6923089B2 (ja) | 2021-08-18 |
Family
ID=67619832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020542351A Active JP6923089B2 (ja) | 2018-02-16 | 2018-02-16 | 情報処理装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210064928A1 (ja) |
JP (1) | JP6923089B2 (ja) |
WO (1) | WO2019159318A1 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7199487B1 (ja) | 2021-09-02 | 2023-01-05 | 三菱電機株式会社 | 内燃機関制御装置 |
KR102531286B1 (ko) * | 2022-03-29 | 2023-05-12 | 포티투닷 주식회사 | 깊이 정보 추정 모델 학습을 위한 데이터 처리 방법 및 장치 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11551685B2 (en) * | 2020-03-18 | 2023-01-10 | Amazon Technologies, Inc. | Device-directed utterance detection |
EP4002384A1 (en) * | 2020-11-16 | 2022-05-25 | Emocog Co., Ltd. | Device and method for voice-based trauma screening using deep-learning |
CN114140635B (zh) * | 2021-08-10 | 2024-05-28 | 北京工业大学 | 自表示学习监督的非负矩阵分解方法 |
US11875354B2 (en) * | 2021-12-14 | 2024-01-16 | Actimize Ltd. | System and methods for identifying counterfeit checks using dimensional reduction of serial numbers |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135574A (ja) * | 2014-01-16 | 2015-07-27 | 日本電信電話株式会社 | 時空間データ特徴量分類方法および装置 |
WO2017046976A1 (ja) * | 2015-09-16 | 2017-03-23 | 日本電気株式会社 | 信号検知装置、信号検知方法、および信号検知プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160013773A1 (en) * | 2012-11-06 | 2016-01-14 | Pavel Dourbal | Method and apparatus for fast digital filtering and signal processing |
JP6566397B2 (ja) * | 2014-08-18 | 2019-08-28 | 株式会社デンソーアイティーラボラトリ | 認識装置、実数行列分解方法、認識方法 |
-
2018
- 2018-02-16 JP JP2020542351A patent/JP6923089B2/ja active Active
- 2018-02-16 US US16/969,868 patent/US20210064928A1/en not_active Abandoned
- 2018-02-16 WO PCT/JP2018/005455 patent/WO2019159318A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015135574A (ja) * | 2014-01-16 | 2015-07-27 | 日本電信電話株式会社 | 時空間データ特徴量分類方法および装置 |
WO2017046976A1 (ja) * | 2015-09-16 | 2017-03-23 | 日本電気株式会社 | 信号検知装置、信号検知方法、および信号検知プログラム |
Non-Patent Citations (1)
Title |
---|
KOMATSU, TATSUYA ET AL.: ""Acoustic Event Detection Method Using Semi-Supervised Non-Negative Matrix Factorization with a Mixt", PROCEEDINGS OF THE DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2016 WORKSHOP (DCASE20, JPN7021002371, 2016, pages 45 - 49, XP055634923, ISSN: 0004538807 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7199487B1 (ja) | 2021-09-02 | 2023-01-05 | 三菱電機株式会社 | 内燃機関制御装置 |
JP2023036230A (ja) * | 2021-09-02 | 2023-03-14 | 三菱電機株式会社 | 内燃機関制御装置 |
KR102531286B1 (ko) * | 2022-03-29 | 2023-05-12 | 포티투닷 주식회사 | 깊이 정보 추정 모델 학습을 위한 데이터 처리 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
US20210064928A1 (en) | 2021-03-04 |
WO2019159318A1 (en) | 2019-08-22 |
JP6923089B2 (ja) | 2021-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6923089B2 (ja) | 情報処理装置、方法およびプログラム | |
Thakur et al. | Deep metric learning for bioacoustic classification: Overcoming training data scarcity using dynamic triplet loss | |
Massoudi et al. | Urban sound classification using CNN | |
CN105702251B (zh) | 基于Top-k加强音频词袋模型的语音情感识别方法 | |
WO2018203555A1 (ja) | 信号検索装置、方法、及びプログラム | |
Biswas et al. | Automatic spoken language identification using MFCC based time series features | |
Noroozi et al. | Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost | |
CN112750442B (zh) | 一种具有小波变换的朱鹮种群生态体系监测系统及其方法 | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
Mannepalli et al. | FDBN: Design and development of Fractional Deep Belief Networks for speaker emotion recognition | |
Salazar | On Statistical Pattern Recognition in Independent Component Analysis Mixture Modelling | |
Mande et al. | EMOTION DETECTION USING AUDIO DATA SAMPLES. | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
Akbal et al. | Development of novel automated language classification model using pyramid pattern technique with speech signals | |
Bergler et al. | Deep Learning for Orca Call Type Identification-A Fully Unsupervised Approach. | |
Al-Talabani et al. | Emotion recognition from speech: tools and challenges | |
Das et al. | RETRACTED ARTICLE: Building a computational model for mood classification of music by integrating an asymptotic approach with the machine learning techniques | |
CN112052880A (zh) | 一种基于更新权值支持向量机的水声目标识别方法 | |
Shah et al. | Speech recognition using spectrogram-based visual features | |
CN112489689A (zh) | 基于多尺度差异对抗的跨数据库语音情感识别方法及装置 | |
Ruiz-Muñoz et al. | Enhancing the dissimilarity-based classification of birdsong recordings | |
Bang et al. | Recognition of bird species from their sounds using data reduction techniques | |
Zang et al. | Fast global kernel fuzzy c-means clustering algorithm for consonant/vowel segmentation of speech signal | |
CN111837185A (zh) | 基于约束半非负矩阵分解的声音分类方法、装置及介质 | |
Rajasekhar et al. | A novel speech emotion recognition model using mean update of particle swarm and whale optimization-based deep belief network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200804 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200804 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210712 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6923089 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |