JP2013054512A - 識別情報付与プログラム及び識別情報付与装置 - Google Patents
識別情報付与プログラム及び識別情報付与装置 Download PDFInfo
- Publication number
- JP2013054512A JP2013054512A JP2011191726A JP2011191726A JP2013054512A JP 2013054512 A JP2013054512 A JP 2013054512A JP 2011191726 A JP2011191726 A JP 2011191726A JP 2011191726 A JP2011191726 A JP 2011191726A JP 2013054512 A JP2013054512 A JP 2013054512A
- Authority
- JP
- Japan
- Prior art keywords
- frequency distribution
- decision tree
- identification information
- leaf node
- leaf
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
【解決手段】識別情報付与装置1は、学習対象から抽出された特徴ベクトルと学習対象に付与された識別情報とを組にした学習データに基づいて決定木を作成する決定木作成部3と、決定木に学習データを流したとき、各葉に到達した識別情報の頻度を示す頻度分布情報を互いに近似するもの同士で複数の分類し、分類毎に代表の頻度分布情報を葉に関係付けて記憶部10に記憶する分類手段としての頻度分布作成部4及び頻度分布量子化部5とを備える。
【選択図】図1
Description
[2]前記分類手段は、各葉が複数の前記分類に対応するように第2の決定木を作成し、前記頻度分布情報を前記第2の決定木に流したとき、前記頻度分布情報が到達する前記第2の決定木の葉に基づいて、前記頻度分布情報の分類を行う前記[1]に記載の識別情報付与プログラム。
[3]前記分類手段は、前記頻度分布情報を前記第2の決定木に流したとき、各葉に到達した前記頻度分布情報を前記葉に対応する前記第1の決定木の前記葉の前記代表の頻度分布情報とする前記[2]に記載の識別情報付与プログラム。
[4]学習対象から抽出された特徴ベクトルと前記学習対象に付与された識別情報とを組にした学習データに基づいて決定木を作成する決定木作成手段と、前記決定木に前記学習データを流したとき、各葉に到達した前記識別情報の頻度を示す頻度分布情報を互いに近似するもの同士で複数の分類し、前記分類毎に代表の頻度分布情報を前記葉に関係付けて記憶手段に記憶する分類手段とを備えた識別情報付与装置。
請求項2に記載された発明によれば、本構成を採用しない場合と比べて識別情報の分類がより高精度になる。
請求項3に記載された発明によれば、本構成を採用しない場合と比べて代表の頻度分布情報を速く取得することができる。
図1は、本発明の第1の実施の形態に係る識別情報付与装置の概略の構成例を示すブロック図、図2は、図1に示す識別情報付与装置の頻度分布作成部及び頻度分布量子化部を説明するための概念図、図3(a)、(b)は、図1に示す識別情報付与装置の記憶部に記憶されるデータの一例を示す図である。
学習データ作成部2は、学習対象から特徴ベクトルfを抽出し、特徴ベクトルfと特徴ベクトルfに付随するラベルCとのペア(組)から構成される学習データを作成する。ラベルCは、複数のラベルcにより構成されていてもよい。学習データ作成部2は、学習データ作成手段の一例であり、作成した学習データを記憶部10に格納する。
決定木作成部3は、学習データ作成部2により作成された学習データ102のすべて又はその一部を使用して図2に示すように決定木30なる識別器を作成する。決定木作成部3は、決定木作成手段の一例であり、作成した決定木30を決定木データ103として記憶部10に格納する。なお、決定木30を構成するノード31のうち最終のノード31を葉あるいは葉ノード32という。各ノード31の分岐条件は評価関数を決めて、その評価関数の値が最大となるような分け方を採用する。決定木30は、単体又は複数の木型識別器により構成される。決定木30を複数作成する場合、決定木によりランダムに選択した学習データを使用することで、互いに類似していない決定木を作り出す手法がしばしば用いられている。
頻度分布作成部4は、図2に示すように、各葉ノード(図2ではlp(p=1〜8)で示す。)32のラベルの頻度分布ベクトル(図2ではAp(p=1,2,・・・)で示す。)40を作成する。頻度分布ベクトル40を作成する際は、決定木30を作成するのに使用した学習データ102の部分集合か全学習データを用いて作成する。各葉ノード32に流れ込んだ学習データの各ラベルの個数を数えることにより、ラベルの頻度分布を作成することができる。ここで、ラベルの「頻度分布」とは、その葉ノード32に到達するデータのラベルの度数もしくは度数に応じた値であり、確率分布、確率テーブルと呼んでもよい。なお、本実施の形態では度数分布を扱ったが、度数分布と関連がある他の分布でもよい。
頻度分布量子化部5は、頻度分布作成部4によって作成された各葉ノード32の頻度分布ベクトル40を図2に示すように正規化した頻度分布ベクトル(図2ではap(p=1、2、・・・)で示す。)50を作成し、正規化した頻度分布ベクトル50を量子化する。ここで、「頻度分布ベクトルの量子化」とは、頻度分布ベクトルを近似した頻度分布ベクトル同士でグループ化することである。本実施の形態では、頻度分布量子化部5は、具体的には各頻度分布ベクトル50を比較して、似た頻度分布ベクトル50に対して同じ葉ノードIDを与え、葉ノード32を特定する葉ノードNo.、葉ノードID及び頻度分布ベクトル50の対応関係を葉ノード情報104として記憶部10に格納する。ここで、頻度分布ベクトル40、50は、頻度分布情報の一例である。
識別対象データ作成部7は、識別対象となるデータから学習データで獲得したものと同一の特徴次元の特徴ベクトルを抽出する。識別対象は、学習対象の種類と同一の種類であり、学習対象がテキストデータなら識別対象はテキストデータであり、学習対象が画像なら識別対象は画像である。
識別部8は、作成された決定木30を用いて識別対象を識別する。各決定木30に識別対象から抽出した特徴ベクトルfを流し、到達する葉ノード32に対応する葉ノードIDを記憶部10から取得し、その葉ノードIDに対する頻度分布ベクトル50から各ラベルの事後確率を(P(c|f))算出する。そして、識別部8は、例えば頻度(事後確率)が最も高いラベルを識別結果とする。
識別結果出力部9は、識別部8による識別結果を外部に出力するものであり、例えば液晶ディスプレイ等の表示部や、プリンタ等の印刷部を用いることができる。
記憶部10は、識別情報付与プログラム101等の各種のプログラムや、特徴ベクトルfルとラベルCとのペアからなる学習データ102、決定木データ103、葉ノード情報104等の各種のデータを記憶するものであり、例えばROM、RAM、HDD等から構成されている。
次に、第1の実施の形態の動作の一例を、学習データの作成から頻度分布ベクトルの量子化までの学習段階と識別対象にラベルを付与する識別段階とに分けて説明する。
まず、学習データ作成部2は、学習対象から特徴ベクトルfを抽出し、特徴ベクトルfと特徴ベクトルfに付随するラベルCとのペアから学習データ102を作成し、その学習データ102を記憶部10に格納する。
量子化の際に重要なのは、
1)お互いに頻度分布が似たものが同じグループに属すること
2)同じグループに属する頻度分布の上位の度数に相当するラベルが同じであること
である。特に2番目の項目は度数が上位であるものが識別結果に影響を及ぼすからである(特にT=1の場合、最大の度数となるラベルが識別結果となる)。最も簡単な例として集めた頻度分布ベクトル群を汎用のクラスタリングアルゴリズムであるKMeans法を用いて量子化する方法が考えられる。
識別対象データ作成部7は、学習データで作成した同じ特徴量の次元を用いて、識別対象から特徴ベクトルfを抽出する。
第1の実施の形態によれば、すべての決定木30の各葉ノード32について収集された頻度分布ベクトルは、近似した頻度分布ベクトル同士でグループ化し、グループに対応した葉ノードIDとして保存されるため、全ての頻度分布ベクトルを記憶する場合と比べて格段に記憶する情報量が減る。
図5は、本発明の第2の実施の形態に係る識別情報付与装置の概略の構成例を示すブロック図、図6は、図5に示す識別情報付与装置の記憶部に記憶されるデータの一例を示す図である。
図8は、第2の実施の形態の変形例を示すフローチャートである。第2の実施の形態において、各葉ノード32に葉ノードIDを与えた後(S16)、距離の最小値が閾値より大きい場合、その頻度分布ベクトルを新たなグループの代表ベクトルとして葉ノードIDの個数を増やしてもよい(S17a)
第2の実施の形態によれば、葉ノードIDに対応して保存する頻度分布情報として頻度分布ベクトルよりも情報量の少ない代表ベクトルとしているので、第1の実施の形態と比べて記憶する情報量が減る。
図9は、本発明の第3の実施の形態に係る識別情報付与装置の概略の構成例を示すブロック図、図10は、図9に示す識別情報付与装置の頻度分布作成部及び頻度分布量子化部を説明するための概念図である。
1)最大度数のもの、2)上位N個の度数、3)閾値以上の度数を持つもの
その一例として再度これら頻度分布をクラスタリングするために第2の決定木を構築する手法を具体例として挙げる。上述のコンテンツの識別のために作成した特徴ベクトルの次元数は選択したその特徴数(画像でRGBを使う場合3)であったのに対し、この特徴ベクトルの次元は識別対象の個数つまりKである。
図11は、第3の実施の形態の頻度分布量子化部5の動作例を示すフローチャートである。図13は、第3の実施の形態の動作例の概略を示す模式図である。
図12は、識別対象の識別段階を示すフローチャートである。次に、識別対象データ作成部7及び識別部8について説明する。識別対象データ作成部7は、学習データで作成した同じ特徴量の次元を用いて、識別対象から特徴ベクトルを抽出する(S41)。特徴ベクトルは同様に正規化しておく。
第3の実施の形態によれば、頻度分布を第2の決定木を用いて量子化することで、頻度分布間の距離計算を行って量子化する場合と比べて、頻度分布を高速に量子化することができる。
なお、本発明は、上記実施の形態に限定されず、本発明の要旨を変更しない範囲で種々に変形が可能である。例えば、学習データ作成部2、決定木作成部3、頻度分布作成部4、頻度分布量子化部5、量子化頻度分布作成部6、識別対象データ作成部7及び識別部8の各機能は、コンピュータ読み取り可能な識別情報付与プログラム101に従ってCPUが動作することにより実現してもよい。また、上記実施の形態の学習データ作成部2、決定木作成部3、頻度分布作成部4、頻度分布量子化部5、量子化頻度分布作成部6、識別対象データ作成部7及び識別部8の全て又は一部をASIC等のハードウエアによって実現してもよい。
Claims (4)
- コンピュータを、
学習対象から抽出された特徴ベクトルと前記学習対象に付与された識別情報とを組にした学習データに基づいて決定木を作成する決定木作成手段と、
前記決定木に前記学習データを流したとき、各葉に到達した前記識別情報の頻度を示す頻度分布情報を互いに近似するもの同士で複数に分類し、前記分類毎に代表の頻度分布情報を前記葉に関係付けて記憶手段に記憶する分類手段として機能させるための識別情報付与プログラム。 - 前記分類手段は、各葉が複数の前記分類に対応するように第2の決定木を作成し、前記頻度分布情報を前記第2の決定木に流したとき、前記頻度分布情報が到達する前記第2の決定木の葉に基づいて、前記頻度分布情報の分類を行う請求項1に記載の識別情報付与プログラム。
- 前記分類手段は、前記頻度分布情報を前記第2の決定木に流したとき、各葉に到達した前記頻度分布情報を前記葉に対応する前記第1の決定木の前記葉の前記代表の頻度分布情報とする請求項2に記載の識別情報付与プログラム。
- 学習対象から抽出された特徴ベクトルと前記学習対象に付与された識別情報とを組にした学習データに基づいて決定木を作成する決定木作成手段と、
前記決定木に前記学習データを流したとき、各葉に到達した前記識別情報の頻度を示す頻度分布情報を互いに近似するもの同士で複数の分類し、前記分類毎に代表の頻度分布情報を前記葉に関係付けて記憶手段に記憶する分類手段とを備えた識別情報付与装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011191726A JP5754310B2 (ja) | 2011-09-02 | 2011-09-02 | 識別情報付与プログラム及び識別情報付与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011191726A JP5754310B2 (ja) | 2011-09-02 | 2011-09-02 | 識別情報付与プログラム及び識別情報付与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013054512A true JP2013054512A (ja) | 2013-03-21 |
JP5754310B2 JP5754310B2 (ja) | 2015-07-29 |
Family
ID=48131445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011191726A Expired - Fee Related JP5754310B2 (ja) | 2011-09-02 | 2011-09-02 | 識別情報付与プログラム及び識別情報付与装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5754310B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015056018A (ja) * | 2013-09-11 | 2015-03-23 | Kddi株式会社 | 携帯端末を所持したユーザの滞在目的を推定する装置、プログラム及び方法 |
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
WO2017183242A1 (ja) * | 2016-04-19 | 2017-10-26 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2018136750A (ja) * | 2017-02-22 | 2018-08-30 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2019520656A (ja) * | 2016-06-21 | 2019-07-18 | ヴァイケーリアス エフピーシー, インコーポレイテッドVicarious FPC, Inc. | 再帰的皮質ネットワークのためのシステムおよび方法 |
JP2020106370A (ja) * | 2018-12-27 | 2020-07-09 | 国立大学法人北海道大学 | 計測制御装置、分光計測装置、及び計測制御方法 |
JP2022122232A (ja) * | 2021-02-09 | 2022-08-22 | アウー インテリジェンス, インコーポレイテッド | 画像分類およびマーキング方法、並びに、そのシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6055539A (en) * | 1997-06-27 | 2000-04-25 | International Business Machines Corporation | Method to reduce I/O for hierarchical data partitioning methods |
US6567815B1 (en) * | 2000-08-01 | 2003-05-20 | International Business Machines Corporation | Technique of clustering and compaction of binary trees |
JP2006155344A (ja) * | 2004-11-30 | 2006-06-15 | Toshiba Corp | データ分析装置、データ分析プログラム及びデータ分析方法 |
-
2011
- 2011-09-02 JP JP2011191726A patent/JP5754310B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6055539A (en) * | 1997-06-27 | 2000-04-25 | International Business Machines Corporation | Method to reduce I/O for hierarchical data partitioning methods |
US6567815B1 (en) * | 2000-08-01 | 2003-05-20 | International Business Machines Corporation | Technique of clustering and compaction of binary trees |
JP2006155344A (ja) * | 2004-11-30 | 2006-06-15 | Toshiba Corp | データ分析装置、データ分析プログラム及びデータ分析方法 |
Non-Patent Citations (2)
Title |
---|
JPN6015016753; 栗山 繁: 'ランダムフォレスト法を用いた動作検索 識別器学習を用いた人間動作の分類法' 画像ラボ 第22巻,第8号, 20110810, pp.49-53., 日本工業出版株式会社 * |
JPN6015016755; 福井 基文 他: '変形ランダムフォレストを用いた画像自動アノテーション' 電子情報通信学会技術研究報告 Vol.110,No.414(PRMU2010-209), 20110210, pp.7-9., 社団法人電子情報通信学会 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015056018A (ja) * | 2013-09-11 | 2015-03-23 | Kddi株式会社 | 携帯端末を所持したユーザの滞在目的を推定する装置、プログラム及び方法 |
CN104965819A (zh) * | 2015-07-12 | 2015-10-07 | 大连理工大学 | 一种基于句法词向量的生物医学事件触发词识别方法 |
WO2017183242A1 (ja) * | 2016-04-19 | 2017-10-26 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
JP2019520656A (ja) * | 2016-06-21 | 2019-07-18 | ヴァイケーリアス エフピーシー, インコーポレイテッドVicarious FPC, Inc. | 再帰的皮質ネットワークのためのシステムおよび方法 |
JP2018136750A (ja) * | 2017-02-22 | 2018-08-30 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2020106370A (ja) * | 2018-12-27 | 2020-07-09 | 国立大学法人北海道大学 | 計測制御装置、分光計測装置、及び計測制御方法 |
JP7355323B2 (ja) | 2018-12-27 | 2023-10-03 | 国立大学法人北海道大学 | 計測制御装置、分光計測装置、及び計測制御方法 |
JP2022122232A (ja) * | 2021-02-09 | 2022-08-22 | アウー インテリジェンス, インコーポレイテッド | 画像分類およびマーキング方法、並びに、そのシステム |
JP7213569B2 (ja) | 2021-02-09 | 2023-01-27 | アウー インテリジェンス, インコーポレイテッド | 画像分類およびマーキング方法、並びに、そのシステム |
Also Published As
Publication number | Publication date |
---|---|
JP5754310B2 (ja) | 2015-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5754310B2 (ja) | 識別情報付与プログラム及び識別情報付与装置 | |
CN107067025B (zh) | 一种基于主动学习的文本数据自动标注方法 | |
CN105469096B (zh) | 一种基于哈希二值编码的特征袋图像检索方法 | |
CN110046634B (zh) | 聚类结果的解释方法和装置 | |
Koren et al. | Automatically tagging email by leveraging other users' folders | |
JP2012042990A (ja) | 画像識別情報付与プログラム及び画像識別情報付与装置 | |
CN107526805B (zh) | 一种基于权重的ML-kNN多标签中文文本分类方法 | |
JP6004015B2 (ja) | 学習方法、情報処理装置および学習プログラム | |
Bickerstaffe et al. | A hierarchical classifier applied to multi-way sentiment detection | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN113378913A (zh) | 一种基于自监督学习的半监督节点分类方法 | |
CN109492682A (zh) | 一种多分枝随机森林数据分类方法 | |
JP6004014B2 (ja) | 学習方法、情報変換装置および学習プログラム | |
Nikolaou et al. | Calibrating AdaBoost for asymmetric learning | |
Mohammadpour et al. | AdaBoost performance improvement using PSO algorithm | |
Toghraee | Calculation of mean data on gini relationship by data mining method | |
CN113378955A (zh) | 一种基于主动学习的入侵检测方法 | |
CN112418987A (zh) | 交通运输单位信用评级方法、系统、电子设备及存储介质 | |
Wang et al. | Edcleaner: Data cleaning for entity information in social network | |
Roushdy et al. | Intelligent clustering technique based on genetic algorithm | |
Jiang et al. | A classification algorithm based on weighted ML-kNN for multi-label data | |
Sami et al. | Incorporating random forest trees with particle swarm optimization for automatic image annotation | |
Deka et al. | Machine learning approach for text and document mining | |
Toghraee | Identification of Appropriate Features for Classification Using Clustering Algorithm | |
Hyvönen et al. | A Multilabel Classification Framework for Approximate Nearest Neighbor Search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140822 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150325 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150428 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150511 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5754310 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |