JP2011028519A - データ分類装置及びプログラム - Google Patents

データ分類装置及びプログラム Download PDF

Info

Publication number
JP2011028519A
JP2011028519A JP2009173649A JP2009173649A JP2011028519A JP 2011028519 A JP2011028519 A JP 2011028519A JP 2009173649 A JP2009173649 A JP 2009173649A JP 2009173649 A JP2009173649 A JP 2009173649A JP 2011028519 A JP2011028519 A JP 2011028519A
Authority
JP
Japan
Prior art keywords
decision tree
node
feature amount
internal node
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009173649A
Other languages
English (en)
Other versions
JP5367488B2 (ja
Inventor
Yoshihiko Kawai
吉彦 河合
Masato Fujii
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2009173649A priority Critical patent/JP5367488B2/ja
Publication of JP2011028519A publication Critical patent/JP2011028519A/ja
Application granted granted Critical
Publication of JP5367488B2 publication Critical patent/JP5367488B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

【課題】分類精度だけでなく計算コストも考慮した決定木を生成し、データ分類のための処理時間を短くする。
【解決手段】特徴量算出部2は、学習データから特徴量を計算し、その特徴量の計算に要した平均コスト(計算コスト)を算出する。決定木学習部3は、学習データに対する分類精度の低さを示す不純度と、特徴量の計算コストの逆数とに基づいて評価値を算出し、評価値が最大となる内部ノード及び特徴量を探索することにより、決定木を生成する。これにより、分類精度だけでなく計算コストも考慮した決定木を生成することができる。データ分類部5は、分類対象のデータを入力し、決定木学習部3により生成された決定木を用いて、根ノード及び内部ノード毎に特徴量を計算して分岐を行い、到達した葉ノードが示すカテゴリを分類結果として出力する。これにより、計算コストも考慮した決定木を用いるから、処理時間が短くなる。
【選択図】図1

Description

本発明は、複数の特徴量を属性に持つデータを、決定木を用いてカテゴリに分類するための装置及びプログラムに関する。
図8は、複数の特徴量を属性に持つデータを、カテゴリに分類するための手法を説明する図である。図8に示すように、データをカテゴリに分類する手法は、(1)及び(2)に分けることができる。第1の手法は、(1)に示すように、全特徴量を事前に計算する。このデータ分類装置は、入力したデータに対して全ての特徴量を計算した後、これらの特徴量に基づいて、複数のクラスのカテゴリに分類する。例えば、サポートベクターマシンが用いられる。第2の手法は、(2)に示すように、特徴量を逐次的に計算する。このデータ分類装置は、入力したデータに対して逐次的に特徴量を計算し、この計算した特徴量に基づいて、複数のクラスのカテゴリに分類する。例えば、決定木が用いられる。
第1の手法は、多数の特徴量を全て用いることによりデータを分類するから、分類精度が高くなるという利点があるが、入力した全てのデータに対して全ての特徴量を計算する必要があるから、計算コストが高くなるという問題がある。これに対し、第2の手法は、全ての特徴量を計算することなく、必要な場合にのみ必要な特徴量を計算すればよいから、計算コストを抑えることができるという利点がある。以下に示す本発明は、決定木を用いた第2の手法を対象とする。
〔決定木〕
図9は、決定木の構成例を説明する図である。この決定木は、複数のノードからなるツリーを逆にした構造になっており、ノードには、最上位に位置する根ノード、下位のノードが存在しないノードであって最下位に位置する葉ノード、及び、根ノードと葉ノードとの間に位置する内部ノードの3種類がある。根ノード及び内部ノードには、データの属性を示す複数の特徴量のうちの1つの特徴量がそれぞれ割り当てられており、さらに、特徴量と閾値とを比較することにより、葉ノードまたは内部ノードへ分岐するための分岐条件がそれぞれ割り当てられている。葉ノードには、データが分類されるカテゴリのクラスが割り当てられている。図9の例では、根ノードには、特徴量q及び図示しない分岐条件、内部ノード0には、特徴量q及び図示しない分岐条件、内部ノード1には、特徴量q及び図示しない分岐条件が割り当てられている。また、葉ノード0,1,2には、クラスlのカテゴリが割り当てられ、葉ノード3にはクラスlのカテゴリが割り当てられている。このような決定木は、後述する決定木学習処理により生成される。
このような決定木を用いたデータ分類装置は、入力したデータを、図9に示したクラスlまたはクラスlのカテゴリに分類する。具体的には、データ分類装置は、入力したデータに対し、まず根ノードの処理として、データから特徴量qを計算し、特徴量qと閾値とを比較して根ノードの分岐条件を判定する。根ノードの分岐条件により、内部ノード0に分岐すると判定した場合、内部ノード0の処理を行う。一方、根ノードの分岐条件により、葉ノード0に分岐すると判定した場合、入力したデータがクラスlのカテゴリに属するとして処理を終了する。
データ分類装置は、根ノードの分岐条件により、内部ノード0に分岐すると判定した場合、内部ノード0の処理として、データから特徴量qを計算し、特徴量qと閾値とを比較して内部ノード0の分岐条件を判定する。内部ノード0の分岐条件により、内部ノード1に分岐すると判定した場合、内部ノード1の処理を行う。一方、内部ノード0の分岐条件により、葉ノード1に分岐すると判定した場合、入力したデータがクラスlのカテゴリに属するとして処理を終了する。
データ分類装置は、内部ノード0の分岐条件により、内部ノード1に分岐すると判定した場合、内部ノード1の処理として、データから特徴量qを計算し、特徴量qと閾値とを比較して内部ノード1の分岐条件を判定する。内部ノード1の分岐条件により、葉ノード3に分岐すると判定した場合、入力したデータがクラスlのカテゴリに属するとして処理を終了する。一方、内部ノード1の分岐条件により、葉ノード2に分岐すると判定した場合、入力したデータがクラスlのカテゴリに属するとして処理を終了する。
〔決定木学習処理〕
決定木を用いたデータ分類装置における決定木を学習する処理として、例えばID3(非特許文献1を参照)、C4.5(非特許文献2を参照)、CART(非特許文献3を参照)等のアルゴリズムが知られている。これらの学習処理のアルゴリズムは、特徴量をノードに割り当てるために用いる不純度を、独自の計算式により算出する点で異なる。これに対し、いずれの学習処理のアルゴリズムも、基本的に、不純度が最も減少する特徴量をノードに割り当て、そのノードから分岐させたノードに対して順番に特徴量を割り当て、特徴量をノードに割り当てることができない、またはノードに割り当てた特徴量によって減少する不純度が閾値以下となるまで分岐を繰り返す点で同一である。学習処理によっては、その後、不必要に成長した枝を剪定するための作業(以下、決定木枝刈りという。)を実施する。
以下、不純度としてエントロピーを用いた場合を例にして、従来の決定木学習処理について説明する。ここで、不純度とは、データが分類された場合の分類精度の低さをいう。学習データの集合をD、葉ノードの集合をLとすると、決定木全体の条件付エントロピーは、以下の式により表される。
Figure 2011028519
また、決定木におけるそれぞれの葉ノードlの条件付きエントロピーは、以下の式により表される。
Figure 2011028519
ここで、
Figure 2011028519
であり、Nは学習データの総数、C(l)は葉ノードlに属する学習データの総数、C(d|l)は、葉ノードlに属する学習データのうち、真のクラスがdである学習データの総数を示す。
いま、葉ノードlの代わりに、新しい特徴量qが割り当てられた新しい内部ノードを設定し(葉ノードlを、新しい特徴量qが割り当てられた新しい内部ノードに置き替え)、さらに、その内部ノードの下に、新しい2つの葉ノードli,s(s=0,1)を追加したとする。この場合、新しい葉ノードli,s(s=0,1)の条件付エントロピーは、以下の式で表される。
Figure 2011028519
したがって、葉ノードlを、新しい特徴量qが割り当てられた新しい内部ノードに置き替え、その内部ノードの下に、新しい葉ノードli,s(s=0,1)を追加したことによる決定木全体の条件付エントロピーの減少量は、以下の式で表される。
Figure 2011028519
図10は、従来の決定木学習処理を説明するフローチャートである。データ分類装置は、決定木を学習するにあたり、まず、根ノードのみの決定木を作成する(ステップS1001)。ここで、根ノードのみの決定木は、特徴量、分岐条件及びクラスが存在しないノードのみからなる初期状態の決定木である。
データ分類装置は、式(5)に示した、新しい内部ノードの置き替え及び新しい葉ノードの追加による決定木全体の条件付エントロピーの減少量ΔH(D|l,q)を算出し、その減少量が最大となる葉ノード(元の葉ノード、新しい内部ノード)
Figure 2011028519
、及び、特徴量(新しい特徴量)
Figure 2011028519
を探索する(ステップS1002)。ステップS1001から移行した場合、データ分類装置は、根ノードを探索し、学習データの属性を構成する全ての特徴量のうち、式(5)の減少量が最大となる特徴量を探索する。
データ分類装置は、ステップS1002にて選定した葉ノード及び特徴量における、式(5)に示した決定木全体の条件付エントロピーの減少量
Figure 2011028519
と、予め設定された閾値εとを比較する(ステップS1003)。決定木全体の条件付エントロピーの減少量が閾値εよりも小さくないと判定した場合(ステップS1003:N)、探索した葉ノード
Figure 2011028519
を、特徴量
Figure 2011028519
が割り当てられた新しい内部ノードに置き替え、その内部ノードを分岐して新しい葉ノードを追加する。そして、ステップS1002へ移行する。
一方、ステップS1003において、データ分類装置は、決定木全体の条件付エントロピーの減少量が閾値εよりも小さいと判定した場合(ステップS1003:Y)、処理を終了する。
このように、不純度としてエントロピーを用いて、決定木全体の条件付エントロピーの減少値が最大となる葉ノード及び特徴量を探索し、その特徴量が割り当てられた新しい内部ノード及び新しい葉ノードを設定する学習処理により、根ノード、内部ノード及び葉ノードからなる図9に示すような決定木が生成される。
J.R.Quinlan, "Induction of Decision Trees", Machine Learning, vol.1, pp.81-106 (1986) J.R.Quinlan, "C4.5:Programs for Machine Learning", Morgan Kaufmann (1993) L.Breiman, J.Friedman, R.A.Olshen and C.J.Stone, "Classification and regression trees", Wadsworth, 1984.
従来の決定木学習処理では、内部ノードに割り当てる特徴量を選定する際に、分類のための不純度に基づいた分類精度を考慮しているが、特徴量の計算に要する時間、演算数等の計算コストを全く考慮していない。このため、従来の決定木学習処理により生成された決定木を用いるデータ分類装置では、入力したデータを分類する処理のために多大な時間を要する場合があるという問題があった。例えば、従来の決定木学習処理では、他よりも100倍の計算コストを要する特徴量であったとしても、不純度の減少量が僅かでも大きい場合には、その特徴量が探索され内部ノードに割り当てられてしまう。特に、計算コストを要する特徴量が根ノード、または根ノードに近い内部ノードに割り当てられた場合には、入力されたデータの処理が計算コストを要する根ノードまたは内部ノードを通過する可能性が高くなるから、分類のための処理時間が一層多大になる。
そこで、本発明は前記課題を解決するためになされたものであり、その目的は、決定木を用いてデータをカテゴリに分類する際に、分類精度だけでなく計算コストも考慮した決定木を生成し、データ分類のための処理時間を短くすることが可能なデータ分類装置及びプログラムを提供することにある。
本発明者らは、上記目的を達成すべく鋭意研究開発を行った。その結果、決定木を構成する根ノード及び内部ノードに割り当てる特徴量を選定する際に、データに対する分類精度の低さを示す不純度と、データから特徴量が計算されるときの計算コストとを考慮した評価値を算出し、この評価値が最大となる特徴量を探索することを見出した。このような学習処理を行うことにより、分類精度だけでなく計算コストも考慮した効果的な決定木を生成することができる。したがって、このような決定木を用いるデータ分類装置により、精度の高いデータ分類を実現することに加え、データ分類の処理時間を短くすることが可能となる。
本発明によるデータ分類装置は、複数の特徴量を属性に持つデータを、決定木に基づいて複数のカテゴリに分類する際に、前記特徴量及び分岐条件が割り当てられた根ノード及び内部ノード、並びに分類結果のカテゴリが割り当てられた葉ノードからなる決定木であって、前記根ノードから複数の内部ノードまたは葉ノードへ分岐し、前記内部ノードから他の内部ノードまたは葉ノードへと分岐する木構造の決定木を用いたデータ分類装置において、前記決定木を生成するための学習用のデータから、前記複数の特徴量をそれぞれ計算し、前記特徴量の計算コストを算出する特徴量算出部と、前記特徴量算出部により計算された特徴量及び前記分岐条件により、葉ノードへ分岐したときの、前記学習用のデータに対する分類精度の低さを示す不純度と、前記特徴量の計算コストの逆数とに基づいて、前記特徴量毎に評価値を算出し、前記評価値が最大となる特徴量を探索し、前記探索した特徴量を根ノードまたは内部ノードに割り当て、前記決定木を生成する決定木学習部と、を備えたことを特徴とする。
また、本発明によるデータ分類装置は、前記決定木学習部が、前記葉ノードを新たな内部ノードに置き替え、前記新たな内部ノードに分岐して複数の新たな葉ノードを設定し、前記特徴量算出部により計算された特徴量を前記新たな内部ノードに割り当てた場合の前記評価値を、前記新たな内部ノード毎及び前記特徴量毎に算出し、前記評価値が最大となる新たな内部ノード及び特徴量を探索し、前記探索した特徴量を前記探索した新たな内部ノードに割り当てることにより、前記決定木を生成することを特徴とする。
また、本発明によるデータ分類装置は、前記決定木学習部が、さらに、前記生成した決定木を構成する内部ノードのうち、下位側に内部ノード及び葉ノードが配置された内部ノードを選定し、前記選定した内部ノード並びに下位側に配置された内部ノード及び葉ノードからなる子孫ノードについて、前記子孫ノードによる計算コストの増加量を第1の計算コスト増加量として算出し、前記子孫ノードによる前記不純度の減少量を第1の不純度減少量として算出し、前記子孫ノードを新たな内部ノードに置き替え、前記新たな内部ノードに分岐して複数の新たな葉ノードを設定し、前記特徴量算出部により計算された特徴量を前記新たな内部ノードに割り当てた場合の前記計算コストの増加量及び前記不純度の減少量を、前記新たな内部ノード毎及び前記特徴量毎に、第2の計算コスト増加量及び第2の不純度減少量として算出し、前記第1の計算コスト増加量から第2の計算コスト増加量を減算した結果が所定の閾値よりも大きく、かつ、前記第2の不純度減少量から第1の不純度減少量を減算した結果が所定の閾値よりも大きいときの前記新たな内部ノード及び特徴量を探索し、前記子孫ノードを前記探索した新たな内部ノード及び複数の新たな葉ノードに置き替え、前記探索した特徴量を前記探索した新たな内部ノードに割り当てることにより、新たな決定木を生成することを特徴とする。
また、本発明によるデータ分類装置は、映像を構成する複数のフレーム画像のうち、ショット境界のフレーム画像を検出する際に、前記特徴量算出部が、前記決定木を生成するための学習映像に基づいて、前記学習映像を構成する複数のフレーム画像の特徴量をそれぞれ計算し、前記特徴量の計算コストを算出し、前記決定木学習部が、前記特徴量算出部により計算されたフレーム画像の特徴量及び前記分岐条件により、葉ノードへ分岐したときの、前記フレーム画像が真のショット境界であるか否かの分類精度の低さを示す不純度と、前記特徴量の計算コストの逆数とに基づいて、前記特徴量毎に評価値を算出し、前記評価値が最大となる特徴量を探索し、前記探索した特徴量を根ノードまたは内部ノードに割り当て、前記決定木を生成することを特徴とする。
さらに、本発明によるデータ分類プログラムは、コンピュータを、前記データ分類装置として機能させることを特徴とする。
このように、本発明によれば、学習用のデータから特徴量及び計算コストを求め、学習用のデータの分類精度の低さを示す不純度及び計算コストに基づいて評価値を算出し、この評価値に基づいて、ノードに割り当てる特徴量を選定するようにした。このような学習処理を行うことにより、分類精度だけでなく計算コストも考慮した効果的な決定木を生成することができる。したがって、精度の高いデータ分類を実現することに加え、データ分類の処理時間を短くすることが可能となる。
本発明の実施形態によるデータ分類装置の構成を示すブロック図である。 決定木学習部における決定木学習処理を説明するフローチャートである。 決定木学習部における決定木枝刈り処理を説明する図である。 決定木学習部における決定木枝刈り処理を説明するフローチャートである。 本発明の実施形態によるデータ分類装置をショット境界検出装置に適用した場合における実施例の構成を示すブロック図である。 ショット境界検出用決定木の構成を説明する図である。 実験結果を説明する比較表である。 (1)は全特徴量を事前に計算する例を説明する図である。(2)は特徴量を逐次的に計算する例を説明する図である。 決定木の構成例を説明する図である。 従来の決定木学習処理を説明するフローチャートである。
以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔データ分類装置の構成〕
まず、本発明の実施形態によるデータ分類装置の構成について説明する。図1は、データ分類装置の構成を示すブロック図である。このデータ分類装置1は、特徴量算出部2、決定木学習部3、結果格納部4及びデータ分類部5を備えている。
特徴量算出部2は、外部から学習データを入力し、学習データから特徴量を計算すると共に、その特徴量の計算に要した平均コスト(計算コスト)を算出する。具体的には、特徴量算出部2は、一つの学習データから複数の特徴量を計算し、全ての学習データについて学習データ毎に全ての特徴量を計算し、全ての特徴量の計算コストを算出する。ここで、特徴量の計算コストは、全ての学習データにおける特徴量の計算コストを、同種の特徴量毎に平均した値である。
例えば、学習データD1から3つの特徴量が計算され、それぞれの計算コストがT1−D1,T2−D1,T3−D1であり、学習データD2から同種の3つの特徴量が計算され、それぞれの計算コストがT1−D2,T2−D2,T3−D2であり、学習データD3から同種の3つの特徴量が計算され、それぞれの計算コストがT1−D3,T2−D3,T3−D3であったとする。この場合、特徴量算出部2は、第1の特徴量について、それぞれの計算コストT1−D1,T1−D2,T1−D3を平均し、その平均コストを第1の特徴量の計算コストに設定する。同様に、第2の特徴量について、それぞれの計算コストT2−D1,T2−D2,T2−D3を平均し、その平均コストを第2の特徴量の計算コストに設定し、第3の特徴量について、それぞれの計算コストT3−D1,T3−D2,T3−D3を平均し、その平均コストを第3の特徴量の計算コストに設定する。そして、特徴量算出部2は、学習データ、特徴量及び計算コストを決定木学習部3に出力する。
尚、特徴量算出部2は、計算コストとして、実測に基づく計算時間を算出するようにしてもよいし、実装されたプログラムに基づく演算数等を算出するようにしてもよい。
決定木学習部3は、特徴量算出部2から学習データ、特徴量及び計算コストを入力し、決定木学習処理及び決定木枝刈り処理を行って決定木を生成し、結果格納部4に格納する。決定木学習処理及び決定木枝刈り処理については後述する。
結果格納部4は、決定木学習部3により格納された決定木を記憶する。結果格納部4に格納された決定木は、データ分類部5によりデータ分類のために読み出される。
データ分類部5は、外部から分類対象のデータを入力すると共に、結果格納部4から決定木を読み出し、決定木に基づいてデータを分類し、分類結果を外部へ出力する。具体的には、データ分類部5は、例えば図9に示した決定木を結果格納部4から読み出し、根ノードにおいて、分類対象のデータから特徴量qを計算し、根ノードの分岐条件に従って分岐処理を行う。内部ノード0に分岐した場合、内部ノード0において、分類対象のデータから特徴量qを計算し、内部ノード0の分岐条件に従って分岐処理を行う。このように、特徴量は、各分岐点である根ノード及び内部ノードにおいて、分岐条件に従って到達したときに計算され、最終的に分岐条件に従って葉ノードに到達する。そして、到達した葉ノードのクラスlまたはクラスlが分類結果となり、外部へ出力される。
〔決定木学習処理〕
次に、図1に示したデータ分類装置1の決定木学習部3における決定木学習処理について説明する。図2は、決定木学習処理を説明するフローチャートである。このフローチャートには、学習データ、特徴量及び計算コストに基づいて、図9に示したような決定木を生成する学習処理が示されている。
決定木学習部3は、まず、根ノードのみの決定木を作成する(ステップS201)。ここで、根ノードのみの決定木は、特徴量、分岐条件及びクラスが存在しないノードのみからなる初期状態の決定木である。
決定木学習部3は、分岐可能な葉ノードがあるか否か(後述するステップS206により分岐できないノードに設定された葉ノード以外の葉ノードが存在するか否か)を判定する(ステップS202)。分岐可能な葉ノードがないと判定した場合(ステップS202:N)、学習処理を終了する。一方、分岐可能な葉ノードがあると判定した場合(ステップS202:Y)、分岐可能な全ての葉ノードに対して、特徴量算出部2において計算された全ての特徴量を用いて、以下に示す評価値δを算出し、この評価値δが最大となる葉ノード及び特徴量を探索する(ステップS203)。尚、ステップS201から移行した場合、決定木学習部3は、根ノードを、分岐可能な葉ノードとして処理を行う。
図10に示した従来の決定木学習処理では、評価値として、式(5)で示した条件付エントロピーの減少量を用いたが、図2に示す決定木学習処理では、これに加えて、葉ノードlにおける特徴量qの計算に要した計算コストの増加量を考慮する。具体的には、決定木学習部3は、評価値δの算出に際し、葉ノードlの代わりに、新しい特徴量qが割り当てられた新しい内部ノードを設定し(葉ノードlを、新しい特徴量qが割り当てられた新しい内部ノードに置き替え)、その下に新しい葉ノードを追加した場合に、計算コストの増加量を次の式により計算する。
Figure 2011028519
ここで、Tは、葉ノードlが置き替えられた新しい内部ノードにおいて、特徴量qの計算に要した計算コストを示し、0.0から1.0までの範囲で正規化されているものとする。各特徴量に対する計算コストは、図1に示した特徴量算出部2において、実測に基づく処理時間または実装されたプログラムに基づく演算数等により算出された値である。また、P(l)は、式(3)と同様の値であり、葉ノードlに属する学習データの数C(l)を学習データの総数Nで除算した値である。
このように、式(6)に示した計算コストの増加量は、計算コストT(l,q)と、この葉ノード(新しい内部ノード)に学習データが到達する確率P(l)とを乗算することにより算出される。したがって、式(6)は、葉ノード(新しい内部ノード)で処理される学習データ数も考慮しているから、通過する学習データが多い根ノードに近い内部ノードには、より計算コストの低い特徴量が選定されることが期待できる。
また、決定木学習部3は、葉ノードlを、新しい特徴量qが割り当てられた新しい内部ノードに置き替え、その下に新しい葉ノードを追加したことにより、決定木全体の条件付エントロピーの減少量を、式(5)により算出する。そして、決定木学習部3は、式(6)により算出した計算コストの増加量、及び、式(5)により算出したエントロピーの減少量を用いて、以下の式により評価値を算出する。
Figure 2011028519
式(7)におけるΔHは、式(5)により算出されたノード分岐による不純度の減少量を示す。また、式(7)は、計算コストあたりの効果を反映した評価値となっている。式(7)中のΦは、計算コストをどの程度考慮するかを表す変換関数である。wは、その調整パラメータであり、計算コストまたは分類精度のうちのどちらを重視するかを調整するために用いられる。変換関数Φの例としては、以下のとおりである。
Figure 2011028519
常にΦ=1とした場合は、計算コストを全く考慮しない従来のデータ分類装置と同様になる。逆に、微小な計算コストの増加に対して、評価値が大きく増加するような関数を用いた場合は、より計算コストが重視された決定木が構成されることとなる。
そして、決定木学習部3は、算出した評価値δ(l,q)が最大となる葉ノード(元の葉ノード、新しい内部ノード)
Figure 2011028519
、及び、特徴量(新しい特徴量)
Figure 2011028519
を探索する。
決定木学習部3は、評価値δと所定の閾値εとを比較し(ステップS204)、評価値δが閾値εよりも大きいと判定した場合(ステップS204:Y)、
探索した葉ノード
Figure 2011028519
を、特徴量
Figure 2011028519
が割り当てられた新しい内部ノードに置き替え、その内部ノードを分岐して新しい葉ノードを追加し(ステップS205)、ステップS202へ移行する。一方、評価値δが閾値εよりも大きくないと判定した場合(ステップS204:N)、葉ノード
Figure 2011028519
をこれ以上分岐できないノードに設定し(ステップS206)、ステップS202へ移行する。ステップS202〜ステップS206の処理は、分岐可能な葉ノードが存在する限り繰り返して行われる。このようにして、根ノード、内部ノード及び葉ノードからなる図9に示すような決定木が生成される。
このように、データ分類装置1の決定木学習部3によれば、決定木学習処理により、分類精度だけでなく計算コストも考慮した評価値を用いて、内部ノードに置き替える葉ノード、及び、内部ノードに割り当てる特徴量を探索し、決定木を生成するようにした。これにより、データ分類部5は、決定木学習部3により生成された決定木を用いて、精度の高いデータ分類を行うことができ、データ分類の処理時間を短くすることができる。
尚、データ分類装置1の決定木学習部3は、条件付エントロピーにより不純度を算出するようにしたが、前述した非特許文献2のC4.5等で利用される情報利得率、または、前述した非特許文献3のCARTにおけるGINI係数等により不純度を算出するようにしてもよい。後述する決定木枝刈り処理においても同様である。
また、決定木学習部3は、ステップS202において、分岐可能な葉ノードがあるか否かを判定するようにしたが、分岐可能な葉ノードが、所定の深さのノード位置に存在するか否か、ステップS202からステップS206までの処理を所定数行ったか否か、または、探索対象の特徴量があるか否かを判定するようにしてもよい。この場合、分岐可能な葉ノードが所定の深さのノード位置に存在するとき、前記処理を所定数行ったとき、または、探索対象の特徴量がないときに、処理を終了する。
〔決定木枝刈り処理〕
次に、図1に示したデータ分類装置1の決定木学習部3における決定木枝刈り処理について説明する。図3は、決定木枝刈り処理を説明する図であり、図4は、決定木枝刈り処理を説明するフローチャートである。このフローチャートには、学習データ、特徴量及び計算コストに基づいて生成した決定木に対し、さらに計算コストを考慮した決定木を生成するための枝刈り処理が示されている。
図3に示すように、決定木枝刈り処理は、ある内部ノードlについて、その子孫ノード(内部ノードl、内部ノードlに分岐した下位の内部ノード及び葉ノード)の全てにおける計算コストの和及び分類精度を基準にして、それと同程度の性能が得られる別の特徴量が存在する場合、その特徴量を内部ノードlに割り当て、子孫ノードを、その特徴量が割り当てられた内部ノードl及び新しい葉ノードに置き替えるものである。決定木枝刈り処理は、根ノードに近い内部ノードから順に、葉ノードへ向かって内部ノード毎に行われる。
図4を参照して、決定木学習部3は、まず、深さ0のノード(根ノード)を開始ノードにするため、深さD=0を設定する(ステップS401)。そして、決定木学習部3は、深さDにおいて未処理の内部ノードがあるか否か(着目した内部ノードとして処理していない内部ノードがあるか否か)を判定する(ステップS402)。未処理の内部ノードがあると判定した場合(ステップS402:Y)、ステップS403へ移行し、未処理の内部ノードがないと判定した場合(ステップS402:N)、ステップS407へ移行する。
決定木学習部3は、ステップS402から移行して、未処理の内部ノードのうちの一つの内部ノードに着目し、その着目した内部ノードを最上位の内部ノードとした子孫ノードにおける計算コストの増加量ΔTを算出し、条件付きエントロピーの減少量ΔHを算出する(ステップS403)。
具体的には、決定木学習部3は、子孫ノードlによる計算コストの増加量を次の式により算出する。
Figure 2011028519
ここで、子孫ノードlは、最上位の内部ノード(着目した内部モード)lを含むノード群を示す。
また、決定木学習部3は、子孫ノードlの条件付きエントロピーを、以下の式により算出する。
Figure 2011028519
ここで、lは、着目した内部ノードlのうちの葉ノードを示す。
そして、決定木学習部3は、子孫ノードlに基づく決定木全体の条件付エントロピーの減少量を、以下の式により算出する。
Figure 2011028519
決定木学習部3は、以下の式を満たす特徴量qを複数の特徴量の中から探索する(ステップS404)。
Figure 2011028519
ここで、ΔT(L)は、子孫ノードlによる計算コストの増加量であり、ΔT(l,q)は、着目した内部ノードl(子孫ノードlにおける最上位の内部モードl)を、新しい特徴量qが割り当てられた内部ノードに置き替え、その新しい内部ノードに分岐した新しい葉ノードを設定した場合における、計算コストの増加量(子孫ノードlを新しい内部ノード及び新しい葉ノードに置き替えた場合における、計算コストの増加量)である。また、ΔH(D|l,q)は、着目した内部ノードl(子孫ノードlにおける最上位の内部モードl)を、新しい特徴量qが割り当てられた内部ノードに置き替え、その新しい内部ノードに分岐した新しい葉ノードを設定した場合における、決定木全体の条件付エントロピーの減少量(子孫ノードlを新しい内部ノード及び新しい葉ノードに置き替えた場合における、条件付エントロピーの減少量)であり、ΔH(D|L)は、子孫ノードlに基づく決定木全体の条件付エントロピーの減少量である。
また、Thrは計算コストの閾値であり、Thrは条件付エントロピーの閾値である。すなわち、子孫ノードlを、特徴量qが割り当てられた新しい内部ノード及び新しい葉ノードに置き替えた場合に、子孫ノードlによる計算コストの増加量から、特徴量qが割り当てられた新しい内部ノード等における計算コストの増加量を減算した値が、閾値Thrよりも大きく、かつ、特徴量qが割り当てられた新しい内部ノード等に基づく決定木全体の条件付エントロピーの減少量から、子孫ノードlに基づく決定木全体の条件付エントロピーの減少量を減算した値が、閾値Thrよりも大きい条件を満たす特徴量qを探索する。
決定木学習部3は、式(12)を満たす特徴量qがあるか否か判定し(ステップS405)、特徴量qがあると判定した場合(ステップS405:Y)、ステップS406へ移行し、その特徴量qがないと判定した場合(ステップS405:N)、ステップS402へ移行する。
決定木学習部3は、ステップS405から移行して、子孫ノードを削除し、探索した特徴量qが割り当てられた内部ノードに置き替え、その内部ノードに分岐する葉ノードを追加し(ステップS406)、ステップS402へ移行する。
ステップS402からステップS406までの処理を、同じ深さDにある内部ノードについて行う。そして、決定木学習部3は、ステップS402において、同じ深さDにある全ての内部ノードについての処理が完了した場合(ステップS402:N)、深さDをインクリメントし(ステップS407)、深さDと決定木の深さとを比較し(ステップS408)、深さDが決定木の深さよりも大きいと判定した場合(ステップS408:Y)、処理を終了する。一方、深さDが決定木の深さよりも大きくないと判定した場合(ステップS408:N)、ステップS402へ移行する。
このように、データ分類装置1の決定木学習部3によれば、分類精度だけでなく計算コストも考慮した決定木を生成した後に、決定木枝刈り処理によって、分類精度及び計算コストの条件式を用いて、置き替えるべき内部ノード、及び、その内部ノードに割り当てる特徴量を探索し、子孫ノードを削除して新たな決定木を生成するようにした。これにより、データ分類部5は、決定木学習部3により生成された新たな決定木を用いて、精度の高いデータ分類を行うことができ、データ分類の処理時間を一層短くすることができる。
また、前述した決定木学習処理により、各内部ノードにおける局所的な最適値に基づいて内部ノードを分岐させ決定木を生成することができるが、その後の決定木枝刈り処理により、一層大局的な視点で特徴量を選択した決定木を生成することができる。例えば、その内部ノードにおける計算コストが小さくても、それ以降に多数の処理が続く場合には、全体としてはデータ分類の処理時間が増大することとなる。決定木枝刈り処理によってこのような内部ノードを差し替えることが可能となり、データ分類の処理時間を削減することができる。また、決定木の構成が単純になるため、様々なデータに対して一層高い分類精度を実現でき、汎化能力の高い決定木を構築することが可能となる。
尚、本発明の実施形態によるデータ分類装置1のハード構成としては、通常のコンピュータを使用することができる。データ分類装置1は、CPU、RAM等の揮発性の記憶媒体、ROM等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。データ分類装置1に備えた特徴量算出部2、決定木学習部3、結果格納部4及びデータ分類部5の各機能は、これらの機能を記述したプログラムをRAM等から読み出してCPUに実行させることによりそれぞれ実現される。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記憶媒体に格納して頒布することもできる。後述するショット境界検出装置10においても同様である。
次に、図1のデータ分類装置1を利用したアプリケーションの例として、ショット境界検出装置について説明する。ショットとは、1台のカメラで連続して撮影された映像の区間をいい、ショット境界とは、ショットの切り替え点をいう。ショットは映像の基本単位であり、要約した映像及び検索した映像等を扱う際には、まず、元映像をショットに分割する作業が必要不可欠となる。ショット境界検出は、映像解析における最も基本的な処理の一つであり、高速かつ高精度な処理が求められる。そこで、図1のデータ分類装置1を用いることにより、少ない計算コストで正確にショット境界を検出できるようにする。
〔ショット境界検出装置の構成〕
まず、ショット境界検出装置の構成について説明する。図5は、ショット境界検出装置の構成を示すブロック図である。このショット境界検出装置10は、フレーム画像取得部11、画像特徴量算出部12、決定木学習部13、結果格納部14、フレーム画像取得部15及びショット境界検出部16を備えている。
フレーム画像取得部11は、外部から学習のために用いる映像(学習映像)を入力し、学習映像をデコードしてフレーム画像を取得し、画像特徴量算出部12に出力する。画像特徴量算出部12は、フレーム画像取得部11からフレーム画像を入力し、フレーム画像から画像特徴量を計算すると共に、その画像特徴量の計算に要した平均コスト(計算コスト)を算出する。計算コストは、例えば、計算時間または計算のための演算数等である。
ここで、画像特徴量について説明する。通常、ショット境界は、フレーム画像間の類似性に基づいて検出することができる。フレーム画像間の類似性は、ショット境界を含まない場合に高くなり、ショット境界を含む場合に低くなるという特性を有しており、この特性によってショット境界が検出される。フレーム画像間の類似性を図る尺度(画像特徴量)としては、様々なものが存在するが、一般的に次のような傾向がある。単純な画像特徴量を用いた場合には、高速な計算が可能であるが、カメラ、被写体等が動くときにフレーム画像間の類似性が低く計算されてしまうから、誤検出が多く発生する可能性がある。これに対し、カメラ、被写体等の動きも考慮した画像特徴量は、計算コストが高く低速な計算になってしまう。本実施例では、これらを考慮して、様々な画像特徴量を利用した決定木を生成する。また、決定木の生成に際し、隣接したフレーム画像間の類似性のみならず、離れたフレーム画像間の類似性も考慮することにより、ショット境界検出精度の向上を図る。具体的には、以下に示す画像特徴量を用いる。
(1)画素値の絶対差分和Dsad(fi,fi-k
Figure 2011028519
ここで、fiは、入力した学習映像におけるi番目のフレーム画像を示し、Fは、フレーム画像における全画素を示す。f(v)は、座標vにおける画素値を示す。画像特徴量算出部12は、式(13)により、所定のフレーム画像fi,fi-kについて、画素値の絶対値差分和による画像特徴量Dsad(fi,fi-k)を計算し、この画像特徴量の計算コストを算出する。
(2)ヒストグラム差分和Dhist(fi,fi-k
画像特徴量算出部12は、所定のフレーム画像fi,fi-kについて、画素値の頻度ヒストグラムを作成し、各ビンの頻度の絶対差分和をヒストグラム差分和による画像特徴量Dhist(fi,fi-k)として計算し、その画像特徴量の計算コストを算出する。
(3)エッジ方向ヒストグラム差分和Dedge(fi,fi-k
画像特徴量算出部12は、所定のフレーム画像fi,fi-kについて、エッジ方向ヒストグラムを作成し、各ビンの頻度の絶対差分和をエッジ方向ヒストグラム差分和による画像特徴量Dedge(fi,fi-k)として計算し、その画像特徴量の計算コストを算出する。エッジ方向ヒストグラムは、各画素について、エッジの方向arctan(dy/dx)及びエッジの強さ(dy2+dx21/2を算出することにより、エッジの方向毎にエッジの強さを表した分布図である。エッジの検出には、Sobelフィルタ等が用いられる。
(4)余弦Dcos(fi,fi-k
Figure 2011028519
画像特徴量算出部12は、式(14)により、所定のフレーム画像fi,fi-kについて、画素値の余弦による画像特徴量Dcos(fi,fi-k)を計算し、この画像特徴量の計算コストを算出する。
(5)ブロックマッチング差分DBM(fi,fi-k
画像特徴量算出部12は、まず、フレーム画像fiをブロック領域に分割する。そして、各ブロック領域について、フレーム画像fi-kとの間の類似度が閾値以上となる位置を探索する。最後に、類似度が閾値以上となる位置が見つからなかったブロック領域の総数をフレーム画像間の非類似度(画像特徴量DBM(fi,fi-k))として計算し、この画像特徴量の計算コストを算出する。ブロック領域の比較にはヒストグラム差分和、画素値の絶対差分和等が用いられる。
画像特徴量算出部12は、画像特徴量の計算及び計算コストの算出にあたり、前述の(1)〜(5)におけるkを例えば1〜5に設定する。すなわち、画像特徴量算出部12は、k=1に設定した場合のフレーム画像fi,fi-1について、(1)〜(5)の画像特徴量の計算及び計算コストの算出を行い、同様に、k=2〜5に設定した場合のフレーム画像fi,fi-2〜5について、(1)〜(5)の画像特徴量の計算及び計算コストの算出をそれぞれ行う。これにより、一つのフレーム画像から25個の画像特徴量及び計算コストが得られる。
具体的には、画像特徴量算出部12は、一つのフレーム画像から25個の画像特徴量を計算し、画像特徴量毎に計算コストを算出する。同様にして、全てのフレーム画像について25個の画像特徴量をそれぞれ計算し、画像特徴量毎に計算コストを算出し、全ての学習映像における画像特徴量の計算コストを、同種の画像特徴量毎に平均し、その平均値を、画像特徴量の計算コストに設定する。これにより、25個の画像特徴量に対し、それぞれの計算コストが算出される。
決定木学習部13は、画像特徴量算出部12からフレーム画像、画像特徴量及び計算コストを入力すると共に、ショット境界の位置であるフレーム画像の番号を示す情報を入力し、図2に示した決定木学習処理及び図4に示した決定木枝刈り処理を行ってショット境界検出用決定木を生成し、結果格納部14に格納する。ここで、ショット境界検出用決定木を生成する際に用いる不純度は、フレーム画像が真のショット境界であるか否かの分類精度の低さの程度を示す。
結果格納部14は、決定木学習部13により格納されたショット境界検出用決定木を記憶する。結果格納部14に格納されたショット境界検出用決定木は、ショット境界検出部16によりショット境界検出のために読み出される。
フレーム画像取得部15は、外部からショット境界検出対象の映像を入力し、映像をデコードしてフレーム画像を取得し、ショット境界検出部16に出力する。ショット境界検出部16は、フレーム画像取得部15からフレーム画像を入力すると共に、結果格納部14からショット境界検出用決定木を読み出す。そして、ショット境界検出部16は、ショット境界検出用決定木に基づいて、ショット境界となるフレーム画像fiを検出し、検出したフレーム画像fiの情報を検出結果として外部へ出力する。
〔ショット境界検出用決定木〕
次に、図5に示した決定木学習部13により生成され、結果格納部14に格納されるショット境界検出用決定木の構成について説明する。図6は、ショット境界検出用決定木の構成を説明する図である。決定木学習部13は、画像特徴量算出部12から、例えば、前述の(1)〜(5)におけるk=1〜5とした場合における画像特徴量及び計算コストを入力し、図2に示した決定木学習処理により、25個の画像特徴量を1個の根ノード及び24個の内部ノード0〜23に割り当ててショット境界検出用決定木を生成する。そして、図4に示した決定木枝刈り処理により、子孫ノードを内部ノードに置き替えることにより、計算コストを一層考慮したショット境界検出用決定木を生成する。図6の例では、根ノードには、(1)におけるk=1とした場合の画像特徴量Dsad(fi,fi-1)が割り当てられ、内部ノード0には、(2)におけるk=1とした場合の画像特徴量Dhist(fi,fi-1)が割り当てられ、内部ノード1には、(1)におけるk=2とした場合の画像特徴量Dsad(fi,fi-2)が割り当てられ、内部ノード2が分岐した葉ノード0には、クラスlのカテゴリ:フレーム画像fiはショット境界である、が割り当てられ、葉ノード1にはクラスlのカテゴリ:フレーム画像fiはショット境界でない、が割り当てられている。また、根ノード及び内部ノードには、分岐条件がそれぞれ割り当てられる。
ショット境界検出部16は、フレーム画像取得部15から入力したフレーム画像のうちのフレーム画像fiを注目フレーム画像として、このフレーム画像fiがショット境界であるか否かを、図6に示したショット境界検出用決定木を用いて判定し、ショット境界となるフレーム画像fiを検出する。具体的には、ショット境界検出部16は、ショット境界検出用決定木の根ノードにおいて、フレーム画像fi,fi-1から(1)の画像特徴量Dsad(fi,fi-1)を計算し、根ノードの分岐条件に従って分岐処理を行う。内部ノード0に分岐した場合、内部ノード0において、フレーム画像fi,fi-1から(2)の画像特徴量Dhist(fi,fi-1)を計算し、内部ノード0の分岐条件に従って分岐処理を行う。内部ノード2に分岐した場合、当該内部ノード2に割り当てられた画像特徴量を計算し、内部ノード2の分岐条件に従って分岐処理を行う。そして、葉ノード0に分岐した場合、ショット境界検出部16は、フレーム画像fiがショット境界であると判定する。一方、葉ノード1に分岐した場合、ショット境界検出部16は、フレーム画像fiがショット境界でないと判定する。このように、ショット境界検出部16は、注目したフレーム画像fiがショット境界であるか否かを、図6に示したショット境界検出用決定木を用いて判定する。この判定にあたり、根ノード及び内部ノードにおいて、必要な画像特徴量を逐次算出する。
尚、前述の(1)〜(5)に示した画像特徴量は、ショットを瞬時に切り替えるカットを検出するためのものである。複数のフレーム画像に渡るディゾルブ、ワイプ等を検出する場合には、単純なフレーム画像間の類似度だけでなく、他の画像特徴量も追加する必要がある。例えば、動きベクトル等の情報や単調増加または単調減少している画素の割合、エッジの変化量等の画像特徴量を追加することにより、決定木学習部13において決定木を生成する。
〔実験結果〕
次に、図5に示したショット境界検出装置10による実験結果について説明する。図7は、実験結果を説明する比較表である。この実験結果は、ドラマ、スポーツ、ドキュメンタリー等の合計約180分のテレビ番組の映像のうち、半分の映像を、ショット境界検出用決定木を生成するための学習映像として使用し、半分の映像をショット境界検出対象として使用したときの結果である。また、この実験結果は、図10の決定木学習処理による決定木を用いた従来のデータ分類装置における結果と、図2の決定木学習処理による決定木を用いた実施例のショット境界検出装置10における結果とを比較するものである。決定木枝刈り処理は行っていない。図7において、再現率は、ショット境界の検出に対する再現性の観点から検出精度を示したものであり、適合率は、ショット境界の検出に対する適合性の観点からの検出精度を示したものである。また、処理時間は、デコードの時間を除いたショット境界検出のための時間を示している。
図7の実験結果によれば、分類精度だけでなく計算コストを考慮した実施例のショット境界検出装置10では、分類精度のみを考慮した従来のデータ分類装置と比較して、同程度の検出精度を維持したまま、処理時間を約半分に削減できることがわかる。
以上のように、実施例によるショット境界検出装置10によれば、ショット境界検出精度だけでなく計算コストも考慮した効果的なショット境界検出用決定木を用いて、映像を構成するフレーム画像のショット境界を検出するようにした。これにより、精度の高いショット境界を検出することができることに加え、検出処理時間を短くすることが可能となる。
1 データ分類装置
2 特徴量算出部
3,13 決定木学習部
4,14 結果格納部
5 データ分類部
10 ショット境界検出装置
11,15 フレーム画像取得部
12 画像特徴量算出部
16 ショット境界検出部

Claims (5)

  1. 複数の特徴量を属性に持つデータを、決定木に基づいて複数のカテゴリに分類する際に、前記特徴量及び分岐条件が割り当てられた根ノード及び内部ノード、並びに分類結果のカテゴリが割り当てられた葉ノードからなる決定木であって、前記根ノードから複数の内部ノードまたは葉ノードへ分岐し、前記内部ノードから他の内部ノードまたは葉ノードへと分岐する木構造の決定木を用いたデータ分類装置において、
    前記決定木を生成するための学習用のデータから、前記複数の特徴量をそれぞれ計算し、前記特徴量の計算コストを算出する特徴量算出部と、
    前記特徴量算出部により計算された特徴量及び前記分岐条件により、葉ノードへ分岐したときの、前記学習用のデータに対する分類精度の低さを示す不純度と、前記特徴量の計算コストの逆数とに基づいて、前記特徴量毎に評価値を算出し、前記評価値が最大となる特徴量を探索し、前記探索した特徴量を根ノードまたは内部ノードに割り当て、前記決定木を生成する決定木学習部と、を備えたことを特徴とするデータ分類装置。
  2. 請求項1に記載のデータ分類装置において、
    前記決定木学習部は、前記葉ノードを新たな内部ノードに置き替え、前記新たな内部ノードに分岐して複数の新たな葉ノードを設定し、前記特徴量算出部により計算された特徴量を前記新たな内部ノードに割り当てた場合の前記評価値を、前記新たな内部ノード毎及び前記特徴量毎に算出し、前記評価値が最大となる新たな内部ノード及び特徴量を探索し、前記探索した特徴量を前記探索した新たな内部ノードに割り当てることにより、前記決定木を生成する、ことを特徴とするデータ分類装置。
  3. 請求項1または2に記載のデータ分類装置において、
    前記決定木学習部は、さらに、前記生成した決定木を構成する内部ノードのうち、下位側に内部ノード及び葉ノードが配置された内部ノードを選定し、
    前記選定した内部ノード並びに下位側に配置された内部ノード及び葉ノードからなる子孫ノードについて、前記子孫ノードによる計算コストの増加量を第1の計算コスト増加量として算出し、
    前記子孫ノードによる前記不純度の減少量を第1の不純度減少量として算出し、
    前記子孫ノードを新たな内部ノードに置き替え、前記新たな内部ノードに分岐して複数の新たな葉ノードを設定し、前記特徴量算出部により計算された特徴量を前記新たな内部ノードに割り当てた場合の前記計算コストの増加量及び前記不純度の減少量を、前記新たな内部ノード毎及び前記特徴量毎に、第2の計算コスト増加量及び第2の不純度減少量として算出し、
    前記第1の計算コスト増加量から第2の計算コスト増加量を減算した結果が所定の閾値よりも大きく、かつ、前記第2の不純度減少量から第1の不純度減少量を減算した結果が所定の閾値よりも大きいときの前記新たな内部ノード及び特徴量を探索し、前記子孫ノードを前記探索した新たな内部ノード及び複数の新たな葉ノードに置き替え、前記探索した特徴量を前記探索した新たな内部ノードに割り当てることにより、新たな決定木を生成する、ことを特徴とするデータ分類装置。
  4. 請求項1から3までのいずれか一項に記載のデータ分類装置において、
    映像を構成する複数のフレーム画像のうち、ショット境界のフレーム画像を検出する際に、
    前記特徴量算出部は、前記決定木を生成するための学習映像に基づいて、前記学習映像を構成する複数のフレーム画像の特徴量をそれぞれ計算し、前記特徴量の計算コストを算出し、
    前記決定木学習部は、
    前記特徴量算出部により計算されたフレーム画像の特徴量及び前記分岐条件により、葉ノードへ分岐したときの、前記フレーム画像が真のショット境界であるか否かの分類精度の低さを示す不純度と、前記特徴量の計算コストの逆数とに基づいて、前記特徴量毎に評価値を算出し、前記評価値が最大となる特徴量を探索し、前記探索した特徴量を根ノードまたは内部ノードに割り当て、前記決定木を生成する、ことを特徴とするデータ分類装置。
  5. コンピュータを、請求項1から4までのいずれか一項に記載のデータ分類装置として機能させるためのデータ分類プログラム。
JP2009173649A 2009-07-24 2009-07-24 データ分類装置及びプログラム Expired - Fee Related JP5367488B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009173649A JP5367488B2 (ja) 2009-07-24 2009-07-24 データ分類装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009173649A JP5367488B2 (ja) 2009-07-24 2009-07-24 データ分類装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2011028519A true JP2011028519A (ja) 2011-02-10
JP5367488B2 JP5367488B2 (ja) 2013-12-11

Family

ID=43637196

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009173649A Expired - Fee Related JP5367488B2 (ja) 2009-07-24 2009-07-24 データ分類装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5367488B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074921A (ja) * 2017-10-16 2019-05-16 富士通株式会社 分類プログラム、分類方法、および分類装置
WO2019138584A1 (ja) * 2018-01-15 2019-07-18 日本電気株式会社 分類木生成方法、分類木生成装置および分類木生成プログラム
WO2019189249A1 (ja) * 2018-03-29 2019-10-03 日本電気株式会社 学習装置、学習方法、及びコンピュータ読み取り可能な記録媒体
CN112199805A (zh) * 2020-09-11 2021-01-08 山东信通电子股份有限公司 一种输电线路隐患识别模型评估方法及装置
US11526709B2 (en) 2019-01-29 2022-12-13 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium for classifying object of interest
WO2023012971A1 (ja) * 2021-08-05 2023-02-09 日本電信電話株式会社 学習方法、装置及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517793A (ja) * 1999-12-17 2003-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定木を用いてテレビ番組選択を推奨する方法及び装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003517793A (ja) * 1999-12-17 2003-05-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 決定木を用いてテレビ番組選択を推奨する方法及び装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200300332008; 渡邉 聡 他: '決定木を用いた将棋の局面評価' 情報処理学会シンポジウムシリーズ Vol.2001 No.14 第6回ゲーム・プログラミングワークシ , 20011026, pp.117-123, 社団法人情報処理学会 *
JPN6013024885; 渡邉 聡 他: '決定木を用いた将棋の局面評価' 情報処理学会シンポジウムシリーズ Vol.2001 No.14 第6回ゲーム・プログラミングワークシ , 20011026, pp.117-123, 社団法人情報処理学会 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074921A (ja) * 2017-10-16 2019-05-16 富士通株式会社 分類プログラム、分類方法、および分類装置
WO2019138584A1 (ja) * 2018-01-15 2019-07-18 日本電気株式会社 分類木生成方法、分類木生成装置および分類木生成プログラム
JPWO2019138584A1 (ja) * 2018-01-15 2020-12-17 日本電気株式会社 分類木生成方法、分類木生成装置および分類木生成プログラム
JP6992821B2 (ja) 2018-01-15 2022-01-13 日本電気株式会社 分類木生成方法、分類木生成装置および分類木生成プログラム
WO2019189249A1 (ja) * 2018-03-29 2019-10-03 日本電気株式会社 学習装置、学習方法、及びコンピュータ読み取り可能な記録媒体
JPWO2019189249A1 (ja) * 2018-03-29 2021-02-12 日本電気株式会社 学習装置、学習方法、及びプログラム
US11526709B2 (en) 2019-01-29 2022-12-13 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium for classifying object of interest
US11823451B2 (en) 2019-01-29 2023-11-21 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and storage medium for classifying object of interest
CN112199805A (zh) * 2020-09-11 2021-01-08 山东信通电子股份有限公司 一种输电线路隐患识别模型评估方法及装置
CN112199805B (zh) * 2020-09-11 2022-11-15 山东信通电子股份有限公司 一种输电线路隐患识别模型评估方法及装置
WO2023012971A1 (ja) * 2021-08-05 2023-02-09 日本電信電話株式会社 学習方法、装置及びプログラム

Also Published As

Publication number Publication date
JP5367488B2 (ja) 2013-12-11

Similar Documents

Publication Publication Date Title
JP5367488B2 (ja) データ分類装置及びプログラム
JP6188976B2 (ja) 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
JP6004016B2 (ja) 情報変換方法、情報変換装置および情報変換プログラム
WO2014109127A1 (ja) インデックス生成装置及び方法並びに検索装置及び検索方法
JP5193518B2 (ja) パターン探索装置及びその方法
KR20010053788A (ko) 내용기반 이미지 검색 시스템 및 그 방법
EP2661709A1 (en) Method and apparatus for comparing videos
CN107223242B (zh) 用于在多个已存储图像中搜索相似图像的方法
US8478045B2 (en) Method and apparatus for processing an image comprising characters
US9223804B2 (en) Determining capacity of search structures
JP6631519B2 (ja) インデックス生成装置及びインデックス生成方法
KR102400987B1 (ko) 메모리 관리 장치 및 방법
KR20220070482A (ko) 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품
Lv et al. Intelligent probing for locality sensitive hashing: Multi-probe LSH and beyond
Chen et al. Compoundeyes: Near-duplicate detection in large scale online video systems in the cloud
US20150086118A1 (en) Method for recognizing a visual context of an image and corresponding device
US9858293B2 (en) Image processing apparatus and image processing method
Xie et al. Improved whale optimization algorithm for 2D-Otsu image segmentation with application in steel plate surface defects segmentation
JP2010186307A (ja) 動画コンテンツ識別装置および動画コンテンツ識別方法
CN105930499B (zh) 一种图片搜索方法及系统
EP2966613A1 (en) Method and apparatus for generating a super-resolved image from an input image
KR102035395B1 (ko) 초점변경방식 광학 스캐너를 이용한 스캔 장치 및 스캔 방법
Amin et al. A hybrid defocused region segmentation approach using image matting
KR101919698B1 (ko) 실루엣을 적용한 그룹 탐색 최적화 데이터 클러스터링 방법 및 시스템
Guru et al. Histogram based split and merge framework for shot boundary detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130911

R150 Certificate of patent or registration of utility model

Ref document number: 5367488

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees