JP2013167964A

JP2013167964A - 情報処理装置、情報処理方法、プログラム

Info

Publication number: JP2013167964A
Application number: JP2012029649A
Authority: JP
Inventors: Kazufumi Ikeda; 和史池田; Hajime Hattori; 元服部; Toshihiro Ono; 智弘小野
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2012-02-14
Filing date: 2012-02-14
Publication date: 2013-08-29
Anticipated expiration: 2032-02-14
Also published as: JP5906100B2

Abstract

【課題】サポートベクターマシンを用いた識別器としての情報処理装置について、その学習時間を有効に短縮する。
【解決手段】前段の学習部のサポートベクターマシンから出力されるサポートベクター群を２つずつ結合してさらにサポートベクターマシンにより学習を行わせるという多段型の学習部の間に、学習データ再構築部を設ける。学習データ再構築部は、カテゴリＡ、Ｂから成るサポートベクター群におけるカテゴリＡをさらに複数のサブカテゴリに分類し、さらに１つのサブカテゴリによる第１カテゴリグループと、これ以外の第２カテゴリグループにグルーピングする。そして、このようにグルーピングされたサポートベクター群を、次段の学習部に入力させる。
【選択図】図２

Description

本発明は、学習型の識別器として機能する情報処理装置とその方法およびプログラムに関する。

人工知能分野において用いられる識別器として、ＳＶＭ（Support Vector Machine：サポートベクターマシン）が知られている。ＳＶＭは、教師有り学習型であることから、識別にあたっては識別対象のデータの特徴を識別器に学習させることが必要である。ＳＶＭによる識別器は広く応用されているが、学習に必要とされるデータ量は増加の傾向にある。このため、学習データが極めて大規模である場合には学習時間も非常に長くなってしまい、現実的な時間内で学習を終了できなくなるということが近年の問題となってきている。

そこで、以下のような技術が知られている。つまり、学習データを分割したデータを並列に設けた複数のＳＶＭに入力して学習させ、これらのＳＶＭごとに出力されたサポートベクター（ＳＶ：Support Vector)を２組ずつに結合して次段のＳＶＭに入力して学習させる。以降、同様にして、１つの段におけるＳＶＭごとに出力されたサポートベクターを２組ずつ結合して次段のＳＶＭに入力させるという処理をＳＶＭが１つになる最終段まで行い、この最終段のＳＶＭより出力されたサポートベクターを初段に帰還するというものである(例えば、非特許文献１参照)。これにより、上位段のＳＶＭごとに入力すべき学習事例数を削減し、学習時間の削減を図ろうというものである。

Hans Peter Graf, Eric Cosatto, Leon Bottou, Igor Durdanovic, Vladimir Vapnik, "Parallel Support Vector Machines:The Cascade SVM", NEC Laboratories,

しかし、本願発明者等が非特許文献１の技術を検証した結果、学習処理の段数が進んでいくにしたがってサポートベクターの数が想定を超えて増加してしまうために、学習時間を有効に短縮させることが困難であることを確認した。

そこでこの発明は、サポートベクターマシンを用いた識別器としての情報処理装置が学習処理を実行する際の学習時間を有効に短縮することを目的とする。

本発明は、上述の課題を解決すべくなされたもので、本発明の一態様としての情報処理装置は、学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第２段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習部と、最終段を除く各段に対応する前記学習部における複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類部と、前記複数のカテゴリを、特定のカテゴリから成る第１カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第２カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習部に入力するグルーピング部とを備える。

また本発明の一態様としての情報処理方法は、学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第２段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、前記複数のカテゴリを、特定のカテゴリから成る第１カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第２カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップとを備える。

また本発明の一態様としてのプログラムは、コンピュータに、学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第２段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、前記複数のカテゴリを、特定のカテゴリから成る第１カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第２カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップとを実行させる。

本発明によれば、サポートベクターマシンを用いた識別器としての情報処理装置が学習処理を実行する際の学習時間が有効に短縮されるという効果が得られる。

本発明の実施形態としての情報処理装置の学習フェーズに対応する構成例を示す図である。本実施形態における多段型学習部の構成例を示す図である。本実施形態における学習データ再構築部の構成例を示す図である。本実施形態における学習データの特徴量の例を模式的に示す図である。サポートベクターのカテゴリを分化しない場合と分化した場合のサポートベクター数と総学習時間を比較して示す図である。本実施形態としての情報処理装置の識別フェーズに対応する構成例を示す図である。本実施形態としての情報処理装置の学習フェーズに対応する処理手順例を示す図である。学習フェーズにおけるカテゴリグループ対応学習のための処理手順例を示す図である。カテゴリグループ対応学習におけるＳＶ再構築のための処理手順例を示す図である。本実施形態としての情報処理装置の識別フェーズに対応する処理手順例を示す図である。情報処理装置が具現化されるコンピュータの構成例を示す図である。

［学習フェーズに対応する情報処理装置の全体構成例］
図１は、本実施形態における情報処理装置１の学習フェーズに対応した全体構成例を示している。この図に示す学習フェーズ対応の情報処理装置１は、教師有りの学習型であるサポートベクターマシン（ＳＶＭ:Support Vector Machine）の識別器に学習させるための構成を採るもので、学習データ１０を入力する多段型学習部１００を備える。

多段型学習部１００は、学習データ１０を入力して学習を行い、所定のカテゴリを識別するための学習結果を出力する。
この多段型学習部１００は、学習データ１０を分割して得られる分割データをそれぞれ入力して初段の学習を複数のサポートベクターマシンに行わせ、前記初段以降において、前段のサポートベクターマシンから出力されたサポートベクターの再構築（グルーピング）を必要に応じて行う。そのうえで、これらの再構築されたサポートベクターを所定の組数ごとに結合したデータをそれぞれ入力して最終段までの学習をサポートベクターマシンに行わせるという構成を採る。この多段型学習部１００は、所定のカテゴリを識別するための学習結果である第１学習結果Ｄ１１と、この第１学習結果Ｄ１１とは異なる所定のカテゴリを識別するための学習結果である第２学習結果Ｄ１２との２系統の学習結果を出力することとしている。

［多段型学習部の構成例］
図２は、多段型学習部１００の構成例を示している。この図に示す多段型学習部１００は、データ分割部１１０、第１段（初段）学習部１２０、第１段（初段）再構築部１３０、第２段学習部１４０、第２段再構築部１５０、第３段学習部１６０、第３段再構築部１７０および第４段（最終段）学習部１８０を備える。

データ分割部１１０は、学習データ１０を所定数のサブセット（分割データ）ＤＴ１〜ＤＴ８に分割する。

第１段学習部１２０は、分割データＤＴ１〜ＤＴ８をそれぞれ入力して初段（最下位）における学習を行う８個のサポートベクターマシン（ＳＶＭ）１２１〜１２８を備える。
これら８個のサポートベクターマシン１２１〜１２８は、それぞれ、分割データＤＴ１〜ＤＴ８を入力して学習処理を実行し、その学習結果として分離超平面に対応する複数のサポートベクター（ＳＶ）を出力する。同図では、サポートベクターマシン１２１〜１２８は、それぞれ、複数のサポートベクターから成るサポートベクター（ＳＶ）群１１〜１８を出力する。

なお、サポートベクターマシン１２１〜１２８の学習アルゴリズムについては特に限定されるものではないが、以下のような手法を採用できる。つまり、サポートベクターマシンを学習する主要タスクは、「−１」と「＋１」のラベルｙｉを持つ学習用データｘ_ｉ（ｉ＝１，２，・・・，Ｉ）が与えられた場合に、下記の式（１）として示す制約二次計画問題を解くというものである。式（１）において、Ｋ（ｘ_ｉ，ｘ_ｊ）は、或る特徴空間上の２つのベクトルｘ_ｉとｘ_ｊとの間の内積を計算するカーネル関数であり、Ｃ_ｉ（ｉ＝１，２，・・・，Ｉ）は、上記のように与えられた学習用データｘ_ｉにおいてノイズを含むデータにペナルティを課すパラメータである。

第１段再構築部１３０は、第１段学習部１２０のサポートベクターマシン１２１〜１２８から出力されるサポートベクター群１１〜１８ごとを対象としてその再構築を行う。このために、第１段再構築部１３０は、サポートベクター群１１〜１８の各々を対象として再構築を行う８つの学習データ再構築部１３１〜１３８を備える。
学習データ再構築部１３１は、サポートベクター群１１を対象として所定のカテゴリごとにクラスタリングを行ったうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群２１として出力する。同様に、学習データ再構築部１３２〜１３８は、それぞれ、サポートベクター群１２〜１８を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群２２〜２８として出力する。

第２段学習部１４０は、上記再構築サポートベクター群２１〜２８を所定組数ごとに結合する。そして、この結合されたサポートベクターをそれぞれ入力して２段目における学習をサポートベクターマシンに実行させる。

具体的に、第２段学習部１４０は、上記学習データ再構築部１３２〜１３８から出力された８つの再構築サポートベクター群２１〜２８を２つずつ結合する。つまり、第２段学習部１４０は、再構築サポートベクター群２１と２２を結合し、再構築サポートベクター群２３と２４を結合し、再構築サポートベクター群２５と２６を結合し、再構築サポートベクター群２７と２８を結合する。これにより、８つのサポートベクター群は、４つのサポートベクター群にまとめられる。
そして、第２段学習部１４０は、上記４つのサポートベクター群を４個のサポートベクターマシン１４１〜１４４にそれぞれ入力して学習を行わせる。これら４個のサポートベクターマシン１４１〜１４４は、学習結果として、それぞれ、複数のサポートベクターから成るサポートベクター群３１〜３４を出力する。

第２段再構築部１５０は、第２段学習部１４０のサポートベクターマシン１４１〜１４４から出力されるサポートベクター群３１〜３４ごとを対象として再構築を行う。このために、第２段再構築部１５０は、上記サポートベクター群３１〜３４の各々を対象として再構築を行う４つの学習データ再構築部１３１〜１３８を備える。
学習データ再構築部１３１〜１３８は、それぞれ、サポートベクター群３１〜３４を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群４１〜４４として出力する。

第３段学習部１６０は、前段の第２段再構築部１５０から出力される再構築サポートベクター群４１〜４４を、第２段学習部１４０と同様に２つずつ結合する。具体的に、第３段学習部１６０は、再構築サポートベクター群４１と４２を結合し、再構築サポートベクター群４３と４４を結合することで、４つのサポートベクター群を２つにまとめる。そして、第３段学習部１６０は、
この結合後の２つのサポートベクター群を、２つのサポートベクターマシン１６１および１６２にそれぞれ入力して学習を行わせ、サポートベクター群５１、５２を出力させる

第３段再構築部１７０は、上記第３段学習部１６０のサポートベクターマシン１６１、１６２から出力されるサポートベクター群５１、５２を対象として再構築を行う。このために、第２段再構築部１５０は、上記サポートベクター群５１、５２の各々を対象として再構築を行う２つの学習データ再構築部１７１、１７２を備える。
学習データ再構築部１７１、１７２は、それぞれ、サポートベクター群５１、５２を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群６１、６２として出力する。

第４段（最終段）学習部１８０は、前段の第３段再構築部１７０から出力される２つの再構築サポートベクター群６１、６２を１つに結合する。そして、この結合後の再構築サポートベクター群を、サポートベクターマシン１８１に入力して学習を行わせる。
このように１つのサポートベクターマシン１８１を備える第４段学習部１８０は、最終段の学習を行うものとなる。したがって、第４段学習部１８０のサポートベクターマシン１８１から出力されるサポートベクターが学習結果となる。

次に、図３を参照して、学習データ再構築部の構成について、学習データ再構築部１３１と１３２を例に挙げて説明する。なお、図２に示した他の学習データ再構築部１３３〜１３８、１５１〜１５４、１７１および１７２は、例えば学習データ再構築部１３１および１３２と同じ構成を採る。
なお、図３を説明するにあたり、学習フェーズにおいてインターネット上における有害サイトを識別するための学習を行う場合を例に挙げることとする。また、ここでの図３の説明は、第１学習結果Ｄ１１を出力する場合の処理についてのものとなる。

図３において、学習データ再構築部１３１が出力したサポートベクター群１１は、学習結果として、例えばカテゴリＡのサポートベクター群１１ＡとカテゴリＢのサポートベクター群１１Ｂに大別して分類されているものとする。この場合において、例えば、カテゴリＡは「有害」、カテゴリＢは「無害」に該当する。また、学習データ再構築部１３２が出力したサポートベクター群１２も同様に、カテゴリＡのサポートベクター群１１ＡとカテゴリＢのサポートベクター群１１Ｂに大別して分類される。

学習データ再構築部１３１は、上記内容のサポートベクター群１１の再構築を行う。この学習データ再構築部１３１は、分類可否判定部２０１、分類部２０２、類似判定部２０３およびグルーピング部２０４を備える。
分類可否判定部２０１は、例えば「有害」に該当するカテゴリＡのサポートベクター群１１Ａについて、さらに細分化したサブカテゴリに分類すべきか否かについて判定する・具体的に、分類可否判定部２０１は、カテゴリＡのサポートベクター群１１Ａの数が予め定めた閾値と比較した結果に基づいて判定を行う。つまり、分類可否判定部２０１は、カテゴリＡのサポートベクター群１１Ａの数が上記閾値以上であれば分類すべきであると判定し、閾値未満であれば分類すべきでないと判定する。

なお、分類可否判定部２０１により分類すべきではないと判定された場合、図３には反映されていないが、学習データ再構築部１３１は、サポートベクター群１１について特に再構築を行わない。この場合、学習データ再構築部１３１は、サポートベクター群１１を次段の第２段学習部１４０に出力することになる。

分類可否判定部２０１により分類すべきと判定された場合、分類部２０２は、カテゴリＡのサポートベクター群１１Ａをさらに細分化したサブカテゴリに分類する。なお、ここでのサブカテゴリ数については特に限定されるものではなく、学習対象などの各種条件に応じて適宜変更されるべきものである。ここでは、最も簡単な例として、分類部２０２は、カテゴリＡをサブカテゴリＡ−１とＡ−２の２つのサブカテゴリに分類するものとする。これにより、カテゴリＡのサポートベクター群１１Ａは、サブカテゴリＡ−１のサポートベクター群１１Ａ−１と、サブカテゴリＡ−２のサポートベクター群１１Ａ−２とに分類される。
あくまでも一例であるが、サブカテゴリＡ−１は、「有害」とされるもののうちの「成人」のジャンルに該当し、カテゴリＡ−２は「暴力」のジャンルに該当するというように区分される。
なお、分類部２０２に採用される分類（クラスタリング）のためのアルゴリズムとしては、ｋ−ｍｅａｎｓ法を採用することとする。このｋ−ｍｅａｎｓ法は、高速にクラスタリングを行うことが可能なアルゴリズムである。

また、分類部２０２による上記のような分類は、学習データ１０から抽出した特徴量に基づいて行われる。ここで、図４を参照して、本実施形態における特徴量について説明する。図４には、サイト１〜３の３つのサイトが示されている。サイト１は、カテゴリＡ−１に該当する有害サイトであり、サイト２は、カテゴリＢに該当する無害サイトであり、サイト３は、カテゴリＡ−２に該当する有害サイトである。

これらサイト１〜３には、文字列１〜文字列ｎが対応付けられている。サイト１〜３の各々において、文字列１〜文字列ｎのうちで出現しているものについては「１」が与えられ、出現していないものについては「０」が与えられる。すなわち、有害サイトを識別させるための学習データ１０は、例えば学習事例としてカテゴリごとに選別した或る数のサイトのテキストとすることができる。特徴量を生成する処理としては、例えばサイトの各テキストから文字列を抽出し、抽出した文字列がカテゴリごとに出現するか否かを検出する。そして、この検出結果を特徴量とするものである。

ここで、もう１つの学習データ再構築部１３２は、学習データ再構築部１３１と共通の構成を採ることとしている。図において、類似判定部２０３は、図示の便宜上、学習データ再構築部１３１が備えるものとして示されているが、その機能上、学習データ再構築部１３１と１３２とで共有しているものと見ることができる。
そして、学習データ再構築部１３２も、上記の説明と同様に、サポートベクター群１２におけるカテゴリＡのサポートベクター群１２Ａを対象として分類部２０２が分類を行う。これにより、学習データ再構築部１３２において、サポートベクター群１２Ａは、図示するように、サブカテゴリＡ−１のサポートベクター群１２Ａ−１とサブカテゴリＡ−２のサポートベクター群１２Ａ−２に分類される。

次に、類似判定部２０３は、対応のサポートベクター群において分類されたサブカテゴリが、同じ段の他のサポートベクター群において分類されたサブカテゴリのいずれと類似しているのかを判定する。
学習データ再構築部１３１側ではカテゴリＡのサポートベクター群１１Ａから、サブカテゴリＡ−１のサポートベクター群１１Ａ−１と、サブカテゴリＡ−２のサポートベクター群１１Ａ−２とに分類されている。また、学習データ再構築部１３２側ではカテゴリＡのサポートベクター群１２Ａから、サブカテゴリＡ−１のサポートベクター群１２Ａ−１と、サブカテゴリＡ−２のサポートベクター群１２Ａ−２とに分類されている。
ただし、ここまでの段階では、例えばｋ−ｍｅａｎｓ法により単に分類が行われただけであって、分類されたサブカテゴリのうち、どのサブカテゴリ同士が、同じサブカテゴリＡ−１に対応し、また、サブカテゴリＡ−２に対応しているかについて判定されてはいない。

そこで、類似判定部２０３は、同じ段における８つのサポートベクター群１１〜１８において分類されたサブカテゴリ間で互いに類似しているものがいずれであるのかを判定する。これにより、サポートベクター群１１〜１８におけるサポートベクターが、サブカテゴリＡ−１とＡ−２のいずれに属するものであるのかが区分できることになる。
この類似判定にあたり、類似判定部２０３は、サポートベクター群１１〜１８の間で各サブカテゴリに含まれるサポートベクターの類似度を求めるようにされる。この類似度が一定以上に高いサポートベクターから成るカテゴリが、同じカテゴリであると推定されるものである。

次に、学習データ再構築部１３１と１３２の各グルーピング部２０４は、上記類似判定部２０３の判定結果に基づいて、共通のサブカテゴリを学習対象とする再構築サポートベクター群２１、２２を構築する。
つまり、学習データ再構築部１３１のグルーピング部２０４は、まず、サブカテゴリＡ−１のサポートベクター群１１Ａ−１と、サブカテゴリＡ−２のサポートベクター群１１Ａ−２と、カテゴリＢのサポートベクター群１１Ｂを入力する。そして、これらのサブカテゴまたはカテゴリ単位のサポートベクター群を、第１カテゴリグループＣＧ１１と第２カテゴリグループＣＧ１２とにグループ分けする。
図示するように、第１カテゴリグループＣＧ１１は、サブカテゴリＡ−１のみのサポートベクター群を含み、第２カテゴリグループＣＧ１２は、サブカテゴリＡ−１以外、つまり、サブカテゴリＡ−２とカテゴリＢのサポートベクター群を含む。
つまり、学習データ再構築部１３１のグルーピング部２０４は、サブカテゴリＡ−１のサポートベクター群と、サブカテゴリＡ−１以外のサポートベクター群とでグループ分けを行うようにサポートベクター群１１を再構築する。このように再構築されたサポートベクター群が再構築サポートベクター群２１であり、サブカテゴリＡ−１を識別する学習を行わせるための学習データとなる。

同様に、学習データ再構築部１３２のグルーピング部２０４も、サブカテゴリＡ−１のサポートベクター群１２Ａ−１と、サブカテゴリＡ−２のサポートベクター群１２Ａ−２と、カテゴリＢのサポートベクター群１２Ｂを入力する。そして、学習データ再構築部１３２のグルーピング部２０４は、類似判定部２０３によりサポートベクター群１１Ａ−１と類似していると判定されたサポートベクター群１２Ａ−１を第１カテゴリグループＣＧ１１に含める。また、これ以外のサポートベクター群を第２カテゴリグループＣＧ１２に含める。このように、学習データ再構築部１３２のグルーピング部２０４によっても、再構築サポートベクター群２１と同じカテゴリのグループ分けによる再構築サポートベクター群２２が構築される。
そして、上記再構築サポートベクター群２１、２２は、結合されて１つにまとめられ、次段の第２段学習部１４におけるサポートベクターマシン１４１のための学習データとして入力される。

図に２に示した他の学習データ再構築部１３３〜１３８、１５１〜１５４、１７１および１７２も、上記学習データ再構築部１３１、１３２と同じ構成を採る。そのうえで、上記他の学習データ再構築部も、それぞれ、上段のサポートベクターマシンから出力されるサポートベクター群を再構築し、再構築サポートベクター群を出力する。この再構築サポートベクター群は、いずれも、図３の再構築サポートベクター群２１または２２として示したように、サブカテゴリＡ−１のみの第１カテゴリグループＣＧ１１と、サブカテゴリＡ−１以外の第２カテゴリグループＣＧ１２とにグループ分けされている。
そして、最終的に、第３段再構築部１７０における２つの学習データ再構築部１７１、１７２から出力された再構築サポートベクター群６１、６２が結合され、第４段（最終段）学習部１８０のサポートベクターマシン１８１に入力される。このサポートベクターマシン１８１から出力されるサポートベクター群が、第１学習結果Ｄ１１となる。この第１学習結果Ｄ１１は、サブカテゴリＡ−１が対応する「成人」のジャンルに該当する有害サイトであるか否かを識別するのに使用すべきデータとなる。

上記の例のように「有害」が対応するカテゴリＡについて、例えば、それぞれが「成人」と「暴力」のジャンルに対応する２つのサブカテゴリＡ−１とＡ−２に分類することとした場合、上記構成の多段型学習部１００は、計２回の学習を行う。
そのうち１回は、図３にて説明したように、サブカテゴリＡ−１が対応する「成人」のジャンルに該当する有害サイトであるか否かを識別するのに使用する第１学習結果Ｄ１１を求めるための学習である。この学習については、「第１学習」ともいうことにする。

もう１回は、サブカテゴリＡ−２に対応する「暴力」のジャンルに該当する有害サイトであるか否かを識別するのに使用する第２学習結果Ｄ１２を求めるための学習である。この学習については、「第２学習」ともいうことにする。
上記第２学習の場合には、各学習データ再構築部におけるグルーピング部２０４による再構築サポートベクター群のグループ分けが第１学習と異なる。つまり、第２学習において、グルーピング部２０４は、サブカテゴリＡ−２のサポートベクターのみを第１カテゴリグループＣＧ１１に含めるようにグループ分けする。また、サブカテゴリＡ−２以外であるサブカテゴリＡ−１とカテゴリＢのサポートベクターを第２カテゴリグループＣＧ１２に含めるようにグループ分けするものである。
これにより、最終的に第４段学習部１８０のサポートベクターマシン１８１から出力される第２学習結果Ｄ１２は、サブカテゴリＡ−２に対応する「暴力」のジャンルに該当するサイトであるか否かを識別するためのものとなる。

［学習時間計測結果］
図５は、本実施形態の情報処理装置１に対して有害サイト識別のための学習データ１０を与えて学習を実行させたときの学習時間についての計測結果を示している。なお、この図においては、比較として、サブカテゴリの分類を行わない場合の計測結果も示している。

まず、図５（ａ）は、学習データ１０の再構築（サブカテゴリによる分類とグループ分け）を行わない場合の計測結果を示している。この場合、多段型学習部１００に対しては、カテゴリＡに対応する「有害」と、カテゴリＢに対応する「無害」とを識別する学習を行わせることになる。

図５（ｂ）は、図３に示した例にしたがってサブカテゴリによる分類とグループ分けを行って学習を実行させた場合の計測結果を示している。
なお、この場合において、多段型学習部１００は、図４に示した４段より１段多い５段としている。つまり、この場合の多段型学習部１００は、図２の構成においてデータ分割部１１０が学習データ１０を１６個に分割する。そのうえで、これら１６個の分割データを入力して学習する１６個のサポートベクターマシンを備える学習部が追加される。また、この学習部の次段において、上記１６個のサポートベクターマシンから出力されるサポートベクター群を再構築する１６個の学習データ再構築部が追加される。そして、図２の第１段学習部１２０は、これら１６の再構築サポートベクター群を２つずつ結合して８個のサポートベクターマシン１２１〜１２８に入力し、学習を実行させる。

図５（ａ）においては、学習段位置「１」〜「４」ごとに、学習件数、ＳＶ（サポートベクター）数、総学習時間を対応付けている。学習段位置「１」〜「４」は、それぞれ、第１〜第４段学習部に対応する。学習件数は、各段において１つのサポートベクターマシンが扱うこととなる学習データの数を示している。サポートベクター数は、各段の学習部から学習結果として出力されるサポートベクターの数を示す。学習時間は、情報処理装置１に学習を開始させてから、対応の段の学習部における学習が終了するまでに経過した時間を示す。

また、図５（ｂ）においては、学習段位置「１」〜「５」ごとに、学習件数、第１学習におけるサポートベクター数および総学習時間、第２学習におけるサポートベクター数および総学習時間が対応付けられている。

図５（ａ）および図５（ｂ）における学習段位置ごとのサポートベクター数の変化から分かるように、サポートベクター数は、学習段位置が進むのに応じて増加していく傾向となる。ここで、図５（ａ）と図５（ｂ）とで同じ第４段のサポートベクター数を比較してみると、図５（ａ）では、「６６９８７個」であるのに対して、図５（ｂ）では、第１学習のときに「３０８０１個」、第２学習のときに「３７２２６個」となっており、図５（ｂ）のほうが顕著に少なくなっていることが分かる。

これに伴って、同じ４段目の学習時間についても、図５（ａ）では、「６５３０８０秒」であるのに対して、図５（ｂ）では、第１学習のときに「１６３１６４秒」、第２学習のときに「２１７６８５秒」となっており、図５（ｂ）のほうが大幅に短縮されている。本実施形態では、第１学習と第２学習を順次実行するので、総学習時間は「１６３１６４秒」と「２１７６８５秒」を加算した「３８０８４９秒」となるが、これと図５（ｂ）の学習時間とを比較しても、図５（ｂ）の方が短くなっている。なお、第１学習と第２学習を並行して同時に実行させることも可能であり、この場合の総合的学習時間は、学習時間が長い方の「２１７６８５秒」となり、さらに短縮されることになる。

そして、図５（ｂ）において学習段位置「５」として示される第５段（最終段）における学習時間は、第１学習では「４９３５１５秒」、第２学習では「５８４７７９秒」となっており、それぞれ、図５（ａ）の第４段の学習時間「６５３０８０秒」より短縮されている。

このように、本実施形態においては、初段から最終段の前段までにおける学習部のサポートベクターマシンから出力されるサポートベクター群を、サブカテゴリのレベルにまで分類する。そのうえで、学習対象とするサブカテゴリに応じてサポートベクター群のグループ分けを行うこととしている。
これにより、図５から理解されるように、カテゴリ分類とグループ分けをせずに学習を行わせた場合と比較して同じ学習段における学習時間は本実施形態のほうが大幅に短縮される。また、これに伴って、例えば識別性能の向上のために多段型学習部をさらに多段化して大規模化した場合においても、現実的な学習時間内で学習させることが可能になる。

また、これまでの説明から理解されるように、本実施形態においては、多段型学習部１００における学習データ再構築部においてサブカテゴリの分類が行われ、サブカテゴリを識別するための学習結果が得られるようになっている。つまり、本実施形態においては、多段型学習部１００に入力する学習データ１０について予めサブカテゴリレベルの分類を行わなくとも、サブカテゴリレベルまで識別可能な学習結果が得られる。

［識別フェーズに対応する情報処理装置の全体構成例］
図６は、識別フェーズに対応して再構築される情報処理装置１の全体構成例を示している。識別フェーズは、前述の学習フェーズにより得られた学習結果（第１学習結果Ｄ１１、第２学習結果Ｄ１２）を利用して、識別対象データについて識別を行うフェーズである。なお、同図の説明にあたって、当該識別フェーズによっては、前述の例にしたがってインターネット上の有害サイトの識別を想定しているものとする。

識別フェーズに対応する情報処理装置１は、特徴量生成部５００、識別部６００Ａ、識別部６００Ｂ、識別結果結合部７００を備える。

特徴量生成部５００は、識別対象データ７０を入力してその特徴量を生成し、識別対象データ特徴量７０Ａとして出力する。識別フェーズとしてインターネット上の有害サイトの識別を想定している場合、識別対象データ７０は、或るサイトにおいて記述されるテキストデータとなる。

識別部６００Ａ、６００Ｂは、それぞれが異なるカテゴリグループごとに対応して多段型学習部１００から出力された複数の学習結果を利用して、識別対象データについての識別をサポートベクターマシンにより行わせる部位である。

つまり、識別部６００Ａは、第１学習結果Ｄ１１を利用して識別対象データ特徴量７０Ａを対象とする識別をサポートベクターマシンにより行わせることで、第１識別結果Ｄ２１を出力する。第１識別結果Ｄ２１は、識別対象データ７０が第１カテゴリグループＣＧ１１（サブカテゴリＡ−１）に該当することについての確率を示すものとなる。前述のように、サブカテゴリＡ−１が「成人」のジャンルに該当するとした場合、第１識別結果Ｄ２１は、識別対象データ７０が「成人」のジャンルの有害サイトであることについての確率を示すことになる。

識別部６００Ｂは、第２学習結果Ｄ１２を利用して識別対象データ特徴量７０Ａを対象とする識別をサポートベクターマシンにより行わせることで、第２識別結果Ｄ２２を出力する。第２識別結果Ｄ２２は、識別対象データ７０が第２カテゴリグループＣＧ１２（サブカテゴリＡ−２）に該当することについての確率を示すものとなる。前述のように、サブカテゴリＡ−２が「暴力」のジャンルに該当するとした場合、第２識別結果Ｄ２２は、識別対象データ７０が「暴力」のジャンルの有害サイトであることについての確率を示すことになる。

識別結果結合部７００は、上記識別部６００Ａと６００Ｂから出力された第１識別結果Ｄ２１と第２識別結果Ｄ２２を所定のアルゴリズムによって結合する。これにより、識別対象データ７０についての最終的な識別結果を示す最終識別結果Ｄ３１を出力する。この最終識別結果Ｄ３１は、識別対象データ７０が有害サイトに該当することの確率を示すものとなる。

なお、識別結果結合部７００が複数の識別結果を結合するための結合アルゴリズムについては代表的なものを幾つか考えることができる。一例として、各識別結果の尤度を比較し、尤度が高いほうの識別結果を採用するというアルゴリズムを考える。

また、結合アルゴリズムとして以下のような構成も考えることができる。つまり、識別結果結合部７００においてサポートベクターマシン７０１を備える。そして、このサポートベクターマシン７０１に、有害なサイトであることが既知の識別対象データ特徴量７０Ａと、この識別対象データ特徴量７０Ａについての第１識別結果Ｄ２１および第２識別結果Ｄ２２を学習データとして利用して、予め学習を行わせる。そして、識別フェーズにおける識別結果結合部７００は、この学習結果を利用して、サポートベクターマシン７０１により複数の識別結果ごとに識別を行わせ、この識別結果に基づいて生成した最終識別結果Ｄ３１を出力させる。

これまでの説明から理解されるように、識別フェーズにおいては、共通事例（識別対象データ７０）を識別対象として異なるカテゴリグループごとについての複数の識別結果を得る。そして、これらの識別結果を結合することにより、最終識別結果を得るようにしている。つまり、カテゴリグループごとの識別結果を求めたうえで、これらの識別結果を利用して最終的な識別結果を得るようにしている。これにより、本実施形態は、例えばカテゴリグループに分化せずに識別結果を得る構成と比較して、識別結果の精度を向上させることが可能になる。

［処理手順例］
図７のフローチャートは、学習フェーズに対応する図１の情報処理装置１が実行する処理手順例を示している。
まず、多段型学習部１００は、学習データ１０を入力する（ステップＳ１０１）。次に、多段型学習部１００は、図２および図３により説明したように、第１カテゴリグループＣＧ１１に属するサブカテゴリを識別させるための学習である第１学習を行う（ステップＳ１０２）。そして、多段型学習部１００は第１学習結果を出力する（ステップＳ１０３）。
次に、多段型学習部１００は、ステップＳ１０１と同じ学習データ１０を入力し（ステップＳ１０４）、第２カテゴリグループＣＧ１２を識別させるための学習である第２学習を行う（ステップＳ１０５）。そして、多段型学習部１００は第２学習結果を出力する（ステップＳ１０６）。

なお、上記図７に示した処理手順例では、第１学習の後に第２学習を行うこととしている。しかし、例えば第１学習と第２学習のそれぞれに対応する２つの多段型学習部１００を備えることとして、これらの多段型学習部１００のそれぞれにより、第１学習に対応する手順（ステップＳ１０１〜Ｓ１０３）と第２学習に対応する手順（ステップＳ１０４〜Ｓ１０６）を同時に並行して実行させるようにしてもよい。

図８のフローチャートは、上記図７におけるステップＳ１０２の第１学習またはステップＳ１０５の第２学習の処理手順例を示している。
まず、多段型学習部１００は、データ分割部１１０により学習データ１０を分割させる（ステップＳ２０１）。次に、多段型学習部１００は、学習部の段数を示す変数ｎに１を代入する（ステップＳ２０２）。

そして、多段型学習部１００は、第ｎ学習部におけるサポートベクターマシンごとに学習処理を実行させる（ステップＳ２０３）。この際、第２段以降の学習部の場合には、上段の学習データ再構築部から出力される再構築サポートベクター群を２つずつ結合したデータをサポートベクターマシンに入力させる。

次に、多段型学習部１００は、直前のステップＳ２０３の終了に応じて、最終段の学習部による学習処理が終了したか否かについて判定する（ステップＳ２０４）。ここで、最終段の学習部による学習処理は終了していないと判定した場合（ステップＳ２０４−ＮＯ）、多段型学習部１００は、図３にて説明したように第ｎ段再構築部における学習データ再構築処理を実行させる（ステップＳ２０５）。この後、多段型学習部１００は、変数ｎをインクリメントして（ステップＳ２０６）、ステップＳ２０３に戻る。

そして、最終段の学習部による学習処理が終了したことを判定すると（ステップＳ２０４−ＹＥＳ）、多段型学習部１００は、この図に示す処理を終了し、図７のステップＳ１０３またはステップＳ１０６として示したように、学習処理の結果である第１学習結果Ｄ１１または第２学習結果Ｄ１２を出力する。

図９のフローチャートは、図８のステップＳ２０５としての学習データ再構築処理として、１つの学習データ再構築部が実行する処理手順例を示している。
まず、学習データ再構築部は、上段における対応のサポートベクターマシンから出力されたサポートベクター群を入力する（ステップＳ３０１）。そして、分類可否判定部２０１は、そのサポートベクター群においてカテゴリＡに属するサポートベクター数が予め定めた閾値ｔｈ以上であるか否かについて判定する（ステップＳ３０２）。

ここで、カテゴリＡに属するサポートベクター数が閾値ｔｈ未満であると判定した場合（ステップＳ３０２−ＮＯ）、学習データ再構築部は、入力したサポートベクター群について特に再構築を行わずに、再構築サポートベクター群として次段の学習部に出力する（ステップＳ３０７）。

これに対して、カテゴリＡに属するサポートベクター数が閾値ｔｈ以上であると判定した場合（ステップＳ３０２−ＹＥＳ）、分類部２０２は、例えばｋ−ｍｅａｎｓ法によって、カテゴリＡのサポートベクター群を、さらにサブカテゴリＡ−１、Ａ−２に分類する（ステップＳ３０３）。

次に、類似判定部２０３は、上記ステップＳ３０３によりサポートベクター群において分類されたサブカテゴリが、同じ段の他のサポートベクター群において分類されたサブカテゴリのいずれと類似しているのかを判定する（ステップＳ３０４）。

次に、グルーピング部２０４は、前記類似判定部２０３の判定結果に基づいて、第１カテゴリグループＣＧ１１に含めるべきサブカテゴリＡ−１（第１学習時）またはＡ−２（第２学習時）に属するサポートベクター群を選択する（ステップＳ３０５）。

そして、グルーピング部２０４は、選択したサブカテゴリのサポートベクター群を第１カテゴリグループＣＧ１１に含め、これ以外のサポートベクター群を第２カテゴリグループＣＧ１２に含めるようにグループ分けを行う（ステップＳ３０６）。
具体的に、グルーピング部２０４は、第１学習においては、サブカテゴリＡ−１のサポートベクターを第１カテゴリグループＣＧ１１に含め、サブカテゴリＡ−２とカテゴリＢのサポートベクターを第２カテゴリグループＣＧ１２に含める。また、第２学習においては、サブカテゴリＡ−２のサポートベクターを第１カテゴリグループＣＧ１１に含め、これ以外のサブカテゴリＡ−２とカテゴリＢのサポートベクターを第２カテゴリグループＣＧ１２に含める。
そして、グルーピング部２０４は、このように再構築したサポートベクター群を、再構築サポートベクター群として出力する（ステップＳ３０７）。

図１０は、識別フェーズに対応する図６の情報処理装置１が実行する処理手順例を示している。まず、特徴量生成部５００は、識別対象データ７０から特徴量を生成し、識別対象データ特徴量７０Ａとして出力する（ステップＳ４０１）。

次に、識別部６００Ａは、第１学習結果Ｄ１１を利用して、識別対象データ特徴量７０Ａについて識別を行い（ステップＳ４０２）、第１識別結果Ｄ２１を出力する（ステップＳ４０３）。また、識別部６００Ｂは、第２学習結果Ｄ１２を利用して、識別対象データ特徴量７０Ａについて識別を行い（ステップＳ４０４）、第２識別結果Ｄ２２を出力する（ステップＳ４０５）。なお、識別処理についても、第１学習結果Ｄ１１を利用した識別に対応する手順（ステップＳ４０２、Ｓ４０３）と、第２学習結果Ｄ１２を利用した識別に対応する手順（ステップＳ４０４、Ｓ４０５）とを同時に並行して実行させてよい。

次に、識別結果結合部７００は、第１識別結果Ｄ２１と第２識別結果Ｄ２２を結合する処理を実行し（ステップＳ４０６）、結合後の識別結果を最終識別結果Ｄ３１として出力する（ステップＳ４０７）。

［情報処理装置が具現化されるコンピュータの構成例］
図１１は、本実施形態の情報処理装置１を具現化するハードウェアの一例であるコンピュータ８００の構成例を示している。この図に示すコンピュータ８００は、ＣＰＵ８０１、ＲＡＭ８０２、記憶部８０３、入力インターフェース８０４、出力インターフェース８０５およびデータインターフェース８０６を備える。また、これらの部位はデータバス８０７により接続される。

ＣＰＵ８０１は、記憶部８０３に記憶されるサポートベクターマシンプログラム８３０を実行することにより、情報処理装置１としての動作を実現する部位である。

ＲＡＭ８０２は、主記憶装置として機能するもので、ＣＰＵ８０１が実行すべきプログラムが記憶部８０３から読み出されて展開される。また、ＲＡＭ８０２は、ＣＰＵ８０１が演算処理を実行する際の作業領域として使用される。

記憶部８０３は、補助記憶装置として機能するもので、ＣＰＵ８０１により実行されるプログラムや各種データを格納する。同図においては、情報処理装置１としての機能実現に対応して記憶部８０３に記憶されているデータとして、学習データ１０、サポートベクターマシンプログラム８３０が示されている。サポートベクターマシンプログラム８３０は、情報処理装置１の学習フェーズおよび識別フェーズに対応する各機能を実現するための記述が為されたプログラムである。なお、この記憶部８０３には、例えばハードディスクやフラッシュメモリなどの半導体記憶装置を採用することができる。

入力インターフェース８０４は、例えばキーボードやマウスなどの操作デバイスをはじめとする入力デバイスを一括して示したものである。出力インターフェース８０５は、例えばディスプレイデバイスやスピーカなどの出力デバイスを一括して示したものである。

データインターフェース８０６は、ＣＰＵ８０１の制御に応じて、少なくとも１つのデータインターフェース規格に対応して通信を実行する。例えば、学習データ１０などをデータインターフェース８０６経由で外部からコンピュータ８００に転送させ、記憶部８０３に記憶させることができる。

なお、本実施形態の情報処理装置１は、内部にコンピュータシステムを有している。そして、上述した学習の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。

また、各図における機能部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより学習および識別を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であっても良い。

１情報処理装置、１００多段型学習部、１２０第１段学習部、１４０第２段学習部、１６０第３段学習部、１８０第４段学習部、１３０第１段学習部、１５０第２段学習部、１７０第３段学習部、１１０データ分割部、１２１〜１２８、１４１〜１４４、１６１、１６２、１８１サポートベクターマシン、１３１〜１３８、１５１〜１５４、１７１、１７２学習データ再構築部、２０１分類可否判定部、２０２分類部、２０３類似判定部、２０４グルーピング部

Claims

学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第２段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習部と、
最終段を除く各段に対応する前記学習部における複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類部と、
前記複数のカテゴリを、特定のカテゴリから成る第１カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第２カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習部に入力するグルーピング部と、
を備えることを特徴とする情報処理装置。
１つのサポートベクター群において分類された前記カテゴリが、同じ段の他のサポートベクター群において分類された前記カテゴリのいずれと類似しているのかを判定する類似判定部をさらに備え、
前記グルーピング部は、前記類似判定部の判定結果に基づいて前記特定のカテゴリに属するサポートベクターを選択し、前記第１カテゴリグループに含める、
ことを特徴とする請求項１に記載の情報処理装置。
前段の前記学習部が備えるサポートベクターマシンから出力されたサポートベクター群におけるサポートベクターの数と閾値を比較した結果に基づいて、前記分類部による分類を実行させるべきか否かを判定する実行可否判定部をさらに備え、
前記分類部は、前記実行可否判定部により分類を実行させるべきと判定された場合に、前記サポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する、
ことを特徴とする請求項１または２に記載の情報処理装置。
前記分類部は、
前記前段の学習部が備えるサポートベクターマシンから出力されたサポートベクター群におけるすべてのサポートベクターを対象として分類した複数のメインカテゴリのうち、特定の１つのメインカテゴリに含まれるサポートベクターを対象として、さらに複数のサブカテゴリに分類する
ことを特徴とする請求項１から３のいずれか一項に記載の情報処理装置。
学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第２段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、
最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、
前記複数のカテゴリを、特定のカテゴリから成る第１カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第２カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップと、
を備えることを特徴とする情報処理方法。
コンピュータに、
学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第２段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、
最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、
前記複数のカテゴリを、特定のカテゴリから成る第１カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第２カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップと、
を実行させるためのプログラム。