JP2013167964A - 情報処理装置、情報処理方法、プログラム - Google Patents
情報処理装置、情報処理方法、プログラム Download PDFInfo
- Publication number
- JP2013167964A JP2013167964A JP2012029649A JP2012029649A JP2013167964A JP 2013167964 A JP2013167964 A JP 2013167964A JP 2012029649 A JP2012029649 A JP 2012029649A JP 2012029649 A JP2012029649 A JP 2012029649A JP 2013167964 A JP2013167964 A JP 2013167964A
- Authority
- JP
- Japan
- Prior art keywords
- learning
- support vector
- stage
- category
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】前段の学習部のサポートベクターマシンから出力されるサポートベクター群を2つずつ結合してさらにサポートベクターマシンにより学習を行わせるという多段型の学習部の間に、学習データ再構築部を設ける。学習データ再構築部は、カテゴリA、Bから成るサポートベクター群におけるカテゴリAをさらに複数のサブカテゴリに分類し、さらに1つのサブカテゴリによる第1カテゴリグループと、これ以外の第2カテゴリグループにグルーピングする。そして、このようにグルーピングされたサポートベクター群を、次段の学習部に入力させる。
【選択図】図2
Description
図1は、本実施形態における情報処理装置1の学習フェーズに対応した全体構成例を示している。この図に示す学習フェーズ対応の情報処理装置1は、教師有りの学習型であるサポートベクターマシン(SVM:Support Vector Machine)の識別器に学習させるための構成を採るもので、学習データ10を入力する多段型学習部100を備える。
この多段型学習部100は、学習データ10を分割して得られる分割データをそれぞれ入力して初段の学習を複数のサポートベクターマシンに行わせ、前記初段以降において、前段のサポートベクターマシンから出力されたサポートベクターの再構築(グルーピング)を必要に応じて行う。そのうえで、これらの再構築されたサポートベクターを所定の組数ごとに結合したデータをそれぞれ入力して最終段までの学習をサポートベクターマシンに行わせるという構成を採る。この多段型学習部100は、所定のカテゴリを識別するための学習結果である第1学習結果D11と、この第1学習結果D11とは異なる所定のカテゴリを識別するための学習結果である第2学習結果D12との2系統の学習結果を出力することとしている。
図2は、多段型学習部100の構成例を示している。この図に示す多段型学習部100は、データ分割部110、第1段(初段)学習部120、第1段(初段)再構築部130、第2段学習部140、第2段再構築部150、第3段学習部160、第3段再構築部170および第4段(最終段)学習部180を備える。
これら8個のサポートベクターマシン121〜128は、それぞれ、分割データDT1〜DT8を入力して学習処理を実行し、その学習結果として分離超平面に対応する複数のサポートベクター(SV)を出力する。同図では、サポートベクターマシン121〜128は、それぞれ、複数のサポートベクターから成るサポートベクター(SV)群11〜18を出力する。
学習データ再構築部131は、サポートベクター群11を対象として所定のカテゴリごとにクラスタリングを行ったうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群21として出力する。同様に、学習データ再構築部132〜138は、それぞれ、サポートベクター群12〜18を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群22〜28として出力する。
そして、第2段学習部140は、上記4つのサポートベクター群を4個のサポートベクターマシン141〜144にそれぞれ入力して学習を行わせる。これら4個のサポートベクターマシン141〜144は、学習結果として、それぞれ、複数のサポートベクターから成るサポートベクター群31〜34を出力する。
学習データ再構築部131〜138は、それぞれ、サポートベクター群31〜34を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群41〜44として出力する。
この結合後の2つのサポートベクター群を、2つのサポートベクターマシン161および162にそれぞれ入力して学習を行わせ、サポートベクター群51、52を出力させる
学習データ再構築部171、172は、それぞれ、サポートベクター群51、52を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群61、62として出力する。
このように1つのサポートベクターマシン181を備える第4段学習部180は、最終段の学習を行うものとなる。したがって、第4段学習部180のサポートベクターマシン181から出力されるサポートベクターが学習結果となる。
なお、図3を説明するにあたり、学習フェーズにおいてインターネット上における有害サイトを識別するための学習を行う場合を例に挙げることとする。また、ここでの図3の説明は、第1学習結果D11を出力する場合の処理についてのものとなる。
分類可否判定部201は、例えば「有害」に該当するカテゴリAのサポートベクター群11Aについて、さらに細分化したサブカテゴリに分類すべきか否かについて判定する・具体的に、分類可否判定部201は、カテゴリAのサポートベクター群11Aの数が予め定めた閾値と比較した結果に基づいて判定を行う。つまり、分類可否判定部201は、カテゴリAのサポートベクター群11Aの数が上記閾値以上であれば分類すべきであると判定し、閾値未満であれば分類すべきでないと判定する。
あくまでも一例であるが、サブカテゴリA−1は、「有害」とされるもののうちの「成人」のジャンルに該当し、カテゴリA−2は「暴力」のジャンルに該当するというように区分される。
なお、分類部202に採用される分類(クラスタリング)のためのアルゴリズムとしては、k−means法を採用することとする。このk−means法は、高速にクラスタリングを行うことが可能なアルゴリズムである。
そして、学習データ再構築部132も、上記の説明と同様に、サポートベクター群12におけるカテゴリAのサポートベクター群12Aを対象として分類部202が分類を行う。これにより、学習データ再構築部132において、サポートベクター群12Aは、図示するように、サブカテゴリA−1のサポートベクター群12A−1とサブカテゴリA−2のサポートベクター群12A−2に分類される。
学習データ再構築部131側ではカテゴリAのサポートベクター群11Aから、サブカテゴリA−1のサポートベクター群11A−1と、サブカテゴリA−2のサポートベクター群11A−2とに分類されている。また、学習データ再構築部132側ではカテゴリAのサポートベクター群12Aから、サブカテゴリA−1のサポートベクター群12A−1と、サブカテゴリA−2のサポートベクター群12A−2とに分類されている。
ただし、ここまでの段階では、例えばk−means法により単に分類が行われただけであって、分類されたサブカテゴリのうち、どのサブカテゴリ同士が、同じサブカテゴリA−1に対応し、また、サブカテゴリA−2に対応しているかについて判定されてはいない。
この類似判定にあたり、類似判定部203は、サポートベクター群11〜18の間で各サブカテゴリに含まれるサポートベクターの類似度を求めるようにされる。この類似度が一定以上に高いサポートベクターから成るカテゴリが、同じカテゴリであると推定されるものである。
つまり、学習データ再構築部131のグルーピング部204は、まず、サブカテゴリA−1のサポートベクター群11A−1と、サブカテゴリA−2のサポートベクター群11A−2と、カテゴリBのサポートベクター群11Bを入力する。そして、これらのサブカテゴまたはカテゴリ単位のサポートベクター群を、第1カテゴリグループCG11と第2カテゴリグループCG12とにグループ分けする。
図示するように、第1カテゴリグループCG11は、サブカテゴリA−1のみのサポートベクター群を含み、第2カテゴリグループCG12は、サブカテゴリA−1以外、つまり、サブカテゴリA−2とカテゴリBのサポートベクター群を含む。
つまり、学習データ再構築部131のグルーピング部204は、サブカテゴリA−1のサポートベクター群と、サブカテゴリA−1以外のサポートベクター群とでグループ分けを行うようにサポートベクター群11を再構築する。このように再構築されたサポートベクター群が再構築サポートベクター群21であり、サブカテゴリA−1を識別する学習を行わせるための学習データとなる。
そして、上記再構築サポートベクター群21、22は、結合されて1つにまとめられ、次段の第2段学習部14におけるサポートベクターマシン141のための学習データとして入力される。
そして、最終的に、第3段再構築部170における2つの学習データ再構築部171、172から出力された再構築サポートベクター群61、62が結合され、第4段(最終段)学習部180のサポートベクターマシン181に入力される。このサポートベクターマシン181から出力されるサポートベクター群が、第1学習結果D11となる。この第1学習結果D11は、サブカテゴリA−1が対応する「成人」のジャンルに該当する有害サイトであるか否かを識別するのに使用すべきデータとなる。
そのうち1回は、図3にて説明したように、サブカテゴリA−1が対応する「成人」のジャンルに該当する有害サイトであるか否かを識別するのに使用する第1学習結果D11を求めるための学習である。この学習については、「第1学習」ともいうことにする。
上記第2学習の場合には、各学習データ再構築部におけるグルーピング部204による再構築サポートベクター群のグループ分けが第1学習と異なる。つまり、第2学習において、グルーピング部204は、サブカテゴリA−2のサポートベクターのみを第1カテゴリグループCG11に含めるようにグループ分けする。また、サブカテゴリA−2以外であるサブカテゴリA−1とカテゴリBのサポートベクターを第2カテゴリグループCG12に含めるようにグループ分けするものである。
これにより、最終的に第4段学習部180のサポートベクターマシン181から出力される第2学習結果D12は、サブカテゴリA−2に対応する「暴力」のジャンルに該当するサイトであるか否かを識別するためのものとなる。
図5は、本実施形態の情報処理装置1に対して有害サイト識別のための学習データ10を与えて学習を実行させたときの学習時間についての計測結果を示している。なお、この図においては、比較として、サブカテゴリの分類を行わない場合の計測結果も示している。
なお、この場合において、多段型学習部100は、図4に示した4段より1段多い5段としている。つまり、この場合の多段型学習部100は、図2の構成においてデータ分割部110が学習データ10を16個に分割する。そのうえで、これら16個の分割データを入力して学習する16個のサポートベクターマシンを備える学習部が追加される。また、この学習部の次段において、上記16個のサポートベクターマシンから出力されるサポートベクター群を再構築する16個の学習データ再構築部が追加される。そして、図2の第1段学習部120は、これら16の再構築サポートベクター群を2つずつ結合して8個のサポートベクターマシン121〜128に入力し、学習を実行させる。
これにより、図5から理解されるように、カテゴリ分類とグループ分けをせずに学習を行わせた場合と比較して同じ学習段における学習時間は本実施形態のほうが大幅に短縮される。また、これに伴って、例えば識別性能の向上のために多段型学習部をさらに多段化して大規模化した場合においても、現実的な学習時間内で学習させることが可能になる。
図6は、識別フェーズに対応して再構築される情報処理装置1の全体構成例を示している。識別フェーズは、前述の学習フェーズにより得られた学習結果(第1学習結果D11、第2学習結果D12)を利用して、識別対象データについて識別を行うフェーズである。なお、同図の説明にあたって、当該識別フェーズによっては、前述の例にしたがってインターネット上の有害サイトの識別を想定しているものとする。
図7のフローチャートは、学習フェーズに対応する図1の情報処理装置1が実行する処理手順例を示している。
まず、多段型学習部100は、学習データ10を入力する(ステップS101)。次に、多段型学習部100は、図2および図3により説明したように、第1カテゴリグループCG11に属するサブカテゴリを識別させるための学習である第1学習を行う(ステップS102)。そして、多段型学習部100は第1学習結果を出力する(ステップS103)。
次に、多段型学習部100は、ステップS101と同じ学習データ10を入力し(ステップS104)、第2カテゴリグループCG12を識別させるための学習である第2学習を行う(ステップS105)。そして、多段型学習部100は第2学習結果を出力する(ステップS106)。
まず、多段型学習部100は、データ分割部110により学習データ10を分割させる(ステップS201)。次に、多段型学習部100は、学習部の段数を示す変数nに1を代入する(ステップS202)。
まず、学習データ再構築部は、上段における対応のサポートベクターマシンから出力されたサポートベクター群を入力する(ステップS301)。そして、分類可否判定部201は、そのサポートベクター群においてカテゴリAに属するサポートベクター数が予め定めた閾値th以上であるか否かについて判定する(ステップS302)。
具体的に、グルーピング部204は、第1学習においては、サブカテゴリA−1のサポートベクターを第1カテゴリグループCG11に含め、サブカテゴリA−2とカテゴリBのサポートベクターを第2カテゴリグループCG12に含める。また、第2学習においては、サブカテゴリA−2のサポートベクターを第1カテゴリグループCG11に含め、これ以外のサブカテゴリA−2とカテゴリBのサポートベクターを第2カテゴリグループCG12に含める。
そして、グルーピング部204は、このように再構築したサポートベクター群を、再構築サポートベクター群として出力する(ステップS307)。
図11は、本実施形態の情報処理装置1を具現化するハードウェアの一例であるコンピュータ800の構成例を示している。この図に示すコンピュータ800は、CPU801、RAM802、記憶部803、入力インターフェース804、出力インターフェース805およびデータインターフェース806を備える。また、これらの部位はデータバス807により接続される。
Claims (6)
- 学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習部と、
最終段を除く各段に対応する前記学習部における複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類部と、
前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習部に入力するグルーピング部と、
を備えることを特徴とする情報処理装置。 - 1つのサポートベクター群において分類された前記カテゴリが、同じ段の他のサポートベクター群において分類された前記カテゴリのいずれと類似しているのかを判定する類似判定部をさらに備え、
前記グルーピング部は、前記類似判定部の判定結果に基づいて前記特定のカテゴリに属するサポートベクターを選択し、前記第1カテゴリグループに含める、
ことを特徴とする請求項1に記載の情報処理装置。 - 前段の前記学習部が備えるサポートベクターマシンから出力されたサポートベクター群におけるサポートベクターの数と閾値を比較した結果に基づいて、前記分類部による分類を実行させるべきか否かを判定する実行可否判定部をさらに備え、
前記分類部は、前記実行可否判定部により分類を実行させるべきと判定された場合に、前記サポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する、
ことを特徴とする請求項1または2に記載の情報処理装置。 - 前記分類部は、
前記前段の学習部が備えるサポートベクターマシンから出力されたサポートベクター群におけるすべてのサポートベクターを対象として分類した複数のメインカテゴリのうち、特定の1つのメインカテゴリに含まれるサポートベクターを対象として、さらに複数のサブカテゴリに分類する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、
最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、
前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップと、
を備えることを特徴とする情報処理方法。 - コンピュータに、
学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、
最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、
前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012029649A JP5906100B2 (ja) | 2012-02-14 | 2012-02-14 | 情報処理装置、情報処理方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012029649A JP5906100B2 (ja) | 2012-02-14 | 2012-02-14 | 情報処理装置、情報処理方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013167964A true JP2013167964A (ja) | 2013-08-29 |
JP5906100B2 JP5906100B2 (ja) | 2016-04-20 |
Family
ID=49178331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012029649A Active JP5906100B2 (ja) | 2012-02-14 | 2012-02-14 | 情報処理装置、情報処理方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5906100B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019144789A (ja) * | 2018-02-20 | 2019-08-29 | 株式会社アスタワン | 機械学習装置、判定装置、機械学習方法及び判定方法 |
JP2020512631A (ja) * | 2017-03-14 | 2020-04-23 | トゥプル,インコーポレイテッド | 段階的な機械学習を使用する自動化された意思決定 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201281A1 (en) * | 2004-10-29 | 2008-08-21 | Nec Laboratories America, Inc. | Parallel support vector method and apparatus |
JP2010176368A (ja) * | 2009-01-29 | 2010-08-12 | Kddi Corp | コンデンスドsvm |
-
2012
- 2012-02-14 JP JP2012029649A patent/JP5906100B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080201281A1 (en) * | 2004-10-29 | 2008-08-21 | Nec Laboratories America, Inc. | Parallel support vector method and apparatus |
JP2010176368A (ja) * | 2009-01-29 | 2010-08-12 | Kddi Corp | コンデンスドsvm |
Non-Patent Citations (1)
Title |
---|
JPN6015041845; 榎本暢芳,外2名: 'クラスタリングとBoostingを用いた高速、高精度な映像自己診断方式の提案' 情報処理学会研究報告 2007-AL-110 アルゴリズム 第2007巻,第5号, 20070123, pp.9-14, 社団法人情報処理学会 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020512631A (ja) * | 2017-03-14 | 2020-04-23 | トゥプル,インコーポレイテッド | 段階的な機械学習を使用する自動化された意思決定 |
JP7195264B2 (ja) | 2017-03-14 | 2022-12-23 | トゥプル,インコーポレイテッド | 段階的な機械学習を使用する自動化された意思決定 |
JP2019144789A (ja) * | 2018-02-20 | 2019-08-29 | 株式会社アスタワン | 機械学習装置、判定装置、機械学習方法及び判定方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5906100B2 (ja) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Abdi et al. | To combat multi-class imbalanced problems by means of over-sampling techniques | |
US20220108157A1 (en) | Hardware architecture for introducing activation sparsity in neural network | |
Zhu et al. | EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning | |
Jung et al. | Malware classification using byte sequence information | |
JP2013196680A (ja) | 共学習に基づく概念認識方法および概念認識装置 | |
EP2953062A1 (en) | Learning method, image processing device and learning program | |
Sadrfaridpour et al. | Algebraic multigrid support vector machines | |
Sleeman IV et al. | Bagging using instance-level difficulty for multi-class imbalanced big data classification on spark | |
Patil et al. | Enriched over_sampling techniques for improving classification of imbalanced big data | |
JP5906100B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
US11604950B2 (en) | Methods and apparatuses for classifying data point using convex hull based on centroid of cluster | |
Elgeldawi et al. | Hyperparameter Tuning for Machine Learning Algorithms Used for Arabic Sentiment Analysis. Informatics 2021, 8, 79 | |
CN111488400B (zh) | 数据分类方法、装置和计算机可读存储介质 | |
US9792561B2 (en) | Learning method, information conversion device, and recording medium | |
JP5906061B2 (ja) | 学習装置、学習方法、プログラム | |
CN110781292A (zh) | 文本数据多层次分类方法、装置、电子设备和存储介质 | |
US20210042550A1 (en) | Information processing device, information processing method, and computer-readable recording medium recording information processing program | |
Dhanalakshmi et al. | Feature selection and classification of microarray data for cancer prediction using mapreduce implementation of random forest algorithm | |
Lawless et al. | Fair and interpretable decision rules for binary classification | |
Dudzik et al. | Automated optimization of non-linear support vector machines for binary classification | |
JP6663323B2 (ja) | データ処理方法、データ処理装置、及びプログラム | |
Jacob et al. | Discovery of knowledge patterns in lymphographic clinical data through data mining methods and techniques | |
Abikoye et al. | Binary text classification using an ensemble of naive bayes and support vector machines | |
Dehzangi et al. | The application of fusion of heterogeneous meta classifiers to enhance protein fold prediction accuracy | |
Hasan et al. | Interpretable solutions for breast cancer diagnosis with grammatical evolution and data augmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140723 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20140724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151020 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20151112 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5906100 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |