JP2013167964A - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
JP2013167964A
JP2013167964A JP2012029649A JP2012029649A JP2013167964A JP 2013167964 A JP2013167964 A JP 2013167964A JP 2012029649 A JP2012029649 A JP 2012029649A JP 2012029649 A JP2012029649 A JP 2012029649A JP 2013167964 A JP2013167964 A JP 2013167964A
Authority
JP
Japan
Prior art keywords
learning
support vector
stage
category
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012029649A
Other languages
English (en)
Other versions
JP5906100B2 (ja
Inventor
Kazufumi Ikeda
和史 池田
Hajime Hattori
元 服部
Toshihiro Ono
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012029649A priority Critical patent/JP5906100B2/ja
Publication of JP2013167964A publication Critical patent/JP2013167964A/ja
Application granted granted Critical
Publication of JP5906100B2 publication Critical patent/JP5906100B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】サポートベクターマシンを用いた識別器としての情報処理装置について、その学習時間を有効に短縮する。
【解決手段】前段の学習部のサポートベクターマシンから出力されるサポートベクター群を2つずつ結合してさらにサポートベクターマシンにより学習を行わせるという多段型の学習部の間に、学習データ再構築部を設ける。学習データ再構築部は、カテゴリA、Bから成るサポートベクター群におけるカテゴリAをさらに複数のサブカテゴリに分類し、さらに1つのサブカテゴリによる第1カテゴリグループと、これ以外の第2カテゴリグループにグルーピングする。そして、このようにグルーピングされたサポートベクター群を、次段の学習部に入力させる。
【選択図】図2

Description

本発明は、学習型の識別器として機能する情報処理装置とその方法およびプログラムに関する。
人工知能分野において用いられる識別器として、SVM(Support Vector Machine:サポートベクターマシン)が知られている。SVMは、教師有り学習型であることから、識別にあたっては識別対象のデータの特徴を識別器に学習させることが必要である。SVMによる識別器は広く応用されているが、学習に必要とされるデータ量は増加の傾向にある。このため、学習データが極めて大規模である場合には学習時間も非常に長くなってしまい、現実的な時間内で学習を終了できなくなるということが近年の問題となってきている。
そこで、以下のような技術が知られている。つまり、学習データを分割したデータを並列に設けた複数のSVMに入力して学習させ、これらのSVMごとに出力されたサポートベクター(SV:Support Vector)を2組ずつに結合して次段のSVMに入力して学習させる。以降、同様にして、1つの段におけるSVMごとに出力されたサポートベクターを2組ずつ結合して次段のSVMに入力させるという処理をSVMが1つになる最終段まで行い、この最終段のSVMより出力されたサポートベクターを初段に帰還するというものである(例えば、非特許文献1参照)。これにより、上位段のSVMごとに入力すべき学習事例数を削減し、学習時間の削減を図ろうというものである。
Hans Peter Graf, Eric Cosatto, Leon Bottou, Igor Durdanovic, Vladimir Vapnik, "Parallel Support Vector Machines:The Cascade SVM", NEC Laboratories,
しかし、本願発明者等が非特許文献1の技術を検証した結果、学習処理の段数が進んでいくにしたがってサポートベクターの数が想定を超えて増加してしまうために、学習時間を有効に短縮させることが困難であることを確認した。
そこでこの発明は、サポートベクターマシンを用いた識別器としての情報処理装置が学習処理を実行する際の学習時間を有効に短縮することを目的とする。
本発明は、上述の課題を解決すべくなされたもので、本発明の一態様としての情報処理装置は、学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習部と、最終段を除く各段に対応する前記学習部における複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類部と、前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習部に入力するグルーピング部とを備える。
また本発明の一態様としての情報処理方法は、学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップとを備える。
また本発明の一態様としてのプログラムは、コンピュータに、学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップとを実行させる。
本発明によれば、サポートベクターマシンを用いた識別器としての情報処理装置が学習処理を実行する際の学習時間が有効に短縮されるという効果が得られる。
本発明の実施形態としての情報処理装置の学習フェーズに対応する構成例を示す図である。 本実施形態における多段型学習部の構成例を示す図である。 本実施形態における学習データ再構築部の構成例を示す図である。 本実施形態における学習データの特徴量の例を模式的に示す図である。 サポートベクターのカテゴリを分化しない場合と分化した場合のサポートベクター数と総学習時間を比較して示す図である。 本実施形態としての情報処理装置の識別フェーズに対応する構成例を示す図である。 本実施形態としての情報処理装置の学習フェーズに対応する処理手順例を示す図である。 学習フェーズにおけるカテゴリグループ対応学習のための処理手順例を示す図である。 カテゴリグループ対応学習におけるSV再構築のための処理手順例を示す図である。 本実施形態としての情報処理装置の識別フェーズに対応する処理手順例を示す図である。 情報処理装置が具現化されるコンピュータの構成例を示す図である。
[学習フェーズに対応する情報処理装置の全体構成例]
図1は、本実施形態における情報処理装置1の学習フェーズに対応した全体構成例を示している。この図に示す学習フェーズ対応の情報処理装置1は、教師有りの学習型であるサポートベクターマシン(SVM:Support Vector Machine)の識別器に学習させるための構成を採るもので、学習データ10を入力する多段型学習部100を備える。
多段型学習部100は、学習データ10を入力して学習を行い、所定のカテゴリを識別するための学習結果を出力する。
この多段型学習部100は、学習データ10を分割して得られる分割データをそれぞれ入力して初段の学習を複数のサポートベクターマシンに行わせ、前記初段以降において、前段のサポートベクターマシンから出力されたサポートベクターの再構築(グルーピング)を必要に応じて行う。そのうえで、これらの再構築されたサポートベクターを所定の組数ごとに結合したデータをそれぞれ入力して最終段までの学習をサポートベクターマシンに行わせるという構成を採る。この多段型学習部100は、所定のカテゴリを識別するための学習結果である第1学習結果D11と、この第1学習結果D11とは異なる所定のカテゴリを識別するための学習結果である第2学習結果D12との2系統の学習結果を出力することとしている。
[多段型学習部の構成例]
図2は、多段型学習部100の構成例を示している。この図に示す多段型学習部100は、データ分割部110、第1段(初段)学習部120、第1段(初段)再構築部130、第2段学習部140、第2段再構築部150、第3段学習部160、第3段再構築部170および第4段(最終段)学習部180を備える。
データ分割部110は、学習データ10を所定数のサブセット(分割データ)DT1〜DT8に分割する。
第1段学習部120は、分割データDT1〜DT8をそれぞれ入力して初段(最下位)における学習を行う8個のサポートベクターマシン(SVM)121〜128を備える。
これら8個のサポートベクターマシン121〜128は、それぞれ、分割データDT1〜DT8を入力して学習処理を実行し、その学習結果として分離超平面に対応する複数のサポートベクター(SV)を出力する。同図では、サポートベクターマシン121〜128は、それぞれ、複数のサポートベクターから成るサポートベクター(SV)群11〜18を出力する。
なお、サポートベクターマシン121〜128の学習アルゴリズムについては特に限定されるものではないが、以下のような手法を採用できる。つまり、サポートベクターマシンを学習する主要タスクは、「−1」と「+1」のラベルyiを持つ学習用データx(i=1,2,・・・,I)が与えられた場合に、下記の式(1)として示す制約二次計画問題を解くというものである。式(1)において、K(x,x)は、或る特徴空間上の2つのベクトルxとxとの間の内積を計算するカーネル関数であり、C(i=1,2,・・・,I)は、上記のように与えられた学習用データxにおいてノイズを含むデータにペナルティを課すパラメータである。
Figure 2013167964
第1段再構築部130は、第1段学習部120のサポートベクターマシン121〜128から出力されるサポートベクター群11〜18ごとを対象としてその再構築を行う。このために、第1段再構築部130は、サポートベクター群11〜18の各々を対象として再構築を行う8つの学習データ再構築部131〜138を備える。
学習データ再構築部131は、サポートベクター群11を対象として所定のカテゴリごとにクラスタリングを行ったうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群21として出力する。同様に、学習データ再構築部132〜138は、それぞれ、サポートベクター群12〜18を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群22〜28として出力する。
第2段学習部140は、上記再構築サポートベクター群21〜28を所定組数ごとに結合する。そして、この結合されたサポートベクターをそれぞれ入力して2段目における学習をサポートベクターマシンに実行させる。
具体的に、第2段学習部140は、上記学習データ再構築部132〜138から出力された8つの再構築サポートベクター群21〜28を2つずつ結合する。つまり、第2段学習部140は、再構築サポートベクター群21と22を結合し、再構築サポートベクター群23と24を結合し、再構築サポートベクター群25と26を結合し、再構築サポートベクター群27と28を結合する。これにより、8つのサポートベクター群は、4つのサポートベクター群にまとめられる。
そして、第2段学習部140は、上記4つのサポートベクター群を4個のサポートベクターマシン141〜144にそれぞれ入力して学習を行わせる。これら4個のサポートベクターマシン141〜144は、学習結果として、それぞれ、複数のサポートベクターから成るサポートベクター群31〜34を出力する。
第2段再構築部150は、第2段学習部140のサポートベクターマシン141〜144から出力されるサポートベクター群31〜34ごとを対象として再構築を行う。このために、第2段再構築部150は、上記サポートベクター群31〜34の各々を対象として再構築を行う4つの学習データ再構築部131〜138を備える。
学習データ再構築部131〜138は、それぞれ、サポートベクター群31〜34を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群41〜44として出力する。
第3段学習部160は、前段の第2段再構築部150から出力される再構築サポートベクター群41〜44を、第2段学習部140と同様に2つずつ結合する。具体的に、第3段学習部160は、再構築サポートベクター群41と42を結合し、再構築サポートベクター群43と44を結合することで、4つのサポートベクター群を2つにまとめる。そして、第3段学習部160は、
この結合後の2つのサポートベクター群を、2つのサポートベクターマシン161および162にそれぞれ入力して学習を行わせ、サポートベクター群51、52を出力させる
第3段再構築部170は、上記第3段学習部160のサポートベクターマシン161、162から出力されるサポートベクター群51、52を対象として再構築を行う。このために、第2段再構築部150は、上記サポートベクター群51、52の各々を対象として再構築を行う2つの学習データ再構築部171、172を備える。
学習データ再構築部171、172は、それぞれ、サポートベクター群51、52を対象として所定のカテゴリごとにクラスタリングを行う。そのうえで、これらのカテゴリの所定の組み合わせにより形成されるカテゴリグループにグループ分けを行い、再構築サポートベクター群61、62として出力する。
第4段(最終段)学習部180は、前段の第3段再構築部170から出力される2つの再構築サポートベクター群61、62を1つに結合する。そして、この結合後の再構築サポートベクター群を、サポートベクターマシン181に入力して学習を行わせる。
このように1つのサポートベクターマシン181を備える第4段学習部180は、最終段の学習を行うものとなる。したがって、第4段学習部180のサポートベクターマシン181から出力されるサポートベクターが学習結果となる。
次に、図3を参照して、学習データ再構築部の構成について、学習データ再構築部131と132を例に挙げて説明する。なお、図2に示した他の学習データ再構築部133〜138、151〜154、171および172は、例えば学習データ再構築部131および132と同じ構成を採る。
なお、図3を説明するにあたり、学習フェーズにおいてインターネット上における有害サイトを識別するための学習を行う場合を例に挙げることとする。また、ここでの図3の説明は、第1学習結果D11を出力する場合の処理についてのものとなる。
図3において、学習データ再構築部131が出力したサポートベクター群11は、学習結果として、例えばカテゴリAのサポートベクター群11AとカテゴリBのサポートベクター群11Bに大別して分類されているものとする。この場合において、例えば、カテゴリAは「有害」、カテゴリBは「無害」に該当する。また、学習データ再構築部132が出力したサポートベクター群12も同様に、カテゴリAのサポートベクター群11AとカテゴリBのサポートベクター群11Bに大別して分類される。
学習データ再構築部131は、上記内容のサポートベクター群11の再構築を行う。この学習データ再構築部131は、分類可否判定部201、分類部202、類似判定部203およびグルーピング部204を備える。
分類可否判定部201は、例えば「有害」に該当するカテゴリAのサポートベクター群11Aについて、さらに細分化したサブカテゴリに分類すべきか否かについて判定する・具体的に、分類可否判定部201は、カテゴリAのサポートベクター群11Aの数が予め定めた閾値と比較した結果に基づいて判定を行う。つまり、分類可否判定部201は、カテゴリAのサポートベクター群11Aの数が上記閾値以上であれば分類すべきであると判定し、閾値未満であれば分類すべきでないと判定する。
なお、分類可否判定部201により分類すべきではないと判定された場合、図3には反映されていないが、学習データ再構築部131は、サポートベクター群11について特に再構築を行わない。この場合、学習データ再構築部131は、サポートベクター群11を次段の第2段学習部140に出力することになる。
分類可否判定部201により分類すべきと判定された場合、分類部202は、カテゴリAのサポートベクター群11Aをさらに細分化したサブカテゴリに分類する。なお、ここでのサブカテゴリ数については特に限定されるものではなく、学習対象などの各種条件に応じて適宜変更されるべきものである。ここでは、最も簡単な例として、分類部202は、カテゴリAをサブカテゴリA−1とA−2の2つのサブカテゴリに分類するものとする。これにより、カテゴリAのサポートベクター群11Aは、サブカテゴリA−1のサポートベクター群11A−1と、サブカテゴリA−2のサポートベクター群11A−2とに分類される。
あくまでも一例であるが、サブカテゴリA−1は、「有害」とされるもののうちの「成人」のジャンルに該当し、カテゴリA−2は「暴力」のジャンルに該当するというように区分される。
なお、分類部202に採用される分類(クラスタリング)のためのアルゴリズムとしては、k−means法を採用することとする。このk−means法は、高速にクラスタリングを行うことが可能なアルゴリズムである。
また、分類部202による上記のような分類は、学習データ10から抽出した特徴量に基づいて行われる。ここで、図4を参照して、本実施形態における特徴量について説明する。図4には、サイト1〜3の3つのサイトが示されている。サイト1は、カテゴリA−1に該当する有害サイトであり、サイト2は、カテゴリBに該当する無害サイトであり、サイト3は、カテゴリA−2に該当する有害サイトである。
これらサイト1〜3には、文字列1〜文字列nが対応付けられている。サイト1〜3の各々において、文字列1〜文字列nのうちで出現しているものについては「1」が与えられ、出現していないものについては「0」が与えられる。すなわち、有害サイトを識別させるための学習データ10は、例えば学習事例としてカテゴリごとに選別した或る数のサイトのテキストとすることができる。特徴量を生成する処理としては、例えばサイトの各テキストから文字列を抽出し、抽出した文字列がカテゴリごとに出現するか否かを検出する。そして、この検出結果を特徴量とするものである。
ここで、もう1つの学習データ再構築部132は、学習データ再構築部131と共通の構成を採ることとしている。図において、類似判定部203は、図示の便宜上、学習データ再構築部131が備えるものとして示されているが、その機能上、学習データ再構築部131と132とで共有しているものと見ることができる。
そして、学習データ再構築部132も、上記の説明と同様に、サポートベクター群12におけるカテゴリAのサポートベクター群12Aを対象として分類部202が分類を行う。これにより、学習データ再構築部132において、サポートベクター群12Aは、図示するように、サブカテゴリA−1のサポートベクター群12A−1とサブカテゴリA−2のサポートベクター群12A−2に分類される。
次に、類似判定部203は、対応のサポートベクター群において分類されたサブカテゴリが、同じ段の他のサポートベクター群において分類されたサブカテゴリのいずれと類似しているのかを判定する。
学習データ再構築部131側ではカテゴリAのサポートベクター群11Aから、サブカテゴリA−1のサポートベクター群11A−1と、サブカテゴリA−2のサポートベクター群11A−2とに分類されている。また、学習データ再構築部132側ではカテゴリAのサポートベクター群12Aから、サブカテゴリA−1のサポートベクター群12A−1と、サブカテゴリA−2のサポートベクター群12A−2とに分類されている。
ただし、ここまでの段階では、例えばk−means法により単に分類が行われただけであって、分類されたサブカテゴリのうち、どのサブカテゴリ同士が、同じサブカテゴリA−1に対応し、また、サブカテゴリA−2に対応しているかについて判定されてはいない。
そこで、類似判定部203は、同じ段における8つのサポートベクター群11〜18において分類されたサブカテゴリ間で互いに類似しているものがいずれであるのかを判定する。これにより、サポートベクター群11〜18におけるサポートベクターが、サブカテゴリA−1とA−2のいずれに属するものであるのかが区分できることになる。
この類似判定にあたり、類似判定部203は、サポートベクター群11〜18の間で各サブカテゴリに含まれるサポートベクターの類似度を求めるようにされる。この類似度が一定以上に高いサポートベクターから成るカテゴリが、同じカテゴリであると推定されるものである。
次に、学習データ再構築部131と132の各グルーピング部204は、上記類似判定部203の判定結果に基づいて、共通のサブカテゴリを学習対象とする再構築サポートベクター群21、22を構築する。
つまり、学習データ再構築部131のグルーピング部204は、まず、サブカテゴリA−1のサポートベクター群11A−1と、サブカテゴリA−2のサポートベクター群11A−2と、カテゴリBのサポートベクター群11Bを入力する。そして、これらのサブカテゴまたはカテゴリ単位のサポートベクター群を、第1カテゴリグループCG11と第2カテゴリグループCG12とにグループ分けする。
図示するように、第1カテゴリグループCG11は、サブカテゴリA−1のみのサポートベクター群を含み、第2カテゴリグループCG12は、サブカテゴリA−1以外、つまり、サブカテゴリA−2とカテゴリBのサポートベクター群を含む。
つまり、学習データ再構築部131のグルーピング部204は、サブカテゴリA−1のサポートベクター群と、サブカテゴリA−1以外のサポートベクター群とでグループ分けを行うようにサポートベクター群11を再構築する。このように再構築されたサポートベクター群が再構築サポートベクター群21であり、サブカテゴリA−1を識別する学習を行わせるための学習データとなる。
同様に、学習データ再構築部132のグルーピング部204も、サブカテゴリA−1のサポートベクター群12A−1と、サブカテゴリA−2のサポートベクター群12A−2と、カテゴリBのサポートベクター群12Bを入力する。そして、学習データ再構築部132のグルーピング部204は、類似判定部203によりサポートベクター群11A−1と類似していると判定されたサポートベクター群12A−1を第1カテゴリグループCG11に含める。また、これ以外のサポートベクター群を第2カテゴリグループCG12に含める。このように、学習データ再構築部132のグルーピング部204によっても、再構築サポートベクター群21と同じカテゴリのグループ分けによる再構築サポートベクター群22が構築される。
そして、上記再構築サポートベクター群21、22は、結合されて1つにまとめられ、次段の第2段学習部14におけるサポートベクターマシン141のための学習データとして入力される。
図に2に示した他の学習データ再構築部133〜138、151〜154、171および172も、上記学習データ再構築部131、132と同じ構成を採る。そのうえで、上記他の学習データ再構築部も、それぞれ、上段のサポートベクターマシンから出力されるサポートベクター群を再構築し、再構築サポートベクター群を出力する。この再構築サポートベクター群は、いずれも、図3の再構築サポートベクター群21または22として示したように、サブカテゴリA−1のみの第1カテゴリグループCG11と、サブカテゴリA−1以外の第2カテゴリグループCG12とにグループ分けされている。
そして、最終的に、第3段再構築部170における2つの学習データ再構築部171、172から出力された再構築サポートベクター群61、62が結合され、第4段(最終段)学習部180のサポートベクターマシン181に入力される。このサポートベクターマシン181から出力されるサポートベクター群が、第1学習結果D11となる。この第1学習結果D11は、サブカテゴリA−1が対応する「成人」のジャンルに該当する有害サイトであるか否かを識別するのに使用すべきデータとなる。
上記の例のように「有害」が対応するカテゴリAについて、例えば、それぞれが「成人」と「暴力」のジャンルに対応する2つのサブカテゴリA−1とA−2に分類することとした場合、上記構成の多段型学習部100は、計2回の学習を行う。
そのうち1回は、図3にて説明したように、サブカテゴリA−1が対応する「成人」のジャンルに該当する有害サイトであるか否かを識別するのに使用する第1学習結果D11を求めるための学習である。この学習については、「第1学習」ともいうことにする。
もう1回は、サブカテゴリA−2に対応する「暴力」のジャンルに該当する有害サイトであるか否かを識別するのに使用する第2学習結果D12を求めるための学習である。この学習については、「第2学習」ともいうことにする。
上記第2学習の場合には、各学習データ再構築部におけるグルーピング部204による再構築サポートベクター群のグループ分けが第1学習と異なる。つまり、第2学習において、グルーピング部204は、サブカテゴリA−2のサポートベクターのみを第1カテゴリグループCG11に含めるようにグループ分けする。また、サブカテゴリA−2以外であるサブカテゴリA−1とカテゴリBのサポートベクターを第2カテゴリグループCG12に含めるようにグループ分けするものである。
これにより、最終的に第4段学習部180のサポートベクターマシン181から出力される第2学習結果D12は、サブカテゴリA−2に対応する「暴力」のジャンルに該当するサイトであるか否かを識別するためのものとなる。
[学習時間計測結果]
図5は、本実施形態の情報処理装置1に対して有害サイト識別のための学習データ10を与えて学習を実行させたときの学習時間についての計測結果を示している。なお、この図においては、比較として、サブカテゴリの分類を行わない場合の計測結果も示している。
まず、図5(a)は、学習データ10の再構築(サブカテゴリによる分類とグループ分け)を行わない場合の計測結果を示している。この場合、多段型学習部100に対しては、カテゴリAに対応する「有害」と、カテゴリBに対応する「無害」とを識別する学習を行わせることになる。
図5(b)は、図3に示した例にしたがってサブカテゴリによる分類とグループ分けを行って学習を実行させた場合の計測結果を示している。
なお、この場合において、多段型学習部100は、図4に示した4段より1段多い5段としている。つまり、この場合の多段型学習部100は、図2の構成においてデータ分割部110が学習データ10を16個に分割する。そのうえで、これら16個の分割データを入力して学習する16個のサポートベクターマシンを備える学習部が追加される。また、この学習部の次段において、上記16個のサポートベクターマシンから出力されるサポートベクター群を再構築する16個の学習データ再構築部が追加される。そして、図2の第1段学習部120は、これら16の再構築サポートベクター群を2つずつ結合して8個のサポートベクターマシン121〜128に入力し、学習を実行させる。
図5(a)においては、学習段位置「1」〜「4」ごとに、学習件数、SV(サポートベクター)数、総学習時間を対応付けている。学習段位置「1」〜「4」は、それぞれ、第1〜第4段学習部に対応する。学習件数は、各段において1つのサポートベクターマシンが扱うこととなる学習データの数を示している。サポートベクター数は、各段の学習部から学習結果として出力されるサポートベクターの数を示す。学習時間は、情報処理装置1に学習を開始させてから、対応の段の学習部における学習が終了するまでに経過した時間を示す。
また、図5(b)においては、学習段位置「1」〜「5」ごとに、学習件数、第1学習におけるサポートベクター数および総学習時間、第2学習におけるサポートベクター数および総学習時間が対応付けられている。
図5(a)および図5(b)における学習段位置ごとのサポートベクター数の変化から分かるように、サポートベクター数は、学習段位置が進むのに応じて増加していく傾向となる。ここで、図5(a)と図5(b)とで同じ第4段のサポートベクター数を比較してみると、図5(a)では、「66987個」であるのに対して、図5(b)では、第1学習のときに「30801個」、第2学習のときに「37226個」となっており、図5(b)のほうが顕著に少なくなっていることが分かる。
これに伴って、同じ4段目の学習時間についても、図5(a)では、「653080秒」であるのに対して、図5(b)では、第1学習のときに「163164秒」、第2学習のときに「217685秒」となっており、図5(b)のほうが大幅に短縮されている。本実施形態では、第1学習と第2学習を順次実行するので、総学習時間は「163164秒」と「217685秒」を加算した「380849秒」となるが、これと図5(b)の学習時間とを比較しても、図5(b)の方が短くなっている。なお、第1学習と第2学習を並行して同時に実行させることも可能であり、この場合の総合的学習時間は、学習時間が長い方の「217685秒」となり、さらに短縮されることになる。
そして、図5(b)において学習段位置「5」として示される第5段(最終段)における学習時間は、第1学習では「493515秒」、第2学習では「584779秒」となっており、それぞれ、図5(a)の第4段の学習時間「653080秒」より短縮されている。
このように、本実施形態においては、初段から最終段の前段までにおける学習部のサポートベクターマシンから出力されるサポートベクター群を、サブカテゴリのレベルにまで分類する。そのうえで、学習対象とするサブカテゴリに応じてサポートベクター群のグループ分けを行うこととしている。
これにより、図5から理解されるように、カテゴリ分類とグループ分けをせずに学習を行わせた場合と比較して同じ学習段における学習時間は本実施形態のほうが大幅に短縮される。また、これに伴って、例えば識別性能の向上のために多段型学習部をさらに多段化して大規模化した場合においても、現実的な学習時間内で学習させることが可能になる。
また、これまでの説明から理解されるように、本実施形態においては、多段型学習部100における学習データ再構築部においてサブカテゴリの分類が行われ、サブカテゴリを識別するための学習結果が得られるようになっている。つまり、本実施形態においては、多段型学習部100に入力する学習データ10について予めサブカテゴリレベルの分類を行わなくとも、サブカテゴリレベルまで識別可能な学習結果が得られる。
[識別フェーズに対応する情報処理装置の全体構成例]
図6は、識別フェーズに対応して再構築される情報処理装置1の全体構成例を示している。識別フェーズは、前述の学習フェーズにより得られた学習結果(第1学習結果D11、第2学習結果D12)を利用して、識別対象データについて識別を行うフェーズである。なお、同図の説明にあたって、当該識別フェーズによっては、前述の例にしたがってインターネット上の有害サイトの識別を想定しているものとする。
識別フェーズに対応する情報処理装置1は、特徴量生成部500、識別部600A、識別部600B、識別結果結合部700を備える。
特徴量生成部500は、識別対象データ70を入力してその特徴量を生成し、識別対象データ特徴量70Aとして出力する。識別フェーズとしてインターネット上の有害サイトの識別を想定している場合、識別対象データ70は、或るサイトにおいて記述されるテキストデータとなる。
識別部600A、600Bは、それぞれが異なるカテゴリグループごとに対応して多段型学習部100から出力された複数の学習結果を利用して、識別対象データについての識別をサポートベクターマシンにより行わせる部位である。
つまり、識別部600Aは、第1学習結果D11を利用して識別対象データ特徴量70Aを対象とする識別をサポートベクターマシンにより行わせることで、第1識別結果D21を出力する。第1識別結果D21は、識別対象データ70が第1カテゴリグループCG11(サブカテゴリA−1)に該当することについての確率を示すものとなる。前述のように、サブカテゴリA−1が「成人」のジャンルに該当するとした場合、第1識別結果D21は、識別対象データ70が「成人」のジャンルの有害サイトであることについての確率を示すことになる。
識別部600Bは、第2学習結果D12を利用して識別対象データ特徴量70Aを対象とする識別をサポートベクターマシンにより行わせることで、第2識別結果D22を出力する。第2識別結果D22は、識別対象データ70が第2カテゴリグループCG12(サブカテゴリA−2)に該当することについての確率を示すものとなる。前述のように、サブカテゴリA−2が「暴力」のジャンルに該当するとした場合、第2識別結果D22は、識別対象データ70が「暴力」のジャンルの有害サイトであることについての確率を示すことになる。
識別結果結合部700は、上記識別部600Aと600Bから出力された第1識別結果D21と第2識別結果D22を所定のアルゴリズムによって結合する。これにより、識別対象データ70についての最終的な識別結果を示す最終識別結果D31を出力する。この最終識別結果D31は、識別対象データ70が有害サイトに該当することの確率を示すものとなる。
なお、識別結果結合部700が複数の識別結果を結合するための結合アルゴリズムについては代表的なものを幾つか考えることができる。一例として、各識別結果の尤度を比較し、尤度が高いほうの識別結果を採用するというアルゴリズムを考える。
また、結合アルゴリズムとして以下のような構成も考えることができる。つまり、識別結果結合部700においてサポートベクターマシン701を備える。そして、このサポートベクターマシン701に、有害なサイトであることが既知の識別対象データ特徴量70Aと、この識別対象データ特徴量70Aについての第1識別結果D21および第2識別結果D22を学習データとして利用して、予め学習を行わせる。そして、識別フェーズにおける識別結果結合部700は、この学習結果を利用して、サポートベクターマシン701により複数の識別結果ごとに識別を行わせ、この識別結果に基づいて生成した最終識別結果D31を出力させる。
これまでの説明から理解されるように、識別フェーズにおいては、共通事例(識別対象データ70)を識別対象として異なるカテゴリグループごとについての複数の識別結果を得る。そして、これらの識別結果を結合することにより、最終識別結果を得るようにしている。つまり、カテゴリグループごとの識別結果を求めたうえで、これらの識別結果を利用して最終的な識別結果を得るようにしている。これにより、本実施形態は、例えばカテゴリグループに分化せずに識別結果を得る構成と比較して、識別結果の精度を向上させることが可能になる。
[処理手順例]
図7のフローチャートは、学習フェーズに対応する図1の情報処理装置1が実行する処理手順例を示している。
まず、多段型学習部100は、学習データ10を入力する(ステップS101)。次に、多段型学習部100は、図2および図3により説明したように、第1カテゴリグループCG11に属するサブカテゴリを識別させるための学習である第1学習を行う(ステップS102)。そして、多段型学習部100は第1学習結果を出力する(ステップS103)。
次に、多段型学習部100は、ステップS101と同じ学習データ10を入力し(ステップS104)、第2カテゴリグループCG12を識別させるための学習である第2学習を行う(ステップS105)。そして、多段型学習部100は第2学習結果を出力する(ステップS106)。
なお、上記図7に示した処理手順例では、第1学習の後に第2学習を行うこととしている。しかし、例えば第1学習と第2学習のそれぞれに対応する2つの多段型学習部100を備えることとして、これらの多段型学習部100のそれぞれにより、第1学習に対応する手順(ステップS101〜S103)と第2学習に対応する手順(ステップS104〜S106)を同時に並行して実行させるようにしてもよい。
図8のフローチャートは、上記図7におけるステップS102の第1学習またはステップS105の第2学習の処理手順例を示している。
まず、多段型学習部100は、データ分割部110により学習データ10を分割させる(ステップS201)。次に、多段型学習部100は、学習部の段数を示す変数nに1を代入する(ステップS202)。
そして、多段型学習部100は、第n学習部におけるサポートベクターマシンごとに学習処理を実行させる(ステップS203)。この際、第2段以降の学習部の場合には、上段の学習データ再構築部から出力される再構築サポートベクター群を2つずつ結合したデータをサポートベクターマシンに入力させる。
次に、多段型学習部100は、直前のステップS203の終了に応じて、最終段の学習部による学習処理が終了したか否かについて判定する(ステップS204)。ここで、最終段の学習部による学習処理は終了していないと判定した場合(ステップS204−NO)、多段型学習部100は、図3にて説明したように第n段再構築部における学習データ再構築処理を実行させる(ステップS205)。この後、多段型学習部100は、変数nをインクリメントして(ステップS206)、ステップS203に戻る。
そして、最終段の学習部による学習処理が終了したことを判定すると(ステップS204−YES)、多段型学習部100は、この図に示す処理を終了し、図7のステップS103またはステップS106として示したように、学習処理の結果である第1学習結果D11または第2学習結果D12を出力する。
図9のフローチャートは、図8のステップS205としての学習データ再構築処理として、1つの学習データ再構築部が実行する処理手順例を示している。
まず、学習データ再構築部は、上段における対応のサポートベクターマシンから出力されたサポートベクター群を入力する(ステップS301)。そして、分類可否判定部201は、そのサポートベクター群においてカテゴリAに属するサポートベクター数が予め定めた閾値th以上であるか否かについて判定する(ステップS302)。
ここで、カテゴリAに属するサポートベクター数が閾値th未満であると判定した場合(ステップS302−NO)、学習データ再構築部は、入力したサポートベクター群について特に再構築を行わずに、再構築サポートベクター群として次段の学習部に出力する(ステップS307)。
これに対して、カテゴリAに属するサポートベクター数が閾値th以上であると判定した場合(ステップS302−YES)、分類部202は、例えばk−means法によって、カテゴリAのサポートベクター群を、さらにサブカテゴリA−1、A−2に分類する(ステップS303)。
次に、類似判定部203は、上記ステップS303によりサポートベクター群において分類されたサブカテゴリが、同じ段の他のサポートベクター群において分類されたサブカテゴリのいずれと類似しているのかを判定する(ステップS304)。
次に、グルーピング部204は、前記類似判定部203の判定結果に基づいて、第1カテゴリグループCG11に含めるべきサブカテゴリA−1(第1学習時)またはA−2(第2学習時)に属するサポートベクター群を選択する(ステップS305)。
そして、グルーピング部204は、選択したサブカテゴリのサポートベクター群を第1カテゴリグループCG11に含め、これ以外のサポートベクター群を第2カテゴリグループCG12に含めるようにグループ分けを行う(ステップS306)。
具体的に、グルーピング部204は、第1学習においては、サブカテゴリA−1のサポートベクターを第1カテゴリグループCG11に含め、サブカテゴリA−2とカテゴリBのサポートベクターを第2カテゴリグループCG12に含める。また、第2学習においては、サブカテゴリA−2のサポートベクターを第1カテゴリグループCG11に含め、これ以外のサブカテゴリA−2とカテゴリBのサポートベクターを第2カテゴリグループCG12に含める。
そして、グルーピング部204は、このように再構築したサポートベクター群を、再構築サポートベクター群として出力する(ステップS307)。
図10は、識別フェーズに対応する図6の情報処理装置1が実行する処理手順例を示している。まず、特徴量生成部500は、識別対象データ70から特徴量を生成し、識別対象データ特徴量70Aとして出力する(ステップS401)。
次に、識別部600Aは、第1学習結果D11を利用して、識別対象データ特徴量70Aについて識別を行い(ステップS402)、第1識別結果D21を出力する(ステップS403)。また、識別部600Bは、第2学習結果D12を利用して、識別対象データ特徴量70Aについて識別を行い(ステップS404)、第2識別結果D22を出力する(ステップS405)。なお、識別処理についても、第1学習結果D11を利用した識別に対応する手順(ステップS402、S403)と、第2学習結果D12を利用した識別に対応する手順(ステップS404、S405)とを同時に並行して実行させてよい。
次に、識別結果結合部700は、第1識別結果D21と第2識別結果D22を結合する処理を実行し(ステップS406)、結合後の識別結果を最終識別結果D31として出力する(ステップS407)。
[情報処理装置が具現化されるコンピュータの構成例]
図11は、本実施形態の情報処理装置1を具現化するハードウェアの一例であるコンピュータ800の構成例を示している。この図に示すコンピュータ800は、CPU801、RAM802、記憶部803、入力インターフェース804、出力インターフェース805およびデータインターフェース806を備える。また、これらの部位はデータバス807により接続される。
CPU801は、記憶部803に記憶されるサポートベクターマシンプログラム830を実行することにより、情報処理装置1としての動作を実現する部位である。
RAM802は、主記憶装置として機能するもので、CPU801が実行すべきプログラムが記憶部803から読み出されて展開される。また、RAM802は、CPU801が演算処理を実行する際の作業領域として使用される。
記憶部803は、補助記憶装置として機能するもので、CPU801により実行されるプログラムや各種データを格納する。同図においては、情報処理装置1としての機能実現に対応して記憶部803に記憶されているデータとして、学習データ10、サポートベクターマシンプログラム830が示されている。サポートベクターマシンプログラム830は、情報処理装置1の学習フェーズおよび識別フェーズに対応する各機能を実現するための記述が為されたプログラムである。なお、この記憶部803には、例えばハードディスクやフラッシュメモリなどの半導体記憶装置を採用することができる。
入力インターフェース804は、例えばキーボードやマウスなどの操作デバイスをはじめとする入力デバイスを一括して示したものである。出力インターフェース805は、例えばディスプレイデバイスやスピーカなどの出力デバイスを一括して示したものである。
データインターフェース806は、CPU801の制御に応じて、少なくとも1つのデータインターフェース規格に対応して通信を実行する。例えば、学習データ10などをデータインターフェース806経由で外部からコンピュータ800に転送させ、記憶部803に記憶させることができる。
なお、本実施形態の情報処理装置1は、内部にコンピュータシステムを有している。そして、上述した学習の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
また、各図における機能部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより学習および識別を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
1 情報処理装置、100 多段型学習部、120 第1段学習部、140 第2段学習部、160 第3段学習部、180 第4段学習部、130 第1段学習部、150 第2段学習部、170 第3段学習部、110 データ分割部、121〜128、141〜144、161、162、181 サポートベクターマシン、131〜138、151〜154、171、172 学習データ再構築部、201 分類可否判定部、202 分類部、203 類似判定部、204 グルーピング部

Claims (6)

  1. 学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習部と、
    最終段を除く各段に対応する前記学習部における複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類部と、
    前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習部に入力するグルーピング部と、
    を備えることを特徴とする情報処理装置。
  2. 1つのサポートベクター群において分類された前記カテゴリが、同じ段の他のサポートベクター群において分類された前記カテゴリのいずれと類似しているのかを判定する類似判定部をさらに備え、
    前記グルーピング部は、前記類似判定部の判定結果に基づいて前記特定のカテゴリに属するサポートベクターを選択し、前記第1カテゴリグループに含める、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前段の前記学習部が備えるサポートベクターマシンから出力されたサポートベクター群におけるサポートベクターの数と閾値を比較した結果に基づいて、前記分類部による分類を実行させるべきか否かを判定する実行可否判定部をさらに備え、
    前記分類部は、前記実行可否判定部により分類を実行させるべきと判定された場合に、前記サポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する、
    ことを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記分類部は、
    前記前段の学習部が備えるサポートベクターマシンから出力されたサポートベクター群におけるすべてのサポートベクターを対象として分類した複数のメインカテゴリのうち、特定の1つのメインカテゴリに含まれるサポートベクターを対象として、さらに複数のサブカテゴリに分類する
    ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。
  5. 学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、
    最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、
    前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップと、
    を備えることを特徴とする情報処理方法。
  6. コンピュータに、
    学習データを分割した分割学習データのそれぞれをサポートベクターマシンに入力して初段の学習を行わせるとともに、前段から出力されるサポートベクター群を所定の組ごとに結合したデータをサポートベクターマシンに入力して第2段から最終段までの各段の学習を行わせる初段から最終段ごとに対応する学習ステップと、
    最終段を除く各段に対応する前記学習ステップにおける複数のサポートベクターマシンの各々から出力されたサポートベクター群におけるサポートベクターを所定の複数のカテゴリに分類する分類ステップと、
    前記複数のカテゴリを、特定のカテゴリから成る第1カテゴリグループと、当該特定のカテゴリ以外のカテゴリから成る第2カテゴリグループとに少なくともグループ分けした前記サポートベクター群を、それぞれ、次段に対応する前記学習ステップに入力するグルーピングステップと、
    を実行させるためのプログラム。
JP2012029649A 2012-02-14 2012-02-14 情報処理装置、情報処理方法、プログラム Active JP5906100B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012029649A JP5906100B2 (ja) 2012-02-14 2012-02-14 情報処理装置、情報処理方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012029649A JP5906100B2 (ja) 2012-02-14 2012-02-14 情報処理装置、情報処理方法、プログラム

Publications (2)

Publication Number Publication Date
JP2013167964A true JP2013167964A (ja) 2013-08-29
JP5906100B2 JP5906100B2 (ja) 2016-04-20

Family

ID=49178331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012029649A Active JP5906100B2 (ja) 2012-02-14 2012-02-14 情報処理装置、情報処理方法、プログラム

Country Status (1)

Country Link
JP (1) JP5906100B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144789A (ja) * 2018-02-20 2019-08-29 株式会社アスタワン 機械学習装置、判定装置、機械学習方法及び判定方法
JP2020512631A (ja) * 2017-03-14 2020-04-23 トゥプル,インコーポレイテッド 段階的な機械学習を使用する自動化された意思決定

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201281A1 (en) * 2004-10-29 2008-08-21 Nec Laboratories America, Inc. Parallel support vector method and apparatus
JP2010176368A (ja) * 2009-01-29 2010-08-12 Kddi Corp コンデンスドsvm

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201281A1 (en) * 2004-10-29 2008-08-21 Nec Laboratories America, Inc. Parallel support vector method and apparatus
JP2010176368A (ja) * 2009-01-29 2010-08-12 Kddi Corp コンデンスドsvm

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6015041845; 榎本暢芳,外2名: 'クラスタリングとBoostingを用いた高速、高精度な映像自己診断方式の提案' 情報処理学会研究報告 2007-AL-110 アルゴリズム 第2007巻,第5号, 20070123, pp.9-14, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020512631A (ja) * 2017-03-14 2020-04-23 トゥプル,インコーポレイテッド 段階的な機械学習を使用する自動化された意思決定
JP7195264B2 (ja) 2017-03-14 2022-12-23 トゥプル,インコーポレイテッド 段階的な機械学習を使用する自動化された意思決定
JP2019144789A (ja) * 2018-02-20 2019-08-29 株式会社アスタワン 機械学習装置、判定装置、機械学習方法及び判定方法

Also Published As

Publication number Publication date
JP5906100B2 (ja) 2016-04-20

Similar Documents

Publication Publication Date Title
Abdi et al. To combat multi-class imbalanced problems by means of over-sampling techniques
US20220108157A1 (en) Hardware architecture for introducing activation sparsity in neural network
Zhu et al. EHSO: Evolutionary Hybrid Sampling in overlapping scenarios for imbalanced learning
Jung et al. Malware classification using byte sequence information
JP2013196680A (ja) 共学習に基づく概念認識方法および概念認識装置
EP2953062A1 (en) Learning method, image processing device and learning program
Sadrfaridpour et al. Algebraic multigrid support vector machines
Sleeman IV et al. Bagging using instance-level difficulty for multi-class imbalanced big data classification on spark
Patil et al. Enriched over_sampling techniques for improving classification of imbalanced big data
JP5906100B2 (ja) 情報処理装置、情報処理方法、プログラム
US11604950B2 (en) Methods and apparatuses for classifying data point using convex hull based on centroid of cluster
Elgeldawi et al. Hyperparameter Tuning for Machine Learning Algorithms Used for Arabic Sentiment Analysis. Informatics 2021, 8, 79
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
US9792561B2 (en) Learning method, information conversion device, and recording medium
JP5906061B2 (ja) 学習装置、学習方法、プログラム
CN110781292A (zh) 文本数据多层次分类方法、装置、电子设备和存储介质
US20210042550A1 (en) Information processing device, information processing method, and computer-readable recording medium recording information processing program
Dhanalakshmi et al. Feature selection and classification of microarray data for cancer prediction using mapreduce implementation of random forest algorithm
Lawless et al. Fair and interpretable decision rules for binary classification
Dudzik et al. Automated optimization of non-linear support vector machines for binary classification
JP6663323B2 (ja) データ処理方法、データ処理装置、及びプログラム
Jacob et al. Discovery of knowledge patterns in lymphographic clinical data through data mining methods and techniques
Abikoye et al. Binary text classification using an ensemble of naive bayes and support vector machines
Dehzangi et al. The application of fusion of heterogeneous meta classifiers to enhance protein fold prediction accuracy
Hasan et al. Interpretable solutions for breast cancer diagnosis with grammatical evolution and data augmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151020

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151111

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20151112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160318

R150 Certificate of patent or registration of utility model

Ref document number: 5906100

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150