JP6511865B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP6511865B2
JP6511865B2 JP2015040921A JP2015040921A JP6511865B2 JP 6511865 B2 JP6511865 B2 JP 6511865B2 JP 2015040921 A JP2015040921 A JP 2015040921A JP 2015040921 A JP2015040921 A JP 2015040921A JP 6511865 B2 JP6511865 B2 JP 6511865B2
Authority
JP
Japan
Prior art keywords
teacher data
preliminary
information
post information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015040921A
Other languages
English (en)
Other versions
JP2016162257A (ja
Inventor
茂之 榊
茂之 榊
康秀 三浦
康秀 三浦
大熊 智子
智子 大熊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2015040921A priority Critical patent/JP6511865B2/ja
Publication of JP2016162257A publication Critical patent/JP2016162257A/ja
Application granted granted Critical
Publication of JP6511865B2 publication Critical patent/JP6511865B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、異なるカテゴリの対象の検出や認識に有用な局所特徴を、画像の集合から適切に抽出するための学習を行えることができるようにすることを課題とし、異なる種類の物体画像データの集合を、画像入力部により入力し、入力した各物体画像データから所定の幾何学的構造を有する局所的特徴を、局所特徴検出部により検出し、検出した複数の局所的特徴を、クラスタリングによりクラスタリングし、クラスタリングした結果に基づき、複数の代表局所特徴を、特徴選択部により選択し、選択した代表局所特徴を教師データとして含む学習用データセットを用いて、前記物体画像データに基づく物体を認識又は検出するための学習を、学習制御部により行うことが開示されている。
特許文献2には、酷似種が含まれる多クラスの画像やその他の特徴データの分類において、過学習を避けることを課題とし、酷似種が含まれる多クラスの画像や特徴データ分類で、グループ単位の識別を行う第1階層目識別器と、グループ内の識別を行う第2階層目識別器の、2階層の識別器が実現され、グループを決定する際、第1学習手段によって事前に、グループ化しない状態で機械学習による識別を行う種類識別器が生成され、次に、識別誤り集計手段によって、この種類識別器を用いて、識別試験が行われ、カテゴリ間で識別誤りを生じた回数が集計され、グルーピング処理手段によって、機械学習が間違いやすいカテゴリ同士がグループ化され、事前の識別誤りの集計により酷似種が自動的に仕分され、グループ間識別、グループ内識別の2階層の識別が実行され、多クラス識別器において、過学習が抑制されることが開示されている。
特許文献3には、内容の偏りが少なく、学習に効果的な画像データを収集することを課題とし、画像から検出対象とする画像領域を検出する複数の検出器と、複数の検出器における検出の結果を統合し、学習画像の候補となる画像領域と画像領域の対象物らしさのスコアとの組を出力する統合手段と、学習データの採択率を設定する設定手段と、スコアと設定手段で設定された採択率とに基づいて、画像領域とスコアとの組から学習データを選択する選択手段と、選択手段で選択された学習データを保存する保存手段と、を有することが開示されている。
特許文献4には、カメラに映った人物が携帯電話を使用している状態か否かを判別できる携帯電話使用状態識別装置を提供することを課題とし、カメラから入力した学習用画像から顔領域を検出し、該顔領域に隣接する左右部分領域から特徴量を抽出し、該抽出された特徴量のデータ群を元に携帯電話使用状態か否かを識別する識別関数を作成し、該識別関数の各種パラメータ値を識別関数記憶部に格納し、カメラから入力した識別対象画像から顔のある領域を検出し、該識別対象画像の顔領域に隣接する左右部分領域から特徴量を抽出し、該抽出された特徴量を前記識別関数記憶部に格納された識別関数に入力することで、携帯電話使用状態か否かを識別し(識別部)、該識別部の識別結果を出力部から出力することが開示されている。
非特許文献1には、機械学習のためにノイズの少ない教師データを大量に用意するのは困難であることを課題とし、Tweet(「つぶやき」といわれるテキスト)中に含まれる顔文字情報を手掛かりに教師データを収集することによって、人手をかけず効率的に大量の教師データを収集することが開示されている。例えば、顔文字「:-)」は、ポジティブを示しており、顔文字「:-(」はネガティブを示していることを手掛かりにしている。
特開2005−215988号公報 特開2013−250809号公報 特開2012−190159号公報 特開2010−122838号公報
Alec Go, Richa Bhayani, and Lei Huang. 2009. Twit−ter sentiment classification using distant supervision.Technical report, Stanford University.
本発明は、分類されていない投稿情報を用いて、機械学習に用いる教師データを作成する場合に比較して、ノイズの少ない教師データを作成するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、投稿情報を収集する収集手段と、前記収集手段によって収集された投稿情報を分類する分類手段と、前記分類手段によって分類された集合内の投稿情報を用いて、機械学習に用いる教師データを作成する作成手段を具備し、前記作成手段は、前記分類手段によって分類された集合内の投稿情報を結合して、機械学習に用いる1件の教師データを作成することを特徴とする情報処理装置である。
請求項2の発明は、前記分類手段は、前記収集手段によって収集された投稿情報を、教師なしクラスタリングによる分類又は該投稿情報に含まれている情報を用いて分類することを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記分類手段は、前記収集手段によって収集された投稿情報を、予め作成した教師データを用いて、教師ありクラスタリング又は機械学習によって分類することを特徴とする請求項1に記載の情報処理装置である。
請求項の発明は、コンピュータを、投稿情報を収集する収集手段と、前記収集手段によって収集された投稿情報を分類する分類手段と、前記分類手段によって分類された集合内の投稿情報を用いて、機械学習に用いる教師データを作成する作成手段として機能させ、前記作成手段は、前記分類手段によって分類された集合内の投稿情報を結合して、機械学習に用いる1件の教師データを作成する情報処理プログラムである。
請求項1の情報処理装置によれば、分類されていない投稿情報を用いて、機械学習に用いる教師データを作成する場合に比較して、ノイズの少ない教師データを作成することができる。また、分類された集合内の投稿情報を結合して、機械学習に用いる1件の教師データを作成することができる。
請求項2の情報処理装置によれば、収集された投稿情報を、教師なしクラスタリングによる分類又はその投稿情報に含まれている情報を用いて分類することができる。
請求項3の情報処理装置によれば、収集された投稿情報を、予め作成した教師データを用いて、教師ありクラスタリング又は機械学習によって分類することができる。
請求項の情報処理プログラムによれば、分類されていない投稿情報を用いて、機械学習に用いる教師データを作成する場合に比較して、ノイズの少ない教師データを作成することができる。また、分類された集合内の投稿情報を結合して、機械学習に用いる1件の教師データを作成することができる。
第1の実施の形態の構成例についての概念的なモジュール構成図である。 第1の実施の形態を利用したシステム構成例を示す説明図である。 第1の実施の形態による処理例を示すフローチャートである。 第1の実施の形態による処理例を示す説明図である。 第1の実施の形態による処理例を示す説明図である。 第1の実施の形態による処理例を示す説明図である。 第1の実施の形態による処理例を示す説明図である。 第1の実施の形態による処理例を示す説明図である。 第2の実施の形態の構成例についての概念的なモジュール構成図である。 第2の実施の形態による処理例を示すフローチャートである。 第2の実施の形態による処理例を示すフローチャートである。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図1は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置100は、機械学習に用いる教師データを作成するものであって、図1の例に示すように、予備教師データ収集モジュール110、予備教師データ分析モジュール120、教師データ作成モジュール130、収集対象データ保存モジュール140、予備教師データ格納モジュール150、教師データ格納モジュール160を有している。
例えば、SNS(social networking service、ソーシャル・ネットワーキング・サービス)等における投稿情報から、その投稿を行ったユーザーの趣味を判定等する目的で、機械学習に用いる教師データを作成することが行われている。
1件1件の教師データのデータ単位(以下、教師データ単位ともいう)がテキスト集合からなるデータを学習・判定対象とする機械学習において、教師データを手掛かり情報によって収集すると、教師データ単位を満たすデータが元々少なかったり、セキュリティでデータの一部が制限されていたりといったことが原因で、学習に必要な件数の教師データを収集できないことがある。また、手掛かり情報によってテキスト集合からなる教師データを収集、作成すると、データの中に手掛かり情報に関連しない情報(ノイズ)が多数紛れ込んでしまうことがある。例えば、SNSユーザーの趣味判定におけるノイズとしては、「おはよう」等のあいさつなどがある。このような投稿は誰もが作成する可能性があるので、趣味判定の手掛りにはならない。
なお、教師データ単位とは、教師データ1件のデータ量である。分割データ単位とは、本実施の形態でデータを収集するときの抽出するデータの大きさである。後述する予備教師データの大きさとなる。予備教師データとは、手掛かり情報によって分割データ単位で収集されたデータである。
情報処理装置100は、手掛かり情報によってデータを収集するときに、テキスト部分集合からなる教師データ単位を分割した単位(以下、分割データ単位ともいう)データを収集する。収集したデータの傾向を分析し、類似する傾向を持つデータを教師データ単位に結合することによって、実際のデータ(本実施の形態が生成した教師データを用いて機械学習したモデルを用いて、処理対象とするデータ)と類似し、ノイズの少ない教師データを作成する。
収集対象データ保存モジュール140は、予備教師データ収集モジュール110と接続されている。収集対象データ保存モジュール140は、教師データの元となる投稿情報を記憶している。ここで投稿情報として、SNSにおける投稿情報(つぶやき、ブログ内の記事、掲示板への書き込み等)等が該当する。例えば、SNSによってユーザーから投稿情報を収集してもよいし、SNSが収集した投稿情報を複製して収集してきたものであってもよい。
予備教師データ収集モジュール110は、収集対象データ保存モジュール140、予備教師データ格納モジュール150と接続されている。予備教師データ収集モジュール110は、投稿情報を収集する。そして、収集した投稿情報を予備教師データ格納モジュール150に記憶させる。
例えば、予備教師データ収集モジュール110は、手掛かり情報に基づいて投稿情報(以下、予備教師データともいう)を収集するようにしてもよい。ここで手掛かり情報とは、検索キーワード、ユーザー(書き手)の属性(ユーザープロフィール)、共通の興味をもつ者が集まる場を提供するフォーラム、コミュニティ等がある。例えば、音楽を趣味とする人の投稿情報を収集する場合は、検索キーワードとして、ある歌手の名前「xxxxx」が含まれている投稿情報を検索して収集するようにしてもよいし、ユーザー(書き手)の属性の趣味欄に「xxxxx」が含まれているユーザーの投稿情報を収集するようにしてもよい。
具体的には、予備教師データ収集モジュール110は、手掛かり情報を元にテキスト部分集合からなる分割データ単位の予備教師データを収集する。これによって、データ単位に満たないデータも利用できるようになり、たくさんのデータを収集できるようになる。また、手掛かり情報によって抽出される範囲が狭くなるため、手掛かり情報と関係のない情報(ノイズ)が減る。
予備教師データ格納モジュール150は、予備教師データ収集モジュール110、予備教師データ分析モジュール120と接続されている。予備教師データ格納モジュール150は、予備教師データ収集モジュール110によって収集された予備教師データを記憶しており、その予備教師データを予備教師データ分析モジュール120に渡す。
予備教師データ分析モジュール120は、教師データ作成モジュール130、予備教師データ格納モジュール150と接続されている。予備教師データ分析モジュール120は、予備教師データ収集モジュール110によって収集された投稿情報(予備教師データ格納モジュール150に記憶された予備教師データ)を分類する。
例えば、予備教師データ分析モジュール120は、予備教師データ収集モジュール110によって収集された投稿情報を、教師なしクラスタリングによる分類又はその投稿情報に含まれている情報を用いて分類するようにしてもよい。つまり、予備教師データ分析モジュール120は、収集した予備教師データを分類(分析)する。
教師データ作成モジュール130は、予備教師データ分析モジュール120、教師データ格納モジュール160と接続されている。教師データ作成モジュール130は、予備教師データ分析モジュール120によって分類された集合内の投稿情報を用いて、機械学習に用いる教師データを作成する。そして、作成した教師データを教師データ格納モジュール160に記憶させる。
また、教師データ作成モジュール130は、予備教師データ分析モジュール120によって分類された集合内の投稿情報を結合して、機械学習に用いる1件の教師データを作成するようにしてもよい。つまり、教師データ作成モジュール130は、同等の傾向を持つデータをまとめる(結合する)ことで、教師データ単位のデータに集約する。これによって、同等の傾向を持つデータを統合し、実際のデータに類似した教師データを作成することとなる。しかも、手掛かり情報で収集した上で結合しているので、その傾向のデータが持つ特徴を豊富に含む教師データを作成することとなる。
教師データ格納モジュール160は、教師データ作成モジュール130と接続されている。教師データ格納モジュール160は、教師データ作成モジュール130によって作成された教師データを記憶する。
図2は、第1の実施の形態を利用したシステム構成例を示す説明図である。
情報処理装置100、SNS提供装置210A、SNS提供装置210B、ユーザー端末220は、通信回線290を介してそれぞれ接続されている。通信回線290は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。SNS提供装置210は、SNSのサービスを提供し、ユーザー端末220等からの投稿情報を収集する。そして、情報処理装置100は、SNS提供装置210A、SNS提供装置210Bから、その投稿情報を収集して、教師データを生成する。また、情報処理装置100による機能は、クラウドサービスとして実現してもよい。
さらに、情報処理装置100の教師データ格納モジュール160に記憶された教師データを用いて、機械学習が行われる。この機械学習によって生成されたモデルを用いて、前述の例では、SNS提供装置210A、SNS提供装置210B内の投稿情報から、音楽を趣味としているユーザーを特定する。そして、そのユーザー向けに音楽を趣味とする個人向けの商品、サービスの広告を提供するようにしてもよい。
図3は、第1の実施の形態による処理例を示すフローチャートである。
ステップS302では、予備教師データ収集モジュール110は、収集対象データ保存モジュール140から手掛かり情報を用いて予備教師データを抽出する。
ステップS304では、予備教師データ分析モジュール120は、予備教師データに対して、クラスタリング処理を行う。具体的には、ステップS302で収集した多数の予備教師データをクラスタリングし、類似した傾向を持つデータからなるいくつかのクラスタに分類する。
ステップS306では、教師データ作成モジュール130は、クラスタリングされた予備教師データを、教師データの単位に集約(結合)する。具体的には、ステップS304で作成されたクラスタに含まれている予備教師データを用いて、教師データとして要請されるデータ量に集約する。
ステップS308では、教師データ作成モジュール130は、ステップS306で作成された教師データを教師データ格納モジュール160に保存する。
本実施の形態による処理例について、SNSユーザーのプロフィール自動判定を例にとって説明する。
この技術は、SNSユーザーの性別、年代、居住域、職業、趣味等のプロフィール属性をユーザーの投稿から自動推定するというものである。機械学習器を作成することによってプロフィールの自動判定を実現するが、その教師データには通常、1人のSNSユーザーの100−200個(この数は、一例であって、より多く、又は少ない場合であってもよい)の投稿情報に対して、アノテーションを付与したデータが用いられる。すなわち、教師データ単位は100−200投稿情報となる。これは、単一の投稿情報からそのユーザーのプロフィール属性を推定するのは難しいからである。図4に示す例では、投稿情報群420として、「俺の車かっこいい」、「レストランに行った」、「やったぜ、宝くじに当たった」、「今、会社帰り」、「@xxxx お前、何いってんの」の文(投稿情報)がある。これは、あるユーザーの複数の投稿情報(投稿情報群420)に対して、「男」というラベル410が付与されているが、「俺」、「やったぜ」、「お前」といった男性特有の表現が現れている投稿情報と現れていない投稿情報があり、精度よく判定を行うためには1人当たりたくさんの投稿情報を収集する必要があることが分かる。
プロフィール判定の中でも趣味極性の「音楽」の教師データ作成プロセスにおいて、本実施の形態による処理を適用する。
まず、予備教師データ収集モジュール110において、歌手の名前や楽器の名前を手掛かり情報として用いて、予備教師データを収集する。手掛かり情報として「xxxxx」という歌手の名前で収集された予備教師データ群500を図5の例に示す。予備教師データ群500として、1行目にはuser aが投稿した「xxxxxちゃんかわいい」、2行目にはuser bが投稿した「xxxxxのコンサートに行きます(^^)」、3行目にはuser cが投稿した「声がいいxxxxx」、4行目にはuser dが投稿した「xxxxxの顔小さくてスタイルがいい」、5行目にはuser eが投稿した「xxxxxの歌うまい」、6行目にはuser fが投稿した「今度xxxxxの大阪コンサート行くよ−」、7行目にはuser gが投稿した「xxxxxの新曲買いました!」、8行目にはuser hが投稿した「まつ毛長いよね、xxxxxちゃん」がある。なお、この例では、1件/人の投稿情報を収集しているが、1人につき複数の投稿情報を収集するようにしてもよい。
例えば、1行目の投稿情報は「xxxxx」の「容姿」、2行目の投稿情報は「イベント」、3行目の投稿情報は「歌」に注目した投稿となっている。このように、「xxxxx」を含むという条件で収集した投稿情報は、歌手「xxxxx」の異なるアスペクト(切り口、性質)を含んだ、傾向の異なるデータであることが分かる。このような投稿情報をそのまま統合すると、全ての傾向が混合した教師データとなってしまう。実際のユーザーが興味を持つアスペクトは各々のユーザーによって異なると考えられ、1人のユーザーは特定の1つ又はいくつかのアスペクトに注目していると考えられる。そのため、全てのアスペクトの特徴を含んでいるこのデータをそのまま教師データ単位に集約しても、機械学習器の判定精度は低くなると予想される。そこで、予備教師データ分析モジュール120によって、収集した投稿データを同じアスペクト、傾向を持つもので分類し、教師データ作成モジュール130がその分類内で集約することによって教師データを作成する。
先に述べたように、収集した雑多な予備教師データを同一の傾向でまとめる際には、教師なしクラスタリングや収集対象のデータが元々持っている情報等を用いる。教師なしクラスタリングのアルゴリズムとしては、単語や文字を素性としたk−means法、潜在的ディリクレ配分法(Latent Dirichlet Allocation, LDA、「D.Blei, A.Ng, M.Jordan, “Latent Dirichlet Allocation”, Journal of Machine Learning Research 3 pp.993−1022, 2003」)、Girvan−Newman法などがある。また、予備教師データが元々持っている情報で、傾向の分類と判定に利用可能なものとしては、例えばSNSの投稿における投稿時間、投稿された場所、顔文字の有無や種類、添付された画像の有無や種類等がある。予備教師データ分析モジュール120は、この予備教師データが元々持っている情報で、分類する。例えば、投稿された場所がコンサート会場である予備教師データを収集して、1つの分類とすればよい。
図6に示す例は、歌手「xxxxx」についての投稿情報を「容姿」(容姿クラスタ612)、「歌」(顔クラスタ622)、「イベント」(イベントクラスタ632)で集約したものである。つまり、容姿クラスタ612に分類された予備教師データ群610内の予備教師データを結合して、1件の教師データ614を生成する。同様に、顔クラスタ622に分類された予備教師データ群620内の予備教師データを結合して、1件の教師データ624を生成する。イベントクラスタ632に分類された予備教師データ群630内の予備教師データを結合して、1件の教師データ634を生成する。このように、同じ傾向を持つ投稿データをまとめることによって、特徴を網羅的に備え、かつノイズの少ない教師データを作成することとなる。なお、図6では、予備教師データ群610内にユーザー名を含めているが、1件の教師データ614を生成する場合は、ユーザー名を含めずに、予備教師データ(「xxxxxかわいい」等)を結合する。
図6に示す例では、予備教師データの収集において、手掛かり情報としてキーワードによる収集を用いたが、他にもSNSのコミュニティを利用するようにしてもよい。SNSには興味のある事柄について該当するコミュニティに投稿するユーザーがおり、そうしたコミュニティから投稿やコメントを収集すれば、キーワードで収集したデータと同様の、異なるユーザーによる特定の事柄に関する投稿データを収集することができ、予備教師データとして利用することができる。
図7に示す例は「xxxxx」のコミュニティ700に投稿された投稿情報とそのコメントの表示例である。なお、コメントも投稿情報(予備教師データ)として扱う。
投稿領域710の主催者を示す投稿者アイコン715が表示され、そして、投稿者アイコン717が示すユーザーによって投稿された投稿情報が投稿領域710内に表示されている。そして、その投稿領域710に対して、別のユーザーの書き込みによるコメントがコメント領域722、724、726、728内に表示されている。また、投稿者アイコン719が示すユーザーによって投稿された投稿情報が投稿領域730内に表示されている。そして、その投稿領域730に対して、別のユーザーの書き込みによるコメントがコメント領域732内に表示されている。
この場合、予備教師データ収集モジュール110は、投稿領域710、コメント領域722、724、726、728、投稿領域730、コメント領域732内の投稿情報を、「xxxxx」に関する投稿情報として収集する。
また、図6では「xxxxx」について収集したデータについて、同一傾向をもつ投稿を集約する例を示したが、図8の例に示すように、他のキーワードで収集した投稿も含めて、集約を行ってもよい。例えば、歌手「yyyyy」、「zzzzz」など複数(特に、多数としてもよい)のキーワードを設定し、複数(特に、多数としてもよい)の投稿情報を収集し、得られた予備教師データすべてを包括的に分析し、同一傾向のデータで集約して教師データを作成してもよい。1件の教師データの作成は、集約の対象とする予備教師データ群(投稿情報)が異なること以外は、図6の例と同等である。
手掛り情報にコミュニティを用いる際にも、多数のコミュニティの投稿情報を予備教師データにして分析し、同一の傾向のデータで集約して教師データを作成してもよい。
また、SNSの1つであるTwitterにおいては、類似する投稿情報を検索しやすくする仕組みとしてハッシュタグがある。これは利用者が“♯”記号を任意の単語、文章につけることで自由に設定できるラベルである。人気のあるハッシュタグはたくさんの投稿に付与されているため、大量の予備教師データを効率的に収集するためにハッシュタグを利用することも予備教師データの収集手段の1つとして用いてもよい。
図9は、第2の実施の形態の構成例についての概念的なモジュール構成図である。
情報処理装置900は、教師データ分析モジュール970、教師データ格納モジュール980、予備教師データ収集モジュール110、予備教師データ分析モジュール120、教師データ作成モジュール130、収集対象データ保存モジュール140、予備教師データ格納モジュール150、教師データ格納モジュール160を有している。なお、第1の実施の形態と同種の部位には同一符号を付し重複した説明を省略する。第2の実施の形態は、第1の実施の形態に、教師データ分析モジュール970、教師データ格納モジュール980を付加したものである。
この第2の実施の形態では、人手などによって作成した理想的な教師データ群を用意し(教師データ格納モジュール980)、そのデータを教師データ分析モジュール970で分析する。その分析結果を踏まえて、予備教師データ分析モジュール120で予備教師データの分析を行う。この分析には教師ありクラスタリングや機械学習による判定器などを用いる。教師ありクラスタリングのアルゴリズムの例としては教師あり潜在ディリクレ配分法(Partially Dirichlet Allocation, PLDA)等がある。また、理想的な教師データを用いて機械学習による傾向の分類・判定を行う判定器を作成し、同一傾向にまとめる手法等を用いてもよい。このアルゴリズムとしてはサポートベクターマシン、ナイーブベイズ、Adaboost等がある。第2の実施の形態では、予備教師データから、より実際のデータに近い教師データを作成することとなる。
教師データ格納モジュール980は、教師データ分析モジュール970と接続されている。教師データ格納モジュール980は、理想的な教師データを記憶している。
教師データ分析モジュール970は、教師データ格納モジュール980、予備教師データ分析モジュール120と接続されている。教師データ分析モジュール970は、教師データ格納モジュール980内の理想的な教師データを分析し、予備教師データ分析モジュール120における教師データ単位のデータに結合する処理に、参考情報として反映させる。
予備教師データ分析モジュール120は、教師データ分析モジュール970、教師データ作成モジュール130、予備教師データ格納モジュール150と接続されている。予備教師データ分析モジュール120は、予備教師データ収集モジュール110によって収集された投稿情報を、教師データ分析モジュール970が作成した教師データを用いて、教師ありクラスタリング又は機械学習によって分類する。
図10は、第2の実施の形態による処理例を示すフローチャートである。
ステップS1002では、教師データ格納モジュール980から教師データを抽出する。
ステップS1004では、教師データを分析する。
ステップS1006では、分析結果を予備教師データ分析モジュール120に渡す。
図11は、第2の実施の形態による処理例を示すフローチャートである。
ステップS1102では、予備教師データ収集モジュール110は、収集対象データ保存モジュール140から予備教師データを抽出する。
ステップS1104では、予備教師データ分析モジュール120は、教師データ分析モジュール970からの分析結果を用いて、クラスタリングを行う。
ステップS1106では、教師データ作成モジュール130は、教師データの単位に集約する。
ステップS1108では、教師データ作成モジュール130は、教師データとして格納する。
なお、本実施の形態としてのプログラムが実行されるコンピュータのハードウェア構成は、図12に例示するように、一般的なコンピュータであり、具体的にはパーソナルコンピュータ、サーバーとなり得るコンピュータ等である。つまり、具体例として、処理部(演算部)としてCPU1201を用い、記憶装置としてRAM1202、ROM1203、HD1204を用いている。HD1204として、例えばハードディスク、SSD(Solid State Drive)を用いてもよい。予備教師データ収集モジュール110、予備教師データ分析モジュール120、教師データ作成モジュール130、教師データ分析モジュール970等のプログラムを実行するCPU1201と、そのプログラムやデータを記憶するRAM1202と、本コンピュータを起動するためのプログラム等が格納されているROM1203と、収集対象データ保存モジュール140、予備教師データ格納モジュール150、教師データ格納モジュール160、教師データ格納モジュール980等の機能を有する補助記憶装置(フラッシュメモリ等であってもよい)であるHD1204と、キーボード、マウス、タッチパネル、マイク等に対する利用者の操作に基づいてデータを受け付ける受付装置1206と、CRT、液晶ディスプレイ、スピーカー等の出力装置1205と、ネットワークインタフェースカード等の通信ネットワークと接続するための通信回線インタフェース1207、そして、それらをつないでデータのやりとりをするためのバス1208により構成されている。これらのコンピュータが複数台互いにネットワークによって接続されていてもよい。
前述の実施の形態のうち、コンピュータ・プログラムによるものについては、本ハードウェア構成のシステムにソフトウェアであるコンピュータ・プログラムを読み込ませ、ソフトウェアとハードウェア資源とが協働して、前述の実施の形態が実現される。
なお、図12に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図12に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図12に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、携帯情報通信機器(携帯電話、スマートフォン、モバイル機器、ウェアラブルコンピュータ等を含む)、情報家電、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
100…情報処理装置
110…予備教師データ収集モジュール
120…予備教師データ分析モジュール
130…教師データ作成モジュール
140…収集対象データ保存モジュール
150…予備教師データ格納モジュール
160…教師データ格納モジュール
210…SNS提供装置
220…ユーザー端末
290…通信回線
900…情報処理装置
970…教師データ分析モジュール
980…教師データ格納モジュール

Claims (4)

  1. 投稿情報を収集する収集手段と、
    前記収集手段によって収集された投稿情報を分類する分類手段と、
    前記分類手段によって分類された集合内の投稿情報を用いて、機械学習に用いる教師データを作成する作成手段
    を具備し、
    前記作成手段は、前記分類手段によって分類された集合内の投稿情報を結合して、機械学習に用いる1件の教師データを作成する
    ことを特徴とする情報処理装置。
  2. 前記分類手段は、前記収集手段によって収集された投稿情報を、教師なしクラスタリングによる分類又は該投稿情報に含まれている情報を用いて分類する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記分類手段は、前記収集手段によって収集された投稿情報を、予め作成した教師データを用いて、教師ありクラスタリング又は機械学習によって分類する
    ことを特徴とする請求項1に記載の情報処理装置。
  4. コンピュータを、
    投稿情報を収集する収集手段と、
    前記収集手段によって収集された投稿情報を分類する分類手段と、
    前記分類手段によって分類された集合内の投稿情報を用いて、機械学習に用いる教師データを作成する作成手段
    として機能させ
    前記作成手段は、前記分類手段によって分類された集合内の投稿情報を結合して、機械学習に用いる1件の教師データを作成する
    情報処理プログラム。
JP2015040921A 2015-03-03 2015-03-03 情報処理装置及び情報処理プログラム Expired - Fee Related JP6511865B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015040921A JP6511865B2 (ja) 2015-03-03 2015-03-03 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015040921A JP6511865B2 (ja) 2015-03-03 2015-03-03 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2016162257A JP2016162257A (ja) 2016-09-05
JP6511865B2 true JP6511865B2 (ja) 2019-05-15

Family

ID=56846983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015040921A Expired - Fee Related JP6511865B2 (ja) 2015-03-03 2015-03-03 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP6511865B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6900724B2 (ja) * 2017-03-27 2021-07-07 富士通株式会社 学習プログラム、学習方法および学習装置
JP7083471B2 (ja) * 2018-09-26 2022-06-13 株式会社国際電気通信基礎技術研究所 推定装置、推定プログラムおよび推定方法
JP2023068859A (ja) * 2021-11-04 2023-05-18 株式会社日立製作所 計算機システム及び装置条件の探索支援方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3571312B2 (ja) * 2001-06-29 2004-09-29 株式会社ジャストシステム リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム
KR101441983B1 (ko) * 2013-01-15 2014-09-26 경북대학교 산학협력단 사용자 프로파일 생성 장치 및 그 방법

Also Published As

Publication number Publication date
JP2016162257A (ja) 2016-09-05

Similar Documents

Publication Publication Date Title
Boididou et al. Verifying information with multimedia content on twitter: a comparative study of automated approaches
US20180096219A1 (en) Neural network combined image and text evaluator and classifier
US20090083096A1 (en) Handling product reviews
KR102053635B1 (ko) 불신지수 벡터 기반의 가짜뉴스 탐지 장치 및 방법, 이를 기록한 기록매체
Chen et al. Discovering informative social subgraphs and predicting pairwise relationships from group photos
US20130346401A1 (en) Topical affinity badges in information retrieval
CN104573130A (zh) 基于群体计算的实体解析方法及装置
JP6070501B2 (ja) 情報処理装置及び情報処理プログラム
Heredia et al. Improving detection of untrustworthy online reviews using ensemble learners combined with feature selection
JP6511865B2 (ja) 情報処理装置及び情報処理プログラム
Kaur et al. A comprehensive overview of sentiment analysis and fake review detection
Sepehri-Rad et al. Identifying controversial Wikipedia articles using editor collaboration networks
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
Lucas et al. Sentiment analysis and image classification in social networks with zero-shot deep learning: applications in tourism
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
US20220261856A1 (en) Method for generating search results in an advertising widget
Abbasi et al. Identifying influentials in social networks
Domeniconi et al. Identifying conversational message threads by integrating classification and data clustering
US20230214679A1 (en) Extracting and classifying entities from digital content items
Hirota et al. Weakly-Supervised Multimodal Learning for Predicting the Gender of Twitter Users
CN110837740B (zh) 一种基于词典改进lda模型的评论方面观点级挖掘方法
Ahmad et al. Features Identification for Filtering Credible Content on Twitter Using Machine Learning Techniques
Kebede et al. Anonymous author similarity identification
Hussein et al. Passer Journal
Zhang et al. Large scale incremental web video categorization

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190325

R150 Certificate of patent or registration of utility model

Ref document number: 6511865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees