JP5942052B1 - データ分析システム、データ分析方法、およびデータ分析プログラム - Google Patents

データ分析システム、データ分析方法、およびデータ分析プログラム Download PDF

Info

Publication number
JP5942052B1
JP5942052B1 JP2015558255A JP2015558255A JP5942052B1 JP 5942052 B1 JP5942052 B1 JP 5942052B1 JP 2015558255 A JP2015558255 A JP 2015558255A JP 2015558255 A JP2015558255 A JP 2015558255A JP 5942052 B1 JP5942052 B1 JP 5942052B1
Authority
JP
Japan
Prior art keywords
web page
user
data
information
data element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015558255A
Other languages
English (en)
Other versions
JPWO2016103519A1 (ja
Inventor
秀樹 武田
秀樹 武田
彰晃 花谷
彰晃 花谷
孝紀 竹田
孝紀 竹田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Application granted granted Critical
Publication of JP5942052B1 publication Critical patent/JP5942052B1/ja
Publication of JPWO2016103519A1 publication Critical patent/JPWO2016103519A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本発明に係るデータ分析システムは、データの分類を示す分類情報を取得する分類情報取得部と、ネットワーク上のウェブページに係るデータ群を収集する収集部と、前記データ群に含まれる複数の分類データに前記分類情報を対応付けることにより当該複数のデータ各々を分類するデータ分類部と、前記データ群に含まれる前記分類データとは異なる未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に応じて評価するデータ評価部と、前記データ評価部による評価に基づいて、ユーザに対して推薦する推薦情報を提示する提示部とを備える。

Description

本発明は、データを分析するデータ分析システムに関するものである。
近年、ネットワーク上には、数多の情報がウェブページという形で溢れている。ネットワーク上では、文字検索を用いることで、当該文字を含むウェブページの検索を実行することは可能であるが、当該検索により検索されるウェブページもまた膨大になる可能性は否めない。そのため、ユーザにとって、興味を引く情報を掲載したウェブページがどのウェブページであるかの判断が困難であるという問題がある。そこで、従来、ウェブページの中からユーザが所望する情報が掲載されていると推測されるウェブページを推薦するシステムが考案されている。
例えば、特許文献1には、ユーザのプロファイル情報に基づいて、当該ユーザの好みのウェブページを提示するレコメンドシステムが開示されている。
特開2012−142704号公報
しかしながら、単純にユーザのプロファイル情報を用いたレコメンドだけでは、単純にユーザが好む話題についてのキーワードを含むだけであり、ユーザが真に興味を持ち得るウェブページを提示できることを保証できないという問題がある。
そこで、本発明においては、上記問題に鑑みて、従来とは異なる手法を用いて、ユーザに興味がある情報を提供し得るデータ分析システムを提供することを目的とする。
上記目的を達成するために、データ分析システムは、コンピュータがネットワーク上にある多くのウェブページの中から、ユーザが興味を持ち得るウェブページを抽出して、ユーザに当該ウェブページに関連する関連情報を提示可能なデータ分析システムであって、前記コンピュータは、ユーザがアクセスした複数のウェブページのうち、当該ユーザが興味を示したウェブページが区別されるような分類情報を当該ウェブページに対応付ける分類部と、前記分類情報が対応付けられたウェブページから、前記ユーザが当該ウェブページに与えた表現を含むデータ要素を抽出する抽出部と前記抽出されたデータ要素を評価し、当該評価されたデータ要素に基づいて前記ユーザがアクセスしたウェブページを評価することにより、前記ユーザが興味を示し、肯定的表現を含むウェブページの評価が上位になるように前記データ要素の評価を繰り返すデータ要素評価部と、ネットワーク上のウェブページをデータ群として収集する収集部と、前記データ要素評価部によって評価されたデータ要素に基づいて、前記データ群に含まれる複数のウェブページ夫々と前記分類情報との関連性を評価するデータ評価部と、前記データ評価部によって評価された関連性に基づいて、ユーザに前記関連情報を設定する関連情報設定部とを備える。
また、データ分析方法は、コンピュータがネットワーク上にある多くのウェブページの中から、ユーザが興味を持ち得るウェブページを抽出して、ユーザに当該ウェブページに関連する関連情報を提示可能なデータ分析方法であって、前記コンピュータは、ユーザがアクセスした複数のウェブページのうち、当該ユーザが興味を示したウェブページが区別されるような分類情報を当該ウェブページに対応付ける分類ステップと、前記分類情報が対応付けられたウェブページから、前記ユーザが当該ウェブページに与えた表現を含むデータ要素を抽出する抽出ステップと、前記抽出されたデータ要素を評価し、当該評価されたデータ要素に基づいて前記ユーザがアクセスしたウェブページを評価することにより、前記ユーザが興味を示し、肯定的表現を含むウェブページの評価が上位になるように前記データ要素の評価を繰り返すデータ要素評価ステップと、ネットワーク上のウェブページをデータ群として収集する収集ステップと、前記データ要素評価ステップによって評価されたデータ要素に基づいて、前記データ群に含まれる複数のウェブページ夫々と前記分類情報との関連性を評価するデータ評価ステップと、前記データ評価ステップによって評価された関連性に基づいて、ユーザに前記関連情報を設定する関連情報設定ステップとを実行する。
また、データ分析のためのプログラムは、コンピュータに、ネットワーク上にある多くのウェブページの中から、ユーザが興味を持ち得るウェブページを抽出して、ユーザに当該ウェブページに関連する関連情報を提示可能にするプログラムであって、ユーザがアクセスした複数のウェブページのうち、当該ユーザが興味を示したウェブページが区別されるような分類情報を当該ウェブページに対応付ける分類機能と、前記分類情報が対応付けられたウェブページから、前記ユーザが当該ウェブページに与えた表現を含むデータ要素を抽出する抽出機能と、前記抽出されたデータ要素を評価し、当該評価されたデータ要素に基づいて前記ユーザがアクセスしたウェブページを評価することにより、前記ユーザが興味を示し、肯定的表現を含むウェブページの評価が上位になるように前記データ要素の評価を繰り返すデータ要素評価機能と、ネットワーク上のウェブページをデータ群として収集する収集機能と、前記データ要素評価機能によって評価されたデータ要素に基づいて、前記データ群に含まれる複数のウェブページ夫々と前記分類情報との関連性を評価するデータ評価機能と、前記データ評価機能によって評価された関連性に基づいて、ユーザに前記関連情報を設定する関連情報設定機能と、をコンピュータに実現させる。
本発明の一態様に係るデータ分析システム、データ分析方法、およびデータ分析プログラムは、ユーザに対する推薦情報を提示することができる。したがって、上記データ分析システム等は、例えば、ユーザに検索のための労を強いることなく、ユーザにとって興味があると推測されるウェブページに関する推薦情報を提示できるという効果を奏する。
実施の形態に係るデータ分析システムの機能構成を示すブロック図である。 実施の形態に係るユーザのウェブページの利用形態の一例を示す図である。 データ分析のための教師データの作成処理を示すフローチャートである。 ユーザにとって興味があると推測されるウェブページの提示処理を示すフローチャートである。 変形例に係る分類情報の入力形態の一例を示す図である。
<実施の形態>
本発明に係るデータ分析システムの一実施態様について、図面を参照しながら説明する。
<概要>
本実施の形態に係るデータ分析システムにおいては、ユーザがアクセスしたウェブページに基づいて、ユーザの興味があると推測されるウェブページに関する情報を提示する。上記データ分析システムは、ユーザの興味があると推測されるウェブページを、例えば、ユーザがアクセスしたウェブページに対してコメントを残したか否かに応じて(ネットワークにおけるユーザのアクティビティに応じて)判断する。ユーザがコメントを残したウェブページは、ユーザの興味を引く何らかの情報が含まれていたものであると推測されるためである。
そこで、上記データ分析システムは、まず、ユーザがアクセスしたことがあるウェブページに関する情報を取得し、それらを、ユーザがコメントを残したか否かに応じて、ユーザの興味があるウェブページと、興味がないウェブページとに分類する。
そして、上記データ分析システムは、ユーザの興味があるウェブページに含まれる文書情報から、キーワード(例えば、形態素、センテンスなどのデータ要素)を選出し、各キーワードの評価値(キーワード重み、評価結果)を決定する。同様に、ユーザの興味がないウェブページの文書情報についても、キーワードを選出し、各キーワードの評価値を決定する。なお、この時の評価付けの対象は、キーワードに限られるものではなく、例えば、センテンスに対して評価付けを実行してもよいし、キーワード間の結びつきに対する評価付けを実行することとしてもよい。
次に、上記データ分析システムは、ユーザがアクセスしたことがないウェブページに関する情報を取得する。そして、当該ウェブページに含まれる文書情報から、評価付けされているキーワードを選出し、そのキーワードに設定されている評価値に基づいて、ウェブページのスコアを算出する。そして、上記データ分析システムは、例えば、ウェブページのスコアが予め定められた閾値を超えている場合に、例えば、当該ウェブページに関する情報をユーザに対するおすすめ情報(推薦情報)として提示する。
ユーザがアクセスしてコメントを残したウェブページは、何らかの理由でユーザにとって興味深い情報を含むものであり、データ分析システムは、そのウェブページとの共通点が多いと目される情報を含む他のウェブページに関連するおすすめ情報(推薦情報)をユーザに対して提示することができる。
以下、データ分析システムの詳細について説明する。
<構成>
図1は、データ分析システム100の機能構成を示すブロック図である。
図1に示すように、データ分析システム100は、通信部110と、入力部120と、制御部130と、記憶部140と、表示部150とを含む。
通信部110は、ウェブページにアクセスする機能を有する。また、通信部110は、ユーザ端末との通信が確立できる場合に、制御部130から伝達されたおすすめ情報を、当該ユーザ端末に送信する機能も有する。
入力部120は、ユーザがアクセスしたウェブページに関するアクセス情報およびアクセスしたウェブページについてコメントを残したか否かを示すコメント情報の入力を受け付ける。また、入力部120は、分類情報として、何を基準として分類するか否かについての情報の入力を受け付ける。
制御部130は、記憶部140に記憶されている各種データを参照しながら、データ分析システム100の各部を制御する機能を有するプロセッサである。制御部130は、データ分析システム100が有する各種機能を統括的に制御する。
制御部130は、収集部131と、データ抽出部132と、分類情報受付部133と、データ分類部134と、要素抽出部135と、要素評価部136と、評価格納部137と、未分類データ評価部138と、提示部139とを含む。
収集部131は、通信部110を介してネットワーク(例えば、インターネット、イントラネットなど)にアクセスし、当該ネットワーク上のウェブページに関するウェブページ情報を取得して、当該ウェブページ情報を記憶部140に記録する機能を有する。
データ抽出部132は、記憶部140に記憶されているウェブページに係る情報群から必要に応じたデータを抽出する機能を有する。データ抽出部132は、入力部120に入力されたユーザがアクセスしたウェブページの情報をデータ分類部134に伝達する。また、データ抽出部132は、入力部120に入力されたユーザがアクセスしたウェブページ以外のウェブページの情報を記憶部140から抽出し、未分類データ評価部138に伝達する。
分類情報受付部133は、ユーザがアクセスしたことがあるウェブページ各々を分類するための基準を示す分類情報を、入力部120から受け付ける。ここで、本実施の形態においては、分類情報は、「コメントを付記した」または「コメントを付記していない」を示す情報である。すなわち、分類情報は、本実施の形態においては、ユーザがコメントを付記したか否かを示すものであり、「コメントを付記した」、「コメントを付記していない」の2値のフラグ値である。なお、ここでは、分類情報を2値のバイナリデータであるとしているが、分類情報は、2値以上を表現可能なデータとして、ウェブページを複数のカテゴリに分類するものであってもよい。例えば、分類情報は、「まったくアクセスしていない」、「アクセスしたがコメントは付記していない」、「アクセスしてコメントを付記した」というように、ウェブページを3段階で分類するものであってもよい。
データ分類部134は、分類情報受付部133において受け付けられた分類情報に基づき、データ抽出部132から伝達されたウェブページを、ユーザがコメントを付記したウェブページと、コメントを付記しなかったウェブページとに分類する機能を有する。具体的には、データ分類部134は、データ抽出部132から伝達されたウェブページ各々について、分類情報(コメントを付記したことを示す情報またはコメントを付記しなかったことを示す情報)を対応付けることにより、各ウェブページを分類する。データ分類部134は、分類情報を対応付けたウェブページ情報を要素抽出部135に伝達する。
要素抽出部135は、データ分類部134により分類情報が対応付けられたウェブページから、データ要素を抽出する機能を有する。データ要素としては、例えば、ウェブページに含まれる記事内容のキーワード(いわゆる、形態素)、画像、音声、動画などを用いることとしてよい。なお、音声の場合は、ウェブページに掲載されている音声情報を部分音声に分けられたものであってもよく、また、動画の場合は、動画を構成するフレームの一部であってもよい。要素抽出部135は、抽出したデータ要素を要素評価部136に伝達する。
要素抽出部135が抽出するデータ要素は、所定の選定基準に従ってデータ分析システム100により選定される。ここでデータ要素を選定する手法としては、コメントを付記した1以上のウェブページに含まれるデータ要素が高く評価され、コメントを付記していない1以上のウェブページに含まれるデータ要素が評価されないようになっていればよい。例えば、データ要素は、コメントを付記した1以上のウェブページから抽出されたキーワードから、コメントを付記していない1以上のウェブページから抽出されたキーワードを除去した残りのキーワードをデータ要素として選定することとしてもよい。あるいは、例えば、コメントを付記した1以上のウェブページから抽出されたキーワードの出現頻度が、コメントを付記していない1以上のウェブページから抽出された同一のキーワードの出現頻度よりも一定以上高いものをデータ要素として選定してもよい。また、データ要素は、データ分析システム100に対してユーザが入力部120を用いて指定することとしてもよい。
要素評価部136は、要素抽出部135が抽出した各データ要素を予め定められた所定の評価基準に従って評価する機能を有する。要素評価部136は、所定の評価基準として、データ要素について分類情報との依存関係を示す伝達情報量を用いて評価することができる。例えば、要素抽出部135が、ウェブページに含まれる文書情報(テキスト)からデータ要素としてキーワードを抽出した場合に、当該キーワードの重み(weight)を算出することによって当該キーワードを評価する。
要素評価部136は、要素抽出部135が抽出した各データ要素の重みを所定のアルゴリズムに従って算出する。要素評価部136は、算出したウェブページのスコアについて、ユーザがコメントを付記したウェブページのスコアが、ユーザがコメントを付記していないウェブページのスコアよりも上位に位置するようになるまで、各データ要素の評価値を繰り返し再評価し、その重みを算出しなおすことができる。具体的には、まず、要素評価部136は、一度算出した重みに基づいて、分類済みのウェブページのスコアを算出する。要素評価部136は、スコアに従って、ウェブページを並べる。このとき、データ分析システム100による評価においては、コメントを付記したウェブページが上位に、コメントを付記していないウェブページが下位に並ぶようになっていることが望ましい。そこで、要素評価部136は、例えば、ユーザがコメントを付記したウェブページのスコアが上位に並ぶように、そして、コメントを付記していないウェブページのスコアがその下位に並ぶようになるまで、当該算出を実行する。そして、要素評価部136は、ユーザがコメントを付記したウェブページのスコアの最低値と、ユーザがコメントを付記していないウェブページのスコアの最高値との中間値を、ユーザが興味を示す可能性が高いウェブページを判断するための閾値として算出する。
要素評価部136は、データ要素の重みwgtについて、例えば、以下の式(1)を用いて算出する。
ここで、wgtは、学習前のi番目の選定キーワードの重みの初期値を示す。また、wgtは、L回目学習後のi番目の選定キーワードの重みを示す。γはL回目の学習における学習パラメータを意味し、θは学習効果の閾値を意味する。
要素評価部136は、算出した各データ要素の評価値と閾値とを評価格納部137に伝達する。
評価格納部137は、要素評価部136により評価された各データ要素とその評価を対応付けて記憶部140に格納する機能を有する。また、評価格納部137は、閾値も評価格納部137に格納する。
未分類データ評価部(データ評価部)138は、データ抽出部132から伝達されたユーザがアクセスしていないウェブページを、記憶部140に記憶されているデータ要素の評価を用いて、ユーザにとって興味があるか否か(すなわち、当該ウェブページと「コメントを付記した」という分類情報との関連性)を評価する機能を有する。
具体的には、未分類データ評価部138は、データ抽出部132から伝達されたユーザがアクセスしていないウェブページに含まれるデータ要素を特定する。そして、当該データ要素の評価値を、記憶部140に格納されている各データ要素の評価値を参照して特定する。そして、未分類データ評価部138は、ユーザがアクセスしていないウェブページ(未分類データ)に含まれるデータ要素各々のスコアを統合して、予め定められた範囲内の値(例えば、0〜10000の間)をとるように、スケーリングして当該ウェブページのスコアとして算出する。
より具体的には、例えば、未分類データ評価部138は、ウェブページについて抽出されたデータ要素についてのデータ要素ベクトルを生成する。データ要素ベクトルは、記憶部140に評価付けされているデータ要素についてウェブページに含まれるか否かに基づくベクトル(bag of words)である。
未分類データ評価部138は、ウェブページに評価付けされているデータ要素が含まれている場合に、データ要素ベクトルの対応するベクトル値を「0」から「1」に変更する。そして、こうしてウェブページから抽出されたデータ要素に基づいて、そのウェブページについてのデータ要素ベクトルを生成する。未分類データ評価部138は、生成したデータ要素ベクトルと、各データ要素の評価値(重み)との内積を計算することにより、ウェブページのスコアSを算出する(下記式(2)参照)。
ここで、sはキーワードベクトルを表し、wは重みベクトルを表す。なお、Tは転置を意味する。なお、未分類データ評価部138は、上記のように、ウェブページごとに1つのスコアを算出することもできるし、所定の区切り(例えば、センテンス、段落、所定の長さで分割された部分音声、所定数のフレームを含む部分動画など)ごとに1つのスコアを算出することもできる(詳細については後述する)。
提示部139は、未分類データ評価部138により一定以上のスコアを有すると判定されたウェブページに関する情報をユーザに対するおすすめ情報として提示する機能を有する。なお、提示部139は、一定以上のスコアを有すると指定されたウェブページに関する情報をユーザに対するおすすめ情報として提示すると記載したが、これは一例であり、その他にも例えば、スコアの高いものから降順でウェブページを提示することとしてもよい。提示部139は、必要に応じて、おすすめ情報を、通信部120または表示部150に伝達する。例えば、提示部139は、通信部120がユーザの通信端末と通信可能に接続されている場合には、おすすめ情報を通信部120に伝達し、それ以外の場合には表示部150に伝達する。
また、提示部139が提示するおすすめ情報(推薦情報)は、ウェブページに関する情報だけでなく、例えば、ユーザと気が合いそうな他のユーザまたは組織に関する情報、当該ユーザに悪影響を及ぼしそうな他のユーザまたは組織に関する情報、その他当該ユーザと関連が深いと推測される任意の情報、およびこれら情報の任意の組み合わせを広く含む。
記憶部140は、データ分析システム100が、データ分析のために用いるために必要とするプログラムおよび各種データを記憶する機能を有する記録媒体である。記憶部140は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、半導体メモリ、フラッシュメモリなどにより実現される。なお、図1では、データ分析システム100が記憶部140を備える構成を示しているが、記憶部140は、データ分析システム100外部のものであって、データ分析システム100と通信可能に接続された記憶装置であってもよい。
表示部150は、制御部130から出力された表示データに基づく画像を表示する機能を有するモニターである。表示部150は、例えば、LCD(Liquid Crystal Display)や、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)ディスプレイなどにより実現されてよい。本実施の形態においては、表示部150は、提示部139から伝達されたユーザへのおすすめ情報を表示する。
<ウェブページ>
ここで、ウェブページについて簡単に説明する。
図2は、ユーザがアクセスしたウェブページであって、ユーザがコメントを付記したウェブページと、コメントを付記しなかったウェブページの例を示す図である。
図2に示すウェブページ200aは、ユーザがアクセスしたウェブページであって、コメントを付記したウェブページである。
図2に示すように、ウェブページ200は、ウェブページ200aの管理人の情報を示すプロフィール201a、管理人により記載された記事本文202a、当該記事に対して寄せられたコメント203a、ユーザコメント204a、各種の商品広告を示すアフィリエイト205a〜207aを含む。ウェブページ200は、ウェブサーバにおいてこれらの情報を含んで記憶されている。ウェブページ200は、ウェブページ200にアクセスした人物にコメントの付記を許可しているページであり、ユーザは記事本文202aに対する感想のコメント204aを書き込む。当該書き込んだ情報は、ウェブサーバにおいて記憶され、対応付けて記憶される。当該書き込みには、書き込んだユーザを識別するためのユーザIDないしはユーザ情報が対応付けられて記憶される。また、ウェブページ200aに、ユーザがアクセスしたことを示す情報として、ユーザがアクセスした端末の識別情報(例えば、MACアドレス)も対応付けて記憶される。
一方、図2に示すウェブページ200bは、ユーザがアクセスしたウェブページであってコメントを付記していないウェブページである。
ウェブページ200bは、ウェブページ200bの管理人の情報を示すプロフィール欄201b、管理人により記載された記事欄202b、当該記事に対して寄せられたコメント203b、商品広告を示すアフィリエイト204b〜206bを含む。当該ページには、ユーザはアクセスしたものの、コメントを付記するには至らなかった。しかし、ユーザがアクセスしたことを示す情報として、ユーザがアクセスした端末の識別情報が対応付けて記憶される。
なお、図2に示したウェブページの構成は一例であり、ウェブページには様々な形態の構成のものがあることは言うまでもない。
<動作>
図3は、データ分析システム100の、ユーザがアクセスしたウェブページを分析し、データ要素の評価を算出する際の動作を示すフローチャートである。
図3に示すように、データ分析システム100は、入力部120を介して、ユーザがアクセスしたウェブページに関する情報を受け付ける(ステップS301)。ウェブページに関する情報は、当該ウェブページを特定可能な情報でありさえすればよく、例えば、当該ウェブページのアドレスであってもよいし、フルページの情報であってもよい。
次に、データ分析システム100は、入力部120を介して、分類情報を受け付ける(ステップS302)。
データ分類部134は、データ抽出部132から受け付けたウェブページを、分類情報受付部133が受け付けた分類情報に従って、分類する(ステップS303)。データ分類部134は、ユーザがアクセスしたウェブページについて、ユーザがコメントを付記したか否かに応じて分類する。
要素抽出部135は、ユーザがアクセスしたウェブページからデータ要素を抽出する(ステップS304)。
要素評価部136は、要素抽出部135が抽出したデータ要素各々を評価し、その評価値を評価格納部137に伝達する(ステップS305)。
評価格納部137は、伝達されたデータ要素と、その評価値を対応付けて記憶部140に格納する(ステップS306)。
以上が、データ要素の各評価を決定するまでのデータ分析システム100の動作である。図3に示す処理は、未分類のデータ(ユーザがアクセスしていないウェブページ)を分類するために、ユーザがアクセスしたウェブページ(特に、コメントを付記したウェブページ、分類データ)を教師データ(訓練データ)として取得し、当該教師データに含まれるパターン(例えば、キーワード、概念的には、当該キーワードの分布)を抽出する処理でもある。図3に示す処理により、ユーザがアクセスしたことがないウェブページの中からユーザにとって興味があると推測されるウェブページを特定するための前処理が完了する。
図4は、データ分析システム100のユーザがアクセスしていないウェブページからユーザにおすすめ情報を提示する際の動作を示すフローチャートである。
図4に示すように、データ分析システム100の収集部131は、通信部110を介して、ネットワークにアクセスして、各種のウェブページに関する情報を収集する(ステップS401)。収集部131は、収集したウェブページ情報を記憶部140に格納する。
データ抽出部132は、記憶部140からユーザがアクセスしていないウェブページに関する情報を抽出し、未分類データ評価部138に伝達する。
未分類データ評価部138は、データ抽出部132から伝達されたウェブページからデータ要素を抽出する(ステップS402)。未分類データ評価部138は、抽出したデータ要素についての評価を、記憶部140から取得する(ステップS403)。そして、未分類データ評価部138は、取得した各データ要素の評価に基づいて(例えば、前述した式(2)を用いて)、当該データ要素を抽出したウェブページのスコアを算出する(ステップS404)。未分類データ評価部138は、算出したウェブページのスコアと対応するウェブページ情報とを提示部139に伝達する。
提示部139は、伝達されたウェブページのスコアとウェブページ情報とに基づいて、ユーザに対するおすすめ情報を生成する(ステップS405)。ここでは、おすすめ情報は、一定以上のスコアを有するウェブページのアドレス情報であるとする。提示部139は、生成したおすすめ情報を、通信部110または表示部150に伝達する。
通信部110または表示部150は、提示部139から伝達されたおすすめ情報を出力する。通信部110の場合、伝達されたおすすめ情報を接続先の端末に送信する。表示部150の場合、伝達されたおすすめ情報をモニターに表示する。
図4に示す処理は、未分類のデータ(ウェブページ情報)を、ユーザの興味があるウェブページと、興味がないウェブページに分類する処理であるとも言える。言い換えれば、教師データから抽出されたパターンが、未知データ(未分類データ)に含まれるか否かを分析することによって、当該未知データと所定の事案(例えば、当該ウェブページがユーザの嗜好に合致していること)との関連性を評価する処理でもあると言える。
<まとめ>
上述の処理により、ユーザがコメントを付記したウェブページと、コメントを付記していないウェブページとに応じて、ユーザがアクセスしていないウェブページを、興味があると推測されるウェブページと興味がないと推測されるウェブページとに分類し、おすすめ情報としてウェブページの情報を提示することができる。上記実施の形態に係るデータ分析システム100によれば、ユーザが特に何らかの操作をすることなく、自動的にユーザにとって興味があると推測されるウェブページを提示することができる。
<変形例>
上記実施形態1、実施形態2に本発明に係る発明の一実施態様を説明したが、本発明に係る思想がこれに限られないことは言うまでもない。以下、本発明に係る思想として含まれる各種変形例について説明する。
(1)上記実施の形態においては、おすすめ情報として、ウェブページのアドレスそのものを提示する例を説明したが、これはその限りではない。
ウェブページに関連する情報であれば、実施の形態におけるおすすめ情報はどのような情報であってもよい。
提示部139は、例えば、ウェブページに記載されているウェブページを運営する運営者に関する情報をプロフィールから取得し、当該運営者をおすすめ情報として提示することとしてもよい。ウェブページが例えばSNSサイトなどであれば、このような場合には、ユーザと運営者との間の交流の切っ掛けを作ることができる。
あるいは、提示部139は、例えば、ウェブページに登録されているアフィリエイトをおすすめ情報として提示してもよい。あるいは、提示部139は、当該アフィリエイトに基づいて作成された、ユーザに商品やサービスの購入を勧める情報をおすすめ情報として提示してもよい。すなわち、ウェブページには、商品広告としてのアフィリエイトが掲載されていることがあるところ、データ分析システム100は、ウェブページの情報として含まれるアフィリエイトに関する情報を取得して、おすすめ情報として提示する。ユーザが興味を示すウェブページには、ユーザの好みの商品を紹介するアフィリエイトが含まれる可能性が高いため、データ分析システム100は、これを提示することにより、ユーザに商品を購入させる意欲を喚起することができる。
(2)上記実施の形態においては、未分類データ評価部138は、データ要素ベクトルと各データ要素の重みの内積をとることで、ウェブページのスコアを算出することとしたが、当該算出方法は一例に過ぎない。未分類データ評価部138は、その他の算出方法を用いてウェブページのスコアを算出することとしてもよい。例えば、未分類データ評価部138は、上記式(2)に換えて、以下の式(3)を用いて、ウェブページのスコアSを算出してもよい。
ここで、mjは、j番目のキーワードの出現頻度を表し、wiは、i番目のキーワードの重みを表す。
(3)上記実施の形態においては、詳細に説明していないが、未分類データ評価部138は、データ要素間の共起に基づくスコアを算出することとしてもよい。その手法の詳細をここに説明する。
例えば、評価対象のウェブページにおいて、データ要素として、第1キーワードと第2キーワードとが出現するとする。このとき、未分類データ評価部138は、第1キーワードがウェブページにおいて出現する際に、当該ウェブページにおいて、第2キーワードが出現する頻度(第1キーワードと第2キーワードとの間の相関。共起ともいう)を考慮したスコアリングを実行してもよい。
この場合、未分類データ評価部138は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、上記式(2)に換えて、以下の式(4)にしたがってスコアを算出することとしてもよい。
なお、上記相関行列Cは、所定のテキストを所定数だけ含む学習用データを用いて、予め最適化されているものとする。例えば、あるテキストにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(最尤推定値ともいう)が、上記相関行列Cの要素に格納される。
式(4)を用いることにより、キーワード間の相関関係を考慮したスコアを算出できるため、より高い精度でユーザが興味を示す可能性が高いウェブページを推測することができる。
(4)上記実施の形態においては、詳細に説明していないが、未分類データ評価部138は、ウェブページに含まれる部分データ(例えば、センテンス、段落、所定の長さで分割した部分音声、所定数のフレームを含む部分動画など)ごとにスコアを算出し、そのスコアに基づいてウェブページのスコアを算出することとしてもよい。その手法の詳細をここに説明する。
未分類データ評価部138は、部分データごとに所定のデータ要素(例えば、キーワード)が含まれるか否かを示すベクトルを、当該部分データごとに生成する。そして、未分類データ評価部138は、下記式(5)にしたがってウェブページのスコアリングを実行する。
ここで、sは、i番目の部分データに対応するベクトルである。なお、式(5)においては、共起も考慮した数式(共起行列Cを用いている)であることに注意されたい。
上記式(5)におけるTFnormは、以下の式(6)のように算出することができる。
ここで、上記式(6)において、TFは、i番目のデータ要素(キーワード)の出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
上記式(5)、(6)を統合すると、未分類データ評価部138は、以下の式(7)を計算することにより、部分データスコアベースで、ウェブページごとにスコアを算出することができる。
上記式(7)において、wは、重みベクトルwのi番目の要素である。
以上のように、データ分析システム100は、データの一部に含まれる意味(例えば、センテンスの文意)を反映したスコアリングを実行できるので、より高い精度でユーザが興味があると推測されるウェブページをおすすめ情報として提示することができる。
(5)上記実施の形態においては、閾値を用いて、ユーザに対するおすすめ情報を提示するウェブページを選定していた。しかし、ウェブページを選定する手法はこれに限るものではない。その他の手法を用いてもよいことは言うまでもない。
例えば、ユーザがアクセスしていない所定数のウェブページ各々について、スコアリングを行ったのちに、当該所定数のうち、上位の一定割合のウェブページをおすすめ情報として提示することとしてもよい。
あるいは、上位の所定数のウェブページをおすすめ情報として提示することとしてもよい。
また、あるいは、スコアリングした全てのウェブページを上位から降順に並べて、おすすめ情報として提示することとしてもよい。
(6)上記実施の形態においては、ユーザがアクセスしたウェブページであって、コメントを書き込んだウェブページを、ユーザの興味を引く内容を含むウェブページの基準とし、ユーザがアクセスしていないウェブページの中からユーザにとって興味があると推測されるウェブページに関連する情報をおすすめ情報として提示する例を説明した。
しかし、本発明に係るデータ分析システムの実施態様はこれに限られるものではない。
ユーザにとって、おすすめできないウェブページ(例えば、記載されている記事が悪質と思われる内容が掲載されているウェブページ)を提示することもできる。以下、その手法について説明する。
なお、本変形例においては、実施の形態と異なる内容についてのみ説明するものとし、実施の形態と共通する内容については、説明を割愛する。
図5は、本変形例における分類情報を関連付けるための手法を説明するための図である。
本変形例においては、図5に示すように、ユーザがウェブページ500aや500bを閲覧し、その記載内容について、悪質であるか否かを判断し、分類情報を対応付ける。すなわち、上記実施の形態においては、データ分類部134が自動的にコメントを付記したか否かに応じて、分類情報を対応付けていたのに対し、本変形例においては、ユーザが分類情報を対応付ける点が異なる。本変形例では、分類情報は、「悪質である」、「悪質でない」を示す2種類の情報になる。
また、提示部139は、上記実施の形態においては、おすすめ情報を提示していたのに対し、ユーザにとって、閲覧するに相応しくない悪質なウェブページを提示する。すなわち、ユーザにとって、あまりおすすめできないウェブページを提示する。
データ分類部134と提示部139とにおける処理が若干異なる以外は、上記実施の形態と同様である。
本変形例に示すデータ分析システム100は、ユーザにとっておすすめできない情報も提示することができることを示している。
(7)上記実施の形態においては、特に記載していないが、要素評価部の評価対象として、ウェブページ上の記事において、ユーザ(ウェブページの記事を記載したユーザ、コメントを付記したユーザなど)の感情を対象としてもよい。具体的には、ウェブページ上でいわゆる感情を表す単語(形容詞、形容動詞)に重きをおいた評価を実行してもよい。
すなわち、分類情報として、肯定的な印象のウェブページと、否定的な印象のウェブページとに分類する。肯定的な印象のウェブページとは、例えば、「楽しい」、「面白い」、「好き」、「良い」、…というようないわゆる一般的に肯定的な文言であって、記載主の感情を表現する文言が多く用いられているウェブページのことである。否定的な印象のウェブページとは、例えば、「つまらない」、「嫌い」、「悪い」、…というようないわゆる一般的に否定的な文言であって、記載主の感情を表現する文言が多く用いられている。
したがって、評価対象のデータ要素の一例として感情表現を表すキーワードを用いることとしてもよい。この場合には、キーワードとして、予め、形容詞や形容動詞を指定しておくとよい。
当該評価方法についての一具体例を説明する。
まず、データ分析システム100の未分類データ評価部138は、ウェブページに含まれるデータ要素(ユーザの感情表現を含むデータ要素、例えば、「楽しい」、「悲しい」などの形態素)に対する感情評価を対応付けて記憶する。例えば、ウェブページに含まれるテキストについて、予め定められたキーワード(当該キーワードは、テキストの場合では、感情に関する文言)が当該テキストに含まれるか否かを探索する。含まれていた場合に、当該キーワードを所定の基準に従って算出した感情スコアを当該キーワードに対応付けて記憶部140に記憶しておく。
そして、未分類データ評価部138は、ユーザがアクセスしていないウェブページから、予め定められた感情に係るキーワードを抽出する。そして、抽出したキーワードに対して、記憶部140において対応付けられている感情スコアを参照する。未分類データ評価部138は、ウェブページから抽出されたキーワード各々の漢書スコアを統合して、ウェブページの感情スコアとする。
例えば、テキストに、「この映画は面白かった。もう一度見たい。」という文章が含まれていたとする。そして、キーワードとして、予め、「面白い」「見たい」が記憶部140に格納され、それぞれ、「+1.4」、「+0.9」という感情スコアが対応付けられているとする。この場合、未分類データ評価部138は、当該テキストに対する感情スコアとしては、例えば、両者を加算して、「+2.3」という感情スコアを算出する。
提示部139は、このようにして算出された感情スコアを、おすすめ情報を提示するための基準に用いることとしてもよい。例えば、算出された感情スコアのうち、一定値以上の感情スコアを有するウェブページに関する情報をおすすめ情報として提示してもよい。
なお、データ分析システム100は、上記構成を実現するために、未分類データ評価部138に換って、キーワードに対する感情スコアを格納する感情格納部、ユーザがアクセスしていないウェブページからデータ要素を抽出し、そのデータ要素として感情に係るキーワードを抽出する感情抽出部を備えてもよい。
(8)上記実施の形態においては、評価の単位をウェブページ単位としたが、これはその限りではない。評価の単位は、それ以外であってもよく、例えば、ウェブページの各記事に対する評価であってもよいし、あるいは、ウェブページに寄せられたコメント一つ一つに対する評価であってもよい。あるいは、コメントを付記したユーザに対する評価であってもよい。
(9)上記実施の形態においては、分類対象となるデータ群として、ウェブページ情報を用いたが、これはその限りではない。分類対象となるデータ群としては、例えば、メールデータ群や、医療カルテデータ群、訴訟関連データ群などであってもよい。
本実施の形態に係るデータ分析システム100は、メールデータの場合であれば、ユーザにとって重要性の高いメールとそうでないメールの分類に用いたり、医療カルテデータであれば、緊急の治療を要する患者の検出に用いたり、訴訟関連データであれば、訴訟として必要なデータの割り出しに用いたりすることができる。
(10)上記実施の形態においては、文書情報(テキスト)を分析する例を説明したが、上述したように、音声や画像、映像に対する分析を行ってもよい。
例えば、音声の場合であれば、音声そのものを分析の対象としてもよいし、音声認識により音声を文書に変換したうえでの分析を実行してもよい。
音声そのものを分析する場合には、音声を所定の長さの部分音声に分割して、部分音声を分析の対象とする。例えば、「この映画が面白い」という音声が得られた場合、データ分析システム100は、「映画」および「面白い」という部分音声を当該音声から抽出し、当該部分音声を評価した結果に基づいて、未分類の音声と分類情報との関連性を評価することができる。このような場合、データ分析システム100は、時系列データの分類アルゴリズム(例えば、マルコフモデル、カルマンフィルタなど)を利用して音声を分類できる。
音声をテキストに変換する場合には、上記実施の形態に示した場合と同様に分類すればよい。音声のテキストへの変換には、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いればよい。
あるいは、データ分析システム100は、動画を分析することもできる。この場合にはデータ分析システム100は、動画に含まれるフレーム画像を抽出し、任意のパターンマッチングにより、動画のフレーム内に、あらかじめ定められたデータ要素としての画像(事物や人物など)が含まれるか否かにより、動画を解析し、分類情報との関連性を評価することとしてもよい。
(11)データ分析システム100(情報処理装置)の各機能部は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよい。データ分析システム100の各機能部は、1又は複数の集積回路により実現されても良いし、複数の機能部が1の集積回路により実現されてもよい。
あるいは、データ分析システム100の各機能部により実現される機能は、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。この場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するCPU、上記ゲームプログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記データ分析プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該ゲームプログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記データ分析プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ分析プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバとを含む分散型のデータ分析システムも、本発明の範疇に入る。
(12)本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップ等に含まれる機能等は再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
(12)上記実施の形態および各種変形例に示す構成を適宜組み合わせることとしてもよい。
<補足>
ここに本発明に係るデータ分析システムの一実施態様とその効果について述べる。
(a)本発明に係るデータ分析システムは、ウェブページの分類を示す分類情報を取得する分類情報取得部(133)と、ネットワーク上の複数のウェブページをデータ群として収集する収集部(131)と、前記データ群に含まれる複数のウェブページのうちの一部のウェブページである複数の分類データ各々に前記分類情報を対応付けることにより当該複数の分類データ各々を分類するデータ分類部(134)と、前記データ群に含まれる複数のウェブページのうちの前記分類データとは異なる一部の未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に応じて評価するデータ評価部(138)と、前記データ評価部による評価に基づいて、ユーザに推薦情報を提示する提示部(139)とを備える。
また、本発明に係るデータ分析方法は、ウェブページの分類を示す分類情報を取得する分類情報取得ステップ(ステップS302)と、ネットワーク上の複数のウェブページをデータ群として収集する収集ステップ(ステップS301)と、前記データ群に含まれる複数のウェブページのうちの一部のウェブページである複数の分類データ各々に前記分類情報を対応付けることにより当該複数の分類データ各々を分類するデータ分類ステップ(ステップS303)と、前記データ群に含まれる複数のウェブページのうちの前記分類データとは異なる一部のウェブページである未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に応じて評価するデータ評価ステップ(ステップS404)と、前記データ評価ステップにおける評価に基づいて、ユーザに推薦情報を提示する提示ステップ(ステップS406)とを含む情報処理装置が実行するデータ分析方法である。
また、本発明に係るデータ分析プログラムは、コンピュータにデータを分析するデータ分析処理を実行させるためのデータ分析プログラムであって、前記データ分析処理は、ウェブページの分類を示す分類情報を取得する分類情報取得ステップと、ネットワーク上の複数のウェブページをデータ群として収集する収集ステップと、前記データ群に含まれる複数のウェブページのうちの一部のウェブページである複数の分類データ各々に前記分類情報を対応付けることにより当該複数の分類データ各々を分類するデータ分類ステップと、前記データ群に含まれる複数のウェブページのうちの前記分類データとは異なる一部のウェブページである未分類データと前記分類情報との関連性を、前記データ分類部による分類結果に応じて評価するデータ評価ステップと、前記データ評価ステップにおける評価に基づいて、ユーザに推薦情報を提示する提示ステップとを含む。
これにより、データ分析システムは、ユーザに対して推薦可能なウェブページに係る情報を提示することができる。
(b)上記(a)に係るデータ分析システムにおいて、さらに、前記分類情報が対応付けられた前記複数の分類データ各々からデータ要素を抽出する要素抽出部と、前記要素抽出部により抽出されたデータ要素を所定の基準に従って評価する要素評価部とを備え、前記データ評価部は、前記分類結果として前記要素評価部により評価されたデータ要素と当該データ要素を含む分類データに対応付けられた分類情報とを用いて、前記関連性を評価することとしてもよい。
これにより、分類データに含まるデータ要素に対する評価を用いて、未分類データに含まれるデータ要素を評価して、未分類データを評価することができる。
(c)上記(b)に係るデータ分析システムにおいて、前記要素評価部は、前記データ要素と当該データ要素を含む分類データに対応付けられた分類情報との依存関係を示す伝達情報量を、前記所定の基準として用いることにより、前記データ要素を評価することとしてもよい。
これにより、データ分析システムは、いわゆる伝達情報量を評価値として用いることができる。
(d)上記(b)または(c)に係るデータ分析システムにおいて、さらに、前記要素評価部による評価結果を所定の記憶装置に格納する評価格納部を備えることとしてもよい。
これによりデータ分析システムは、評価値を蓄積しておくことにより、未分類データの評価を実行することができる。
(e)上記(a)〜(d)のいずれかに係るデータ分析システムにおいて、前記分類情報は、ウェブページに対して、ユーザが情報を書き込んでいるか否かを示す情報であることとしてもよい。
これにより、データ分析システムは、ユーザがウェブページに対して興味があったか否かを、情報を書き込んだか否か、すなわち、コメントを付記したか否かに応じて判断することができる。
(f)上記(a)〜(e)のいずれかに係るデータ分析システムにおいて、前記分類情報は、前記ユーザが情報を書き込んだウェブページが、当該ユーザが興味があるウェブページであると分類することを示す情報であり、前記推薦情報は、前記未分類データのうち前記ユーザにとって興味があると推測されるウェブページに関する情報であることとしてもよい。
これにより、データ分析システムは、ユーザにとって興味あると推測されるウェブページを推薦情報として提示することができる。
(g)上記(a)〜(f)のいずれかに係るデータ分析システムにおいて、前記ウェブページは、商品の購入を勧める広告情報を含み、前記推薦情報は、前記広告情報であることとしてもよい。
これにより、データ分析システムは、ユーザに対する推薦情報として、ウェブページに含まれていた広告情報を提示することができるので、例えば、当該広告に含まれる商品の購入意欲をユーザに喚起することができる。
(h)上記(a)〜(g)のいずれかに係るデータ分析システムにおいて、前記分類情報は、ウェブページが悪質な情報を含むか否かの分類を示す情報であり、さらに、ユーザからの入力に応じて、ウェブページが悪質であるか否かを判断する判断情報を取得する判断情報取得部を備え、前記データ分類部は、前記判断情報に基づいて前記分類データを分類し、前記推薦情報は、未分類データのうちの悪質と推定されるウェブページに係る情報であることとしてもよい。
これにより、データ分析システムは、推薦情報として、悪質なウェブページを提示することができるので、ユーザは、例えば、当該推薦情報を確認して当該ウェブページにアクセスしないようにすることができる。
(i)上記(a)〜(h)のいずれかに係るデータ分析システムにおいて、前記未分類データは、事象に対するユーザの評価を少なくとも含むデータであり、前記未分類データを生成したユーザの感情であって、前記評価に基づいて生じた前記事象に対する感情を、当該未分類データから抽出する感情抽出部と、前記提示部は、前記感情抽出部による抽出結果にさらに応じて、前記推薦情報を提示することとしてもよい。
これにより、データ分析システムは、ウェブページに含まれる感情表現に基づいて、推薦情報を提示することができる。
(j)上記(i)に係るデータ分析システムにおいて、データに含まれるデータ要素と当該データ要素に対する感情評価とを対応付けて、所定の記憶装置に格納する感情格納部をさらに備え、前記感情抽出部は、前記データ要素に対応付けられた前記感情評価を用いて前記未分類データを評価することによって、前記感情を当該未分類データから抽出することとしてもよい。
これにより、データ分析システムは、ウェブページに含まれるデータ要素の感情評価を算出することができる。
本発明に係るデータ分析システムは、訓練データから抽出されたパターンが未知データに含まれるか否かを分析することによって、当該未知データと所定の事案との関連性を評価するデータ分析システムであって、ネットワークにおけるユーザのアクティビティに応じてウェブページを分類することによって、前記訓練データを取得する訓練データ取得部と、前記訓練データに含まれるデータ要素を所定の基準に基づいて評価することによって、前記パターンを抽出するパターン抽出部と、前記抽出されたパターンに基づいて前記関連性を評価することによって、前記未知データとしてウェブページに含まれる情報に対して、前記ユーザが有する興味の度合いを評価する未知データ評価部と、前記評価された結果に応じて、前記ウェブページに含まれる情報を前記ユーザに提示する提示部とを備えることととしてもよい。
本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。
100 データ分析システム
110 通信部
120 入力部
130 制御部
131 収集部
132 データ抽出部
133 分類情報受付部
134 データ分類部
135 要素抽出部
136 要素評価部
137 評価格納部
138 未分類データ評価部(データ評価部)
139 提示部
140 記憶部
150 表示部

Claims (9)

  1. コンピュータがネットワーク上にある多くのウェブページの中から、ユーザが興味を持ち得るウェブページを抽出して、ユーザに当該ウェブページに関連する情報を提示可能なデータ分析システムであって、
    前記コンピュータは、
    ネットワークにおける前記ユーザのアクティビティに応じて、当該ユーザの興味があるウェブページと興味がないウェブページとに分類し、当該分類は、当該ウェブページに分類情報を対応付けるものであり、当該分類情報は、当該ユーザがアクセスしたことがあるウェブページを分類する基準を示す情報であり、
    前記分類情報が対応付けられたウェブページからデータ要素を抽出し、当該データ要素は、当該ウェブページの少なくとも一部を構成するものであり、
    前記抽出されたデータ要素を評価し、当該評価は、前記ユーザが興味を示したウェブページに含まれるデータ要素を、興味を示さなかったウェブページに含まれるデータ要素より高い重みを設定するものであり、
    前記抽出されたデータ要素と当該データ要素の評価値とを対応付けて記憶部に格納し、
    前記ネットワーク上の複数のウェブページをデータ群として収集し、当該複数のウェブページは、前記ユーザがアクセスしたことがないウェブページに関する情報をそれぞれ含み、
    前記収集されたデータ群に含まれる複数のウェブページからデータ要素をそれぞれ抽出し、
    前記抽出されたデータ要素が前記記憶部に格納されていた場合、当該データ要素の評価値を統合することによって、前記収集されたデータ群に含まれる複数のウェブページが、前記ユーザにとって興味があるか否かをそれぞれ評価し、当該評価は、当該ウェブページのスコアを算出するものであり、
    前記ユーザが興味を示したウェブページに対して算出されたスコアが、興味を示さなかったウェブページに対して算出されたスコアよりも高くなるまで、前記データ要素を再評価することによって、当該データ要素の重みを算出し直し、
    前記ユーザにとって興味があると評価されたウェブページに関連する推薦情報を、前記ユーザに提示する
    データ分析システム。
  2. 前記コンピュータは、
    前記ネットワークにおける前記ユーザのアクティビティとして、前記ウェブページに情報を書き込んだか否かを用いて、前記ユーザの興味があるウェブページと興味がないウェブページとを分類する、
    請求項1記載のデータ分析システム。
  3. 前記データ要素は、前記ウェブページに対するユーザの書き込み情報を含む、
    請求項1又は2記載のデータ分析システム。
  4. 前記書き込み情報は、前記ユーザの感情表現を含む、
    請求項記載のデータ分析システム。
  5. 前記コンピュータが、前記データ要素の重みの算出をし直す際、前記感情表現として肯定的表現を含むウェブページに対して算出されたスコアが、前記分類情報が対応付けられたウェブページの中で上位になるようにする、
    請求項記載のデータ分析システム。
  6. 前記ウェブページは、商品の購入を勧める広告情報を含み、
    前記推薦情報は、当該広告情報である
    請求項1乃至5の何れか一項に記載のデータ分析システム。
  7. コンピュータがネットワーク上にある多くのウェブページの中から、ユーザが興味を持ち得るウェブページを抽出して、ユーザに当該ウェブページに関連する情報を提示可能なデータ分析方法であって、
    前記コンピュータは、
    ネットワークにおける前記ユーザのアクティビティに応じて、当該ユーザの興味があるウェブページと興味がないウェブページとに分類するステップと、当該分類は、当該ウェブページに分類情報を対応付けるものであり、当該分類情報は、当該ユーザがアクセスしたことがあるウェブページを分類する基準を示す情報であり、
    前記分類情報が対応付けられたウェブページからデータ要素を抽出するステップと、当該データ要素は、当該ウェブページの少なくとも一部を構成するものであり、
    前記抽出されたデータ要素を評価するステップと、当該評価は、前記ユーザが興味を示したウェブページに含まれるデータ要素を、興味を示さなかったウェブページに含まれるデータ要素より高い重みを設定するものであり、
    前記抽出されたデータ要素と当該データ要素の評価値とを対応付けて記憶部に格納するステップと、
    前記ネットワーク上の複数のウェブページをデータ群として収集するステップと、当該複数のウェブページは、前記ユーザがアクセスしたことがないウェブページに関する情報をそれぞれ含み、
    前記収集されたデータ群に含まれる複数のウェブページからデータ要素をそれぞれ抽出するステップと、
    前記抽出されたデータ要素が前記記憶部に格納されていた場合、当該データ要素の評価値を統合することによって、前記収集されたデータ群に含まれる複数のウェブページが、前記ユーザにとって興味があるか否かをそれぞれ評価するステップと、当該評価は、当該ウェブページのスコアを算出するものであり、
    前記ユーザが興味を示したウェブページに対して算出されたスコアが、興味を示さなかったウェブページに対して算出されたスコアよりも高くなるまで、前記データ要素を再評価することによって、当該データ要素の重みを算出し直すステップと、
    前記ユーザにとって興味があると評価されたウェブページに関連する推薦情報を、前記ユーザに提示するステップと、
    を実行するデータ分析方法。
  8. コンピュータに、ネットワーク上にある多くのウェブページの中から、ユーザが興味を持ち得るウェブページを抽出して、ユーザに当該ウェブページに関連する情報を提示可能にするプログラムであって、
    ネットワークにおける前記ユーザのアクティビティに応じて、当該ユーザの興味があるウェブページと興味がないウェブページとに分類する機能と、当該分類は、当該ウェブページに分類情報を対応付けるものであり、当該分類情報は、当該ユーザがアクセスしたことがあるウェブページを分類する基準を示す情報であり、
    前記分類情報が対応付けられたウェブページからデータ要素を抽出する機能と、当該データ要素は、当該ウェブページの少なくとも一部を構成するものであり、
    前記抽出されたデータ要素を評価する機能と、当該評価は、前記ユーザが興味を示したウェブページに含まれるデータ要素を、興味を示さなかったウェブページに含まれるデータ要素より高い重みを設定するものであり、
    前記抽出されたデータ要素と当該データ要素の評価値とを対応付けて記憶部に格納する機能と、
    前記ネットワーク上の複数のウェブページをデータ群として収集する機能と、当該複数のウェブページは、前記ユーザがアクセスしたことがないウェブページに関する情報をそれぞれ含み、
    前記収集されたデータ群に含まれる複数のウェブページからデータ要素をそれぞれ抽出する機能と、
    前記抽出されたデータ要素が前記記憶部に格納されていた場合、当該データ要素の評価値を統合することによって、前記収集されたデータ群に含まれる複数のウェブページが、前記ユーザにとって興味があるか否かをそれぞれ評価する機能と、当該評価は、当該ウェブページのスコアを算出するものであり、
    前記ユーザが興味を示したウェブページに対して算出されたスコアが、興味を示さなかったウェブページに対して算出されたスコアよりも高くなるまで、前記データ要素を再評価することによって、当該データ要素の重みを算出し直す機能と、
    前記ユーザにとって興味があると評価されたウェブページに関連する推薦情報を、前記ユーザに提示する機能と、
    をコンピュータに実現させるためのプログラム。
  9. 請求項8に記載のプログラムを記録したコンピュータ読取可能記録媒体。
JP2015558255A 2014-12-26 2014-12-26 データ分析システム、データ分析方法、およびデータ分析プログラム Expired - Fee Related JP5942052B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/084713 WO2016103519A1 (ja) 2014-12-26 2014-12-26 データ分析システム、データ分析方法、およびデータ分析プログラム

Publications (2)

Publication Number Publication Date
JP5942052B1 true JP5942052B1 (ja) 2016-06-29
JPWO2016103519A1 JPWO2016103519A1 (ja) 2017-04-27

Family

ID=56149601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015558255A Expired - Fee Related JP5942052B1 (ja) 2014-12-26 2014-12-26 データ分析システム、データ分析方法、およびデータ分析プログラム

Country Status (4)

Country Link
US (1) US20180129738A1 (ja)
EP (1) EP3089049A4 (ja)
JP (1) JP5942052B1 (ja)
WO (1) WO2016103519A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018181008A (ja) * 2017-04-14 2018-11-15 株式会社Nttドコモ サーバ装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202124B (zh) * 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
CN109669850A (zh) * 2018-12-21 2019-04-23 云南电网有限责任公司电力科学研究院 一种终端设备的运行状态评估方法
KR20210143464A (ko) * 2020-05-20 2021-11-29 삼성에스디에스 주식회사 데이터 분석 장치 및 그것의 데이터 분석 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012059183A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体
JP2013008095A (ja) * 2011-06-22 2013-01-10 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
JP2013235507A (ja) * 2012-05-10 2013-11-21 Mynd Inc 情報処理方法、装置、コンピュータプログラムならびに記録媒体
JP5603468B1 (ja) * 2013-07-31 2014-10-08 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1484693A1 (en) * 2003-06-04 2004-12-08 Sony NetServices GmbH Content recommendation device with an arrangement engine
US7529748B2 (en) * 2005-11-15 2009-05-05 Ji-Rong Wen Information classification paradigm
ITMI20062436A1 (it) * 2006-12-19 2008-06-20 Revamping S R L Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti
US20110029515A1 (en) * 2009-07-31 2011-02-03 Scholz Martin B Method and system for providing website content
JP5574952B2 (ja) 2010-12-28 2014-08-20 Kddi株式会社 レコメンドシステム、レコメンド方法、およびレコメンドプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012059183A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> コンテンツ推薦装置,コンテンツ推薦プログラムおよびその記録媒体
JP2013008095A (ja) * 2011-06-22 2013-01-10 Rakuten Inc 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムが記録された記録媒体
JP2013235507A (ja) * 2012-05-10 2013-11-21 Mynd Inc 情報処理方法、装置、コンピュータプログラムならびに記録媒体
JP5603468B1 (ja) * 2013-07-31 2014-10-08 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018181008A (ja) * 2017-04-14 2018-11-15 株式会社Nttドコモ サーバ装置

Also Published As

Publication number Publication date
EP3089049A4 (en) 2017-10-04
EP3089049A1 (en) 2016-11-02
JPWO2016103519A1 (ja) 2017-04-27
US20180129738A1 (en) 2018-05-10
WO2016103519A1 (ja) 2016-06-30

Similar Documents

Publication Publication Date Title
Rangel Pardo et al. Overview of the 3rd Author Profiling Task at PAN 2015
US8311997B1 (en) Generating targeted paid search campaigns
US8521818B2 (en) Methods and apparatus for recognizing and acting upon user intentions expressed in on-line conversations and similar environments
CN109690529B (zh) 按事件将文档编译到时间线中
JP4148522B2 (ja) 表現検出システム、表現検出方法、及びプログラム
US20180366013A1 (en) System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter
US8412650B2 (en) Device and method and program of text analysis based on change points of time-series signals
JP6301966B2 (ja) データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体
JP6381775B2 (ja) 情報処理システム及び情報処理方法
US9015168B2 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
Xu et al. The easier the better? Comparing the readability and engagement of online pro-and anti-vaccination articles
Serigos Using distributional semantics in loanword research: A concept-based approach to quantifying semantic specificity of Anglicisms in Spanish
US20110145250A1 (en) Method and system for automatically identifying related content to an electronic text
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Keating et al. Titling practices and their implications in communication research 1970-2010: Cutesy cues carry citation consequences
CN112732974A (zh) 一种数据处理方法、电子设备及存储介质
JP6486165B2 (ja) 候補キーワード評価装置及び候補キーワード評価プログラム
JP5905652B1 (ja) データ評価システム、データ評価方法、およびデータ評価プログラム
US20170316807A1 (en) Systems and methods for creating whiteboard animation videos
JP6373243B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2019046289A (ja) 評価装置、評価方法、ノイズ除去装置、およびプログラム
US11232325B2 (en) Data analysis system, method for controlling data analysis system, and recording medium
Kim et al. Developing information quality assessment framework of presentation slides
JP6043460B2 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Mohd et al. Evaluation of an interactive topic detection and tracking interface

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160517

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160523

R150 Certificate of patent or registration of utility model

Ref document number: 5942052

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees