JP6490989B2

JP6490989B2 - データ分析システム、データ分析方法、およびデータ分析プログラム

Info

Publication number: JP6490989B2
Application number: JP2015039275A
Authority: JP
Inventors: 秀樹武田; 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2015-02-27
Filing date: 2015-02-27
Publication date: 2019-03-27
Anticipated expiration: 2035-02-27
Also published as: JP2016162114A

Description

本発明は、データを分析するデータ分析システムに関する。

従来、いわゆるデータマイニングにおいては、データ中に含まれるデータ要素の重みを算出し、その重みに基づいてデータを評価する。また、その際に、データ要素と他のデータ要素との関連性も考慮した上で、データを評価すべく、データ要素に対して算出された重みに対して、他のデータ要素に対して算出された重みを加味した上で、データを評価する手法もある（例えば、特許文献１）。

特開２０１５−０１８２９０号公報

しかしながら、上記特許文献１に記載の手法では、データを評価するにあたって、データ要素とデータ要素との間の関連性を考慮して評価するため、その計算量が大きくなりデータ分析システムの負荷が大きくなる場合があるという問題がある。

そこで、本発明においては、上記問題に鑑みて、従来とは異なる手法を用いて、データ要素間の関連性を考慮した上でデータを評価するデータ分析システムを提供することを目的とする。

上記課題を解決するために、本発明の一実施態様に係るデータ分析システムは、データを取得する取得部と、前記取得したデータから複数のデータ要素を抽出する抽出部と、前記複数のデータ要素各々に重み付け値を算出する第１重み付け部と、前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付け部と、前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶する記憶部とを備える。

また、本発明の一実施態様に係るデータ分析方法は、コンピュータが実行するデータ分析方法であって、データを取得する取得ステップと、前記取得したデータから複数のデータ要素を抽出する抽出ステップと、前記複数のデータ要素各々に重み付け値を算出する第１重み付けステップと、前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付けステップと、前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶部に記憶する記憶ステップとを含む。

また、本発明の一実施態様に係るデータ分析プログラムは、コンピュータに、データを取得する取得機能と、前記取得したデータから複数のデータ要素を抽出する抽出機能と、前記複数のデータ要素各々に重み付け値を算出する第１重み付け機能と、前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付け機能と、前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶部に記憶する記憶機能とを実現させる。

また、前記第２重み付け部は、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値に対して、前記第１重み付け部により前記第２データ要素に対して算出された重み付け値に所定の係数を乗じた値を加算して、前記第１データ要素に対して算出された重み付け値を更新することとしてもよい。
また、前記所定の係数は、前記データに含まれるデータ要素の個数の逆数であることとしてもよい。
また、前記所定の係数は、前記第１データ要素と前記第２データ要素との間の距離に応じた係数であることとしてもよい。

また、前記第２重み付け部は、前記第１データ要素と前記第２データ要素が所定範囲内に存在する場合にのみ、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値と前記第１重み付け部により前記第２データ要素に対して算出された重み付け値を用いて、前記第１データ要素の前記重み付け値を更新することとしてもよい。

また、前記第２重み付け部は、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値が前記第１重み付け部により前記第２データ要素に対して算出された重み付け値よりも大きい場合にのみ、前記第２データ要素に対して算出された重み付け値を用いて、前記第１データ要素の前記重み付け値を更新することとしてもよい。

また、前記第２重み付け部は、前記第１データ要素に対する重み付け値を、前記データ中において、所定範囲内に含まれる複数のデータ要素各々の重み付け値の畳み込み積分により算出することとしてもよい。

また、前記取得部は、前記データとは異なるデータを取得し、前記データ分析システムは、さらに、前記異なるデータを、当該異なるデータに含まれるデータ要素を抽出し、前記記憶部において抽出したデータ要素に対応付けられている重み付け値を用いて、評価する評価部を備えることとしてもよい。

本発明の一態様に係るデータ分析システム、データ分析方法、およびデータ分析プログラムは、データを評価するためのデータ要素の重み値を、他のデータ要素との関連性も考慮した上で算出することができる。したがって、データを評価する際には、データ要素間の関連性も考慮に入れた重み値を用いて評価するので、データを評価する際にはデータ要素間の関連性を考慮せずともよく、データ分析システムの処理負荷が軽減される。

実施の形態に係るデータ分析システムの機能構成を示すブロック図である。データ分析のための教師データの作成処理を示すフローチャートである。未知データのスコアを算出する算出処理を示すフローチャートである。

＜実施の形態＞
本発明に係るデータ分析システムの一実施態様について、図面を参照しながら説明する。
＜概要＞

本実施の形態に係るデータ分析システムは、入力されたデータが所定の事案に関連するか否かをデータに含まれるデータ要素に基づいて判断する。そのためにデータ分析システムは、予め、所定の事案に関連するデータと、所定の事案に関連しないデータとを受け付けて、それぞれから、それぞれを構成するデータ要素を抽出し、そのデータ要素の重み値を算出して記憶する。データ分析システムは、算出した重み値を記憶しておく。そして、データ分析システムは、新たな所定の事案に関連するか否かが不明な未分類のデータを受け付けたときに、当該未分類のデータからデータ要素を抽出し、記憶されている当該データ要素の重み値を特定し、データの評価値（スコア、当該データと所定の事案との関連性を定量化した値）を算出する。
以下、データ分析システムの詳細について説明する。

＜構成＞
図１は、データ分析システム１００の機能構成を示すブロック図である。
図１に示すように、データ分析システム１００は、通信部１１０と、入力部１２０と、制御部１３０と、記憶部１４０と、表示部１５０とを含む。

通信部１１０は、ネットワークを介して他の機器にアクセスする機能を有する。また、通信部１１０は、ユーザ端末との通信が確立できる場合に、制御部１３０から伝達されたデータのスコアを、当該ユーザ端末に送信する機能も有する。

入力部１２０は、分類情報として、何を基準として分類するか否かについての情報の入力を受け付ける。また、入力部１２０は、データが所定の事案に関連するか否かを示す情報をユーザから受け付けて制御部１３０に伝達する機能を有する。

制御部１３０は、記憶部１４０に記憶されている各種データを参照しながら、データ分析システム１００の各部を制御する機能を有するプロセッサである。制御部１３０は、データ分析システム１００が有する各種機能を統括的に制御する。

制御部１３０は、収集部１３１と、データ抽出部１３２と、分類情報受付部１３３と、データ分類部１３４と、要素抽出部１３５と、要素評価部１３６と、評価格納部１３７と、未分類データ評価部１３８と、提示部１３９とを含む。

収集部１３１は、通信部１１０を介してネットワーク（例えば、インターネット、イントラネットなど）にアクセスし、当該ネットワーク上のデータを取得して、当該ウェブページ情報を記憶部１４０に記録する機能を有する。ここで、データ分析システム１００が取り扱うデータは、文書データ（例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など、少なくとも一部にテキストを含むデータを主に指すが、画像データ、音声データ、映像データなど、任意のデータを広く含む。

データ抽出部１３２は、記憶部１４０に記憶されているデータから必要に応じたデータを抽出する機能を有する。データ抽出部１３２は、データ要素の重み値を算出するために用いるデータ（以下、分類データと呼称する）をデータ分類部１３４に伝達する。また、データ抽出部１３２は、スコアが算出されていないデータ（以下、未分類データを呼称する）を記憶部１４０から抽出し、未分類データ評価部１３８に伝達する。
分類情報受付部１３３は、所定の事案に対する分類情報を、入力部１２０から受け付ける。

ここで、例えば、所定の事案とは、「訴訟」であったり、「商品の評価」であったり、「ウェブページの記事の印象」等、様々な事象が該当し得る。また、分類情報は、例えば、「訴訟」の場合であれば、「訴訟に関連する」、「訴訟に関連しない」という分類情報を用いることが考えられ、「商品の評価」であれば、「とても良い」、「良い」、「普通」、「悪い」、「とても悪い」という分類情報を用いることが考えられ、「ウェブページの記事の印象」であれば、「好印象」、「普通」、「悪印象」という分類情報を用いることが考えられる。分類の内容、および、分類情報は、ユーザが定めることとする。また、上述の例に示したように分類情報は、２つ以上であれば、いくつあってもよい。

データ分類部１３４は、分類情報受付部１３３において受け付けられた分類情報のうち、データ抽出部１３２から伝達されたデータがいずれに該当するかを、入力部１２０からの入力に基づいて、決定する。データ分類部１３４は、データ抽出部１３２から伝達されたデータにいずれの分類に該当するかを示す分類情報を対応付けることで、データを分類する。データ分類部１３４は、分類情報を対応付けたデータを要素抽出部１３５に伝達する。

要素抽出部１３５は、データ分類部１３４により分類情報が対応付けられたウェブページから、データ要素を抽出する機能を有する。ここで、要素抽出部１３５は、例えば、（１）データが文書データの場合、当該文書データに含まれるキーワード（いわゆる、形態素）、センテンス、段落などをデータ要素として抽出し、（２）データが音声データの場合、当該音声データに含まれる部分音声をデータ要素として抽出し、（３）データが画像データの場合、当該画像データに含まれる部分画像をデータ要素として抽出し、（４）データが映像データの場合、当該映像データに含まれるフレーム画像（または、複数のフレーム画像の組み合わせ）をデータ要素として抽出することができる。

要素抽出部１３５が抽出するデータ要素は、所定の選定基準に従ってデータ分析システム１００により選定される。ここでデータ要素を選定する手法としては、分類情報で示される分類に該当する分類データに頻出するデータ要素を用いるとよい。例えば、データ要素は、分類情報が所定の事案に「関連する」または「関連しない」の２値で管理するとした場合に、所定の事案に関連する分類データから抽出されたキーワードから、所定の事案に関連しない分類データから抽出されたキーワードを除去した残りのキーワードをデータ要素として選定することとしてもよい。また、データ要素は、データ分析システム１００に対してユーザが入力部１２０を用いて指定することとしてもよい。

要素評価部１３６は、要素抽出部１３５が抽出した各データ要素を予め定められた所定の評価基準に従って評価する機能を有する。要素評価部１３６は、所定の評価基準として、データ要素について分類情報との依存関係を示す伝達情報量を用いて評価することができる。例えば、要素抽出部１３５が、ウェブページに含まれる文書情報（テキスト）からデータ要素としてキーワードを抽出した場合に、当該キーワードの重み（weight）値を算出することによって当該キーワードを評価する。
要素評価部１３６は、第１重み付け部１６１と、第２重み付け部１６２とを含む。
第１重み付け部１６１は、各データ要素の重みの初期値を算出する。以下、その手法を説明する。

要素評価部１３６は、要素抽出部１３５が抽出した各データ要素の重みを所定のアルゴリズムに従って算出する。ここでは、話を簡単にするために、分類情報は、所定の事案に「関連する」と「関連しない」の２値で処理を行うものとする。

第１重み付け部１６１は、算出したデータのスコアについて、ユーザが所定の事案に関連すると判断した分類データのスコアが、ユーザが所定の事案に関連しないと判断した分類データのスコアよりも上位に位置するようになるまで、各データ要素の評価値を繰り返し再評価し、その重みを算出しなおすことができる。具体的には、まず、第１重み付け部１６１は、一度算出した重みに基づいて、分類データのスコアを算出する。第１重み付け部１６１は、スコアに従って、分類データを並べる。このとき、データ分析システム１００による評価においては、所定の事案に関連する分類データが上位に、所定の事案に関連しない分類データが下位に並ぶようになっていることが望ましい。そこで、第１重み付け部１６１は、例えば、所定の事案に関連する分類データのスコアが上位に並ぶように、そして、所定の事案に関連しない分類データのスコアがその下位に並ぶようになるまで、当該算出を実行する。
第１重み付け部１６１は、データ要素の重み値ｗｇｔについて、例えば、以下の式（１）を用いて算出する。

ここで、ｗｇｔは、学習前のｉ番目の選定キーワードの重み値の初期値を示す。また、ｗｇｔは、Ｌ回目学習後のｉ番目の選定キーワードの重みを示す。γはＬ回目の学習における学習パラメータを意味し、θは学習効果の閾値を意味する。第１重み付け部１６１は、最終的に参集された重み値を第１重み付け値として、第２重み付け部１６２に伝達する。

第２重み付け部１６２は、第１重み付け部１６１が算出したデータ要素の第１重み付け値を用いて、第２重み付け値を算出する。第２重み付け部１６２は、所定のデータ要素（以下、第１データ要素と呼称する）について、他のデータ要素との関連性も考慮した重み値である第２重み付け値を算出する。
例えば、第２重み付け部１６２は、以下の式（２）を用いて、第２重み付け値ｗ_ｉ ^Ｂを算出することができる。

上記式（２）において、ｗ_ｉは、ｉ番目の第１重み付け値であり、ｗ_ｊは、ｊ番目の第１重み付け値である。また、Ｎ_Ｓは、分類データのｓ番目のセンテンスに含まれるデータ要素の個数を示す。

δ_ｉｊ，Ｓは、ｉ番目のデータ要素と、ｊ番目のデータ要素とが、分類データのｓ番目のセンテンスに共起するか否か（共に出現しているか否か）を示す指標である。当該指標は、ｉ番目のデータ要素とｊ番目のデータ要素とがデータ中（例えば、同一のセンテンス中、同一の段落中など）に共起する場合に、１となり、共起しない場合には、０となる。

Ｃｍｐ（ｗ_ｉ，ｗ_ｊ，ｄ_ｉｊ）は、比較関数（コンパレータ）である。Ｃｍｐ（ｗ_ｉ，ｗ_ｊ，ｄ_ｉｊ）は、ｉ番目のデータ要素の重み値とｊ番目のデータ要素の重み値とを比較し、ｗ_ｉ＞ｗ_ｊである場合に、ｗ_ｊＦ（ｄ_ｉｊ）となり、ｗ_ｉ≦ｗ_ｊである場合に、０となる関数である。Ｆ（ｄ_ｉｊ）は、ｉ番目のデータ要素と、ｊ番目のデータ要素との間の距離に応じた値を示す関数である。当該関数Ｆ（ｄ_ｉｊ）は、データ要素間の距離が大きくなるにつれ、小さくなる関数であることがのぞましく、ここでは、０〜１の間の値をとる。これにより、ただ、共起しているだけで、データ要素とデータ要素とが互いに関連していると評価されることを防止できる。データ要素とデータ要素とが互いに関連性が高いと考えられるのは、互いに近接して出現する場合であると考えられるからである。なお、当該コンパレータは、第２重み付け値の算出にあたって、必須の構成ではない。

上記式（２）によれば、ｉ番目のデータ要素とｊ番目のデータ要素が、所定範囲内（データのセンテンス中）に共起する場合であって、ｉ番目のデータ要素の第１重み付け値が、ｊ番目のデータ要素の第１重み付け値よりも大きい場合に、ｉ番目のデータ要素の第２重み付け値は、ｉ番目のデータ要素の第１重み付け値に、ｊ番目のデータ要素の重み値を所定範囲内に含まれるデータ要素数で除した値を、加算した値になる。

要素評価部１３６は、算出した各データ要素に対応付けてそれぞれの第２重み付け値を評価格納部１３７に伝達する。なお、第２重み付け値は、第１重み付け値と同値になる場合もある。
評価格納部１３７は、要素評価部１３６から伝達された各データ要素とその第２重み付け値を対応付けて記憶部１４０に格納する機能を有する。

未分類データ評価部１３８は、データ抽出部１３２から伝達された未分類データを、記憶部１４０に記憶されているデータ要素の第２重み付け値を用いて、所定の事案に関連するか否かを評価する機能を有する。

具体的には、未分類データ評価部１３８は、データ抽出部１３２から未分類データに含まれるデータ要素を特定する。そして、当該データ要素の評価値を、記憶部１４０に格納されている各データ要素の第２重み付け値を参照して特定する。そして、未分類データ評価部１３８は、未分類データに含まれるデータ要素各々の第２重み付け値を統合して、予め定められた範囲内の値（例えば、０〜１００００の間）をとるように、スケーリングして当該未分類データのスコアとして算出する。

より具体的には、例えば、未分類データ評価部１３８は、未分類データから抽出されたデータ要素についてのデータ要素ベクトルを生成する。データ要素ベクトルは、記憶部１４０に評価付けされているデータ要素が未分類データに含まれるか否かに基づくベクトル（bag of words）である。

未分類データ評価部１３８は、記憶部１４０に未分類データに第２重み付け値が対応付けられているデータ要素が含まれている場合に、データ要素ベクトルの対応するベクトル値を「０」から「１」に変更する。そして、こうして未分類データから抽出されたデータ要素に基づいて、その未分類データについてのデータ要素ベクトルを生成する。未分類データ評価部１３８は、生成したデータ要素ベクトルと、各データ要素の評価値（重み）との内積を計算することにより、未分類データのスコアＳを算出する（下記式（３）参照）。

ここで、ｓはキーワードベクトルを表し、ｗは重みベクトルを表す。なお、Ｔは転置を意味する。なお、未分類データ評価部１３８は、上記のように、未分類データごとに１つのスコアを算出することもできるし、未分類データを所定の区切り（例えば、センテンス、段落、所定の長さで分割された部分音声、所定数のフレームを含む部分動画など）で分けた単位ごとに１つのスコアを算出することもできる（詳細については後述する）。

提示部１３９は、未分類データ評価部１３８により算出された未分類データのスコアを提示する機能を有する。なお、提示部１３９は、未分類データのスコアに関する情報をユーザに提示すると記載したが、これは一例であり、その他にも例えば、スコアの高いものから降順でウェブページを提示することとしてもよいし、所定のスコア以上の未分類データを提示することとしてもよい。提示部１３９は、必要に応じて、未分類データとそのスコアを含む提示情報を、通信部１１０または表示部１５０に伝達する。例えば、提示部１３９は、通信部１１０がユーザの通信端末と通信可能に接続されている場合には、提示情報を通信部１１０に伝達し、それ以外の場合には表示部１５０に伝達する。

記憶部１４０は、データ分析システム１００が、データ分析のために用いるために必要とするプログラムおよび各種データを記憶する機能を有する記録媒体である。記憶部１４０は、例えば、ＨＤＤ（Hard Disc Drive）、ＳＳＤ（Solid State Drive）、半導体メモリ、フラッシュメモリなどにより実現される。なお、図１では、データ分析システム１００が記憶部１４０を備える構成を示しているが、記憶部１４０は、データ分析システム１００外部のものであって、データ分析システム１００と通信可能に接続された記憶装置であってもよい。記憶部１４０は、データ要素の第２重み付け値を対応付けて記憶する。

表示部１５０は、制御部１３０から出力された表示データに基づく画像を表示する機能を有するモニターである。表示部１５０は、例えば、ＬＣＤ（Liquid Crystal Display）や、ＰＤＰ（Plasma Display Panel）、有機ＥＬ（Electro Luminescence）ディスプレイなどにより実現されてよい。本実施の形態においては、表示部１５０は、提示部１３９から伝達されたユーザに未分類データのスコアを表示する。
＜動作＞
図２は、データ分析システム１００の、分類データを分析し、データ要素の評価を算出する際の動作を示すフローチャートである。

図２に示すように、データ分析システムのデータ抽出部１３２は分類データをデータ分類部１３４に伝達する（ステップＳ２０１）。一方で、分類情報受付部１３３は、分類データに対する分類の指定（例えば、所定の事案に関連する、関連しないなど）を受け付ける（ステップＳ２０２）。

データ分類部１３４は、入力部１２０からユーザの指定による分類情報を分類データに対応付けることにより分類する（ステップＳ２０３）。例えば、データ分類部１３４は、分類データが所定の事案に関連するとの指定を、入力部１２０を介して受け付けていた場合に、分類データに対して所定の事案に関連するという分類情報を対応付ける。
要素抽出部１３５は、分類データ（例えば、訴訟関連文書、ユーザがアクセスしたウェブページなど）からデータ要素を抽出する（ステップＳ２０４）。

要素評価部１３６の第１重み付け部１６１は、要素抽出部１３５が抽出したデータ要素各々を評価し、その第１重み付け値を算出する（ステップＳ２０５）。第１重み付け部１６１は、算出した第１重み付け値を第２重み付け部１６２に伝達する。

第２重み付け部１６２は、データ要素の第１重み付け値に、他のデータ要素に対して算出された第１重み付け値を加味した第２重み付け値を、上記式（２）を用いて、算出する（ステップＳ２０６）。第２重み付け部１６２は、算出した第２重み付け値と対応するデータ要素を評価格納部１３７に伝達する。
評価格納部１３７は、伝達された第２重み付け値と対応するデータ要素を示す情報とを対応付けて記憶部１４０に格納する（ステップＳ２０７）。

図２に示す処理を実行することにより、データ分析システム１００は、未分類データを評価するための前段階としてデータ要素の重み値を算出し、記憶することができる。

以上が、データ要素の各評価を決定するまでのデータ分析システム１００の動作である。図２に示す処理は、未分類のデータを分類するために、ユーザが指定した分類された分類データを教師データ（訓練データ）として取得し、当該教師データに含まれるパターン（例えば、キーワード、概念的には、当該キーワードの分布、当該教師データによって表される意味・概念など）を抽出する処理でもある。図２に示す処理により、未分類データを所定の事案に関連するか否かを特定するための前処理が完了する。
図３は、データ分析システム１００の未分類データのスコアを算出する際の動作を示すフローチャートである。
図３に示すように、データ分析システム１００の未分類データ評価部１３８は、データ抽出部１３２から未分類データを受け付ける（ステップＳ３０１）。

未分類データ評価部１３８は、データ抽出部１３２から伝達された未分類データからデータ要素を抽出する（ステップＳ３０２）。未分類データ評価部１３８は、記憶部１４０において抽出したデータ要素に対応付けられている第２重み付け値を特定し、当該第２重み付け値を記憶部１４０から取得する（ステップＳ３０３）。

そして、未分類データ評価部１３８は、取得した各データ要素の評価に基づいて（例えば、前述した式（３）を用いて）、当該データ要素を抽出したウェブページのスコアを算出する（ステップＳ３０４）。未分類データ評価部１３８は、算出したウェブページのスコアと対応するウェブページ情報とを提示部１３９に伝達する。

提示部１３９は、伝達された未分類データのスコアを結果情報としてユーザに提示する（ステップＳ３０５）。結果情報は、提示部１３９から通信部１１０または表示部１５０に伝達され、ユーザに提示される。

図３に示す処理は、未分類のデータを、所定の事案に関連するか否かを評価するためのスコアを算出する処理であると言える。言い換えれば、教師データから抽出されたパターンが、未知データ（未分類データ）に含まれるか否かを分析することによって、当該未知データと所定の事案（例えば、訴訟に関連するか、あるいは、ウェブページがユーザの嗜好に合致しているかなど）との関連性を評価する処理でもあると言える。
＜まとめ＞

上述の処理により、未分類データを評価するにあたっては、すでに他のデータ要素の関連性が評価済みの重み値を用いて、未分類データを評価することになるので、未分類データのスコアを算出する際のデータ分析システムの処理負荷を軽減することができる。
＜変形例＞

上記実施の形態に係る発明の一実施態様を説明したが、本発明に係る思想がこれに限られないことは言うまでもない。以下、本発明に係る思想として含まれる各種変形例について説明する。

（１）上記実施の形態においては、データ要素の重み値に他のデータ要素の重み値を加味するにあたって、式（２）を用いることとしたが、これはその限りではない。他のデータ要素の重み値を加味できる式であれば、その他の式を用いてもよい。
他の式としては、例えば、下記式（４）を用いることとしてもよい。

式（４）は、いわゆる、畳み込み積分を示す式であり、所定範囲内に含まれるデータ要素のうち、当該所定範囲の中心となるデータ要素の第２重み付け値を算出するために、当該所定範囲に含まれるデータ要素の第１重み付け値を対象に畳み込み積分を行って算出することを示している。上記式において、ｆ、ｇはいずれも上記所定範囲を定める関数であり、窓関数と呼称されることもある。一方の関数を他方の関数に対してずらしながら、両者が重複する部分の値を合算することにより、第１データ要素に対して算出された重み付け値に、第２データ要素に対して算出された重み付け値を反省させることができる。

（２）上記実施の形態においては、未分類データ評価部１３８は、データ要素ベクトルと各データ要素の重みの内積をとることで、未分類データのスコアを算出することとしたが、当該算出方法は一例に過ぎない。未分類データ評価部１３８は、その他の算出方法を用いて未分類データのスコアを算出することとしてもよい。例えば、未分類データ評価部１３８は、上記式（３）に換えて、以下の式（５）を用いて、未分類データのスコアＳを算出してもよい。

ここで、ｍ_jは、ｊ番目のキーワードの出現頻度を表し、ｗ_iは、ｉ番目のキーワードの重みを表す。

（３）上記実施の形態においては、データ要素間の共起に基づく第２重み付け値を算出することとしているが、未分類データを評価する段階において、更に、共起に基づくスコア算出を行ってもよい。その手法の詳細をここに説明する。

例えば、評価対象の未分類データにおいて、データ要素として、第１キーワードと第２キーワードとが出現するとする。このとき、未分類データ評価部１３８は、第１キーワードが未分類データに出現する際に、当該未分類データにおいて、第２キーワードが出現する頻度（第１キーワードと第２キーワードとの間の相関。共起ともいう）を考慮したスコアリングを実行してもよい。

この場合、未分類データ評価部１３８は、第１キーワードと第２キーワードとの相関（共起）を表す相関行列（共起行列）Ｃを用いて、上記式（３）に換えて、以下の式（６）にしたがってスコアを算出することとしてもよい。

なお、上記相関行列Ｃは、所定のテキストを所定数だけ含む学習用データを用いて、予め最適化されているものとする。例えば、あるテキストにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を０〜１の間に正規化した値（最尤推定値ともいう）が、上記相関行列Ｃの要素に格納される。
式（６）を用いることにより、キーワード間の相関関係を考慮したスコアを算出できるため、より高い精度で未分類データのスコアを算出することができる。

（４）上記実施の形態においては、詳細に説明していないが、未分類データ評価部１３８は、未分類データに含まれる部分データ（例えば、センテンス、段落、所定の長さで分割した部分音声、所定数のフレームを含む部分動画など）ごとにスコアを算出し、そのスコアに基づいてウェブページのスコアを算出することとしてもよい。その手法の詳細をここに説明する。

未分類データ評価部１３８は、部分データごとに所定のデータ要素（例えば、キーワード）が含まれるか否かを示すベクトルを、当該部分データごとに生成する。そして、未分類データ評価部１３８は、下記式（７）にしたがってウェブページのスコアリングを実行する。

ここで、ｓ_ｉは、ｉ番目の部分データに対応するベクトルである。なお、式（７）においては、共起も考慮した数式（共起行列Ｃを用いている）であることに注意されたい。当該、共起行列は、含まなくともよい。
上記式（７）におけるＴＦｎｏｒｍは、以下の式（８）のように算出することができる。

ここで、上記式（８）において、ＴＦ_ｉは、ｉ番目のデータ要素（キーワード）の出現頻度（Term Frequency）を表し、ｓ_ｊｉは上記ｉ番目のキーワードベクトルのｊ番目の要素を表し、ｃ_ｊｉは相関行列Ｃのｊ行ｉ列の要素を表す。

上記式（７）、（８）を統合すると、未分類データ評価部１３８は、以下の式（９）を計算することにより、部分データスコアベースで、ウェブページごとにスコアを算出することができる。

上記式（９）において、ｗ_ｉは、重みベクトルｗのｉ番目の要素である。
以上のように、データ分析システム１００は、データの一部に含まれる意味（例えば、センテンスの文意）を反映したスコアリングを実行できるので、より高い精度で未分類データのスコアを提示することができる。

（５）上記実施の形態においては、提示部１３９は算出したスコアを提示するのみであるが、所定の事案に関連する可能性の高い未分類データを提示することとしてもよい。

そのために、提示部１３９は、未分類データを仕分けるための閾値を記憶しておき、未分類データに対して算出されたスコアが当該閾値を超えるか否かに応じて、所定の事案に関連する可能性が高いか否かを判定し、当該閾値を超えた未分類データをユーザに提示することとしてもよい。

（６）上記実施の形態においては、特に記載していないが、要素評価部の評価対象として、未分類データを作成したユーザ（例えば、ウェブページの記事を記載したユーザや訴訟関連書類を作成したユーザなど）の感情を対象としてもよい。具体的には、未分類データ上でいわゆる感情を表す単語（形容詞、形容動詞）に重きをおいた評価を実行してもよい。
この場合には、キーワードとして、予め、形容詞や形容動詞を指定しておくとよい。
当該評価方法についての一具体例を説明する。

まず、データ分析システム１００の要素評価部１３６は、分類データに含まれるデータ要素（ユーザの感情表現を含むデータ要素、例えば、「楽しい」、「悲しい」などの形態素）に対する感情評価を対応付けて記憶する。例えば、分類データに含まれるテキストについて、予め定められたキーワード（当該キーワードは、テキストの場合では、感情に関する文言）が当該テキストに含まれるか否かを探索する。含まれていた場合に、当該キーワードを所定の基準に従って算出した感情スコアを当該キーワードに対応付けて記憶部１４０に記憶しておく。

そして、未分類データ評価部１３８は、未分類データから、予め定められた感情に係るキーワードを抽出する。そして、抽出したキーワードに対して、記憶部１４０において対応付けられている感情スコアを参照する。未分類データ評価部１３８は、未分類データから抽出されたキーワード各々の感情スコアを統合して、未分類データの感情スコアとする。

例えば、テキストに、「この映画は面白かった。もう一度見たい。」という文章が含まれていたとする。そして、キーワードとして、予め、「面白い」「見たい」が記憶部１４０に格納され、それぞれ、「＋１．４」、「＋０．９」という感情スコアが対応付けられているとする。この場合、未分類データ評価部１３８は、当該テキストに対する感情スコアとしては、例えば、両者を加算して、「＋２．３」という感情スコアを算出する。
提示部１３９は、このようにして算出された感情スコアを、未分類データのスコアとして提示してもよい。

なお、データ分析システム１００は、上記構成を実現するために、キーワードに対する感情スコアを格納する感情格納部、未分類データからデータ要素を抽出し、そのデータ要素として感情に係るキーワードを抽出する感情抽出部を備えてもよい。
（７）上記実施の形態においては、文書情報（テキスト）を分析する例を説明したが、上述したように、音声や画像、映像に対する分析を行ってもよい。
例えば、音声の場合であれば、音声そのものを分析の対象としてもよいし、音声認識により音声を文書に変換したうえでの分析を実行してもよい。

音声そのものを分析する場合には、音声を所定の長さの部分音声に分割して、部分音声を分析の対象とする。例えば、「この映画が面白い」という音声が得られた場合、データ分析システム１００は、「映画」および「面白い」という部分音声を当該音声から抽出し、当該部分音声を評価した結果に基づいて、未分類の音声と分類情報との関連性を評価することができる。このような場合、データ分析システム１００は、時系列データの分類アルゴリズム（例えば、マルコフモデル、カルマンフィルタなど）を利用して音声を分類できる。

音声をテキストに変換する場合には、上記実施の形態に示した場合と同様に分類すればよい。音声のテキストへの変換には、任意の音声認識アルゴリズム（例えば、隠れマルコフモデルを用いた認識方法など）を用いればよい。

あるいは、データ分析システム１００は、動画を分析することもできる。この場合にはデータ分析システム１００は、動画に含まれるフレーム画像を抽出し、任意のパターンマッチングにより、動画のフレーム内に、あらかじめ定められたデータ要素としての画像（事物や人物など）が含まれるか否かにより、動画を解析し、分類情報との関連性を評価することとしてもよい。

（８）上記実施の形態に示したデータ分析システム１００は、様々なシステムに適用することができる。
例えば、ディスカバリー支援システム、フォレンジックシステム、メール監査システム、インターネット応用システム、知財調査システム、医療応用システム、実績評価システム（プロジェクト評価システム）、ドライビング支援システム、ポータルサイト運営システム、取引管理システム、コールセンターエスカレーションシステム、マーケティングシステムなど、少なくとも一部において、構造定義が不完全なデータ（非構造化データ、例えば、自然言語を含む文書データ）を扱う任意のシステムに適用できる。

例えば、メール監査システムを例に挙げて説明すると、不正に関するメールを特定したい場合に、予め、不正に関係するメールと不正に関係しないメールとを教師データとして、データ要素を抽出して、その第２重み付け値を算出する。当該第２重み付け値は、不正に関係するメールに多く出現したデータ要素ほど高い値になるとする。そして、未知のメールを入力として、未分類データ評価部１３８は、記憶部１４０に記憶されている第２重み付け値を用いて、未知のメールのスコアを算出する。当該スコアが高いほど不正に関係する可能性が高いメールとして検出することができる。

また、ディスカバリー支援システムでは訴訟関連書類の分類、フォレンジックシステムでは捜査書類の分類、インターネット応用システムでは、ウェブページの分類、知財調査システムでは特許明細書の分類、医療応用システムでは、カルテの分類などに適用することができる。

（９）データ分析システム１００（情報処理装置）の各機能部は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよい。データ分析システム１００の各機能部は、１又は複数の集積回路により実現されても良いし、複数の機能部が１の集積回路により実現されてもよい。

あるいは、データ分析システム１００の各機能部により実現される機能は、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。この場合、データ分析システム１００は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するＣＰＵ、上記ゲームプログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記データ分析プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該ゲームプログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

なお、上記データ分析プログラムは、例えば、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ分析プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバとを含む分散型のデータ分析システムも、本発明の範疇に入る。

（１０）本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップ等に含まれる機能等は再配置可能であり、複数の手段やステップ等を１つに組み合わせたり、或いは分割したりすることが可能である。
（１１）上記実施の形態および各種変形例に示す構成を適宜組み合わせることとしてもよい。
＜補足＞
ここに本発明に係るデータ分析システムの一実施態様とその効果について述べる。

（ａ）本発明に係るデータ分析システムは、データを取得する取得部（１３１）と、前記取得したデータから複数のデータ要素を抽出する抽出部（１３２）と、前記複数のデータ要素各々に重み付け値を算出する第１重み付け部（１６１）と、前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付け部（１６２）と、前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶する記憶部（１３７、１４０）とを備える。

また、本発明に係るデータ分析方法は、コンピュータが実行するデータ分析方法であって、データを取得する取得ステップと、前記取得したデータから複数のデータ要素を抽出する抽出ステップと、前記複数のデータ要素各々に重み付け値を算出する第１重み付けステップと、前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付けステップと、前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶部に記憶する記憶ステップとを含む。

また、本発明に係るデータ分析プログラムは、コンピュータに、データを取得する取得機能と、前記取得したデータから複数のデータ要素を抽出する抽出機能と、前記複数のデータ要素各々に重み付け値を算出する第１重み付け機能と、前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付け機能と、前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶部に記憶する記憶機能とを実現させる。

これにより、データ分析システムは、予めデータ要素の重み値として、他のデータ要素との関連性を加味した重み値を算出することにより、未分類データのスコアを算出する際に、他のデータ要素の重み値を考慮したスコア算出をする必要がないので、データ分析システムの処理負荷を軽減することができる。

（ｂ）上記（ａ）に係るデータ分析システムにおいて、前記第２重み付け部は、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値に対して、前記第１重み付け部により前記第２データ要素に対して算出された重み付け値に所定の係数を乗じた値を加算して、前記第１データ要素に対して算出された重み付け値を更新することとしてもよい。

これにより、データ分析システムは、第２重み付け値を算出する際に、例えば、選択的に第１重み付け値を加味することができる。したがって、例えば、対象のデータ要素の第２重み付け値を算出するにあたって、関連性の高いデータ要素の第１重み付け値を用いて、算出することができる。
（ｃ）上記（ｂ）に係るデータ分析システムにおいて、前記所定の係数は、前記データに含まれるデータ要素の個数の逆数であることとしてもよい。
これにより、データ中のデータ要素の重要度の濃淡に応じて、第２重み付け値を算出することができる。

（ｄ）上記（ｂ）または（ｃ）に係るデータ分析システムにおいて、前記所定の係数は、前記第１データ要素と前記第２データ要素との間の距離に応じた係数であることとしてもよい。
これにより、データ要素の第２重み付け値を算出するにあたって、データ要素間の距離を考慮して、実行することができる。

（ｅ）上記（ｂ）〜（ｄ）のいずれかに係るデータ分析システムにおいて、前記第２重み付け部は、前記第１データ要素と前記第２データ要素が所定範囲内に存在する場合にのみ、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値と前記第１重み付け部により前記第２データ要素に対して算出された重み付け値を用いて、前記第１データ要素の前記重み付け値を更新することとしてもよい。

これにより、データ要素の第２重み付け値を算出するにあたって、データ要素間の距離を考慮して、実行することができる。データ要素とデータ要素との間の距離が近いほど、データ要素間の関連性が高いと考慮することができるので、当該考慮に応じた第２重み付け値を算出することができる。

（ｆ）上記（ｂ）〜（ｅ）のいずれかに係るデータ分析システムにおいて、前記第２重み付け部は、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値が前記第１重み付け部により前記第２データ要素に対して算出された重み付け値よりも大きい場合にのみ、前記第２データ要素に対して算出された重み付け値を用いて、前記第１データ要素の前記重み付け値を更新することとしてもよい。
これにより、

（ｇ）上記（ｂ）〜（ｄ）のいずれかに係るデータ分析システムにおいて、前記第２重み付け部は、前記第１データ要素に対する重み付け値を、前記データ中において、所定範囲内に含まれる複数のデータ要素各々の重み付け値の畳み込み積分により算出することとしてもよい。
これにより、従来からある計算手法を用いて、他のデータ要素の第１重み付け値を用いて、第２重み付け値を算出することができる。

（ｈ）上記（ｂ）〜（ｇ）のいずれかに係るデータ分析システムにおいて、前記取得部は、前記データとは異なるデータを取得し、前記データ分析システムは、さらに、前記異なるデータを、当該異なるデータに含まれるデータ要素を抽出し、前記記憶部において抽出したデータ要素に対応付けられている重み付け値を用いて、評価する評価部を備えることとしてもよい。

これにより、データ分析システムは、新たなデータを受け付けて、その評価を、他のデータ要素との関連性を加味して算出しておいた第２重み付け値を用いて実行することができる。

本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。

１００データ分析システム
１１０通信部
１２０入力部
１３０制御部
１３１収集部（取得部）
１３２データ抽出部
１３３分類情報受付部
１３４データ分類部
１３５要素抽出部
１３６要素評価部
１３７評価格納部
１３８未分類データ評価部（評価部）
１３９提示部
１４０記憶部
１５０表示部
１６１第１重み付け部
１６２第２重み付け部

Claims

データを取得する取得部と、
前記取得したデータから複数のデータ要素を抽出する抽出部と、
前記複数のデータ要素各々に重み付け値を算出する第１重み付け部と、
前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付け部と、
前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶する記憶部とを備えるデータ分析システム。
前記第２重み付け部は、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値に対して、前記第１重み付け部により前記第２データ要素に対して算出された重み付け値に所定の係数を乗じた値を加算して、前記第１データ要素に対して算出された重み付け値を更新する
ことを特徴とする請求項１に記載のデータ分析システム。
前記所定の係数は、前記データに含まれるデータ要素の個数の逆数である
ことを特徴とする請求項２に記載のデータ分析システム。
前記所定の係数は、前記第１データ要素と前記第２データ要素との間の距離に応じた係数である
ことを特徴とする請求項２または３に記載のデータ分析システム。
前記第２重み付け部は、前記第１データ要素と前記第２データ要素が所定範囲内に存在する場合にのみ、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値と前記第１重み付け部により前記第２データ要素に対して算出された重み付け値を用いて、前記第１データ要素の前記重み付け値を更新する
ことを特徴とする請求項２〜４のいずれか一項に記載のデータ分析システム。
前記第２重み付け部は、前記第１重み付け部により前記第１データ要素に対して算出された重み付け値が前記第１重み付け部により前記第２データ要素に対して算出された重み付け値よりも大きい場合にのみ、前記第２データ要素に対して算出された重み付け値を用いて、前記第１データ要素の前記重み付け値を更新する
ことを特徴とする請求項２〜５のいずれか一項に記載のデータ分析システム。
前記第２重み付け部は、前記第１データ要素に対する重み付け値を、前記データ中において、所定範囲内に含まれる複数のデータ要素各々の重み付け値の畳み込み積分により算出する
ことを特徴とする請求項２〜４のいずれか一項に記載のデータ分析システム。
前記取得部は、前記データとは異なるデータを取得し、
前記データ分析システムは、さらに、
前記異なるデータを、当該異なるデータに含まれるデータ要素を抽出し、前記記憶部において抽出したデータ要素に対応付けられている重み付け値を用いて、評価する評価部を備える
ことを特徴とする請求項２〜７のいずれか１項に記載のデータ分析システム。
データを取得する取得ステップと、
前記取得したデータから複数のデータ要素を抽出する抽出ステップと、
前記複数のデータ要素各々に重み付け値を算出する第１重み付けステップと、
前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付けステップと、
前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶部に記憶する記憶ステップとを含む、コンピュータが実行するデータ分析方法。
コンピュータに、
データを取得する取得機能と、
前記取得したデータから複数のデータ要素を抽出する抽出機能と、
前記複数のデータ要素各々に重み付け値を算出する第１重み付け機能と、
前記複数のデータ要素のうちの一つである第１データ要素に対して算出された重み付け値に対して、前記複数のデータ要素のうちの他の一つである第２データ要素に対して算出された重み付け値を反映させるように前記第１データ要素に対して算出された重み付け値を更新する第２重み付け機能と、
前記更新された重み付け値を前記第１データ要素に対応付けて、前記第１データ要素の重み付け値として、記憶部に記憶する記憶機能とを実現させるデータ分析プログラム。