JP2016162116A - データ分析システム、データ分析方法、およびデータ分析プログラム - Google Patents

データ分析システム、データ分析方法、およびデータ分析プログラム Download PDF

Info

Publication number
JP2016162116A
JP2016162116A JP2015039278A JP2015039278A JP2016162116A JP 2016162116 A JP2016162116 A JP 2016162116A JP 2015039278 A JP2015039278 A JP 2015039278A JP 2015039278 A JP2015039278 A JP 2015039278A JP 2016162116 A JP2016162116 A JP 2016162116A
Authority
JP
Japan
Prior art keywords
data
data element
frequency
unit
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015039278A
Other languages
English (en)
Other versions
JP6190405B2 (ja
Inventor
秀樹 武田
Hideki Takeda
秀樹 武田
和巳 蓮子
Kazumi Hasuko
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to JP2015039278A priority Critical patent/JP6190405B2/ja
Publication of JP2016162116A publication Critical patent/JP2016162116A/ja
Application granted granted Critical
Publication of JP6190405B2 publication Critical patent/JP6190405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】細分化されたデータ要素について一つのデータ要素として扱うべき複数のデータ要素を特定する。
【解決手段】本発明に係るデータ分析システムは、データから、当該データの一部であるデータ要素を抽出するデータ分析システムであって、前記データを受け付ける受付部と、前記受付部により受け付けたデータから、データ要素を抽出する抽出部と、前記抽出部により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出部と、前記指標を提示する提示部とを備える。
【選択図】図1

Description

本発明は、データを分析するデータ分析システムに関するものである。
データマイニングと言われる技術がある。データマイニングは、データに含まれるデータ要素を用いて、そのデータを評価する技術である。そのため、データをより正確に評価するためには、データ要素を正確に選定することが重要となる。
当該データ要素を決定する手法として、ユーザが逐一、設定することにより対応することができるが、その作業は煩雑なものとなる。そこで、データ要素を自動的に抽出する技術がある。
例えば、特許文献1には、複合語を予め記憶してある複合語を登録した辞書を用いて、データに区切りをつける技術が開示されている。また、特許文献1には辞書に登録されていない複合語を区切る手法についても開示されている。
そして、例えば、特許文献2には、事前に与えられた基準に従って、文字列を高精度に分割する技術が開示されている。
特開2009−295052号公報 特開2012−146273号公報
しかしながら、従来の技術の場合、データからデータ要素を抽出するにあたって、アルゴリズムによっては、必要以上に細かくしすぎる可能性があるという問題がある。簡単な具体例を挙げると、例えば、データが文書データであり、当該データ中に「監査委員会」という単語がデータ要素として存在するとき、従来であれば、「監査」というデータ要素と、「委員会」というデータ要素とに分けられる場合がある。このとき、当該単語は、「監査委員会」という語で、一つのデータ要素として扱った方が良い場合があるが、従来での技術では、分解したデータ要素はそのまま評価するより他ない。
そこで、本発明においては、上記問題に鑑みて、従来とは異なる手法を用いて、一つのデータ要素として扱うことが望ましいデータ要素(例えば、複合語など)を適切に分析するデータ分析システムを提供することを目的とする。
上記課題を解決するために、本発明の一態様に係るデータ分析システムは、データから、当該データの一部であるデータ要素を抽出するデータ分析システムであって、前記データを受け付ける受付部と、前記受付部により受け付けたデータから、データ要素を抽出する抽出部と、前記抽出部により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出部と、前記指標を提示する提示部とを備える。
上記課題を解決するために、本発明の一態様に係るデータ分析方法は、コンピュータが実行するデータ分析方法であって、データを受け付ける受付ステップと、前記受付ステップにおいて受け付けたデータから、データ要素を抽出する抽出ステップと、前記抽出ステップにおいて抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出ステップと、前記指標を提示する提示ステップとを含む。
上記課題を解決するために、本発明の一態様に係るデータ分析プログラムは、コンピュータに、データを受け付ける受付機能と、前記受付機能により受け付けたデータから、データ要素を抽出する抽出機能と、前記抽出機能により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出機能と、前記指標を提示する提示機能とを実現させる。
これにより、データ分析システムは、データ要素とデータ要素とを結合すべきか否かの指標を算出することができる。
また、前記算出部は、更に、前記第1データ要素が前記データに出現する第1頻度と、前記第2データ要素が前記データに出現する第2頻度と、前記第1データ要素と前記第2データ要素とが前記データに共起する第3頻度とに基づいて、前記指標を算出することとしてもよい。
また、前記第3頻度は、前記第1データ要素と前記第2データ要素とが連続して前記データに出現した頻度であり、前記算出部は、前記第3頻度を、前記第1頻度と前記第2頻度とを合算した値から前記第3頻度を減算した値で除した値を前記指標として算出することとしてもよい。
また、前記データ分析システムは、さらに、前記データ分析システムは、さらに、前記指標に基づいて、前記第1データ要素と前記第2データ要素とを結合すべきか否かを判定する判定部を備えることとしてもよい。
また、前記判定部は、前記指標が、所定の基準を満たしている場合に、前記第1データ要素と前記第2データ要素とを結合すべきであると判定することとしてもよい。
本発明の一態様に係るデータ分析システムは、データから抽出したデータ要素について、本来一つのデータ要素として扱うべき可能性のあるデータ要素を提示することができる。
実施の形態1に係るデータ分析システムの機能構成を示すブロック図である。 結果情報のデータ概念図である。 データ分析システムの動作を示すフローチャートである。
本発明に係るデータ分析システムの一実施態様について、図面を参照しながら説明する。
<実施の形態>
<構成>
図1は、データ分析システム100の機能構成を示すブロック図である。
図1に示すように、データ分析システム100は、受付部110と、表示部120と、入力部130と、記憶部140と、制御部150とを含む。
受付部110は、解析対象のデータの入力を受け付けて、制御部150に伝達する機能を有する。受付部110は、データ通信によりネットワークを介してデータを受け付けることとしてもよいし、データを記憶した記録媒体からデータを読み出すことにより受け付けることとしてもよい。ここで、データは、文書データ(例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など、少なくとも一部にテキストを含むデータを主に指すが、画像データ、音声データ、映像データなど、任意のデータ(主に、少なくとも一部において構造定義が不完全な非構造化データ)を広く含む。
表示部120は、制御部150により生成された情報を表示する機能を有し、例えば、LCD(Liquid Crystal Display)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)ディスプレイなどにより実現される。本実施の形態においては、表示部120は、提示部153から伝達される結合すべきデータ要素に関する情報を表示する。
入力部130は、ユーザからの入力を受け付けて、制御部150に伝達する機能を有する。入力部130は、例えば、キーボードやポインティングデバイス、音声入力装置などにより実現される。本実施の形態においては、入力部130は、ユーザから結合すべきデータ要素の指定を受け付けて、制御部150に当該データ要素の情報を伝達する。
記憶部140は、データ分析システム100が動作上必要とする各種プログラム、データを記憶する機能を有する。記憶部140は、例えば、記憶部140は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、半導体メモリ、フラッシュメモリなどにより実現される。なお、図1では、データ分析システム100が記憶部140を備える構成を示しているが、記憶部140は、データ分析システム100外部のものであって、データ分析システム100と通信可能に接続された記憶装置であってもよい。
制御部150は、記憶部140に記憶されている各種データを参照しながら、データ分析システム100の各部を制御する機能を有するプロセッサである。制御部150は、データ分析システム100が有する各種機能を統括的に制御する。
制御部150は、データ要素抽出部151と、指標算出部152と、提示部153と、結合部154とを含む。
データ要素抽出部151は、受付部110から伝達されたデータから、所定のアルゴリズムに従ってデータ要素を抽出する機能を有する。ここで、データ要素抽出部151は、例えば、(1)データが文書データの場合、当該文書データに含まれるキーワード(いわゆる、形態素)、センテンス、段落などをデータ要素として抽出し、(2)データが音声データの場合、当該音声データに含まれる部分音声をデータ要素として抽出し、(3)データが画像データの場合、当該画像データに含まれる部分画像をデータ要素として抽出し、(4)データが映像データの場合、当該映像データに含まれるフレーム画像(または、複数のフレーム画像の組み合わせ)をデータ要素として抽出することができる。
指標算出部152は、データ要素抽出部151が抽出したデータ要素について、他の連続するデータ要素と結合すべきか否かを判定するための指標を算出する機能を有する。指標算出部152は、以下のように当該指標となる結合率を算出する。
まず、指標算出部152は、データ要素のうちの一つである第1データ要素Xが、受け付けたデータ中に出現する頻度である第1頻度を、第1データ要素Xがデータ中に出現する回数をカウントすることにより決定する。当該第1頻度をDFとする。
次に、指標算出部152は、データ要素のうちの一つである第2データ要素Yが、受け付けたデータ中に出現する頻度である第2頻度を、第2データ要素Yがデータ中に出現する回数をカウントすることにより決定する。当該第2頻度をDFとする。
そして、指標算出部152は、第1データ要素Xと第2データ要素Yとが連続して出現する頻度である第3頻度、すなわち、データ要素XYとしてデータ中に出現する頻度を、データ要素XYが出現する回数をカウントすることにより決定する。当該第3頻度をDFXYとする。当該第3頻度DFXYは、データ要素Xとデータ要素Yが同じデータ(この場合、データの単位は、どのようなものであってもよく、一つの文書単位であっても、文書の中の一段落あるいは一センテンス単位などであってもよい)に共起する頻度である共起頻度と呼称することもできる。
指標算出部152は、算出した第1頻度と第2頻度と第3頻度とを用いて、第1データ要素と第2データ要素とを結合すべきか否かの指標となる結合率Cを以下の数式(1)を用いて算出する。
Figure 2016162116
指標算出部152は、算出した第1頻度DFと、第2頻度DFと、第3頻度DFXYと、結合率Cと、対応する第1データ要素、第2データ要素の情報を、提示部153および結合部154に伝達する。
提示部153は、指標算出部152から伝達された第1データ要素と、第2データ要素と、第1頻度と、第2頻度と、第3頻度と、結合率に基づく結果情報を生成する機能を有する。そして、提示部153は、生成した結果情報を表示部120に提示する。結果情報(指標)は、結合率そのものであってもよいし、結合率の数値に応じて、「高」、「中」、「低」のように第1データ要素と第2データ要素の対に対して予め定めた評価をラベリングしたものであってもよい。後者の場合であれば、例えば、「高」は、0.7〜1.0、「中」は、0.4〜0.7、「低」が0〜0.4と予めその範囲を定めておき、これによりラベリングを実行するとよい。
結合部154は、入力部130から伝達された第1データ要素と第2データ要素とを結合して、記憶部140に記憶する機能を有する。
<データ>
図2は、データ分析システム100の提示部153が提示する結果情報200の一例を示すデータ概念図である。結果情報200は、データ要素とデータ要素とを結合して一つのデータ要素として扱うべきか否かの指標を提示する情報である。
図2に示すように、結果情報200は、第1データ要素201と、第2データ要素202とが対応付けられた情報である。また、結果情報200は、第1頻度203と、第2頻度204と、第3頻度205と、結合率206とがさらに対応付けられていてもよい。なお、図2に示す結果情報200の出力結果は、あくまで一例である。すなわち、結果情報200は、結合され得る候補(第1データ要素201と第2データ要素202とのペア)を提示可能な情報でありさえすればよく、当該結果情報200に基づいて当該候補をどのように提示するかは図2の例に限定されない。
第1データ要素201は、データ中に出現するデータ要素であって、結合の候補となるデータ要素を示す情報である。
第2データ要素202は、データ中に出現するデータ要素であって、結合の候補であり、第1データ要素201に連続するデータ要素を示す情報である。
第1頻度203は、第1データ要素201がデータ中に出現する頻度を示す情報である。ここでは、第1頻度203は、第1データ要素201がデータ中に出現する回数である。
第2頻度204は、第2データ要素202がデータ中に出現する頻度を示す情報である。ここでは、第2頻度204は、第2データ要素202がデータ中に出現する回数である。
第3頻度205は、第1データ要素201と第2データ要素202とが連続して、データ中に出現する頻度を示す情報である。ここでは、第3頻度205は、第1データ要素201と第2データ要素202とが連続してデータに出現する回数である。
結合率206は、第1データ要素201と第2データ要素202とを結合すべきか否かの指標を示す情報である。ここでは、結合率206は、0〜1の値をとり、1に近いほど、結合されるべき可能性が高いことを示す。
図2の結果情報200において、例えば、第1データ要素201として「課題」というデータ要素と、第2データ要素202として「解決」というデータ要素に着目する。図2によれば、第1データ要素「課題」の出現頻度である第1頻度203は、「21」であり、第2データ要素「解決」の出現頻度である第2頻度204は、「21」であり、その結合されたデータ要素「課題解決」の出現頻度である第3頻度205は、「21」となっている。これらの第1頻度、第2頻度、第3頻度から算出される結合率206は、「1.000」となる。この結合率206が高いということは、結果情報200を見たユーザは、受付部110が受け付けたデータでは、第1データ要素「課題」と第2データ要素「解決」は、一つのデータ要素として扱うべきであると判断することができる。なお、結合率206が所定の基準値を超過する場合(例えば、当該結合率206が「1.000」(すなわち、すべての「課題」と「解決」とが常に共起している)となる場合)、データ分析システム100は、結果を提示することなく両者を結合することとしてもよい。これにより、データ分析システム100は、結果を確認するユーザの手間を省くことができる。
また、例えば、第1データ要素201として「詳細」というデータ要素と、第2データ要素202として「説明」というデータ要素に着目する。図2によれば、第1データ要素「詳細」の出現頻度である第1頻度203は、「3」であり、第2データ要素「説明」の出現頻度である第2頻度204は、「2」であり、その結合されたデータ要素「詳細説明」の出現頻度である第3頻度205は、「1」となっている。これらの第1頻度、第2頻度、第3頻度から算出される結合率は、「0.250」となる。この結合率が低いということは、結果情報200を見たユーザは、受付部110が受け付けたデータでは、第1データ要素「詳細」と第2データ要素「説明」は、一つのデータ要素として扱うべきではないと判断することができる。なお、結合率が所定の閾値(例えば、0.4)を下回る場合には、提示部153は、結合すべき第1データ要素と第2データ要素の候補として提示しない構成をとることとしてもよい。
結果情報200が提示されることによりデータ分析システム100のユーザは、データ要素を結合すべきか否かを容易に判定することができる。
<動作>
図3は、データ分析システム100の動作を示すフローチャートである。
図3に示すように、データ分析システム100の受付部110は、分析対象のデータの入力を受け付ける(ステップS301)。受付部110は、受け付けたデータを、データ要素抽出部151に伝達する。
データ要素抽出部151は、伝達されたデータから、予め定められた所定のアルゴリズムに従ってデータ要素を抽出する(ステップS302)。データ要素抽出部151は、抽出したデータ要素を指標算出部152に伝達する。
指標算出部152は、伝達されたデータ要素について、他のデータ要素と結合すべきか否かを判定するための指標を算出する。
具体的には、指標算出部152は、データから抽出された所定の第1データ要素がデータ中に出現する第1頻度を算出する(ステップS303)。すなわち、指標算出部152は、データに出現する第1データ要素の回数をカウントする。
次に、指標算出部152は、データから抽出された第2データ要素がデータ中に出現する第2頻度を算出する(ステップS304)。すなわち、指標算出部152は、データに出現する第2データ要素の回数をカウントする。
続いて、指標算出部152は、第1データ要素に第2データ要素が連続して出現する第3頻度を算出する(ステップS305)。すなわち、指標算出部152は、データに第1データ要素と第2データ要素とがセットで出現する回数をカウントする。
そして、指標算出部152は、第1頻度と第2頻度と第3頻度とを用いて、第1データ要素と第2データ要素とを結合すべきか否かの指標となる結合率を算出する(ステップS306)。指標算出部152は、算出した第1頻度、第2頻度、第3頻度、結合率、および算出に用いた第1データ要素と第2データ要素の情報を、提示部153と結合部154に伝達する。
提示部153は、伝達された情報に基づいて、図2に示した結果情報を作成し、表示部120に伝達する。そして、表示部120は伝達された結果情報を表示する(ステップS307)。
入力部130は、表示された結果情報を見たユーザが指定した結合すべき第1データ要素と第2データ要素との指定を受け付ける。入力部130は指定された第1データ要素と第2データ要素を特定する情報を結合部154に伝達する。
結合部154は、伝達された第1データ要素と第2データ要素とを一つのデータ要素として扱うべく、第1データ要素と第2データ要素とを結合して、一つのデータ要素として記憶部140に記憶する。
これにより、データ分析システム100は、必要以上に細分化されたデータ要素を、結合することができる。そして、その結合後のデータ要素を評価することでデータマイニングに応用することができる。
<変形例>
上記実施の形態に本発明に係る発明の一実施態様を説明したが、本発明に係る思想がこれに限られないことは言うまでもない。以下、本発明に係る思想として含まれる各種変形例について説明する。
(1)上記実施の形態においては、結合部154は、ユーザが指定した第1データ要素と第2データ要素とを結合させる構成を例示したが、これはその限りではない。ユーザの指定以外の手法を用いてもよい。
すなわち、結合部154が第1データ要素と第2データ要素とを結合すべきか判断してもよい。判断の手法としては、結合部154は、伝達された結合率が所定値以上(予め定められた閾値以上。例えば、0.7以上)の第1データ要素と第2データ要素とを結合することとしてもよい。
(2)上記実施の形態においては、データからデータ要素を抽出する手法のみを開示しているが、データ分析システム100は、さらに、データマイニングのために記憶部140に記憶されたデータ要素の重み付け値を算出する重み付け部、および、データ要素に対して算出された重み付け値を用いて受付部110が受け付けるデータを評価する評価部を備えてもよい。
以下、重み付け部および評価部における処理を簡単に説明する。
重み付け部は、記憶部140に格納されたデータ要素に対して重み付けを実行する。重み付け部は、データ要素を含むデータが所定の事象に関連するか否かに基づいて重み付け値を算出するものであり、例えば、所定の事象との関連度合を、伝達情報量を用いて算出する。
また、重み付け部は、所定の事象に関連する複数のデータと、所定の事象に関連しない複数のデータとについて、それぞれのスコアを、算出した重み付け値を用いて算出する。このとき、重み付け部は、算出したスコアに基づいて、データを並べた場合に、所定の事象に関連する複数のデータのスコアが、所定の事象に関連しない複数のデータのスコアよりも高くなっていない場合には、所定の事象に関連する複数のデータのスコアが、所定の事象に関連しない複数のデータのスコアよりも高くなるように補正してもよい。重み付け部は、算出した各データ要素の重み付け値を記憶部140に格納する。
評価部は、受付部110が受け付けた新たなデータに対する評価値を算出する。評価部は、新たなデータからデータ要素抽出部151が抽出したデータ要素各々について、記憶部140に格納された重み付け値を用いて、データのスコアSを算出する。評価部は、例えば、以下の数式を用いてスコアSを算出する。
Figure 2016162116
上記式(2)において、wは、i番目のデータ要素の重み付け値を意味する。また、Nはデータから抽出されたデータ要素数を意味する。
データ分析システム100は、算出されたスコアを、データの評価として提示する。このスコアSが高いと懸案事項との関連性が高いデータであると判定することができる。
(3)上記実施の形態に係るデータ分析システム100は、各種のデータに対する応用が可能である。以下に、その事例について説明する。
上記実施の形態に係るデータ分析システム100は、例えば、ディスカバリー支援システムとして活用することができる。
ディスカバリー支援システムは、受け付けるデータとして、例えば、訴訟関連のメールデータ、書籍などの文書データを受け付け、そこから必要な関連データを検索するにあたって、データからデータ要素として関連する用語を適切に抽出することができる。
また、データ分析システム100は、例えば、フォレンジックシステムとして活用することができる。
フォレンジックシステムは、受け付けるデータとして、例えば、容疑者がやり取りしている電子メールを受け付け、犯罪に関わりがある可能性が高い電子メールを選定し、犯罪捜査に役立てることができる。その際に、電子メールを評価するために、電子メールからデータ要素を抽出する際に活用することができる。
また、データ分析システム100は、例えば、メール監査システムとして活用することができる。
メール監査システムにおいても、ディスカバリー支援システムやフォレンジックシステムと同様に電子メールからデータ要素を適切に抽出することに活用することができる。
また、データ分析システム100は、例えば、インターネット応用システムとして活用することができる。
インターネット応用システムとしては、インターネット上に公開されている各種の記事を分析する際に、適切にデータ要素を抽出するシステムとして活用することができる。
また、データ分析システム100は、例えば、知財調査システムとして活用することができる。
知財調査システムとしては、例えば、特許文献の内容分析を行うにあたって、適切にデータ要素を抽出するシステムとして活用することができる。
また、データ分析システム100は、例えば、医療応用システムとして活用することができる。
医療応用システムとしては、例えば、データとして、診療情報(カルテ)を受け付けて、患者の状態分析を行うにあたって、データ要素を抽出するシステムとして活用することができる。
また、データ分析システム100は、その他にも、例えば、実績評価システム、ドライビング支援システム、プロジェクト評価システム、ポータルサイト運営システム、取引管理システム、コールセンターエスカレーションシステム、マーケティングシステムなど、任意のシステムに活用することができる。すなわち、データ分析システム100は、データを受け付け、当該データからデータ要素を抽出し、第1データ要素と第2データ要素とが当該データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出し、当該指標を提示するシステムに広く用いることができる。
(4)上記実施の形態に示した指標の算出方法は一例にしか過ぎない。連続するデータ要素が一つのデータ要素として扱うべきか否かの指標として適切と思われるものを算出する方法であれば、その他の手法を用いてもよい。
例えば、第1データ要素と、第2データ要素とについて、その連続する組み合わせが、受け付けたデータに登場する回数を指標として用いてもよい。そして、当該回数が所定回数を超える場合に、第1データ要素と第2データ要素とを結合すべきであると判定することとしてもよい。
また、あるいは、第1データ要素と、第2データ要素とについて、その連続する組み合わせだけが、受け付けたデータに登場すると検出された場合に、第1データ要素と第2データ要素とを結合すべきであるとの情報を生成して、当該情報を指標とすることとしてもよい。
(5)上記実施の形態に示した第1データ要素と第2データ要素の例は、所謂複合語と呼称される語を一つのデータ要素として扱う例を示している。しかし、これは、その限りではない。複合語以外の例、例えば、慣用句や固有名詞(例えば、氏名、企業名など)なども、一つのデータ要素として扱うべきであるとの指標を算出し得る。
(6)データ分析システム100(情報処理装置)の各機能部は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよい。データ分析システム100の各機能部は、1又は複数の集積回路により実現されても良いし、複数の機能部が1の集積回路により実現されてもよい。
あるいは、データ分析システム100の各機能部により実現される機能は、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。この場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ評価プログラムの命令を実行するCPU、上記ゲームプログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記データ評価プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記データ評価プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ評価プログラムは、当該ゲームプログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ評価プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記データ評価プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ評価プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバとを含む分散型のデータ分析システムも、本発明の範疇に入る。
(7)本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップ等に含まれる機能等は再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
(8)上記実施の形態および各種変形例に示す構成を適宜組み合わせることとしてもよい。
<補足>
ここに本発明に係るデータ分析システムの一実施態様とその効果について述べる。
(a)本発明に係るデータ分析システムは、データから、当該データの一部であるデータ要素を抽出するデータ分析システムであって、前記データを受け付ける受付部(110)と、前記受付部により受け付けたデータから、データ要素を抽出する抽出部(151)と、前記抽出部により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出部(152)と、前記指標を提示する提示部(153)とを備える。
また、本発明に係るデータ分析方法は、コンピュータが実行するデータ分析方法であって、データを受け付ける受付ステップと、前記受付ステップにおいて受け付けたデータから、データ要素を抽出する抽出ステップと、前記抽出ステップにおいて抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出ステップと、前記指標を提示する提示ステップとを含む。
また、本発明に係るデータ分析プログラムは、コンピュータに、データを受け付ける受付機能と、前記受付機能により受け付けたデータから、データ要素を抽出する抽出機能と、前記抽出機能により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出機能と、前記指標を提示する提示機能とを実現させる。
これにより、データから抽出したデータ要素について、複数のデータ要素を結合すべきか否かを判断するための指標を提示することができる。したがって、不要にデータが細分化された場合に、提示された指標に基づいてデータ要素を結合するか否かを判断することができる。
(b)上記(a)に係るデータ分析システムにおいて、前記算出部は、更に、前記第1データ要素が前記データに出現する第1頻度と、前記第2データ要素が前記データに出現する第2頻度と、前記第1データ要素と前記第2データ要素とが前記データに共起する第3頻度とに基づいて、前記指標を算出することとしてもよい。
これにより、第1データ要素と第2データ要素との各々が出現する頻度と、双方が共起する頻度に応じて指標を算出することができる。
(c)上記(a)に係るデータ分析システムにおいて、前記第3頻度は、前記第1データ要素と前記第2データ要素とが連続して前記データに出現した頻度であり、前記算出部は、前記第3頻度を、前記第1頻度と前記第2頻度とを合算した値から前記第3頻度を減算した値で除した値を前記指標として算出することとしてもよい。
これにより、データ分析システムは、指標を算出することができる。
(d)上記(a)に係るデータ分析システムにおいて、前記データ分析システムは、さらに、前記指標に基づいて、前記第1データ要素と前記第2データ要素とを結合すべきか否かを判定する判定部を備える。
これにより、データ分析システムは、ユーザの手によらずに、データ要素を結合すべきか否かを判断することができる。
(e)上記(a)に係るデータ分析システムにおいて、前記判定部は、前記指標が、所定の基準を満たしている場合に、前記第1データ要素と前記第2データ要素とを結合すべきであると判定することとしてもよい。
これにより、データ分析システムは、データ要素同士を結合させることができる。
本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。
100 データ分析システム
110 受付部
120 表示部
130 入力部
140 記憶部
150 制御部
151 データ要素抽出部
152 指標算出部
153 提示部
154 結合部

Claims (7)

  1. データから、当該データの一部であるデータ要素を抽出するデータ分析システムであって、
    前記データを受け付ける受付部と、
    前記受付部により受け付けたデータから、データ要素を抽出する抽出部と、
    前記抽出部により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出部と、
    前記指標を提示する提示部とを備えるデータ分析システム。
  2. 前記算出部は、更に、
    前記第1データ要素が前記データに出現する第1頻度と、前記第2データ要素が前記データに出現する第2頻度と、前記第1データ要素と前記第2データ要素とが前記データに共起する第3頻度とに基づいて、前記指標を算出する
    ことを特徴とする請求項1に記載のデータ分析システム。
  3. 前記第3頻度は、前記第1データ要素と前記第2データ要素とが連続して前記データに出現した頻度であり、
    前記算出部は、前記第3頻度を、前記第1頻度と前記第2頻度とを合算した値から前記第3頻度を減算した値で除した値を前記指標として算出する
    ことを特徴とする請求項2に記載のデータ分析システム。
  4. 前記データ分析システムは、さらに、
    前記指標に基づいて、前記第1データ要素と前記第2データ要素とを結合すべきか否かを判定する判定部を備える
    ことを特徴とする請求項1〜3のいずれか一項に記載のデータ分析システム。
  5. 前記判定部は、前記指標が、所定の基準を満たしている場合に、前記第1データ要素と前記第2データ要素とを結合すべきであると判定する
    ことを特徴とする請求項4に記載のデータ分析システム。
  6. データを受け付ける受付ステップと、
    前記受付ステップにおいて受け付けたデータから、データ要素を抽出する抽出ステップと、
    前記抽出ステップにおいて抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出ステップと、
    前記指標を提示する提示ステップとを含む、コンピュータが実行するデータ分析方法。
  7. コンピュータに、
    データを受け付ける受付機能と、
    前記受付機能により受け付けたデータから、データ要素を抽出する抽出機能と、
    前記抽出機能により抽出されたデータ要素である第1データ要素と第2データ要素とが前記データに共起する頻度に応じて、当該第1データ要素と当該第2データ要素とを一つのデータ要素として扱うべきか否かを判定するための指標を算出する算出機能と、
    前記指標を提示する提示機能とを実現させるデータ分析プログラム。
JP2015039278A 2015-02-27 2015-02-27 データ分析システム、データ分析方法、およびデータ分析プログラム Active JP6190405B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015039278A JP6190405B2 (ja) 2015-02-27 2015-02-27 データ分析システム、データ分析方法、およびデータ分析プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015039278A JP6190405B2 (ja) 2015-02-27 2015-02-27 データ分析システム、データ分析方法、およびデータ分析プログラム

Publications (2)

Publication Number Publication Date
JP2016162116A true JP2016162116A (ja) 2016-09-05
JP6190405B2 JP6190405B2 (ja) 2017-08-30

Family

ID=56845057

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015039278A Active JP6190405B2 (ja) 2015-02-27 2015-02-27 データ分析システム、データ分析方法、およびデータ分析プログラム

Country Status (1)

Country Link
JP (1) JP6190405B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829078A (zh) * 2017-04-27 2018-11-16 丰田自动车株式会社 分析技术呈现系统、方法和程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JP2008217067A (ja) * 2007-02-28 2008-09-18 Toshiba Corp 情報提示装置、プログラム及び情報提示方法
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03116374A (ja) * 1989-09-29 1991-05-17 Ricoh Co Ltd 専門用語抽出システム
JP2008217067A (ja) * 2007-02-28 2008-09-18 Toshiba Corp 情報提示装置、プログラム及び情報提示方法
JP2013174995A (ja) * 2012-02-24 2013-09-05 Nippon Hoso Kyokai <Nhk> 基本語彙抽出装置、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829078A (zh) * 2017-04-27 2018-11-16 丰田自动车株式会社 分析技术呈现系统、方法和程序
CN108829078B (zh) * 2017-04-27 2021-03-12 丰田自动车株式会社 分析技术呈现系统、方法和计算机可读存储介质

Also Published As

Publication number Publication date
JP6190405B2 (ja) 2017-08-30

Similar Documents

Publication Publication Date Title
US11625406B2 (en) Website scoring system
US10169706B2 (en) Corpus quality analysis
US9558263B2 (en) Identifying and displaying relationships between candidate answers
US9886159B2 (en) Selecting portions of computer-accessible documents for post-selection processing
US11663417B2 (en) Data processing method, electronic device, and storage medium
US9922383B2 (en) Patent claims analysis system and method
US8272064B2 (en) Automated rule generation for a secure downgrader
US20130159848A1 (en) Dynamic Personal Dictionaries for Enhanced Collaboration
US20140129558A1 (en) Timeline-Based Data Visualization of Social Media Topic
JP6301966B2 (ja) データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体
US11042689B2 (en) Generating a document preview
US10282467B2 (en) Mining product aspects from opinion text
JPWO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US9064009B2 (en) Attribute cloud
US20110202518A1 (en) Apparatus and Methods for Providing Assistance in Detecting Mistranslation
US9208142B2 (en) Analyzing documents corresponding to demographics
Khemani et al. A review on reddit news headlines with nltk tool
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
TW201500939A (zh) 數位資訊分析系統、數位資訊分析方法、及數位資訊分析程式
JP6190405B2 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
JP2017097488A (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2010132062A1 (en) System and methods for sentiment analysis
US9558269B2 (en) Extracting and mining of quote data across multiple languages
US10163118B2 (en) Method and apparatus for associating user engagement data received from a user with portions of a webpage visited by the user
JP4550939B1 (ja) 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20160602

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160615

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170712

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170801

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170804

R150 Certificate of patent or registration of utility model

Ref document number: 6190405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250