JP6026036B1 - データ分析システム、その制御方法、プログラム、及び、記録媒体 - Google Patents

データ分析システム、その制御方法、プログラム、及び、記録媒体 Download PDF

Info

Publication number
JP6026036B1
JP6026036B1 JP2016078175A JP2016078175A JP6026036B1 JP 6026036 B1 JP6026036 B1 JP 6026036B1 JP 2016078175 A JP2016078175 A JP 2016078175A JP 2016078175 A JP2016078175 A JP 2016078175A JP 6026036 B1 JP6026036 B1 JP 6026036B1
Authority
JP
Japan
Prior art keywords
data
component
components
evaluation
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016078175A
Other languages
English (en)
Other versions
JP2017188025A (ja
Inventor
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to JP2016078175A priority Critical patent/JP6026036B1/ja
Application granted granted Critical
Publication of JP6026036B1 publication Critical patent/JP6026036B1/ja
Priority to US15/482,401 priority patent/US20170293863A1/en
Publication of JP2017188025A publication Critical patent/JP2017188025A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Abstract

【課題】分析対象データの所定事案への関連性を正確に評価できるようにするためのデータ分析システム等を提供する。【解決手段】本発明は、データの分析において、学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、複数の構成要素から所定の構成要素を選択し、当該所定の構成要素を含む第1のデータパターンを学習用データから抽出し、第1のデータパターンに関連する第2のデータパターンに基づいて複数の評価対象データの夫々を検索し、2のデータパターンを含む評価対象データを抽出し、そして、抽出された評価対象データと第1のデータパターンとの差分に基づいて、選択された構成要素と同義な構成要素を決定する。【選択図】図5

Description

本発明は、データを分析するデータ分析システム等に関するものであり、例えば、ビックデータを分析する人工知能を備えたシステムに適用可能なものである。
コンピュータの発展により社会の情報化が進んだ結果、企業・個人の活動に、ビッグデータが、広範に、かつ、密接に関係するようになってきている。そのため、最近では、ビッグデータの中から、所望の情報を的確に分別する必要性が叫ばれている。
ビッグデータから、所望の情報を取り出すためのアプローチとして、複数の参照データの夫々をレビューワが所定事案に関係する否かの観点から分類し、この結果を利用して、分析対象のデータを自動的に分類するシステムが知られている(例えば、特開2013−182338号公報)。
特開2013―182338号公報
前記従来のデータ分析システムによれば、膨大なデータの中から、所定事案に関係するデータを見つけ出すことができる。しかしながら、参照データの構成要素に関連する構成要素を含みながら、構成要素の表現態様が異なるというだけで、所定事案に関係する度合いが本来高いデータであるにもかかわらず、実際には、そのように評価されないというおそれがある。そこで、本発明は、分析対象データの所定事案への関連性を正確に評価できるようにするためのデータ分析システム等を提供することを目的とする。
前記目的は、データの分析において、学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、学習用データの少なくとも一部を構成するものであり、複数の構成要素から所定の構成要素を選択し、所定の構成要素を含む第1のデータパターンを学習用データから抽出し、第1のデータパターンに関連する第2のデータパターンに基づいて複数の評価対象データの夫々を検索し、第2のデータパターンを含む評価対象データを抽出し、そして、抽出された評価対象データと第1のデータパターンとの差分に基づいて、選択された構成要素と同義な構成要素を決定することによって達成される。
既述の開示によって、分析対象データの所定事案への関連性を正確に評価できるようにするためのデータ分析システム等が提供される。
データ分析システムのハードウェア構成の一例を示すブロック図である。 サーバ装置が評価対象データの評価する際に実行するフローチャートの一例である。 学習用データにおける構成要素の配置を説明する図である。 複数の構成要素夫々の評価値と学習用データにおける出現位置との分布を示す特性図である。 サーバ装置が、評価対象データから同義語を抽出するフローチャートの一例である。 関連形態素のデータパターン毎における同義語候補の一覧を示す管理テーブルである。
〔データ分析システムの構成〕
図1は、本実施の形態に係るデータ分析システム(以下、単に「システム」と略記することがある)のハードウェア構成の一例を示すブロック図である。当該システムは、例えば、データ(デジタルデータ、及び/又は、アナログデータを含む)を格納可能な任意の記録媒体(例えば、メモリ、ハードディスク等)と、当該記録媒体に格納された制御プログラムを実行可能なコントローラ(例えば、CPU;Central Processing Unit)とを備え、当該記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータまたはコンピュータシステム(複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム)として実現され得る。
本実施の形態において、「学習用データ」(training data)は、例えば、参照データとしてユーザに提示され、分類情報が対応付けられたデータ(分類済みの参照データ、参照データと分類情報との組み合わせ)であってよい。学習用データを、「教師データ」または「トレーニングデータ」といってもよい。また、「評価対象データ」(evaluation data)は、当該分類情報が対応付けられていないデータ(参照データとしてユーザに提示されておらず、ユーザにとっては分類されていない未分類のデータ、「未知データ」といってもよい)であってよい。ここで、上記「分類情報」は、参照データを任意に分類するために用いる識別ラベルであってよく、例えば、参照データと所定事案(上記システムがデータとの関連性を評価する対象を広く含み、その範囲は制限されない)とが関係することを示す「Related」ラベルと、両者が関係しないことを示す「Non-Related」ラベルとのように、当該参照データを任意の数(例えば、2つ)のグループに分類する情報であってよい。
図1に例示されるように、上記システムは、例えば、データ分析の主要処理を実行可能なサーバ装置(サーバ計算機)2と、当該データ分析の関連処理を実行可能な一つ、又は、複数のクライアント装置(クライアント計算機)3と、データおよび当該データに対する評価結果を記録するデータベース4を備えるストレージシステム5と、クライアント装置3およびサーバ装置2に対して、データ分析のための管理機能を提供する管理計算機6とを備えてよい。それぞれの装置は、ハードウェア資源として、例えば、メモリ、コントローラ、バス、入出力インターフェース(例えば、キーボード、ディスプレイなど)、通信インターフェース(所定のネットワークを用いた通信手段によって、各装置を通信可能に接続する)などを備えてよい(これらの例に限定されない)。サーバ装置2は、データ分析に必要なプログラムやデータを記録した(非一時的)記憶媒体、例えば、ハードディスク、フラッシュメモリ、DVD、CD、BD等を備えている。
クライアント装置3は、データの一部を参照データとしてユーザに提示する。これにより、当該ユーザは、評価者(又は、ビューワ)として、クライアント装置3を介して参照データに対する評価・分類のための入力を行う(分類情報を与える)ことができる。サーバ装置2は、参照データと分類情報との組み合わせ(学習用データ)に基づいて、当該データからパターン(例えば、データに含まれる抽象的な規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない)を学習し、当該学習したパターンに基づいて、評価対象データと所定事案との関連性を評価する。
管理計算機6は、クライアント装置3、サーバ装置2、及び、ストレージシステム5に対して、所定の管理処理を実行する。ストレージシステム5は、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベース4を備えてよい。サーバ装置2とストレージシステム5とは、DAS(Direct Attached Storage)方式、又は、SAN(Storage Area Network)によって通信可能に接続されている。
なお、図1に示されるハードウェア構成はあくまで例示に過ぎず、上記システムは、他のハードウェア構成によっても代替等されてもよい。例えば、サーバ装置2において実行される処理の一部、又は、全部がクライアント装置3において実行される構成であってもよいし、当該処理の一部または全部がサーバ装置2において実行される構成であってもよいし、ストレージシステム5がサーバ装置2に内蔵される構成であってもよい。また、ユーザは、クライアント装置3を介してサンプルデータに対する評価・分類のための入力を行う(分類情報を与える)だけでなく、サーバ装置2に直接接続された入力機器を介して上記入力を行うこともできる。当該システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、特定の1つの構成(例えば、図1に例示されるような構成)に限定されない。
〔データ評価機能〕
上記システムは、データ評価機能を備えることができる。当該データ評価機能は、人手で分類された少数のデータ(学習用データ)に基づいて、多数の評価対象データ(ビッグデータ)を評価するものである。当該データ評価機能を備えることにより、上記システムは、例えば、評価対象データと所定事案との関連性の高低を示す指標(例えば、評価対象データを序列化可能にする数値(例えば、スコア)、文字(例えば、「高」、「中」、「低」など)、及び//又は、記号(例えば、「◎」、「○」、「△」、「×」など)、を導出することによって、上記評価を実現することができる。データ評価機能は、サーバ装置2のコントローラによって実現される。
上記システムが上記評価のための指標としてスコアを導出する場合、当該システムは、当該スコアを任意の方法で算出することができる。例えば、機械学習、又は、自然言語処理の分野で用いられる各種の手法(例えば、K近傍法、サポートベクターマシンを用いた手法、ニューラルネットワークを用いた手法、データに対して統計モデルを仮定する手法(例えば、ガウス過程を用いた手法など)、及び/又は、これらを組み合わせた手法など)に基づいて当該スコアを算出してもよいし、統計学の分野で用いられる各種の手法に基づいて(例えば、構成要素がデータに現れる頻度に基づいて)算出してもよい。
「構成要素」(データ要素と呼んでもよい)は、データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素、キーワード、センテンス、段落、及び/又は、メタデータ(例えば、電子メールのヘッダ情報)であったり、音声を構成する部分音声、ボリューム(ゲイン)情報、及び/又は、音色情報であったり、画像を構成する部分画像、部分画素、及び/又は、輝度情報であったり、映像を構成するフレーム画像、モーション情報、及び/又は、3次元情報であったりしてよい。
構成要素がデータに現れる頻度に基づいて上記システムが上記スコアを算出する場合、例えば、次のような算出方法が考えられる。先ず、上記システムは、学習用データから、当該学習用データを構成する構成要素を抽出し、当該構成要素を評価する。このとき、上記システムは、例えば、学習用データの少なくとも一部を構成する複数の構成要素が、データと分類情報との組み合わせに寄与する度合い(言い換えれば、当該構成要素が分類情報に応じて出現する頻度)をそれぞれ評価する。度合いを重みと言い換えてもよい。より具体的な一例として、上記システムは、伝達情報量(例えば、構成要素の出現確率と分類情報の出現確率とを用いて、所定の式から算出される情報量)を用いて構成要素を評価することによって、当該構成要素の評価情報としての評価値を、下記の数1に従い算出する。
ここで、wgtは、評価前のi番目の構成要素の評価値の初期値を示す。また、wgtは、L回目の評価後のi番目の構成要素の評価値を示す。γはL回目の評価における評価パラメータを意味し、θは評価の際の閾値を意味する。これにより、上記システムは、例えば、算出した伝達情報量の値が大きいほど、構成要素が所定の分類情報の特徴を表すものとして評価することができる。
次に、上記システムは、上記構成要素と評価値とを対応付け、両者を任意のメモリ(例えば、ストレージシステム5)に格納する。そして、上記システムは、評価対象データから構成要素を抽出し、当該構成要素が上記メモリに格納されているか否かを照会し、格納されている場合は、当該構成要素に対応付けられた評価値を当該メモリから読み出し、当該評価値に基づいて評価対象データを評価する。より具体的な一例として、上記システムは、評価対象データの少なくとも一部を構成する構成要素に対応付けられた評価値を用いて以下の式を計算することによって、上記スコアを算出することができる。
:i番目の構成要素の出現頻度、wgt:i番目の構成要素の評価値
サーバ装置2は、再現率が所定の目標値になるまで、構成要素の抽出、及び、評価を継続する(繰り返す)ことができるようにしてもよい。再現率とは、所定数のデータに対して発見すべきデータが占める割合(網羅性)を示す指標であり、例えば、全データの30%に対して再現率が80%である場合、所定事案に関係するとして、発見されるべきデータの80%が、指標(スコア)上位30%のデータの中に含まれていることを示す。データ分析システムを用いず、人がデータに総当たり(リニアレビュー)した場合、発見すべきデータの量は人がレビューした量に比例するため、この比例からの乖離が大きいほどシステムのデータ分析性能が良いことになる。
前述したデータ評価機能の実現例は、あくまでも一例に過ぎない。すなわち、当該データ評価機能は、「学習用データに基づいて評価対象データを評価する」という機能でありさえすれば、その具体的な態様は特定の1つの構成(例えば、前述したスコアの算出方法)に限定されない。
〔サーバ装置2による評価対象データの評価〕
サーバ装置2による評価対象データの評価動作を説明する。図2は、サーバ装置2(詳しくはサーバ装置2のコントローラ)のフローチャートである。サーバ装置2は、ストレージシステム5に記録された評価対象データの中から一つ又は複数のデータを参照データとして取得する(ステップS300:参照データ取得モジュール)。各ステップを、モジュール又は手段と言い換えることもできる。次に、サーバ装置2は、ユーザが参照データを実際にレビューして分類を決定し、ユーザによって参照データに対して入力された分類情報を、任意の入力装置から取得する(ステップS302:分類情報取得モジュール)。サーバ装置2は、参照データと分類情報とを組み合わせることによって学習用データを構成し、学習用データから構成要素を抽出する(ステップS304:構成要素抽出モジュール)。そして、コントローラは、当該構成要素を評価し(ステップS306:構成要素評価モジュール)、当該構成要素と評価値とを対応付け、両者をストレージシステム5に格納する(ステップS308:構成要素格納モジュール)。上記S300〜S308の処理は、「学習フェーズ」(人工知能がパターンを学習するフェーズ)に対応する。なお、学習用データを、参照データから作成する代わりに、予め用意しておいてもよい。例えば、ある特許権に係る特許を無効にするための公知文献を見つける場合、学習用データは、特許請求の範囲の記載と「Related」ラベルとの組み合わせになる。
次に、サーバ装置2は、ストレージシステム5から評価対象データを取得する(ステップS310:評価対象データ取得モジュール)。サーバ装置2は、さらに、ストレージシステム5から構成要素とその評価値とを読み出し、当該構成要素を評価対象データから抽出する(ステップS312:構成要素抽出モジュール)。サーバ装置2は、当該構成要素に対応付けられた評価値に基づいて評価対象データを評価して(ステップS314:評価対象データ評価モジュール)、複数の評価対象データの序列化情報(ランキング)を作成する。上位の評価対象データであるほど所定事案との関連性が高いことにある。ステップS308以降の処理が、既述の学習フェーズに対して、評価フェーズになる。なお、既述のフローチャートに含まれる各処理は、一例であって、限定される態様を示したものでないことに留意すべきである。
〔同義構成要素の決定〕
評価対象データの評価に当たっては、サーバ装置2は、学習用データの構成要素と同じ構成要素であることは勿論のこと、学習用データの構成要素と関連がある構成要素、特に、学習用データの形態素の同義語が評価対象データに含まれているか否かを検討することは、評価対象データの評価を合理的なものにする上で、重要なことであるといえる。従来、データ分析システムは、評価者に依ることなく、学習用データの形態素の同義語を評価対象データから抽出することを試みてきたが、同義語としては不十分なものに留まり、その結果、評価対象データの評価の精度も十分なものではなかった。そこで、本実施形態のデータ分析システムは、学習用データの所定の構成要素について、当該所定の構成要素を含むデータパターンを学習用データから抽出し、当該データパターンに基づいて評価対象データから同義な構成要素の候補を複数決定し、これら複数の候補を評価し、そして、評価結果に応じて前記所定の構成要素と同義な構成要素を決定することとした。図5は、そのためのフローチャートであり、サーバ装置2は、同義構成要素の決定プログラムに従って、既述のステップS314において、このフローチャートを実行することができる。以下詳細に説明する。なお、本実施の形態において「同義語」とは、語形は異なるが意味は同じである(または類似する)語のことを意味するが、必ずしもこれに限られない。例えば、何らかの基準にしたがって関連する語(関連語)であってもよい。「同義語」の範囲を、ユーザが適宜定めるようにしてもよい。
学習用データから、同義語が見付けられるべき注目形態素を決定する(S500)。
学習用データから同義語が見付けられるべき形態素(注目形態素)は、分析対象システムの評価者、管理者、又は、ユーザによって適宜選択されてよい。好適には、評価値が最上位の形態素、又は、評価値が上位の形態素が注目形態素として選択されてよい。注目形態素は複数選択されてもよい。
学習用データから、注目形態素を含むデータパターンを抽出する(S502)。
サーバ装置2は、学習用データから、注目形態素を含むデータパターン(第1のデータパターン)を抽出するための一例として、注目形態素の学習用データにおける分布の態様を利用することができる(特願2015-238978)。特願2015-238978の明細書、図面に記載された事項を、本願に引用する。なお、第1のデータパターンの態様は、特定のものに限定されなくてもよい。後述のように、注目形態素に付帯する関連形態素を特定できるものであればよい。
図3は、学習用データの一例を示すものであり、a,b,c等のアルファベット一つ一つが形態素に相当し、“・”が形態素として抽出されない、助詞、副詞等の語句である。図3は、複数の形態素夫々の評価値と複数の形態素夫々の学習用データにおける出現位置との分布を示す。縦軸は形態素の評価値であり、横軸は形態素の学習用データにおける出現位置である。棒グラフの一つ一つが形態素の評価値である。そして、複数の形態素の評価値に、例えば、ガウシアンフィルターを用いて平滑化処理を行うと符号100に示す特性が得られる。
この特性100によれば、学習用データに含まれる形態素の優劣(例えば、評価値の高低)を可視化することができ、注目形態素を含むデータパターンをサーバ装置2が抽出、決定、又は、判定する上で有利である。ピーク(102A〜102I)に位置する形態素は、データと分類情報との組み合わせを特徴付ける要素(例えば、所定事案に対する関連性が高い要素)であることを示している。このとき、ピークに位置する形態素に対して所定の位置関係を有する他の形態素、例えば、ピークの形態素の近傍(例えば、隣)に位置する形態素は、ピークの位置する構成要素(特定構成要素)の影響を受けて、換言すれば、ピークの形態素に関連する意味、或いは、意義を有することになって、所定事案に対する関連性が高いといえる。
そこで、サーバ装置2は、学習用データにおける形態素と評価値との分布において、評価値のピークを中心にして形態素を選択する。例えば、サーバ装置2は、ピークに対応する形態素とその前後に出現する形態素とを“形態素グループ”として選択する。ここで、形態素グループは、例えば、学習用データにおいて隣接して出現している複数の形態素を1つのグループとしてまとめたものをいう。図4においては、〔〕で囲まれた領域が形態素グループを示す。例えば、学習用データにおいて、a,b,cが、“a・・b・・c”の順に出現しており、bに評価値のピークがあるとすると、形態素グループは、“a,b,c”によって定義されてよい。形態素同士の間にある意味を持たない語句(既述の“・”)を形態素グループに考慮しなくてよ
評価対象データから同義語の候補を抽出するためのパラメータ(関連形態素のデータパターン)を決定する(S504)。
サーバ装置2は、注目形態素を含む形態素グループを、注目形態素を含むデータパターンとして学習用データから抽出する。このデータパターン(第1のデータパターン)は、注目形態素と、注目形態素に付帯する複数の形態素との組合であることを示している。ここで、注目形態素に伴って同一のデータパターンに出現する形態素は注目形態素に関連した形態素であるため、複数の関連形態素の組合せのデータパターンを辿っていけば、評価対象データから、学習用データには含まれてはいない、又は、含まれていても低く評価されているため第1のデータパターンには表出されない、同義語を見つけ出すことができる。そこで、サーバ装置2は、関連形態素に基づいたデータパターン、即ち、複数の関連形態素の組合せを含む第2のデータパターンキー(パラメータ)にして、複数の評価対象データから同義語を探すことを実行する。
以下に、具体的に説明する。第1のデータパターン:(M,M,M)、(M,M,M)、(M,M,M)・・・
かっこが、学習用データから抽出された第1のデータパターンであり、Mが注目形態素であり、M以外のM,M,M,M,M,M・・・・が関連形態素である。
注目形態素を含む形態素グループが複数存在すると、関連形態素のデータパターンは、次のよう複数存在する。
関連形態素のデータパターン(第2のデータパターン):(M,M)、(M,M)、(M,M)・・・
サーバ装置2は、複数の第2のデータパターン夫々について、複数の評価対象データと比較し、第2のデータパターンを含む評価対象データを特定する。ここで、特定される対象は評価対象データの全体であってもよいし、評価対象データの一部でもよい。例えば、評価対象データが文書ファイルであるとすると、特定される範囲は、文書ファイルの他、その一部、例えば、段落、文、又は、頁であってよい。なお、評価対象データは文書ファイルに限らず、段落、文、又は、頁等でもよい。
パラメータに基づいて評価対象データを分析する(S506)。
サーバ装置2は、関連形態素のデータパターンを(M,M)とすると、形態素としてMとMとを含む評価対象データを複数の評価対象データを含むデータ群(母集団)から抽出する。ここで、抽出された評価対象データは、関連形態素のデータパターン(M,M)を介して注目形態素(M)に関連していると考えられるため、抽出された評価対象データには、注目形態素の同義語の候補が含まれていることが期待、或いは、想定される。したがって、サーバ装置2は、抽出された評価対象データに対して、後述のとおり差分処理を行うことによって、抽出された評価対象データに含まれる形態素から、注目形態素の同義語の候補を抽出、選択、検出、識別、特定、決定、又は、判定することができる。
評価対象データから同義語の候補(複数)を抽出する(S508)。
サーバ装置2は、抽出された評価対象データに差分処理を行うことによって同義語の候補を抽出する。サーバ装置2は、次のようにして、同義語の候補を抽出する。
(1)サーバ装置2は、先ず、抽出された評価対象データから形態素を抽出する。
(2)サーバ装置2は、抽出された形態素に注目形態素が含まれていればこれを除く。なぜなら、同義語は注目形態素と語形が異なるものためである。例えば、注目形態素を「診察」とすると、同義語は「診断」、「診療」、「検診」である。
(3)サーバ装置2は、抽出された形態素から関連形態素を除く。なぜなら、関連形態素は注目形態素に付帯しているだけで、注目形態素の同義語としては、十分とはいえないためである。例えば、注目形態素を「診察」とすると、関連形態素は、「内科」、「病院」である。
前記(1)乃至(3)によって抽出された形態素が注目形態素の同義語の候補になる。しかしながら、これだけでは、同義語の候補としての形態素の数が多数に及ぶ可能性があるため、例えば、当該形態素の数が所定基準以上である場合は、サーバ装置2は、例として、次の処理の少なくとも一つによって、候補形態素の絞り込みを行ってもよい。
A 学習用データに含まれる形態素を同義語の候補から除く。
B 注目形態素の用法とは異なる用法の形態素を同義語の候補から除く。例えば、注目形態素が学習用データにおいては主語として存在し、評価対象体データにおいては、形態素が目的語として存在する場合、後者を同義語の候補から除く。
C 装置、機械、計算機等一般用語を同義語の候補から除く。
D 注目形態素と共起関係にある形態素を同義語の候補から除く。こうする理由は、共起関係にある形態素は、注目形態素に伴って学習用データに出現するため、学習用データに含まれない同義語とは異なるからである。
E 同義語の候補を関連形態素との関連性が高いものに絞り込む。例えば、抽出された評価対象データから、関連形態素を含む形態素グループを抽出し、同義語の候補としての形態素を当該形態素グループに含まれる形態素とする。
サーバ装置2は、関連形態素のデータパターンを一つの評価対象データと比較して同義語の候補を決定すると、これを残りの評価対象データについて繰り返す。こうすることによって、一つの形態素グループに対する同義語の候補が決定される。さらに、サーバ装置は、残りの関連形態素のデータパターンについて、同義語の候補を決定することにより、学習用データ対する同義語の候補の一覧を得ることができる。図6は、関連形態素のデータパターン毎の同義語候補(MW1,MW2,MW3,・・・,MW)の一覧を示す管理テーブルである。この管理テーブルは、データベース4に記録されてよい。
同義語の候補を評価して、同義語を決定する(S510)。
次いで、サーバ装置2は、複数の同義語の候補を評価して、複数の同義語の候補の中から同義語とすべき形態素決定する。サーバ装置2は、同義語の候補を評価する一例として、同義語の候補の出現頻度に基づいて同義語の候補を評価する。即ち、サーバ装置は、図6に示すように、関連形態素のデータパターン毎に複数の評価対象データにおける同義語候補の出現数を計数し、夫々の同義語候補の計数値を複数の関連形態素データパターンに亘って累計した合算値(SUM)に基づいて、合算値が高いほど形態素ほど同義語として相応しいと判定する。
サーバ装置2は、同義語候補の合算値の高い順でのランキングに応じて所定数(一つ又は複数)の形態素を同義語として決定する。例えば、最上位の形態素を同義語として決定する、又は、最上位から所定順位までの形態素を同義語として決定する。なお、ランキングの上位は、同義語の候補としてというよりも、評価対象データにおいて汎用された形態素として出現した可能性もあるために、それが疑われる場合には、ランキングの上位にある所定範囲の形態素を除いて同義を決定するようにしてもよい。ランキングに基づいて同義語を決定することは、サーバ装置2によってなされてもよいし、ユーザによって同義語が決定されてもよい。
同義語の評価値を決定する(S512)。
サーバ装置2は注目形態素の同義語としての対象形態素を決定すると、対象形態素の評価値を決定する。対象形態素の評価値は、例えば、注目形態素の評価値に基づくものであればよい。対象形態素の評価値は、注目形態素の評価値と同じでも、これを補正したものでもよい。したがって、サーバ装置2は、対象形態素の評価値にも基づいて複数の評価対象データを評価することができる。
〔データ分析システムが処理するデータ形式〕
本実施の形態において、「データ」は、コンピュータによって処理可能となる形式で表現された任意のデータであってよい。上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ(例えば、電子メール(添付ファイル・ヘッダ情報を含む)、技術文書(例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む)、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど)、音声データ(例えば、会話・音楽などを録音したデータ)、画像データ(例えば、複数の画素またはベクター情報から構成されるデータ)、映像データ(例えば、複数のフレーム画像から構成されるデータ)などを広く含む(これらの例に限定されない)。
例えば、文書データを分析する場合、上記システムは、学習用データとしての文書データに含まれる形態素を構成要素として抽出し、当該構成要素をそれぞれ評価し、評価対象データとしての文書データから抽出した構成要素に基づいて、当該文書データと所定事案との関連性を評価することができる。また、音声データを分析する場合、上記システムは、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、上記システムは、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法(例えば、隠れマルコフモデル、カルマンフィルタなど)を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いて音声を認識し、認識後のデータ(文書データ)に対して、前述した手順と同様の手順で分析できる。また、画像データを分析する場合、上記システムは、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該画像データを分析できる。さらに、映像データを分析する場合、上記システムは、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法(例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど)を用いて当該部分画像を識別することによって、当該映像データを分析できる。
なお、上記システムが音声データを分析する場合、「同義な構成要素」は、選択された所定の構成要素(例えば、部分音声)と音素の系列が類似する構成要素であってよい。また、上記システムが画像データまたは映像データを分析する場合、「同義な構成要素」は、選択された所定の構成要素(例えば、部分画像、複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割したもの)と画素の系列が類似する構成要素であったり、同じ(または類似の)被写体が現れている構成要素であったりしてよい。ただし、これらの例には限定されない。
〔ソフトウェア・ハードウェアによる実現例〕
上記システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPUを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム(データ分析システムの制御プログラム)を実行するCPU、当該プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。
〔アプリケーション例〕
上記システムは、例えば、ディスカバリー支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム(例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測(転倒防止)システム、予後予測システム、診断支援システムなど)、インターネット応用システム(例えば、スマートメールシステム、情報アグリゲーション(キュレーション)システム、ユーザ監視システム、ソーシャルメディア運営システムなど)、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム(データと所定事案との関連性を評価可能な任意のシステム)として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理(例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど)を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
1……データ分析システム、2……サーバ装置、3……クライアント装置、4……データベース、5……ストレージシステム、6……管理計算機

Claims (12)

  1. データを分析するデータ分析システムであって、
    分析の対象となる複数の評価対象データを少なくとも一時的に記憶するメモリと、
    前記複数の評価対象データを学習用データに基づいて評価するコントローラと、
    を備え、
    前記コントローラは、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
    前記複数の構成要素から、注目構成要素を選択し、
    当該注目構成要素を含む複数の第1のデータパターンを前記学習用データから抽出し、
    前記複数の第1のデータパターン夫々に基づいて、前記注目構成要素に関連する関連構成要素を夫々含む複数の第2のデータパターンを生成し、
    前記複数の第2のデータパターン夫々について、前記複数の評価対象データから前記関連構成要素を含む評価対象データを抽出し、
    当該評価対象データから抽出された構成要素と、前記注目構成要素及び前記関連構成要素との差分に基づいて前記注目構成要素に同義とすべき構成要素を決定する
    データ分析システム。
  2. 前記コントローラは、
    前記評価対象データから抽出された構成要素から前記注目構成要素と前記関連構成要素とを除いた構成要素を、前記注目構成要素と同義な構成要素の候補として決定し、そして、前記複数の第2のデータパターン夫々について、前記決定された同義な構成要素の候補の複数を夫々評価し、当該評価に基づくことによって、前記注目構成要素に同義とすべき構成要素を決定し、
    前記同義な構成要素の候補の数が所定基準以上である場合は、当該候補となる構成要素を絞り込む
    請求項1記載のデータ分析システム。
  3. データを分析するデータ分析システムであって、
    分析の対象となる複数の評価対象データを少なくとも一時的に記憶するメモリと、
    前記複数の評価対象データを学習用データに基づいて評価するコントローラと、
    を備え、
    前記コントローラは、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
    前記複数の構成要素から所定の構成要素を選択し、
    当該所定の構成要素を含む第1のデータパターンを前記学習用データから抽出し、
    前記第1のデータパターンに関連する第2のデータパターンに基づいて複数の前記評価対象データの夫々を検索し、
    前記第2のデータパターンを含む評価対象データを抽出し、そして、
    当該評価対象データから抽出した構成要素と前記第1のデータパターンとの差分に基づいて、前記選択された構成要素と同義な構成要素を決定し、
    さらに、前記コントローラは、
    ユーザに提示された参照データと、当該ユーザによって当該参照データに設定された分類情報の組み合わせとを前記学習用データとし、
    前記複数の構成要素夫々の前記組み合わせに寄与する度合いに基づいて、当該複数の構成要素夫々の評価情報を生成し、そして、
    前記生成された評価情報に基づいて、前記複数の評価対象データを序列化するための指標を生成することにより、当該複数の評価対象データの夫々を評価する
    データ分析システム。
  4. データを分析するデータ分析システムであって、
    分析の対象となる複数の評価対象データを少なくとも一時的に記憶するメモリと、
    前記複数の評価対象データを学習用データに基づいて評価するコントローラと、
    を備え、
    前記コントローラは、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
    前記複数の構成要素から所定の構成要素を選択し、
    当該所定の構成要素を含む第1のデータパターンを前記学習用データから抽出し、
    前記第1のデータパターンに関連する第2のデータパターンに基づいて複数の前記評価対象データの夫々を検索し、
    前記第2のデータパターンを含む評価対象データを抽出し、そして、
    当該評価対象データから抽出した構成要素と前記第1のデータパターンとの差分に基づいて、前記選択された構成要素と同義な構成要素を決定し、
    さらに、前記コントローラは、
    前記第1のデータパターンを、前記複数の構成要素の前記学習用データにおける分布の態様に基づいて決定する
    データ分析システム。
  5. 前記コントローラは、
    前記複数の構成要素夫々の評価情報と、当該複数の構成要素夫々が前記学習用データにおいて出現する位置との関係から、前記分布を得る
    請求項4記載のデータ分析システム。
  6. 前記コントローラは、
    前記第1のデータパターンを、前記所定の構成要素と、前記分布に基づいて当該所定の構成要素に付帯する他の構成要素との組合せとし、
    前記第2のデータパターンを、前記他の構成要素を含むものとする
    請求項4又は5記載のデータ分析システム。
  7. 前記コントローラは、
    前記所定の構成要素の前記分布に基づく位置関係に基づいて前記他の構成要素を設定する
    請求項6記載のデータ分析システム。
  8. 前記コントローラは、
    前記複数の候補夫々の評価を、前記複数の評価用データにおける当該候補の出現頻度に基づいて行う
    請求項2記載のデータ分析システム。
  9. 前記コントローラは、
    前記同義な構成要素の評価情報を前記所定の構成要素の評価情報に基づいて決定し、
    当該同義な構成要素の評価情報に基づいて前記複数の評価対象データの夫々を評価する
    請求項3記載のデータ分析システム。
  10. 複数の評価対象データを学習用データに基づいて評価するデータ分析システムの制御方法であって、
    前記データ分析システムが、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
    前記複数の構成要素から、注目構成要素を選択し、
    当該注目構成要素を含む複数の第1のデータパターンを前記学習用データから抽出し、
    前記複数の第1のデータパターン夫々に基づいて、前記注目構成要素に関連する関連構成要素を夫々含む複数の第2のデータパターンを生成し、
    前記複数の第2のデータパターン夫々について、前記複数の評価対象データから前記関連構成要素を含む評価対象データを抽出し、
    当該評価対象データから抽出された構成要素と、前記注目構成要素及び前記関連構成要素との差分に基づいて前記注目構成要素に同義とすべき構成要素を決定する
    データ分析システムの制御方法。
  11. 複数の評価対象データを学習用データに基づいて評価するデータ分析をコンピュータに実行させるプログラムであって、
    前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
    前記複数の構成要素から、注目構成要素を選択し、
    当該注目構成要素を含む複数の第1のデータパターンを前記学習用データから抽出し、
    前記複数の第1のデータパターン夫々に基づいて、前記注目構成要素に関連する関連構成要素を夫々含む複数の第2のデータパターンを生成し、
    前記複数の第2のデータパターン夫々について、前記複数の評価対象データから前記関連構成要素を含む評価対象データを抽出し、
    当該評価対象データから抽出された構成要素と、前記注目構成要素及び前記関連構成要素との差分に基づいて前記注目構成要素に同義とすべき構成要素を決定する
    ことをコンピュータに実現させるためのプログラム。
  12. 請求項11記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2016078175A 2016-04-08 2016-04-08 データ分析システム、その制御方法、プログラム、及び、記録媒体 Expired - Fee Related JP6026036B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2016078175A JP6026036B1 (ja) 2016-04-08 2016-04-08 データ分析システム、その制御方法、プログラム、及び、記録媒体
US15/482,401 US20170293863A1 (en) 2016-04-08 2017-04-07 Data analysis system, and control method, program, and recording medium therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016078175A JP6026036B1 (ja) 2016-04-08 2016-04-08 データ分析システム、その制御方法、プログラム、及び、記録媒体

Publications (2)

Publication Number Publication Date
JP6026036B1 true JP6026036B1 (ja) 2016-11-16
JP2017188025A JP2017188025A (ja) 2017-10-12

Family

ID=57326631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016078175A Expired - Fee Related JP6026036B1 (ja) 2016-04-08 2016-04-08 データ分析システム、その制御方法、プログラム、及び、記録媒体

Country Status (2)

Country Link
US (1) US20170293863A1 (ja)
JP (1) JP6026036B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6816824B2 (ja) * 2017-06-06 2021-01-20 日本電気株式会社 分散システム、データ管理装置、データ管理方法、及びプログラム
JP6509391B1 (ja) * 2018-01-31 2019-05-08 株式会社Fronteo 計算機システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287020A (ja) * 2009-06-11 2010-12-24 Hitachi Ltd 同義語展開システム及び同義語展開方法
JP2014106665A (ja) * 2012-11-27 2014-06-09 Hitachi Ltd 文書検索装置、文書検索方法
JP2015014993A (ja) * 2013-07-08 2015-01-22 日本電信電話株式会社 検索意図辞書作成装置、検索意図辞書作成方法及び検索意図辞書作成プログラム
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2797067B1 (fr) * 1999-06-09 2005-07-29 Ricoh Kk Procede, dispositif et support lisible par ordinateur pour effectuer une recherche de document
JP4346531B2 (ja) * 2004-09-17 2009-10-21 株式会社東芝 テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US8166045B1 (en) * 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US8676730B2 (en) * 2011-07-11 2014-03-18 Accenture Global Services Limited Sentiment classifiers based on feature extraction
US20130305149A1 (en) * 2012-05-10 2013-11-14 SEC Live, LLC Document reader and system for extraction of structural and semantic information from documents
US9679050B2 (en) * 2014-04-30 2017-06-13 Adobe Systems Incorporated Method and apparatus for generating thumbnails

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010287020A (ja) * 2009-06-11 2010-12-24 Hitachi Ltd 同義語展開システム及び同義語展開方法
JP2014106665A (ja) * 2012-11-27 2014-06-09 Hitachi Ltd 文書検索装置、文書検索方法
JP2015014993A (ja) * 2013-07-08 2015-01-22 日本電信電話株式会社 検索意図辞書作成装置、検索意図辞書作成方法及び検索意図辞書作成プログラム
JP2015106361A (ja) * 2013-12-02 2015-06-08 株式会社日立製作所 データ検索システムおよびデータ検索方法

Also Published As

Publication number Publication date
JP2017188025A (ja) 2017-10-12
US20170293863A1 (en) 2017-10-12

Similar Documents

Publication Publication Date Title
JP6182279B2 (ja) データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
Stein et al. Intrinsic plagiarism analysis
WO2018184518A1 (zh) 微博数据处理方法、装置、计算机设备及存储介质
US11023503B2 (en) Suggesting text in an electronic document
JP2017045434A (ja) データ分析システム、データ分析方法、プログラム、および、記録媒体
US11689507B2 (en) Privacy preserving document analysis
Addepalli et al. A proposed framework for measuring customer satisfaction and product recommendation for ecommerce
Bitto et al. Sentiment analysis from Bangladeshi food delivery startup based on user reviews using machine learning and deep learning
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Sandhu et al. Enhanced Text Mining Approach for Better Ranking System of Customer Reviews
JP5933863B1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
JP2017201543A (ja) データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
Heidari et al. Financial footnote analysis: developing a text mining approach
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
WO2016189605A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
JP6509391B1 (ja) 計算機システム
JP5946949B1 (ja) データ分析システム、その制御方法、プログラム、および、記録媒体
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN111316370B (zh) 基于附录的报告质量分数卡生成
KR102155692B1 (ko) 소셜 네트워크 서비스 메시지의 감정 분석을 위한 POS(part of speech) 특징기반의 감정 분석 방법 및 이를 수행하는 감정 분석 장치
Tu et al. A domain-independent text segmentation method for educational course content
Thakur et al. The SAFE miner: A fine grained aspect level approach for resolving the sentiment
Chaudhary et al. Fake News Detection During 2016 US Elections Using Bootstrapped Metadata-Based Naïve Bayesian Classifier
Jadon et al. Sentiment analysis for movies prediction using machine leaning techniques
Congleton et al. Tracing Political Positioning of Dutch Newspapers

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161011

R150 Certificate of patent or registration of utility model

Ref document number: 6026036

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees