JP6026036B1

JP6026036B1 - データ分析システム、その制御方法、プログラム、及び、記録媒体

Info

Publication number: JP6026036B1
Application number: JP2016078175A
Authority: JP
Inventors: 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2016-04-08
Filing date: 2016-04-08
Publication date: 2016-11-16
Anticipated expiration: 2036-04-08
Also published as: JP2017188025A; US20170293863A1

Abstract

【課題】分析対象データの所定事案への関連性を正確に評価できるようにするためのデータ分析システム等を提供する。【解決手段】本発明は、データの分析において、学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、複数の構成要素から所定の構成要素を選択し、当該所定の構成要素を含む第１のデータパターンを学習用データから抽出し、第１のデータパターンに関連する第２のデータパターンに基づいて複数の評価対象データの夫々を検索し、２のデータパターンを含む評価対象データを抽出し、そして、抽出された評価対象データと第１のデータパターンとの差分に基づいて、選択された構成要素と同義な構成要素を決定する。【選択図】図５

Description

本発明は、データを分析するデータ分析システム等に関するものであり、例えば、ビックデータを分析する人工知能を備えたシステムに適用可能なものである。

コンピュータの発展により社会の情報化が進んだ結果、企業・個人の活動に、ビッグデータが、広範に、かつ、密接に関係するようになってきている。そのため、最近では、ビッグデータの中から、所望の情報を的確に分別する必要性が叫ばれている。

ビッグデータから、所望の情報を取り出すためのアプローチとして、複数の参照データの夫々をレビューワが所定事案に関係する否かの観点から分類し、この結果を利用して、分析対象のデータを自動的に分類するシステムが知られている（例えば、特開２０１３−１８２３３８号公報）。

特開２０１３―１８２３３８号公報

前記従来のデータ分析システムによれば、膨大なデータの中から、所定事案に関係するデータを見つけ出すことができる。しかしながら、参照データの構成要素に関連する構成要素を含みながら、構成要素の表現態様が異なるというだけで、所定事案に関係する度合いが本来高いデータであるにもかかわらず、実際には、そのように評価されないというおそれがある。そこで、本発明は、分析対象データの所定事案への関連性を正確に評価できるようにするためのデータ分析システム等を提供することを目的とする。

前記目的は、データの分析において、学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、学習用データの少なくとも一部を構成するものであり、複数の構成要素から所定の構成要素を選択し、所定の構成要素を含む第１のデータパターンを学習用データから抽出し、第１のデータパターンに関連する第２のデータパターンに基づいて複数の評価対象データの夫々を検索し、第２のデータパターンを含む評価対象データを抽出し、そして、抽出された評価対象データと第１のデータパターンとの差分に基づいて、選択された構成要素と同義な構成要素を決定することによって達成される。

既述の開示によって、分析対象データの所定事案への関連性を正確に評価できるようにするためのデータ分析システム等が提供される。

データ分析システムのハードウェア構成の一例を示すブロック図である。サーバ装置が評価対象データの評価する際に実行するフローチャートの一例である。学習用データにおける構成要素の配置を説明する図である。複数の構成要素夫々の評価値と学習用データにおける出現位置との分布を示す特性図である。サーバ装置が、評価対象データから同義語を抽出するフローチャートの一例である。関連形態素のデータパターン毎における同義語候補の一覧を示す管理テーブルである。

〔データ分析システムの構成〕
図１は、本実施の形態に係るデータ分析システム（以下、単に「システム」と略記することがある）のハードウェア構成の一例を示すブロック図である。当該システムは、例えば、データ（デジタルデータ、及び／又は、アナログデータを含む）を格納可能な任意の記録媒体（例えば、メモリ、ハードディスク等）と、当該記録媒体に格納された制御プログラムを実行可能なコントローラ（例えば、ＣＰＵ；Central Processing Unit）とを備え、当該記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータまたはコンピュータシステム（複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム）として実現され得る。

本実施の形態において、「学習用データ」（training data）は、例えば、参照データとしてユーザに提示され、分類情報が対応付けられたデータ（分類済みの参照データ、参照データと分類情報との組み合わせ）であってよい。学習用データを、「教師データ」または「トレーニングデータ」といってもよい。また、「評価対象データ」（evaluation data）は、当該分類情報が対応付けられていないデータ（参照データとしてユーザに提示されておらず、ユーザにとっては分類されていない未分類のデータ、「未知データ」といってもよい）であってよい。ここで、上記「分類情報」は、参照データを任意に分類するために用いる識別ラベルであってよく、例えば、参照データと所定事案（上記システムがデータとの関連性を評価する対象を広く含み、その範囲は制限されない）とが関係することを示す「Related」ラベルと、両者が関係しないことを示す「Non-Related」ラベルとのように、当該参照データを任意の数（例えば、２つ）のグループに分類する情報であってよい。

図１に例示されるように、上記システムは、例えば、データ分析の主要処理を実行可能なサーバ装置（サーバ計算機）２と、当該データ分析の関連処理を実行可能な一つ、又は、複数のクライアント装置（クライアント計算機）３と、データおよび当該データに対する評価結果を記録するデータベース４を備えるストレージシステム５と、クライアント装置３およびサーバ装置２に対して、データ分析のための管理機能を提供する管理計算機６とを備えてよい。それぞれの装置は、ハードウェア資源として、例えば、メモリ、コントローラ、バス、入出力インターフェース（例えば、キーボード、ディスプレイなど）、通信インターフェース（所定のネットワークを用いた通信手段によって、各装置を通信可能に接続する）などを備えてよい（これらの例に限定されない）。サーバ装置２は、データ分析に必要なプログラムやデータを記録した（非一時的）記憶媒体、例えば、ハードディスク、フラッシュメモリ、ＤＶＤ、ＣＤ、ＢＤ等を備えている。

クライアント装置３は、データの一部を参照データとしてユーザに提示する。これにより、当該ユーザは、評価者（又は、ビューワ）として、クライアント装置３を介して参照データに対する評価・分類のための入力を行う（分類情報を与える）ことができる。サーバ装置２は、参照データと分類情報との組み合わせ（学習用データ）に基づいて、当該データからパターン（例えば、データに含まれる抽象的な規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない）を学習し、当該学習したパターンに基づいて、評価対象データと所定事案との関連性を評価する。

管理計算機６は、クライアント装置３、サーバ装置２、及び、ストレージシステム５に対して、所定の管理処理を実行する。ストレージシステム５は、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベース４を備えてよい。サーバ装置２とストレージシステム５とは、ＤＡＳ（Direct Attached Storage）方式、又は、ＳＡＮ（Storage Area Network）によって通信可能に接続されている。

なお、図１に示されるハードウェア構成はあくまで例示に過ぎず、上記システムは、他のハードウェア構成によっても代替等されてもよい。例えば、サーバ装置２において実行される処理の一部、又は、全部がクライアント装置３において実行される構成であってもよいし、当該処理の一部または全部がサーバ装置２において実行される構成であってもよいし、ストレージシステム５がサーバ装置２に内蔵される構成であってもよい。また、ユーザは、クライアント装置３を介してサンプルデータに対する評価・分類のための入力を行う（分類情報を与える）だけでなく、サーバ装置２に直接接続された入力機器を介して上記入力を行うこともできる。当該システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、特定の１つの構成（例えば、図１に例示されるような構成）に限定されない。

〔データ評価機能〕
上記システムは、データ評価機能を備えることができる。当該データ評価機能は、人手で分類された少数のデータ（学習用データ）に基づいて、多数の評価対象データ（ビッグデータ）を評価するものである。当該データ評価機能を備えることにより、上記システムは、例えば、評価対象データと所定事案との関連性の高低を示す指標（例えば、評価対象データを序列化可能にする数値（例えば、スコア）、文字（例えば、「高」、「中」、「低」など）、及び／/又は、記号（例えば、「◎」、「○」、「△」、「×」など）、を導出することによって、上記評価を実現することができる。データ評価機能は、サーバ装置２のコントローラによって実現される。

上記システムが上記評価のための指標としてスコアを導出する場合、当該システムは、当該スコアを任意の方法で算出することができる。例えば、機械学習、又は、自然言語処理の分野で用いられる各種の手法（例えば、Ｋ近傍法、サポートベクターマシンを用いた手法、ニューラルネットワークを用いた手法、データに対して統計モデルを仮定する手法（例えば、ガウス過程を用いた手法など）、及び／又は、これらを組み合わせた手法など）に基づいて当該スコアを算出してもよいし、統計学の分野で用いられる各種の手法に基づいて（例えば、構成要素がデータに現れる頻度に基づいて）算出してもよい。

「構成要素」（データ要素と呼んでもよい）は、データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素、キーワード、センテンス、段落、及び／又は、メタデータ（例えば、電子メールのヘッダ情報）であったり、音声を構成する部分音声、ボリューム（ゲイン）情報、及び／又は、音色情報であったり、画像を構成する部分画像、部分画素、及び／又は、輝度情報であったり、映像を構成するフレーム画像、モーション情報、及び／又は、３次元情報であったりしてよい。

構成要素がデータに現れる頻度に基づいて上記システムが上記スコアを算出する場合、例えば、次のような算出方法が考えられる。先ず、上記システムは、学習用データから、当該学習用データを構成する構成要素を抽出し、当該構成要素を評価する。このとき、上記システムは、例えば、学習用データの少なくとも一部を構成する複数の構成要素が、データと分類情報との組み合わせに寄与する度合い（言い換えれば、当該構成要素が分類情報に応じて出現する頻度）をそれぞれ評価する。度合いを重みと言い換えてもよい。より具体的な一例として、上記システムは、伝達情報量（例えば、構成要素の出現確率と分類情報の出現確率とを用いて、所定の式から算出される情報量）を用いて構成要素を評価することによって、当該構成要素の評価情報としての評価値を、下記の数１に従い算出する。

ここで、ｗｇｔは、評価前のｉ番目の構成要素の評価値の初期値を示す。また、ｗｇｔは、Ｌ回目の評価後のｉ番目の構成要素の評価値を示す。γはＬ回目の評価における評価パラメータを意味し、θは評価の際の閾値を意味する。これにより、上記システムは、例えば、算出した伝達情報量の値が大きいほど、構成要素が所定の分類情報の特徴を表すものとして評価することができる。

次に、上記システムは、上記構成要素と評価値とを対応付け、両者を任意のメモリ（例えば、ストレージシステム５）に格納する。そして、上記システムは、評価対象データから構成要素を抽出し、当該構成要素が上記メモリに格納されているか否かを照会し、格納されている場合は、当該構成要素に対応付けられた評価値を当該メモリから読み出し、当該評価値に基づいて評価対象データを評価する。より具体的な一例として、上記システムは、評価対象データの少なくとも一部を構成する構成要素に対応付けられた評価値を用いて以下の式を計算することによって、上記スコアを算出することができる。
ｍ_ｊ：ｉ番目の構成要素の出現頻度、wgt_ｉ：ｉ番目の構成要素の評価値

サーバ装置２は、再現率が所定の目標値になるまで、構成要素の抽出、及び、評価を継続する（繰り返す）ことができるようにしてもよい。再現率とは、所定数のデータに対して発見すべきデータが占める割合（網羅性）を示す指標であり、例えば、全データの３０％に対して再現率が８０％である場合、所定事案に関係するとして、発見されるべきデータの８０％が、指標（スコア）上位３０％のデータの中に含まれていることを示す。データ分析システムを用いず、人がデータに総当たり（リニアレビュー）した場合、発見すべきデータの量は人がレビューした量に比例するため、この比例からの乖離が大きいほどシステムのデータ分析性能が良いことになる。

前述したデータ評価機能の実現例は、あくまでも一例に過ぎない。すなわち、当該データ評価機能は、「学習用データに基づいて評価対象データを評価する」という機能でありさえすれば、その具体的な態様は特定の１つの構成（例えば、前述したスコアの算出方法）に限定されない。

〔サーバ装置２による評価対象データの評価〕
サーバ装置２による評価対象データの評価動作を説明する。図２は、サーバ装置２（詳しくはサーバ装置２のコントローラ）のフローチャートである。サーバ装置２は、ストレージシステム５に記録された評価対象データの中から一つ又は複数のデータを参照データとして取得する（ステップＳ３００：参照データ取得モジュール）。各ステップを、モジュール又は手段と言い換えることもできる。次に、サーバ装置２は、ユーザが参照データを実際にレビューして分類を決定し、ユーザによって参照データに対して入力された分類情報を、任意の入力装置から取得する（ステップＳ３０２：分類情報取得モジュール）。サーバ装置２は、参照データと分類情報とを組み合わせることによって学習用データを構成し、学習用データから構成要素を抽出する（ステップＳ３０４：構成要素抽出モジュール）。そして、コントローラは、当該構成要素を評価し（ステップＳ３０６：構成要素評価モジュール）、当該構成要素と評価値とを対応付け、両者をストレージシステム５に格納する（ステップＳ３０８：構成要素格納モジュール）。上記Ｓ３００〜Ｓ３０８の処理は、「学習フェーズ」（人工知能がパターンを学習するフェーズ）に対応する。なお、学習用データを、参照データから作成する代わりに、予め用意しておいてもよい。例えば、ある特許権に係る特許を無効にするための公知文献を見つける場合、学習用データは、特許請求の範囲の記載と「Related」ラベルとの組み合わせになる。

次に、サーバ装置２は、ストレージシステム５から評価対象データを取得する（ステップＳ３１０：評価対象データ取得モジュール）。サーバ装置２は、さらに、ストレージシステム５から構成要素とその評価値とを読み出し、当該構成要素を評価対象データから抽出する（ステップＳ３１２：構成要素抽出モジュール）。サーバ装置２は、当該構成要素に対応付けられた評価値に基づいて評価対象データを評価して（ステップＳ３１４：評価対象データ評価モジュール）、複数の評価対象データの序列化情報（ランキング）を作成する。上位の評価対象データであるほど所定事案との関連性が高いことにある。ステップＳ３０８以降の処理が、既述の学習フェーズに対して、評価フェーズになる。なお、既述のフローチャートに含まれる各処理は、一例であって、限定される態様を示したものでないことに留意すべきである。

〔同義構成要素の決定〕
評価対象データの評価に当たっては、サーバ装置２は、学習用データの構成要素と同じ構成要素であることは勿論のこと、学習用データの構成要素と関連がある構成要素、特に、学習用データの形態素の同義語が評価対象データに含まれているか否かを検討することは、評価対象データの評価を合理的なものにする上で、重要なことであるといえる。従来、データ分析システムは、評価者に依ることなく、学習用データの形態素の同義語を評価対象データから抽出することを試みてきたが、同義語としては不十分なものに留まり、その結果、評価対象データの評価の精度も十分なものではなかった。そこで、本実施形態のデータ分析システムは、学習用データの所定の構成要素について、当該所定の構成要素を含むデータパターンを学習用データから抽出し、当該データパターンに基づいて評価対象データから同義な構成要素の候補を複数決定し、これら複数の候補を評価し、そして、評価結果に応じて前記所定の構成要素と同義な構成要素を決定することとした。図５は、そのためのフローチャートであり、サーバ装置２は、同義構成要素の決定プログラムに従って、既述のステップＳ３１４において、このフローチャートを実行することができる。以下詳細に説明する。なお、本実施の形態において「同義語」とは、語形は異なるが意味は同じである（または類似する）語のことを意味するが、必ずしもこれに限られない。例えば、何らかの基準にしたがって関連する語（関連語）であってもよい。「同義語」の範囲を、ユーザが適宜定めるようにしてもよい。

学習用データから、同義語が見付けられるべき注目形態素を決定する（Ｓ５００）。
学習用データから同義語が見付けられるべき形態素（注目形態素）は、分析対象システムの評価者、管理者、又は、ユーザによって適宜選択されてよい。好適には、評価値が最上位の形態素、又は、評価値が上位の形態素が注目形態素として選択されてよい。注目形態素は複数選択されてもよい。

学習用データから、注目形態素を含むデータパターンを抽出する（Ｓ５０２）。
サーバ装置２は、学習用データから、注目形態素を含むデータパターン（第１のデータパターン）を抽出するための一例として、注目形態素の学習用データにおける分布の態様を利用することができる（特願2015-238978）。特願2015-238978の明細書、図面に記載された事項を、本願に引用する。なお、第１のデータパターンの態様は、特定のものに限定されなくてもよい。後述のように、注目形態素に付帯する関連形態素を特定できるものであればよい。

図３は、学習用データの一例を示すものであり、ａ，ｂ，ｃ等のアルファベット一つ一つが形態素に相当し、“・”が形態素として抽出されない、助詞、副詞等の語句である。図３は、複数の形態素夫々の評価値と複数の形態素夫々の学習用データにおける出現位置との分布を示す。縦軸は形態素の評価値であり、横軸は形態素の学習用データにおける出現位置である。棒グラフの一つ一つが形態素の評価値である。そして、複数の形態素の評価値に、例えば、ガウシアンフィルターを用いて平滑化処理を行うと符号１００に示す特性が得られる。

この特性１００によれば、学習用データに含まれる形態素の優劣（例えば、評価値の高低）を可視化することができ、注目形態素を含むデータパターンをサーバ装置２が抽出、決定、又は、判定する上で有利である。ピーク（１０２Ａ〜１０２Ｉ）に位置する形態素は、データと分類情報との組み合わせを特徴付ける要素（例えば、所定事案に対する関連性が高い要素）であることを示している。このとき、ピークに位置する形態素に対して所定の位置関係を有する他の形態素、例えば、ピークの形態素の近傍（例えば、隣）に位置する形態素は、ピークの位置する構成要素（特定構成要素）の影響を受けて、換言すれば、ピークの形態素に関連する意味、或いは、意義を有することになって、所定事案に対する関連性が高いといえる。

そこで、サーバ装置２は、学習用データにおける形態素と評価値との分布において、評価値のピークを中心にして形態素を選択する。例えば、サーバ装置２は、ピークに対応する形態素とその前後に出現する形態素とを“形態素グループ”として選択する。ここで、形態素グループは、例えば、学習用データにおいて隣接して出現している複数の形態素を１つのグループとしてまとめたものをいう。図４においては、〔〕で囲まれた領域が形態素グループを示す。例えば、学習用データにおいて、ａ，ｂ，ｃが、“ａ・・ｂ・・ｃ”の順に出現しており、ｂに評価値のピークがあるとすると、形態素グループは、“ａ，ｂ，ｃ”によって定義されてよい。形態素同士の間にある意味を持たない語句（既述の“・”）を形態素グループに考慮しなくてよい。

評価対象データから同義語の候補を抽出するためのパラメータ（関連形態素のデータパターン）を決定する（Ｓ５０４）。
サーバ装置２は、注目形態素を含む形態素グループを、注目形態素を含むデータパターンとして学習用データから抽出する。このデータパターン（第１のデータパターン）は、注目形態素と、注目形態素に付帯する複数の形態素との組合であることを示している。ここで、注目形態素に伴って同一のデータパターンに出現する形態素は注目形態素に関連した形態素であるため、複数の関連形態素の組合せのデータパターンを辿っていけば、評価対象データから、学習用データには含まれてはいない、又は、含まれていても低く評価されているため第１のデータパターンには表出されない、同義語を見つけ出すことができる。そこで、サーバ装置２は、関連形態素に基づいたデータパターン、即ち、複数の関連形態素の組合せを含む第２のデータパターンをキー（パラメータ）にして、複数の評価対象データから同義語を探すことを実行する。

以下に、具体的に説明する。第１のデータパターン：（Ｍ_１，Ｍ_０，Ｍ_２）、（Ｍ_３，Ｍ_０，Ｍ_４）、（Ｍ_５，Ｍ_０，Ｍ_６）・・・
かっこが、学習用データから抽出された第１のデータパターンであり、Ｍ_０が注目形態素であり、Ｍ_０以外のＭ_１，Ｍ_２，Ｍ_３，Ｍ_４，Ｍ_５，Ｍ_６・・・・が関連形態素である。

注目形態素を含む形態素グループが複数存在すると、関連形態素のデータパターンは、次のよう複数存在する。
関連形態素のデータパターン（第２のデータパターン）：（Ｍ_１，Ｍ_２）、（Ｍ_３，Ｍ_４）、（Ｍ_５，Ｍ_６）・・・
サーバ装置２は、複数の第２のデータパターン夫々について、複数の評価対象データと比較し、第２のデータパターンを含む評価対象データを特定する。ここで、特定される対象は評価対象データの全体であってもよいし、評価対象データの一部でもよい。例えば、評価対象データが文書ファイルであるとすると、特定される範囲は、文書ファイルの他、その一部、例えば、段落、文、又は、頁であってよい。なお、評価対象データは文書ファイルに限らず、段落、文、又は、頁等でもよい。

パラメータに基づいて評価対象データを分析する（Ｓ５０６）。
サーバ装置２は、関連形態素のデータパターンを（Ｍ_１，Ｍ_２）とすると、形態素としてＭ_１とＭ_２とを含む評価対象データを複数の評価対象データを含むデータ群（母集団）から抽出する。ここで、抽出された評価対象データは、関連形態素のデータパターン（Ｍ_１，Ｍ_２）を介して注目形態素（Ｍ_０）に関連していると考えられるため、抽出された評価対象データには、注目形態素の同義語の候補が含まれていることが期待、或いは、想定される。したがって、サーバ装置２は、抽出された評価対象データに対して、後述のとおり差分処理を行うことによって、抽出された評価対象データに含まれる形態素から、注目形態素の同義語の候補を抽出、選択、検出、識別、特定、決定、又は、判定することができる。

評価対象データから同義語の候補（複数）を抽出する（Ｓ５０８）。
サーバ装置２は、抽出された評価対象データに差分処理を行うことによって同義語の候補を抽出する。サーバ装置２は、次のようにして、同義語の候補を抽出する。
（１）サーバ装置２は、先ず、抽出された評価対象データから形態素を抽出する。
（２）サーバ装置２は、抽出された形態素に注目形態素が含まれていればこれを除く。なぜなら、同義語は注目形態素と語形が異なるものためである。例えば、注目形態素を「診察」とすると、同義語は「診断」、「診療」、「検診」である。
（３）サーバ装置２は、抽出された形態素から関連形態素を除く。なぜなら、関連形態素は注目形態素に付帯しているだけで、注目形態素の同義語としては、十分とはいえないためである。例えば、注目形態素を「診察」とすると、関連形態素は、「内科」、「病院」である。

前記（１）乃至（３）によって抽出された形態素が注目形態素の同義語の候補になる。しかしながら、これだけでは、同義語の候補としての形態素の数が多数に及ぶ可能性があるため、例えば、当該形態素の数が所定基準以上である場合は、サーバ装置２は、例として、次の処理の少なくとも一つによって、候補形態素の絞り込みを行ってもよい。

Ａ学習用データに含まれる形態素を同義語の候補から除く。
Ｂ注目形態素の用法とは異なる用法の形態素を同義語の候補から除く。例えば、注目形態素が学習用データにおいては主語として存在し、評価対象体データにおいては、形態素が目的語として存在する場合、後者を同義語の候補から除く。
Ｃ装置、機械、計算機等一般用語を同義語の候補から除く。
Ｄ注目形態素と共起関係にある形態素を同義語の候補から除く。こうする理由は、共起関係にある形態素は、注目形態素に伴って学習用データに出現するため、学習用データに含まれない同義語とは異なるからである。
Ｅ同義語の候補を関連形態素との関連性が高いものに絞り込む。例えば、抽出された評価対象データから、関連形態素を含む形態素グループを抽出し、同義語の候補としての形態素を当該形態素グループに含まれる形態素とする。

サーバ装置２は、関連形態素のデータパターンを一つの評価対象データと比較して同義語の候補を決定すると、これを残りの評価対象データについて繰り返す。こうすることによって、一つの形態素グループに対する同義語の候補が決定される。さらに、サーバ装置は、残りの関連形態素のデータパターンについて、同義語の候補を決定することにより、学習用データ対する同義語の候補の一覧を得ることができる。図６は、関連形態素のデータパターン毎の同義語候補（ＭＷ₁，ＭＷ₂，ＭＷ₃，・・・，ＭＷ_ｎ）の一覧を示す管理テーブルである。この管理テーブルは、データベース４に記録されてよい。

同義語の候補を評価して、同義語を決定する（Ｓ５１０）。
次いで、サーバ装置２は、複数の同義語の候補を評価して、複数の同義語の候補の中から同義語とすべき形態素決定する。サーバ装置２は、同義語の候補を評価する一例として、同義語の候補の出現頻度に基づいて同義語の候補を評価する。即ち、サーバ装置は、図６に示すように、関連形態素のデータパターン毎に複数の評価対象データにおける同義語候補の出現数を計数し、夫々の同義語候補の計数値を複数の関連形態素データパターンに亘って累計した合算値（ＳＵＭ）に基づいて、合算値が高いほど形態素ほど同義語として相応しいと判定する。

サーバ装置２は、同義語候補の合算値の高い順でのランキングに応じて所定数（一つ又は複数）の形態素を同義語として決定する。例えば、最上位の形態素を同義語として決定する、又は、最上位から所定順位までの形態素を同義語として決定する。なお、ランキングの上位は、同義語の候補としてというよりも、評価対象データにおいて汎用された形態素として出現した可能性もあるために、それが疑われる場合には、ランキングの上位にある所定範囲の形態素を除いて同義語を決定するようにしてもよい。ランキングに基づいて同義語を決定することは、サーバ装置２によってなされてもよいし、ユーザによって同義語が決定されてもよい。

同義語の評価値を決定する（Ｓ５１２）。
サーバ装置２は注目形態素の同義語としての対象形態素を決定すると、対象形態素の評価値を決定する。対象形態素の評価値は、例えば、注目形態素の評価値に基づくものであればよい。対象形態素の評価値は、注目形態素の評価値と同じでも、これを補正したものでもよい。したがって、サーバ装置２は、対象形態素の評価値にも基づいて複数の評価対象データを評価することができる。

〔データ分析システムが処理するデータ形式〕
本実施の形態において、「データ」は、コンピュータによって処理可能となる形式で表現された任意のデータであってよい。上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ（例えば、電子メール（添付ファイル・ヘッダ情報を含む）、技術文書（例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む）、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど）、音声データ（例えば、会話・音楽などを録音したデータ）、画像データ（例えば、複数の画素またはベクター情報から構成されるデータ）、映像データ（例えば、複数のフレーム画像から構成されるデータ）などを広く含む（これらの例に限定されない）。

例えば、文書データを分析する場合、上記システムは、学習用データとしての文書データに含まれる形態素を構成要素として抽出し、当該構成要素をそれぞれ評価し、評価対象データとしての文書データから抽出した構成要素に基づいて、当該文書データと所定事案との関連性を評価することができる。また、音声データを分析する場合、上記システムは、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、上記システムは、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法（例えば、隠れマルコフモデル、カルマンフィルタなど）を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム（例えば、隠れマルコフモデルを用いた認識方法など）を用いて音声を認識し、認識後のデータ（文書データ）に対して、前述した手順と同様の手順で分析できる。また、画像データを分析する場合、上記システムは、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法（例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど）を用いて当該部分画像を識別することによって、当該画像データを分析できる。さらに、映像データを分析する場合、上記システムは、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法（例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど）を用いて当該部分画像を識別することによって、当該映像データを分析できる。

なお、上記システムが音声データを分析する場合、「同義な構成要素」は、選択された所定の構成要素（例えば、部分音声）と音素の系列が類似する構成要素であってよい。また、上記システムが画像データまたは映像データを分析する場合、「同義な構成要素」は、選択された所定の構成要素（例えば、部分画像、複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割したもの）と画素の系列が類似する構成要素であったり、同じ（または類似の）被写体が現れている構成要素であったりしてよい。ただし、これらの例には限定されない。

〔ソフトウェア・ハードウェアによる実現例〕
上記システムの制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム（データ分析システムの制御プログラム）を実行するＣＰＵ、当該プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、当該プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能である。また、上記プログラムを記録した任意の記録媒体も、本発明の範疇に入る。

〔アプリケーション例〕
上記システムは、例えば、ディスカバリー支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム（例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測（転倒防止）システム、予後予測システム、診断支援システムなど）、インターネット応用システム（例えば、スマートメールシステム、情報アグリゲーション（キュレーション）システム、ユーザ監視システム、ソーシャルメディア運営システムなど）、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム（データと所定事案との関連性を評価可能な任意のシステム）として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理（例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど）を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。

本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

１……データ分析システム、２……サーバ装置、３……クライアント装置、４……データベース、５……ストレージシステム、６……管理計算機

Claims

データを分析するデータ分析システムであって、
分析の対象となる複数の評価対象データを少なくとも一時的に記憶するメモリと、
前記複数の評価対象データを学習用データに基づいて評価するコントローラと、
を備え、
前記コントローラは、
前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
前記複数の構成要素から、注目構成要素を選択し、
当該注目構成要素を含む複数の第１のデータパターンを前記学習用データから抽出し、
前記複数の第１のデータパターン夫々に基づいて、前記注目構成要素に関連する関連構成要素を夫々含む複数の第２のデータパターンを生成し、
前記複数の第２のデータパターン夫々について、前記複数の評価対象データから前記関連構成要素を含む評価対象データを抽出し、
当該評価対象データから抽出された構成要素と、前記注目構成要素及び前記関連構成要素との差分に基づいて前記注目構成要素に同義とすべき構成要素を決定する
データ分析システム。
前記コントローラは、
前記評価対象データから抽出された構成要素から前記注目構成要素と前記関連構成要素とを除いた構成要素を、前記注目構成要素と同義な構成要素の候補として決定し、そして、前記複数の第２のデータパターン夫々について、前記決定された同義な構成要素の候補の複数を夫々評価し、当該評価に基づくことによって、前記注目構成要素に同義とすべき構成要素を決定し、
前記同義な構成要素の候補の数が所定基準以上である場合は、当該候補となる構成要素を絞り込む
請求項１記載のデータ分析システム。
データを分析するデータ分析システムであって、
分析の対象となる複数の評価対象データを少なくとも一時的に記憶するメモリと、
前記複数の評価対象データを学習用データに基づいて評価するコントローラと、
を備え、
前記コントローラは、
前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
前記複数の構成要素から所定の構成要素を選択し、
当該所定の構成要素を含む第１のデータパターンを前記学習用データから抽出し、
前記第１のデータパターンに関連する第２のデータパターンに基づいて複数の前記評価対象データの夫々を検索し、
前記第２のデータパターンを含む評価対象データを抽出し、そして、
当該評価対象データから抽出した構成要素と前記第１のデータパターンとの差分に基づいて、前記選択された構成要素と同義な構成要素を決定し、
さらに、前記コントローラは、
ユーザに提示された参照データと、当該ユーザによって当該参照データに設定された分類情報の組み合わせとを前記学習用データとし、
前記複数の構成要素夫々の前記組み合わせに寄与する度合いに基づいて、当該複数の構成要素夫々の評価情報を生成し、そして、
前記生成された評価情報に基づいて、前記複数の評価対象データを序列化するための指標を生成することにより、当該複数の評価対象データの夫々を評価する
データ分析システム。
データを分析するデータ分析システムであって、
分析の対象となる複数の評価対象データを少なくとも一時的に記憶するメモリと、
前記複数の評価対象データを学習用データに基づいて評価するコントローラと、
を備え、
前記コントローラは、
前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
前記複数の構成要素から所定の構成要素を選択し、
当該所定の構成要素を含む第１のデータパターンを前記学習用データから抽出し、
前記第１のデータパターンに関連する第２のデータパターンに基づいて複数の前記評価対象データの夫々を検索し、
前記第２のデータパターンを含む評価対象データを抽出し、そして、
当該評価対象データから抽出した構成要素と前記第１のデータパターンとの差分に基づいて、前記選択された構成要素と同義な構成要素を決定し、
さらに、前記コントローラは、
前記第１のデータパターンを、前記複数の構成要素の前記学習用データにおける分布の態様に基づいて決定する
データ分析システム。
前記コントローラは、
前記複数の構成要素夫々の評価情報と、当該複数の構成要素夫々が前記学習用データにおいて出現する位置との関係から、前記分布を得る
請求項４記載のデータ分析システム。
前記コントローラは、
前記第１のデータパターンを、前記所定の構成要素と、前記分布に基づいて当該所定の構成要素に付帯する他の構成要素との組合せとし、
前記第２のデータパターンを、前記他の構成要素を含むものとする
請求項４又は５記載のデータ分析システム。
前記コントローラは、
前記所定の構成要素の前記分布に基づく位置関係に基づいて前記他の構成要素を設定する
請求項６記載のデータ分析システム。
前記コントローラは、
前記複数の候補夫々の評価を、前記複数の評価用データにおける当該候補の出現頻度に基づいて行う
請求項２記載のデータ分析システム。
前記コントローラは、
前記同義な構成要素の評価情報を前記所定の構成要素の評価情報に基づいて決定し、
当該同義な構成要素の評価情報に基づいて前記複数の評価対象データの夫々を評価する
請求項３記載のデータ分析システム。
複数の評価対象データを学習用データに基づいて評価するデータ分析システムの制御方法であって、
前記データ分析システムが、
前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
前記複数の構成要素から、注目構成要素を選択し、
当該注目構成要素を含む複数の第１のデータパターンを前記学習用データから抽出し、
前記複数の第１のデータパターン夫々に基づいて、前記注目構成要素に関連する関連構成要素を夫々含む複数の第２のデータパターンを生成し、
前記複数の第２のデータパターン夫々について、前記複数の評価対象データから前記関連構成要素を含む評価対象データを抽出し、
当該評価対象データから抽出された構成要素と、前記注目構成要素及び前記関連構成要素との差分に基づいて前記注目構成要素に同義とすべき構成要素を決定する
データ分析システムの制御方法。
複数の評価対象データを学習用データに基づいて評価するデータ分析をコンピュータに実行させるプログラムであって、
前記学習用データから複数の構成要素を抽出し、当該複数の構成要素の夫々は、当該学習用データの少なくとも一部を構成するものであり、
前記複数の構成要素から、注目構成要素を選択し、
当該注目構成要素を含む複数の第１のデータパターンを前記学習用データから抽出し、
前記複数の第１のデータパターン夫々に基づいて、前記注目構成要素に関連する関連構成要素を夫々含む複数の第２のデータパターンを生成し、
前記複数の第２のデータパターン夫々について、前記複数の評価対象データから前記関連構成要素を含む評価対象データを抽出し、
当該評価対象データから抽出された構成要素と、前記注目構成要素及び前記関連構成要素との差分に基づいて前記注目構成要素に同義とすべき構成要素を決定する
ことをコンピュータに実現させるためのプログラム。
請求項１１記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。