JP5885875B1

JP5885875B1 - データ分析システム、データ分析方法、プログラム、および、記録媒体

Info

Publication number: JP5885875B1
Application number: JP2015184442A
Authority: JP
Inventors: 佑紀彦根
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2015-08-28
Filing date: 2015-09-17
Publication date: 2016-03-16
Anticipated expiration: 2035-09-17
Also published as: US20170061285A1; JP2017045434A

Abstract

【課題】人工知能の成長の過程を確認できるようにしたデータ分析システム、データ分析制御方法及びプログラムを提供する。【解決手段】コントローラが制御プログラムを実行することにより実現される人工知能を備え、学習ステップを経て成長しながら、データを評価し、評価結果に基づいてデータの分類を行い、複数の評価用データを評価する。コントローラは、複数の評価用データの複数の時点における評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する。【選択図】図１

Description

本出願は、データ分析システムに係り、例えば、ビックデータからユーザが望む情報を分類する等に好適な人工知能の応用に関するものである。

コンピュータの急速な発展により社会の情報化が進んだ結果、企業・個人の活動に、膨大な量の情報（ビッグデータ）が、広範、かつ、密接に関係するようになってきている。そのため、最近では、特に、ビッグデータの中から、所望の情報を的確に分別する必要性が重要視されている。

ビッグデータから所望の情報を分類するためのアプローチとして、サンプリングされたデータに対して、レビューワに依るデータの分類を適用し、人工知能がこの分類の結果を学習しながら人工知能がレビューワに代わって評価用データの自動分類を進めていくシステムが知られている（例えば、特開２０１３−１８２３３８号公報）。

特開２０１３―１８２３３８号公報

従来のデータ分析システムによれば、人工知能がレビューワの分類の特徴を学習することによって成長するために、人工知能による、データの分類精度も徐々に向上し、多くのデータの中から所望のデータが適切かつ迅速に得られるようになる。

しかしながら、ユーザにとっては、人工知能の成長過程を確認できる術がなかったために、例えば、人工知能によるデータ分析がどの程度機能しているのか、システムの運用開始からどれぐらいの期間で実用的なデータ分析システムが稼動するのか、を知ることが出来なかった。

そこで、本願は、係る課題に鑑みてなされたものであり、その目的は、人工知能の成長の過程を確認できるようにしたデータ分析システムを提供することにある。

前記目的を達成する第１の開示は、コントローラが制御プログラムを実行することにより実現される人工知能を備え、当該人工知能が学習ステップを経て成長しながら、データを評価し、評価結果に基づいてデータの分類を行うデータ分析システムであって、前記人工知能は、複数の評価用データを評価し、前記コントローラは、前記複数の評価用データの複数の時点における前記評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する、ことを特徴とする。

前記目的を達成する第２の開示は、コンピュータが制御プログラムを実行することによって実現される人工知能を、学習ステップを経て成長させ、当該人工知能を利用してデータを評価するデータ分析制御方法であって、複数の評価用データを評価し、前記複数の評価用データの複数の時点における前記評価の分布を求め、さらに、当該分布に基づく報知情報を作成し、当該報知情報を出力する、ことを特徴とする。

前記目的を達成する第３の開示は、コンピュータに、人工知能を稼働させる機能と、当該人工知能を、学習ステップを経て成長させる機能と、当該人工知能がデータを評価し、評価結果に基づいてデータの分類を行う機能と、当該人工知能が複数の評価用データを評価する機能と、前記複数の評価用データの複数の時点における前記評価の分布を求める機能と、当該分布に基づく報知情報を作成し、当該報知情報を出力する機能と、を実現させるためのプログラムである、ことを特徴とする。

前記目的を達成する第４の開示は、前記プログラムを記録したコンピュータ読み取り可能な記録媒体であることを特徴とする。

既述の開示によって、人工知能の成長の過程を確認できるようにしたデータ分析を実現することができる。

データ分析システムのハードウェア構成の一例を示すブロック図である。上記データ分析システムが備えた予測コーディング機能の一例を示す機能ブロック図である。上記データ分析システムが備えた予測コーディング部が実行する処理の一例を示すフローチャートである。人工知能の成長プロセスを可視化するためのプログラムの動作を示すフローチャートである。人工知能の成長プロセスを可視化する制御処理のための管理テーブルの一例である。人工知能の成長プロセスの可視化情報の一例であり、データ分析システムの運用初期の段階でのデータのスコアの分布の典型例を示すグラフである。前記可視化情報としての、データ分析システムの運用開始後日が浅い実例に係るデータのスコア分布を示すグラフである。人工知能の成長期における、データのスコア分布の典型例に係るグラフである。前記可視化情報として、図７に示すシステムの運用段階から、運用が進んだ実例におけるデータのスコア分布を示すグラフである。人工知能の成長が成熟期である状態での、データのスコア分布の典型例に係るグラフである。前記可視化情報として、システムの運用が図９に示す段階よりさらに進んだ実例における、データのスコア分布を示すグラフである。人工知能の成長段階毎に、データと乖離度との関係を示すグラフである。人工知能の成長段階毎に、データと移動距離との関係を示すグラフである。「関連あり」のデータ群のスコアの平均値と「関連なし」のデータ群のスコアの平均値との差分がデータ分析システムの運用の進行に従って変化する傾向を説明するグラフである。人工知能の成長プロセスの可視化のための管理画面の一例である。

データ分析システムの限定されない一つの態様として、企業等の組織体において送受信されている電子メールが、情報漏洩、カルテル等の不正行為に関係、関与しているかを監査するためのシステムがある。電子メールの監査を含む、データ分析は、データ分析システムにおいて稼働する人工知能によって達成される。人工知能とは、人間によるデータ分析を、コンピュータの制御プログラムなどの制御資源、記憶資源を用いて肩代わりしようとする、自律判断が可能な仮想的な主体である。

人工知能がデータ分析の運用を開始する際、レビューワによるデータの分類結果が人工知能に与えられると、人工知能はデータ分類の特徴を学習する。人工知能は、学習した特徴にしたがって、分析対象のデータを、例えば、「関連あり」、又は、「関連なし」に分類する。レビューワは、人工知能の運用開始後でも、所定期間毎に、一部のデータを実際にレビューしてデータを分類し、その分類の結果を人工知能に継続的に与えると、人工知能はデータ分析の特徴をその都度さらに学習して、データ分析の精度を専門家(弁護士等)のレベルと同等になるまで成長することができる。これによって、人工知能は、レビューワが全てチェックすることができない大量のデータの中から、目的のデータを、レビューワに代わって、迅速かつ的確に分類することができる。以下に、データ分析システムを詳細に説明するが、データ分析システムの態様は、以下の説明に限定されるものではない。

〔データ分析システムの構成〕
図１は、本実施の形態に係るデータ分析システム（以下、単に「システム」と略記することがある。）のハードウェア構成の一例を示すブロック図である。当該システムは、例えば、データ（デジタルデータおよびアナログデータを含む。）を格納可能な任意の記録媒体（例えば、メモリ、ハードディスクなど。）と、当該記録媒体に格納された制御プログラムを実行可能なコントローラ（例えば、ＣＰＵ：Central Processing Unit）とを備え、当該記録媒体に少なくとも一時的に格納されたデータを分析するコンピュータ（例えば、パーソナルコンピュータ、サーバ装置、クライアント装置、ワークステーション、メインフレームなど）またはコンピュータシステム（例えば、データ分析のための主要処理を実行するサーバ装置、ユーザが使用するクライアント装置、分析対象となるデータを格納するファイルサーバなど、複数のコンピュータが統合的に動作することによってデータ分析を実現するシステム）を備えるシステムとして実現され得る。本実施の形態は、上記システムが後者によって実現される例（図１）を主として説明している。

なお、本実施の形態において、「データ」は、上記コンピュータによって処理可能となる形式で表現される、任意のものでよい。上記データは、例えば、少なくとも一部において構造定義が不完全な非構造化データであってよく、自然言語によって記述された文章を少なくとも一部に含む文書データ（例えば、電子メール（添付ファイル・ヘッダ情報を含む）、技術文書（例えば、学術論文、特許公報、製品仕様書、設計図など、技術的事項を説明する文書を広く含む）、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、報告書、営業資料、契約書、組織図、事業計画書、企業分析情報、電子カルテ、ウェブページ、ブログ、ソーシャルネットワークサービスに投稿されたコメントなど）、音声データ（例えば、会話・音楽などを録音したデータ）、画像データ（例えば、複数の画素またはベクター情報から構成されるデータ）、映像データ（例えば、複数のフレーム画像から構成されるデータ）などを広く含む。

また、本実施の形態において、「学習用データ」（training data）は、レビューワ（弁護士、企業内の法務担当者等の専門家である。）によって分類情報が対応付けられたデータ（データと分類情報とが組み合わされた、分類済みのデータ）であってよい。一方、「評価用データ」（evaluation data）は、当該分類情報が対応付けられていないデータ（学習用データとしてレビューワに提示されていない、未分類のデータ）であってよい。ここで、上記「分類情報」は、データを分類するために用いる識別ラベルであってよく、例えば、データと所定事案とが関係していることを示す「Related」ラベル、両者が特に関係していることを示す「High」ラベル、および、両者が関係しないことを示す「Non-Related」ラベルのように、当該学習用データを３つに分類する情報であったり、「良い」、「やや良い」、「普通」、「やや悪い」、および「悪い」のように、当該学習用データを５つに分類する情報であったりしてよい。

また、上記「所定事案」は、上記システムがデータとの関連性を評価される対象を広く含み、その範囲は制限されない。例えば、所定事案は、当該システムがディスカバリ支援システムとして実現される場合、ディスカバリ手続きが要求される本件訴訟であってよいし、犯罪捜査支援システムとして実現される場合、捜査対象となる犯罪であってよいし、電子メール監視システムとして実現される場合、不正行為（例えば、情報漏洩、談合など）であってよいし、医療応用システム（例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測（転倒防止）システム、予後予測システム、診断支援システムなど）として実現される場合、医薬に関する事例・事案であってよいし、インターネット応用システム（例えば、スマートメールシステム、情報アグリゲーション（キュレーション）システム、ユーザ監視システム、ソーシャルメディア運営システムなど）として実現される場合、インターネットに関する事例・事案であってよいし、プロジェクト評価システムとして実現される場合、過去に遂行したプロジェクトであってよいし、マーケティング支援システムとして実現される場合、マーケティング対象となる商品・サービスであってよいし、知財評価システムとして実現される場合、評価対象となる知的財産であってよいし、不正取引監視システムとして実現される場合、不正な金融取引であってよいし、コールセンターエスカレーションシステムとして実現される場合、過去の対応事例であってよいし、信用調査システムとして実現される場合、信用調査する対象であってよいし、ドライビング支援システムとして実現される場合、車両の運転に関することであってよいし、営業支援システムとして実現される場合、営業成績であってよい。

図１に例示されるように、本実施の形態に係るデータ分析システム１は、例えば、データ分析の主要処理を実行可能なサーバ装置２と、当該データ分析の関連処理を実行可能な一つ又は複数のクライアント装置３と、データおよび当該データに対する評価結果を記録するデータベース４を備えるストレージシステム５と、クライアント装置３およびサーバ装置２に対して、データ分析のための管理機能を提供する管理計算機６とを備えてよい。

クライアント装置（入力制御装置）３は、複数の評価用データの一部、又は、評価用データとは別なデータを、分類前のサンプルデータとして、ユーザ（レビューワ）に提示可能である。これにより、当該ユーザは、クライアント装置３を介してサンプルデータに対する評価・分類のための入力を行う（分類情報を与える。）ことができる。サーバ装置２は、複数の評価用データをランダムサンプリングして、所定数のサンプルデータを抽出して、所定のクライアント装置に提供することができる。既述の別なデータとしては、例えば、分析対象である評価用データには含まれないが、所定事案を評価用データと同一又は類似とするデータ群に属するデータであってよい。

クライアント装置３は、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェース（例えば、キーボード、ディスプレイなど。）と、通信インターフェースとを備える。通信インターフェースは、所定のネットワークを用いた通信手段によって、クライアント装置３とサーバ装置２および管理計算機６とを通信可能に接続する。

サーバ装置２の制御資源と記憶資源によって稼働される人工知能は、分類情報が付されたサンプルデータ、即ち、サンプルデータと分類情報との組み合わせ（これを「学習用データ」という。）に基づいて、当該学習用データから、パターン（例えば、データに含まれる抽象的な規則、意味、概念、様式、分布、サンプルなどを広く指し、いわゆる「特定のパターン」に限定されない）を学習し、当該パターンに基づいて、評価用データと所定事案との関連性を評価する。レビューワが学習用データを継続的に人工知能に与えることによって、人工知能は、パターンをさらに学習しながら成長する。ここで、「人工知能が成長する」とは、当該人工知能のパフォーマンスが向上することであってよく、例えば、当該人工知能が評価用データと所定事案との関連性を評価する精度が向上することであってよい。

人工知能は、上記学習したパターンに基づいて、評価用データと不正行為(例えば、情報漏洩等)との関係性を評価することもでき、評価用データと訴訟との関連性を評価することもできるし、評価用データと犯罪捜査との関連性を評価することもできるし、評価用データとユーザの嗜好との関連性を評価することもできるし、評価用データとその他の任意の事象（所定事案）との関連性を評価することもできる。

サーバ装置２は、クライアント装置３と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。評価用データが電子メールの場合、評価用データは、図示しないメールサーバから、ストレージシステム５のデータベース４に、継続的或いは定期的等に格納されるようにしてもよい。

管理計算機６は、クライアント装置３、サーバ装置２、およびストレージシステム５に対して、所定の管理処理を実行する。管理計算機６は、クライアント装置３と同様に、ハードウェア資源として、例えば、メモリと、コントローラと、バスと、入出力インターフェースと、通信インターフェースとを備えてよい。なお、クライアント装置３、サーバ装置２、管理計算機６がそれぞれ備えたメモリには、各装置を制御可能なアプリケーションプログラムが記憶されており、各コントローラが当該アプリケーションプログラムをそれぞれ実行することにより、当該アプリケーションプログラム（ソフトウェア資源）とハードウェア資源とが協働し、各装置が動作する。

ストレージシステム５は、例えば、ディスクアレイシステムから構成され、データと当該データに対する評価・分類の結果とを記録するデータベース４を備えてよい。サーバ装置２とストレージシステム５とは、ＤＡＳ（Direct Attached Storage）方式、またはＳＡＮ（Storage Area Network）によって接続されている。

なお、図１に示されるハードウェア構成はあくまで例示に過ぎず、上記システムは、他のハードウェア構成によっても実現され得る。例えば、サーバ装置２において実行される処理の一部または全部がクライアント装置３において実行される構成であってもよいし、当該処理の一部または全部がサーバ装置２において実行される構成であってもよいし、ストレージシステム５がサーバ装置２に内蔵される構成であってもよい。また、ユーザは、クライアント装置３を介してサンプルデータに対する評価・分類のための入力を行う（分類情報を与える）だけでなく、サーバ装置２に直接接続された入力機器を介して上記入力を行うこともできる。当該システムを実現可能なハードウェア構成が多様に存在し得ることは、当業者に理解されるところであり、特定の１つの構成（例えば、図１に例示されるような構成）に限定されない。

〔データ分析システム１が備える予測コーディング機能〕
図２は、本実施の形態に係るデータ分析システム（サーバ装置２）によって実現される、予測コーディング機能の一例を示す機能ブロック図である。予測コーディング機能は、人工知能によるデータ分析のための主要機能の一つである。

（予測コーディング機能の基本構成）
図２に例示されるように、人工知能は、予測コーディング（Predictive Coding）部１０を備える。予測コーディング部１０は、人手で分類された少数のデータ（既述の学習用データのことである。）に基づいて、多数のデータ（分類情報が対応付けられていない評価用データであり、例えば、ビッグデータである。）から有意な情報を抽出できるように、当該評価用データを評価、例えば、スコア付けする。

予測コーディング部１０は、例えば、データ取得部１１、分類情報取得部１２、データ分類部１３、構成要素抽出部１４、構成要素評価部1５、構成要素格納部１６、およびデータ評価部１７を備えることができる。

データ取得部１１は、任意の記憶資源（例えば、データベース４、インターネット上のウェブサーバ、イントラネット上のメールサーバなど）からデータを取得する。データ取得部１１は、データ分析の対象とする全データを評価用データとして構成要素抽出部１４に提供すると共に、所定数のサンプルデータを取得して、これをデータ分類部１３に提供する。

分類情報取得部１２は、各サンプルデータに対して、ユーザによって入力された分類情報を、任意の入力装置（例えば、クライアント装置３）から取得し、当該分類情報をデータ分類部１３に出力する。

データ分類部１３は、データ取得部１１から送られた複数のサンプルデータと、分類情報取得部１２から、各サンプルデータに対して入力された分類情報とを組み合わせ、当該組み合わせを、複数の学習用データとして構成要素抽出部１４に出力する。

構成要素抽出部１４は、データ分類部１３から受領した複数の学習用データから、当該学習用データを構成する構成要素を抽出する。ここで、「構成要素」は、データの少なくとも一部を構成する部分データであってよく、例えば、文書を構成する形態素、キーワード、センテンス、段落、および／またはメタデータ（例えば、電子メールのヘッダ情報）であったり、音声を構成する部分音声、ボリューム（ゲイン）情報、および／または音色情報であったり、画像を構成する部分画像、部分画素、および／または輝度情報であったり、映像を構成するフレーム画像、モーション情報、および／または３次元情報であったりしてよい。構成要素抽出部１４は、抽出した構成要素と当該構成要素に対応する分類情報とを構成要素評価部１５に出力する。さらに、構成要素抽出部１４は、データ取得部１１から入力された評価用データから、当該評価用データを構成する構成要素を抽出し、当該構成要素をデータ評価部１７に出力する。

構成要素評価部１５は、構成要素抽出部１４から入力された構成要素を評価する。構成要素評価部１５は、例えば、夫々、学習用データの少なくとも一部を構成する複数の構成要素が、上記組み合わせに寄与する度合い（言い換えれば、当該構成要素が分類情報に応じて出現する分布）をそれぞれ評価する。より具体的には、構成要素評価部１５は、例えば、伝達情報量（例えば、構成要素の出現確率と分類情報の出現確率とを用いて、所定の定義式から算出される情報量）を用いて構成要素を評価することによって、当該構成要素の評価値を算出する。これにより、構成要素評価部１５は、当該学習用データに含まれるパターンを学習する（ユーザからの入力により付与された分類情報に応じて当該学習用データが特徴付けられるパターンを学習する）ことができる。構成要素評価部１５は、構成要素と当該構成要素の評価値とを構成要素格納部１６に出力する。

構成要素格納部１６は、構成要素評価部１５から入力された構成要素および評価値を対応付け、両者を任意のメモリ（例えば、ストレージシステム５）に格納する。

データ評価部１７は、構成要素抽出部１４から入力された構成要素に対応付けられた評価値を任意のメモリ（例えば、ストレージシステム５のデータベース４）から読み出し、当該評価値に基づいて評価用データを評価する。より具体的には、データ評価部１７は、例えば、評価用データの少なくとも一部を構成する構成要素に対応付けられた評価値を合算することによって、当該評価用データの指標（例えば、評価用データを序列化可能にする数値、文字、および／または記号であってよい）を導出することができる。当該指標として好適な形態は、前記評価値を合算したスコアである。データ評価部１７は、当該評価用データと当該指標とを対応付け、両者を任意のメモリ（例えば、ストレージシステム５）に格納する。

構成要素評価部１５は、「Related」または「High」のラベルが設定されたデータの評価が、これらのラベルが設定されないデータの評価よりも大きくなるまで、構成要素を選定するとともに、当該構成要素を繰り返し評価し、当該構成要素の評価値を修正することができる。これによって、構成要素評価部１５は、「Related」または「High」の分類情報が付された複数の学習用データに出現し、学習用データとラベルとの組み合わせに影響がある構成要素を見つけ出すことができる。構成要素評価部１５は、例えば、以下の式を用いて構成要素の評価値ｗｇｔを算出する。

ここで、ｗｇｔは、評価前のｉ番目の構成要素の評価値の初期値を示す。また、ｗｇｔは、Ｌ回目の評価後のｉ番目の構成要素の評価値を示す。γはＬ回目の評価における評価パラメータを意味し、θは評価の際の閾値を意味する。これにより、構成要素評価部１５は、例えば、算出した伝達情報量の値が大きいほど、構成要素が所定の分類情報の特徴を表すものとして評価することができる。なお、構成要素評価部１５は、「Related」が設定された学習用データの指標の最低値と、「Non-Related」が設定された学習用データの指標の最高値との中間値を、評価用データに対して「Related」の設定の有無を自動判定する際の閾値（所定の基準値）とすることができる。そして、データ評価部１７は、構成要素の評価値によって、例えば、以下の式から、複数の評価用データの夫々と複数の学習用データの夫々のスコアを算出する。スコアとは、これらデータの分類別符号に対する結びつきの強さを定量的に評価する指標である。データ評価部１７は評価用データ毎のスコアを所定の基準値と比較して、基準値以上である評価用データを「Related」に分類し、基準値未満である評価用データを「Non-Related」に分類することができる。

ｍ_ｊ：ｉ番目の構成要素の出現頻度
wgt_ｉ：ｉ番目の構成要素の評価値

なお、上記において、＊＊＊部と表記した構成は、サーバ装置２のコントローラが、プログラム（データ分析プログラム）を実行することによって実現する、人工知能の機能構成であるため、＊＊＊部を、＊＊＊処理または＊＊＊機能と言い換えてもよい。また、＊＊＊部をハードウェア資源によって代替することもできるため、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによって多様な形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

〔予測コーディング部１０が実行する処理〕
図３は、本実施の形態に係るデータ分析システムが備えた予測コーディング部１０が実行する処理の一例を示すフローチャートである。

まず、データ取得部１１が、任意のメモリからサンプルデータを取得する（ステップ３００、以下「ステップ」を「Ｓ」と略記する）。次に、分類情報取得部１２が、ユーザがサンプルデータを実際にレビューして分類を決定し、ユーザによってサンプルデータに対して入力された分類情報を、任意の入力装置から取得する（Ｓ３０２）。次に、データ分類部１３が、サンプルデータと分類情報とを組み合わせることによってサンプルデータを分類して、学習用データを構成し（Ｓ３０４）、構成要素抽出部１４が、当該学習用データを構成する構成要素を当該学習用データから抽出する（Ｓ３０６）。そして、構成要素評価部１５が、当該構成要素を評価し（Ｓ３０８）、構成要素格納部１６が、当該構成要素と評価値とを対応付け、両者を任意のメモリに格納する（Ｓ３１０）。なお、上記Ｓ３０６〜Ｓ１０の処理を、「学習フェーズ」（人工知能がパターンを学習するフェーズ）と称する。

データ取得部１１が、任意のメモリから評価用データを取得する（Ｓ３１２）。構成要素抽出部１４が、当該評価用データを構成する構成要素を当該評価用データから抽出する（Ｓ３１４）。データ評価部１７は、当該構成要素に対応付けられた評価値を任意のメモリから読み出し、当該評価値に基づいて評価用データを評価する（Ｓ３１６）。なお、上記Ｓ３１２〜Ｓ３１６の処理を、「評価フェーズ」（人工知能が上記パターンに基づいて評価用データを評価する。）と称する。なお、上記学習フェーズに含まれる各処理は、いずれも必須の処理ではないことに注意する。例えば、構成要素と当該構成要素の評価値とを対応付けて記憶するメモリが予め与えられており、予測コーディング部１０が、当該メモリに格納された当該構成要素および評価値に基づいて、評価用データを評価することもできる。

次に、予測コーディング部１０の評価結果を利用して、本実施の形態に係るデータ分析システムが実行可能な諸機能について説明する。当該諸機能は、サーバ装置２の管理部１８（図２）によって実行される。この諸機能の一つに、人工知能の成長プロセスを可視化する機能がある。従来、データ分析システムのユーザにとっては、人工知能の成長の過程を確認できる術がなかったために、データ分析システムとして、電子メールの監査のシステムを例にすれば、人工知能による電子メールの監査がどの程度機能しているのか、システムの運用開始からどれぐらいの期間で実用的な監査ツールとして稼動できるのか、を知ることが出来なかった。データ分析システムが、ユーザに人工知能の成長プロセスを示すことによって、データ分析（メール監査等）に対するユーザの信頼を高めることができる。

（人工知能の成長プロセスの可視化）
管理計算機６は、例えば、データ分析システムの運用が開始される際、人工知能の成長プロセスを可視化する処理をサーバ装置２に依頼することができる。サーバ装置２が当該依頼を受信すると、管理部１８は、人工知能の成長プロセスを可視化するための可視化プログラムを起動させる。

管理部１８は、可視化プログラムによって、人工知能の成長を測定し、測定結果に基づいて、人工知能の成長プロセスの、報知情報としての可視化情報を作成し、これをクライアント装置３、サーバ装置２、及び、管理計算機６の少なくとも一つに表示させることができる。限定されない一態様として、人工知能の成長を測定するポイントは、レビューワである監査人が、不正に「関連する」と判断した文書（例えば、電子メール等）、又は、不正に「関連しない」と判断した文書が、人工知能によって正しくスコア付けされているか、否かにある。監査人が関連性の有無を判断した文書のスコアが全体文書のスコアのどの位置に分布し、時系列（人工知能の成長過程）でスコア付けがどう変わるかという、人工知能の学習における成長状態を反映したファクタの動き、経緯、経過等によって、人工知能の成長度を測ることができる。人工知能の成長プロセスは、一つの典型的な例では、成長初期、成長期、成熟期の段階に分けることができる。人工知能の成長が、成長期、及び／又は、成熟期に到達したことを示すことによって、ユーザは、データ分析システムが安定して稼働していることを確認することができる。

図４は、可視化プログラムの動作を示すフローチャートである。管理部１８は、データ管理システムの運用を開始した段階（人工知能を作成した段階）でスコアを付けた評価用データの中から所定数の評価用データを、人工知能の成長プロセスを可視化するために利用されるデータ（以下、「利用データ」という。）として、選択する（Ｓ４００）。利用データは、人工知能の成長に合わせて、スコアの分布の時系列での変化を表示するために利用されるものであり、したがって、所定数とは、スコアの分布をユーザに示すのに必要な数であればよい。例えば、数十から数千の範囲で、選択されればよい。管理部１８は、ランダムに、又は、管理者によって指定された要件(例えば、会社内でのある部門に関係する電子メールであるか等。)にしたがって、利用データを選択することができる。管理部１８は、スコアの高低に偏ることなく、スコアが高い評価用データからスコアが低い評価用データまで、バランスよく、利用データを選択することがよい。利用データとしては、学習用データでもよい。

次いで、管理部１８は、利用データの管理テーブルを作成し、管理テーブルに、算出されたスコアを登録する（Ｓ４０２）。図５は、管理テーブルの一例である。管理部１８は、システムの運用を開始した際のスコアを、複数の利用データの夫々（データ＃１〜データ＃ｎ）について、領域５００に登録する。さらに、管理部１８は、レビューワに、利用データ夫々について実際にレビューして既述の分類を付与することを求め、利用データ夫々の分類情報を管理テーブルの領域５０４に登録する(Ｓ４０４)。

データ分析システムの運用が進んでいく過程で、管理部１８は、利用データの評価（Ｓ１７、Ｓ１８）を所定期間毎、例えば、定期的なタイミング（時点）で実施し、管理テーブルの領域５０２に、各タイミングで算出されたスコアを順次記録する。ｔ１、ｔ２、ｔ３、・・・ｔｎ夫々がこのタイミングである。定期的なタイミングとは、数日毎、１週間毎等、特に、限定されるものではない。また、システムの管理者が指定する任意のタイミングであってもよい。人工知能はシステムの運用に合わせて成長するので、同じデータであっても、どの時点で算出されたスコアであるかによって、スコアは人工知能の成長度の影響を受けて変わってくる。

利用データのスコアは、人工知能の成長によって影響を受けるものであるから、例えば、スコアの分布、分布の変化等のスコアの態様から、人工知能の成長度合いが判る。管理部１８が、利用データについて、スコアの分布の態様を所定の形式で表示することによって、人工知能の成長がどの段階にあるかをユーザに示すことができる。

管理部１８が、ユーザから人工知能の成長プロセスを可視化するための要求を、管理計算機６を介して受けると、管理テーブル(図５)にアクセスして、各利用データのスコアを読み出し、可視化情報を作成して、これを、サーバ装置２等の出力手段（表示装置等）を介して出力する(Ｓ４０６)。

図６は、可視化情報の一例であり、システムの運用に合わせて、複数のデータのスコアの分布を示すグラフである。縦軸が第１の時点で算出された、利用デーアのスコアを示し、横軸が第１の時点から後の第２の時点で算出された利用データのスコアである。第１の時点、第２の時点としては、前記管理テーブル(図５)から任意に選択されてよいが、例えば、以下説明するように、横軸が最新の時点又は現在の時点でのスコアであり、縦軸が一つ前の時点でのスコアである。

○、又は、●で示された一つ一つが利用データの夫々に対応する。○は、レビューワが「関連なし」と分類したデータであることを示し、●は、レビューワが「関連あり」と分類したデータであることを示す。図６は、データ分析システムの運用初期の段階でのスコアの分布の典型例である。運用初期の段階では、人工知能は十分に成長していないため、レビューワが「関連する」と判断したデータであっても、人工知能は低いスコアを付けるなど、レビューワの判断と人工知能の判断（スコア）には乖離があり、その結果、グラフ全体的にスコアは低い傾向になって、○と●との混在(符号６００で示す。)がグラフの左下の領域に発生している。符号６０２は、横軸のスコア（最新のタイミングで算出されたスコア）と縦軸のスコア（一つ前の過去のタイミングで算出されたスコア）とが同じであることを示す基準線である。データ分析システムの運用開始の初期段階では、人工知能も成長していないため、スコアの算出のタイミングが違ってもスコアに動きはなく、スコアの分布は基準線に集まる傾向になる。

図７は、既述の可視化情報としての、データ分析システムの運用開始後日が浅い実例に係る利用データのスコア分布を示すグラフである。縦軸が、運用開始時でのスコアを示し、横軸が運用開始後１０日経過時点でのスコアを示す。図７によれば、スコアの分布はグラフの左下に集中し、関連ありのデータ(●)と関連なしのデータ（○）が混在している等、図６のグラフと同じ傾向が見られるため、ユーザは、システムの運用開始後１０日時点において、人工知能は未だ成長していない状態(成長初期)にあると判断することができる。

次いで、データ分析システムの運用が進み、レビューワによる解析が行われたデータ数が増えていくと、人工知能の学習が継続されて人工知能の成長が進むため、レビューワが「関連する」と判断したデータについて、高いスコアが付く傾向になっていく。したがって、「関連あり」のデータのスコア分布は、過去のタイミングで算出されたスコアでは低くなり、最新のタイミングで算出されたスコアでは高くなる、ことを意味する右下のゾーンに移動するようになる。一方、「関連なし」の分布は、過去スコアでは高く、最新のスコアでは低いゾーンである、左上に移動するようになる。

図８は人工知能の成長期における、データのスコア分布の典型例に係るグラフである。過去スコアが高い「関連あり」のデータのスコアの分布は高いままで、過去スコアが低い「関連あり」のデータの最新スコアの分布は高くなる。この「関連あり」のデータのスコア分布は運用初期の分布に比較して、混在領域(図６の符号６００で示す。)を抜け出して、基準線６０２より右下の領域６０４に移動し、その結果、「関連あり」のデータのスコアの分布と「関連なし」のデータのスコアの分布とが分かれる傾向になる。

図９は、既述の可視化情報として、図７に示すシステムの運用段階から、運用が進んだ実例における利用データのスコア分布を示すグラフである。縦軸が、システム運用開始時の１７日経過時点でのスコアを示し、横軸がシステム運用開始後２４日経過時点でのスコアを示す。図９によれば、図８のグラフと同じ傾向が見られるため、ユーザは、システムの運用開始後２４日時点において、人工知能は学習及び成長が活発に進んでいる成長期にあると判断することができる。

さらに、システムの運用が進んでいき、レビューワによる解析が行われたデータ数がより増えていくと、人工知能がさらに学習を進め、人工知能の成長が安定した傾向になってくる。図１０は人工知能の成長が成熟期にある状態での、データのスコア分布の典型例に係るグラフである。人工知能の成長が安定した状態では、過去のタイミングと最新のタイミングで、人工知能の成長度に大きな変化がないために、同一データの過去スコアと最新スコアとの間での変異が少なくなって、データのスコア分布が基準線に沿うようになる。

人工知能の成長段階から成熟期に至る過程で、「関連あり」に分類された利用データのスコア分布は、グラフの右下の領域６０４から基準線６０２に向けて右上の高スコア領域６０２に移動し、「関連なし」に分類された利用データのスコア分布は基準線６０２の左下の低スコア領域６０８に移動して、両者が区分けされる。データのスコア分布がこの状態なったことは、人工知能の学習が理想的に進んだことを意味し、人工知能の成長が成熟した状態になったことを示している。

図１１は、既述の可視化情報として、システムの運用が図９に示す段階よりさらに進んだ実例における、利用データのスコア分布を示すグラフである。縦軸が、運用開始時の２４日経過時点でのスコアを示し、横軸が運用開始後２９日経過時点でのスコアを示す。図１１によれば、図１０のグラフと同じ傾向が見られるため、ユーザは、システムの運用開始後２９日を経過した時点で、人工知能は成長が安定した成熟期にあると判断することができる。

データ分析システムは、既述の可視化情報を出力して、人工知能の成長がどのフェーズにあるかの判断を人に委ねるものとして説明したが、既述の可視化情報から既述の特徴を把握して、データ分析システムが人工知能の成長がどのフェーズにあるかを判断してもよい。

データ評価部１７は評価用データ毎のスコアを所定の基準値と比較して、基準値以上である評価用データを「Related」に分類し、基準値未満である評価用データを「Non-Related」に分類することができることを説明したが、「基準値」を具体的にどの値にするかは、難しい。しかしながら、人工知能の成長段階の可視化情報によれば、基準線に沿って、「関連あり」に分類されたデータの所在と、「関連なし」に分類されたデータの所在とは別れる傾向にあり、人工知能の成熟段階では、両者が明りょうに区分けできるので、両者の境界のスコアを前記基準値として設定してもよい。

既述の説明では、可視化情報を、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布とを、過去のタイミングと最新のタイミングとの２次元によって形成し、当該分布が人工知能の成長プロセスの段階に応じて変動し、その変動によって、人工知能の成長プロセスがユーザに分かるようにしたが、可視化情報はこれに限られない。例えば、可視化情報の第２の実施形態として次のものがある。

人工知能の成長が進んでいる段階では、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布とは共に、基準線から乖離する傾向となり、人工知能の成長が安定するにしたがって、これらの分布が基準線に近づく傾向になり、人工知能の成長が成熟した段階では、これら分布が基準線に沿った傾向になる。そこで、データの分布位置からの基準線に対する乖離度（データの分布位置から基準線に対する垂直方向の距離）をデータ毎に算出して、乖離度の傾向を表示したものを可視化情報として、人工知能の成長段階が判断できるようにしてもよい。

図１２は、既述の実例において、人工知能の成長段階毎に、利用データと乖離度との関係を示すグラフである。（１）は人工知能の運用初期に対応するグラフであり、（２）は人工知能の成長進行段階に対応するグラフであり、（３）は人工知能の成長安定段階に対応するグラフである。横軸は夫々の利用データ(但し、最新タイミングでのスコアが高い順)を示し、縦軸は乖離度を示す。人工知能の運用開始時（１）では、人工知能が成長していないため、乖離度が全体的に低く、さらに、ところどころ乖離度が大きい利用データがある。人工知能が盛んに成長している段階では、利用データの乖離度が大きく、特に、スコアが高い利用データの乖離度が増加している(１０００)。そして、人工知能の成長が安定した段階では、スコアの算出タイミングの違いでスコアの差が縮小される傾向となるため乖離度は小さくなる。

さらに、可視化の第３の実施形態として、次のものがある。人工知能の成長が進んでいる段階では、データのスコアは計算される都度大きく変化し得るため、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布はともに、２次元座標上を大きく移動する。一方、人工知能の成長が成熟した段階では、データのスコアは計算される都度ほぼ変化しないため、「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布はともに、２次元座標上をほぼ移動しない傾向となる。そこで、過去の時点でのスコアの分布が最新の時点でのスコアの分布まで移動した距離をデータ毎に算出して、移動距離の傾向を表示したものを可視化情報として、人工知能の成長段階が判断できるようにしてもよい。

図１３は、既述の実例において、人工知能の成長段階毎に、利用データと移動距離との関係を示すグラフである。（１）は人工知能の運用初期から人工知能の成長が進んでいる段階迄に対応するグラフであり、（２）は人工知能の成長が進んでいる段階から人工知能の成長が安定した段階迄に対応するグラフである。横軸は夫々の利用データ(但し、最新タイミングでのスコアが高い順)を示し、縦軸は移動距離を示す。人工知能の運用開始からその成長が進んでいる段階迄では、利用データのスコアが算出される都度スコアの値が比較的大きく変化するため移動距離は大きくなり、人工知能の成長が進んでいる段階から人工知能の成長が安定する段階迄では、利用データのスコアが算出される都度スコアの値が比較的変化しないため、移動距離は小さくなる。

さらに、可視化の第４の実施形態として、次のものがある。人工知能の成長の初期では「関連あり」のデータのスコアと「関連なし」のデータのスコアの分布は、既述のとおり混在しているため、前者（「関連あり」の複数のデータの例えば平均値）と後者（「関連なし」の複数のデータの例えば平均値）との差分は小さい傾向にある。人工知能の成長が進むと、この差分は拡大する傾向になる。そして、人工知能が成熟した段階では、この差分の拡大傾向は減少して、データ分析システムの運用が進んでも両者の差分が変わらないようになる。そこで、両者の差分の変動傾向を可視化することによって、人工知能の成長段階が判断できるようにしてもよい。図１２は、両者の差分の傾向を示したグラフであり、横軸がスコアの算出タイミングを示し、縦軸がスコアを示し、１２００は「関連あり」のデータ群のスコアの平均値であり、１２０２は、「関連なし」のデータ群のスコアの平均値である。図１２から、データ分析システムの運用が進むにしたがって、「関連あり」のデータのスコアと「関連なし」のデータのスコアの差分（ｈ）が徐々に拡大し、その後その差分の拡大が縮小されることを示している。

以上説明したように、人工知能の成長プロセスを、所定のスコア算出タイミングとこれより以前のスコア算出タイミングにおける、複数の利用データ毎のスコア分布の差分に基づいて、所定の形式で可視化することによって、データ分析システムのユーザは、人工知能の成長プロセスを認識することができるので、データ分析に対する信頼性が向上される。

図１５は、人工知能の成長プロセスの可視化のための管理画面１５００の一例である。当該管理画面には、１５０２,１５０４,１５０６で示されるグラフィカルユーザインタフェース（ＧＵＩ）が含まれている。第１のＧＵＩ１５０２は、人工知能によるデータ分析システム運用を開始する際、人工知能の成長プロセスの可視化の要否をユーザに選択させるためのものである。第２のＧＵＩは、人工知能の成長プロセスを可視化するために、利用データのスコアの分布を得ようとする際に、スコアの算出タイミングをユーザが選択できるようにするためのものである。ｔ０はシステムの運用を開始した時点でスコアを算出したタイミングであり、ｔｍは最新のスコアの算出タイミングである。これらの複数のタイミングから所定個のタイミングが選択されてよいが、人工知能の成長の進展を確認する上で、最新のタイミング（ｔｍ）と一つ前のタイミング（ｔｍ−１）が選択されることがよい。第３のＧＵＩは、人工知能の成長プロセスの可視化の態様をユーザに選択させるためのものである。可視化の態様としては、既述の第１の態様から第４の態様がある。

（パターン更新機能）
予測コーディング部１０は、例えば、以下（１）〜（３）のように、所定の学習用データ、および／または新たに得られた学習用データに基づいて、構成要素の評価値を最適化することができる。

（１）評価値の最適化
構成要素評価部１５は、評価用データを評価した結果に基づいて再現率または適合率を算出し、当該再現率または適合率が上昇するように、構成要素がデータと分類情報との組み合わせに寄与する度合いを繰り返し評価することによって、上記学習したパターンを更新することができる。

ここで、上記「再現率」（Recall Rate）は、所定数のデータに対して発見すべきデータが占める割合（網羅性）を示す指標である。例えば、「全データの３０％に対して再現率が８０％」と表現した場合、発見すべきデータの８０％が、指標の上位３０％のデータの中に含まれていることを示す（データ分析システムを用いず、データに総当たり（リニアレビュー）した場合、発見すべきデータの量はレビューした量に比例するため、当該比例からの乖離が大きいほどシステムの性能が良いことを示す。）。また、上記「適合率」（Precision Rate）は、上記システムによって発見されたデータに対して、真に発見すべきデータが占める割合（正確性）を示す指標である。例えば、「全データを３０％処理した時点で、適合率が８０％」と表現した場合、指標の上位３０％のデータに対して、発見すべきデータの占める割合が８０％であることを示す。

構成要素抽出部１４は、データ評価部１７によって評価された結果に基づいて再現率または適合率を算出し、当該再現率または適合率が目標値を下回っていた場合、再現率または適合率が目標値を上回るまで、構成要素をデータから再抽出する。このとき、構成要素抽出部１４は、前回抽出した構成要素を除いた構成要素を抽出するようにしてもよいし、前回抽出した構成要素の一部を新たな構成要素に置き換えてもよい。また、データ評価部１７が、再抽出された構成要素で評価用データの指標を導出する場合、再抽出された構成要素とその評価値とを用いて各データの指標（第２指標）を導出し、構成要素を再抽出する前に得られた第１指標と第２指標とから、再現率または適合率を導出し直してもよい。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

（２）畳み込み手法に基づく構成要素の評価
構成要素評価部１５は、学習用データに含まれる構成要素を評価した後、当該構成要素以外の他の構成要素の評価値を畳み込むことによって、当該構成要素の評価値に当該他の構成要素の評価値を反映させるように、当該構成要素を再評価することができる。これにより、構成要素と他の構成要素との関連性が、当該構成要素の評価値として評価されるため、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

（３）最適化のタイミング
構成要素評価部１５は、任意のタイミングでパターン（例えば、構成要素と当該構成要素の評価値との組み合わせ）を更新することができる。すなわち、構成要素評価部１５は、例えば、（ａ）上記システムを管理する管理ユーザから更新リクエストを受け付けたタイミングで、（ｂ）予め設定された日時が到来したタイミングで、および／または（ｃ）ユーザから追加レビューに関する入力を受け付けたタイミングで、上記パターンを更新することができる。

ユーザは、データ評価部１７によって指標が導出された評価用データの内容を確認（確認レビュー）し、当該評価用データに対する分類情報を新たに入力することができる。このとき、分類情報取得部１２は、新たに入力された分類情報を取得し、データ分類部１３は、上記評価用データと当該分類情報とを組み合わせ、当該組み合わせを新たな学習用データとしてもよい。当該新たな学習用データは、任意のメモリに蓄積され、例えば、上記（ａ）〜（ｃ）のタイミングで上記システムにフィードバックされる。

これにより、構成要素抽出部１４は、上記新たな学習用データから構成要素を抽出し、構成要素評価部１５は、当該構成要素を評価する。当該構成要素が以前に評価され、当該構成要素とその評価値とがメモリに格納されている場合、構成要素格納部１６は、当該評価値を新たな評価結果（評価値）と置き換え、格納されていない場合、当該構成要素とその評価値とを対応付けて、当該メモリに新たに格納する。すなわち、予測コーディング部１０は、任意のタイミング（例えば、上記（ａ）〜（ｂ）のタイミング）で、当該分類情報に対応するデータの少なくとも一部を構成する複数の構成要素が、当該データと当該分類情報との組み合わせに寄与する度合いを再評価することによって、上記学習したパターンを更新することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

管理部１８は、さらに、以下（１）〜（５）を実行可能である。

（１）レビュー・ヒートマップ（Review Heat Map）
データ評価部１７が、複数の評価用データに対してそれぞれ指標を導出し、（例えば、当該指標によって当該評価用データと所定事案との関連性が高いことが示された順に）ユーザが、当該複数の評価用データをそれぞれ確認して分類情報を付与した（確認レビューした）場合を一例として考える。このとき、管理部１８は、分類情報が対応付けられた評価用データが、すべての評価用データに対して占める割合に応じたグラデーションを用いて、複数の評価用データをそれぞれ評価した結果に対する当該割合の分布を視認可能に表示することができる。

例えば、データ評価部１７が、０〜１００００の値域をとる数値を上記指標として導出する場合、管理部１８は、例えば、当該指標を１０００ごとに区切った範囲（すなわち、０〜１０００を第１区間、１００１〜２０００を第２区間、２００１〜３０００を第３区間・・・とする）に評価用データをそれぞれ分類し（例えば、指標が２５００である評価用データを第３区間に分類する）、ある範囲に分類された評価用データの総数に対して、所定の分類情報（例えば、「Related」）が付与された評価用データが占める割合が視認可能となるように、例えば、当該範囲の色調を変化させて（例えば、当該割合が高いほど暖色系に近づき、低いほど寒色系に近づく）、当該範囲を表示させることができる。管理部１８は、他の範囲についても、同様に当該他の範囲を表示させる。

これにより、管理部１８は、各範囲における上記割合の分布を、グラデーションを用いて表示することができるため、例えば、上記指標によって評価用データと所定事案との関連性が高いことが示されている範囲（例えば、当該指標が８００１〜９０００である第９区間）にもかかわらず、当該範囲における上記割合が寒色系の色調で示されている場合、ユーザによる確認レビューが間違っているおそれがあることを示唆することができる。すなわち、データ分析システムは、ユーザに当該分布を一目で把握させることができるという付加的な効果をさらに奏する。

（２）セントラル・リンケージ（Central Linkage）
管理部１８は、複数の主体（例えば、人、組織、コンピュータなど）間の相互関係（例えば、上下関係、系列関係、データ送受信の多寡など）を可視化することができる。例えば、第１コンピュータから第２コンピュータに電子メールが送信された場合、管理部１８は、当該第１コンピュータを表す第１の円と当該第２コンピュータを表す第２の円とを、当該第１の円から当該第２の円に向かう矢印（例えば、電子メールの多寡に応じた太さを有してよい）で結んだダイアグラムを、所定の表示装置（例えば、クライアント装置１０が備えたディスプレイ）に表示させることができる。

また、管理部１８は、データ評価部１７によって評価された結果に応じて、上記相互関係を可視化することができる。例えば、データ評価部１７が、０〜１００００の値域をとる数値を上記指標として導出する場合、管理部１８は、例えば、指定された区間に属する指標が対応付けられた評価用データ（例えば、第１コンピュータから第２コンピュータに送信された電子メール）のみに基づいて、上記ダイアグラムを上記所定の表示装置に表示させることができる。これにより、データ分析システムは、複数の主体間の相互関係をユーザに一目で把握させることができるという付加的な効果をさらに奏する。

（３）行動抽出（Behavior Extractor）
管理部１８は、所定の動作を表す第１の構成要素が評価用データに含まれるか否かを判定し、含まれると判定する場合、当該所定の動作の対象を表す第２の構成要素を特定することができる。例えば、「仕様を確定する」という文章が上記評価用データに含まれる場合、当該文章から「仕様」および「確定する」という構成要素を抽出し、「確定する」という所定の動作を表す構成要素（動詞）の対象である「仕様」という他の構成要素（目的語）を特定する。次に、管理部１８は、上記構成要素および他の構成要素を含む評価用データの属性（性質・特徴）を示すメタ情報（属性情報）と、当該構成要素および第他の構成要素とを関連付ける。ここで、上記メタ情報とは、データが有する所定の属性を示す情報であり、例えば、上記評価用データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。

そして、管理部１８は、２つの構成要素とメタ情報とを対応付けて、所定の表示装置（例えば、クライアント装置３が備えたディスプレイ）に表示させる。例えば、管理部１８は、第１の構成要素を表す円と第２の構成要素を表す円とを、当該第１の円から当該第２の円に向かう矢印で結んだダイアグラムを、上記所定の表示装置に表示させることができる。これにより、データ分析システムは、上記所定の動作とその対象とをユーザに一目で把握させることができるという付加的な効果をさらに奏する。

（４）生成的概念抽出に基づく自動要約
管理部１８は、予め選定された概念の下位概念に対応する構成要素を含むデータを複数の評価用データからそれぞれ抽出し、当該複数の評価用データを要約可能なコンテンツ（例えば、文章、グラフ、表など）を生成することができる。

まず、ユーザが、評価用データから検出したいトピックに応じたいくつかの概念を選定し、当該選定した概念を予め管理部１８に登録する。例えば、検出すべきトピックが「不正」または「不満」である場合、概念のカテゴリを「行動」、「感情」、「性質・状態」、「リスク」、および「金銭」の５つに分け、例えば「行動」については「復讐する」、「軽蔑する」など、「感情」については「苦しむこと」、「腹を立てること」など、「性質・状態」については「鈍重であること」、「態度が悪いこと」など、「リスク」については「脅す」、「だます」など、「金銭」については「人の労働に対して支払われるお金」などの概念を、ユーザが管理部１８にそれぞれ登録する。

管理部１８は、登録された概念ごとに、当該概念の下位概念に対応する構成要素を学習用データから検索し、当該検索された構成要素を当該概念に対応付けて、任意のメモリ（例えば、ストレージシステム１８）に格納する。そして、管理部１８は、当該格納された構成要素を評価用データから抽出し、当該構成要素に対応付けられた概念を特定し、当該概念を用いた要約を出力する。例えば、管理部１８は、ある電子メールに含まれる「監視システム受注」というテキストから「システム」、「販売」、および「する」という概念を抽出し、他の電子メールに含まれる「会計システム導入」というテキストから「システム」、「販売」、および「する」という概念を抽出し、これら電子メールの要約として「システムを販売する」を出力する。このとき、管理部１８は、例えば、「システムを販売する」の概念を含む評価用データが、すべての評価用データに対して占める割合を示すグラフ（例えば、円グラフ）を示すことができる。これにより、データ分析システムは、評価用データの全体像をユーザに把握させることができるという付加的な効果をさらに奏する。

（５）トピッククラスタリング（Topic Clustering）
管理部１８は、複数の評価用データに含まれるトピック（主題）に応じて、当該複数の評価用データをクラスタリングすることができる。例えば、管理部１８は、任意の分類モデル（例えば、Ｋ平均法、サポートベクターマシン、球面クラスタリングなど）を用いて、複数の評価用データをクラスタリングすることができる。これにより、データ分析システムは、評価用データの全体像をユーザに把握させることができるという付加的な効果をさらに奏する。

（補助機能）
予測コーディング部１０が備えた各部は、例えば、以下（１）〜（６）の補助機能を有することができる。

（１）高解像度評価
データ評価部１７は、高い解像度で評価用データを評価することができる。すなわち、データ評価部１７は、評価用データに対して指標を導出するだけでなく、例えば、評価用データを複数のパーツ（例えば、当該評価用データに含まれるセンテンスまたは段落（部分評価用データ））に分割し、学習したパターンに基づいて当該複数の部分評価用データをそれぞれ評価（部分評価用データに対して指標を導出）することができる。そして、データ評価部１７は、複数の部分評価用データに対してそれぞれ導出した複数の指標を統合し、当該統合指標を評価用データの評価結果とすることもできる（例えば、各指標が数値として導出される場合、当該指標の最大値を抽出して当該評価用データに対する統合指標としたり、当該指標の平均を当該評価用データに対する統合指標としたり、当該指標を大きい順から所定数合算して当該評価用データの統合指標としたりすることができる）。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

（２）時系列評価
時間の経過とともにその性質が変化するデータ（例えば、時間の経過とともに進行する病状を記録した電子カルテなど）を分析する場合、構成要素評価部１５は、所定時間ごとに区切られた学習用データ（例えば、第１区間の学習用データ、第２区間の学習用データ・・・）からそれぞれパターンを学習し（すなわち、当該所定時間ごとに構成要素と当該構成要素を評価した結果とを取得し）、データ評価部１７は、当該パターンにそれぞれ基づいて評価用データを評価することができる。すなわち、データ評価部１７は、時系列に沿って評価用データに対する指標を導出することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

このとき、データ評価部１７は、上記指標の時間的変化に基づいて、将来の指標を予測することができる。例えば、データ評価部１７は、新たに評価用データが得られる前に、時系列分析のためのモデル（例えば、自己回帰モデル、移動平均モデルなど）と、所定の期間内（例えば、過去１ヶ月）において導出された指標とに基づいて、当該新たな評価用データを評価した場合に得られる次の指標を予測することができる。これにより、データ分析システムは、将来起こり得る事象（例えば、好ましくない事態が起こるリスク）をユーザに提示できるという付加的な効果をさらに奏する。

（３）案件別評価
案件の種類に応じてその性質が変化するデータ（例えば、訴訟の種類（例えば、独占禁止法違反、情報漏洩、特許権侵害など）に応じて内容が変化する訴訟関連文書など）を分析する場合、構成要素評価部１５は、案件ごとに準備された学習用データ（例えば、独占禁止法違反に関する学習用データ、情報漏洩に関する学習用データ・・・）からそれぞれパターンを学習し（すなわち、当該案件ごとに構成要素と当該構成要素を評価した結果とを取得し）、データ評価部１７は、当該パターンにそれぞれ基づいて評価用データを評価することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

（４）構文解析
データ評価部１７は、評価用データが有する構造を解析し、当該解析した結果を当該評価用データの評価に反映させることができる。例えば、評価用データが少なくとも一部に文章（テキスト）を含む場合、データ評価部１７は、当該文章に含まれる各センテンスの表現形態（例えば、当該センテンスが肯定形であるか、否定形であるか、消極形であるかなど）を解析し、当該解析した結果を評価用データに対して導出する指標に反映させることができる。ここで、肯定形は、主題を肯定する表現（例えば、「料理が美味しい」）であり、否定形は、主題を否定する表現（例えば、「料理が不味い」または「料理が美味しくない」）であり、消極形は、主題を婉曲に肯定または否定する表現（例えば、「料理が美味しいとはいえなかった」または「料理が不味いとはいえかった」）であってよい。

データ評価部１７は、上記表現形態に応じて指標を調整することができる。例えば、データ評価部１７が所定の値域をとる数値を上記指標として導出する場合、データ評価部１７は、例えば、肯定形に「＋α」を加算し、否定形に「−β」を加算し、消極形に「＋θ」を加算することによって(α、β、およびθは、それぞれ任意の数値であってよい)、上記指標を調整することができる。また、データ評価部１７は、評価用データに含まれるセンテンスが否定型であることを検知した場合、例えば、当該センテンスをキャンセルすることにより、当該センテンスに含まれる構成要素を指標導出の基礎にしない（当該構成要素を考慮しない）ことができる。

さらに、構成要素評価部１５は、例えば、ある形態素（構成要素）がセンテンスの主語、目的語、および述語のいずれかに応じて、当該構成要素の評価値を増減させることができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

（５）構成要素間の相関（共起）を考慮した評価
データ評価部１７は、評価用データに含まれる第１構成要素と、当該評価用データに含まれる第２構成要素との相関（共起、例えば、両者が同時に出現する頻度）を考慮して、当該評価用データに対する指標を導出することができる。例えば、評価用データが少なくとも一部に文章（テキスト）を含む場合において、当該文章に「価格」という第１キーワード（第１構成要素）が出現するとき、データ評価部１７は、当該第１キーワードが出現した第１位置の近傍にある第２位置（例えば、当該第１位置を含む所定の範囲に含まれる位置）に、第２キーワード（第２構成要素）が出現する数に基づいて、上記指標を導出することができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

（６）感情分析
評価用データが所定事案に対するユーザの評価情報を含む場合、データ評価部１７は、当該評価用データを生成したユーザの感情であって、当該評価情報に基づいて生じた当該所定事案に対する感情を、当該評価用データから抽出する（当該評価用データに含まれる感情を評価する）ことができる。

例えば、商品・サービスを紹介するウェブサイト（例えば、オンライン商品サイト、レストランガイドなど）に含まれるデータを分析対象とする場合、データ評価部１７は、当該商品・サービスに対するコメント（レビュー）に含まれる構成要素（例えば、「良かった」、「楽しかった」、「悪かった」、「つまらなった」などのキーワード）と、当該商品・サービスに対する評価（例えば、「とても良い」、「良い」、「普通」、「悪い」、「とても悪い」の５段階評価）との組み合わせ（学習用データ）に基づいて、評価用データ（例えば、他のウェブサイトに含まれるデータ）を評価することができる。このとき、データ評価部１７は、例えば、誇張表現（例えば、「とても」、「非常に」など）に応じて当該評価結果を増減させることができる。これにより、データ分析システムは、データ分析の精度を向上させることができるという付加的な効果をさらに奏する。

〔データ分析システムが文書データ以外のデータを処理する例〕
本実施の形態においては、データ分析システムが文書データを分析する場合を主に想定し、当該想定に基づく一例を説明したが、当該システムは、文書データ以外のデータ（例えば、音声データ、画像データ、映像データなど）を分析することもできる。

例えば、音声データを分析する場合、上記システムは、当該音声データ自体を分析の対象としてもよいし、音声認識により当該音声データを文書データに変換し、変換後の文書データを分析の対象としてもよい。前者の場合、上記システムは、例えば、音声データを所定の長さの部分音声に分割して構成要素とし、任意の音声分析手法（例えば、隠れマルコフモデル、カルマンフィルタなど）を用いて当該部分音声を識別することによって、当該音声データを分析できる。後者の場合、任意の音声認識アルゴリズム（例えば、隠れマルコフモデルを用いた認識方法など）を用いて音声を認識し、認識後のデータに対して、実施の形態において説明した手順と同様の手順で分析できる。

また、画像データを分析する場合、上記システムは、例えば、画像データを所定の大きさの部分画像に分割して構成要素とし、任意の画像認識手法（例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど）を用いて当該部分画像を識別することによって、当該画像データを分析できる。

さらに、映像データを分析する場合、上記システムは、例えば、映像データに含まれる複数のフレーム画像を所定の大きさの部分画像にそれぞれ分割して構成要素とし、任意の画像認識手法（例えば、パターンマッチング、サポートベクターマシン、ニューラルネットワークなど）を用いて当該部分画像を識別することによって、当該映像データを分析できる。

〔ソフトウェア・ハードウェアによる実現例〕
データ分析システムの制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵを用いてソフトウェアによって実現してもよい。後者の場合、上記システムは、各機能を実現するソフトウェアであるプログラム（データ分析システムの制御プログラム）を実行するＣＰＵ、当該プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、当該プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本データ分析システムの目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本データ分析システムは、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。なお、上記プログラムは、任意のプログラミング言語によって実装可能であり、例えば、Python、ActionScript、JavaScript（登録商標）などのスクリプト言語、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装され得る。また、上記プログラムを記録した任意の記録媒体も、本データ分析システムの範疇に入る。

〔他のアプリケーション例〕
上記システムは、例えば、ディスカバリ支援システム、フォレンジックシステム、電子メール監視システム、医療応用システム（例えば、ファーマコビジランス支援システム、治験効率化システム、医療リスクヘッジシステム、転倒予測（転倒防止）システム、予後予測システム、診断支援システムなど）、インターネット応用システム（例えば、スマートメールシステム、情報アグリゲーション（キュレーション）システム、ユーザ監視システム、ソーシャルメディア運営システムなど）、情報漏洩検知システム、プロジェクト評価システム、マーケティング支援システム、知財評価システム、不正取引監視システム、コールセンターエスカレーションシステム、信用調査システムなど、ビッグデータを分析する人工知能システム（データと所定の事案との関連性を評価可能な任意のシステム）として実現され得る。なお、本発明のデータ分析システムが応用される分野によっては、当該分野に特有の事情を考慮して、例えば、データに前処理（例えば、当該データから重要箇所を抜き出し、当該重要箇所のみをデータ分析の対象とするなど）を施したり、データ分析の結果を表示する態様を変化させたりしてよい。こうした変形例が多様に存在し得ることは、当業者に理解されるところであり、すべての変形例が本発明の範疇に入る。

本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。

１……データ分析システム、２……サーバ装置、３……クライアント装置、４……データベース、５……ストレージシステム、６……管理計算機、１０……予測コーディング部、１１……データ取得部、１２……分類情報取得部、１３……データ分類部、１４……構成要素抽出部、１５……構成要素評価部、１６……構成要素格納部、１７……データ評価部、１８……管理部。

Claims

コンピュータがプログラムを実行することにより人工知能を機能させ、当該人工知能を学習ステップを経て成長させながら、データを当該人工知能によって評価し、前記評価に基づいて前記人工知能の成長を可視化できるようにしたデータ分析システムであって、
所定事案との関連性に応じた複数の分類であって、当該複数の分類は、第１の分類と当該第１の分類とは異なる第２の分類とを少なくとも含み、複数のデータ夫々に、前記第１の分類、又は、前記第２の分類を設定する分類設定手段と、
前記人工知能が成長を開始してから成長するまでの期間内での所定タイミング毎に、前記人工知能に、前記複数のデータ夫々に前記評価の結果としての指標を決定させる指標決定手段と、
前記所定タイミングのうち、第１のタイミングと、当該第１のタイミングより後の第２のタイミングと、を設定するタイミング設定手段と、
前記指標決定手段により、前記第１のタイミングで決定された指標を、前記第１の分類が付与された複数のデータ夫々と、前記第２の分類が付与された複数のデータ夫々と、に設定する第１設定手段と、
前記指標決定手段により、前記第２のタイミングで決定された指標を、前記第１の分類が付与された複数のデータ夫々と、前記第２の分類が付与された複数のデータ夫々と、に設定する第２設定手段と、
前記第１のタイミングの前記指標と前記第２のタイミングでの前記指標とが等しい範囲を含むように設定される基準領域に対する、前記第１設定手段によって設定された前記指標と前記第２設定手段によって設定された前記指標との分布を表示手段に表示させる表示処理手段と、
前記タイミング設定手段により、前記第１のタイミングと前記第２のタイミングとを前記人工知能の成長の段階に合わせて変更することによって、前記分布を表示させる態様を前記人工知能の成長の段階に応じて変化させる態様変化手段と、
を備える
データ分析システム。
前記人工知能に、サンプルデータと、当該サンプルデータの前記分類と、の組み合わせに、前記サンプルデータに含まれる複数の構成要素のそれぞれが寄与する度合いを演算させることによって、前記サンプルデータが特徴付けられるパターンを学習させ、
前記複数のデータを前記人工知能の成長過程を可視化するためのデータ群として、前記複数の評価用データの中から選択し、
前記分類設定手段は当該選択された複数のデータ夫々に前記第１の分類、又は、第２の分類を設定し、
前記指標決定手段は、前記人工知能に、前記学習したパターンに基づいて、前記複数のデータ夫々に前記指標を決定させる、
請求項１記載のデータ分析システム。
前記分類設定手段は、前記複数のデータ夫々に、前記第１の分類として、前記所定事案に関連するという分類を、前記第２の分類として、前記第１の分類よりも前記所定事案に対する関連性が小さいという分類を、それぞれ設定する、
請求項１又は２記載のデータ分析システム。
前記タイミング設定手段は、前記第１のタイミングと前記第２のタイミングとを、前記人工知能が成長し始めた段階に属するタイミングに設定し、
前記態様変化手段は、前記第１の分類が付与されたデータの前記指標と前記第２の分類が付与されたデータの前記指標とが、前記基準領域に沿って、混在するように分布するよう前記表示の態様を変化させる
請求項１乃至３の何れか１項記載のデータ処理システム。
前記態様変化手段は、前記第１の分類が付与されたデータの前記指標と前記第２の分類が付与されたデータの前記指標とを前記基準領域の前記評価の値が小さい領域に集まるように分布するよう前記表示の態様を変化させる
請求項４記載のデータ分析システム。
前記タイミング設定手段は、前記第１のタイミングと前記第２のタイミングとを、前記人工知能が成長している段階に属するタイミングに設定することにより、前記態様変化手段は、前記第１の分類が付与されたデータの前記指標と前記第２の分類が付与されたデータの前記指標とを、前記第１の分類が付与されたデータの前記指標と前記第２の分類が付与されたデータの前記指標とが分かれるように分布するよう前記表示の態様を変化させる
請求項４又は５記載のデータ分析システム。
前記態様変化手段は、前記基準領域に対して、前記第１の分類が付与されたデータの前記指標を、前記第１のタイミングよりも第２のタイミングで高い値になるように、前記第２の分類が付与されたデータの前記指標を、前記第１のタイミングよりも第２のタイミングで低い値になるように分布するよう前記表示の態様を変化させる
請求項６記載のデータ分析システム。
前記タイミング設定手段は、前記第１のタイミングと前記第２のタイミングとを、前記人工知能が成長している段階に属するタイミングに設定し、
前記態様変化手段は、前記基準領域に対して、前記第１の分類が付与されたデータの前記指標を、前記第１のタイミングよりも第２のタイミングで高い値になるように、前記第２の分類が付与されたデータの前記指標を、前記第１のタイミングよりも第２のタイミングで低い値になるように分布するよう前記表示の態様を変化させる、
請求項１乃至３の何れか１項記載のデータ分析システム。
前記タイミング設定手段は、前記第１のタイミングと前記第２のタイミングとを、前記人工知能の成長が安定した段階に属するタイミングに設定することにより、前記態様変化手段は、前記第１の分類が付与されたデータの前記指標と前記第２の分類が付与されたデータの前記指標とを、前記第１の分類が付与されたデータの前記指標と前記第２の分類が付与されたデータの前記指標とが前記基準領域に沿うように分布するよう前記表示の態様を変化させる
請求項６記載のデータ分析システム。
前記態様変化手段は、前記第１の分類が付与されたデータの前記指標を、前記第１のタイミングと第２のタイミングとが共に高い値になるように、前記第２の分類が付与されたデータの前記指標を、前記第１のタイミングと第２のタイミングとが共に低い値になるように分布するよう前記表示の態様を変化させる
請求項９記載のデータ分析システム。
前記タイミング設定手段は、前記第１のタイミングと前記第２のタイミングとを、前記人工知能の成長が安定した段階に属するタイミングに設定し、
前記態様変化手段は、前記基準領域に沿って、前記第１の分類が付与されたデータの前記指標を、前記第１のタイミングと第２のタイミングとで共に高い値になるように、前記第２の分類が付与されたデータの前記指標を、前記第１のタイミングと第２のタイミングとで共に低い値になるように分布するよう前記表示の態様を変化させる
請求項１乃至３の何れか１項記載のデータ分析システム。
コンピュータのハードウェア資源としてのコントローラがプログラムを実行することにより人工知能を機能させ、当該人工知能を学習ステップを経て成長させながら、データを当該人工知能によって評価し、前記評価に基づいて前記人工知能の成長を可視化できるようにしたデータ分析制御方法であって、
前記コントローラは、
所定事案との関連性に応じた複数の分類であって、当該複数の分類は、第１の分類と当該第１の分類とは異なる第２の分類とを少なくとも含み、複数のデータ夫々に、前記第１の分類、又は、前記第２の分類を設定する分類設定ステップと、
前記人工知能が成長を開始してから成長するまでの期間内での所定タイミング毎に、前記人工知能に、前記複数のデータ夫々に前記評価の結果としての指標を決定させる指標決定ステップと、
前記所定タイミングのうち、第１のタイミングと、当該第１のタイミングより後の第２のタイミングと、を設定するタイミング設定ステップと、
前記指標決定ステップにより、前記第１のタイミングで決定された指標を、前記第１の分類が付与された複数のデータ夫々と、前記第２の分類が付与された複数のデータ夫々と、に設定する第１設定ステップと、
前記指標決定ステップにより、前記第２のタイミングで決定された指標を、前記第１の分類が付与された複数のデータ夫々と、前記第２の分類が付与された複数のデータ夫々と、に設定する第２設定ステップと、
前記第１のタイミングの前記指標と前記第２のタイミングでの前記指標とが等しい範囲を含むように設定される基準領域に対する、前記第１設定ステップによって設定された前記指標と前記第２設定ステップによって設定された前記指標との分布を表示手段に表示させる表示処理ステップと、
前記タイミング設定ステップにより、前記第１のタイミングと前記第２のタイミングとを前記人工知能の成長の段階に合わせて変更することによって、前記分布を表示させる態様を前記人工知能の成長の段階に応じて変化させる態様変化ステップと、
を実行する
データ分析制御方法。
人工知能を学習ステップを経て成長させながら、データを当該人工知能に評価させ、前記評価に基づいて前記人工知能の成長を可視化できるようにコンピュータを機能させるプログラムであって、
所定事案との関連性に応じた複数の分類であって、当該複数の分類は、第１の分類と当該第１の分類とは異なる第２の分類とを少なくとも含み、複数のデータ夫々に、前記第１の分類、又は、前記第２の分類を設定する分類設定機能と、
前記人工知能が成長を開始してから成長するまでの期間内での所定タイミング毎に、前記人工知能に、前記複数のデータ夫々に前記評価の結果としての指標を決定させる指標決定機能と、
前記所定タイミングのうち、第１のタイミングと、当該第１のタイミングより後の第２のタイミングと、を設定するタイミング設定機能と、
前記指標決定機能により、前記第１のタイミングで決定された指標を、前記第１の分類が付与された複数のデータ夫々と、前記第２の分類が付与された複数のデータ夫々と、に設定する第１設定機能と、
前記指標決定機能により、前記第２のタイミングで決定された指標を、前記第１の分類が付与された複数のデータ夫々と、前記第２の分類が付与された複数のデータ夫々と、に設定する第２設定機能と、
前記第１のタイミングの前記指標と前記第２のタイミングでの前記指標とが等しい範囲を含むように設定される基準領域に対する、前記第１設定機能によって設定された前記指標と前記第２設定機能によって設定された前記指標との分布を表示手段に表示させる表示処理機能と、
前記タイミング設定機能により、前記第１のタイミングと前記第２のタイミングとを前記人工知能の成長の段階に合わせて変更することによって、前記分布を表示させる態様を前記人工知能の成長の段階に応じて変化させる態様変化機能と、
をコンピュータに実現させるためのプログラム。
請求項１３記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。