JP6124936B2

JP6124936B2 - データ分析システム、データ分析方法、および、データ分析プログラム

Info

Publication number: JP6124936B2
Application number: JP2015064440A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 喜勝白井; 秀樹武田; 和巳蓮子; 彰晃花谷; ハルスコウヤコブ
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2015-03-26
Filing date: 2015-03-26
Publication date: 2017-05-10
Anticipated expiration: 2034-02-04
Also published as: JP2015149085A

Description

本発明は、所定のコンピュータに記録されたデータを分析するデータ分析システム等に関するものである。

コンピュータに関連する犯罪または法的紛争（不正アクセス、機密情報漏洩など）が生じた場合、当該犯罪または法的紛争の原因を究明する捜査に必要な機器、データ、または電子的記録を収集および分析する必要がある。特に、米国の民事訴訟においては、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）制度のもとで、当該訴訟の原告および被告は、当該訴訟に関連するデジタル情報を証拠として提出する責任を負う。

一方、ＩＴ（Information technology）の急速な発達および普及に伴い、近年のビジネスにおいては、多くの情報がコンピュータを用いて作成されている。このため、法廷に証拠資料を提出する準備を行う過程において、当該訴訟に関連しない機密情報まで証拠資料に含めてしまうミスが生じやすい。ここで、文書情報を分析するフォレンジックシステムに関する技術が、下記特許文献１〜３に提案されている。

特開２０１１−２０９９３０号公報（２０１１年１０月２０日公開）特開２０１１−２０９９３１号公報（２０１１年１０月２０日公開）特開２０１２−０３２８５９号公報（２０１２年０２月１６日公開）

しかし、上記特許文献１〜３に開示されたフォレンジックシステムによれば、複数のコンピュータおよびサーバを利用した利用者に関する、膨大な文書情報を収集しなければならない。デジタル化された膨大な文書情報を、訴訟の証拠資料として妥当であるか否かを分別する作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報を１つ１つ分別する必要があり、多大な労力と費用がかかるという問題があった。

本発明は、上記の課題に鑑みてなされたものであり、その目的は、人物の行為を分析することによって、例えば、ディスカバリーに必要となる作業などを効率的に実行することを可能にするデータ分析システム等を提供することである。

上記課題を解決するために、本発明のデータ分析システムは、所定のコンピュータに記録されたデータを分析するデータ分析システムであって、所定の動作を表す第１の単語が前記データに含まれる場合、当該所定の動作の対象を表す第２の単語を特定する特定部と、前記第１の単語および第２の単語を含むデータの属性を示す属性情報と、当該第１の単語および第２の単語とを関連付ける関連付与部とを備えている。

また、本発明のデータ分析システムでは、前記属性情報は、前記データを送信した人物の名前、受信した人物の名前、前記人物を特定可能なアドレス、当該データが送受信された日時、または作成された日時であってよい。

また、本発明のデータ分析システムは、前記関連付与部によって関連付けられた前記属性情報と前記第１の単語および第２の単語とに基づいて、前記データと予め定められた事案との関係性を評価する評価部をさらに備えてよい。

また、本発明のデータ分析システムでは、前記予め定められた事案は、訴訟または不正調査に関係することを示す情報であってよい。

また、本発明のデータ分析システムは、前記評価部によって評価された結果に基づいて、前記事案に関連する複数の人物の関係性を表示する表示部をさらに備えてよい。

また、本発明のデータ分析システムは、複数の端末間で送受信され、複数の人物のそれぞれに対応付けられる通信情報を、前記データとして取得する通信データ取得部をさらに備えてよい。

また、上記課題を解決するために、本発明のデータ分析方法は、所定のコンピュータに記録されたデータを分析するデータ分析方法であって、所定の動作を表す第１の単語が前記データに含まれる場合、当該所定の動作の対象を表す第２の単語を特定する特定ステップと、前記第１の単語および第２の単語を含むデータの属性を示す属性情報と、当該第１の単語および第２の単語とを関連付ける関連付与ステップとを含んでいる。

また、上記課題を解決するために、本発明のデータ分析プログラムは、所定のコンピュータに記録されたデータを分析するデータ分析プログラムであって、コンピュータに、所定の動作を表す第１の単語が前記データに含まれる場合、当該所定の動作の対象を表す第２の単語を特定させる特定機能と、前記第１の単語および第２の単語を含むデータの属性を示す属性情報と、当該第１の単語および第２の単語とを関連付けさせる関連付与機能とを実現させる。

本発明のデータ分析システム、データ分析方法、および、データ分析プログラムによれば、人物の行為を分析することができる。これにより、上記データ分析システム等は、例えば、ディスカバリーに必要となる作業などを効率的に実行することができる。

本発明の第１の実施形態に係るデータ分析システムの要部構成の一例を示すブロック図である。第１の単語と第２の単語とのペアの一例を一覧可能に列挙した表である。上記データ分析システムが備えた分析部に含まれる、特定部および関連付与部が実行する処理の流れを示すフローチャートである。本発明の第２の実施形態に係る文書分別システムの要部構成の一例を示すブロック図である。第２の実施形態における段階ごとの処理の流れを示したチャートである。第２の実施形態におけるキーワードデータベースの処理フローを示すチャートである。第２の実施形態における関連用語データベースの処理フローを示したチャートである。第２の実施形態における第１自動分別部の処理フローを示したチャートである。第２の実施形態における第２自動分別部の処理フローを示したチャートである。第２の実施形態における分別符号受付付与部の処理フローを示したチャートである。第２の実施形態における分別符号受付文書解析部の処理フローを示したチャートである。第２の実施形態における分別符号受付文書解析部での解析結果を示したグラフである。第２の実施形態の一実施例における第３自動分別部の処理フローを示したチャートである。第２の実施形態の他の実施例における第３自動分別部の処理フローを示したチャートである。第２の実施形態における品質検査部の処理フローを示したチャートである。第２の実施形態における文書表示画面である。本発明の第３の実施形態に係る文書分別システムの要部構成の一例を示すブロック図である。第３の実施形態における段階ごとの処理の流れを示したチャートである。第３の実施形態におけるデータベースの処理フローを示したチャートである。第３の実施形態におけるワード探索部の処理フローを示したチャートである。第３の実施形態におけるスコア算出部の処理フローを示したチャートである。第３の実施形態における自動分別部の処理フローを示したチャートである。第３の実施形態における文書排除部の処理フローを示したチャートである。本発明の第４の実施形態に係る相関関係表示システムの要部構成の一例を示すブロック図である。上記相関関係表示システムが備えた表示部の表示態様を示す図である。上記相関関係表示システムが実行する処理の流れを示すフローチャートである。上記相関関係表示システムのハードウェア構成図である。

〔実施形態１〕
図１〜図３に基づいて、本発明に係る第１の実施形態（実施形態１）を説明する。

（データ分析システム５の概要）
データ分析システム５は、所定のコンピュータに記録されたデータを分析するシステムである。上記データ分析システム５は、最初に、外部（所定のコンピュータ）から取得されたデータの内容を分析する。当該分析において、データ分析システム５は、所定の動作を表す第１の単語が上記データに含まれる場合、当該所定の動作の対象を表す第２の単語を特定する。例えば、「仕様を確定する」という文章が上記データに含まれる場合、当該文章から「仕様」および「確定する」という単語を抽出し、「確定する」という所定の動作を表す第１の単語（動詞）の対象である「仕様」という第２の単語（目的語）を特定する。

次に、上記データ分析システム５は、上記第１の単語および第２の単語を含むデータの属性（性質・特徴）を示すメタ情報（属性情報）と、当該第１の単語および第２の単語とを関連付ける。ここで、上記メタ情報は、データが有する所定の属性を示す情報であり、例えば、上記データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。また、上記データがプレゼンテーション資料である場合、当該プレゼンテーション資料が作成された日時などであってよい。

図２は、第１の単語と第２の単語とのペアの一例を一覧可能に列挙した表である。なお、図２において、当該表の２列目に記載された単語が、３列目に記載された単語（日本語のサ行変格活用動詞）の目的語である。例えば、「技術を交流する」という文章が電子メール（データ、通信情報）に含まれており、「技術」（第２の単語）および「交流する」（第１の単語）という単語が抽出された場合（図２に示す表の１行目を参照）、データ分析システム５は、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前（例えば、「人物Ａ」および「人物Ｂ」）とを関連付ける。これにより、「人物Ａ」と「人物Ｂ」とが、ある「技術」についての「交流」を企図していることが推測できる。

さらに、例えば、「仕様を確定する」という文章が、上記電子メールに添付されたプレゼンテーション資料に含まれており、「仕様」（第２の単語）および「確定する」（第１の単語）という単語が抽出された場合（図２に示す表の２行目を参照）、相関関係表示システム１は、上記「仕様」および「確定する」と、上記プレゼンテーション資料が作成された日時（例えば、２０１４年１月１６日１６時３０分）とを関連付ける。これにより、「人物Ａ」と「人物Ｂ」とが、ある「技術」についての「交流」を企図する中で、２０１４年１月１６日１６時３０分の時点において、当該「技術」の「仕様」を「確定」しようとしていることが推測できる。

すなわち、データ分析システム５によれば、所定のデータから人物の行為に関連する箇所（第１の単語および第２の単語）を抽出し、当該抽出した箇所を上記メタ情報と関連付けることによって、当該人物の行為を分析することができる。

したがって、データ分析システム５によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案（訴訟または不正調査など）に関連する行為をデータから抽出し、当該データとの関連を特定することによって、上記ディスカバリーを効率よく実行できる。また、データ分析システム５によれば、予め定められた事案に対して関連性が高い人物間の関係性を把握できるので、ディスカバリー等の作業における重要なデータの見落としを抑制することができる。

（データ分析システム５の構成）
図１は、実施形態１に係るデータ分析システム５の要部構成の一例を示すブロック図である。データ分析システム５は、所定のコンピュータに記録されたデータを分析するシステムである。図１に示されるように、データ分析システム５は、分析部１２（特定部１２１、関連付与部１２２）を備える。また、上記データ分析システム５は、評価部１６をさらに備えてよい。

分析部１２は、所定のコンピュータから取得されたデータの内容を分析する。具体的には、分析部１２は、テキストマイニング手法（上記データがテキスト情報である場合）、画像認識手法（上記データが画像である場合）、または、音声認識手法（上記データが音声情報である場合）を用いて、当該データの内容に含まれるテキストデータを分析する。そして、分析部１２は、上記データの内容に予め定められた事案と関係を有するテキスト、画像、または音声が含まれているか否かを分析する。

ここで、予め定められた事案は、例えば、訴訟に関係することを示す情報である。または、訴訟に関係するもののみならず、不正調査の人間関係、Ｍ＆Ａ・知的財産における人物、会計、技術情報の相関性に関するものであってもよい。

例えば、分析部１２は、予め定められた事案に関係する単語を示すテキストデータを格納する辞書部を有する。分析部１２は、データの内容に含まれるテキストデータを辞書部に格納されているテキストデータを用いて分析することで、当該データの内容に当該事案に関係するテキストが含まれているか否か分析する。

また、分析部１２は、上記テキストが含まれていることを示す分析結果が得られた場合、当該テキストの品詞に関する情報を当該テキストに付与できる。ここで、上記品詞は、上記テキストが有する文法的な機能・形態に基づいて分類する情報であり、例えば、名詞、動詞、形容詞などが挙げられる。分析部１２は、特定部１２１と、関連付与部１２２とを含む。分析部１２は、上記分析した結果を特定部１２１に出力する。

特定部１２１は、所定の動作を表す第１の単語が上記テキスト（データ）に含まれる場合、当該所定の動作の対象を表す第２の単語を特定する。具体的には、特定部１２１は、上記テキストに含まれる単語が動詞（所定の動作を表す単語）であるか否かを判定する。単語が動詞である場合、特定部１２１は、当該単語（第１の単語）が表す所定の動作の対象である第２の単語（目的語）を特定する。例えば、「仕様を確定する」というテキストから「仕様」および「確定する」という単語が抽出された場合、特定部２２は、「確定する」という所定の動作を表す第１の単語（動詞）の対象である「仕様」という第２の単語（目的語）を特定する。特定部１２１は、上記第１の単語および第２の単語を、関連付与部１２２に出力する。

関連付与部１２２は、第１の単語および第２の単語を含むデータの属性を示すメタ情報（属性情報）と、当該第１の単語および第２の単語とを関連付ける。例えば、「技術」（第２の単語）および「交流する」（第１の単語）という単語が、上記特定部１２１から入力された場合、関連付与部１２２は、上記「技術」および「交流する」と、上記テキストを含むデータを送受信した人物の名前（例えば、「人物Ａ」および「人物Ｂ」）とを関連付ける。関連付与部１２２は、関連付けた結果を評価部１６に出力する。

評価部１６は、分析部１２（関連付与部１２２）の分析結果を用い、データの内容と予め定められた事案との関係性を評価する。例えば、評価部１６は、自動コード付処理を実行することでデータの内容と予め定められた事案との関係性を評価する。次に、評価部１６は、当該データに、外部から取得した予め定められた事案との関係性を対応づける情報をコード付けする。予め定められた事案との関係性とは、データが予め定められた事案と関係性を有することを示す情報、およびデータと予め定められた事案との関係性の高低を示す情報などである。

そして、評価部１６は、分析部１２が分析したすべてのデータ若しくは分析部１２が予め定められた事案に関連するテキストデータが含まれていると分析したすべてのデータに対して、予め定められた事案との関係性を対応づける情報がコード付けられたデータを用い、自動コード付処理を実行する。これにより、評価部１６は、一の人物から他の人物に向けて送信されたデータが、予め定められた事案に関連するか否か、および当該データの予め定められた事案との関連性の高低について評価する。

一例として、評価部１６は、第１の人物の情報処理装置から第２の人物の情報処理装置に送信される電子メールが、予め定められた事案と関連しているか否かを評価する。そして、評価部１６は、当該電子メールが当該事案に関連している場合、当該電子メールにスコアを対応づける。評価部１６は、第１の人物の情報処理装置から第２の人物の情報処理装置に送信される電子メールの全てについて同様にスコアを対応づけ、対応づけたスコアを合計することにより、第１の人物と第２の人物との間の関係性のスコアを算出する。評価部１６は、一の人物の情報処理装置から他の複数の人物それぞれの情報処理装置に送信される電子メールのそれぞれについて同様に評価する。そして、評価部１６は、一の人物と他の複数の人物との間の関係性それぞれについて、スコアを算出して評価する。

また、評価部１６は、第１のドメインの情報処理装置から第２のドメインの情報処理装置に送信される電子メールが、予め定められた事案と関連しているか否かを評価する。そして、評価部１６は、当該電子メールが当該事案に関連している場合、当該電子メールにスコアを対応づける。評価部１６は、第１のドメインの情報処理装置から第２のドメインの情報処理装置に送信される電子メールの全てについて同様にスコアを対応づけ、対応づけたスコアを合計することにより、第１のドメインと第２のドメインとの間の関係性のスコアを算出する。評価部１６は、一のドメインの情報処理装置から他の複数のドメインそれぞれの情報処理装置に送信される電子メールのそれぞれについて同様に評価する。そして、評価部１６は、一のドメインと他の複数のドメインとの間の関係性それぞれについて、スコアを算出して評価する。

なお、評価部１６がデータの解析結果に基づいて関係性を評価する場合、例えば、以下のように評価を実行する。まず、評価部１６は、予め定められた事案に関連する複数の単語の組合せに、予め定められた事案との関連性の高低を示すスコアを対応づけて格納する辞書を有することができる。そして、評価部１６は、形態素解析に基づいてデータ内のテキストデータを解析し、当該辞書に格納されている複数の単語の組合せが、選択されたデータ内に含まれているか否かを判断する。

評価部１６は、当該辞書に格納されている単語の組合せが、選択されたデータに含まれていると判断した場合、辞書に格納されているスコアに基づいて、予め定められた事案に対する当該ファイルの関連性の高低を評価する。そして、評価部１６は、評価結果を示す情報（すなわち、予め定められた事案に対する関連性の高低を示す情報）を選択されたデータに対応づける。これにより、評価部１６は、データと予め定められた事案との関係性の高低を評価できる。

さらに、評価部１６は、データに含まれる送受信時刻を示すデータを読み取ることで、データの送受信時刻ごとに予め定められた事案に関するデータの関連性の高低を評価することもできる。また、評価部１６は、評価が実行された実行時刻ごとに予め定められた事案に関するデータの関連性の高低を評価することもできる。

（データ分析システム５が実行する処理）
図３は、データ分析システム５が備えた分析部１２に含まれる、特定部１２１および関連付与部１２２が実行する処理の流れを示すフローチャートである。

特定部１２１は、分析部１２によって分析されたデータ（テキスト）に含まれる単語が、動詞（所定の動作を表す単語）であるか否かを判定する（Ｓ１５１）。当該単語が動詞である場合（Ｓ１５１においてＹＥＳ）、特定部２２は、当該単語（第１の単語）が表す所定の動作の対象である第２の単語を特定する（Ｓ１５２、特定ステップ）。関連付与部２４は、上記第１の単語および第２の単語を含むデータの属性を示すメタ情報と、当該第１の単語および第２の単語とを関連付ける（Ｓ１５３、関連付与ステップ）。

なお、上記Ｓ１５３の後に、評価部１６が、分析部１２による分析結果を用いて、データの内容と予め定められた事案との関係性を評価してもよい。

〔実施形態２〕
図４〜図１６に基づいて、本発明に係る第２の実施形態（実施形態２）を説明する。なお、以下の説明では、実施形態１から変わり得る機能・構成のみを説明し、その他の機能・構成については実施形態１と同様として詳細な説明を省略する。

（文書分別システム３の構成）
図４は、実施形態２に係る文書分別システム３の要部構成の一例を示すブロック図である。文書分別システム（データ分析システム）３は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするシステムである。

図４に示されるように、文書分別システム３は、実施形態１において説明した分析部１２（特定部１２１、関連付与部１２２）と、評価部１６とを備える。したがって、文書分別システム３は、前述したデータ分析システム５と同様の効果を奏する。

すなわち、文書分別システム３によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案（訴訟または不正調査など）に関連する行為をデータから抽出し、当該データとの関連を特定することによって、当該事案との関連度を示す分別符号を精度良く付与することができる。したがって、文書分別システム３によれば、上記ディスカバリーを効率よく実行できる。

分析部１２は、文書抽出部１１２によって抽出された複数の文書の内容を分析することによって、上記複数の文書に予め定められた事案と関係を有するテキストが含まれているか否かを分析する。

特定部１２１は、所定の動作を表す第１の単語が上記テキスト（データ）に含まれる場合、当該所定の動作の対象を表す第２の単語を特定する。

関連付与部１２２は、第１の単語および第２の単語を含むデータの属性を示すメタ情報（属性情報）と、当該第１の単語および第２の単語とを関連付ける。

評価部１６は、分析部１２（関連付与部１２２）の分析結果を用い、文書の内容と予め定められた事案との関係性を評価する。

文書分別システム３は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域１０３に格納するデータ格納部１００を有する。そして、該データ格納部１００は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース１０１と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース１０２を格納する。このデータ格納部１００は、図４に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム３の外部に設置されても良い。

文書分別システム３は、文書情報から複数の文書を抽出する文書抽出部１１２と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部１１４と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部１１６とを備える。なお、スコア算出部１１６は、評価部１６によって評価された関係性に基づいて、上記スコアを算出できる。これにより、文書分別システム３は、上記事案との関連度を示す分別符号を精度良く付与することができる。

文書分別システム３は、ワード検索部１１４により前記キーワードデータベース１０１に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第１自動分別部２０１と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第２自動分別部３０１とを有する。

更に、文書分別システム３は、文書情報から抽出された複数の文書を画面上に表示する文書表示部６０１と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部１３１と、分別符号受付付与部１３１により分別符号を付与された文書を解析する分別符号受付文書解析部１１８と、文書情報から抽出された複数の文書に対して、前記分別符号受付付与部１３１により分別符号を付与された文書を分別符合受付文書解析部１１８により解析した解析結果に基づいて、分別符号を自動的に付与する第３自動分別部４０１とを備える。

また、文書分別システム３は、抽出した文書の言語の種類を判定する言語判定部１２０と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部１２６とを備えても良い。１文多言語の複合言語にも対応できるように、言語判定部１２０における言語の区切りを１文より小さくする。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、ＨＴＭＬのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。

また、文書分別システム３は、分別符号受付文書解析部１１８による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部１２４を備えても良い。

また、文書分別システム３は、文書符号受付付与部１３１が受け付けた分別符号と分別符号受付文書解析部１１８において傾向情報により付与された分別符号を比較し、文書符号受付付与部１３１が受け付けた分別符号の妥当性を検証する品質検査部５０１を備えても良い。

（用語の説明）
各実施形態に係る文書分別システムの理解を容易とするために、各実施形態に特有な用語について以下に記載する。

「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。

「文書」とは、１つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。

「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

「キーワード」とは、１つまたは複数の「単語」、もしくは「形態素」を組み合わせたものをいう。具体的には、特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものをいってもよい。例えば、特許侵害訴訟が発生した場合において、当該訴訟と関連度の高い文書に重要という分別符号を付与する場合の「キーワード」として、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。

また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。

「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。

また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよいし、評価部１６によって評価された関連性を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。

「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品Ａ」という分別符号が製品Ａの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。

「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式（１）を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。

また、文書分別システム３は、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。

ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

また、文書分別システム３は、さらに、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることも可能である。

（文書分別システム３が実行する処理）
実施形態２では、図５に示すようなフローチャートに従い、第１段階〜第５段階で、登録処理、分別処理、及び検査処理を行う。

第１段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う（ＳＴＥＰ１００）。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに登録される。

第２段階では、第１段階で登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録したキーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第１分別処理を行う（ＳＴＥＰ２００）。

第３段階では、第１段階で記録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で記録した関連用語対応情報を参照し、分別符号の付与を実行する第２分別処理を行う（ＳＴＥＰ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第３分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（ＳＴＥＰ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（ＳＴＥＰ５００）。

第４段階及び第５段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

第１段階から第５段階の各段階における詳細な処理フローを以下で説明する。

＜第１段階（ＳＴＥＰ１００）＞
第１段階におけるキーワードデータベース１０１の詳細な処理フローを図６を用いて説明する。

キーワードデータベース１０１は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（ＳＴＥＰ１１１）。この特定は、実施形態２においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

実施形態２においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する（ＳＴＥＰ１１２）。そして、特定されたキーワードをキーワードデータベースに登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベースの分別符号「重要」の管理テーブルに記録する（ＳＴＥＰ１１３）。

次に、関連用語データベース１０２の詳細な処理フローを図７を用いて説明する。関連用語データベース１０２は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する（ＳＴＥＰ１２１）。実施形態２においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を登録する。

登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（ＳＴＥＰ１２２）、各管理テーブルに記録する（ＳＴＥＰ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

＜第２段階（ＳＴＥＰ２００）＞
第２段階における第１分別部２０１の詳細な処理フローを、図８を用いて説明する。実施形態２において、第２段階では、第１分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１分別部２０１では、第１段階（ＳＴＥＰ１００）でキーワードデータベース１０１に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（ＳＴＥＰ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、（ＳＴＥＰ２１２）、「重要」という分別符号を付与する（ＳＴＥＰ２１３）。

＜第３段階（ＳＴＥＰ３００＞
第３段階における第２分別部３０１の詳細な処理フローを、図９を用いて説明する。実施形態２において、第２分別部３０１では、第２段階（ＳＴＥＰ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２分別部３０１は、該文書情報から、第１段階で関連用語データベース１０２に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（ＳＴＥＰ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）を用いて、スコア算出部１１６によりスコアを算出する（ＳＴＥＰ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（ＳＴＥＰ３１３）、適切な分別符号を付与する（ＳＴＥＰ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２分別部３０１では、第４段階のＳＴＥＰ４３２において算出されるスコアを用いて以下に示す式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う（ＳＴＥＰ３１５）。

例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（ＳＴＥＰ４００）＞
第４段階では、図１０に示すように、第３段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図１１に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、実施形態２においては、該文書情報に対して、第４段階では、例えば、「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。第４段階について、更に以下に記載する。

第４段階における分別符号受付付与部１３１の詳細な処理フローを、図１０を用いて説明する。第４段階での処理対象となる文書情報からまず文書抽出部１１２が、ランダムに文書をサンプリングし、文書表示部６０１上で表示する。実施形態２では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは文書表示部６０１上に表示される図１６に示す文書表示画面Ｉ１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部１３１は、該ユーザが選択した分別符号を受け付け（ＳＴＥＰ４１１）、付与された分別符号に基づいて分別する（ＳＴＥＰ４１２）。

次に、分別符号受付文書解析部１１８の詳細な処理フローを、図１１を用いて説明する。分別符号受付文書解析部１１８では、分別符号受付付与部１３１で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（ＳＴＥＰ４２１）。抽出した共通の単語の評価値を式（２）により解析し（ＳＴＥＰ４２２）、該共通の単語の文書中の出現頻度を解析する（ＳＴＥＰ４２３）。

さらに、ＳＴＥＰ４２２及びＳＴＥＰ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（ＳＴＥＰ４２４）。

図１２は、ＳＴＥＰ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１２において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部１３１によってＳＴＥＰ４２１で抽出された単語を含む文書の割合を示している。

実施形態２において、分別符号受付付与部１３１では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

ＳＴＥＰ４２１乃至ＳＴＥＰ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、第３自動分別部４０１の詳細な処理フローを、図１３を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１８１によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第３自動分別部４０１では、このような文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４３１）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４３２）。また、ＳＴＥＰ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４３３）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。

更に、第３自動分別部４０１の詳細な処理フローの１例を、図１４を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第３自動分別部４０１では、引数が与えられなかった場合には（ＳＴＥＰ４４１：なし）、該文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４４３）。また、ＳＴＥＰ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４４４）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

＜第５段階（ＳＴＥＰ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図１５を用いて説明する。品質検査部５０１では、分別符号受付付与部１３１が、ＳＴＥＰ４１１で受け付けた文書に対して、分別符号受付文書解析部１１８がＳＴＥＰ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（ＳＴＥＰ５１１）。

分別符号受付付与部１３１が受け付けた分別符号とＳＴＥＰ５１１で決定した分別符号とを比較し（ＳＴＥＰ５１２）、ＳＴＥＰ４１１で受け付けた分別符号の妥当性を検証する（ＳＴＥＰ５１３）。

（文書分別システム３が奏する効果）
文書分別システム３は、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第１分別部と、第１分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第２分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。

また、本発明の文書分別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付付与部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付付与部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

また、本発明の文書分別システムは、言語を翻訳するための言語判定部と翻訳部とを有するので、多言語を含む文書に分別符号を付する分別処理をする際に、ユーザの労力を低減することが可能になる。

また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。

また、本発明は、第２分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、文書分別システムが、分別処理を実施する毎に分別精度の向上を図ることを可能とする。

〔実施形態３〕
図１７〜図２３に基づいて、本発明に係る第３の実施形態（実施形態３）を説明する。なお、以下の説明では、実施形態１および実施形態２から変わり得る機能・構成のみを説明し、その他の機能・構成については実施形態１または実施形態２と同様として詳細な説明を省略する。

（文書分別システム４の構成）
図１７は、実施形態３に係る文書分別システム４の要部構成の一例を示すブロック図である。文書分別システム（データ分析システム）４は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするシステムである。

図１７に示されるように、文書分別システム４は、実施形態１において説明した分析部１２（特定部１２１、関連付与部１２２）と、評価部１６とを備える。したがって、文書分別システム４は、前述したデータ分析システム５と同様の効果を奏する。

すなわち、文書分別システム４によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案（訴訟または不正調査など）に関連する行為をデータから抽出し、当該データとの関連を特定することによって、当該事案との関連度を示す分別符号を精度良く付与することができる。したがって、文書分別システム４によれば、上記ディスカバリーを効率よく実行できる。

文書分別システム４は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域１５３に格納するデータ格納部１５０を有する。そして、該データ格納部１５０は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース１５１と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース１５２を格納する。このデータ格納部１５０は、図１７に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム４の外部に設置されても良い。

文書分別システム４は、文書情報から複数の文書を抽出する文書抽出部１６２と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部１６４と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部１６６とを備える。スコアを算出する処理には、実施形態２と同様の処理を用いて良い。

文書分別システム４は、ワード検索部１６４により前記キーワードデータベース１５１に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第１自動分別部２５１と、分別符号が付与されていない文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第２自動分別部３５１とを有する。

更に、文書分別システム４は、抽出された複数の文書を画面上に表示する文書表示部６５１と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部１８１と、分別符号受付付与部１８１により分別符号を付与された文書を解析する分別符号受付文書解析部１６８と、文章情報から抽出された分別符号が付与されていない複数の文書に対して、分別符号受付付与部１８１により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第３自動分別部４５１とを備える。

文書分別システム４は、実施形態２に係る文書分別システム３と同様に、抽出した文書の言語の種類を判定する言語判定部１７０と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部１７２を備えても良い。

文書分別システム４は、抽出された文書群において、共通して出現するキーワードを解析し選定するワード選定部１７４を備え、分別符号受付文書解析部１６８は、分別符号受付付与部１８１により分別符号を付与された文書を解析し、該分別符号を付与された文書を分別符号ごとに分類し、該分類された文書群において、共通して出現するキーワードを解析し選定しても良い。

文書分別システム４は、分別対象となる文情報のうち、キーワードデータベース１５１と関連用語データベース１５２で事前に登録されたキーワード及び関連用語、並びにワード選定部１７４において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除する文書排除部１７６を備えても良い。

文書分別システム４は、ワード選定部１７４が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部５５１を備えても良い。

（文書分別システム４が実行する処理）
実施形態３では、図１８に示すようなフローチャートに従い、５つの段階で登録処理、分別処理、及び学習処理を行う。

第１段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Ａの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである（ＳＴＥＰ１１００）。

第２段階では、第１段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する（ＳＴＥＰ１２００）。

第３段階では、第１段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、当該文書の分別を行う（ＳＴＥＰ１３００）。

第４段階では、抽出した文書についてレビュワーによる分別符号の付与の決定を受け付け、受け付けた分別符号の付与の決定を解析した後に、解析結果に基づいて更に抽出した分別符号を付与していない文書に自動で分別符号の付与を行う（ＳＴＥＰ１４００）。

第５段階では、第１段階乃至第４段階の結果を用いて、学習を行う（ＳＴＥＰ１５００）。

実施形態３の第１〜第５の各段階について更に詳細に以下に記載する。

＜第１段階（ＳＴＥＰ１１００）＞
第１段階におけるキーワードデータベース１５１と関連用語データベース１５２の処理フローを、図１９を用いて詳細に説明する。キーワードデータベース１５１と関連用語データベース１５２で何段階目の処理を行うかを判断し、第１段階の処理を選択する（ＳＴＥＰ１：第１段階）。第１段階ではまず、キーワードデータベース１５１でキーワードの事前登録を行う（ＳＴＥＰ２）。このとき登録されるのは、過去の分別処理の結果から、製品Ａと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Ａと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し（ＳＴＥＰ３）、関連用語として登録を行う（ＳＴＥＰ４）。

＜第２段階（ＳＴＥＰ１２００）＞
第２段階におけるキーワードデータベース１５１、ワード検索部１６４及び第１自動分別部２５１の処理フローを、図１９、図２０及び図２２を用いて、詳細に説明する。

データベースで何段階目の処理を行うかを判断し、第２段階の処理を選択する（ＳＴＥＰ１：第２段階）。キーワードデータベース１５１において、更に事前に登録しておく必要のあるキーワードがある場合（ＳＴＥＰ５：ＹＥＳ）、追加の登録を行う（ＳＴＥＰ６）。追加で登録するキーワードがない場合（ＳＴＥＰ５：ＮＯ）及びＳＴＥＰ６の処理の完了後、ワード検索部１６４の処理に移行する。

ワード検索部１６４は何段階目の処理を行うかを判断し、第２段階の処理を選択する（ＳＴＥＰ１１：第２段階）。第２段階で、ワード検索部１６４は、まずキーワードデータベース１５１内に第１段階及び第２段階で事前登録されたキーワードがあるか判定を行う（ＳＴＥＰ１２）。事前に登録されたキーワードが存在しない場合（ＳＴＥＰ１２：ＮＯ）、第２段階の処理は終了する。

図２０の（第２段階）に示すように、事前に登録されたキーワードが存在する場合（ＳＴＥＰ１２：ＹＥＳ）、分別対象となる文書情報の中に該キーワードを含む文書がないか、分別対象となる全文書情報に対して検索を行う（ＳＴＥＰ１３）。検索したキーワードが含まれる文書が存在しなかった場合（ＳＴＥＰ１４：ＮＯ）、第２段階の処理を終了する。一方、探索したキーワードが含まれる文書を発見した場合（ＳＴＥＰ１４：ＹＥＳ）、第１自動分別部２５１に通知を行う（ＳＴＥＰ１５）。

図２２の（第２段階）に示すように、第１自動分別部２５１では、ワード検索部１６４から該通知を受けた場合（ＳＴＥＰ２９：第２段階、ＳＴＥＰ３０：ＹＥＳ）、該通知の対象となった文書に対して「重要」符号を付与し（ＳＴＥＰ３１）、処理を終了する。ワード検索部１６４から該通知を受けなかった場合（ＳＴＥＰ２９：第２段階、ＳＴＥＰ３０：ＮＯ）、何も処理を行わない。

＜第３段階（ＳＴＥＰ１３００）＞
第３段階における関連用語データベース１５２、ワード検索部１６４、スコア算出部１６６及び第２自動分別部３５１の処理フローを、図１９、図２０、図２１、及び図２２を用いて、詳細に説明する。

図１９に示すように、関連用語データベース１５２で何段階目の処理を行うかを判断し、第３段階の処理を選択する（ＳＴＥＰ１：第３段階）。関連用語データベース１５２において、更に事前に登録しておく必要のある関連用語がある場合（ＳＴＥＰ７：ＹＥＳ）、追加の登録を行う（ＳＴＥＰ８）。関連用語の追加登録が必要ない場合（ＳＴＥＰ７：ＮＯ）、第３段階の処理を終了する。

関連用語データベース１５２でＳＴＥＰ８の処理を完了した後、図２０に示すように、ワード検索部１６４で何段階目の処理を行うかを判断し、第３段階の処理を選択する（ＳＴＥＰ１１：第３段階）。本段階で、ワード検索部１６４は、関連用語データベース１５２に第１段階及び第２段階で登録された関連用語があるか判定を行う（ＳＴＥＰ１６）。事前に登録された関連用語が存在しない場合（ＳＴＥＰ１６：ＮＯ）、第３段階の処理は終了する。

関連用語が存在する場合（ＳＴＥＰ１６：ＹＥＳ）、分別対象となる文書情報の中に該関連用語を含む文書がないか、分別対象となる全文書情報に対して検索を行う（ＳＴＥＰ１７）。検索した関連用語が含まれる文書が存在しなかった場合（ＳＴＥＰ１８：ＮＯ）、第３段階の処理を終了する。一方、検索した関連用語を含む文書を発見した場合（ＳＴＥＰ１８：ＹＥＳ）、スコア算出部１６６に通知を行う（ＳＴＥＰ１９）。

図２１に示すように、スコア算出部１６６では、ワード検索部１６４から該通知を受けた場合（ＳＴＥＰ２４：第３段階、ＳＴＥＰ２５：ＹＥＳ）、上述の式（１）を用いて、文書中から発見した関連用語の種類と該関連用語が持つ重みづけから各文書のスコアを算出し、第２自動分別部３５１に通知を行う（ＳＴＥＰ２６）。ワード検索部１６４から関連用語を発見した通知を受けなかった場合（ＳＴＥＰ２４：第３段階、ＳＴＥＰ２５：ＮＯ）、第３段階の処理を終了する。

第２自動分別部３５１では、スコア算出部１６６からスコアの通知を受けた場合、（ＳＴＥＰ２９：第３段階、ＳＴＥＰ３２：ＹＥＳ）、スコアが閾値を超過したかの判定を文書ごと行い、スコアが閾値を超過した文書には「重要」符号を付与し、スコアが閾値を超過した文書がなかった場合は付与せずに処理を終了する（ＳＴＥＰ３３）。

＜第４段階（ＳＴＥＰ１４００）＞
第４段階におけるキーワードデータベース１５１と関連用語データベース１５２、ワード検索部１６４、スコア算出部１６６、及び第３自動分別部４５１の処理フローを、それぞれ図１９、図２０、図２１及び図２２を用いて説明する。

第４段階では、まず、文書抽出部１６２、分別対象となる文書情報から、ランダムに文書をサンプリングし、レビュワーが手動で分別符号を付与する対象となる文書群を抽出する。文書表示部６５１において、抽出された文書群を、図１６の文書表示画面Ｉ１上に表示する。

レビュワーは文書表示画面Ｉ１に表示された文書群に対し、各文書の内容を読んだ上で、製品Ａと該文書の内容との間に関連性があるかどうかを判断し、「重要」符号を付与するかどうかを決定する。レビュワーが「重要」符号を付与する文書とは、例えば、製品Ａの先行技術を調査した結果の報告書や、製品Ａの製造は特許侵害であると他者から警告された警告状等である。

レビュワーによって付与された分別符号は、分別符号受付付与部１８１によって受け付けられ、文書分別システム４内で処理される。分別符号受付文書解析部１６８では、付与された分別符号に応じて文書が分類される。続いて、分別符号受付文書解析部１６８は、ワード選定部１７４とスコア算出部１６６を用いて分類された各文書を解析する。

ワード選定部１７４では、分類された各文書に対し、キーワード解析を行い、「重要」符号を付与された文書に共通して出現回数の多いキーワードを選定する。

次に、キーワードデータベース１５１では、図１９の（第４段階）に示すように、ワード選定部１６４が選定したキーワードが、製品Ａと関係があることを示す「重要」符号に関するキーワードとして未登録であった場合（ＳＴＥＰ１：第４段階、ＳＴＥＰ９：ＹＥＳ）、該キーワードの登録を行う（ＳＴＥＰ１０）。該キーワードが既に登録されていた場合、何も処理を行わない（ＳＴＥＰ１：第４段階、ＳＴＥＰ９：ＮＯ）。

ワード検索部１６４では、「重要」符号に関するキーワードがキーワードデータベース１５１に登録されていなかった場合（ＳＴＥＰ２０：ＮＯ）、第４段階の処理を終了する。該キーワードが登録されている場合（ＳＴＥＰ２０：ＹＥＳ）、文書抽出部１６２において抽出されレビュワーによって分類された文書を探索対象から省き、残りの各文書を対象として、該キーワードの探索を実行する（ＳＴＥＰ２１）。該探索において、文書中にキーワードを発見した場合（ＳＴＥＰ２２：ＹＥＳ）、スコア算出部１６６に通知を行う（ＳＴＥＰ２３）。

スコア算出部１６６では、キーワード発見の通知を受けた場合（ＳＴＥＰ２７：ＹＥＳ）、上述の式（１）を用いて各文書についてスコアを算出し、第３自動分別部４５１に通知する。

図２２の（第４段階）に示すように、第３自動分別部４５１では、スコア算出部１６６から通知を受けると（ＳＴＥＰ３２：ＹＥＳ）、文書ごとにスコアが閾値を超過したかの判定を行い、閾値を超過した文書には「重要」符号を付与し、超過しなかった文書には付与せずに処理を終了する（ＳＴＥＰ３３）。

＜第５段階（ＳＴＥＰ１５００）＞
第５段階での文書排除部１７６及び学習部５５１における処理を、それぞれ以下に説明する。

文書排除部１７６において、分別対象となる文書情報のうち、第１から第４段階の処理が未実施の文書群に対して、第１、第２段階において事前に登録されたキーワード、第１、第３段階において登録された関連用語及び第４段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合（ＳＴＥＰ４０：ＹＥＳ）、該文書を分別対象から事前に排除する（ＳＴＥＰ４１）。

学習部５５１では、第１から第４の処理結果をもとに、各キーワードの重みづけを式（２）により学習する。該学習結果をキーワードデータベース１５１に反映する。

（文書分別システム４が奏する効果）
本発明に係る文書分別システム及び文書分別方法並びに文書分別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。

また、本発明の文書分別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。

また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。

〔実施形態４〕
図２４〜図２７に基づいて、本発明に係る第４の実施形態（実施形態４）を説明する。なお、以下の説明では、実施形態１〜３から変わり得る機能・構成のみを説明し、その他の機能・構成については実施形態１〜３と同様として詳細な説明を省略する。

（相関関係表示システム１の概要）
図２４は、実施形態１に係る相関関係表示システム１の要部構成の一例を示すブロック図である。図２５は、上記相関関係表示システム１が備えた表示部の表示態様を示す図である。

相関関係表示システム（データ分析システム）１は、ユーザ端末若しくはサーバ等の情報処理装置２に格納されている複数の通信データ（データ、通信情報）から予め定められた事案に関連性のある通信データを分析することで、複数の人物の間の関係性を自動的に表示するシステムである。ここで、上記予め定められた事案は、例えば、訴訟または不正調査（反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）、情報漏洩、架空請求など）に関連することを示す情報である。

上記相関関係表示システム１は、一例として、不正アクセスや機密情報漏洩などのコンピュータに関する犯罪や法的紛争が生じた場合に、犯罪や紛争の原因究明や捜査に要する電子的記録であるデジタル情報を収集および分析し、その法的な証拠性を明らかにする技術であるフォレンジックに適用可能である。

上記相関関係表示システム１は、まず、複数の端末としての複数の情報処理装置２の間で送受信された複数の通信データの内容を分析する。ここで、通信データは、一の人物から他の人物に当該通信データが送信されたことを示す情報を含んでよい。また、通信データは、一の人物が所属する組織の単位（例えば、係、課、部、会社等）を識別する情報、および、他の人物が所属する組織の単位（例えば、係、課、部、会社等）を識別する情報を含んでもよい。さらに、上記通信データは、複数の情報処理装置２、または、複数の情報処理装置２と通信可能に接続されるサーバに格納されている。

上記分析において、相関関係表示システム１は、所定の動作を表す第１の単語が上記通信データに含まれる場合、当該所定の動作の対象を表す第２の単語を特定する。例えば、「仕様を確定する」という文章が上記通信データに含まれる場合、当該文章から「仕様」および「確定する」という単語を抽出し、「確定する」という所定の動作を表す第１の単語（動詞）の対象である「仕様」という第２の単語（目的語）を特定する。

次に、上記相関関係表示システム１は、上記第１の単語および第２の単語を含む通信データの属性（性質・特徴）を示すメタ情報（属性情報）と、当該第１の単語および第２の単語とを関連付ける。ここで、上記メタ情報は、データが有する所定の属性を示す情報であり、例えば、上記通信データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。また、上記通信データがプレゼンテーション資料である場合、当該プレゼンテーション資料が作成された日時などであってよい。

例えば、「技術を交流する」という文章が電子メール（データ、通信情報）に含まれており、「技術」（第２の単語）および「交流する」（第１の単語）という単語が抽出された場合（図２に示す表の１行目を参照）、相関関係表示システム１は、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前（例えば、「人物Ａ」および「人物Ｂ」）とを関連付ける。これにより、「人物Ａ」と「人物Ｂ」とが、ある「技術」についての「交流」を企図していることが推測できる。

そして、上記相関関係表示システム１は、上記分析した結果に基づいて、一の人物と他の人物との間で予め定められた事案に関する情報のやり取りがどの程度実行されたか、若しくは予め定められた事案に関する情報についてどの程度重要な情報のやり取りが実行されたか等についてユーザに視認可能に表示する。

具体的に、相関関係表示システム１は、一の人物に属する情報処理装置２と他の人物に属する情報処理装置２との間で送受信される通信データ（例えば、電子メール）の内容を分析する。そして、相関関係表示システム１は、通信データの内容に予め定められた事案に関する情報が含まれているか否か分析する。相関関係表示システム１は、当該事案に関する情報が通信データに含まれていることを示す分析結果が得られた場合、当該通信データと当該事案との関連性を評価する。例えば、相関関係表示システム１は、当該通信データの内容の当該事案に対する関連性の高低を評価する。

そして、相関関係表示システム１は、当該通信データと当該事案とに関連性があることを示す評価結果、若しくは関連性の高低を示す評価結果が得られた場合、一の人物と他の人物との間の関係性をモニタ等に表示する。例えば、相関関係表示システム１は、各人物をノードに対応づけて複数のノードをモニタに表示すると共に、一のノードと他のノードとを評価結果に基づいて表示する（図２５参照）。

一例として、相関関係表示システム１は、一の人物に対応づけられる一のノードと他の人物に対応づけられる他のノードとの間を通信データの流れを示す矢印で結合して表示する。また、相関関係表示システム１は、一のノードと他のノードとを表示する場合、当該一のノードから当該他のノードに予め定められた事案に関する情報のやり取りが実行された回数若しくは頻度、又はやり取りされた情報の重要度等に応じ、ノードの形態を変化させて表示する。

一例として、相関関係表示システム１は、ノードの大きさ、色、および／または形状を変化させて表示する。また、相関関係表示システム１は、各ノードを結合する矢印の太さ、色、および／または長さを変化させて表示することもできる。

なお、実施形態１においてサーバは、１つ以上のサーバであって、複数のサーバを含んで構成することもできる。例えば、サーバは、メールサーバ、ファイルサーバ、又は文書管理サーバ等のデジタル情報を格納可能なサーバを含む。また、端末としての情報処理装置２は、１つ以上の端末であって、複数の情報処理装置２を含んで構成することもできる。例えば、情報処理装置２は、パーソナルコンピュータ、ノートパソコン、タブレットＰＣ、又は携帯電話等の携帯通信端末等を含む。

（相関関係表示システム１の詳細）
実施形態１に係る相関関係表示システム１は、複数の情報処理装置２の間で送受信された通信データを取得する通信データ取得部１０と、通信データ取得部１０が取得した通信データの内容を分析する分析部１２（特定部１２１、関連付与部１２２）と、分析部１２の分析結果を用い、通信データの内容と予め定められた事案との関係性を評価する評価部１６と、評価部１６の評価結果に基づいて、複数の人物の間の関係性を表示する表示部１８とを備える。また、相関関係表示システム１は、通信データ取得部１０が取得した通信データの一部に対し、予め定められた事案との関係性を対応づける情報を取得する入力部１１と、複数の端末により構築される通信ネットワークにおける複数の主要端末を決定するネットワーク分析部１４とを更に備える。

なお、相関関係表示システム１と情報処理装置２とは、インターネット等の通信ネットワーク、又はＬＡＮ等の有線若しくは無線のネットワーク等により相互に通信可能に接続される。また、相関関係表示システム１は、情報処理装置２が有する機能および構成の一部又は全部を備えることもできる。更に、図２４において１つの情報処理装置２を示しているが、複数の情報処理装置２が相関関係表示システム１と通信可能に接続されることもできる。

通信データ取得部１０は、複数の端末としての複数の情報処理装置２の間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する。通信データは、電子メール、電話の通話記録、およびソーシャルネットワークサービスへのアクセス記録、個々のコンピュータまたはサーバの識別を表す情報（例えば、ドメイン等）等のうち少なくとも１つを含む。また、通信データは、通信データに添付されたドキュメントファイルデータを含むこともできる。なお、通信データは、情報処理装置２若しくはデータサーバに格納されている。通信データ取得部１０は、複数の情報処理装置２若しくはデータサーバに格納されている複数の通信データを取得する。通信データ取得部１０は、取得した通信データを分析部１２、およびネットワーク分析部１４に供給する。

分析部１２は、通信データ取得部１０から受け取った通信データの内容を分析する。具体的には、分析部１２は、テキストマイニング手法、画像認識手法または音声認識手法を用いて、通信データの内容に含まれるテキストデータを分析する。そして、分析部１２は、通信データの内容に予め定められた事案と関係を有するテキスト、画像または音声が含まれているか否かを分析する。

例えば、分析部１２は、予め定められた事案に関係する単語を示すテキストデータ（上述の画像認識手法、音声認識手法によりテキスト化されたものを含む）を格納する辞書部を有する。分析部１２は、通信データの内容に含まれるテキストデータを辞書部に格納されているテキストデータを用いて分析することで、通信データの内容に当該事案に関係するテキストが含まれているか否か分析する。

関連付与部１２２は、第１の単語および第２の単語を含むデータの属性を示すメタ情報（属性情報）と、当該第１の単語および第２の単語とを関連付ける。例えば、「技術」（第２の単語）および「交流する」（第１の単語）という単語が、上記特定部１２１から入力された場合、関連付与部１２２は、上記「技術」および「交流する」と、上記テキストを含む通信データを送受信した人物の名前（例えば、「人物Ａ」および「人物Ｂ」）とを関連付ける。関連付与部１２２は、関連付けた結果を評価部１６に出力する。

ネットワーク分析部１４は、通信データを用い、複数の端末により構築される通信ネットワークを解析することで複数の端末から通信ネットワークにおける複数の主要端末を決定する。例えば、ネットワーク分析部１４は、複数の端末が通信ネットワークの各端末間の最短経路上に出現する頻度に基づいて複数の主要端末を決定する。例えば、ネットワーク分析部１４は、分析アルゴリズムとしてＶｅｒｔｅｘｂｅｔｗｅｅｎｎｅｓｓｃｅｎｔｒａｌｉｔｙ等を用いて複数の主要端末を決定する。ネットワーク分析部１４は、分析結果を示す情報を評価部１６に供給する。

評価部１６は、分析部１２（関連付与部１２２）の分析結果を用い、通信データの内容と予め定められた事案との関係性を評価する。また、評価部１６は、複数の主要端末間で送受信される通信データと分析部１２の分析結果とを用いて通信データの内容と予め定められた事案との関係性を評価することもできる。評価部１６が主要端末間で送受信される通信データを用いて当該関係性を評価することで、膨大な通信データの中から予め定められた事案との関係性が高い情報処理装置２間で送受信された通信データを絞り込むことができる。

例えば、評価部１６は、自動コード付処理を実行することで通信データの内容と予め定められた事案との関係性を評価する。一例として、評価部１６は、通信データ取得部１０が取得した通信データから一部の通信データを抽出する。なお、評価部１６は、複数の通信データから一部の通信データをランダムに抽出する。次に、評価部１６は、当該一部の通信データに、入力部１１が外部から取得した予め定められた事案との関係性を対応づける情報をコード付けする。予め定められた事案との関係性とは、通信データが予め定められた事案と関係性を有することを示す情報、および通信データと予め定められた事案との関係性の高低を示す情報等である。

そして、評価部１６は、分析部１２が分析したすべての通信データ若しくは分析部１２が予め定められた事案に関連するテキストデータが含まれていると分析したすべての通信データに対して、予め定められた事案との関係性を対応づける情報がコード付けられた通信データを用い、自動コード付処理を実行する。これにより、評価部１６は、一の人物の情報処理装置から他の人物の情報処理装置に向けて送信された通信データが、予め定められた事案に関連するか否か、および当該通信データの予め定められた事案との関連性の高低について評価する。または、評価部１６は、一のドメインの情報処理装置から他のドメイン情報の情報処理装置に向けて送信された通信データが、予め定められた事案に関連するか否か、および当該通信データの予め定められた事案との関連性の高低について評価してもよい。ドメイン情報は、個々のコンピュータの識別を表す情報であったり、Ｅメールの＠以下の識別子であったりしてもよい。

なお、評価部１６が通信データの解析結果に基づいて関係性を評価する場合、例えば、以下のように評価を実行する。まず、評価部１６は、予め定められた事案に関連する複数の単語の組合せに、予め定められた事案との関連性の高低を示すスコアを対応づけて格納する辞書を有することができる。そして、評価部１６は、形態素解析に基づいて通信データ内のテキストデータを解析し、当該辞書に格納されている複数の単語の組合せが、選択された通信データ内に含まれているか否かを判断する。

評価部１６は、当該辞書に格納されている単語の組合せが、選択された通信データに含まれていると判断した場合、辞書に格納されているスコアに基づいて、予め定められた事案に対する当該ファイルの関連性の高低を評価する。そして、評価部１６は、評価結果を示す情報（すなわち、予め定められた事案に対する関連性の高低を示す情報）を選択された通信データに対応づける。これにより、評価部１６は、通信データと予め定められた事案との関係性の高低を評価できる。

更に、評価部１６は、通信データに含まれる送受信時刻を示すデータを読み取ることで、通信データの送受信時刻ごとに予め定められた事案に関する通信データの関連性の高低を評価することもできる。また、評価部１６は、評価が実行された実行時刻ごとに予め定められた事案に関する通信データの関連性の高低を評価することもできる。評価部１６は、評価結果を示す情報を表示部１８に供給する。

表示部１８は、評価部１６の評価結果に基づいて、予め定められた事案に関連する複数の人物の関係性を表示する。表示部１８は、評価部１６が一の人物と他の人物との間の関係性に対して算出したスコアに応じて、表示形態を変化させることができる。

例えば、表示部１８は、評価部１６から受け取った評価結果を解析し、予め定められた事案に関連する複数の人物それぞれを把握する。そして、図２５に示すように表示部１８は、各人物を円形のノードに対応づけてそれぞれ表示すると共に、一の人物と他の人物との間に関係性がある場合、当該一の人物に対応するノードと当該他の人物に対応するノードとの間を矢印で結合して表示する。各ノードの大きさは、一のノード３０との関係性の高低を示す。すなわち、ノードの大きさが大きいほど、ノード３０との関係性が高いことを示す。図２５の例においては、ノード３１、ノード３６、ノード３５、ノード３２、ノード３３、ノード３４の順にノードの大きさが小さくなっている。したがって、図２５の例においては、ノード３１、ノード３６、ノード３５、ノード３２、ノード３３、ノード３４の順にノード３０に対応する人物との関係性が高いことを示す。なお、表示部１８は、ノード内に評価部１６が算出したスコアを表示することもできる。

また、表示部１８は、ノード間を結合する矢印若しくは線分の太さや色等を変化させて表示することもできる。例えば、表示部１８は、一のノードに対応づけられている人物と他のノードに対応づけられている人物との関係性に応じ、矢印若しくは線分の太さ、色、線の種類、線の長さを変更することもできる。一例として、表示部１８は、一のノードに対応づけられている人物と他のノードに対応づけられている人物との関係性が高いほど、太い線分若しくは強調された色を有する線分で一のノードと他のノードとを結合した状態を表示する（例えば、通常時は黒色の線であり、強調時は赤や黄色の線で表示する）。

更に、表示部１８は、一のノードに一の人物（すなわち、個人）を対応づけるだけではなく、一のノードに予め定められた組織単位（例えば、係、課、部、会社等）を対応づけることもできる。この場合、分析部１２は、通信データの内容を分析して、複数の通信データを予め定められた組織単位にグルーピングする。そして、分析部１２は、グルーピングした結果を示す情報を表示部１８に供給する。

また、表示部１８は、分析部１２の分析結果に基づいて複数の人物の第１の関係性を表示した後、評価部１６の評価結果を第１の関係性に反映させた複数の人物の第２の関係性を表示することもできる。すなわち、表示部１８は、テキストマイニングを用いた分析部１２の分析結果だけに基づいてまず第１の関係性を表示する。続いて、表示部１８は、自動コード付処理を用いた評価部１６の評価結果が生成された段階で、当該評価結果を用いて第１の関係性を第２の関係性に変化させ、第２の関係性を表示することができる。

また、表示部１８は、送受信時刻ごと、若しくは実行時刻ごとにおける評価部１６の評価結果に基づいて、複数の人物の関係性の表示を動的に変化させることもできる。例えば、表示部１８は、所定の時間間隔ごとに各ノード間の通信データ（例えば、電子メール）の送受信量をユーザに視認可能に表示する。例えば、表示部１８は、各ノード間でやり取りされる通信データ量を時系列に沿ってノードの大きさや線の太さを変化させて表示する。これにより、表示部１８は、ある特定の時刻以降に送受信量が急増している人物間の関係性を強調表示できる。したがって、相関関係表示システム１によれば、ある特定の事件が発生した後に急に送受信される通信データ量が多くなる人物を特定することができる。

また、表示部１８は、評価部１６における評価が実行された時刻ごとに、複数の人物の関係性を表示できる。すなわち、表示部１８は、評価部１６における評価が実行され、評価結果が変更されるたびに、リアルタイムに複数の人物の関係性を動的に変化させて表示することもできる。表示部１８は、上述したノードを含む表示を人物ではなく、ドメイン情報で表示するものであってもよい。分析部１８は、ドメイン情報の場合、ノード３１の中に上述した人物を表すノードを含むように解析し、表示部１８は、その解析結果に基づき、ドメイン情報のノード内に人物を表すノードを表すものであってもよい。または、表示部１８は、評価部１６の評価結果に基づいて、予め定められた事案に関連する複数のドメイン情報の関係性を表示してもよい。

（相関関係表示方法の概要）
図２６は、相関関係表示システム１が実行する処理の流れを示すフローチャートである。まず、通信データ取得部１０は、情報処理装置２若しくは複数の情報処理装置２間で送受信される通信データを格納しているサーバから通信データを取得する（ステップ１０。以下、「ステップ」を「Ｓ」と表す）。通信データ取得部１０は、分析部１２、ネットワーク分析部１４、および評価部１６からの働きかけに応じ、分析部１２、ネットワーク分析部１４、および／または評価部１６に取得した通信データを供給する。

分析部１２は、通信データ取得部１０から取得した通信データの内容を分析する（Ｓ１５）。例えば、分析部１２は、テキストマイニング手法を用い、通信データに含まれるテキストデータの内容を分析する。一例として、分析部１２は、予め定められた事案に関連する単語が通信データに含まれるか否かを分析する。なお、分析部１２に含まれる特定部１２１および関連付与部１２２は、上記Ｓ１５において、図３に示される処理を実行してよい。分析部１２は、分析結果を評価部１６、および表示部１８に供給する。

評価部１６は、通信データの内容と予め定められた事案との関係性を評価する（Ｓ２０）。評価部１６は、例えば、自動コード付処理の手法を用いて当該関係性を評価する。評価部１６は、評価結果を表示部１８に供給する。表示部１８は、評価部１６から受け取った評価結果に基づいて、複数の人物の関係性を、ユーザに視認可能にモニタ等の出力装置に表示する（Ｓ２５）。

（相関関係表示システム１のハードウェア構成）
図２７は、相関関係表示システム１のハードウェア構成の一例を示す。相関関係表示システム１は、ＣＰＵ１５００と、グラフィックコントローラ１５２０と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read-Only Memory）および／またはフラッシュＲＯＭなどのメモリ１５３０と、データを記憶する記憶装置１５４０と、記録媒体からデータを読み込み、および／または、記録媒体にデータを書き込む読込／書込み装置１５４５と、データを入力する入力装置１５６０と、外部の通信機器とデータを送受信する通信インターフェース１５５０と、ＣＰＵ１５００とグラフィックコントローラ１５２０とメモリ１５３０と記憶装置１５４０と読込／書込み装置１５４５と入力装置１５６０と通信インターフェース１５５０とを互いに通信可能に接続するチップセット１５１０とを備える。

チップセット１５１０は、メモリ１５３０と、メモリ１５３０にアクセスして所定の処理を実行するＣＰＵ１５００と、外部の表示装置の表示を制御するグラフィックコントローラ１５２０とを相互に接続することにより、各構成要素間のデータの受渡しを実行する。ＣＰＵ１５００は、メモリ１５３０に格納されたプログラムに基づいて動作して、各構成要素を制御する。グラフィックコントローラ１５２０は、メモリ１５３０内に設けられたバッファ上に一時的に蓄えられた画像データに基づいて、画像を所定の表示装置に表示させる。

また、チップセット１５１０は、記憶装置１５４０と、読込／書込み装置１５４５と、通信インターフェース１５５０とを接続する。記憶装置１５４０は、相関関係表示システム１のＣＰＵ１５００が使用するプログラムとデータとを格納する。記憶装置１５４０は、例えば、フラッシュメモリである。読込／書込み装置１５４５は、プログラムおよび／またはデータを記憶している記憶媒体からプログラムおよび／またはデータを読み取って、読み取ったプログラムおよび／またはデータを記憶装置１５４０に格納する。読込／書込み装置１５４５は、例えば、通信インターフェース１５５０を介し、インターネット上のサーバから所定のプログラムを取得して、取得したプログラムを記憶装置１５４０に格納する。

通信インターフェース１５５０は、通信ネットワークを介して外部の装置とデータの送受信を実行する。また、通信インターフェース１５５０は、通信ネットワークが不通の場合、通信ネットワークを介さずに外部の装置とデータの送受信を実行することもできる。そして、キーボード、タブレット、マウス等の入力装置１５６０は、所定のインターフェースを介してチップセット１５１０と接続する。

記憶装置１５４０に格納される相関関係表示システム１用の相関関係表示プログラムは、インターネット等の通信ネットワーク、又は磁気記録媒体、光学記録媒体等の記録媒体を介して記憶装置１５４０に提供される。そして、記憶装置１５４０に格納された相関関係表示システム１用のプログラムは、ＣＰＵ１５００により実行される。

実施形態１に係る相関関係表示システム１により実行される相関関係表示プログラムは、ＣＰＵ１５００に働きかけて、相関関係表示システム１を、図２４から図２７にかけて説明した通信データ取得部１０、入力部１１、分析部１２、特定部１２１、関連付与部１２２、ネットワーク分析部１４、評価部１６、および表示部１８として機能させる。

（相関関係表示システム１が奏する効果）
相関関係表示システム１によれば、所定のデータから人物の行為に関連する箇所（第１の単語および第２の単語）を抽出し、当該抽出した箇所を上記メタ情報と関連付けることによって、当該人物の行為を分析することができる。例えば、「技術を交流する」という文章が電子メール（データ、通信情報）に含まれており、「技術」（第２の単語）および「交流する」（第１の単語）という単語が抽出された場合、相関関係表示システム１は、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前（例えば、「人物Ａ」および「人物Ｂ」、すなわち、データの属性を示すメタ情報）とを関連付ける。これにより、「人物Ａ」と「人物Ｂ」とが、ある「技術」についての「交流」を企図していることが推測できる。

したがって、相関関係表示システム１によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案（訴訟または不正調査など）に関連する行為をデータから抽出し、当該データとの関連を特定することによって、上記ディスカバリーを効率よく実行できる。また、相関関係表示システム１によれば、予め定められた事案に対して関連性が高い人物間の関係性を把握できるので、ディスカバリー等の作業における重要な通信データの見落としを抑制することができる。

なお、本発明の実施形態に係る相関関係表示システム、方法、プログラムは、人物の関係性のみならず、ドメイン情報の関係性、組織の役職情報、性別情報、国籍、電話通信情報、チャット情報等を表示するものであってもよい。

〔その他の実施形態〕
本発明のその他の実施形態を説明する。

前述した各実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書分別システムは、カルテルや独占禁止法等、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。

また、実施形態２または実施形態３において、レビュワーの分別した規則性を踏まえて自動で分別符号を付与する第４段階の処理を、第１段階乃至第３段階の処理の後に実施していたが、第１段階乃至第３段階の処理を行わず、第４段階の処理のみを単独で行ってもよい。

さらに、最初に文書抽出部によって、文書情報から一部の文書群を抽出し、該抽出した文書群に対して、まず第４段階の処理を最初に行う。その後、第４段階で登録したキーワードを基に第１段階乃至第３段階の処理を行うという実施形態をとってもよい。

ワード検索部１６４において、実施形態３の第４段階では、分別符号受付付与部１８１において、分別符号が受け付けなかった文書に対してワード選定部１７４が選定したキーワードの探索を実施していたが、全文書情報を対象として該キーワードの探索を行ってもよい。

実施形態２および実施形態３の第４段階では、第３自動分別部４０１、４５１において、分別符号受付付与部１３１，１８１において、分別符号が受け付けなかった文書のみを分別符号の自動付与の対象としていたが、全文書情報を該自動付与の対象としてもよい。

本発明の第２の実施形態に係る文書分別システム及び文書分別方法並びに文書分別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、レビュワーが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。

また、本発明の第２の実施形態に係る文書分別システムにおいて、ワード検索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

また、第２の実施形態は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。

また、第２の実施形態は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、ワード検索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。

〔プログラムによる実現例〕
相関関係表示システム１、文書分別システム３、文書分別システム４、および、データ分析システム５が備えた各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、相関関係表示システム１、文書分別システム３、文書分別システム４、および、データ分析システム５は、各機能を実現するソフトウェアであるプログラム（制御プログラム）の命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（又はＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）又は記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（又はＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔付記事項１〕
以上、本発明の実施形態を説明したが、上記した実施形態は特許請求の範囲に係る発明を限定するものではない。また、実施形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。さらに、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されてもよい。

〔付記事項２〕
複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得部と、前記通信データ取得部が取得した前記通信データの内容を分析する分析部と、前記分析部の分析結果を用い、前記通信データの内容と予め定められた事案との関係性を評価する評価部と、前記評価部の評価結果に基づいて、前記事案に関連する前記複数の人物の関係性を表示する表示部とを備える相関関係表示システム。

複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得部と、前記通信データ取得部が取得した前記通信データのドメイン情報を分析する分析部と、前記分析部の分析結果を用い、前記通信データのドメイン情報と予め定められた事案との関係性を評価する評価部と、前記評価部の評価結果に基づいて、前記事案に関連する前記ドメイン情報を表示する表示部とを備える相関関係表示システム。

前記通信データを用い、前記複数の端末により構築される通信ネットワークを解析することで前記複数の端末から前記通信ネットワークにおける複数の主要端末を決定するネットワーク分析部を更に備え、前記評価部が、前記複数の主要端末間で送受信される前記通信データと前記分析結果とを用い、前記関係性を評価する相関関係表示システム。

前記表示部が、前記分析結果に基づいて前記複数の人物の第１の関係性を表示した後、前記評価結果を前記第１の関係性に反映させた前記複数の人物の第２の関係性を表示する相関関係表示システム。

前記評価部が、前記通信データの送受信時刻ごと、若しくは前記評価が実行された実行時刻ごとに前記関係性を評価し、前記表示部が、前記送受信時刻ごと、若しくは前記実行時刻ごとにおける前記評価部の評価結果に基づいて、前記複数の人物の関係性または、前記ドメイン情報を変化させて表示する相関関係表示システム。

前記通信データが、電子メール、電話の通話記録、及びソーシャルネットワークサービスへのアクセス記録のうち少なくとも１つを含む相関関係表示システム。

前記予め定められた事案が、訴訟に関係することを示す情報である相関関係表示システム。

複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得段階と、前記通信データ取得段階において取得された前記通信データの内容を分析する分析段階と、前記分析段階における分析結果を用い、前記通信データの内容と予め定められた事案との関係性を評価する評価段階と、前記評価段階における評価結果に基づいて、前記事案に関連する前記複数の人物の関係性を表示する表示段階とを備える相関関係表示方法。

複数の人物間の関係性を表示する相関関係表示プログラムであって、コンピュータに、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得機能と、前記通信データ取得機能において取得された前記通信データの内容を分析する分析機能と、前記分析機能における分析結果を用い、前記通信データの内容と予め定められた事案との関係性を評価する評価機能と、前記評価機能における評価結果に基づいて、前記事案に関連する前記複数の人物の関係性を表示する表示機能とを実現させる相関関係表示プログラム。

複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得段階と、前記通信データ取得段階において取得された前記通信データのドメイン情報を分析する分析段階と、前記分析段階における分析結果を用い、前記通信データのドメイン情報と予め定められた事案との関係性を評価する評価段階と、前記評価段階における評価結果に基づいて、前記事案に関連するドメイン情報の関係性を表示する表示段階とを備える相関関係表示方法。

複数の人物間の関係性を表示する相関関係表示プログラムであって、コンピュータに、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得機能と、前記通信データ取得機能において取得された前記通信データのドメイン情報を分析する分析機能と、前記分析機能における分析結果を用い、前記通信データのドメイン情報と予め定められた事案との関係性を評価する評価機能と、前記評価機能における評価結果に基づいて、前記事案に関連する前記ドメイン情報の関係性を表示する表示機能とを実現させる相関関係表示プログラム。

〔付記事項３〕
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、該取得されたデジタル情報に含まれる文書情報を保持する文書データ格納部であって、前記文書情報を格納するとともに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とを登録するキーワードデータベースと、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベースとを格納する文書データ格納部と、前記ワード検索部により前記キーワードデータベースに記録したキーワードを検索し、前記キーワードを含む文書を前記文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を自動的に付与する第１自動分別部と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部と、前記文書情報から、前記関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を自動的に付与する第２自動分別部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、前記分別符号受付付与部により分別符号を付与された複数の文書を解析する分別符号受付文書解析部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、前記分別符号受付部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第３自動分別部とを備えることを特徴とする文書分別システム。

抽出した文書の言語の種類を判定する言語判定部と、ユーザの指定を受け付けて、又は、自動的に、前記文書情報から抽出した文書を翻訳する翻訳部とを備えることを特徴とする文書分別システム。

前記文書分別システムは、更に、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部を備え、前記分別符号受付文書解析部が、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、及び文書ごとに含まれる、前記抽出した単語の種類、各単語がもつ評価値及び出現数を文書ごとに解析することにより、前記傾向情報生成部により傾向情報を生成し、前記分別符号受付付与部により分別符号を受け付けていない文書のうち、前記解析により生成した傾向情報と同じ傾向をもつ文書に対して、前記共通の分別符号の付与を行うことを特徴とする文書分別システム。

前記文書分別システムは、更に、前記ユーザが分別符号を付与した文書に対して、前記解析した傾向情報に基づいて付与すべき分別符号を決定し、前記決定した分別符号と前記ユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることを特徴とする文書分別システム。

前記第１分別部において前記キーワードを複数含む文書に対し、前記キーワードのもつ評価値及び出現数に基づいて、付与する分別符号を選択することを特徴とする文書分別システム。

前記第２分別部において前記算出したスコアを用いて前記関連用語の評価値を再計算し、前記スコアが一定値を超過した文書中に頻出する前記関連用語の評価値に重みづけを行うことを特徴とする文書分別システム。

文書群において、ワードを選定するワード選定部を備え、前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、前期第３自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する文書分別システム。

文書群において、ワードを選定するワード選定部を備え、前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、前記スコア算出部は、前記ワード選定部の選定結果と前記分別符号受付文書解析部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、前記第３自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する文書分別システム。

前記ワードとしてキーワードを選定する文書分別システム。

前記ワードとして関連用語を選定する文書分別システム。

前記文書分別システムは、更に、前記文書群に含まれる文書のうち、前記ワード選定部が選定した前記キーワード、前記関連用語及び前記分別符号と相関関係を有するキーワードを含まない文書を選定し、前記第３自動分別部の分別対象から前記選定された文書を排除する文書排除部を備えることを特徴とする文書分別システム。

前記文書分別システムは、更に、前記選定部の分析結果と、前記スコア算出部の算出したスコアに基づいて前記選定部が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えることを特徴とする文書分別システム。

前記スコア算出部は、前記文書群の中に出現する前記キーワードと、各キーワードの持つ重みづけとによりスコアを算出することを特徴とする文書分別システム。

前記重みづけは、前記キーワードが持つ、前記分別符号ごとにおける伝達情報量をもとに決定することを特徴とする文書分別システム。

前記文書抽出部は、前記文書情報から文書群をランダムにサンプリングし抽出する機能を備えることを特徴とする文書分別システム。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、コンピュータが、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録し、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録し、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与し、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与し、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付け、前記ユーザからの分別符号の付与を受け付けた文書を解析し、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与することを特徴とする文書分別方法。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、コンピュータに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録する機能と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録する機能と、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する機能と、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与する機能と、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能と、前記ユーザからの分別符号の付与を受け付けた文書を解析する機能と、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する機能とを実現させることを特徴とする文書分別プログラム。

１相関関係表示システム（データ分析システム）
２情報処理装置
３文書分別システム（データ分析システム）
４文書分別システム（データ分析システム）
５データ分析システム
１０通信データ取得部
１１入力部
１２分析部
１４ネットワーク分析部
１６評価部
１００データ格納部
１０１キーワードデータベース
１０２関連用語データベース
１１２文書抽出部
１１４ワード検索部
１１６スコア算出部
１１８分別符号受付文書解析部
１２０言語判定部
１２１特定部
１２２関連付与部
１２４傾向情報生成部
１２６翻訳部
１３１分別符号受付付与部
１５０データ格納部
１５１キーワードデータベース
１５２関連用語データベース
１６２文書抽出部
１６４ワード検索部
１６６スコア算出部
１６８分別符号受付文書解析部
１７０言語判定部
１７２翻訳部
１７４ワード選定部
１７６文書排除部
１８１分別符号受付付与部
２０１第１自動分別部
２５１第１自動分別部
３０１第２自動分別部
３５１第２自動分別部
４０１第３自動分別部
４５１第３自動分別部
５０１品質検査部
５５１学習部
６０１表示部
６５１表示部
Ｉ１文書表示画面

Claims

プロセッシングユニットとメモリとを備えたコンピュータを含むデータ分析システムであって、
前記プロセッシングユニットは、複数の端末間で送受信された通信データであって、これを送信した一の人物と受信した他の人物とに関する属性情報を含む通信データを取得し、
前記プロセッシングユニットは、予め定められた事案に関係する単語を示すテキストデータを有し、前記メモリに記録された辞書に基づいて、所定の動作を表す第１の単語が前記通信データに含まれるか否かを判定し、
前記プロセッシングユニットは、前記第１の単語が前記通信データに含まれると判定した場合、前記通信データにおいて前記所定の動作の対象を表す第２の単語を特定し、
前記プロセッシングユニットは、前記属性情報と前記第１の単語および前記第２の単語との関連付けを行い、
前記通信データに含まれる単語が、当該通信データの中で発揮する情報量に基づいてスコアを算出し、
前記関連付けと前記スコアとに基づいて、前記一の人物と前記他の人物との間で前記予め定められた事案に関する情報がやり取りされたことを表示するデータ分析システム。
前記スコアは、前記通信データと前記予め定められた事案との関連性の高低を示し、当該高低に応じて当該通信データ全体の中から当該関連性が高い通信データを絞り込むことを可能にするものであることを特徴とする請求項１に記載のデータ分析システム。
前記プロセッシングユニットは、前記通信データを分類する際に用いる分別符号を通信データに付与し、
前記プロセッシングユニットは、前記分類された通信データにおいて、共通して出現する単語を抽出し、
前記プロセッシングユニットは、前記抽出された単語が前記通信データの中で発揮する前記情報量に基づいて、前記スコアを算出することを特徴とする請求項１または２に記載のデータ分析システム。
前記属性情報は、前記通信データを受信した前記他の人物もしくは送信した前記一の人物を、特定可能な名前と、特定可能なアドレスと、当該通信データが受信もしくは送信された日時と、当該通信データが作成された日時との少なくとも一つであることを特徴とする請求項１から３のいずれか一項に記載のデータ分析システム。
プロセッシングユニットとメモリとを備えたコンピュータによりデータ分析を行うデータ分析方法であって、
前記プロセッシングユニットに複数の端末間で送受信された通信データであって、これを送信した一の人物と受信した他の人物とに関する属性情報を含む通信データを取得させる工程と、
前記プロセッシングユニットに、予め定められた事案に関係する単語を示すテキストデータを有し、前記メモリに記録された辞書に基づいて、所定の動作を表す第１の単語が前記通信データに含まれるか否かを、予め定められた事案に関係する単語を示すテキストデータを有し、メモリに記録された辞書に基づいて判定させる工程と、
前記プロセッシングユニットに、前記第１の単語が前記通信データに含まれると判定した場合、前記通信データにおいて前記所定の動作の対象を表す第２の単語を特定する工程と、
前記プロセッシングユニットにより、前記属性情報と前記第１の単語および前記第２の単語との関連付けを行う工程と、
前記通信データに含まれる単語が当該通信データの中で発揮する情報量に基づいてスコアを算出する工程と、
前記関連付けと前記スコアとに基づいて、前記一の人物と前記他の人物との間で前記予め定められた事案に関する情報がやり取りされたことを表示させる工程とを有するデータ分析方法。
プロセッシングユニットとメモリとを備えたコンピュータにおいて実行されるデータ分析プログラムであって、前記データ分析プログラムは、
前記プロセッシングユニットに複数の端末間で送受信された通信データであって、これを送信した一の人物と受信した他の人物とに関する属性情報を含む通信データを取得させ、
前記プロセッシングユニットに、予め定められた事案に関係する単語を示すテキストデータを有し、前記メモリに記録された辞書に基づいて、所定の動作を表す第１の単語が前記通信データに含まれるか否かを、予め定められた事案に関係する単語を示すテキストデータを有し、メモリに記録された辞書に基づいて判定させ、
前記プロセッシングユニットに、前記第１の単語が前記通信データに含まれると判定した場合、前記通信データにおいて前記所定の動作の対象を表す第２の単語を特定し、
前記プロセッシングユニットにより、前記属性情報と前記第１の単語および前記第２の単語との関連付けを行い、
前記通信データに含まれる単語が当該通信データの中で発揮する情報量に基づいてスコアを算出し、
前記関連付けと前記スコアとに基づいて、前記一の人物と前記他の人物との間で前記予め定められた事案に関する情報がやり取りされたことを表示させるデータ分析プログラム。
プロセッシングユニットとメモリとを備えたコンピュータにおいて実行されるデータ分析プログラムを格納した記録媒体であって、
前記プロセッシングユニットに複数の端末間で送受信された通信データであって、これを送信した一の人物と受信した他の人物とに関する属性情報を含む通信データを取得させ、
前記プロセッシングユニットに、予め定められた事案に関係する単語を示すテキストデータを有し、前記メモリに記録された辞書に基づいて、所定の動作を表す第１の単語が前記通信データに含まれるか否かを、予め定められた事案に関係する単語を示すテキストデータを有し、メモリに記録された辞書に基づいて判定させ、
前記プロセッシングユニットに、前記第１の単語が前記通信データに含まれると判定した場合、前記通信データにおいて前記所定の動作の対象を表す第２の単語を特定し、
前記プロセッシングユニットにより、前記属性情報と前記第１の単語および前記第２の単語との関連付けを行い、
前記通信データに含まれる単語が当該通信データの中で発揮する情報量に基づいてスコアを算出し、
前記関連付けと前記スコアとに基づいて、前記一の人物と前記他の人物との間で前記予め定められた事案に関する情報がやり取りされたことを表示させるように実行されるデータ分析プログラムを記録した記録媒体。