JP5603468B1

JP5603468B1 - 文書分別システム及び文書分別方法並びに文書分別プログラム

Info

Publication number: JP5603468B1
Application number: JP2013159645A
Authority: JP
Inventors: 正宏守本; 喜勝白井; 秀樹武田; 和巳蓮子; 彰晃花谷
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2014-10-08
Anticipated expiration: 2033-07-31
Also published as: WO2015015826A1; EP3029582A1; JP2015032030A; US20160275147A1; EP3029582A4; KR20160033729A; KR101780807B1; TW201504836A

Abstract

【課題】レビュワーによる負担を軽減できる文書分別システム及び文書分別方法並びに文書分別プログラムを提供する。
【解決手段】文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて、文書情報に自動で分別符号を付与する自動分別部と、スコア算出部の算出結果及び／又は自動分別部の分別結果を画面に表示するよう制御する表示制御部を備える。
【選択図】図１

Description

本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。

従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、利用者情報に含まれる少なくとも１人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報

しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。

このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力がかかるという問題があった。

本発明は、上記事情に鑑みレビュワーによる負担を軽減できる文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とする。

本発明の文書判別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて、文書情報に自動で分別符号を付与する自動分別部と、前記スコア算出部の算出結果及び／又は前記自動分別部の分別結果を画面に表示するよう制御する表示制御部を備える。

「文書」とは、１つ以上のキーワードを含むデータをいう。例えば電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。

「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。

「分別符号」とは、文書を分類する際に用いる識別子のことをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。

「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。例えばスコア算出部は、文書群中に出現するキーワードと、各キーワードの持つ重みづけによりスコアを算出してもよい。一例として該重みづけは、キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。

また、本発明の文書判別システムにおける、抽出部は、文書情報から文書群を抽出する際に、ランダムにサンプリングを行ってもよい。

本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。

また、本発明の文書分別システムにおいて探索部は、関連用語を文書情報から探索する機能を備え、スコア算出部は、探索部が関連用語を探索した結果をもとにスコアを算出する機能を備え、自動分別部は、更に、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与する機能を備えてもよい。

表示制御部は、スコア算出部により算出されるスコアを複数の範囲に分け、複数の範囲の各範囲に含まれる文書数をスコアの高い順に累計した数を表示することも可能である。

表示制御部は、全文書数のうち訴訟に関連性がある文書の割合を表示することも可能である。

表示制御部は、スコア算出部により算出されるスコアを複数の範囲に分け、複数の範囲の各範囲について、訴訟に関連性がある文書数の割合を表示することも可能である。

本発明の文書分別システムは、文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定するサイズ推定部をさらに備え、抽出部は、サイズ推定部により推定されたサイズの文書群を前記文書情報から抽出することも可能である。

また、本発明の文書分別システムは、分別符号受付部で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定する文書数推定部を備えていてもよい。

文書数推定部は、抽出された文書群に対する、分別により訴訟に関連するとされた文書数の割合に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定することもできる。

また、本発明の文書分別システムは、自動分別部により分別された文書情報の分別結果をユーザが再確認する際に必要な文書数を算出する文書数算出部を備えていてもよい。

文書数算出部は、自動分別部により訴訟に関連するとされた文書とスコア算出部により算出されたスコアとの関係に基づいて、再確認に必要な文書数を算出することもできる。

文書数算出部は、文書情報のうち訴訟に関連する文書のうち、自動分別部により訴訟に関連するとされた文書の割合である再現率と、スコア算出部により算出されたスコアの順位を文書情報に含まれる文書数で除算した規格化順位との関係に基づいて、再確認に必要な文書数を算出することもできる。

再現率と規格化順位との関係は、非線形回帰分析により算出されることもできる。

非線形回帰分析により算出された再現率と規格化順位との関係において、規格化順位の値を大きくしていった際に、再現率の値が飽和する規格化順の値に基づいて、再確認に必要な文書数を算出することもできる。

表示制御部は、文書数算出部により算出されたユーザが再確認する際に必要な文書数を画面上に表示することもできる。

また、本発明の文書分別システムは、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する文書排除部を備えてもよい。

本発明の文書分別システムは、更に、分別符号と関連性のある関連用語を抽出し、記録する機能を備えるデータベースを備えてもよい。また、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えてもよい。

本発明の文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別方法において、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを文書情報から探索し、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて、文書情報に自動で分別符号を付与し、前記スコアの算出結果及び／又は前記自動分別の分別結果を画面に表示するよう制御する機能を実現するものである。

本発明の文書分別プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、コンピュータに、文書情報から所定数の文書を含むデータセットである文書群を抽出する機能と、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける機能と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する機能と、選定したキーワードを文書情報から探索する機能と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出する機能と、スコアの結果に基づいて、文書情報に自動で分別符号を付与する機能と、前記スコアの算出結果及び／又は前記自動分別の分別結果を画面に表示するよう制御する機能を実現させるものである。

本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、スコアの算出結果及び／又は自動分別の分別結果を画面に表示するよう制御している。このため、レビュワーによる負担を軽減できる。

本発明の第１の実施形態に係る文書判別システムの構成図サンプルサイズとエラーレベルとの関係を示す図本発明の実施形態における選定部での解析結果を示したグラフフィッティング結果を示したグラフ本発明の実施形態における段階ごとの処理の流れを示したチャート本発明の実施形態におけるデータベースの処理フローを示したチャート本発明の実施形態における探索部の処理フローを示したチャート本発明の実施形態におけるスコア算出部の処理フローを示したチャート本発明の実施形態における自動分別部の処理フローを示したチャート本発明の実施形態におけるサンプルサイズ推定部の処理フローを示したチャート本発明の実施形態における抽出部の処理フローを示したチャート本発明の実施形態における表示制御部の処理フローを示したチャート本発明の実施形態における分別符号受付部の処理フローを示したチャート本発明の実施形態における文書数推定部の処理フローを示したチャート本発明の実施形態における選定部の処理フローを示したチャート本発明の実施形態におけるエンドポイント算出部の処理フローを示したチャート本発明の実施形態における文書排除部の処理フローを示したチャート本発明の実施形態における学習部の処理フローを示したチャート本発明の実施形態における文書表示画面本発明の実施形態における文書表示画面本発明の実施形態における文書表示画面本発明の実施形態における文書表示画面本発明の実施形態における文書表示画面

［第１の実施形態］
以下、本発明の実施の形態を添付の図により説明する。図１に第１の実施形態に係る文書判別システムの構成図を示す。

第１の実施形態は、特許侵害訴訟における文書提出命令に対応する際に、被疑製品である製品Ａに関する文書を分別処理する場合の実施例である。

本発明にかかる文書分別システムは、文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定するサイズ推定部１０１と、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部１０２と、抽出された文書群を画面上に表示する表示制御部１０３と表示された文書群に対して、レビュワーと呼ばれるユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部１０４と、分別符号受付部１０４で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定する文書数推定部１０５と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部１０６と、選定したキーワードを記録するデータベース２００と、データベース２００に記録されたキーワードを文書情報から探索する探索部１０７と、探索部１０７の探索結果と選定部１０６の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部１０８と、スコアの結果に基づいて自動で分別符号を付与する自動分別部１０９と、自動分別部１０９により分別された文書情報の分別結果をレビュワーが再確認（以下、「確認レビュー」という。）する際に必要な文書数（エンドポイント）を算出するエンドポイント算出部１１０を備えている。

第１の実施形態において、該文書分別システムは、サイズ推定部１０１、抽出部１０２、表示制御部１０３、分別符号受付部１０４、文書数推定部１０５、選定部１０６、探索部１０７、スコア算出部１０８、自動分別部１０９、エンドポイント算出部１１０、文書排除部１１１及び学習部１１２を備える文書分別装置１００、データベース２００及びレビュワーが利用するクライアント装置３００から構成される。クライアント装置３００は１つの文書判別システム内に複数備えることも可能である。

文書分別装置１００及びクライアント装置３００は、コンピュータまたはサーバであり、各種入力に基づきＣＰＵがＲＯＭに記録されたプログラムを実行することで、各種機能部として動作する。

分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。第１の実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、証拠として提出する必要があることを表す「関係あり」、及び製品Ａととりわけ関わりがある文書であることを表す「重要」の３つの符号を備えており、このうち「重要」符号が付与される文書を分別するものである。

ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、１つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にＯＣＲ（Optical Character Recognition）装置を備えてもよい。ＯＣＲ装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や探索が可能になる。

例えば、第１の実施形態においては、製品Ａに関する打ち合わせについての内容が記載された議事録や電子メール等に「関係あり」符号が付与され、製品Ａの開発計画書や設計書等に「重要」符号が付与され、製品Ａとは無関係の定例会等の資料に「無関係」符号が付与される。

また、キーワードは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。第１の実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。

データベース２００は、電子媒体にデータを記録する記録装置であり、文書分別装置１００の内部にあってもよいし、例えばストレージ装置として外部に設置してもよい。

文書分別装置１００、データベース２００及びクライアント装置３００は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。

データベース２００は、各分別符号についてのキーワードを記録しているものである。また、過去の分別処理の結果から、製品Ａと関連性が高く文書中に含まれれば直ちに「重要」符号を付与すると、判断できるキーワードを事前に登録することができる。例えば製品Ａの主要機能名や、「訴訟」、「警告」、「特許公報」のようなキーワードである。また、同様に過去の分別処理の結果から、製品Ａと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し、関連用語として登録しておくことも可能である。一度データベース２００に登録されたキーワード及び関連用語は、学習部１１２による学習結果によって増減される他、手動によっても追加登録・及び削除が可能である。

サイズ推定部１０１は、文書情報から抽出すべき所定数の文書を含むデータセットである文書群（以下、サンプルとも記載する）の適切なサイズを推定する。後述の抽出部１０２により抽出されるサンプルは、すべてレビュワーがレビューする必要がある。しかし、全文書情報に対して抽出する文書の割合（以下、サンプルサイズとも記載する）が大きいとレビュー結果の信頼性は向上するが、レビュワーの負担が増加する。一方、抽出する文書の割合が小さいとレビュワーの負担は軽減されるが、レビュー結果の信頼性が低下してしまう。このため、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるようにサンプルを抽出する必要がある、

上述の課題を解決するため、サイズ推定部１０１は、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるように、全文書情報から抽出する文書の割合、すなわちサンプルサイズを推定する。以下、サイズ推定部１０１によるサンプルサイズの推定方法について説明する。

全文書情報に含まれる文書数をＮとする。また、この全文書情報に含まれる訴訟に関連する文書をＮ_ＨＯＴとする。ここで、Ｎ_ＨＯＴは、未知であり推定が必要である。推定量ｐ（＝Ｎ_ＨＯＴ／Ｎ）に対して許容可能なエラーレベル（統計誤差）Δｐを、例えば、０．０１（１％）と仮定する。次に、推定値ｐの信頼度（C.L.: confidence level）を、例えば、９５％と仮定する。

上記のように、仮定するとエラーレベルΔｐは、以下の（１）式で表される。

上記（１）をサンプルサイズｎ_ｓで整理すると、以下の（２）式となる。

なお、上記（１）式、（２）式において、γは、信頼度（Ｃ．Ｌ．）に対する信頼係数であり、γ＝１．９６で信頼度（Ｃ．Ｌ．）が９５％、γ＝２．５８で信頼度（Ｃ．Ｌ．）が９９％となる。

ここで、Ｎがｎ_ｓに比べて十分に大きな値（Ｎ＞＞ｎ_ｓ）である場合、以下の（３）式が成り立つ。

このため、ｎ_ｓの値は、以下の（４）式で表される。

上記（４）式において、推定値ｐは、未知である（Ｎ_ＨＯＴが未知であるため）。しかしながら、最悪のケースとして推定値ｐ（全文書情報のうち半分が訴訟に関連する文書）が０．５（これは、ｐ（１−ｐ）が最大となる値である）と仮定すると、上記（４）式は、以下（５）式となる。なお、推定値ｐは、後述のクライアント装置３００を利用して、ユーザが設定できるようにしてもよい。

次に、エラーレベルΔｐが０．０１（１％）の場合におけるサンプルサイズｎ_ｓの値を算出した例を表１に示す。表１には、信頼度（Ｃ．Ｌ）が９５％の場合と、９９％の場合とを示している。なお、表１に示すように、Ｎ＞＞ｎｓの条件では、サンプルサイズｎ_ｓは、全文書情報の文書数Ｎに関係しない独立した値となる。

次に、サンプルサイズｎｓと、エラーレベルΔｐの関係を図２に示す。図２において、縦軸は、サンプルサイズ（ｎ_ｓ）、横軸は、エラーレベルΔｐである。なお、図２には、信頼度（Ｃ．Ｌ．）が９５％の場合と、９９％の場合とを示した。図２に示すように、エラーレベルΔｐの値が小さくなるほど、全文書情報に対して抽出する文書の割合（サンプルサイズｎ_ｓ）が大きくなることがわかる。

以上のように、サイズ推定部１０１は、上記（５）式を用いて、全文書情報に対して抽出する文書の割合（サンプルサイズ）を推定する。

抽出部１０２は、文書情報から文書群を抽出する際に、ランダムにサンプリングを行うことが可能である。第１の実施形態では、全文書情報のうち上記サイズ推定部１０１により推定された割合の文書をランダムに抽出し、レビュワーによる分別対象とする。抽出部１０２が全文書情報から抽出する文書の割合は、マニュアル（手動）で変更することも可能である。なお、マニュアルで全文書情報から抽出する文書の割合を設定する場合、サイズ推定部１０１で推定されたサンプルサイズを参照することが好ましい。

表示制御部１０３は、クライアント装置３００に対して、図１９に示されるような文書表示画面Ｉ１を提示する。文書表示画面Ｉ１は、図１９のように中央に分別対象となる文書が表示し、左側に分別符号が表示するような画面構造で１画面内に分別対象の文書と付与する分別符号を表示することができるものである。文書を表示する箇所と分別符号を表示する箇所がそれぞれ別画面となる画面構造であってもよい。

第１の実施形態において、文書表示画面Ｉ１中の分別符号１は「無関係」符号、分別符号２は「関係あり」符号及び分別符号３は「重要」符号を意味する。また、「関係あり」符号を付与された文書のうち、小分類１は製品Ａの価格と関係がある文書に対して付与され、小分類２は製品Ａの開発スケジュールと関係がある文書に対して付与されるものである。小分類は１つの分別符号に複数備えてもよいし、備えない場合があってもよい。

分別符号受付部１０４は、表示制御部１０３が表示した文書情報のうち、レビュワーが目視により確認し、ひとつひとつ分別符号を決定した文書に対して、該決定に基づいて分別符号を付与し、該文書を分類することが可能である。文書の分類は付与された分別符号によって行うことが可能である。

文書数推定部１０５は、分別符号受付部１０４で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書数を推定する。以下、文書数推定部１０５による文書数の推定方法について説明する。

抽出部１０２により抽出された文書のうちレビュワーにより訴訟に関連すると分別符号を付与された文書数をｎ_ＴＡＧとすると、分別対象である全文書情報の文書数Ｎのうち訴訟に関連すると推定される文書数Ｎ_ＨＯＴ ^ｅｓｔは、以下の（６）式で近似される。

より正確には、Ｎ_ＨＯＴ ^ｅｓｔの値は、以下の（７）式となる。

ここで、ｐ_ＴＡＧ＝ｎ_ＴＡＧ／ｎ_ｓである。

つまり、全文書情報の文書数Ｎのうち訴訟に関連すると推定される文書数Ｎ_ＨＯＴ ^ｅｓｔは、統計学的に所定の信頼度（Ｃ．Ｌ．）の範囲内に収まる。次に、一例を示す。この例では、全文書情報の文書数Ｎを３５、９２９とする。また、抽出部１０２により抽出された文書数ｎ_sを３０００（Δｐ≦１．７％）とする。

抽出部１０２により文書が無作為に抽出され、分別符号が正しく付与されたとすると、推定されるｎ_ＴＡＧの値は、

となる。

ｎ_ｓが８であるとして、全文書情報の文書数Ｎのうち訴訟に関連すると推定される文書数Ｎ_ＨＯＴ ^ｅｓｔは、以下の（８）式となる。

なお、上記（８）式における文書数Ｎ_ＨＯＴ ^ｅｓｔ信頼度（Ｃ．Ｌ．）は、９５％である。

ｎＴＡＧの値が異なる場合における文書数Ｎ_ＨＯＴ ^ｅｓｔの値を信頼度（Ｃ．Ｌ．）が、９５％、９９％の場合について以下の表２に示す。

以上のように、文書数推定部１０５は、上記の（８）式を用いて、全文書情報の文書数Ｎのうち訴訟に関連すると推定される文書数Ｎ_ＨＯＴ ^ｅｓｔを推定する。

選定部１０６は、分別符号受付部１０４が分類した文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する。

図３は選定部１０６の「重要」符号が付与された文書を解析した結果を示したグラフである。

図３において、縦軸R_hotは、レビュワーによって「重要」符号が付与された全文書のうち、「重要」符号に紐づくキーワードとして選定されたキーワードを含み、かつ「重要」符号が付与された文書の割合を示している。横軸は、レビュワーが分別処理を実施した全文書のうち、選定部１０６によって選定されたキーワードを含む文書の割合を示している。
第１の実施形態において、選定部１０６では、直線R_hot=R_allよりも上部にプロットされるようなキーワードをその分別符号におけるキーワードとして選定することが可能である。

探索部１０７は、対象となる文書中から特定のキーワードを探索する機能を備える。探索部１０７は、選定部１０６で選定されたキーワードあるいはデータベース２００で抽出された関連用語を含む文書を、探索する際において、分別符号受付部１０４によって分別符号の付与を受け付けなかった文書から構成される文書群を対象として探索するものである。

スコア算出部１０８は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより以下の式からスコアを算出することが可能である。スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。

ｍ_ｉ：ｉ番目のキーワード又は関連用語の出現頻度

自動分別部１０９は、算出されたスコアに基づいて文書情報に自動で分別符号を付与する際において、分別符号受付部１０４において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。

自動分別部１０９による分別結果は、信頼性担保のために、レビュワーによる確認レビューを行う場合がある。しかしながら、分別されたすべての文書について確認レビューを行うと、レビュワーの負担が大きく、また非効率でもある。一方、確認レビューする文書数が少ないとレビュワーの負担は軽減されるが、レビュー結果の信頼性が低下してしまう。このため、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるように確認レビューすべき文書数を決定する必要がある。

エンドポイント算出部１１０は、自動分別部１０９により分別された文書情報の分別結果をレビュワーが確認レビューする際に必要な文書数（以下、エンドポイントとも記載する）を算出する。以下、エンドポイント算出部１１０による文書数の算出方法について説明する。

エンドポイント算出部１１０による文書数の算出には、「再現率（recall）」と「規格化順位(normalized rank)」を用いることができるが、再現率に代えて、適合率やＦ値等を用いることもできる。「再現率（recall）」とは、文書情報に含まれる訴訟に関連するすべての文書のうち、どれだけの文書が自動分別部１０９により分別されているかを示す網羅性の指標である。例えば、文書情報に含まれる訴訟に関連するすべての文書数が１００とし、自動分別部１０９により訴訟に関連すると分別された文書数が８０とすると、再現率は８０％となる。「適合率」とは、確認レビューした文書数のうち、どれだけの文書が自動分別部１０９により分別されているかを示す正確性の指標である。Ｆ値とは、適合率と再現率の調和平均である。

また、「規格化順位(normalized rank)」とは、スコア算出部１０８により算出されたスコアによる各文書のランク（順位）を規格化したものである。例えば、文書数が１００ある場合に、スコアによるランク（順位）が２０位の文書の規格化順位は、０．２となる。また、文書数が１０００ある場合に、スコアによるランク（順位）が２００位の文書の規格化順位は、同様に０．２となる。

ここで、非線形回帰モデルを用いた場合、再現率ｙは、例えば以下の（９）式で表すことができる。

上記（９）式において、ｘは、規格化順位であり、α，βは、フィッティングパラメータである。

フィッティングパラメータαは、近似的に、飽和した再現率の値と一致する。つまり、飽和した再現率は、エンドポイントの決定に用いることが可能である。なお、（９）式は一例であって、他の回帰モデルに基づいてエンドポイントを決定してもよい。（９）式によるフィッティング結果を図４に示す。

図４に示すように、規格化順位（normalized rank）の値を大きくしていくに従い、再現率（recall）の値も大きくなる。しかし、規格化順位の値が０．１（１０％）を超えると、規格化順位の値を大きくしても再現率の値が０．８６４（８４．６％）から殆ど変わらない飽和状態となる。

つまり、図４に示す例では、ランクが０．１以上の文書を確認レビューしても再現率がほとんど変わらないことを意味する。このため、図４に示す例では、ランクが上位１０％の文書を再確認に必要な文書数（endpoint）とすることで、分別結果の信頼性を担保しつつ、レビュワーの負担を軽減することができる。

文書排除部１１１は、分別対象となる文情報のうち、データベース２００で事前に登録されたキーワード及び関連用語、並びに選定部１０６において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除することが可能である。

学習部１１２は、分別処理の結果をもとに、各キーワードの重みづけを学習し、該学習結果をもとにデータベース２００に登録されているキーワード及び関連用語の増減を行う。各キーワードがもつ重みづけは、該キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。該重みづけは以下の式より、分別処理を重ねるごとに学習し、精度を向上させることが可能である。

Wgt_i,0：学習前のｉ番目の選定キーワードの重み（初期値）
Wgt_i,L：Ｌ回目学習後のｉ番目の選定キーワードの重み
γ_L：Ｌ回目学習における学習パラメータ

また、学習部では、ニューラルネットを用いて分別結果を重みづけに反映させる学習方法をとることも可能である。

クライアント装置３００は、レビュワーが操作し、文書情報を確認し付与する分別符号を決定するのに利用する装置である。

第１の実施形態では、図５に示すようなフローチャートに従い、５つの段階で分別処理を行う。
第１段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Ａの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである。
第２段階では、第１段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する。
第３段階では、第１段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、分別を行う。
第４段階では、レビュワーによる分別符号の決定を実施した後に、レビュワーの分別した規則性を踏まえ、自動で分別符号の付与を行う。
第５段階では、第１段階乃至第４段階の結果を用いて、学習を行う。

＜第１段階＞
第１段階におけるデータベース２００の処理フローを、図６を用いて詳細に説明する。データベース２００で何段階目の処理を行うかを判断し、第１段階の処理を選択する（ＳＴＥＰ１：第１段階）。本段階ではまず、データベース２００でキーワードの事前登録を行う（ＳＴＥＰ２）。このとき登録されるのは、過去の分別処理の結果から、製品Ａと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Ａと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し（ＳＴＥＰ３）、関連用語として登録を行う（ＳＴＥＰ４）。

＜第２段階＞
第２段階におけるデータベース２００、探索部１０７及び自動分別部１０９の処理フローを、図６、図７及び図９を用いて、詳細に説明する。

データベース２００で何段階目の処理を行うかを判断し、第２段階の処理を選択する（ＳＴＥＰ１：第２段階）。データベース２００において、更に事前に登録しておく必要のあるキーワードがある場合（ＳＴＥＰ５：ＹＥＳ）、追加の登録を行う（ＳＴＥＰ６）。追加で登録するキーワードがない場合（ＳＴＥＰ５：ＮＯ）及びＳＴＥＰ６の処理の完了後、探索部１０７で何段階目の処理を行うかを判断し、第２段階の処理を選択する（ＳＴＥＰ１１：第２段階）。本段階で、探索部１０７は、まずデータベース２００内に第１段階及び第２段階で事前登録されたキーワードがあるか判定を行う（ＳＴＥＰ１２）。事前に登録されたキーワードが存在しない場合（ＳＴＥＰ１２：ＮＯ）、第２段階の処理は終了する。

事前に登録されたキーワードが存在する場合（ＳＴＥＰ１２：ＹＥＳ）、分別対象となる文書情報の中に該キーワードを含む文書がないか、分別対象となる全文書情報に対して探索を行う（ＳＴＥＰ１３）。探索したキーワードが含まれる文書が存在しなかった場合（ＳＴＥＰ１４：ＮＯ）、第２段階の処理を終了する。一方、探索したキーワードが含まれる文書を発見した場合（ＳＴＥＰ１４：ＹＥＳ）、自動分別部１０９に通知を行う（ＳＴＥＰ１５）。

自動分別部１０９では、探索部１０７から該通知を受けた場合（ＳＴＥＰ２９：第２段階、ＳＴＥＰ３０：ＹＥＳ）、該通知の対象となった文書に対して「重要」符号を付与し、処理を終了する（ＳＴＥＰ３１）。探索部１０７から該通知を受けなかった場合（ＳＴＥＰ２９：第２段階、ＳＴＥＰ３０：ＮＯ）、何も処理を行わない。

＜第３段階＞
第３段階におけるデータベース２００、探索部１０７、スコア算出部１０８及び自動分別部１０９の処理フローを、図６、図７、図８及び図９を用いて、詳細に説明する。

データベース２００で何段階目の処理を行うかを判断し、第３段階の処理を選択する（ＳＴＥＰ１：第３段階）。データベース２００において、更に事前に登録しておく必要のある関連用語がある場合（ＳＴＥＰ７：ＹＥＳ）、追加の登録を行う（ＳＴＥＰ８）。関連用語の追加登録が必要ない場合（ＳＴＥＰ７：ＮＯ）、第３段階の処理を終了する。

ＳＴＥＰ８の処理完了後、探索部１０７で何段階目の処理を行うかを判断し、第３段階の処理を選択する（ＳＴＥＰ１１：第３段階）。本段階で、探索部１０７は、データベース２００内に第１段階及び第２段階で登録された関連用語があるか判定を行う（ＳＴＥＰ１６）。事前に登録されたキーワードが存在しない場合（ＳＴＥＰ１６：ＮＯ）、第３段階の処理は終了する。

関連用語が存在する場合（ＳＴＥＰ１６：ＹＥＳ）、分別対象となる文書情報の中に該関連用語を含む文書がないか、分別対象となる全文書情報に対して探索を行う（ＳＴＥＰ１７）。探索したキーワードが含まれる文書が存在しなかった場合（ＳＴＥＰ１８：ＮＯ）、第３段階の処理を終了する。一方、探索した関連用語を含む文書を発見した場合（ＳＴＥＰ１８：ＹＥＳ）、スコア算出部１０８に通知を行う（ＳＴＥＰ１９）。

スコア算出部１０８では、探索部１０７から該通知を受けた場合（ＳＴＥＰ２４：第３段階、ＳＴＥＰ２５：ＹＥＳ）、上述の式（１１）を用いて、文書中から発見した関連用語の種類と該関連用語が持つ重みづけから各文書のスコアを算出し、自動分別部１０９に通知を行う（ＳＴＥＰ２６）。探索部１０７から関連用語を発見した通知を受けなかった場合（ＳＴＥＰ２４：第３段階、ＳＴＥＰ２５：ＮＯ）、第３段階の処理を終了する。

自動分別部１０９では、スコア算出部１０８からスコアの通知を受けた場合、（ＳＴＥＰ２９：第３段階、ＳＴＥＰ３２：ＹＥＳ）、スコアが閾値を超過したかの判定を文書ごと行い、スコアが閾値を超過した文書には「重要」符号を付与し、スコアが閾値を超過した文書がなかった場合は付与せずに処理を終了する（ＳＴＥＰ３３）。

＜第４段階＞
第４段階におけるデータベース２００、探索部１０７、スコア算出部１０８、自動分別部１０９、サイズ推定部１０１、抽出部１０２、表示制御部１０３、分別符号受付部１０４、選定部１０６、エンドポイント算出部１１０の処理フローを、それぞれ図６〜図１６を用いて、詳細に説明する。

第４段階では、まず、サイズ推定部１０１が、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるように、全文書情報から抽出する文書の割合、すなわちサンプルサイズを推定する（ＳＴＥＰ３４）。次に、抽出部１０２において、分別対象となる文書情報から、サイズ推定部１０１により推定されたサンプルサイズ分だけランダムに文書をサンプリングし、レビュワーが手動で分別符号を付与する対象となる文書群を抽出する（ＳＴＥＰ３５）。表示制御部１０３において、抽出された文書群を、文書表示画面Ｉ１上に表示する（ＳＴＥＰ３６）。

レビュワーは文書表示画面Ｉ１に表示された文書群に対し、各文書の内容を読んだ上で、製品Ａと該文書の内容との間に関連性があるかどうかを判断し、「重要」符号を付与するかどうかを決定する。レビュワーが「重要」符号を付与する文書とは、例えば、製品Ａの先行技術を調査した結果の報告書や、製品Ａの製造は特許侵害であると他者から警告された警告状等である。

レビュワーによって付与された分別符号は、分別符号受付部１０４によって受け付けられ（ＳＴＥＰ３７）、付与された分別符号に応じて文書が分類される（ＳＴＥＰ３８）。文書数推定部１０５は、分別符号受付部１０４で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定する（ＳＴＥＰ３９）。なお、推定した文書数をクライアント装置３００に表示してもよい。

選定部１０６では、ＳＴＥＰ３８で分類された各文書に対し、キーワード解析を行い（ＳＴＥＰ４０）、「重要」符号を付与された文書に共通して出現回数の多いキーワードを選定する（ＳＴＥＰ４１）。

次に、データベース２００では、ＳＴＥＰ４１で選定部１０６が選定したキーワードが、製品Ａと関係があることを示す「重要」符号に関するキーワードとして未登録であった場合（ＳＴＥＰ１：第４段階、ＳＴＥＰ９：ＹＥＳ）、該キーワードの登録を行う。該キーワードが既に登録されていた場合、何も処理を行わない（ＳＴＥＰ１：第４段階、ＳＴＥＰ９：ＮＯ）。

探索部１０７では、「重要」符号に関するキーワードがデータベース２００に登録されていなかった場合（ＳＴＥＰ２０：ＮＯ）、第４段階の処理を終了する。該キーワードが登録されている場合（ＳＴＥＰ２０：ＹＥＳ）、抽出部１０２において抽出されレビュワーによって分類された文書を探索対象から省き、残りの各文書を対象として、該キーワードの探索を実行する（ＳＴＥＰ２１）。該探索において、文書中にキーワードを発見した場合（ＳＴＥＰ２２：ＹＥＳ）、スコア算出部１０８に通知を行う（ＳＴＥＰ２３）。

スコア算出部１０８では、キーワード発見の通知を受けた場合（ＳＴＥＰ２７：ＹＥＳ）、上述の式（１１）を用いて各文書についてスコアを算出し、自動分別部１０９に通知する（ＳＴＥＰ２８）。

自動分別部１０９では、スコア算出部１０８から通知を受けると（ＳＴＥＰ３２：ＹＥＳ）、文書ごとにスコアが閾値を超過したかの判定を行い、閾値を超過した文書には「重要」符号を付与し、超過しなかった文書には付与せずに処理を終了する（ＳＴＥＰ３３）。また、エンドポイント算出部１１０は、自動分別部１０９により分別された文書情報の分別結果をレビュワーが確認レビューする際に必要な文書数（エンドポイント）を算出する（ＳＴＥＰ４２）。

＜第５段階＞
第５段階での文書排除部１１１及び学習部１１２における処理フローを、それぞれ図１７及び図１８を用いて説明する。

文書排除部１１１において、分別対象となる文書情報のうち、第１から第４段階の処理が未実施の文書群に対して、第１、第２段階において事前に登録されたキーワード、第１、第３段階において登録された関連用語及び第４段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合（ＳＴＥＰ４３：ＹＥＳ）、該文書を分別対象から事前に排除する（ＳＴＥＰ４４）。

学習部１１２では、第１から第４の処理結果をもとに、各キーワードの重みづけを式（１２）により学習する。該学習結果をデータベース２００に反映する（ＳＴＥＰ４５）。

[実施形態の変形例]
本発明の実施形態の変形例を説明する。

第１の実施形態では、表示制御部１０３は、クライアント装置３００に対して、図１９に示されるような文書表示画面Ｉ１を提示しているが、図２０〜２２に示すように、「Document Sum」、「Relevant Recall」、「Relevant」をクライアント装置３００に対して表示するようにしてもよい。

図２０〜図２２では、縦軸が％、横軸がスコアとなっている。また、「Document Sum」、「Relevant Recall」、「Relevant」の各々ついて、レビュワーによるサンプルの分別結果を点線で、自動分別部１０９による分別結果を実線で各々示している。さらに、図２０〜図２２の各図の右下に、「Indication of review progress and quantity」（レビューの進捗状況と量（文書数））を表示するようにしてもよい（右下の帯グラフを参照）。

図２０に示す「Document Sum」の縦軸の値（％）は、分母が全文書数であり、分子が1〜10000のスコアの値をシステムパラメータの設定値の間隔で分け、その分けたスコア範囲に該当する分母の文書数をスコアの高い順に累計した数である。

図２１に示す「Relevant Recall」の縦軸の値（％）は、分母が全文書数のうちRelevantのタグが付けられた文書数であり、分子が、分母の文書のうちRelevant（訴訟に関連性があり提出が必要と認められる文書）のタグが付けられた文書数である。

図２２に示す「Relevant」の縦軸の値（％）は、分母が、1〜10000のスコアの値をシステムパラメータの設定値の間隔で分け、その分けたスコア範囲に該当する文書数であり、分子が、分母の文書のうちRelevant（関連性あり）のタグが付けられた文書数である。

なお、「Indication of review progress and quantity」の帯グラフを「Document Sum」、「Relevant Recall」、「Relevant」とは別画面で表示するようにしてもよい。また、図２０〜２２では、「Document Sum」、「Relevant Recall」、「Relevant」を個別に表示しているが、図２３に示すように全てを表示するようにしてもよい。なお、図２３の点線及び実線は、図２０〜図２２の点線及び実線と同じ意である。

さらに、ユーザが「Document Sum」、「Relevant Recall」、「Relevant」のいずれか、または複数を選択してクライアント装置３００の画面上に表示できるように構成してもよい。「Document Sum」、「Relevant Recall」、「Relevant」を同時に視認できるので利便性が向上する。

なお、上記図２０〜図２２の点線（サンプルの分別結果）と実線（自動分別部１０９による分別結果）の確からしさ（双方の分別結果がどれだけ一致（類似もしくは近似しているか）は、「Chi-squared test」、「Similarity」、「RMSE」等により評価することができる。

「Chi-squared test」（カイ二乗検定）
基本的な統計的評価手法であり、サンプル数が少なくとも、類似性の判断が可能である。

「Similarity」（類似度）
「Similarity」は、２つの関数の内積であり、以下の（１３）式で表される。

ここで、
ｙ_ｓｉは、ｉ番目のサンプルのｙ値（Recall）である。
ｙ_ｄｉは、（全文書中の）ｉ番目の文書のｙ値（Recall）である。
ｎは、サンプルにおけるデータポイントの番号である。

Recallは、規格化順位(normalized rank)」の関数であり、このケースでは、２つの関数（Recall及びnormalized rank）の類似度は、サンプル中のすべてのデータの内積を用いて与えられる。

「RMSE」（二乗平均平方根誤差）
「RMSE」は、以下の（１４）式で表される。

「RMSE」は、相関関係のない平均誤りを示している。しかしながら、この誤差は、サンプル及び全文書のデータ間がどれだけ近い（類似しているか）を示す指標となる。

[その他の実施形態]
本発明のその他の実施形態を説明する。

第１の実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。

また、第１の実施形態において、レビュワーの分別した規則性を踏まえて自動で分別符号を付与する第４段階の処理を、第１段階乃至第３段階の処理の後に実施していたが、第１段階乃至第３段階の処理を行わず、第４段階の処理のみを単独で行ってもよい。

さらに、抽出部１０２によって、文書情報から一部の文書群を抽出し、該抽出した文書群に対して、まず第４段階の処理を最初に行う。その後、第４段階で登録したキーワードを基に第１段階乃至第３段階の処理を行うという実施形態をとってもよい。

探索部１０７において、第１の実施形態の第４段階では、分別符号受付部１０４において、分別符号が受け付けなかった文書に対して選定部１０６が選定したキーワードの探索を実施していたが、全文書情報を対象として該キーワードの探索を行ってもよい。

自動分別部１０９において、第１の実施形態の第４段階では、分別符号受付部１０４において、分別符号が受け付けなかった文書のみを分別符号の自動付与の対象としていたが、全文書情報を該自動付与の対象としてもよい。

本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定し、この推定されたサイズの文書群を文書情報から抽出して、ユーザが訴訟との関連性に基づいて分別符号を付与しているのでレビュワーの分別作業の労力の軽減を図ることができる。

また、分別符号受付部で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定するので、どの程度の文書が訴訟に関連するかを容易に把握することができる。

さらに、自動分別部により分別された文書情報の分別結果をユーザ（レビュワー）が確認レビューする際に必要な文書数を算出しているので、不必要に多くの文書数を確認レビューする必要がない。このため、レビュワーの分別作業の労力の軽減を図ることができる。

また、本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。

また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。

１００文書分別装置
１０１サイズ推定部
１０２抽出部
１０３表示制御部
１０４分別符号受付部
１０５文書数推定部
１０６選定部
１０７探索部
１０８スコア算出部
１０９自動分別部
１１０エンドポイント算出部
１１１文書排除部
１１２学習部
２００データベース
３００クライアント装置

Claims

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、
前記文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、
前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、
前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、
前記選定したキーワードを前記文書情報から探索する探索部と、
前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、
前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与する自動分別部と、
前記スコア算出部の算出結果及び／又は前記自動分別部の分別結果を画面に表示するよう制御する表示制御部と、
前記自動分別部により分別された文書情報の分別結果を前記ユーザが再確認する際に必要な文書数を算出し、前記自動分別部により前記訴訟に関連するとされた文書と前記スコア算出部により算出されたスコアとの関係に基づいて、前記再確認に必要な文書数を算出し、前記文書情報のうち前記訴訟に関連する文書のうち、前記自動分別部により前記訴訟に関連するとされた文書の割合である再現率と、前記スコア算出部により算出されたスコアの順位を前記文書情報に含まれる文書数で除算した規格化順位との関係に基づいて、前記再確認に必要な文書数を算出する文書数算出部とを備えることを特徴とする文書分別システム。
前記表示制御部は、
前記スコア算出部により算出されるスコアを複数の範囲に分け、前記複数の範囲の各範囲に含まれる文書数をスコアの高い順に累計した数を表示することを特徴とする請求項１記載の文書分別システム。
前記表示制御部は、
全文書数のうち前記訴訟に関連性がある文書の割合を表示することを特徴とする請求項１又は請求項２記載の文書分別システム。
前記表示制御部は、
前記スコア算出部により算出されるスコアを複数の範囲に分け、前記複数の範囲の各範囲について、前記訴訟に関連性がある文書数の割合を表示することを特徴とする請求項１乃至請求項３のいずれか記載の文書分別システム。
前記文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定するサイズ推定部をさらに備え、
前記抽出部は、前記サイズ推定部により推定されたサイズの文書群を前記文書情報から抽出することを特徴とする請求項１乃至請求項４のいずれか記載の文書分別システム。
前記分別符号受付部で受け付けられた前記文書群の分別結果に基づいて、前記文書情報に含まれる前記訴訟に関連する文書の数を推定する文書数推定部をさらに備えることを特徴とする請求項１乃至請求項５のいずれか記載の文書分別システム。
前記文書数推定部は、
前記抽出された文書群に対する、前記分別により前記訴訟に関連するとされた文書数の割合に基づいて、前記文書情報に含まれる前記訴訟に関連する文書の数を推定することを特徴とする請求項６記載の文書分別システム。
前記再現率と前記規格化順位との関係は、非線形回帰分析により算出されることを特徴とする請求項１乃至請求項７記載の文書分別システム。
前記非線形回帰分析により算出された前記再現率と前記規格化順位との関係において、前記規格化順位の値を大きくしていった際に、前記再現率の値が飽和する前記規格化順位の値に基づいて、前記再確認に必要な文書数を算出することを特徴とする請求項８記載の文書分別システム。
前記表示制御部は、
前記文書数算出部により算出された前記ユーザが再確認する際に必要な文書数を前記画面上に表示することを特徴とする請求項８又は請求項９記載の文書分別システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別方法において、
前記文書情報から所定数の文書を含むデータセットである文書群を抽出し、
前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、
前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、
前記選定したキーワードを前記文書情報から探索し、
前記探索された探索結果と前記選定された解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、
前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与し、
前記スコアの結果及び／又は前記自動分別の分別結果を画面に表示するよう制御し、
前記自動で分別符号を付与するに際し、分別された文書情報の分別結果を前記ユーザが再確認する際に必要な文書数を算出し、前記訴訟に関連するとされた文書と前記算出されたスコアとの関係に基づいて、前記再確認に必要な文書数を算出し、前記文書情報のうち前記訴訟に関連する文書のうち、前記自動分別部により前記訴訟に関連するとされた文書の割合である再現率と、前記算出されたスコアの順位を前記文書情報に含まれる文書数で除算した規格化順位との関係に基づいて、前記再確認に必要な文書数を算出する文書分別方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、
コンピュータに、
前記文書情報から所定数の文書を含むデータセットである文書群を抽出する機能と、
前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける機能と、
前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する機能と、
前記選定したキーワードを前記文書情報から探索する機能と、
前記探索された探索結果と前記選定された解析結果を用いて、分別符号と文書との関連性を示すスコアを算出する機能と、
前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与する機能と、
前記スコアの結果及び／又は前記自動分別の分別結果を画面に表示するよう制御する機能と、
前記自動で分別符号を付与するに際し、分別された文書情報の分別結果を前記ユーザが再確認する際に必要な文書数を算出し、前記訴訟に関連するとされた文書と前記算出されたスコアとの関係に基づいて、前記再確認に必要な文書数を算出し、前記文書情報のうち前記訴訟に関連する文書のうち、前記自動分別部により前記訴訟に関連するとされた文書の割合である再現率と、前記算出されたスコアの順位を前記文書情報に含まれる文書数で除算した規格化順位との関係に基づいて、前記再確認に必要な文書数を算出する機能とを実行させる文書分別プログラム。