JP5990562B2

JP5990562B2 - 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム

Info

Publication number: JP5990562B2
Application number: JP2014253818A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 秀樹武田; 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2016-09-14
Anticipated expiration: 2033-09-06
Also published as: JP2015084244A

Description

本発明は、文書調査システム、文書調査方法、及び文書調査プログラムに関するものであって、特に、訴訟案件又は不正調査案件に応じて文書の分別及び調査を行うための事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムに関する。

従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、利用者情報に含まれる少なくとも１人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報

しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。

このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。

そこで、本発明は、上記事情に鑑み、訴訟案件又は不正調査案件に応じて的確で信頼性のある調査を行うとともに、当該文書情報の分別及び調査作業の負担を軽減する事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムを提供することを目的とするものである。

本発明の事前情報を提供する文書調査システムが、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査システムにおいて、訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録する調査結果解析部と、新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデルの出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する事前情報構成部を備える。

本発明の事前情報を提供する文書調査方法が、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査方法において、コンピュータが、訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録し、新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する。

本発明の事前情報を提供する文書調査プログラムが、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査プログラムにおいて、コンピュータに、訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録する機能と、新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する機能を実現する。

本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムの理解を容易にするために、特有な用語について以下に記載する。
「案件調査結果関連情報」とは、分別又は調査が行われた案件毎に収集される案件種別、調査種別、又は言語種別を特定する情報、調査対象ドキュメントの書誌情報、調査対象ドキュメントの統計情報、レビュー関連情報（プロトコル等）、レビュー結果情報、プレディクティブコーディング（ＰＣ）パラメータ及び結果情報、又はフィードバック情報の組み合わせをいう。

「調査モデル」とは、調査対象における典型的な特徴的行為（不正行為、準不正行為、及び危険行為）を示すモデルである。モデルは複数あって、調査種別等に応じて適宜選択されても良い。
「調査モデルパラメータ」とは、「調査モデル」を規定する調査モデル内部のパラメータである。「新たな案件」に関する情報が登録される際に、「共通の情報要素」が抽出されるが、「調査モデルパラメータ」はこの「共通の情報要素」に関連する情報に基づいて決定（追加、削除、又は更新）される。

「調査モデル出力」とは、新たな案件に対して登録された調査モデルパラメータから新たな案件に適合する調査モデルパラメータが抽出され、新たな案件の所定の割合の文書が、抽出された調査モデルパラメータによって規定される調査モデルによって解析されることをいう。

本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにより、訴訟案件又は不正調査案件に応じて、案件に関連して蓄積された情報を事前に収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより、訴訟案件又は不正調査案件に応じて的確で信頼性を有する分別及び調査を実施するとともに、当該文書情報の分別作業及び調査作業の負担を軽減することが可能となる。

本発明の実施形態に係る文書調査システムの構成図本発明の実施形態に係る文書調査方法における処理の流れを示すチャート実施形態における段階ごとの処理の流れを示したチャート実施形態におけるキーワードデータベースの処理フローを示すチャート本実施形態における関連用語データベースの処理フローを示したチャート本実施形態における第１自動分別部の処理フローを示したチャート本実施形態における第２自動分別部の処理フローを示したチャート本実施形態における分別符号受付付与部の処理フローを示したチャート本実施形態における文書解析部の処理フローを示したチャート本実施形態における文書解析部での解析結果を示したグラフ本実施形態の１実施例における第３自動分別部の処理フローを示したチャート本実施形態の他の実施例における第３自動分別部の処理フローを示したチャート本実施形態における品質検査部の処理フローを示したチャート本実施形態における文書表示画面

［本発明の実施形態］
本発明の実施形態に係る文書調査システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするものである。
図１は、本発明の本発明の実施形態に係る文書調査システムの構成を示す。図１を参照して、本発明の実施形態に係る文書調査システムの構成について以下に記載する。

実施形態に係る文書調査システム１は、情報及びデータを格納するデータ格納部１００を有する。該データ格納部１００は、訴訟又は不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報をデジタル情報格納領域１０１に格納する。
そして、データ格納部１００は、案件毎の分別及び調査結果に関連する案件調査結果関連情報及び解析結果を格納する調査結果データベース１０３と、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース１０４と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース１０５と、文書と分別符号との結びつきの強さを示すスコアを算出するために該文書に含まれるワードの重みづけを登録するスコア算出データベース１０６とを格納する。更に、データ格納部１００は、案件毎に作成されるプレディクティブコーディングに関する情報を登録する事前情報構成データベース１０７を格納する。このデータ格納部１００は、図１に示されるように、文書調査システム１内に設置されても良く、別個のストレージ装置として文書調査システム１の外部に設置されても良い。

本発明の実施形態に係る文書調査システム１は、調査結果データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、及び事前情報構成データベース１０７のデータ内容の更新を管理するデータベース管理部１０９を備える。情報格納装置９０２に記憶されるデータの内容を、専用接続線又はインターネット回線９０１を経由してデジタル情報格納領域１０１に転送し取り込んでも良い。そして、データベース管理部１０９は、情報格納装置９０２からデジタル情報格納領域１０１に転送された情報に基づいて、調査結果データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、及び事前情報構成データベース１０７のデータ内容を更新しても良い。

本発明の実施形態に係る文書調査システム１は、文書情報から複数の文書を抽出する文書抽出部１１２と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部１１４と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部１１６とを備える。

本発明の実施形態に係る文書調査システム１は、ワード検索部１１４により前記キーワードデータベース１０４に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第１自動分別部２０１と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第２自動分別部３０１を有する。

更に、実施形態に係る文書調査システム１は、文書情報から抽出された複数の文書を画面上に表示する文書表示部１３０と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部１３１と、分別符号受付付与部１３１により分別符号を付与された文書を解析する文書解析部１１８と、文書情報から抽出された複数の文書に対して、前記分別符号受付付与部１３１により分別符号を付与された文書を文書解析部１１８により解析した解析結果に基づいて、分別符号を自動的に付与する第３自動分別部４０１を備える。

また、本発明の実施形態に係る文書調査システム１は、訴訟又は不正調査案件に関連する情報を収集及び解析する調査結果解析部８０１と、案件調査結果関連情報の解析結果から事前情報を構成する事前情報構成部１２０を備える。

調査結果解析部８０１は、訴訟又は不正調査案件に関して、案件毎に案件種別、調査種別、言語種別、分別作業結果、予測分別作業結果を含む案件調査結果関連情報を収集及び解析する。次に、調査結果解析部８０１は、調査結果関連情報の解析結果に基づいて、訴訟又は不正調査案件に関して調査するための調査モデルと調査モデルパラメータを作成又は更新する。そして、調査結果解析部８０１は、案件調査結果関連情報、前記案件調査結果関連情報の解析結果、前記調査モデル、及び前記調査モデルパラメータを調査結果データベース１０３に登録する。

事前情報構成部１２０は、新たな調査案件の調査内容を特定する入力情報を受け付けると、調査結果データベース１０３を検索して、入力情報に関連して調査結果データベース１０３から調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成する。事前情報構成部１２０は、新たな調査案件、調査モデルモデルパラメータ、調査モデル出力結果、及び事前情報を事前情報構成データベース１０７に登録しても良い。

実施形態に係る文書調査システム１では、事前情報構成部１２０から事前情報が発行及び出力されると、事前情報により設定された分別及び調査条件に従って、第１自動分別部２０１、第２自動分別部３０１、及び第３自動分別部４０１が抽出文書情報を分別する。

また、本発明の実施形態に係る文書調査システム１は、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部１２２を備えても良い。翻訳部１２２は、１文多言語の複合言語にも対応できるように、言語の区切りを１文より小さくしても良い。また、言語の判定に、言語判定のためのプレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、ＨＴＭＬのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。

また、本発明の実施形態に係る文書調査システム１は、文書解析部１１８による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部１２４を備えても良い。

また、本発明の実施形態に係る文書調査システム１は、分別符号受付付与部１３１が受け付けた分別符号と文書解析部１１８において傾向情報により付与された分別符号を比較し、分別符号受付付与部１３１が受け付けた分別符号の妥当性を検証する品質検査部５０１を備えても良い。
更に、本発明の実施形態に係る文書調査システムは、文書分別処理又は予測文書分別処理の結果をもとに、各キーワード又は関連用語の重みづけを学習する学習部６０１を備えても良い。

本発明の実施形態に係る文書調査システム１は、文書分別処理の結果をもとに、訴訟案件又は不正調査の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部７０１を備える。訴訟案件には、例えば、反トラスト（カルテル）、特許、海外賄賂禁止（ＦＣＰＡ）、又は製造物責任（ＰＬ）が含まれる。また、不正調査には、例えば、情報漏洩、架空請求が含まれる。

本発明の実施形態に係る文書調査システム１は、分別調査と報告の質を向上し、分別調査と報告の責任を明確にするために、主任弁護士又は主任弁理士のレビューを受け付ける弁護士レビュー受付部１３３を備える。

本発明の実施形態に係る文書調査システムの理解を容易とするために、実施形態に特有な用語について以下に記載する。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。

「文書」とは、１つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。

「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。実施形態においては、「侵害」や「訴訟」、「特許公報〇〇号」といったキーワードが重点的に選定される。
本実施形態においては、キーワードには形態素が含まれるものとする。

また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。

「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。

また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。

「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品Ａ」という分別符号が製品Ａの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。

「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式（１）を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。

また、本発明の文書調査システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部１３１により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。

ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

図２は、本発明の実施形態に係る文書調査方法のフローチャートを示す。図２を参照して、本発明の実施形態に係る文書調査方法について以下に記載する。
案件調査結果関連情報を解析し、案件調査結果関連情報と案件調査結果関連情報の解析結果をデータベースに登録する（ＳＴＥＰ１）。
モデルとモデルパラメータを作成、追加、削除、及び更新し、当該モデルとモデルパラメータをデータベースに登録する（ＳＴＥＰ２）。
案件種別・調査種別等、案件や調査内容を特定する入力情報に関連して、データベースを検索して、調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、モデル出力を行い、モデル出力結果から事前情報を構成する（ＳＴＥＰ３）。構成された事前情報をデータベースに登録して利用しても良い。
事前情報に基づいて検索ワードを含む調査条件を設定し、抽出デジタル文書情報を分別及び調査する（ＳＴＥＰ４）。
分別及び調査結果に関連する案件調査結果関連情報を収集する（ＳＴＥＰ５）
そして、新規案件について案件調査結果関連情報を解析し、予測分別を行う場合には案件毎にＳＴＥＰ１からＳＴＥＰ５の処理を繰り返す。

本発明の実施形態に係る文書調査方法では、種々の案件に関する案件調査結果関連情報等の分析結果を事前情報構成データベースに蓄積する。蓄積された案件調査結果関連情報等の分析結果から、新規案件に対して様々な事前情報を提供することができる。
すなわち、本発明の実施形態に係る文書調査方法では、蓄積した案件の分別及び調査の解析結果を情報源として、特定の調査モデルに基づき、事前予測情報を構成して出力することにより、提供された事前情報に基づいて文書の分別及び調査を可能とする。
なお、蓄積した分別及び調査の解析結果を情報源として、特定の調査モデルを規定する調査モデルパラメータを更新、修正することもできる。

本発明の実施形態に係る文書調査方法の基本的な処理について以下に要約して記載する。
すなわち、本発明の実施形態に係る文書調査方法では、案件調査結果関連情報を収集し、データベースに登録する。
案件調査結果関連情報をデータベースから読み出して、調査モデルと調査モデルのパラメータを適宜更新、修正する。
新規案件の調査内容を特定する入力情報に対し、調査モデルを構成し、調査モデルに基づいて事前情報を提供する。これにより、新規案件に対して分別及び調査処理を的確に行い、分別及び調査に対する信頼性を向上する利益を得ることができる。

案件調査結果関連情報の解析処理（図２のＳＴＥＰ１）を、以下のＳＴＥＰ１１からＳＴＥＰ１５の処理に分解してより詳細に記載する。
案件調査結果関連情報を収集する（ＳＴＥＰ１１）。
案件調査結果関連情報には、例えば、案件種別、調査種別、言語種別、調査対象ドキュメントの書誌情報、統計情報、レビュー関連情報（プロトコル等）、レビュー結果情報、プレディクティブコーディング（ＰＣ）パラメータ・結果情報、フィードバック情報が含まれる。

案件調査結果関連情報をカテゴライズ、すなわち分類する（ＳＴＥＰ１２）。
案件調査結果関連情報は案件種別、調査種別等に基づいて分類される。プレディクティブコーディング（ＰＣ）の結果情報（形態素分析等の分析結果情報）等については階層化されて分類される。
既存情報（当該装置が既に格納している諸情報）との関連性を調べる（ＳＴＥＰ１３）。
関連性は、例えば、同一・類似の案件種別、調査種別の情報間でチェックされる。

関連性がチェックされた後に、チェックされた関連性に従って、既存情報と関連情報とにおける共通の情報要素を抽出する（ＳＴＥＰ１４）。
共通の情報要素には、例えば、共通する形態素、メタデータが含まれる。
上述の共通情報要素に関連する諸情報を追加、削除、又は更新する（ＳＴＥＰ１５）。
共通情報要素に関連する諸情報には例えば、形態素の重みパラメータ等が含まれる。

調査モデルと調査モデルパラメータを作成、追加、削除、及び更新し、並びに登録する処理（図２のＳＴＥＰ２）を、以下のＳＴＥＰ２１からＳＴＥＰ２３の処理に分解してより詳細に記載する。
共通情報要素に関連する諸情報を読み出す（ＳＴＥＰ２１）。
上述の諸情報を処理し、モデルパラメータに関連する情報を生成する（ＳＴＥＰ２２）。
上述の調査モデルパラメータに関連する情報に基づいて、調査モデルパラメータを追加、削除、更新する（ＳＴＥＰ２３）。
上述の調査モデルと調査モデルパラメータに関する情報は、データベースに登録する。

事前情報を構成する処理（図２のＳＴＥＰ３）を、以下のＳＴＥＰ３１からＳＴＥＰ３５の処理に分解してより詳細に記載する。
入力情報を収集する（ＳＴＥＰ３１）。
入力情報とは、案件種別・調査種別等、案件や調査内容を具体的に特定する情報である。また、入力情報は具体的な案件の識別情報等でも良い。

入力情報に関連する既存情報（当該装置が既に格納している諸情報）を抽出する（ＳＴＥＰ３２）。
上述のＳＴＥＰ３２の処理は、案件調査結果関連情報の解析処理のステップＳＴＥＰ１３やＳＴＥＰ１４に準じて行っても良く、又は別の関連性に基づいて行っても良い。

上述の既存情報に関連する調査モデルパラメータを抽出する（ＳＴＥＰ３３）。
例えば、特定の調査種別に関する調査モデルの適切なパラメータを決定しても良い。調査モデルは複数あって、調査種別等に応じて適宜選択されてもよい。

上述の調査モデルパラメータを用いて、モデルに基づいてモデル出力結果を計算する（ＳＴＥＰ３４）。
例えば、特定の種別に関して、データベースＤＢが蓄積した情報から、典型的な特徴的行為（不正行為、準不正行為、危険行為）を示す内容を調査モデルから導出する。

上述の調査モデル出力結果に基づいて、事前情報を構成する（ＳＴＥＰ３５）。
事前情報とは、入力情報に対応した予測情報（不正行為等のパターン等）である。
事前情報を構成した後に、事前情報に基づいて分別及び調査を進める。

本発明の実施形態において、事前情報に関する情報はプレディクティブコーディングにおいて使用するので、事前情報構成データベースに格納しても良い。

本発明の実施形態では、図３に示すフローチャートに従い、第１段階〜第５段階で、登録処理、分別処理、及び検査処理を行う。

第１段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う（ＳＴＥＰ１００）。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。

第２段階では、第１段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第１分別処理を行う（ＳＴＥＰ２００）。

第３段階では、第１段階で更新登録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第２分別処理を行う（ＳＴＥＰ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第３分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（ＳＴＥＰ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（ＳＴＥＰ５００）。また、必要に応じて、文書分別処理の結果に基づいて学習処理を行っても良い。

第４段階及び第５段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

第１段階から第５段階の各段階における詳細な処理フローを以下で説明する。
＜第１段階（ＳＴＥＰ１００）＞
第１段階におけるキーワードデータベース１０４の詳細な処理フローを図４を用いて説明する。

キーワードデータベース１０４は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（ＳＴＥＰ１１１）。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する（ＳＴＥＰ１１２）。そして、特定されたキーワードをキーワードデータベース１０４に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース１０４の分別符号「重要」の管理テーブルに記録する（ＳＴＥＰ１１３）。

次に、関連用語データベース１０５の詳細な処理フローを図５を用いて説明する。関連用語データベース１０５は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する（ＳＴＥＰ１２１）。本発明の実施形態においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を登録する。

登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（ＳＴＥＰ１２２）、各管理テーブルに記録する（ＳＴＥＰ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する（ＳＴＥＰ１１３、ＳＴＥＰ１２３）。

＜第２段階（ＳＴＥＰ２００）＞
第２段階における第１自動分別部２０１の詳細な処理フローを、図６を用いて説明する。本発明の実施形態において、第２段階では、第１自動分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１自動分別部２０１では、第１段階（ＳＴＥＰ１００）でキーワードデータベース１０４に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（ＳＴＥＰ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、（ＳＴＥＰ２１２）、「重要」という分別符号を付与する（ＳＴＥＰ２１３）。

＜第３段階（ＳＴＥＰ３００＞
第３段階における第２自動分別部３０１の詳細な処理フローを、図７を用いて説明する。
本発明の実施形態において、第２自動分別部３０１では、第２段階（ＳＴＥＰ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２自動分別部３０１は、該文書情報から、第１段階で関連用語データベース１０５に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（ＳＴＥＰ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）を用いて、スコア算出部１１６によりスコアを算出する（ＳＴＥＰ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（ＳＴＥＰ３１３）、適切な分別符号を付与する（ＳＴＥＰ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２自動分別部３０１では、第４段階のＳＴＥＰ４３２において算出されるスコアを用いて以下に示す式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う（ＳＴＥＰ３１５）。

例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（ＳＴＥＰ４００）＞
第４段階では、図８に示すように、第３段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図９に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第４段階では、例えば、「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。第４段階について、更に以下に記載する。

第４段階における分別符号受付付与部１３１の詳細な処理フローを、図８を用いて説明する。第４段階での処理対象となる文書情報からまず文書抽出部１１２が、ランダムに文書をサンプリングし、文書表示部１３０上で表示する。本発明の実施形態では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは文書表示部１３０上に表示される図１４に示す表示用画面１１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部１３１は、該ユーザが選択した分別符号を受け付け（ＳＴＥＰ４１１）、付与された分別符号に基づいて分別する（ＳＴＥＰ４１２）。

次に、文書解析部１１８の詳細な処理フローを、図９を用いて説明する。文書解析部１１８では、分別符号受付付与部１３１で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（ＳＴＥＰ４２１）。抽出した共通の単語の評価値を式（２）により解析し（ＳＴＥＰ４２２）、該共通の単語の文書中の出現頻度を解析する（ＳＴＥＰ４２３）。

さらに、ＳＴＥＰ４２２及びＳＴＥＰ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（ＳＴＥＰ４２４）。
図１０は、ＳＴＥＰ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１０において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部１３１によってＳＴＥＰ４２１で抽出された単語を含む文書の割合を示している。

本発明の実施形態において、分別符号受付付与部１３１では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

ＳＴＥＰ４２１乃至ＳＴＥＰ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、第３自動分別部４０１の詳細な処理フローを、図１１を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第３自動分別部４０１では、このような文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４３１）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４３２）。また、ＳＴＥＰ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４３３）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。

更に、第３自動分別部４０１の詳細な処理フローの１例を、図１２を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第３自動分別部４０１では、引数が与えられなかった場合には（ＳＴＥＰ４４１：なし）、該文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４４３）。また、ＳＴＥＰ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４４４）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

上述のように第２自動分別部３０１と第３自動分別部４０１の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース１０６に一括して格納しても良い。

＜第５段階（ＳＴＥＰ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図１３を用いて説明する。品質検査部５０１では、分別符号受付付与部１３１が、ＳＴＥＰ４１１で受け付けた文書に対して、文書解析部１１８がＳＴＥＰ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（ＳＴＥＰ５１１）。
分別符号受付付与部１３１が受け付けた分別符号とＳＴＥＰ５１１で決定した分別符号とを比較し（ＳＴＥＰ５１２）、ＳＴＥＰ４１１で受け付けた分別符号の妥当性を検証する（ＳＴＥＰ５１３）。

本発明の実施形態に係る文書調査システム１は、学習部６０１を備えても良い。学習部６０１では、第１から第４の処理結果をもとに、各キーワード又は関連用語の重みづけを式（２）により学習する。該学習結果をキーワードデータベース１０４、関連用語データベース１０５、又はスコア算出データベース１０６に反映しても良い。

本発明の実施形態に係る文書調査システム１は、文書分別処理の結果をもとに、訴訟案件（例えば、訴訟であればカルテル・特許・FCPA・PLなど）、又は不正調査（例えば、情報漏洩、架空請求など）の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部７０１を備える。
調査種類によって、調査する内容は異なる。
例えば、カルテル案件であれば、
１．競合の担当者がカルテルに関連する意思疎通（価格の調整）を、いつ・どのように取ったか？
２．関係者はどの組織の誰か？がポイントになる。
また、特許侵害であれば、
１．侵害の対象になっている技術と内容が同じか？
２．誰が、いつ、どのような意図をもって（持たずに）侵害したか、もしくはしていないか？といったことがポイントになる。
このように、調査の種類又はカテゴリーにより調査する内容に相違が生じる。
本発明の実施形態では、調査種別と調査内容に相違があっても、調査種別と調査内容に応じて報告を自動的に作成する。

本発明の実施形態の他の実施例について以下に記載する。
本発明の実施形態の他の実施例では、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する方法を用いる。
類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。
本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。
本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。これにより、本発明の実施形態の他の実施例では、これにより、迅速で的確な分別符号の付与を可能とすると共に、分別作業に伴う負担を軽減することができる。

［本発明の実施形態の効果］
本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにおいて、訴訟案件又は不正調査案件に応じて、過去の訴訟案件又は不正調査案件により蓄積して得られた情報を事前情報として収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより訴訟案件又は不正調査案件に応じて的確で信頼性を有する分別及び調査を実施することができる。
また、本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにおいて、訴訟案件又は不正調査案件に応じて、過去の訴訟案件又は不正調査案件により蓄積して得られた情報を事前情報として収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより、当該文書情報の分別作業及び調査作業の負担を軽減することが可能となる。

１文書調査システム
２０１第１自動分別部
３０１第２自動分別部
４０１第３自動分別部
５０１品質検査部
６０１学習部
７０１報告作成部
８０１調査結果解析部
１００データ格納部
１０１デジタル情報格納領域
１０３調査結果データベース
１０４キーワードデータベース
１０５関連用語データベース
１０６スコア算出データベース
１０７事前情報構成データベース
１０９データベース管理部
１１２文書抽出部
１１４ワード検索部
１１６スコア算出部
１１８文書解析部
１２０事前情報構成部
１２２翻訳部
１２４傾向情報生成部
１３０文書表示部
１３１分別符号受付付与部
１３３弁護士レビュー受付部
１１文書表示画面

Claims

新たな調査のための事前情報を提供する文書調査システムであって、
過去の調査に関する関連情報を収集し、
前記収集した関連情報からプレディクティブコーディングにより解析した結果に基づいて、前記過去の調査における特徴的行為を示す調査モデルと、当該調査モデルを規定するパラメータである調査モデルパラメータとを、過去の調査ごとに調査結果データベースに登録し、
前記新たな調査に関する内容を特定可能な入力情報が受け付けられた場合、前記調査結果データベースを検索して、当該入力情報に応じて前記調査結果データベースから前記調査モデルと前記調査モデルパラメータとを抽出し、
前記抽出した調査モデルと前記調査モデルパラメータとを用いて計算されるモデル出力結果から、前記新たな調査を実施するための事前情報を構成することによって、前記新たな調査の負担を軽減する文書調査システム。
前記関連情報は、文書情報を含み、
前記文書調査システムは、
前記文書情報に含まれる文書と、当該文書を分類する際に用いられる識別子との結びつきの強さを示すスコアを算出し、
前記算出したスコアに基づいて前記調査モデルと前記調査モデルパラメータとを、過去の調査ごとに前記調査結果データベースに登録する
請求項１に記載の文書調査システム。
前記文書調査システムは、
新たに収集した関連情報と既存情報との関連性にしたがって当該関連情報と既存情報とに共通する情報要素を抽出し、
前記調査モデルパラメータを前記情報要素に基づいて変更する
請求項１または２に記載の文書調査システム。
前記文書調査システムは、
前記抽出した調査モデルを規定する調査モデルパラメータを用いて、特徴的行為を示す内容を前記モデル出力結果として当該調査モデルから導出し、
前記導出した結果を前記事前情報として提供する
請求項１〜３のいずれか１項に記載の文書調査システム。
新たな調査のための事前情報を提供する文書調査プログラムであって、
コンピュータに、
過去の調査に関する関連情報を収集させ、
前記収集した関連情報からプレディクティブコーディングにより解析した結果に基づいて、前記過去の調査における特徴的行為を示す調査モデルと、当該調査モデルを規定するパラメータである調査モデルパラメータとを、過去の調査ごとに調査結果データベースに登録させ、
前記新たな調査に関する内容を特定可能な入力情報が受け付けられた場合、前記調査結果データベースを検索して、当該入力情報に応じて前記調査結果データベースから前記調査モデルと前記調査モデルパラメータとを抽出させ、
前記抽出した調査モデルと前記調査モデルパラメータとを用いて計算されるモデル出力結果から、前記新たな調査を実施するための事前情報を構成させることによって、前記新たな調査の負担を軽減する文書調査プログラム。