JP5851007B2

JP5851007B2 - 文書分析システム及び文書分析方法並びに文書分析プログラム

Info

Publication number: JP5851007B2
Application number: JP2014199780A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 秀樹武田; 和巳蓮子; 彰晃花谷; 菜々子吉田
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2014-09-30
Filing date: 2014-09-30
Publication date: 2016-02-03
Anticipated expiration: 2034-02-04
Also published as: JP2015149057A

Description

本発明は、文書分析システム及び文書分析方法並びに文書分析プログラムに関する。

従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟ではｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータを用いて作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、利用者情報に含まれる少なくとも１人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報

しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムにおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。

このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。

本発明は、訴訟に利用する文書情報の分析を容易にするための文書分析システム及び文書分析方法並びに文書分析プログラムを提供することを目的とするものである。

本発明の文書分析システムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析システムであって、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納するとともに、前記訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび前記生成過程モデルごとにさらに格納し、前記フェーズの時間的な序列を示す時系列情報、および前記訴訟または不正調査に関連する複数の人物の関係性をさらに格納する調査基礎データベースと、前記訴訟または不正調査に関連する情報、前記生成過程モデル、前記時系列情報、および前記複数の人物の関係性に基づいて前記文書情報を分析し、現在のフェーズを特定する特定部とを備えている。

本発明の文書分析システムでは、前記複数の人物の関係性は、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データの内容またはドメイン情報を分析し、当該分析した結果を用いて当該通信データの内容またはドメイン情報と前記訴訟または不正調査に関連する情報との関係性を評価することによって取得されることができる。

本発明の文書分析システムは、前記訴訟または不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付部と、前記調査カテゴリ入力受付部によって受け付けられたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記調査基礎データベースから、必要な情報の種類を抽出する調査種類判定部とをさらに備えることができる。

本発明の文書分析システムは、前記文書情報に含まれるキーワードおよび／または文章を、前記訴訟または不正調査に関連する情報として当該文書情報から抽出する情報抽出部をさらに備えることができる。

本発明の文書分析システムは、前記キーワードおよび／または文章を、前記複数の文書の中から検索する検索部をさらに備えることができる。

本発明の文書分析システムは、前記複数の文書のそれぞれに対して自動で分別符号を付与する自動分別符号付与部をさらに備え、前記キーワードおよび／または文章は、前記分別符号の付与に利用されることができる。

本発明の文書分析システムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析方法であって、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納するとともに、前記訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび前記生成過程モデルごとにさらに格納し、前記フェーズの時間的な序列を示す時系列情報、および前記訴訟または不正調査に関連する複数の人物の関係性をさらに格納する調査基礎データベースを参照し、前記訴訟または不正調査に関連する情報、前記生成過程モデル、前記時系列情報、および前記複数の人物の関係性に基づいて前記文書情報を分析し、現在のフェーズを特定する特定ステップを含んでいる。

本発明の文書分析プログラムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析プログラムであって、コンピュータに、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納するとともに、前記訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび前記生成過程モデルごとにさらに格納し、前記フェーズの時間的な序列を示す時系列情報、および前記訴訟または不正調査に関連する複数の人物の関係性をさらに格納する調査基礎データベースを参照し、前記訴訟または不正調査に関連する情報、前記生成過程モデル、前記時系列情報、および前記複数の人物の関係性に基づいて前記文書情報を分析し、現在のフェーズを特定させる特定機能を実現させる。

本発明の文書分析システム、文書分析方法、および、文書分析プログラムによれば、訴訟に利用する文書情報の分析を容易にすることができる。

本発明の実施形態に係る文書分析システムの要部構成を示すブロック図各フェーズの傾向を一覧可能に示す表である。（ａ）は、上記所定の行為が生じる過程が、フェーズごとに上記生成過程モデルとしてモデル化されていることを示す模式図、（ｂ）は、上記訴訟または不正調査に関連する情報が、当該訴訟または不正調査が属するカテゴリおよび上記生成過程モデルごとに格納されていることを示す模式図本発明の実施形態に係る文書分析システムの動作を概略的に表す模式図本発明の実施形態に係る文書分析システムの詳細な構成図本発明の実施形態に係る文書分析方法における処理の流れを示すチャート本発明の実施形態に係る文書分析方法における詳細な処理の流れを示すチャート本発明の実施形態に係る文書分析方法における調査種類に応じた調査及び分別処理の流れを示すチャート本発明の実施形態に係る文書分析方法における調査種類に応じたプレディクティブコーディングの流れを示すチャート実施形態における段階ごとの処理の流れを示したチャート実施形態におけるキーワードデータベースの処理フローを示すチャート本実施形態における関連用語データベースの処理フローを示したチャート本実施形態における第１自動分別部の処理フローを示したチャート本実施形態における第２自動分別部の処理フローを示したチャート本実施形態における分別符号受付付与部の処理フローを示したチャート本実施形態における文書解析部の処理フローを示したチャート本実施形態における文書解析部での解析結果を示したグラフ本実施形態の一実施例における第３自動分別部の処理フローを示したチャート本実施形態の他の実施例における第３自動分別部の処理フローを示したチャート本実施形態における品質検査部の処理フローを示したチャート本実施形態における文書表示画面

図１は、本発明の実施形態に係る文書分析システム１の要部構成を示すブロック図である。文書分析システム１は、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析するシステムである。図１に示すように、上記文書分析システム１は、調査カテゴリ入力受付部２０、調査種類判定部２２、情報抽出部２４、調査基礎データベース１０３、分析部２６、特定部２８、検索部３０、および、自動分別符号付与部３２を備えている。

調査カテゴリ入力受付部２０は、ユーザによる訴訟または不正調査のカテゴリの入力を受け付ける。カテゴリが入力された場合、調査カテゴリ入力受付部２０は、当該カテゴリを調査種類判定部２２に出力する。ここで、上記訴訟または不正調査のカテゴリは、当該訴訟または不正調査に係る事件の性質を表すものであり、例えば、反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）、情報漏洩、架空請求などであってよい。

調査種類判定部２２は、上記調査カテゴリ入力受付部２０によって受け付けられたカテゴリに基づいて、調査の対象とするカテゴリを判定し、調査基礎データベース１０３から必要な情報の種類を抽出する。例えば、上記文書情報が、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、または事業計画書のいずれかである場合、調査種類判定部２２は、電子メールを上記必要な情報の種類として情報抽出部２４に出力する。

情報抽出部２４は、文書情報から複数の文書を抽出する。具体的には、情報抽出部２４は、上記調査種類判定部２２から入力された情報（例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など）から、当該情報に含まれるキーワードおよび／または文章を、訴訟または不正調査に関連する情報として抽出し、当該抽出した結果を調査基礎データベース１０３に格納する。

調査基礎データベース１０３は、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納する。ここで、上記所定の行為は、例えば、反トラスト、特許、海外賄賂禁止、製造物責任、情報漏洩、架空請求などの不正な行為（例えば、競合との価格調整会議に参加するなど）に関連する行為であってよい。

図２は、各フェーズの傾向を一覧可能に示す表である。図２に示すように、上記フェーズは、上記所定の行為が進展する各段階を示す（上記所定の行為の進展に応じて分類する）指標である。例えば、「Relationship Building」（関係構築）というフェーズは、Competition（競合）というフェーズの前提となる段階であって、顧客・競合と関係を構築する段階をいう。また、「Preparation」（準備）というフェーズは、競合他社（第三者であってもよい）と競合に関する情報を交換する段階をいう。さらに、「Competition」（競合）というフェーズは、顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る段階をいう。

ここで、上記「Relationship Building」（関係構築）というフェーズにおいては、「顧客からの引き合い」という行為（訴訟または不正調査の原因となる所定の行為）が生じることが一般的である。また、上記「Preparation」（準備）というフェーズにおいては「競合の生産状況の入手」という行為（訴訟または不正調査の原因となる所定の行為）が生じることが多い。その他にも、上記フェーズのそれぞれに対応付けられるように、訴訟または不正調査の原因となり得る一般的な行為が明らかである。

上記生成過程モデルは、訴訟または不正調査に関連する情報（例えば、文書情報から抽出されたキーワード）に応じて、所定の行動主体（個人または複数人で構成される組織）が、上記所定の行為に至る過程に関するモデルである。上記生成過程モデルには、例えば、性格パターンモデル、行動パターンモデル、グループパターンモデルなどが含まれる。

図３の（ａ）は、上記所定の行為が生じる過程が、フェーズごとに上記生成過程モデルとしてモデル化されていることを示す模式図である。前述したように、調査基礎データベース１０３は、上記生成過程モデルを上記フェーズごとに格納する。例えば、上記「Relationship Building」（関係構築）というフェーズに対して、１つの生成過程モデルが対応付けられており、上記「Preparation」（準備）というフェーズに対して、別の１つの生成過程モデルが対応付けられている。すなわち、上記所定の行為が生じる過程は、フェーズごとに上記生成過程モデルとしてモデル化されている。

調査基礎データベース１０３は、訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび上記生成過程モデルごとにさらに格納する。ここで、訴訟または不正調査に関連する情報は、情報抽出部２４によって文書情報から抽出されたキーワード、キーワードの組み合わせ、またはメタ情報などであってよい。なお、上記メタ情報は、上記文書情報が有する所定の属性を示す情報であり、例えば、当該文書情報が電子メールである場合、当該電子メールが送受信された日時であってよい。

図３の（ｂ）は、上記訴訟または不正調査に関連する情報が、当該訴訟または不正調査が属するカテゴリおよび上記生成過程モデルごとに格納されていることを示す模式図である。前述したように、調査基礎データベース１０３は、上記訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび上記生成過程モデルごとに格納している。例えば、「反トラスト」というカテゴリと、１つの生成過程モデルとに対して、上記訴訟または不正調査に関連する情報が、調査基礎データベース１０３に格納されている。

また、調査基礎データベース１０３は、時系列情報をさらに格納する。上記時系列情報は、上記フェーズの時間的な序列を示す情報である。図２に示す例によれば、上記時系列情報は、「Relationship Building」（関係構築）というフェーズが、「Preparation」（準備）というフェーズを経て、「Competition」（競合）というフェーズに発展するという一連の遷移を示す情報であってよい。

さらに、調査基礎データベース１０３は、上記訴訟または不正調査に関連する複数の人物の関係性（ヒューマンネットワークの特性）をさらに格納する。上記複数の人物の関係性は、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データの内容またはドメイン情報を分析し、当該分析した結果を用いて当該通信データの内容またはドメイン情報と訴訟または不正調査に関連する情報との関係性を評価することによって取得される。

ここで、上記通信データは、一の人物から他の人物に当該通信データが送信されたことを示す情報が含まれるデータ（例えば、電子メール、電話の通話記録、ソーシャルネットワークサービスへのアクセス記録、個々のコンピュータまたはサーバの識別を表すドメイン情報など）であってよい。また、通信データには、一の人物が所属する組織の単位（例えば、係、課、部、会社等）を識別する情報、及び他の人物が所属する組織の単位（例えば、係、課、部、会社等）を識別する情報が含まれていてもよい。

すなわち、上記複数の人物の関係性は、上記通信データを分析した結果に基づいて、一の人物と他の人物との間で、訴訟または不正調査に関連する情報のやり取りがどの程度実行されたか、若しくは訴訟または不正調査に関する情報についてどの程度重要な情報のやり取りが実行されたか等を示すものである。

具体的には、例えば、テキストマイニング手法、画像認識手法または音声認識手法を用いて、訴訟または不正調査に関係するテキストが、上記通信データの内容に含まれているか否かが分析される。そして、上記テキストが含まれていると分析された通信データに対して、当該通信データと当該訴訟または不正調査との関連性が評価される。例えば、当該通信データの内容の当該訴訟または不正調査に対する関連性の高低が評価され、当該評価の結果を訴訟または不正調査との関係性を対応づける情報として、上記通信データにコード付けされる。そして、当該訴訟または不正調査との関係性を対応づける情報がコード付けられた通信データを用い、自動コード付け処理を実行することによって、一の人物から他の人物に向けて送信された通信データが、上記訴訟または不正調査に関連するか否かなどが評価される。当該評価の結果に基づいて、上記複数の人物の関係性が取得される。

分析部２６は、上記訴訟または不正調査に関連する情報、上記生成過程モデル、上記時系列情報、および上記複数の人物の関係性に基づいて上記文書情報を分析する。具体的には、分析部２６は、上記訴訟または不正調査に関連する情報、上記生成過程モデル、上記時系列情報、および上記複数の人物の関係性を調査基礎データベース１０３から読み出し、調査対象データの形態素解析およびキーワード分析を行うことによって、上記所定の行為に該当する行動を抽出する。分析部２６は、当該分析した結果（取り出したキーワード、または抽出した所定の行為）を特定部２８に出力する。

特定部２８は、上記分析した結果から現在のフェーズを特定する。例えば、「顧客からの引き合い」というキーワードまたは所定の行為が抽出された場合、特定部２８は、上記キーワードまたは所定の行為に対応するフェーズとして、現在「Relationship Building」（関係構築）というフェーズにあることを特定する。

検索部３０は、データベースに記録されたキーワード又は関連用語を文書情報から検索する。すなわち、検索部３０は、キーワード（例えば、「侵害」、「訴訟」などの語）および／または文章を、上記複数の文書の中から検索する。

自動分別符号付与部３２は、上記複数の文書のそれぞれに対して自動で分別符号を付与する。このとき、上記キーワードおよび／または文章は、上記分別符号の付与に利用される。

図４は、文書分析システム１の動作を概略的に表す模式図である。図４に示すように、分析対象となる文書情報２（例えば、電子メールなどの任意のドキュメント）に対して、形態素解析およびキーワード分析を行うことによって、行動主体による行動を示すキーワード３（上記所定の行為を示すもの）が抽出され、当該抽出されたキーワード３に基づいて現在のフェーズが特定される。なお、特定された現在のフェーズは、ユーザが把握可能な形式で外部に出力（レポーティング）されてよい。

文書分析システム１によれば、前述のように、例えば、反トラスト、特許、海外賄賂禁止、製造物責任、情報漏洩、架空請求などの不正な行為のフェーズを特定できる。これにより、文書分析システム１は、訴訟に利用する文書情報の分析を容易にすることができる。

続いて、本発明の文書分析システムの詳細について、図面を参照しながら具体的に説明する。なお、以下に説明する例は一例であって、この例に限定されるものではない。

図５は、本発明の実施形態に係る文書分析システムの詳細な構成例を示す。

図５に示すように、本実施形態に係る文書分析システム１は、情報及びデータを格納するデータ格納部１００を有することができる。該データ格納部１００は、訴訟又は不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報をデジタル情報格納領域１０１に格納する。

そして、データ格納部１００は、例えば、反トラスト、特許、ＦＣＰＡ、ＰＬを含む訴訟案件又は情報漏洩、架空請求を含む不正調査のいずれのカテゴリに属するかを示すカテゴリ属性、会社名、担当者、カストディアン、及び調査又は分別入力画面の構成を格納する調査基礎データベース１０３と、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース１０４と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース１０５と、文書と分別符号との結びつきの強さを示すスコアを算出するために該文書に含まれるワードの重みづけを登録するスコア算出データベース１０６とを格納する。

なお、前述したように、上記調査基礎データベース１０３は、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納する。また、上記調査基礎データベース１０３は、上記フェーズの時間的な序列を示す時系列情報、および上記訴訟または不正調査に関連する複数の人物の関係性（ヒューマンネットワークの特性）も格納する。

更に、データ格納部１００は、カテゴリ、カストディアン、分別作業の内容に応じて定められる報告書の形式を登録する報告作成データベース１０７を格納する。このデータ格納部１００は、図５に示されるように、文書分析システム１内に設置されても良く、別個のストレージ装置として文書分析システム１の外部に設置されても良い。

本発明の実施形態に係る文書分析システム１は、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、及び報告作成データベース１０７のデータ内容の更新を管理するデータベース管理部１０９を備える。

データベース管理部１０９は、専用接続線又はインターネット回線９０１を経由して情報格納装置９０２に接続されることができる。そして、データベース管理部１０９は、情報格納装置９０２に記憶されるデータの内容に基づいて、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、及び報告作成データベース１０７のデータ内容を更新することができる。

本発明の実施形態に係る文書分析システム１は、前述したように、調査カテゴリ入力受付部２０、調査種類判定部２２、情報抽出部２４、分析部２６、特定部２８、および検索部３０を備えている。なお、自動分別符号付与部３２は、第１自動分別部２０１、第２自動分別部、および第３自動分別部４０１として実現されている。

本発明の実施形態に係る文書分析システム１は、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部１１６と、検索部３０によりキーワードデータベース１０４に記録したキーワードを検索し、キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第１自動分別部２０１と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第２自動分別部３０１を有することができる。

更に、実施形態に係る文書分析システム１は、文書情報から抽出された複数の文書を画面上に表示する文書表示部１３０と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部１３１と、分別符号受付付与部１３１により分別符号を付与された文書を解析する文書解析部１１８と、文書情報から抽出された複数の文書に対して、分別符号受付付与部１３１により分別符号を付与された文書を文書解析部１１８により解析した解析結果に基づいて、分別符号を自動的に付与する第３自動分別部４０１を備えることができる。

また、本発明の実施形態に係る文書分析システム１は、抽出した文書の言語の種類を判定する言語判定部１２０と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部１２２とを備えても良い。１文多言語の複合言語にも対応できるように、言語判定部１２０における言語の区切りを１文より小さくする。更に、ＨＴＭＬのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。

また、本発明の実施形態に係る文書分析システム１は、文書解析部１１８による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部１２４を備えても良い。

また、本発明の実施形態に係る文書分析システム１は、分別符号受付付与部１３１が受け付けた分別符号と文書解析部１１８において傾向情報により付与された分別符号を比較し、分別符号受付付与部１３１が受け付けた分別符号の妥当性を検証する品質検査部５０１を備えても良い。

更に、本発明の実施形態に係る文書分析システム１は、文書分析処理の結果をもとに、各キーワード又は関連用語の重みづけを学習する学習部６０１を備えても良い。

本発明の実施形態に係る文書分析システム１は、文書分析処理の結果をもとに、訴訟案件又は不正調査の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部７０１を備えることができる。訴訟案件には、例えば、反トラスト（カルテル）、特許、海外賄賂禁止（ＦＣＰＡ）、又は製造物責任（ＰＬ）が含まれる。また、不正調査には、例えば、情報漏洩、架空請求が含まれる。

本発明の実施形態に係る文書分析システム１は、分別調査と報告の質を向上するために、例えば、主任弁護士又は主任弁理士のレビューを受け付ける弁護士レビュー受付部１３３を備えることができる。

本発明の実施形態に係る文書分析システム１の理解を容易とするために、実施形態に特有な用語について以下に記載する。

「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。

「文書」とは、１つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。

「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」などとすることができる。実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。

本実施形態においては、キーワードには、形態素が含まれるものとする。

また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、上記「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。

「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。

また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、上記「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。

「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品Ａ」という分別符号が製品Ａの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。

「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式（１）を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。

また、本発明の実施形態に係る文書分析システム１は、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部１３１により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。

ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

次に、本発明の文書分析方法について説明する。

図６は、本発明の実施形態に係る文書分析方法（文書分析システムの制御方法）の処理の流れを示すチャートである。

最初に、分析部２６は、上記訴訟または不正調査に関連する情報、上記生成過程モデル、上記時系列情報、および上記訴訟または不正調査に関連する複数の人物の関係性を調査基礎データベース１０３から読み出す（ステップ４１、以下「ステップ」を「Ｓ」と略記する）。次に、分析部２６は、調査対象データの形態素解析およびキーワード分析を行うことによって（Ｓ４２）、上記所定の行為に該当する行動を抽出する（Ｓ４３）。そして、特定部２８は、上記分析した結果から現在のフェーズを特定する（Ｓ４４、特定ステップ）。

続いて、本発明の文書分析方法の詳細について、図面を参照しながら具体的に説明する。なお、以下に説明する例は一例であって、この例に限定されるものではない。

図７は、本発明の実施形態に係る文書分析方法の詳細なフローチャートである。なお、図６に示されたフローは、図７に示されるフローから独立した処理として実行されてもよいし、図７に示されるフローの任意の箇所に内包される処理として実行されてもよい。

表示部の表示画面の表示に応じてユーザから引数の指定を受け付けて、例えば、反トラスト、特許、ＦＣＰＡ、ＰＬを含む訴訟案件、又は情報漏洩、架空請求を含む不正調査から対応するカテゴリを特定することができる（Ｓ１１）。

特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースを特定することができる（Ｓ１２）。

使用データベースが最新のものかどうかを確認するために、最新データベースを格納する情報格納装置にアクセスすることができる。情報格納装置は、分別を実施する組織の内部に設置される場合と、組織の外部に設置される場合がある。情報格納装置が組織の外部に設置される場合として、例えば、提携する法律事務所又は特許事務所に設置される場合がある。

情報格納装置にアクセスする場合には、セキュリティーを保持するために、ＩＤ及びパスワードによる認証が行われることができる（Ｓ１３）。

認証が行われた後に、情報石納装置にアクセスすることが許可され、調査基礎データベース、文書分析データベース等の使用データベースが指針のデータベースに更新されることができる（Ｓ１４）。

更新された調査基礎データベースを検索し（Ｓ１５）、表示装置の画面に会社名、担当者、カストディアンの名前が提示されることができる（Ｓ１６）。

表示装置の画面に表示される担当者とカストディアンの名前が実際の担当者とカストディアンの名前と異なる場合は、ユーザは表示装置の画面で担当者とカストディアンの名前を修正する。文書分析システムは、ユーザの修正入力を受け付けて、実際の担当者とカストディアンの名前を特定することができる（Ｓ１７）。

次に、文書分析作業を実施するために、デジタル文書情報を抽出することができる（Ｓ１８）。

更新された文書分析データベースとして、更新されたキーワードデータベース、関連用語データベース、及びスコア算出データベースを検索して（Ｓ１９）、抽出文書情報に分別符号を付与することができる（Ｓ２０）。

また、レビュアーによる分別符号を受け付けて、抽出文書情報に分別符号を付与することができる（Ｓ２１）。

分別結果を教師データとして、データベースを検索し、抽出文書情報に分別符号を付与することができる（Ｓ２２）。

主任弁護士又は弁理士によるレビューを受け付けることができる（Ｓ２３）。これにより、調査の質を向上させることができる。

ユーザの引数指定によりカテゴリを特定し（Ｓ２４）、特定されたカテゴリに応じて報告作成データベースを特定することができる（Ｓ２５）。特定された報告作成データベースにより、報告書の形式を定め、報告書を自動出力することができる（Ｓ２６）。

図８は、本発明の実施形態に係る文書分析方法における調査種類に応じた調査及び分別処理の流れを示すチャートである。

最初に、調査種類を入力することができる（Ｓ３１）。すなわち、表示画面の表示に応じて、ユーザが、例えば、反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）を含む訴訟案件又は情報漏洩、架空請求を含む不正調査から実施しようとする調査及び分別作業と対応するカテゴリを入力する。文書分析システムは、ユーザのカテゴリの入力を受け付けて、調査対象となるカテゴリを特定することができる。

特定されたカテゴリに応じて、調査及び文書分析処理の種類と使用するデータベースの種類を判定することができる（Ｓ３２）。

特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースに記憶された情報のストックにアクセスしてもよい（Ｓ３３）。

特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各キーワード入力画面を表示することができる（Ｓ３４）。

特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各文章入力画面を表示することができる（Ｓ３５）

特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じてキーワードもしくは文書を抽出することができる（Ｓ３６）。

上述の処理を実行することにより、自動分別符号付与（予測コーディング）の教師データに重み付けを追加して行うことができる（Ｓ３７）。

文書分析データベースをキーワード検索することにより、抽出文書及び情報の絞り込みを行うことができる（Ｓ３８）。

図９は、本発明の実施形態に係る文書分析方法における調査種類に応じた予測コーディングの流れを示すチャートである。

本発明の実施形態に係る文書分析方法では、最初に、文書分析システムが調査の種類に応じてユーザに入力を求め、それに対するユーザの入力を受け付けることができる。例えば、反トラスト法と関連してカルテルについて、対象製品、関係者（氏名とメールアドレス）、関係組織（名称と部門）及び時期について、ユーザの入力を求め、それに対するユーザの入力を受け付けることができる。その他に、関係組織については、競争相手企業と顧客企業に関してユーザの入力を求め、それに対するユーザの入力を受け付けることができる（Ｓ５１）。

次に、入力キーワードによって、分別符号付与に対する重み付けを行うことができる（Ｓ５２）。そして、予測コーディングを行うことができる（Ｓ５３）。

本発明の実施形態では、一例として、図１０に示すようなフローチャートに従い、第１段階〜第５段階で、登録処理、分別処理、及び検査処理を行う。

第１段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う（Ｓ１００）。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。

第２段階では、第１段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第１分別処理を行う（Ｓ２００）。

第３段階では、第１段階で更新登録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第２分別処理を行う（Ｓ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第３分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（Ｓ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（Ｓ５００）。また、必要に応じて、文書分析処理の結果に基づいて学習処理を行っても良い。

第４段階及び第５段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

第１段階から第５段階の各段階における詳細な処理フローを以下で説明する。

＜第１段階（Ｓ１００）＞
第１段階におけるキーワードデータベース１０４の詳細な処理フローを図１１を用いて説明する。

キーワードデータベース１０４は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（Ｓ１１１）。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する（Ｓ１１２）。そして、特定されたキーワードをキーワードデータベース１０４に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース１０４の分別符号「重要」の管理テーブルに記録する（Ｓ１１３）。

次に、関連用語データベース１０５の詳細な処理フローを図１２を用いて説明する。関連用語データベース１０５は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する（Ｓ１２１）。本発明の実施形態においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を登録する。

登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（Ｓ１２２）、各管理テーブルに記録する（Ｓ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する（Ｓ１１３、Ｓ１２３）。

＜第２段階（Ｓ２００）＞
第２段階における第１自動分別部２０１の詳細な処理フローを、図１３を用いて説明する。本発明の実施形態において、第２段階では、第１自動分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１自動分別部２０１では、第１段階（Ｓ１００）でキーワードデータベース１０４に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（Ｓ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し（Ｓ２１２）、「重要」という分別符号を付与する（Ｓ２１３）。

＜第３段階（Ｓ３００）＞
第３段階における第２自動分別部３０１の詳細な処理フローを、図１４を用いて説明する。

本発明の実施形態において、第２自動分別部３０１では、第２段階（Ｓ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２自動分別部３０１は、該文書情報から、第１段階で関連用語データベース１０５に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（Ｓ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）を用いて、スコア算出部１１６によりスコアを算出する（Ｓ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（Ｓ３１３）、適切な分別符号を付与する（Ｓ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２自動分別部３０１では、第４段階のＳ４３２において算出されるスコアを用いて以下に示す式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う（Ｓ３１５）。

例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（Ｓ４００）＞
第４段階では、図１５に示すように、第３段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図１６に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第４段階では、例えば、「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。第４段階について、更に以下に記載する。

第４段階における分別符号受付付与部１３１の詳細な処理フローを、図１５を用いて説明する。第４段階での処理対象となる文書情報からまず情報抽出部２４が、ランダムに文書をサンプリングし、文書表示部１３０上で表示する。本発明の実施形態では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは文書表示部１３０上に表示される図２１に示す表示用画面１１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部１３１は、該ユーザが選択した分別符号を受け付け（Ｓ４１１）、付与された分別符号に基づいて分別する（Ｓ４１２）。

次に、文書解析部１１８の詳細な処理フローを、図１６を用いて説明する。文書解析部１１８では、分別符号受付付与部１３１で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（Ｓ４２１）。抽出した共通の単語の評価値を式（２）により解析し（Ｓ４２２）、該共通の単語の文書中の出現頻度を解析する（Ｓ４２３）。

さらに、Ｓ４２２及びＳ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（Ｓ４２４）。

図１７は、Ｓ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１７において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部１３１によってＳ４２１で抽出された単語を含む文書の割合を示している。

本発明の実施形態において、分別符号受付付与部１３１では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

Ｓ４２１乃至Ｓ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、第３自動分別部４０１の詳細な処理フローを、図１８を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、Ｓ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第３自動分別部４０１では、このような文書から、Ｓ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（Ｓ４３１）、抽出した文書について、傾向法をもとに式（１）を用いてスコアを算出する（Ｓ４３２）。また、Ｓ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（Ｓ４３３）。

第３自動分別部４０１では、さらに、Ｓ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（Ｓ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。

更に、第３自動分別部４０１の詳細な処理フローの一例を、図１９を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、Ｓ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第３自動分別部４０１では、引数が与えられなかった場合には（Ｓ４４１：なし）、該文書から、Ｓ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（Ｓ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（Ｓ４４３）。また、Ｓ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（Ｓ４４４）。

第３自動分別部４０１では、さらに、Ｓ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（Ｓ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

上述のように第２自動分別部３０１と第３自動分別部４０１の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース１０６に一括して格納しても良い。

＜第５段階（Ｓ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図２０を用いて説明する。品質検査部５０１では、分別符号受付付与部１３１が、Ｓ４１１で受け付けた文書に対して、文書解析部１１８がＳ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（Ｓ５１１）。

分別符号受付付与部１３１が受け付けた分別符号とＳ５１１で決定した分別符号とを比較し（Ｓ５１２）、Ｓ４１１で受け付けた分別符号の妥当性を検証する（Ｓ５１３）。

本発明の実施形態に係る文書分析システム１は、学習部６０１を備えても良い。学習部６０１では、第１から第４の処理結果をもとに、各キーワード又は関連用語の重みづけを式（２）により学習する。該学習結果をキーワードデータベース１０４、関連用語データベース１０５、又はスコア算出データベース１０６に反映しても良い。

本発明の実施形態に係る文書分析システム１は、文書分析処理の結果をもとに、訴訟案件（例えば、訴訟であればカルテル・特許・ＦＣＰＡ・ＰＬなど）又は不正調査（例えば、情報漏洩、架空請求など）の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部７０１を備えることができる。

調査種類によって、調査する内容は異なる。

例えば、カルテル案件であれば、
１．競合の担当者がカルテルに関連する意思疎通（価格の調整）を、いつ・どのように取ったか？
２．関係者はどの組織の誰か？
がポイントになる。

また、特許侵害であれば、
１．侵害の対象となっている技術と内容が同じか？
２．誰が、いつ、どのような意図をもって（もたずに）侵害したか、もしくはしていないか？
といったことがポイントになる。

本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムについて以下に記載する。

本発明の実施形態の他の実施例に係る文書調査報告システムでは、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する。そして調整された分別符号を付与する範囲に基づいて、分別作業及び調査作業を行い、分別作業及び調査作業の結果に基づいて報告を作成する。

類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。

本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。

本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。

本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムでは、これらの分別作業及び調査の結果に基づいて、報告を作成する。

これにより、本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムでは、的確な調査報告を迅速に作成することが可能となると共に、分別作業及び報告作成作業に伴う負担を軽減することができる。

本発明の実施形態の他の実施例では、ユーザに対し、調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部を備えることができる。

本発明の実施形態の他の実施例では、表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付部を備えることができる。

上記特定機能は、上記特定部により実現されることができる。詳細については上述した通りである。

本発明の実施形態は、訴訟案件又は不正調査案件のカテゴリについてユーザの入力を受け付けることにより、カテゴリに応じて自動的にデータベースを更新する。これにより担当者、カストディアンの氏名等を入力する事務作業の負担が軽減される。また、カテゴリに応じて自動的に更新されたデータベースにより検索ワードを調整し、調整された検索ワードを用いて当該文書情報に対して分別符号を自動で付与する。これにより、訴訟又は不正調査案件に利用する文書情報の分別作業の負担が軽減される。

すなわち、本発明により、訴訟に利用する文書情報の分析が容易になる。

文書分析システム１の制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム１は、各機能を実現するソフトウェアであるプログラム（制御プログラム）の命令を実行するＣＰＵ、上記プログラム及び各種データがコンピュータ（又はＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）又は記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（又はＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述したそれぞれの実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析システムであって、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースと、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付部と、前記調査カテゴリ入力受付部が受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記調査基礎データベースから、必要な情報の種類を抽出する調査種類判定部とを備える文書分析システム。

前記文書分析システムは、さらに、ユーザに対し、前記調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部を備えることを特徴とする文書分析システム。

前記文書分析システムは、さらに、前記表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付部を備えることを特徴とする文書分析システム。

前記文書分析システムは、さらに、前記調査基礎データベースから、前記調査種類判定部が抽出した情報の種類に対応した、キーワードおよび／または文章を抽出する情報抽出部を備えることを特徴とする文書分析システム。

前記文書分析システムは、さらに、前記キーワードおよび／または文章を、前記文書の中から検索する検索部を備えることを特徴とする文書分析システム。

前記文書分析システムは、さらに、前記文書に対して自動で分別符号を付与する自動分別符号付与部を備え、前記キーワードおよび／または文章は、前記分別符号の付与に利用されることを特徴とする文書分析システム。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析方法であって、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付ステップと、前記調査カテゴリ入力受付ステップが受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定ステップとを備える文書分析方法。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析プログラムであって、コンピュータに、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付機能と、前記調査カテゴリ入力受付機能により受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定機能とを実現させるための文書分析プログラム。

１文書分析システム
２０１第１自動分別部
３０１第２自動分別部
４０１第３自動分別部
５０１品質検査部
６０１学習部
７０１報告作成部
１００データ格納部
１０１デジタル情報格納領域
１０３調査基礎データベース
１０４キーワードデータベース
１０５関連用語データベース
１０６スコア算出データベース
１０７報告作成データベース
１０９データベース管理部
１１６スコア算出部
１１８文書解析部
１２０言語判定部
１２２翻訳部
１２４傾向情報生成部
１３０文書表示部
１３１分別符号受付付与部
１３３弁護士レビュー受付部
１１文書表示画面
２０調査カテゴリ入力受付部
２２調査種類判定部
２４情報抽出部
２６分析部
２８特定部
３０検索部
３２自動分別符号付与部

Claims

所定の事案が属するカテゴリの入力を受け付ける調査カテゴリ入力受付部と、
所定数の文書からキーワードを選定するとともに、当該選定したキーワードを、前記所定の事案に関連する情報として、前記カテゴリ及び当該カテゴリにおける所定の行為が進展する各段階を示す指標であるフェーズごとに格納する調査基礎データベースと、
前記調査基礎データベースを参照して、所定の行為が進展する各段階を示す指標であるフェーズごとのキーワードに基づいて、前記フェーズを特定する特定部とを備えた文書分析システム。
前記調査基礎データベースは、複数の人物のそれぞれに対応付けられる通信データの内容またはドメイン情報を分析することによって得られる、前記所定の事案に関連する前記複数の人物の関係性をさらに格納するものであることを特徴とする請求項１に記載の文書分析システム。
前記カテゴリに応じた調査レポートの出力を行う報告作成部をさらに備えたことを特徴とする請求項１または２に記載の文書分析システム。
前記調査基礎データベースは、前記フェーズの時間的な発展を示す時系列情報をさらに格納するものであり、
前記フェーズ特定部は、前記時系列情報にさらに基づいて、前記フェーズを特定するものであることを特徴とする請求項１から３のいずれか一項に記載の文書分析システム。
所定の事案が属するカテゴリの入力を受け付ける調査カテゴリ入力受付ステップと、
所定数の文書からキーワードを選定するとともに、当該選定したキーワードを、前記所定の事案に関連する情報として、前記カテゴリ及び当該カテゴリにおける所定の行為が進展する各段階を示す指標であるフェーズごとに格納する調査基礎データベースを参照し、所定の行為が進展する各段階を示す指標であるフェーズごとのキーワードに基づいて、前記フェーズを特定する特定ステップとを含む、コンピュータが実行する文書分析システムの制御方法。
コンピュータに、
所定の事案が属するカテゴリの入力を受け付ける調査カテゴリ入力受付機能と、
所定数の文書からキーワードを選定するとともに、当該選定したキーワードを、前記所定の事案に関連する情報として、前記カテゴリ及び当該カテゴリにおける所定の行為が進展する各段階を示す指標であるフェーズごとに格納する調査基礎データベースを参照し、所定の行為が進展する各段階を示す指標であるフェーズごとのキーワードに基づいて、前記フェーズを特定する特定機能とを実現させる文書分析システムの制御プログラム。