図1は、本発明の実施形態に係る文書分析システム1の要部構成を示すブロック図である。文書分析システム1は、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析するシステムである。図1に示すように、上記文書分析システム1は、調査カテゴリ入力受付部20、調査種類判定部22、情報抽出部24、調査基礎データベース103、分析部26、特定部28、検索部30、および、自動分別符号付与部32を備えている。
調査カテゴリ入力受付部20は、ユーザによる訴訟または不正調査のカテゴリの入力を受け付ける。カテゴリが入力された場合、調査カテゴリ入力受付部20は、当該カテゴリを調査種類判定部22に出力する。ここで、上記訴訟または不正調査のカテゴリは、当該訴訟または不正調査に係る事件の性質を表すものであり、例えば、反トラスト、特許、海外賄賂禁止(FCPA)、製造物責任(PL)、情報漏洩、架空請求などであってよい。
調査種類判定部22は、上記調査カテゴリ入力受付部20によって受け付けられたカテゴリに基づいて、調査の対象とするカテゴリを判定し、調査基礎データベース103から必要な情報の種類を抽出する。例えば、上記文書情報が、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、または事業計画書のいずれかである場合、調査種類判定部22は、電子メールを上記必要な情報の種類として情報抽出部24に出力する。
情報抽出部24は、文書情報から複数の文書を抽出する。具体的には、情報抽出部24は、上記調査種類判定部22から入力された情報(例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など)から、当該情報に含まれるキーワードおよび/または文章を、訴訟または不正調査に関連する情報として抽出し、当該抽出した結果を調査基礎データベース103に格納する。
調査基礎データベース103は、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納する。ここで、上記所定の行為は、例えば、反トラスト、特許、海外賄賂禁止、製造物責任、情報漏洩、架空請求などの不正な行為(例えば、競合との価格調整会議に参加するなど)に関連する行為であってよい。
図2は、各フェーズの傾向を一覧可能に示す表である。図2に示すように、上記フェーズは、上記所定の行為が進展する各段階を示す(上記所定の行為の進展に応じて分類する)指標である。例えば、「Relationship Building」(関係構築)というフェーズは、Competition(競合)というフェーズの前提となる段階であって、顧客・競合と関係を構築する段階をいう。また、「Preparation」(準備)というフェーズは、競合他社(第三者であってもよい)と競合に関する情報を交換する段階をいう。さらに、「Competition」(競合)というフェーズは、顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る段階をいう。
ここで、上記「Relationship Building」(関係構築)というフェーズにおいては、「顧客からの引き合い」という行為(訴訟または不正調査の原因となる所定の行為)が生じることが一般的である。また、上記「Preparation」(準備)というフェーズにおいては「競合の生産状況の入手」という行為(訴訟または不正調査の原因となる所定の行為)が生じることが多い。その他にも、上記フェーズのそれぞれに対応付けられるように、訴訟または不正調査の原因となり得る一般的な行為が明らかである。
上記生成過程モデルは、訴訟または不正調査に関連する情報(例えば、文書情報から抽出されたキーワード)に応じて、所定の行動主体(個人または複数人で構成される組織)が、上記所定の行為に至る過程に関するモデルである。上記生成過程モデルには、例えば、性格パターンモデル、行動パターンモデル、グループパターンモデルなどが含まれる。
図3の(a)は、上記所定の行為が生じる過程が、フェーズごとに上記生成過程モデルとしてモデル化されていることを示す模式図である。前述したように、調査基礎データベース103は、上記生成過程モデルを上記フェーズごとに格納する。例えば、上記「Relationship Building」(関係構築)というフェーズに対して、1つの生成過程モデルが対応付けられており、上記「Preparation」(準備)というフェーズに対して、別の1つの生成過程モデルが対応付けられている。すなわち、上記所定の行為が生じる過程は、フェーズごとに上記生成過程モデルとしてモデル化されている。
調査基礎データベース103は、訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび上記生成過程モデルごとにさらに格納する。ここで、訴訟または不正調査に関連する情報は、情報抽出部24によって文書情報から抽出されたキーワード、キーワードの組み合わせ、またはメタ情報などであってよい。なお、上記メタ情報は、上記文書情報が有する所定の属性を示す情報であり、例えば、当該文書情報が電子メールである場合、当該電子メールが送受信された日時であってよい。
図3の(b)は、上記訴訟または不正調査に関連する情報が、当該訴訟または不正調査が属するカテゴリおよび上記生成過程モデルごとに格納されていることを示す模式図である。前述したように、調査基礎データベース103は、上記訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび上記生成過程モデルごとに格納している。例えば、「反トラスト」というカテゴリと、1つの生成過程モデルとに対して、上記訴訟または不正調査に関連する情報が、調査基礎データベース103に格納されている。
また、調査基礎データベース103は、時系列情報をさらに格納する。上記時系列情報は、上記フェーズの時間的な序列を示す情報である。図2に示す例によれば、上記時系列情報は、「Relationship Building」(関係構築)というフェーズが、「Preparation」(準備)というフェーズを経て、「Competition」(競合)というフェーズに発展するという一連の遷移を示す情報であってよい。
さらに、調査基礎データベース103は、上記訴訟または不正調査に関連する複数の人物の関係性(ヒューマンネットワークの特性)をさらに格納する。上記複数の人物の関係性は、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データの内容またはドメイン情報を分析し、当該分析した結果を用いて当該通信データの内容またはドメイン情報と訴訟または不正調査に関連する情報との関係性を評価することによって取得される。
ここで、上記通信データは、一の人物から他の人物に当該通信データが送信されたことを示す情報が含まれるデータ(例えば、電子メール、電話の通話記録、ソーシャルネットワークサービスへのアクセス記録、個々のコンピュータまたはサーバの識別を表すドメイン情報など)であってよい。また、通信データには、一の人物が所属する組織の単位(例えば、係、課、部、会社等)を識別する情報、及び他の人物が所属する組織の単位(例えば、係、課、部、会社等)を識別する情報が含まれていてもよい。
すなわち、上記複数の人物の関係性は、上記通信データを分析した結果に基づいて、一の人物と他の人物との間で、訴訟または不正調査に関連する情報のやり取りがどの程度実行されたか、若しくは訴訟または不正調査に関する情報についてどの程度重要な情報のやり取りが実行されたか等を示すものである。
具体的には、例えば、テキストマイニング手法、画像認識手法または音声認識手法を用いて、訴訟または不正調査に関係するテキストが、上記通信データの内容に含まれているか否かが分析される。そして、上記テキストが含まれていると分析された通信データに対して、当該通信データと当該訴訟または不正調査との関連性が評価される。例えば、当該通信データの内容の当該訴訟または不正調査に対する関連性の高低が評価され、当該評価の結果を訴訟または不正調査との関係性を対応づける情報として、上記通信データにコード付けされる。そして、当該訴訟または不正調査との関係性を対応づける情報がコード付けられた通信データを用い、自動コード付け処理を実行することによって、一の人物から他の人物に向けて送信された通信データが、上記訴訟または不正調査に関連するか否かなどが評価される。当該評価の結果に基づいて、上記複数の人物の関係性が取得される。
分析部26は、上記訴訟または不正調査に関連する情報、上記生成過程モデル、上記時系列情報、および上記複数の人物の関係性に基づいて上記文書情報を分析する。具体的には、分析部26は、上記訴訟または不正調査に関連する情報、上記生成過程モデル、上記時系列情報、および上記複数の人物の関係性を調査基礎データベース103から読み出し、調査対象データの形態素解析およびキーワード分析を行うことによって、上記所定の行為に該当する行動を抽出する。分析部26は、当該分析した結果(取り出したキーワード、または抽出した所定の行為)を特定部28に出力する。
特定部28は、上記分析した結果から現在のフェーズを特定する。例えば、「顧客からの引き合い」というキーワードまたは所定の行為が抽出された場合、特定部28は、上記キーワードまたは所定の行為に対応するフェーズとして、現在「Relationship Building」(関係構築)というフェーズにあることを特定する。
検索部30は、データベースに記録されたキーワード又は関連用語を文書情報から検索する。すなわち、検索部30は、キーワード(例えば、「侵害」、「訴訟」などの語)および/または文章を、上記複数の文書の中から検索する。
自動分別符号付与部32は、上記複数の文書のそれぞれに対して自動で分別符号を付与する。このとき、上記キーワードおよび/または文章は、上記分別符号の付与に利用される。
図4は、文書分析システム1の動作を概略的に表す模式図である。図4に示すように、分析対象となる文書情報2(例えば、電子メールなどの任意のドキュメント)に対して、形態素解析およびキーワード分析を行うことによって、行動主体による行動を示すキーワード3(上記所定の行為を示すもの)が抽出され、当該抽出されたキーワード3に基づいて現在のフェーズが特定される。なお、特定された現在のフェーズは、ユーザが把握可能な形式で外部に出力(レポーティング)されてよい。
文書分析システム1によれば、前述のように、例えば、反トラスト、特許、海外賄賂禁止、製造物責任、情報漏洩、架空請求などの不正な行為のフェーズを特定できる。これにより、文書分析システム1は、訴訟に利用する文書情報の分析を容易にすることができる。
続いて、本発明の文書分析システムの詳細について、図面を参照しながら具体的に説明する。なお、以下に説明する例は一例であって、この例に限定されるものではない。
図5は、本発明の実施形態に係る文書分析システムの詳細な構成例を示す。
図5に示すように、本実施形態に係る文書分析システム1は、情報及びデータを格納するデータ格納部100を有することができる。該データ格納部100は、訴訟又は不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報をデジタル情報格納領域101に格納する。
そして、データ格納部100は、例えば、反トラスト、特許、FCPA、PLを含む訴訟案件又は情報漏洩、架空請求を含む不正調査のいずれのカテゴリに属するかを示すカテゴリ属性、会社名、担当者、カストディアン、及び調査又は分別入力画面の構成を格納する調査基礎データベース103と、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース104と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース105と、文書と分別符号との結びつきの強さを示すスコアを算出するために該文書に含まれるワードの重みづけを登録するスコア算出データベース106とを格納する。
なお、前述したように、上記調査基礎データベース103は、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納する。また、上記調査基礎データベース103は、上記フェーズの時間的な序列を示す時系列情報、および上記訴訟または不正調査に関連する複数の人物の関係性(ヒューマンネットワークの特性)も格納する。
更に、データ格納部100は、カテゴリ、カストディアン、分別作業の内容に応じて定められる報告書の形式を登録する報告作成データベース107を格納する。このデータ格納部100は、図5に示されるように、文書分析システム1内に設置されても良く、別個のストレージ装置として文書分析システム1の外部に設置されても良い。
本発明の実施形態に係る文書分析システム1は、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び報告作成データベース107のデータ内容の更新を管理するデータベース管理部109を備える。
データベース管理部109は、専用接続線又はインターネット回線901を経由して情報格納装置902に接続されることができる。そして、データベース管理部109は、情報格納装置902に記憶されるデータの内容に基づいて、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び報告作成データベース107のデータ内容を更新することができる。
本発明の実施形態に係る文書分析システム1は、前述したように、調査カテゴリ入力受付部20、調査種類判定部22、情報抽出部24、分析部26、特定部28、および検索部30を備えている。なお、自動分別符号付与部32は、第1自動分別部201、第2自動分別部、および第3自動分別部401として実現されている。
本発明の実施形態に係る文書分析システム1は、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部116と、検索部30によりキーワードデータベース104に記録したキーワードを検索し、キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部201と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部301を有することができる。
更に、実施形態に係る文書分析システム1は、文書情報から抽出された複数の文書を画面上に表示する文書表示部130と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部131と、分別符号受付付与部131により分別符号を付与された文書を解析する文書解析部118と、文書情報から抽出された複数の文書に対して、分別符号受付付与部131により分別符号を付与された文書を文書解析部118により解析した解析結果に基づいて、分別符号を自動的に付与する第3自動分別部401を備えることができる。
また、本発明の実施形態に係る文書分析システム1は、抽出した文書の言語の種類を判定する言語判定部120と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部122とを備えても良い。1文多言語の複合言語にも対応できるように、言語判定部120における言語の区切りを1文より小さくする。更に、HTMLのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。
また、本発明の実施形態に係る文書分析システム1は、文書解析部118による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部124を備えても良い。
また、本発明の実施形態に係る文書分析システム1は、分別符号受付付与部131が受け付けた分別符号と文書解析部118において傾向情報により付与された分別符号を比較し、分別符号受付付与部131が受け付けた分別符号の妥当性を検証する品質検査部501を備えても良い。
更に、本発明の実施形態に係る文書分析システム1は、文書分析処理の結果をもとに、各キーワード又は関連用語の重みづけを学習する学習部601を備えても良い。
本発明の実施形態に係る文書分析システム1は、文書分析処理の結果をもとに、訴訟案件又は不正調査の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備えることができる。訴訟案件には、例えば、反トラスト(カルテル)、特許、海外賄賂禁止(FCPA)、又は製造物責任(PL)が含まれる。また、不正調査には、例えば、情報漏洩、架空請求が含まれる。
本発明の実施形態に係る文書分析システム1は、分別調査と報告の質を向上するために、例えば、主任弁護士又は主任弁理士のレビューを受け付ける弁護士レビュー受付部133を備えることができる。
本発明の実施形態に係る文書分析システム1の理解を容易とするために、実施形態に特有な用語について以下に記載する。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
「文書」とは、1つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」などとすることができる。実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。
本実施形態においては、キーワードには、形態素が含まれるものとする。
また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、上記「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。
「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。
また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、上記「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。
「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品A」という分別符号が製品Aの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。
「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
また、本発明の実施形態に係る文書分析システム1は、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部131により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。
ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
次に、本発明の文書分析方法について説明する。
図6は、本発明の実施形態に係る文書分析方法(文書分析システムの制御方法)の処理の流れを示すチャートである。
最初に、分析部26は、上記訴訟または不正調査に関連する情報、上記生成過程モデル、上記時系列情報、および上記訴訟または不正調査に関連する複数の人物の関係性を調査基礎データベース103から読み出す(ステップ41、以下「ステップ」を「S」と略記する)。次に、分析部26は、調査対象データの形態素解析およびキーワード分析を行うことによって(S42)、上記所定の行為に該当する行動を抽出する(S43)。そして、特定部28は、上記分析した結果から現在のフェーズを特定する(S44、特定ステップ)。
続いて、本発明の文書分析方法の詳細について、図面を参照しながら具体的に説明する。なお、以下に説明する例は一例であって、この例に限定されるものではない。
図7は、本発明の実施形態に係る文書分析方法の詳細なフローチャートである。なお、図6に示されたフローは、図7に示されるフローから独立した処理として実行されてもよいし、図7に示されるフローの任意の箇所に内包される処理として実行されてもよい。
表示部の表示画面の表示に応じてユーザから引数の指定を受け付けて、例えば、反トラスト、特許、FCPA、PLを含む訴訟案件、又は情報漏洩、架空請求を含む不正調査から対応するカテゴリを特定することができる(S11)。
特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースを特定することができる(S12)。
使用データベースが最新のものかどうかを確認するために、最新データベースを格納する情報格納装置にアクセスすることができる。情報格納装置は、分別を実施する組織の内部に設置される場合と、組織の外部に設置される場合がある。情報格納装置が組織の外部に設置される場合として、例えば、提携する法律事務所又は特許事務所に設置される場合がある。
情報格納装置にアクセスする場合には、セキュリティーを保持するために、ID及びパスワードによる認証が行われることができる(S13)。
認証が行われた後に、情報石納装置にアクセスすることが許可され、調査基礎データベース、文書分析データベース等の使用データベースが指針のデータベースに更新されることができる(S14)。
更新された調査基礎データベースを検索し(S15)、表示装置の画面に会社名、担当者、カストディアンの名前が提示されることができる(S16)。
表示装置の画面に表示される担当者とカストディアンの名前が実際の担当者とカストディアンの名前と異なる場合は、ユーザは表示装置の画面で担当者とカストディアンの名前を修正する。文書分析システムは、ユーザの修正入力を受け付けて、実際の担当者とカストディアンの名前を特定することができる(S17)。
次に、文書分析作業を実施するために、デジタル文書情報を抽出することができる(S18)。
更新された文書分析データベースとして、更新されたキーワードデータベース、関連用語データベース、及びスコア算出データベースを検索して(S19)、抽出文書情報に分別符号を付与することができる(S20)。
また、レビュアーによる分別符号を受け付けて、抽出文書情報に分別符号を付与することができる(S21)。
分別結果を教師データとして、データベースを検索し、抽出文書情報に分別符号を付与することができる(S22)。
主任弁護士又は弁理士によるレビューを受け付けることができる(S23)。これにより、調査の質を向上させることができる。
ユーザの引数指定によりカテゴリを特定し(S24)、特定されたカテゴリに応じて報告作成データベースを特定することができる(S25)。特定された報告作成データベースにより、報告書の形式を定め、報告書を自動出力することができる(S26)。
図8は、本発明の実施形態に係る文書分析方法における調査種類に応じた調査及び分別処理の流れを示すチャートである。
最初に、調査種類を入力することができる(S31)。すなわち、表示画面の表示に応じて、ユーザが、例えば、反トラスト、特許、海外賄賂禁止(FCPA)、製造物責任(PL)を含む訴訟案件又は情報漏洩、架空請求を含む不正調査から実施しようとする調査及び分別作業と対応するカテゴリを入力する。文書分析システムは、ユーザのカテゴリの入力を受け付けて、調査対象となるカテゴリを特定することができる。
特定されたカテゴリに応じて、調査及び文書分析処理の種類と使用するデータベースの種類を判定することができる(S32)。
特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースに記憶された情報のストックにアクセスしてもよい(S33)。
特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各キーワード入力画面を表示することができる(S34)。
特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各文章入力画面を表示することができる(S35)
特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じてキーワードもしくは文書を抽出することができる(S36)。
上述の処理を実行することにより、自動分別符号付与(予測コーディング)の教師データに重み付けを追加して行うことができる(S37)。
文書分析データベースをキーワード検索することにより、抽出文書及び情報の絞り込みを行うことができる(S38)。
図9は、本発明の実施形態に係る文書分析方法における調査種類に応じた予測コーディングの流れを示すチャートである。
本発明の実施形態に係る文書分析方法では、最初に、文書分析システムが調査の種類に応じてユーザに入力を求め、それに対するユーザの入力を受け付けることができる。例えば、反トラスト法と関連してカルテルについて、対象製品、関係者(氏名とメールアドレス)、関係組織(名称と部門)及び時期について、ユーザの入力を求め、それに対するユーザの入力を受け付けることができる。その他に、関係組織については、競争相手企業と顧客企業に関してユーザの入力を求め、それに対するユーザの入力を受け付けることができる(S51)。
次に、入力キーワードによって、分別符号付与に対する重み付けを行うことができる(S52)。そして、予測コーディングを行うことができる(S53)。
本発明の実施形態では、一例として、図10に示すようなフローチャートに従い、第1段階〜第5段階で、登録処理、分別処理、及び検査処理を行う。
第1段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う(S100)。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。
第2段階では、第1段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第1分別処理を行う(S200)。
第3段階では、第1段階で更新登録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第2分別処理を行う(S300)。
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第3分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(S400)。
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(S500)。また、必要に応じて、文書分析処理の結果に基づいて学習処理を行っても良い。
第4段階及び第5段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
第1段階から第5段階の各段階における詳細な処理フローを以下で説明する。
<第1段階(S100)>
第1段階におけるキーワードデータベース104の詳細な処理フローを図11を用いて説明する。
キーワードデータベース104は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(S111)。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する(S112)。そして、特定されたキーワードをキーワードデータベース104に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース104の分別符号「重要」の管理テーブルに記録する(S113)。
次に、関連用語データベース105の詳細な処理フローを図12を用いて説明する。関連用語データベース105は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する(S121)。本発明の実施形態においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を登録する。
登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(S122)、各管理テーブルに記録する(S123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する(S113、S123)。
<第2段階(S200)>
第2段階における第1自動分別部201の詳細な処理フローを、図13を用いて説明する。本発明の実施形態において、第2段階では、第1自動分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第1自動分別部201では、第1段階(S100)でキーワードデータベース104に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(S211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し(S212)、「重要」という分別符号を付与する(S213)。
<第3段階(S300)>
第3段階における第2自動分別部301の詳細な処理フローを、図14を用いて説明する。
本発明の実施形態において、第2自動分別部301では、第2段階(S200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第2自動分別部301は、該文書情報から、第1段階で関連用語データベース105に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(S311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)を用いて、スコア算出部116によりスコアを算出する(S312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
該スコアが閾値を超過した場合、関連用語対応情報を参照し(S313)、適切な分別符号を付与する(S314)。
例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
第2自動分別部301では、第4段階のS432において算出されるスコアを用いて以下に示す式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う(S315)。
例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
<第4段階(S400)>
第4段階では、図15に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図16に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
第4段階における分別符号受付付与部131の詳細な処理フローを、図15を用いて説明する。第4段階での処理対象となる文書情報からまず情報抽出部24が、ランダムに文書をサンプリングし、文書表示部130上で表示する。本発明の実施形態では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
ユーザは文書表示部130上に表示される図21に示す表示用画面11を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部131は、該ユーザが選択した分別符号を受け付け(S411)、付与された分別符号に基づいて分別する(S412)。
次に、文書解析部118の詳細な処理フローを、図16を用いて説明する。文書解析部118では、分別符号受付付与部131で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(S421)。抽出した共通の単語の評価値を式(2)により解析し(S422)、該共通の単語の文書中の出現頻度を解析する(S423)。
さらに、S422及びS423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(S424)。
図17は、S424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
図17において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部131によってS421で抽出された単語を含む文書の割合を示している。
本発明の実施形態において、分別符号受付付与部131では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
S421乃至S424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
次に、第3自動分別部401の詳細な処理フローを、図18を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、S411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第3自動分別部401では、このような文書から、S424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(S431)、抽出した文書について、傾向法をもとに式(1)を用いてスコアを算出する(S432)。また、S431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(S433)。
第3自動分別部401では、さらに、S432で算出したスコアを用いて、分別結果を各データベースに反映する(S434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。
更に、第3自動分別部401の詳細な処理フローの一例を、図19を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、S411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第3自動分別部401では、引数が与えられなかった場合には(S441:なし)、該文書から、S424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(S442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(S443)。また、S442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(S444)。
第3自動分別部401では、さらに、S443で算出したスコアを用いて、分別結果を各データベースに反映する(S445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
上述のように第2自動分別部301と第3自動分別部401の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース106に一括して格納しても良い。
<第5段階(S500)>
第5段階における品質検査部501の詳細な処理フローを図20を用いて説明する。品質検査部501では、分別符号受付付与部131が、S411で受け付けた文書に対して、文書解析部118がS424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(S511)。
分別符号受付付与部131が受け付けた分別符号とS511で決定した分別符号とを比較し(S512)、S411で受け付けた分別符号の妥当性を検証する(S513)。
本発明の実施形態に係る文書分析システム1は、学習部601を備えても良い。学習部601では、第1から第4の処理結果をもとに、各キーワード又は関連用語の重みづけを式(2)により学習する。該学習結果をキーワードデータベース104、関連用語データベース105、又はスコア算出データベース106に反映しても良い。
本発明の実施形態に係る文書分析システム1は、文書分析処理の結果をもとに、訴訟案件(例えば、訴訟であればカルテル・特許・FCPA・PLなど)又は不正調査(例えば、情報漏洩、架空請求など)の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備えることができる。
調査種類によって、調査する内容は異なる。
例えば、カルテル案件であれば、
1.競合の担当者がカルテルに関連する意思疎通(価格の調整)を、いつ・どのように取ったか?
2.関係者はどの組織の誰か?
がポイントになる。
また、特許侵害であれば、
1.侵害の対象となっている技術と内容が同じか?
2.誰が、いつ、どのような意図をもって(もたずに)侵害したか、もしくはしていないか?
といったことがポイントになる。
本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムについて以下に記載する。
本発明の実施形態の他の実施例に係る文書調査報告システムでは、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する。そして調整された分別符号を付与する範囲に基づいて、分別作業及び調査作業を行い、分別作業及び調査作業の結果に基づいて報告を作成する。
類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。
本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。
本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。
本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムでは、これらの分別作業及び調査の結果に基づいて、報告を作成する。
これにより、本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムでは、的確な調査報告を迅速に作成することが可能となると共に、分別作業及び報告作成作業に伴う負担を軽減することができる。
本発明の実施形態の他の実施例では、ユーザに対し、調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部を備えることができる。
本発明の実施形態の他の実施例では、表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび/または文章の入力を受け付ける入力受付部を備えることができる。
本発明の文書分析プログラムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析プログラムであって、コンピュータに、訴訟または不正調査の原因となる所定の行為が生じる生成過程モデルを、当該所定の行為の進展に応じて分類するフェーズごとに格納するとともに、前記訴訟または不正調査に関連する情報を、当該訴訟または不正調査が属するカテゴリおよび前記生成過程モデルごとにさらに格納し、前記フェーズの時間的な序列を示す時系列情報、および前記訴訟または不正調査に関連する複数の人物の関係性をさらに格納する調査基礎データベースを参照し、前記訴訟または不正調査に関連する情報、前記生成過程モデル、前記時系列情報、および前記複数の人物の関係性に基づいて前記文書情報を分析し、現在のフェーズを特定させる特定機能を実現させる。
上記特定機能は、上記特定部により実現されることができる。詳細については上述した通りである。
本発明の実施形態は、訴訟案件又は不正調査案件のカテゴリについてユーザの入力を受け付けることにより、カテゴリに応じて自動的にデータベースを更新する。これにより担当者、カストディアンの氏名等を入力する事務作業の負担が軽減される。また、カテゴリに応じて自動的に更新されたデータベースにより検索ワードを調整し、調整された検索ワードを用いて当該文書情報に対して分別符号を自動で付与する。これにより、訴訟又は不正調査案件に利用する文書情報の分別作業の負担が軽減される。
すなわち、本発明により、訴訟に利用する文書情報の分析が容易になる。
文書分析システム1の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム1は、各機能を実現するソフトウェアであるプログラム(制御プログラム)の命令を実行するCPU、上記プログラム及び各種データがコンピュータ(又はCPU)で読み取り可能に記録されたROM(Read Only Memory)又は記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(又はCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述したそれぞれの実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析システムであって、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースと、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付部と、前記調査カテゴリ入力受付部が受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記調査基礎データベースから、必要な情報の種類を抽出する調査種類判定部とを備える文書分析システム。
前記文書分析システムは、さらに、ユーザに対し、前記調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび/または文章の入力を受け付ける入力受付部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記調査基礎データベースから、前記調査種類判定部が抽出した情報の種類に対応した、キーワードおよび/または文章を抽出する情報抽出部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記キーワードおよび/または文章を、前記文書の中から検索する検索部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記文書に対して自動で分別符号を付与する自動分別符号付与部を備え、前記キーワードおよび/または文章は、前記分別符号の付与に利用されることを特徴とする文書分析システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析方法であって、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付ステップと、前記調査カテゴリ入力受付ステップが受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定ステップとを備える文書分析方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析プログラムであって、コンピュータに、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付機能と、前記調査カテゴリ入力受付機能により受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定機能とを実現させるための文書分析プログラム。