JP5622969B1

JP5622969B1 - 文書分析システム、文書分析方法、および、文書分析プログラム

Info

Publication number: JP5622969B1
Application number: JP2014511635A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 喜勝白井; 秀樹武田; 和巳蓮子; 彰晃花谷
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2014-02-04
Filing date: 2014-02-04
Publication date: 2014-11-12
Anticipated expiration: 2034-02-04
Also published as: TWI518532B; WO2015118616A1; US20170011479A1; JPWO2015118616A1; TW201539215A

Abstract

既存のデータを分析することによって、将来起こり得る事象を予測する。文書分析システム（１）は、文書情報から抽出された文書が、当該文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出部（１１６）と、訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、算出された上記スコアに基づいて特定するフェーズ特定部（１２２）と、フェーズの時間的な遷移に基づいて、特定されたフェーズの変化を推定する変化推定部（１２０）とを備えている。

Description

本発明は、所定のコンピュータまたはサーバに記録された文書情報を分析する文書分析システム等に関するものである。

本発明の背景技術を、例えば、訴訟案件又は不正調査案件を調査案件とする場合について説明する。従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟ではｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムにおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。

このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。

上記問題を解決するための文書分別システムが、特許文献４に提案されている。特許文献４には、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、前記文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、前記抽出された文書群を画面上に表示する文書表示部と前記表示された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、前記選定したキーワードを記録するデータベースと、前記データベースに記録されたキーワードを前記文書情報から探索する探索部と、前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、前記スコアの結果に基づいて自動で分別符号を付与する自動分別部を備える文書分別システムについて開示されている。

また、特許文献５には、過去の時系列データから当該時系列の特徴を取得する特徴取得手段と、前記特徴取得手段で取得された特徴量を元に回帰木を作成する作成手段と、前記特徴取得手段と同じアルゴリズムを用いて現在の時系列データから特徴量を取得する現時系列特徴取得手段と、前記現時系列特徴取得手段で取得された特徴量と、前記作成手段で作成された回帰木とを用いて将来の予測値を求める予測手段とを備えることを特徴とする時系列予測装置について開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報特開２０１３−１８２３３８号公報特開２００１−１７５７３５号公報

しかし、特許文献４に開示された文書分別システムは、訴訟が提起された段階において、過去の事象を分析するものであるため、これから起こり得る事象を予測することによって、例えば、訴訟に発展することを未然に防ぐなどの予防措置をとることはできなかった。また、特許文献５のような時系列予測装置は、訴訟に利用する文書情報の分析を容易にすることを目的とするものではない。

本発明は、上記の課題に鑑みてなされたものであり、その目的は、既存のデータを分析することによって、将来起こり得る事象を予測する文書分析システム及び文書分析方法並びに文書分析プログラムを提供することである。

上記課題を解決するために、本発明の文書分析システムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析システムであって、前記文書情報から抽出された文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出部と、前記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記スコア算出部によって算出されたスコアに基づいて特定するフェーズ特定部と、前記フェーズの時間的な遷移に基づいて、前記フェーズ特定部によって特定されたフェーズの変化を推定する変化推定部とを備えている。

また、上記文書分析システムは、前記スコア算出部によって算出されたスコアの移動平均を算出するスコア移動平均算出部をさらに備え、前記変化推定部は、前記スコア移動平均算出部によって算出された移動平均と、所定のパターンとの相関を計算することによって、前記フェーズの変化を推定してよい。

また、上記文書分析システムは、前記変化推定部によって推定されたフェーズの変化を、ユーザに把握可能に提示する提示部をさらに備えてよい。

また、上記文書分析システムは、前記文章情報に含まれるキーワードおよび／または文章を用いて、前記複数の文書のそれぞれに前記分別符号を付与する分別符号付与部をさらに備えてよい。

また、上記課題を解決するために、本発明の文書分析方法は、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析方法であって、前記文書情報から抽出された文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出ステップと、前記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記スコア算出ステップにおいて算出したスコアに基づいて特定するフェーズ特定ステップと、前記フェーズの時間的な遷移に基づいて、前記フェーズ特定ステップにおいて特定したフェーズの変化を推定する変化推定ステップとを含んでいる。

また、上記課題を解決するために、本発明の文書分析プログラムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析プログラムであって、コンピュータに、前記文書情報から抽出された文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出させるスコア算出機能と、前記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記スコア算出機能によって算出されたスコアに基づいて特定させるフェーズ特定機能と、前記フェーズの時間的な遷移に基づいて、前記フェーズ特定機能によって特定されたフェーズの変化を推定させる変化推定機能とを実現させる。

本発明の文書分析システム、文書分析方法、および、文書分析プログラムによれば、既存のデータを分析することによって、将来起こり得る事象を予測することができる。したがって、上記文書分析システム等によれば、例えば、訴訟に発展するなどの好ましくない事態を未然に防ぐ措置を講じることができる。

本発明の実施形態に係る文書分析システムの構成例を示すブロック図変化推定部によって実行される推定（予測）を概略的に示すグラフ提示部によって提示される、フェーズが変化する様子を表す一例を示す模式図上記文書分析システムにおいて実行される処理の一例を示すフローチャート本発明の実施形態に係る文書分析方法において調査対象となる文書案件１と案件２の属性を示す表上記文書分析方法においてスコアと送信日の関係を示すグラフ上記文書分析方法においてスコアの移動平均と送信日の関係を示すグラフ上記文書分析方法においてスコアの差分移動平均と送信日の関係を示すグラフスコアの移動平均の差分（ＤＭＡ）、送信日付、主要（立ち上がり）端部、及び「イン（ＩＮ）」の関係を示す表図実施形態における段階ごとの処理の流れを示したチャート実施形態におけるキーワードデータベースの処理フローを示すチャート本実施形態における関連用語データベースの処理フローを示したチャート本実施形態における第１自動分別部の処理フローを示したチャート本実施形態における第２自動分別部の処理フローを示したチャート本実施形態における分別符号受付付与部の処理フローを示したチャート本実施形態における分別符号付与文書解析部の処理フローを示したチャート本実施形態における文書解析部での解析結果を示したグラフ本実施形態の１実施例における第３自動分別部の処理フローを示したチャート本実施形態の他の実施例における第３自動分別部の処理フローを示したチャート本実施形態における品質検査部の処理フローを示したチャート本実施形態における文書表示画面

〔文書分析システム１の構成〕
本発明の実施形態に係る文書分析システム１は、複数のコンピュータまたはサーバに記録された大量のデジタル情報（ビッグデータ）を取得し、当該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を時系列で分析するシステムである。ここで、例えば、訴訟、不正調査、金融事象、気象事象、または病気の診断と治療とに関する案件が、調査案件として選択される。

図１は、文書分析システム１の構成例を示すブロック図である。図１に示されるように、文書分析システム１は、データ格納部１００（デジタル情報格納領域１０１、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、報告作成データベース１０７）、データベース管理部１０９、文書抽出部１１２、ワード検索部１１４、スコア算出部１１６、フェーズ特定部１２２、変化推定部１２０、スコア移動平均算出部１４０、スコア差分移動平均算出部１４２、第１自動分別部２０１、第２自動分別部３０１、提示部１３０、分別符号受付付与部１３１、文書解析部１１８、および、第３自動分別部４０１を備えている。また、文書分析システム１は、傾向情報生成部１２４、品質検査部５０１、学習部６０１、報告作成部７０１、弁護士レビュー受付部１３３、言語判定部（図示せず）、翻訳部（図示せず）、スコア変化検出部（図示せず）、および、スコア変化判定部（図示せず）をさらに備えてよい。

（データ格納部１００）
データ格納部１００は、訴訟または不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報を、デジタル情報格納領域１０１に格納する。また、データ格納部１００は、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、および、報告作成データベース１０７を含む。なお、データ格納部１００は、図１に示されるように、文書分析システム１の内部に含まれる記録媒体であってもよいし、当該文書分析システム１と通信可能に接続された外部の記録媒体であってもよい。

調査基礎データベース１０３は、例えば、反トラスト、特許、海外賄賂禁止（Foreign Corrupt Practices Act；ＦＣＰＡ）、製造物責任（Products Liability；ＰＬ）などを含む訴訟案件、および／または、情報漏洩、架空請求などを含む不正調査のいずれのカテゴリーに属するかを示すカテゴリー属性、会社名、担当者、カストディアン、および、調査または分別入力画面の構成を保持する。

キーワードデータベース１０４は、取得されたデジタル情報に含まれる、文書の特定の分別符号、当該特定の分別符号と密接な関係を有するキーワード、および、当該特定の分別符号と当該キーワードとの対応関係を示すキーワード対応情報を保持する。

関連用語データベース１０５は、所定の分別符号、当該所定の分別符号が付与された文書において、出現頻度が高い単語からなる関連用語、および、当該所定の分別符号と関連用語との対応関係を示す関連用語対応情報を保持する。

スコア算出データベース１０６は、文書と分別符号との結びつきの強さを示すスコアを算出するために、当該文書に含まれるワードの重み付けを保持する。

報告作成データベース１０７は、カテゴリー、カストディアン、分別作業の内容に応じて定められる報告書の形式を保持する。

（データベース管理部１０９）
データベース管理部１０９は、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、および、報告作成データベース１０７のデータ内容の更新を管理する。データベース管理部１０９は、専用接続線またはインターネット回線９０１を介して情報格納装置９０２に接続されてよい。この場合、データベース管理部１０９は、情報格納装置９０２に格納されるデータの内容に基づいて、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、および、報告作成データベース１０７のデータ内容を更新してもよい。

（文書抽出部１１２）
文書抽出部１１２は、文書情報から複数の文書を抽出する。

（ワード検索部１１４）
ワード検索部１１４は、データベースに記録されたキーワードまたは関連用語を、文書情報から検索する。

（スコア算出部１１６）
スコア算出部１１６は、文書情報から抽出された文書が、当該文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出する。スコア算出部１１６は、上記スコアを時系列的に算出してよい。また、スコア算出部１１６は、上記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズごとに、上記スコアをそれぞれ算出してもよい。なお、上記スコアの算出方法については、後で詳細に説明する。

（フェーズ特定部１２２）
フェーズ特定部１２２は、スコア算出部１１６によって算出されたスコアに応じて、訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを特定する。

ここで、上記所定の行為は、例えば、反トラスト、特許、海外賄賂禁止、製造物責任、情報漏洩、架空請求などの不正な行為（例えば、競合との価格調整会議に参加するなど）に関連する行為であってよい。また、上記フェーズは、上記所定の行為が進展する各段階を示す指標である。例えば、「Relationship Building」（関係構築）というフェーズは、Competition（競合）というフェーズの前提となる顧客・競合と関係を構築する段階をいう。また、「Preparation」（準備）というフェーズは、競合（第三者であってもよい）とのCompetitionに関わる情報を交換する段階をいい、「Competition」（競合）というフェーズは、顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る段階をいう。そして、例えば、「顧客からの引き合い」という所定の行為は、「Relationship Building」（関係構築）というフェーズに属する。「競合の生産状況の入手」という所定の行為は、「Preparation」（準備）というフェーズに属する。

フェーズ特定部１２２は、スコア算出部１１６によって算出されたスコアに基づいて、「現在どのようなフェーズにあるか」を特定する。具体的には、上記フェーズに対応するスコアがスコア算出部１１６によってそれぞれ算出され、フェーズ特定部１２２は、上記スコアをそれぞれ比較した結果に応じて、上記フェーズ（例えば、上記スコアの最大値をとるフェーズ）を特定する。

あるいは、スコアの値の範囲にそれぞれのフェーズが対応付けられており、フェーズ特定部１２２は、上記スコアに対応するフェーズを特定してもよい。または、フェーズ特定部１２２は、所定の行動主体（個人または複数人で構成される組織）が、上記所定の行為に至る過程を表すモデル（観測過程、尤度関数）の尤度（それぞれのフェーズに応じて上記スコアとして計算される値）を最大化するフェーズ（最尤フェーズ）を特定してもよい。

（変化推定部１２０）
変化推定部１２０は、フェーズの時間的な遷移に基づいて、フェーズ特定部１２２によって特定されたフェーズの変化を推定する。具体的には、例えば、「Relationship Building」（関係構築）というフェーズが、「Preparation」（準備）というフェーズを経て、「Competition」（競合）というフェーズに発展するという一連の遷移が、（例えば、フェーズの時間的な序列を示す時系列情報を保持するなどによって）明らかである場合において、現在のフェーズが「Preparation」（準備）のフェーズにあるとフェーズ特定部１２２によって特定された場合、変化推定部１２０は、次は「Competition」（競合）というフェーズに発展すると推定する。

または、変化推定部１２０は、スコア移動平均算出部１４０によって算出された移動平均と、所定のパターンとの相関を計算することによって、フェーズの変化を推定してもよい。ここで、上記所定のパターンは、当該訴訟または不正調査とは異なる他の訴訟または不正調査において算出されたスコアが、時間の経過とともに変化するパターンであってよい。

例えば、過去に提起された訴訟において、証拠資料を提出するために当該訴訟に関連する分析し、上記スコアの移動平均が算出されていた場合、変化推定部１２０は、当該移動平均を上記所定のパターンとし、今回分析される文書情報に対するスコアの移動平均と、当該所定のパターンとの相関を計算する。言い換えれば、変化推定部１２０は、経過時間および／またはスコアをずらしながら、両者の一致度（相関）を計算する。両者の相関が高くなる場合、変化推定部１２０は、今回のスコアは将来において、上記所定のパターンに連動するように、同様の値をとると推定する。これにより、フェーズ特定部１２２によって、将来とり得るスコアに基づいて将来のフェーズが特定される。

図２は、変化推定部１２０によって実行される推定（予測）を概略的に示すグラフである。当該グラフの縦軸はスコアの大きさを表し、横軸は経過時間を表す。図２に示されるように、今回算出されたスコア（の移動平均）が、過去に算出されたスコア（の移動平均、所定のパターン）と一致度（相関）が高い場合、未算出である将来のスコアも一致度が高いと考えられるため、変化推定部１２０は、過去のスコアに連動するように、将来のスコアを推定する。

（スコア移動平均算出部１４０）
スコア移動平均算出部１４０は、スコア算出部１１６によって算出されたスコアの移動平均を算出する。

（スコア差分移動平均算出部１４２）
スコア差分移動平均算出部１４２は、上記スコアの短期間移動平均と長期間移動平均とから、上記スコアの差分移動平均を算出する。

（第１自動分別部２０１）
第１自動分別部２０１は、ワード検索部１１４によってキーワードデータベース１０４に格納されたキーワードが検索され、文書抽出部１１２によって当該キーワードを含む文書が文書情報から抽出された場合、当該抽出された文書に対して、キーワード対応情報に基づいて特定の分別符号を自動的に付与する。

（第２自動分別部３０１）
第２自動分別部３０１は、関連用語データベースに格納された関連用語を含む文書が文書情報から抽出され、当該抽出された文書に含まれる関連用語の評価値、および当該関連用語の数に基づいて、スコアが算出された場合、上記関連用語を含む文書のうち、当該スコアが一定値を超過した文書に対して、当該スコアおよび関連用語対応情報に基づいて、所定の分別符号を自動的に付与する。

（提示部１３０）
提示部１３０は、変化推定部１２０によって推定されたフェーズの変化を、ユーザに把握可能に提示する。

図３は、提示部１３０によって提示される、フェーズが変化する様子を表す一例を示す模式図である。図３に示されるように、フェーズ特定部１２２によって特定された現在のフェーズが、変化推定部１２０によって推定されたフェーズに今後変化していく様子が、ユーザに把握（視認）可能に提示される。図３に示される例において、縦軸はフェーズ（カテゴリー、クラス）を表し、横軸は経過時間を表す。また、円の大きさは分析した文書の数を表し、色の種類または濃度は尤度の大きさを表してもよい。円が点線によって描かれている場合、当該円は予測（推定）した結果を表しており、当該円の大きさは予測文書数を表し、色は予測の信頼度を表してもよい。なお、提示部１３０は、文書情報から抽出された複数の文書を、画面上に表示してもよい。

（分別符号受付付与部１３１）
分別符号受付付与部１３１は、文書情報から抽出された、分別符号が付与されていない複数の文書に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、当該分別符号を付与する。

（文書解析部１１８）
文書解析部１１８は、分別符号受付付与部１３１によって分別符号を付与された文書を解析する。また、文書解析部１１８は、訴訟との関連性に基づいて、ユーザから分別符号を受け付けて付与した文書に加え、第１自動分別部２０１および第２自動分別部３０１において、キーワード、関連用語、スコアに基づいて自動的に分別符号が付与された文書を解析し、ユーザから分別符号を受け付けて付与した上記文書と、自動的に分別符号が付与された上記文書とを統合して、総合的な解析結果を得てもよい。この場合、第３自動分別部４０１は、当該総合的な解析結果に基づいて、分別符号を自動的に付与することができる。

なお、分別および調査作業の進め方には、ワード検索による自動分別、ユーザによる分別および調査の受け付け、スコアを用いる自動分別および調査、学習過程を介在させる自動分別および調査、品質保証を介在させる自動分別および調査など、多様な進め方がある。上記多様な分別および調査作業が、どのような順序で、どのように組み合わされて進行したかを示す進行履歴とともに、分別符号が付与された複数の文書を文書解析部１１８が解析し、後述する報告作成部７０１が当該解析した結果を報告してもよい。

（第３自動分別部４０１）
第３自動分別部４０１は、分別符号受付付与部１３１によって分別符号を付与された文書が、文書解析部１１８によって解析された結果に基づいて、文書情報から抽出された複数の文書に分別符号を自動的に付与する。

（傾向情報生成部１２４）
傾向情報生成部１２４は、文書解析部１１８が解析するために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する。

（品質検査部５０１）
品質検査部５０１は、分別符号受付付与部１３１によって受け付けられた分別符号と、文書解析部１１８によって傾向情報により付与された分別符号とを比較し、分別符号受付付与部１３１によって受け付けられた分別符号の妥当性を検証する。

（学習部６０１）
学習部６０１は、文書を分別処理した結果をもとに、各キーワードまたは関連用語の重み付けを学習する。学習部６０１は、第１から第４の処理結果（後述）をもとに、各キーワードまたは関連用語の重みづけを式（２）により学習する。学習部６０１は、当該学習結果をキーワードデータベース１０４、関連用語データベース１０５、またはスコア算出データベース１０６に反映してもよい。

（報告作成部７０１）
報告作成部７０１は、文書を分別処理した結果をもとに、訴訟案件または不正調査の調査種類に応じて、最適な調査レポートを出力する。なお、前述したように、訴訟案件には、例えば、反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）などが含まれる。また、不正調査には、例えば、情報漏洩、架空請求などが含まれる。

（弁護士レビュー受付部１３３）
弁護士レビュー受付部１３３は、分別調査と報告との質を向上させ、分別調査と報告との責任を明確にするために、主任弁護士または主任弁理士のレビューを受け付ける。

（その他の構成）
言語判定部（図示せず）は、抽出された文書の言語の種類を判定する。

翻訳部（図示せず）は、ユーザから指定を受け付けて、または、自動的に、抽出した文書を翻訳する。この場合、１文多言語の複合言語にも対応できるように、言語判定部における言語の区切りを、１文より小さくすることが望ましい。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか、または両方を用いてもよい。さらに、ＨＴＭＬ（Hyper Text Markup Language）のヘッダなどを、翻訳の対象から除外する処理を行うようにしてもよい。

スコア変化検出部（図示せず）は、スコア算出部１１６によって算出されたスコアの時系列的な変化を検出する。

スコア変化判定部（図示せず）は、スコア変化検出部１２０によって検出されたスコアの時系列的な変化から、調査案件と抽出された文書との関連度を判定する。

〔用語の説明〕
「分別符号」は、文書を分類するために用いられる識別子であって、文書を訴訟に利用することが容易となるように、当該訴訟との関連度を示す識別子である。例えば、訴訟において文書情報を証拠として利用する場合、証拠の種類に応じて付与されてよい。

「文書」は、１つ以上の単語を含むデータであり、例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書などであってよい。

「単語」は、意味を有する最少の文字列のまとまりである。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章には、「文書」、「１つ」、「以上」、「単語」、「含む」、「データ」、「いう」という単語が含まれる。

「キーワード」は、ある言語において、一定の意味を有する文字列のまとまりである。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」、「分別」とすることができる。本実施形態においては、「侵害」や「訴訟」、あるいは「特許公報○○号」などのキーワードが、重点的に選定される。なお、上記「キーワード」は、形態素を含んでよい。

「キーワード対応情報」は、キーワードと特定の分別符号との対応関係を表す情報である。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、上記「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」とを紐づけて管理する情報であってもよい。

「関連用語」は、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上の用語である。ここで、出現頻度は、例えば、ひとつの文書に登場する単語の総数のうち、関連用語が出現する割合であってよい。

「評価値」は、各単語がある文書において発揮する情報量を示す値である。「評価値」は、伝達情報量を基準に算出されてもよい。例えば、所定の商品名を分別符号として付与する場合、上記「関連用語」は、当該商品が属する技術分野の名称、当該商品の販売国、当該商品の類似商品名などを指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」などが挙げられる。

「関連用語対応情報」は、関連用語と分別符号との対応関係を表す情報をいう。例えば、訴訟に係る商品名である「製品Ａ」という分別符号が、製品Ａの機能である「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報であってもよい。

「スコア」は、ある文書において、特定の分別符号との結びつきの強さを定量的に評価した値をいう。本発明の各実施形態においては、例えば、以下の式（１）を用いて、文書に出現する単語と各単語の持つ評価値とによって、スコアが算出される。

文書分析システム１は、ユーザが付与した分別符号が共通する文書に頻出する単語を抽出してもよい。そして、文書ごとに含まれる、当該抽出した単語の種類、各単語がもつ評価値、および出現数の傾向情報を文書ごとに解析し、分別符号受付付与部１３１によって分別符号が受け付けられていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号を付与してもよい。

ここで、「傾向情報」は、各文書が持つ、分別符号が付与された文書との類似の度合いを表す情報であって、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される情報である。例えば、各文書が、所定の分別符号を付与された文書と、当該所定の分別符号との関連度において類似である場合に、当該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

〔文書分析システム１において実行される処理〕
図４は、文書分析システム１において実行される処理（本発明の実施形態に係る文書分析方法）の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、上記文書分析方法（文書分析システム１の制御方法）に含まれる各ステップを表す。

まず、スコア算出部１１６は、文書情報から抽出された文書が、当該文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出する（Ｓ１１、スコア算出ステップ）。次に、フェーズ特定部１２２は、上記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、スコア算出部１１６において算出したスコアに基づいて特定する（Ｓ１２、フェーズ特定ステップ）。そして、変化推定部１２０は、上記フェーズの時間的な遷移に基づいて、フェーズ特定部１２２において特定したフェーズの変化を推定する（Ｓ１３、変化推定ステップ）。

〔文書分析システム１において実行される処理の詳細〕
本発明の実施形態に係る文書分析方法について、さらに説明する。図５は、本発明の実施形態に係る文書分別調査方法において調査対象となる文書案件１と案件２との属性を表にして示す表である。

案件１および案件２の文書は、いずれもｅメールなどによって構成される。案件１および案件２の文書は、予測コーディング（その中でも、例えば、サンプリングやファイル種別分別など）を最適化するための事例として使用されてよい。重み付けとスコアは、「関連あり（Responsive）」文書に関する情報に基づいて算出される。なお、本発明の実施形態において、案件１のｅメール文書は主に英語で記載され、案件２のｅメール文書は日本語および英語の両方で記載される。案件１と案件２のｅメール文書は、部分集合として利用することが可能である。

また、本発明の実施形態においては、案件２のｅメール文書として、２０００年４月１日から２０１３年３月３１日のものが使用される。

案件２の文書を例として、スコアの時系列解析について説明する。最初に、図６を参照しながら、案件２に関してカストディアン１のｅメール文書について、スコアと送信日付の関係の一例を示す。

次に、スコアを基にして、スコアの移動平均を求め、当該移動平均を分析することによって得られる特徴と傾向について検討する。ここで、移動平均（Moving Average；ＭＡ）は、

である。ここで、ＳＭＡＭは、｛ＳｃｒＭ，ＳｃｒＭ−１，・・・，ＳｃｒＭ−（ｎ−１）｝の単純移動平均である。また、ＳｃｒＭは、ｅメール文書Ｍのスコアである。

単純移動平均ＳＭＡは、各々の文書（ｅメール）Ｍに関して、そのスコアＳｃｒＭとｅメールＭの送信日前の所定日数を送信日とするｅメールのスコア｛ＳｃｒＭ−１，・・・，ＳｃｒＭ−（ｎ−１）｝に基づいて計算される。所定日数は、適宜に定めることができ、本実施形態においては、短期として７日、中期として３０日、長期として９０日に定めている。

単純移動平均ＳＭＡを用いることにより、原スコア値の大きな揺らぎを滑らかにすることが可能である。

図７は、スコアの移動平均と送信日付の関係を示すグラフである。スコアの移動平均の所定日数は、上述したように短期（７日）、中期（３０日）、長期（９０日）とし、それぞれについて移動平均を算出し、図６に表示している。なお、図７において、「ホット（ＨＯＴ）」の点は、送信日付のみを示す。ここで、短期の移動平均については、大きく値が変動する箇所があり、当該箇所は「ホット（ＨＯＴ）」ｅメールとの相関が推測される。

次に、差分移動平均の算出について説明する。移動平均の差分（ＤＭＡ）は、

と表される。ここで、
ＭＡＭ１：移動平均１（短期間：例えば、短期（７日））
ＭＡＭ２：移動平均２（長期間：例えば、中期（３０日））
である。

差分移動平均△ＭＡＭ１２の値がプラスになる場合は、直前の期間（つまり、短期間）においてスコアの値が大きかったことを意味し、当該短期間中に比較的多くの「ホット（ＨＯＴ）」ｅメールの送付等がされ、調査すべき変化が発生したと推測される。したがって、差分移動平均によって、ｅメール文書に関して、スコアの単純な比較では得られない特徴と傾向を取得することが可能となる。ここでいう特徴と傾向の変化は、例えば、差分移動平均曲線の交差として検出される。

図８は、２００４年４月１日から２００６年３月３１日の間のスコアの移動平均の差分（ＤＭＡ）と送信日付の関係を示すグラフである。縦軸の移動平均の差分（ＤＭＡ）は移動平均によって正規化されている。

図９は、スコアの移動平均の差分（ＤＭＡ）、送信日付、主要（立ち上がり）端部（ＥＤＧＥ）、及び「イン（ＩＮ）」の関係を示す表である。「ホット（ＨＯＴ）」ｅメールと移動平均の差分（ＤＭＡ）との間の相関について検討する。また、差分移動平均（ＤＭＡ）曲線の主要（立ち上がり）端部への近接度についても検討する。

主要（立ち上がり）端部（ＥＤＧＥ）とは、移動平均の差分（ＤＭＡ）がマイナスからプラスへ変化する箇所、すなわち、移動平均の差分（ＤＭＡ）曲線と水平軸の交差点をいう。

「イン（ＩＮ）」は、移動平均の差分（ＤＭＡ）がプラスである領域を意味する。

カストディアン１の「ホット（ＨＯＴ）」ｅメール文書について、例えば、同一日付および同一スコア値の重複したｅメールの存否について検討する。重複したｅメール文書を削除することにより、「ホット（ＨＯＴ）」ｅメール文書の数は、９８ｅメールから８６ｅメールに低減される。異なるアドレスのため送信者を特定できないｅメールの数は、４ｅメールで数量的にはほとんど存在しない。

カストディアン１の「ホット（ＨＯＴ）」ｅメールについて、大半のスコアは大きな値ではないが、それらが送信された日付において、「端部（ＥＤＧＥ）」又は「イン（ＩＮ）」が検出されている。

２０１２年１１月及びその後に送信されたｅメール文書は、「端部（ＥＤＧＥ）」も「イン（ＩＮ）」も有しない。したがって、これらのｅメールは、カストディアン１と同じドメインの特定人物の間で行われた頻度の高い通信に関するものであると推測される。

時系列データについて以下に記載する。移動平均（ＭＡ）と移動平均の差分（ＤＭＡ）は、時系列データにおいて基本的な特徴と傾向を見出すための良い指標となる。

移動平均の差分（ＤＭＡ）の「端部（ＥＤＧＥ）」は、スコアの傾向の変化点を検出することが可能であるとともに、「ホット（ＨＯＴ）」ｅメールの存在を示す指標となりうる。

スコア値の移動平均（ＭＡ）又は移動平均の差分（ＤＭＡ）を用いる解析は、時系列データにおける特定の特徴（例えば可能性有「ホット（ＨＯＴ）」）を検出する可能性がある。それによって、特定のカストディアン又はカストディアンの特定のグループについての選択的情報提供（Selective Dissemination of Information；ＳＤＩ）を可能にする。

時系列データの解析の実行手順の一例を以下に記載する。

本発明の実施形態に係る時系列データの解析は、例えば、文書の分別と関連して文書の分別処理なかで行われる。文書の分別処理の一例を以下に記載する。文書の分別処理では、図１０に示すようなフローチャートに従い、第１段階〜第５段階で、登録処理、分別処理、及び検査処理によって行われる。

第１段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う（ＳＴＥＰ１００）。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。

第２段階では、第１段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第１分別処理を行う（ＳＴＥＰ２００）。

第３段階では、第１段階で更新登録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第２分別処理を行う（ＳＴＥＰ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第３分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（ＳＴＥＰ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（ＳＴＥＰ５００）。また、必要に応じて、文書分別処理の結果に基づいて学習処理を行っても良い。

第４段階及び第５段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

第１段階から第５段階の各段階における詳細な処理フローを以下で説明する。

＜第１段階（ＳＴＥＰ１００）＞
第１段階におけるキーワードデータベース１０４の詳細な処理フローを図１１を用いて説明する。

キーワードデータベース１０４は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（ＳＴＥＰ１１１）。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する（ＳＴＥＰ１１２）。そして、特定されたキーワードをキーワードデータベース１０４に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース１０４の分別符号「重要」の管理テーブルに記録する（ＳＴＥＰ１１３）。

次に、関連用語データベース１０５の詳細な処理フローを図１２を用いて説明する。関連用語データベース１０５は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する（ＳＴＥＰ１２１）。本発明の実施形態においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を登録する。

登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（ＳＴＥＰ１２２）、各管理テーブルに記録する（ＳＴＥＰ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する（ＳＴＥＰ１１３、ＳＴＥＰ１２３）。

＜第２段階（ＳＴＥＰ２００）＞
第２段階における第１自動分別部２０１の詳細な処理フローを、図１３を用いて説明する。本発明の実施形態において、第２段階では、第１自動分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１自動分別部２０１では、第１段階（ＳＴＥＰ１００）でキーワードデータベース１０４に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（ＳＴＥＰ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し（ＳＴＥＰ２１２）、「重要」という分別符号を付与する（ＳＴＥＰ２１３）。

＜第３段階（ＳＴＥＰ３００＞
第３段階における第２自動分別部３０１の詳細な処理フローを、図１４を用いて説明する。

本発明の実施形態において、第２自動分別部３０１では、第２段階（ＳＴＥＰ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２自動分別部３０１は、該文書情報から、第１段階で関連用語データベース１０５に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（ＳＴＥＰ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）を用いて、スコア算出部１１６によりスコアを算出する（ＳＴＥＰ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（ＳＴＥＰ３１３）、適切

な分別符号を付与する（ＳＴＥＰ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２自動分別部３０１では、第４段階のＳＴＥＰ４３２において算出されるスコアを用いて以下に示す式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う（ＳＴＥＰ３１５）。

例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（ＳＴＥＰ４００）＞
第４段階では、図１５に示すように、第３段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図１６に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第４段階では、例えば、「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。第４段階について、更に以下に記載する。

第４段階における分別符号受付付与部１３１の詳細な処理フローを、図１５を用いて説明する。第４段階での処理対象となる文書情報からまず文書抽出部１１２が、ランダムに文書をサンプリングし、文書表示部１３０上で表示する。本発明の実施形態では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは文書表示部１３０上に表示される図２１に示す文書表示画面１１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部１３１は、該ユーザが選択した分別符号を受け付け（ＳＴＥＰ４１１）、付与された分別符号に基づいて分別する（ＳＴＥＰ４１２）。

次に、文書解析部１１８の詳細な処理フローを、図１６を用いて説明する。文書解析部１１８では、分別符号受付付与部１３１で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（ＳＴＥＰ４２１）。抽出した共通の単語の評価値を式（２）により解析し（ＳＴＥＰ４２２）、該共通の単語の文書中の出現頻度を解析する（ＳＴＥＰ４２３）。

さらに、ＳＴＥＰ４２２及びＳＴＥＰ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（ＳＴＥＰ４２４）。

図１７は、ＳＴＥＰ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１７において、縦軸Ｒ＿ｈｏｔは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部１３１によってＳＴＥＰ４２１で抽出された単語を含む文書の割合を示している。

本発明の実施形態において、分別符号受付付与部１３１では、直線Ｒ＿ｈｏｔ＝Ｒ＿ａｌｌよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

ＳＴＥＰ４２１乃至ＳＴＥＰ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、第３自動分別部４０１の詳細な処理フローを、図１８を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第３自動分別部４０１では、このような文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４３１）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４３２）。また、ＳＴＥＰ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４３３）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。

更に、第３自動分別部４０１の詳細な処理フローの１例を、図１９を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第３自動分別部４０１では、引数が与えられなかった場合には（ＳＴＥＰ４４１：なし）、該文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４４３）。また、ＳＴＥＰ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４４４）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

上述のように第２自動分別部３０１と第３自動分別部４０１の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース１０６に一括して格納しても良い。

＜第５段階（ＳＴＥＰ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図２０を用いて説明する。品質検査部５０１では、分別符号受付付与部１３１が、ＳＴＥＰ４１１で受け付けた文書に対して、文書解析部１１８がＳＴＥＰ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（ＳＴＥＰ５１１）。

分別符号受付付与部１３１が受け付けた分別符号とＳＴＥＰ５１１で決定した分別符号とを比較し（ＳＴＥＰ５１２）、ＳＴＥＰ４１１で受け付けた分別符号の妥当性を検証する（ＳＴＥＰ５１３）。

〔文書分析システム１が奏する効果〕
文書分析システム１によれば、既存のデータを分析することによって、将来起こり得る事象を予測することができる。したがって、文書分析システム１によれば、例えば、訴訟に発展するなどの好ましくない事態を未然に防ぐ措置を講じることができる。

〔付記事項〕
文書分析システム１の制御ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム１は、各機能を実現するソフトウェアであるプログラム（制御プログラム）の命令を実行するＣＰＵ、上記プログラム及び各種データがコンピュータ（又はＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）又は記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（又はＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

本発明は上述したそれぞれの実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査する文書分別調査システムにおいて、前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出するスコア算出部と、算出されたスコアからスコアの時系列的な変化を検出するスコア変化検出部と、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査判定するスコア変化判定部とを備えることを特徴とする文書分別調査システム。

前記スコア変化検出部が、スコアの移動平均を算出するスコア移動平均算出部と、スコアの短期間移動平均と長期間移動平均からスコアの差分移動平均を算出するスコア差分移動平均算出部とを備えることを特徴とする文書分別調査システム。

スコア変化判定部が、異なる移動平均の差分の符号が変化する点、又は、異なる移動平均の差分が正である領域により調査案件と抽出された文書の関連度を調査判定することを特徴とする文書分別調査システム。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査することを特徴とする文書分別調査方法において、コンピュータが、前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出し、算出されたスコアからスコアの時系列的な変化を検出し、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査することを特徴とする文書分別調査方法。

スコアの移動平均を算出することにより、スコアの短期間移動平均と長期間移動平均を算出し、前記スコアの短期間移動平均と長期間移動平均からスコアの差分移動平均を算出することにより、スコアの時系列的な変化を検出することを特徴とする文書分別調査方法。

異なる移動平均の差分の符号が変化する点、又は、異なる移動平均の差分が正である領域により調査案件と抽出された文書の関連度を調査判定することを特徴とする文書分別調査方法。

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査する文書分別調査プログラムにおいて、コンピュータに、前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出させる機能と、算出されたスコアからスコアの時系列的な変化を検出する機能と、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査させる機能とを実現させることを特徴とする文書分別調査プログラム。

１文書分析システム
２０１第１自動分別部
３０１第２自動分別部
４０１第３自動分別部
５０１品質検査部
６０１学習部
７０１報告作成部
１００データ格納部
１０１デジタル情報格納領域
１０３調査基礎データベース
１０４キーワードデータベース
１０５関連用語データベース
１０６スコア算出データベース
１０７報告作成データベース
１０９データベース管理部
１１２文書抽出部
１１４ワード検索部
１１６スコア算出部
１１８文書解析部
１２０変化推定部
１２２フェーズ特定部
１２４傾向情報生成部
１３０提示部
１３１分別符号受付付与部
１３３弁護士レビュー受付部
１４０スコア移動平均算出部
１４２スコア差分移動平均算出部
１１文書表示画面

Claims

所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析システムであって、
前記文書情報から抽出された文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出部と、
前記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記スコア算出部によって算出されたスコアに基づいて特定するフェーズ特定部と、
前記フェーズの時間的な遷移に基づいて、前記フェーズ特定部によって特定されたフェーズの変化を推定する変化推定部と、
前記推定されたフェーズの変化を、ユーザに提示可能となるように、フェーズと経過時間とをそれぞれ軸として、前記スコアに基づく文書の数を表す提示部とを備えたことを特徴とする文書分析システム。
前記スコア算出部によって算出されたスコアの移動平均を算出するスコア移動平均算出部をさらに備え、
前記変化推定部は、前記スコア移動平均算出部によって算出された移動平均と、所定のパターンとの相関を計算することによって、前記フェーズの変化を推定することを特徴とする請求項１に記載の文書分析システム。
前記提示部は、前記変化推定部によって推定されたフェーズの変化として、円の大きさは予測文書数を表し、色は予測の信頼度を表すことを特徴とする請求項１または２に記載の文書分析システム。
前記文章情報に含まれるキーワードおよび／または文章を用いて、前記複数の文書のそれぞれに前記分別符号を付与する分別符号付与部をさらに備えたことを特徴とする請求項１から３のいずれか１項に記載の文書分析システム。
所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析方法であって、
コンピュータが、
前記文書情報から抽出された文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出ステップと、
前記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記スコア算出ステップにおいて算出したスコアに基づいて特定するフェーズ特定ステップと、
前記フェーズの時間的な遷移に基づいて、前記フェーズ特定ステップにおいて特定したフェーズの変化を推定する変化推定ステップと、
前記推定されたフェーズの変化を、ユーザに提示可能となるように、フェーズと経過時間とをそれぞれ軸として、前記スコアに基づく文書の数を表す提示するステップとを含むことを特徴とする文書分析方法。
所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析プログラムであって、コンピュータに、
前記文書情報から抽出された文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出させるスコア算出機能と、
前記訴訟または不正調査の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記スコア算出機能によって算出されたスコアに基づいて特定させるフェーズ特定機能と、
前記フェーズの時間的な遷移に基づいて、前記フェーズ特定機能によって特定されたフェーズの変化を推定させる変化推定機能と、
前記推定されたフェーズの変化を、ユーザに提示可能となるように、フェーズと経過時間とをそれぞれ軸として、前記スコアに基づく文書の数を表す提示機能とを実現させることを特徴とする文書分析プログラム。