JP5815911B1

JP5815911B1 - 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム

Info

Publication number: JP5815911B1
Application number: JP2015510547A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 秀樹武田; 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2014-05-13
Filing date: 2014-05-13
Publication date: 2015-11-17
Anticipated expiration: 2034-05-13
Also published as: WO2015173894A1; JPWO2015173894A1

Abstract

センテンスの文意を正しく反映したスコアを正確に算出する。文書分析システムは、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成部と、生成されたキーワードベクトルを、所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、センテンスごとに相関ベクトルを得る乗算部と、全ての相関ベクトルについて合算した値に基づいて、文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出部とを備えている。

Description

本発明は、文書を分析する文書分析システム等に関するものである。

米国の民事訴訟においては、ｅディスカバリ制度のもとで、訴訟の原告および被告の双方が、当該訴訟に関連するデジタル情報を証拠として提出する責任を負う。膨大な量の文書がデジタル情報として保存される近年においては、上記制度による訴訟当事者の負担が大きい。

上記負担を軽減するために、「フォレンジックシステム」と呼ばれる文書分析システムが、従来から提案されている。例えば、下記の特許文献１には、訴訟において証拠として提出するために収集されたデジタル文書を分析し、訴訟への利用が容易になるように分別する文書分別システムが開示されている。

特開２０１３−２１４１５２号公報（２０１３年１０月１７日公開）

上記の特許文献１に開示された文書分別システムによれば、抽出された文書に含まれる関連用語の評価値、および当該関連用語の数に基づいて、スコアが算出される。

しかし、上記文書分別システムによれば、例えば、（ａ）すべてのセンテンスに「価格」および「調整」というキーワードが含まれる文書、および（ｂ）各センテンスに「価格」または「調整」というキーワードが断片的に含まれる文書、という互いに性質の異なる２つの文書に対して、そのスコアに有意な差がつかない。所定のキーワードが含まれるか否かを示すキーワードベクトルは、文書ごとに生成されており、「文書」よりも小さい単位である「センテンス」の文意を正しく反映できる構造を、上記キーワードベクトルが有し得ないためである。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、センテンスの文意を正しく反映したスコアを正確に算出可能な文書分析システム等を提供することである。

上記課題を解決するために、本発明の一態様に係る文書分析システムは、文書を分析する文書分析システムであって、前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成部と、前記生成部によって生成されたキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算部と、前記乗算部によって得られた全ての相関ベクトルについて合算した値に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出部とを備えている。

ここで、上記キーワードベクトルは、例えば、当該キーワードベクトルのそれぞれの要素が「０」または「１」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記文書に含まれるか否かを示すベクトルである。また、上記相関マトリクスは、例えば「価格」というキーワードがセンテンスに出現した場合、当該センテンスにおいて、当該キーワードに対する他のキーワード（例えば「調整」）の出現しやすさ（すなわち、相関）を、当該相関マトリクスのそれぞれの要素において表す正方行列である。

上記構成によれば、上記文書分析システムは、キーワードベクトルをセンテンスごとに生成することによって、「センテンス」の文意を正しく反映できる構造（表現）をキーワードベクトルが有するため、互いに性質の異なる２つの文書について有意な差がつくように、スコアを正確に算出できる。

また、本発明の一態様に係る文書分析システムにおいて、前記算出部は、前記合算した値と、前記所定のキーワードに対する重みを示す重みベクトルとの内積を算出することによって、前記スコアを算出してよい。

また、本発明の一態様に係る文書分析システムは、前記文書において、前記所定のキーワードが最も多く含まれることを示す前記キーワードベクトルに対応するセンテンスを抽出する抽出部をさらに備えてよい。

また、本発明の一態様に係る文書分析システムは、前記文書において、前記所定のキーワードが含まれることを示す前記キーワードベクトルに対応するセンテンスを列挙することにより、当該文書の要約を生成する要約部をさらに備えてよい。

また、本発明の一態様に係る文書分析システムは、前記所定の事件の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記算出部によって算出されたスコアに基づいて特定する特定部をさらに備えてよい。

また、本発明の一態様に係る文書分析システムは、前記フェーズの時間的な遷移に基づいて、前記フェーズ特定部によって特定されたフェーズの変化を推定する変化推定部をさらに備えてよい。

また、本発明の一態様に係る文書分析システムは、前記算出部によって算出されたスコアに基づいて、前記文書に分別符号を付与する符号付与部をさらに備えてよい。

上記課題を解決するために、本発明の一態様に係る文書分析システムの制御方法は、文書を分析する文書分析システムの制御方法であって、前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成ステップと、前記生成ステップにおいて生成したキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算ステップと、前記乗算ステップにおいて得た全ての相関ベクトルについて合算した値に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出ステップとを含んでいる。

したがって、上記文書分析システムの制御方法は、上記文書分析システムと同じ効果を奏する。

上記課題を解決するために、本発明の一態様に係る文書分析システムの制御プログラムは、文書を分析する文書分析システムの制御プログラムであって、コンピュータに、前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成機能と、前記生成機能によって生成されたキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算機能と、前記乗算機能によって得られた全ての相関ベクトルについて合算した値に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出機能とを実現させる。

すなわち、本発明の各態様に係る文書分析システムは、コンピュータによって実現されてもよい。この場合、コンピュータを上記文書分析システムが備えた各部として動作させることによって、上記文書分析システムをコンピュータにおいて実現させる文書分析システムの制御プログラム、および当該制御プログラムを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

したがって、上記文書分析システムの制御プログラムは、上記文書分析システムと同じ効果を奏する。

本発明の一態様に係る文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラムは、キーワードベクトルをセンテンスごとに生成することによって、「センテンス」の文意を正しく反映できる構造（表現）をキーワードベクトルが有するため、互いに性質の異なる２つの文書について有意な差がつくように、スコアを正確に算出できるという効果を奏する。

本発明の第１の実施の形態に係る文書分析システムの要部構成を示すブロック図である。図１に示される文書分析システムが実行する処理の一例を示すフローチャートである。本発明の第２の実施の形態に係る文書分析システムの要部構成を示すブロック図である。図３に示される文書分析システムが実行する処理の一例を示すフローチャートである。図４に示される処理の一例における、調査種類に応じた調査および分別処理の一例を示すフローチャートである。図４に示される処理の一例における、調査種類に応じたプレディクティブコーディングの一例を示すフローチャートである。第２の実施の形態における段階ごとの処理の一例を示すフローチャートである。第２の実施の形態におけるキーワードデータベースの処理の一例を示すフローチャートである。第２の実施の形態における関連用語データベースの処理の一例を示すフローチャートである。第２の実施の形態における第１自動分別部の処理の一例を示すフローチャートである。第２の実施の形態における第２自動分別部の処理の一例を示すフローチャートである。第２の実施の形態における分別符号受付付与部の処理の一例を示すフローチャートである。第２の実施の形態における文書解析部の処理の一例を示したフローチャートである。第２の実施の形態における文書解析部での解析結果を示したグラフである。第２の実施の形態における第３自動分別部の処理の一例を示すフローチャートである。第２の実施の形態における第３自動分別部の処理の他の一例を示すフローチャートである。第２の実施の形態における品質検査部の処理の一例を示すフローチャートである。第２の実施の形態における文書表示画面の一例を示す模式図である。

〔実施形態１〕
図１〜図２に基づいて、本発明の第１の実施の形態（実施形態１）を説明する。

（文書分析システム１００の構成）
図１は、本発明の第１の実施の形態に係る文書分析システム１００の要部構成を示すブロック図である。文書分析システム１００は、文書を分析するシステム（文書分析システム）である。なお、上記文書分析システム１００は、以下で説明する処理を実行可能な機器でありさえすればよく、任意のコンピュータを用いて実現され得る。

図１に示されるように、文書分析システム１００は、受信部２１、制御部１０（取得部１１、生成部１２、乗算部１３、算出部１４、抽出部１５、要約部１６、フェーズ特定部１７、変化推定部１８）、および、表示部５０を備えている。

受信部２１は、所定の通信方式にしたがう通信網を介して外部と通信することによって、外部のコンピュータから文書データ１を受信する。受信部２１は、当該コンピュータとの通信を実現する本質的な機能が備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。受信部２１は、例えばイーサネット（登録商標）アダプタなどの機器で構成できる。また、受信部２１は、例えばIEEE802.11無線通信、Bluetooth（登録商標）などの通信方式や通信媒体を利用できる。

制御部１０は、文書分析システム１００が有する各種の機能を統括的に制御する。制御部１０は、取得部１１、生成部１２、乗算部１３、算出部１４、抽出部１５、要約部１６、フェーズ特定部１７、および変化推定部１８を含む。

取得部１１は、受信部２１によって受信された文書データ１を取得し、当該文書データ１を生成部１２に出力する。

生成部１２は、文書データ（文書）１に含まれるセンテンスに所定のキーワード（形態素）が含まれるか否かを示すキーワードベクトル２を、当該センテンスごとに生成する。上記キーワードベクトル２は、当該キーワードベクトル２のそれぞれの要素が「０」または「１」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記文書データ１に含まれるか否かを示すベクトルである。

例えば、上記文書データ１に含まれる２番目のセンテンスに、「価格」というキーワードが含まれている場合、生成部１２は、上記キーワードベクトル２の上記「価格」に対応する要素を「０」から「１」に変更する。生成部１２は、生成したキーワードベクトル２を、乗算部１３、抽出部１５、要約部１６、およびフェーズ特定部１７にそれぞれ出力する。

乗算部１３は、生成部１２によって生成されたキーワードベクトル２を、上記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、上記センテンスごとに相関ベクトル３を得る。上記相関マトリクスは、例えば「価格」というキーワードがセンテンスに出現した場合、当該センテンスにおいて、当該キーワードに対する他のキーワード（例えば「調整」）の出現しやすさ（すなわち、相関）を、当該相関マトリクスのそれぞれの要素において表す正方行列である。乗算部１３は、上記相関ベクトル３を算出部１４に出力する。

なお、上記相関マトリクスは、所定の文書データを所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、あるセンテンスにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を０〜１の間に正規化した値（すなわち、最尤推定値）が、上記相関マトリクスのそれぞれの要素に格納されている（したがって、上記相関マトリクスの各列に対する総和は１になる）。これにより、文書分析システム１００は、上記相関ベクトル３を最適に計算することができる。

算出部１４は、下記の〔数１〕に示されるように、乗算部１３によって得られた全ての相関ベクトル３について合算した値に基づいて、文書データ１と所定の事件との関連度を示す分別符号が、当該文書データ１と結びつく強さを示すスコア４を、当該文書データ１ごとに算出する。より具体的には、算出部１４は、下記の〔数１〕に示されるように、上記合算した値（縦ベクトルで表される）と、上記所定のキーワードに対する重みを示す重みベクトルＷ（横ベクトルで表される）との内積を算出することによって、上記スコア４を文書ごとに算出する。

ここで、上記〔数１〕において、Ｃは相関マトリクスを表し、ｓ_ｓはｓ番目のキーワードベクトル２を表す。また、ＴＦｎｏｒｍ（上記合算した値）は、下記の〔数２〕に示されるように計算する。

ここで、上記〔数２〕において、ＴＦ_ｉはｉ番目のキーワードの出現頻度（Term Frequency）を表し、ｓ_ｊｓは上記ｓ番目のキーワードベクトル２のｊ番目の要素を表す。

上記〔数１〕および〔数２〕をまとめると、算出部１４は、以下の〔数３〕を計算することによって文書ごとに上記スコア４を算出する。

ここで、上記〔数３〕において、ｗ_ｉは上記重みベクトルＷのｉ番目の要素である。算出部１４は、算出したスコア４をフェーズ特定部１７、変化推定部１８、および表示部５０に出力する。

抽出部１５は、上記文書データ１において、所定のキーワードが最も多く含まれることを示す上記キーワードベクトル２に対応するセンテンス（最多センテンス５）を抽出する。例えば、「企業Ａが販売する製品ａの価格は、企業Ｂが販売する製品ｂの価格よりも高いため、弊社で両製品の価格を調整しました」というセンテンスには、「価格」というキーワードが３回出現する。上記センテンスが「価格」というキーワードを最も多く含む場合、抽出部１５は、当該センテンスを上記最多センテンス５として表示部５０に出力する。なお、上記所定のキーワード（上記の例においては「価格」というキーワード）は、所定の入力機器を介して文書分析システム１００に与えられてよい。

要約部１６は、文書データ１において、上記所定のキーワードが含まれることを示す上記キーワードベクトル２に対応するセンテンスを列挙することによって、当該文書データ１の要約を生成する。例えば、要約部１６は、上記文書データ１に含まれるセンテンスであって、「価格」というキーワードを含むセンテンスを列挙することによって、上記要約を生成し、当該要約に関する情報を含む要約情報６を表示部５０に出力する。なお、前述と同様に、上記所定のキーワードは、所定の入力機器を介して文書分析システム１００に与えられてよい。

フェーズ特定部１７は、所定の事件（例えば、訴訟、不正調査、談合、情報漏洩、架空請求など）の原因となる所定の行為（複数人から構成される組織または個人によって行われる行為）を、当該所定の行為の進展に応じて分類するフェーズを、算出部１４によって算出されたスコア４に基づいて特定する。なお、上記所定の事件は、所定の入力機器を介して文書分析システム１００に与えられてよい。

ここで、上記フェーズは、上記所定の行為が進展する各段階を示す（上記所定の行為の進展に応じて分類する）指標である。例えば、上記所定の事件として「談合」が指定された場合、「Relationship Building」（顧客・競合と関係を構築するフェーズ）、「Preparation」（第三者と競合に関する情報を交換するフェーズ）、「Competition」（顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取るフェーズ）などのフェーズが存在することを仮定できる。

フェーズ特定部１７は、例えば、上記スコア４が所定の値域におさまる場合、当該所定の値域に対応付けられたフェーズを特定し、当該フェーズに関する情報を含むフェーズ情報７を変化推定部１８に出力してよい。または、フェーズ特定部１７は、所定の行動主体（複数人から構成される組織または個人）が、上記所定の行為に至る過程を表すモデル（観測過程、尤度関数）の尤度（それぞれのフェーズに応じて上記スコアとして計算される値）を最大化するフェーズ（最尤フェーズ）を特定し、当該フェーズに関する情報を含むフェーズ情報７を変化推定部１８に出力してもよい。

または、生成部１２から上記キーワードベクトル２が入力された場合であって、当該キーワードベクトル２によって所定のキーワード（例えば、「価格」、「調整」など）が含まれていることが示されている場合、フェーズ特定部１７は、当該所定のキーワードに対応するフェーズを特定し（「価格」および「調整」というキーワードが含まれていた場合、「Competition」のフェーズにあると特定し）、当該フェーズに関する情報を含むフェーズ情報７を変化推定部１８に出力してもよい。

変化推定部１８は、上記フェーズの時間的な遷移に基づいて、フェーズ特定部１７によって特定されたフェーズの変化を推定する。例えば、「Relationship Building」（関係構築）というフェーズが、「Preparation」（準備）というフェーズを経て、「Competition」（競合）というフェーズに発展するという一連の遷移が、（例えば、フェーズの時間的な序列を示す時系列情報を用いることによって）明らかである場合において、現在のフェーズが「Preparation」（準備）のフェーズにあるとフェーズ特定部１７によって特定された場合、変化推定部１８は、次は「Competition」（競合）というフェーズに発展すると推定する。変化推定部１８は、上記フェーズの変化に関する情報を含む変化情報８を表示部５０に出力する。

または、変化推定部１８は、算出部１４によって算出されたスコア４の移動平均と、所定のパターンとの相関を計算することによって、フェーズの変化を推定してもよい。ここで、上記所定のパターンは、上記所定の事件（例えば、訴訟、不正調査、談合、情報漏洩、架空請求など）とは異なる他の事件において算出されたスコアが、時間の経過とともに変化するパターンであってよい。

例えば、過去に提起された訴訟において、証拠資料を提出するために当該訴訟に関連する分析を行い、上記スコアの移動平均が算出されていた場合、変化推定部１８は、当該移動平均を上記所定のパターンとし、今回分析される文書データ１に対するスコア４の移動平均と、当該所定のパターンとの相関を計算する。言い換えれば、変化推定部１８は、経過時間および／またはスコアをずらしながら、両者の一致度（相関）を計算する。両者の相関が高くなる場合、変化推定部１８は、今回のスコアは将来において、上記所定のパターンに連動するように同様の値をとると推定する。

表示部５０は、算出部１４から入力されたスコア４、抽出部１５から入力された最多センテンス５、要約部１６から入力された要約情報６、および変化推定部１８から入力された変化情報８を表示可能な表示装置（例えば、液晶ディスプレイ）である。なお、図１は、文書分析システム１００が表示部５０を含む構成例を示すが、表示部５０は、上記したそれぞれの情報をユーザに提示可能でありさえすればよく、例えば、文書分析システム１００に通信可能に接続された外部の表示装置であってもよい。

（文書分析システム１００が実行する処理）
図２は、文書分析システム１００が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、文書分析システム１００の制御方法（文書分析システムの制御方法）に含まれる各ステップを表す。

まず、取得部１１は、文書データ１を取得する（ステップ１、以下「ステップ」を「Ｓ」と略記する）。次に、生成部１２は、上記文書データ１に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトル２を、当該センテンスごとに生成する（Ｓ２、生成ステップ）。

次に、乗算部１３は、Ｓ２において生成したキーワードベクトル２を、上記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、上記センテンスごとに相関ベクトル３を得る（Ｓ３、乗算ステップ）。

最後に、算出部１４は、Ｓ３において得た全ての相関ベクトル３について合算した値に基づいて、上記文書データ１と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコア４を算出する（Ｓ４、算出ステップ）。

なお、上記制御方法は、図２を参照して前述した上記処理だけでなく、取得部１１、抽出部１５、要約部１６、フェーズ特定部１７、および／または、変化推定部１８において実行される処理を任意に含んでよい。

〔実施形態２〕
図３〜図１８に基づいて、本発明の第２の実施の形態（実施形態２）を説明する。本実施の形態では、実施形態１に追加される構成や、実施形態１の構成とは異なる構成のみについて説明する。すなわち、実施形態１において記載された構成は、実施形態２にもすべて含まれ得る。また、実施形態１において記載された用語の定義は、実施形態２においても同じである。

（文書分析システム１０１の構成）
図３は、本発明の実施の形態２に係る文書分析システム１０１の要部構成を示すブロック図である。文書分析システム１０１は、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析するシステムである。

図３に示されるように、文書分析システム１０１は、実施の形態１において説明した制御部１０（取得部１１、生成部１２、乗算部１３、算出部１４、抽出部１５、要約部１６、フェーズ特定部１７、変化推定部１８）に加えて、データ格納部１０８（デジタル情報格納領域１０２、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、報告作成データベース１０７）、データベース管理部１０９、情報抽出部２４、検索部３０、文書解析部１１８、調査カテゴリ入力受付部２０、調査種類判定部２２、提示部１３０、カテゴリ選択部２６、第１自動分別部２０１、第２自動分別部３０１、分別符号受付付与部１３１、および、第３自動分別部４０１をさらに備えている。また、文書分析システム１０１は、傾向情報生成部１２４、品質検査部５０１、学習部６０１、報告作成部７０１、弁護士レビュー受付部１３３、言語判定部１２０、翻訳部１２２をさらに備えてよい。

調査カテゴリ入力受付部２０は、ユーザによるカテゴリの入力を受け付ける。カテゴリが入力された場合、調査カテゴリ入力受付部２０は、当該カテゴリを調査種類判定部２２およびカテゴリ選択部２６に出力する。ここで、上記カテゴリは、複数の文書に含まれるそれぞれの文書を分類可能な指標である。

例えば、上記カテゴリは、訴訟または不正調査の種類（当該訴訟または不正調査に係る事件の性質を表すものであり、例えば、反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）、情報漏洩、架空請求などを含む）である。または、上記カテゴリは、文書情報の属性（文書情報に含まれる情報の性質を表すものであり、例えば、競合する相手方の情報、価格、見積もりシート、金額一覧、製品など）であってもよい。あるいは、上記カテゴリは、訴訟または不正調査の原因となる所定の行為の進展に応じて分類するフェーズであってもよい。

調査種類判定部２２は、上記調査カテゴリ入力受付部２０によって受け付けられたカテゴリに基づいて、調査の対象とするカテゴリを判定し、調査基礎データベース１０３から必要な情報の種類を抽出する。例えば、上記文書情報が、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、または事業計画書である場合、調査種類判定部２２は、それぞれを上記必要な情報の種類として情報抽出部２４に出力する。したがって、文書分析システム１０１は、上記必要な情報の種類を抽出できる。

情報抽出部２４は、文書情報から複数の文書を抽出する。具体的には、情報抽出部２４は、調査種類判定部２２から入力された情報（例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など）から、当該情報に含まれるキーワードおよび／または文章を、訴訟または不正調査に関連する情報として抽出し、当該抽出した結果を調査基礎データベース１０３に格納する。また、情報抽出部２４は、上記抽出した結果を文書データ１として制御部１０に出力する。したがって、文書分析システム１０１は、上記訴訟または不正調査に関連する情報を特定し、データベースに保持することができる。

カテゴリ選択部２６は、上記カテゴリを選択し、選択したカテゴリを制御部１０に出力する。カテゴリが複数想定されている場合、カテゴリ選択部２６は、当該複数のカテゴリから１つのカテゴリを順次選択できる。

また、調査カテゴリ入力受付部２０からカテゴリが入力された場合、カテゴリ選択部２６は、当該入力されたカテゴリを選択できる。これにより、文書分析システム１０１は、ユーザによって入力されたカテゴリを確実に選択できる。

提示部１３０は、制御部１０（算出部１４）によって算出されたスコア４を、ユーザに把握可能に提示する。提示部１３０は、例えば、上記スコア４を表示部５０（図３において図示せず）に表示することによって、当該スコア４をユーザに提示できる。これにより、文書分析システム１０１は、対象とされた文書がいずれのカテゴリに適合するかを、ユーザに把握させることができる。

検索部３０は、文書情報（文書データ１）に含まれるキーワードおよび／または文章を、複数の文書の中から検索する。これにより、文書分析システム１０１は、上記文書情報に含まれるキーワードおよび／または文章を抽出することができる。

第１自動分別部２０１は、検索部３０によってキーワードデータベース１０４に格納されたキーワードが検索され、情報抽出部２４によって当該キーワードを含む文書が文書情報から抽出された場合、当該抽出された文書に対して、キーワード対応情報に基づいて特定の分別符号を自動的に付与する。

第２自動分別部３０１は、関連用語データベースに格納された関連用語を含む文書が文書情報から抽出され、当該抽出された文書に含まれる関連用語の評価値、および当該関連用語の数に基づいて、スコアが算出された場合、上記関連用語を含む文書のうち、当該スコアが一定値を超過した文書に対して、当該スコアおよび関連用語対応情報に基づいて、所定の分別符号を自動的に付与する。

分別符号受付付与部１３１は、文書情報から抽出された、分別符号が付与されていない複数の文書に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、当該分別符号を付与する。

文書解析部１１８は、分別符号受付付与部１３１によって分別符号を付与された文書を解析する。また、文書解析部１１８は、訴訟との関連性に基づいて、ユーザから分別符号を受け付けて付与した文書に加え、第１自動分別部２０１および第２自動分別部３０１において、キーワード、関連用語、スコアに基づいて自動的に分別符号が付与された文書を解析し、ユーザから分別符号を受け付けて付与した上記文書と、自動的に分別符号が付与された上記文書とを統合して、総合的な解析結果を得てもよい。この場合、第３自動分別部４０１は、当該総合的な解析結果に基づいて、分別符号を自動的に付与することができる。

なお、分別および調査作業の進め方には、ワード検索による自動分別、ユーザによる分別および調査の受け付け、スコアを用いる自動分別および調査、学習過程を介在させる自動分別および調査、品質保証を介在させる自動分別および調査など、多様な進め方がある。上記多様な分別および調査作業が、どのような順序で、どのように組み合わされて進行したかを示す進行履歴とともに、分別符号が付与された複数の文書を文書解析部１１８が解析し、後述する報告作成部７０１が当該解析した結果を報告してもよい。

第３自動分別部４０１は、分別符号受付付与部１３１によって分別符号を付与された文書が、文書解析部１１８によって解析された結果に基づいて、文書情報から抽出された複数の文書に分別符号を自動的に付与する。

傾向情報生成部１２４は、文書解析部１１８が解析するために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する。

品質検査部５０１は、分別符号受付付与部１３１によって受け付けられた分別符号と、文書解析部１１８によって傾向情報により付与された分別符号とを比較し、分別符号受付付与部１３１によって受け付けられた分別符号の妥当性を検証する。

学習部６０１は、文書を分別処理した結果をもとに、各キーワードまたは関連用語の重み付けを学習する。学習部６０１は、第１から第４の処理結果（後述）をもとに、各キーワードまたは関連用語の重みづけを式（３）により学習する。学習部６０１は、当該学習結果をキーワードデータベース１０４、関連用語データベース１０５、またはスコア算出データベース１０６に反映してもよい。

報告作成部７０１は、文書を分別処理した結果をもとに、訴訟案件または不正調査の調査種類に応じて、最適な調査レポートを出力する。なお、前述したように、訴訟案件には、例えば、反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）などが含まれる。また、不正調査には、例えば、情報漏洩、架空請求などが含まれる。

弁護士レビュー受付部１３３は、分別調査と報告との質を向上させ、分別調査と報告との責任を明確にするために、主任弁護士または主任弁理士のレビューを受け付ける。

言語判定部１２０は、抽出された文書の言語の種類を判定する。

翻訳部１２２は、ユーザから指定を受け付けて、または、自動的に、抽出した文書を翻訳する。この場合、１文多言語の複合言語にも対応できるように、言語判定部における言語の区切りを、１文より小さくすることが望ましい。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか、または両方を用いてもよい。さらに、ＨＴＭＬ（Hyper Text Markup Language）のヘッダなどを、翻訳の対象から除外する処理を行うようにしてもよい。

データ格納部１０８は、訴訟または不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報を、デジタル情報格納領域１０２に格納する。また、データ格納部１０８は、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、および、報告作成データベース１０７を含む。なお、データ格納部１０８は、図３に示されるように、文書分析システム１０１の内部に含まれる記録媒体であってもよいし、当該文書分析システム１０１と通信可能に接続された外部の記録媒体であってもよい。

調査基礎データベース１０３は、例えば、反トラスト、特許、海外賄賂禁止（Foreign Corrupt Practices Act；ＦＣＰＡ）、製造物責任（Products Liability；ＰＬ）などを含む訴訟案件、および／または、情報漏洩、架空請求などを含む不正調査のいずれに属するかを示す事件属性、会社名、担当者、カストディアン、および、調査または分別入力画面の構成を保持する。

キーワードデータベース１０４は、取得されたデジタル情報に含まれる、文書の特定の分別符号、当該特定の分別符号と密接な関係を有するキーワード、および、当該特定の分別符号と当該キーワードとの対応関係を示すキーワード対応情報を保持する。

関連用語データベース１０５は、所定の分別符号、当該所定の分別符号が付与された文書において、出現頻度が高い単語からなる関連用語、および、当該所定の分別符号と関連用語との対応関係を示す関連用語対応情報を保持する。

スコア算出データベース１０６は、文書と分別符号との結びつきの強さを示すスコアを算出するために、当該文書に含まれるワードの重み付けを保持する。

報告作成データベース１０７は、カテゴリ、カストディアン、分別作業の内容に応じて定められる報告書の形式を保持する。

データベース管理部１０９は、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、および、報告作成データベース１０７のデータ内容の更新を管理する。データベース管理部１０９は、専用接続線またはインターネット回線９０１を介して情報格納装置９０２に接続されてよい。この場合、データベース管理部１０９は、情報格納装置９０２に格納されるデータの内容に基づいて、調査基礎データベース１０３、キーワードデータベース１０４、関連用語データベース１０５、スコア算出データベース１０６、および、報告作成データベース１０７のデータ内容を更新してもよい。

（用語の説明）
「分別符号」は、文書を分類するために用いられる識別子であって、文書を訴訟に利用することが容易となるように、当該訴訟との関連度を示す識別子である。例えば、訴訟において文書情報を証拠として利用する場合、証拠の種類に応じて付与されてよい。

「文書」は、１つ以上の単語を含むデータであり、例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書などであってよい。

「単語」は、意味を有する最少の文字列のまとまりである。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章には、「文書」、「１つ」、「以上」、「単語」、「含む」、「データ」、「いう」という単語が含まれる。

「キーワード」は、ある言語において、一定の意味を有する文字列のまとまりである。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」、「分別」とすることができる。本実施形態においては、「侵害」や「訴訟」、あるいは「特許公報○○号」などのキーワードが、重点的に選定される。なお、上記「キーワード」は、形態素を含んでよい。

「キーワード対応情報」は、キーワードと特定の分別符号との対応関係を表す情報である。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、上記「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」とを紐づけて管理する情報であってもよい。

「関連用語」は、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上の用語である。ここで、出現頻度は、例えば、ひとつの文書に登場する単語の総数のうち、関連用語が出現する割合であってよい。

「評価値」は、各単語がある文書において発揮する情報量を示す値である。「評価値」は、伝達情報量を基準に算出されてもよい。例えば、所定の商品名を分別符号として付与する場合、上記「関連用語」は、当該商品が属する技術分野の名称、当該商品の販売国、当該商品の類似商品名などを指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」などが挙げられる。

「関連用語対応情報」は、関連用語と分別符号との対応関係を表す情報をいう。例えば、訴訟に係る商品名である「製品Ａ」という分別符号が、製品Ａの機能である「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報であってもよい。

「スコア」は、前述したように、ある文書において、特定の分別符号との結びつきの強さを定量的に評価した値をいう。本発明の各実施形態においては、例えば、前述した〔数１〕〜〔数３〕にしたがってスコアが算出される。

文書分析システム１０１は、ユーザが付与した分別符号が共通する文書に頻出する単語を抽出してもよい。そして、文書ごとに含まれる、当該抽出した単語の種類、各単語がもつ評価値、および出現数の傾向情報を文書ごとに解析し、分別符号受付付与部１３１によって分別符号が受け付けられていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号を付与してもよい。

ここで、「傾向情報」は、各文書が持つ、分別符号が付与された文書との類似の度合いを表す情報であって、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される情報である。例えば、各文書が、所定の分別符号を付与された文書と、当該所定の分別符号との関連度において類似である場合に、当該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

（文書分析システム１０１において実行される処理）
図４は、文書分析システム１０１が実行する処理の一例を示すフローチャートである。なお、図２に示されたフローは、図４に示されるフローから独立した処理として実行されてもよいし、図４に示されるフローの任意の箇所に内包される処理として実行されてもよい。

表示部５０の表示画面の表示に応じてユーザから引数の指定を受け付けて、例えば、反トラスト、特許、ＦＣＰＡ、ＰＬを含む訴訟案件、又は情報漏洩、架空請求を含む不正調査から対応するカテゴリを特定することができる（Ｓ１１）。特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースを特定することができる（Ｓ１２）。使用データベースが最新のものかどうかを確認するために、最新データベースを格納する情報格納装置９０２にアクセスすることができる。情報格納装置９０２は、分別を実施する組織の内部に設置される場合と、組織の外部に設置される場合がある。情報格納装置９０２が組織の外部に設置される場合として、例えば、提携する法律事務所又は特許事務所に設置される場合がある。

情報格納装置９０２にアクセスする場合には、セキュリティーを保持するために、ＩＤ及びパスワードによる認証が行われることができる（Ｓ１３）。認証が行われた後に、情報石納装置にアクセスすることが許可され、調査基礎データベース、文書分析データベース等の使用データベースが指針のデータベースに更新されることができる（Ｓ１４）。更新された調査基礎データベースを検索し（Ｓ１５）、表示装置の画面に会社名、担当者、カストディアンの名前が提示されることができる（Ｓ１６）。表示装置の画面に表示される担当者とカストディアンの名前が実際の担当者とカストディアンの名前と異なる場合は、ユーザは表示装置の画面で担当者とカストディアンの名前を修正する。文書分析システムは、ユーザの修正入力を受け付けて、実際の担当者とカストディアンの名前を特定することができる（Ｓ１７）。

次に、文書分析作業を実施するために、デジタル文書情報を抽出することができる（Ｓ１８）。更新された文書分析データベースとして、更新されたキーワードデータベース、関連用語データベース、及びスコア算出データベースを検索して（Ｓ１９）、抽出文書情報に分別符号を付与することができる（Ｓ２０）。また、レビュアーによる分別符号を受け付けて、抽出文書情報に分別符号を付与することができる（Ｓ２１）。分別結果を教師データとして、データベースを検索し、抽出文書情報に分別符号を付与することができる（Ｓ２２）。主任弁護士又は弁理士によるレビューを受け付けることができる（Ｓ２３）。これにより、調査の質を向上させることができる。ユーザの引数指定によりカテゴリを特定し（Ｓ２４）、特定されたカテゴリに応じて報告作成データベースを特定することができる（Ｓ２５）。特定された報告作成データベースにより、報告書の形式を定め、報告書を自動出力することができる（Ｓ２６）。

図５は、図４に示される処理の一例における、調査種類に応じた調査および分別処理の一例を示すフローチャートである。

最初に、調査種類を入力することができる（Ｓ３１）。すなわち、表示画面の表示に応じて、ユーザが、例えば、反トラスト、特許、海外賄賂禁止（ＦＣＰＡ）、製造物責任（ＰＬ）を含む訴訟案件又は情報漏洩、架空請求を含む不正調査から実施しようとする調査及び分別作業と対応するカテゴリを入力する。文書分析システムは、ユーザのカテゴリの入力を受け付けて、調査対象となるカテゴリを特定することができる。

特定されたカテゴリに応じて、調査及び文書分析処理の種類と使用するデータベースの種類を判定することができる（Ｓ３２）。特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースに記憶された情報のストックにアクセスしてもよい（Ｓ３３）。特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各キーワード入力画面を表示することができる（Ｓ３４）。特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各文章入力画面を表示することができる（Ｓ３５）特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じてキーワードもしくは文書を抽出することができる（Ｓ３６）。

上述の処理を実行することにより、自動分別符号付与（予測コーディング）の教師データに重み付けを追加して行うことができる（Ｓ３７）。文書分析データベースをキーワード検索することにより、抽出文書及び情報の絞り込みを行うことができる（Ｓ３８）。

図６は、図４に示される処理の一例における、調査種類に応じたプレディクティブコーディングの一例を示すフローチャートである。

本発明の実施形態に係る文書分析方法では、最初に、文書分析システムが調査の種類に応じてユーザに入力を求め、それに対するユーザの入力を受け付けることができる。例えば、反トラスト法と関連してカルテルについて、対象製品、関係者（氏名とメールアドレス）、関係組織（名称と部門）及び時期について、ユーザの入力を求め、それに対するユーザの入力を受け付けることができる。その他に、関係組織については、競争相手企業と顧客企業に関してユーザの入力を求め、それに対するユーザの入力を受け付けることができる（Ｓ５１）。

次に、入力キーワードによって、分別符号付与に対する重み付けを行うことができる（Ｓ５２）。そして、予測コーディングを行うことができる（Ｓ５３）。本発明の実施形態では、一例として、図７に示すようなフローチャートに従い、第１段階〜第５段階で、登録処理、分別処理、及び検査処理を行う。

第１段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う（Ｓ１００）。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。

第２段階では、第１段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第１分別処理を行う（Ｓ２００）。

第３段階では、第１段階で更新登録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第２分別処理を行う（Ｓ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第３分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（Ｓ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（Ｓ５００）。また、必要に応じて、文書分析処理の結果に基づいて学習処理を行っても良い。

第４段階及び第５段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

第１段階から第５段階の各段階における詳細な処理フローを以下で説明する。

＜第１段階（Ｓ１００）＞
第１段階におけるキーワードデータベース１０４の詳細な処理フローを図８を用いて説明する。

キーワードデータベース１０４は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（Ｓ１１１）。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する（Ｓ１１２）。そして、特定されたキーワードをキーワードデータベース１０４に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース１０４の分別符号「重要」の管理テーブルに記録する（Ｓ１１３）。

次に、関連用語データベース１０５の詳細な処理フローを図９を用いて説明する。関連用語データベース１０５は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する（Ｓ１２１）。本発明の実施形態においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を登録する。

登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（Ｓ１２２）、各管理テーブルに記録する（Ｓ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する（Ｓ１１３、Ｓ１２３）。

＜第２段階（Ｓ２００）＞
第２段階における第１自動分別部２０１の詳細な処理フローを、図１０を用いて説明する。本発明の実施形態において、第２段階では、第１自動分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１自動分別部２０１では、第１段階（Ｓ１００）でキーワードデータベース１０４に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（Ｓ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し（Ｓ２１２）、「重要」という分別符号を付与する（Ｓ２１３）。

＜第３段階（Ｓ３００）＞
第３段階における第２自動分別部３０１の詳細な処理フローを、図１１を用いて説明する。

本発明の実施形態において、第２自動分別部３０１では、第２段階（Ｓ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２自動分別部３０１は、該文書情報から、第１段階で関連用語データベース１０５に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（Ｓ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）を用いて、スコア算出部１１６によりスコアを算出する（Ｓ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（Ｓ３１３）、適切な分別符号を付与する（Ｓ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２自動分別部３０１では、第４段階のＳ４３２において算出されるスコアを用いて以下に示す〔数４〕により、関連用語の評価値を再計算し、該評価値の重みづけを行う（Ｓ３１５）。

ここで、ｗ_ｉ,ＬはＬ回目学習後のｉ番目の選定キーワードの重みを表し、γ_ＬはＬ回目学習における学習パラメータを表し、θは学習効果のしきい値を表す。例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（Ｓ４００）＞
第４段階では、図１２に示すように、第３段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図１３に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第４段階では、例えば、「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。第４段階について、更に以下に記載する。

第４段階における分別符号受付付与部１３１の詳細な処理フローを、図１２を用いて説明する。第４段階での処理対象となる文書情報からまず情報抽出部２４が、ランダムに文書をサンプリングし、表示部５０上で表示する。本発明の実施形態では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは表示部５０上に表示される図１８に示す文書表示画面を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部１３１は、該ユーザが選択した分別符号を受け付け（Ｓ４１１）、付与された分別符号に基づいて分別する（Ｓ４１２）。

次に、文書解析部１１８の詳細な処理フローを、図１３を用いて説明する。文書解析部１１８では、分別符号受付付与部１３１で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（Ｓ４２１）。抽出した共通の単語の評価値を式（２）により解析し（Ｓ４２２）、該共通の単語の文書中の出現頻度を解析する（Ｓ４２３）。

さらに、Ｓ４２２及びＳ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（Ｓ４２４）。

図１４は、Ｓ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１４において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部１３１によってＳ４２１で抽出された単語を含む文書の割合を示している。

本発明の実施形態において、分別符号受付付与部１３１では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

Ｓ４２１乃至Ｓ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、第３自動分別部４０１の詳細な処理フローを、図１５を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、Ｓ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第３自動分別部４０１では、このような文書から、Ｓ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（Ｓ４３１）、抽出した文書について、傾向法をもとに式（１）を用いてスコアを算出する（Ｓ４３２）。また、Ｓ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（Ｓ４３３）。

第３自動分別部４０１では、さらに、Ｓ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（Ｓ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。

更に、第３自動分別部４０１の詳細な処理フローの一例を、図１６を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、Ｓ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第３自動分別部４０１では、引数が与えられなかった場合には（Ｓ４４１：なし）、該文書から、Ｓ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（Ｓ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（Ｓ４４３）。また、Ｓ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（Ｓ４４４）。

第３自動分別部４０１では、さらに、Ｓ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（Ｓ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

上述のように第２自動分別部３０１と第３自動分別部４０１の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース１０６に一括して格納しても良い。

＜第５段階（Ｓ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図１７を用いて説明する。品質検査部５０１では、分別符号受付付与部１３１が、Ｓ４１１で受け付けた文書に対して、文書解析部１１８がＳ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（Ｓ５１１）。

分別符号受付付与部１３１が受け付けた分別符号とＳ５１１で決定した分別符号とを比較し（Ｓ５１２）、Ｓ４１１で受け付けた分別符号の妥当性を検証する（Ｓ５１３）。

本発明の実施形態に係る文書分析システム１０１は、学習部６０１を備えても良い。学習部６０１では、第１から第４の処理結果をもとに、各キーワード又は関連用語の重みづけを式（２）により学習する。該学習結果をキーワードデータベース１０４、関連用語データベース１０５、又はスコア算出データベース１０６に反映しても良い。

本発明の実施形態に係る文書分析システム１０１は、文書分析処理の結果をもとに、訴訟案件（例えば、訴訟であればカルテル・特許・ＦＣＰＡ・ＰＬなど）又は不正調査（例えば、情報漏洩、架空請求など）の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部７０１を備えることができる。

調査種類によって、調査する内容は異なる。
例えば、カルテル案件であれば、
１．競合の担当者がカルテルに関連する意思疎通（価格の調整）を、いつ・どのように取ったか？
２．関係者はどの組織の誰か？
がポイントになる。

また、特許侵害であれば、
１．侵害の対象となっている技術と内容が同じか？
２．誰が、いつ、どのような意図をもって（もたずに）侵害したか、もしくはしていないか？
といったことがポイントになる。

本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムについて以下に記載する。

本発明の実施形態の他の実施例に係る文書調査報告システムでは、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する。そして調整された分別符号を付与する範囲に基づいて、分別作業及び調査作業を行い、分別作業及び調査作業の結果に基づいて報告を作成する。

類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。

本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。

本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。

本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムでは、これらの分別作業及び調査の結果に基づいて、報告を作成する。

これにより、本発明の実施形態の他の実施例に係る文書調査報告システム及び文書調査報告方法並びに文書調査報告プログラムでは、的確な調査報告を迅速に作成することが可能となると共に、分別作業及び報告作成作業に伴う負担を軽減することができる。

本発明の実施形態の他の実施例では、ユーザに対し、調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部を備えることができる。

本発明の実施形態の他の実施例では、表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび／または文章の入力を受け付ける入力受付部を備えることができる。

本発明の実施形態は、訴訟案件又は不正調査案件のカテゴリについてユーザの入力を受け付けることにより、カテゴリに応じて自動的にデータベースを更新する。これにより担当者、カストディアンの氏名等を入力する事務作業の負担が軽減される。また、カテゴリに応じて自動的に更新されたデータベースにより検索ワードを調整し、調整された検索ワードを用いて当該文書情報に対して分別符号を自動で付与する。これにより、訴訟又は不正調査案件に利用する文書情報の分別作業の負担が軽減される。すなわち、本発明により、訴訟に利用する文書情報の分析が容易になる。

〔ソフトウェアによる実現例〕
文書分析システム１００および文書分析システム１０１の制御ブロック（特に、制御部１０）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム１００、１０１は、各機能を実現するソフトウェアであるプログラム（文書分析システム１００、１０１の制御プログラム）の命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

具体的には、本発明の実施の形態に係る文書分析システムの制御プログラムは、文書を分析する文書分析システムの制御プログラムであって、コンピュータに、（文書分析システム１００）に、生成機能、乗算機能、および算出機能を実現させる。

上記生成機能、乗算機能、および算出機能は、生成部１２、乗算部１３、および算出部１４によってそれぞれ実現されることができる。詳細については、いずれも上述した通りである。

〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

本発明は、パーソナルコンピュータ、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。

１：文書データ（文書）、２：キーワードベクトル、３：相関ベクトル、４：スコア、５：最多センテンス（所定のキーワードが最も多く含まれることを示すキーワードベクトルに対応するセンテンス）、６：要約情報（要約）、７：フェーズ情報（フェーズ）、８：変化情報（フェーズの変化）、１２：生成部、１３：乗算部、１４：算出部、１５：抽出部、１６：要約部、１７：フェーズ特定部、１８：変化推定部、１００：文書分析システム、１０１：文書分析システム

Claims

文書を分析する文書分析システムであって、
前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成部と、
前記生成部によって生成されたキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算部と、
前記乗算部によって得られた全ての相関ベクトルについて合算した値と前記所定のキーワードに対する重みを示す重みベクトルとの内積に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出部とを備えたことを特徴とする文書分析システム。
前記文書において、前記所定のキーワードが最も多く含まれることを示す前記キーワードベクトルに対応するセンテンスを抽出する抽出部をさらに備えたことを特徴とする請求項１に記載の文書分析システム。
前記文書において、前記所定のキーワードが含まれることを示す前記キーワードベクトルに対応するセンテンスを列挙することにより、当該文書の要約を生成する要約部をさらに備えたことを特徴とする請求項１又は２に記載の文書分析システム。
前記所定の事件の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記算出部によって算出されたスコアに基づいて特定する特定部をさらに備えたことを特徴とする請求項１から３のいずれか１項に記載の文書分析システム。
前記フェーズの時間的な遷移に基づいて、前記特定部によって特定されたフェーズの変化を推定する変化推定部をさらに備えたことを特徴とする請求項４に記載の文書分析システム。
前記算出部によって算出されたスコアに基づいて、前記文書に分別符号を付与する符号付与部をさらに備えたことを特徴とする請求項１から５のいずれか１項に記載の文書分析システム。
文書を分析する文書分析システムの制御方法であって、
前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成ステップと、
前記生成ステップにおいて生成したキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算ステップと、
前記乗算ステップにおいて得た全ての相関ベクトルについて合算した値と前記所定のキーワードに対する重みを示す重みベクトルとの内積に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出ステップとを含む、コンピュータが実行する文書分析システムの制御方法。
文書を分析する文書分析システムの制御プログラムであって、コンピュータに、
前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成機能と、
前記生成機能によって生成されたキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算機能と、
前記乗算機能によって得られた全ての相関ベクトルについて合算した値と前記所定のキーワードに対する重みを示す重みベクトルとの内積に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出機能とを実現させることを特徴とする文書分析システムの制御プログラム。