〔実施形態1〕
図1〜図3に基づいて、本発明に係る第1の実施形態(実施形態1)を説明する。
(データ分析システム5の概要)
データ分析システム5は、所定のコンピュータに記録されたデータを分析するシステムである。上記データ分析システム5は、最初に、外部(所定のコンピュータ)から取得されたデータの内容を分析する。当該分析において、データ分析システム5は、所定の動作を表す第1の単語が上記データに含まれる場合、当該所定の動作の対象を表す第2の単語を特定する。例えば、「仕様を確定する」という文章が上記データに含まれる場合、当該文章から「仕様」および「確定する」という単語を抽出し、「確定する」という所定の動作を表す第1の単語(動詞)の対象である「仕様」という第2の単語(目的語)を特定する。
次に、上記データ分析システム5は、上記第1の単語および第2の単語を含むデータの属性(性質・特徴)を示すメタ情報(属性情報)と、当該第1の単語および第2の単語とを関連付ける。ここで、上記メタ情報は、データが有する所定の属性を示す情報であり、例えば、上記データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。また、上記データがプレゼンテーション資料である場合、当該プレゼンテーション資料が作成された日時などであってよい。
図2は、第1の単語と第2の単語とのペアの一例を一覧可能に列挙した表である。なお、図2において、当該表の2列目に記載された単語が、3列目に記載された単語(日本語のサ行変格活用動詞)の目的語である。例えば、「技術を交流する」という文章が電子メール(データ、通信情報)に含まれており、「技術」(第2の単語)および「交流する」(第1の単語)という単語が抽出された場合(図2に示す表の1行目を参照)、データ分析システム5は、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前(例えば、「人物A」および「人物B」)とを関連付ける。これにより、「人物A」と「人物B」とが、ある「技術」についての「交流」を企図していることが推測できる。
さらに、例えば、「仕様を確定する」という文章が、上記電子メールに添付されたプレゼンテーション資料に含まれており、「仕様」(第2の単語)および「確定する」(第1の単語)という単語が抽出された場合(図2に示す表の2行目を参照)、相関関係表示システム1は、上記「仕様」および「確定する」と、上記プレゼンテーション資料が作成された日時(例えば、2014年1月16日16時30分)とを関連付ける。これにより、「人物A」と「人物B」とが、ある「技術」についての「交流」を企図する中で、2014年1月16日16時30分の時点において、当該「技術」の「仕様」を「確定」しようとしていることが推測できる。
すなわち、データ分析システム5によれば、所定のデータから人物の行為に関連する箇所(第1の単語および第2の単語)を抽出し、当該抽出した箇所を上記メタ情報と関連付けることによって、当該人物の行為を分析することができる。
したがって、データ分析システム5によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案(訴訟または不正調査など)に関連する行為をデータから抽出し、当該データとの関連を特定することによって、上記ディスカバリーを効率よく実行できる。また、データ分析システム5によれば、予め定められた事案に対して関連性が高い人物間の関係性を把握できるので、ディスカバリー等の作業における重要なデータの見落としを抑制することができる。
(データ分析システム5の構成)
図1は、実施形態1に係るデータ分析システム5の要部構成の一例を示すブロック図である。データ分析システム5は、所定のコンピュータに記録されたデータを分析するシステムである。図1に示されるように、データ分析システム5は、分析部12(特定部121、関連付与部122)を備える。また、上記データ分析システム5は、評価部16をさらに備えてよい。
分析部12は、所定のコンピュータから取得されたデータの内容を分析する。具体的には、分析部12は、テキストマイニング手法(上記データがテキスト情報である場合)、画像認識手法(上記データが画像である場合)、または、音声認識手法(上記データが音声情報である場合)を用いて、当該データの内容に含まれるテキストデータを分析する。そして、分析部12は、上記データの内容に予め定められた事案と関係を有するテキスト、画像、または音声が含まれているか否かを分析する。
ここで、予め定められた事案は、例えば、訴訟に関係することを示す情報である。または、訴訟に関係するもののみならず、不正調査の人間関係、M&A・知的財産における人物、会計、技術情報の相関性に関するものであってもよい。
例えば、分析部12は、予め定められた事案に関係する単語を示すテキストデータを格納する辞書部を有する。分析部12は、データの内容に含まれるテキストデータを辞書部に格納されているテキストデータを用いて分析することで、当該データの内容に当該事案に関係するテキストが含まれているか否か分析する。
また、分析部12は、上記テキストが含まれていることを示す分析結果が得られた場合、当該テキストの品詞に関する情報を当該テキストに付与できる。ここで、上記品詞は、上記テキストが有する文法的な機能・形態に基づいて分類する情報であり、例えば、名詞、動詞、形容詞などが挙げられる。分析部12は、特定部121と、関連付与部122とを含む。分析部12は、上記分析した結果を特定部121に出力する。
特定部121は、所定の動作を表す第1の単語が上記テキスト(データ)に含まれる場合、当該所定の動作の対象を表す第2の単語を特定する。具体的には、特定部121は、上記テキストに含まれる単語が動詞(所定の動作を表す単語)であるか否かを判定する。単語が動詞である場合、特定部121は、当該単語(第1の単語)が表す所定の動作の対象である第2の単語(目的語)を特定する。例えば、「仕様を確定する」というテキストから「仕様」および「確定する」という単語が抽出された場合、特定部22は、「確定する」という所定の動作を表す第1の単語(動詞)の対象である「仕様」という第2の単語(目的語)を特定する。特定部121は、上記第1の単語および第2の単語を、関連付与部122に出力する。
関連付与部122は、第1の単語および第2の単語を含むデータの属性を示すメタ情報(属性情報)と、当該第1の単語および第2の単語とを関連付ける。例えば、「技術」(第2の単語)および「交流する」(第1の単語)という単語が、上記特定部121から入力された場合、関連付与部122は、上記「技術」および「交流する」と、上記テキストを含むデータを送受信した人物の名前(例えば、「人物A」および「人物B」)とを関連付ける。関連付与部122は、関連付けた結果を評価部16に出力する。
評価部16は、分析部12(関連付与部122)の分析結果を用い、データの内容と予め定められた事案との関係性を評価する。例えば、評価部16は、自動コード付処理を実行することでデータの内容と予め定められた事案との関係性を評価する。次に、評価部16は、当該データに、外部から取得した予め定められた事案との関係性を対応づける情報をコード付けする。予め定められた事案との関係性とは、データが予め定められた事案と関係性を有することを示す情報、およびデータと予め定められた事案との関係性の高低を示す情報などである。
そして、評価部16は、分析部12が分析したすべてのデータ若しくは分析部12が予め定められた事案に関連するテキストデータが含まれていると分析したすべてのデータに対して、予め定められた事案との関係性を対応づける情報がコード付けられたデータを用い、自動コード付処理を実行する。これにより、評価部16は、一の人物から他の人物に向けて送信されたデータが、予め定められた事案に関連するか否か、および当該データの予め定められた事案との関連性の高低について評価する。
一例として、評価部16は、第1の人物の情報処理装置から第2の人物の情報処理装置に送信される電子メールが、予め定められた事案と関連しているか否かを評価する。そして、評価部16は、当該電子メールが当該事案に関連している場合、当該電子メールにスコアを対応づける。評価部16は、第1の人物の情報処理装置から第2の人物の情報処理装置に送信される電子メールの全てについて同様にスコアを対応づけ、対応づけたスコアを合計することにより、第1の人物と第2の人物との間の関係性のスコアを算出する。評価部16は、一の人物の情報処理装置から他の複数の人物それぞれの情報処理装置に送信される電子メールのそれぞれについて同様に評価する。そして、評価部16は、一の人物と他の複数の人物との間の関係性それぞれについて、スコアを算出して評価する。
また、評価部16は、第1のドメインの情報処理装置から第2のドメインの情報処理装置に送信される電子メールが、予め定められた事案と関連しているか否かを評価する。そして、評価部16は、当該電子メールが当該事案に関連している場合、当該電子メールにスコアを対応づける。評価部16は、第1のドメインの情報処理装置から第2のドメインの情報処理装置に送信される電子メールの全てについて同様にスコアを対応づけ、対応づけたスコアを合計することにより、第1のドメインと第2のドメインとの間の関係性のスコアを算出する。評価部16は、一のドメインの情報処理装置から他の複数のドメインそれぞれの情報処理装置に送信される電子メールのそれぞれについて同様に評価する。そして、評価部16は、一のドメインと他の複数のドメインとの間の関係性それぞれについて、スコアを算出して評価する。
なお、評価部16がデータの解析結果に基づいて関係性を評価する場合、例えば、以下のように評価を実行する。まず、評価部16は、予め定められた事案に関連する複数の単語の組合せに、予め定められた事案との関連性の高低を示すスコアを対応づけて格納する辞書を有することができる。そして、評価部16は、形態素解析に基づいてデータ内のテキストデータを解析し、当該辞書に格納されている複数の単語の組合せが、選択されたデータ内に含まれているか否かを判断する。
評価部16は、当該辞書に格納されている単語の組合せが、選択されたデータに含まれていると判断した場合、辞書に格納されているスコアに基づいて、予め定められた事案に対する当該ファイルの関連性の高低を評価する。そして、評価部16は、評価結果を示す情報(すなわち、予め定められた事案に対する関連性の高低を示す情報)を選択されたデータに対応づける。これにより、評価部16は、データと予め定められた事案との関係性の高低を評価できる。
さらに、評価部16は、データに含まれる送受信時刻を示すデータを読み取ることで、データの送受信時刻ごとに予め定められた事案に関するデータの関連性の高低を評価することもできる。また、評価部16は、評価が実行された実行時刻ごとに予め定められた事案に関するデータの関連性の高低を評価することもできる。
(データ分析システム5が実行する処理)
図3は、データ分析システム5が備えた分析部12に含まれる、特定部121および関連付与部122が実行する処理の流れを示すフローチャートである。
特定部121は、分析部12によって分析されたデータ(テキスト)に含まれる単語が、動詞(所定の動作を表す単語)であるか否かを判定する(S151)。当該単語が動詞である場合(S151においてYES)、特定部22は、当該単語(第1の単語)が表す所定の動作の対象である第2の単語を特定する(S152、特定ステップ)。関連付与部24は、上記第1の単語および第2の単語を含むデータの属性を示すメタ情報と、当該第1の単語および第2の単語とを関連付ける(S153、関連付与ステップ)。
なお、上記S153の後に、評価部16が、分析部12による分析結果を用いて、データの内容と予め定められた事案との関係性を評価してもよい。
〔実施形態2〕
図4〜図16に基づいて、本発明に係る第2の実施形態(実施形態2)を説明する。なお、以下の説明では、実施形態1から変わり得る機能・構成のみを説明し、その他の機能・構成については実施形態1と同様として詳細な説明を省略する。
(文書分別システム3の構成)
図4は、実施形態2に係る文書分別システム3の要部構成の一例を示すブロック図である。文書分別システム(データ分析システム)3は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするシステムである。
図4に示されるように、文書分別システム3は、実施形態1において説明した分析部12(特定部121、関連付与部122)と、評価部16とを備える。したがって、文書分別システム3は、前述したデータ分析システム5と同様の効果を奏する。
すなわち、文書分別システム3によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案(訴訟または不正調査など)に関連する行為をデータから抽出し、当該データとの関連を特定することによって、当該事案との関連度を示す分別符号を精度良く付与することができる。したがって、文書分別システム3によれば、上記ディスカバリーを効率よく実行できる。
分析部12は、文書抽出部112によって抽出された複数の文書の内容を分析することによって、上記複数の文書に予め定められた事案と関係を有するテキストが含まれているか否かを分析する。
特定部121は、所定の動作を表す第1の単語が上記テキスト(データ)に含まれる場合、当該所定の動作の対象を表す第2の単語を特定する。
関連付与部122は、第1の単語および第2の単語を含むデータの属性を示すメタ情報(属性情報)と、当該第1の単語および第2の単語とを関連付ける。
評価部16は、分析部12(関連付与部122)の分析結果を用い、文書の内容と予め定められた事案との関係性を評価する。
文書分別システム3は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域103に格納するデータ格納部100を有する。そして、該データ格納部100は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース101と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース102を格納する。このデータ格納部100は、図4に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム3の外部に設置されても良い。
文書分別システム3は、文書情報から複数の文書を抽出する文書抽出部112と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部114と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部116とを備える。なお、スコア算出部116は、評価部16によって評価された関係性に基づいて、上記スコアを算出できる。これにより、文書分別システム3は、上記事案との関連度を示す分別符号を精度良く付与することができる。
文書分別システム3は、ワード検索部114により前記キーワードデータベース101に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部201と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部301とを有する。
更に、文書分別システム3は、文書情報から抽出された複数の文書を画面上に表示する文書表示部601と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部131と、分別符号受付付与部131により分別符号を付与された文書を解析する分別符号受付文書解析部118と、文書情報から抽出された複数の文書に対して、前記分別符号受付付与部131により分別符号を付与された文書を分別符合受付文書解析部118により解析した解析結果に基づいて、分別符号を自動的に付与する第3自動分別部401とを備える。
また、文書分別システム3は、抽出した文書の言語の種類を判定する言語判定部120と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部126とを備えても良い。1文多言語の複合言語にも対応できるように、言語判定部120における言語の区切りを1文より小さくする。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、HTMLのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。
また、文書分別システム3は、分別符号受付文書解析部118による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部124を備えても良い。
また、文書分別システム3は、文書符号受付付与部131が受け付けた分別符号と分別符号受付文書解析部118において傾向情報により付与された分別符号を比較し、文書符号受付付与部131が受け付けた分別符号の妥当性を検証する品質検査部501を備えても良い。
(用語の説明)
各実施形態に係る文書分別システムの理解を容易とするために、各実施形態に特有な用語について以下に記載する。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
「文書」とは、1つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
「キーワード」とは、1つまたは複数の「単語」、もしくは「形態素」を組み合わせたものをいう。具体的には、特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものをいってもよい。例えば、特許侵害訴訟が発生した場合において、当該訴訟と関連度の高い文書に重要という分別符号を付与する場合の「キーワード」として、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。
また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。
「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。
また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよいし、評価部16によって評価された関連性を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。
「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品A」という分別符号が製品Aの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。
「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
また、文書分別システム3は、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。
ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
また、文書分別システム3は、さらに、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることも可能である。
(文書分別システム3が実行する処理)
実施形態2では、図5に示すようなフローチャートに従い、第1段階〜第5段階で、登録処理、分別処理、及び検査処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに登録される。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録したキーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第1分別処理を行う(STEP200)。
第3段階では、第1段階で記録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で記録した関連用語対応情報を参照し、分別符号の付与を実行する第2分別処理を行う(STEP300)。
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第3分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。
第4段階及び第5段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
第1段階から第5段階の各段階における詳細な処理フローを以下で説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース101の詳細な処理フローを図6を用いて説明する。
キーワードデータベース101は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(STEP111)。この特定は、実施形態2においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
実施形態2においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する(STEP112)。そして、特定されたキーワードをキーワードデータベースに登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベースの分別符号「重要」の管理テーブルに記録する(STEP113)。
次に、関連用語データベース102の詳細な処理フローを図7を用いて説明する。関連用語データベース102は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する(STEP121)。実施形態2においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を登録する。
登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、各管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
<第2段階(STEP200)>
第2段階における第1分別部201の詳細な処理フローを、図8を用いて説明する。実施形態2において、第2段階では、第1分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第1分別部201では、第1段階(STEP100)でキーワードデータベース101に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(STEP211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、(STEP212)、「重要」という分別符号を付与する(STEP213)。
<第3段階(STEP300>
第3段階における第2分別部301の詳細な処理フローを、図9を用いて説明する。実施形態2において、第2分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第2分別部301は、該文書情報から、第1段階で関連用語データベース102に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(STEP311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)を用いて、スコア算出部116によりスコアを算出する(STEP312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
該スコアが閾値を超過した場合、関連用語対応情報を参照し(STEP313)、適切な分別符号を付与する(STEP314)。
例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
第2分別部301では、第4段階のSTEP432において算出されるスコアを用いて以下に示す式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う(STEP315)。
例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
<第4段階(STEP400)>
第4段階では、図10に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図11に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、実施形態2においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
第4段階における分別符号受付付与部131の詳細な処理フローを、図10を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部112が、ランダムに文書をサンプリングし、文書表示部601上で表示する。実施形態2では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
ユーザは文書表示部601上に表示される図16に示す文書表示画面I1を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部131は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
次に、分別符号受付文書解析部118の詳細な処理フローを、図11を用いて説明する。分別符号受付文書解析部118では、分別符号受付付与部131で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析し(STEP422)、該共通の単語の文書中の出現頻度を解析する(STEP423)。
さらに、STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
図12は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
図12において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部131によってSTEP421で抽出された単語を含む文書の割合を示している。
実施形態2において、分別符号受付付与部131では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
STEP421乃至STEP424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
次に、第3自動分別部401の詳細な処理フローを、図13を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部181によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第3自動分別部401では、このような文書から、STEP424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP431)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP432)。また、STEP431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP433)。
第3自動分別部401では、さらに、STEP432で算出したスコアを用いて、分別結果を各データベースに反映する(STEP434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。
更に、第3自動分別部401の詳細な処理フローの1例を、図14を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第3自動分別部401では、引数が与えられなかった場合には(STEP441:なし)、該文書から、STEP424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP443)。また、STEP442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP444)。
第3自動分別部401では、さらに、STEP443で算出したスコアを用いて、分別結果を各データベースに反映する(STEP445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
<第5段階(STEP500)>
第5段階における品質検査部501の詳細な処理フローを図15を用いて説明する。品質検査部501では、分別符号受付付与部131が、STEP411で受け付けた文書に対して、分別符号受付文書解析部118がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付付与部131が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
(文書分別システム3が奏する効果)
文書分別システム3は、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第1分別部と、第1分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第2分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。
また、本発明の文書分別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付付与部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付付与部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、本発明の文書分別システムは、言語を翻訳するための言語判定部と翻訳部とを有するので、多言語を含む文書に分別符号を付する分別処理をする際に、ユーザの労力を低減することが可能になる。
また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。
また、本発明は、第2分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、文書分別システムが、分別処理を実施する毎に分別精度の向上を図ることを可能とする。
〔実施形態3〕
図17〜図23に基づいて、本発明に係る第3の実施形態(実施形態3)を説明する。なお、以下の説明では、実施形態1および実施形態2から変わり得る機能・構成のみを説明し、その他の機能・構成については実施形態1または実施形態2と同様として詳細な説明を省略する。
(文書分別システム4の構成)
図17は、実施形態3に係る文書分別システム4の要部構成の一例を示すブロック図である。文書分別システム(データ分析システム)4は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするシステムである。
図17に示されるように、文書分別システム4は、実施形態1において説明した分析部12(特定部121、関連付与部122)と、評価部16とを備える。したがって、文書分別システム4は、前述したデータ分析システム5と同様の効果を奏する。
すなわち、文書分別システム4によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案(訴訟または不正調査など)に関連する行為をデータから抽出し、当該データとの関連を特定することによって、当該事案との関連度を示す分別符号を精度良く付与することができる。したがって、文書分別システム4によれば、上記ディスカバリーを効率よく実行できる。
分析部12は、文書抽出部112によって抽出された複数の文書の内容を分析することによって、上記複数の文書に予め定められた事案と関係を有するテキストが含まれているか否かを分析する。
特定部121は、所定の動作を表す第1の単語が上記テキスト(データ)に含まれる場合、当該所定の動作の対象を表す第2の単語を特定する。
関連付与部122は、第1の単語および第2の単語を含むデータの属性を示すメタ情報(属性情報)と、当該第1の単語および第2の単語とを関連付ける。
評価部16は、分析部12(関連付与部122)の分析結果を用い、文書の内容と予め定められた事案との関係性を評価する。
文書分別システム4は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域153に格納するデータ格納部150を有する。そして、該データ格納部150は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース151と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース152を格納する。このデータ格納部150は、図17に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム4の外部に設置されても良い。
文書分別システム4は、文書情報から複数の文書を抽出する文書抽出部162と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部164と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部166とを備える。スコアを算出する処理には、実施形態2と同様の処理を用いて良い。
文書分別システム4は、ワード検索部164により前記キーワードデータベース151に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部251と、分別符号が付与されていない文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部351とを有する。
更に、文書分別システム4は、抽出された複数の文書を画面上に表示する文書表示部651と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部181と、分別符号受付付与部181により分別符号を付与された文書を解析する分別符号受付文書解析部168と、文章情報から抽出された分別符号が付与されていない複数の文書に対して、分別符号受付付与部181により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部451とを備える。
文書分別システム4は、実施形態2に係る文書分別システム3と同様に、抽出した文書の言語の種類を判定する言語判定部170と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部172を備えても良い。
文書分別システム4は、抽出された文書群において、共通して出現するキーワードを解析し選定するワード選定部174を備え、分別符号受付文書解析部168は、分別符号受付付与部181により分別符号を付与された文書を解析し、該分別符号を付与された文書を分別符号ごとに分類し、該分類された文書群において、共通して出現するキーワードを解析し選定しても良い。
文書分別システム4は、分別対象となる文情報のうち、キーワードデータベース151と関連用語データベース152で事前に登録されたキーワード及び関連用語、並びにワード選定部174において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除する文書排除部176を備えても良い。
文書分別システム4は、ワード選定部174が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部551を備えても良い。
(文書分別システム4が実行する処理)
実施形態3では、図18に示すようなフローチャートに従い、5つの段階で登録処理、分別処理、及び学習処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Aの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである(STEP1100)。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する(STEP1200)。
第3段階では、第1段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、当該文書の分別を行う(STEP1300)。
第4段階では、抽出した文書についてレビュワーによる分別符号の付与の決定を受け付け、受け付けた分別符号の付与の決定を解析した後に、解析結果に基づいて更に抽出した分別符号を付与していない文書に自動で分別符号の付与を行う(STEP1400)。
第5段階では、第1段階乃至第4段階の結果を用いて、学習を行う(STEP1500)。
実施形態3の第1〜第5の各段階について更に詳細に以下に記載する。
<第1段階(STEP1100)>
第1段階におけるキーワードデータベース151と関連用語データベース152の処理フローを、図19を用いて詳細に説明する。キーワードデータベース151と関連用語データベース152で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。第1段階ではまず、キーワードデータベース151でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
<第2段階(STEP1200)>
第2段階におけるキーワードデータベース151、ワード検索部164及び第1自動分別部251の処理フローを、図19、図20及び図22を用いて、詳細に説明する。
データベースで何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP1:第2段階)。キーワードデータベース151において、更に事前に登録しておく必要のあるキーワードがある場合(STEP5:YES)、追加の登録を行う(STEP6)。追加で登録するキーワードがない場合(STEP5:NO)及びSTEP6の処理の完了後、ワード検索部164の処理に移行する。
ワード検索部164は何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP11:第2段階)。第2段階で、ワード検索部164は、まずキーワードデータベース151内に第1段階及び第2段階で事前登録されたキーワードがあるか判定を行う(STEP12)。事前に登録されたキーワードが存在しない場合(STEP12:NO)、第2段階の処理は終了する。
図20の(第2段階)に示すように、事前に登録されたキーワードが存在する場合(STEP12:YES)、分別対象となる文書情報の中に該キーワードを含む文書がないか、分別対象となる全文書情報に対して検索を行う(STEP13)。検索したキーワードが含まれる文書が存在しなかった場合(STEP14:NO)、第2段階の処理を終了する。一方、探索したキーワードが含まれる文書を発見した場合(STEP14:YES)、第1自動分別部251に通知を行う(STEP15)。
図22の(第2段階)に示すように、第1自動分別部251では、ワード検索部164から該通知を受けた場合(STEP29:第2段階、STEP30:YES)、該通知の対象となった文書に対して「重要」符号を付与し(STEP31)、処理を終了する。ワード検索部164から該通知を受けなかった場合(STEP29:第2段階、STEP30:NO)、何も処理を行わない。
<第3段階(STEP1300)>
第3段階における関連用語データベース152、ワード検索部164、スコア算出部166及び第2自動分別部351の処理フローを、図19、図20、図21、及び図22を用いて、詳細に説明する。
図19に示すように、関連用語データベース152で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP1:第3段階)。関連用語データベース152において、更に事前に登録しておく必要のある関連用語がある場合(STEP7:YES)、追加の登録を行う(STEP8)。関連用語の追加登録が必要ない場合(STEP7:NO)、第3段階の処理を終了する。
関連用語データベース152でSTEP8の処理を完了した後、図20に示すように、ワード検索部164で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP11:第3段階)。本段階で、ワード検索部164は、関連用語データベース152に第1段階及び第2段階で登録された関連用語があるか判定を行う(STEP16)。事前に登録された関連用語が存在しない場合(STEP16:NO)、第3段階の処理は終了する。
関連用語が存在する場合(STEP16:YES)、分別対象となる文書情報の中に該関連用語を含む文書がないか、分別対象となる全文書情報に対して検索を行う(STEP17)。検索した関連用語が含まれる文書が存在しなかった場合(STEP18:NO)、第3段階の処理を終了する。一方、検索した関連用語を含む文書を発見した場合(STEP18:YES)、スコア算出部166に通知を行う(STEP19)。
図21に示すように、スコア算出部166では、ワード検索部164から該通知を受けた場合(STEP24:第3段階、STEP25:YES)、上述の式(1)を用いて、文書中から発見した関連用語の種類と該関連用語が持つ重みづけから各文書のスコアを算出し、第2自動分別部351に通知を行う(STEP26)。ワード検索部164から関連用語を発見した通知を受けなかった場合(STEP24:第3段階、STEP25:NO)、第3段階の処理を終了する。
第2自動分別部351では、スコア算出部166からスコアの通知を受けた場合、(STEP29:第3段階、STEP32:YES)、スコアが閾値を超過したかの判定を文書ごと行い、スコアが閾値を超過した文書には「重要」符号を付与し、スコアが閾値を超過した文書がなかった場合は付与せずに処理を終了する(STEP33)。
<第4段階(STEP1400)>
第4段階におけるキーワードデータベース151と関連用語データベース152、ワード検索部164、スコア算出部166、及び第3自動分別部451の処理フローを、それぞれ図19、図20、図21及び図22を用いて説明する。
第4段階では、まず、文書抽出部162、分別対象となる文書情報から、ランダムに文書をサンプリングし、レビュワーが手動で分別符号を付与する対象となる文書群を抽出する。文書表示部651において、抽出された文書群を、図16の文書表示画面I1上に表示する。
レビュワーは文書表示画面I1に表示された文書群に対し、各文書の内容を読んだ上で、製品Aと該文書の内容との間に関連性があるかどうかを判断し、「重要」符号を付与するかどうかを決定する。レビュワーが「重要」符号を付与する文書とは、例えば、製品Aの先行技術を調査した結果の報告書や、製品Aの製造は特許侵害であると他者から警告された警告状等である。
レビュワーによって付与された分別符号は、分別符号受付付与部181によって受け付けられ、文書分別システム4内で処理される。分別符号受付文書解析部168では、付与された分別符号に応じて文書が分類される。続いて、分別符号受付文書解析部168は、ワード選定部174とスコア算出部166を用いて分類された各文書を解析する。
ワード選定部174では、分類された各文書に対し、キーワード解析を行い、「重要」符号を付与された文書に共通して出現回数の多いキーワードを選定する。
次に、キーワードデータベース151では、図19の(第4段階)に示すように、ワード選定部164が選定したキーワードが、製品Aと関係があることを示す「重要」符号に関するキーワードとして未登録であった場合(STEP1:第4段階、STEP9:YES)、該キーワードの登録を行う(STEP10)。該キーワードが既に登録されていた場合、何も処理を行わない(STEP1:第4段階、STEP9:NO)。
ワード検索部164では、「重要」符号に関するキーワードがキーワードデータベース151に登録されていなかった場合(STEP20:NO)、第4段階の処理を終了する。該キーワードが登録されている場合(STEP20:YES)、文書抽出部162において抽出されレビュワーによって分類された文書を探索対象から省き、残りの各文書を対象として、該キーワードの探索を実行する(STEP21)。該探索において、文書中にキーワードを発見した場合(STEP22:YES)、スコア算出部166に通知を行う(STEP23)。
スコア算出部166では、キーワード発見の通知を受けた場合(STEP27:YES)、上述の式(1)を用いて各文書についてスコアを算出し、第3自動分別部451に通知する。
図22の(第4段階)に示すように、第3自動分別部451では、スコア算出部166から通知を受けると(STEP32:YES)、文書ごとにスコアが閾値を超過したかの判定を行い、閾値を超過した文書には「重要」符号を付与し、超過しなかった文書には付与せずに処理を終了する(STEP33)。
<第5段階(STEP1500)>
第5段階での文書排除部176及び学習部551における処理を、それぞれ以下に説明する。
文書排除部176において、分別対象となる文書情報のうち、第1から第4段階の処理が未実施の文書群に対して、第1、第2段階において事前に登録されたキーワード、第1、第3段階において登録された関連用語及び第4段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合(STEP40:YES)、該文書を分別対象から事前に排除する(STEP41)。
学習部551では、第1から第4の処理結果をもとに、各キーワードの重みづけを式(2)により学習する。該学習結果をキーワードデータベース151に反映する。
(文書分別システム4が奏する効果)
本発明に係る文書分別システム及び文書分別方法並びに文書分別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。
また、本発明の文書分別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、本発明の文書分別システムは、言語を翻訳するための言語判定部と翻訳部とを有するので、多言語を含む文書に分別符号を付する分別処理をする際に、ユーザの労力を低減することが可能になる。
また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
〔実施形態4〕
図24〜図27に基づいて、本発明に係る第4の実施形態(実施形態4)を説明する。なお、以下の説明では、実施形態1〜3から変わり得る機能・構成のみを説明し、その他の機能・構成については実施形態1〜3と同様として詳細な説明を省略する。
(相関関係表示システム1の概要)
図24は、実施形態1に係る相関関係表示システム1の要部構成の一例を示すブロック図である。図25は、上記相関関係表示システム1が備えた表示部の表示態様を示す図である。
相関関係表示システム(データ分析システム)1は、ユーザ端末若しくはサーバ等の情報処理装置2に格納されている複数の通信データ(データ、通信情報)から予め定められた事案に関連性のある通信データを分析することで、複数の人物の間の関係性を自動的に表示するシステムである。ここで、上記予め定められた事案は、例えば、訴訟または不正調査(反トラスト、特許、海外賄賂禁止(FCPA)、製造物責任(PL)、情報漏洩、架空請求など)に関連することを示す情報である。
上記相関関係表示システム1は、一例として、不正アクセスや機密情報漏洩などのコンピュータに関する犯罪や法的紛争が生じた場合に、犯罪や紛争の原因究明や捜査に要する電子的記録であるデジタル情報を収集および分析し、その法的な証拠性を明らかにする技術であるフォレンジックに適用可能である。
上記相関関係表示システム1は、まず、複数の端末としての複数の情報処理装置2の間で送受信された複数の通信データの内容を分析する。ここで、通信データは、一の人物から他の人物に当該通信データが送信されたことを示す情報を含んでよい。また、通信データは、一の人物が所属する組織の単位(例えば、係、課、部、会社等)を識別する情報、および、他の人物が所属する組織の単位(例えば、係、課、部、会社等)を識別する情報を含んでもよい。さらに、上記通信データは、複数の情報処理装置2、または、複数の情報処理装置2と通信可能に接続されるサーバに格納されている。
上記分析において、相関関係表示システム1は、所定の動作を表す第1の単語が上記通信データに含まれる場合、当該所定の動作の対象を表す第2の単語を特定する。例えば、「仕様を確定する」という文章が上記通信データに含まれる場合、当該文章から「仕様」および「確定する」という単語を抽出し、「確定する」という所定の動作を表す第1の単語(動詞)の対象である「仕様」という第2の単語(目的語)を特定する。
次に、上記相関関係表示システム1は、上記第1の単語および第2の単語を含む通信データの属性(性質・特徴)を示すメタ情報(属性情報)と、当該第1の単語および第2の単語とを関連付ける。ここで、上記メタ情報は、データが有する所定の属性を示す情報であり、例えば、上記通信データが電子メールである場合、当該電子メールを送信した人物の名前、受信した人物の名前、メールアドレス、送受信された日時などであってよい。また、上記通信データがプレゼンテーション資料である場合、当該プレゼンテーション資料が作成された日時などであってよい。
例えば、「技術を交流する」という文章が電子メール(データ、通信情報)に含まれており、「技術」(第2の単語)および「交流する」(第1の単語)という単語が抽出された場合(図2に示す表の1行目を参照)、相関関係表示システム1は、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前(例えば、「人物A」および「人物B」)とを関連付ける。これにより、「人物A」と「人物B」とが、ある「技術」についての「交流」を企図していることが推測できる。
さらに、例えば、「仕様を確定する」という文章が、上記電子メールに添付されたプレゼンテーション資料に含まれており、「仕様」(第2の単語)および「確定する」(第1の単語)という単語が抽出された場合(図2に示す表の2行目を参照)、相関関係表示システム1は、上記「仕様」および「確定する」と、上記プレゼンテーション資料が作成された日時(例えば、2014年1月16日16時30分)とを関連付ける。これにより、「人物A」と「人物B」とが、ある「技術」についての「交流」を企図する中で、2014年1月16日16時30分の時点において、当該「技術」の「仕様」を「確定」しようとしていることが推測できる。
そして、上記相関関係表示システム1は、上記分析した結果に基づいて、一の人物と他の人物との間で予め定められた事案に関する情報のやり取りがどの程度実行されたか、若しくは予め定められた事案に関する情報についてどの程度重要な情報のやり取りが実行されたか等についてユーザに視認可能に表示する。
具体的に、相関関係表示システム1は、一の人物に属する情報処理装置2と他の人物に属する情報処理装置2との間で送受信される通信データ(例えば、電子メール)の内容を分析する。そして、相関関係表示システム1は、通信データの内容に予め定められた事案に関する情報が含まれているか否か分析する。相関関係表示システム1は、当該事案に関する情報が通信データに含まれていることを示す分析結果が得られた場合、当該通信データと当該事案との関連性を評価する。例えば、相関関係表示システム1は、当該通信データの内容の当該事案に対する関連性の高低を評価する。
そして、相関関係表示システム1は、当該通信データと当該事案とに関連性があることを示す評価結果、若しくは関連性の高低を示す評価結果が得られた場合、一の人物と他の人物との間の関係性をモニタ等に表示する。例えば、相関関係表示システム1は、各人物をノードに対応づけて複数のノードをモニタに表示すると共に、一のノードと他のノードとを評価結果に基づいて表示する(図25参照)。
一例として、相関関係表示システム1は、一の人物に対応づけられる一のノードと他の人物に対応づけられる他のノードとの間を通信データの流れを示す矢印で結合して表示する。また、相関関係表示システム1は、一のノードと他のノードとを表示する場合、当該一のノードから当該他のノードに予め定められた事案に関する情報のやり取りが実行された回数若しくは頻度、又はやり取りされた情報の重要度等に応じ、ノードの形態を変化させて表示する。
一例として、相関関係表示システム1は、ノードの大きさ、色、および/または形状を変化させて表示する。また、相関関係表示システム1は、各ノードを結合する矢印の太さ、色、および/または長さを変化させて表示することもできる。
なお、実施形態1においてサーバは、1つ以上のサーバであって、複数のサーバを含んで構成することもできる。例えば、サーバは、メールサーバ、ファイルサーバ、又は文書管理サーバ等のデジタル情報を格納可能なサーバを含む。また、端末としての情報処理装置2は、1つ以上の端末であって、複数の情報処理装置2を含んで構成することもできる。例えば、情報処理装置2は、パーソナルコンピュータ、ノートパソコン、タブレットPC、又は携帯電話等の携帯通信端末等を含む。
(相関関係表示システム1の詳細)
実施形態1に係る相関関係表示システム1は、複数の情報処理装置2の間で送受信された通信データを取得する通信データ取得部10と、通信データ取得部10が取得した通信データの内容を分析する分析部12(特定部121、関連付与部122)と、分析部12の分析結果を用い、通信データの内容と予め定められた事案との関係性を評価する評価部16と、評価部16の評価結果に基づいて、複数の人物の間の関係性を表示する表示部18とを備える。また、相関関係表示システム1は、通信データ取得部10が取得した通信データの一部に対し、予め定められた事案との関係性を対応づける情報を取得する入力部11と、複数の端末により構築される通信ネットワークにおける複数の主要端末を決定するネットワーク分析部14とを更に備える。
なお、相関関係表示システム1と情報処理装置2とは、インターネット等の通信ネットワーク、又はLAN等の有線若しくは無線のネットワーク等により相互に通信可能に接続される。また、相関関係表示システム1は、情報処理装置2が有する機能および構成の一部又は全部を備えることもできる。更に、図24において1つの情報処理装置2を示しているが、複数の情報処理装置2が相関関係表示システム1と通信可能に接続されることもできる。
通信データ取得部10は、複数の端末としての複数の情報処理装置2の間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する。通信データは、電子メール、電話の通話記録、およびソーシャルネットワークサービスへのアクセス記録、個々のコンピュータまたはサーバの識別を表す情報(例えば、ドメイン等)等のうち少なくとも1つを含む。また、通信データは、通信データに添付されたドキュメントファイルデータを含むこともできる。なお、通信データは、情報処理装置2若しくはデータサーバに格納されている。通信データ取得部10は、複数の情報処理装置2若しくはデータサーバに格納されている複数の通信データを取得する。通信データ取得部10は、取得した通信データを分析部12、およびネットワーク分析部14に供給する。
分析部12は、通信データ取得部10から受け取った通信データの内容を分析する。具体的には、分析部12は、テキストマイニング手法、画像認識手法または音声認識手法を用いて、通信データの内容に含まれるテキストデータを分析する。そして、分析部12は、通信データの内容に予め定められた事案と関係を有するテキスト、画像または音声が含まれているか否かを分析する。
ここで、予め定められた事案は、例えば、訴訟に関係することを示す情報である。または、訴訟に関係するもののみならず、不正調査の人間関係、M&A・知的財産における人物、会計、技術情報の相関性に関するものであってもよい。
例えば、分析部12は、予め定められた事案に関係する単語を示すテキストデータ(上述の画像認識手法、音声認識手法によりテキスト化されたものを含む)を格納する辞書部を有する。分析部12は、通信データの内容に含まれるテキストデータを辞書部に格納されているテキストデータを用いて分析することで、通信データの内容に当該事案に関係するテキストが含まれているか否か分析する。
また、分析部12は、上記テキストが含まれていることを示す分析結果が得られた場合、当該テキストの品詞に関する情報を当該テキストに付与できる。ここで、上記品詞は、上記テキストが有する文法的な機能・形態に基づいて分類する情報であり、例えば、名詞、動詞、形容詞などが挙げられる。分析部12は、特定部121と、関連付与部122とを含む。分析部12は、上記分析した結果を特定部121に出力する。
特定部121は、所定の動作を表す第1の単語が上記テキスト(データ)に含まれる場合、当該所定の動作の対象を表す第2の単語を特定する。具体的には、特定部121は、上記テキストに含まれる単語が動詞(所定の動作を表す単語)であるか否かを判定する。単語が動詞である場合、特定部121は、当該単語(第1の単語)が表す所定の動作の対象である第2の単語(目的語)を特定する。例えば、「仕様を確定する」というテキストから「仕様」および「確定する」という単語が抽出された場合、特定部22は、「確定する」という所定の動作を表す第1の単語(動詞)の対象である「仕様」という第2の単語(目的語)を特定する。特定部121は、上記第1の単語および第2の単語を、関連付与部122に出力する。
関連付与部122は、第1の単語および第2の単語を含むデータの属性を示すメタ情報(属性情報)と、当該第1の単語および第2の単語とを関連付ける。例えば、「技術」(第2の単語)および「交流する」(第1の単語)という単語が、上記特定部121から入力された場合、関連付与部122は、上記「技術」および「交流する」と、上記テキストを含む通信データを送受信した人物の名前(例えば、「人物A」および「人物B」)とを関連付ける。関連付与部122は、関連付けた結果を評価部16に出力する。
ネットワーク分析部14は、通信データを用い、複数の端末により構築される通信ネットワークを解析することで複数の端末から通信ネットワークにおける複数の主要端末を決定する。例えば、ネットワーク分析部14は、複数の端末が通信ネットワークの各端末間の最短経路上に出現する頻度に基づいて複数の主要端末を決定する。例えば、ネットワーク分析部14は、分析アルゴリズムとしてVertex betweenness centrality等を用いて複数の主要端末を決定する。ネットワーク分析部14は、分析結果を示す情報を評価部16に供給する。
評価部16は、分析部12(関連付与部122)の分析結果を用い、通信データの内容と予め定められた事案との関係性を評価する。また、評価部16は、複数の主要端末間で送受信される通信データと分析部12の分析結果とを用いて通信データの内容と予め定められた事案との関係性を評価することもできる。評価部16が主要端末間で送受信される通信データを用いて当該関係性を評価することで、膨大な通信データの中から予め定められた事案との関係性が高い情報処理装置2間で送受信された通信データを絞り込むことができる。
例えば、評価部16は、自動コード付処理を実行することで通信データの内容と予め定められた事案との関係性を評価する。一例として、評価部16は、通信データ取得部10が取得した通信データから一部の通信データを抽出する。なお、評価部16は、複数の通信データから一部の通信データをランダムに抽出する。次に、評価部16は、当該一部の通信データに、入力部11が外部から取得した予め定められた事案との関係性を対応づける情報をコード付けする。予め定められた事案との関係性とは、通信データが予め定められた事案と関係性を有することを示す情報、および通信データと予め定められた事案との関係性の高低を示す情報等である。
そして、評価部16は、分析部12が分析したすべての通信データ若しくは分析部12が予め定められた事案に関連するテキストデータが含まれていると分析したすべての通信データに対して、予め定められた事案との関係性を対応づける情報がコード付けられた通信データを用い、自動コード付処理を実行する。これにより、評価部16は、一の人物の情報処理装置から他の人物の情報処理装置に向けて送信された通信データが、予め定められた事案に関連するか否か、および当該通信データの予め定められた事案との関連性の高低について評価する。または、評価部16は、一のドメインの情報処理装置から他のドメイン情報の情報処理装置に向けて送信された通信データが、予め定められた事案に関連するか否か、および当該通信データの予め定められた事案との関連性の高低について評価してもよい。ドメイン情報は、個々のコンピュータの識別を表す情報であったり、Eメールの@以下の識別子であったりしてもよい。
一例として、評価部16は、第1の人物の情報処理装置から第2の人物の情報処理装置に送信される電子メールが、予め定められた事案と関連しているか否かを評価する。そして、評価部16は、当該電子メールが当該事案に関連している場合、当該電子メールにスコアを対応づける。評価部16は、第1の人物の情報処理装置から第2の人物の情報処理装置に送信される電子メールの全てについて同様にスコアを対応づけ、対応づけたスコアを合計することにより、第1の人物と第2の人物との間の関係性のスコアを算出する。評価部16は、一の人物の情報処理装置から他の複数の人物それぞれの情報処理装置に送信される電子メールのそれぞれについて同様に評価する。そして、評価部16は、一の人物と他の複数の人物との間の関係性それぞれについて、スコアを算出して評価する。
また、評価部16は、第1のドメインの情報処理装置から第2のドメインの情報処理装置に送信される電子メールが、予め定められた事案と関連しているか否かを評価する。そして、評価部16は、当該電子メールが当該事案に関連している場合、当該電子メールにスコアを対応づける。評価部16は、第1のドメインの情報処理装置から第2のドメインの情報処理装置に送信される電子メールの全てについて同様にスコアを対応づけ、対応づけたスコアを合計することにより、第1のドメインと第2のドメインとの間の関係性のスコアを算出する。評価部16は、一のドメインの情報処理装置から他の複数のドメインそれぞれの情報処理装置に送信される電子メールのそれぞれについて同様に評価する。そして、評価部16は、一のドメインと他の複数のドメインとの間の関係性それぞれについて、スコアを算出して評価する。
なお、評価部16が通信データの解析結果に基づいて関係性を評価する場合、例えば、以下のように評価を実行する。まず、評価部16は、予め定められた事案に関連する複数の単語の組合せに、予め定められた事案との関連性の高低を示すスコアを対応づけて格納する辞書を有することができる。そして、評価部16は、形態素解析に基づいて通信データ内のテキストデータを解析し、当該辞書に格納されている複数の単語の組合せが、選択された通信データ内に含まれているか否かを判断する。
評価部16は、当該辞書に格納されている単語の組合せが、選択された通信データに含まれていると判断した場合、辞書に格納されているスコアに基づいて、予め定められた事案に対する当該ファイルの関連性の高低を評価する。そして、評価部16は、評価結果を示す情報(すなわち、予め定められた事案に対する関連性の高低を示す情報)を選択された通信データに対応づける。これにより、評価部16は、通信データと予め定められた事案との関係性の高低を評価できる。
更に、評価部16は、通信データに含まれる送受信時刻を示すデータを読み取ることで、通信データの送受信時刻ごとに予め定められた事案に関する通信データの関連性の高低を評価することもできる。また、評価部16は、評価が実行された実行時刻ごとに予め定められた事案に関する通信データの関連性の高低を評価することもできる。評価部16は、評価結果を示す情報を表示部18に供給する。
表示部18は、評価部16の評価結果に基づいて、予め定められた事案に関連する複数の人物の関係性を表示する。表示部18は、評価部16が一の人物と他の人物との間の関係性に対して算出したスコアに応じて、表示形態を変化させることができる。
例えば、表示部18は、評価部16から受け取った評価結果を解析し、予め定められた事案に関連する複数の人物それぞれを把握する。そして、図25に示すように表示部18は、各人物を円形のノードに対応づけてそれぞれ表示すると共に、一の人物と他の人物との間に関係性がある場合、当該一の人物に対応するノードと当該他の人物に対応するノードとの間を矢印で結合して表示する。各ノードの大きさは、一のノード30との関係性の高低を示す。すなわち、ノードの大きさが大きいほど、ノード30との関係性が高いことを示す。図25の例においては、ノード31、ノード36、ノード35、ノード32、ノード33、ノード34の順にノードの大きさが小さくなっている。したがって、図25の例においては、ノード31、ノード36、ノード35、ノード32、ノード33、ノード34の順にノード30に対応する人物との関係性が高いことを示す。なお、表示部18は、ノード内に評価部16が算出したスコアを表示することもできる。
また、表示部18は、ノード間を結合する矢印若しくは線分の太さや色等を変化させて表示することもできる。例えば、表示部18は、一のノードに対応づけられている人物と他のノードに対応づけられている人物との関係性に応じ、矢印若しくは線分の太さ、色、線の種類、線の長さを変更することもできる。一例として、表示部18は、一のノードに対応づけられている人物と他のノードに対応づけられている人物との関係性が高いほど、太い線分若しくは強調された色を有する線分で一のノードと他のノードとを結合した状態を表示する(例えば、通常時は黒色の線であり、強調時は赤や黄色の線で表示する)。
更に、表示部18は、一のノードに一の人物(すなわち、個人)を対応づけるだけではなく、一のノードに予め定められた組織単位(例えば、係、課、部、会社等)を対応づけることもできる。この場合、分析部12は、通信データの内容を分析して、複数の通信データを予め定められた組織単位にグルーピングする。そして、分析部12は、グルーピングした結果を示す情報を表示部18に供給する。
また、表示部18は、分析部12の分析結果に基づいて複数の人物の第1の関係性を表示した後、評価部16の評価結果を第1の関係性に反映させた複数の人物の第2の関係性を表示することもできる。すなわち、表示部18は、テキストマイニングを用いた分析部12の分析結果だけに基づいてまず第1の関係性を表示する。続いて、表示部18は、自動コード付処理を用いた評価部16の評価結果が生成された段階で、当該評価結果を用いて第1の関係性を第2の関係性に変化させ、第2の関係性を表示することができる。
また、表示部18は、送受信時刻ごと、若しくは実行時刻ごとにおける評価部16の評価結果に基づいて、複数の人物の関係性の表示を動的に変化させることもできる。例えば、表示部18は、所定の時間間隔ごとに各ノード間の通信データ(例えば、電子メール)の送受信量をユーザに視認可能に表示する。例えば、表示部18は、各ノード間でやり取りされる通信データ量を時系列に沿ってノードの大きさや線の太さを変化させて表示する。これにより、表示部18は、ある特定の時刻以降に送受信量が急増している人物間の関係性を強調表示できる。したがって、相関関係表示システム1によれば、ある特定の事件が発生した後に急に送受信される通信データ量が多くなる人物を特定することができる。
また、表示部18は、評価部16における評価が実行された時刻ごとに、複数の人物の関係性を表示できる。すなわち、表示部18は、評価部16における評価が実行され、評価結果が変更されるたびに、リアルタイムに複数の人物の関係性を動的に変化させて表示することもできる。表示部18は、上述したノードを含む表示を人物ではなく、ドメイン情報で表示するものであってもよい。分析部18は、ドメイン情報の場合、ノード31の中に上述した人物を表すノードを含むように解析し、表示部18は、その解析結果に基づき、ドメイン情報のノード内に人物を表すノードを表すものであってもよい。または、表示部18は、評価部16の評価結果に基づいて、予め定められた事案に関連する複数のドメイン情報の関係性を表示してもよい。
(相関関係表示方法の概要)
図26は、相関関係表示システム1が実行する処理の流れを示すフローチャートである。まず、通信データ取得部10は、情報処理装置2若しくは複数の情報処理装置2間で送受信される通信データを格納しているサーバから通信データを取得する(ステップ10。以下、「ステップ」を「S」と表す)。通信データ取得部10は、分析部12、ネットワーク分析部14、および評価部16からの働きかけに応じ、分析部12、ネットワーク分析部14、および/または評価部16に取得した通信データを供給する。
分析部12は、通信データ取得部10から取得した通信データの内容を分析する(S15)。例えば、分析部12は、テキストマイニング手法を用い、通信データに含まれるテキストデータの内容を分析する。一例として、分析部12は、予め定められた事案に関連する単語が通信データに含まれるか否かを分析する。なお、分析部12に含まれる特定部121および関連付与部122は、上記S15において、図3に示される処理を実行してよい。分析部12は、分析結果を評価部16、および表示部18に供給する。
評価部16は、通信データの内容と予め定められた事案との関係性を評価する(S20)。評価部16は、例えば、自動コード付処理の手法を用いて当該関係性を評価する。評価部16は、評価結果を表示部18に供給する。表示部18は、評価部16から受け取った評価結果に基づいて、複数の人物の関係性を、ユーザに視認可能にモニタ等の出力装置に表示する(S25)。
(相関関係表示システム1のハードウェア構成)
図27は、相関関係表示システム1のハードウェア構成の一例を示す。相関関係表示システム1は、CPU1500と、グラフィックコントローラ1520と、RAM(Random Access Memory)、ROM(Read-Only Memory)および/またはフラッシュROMなどのメモリ1530と、データを記憶する記憶装置1540と、記録媒体からデータを読み込み、および/または、記録媒体にデータを書き込む読込/書込み装置1545と、データを入力する入力装置1560と、外部の通信機器とデータを送受信する通信インターフェース1550と、CPU1500とグラフィックコントローラ1520とメモリ1530と記憶装置1540と読込/書込み装置1545と入力装置1560と通信インターフェース1550とを互いに通信可能に接続するチップセット1510とを備える。
チップセット1510は、メモリ1530と、メモリ1530にアクセスして所定の処理を実行するCPU1500と、外部の表示装置の表示を制御するグラフィックコントローラ1520とを相互に接続することにより、各構成要素間のデータの受渡しを実行する。CPU1500は、メモリ1530に格納されたプログラムに基づいて動作して、各構成要素を制御する。グラフィックコントローラ1520は、メモリ1530内に設けられたバッファ上に一時的に蓄えられた画像データに基づいて、画像を所定の表示装置に表示させる。
また、チップセット1510は、記憶装置1540と、読込/書込み装置1545と、通信インターフェース1550とを接続する。記憶装置1540は、相関関係表示システム1のCPU1500が使用するプログラムとデータとを格納する。記憶装置1540は、例えば、フラッシュメモリである。読込/書込み装置1545は、プログラムおよび/またはデータを記憶している記憶媒体からプログラムおよび/またはデータを読み取って、読み取ったプログラムおよび/またはデータを記憶装置1540に格納する。読込/書込み装置1545は、例えば、通信インターフェース1550を介し、インターネット上のサーバから所定のプログラムを取得して、取得したプログラムを記憶装置1540に格納する。
通信インターフェース1550は、通信ネットワークを介して外部の装置とデータの送受信を実行する。また、通信インターフェース1550は、通信ネットワークが不通の場合、通信ネットワークを介さずに外部の装置とデータの送受信を実行することもできる。そして、キーボード、タブレット、マウス等の入力装置1560は、所定のインターフェースを介してチップセット1510と接続する。
記憶装置1540に格納される相関関係表示システム1用の相関関係表示プログラムは、インターネット等の通信ネットワーク、又は磁気記録媒体、光学記録媒体等の記録媒体を介して記憶装置1540に提供される。そして、記憶装置1540に格納された相関関係表示システム1用のプログラムは、CPU1500により実行される。
実施形態1に係る相関関係表示システム1により実行される相関関係表示プログラムは、CPU1500に働きかけて、相関関係表示システム1を、図24から図27にかけて説明した通信データ取得部10、入力部11、分析部12、特定部121、関連付与部122、ネットワーク分析部14、評価部16、および表示部18として機能させる。
(相関関係表示システム1が奏する効果)
相関関係表示システム1によれば、所定のデータから人物の行為に関連する箇所(第1の単語および第2の単語)を抽出し、当該抽出した箇所を上記メタ情報と関連付けることによって、当該人物の行為を分析することができる。例えば、「技術を交流する」という文章が電子メール(データ、通信情報)に含まれており、「技術」(第2の単語)および「交流する」(第1の単語)という単語が抽出された場合、相関関係表示システム1は、上記「技術」および「交流する」と、上記電子メールを送受信した人物の名前(例えば、「人物A」および「人物B」、すなわち、データの属性を示すメタ情報)とを関連付ける。これにより、「人物A」と「人物B」とが、ある「技術」についての「交流」を企図していることが推測できる。
したがって、相関関係表示システム1によれば、例えば、ディスカバリーなどの作業を実行する場合、予め定められた事案(訴訟または不正調査など)に関連する行為をデータから抽出し、当該データとの関連を特定することによって、上記ディスカバリーを効率よく実行できる。また、相関関係表示システム1によれば、予め定められた事案に対して関連性が高い人物間の関係性を把握できるので、ディスカバリー等の作業における重要な通信データの見落としを抑制することができる。
なお、本発明の実施形態に係る相関関係表示システム、方法、プログラムは、人物の関係性のみならず、ドメイン情報の関係性、組織の役職情報、性別情報、国籍、電話通信情報、チャット情報等を表示するものであってもよい。
〔その他の実施形態〕
本発明のその他の実施形態を説明する。
前述した各実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書分別システムは、カルテルや独占禁止法等、eDiscovery(電子証拠開示)制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。
また、実施形態2または実施形態3において、レビュワーの分別した規則性を踏まえて自動で分別符号を付与する第4段階の処理を、第1段階乃至第3段階の処理の後に実施していたが、第1段階乃至第3段階の処理を行わず、第4段階の処理のみを単独で行ってもよい。
さらに、最初に文書抽出部によって、文書情報から一部の文書群を抽出し、該抽出した文書群に対して、まず第4段階の処理を最初に行う。その後、第4段階で登録したキーワードを基に第1段階乃至第3段階の処理を行うという実施形態をとってもよい。
ワード検索部164において、実施形態3の第4段階では、分別符号受付付与部181において、分別符号が受け付けなかった文書に対してワード選定部174が選定したキーワードの探索を実施していたが、全文書情報を対象として該キーワードの探索を行ってもよい。
実施形態2および実施形態3の第4段階では、第3自動分別部401、451において、分別符号受付付与部131,181において、分別符号が受け付けなかった文書のみを分別符号の自動付与の対象としていたが、全文書情報を該自動付与の対象としてもよい。
本発明の第2の実施形態に係る文書分別システム及び文書分別方法並びに文書分別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、レビュワーが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。
また、本発明の第2の実施形態に係る文書分別システムにおいて、ワード検索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、第2の実施形態は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
また、第2の実施形態は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、ワード検索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
〔プログラムによる実現例〕
相関関係表示システム1、文書分別システム3、文書分別システム4、および、データ分析システム5が備えた各ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、相関関係表示システム1、文書分別システム3、文書分別システム4、および、データ分析システム5は、各機能を実現するソフトウェアであるプログラム(制御プログラム)の命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(又はCPU)で読み取り可能に記録されたROM(Read Only Memory)又は記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(又はCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔付記事項1〕
以上、本発明の実施形態を説明したが、上記した実施形態は特許請求の範囲に係る発明を限定するものではない。また、実施形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。さらに、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されてもよい。
〔付記事項2〕
複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得部と、前記通信データ取得部が取得した前記通信データの内容を分析する分析部と、前記分析部の分析結果を用い、前記通信データの内容と予め定められた事案との関係性を評価する評価部と、前記評価部の評価結果に基づいて、前記事案に関連する前記複数の人物の関係性を表示する表示部とを備える相関関係表示システム。
複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得部と、前記通信データ取得部が取得した前記通信データのドメイン情報を分析する分析部と、前記分析部の分析結果を用い、前記通信データのドメイン情報と予め定められた事案との関係性を評価する評価部と、前記評価部の評価結果に基づいて、前記事案に関連する前記ドメイン情報を表示する表示部とを備える相関関係表示システム。
前記通信データを用い、前記複数の端末により構築される通信ネットワークを解析することで前記複数の端末から前記通信ネットワークにおける複数の主要端末を決定するネットワーク分析部を更に備え、前記評価部が、前記複数の主要端末間で送受信される前記通信データと前記分析結果とを用い、前記関係性を評価する相関関係表示システム。
前記表示部が、前記分析結果に基づいて前記複数の人物の第1の関係性を表示した後、前記評価結果を前記第1の関係性に反映させた前記複数の人物の第2の関係性を表示する相関関係表示システム。
前記評価部が、前記通信データの送受信時刻ごと、若しくは前記評価が実行された実行時刻ごとに前記関係性を評価し、前記表示部が、前記送受信時刻ごと、若しくは前記実行時刻ごとにおける前記評価部の評価結果に基づいて、前記複数の人物の関係性または、前記ドメイン情報を変化させて表示する相関関係表示システム。
前記通信データが、電子メール、電話の通話記録、及びソーシャルネットワークサービスへのアクセス記録のうち少なくとも1つを含む相関関係表示システム。
前記予め定められた事案が、訴訟に関係することを示す情報である相関関係表示システム。
複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得段階と、前記通信データ取得段階において取得された前記通信データの内容を分析する分析段階と、前記分析段階における分析結果を用い、前記通信データの内容と予め定められた事案との関係性を評価する評価段階と、前記評価段階における評価結果に基づいて、前記事案に関連する前記複数の人物の関係性を表示する表示段階とを備える相関関係表示方法。
複数の人物間の関係性を表示する相関関係表示プログラムであって、コンピュータに、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得機能と、前記通信データ取得機能において取得された前記通信データの内容を分析する分析機能と、前記分析機能における分析結果を用い、前記通信データの内容と予め定められた事案との関係性を評価する評価機能と、前記評価機能における評価結果に基づいて、前記事案に関連する前記複数の人物の関係性を表示する表示機能とを実現させる相関関係表示プログラム。
複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得段階と、前記通信データ取得段階において取得された前記通信データのドメイン情報を分析する分析段階と、前記分析段階における分析結果を用い、前記通信データのドメイン情報と予め定められた事案との関係性を評価する評価段階と、前記評価段階における評価結果に基づいて、前記事案に関連するドメイン情報の関係性を表示する表示段階とを備える相関関係表示方法。
複数の人物間の関係性を表示する相関関係表示プログラムであって、コンピュータに、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得機能と、前記通信データ取得機能において取得された前記通信データのドメイン情報を分析する分析機能と、前記分析機能における分析結果を用い、前記通信データのドメイン情報と予め定められた事案との関係性を評価する評価機能と、前記評価機能における評価結果に基づいて、前記事案に関連する前記ドメイン情報の関係性を表示する表示機能とを実現させる相関関係表示プログラム。
〔付記事項3〕
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、該取得されたデジタル情報に含まれる文書情報を保持する文書データ格納部であって、前記文書情報を格納するとともに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とを登録するキーワードデータベースと、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベースとを格納する文書データ格納部と、前記ワード検索部により前記キーワードデータベースに記録したキーワードを検索し、前記キーワードを含む文書を前記文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を自動的に付与する第1自動分別部と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部と、前記文書情報から、前記関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を自動的に付与する第2自動分別部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、前記分別符号受付付与部により分別符号を付与された複数の文書を解析する分別符号受付文書解析部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、前記分別符号受付部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部とを備えることを特徴とする文書分別システム。
抽出した文書の言語の種類を判定する言語判定部と、ユーザの指定を受け付けて、又は、自動的に、前記文書情報から抽出した文書を翻訳する翻訳部とを備えることを特徴とする文書分別システム。
前記文書分別システムは、更に、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部を備え、前記分別符号受付文書解析部が、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、及び文書ごとに含まれる、前記抽出した単語の種類、各単語がもつ評価値及び出現数を文書ごとに解析することにより、前記傾向情報生成部により傾向情報を生成し、前記分別符号受付付与部により分別符号を受け付けていない文書のうち、前記解析により生成した傾向情報と同じ傾向をもつ文書に対して、前記共通の分別符号の付与を行うことを特徴とする文書分別システム。
前記文書分別システムは、更に、前記ユーザが分別符号を付与した文書に対して、前記解析した傾向情報に基づいて付与すべき分別符号を決定し、前記決定した分別符号と前記ユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることを特徴とする文書分別システム。
前記第1分別部において前記キーワードを複数含む文書に対し、前記キーワードのもつ評価値及び出現数に基づいて、付与する分別符号を選択することを特徴とする文書分別システム。
前記第2分別部において前記算出したスコアを用いて前記関連用語の評価値を再計算し、前記スコアが一定値を超過した文書中に頻出する前記関連用語の評価値に重みづけを行うことを特徴とする文書分別システム。
文書群において、ワードを選定するワード選定部を備え、前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、前期第3自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する文書分別システム。
文書群において、ワードを選定するワード選定部を備え、前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、前記スコア算出部は、前記ワード選定部の選定結果と前記分別符号受付文書解析部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、前記第3自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する文書分別システム。
前記ワードとしてキーワードを選定する文書分別システム。
前記ワードとして関連用語を選定する文書分別システム。
前記文書分別システムは、更に、前記文書群に含まれる文書のうち、前記ワード選定部が選定した前記キーワード、前記関連用語及び前記分別符号と相関関係を有するキーワードを含まない文書を選定し、前記第3自動分別部の分別対象から前記選定された文書を排除する文書排除部を備えることを特徴とする文書分別システム。
前記文書分別システムは、更に、前記選定部の分析結果と、前記スコア算出部の算出したスコアに基づいて前記選定部が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えることを特徴とする文書分別システム。
前記スコア算出部は、前記文書群の中に出現する前記キーワードと、各キーワードの持つ重みづけとによりスコアを算出することを特徴とする文書分別システム。
前記重みづけは、前記キーワードが持つ、前記分別符号ごとにおける伝達情報量をもとに決定することを特徴とする文書分別システム。
前記文書抽出部は、前記文書情報から文書群をランダムにサンプリングし抽出する機能を備えることを特徴とする文書分別システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、コンピュータが、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録し、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録し、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与し、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与し、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付け、前記ユーザからの分別符号の付与を受け付けた文書を解析し、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与することを特徴とする文書分別方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、コンピュータに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録する機能と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録する機能と、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する機能と、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与する機能と、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能と、前記ユーザからの分別符号の付与を受け付けた文書を解析する機能と、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する機能とを実現させることを特徴とする文書分別プログラム。