JP2016189036A

JP2016189036A - 文書分別システム及び文書分別方法並びに文書分別プログラム

Info

Publication number: JP2016189036A
Application number: JP2013173129A
Authority: JP
Inventors: 守本　正宏; Masahiro Morimoto; 正宏守本; 秀樹武田; Hideki Takeda; 拓一小野里; Hirokazu ONOZATO
Original assignee: Ubic Inc
Current assignee: Fronteo Inc
Priority date: 2013-08-23
Filing date: 2013-08-23
Publication date: 2016-11-04
Also published as: TW201513036A; WO2015025978A1

Abstract

【課題】訴訟において証拠として提出するために収集されたデジタル文書情報を分析し、訴訟への利用が容易になるように分別する。
【解決手段】
抽出された特定のキーワードを含む文書に対して、特定の分別符号を付与する第１自動分別部と、抽出された所定の関連用語を含み分別符号を付与が付与されていない文書に対して、該抽出した文書に含まれる関連用語の評価値と数を用いて算出したスコアに基づいて、該所定の分別符号を付与する第２自動分別部と、抽出された分別符号が付与されていない文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、抽出された分別符号が付与されていない文書に対して、分別符号受付付与部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第３自動分別部とを備える。
【選択図】図１

Description

本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。

従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、利用者情報に含まれる少なくとも１人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報

しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。

このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。

そこで、本発明は、上記事情に鑑み、デジタル化された文書情報を収集した後に、当該文書情報に対して、分別符号を自動で付与することにより、訴訟に利用する文書情報の分別作業の負担軽減を可能とする文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とするものである。

本発明の文書システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、該取得されたデジタル情報に含まれる文書情報を保持する文書データ格納部であって、前記文書情報を格納するとともに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とを登録するキーワードデータベースと、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベースとを格納する文書データ格納部と、前記ワード検索部により前記キーワードデータベースに記録したキーワードを検索し、前記キーワードを含む文書を前記文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を自動的に付与する第１自動分別部と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部と、前記文書情報から、前記関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を自動的に付与する第２自動分別部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、前記分別符号受付付与部により分別符号を付与された複数の文書を解析する分別符号受付文書解析部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、前記分別符号受付付与部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第３自動分別部とを備える

本発明の文書分別システムは、抽出した文書の言語の種類を判定する言語判定部と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部とを備えても良い。

前記文書分別システムは、更に、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部を備え、前記分別符号受付文書解析部が、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、及び文書ごとに含まれる、前記抽出した単語の種類、各単語がもつ評価値及び出現数を文書ごとに解析することにより、前記傾向情報生成部により傾向情報を生成し、前記分別符号受付付与部により分別符号を受け付けていない文書のうち、前記解析により生成した傾向情報と同じ傾向をもつ文書に対して、前記共通の分別符号の付与を行っても良い。

前記文書分別システムは、更に、前記ユーザが分別符号を付与した文書に対して、前記解析した傾向情報に基づいて付与すべき分別符号を決定し、前記決定した分別符号と前記ユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えても良い。

本発明の文書分別システムは、文書群において、ワードを選定するワード選定部を備え、前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、前記第３自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与しても良い。

前記文書分別システムは、更に、前記文書群に含まれる文書のうち、前記ワード選定部が選定した前記キーワード、前記関連用語及び前記分別符号と相関関係を有するキーワードを含まない文書を選定し、前記第３自動分別部の分別対象から前記選定された文書を排除する文書排除部を備えても良い。

本発明の文書分別システムは、更に、前記選定部の分析結果と、前記スコア算出部の算出したスコアに基づいて前記選定部が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えても良い。

本発明の文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、コンピュータが、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録し、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録し、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与し、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与し、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付け、前記ユーザからの分別符号の付与を受け付けた文書を解析し、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する。

本発明の文書分別プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、コンピュータに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録する機能と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録する機能と、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する機能と、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与する機能と、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能と、前記ユーザからの分別符号の付与を受け付けた文書を解析する機能と、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する機能とを実現させる。

本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、第１自動分別部において、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与し、第２自動分別部において、第１自動分別部により特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与することにより、レビュワーの分別作業の労力の削減を図ることができる。

また、本発明の文書判別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付付与部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付付与部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、分別符号受付付与部において、レビュワー所定の分別符号を付与しなかった文書に対して、レビュワーからの分別符号の付与を受け付け、分別符号受付文書解析部において、レビュワーから分別符号の付与を受け付けた文書を解析し、分別符号を付与していない文書に対して、解析の結果に基づいて分別符号を付与することにより、レビュワーの分別作業の労力の削減を図ることができる。

また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。

また、本発明は、第２分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、文書分別システムが、分別処理を実施する毎に分別精度の向上を図ることを可能とする。

本発明の第１の実施形態に係る文書判別システムの構成図本発明の第２の実施形態に係る文書判別システムの構成図第１の実施形態における段階ごとの処理の流れを示したチャート第１の実施形態におけるキーワードデータベースの処理フローを示すチャート第１の実施形態における関連用語データベースの処理フローを示したチャート第１の実施形態における第１自動分別部の処理フローを示したチャート第１の実施形態における第２自動分別部の処理フローを示したチャート第１の実施形態における分別符号受付付与部の処理フローを示したチャート第１の実施形態における分別符号受付文書解析部の処理フローを示したチャート第１の実施形態における分別符号受付文書解析部での解析結果を示したグラフ第１の実施形態の１実施例における第３自動分別部の処理フローを示したチャート第１の実施形態の他の実施例における第３自動分別部の処理フローを示したチャート第１の実施形態における品質検査部の処理フローを示したチャート本発明の実施形態における文書表示画面第２の実施形態における段階ごとの処理の流れを示したチャート第２の実施形態におけるデータベースの処理フローを示したチャート第２の実施形態におけるワード探索部の処理フローを示したチャート第２の実施形態におけるスコア算出部の処理フローを示したチャート本発明の実施形態における自動分別部の処理フローを示したチャート本発明の実施形態における文書排除部の処理フローを示したチャート

［第１の実施形態］
上述のように、本発明に係る文書分別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするものである。
図１は、本発明の第１の実施形態に係る文書分別システムの構成を示す。図１を参照して、第１の実施形態に係る文書分別システムの構成について以下に記載する。

実施形態に係る文書分別システム１は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域１０３に格納するデータ格納部１００を有する。そして、該データ格納部１００は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース１０１と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース１０２を格納する。このデータ格納部１００は、図１に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム１の外部に設置されても良い。

第１の実施形態に係る文書分別システム１は、文書情報から複数の文書を抽出する文書抽出部１１２と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部１１４と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部１１６とを備える。

第１の実施形態に係る文書分別システム１は、ワード検索部１１４により前記キーワードデータベース１０１に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第１自動分別部２０１と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第２自動分別部３０１とを有する。

更に、実施形態に係る文書分別システム１は、文書情報から抽出された複数の文書を画面上に表示する文書表示部６０１と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部１３１と、分別符号受付付与部１３１により分別符号を付与された文書を解析する分別符号受付文書解析部１１８と、文書情報から抽出された複数の文書に対して、前記分別符号受付付与部１３１により分別符号を付与された文書を分別符合受付文書解析部１１８により解析した解析結果に基づいて、分別符号を自動的に付与する第３自動分別部４０１とを備える。

また、第１の実施形態に係る文書分別システム１は、抽出した文書の言語の種類を判定する言語判定部１２０と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部１２２とを備えても良い。１文多言語の複合言語にも対応できるように、言語判定部１２０における言語の区切りを１文より小さくする。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、ＨＴＭＬのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。

また、第１の実施形態に係る文書分別システム１は、分別符号受付文書解析部１１８による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部１２４を備えても良い。

また、第１の実施形態に係る文書分別システム１は、文書符号受付付与部１３１が受け付けた分別符号と分別符号受付文書解析部１１８において傾向情報により付与された分別符号を比較し、文書符号受付付与部１３１が受け付けた分別符号の妥当性を検証する品質検査部５０１を備えても良い。

本発明の各実施形態に係る文書分別システムの理解を容易とするために、各実施形態に特有な用語について以下に記載する。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。

「文書」とは、１つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。

「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

「キーワード」とは、１つまたは複数の「単語」を組み合わせたものをいう。具体的には、特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものをいってもよい。例えば、特許侵害訴訟が発生した場合において、当該訴訟と関連度の高い文書に重要という分別符号を付与する場合の「キーワード」として、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。

また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。

「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。

また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。

「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品Ａ」という分別符号が製品Ａの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。

「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式（１）を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。

また、本発明の文書分別システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。

ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

また、本発明の文書分別システムは更に、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることも可能である。

第１の実施形態では、図３に示すようなフローチャートに従い、第１段階〜第５段階で、登録処理、分別処理、及び検査処理を行う。

第１段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う（ＳＴＥＰ１００）。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに登録される。

第２段階では、第１段階で登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録したキーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第１分別処理を行う（ＳＴＥＰ２００）。

第３段階では、第１段階で記録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で記録した関連用語対応情報を参照し、分別符号の付与を実行する第２分別処理を行う（ＳＴＥＰ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第３分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（ＳＴＥＰ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（ＳＴＥＰ５００）。

第４段階及び第５段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

第１段階から第５段階の各段階における詳細な処理フローを以下で説明する。
＜第１段階（ＳＴＥＰ１００）＞
第１段階におけるキーワードデータベース１０１の詳細な処理フローを図４を用いて説明する。

キーワードデータベース１０１は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（ＳＴＥＰ１１１）。この特定は、第１の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

第１の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する（ＳＴＥＰ１１２）。そして、特定されたキーワードをキーワードデータベースに登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベースの分別符号「重要」の管理テーブルに記録する（ＳＴＥＰ１１３）。

次に、関連用語データベース１０２の詳細な処理フローを図５を用いて説明する。関連用語データベース１０２は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する（ＳＴＥＰ１２１）。第１の実施形態においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を登録する。

登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（ＳＴＥＰ１２２）、各管理テーブルに記録する（ＳＴＥＰ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

＜第２段階（ＳＴＥＰ２００）＞
第２段階における第１分別部２０１の詳細な処理フローを、図６を用いて説明する。第１の実施形態において、第２段階では、第１分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１分別部２０１では、第１段階（ＳＴＥＰ１００）でキーワードデータベース１０１に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（ＳＴＥＰ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、（ＳＴＥＰ２１２）、「重要」という分別符号を付与する（ＳＴＥＰ２１３）。

＜第３段階（ＳＴＥＰ３００＞
第３段階における第２分別部３０１の詳細な処理フローを、図７を用いて説明する。
第１の実施形態において、第２分別部３０１では、第２段階（ＳＴＥＰ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２分別部３０１は、該文書情報から、第１段階で関連用語データベース１０２に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（ＳＴＥＰ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）を用いて、スコア算出部１１６によりスコアを算出する（ＳＴＥＰ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（ＳＴＥＰ３１３）、適切な分別符号を付与する（ＳＴＥＰ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２分別部３０１では、第４段階のＳＴＥＰ４３２において算出されるスコアを用いて以下に示す式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う（ＳＴＥＰ３１５）。

例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（ＳＴＥＰ４００）＞
第４段階では、図８に示すように、第３段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図９に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、第１の実施形態においては、該文書情報に対して、第４段階では、例えば、「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。第４段階について、更に以下に記載する。

第４段階における分別符号受付付与部１３１の詳細な処理フローを、図８を用いて説明する。第４段階での処理対象となる文書情報からまず文書抽出部１１２が、ランダムに文書をサンプリングし、文書表示部６０１上で表示する。第１の実施形態では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは文書表示部６０１上に表示される図１４に示す表示用画面Ｉ１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部１３１は、該ユーザが選択した分別符号を受け付け（ＳＴＥＰ４１１）、付与された分別符号に基づいて分別する（ＳＴＥＰ４１２）。

次に、分別符号受付文書解析部１１８の詳細な処理フローを、図９を用いて説明する。分別符号受付文書解析部１１８では、分別符号受付付与部１３１で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（ＳＴＥＰ４２１）。抽出した共通の単語の評価値を式（２）により解析し（ＳＴＥＰ４２２）、該共通の単語の文書中の出現頻度を解析する（ＳＴＥＰ４２３）。

さらに、ＳＴＥＰ４２２及びＳＴＥＰ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（ＳＴＥＰ４２４）。
図１０は、ＳＴＥＰ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１０において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部１３１によってＳＴＥＰ４２１で抽出された単語を含む文書の割合を示している。

第１の実施形態において、分別符号受付付与部１３１では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

ＳＴＥＰ４２１乃至ＳＴＥＰ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、第３自動分別部４０１の詳細な処理フローを、図１１を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１８１によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第３自動分別部４０１では、このような文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４３１）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４３２）。また、ＳＴＥＰ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４３３）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。

更に、第３自動分別部４０１の詳細な処理フローの１例を、図１２を用いて説明する。第３自動分別部４０１では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付付与部１３１によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第３自動分別部４０１では、引数が与えられなかった場合には（ＳＴＥＰ４４１：なし）、該文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４４３）。また、ＳＴＥＰ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４４４）。

第３自動分別部４０１では、さらに、ＳＴＥＰ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

＜第５段階（ＳＴＥＰ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図１３を用いて説明する。品質検査部５０１では、分別符号受付付与部１３１が、ＳＴＥＰ４１１で受け付けた文書に対して、分別符号受付文書解析部１１８がＳＴＥＰ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（ＳＴＥＰ５１１）。
分別符号受付付与部１３１が受け付けた分別符号とＳＴＥＰ５１１で決定した分別符号とを比較し（ＳＴＥＰ５１２）、ＳＴＥＰ４１１で受け付けた分別符号の妥当性を検証する（ＳＴＥＰ５１３）。

［第１の実施形態の発明の効果］
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第１分別部と、第１分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第２分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。

また、本発明の文書判別システムは、言語を翻訳するための言語判定部と翻訳部とを有するので、多言語を含む文書に分別符号を付する分別処理をする際に、ユーザの労力を低減することが可能になる。

[第２の実施形態]
図２は、本発明の第２の実施形態に係る文書分別システム２の構成を示す。図２を参照して、第２の実施形態に係る文書分別システム２の構成について以下に記載する。

第２の実施形態に係る文書分別システム２は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域１５３に格納するデータ格納部１５０を有する。そして、該データ格納部１５０は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース１５１と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース１５２を格納する。このデータ格納部１５０は、図２に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム２の外部に設置されても良い。

第２の実施形態に係る文書分別システム２は、文書情報から複数の文書を抽出する文書抽出部１６２と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部１６４と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部１６６とを備える。スコアを算出する処理には、第１の実施形態と同様の処理を用いても良い。

第２の実施形態に係る文書分別システム２は、ワード検索部１６４により前記キーワードデータベース１５１に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第１自動分別部２５１と、分別符号が付与されていない文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第２自動分別部３５１とを有する。

更に、実施形態に係る文書分別システム２は、抽出された複数の文書を画面上に表示する文書表示部６５１と、
文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部１８１と、分別符号受付付与部１８１により分別符号を付与された文書を解析する分別符号受付文書解析部１６８と、
文章情報から抽出された分別符号が付与されていない複数の文書に対して、分別符号受付付与部１８１により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第３自動分別部４５１とを備える。

第２の実施形態に係る文書分別システム２は、第１の実施形態に係る文書分別システム１と同様に、抽出した文書の言語の種類を判定する言語判定部１７０と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部１７２を備えても良い。

第２の実施形態に係る文書分別システムは、抽出された文書群において、共通して出現するキーワードを解析し選定するワード選定部１７４を備え、分別符号受付文書解析部１６８は、分別符号受付付与部１８１により分別符号を付与された文書を解析し、該分別符号を付与された文書を分別符号ごとに分類し、該分類された文書群において、共通して出現するキーワードを解析し選定しても良い。

第２の実施形態に係る文書分別システムは、分別対象となる文情報のうち、キーワードデータベース１５１と関連用語データベース１５２で事前に登録されたキーワード及び関連用語、並びにワード選定部１７４において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除する文書排除部１７６を備えても良い。

第２の実施形態に係る文書分別システムは、ワード選定部１７４が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部５５１を備えても良い。

第２の実施形態では、図１５に示すようなフローチャートに従い、５つの段階で登録処理、分別処理、及び学習処理を行う。
第１段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Ａの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである（ＳＴＥＰ１１００）。
第２段階では、第１段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する（ＳＴＥＰ１２００）。
第３段階では、第１段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、当該文書の分別を行う（ＳＴＥＰ１３００）。
第４段階では、抽出した文書についてレビュワーによる分別符号の付与の決定を受け付け、受け付けた分別符号の付与の決定を解析した後に、解析結果に基づいて更に抽出した分別符号を付与していない文書に自動で分別符号の付与を行う（ＳＴＥＰ１４００）。
第５段階では、第１段階乃至第４段階の結果を用いて、学習を行う（ＳＴＥＰ１５００）。

第２の実施形態の第１〜第５の各段階について更に詳細に以下に記載する。
＜第１段階（ＳＴＥＰ１１００）＞
第１段階におけるキーワードデータベース１５１と関連用語データベース１５２の処理フローを、図１６を用いて詳細に説明する。キーワードデータベース１５１と関連用語データベース１５２で何段階目の処理を行うかを判断し、第１段階の処理を選択する（ＳＴＥＰ１：第１段階）。第１段階ではまず、キーワードデータベース１５１でキーワードの事前登録を行う（ＳＴＥＰ２）。このとき登録されるのは、過去の分別処理の結果から、製品Ａと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Ａと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し（ＳＴＥＰ３）、関連用語として登録を行う（ＳＴＥＰ４）。

＜第２段階（ＳＴＥＰ１２００）＞
第２段階におけるキーワードデータベース１５１、ワード検索部１６４及び第１自動分別部２５１の処理フローを、図１６、図１７及び図１９を用いて、詳細に説明する。

データベースで何段階目の処理を行うかを判断し、第２段階の処理を選択する（ＳＴＥＰ１：第２段階）。キーワードデータベース１５１において、更に事前に登録しておく必要のあるキーワードがある場合（ＳＴＥＰ５：ＹＥＳ）、追加の登録を行う（ＳＴＥＰ６）。追加で登録するキーワードがない場合（ＳＴＥＰ５：ＮＯ）及びＳＴＥＰ６の処理の完了後、ワード検索部１６４の処理に移行する。

ワード検索部１６４は何段階目の処理を行うかを判断し、第２段階の処理を選択する（ＳＴＥＰ１１：第２段階）。第２段階で、ワード検索部１６４は、まずキーワードデータベース１５１内に第１段階及び第２段階で事前登録されたキーワードがあるか判定を行う（ＳＴＥＰ１２）。事前に登録されたキーワードが存在しない場合（ＳＴＥＰ１２：ＮＯ）、第２段階の処理は終了する。

図１７の（第２段階）に示すように、事前に登録されたキーワードが存在する場合（ＳＴＥＰ１２：ＹＥＳ）、分別対象となる文書情報の中に該キーワードを含む文書がないか、分別対象となる全文書情報に対して検索を行う（ＳＴＥＰ１３）。検索したキーワードが含まれる文書が存在しなかった場合（ＳＴＥＰ１４：ＮＯ）、第２段階の処理を終了する。一方、探索したキーワードが含まれる文書を発見した場合（ＳＴＥＰ１４：ＹＥＳ）、第１自動分別部２５１に通知を行う（ＳＴＥＰ１５）。

図１９の（第２段階）に示すように、第１自動分別部２５１では、ワード検索部１６４から該通知を受けた場合（ＳＴＥＰ２９：第２段階、ＳＴＥＰ３０：ＹＥＳ）、該通知の対象となった文書に対して「重要」符号を付与し（ＳＴＥＰ３１）、処理を終了する。ワード検索部１６４から該通知を受けなかった場合（ＳＴＥＰ２９：第２段階、ＳＴＥＰ３０：ＮＯ）、何も処理を行わない。

＜第３段階（ＳＴＥＰ１３００）＞
第３段階における関連用語データベース１５２、ワード検索部１６４、スコア算出部１６６及び第２自動分別部３５１の処理フローを、図１６、図１７、図１８、及び図１９を用いて、詳細に説明する。

図１６に示すように、関連用語データベース１５２で何段階目の処理を行うかを判断し、第３段階の処理を選択する（ＳＴＥＰ１：第３段階）。関連用語データベース１５２において、更に事前に登録しておく必要のある関連用語がある場合（ＳＴＥＰ７：ＹＥＳ）、追加の登録を行う（ＳＴＥＰ８）。関連用語の追加登録が必要ない場合（ＳＴＥＰ７：ＮＯ）、第３段階の処理を終了する。

関連用語データベース１５２でＳＴＥＰ８の処理を完了した後、図１７に示すように、ワード検索部１６４で何段階目の処理を行うかを判断し、第３段階の処理を選択する（ＳＴＥＰ１１：第３段階）。本段階で、ワード検索部１６４は、関連用語データベース１５２に第１段階及び第２段階で登録された関連用語があるか判定を行う（ＳＴＥＰ１６）。事前に登録された関連用語が存在しない場合（ＳＴＥＰ１６：ＮＯ）、第３段階の処理は終了する。

関連用語が存在する場合（ＳＴＥＰ１６：ＹＥＳ）、分別対象となる文書情報の中に該関連用語を含む文書がないか、分別対象となる全文書情報に対して検索を行う（ＳＴＥＰ１７）。検索した関連用語が含まれる文書が存在しなかった場合（ＳＴＥＰ１８：ＮＯ）、第３段階の処理を終了する。一方、検索した関連用語を含む文書を発見した場合（ＳＴＥＰ１８：ＹＥＳ）、スコア算出部１６６に通知を行う（ＳＴＥＰ１９）。

図１８に示すように、スコア算出部１６６では、ワード検索部１６４から該通知を受けた場合（ＳＴＥＰ２４：第３段階、ＳＴＥＰ２５：ＹＥＳ）、上述の式（１）を用いて、文書中から発見した関連用語の種類と該関連用語が持つ重みづけから各文書のスコアを算出し、第２自動分別部３５１に通知を行う（ＳＴＥＰ２６）。ワード検索部１６４から関連用語を発見した通知を受けなかった場合（ＳＴＥＰ２４：第３段階、ＳＴＥＰ２５：ＮＯ）、第３段階の処理を終了する。

第２自動分別部３５１では、スコア算出部１６６からスコアの通知を受けた場合、（ＳＴＥＰ２９：第３段階、ＳＴＥＰ３２：ＹＥＳ）、スコアが閾値を超過したかの判定を文書ごと行い、スコアが閾値を超過した文書には「重要」符号を付与し、スコアが閾値を超過した文書がなかった場合は付与せずに処理を終了する（ＳＴＥＰ３３）。

＜第４段階（ＳＴＥＰ１４００）＞
第４段階におけるキーワードデータベース１５１と関連用語データベース１５２、ワード検索部１６４、スコア算出部１６６、及び第３自動分別部４５１の処理フローを、それぞれ図１６、図１７、図１８及び図１９を用いて説明する。

第４段階では、まず、文書抽出部１６２、分別対象となる文書情報から、ランダムに文書をサンプリングし、レビュワーが手動で分別符号を付与する対象となる文書群を抽出する。文書表示部６５１において、抽出された文書群を、図１４の文書表示画面Ｉ１上に表示する。

レビュワーは文書表示画面Ｉ１に表示された文書群に対し、各文書の内容を読んだ上で、製品Ａと該文書の内容との間に関連性があるかどうかを判断し、「重要」符号を付与するかどうかを決定する。レビュワーが「重要」符号を付与する文書とは、例えば、製品Ａの先行技術を調査した結果の報告書や、製品Ａの製造は特許侵害であると他者から警告された警告状等である。
レビュワーによって付与された分別符号は、分別符号受付付与部１８１によって受け付けられ、文書分別システム２内で処理される。分別符号受付文書解析部１６８では、付与された分別符号に応じて文書が分類される。続いて、分別符号受付文書解析部１６８は、ワード選定部１７４とスコア算出部１６６を用いて分類された各文書を解析する。

ワード選定部１７４では、分類された各文書に対し、キーワード解析を行い、「重要」符号を付与された文書に共通して出現回数の多いキーワードを選定する。

次に、キーワードデータベース１５１では、図１６の（第４段階）に示すように、ワード選定部１６４が選定したキーワードが、製品Ａと関係があることを示す「重要」符号に関するキーワードとして未登録であった場合（ＳＴＥＰ１：第４段階、ＳＴＥＰ９：ＹＥＳ）、該キーワードの登録を行う（ＳＴＥＰ１０）。該キーワードが既に登録されていた場合、何も処理を行わない（ＳＴＥＰ１：第４段階、ＳＴＥＰ９：ＮＯ）。

ワード検索部１６４では、「重要」符号に関するキーワードがキーワードデータベース１５１に登録されていなかった場合（ＳＴＥＰ２０：ＮＯ）、第４段階の処理を終了する。該キーワードが登録されている場合（ＳＴＥＰ２０：ＹＥＳ）、文書抽出部１６２において抽出されレビュワーによって分類された文書を探索対象から省き、残りの各文書を対象として、該キーワードの探索を実行する（ＳＴＥＰ２１）。該探索において、文書中にキーワードを発見した場合（ＳＴＥＰ２２：ＹＥＳ）、スコア算出部１６６に通知を行う（ＳＴＥＰ２３）。

スコア算出部１６６では、キーワード発見の通知を受けた場合（ＳＴＥＰ２７：ＹＥＳ）、上述の式（１）を用いて各文書についてスコアを算出し、第３自動分別部４５１に通知する。

図１９の（第４段階）に示すように、第３自動分別部４５１では、スコア算出部１６６から通知を受けると（ＳＴＥＰ３２：ＹＥＳ）、文書ごとにスコアが閾値を超過したかの判定を行い、閾値を超過した文書には「重要」符号を付与し、超過しなかった文書には付与せずに処理を終了する（ＳＴＥＰ３３）。

＜第５段階（ＳＴＥＰ１５００）＞
第５段階での文書排除部１７６及び学習部５５１における処理を、それぞれ以下に説明する。
文書排除部１７６において、分別対象となる文書情報のうち、第１から第４段階の処理が未実施の文書群に対して、第１、第２段階において事前に登録されたキーワード、第１、第３段階において登録された関連用語及び第４段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合（ＳＴＥＰ４０：ＹＥＳ）、該文書を分別対象から事前に排除する（ＳＴＥＰ４１）。

学習部５５１では、第１から第４の処理結果をもとに、各キーワードの重みづけを式（２）により学習する。該学習結果をキーワードデータベース１５１に反映する。

［第２の実施形態の効果］
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。

また、本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。

また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。

[その他の実施形態]
本発明のその他の実施形態を説明する。

第１及び第２の実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。

また、第１及び第２の実施形態において、レビュワーの分別した規則性を踏まえて自動で分別符号を付与する第４段階の処理を、第１段階乃至第３段階の処理の後に実施していたが、第１段階乃至第３段階の処理を行わず、第４段階の処理のみを単独で行ってもよい。

さらに、最初に文書抽出部によって、文書情報から一部の文書群を抽出し、該抽出した文書群に対して、まず第４段階の処理を最初に行う。その後、第４段階で登録したキーワードを基に第１段階乃至第３段階の処理を行うという実施形態をとってもよい。

ワード検索部１６４において、第２の実施形態の第４段階では、分別符号受付付与部１８１において、分別符号が受け付けなかった文書に対してワード選定部１７４が選定したキーワードの探索を実施していたが、全文書情報を対象として該キーワードの探索を行ってもよい。

第１及び第２の実施形態の第４段階では、第３自動分別部４０１、４５１において、分別符号受付付与部１３１，１８１において、分別符号が受け付けなかった文書のみを分別符号の自動付与の対象としていたが、全文書情報を該自動付与の対象としてもよい。

本発明の第２の実施形態に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、レビュワーが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。

また、本発明の第２の実施形態に係る文書判別システムにおいて、ワード検索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

また、第２の実施形態は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。

また、第２の実施形態は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、ワード検索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。

１２文書分別システム
２０１２５１第１分別部
３０１３５１第２分別部
４０１４５１第３分別部
５０１品質検査部
５５１学習部
６０１６５１表示部
１００１５０データ格納部
１０１１５１キーワードデータベース
１０２１５２関連用語データベース
１１２１６２文書抽出部
１１４１６４ワード検索部
１１６１６６スコア算出部
１１８１６８分別符号受付文書解析部
１２０１７０言語判定部
１２２１７２翻訳部
１２４傾向情報生成部
１７４ワード選定部
１７６文書排除部
１３１１８１分別符号受付付与部
Ｉ１文書表示画面

Claims

複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、
該取得されたデジタル情報に含まれる文書情報を保持する文書データ格納部であって、前記文書情報を格納するとともに、
特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とを登録するキーワードデータベースと、
所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベースとを格納する文書データ格納部と、
前記ワード検索部により前記キーワードデータベースに記録したキーワードを検索し、前記キーワードを含む文書を前記文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を自動的に付与する第１自動分別部と、
文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部と、
前記文書情報から、前記関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を自動的に付与する第２自動分別部と、
前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、
前記分別符号受付付与部により分別符号を付与された複数の文書を解析する分別符号受付文書解析部と、
前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、前記分別符号受付部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第３自動分別部とを備えることを特徴とする文書分別システム。
抽出した文書の言語の種類を判定する言語判定部と、
ユーザの指定を受け付けて、又は、自動的に、前記文書情報から抽出した文書を翻訳する翻訳部とを備えることを特徴とする請求項１記載の文書分別システム。
前記文書分別システムは、更に、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部を備え、
前記分別符号受付文書解析部が、
ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、及び
文書ごとに含まれる、前記抽出した単語の種類、各単語がもつ評価値及び出現数を文書ごとに解析することにより、前記傾向情報生成部により傾向情報を生成し、
前記分別符号受付付与部により分別符号を受け付けていない文書のうち、前記解析により生成した傾向情報と同じ傾向をもつ文書に対して、前記共通の分別符号の付与を行うことを特徴とする請求項１又は２記載の文書分別システム。
前記文書分別システムは、更に、
前記ユーザが分別符号を付与した文書に対して、
前記解析した傾向情報に基づいて付与すべき分別符号を決定し、
前記決定した分別符号と前記ユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることを特徴とする請求項１から３いずれか１項記載の文書分別システム。
前記第１分別部において
前記キーワードを複数含む文書に対し、前記キーワードのもつ評価値及び出現数に基づいて、付与する分別符号を選択することを特徴とする請求項１から４いずれか１項記載の文書分別システム。
前記第２分別部において
前記算出したスコアを用いて前記関連用語の評価値を再計算し、前記スコアが一定値を超過した文書中に頻出する前記関連用語の評価値に重みづけを行うことを特徴とする請求項１から４いずれか１項記載の文書分別システム。
文書群において、ワードを選定するワード選定部を備え、
前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、
前期第３自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する請求項１又は２記載の文書分別システム。
文書群において、ワードを選定するワード選定部を備え、
前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、
前記スコア算出部は、前記ワード選定部の選定結果と前記分別符号受付文書解析部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、
前記第３自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する請求項７記載の文書分別システム。
前記ワードとしてキーワードを選定する請求項７記載の文書分別システム。
前記ワードとして関連用語を選定する請求項８記載の文書分別システム。
前記文書分別システムは、更に、
前記文書群に含まれる文書のうち、前記ワード選定部が選定した前記キーワード、前記関連用語及び前記分別符号と相関関係を有するキーワードを含まない文書を選定し、
前記第３自動分別部の分別対象から前記選定された文書を排除する文書排除部を備えることを特徴とする請求項７から１０いずれか１項記載の文書分別システム。
前記文書分別システムは、更に、
前記選定部の分析結果と、前記スコア算出部の算出したスコアに基づいて
前記選定部が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えることを特徴とする請求項７から１１いずれか１項記載の文書分別システム。
前記スコア算出部は、前記文書群の中に出現する前記キーワードと、各キーワードの持つ重みづけとによりスコアを算出することを特徴とする請求項１から１２いずれか１項記載の文書分別システム。
前記重みづけは、前記キーワードが持つ、前記分別符号ごとにおける伝達情報量をもとに決定することを特徴とする請求項１から１２いずれか１項記載の文書分別システム。
前記文書抽出部は、前記文書情報から文書群をランダムにサンプリングし抽出する機能を備えることを特徴とする請求項１から１２いずれか１項記載の文書分別システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、
コンピュータが、
特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録し、
所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録し、
前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与し、
前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与し、
前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付け、
前記ユーザからの分別符号の付与を受け付けた文書を解析し、
分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与することを特徴とする文書分別方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、
コンピュータに、
特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録する機能と、
所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録する機能と、
前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する機能と、
前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与する機能と、
前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能と、
前記ユーザからの分別符号の付与を受け付けた文書を解析する機能と、
分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する機能とを実現させることを特徴とする文書分別プログラム。