JP2016189036A - 文書分別システム及び文書分別方法並びに文書分別プログラム - Google Patents
文書分別システム及び文書分別方法並びに文書分別プログラム Download PDFInfo
- Publication number
- JP2016189036A JP2016189036A JP2013173129A JP2013173129A JP2016189036A JP 2016189036 A JP2016189036 A JP 2016189036A JP 2013173129 A JP2013173129 A JP 2013173129A JP 2013173129 A JP2013173129 A JP 2013173129A JP 2016189036 A JP2016189036 A JP 2016189036A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification code
- classification
- unit
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】訴訟において証拠として提出するために収集されたデジタル文書情報を分析し、訴訟への利用が容易になるように分別する。
【解決手段】
抽出された特定のキーワードを含む文書に対して、特定の分別符号を付与する第1自動分別部と、抽出された所定の関連用語を含み分別符号を付与が付与されていない文書に対して、該抽出した文書に含まれる関連用語の評価値と数を用いて算出したスコアに基づいて、該所定の分別符号を付与する第2自動分別部と、抽出された分別符号が付与されていない文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、抽出された分別符号が付与されていない文書に対して、分別符号受付付与部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部とを備える。
【選択図】図1
【解決手段】
抽出された特定のキーワードを含む文書に対して、特定の分別符号を付与する第1自動分別部と、抽出された所定の関連用語を含み分別符号を付与が付与されていない文書に対して、該抽出した文書に含まれる関連用語の評価値と数を用いて算出したスコアに基づいて、該所定の分別符号を付与する第2自動分別部と、抽出された分別符号が付与されていない文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、抽出された分別符号が付与されていない文書に対して、分別符号受付付与部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部とを備える。
【選択図】図1
Description
本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。
従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。
このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。
そこで、本発明は、上記事情に鑑み、デジタル化された文書情報を収集した後に、当該文書情報に対して、分別符号を自動で付与することにより、訴訟に利用する文書情報の分別作業の負担軽減を可能とする文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とするものである。
本発明の文書システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、該取得されたデジタル情報に含まれる文書情報を保持する文書データ格納部であって、前記文書情報を格納するとともに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とを登録するキーワードデータベースと、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベースとを格納する文書データ格納部と、前記ワード検索部により前記キーワードデータベースに記録したキーワードを検索し、前記キーワードを含む文書を前記文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を自動的に付与する第1自動分別部と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部と、前記文書情報から、前記関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を自動的に付与する第2自動分別部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、前記分別符号受付付与部により分別符号を付与された複数の文書を解析する分別符号受付文書解析部と、前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、前記分別符号受付付与部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部とを備える
本発明の文書分別システムは、抽出した文書の言語の種類を判定する言語判定部と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部とを備えても良い。
前記文書分別システムは、更に、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部を備え、前記分別符号受付文書解析部が、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、及び文書ごとに含まれる、前記抽出した単語の種類、各単語がもつ評価値及び出現数を文書ごとに解析することにより、前記傾向情報生成部により傾向情報を生成し、前記分別符号受付付与部により分別符号を受け付けていない文書のうち、前記解析により生成した傾向情報と同じ傾向をもつ文書に対して、前記共通の分別符号の付与を行っても良い。
前記文書分別システムは、更に、前記ユーザが分別符号を付与した文書に対して、前記解析した傾向情報に基づいて付与すべき分別符号を決定し、前記決定した分別符号と前記ユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えても良い。
本発明の文書分別システムは、文書群において、ワードを選定するワード選定部を備え、前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、前記第3自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与しても良い。
前記文書分別システムは、更に、前記文書群に含まれる文書のうち、前記ワード選定部が選定した前記キーワード、前記関連用語及び前記分別符号と相関関係を有するキーワードを含まない文書を選定し、前記第3自動分別部の分別対象から前記選定された文書を排除する文書排除部を備えても良い。
本発明の文書分別システムは、更に、前記選定部の分析結果と、前記スコア算出部の算出したスコアに基づいて前記選定部が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えても良い。
本発明の文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、コンピュータが、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録し、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録し、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与し、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与し、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付け、前記ユーザからの分別符号の付与を受け付けた文書を解析し、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する。
本発明の文書分別プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、コンピュータに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録する機能と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録する機能と、前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する機能と、前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与する機能と、前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能と、前記ユーザからの分別符号の付与を受け付けた文書を解析する機能と、分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する機能とを実現させる。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、第1自動分別部において、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与し、第2自動分別部において、第1自動分別部により特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与することにより、レビュワーの分別作業の労力の削減を図ることができる。
また、本発明の文書判別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付付与部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付付与部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、分別符号受付付与部において、レビュワー所定の分別符号を付与しなかった文書に対して、レビュワーからの分別符号の付与を受け付け、分別符号受付文書解析部において、レビュワーから分別符号の付与を受け付けた文書を解析し、分別符号を付与していない文書に対して、解析の結果に基づいて分別符号を付与することにより、レビュワーの分別作業の労力の削減を図ることができる。
また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。
また、本発明は、第2分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、文書分別システムが、分別処理を実施する毎に分別精度の向上を図ることを可能とする。
[第1の実施形態]
上述のように、本発明に係る文書分別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするものである。
図1は、本発明の第1の実施形態に係る文書分別システムの構成を示す。図1を参照して、第1の実施形態に係る文書分別システムの構成について以下に記載する。
上述のように、本発明に係る文書分別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするものである。
図1は、本発明の第1の実施形態に係る文書分別システムの構成を示す。図1を参照して、第1の実施形態に係る文書分別システムの構成について以下に記載する。
実施形態に係る文書分別システム1は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域103に格納するデータ格納部100を有する。そして、該データ格納部100は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース101と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース102を格納する。このデータ格納部100は、図1に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム1の外部に設置されても良い。
第1の実施形態に係る文書分別システム1は、文書情報から複数の文書を抽出する文書抽出部112と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部114と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部116とを備える。
第1の実施形態に係る文書分別システム1は、ワード検索部114により前記キーワードデータベース101に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部201と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部301とを有する。
更に、実施形態に係る文書分別システム1は、文書情報から抽出された複数の文書を画面上に表示する文書表示部601と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部131と、分別符号受付付与部131により分別符号を付与された文書を解析する分別符号受付文書解析部118と、文書情報から抽出された複数の文書に対して、前記分別符号受付付与部131により分別符号を付与された文書を分別符合受付文書解析部118により解析した解析結果に基づいて、分別符号を自動的に付与する第3自動分別部401とを備える。
また、第1の実施形態に係る文書分別システム1は、抽出した文書の言語の種類を判定する言語判定部120と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部122とを備えても良い。1文多言語の複合言語にも対応できるように、言語判定部120における言語の区切りを1文より小さくする。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、HTMLのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。
また、第1の実施形態に係る文書分別システム1は、分別符号受付文書解析部118による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部124を備えても良い。
また、第1の実施形態に係る文書分別システム1は、文書符号受付付与部131が受け付けた分別符号と分別符号受付文書解析部118において傾向情報により付与された分別符号を比較し、文書符号受付付与部131が受け付けた分別符号の妥当性を検証する品質検査部501を備えても良い。
本発明の各実施形態に係る文書分別システムの理解を容易とするために、各実施形態に特有な用語について以下に記載する。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
「文書」とは、1つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
「キーワード」とは、1つまたは複数の「単語」を組み合わせたものをいう。具体的には、特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものをいってもよい。例えば、特許侵害訴訟が発生した場合において、当該訴訟と関連度の高い文書に重要という分別符号を付与する場合の「キーワード」として、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。
また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。
「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。
また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。
「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品A」という分別符号が製品Aの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。
「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
また、本発明の文書分別システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。
ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
また、本発明の文書分別システムは更に、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることも可能である。
第1の実施形態では、図3に示すようなフローチャートに従い、第1段階〜第5段階で、登録処理、分別処理、及び検査処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに登録される。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録したキーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第1分別処理を行う(STEP200)。
第3段階では、第1段階で記録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で記録した関連用語対応情報を参照し、分別符号の付与を実行する第2分別処理を行う(STEP300)。
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第3分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。
第4段階及び第5段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
第1段階から第5段階の各段階における詳細な処理フローを以下で説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース101の詳細な処理フローを図4を用いて説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース101の詳細な処理フローを図4を用いて説明する。
キーワードデータベース101は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(STEP111)。この特定は、第1の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
第1の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する(STEP112)。そして、特定されたキーワードをキーワードデータベースに登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベースの分別符号「重要」の管理テーブルに記録する(STEP113)。
次に、関連用語データベース102の詳細な処理フローを図5を用いて説明する。関連用語データベース102は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する(STEP121)。第1の実施形態においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を登録する。
登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、各管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
<第2段階(STEP200)>
第2段階における第1分別部201の詳細な処理フローを、図6を用いて説明する。第1の実施形態において、第2段階では、第1分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第2段階における第1分別部201の詳細な処理フローを、図6を用いて説明する。第1の実施形態において、第2段階では、第1分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第1分別部201では、第1段階(STEP100)でキーワードデータベース101に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(STEP211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、(STEP212)、「重要」という分別符号を付与する(STEP213)。
<第3段階(STEP300>
第3段階における第2分別部301の詳細な処理フローを、図7を用いて説明する。
第1の実施形態において、第2分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第3段階における第2分別部301の詳細な処理フローを、図7を用いて説明する。
第1の実施形態において、第2分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第2分別部301は、該文書情報から、第1段階で関連用語データベース102に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(STEP311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)を用いて、スコア算出部116によりスコアを算出する(STEP312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
該スコアが閾値を超過した場合、関連用語対応情報を参照し(STEP313)、適切な分別符号を付与する(STEP314)。
例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
<第4段階(STEP400)>
第4段階では、図8に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図9に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、第1の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
第4段階では、図8に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図9に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、第1の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
第4段階における分別符号受付付与部131の詳細な処理フローを、図8を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部112が、ランダムに文書をサンプリングし、文書表示部601上で表示する。第1の実施形態では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
ユーザは文書表示部601上に表示される図14に示す表示用画面I1を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部131は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
次に、分別符号受付文書解析部118の詳細な処理フローを、図9を用いて説明する。分別符号受付文書解析部118では、分別符号受付付与部131で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析し(STEP422)、該共通の単語の文書中の出現頻度を解析する(STEP423)。
さらに、STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
図10は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
図10は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
図10において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部131によってSTEP421で抽出された単語を含む文書の割合を示している。
第1の実施形態において、分別符号受付付与部131では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
STEP421乃至STEP424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
次に、第3自動分別部401の詳細な処理フローを、図11を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部181によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第3自動分別部401では、このような文書から、STEP424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP431)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP432)。また、STEP431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP433)。
第3自動分別部401では、さらに、STEP432で算出したスコアを用いて、分別結果を各データベースに反映する(STEP434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。
更に、第3自動分別部401の詳細な処理フローの1例を、図12を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第3自動分別部401では、引数が与えられなかった場合には(STEP441:なし)、該文書から、STEP424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP443)。また、STEP442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP444)。
第3自動分別部401では、さらに、STEP443で算出したスコアを用いて、分別結果を各データベースに反映する(STEP445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
<第5段階(STEP500)>
第5段階における品質検査部501の詳細な処理フローを図13を用いて説明する。品質検査部501では、分別符号受付付与部131が、STEP411で受け付けた文書に対して、分別符号受付文書解析部118がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付付与部131が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
第5段階における品質検査部501の詳細な処理フローを図13を用いて説明する。品質検査部501では、分別符号受付付与部131が、STEP411で受け付けた文書に対して、分別符号受付文書解析部118がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付付与部131が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
[第1の実施形態の発明の効果]
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第1分別部と、第1分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第2分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第1分別部と、第1分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第2分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。
また、本発明の文書判別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付付与部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付付与部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、本発明の文書判別システムは、言語を翻訳するための言語判定部と翻訳部とを有するので、多言語を含む文書に分別符号を付する分別処理をする際に、ユーザの労力を低減することが可能になる。
また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。
また、本発明は、第2分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、文書分別システムが、分別処理を実施する毎に分別精度の向上を図ることを可能とする。
[第2の実施形態]
図2は、本発明の第2の実施形態に係る文書分別システム2の構成を示す。図2を参照して、第2の実施形態に係る文書分別システム2の構成について以下に記載する。
図2は、本発明の第2の実施形態に係る文書分別システム2の構成を示す。図2を参照して、第2の実施形態に係る文書分別システム2の構成について以下に記載する。
第2の実施形態に係る文書分別システム2は、訴訟へ利用するために、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報をデジタル情報格納領域153に格納するデータ格納部150を有する。そして、該データ格納部150は、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース151と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース152を格納する。このデータ格納部150は、図2に示されるように、文書分別システム内に設置されても良く、別個のストレージ装置として文書分別システム2の外部に設置されても良い。
第2の実施形態に係る文書分別システム2は、文書情報から複数の文書を抽出する文書抽出部162と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部164と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部166とを備える。スコアを算出する処理には、第1の実施形態と同様の処理を用いても良い。
第2の実施形態に係る文書分別システム2は、ワード検索部164により前記キーワードデータベース151に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部251と、分別符号が付与されていない文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部351とを有する。
更に、実施形態に係る文書分別システム2は、抽出された複数の文書を画面上に表示する文書表示部651と、
文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部181と、分別符号受付付与部181により分別符号を付与された文書を解析する分別符号受付文書解析部168と、
文章情報から抽出された分別符号が付与されていない複数の文書に対して、分別符号受付付与部181により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部451とを備える。
文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部181と、分別符号受付付与部181により分別符号を付与された文書を解析する分別符号受付文書解析部168と、
文章情報から抽出された分別符号が付与されていない複数の文書に対して、分別符号受付付与部181により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部451とを備える。
第2の実施形態に係る文書分別システム2は、第1の実施形態に係る文書分別システム1と同様に、抽出した文書の言語の種類を判定する言語判定部170と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部172を備えても良い。
第2の実施形態に係る文書分別システムは、抽出された文書群において、共通して出現するキーワードを解析し選定するワード選定部174を備え、分別符号受付文書解析部168は、分別符号受付付与部181により分別符号を付与された文書を解析し、該分別符号を付与された文書を分別符号ごとに分類し、該分類された文書群において、共通して出現するキーワードを解析し選定しても良い。
第2の実施形態に係る文書分別システムは、分別対象となる文情報のうち、キーワードデータベース151と関連用語データベース152で事前に登録されたキーワード及び関連用語、並びにワード選定部174において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除する文書排除部176を備えても良い。
第2の実施形態に係る文書分別システムは、ワード選定部174が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部551を備えても良い。
第2の実施形態では、図15に示すようなフローチャートに従い、5つの段階で登録処理、分別処理、及び学習処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Aの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである(STEP1100)。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する(STEP1200)。
第3段階では、第1段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、当該文書の分別を行う(STEP1300)。
第4段階では、抽出した文書についてレビュワーによる分別符号の付与の決定を受け付け、受け付けた分別符号の付与の決定を解析した後に、解析結果に基づいて更に抽出した分別符号を付与していない文書に自動で分別符号の付与を行う(STEP1400)。
第5段階では、第1段階乃至第4段階の結果を用いて、学習を行う(STEP1500)。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Aの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである(STEP1100)。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する(STEP1200)。
第3段階では、第1段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、当該文書の分別を行う(STEP1300)。
第4段階では、抽出した文書についてレビュワーによる分別符号の付与の決定を受け付け、受け付けた分別符号の付与の決定を解析した後に、解析結果に基づいて更に抽出した分別符号を付与していない文書に自動で分別符号の付与を行う(STEP1400)。
第5段階では、第1段階乃至第4段階の結果を用いて、学習を行う(STEP1500)。
第2の実施形態の第1〜第5の各段階について更に詳細に以下に記載する。
<第1段階(STEP1100)>
第1段階におけるキーワードデータベース151と関連用語データベース152の処理フローを、図16を用いて詳細に説明する。キーワードデータベース151と関連用語データベース152で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。第1段階ではまず、キーワードデータベース151でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
<第1段階(STEP1100)>
第1段階におけるキーワードデータベース151と関連用語データベース152の処理フローを、図16を用いて詳細に説明する。キーワードデータベース151と関連用語データベース152で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。第1段階ではまず、キーワードデータベース151でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
<第2段階(STEP1200)>
第2段階におけるキーワードデータベース151、ワード検索部164及び第1自動分別部251の処理フローを、図16、図17及び図19を用いて、詳細に説明する。
第2段階におけるキーワードデータベース151、ワード検索部164及び第1自動分別部251の処理フローを、図16、図17及び図19を用いて、詳細に説明する。
データベースで何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP1:第2段階)。キーワードデータベース151において、更に事前に登録しておく必要のあるキーワードがある場合(STEP5:YES)、追加の登録を行う(STEP6)。追加で登録するキーワードがない場合(STEP5:NO)及びSTEP6の処理の完了後、ワード検索部164の処理に移行する。
ワード検索部164は何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP11:第2段階)。第2段階で、ワード検索部164は、まずキーワードデータベース151内に第1段階及び第2段階で事前登録されたキーワードがあるか判定を行う(STEP12)。事前に登録されたキーワードが存在しない場合(STEP12:NO)、第2段階の処理は終了する。
図17の(第2段階)に示すように、事前に登録されたキーワードが存在する場合(STEP12:YES)、分別対象となる文書情報の中に該キーワードを含む文書がないか、分別対象となる全文書情報に対して検索を行う(STEP13)。検索したキーワードが含まれる文書が存在しなかった場合(STEP14:NO)、第2段階の処理を終了する。一方、探索したキーワードが含まれる文書を発見した場合(STEP14:YES)、第1自動分別部251に通知を行う(STEP15)。
図19の(第2段階)に示すように、第1自動分別部251では、ワード検索部164から該通知を受けた場合(STEP29:第2段階、STEP30:YES)、該通知の対象となった文書に対して「重要」符号を付与し(STEP31)、処理を終了する。ワード検索部164から該通知を受けなかった場合(STEP29:第2段階、STEP30:NO)、何も処理を行わない。
<第3段階(STEP1300)>
第3段階における関連用語データベース152、ワード検索部164、スコア算出部166及び第2自動分別部351の処理フローを、図16、図17、図18、及び図19を用いて、詳細に説明する。
第3段階における関連用語データベース152、ワード検索部164、スコア算出部166及び第2自動分別部351の処理フローを、図16、図17、図18、及び図19を用いて、詳細に説明する。
図16に示すように、関連用語データベース152で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP1:第3段階)。関連用語データベース152において、更に事前に登録しておく必要のある関連用語がある場合(STEP7:YES)、追加の登録を行う(STEP8)。関連用語の追加登録が必要ない場合(STEP7:NO)、第3段階の処理を終了する。
関連用語データベース152でSTEP8の処理を完了した後、図17に示すように、ワード検索部164で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP11:第3段階)。本段階で、ワード検索部164は、関連用語データベース152に第1段階及び第2段階で登録された関連用語があるか判定を行う(STEP16)。事前に登録された関連用語が存在しない場合(STEP16:NO)、第3段階の処理は終了する。
関連用語が存在する場合(STEP16:YES)、分別対象となる文書情報の中に該関連用語を含む文書がないか、分別対象となる全文書情報に対して検索を行う(STEP17)。検索した関連用語が含まれる文書が存在しなかった場合(STEP18:NO)、第3段階の処理を終了する。一方、検索した関連用語を含む文書を発見した場合(STEP18:YES)、スコア算出部166に通知を行う(STEP19)。
図18に示すように、スコア算出部166では、ワード検索部164から該通知を受けた場合(STEP24:第3段階、STEP25:YES)、上述の式(1)を用いて、文書中から発見した関連用語の種類と該関連用語が持つ重みづけから各文書のスコアを算出し、第2自動分別部351に通知を行う(STEP26)。ワード検索部164から関連用語を発見した通知を受けなかった場合(STEP24:第3段階、STEP25:NO)、第3段階の処理を終了する。
第2自動分別部351では、スコア算出部166からスコアの通知を受けた場合、(STEP29:第3段階、STEP32:YES)、スコアが閾値を超過したかの判定を文書ごと行い、スコアが閾値を超過した文書には「重要」符号を付与し、スコアが閾値を超過した文書がなかった場合は付与せずに処理を終了する(STEP33)。
<第4段階(STEP1400)>
第4段階におけるキーワードデータベース151と関連用語データベース152、ワード検索部164、スコア算出部166、及び第3自動分別部451の処理フローを、それぞれ図16、図17、図18及び図19を用いて説明する。
第4段階におけるキーワードデータベース151と関連用語データベース152、ワード検索部164、スコア算出部166、及び第3自動分別部451の処理フローを、それぞれ図16、図17、図18及び図19を用いて説明する。
第4段階では、まず、文書抽出部162、分別対象となる文書情報から、ランダムに文書をサンプリングし、レビュワーが手動で分別符号を付与する対象となる文書群を抽出する。文書表示部651において、抽出された文書群を、図14の文書表示画面I1上に表示する。
レビュワーは文書表示画面I1に表示された文書群に対し、各文書の内容を読んだ上で、製品Aと該文書の内容との間に関連性があるかどうかを判断し、「重要」符号を付与するかどうかを決定する。レビュワーが「重要」符号を付与する文書とは、例えば、製品Aの先行技術を調査した結果の報告書や、製品Aの製造は特許侵害であると他者から警告された警告状等である。
レビュワーによって付与された分別符号は、分別符号受付付与部181によって受け付けられ、文書分別システム2内で処理される。分別符号受付文書解析部168では、付与された分別符号に応じて文書が分類される。続いて、分別符号受付文書解析部168は、ワード選定部174とスコア算出部166を用いて分類された各文書を解析する。
レビュワーによって付与された分別符号は、分別符号受付付与部181によって受け付けられ、文書分別システム2内で処理される。分別符号受付文書解析部168では、付与された分別符号に応じて文書が分類される。続いて、分別符号受付文書解析部168は、ワード選定部174とスコア算出部166を用いて分類された各文書を解析する。
ワード選定部174では、分類された各文書に対し、キーワード解析を行い、「重要」符号を付与された文書に共通して出現回数の多いキーワードを選定する。
次に、キーワードデータベース151では、図16の(第4段階)に示すように、ワード選定部164が選定したキーワードが、製品Aと関係があることを示す「重要」符号に関するキーワードとして未登録であった場合(STEP1:第4段階、STEP9:YES)、該キーワードの登録を行う(STEP10)。該キーワードが既に登録されていた場合、何も処理を行わない(STEP1:第4段階、STEP9:NO)。
ワード検索部164では、「重要」符号に関するキーワードがキーワードデータベース151に登録されていなかった場合(STEP20:NO)、第4段階の処理を終了する。該キーワードが登録されている場合(STEP20:YES)、文書抽出部162において抽出されレビュワーによって分類された文書を探索対象から省き、残りの各文書を対象として、該キーワードの探索を実行する(STEP21)。該探索において、文書中にキーワードを発見した場合(STEP22:YES)、スコア算出部166に通知を行う(STEP23)。
スコア算出部166では、キーワード発見の通知を受けた場合(STEP27:YES)、上述の式(1)を用いて各文書についてスコアを算出し、第3自動分別部451に通知する。
図19の(第4段階)に示すように、第3自動分別部451では、スコア算出部166から通知を受けると(STEP32:YES)、文書ごとにスコアが閾値を超過したかの判定を行い、閾値を超過した文書には「重要」符号を付与し、超過しなかった文書には付与せずに処理を終了する(STEP33)。
<第5段階(STEP1500)>
第5段階での文書排除部176及び学習部551における処理を、それぞれ以下に説明する。
文書排除部176において、分別対象となる文書情報のうち、第1から第4段階の処理が未実施の文書群に対して、第1、第2段階において事前に登録されたキーワード、第1、第3段階において登録された関連用語及び第4段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合(STEP40:YES)、該文書を分別対象から事前に排除する(STEP41)。
第5段階での文書排除部176及び学習部551における処理を、それぞれ以下に説明する。
文書排除部176において、分別対象となる文書情報のうち、第1から第4段階の処理が未実施の文書群に対して、第1、第2段階において事前に登録されたキーワード、第1、第3段階において登録された関連用語及び第4段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合(STEP40:YES)、該文書を分別対象から事前に排除する(STEP41)。
学習部551では、第1から第4の処理結果をもとに、各キーワードの重みづけを式(2)により学習する。該学習結果をキーワードデータベース151に反映する。
[第2の実施形態の効果]
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。
また、本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、本発明の文書判別システムは、言語を翻訳するための言語判定部と翻訳部とを有するので、多言語を含む文書に分別符号を付する分別処理をする際に、ユーザの労力を低減することが可能になる。
また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
[その他の実施形態]
本発明のその他の実施形態を説明する。
本発明のその他の実施形態を説明する。
第1及び第2の実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、eDiscovery(電子証拠開示)制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。
また、第1及び第2の実施形態において、レビュワーの分別した規則性を踏まえて自動で分別符号を付与する第4段階の処理を、第1段階乃至第3段階の処理の後に実施していたが、第1段階乃至第3段階の処理を行わず、第4段階の処理のみを単独で行ってもよい。
さらに、最初に文書抽出部によって、文書情報から一部の文書群を抽出し、該抽出した文書群に対して、まず第4段階の処理を最初に行う。その後、第4段階で登録したキーワードを基に第1段階乃至第3段階の処理を行うという実施形態をとってもよい。
ワード検索部164において、第2の実施形態の第4段階では、分別符号受付付与部181において、分別符号が受け付けなかった文書に対してワード選定部174が選定したキーワードの探索を実施していたが、全文書情報を対象として該キーワードの探索を行ってもよい。
第1及び第2の実施形態の第4段階では、第3自動分別部401、451において、分別符号受付付与部131,181において、分別符号が受け付けなかった文書のみを分別符号の自動付与の対象としていたが、全文書情報を該自動付与の対象としてもよい。
本発明の第2の実施形態に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、レビュワーが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。
また、本発明の第2の実施形態に係る文書判別システムにおいて、ワード検索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付付与部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付付与部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、第2の実施形態は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
また、第2の実施形態は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、ワード検索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
1 2 文書分別システム
201 251 第1分別部
301 351 第2分別部
401 451 第3分別部
501 品質検査部
551 学習部
601 651 表示部
100 150 データ格納部
101 151 キーワードデータベース
102 152 関連用語データベース
112 162 文書抽出部
114 164 ワード検索部
116 166 スコア算出部
118 168 分別符号受付文書解析部
120 170 言語判定部
122 172 翻訳部
124 傾向情報生成部
174 ワード選定部
176 文書排除部
131 181 分別符号受付付与部
I1 文書表示画面
201 251 第1分別部
301 351 第2分別部
401 451 第3分別部
501 品質検査部
551 学習部
601 651 表示部
100 150 データ格納部
101 151 キーワードデータベース
102 152 関連用語データベース
112 162 文書抽出部
114 164 ワード検索部
116 166 スコア算出部
118 168 分別符号受付文書解析部
120 170 言語判定部
122 172 翻訳部
124 傾向情報生成部
174 ワード選定部
176 文書排除部
131 181 分別符号受付付与部
I1 文書表示画面
Claims (17)
- 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、
該取得されたデジタル情報に含まれる文書情報を保持する文書データ格納部であって、前記文書情報を格納するとともに、
特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とを登録するキーワードデータベースと、
所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベースとを格納する文書データ格納部と、
前記ワード検索部により前記キーワードデータベースに記録したキーワードを検索し、前記キーワードを含む文書を前記文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を自動的に付与する第1自動分別部と、
文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部と、
前記文書情報から、前記関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を自動的に付与する第2自動分別部と、
前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部と、
前記分別符号受付付与部により分別符号を付与された複数の文書を解析する分別符号受付文書解析部と、
前記文書情報から抽出された分別符号が付与されていない複数の文書に対して、前記分別符号受付部により分別符号を付与された文書の解析結果に基づいて、分別符号を自動的に付与する第3自動分別部とを備えることを特徴とする文書分別システム。 - 抽出した文書の言語の種類を判定する言語判定部と、
ユーザの指定を受け付けて、又は、自動的に、前記文書情報から抽出した文書を翻訳する翻訳部とを備えることを特徴とする請求項1記載の文書分別システム。 - 前記文書分別システムは、更に、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部を備え、
前記分別符号受付文書解析部が、
ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、及び
文書ごとに含まれる、前記抽出した単語の種類、各単語がもつ評価値及び出現数を文書ごとに解析することにより、前記傾向情報生成部により傾向情報を生成し、
前記分別符号受付付与部により分別符号を受け付けていない文書のうち、前記解析により生成した傾向情報と同じ傾向をもつ文書に対して、前記共通の分別符号の付与を行うことを特徴とする請求項1又は2記載の文書分別システム。 - 前記文書分別システムは、更に、
前記ユーザが分別符号を付与した文書に対して、
前記解析した傾向情報に基づいて付与すべき分別符号を決定し、
前記決定した分別符号と前記ユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることを特徴とする請求項1から3いずれか1項記載の文書分別システム。 - 前記第1分別部において
前記キーワードを複数含む文書に対し、前記キーワードのもつ評価値及び出現数に基づいて、付与する分別符号を選択することを特徴とする請求項1から4いずれか1項記載の文書分別システム。 - 前記第2分別部において
前記算出したスコアを用いて前記関連用語の評価値を再計算し、前記スコアが一定値を超過した文書中に頻出する前記関連用語の評価値に重みづけを行うことを特徴とする請求項1から4いずれか1項記載の文書分別システム。 - 文書群において、ワードを選定するワード選定部を備え、
前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、
前期第3自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する請求項1又は2記載の文書分別システム。 - 文書群において、ワードを選定するワード選定部を備え、
前記分別符号受付文書解析部は、前記分別符号受付付与部により分別符号を付与された文書を分別符号ごとに分類及び解析し、前記ワード選定部を用いて、該分類された文書群において共通して出現するワードを選定し、
前記スコア算出部は、前記ワード選定部の選定結果と前記分別符号受付文書解析部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、
前記第3自動分別部は、選定されたワードに基づき、分別符号を付与されていない文書に分別符号を付与する請求項7記載の文書分別システム。 - 前記ワードとしてキーワードを選定する請求項7記載の文書分別システム。
- 前記ワードとして関連用語を選定する請求項8記載の文書分別システム。
- 前記文書分別システムは、更に、
前記文書群に含まれる文書のうち、前記ワード選定部が選定した前記キーワード、前記関連用語及び前記分別符号と相関関係を有するキーワードを含まない文書を選定し、
前記第3自動分別部の分別対象から前記選定された文書を排除する文書排除部を備えることを特徴とする請求項7から10いずれか1項記載の文書分別システム。 - 前記文書分別システムは、更に、
前記選定部の分析結果と、前記スコア算出部の算出したスコアに基づいて
前記選定部が選定したキーワード、前記データベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えることを特徴とする請求項7から11いずれか1項記載の文書分別システム。 - 前記スコア算出部は、前記文書群の中に出現する前記キーワードと、各キーワードの持つ重みづけとによりスコアを算出することを特徴とする請求項1から12いずれか1項記載の文書分別システム。
- 前記重みづけは、前記キーワードが持つ、前記分別符号ごとにおける伝達情報量をもとに決定することを特徴とする請求項1から12いずれか1項記載の文書分別システム。
- 前記文書抽出部は、前記文書情報から文書群をランダムにサンプリングし抽出する機能を備えることを特徴とする請求項1から12いずれか1項記載の文書分別システム。
- 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、
コンピュータが、
特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録し、
所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録し、
前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与し、
前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与し、
前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付け、
前記ユーザからの分別符号の付与を受け付けた文書を解析し、
分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与することを特徴とする文書分別方法。 - 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、
コンピュータに、
特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、前記特定の分別符号と前記キーワードとの対応関係を示すキーワード対応情報とをキーワードデータベースに記録する機能と、
所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、前記所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを関連用語データベースに記録する機能と、
前記文書情報から前記記録したキーワードを含む文書を抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する機能と、
前記文書情報から、前記特定の分別符号を付与されておらず且つ前記記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、前記関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、前記スコアおよび前記関連用語対応情報に基づいて、前記所定の分別符号を付与する機能と、
前記所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能と、
前記ユーザからの分別符号の付与を受け付けた文書を解析する機能と、
分別符号を付与していない文書に対して、前記解析の結果に基づいて分別符号を付与する機能とを実現させることを特徴とする文書分別プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013173129A JP2016189036A (ja) | 2013-08-23 | 2013-08-23 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
TW103128932A TW201513036A (zh) | 2013-08-23 | 2014-08-22 | 文件分類系統、文件分類方法及文件分類程式 |
PCT/JP2014/072199 WO2015025978A1 (ja) | 2013-08-23 | 2014-08-25 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013173129A JP2016189036A (ja) | 2013-08-23 | 2013-08-23 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016189036A true JP2016189036A (ja) | 2016-11-04 |
Family
ID=52483747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013173129A Pending JP2016189036A (ja) | 2013-08-23 | 2013-08-23 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP2016189036A (ja) |
TW (1) | TW201513036A (ja) |
WO (1) | WO2015025978A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108776679B (zh) * | 2018-05-30 | 2021-12-07 | 百度在线网络技术(北京)有限公司 | 一种搜索词的分类方法、装置、服务器及存储介质 |
CN113268548A (zh) * | 2021-04-02 | 2021-08-17 | 国网福建省电力有限公司信息通信分公司 | 一种基于数据中台数据分级分类方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3333998B2 (ja) * | 1992-08-27 | 2002-10-15 | オムロン株式会社 | 自動分類付与装置および方法 |
JPH06348755A (ja) * | 1993-06-07 | 1994-12-22 | Hitachi Ltd | 文書分類方法およびそのシステム |
JP4711556B2 (ja) * | 2001-07-26 | 2011-06-29 | 一般社団法人共同通信社 | 文章自動分類装置、文章自動分類プログラム、文章自動分類方法及び文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2004220226A (ja) * | 2003-01-14 | 2004-08-05 | Oki Electric Ind Co Ltd | 検索文書のための文書分類方法及び装置 |
-
2013
- 2013-08-23 JP JP2013173129A patent/JP2016189036A/ja active Pending
-
2014
- 2014-08-22 TW TW103128932A patent/TW201513036A/zh unknown
- 2014-08-25 WO PCT/JP2014/072199 patent/WO2015025978A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
TW201513036A (zh) | 2015-04-01 |
WO2015025978A1 (ja) | 2015-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5530476B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5567049B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5596213B1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
JP5603468B1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5723067B1 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
WO2015030112A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
KR101566153B1 (ko) | 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램 | |
JP5592552B1 (ja) | 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム | |
JP6124936B2 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
JP5669904B1 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
WO2015118619A1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
WO2015025978A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5850973B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5685675B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5898371B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP2015172952A (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5990562B2 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
JP5746403B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |