JP5850973B2

JP5850973B2 - 文書分別システム及び文書分別方法並びに文書分別プログラム

Info

Publication number: JP5850973B2
Application number: JP2014086713A
Authority: JP
Inventors: 守本　正宏; 正宏守本; 喜勝白井; 秀樹武田; 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2016-02-03
Anticipated expiration: 2032-03-30
Also published as: JP2014160496A

Description

本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。

従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。

特に、米国民事訴訟では、ｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。

一方、ＩＴの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。

そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。

近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献１乃至特許文献３に提案されている。特許文献１には、利用者情報に含まれる少なくとも１人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

また、特許文献２には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

さらに、特許文献３には、デジタル文書情報に含まれる少なくとも１以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。

特開２０１１−２０９９３０号公報特開２０１１−２０９９３１号公報特開２０１２−３２８５９号公報

しかしながら、例えば、特許文献１乃至特許文献３のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。

このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。

そこで、本発明は、上記事情に鑑み、デジタル化された文書情報を収集した後に、当該文書情報に対して、分別符号を自動で付与することにより、訴訟に利用する文書情報の分別作業の負担軽減を可能とする文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とするものである。

本発明の文書分別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報とを記録するキーワードデータベースと、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを記録する関連用語データベースと、該キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、該キーワード対応情報に基づき該特定の分別符号を付与する第１分別部と、該第１分別部において該特定の分別符号を付与しなかった文書情報から、該関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、該関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、該スコアおよび前記関連用語対応情報に基づいて、該所定の分別符号を付与する第２分別部と、第２分別部において該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける分別符号受付部とを備える。

「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。

「文書」とは、１つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。

「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

「キーワード」とは、１つまたは複数の「単語」を組み合わせたものをいう。具体的には、特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものをいってもよい。例えば、特許侵害訴訟が発生した場合において、当該訴訟と関連度の高い文書に重要という分別符号を付与する場合の「キーワード」として、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。

また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。

「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。

また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。

「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品Ａ」という分別符号が製品Ａの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品Ａ」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。

「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。例えば「スコア」は、文書中に出現する単語と、各単語の持つ評価値とによりスコアを算出してもよい。

また、本発明の文書分別システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付部により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。

「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

また、本発明の文書分別システムは更に、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることも可能である。

また、本発明の文書分別システムに係る第１分別部はキーワードを複数含む文書に対し、該キーワードのもつ評価値及び出現数に基づいて、付与する分別符号を選択してもよい。

また、本発明の文書分別システムに係る第２分別部は、算出したスコアを用いて関連用語の評価値を再計算し、前記スコアが一定値を超過した文書中に頻出する関連用語の評価値に重みづけを行うことも可能である。

本発明の文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、特定の分別符号とキーワードとの対応関係を示すキーワード対応情報とを記録するキーワードデータベースと、所定の分別符号と、所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを記録する関連用語データベースとを有する際に、コンピュータが、該記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を付与し、該特定の分別符号を付与しなかった文書情報から、記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、該所定の分別符号を付与し、該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能を実現するものである。

本発明の文書分別プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、コンピュータに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報とを記録する機能と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と該関連用語との対応関係を示す関連用語対応情報とを記録する機能と、該記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、該キーワード対応情報に基づき該特定の分別符号を付与する機能と、該特定の分別符号を付与しなかった文書情報から、該記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、該関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、該スコアおよび関連用語対応情報に基づいて、該所定の分別符号を付与する機能と、該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能とを実現させるものである。

本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第１分別部と、第１分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第２分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。

また、本発明の文書判別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。

また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。

また、本発明は、第２分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、文書分別システムが、分別処理を実施する毎に分別精度の向上を図ることを可能とする。

本発明の第１の実施形態に係る文書判別システムの構成図本発明の第２の実施形態に係る文書判別システムの構成図本発明の実施形態における段階ごとの処理の流れを示したチャート本発明の実施形態におけるキーワードデータベースの処理フローを示したチャート本発明の実施形態における関連用語データベースの処理フローを示したチャート本発明の実施形態における第１分別部の処理フローを示したチャート本発明の実施形態における第２分別部の処理フローを示したチャート本発明の実施形態における分別符号受付部の処理フローを示したチャート本発明の実施形態における解析部の処理フローを示したチャート本発明の実施形態における解析部での解析結果を示したグラフ本発明の第１の実施形態における自動分別部の処理フローを示したチャート本発明の第２の実施形態における自動分別部の処理フローを示したチャート本発明の実施形態における品質検査部の処理フローを示したチャート本発明の実施形態における文書表示画面

［第１の実施形態］
以下、本発明の実施の形態を添付の図により説明する。図１に第１の実施形態に係る文書判別システムの構成図を示す。

本発明にかかる文書分別システム１は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与するために、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、特定の分別符号とキーワードとの対応関係を示すキーワード対応情報とを記録するキーワードデータベース１０１と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを記録する関連用語データベース１０２と、キーワードデータベース１０１に記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する第１分別部２０１と、第１分別部２０１において特定の分別符号を付与しなかった文書情報から、関連用語データベース１０２に記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、該スコアおよび該関連用語対応情報に基づいて、該所定の分別符号を付与する第２分別部３０１と、第２分別部３０１において該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける分別符号受付部４０３とを備える。

第１の実施形態において、本発明にかかる文書分別システム１は、キーワードデータベース１０１と、関連用語データベース１０２と、第１分別部２０１と、第２分別部３０１と、第３分別部４０１と、品質検査部５０１から構成されている。

第１の実施形態において、本発明にかかる文書分別システム１は、表示部６０１をシステム内に備えていないが、システム内に含むものとして構成してもよい。

また、第３分別部４０１は、文書抽出部４０２と、分別符号受付部４０３と、解析部４０４と、自動分別部４０５とから構成される。

分別符号受付部４０３は、ユーザによって文書情報に付与される分別符号を、キーボードまたはマウスからの入力として受け付ける。

キーワードデータベース１０１及び、関連用語データベース１０２は、電子媒体にデータを記録する記録装置であり、第１の実施形態においては、文書分別システム１内に設置されている。その他の実施例として、キーワードデータベース１０１及び、関連用語データベース１０２は、ストレージ装置として文書分別システム１の外部に設置してもよい。

文書分別システム１は、コンピュータまたはサーバであり、各種入力に基づきＣＰＵがＲＯＭに記録されたプログラムを実行することで、各種機能部として動作する。また、表示部６０１は、ディスプレイ、モニタ、タブレットＰＣ等表示機能を有するものであり、ユーザが操作し、文書情報を確認し、分別符号を付与するのに利用する装置である。

文書分別システム１及び表示部６０１は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。

第１の実施形態において、特許侵害訴訟におけるｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）に対応する際に、被疑製品である製品Ａ及び製品Ｂに関する文書を分別処理する場合を例にとって説明する。

ここで、製品Ａは、画像のアナログデータに対して、符号化による圧縮処理を行う画像符号化装置であり、「画像符号化機能」、「文字重畳機能」、「音声符号化機能」を持つ。また、製品Ｂは、製品Ａによって符号化された画像ストリームに対して、復号化処理を行い、もとのアナログデータに戻す画像複合化装置であり、「復号化機能」、「音声復号化機能」を持つ。符号化及び復号化に用いている技術に対して、他者の特許を侵害する疑義がかけられている。

製品Ａの類似製品を製品ａとし、製品Ｂの類似製品を製品ｂとする。

分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類あるいは訴訟との関連度に応じて付与してもよい。第１の実施形態では、分別符号として、訴訟との関連度が極めて高く、重要な証拠能力を備える文書を表す「重要」、製品Ａととりわけ関わりがある文書であることを表す「製品Ａ」、及び製品Ｂととりわけ関わりがある文書であることを表す「製品Ｂ」の３つの分別符号を備えている。

ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、１つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にＯＣＲ（Optical Character Reader）装置を備えてもよい。ＯＣＲ装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や抽出が可能になる。

また、単語は、ある言語において意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

キーワードは、１つあるいは複数の単語を組み合わせたものをいう。特に特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものを指す。第１の実施形態において、「重要」という分別符号のキーワードは、その文書がｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）に従い、提出すべき文書である、と示唆するものである。具体的には、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。これらのキーワードが含まれることで、該文書は、第１の実施形態における特許侵害訴訟において非常に高い証拠能力を持つものとなる。

また、キーワード対応情報はキーワードと分別符号の対応関係を表すものをいう。例えば、第１の実施形態においては、密接な関係を持つ「重要」という分別符号と「侵害者」というキーワードとの２つの情報を紐づけて管理する情報のことを指す。具体的には、「重要」という分別符号と密接な関係を持つキーワード及び「製品Ａ」という分別符号と密接な関係を持つキーワードは、それぞれ、キーワードデータベース１０１において、各分別符号用の管理テーブル上に管理されている。キーワード対応情報は、該管理テーブルに記録されている１つのレコードを指す。

関連用語は、所定の分別符号が付与された文書に共通して、出現頻度が高い単語のうち、評価値が一定値以上のものをいう。第１の実施形態において、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が占める割合をいう。また、評価値は、ある文書中で発揮される各単語の情報量をいい、伝達情報量を用いて算出することも可能である。

第１の実施形態において、分別符号「製品Ａ」を付与する文書を抽出する場合、関連用語は、製品Ａが属する技術分野の名称、該商品の販売国、該商品の類似商品名等、具体的には、「符号化処理」、「日本」、「製品ａ」等が挙げられる。また、分別符号「製品Ｂ」を付与する文書を抽出する場合、関連用語は、同様に、「復号化」、「日本」、「製品ｂ」等が挙げられる。

関連用語対応情報は関連用語と分別符号の対応関係を表すものをいう。例えば、第１の実施形態においては、「製品Ａ」という分別符号の関連用語の一つは、「符号化処理」であるため、関連用語対応情報はこの２つの情報を紐づけて管理する情報のことを指す。具体的には、「製品Ａ」という分別符号と「符号化処理」という関連用語は、関連用語データベース１０２において、管理テーブル上に管理されている。関連用語対応情報は、該各管理テーブルに記録されている１つのレコードを指す。

また、スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。第１の実施形態では、スコアは以下の式（１）を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。

キーワードデータベース１０１は、第１の実施形態において、「重要」、「製品Ａ」及び「製品Ｂ」という３つの分別符号についての、それぞれ異なる管理テーブルから構成されている。各管理テーブルには、各分別符号に対応するキーワードがキーワード対応情報とともに記録されている。

関連用語データベース１０２は、第１の実施形態において、「重要」、「製品Ａ」及び「製品Ｂ」という３つの分別符号についての、それぞれ異なる管理テーブルから構成されている。各管理テーブルには、各分別符号に対応する関連用語及び、閾値が関連用語対応情報とともに記録されている。関連用語を基に算出されたスコアが該閾値を超過した際に、該文書は対応する分別符号が付与される。

第１の実施形態では、図３に示すようなフローチャートに従い、５つの段階で分別処理を行う。

第１段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前記録を行う（ＳＴＥＰ１００）。このとき、キーワード及び関連用語は、分別符号との対応情報とともに記録される。

第２段階では、第１段階で記録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第１段階で記録したキーワード対応情報を参照し、該キーワードに対応する分別符号を付与する（ＳＴＥＰ２００）。

第３段階では、第１段階で記録された関連用語を含む文書を、第２段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第１段階で記録した関連用語対応情報を参照し、分別符号の付与を行う（ＳＴＥＰ３００）。

第４段階では、第３段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付ける。該ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う（ＳＴＥＰ４００）。

第５段階では、第４段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う（ＳＴＥＰ５００）。

傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

各段階における詳細な処理フローを以下で説明する。

＜第１段階（ＳＴＥＰ１００）＞
第１段階におけるキーワードデータベース１０１の詳細な処理フローを図４を用いて説明する。

キーワードデータベース１０１は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する（ＳＴＥＰ１１１）。この特定は、第１の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。

第１の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成し（ＳＴＥＰ１１２）、分別符号「重要」の管理テーブルに記録する（ＳＴＥＰ１１３）。

関連用語データベース１０２の詳細な処理フローを図５を用いて説明する。関連用語データベース１０２は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を記録する（ＳＴＥＰ１２１）。第１の実施形態においては、例えば、「製品Ａ」の関連用語として「符号化処理」及び「製品ａ」並びに「製品Ｂ」の関連用語として「復号化」及び「製品ｂ」を記録する。

記録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（ＳＴＥＰ１２２）、各管理テーブルに記録する（ＳＴＥＰ１２３）。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。

＜第２段階（ＳＴＥＰ２００）＞
第２段階における第１分別部２０１の詳細な処理フローを、図６を用いて説明する。第１の実施形態において、第２段階では、第１分別部２０１によって、分別符号「重要」を文書に付与する処理を行う。

第１分別部２０１では、第１段階（ＳＴＥＰ１００）でキーワードデータベース１０１に記録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する（ＳＴＥＰ２１１）。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、（ＳＴＥＰ２１２）、「重要」という分別符号を付与する（ＳＴＥＰ２１３）。

＜第３段階（ＳＴＥＰ３００＞
第３段階における第２分別部３０１の詳細な処理フローを、図７を用いて説明する。

第１の実施形態において、第２分別部３０１では、第２段階（ＳＴＥＰ２００）で分別符号を付与しなかった文書情報に対して、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第２分別部３０１は、該文書情報から、第１段階で関連用語データベース１０２に記録した関連用語「符号化処理」、「製品ａ」、「復号化」及び「製品ｂ」を含む文書を抽出する（ＳＴＥＰ３１１）。該抽出した文書に対して、記録した４つの関連用語の出現頻度、評価値に基づいて、式（１）により、スコアを算出する（ＳＴＥＰ３１２）。該スコアは各文書と分別符号「製品Ａ」及び「製品Ｂ」との関連度を表している。

該スコアが閾値を超過した場合、関連用語対応情報を参照し（ＳＴＥＰ３１３）、適切な分別符号を付与する（ＳＴＥＰ３１４）。

例えば、ある文書において関連用語「符号化処理」及び「製品ａ」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品Ａ」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品Ａ」が付与される。

このとき、該文書に関連用語「製品ｂ」の出現頻度も高く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品Ａ」と併せて、「製品Ｂ」も付与される。一方、該文書に関連用語「製品ｂ」の出現頻度が低く、分別符号「製品Ｂ」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品Ａ」のみが付与される。

第２分別部３０１では、第４段階のＳＴＥＰ４３２において算出されるスコアを用いて以下に示す式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う（ＳＴＥＰ３１５）。

例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（ＳＴＥＰ４００）＞
第４段階では、第３段階までの処理において、分別符号が付与されなかった文書情報に対して分別処理を行う。第１の実施形態においては、該文書情報に対して、第４段階では「重要」、「製品Ａ」及び「製品Ｂ」という分別符号を付与する処理を行う。

第４段階における分別符号受付部４０３の詳細な処理フローを、図８を用いて説明する。第４段階での処理対象となる文書情報からまず文書抽出部４０２が、ランダムに文書をサンプリングし、表示部６０１上で表示する。第１の実施形態では、処理対象となる文書情報のうち２割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から３割の文書を選ぶという抽出の仕方をしてもよい。

ユーザは表示部６０１上に表示される図１４に示す表示用画面Ｉ１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付部４０３は、該ユーザが選択した分別符号を受け付け（ＳＴＥＰ４１１）、付与された分別符号に基づいて分別する（ＳＴＥＰ４１２）。

次に、解析部４０４の詳細な処理フローを、図９を用いて説明する。解析部４０４では、分別符号受付部４０３で分別符号ごとに分別された文書に共通して頻出する単語を抽出する（ＳＴＥＰ４２１）。抽出した共通の単語の評価値を式（２）により解析し（ＳＴＥＰ４２２、）、該共通の単語の文書中の出現頻度を解析する（ＳＴＥＰ４２３）。

さらに、ＳＴＥＰ４２２及びＳＴＥＰ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（ＳＴＥＰ４２４）。
図１０は、ＳＴＥＰ４２４によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。

図１０において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付部４０３によってＳＴＥＰ４２１で抽出された単語を含む文書の割合を示している。

第１の実施形態において、分別符号受付部４０３では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。

ＳＴＥＰ４２１乃至ＳＴＥＰ４２４の処理を、「製品Ａ」及び「製品Ｂ」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。

次に、自動分別部４０５の詳細な処理フローを、図１１を用いて説明する。自動分別部４０５では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付部４０３によって分別符号の付与が受け付けられなかった文書に対して処理を行う。自動分別部４０５では、このような文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」、「製品Ａ」及び「製品Ｂ」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４３１）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４３２）。また、ＳＴＥＰ４３１で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４３３）。

自動分別部４０５では、さらに、ＳＴＥＰ４３２で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４３４）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

＜第５段階（ＳＴＥＰ５００）＞
第５段階における品質検査部５０１の詳細な処理フローを図１３を用いて説明する。品質検査部５０１では、分別符号受付部４０３が、ＳＴＥＰ４１１で受け付けた文書に対して、解析部４０４がＳＴＥＰ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（ＳＴＥＰ５１１）。
分別符号受付部４０３が受け付けた分別符号とＳＴＥＰ５１１で決定した分別符号とを比較し（ＳＴＥＰ５１２）、ＳＴＥＰ４１１で受け付けた分別符号の妥当性を検証する（ＳＴＥＰ５１３）。

［第２の実施形態］
以下、本発明の実施の形態を添付の図により説明する。図２に第２の実施形態に係る文書判別システムの構成図を示す。

第２の実施形態において、本発明にかかる文書分別システム９１は、キーワードデータベース１９１と、関連用語データベース１９２と、第１分別部２９１と、第２分別部３９１と、第３分別部４９１と、文書抽出部４９２と、分別符号受付部４９３と、解析部４９４と、自動分別部４９５と品質検査部５９１等とから構成されている。

第２の実施形態において、本発明にかかる文書分別システム９１は、表示部６９１をシステム内に備えていないが、システム内に含むものとして構成してもよい。

キーワードデータベース１９１及び、関連用語データベース１９２は、電子媒体にデータを記録する記録装置であり、第２の実施形態においては、文書分別システム９１内に設置されている。その他の実施例として、キーワードデータベース１９１及び、関連用語データベース１９２は、ストレージ装置として文書分別システム９１の外部に設置してもよい。

文書分別システム９１は、コンピュータまたはサーバであり、各種入力に基づきＣＰＵがＲＯＭに記録されたプログラムを実行することで、各種機能部として動作する。また、表示部６９１は、ディスプレイ、モニタ、タブレットＰＣ等表示機能を有し、ユーザが操作し、文書情報を確認し、分別符号を付与するのに利用する装置である。

文書分別システム９１及び表示部６９１は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。

第２の実施形態は、独占禁止法違反における文書提出命令に対応する際に、提出する必要のある文書を分別処理する場合の実施例である。

第２の実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、訴訟との関連度が極めて高く、重要な証拠能力を備える文書を表す「重要」の２つの分別符号を備えている。

ここでいう、文書は、第１の実施形態と同様に、訴訟において証拠として提出するデジタル情報のことで、１つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にＯＣＲ（Optical Character Reader）装置を備えてもよい。ＯＣＲ装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や抽出が可能になる。

また、単語は、第１の実施形態と同様に、ある言語において意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、１つ以上の単語を含むデータをいう。」という文章の中には、「文書」「１つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。

キーワードは、第１の実施形態と同様に、１つあるいは複数の単語を組み合わせたものをいう。特に特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものを指す。第２の実施形態において、「重要」という分別符号のキーワードは、その文書がｅＤｉｓｃｏｖｅｒｙ（電子証拠開示）に従い提出しなければならないものであると示唆するものである。具体的には、「カルテル」、「談合」等が挙げられる。これらのキーワードが含まれることで、該文書は、第２の実施形態において非常に高い証拠能力を持つものとなる。

また、キーワード対応情報は第１の実施形態と同様に、キーワードと分別符号の対応関係を表すものをいう。例えば、第２の実施形態においては、密接な関係を持つ「重要」という分別符号と「談合」というキーワードの、２つの情報を紐づけて管理する情報のことを指す。具体的には、「重要」という分別符号と密接な関係を持つキーワードは、キーワードデータベース１９１において、管理テーブル上に管理されている。キーワード対応情報は、該各管理テーブルに記録されている１つのレコードを指す。

関連用語は、第１の実施形態と同様に、所定の分別符号が付与された文書に共通して、出現頻度が高い単語のうち、評価値が一定値以上のものをいう。第２の実施形態において、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が占める割合をいう。また、評価値は、ある文書中で発揮される各単語の情報量をいい、伝達情報量を用いて算出することも可能である。

第２の実施形態において、分別符号「重要」を付与する文書を抽出する場合、関連用語は、独占禁止法違反があったとされる取引の担当者、取引先の企業名等、具体的には、担当者名である「担当者Ａ」、取引先である「企業Ｂ」等が挙げられる。

関連用語対応情報は第１の実施形態と同様に、関連用語と分別符号の対応関係を表すものをいう。例えば、第２の実施形態においては、「重要」という分別符号の関連用語の一つは、「担当者Ａ」であるため、関連用語対応情報はこの２つの情報を紐づけて管理する情報のことを指す。具体的には、「重要」という分別符号と「担当者Ａ」という関連用語は、関連用語データベース１９２において、管理テーブル上に管理されている。関連用語対応情報は、該各管理テーブルに記録されている１つのレコードを指す。

また、スコアは、第１の実施形態と同様に、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。第２の実施形態では、スコアは第１の実施形態と同様、式（１）を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。

キーワードデータベース１９１は、第２の実施形態において、「重要」という分別符号についてそれぞれ異なる管理テーブルから構成されている。管理テーブルには、各分別符号に対応するキーワードがキーワード対応情報とともに記録されている。

関連用語データベース１９２は、第２の実施形態において、「重要」という分別符号についての管理テーブルから構成されている。該管理テーブルには、該分別符号に対応する関連用語及び、閾値が関連用語対応情報とともに記録されている。関連用語を基に算出されたスコアが該閾値を超過した際に、該文書は対応する分別符号が付与される。

第２の実施形態では、第１の実施形態と同様に、図３に示すようなフローチャートに従い、５つの段階で分別処理を行う。

第１段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前記録を行う（ＳＴＥＰ１００）。このとき、キーワード及び関連用語は、分別符号との対応関係と紐づけて記録される。

傾向情報は、第１の実施形態と同様に、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該２つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。

各段階における詳細な処理フローを以下で説明する。

＜第１段階（ＳＴＥＰ１００）＞
第１段階におけるキーワードデータベース１９１の詳細な処理フローを、図４を用いて説明する。

キーワードデータベース１９１は、過去の分別処理において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、分別符号に対応するキーワードを特定する（ＳＴＥＰ１１１）。第２の実施形態においては、例えば、分別符号「重要」のキーワードとして「談合」及び「カルテル」というキーワードが特定される。この場合、「談合」及び「カルテル」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成し（ＳＴＥＰ１１２）、分別符号「重要」の管理テーブルに記録する（ＳＴＥＰ１１３）。

関連用語データベース１９２の詳細な処理フローを図５を用いて説明する。関連用語データベース１９２は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を記録する（ＳＴＥＰ１２１）。第２の実施形態においては、例えば、分別符号「重要」の関連用語として「担当者Ａ」及び「企業Ｂ」を記録する。

記録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し（ＳＴＥＰ１２２）、管理テーブルに記録する（ＳＴＥＰ１２３）。このとき、関連用語対応情報には、関連用語の持つ評価値及び分別符号を決定するのに必要なスコアである閾値も併せて記録される。

＜第２段階（ＳＴＥＰ２００）＞
第２段階における第１分別部２９１の詳細な処理フローを、図１２を用いて説明する。第２の実施形態において、第２段階では、第１分別部２９１によって、分別符号「重要」を文書に付与する処理を行う。

第１分別部２９１では、第１段階（ＳＴＥＰ１００）でキーワードデータベース１９１に記録したキーワード「談合」及び「カルテル」を引数として文書抽出部４９２に渡し、該キーワードを含む文書を文書情報から抽出させる。該抽出させた文書に対して、自動分別部４９５にキーワード対応情報を引数として渡し（ＳＴＥＰ４４１：キーワード対応情報）、該キーワードが記録されている管理テーブルを参照させ、「重要」という分別符号を付与させる（ＳＴＥＰ４４６）。

＜第３段階（ＳＴＥＰ３００＞
第３段階における第２分別部３９１の詳細な処理フローを図１２を用いて説明する。

第２の実施形態において、第２分別部３９１では、第２段階（ＳＴＥＰ２００）で分別符号を付与しなかった文書情報に対して、関連用語を用いて「重要」という分別符号を付与する処理を行う。

第２分別部３９１は、該文書情報から、第１段階で関連用語データベース１９２に記録した関連用語「担当者Ａ」、「企業Ｂ」を文書抽出部４９２に引数として渡し、該関連用語を含む文書を抽出させる。該抽出した文書に対して、自動分別部４９５に関連用語対応情報を引数として渡し（ＳＴＥＰ４４１：キーワード対応情報）、処理を行わせる。具体的には、第２分別部３９１は、関連用語対応情報を引数として受け取った自動分別部４９５に対し、該２つの関連用語の出現頻度、評価値に基づいて、式（１）により、スコアを算出させる（ＳＴＥＰ４４７）。該スコアは各文書と分別符号「重要」との関連度を表している。

該スコアが一定値を超過した場合、第２分別部３９１は、自動分別部４９５に対し、引数として与えた関連用語対応情報から適切な分別符号を付与させる（ＳＴＥＰ４４８）。

第２分別部３９１では、第４段階のＳＴＥＰ４４７において算出されるスコアを用いて第１の実施形態と同様、式（２）により、関連用語の評価値を再計算し、該評価値の重みづけを行う。

例えば、「企業Ｂ」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、第２分別部３９１は、関連用語「企業Ｂ」の評価値を下げて再度、関連用語対応情報に記録する。

＜第４段階（ＳＴＥＰ４００）＞
第４段階では、第３段階までの処理において、分別符号が付与されなかった文書情報に対して分別処理を行う。第２の実施形態においては、該文書情報に対して、第４段階では「重要」という分別符号を付与する処理を行う。

第４段階における分別符号受付部４９３の詳細な処理フローを、図８を用いて説明する。第４段階での処理対象となる文書情報からまず文書抽出部４９２が、ランダムに文書をサンプリングし、表示部６９１上で表示する。ユーザは表示部６９１上に表示される図１４に示す表示用画面Ｉ１を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付部４９３は、該ユーザが選択した分別符号を受け付け（ＳＴＥＰ４１１）、付与された分別符号に基づいて分別する（ＳＴＥＰ４１２）。

次に、解析部４９４の詳細な処理フローを、図９を用いて説明する。分別符号受付部４９３で分別符号ごとに分別された文書ごとに共通して頻出する単語を抽出する（ＳＴＥＰ４２１）。抽出した共通の単語の評価値を式（２）により解析する（ＳＴＥＰ４２２）。そして、該共通の単語の文書中の出現頻度を解析する（ＳＴＥＰ４２３）。

ＳＴＥＰ４２２及びＳＴＥＰ４２３によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する（ＳＴＥＰ４２４）。

次に、自動分別部４９５の詳細な処理フローを、図１２を用いて説明する。自動分別部４９５では、第４段階での処理対象の文書情報のうち、ＳＴＥＰ４１１で分別符号受付部４９３によって分別符号の付与が受け付けられなかった文書に対して処理を行う。自動分別部４９５では、引数が与えられなかった場合には（ＳＴＥＰ４４１：なし）、該文書から、ＳＴＥＰ４２４で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し（ＳＴＥＰ４４２）、抽出した文書について、傾向情報をもとに式（１）を用いてスコアを算出する（ＳＴＥＰ４４３）。また、ＳＴＥＰ４４２で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する（ＳＴＥＰ４４４）。

自動分別部４９５では、さらに、ＳＴＥＰ４４３で算出したスコアを用いて、分別結果を各データベースに反映する（ＳＴＥＰ４４５）。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。

＜第５段階（ＳＴＥＰ５００）＞
第５段階における品質検査部５９１の詳細な処理フローを、図１３を用いて説明する。品質検査部５９１では、分別符号受付部４９３が、ＳＴＥＰ４１１で受け付けた文書に対して、解析部４９４がＳＴＥＰ４２４で解析した傾向情報に基づいて、付与されるべき分別符号を決定する（ＳＴＥＰ５１１）。
分別符号受付部４９３が受け付けた分別符号とＳＴＥＰ５１１で決定した分別符号とを比較し（ＳＴＥＰ５１２）、分別符号受付部４９３が受け付けた分別符号の妥当性を検証する（ＳＴＥＰ５１３）。

また、本発明は、第２分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、分別処理を実施する毎に分別精度の向上を図ることを可能とする。

１９１文書分別システム
２０１２９１第１分別部
３０１３９１第２分別部
４０１４９１第３分別部
４０２４９２文書抽出部
４０３４９３分別符号受付部
４０４４９４解析部
４０５４９５自動分別部
５０１５９１品質検査部
６０１６９１表示部
１０１１９１キーワードデータベース
１０２１９２関連用語データベース
Ｉ１文書表示画面

Claims

文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出部と、
前記抽出された文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示部と、
前記表示された文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付部と、
前記分別符号が付与された文書に共通して頻出する単語を記録するデータベースと、
文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出部と
を備えた文書分別システム。
前記ユーザが前記抽出された文書を分別した規則性を踏まえて、前記文書情報に含まれる文書に前記分別符号を付与する分別部をさらに備えたことを特徴とする請求項１に記載の文書分別システム。
前記分別部は、前記記録された単語を含む文書を前記文書情報から抽出し、当該抽出された文書に対して、特定の分別符号を付与するものであることを特徴とする請求項２に記載の文書分別システム。
前記分別部は、前記特定の分別符号が付与されなかった文書から所定の関連用語を含む文書を抽出し、当該抽出された文書に含まれる関連用語を用いて算出されたスコアに基づき、所定の分別符号を付与するものであることを特徴とする請求項３に記載の文書分別システム。
前記分別部は、前記算出されたスコアが所定の閾値を超過した場合、前記分別符号を付与するものであることを特徴とする請求項２から４のいずれか一項に記載の文書分別システム。
前記スコア算出部は、前記単語が前記文書に出現する頻度と当該単語の重みとに基づいて、前記スコアを算出することを特徴とする請求項１に記載の文書分別システム。
文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出ステップと、
前記抽出した文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示ステップと、
前記表示した文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付ステップと、
前記分別符号を付与した文書に共通して頻出する単語を記録するデータベースを参照し、文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出ステップとを含む、コンピュータが実行する文書分別方法。
コンピュータに、
文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出機能と、
前記抽出された文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示機能と、
前記表示された文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付機能と、
前記分別符号が付与された文書に共通して頻出する単語を記録する単語データベースを参照し、文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出機能とを実現させる文書分別プログラム。