JP5850973B2 - 文書分別システム及び文書分別方法並びに文書分別プログラム - Google Patents

文書分別システム及び文書分別方法並びに文書分別プログラム Download PDF

Info

Publication number
JP5850973B2
JP5850973B2 JP2014086713A JP2014086713A JP5850973B2 JP 5850973 B2 JP5850973 B2 JP 5850973B2 JP 2014086713 A JP2014086713 A JP 2014086713A JP 2014086713 A JP2014086713 A JP 2014086713A JP 5850973 B2 JP5850973 B2 JP 5850973B2
Authority
JP
Japan
Prior art keywords
document
classification
classification code
information
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014086713A
Other languages
English (en)
Other versions
JP2014160496A (ja
JP2014160496A5 (ja
Inventor
守本 正宏
正宏 守本
喜勝 白井
喜勝 白井
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to JP2014086713A priority Critical patent/JP5850973B2/ja
Publication of JP2014160496A publication Critical patent/JP2014160496A/ja
Publication of JP2014160496A5 publication Critical patent/JP2014160496A5/ja
Application granted granted Critical
Publication of JP5850973B2 publication Critical patent/JP5850973B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。
従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011−209930号公報 特開2011−209931号公報 特開2012−32859号公報
しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。
このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。
そこで、本発明は、上記事情に鑑み、デジタル化された文書情報を収集した後に、当該文書情報に対して、分別符号を自動で付与することにより、訴訟に利用する文書情報の分別作業の負担軽減を可能とする文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とするものである。
本発明の文書分別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別システムにおいて、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報とを記録するキーワードデータベースと、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と前記関連用語との対応関係を示す関連用語対応情報とを記録する関連用語データベースと、該キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、該キーワード対応情報に基づき該特定の分別符号を付与する第1分別部と、該第1分別部において該特定の分別符号を付与しなかった文書情報から、該関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、該関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、該スコアおよび前記関連用語対応情報に基づいて、該所定の分別符号を付与する第2分別部と、第2分別部において該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける分別符号受付部とを備える。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
「文書」とは、1つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
「キーワード」とは、1つまたは複数の「単語」を組み合わせたものをいう。具体的には、特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものをいってもよい。例えば、特許侵害訴訟が発生した場合において、当該訴訟と関連度の高い文書に重要という分別符号を付与する場合の「キーワード」として、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。
また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。
「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。
また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。
「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品A」という分別符号が製品Aの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。
「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。例えば「スコア」は、文書中に出現する単語と、各単語の持つ評価値とによりスコアを算出してもよい。
また、本発明の文書分別システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付部により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。
「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
また、本発明の文書分別システムは更に、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えることも可能である。
また、本発明の文書分別システムに係る第1分別部はキーワードを複数含む文書に対し、該キーワードのもつ評価値及び出現数に基づいて、付与する分別符号を選択してもよい。
また、本発明の文書分別システムに係る第2分別部は、算出したスコアを用いて関連用語の評価値を再計算し、前記スコアが一定値を超過した文書中に頻出する関連用語の評価値に重みづけを行うことも可能である。
本発明の文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別方法において、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、特定の分別符号とキーワードとの対応関係を示すキーワード対応情報とを記録するキーワードデータベースと、所定の分別符号と、所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを記録する関連用語データベースとを有する際に、コンピュータが、該記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を付与し、該特定の分別符号を付与しなかった文書情報から、記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、該所定の分別符号を付与し、該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能を実現するものである。
本発明の文書分別プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与する文書分別プログラムにおいて、コンピュータに、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報とを記録する機能と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と該関連用語との対応関係を示す関連用語対応情報とを記録する機能と、該記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、該キーワード対応情報に基づき該特定の分別符号を付与する機能と、該特定の分別符号を付与しなかった文書情報から、該記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、該関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、該スコアおよび関連用語対応情報に基づいて、該所定の分別符号を付与する機能と、該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける機能とを実現させるものである。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第1分別部と、第1分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第2分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。
また、本発明の文書判別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。
また、本発明は、第2分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、文書分別システムが、分別処理を実施する毎に分別精度の向上を図ることを可能とする。
本発明の第1の実施形態に係る文書判別システムの構成図 本発明の第2の実施形態に係る文書判別システムの構成図 本発明の実施形態における段階ごとの処理の流れを示したチャート 本発明の実施形態におけるキーワードデータベースの処理フローを示したチャート 本発明の実施形態における関連用語データベースの処理フローを示したチャート 本発明の実施形態における第1分別部の処理フローを示したチャート 本発明の実施形態における第2分別部の処理フローを示したチャート 本発明の実施形態における分別符号受付部の処理フローを示したチャート 本発明の実施形態における解析部の処理フローを示したチャート 本発明の実施形態における解析部での解析結果を示したグラフ 本発明の第1の実施形態における自動分別部の処理フローを示したチャート 本発明の第2の実施形態における自動分別部の処理フローを示したチャート 本発明の実施形態における品質検査部の処理フローを示したチャート 本発明の実施形態における文書表示画面
[第1の実施形態]
以下、本発明の実施の形態を添付の図により説明する。図1に第1の実施形態に係る文書判別システムの構成図を示す。
本発明にかかる文書分別システム1は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟への利用が容易になるように、訴訟との関連度を示す分別符号を文書に付与するために、特定の分別符号と、該特定の分別符号を付与した文書中に記述されるキーワードと、特定の分別符号とキーワードとの対応関係を示すキーワード対応情報とを記録するキーワードデータベース101と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを記録する関連用語データベース102と、キーワードデータベース101に記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、前記キーワード対応情報に基づき前記特定の分別符号を付与する第1分別部201と、第1分別部201において特定の分別符号を付与しなかった文書情報から、関連用語データベース102に記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、該スコアおよび該関連用語対応情報に基づいて、該所定の分別符号を付与する第2分別部301と、第2分別部301において該所定の分別符号を付与しなかった文書に対して、ユーザからの分別符号の付与を受け付ける分別符号受付部403とを備える。
第1の実施形態において、本発明にかかる文書分別システム1は、キーワードデータベース101と、関連用語データベース102と、第1分別部201と、第2分別部301と、第3分別部401と、品質検査部501から構成されている。
第1の実施形態において、本発明にかかる文書分別システム1は、表示部601をシステム内に備えていないが、システム内に含むものとして構成してもよい。
また、第3分別部401は、文書抽出部402と、分別符号受付部403と、解析部404と、自動分別部405とから構成される。
分別符号受付部403は、ユーザによって文書情報に付与される分別符号を、キーボードまたはマウスからの入力として受け付ける。
キーワードデータベース101及び、関連用語データベース102は、電子媒体にデータを記録する記録装置であり、第1の実施形態においては、文書分別システム1内に設置されている。その他の実施例として、キーワードデータベース101及び、関連用語データベース102は、ストレージ装置として文書分別システム1の外部に設置してもよい。
文書分別システム1は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。また、表示部601は、ディスプレイ、モニタ、タブレットPC等表示機能を有するものであり、ユーザが操作し、文書情報を確認し、分別符号を付与するのに利用する装置である。
文書分別システム1及び表示部601は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
第1の実施形態において、特許侵害訴訟におけるeDiscovery(電子証拠開示)に対応する際に、被疑製品である製品A及び製品Bに関する文書を分別処理する場合を例にとって説明する。
ここで、製品Aは、画像のアナログデータに対して、符号化による圧縮処理を行う画像符号化装置であり、「画像符号化機能」、「文字重畳機能」、「音声符号化機能」を持つ。また、製品Bは、製品Aによって符号化された画像ストリームに対して、復号化処理を行い、もとのアナログデータに戻す画像複合化装置であり、「復号化機能」、「音声復号化機能」を持つ。符号化及び復号化に用いている技術に対して、他者の特許を侵害する疑義がかけられている。
製品Aの類似製品を製品aとし、製品Bの類似製品を製品bとする。
分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類あるいは訴訟との関連度に応じて付与してもよい。第1の実施形態では、分別符号として、訴訟との関連度が極めて高く、重要な証拠能力を備える文書を表す「重要」、製品Aととりわけ関わりがある文書であることを表す「製品A」、及び製品Bととりわけ関わりがある文書であることを表す「製品B」の3つの分別符号を備えている。
ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、1つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にOCR(Optical Character Reader)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や抽出が可能になる。
また、単語は、ある言語において意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
キーワードは、1つあるいは複数の単語を組み合わせたものをいう。特に特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものを指す。第1の実施形態において、「重要」という分別符号のキーワードは、その文書がeDiscovery(電子証拠開示)に従い、提出すべき文書である、と示唆するものである。具体的には、「特許公報の番号」、「弁理士」、「侵害者」等が挙げられる。これらのキーワードが含まれることで、該文書は、第1の実施形態における特許侵害訴訟において非常に高い証拠能力を持つものとなる。
また、キーワード対応情報はキーワードと分別符号の対応関係を表すものをいう。例えば、第1の実施形態においては、密接な関係を持つ「重要」という分別符号と「侵害者」というキーワードとの2つの情報を紐づけて管理する情報のことを指す。具体的には、「重要」という分別符号と密接な関係を持つキーワード及び「製品A」という分別符号と密接な関係を持つキーワードは、それぞれ、キーワードデータベース101において、各分別符号用の管理テーブル上に管理されている。キーワード対応情報は、該管理テーブルに記録されている1つのレコードを指す。
関連用語は、所定の分別符号が付与された文書に共通して、出現頻度が高い単語のうち、評価値が一定値以上のものをいう。第1の実施形態において、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が占める割合をいう。また、評価値は、ある文書中で発揮される各単語の情報量をいい、伝達情報量を用いて算出することも可能である。
第1の実施形態において、分別符号「製品A」を付与する文書を抽出する場合、関連用語は、製品Aが属する技術分野の名称、該商品の販売国、該商品の類似商品名等、具体的には、「符号化処理」、「日本」、「製品a」等が挙げられる。また、分別符号「製品B」を付与する文書を抽出する場合、関連用語は、同様に、「復号化」、「日本」、「製品b」等が挙げられる。
関連用語対応情報は関連用語と分別符号の対応関係を表すものをいう。例えば、第1の実施形態においては、「製品A」という分別符号の関連用語の一つは、「符号化処理」であるため、関連用語対応情報はこの2つの情報を紐づけて管理する情報のことを指す。具体的には、「製品A」という分別符号と「符号化処理」という関連用語は、関連用語データベース102において、管理テーブル上に管理されている。関連用語対応情報は、該各管理テーブルに記録されている1つのレコードを指す。
また、スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。第1の実施形態では、スコアは以下の式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
Figure 0005850973
キーワードデータベース101は、第1の実施形態において、「重要」、「製品A」及び「製品B」という3つの分別符号についての、それぞれ異なる管理テーブルから構成されている。各管理テーブルには、各分別符号に対応するキーワードがキーワード対応情報とともに記録されている。
関連用語データベース102は、第1の実施形態において、「重要」、「製品A」及び「製品B」という3つの分別符号についての、それぞれ異なる管理テーブルから構成されている。各管理テーブルには、各分別符号に対応する関連用語及び、閾値が関連用語対応情報とともに記録されている。関連用語を基に算出されたスコアが該閾値を超過した際に、該文書は対応する分別符号が付与される。
第1の実施形態では、図3に示すようなフローチャートに従い、5つの段階で分別処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前記録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号との対応情報とともに記録される。
第2段階では、第1段階で記録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録したキーワード対応情報を参照し、該キーワードに対応する分別符号を付与する(STEP200)。
第3段階では、第1段階で記録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で記録した関連用語対応情報を参照し、分別符号の付与を行う(STEP300)。
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付ける。該ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。
傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
各段階における詳細な処理フローを以下で説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース101の詳細な処理フローを図4を用いて説明する。
キーワードデータベース101は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(STEP111)。この特定は、第1の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
第1の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成し(STEP112)、分別符号「重要」の管理テーブルに記録する(STEP113)。
関連用語データベース102の詳細な処理フローを図5を用いて説明する。関連用語データベース102は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を記録する(STEP121)。第1の実施形態においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を記録する。
記録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、各管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
<第2段階(STEP200)>
第2段階における第1分別部201の詳細な処理フローを、図6を用いて説明する。第1の実施形態において、第2段階では、第1分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第1分別部201では、第1段階(STEP100)でキーワードデータベース101に記録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(STEP211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、(STEP212)、「重要」という分別符号を付与する(STEP213)。
<第3段階(STEP300>
第3段階における第2分別部301の詳細な処理フローを、図7を用いて説明する。
第1の実施形態において、第2分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第2分別部301は、該文書情報から、第1段階で関連用語データベース102に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(STEP311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)により、スコアを算出する(STEP312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
該スコアが閾値を超過した場合、関連用語対応情報を参照し(STEP313)、適切な分別符号を付与する(STEP314)。
例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
第2分別部301では、第4段階のSTEP432において算出されるスコアを用いて以下に示す式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う(STEP315)。
Figure 0005850973
例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
<第4段階(STEP400)>
第4段階では、第3段階までの処理において、分別符号が付与されなかった文書情報に対して分別処理を行う。第1の実施形態においては、該文書情報に対して、第4段階では「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第4段階における分別符号受付部403の詳細な処理フローを、図8を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部402が、ランダムに文書をサンプリングし、表示部601上で表示する。第1の実施形態では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
ユーザは表示部601上に表示される図14に示す表示用画面I1を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付部403は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
次に、解析部404の詳細な処理フローを、図9を用いて説明する。解析部404では、分別符号受付部403で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析し(STEP422、)、該共通の単語の文書中の出現頻度を解析する(STEP423)。
さらに、STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
図10は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
図10において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付部403によってSTEP421で抽出された単語を含む文書の割合を示している。
第1の実施形態において、分別符号受付部403では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
STEP421乃至STEP424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
次に、自動分別部405の詳細な処理フローを、図11を用いて説明する。自動分別部405では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付部403によって分別符号の付与が受け付けられなかった文書に対して処理を行う。自動分別部405では、このような文書から、STEP424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP431)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP432)。また、STEP431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP433)。
自動分別部405では、さらに、STEP432で算出したスコアを用いて、分別結果を各データベースに反映する(STEP434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
<第5段階(STEP500)>
第5段階における品質検査部501の詳細な処理フローを図13を用いて説明する。品質検査部501では、分別符号受付部403が、STEP411で受け付けた文書に対して、解析部404がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付部403が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
[第2の実施形態]
以下、本発明の実施の形態を添付の図により説明する。図2に第2の実施形態に係る文書判別システムの構成図を示す。
第2の実施形態において、本発明にかかる文書分別システム91は、キーワードデータベース191と、関連用語データベース192と、第1分別部291と、第2分別部391と、第3分別部491と、文書抽出部492と、分別符号受付部493と、解析部494と、自動分別部495と品質検査部591等とから構成されている。
第2の実施形態において、本発明にかかる文書分別システム91は、表示部691をシステム内に備えていないが、システム内に含むものとして構成してもよい。
キーワードデータベース191及び、関連用語データベース192は、電子媒体にデータを記録する記録装置であり、第2の実施形態においては、文書分別システム91内に設置されている。その他の実施例として、キーワードデータベース191及び、関連用語データベース192は、ストレージ装置として文書分別システム91の外部に設置してもよい。
文書分別システム91は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。また、表示部691は、ディスプレイ、モニタ、タブレットPC等表示機能を有し、ユーザが操作し、文書情報を確認し、分別符号を付与するのに利用する装置である。
文書分別システム91及び表示部691は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
第2の実施形態は、独占禁止法違反における文書提出命令に対応する際に、提出する必要のある文書を分別処理する場合の実施例である。
第2の実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、訴訟との関連度が極めて高く、重要な証拠能力を備える文書を表す「重要」の2つの分別符号を備えている。
ここでいう、文書は、第1の実施形態と同様に、訴訟において証拠として提出するデジタル情報のことで、1つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にOCR(Optical Character Reader)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や抽出が可能になる。
また、単語は、第1の実施形態と同様に、ある言語において意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
キーワードは、第1の実施形態と同様に、1つあるいは複数の単語を組み合わせたものをいう。特に特定の分別符号と密接な関係を持ち、キーワードが文書中に含まれると、分別符号が一意に決まるものを指す。第2の実施形態において、「重要」という分別符号のキーワードは、その文書がeDiscovery(電子証拠開示)に従い提出しなければならないものであると示唆するものである。具体的には、「カルテル」、「談合」等が挙げられる。これらのキーワードが含まれることで、該文書は、第2の実施形態において非常に高い証拠能力を持つものとなる。
また、キーワード対応情報は第1の実施形態と同様に、キーワードと分別符号の対応関係を表すものをいう。例えば、第2の実施形態においては、密接な関係を持つ「重要」という分別符号と「談合」というキーワードの、2つの情報を紐づけて管理する情報のことを指す。具体的には、「重要」という分別符号と密接な関係を持つキーワードは、キーワードデータベース191において、管理テーブル上に管理されている。キーワード対応情報は、該各管理テーブルに記録されている1つのレコードを指す。
関連用語は、第1の実施形態と同様に、所定の分別符号が付与された文書に共通して、出現頻度が高い単語のうち、評価値が一定値以上のものをいう。第2の実施形態において、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が占める割合をいう。また、評価値は、ある文書中で発揮される各単語の情報量をいい、伝達情報量を用いて算出することも可能である。
第2の実施形態において、分別符号「重要」を付与する文書を抽出する場合、関連用語は、独占禁止法違反があったとされる取引の担当者、取引先の企業名等、具体的には、担当者名である「担当者A」、取引先である「企業B」等が挙げられる。
関連用語対応情報は第1の実施形態と同様に、関連用語と分別符号の対応関係を表すものをいう。例えば、第2の実施形態においては、「重要」という分別符号の関連用語の一つは、「担当者A」であるため、関連用語対応情報はこの2つの情報を紐づけて管理する情報のことを指す。具体的には、「重要」という分別符号と「担当者A」という関連用語は、関連用語データベース192において、管理テーブル上に管理されている。関連用語対応情報は、該各管理テーブルに記録されている1つのレコードを指す。
また、スコアは、第1の実施形態と同様に、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。第2の実施形態では、スコアは第1の実施形態と同様、式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
キーワードデータベース191は、第2の実施形態において、「重要」という分別符号についてそれぞれ異なる管理テーブルから構成されている。管理テーブルには、各分別符号に対応するキーワードがキーワード対応情報とともに記録されている。
関連用語データベース192は、第2の実施形態において、「重要」という分別符号についての管理テーブルから構成されている。該管理テーブルには、該分別符号に対応する関連用語及び、閾値が関連用語対応情報とともに記録されている。関連用語を基に算出されたスコアが該閾値を超過した際に、該文書は対応する分別符号が付与される。
第2の実施形態では、第1の実施形態と同様に、図3に示すようなフローチャートに従い、5つの段階で分別処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前記録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号との対応関係と紐づけて記録される。
第2段階では、第1段階で記録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録したキーワード対応情報を参照し、該キーワードに対応する分別符号を付与する(STEP200)。
第3段階では、第1段階で記録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で記録した関連用語対応情報を参照し、分別符号の付与を行う(STEP300)。
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付ける。該ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。
傾向情報は、第1の実施形態と同様に、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
各段階における詳細な処理フローを以下で説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース191の詳細な処理フローを、図4を用いて説明する。
キーワードデータベース191は、過去の分別処理において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、分別符号に対応するキーワードを特定する(STEP111)。第2の実施形態においては、例えば、分別符号「重要」のキーワードとして「談合」及び「カルテル」というキーワードが特定される。この場合、「談合」及び「カルテル」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成し(STEP112)、分別符号「重要」の管理テーブルに記録する(STEP113)。
関連用語データベース192の詳細な処理フローを図5を用いて説明する。関連用語データベース192は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を記録する(STEP121)。第2の実施形態においては、例えば、分別符号「重要」の関連用語として「担当者A」及び「企業B」を記録する。
記録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、関連用語の持つ評価値及び分別符号を決定するのに必要なスコアである閾値も併せて記録される。
<第2段階(STEP200)>
第2段階における第1分別部291の詳細な処理フローを、図12を用いて説明する。第2の実施形態において、第2段階では、第1分別部291によって、分別符号「重要」を文書に付与する処理を行う。
第1分別部291では、第1段階(STEP100)でキーワードデータベース191に記録したキーワード「談合」及び「カルテル」を引数として文書抽出部492に渡し、該キーワードを含む文書を文書情報から抽出させる。該抽出させた文書に対して、自動分別部495にキーワード対応情報を引数として渡し(STEP441:キーワード対応情報)、該キーワードが記録されている管理テーブルを参照させ、「重要」という分別符号を付与させる(STEP446)。
<第3段階(STEP300>
第3段階における第2分別部391の詳細な処理フローを図12を用いて説明する。
第2の実施形態において、第2分別部391では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、関連用語を用いて「重要」という分別符号を付与する処理を行う。
第2分別部391は、該文書情報から、第1段階で関連用語データベース192に記録した関連用語「担当者A」、「企業B」を文書抽出部492に引数として渡し、該関連用語を含む文書を抽出させる。該抽出した文書に対して、自動分別部495に関連用語対応情報を引数として渡し(STEP441:キーワード対応情報)、処理を行わせる。具体的には、第2分別部391は、関連用語対応情報を引数として受け取った自動分別部495に対し、該2つの関連用語の出現頻度、評価値に基づいて、式(1)により、スコアを算出させる(STEP447)。該スコアは各文書と分別符号「重要」との関連度を表している。
該スコアが一定値を超過した場合、第2分別部391は、自動分別部495に対し、引数として与えた関連用語対応情報から適切な分別符号を付与させる(STEP448)。
第2分別部391では、第4段階のSTEP447において算出されるスコアを用いて第1の実施形態と同様、式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う。
例えば、「企業B」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、第2分別部391は、関連用語「企業B」の評価値を下げて再度、関連用語対応情報に記録する。
<第4段階(STEP400)>
第4段階では、第3段階までの処理において、分別符号が付与されなかった文書情報に対して分別処理を行う。第2の実施形態においては、該文書情報に対して、第4段階では「重要」という分別符号を付与する処理を行う。
第4段階における分別符号受付部493の詳細な処理フローを、図8を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部492が、ランダムに文書をサンプリングし、表示部691上で表示する。ユーザは表示部691上に表示される図14に示す表示用画面I1を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付部493は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
次に、解析部494の詳細な処理フローを、図9を用いて説明する。分別符号受付部493で分別符号ごとに分別された文書ごとに共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析する(STEP422)。そして、該共通の単語の文書中の出現頻度を解析する(STEP423)。
STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
次に、自動分別部495の詳細な処理フローを、図12を用いて説明する。自動分別部495では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付部493によって分別符号の付与が受け付けられなかった文書に対して処理を行う。自動分別部495では、引数が与えられなかった場合には(STEP441:なし)、該文書から、STEP424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP443)。また、STEP442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP444)。
自動分別部495では、さらに、STEP443で算出したスコアを用いて、分別結果を各データベースに反映する(STEP445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
<第5段階(STEP500)>
第5段階における品質検査部591の詳細な処理フローを、図13を用いて説明する。品質検査部591では、分別符号受付部493が、STEP411で受け付けた文書に対して、解析部494がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付部493が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、分別符号受付部493が受け付けた分別符号の妥当性を検証する(STEP513)。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、キーワードデータベースに記録したキーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、各キーワードが持つキーワード対応情報に基づき特定の分別符号を付与する第1分別部と、第1分別部において特定の分別符号を付与しなかった文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび関連用語対応情報に基づいて、所定の分別符号を付与する第2分別部を備えることにより、レビュワーの分別作業の労力の削減を図ることができる。
また、本発明の文書判別システムは、ユーザからの分別符号の付与を受け付ける分別符号受付部を備え、ユーザが付与した分別符号が共通である文書中に頻出する単語を抽出し、文書ごとに含まれる、該抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析する機能を備え、分別符号受付部により分別符号を受け付けていない文書のうち、該解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行う際には、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、本発明は、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部を備える際には、ユーザによる分別符号の付与の誤りを検出することが可能である。
また、本発明は、第2分別部において、算出したスコアを用いて関連用語の評価値を再計算し、スコアが一定値を超過した文書中に頻出する関連用語の評価値の重みづけを行う機能を備える際には、分別処理を実施する毎に分別精度の向上を図ることを可能とする。
1 91 文書分別システム
201 291 第1分別部
301 391 第2分別部
401 491 第3分別部
402 492 文書抽出部
403 493 分別符号受付部
404 494 解析部
405 495 自動分別部
501 591 品質検査部
601 691 表示部
101 191 キーワードデータベース
102 192 関連用語データベース
I1 文書表示画面

Claims (8)

  1. 文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出部と、
    前記抽出された文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示部と、
    前記表示された文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付部と、
    前記分別符号が付与された文書に共通して頻出する単語を記録するデータベースと、
    文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出部と
    を備えた文書分別システム。
  2. 前記ユーザが前記抽出された文書を分別した規則性を踏まえて、前記文書情報に含まれる文書に前記分別符号を付与する分別部をさらに備えたことを特徴とする請求項1に記載の文書分別システム。
  3. 前記分別部は、前記記録された単語を含む文書を前記文書情報から抽出し、当該抽出された文書に対して、特定の分別符号を付与するものであることを特徴とする請求項2に記載の文書分別システム。
  4. 前記分別部は、前記特定の分別符号が付与されなかった文書から所定の関連用語を含む文書を抽出し、当該抽出された文書に含まれる関連用語を用いて算出されたスコアに基づき、所定の分別符号を付与するものであることを特徴とする請求項3に記載の文書分別システム。
  5. 前記分別部は、前記算出されたスコアが所定の閾値を超過した場合、前記分別符号を付与するものであることを特徴とする請求項2から4のいずれか一項に記載の文書分別システム。
  6. 前記スコア算出部は、前記単語が前記文書に出現する頻度と当該単語の重みとに基づいて、前記スコアを算出することを特徴とする請求項1に記載の文書分別システム。
  7. 文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出ステップと、
    前記抽出した文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示ステップと、
    前記表示した文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付ステップと、
    前記分別符号を付与した文書に共通して頻出する単語を記録するデータベースを参照し、文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出ステップとを含む、コンピュータが実行する文書分別方法。
  8. コンピュータに、
    文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出機能と、
    前記抽出された文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示機能と、
    前記表示された文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付機能と、
    前記分別符号が付与された文書に共通して頻出する単語を記録する単語データベースを参照し、文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出機能とを実現させる文書分別プログラム。
JP2014086713A 2014-04-18 2014-04-18 文書分別システム及び文書分別方法並びに文書分別プログラム Active JP5850973B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014086713A JP5850973B2 (ja) 2014-04-18 2014-04-18 文書分別システム及び文書分別方法並びに文書分別プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014086713A JP5850973B2 (ja) 2014-04-18 2014-04-18 文書分別システム及び文書分別方法並びに文書分別プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012083072A Division JP5530476B2 (ja) 2012-03-30 2012-03-30 文書分別システム及び文書分別方法並びに文書分別プログラム

Publications (3)

Publication Number Publication Date
JP2014160496A JP2014160496A (ja) 2014-09-04
JP2014160496A5 JP2014160496A5 (ja) 2015-05-21
JP5850973B2 true JP5850973B2 (ja) 2016-02-03

Family

ID=51612089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014086713A Active JP5850973B2 (ja) 2014-04-18 2014-04-18 文書分別システム及び文書分別方法並びに文書分別プログラム

Country Status (1)

Country Link
JP (1) JP5850973B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3333998B2 (ja) * 1992-08-27 2002-10-15 オムロン株式会社 自動分類付与装置および方法
JP4640591B2 (ja) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置
JP4986225B2 (ja) * 2007-03-26 2012-07-25 富士フイルム株式会社 登録制コミュニケーションサイトの提供装置及び方法

Also Published As

Publication number Publication date
JP2014160496A (ja) 2014-09-04

Similar Documents

Publication Publication Date Title
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015015826A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
WO2015037262A1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
TW201415402A (zh) 取證系統、取證方法及取證程式
WO2015030112A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5592552B1 (ja) 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
WO2015118619A1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5990562B2 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150330

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150330

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150330

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20150416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151201

R150 Certificate of patent or registration of utility model

Ref document number: 5850973

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250