JP5746403B2 - 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム - Google Patents

文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム Download PDF

Info

Publication number
JP5746403B2
JP5746403B2 JP2014124951A JP2014124951A JP5746403B2 JP 5746403 B2 JP5746403 B2 JP 5746403B2 JP 2014124951 A JP2014124951 A JP 2014124951A JP 2014124951 A JP2014124951 A JP 2014124951A JP 5746403 B2 JP5746403 B2 JP 5746403B2
Authority
JP
Japan
Prior art keywords
document
classification
classification code
unit
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014124951A
Other languages
English (en)
Other versions
JP2014167835A (ja
Inventor
守本 正宏
正宏 守本
喜勝 白井
喜勝 白井
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to JP2014124951A priority Critical patent/JP5746403B2/ja
Publication of JP2014167835A publication Critical patent/JP2014167835A/ja
Application granted granted Critical
Publication of JP5746403B2 publication Critical patent/JP5746403B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラムに関するものである。
従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011−209930号公報 特開2011−209931号公報 特開2012−32859号公報
しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。
このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力がかかるという問題があった。
そこで、本発明は、上記事情に鑑み、デジタル化された文書情報を収集した後に、当該文書情報に対して、分別符号を自動で付与することにより、訴訟に利用する文書情報の分別作業の負担軽減を可能とする文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラムを提供することを目的とするものである。
本発明の一態様に係る文書分別システムは、訴訟と関係するか否かがユーザによって分別された分別文書に含まれるキーワードの重みづけを学習する学習部と、訴訟と関係するか否かがユーザによって未だ分別されていない未分別文書から、分別文書に含まれるキーワードを探索する探索部と、探索部によって探索されたキーワード、および学習部によって学習された当該キーワードの重みづけを用いて、未分別文書と分別符号との結びつきの強さを評価したスコアを算出するスコア算出部とを備えている。
また、本発明の一態様に係る文書分別システムは、スコア算出部によって算出されたスコアに基づいて、未分別文書に分別符号を付与する自動分別部をさらに備えている。
また、本発明の一態様に係る文書分別システムは、所定数の文書を含む文書群を、ユーザによる分別対象として抽出する抽出部と、抽出部によって抽出された文書群に含まれる文書に対して、訴訟との関連性に基づいて、ユーザにより付与された分別符号をそれぞれ受け付ける分別符号受付部をさらに備え、学習部は、分別符号受付部によって受け付けられた分別符号を、分別文書が訴訟と関連するか否かがユーザによって分別された結果として用いることによって、当該分別文書に含まれるキーワードの重みづけを学習することができる。
本発明の一態様に係る文書分別システムは、抽出部によって抽出された文書群を、分別符号受付部によって受け付けられた分別符号ごとに分別し、当該分別された文書群に共通して含まれるキーワードを選定する選定部をさらに備え、学習部は、選定部によって選定されたキーワードの重みづけを学習することができる。
本発明の一態様に係る文書分別システムは、選定部によって選定されたキーワードを記録するデータベースをさらに備えてよい。
本発明の一態様に係る文書分別システムの制御方法は、訴訟と関係するか否かがユーザによって分別された分別文書に含まれるキーワードの重みづけを学習する学習ステップと、訴訟と関係するか否かがユーザによって未だ分別されていない未分別文書から、分別文書に含まれるキーワードを探索する探索ステップと、探索ステップにおいて探索したキーワード、および学習ステップにおいて学習した当該キーワードの重みづけを用いて、未分別文書と分別符号との結びつきの強さを評価したスコアを算出するスコア算出ステップとを含んでいる。
本発明の一態様に係る文書分別システムの制御プログラムは、コンピュータに、訴訟と関係するか否かがユーザによって分別された分別文書に含まれるキーワードの重みづけを学習する学習機能と、訴訟と関係するか否かがユーザによって未だ分別されていない未分別文書から、分別文書に含まれるキーワードを探索する探索機能と、探索機能によって探索されたキーワード、および学習機能によって学習された当該キーワードの重みづけを用いて、未分別文書と分別符号との結びつきの強さを評価したスコアを算出するスコア算出機能とを実現させる。
本発明に係る文書判別システム、文書判別システムの制御方法、および文書判別システムの制御プログラムは、レビュワーの分別作業の労力の軽減を図ることができる。
本発明の第1の実施形態に係る文書判別システムの構成図 本発明の実施形態における選定部での解析結果を示したグラフ 本発明の実施形態における段階ごとの処理の流れを示したチャート 本発明の実施形態におけるデータベースの処理フローを示したチャート 本発明の実施形態における探索部の処理フローを示したチャート 本発明の実施形態におけるスコア算出部の処理フローを示したチャート 本発明の実施形態における自動分別部の処理フローを示したチャート 本発明の実施形態における抽出部の処理フローを示したチャート 本発明の実施形態における文書表示部の処理フローを示したチャート 本発明の実施形態における分別符号受付部の処理フローを示したチャート 本発明の実施形態における選定部の処理フローを示したチャート 本発明の実施形態における文書排除部の処理フローを示したチャート 本発明の実施形態における学習部の処理フローを示したチャート 本発明の実施形態における文書表示画面
[第1の実施形態]
以下、本発明の実施の形態を添付の図により説明する。図1に第1の実施形態に係る文書判別システムの構成図を示す。
第1の実施形態は、特許侵害訴訟における文書提出命令に対応する際に、被疑製品である製品Aに関する文書を分別処理する場合の実施例である。
本発明にかかる文書分別システムは、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部102と、抽出された文書群を画面上に表示する文書表示部103と表示された文書群に対して、レビュワーと呼ばれるユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部104と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部105と、選定したキーワードを記録するデータベース201と、データベース201に記録されたキーワードを文書情報から探索する探索部106と、探索部106の探索結果と選定部105の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部107と、スコアの結果に基づいて自動で分別符号を付与する自動分別部108と、自動分別部108の分別対象から選定された文書を排除する文書排除部109と、選定部105の分析結果及びスコア算出部の算出したスコアに基づいて選定部105が選定したキーワード、データベース201に記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部110を備えている。
第1の実施形態において、該文書分別システムは、抽出部102と文書表示部103と分別符号受付部104と選定部105と探索部106とスコア算出部107と自動分別部108と文書排除部109と学習部110とを備える文書分別装置101、データベース201及びレビュワーが利用するクライアント装置301から構成される。クライアント装置301は1つの文書判別システム内に複数備えることも可能である。
文書分別装置101及びクライアント装置301は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。
分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。第1の実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、証拠として提出する必要があることを表す「関係あり」、及び製品Aととりわけ関わりがある文書であることを表す「重要」の3つの符号を備えており、このうち「重要」符号が付与される文書を分別するものである。
ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、1つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にOCR(Optical Character Reader)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や探索が可能になる。
例えば、第1の実施形態においては、製品Aに関する打ち合わせについての内容が記載された議事録や電子メール等に「関係あり」符号が付与され、製品Aの開発計画書や設計書等に「重要」符号が付与され、製品Aとは無関係の定例会等の資料に「無関係」符号が付与される。
また、キーワードは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。第1の実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。
データベース201は、電子媒体にデータを記録する記録装置であり、文書分別装置101の内部にあってもよいし、例えばストレージ装置として外部に設置してもよい。
文書分別装置101、データベース201及びクライアント装置301は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
データベース201は、各分別符号についてのキーワードを記録しているものである。また、過去の分別処理の結果から、製品Aと関連性が高く文書中に含まれれば直ちに「重要」符号を付与すると、判断できるキーワードを事前に登録することができる。例えば製品Aの主要機能名や、「訴訟」、「警告」、「特許公報」のようなキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し、関連用語として登録しておくことも可能である。
一度データベース201に登録されたキーワード及び関連用語は、学習部110による学習結果によって増減される他、手動によっても追加登録・及び削除が可能である。
抽出部102は、文書情報から文書群を抽出する際に、ランダムにサンプリングを行うことが可能である。第1の実施形態では、全文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。抽出部102が全文書情報から抽出する文書の割合は自由に設定することも可能である。また、抽出元となる対象を全文書情報の一部としてもよい。
文書表示部103は、クライアント装置301に対して、図14に示されるような文書表示画面I1を提示する。文書表示画面I1は、図14のように中央に分別対象となる文書が表示し、左側に分別符号が表示するような画面構造で1画面内に分別対象の文書と付与する分別符号を表示することができるものである。文書を表示する箇所と分別符号を表示する箇所がそれぞれ別画面となる画面構造であってもよい。
第1の実施形態において、文書表示画面I1中の分別符号1は「無関係」符号、分別符号2は「関係あり」符号及び分別符号3は「重要」符号を意味する。また、「関係あり」符号を付与された文書のうち、小分類1は製品Aの価格と関係がある文書に対して付与され、小分類2は製品Aの開発スケジュールと関係がある文書に対して付与されるものである。小分類は1つの分別符号に複数備えてもよいし、備えない場合があってもよい。
分別符号受付部104は、文書表示部103が表示した文書情報のうち、レビュワーが目視により確認し、ひとつひとつ分別符号を決定した文書に対して、該決定に基づいて分別符号を付与し、該文書を分類することが可能である。文書の分類は付与された分別符号によって行うことが可能である。
選定部105は、分別符号受付部104が分類した文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する。
図2は選定部105の「重要」符号が付与された文書を解析した結果を示したグラフである。
図2において、縦軸R_hotは、レビュワーによって「重要」符号が付与された全文書のうち、「重要」符号に紐づくキーワードとして選定されたキーワードを含み、かつ「重要」符号が付与された文書の割合を示している。横軸は、レビュワーが分別処理を実施した全文書のうち、選定部105によって選定されたキーワードを含む文書の割合を示している。
第1の実施形態において、選定部105では、直線R_hot=R_allよりも上部にプロットされるようなキーワードをその分別符号におけるキーワードとして選定することが可能である。
探索部106は、対象となる文書中から特定のキーワードを探索する機能を備える。探索部106は、選定部105で選定されたキーワードあるいはデータベース201で抽出された関連用語を含む文書を、探索する際において、分別符号受付部104によって分別符号の付与を受け付けなかった文書から構成される文書群を対象として探索するものである。
スコア算出部107は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより以下の式からスコアを算出することが可能である。スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。
Figure 0005746403
自動分別部108は、算出されたスコアに基づいて文書情報に自動で分別符号を付与する際において、分別符号受付部104において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。
文書排除部109は、分別対象となる文情報のうち、データベース201で事前に登録されたキーワード及び関連用語、並びに選定部105において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除することが可能である。
学習部110は、分別処理の結果をもとに、各キーワードの重みづけを学習し、該学習結果をもとにデータベース201に登録されているキーワード及び関連用語の増減を行う。各キーワードがもつ重みづけは、該キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。該重みづけは以下の式より、分別処理を重ねるごとに学習し、精度を向上させることが可能である。
Figure 0005746403
また、学習部では、ニューラルネットを用いて分別結果を重みづけに反映させる学習方法をとることも可能である。
クライアント装置301は、レビュワーが操作し、文書情報を確認し付与する分別符号を決定するのに利用する装置である。
第1の実施形態では、図3に示すようなフローチャートに従い、5つの段階で分別処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Aの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する。
第3段階では、第1段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、分別を行う。
第4段階では、レビュワーによる分別符号の決定を実施した後に、レビュワーの分別した規則性を踏まえ、自動で分別符号の付与を行う。
第5段階では、第1段階乃至第4段階の結果を用いて、学習を行う。
<第1段階>
第1段階におけるデータベース201の処理フローを、図4を用いて詳細に説明する。データベース201で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。本段階ではまず、データベース201でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
<第2段階>
第2段階におけるデータベース201、探索部106及び自動分別部108の処理フローを、図4、図5及び図7を用いて、詳細に説明する。
データベース201で何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP1:第2段階)。データベース201において、更に事前に登録しておく必要のあるキーワードがある場合(STEP5:YES)、追加の登録を行う(STEP6)。追加で登録するキーワードがない場合(STEP5:NO)及びSTEP6の処理の完了後、探索部106で何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP11:第2段階)。本段階で、探索部106は、まずデータベース201内に第1段階及び第2段階で事前登録されたキーワードがあるか判定を行う(STEP12)。事前に登録されたキーワードが存在しない場合(STEP12:NO)、第2段階の処理は終了する。
事前に登録されたキーワードが存在する場合(STEP12:YES)、分別対象となる文書情報の中に該キーワードを含む文書がないか、分別対象となる全文書情報に対して探索を行う(STEP13)。探索したキーワードが含まれる文書が存在しなかった場合(STEP14:NO)、第2段階の処理を終了する。一方、探索したキーワードが含まれる文書を発見した場合(STEP14:YES)、自動分別部108に通知を行う(STEP15)。
自動分別部108では、探索部106から該通知を受けた場合(STEP29:第2段階、STEP30:YES)、該通知の対象となった文書に対して「重要」符号を付与し、処理を終了する。探索部106から該通知を受けなかった場合(STEP29:第2段階、STEP30:NO)、何も処理を行わない。
<第3段階>
第3段階におけるデータベース201、探索部106、スコア算出部107及び自動分別部108の処理フローを、図4、図5、図6及び図7を用いて、詳細に説明する。
データベース201で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP1:第3段階)。データベース201において、更に事前に登録しておく必要のある関連用語がある場合(STEP7:YES)、追加の登録を行う(STEP8)。関連用語の追加登録が必要ない場合(STEP7:NO)、第3段階の処理を終了する。
STEP8の処理完了後、探索部106で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP11:第3段階)。本段階で、探索部106は、データベース201内に第1段階及び第2段階で登録された関連用語があるか判定を行う(STEP16)。事前に登録されたキーワードが存在しない場合(STEP16:NO)、第3段階の処理は終了する。
関連用語が存在する場合(STEP16:YES)、分別対象となる文書情報の中に該関連用語を含む文書がないか、分別対象となる全文書情報に対して探索を行う(STEP17)。探索したキーワードが含まれる文書が存在しなかった場合(STEP18:NO)、第3段階の処理を終了する。一方、探索した関連用語を含む文書を発見した場合(STEP18:YES)、スコア算出部107に通知を行う(STEP19)。
スコア算出部107では、探索部106から該通知を受けた場合(STEP24:第3段階、STEP23:YES)、上述の式(1)を用いて、文書中から発見した関連用語の種類と該関連用語が持つ重みづけから各文書のスコアを算出し、自動分別部108に通知を行う(STEP28)。探索部106から関連用語を発見した通知を受けなかった場合(STEP24:第3段階、STEP23:NO)、第3段階の処理を終了する。
自動分別部108では、スコア算出部107からスコアの通知を受けた場合、(STEP29:第3段階、STEP32:YES)、スコアが閾値を超過したかの判定を文書ごと行い、スコアが閾値を超過した文書には「重要」符号を付与し、スコアが閾値を超過した文書がなかった場合は付与せずに処理を終了する(STEP33)。
<第4段階>
第3段階におけるデータベース201、探索部106、スコア算出部107、自動分別部108、抽出部102、文書表示部103、分別符号受付部104及び選定部105の処理フローを、それぞれ図4、図5、図6、図7、図8、図9、図10及び図11を用いて、詳細に説明する。
第4段階では、まず、抽出部102において、分別対象となる文書情報から、ランダムに文書をサンプリングし、レビュワーが手動で分別符号を付与する対象となる文書群を抽出する(STEP34)。文書表示部103において、抽出された文書群を、文書表示画面I1上に表示する(STEP35)。
レビュワーは文書表示画面I1に表示された文書群に対し、各文書の内容を読んだ上で、製品Aと該文書の内容との間に関連性があるかどうかを判断し、「重要」符号を付与するかどうかを決定する。レビュワーが「重要」符号を付与する文書とは、例えば、製品Aの先行技術を調査した結果の報告書や、製品Aの製造は特許侵害であると他者から警告された警告状等である。
レビュワーによって付与された分別符号は、分別符号受付部104によって受け付けられ(STEP36)、付与された分別符号に応じて文書が分類される(STEP37)。
選定部105では、STEP37で分類された各文書に対し、キーワード解析を行い(STEP38)、「重要」符号を付与された文書に共通して出現回数の多いキーワードを選定する(STEP39)。
次に、データベース201では、STEP39で選定部105が選定したキーワードが、製品Aと関係があることを示す「重要」符号に関するキーワードとして未登録であった場合(STEP1:第3段階、STEP9:YES)、該キーワードの登録を行う。該キーワードが既に登録されていた場合、何も処理を行わない(STEP1:第3段階、STEP9:NO)。
探索部106では、「重要」符号に関するキーワードがデータベース201に登録されていなかった場合(STEP20:NO)、第4段階の処理を終了する。該キーワードが登録されている場合(STEP20:YES)、抽出部102において抽出されレビュワーによって分類された文書を探索対象から省き、残りの各文書を対象として、該キーワードの探索を実行する(STEP21)。該探索において、文書中にキーワードを発見した場合(STEP22:YES)、スコア算出部107に通知を行う(STEP23)。
スコア算出部107では、キーワード発見の通知を受けた場合(STEP27:YES)、上述の式(1)を用いて各文書についてスコアを算出し、自動分別部に通知する。
自動分別部108では、スコア算出部107から通知を受けると(STEP32:YES)、文書ごとにスコアが閾値を超過したかの判定を行い、閾値を超過した文書には「重要」符号を付与し、超過しなかった文書には付与せずに処理を終了する(STEP33)。
<第5段階>
第5段階での文書排除部109及び学習部110における処理フローを、それぞれ図12及び図13を用いて説明する。
文書排除部109において、分別対象となる文書情報のうち、第1から第4段階の処理が未実施の文書群に対して、第1、第2段階において事前に登録されたキーワード、第1、第3段階において登録された関連用語及び第4段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合(STEP40:YES)、該文書を分別対象から事前に排除する(STEP41)。
学習部110では、第1から第4の処理結果をもとに、各キーワードの重みづけを式(2)により学習する。該学習結果をデータベース201に反映する(STEP 42)。
[その他の実施形態]
本発明のその他の実施形態を説明する。
第1の実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、eDiscovery(電子証拠開示)制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。
また、第1の実施形態において、レビュワーの分別した規則性を踏まえて自動で分別符号を付与する第4段階の処理を、第1段階乃至第3段階の処理の後に実施していたが、第1段階乃至第3段階の処理を行わず、第4段階の処理のみを単独で行ってもよい。
さらに、最初に抽出部102によって、文書情報から一部の文書群を抽出し、該抽出した文書群に対して、まず第4段階の処理を最初に行う。その後、第4段階で登録したキーワードを基に第1段階乃至第3段階の処理を行うという実施形態をとってもよい。
探索部106において、第1の実施形態の第4段階では、分別符号受付部104において、分別符号が受け付けなかった文書に対して選定部105が選定したキーワードの探索を実施していたが、全文書情報を対象として該キーワードの探索を行ってもよい。
自動分別部108において、第1の実施形態の第4段階では、分別符号受付部104において、分別符号が受け付けなかった文書のみを分別符号の自動付与の対象としていたが、全文書情報を該自動付与の対象としてもよい。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、レビュワーが訴訟との関連性に基づいて付与した分別符号を受け付け、該分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与することにより、レビュワーの分別作業の労力の軽減を図ることができる。
また、本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
[付記事項]
本発明の文書判別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムに係るものであって、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群を画面上に表示する文書表示部と表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを記録するデータベースと、データベースに記録されたキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて自動で分別符号を付与する自動分別部を備える。
「文書」とは、1つ以上のキーワードを含むデータをいう。例えば電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。
「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。
「分別符号」とは、文書を分類する際に用いる識別子のことをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。例えばスコア算出部は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとによりスコアを算出してもよい。一例として該重みづけは、キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。
また、本発明の文書判別システムにおける、抽出部は、文書情報から文書群を抽出する際に、ランダムにサンプリングを行ってもよい。
本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。
また、本発明の文書分別システムにおいて、データベースは、分別符号と関連性のある関連用語を抽出し、記録する機能を備え、探索部は、関連用語を文書情報から探索する機能を備え、スコア算出部は、探索部が関連用語を探索した結果をもとにスコアを算出する機能を備え、自動分別部は、更に、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与する機能を備えてもよい。
また、本発明の文書分別システムは、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する文書排除部を備えてもよい。
本発明の文書分別システムは、更に、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えてもよい。
本発明の文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別方法に係る本発明おいて、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群を画面上に表示し、表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを記録し、記記録されたキーワードを文書情報ら探索し、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて自動で分別符号を付与する機能を実現するものである。
本発明の文書分別プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別プログラムに係る本発明において、コンピュータに、文書情報から所定数の文書を含むデータセットである文書群を抽出する機能と、抽出された文書群を画面上に表示する機能と、表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する機能と、選定したキーワードを記録する機能と、記録されたキーワードを文書情報から探索する機能と、探索結果と解析結果を用いて、分別符号と文書との関連性を示すスコアを算出する機能と、スコアの結果に基づいて自動で分別符号を付与する機能とを実現させるものである。
101 文書分別装置
102 抽出部
103 文書表示部
104 分別符号受付部
105 選定部
106 探索部
107 スコア算出部
108 自動分別部
109 文書排除部
110 学習部
201 データベース
301 クライアント装置
I1 文書表示画面

Claims (7)

  1. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように、該文書情報
    を分別する文書分別システムにおいて、
    クライアント装置に対して、中央に分別対象となる文書表示し、左側に分別符号表示するような画面構造として、1画面内に分別対象の文書と付与する分別符号を表示する文書表示画面を提示する文書表示部と、
    前記文書情報に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、
    前記分別符号と関連性のあるキーワードを記録するデータベースと、
    前記分別符号を受け付けた文書情報である分別文書に含まれるキーワードの重みづけを学習する学習部と、
    前記分別符号を受け付けていない文書情報である未分別文書から、前記分別文書に含まれるキーワードを探索する探索部と、
    前記探索部によって探索されたキーワード、および前記学習部によって学習された当該キーワードの重みづけを用いて、前記未分別文書と分別符号との結びつきの強さを評価したスコアを算出するスコア算出部とを備えた文書分別システム。
  2. 前記スコア算出部によって算出されたスコアに基づいて、前記未分別文書に前記分別符号を付与する自動分別部をさらに備えたことを特徴とする請求項1に記載の文書分別システム。
  3. 文書分別システムは、更に、所定数の文書を含む文書群を、前記ユーザによる分別対象として抽出する抽出部とを備えるものであって、
    前記分別符号受付部は、前記抽出部によって抽出された文書群に含まれる文書に対して、前記訴訟との関連性に基づいて、前記ユーザにより付与された前記分別符号をそれぞれ受け付けるものであり、
    前記学習部は、前記分別符号受付部によって受け付けられた分別符号を、前記分別文書が前記訴訟と関連するか否かがユーザによって分別された結果として用いることによって、当該分別文書に含まれるキーワードの重みづけを学習するものであることを特徴とする請求項1または2に記載の文書分別システム。
  4. 前記抽出部によって抽出された文書群を、前記分別符号受付部によって受け付けられた分別符号ごとに分別し、当該分別された文書群に共通して含まれるキーワードを選定する選定部をさらに備え、
    前記学習部は、前記選定部によって選定されたキーワードの重みづけを学習することを特徴とする請求項3記載の文書分別システム。
  5. 前記データベースは、前記選定部によって選定されたキーワードを記録するものであることを特徴とする請求項4記載の文書分別システム。
  6. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように、該文書情報
    を分別する文書分別の制御方法において、
    クライアント装置に対して、中央に分別対象となる文書表示し、左側に分別符号表示するような画面構造として、1画面内に分別対象の文書と付与する分別符号を表示する文書表示画面を提示するステップと、
    前記文書情報に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付けるステップと、
    前記分別符号と関連性のあるキーワードを記録するステップと、
    前記分別符号を受け付けた文書情報である分別文書に含まれるキーワードの重みづけを学習する学習ステップと、
    前記分別符号を受け付けていない文書情報である未分別文書から、前記分別文書に含まれるキーワードを探索する探索ステップと、
    前記探索ステップにおいて探索したキーワード、および前記学習ステップにおいて学習した当該キーワードの重みづけを用いて、前記未分別文書と分別符号との結びつきの強さを評価したスコアを算出するスコア算出ステップとを含む文書分別システムの制御方法。
  7. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように、該文書情報を分別する文書分別システムの制御プログラムにおいて、
    コンピュータに、
    クライアント装置に対して、中央に分別対象となる文書表示し、左側に分別符号表示するような画面構造として、1画面内に分別対象の文書と付与する分別符号を表示する文書表示画面を提示する文書表示機能と、
    前記文書情報に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付機能と、
    前記分別符号と関連性のあるキーワードを記録するデータベース機能と、
    前記分別符号を受け付けた文書情報である分別文書に含まれるキーワードの重みづけを学習する学習機能と、
    前記分別符号を受け付けていない文書情報である未分別文書から、前記分別文書に含まれるキーワードを探索する探索機能と、
    前記探索機能によって探索されたキーワード、および前記学習機能によって学習された当該キーワードの重みづけを用いて、前記未分別文書と分別符号との結びつきの強さを評価したスコアを算出するスコア算出機能とを実現させる文書分別システムの制御プログラム。
JP2014124951A 2014-06-18 2014-06-18 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム Expired - Fee Related JP5746403B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014124951A JP5746403B2 (ja) 2014-06-18 2014-06-18 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014124951A JP5746403B2 (ja) 2014-06-18 2014-06-18 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2012044382A Division JP5567049B2 (ja) 2012-02-29 2012-02-29 文書分別システム及び文書分別方法並びに文書分別プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015095261A Division JP2015172952A (ja) 2015-05-07 2015-05-07 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Publications (2)

Publication Number Publication Date
JP2014167835A JP2014167835A (ja) 2014-09-11
JP5746403B2 true JP5746403B2 (ja) 2015-07-08

Family

ID=51617443

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014124951A Expired - Fee Related JP5746403B2 (ja) 2014-06-18 2014-06-18 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Country Status (1)

Country Link
JP (1) JP5746403B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250916A (ja) * 1999-02-25 2000-09-14 Sumitomo Metal Ind Ltd 文書分類方法及び装置並びに記録媒体
JP4711556B2 (ja) * 2001-07-26 2011-06-29 一般社団法人共同通信社 文章自動分類装置、文章自動分類プログラム、文章自動分類方法及び文章自動分類プログラムを記録したコンピュータ読取可能な記録媒体
JP4795856B2 (ja) * 2006-06-12 2011-10-19 日本電信電話株式会社 クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5346841B2 (ja) * 2010-02-22 2013-11-20 株式会社野村総合研究所 文書分類システムおよび文書分類プログラムならびに文書分類方法

Also Published As

Publication number Publication date
JP2014167835A (ja) 2014-09-11

Similar Documents

Publication Publication Date Title
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
WO2014057963A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP5823942B2 (ja) フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
WO2015118616A1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP2016012365A (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP2015084244A (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140711

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140711

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140826

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141027

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150120

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150318

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150407

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150507

R150 Certificate of patent or registration of utility model

Ref document number: 5746403

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees