JP5526209B2 - フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム - Google Patents

フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム Download PDF

Info

Publication number
JP5526209B2
JP5526209B2 JP2012224587A JP2012224587A JP5526209B2 JP 5526209 B2 JP5526209 B2 JP 5526209B2 JP 2012224587 A JP2012224587 A JP 2012224587A JP 2012224587 A JP2012224587 A JP 2012224587A JP 5526209 B2 JP5526209 B2 JP 5526209B2
Authority
JP
Japan
Prior art keywords
document
score
unit
relevance
forensic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012224587A
Other languages
English (en)
Other versions
JP2014078084A (ja
Inventor
正宏 守本
喜勝 白井
秀樹 武田
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2012224587A priority Critical patent/JP5526209B2/ja
Application filed by Ubic Inc filed Critical Ubic Inc
Priority to TW102136452A priority patent/TWI556128B/zh
Priority to US14/396,002 priority patent/US9396273B2/en
Priority to CN201380052823.2A priority patent/CN104871201A/zh
Priority to PCT/JP2013/077442 priority patent/WO2014057964A1/ja
Priority to EP13845254.5A priority patent/EP2908283A4/en
Priority to KR1020157012205A priority patent/KR101566153B1/ko
Publication of JP2014078084A publication Critical patent/JP2014078084A/ja
Application granted granted Critical
Publication of JP5526209B2 publication Critical patent/JP5526209B2/ja
Priority to HK16100583.5A priority patent/HK1212799A1/zh
Priority to US15/142,069 priority patent/US10073891B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Description

本発明は、フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものであって、特に、訴訟に関連する文書情報を収集するためのフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものである。
従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
また、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、文書提出命令の対象者情報に含まれる少なくとも1人以上の対象者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、対象者情報に含まれる対象者のうちいずれの対象者に関連するものであるかを示す対象者特定情報を設定し、該設定された対象者特定情報を記憶部に記録するように設定し、少なくとも一人以上の対象者を指定し、指定された対象者に対応する対象者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011−209930号公報 特開2011−209931号公報 特開2012−32859号公報
しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータおよびサーバを利用した対象者の膨大な文書情報を収集することになる。
このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれる利用者が目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と時間がかかるという問題があった。
そこで、本発明は、上記事情に鑑み、レビュワーのレビューの負荷を軽減することを可能とするフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムを提供することを目的とするものである。
本発明のフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出するスコア算出部と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部とを備える。
「文書」は、1つ以上の単語を含む情報をいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
「文書データ」は、文書の集合をいう。
「文書群」は、文書の集合をいい、文書データの部分集合であるものをいう。文書データは、訴訟との関連性の判断が必要な全文書を指し、文書群は、文書データのうち、利用者が関連性の判断を行う文書をいってもよい。
「関連性の判断」は、文書に対して、訴訟への提出の必要の有無を判断するものをいう。例えば、関連性の判断は、関連性の度合いに応じて分別符号を付与する行為であってもよい。
「結果情報」は、利用者が文書に対して行った、訴訟との関連性判断の結果を示すものをいう。結果情報は、利用者が文書に付与した、訴訟との関連性の度合いを表す分別符号を指してもよい。
「結果情報受付部」は、利用者が文書に対して行った判断結果に関する結果情報を受け付けるものをいう。
「要素」は、文書に含まれる単語、記号、図面等の文書の構成要素をいう。例えば、要素は、形態素のようなある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの一つ一つを指してもよい。
「要素選定部」は、要素の評価値から要素を選定するものをいう。要素選定部は、利用者による訴訟の関連性判断において、同一の判断を受けた文書ごとに共通して出現する要素を抽出するものとしてもよい。また、要素選定部は、要素が持つ、伝達情報量をもとに評価値を算出するものとしてもよい。また、要素選定部は、評価値の和に基づいて要素を選定するものとしてもよい。また、要素選定部は、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものとしてもよい。
「評価値」は、要素の特徴を表す値をいう。評価値は、要素がもつ伝達情報量を表すものとしてもよい。
「伝達情報量」は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量をいう。具体的には、伝達情報量は、その要素を含む文書に対する関連性の判断結果と、その要素との依存関係を表す尺度のこととしてもよい。
「固有の目標値」は、目標とする再現率の値を示すものをいう。固有の目標値は、百分率であらわされるものとしてもよい。
「スコア算出部」は、文書のスコアを算出するものをいう。例えば、スコア算出部は、文書に含まれる要素の評価値の和をスコアとして算出するものとしてもよい。
「再現率」は、訴訟との関連性の判断に関するものをいう。再現率は、人間の関連性の判断をシステムが自動で再現した程度を表す指標としてもよい。
「再現率算出部」は、再現率を算出するものをいう。例えば、再現率算出部は、本発明に係るシステムが、文書に付与したスコアの値を評価し、利用者の関連性判断との一致率を算出するものとしてもよい。
また、再現率算出部は、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものとしてもよい。また、再現率算出部は、スコアを算出された文書データの各文書を、スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、抽出された文書に文書群が含まれる割合を再現率として計算するものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して前記訴訟との関連性に関する判断を行う自動判断部を備えてもよい。
「自動判断部」は、文書に対して訴訟との関連性の判断を自動で行うものをいう。例えば、自動判断部は、スコア算出部が文書に付与したスコアが所定の閾値を超過した場合に、関連性ありと判断するものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部と、抽出された文書群を画面上に表示する表示部とを備えてもよい。
「抽出部」は、デジタル情報中の文書データから文書群を抽出するものをいう。抽出部は、文書データの更新日時等の属性に基づいて抽出するものとしてもよい。また、抽出部は、文書データから文書群をランダムにサンプリングし、抽出する機能を備えてもよい。
「表示部」は、抽出した文書群を表示するものをいう。表示部は、利用者が利用するクライアント端末等の表示機器であってもよい。
また、本発明に係るフォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部を備えてもよい。
「要素再選定部」は、要素選定部に選定された要素を再度選定するものをいう。
また、要素再選定部は、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものとしてもよい。
また、スコア算出部は、更に、再現率が固有の目標値を下回っていた際に、要素再選定部が選定した要素と該要素再選定部が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアと前記第2のスコアとの合成により、文書データの各文書のスコアを再度算出するものであってもよい。
「第2のスコア」は、要素再選定部が再選定した要素を用いてスコア算出部が再度算出した文書のスコアをいう。
また、本発明に係るフォレンジック方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジック方法において、コンピュータが、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付けるステップと、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定するステップと、文書データの各文書に含まれる選定された要素および選定された要素の評価値から前記文書データの各文書のスコアを算出するステップと、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出するステップとを実行する。
また、本発明に係るフォレンジックプログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックプログラムにおいて、コンピュータに、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける機能と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する機能と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出する機能と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する機能とを実現させる。
本発明のフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムは、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付けるステップと、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定するステップと、文書データの各文書に含まれる選定された要素および選定された要素の評価値から前記文書データの各文書のスコアを算出するステップと、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出するステップとを実行することによって、システムが自動で行った場合でも、システムの判断が人間の判断にどの程度合致するかを検証することで判断精度を向上させることが可能となる。
また、本発明に係る要素選定部が、評価値の和に基づいて要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズ(訴訟に関連しない文書に割り当てられてしまうスコアをいう)を低減することが可能となる。
また、本発明に係る要素選定部が、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズを低減することが可能となる。
また、本発明に係る再現率算出部が、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものである際においては、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
また、本発明に係る再現率算出部が、スコアを算出された文書データの各文書を、前記スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、前記抽出された文書に前記文書群が含まれる割合を再現率として計算するものである際には、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
また、本発明のフォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して訴訟との関連性に関する判断を行う自動判断部を備える際においては、利用者の関連性判断の傾向を踏まえて、自動で文書と訴訟との関連性の判断をすることが可能となる。
また、本発明のフォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部と、抽出された文書群を画面上に表示する表示部とを備える際においては、利用者が関連性の判断を行う文書を抽出し、利用者の端末上に表示することが可能となる。
また、本発明のフォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部を備える際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
また、本発明に係る要素再選定部が、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものである際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を、前回用いた要素とは異なる要素から再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
また、本発明に係るスコア算出部が、更に、再現率が固有の目標値を下回っていた際に、要素再選定部が選定した要素と該要素再選定部が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアとの合成により、文書データの各文書のスコアを再度算出するものである際においては、前回のスコアと第2のスコアとの合成スコアをスコアとして用いることで、再現率の向上を図ることが可能となる。
本発明の第1の実施形態におけるフォレンジックシステムのブロック図 本発明の第1の実施形態におけるレビュー画面を模式的に示した図 本発明の第1の実施形態の教師データ作成処理フローを表すフローチャート 本発明の第1の実施形態の再現率向上処理フローを表すフローチャート 本発明のその他の実施形態におけるフォレンジックシステムのブロック図 本発明のその他の実施形態における自動判別部の処理フローを表すフローチャート
[第1の実施形態]
以下、本発明の第1の実施形態を図1乃至図4を用いて説明する。
本発明の第1の実施形態に係るフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部111と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部112と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出するスコア算出部113と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部114とを備える。
また、フォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部117と、抽出された文書群を画面上に表示する表示部116とを備えてもよい。
また、フォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部115を備えてもよい。
フォレンジックシステムは、コンピュータまたはサーバを備え、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。該プログラムは、CD−ROM等の記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされるものであってもよい。
本実施形態においては、レビュワーと呼ばれる利用者が、文書データの中から、訴訟に提出が必要な文書を抽出するために、訴訟との関連性の判断を行う。文書は、1つ以上の単語を含む情報をいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、フォレンジックシステム内にOCR(Optical Character Reader)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータから後述する要素の解析や探索が可能になる。
文書データは文書の集合体のことである。文書データは、訴訟との関連性の判断が必要な全文書を指し、文書群は、文書データのうち、利用者が関連性の判断を行う文書をいう。この、システム又は利用者が訴訟に関連するか否かを判断する行為をレビューという。レビューでは、レビューの対象となる文書である文書群を、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行う。
図1は、第1の実施形態におけるフォレンジックシステムのブロック図を示している。本実施形態において、フォレンジックシステムは、サーバ装置100と、クライアント端末200とを備えている。
サーバ装置100とクライアント端末200とは通信ネットワークを介して接続されている。通信ネットワークは、有線あるいは無線の通信回線をいう。例えば、電話回線、インターネット回線等である。
クライアント端末200は、図2に示すレビュー画面I1を表示する画面表示部211を有している。レビュワーは、クライアント端末200を介して、サーバ装置100と接続し、レビュー画面I1上でレビューを行う。
サーバ装置100は、結果情報受付部111と、要素選定部112と、スコア算出部113と、再現率算出部114と、要素再選定部115と、表示部116と、抽出部117とを備えている。
本実施形態において、各構成はサーバ装置100上に搭載されているが、それぞれ別筐体に搭載されるものであってもよい。
図1に記載されている各構成について説明する。結果情報受付部111は、レビュワーが文書に対して行ったレビューの結果を受け付ける。レビュー結果は、結果情報として受け付けられる。結果情報は、各文書の訴訟との関連度合を符号によって示したものであってもよい。
要素選定部112は、各文書に対するレビュー結果である結果情報ごとに文書に共通して出現する要素を抽出し、該要素の評価値から後段の処理に用いる要素を選定する。
要素は、文書に含まれる単語、記号、図面等の文書の構成要素をいう。例えば、要素は、形態素のようなある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの一つ一つを指してもよい。
評価値は、要素の特徴を表す値をいう。評価値は、要素がもつ伝達情報量を表すものとしてもよい。
また、要素選定部112は、要素が持つ、伝達情報量をもとに評価値を算出するものとしてもよい。
伝達情報量は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量をいう。具体的には、伝達情報量は、その要素を含む文書に対する関連性の判断結果と、その要素との依存関係を表す尺度のこととしてもよい。例えば要素選定部112は、伝達情報量の大きい要素を、選定することが可能である。
また、要素選定部112は、評価値の和に基づいて要素を選定するものとしてもよい。また、要素選定部112は、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものとしてもよい。
固有の目標値は、目標とする再現率の値を示すものをいう。固有の目標値は、百分率であらわされるものとしてもよい。
スコア算出部113は、文書のスコアを算出する。例えば、スコア算出部113は、文書に含まれる要素の評価値の和をスコアとして算出することが可能である。
また、スコア算出部113は、更に、後述するように、再現率が固有の目標値を下回っていた際に、要素再選定部115が選定した要素と該要素再選定部115が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアと前記第2のスコアとの合成により、文書データの各文書のスコアを再度算出するものであってもよい。
第2のスコアは、スコア算出部113が各文書について算出した2回目以降のスコアをいう。
再現率算出部114は、スコア算出部113の処理の再現率を算出する。例えば、再現率算出部114は、サーバ装置100が、文書に付与したスコアの値を評価し、レビュワーのレビュー結果の再現性を算出するものとしてもよい。
再現率は、訴訟との関連性の判断に関するものをいう。再現率は、人間の関連性の判断をシステムが自動で再現した程度を表す指標としてもよい。
また、再現率算出部114は、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものとしてもよい。また、再現率算出部114は、スコアを算出された文書データの各文書を、スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、抽出された文書に文書群が含まれる割合を再現率として計算するものとしてもよい。
抽出部117は、デジタル情報中の文書データから文書群を抽出する。ランダムにサンプリングし抽出するものとしてもよい。また、文書の更新日時等の属性に基づいて抽出するものとしてもよい。また、抽出部117は、文書データから文書群をランダムにサンプリングし、抽出する機能を備えてもよい。
表示部116は、抽出した文書群を表示する。利用者が利用するクライアント端末200上に表示するものとしてもよい。
要素再選定部115は、要素選定部112に選定された要素を再度選定する。また、要素再選定部115は、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものとしてもよい。
次に、図3および図4を用いて、フォレンジックシステムの処理フローを説明する。
図3は教師データ作成フローに関する処理を示すチャートである。フォレンジックシステムは、教師データについてレビュワーがしたレビュー結果の特徴に基づいて、他の文書データの関連性判断の処理をおこなう。
まず、抽出部117が、集められた文書データからレビュワーに提示するための文書群をランダムにサンプリングし、抽出する(STEP111)。次に、表示部116が抽出された文書群を文書表示画面I1に表示するようにクライアント端末200の画面表示部211に指示をだす。このとき、表示部116は、日付の順に文書を並べて表示するように指示をだす。指示を受けた画面表示部211は、文書表示画面I1をクライアント端末200上に表示する(STEP112)。レビュワーは、文書表示画面I1に表示された文書をみてレビューを行う。具体的には、文書と訴訟との関連性の度合いに応じて分別符号を文書に付与する。レビュワーによって付与された分別符号は結果情報として結果情報受付部111が受け付ける(STEP113)。このように、レビュワーによってレビューされた文書群は教師データとして後段の処理に渡される。
図4は、再現率向上フローに関する処理を表すチャートである。
要素選定部112が教師データを解析し、要素を選定する処理を行う。具体的には、共通の分別符号が付与された文書に共通して出現する形態素を要素としてN個、抽出する(STEP120)。抽出した形態素は、各形態素が持つ伝達情報量をもとに評価値を算出する(STEP121)。例えば1番目に抽出した形態素の評価値をWgt、2番目をWgt、N番目をWgtとする。要素選定部112はこのWgtからWgtの評価値を用いて、後段の処理を行うための形態素を選定する。具体的には、形態素を評価値の降順に並び替え、以下の式(1)を満たし、その総和が固有の目標値(Kとする:Kは任意の定数)に到達するまで評価値の上位から順番にm個の形態素を選択する。
Figure 0005526209
本実施形態で、固有の目標値は、目標とする再現率のことを指す。
次に、スコア算出部113が選定されたm個の形態素を含む文書を、文書データから抽出し(STEP130)、含まれる形態素の評価値に基づいて、各文書のスコアを以下の式(2)により算出する(STEP131)。このとき教師データに対しても、スコア算出部113はスコアを算出する。
Figure 0005526209
次に、再現率算出部114が、スコアの降順に文書(教師データを含む)を並び替え(STEP140)、並び替えられた文書の上位A%(Aは任意の定数)を抽出する(STEP141)。再現率算出部114は、A%に含まれる文書数のうち、教師データが含まれる割合から再現率X(X:再現率算出部114がn回目に算出した再現率)を算出する(STEP142)。
次に要素再選定部115が、目標値Kを再現率Xが上回っているか判定する(STEP150)。上回っていた場合(STEP150:YES)、処理を終了する。下回っていた場合(STEP150:NO)、要素再選定部115は要素を再選定する(STEP151)。具体的には、要素選定部112が抽出したN個の形態素から、今回の処理に用いたm個の形態素を除いた形態素から、以下の式(3)を満たし、その総和が固有の目標値に到達するまで評価値の上位から順番にl個の形態素を選択する。
Figure 0005526209
スコア算出部113は、要素再選定部115が再選定した形態素を含む文書を教師データを含む文書から抽出し(STEP130:2巡目)、各文書の第2のスコアS1rを、式(1)を用いて計算する。初回に計算したスコアSと第2のスコアS1rとの残差Δ1(Δ1=S1r−S)を用いて、以下の式(4)から各文書の合成スコアS2を算出する(STEP131:2巡目)。
Figure 0005526209
合成スコアS2を用いて、再現率算出部114は再度、再現率を算出し、目標値Kを上回るまで、STEP130〜STEP151の処理を繰り返す。これにより、目標再現率まで、フォレンジックシステムのレビュー処理の精度を向上させることが可能となる。
[その他の実施形態]
以下、本発明のその他の実施形態を図5および図6を用いて説明する。
本発明のその他の実施形態に係るフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部111と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部112と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出するスコア算出部113と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部114とを備える。
また、本実施形態におけるフォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して前記訴訟との関連性に関する判断を行う自動判断部118を備えてもよい。
図5は、その他の実施形態におけるフォレンジックシステムのブロック図を示している。本実施形態において、フォレンジックシステムは、サーバ装置100と、クライアント端末200とを備えている。
クライアント端末200は、図2に示すレビュー画面I1を表示する画面表示部211を有している。レビュワーは、クライアント端末200を介して、サーバ装置100と接続し、レビュー画面I1上でレビューを行う。
サーバ装置100は、結果情報受付部111と、要素選定部112と、スコア算出部113と、再現率算出部114と、要素再選定部115と、表示部116と、抽出部117と、自動判断部118とを備えている。
本実施形態において、各構成はサーバ装置100上に搭載されているが、それぞれ別筐体に搭載されるものであってもよい。
自動判断部118は、文書に対して訴訟との関連性の判断を自動で行う。例えば、自動判断部118は、スコア算出部113が文書に付与したスコアが所定の閾値を超過した場合に、関連性ありと判断するものとしてもよい。
図6は自動判断部118の処理フローを示すチャートである。自動判別部の処理は、第1の実施形態において図4で示したSTEP150の処理が完了後、開始される。
システム管理者が、各分別符号について、閾値を入力する(STEP201)。スコア算出部113が算出したスコアがこの閾値を超過した文書は、超過したスコアに関する分別符号が付与されるものと自動判別部が判断することになる。
例えば、ある文書Aについて、スコア算出部113が算出したスコアが、閾値を超過していた場合(STEP202:YES)、ある文書Aに対して、分別符号を自動判断部118が付与する(STEP203)。一方、閾値を超過していなかった場合(STEP2020:NO)、文書Aには分別符号は付与されない。文書データの中に、スコアが超過したか否かの判定がまだされていない文書が残っている場合(STEP204:YES)、自動判断部118は、再度STEP202の処理を実行する。文書データの中に、スコアが超過したか否かの判定がまだされていない文書が残っていなかった場合(STEP204:NO)、自動判断部118は、処理を終了する。
その他の構成、機能については第1の実施形態と同様である。
フォレンジックシステムは、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部111と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部112と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から前記文書データの各文書のスコアを算出するスコア算出部113と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部114とを実行することによって、利用者が行う訴訟に利用する文書データの関連性判断作業の負担軽減とし、また、システムが自動で行った判断が人間の判断にどの程度合致するかを検証することで判断精度を向上させることが可能となる。
また、要素選定部112が、評価値の和に基づいて要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズを低減することが可能となる。
また、要素選定部112が、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズを低減することが可能となる。
また、再現率算出部114が、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものである際においては、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
また、再現率算出部114が、スコアを算出された文書データの各文書を、前記スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、前記抽出された文書に前記文書群が含まれる割合を再現率として計算するものである際には、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
また、フォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して訴訟との関連性に関する判断を行う自動判断部118を備える際においては、利用者の関連性判断の傾向を踏まえて、自動で文書と訴訟との関連性の判断をすることが可能となる。
また、フォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部117と、抽出された文書群を画面上に表示する表示部116とを備える際においては、利用者が関連性の判断を行う文書を抽出し、利用者の端末上に表示することが可能となる。
また、フォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部115を備える際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
また、要素再選定部115が、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものである際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を、前回用いた要素とは異なる要素から再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
また、スコア算出部113が、更に、再現率が固有の目標値を下回っていた際に、要素再選定部115が選定した要素と該要素再選定部115が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアとの合成により、文書データの各文書のスコアを再度算出するものである際においては、前回のスコアと第2のスコアとの合成スコアをスコアとして用いることで、再現率の向上を図ることが可能となる。
100 サーバ装置
111 結果情報受付部
112 要素選定部
113 スコア算出部
114 再現率算出部
115 要素再選定部
116 表示部
117 抽出部
118 自動判断部
200 クライアント端末
211 画面表示部
I1 レビュー画面

Claims (14)

  1. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、
    前記デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、前記訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部と、
    前記結果情報ごとに前記文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、前記要素を選定する要素選定部と、
    前記文書データの各文書に含まれる前記選定された要素および前記選定された要素の評価値から前記文書データの各文書のスコアを算出するスコア算出部と、
    前記スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部とを備えるフォレンジックシステム。
  2. 前記要素選定部は、
    前記評価値の和に基づいて前記要素を選定することを特徴とする請求項1記載のフォレンジックシステム。
  3. 前記要素選定部は、
    前記要素を評価値の降順に並び替え、前記要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定することを特徴とする請求項1または2記載のフォレンジックシステム。
  4. 前記再現率算出部は、
    前記スコアを算出された文書のうち、所定のスコア以上を有する文書に、前記文書群の文書が含まれる割合から再現率を算出することを特徴とする請求項1から3いずれか1項記載のフォレンジックシステム。
  5. 前記再現率算出部は、
    前記スコアを算出された文書データの各文書を、前記スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、前記抽出された文書に前記文書群が含まれる割合を再現率として計算することを特徴とする請求項1から4いずれか1項記載のフォレンジックシステム。
  6. 前記要素選定部は、
    前記要素が持つ、伝達情報量をもとに前記評価値を算出することを特徴とする請求項1から5いずれか1項記載のフォレンジックシステム。
  7. 前記フォレンジックシステムは、更に、
    前記スコアが所定の閾値を超過した文書に対して前記訴訟との関連性に関する判断を行う自動判断部を備えることを特徴とする請求項1から6いずれか1項記載のフォレンジックシステム。
  8. 前記フォレンジックシステムは、更に、
    前記デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部と、
    前記抽出された文書群を画面上に表示する表示部とを備えることを特徴とする請求項1から7いずれか1項記載のフォレンジックシステム。
  9. 前記フォレンジックシステムは、更に、
    前記再現率が前記固有の目標値を下回っていた際に、前記要素の評価値の和と前記固有の目標値と前記再現率との差を用いて前記要素を再選定する要素再選定部を備えることを特徴とする請求項3から8いずれか1項記載のフォレンジックシステム。
  10. 前記要素再選定部は、
    前記再現率が前記固有の目標値を下回っていた際に、前記再現率が前記固有の目標値を上回るまで、前記要素の評価値の和が前記固有の目標値と前記再現率との差に到達するまで前記要素から前記抽出された要素を除いた要素の集合から要素を抽出し、選定することを特徴とする請求項9記載のフォレンジックシステム。
  11. 前記スコア算出部は、更に、
    前記再現率が前記固有の目標値を下回っていた際に、前記要素再選定部が選定した要素と該要素再選定部が再選定した要素の評価値とを用いて前記文書データの各文書の第2のスコアを算出し、前記スコアと前記第2のスコアとの合成により、前記文書データの各文書のスコアを再度算出することを特徴とする請求項9または10記載のフォレンジックシステム。
  12. 前記抽出部は、前記文書データから文書群をランダムにサンプリングし、抽出する機能を備えることを特徴とする請求項8記載のフォレンジックシステム。
  13. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジック方法において、
    コンピュータが、
    前記デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、前記訴訟との関連性について判断した結果である結果情報を受け付けるステップと、
    前記結果情報ごとに前記文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、前記要素を選定するステップと、
    前記文書データの各文書に含まれる前記選定された要素および前記選定された要素の評価値から前記文書データの各文書のスコアを算出するステップと、
    前記スコアに基づいて、訴訟との関連性の判断に関する再現率を算出するステップとを実行するフォレンジック方法。
  14. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックプログラムにおいて、
    コンピュータに、
    前記デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、前記訴訟との関連性について判断した結果である結果情報を受け付ける機能と、
    前記結果情報ごとに前記文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、前記要素を選定する機能と、
    前記文書データの各文書に含まれる前記選定された要素および前記選定された要素の評価値から前記文書データの各文書のスコアを算出する機能と、
    前記スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する機能とを実現させるフォレンジックプログラム。
JP2012224587A 2012-10-09 2012-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム Active JP5526209B2 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2012224587A JP5526209B2 (ja) 2012-10-09 2012-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US14/396,002 US9396273B2 (en) 2012-10-09 2013-10-09 Forensic system, forensic method, and forensic program
CN201380052823.2A CN104871201A (zh) 2012-10-09 2013-10-09 鉴识系统、鉴识方法、及鉴识程序
PCT/JP2013/077442 WO2014057964A1 (ja) 2012-10-09 2013-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
TW102136452A TWI556128B (zh) 2012-10-09 2013-10-09 Forensic system, forensic method and evidence collection program
EP13845254.5A EP2908283A4 (en) 2012-10-09 2013-10-09 FORENSIC SYSTEM, FORENSIC PROCEDURE AND FORENSIC PROGRAM
KR1020157012205A KR101566153B1 (ko) 2012-10-09 2013-10-09 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램
HK16100583.5A HK1212799A1 (zh) 2012-10-09 2016-01-20 取證系統,取證方法,和取證程序
US15/142,069 US10073891B2 (en) 2012-10-09 2016-04-29 Forensic system, forensic method, and forensic program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012224587A JP5526209B2 (ja) 2012-10-09 2012-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Publications (2)

Publication Number Publication Date
JP2014078084A JP2014078084A (ja) 2014-05-01
JP5526209B2 true JP5526209B2 (ja) 2014-06-18

Family

ID=50477432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012224587A Active JP5526209B2 (ja) 2012-10-09 2012-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Country Status (8)

Country Link
US (2) US9396273B2 (ja)
EP (1) EP2908283A4 (ja)
JP (1) JP5526209B2 (ja)
KR (1) KR101566153B1 (ja)
CN (1) CN104871201A (ja)
HK (1) HK1212799A1 (ja)
TW (1) TWI556128B (ja)
WO (1) WO2014057964A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015063784A1 (en) * 2013-10-31 2015-05-07 Hewlett-Packard Development Company, L.P. Classifying document using patterns
CN107851097B (zh) * 2015-03-31 2021-10-01 株式会社Fronteo 数据分析系统、数据分析方法、数据分析程序及存储介质
CN106302608B (zh) * 2015-06-08 2020-02-04 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN108255926A (zh) * 2017-11-14 2018-07-06 宫辉 一种基于甘特图的法律事务管理方法和系统
CN111444438B (zh) * 2020-03-24 2023-09-01 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642520A (en) * 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
US5794236A (en) 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
JP4034037B2 (ja) * 1998-09-10 2008-01-16 富士通株式会社 書面審議装置および書面審議システム、並びにコンピュータを書面審議装置として動作させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6128620A (en) * 1999-02-02 2000-10-03 Lemed Inc Medical database for litigation
US7024416B1 (en) * 1999-03-31 2006-04-04 Verizon Laboratories Inc. Semi-automatic index term augmentation in document retrieval
WO2002052452A2 (en) * 2000-12-22 2002-07-04 Merchant & Gould P.C. Litigation management system and method
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US7062498B2 (en) * 2001-11-02 2006-06-13 Thomson Legal Regulatory Global Ag Systems, methods, and software for classifying text from judicial opinions and other documents
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US7912842B1 (en) * 2003-02-04 2011-03-22 Lexisnexis Risk Data Management Inc. Method and system for processing and linking data records
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
US7370034B2 (en) * 2003-10-15 2008-05-06 Xerox Corporation System and method for performing electronic information retrieval using keywords
US8612411B1 (en) * 2003-12-31 2013-12-17 Google Inc. Clustering documents using citation patterns
JPWO2006048998A1 (ja) * 2004-11-05 2008-05-22 株式会社アイ・ピー・ビー キーワード抽出装置
JP2006235716A (ja) * 2005-02-22 2006-09-07 Hitachi Ltd 文書フィルタリングシステム
US7937579B2 (en) * 2005-03-16 2011-05-03 Dt Labs, Llc System, method and apparatus for electronically protecting data and digital content
JPWO2006115260A1 (ja) 2005-04-25 2008-12-18 株式会社アイ・ピー・ビー 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法
JP2007047575A (ja) * 2005-08-11 2007-02-22 Canon Inc パターンマッチング方法およびその装置、および音声情報検索システム
US20070139231A1 (en) * 2005-10-19 2007-06-21 Advanced Digital Forensic Solutions, Inc. Systems and methods for enterprise-wide data identification, sharing and management in a commercial context
US20070198594A1 (en) * 2005-11-16 2007-08-23 Lunt Tracy T Transferring electronic file constituents contained in an electronic compound file using a forensic file copy
US7814102B2 (en) * 2005-12-07 2010-10-12 Lexisnexis, A Division Of Reed Elsevier Inc. Method and system for linking documents with multiple topics to related documents
US7689559B2 (en) * 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP5010885B2 (ja) * 2006-09-29 2012-08-29 株式会社ジャストシステム 文書検索装置、文書検索方法および文書検索プログラム
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
WO2008130018A1 (en) * 2007-04-13 2008-10-30 Massachusetts Institute Of Technology Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
KR101008877B1 (ko) 2007-12-06 2011-01-17 한국전자통신연구원 디지털 포렌식에서의 검색 및 검색 결과를 제시하는 방법, 그리고 그 장치
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
TWI476689B (zh) 2008-08-25 2015-03-11 Ind Tech Res Inst 智慧型專利監控及警示系統與方法
GB0816556D0 (en) * 2008-09-10 2008-10-15 Univ Napier Improvements in or relating to digital forensics
KR101082024B1 (ko) 2008-12-08 2011-11-10 한국전자통신연구원 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix
US20100205014A1 (en) * 2009-02-06 2010-08-12 Cary Sholer Method and system for providing response services
US20100205020A1 (en) * 2009-02-09 2010-08-12 Losey Ralph C System and method for establishing, managing, and controlling the time, cost, and quality of information retrieval and production in electronic discovery
KR101065091B1 (ko) * 2009-02-17 2011-09-16 엔에이치엔(주) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
AU2009350126A1 (en) * 2009-07-22 2012-02-23 Foundationip, Llc Method, system, and apparatus for delivering query results from an electronic document collection
JP2011076408A (ja) * 2009-09-30 2011-04-14 Brother Industries Ltd データ管理装置、データ管理方法、およびデータ管理プログラム
EP2354971A1 (en) * 2010-01-29 2011-08-10 E-Therapeutics plc Document analysis system
JP4868191B2 (ja) * 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4898934B2 (ja) * 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4995950B2 (ja) * 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
CN103229167A (zh) * 2010-10-06 2013-07-31 星汇数据解决方案公司 用于为电子发现数据编索引的系统和方法
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9037630B2 (en) * 2012-02-21 2015-05-19 Matthew Martin Shannon Systems and methods for provisioning digital forensics services remotely over public and private networks
US9146981B2 (en) * 2012-07-06 2015-09-29 International Business Machines Corporation Automated electronic discovery collections and preservations

Also Published As

Publication number Publication date
US20160246795A1 (en) 2016-08-25
JP2014078084A (ja) 2014-05-01
US9396273B2 (en) 2016-07-19
KR20150056878A (ko) 2015-05-27
EP2908283A1 (en) 2015-08-19
US20150088876A1 (en) 2015-03-26
TWI556128B (zh) 2016-11-01
CN104871201A (zh) 2015-08-26
TW201415275A (zh) 2014-04-16
WO2014057964A1 (ja) 2014-04-17
KR101566153B1 (ko) 2015-11-04
EP2908283A4 (en) 2016-04-20
HK1212799A1 (zh) 2016-06-17
US10073891B2 (en) 2018-09-11

Similar Documents

Publication Publication Date Title
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
JP5526209B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9542474B2 (en) Forensic system, forensic method, and forensic program
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
US20150339786A1 (en) Forensic system, forensic method, and forensic program
JP5592552B1 (ja) 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
WO2015118619A1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP6404294B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140307

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20140307

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20140318

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140408

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140414

R150 Certificate of patent or registration of utility model

Ref document number: 5526209

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250