JP2014078109A - フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム - Google Patents

フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム Download PDF

Info

Publication number
JP2014078109A
JP2014078109A JP2012225103A JP2012225103A JP2014078109A JP 2014078109 A JP2014078109 A JP 2014078109A JP 2012225103 A JP2012225103 A JP 2012225103A JP 2012225103 A JP2012225103 A JP 2012225103A JP 2014078109 A JP2014078109 A JP 2014078109A
Authority
JP
Japan
Prior art keywords
document
group
identification information
score
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012225103A
Other languages
English (en)
Other versions
JP5823943B2 (ja
Inventor
Masahiro Morimoto
正宏 守本
Yoshikatsu Shirai
喜勝 白井
Hideki Takeda
秀樹 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UBIC KK
Ubic Inc
Original Assignee
UBIC KK
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2012225103A priority Critical patent/JP5823943B2/ja
Application filed by UBIC KK, Ubic Inc filed Critical UBIC KK
Priority to TW102136453A priority patent/TW201415264A/zh
Priority to KR1020157011640A priority patent/KR20150056873A/ko
Priority to CN201380052902.3A priority patent/CN104885116B/zh
Priority to KR1020157031630A priority patent/KR20150129862A/ko
Priority to US14/434,442 priority patent/US20160110826A1/en
Priority to PCT/JP2013/077441 priority patent/WO2014057963A1/ja
Priority to EP13844684.4A priority patent/EP2908282A4/en
Publication of JP2014078109A publication Critical patent/JP2014078109A/ja
Application granted granted Critical
Publication of JP5823943B2 publication Critical patent/JP5823943B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】レビュワーのレビュー関連性判断の負荷を軽減することを可能とする。
【解決手段】デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を、前記利用者に対して表示する表示部と、前記文書群のうち、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部と、前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記文書群の中の文書のスコアを更新するスコア更新部と、前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御する表示制御部とを備える。
【選択図】図3

Description

本発明は、フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものであって、特に、訴訟に関連する文書情報を収集するためのフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものである。
従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
また、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、文書提出命令の対象者情報に含まれる少なくとも1人以上の対象者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、対象者情報に含まれる対象者のうちいずれの対象者に関連するものであるかを示す対象者特定情報を設定し、該設定された対象者特定情報を記憶部に記録するように設定し、少なくとも一人以上の対象者を指定し、指定された対象者に対応する対象者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011−209930号公報 特開2011−209931号公報 特開2012−32859号公報
しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムにおいては、複数のコンピュータおよびサーバを利用した対象者の膨大な文書情報を収集することになる。
このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれる利用者が目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と時間がかかるという問題があった。
そこで、本発明は、上記事情に鑑み、レビュワーのレビューの負荷を軽減することを可能とするフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムを提供することを目的とするものである。
本発明のフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステムにおいて、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部と、該更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順を制御する表示制御部とを備える。
「文書」とは、1つ以上の単語を含むデータをいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて算出された値を、加点または減点することによって算出され、更新されるものであってもよい。
「文書群」は、複数の文書から構成されるものである。
「表示部」は、利用者に文書を提示するものをいう。表示部に表示された文書は、利用者の訴訟に関連するか否かの判断対象となる。この訴訟に関連するか否かを判断する行為を、「レビュー」という。レビューは、レビューの対象となる文書(ここでは対象文書という)の、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行い、種類ごとに識別情報を付与する。
「表示制御部」は、表示部に対して通信によって指示を送り、表示する文書の順番を制御する。例えば、文書が持つスコアの昇順に表示部に表示させるよう、制御するものとしてもよい。
「識別情報受付部」は、利用者がレビューによって対象文書に付与した識別情報を受け付けるものをいう。
「識別情報」は、分類対象となる文書に付与されるものであって、訴訟への利用が容易になるように、訴訟との関連性を示すものをいう。識別情報は各文書に付帯情報として記録してもよいし、識別情報と文書との対応関係をデータベース上に記録するものとしてもよい。識別情報は、例えば、訴訟に関連することを表す「Responsive」や、とりわけ訴訟において重要視される文書を表す「HOT」、今回の訴訟とは無関係の文書であることを表す「Non−Responsive」等のキーワードを指してもよい。
「スコア更新部」は、識別情報受付部が識別情報を受付けた対象文書の特徴量と、文書群中に含まれる文書の特徴量を比較し、該受け付けた識別情報に対応するスコアを更新するものをいう。また、スコア更新部は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いて、特徴量を算出するものとしてもよい。スコア更新部は、例えば、特徴量の一致度に応じてスコアを加点・減点するものとしてもよい。比較対象となる文書には対象文書自身を含んでもよいし、対象文書は除外してもよい。例えば、対象文書自身を比較対象に含んだ場合、特徴量は完全一致するので、相応な点がスコアに加点され更新される。
「スコア」は、文書と識別情報との結びつきの程度を定量的に評価したものをいう。各文書は、データベース上に、所定の識別情報ごとに対応するスコアを記録されているものとしてもよい。例えば、レビューにおいて、各文書が、識別情報「HOT」、「Responsive」または「Non−Responsive」の3つの識別情報により分類されるものとした場合を例に説明する。この場合、各文書は、データベース上に「Hot」スコア、「Responsive」スコアおよび「Non−Responsive」スコアの3つのスコアを記録する領域が確保されるものとしてもよい。そして、上記3種類のスコアのうち、所定の閾値を超過した場合、その超過した識別情報が付与されるものとしてもよい。
各文書は、一定の要件に基づいて、初期スコアを与えられるものとしてもよい。例えば、文書中に出現する単語と、各単語の持つ評価値とにより初期スコアを算出してもよい。また、全文書に共通して、一定値を初期スコアとして付与してもよい。初期スコアから加点・減点処理が行われ、スコアが更新される。
「特徴量」は、各文書間の類似度を測定するのに用いるものをいう。特徴量は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いてスコア更新部によって算出されるものとしてもよい。さらに、スコア更新部は、特徴量を算出する際に、単語の伝達情報量を参酌してもよい。
また、本発明に係るフォレンジックシステムは、更に、スコアが特定の値に達した文書を、表示部により表示される文書の候補から除外することを判定する除外判定部と、該判定された文書の数が所定の値を超えるまで、表示部と、識別情報受付部と、スコア更新部と、表示制御部と、除外判定部との処理を繰り返し実行できるように制御する制御部とを備えてもよい。
「除外判定部」は、スコアの更新の際に、更新後のスコアが特定の値に達した文書を、表示部により表示される文書の候補対象から除外判定するものをいう。除外判定部は、除外判定の前段として識別情報ごと終了判定を行うものとしてもよい。例えば、レビューにおいて、除外判定部は、3種類の識別情報を付与するものである場合、3種類すべての識別情報について終了判定した文書を、対象文書の候補から除外するものとしてもよい。また、除外判定部は、1つの識別情報についてのスコアのみが特定の値を超過し、当該識別子について終了判定された場合、該超過した識別情報について終了判定された旨の表示を、当該文書に付与してもよい。更に、除外判定および終了判定は特定の値を閾値として2つ有すものとしてもよい。例えば、スコアが加点によって該2つの閾値の一方を超過した場合、またはスコアが減点によって他方の閾値を下回る場合に除外判定および終了判定することも可能である。
「制御部」は、表示部と、識別情報受付部と、スコア更新部と、除外判定部との処理を繰り返し実行できるよう制御するものをいう。該制御は、1処理ごとに循環的に繰り返させるものとしてもよい。また、制御部は、バッチ的に一定量処理した後に後段の処理を実行させる、という単位で繰り返していくものとしてもよい。制御部は、文書群や対象グループに含まれる全文書が除外判定された場合に、制御処理を完了する。
また、本発明に係るフォレンジックシステムは、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部を備えるものであってもよい。
「自動付与部」は、各文書に適切な識別情報をスコアに応じて自動で判断し、付与するものをいう。自動付与部は、識別情報の種類ごとに閾値を設け、該閾値を超過した文書に対応する識別情報を付与するものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、文書群に含まれる文書について、識別情報に対応するスコアを記録し、スコア更新部がスコアを更新する度に、識別情報ごとのスコアを更新するデータベースを備えるものとしてもよい。データベースには、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部を備え、表示部は、分類部が選択した対象グループから、利用者に表示する文書群を抽出するものとしてもよい。
「所定の要件」は、分類の条件となるものをいう。所定の要件は、利用者が任意に決定できるものとしてもよい。例えば所定の要件は、文書が作成された年や、文書の拡張子、文書の作成者やセキュリティレベル等が挙げられる。
「グループ」は、文書群を分類したものをいう。グループは、複数の文書を含むものとしてもよい。グループに分類された場合、制御部は、対象グループの中に含まれる全文書が除外判定されたときに、処理を完了するものとしてもよい。
「対象グループ」は、上述したグループのうち、利用者がレビューを実施する対象となるグループをいう。対象グループの中から、表示部が表示する文書群が抽出される。対象グループごとに、表示制御部によって文書の表示順の制御が行われるものとしてもよい。また、対象グループ内の全文書に制御部の処理が完了すると、次のグループが対象文書として選定されるものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、対象グループに含まれる各文書の特徴量と、利用者による訴訟に関連するか否かの判断が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部を備え、表示制御部は、表示部にグループ比較部の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものとしてもよい。
「グループ比較部」は、グループ間で文書の特徴の比較処理を行うものをいう。例えば、グループ比較部は、利用者による訴訟に関連するか否かの判断が完了したグループに含まれる文書の特徴量を比較対象として用いることで、次の対象グループに含まれる各文書の識別情報の偏りを示唆することができる。具体的にいうと、グループ比較部は、利用者による訴訟に関連するか否かの判断が完了したグループ(グループAという)の中で、1つの識別情報(識別情報Aとする)に対応するスコアが高い文書に共通する特徴量を抽出する。グループ比較部は、更に、該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ(グループBとする)の中から検索し、特徴量の類似度に応じて表示制御部が文書の並び順を制御する。該並び順を制御され、上位にきた文書は、識別情報「HOT」が付与される可能性が高い文書であると考えられる。そのため、グループBについて、利用者がレビューをする場合に、識別情報「HOT」がつきやすい旨を示唆でき、レビューの速度の向上を図ることができる。
また、本発明に係るフォレンジック方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジック方法において、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示するステップと、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するステップと、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御するステップを実行する。
また、本発明に係るフォレンジックプログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックプログラムにおいて、コンピュータが、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示する機能と、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける機能と、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新する機能と、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御する機能を実行させる。
本発明のフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムは、表示された対象文書に対し、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示するステップと、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するステップと、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御するステップとを有することによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。
また、本発明のフォレンジックシステムは、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部を備える際においては、利用者の判断結果を踏まえて自動で文書に対して識別情報を付与することが可能である。
また、本発明のフォレンジックシステムの文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものである際においては、利用者が判断を誤って、不適切な識別情報を付与した場合でも、他の文書に対する判断を踏まえて、スコアを適切な値に収斂させることが可能である。
また、本発明に係るフォレンジックシステムは、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部を備え、表示部は、分類部が選択した対象グループから、利用者に表示する文書群を抽出するものである際においては、類似度の高い文書間で特徴量を比較することが可能になる。
また、本発明に係るフォレンジックシステムは、更に、対象グループに含まれる各文書の特徴量と、制御部による制御処理が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部を備え、表示制御部は、表示部にグループ比較部の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものである際においては、利用者に対象文書が付与される可能性が高い識別情報を事前に示唆することが可能になる。
本発明の第1の実施形態の処理を概念的に示した図 本発明の第1の実施形態における処理を示したフローチャート 本発明の第1の実施形態に係るフォレンジックシステムのブロック図 本発明の第1の実施形態における表示部、表示制御部、識別情報受付部、スコア更新部および自動付与部の処理を示したフローチャート 本発明の実施形態における分類部の処理を示したフローチャート 本発明の実施形態における分類部の処理を示した模式図 本発明の実施形態におけるグループ比較部の処理を示したフローチャート 本発明の実施形態におけるグループ比較部の処理を示した模式図 本発明の第2の実施形態に係るフォレンジックシステムのブロック図 本発明の実施形態における除外判定部の処理を示したフローチャート 本発明の第2の実施形態における表示部、表示制御部、識別情報受付部、スコア更新部および自動付与部の処理を示したフローチャート
[第1の実施形態]
以下、本発明の第1の実施形態を図1乃至図8を用いて説明する。
本発明の第1の実施形態に係るフォレンジックシステム100は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステム100において、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部210と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部410と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部510と、該更新されたスコアに基づいて、表示部210に表示される文書群の文書の表示順を制御する表示制御部310とを備える。
また、第1の実施形態において、フォレンジックシステム100は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部810を備えるものであってもよい。
また、本実施形態において、フォレンジックシステム100は、更に、文書群に含まれる文書について、識別情報に対応するスコアを記録し、スコア更新部510がスコアを更新する度に、識別情報ごとのスコアを更新するデータベース101を備えるものとしてもよい。データベース101には、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。
また、フォレンジックシステム100は、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部910を備え、表示部210は、分類部910が選択した対象グループから、利用者に表示する文書を抽出するものとしてもよい。更に、対象グループに含まれる各文書の特徴量と、利用者によるレビューが完了したグループに含まれる各文書の特徴量との比較をするグループ比較部920を備え、表示制御部310は、グループ比較部920の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものとしてもよい。
本実施形態においては、訴訟に提出が必要な文書に「HOT」という識別情報を用いて訴訟との関連性の判断を行う場合を例にとって説明する。この、システム又は利用者が訴訟に関連するか否かを判断する行為をレビューという。レビューでは、レビューの対象となる文書(ここでは対象文書という)を、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行い、種類ごとに識別情報を付与する。
図1に示す図は、フォレンジックシステム100を利用したレビューの様子を概念的に表している。フォレンジックシステム100を利用した場合、利用者は、レビュー(Human Review)を、フォレンジックシステム100が示唆したレビューの予測結果(Automatic Predictive Coding)を参考にしながら、実施可能となる。具体的には、利用者がある文書に対してレビューを行うと、フォレンジックシステム100は、利用者の行ったHuman Reviewのレビュー結果を、Human Reviewが実施される都度にレビュー対象の文書に反映させていく。
このため、利用者は次の文書に対してレビューを行う際に、Automatic Predictive Codingによって示唆された予測レビュー結果を見ながら、その予測レビュー結果が適切か否か、という判断基準でレビューを行うことが可能となる。そのため、利用者は、Automatic Predictive Codingによって示唆された予測レビュー結果に満足がいった時点で、レビューを終了することが可能となる。これによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。
ここで、図2を用いて第1の実施形態全体の処理フローの概略を説明する。図2は第1の実施形態全体の処理フローを概念定的に示した図である。
フォレンジックシステム100では、処理の開始時に、ます、文書のまとまりである文書群を複数のグループへの分類処理(Clustering)を行う(STEP1)。そして、分類したグループから、フォレンジックシステム100の今回の処理対象となる対象グループを選定する。対象グループは、グループのうち、利用者がレビューを実施する対象となるグループをいう。
文書は、1つ以上の単語を含むデータをいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものとしてもよい。また、文書群は、複数の文書から構成されるものである。グループは、文書群を分類したものをいう。
分類処理を行う際に、分類の条件として所定の要件を利用者が入力することができる。所定の要件はフォレンジックシステム100によって自動で入力されるものとしてもよい。具体的には、所定の要件は、文書が作成された年や、文書の拡張子、文書の作成者やセキュリティレベル等が挙げられる。
次に、グループ間の比較処理(Automatic Suggest Documents)が行われる(STEP2)。これは、訴訟との関連性の判断が完了したグループに含まれる文書と、今回の対象となっているグループとを比較することで、次の対象グループに含まれる、ある文書の特定の識別情報への偏りを示唆するものをいう。具体的にいうと、関連性の判断が完了したグループ(グループAとする)の中で、1つの識別情報(ここでは「HOT」)に対応するスコアが高い文書に共通する特徴量を抽出する。該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ(グループBとする)の中から検索し、特徴量の類似度に応じて文書の並び順を制御する。つまり、上位にきた文書は、識別情報「HOT」が付与される可能性が高い文書であると考えられる。そのため、グループBについて、利用者がレビューをする場合に、識別情報「HOT」がつきやすい旨を示唆でき、レビューの精度および速度の向上を図ることができる。
スコアは、文書と所定の識別情報との結びつきの程度を定量的に評価したものをいう。例えばレビューで、訴訟との関連性があることを表す「Responsive」および、訴訟との関連が非常に強く重要な文書であることを表す「HOT」を用いている場合を例に説明する。この場合、各文書は、データベース上に「Hot」スコアおよび「Responsive」スコアを記録する領域が確保されるものとしてもよい。そして、上記2種類のスコアのうち、所定の閾値を超過した場合、その超過した識別情報が付与されるものとしてもよい。
特徴量は、各文書間の類似度を測定するのに用いるものをいう。特徴量は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いて算出される。
その後、利用者がレビュー(Human Review)を実施する(STEP3)。レビューが実施される都度に、フォレンジックシステム100は、該レビュー結果を用いて各文書のスコアを算出(Automatic Real−Time Create Trainning Data)する(STEP4)。更に、算出されたスコアの順に対象グループ内の文書の並び替えを行うことで、利用者が次の文書のレビューを行う際に、その文書のレビュー結果を示唆する(Suggest Next Documents by Real−Time Automatic Predictive Coding)ことが可能になる(STEP5)。フォレンジックシステム100は、利用者が並び替えられた文書からレビューの終了を判断するまで、対象グループに対して、STEP3からSTEP5の処理を繰り返す。これは、並び替えられた文書は降順に特定の識別情報が高いことを意味しているため、ある文書が利用者からみて、確実に訴訟との関連性はないと判断できた場合、それより下位に位置する文書はすべて訴訟との関連性はないと判断されるためである。そのため、利用者は全文書をレビューする必要なく、関連性の判断を終了することができる。
図3は、第1の実施形態に係るフォレンジックシステム100のブロック図である。
第1の実施形態において、フォレンジックシステム100は、図3に示すように、表示部210と、表示制御部310と、識別情報受付部410と、スコア更新部510と、自動付与部810と、分類部910と、グループ比較部920と、データベース101とを備える。
フォレンジックシステム100は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。該プログラムは、CD−ROM等の記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされるものであってもよい。また、表示部210は、ディスプレイ、モニタ、タブレットPC等表示機能を有するものであり、利用者が操作し、対象文書を確認し、識別情報を付与するのに利用する装置である。第1の実施形態において、フォレンジックシステム100は、表示部210をシステム内に備えていないが、システム内に含むものとして構成してもよい。
また、フォレンジックシステム100の各機能部および表示部210は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
表示部210は、表示制御部310によって整列された通りに文書群の少なくとも一以上の文書を利用者に対して表示する。
表示制御部310は、表示部210が表示する文書の順番を制御する。第1の実施形態においては、表示制御部310は文書が持つスコアの降順に表示するよう表示部210に表示制御の指示を送る。この結果、利用者は、表示制御部310によってスコア順に並び替えられた文書をみて、レビューの続行が必要か判断することができる。つまり、レビューをしている最中の対象文書が、明らかに訴訟との関連性がない場合、当該対象文書より下位に並べられている文書は、よりスコアが低いのであるから、レビューをするまでもなく、訴訟との関連性がないと判断できる。
識別情報受付部410は、利用者がレビューによって対象文書に付与した識別情報を受け付けるものをいう。
識別情報は、分類対象となる文書に付与されるものであって、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。識別情報は各文書に付帯情報として記録してもよいし、識別情報と文書との対応関係をデータベース101上に記録するものとしてもよい。識別情報には、訴訟と対象文書とが関連性があることを示す「Responsive」や、訴訟との関連性が非常に高く、重要な文書であることを示す「HOT」、訴訟との関連性がないことを示す「Non−Responsive」等が挙げられる。第1の実施形態では、識別情報として「HOT」タグを付与し、該タグは、文書と対応付けてデータベース101上で管理される。
スコア更新部510は、識別情報受付部410が識別情報を受付けた対象文書の特徴量と、文書群中に含まれる文書の特徴量を比較し、該受け付けた識別情報に対応するスコアを更新していくものをいう。スコア更新部510は、例えば、特徴量の一致度に応じてスコアを加点・減点するものとしてもよい。第1の実施形態においては、比較対象となる文書には対象文書自身を含んでいないが、対象文書も更新対象とする形態であってもよい。例えば、対象文書自身を比較対象に含んだ場合、特徴量は完全一致するので、相応な点がスコアに加点され更新される。
文書は、一定の要件に基づいて、初期スコアを与えられる。例えば、文書中に出現する単語と、各単語の持つ評価値とにより初期スコアを算出してもよい。第1の実施形態では、初期スコアは所定の要件に基づいて算出され、全文書に対して一定値が与えられる。初期スコアから加点・減点処理が行われ、スコアが更新される。
自動付与部810は、各文書に適切な識別情報をスコアに応じて自動で判断し、付与するものをいう。識別情報の種類ごとに閾値を設け、該閾値を超過した文書に対応する識別情報を付与するものとしてもよい。第1の実施形態においては、「HOT」スコアの閾値としてαを有している。つまり、自動付与部810は、スコア更新部510が各文書の「HOT」スコアに対して更新処理を行った結果、αを超過した文書には識別情報として「HOT」タグを付与する。
グループ比較部920は、グループ間で文書の特徴の比較処理を行うものをいう。利用者によるレビューが完了したグループに含まれる文書の特徴量を比較対象として用いることで、次の対象グループに含まれる文書の特定の識別情報への偏りを示唆することができる。具体的にいうと、利用者によるレビューが完了したグループ(グループAとする)の中で、1つの識別情報(ここでは「HOT」)に対応するスコアが高い文書に共通する特徴量を抽出する。該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ(グループBとする)の中から検索し、特徴量の類似度に応じて表示制御部310が文書の並び順を制御する。該並び順を制御され、上位にきた文書は、識別情報「HOT」が付与される可能性が高い文書であると考えられる。そのため、グループBについて、利用者がレビューをする場合に、識別情報「HOT」がつきやすい旨を示唆でき、レビューの精度および速度の向上を図ることができる。
図4を用いて表示部210、表示制御部310、識別情報受付部410、スコア更新部510、自動付与部810の処理フローを説明する。図4は本実施形態における、表示部210、表示制御部310、識別情報受付部410、スコア更新部510、自動付与部810の処理を表すフローチャートである。
表示部210が、文書群の中から、レビュー対象の文書である文書1を表示する(STEP11)。利用者が、文書1に対してレビューを行い、「HOT」タグを付与し、該「HOT」タグを、識別情報受付部410が受け付ける(STEP12)。
スコア更新部510は、「HOT」タグについて、各文書のスコアを更新するために、文書1とその他の文書との特徴量を比較する(STEP13)。なお、第1の実施形態においては、スコア更新部510は、利用者がレビューを行った文書に対しては、スコアの更新処理を行わない。
スコア更新部510は、比較結果に基づいて、その他の文書の「HOT」タグのスコアに対し、加点・減点処理を行う(STEP14)。
スコアの更新後、自動付与部810は、更新されたスコアの値がαを超過しているか否かの検定を行う(STEP15)。スコアがαを超過した文書があった場合には(STEP15:YES)、当該文書に対して、自動付与部810が「HOT」タグを付与する(STEP16)。スコアがαを超過していない文書に対しては(STEP15:NO)、タグの付与は行わない。
自動付与処理後、表示制御部310が、更新後のスコアの降順に文書の並び替え制御を行う(STEP17)。利用者が終了と判断した場合(STEP18:YES)、そこで処理を終了する。利用者が終了と判断しなかった場合(STEP18:NO)、表示部210が、表示制御部310が並び替えた文書の上位の順に表示する(STEP19)。この場合、利用者は再度最上位にきた文書に対してタグ付けを行う(STEP12:2巡目)。以下、利用者が終了を判定するまで、STEP12乃至STEP19の処理が循環する。
図5は分類部910の処理フローを示す図である。分類部910では、利用者が入力した要件を受け付ける(STEP111)。その後、入力された所定の要件に基づいて分類処理を実行する(STEP112)。図6は分類処理の実行結果を模式的に示した図である。
図6の上段は文書群の中の文書を示している。利用者が例えば分類の要件として「年代」を入力した場合、文書群の中の文書は、図6の後段に示すように、年代別にグループ分けがなされる。
図7は、グループ比較部920の処理フローを示す図である。
グループ比較部920では、レビュー処理が完了したグループ(グループAとする)と、次のレビュー対象となるグループ(グループBとする)間での比較を行う(STEP121)。具体的には、グループAに含まれる文書(文書1とする)の特徴量と、グループBに含まれる文書(文書2とする)の特徴量とを比較する。例えば文書2の特徴量が文書1の特徴量と類似する場合には、文書1の各識別情報のスコアおよび類似度に基づいて、文書2の各識別情報に仮スコアを与える(STEP122)。
仮スコアとは、グループ比較部920が比較処理を行うために、各文書に一時的に付与するスコアである。そのため、自動付与部810の識別情報付与処理には用いられない。第1の実施形態においては、グループ比較部920は、仮スコアを用いて処理を行うが、通常のスコアを直接更新して処理を行ってもよい。
グループ処理部は、各識別情報の付与した仮スコアの降順に文書を並べる(STEP123)。
図8は、グループ比較部920および表示制御部310の処理の様子を模式的に示した図である。レビュー実施済みのグループAの処理結果をグループBに反映させ(図8上段)、表示制御部310がグループBに含まれる文書を各識別情報について、仮スコアの降順に並べる(図8下段)。これにより、利用者は「HOT」タグが付きやすい文書から順にレビューを行うことができる。
[第2の実施形態]
以下、本発明の実施の形態を図9乃至図11を用いて説明する。
本発明の第2の実施形態に係るフォレンジックシステム100は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステム100において、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部210と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部410と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部510と、該更新されたスコアに基づいて、表示部210に表示される文書群の文書の表示順を制御する表示制御部310とを備える。
また、第2の実施形態において、フォレンジックシステム100は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部810を備えるものであってもよい。
また、本実施形態において、フォレンジックシステム100は、更に、文書について、識別情報に対応するスコアを記録し、スコア更新部510がスコアを更新する度に、識別情報ごとのスコアを更新するデータベース101を備えるものとしてもよい。データベース101には、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。
また、本実施形態において、フォレンジックシステム100は、更に、スコアが特定の値に達した文書を、表示部210により表示される文書の候補から除外することを判定する除外判定部610と、該判定された文書の数が所定の値を超えるまで、表示部210と、識別情報受付部410と、スコア更新部510と、表示制御部310と、除外判定部610との処理を繰り返し実行できるように制御する制御部710とを備えてもよい。
図9は、第2の実施形態に係るフォレンジックシステム100のブロック図である。
第2の実施形態において、フォレンジックシステム100は、図9に示すように、表示部210と、表示制御部310と、識別情報受付部410と、スコア更新部510と、除外判定部610と、自動付与部810と、制御部710と、分類部910と、グループ比較部920と、データベース101とを備える。
本実施形態におけるレビュー処理では、識別情報として「HOT」タグを用いて、訴訟との関連性を判断する処理を行う。
除外判定部610は、スコアの更新の際に、更新後のスコアが特定の値に達した文書を、表示部210により表示される対象文書の候補から除外判定するものをいう。除外判定部610は、除外判定の前段として、識別情報ごとに終了判定を行い、全ての識別情報について終了判定された文書について、除外判定を行う。本実施形態では、特定の値として閾値をβ1とβ2の2つを有する(β1>β2)。除外判定部610は、スコアが加点によってβ1を超過した場合、又は減点によってβ2と下回った場合にその識別情報について終了判定を行う。第1の実施形態においては、3種類の識別情報を付与するものである。この場合、除外判定部610は、3種類すべての識別情報について除外判定した文書を、対象文書の候補から除外する。
また、1つの識別情報についてのスコアがβ1またはβ2に達し、終了判定された場合には、該超過した識別情報について除外された旨の表示を、当該文書に付与してもよい。
図10を用いて、除外判定部610の処理について説明する。図10は、利用者がレビューにおいて、文書1に識別情報として「HOT」タグを付与した場合の除外判定部610の処理フローである。利用者はレビューにおいて、識別情報として「HOT」タグを付与する処理を行ったため、除外判定部610でも「HOT」タグについて、各文書の除外判定を行う。
除外判定部610では、各文書の「HOT」スコアの値を検定する(STEP621)。ここでαは、自動付与部810が識別情報の付与処理を行う判断基準となる閾値である。スコアが、β2より大きくα未満である文書に対して、除外判定部610では、何の処理も行わない(STEP622)。一方で、スコアが、β1以上またはβ2以下である文書には、「HOT」タグについて終了判定を行う(STEP623)。この場合、他の識別情報のスコアについても判定し(STEP624)、全てβ1以上またはβ2以下である場合には(STEP624:YES)、当該文書をレビュー対象から除外する(STEP625)。1つでもβ1未満かつβ2より大きいスコアの識別情報がある文書に対しては(STEP624:NO)、除外判定は行わず、終了する。
制御部710は、表示部210と、識別情報受付部410と、スコア更新部510と、表示制御部310と、除外判定部610との処理を繰り返し実行できるよう制御するものをいう。該制御は、1処理ごとに循環的に繰り返させるものとしてもよい。また、バッチ的に一定量処理した後に後段の処理を実行させる、という単位で繰り返していくものとしてもよい。第2の実施形態では、表示制御部310は、後述するグループに含まれる文書すべてが除外判定された場合に、制御処理を完了する。
図11は、本実施形態における処理全体の概要を示すフローチャートである。ここでは、利用者が文書1に対してレビューをし、「HOT」タグを付与した場合を例に説明する。
まず、文書1を表示部210が画面に表示する(STEP130)。表示部210によって表示された文書1に対して利用者が、識別情報として「HOT」タグを付与し(STEP131)、該「HOT」タグを識別情報受付部410が、利用者が文書1に付与した識別情報として受け付ける。
スコア更新部510は、「HOT」タグについて、各文書のスコアを更新するために、文書1とその他の文書(ここでは文書2とする)との特徴量を比較する(STEP132)。なお、第2の実施形態においては、スコア更新部510は、利用者がレビューを行った文書に対しては、スコアの更新処理を行わない。そのため、文書1は利用者がレビューを終了した時点で、終了判定がされる。
スコア更新部510は、比較結果に基づいて、文書2の「HOT」タグのスコアに対し、加点・減点処理を行う(STEP133)。
スコアの更新後、除外判定部610が、文書2の「HOT」スコアの値を検定する(STEP134)。除外判定部610は、文書2の「HOT」スコアが、β1より大きくα未満である場合には、処理を行わない(STEP135)。一方、α以上β1未満の場合には、文書2に「HOT」タグを付与する(STEP136)。
文書2のスコアがβ1以上の場合には、除外判定部610が「HOT」については終了判定を行う(STEP137)。このとき、文書2に「HOT」タグが付与されていなければ自動付与部810の識別子の付与処理が実行される。
また、文書2のスコアがβ2以下である場合には、除外判定部610は、「HOT」について終了判定を行う(STEP138)。STEP137およびSTEP138の処理が実施された場合、除外判定部610は、文書2の他の識別情報のスコアがβ1またはβ2に達しているか検定する(STEP139)。検定の結果、β1またはβ2に達している場合には(STEP139:YES)、文書2を表示部210の表示候補から除外する(STEP140)。STEP141の処理完了後、制御部710は、全ての文書が除外判定されているか検定し(STEP141)、されている場合には(STEP141:YES)、処理を終了する。
STEP135又はSTEP136の処理完了後、或いはSTEP139でスコアがβ1未満かつβ2より大きいと判断された場合(STEP139:NO)、制御部710によって次の処理に移行する。この際、除外判定がされていない文書は、表示制御部310によって、更新されたスコアの値の昇順に並び替えが行われる(STEP143)。
表示制御部310によって並び替えられたのち、並び順つまり、スコアの高い順に表示部210によって表示される(STEP144)。
その他の構成、機能については、第1の実施形態と同様とする。
フォレンジックシステム100は、表示された対象文書に対し、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示する表示部210と、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部410と、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するスコア更新部510と、更新されたスコアに基づいて、表示部210に表示させる文書群の文書の表示順番を制御する表示制御部710とを備えることによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。
また、フォレンジックシステム100は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部810を備える際においては、利用者の判断結果を踏まえて自動で文書に対して識別情報を付与することが可能である。
また、フォレンジックシステム100の文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものである際においては、利用者が判断を誤って、不適切な識別情報を付与した場合でも、他の文書に対する判断を踏まえて、スコアを適切な値に収斂させることが可能である。
また、フォレンジックシステム100は、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部910を備え、表示部210は、分類部910が選択した対象グループから、利用者に表示する文書群を抽出するものである際においては、類似度の高い文書間で特徴量を比較することが可能になる。
また、フォレンジックシステム100は、更に、対象グループに含まれる各文書の特徴量と、制御部710による制御処理が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部920を備え、表示制御部310部は、表示部210にグループ比較部920の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものである際においては、利用者に対象文書が付与される可能性が高い識別情報を事前に示唆することが可能になる。
100 フォレンジックシステム
101 データベース
210 表示部
310 表示制御部
410 識別情報受付部
510 スコア更新部
610 除外判定部
710 制御部
810 自動付与部
910 分類部
920 グループ比較部

Claims (10)

  1. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステムにおいて、
    前記デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を、利用者に対して表示する表示部と、
    前記文書群のうち、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部と、
    前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記文書群の中の文書のスコアを更新するスコア更新部と、
    前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御する表示制御部とを備えるフォレンジックシステム。
  2. 前記フォレンジックシステムは、更に、
    前記文書群の中の文書に対し、前記更新されたスコアに基づいて、前記識別情報を付与する自動付与部を備えるものであることを特徴とする請求項1記載のフォレンジックシステム。
  3. 前記フォレンジックシステムは、更に、
    前記スコアが特定の値に達した文書を、前記表示部により表示される文書の候補から除外することを判定する除外判定部と、前記判定された文書の数が所定の値を超えるまで、前記表示部と、前記識別情報受付部と、前記スコア更新部と、前記表示制御部と、前記除外判定部との処理を繰り返し実行できるように制御する制御部とを備えることを特徴とする請求項1または2記載のフォレンジックシステム。
  4. 前記スコア更新部は、
    前記文書の中に頻出する各単語の種類、前記各単語がもつ評価値および前記各単語の出現数からなる傾向情報を用いて、前記特徴量を算出するものであることを特徴とする請求項1から3いずれか1項記載のフォレンジックシステム。
  5. 前記文書は、前記識別情報に対応するスコアを有するものであって、
    前記スコアは、
    前記文書群中の各文書に対してあらかじめ付与される初期スコアから、前記識別情報が関連付けられた対象文書の特徴量と、前記文書群の中の文書の特徴量との比較結果に基づいて算出される値を、加点または減点されることによって算出されるものであることを特徴とする請求項1から4いずれか1項記載のフォレンジックシステム。
  6. 前記フォレンジックシステムは、
    前記文書群に含まれる文書について、前記識別情報に対応するスコアを記録し、前記スコア更新部がスコアを更新する度に、前記識別情報ごとのスコアを更新するデータベースを備えることを特徴とする請求項1から5いずれか1項記載のフォレンジックシステム。
  7. 前記フォレンジックシステムは、更に、
    前記文書群を所定の要件に基づいて、グループに分類し、前記グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部を備え、
    前記表示制御部は、
    前記分類部が選択した対象グループから、前記利用者に表示する文書群を抽出するものであることを特徴とする請求項1から6いずれか1項記載のフォレンジックシステム。
  8. 前記フォレンジックシステムは、更に、
    前記対象グループに含まれる各文書の特徴量と、前記利用者による訴訟に関連するか否かの判断が完了したグループに含まれる文書の特徴量との比較をするグループ比較部を備え、
    前記表示制御部は、
    前記グループ比較部の比較結果をもとに、前記表示部が前記対象グループから利用者に表示する文書群の表示順序を制御することを特徴とする請求項7記載のフォレンジックシステム。
  9. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジック方法において、
    コンピュータが、
    前記デジタル情報に含まれる複数の文書からなる文書群を、前記利用者に対して表示するステップと、
    前記表示された文書群から、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、
    前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記各文書のスコアを更新するステップと、
    前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御するステップを実行するフォレンジック方法。
  10. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックプログラムにおいて、
    コンピュータに、
    前記デジタル情報に含まれる複数の文書からなる文書群を、前記利用者に対して表示する機能と、
    前記表示された文書群から、前記利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、前記利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける機能と、
    前記識別情報を受け付けた対象文書の特徴量と、前記文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、前記各文書のスコアを更新する機能と、
    前記更新されたスコアに基づいて、前記表示部に表示される前記文書群の文書の表示順番を制御する機能を実行させるフォレンジックプログラム。
JP2012225103A 2012-10-10 2012-10-10 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム Expired - Fee Related JP5823943B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2012225103A JP5823943B2 (ja) 2012-10-10 2012-10-10 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
KR1020157011640A KR20150056873A (ko) 2012-10-10 2013-10-09 포렌식 시스템 및 포렌식 방법과 포렌식 프로그램
CN201380052902.3A CN104885116B (zh) 2012-10-10 2013-10-09 法庭用系统,法庭用方法,以及法庭用程序
KR1020157031630A KR20150129862A (ko) 2012-10-10 2013-10-09 포렌식 시스템 및 포렌식 방법과 포렌식 프로그램
TW102136453A TW201415264A (zh) 2012-10-10 2013-10-09 取證系統、取證方法及取證程式
US14/434,442 US20160110826A1 (en) 2012-10-10 2013-10-09 Forensic system, forensic method, and forensic program
PCT/JP2013/077441 WO2014057963A1 (ja) 2012-10-10 2013-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
EP13844684.4A EP2908282A4 (en) 2012-10-10 2013-10-09 FORENSIC SYSTEM, FORENSIC PROCEDURE AND FORENSIC PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012225103A JP5823943B2 (ja) 2012-10-10 2012-10-10 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015176215A Division JP5887455B2 (ja) 2015-09-08 2015-09-08 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Publications (2)

Publication Number Publication Date
JP2014078109A true JP2014078109A (ja) 2014-05-01
JP5823943B2 JP5823943B2 (ja) 2015-11-25

Family

ID=50477431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012225103A Expired - Fee Related JP5823943B2 (ja) 2012-10-10 2012-10-10 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Country Status (7)

Country Link
US (1) US20160110826A1 (ja)
EP (1) EP2908282A4 (ja)
JP (1) JP5823943B2 (ja)
KR (2) KR20150056873A (ja)
CN (1) CN104885116B (ja)
TW (1) TW201415264A (ja)
WO (1) WO2014057963A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016218527A (ja) * 2015-05-14 2016-12-22 Kddi株式会社 スコア付与対象を分類可能な装置、システム、プログラム及び方法
JP2018511115A (ja) * 2015-02-22 2018-04-19 グーグル エルエルシー 人が介在することなくアルゴリズム的に子供にとって適切なコンテンツを識別すること

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7933859B1 (en) 2010-05-25 2011-04-26 Recommind, Inc. Systems and methods for predictive coding
JP5572252B1 (ja) * 2013-09-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法およびデジタル情報分析プログラム
CN104408081B (zh) * 2014-11-11 2019-07-30 努比亚技术有限公司 一种移动终端及其快速查看文件的方法和装置
CN105632267B (zh) * 2016-04-01 2018-01-26 重庆顺利科技有限公司 数字法庭仿真虚拟教学系统
US11463441B2 (en) 2018-05-24 2022-10-04 People.ai, Inc. Systems and methods for managing the generation or deletion of record objects based on electronic activities and communication policies
US10565229B2 (en) 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record
US11924297B2 (en) 2018-05-24 2024-03-05 People.ai, Inc. Systems and methods for generating a filtered data set
US10902066B2 (en) 2018-07-23 2021-01-26 Open Text Holdings, Inc. Electronic discovery using predictive filtering
US20200133979A1 (en) * 2018-10-24 2020-04-30 Scivera LLC Computer-implemented method for quantifying chemical hazard assessment
US11238105B2 (en) * 2019-03-29 2022-02-01 Salesforce.Com, Inc. Correlating user device attribute groups
US11620472B2 (en) 2020-04-23 2023-04-04 Citrix Systems, Inc. Unified people connector
WO2021248309A1 (en) * 2020-06-09 2021-12-16 Citrix Systems, Inc. Systems and methods for connecting to people with requested skillsets
US11651093B1 (en) * 2022-02-24 2023-05-16 LendingClub Bank, National Association Automated fraudulent document detection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008511076A (ja) * 2004-08-23 2008-04-10 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 指標的判例識別システム及び方法
JP2009163771A (ja) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources ドキュメントを分類するシステム、方法、およびソフトウェア
JP2011209931A (ja) * 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209930A (ja) * 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7188107B2 (en) * 2002-03-06 2007-03-06 Infoglide Software Corporation System and method for classification of documents
US7409336B2 (en) * 2003-06-19 2008-08-05 Siebel Systems, Inc. Method and system for searching data based on identified subset of categories and relevance-scored text representation-category combinations
CN101667204A (zh) * 2008-09-02 2010-03-10 财团法人工业技术研究院 智能型专利监控及警示系统与方法
CN101567069A (zh) * 2009-05-27 2009-10-28 瑞迪法证风险管理科技(北京)有限公司 一种法律风险测评数据处理方法和查询系统
KR101120387B1 (ko) * 2010-06-24 2012-03-09 엔에이치엔(주) 문서 수집 시스템 및 방법
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009163771A (ja) * 2001-11-02 2009-07-23 Thomson Reuters Global Resources ドキュメントを分類するシステム、方法、およびソフトウェア
JP2008511076A (ja) * 2004-08-23 2008-04-10 レクシスネクシス ア ディヴィジョン オブ リード エルザヴィア インコーポレイテッド 指標的判例識別システム及び方法
JP2011209931A (ja) * 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209930A (ja) * 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018511115A (ja) * 2015-02-22 2018-04-19 グーグル エルエルシー 人が介在することなくアルゴリズム的に子供にとって適切なコンテンツを識別すること
JP2019145178A (ja) * 2015-02-22 2019-08-29 グーグル エルエルシー 人が介在することなくアルゴリズム的に子供にとって適切なコンテンツを識別すること
US11049029B2 (en) 2015-02-22 2021-06-29 Google Llc Identifying content appropriate for children algorithmically without human intervention
JP2016218527A (ja) * 2015-05-14 2016-12-22 Kddi株式会社 スコア付与対象を分類可能な装置、システム、プログラム及び方法

Also Published As

Publication number Publication date
CN104885116B (zh) 2017-07-11
JP5823943B2 (ja) 2015-11-25
US20160110826A1 (en) 2016-04-21
TW201415264A (zh) 2014-04-16
CN104885116A (zh) 2015-09-02
KR20150129862A (ko) 2015-11-20
KR20150056873A (ko) 2015-05-27
WO2014057963A1 (ja) 2014-04-17
EP2908282A4 (en) 2016-05-25
EP2908282A1 (en) 2015-08-19

Similar Documents

Publication Publication Date Title
JP5823943B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5823942B2 (ja) フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
WO2016016973A1 (ja) 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
JP2014078084A (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
WO2016129124A1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
JP5887455B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP6404294B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150409

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20150409

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20150422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150929

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151008

R150 Certificate of patent or registration of utility model

Ref document number: 5823943

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees