しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムにおいては、複数のコンピュータおよびサーバを利用した対象者の膨大な文書情報を収集することになる。
このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれる利用者が目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と時間がかかるという問題があった。
そこで、本発明は、上記事情に鑑み、レビュワーのレビューの負荷を軽減することを可能とするフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムを提供することを目的とするものである。
本発明のフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステムにおいて、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部と、該更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順を制御する表示制御部とを備える。
「文書」とは、1つ以上の単語を含むデータをいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて算出された値を、加点または減点することによって算出され、更新されるものであってもよい。
「文書群」は、複数の文書から構成されるものである。
「表示部」は、利用者に文書を提示するものをいう。表示部に表示された文書は、利用者の訴訟に関連するか否かの判断対象となる。この訴訟に関連するか否かを判断する行為を、「レビュー」という。レビューは、レビューの対象となる文書(ここでは対象文書という)の、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行い、種類ごとに識別情報を付与する。
「表示制御部」は、表示部に対して通信によって指示を送り、表示する文書の順番を制御する。例えば、文書が持つスコアの昇順に表示部に表示させるよう、制御するものとしてもよい。
「識別情報受付部」は、利用者がレビューによって対象文書に付与した識別情報を受け付けるものをいう。
「識別情報」は、分類対象となる文書に付与されるものであって、訴訟への利用が容易になるように、訴訟との関連性を示すものをいう。識別情報は各文書に付帯情報として記録してもよいし、識別情報と文書との対応関係をデータベース上に記録するものとしてもよい。識別情報は、例えば、訴訟に関連することを表す「Responsive」や、とりわけ訴訟において重要視される文書を表す「HOT」、今回の訴訟とは無関係の文書であることを表す「Non−Responsive」等のキーワードを指してもよい。
「スコア更新部」は、識別情報受付部が識別情報を受付けた対象文書の特徴量と、文書群中に含まれる文書の特徴量を比較し、該受け付けた識別情報に対応するスコアを更新するものをいう。また、スコア更新部は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いて、特徴量を算出するものとしてもよい。スコア更新部は、例えば、特徴量の一致度に応じてスコアを加点・減点するものとしてもよい。比較対象となる文書には対象文書自身を含んでもよいし、対象文書は除外してもよい。例えば、対象文書自身を比較対象に含んだ場合、特徴量は完全一致するので、相応な点がスコアに加点され更新される。
「スコア」は、文書と識別情報との結びつきの程度を定量的に評価したものをいう。各文書は、データベース上に、所定の識別情報ごとに対応するスコアを記録されているものとしてもよい。例えば、レビューにおいて、各文書が、識別情報「HOT」、「Responsive」または「Non−Responsive」の3つの識別情報により分類されるものとした場合を例に説明する。この場合、各文書は、データベース上に「Hot」スコア、「Responsive」スコアおよび「Non−Responsive」スコアの3つのスコアを記録する領域が確保されるものとしてもよい。そして、上記3種類のスコアのうち、所定の閾値を超過した場合、その超過した識別情報が付与されるものとしてもよい。
各文書は、一定の要件に基づいて、初期スコアを与えられるものとしてもよい。例えば、文書中に出現する単語と、各単語の持つ評価値とにより初期スコアを算出してもよい。また、全文書に共通して、一定値を初期スコアとして付与してもよい。初期スコアから加点・減点処理が行われ、スコアが更新される。
「特徴量」は、各文書間の類似度を測定するのに用いるものをいう。特徴量は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いてスコア更新部によって算出されるものとしてもよい。さらに、スコア更新部は、特徴量を算出する際に、単語の伝達情報量を参酌してもよい。
また、本発明に係るフォレンジックシステムは、更に、スコアが特定の値に達した文書を、表示部により表示される文書の候補から除外することを判定する除外判定部と、該判定された文書の数が所定の値を超えるまで、表示部と、識別情報受付部と、スコア更新部と、表示制御部と、除外判定部との処理を繰り返し実行できるように制御する制御部とを備えてもよい。
「除外判定部」は、スコアの更新の際に、更新後のスコアが特定の値に達した文書を、表示部により表示される文書の候補対象から除外判定するものをいう。除外判定部は、除外判定の前段として識別情報ごと終了判定を行うものとしてもよい。例えば、レビューにおいて、除外判定部は、3種類の識別情報を付与するものである場合、3種類すべての識別情報について終了判定した文書を、対象文書の候補から除外するものとしてもよい。また、除外判定部は、1つの識別情報についてのスコアのみが特定の値を超過し、当該識別子について終了判定された場合、該超過した識別情報について終了判定された旨の表示を、当該文書に付与してもよい。更に、除外判定および終了判定は特定の値を閾値として2つ有すものとしてもよい。例えば、スコアが加点によって該2つの閾値の一方を超過した場合、またはスコアが減点によって他方の閾値を下回る場合に除外判定および終了判定することも可能である。
「制御部」は、表示部と、識別情報受付部と、スコア更新部と、除外判定部との処理を繰り返し実行できるよう制御するものをいう。該制御は、1処理ごとに循環的に繰り返させるものとしてもよい。また、制御部は、バッチ的に一定量処理した後に後段の処理を実行させる、という単位で繰り返していくものとしてもよい。制御部は、文書群や対象グループに含まれる全文書が除外判定された場合に、制御処理を完了する。
また、本発明に係るフォレンジックシステムは、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部を備えるものであってもよい。
「自動付与部」は、各文書に適切な識別情報をスコアに応じて自動で判断し、付与するものをいう。自動付与部は、識別情報の種類ごとに閾値を設け、該閾値を超過した文書に対応する識別情報を付与するものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、文書群に含まれる文書について、識別情報に対応するスコアを記録し、スコア更新部がスコアを更新する度に、識別情報ごとのスコアを更新するデータベースを備えるものとしてもよい。データベースには、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部を備え、表示部は、分類部が選択した対象グループから、利用者に表示する文書群を抽出するものとしてもよい。
「所定の要件」は、分類の条件となるものをいう。所定の要件は、利用者が任意に決定できるものとしてもよい。例えば所定の要件は、文書が作成された年や、文書の拡張子、文書の作成者やセキュリティレベル等が挙げられる。
「グループ」は、文書群を分類したものをいう。グループは、複数の文書を含むものとしてもよい。グループに分類された場合、制御部は、対象グループの中に含まれる全文書が除外判定されたときに、処理を完了するものとしてもよい。
「対象グループ」は、上述したグループのうち、利用者がレビューを実施する対象となるグループをいう。対象グループの中から、表示部が表示する文書群が抽出される。対象グループごとに、表示制御部によって文書の表示順の制御が行われるものとしてもよい。また、対象グループ内の全文書に制御部の処理が完了すると、次のグループが対象文書として選定されるものとしてもよい。
また、本発明に係るフォレンジックシステムは、更に、対象グループに含まれる各文書の特徴量と、利用者による訴訟に関連するか否かの判断が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部を備え、表示制御部は、表示部にグループ比較部の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものとしてもよい。
「グループ比較部」は、グループ間で文書の特徴の比較処理を行うものをいう。例えば、グループ比較部は、利用者による訴訟に関連するか否かの判断が完了したグループに含まれる文書の特徴量を比較対象として用いることで、次の対象グループに含まれる各文書の識別情報の偏りを示唆することができる。具体的にいうと、グループ比較部は、利用者による訴訟に関連するか否かの判断が完了したグループ(グループAという)の中で、1つの識別情報(識別情報Aとする)に対応するスコアが高い文書に共通する特徴量を抽出する。グループ比較部は、更に、該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ(グループBとする)の中から検索し、特徴量の類似度に応じて表示制御部が文書の並び順を制御する。該並び順を制御され、上位にきた文書は、識別情報「HOT」が付与される可能性が高い文書であると考えられる。そのため、グループBについて、利用者がレビューをする場合に、識別情報「HOT」がつきやすい旨を示唆でき、レビューの速度の向上を図ることができる。
また、本発明に係るフォレンジック方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジック方法において、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示するステップと、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するステップと、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御するステップを実行する。
また、本発明に係るフォレンジックプログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックプログラムにおいて、コンピュータが、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示する機能と、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける機能と、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新する機能と、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御する機能を実行させる。
本発明のフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムは、表示された対象文書に対し、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示するステップと、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付けるステップと、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するステップと、更新されたスコアに基づいて、表示部に表示される文書群の文書の表示順番を制御するステップとを有することによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。
また、本発明のフォレンジックシステムは、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部を備える際においては、利用者の判断結果を踏まえて自動で文書に対して識別情報を付与することが可能である。
また、本発明のフォレンジックシステムの文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものである際においては、利用者が判断を誤って、不適切な識別情報を付与した場合でも、他の文書に対する判断を踏まえて、スコアを適切な値に収斂させることが可能である。
また、本発明に係るフォレンジックシステムは、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部を備え、表示部は、分類部が選択した対象グループから、利用者に表示する文書群を抽出するものである際においては、類似度の高い文書間で特徴量を比較することが可能になる。
また、本発明に係るフォレンジックシステムは、更に、対象グループに含まれる各文書の特徴量と、制御部による制御処理が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部を備え、表示制御部は、表示部にグループ比較部の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものである際においては、利用者に対象文書が付与される可能性が高い識別情報を事前に示唆することが可能になる。
[第1の実施形態]
以下、本発明の第1の実施形態を図1乃至図8を用いて説明する。
本発明の第1の実施形態に係るフォレンジックシステム100は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステム100において、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部210と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部410と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部510と、該更新されたスコアに基づいて、表示部210に表示される文書群の文書の表示順を制御する表示制御部310とを備える。
また、第1の実施形態において、フォレンジックシステム100は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部810を備えるものであってもよい。
また、本実施形態において、フォレンジックシステム100は、更に、文書群に含まれる文書について、識別情報に対応するスコアを記録し、スコア更新部510がスコアを更新する度に、識別情報ごとのスコアを更新するデータベース101を備えるものとしてもよい。データベース101には、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。
また、フォレンジックシステム100は、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部910を備え、表示部210は、分類部910が選択した対象グループから、利用者に表示する文書を抽出するものとしてもよい。更に、対象グループに含まれる各文書の特徴量と、利用者によるレビューが完了したグループに含まれる各文書の特徴量との比較をするグループ比較部920を備え、表示制御部310は、グループ比較部920の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものとしてもよい。
本実施形態においては、訴訟に提出が必要な文書に「HOT」という識別情報を用いて訴訟との関連性の判断を行う場合を例にとって説明する。この、システム又は利用者が訴訟に関連するか否かを判断する行為をレビューという。レビューでは、レビューの対象となる文書(ここでは対象文書という)を、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行い、種類ごとに識別情報を付与する。
図1に示す図は、フォレンジックシステム100を利用したレビューの様子を概念的に表している。フォレンジックシステム100を利用した場合、利用者は、レビュー(Human Review)を、フォレンジックシステム100が示唆したレビューの予測結果(Automatic Predictive Coding)を参考にしながら、実施可能となる。具体的には、利用者がある文書に対してレビューを行うと、フォレンジックシステム100は、利用者の行ったHuman Reviewのレビュー結果を、Human Reviewが実施される都度にレビュー対象の文書に反映させていく。
このため、利用者は次の文書に対してレビューを行う際に、Automatic Predictive Codingによって示唆された予測レビュー結果を見ながら、その予測レビュー結果が適切か否か、という判断基準でレビューを行うことが可能となる。そのため、利用者は、Automatic Predictive Codingによって示唆された予測レビュー結果に満足がいった時点で、レビューを終了することが可能となる。これによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。
ここで、図2を用いて第1の実施形態全体の処理フローの概略を説明する。図2は第1の実施形態全体の処理フローを概念定的に示した図である。
フォレンジックシステム100では、処理の開始時に、ます、文書のまとまりである文書群を複数のグループへの分類処理(Clustering)を行う(STEP1)。そして、分類したグループから、フォレンジックシステム100の今回の処理対象となる対象グループを選定する。対象グループは、グループのうち、利用者がレビューを実施する対象となるグループをいう。
文書は、1つ以上の単語を含むデータをいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものとしてもよい。また、文書群は、複数の文書から構成されるものである。グループは、文書群を分類したものをいう。
分類処理を行う際に、分類の条件として所定の要件を利用者が入力することができる。所定の要件はフォレンジックシステム100によって自動で入力されるものとしてもよい。具体的には、所定の要件は、文書が作成された年や、文書の拡張子、文書の作成者やセキュリティレベル等が挙げられる。
次に、グループ間の比較処理(Automatic Suggest Documents)が行われる(STEP2)。これは、訴訟との関連性の判断が完了したグループに含まれる文書と、今回の対象となっているグループとを比較することで、次の対象グループに含まれる、ある文書の特定の識別情報への偏りを示唆するものをいう。具体的にいうと、関連性の判断が完了したグループ(グループAとする)の中で、1つの識別情報(ここでは「HOT」)に対応するスコアが高い文書に共通する特徴量を抽出する。該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ(グループBとする)の中から検索し、特徴量の類似度に応じて文書の並び順を制御する。つまり、上位にきた文書は、識別情報「HOT」が付与される可能性が高い文書であると考えられる。そのため、グループBについて、利用者がレビューをする場合に、識別情報「HOT」がつきやすい旨を示唆でき、レビューの精度および速度の向上を図ることができる。
スコアは、文書と所定の識別情報との結びつきの程度を定量的に評価したものをいう。例えばレビューで、訴訟との関連性があることを表す「Responsive」および、訴訟との関連が非常に強く重要な文書であることを表す「HOT」を用いている場合を例に説明する。この場合、各文書は、データベース上に「Hot」スコアおよび「Responsive」スコアを記録する領域が確保されるものとしてもよい。そして、上記2種類のスコアのうち、所定の閾値を超過した場合、その超過した識別情報が付与されるものとしてもよい。
特徴量は、各文書間の類似度を測定するのに用いるものをいう。特徴量は、文書の中に頻出する各単語の種類、各単語がもつ評価値および各単語の出現数からなる傾向情報を用いて算出される。
その後、利用者がレビュー(Human Review)を実施する(STEP3)。レビューが実施される都度に、フォレンジックシステム100は、該レビュー結果を用いて各文書のスコアを算出(Automatic Real−Time Create Trainning Data)する(STEP4)。更に、算出されたスコアの順に対象グループ内の文書の並び替えを行うことで、利用者が次の文書のレビューを行う際に、その文書のレビュー結果を示唆する(Suggest Next Documents by Real−Time Automatic Predictive Coding)ことが可能になる(STEP5)。フォレンジックシステム100は、利用者が並び替えられた文書からレビューの終了を判断するまで、対象グループに対して、STEP3からSTEP5の処理を繰り返す。これは、並び替えられた文書は降順に特定の識別情報が高いことを意味しているため、ある文書が利用者からみて、確実に訴訟との関連性はないと判断できた場合、それより下位に位置する文書はすべて訴訟との関連性はないと判断されるためである。そのため、利用者は全文書をレビューする必要なく、関連性の判断を終了することができる。
図3は、第1の実施形態に係るフォレンジックシステム100のブロック図である。
第1の実施形態において、フォレンジックシステム100は、図3に示すように、表示部210と、表示制御部310と、識別情報受付部410と、スコア更新部510と、自動付与部810と、分類部910と、グループ比較部920と、データベース101とを備える。
フォレンジックシステム100は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。該プログラムは、CD−ROM等の記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされるものであってもよい。また、表示部210は、ディスプレイ、モニタ、タブレットPC等表示機能を有するものであり、利用者が操作し、対象文書を確認し、識別情報を付与するのに利用する装置である。第1の実施形態において、フォレンジックシステム100は、表示部210をシステム内に備えていないが、システム内に含むものとして構成してもよい。
また、フォレンジックシステム100の各機能部および表示部210は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
表示部210は、表示制御部310によって整列された通りに文書群の少なくとも一以上の文書を利用者に対して表示する。
表示制御部310は、表示部210が表示する文書の順番を制御する。第1の実施形態においては、表示制御部310は文書が持つスコアの降順に表示するよう表示部210に表示制御の指示を送る。この結果、利用者は、表示制御部310によってスコア順に並び替えられた文書をみて、レビューの続行が必要か判断することができる。つまり、レビューをしている最中の対象文書が、明らかに訴訟との関連性がない場合、当該対象文書より下位に並べられている文書は、よりスコアが低いのであるから、レビューをするまでもなく、訴訟との関連性がないと判断できる。
識別情報受付部410は、利用者がレビューによって対象文書に付与した識別情報を受け付けるものをいう。
識別情報は、分類対象となる文書に付与されるものであって、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。識別情報は各文書に付帯情報として記録してもよいし、識別情報と文書との対応関係をデータベース101上に記録するものとしてもよい。識別情報には、訴訟と対象文書とが関連性があることを示す「Responsive」や、訴訟との関連性が非常に高く、重要な文書であることを示す「HOT」、訴訟との関連性がないことを示す「Non−Responsive」等が挙げられる。第1の実施形態では、識別情報として「HOT」タグを付与し、該タグは、文書と対応付けてデータベース101上で管理される。
スコア更新部510は、識別情報受付部410が識別情報を受付けた対象文書の特徴量と、文書群中に含まれる文書の特徴量を比較し、該受け付けた識別情報に対応するスコアを更新していくものをいう。スコア更新部510は、例えば、特徴量の一致度に応じてスコアを加点・減点するものとしてもよい。第1の実施形態においては、比較対象となる文書には対象文書自身を含んでいないが、対象文書も更新対象とする形態であってもよい。例えば、対象文書自身を比較対象に含んだ場合、特徴量は完全一致するので、相応な点がスコアに加点され更新される。
文書は、一定の要件に基づいて、初期スコアを与えられる。例えば、文書中に出現する単語と、各単語の持つ評価値とにより初期スコアを算出してもよい。第1の実施形態では、初期スコアは所定の要件に基づいて算出され、全文書に対して一定値が与えられる。初期スコアから加点・減点処理が行われ、スコアが更新される。
自動付与部810は、各文書に適切な識別情報をスコアに応じて自動で判断し、付与するものをいう。識別情報の種類ごとに閾値を設け、該閾値を超過した文書に対応する識別情報を付与するものとしてもよい。第1の実施形態においては、「HOT」スコアの閾値としてαを有している。つまり、自動付与部810は、スコア更新部510が各文書の「HOT」スコアに対して更新処理を行った結果、αを超過した文書には識別情報として「HOT」タグを付与する。
グループ比較部920は、グループ間で文書の特徴の比較処理を行うものをいう。利用者によるレビューが完了したグループに含まれる文書の特徴量を比較対象として用いることで、次の対象グループに含まれる文書の特定の識別情報への偏りを示唆することができる。具体的にいうと、利用者によるレビューが完了したグループ(グループAとする)の中で、1つの識別情報(ここでは「HOT」)に対応するスコアが高い文書に共通する特徴量を抽出する。該抽出された特徴量と類似する特徴量を有する文書を次の対象グループ(グループBとする)の中から検索し、特徴量の類似度に応じて表示制御部310が文書の並び順を制御する。該並び順を制御され、上位にきた文書は、識別情報「HOT」が付与される可能性が高い文書であると考えられる。そのため、グループBについて、利用者がレビューをする場合に、識別情報「HOT」がつきやすい旨を示唆でき、レビューの精度および速度の向上を図ることができる。
図4を用いて表示部210、表示制御部310、識別情報受付部410、スコア更新部510、自動付与部810の処理フローを説明する。図4は本実施形態における、表示部210、表示制御部310、識別情報受付部410、スコア更新部510、自動付与部810の処理を表すフローチャートである。
表示部210が、文書群の中から、レビュー対象の文書である文書1を表示する(STEP11)。利用者が、文書1に対してレビューを行い、「HOT」タグを付与し、該「HOT」タグを、識別情報受付部410が受け付ける(STEP12)。
スコア更新部510は、「HOT」タグについて、各文書のスコアを更新するために、文書1とその他の文書との特徴量を比較する(STEP13)。なお、第1の実施形態においては、スコア更新部510は、利用者がレビューを行った文書に対しては、スコアの更新処理を行わない。
スコア更新部510は、比較結果に基づいて、その他の文書の「HOT」タグのスコアに対し、加点・減点処理を行う(STEP14)。
スコアの更新後、自動付与部810は、更新されたスコアの値がαを超過しているか否かの検定を行う(STEP15)。スコアがαを超過した文書があった場合には(STEP15:YES)、当該文書に対して、自動付与部810が「HOT」タグを付与する(STEP16)。スコアがαを超過していない文書に対しては(STEP15:NO)、タグの付与は行わない。
自動付与処理後、表示制御部310が、更新後のスコアの降順に文書の並び替え制御を行う(STEP17)。利用者が終了と判断した場合(STEP18:YES)、そこで処理を終了する。利用者が終了と判断しなかった場合(STEP18:NO)、表示部210が、表示制御部310が並び替えた文書の上位の順に表示する(STEP19)。この場合、利用者は再度最上位にきた文書に対してタグ付けを行う(STEP12:2巡目)。以下、利用者が終了を判定するまで、STEP12乃至STEP19の処理が循環する。
図5は分類部910の処理フローを示す図である。分類部910では、利用者が入力した要件を受け付ける(STEP111)。その後、入力された所定の要件に基づいて分類処理を実行する(STEP112)。図6は分類処理の実行結果を模式的に示した図である。
図6の上段は文書群の中の文書を示している。利用者が例えば分類の要件として「年代」を入力した場合、文書群の中の文書は、図6の後段に示すように、年代別にグループ分けがなされる。
図7は、グループ比較部920の処理フローを示す図である。グループ比較部920では、レビュー処理が完了したグループ(グループAとする)と、次のレビュー対象となるグループ(グループBとする)間での比較を行う(STEP121)。具体的には、グループAに含まれる文書(文書1とする)の特徴量と、グループBに含まれる文書(文書2とする)の特徴量とを比較する。例えば文書2の特徴量が文書1の特徴量と類似する場合には、文書1の各識別情報のスコアおよび類似度に基づいて、文書2の各識別情報に仮スコアを与える(STEP122)。
仮スコアとは、グループ比較部920が比較処理を行うために、各文書に一時的に付与するスコアである。そのため、自動付与部810の識別情報付与処理には用いられない。第1の実施形態においては、グループ比較部920は、仮スコアを用いて処理を行うが、通常のスコアを直接更新して処理を行ってもよい。
グループ処理部は、各識別情報の付与した仮スコアの降順に文書を並べる(STEP123)。
図8は、グループ比較部920および表示制御部310の処理の様子を模式的に示した図である。レビュー実施済みのグループAの処理結果をグループBに反映させ(図8上段)、表示制御部310がグループBに含まれる文書を各識別情報について、仮スコアの降順に並べる(図8下段)。これにより、利用者は「HOT」タグが付きやすい文書から順にレビューを行うことができる。
[第2の実施形態]
以下、本発明の実施の形態を図9乃至図11を用いて説明する。
本発明の第2の実施形態に係るフォレンジックシステム100は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析するフォレンジックシステム100において、デジタル情報に含まれる複数の文書からなる文書群の少なくとも一以上の文書を利用者に対して表示する表示部210と、文書群のうち、利用者が訴訟に関連するか否かを判断するための対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部410と、該識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、該各文書のスコアを更新するスコア更新部510と、該更新されたスコアに基づいて、表示部210に表示される文書群の文書の表示順を制御する表示制御部310とを備える。
また、第2の実施形態において、フォレンジックシステム100は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部810を備えるものであってもよい。
また、本実施形態において、フォレンジックシステム100は、更に、文書について、識別情報に対応するスコアを記録し、スコア更新部510がスコアを更新する度に、識別情報ごとのスコアを更新するデータベース101を備えるものとしてもよい。データベース101には、文書、付与された識別情報、各識別情報に対応するスコアおよび閾値超過情報等を記録するものとしてもよい。
また、本実施形態において、フォレンジックシステム100は、更に、スコアが特定の値に達した文書を、表示部210により表示される文書の候補から除外することを判定する除外判定部610と、該判定された文書の数が所定の値を超えるまで、表示部210と、識別情報受付部410と、スコア更新部510と、表示制御部310と、除外判定部610との処理を繰り返し実行できるように制御する制御部710とを備えてもよい。
図9は、第2の実施形態に係るフォレンジックシステム100のブロック図である。
第2の実施形態において、フォレンジックシステム100は、図9に示すように、表示部210と、表示制御部310と、識別情報受付部410と、スコア更新部510と、除外判定部610と、自動付与部810と、制御部710と、分類部910と、グループ比較部920と、データベース101とを備える。
本実施形態におけるレビュー処理では、識別情報として「HOT」タグを用いて、訴訟との関連性を判断する処理を行う。
除外判定部610は、スコアの更新の際に、更新後のスコアが特定の値に達した文書を、表示部210により表示される対象文書の候補から除外判定するものをいう。除外判定部610は、除外判定の前段として、識別情報ごとに終了判定を行い、全ての識別情報について終了判定された文書について、除外判定を行う。本実施形態では、特定の値として閾値をβ1とβ2の2つを有する(β1>β2)。除外判定部610は、スコアが加点によってβ1を超過した場合、又は減点によってβ2と下回った場合にその識別情報について終了判定を行う。第1の実施形態においては、3種類の識別情報を付与するものである。この場合、除外判定部610は、3種類すべての識別情報について除外判定した文書を、対象文書の候補から除外する。
また、1つの識別情報についてのスコアがβ1またはβ2に達し、終了判定された場合には、該超過した識別情報について除外された旨の表示を、当該文書に付与してもよい。
図10を用いて、除外判定部610の処理について説明する。図10は、利用者がレビューにおいて、文書1に識別情報として「HOT」タグを付与した場合の除外判定部610の処理フローである。利用者はレビューにおいて、識別情報として「HOT」タグを付与する処理を行ったため、除外判定部610でも「HOT」タグについて、各文書の除外判定を行う。
除外判定部610では、各文書の「HOT」スコアの値を検定する(STEP621)。ここでαは、自動付与部810が識別情報の付与処理を行う判断基準となる閾値である。スコアが、β2より大きくα未満である文書に対して、除外判定部610では、何の処理も行わない(STEP622)。一方で、スコアが、β1以上またはβ2以下である文書には、「HOT」タグについて終了判定を行う(STEP623)。この場合、他の識別情報のスコアについても判定し(STEP624)、全てβ1以上またはβ2以下である場合には(STEP624:YES)、当該文書をレビュー対象から除外する(STEP625)。1つでもβ1未満かつβ2より大きいスコアの識別情報がある文書に対しては(STEP624:NO)、除外判定は行わず、終了する。
制御部710は、表示部210と、識別情報受付部410と、スコア更新部510と、表示制御部310と、除外判定部610との処理を繰り返し実行できるよう制御するものをいう。該制御は、1処理ごとに循環的に繰り返させるものとしてもよい。また、バッチ的に一定量処理した後に後段の処理を実行させる、という単位で繰り返していくものとしてもよい。第2の実施形態では、表示制御部310は、後述するグループに含まれる文書すべてが除外判定された場合に、制御処理を完了する。
図11は、本実施形態における処理全体の概要を示すフローチャートである。ここでは、利用者が文書1に対してレビューをし、「HOT」タグを付与した場合を例に説明する。
まず、文書1を表示部210が画面に表示する(STEP130)。表示部210によって表示された文書1に対して利用者が、識別情報として「HOT」タグを付与し(STEP131)、該「HOT」タグを識別情報受付部410が、利用者が文書1に付与した識別情報として受け付ける。
スコア更新部510は、「HOT」タグについて、各文書のスコアを更新するために、文書1とその他の文書(ここでは文書2とする)との特徴量を比較する(STEP132)。なお、第2の実施形態においては、スコア更新部510は、利用者がレビューを行った文書に対しては、スコアの更新処理を行わない。そのため、文書1は利用者がレビューを終了した時点で、終了判定がされる。
スコア更新部510は、比較結果に基づいて、文書2の「HOT」タグのスコアに対し、加点・減点処理を行う(STEP133)。
スコアの更新後、除外判定部610が、文書2の「HOT」スコアの値を検定する(STEP134)。除外判定部610は、文書2の「HOT」スコアが、β1より大きくα未満である場合には、処理を行わない(STEP135)。一方、α以上β1未満の場合には、文書2に「HOT」タグを付与する(STEP136)。
文書2のスコアがβ1以上の場合には、除外判定部610が「HOT」については終了判定を行う(STEP137)。このとき、文書2に「HOT」タグが付与されていなければ自動付与部810の識別子の付与処理が実行される。
また、文書2のスコアがβ2以下である場合には、除外判定部610は、「HOT」について終了判定を行う(STEP138)。STEP137およびSTEP138の処理が実施された場合、除外判定部610は、文書2の他の識別情報のスコアがβ1またはβ2に達しているか検定する(STEP139)。検定の結果、β1またはβ2に達している場合には(STEP139:YES)、文書2を表示部210の表示候補から除外する(STEP140)。STEP141の処理完了後、制御部710は、全ての文書が除外判定されているか検定し(STEP141)、されている場合には(STEP141:YES)、処理を終了する。
STEP135又はSTEP136の処理完了後、或いはSTEP139でスコアがβ1未満かつβ2より大きいと判断された場合(STEP139:NO)、制御部710によって次の処理に移行する。この際、除外判定がされていない文書は、表示制御部310によって、更新されたスコアの値の昇順に並び替えが行われる(STEP143)。
表示制御部310によって並び替えられたのち、並び順つまり、スコアの高い順に表示部210によって表示される(STEP144)。
その他の構成、機能については、第1の実施形態と同様とする。
フォレンジックシステム100は、表示された対象文書に対し、デジタル情報に含まれる複数の文書からなる文書群を、利用者に対して表示する表示部210と、表示された文書群から、利用者が訴訟に関連するか否かを判断するための文書である対象文書に対し、利用者が訴訟に関連するか否かの判断に基づいて付与した識別情報を受け付ける識別情報受付部410と、識別情報を受け付けた対象文書の特徴量と、文書群の中の各文書の特徴量との比較結果に基づいて、所定の識別情報に対応する、各文書のスコアを更新するスコア更新部510と、更新されたスコアに基づいて、表示部210に表示させる文書群の文書の表示順番を制御する表示制御部710とを備えることによって、利用者が関連性判断を行う文書数を削減することで利用者の関連性判断の負荷の低減し、関連性判断処理の速度の向上を図ることが可能となる。
また、フォレンジックシステム100は、更に、文書群の中の文書に対し、更新されたスコアに基づいて、識別情報を付与する自動付与部810を備える際においては、利用者の判断結果を踏まえて自動で文書に対して識別情報を付与することが可能である。
また、フォレンジックシステム100の文書は、識別情報ごとに対応するスコアを有し、スコアは、文書群の中の各文書に対してあらかじめ付与される初期スコアから、識別情報が関連づけられた対象文書と各文書の特徴量との比較結果に基づいて、加点または減点することによって算出され、更新されるものである際においては、利用者が判断を誤って、不適切な識別情報を付与した場合でも、他の文書に対する判断を踏まえて、スコアを適切な値に収斂させることが可能である。
また、フォレンジックシステム100は、更に、文書群を所定の要件に基づいて、グループに分類し、該グループの中から、処理対象となる対象グループを少なくとも1つ選択する分類部910を備え、表示部210は、分類部910が選択した対象グループから、利用者に表示する文書群を抽出するものである際においては、類似度の高い文書間で特徴量を比較することが可能になる。
また、フォレンジックシステム100は、更に、対象グループに含まれる各文書の特徴量と、制御部710による制御処理が完了したグループに含まれる各文書の特徴量との比較をするグループ比較部920を備え、表示制御部310部は、表示部210にグループ比較部920の比較結果をもとに、対象グループから表示する文書群の表示順序を制御するものである際においては、利用者に対象文書が付与される可能性が高い識別情報を事前に示唆することが可能になる。