JP2015084168A - 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム - Google Patents

文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム Download PDF

Info

Publication number
JP2015084168A
JP2015084168A JP2013222334A JP2013222334A JP2015084168A JP 2015084168 A JP2015084168 A JP 2015084168A JP 2013222334 A JP2013222334 A JP 2013222334A JP 2013222334 A JP2013222334 A JP 2013222334A JP 2015084168 A JP2015084168 A JP 2015084168A
Authority
JP
Japan
Prior art keywords
document
score
classification
survey
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013222334A
Other languages
English (en)
Other versions
JP5592552B1 (ja
Inventor
守本 正宏
Masahiro Morimoto
正宏 守本
秀樹 武田
Hideki Takeda
秀樹 武田
和巳 蓮子
Kazumi Hasuko
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
UBIC KK
Ubic Inc
Original Assignee
UBIC KK
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UBIC KK, Ubic Inc filed Critical UBIC KK
Priority to JP2013222334A priority Critical patent/JP5592552B1/ja
Priority to US14/397,852 priority patent/US9595071B2/en
Priority to PCT/JP2014/057069 priority patent/WO2015059940A1/ja
Priority to TW103130212A priority patent/TWI518631B/zh
Application granted granted Critical
Publication of JP5592552B1 publication Critical patent/JP5592552B1/ja
Publication of JP2015084168A publication Critical patent/JP2015084168A/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】時間的な変遷に伴って生じる文書の質の時系列的な変化を検出する。【解決手段】複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出し、算出されたスコアからスコアの時系列的な変化を検出し、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査する。【選択図】図2

Description

本発明は、文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラムに関するものであって、特に、調査案件に応じて文書を時系列的に分別及び調査する文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラムに関する。
本発明の背景技術を、例えば、訴訟案件又は不正調査案件を調査案件とする場合について説明する。従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011−209930号公報 特開2011−209931号公報 特開2012−32859号公報
しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。
このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。
また、従来の文書分別においては、文書の性質の相違に基づく分別は行われていたが、人間又は人間の属する組織の変遷に伴って生じる文書の性質の時間的な変遷については、分別及び調査が行われていなかった。
そこで、本発明は、上記事情に鑑み、文書の分別にあたって時間的な変遷に伴って生じる文書の質の時系列的な変化を検出するとともに分別作業の負担軽減を可能とする文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラムを提供することを目的とするものである。
本発明の文書分別調査システムが、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査する文書分別調査システムにおいて、前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出するスコア算出部と、算出されたスコアからスコアの時系列的な変化を検出するスコア変化検出部と、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査判定するスコア変化判定部とを備えることを特徴とする。
本発明の文書分別調査方法が、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査することを特徴とする文書分別調査方法において、コンピュータが、前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出し、算出されたスコアからスコアの時系列的な変化を検出し、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査することを特徴とする。
本発明の文書分別調査プログラムが、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査する文書分別調査プログラムにおいて、コンピュータに、前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出させる機能と、算出されたスコアからスコアの時系列的な変化を検出する機能と、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査させる機能とを実現させることを特徴とする。
なお、本発明において、「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。
本発明は、文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出し、算出されたスコアからスコアの時系列的な変化を検出し、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査する。これにより、文書の分別にあたって時間的な変遷に伴って生じる文書の質の時系列的な変化を検出するとともに分別作業の負担軽減を可能とする文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラムを提供する。
本発明の実施形態に係る文書分別調査システムの構成図 本発明の実施形態に係る文書分別調査方法における処理の流れを示すチャート 本発明の実施形態に係る文書分別調査方法において調査対象となる文書案件1と案件2の属性を示す表図 本発明の実施形態に係る文書分別調査方法においてスコアと送信日の関係を示すグラフ 本発明の実施形態に係る文書分別調査方法においてスコアの移動平均と送信日の関係を示すグラフ 本発明の実施形態に係る文書分別調査方法においてスコアの差分移動平均と送信日の関係を示すグラフ スコアの移動平均の差分(DMA)、送信日付、主要(立ち上がり)端部、及び「イン(IN)」の関係を示す表図 実施形態における段階ごとの処理の流れを示したチャート 実施形態におけるキーワードデータベースの処理フローを示すチャート 本実施形態における関連用語データベースの処理フローを示したチャート 本実施形態における第1自動分別部の処理フローを示したチャート 本実施形態における第2自動分別部の処理フローを示したチャート 本実施形態における分別符号受付付与部の処理フローを示したチャート 本実施形態における分別符号付与文書解析部の処理フローを示したチャート 本実施形態における文書解析部での解析結果を示したグラフ 本実施形態の1実施例における第3自動分別部の処理フローを示したチャート 本実施形態の他の実施例における第3自動分別部の処理フローを示したチャート 本実施形態における品質検査部の処理フローを示したチャート 本実施形態における文書表示画面
[本発明の実施形態]
本発明の実施形態に係る文書分別調査システムは、複数のコンピュータまたはサーバに記録された大量のデジタル情報(ビッグデータ)を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を時系列で分析し、調査案件との関連度を示す分別符号とスコアを文書に付与することにより、調査案件への利用を容易にするものである。
そこでは、例えば、訴訟、不正調査、金融事象、気象事象、又は病気の診断と治療に関する案件が調査案件として選択される。
また、本発明の実施形態に係る文書の時系列データの解析は、時系列データの解析として単独に実行することが可能であるが、例えば、文書の分別と関連して文書の分別処理なかで実行される場合もある。そこで、本発明の実施形態に係る時系列データの解析の一例を、文書の分別と関連して記載する。
図1は、本発明の本発明の実施形態に係る文書分別調査システムの構成を示す。図1を参照して、本発明の実施形態に係る文書分別調査システムの構成について訴訟を調査案件とする場合を例として以下に記載する。
実施形態に係る文書分別調査システム1は、情報及びデータを格納するデータ格納部100を有する。該データ格納部100は、訴訟又は不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報をデジタル情報格納領域101に格納する。
そして、データ格納部100は、反トラスト、特許、FCPA(Foreign Corrupt Practices Act)、PL(Products Liability)を含む訴訟案件又は情報漏洩、架空請求を含む不正調査のいずれのカテゴリーに属するかを示すカテゴリー属性、会社名、担当者、カストディアン、及び調査又は分別入力画面の構成を格納する調査基礎データベース103と、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース104と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース105と、文書と分別符号との結びつきの強さを示すスコアを算出するために該文書に含まれるワードの重みづけを登録するスコア算出データベース106とを格納する。更に、データ格納部100は、カテゴリー、カストディアン、分別作業の内容に応じて定められる報告書の形式を登録する報告作成データベース107を格納する。このデータ格納部100は、図1に示されるように、文書分別調査システム1内に設置されても良く、別個のストレージ装置として文書分別調査システム1の外部に設置されても良い。
本発明の実施形態に係る文書分別調査システム1は、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び報告作成データベース107のデータ内容の更新を管理するデータベース管理部109を備える。データベース管理部109は、専用接続線又はインターネット回線901を経由して情報格納装置902に接続されても良い。そして、データベース管理部109が、情報格納装置902に記憶されるデータの内容に基づいて、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び報告作成データベース107のデータ内容を更新しても良い。
本発明の実施形態に係る文書分別調査システム1は、文書情報から複数の文書を抽出する文書抽出部112と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部114と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部116とを備える。本発明の実施形態では、スコア算出部116は、スコアを時系列的に算出する。
また、本発明の実施形態に係る文書分別調査システム1は、算出されたスコアからスコアの時系列的な変化を検出するスコア変化検出部120と、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査判定するスコア変化判定部122を有する。そして、スコアの時系列的な変化を検出するために、スコア変化検出部120は、スコアの移動平均を算出するスコア移動平均算出部140と、スコアの短期間移動平均と長期間移動平均からスコアの差分移動平均を算出するスコア差分移動平均算出部142とを備える。
本発明の実施形態に係る文書分別調査システム1は、ワード検索部114により前記キーワードデータベース104に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部201と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部301を有する。
更に、実施形態に係る文書分別調査システム1は、文書情報から抽出された複数の文書を画面上に表示する文書表示部130と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部131と、分別符号受付付与部131により分別符号を付与された文書を解析する文書解析部118と、文書情報から抽出された複数の文書に対して、分別符号受付付与部131により分別符号を付与された文書を文書解析部118により解析した解析結果に基づいて、分別符号を自動的に付与する第3自動分別部401を備える。
文書解析部118は、ユーザから訴訟との関連性に基づいて受け付けて付与した文書に追加して、第1自動分別部201及び第2自動分別部301で、キーワード、関連用語、スコア値によりコンピュータにより自動的に分別符号を付与した文書についても解析し、ユーザからの分別符号受け付け文書とコンピュータによる自動分別符号付与文書を統合して総合的な解析結果を得ても良い。この場合、第3自動分別部401は、この総合的な解析結果に基づいて、分別符号を自動的に付与しても良い。
分別及び調査作業の進め方には、ワード検索による自動分別、ユーザによる分別及び調査の受け付け、スコア値を用いる自動分別及び調査、学習過程を介在させる自動分別及び調査、品質保証を介在させる自動分別及び調査等を含む多様な進め方がある。
文書解析部118が、これらの多様な分別作業及び調査作業がどのような順序でどのように組み合わせて進行したかを示す進行履歴と共に、分別符号を付与された複数の文書を解析し、後に記述する報告作成部701がこの解析結果を報告しても良い。
また、本発明の実施形態に係る文書分別調査システム1は、図示を省略するが、抽出した文書の言語の種類を判定する言語判定部と、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部とを備えても良い。1文多言語の複合言語にも対応できるように、言語判定部における言語の区切りを1文より小さくすることが望ましい。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、HTMLのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。
また、本発明の実施形態に係る文書分別調査システム1は、文書解析部118による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部124を備えても良い。
また、本発明の実施形態に係る文書分別調査システム1は、分別符号受付付与部131が受け付けた分別符号と文書解析部118において傾向情報により付与された分別符号を比較し、分別符号受付付与部131が受け付けた分別符号の妥当性を検証する品質検査部501を備えても良い。
更に、本発明の実施形態に係る文書分別調査システム1は、文書分別処理の結果をもとに、各キーワード又は関連用語の重みづけを学習する学習部601を備えても良い。
本発明の実施形態に係る文書分別調査システム1は、文書分別処理の結果をもとに、訴訟案件又は不正調査の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備える。訴訟案件には、 例えば、反トラスト(カルテル)、特許、海外賄賂禁止(FCPA)、又は製造物責任(PL)が含まれる。また、不正調査には、例えば、情報漏洩、架空請求が含まれる。
本発明の実施形態に係る文書分別調査システム1は、分別調査と報告の質を向上し、分別調査と報告の責任を明確にするために、主任弁護士又は主任弁理士のレビューを受け付ける弁護士レビュー受付部133を備える。
本発明の実施形態に係る文書分別調査システム1の理解を容易とするために、実施形態に特有な用語について以下に記載する。
「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
「文書」とは、1つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。実施形態においては、「侵害」や「訴訟」、「特許公報〇〇号」といったキーワードが重点的に選定される。
本実施形態においては、キーワードには形態素が含まれるものとする。
また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。
「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。
また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。
「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品A」という分別符号が製品Aの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。
「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
Figure 2015084168
また、本発明の文書分別調査システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。
ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
また、本発明の文書分別調査システムは更に、ユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザが付与した分別符号を比較し、妥当性を検証する品質検査部とを備えても良い。
図2は、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出することにより、調査目的と抽出された文書の関連度を調査判定する本発明の実施形態に係る文書分別調査方法のフローチャートを示す。図2を参照して、本発明の実施形態に係る文書分別調査方法について以下に記載する。
複数のコンピュータ又はサーバに記録されたデジタル文書情報から文書を抽出する(STEP11)。
予測コーディングのために抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出する(STEP12)。
算出されたスコアから文書毎にスコアの時系列的な変化を検出する(STEP13)。
検出されたスコアの時系列的な変化から調査目的と抽出された文書の関連度を調査判定する(STEP14)。スコアの時系列的な変化としては、例えば、所定の基準値を超えてスコアが変化した時期等が挙げられる。
調査目的と抽出された文書の関連度を調査判定しようとする文書について抽出が完了しているか否か判定する。そして、完了していれば抽出及び調査判定を終了し、完了していなければ抽出及び調査判定を繰り返す(STEP11〜STEP14)。
本発明の実施形態に係る文書分別調査方法について更に以下に記載する。
図3は、本発明の実施形態に係る文書分別調査方法において調査対象となる文書案件1と案件2の属性を表にして示す。
案件1と案件2の文書は、共にeメール等により構成される。
案件1と案件2の文書は、予測コーディング(その中でも、例えば、サンプリングや、ファイル種別分別等)を最適化するための事例として使用されても良い。
重み付けとスコアは、「関連あり(Responsive)」文書に関する情報に基づいて算出される。
本発明の実施形態において、案件1のeメール文書は、主として英語で記載され、案件2のeメール文書は、日本語と英語の両方で記載される。
案件1と案件2のeメール文書は、部分集合として利用することが可能である。
また、本発明の実施形態においては、案件2のeメール文書として、2000年4月1日から2013年3月31日のものが使用される。
案件2の文書を例として、スコアの時系列解析について以下に記載する。
最初に図4を参照しながら、案件2に関してカストディアン1のeメール文書について、スコアと送信日付の関係の一例を示す。
次に、スコアを基にして、スコアの移動平均を求め、当該移動平均を分析することによって得られる特徴と傾向について検討する。
ここで、移動平均(MA:Moving Average)は、
Figure 2015084168
である。
ここで、SMAは、{Scr,ScrM−1,・・・,ScrM−(n−1)}の単純移動平均である。また、Scrは、eメール文書Mのスコアである。
単純移動平均SMAは、各々の文書(eメール)Mに関して、そのスコアScrとeメールMの送信日前の所定日数を送信日とするeメールのスコア{ScrM−1,・・・,ScrM−(n−1)}に基づいて計算される。
所定日数は、適宜に定めることができ、本実施形態においては、短期として7日、中期として30日、長期として90日に定めている。
単純移動平均SMAを用いることにより、原スコア値の大きな揺らぎを滑らかにすることが可能である。
図5は、スコアの移動平均と送信日付の関係を示すグラフである。
スコアの移動平均の所定日数は、上述したように短期(7日)、中期(30日)、長期(90日)とし、それぞれについて移動平均を算出し、図5に表示している。
なお、図5において、「ホット(HOT)」の点は、送信日付のみを示す。
ここで、短期の移動平均については、大きく値が変動する箇所があり、当該箇所は「ホット(HOT)」eメールとの相関が推測される。
次に、差分移動平均の算出について以下に記載する。
移動平均の差分(DMA)は、
Figure 2015084168
と表される。
ここで、
MAM1:移動平均1(短期間:例えば、短期(7日))
MAM2:移動平均2(長期間:例えば、中期(30日))
である。
差分移動平均△MAM12の値がプラスになる場合は、直前の期間(つまり、短期間)においてスコアの値が大きかったことを意味し、当該短期間中に比較的多くの「ホット(HOT)」eメールの送付等がされ、調査すべき変化が発生したと推測される。したがって、差分移動平均によって、eメール文書に関して、スコアの単純な比較では得られない特徴と傾向を取得することが可能となる。ここでいう特徴と傾向の変化は、例えば、差分移動平均曲線の交差として検出される。
図6は、2004年4月1日から2006年3月31日の間のスコアの移動平均の差分(DMA)と送信日付の関係を示すグラフである。縦軸の移動平均の差分(DMA)は移動平均によって正規化されている。
図7は、スコアの移動平均の差分(DMA)、送信日付、主要(立ち上がり)端部(EDGE)、及び「イン(IN)」の関係を示す表である。
「ホット(HOT)」eメールと移動平均の差分(DMA)との間の相関について検討する。また、差分移動平均(DMA)曲線の主要(立ち上がり)端部への近接度についても検討する。
主要(立ち上がり)端部(EDGE)とは、移動平均の差分(DMA)がマイナスからプラスへ変化する箇所、すなわち、移動平均の差分(DMA)曲線と水平軸の交差点をいう。
「イン(IN)」は、移動平均の差分(DMA)がプラスである領域を意味する。
カストディアン1の「ホット(HOT)」eメール文書について、例えば、同一日付及び同一スコア値の重複したeメールの存否について検討する。重複したeメール文書を削除することにより、「ホット(HOT)」eメール文書の数は、98eメールから86eメールに低減される。異なるアドレスのため送信者を特定できないeメールの数は、4eメールで数量的にはほとんど存在しない。
カストディアン1の「ホット(HOT)」eメールについて、大半のスコアは大きな値ではないけれど、それらが送信された日付において、「端部(EDGE)」又は「イン(IN)」が検出されている。
2012年11月及びその後に送信されたeメール文書は、「端部(EDGE)」も「イン(IN)」も有しない。したがって、これらのeメールは、カストディアン1と同じドメインの特定人物の間で行われた頻度の高い通信に関するものであると推測される。
時系列データについて以下に記載する。
移動平均(MA)と移動平均の差分(DMA)は、時系列データにおいて基本的な特徴と傾向を見出すための良い指標となる。
移動平均の差分(DMA)の「端部(EDGE)」は、スコアの傾向の変化点を検出することが可能であるとともに、「ホット(HOT)」eメールの存在を示す指標となりうる。
スコア値の移動平均(MA)又は移動平均の差分(DMA)を用いる解析は、時系列データにおける特定の特徴(例えば可能性有「ホット(HOT)」)を検出する可能性がある。それによって、特定のカストディアン又はカストディアンの特定のグループについての選択的情報提供(SDI:Selective Dissemination of Information)を可能にする。
時系列データの解析の実行手順の一例を以下に記載する。
本発明の実施形態に係る時系列データの解析は、例えば、文書の分別と関連して文書の分別処理なかで行われる。文書の分別処理の一例を以下に記載する。文書の分別処理では、図8に示すようなフローチャートに従い、第1段階〜第5段階で、登録処理、分別処理、及び検査処理によって行われる。
第1段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。
第2段階では、第1段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第1分別処理を行う(STEP200)。
第3段階では、第1段階で更新登録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第2分別処理を行う(STEP300)。
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第3分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。また、必要に応じて、文書分別処理の結果に基づいて学習処理を行っても良い。
第4段階及び第5段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
第1段階から第5段階の各段階における詳細な処理フローを以下で説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース104の詳細な処理フローを図9を用いて説明する。
キーワードデータベース104は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(STEP111)。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する(STEP112)。そして、特定されたキーワードをキーワードデータベース104に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース104の分別符号「重要」の管理テーブルに記録する(STEP113)。
次に、関連用語データベース105の詳細な処理フローを図10を用いて説明する。関連用語データベース105は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する(STEP121)。本発明の実施形態においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を登録する。
登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、各管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する(STEP113、STEP123)。
<第2段階(STEP200)>
第2段階における第1自動分別部201の詳細な処理フローを、図11を用いて説明する。本発明の実施形態において、第2段階では、第1自動分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第1自動分別部201では、第1段階(STEP100)でキーワードデータベース104に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(STEP211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し(STEP212)、「重要」という分別符号を付与する(STEP213)。
<第3段階(STEP300>
第3段階における第2自動分別部301の詳細な処理フローを、図12を用いて説明する。
本発明の実施形態において、第2自動分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第2自動分別部301は、該文書情報から、第1段階で関連用語データベース105に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(STEP311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)を用いて、スコア算出部116によりスコアを算出する(STEP312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
該スコアが閾値を超過した場合、関連用語対応情報を参照し(STEP313)、適切な分別符号を付与する(STEP314)。
例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
第2自動分別部301では、第4段階のSTEP432において算出されるスコアを用いて以下に示す式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う(STEP315)。
Figure 2015084168
例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
<第4段階(STEP400)>
第4段階では、図13に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図14に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
第4段階における分別符号受付付与部131の詳細な処理フローを、図13を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部112が、ランダムに文書をサンプリングし、文書表示部130上で表示する。本発明の実施形態では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
ユーザは文書表示部130上に表示される図19に示す表示用画面11を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部131は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
次に、文書解析部118の詳細な処理フローを、図14を用いて説明する。文書解析部118では、分別符号受付付与部131で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析し(STEP422)、該共通の単語の文書中の出現頻度を解析する(STEP423)。
さらに、STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
図15は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
図15において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部131によってSTEP421で抽出された単語を含む文書の割合を示している。
本発明の実施形態において、分別符号受付付与部131では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
STEP421乃至STEP424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
次に、第3自動分別部401の詳細な処理フローを、図16を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第3自動分別部401では、このような文書から、STEP424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP431)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP432)。また、STEP431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP433)。
第3自動分別部401では、さらに、STEP432で算出したスコアを用いて、分別結果を各データベースに反映する(STEP434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。
更に、第3自動分別部401の詳細な処理フローの1例を、図17を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第3自動分別部401では、引数が与えられなかった場合には(STEP441:なし)、該文書から、STEP424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP443)。また、STEP442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP444)。
第3自動分別部401では、さらに、STEP443で算出したスコアを用いて、分別結果を各データベースに反映する(STEP445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
上述のように第2自動分別部301と第3自動分別部401の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース106に一括して格納しても良い。
<第5段階(STEP500)>
第5段階における品質検査部501の詳細な処理フローを図18を用いて説明する。品質検査部501では、分別符号受付付与部131が、STEP411で受け付けた文書に対して、文書解析部118がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付付与部131が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
本発明の実施形態に係る文書分別調査システム1は、学習部601を備えても良い。学習部601では、第1から第4の処理結果をもとに、各キーワード又は関連用語の重みづけを式(2)により学習する。該学習結果をキーワードデータベース104、関連用語データベース105、又はスコア算出データベース106に反映しても良い。
本発明の実施形態に係る文書分別調査システム1は、文書分別処理の結果をもとに、訴訟案件( 例えば、訴訟であればカルテル・特許・FCPA・PLなど)、又は不正調査(例えば、情報漏洩、架空請求など) の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備える。
[本発明の実施形態の効果]
本発明の実施形態では、文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出し、算出されたスコアからスコアの時系列的な変化を検出し、検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査する。これにより、文書の分別にあたって時間的な変遷に伴って生じる文書の質の時系列的な変化を検出するとともに分別作業の負担軽減を可能とする文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラムを提供する。
1 文書分別調査システム
201 第1自動分別部
301 第2自動分別部
401 第3自動分別部
501 品質検査部
601 学習部
701 報告作成部
100 データ格納部
101 デジタル情報格納領域
103 調査基礎データベース
104 キーワードデータベース
105 関連用語データベース
106 スコア算出データベース
107 報告作成データベース
109 データベース管理部
112 文書抽出部
114 ワード検索部
116 スコア算出部
118 文書解析部
120 スコア変化検出部
122 スコア変化判定部
124 傾向情報生成部
130 文書表示部
131 分別符号受付付与部
133 弁護士レビュー受付部
140 スコア移動平均算出部
142 スコア差分移動平均算出部
11 文書表示画面

Claims (7)

  1. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査する文書分別調査システムにおいて、
    前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出するスコア算出部と、
    算出されたスコアからスコアの時系列的な変化を検出するスコア変化検出部と、
    検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査判定するスコア変化判定部とを備えることを特徴とする文書分別調査システム。
  2. 前記スコア変化検出部が、
    スコアの移動平均を算出するスコア移動平均算出部と、
    スコアの短期間移動平均と長期間移動平均からスコアの差分移動平均を算出するスコア差分移動平均算出部とを備えることを特徴とする請求項1記載の文書分別調査システム。
  3. スコア変化判定部が、異なる移動平均の差分の符号が変化する点、又は、異なる移動平均の差分が正である領域により調査案件と抽出された文書の関連度を調査判定することを特徴とする請求項1又は2記載の文書分別調査システム。
  4. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査することを特徴とする文書分別調査方法において、
    コンピュータが、
    前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出し、
    算出されたスコアからスコアの時系列的な変化を検出し、
    検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査することを特徴とする文書分別調査方法。
  5. スコアの移動平均を算出することにより、スコアの短期間移動平均と長期間移動平均を算出し、
    前記スコアの短期間移動平均と長期間移動平均からスコアの差分移動平均を算出することにより、スコアの時系列的な変化を検出することを特徴とする請求項4記載の文書分別調査方法。
  6. 異なる移動平均の差分の符号が変化する点、又は、異なる移動平均の差分が正である領域により調査案件と抽出された文書の関連度を調査判定することを特徴とする請求項4又は5記載の文書分別調査方法。
  7. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、調査案件への利用が容易になるように、調査案件との関連度を示す分別符号を文書に付与することを通して調査案件と文書との関連度を調査する文書分別調査プログラムにおいて、
    コンピュータに、
    前記文書情報から文書を抽出し、抽出された文書について、文書と分別符号との結びつきの強さを示すスコアを時系列的に算出させる機能と、
    算出されたスコアからスコアの時系列的な変化を検出する機能と、
    検出されたスコアの時系列的な変化から調査案件と抽出された文書の関連度を調査させる機能とを実現させることを特徴とする文書分別調査プログラム。
JP2013222334A 2013-10-25 2013-10-25 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム Expired - Fee Related JP5592552B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013222334A JP5592552B1 (ja) 2013-10-25 2013-10-25 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
US14/397,852 US9595071B2 (en) 2013-10-25 2014-03-17 Document identification and inspection system, document identification and inspection method, and document identification and inspection program
PCT/JP2014/057069 WO2015059940A1 (ja) 2013-10-25 2014-03-17 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
TW103130212A TWI518631B (zh) 2013-10-25 2014-09-02 File classification survey system, document classification survey method and file classification survey program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013222334A JP5592552B1 (ja) 2013-10-25 2013-10-25 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム

Publications (2)

Publication Number Publication Date
JP5592552B1 JP5592552B1 (ja) 2014-09-17
JP2015084168A true JP2015084168A (ja) 2015-04-30

Family

ID=51702032

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013222334A Expired - Fee Related JP5592552B1 (ja) 2013-10-25 2013-10-25 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム

Country Status (4)

Country Link
US (1) US9595071B2 (ja)
JP (1) JP5592552B1 (ja)
TW (1) TWI518631B (ja)
WO (1) WO2015059940A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583669A (zh) * 2017-09-28 2019-04-05 北京国双科技有限公司 数据获取方法、装置、存储介质及处理器
JP7078429B2 (ja) * 2018-03-20 2022-05-31 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
CN108804418B (zh) * 2018-05-21 2022-03-08 浪潮软件股份有限公司 一种基于语义分析的文档查重方法和装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3613401B2 (ja) * 1992-07-06 2005-01-26 マイクロソフト コーポレーション オブジェクトの名称を付けて結び付ける方法及びシステム
JP2000315207A (ja) 1999-04-30 2000-11-14 Just Syst Corp 文書データを評価するプログラムを記憶した記憶媒体
US20030120507A1 (en) * 2001-12-20 2003-06-26 Koninklijke Kpn N.V. Method and device for information selection
US7024408B2 (en) * 2002-07-03 2006-04-04 Word Data Corp. Text-classification code, system and method
JP4894510B2 (ja) * 2006-12-27 2012-03-14 富士通株式会社 文献検索プログラム、文献検索装置、文献検索方法
JP2011014086A (ja) 2009-07-06 2011-01-20 Hitachi Systems & Services Ltd 文書変遷抽出装置及びそのプログラム
JP4868191B2 (ja) 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP5530476B2 (ja) 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984518A (zh) * 2018-06-11 2018-12-11 人民法院信息技术服务中心 一种面向裁判文书的文本分类方法

Also Published As

Publication number Publication date
US9595071B2 (en) 2017-03-14
JP5592552B1 (ja) 2014-09-17
WO2015059940A1 (ja) 2015-04-30
TWI518631B (zh) 2016-01-21
US20160155207A1 (en) 2016-06-02
TW201516946A (zh) 2015-05-01

Similar Documents

Publication Publication Date Title
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
US20160292803A1 (en) Document Analysis System, Document Analysis Method, and Document Analysis Program
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5592552B1 (ja) 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
JP2014078081A (ja) フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP5683749B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5990562B2 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5829768B2 (ja) 電子メール分析システム、電子メール分析方法、および、電子メール分析プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2014167835A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140731

R150 Certificate of patent or registration of utility model

Ref document number: 5592552

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

LAPS Cancellation because of no payment of annual fees