JP5683749B1 - 文書分析システム、文書分析方法、および、文書分析プログラム - Google Patents

文書分析システム、文書分析方法、および、文書分析プログラム Download PDF

Info

Publication number
JP5683749B1
JP5683749B1 JP2014511638A JP2014511638A JP5683749B1 JP 5683749 B1 JP5683749 B1 JP 5683749B1 JP 2014511638 A JP2014511638 A JP 2014511638A JP 2014511638 A JP2014511638 A JP 2014511638A JP 5683749 B1 JP5683749 B1 JP 5683749B1
Authority
JP
Japan
Prior art keywords
document
score
information
unit
classification code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014511638A
Other languages
English (en)
Other versions
JPWO2015118620A1 (ja
Inventor
守本 正宏
正宏 守本
喜勝 白井
喜勝 白井
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
彰晃 花谷
彰晃 花谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Application granted granted Critical
Publication of JP5683749B1 publication Critical patent/JP5683749B1/ja
Publication of JPWO2015118620A1 publication Critical patent/JPWO2015118620A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

監視すべき文書の優先度を数値化することにより、文書の監視を効率化する。文書分析システム(1)は、文書情報に含まれる文書が、文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出部(116)と、算出されたスコアに応じて、当該スコアをユーザに報告するスコア報告部(701)とを備えている。

Description

本発明は、所定のコンピュータまたはサーバに記録された文書情報を分析する文書分析システム等に関するものである。
コンピュータに関連する犯罪または法的紛争(不正アクセス、機密情報漏洩など)が生じた場合、当該犯罪または法的紛争の原因を究明する捜査に必要な機器、データ、または電子的記録を収集および分析する必要がある。特に、米国の民事訴訟においては、eDiscovery(電子証拠開示)制度のもとで、当該訴訟の原告および被告は、当該訴訟に関連するデジタル情報を証拠として提出する責任を負う。
一方、IT(Information technology)の急速な発達および普及に伴い、近年のビジネスにおいては、多くの情報がコンピュータを用いて作成されている。そのため、法廷に証拠資料を提出する準備を行う過程において、当該訴訟に関連しない機密情報まで証拠資料に含めてしまうミスが生じやすい。上記問題を解決するために、文書情報を分析するフォレンジックシステムに関する技術が、下記特許文献1〜3に提案されている。
また、特許文献4には、監査対象となる電文データが改竄不可能な形式で保管されることを担保しつつ、かつ監査対象となる電文データの検索処理を迅速かつ容易に実行することを可能とする電文データの監査用保管・検索システムが開示されている。また、特許文献5には、監査実施者等に過剰な負担をかけず監査が機能しうる電子メール監査システムが開示されている。さらに、特許文献6には、電子メールの監査を行う監査者の作業を効率化するとともに、適切な監査を実現する電子メール監査装置が開示されている。
特開2011−209930号公報(2011年10月20日公開) 特開2011−209931号公報(2011年10月20日公開) 特開2012−032859号公報(2012年02月16日公開) 特開2008−123423号公報(2008年05月29日公開) 特開2006−085642号公報(2006年03月30日公開) 特開2011−191829号公報(2011年09月29日公開)
上記従来のフォレンジックシステムに関する技術によれば、キーワードまたはドメインを用いてドキュメントを検索することによって、監視すべきドキュメントを抽出していた。しかし、当該方法によれば、監視すべきドキュメントを適切に抽出できない場合が考えられる。
例えば、キーワードの絞り込みが不足したことにより、監視対象の候補となるドキュメントが大量に列挙される場合があり、この場合は、監査人などが目視によって確認する(レビューする)必要が生じる。逆に、上記絞り込みが行き過ぎたことにより、監視対象とすべきドキュメントが検索結果から漏れたりすることも考えられる。これでは、例えば、カルテルを防止したいという要請に対して万全に応えられない。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、監視すべき文書の優先度を数値化することにより、文書の監視を効率化することができる文書分析システム等を提供することである。
上記課題を解決するために、本発明の文書分析システムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析システムであって、前記文書情報に含まれる文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出部と、前記スコア算出部によって算出されたスコアに応じて、当該スコアをユーザに報告するスコア報告部とを備えている。
また、上記文書分析システムでは、前記スコア報告部は、前記スコア算出部によって算出されたスコアが所定のしきい値を超過した場合、当該スコアを報告してよい。
また、上記文書分析システムでは、前記スコア報告部は、前記スコア算出部によって算出されたスコアを視認可能に表示することによって、当該スコアを報告してよい。
また、上記文書分析システムは、前記スコア報告部によって報告されたスコアを有する文書を、前記文書情報から抽出する文書抽出部をさらに備えてよい。
また、上記文書分析システムでは、前記文書抽出部は、前記文書情報に含まれるキーワードおよび/または文章を、前記訴訟または不正調査に関連する情報として当該文書情報から抽出してよい。
また、上記文書分析システムは、前記キーワードおよび/または文章を、前記複数の文書の中から検索するワード検索部をさらに備えてよい。
また、上記課題を解決するために、本発明の文書分析方法は、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析方法であって、前記文書情報に含まれる文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出ステップと、前記スコア算出ステップにおいて算出したスコアに応じて、当該スコアをユーザに報告するスコア報告ステップとを含んでいる。
また、上記課題を解決するために、本発明の文書分析プログラムは、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析プログラムであって、コンピュータに、前記文書情報に含まれる文書が、前記文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出させるスコア算出機能と、前記スコア算出機能によって算出されたスコアに応じて、当該スコアをユーザに報告させるスコア報告機能とを実現させる。
本発明の文書分析システム、文書分析方法、および、文書分析プログラムによれば、監視すべき文書の優先度を数値化することができるため、文書の監視を効率化できるという効果を奏する。
本発明の実施形態に係る文書分析システムの構成例を示すブロック図 上記文書分析システムにおいて実行される処理(本発明の実施形態に係る文書分析方法)の一例を示すフローチャート 本発明の実施形態に係る文書分析方法における処理の流れを示すチャート 本発明の実施形態に係る文書分析方法における調査種類に応じた調査及び分別処理の流れを示すチャート 本発明の実施形態に係る文書分析方法における調査種類に応じたプレディクティブコーディングの流れを示すチャート 実施形態における段階ごとの処理の流れを示したチャート 実施形態におけるキーワードデータベースの処理フローを示すチャート 本実施形態における関連用語データベースの処理フローを示したチャート 本実施形態における第1自動分別部の処理フローを示したチャート 本実施形態における第2自動分別部の処理フローを示したチャート 本実施形態における分別符号受付付与部の処理フローを示したチャート 本実施形態における文書解析部の処理フローを示したチャート 本実施形態における文書解析部での解析結果を示したグラフ 本実施形態の1実施例における第3自動分別部の処理フローを示したチャート 本実施形態の他の実施例における第3自動分別部の処理フローを示したチャート 本実施形態における品質検査部の処理フローを示したチャート 本実施形態における文書表示画面
〔文書分析システム1の構成〕
図1は、本発明の実施形態に係る文書分析システム1の構成例を示すブロック図である。文書分析システム1は、複数のコンピュータまたはサーバに記録されたデジタル情報(ビッグデータ)を取得し、当該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析するシステムである。
図1に示されるように、文書分析システム1は、データ格納部100(デジタル情報格納領域101、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、報告作成データベース107)、データベース管理部109、文書抽出部112、ワード検索部114、スコア算出部116、スコア報告部701、第1自動分別部201、第2自動分別部301、文書表示部130、分別符号受付付与部131、文書解析部118、および、第3自動分別部401を備えている。また、文書分析システム1は、傾向情報生成部124、品質検査部501、学習部601、弁護士レビュー受付部133、言語判定部120、および、翻訳部122をさらに備えてよい。
(データ格納部100)
データ格納部100は、訴訟または不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報を、デジタル情報格納領域101に格納する。また、データ格納部100は、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、および、報告作成データベース107を含む。なお、データ格納部100は、図1に示されるように、文書分析システム1の内部に含まれる記録媒体であってもよいし、当該文書分析システム1と通信可能に接続された外部の記録媒体であってもよい。
調査基礎データベース103は、例えば、反トラスト、特許、海外賄賂禁止(Foreign Corrupt Practices Act;FCPA)、製造物責任(Products Liability;PL)などを含む訴訟案件、および/または、情報漏洩、架空請求などを含む不正調査のいずれのカテゴリに属するかを示すカテゴリ属性、会社名、担当者、カストディアン、および、調査または分別入力画面の構成を保持する。
キーワードデータベース104は、取得されたデジタル情報に含まれる、文書の特定の分別符号、当該特定の分別符号と密接な関係を有するキーワード、および、当該特定の分別符号と当該キーワードとの対応関係を示すキーワード対応情報を保持する。
関連用語データベース105は、所定の分別符号、当該所定の分別符号が付与された文書において、出現頻度が高い単語からなる関連用語、および、当該所定の分別符号と関連用語との対応関係を示す関連用語対応情報を保持する。
スコア算出データベース106は、文書と分別符号との結びつきの強さを示すスコアを算出するために、当該文書に含まれるワードの重み付けを保持する。
報告作成データベース107は、カテゴリ、カストディアン、分別作業の内容に応じて定められる報告書の形式を保持する。
(データベース管理部109)
データベース管理部109は、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、および、報告作成データベース107のデータ内容の更新を管理する。データベース管理部109は、専用接続線またはインターネット回線901を介して情報格納装置902に接続されてよい。この場合、データベース管理部109は、情報格納装置902に格納されるデータの内容に基づいて、調査基礎データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、および、報告作成データベース107のデータ内容を更新してもよい。
(文書抽出部112)
文書抽出部112は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、当該取得されたデジタル情報に含まれる文書情報から複数の文書を抽出する。特に、文書抽出部112は、スコア報告部701によってユーザに報告されたスコアを有する文書を、上記文書情報から抽出できる。
また、文書抽出部112は、上記文書情報に含まれるキーワードおよび/または文章を、訴訟または不正調査に関連する情報として当該文書情報から抽出できる。なお、文書抽出部112は、ユーザによって(手動で)指定された文書を取得することもでき、この場合、文書を指定する文字列を1文字受け付けるたびに(すなわち、オンザフライで)、該当の文書を抽出することができる。
(ワード検索部114)
ワード検索部114は、データベースに記録されたキーワードまたは関連用語を、文書情報から検索する。特に、ワード検索部114は、文書抽出部112によって抽出されたキーワードおよび/または文章を、複数の文書の中から検索することができる。
(スコア算出部116)
スコア算出部116は、文書情報から抽出された文書(文書情報に含まれる文書)が、当該文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出する。上記スコアの算出方法については、後で詳細に説明する。
スコア算出部116は、上記スコアを時系列的に算出してよい。また、上記スコアを時系列的に算出する場合、スコア算出部116は、当該スコアの移動平均をさらに算出し、当該移動平均の値を上記スコアとして算出してもよい。これにより、文書分析システム1は、上記スコアの微小な変動を平滑化できるため、より頑健な分析結果を得ることができる。
(スコア報告部701)
スコア報告部701は、スコア算出部116によって算出されたスコアに応じて、当該スコアをユーザに報告(レポート)する。ここで、スコア報告部701は、例えば、上記スコアが所定のしきい値を超過した場合、当該スコアを報告してよい。なお、上記所定のしきい値は、ユーザからの入力に基づいて、任意に設定可能である。
スコア報告部701は、スコア算出部116によって算出されたスコアを視認可能に表示することによって、当該スコアを報告することができる。具体的には、スコア報告部701が上記スコアを文書表示部130に出力することによって、例えば、文書表示画面11(図17参照)に当該スコアを表示することができる。
スコア報告部701がユーザに上記スコアを報告するタイミングは、任意である。例えば、スコア報告部701は、所定の時間が経過するごとに、上記スコアを報告してよい。または、スコア報告部701は、オンデマンドで(ユーザから報告を要請する入力を受け付けるたびに)、上記スコアを報告してもよい。あるいは、スコア報告部701は、上記所定のしきい値を超過する文書が検出されるたびに、自動的に報告してもよい。
スコア報告部701は、文書を分別処理した結果をもとに、訴訟案件または不正調査の調査種類に応じて、最適な調査レポートを出力できる。なお、訴訟案件には、例えば、反トラスト、特許、海外賄賂禁止(FCPA)、製造物責任(PL)などが含まれる。また、不正調査には、例えば、情報漏洩、架空請求などが含まれる。
(文書表示部130)
文書表示部130は、スコア報告部701によってユーザに報告されるスコアを、文書表示画面11(図17参照)において視認可能に表示する。文書表示部130は、文書情報から抽出された複数の文書を、画面上に表示してもよい。
また、スコア報告部701によって報告されたスコアを有する文書が、文書抽出部112によって抽出された場合、文書表示部130は、当該抽出された文書を文書表示画面11に表示できる。
(第1自動分別部201)
第1自動分別部201は、ワード検索部114によってキーワードデータベース104に格納されたキーワードが検索され、文書抽出部112によって当該キーワードを含む文書が文書情報から抽出された場合、当該抽出された文書に対して、キーワード対応情報に基づいて特定の分別符号を自動的に付与する。
(第2自動分別部301)
第2自動分別部301は、関連用語データベースに格納された関連用語を含む文書が文書情報から抽出され、当該抽出された文書に含まれる関連用語の評価値、および当該関連用語の数に基づいて、スコアが算出された場合、上記関連用語を含む文書のうち、当該スコアが一定値を超過した文書に対して、当該スコアおよび関連用語対応情報に基づいて、所定の分別符号を自動的に付与する。
(言語判定部120)
言語判定部120は、抽出された文書の言語の種類を判定する。
(翻訳部122)
翻訳部122は、ユーザから指定を受け付けて、または、自動的に、抽出した文書を翻訳する。この場合、1文多言語の複合言語にも対応できるように、言語判定部における言語の区切りを、1文より小さくすることが望ましい。また、言語の判定に、プレディクティブコーディング、キャラクターコーディングのいずれか、または両方を用いてもよい。さらに、HTML(Hyper Text Markup Language)のヘッダなどを、翻訳の対象から除外する処理を行うようにしてもよい。
(分別符号受付付与部131)
分別符号受付付与部131は、文書情報から抽出された、分別符号が付与されていない複数の文書に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、当該分別符号を付与する。
(文書解析部118)
文書解析部118は、分別符号受付付与部131によって分別符号を付与された文書を解析する。また、文書解析部118は、訴訟との関連性に基づいて、ユーザから分別符号を受け付けて付与した文書に加え、第1自動分別部201および第2自動分別部301において、キーワード、関連用語、スコアに基づいて自動的に分別符号が付与された文書を解析し、ユーザから分別符号を受け付けて付与した上記文書と、自動的に分別符号が付与された上記文書とを統合して、総合的な解析結果を得てもよい。この場合、第3自動分別部401は、当該総合的な解析結果に基づいて、分別符号を自動的に付与することができる。
なお、分別および調査作業の進め方には、ワード検索による自動分別、ユーザによる分別および調査の受け付け、スコアを用いる自動分別および調査、学習過程を介在させる自動分別および調査、品質保証を介在させる自動分別および調査など、多様な進め方がある。上記多様な分別および調査作業が、どのような順序で、どのように組み合わされて進行したかを示す進行履歴とともに、分別符号が付与された複数の文書を文書解析部118が解析し、後述する報告作成部701が当該解析した結果を報告してもよい。
(第3自動分別部401)
第3自動分別部401は、分別符号受付付与部131によって分別符号を付与された文書が、文書解析部118によって解析された結果に基づいて、文書情報から抽出された複数の文書に分別符号を自動的に付与する。
(傾向情報生成部124)
傾向情報生成部124は、文書解析部118が解析するために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する。
(品質検査部501)
品質検査部501は、分別符号受付付与部131によって受け付けられた分別符号と、文書解析部118によって傾向情報により付与された分別符号とを比較し、分別符号受付付与部131によって受け付けられた分別符号の妥当性を検証する。
(学習部601)
学習部601は、文書を分別処理した結果をもとに、各キーワードまたは関連用語の重み付けを学習する。学習部601は、第1から第4の処理結果(後述)をもとに、各キーワードまたは関連用語の重みづけを式(2)により学習する。学習部601は、当該学習結果をキーワードデータベース104、関連用語データベース105、またはスコア算出データベース106に反映してもよい。
(弁護士レビュー受付部133)
弁護士レビュー受付部133は、分別調査と報告との質を向上させ、分別調査と報告との責任を明確にするために、主任弁護士または主任弁理士のレビューを受け付ける。
〔用語の説明〕
「分別符号」は、文書を分類するために用いられる識別子であって、文書を訴訟に利用することが容易となるように、当該訴訟との関連度を示す識別子である。例えば、訴訟において文書情報を証拠として利用する場合、証拠の種類に応じて付与されてよい。
「文書」は、1つ以上の単語を含むデータであり、例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書などであってよい。
「単語」は、意味を有する最少の文字列のまとまりである。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章には、「文書」、「1つ」、「以上」、「単語」、「含む」、「データ」、「いう」という単語が含まれる。
「キーワード」は、ある言語において、一定の意味を有する文字列のまとまりである。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」、「分別」とすることができる。本実施形態においては、「侵害」や「訴訟」、あるいは「特許公報○○号」などのキーワードが、重点的に選定される。なお、上記「キーワード」は、形態素を含んでよい。
「キーワード対応情報」は、キーワードと特定の分別符号との対応関係を表す情報である。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、上記「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」とを紐づけて管理する情報であってもよい。
「関連用語」は、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上の用語である。ここで、出現頻度は、例えば、ひとつの文書に登場する単語の総数のうち、関連用語が出現する割合であってよい。
「評価値」は、各単語がある文書において発揮する情報量を示す値である。「評価値」は、伝達情報量を基準に算出されてもよい。例えば、所定の商品名を分別符号として付与する場合、上記「関連用語」は、当該商品が属する技術分野の名称、当該商品の販売国、当該商品の類似商品名などを指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」などが挙げられる。
「関連用語対応情報」は、関連用語と分別符号との対応関係を表す情報をいう。例えば、訴訟に係る商品名である「製品A」という分別符号が、製品Aの機能である「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報であってもよい。
「スコア」は、ある文書において、特定の分別符号との結びつきの強さを定量的に評価した値をいう。本発明の各実施形態においては、例えば、以下の式(1)を用いて、文書に出現する単語と各単語の持つ評価値とによって、スコアが算出される。
文書分析システム1は、ユーザが付与した分別符号が共通する文書に頻出する単語を抽出してもよい。そして、文書ごとに含まれる、当該抽出した単語の種類、各単語がもつ評価値、および出現数の傾向情報を文書ごとに解析し、分別符号受付付与部131によって分別符号が受け付けられていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号を付与してもよい。
ここで、「傾向情報」は、各文書が持つ、分別符号が付与された文書との類似の度合いを表す情報であって、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される情報である。例えば、各文書が、所定の分別符号を付与された文書と、当該所定の分別符号との関連度において類似である場合に、当該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
〔文書分析システム1において実行される処理〕
図2は、文書分析システム1において実行される処理(本発明の実施形態に係る文書分析方法)の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、上記文書分析方法(文書分析システム1の制御方法)に含まれる各ステップを表す。
まず、文書抽出部112が、文書情報を取得し、当該文書情報から文書を抽出する(ステップ41、以下「ステップ」を「S」と略記する)。次に、スコア算出部116は、文書情報に含まれる文書が、当該文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出する(S42、スコア算出ステップ)。次に、スコア報告部701は、スコア算出部116によって算出されたスコアに応じて、当該スコアをユーザに報告(レポート)する(S43、スコア報告ステップ)。
〔文書分析システム1において実行される処理の詳細〕
図3は、本発明の実施形態に係る文書分析方法の詳細なフローチャートである。なお、図2に示されたフローは、図3に示されるフローから独立した処理として実行されてもよいし、図3に示されるフローの任意の箇所に内包される処理として実行されてもよい。
表示部の表示画面の表示に応じてユーザから引数の指定を受け付けて、例えば、反トラスト、特許、FCPA、PLを含む訴訟案件、又は情報漏洩、架空請求を含む不正調査から対応するカテゴリを特定することができる(S11)。
特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースを特定することができる(S12)。
使用データベースが最新のものかどうか確認するために、最新データベースを格納する情報格納装置にアクセスすることができる。情報格納装置は、分別を実施する組織の内部に設置される場合と、組織の外部に設置される場合がある。情報格納装置が組織の外部に設置される場合として、例えば、提携する法律事務所又は特許事務所に設置される場合がある。
情報格納装置にアクセスする場合には、セキュリティーを保持するために、ID及びパスワードによる認証が行われることができる。(S13)
認証が行われた後に、情報格納装置にアクセスすることが許可され、調査基礎データベース、文書分析データベース等の使用データベースが指針のデータベースに更新されることができる(S14)。
更新された調査基礎データベースを検索し(S15)、表示装置の画面に会社名、担当者、カストディアンの名前が提示されることができる(S16)。
表示装置の画面に表示される担当者とカストディアンの名前が実際の担当者とカストディアンの名前と異なる場合は、ユーザは表示装置の画面で担当者とカストディアンの名前を修正する。文書分析装置は、ユーザの修正入力を受け付けて、実際の担当者とカストディアンの名前を特定することができる(S17)。
次に、文書分析作業を実施するために、デジタル文書情報を抽出することができる(S18)。
更新された文書分析データベースとして、更新されたキーワードデータベース、関連用語データベース、及びスコア算出データベースを検索して(S19)、抽出文書情報に分別符号を付与することができる(S20)。
また、レビュアーによる分別符号を受け付けて、抽出文書情報に分別符号を付与することができる(S21)。
分別結果を教師データとして、データベースを検索し、抽出文書情報に分別符号を付与することができる(S22)。
主任弁護士又は弁理士によるレビューを受け付けることができる(S23)。これにより、調査の質を向上させることができる。
ユーザの引数指定によりカテゴリを特定し(S24)、特定されたカテゴリに応じて報告作成データベースを特定することができる(S25)。特定された報告作成データベースにより、報告書の形式を定め、報告書を自動出力することができる(S26)。
図4は、本発明の実施形態に係る文書分析方法における調査種類に応じた調査及び分別処理の流れを示すチャートである。
最初に、調査種類を入力することができる(S31)。すなわち、表示画面の表示に応じて、ユーザが、例えば、反トラスト、特許、海外賄賂禁止(FCPA)、製造物責任(PL)を含む訴訟案件又は情報漏洩、架空請求を含む不正調査から実施しようとする調査及び分別作業と対応するカテゴリを入力する。文書分析システムは、ユーザのカテゴリの入力を受け付けて、調査対象となるカテゴリを特定することができる。
特定されたカテゴリに応じて、調査及び文書分析処理の種類と使用するデータベースの種類を判定することができる(S32)。
特定されたカテゴリに応じて、調査基礎データベース、文書分析データベース等の使用データベースに記憶された情報のストックにアクセスしてもよい(S33)。
特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各キーワード入力画面を表示することができる(S34)。
特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じた各文章入力画面を表示することができる(S35)。
特定されたカテゴリに応じて調査基礎データベースにアクセスし、特定されたカテゴリに応じてキーワードもしくは文書を抽出することができる(S36)。
上述の処理をすることにより、自動分別符号付与(プレディクティブコーディング)の教師データに重み付けを追加して行うことができる(S37)。
文書分析データベースをキーワード検索することにより、抽出文書及び情報の絞り込みを行うことができる(S38)。
図5は、本発明の実施形態に係る文書分析方法における調査種類に応じたプレディクティブコーディングの流れを示すチャートである。
本発明の実施形態に係る文書分析方法では、最初に、文書分析システムが調査の種類に応じてユーザに入力を求め、それに対するユーザの入力を受け付けることができる。例えば、反トラスト法と関連してカルテルについて、対象製品、関係者(氏名とメールアドレス)、関係組織(名称と部門)及び時期について、ユーザの入力を求め、それに対するユーザの入力を受け付けることができる。その他に、関係組織については、競争相手企業と顧客企業に関してユーザの入力を求め、それに対するユーザの入力を受け付けることができる(S51)。
次に、入力キーワードによって、分別符号付与に対する重み付けを行うことができる(S52)。そして、プレディクティブコーディングを行うことができる(S53)。
本発明の実施形態では、一例として、図6に示すようなフローチャートに従い、第1段階〜第5段階で、登録処理、分別処理、及び検査処理を行う。
第1段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。
第2段階では、第1段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第1分別処理を行う(STEP200)。
第3段階では、第1段階で更新登録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第2分別処理を行う(STEP300)。
第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第3分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。また、必要に応じて、文書分析処理の結果に基づいて学習処理を行っても良い。
第4段階及び第5段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
第1段階から第5段階の各段階における詳細な処理フローを以下で説明する。
<第1段階(STEP100)>
第1段階におけるキーワードデータベース104の詳細な処理フローを図7を用いて説明する。
キーワードデータベース104は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(STEP111)。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する(STEP112)。そして、特定されたキーワードをキーワードデータベース104に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース104の分別符号「重要」の管理テーブルに記録する(STEP113)。
次に、関連用語データベース105の詳細な処理フローを図8を用いて説明する。関連用語データベース105は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する(STEP121)。本発明の実施形態においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を登録する。
登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、各管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する(STEP113、STEP123)。
<第2段階(STEP200)>
第2段階における第1自動分別部201の詳細な処理フローを、図9を用いて説明する。本発明の実施形態において、第2段階では、第1自動分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第1自動分別部201では、第1段階(STEP100)でキーワードデータベース104に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(STEP211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、(STEP212)、「重要」という分別符号を付与する(STEP213)。
<第3段階(STEP300)>
第3段階における第2自動分別部301の詳細な処理フローを、図10を用いて説明する。
本発明の実施形態において、第2自動分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
第2自動分別部301は、該文書情報から、第1段階で関連用語データベース105に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(STEP311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)を用いて、スコア算出部116によりスコアを算出する(STEP312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
該スコアが閾値を超過した場合、関連用語対応情報を参照し(STEP313)、適切な分別符号を付与する(STEP314)。
例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
第2自動分別部301では、第4段階のSTEP432において算出されるスコアを用いて以下に示す式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う(STEP315)。
例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
<第4段階(STEP400)>
第4段階では、図11に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図12に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
第4段階における分別符号受付付与部131の詳細な処理フローを、図11を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部112が、ランダムに文書をサンプリングし、文書表示部130上で表示する。本発明の実施形態では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
ユーザは文書表示部130上に表示される図17に示す文書表示画面11を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部131は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
次に、文書解析部118の詳細な処理フローを、図12を用いて説明する。文書解析部118では、分別符号受付付与部131で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析し(STEP422)、該共通の単語の文書中の出現頻度を解析する(STEP423)。
さらに、STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
図13は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
図13において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部131によってSTEP421で抽出された単語を含む文書の割合を示している。
本発明の実施形態において、分別符号受付付与部131では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
STEP421乃至STEP424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
次に、第3自動分別部401の詳細な処理フローを、図14を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第3自動分別部401では、このような文書から、STEP424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP431)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP432)。また、STEP431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP433)。
第3自動分別部401では、さらに、STEP432で算出したスコアを用いて、分別結果を各データベースに反映する(STEP434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。
更に、第3自動分別部401の詳細な処理フローの1例を、図15を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第3自動分別部401では、引数が与えられなかった場合には(STEP441:なし)、該文書から、STEP424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP443)。また、STEP442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP444)。
第3自動分別部401では、さらに、STEP443で算出したスコアを用いて、分別結果を各データベースに反映する(STEP445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
上述のように第2自動分別部301と第3自動分別部401の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース106に一括して格納しても良い。
<第5段階(STEP500)>
第5段階における品質検査部501の詳細な処理フローを図16を用いて説明する。品質検査部501では、分別符号受付付与部131が、STEP411で受け付けた文書に対して、文書解析部118がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付付与部131が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
本発明の実施形態に係る文書分析システム1は、学習部601を備えても良い。学習部601では、第1から第4の処理結果をもとに、各キーワード又は関連用語の重みづけを式(2)により学習する。該学習結果をキーワードデータベース104、関連用語データベース105、又はスコア算出データベース106に反映しても良い。
本発明の実施形態に係る文書分析システムは、文書分析処理の結果をもとに、訴訟案件(例えば、訴訟であればカルテル・特許・FCPA・PLなど)、又は不正調査(例えば、情報漏洩、架空請求など)の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備えることができる。
調査種類によって、調査する内容は異なる。例えば、カルテル案件であれば、
1.競合の担当者がカルテルに関連する意思疎通(価格の調整)を、いつ・どのように取ったか?
2.関係者はどの組織の誰か?
がポイントになる。
また、特許侵害であれば、
1.侵害の対象になっている技術と内容が同じか?
2.誰が、いつ、どのような意図をもって(持たずに)侵害したか、もしくはしていないか?
といったことがポイントになる。
〔文書分析システム1が奏する効果〕
文書分析システム1によれば、文書情報に含まれる文書が、文書情報と訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出し、当該スコアをユーザに報告することができる。すなわち、監視すべき文書の優先度を数値化し、ユーザにフィードバックできるため、文書の監視を効率化できるという効果を奏する。
〔他の実施形態〕
本発明の実施形態の他の実施例について以下に記載する。本発明の実施形態の他の実施例では、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する方法を用いる。
類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。
本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。
本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。これにより、本発明の実施形態の他の実施例では、これにより、迅速で的確な分別符号の付与を可能とすると共に、分別作業に伴う負担を軽減することができる。
〔付記事項〕
文書分析システム1の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム1は、各機能を実現するソフトウェアであるプログラム(制御プログラム)の命令を実行するCPU、上記プログラム及び各種データがコンピュータ(又はCPU)で読み取り可能に記録されたROM(Read Only Memory)又は記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(又はCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述したそれぞれの実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析システムであって、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースと、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付部と、前記調査カテゴリ入力受付部が受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記調査基礎データベースから、必要な情報の種類を抽出する調査種類判定部とを備える文書分析システム。
前記文書分析システムは、さらに、ユーザに対し、前記調査種類判定部が抽出した情報の種類を提示する表示画面を制御する表示画面制御部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記表示画面制御部に提示された情報の種類に対応した、ユーザによるキーワードおよび/または文章の入力を受け付ける入力受付部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記調査基礎データベースから、前記調査種類判定部が抽出した情報の種類に対応した、キーワードおよび/または文章を抽出する情報抽出部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記キーワードおよび/または文章を、前記文書の中から検索する検索部を備えることを特徴とする文書分析システム。
前記文書分析システムは、さらに、前記文書に対して自動で分別符号を付与する自動分別符号付与部を備え、前記キーワードおよび/または文章は、前記分別符号の付与に利用されることを特徴とする文書分析システム。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析方法であって、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付ステップと、前記調査カテゴリ入力受付ステップが受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定ステップとを備える文書分析方法。
複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用を容易にする文書分析プログラムであって、コンピュータに、前記訴訟又は不正調査のカテゴリの入力を受け付ける調査カテゴリ入力受付機能と、前記調査カテゴリ入力受付機能により受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、前記訴訟又は不正調査に関連する情報を記憶する調査基礎データベースから、必要な情報の種類を抽出する調査種類判定機能とを実現させるための文書分析プログラム。
1 文書分析システム
201 第1自動分別部
301 第2自動分別部
401 第3自動分別部
501 品質検査部
601 学習部
701 スコア報告部
100 データ格納部
101 デジタル情報格納領域
103 調査基礎データベース
104 キーワードデータベース
105 関連用語データベース
106 スコア算出データベース
107 報告作成データベース
109 データベース管理部
112 文書抽出部
114 ワード検索部
116 スコア算出部
118 文書解析部
120 言語判定部
122 翻訳部
124 傾向情報生成部
130 文書表示部
131 分別符号受付付与部
133 弁護士レビュー受付部
11 文書表示画面

Claims (8)

  1. 所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析システムであって、
    前記文書情報および更新された文書情報と、訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出部と、
    前記訴訟案件または不正調査の調査種類に基づいて、前記スコア算出部によって算出されたスコアが所定のしきい値を超過した場合、当該スコアを用いたレポートをユーザから報告を要請する入力を受け付けるたびにユーザに報告するスコア報告部と
    前記スコア報告部によって報告されたスコアを有する文書を、前記文書情報から抽出する文書抽出部と、
    前記抽出された文書を表示する文書表示部とを備えたことを特徴とする文書分析システム。
  2. 前記文書分析システムは、前記文書情報に関する調査対象となるカテゴリの入力を受け付けるものであることを特徴とする請求項1に記載の文書分析システム。
  3. 前記スコア報告部は、前記スコア算出部によって算出されたスコアを視認可能に前記文書表示部に出力することを特徴とする請求項1または2に記載の文書分析システム。
  4. 前記文書分析システムは、前記訴訟または不正調査のカテゴリを特定するものであって、前記スコア算出部は、前記特定されたカテゴリに応じて、スコアを算出するものであることを特徴とする請求項1から3のいずれか1項に記載の文書分析システム。
  5. 前記文書抽出部は、前記文書情報に含まれるキーワードおよび/または文章を、前記訴訟または不正調査に関連する情報として当該文書情報から抽出することを特徴とする請求項4に記載の文書分析システム。
  6. 前記キーワードおよび/または文章を、前記複数の文書の中から検索するワード検索部をさらに備えたことを特徴とする請求項5に記載の文書分析システム。
  7. 所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析方法であって、
    前記文書情報および更新された文書情報と、訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出するスコア算出ステップと、
    前記訴訟案件または不正調査の調査種類に基づいて、前記スコア算出ステップによって算出されたスコアが所定のしきい値を超過した場合、当該スコアを用いたレポートをユーザから報告を要請する入力を受け付けるたびにユーザに報告するスコア報告部と
    前記スコア報告部によって報告されたスコアを有する文書を、前記文書情報から抽出する文書抽出ステップと、
    前記抽出された文書を表示する文書表示ステップとを含むことを特徴とする文書分析方法。
  8. 所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析する文書分析プログラムであって、コンピュータに、
    前記文書情報および更新された文書情報と、訴訟または不正調査との関連度を示す分別符号と結びつく強さを示すスコアを算出させるスコア算出機能と、
    前記訴訟案件または不正調査の調査種類に基づいて、前記スコア算出機能によって算出されたスコアが所定のしきい値を超過した場合、当該スコアを用いたレポートをユーザから報告を要請する入力を受け付けるたびにユーザに報告するスコア報告機能と
    前記スコア報告部によって報告されたスコアを有する文書を、前記文書情報から抽出する文書抽出機能と、
    前記抽出された文書を表示する文書表示機能とを実現させることを特徴とする文書分析プログラム。
JP2014511638A 2014-02-04 2014-02-04 文書分析システム、文書分析方法、および、文書分析プログラム Expired - Fee Related JP5683749B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052582 WO2015118620A1 (ja) 2014-02-04 2014-02-04 文書分析システム、文書分析方法、および、文書分析プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2015004586A Division JP5829768B2 (ja) 2015-01-13 2015-01-13 電子メール分析システム、電子メール分析方法、および、電子メール分析プログラム

Publications (2)

Publication Number Publication Date
JP5683749B1 true JP5683749B1 (ja) 2015-03-11
JPWO2015118620A1 JPWO2015118620A1 (ja) 2017-03-23

Family

ID=52684931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014511638A Expired - Fee Related JP5683749B1 (ja) 2014-02-04 2014-02-04 文書分析システム、文書分析方法、および、文書分析プログラム

Country Status (5)

Country Link
US (1) US9977825B2 (ja)
JP (1) JP5683749B1 (ja)
KR (1) KR101911304B1 (ja)
TW (1) TW201543237A (ja)
WO (1) WO2015118620A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910994B1 (en) * 2015-08-27 2018-03-06 Amazon Technologies, Inc. System for assuring security of sensitive data on a host
US20180300323A1 (en) * 2017-04-17 2018-10-18 Lee & Hayes, PLLC Multi-Factor Document Analysis
KR102472200B1 (ko) * 2019-10-02 2022-11-29 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법
KR20210051218A (ko) 2019-10-30 2021-05-10 두산중공업 주식회사 이메일 기반의 개인실적관리 서비스를 제공하는 방법, 이를 위한 장치 및 저장 매체
JP7554139B2 (ja) * 2021-03-02 2024-09-19 株式会社日立製作所 不正侵害分析支援装置、及び不正侵害分析支援方法
KR102497436B1 (ko) * 2022-09-16 2023-02-08 주식회사 액션파워 음성 신호를 포함하는 컨텐츠를 기반으로 타겟 단어와 관련된 정보를 획득하는 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4434897B2 (ja) 2004-09-17 2010-03-17 株式会社野村総合研究所 電子メール監査システム、方法およびプログラム
KR20080005208A (ko) 2005-04-25 2008-01-10 가부시키가이샤 아이.피.비. 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법
JP4987434B2 (ja) 2006-11-15 2012-07-25 株式会社日立製作所 電文データの監査用保管・検索システム、電文データの監査用保管・検索方法、および電文データの監査用保管・検索プログラム
JP5481965B2 (ja) 2009-06-26 2014-04-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5252588B2 (ja) 2010-03-11 2013-07-31 キヤノンマーケティングジャパン株式会社 電子メール監査装置、その制御方法及びプログラム
JP4868191B2 (ja) * 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
EP2579569B1 (en) * 2010-06-04 2017-08-09 Panasonic Intellectual Property Corporation of America Image processing device, image processing method, integrated circuit, and program
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US20120244510A1 (en) 2011-03-22 2012-09-27 Watkins Jr Robert Todd Normalization and Cumulative Analysis of Cognitive Educational Outcome Elements and Related Interactive Report Summaries
JP5530476B2 (ja) * 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US9514387B2 (en) * 2013-09-17 2016-12-06 Google Inc. System and method of monitoring and measuring cluster performance hosted by an IAAS provider by means of outlier detection

Also Published As

Publication number Publication date
JPWO2015118620A1 (ja) 2017-03-23
TW201543237A (zh) 2015-11-16
WO2015118620A1 (ja) 2015-08-13
US9977825B2 (en) 2018-05-22
KR20160111022A (ko) 2016-09-23
US20170075986A1 (en) 2017-03-16
KR101911304B1 (ko) 2018-10-24

Similar Documents

Publication Publication Date Title
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
JP5683749B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5627820B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
US20150169745A1 (en) Document Sorting System, Document Sorting Method, and Document Sorting Program
JP5627750B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
WO2015059940A1 (ja) 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
WO2015118619A1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5829768B2 (ja) 電子メール分析システム、電子メール分析方法、および、電子メール分析プログラム
JP5815911B1 (ja) 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
JP2016189036A (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2015056185A (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5990562B2 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5851007B2 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015145524A1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150113

R150 Certificate of patent or registration of utility model

Ref document number: 5683749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

LAPS Cancellation because of no payment of annual fees