JP2015032030A - 文書分別システム及び文書分別方法並びに文書分別プログラム - Google Patents
文書分別システム及び文書分別方法並びに文書分別プログラム Download PDFInfo
- Publication number
- JP2015032030A JP2015032030A JP2013159645A JP2013159645A JP2015032030A JP 2015032030 A JP2015032030 A JP 2015032030A JP 2013159645 A JP2013159645 A JP 2013159645A JP 2013159645 A JP2013159645 A JP 2013159645A JP 2015032030 A JP2015032030 A JP 2015032030A
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- unit
- documents
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【解決手段】文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて、文書情報に自動で分別符号を付与する自動分別部と、スコア算出部の算出結果及び/又は自動分別部の分別結果を画面に表示するよう制御する表示制御部を備える。
【選択図】図1
Description
以下、本発明の実施の形態を添付の図により説明する。図1に第1の実施形態に係る文書判別システムの構成図を示す。
なお、上記(8)式における文書数NHOT est信頼度(C.L.)は、95%である。
第1の実施形態において、選定部106では、直線R_hot=R_allよりも上部にプロットされるようなキーワードをその分別符号におけるキーワードとして選定することが可能である。
mi:i番目のキーワード又は関連用語の出現頻度
Wgti,0:学習前のi番目の選定キーワードの重み(初期値)
Wgti,L:L回目学習後のi番目の選定キーワードの重み
γL:L回目学習における学習パラメータ
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Aの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する。
第3段階では、第1段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、分別を行う。
第4段階では、レビュワーによる分別符号の決定を実施した後に、レビュワーの分別した規則性を踏まえ、自動で分別符号の付与を行う。
第5段階では、第1段階乃至第4段階の結果を用いて、学習を行う。
第1段階におけるデータベース200の処理フローを、図6を用いて詳細に説明する。データベース200で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。本段階ではまず、データベース200でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
第2段階におけるデータベース200、探索部107及び自動分別部109の処理フローを、図6、図7及び図9を用いて、詳細に説明する。
第3段階におけるデータベース200、探索部107、スコア算出部108及び自動分別部109の処理フローを、図6、図7、図8及び図9を用いて、詳細に説明する。
第4段階におけるデータベース200、探索部107、スコア算出部108、自動分別部109、サイズ推定部101、抽出部102、表示制御部103、分別符号受付部104、選定部106、エンドポイント算出部110の処理フローを、それぞれ図6〜図16を用いて、詳細に説明する。
第5段階での文書排除部111及び学習部112における処理フローを、それぞれ図17及び図18を用いて説明する。
本発明の実施形態の変形例を説明する。
基本的な統計的評価手法であり、サンプル数が少なくとも、類似性の判断が可能である。
「Similarity」は、2つの関数の内積であり、以下の(13)式で表される。
ここで、
ysiは、i番目のサンプルのy値(Recall)である。
ydiは、(全文書中の)i番目の文書のy値(Recall)である。
nは、サンプルにおけるデータポイントの番号である。
「RMSE」は、以下の(14)式で表される。
ここで、
ysiは、i番目のサンプルのy値(Recall)である。
ydiは、(全文書中の)i番目の文書のy値(Recall)である。
nは、サンプルにおけるデータポイントの番号である。
本発明のその他の実施形態を説明する。
101 サイズ推定部
102 抽出部
103 表示制御部
104 分別符号受付部
105 文書数推定部
106 選定部
107 探索部
108 スコア算出部
109 自動分別部
110 エンドポイント算出部
111 文書排除部
112 学習部
200 データベース
300 クライアント装置
Claims (15)
- 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、
前記文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、
前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、
前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、
前記選定したキーワードを前記文書情報から探索する探索部と、
前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、
前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与する自動分別部と、
前記スコア算出部の算出結果及び/又は前記自動分別部の分別結果を画面に表示するよう制御する表示制御部を備えることを特徴とする文書分別システム。 - 前記表示制御部は、
前記スコア算出部により算出されるスコアを複数の範囲に分け、前記複数の範囲の各範囲に含まれる文書数をスコアの高い順に累計した数を表示することを特徴とする請求項1記載の文書分別システム。 - 前記表示制御部は、
全文書数のうち前記訴訟に関連性がある文書の割合を表示することを特徴とする請求項1又は請求項2記載の文書分別システム。 - 前記表示制御部は、
前記スコア算出部により算出されるスコアを複数の範囲に分け、前記複数の範囲の各範囲について、前記訴訟に関連性がある文書数の割合を表示することを特徴とする請求項1乃至請求項3のいずれか記載の文書分別システム。 - 前記文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定するサイズ推定部をさらに備え、
前記抽出部は、前記サイズ推定部により推定されたサイズの文書群を前記文書情報から抽出することを特徴とする請求項1乃至請求項4のいずれか記載の文書分別システム。 - 前記分別符号受付部で受け付けられた前記文書群の分別結果に基づいて、前記文書情報に含まれる前記訴訟に関連する文書の数を推定する文書数推定部をさらに備えることを特徴とする請求項1乃至請求項5のいずれか記載の文書分別システム。
- 前記文書数推定部は、
前記抽出された文書群に対する、前記分別により前記訴訟に関連するとされた文書数の割合に基づいて、前記文書情報に含まれる前記訴訟に関連する文書の数を推定することを特徴とする請求項6記載の文書分別システム。 - 前記自動分別部により分別された前記文書情報の分別結果を前記ユーザが再確認する際に必要な文書数を算出する文書数算出部をさらに備えることを特徴とする請求項1乃至請求項7いずれか記載の文書分別システム。
- 前記文書数算出部は、前記自動分別部により前記訴訟に関連するとされた文書と前記スコア算出部により算出されたスコアとの関係に基づいて、前記再確認に必要な文書数を算出することを特徴とする請求項8記載の文書分別システム。
- 前記文書数算出部は、
前記文書情報のうち前記訴訟に関連する文書のうち、前記自動分別部により前記訴訟に関連するとされた文書の割合である再現率と、前記スコア算出部により算出されたスコアの順位を前記文書情報に含まれる文書数で除算した規格化順位との関係に基づいて、前記再確認に必要な文書数を算出することを特徴とする請求項9記載の文書分別システム。 - 前記再現率と前記規格化順位との関係は、非線形回帰分析により算出されることを特徴とする請求項10記載の文書分別システム。
- 前記非線形回帰分析により算出された前記再現率と前記規格化順位との関係において、前記規格化順位の値を大きくしていった際に、前記再現率の値が飽和する前記規格化順の値に基づいて、前記再確認に必要な文書数を算出することを特徴とする請求項11記載の文書分別システム。
- 前記表示制御部は、
前記文書数算出部により算出された前記ユーザが再確認する際に必要な文書数を前記画面上に表示することを特徴とする請求項8乃至請求項12のいずれか記載の文書分別システム。 - 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別方法において、
前記文書情報から所定数の文書を含むデータセットである文書群を抽出し、
前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、
前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、
前記選定したキーワードを前記文書情報から探索し、
前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、
前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与し、
前記スコアの結果及び/又は前記自動分別の分別結果を画面に表示するよう制御する文書分別方法。 - 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、
コンピュータに、
前記文書情報から所定数の文書を含むデータセットである文書群を抽出する機能と、
前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける機能と、
前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する機能と、
前記選定したキーワードを前記文書情報から探索する機能と、
前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出する機能と、
前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与する機能と、
前記スコアの結果及び/又は前記自動分別の分別結果を画面に表示するよう制御する機能を備える文書分別プログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013159645A JP5603468B1 (ja) | 2013-07-31 | 2013-07-31 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
US14/396,189 US20160275147A1 (en) | 2013-07-31 | 2014-03-17 | Document classification system, document classification method, and document classification program |
PCT/JP2014/057097 WO2015015826A1 (ja) | 2013-07-31 | 2014-03-17 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
KR1020167003855A KR101780807B1 (ko) | 2013-07-31 | 2014-03-17 | 문서 분별 시스템과 문서 분별 방법 및 문서 분별 프로그램 |
EP14832354.6A EP3029582A4 (en) | 2013-07-31 | 2014-03-17 | Document classification system, document classification method, and document classification program |
TW103123263A TW201504836A (zh) | 2013-07-31 | 2014-07-07 | 文件分類系統、文件分類方法及文件分類程式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013159645A JP5603468B1 (ja) | 2013-07-31 | 2013-07-31 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014168778A Division JP5685675B2 (ja) | 2014-08-21 | 2014-08-21 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5603468B1 JP5603468B1 (ja) | 2014-10-08 |
JP2015032030A true JP2015032030A (ja) | 2015-02-16 |
Family
ID=51840433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013159645A Expired - Fee Related JP5603468B1 (ja) | 2013-07-31 | 2013-07-31 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20160275147A1 (ja) |
EP (1) | EP3029582A4 (ja) |
JP (1) | JP5603468B1 (ja) |
KR (1) | KR101780807B1 (ja) |
TW (1) | TW201504836A (ja) |
WO (1) | WO2015015826A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5942052B1 (ja) * | 2014-12-26 | 2016-06-29 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
WO2016129124A1 (ja) * | 2015-02-13 | 2016-08-18 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
US11210329B2 (en) * | 2016-03-14 | 2021-12-28 | Sciome, LLC | Methods and systems to estimate recall while screening an ordered list of bibliographic references |
US10540439B2 (en) * | 2016-04-15 | 2020-01-21 | Marca Research & Development International, Llc | Systems and methods for identifying evidentiary information |
US11769072B2 (en) * | 2016-08-08 | 2023-09-26 | Adobe Inc. | Document structure extraction using machine learning |
WO2019049162A1 (en) * | 2017-09-11 | 2019-03-14 | Ingenious E-Brain Solutions Pvt Ltd | METHOD AND SYSTEM FOR MANAGING IP PROJECTS |
TWI659320B (zh) * | 2017-10-16 | 2019-05-11 | 臺灣銀行股份有限公司 | 內容可索引之文件影像檔的建立方法及其索引方法 |
TWI672597B (zh) * | 2018-11-27 | 2019-09-21 | 洽吧智能股份有限公司 | 自動文本標籤方法與系統 |
US11790047B2 (en) * | 2020-08-27 | 2023-10-17 | Consilio, LLC | Diversity sampling for technology-assisted document review |
CN116226036B (zh) * | 2023-05-05 | 2023-07-18 | 中信天津金融科技服务有限公司 | 一种文档管理方法、装置和设备 |
CN116823541A (zh) * | 2023-08-29 | 2023-09-29 | 山东大学 | 一种基于非线性模型的量刑计算方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU764415B2 (en) * | 1999-08-06 | 2003-08-21 | Lexis-Nexis | System and method for classifying legal concepts using legal topic scheme |
KR100756921B1 (ko) * | 2006-02-28 | 2007-09-07 | 한국과학기술원 | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. |
JP2009098811A (ja) * | 2007-10-15 | 2009-05-07 | Toshiba Corp | 文書分類装置およびプログラム |
CA2772082C (en) | 2009-08-24 | 2019-01-15 | William C. Knight | Generating a reference set for use during document review |
JP5346841B2 (ja) * | 2010-02-22 | 2013-11-20 | 株式会社野村総合研究所 | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
JP4898934B2 (ja) * | 2010-03-29 | 2012-03-21 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
JP4868191B2 (ja) | 2010-03-29 | 2012-02-01 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
JP4995950B2 (ja) | 2010-07-28 | 2012-08-08 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
-
2013
- 2013-07-31 JP JP2013159645A patent/JP5603468B1/ja not_active Expired - Fee Related
-
2014
- 2014-03-17 KR KR1020167003855A patent/KR101780807B1/ko not_active Application Discontinuation
- 2014-03-17 EP EP14832354.6A patent/EP3029582A4/en not_active Withdrawn
- 2014-03-17 US US14/396,189 patent/US20160275147A1/en not_active Abandoned
- 2014-03-17 WO PCT/JP2014/057097 patent/WO2015015826A1/ja active Application Filing
- 2014-07-07 TW TW103123263A patent/TW201504836A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
EP3029582A1 (en) | 2016-06-08 |
TW201504836A (zh) | 2015-02-01 |
WO2015015826A1 (ja) | 2015-02-05 |
KR101780807B1 (ko) | 2017-10-10 |
JP5603468B1 (ja) | 2014-10-08 |
US20160275147A1 (en) | 2016-09-22 |
KR20160033729A (ko) | 2016-03-28 |
EP3029582A4 (en) | 2017-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5603468B1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5567049B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
TWI532001B (zh) | 文件分類系統及文件分類方法以及文件分類程式 | |
JP5827208B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
TW201415264A (zh) | 取證系統、取證方法及取證程式 | |
JP5723067B1 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
JP5986687B2 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
JP5622969B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP5592552B1 (ja) | 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム | |
JP6124936B2 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
JP5685675B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
WO2015025978A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP2015172952A (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5898371B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5746403B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5745676B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP5850973B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140707 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140812 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140821 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5603468 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D03 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
LAPS | Cancellation because of no payment of annual fees |