JP2015172952A - 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム - Google Patents
文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム Download PDFInfo
- Publication number
- JP2015172952A JP2015172952A JP2015095261A JP2015095261A JP2015172952A JP 2015172952 A JP2015172952 A JP 2015172952A JP 2015095261 A JP2015095261 A JP 2015095261A JP 2015095261 A JP2015095261 A JP 2015095261A JP 2015172952 A JP2015172952 A JP 2015172952A
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- classification
- classification code
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 18
- 238000000926 separation method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002596 correlated effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 35
- 238000004458 analytical method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 230000007717 exclusion Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 230000007423 decrease Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
以下、本発明の実施の形態を添付の図により説明する。図1に第1の実施形態に係る文書判別システムの構成図を示す。
第1段階におけるデータベース201の処理フローを、図4を用いて詳細に説明する。データベース201で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。本段階ではまず、データベース201でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
第2段階におけるデータベース201、探索部106及び自動分別部108の処理フローを、図4、図5及び図7を用いて、詳細に説明する。
第3段階におけるデータベース201、探索部106、スコア算出部107及び自動分別部108の処理フローを、図4、図5、図6及び図7を用いて、詳細に説明する。
第3段階におけるデータベース201、探索部106、スコア算出部107、自動分別部108、抽出部102、文書表示部103、分別符号受付部104及び選定部105の処理フローを、それぞれ図4、図5、図6、図7、図8、図9、図10及び図11を用いて、詳細に説明する。
第5段階での文書排除部109及び学習部110における処理フローを、それぞれ図12及び図13を用いて説明する。
本発明のその他の実施形態を説明する。
本発明の文書判別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムに係るものであって、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群を画面上に表示する文書表示部と表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを記録するデータベースと、データベースに記録されたキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて自動で分別符号を付与する自動分別部を備える。
102 抽出部
103 文書表示部
104 分別符号受付部
105 選定部
106 探索部
107 スコア算出部
108 自動分別部
109 文書排除部
110 学習部
201 データベース
301 クライアント装置
I1 文書表示画面
Claims (7)
- 文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出部と、
前記抽出された文書群に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付部と、
前記分別符号が付与された文書から選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースと、
前記分別符号が付与されていない未分別文書から、前記データベースに記録されたキーワードを探索する探索部と、
前記未分別文書から探索されたキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出部と
を備えた文書分別システム。 - 前記分別符号が付与された文書から共通して頻出する単語を前記キーワードとして選定する選定部をさらに備えたことを特徴とする請求項1に記載の文書分別システム。
- 前記選定部により選定されたキーワードに対する重みを学習する学習部をさらに備えたことを特徴とする請求項2に記載の文書分別システム。
- 前記データベースは、さらに、前記分別符号と相関関係のある関連用語と当該関連用語の重みとを対応付けて記録し、
前記探索部は、さらに、前記未分別文書から前記関連用語を探索し、
前記算出部は、さらに、前記未分別文書と前記分別符号との結びつきの強さを、前記関連用語と当該関連用語に対応付けられた重みに基づいて前記スコアを算出する
ことを特徴とする請求項1から3のいずれか一項に記載の文書分別システム。 - 前記算出部が算出したスコアに基づいて、前記未分別文書に前記分別符号を付与する自動分別部をさらに備えたことを特徴とする請求項1に記載の文書分別システム。
- 文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出ステップと、
前記抽出された文書群に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付ステップと、
前記分別符号が付与されていない未分別文書から、前記分別符号が付与された文書から選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースに記録されたキーワードを探索する探索ステップと、
前記未分別文書から探索されたキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出ステップとを含むコンピュータが実行する文書分別方法。 - コンピュータに、
文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出機能と、
前記抽出された文書群に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付機能と、
前記分別符号が付与されていない未分別文書から、前記分別符号が付与された文書から選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースに記録されたキーワードを探索する探索機能と、
前記未分別文書から探索されたキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出機能とを実現させる
ことを特徴とする文書分別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015095261A JP2015172952A (ja) | 2015-05-07 | 2015-05-07 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015095261A JP2015172952A (ja) | 2015-05-07 | 2015-05-07 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014124951A Division JP5746403B2 (ja) | 2014-06-18 | 2014-06-18 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015226343A Division JP5898371B2 (ja) | 2015-11-19 | 2015-11-19 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015172952A true JP2015172952A (ja) | 2015-10-01 |
Family
ID=54260200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015095261A Pending JP2015172952A (ja) | 2015-05-07 | 2015-05-07 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015172952A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801489A (zh) * | 2021-01-21 | 2021-05-14 | 招商银行股份有限公司 | 诉讼案件风险检测方法、装置、设备和可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008312A (ja) * | 2009-06-23 | 2011-01-13 | Fuji Xerox Co Ltd | 言語解析装置及びプログラム |
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
-
2015
- 2015-05-07 JP JP2015095261A patent/JP2015172952A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011008312A (ja) * | 2009-06-23 | 2011-01-13 | Fuji Xerox Co Ltd | 言語解析装置及びプログラム |
JP2011170786A (ja) * | 2010-02-22 | 2011-09-01 | Nomura Research Institute Ltd | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801489A (zh) * | 2021-01-21 | 2021-05-14 | 招商银行股份有限公司 | 诉讼案件风险检测方法、装置、设备和可读存储介质 |
CN112801489B (zh) * | 2021-01-21 | 2024-05-31 | 招商银行股份有限公司 | 诉讼案件风险检测方法、装置、设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5567049B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5603468B1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5530476B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5827208B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
JP5823943B2 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
JP5723067B1 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
JP5823942B2 (ja) | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム | |
JP5986687B2 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
JP5622969B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
WO2015025978A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP2015172952A (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5685675B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5898371B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5746403B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5850973B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5745676B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP2016012365A (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20150707 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150714 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150914 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20151020 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160615 |