JP5898371B2 - 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム - Google Patents
文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム Download PDFInfo
- Publication number
- JP5898371B2 JP5898371B2 JP2015226343A JP2015226343A JP5898371B2 JP 5898371 B2 JP5898371 B2 JP 5898371B2 JP 2015226343 A JP2015226343 A JP 2015226343A JP 2015226343 A JP2015226343 A JP 2015226343A JP 5898371 B2 JP5898371 B2 JP 5898371B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification code
- classification
- keyword
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000000926 separation method Methods 0.000 title claims description 8
- 238000004364 calculation method Methods 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 32
- 238000000605 extraction Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 11
- 230000002596 correlated effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 35
- 239000000284 extract Substances 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 11
- 230000007717 exclusion Effects 0.000 description 7
- 239000000463 material Substances 0.000 description 7
- 230000007423 decrease Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出機能と、抽出された複数の文書に対して、各文書を分類するためのものであって、ユーザが付与した分別符号を受け付ける分別符号受付機能と、分別符号が付与された文書から共通して出現するキーワードを選定する選定機能と、分別符号が付与された文書から選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースを参照し、分別符号が付与されていない未分別文書に含まれるキーワードと、データベースにおいて当該キーワードに対応付けられた重みとに基づいて、未分別文書と分別符号との結びつきの強さを評価したスコアを算出する算出機能とを実現させる。
以下、本発明の実施の形態を添付の図により説明する。図1に第1の実施形態に係る文書判別システムの構成図を示す。
第1段階におけるデータベース201の処理フローを、図4を用いて詳細に説明する。データベース201で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。本段階ではまず、データベース201でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
第2段階におけるデータベース201、探索部106及び自動分別部108の処理フローを、図4、図5及び図7を用いて、詳細に説明する。
第3段階におけるデータベース201、探索部106、スコア算出部107及び自動分別部108の処理フローを、図4、図5、図6及び図7を用いて、詳細に説明する。
第3段階におけるデータベース201、探索部106、スコア算出部107、自動分別部108、抽出部102、文書表示部103、分別符号受付部104及び選定部105の処理フローを、それぞれ図4、図5、図6、図7、図8、図9、図10及び図11を用いて、詳細に説明する。
第5段階での文書排除部109及び学習部110における処理フローを、それぞれ図12及び図13を用いて説明する。
本発明のその他の実施形態を説明する。
本発明の文書判別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムに係るものであって、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群を画面上に表示する文書表示部と表示された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを記録するデータベースと、データベースに記録されたキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて自動で分別符号を付与する自動分別部を備える。
以上、本発明の実施形態を説明したが、上記した実施形態は特許請求の範囲に係る発明を限定するものではない。また、実施形態の中で説明した特徴の組合せのすべてが発明の課題を解決するための手段に必須であるとは限らない点に留意すべきである。さらに、上記した実施形態の技術的要素は、単独で適用されてもよいし、プログラム部品とハードウェア部品とのような複数の部分に分割されて適用されてもよい。
以下に、本願の原出願の当初の特許請求の範囲に記載された発明を付記する。
文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出部と、前記抽出された文書群に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付部と、前記分別符号が付与された文書から選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースと、前記分別符号が付与されていない未分別文書から、前記データベースに記録されたキーワードを探索する探索部と、前記未分別文書から探索されたキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出部とを備えた文書分別システム。
文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出機能と、前記抽出された文書群に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付機能と、前記分別符号が付与されていない未分別文書から、前記分別符号が付与された文書から選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースに記録されたキーワードを探索する探索機能と、前記未分別文書から探索されたキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出機能とを実現させることを特徴とする文書分別プログラム。
102 抽出部
103 文書表示部
104 分別符号受付部
105 選定部
106 探索部
107 スコア算出部
108 自動分別部
109 文書排除部
110 学習部
201 データベース
301 クライアント装置
I1 文書表示画面
Claims (7)
- 文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出部と、
前記抽出された複数の文書に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付部と、
前記分別符号が付与された文書から共通して出現するキーワードを選定する選定部と、
前記分別符号が付与された文書から前記選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースと、
前記分別符号が付与されていない未分別文書に含まれるキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出部とを備えた文書分別システム。 - 前記選定部により選定されたキーワードに対する重みを学習する学習部をさらに備えたことを特徴とする請求項1に記載の文書分別システム。
- 前記算出部が算出したスコアに基づいて、前記未分別文書に前記分別符号を付与する自動分別部をさらに備えたことを特徴とする請求項1に記載の文書分別システム。
- 前記未分別文書から、前記データベースに記録されたキーワードを探索する探索部をさらに備えたことを特徴とする請求項1から3のいずれか一項に記載の文書分別システム。
- 文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出部と、
前記抽出された複数の文書に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付部と、
前記分別符号が付与された文書から選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースと、
前記分別符号が付与されていない未分別文書から、前記データベースに記録されたキーワードを探索する探索部と、
前記未分別文書から探索されたキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出部とを備え、
前記データベースは、さらに、前記分別符号と相関関係のある関連用語と当該関連用語の重みとを対応付けて記録し、
前記探索部は、さらに、前記未分別文書から前記関連用語を探索し、
前記算出部は、さらに、前記未分別文書と前記分別符号との結びつきの強さを、前記関連用語と当該関連用語に対応付けられた重みに基づいて前記スコアを算出する文書分別システム。 - 文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出ステップと、
前記抽出された複数の文書に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付ステップと、
前記分別符号が付与された文書から共通して出現するキーワードを選定する選定ステップと、
前記分別符号が付与された文書から前記選定されたキーワードと、当該キーワードの重みとを対応付けて記録するデータベースを参照し、前記分別符号が付与されていない未分別文書に含まれるキーワードと前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出ステップとを含む、コンピュータが実行する文書分別方法。 - コンピュータに、
文書情報から複数の文書をサンプリングすることによって、当該複数の文書をユーザによる分別対象として抽出する抽出機能と、
前記抽出された複数の文書に対して、各文書を分類するためのものであって、前記ユーザが付与した分別符号を受け付ける分別符号受付機能と、
前記分別符号が付与された文書から共通して出現するキーワードを選定する選定機能と、
前記分別符号が付与された文書から前記選定されたキーワードと当該キーワードの重みとを対応付けて記録するデータベースを参照し、前記分別符号が付与されていない未分別文書に含まれるキーワードと、前記データベースにおいて当該キーワードに対応付けられた重みとに基づいて、前記未分別文書と前記分別符号との結びつきの強さを評価したスコアを算出する算出機能とを実現させる文書分別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015226343A JP5898371B2 (ja) | 2015-11-19 | 2015-11-19 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015226343A JP5898371B2 (ja) | 2015-11-19 | 2015-11-19 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015095261A Division JP2015172952A (ja) | 2015-05-07 | 2015-05-07 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016027510A JP2016027510A (ja) | 2016-02-18 |
JP5898371B2 true JP5898371B2 (ja) | 2016-04-06 |
Family
ID=55352835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015226343A Active JP5898371B2 (ja) | 2015-11-19 | 2015-11-19 | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5898371B2 (ja) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5387161B2 (ja) * | 2009-06-23 | 2014-01-15 | 富士ゼロックス株式会社 | 言語解析装置及びプログラム |
JP5346841B2 (ja) * | 2010-02-22 | 2013-11-20 | 株式会社野村総合研究所 | 文書分類システムおよび文書分類プログラムならびに文書分類方法 |
-
2015
- 2015-11-19 JP JP2015226343A patent/JP5898371B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016027510A (ja) | 2016-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5567049B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5603468B1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5530476B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5823943B2 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
JP5827208B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
JP5823942B2 (ja) | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム | |
JP5986687B2 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
WO2015118616A1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP5592552B1 (ja) | 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム | |
JP5669904B1 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
WO2015025978A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5898371B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5685675B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP2015172952A (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5746403B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5850973B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5887455B2 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
JP5990562B2 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
JP5745676B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20151120 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20151120 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20151211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160223 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160303 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5898371 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D03 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |