JP5850973B2 - 文書分別システム及び文書分別方法並びに文書分別プログラム - Google Patents
文書分別システム及び文書分別方法並びに文書分別プログラム Download PDFInfo
- Publication number
- JP5850973B2 JP5850973B2 JP2014086713A JP2014086713A JP5850973B2 JP 5850973 B2 JP5850973 B2 JP 5850973B2 JP 2014086713 A JP2014086713 A JP 2014086713A JP 2014086713 A JP2014086713 A JP 2014086713A JP 5850973 B2 JP5850973 B2 JP 5850973B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- classification
- classification code
- information
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000011156 evaluation Methods 0.000 claims description 53
- 239000000284 extract Substances 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 36
- 230000006870 function Effects 0.000 description 16
- 238000007689 inspection Methods 0.000 description 11
- 239000000463 material Substances 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000012850 discrimination method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下、本発明の実施の形態を添付の図により説明する。図1に第1の実施形態に係る文書判別システムの構成図を示す。
第1段階におけるキーワードデータベース101の詳細な処理フローを図4を用いて説明する。
第2段階における第1分別部201の詳細な処理フローを、図6を用いて説明する。第1の実施形態において、第2段階では、第1分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第3段階における第2分別部301の詳細な処理フローを、図7を用いて説明する。
第4段階では、第3段階までの処理において、分別符号が付与されなかった文書情報に対して分別処理を行う。第1の実施形態においては、該文書情報に対して、第4段階では「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。
図10は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
第5段階における品質検査部501の詳細な処理フローを図13を用いて説明する。品質検査部501では、分別符号受付部403が、STEP411で受け付けた文書に対して、解析部404がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付部403が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
以下、本発明の実施の形態を添付の図により説明する。図2に第2の実施形態に係る文書判別システムの構成図を示す。
第1段階におけるキーワードデータベース191の詳細な処理フローを、図4を用いて説明する。
第2段階における第1分別部291の詳細な処理フローを、図12を用いて説明する。第2の実施形態において、第2段階では、第1分別部291によって、分別符号「重要」を文書に付与する処理を行う。
第3段階における第2分別部391の詳細な処理フローを図12を用いて説明する。
第4段階では、第3段階までの処理において、分別符号が付与されなかった文書情報に対して分別処理を行う。第2の実施形態においては、該文書情報に対して、第4段階では「重要」という分別符号を付与する処理を行う。
第5段階における品質検査部591の詳細な処理フローを、図13を用いて説明する。品質検査部591では、分別符号受付部493が、STEP411で受け付けた文書に対して、解析部494がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
分別符号受付部493が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、分別符号受付部493が受け付けた分別符号の妥当性を検証する(STEP513)。
201 291 第1分別部
301 391 第2分別部
401 491 第3分別部
402 492 文書抽出部
403 493 分別符号受付部
404 494 解析部
405 495 自動分別部
501 591 品質検査部
601 691 表示部
101 191 キーワードデータベース
102 192 関連用語データベース
I1 文書表示画面
Claims (8)
- 文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出部と、
前記抽出された文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示部と、
前記表示された文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付部と、
前記分別符号が付与された文書に共通して頻出する単語を記録するデータベースと、
文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出部と
を備えた文書分別システム。 - 前記ユーザが前記抽出された文書を分別した規則性を踏まえて、前記文書情報に含まれる文書に前記分別符号を付与する分別部をさらに備えたことを特徴とする請求項1に記載の文書分別システム。
- 前記分別部は、前記記録された単語を含む文書を前記文書情報から抽出し、当該抽出された文書に対して、特定の分別符号を付与するものであることを特徴とする請求項2に記載の文書分別システム。
- 前記分別部は、前記特定の分別符号が付与されなかった文書から所定の関連用語を含む文書を抽出し、当該抽出された文書に含まれる関連用語を用いて算出されたスコアに基づき、所定の分別符号を付与するものであることを特徴とする請求項3に記載の文書分別システム。
- 前記分別部は、前記算出されたスコアが所定の閾値を超過した場合、前記分別符号を付与するものであることを特徴とする請求項2から4のいずれか一項に記載の文書分別システム。
- 前記スコア算出部は、前記単語が前記文書に出現する頻度と当該単語の重みとに基づいて、前記スコアを算出することを特徴とする請求項1に記載の文書分別システム。
- 文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出ステップと、
前記抽出した文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示ステップと、
前記表示した文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付ステップと、
前記分別符号を付与した文書に共通して頻出する単語を記録するデータベースを参照し、文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出ステップとを含む、コンピュータが実行する文書分別方法。 - コンピュータに、
文書情報から所定数の文書をサンプリングすることによって、当該所定数の文書をユーザによる分別対象として抽出する文書抽出機能と、
前記抽出された文書と当該文書を分類する際に用いる識別子である分別符号とを、前記ユーザに提示する文書表示画面を表示させる表示機能と、
前記表示された文書に対して、前記ユーザが付与した分別符号を受け付ける分別符号受付機能と、
前記分別符号が付与された文書に共通して頻出する単語を記録する単語データベースを参照し、文書と前記分別符号との結びつきの強さを評価したスコアを、前記記録された単語が当該文書中で発揮する情報量に基づいて算出するスコア算出機能とを実現させる文書分別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014086713A JP5850973B2 (ja) | 2014-04-18 | 2014-04-18 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014086713A JP5850973B2 (ja) | 2014-04-18 | 2014-04-18 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012083072A Division JP5530476B2 (ja) | 2012-03-30 | 2012-03-30 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2014160496A JP2014160496A (ja) | 2014-09-04 |
JP2014160496A5 JP2014160496A5 (ja) | 2015-05-21 |
JP5850973B2 true JP5850973B2 (ja) | 2016-02-03 |
Family
ID=51612089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014086713A Active JP5850973B2 (ja) | 2014-04-18 | 2014-04-18 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5850973B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3333998B2 (ja) * | 1992-08-27 | 2002-10-15 | オムロン株式会社 | 自動分類付与装置および方法 |
JP4640591B2 (ja) * | 2005-06-09 | 2011-03-02 | 富士ゼロックス株式会社 | 文書検索装置 |
JP4986225B2 (ja) * | 2007-03-26 | 2012-07-25 | 富士フイルム株式会社 | 登録制コミュニケーションサイトの提供装置及び方法 |
-
2014
- 2014-04-18 JP JP2014086713A patent/JP5850973B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014160496A (ja) | 2014-09-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5530476B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5567049B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5596213B1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
WO2015015826A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5723067B1 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
WO2015037262A1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
TW201415402A (zh) | 取證系統、取證方法及取證程式 | |
WO2015030112A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5592552B1 (ja) | 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム | |
JP6124936B2 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
JP5669904B1 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
WO2015118619A1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
WO2015025978A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5850973B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5898371B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP2015172952A (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5990562B2 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
JP5746403B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150330 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20150330 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20150416 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150519 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151020 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5850973 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D03 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |