JP2014096086A - 文書分類システムおよび方法 - Google Patents
文書分類システムおよび方法 Download PDFInfo
- Publication number
- JP2014096086A JP2014096086A JP2012248089A JP2012248089A JP2014096086A JP 2014096086 A JP2014096086 A JP 2014096086A JP 2012248089 A JP2012248089 A JP 2012248089A JP 2012248089 A JP2012248089 A JP 2012248089A JP 2014096086 A JP2014096086 A JP 2014096086A
- Authority
- JP
- Japan
- Prior art keywords
- type
- document
- svm
- classification
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVMと、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMとを用意する。指定された分類対象の文書に対して第二種のSVMを利用して多数決で上位の種別を求め、求めた上位の種別に対して第一種のSVMを利用して当該種別であるか否かを分類する。分類結果から分類対象の文書の種別を判定し、特に第二種のSVMによる多数決で上位の種別と判定されても、第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する。
【選択図】 図2
Description
(1)分類したい各々の文書種別(カテゴリ)について、該文書種別の学習用の文書と該種別ではない学習用の文書を用意する。なお、前者の学習用文書を該種別の「正例」、後者の該種別ではない学習用文書を該種別の「負例」と呼ぶ。
(2)上記(1)の該種別の文書(正例)と該種別でない文書(負例)を利用して学習させることにより、該種別の文書と該種別でない文書とを分類する第一種のSVMを構成する。
(3)上記分類したい複数の文書種別について任意の2つの文書種別を取り出して文書種別のペアを作り、それらの文書種別の全てのペアごとに、当該ペアの2つの文書種別のうちのどちらの種別かを分類する第二種のSVM(すなわち、当該ペアの正例を分類するもの)を構成する。
(1)上述したように構成した第二種のSVMの全てを使って、対象文書がどの種別に当たるか類推する。
(2)上記(1)の結果で多数決をとり、多数決で上位となった種別について、第一種のSVMで該種別に当たるか否か判定する。
(1)正例の学習用文書から特徴語を抽出する。従来までのSVMによる文書分類にあるような名詞ではなく、文書としてスタイルやレイアウトに特徴のある語句を特徴語として抽出するものとする。
(2)ファイルサーバから文書をランダムに選択し、該種別ではない学習用文書(負例)の候補とする。
(3)(2)の負例候補の文書から(1)と同様に特徴語を抽出する。
(4)負例候補の文書から、(1)にある特徴語が少なく、(1)にない特徴語が多い文書を選択し、該種別ではない学習用文書(負例)とする。
(a)文書タイトルのように、文書の最初のページの中央ないしは上部中央にあらわれ、文字サイズが大きかったり、目立つ色を使っていたりする語
(b)見出し語のように、番号が割り振られた単語ないしは比較的短い語
(c)定型の帳票の場合で、各帳票に現れる帳票名称や項目名
(d)他の文字に比べ、文字サイズが大きかったり、下線が引いてあったり、強調文字であったり、目立つ色であったりと、レイアウト上強調されている語
(e)文書の右上ないしは左上などに記載され、XXXX会議資料、XXXX提出、XXXX御中、XXXX様などのように、資料の送付先/閲覧者がわかる語
(1)分類したい複数の文書種別を決める。
(2)上記複数の文書種別に対応する正例の文書を集める。付加的に、当該種別ではない負例の文書を集める(負例を自動選択する場合は不要)。
(3)分類したい各文書種別について、図6の文書種別追加ボタン602をクリックして、文書種別の名称を登録する。
(4)分類したい各文書種別について、図6の文書種別一覧のリストボックス601にて文書種別をクリックして指定し、学習用文書登録ボタン604をクリックして、図8の学習文書登録画面を使って正例と付加的に負例を追加する。具体的な登録のための操作方法は、図8で示したとおりである。
(5)図6の学習ボタン605をクリックして、学習する。
Claims (5)
- 文書を、指定された複数の種別に分類する文書分類システムであって、
分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVM(Support Vector Machine)と、
分類対象の種別の全てのペアに対して、当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMと、
指定された分類対象の文書に対して、前記第二種のSVMを利用して、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求める手段と、
求めた上位の種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段と
を備え、前記第二種のSVMによる多数決で上位の種別と判定されても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する
ことを特徴とする文書分類システム。 - 文書を、指定された複数の種別に分類する文書分類システムであって、
分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVM(Support Vector Machine)と、
分類対象の全種別から一種別とその他の全種別との組み合わせを全て作り、それらの組み合わせ毎に、該組み合わせの一種別とその他の全種別のどちらであるかを分類する第二種のSVMと、
指定された分類対象の文書に対して、前記第二種のSVMを利用して、前記組み合わせの全てについて、該組み合わせの一種別とその他の全種別のどちらであるかを分類し、それらの結果から種別を求める手段と、
求めた種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定する手段と
を備え、前記第二種のSVMにより判定された種別であっても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する
ことを特徴とする文書分類システム。 - 請求項1または2に記載の文書分類システムにおいて、
与えられた正例の文書から特徴語を抽出し、種々の種別の文書が格納されているファイルサーバから負例候補文書を取り出し、該負例候補文書から、該正例の特徴語をなるべく含まず、かつ該正例の特徴語以外の特徴語を多く含む文書を負例として選択し、それらの正例および負例の文書を学習用文書として学習させることにより、前記第一種SVMを生成することを特徴とする文書分類装置。 - 請求項1から3の何れか1つに記載の文書分類システムにおいて、
前記分類対象の文書がオフィス文書であり、
前記SVMを生成する際に、文書から特徴語を抽出するとき、前記オフィス文書中のレイアウト上の特徴のあるテキスト部分から特徴語を抽出することを特徴とする文書分類装置。 - 文書を、指定された複数の種別に分類する文書分類方法であって、
第一種SVM(Support Vector Machine)を生成する手段が、分類対象の各種別に対して、当該種別であるか否かを分類する第一種のSVMを生成するステップと、
第二種SVMを生成する手段が、分類対象の種別の全てのペアに対して、当該ペアの2つの種別のうちのどちらであるかを分類する第二種のSVMを生成するステップと、
第二種SVMによる分類部が、指定された分類対象の文書に対して、前記第二種のSVMを利用して、分類対象の種別の全てのペアに対して当該ペアの2つの種別のうちのどちらであるかを分類し、それらの結果から多数決で上位の種別を求めるステップと、
第一種SVMによる確認部が、求めた上位の種別に対して、前記第一種のSVMを利用して、当該種別であるか否かを分類し、その分類結果から、前記分類対象の文書の種別を判定するステップと
を備え、前記第二種のSVMによる多数決で上位の種別と判定されても、前記第一種のSVMにより当該種別では無いと判定された場合は、「該当無し」と判定する
ことを特徴とする文書分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012248089A JP2014096086A (ja) | 2012-11-12 | 2012-11-12 | 文書分類システムおよび方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012248089A JP2014096086A (ja) | 2012-11-12 | 2012-11-12 | 文書分類システムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014096086A true JP2014096086A (ja) | 2014-05-22 |
Family
ID=50939093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012248089A Pending JP2014096086A (ja) | 2012-11-12 | 2012-11-12 | 文書分類システムおよび方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2014096086A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017027495A (ja) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
CN107209754A (zh) * | 2014-12-10 | 2017-09-26 | 凯恩迪股份有限公司 | 在大型非结构化数据字段中的技术和语义信号处理 |
JP2019053730A (ja) * | 2017-09-12 | 2019-04-04 | ネイバー コーポレーションNAVER Corporation | 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039862A (ja) * | 2004-07-26 | 2006-02-09 | Mitsubishi Electric Corp | データ類別装置 |
JP2006072513A (ja) * | 2004-08-31 | 2006-03-16 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
JP2006099565A (ja) * | 2004-09-30 | 2006-04-13 | Kddi Corp | コンテンツ識別装置 |
-
2012
- 2012-11-12 JP JP2012248089A patent/JP2014096086A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006039862A (ja) * | 2004-07-26 | 2006-02-09 | Mitsubishi Electric Corp | データ類別装置 |
JP2006072513A (ja) * | 2004-08-31 | 2006-03-16 | Fuji Xerox Co Ltd | 文書処理装置およびプログラム |
JP2006099565A (ja) * | 2004-09-30 | 2006-04-13 | Kddi Corp | コンテンツ識別装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107209754A (zh) * | 2014-12-10 | 2017-09-26 | 凯恩迪股份有限公司 | 在大型非结构化数据字段中的技术和语义信号处理 |
CN107209754B (zh) * | 2014-12-10 | 2021-07-13 | 凯恩迪股份有限公司 | 在大型非结构化数据字段中的技术和语义信号处理 |
JP2017027495A (ja) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
JP2019053730A (ja) * | 2017-09-12 | 2019-04-04 | ネイバー コーポレーションNAVER Corporation | 文書のカテゴリ分類のためのディープラーニング学習方法およびそのシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180173788A1 (en) | System And Method For Providing Inclusion-Based Electronically Stored Information Item Classification Suggestions With The Aid Of A Digital Computer | |
CA2772082C (en) | Generating a reference set for use during document review | |
US8620849B2 (en) | Systems and methods for facilitating open source intelligence gathering | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
US20060218140A1 (en) | Method and apparatus for labeling in steered visual analysis of collections of documents | |
US11537601B2 (en) | Accessing datasets | |
CN107220745A (zh) | 一种意图行为数据的识别方法、系统及设备 | |
Goncalves et al. | Gathering alumni information from a web social network | |
JP6453502B1 (ja) | 特許調査支援方法 | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
JP2014096086A (ja) | 文書分類システムおよび方法 | |
Andrews et al. | Visualising computational intelligence through converting data into formal concepts | |
JP2014102625A (ja) | 情報検索システム、プログラム、および方法 | |
US20220138259A1 (en) | Automated document intake system | |
Rubya et al. | HAIR: Towards developing a global self-updating peer support group meeting list using human-aided information retrieval | |
JP2011053881A (ja) | 文書管理システム | |
KR100809751B1 (ko) | 문서분석 시스템 및 그 방법 | |
Prasad et al. | Mining on social media | |
CN105138544B (zh) | 一种重塑逻辑演绎链的搜索方法 | |
Narwal et al. | Web informative content identification and filtering using machine learning technique | |
CN117648635B (zh) | 敏感信息分类分级方法及系统、电子设备 | |
Shanmugarajah et al. | WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach | |
Salma | Analyzing online public sentiment toward corporate crisis in the age of big data and automation | |
de Jesus et al. | Enriching an Authority File of Scientific Conferences with Information Extracted from the Web. | |
Ur-Rahman | Textual Data Mining for Knowledge Discovery and Data Classification: A Comparative Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150409 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20150417 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160906 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20170228 |