JP2009217528A - 文書分類付与方法、システムまたはコンピュータプログラム - Google Patents
文書分類付与方法、システムまたはコンピュータプログラム Download PDFInfo
- Publication number
- JP2009217528A JP2009217528A JP2008060406A JP2008060406A JP2009217528A JP 2009217528 A JP2009217528 A JP 2009217528A JP 2008060406 A JP2008060406 A JP 2008060406A JP 2008060406 A JP2008060406 A JP 2008060406A JP 2009217528 A JP2009217528 A JP 2009217528A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- document
- unit
- given
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
分類体系を改正した後に、改正前の分類が付与された文書に対して、改正後の分類を低コストで付与し直す手段を提供することである。
【解決手段】
文書の作成時期または記載内容の観点から偏りがないように教師文書をランダムに選定する。また、何らかの分類が自動付与された文書のみを対象として、算出対象である分類を付与すべきである文書件数に占める、当該分類を自動付与できた文書件数の割合と、自動付与によって誤って当該分類が付与された文書が、当該分類以外の分類の各々に与える分類付与漏れの割合という2種類の評価尺度を用いて、当該分類が自動付与可能か否かを判定し、予め設定された閾値を満たす分類を自動付与可能な分類として認定する。
【選択図】図1
Description
Claims (12)
- 利用者からの指示やデータを受け付ける入力部と、処理結果を利用者に報知する出力部と、文書を格納する文書データベースと、文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された教師文書に対して予め人手付与された分類を格納する人手付与分類テーブルと、前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する分類付与部と、前記分類付与部によって付与された分類を前記分類付与対象文書と対にして格納する自動付与分類テーブルを備えた分類付与システムにおける分類付与方法であって、
前記分類付与部が、前記教師文書の各々を分類付与対象文書として分類を付与し、
前記分類付与システムの算出部が、前記人手付与分類テーブルを参照して前記自動付与された分類の付与精度を分類毎に算出し、
前記分類付与システムの認定部が、利用者によって前記入力部を介して指定された前記付与精度の条件を満たす分類を自動付与可能な分類として認定し、
前記出力部が、前記認定結果を利用者に報知することを特徴とする分類付与方法。 - 利用者からの指示やデータを受け付ける入力部と、処理結果を利用者に報知する出力部と、文書を格納する文書データベースと、文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された教師文書に対して予め人手付与された分類を格納する人手付与分類テーブルと、前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する分類付与部と、前記分類付与部によって付与された分類を前記分類付与対象文書と対にして格納する自動付与分類テーブルを備えた分類付与システムにおける分類付与方法であって、
前記分類付与部が、前記教師文書の各々を分類付与対象文書として分類を付与し、
前記分類付与システムの算出部が、前記人手付与分類テーブルを参照して前記自動付与された分類の付与精度を分類毎に算出し、
前記分類付与システムの認定部が、利用者によって前記入力部を介して指定された前記付与精度の条件を満たす分類を自動付与可能な分類として認定し、
前記分類付与システムの確定部が、新たな分類付与対象文書に対して前記分類付与部によって付与された分類のうち、前記認定された自動付与可能な分類を分類自動付与結果として確定することを特徴とする分類付与方法。 - 請求項1または請求項2における分類付与方法において、
前記教師文書は、文書の作成時期または記載内容の観点から見てランダムになるように選定されることを特徴とする分類付与方法。 - 請求項1または請求項2における分類付与方法において、
前記分類毎に算出する付与精度は、前記分類付与部によって一つ以上の分類が付与された文書集合を対象として、
(1)算出対象である分類Aが人手により付与された文書件数に占める、前記分類付与部によって分類Aが自動付与された文書件数の割合と、
(2)前記分類付与部によって誤って分類Aが付与された文書が、分類A以外の分類の各々に与える分類付与漏れの割合
の2種類であることを特徴とする分類付与方法。 - 利用者からの指示やデータを受け付ける入力部と、処理結果を利用者に報知する出力部と、文書を格納する文書データベースと、文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された教師文書に対して予め人手付与された分類を格納する人手付与分類テーブルと、前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する分類付与部と、前記分類付与部によって付与された分類を前記分類付与対象文書と対にして格納する自動付与分類テーブルを備えた分類付与システムにおいて、
前記教師文書の各々を分類付与対象文書として前記分類付与部によって自動付与された分類の付与精度を、前記人手付与分類テーブルを参照して分類毎に算出する分類別付与精度算出部と、
利用者によって前記入力部を介して指定された前記付与精度の条件を満たす分類を自動付与可能な分類として認定する閾値照合部とを備え、
前記出力部は、前記認定結果を利用者に報知することを特徴とする分類付与システム。 - 利用者からの指示やデータを受け付ける入力部と、処理結果を利用者に報知する出力部と、文書を格納する文書データベースと、文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された教師文書に対して予め人手付与された分類を格納する人手付与分類テーブルと、前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する分類付与部と、前記分類付与部によって付与された分類を前記分類付与対象文書と対にして格納する自動付与分類テーブルを備えた分類付与システムにおいて、
前記教師文書の各々を分類付与対象文書として前記分類付与部によって自動付与された分類の付与精度を、前記人手付与分類テーブルを参照して分類毎に算出する分類別付与精度算出部と、
利用者によって前記入力部を介して指定された前記付与精度の条件を満たす分類を自動付与可能な分類として認定する閾値照合部を備え、
新たな分類付与対象文書に対して前記分類付与部によって付与された分類のうち、前記認定された自動付与可能な分類を分類自動付与結果として確定することを特徴とする分類付与システム。 - 請求項5または請求項6における分類付与システムにおいて、
前記教師文書は、文書の作成時期または記載内容の観点から見てランダムになるように選定されることを特徴とする分類付与システム。 - 請求項5または請求項6における分類付与システムにおいて、
前記分類毎に算出する付与精度は、前記分類付与部によって一つ以上の分類が付与された文書集合を対象として、
(1)算出対象である分類Aが人手により付与された文書件数に占める、前記分類付与部によって分類Aが自動付与された文書件数の割合と、
(2)前記分類付与部によって誤って分類Aが付与された文書が、分類A以外の分類の各々に与える分類付与漏れの割合
の2種類であることを特徴とする分類付与システム。 - 利用者からの指示やデータを受け付ける入力部と、処理結果を利用者に報知する出力部と、文書を格納する文書データベースと、文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された教師文書に対して予め人手付与された分類を格納する人手付与分類テーブルと、前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する分類付与部と、前記分類付与部によって付与された分類を前記分類付与対象文書と対にして格納する自動付与分類テーブルを備えた分類付与システムに、所定の処理を実行させるコンピュータプログラムにおいて、
前記教師文書の各々を分類付与対象文書として分類を付与する処理と、
前記人手付与分類テーブルを参照して前記自動付与された分類の付与精度を分類毎に算出する処理と、
利用者によって前記入力部を介して指定された前記付与精度の条件を満たす分類を自動付与可能な分類として認定する処理と、
前記認定結果を利用者に報知する処理とを、前記分類付与システムに実行させることを特徴とするコンピュータプログラム。 - 利用者からの指示やデータを受け付ける入力部と、処理結果を利用者に報知する出力部と、文書を格納する文書データベースと、文書分類体系に関するデータを格納する分類体系定義テーブルと、分類自動付与のために予め選定された教師文書に対して予め人手付与された分類を格納する人手付与分類テーブルと、前記分類体系定義テーブルに格納された分類のうちの少なくとも一つを分類付与対象文書に付与する分類付与部と、前記分類付与部によって付与された分類を前記分類付与対象文書と対にして格納する自動付与分類テーブルを備えた分類付与システムに、所定の処理を実行させるコンピュータプログラムにおいて、
前記教師文書の各々を分類付与対象文書として分類を付与する処理と、
前記人手付与分類テーブルを参照して前記自動付与された分類の付与精度を分類毎に算出する処理と、
利用者によって前記入力部を介して指定された前記付与精度の条件を満たす分類を自動付与可能な分類として認定する処理と、
新たな分類付与対象文書に対して前記分類付与部によって付与された分類のうち、前記認定された自動付与可能な分類を分類自動付与結果として確定する処理と、前記分類付与システムに実行させることを特徴とするコンピュータプログラム。 - 請求項9または請求項10におけるコンピュータプログラムにおいて、
前記教師文書は、文書の作成時期または記載内容の観点から見てランダムになるように選定されることを特徴とするコンピュータプログラム。 - 請求項9または請求項10におけるコンピュータプログラムにおいて、
前記分類毎に算出する付与精度は、前記分類付与部によって一つ以上の分類が付与された文書集合を対象として、
(1)算出対象である分類Aが人手により付与された文書件数に占める、前記分類付与部によって分類Aが自動付与された文書件数の割合と、
(2)前記分類付与部によって誤って分類Aが付与された文書が、分類A以外の分類の各々に与える分類付与漏れの割合
の2種類であることを特徴とするコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008060406A JP4604097B2 (ja) | 2008-03-11 | 2008-03-11 | 文書分類付与方法、システムまたはコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008060406A JP4604097B2 (ja) | 2008-03-11 | 2008-03-11 | 文書分類付与方法、システムまたはコンピュータプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2009217528A true JP2009217528A (ja) | 2009-09-24 |
JP2009217528A5 JP2009217528A5 (ja) | 2010-07-29 |
JP4604097B2 JP4604097B2 (ja) | 2010-12-22 |
Family
ID=41189307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008060406A Expired - Fee Related JP4604097B2 (ja) | 2008-03-11 | 2008-03-11 | 文書分類付与方法、システムまたはコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4604097B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5572255B1 (ja) * | 2013-10-11 | 2014-08-13 | 株式会社Ubic | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム |
JP2017027495A (ja) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
JP2018194881A (ja) * | 2017-05-12 | 2018-12-06 | 株式会社日立製作所 | 文書分類システムおよび文書分類方法 |
JP2019215886A (ja) * | 2017-03-28 | 2019-12-19 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323454A (ja) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | 文書分類装置及びプログラム |
-
2008
- 2008-03-11 JP JP2008060406A patent/JP4604097B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007323454A (ja) * | 2006-06-02 | 2007-12-13 | National Institute Of Information & Communication Technology | 文書分類装置及びプログラム |
Non-Patent Citations (1)
Title |
---|
JPN7010002503, 間瀬 久雄, "文書内の言語構造を利用した特許文書分類・検索技術の研究", 名古屋大学博士学位論文[online], 20070323, 全文, JP, 名古屋大学学術機関リポジトリ * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5572255B1 (ja) * | 2013-10-11 | 2014-08-13 | 株式会社Ubic | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム |
WO2015052946A1 (ja) * | 2013-10-11 | 2015-04-16 | 株式会社Ubic | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム |
JP2017027495A (ja) * | 2015-07-27 | 2017-02-02 | Kddi株式会社 | 検証装置、分類システム、検証方法、分類方法、及びコンピュータプログラム |
JP2019215886A (ja) * | 2017-03-28 | 2019-12-19 | 日本電信電話株式会社 | 可視化装置、可視化方法、及びプログラム |
JP2018194881A (ja) * | 2017-05-12 | 2018-12-06 | 株式会社日立製作所 | 文書分類システムおよび文書分類方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4604097B2 (ja) | 2010-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101715432B1 (ko) | 단어쌍취득장치, 단어쌍취득방법 및 기록 매체 | |
CN106446071B (zh) | 信息处理装置及方法 | |
US20060004528A1 (en) | Apparatus and method for extracting similar source code | |
CN110362601B (zh) | 元数据标准的映射方法、装置、设备及存储介质 | |
KR101505546B1 (ko) | 텍스트 마이닝을 이용한 키워드 도출 방법 | |
CN109271517B (zh) | Ig tf-idf文本特征向量生成及文本分类方法 | |
JP4604097B2 (ja) | 文書分類付与方法、システムまたはコンピュータプログラム | |
CN113626073B (zh) | 一种基于知识库的软件适配优化方法 | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
CN109344400A (zh) | 一种文献入库的判断方法和装置 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN106997340A (zh) | 词库的生成以及利用词库的文档分类方法及装置 | |
CN113204642A (zh) | 文本聚类方法、装置、存储介质和电子设备 | |
JP5439235B2 (ja) | 文書分類方法、文書分類装置、およびプログラム | |
JP2012526319A (ja) | 電子ドキュメントコレクション内の複数選択ドキュメントを標的調査する方法、システムおよび装置 | |
CN110619212B (zh) | 一种基于字符串的恶意软件识别方法、系统及相关装置 | |
Ryman et al. | Application of source code plagiarism detection and grouping techniques for short programs | |
CN109325099A (zh) | 一种自动检索的方法和装置 | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
CN109189955A (zh) | 一种自动检索关键词的确定方法和装置 | |
CN109189893A (zh) | 一种自动检索的方法和装置 | |
CN109284360A (zh) | 一种专利检索自动去噪方法和装置 | |
Kashima et al. | An investigation into the impact of software licenses on copy-and-paste reuse among OSS projects | |
Chang et al. | Validating halstead metrics for scratch program using process data | |
KR101266504B1 (ko) | 리치니스를 이용한 문서 집합의 토픽 단어 추출 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100614 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100614 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20100614 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20100625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100928 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101004 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 4604097 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131008 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |