JP2014056331A - 文書分類方法、文書分類プログラム及び文書分類装置 - Google Patents
文書分類方法、文書分類プログラム及び文書分類装置 Download PDFInfo
- Publication number
- JP2014056331A JP2014056331A JP2012199662A JP2012199662A JP2014056331A JP 2014056331 A JP2014056331 A JP 2014056331A JP 2012199662 A JP2012199662 A JP 2012199662A JP 2012199662 A JP2012199662 A JP 2012199662A JP 2014056331 A JP2014056331 A JP 2014056331A
- Authority
- JP
- Japan
- Prior art keywords
- category
- feature
- document
- word
- case element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】文書分類方法は、文書分類に用いる特徴単語を、文の表層格と述語の関係から修飾構造および意味構造の単位で抽出する。特徴単語の重要度として、尤もらしいカテゴリを予測した重み付けを用いる。重み付けは、特定のカテゴリに偏って出現する特徴単語を、分類すべきカテゴリと依存の度合いが高い特徴単語であるとし、特徴単語に対し最も多い頻度で現れたカテゴリを尤もらしいカテゴリと推定し、当該カテゴリに対する統計指標の計算結果を特徴単語の重要度として使用する。分類すべき文書を、予め学習済みの文書データと、修飾構造および意味構造の単位で類似性を比較する。特徴単語の類似性の比較を、潜在的意味空間における上位概念同士の比較により行う。
【選択図】図1
Description
120 解析処理部
121 文書解析部
122 格要素抽出部
130 重要度計算部
140 学習処理部
151 重要度計算用学習辞書
152 分類計算用学習辞書
161 特徴量作成部
162 潜在的意味解析部
163 分類処理部
170 出力処理部
180 文書データ
Claims (9)
- 文書データを特定のカテゴリに分類する文書分類方法であって、
予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する構造解析ステップと、
前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単語を抽出する格要素等抽出ステップと、
前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する重要度計算用学習辞書作成ステップと、
前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する重要度計算ステップと、
前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する特徴量作成ステップと、
前記格要素と述語ごとに作成された特徴量を記憶する分類計算用学習辞書作成ステップと、
前記格要素と述語ごとに作成された特徴量を第2の特徴量に変換する特徴量変換ステップと、
前記第2の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する分類処理ステップと、
を有することを特徴とする文書分類方法。 - 前記第2の特徴量変換ステップは、前記特徴量を潜在的意味空間における特徴量に変換するステップである請求項1記載の文書分類方法。
- 前記格要素等抽出ステップは、表層格と述語の関係により文の意味構造を捕捉することを特徴とする請求項1記載の文書分類方法。
- 前記格要素等抽出ステップは、格要素を修飾する文節から抽出した特徴単語を格要素の一部に含めることで、文の修飾構造を分類に利用することを特徴とする請求項1から3記載の文書分類方法。
- 前記重要度計算ステップは、前記予め正解のカテゴリが付与された複数の文書データから前記格要素等抽出ステップによって抽出した特徴単語と、前記文書データに付与された正解のカテゴリとの統計指標に基づいて計算することを特徴とする請求項1から4記載の文書分類方法。
- 前記重要度計算ステップは、前記カテゴリが付与されていない文書データに対して、分類すべきカテゴリとの依存の度合いが高く、特定のカテゴリに偏って出現する単語が最も多い頻度で現れたカテゴリを尤もらしいカテゴリと推定し、前記文書データを格要素等抽出ステップによって抽出した特徴単語と、前記推定したカテゴリとの統計指標に基づいて計算することを特徴とする請求項1から5記載の文書分類方法。
- 前記第2の特徴量変換ステップは、前記格要素と述語ごとに作成された特徴量を潜在的意味空間に変換し、単語の上位概念を扱うことを特徴とする、請求項1から6記載の文書分類方法。
- 予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する手順と、
前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単語を抽出する手順と、
前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する手順と、
前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する手順と、
前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する手順と、
前記格要素と述語ごとに作成された特徴量を記憶する手順と、
前記格要素と述語ごとに作成された特徴量を第2の特徴量に変換する手順と、
前記第2の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する手順と、
をコンピュータに実行させ、文書データを特定のカテゴリに分類する文書分類プログラム。 - 文書データを特定のカテゴリに分類する文書分類装置であって、
予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する構造解析手段と、
前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単語を抽出する格要素等抽出手段と、
前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する重要度計算用学習辞書と、
前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する重要度計算手段と、
前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する特徴量作成手段と、
前記格要素と述語ごとに作成された特徴量を記憶する分類計算用学習辞書と、
前記格要素と述語ごとに作成された特徴量を第2の特徴量に変換する特徴量変換手段と、
前記第2の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する分類処理手段と、
を有することを特徴とする文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012199662A JP5965260B2 (ja) | 2012-09-11 | 2012-09-11 | 文書分類プログラム及び文書分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012199662A JP5965260B2 (ja) | 2012-09-11 | 2012-09-11 | 文書分類プログラム及び文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014056331A true JP2014056331A (ja) | 2014-03-27 |
JP5965260B2 JP5965260B2 (ja) | 2016-08-03 |
Family
ID=50613610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012199662A Active JP5965260B2 (ja) | 2012-09-11 | 2012-09-11 | 文書分類プログラム及び文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5965260B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016110284A (ja) * | 2014-12-03 | 2016-06-20 | 日本電気株式会社 | 情報処理システム、情報処理方法、及び、プログラム |
JP2018077727A (ja) * | 2016-11-10 | 2018-05-17 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP6374573B1 (ja) * | 2017-06-08 | 2018-08-15 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
CN108628869A (zh) * | 2017-03-16 | 2018-10-09 | 富士施乐实业发展(中国)有限公司 | 一种对电子文书进行类别划分的方法和装置 |
WO2020108063A1 (zh) * | 2018-11-26 | 2020-06-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
JP7358132B2 (ja) | 2019-09-13 | 2023-10-10 | 株式会社日立製作所 | 計算機システム及び文書の分類方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003091542A (ja) * | 2001-09-17 | 2003-03-28 | Canon Inc | 文書分類方法、文書分類装置、プログラム及び記録媒体 |
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
JP2008176489A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | テキスト判別装置およびテキスト判別方法 |
JP2011198203A (ja) * | 2010-03-23 | 2011-10-06 | Dainippon Printing Co Ltd | 文書分類装置、文書分類方法、プログラムおよび記憶媒体 |
JP2012043286A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法 |
-
2012
- 2012-09-11 JP JP2012199662A patent/JP5965260B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003091542A (ja) * | 2001-09-17 | 2003-03-28 | Canon Inc | 文書分類方法、文書分類装置、プログラム及び記録媒体 |
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
JP2008176489A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | テキスト判別装置およびテキスト判別方法 |
JP2011198203A (ja) * | 2010-03-23 | 2011-10-06 | Dainippon Printing Co Ltd | 文書分類装置、文書分類方法、プログラムおよび記憶媒体 |
JP2012043286A (ja) * | 2010-08-20 | 2012-03-01 | Kddi Corp | 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016110284A (ja) * | 2014-12-03 | 2016-06-20 | 日本電気株式会社 | 情報処理システム、情報処理方法、及び、プログラム |
JP2018077727A (ja) * | 2016-11-10 | 2018-05-17 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN108628869A (zh) * | 2017-03-16 | 2018-10-09 | 富士施乐实业发展(中国)有限公司 | 一种对电子文书进行类别划分的方法和装置 |
JP6374573B1 (ja) * | 2017-06-08 | 2018-08-15 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
JP2018206232A (ja) * | 2017-06-08 | 2018-12-27 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
WO2020108063A1 (zh) * | 2018-11-26 | 2020-06-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
US11544459B2 (en) | 2018-11-26 | 2023-01-03 | Advanced New Technologies Co., Ltd. | Method and apparatus for determining feature words and server |
JP7358132B2 (ja) | 2019-09-13 | 2023-10-10 | 株式会社日立製作所 | 計算機システム及び文書の分類方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5965260B2 (ja) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8280877B2 (en) | Diverse topic phrase extraction | |
Fattah | A hybrid machine learning model for multi-document summarization | |
CN111475729B (zh) | 搜索内容推荐方法及装置 | |
JP5965260B2 (ja) | 文書分類プログラム及び文書分類装置 | |
JP5537649B2 (ja) | データ検索およびインデクシングの方法および装置 | |
CN108733682B (zh) | 一种生成多文档摘要的方法及装置 | |
US10521510B2 (en) | Computer-readable recording medium, retrieval device, and retrieval method | |
CN108763214B (zh) | 一种针对商品评论的情感词典自动构建方法 | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
Angeli et al. | Stanford’s 2014 slot filling systems | |
KR101717230B1 (ko) | 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 | |
JP2003223456A (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
Jin et al. | Entity linking at the tail: sparse signals, unknown entities, and phrase models | |
CN109376235B (zh) | 基于文档层词频重排序的特征选择方法 | |
CN106294733A (zh) | 基于文本分析的网页检测方法 | |
Aida et al. | A comprehensive analysis of PMI-based models for measuring semantic differences | |
CN115238039A (zh) | 文本生成方法、电子设备及计算机可读存储介质 | |
Duma et al. | Applying core scientific concepts to context-based citation recommendation | |
Balaji et al. | Text Summarization using NLP Technique | |
CN106294295A (zh) | 基于词频的文章相似度识别方法 | |
John et al. | Vertex cover algorithm based multi-document summarization using information content of sentences | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
CN111062219A (zh) | 一种基于张量的潜在语义分析文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150708 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5965260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |