JP5965260B2 - 文書分類プログラム及び文書分類装置 - Google Patents
文書分類プログラム及び文書分類装置 Download PDFInfo
- Publication number
- JP5965260B2 JP5965260B2 JP2012199662A JP2012199662A JP5965260B2 JP 5965260 B2 JP5965260 B2 JP 5965260B2 JP 2012199662 A JP2012199662 A JP 2012199662A JP 2012199662 A JP2012199662 A JP 2012199662A JP 5965260 B2 JP5965260 B2 JP 5965260B2
- Authority
- JP
- Japan
- Prior art keywords
- feature
- category
- word
- document
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
120 解析処理部
121 文書解析部
122 格要素抽出部
130 重要度計算部
140 学習処理部
151 重要度計算用学習辞書
152 分類計算用学習辞書
161 特徴量作成部
162 潜在的意味解析部
163 分類処理部
170 出力処理部
180 文書データ
Claims (2)
- 予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する手順と、
前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単語を抽出する手順と、
前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する手順と、
前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する手順と、
前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する手順と、
前記格要素と述語ごとに作成された特徴量を記憶する手順と、
前記格要素と述語ごとに作成された特徴量を第2の特徴量に変換する手順と、
前記第2の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する手順と、
をコンピュータに実行させ、文書データを特定のカテゴリに分類する文書分類プログラム。 - 文書データを特定のカテゴリに分類する文書分類装置であって、
予め正解のカテゴリが付与された複数の文書データと、カテゴリが付与されていない文書データの各々について、文構造を解析する構造解析手段と、
前記解析された文構造に基づき、格要素と述語を抽出し、該格要素と述語ごとに特徴単を抽出する格要素等抽出手段と、
前記抽出された特徴単語、及び、カテゴリごとに該特徴単語が出現した文書数、を記憶する重要度計算用学習辞書と、
前記特徴単語及びカテゴリごとに該特徴単語が出現した文書数に基づき、該特徴単語の重要度を計算する重要度計算手段と、
前記抽出された特徴単語と該特徴単語の重要度に基づき、前記格要素と述語ごとに特徴量を作成する特徴量作成手段と、
前記格要素と述語ごとに作成された特徴量を記憶する分類計算用学習辞書と、
前記格要素と述語ごとに作成された特徴量を第2の特徴量に変換する特徴量変換手段と、
前記第2の特徴量に基づき、前記カテゴリが付与されていない文書データのカテゴリを決定する分類処理手段と、
を有することを特徴とする文書分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012199662A JP5965260B2 (ja) | 2012-09-11 | 2012-09-11 | 文書分類プログラム及び文書分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012199662A JP5965260B2 (ja) | 2012-09-11 | 2012-09-11 | 文書分類プログラム及び文書分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014056331A JP2014056331A (ja) | 2014-03-27 |
JP5965260B2 true JP5965260B2 (ja) | 2016-08-03 |
Family
ID=50613610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012199662A Active JP5965260B2 (ja) | 2012-09-11 | 2012-09-11 | 文書分類プログラム及び文書分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5965260B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6467893B2 (ja) * | 2014-12-03 | 2019-02-13 | 日本電気株式会社 | 情報処理システム、情報処理方法、及び、プログラム |
JP6412541B2 (ja) * | 2016-11-10 | 2018-10-24 | Necパーソナルコンピュータ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
CN108628869A (zh) * | 2017-03-16 | 2018-10-09 | 富士施乐实业发展(中国)有限公司 | 一种对电子文书进行类别划分的方法和装置 |
JP6374573B1 (ja) * | 2017-06-08 | 2018-08-15 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
CN110020422B (zh) | 2018-11-26 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
JP7358132B2 (ja) | 2019-09-13 | 2023-10-10 | 株式会社日立製作所 | 計算機システム及び文書の分類方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003091542A (ja) * | 2001-09-17 | 2003-03-28 | Canon Inc | 文書分類方法、文書分類装置、プログラム及び記録媒体 |
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
JP2008176489A (ja) * | 2007-01-17 | 2008-07-31 | Toshiba Corp | テキスト判別装置およびテキスト判別方法 |
JP5471673B2 (ja) * | 2010-03-23 | 2014-04-16 | 大日本印刷株式会社 | 文書分類装置、プログラムおよび記憶媒体 |
JP5477910B2 (ja) * | 2010-08-20 | 2014-04-23 | Kddi株式会社 | 検索キーワード辞書及び係り受けキーワード辞書を用いた文章検索プログラム、装置、サーバ及び方法 |
-
2012
- 2012-09-11 JP JP2012199662A patent/JP5965260B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014056331A (ja) | 2014-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8280877B2 (en) | Diverse topic phrase extraction | |
JP5965260B2 (ja) | 文書分類プログラム及び文書分類装置 | |
CN111475729B (zh) | 搜索内容推荐方法及装置 | |
CN106407406B (zh) | 一种文本处理方法和系统 | |
CN108733682B (zh) | 一种生成多文档摘要的方法及装置 | |
US20130018650A1 (en) | Selection of Language Model Training Data | |
US10521510B2 (en) | Computer-readable recording medium, retrieval device, and retrieval method | |
WO2020232898A1 (zh) | 文本分类方法、装置、电子设备及计算机非易失性可读存储介质 | |
JP2003223456A (ja) | 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法 | |
KR101717230B1 (ko) | 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템 | |
Jin et al. | Entity linking at the tail: sparse signals, unknown entities, and phrase models | |
CN109376235B (zh) | 基于文档层词频重排序的特征选择方法 | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
JP5538185B2 (ja) | テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム | |
Aida et al. | A comprehensive analysis of PMI-based models for measuring semantic differences | |
Duma et al. | Applying core scientific concepts to context-based citation recommendation | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Pak et al. | The impact of text representation and preprocessing on author identification | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP2005092253A (ja) | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム | |
JP7452623B2 (ja) | 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN109684442B (zh) | 一种文本检索方法、装置、设备及程序产品 | |
Balaji et al. | Finding related research papers using semantic and co-citation proximity analysis | |
JP2011076264A5 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150708 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20150708 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160426 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160701 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5965260 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |