JP4552401B2 - 文書処理装置および方法 - Google Patents
文書処理装置および方法 Download PDFInfo
- Publication number
- JP4552401B2 JP4552401B2 JP2003295182A JP2003295182A JP4552401B2 JP 4552401 B2 JP4552401 B2 JP 4552401B2 JP 2003295182 A JP2003295182 A JP 2003295182A JP 2003295182 A JP2003295182 A JP 2003295182A JP 4552401 B2 JP4552401 B2 JP 4552401B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- score
- label
- keyword
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
提供することを目的としている。
「省エネルギー」「消費電力」「プリンタ」「消費」「高画質」「環境」「エネルギー」
が語句として抽出され、各語に対し語句重要度スコアが、0.4,0.4,0.3,0.2,0.1,0.1,0.1
というように与えられている。
「省エネルギー」「消費電力」「プリンタ」「高画質」「環境」
をキーワードとして抽出する。
2・・・語句重要度スコア計算部
3・・・包含関係解析部
4・・・ラベル抽出スコア計算部
5・・・キーワード抽出スコア計算部
6・・・ラベル選択部
7・・・キーワード選択部
8・・・表示出力部
9・・・ラベル・キーワード保持部
Claims (7)
- 文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す1個以上のキーワードを抽出する文書処理装置において、
文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と、
前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と、
前記語句の間の形態上の包含関係を解析する包含関係解析手段と、
前記包含関係解析手段によって解析された他の語句に形態上包含される語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのラベル抽出スコアを算出するラベル抽出スコア計算手段と、
前記包含関係解析手段によって解析された他の語句を形態上包含する語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのキーワード抽出スコアを算出するキーワード抽出スコア計算手段と、
前記ラベル抽出スコアが最も高い語句をラベルに選択するラベル選択手段と、
前記ラベル選択手段により選択されたラベルを除く語句のうち、前記キーワード抽出スコアが高いほうの語句からキーワードを選択するキーワード選択手段とを有し、
前記ラベル抽出スコア計算手段は、他の語句に形態上包含される語句が当該他の語句と比べて高いスコアとなるように前記ラベル抽出スコアを前記語句重要度スコアから算出し、
前記キーワード抽出スコア計算手段は、他の語句を形態上包含する語句が当該他の語句と同じスコア以上のスコアとなるように前記キーワード抽出スコアを前記語句重要度スコアから算出することを特徴とする文書処理装置。 - 前記包含関係解析手段は、文字列の包含関係を解析する請求項1に記載の文書処理装置。
- 前記包含関係解析手段は、単語列の包含関係を解析する請求項1に記載の文書処理装置。
- 前記キーワード選択手段は、包含される語句はキーワードとして選択しない請求項1、2または3に記載の文書処理装置。
- さらに前記ラベルおよびキーワードを表示する表示手段を有し、前記表示手段は、キーワード中のラベルに相当する部分を他の部分と区別して表示する請求項1、2、3または4に記載の文書処理装置。
- 文書群を複数の文書集合に分類する文書群分類手段と、前記文書群分類手段によって分類されたそれぞれの文書群に対してそれぞれ前記ラベルおよび前記キーワードを抽出する請求項1〜5のいずれかに記載の文書処理装置とを備える文書分類装置であって、
前記語句重要度計算手段および前記ラベル抽出スコア計算手段は、他の文書集合のラベルおよびキーワードとして選択された語句のスコアが小さくなるようにスコアを計算することを特徴とする文書分類装置。 - 文書集合の内容を一語で表すラベルと、前記文書集合の概要を表す1個以上のキーワードを抽出するために用いる文書処理用コンピュータプログラムにおいて、
コンピュータを、
文書集合の各文書からラベルとキーワードの候補となる語句を抽出する語句抽出手段と、
前記語句の重要度を表す語句重要度スコアをそれぞれの語句ごとに算出する語句重要度スコア計算手段と、
前記語句の間の形態上の包含関係を解析する包含関係解析手段と、
前記包含関係解析手段によって解析された他の語句に形態上包含される語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのラベル抽出スコアを算出するラベル抽出スコア計算手段と、
前記包含関係解析手段によって解析された他の語句を形態上包含する語句であるか否かという解析結果に基づいて、前記語句重要度スコアから前記語句ごとのキーワード抽出スコアを算出するキーワード抽出スコア計算手段と、
前記ラベル抽出スコアが最も高い語句をラベルに選択するラベル選択手段と、
前記ラベル選択手段により選択されたラベルを除く語句のうち、前記キーワード抽出スコアが高いほうの語句からキーワードを選択するキーワード選択手段として機能させ、
前記ラベル抽出スコア計算手段は、他の語句に形態上包含される語句が当該他の語句と比べて高いスコアとなるように前記ラベル抽出スコアを前記語句重要度スコアから算出し、
前記キーワード抽出スコア計算手段は、他の語句を形態上包含する語句が当該他の語句と同じスコア以上のスコアとなるように前記キーワード抽出スコアを前記語句重要度スコアから算出することを特徴とする文書処理用コンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003295182A JP4552401B2 (ja) | 2003-08-19 | 2003-08-19 | 文書処理装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003295182A JP4552401B2 (ja) | 2003-08-19 | 2003-08-19 | 文書処理装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005063298A JP2005063298A (ja) | 2005-03-10 |
JP4552401B2 true JP4552401B2 (ja) | 2010-09-29 |
Family
ID=34371508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003295182A Expired - Fee Related JP4552401B2 (ja) | 2003-08-19 | 2003-08-19 | 文書処理装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4552401B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007114903A (ja) * | 2005-10-18 | 2007-05-10 | Just Syst Corp | 文書処理装置、文書処理方法および文書処理プログラム |
JP4737435B2 (ja) * | 2006-09-28 | 2011-08-03 | 日本電気株式会社 | ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム |
JP5072651B2 (ja) * | 2008-02-29 | 2012-11-14 | 三菱電機株式会社 | 重要語句抽出装置 |
JP5244877B2 (ja) * | 2010-09-15 | 2013-07-24 | 株式会社東芝 | コンテンツ処理装置 |
JP5085708B2 (ja) * | 2010-09-28 | 2012-11-28 | 株式会社東芝 | キーワード提示装置、方法及びプログラム |
JP6008693B2 (ja) | 2012-10-30 | 2016-10-19 | キヤノン株式会社 | 情報処理装置及びその制御方法、プログラム |
US20170132638A1 (en) * | 2014-12-26 | 2017-05-11 | Hitachi, Ltd. | Relevant information acquisition method and apparatus, and storage medium |
US10437837B2 (en) * | 2015-10-09 | 2019-10-08 | Fujitsu Limited | Generating descriptive topic labels |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125108A (ja) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム |
JP2002288217A (ja) * | 2001-03-27 | 2002-10-04 | Mitsubishi Electric Corp | 情報提供サーバ、情報提供方法、情報を提供するためのプログラム |
-
2003
- 2003-08-19 JP JP2003295182A patent/JP4552401B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125108A (ja) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム |
JP2002288217A (ja) * | 2001-03-27 | 2002-10-04 | Mitsubishi Electric Corp | 情報提供サーバ、情報提供方法、情報を提供するためのプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2005063298A (ja) | 2005-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alzahrani et al. | Fuzzy semantic-based string similarity for extrinsic plagiarism detection | |
US6978275B2 (en) | Method and system for mining a document containing dirty text | |
El-Beltagy et al. | Combining lexical features and a supervised learning approach for Arabic sentiment analysis | |
US20160155058A1 (en) | Non-factoid question-answering system and method | |
JP2005128873A (ja) | 質問応答型文書検索システム及び質問応答型文書検索プログラム | |
JP5388038B2 (ja) | 文書要約装置、文書処理装置、及びプログラム | |
US20160189057A1 (en) | Computer implemented system and method for categorizing data | |
US20130036076A1 (en) | Method for keyword extraction | |
US8443008B2 (en) | Cooccurrence dictionary creating system, scoring system, cooccurrence dictionary creating method, scoring method, and program thereof | |
Kumar et al. | IIT-TUDA: System for sentiment analysis in Indian languages using lexical acquisition | |
US20110093257A1 (en) | Information retrieval through indentification of prominent notions | |
JP4865526B2 (ja) | データマイニングシステム、データマイニング方法及びデータ検索システム | |
US9773166B1 (en) | Identifying longform articles | |
Pagael et al. | Mathematical language processing project | |
Boag et al. | Twitterhawk: A feature bucket based approach to sentiment analysis | |
Tamchyna et al. | Czech Aspect-Based Sentiment Analysis: A New Dataset and Preliminary Results. | |
Singh et al. | Sentiment analysis using lexicon based approach | |
Mihi et al. | MSTD: Moroccan sentiment twitter dataset | |
JP4552401B2 (ja) | 文書処理装置および方法 | |
Barbieri et al. | UPF-taln: SemEval 2015 tasks 10 and 11. Sentiment analysis of literal and figurative language in Twitter | |
Truica et al. | Automatic language identification for romance languages using stop words and diacritics | |
Bashir et al. | Automatic Hausa LanguageText Summarization Based on Feature Extraction using Naïve Bayes Model | |
Soleh et al. | A non word error spell checker for Indonesian using morphologically analyzer and HMM | |
Pudota et al. | A new domain independent keyphrase extraction system | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100622 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100705 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130723 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4552401 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140723 Year of fee payment: 4 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
LAPS | Cancellation because of no payment of annual fees | ||
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |