JP2011090447A - 文書判定条件生成装置および文書判定条件生成方法 - Google Patents
文書判定条件生成装置および文書判定条件生成方法 Download PDFInfo
- Publication number
- JP2011090447A JP2011090447A JP2009242379A JP2009242379A JP2011090447A JP 2011090447 A JP2011090447 A JP 2011090447A JP 2009242379 A JP2009242379 A JP 2009242379A JP 2009242379 A JP2009242379 A JP 2009242379A JP 2011090447 A JP2011090447 A JP 2011090447A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document data
- extracted
- document
- determination condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 33
- 238000000605 extraction Methods 0.000 claims description 116
- 238000004364 calculation method Methods 0.000 claims description 45
- 238000013500 data storage Methods 0.000 claims description 39
- 238000013075 data extraction Methods 0.000 claims description 27
- 239000000284 extract Substances 0.000 claims description 26
- 238000004458 analytical method Methods 0.000 claims description 23
- 230000000877 morphologic effect Effects 0.000 claims description 11
- 230000006978 adaptation Effects 0.000 abstract description 6
- 150000001875 compounds Chemical class 0.000 description 13
- 238000011084 recovery Methods 0.000 description 12
- 208000028018 Lymphocytic leukaemia Diseases 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 208000032839 leukemia Diseases 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 5
- 208000010392 Bone Fractures Diseases 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 210000003127 knee Anatomy 0.000 description 4
- 208000003747 lymphoid leukemia Diseases 0.000 description 4
- 210000002751 lymph Anatomy 0.000 description 3
- 230000001568 sexual effect Effects 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000002414 leg Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 208000027765 speech disease Diseases 0.000 description 1
- 210000000689 upper leg Anatomy 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】複数のカテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データを記憶し、文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、キーワードが対象カテゴリに対して適合する度合いを示す適合率とを対応付けて記憶し、キーワードリストに含まれるキーワードに対応付けられた適合率と予め定められた閾値とを比較して、閾値未満である適合率に対応するキーワードを抽出し、抽出したキーワードが含まれる文書データを抽出し、抽出した文書データのうち、対象カテゴリが対応付けられた正解文書データを抽出し、抽出した正解文書データに含まれる語から、対象カテゴリに対する適合率が相対的に高い語である付加キーワードを抽出し、抽出したキーワードと付加キーワードとが含まれることを示す文書判定条件を生成する。
【選択図】図1
Description
図1は、本実施形態による文書判定条件生成装置100の構成を示すブロック図である。文書判定条件生成装置100は、定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成するコンピュータ装置である。図2は、特定のカテゴリが対応付けられた文書データの集合と、特定のキーワードが含まれる文書データの集合との関係を概念的に示す図である。例えば、内容に応じたカテゴリが予め対応付けられた文書データの集合のうち、医療カテゴリが予め対応付けられた文書データ集合(符号a)と、経済カテゴリが予め対応付けられた文書データ集合(符号b)とが存在する。各カテゴリには、そのカテゴリの文書データに特徴的に現れるキーワードが予め対応付けられている。
この例では、ステップS210において、付加キーワード抽出部124は、既にAND付加キーワード候補として抽出されている処理対象語を抽出対象から除外することで、同一のAND付加キーワード候補が複数抽出されることを防ぐこととしたが、例えば、ステップS217において、抽出されたAND付加キーワードを含む文書データを正解文書から除いて、ステップS210に戻るようにしても良い。NOT付加キーワード候補の抽出時にも、同様に、ステップS220において、既にNOT付加キーワード候補として抽出されている処理対象語を抽出対象から除外することで、同一のNOT付加キーワード候補が複数抽出されることを防ぐようにしても良いし、ステップS227において、抽出されたNOT付加キーワードを含む文書データを不正解文書から除いて、ステップS220に戻るようにしても良い。
以上説明したように、本実施形態によれば、許容再現率を超える再現率を保った状態で、文書判定の分類ノイズを最小化し、最適な文書判定条件を生成することが可能である。
110 文書データ記憶部
111 キーワードリスト記憶部
112 改善対象キーワード抽出部
121 文書データ抽出部
122 形態素解析部
123 処理対象語抽出部
124 付加キーワード抽出部
131 第1の再現率算出部
132 第1の再現率比較部
133 抽出文書数比較部
134 NOTキーワード候補再抽出部
135 第2の再現率算出部
136 第2の再現率比較部
137 条件生成部
Claims (7)
- 定められた文書データに含まれる語に応じて、文書データの内容に応じた分類を示すカテゴリを判定するための文書判定条件を生成する文書判定条件生成装置であって、
複数の前記カテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、
複数の前記カテゴリのうち、前記文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、当該キーワードが前記対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部と、
前記キーワードリストに含まれる前記キーワードに対応付けられた前記適合率と予め定められた閾値とを比較して、前記閾値未満である前記適合率が対応付けられた前記キーワードである改善対象キーワードを前記キーワードリスト記憶部から抽出する改善対象キーワード抽出部と、
前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記対象カテゴリが対応付けられた前記文書データである正解文書データを前記文書データ記憶部から抽出する文書データ抽出部と、
前記文書データ抽出部によって抽出された前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い語である第1の付加キーワードを抽出する付加キーワード抽出部と、
前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された前記第1の付加キーワードが含まれることを示す前記文書判定条件を生成する条件生成部と、
を備えることを特徴とする文書判定条件生成装置。 - 前記文書データ抽出部によって抽出された前記正解文書データに含まれる文を形態素解析し、前記正解文書データに含まれる形態素と当該形態素に対応する品詞とを出力する形態素解析部と、
前記形態素解析部による形態素解析の結果に基づいて、品詞が名詞である前記形態素が含まれる語である処理対象語を抽出する処理対象語抽出部と、を備え、
前記付加キーワード抽出部は、前記処理対象語抽出部によって抽出された前記処理対象語から、前記第1の付加キーワードを抽出する
ことを特徴とする請求項1に記載の文書判定条件生成装置。 - 前記文書データ抽出部は、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードおよび前記付加キーワード抽出部によって抽出された前記第1の付加キーワードが含まれ、かつ前記対象カテゴリ以外の前記カテゴリが対応付けられた前記文書データである不正解文書データを抽出し、
前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記不正解文書データに含まれる語から、前記対象カテゴリ以外の前記カテゴリに対する前記適合率が相対的に高い語である第2の付加キーワードを抽出し、
前記条件生成部は、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された前記第2の付加キーワードが含まれないことを示す前記文書判定条件を生成する
ことを特徴とする請求項1または請求項2に記載の文書判定条件生成装置。 - 前記文書データ抽出部によって抽出された前記正解文書データの数と、前記文書判定条件を用いて前記文書データ記憶部に記憶された前記文書データから抽出する前記文書データの数との比である再現率を算出する再現率算出部と、
前記再現率算出部が算出した前記再現率と、予め定められた再現率の閾値とを比較して、前記再現率が前記閾値未満であるか否かを判定する再現率比較部と、を備え、
前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い複数の前記第1の付加キーワードを抽出し、
前記条件生成部は、前記再現率比較部によって前記再現率が前記閾値未満であると判定された場合、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された複数の前記第1の付加キーワードのうちいずれかのキーワードが含まれることを示す前記文書判定条件を生成する
ことを特徴とする請求項1から請求項3までのいずれか1項に記載の文書判定条件生成装置。 - 前記付加キーワード抽出部は、前記文書データ抽出部によって抽出された前記不正解文書データに含まれる語から、前記対象カテゴリ以外のカテゴリに対する前記適合率が相対的に高い複数の前記第2の付加キーワードを抽出し、
前記条件生成部は、前記再現率比較部によって前記再現率が前記閾値以上であると判定された場合、前記改善対象キーワード抽出部によって抽出された前記改善対象キーワードが含まれ、かつ前記付加キーワード抽出部によって抽出された複数の前記第2の付加キーワードのいずれもが含まれないことを示す前記文書判定条件を生成する
ことを特徴とする請求項4に記載の文書判定条件生成装置。 - 前記カテゴリに対する前記キーワードの適合率は、前記文書データ記憶部に記憶された前記文書データのうち、当該カテゴリが対応付けられた前記文書データの数と、当該キーワードが含まれる全てのカテゴリの文書データの数との比によって表される
ことを特徴とする請求項1から請求項5までのいずれか1項に記載の文書判定条件生成装置。 - 定められた文書データの内容に応じた分類を示す複数の前記カテゴリのうちいずれかのカテゴリが予め対応付けられた複数の文書データが記憶される文書データ記憶部と、複数の前記カテゴリのうち、文書データに含まれる語に応じて文書データのカテゴリを判定するための文書判定条件を生成する対象である対象カテゴリに対応する複数のキーワードと、当該キーワードが前記対象カテゴリに対して適合する度合いを示す適合率とが対応付けられて記憶されるキーワードリスト記憶部とを備えた文書判定条件生成装置の文書判定条件生成方法であって、
前記キーワードリストに含まれる前記キーワードに対応付けられた前記適合率と予め定められた閾値とを比較して、前記閾値未満である前記適合率に対応する前記キーワードを前記キーワードリスト記憶部から抽出するステップと、
抽出した前記キーワードが含まれ、かつ前記対象カテゴリが対応付けられた前記文書データである正解文書データを前記文書データ記憶部から抽出するステップと、
抽出した前記正解文書データに含まれる語から、前記対象カテゴリに対する前記適合率が相対的に高い語である第1の付加キーワードを抽出するステップと、
抽出した前記キーワードが含まれ、かつ抽出した前記第1の付加キーワードが含まれることを示す前記文書判定条件を生成するステップと、
を備えることを特徴とする文書判定条件生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009242379A JP5297972B2 (ja) | 2009-10-21 | 2009-10-21 | 文書判定条件生成装置および文書判定条件生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009242379A JP5297972B2 (ja) | 2009-10-21 | 2009-10-21 | 文書判定条件生成装置および文書判定条件生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011090447A true JP2011090447A (ja) | 2011-05-06 |
JP5297972B2 JP5297972B2 (ja) | 2013-09-25 |
Family
ID=44108656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009242379A Active JP5297972B2 (ja) | 2009-10-21 | 2009-10-21 | 文書判定条件生成装置および文書判定条件生成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5297972B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013191204A (ja) * | 2012-02-15 | 2013-09-26 | Rakuten Inc | カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 |
JP2019149102A (ja) * | 2018-02-28 | 2019-09-05 | ヤフー株式会社 | 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム |
JP2022029461A (ja) * | 2018-02-28 | 2022-02-17 | ヤフー株式会社 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2007041721A (ja) * | 2005-08-01 | 2007-02-15 | Ntt Resonant Inc | 情報分類方法およびプログラム、装置および記録媒体 |
-
2009
- 2009-10-21 JP JP2009242379A patent/JP5297972B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006099478A (ja) * | 2004-09-29 | 2006-04-13 | Toshiba Corp | 文書分類装置および文書分類方法 |
JP2007041721A (ja) * | 2005-08-01 | 2007-02-15 | Ntt Resonant Inc | 情報分類方法およびプログラム、装置および記録媒体 |
Non-Patent Citations (2)
Title |
---|
CSNG200201756001; 辻洋、外3名: 'テキスト自動分類エキスパートシステムの一構成法' 第49回(平成6年後期)全国大会講演論文集(3) , 19940930, p.3-93〜3-94, 社団法人情報処理学会 * |
JPN6013023674; 辻洋、外3名: 'テキスト自動分類エキスパートシステムの一構成法' 第49回(平成6年後期)全国大会講演論文集(3) , 19940930, p.3-93〜3-94, 社団法人情報処理学会 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013191204A (ja) * | 2012-02-15 | 2013-09-26 | Rakuten Inc | カテゴリ判定装置、検索装置、カテゴリ判定方法、カテゴリ判定プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体 |
JP2019149102A (ja) * | 2018-02-28 | 2019-09-05 | ヤフー株式会社 | 情報処理装置、キーワード抽出装置、情報処理方法、およびプログラム |
JP2022029461A (ja) * | 2018-02-28 | 2022-02-17 | ヤフー株式会社 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
JP7297855B2 (ja) | 2018-02-28 | 2023-06-26 | ヤフー株式会社 | キーワード抽出装置、キーワード抽出方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5297972B2 (ja) | 2013-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8402036B2 (en) | Phrase based snippet generation | |
JP3497172B2 (ja) | 自動文書分類システム | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
El-Fishawy et al. | Arabic summarization in twitter social network | |
JP2004164036A (ja) | 文書の共通性評価方法 | |
US10586174B2 (en) | Methods and systems for finding and ranking entities in a domain specific system | |
Gunawan et al. | Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia | |
JP5718405B2 (ja) | 発話選択装置、方法、及びプログラム、対話装置及び方法 | |
JP2002132811A (ja) | 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体 | |
JP5297972B2 (ja) | 文書判定条件生成装置および文書判定条件生成方法 | |
JP4969209B2 (ja) | 検索システム | |
Pande et al. | Generation, implementation, and appraisal of an N-gram-based stemming algorithm | |
Oliveira et al. | A concept-based ilp approach for multi-document summarization exploring centrality and position | |
JP2009140263A (ja) | 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム | |
Patil et al. | Inflectional and derivational hybrid stemmer for sentiment analysis: a case study with Marathi tweets | |
Nomoto | A generic sentence trimmer with CRFs | |
Romero et al. | Using Wikipedia concepts and frequency in language to extract key terms from support documents | |
JP2002183194A (ja) | 検索式生成装置およびその方法 | |
JP2009098931A (ja) | キーワード間の関連度算出システム及び関連度算出方法 | |
JPH10177575A (ja) | 語句抽出装置および方法、情報記憶媒体 | |
Zheng et al. | An improved focused crawler based on text keyword extraction | |
CN116738065B (zh) | 一种企业搜索方法、装置、设备及存储介质 | |
Galiotou et al. | On the effect of stemming algorithms on extractive summarization: a case study | |
Kumar et al. | TelStem: An unsupervised telugu stemmer with heuristic improvements and normalized signatures | |
US20230185837A1 (en) | Method and computer system for determining the relevance of a text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120220 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130430 |
|
TRDD | Decision of grant or rejection written | ||
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130617 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5297972 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |