JP5331723B2 - 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム - Google Patents
特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム Download PDFInfo
- Publication number
- JP5331723B2 JP5331723B2 JP2010024718A JP2010024718A JP5331723B2 JP 5331723 B2 JP5331723 B2 JP 5331723B2 JP 2010024718 A JP2010024718 A JP 2010024718A JP 2010024718 A JP2010024718 A JP 2010024718A JP 5331723 B2 JP5331723 B2 JP 5331723B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- document data
- degree
- words
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は、本実施形態による特徴語抽出装置100の構成を示すブロック図である。特徴語抽出装置100は、記憶部110と、入力部120と、形態素解析部130と、単語処理部140と、クラスタ抽出部150と、帰属度算出部160と、特徴語抽出部170と、結果表示部180とを備えている。
文書データ記憶部111には、複数の単語が含まれる複数の文書データと、その文書データに含まれる単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される。図2は、文書データ記憶部111に記憶される文書データの例を示す図である。文書データには、文書IDと、文書カテゴリと、文書内容との情報が含まれる。文書IDは、文書データを識別する識別情報である。文書カテゴリは、対応する文書内容に応じたカテゴリを示す情報である。カテゴリとは、文書データに含まれる語の内容に応じた分類を示し、例えば、新聞記事における「スポーツ」や「経済」などのジャンルである。あるいは、例えば医療文書における「栄養障害」や「内分泌・代謝疾患」、「消化器疾患」等の疾患分野である。文書内容には、複数の単語や文が含まれる。
・・・(1)
結果表示部180は、特徴語抽出部170によって抽出された特徴語が表示されるディスプレイである。結果表示部180には、抽出された特徴語のカテゴリに対する帰属度が高い順序に並び替えて表示されるようにしても良い。
まず、入力部120に指定カテゴリが入力されると、形態素解析部130は、文書データ記憶部111に記憶された複数の文書データを読み出し(ステップS100)、読み出した文書データ毎に含まれる文の形態素解析を行う。形態素解析部130は、文書データを識別する文書IDに、形態素解析により分割した単語を対応付けた文書毎単語リストを文書毎単語リスト記憶部112に記憶させる(ステップS200)。
110 記憶部
111 文書データ記憶部
112 文書毎単語リスト記憶部
113 カテゴリ別ネットワークデータ記憶部
114 帰属度記憶部
115 カテゴリ別特徴語記憶部
120 入力部
130 形態素解析部
140 単語処理部
150 クラスタ抽出部
160 帰属度算出部
170 特徴語抽出部
180 結果表示部
Claims (5)
- 複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、
複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部と、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成する単語処理部と、
前記単語処理部によって生成された前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するクラスタ抽出部と、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出する帰属度算出部と、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出する特徴語抽出部と、
を備えることを特徴とする特徴語抽出装置。 - 前記単語処理部は、前記クラスタ抽出部によって抽出された前記クラスタの数が、抽出することが予め定められたクラスタ数未満であると判定すると、前記クラスタへの帰属度に基づいて前記ネットワークデータを更新し、
前記クラスタ抽出部は、更新された前記ネットワークデータに基づいて前記クラスタを抽出する
ことを特徴とする請求項1に記載の特徴語抽出装置。 - 前記帰属度算出部は、前記固有ベクトルのうち最大値をもつ固有ベクトルに対応する要素を規格定数として、前記固有ベクトルの要素と前記規格定数との比である前記帰属度を算出する
ことを特徴とする請求項1または請求項2に記載の特徴語抽出装置。 - 複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置の特徴語抽出方法であって、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、
生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
を備えることを特徴とする特徴語抽出方法。 - 複数の単語が含まれる複数の文書データと、当該文書データに含まれる前記単語の内容に応じた分類を示すカテゴリとが対応付けられて記憶される文書データ記憶部と、複数の前記文書データ毎に、当該文書データに含まれる複数の前記単語が対応付けられて記憶される文書毎単語リスト記憶部とを備えた特徴語抽出装置のコンピュータに、
前記複数の文書データに含まれる前記単語のペアである単語対が共起する文書データの数を示す第1の出現頻度と、複数の前記カテゴリのうち定められた指定カテゴリが対応付けられた複数の前記文書データのうち、前記単語対が共起する文書データの数を示す第2の出現頻度とを算出し、算出した第2の出現頻度から第1の出現頻度を除算した値を、前記単語対の単語間の関連の強さを示す共起度として算出し、前記単語をノードとし、前記共起度をエッジとしたネットワークデータをN×Nの対称行列である行列データとして生成するステップと、
生成した前記行列データの最大固有値を凝集度として算出し、算出した凝集度に対応する固有ベクトルから定められる複数の単語の集合であるクラスタを抽出するステップと、
前記固有ベクトルにおける最大要素と、前記ノードに対応する要素とに基づいて、前記単語毎の前記クラスタに対する帰属度を算出するステップと、
前記帰属度と、予め定められた閾値とを比較して、当該閾値を超える帰属度をもつ複数の前記ノードを前記指定カテゴリの特徴を表す特徴語として抽出するステップと、
を実行させる特徴語抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010024718A JP5331723B2 (ja) | 2010-02-05 | 2010-02-05 | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010024718A JP5331723B2 (ja) | 2010-02-05 | 2010-02-05 | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011164791A JP2011164791A (ja) | 2011-08-25 |
JP5331723B2 true JP5331723B2 (ja) | 2013-10-30 |
Family
ID=44595422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010024718A Expired - Fee Related JP5331723B2 (ja) | 2010-02-05 | 2010-02-05 | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5331723B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870575A (zh) * | 2014-03-19 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种提取领域关键词的方法及装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104216932B (zh) * | 2013-09-29 | 2017-11-07 | 北大方正集团有限公司 | 一种知识点关系强度的度量方法及其系统 |
JP7064871B2 (ja) * | 2017-12-27 | 2022-05-11 | 株式会社日立社会情報サービス | テキストマイニング装置およびテキストマイニング方法 |
JP6987003B2 (ja) * | 2018-03-20 | 2021-12-22 | 株式会社Screenホールディングス | テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3368301B2 (ja) * | 1993-02-27 | 2003-01-20 | オムロン株式会社 | 文書処理装置および方法 |
JP4219122B2 (ja) * | 2002-06-25 | 2009-02-04 | 富士通株式会社 | 特徴語抽出システム |
JP4747752B2 (ja) * | 2005-09-14 | 2011-08-17 | 日本電気株式会社 | 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム |
-
2010
- 2010-02-05 JP JP2010024718A patent/JP5331723B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870575A (zh) * | 2014-03-19 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种提取领域关键词的方法及装置 |
CN103870575B (zh) * | 2014-03-19 | 2017-10-27 | 北京百度网讯科技有限公司 | 一种提取领域关键词的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2011164791A (ja) | 2011-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6398510B2 (ja) | 実体のリンク付け方法及び実体のリンク付け装置 | |
US8280877B2 (en) | Diverse topic phrase extraction | |
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
US7467079B2 (en) | Cross lingual text classification apparatus and method | |
US8856129B2 (en) | Flexible and scalable structured web data extraction | |
WO2016180270A1 (zh) | 网页分类方法和装置、计算设备以及机器可读存储介质 | |
US20120284305A1 (en) | Trend information search device, trend information search method and recording medium | |
CN106681985A (zh) | 基于主题自动匹配的多领域词典构建系统 | |
JP5331723B2 (ja) | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム | |
Bhutada et al. | Semantic latent dirichlet allocation for automatic topic extraction | |
US20120316865A1 (en) | Information processing apparatus, information processing method, and program | |
US20130097104A1 (en) | Method and system for document classification | |
JP3583631B2 (ja) | 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
CN110442674B (zh) | 标签传播的聚类方法、终端设备、存储介质及装置 | |
Dawar et al. | Text categorization by content using Naïve Bayes approach | |
Chang et al. | Incorporating word embedding into cross-lingual topic modeling | |
CN111831884B (zh) | 一种基于信息查找的匹配系统与方法 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Wang et al. | A novel framework for semantic entity identification and relationship integration in large scale text data | |
KR20220041336A (ko) | 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 | |
Rajkumar et al. | An efficient feature extraction with bidirectional long short term memory based deep learning model for Tamil document classification | |
Alotaibi et al. | A Comparison of Topic Modeling Algorithms on Visual Social Media Networks | |
Pushpalatha et al. | A tree based representation for effective pattern discovery from multimedia documents | |
Nagrale et al. | Document theme extraction using named-entity recognition | |
JP4669642B2 (ja) | 文書分類装置および文書分類方法、並びに文書分類方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120315 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20130515 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130624 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130729 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5331723 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |