JP6448128B2 - 主題語抽出装置、及びプログラム - Google Patents
主題語抽出装置、及びプログラム Download PDFInfo
- Publication number
- JP6448128B2 JP6448128B2 JP2014263083A JP2014263083A JP6448128B2 JP 6448128 B2 JP6448128 B2 JP 6448128B2 JP 2014263083 A JP2014263083 A JP 2014263083A JP 2014263083 A JP2014263083 A JP 2014263083A JP 6448128 B2 JP6448128 B2 JP 6448128B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- importance
- indirect
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 104
- 238000000034 method Methods 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 17
- 241000234314 Zingiber Species 0.000 description 19
- 235000006886 Zingiber officinale Nutrition 0.000 description 19
- 235000008397 ginger Nutrition 0.000 description 19
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 238000010411 cooking Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
この発明によれば、主題語抽出装置は、文書データから抽出した単語と関係する他の単語である関係語と、各関係語それぞれと関係する他の単語である間接関係語を、関係語辞書データから取得する。主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とに基づいて算出する。主題語抽出装置は、文書データから抽出した単語の中から重要度に基づいて主題を表す単語を選択する。
これにより、主題語抽出装置は、単語間の関係を全て記述した辞書がなくとも、例えば既存の関係語辞書を利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
この発明によれば、主題語抽出装置は、文書データに含まれる所定の品詞の単語の中から、主題を表す単語を選択する。
これにより、主題語抽出装置は、文書データから、名詞など、主題としてわかりやすい品詞の単語を主題語として抽出することができる。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の重要度を、その単語の関係語が文書データに出現する数と、その単語の間接関係語が文書データに出現する数とのそれぞれに重み付けした結果を加算することにより算出する。
これにより、主題語抽出装置は、文書データに関係語が出現する数と間接関係語が出現する数とのうち、直接の関係語が出現する数により大きな重みを置き、直接の関係語が文書データに多く出現する単語ほど重要度が高くなり易いようにするなど、重要度を適切に算出することが可能となる。
この発明によれば、主題語抽出装置は、文書データから抽出した単語の間接関係語と関係がある単語をさらに用いて、単語の重要度を算出することができる。
これにより、主題語抽出装置は、間に複数の単語をはさんでたどり着く関係の単語が文書データに出現する数をさらに利用して、文書に含まれる単語の中から主題としてふさわしい単語を抽出することができる。
図1は、本発明の一実施形態による主題語抽出装置の動作概要を示す図である。本実施形態による主題語抽出装置は、関係語辞書データを利用して、文書データに含まれる文から主題となる単語を抽出する。
まず主題語抽出装置1の入力部11は、文書データの入力を受ける(ステップS110)。抽出部12は、ステップS110において入力された文書データの中から、文書データを1つ選択する(ステップS115)。抽出部12は、ステップS115において選択した文書データに含まれるテキストデータから所定の品詞の単語を抽出する。本実施形態では、所定の品詞を名詞とする。抽出部12は、抽出した単語の一覧を設定したデータである単語リストを生成する(ステップS120)。単語リストに設定されたi番目の単語を、単語Aiと記載する(iは1以上の整数)。また、以下では、単語A1、A2、…を総称して単語Aと記載する。
なお、抽出部12は、ステップS120において文書データに含まれるテキストデータから所定の品詞の単語を抽出できなかった場合、ステップS125〜ステップS145までの処理を行わず、ステップS150の処理を実行する。
そして、抽出部12は、ステップS110において入力された文書データを全て選択したと判断した場合(ステップS150:NO)、処理を終了する。
抽出部12は、選択した文書データに含まれるテキストデータから1文を選択する(ステップS210)。抽出部12は、選択した文を形態素解析する(ステップS215)。形態素解析には、既存の技術を用いることができる。例えば、既存の形態素解析の技術として、「”Mecab”、[online]、インターネット〈URL:https://code.google.com/p/mecab/>」を用いることができる。
そして、抽出部12は、ステップS210においてした文が、文書データに含まれるテキストデータの最後の文であると判断した場合(ステップS230:YES)、処理を終了する。
関係語取得部13は、変数iに初期値1を設定する(ステップS310)。関係語取得部13は、単語リストに設定されているi番目の単語Aiを選択する(ステップS315)。関係語取得部13は、単語Aiの関係語Bi1、Bi2、…、Biniを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS320)。関係語取得部13は、取得した関係語Bi1、Bi2、…、Biniのうち単語リストに単語Aとして出現する関係語Biの数を計数し、第一重要度要素V1−iとする(ステップS325)。
なお、関係語取得部13は、関係語Bi1、Bi2、…、Biniのそれぞれが文書データに出現する延べ回数を合計し、第一重要度要素V1−iとしてもよい。延べ回数を合計して第一重要度要素V1−iとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、関係語取得部13は、関係語Bi1、Bi2、…、Biniのうち、単語リストに単語Aとして出現する関係語Biについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない関係語Biについては出現頻度を「0」とする。関係語取得部13は、関係語Bi1、Bi2、…、Biniそれぞれの出現頻度を合計し、単語Aiの第一重要度要素V1−iとする。
また、ステップS320において関係語Biを取得できなかった場合、関係語取得部13は、第一重要度要素V1−iを「0」とする。
関係語取得部13は、ステップS325において得た第一重要度要素V1−iを単語Aiと対応付けて単語リストに設定する(ステップS330)。
そして、関係語取得部13は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS335:YES)、処理を終了する。
間接関係語取得部14は、変数iに初期値1を設定する(ステップS410)。間接関係語取得部14は、単語リストに設定されているi番目の単語Aiを選択する(ステップS415)。間接関係語取得部14は、単語Aiのそれぞれの関係語Bi1、Bi2、…、Biniを関係語辞書記憶装置3が記憶している関係語辞書データから取得する(ステップS420)。なお、間接関係語取得部14は、図6のステップS320において関係語取得部13が取得した関係語Bi1、Bi2、…、Biniを取得してもよい。
なお、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのそれぞれが文書データに出現する延べ回数を合計し、第二重要度部分要素V2−i−jとしてもよい。延べ回数を合計して第二重要度部分要素V2−i−jとする場合、図5のステップS225において、抽出部12は、単語リストに単語Aの出現頻度を記録しておく。そして、間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijのうち、単語リストに単語Aとして出現する間接関係語Cijについてはその出現頻度を単語リストから取得し、単語リストに単語Aとして出現しない間接関係語Cijについては出現頻度を「0」とする。間接関係語取得部14は、間接関係語Cij1、Cij2、…、Cijkijそれぞれの出現頻度を合計し、単語Aiの第二重要度部分要素V2−i−jとする。
また、ステップS430において間接関係語Cijを取得できなかった場合、間接関係語取得部14は、単語Aiの第二重要度部分要素V2−i−jを「0」とする。
そして、間接関係語取得部14は、変数jがniに達し、ステップS420において取得した関係語Bi1、Bi2、…、Biniの全てを選択したと判断した場合(ステップS440:NO)、ステップS450の処理を実行する。つまり、間接関係語取得部14は、単語Aiの関係語Bi1〜BiniのそれぞれについてステップS435において得た第二重要度部分要素V2−i−1〜V2−i−niを合計し、単語Aiの第二重要度要素V2−iを算出する(ステップS450)。間接関係語取得部14は、ステップS450において得た第二重要度要素V2−iを単語Aiと対応付けて単語リストに設定する(ステップS455)。
なお、ステップS420において関係語Biを取得できなかった場合、間接関係語取得部14は、第二重要度要素V2−iを「0」とし、ステップS455からの処理を行う。
そして、間接関係語取得部14は、単語リストに設定されている単語Aを全て選択したと判断した場合(ステップS460:YES)、処理を終了する。
図8は、文書データの例を示す図である。主題語抽出装置1の抽出部12は、ステップS110において入力部11が受けた文書データの中から、図8に示す文書データDを選択する。抽出部12は、文書データDに含まれる文章から名詞の単語を抽出する。
同図に示すように、単語A「肩こり」については、図10に示す関係語辞書データから関係語B「体操」、「温熱」、…が得られる。関係語Bの後ろに記述されている(○)は、単語リストに出現することを示し、(×)は単語リストに出現しないことを示す。単語A「肩こり」の関係語B「体操」、「温熱」、…のうち、単語リストに出現するのは「体操」のみであるため、第一重要度要素V1は「1」となる。
単語A「肩こり」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
そして、単語A「肩こり」の場合、関係語Bのうち「体操」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「肩こり」の間接関係語Cのうち「温泉」の出現頻度が「2」、「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「4」となる。よって、単語A「肩こり」の重要度Vは、式(1)に基づいて、2.5(=0.5×1+0.5×4)と算出される。
同様に、単語A「温泉」の場合、関係語Bのうち「リラックス」の出現頻度が「1」であり、他の関係語Bの出現頻度は「0」であるため第一重要度要素V1は「1」となる。また、単語A「温泉」の間接関係語Cのうち「生姜」の出現頻度が「2」であり、他の間接関係語Cの出現頻度は「0」であるため、第二重要度要素V2は「2」となる。よって、単語A「温泉」の重要度Vは、式(1)に基づいて、1.5(=0.5×1+0.5×2)と算出される。
なお、式(1)における係数uの値は、学習用の文書データについて係数uを変化させながら主題語抽出を行い、人手により抽出した主題語と適合する確率が高いときの係数uの値に基づいて決定する。
また、関係語辞書データを参照して、文書内の単語同士に直接関係が得られた場合に重みを付ける従来技術もあるが、直接関係のある単語対が全て含まれる関係語辞書データは現実的には存在しがたい。関係語辞書データに「生姜 [食材] 料理]、「温泉 [有効] リラックス」、「肩こり [対処法] 体操」のような2単語間の関係しか登録されていない場合、「肩こり」の重みはさほど大きくならないことが考えられる。
本実施形態の主題語抽出装置1は、文書データから抽出した単語の重要度を、直接関係する単語が文書データに出現する数に加え、間に他の単語をはさんで間接的に関係する単語が文書データに出現する数を用いて重要度を算出する。このように算出した重要度を用いることにより、主題語抽出装置1は、文書データに出現する単語の中から、主題語として適切な単語を抽出することができる。
例えば、単語Aiの関係語Bi1、Bi2、…、Biniであり、単語リストには、関係語Bi1、Bi2、Bi3が出現し、関係語Bi4〜Biniは出現しないとする。関係語Bi1及びBi2が所定の分野に属する単語である場合、関係語Bi1及びBi2についてはそれぞれ1×a(a>1)回と計数する。よって、単語Aiの第一重要度要素V1−iは、2×a+1となる。
同様に、間接関係語取得部14は、単語Aの第二重要度要素V2を間接関係語Cが単語リストに出現する数とする場合、所定の分野に属する間接関係語Cについては出現数に1より大きな値の係数を乗算してもよい。
同様に、関係語取得部13は、単語Aの第二重要度要素V2を文書データにおける各間接関係語Cの出現頻度の合計とする場合、所定の分野に属する間接関係語Cについては、出現頻度に1より大きな値の係数を乗算してもよい。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
11 入力部
12 抽出部
13 関係語取得部
14 間接関係語取得部
15 重要度算出部
16 選択部
3 関係語辞書記憶装置
Claims (5)
- 文書データから単語を抽出する抽出部と、
関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出部が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得部と、
前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得部と、
前記抽出部が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出部と、
前記抽出部が抽出した前記単語の中から、前記重要度算出部が算出した前記重要度に基づいて主題を表す単語を選択する選択部と、
を備えることを特徴とする主題語抽出装置。 - 前記抽出部は、前記文書データに含まれる所定の品詞の単語を抽出する、
ことを特徴とする請求項1に記載の主題語抽出装置。 - 前記重要度算出部は、前記抽出部が抽出した前記単語の重要度を、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とのそれぞれに重み付けした結果を加算して算出する、
ことを特徴とする請求項1または請求項2のいずれか1項に記載の主題語抽出装置。 - 前記間接関係語取得部は、前記関係語辞書データから前記間接関係語と関係する他の単語を間接関係語として取得する処理を所定回繰り返す、
ことを特徴とする請求項1から請求項3のいずれか1項に記載の主題語抽出装置。 - コンピュータを、
文書データから単語を抽出する抽出手段と、
関係がある複数の単語を関連付けて記述した関係語辞書データから、前記抽出手段が抽出した前記単語と関係する他の単語を関係語として取得する関係語取得手段と、
前記関係語辞書データから前記関係語と関係する他の単語を間接関係語として取得する間接関係語取得手段と、
前記抽出手段が抽出した前記単語のそれぞれについて、前記単語の前記関係語が前記文書データに出現する数と、前記単語の前記間接関係語が前記文書データに出現する数とに基づいて前記単語の重要性を定量的に表す重要度を算出する重要度算出手段と、
前記抽出手段が抽出した前記単語の中から、前記重要度算出手段が算出した前記重要度に基づいて主題を表す単語を選択する選択手段と、
を具備する主題語抽出装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263083A JP6448128B2 (ja) | 2014-12-25 | 2014-12-25 | 主題語抽出装置、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014263083A JP6448128B2 (ja) | 2014-12-25 | 2014-12-25 | 主題語抽出装置、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016122398A JP2016122398A (ja) | 2016-07-07 |
JP6448128B2 true JP6448128B2 (ja) | 2019-01-09 |
Family
ID=56329040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014263083A Active JP6448128B2 (ja) | 2014-12-25 | 2014-12-25 | 主題語抽出装置、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6448128B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0740275B2 (ja) * | 1987-10-26 | 1995-05-01 | 日本電信電話株式会社 | キーワード重要度自動評価装置 |
JP3960530B2 (ja) * | 2002-06-19 | 2007-08-15 | 株式会社日立製作所 | テキストマイニングプログラム、方法、及び装置 |
CN104272307A (zh) * | 2012-05-18 | 2015-01-07 | 索尼公司 | 信息处理装置、信息处理方法、以及程序 |
JP5856905B2 (ja) * | 2012-05-22 | 2016-02-10 | 日本放送協会 | 主題抽出装置およびそのプログラム |
-
2014
- 2014-12-25 JP JP2014263083A patent/JP6448128B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016122398A (ja) | 2016-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bhatia et al. | Automatic labelling of topics with neural embeddings | |
Kien et al. | Answering legal questions by learning neural attentive text representation | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
CN105488024B (zh) | 网页主题句的抽取方法及装置 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
CN105917364B (zh) | 对问答论坛中讨论话题的排名 | |
KR101925950B1 (ko) | 컨텐츠에 대한 유입검색어 및 연관검색어 기반의 컨텐츠 추천방법 및 추천장치 | |
Wan | TimedTextRank: adding the temporal dimension to multi-document summarization | |
Baowaly et al. | Predicting the helpfulness of game reviews: A case study on the steam store | |
Back et al. | Learning to generate questions by learning to recover answer-containing sentences | |
CN106933380B (zh) | 一种词库的更新方法和装置 | |
JP6230190B2 (ja) | 重要語抽出装置、及びプログラム | |
Hamzei et al. | Templates of generic geographic information for answering where-questions | |
Rao et al. | Taxonomy based personalized news recommendation: Novelty and diversity | |
Chan et al. | Learning resource recommendation: An orchestration of Content-based filtering, word semantic similarity and page ranking | |
Abrigo et al. | A comparative analysis of N-Gram deep neural network approach to classifying human perception on Dengvaxia | |
JP6448128B2 (ja) | 主題語抽出装置、及びプログラム | |
Ali et al. | Identifying and Profiling User Interest over time using Social Data | |
JP5513929B2 (ja) | 経験情報の再利用性評価装置及び方法及びプログラム | |
Wahsheh et al. | Spam detection methods for Arabic web pages | |
WO2012061983A1 (en) | Seed set expansion | |
KR101402339B1 (ko) | 문서 관리 시스템 및 문서 관리 방법 | |
Saga et al. | Measurement evaluation of keyword extraction based on topic coverage | |
JP5769648B2 (ja) | 関連語取得装置及び関連語取得方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171030 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180906 |
|
TRDD | Decision of grant or rejection written | ||
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181203 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6448128 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |