JP7064871B2 - テキストマイニング装置およびテキストマイニング方法 - Google Patents
テキストマイニング装置およびテキストマイニング方法 Download PDFInfo
- Publication number
- JP7064871B2 JP7064871B2 JP2017250513A JP2017250513A JP7064871B2 JP 7064871 B2 JP7064871 B2 JP 7064871B2 JP 2017250513 A JP2017250513 A JP 2017250513A JP 2017250513 A JP2017250513 A JP 2017250513A JP 7064871 B2 JP7064871 B2 JP 7064871B2
- Authority
- JP
- Japan
- Prior art keywords
- text mining
- unit
- graph
- text
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
文書群のテキストマイニングを行うテキストマイニング装置であって、
前記文書群のテキストデータの形態素解析をする形態素解析部と、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出部と、を備える、
ことを特徴とする。
その他の発明については、後記する。
図1に示すように、本実施形態のテキストマイニング装置100は、読込部1と、前処理部2と、形態素解析部3と、係り受け解析部4と、グラフ作成部5と、クラスタリング部6と、抽出部7と、設定部8と、を備える。
また、本実施形態では、テキストデータは、日本語の文字列であるとするが、これに限定されず、他の言語の文字列であってもよい。
前処理部2は、テキストデータの前処理を行う。テキストデータの前処理とは、形態素解析で正しい結果を得るための予備処理である。例えば、同じ意味となる語の全角文字と半角文字が存在する場合にいずれか一方に統一すること、長音記号「ー」とマイナス記号「-」のような、字形が類似することに起因する誤用に対して正しい記号に修正すること、などがある。
なお、テキストデータの前処理は、必須ではない。
クラスタリング部6は、グラフ作成部5が作成したグラフのクラスタリングを行う。クラスタリング部6は、複数の文書に対応する1つのグラフのクラスタリングを行うことができる。その結果、1または複数のクラスタが生成される。クラスタリングによって、グラフ上の各ノードの配置は、例えば、ばねモデルに従うようにすることができる。
設定部8は、クラスタリング部6によって生成された各クラスタを象徴する話題を設定する。クラスタごとの話題は、例えば、各クラスタに含まれる語から推測することができる。また、話題は、テキストマイニング装置100のオペレータが設定することができる。
次に、本実施形態のテキストマイニング装置100が実行するテキストマイニング処理について、図2を参照して説明する。説明の際、図1も適宜参照する。テキストマイニング装置100は、テキストマイニング処理の対象となる文書群Gを予め記憶している。
テキストマイニング装置100は、図2のテキストマイニング処理による結果を、既存のビジュアライズ技術によって、例えば、グラフ構造に従って配置された、文書群G中の語の集合の画面表示として出力することができる。
次に、本実施形態の具体例として、顧客が利用したホテルに関する宿泊レビューのテキストマイニングを行った場合について説明する。文書群G(図1)は、レビュー対象施設名、および、感想コメントを項目として含み、顧客ごとに作成された文書の集合体であるとする。図3に示すように、本具体例では、文書群Gとして文書1~3を採り上げる。文書1~3はいずれも、Aホテルに宿泊した顧客のレビュー(クチコミ)の文書であるとする。つまり、レビュー対象施設名は、Aホテルである。しかし、レビュー対象施設名が異なる文書群であってもよく、以下の説明を適用することができる。
文書1:安い料金プランで予約。駅にもコンビニにも近く便利だった。部屋は綺麗で広く、ベッドも広くて快適。
文書2:ベッドは広かったが、料金が高い
文書3:価格が安い
上記のように、各ノードにTF値、および各エッジに重みが設定された、マージ後の1つのグラフが作成される。
したがって、本実施形態によれば、シソーラスを用いない高精度なテキストマイニング(シソーラスを用いた従来のテキストマイニングと同程度の精度のテキストマイニング)を実現することができる。
したがって、本実施形態によれば、〈評価対象〉の定義漏れに起因するテキストマイニングの精度の低下を防ぐことができる。
以上、本発明の実施形態について説明したが、本発明は前記実施形態に限定されず、本発明の要旨を逸脱しない範囲で適宜変更可能である。(a)例えば、本実施形態では、係り受け解析の際、係り受け解析部4が名詞および形容詞の形態素を選択した。しかし、選択される品詞は、名詞および形容詞に限らず、例えば副詞の形態素も選択してもよい。また、“何が(〈属性〉)どうなのか(〈評価〉)”ではなく、“何が(〈属性〉)どうした(〈評価〉)”を知りたい場合には、係り受け解析部4が名詞および動詞の形態素を選択することもできる。係り受けの種類に応じて、選択する形態素の品詞を適宜変更することができる。
本実施形態で説明したソフトウェアをハードウェアとして実現することもでき、ハードウェアをソフトウェアとして実現することもできる。
その他、ハードウェア、ソフトウェア、フローチャートなどについて、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
1 読込部
2 前処理部
3 形態素解析部
4 係り受け解析部
5 グラフ作成部
6 クラスタリング部
7 抽出部
8 設定部
Claims (4)
- 文書群のテキストマイニングを行うテキストマイニング装置であって、
前記文書群のテキストデータの形態素解析をする形態素解析部と、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析部と、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成部と、
前記作成されたグラフのクラスタリングを行うクラスタリング部と、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出部と、を備える、
ことを特徴とするテキストマイニング装置。 - 前記クラスタを象徴する話題を設定する設定部、をさらに備える、
ことを特徴とする請求項1に記載のテキストマイニング装置。 - 文書群のテキストマイニングを行うテキストマイニング装置におけるテキストマイニング方法であって、
前記テキストマイニング装置が、
前記文書群のテキストデータの形態素解析をする形態素解析ステップと、
前記形態素解析をした後の前記テキストデータの係り受け解析をする係り受け解析ステップと、
前記係り受け解析によって特定された係り受け構造に基づくグラフを作成するグラフ作成ステップと、
前記作成されたグラフのクラスタリングを行うクラスタリングステップと、
前記クラスタリングによって生成されたクラスタから、所定値以上の出現回数で出現する特徴語を抽出する抽出ステップと、を実行する、
ことを特徴とするテキストマイニング方法。 - 前記テキストマイニング装置が、
前記クラスタを象徴する話題を設定する設定ステップ、をさらに実行する、
ことを特徴とする請求項3に記載のテキストマイニング方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017250513A JP7064871B2 (ja) | 2017-12-27 | 2017-12-27 | テキストマイニング装置およびテキストマイニング方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017250513A JP7064871B2 (ja) | 2017-12-27 | 2017-12-27 | テキストマイニング装置およびテキストマイニング方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019117484A JP2019117484A (ja) | 2019-07-18 |
JP7064871B2 true JP7064871B2 (ja) | 2022-05-11 |
Family
ID=67304470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017250513A Active JP7064871B2 (ja) | 2017-12-27 | 2017-12-27 | テキストマイニング装置およびテキストマイニング方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7064871B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7350674B2 (ja) | 2020-02-26 | 2023-09-26 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
JP7549977B2 (ja) | 2020-06-12 | 2024-09-12 | 株式会社日立社会情報サービス | テキストマイニング装置およびテキストマイニング方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011164791A (ja) | 2010-02-05 | 2011-08-25 | Ntt Data Corp | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
JP2011170615A (ja) | 2010-02-18 | 2011-09-01 | Fuji Xerox Co Ltd | グラフ生成装置及びグラフ生成プログラム |
JP2016218512A (ja) | 2015-05-14 | 2016-12-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
-
2017
- 2017-12-27 JP JP2017250513A patent/JP7064871B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011164791A (ja) | 2010-02-05 | 2011-08-25 | Ntt Data Corp | 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム |
JP2011170615A (ja) | 2010-02-18 | 2011-09-01 | Fuji Xerox Co Ltd | グラフ生成装置及びグラフ生成プログラム |
JP2016218512A (ja) | 2015-05-14 | 2016-12-22 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2019117484A (ja) | 2019-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Welbers et al. | Text analysis in R | |
JP3598211B2 (ja) | 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体 | |
US7269544B2 (en) | System and method for identifying special word usage in a document | |
US7343549B2 (en) | Layout system, layout program, and layout method | |
JP4962967B2 (ja) | Webページ検索サーバ及びクエリ推薦方法 | |
US9015098B1 (en) | Method and system for checking the consistency of established facts within internal works | |
WO2017066046A1 (en) | Authoring visual representations for text-based documents | |
JP3588510B2 (ja) | 情報フィルタリング装置 | |
WO2014002775A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
WO2007105202A2 (en) | Automatic reusable definitions identification (rdi) method | |
Riehmann et al. | WORDGRAPH: Keyword-in-context visualization for NETSPEAK's wildcard search | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
JP7064871B2 (ja) | テキストマイニング装置およびテキストマイニング方法 | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
Gîfu et al. | Multi-dimensional analysis of political language | |
JP7549977B2 (ja) | テキストマイニング装置およびテキストマイニング方法 | |
JP2004227343A (ja) | 意見分析方法、意見分析装置、および意見分析プログラム | |
Gakis et al. | Design and implementation of an electronic lexicon for Modern Greek | |
JP6165671B2 (ja) | 運賃規則翻訳システム、運賃規則翻訳方法、及び運賃規則翻訳プログラム | |
JP6114090B2 (ja) | 機械翻訳装置、機械翻訳方法およびプログラム | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP2005352774A (ja) | 情報処理装置及び情報処理装置の制御方法、コンピュータプログラム及び記憶媒体 | |
JP2010191851A (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム | |
JP3416918B2 (ja) | キーワード自動抽出方法および装置 | |
Petrovčič et al. | The New Chinese Corpus of Literary Texts Litchi |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20180124 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211110 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220419 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7064871 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |