JP7078429B2 - テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 - Google Patents

テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 Download PDF

Info

Publication number
JP7078429B2
JP7078429B2 JP2018052073A JP2018052073A JP7078429B2 JP 7078429 B2 JP7078429 B2 JP 7078429B2 JP 2018052073 A JP2018052073 A JP 2018052073A JP 2018052073 A JP2018052073 A JP 2018052073A JP 7078429 B2 JP7078429 B2 JP 7078429B2
Authority
JP
Japan
Prior art keywords
screen
cluster
word
analysis
text mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018052073A
Other languages
English (en)
Other versions
JP2019164592A (ja
JP2019164592A5 (ja
Inventor
景龍 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2018052073A priority Critical patent/JP7078429B2/ja
Priority to KR1020190023397A priority patent/KR102175658B1/ko
Priority to CN201910164187.1A priority patent/CN110309260B/zh
Priority to TW108109134A priority patent/TWI736860B/zh
Publication of JP2019164592A publication Critical patent/JP2019164592A/ja
Publication of JP2019164592A5 publication Critical patent/JP2019164592A5/ja
Application granted granted Critical
Publication of JP7078429B2 publication Critical patent/JP7078429B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)

Description

本発明は、テキストマイニングに関し、特に、階層的クラスター分析の結果を含む画面を表示するテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置に関する。
近年、自由記述されたテキストデータを解析し、解析結果から有用な情報を求めるテキストマイニングが注目されている。テキストマイニングでは、例えば、分析対象のテキストデータから単語を抽出し、単語の出現頻度や出現傾向などを解析することにより、情報を求める。
以下、テキストデータから抽出した単語に対して階層的クラスター分析を行い、その結果を含む画面を表示するテキストマイニング装置について考える。階層的クラスター分析では、単語間の類似度に基づき、類似度の高い単語を含むクラスターが階層的に作成される。一般に、階層的クラスター分析の結果は、図10に示す樹形図(デンドログラム)を用いて分析者に提供される。分析者は、階層的クラスター分析の結果に基づき、テキストデータの概要を把握することができる。
特許文献1には、階層的クラスター分析の結果を図11に示す態様で表示するテキストマイニング装置が記載されている。特許文献1に記載のテキストマイニング装置は、クラスター数mとクラスター内の最大表示データ数nとが与えられたときに、階層的クラスター分析の結果からm個のクラスターを求め、求めたm個のクラスターを雲形図形で画面に表示し、各クラスターの内部にn個以下の単語を表示する。
特開2018-18118号公報
テキストデータの中には、保守作業記録やコールセンターの電話応対記録などのように、日付を有する文からなり、長期間に亘って累積的に蓄積されるものがある。このようなテキストデータに対して階層的クラスター分析を行うときには、テキストデータを例えば月ごとに分け、各月のテキストデータに対して階層的クラスター分析を行う。これにより、階層的クラスター分析の結果を月ごとに求めることができる。
この場合、分析者は、テキストデータの中から注目すべき単語(以下、注目語という)を選択し、各月において注目語を含むクラスター、注目語を含むクラスターが変化する時期、注目語の出現頻度の経時変化などを知りたいと考える。しかし、従来のテキストマイニング装置では、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができない。
それ故に、本発明は、利用者が階層的クラスター分析の結果の経時変化を容易に認識できるテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置を提供することを目的とする。
本発明の第1の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記第2画面は、前記クラスター名が変化する時期に対応する位置に、前記クラスター名の変化の程度に応じた態様を有するマークをさらに含むことを特徴とする。
本発明の第の局面は、本発明の第の局面において、
前記クラスター名は、前記クラスターに含まれる単語を出現頻度が高い順に所定の個数以下だけ連結したものであることを特徴とする。
本発明の第の局面は、本発明の第の局面において、
前記マークは、前記クラスター名の変化の程度に応じた色を有する矢印であることを特徴とする。
本発明の第の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記クラスター名を構成する単語のうち前のクラスター名から変化した単語は、前記第2画面内で強調表示されることを特徴とする。
本発明の第の局面は、本発明の第1または第4の局面において、
前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含むことを特徴とする。
本発明の第の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含み、
前記第2画面は、前記クラスター名が変化する時期に対応する位置に境界線をさらに含み、前記グラフの背景は、前記境界線ごとに異なる態様を有することを特徴とする。
本発明の第の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記クラスター名が大きく変化することが多い場合には、前記画面を表示するステップは、警告メッセージを含む画面を表示することを特徴とする。
本発明の第の局面は、テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記第2画面は、前記クラスター名が変化する時期に対応する位置に、前記クラスター名の変化の程度に応じた態様を有するマークをさらに含むことを特徴とする。
本発明の第の局面は、本発明の第の局面において、
前記クラスター名は、前記クラスターに含まれる単語を出現頻度が高い順に所定の個数以下だけ連結したものであることを特徴とする。
本発明の第10の局面は、本発明の第の局面において、
前記マークは、前記クラスター名の変化の程度に応じた色を有する矢印であることを特徴とする。
本発明の第11の局面は、テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記クラスター名を構成する単語のうち前のクラスター名から変化した単語は、前記第2画面内で強調表示されることを特徴とする。
本発明の第12の局面は、本発明の第8または第11の局面において、
前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含むことを特徴とする。
本発明の第13の局面は、テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含み、
前記第2画面は、前記クラスター名が変化する時期に対応する位置に境界線をさらに含み、前記グラフの背景は、前記境界線ごとに異なる態様を有することを特徴とする。
本発明の第14の局面は、テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
日付を有する文からなるテキストデータから単語を抽出するステップと、
前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記クラスター名が大きく変化することが多い場合には、前記画面を表示するステップは、警告メッセージを含む画面を表示することを特徴とする。
本発明の第15の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング装置であって、
日付を有する文からなるテキストデータから単語を抽出する単語抽出部と、
前記単語に対して分析期間ごとに階層的クラスター分析を行うクラスタリング処理部と、
前記階層的クラスター分析の結果を含む画面を表示する画面表示部とを備え、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面表示部は、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記第2画面は、前記クラスター名が変化する時期に対応する位置に、前記クラスター名の変化の程度に応じた態様を有するマークをさらに含むことを特徴とする。
本発明の第16の局面は、本発明の第15の局面において、
前記マークは、前記クラスター名の変化の程度に応じた色を有する矢印であることを特徴とする。
本発明の第17の局面は、テキストデータの分析結果を含む画面を表示するテキストマイニング装置であって、
日付を有する文からなるテキストデータから単語を抽出する単語抽出部と、
前記単語に対して分析期間ごとに階層的クラスター分析を行うクラスタリング処理部と、
前記階層的クラスター分析の結果を含む画面を表示する画面表示部とを備え、
前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面表示部は、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
前記クラスター名を構成する単語のうち前のクラスター名から変化した単語は、前記第2画面内で強調表示されることを特徴とする。
上記第1、第または第15の局面によれば、階層的クラスター分析の結果を含む第1画面内で注目語を指定する指示が入力されたときに、注目語を含むクラスターの経時変化を示す第2画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。また上記第1、第8または第15の局面によれば、注目語を含むクラスターに含まれる単語に基づくクラスター名を時間軸に沿って示すことにより、利用者は注目語を含むクラスターの経時変化を容易に認識することができる。さらに上記第1、第8または第15の局面によれば、注目語を含むクラスターの名前の変化の程度に応じた態様を有するマークを含む第2画面を表示することにより、利用者は注目語を含むクラスターの変化の程度を容易に認識することができる。
上記第または第の局面によれば、注目語を含むクラスター内で出現頻度が高い単語を連結したクラスター名を時間軸に沿って示すことにより、利用者は注目語を含むクラスターの経時変化を容易に認識することができる。
上記第3、第10、または第16の局面によれば、注目語を含むクラスターの名前の変化の程度に応じた態様を有するマーク(変化の程度に応じた色を有する矢印)を含む第2画面を表示することにより、利用者は注目語を含むクラスターの変化の程度を容易に認識することができる。
上記第4、第11、または第17の局面によれば、階層的クラスター分析の結果を含む第1画面内で注目語を指定する指示が入力されたときに、注目語を含むクラスターの経時変化を示す第2画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。また上記第4、第11、または第17の局面によれば、注目語を含むクラスターに含まれる単語に基づくクラスター名を時間軸に沿って示すことにより、利用者は注目語を含むクラスターの経時変化を容易に認識することができる。さらに上記第4、第11、または第17の局面によれば、注目語を含むクラスターの名前を構成する単語のうち変化した単語を強調表示することにより、利用者は注目語を含むクラスターにおいて出現頻度が高い単語がどのように変化したかを容易に認識することができる。
上記第または第12の局面によれば、注目語を含むクラスターの経時変化に加えて、注目語の出現頻度の経時変化を示すグラフを含む画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。
上記第6または第13の局面によれば、階層的クラスター分析の結果を含む第1画面内で注目語を指定する指示が入力されたときに、注目語を含むクラスターの経時変化を示す第2画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。また上記第6または第13の局面によれば、注目語を含むクラスターに含まれる単語に基づくクラスター名を時間軸に沿って示すことにより、利用者は注目語を含むクラスターの経時変化を容易に認識することができる。さらに上記第6または第13によれば、注目語を含むクラスターの経時変化に加えて、注目語の出現頻度の経時変化を示すグラフを含む画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。さらにまた上記第または第13の局面によれば、注目語を含むクラスターの名前が変化する時期に対応する位置に境界線を表示し、グラフの背景の態様を境界線ごとに切り替えることにより、利用者は注目語を含むクラスターが変化する時期を容易に認識することができる。
上記第7または第14の局面によれば、階層的クラスター分析の結果を含む第1画面内で注目語を指定する指示が入力されたときに、注目語を含むクラスターの経時変化を示す第2画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。また上記第7または第14の局面によれば、注目語を含むクラスターに含まれる単語に基づくクラスター名を時間軸に沿って示すことにより、利用者は注目語を含むクラスターの経時変化を容易に認識することができる。さらに上記第または第14の局面によれば、注目語を含むクラスターの名前が大きく変化することが多い場合に警告メッセージ含む画面を表示することにより、利用者は階層的クラスター分析が不調であることを認識することができる。
本発明の実施形態に係るテキストマイニング装置の構成を示すブロック図である。 図1に示すテキストマイニング装置として動作するコンピュータの構成を示すブロック図である。 図1に示すテキストマイニング装置の動作を示すフローチャートである。 図1に示すテキストマイニング装置が表示する階層的クラスター分析の結果を示すウインドウの例を示す図である。 図4に示すウインドウ内で注目語を指定する操作を示す図である。 図1に示すテキストマイニング装置が表示する分析結果の経時変化を示すウインドウの例を示す図である。 図1に示すテキストマイニング装置の表示画面の例を示す図である。 階層的クラスター分析の結果の経時変化の例を示す図である。 図8Aの続図である。 図8Bの続図である。 図8Cの続図である。 図1に示すテキストマイニング装置が表示するウインドウを示す図である。 樹形図の例を示す図である。 従来のテキストマイニング装置における階層的クラスター分析の結果の表示態様を示す図である。
以下、図面を参照して、本発明の実施形態に係るテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置について説明する。本実施形態に係るテキストマイニング方法は、典型的にはコンピュータを用いて実行される。本実施形態に係るテキストマイニングプログラムは、コンピュータを用いてテキストマイニング方法を実施するためのプログラムである。本実施形態に係るテキストマイニング装置は、典型的にはコンピュータを用いて構成される。テキストマイニングプログラムを実行するコンピュータは、テキストマイニング装置として機能する。
図1は、本発明の実施形態に係るテキストマイニング装置の構成を示すブロック図である。図1に示すテキストマイニング装置10は、指示入力部11、テキストデータ記憶部12、単語抽出部13、クラスタリング処理部14、分析結果記憶部15、および、画面表示部16を備えている。テキストマイニング装置10は、テキストデータ記憶部12に記憶されたテキストデータに対して階層的クラスター分析を行い、分析結果を含む画面を表示する。
テキストマイニング装置10の動作の概要は、以下のとおりである。指示入力部11には、利用者(テキストデータの分析者)からの指示が入力される。テキストデータ記憶部12は、自由記述された1以上のテキストデータを記憶している。単語抽出部13は、テキストデータ記憶部12に記憶されたテキストデータに対して形態素解析を行うことにより、テキストデータから単語を抽出する。クラスタリング処理部14は、単語抽出部13で抽出された単語に対して階層的クラスター分析を行う。分析結果記憶部15は、クラスタリング処理部14による分析結果を記憶する。画面表示部16は、分析結果記憶部15に記憶された分析結果に基づき画面データを表示する。
テキストデータ記憶部12は、日付を有する文からなり、長期間(例えば、数年間)に亘って累積的に蓄積されたテキストデータを記憶している。利用者は、指示入力部11を用いて、分析対象のテキストデータと分析期間と分析間隔を指定する指示、注目語を指定する指示などを入力する。単語抽出部13、クラスタリング処理部14、および、画面表示部16は、利用者からの指示に従い、テキストデータに対して階層的クラスター分析を行った結果を含む画面を表示するための動作を行う。また、画面表示部16は、利用者からの指示に従い、階層的クラスター分析の結果の経時変化を含む画面を表示する。
図2は、テキストマイニング装置10として機能するコンピュータの構成を示すブロック図である。図2に示すコンピュータ20は、CPU21、メインメモリ22、記憶部23、入力部24、表示部25、通信部26、および、記録媒体読み取り部27を備えている。メインメモリ22には、例えば、DRAMが使用される。記憶部23には、例えば、ハードディスクやソリッドステートドライブが使用される。入力部24には、例えば、キーボード28やマウス29が含まれる。表示部25には、例えば、液晶ディスプレイが使用される。通信部26は、有線通信または無線通信のインターフェイス回路である。記録媒体読み取り部27は、プログラムなどを記憶した記録媒体30のインターフェイス回路である。記録媒体30には、例えば、CD-ROM、DVD-ROM、USBメモリなどの非一過性の記録媒体が使用される。
コンピュータ20がテキストマイニングプログラム31を実行する場合、記憶部23は、テキストマイニングプログラム31とテキストデータ32を記憶する。テキストマイニングプログラム31とテキストデータ32は、例えば、サーバや他のコンピュータから通信部26を用いて受信したものでもよく、記録媒体30から記録媒体読み取り部27を用いて読み出したものでもよい。
テキストマイニングプログラム31を実行するときには、テキストマイニングプログラム31とテキストデータ32はメインメモリ22に複写転送される。CPU21は、メインメモリ22を作業用メモリとして利用して、メインメモリ22に記憶されたテキストマイニングプログラム31を実行することにより、テキストデータ32から単語を抽出する処理、抽出した単語に対して階層的クラスター分析を行う処理、分析結果を含む画面を表示する処理などを行う。このときコンピュータ20は、テキストマイニング装置10として機能する。なお、以上に述べたコンピュータ20の構成は一例に過ぎず、任意のコンピュータを用いてテキストマイニング装置10を構成することができる。
図3は、テキストマイニング装置10の動作を示すフローチャートである。図3に示す動作を行う前に、テキストデータ記憶部12は、自由記述され、累積的に蓄積された1以上のテキストデータを記憶している。テキストデータは日付(例えば、作業日や受付日など)を有する文からなり、テキストデータは日付によって複数の部分に分割される。テキストマイニング装置10は、テキストデータ記憶部12に記憶されたテキストデータのうちで利用者が指定したテキストデータに対して処理を行う。
図3において、指示入力部11は、まず利用者から分析対象のテキストデータ、分析期間、および、分析間隔を指定する指示を受け取る(ステップS101)。利用者は、入力部24を用いて、画面に表示されたダイアログボックス(図示せず)にこれらの情報を入力する。受け取った指示は、テキストマイニング装置10の各部に対して出力される。
次に、単語抽出部13は、テキストデータ記憶部12から指定されたテキストデータを読み出す(ステップS102)。次に、単語抽出部13は、ステップS102で読み出したテキストデータに対して形態素解析を行うことにより、読み出したテキストデータから単語を抽出する(ステップS103)。このとき、単語抽出部13は、読み出したテキストデータから、後の分析で必要となる単語だけを抽出する。
次に、クラスタリング処理部14は、ステップS103で抽出された単語に対して階層的クラスター分析を行う(ステップS104)。次に、クラスタリング処理部14は、ステップS103で抽出された単語の出現頻度を求める(ステップS105)。次に、分析結果記憶部15は、ステップS104で求めた階層的クラスター分析の結果とステップS105で求めた単語の出現頻度とを記憶する(ステップS106)。
クラスタリング処理部14は、指示入力部11から、利用者が指定した分析期間と分析間隔を受け取る。分析期間は、分析対象のテキストデータのうち、実際に階層的クラスター分析を行う期間を示す。分析期間は、分析間隔を単位として複数の期間に分割される。例えば、分析期間が2005年6月1日から2015年5月31日までの期間であり、分析間隔が1ヵ月である場合、11年の分析期間は132個の期間に分割される。
分割後の期間の個数をpとする。クラスタリング処理部14は、ステップS104において、p個の期間のそれぞれについて階層的クラスター分析を行う。より詳細には、クラスタリング処理部14は、p個の期間のそれぞれについて、ステップS103で抽出された単語に対して、ステップS102で読み出されテキストデータのうち期間内の日時を有する文を用いて階層的クラスター分析を行う。クラスタリング処理部14は、例えば、テキストデータ32における2個の単語間の距離(2個の単語がどの程度離れて現れるか)に基づき、2個の単語間の類似度を求める。クラスタリング処理部14は、求めた単語間の類似度に基づき、所定の方法(例えば、最短距離法、最長距離法、群平均法、十進法、ウォード法など)を用いて階層的クラスター分析を行う。
クラスタリング処理部14は、ステップS105において、p個の期間のそれぞれについて単語の出現頻度を求める。ステップS104では階層的クラスター分析の結果がp個求められ、ステップS105では単語の出頻度がp個ずつ求められる。分析結果記憶部15は、ステップS106において、p個の期間のそれぞれについて、階層的クラスター分析の結果と単語の出現頻度を記憶する。
次に、画面表示部16は、分析結果記憶部15に記憶された階層的クラスター分析の結果を含む画面を表示する(ステップS107)。図4は、ステップS107で表示されるウインドウの例を示す図である。図4に示すウインドウ41は、階層的クラスター分析の結果を含んでいる。階層的クラスター分析の結果に対してクラスター数を設定すると、各クラスターに含まれる単語が決定される。テキストマイニング装置10は、階層的クラスター分析の結果を含む画面を表示するときに、樹形図に代えて、複数のクラスターを図4に示す態様で表示する。
テキストマイニング装置10は、動作パラメータとして、クラスター数とクラスター内の最大表示データ数とを有する。以下、前者をm、後者をnとする。これらの値は、初期状態では所定の初期値に設定されている。利用者は、指示入力部11を用いて、これらの値を任意に設定してもよい。テキストマイニング装置10では、ステップS103で抽出された単語は、m個のクラスターに分類される。各クラスターには、1個以上の単語が含まれる。ウインドウ41にはm個のクラスターが雲形図形で表示され、各クラスターの内部には各クラスターに含まれる単語が表示される。各クラスターの内部に表示される単語の個数は、n個以下に制限される。例えば、n=5のときにあるクラスターが10個の単語を含む場合、画面に表示されるクラスターの内部には5個の単語が表示される。
次に、指示入力部11は、利用者から指示を受け取る(ステップS111)。次に、テキストマイニング装置10は、ステップS111で受け取った指示が注目語を指定する指示か否かを判断する(ステップS112)。テキストマイニング装置10の制御は、Yesの場合にはステップS121へ進み、Noの場合にはステップS113へ進む。
後者の場合、ステップS111で受け取った指示は、例えば、ウインドウを移動させる指示、ウインドウを非表示にする指示、ウインドウを閉じる指示などである。画面表示部16は、ステップS111で受け取った指示に従い、更新後の画面を表示する(ステップS113)。その後、テキストマイニング装置10の制御は、ステップS111へ進む。
ステップS111を実行するときには、階層的クラスター分析の結果を含む画面が表示されている。以下、ステップS111を実行するときに、図4に示すウインドウ41を含む画面が表示されているとする。また、マウスカーソル43が表示画面内のある要素の上にあるときにマウス29のボタンをクリックすることを「要素をクリックする」といい、注目語を含むクラスターを「注目語クラスター」といい、注目語クラスターに付けられる名前を「注目語クラスター名」という。
図5は、注目語を指定する操作を示す図である。利用者は、ウインドウ41内で注目語として指定する単語(ここでは「分解」)をクリックする(1回目のクリック)。このとき、表示画面内にコンテキストメニュー42が現れる。利用者は、コンテキストメニュー42の中で項目「分析結果の経時変化へ」をクリックする(2回目のクリック)。この操作により、1回目にクリックされた単語が注目語として指定される。
ステップS112でYesの場合、画面表示部16は、分析結果記憶部15から階層的クラスター分析の結果と注目語の出現頻度を読み出す(ステップS121)。次に、画面表示部16は、読み出したデータに基づき、階層的クラスター分析の結果の経時変化を含む画面を表示する(ステップS122)。
図6は、ステップS122で表示される、分析結果の経時変化を示すウインドウを示す図である。図6に示すウインドウ51は、ステップS111において、注目語として「分解」を指定したときに表示される。ウインドウ51は、例えば図7に示すように、図4に示すウインドウ41に重ねて表示される。
ウインドウ51は、水平方向に延伸する時間軸に沿って、注目語の出現頻度の経時変化を示す折れ線グラフ52を含んでいる。注目語の出現頻度には、例えば、注目語クラスターに含まれるすべての単語の出現回数の合計のうちで注目語の出現回数が占める割合が使用される。注目語の出現頻度は、利用者から指示に従い、注目語の出現回数に切り替えられてもよい。
階層的クラスター分析によって得られるクラスターの構成(クラスターに含まれる要素)は、経時的に変化する。クラスターの経時変化を示すために、クラスターには自動的に名前が付けられる。クラスターが1個の単語だけを含む場合には、クラスター名にはその単語がそのまま使用される。クラスターが2個の単語を含む場合には、クラスター名には2個の単語を出頻度が高い順に連結したものが使用される。クラスターが3個以上の単語を含む場合には、クラスター名にはクラスターに含まれる単語のうち出現頻度が高い3個の単語を出現頻度が大きい順に連結したものが使用される。なお、クラスター名を構成する単語の集合が同じ場合、単語の順序が異なっていても同じクラスター名として扱われる。
図8A~図8Dは、階層的クラスター分析の結果の経時変化の例を示す図である。図8A~図8Dには、異なる月における階層的クラスター分析の結果が記載されている。図8A~図8Dにおいて、雲形図形はクラスターを表し、下線を付した文字列はクラスター名を表す。円のサイズは、円内に記載された単語の出現頻度を表す。
図8Aに示す分析結果では、テキストデータから抽出された単語は、「駆動」と「分解」を含むクラスター、「排気」と「圧」と「フロー」と「バルブ」を含むクラスター、および、「ベルト」と「回転」と「チェック」と「モータ」と「張り」を含むクラスターに分類されている。これら3個のクラスターには、それぞれ、「駆動・分解」、「排気・圧・フロー」、および、「ベルト・回転・チェック」という名前が付けられる。図8B~図8Dに示す分析結果についても、3個のクラスターに同様の方法で名前が付けられる。
注目語として「分解」を指定したとき、注目語クラスター名は、図8Aに示す分析結果では「分解・駆動」であり、図8Bに示す分析結果では「駆動・ベルト・回転」であり、図8Cに示す分析結果では「排気・圧・フロー」であり、図8Dに示す分析結果では「排気・圧・分解」である。このように注目語クラスター名は、経時的に変化する。
図6に示すウインドウ51は、折れ線グラフ52に加えて、注目語クラスター名53、境界線54、および、矢印55を含んでいる。注目語クラスター名53は、水平方向に延伸する時間軸に沿って、折れ線グラフ52の上部に表示される。境界線54は、折れ線グラフ52内で、注目語クラスター名53が変化する時期に対応する位置に表示される。注目語クラスター名53は、境界線54で区切られた期間ごとに表示される。折れ線グラフ52の背景は、境界線54ごとに異なる態様(例えば、異なる色や異なるパターン)を有する。注目語クラスター名53を構成する単語のうち前のクラスター名から変化した単語(古い注目語クラスター名には含まれておらず、新しい注目語クラスター名に含まれている単語)は、強調表示される。ウインドウ51では、そのような単語は太字かつ斜体で表示されている。
矢印55は、境界線54の上部で、注目語クラスター名53が変化する時期に対応する位置に表示される。矢印55は、注目語クラスター名53の変化の程度に応じた態様で表示される。注目語クラスター名53を構成する単語がすべて変化する場合には、赤い矢印55rが表示される。注目語クラスター名53を構成する単語が2個変化する場合には、青い矢印55bが表示される。注目語クラスター名53を構成する単語が1個変化する場合には、黒い矢印55nが表示される。なお、矢印55の表示態様は、注目語クラスター名53の変化の程度に応じて異なる限り任意でよい。例えば、矢印55の表示サイズが、注目語クラスター名53の変化の程度に応じて異なっていてもよい。
図6に示す例では、注目語クラスター名53は、「駆動・分解」、「駆動・ベルト・回転」、「排気・圧・フロー」、および、「排気・圧・分解」の順に経時的に変化する。1回目の変化では注目語クラスター名53を構成する単語が2個変化するので、最初の境界線54の上には青い矢印55bが表示される。2回目の変化では注目語クラスター名53を構成する単語がすべて変化するので、2番目の境界線54の上には赤い矢印55rが表示される。3回目の変化では注目語クラスター名53を構成する単語が1個変化するので、3番目の境界線54の上には黒い矢印55nが表示される。
次に、画面表示部16は、ステップS122で表示した画面に含まれる矢印55の個数を種類ごとに求める(ステップS123)。次に、画面表示部16は、各種類の矢印55の個数に基づき、注目語クラスター名53の変化が大きいか否かを判断する(ステップS124)。画面表示部16は、例えば、赤い矢印55rの個数が矢印55の総数の30%を超えた場合にYesと判断してもよく、赤い矢印55rの個数と青い矢印55bの個数の合計が矢印55の総数の60%超えた場合にYesと判断してもよい。テキストマイニング装置10の制御は、Yesの場合はステップS125へ進み、Noの場合はステップS111へ進む。
前者の場合、画面表示部16は、警告メッセージを含む画面を表示する(ステップS125)。図9は、ステップS125で表示されるウインドウを示す図である。図9に示すウインドウ61は、注目語クラスターの構成が大きく変化する場合が多いので、階層的クラスター分析の設定(例えば、クラスター数や対象単語数)を見直すことを勧める旨の警告メッセージを含んでいる。その後、テキストマイニング装置10の制御は、ステップS111へ進む。
以上に示すように、本実施形態に係るテキストマイニング方法は、日付を有する文からなるテキストデータから単語を抽出するステップ(ステップS102、S103)と、抽出した単語に対して分析期間ごとに階層的クラスター分析を行うステップ(ステップS104)と、階層的クラスター分析による分析結果を含む画面を表示するステップ(ステップS107、S113、S121~S125)とを備えている。分析結果を含む第1画面(ウインドウ41を含む画面)内で注目語を指定する指示が入力されたときに(図5)、画面を表示するステップ(ステップS122)は、注目語を含むクラスターの経時変化を示す第2画面(ウインドウ51を含む画面)を表示する。本実施形態に係るテキストマイニング方法によれば、階層的クラスター分析の結果を含む第1画面内で注目語を指定する指示が入力されたときに、注目語を含むクラスターの経時変化を示す第2画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。
また、第2画面は、注目語を含むクラスターに含まれる単語に基づくクラスター名(注目語クラスター名53)を時間軸に沿って示す。また、このクラスター名は、注目語を含むクラスターに含まれる単語を出現頻度が高い順に所定の個数以下(3個以下)だけ連結したものである。したがって、利用者は注目語を含むクラスターの経時変化を容易に認識することができる。
また、第2画面は、注目語を含むクラスターの名前が変化する時期に対応する位置に、クラスター名の変化の程度に応じた態様を有するマークを含んでいる。このマークは、クラスター名の変化の程度に応じた色を有する矢印55でもよい。このようなマーク(矢印55)を含む第2画面を表示することにより、利用者は注目語を含むクラスターの名前の変化の程度を容易に認識することができる。また、クラスター名を構成する単語のうち前のクラスター名から変化した単語(図6に示す「ベルト」、「回転」など)は、第2画面内で強調表示される。したがって、利用者は注目語を含むクラスターにおいて出現頻度が高い単語がどのように変化したかを容易に認識することができる。
また、第2画面は、時間軸に沿って注目語の出現頻度の経時変化を示すグラフ(折れ線グラフ52)を含んでいる。注目語を含むクラスターの経時変化に加えて、注目語の出現頻度の経時変化を示すグラフを含む画面を表示することにより、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。また、第2画面は、注目語を含むクラスターの名前が変化する時期に対応する位置に境界線54を含み、グラフの背景は、境界線ごとに異なる態様を有する。したがって、利用者は注目語を含むクラスターが変化する時期を容易に認識することができる。また、注目語を含むクラスターの名前が大きく変化することが多い場合には、画面を表示するステップは、警告メッセージを含む画面(ウインドウ61を含む画面)を表示する。したがって、利用者は階層的クラスター分析が不調であることを認識することができる。
本実施形態に係るテキストマイニング装置10およびテキストマイニングプログラム31は、上記のテキストマイニング方法と同様の特徴を有し、同様の効果を奏する。本実施形態に係るテキストマイニング方法、テキストマイニング装置10、および、テキストマイニングプログラム31によれば、利用者は階層的クラスター分析の結果の経時変化を容易に認識することができる。
10…テキストマイニング装置
11…指示入力部
12…テキストデータ記憶部
13…単語抽出部
14…クラスタリング処理部
15…分析結果記憶部
16…画面表示部
20…コンピュータ
21…CPU
22…メインメモリ
29…マウス
30…記録媒体
31…テキストマイニングプログラム
32…テキストデータ
41、51、61…ウインドウ
42…コンテキストメニュー
43…マウスカーソル
52…折れ線グラフ
53…注目語クラスター名
54…境界線
55…矢印

Claims (17)

  1. テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記第2画面は、前記クラスター名が変化する時期に対応する位置に、前記クラスター名の変化の程度に応じた態様を有するマークをさらに含むことを特徴とする、テキストマイニング方法。
  2. 前記クラスター名は、前記クラスターに含まれる単語を出現頻度が高い順に所定の個数以下だけ連結したものであることを特徴とする、請求項に記載のテキストマイニング方法。
  3. 前記マークは、前記クラスター名の変化の程度に応じた色を有する矢印であることを特徴とする、請求項に記載のテキストマイニング方法。
  4. テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記クラスター名を構成する単語のうち前のクラスター名から変化した単語は、前記第2画面内で強調表示されることを特徴とする、テキストマイニング方法。
  5. 前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含むことを特徴とする、請求項1または4に記載のテキストマイニング方法。
  6. テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含み、
    前記第2画面は、前記クラスター名が変化する時期に対応する位置に境界線をさらに含み、前記グラフの背景は、前記境界線ごとに異なる態様を有することを特徴とする、テキストマイニング方法。
  7. テキストデータの分析結果を含む画面を表示するテキストマイニング方法であって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとを備え、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記クラスター名が大きく変化することが多い場合には、前記画面を表示するステップは、警告メッセージを含む画面を表示することを特徴とする、テキストマイニング方法。
  8. テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記第2画面は、前記クラスター名が変化する時期に対応する位置に、前記クラスター名の変化の程度に応じた態様を有するマークをさらに含むことを特徴とする、テキストマイニングプログラム。
  9. 前記クラスター名は、前記クラスターに含まれる単語を出現頻度が高い順に所定の個数以下だけ連結したものであることを特徴とする、請求項に記載のテキストマイニングプログラム。
  10. 前記マークは、前記クラスター名の変化の程度に応じた色を有する矢印であることを特徴とする、請求項に記載のテキストマイニングプログラム。
  11. テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記クラスター名を構成する単語のうち前のクラスター名から変化した単語は、前記第2画面内で強調表示されることを特徴とする、テキストマイニングプログラム。
  12. 前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含むことを特徴とする、請求項8または11に記載のテキストマイニングプログラム。
  13. テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記第2画面は、前記時間軸に沿って前記注目語の出現頻度の経時変化を示すグラフをさらに含み、
    前記第2画面は、前記クラスター名が変化する時期に対応する位置に境界線をさらに含み、前記グラフの背景は、前記境界線ごとに異なる態様を有することを特徴とする、テキストマイニングプログラム。
  14. テキストデータの分析結果を含む画面を表示するためのテキストマイニングプログラムであって、
    日付を有する文からなるテキストデータから単語を抽出するステップと、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うステップと、
    前記階層的クラスター分析の結果を含む画面を表示するステップとをコンピュータにCPUがメモリを利用して実行させ、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面を表示するステップは、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記クラスター名が大きく変化することが多い場合には、前記画面を表示するステップは、警告メッセージを含む画面を表示することを特徴とする、テキストマイニングプログラム。
  15. テキストデータの分析結果を含む画面を表示するテキストマイニング装置であって、
    日付を有する文からなるテキストデータから単語を抽出する単語抽出部と、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うクラスタリング処理部と、
    前記階層的クラスター分析の結果を含む画面を表示する画面表示部とを備え、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面表示部は、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記第2画面は、前記クラスター名が変化する時期に対応する位置に、前記クラスター名の変化の程度に応じた態様を有するマークをさらに含むことを特徴とする、テキストマイニング装置。
  16. 前記マークは、前記クラスター名の変化の程度に応じた色を有する矢印であることを特徴とする、請求項15に記載のテキストマイニング装置。
  17. テキストデータの分析結果を含む画面を表示するテキストマイニング装置であって、
    日付を有する文からなるテキストデータから単語を抽出する単語抽出部と、
    前記単語に対して分析期間ごとに階層的クラスター分析を行うクラスタリング処理部と、
    前記階層的クラスター分析の結果を含む画面を表示する画面表示部とを備え、
    前記結果を含む第1画面内で注目語を指定する指示が入力されたときに、前記画面表示部は、前記注目語を含むクラスターの経時変化を示す第2画面を表示し、
    前記第2画面は、前記クラスターに含まれる単語に基づくクラスター名を時間軸に沿って示し、
    前記クラスター名を構成する単語のうち前のクラスター名から変化した単語は、前記第2画面内で強調表示されることを特徴とする、テキストマイニング装置。
JP2018052073A 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 Active JP7078429B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018052073A JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
KR1020190023397A KR102175658B1 (ko) 2018-03-20 2019-02-27 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
CN201910164187.1A CN110309260B (zh) 2018-03-20 2019-03-05 文本挖掘方法、文本挖掘存储介质及文本挖掘装置
TW108109134A TWI736860B (zh) 2018-03-20 2019-03-18 文字探勘方法、記錄有文字探勘程式之記錄媒體、及文字探勘裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018052073A JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Publications (3)

Publication Number Publication Date
JP2019164592A JP2019164592A (ja) 2019-09-26
JP2019164592A5 JP2019164592A5 (ja) 2021-02-18
JP7078429B2 true JP7078429B2 (ja) 2022-05-31

Family

ID=68064564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018052073A Active JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Country Status (4)

Country Link
JP (1) JP7078429B2 (ja)
KR (1) KR102175658B1 (ja)
CN (1) CN110309260B (ja)
TW (1) TWI736860B (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102359033B1 (ko) * 2020-02-18 2022-02-04 목포해양대학교 산학협력단 Lng 선박 정비 연관성을 이용한 예방 정비 모델 생성 방법 및 그 시스템

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003888A (ja) 2007-06-25 2009-01-08 Toshiba Corp キーワード提示のための装置、方法、及びプログラム
JP2011141801A (ja) 2010-01-08 2011-07-21 Internatl Business Mach Corp <Ibm> キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US20140181109A1 (en) 2012-12-22 2014-06-26 Industrial Technology Research Institute System and method for analysing text stream message thereof
JP2018018118A (ja) 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4404323B2 (ja) * 1999-02-05 2010-01-27 経済産業大臣 シソーラスブラウジングシステムと方法
KR100913027B1 (ko) * 2002-09-23 2009-08-20 이원석 데이터 마이닝 시스템 및 그 방법
US7644053B2 (en) * 2004-03-03 2010-01-05 The Boeing Company System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support
JP2007086911A (ja) * 2005-09-20 2007-04-05 Nec Corp 文章入力装置、文章入力方法及び文章入力用プログラム
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
JP5330046B2 (ja) * 2009-03-23 2013-10-30 株式会社東芝 共起表現抽出装置及び共起表現抽出方法
KR101091185B1 (ko) * 2010-02-25 2011-12-09 고려대학교 산학협력단 뉴스 데이터 분석 장치 및 방법
JP5592552B1 (ja) * 2013-10-25 2014-09-17 株式会社Ubic 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
CN103593340B (zh) * 2013-10-28 2017-08-29 余自立 自然表达信息处理方法、处理及回应方法、设备及系统
CN104978407B (zh) * 2015-06-18 2018-03-06 上海交通大学 用于高维数据特征属性变化趋势的可视化呈现系统及方法
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009003888A (ja) 2007-06-25 2009-01-08 Toshiba Corp キーワード提示のための装置、方法、及びプログラム
JP2011141801A (ja) 2010-01-08 2011-07-21 Internatl Business Mach Corp <Ibm> キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US20140181109A1 (en) 2012-12-22 2014-06-26 Industrial Technology Research Institute System and method for analysing text stream message thereof
JP2018018118A (ja) 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
長谷川 幹根、石川 佳治,T-Scroll:時系列文書のクラスタリングに基づくトレンド可視化システム,情報処理学会論文誌:データベース,日本,社団法人情報処理学会,2007年12月15日,Vol. 48, No. SIG 20(TOD 36),pp.61-78

Also Published As

Publication number Publication date
JP2019164592A (ja) 2019-09-26
TW201941083A (zh) 2019-10-16
KR102175658B1 (ko) 2020-11-06
CN110309260A (zh) 2019-10-08
CN110309260B (zh) 2023-07-18
KR20190110435A (ko) 2019-09-30
TWI736860B (zh) 2021-08-21

Similar Documents

Publication Publication Date Title
US11348294B2 (en) Systems and methods for updating a third party visualization in response to a query
US10311366B2 (en) Procedurally generating sets of probabilistically distributed styling attributes for a digital design
US9589233B2 (en) Automatic recognition and insights of data
US8689108B1 (en) Presentation and analysis of user interaction data
US9360992B2 (en) Three dimensional conditional formatting
EP2851852A1 (en) Presentation and analysis of user interaction data
US20070061732A1 (en) User interface options of an impact analysis tool
CN103885943A (zh) 网页中的下拉列表框控件的实现方法
US7739620B1 (en) Method of setting alternate style assignments to menu elements of an application
US11068119B2 (en) Optimizing an arrangement of content on a display of a user device based on user focus
JP7078429B2 (ja) テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JP2007011604A (ja) 不具合診断システム及びプログラム
US11392260B2 (en) Display control device, display control method, and display control program
JP7416203B2 (ja) 画面認識装置、画面認識方法およびプログラム
AU2019344461B2 (en) Analyzing natural language expressions in a data visualization user interface
CN106020503B (zh) 一种输入方法与装置
US11061664B2 (en) Code management system and code management method
US20040239638A1 (en) System and method for displaying, completing and executing keyboard key combinations
CN104765685A (zh) 一种内核进程图形化分析方法
US20230058327A1 (en) Information processing apparatus, flow generation method, and computer program product
US20230056860A1 (en) Information processing apparatus, flow generation method, and computer program product
JP6657799B2 (ja) 図形処理装置、図形処理方法、および、図形処理プログラム
WO2023105696A1 (ja) 情報付与装置、情報付与方法及び情報付与プログラム
KR102162779B1 (ko) 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
JP2012038022A (ja) クローン検出装置、クローン検出プログラム、及びクローン検出プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220519

R150 Certificate of patent or registration of utility model

Ref document number: 7078429

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150