JP2018018118A - テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 - Google Patents

テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 Download PDF

Info

Publication number
JP2018018118A
JP2018018118A JP2016145065A JP2016145065A JP2018018118A JP 2018018118 A JP2018018118 A JP 2018018118A JP 2016145065 A JP2016145065 A JP 2016145065A JP 2016145065 A JP2016145065 A JP 2016145065A JP 2018018118 A JP2018018118 A JP 2018018118A
Authority
JP
Japan
Prior art keywords
screen
analysis
text
data
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016145065A
Other languages
English (en)
Other versions
JP6794162B2 (ja
Inventor
正史 秋田
Masashi Akita
正史 秋田
中村 康則
Yasunori Nakamura
康則 中村
景龍 周
Keiryu Shu
景龍 周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2016145065A priority Critical patent/JP6794162B2/ja
Priority to PCT/JP2017/020922 priority patent/WO2018020842A1/ja
Priority to CN201780043375.8A priority patent/CN109478191B/zh
Priority to KR1020197000933A priority patent/KR102180487B1/ko
Priority to TW106122011A priority patent/TWI686716B/zh
Publication of JP2018018118A publication Critical patent/JP2018018118A/ja
Application granted granted Critical
Publication of JP6794162B2 publication Critical patent/JP6794162B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】階層的クラスター分析の結果を利用者が直感的に理解できるように画面に表示するテキストマイニング方法、テキストマイニングプログラム及びテキストマイニング装置を提供する。【解決手段】テキスト分析ステップS109〜S110では、入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行う。画面生成ステップS111では、グループ数mとグループ内の最大データ数nとに基づき、テキスト分析ステップによる分析結果からm個のクラスターを求め、クラスターに含まれる単語をn個以下含むグループを画面に表示するための画面データを生成する。分析結果表示ステップS112では、生成された画面データに基づき、画面を表示する。【選択図】図4

Description

本発明は、テキストマイニングに関し、特に、テキストデータの分析結果を画面に表示するテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置に関する。
近年、自由に記述された大量のテキストデータを解析し、解析結果から有用な情報を求めるテキストマイニングが注目されている。テキストマイニングでは、例えば、分析対象のテキストデータから単語を抽出し、単語の出現頻度や出現傾向などを解析することにより、情報を求める。
以下、テキストデータから抽出した単語に対して階層的クラスター分析を行い、分析結果を画面に表示するテキストマイニング装置について検討する。階層的クラスター分析では、単語間の類似度に基づき、類似度の高い単語を含むクラスターが階層的に作成される。一般に、階層的クラスター分析の結果は、図15に示す樹形図(デンドログラム)を用いて利用者(分析者)に提供される。
本願発明に関連して、特許文献1には、樹形図を構築し、樹形図を探索して下層から上層を特定可能なインデックスを生成して記憶手段に記憶する階層的クラスタリング手段を有するクラスタリング装置が記載されている。特許文献2には、キーワード間の距離を算出し、キーワードからキーワード間の距離を探索可能な距離行列データを生成して記憶手段に記憶する距離行列計算手段と、距離行列を用いてキーワードを階層的クラスタリングし、構築された樹形図を下層から上層に探索可能なボトムアップインデックスとして記憶手段に記憶するクラスタリング手段とを有するクエリ提供装置が記載されている。
特開2011−216021号公報 特開2012−150539号公報
従来のテキストマイニング装置は、階層的クラスター分析の結果を樹形図を用いて画面に表示する。しかしながら、このようなテキストマイニング装置には、利用者が分析結果を直感的に理解できないという問題がある。例えば、利用者は、図15に示す分析結果においてクラスター数を4に設定するときには、図16に示すように、樹形図上に切断線を設定する。しかしながら、利用者は、このような樹形図を見ただけでは、各クラスターに含まれる単語を直感的に認識することができない。また、利用者は、単語数が多いときにクラスター数を変更した場合には、各クラスターに含まれる単語がどのように変化するかを直感的に把握することができない。
また、樹形図には単語の出現頻度が記載されていないので、利用者はどの単語が重要かを知ることができない。また、分析対象のテキストデータが年月日や時刻などの情報を有する時系列データである場合には、利用者は分析結果の時間的な変化を知ることを要望することがある。しかしながら、従来のテキストマイニング装置では、利用者のこのような要望に応えることができない。
それ故に、本発明は、階層的クラスター分析の結果を利用者が直感的に理解できるように画面に表示するテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置を提供することを目的とする。
本発明の第1の局面は、テキストデータの分析結果を画面に表示するテキストマイニング方法であって、
入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行うテキスト分析ステップと、
前記テキスト分析ステップによる分析結果に基づき、画面データを生成する画面生成ステップと、
前記画面データに基づき、画面を表示する分析結果表示ステップとを備え、
前記画面生成ステップは、グループ数とグループ内の最大データ数とに基づき、前記分析結果から前記グループ数のクラスターを求め、前記クラスターに含まれる単語を前記最大データ数以下含むグループを画面に表示するための画面データを生成することを特徴とする。
本発明の第2の局面は、本発明の第1の局面において、
前記グループに含まれる単語は、前記グループに対応するクラスターに含まれる単語の中から出現頻度が高い順に選択されることを特徴とする。
本発明の第3の局面は、本発明の第2の局面において、
前記グループは、前記画面内で、前記グループに対応するクラスターに含まれる単語の出現頻度の合計に応じたサイズを有することを特徴とする。
本発明の第4の局面は、本発明の第3の局面において、
前記グループに含まれる単語は、前記画面内で、前記単語の出現頻度に応じたサイズを有することを特徴とする。
本発明の第5の局面は、本発明の第1の局面において、
利用者からの指示を入力するための指示入力ステップをさらに備え、
前記テキスト分析ステップおよび前記画面生成ステップのいずれかが、前記指示入力ステップで入力された指示に基づき実行されることを特徴とする。
本発明の第6の局面は、本発明の第5の局面において、
前記指示入力ステップは前記グループ数の設定指示を受け取り、
前記画面生成ステップは、前記指示入力ステップで設定されたグループ数に基づき、前記画面データを生成することを特徴とする。
本発明の第7の局面は、本発明の第5の局面において、
前記指示入力ステップは前記最大データ数の設定指示を受け取り、
前記画面生成ステップは、前記指示入力ステップで設定された最大データ数に基づき、前記画面データを生成することを特徴とする。
本発明の第8の局面は、本発明の第5の局面において、
前記指示入力ステップは分析対象期間の設定指示を受け取り、
前記テキスト分析ステップは、前記テキストデータのうち前記指示入力ステップで設定された分析対象期間内のテキストデータに含まれる単語に対して、前記階層的クラスター分析を行うことを特徴とする。
本発明の第9の局面は、本発明の第5の局面において、
前記指示入力ステップは分析目的の設定指示を受け取り、
前記テキスト分析ステップは、前記テキストデータから前記指示入力ステップで設定された分析目的に応じた種類の単語を抽出して、前記階層的クラスター分析を行うことを特徴とする。
本発明の第10の局面は、本発明の第5の局面において、
前記指示入力ステップは単語除外指示を受け取り、
前記テキスト分析ステップは、前記指示入力ステップで指示された単語を除外して、前記階層的クラスター分析を行うことを特徴とする。
本発明の第11の局面は、本発明の第5の局面において、
前記指示入力ステップは類義語登録指示を受け取り、
前記テキスト分析ステップは、前記指示入力ステップで指示された複数の単語を同じ単語とみなして、前記階層的クラスター分析を行うことを特徴とする。
本発明の第12の局面は、本発明の第5の局面において、
前記指示入力ステップは複合語登録指示を受け取り、
前記テキスト分析ステップは、前記指示入力ステップで指示された複数の単語を1個の単語に併合して、前記階層的クラスター分析を行うことを特徴とする。
本発明の第13の局面は、本発明の第1の局面において、
前記画面生成ステップは、前記グループを含む分析結果画面と、前記分析結果画面の表示態様を設定するための分析設定画面とを表示するための画面データを生成することを特徴とする。
本発明の第14の局面は、テキストデータの分析結果を画面に表示するテキストマイニングプログラムであって、
入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行うテキスト分析ステップと、
前記テキスト分析ステップによる分析結果に基づき、画面データを生成する画面生成ステップと、
前記画面データに基づき、画面を表示する分析結果表示ステップとをコンピュータにCPUがメモリを利用して実行させ、
前記画面生成ステップは、グループ数とグループ内の最大データ数とに基づき、前記分析結果から前記グループ数のクラスターを求め、前記クラスターに含まれる単語を前記最大データ数以下含むグループを画面に表示するための画面データを生成することを特徴とする。
本発明の第15の局面は、本発明の第14の局面において、
前記グループに含まれる単語は、前記グループに対応するクラスターに含まれる単語の中から出現頻度が高い順に選択されることを特徴とする。
本発明の第16の局面は、本発明の第15の局面において、
前記グループは、前記画面内で、前記グループに対応するクラスターに含まれる単語の出現頻度の合計に応じたサイズを有することを特徴とする。
本発明の第17の局面は、本発明の第16の局面において、
前記グループに含まれる単語は、前記画面内で、前記単語の出現頻度に応じたサイズを有することを特徴とする。
本発明の第18の局面は、本発明の第14の局面において、
利用者からの指示を入力するための指示入力ステップを前記コンピュータにさらに実行させ、
前記テキスト分析ステップおよび前記画面生成ステップのいずれかが、前記指示入力ステップで入力された指示に基づき実行されることを特徴とする。
本発明の第19の局面は、本発明の第14の局面において、
前記画面生成ステップは、前記グループを含む分析結果画面と、前記分析結果画面の表示態様を設定するための分析設定画面とを表示するための画面データを生成することを特徴とする。
本発明の第20の局面は、テキストデータの分析結果を画面に表示するテキストマイニング装置であって、
入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行うテキスト分析部と、
前記テキスト分析部による分析結果に基づき、画面データを生成する画面生成部と、
前記画面データに基づき、画面を表示する分析結果表示部とを備え、
前記画面生成部は、グループ数とグループ内の最大データ数とに基づき、前記分析結果から前記グループ数のクラスターを求め、前記クラスターに含まれる単語を前記最大データ数以下含むグループを画面に表示するための画面データを生成することを特徴とする。
本発明の第21の局面は、本発明の第20の局面において、
前記グループに含まれる単語は、前記グループに対応するクラスターに含まれる単語の中から出現頻度が高い順に選択されることを特徴とする。
本発明の第22の局面は、本発明の第21の局面において、
前記グループは、前記画面内で、前記グループに対応するクラスターに含まれる単語の出現頻度の合計に応じたサイズを有することを特徴とする。
本発明の第23の局面は、本発明の第22の局面において、
前記グループに含まれる単語は、前記画面内で、前記単語の出現頻度に応じたサイズを有することを特徴とする。
本発明の第24の局面は、本発明の第20の局面において、
利用者からの指示を入力するための指示入力部をさらに備え、
前記テキスト分析部および前記画面生成部のいずれかが、前記指示入力部で入力された指示に基づき動作することを特徴とする。
本発明の第25の局面は、本発明の第20の局面において、
前記画面生成部は、前記グループを含む分析結果画面と、前記分析結果画面の表示態様を設定するための分析設定画面とを表示するための画面データを生成することを特徴とする。
本発明の第1、第14または第20の局面によれば、テキストデータに含まれる単語に対して階層的クラスター分析を行った結果に基づき、クラスターに含まれる単語を含むグループが画面に表示される。また、グループに含まれる単語の数は、最大データ数以下に制限される。したがって、利用者は、画面を見たときに、階層的クラスター分析の結果を直感的に理解することができる。
本発明の第2、第15または第21の局面によれば、グループの内部には、クラスターに含まれる単語のうち出現頻度が高い単語が表示される。したがって、利用者は、各クラスターに含まれる出現頻度が高い単語を容易に認識することができる。
本発明の第3、第16または第22の局面によれば、グループは、画面内で、クラスターに含まれる単語の出現頻度の合計に応じたサイズを有する。したがって、利用者は、単語の出現頻度の合計が大きいクラスターを容易に認識することができる。
本発明の第4、第17または第23の局面によれば、単語は、画面内で、単語の頻度に応じたサイズを有する。したがって、利用者は、出現頻度が高い単語を容易に認識することができる。
本発明の第5、第18または第24の局面によれば、利用者からの指示に応じて、階層的クラスター分析の結果の表示態様を切り替えることができる。
本発明の第6の局面によれば、画面に表示されるグループの個数(クラスターの個数)を利用者からの指示に応じて切り替えることができる。
本発明の第7の局面によれば、グループに含まれる単語の個数の上限値を利用者からの指示に応じて切り替えることができる。
本発明の第8の局面によれば、利用者から指示された分析対象期間内のテキストデータに含まれる単語に対して階層的クラスター分析を行った結果が画面に表示される。したがって、利用者は、階層的クラスター分析の結果の時間的変化を容易に認識することができる。
本発明の第9の局面によれば、利用者から指示された分析目的に応じて分析対象の単語の種類を切り替えて階層的クラスター分析を行った結果を画面に表示することができる。
本発明の第10の局面によれば、利用者から指示された単語を除外して階層的クラスター分析を行った結果を画面に表示することができる。
本発明の第11の局面によれば、利用者から指示された複数の単語を同じ単語とみなして階層的クラスター分析を行った結果を画面に表示することができる。
本発明の第12の局面によれば、利用者から指示された複数の単語を1個の単語に併合して階層的クラスター分析を行った結果を画面に表示することができる。
本発明の第13の局面によれば、分析結果画面と分析設定画面が表示される。したがって、利用者は、分析設定画面を用いて、階層的クラスター分析を行った結果の表示態様を容易に切り替えることができる。
本発明の実施形態に係るテキストマイニング装置の構成を示すブロック図である。 図1に示すテキストマイニング装置として機能するコンピュータの構成を示すブロック図である。 図1に示すテキストマイニング装置の表示画面を示す図である。 図1に示すテキストマイニング装置の動作を示すフローチャートである。 図1に示すテキストマイニング装置の画面データ生成処理のフローチャートである。 図1に示すテキストマイニング装置のデータ指定画面を示す図である。 図1に示すテキストマイニング装置に入力されるテキストデータの例を示す図である。 図1に示すテキストマイニング装置の目的指定画面を示す図である。 図1に示すテキストマイニング装置の類義語リスト選択画面を示す図である。 図1に示すテキストマイニング装置の複合語リスト選択画面を示す図である。 図1に示すテキストマイニング装置において分析対象期間を設定する前後の分析結果画面を示す図である。 図1に示すテキストマイニング装置において単語除外を行う前後の分析結果画面を示す図である。 図1に示すテキストマイニング装置において類義語登録を行う前後の分析結果画面を示す図である。 図1に示すテキストマイニング装置において複合語登録を行う前後の分析結果画面を示す図である。 樹形図の例を示す図である。 図15に示す樹形図にクラスター数を設定した様子を示す図である。
以下、図面を参照して、本発明の実施形態に係るテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置について説明する。本実施形態に係るテキストマイニング方法は、典型的にはコンピュータを用いて実行される。本実施形態に係るテキストマイニングプログラムは、コンピュータを用いてテキストマイニング方法を実施するためのプログラムである。本実施形態に係るテキストマイニング装置は、典型的にはコンピュータを用いて構成される。テキストマイニングプログラムを実行するコンピュータは、テキストマイニング装置として機能する。
図1は、本発明の実施形態に係るテキストマイニング装置の構成を示すブロック図である。図1に示すテキストマイニング装置10は、指示入力部11、テキスト分析部12、画面生成部13、および、分析結果表示部14を備えている。テキストマイニング装置10には、分析対象のテキストデータ5が入力される。テキストマイニング装置10は、入力されたテキストデータ5から抽出した単語に対して階層的クラスター分析を行い、分析結果を画面に表示する。
テキストマイニング装置10の動作の概要は、以下のとおりである。指示入力部11には、利用者からの指示が入力される。テキスト分析部12は、入力されたテキストデータ5から単語を抽出し、抽出した単語に対して階層的クラスター分析を行う。画面生成部13は、テキスト分析部12による分析結果に基づき、画面データを生成する。分析結果表示部14は、画面生成部13で生成された画面データに基づき、画面を表示する。
指示入力部11に入力される利用者からの指示には、グループ数の設定、グループ内の最大データ数の設定、分析対象期間の設定、単語除外、類義語登録、複合語登録などが含まれる。テキストデータ5が年月日や時刻などの情報を有する時系列データである場合には、テキスト分析部12は、入力されたテキストデータ5のうち、指示入力部11で設定された分析対象期間内のテキストデータに含まれる単語に対して階層的クラスター分析を行う。
画面生成部13は、画面データを生成するときに、グループ数とグループ内の最大データ数とに従う(詳細は後述)。また、利用者が新たな指示を入力したときには、指示された処理が行なわれた後に、画面生成部13は新たな画面データを生成し、分析結果表示部14は新たな画面を表示する。このようにテキストマイニング装置10は、利用者からの指示に応じて、テキストデータ5の分析態様と分析結果の表示態様を切り替える。
図2は、テキストマイニング装置10として機能するコンピュータの構成を示すブロック図である。図2に示すコンピュータ20は、CPU21、メインメモリ22、記憶部23、入力部24、表示部25、通信部26、および、記憶媒体読み取り部27を備えている。メインメモリ22には、例えば、DRAMが使用される。記憶部23には、例えば、ハードディスクやソリッドステートドライブが使用される。入力部24には、例えば、キーボード28やマウス29が含まれる。表示部25には、例えば、液晶ディスプレイが使用される。通信部26は、有線通信または無線通信のインターフェイス回路である。記憶媒体読み取り部27は、プログラムなどを記憶した記憶媒体30のインターフェイス回路である。記憶媒体30には、例えば、CD−ROM、DVD−ROM、USBメモリなどの非一過性の記憶媒体が使用される。
コンピュータ20がテキストマイニングプログラム31を実行する場合、記憶部23は、テキストマイニングプログラム31とテキストデータ5を記憶する。テキストマイニングプログラム31とテキストデータ5は、例えば、サーバや他のコンピュータから通信部26を用いて受信したものでもよく、記憶媒体30から記憶媒体読み取り部27を用いて読み出したものでもよい。
テキストマイニングプログラム31を実行するときには、テキストマイニングプログラム31とテキストデータ5はメインメモリ22に複写転送される。CPU21は、メインメモリ22を作業用メモリとして利用して、メインメモリ22に記憶されたテキストマイニングプログラム31を実行することにより、メインメモリ22に記憶されたテキストデータ5を処理する。このときコンピュータ20は、テキストマイニング装置10として機能する。なお、以上に述べたコンピュータ20の構成は一例に過ぎず、任意のコンピュータを用いてテキストマイニング装置10を構成することができる。
図3は、テキストマイニング装置10の表示画面を示す図である。図3に示す表示画面40には、分析結果画面41と分析設定画面42が含まれる。分析結果画面41には、テキスト分析部12による分析結果が表示される。分析設定画面42には、テキスト分析部12における分析態様と画面生成部13で生成される画面データの特性を設定するためのグラフィカルユーザインターフェイス部品が表示される。
階層的クラスター分析の結果に対してクラスター数を設定すると、各クラスターに含まれる単語が決定される。テキストマイニング装置10は、テキストデータ5から抽出した単語に対して階層的クラスター分析を行った結果を画面に表示するときに、樹形図に代えて、クラスターに対応するグループを図3に示す態様で表示する。
以下の説明では、画面に表示されるクラスターをグループともいう。利用者は、指示入力部11を用いて、グループ数(クラスター数)とグループ内の最大データ数(グループに含まれる単語の数の上限値)とを指定する。以下、前者をm、後者をnとする。
テキストマイニング装置10では、テキストデータ5に含まれる単語はm個のクラスターに分類され、各クラスターには1個以上の単語が含まれる。分析結果画面41にはm個のグループが表示され、各グループの内部には単語が表示される。グループは雲形図形を用いて表示され、グループに含まれる単語は楕円領域の内部に表示される。各グループに含まれる単語は、n個以下に制限される。例えば、n=5のときにあるクラスターが10個の単語を含む場合、分析結果画面41ではグループの内部に5個の単語が表示される。
分析設定画面42には、グループ数mを設定するための第1スライダーと2個の第1ボタン(記号「+」または「−」を付したもの)、グループ内の最大データ数nを設定するための第2スライダーと2個の第2ボタン、および、分析対象期間を設定するための4個のボックスと2個の第3ボタン(左向き矢印または右向き矢印を付したもの)が表示される。
利用者は、マウス29を操作して、第1スライダーのつまみを左右に移動させるか、第1ボタンを押すことにより、グループ数mを指示する。グループ数mは、記号「+」を付した第1ボタンが押されたときには増加し、記号「−」を付した第1ボタンが押されたときには減少する。グループ数mの初期値は、例えば、テキスト分析部12による分析結果に含まれる単語の種類の平方根、または、これに近い整数に設定される。例えば、テキスト分析部12による分析結果に16種類の単語が含まれている場合、グループ数mの初期値は4に設定される。
利用者は、マウス29を操作して、第2スライダーのつまみを左右に移動させるか、第2ボタンを押すことにより、グループ内の最大データ数nを指示する。グループ内の最大データ数nは、第2ボタンが押されたときには増加または減少する。グループ内の最大データ数nの初期値は、例えば、5に設定される。
テキストデータ5が時系列データである場合、利用者は、キーボード28またはマウス29を操作して、4個のボックスを用いて年月日と時刻を指定するか、第3ボタンを押すことにより、分析対象期間を指示する。分析対象期間は、左向き矢印を付した第3ボタンが押されたときには所定量だけ(例えば1ヵ月)過去へ移動し、右向き矢印を付した第3ボタンが押されたときには所定量だけ反対方向へ移動する。分析対象期間の初期値は、例えば、テキストデータ5の最も古い時刻から最も新しい時刻までの期間に設定される。なお、テキストデータ5が時系列データでない場合には、利用者は分析対象期間を指定できない。
分析結果画面41には1個以上m個以下のグループが表示され、各グループの内部には1個以上n個以下の単語が表示される。各グループは、画面内で、対応するクラスターに含まれる単語の出現頻度の合計が大きいほど大きく表示される。クラスターに含まれる単語の数がn個を超える場合には、グループの内部には出現頻度が高いn個の単語が表示される。グループに含まれる単語とこれを包含する楕円領域は、画面内で、単語の出現頻度が高いほど大きく表示される。各グループには、名称が付けられる。グループの名称には、クラスターに含まれる単語のうち出現頻度が最も高い単語が使用される。グループの名称は、グループの内部に下線を付して表示される。なお、楕円領域の内部に単語を表示できない場合には、単語に代えて記号「…」が表示される。
分析結果画面41には、ズーム倍率を指定するための第3スライダーおよび2個の第4ボタン(記号「+」または「−」を付したもの)が表示される。利用者は、マウス29を操作して、第3スライダーのつまみを左右に移動させるか、第4ボタンを押すことにより、ズーム倍率を設定する。分析結果画面41には、単語を含むグループが、設定されたズーム倍率に応じて拡大または縮小して表示される。ズーム倍率の初期値は、100%に設定される。初期状態の分析結果画面41には、すべてのグループが表示される。
利用者が分析設定画面42においてグループ数m、グループ内の最大データ数n、または、分析対象期間を変更したときに、分析結果画面41の内容はこれに応じて変化する。利用者が分析結果画面41において単語除外、類義語登録、または、複合語登録を指示したときにも、分析結果画面41の内容はこれに応じて変化する。
テキストマイニング装置10は、テキストデータ5から抽出した単語に対して階層的クラスター分析を行うときに、除外すべき単語を記憶した除外単語リスト、類義語として処理すべき単語を記憶した類義語リスト、および、複合語として処理すべき単語を記憶した複合語リストを参照する。類義語リストには、同じ意味(または、ほぼ同じ意味)を有する複数の単語と、これらの単語を代表する1個の単語とが対応づけて記憶されている。複合語リストには、連結すると1個の複合語になる複数の単語と、これらの単語を連結した複合語とが対応づけて記憶されている。類義語リストには、例えば、「大学生」および「学生」と、両者を代表する「大学生」とが対応づけて記憶されている。複合語リストには、例えば、「忍耐」および「強い」と、両者を連結した「忍耐強い」とが対応づけて記憶されている。テキストマイニング装置10は、複数の類義語リストと複数の複合語リストを有する場合がある。
図4は、テキストマイニング装置10の動作を示すフローチャートである。図5は、テキストマイニング装置10の画面データ生成処理(図4に示すステップS111)の詳細を示すフローチャートである。入力部24とステップS113を実行するCPU21は、指示入力部11として機能する。ステップS109〜S110を実行するCPU21は、テキスト分析部12として機能する。ステップS111を実行するCPU21は、画面生成部13として機能する。表示部25とステップS112を実行するCPU21は、分析結果表示部14として機能する。以下、図4および図5を参照して、テキストマイニング装置10の動作を説明する。
まず、CPU21は、図6に示すデータ指定画面51を表示部25に表示させる(ステップS101)。データ指定画面51には、ファイル名を指定するためのボックスと、フォルダ名を指定するためのボックスとが表示されている。利用者は、データ指定画面51においてファイル名またはフォルダ名を指定することにより、分析対象のテキストデータ5を指定する。テキストデータ5は、ハードディスクなどの記憶部23に記憶されていてもよく、通信部26を用いて接続されたサーバや他のコンピュータなどに記憶されていてもよい。
次に、CPU21は、データ指定画面51を用いて指定されたテキストデータ5をメインメモリ22に転送する。これにより、テキストマイニング装置10にテキストデータ5が入力される(ステップS102)。図7は、テキストデータ5の例を示す図である。図7に示すテキストデータは、大学生が作成したレポートのデータであり、年月日の情報を有する時系列データである。なお、テキストマイニング装置10が分析するテキストデータ5の種類は任意である。
次に、CPU21は、図8に示す目的指定画面52を表示部25に表示させる(ステップS103)。目的指定画面52には、内容、特徴、および、評判に対応した3個のラジオボタンが表示されている。利用者は、マウス29を操作していずれかのラジオボタンを押すことにより、分析目的を内容、特徴、および、評判の中から選択する。次に、CPU21は、目的指定画面52を用いて指定された分析目的を受け取る。これにより、テキストマイニング装置10に分析目的が入力される(ステップS104)。
次に、CPU21は、図9に示す類義語リスト選択画面53を表示部25に表示させる(ステップS105)。類義語リスト選択画面53には、テキストマイニング装置10が有する類義語リストの名称と、各類義語リストに登録された類義語とが表示される。利用者は、マウス29を操作して類義語リスト選択画面53においていずれかの類義語リストを選択することにより、使用する類義語リストを指定する。これにより、テキストマイニング装置10では、類義語リストが選択される(ステップS106)。
次に、CPU21は、図10に示す複合語リスト選択画面54を表示部25に表示させる(ステップS107)。複合語リスト選択画面54には、テキストマイニング装置10が有する複合語リストの名称と、各複合語リストに登録された複合語とが表示される。利用者は、マウス29を操作して複合語リスト選択画面54においていずれかの複合語リストを選択することにより、使用する複合語リストを指定する。これにより、テキストマイニング装置10では、複合語リストが選択される(ステップS108)。
次に、CPU21は、除外単語リスト、類義語リスト、および、複合語リストを考慮して、ステップS102で入力されたテキストデータ5のうち分析対象期間内にあるテキストデータからステップS104で指定された分析目的に応じた種類の単語を抽出する(ステップS109)。CPU21は、分析目的が「内容」である場合には、テキストデータ5から名詞、固有名詞、地名、および、人名を抽出する。分析目的が「特徴」である場合には、CPU21はテキストデータ5から名詞、固有名詞、サ変名詞、および、動詞を抽出する。分析目的が「評判」である場合には、CPU21はテキストデータ5から形容詞、形容動詞、および、感動詞を抽出する。なお、テキストマイニング装置10は、上記3個以外の分析目的をサポートしてもよい。また、CPU21は、各分析目的に応じて上記とは異なる種類の単語を抽出してもよい。
テキストデータ5が時系列データである場合には、CPU21は、ステップS109を実行するときに、テキストデータ5のうち、利用者から指示された分析対象期間に含まれるテキストデータだけから単語を抽出する。また、単語W1が除外単語リストに記憶されている場合には、CPU21は、ステップS109を実行するときに、テキストデータ5に含まれる単語W1をすべて無視する。また、選択された類義語リストに単語W2および単語W3と、両者を代表する単語W2とが対応づけて記憶されている場合には、CPU21は、ステップS109を実行するときに、テキストデータ5に含まれる単語W3をすべて単語W2として処理する。また、選択された複合語リストに単語W4および単語W5と、両者を連結した単語W6とが対応づけて記憶されている場合には、CPU21は、ステップS109を実行するときに、テキストデータ5に含まれる、連続した単語W4と単語W5をすべて単語W6として処理する。
次に、CPU21は、ステップS109で抽出した単語に対して階層的クラスター分析を行う(ステップS110)。CPU21は、ステップS110において、例えば、テキストデータ5における2個の単語間の距離(2個の単語がどの程度離れて現れるか)に基づき、2個の単語間の類似度を求める。CPU21は、求めた単語間の類似度に基づき、所定の方法(例えば、最短距離法、最長距離法、群平均法、十進法、ウォード法など)を用いて階層的クラスター分析を行う。また、CPU21は、ステップS110において、各単語の出現頻度を求める。
次に、CPU21は、ステップS110で求めた階層的クラスター分析の結果に基づき、分析結果を表示するための画面データを生成する(ステップS111)。CPU21は、ステップS111において、図5に示す処理を行う。
CPU21は、グループ数をm、グループ内の最大データ数をnとする(ステップS201)。次に、CPU21は、階層的クラスター分析の結果についてクラスター数をmに設定して、m個のクラスターを求める(ステップS202)。次に、CPU21は、各クラスターについて、クラスターに含まれる単語の出現頻度の合計を求める(ステップS203)。次に、CPU21は、ステップS203で求めた出現頻度の合計に基づき、各グループの表示サイズを決定する(ステップS204)。ステップS204では、クラスターに含まれる単語の出現頻度の合計が大きいほど、グループの表示サイズは大きく決定される。
次に、CPU21は、各クラスターについて、クラスターに含まれる単語の中から表示すべき単語を選択する(ステップS205)。ステップS205では、各クラスターに含まれる単語の中から出現頻度が高い順に、n個以下の単語が選択される。次に、CPU21は、ステップS205で選択した各単語について、単語の出現頻度に基づき単語の表示サイズを決定する(ステップS206)。ステップS206では、出現頻度の高い単語ほど、単語の表示サイズは大きく決定される。
次に、CPU21は、階層的クラスター分析の結果を表示するための画面データを生成する(ステップS207)。ステップS207で生成される画面データには、ステップS204で決定されたサイズを有するm個のグループ(雲形図形で表現される)が含まれる。各グループの内部には、ステップS206で決定されたサイズを有するn個以下の単語が含まれる。単語は、画面内で、グループの内部に表示される。CPU21は、ステップS207を実行した後に画面データ生成処理を終了する。
次に、CPU21は、ステップS111で生成した画面データに基づく画面を表示部25に表示させる(ステップS112)。次に、CPU21は、利用者からの指示を受け取る(ステップS113)。次に、CPU21は、ステップS113で受け取った指示の種類に応じて、ステップS115〜S120のいずれかに進む(ステップS114)。
CPU21は、ステップS113で受け取った指示が「グループ数の設定」である場合には、ステップS115へ進む。この場合、CPU21は、グループ数mを利用者が指示した値に設定し(ステップS115)、ステップS111へ進む。その後、設定されたグループ数mに基づき画面データが生成され、新たな画面が表示される。これにより、指定された個数のグループを含む分析結果画面が表示される。
CPU21は、ステップS113で受け取った指示が「グループ内の最大データ数の設定」である場合には、ステップS116へ進む。この場合、CPU21は、グループ内の最大データ数nを利用者が指定した値に設定し(ステップS116)、ステップS111へ進む。その後、設定されたグループ内の最大データ数nに基づき画面データが生成され、新たな画面が表示される。これにより、各グループに含まれる単語の個数が指定された値以下に制限された分析結果画面が表示される。
CPU21は、ステップS113で受け取った指示が「分析対象期間の設定」である場合には、ステップS117へ進む。この場合、CPU21は、分析対象期間を利用者が指定した期間に設定し(ステップS117)、ステップS109へ進む。その後、設定された分析対象期間を参照して階層的クラスター分析が行われ、新たな分析結果を表示するための画面データが生成され、新たな画面が表示される。これにより、指定された分析対象期間内のテキストデータに含まれる単語について階層的クラスター分析を行った結果が画面に表示される。
図11は、分析対象期間を設定する前後の分析結果画面を示す図である。図11(a)に示す設定前の分析結果画面61には、入力されたテキストデータ5のうち、2014年1月1日0時0分から2015年12月31日24時0分までのテキストデータに含まれる単語について階層的クラスター分析を行った結果が表示される。図11(b)に示す設定後の分析結果画面62には、入力されたテキストデータ5のうち、2014年3月1日0時0分から2014年9月30日24時0分までのテキストデータに含まれる単語について階層的クラスター分析を行った結果が表示される。分析結果画面61の表示内容と分析結果画面62の表示内容は異なる。利用者は、分析対象期間を設定する前後の分析結果画面を見ることにより、階層的クラスター分析の結果の時間的な変化を容易に認識することができる。
CPU21は、ステップS113で受け取った指示が「単語除外」である場合には、ステップS118へ進む。この場合、CPU21は、指定された単語を除外単語リストに追加し(ステップS118)、ステップS109へ進む。その後、指定された単語を除外して階層的クラスター分析が行われ、新たな分析結果を表示するための画面データが生成され、新たな画面が表示される。これにより、指定された単語を除外して階層的クラスター分析を行った結果が画面に表示される。
図12は、単語除外を行う前後の分析結果画面を示す図である。利用者は、マウス29を操作して、除外すべき単語を選択した後、単語除外を指示する。図12(a)に示す単語除外前の分析結果画面63では、「社会」が選択され、メニューの中から「単語除外」が選択されている。その後、「社会」を除外して階層的クラスター分析を行った結果が画面に表示される。図12(b)に示す単語除外後の分析結果画面64には、「社会」に代えて「進学」が表示されている。「進学」は、「社会」と同じクラスターに含まれる単語の中で、分析結果画面63に表示された5個の単語の次に出現頻度が高いものである。
CPU21は、ステップS113で受け取った指示が「類義語登録」である場合には、ステップS119へ進む。この場合、CPU21は、指示された単語を使用中の類義語リストに追加し(ステップS119)、ステップS109へ進む。その後、指示された類義語を考慮して階層的クラスター分析が行われ、新たな分析結果を表示するための画面データが生成され、新たな画面が表示される。これにより、指示された単語を類義語として階層的クラスター分析を行った結果が画面に表示される。
図13は、類義語登録を行う前後の分析結果画面を示す図である。利用者は、マウス29を操作して、類義語として登録すべき複数の単語を選択した後、類義語登録を指示する。図13(a)に示す類義語登録前の分析結果画面65では、「大学生」と「学生」が選択され、メニューの中から「類義語登録」が選択されている。その後、「大学生」と「学生」を類義語として階層的クラスター分析を行った結果が画面に表示される。図13(b)に示す類義語登録後の分析結果画面66では、「大学生」が分析結果画面65よりも大きいサイズで表示され、「学生」に代えて「進学」が表示されている。「大学生」は、「大学生」の出現頻度と「学生」の出現頻度の合計に応じて、分析結果画面65内の「大学生」よりも大きいサイズで表示される。
CPU21は、ステップS113で受け取った指示が「複合語登録」である場合には、ステップS120へ進む。この場合、CPU21は、指示された単語を使用中の複合語リストに追加し(ステップS120)、ステップS109へ進む。その後、指示された複合語を考慮して階層的クラスター分析が行われ、新たな分析結果を表示するための画面データが生成され、新たな画面が表示される。これにより、指定された単語を複合語として階層的クラスター分析を行った結果が画面に表示される。
図14は、複合語登録を行う前後の分析結果画面を示す図である。利用者は、マウス29を操作して、複合語として登録すべき複数の単語を選択した後、「類義語登録」を指示する。図14(a)に示す複合語登録前の分析結果画面67では、「忍耐」と「強い」が選択され、メニューの中から「複合語登録」が選択されている。その後、「忍耐」と「強い」を複合語として階層的クラスター分析を行った結果が画面に表示される。図14(b)に示す複合語登録後の分析結果画面68では、「忍耐」および「強い」に代えて、「忍耐強い」が「忍耐」および「強い」以下のサイズで表示される。
以上に示すように、本実施形態に係るテキストマイニング方法は、入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行うテキスト分析ステップと、テキスト分析ステップによる分析結果に基づき、画面データを生成する画面生成ステップと、画面データに基づき、画面を表示する分析結果表示ステップとを備えている。画面生成ステップは、グループ数mとグループ内の最大データ数nとに基づき、分析結果からm個のクラスターを求め、クラスターに含まれる単語をn個以下含むグループを画面に表示するための画面データを生成する。本実施形態に係るテキストマイニング方法によれば、テキストデータに含まれる単語に対して階層的クラスター分析を行った結果に基づき、クラスターに含まれる単語を含むグループが画面に表示される。また、グループに含まれる単語の数は、n個以下に制限される。したがって、利用者は、画面を見たときに、階層的クラスター分析の結果を直感的に理解することができる。
また、グループに含まれる単語は、グループに対応するクラスターに含まれる単語の中から出現頻度が高い順に選択される。このため、グループの内部には、クラスターに含まれる単語のうち出現頻度が高い単語が表示される。したがって、利用者は、各クラスターに含まれる出現頻度が高い単語を容易に認識することができる。また、グループは、画面内で、グループに対応するクラスターに含まれる単語の出現頻度の合計に応じたサイズを有する。したがって、利用者は、単語の出現頻度の合計が大きいクラスターを容易に認識することができる。また、グループに含まれる単語は、画面内で、単語の出現頻度に応じたサイズを有する。したがって、利用者は、出現頻度が高い単語を容易に認識することができる。
また、テキストマイニング方法は、利用者からの指示を入力するための指示入力ステップを備え、テキスト分析ステップおよび画面生成ステップのいずれかが、指示入力ステップで入力された指示に基づき実行される。したがって、利用者からの指示に応じて、階層的クラスター分析の結果の表示態様を切り替えることができる。特に、指示入力ステップはグループ数mの設定指示を受け取り、画面生成ステップは、指示入力ステップで指定されたグループ数mに基づき、画面データを生成する。これにより、画面に表示される領域の個数(クラスターの個数)を利用者からの指示に応じて切り替えることができる。また、指示入力ステップはグループ内の最大データ数nを受け取り、画面生成ステップは、指示入力ステップで指定されたグループ内の最大データ数nに基づき、画面データを生成する。これにより、領域内に表示される単語の個数を利用者からの指示に応じて切り替えることができる。
また、指示入力ステップは分析対象期間の指示を受け取り、テキスト分析ステップは、テキストデータのうち指示入力ステップで指定された分析対象期間内のテキストデータに含まれる単語に対して、階層的クラスター分析を行う。したがって、利用者から指示された分析対象期間内のテキストデータに含まれる単語に対して階層的クラスター分析を行った結果が画面に表示される。よって、利用者は、階層的クラスター分析の結果の時間的変化を容易に認識することができる。また、指示入力ステップは分析目的の設定指示を受け取り、テキスト分析ステップは、テキストデータ5から指示入力ステップで設定された分析目的に応じた種類の単語を抽出して、階層的クラスター分析を行う。これにより、利用者から指示された分析目的に応じて分析対象の単語の種類を切り替えて階層的クラスター分析を行った結果を画面に表示することができる。
また、指示入力ステップは単語除外指示を受け取り、テキスト分析ステップは、指示入力ステップで指示された単語を除外して、階層的クラスター分析を行う。これにより、利用者から指示された単語を除外して階層的クラスター分析を行った結果を表示することができる。また、指示入力ステップは類義語登録指示を受け取り、テキスト分析ステップは、指示入力ステップで指示された複数の単語を同じ単語とみなして、階層的クラスター分析を行う。これにより、利用者から指示された複数の単語を同じ単語とみなして階層的クラスター分析を行った結果を画面に表示することができる。また、指示入力ステップは複合語登録指示を受け取り、テキスト分析ステップは、指示入力ステップで指定された複数の単語を1個の単語に併合して、階層的クラスター分析を行う。これにより、利用者から指示された複数の単語を1個の単語に併合して階層的クラスター分析を行った結果を画面に表示することができる。
また、画面生成ステップは、グループを含む分析結果画面と、分析結果画面の表示態様を設定するための分析設定画面とを表示するための画面データを生成する。したがって、分析結果画面と分析設定画面が表示される。よって、利用者は、分析設定画面を用いて、階層的クラスター分析を行った結果の表示態様を容易に切り替えることができる。
本実施形態に係るテキストマイニングプログラム31、および、本実施形態に係るテキストマイニング装置10は、本実施形態に係るテキストマイニング処理方法と同様の構成を有し、同様の効果を奏する。
本実施形態に係るテキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置によれば、テキストデータに含まれる単語に対して階層的クラスター分析を行った結果に基づき、クラスターに含まれる単語を最大データ数以下含むグループが画面に表示される。したがって、利用者は、画面を見たときに、階層的クラスター分析の結果を直感的に理解することができる。
5…テキストデータ
10…テキストマイニング装置
11…指示入力部
12…テキスト分析部
13…画面生成部
14…分析結果表示部
20…コンピュータ
21…CPU
22…メインメモリ
24…入力部
25…表示部
30…記憶媒体
31…テキストマイニングプログラム
40…表示画面
41、61〜68…分析結果画面
42…分析設定画面
51…データ指定画面
52…目的指定画面
53…類義語リスト選択画面
54…複合語リスト選択画面

Claims (25)

  1. テキストデータの分析結果を画面に表示するテキストマイニング方法であって、
    入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行うテキスト分析ステップと、
    前記テキスト分析ステップによる分析結果に基づき、画面データを生成する画面生成ステップと、
    前記画面データに基づき、画面を表示する分析結果表示ステップとを備え、
    前記画面生成ステップは、グループ数とグループ内の最大データ数とに基づき、前記分析結果から前記グループ数のクラスターを求め、前記クラスターに含まれる単語を前記最大データ数以下含むグループを画面に表示するための画面データを生成することを特徴とする、テキストマイニング方法。
  2. 前記グループに含まれる単語は、前記グループに対応するクラスターに含まれる単語の中から出現頻度が高い順に選択されることを特徴とする、請求項1に記載のテキストマイニング方法。
  3. 前記グループは、前記画面内で、前記グループに対応するクラスターに含まれる単語の出現頻度の合計に応じたサイズを有することを特徴とする、請求項2に記載のテキストマイニング方法。
  4. 前記グループに含まれる単語は、前記画面内で、前記単語の出現頻度に応じたサイズを有することを特徴とする、請求項3に記載のテキストマイニング方法。
  5. 利用者からの指示を入力するための指示入力ステップをさらに備え、
    前記テキスト分析ステップおよび前記画面生成ステップのいずれかが、前記指示入力ステップで入力された指示に基づき実行されることを特徴とする、請求項1に記載のテキストマイニング方法。
  6. 前記指示入力ステップは前記グループ数の設定指示を受け取り、
    前記画面生成ステップは、前記指示入力ステップで設定されたグループ数に基づき、前記画面データを生成することを特徴とする、請求項5に記載のテキストマイニング方法。
  7. 前記指示入力ステップは前記最大データ数の設定指示を受け取り、
    前記画面生成ステップは、前記指示入力ステップで設定された最大データ数に基づき、前記画面データを生成することを特徴とする、請求項5に記載のテキストマイニング方法。
  8. 前記指示入力ステップは分析対象期間の設定指示を受け取り、
    前記テキスト分析ステップは、前記テキストデータのうち前記指示入力ステップで設定された分析対象期間内のテキストデータに含まれる単語に対して、前記階層的クラスター分析を行うことを特徴とする、請求項5に記載のテキストマイニング方法。
  9. 前記指示入力ステップは分析目的の設定指示を受け取り、
    前記テキスト分析ステップは、前記テキストデータから前記指示入力ステップで設定された分析目的に応じた種類の単語を抽出して、前記階層的クラスター分析を行うことを特徴とする、請求項5に記載のテキストマイニング方法。
  10. 前記指示入力ステップは単語除外指示を受け取り、
    前記テキスト分析ステップは、前記指示入力ステップで指示された単語を除外して、前記階層的クラスター分析を行うことを特徴とする、請求項5に記載のテキストマイニング方法。
  11. 前記指示入力ステップは類義語登録指示を受け取り、
    前記テキスト分析ステップは、前記指示入力ステップで指示された複数の単語を同じ単語とみなして、前記階層的クラスター分析を行うことを特徴とする、請求項5に記載のテキストマイニング方法。
  12. 前記指示入力ステップは複合語登録指示を受け取り、
    前記テキスト分析ステップは、前記指示入力ステップで指示された複数の単語を1個の単語に併合して、前記階層的クラスター分析を行うことを特徴とする、請求項5に記載のテキストマイニング方法。
  13. 前記画面生成ステップは、前記グループを含む分析結果画面と、前記分析結果画面の表示態様を設定するための分析設定画面とを表示するための画面データを生成することを特徴とする、請求項1に記載のテキストマイニング方法。
  14. テキストデータの分析結果を画面に表示するテキストマイニングプログラムであって、
    入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行うテキスト分析ステップと、
    前記テキスト分析ステップによる分析結果に基づき、画面データを生成する画面生成ステップと、
    前記画面データに基づき、画面を表示する分析結果表示ステップとをコンピュータにCPUがメモリを利用して実行させ、
    前記画面生成ステップは、グループ数とグループ内の最大データ数とに基づき、前記分析結果から前記グループ数のクラスターを求め、前記クラスターに含まれる単語を前記最大データ数以下含むグループを画面に表示するための画面データを生成することを特徴とする、テキストマイニングプログラム。
  15. 前記グループに含まれる単語は、前記グループに対応するクラスターに含まれる単語の中から出現頻度が高い順に選択されることを特徴とする、請求項14に記載のテキストマイニングプログラム。
  16. 前記グループは、前記画面内で、前記グループに対応するクラスターに含まれる単語の出現頻度の合計に応じたサイズを有することを特徴とする、請求項15に記載のテキストマイニングプログラム。
  17. 前記グループに含まれる単語は、前記画面内で、前記単語の出現頻度に応じたサイズを有することを特徴とする、請求項16に記載のテキストマイニングプログラム。
  18. 利用者からの指示を入力するための指示入力ステップを前記コンピュータにさらに実行させ、
    前記テキスト分析ステップおよび前記画面生成ステップのいずれかが、前記指示入力ステップで入力された指示に基づき実行されることを特徴とする、請求項14に記載のテキストマイニングプログラム。
  19. 前記画面生成ステップは、前記グループを含む分析結果画面と、前記分析結果画面の表示態様を設定するための分析設定画面とを表示するための画面データを生成することを特徴とする、請求項14に記載のテキストマイニングプログラム。
  20. テキストデータの分析結果を画面に表示するテキストマイニング装置であって、
    入力されたテキストデータから抽出した単語に対して階層的クラスター分析を行うテキスト分析部と、
    前記テキスト分析部による分析結果に基づき、画面データを生成する画面生成部と、
    前記画面データに基づき、画面を表示する分析結果表示部とを備え、
    前記画面生成部は、グループ数とグループ内の最大データ数とに基づき、前記分析結果から前記グループ数のクラスターを求め、前記クラスターに含まれる単語を前記最大データ数以下含むグループを画面に表示するための画面データを生成することを特徴とする、テキストマイニング装置。
  21. 前記グループに含まれる単語は、前記グループに対応するクラスターに含まれる単語の中から出現頻度が高い順に選択されることを特徴とする、請求項20に記載のテキストマイニング装置。
  22. 前記グループは、前記画面内で、前記グループに対応するクラスターに含まれる単語の出現頻度の合計に応じたサイズを有することを特徴とする、請求項21に記載のテキストマイニング装置。
  23. 前記グループに含まれる単語は、前記画面内で、前記単語の出現頻度に応じたサイズを有することを特徴とする、請求項22に記載のテキストマイニング装置。
  24. 利用者からの指示を入力するための指示入力部をさらに備え、
    前記テキスト分析部および前記画面生成部のいずれかが、前記指示入力部で入力された指示に基づき動作することを特徴とする、請求項20に記載のテキストマイニング装置。
  25. 前記画面生成部は、前記グループを含む分析結果画面と、前記分析結果画面の表示態様を設定するための分析設定画面とを表示するための画面データを生成することを特徴とする、請求項20に記載のテキストマイニング装置。
JP2016145065A 2016-07-25 2016-07-25 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置 Active JP6794162B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2016145065A JP6794162B2 (ja) 2016-07-25 2016-07-25 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
PCT/JP2017/020922 WO2018020842A1 (ja) 2016-07-25 2017-06-06 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
CN201780043375.8A CN109478191B (zh) 2016-07-25 2017-06-06 文本挖掘方法、记录介质及文本挖掘装置
KR1020197000933A KR102180487B1 (ko) 2016-07-25 2017-06-06 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
TW106122011A TWI686716B (zh) 2016-07-25 2017-06-30 文字探勘方法、記錄有文字探勘程式之電腦可讀取之記錄媒體及文字探勘裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016145065A JP6794162B2 (ja) 2016-07-25 2016-07-25 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Publications (2)

Publication Number Publication Date
JP2018018118A true JP2018018118A (ja) 2018-02-01
JP6794162B2 JP6794162B2 (ja) 2020-12-02

Family

ID=61015910

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016145065A Active JP6794162B2 (ja) 2016-07-25 2016-07-25 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Country Status (5)

Country Link
JP (1) JP6794162B2 (ja)
KR (1) KR102180487B1 (ja)
CN (1) CN109478191B (ja)
TW (1) TWI686716B (ja)
WO (1) WO2018020842A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019164592A (ja) * 2018-03-20 2019-09-26 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
WO2020235468A1 (ja) * 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
WO2022130547A1 (ja) * 2020-12-16 2022-06-23 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置
JP7490241B2 (ja) 2019-05-17 2024-05-27 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230065007A1 (en) * 2020-02-25 2023-03-02 Nec Corporation Item classification assistance system, method, and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6611825B1 (en) * 1999-06-09 2003-08-26 The Boeing Company Method and system for text mining using multidimensional subspaces
CN1934570B (zh) * 2004-03-18 2012-05-16 日本电气株式会社 文本挖掘装置和其方法
KR20090069874A (ko) * 2007-12-26 2009-07-01 한국과학기술정보연구원 지식맵 분석을 위한 키워드 선정 및 유사도계수 선정 방법및 그 시스템과 그 방법에 대한 컴퓨터 프로그램을 저장한기록매체
JP5022319B2 (ja) * 2008-08-04 2012-09-12 日本電信電話株式会社 テキストマイニング装置、方法、プログラム及びその記録媒体
JP5439261B2 (ja) 2010-04-01 2014-03-12 日本電信電話株式会社 クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP5545876B2 (ja) 2011-01-17 2014-07-09 日本電信電話株式会社 クエリ提供装置、クエリ提供方法及びクエリ提供プログラム
US9477704B1 (en) * 2012-12-31 2016-10-25 Teradata Us, Inc. Sentiment expression analysis based on keyword hierarchy
TW201516713A (zh) * 2013-10-16 2015-05-01 Chunghwa Telecom Co Ltd 基於群體特徵值的文件分類方法
CN104142918B (zh) * 2014-07-31 2017-04-05 天津大学 基于tf‑idf特征的短文本聚类以及热点主题提取方法
CN104504024B (zh) * 2014-12-11 2018-09-07 中国科学院计算技术研究所 基于微博内容的关键词挖掘方法及系统
CN105550365A (zh) * 2016-01-15 2016-05-04 中国科学院自动化研究所 一种基于文本主题模型的可视化分析系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991314A (ja) * 1995-07-14 1997-04-04 Fuji Xerox Co Ltd 情報探索装置
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
JP2003044491A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 知識分析システムならびに同システムにおける分析条件設定方法、分析条件保存方法および再分析処理方法
JP2005107688A (ja) * 2003-09-29 2005-04-21 Nippon Telegr & Teleph Corp <Ntt> 情報表示方法及びシステム及び情報表示プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019164592A (ja) * 2018-03-20 2019-09-26 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
KR20190110435A (ko) * 2018-03-20 2019-09-30 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
KR102175658B1 (ko) 2018-03-20 2020-11-06 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
JP7078429B2 (ja) 2018-03-20 2022-05-31 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
WO2020235468A1 (ja) * 2019-05-17 2020-11-26 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
JP6852941B1 (ja) * 2019-05-17 2021-03-31 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
US11636144B2 (en) 2019-05-17 2023-04-25 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program
JP7490241B2 (ja) 2019-05-17 2024-05-27 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
WO2022130547A1 (ja) * 2020-12-16 2022-06-23 富士通株式会社 情報処理プログラム、情報処理方法及び情報処理装置

Also Published As

Publication number Publication date
TWI686716B (zh) 2020-03-01
CN109478191B (zh) 2022-04-08
KR20190018480A (ko) 2019-02-22
TW201807597A (zh) 2018-03-01
JP6794162B2 (ja) 2020-12-02
WO2018020842A1 (ja) 2018-02-01
KR102180487B1 (ko) 2020-11-18
CN109478191A (zh) 2019-03-15

Similar Documents

Publication Publication Date Title
US10140368B2 (en) Method and apparatus for generating a recommendation page
WO2018020842A1 (ja) テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
KR20140068959A (ko) 시스템 레벨 검색 사용자 인터페이스와의 상호작용 용이화
JP2008027021A (ja) 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体。
KR20150032164A (ko) 심층적 문서 분석에 기초한 능동적 지식 안내
JP7281024B1 (ja) 求職者検索システム、情報処理方法及びプログラム
JP5268508B2 (ja) 情報処理装置及び検索方法
CN107577388B (zh) 输入界面的控制方法及装置
JP5623023B2 (ja) アイデア整理支援装置、アイデア支援方法およびコンピュータプログラム
WO2012101700A1 (ja) UI(User Interface)作成支援装置、UI作成支援方法及びプログラム
CN113010072A (zh) 搜索方法、装置、电子设备及可读存储介质
JP2017208047A (ja) 情報検索方法、情報検索装置、及びプログラム
US20160292140A1 (en) Associative input method and terminal
Nizamee et al. Visualizing the web search results with web search visualization using scatter plot
JP6488399B2 (ja) 情報提示システム、及び情報提示方法
JP6667452B2 (ja) テキスト情報の入力方法及び装置
JP5574775B2 (ja) アイデア整理支援装置およびアイデア整理支援プログラム
JP6987003B2 (ja) テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
US20220342917A1 (en) System of visualizing validity level of searching, method of visualizing validity level of searching, and carrier means
JP5870815B2 (ja) 書籍情報検索装置、書籍情報検索システム、書籍情報検索方法およびプログラム
Marcy User Study Summary 2023
Sheng et al. The research on touch gestures interaction design for personal portable computer
JP2004246709A (ja) 情報可視化装置、方法およびプログラム
JP2011034261A (ja) 電子機器及びプログラム
Kim et al. Investigation of Modality Selection and the Point of Switching: Focused on Voice and Touch Modalities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201111

R150 Certificate of patent or registration of utility model

Ref document number: 6794162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250