JP2018152023A - Text mining support method and device - Google Patents

Text mining support method and device Download PDF

Info

Publication number
JP2018152023A
JP2018152023A JP2017049728A JP2017049728A JP2018152023A JP 2018152023 A JP2018152023 A JP 2018152023A JP 2017049728 A JP2017049728 A JP 2017049728A JP 2017049728 A JP2017049728 A JP 2017049728A JP 2018152023 A JP2018152023 A JP 2018152023A
Authority
JP
Japan
Prior art keywords
screen
item
support
scatter diagram
text mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017049728A
Other languages
Japanese (ja)
Other versions
JP6829117B2 (en
Inventor
康平 西川
Kohei Nishikawa
康平 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Priority to JP2017049728A priority Critical patent/JP6829117B2/en
Priority to KR1020180013614A priority patent/KR102230102B1/en
Priority to TW107106049A priority patent/TWI692696B/en
Priority to CN201810156475.8A priority patent/CN108628928B/en
Publication of JP2018152023A publication Critical patent/JP2018152023A/en
Application granted granted Critical
Publication of JP6829117B2 publication Critical patent/JP6829117B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

PROBLEM TO BE SOLVED: To efficiently perform processing for guiding findings from a graph showing a result of correspondence analysis.SOLUTION: When a scatter diagram showing a result of correspondence analysis is displayed, a support screen in which the scatter diagram and a hint showing the way of viewing the scatter diagram are included is displayed. When a scatter diagram related to words and variables is displayed, a screen that a user instructs is displayed from among a basic screen in which no hint is included, a first support screen in which a determination method of the words in the vicinity of an original point is included as a hint, a second support screen in which a determination method of a degree of association of the words characterizing the variables is included as a hint, a third support screen in which a determination method of a degree of association of the words is included as a hint, and a fourth support screen in which a determination method of a degree of association of the variables is included as a hint.SELECTED DRAWING: Figure 7

Description

本発明は、データマイニング技術に関し、特に、テキストマイニングの実行を支援するテキストマイニング支援方法および装置に関する。   The present invention relates to a data mining technique, and more particularly to a text mining support method and apparatus for supporting execution of text mining.

近年、大量のデータに対して統計学やパターン認識などのデータ分析技術を適用し、大量のデータから知見(データの中に現れる規則など)を導くデータマイニング技術が注目されている。テキストデータを対象とするデータマイニングは、テキストマイニングと呼ばれる。以下、テキストデータに対して、データ分析技術の一種である対応分析(コレスポンデンス分析)を行う場合について考える。   In recent years, data mining technology that applies data analysis techniques such as statistics and pattern recognition to a large amount of data to derive knowledge (such as rules appearing in the data) from a large amount of data has attracted attention. Data mining for text data is called text mining. Hereinafter, a case where correspondence analysis (correspondence analysis), which is a kind of data analysis technology, is performed on text data will be considered.

対応分析では、クロス集計表に対して表頭項目と表側項目の間の相関が最大になるように各項目を並べ替える処理が行われる。対応分析を行った結果は、一般に散布図(2次元グラフ)を用いて表現される。例えば、図2に示すクロス集計表に対して対応分析を行うと、図3に示す散布図が得られる。   In the correspondence analysis, a process of rearranging each item so that the correlation between the head item and the front item is maximized with respect to the cross tabulation table is performed. The result of the correspondence analysis is generally expressed using a scatter diagram (two-dimensional graph). For example, when correspondence analysis is performed on the cross tabulation table shown in FIG. 2, a scatter diagram shown in FIG. 3 is obtained.

本願発明に関連して、特許文献1には、複数の分析ツールを用いるときの分析手順を利用者に対して提示するテキストマイニングシステムが記載されている。特許文献1に記載されたシステムを用いれば、テキストマイニングに関する知識や経験が少ない利用者でも、複数の分析ツールを好適な順序で用いて分析を行うことができる。   In relation to the present invention, Patent Document 1 describes a text mining system that presents a user with an analysis procedure when using a plurality of analysis tools. If the system described in Patent Document 1 is used, even a user who has little knowledge and experience regarding text mining can perform analysis using a plurality of analysis tools in a suitable order.

特開2005−44087号公報JP-A-2005-44087

対応分析では、散布図を求めることよりも、求めた散布図に対して考察を行い、知見を導くことのほうが重要である。しかしながら、テキストマイニングに関する知識や経験が少ない利用者は、散布図の見方が分からないので、散布図を見てもまず何を行えばよいかが分からない。このため、知識や経験が少ない利用者は、散布図から知識を導く処理を効率的に行うことができない。   In correspondence analysis, it is more important to consider the derived scatterplot and derive knowledge than to obtain the scatterplot. However, users who have little knowledge and experience regarding text mining do not know how to view the scatter diagram, and therefore do not know what to do first by looking at the scatter diagram. For this reason, a user with little knowledge and experience cannot efficiently perform the process of deriving knowledge from the scatter diagram.

特許文献1に記載されたシステムは、分析手順を利用者に対して提示するが、分析結果から知見を導く処理を支援する訳ではない。このため、特許文献1に記載されたシステムを用いても、上記の課題を解決することができない。   The system described in Patent Document 1 presents an analysis procedure to the user, but does not support the process of deriving knowledge from the analysis result. For this reason, even if it uses the system described in patent document 1, said subject cannot be solved.

それ故に、本発明は、対応分析の結果を示すグラフから知見を導く処理を効率的に行うためのテキストマイニング支援方法および装置を提供することを目的とする。   Therefore, an object of the present invention is to provide a text mining support method and apparatus for efficiently performing processing for deriving knowledge from a graph showing the result of correspondence analysis.

本発明の第1の局面は、対応分析による分析結果を表示するテキストマイニング支援方法であって、
前記分析結果を入力するステップと、
利用者からの指示を入力するステップと、
前記分析結果を示すグラフを含む画面の画面データを生成するステップと、
前記画面データに基づき、画面を表示するステップとを備え、
前記画面データを生成するステップは、前記指示に応じて、前記グラフと前記グラフの見方を示すヒントとを含む支援画面の画面データを生成することを特徴とする。
A first aspect of the present invention is a text mining support method for displaying an analysis result by correspondence analysis,
Inputting the analysis result;
Inputting instructions from the user;
Generating screen data of a screen including a graph indicating the analysis result;
And displaying a screen based on the screen data,
The step of generating the screen data generates screen data of a support screen including the graph and a hint indicating how to read the graph in response to the instruction.

本発明の第2の局面は、本発明の第1の局面において、
前記画面データを生成するステップは、複数の支援画面と、前記グラフを含み前記ヒントを含まない基本画面との中から、前記指示に応じて選択された画面の画面データを生成することを特徴とする。
According to a second aspect of the present invention, in the first aspect of the present invention,
The step of generating the screen data includes generating screen data of a screen selected according to the instruction from a plurality of support screens and a basic screen including the graph and not including the hint. To do.

本発明の第3の局面は、本発明の第2の局面において、
前記分析結果を入力するステップでは、前記分析結果として、第1項目と第2項目とを対応づけた結果であって、前記第1項目の第1成分および第2成分と、前記第2項目の第1成分および第2成分とを含む結果が入力され、
前記画面データを生成するステップは、前記グラフとして、前記第1成分を横軸、前記第2成分を縦軸とした平面内に前記第1項目と前記第2項目とをプロットした散布図を作成することを特徴とする。
According to a third aspect of the present invention, in the second aspect of the present invention,
The step of inputting the analysis result is a result of associating the first item and the second item as the analysis result, wherein the first component and the second component of the first item, and the second item A result including a first component and a second component is input;
The step of generating the screen data creates, as the graph, a scatter diagram in which the first item and the second item are plotted in a plane with the first component as the horizontal axis and the second component as the vertical axis. It is characterized by doing.

本発明の第4の局面は、本発明の第3の局面において、
前記複数の支援画面は、散布図内で原点付近の第1項目は顕著な特徴を有しない旨を前記ヒントとして含む第1支援画面を含むことを特徴とする。
According to a fourth aspect of the present invention, in the third aspect of the present invention,
The plurality of support screens include a first support screen including the hint that the first item near the origin in the scatter diagram does not have a remarkable feature.

本発明の第5の局面は、本発明の第4の局面において、
前記第1支援画面に含まれる散布図には、原点付近の範囲が図示されていることを特徴とする。
According to a fifth aspect of the present invention, in the fourth aspect of the present invention,
In the scatter diagram included in the first support screen, a range near the origin is illustrated.

本発明の第6の局面は、本発明の第3の局面において、
前記複数の支援画面は、散布図内で原点から第2項目に向かって離れる方向にある第1項目は当該第2項目を特徴づける旨を前記ヒントとして含む第2支援画面を含むことを特徴とする。
According to a sixth aspect of the present invention, in the third aspect of the present invention,
The plurality of support screens include a second support screen including, as the hint, the first item in a direction away from the origin toward the second item in the scatter diagram characterizes the second item. To do.

本発明の第7の局面は、本発明の第6の局面において、
前記第2支援画面に含まれる散布図には、原点から選択された第2項目に向かって離れる方向の範囲が図示されていることを特徴とする。
A seventh aspect of the present invention is the sixth aspect of the present invention,
In the scatter diagram included in the second support screen, a range in a direction away from the origin toward the second item selected is illustrated.

本発明の第8の局面は、本発明の第3の局面において、
前記複数の支援画面は、散布図内で距離が近い第1項目同士は類似度が高い旨を前記ヒントとして含む第3支援画面を含むことを特徴とする。
According to an eighth aspect of the present invention, in the third aspect of the present invention,
The plurality of support screens include a third support screen including, as the hint, that the first items that are close to each other in the scatter diagram have high similarity.

本発明の第9の局面は、本発明の第8の局面において、
前記第3支援画面に含まれる散布図には、選択された第1項目付近の範囲が図示されていることを特徴とする。
A ninth aspect of the present invention is the eighth aspect of the present invention,
In the scatter diagram included in the third support screen, a range in the vicinity of the selected first item is illustrated.

本発明の第10の局面は、本発明の第3の局面において、
前記複数の支援画面は、散布図内で距離が近い第2項目同士は類似度が高い旨を前記ヒントとして含む第4支援画面を含むことを特徴とする。
According to a tenth aspect of the present invention, in the third aspect of the present invention,
The plurality of support screens include a fourth support screen including, as the hint, that the second items that are close to each other in the scatter diagram have high similarity.

本発明の第11の局面は、本発明の第10の局面において、
前記第4支援画面に含まれる散布図には、選択された第2項目から最も距離が近い第2項目を示す印が図示されていることを特徴とする。
An eleventh aspect of the present invention is the tenth aspect of the present invention,
In the scatter diagram included in the fourth support screen, a mark indicating the second item closest to the selected second item is shown.

本発明の第12の局面は、本発明の第3の局面において、
前記分析結果を入力するステップでは、前記分析結果として、単語を前記第1項目、文章の部分を前記第2項目、文章の各部分における各単語の出現頻度を表内データとするクロス集計表に対して対応分析を行った結果が入力されることを特徴とする。
A twelfth aspect of the present invention is the third aspect of the present invention,
In the step of inputting the analysis result, the analysis result is a cross tabulation table in which the word is the first item, the sentence part is the second item, and the appearance frequency of each word in each part of the sentence is in-table data. The result of the corresponding analysis is input.

本発明の第13の局面は、対応分析による分析結果を表示するテキストマイニング支援装置であって、
前記分析結果を入力するための分析結果入力部と、
利用者からの指示を入力するための指示入力部と、
前記分析結果を示すグラフを含む画面の画面データを生成する画面生成部と、
前記画面データに基づき、画面を表示する分析結果表示部とを備え、
前記画面生成部は、前記指示に応じて、前記グラフと前記グラフの見方を示すヒントとを含む支援画面の画面データを生成することを特徴とする。
A thirteenth aspect of the present invention is a text mining support device for displaying an analysis result by correspondence analysis,
An analysis result input unit for inputting the analysis result;
An instruction input unit for inputting instructions from the user;
A screen generator that generates screen data of a screen including a graph indicating the analysis result;
An analysis result display unit for displaying a screen based on the screen data;
The screen generation unit generates screen data of a support screen including the graph and a hint indicating how to read the graph in response to the instruction.

本発明の第14の局面は、本発明の第13の局面において、
前記画面生成部は、複数の支援画面と、前記グラフを含み前記ヒントを含まない基本画面との中から、前記指示に応じて選択された画面の画面データを生成することを特徴とする。
A fourteenth aspect of the present invention is the thirteenth aspect of the present invention,
The screen generation unit generates screen data of a screen selected according to the instruction from a plurality of support screens and a basic screen including the graph and not including the hint.

本発明の第15の局面は、本発明の第14の局面において、
前記分析結果入力部には、前記分析結果として、第1項目と第2項目とを対応づけた結果であって、前記第1項目の第1成分および第2成分と、前記第2項目の第1成分および第2成分とを含む結果が入力され、
前記画面生成部は、前記グラフとして、前記第1成分を横軸、前記第2成分を縦軸とした平面内に前記第1項目と前記第2項目とをプロットした散布図を作成することを特徴とする。
A fifteenth aspect of the present invention is the fourteenth aspect of the present invention,
The analysis result input unit is a result of associating the first item and the second item as the analysis result, and includes the first component and the second component of the first item, and the second item of the second item. A result including a first component and a second component is input;
The screen generation unit creates, as the graph, a scatter diagram in which the first item and the second item are plotted in a plane having the first component as a horizontal axis and the second component as a vertical axis. Features.

本発明の第16の局面は、本発明の第15の局面において、
前記分析結果入力部には、前記分析結果として、単語を前記第1項目、文章の部分を前記第2項目、文章の各部分における各単語の出現頻度を表内データとするクロス集計表に対して対応分析を行った結果が入力されることを特徴とする。
A sixteenth aspect of the present invention is the fifteenth aspect of the present invention,
In the analysis result input unit, as the analysis result, a word is the first item, a sentence part is the second item, and a frequency of each word in each part of the sentence is an in-table data. The result of the correspondence analysis is input.

上記第1または第13の局面によれば、利用者は、対応分析の結果を示すグラフとグラフの見方を示すヒントとを含む支援画面を用いて、対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   According to the first or thirteenth aspect, the user derives knowledge from the graph indicating the result of the correspondence analysis using the support screen including the graph indicating the result of the correspondence analysis and the hint indicating how to read the graph. Processing can be performed efficiently.

上記第2または第14の局面によれば、ヒントを含む支援画面とヒントを含まない基本画面とを選択的に表示することにより、利用者のレベルに応じた画面を表示することができる。また、複数の支援画面を選択的に表示することにより、利用者に対してグラフの見方を複数とおり提示することができる。   According to the second or fourteenth aspect, by selectively displaying the support screen including the hint and the basic screen not including the hint, a screen according to the level of the user can be displayed. In addition, by selectively displaying a plurality of support screens, the user can be presented with a plurality of ways of viewing the graph.

上記第3または第15の局面によれば、利用者は、第1項目と第2項目に関する対応分析の結果を示す散布図から知見を導く処理を効率的に行うことができる。   According to the third or fifteenth aspect, the user can efficiently perform the process of deriving knowledge from the scatter diagram showing the result of the correspondence analysis regarding the first item and the second item.

上記第4の局面によれば、利用者は、散布図内で原点付近の第1項目は顕著な特徴を有しないという知識を用いて、対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   According to the fourth aspect, the user efficiently uses the knowledge that the first item in the vicinity of the origin in the scatter diagram does not have a prominent feature to efficiently perform the process of deriving knowledge from the graph indicating the result of the correspondence analysis. Can be done automatically.

上記第5の局面によれば、利用者は、図示された範囲を見て、顕著な特徴を有しない第1項目を容易に知ることができる。   According to the fifth aspect, the user can easily know the first item having no remarkable features by looking at the illustrated range.

上記第6の局面によれば、利用者は、散布図内で原点から第2項目に向かって離れる方向にある第1項目は当該第2項目を特徴づけるという知識を用いて、対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   According to the sixth aspect, the user uses the knowledge that the first item in the direction away from the origin toward the second item in the scatter diagram characterizes the second item, and results of the correspondence analysis. Thus, it is possible to efficiently perform the process of deriving knowledge from the graph indicating the above.

上記第7の局面によれば、利用者は、図示された範囲を見て、選択された第2項目を特徴づける第1項目を容易に知ることができる。   According to the seventh aspect, the user can easily know the first item characterizing the selected second item by looking at the illustrated range.

上記第8の局面によれば、利用者は、散布図内で距離が近い第1項目同士は類似度が高いという知識を用いて、対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   According to the eighth aspect, the user efficiently uses the knowledge that the first items that are close to each other in the scatter diagram have a high degree of similarity to perform the process of deriving knowledge from the graph indicating the result of the correspondence analysis. Can be done.

上記第9の局面によれば、利用者は、図示された範囲を見て、選択された第1項目と類似度が高い第1項目を容易に知ることができる。   According to the ninth aspect, the user can easily know the first item having a high degree of similarity to the selected first item by looking at the illustrated range.

上記第10の局面によれば、利用者は、散布図内で距離が近い第2項目同士は類似度が高いという知識を用いて、対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   According to the tenth aspect, the user efficiently uses the knowledge that the second items that are close to each other in the scatter diagram have a high degree of similarity to perform the process of deriving knowledge from the graph indicating the result of the correspondence analysis. Can be done.

上記第11の局面によれば、利用者は、図示された印を見て、選択された第2項目と最も類似度が高い第2項目を容易に知ることができる。   According to the eleventh aspect, the user can easily know the second item having the highest degree of similarity with the selected second item by looking at the illustrated mark.

上記第12または第18の局面によれば、利用者は、単語と文章の部分に関する対応分析の結果を示す散布図から知見を導く処理を効率的に行うことができる。   According to the twelfth or eighteenth aspect, the user can efficiently perform the process of deriving knowledge from the scatter diagram showing the result of the correspondence analysis regarding the word and sentence portions.

本発明の実施形態に係るテキストマイニング支援装置の構成を示すブロック図である。It is a block diagram which shows the structure of the text mining assistance apparatus which concerns on embodiment of this invention. 対応分析の対象となるクロス集計表を示す図である。It is a figure which shows the cross tabulation table | surface used as the object of correspondence analysis. 図1に示すテキストマイニング支援装置で作成される散布図を示す図である。It is a figure which shows the scatter diagram produced with the text mining assistance apparatus shown in FIG. 図1に示すテキストマイニング支援装置として機能するコンピュータの構成を示すブロック図である。It is a block diagram which shows the structure of the computer which functions as a text mining assistance apparatus shown in FIG. 図1に示すテキストマイニング支援装置の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the text mining assistance apparatus shown in FIG. 図1に示すテキストマイニング支援装置の基本画面を示す図である。It is a figure which shows the basic screen of the text mining assistance apparatus shown in FIG. 図1に示すテキストマイニング支援装置の第1支援画面を示す図である。It is a figure which shows the 1st assistance screen of the text mining assistance apparatus shown in FIG. 図1に示すテキストマイニング支援装置の第2支援画面を示す図である。It is a figure which shows the 2nd assistance screen of the text mining assistance apparatus shown in FIG. 図1に示すテキストマイニング支援装置の第3支援画面を示す図である。It is a figure which shows the 3rd assistance screen of the text mining assistance apparatus shown in FIG. 図1に示すテキストマイニング支援装置の第4支援画面を示す図である。It is a figure which shows the 4th assistance screen of the text mining assistance apparatus shown in FIG.

以下、図面を参照して、本発明の実施形態に係るテキストマイニング支援方法、テキストマイニング支援装置、および、テキストマイニング支援プログラムについて説明する。本実施形態に係るテキストマイニング支援方法は、典型的にはコンピュータを用いて実行される。本実施形態に係るテキストマイニング支援装置は、典型的にはコンピュータを用いて構成される。本実施形態に係るテキストマイニング支援プログラムは、コンピュータを用いてテキストマイニング支援方法を実施するためのプログラムである。テキストマイニング支援プログラムを実行するコンピュータは、テキストマイニング支援装置として機能する。   Hereinafter, a text mining support method, a text mining support device, and a text mining support program according to an embodiment of the present invention will be described with reference to the drawings. The text mining support method according to the present embodiment is typically executed using a computer. The text mining support device according to the present embodiment is typically configured using a computer. The text mining support program according to the present embodiment is a program for implementing the text mining support method using a computer. A computer that executes the text mining support program functions as a text mining support device.

図1は、本発明の実施形態に係るテキストマイニング支援装置の構成を示すブロック図である。図1に示すテキストマイニング支援装置10は、分析結果入力部11、指示入力部12、画面生成部13、および、分析結果表示部14を備えている。テキストマイニング支援装置10には、テキストデータに対して対応分析を行った結果が入力される。テキストマイニング支援装置10は、入力された分析結果を示す散布図を画面に表示する。   FIG. 1 is a block diagram showing a configuration of a text mining support apparatus according to an embodiment of the present invention. A text mining support apparatus 10 shown in FIG. 1 includes an analysis result input unit 11, an instruction input unit 12, a screen generation unit 13, and an analysis result display unit 14. The text mining support device 10 receives the result of the correspondence analysis performed on the text data. The text mining support device 10 displays a scatter diagram showing the input analysis result on the screen.

図1では、テキストマイニング支援装置10の前段にテキスト分析装置5が設けられている。テキスト分析装置5には、テキストデータ1が入力される。以下の説明では、テキストデータ1は、複数の部分(以下、「章」という)を有する文章データであるとする。また、対応分析を行う場面では「章」を「変数」ともいう。テキスト分析装置5は、テキストデータ1に含まれる単語を抽出し、単語を表側項目、章を表頭項目、各章における各単語の出現頻度を表内データとするクロス集計表を作成する。テキスト分析装置5は、作成したクロス集計表に対して対応分析を行い、分析結果2を出力する。対応分析を行うと、処理対象データの特徴を表す2個以上の成分が得られる。分析結果2には、少なくとも、各単語の第1および第2成分、各変数の第1および第2成分、第1成分の寄与率、並びに、第2成分の寄与率が含まれる。   In FIG. 1, a text analysis device 5 is provided in front of the text mining support device 10. Text data 1 is input to the text analysis device 5. In the following description, it is assumed that the text data 1 is text data having a plurality of parts (hereinafter referred to as “chapter”). Also, in the scene where correspondence analysis is performed, “chapter” is also referred to as “variable”. The text analysis device 5 extracts words included in the text data 1 and creates a cross tabulation table with the words as front-side items, chapters as head items, and the appearance frequency of each word in each chapter as in-table data. The text analysis device 5 performs correspondence analysis on the created cross tabulation table and outputs an analysis result 2. When the correspondence analysis is performed, two or more components representing the characteristics of the processing target data are obtained. The analysis result 2 includes at least the first and second components of each word, the first and second components of each variable, the contribution rate of the first component, and the contribution rate of the second component.

図2は、対応分析の対象となるクロス集計表を示す図である。図2に示すクロス集計表は、テキスト分析装置5に小説「人間失格」の文章データをテキストデータ1として入力することにより作成される。この小説は、「はしがき」「第一の手記」「第二の手記」「第三の手記」および「あとがき」の5個の章を有し、「自分」「人間」「ヒラメ」「気持」などの単語を含む。図2に示すクロス集計表は、表側項目として「自分」「人間」「ヒラメ」「気持」などの単語を含み、表頭項目として「はしがき」「第一の手記」「第二の手記」「第三の手記」および「あとがき」の5個の変数(章)を含む。「第一の手記」には、単語「人間」が38回現れる。これに対応して図2に示すクロス集計表では、表側項目が「人間」、表頭項目が「第一の手記」の欄(斜線部)に38と記載されている。なお、対応分析を好適に行うために、図2に示すクロス集計表には所定以上の出現頻度を有する単語だけが含まれている。   FIG. 2 is a diagram illustrating a cross tabulation table to be subjected to correspondence analysis. The cross tabulation table shown in FIG. 2 is created by inputting the text data of the novel “personal disqualification” as text data 1 into the text analysis device 5. This novel has five chapters: “Foreword”, “First Note”, “Second Note”, “Third Note”, and “Afterword”, “Self”, “Human”, “Flounder”, “ It includes words such as “feeling”. The cross tabulation table shown in FIG. 2 includes words such as “self”, “human”, “flounder”, and “feeling” as front side items, and “Foreword”, “first note”, and “second note” as front items. It includes five variables (chapters), “Third note” and “Afterword”. In the “first note”, the word “human” appears 38 times. Correspondingly, in the cross tabulation table shown in FIG. 2, “38” is written in the column (hatched portion) of the front item “Human” and the front item “First Manual”. In order to suitably perform the correspondence analysis, the cross tabulation table shown in FIG. 2 includes only words having an appearance frequency equal to or higher than a predetermined value.

図3は、テキストマイニング支援装置10で作成される散布図を示す図である。上述したように、テキストマイニング支援装置10に入力される分析結果2には、少なくとも、各単語の第1および第2成分、各変数の第1および第2成分、第1成分の寄与率、並びに、第2成分の寄与率が含まれる。画面生成部13は、第1成分を横軸、第2成分を縦軸とした平面内に、単語と変数をプロットすることにより散布図を作成する。例えば、図2に示すクロス集計表についての分析結果2に基づき、図3に示す散布図が作成される。分析結果表示部14は、作成された散布図を含む画面を表示する。   FIG. 3 is a diagram illustrating a scatter diagram created by the text mining support apparatus 10. As described above, the analysis result 2 input to the text mining support device 10 includes at least the first and second components of each word, the first and second components of each variable, the contribution ratio of the first component, and , The contribution ratio of the second component is included. The screen generation unit 13 creates a scatter plot by plotting words and variables in a plane with the first component as the horizontal axis and the second component as the vertical axis. For example, the scatter diagram shown in FIG. 3 is created based on the analysis result 2 for the cross tabulation table shown in FIG. The analysis result display unit 14 displays a screen including the created scatter diagram.

図3では、単語の位置に黒塗りの円、変数の位置に白抜きの正方形が記載され、単語は標準体で、変数は斜体で記載されている。図3には、第1成分の寄与率と第2成分の寄与率が記載されている。一般に、第1成分の寄与率は、第2成分の寄与率よりも大きい。この点を考慮して、散布図内の2点P(p1 ,p2 )、Q(q1 ,q2 )間の距離dは、第1成分の寄与率k1 と第2成分の寄与率k2 を用いて次式(1)のように定義される。
d=√[{k1(p1−q1)}2+{k2(p2−q2)}2] …(1)
以下の説明における距離とは、式(1)で定義される散布図内での距離をいう。散布図内に記載された円は、第1成分方向の長さが第2成分方向の長さより短い楕円に見える。
In FIG. 3, black circles are written at word positions, white squares are written at variable positions, words are written in standard font, and variables are written in italic font. FIG. 3 shows the contribution ratio of the first component and the contribution ratio of the second component. In general, the contribution ratio of the first component is larger than the contribution ratio of the second component. Considering this point, the distance d between the two points P (p 1 , p 2 ) and Q (q 1 , q 2 ) in the scatter diagram is the contribution ratio k 1 of the first component and the contribution of the second component. It is defined as the following equation (1) using the rate k 2 .
d = √ [{k 1 (p 1 −q 1 )} 2 + {k 2 (p 2 −q 2 )} 2 ] (1)
The distance in the following description refers to the distance in the scatter diagram defined by the equation (1). The circle described in the scatter diagram looks like an ellipse whose length in the first component direction is shorter than the length in the second component direction.

図4は、テキストマイニング支援装置10として機能するコンピュータの構成を示すブロック図である。図4に示すコンピュータ20は、CPU21、メインメモリ22、記憶部23、入力部24、表示部25、通信部26、および、記録媒体読み取り部27を備えている。メインメモリ22には、例えば、DRAMが使用される。記憶部23には、例えば、ハードディスクやソリッドステートドライブが使用される。入力部24には、例えば、キーボード28やマウス29が含まれる。表示部25には、例えば、液晶ディスプレイが使用される。通信部26は、有線通信または無線通信のインターフェイス回路である。記録媒体読み取り部27は、プログラムなどを記憶した記録媒体30のインターフェイス回路である。記録媒体30には、例えば、CD−ROM、DVD−ROMなどの非一過性の記録媒体が使用される。   FIG. 4 is a block diagram illustrating a configuration of a computer that functions as the text mining support device 10. A computer 20 shown in FIG. 4 includes a CPU 21, a main memory 22, a storage unit 23, an input unit 24, a display unit 25, a communication unit 26, and a recording medium reading unit 27. For example, a DRAM is used as the main memory 22. For the storage unit 23, for example, a hard disk or a solid state drive is used. The input unit 24 includes a keyboard 28 and a mouse 29, for example. For example, a liquid crystal display is used for the display unit 25. The communication unit 26 is an interface circuit for wired communication or wireless communication. The recording medium reading unit 27 is an interface circuit of the recording medium 30 that stores programs and the like. As the recording medium 30, for example, a non-transitory recording medium such as a CD-ROM or a DVD-ROM is used.

コンピュータ20がテキストマイニング支援プログラム31を実行する場合、記憶部23は、テキストマイニング支援プログラム31と分析結果2を記憶する。テキストマイニング支援プログラム31と分析結果2は、例えば、サーバや他のコンピュータから通信部26を用いて受信したものでもよく、記録媒体30から記録媒体読み取り部27を用いて読み出したものでもよい。   When the computer 20 executes the text mining support program 31, the storage unit 23 stores the text mining support program 31 and the analysis result 2. The text mining support program 31 and the analysis result 2 may be received from the server or another computer using the communication unit 26, or read from the recording medium 30 using the recording medium reading unit 27, for example.

テキストマイニング支援プログラム31を実行するときには、テキストマイニング支援プログラム31と分析結果2はメインメモリ22に複写転送される。CPU21は、メインメモリ22を作業用メモリとして利用して、メインメモリ22に記憶されたテキストマイニング支援プログラム31を実行することにより、メインメモリ22に記憶された分析結果2を処理する。このときコンピュータ20は、テキストマイニング支援装置10として機能する。なお、以上に述べたコンピュータ20の構成は一例に過ぎず、任意のコンピュータを用いてテキストマイニング支援装置10を構成することができる。   When the text mining support program 31 is executed, the text mining support program 31 and the analysis result 2 are copied and transferred to the main memory 22. The CPU 21 processes the analysis result 2 stored in the main memory 22 by executing the text mining support program 31 stored in the main memory 22 by using the main memory 22 as a working memory. At this time, the computer 20 functions as the text mining support device 10. The configuration of the computer 20 described above is merely an example, and the text mining support device 10 can be configured using an arbitrary computer.

テキストマイニングに関する知識や経験を有する利用者は、対応分析の結果を示す散布図について、以下のような知識を有する。知識や経験を有する利用者は、これらの知識を用いて散布図から知見を導くことができる。
第1の知識「原点付近の単語は、顕著な特徴を有しない。」
第2の知識「原点から変数に向かって離れる方向にある単語は、当該変数との関連度が高く、当該変数を特徴づける。」
第3の知識「距離が近い単語同士は類似度が高い。」
第4の知識「距離が近い変数同士は類似度が高い。」
A user who has knowledge and experience regarding text mining has the following knowledge about a scatter diagram showing the result of correspondence analysis. Users with knowledge and experience can use this knowledge to derive knowledge from the scatter plot.
First knowledge “words near the origin do not have significant features.”
Second knowledge “words in a direction away from the origin toward the variable have a high degree of association with the variable and characterize the variable.”
Third knowledge “words close to each other have high similarity”
Fourth knowledge “variables with close distances have high similarity.”

一方、テキストマイニングに関する知識や経験が少ない利用者は、上記のような知識を有しない。このため、知識や経験が少ない利用者は、散布図から知見を導く処理を効率的に行うことができない。この問題を解決するために、テキストマイニング支援装置10は、散布図を含む画面を基本画面として表示するだけでなく、利用者からの指示に応じて、散布図と散布図の見方を示すヒントとを含む画面を支援画面として表示する。   On the other hand, a user who has little knowledge and experience regarding text mining does not have such knowledge. For this reason, a user with little knowledge and experience cannot efficiently perform the process of deriving knowledge from the scatter diagram. In order to solve this problem, the text mining support device 10 not only displays a screen including a scatter diagram as a basic screen, but also a hint indicating how to read the scatter diagram and the scatter diagram according to an instruction from the user. Display a screen that contains as a support screen.

図1を参照して、テキストマイニング支援装置10の各部の動作を説明する。分析結果入力部11には、外部の装置(例えば、テキスト分析装置5)から出力された分析結果2が入力される。指示入力部12には、利用者からの指示が入力される。画面生成部13は、分析結果2を示す散布図を作成し、散布図を含む画面の画面データを生成する。画面生成部13は、指示入力部12を用いて入力された利用者からの指示に応じて、散布図およびヒントを含む支援画面の画面データと、散布図を含みヒントを含まない基本画面の画面データとを選択的に作成する。分析結果表示部14は、画面生成部13で生成された画面データに基づき画面を表示する。以下、テキストマイニング支援装置10で表示される支援画面は4種類であるとし、4種類の支援画面を第1〜第4支援画面という。   With reference to FIG. 1, operation | movement of each part of the text mining assistance apparatus 10 is demonstrated. The analysis result input unit 11 receives the analysis result 2 output from an external device (for example, the text analysis device 5). The instruction input unit 12 receives an instruction from the user. The screen generation unit 13 creates a scatter diagram showing the analysis result 2 and generates screen data of a screen including the scatter diagram. In response to an instruction from the user input using the instruction input unit 12, the screen generation unit 13 includes screen data of a support screen including a scatter diagram and a hint, and a screen of a basic screen including a scatter diagram and not including a hint Selectively create data. The analysis result display unit 14 displays a screen based on the screen data generated by the screen generation unit 13. Hereinafter, there are four types of support screens displayed on the text mining support device 10, and the four types of support screens are referred to as first to fourth support screens.

図5は、テキストマイニング支援装置10の動作を示すフローチャートである。まず、CPU21は、テキスト分析装置5から出力された分析結果2をメインメモリ22に転送する。これにより、テキストマイニング支援装置10に分析結果2が入力される(ステップS101)。次に、CPU21は、分析結果2に基づき散布図を作成する(ステップS102)。散布図は、第1成分を横軸、第2成分を縦軸とした平面内に、単語と変数をプロットすることにより作成される。次に、CPU21は、ステップS102で作成された散布図を含む基本画面の画面データを作成する(ステップS103)。次に、CPU21は、ステップS103で作成された画面データに基づき、表示部25に基本画面を表示させる(ステップS104)。   FIG. 5 is a flowchart showing the operation of the text mining support apparatus 10. First, the CPU 21 transfers the analysis result 2 output from the text analysis device 5 to the main memory 22. Thereby, the analysis result 2 is input to the text mining support device 10 (step S101). Next, the CPU 21 creates a scatter diagram based on the analysis result 2 (step S102). A scatter diagram is created by plotting words and variables in a plane with the first component on the horizontal axis and the second component on the vertical axis. Next, the CPU 21 creates screen data of a basic screen including the scatter diagram created in step S102 (step S103). Next, the CPU 21 displays a basic screen on the display unit 25 based on the screen data created in step S103 (step S104).

図6は、基本画面を示す図である。図6に示す基本画面100は、画面選択ウインドウ101と散布図ウインドウ102を含んでいる。散布図ウインドウ102には、図3に示す散布図が記載される。画面選択ウインドウ101は、6個のラジオボタン103を有する。以下、6個のラジオボタン103を第1〜第6ラジオボタンという。第1〜第6ラジオボタンは、それぞれ、基本画面、第1〜第4支援画面、および、終了に対応づけられる。基本画面100が表示されたときに、利用者は、キーボード28またはマウス29を操作して、第1〜第6ラジオボタンのうちいずれかを押す。これにより、利用者からの指示が入力される。   FIG. 6 is a diagram showing a basic screen. A basic screen 100 shown in FIG. 6 includes a screen selection window 101 and a scatter diagram window 102. The scatter diagram shown in FIG. 3 is written in the scatter diagram window 102. The screen selection window 101 has six radio buttons 103. Hereinafter, the six radio buttons 103 are referred to as first to sixth radio buttons. The first to sixth radio buttons are associated with the basic screen, the first to fourth support screens, and the end, respectively. When the basic screen 100 is displayed, the user operates the keyboard 28 or the mouse 29 to press one of the first to sixth radio buttons. Thereby, an instruction from the user is input.

CPU21は、画面選択ウインドウ101を用いて入力された利用者からの指示を受け取る(ステップS105)。次に、CPU21は、利用者からの指示に応じて、以下のいずれかのステップに進む(ステップS106)。利用者からの指示が「基本画面」である場合(第1ラジオボタンが押された場合)、CPU21はステップS107へ進む。この場合、CPU21は、ステップS103と同様に、基本画面の画面データを生成する(ステップS107)。利用者からの指示が「第1支援画面」である場合(第2ラジオボタンが押された場合)、CPU21はステップS108へ進む。この場合、CPU21は、第1支援画面の画面データを生成する(ステップS108)。利用者からの指示が「第2支援画面」である場合(第3ラジオボタンが押された場合)、CPU21はステップS109へ進む。この場合、CPU21は、第2支援画面の画面データを生成する(ステップS109)。利用者からの指示が「第3支援画面」である場合(第4ラジオボタンが押された場合)、CPU21はステップS110へ進む。この場合、CPU21は、第3支援画面の画面データを生成する(ステップS110)。利用者からの指示が「第4支援画面」である場合(第5ラジオボタンが押された場合)、CPU21はステップS111へ進む。この場合、CPU21は、第4支援画面の画面データを生成する(ステップS111)。利用者からの指示が「終了」である場合(第6ラジオボタンが押された場合)、CPU21は処理を終了する。   The CPU 21 receives an instruction from the user input using the screen selection window 101 (step S105). Next, the CPU 21 proceeds to one of the following steps in accordance with an instruction from the user (step S106). When the instruction from the user is “basic screen” (when the first radio button is pressed), the CPU 21 proceeds to step S107. In this case, the CPU 21 generates screen data of the basic screen as in step S103 (step S107). When the instruction from the user is the “first support screen” (when the second radio button is pressed), the CPU 21 proceeds to step S108. In this case, the CPU 21 generates screen data of the first support screen (step S108). When the instruction from the user is the “second support screen” (when the third radio button is pressed), the CPU 21 proceeds to step S109. In this case, the CPU 21 generates screen data for the second support screen (step S109). When the instruction from the user is the “third support screen” (when the fourth radio button is pressed), the CPU 21 proceeds to step S110. In this case, the CPU 21 generates screen data for the third support screen (step S110). When the instruction from the user is the “fourth support screen” (when the fifth radio button is pressed), the CPU 21 proceeds to step S111. In this case, the CPU 21 generates screen data for the fourth support screen (step S111). When the instruction from the user is “end” (when the sixth radio button is pressed), the CPU 21 ends the process.

CPU21は、ステップS107〜S111のいずれかを実行した後、ステップS112へ進む。次に、CPU21は、ステップS107〜S111のいずれかで作成された画面データに基づき、表示部25に画面を表示させる(ステップS112)。次に、CPU21は、ステップS105へ進む。このようにテキストマイニング支援装置10は、利用者からの指示に応じて、基本画面と第1〜第4支援画面の中から選択された画面を表示する。   After executing any of steps S107 to S111, the CPU 21 proceeds to step S112. Next, the CPU 21 displays a screen on the display unit 25 based on the screen data created in any of steps S107 to S111 (step S112). Next, the CPU 21 proceeds to step S105. As described above, the text mining support device 10 displays a screen selected from the basic screen and the first to fourth support screens in accordance with an instruction from the user.

なお、図4に示すコンピュータ20の構成要素および図5に示すステップと、図1に示すテキストマイニング支援装置10の構成要素とは、以下のように対応する。ステップS101を実行するCPU21は、分析結果入力部11として機能する。入力部24およびステップS105を実行するCPU21は、指示入力部12として機能する。ステップS102〜S103、S106〜S111を実行するCPU21は、画面生成部13として機能する。表示部25およびステップS104、S112を実行するCPU21は、分析結果表示部14として機能する。   The components of the computer 20 shown in FIG. 4 and the steps shown in FIG. 5 correspond to the components of the text mining support apparatus 10 shown in FIG. 1 as follows. The CPU 21 that executes step S <b> 101 functions as the analysis result input unit 11. The CPU 21 that executes the input unit 24 and step S105 functions as the instruction input unit 12. The CPU 21 that executes steps S102 to S103 and S106 to S111 functions as the screen generation unit 13. The display unit 25 and the CPU 21 that executes steps S104 and S112 function as the analysis result display unit 14.

図7は、第1支援画面を示す図である。図7に示す第1支援画面110は、画面選択ウインドウ101、散布図ウインドウ112、単語リストウインドウ113、および、ヒントウインドウ114を含んでいる。第1支援画面110は、第1の知識「原点付近の単語は、顕著な特徴を有しない。」に関する。利用者は、第1支援画面110を見て、第1の知識を用いて散布図から知見を導く処理を効率的に行うことができる。   FIG. 7 is a diagram illustrating the first support screen. The first support screen 110 shown in FIG. 7 includes a screen selection window 101, a scatter diagram window 112, a word list window 113, and a hint window 114. The first support screen 110 relates to the first knowledge “words near the origin do not have a prominent feature”. The user can efficiently perform the process of deriving knowledge from the scatter diagram using the first knowledge by looking at the first support screen 110.

第1支援画面110が表示される前に、利用者は、キーボード28またはマウス29を操作して、原点付近と判断される範囲を指定する。原点付近と判断される範囲の初期値は、予め決定されていてもよい。散布図ウインドウ112には、図3に示す散布図が記載される。散布図ウインドウ112内の散布図には、原点付近を示す円115(外見は楕円)が記載される。円115は、散布図とは異なる色(例えば、赤)で記載することが好ましい。このように第1支援画面110に含まれる散布図には、原点付近の範囲が円115を用いて図示されている。したがって、利用者は、図示された範囲を見て、顕著な特徴を有しない単語を容易に知ることができる。   Before the first support screen 110 is displayed, the user operates the keyboard 28 or the mouse 29 to designate a range determined to be near the origin. The initial value of the range determined to be near the origin may be determined in advance. In the scatter diagram window 112, the scatter diagram shown in FIG. 3 is described. In the scatter diagram in the scatter diagram window 112, a circle 115 (appearance is an ellipse) indicating the vicinity of the origin is described. The circle 115 is preferably described in a different color (for example, red) from the scatter diagram. Thus, in the scatter diagram included in the first support screen 110, the range near the origin is illustrated using the circle 115. Therefore, the user can easily know a word that does not have a remarkable feature by looking at the illustrated range.

単語リストウインドウ113には、原点付近にある単語(円115内の単語)と当該単語の原点からの距離とを、距離が近い順に並べた単語リストが記載される。単語リストウインドウ113内の上向き三角形は、距離が近い順に並べられていることを示す。ヒントウインドウ114には、「分析のポイント」という表題を付けて、第1の知識が記載される。ヒントウインドウ114は、散布図ウインドウ112と重なる位置に配置される。   In the word list window 113, a word list in which words near the origin (words in the circle 115) and distances from the origin of the words are arranged in order of increasing distance. The upward triangles in the word list window 113 indicate that they are arranged in order of increasing distance. In the hint window 114, the first knowledge is described with the title "point of analysis". The hint window 114 is arranged at a position overlapping the scatter diagram window 112.

円115のサイズは、任意の方法で決定される。例えば、利用者が円115に含まれる単語の個数(例えば、10個)を指定することにより、円115のサイズを決定してもよい。あるいは、利用者が円115に含まれる単語の割合(例えば、全体の10%)を指定することにより、円115のサイズを決定してもよい。あるいは、利用者が原点からの距離を第1支援画面110内でマウス29を用いて指定することにより、円115のサイズを決定してもよい。   The size of the circle 115 is determined by an arbitrary method. For example, the size of the circle 115 may be determined by designating the number of words (for example, 10) included in the circle 115 by the user. Alternatively, the size of the circle 115 may be determined by the user specifying the ratio of words included in the circle 115 (for example, 10% of the whole). Alternatively, the user may determine the size of the circle 115 by specifying the distance from the origin using the mouse 29 in the first support screen 110.

図7に示す第1支援画面110では、原点付近の単語(円115内の単語)は他の単語と同じ態様で表示される。これに代えて、第1支援画面では、原点付近の単語を他の単語と異なる態様で(例えば、薄い色で)表示してもよく、原点付近の単語を表示しなくてもよい。第2〜第4支援画面でも、第1支援画面で他の単語と異なる態様で表示した単語を他の単語と異なる態様で表示してもよく、第1支援画面で表示しなかった単語を表示しなくてもよい。   On the first support screen 110 shown in FIG. 7, words near the origin (words in the circle 115) are displayed in the same manner as other words. Instead, on the first support screen, a word near the origin may be displayed in a different manner from other words (for example, in a light color), or a word near the origin may not be displayed. In the second to fourth support screens, the words displayed in a different mode from the other words on the first support screen may be displayed in a mode different from the other words, and the words not displayed on the first support screen are displayed. You don't have to.

図8は、第2支援画面を示す図である。図8に示す第2支援画面120は、画面選択ウインドウ101、散布図ウインドウ122、単語リストウインドウ123、および、ヒントウインドウ124を含んでいる。第2支援画面120は、第2の知識「原点から変数に向かって離れる方向にある単語は、当該変数との関連度が高く、当該変数を特徴づける。」に関する。利用者は、第2支援画面120を見て、第2の知識を用いて散布図から知見を導く処理を効率的に行うことができる。   FIG. 8 is a diagram illustrating the second support screen. The second support screen 120 illustrated in FIG. 8 includes a screen selection window 101, a scatter diagram window 122, a word list window 123, and a hint window 124. The second support screen 120 relates to the second knowledge “words in a direction away from the origin toward the variable have a high degree of association with the variable and characterize the variable”. The user can efficiently perform the process of deriving knowledge from the scatter diagram using the second knowledge by looking at the second support screen 120.

第2支援画面120が表示される前に、利用者は、キーボード28またはマウス29を操作して、1個の変数(章)を選択する。ここでは、変数「はしがき」が選択された場合について説明する。散布図ウインドウ122には、図3に示す散布図が記載される。散布図ウインドウ122内の散布図には、原点を始点とし、選択された変数を通過する矢印125と、原点を始点とし、矢印125との間で所定角度(例えば、10°)の角をなす2本の半直線126、127とが記載される。半直線126、127で挟まれた領域内には、原点から選択された変数に向かって離れる方向にある単語が存在する。このように第2支援画面120に含まれる散布図には、原点から選択された変数に向かって離れる方向の範囲が半直線126、127を用いて図示されている。したがって、利用者は、図示された範囲を見て、選択された変数を特徴づける単語を容易に知ることができる。   Before the second support screen 120 is displayed, the user operates the keyboard 28 or the mouse 29 to select one variable (chapter). Here, a case where the variable “Foreword” is selected will be described. In the scatter diagram window 122, the scatter diagram shown in FIG. 3 is described. The scatter diagram in the scatter diagram window 122 forms an angle of a predetermined angle (for example, 10 °) between the arrow 125 that starts from the origin and passes through the selected variable, and the arrow 125 that starts from the origin. Two half lines 126, 127 are described. Within the region sandwiched between the half lines 126 and 127, there are words in a direction away from the origin toward the selected variable. Thus, in the scatter diagram included in the second support screen 120, the range in the direction away from the origin toward the selected variable is illustrated using the half lines 126 and 127. Therefore, the user can easily know the word characterizing the selected variable by looking at the range shown.

単語リストウインドウ123には、原点から選択された変数に向かって離れる方向にある単語(半直線126、127で挟まれた領域内の単語)と当該単語の原点からの距離とを、距離が遠い順に並べた単語リストが記載される。単語リストウインドウ123内の下向き三角形は、距離が遠い順に並べられていることを示す。単語リストウインドウ123には、第2の知識に関連して、「原点からの距離が遠いほうがより関連度が高いと判断できる。」と記載される。ヒントウインドウ124には、「分析のポイント」という表題を付けて、第2の知識が記載される。ヒントウインドウ124は、散布図ウインドウ122と重なる位置に配置される。   In the word list window 123, a distance between a word in a direction away from the origin toward the selected variable (a word in an area between the half lines 126 and 127) and the distance from the origin of the word is long. An ordered word list is listed. The downward triangles in the word list window 123 indicate that they are arranged in order of increasing distance. In the word list window 123, in relation to the second knowledge, “It can be determined that the degree of relevance is higher when the distance from the origin is farther”. In the hint window 124, the second knowledge is described with the title “point of analysis”. The hint window 124 is arranged at a position overlapping the scatter diagram window 122.

矢印125と半直線126、127とがなす角の角度は、矢印125と半直線126、127が同じ象限に含まれる限り、任意の方法で決定することができる。矢印125と角度を与えて半直線126、127を記載したときに、半直線126、127が矢印125と異なる象限に含まれる場合、半直線126、127は第1または第2成分軸上に記載される。矢印125は、散布図とは異なる色(例えば、赤)で記載することが好ましい。半直線126、127は、散布図および矢印125とは異なる色(例えば、青)で記載することが好ましい。   The angle between the arrow 125 and the half lines 126 and 127 can be determined by an arbitrary method as long as the arrow 125 and the half lines 126 and 127 are included in the same quadrant. When the half lines 126 and 127 are described by giving an angle to the arrow 125, if the half lines 126 and 127 are included in a different quadrant from the arrow 125, the half lines 126 and 127 are described on the first or second component axis. Is done. The arrow 125 is preferably written in a color (for example, red) different from the scatter diagram. The half lines 126 and 127 are preferably described in a color (for example, blue) different from the scatter diagram and the arrow 125.

図9は、第3支援画面を示す図である。図9に示す第3支援画面130は、画面選択ウインドウ101、散布図ウインドウ132、単語リストウインドウ133、および、ヒントウインドウ134を含んでいる。第3支援画面130は、第3の知識「距離が近い単語同士は類似度が高い。」に関する。利用者は、第3支援画面130を見て、第3の知識を用いて散布図から知見を導く処理を効率的に行うことができる。   FIG. 9 is a diagram showing a third support screen. The third support screen 130 shown in FIG. 9 includes a screen selection window 101, a scatter diagram window 132, a word list window 133, and a hint window 134. The third support screen 130 relates to the third knowledge “words that are close to each other have high similarity”. The user can efficiently perform the process of deriving knowledge from the scatter diagram using the third knowledge by looking at the third support screen 130.

第3支援画面130が表示される前に、利用者は、キーボード28またはマウス29操作して、1個の単語を選択し、選択された単語の付近と判断される範囲を指定する。ここでは、単語「眼」が選択された場合について説明する。散布図ウインドウ132には、図3に示す散布図が記載される。散布図ウインドウ132内の散布図には、選択された単語の付近を示す円135(外見は楕円)が記載される。円135は、散布図とは異なる色(例えば、赤)で記載することが好ましい。このように第3支援画面130に含まれる散布図には、選択された単語の付近の範囲が円135を用いて図示されている。したがって、利用者は、図示された範囲を見て、選択された単語と類似度が高い単語を容易に知ることができる。   Before the third support screen 130 is displayed, the user operates the keyboard 28 or the mouse 29 to select one word, and designates a range determined to be near the selected word. Here, a case where the word “eye” is selected will be described. In the scatter diagram window 132, the scatter diagram shown in FIG. 3 is described. In the scatter diagram in the scatter diagram window 132, a circle 135 (appearance is an ellipse) indicating the vicinity of the selected word is described. The circle 135 is preferably described in a color different from the scatter diagram (for example, red). As described above, in the scatter diagram included in the third support screen 130, the range around the selected word is illustrated using the circle 135. Therefore, the user can easily know a word having a high similarity to the selected word by looking at the range shown.

単語リストウインドウ133には、選択された単語の付近にある単語(円135内の単語)と当該単語の指定された単語からの距離とを、距離が近い順に並べた単語リストが記載される。単語リストウインドウ133には、第3の知識として、「単語からの距離は近いほうがより類似度が高いと判断できる。」と記載される。この例では、選択された単語「眼」からの距離が最も近い変数は「顔」である。したがって、選択された変数「眼」と類似度が最も高い単語は「顔」である。ヒントウインドウ134には、「分析のポイント」という表題を付けて、その旨が記載される。ヒントウインドウ134は、散布図ウインドウ132と重なる位置に配置される。   In the word list window 133, a word list in which words in the vicinity of the selected word (words in the circle 135) and the distance from the designated word of the word are arranged in order of increasing distance is described. In the word list window 133, as third knowledge, “the distance from the word is closer, it can be determined that the similarity is higher” is described. In this example, the variable closest to the selected word “eye” is “face”. Therefore, the word having the highest degree of similarity with the selected variable “eye” is “face”. The hint window 134 is labeled “Analysis Point” with a message to that effect. The hint window 134 is arranged at a position overlapping the scatter diagram window 132.

円135のサイズは、第1支援画面110内の円115のサイズと同様に、任意の方法で決定される。例えば、利用者は、円135に含まれる単語の個数を指定する方法、円135に含まれる単語の割合を指定する方法、選択された単語からの距離を指定する方法などにより、円135のサイズを決定する。   Similar to the size of the circle 115 in the first support screen 110, the size of the circle 135 is determined by an arbitrary method. For example, the user can specify the size of the circle 135 by a method of specifying the number of words included in the circle 135, a method of specifying a ratio of words included in the circle 135, a method of specifying a distance from the selected word, and the like. To decide.

図10は、第4支援画面を示す図である。図10に示す第4支援画面140は、画面選択ウインドウ101、散布図ウインドウ142、変数リストウインドウ143、および、ヒントウインドウ144を含んでいる。第4支援画面140は、第4の知識「距離が近い変数同士は類似度が高い。」に関する。利用者は、第4支援画面140を見て、第4の知識を用いて散布図から知見を導く処理を効率的に行うことができる。   FIG. 10 is a diagram illustrating the fourth support screen. The fourth support screen 140 shown in FIG. 10 includes a screen selection window 101, a scatter diagram window 142, a variable list window 143, and a hint window 144. The fourth support screen 140 relates to the fourth knowledge “variables with close distances have high similarity”. The user can efficiently perform the process of deriving knowledge from the scatter diagram using the fourth knowledge by looking at the fourth support screen 140.

第4支援画面140が表示される前に、利用者は、キーボード28またはマウス29を操作して、1個の変数を選択する。ここでは、変数「はしがき」が選択された場合について説明する。散布図ウインドウ142には、図3に示す散布図が記載される。散布図ウインドウ142内の散布図には、選択された変数を始点とし、選択された変数からの距離が最も近い変数を終点とする矢印145が記載される。矢印145は、散布図とは異なる色(例えば、赤)で記載することが好ましい。このように第4支援画面140に含まれる散布図には、選択された変数から最も距離が近い変数を示す矢印145が図示されている。したがって、利用者は、図示された矢印145を見て、選択された変数と類似度が最も高い変数を容易に知ることができる。   Before the fourth support screen 140 is displayed, the user operates the keyboard 28 or the mouse 29 to select one variable. Here, a case where the variable “Foreword” is selected will be described. In the scatter diagram window 142, the scatter diagram shown in FIG. 3 is described. In the scatter diagram in the scatter diagram window 142, there is described an arrow 145 starting from the selected variable and ending with the variable closest to the selected variable. The arrow 145 is preferably described in a color (for example, red) different from the scatter diagram. As described above, the scatter diagram included in the fourth support screen 140 shows the arrow 145 indicating the variable that is the closest to the selected variable. Therefore, the user can easily know the variable having the highest similarity with the selected variable by looking at the arrow 145 shown in the figure.

変数リストウインドウ143は、選択された変数からの距離が比較的近い変数と当該距離とを、距離が近い順に並べた変数リストが記載される。変数リストウインドウ143には、第4の知識として、「変数からの距離は近いほうがより類似度が高いと判断できる。」と記載される。この例では、選択された変数「はしがき」からの距離が最も近い変数は「あとがき」である。したがって、選択された変数「はしがき」と類似度が最も高い変数は「あとがき」である。ヒントウインドウ144には、「分析のポイント」という表題を付けて、その旨が記載される。ヒントウインドウ144は、散布図ウインドウ142と重なる位置に配置される。   The variable list window 143 describes a variable list in which variables that are relatively close to the selected variable and the distances are arranged in order of increasing distance. In the variable list window 143, the fourth knowledge is described as "It can be determined that the closer the distance from the variable is, the higher the similarity is." In this example, the variable closest to the selected variable “Foreword” is “Afterword”. Therefore, the variable with the highest similarity to the selected variable “Foreword” is “Afterword”. The hint window 144 is labeled with the title “Analysis Point”. The hint window 144 is arranged at a position overlapping the scatter diagram window 142.

なお、テキストマイニング支援装置10は、以上に述べた支援画面以外の支援画面を表示してもよい。支援画面は、散布図と散布図の見方を示すヒントとを含む限り、任意の内容を含んでいてもよい。ヒントは、散布図の見方を明示的に示すものでもよく、散布図の見方を示唆するものでもよい。ヒントは、支援画面のいずれの部分に含まれていてもよい。ヒントは、散布図ウインドウと重なるウインドウに記載されていてもよく、散布図ウインドウと重ならないウインドウに記載されていてもよく、位置が固定されたメッセージボックスに記載されていてもよい。   The text mining support device 10 may display a support screen other than the support screen described above. The support screen may include any content as long as it includes a scatter diagram and a hint indicating how to view the scatter diagram. The hint may explicitly indicate how to view the scatter diagram or may suggest how to view the scatter diagram. The hint may be included in any part of the support screen. The hint may be described in a window that overlaps with the scatter diagram window, may be described in a window that does not overlap with the scatter diagram window, or may be described in a message box having a fixed position.

以上に示すように、本実施形態に係るテキストマイニング支援方法は、分析結果2を入力するステップと、利用者からの指示を入力するステップと、分析結果2を示すグラフ(散布図)を含む画面の画面データを生成するステップと、画面データに基づき、画面を表示するステップとを備えている。画面データを生成するステップは、指示に応じて、グラフとグラフの見方を示すヒントとを含む支援画面の画面データを生成する。したがって、利用者は、対応分析の結果を示すグラフとグラフの見方を示すヒントとを含む支援画面を用いて、対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   As described above, the text mining support method according to the present embodiment includes a screen including a step of inputting the analysis result 2, a step of inputting an instruction from the user, and a graph (scatter diagram) showing the analysis result 2 Generating screen data and displaying a screen based on the screen data. The step of generating screen data generates screen data of a support screen including a graph and a hint indicating how to read the graph according to the instruction. Therefore, the user can efficiently perform the process of deriving knowledge from the graph indicating the result of the correspondence analysis using the support screen including the graph indicating the result of the correspondence analysis and the hint indicating how to read the graph.

画面データを生成するステップは、複数の支援画面(第1〜第4支援画面110、120、130、140)と、グラフを含みヒントを含まない基本画面100との中から、指示に応じて選択された画面の画面データを生成する。このようにヒントを含む支援画面とヒントを含まない基本画面とを選択的に表示することにより、利用者のレベルに応じた画面を表示することができる。また、複数の支援画面を選択的に表示することにより、利用者に対してグラフの見方を複数とおり提示することができる。   The step of generating screen data is selected according to an instruction from a plurality of support screens (first to fourth support screens 110, 120, 130, and 140) and a basic screen 100 that includes a graph and does not include a hint. Screen data of the generated screen is generated. Thus, by selectively displaying the support screen including the hint and the basic screen not including the hint, it is possible to display a screen according to the level of the user. In addition, by selectively displaying a plurality of support screens, the user can be presented with a plurality of ways of viewing the graph.

分析結果を入力するステップでは、分析結果2として、第1項目(単語)と第2項目(変数)とを対応づけた結果であって、第1項目の第1成分および第2成分と、第2項目の第1成分および第2成分とを含む結果が入力され、画面データを生成するステップは、グラフとして、第1成分を横軸、第2成分を縦軸とした平面内に第1項目と第2項目とをプロットした散布図を作成する。したがって、利用者は、第1項目と第2項目に関する対応分析の結果を示す散布図から知見を導く処理を効率的に行うことができる。   In the step of inputting the analysis result, as the analysis result 2, the first item (word) and the second item (variable) are associated with each other, and the first component and the second component of the first item, The step of generating the screen data by inputting the result including the first component and the second component of the two items is a graph in which the first item is in a plane with the first component as the horizontal axis and the second component as the vertical axis. And a scatter plot in which the second item is plotted. Therefore, the user can efficiently perform the process of deriving knowledge from the scatter diagram showing the result of the correspondence analysis regarding the first item and the second item.

複数の支援画面は、散布図内で原点付近の第1項目は顕著な特徴を有しない旨をヒントとして含む第1支援画面110、散布図内で原点から第2項目に向かって離れる方向にある第1項目は当該第2項目を特徴づける旨をヒントとして含む第2支援画面120、散布図内で距離が近い第1項目同士は類似度が高い旨をヒントとして含む第3支援画面130、および、散布図内で距離が近い第2項目同士は類似度が高い旨をヒントとして含む第4支援画面140を含んでいる。したがって、利用者は、各支援画面に含まれるヒントを用いて、対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   The plurality of support screens are in a direction away from the origin to the second item in the first support screen 110 including a hint that the first item near the origin in the scatter diagram does not have a remarkable feature. A second support screen 120 including a hint that the first item characterizes the second item as a hint, a third support screen 130 including a hint that the first items that are close to each other in the scatter diagram have high similarity, and The second items that are close to each other in the scatter diagram include a fourth support screen 140 that includes a hint that the degree of similarity is high. Therefore, the user can efficiently perform the process of deriving knowledge from the graph indicating the result of the correspondence analysis using the hint included in each support screen.

第1支援画面110に含まれる散布図には、原点付近の範囲が円115を用いて図示されている。第2支援画面120に含まれる散布図には、原点から選択された第2項目に向かって離れる方向の範囲が半直線126、127を用いて図示されている。第3支援画面130に含まれる散布図には、選択された第1項目付近の範囲が円135を用いて図示されている。第4支援画面140に含まれる散布図には、選択された第2項目から最も距離が近い第2項目を示す印(矢印145)が図示されている。したがって、利用者は、各支援画面に図示された範囲または印を見て、顕著な特徴を有しない第1項目、選択された第2項目を特徴づける第1項目、選択された第1項目と類似度が高い第1項目、および、選択された第2項目と類似度が高い第2項目を容易に知ることができる。   In the scatter diagram included in the first support screen 110, a range near the origin is illustrated using a circle 115. In the scatter diagram included in the second support screen 120, the range in the direction away from the origin toward the second item selected is illustrated using the half lines 126 and 127. In the scatter diagram included in the third support screen 130, a range near the selected first item is illustrated using a circle 135. In the scatter diagram included in the fourth support screen 140, a mark (arrow 145) indicating the second item closest to the selected second item is shown. Therefore, the user looks at the range or mark shown on each support screen, and the first item that does not have a prominent feature, the first item that characterizes the selected second item, the selected first item, The first item having a high similarity and the second item having a high similarity with the selected second item can be easily known.

分析結果を入力するステップでは、分析結果として、単語を第1項目、文章の部分を第2項目、文章の各部分における各単語の出現頻度を表内データとするクロス集計表に対して対応分析を行った結果が入力される。したがって、利用者は、単語と文章の部分に関する対応分析の結果を示す散布図から知見を導く処理を効率的に行うことができる。   In the step of inputting the analysis result, as a result of the analysis, a correspondence analysis is performed on the cross tabulation table in which the word is the first item, the sentence part is the second item, and the appearance frequency of each word in each part of the sentence is the in-table data. The result of performing is input. Therefore, the user can efficiently perform the process of deriving knowledge from the scatter diagram showing the result of the correspondence analysis regarding the word and sentence portions.

本実施形態に係るテキストマイニング支援装置10、および、本実施形態に係るテキストマイニング支援プログラム31は、本実施形態に係るテキストマイニング支援方法と同様の特徴を有し、同様の効果を奏する。   The text mining support apparatus 10 according to the present embodiment and the text mining support program 31 according to the present embodiment have the same features as the text mining support method according to the present embodiment, and have the same effects.

なお、以上の説明では、テキストマイニング支援装置10は、対応分析の結果を2次元的に示す散布図を表示することとした。これに限らず、本発明は、対応分析の結果を多次元的に示すグラフ(例えば、3次元グラフ)を表示するテキストマイニング支援方法および装置にも適用することができる。また、テキストデータに関するクロス集計表に対する対応分析の結果を示す散布図を表示するテキストマイニング支援方法および装置と同様に、テキストデータ以外の任意のデータに関するクロス集計表に対する対応分析の結果を示すグラフ(散布図や3次元グラフなど)を表示するデータマイニング支援方法および装置を構成することができる。   In the above description, the text mining support device 10 displays a scatter diagram that two-dimensionally shows the result of the correspondence analysis. The present invention is not limited to this, and the present invention can also be applied to a text mining support method and apparatus for displaying a graph (for example, a three-dimensional graph) showing the result of correspondence analysis in a multidimensional manner. Similarly to the text mining support method and apparatus for displaying a scatter diagram showing the result of the correspondence analysis on the cross tabulation table related to the text data, the graph showing the result of the correspondence analysis on the cross tabulation table on any data other than the text data ( A data mining support method and apparatus for displaying a scatter diagram or a three-dimensional graph can be configured.

本発明のテキストマイニング支援方法および装置によれば、対応分析の結果を示すグラフとグラフの見方を示すヒントとを含む支援画面を表示することにより、利用者は対応分析の結果を示すグラフから知見を導く処理を効率的に行うことができる。   According to the text mining support method and apparatus of the present invention, by displaying a support screen including a graph indicating the result of correspondence analysis and a hint indicating how to read the graph, the user can learn from the graph indicating the result of correspondence analysis. Can be efficiently performed.

2…分析結果
10…テキストマイニング支援装置
11…分析結果入力部
12…指示入力部
13…画面生成部
14…分析結果表示部
31…テキストマイニング支援プログラム
100…基本画面
101…画面選択ウインドウ
102、112、122、132、142…散布図ウインドウ
110、120、130、140…支援画面
113、123、133…単語リストウインドウ
143…変数リストウインドウ
114、124、134、144…ヒントウインドウ
2 ... Analysis result 10 ... Text mining support device 11 ... Analysis result input unit 12 ... Instruction input unit 13 ... Screen generation unit 14 ... Analysis result display unit 31 ... Text mining support program 100 ... Basic screen 101 ... Screen selection window 102, 112 , 122, 132, 142 ... Scatter chart window 110, 120, 130, 140 ... Support screen 113, 123, 133 ... Word list window 143 ... Variable list window 114, 124, 134, 144 ... Hint window

Claims (16)

対応分析による分析結果を表示するテキストマイニング支援方法であって、
前記分析結果を入力するステップと、
利用者からの指示を入力するステップと、
前記分析結果を示すグラフを含む画面の画面データを生成するステップと、
前記画面データに基づき、画面を表示するステップとを備え、
前記画面データを生成するステップは、前記指示に応じて、前記グラフと前記グラフの見方を示すヒントとを含む支援画面の画面データを生成することを特徴とする、テキストマイニング支援方法。
A text mining support method for displaying analysis results by correspondence analysis,
Inputting the analysis result;
Inputting instructions from the user;
Generating screen data of a screen including a graph indicating the analysis result;
And displaying a screen based on the screen data,
The step of generating the screen data generates a screen data of a support screen including the graph and a hint indicating how to read the graph in accordance with the instruction.
前記画面データを生成するステップは、複数の支援画面と、前記グラフを含み前記ヒントを含まない基本画面との中から、前記指示に応じて選択された画面の画面データを生成することを特徴とする、請求項1に記載のテキストマイニング支援方法。   The step of generating the screen data includes generating screen data of a screen selected according to the instruction from a plurality of support screens and a basic screen including the graph and not including the hint. The text mining support method according to claim 1. 前記分析結果を入力するステップでは、前記分析結果として、第1項目と第2項目とを対応づけた結果であって、前記第1項目の第1成分および第2成分と、前記第2項目の第1成分および第2成分とを含む結果が入力され、
前記画面データを生成するステップは、前記グラフとして、前記第1成分を横軸、前記第2成分を縦軸とした平面内に前記第1項目と前記第2項目とをプロットした散布図を作成することを特徴とする、請求項2に記載のテキストマイニング支援方法。
The step of inputting the analysis result is a result of associating the first item and the second item as the analysis result, wherein the first component and the second component of the first item, and the second item A result including a first component and a second component is input;
The step of generating the screen data creates, as the graph, a scatter diagram in which the first item and the second item are plotted in a plane with the first component as the horizontal axis and the second component as the vertical axis. The text mining support method according to claim 2, wherein:
前記複数の支援画面は、散布図内で原点付近の第1項目は顕著な特徴を有しない旨を前記ヒントとして含む第1支援画面を含むことを特徴とする、請求項3に記載のテキストマイニング支援方法。   The text mining according to claim 3, wherein the plurality of support screens include a first support screen including the hint that the first item in the vicinity of the origin in the scatter diagram does not have a remarkable feature. Support method. 前記第1支援画面に含まれる散布図には、原点付近の範囲が図示されていることを特徴とする、請求項4に記載のテキストマイニング支援方法。   The text mining support method according to claim 4, wherein a range near the origin is shown in the scatter diagram included in the first support screen. 前記複数の支援画面は、散布図内で原点から第2項目に向かって離れる方向にある第1項目は当該第2項目を特徴づける旨を前記ヒントとして含む第2支援画面を含むことを特徴とする、請求項3に記載のテキストマイニング支援方法。   The plurality of support screens include a second support screen including, as the hint, the first item in a direction away from the origin toward the second item in the scatter diagram characterizes the second item. The text mining support method according to claim 3. 前記第2支援画面に含まれる散布図には、原点から選択された第2項目に向かって離れる方向の範囲が図示されていることを特徴とする、請求項6に記載のテキストマイニング支援方法。   The text mining support method according to claim 6, wherein the scatter diagram included in the second support screen shows a range in a direction away from the origin toward the second item selected. 前記複数の支援画面は、散布図内で距離が近い第1項目同士は類似度が高い旨を前記ヒントとして含む第3支援画面を含むことを特徴とする、請求項3に記載のテキストマイニング支援方法。   4. The text mining support according to claim 3, wherein the plurality of support screens include a third support screen including, as the hint, that the first items that are close to each other in the scatter diagram have high similarity. Method. 前記第3支援画面に含まれる散布図には、選択された第1項目付近の範囲が図示されていることを特徴とする、請求項8に記載のテキストマイニング支援方法。   9. The text mining support method according to claim 8, wherein a range near the selected first item is illustrated in the scatter diagram included in the third support screen. 前記複数の支援画面は、散布図内で距離が近い第2項目同士は類似度が高い旨を前記ヒントとして含む第4支援画面を含むことを特徴とする、請求項3に記載のテキストマイニング支援方法。   4. The text mining support according to claim 3, wherein the plurality of support screens include a fourth support screen including, as the hint, that the second items that are close to each other in the scatter diagram have high similarity. Method. 前記第4支援画面に含まれる散布図には、選択された第2項目から最も距離が近い第2項目を示す印が図示されていることを特徴とする、請求項10に記載のテキストマイニング支援方法。   The text mining support according to claim 10, wherein the scatter diagram included in the fourth support screen includes a mark indicating the second item closest to the selected second item. Method. 前記分析結果を入力するステップでは、前記分析結果として、単語を前記第1項目、文章の部分を前記第2項目、文章の各部分における各単語の出現頻度を表内データとするクロス集計表に対して対応分析を行った結果が入力されることを特徴とする、請求項3に記載のテキストマイニング支援方法。   In the step of inputting the analysis result, the analysis result is a cross tabulation table in which the word is the first item, the sentence part is the second item, and the appearance frequency of each word in each part of the sentence is in-table data. The text mining support method according to claim 3, wherein a result of correspondence analysis is inputted. 対応分析による分析結果を表示するテキストマイニング支援装置であって、
前記分析結果を入力するための分析結果入力部と、
利用者からの指示を入力するための指示入力部と、
前記分析結果を示すグラフを含む画面の画面データを生成する画面生成部と、
前記画面データに基づき、画面を表示する分析結果表示部とを備え、
前記画面生成部は、前記指示に応じて、前記グラフと前記グラフの見方を示すヒントとを含む支援画面の画面データを生成することを特徴とする、テキストマイニング支援装置。
A text mining support device that displays an analysis result by correspondence analysis,
An analysis result input unit for inputting the analysis result;
An instruction input unit for inputting instructions from the user;
A screen generator that generates screen data of a screen including a graph indicating the analysis result;
An analysis result display unit for displaying a screen based on the screen data;
The screen generation unit generates screen data of a support screen including the graph and a hint indicating how to read the graph in accordance with the instruction.
前記画面生成部は、複数の支援画面と、前記グラフを含み前記ヒントを含まない基本画面との中から、前記指示に応じて選択された画面の画面データを生成することを特徴とする、請求項13に記載のテキストマイニング支援装置。   The screen generation unit generates screen data of a screen selected according to the instruction from a plurality of support screens and a basic screen including the graph and not including the hint. Item 14. The text mining support device according to Item 13. 前記分析結果入力部には、前記分析結果として、第1項目と第2項目とを対応づけた結果であって、前記第1項目の第1成分および第2成分と、前記第2項目の第1成分および第2成分とを含む結果が入力され、
前記画面生成部は、前記グラフとして、前記第1成分を横軸、前記第2成分を縦軸とした平面内に前記第1項目と前記第2項目とをプロットした散布図を作成することを特徴とする、請求項14に記載のテキストマイニング支援装置。
The analysis result input unit is a result of associating the first item and the second item as the analysis result, and includes the first component and the second component of the first item, and the second item of the second item. A result including a first component and a second component is input;
The screen generation unit creates, as the graph, a scatter diagram in which the first item and the second item are plotted in a plane having the first component as a horizontal axis and the second component as a vertical axis. The text mining support device according to claim 14, characterized in that it is characterized by
前記分析結果入力部には、前記分析結果として、単語を前記第1項目、文章の部分を前記第2項目、文章の各部分における各単語の出現頻度を表内データとするクロス集計表に対して対応分析を行った結果が入力されることを特徴とする、請求項15に記載のテキストマイニング支援装置。   In the analysis result input unit, as the analysis result, a word is the first item, a sentence part is the second item, and a frequency of each word in each part of the sentence is an in-table data. The text mining support device according to claim 15, wherein the result of the correspondence analysis is input.
JP2017049728A 2017-03-15 2017-03-15 Text mining support methods and equipment Active JP6829117B2 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017049728A JP6829117B2 (en) 2017-03-15 2017-03-15 Text mining support methods and equipment
KR1020180013614A KR102230102B1 (en) 2017-03-15 2018-02-02 Method and apparatus for supporting text mining
TW107106049A TWI692696B (en) 2017-03-15 2018-02-23 Text mining support method and device
CN201810156475.8A CN108628928B (en) 2017-03-15 2018-02-24 Text mining support method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017049728A JP6829117B2 (en) 2017-03-15 2017-03-15 Text mining support methods and equipment

Publications (2)

Publication Number Publication Date
JP2018152023A true JP2018152023A (en) 2018-09-27
JP6829117B2 JP6829117B2 (en) 2021-02-10

Family

ID=63680441

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017049728A Active JP6829117B2 (en) 2017-03-15 2017-03-15 Text mining support methods and equipment

Country Status (4)

Country Link
JP (1) JP6829117B2 (en)
KR (1) KR102230102B1 (en)
CN (1) CN108628928B (en)
TW (1) TWI692696B (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285128A (en) * 1999-03-31 2000-10-13 Toshiba System Kaihatsu Kk Job analytic system
JP2002041571A (en) * 2000-07-28 2002-02-08 Victor Co Of Japan Ltd Information retrieving device
JP2004021445A (en) * 2002-06-14 2004-01-22 Nri & Ncc Co Ltd Text data analysis system, text data analysis method and computer program
JP2007172523A (en) * 2005-12-26 2007-07-05 Sony Corp Information processor, information processing method, and program
JP2008250409A (en) * 2007-03-29 2008-10-16 Nec Corp Typical sentence analyzing device, method, and program therefor

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001282819A (en) * 2000-01-28 2001-10-12 Fujitsu Ltd Data mining system, machine readable medium stored with data mining program, and data mining program
JP2004078542A (en) 2002-08-16 2004-03-11 Celestar Lexico-Sciences Inc Text mining processor, text mining processing method, its program, and record medium
JP4266930B2 (en) 2003-05-02 2009-05-27 富士通株式会社 Manufacturing process analysis support method, program for causing computer to execute the method, program product, and recording medium
CN1808430A (en) * 2004-11-01 2006-07-26 西安迪戈科技有限责任公司 Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
JP4693466B2 (en) * 2005-04-06 2011-06-01 東芝ソリューション株式会社 Report check device, report creation device, storage medium, program
CA2620728A1 (en) * 2005-09-16 2007-03-29 Pankaj B. Dalal Financial decision systems
JP5658364B2 (en) * 2011-06-17 2015-01-21 株式会社日立製作所 Program visualization device
JP6355140B2 (en) * 2013-09-06 2018-07-11 アルバート・ジェリー・クリストフォロ System and method for interactive visual analysis of multidimensional temporal data
US20150106021A1 (en) * 2013-10-11 2015-04-16 International Business Machines Corporation Interactive visual analysis of clinical episodes
CN104657375B (en) * 2013-11-20 2018-01-26 中国科学院深圳先进技术研究院 A kind of picture and text subject description method, apparatus and system
US10198428B2 (en) * 2014-05-06 2019-02-05 Act, Inc. Methods and systems for textual analysis
CN105677656A (en) * 2014-11-19 2016-06-15 镇江金软计算机科技有限责任公司 Data analysis method based on WEB report forms
ZA201504892B (en) * 2015-04-10 2016-07-27 Musigma Business Solutions Pvt Ltd Text mining system and tool
CN105354223B (en) * 2015-10-05 2018-05-04 北京工商大学 A kind of method for visualizing and application for discontinuous hierarchical data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285128A (en) * 1999-03-31 2000-10-13 Toshiba System Kaihatsu Kk Job analytic system
JP2002041571A (en) * 2000-07-28 2002-02-08 Victor Co Of Japan Ltd Information retrieving device
JP2004021445A (en) * 2002-06-14 2004-01-22 Nri & Ncc Co Ltd Text data analysis system, text data analysis method and computer program
JP2007172523A (en) * 2005-12-26 2007-07-05 Sony Corp Information processor, information processing method, and program
JP2008250409A (en) * 2007-03-29 2008-10-16 Nec Corp Typical sentence analyzing device, method, and program therefor

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
STEN−ERIK CLAUSEN, 対応分析入門 原理から応用まで, vol. 第1版, JPN6020039484, 30 November 2015 (2015-11-30), pages 25 - 26, ISSN: 0004368290 *
梶谷勇、外3名: "施設スタッフの改善事例調査 −支援技術導入に向けて−", 電子情報通信学会技術研究報告, vol. 第112巻、第223号, JPN6020039483, 21 September 2012 (2012-09-21), pages 17 - 22, ISSN: 0004368289 *
道用大介, 図解でわかる 最新 エクセルのデータ分析がみるみるわかる本, vol. 第1版, JPN6020039482, 1 December 2014 (2014-12-01), pages 171 - 173, ISSN: 0004368288 *

Also Published As

Publication number Publication date
CN108628928A (en) 2018-10-09
TW201835790A (en) 2018-10-01
TWI692696B (en) 2020-05-01
CN108628928B (en) 2021-12-07
KR102230102B1 (en) 2021-03-18
JP6829117B2 (en) 2021-02-10
KR20180105566A (en) 2018-09-28

Similar Documents

Publication Publication Date Title
CN109643212B (en) 3D document editing system
JP2020024698A (en) Generation method, device, apparatus of knowledge graph, and computer-readable storage medium
US8855974B2 (en) System and method for recommending sensitive make-up based on skin tone of user
US20140081625A1 (en) Natural Language Image Spatial and Tonal Localization
KR102287905B1 (en) Multimedia apparatus, Online education system, and Method for providing education content thereof
JP2008146227A5 (en)
US10318629B2 (en) Adaptive content rendering for optimizing page layout
KR102359230B1 (en) Method and apparatus for providing virtual room
KR20170078651A (en) Authoring tools for synthesizing hybrid slide-canvas presentations
US11954536B2 (en) Data engine
GB2541582A (en) Hint based spot healing techniques
JP6918252B2 (en) Ink data generator, method and program
KR102225356B1 (en) Method and apparatus of providing feedback on design of graphic user interface(gui)
US10685470B2 (en) Generating and providing composition effect tutorials for creating and editing digital content
US9619126B2 (en) Computer-readable non-transitory storage medium with image processing program stored thereon, element layout changed material generating device, image processing device, and image processing system
US9792706B2 (en) Graph processing system, graph processing method, and non-transitory computer readable medium
JP2018152023A (en) Text mining support method and device
JP6167942B2 (en) Design editing apparatus and program
JP2019032713A5 (en)
KR102500237B1 (en) Ar/vr skeletal training method, apparatus and system using model
Wei et al. Design of somatosensory interactive display of ancient architecture museum
WO2022201515A1 (en) Server, animation recommendation system, animation recommendation method, and program
Tao Multi-View Web Interfaces in Augmented Reality
JP2017182004A (en) Communication terminal device and program
CN117579870A (en) Visualized large-screen material generation method, device, equipment and storage medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210119

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210121

R150 Certificate of patent or registration of utility model

Ref document number: 6829117

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250