CN110309260A - 文本挖掘方法、文本挖掘存储介质及文本挖掘装置 - Google Patents

文本挖掘方法、文本挖掘存储介质及文本挖掘装置 Download PDF

Info

Publication number
CN110309260A
CN110309260A CN201910164187.1A CN201910164187A CN110309260A CN 110309260 A CN110309260 A CN 110309260A CN 201910164187 A CN201910164187 A CN 201910164187A CN 110309260 A CN110309260 A CN 110309260A
Authority
CN
China
Prior art keywords
picture
cluster
words
text mining
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910164187.1A
Other languages
English (en)
Other versions
CN110309260B (zh
Inventor
周景龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Publication of CN110309260A publication Critical patent/CN110309260A/zh
Application granted granted Critical
Publication of CN110309260B publication Critical patent/CN110309260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3349Reuse of stored results of previous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)

Abstract

本发明提供一种文本挖掘方法,包括:从由具有日期的句子构成的文本数据中提取字词的步骤;对提取出的字词按照每个分析期间进行层次性集群分析的步骤;以及将包含层次性集群分析的结果的画面进行显示的步骤。当在包含分析结果的第一画面内输入了用于指定有关注语的指示时,通过沿着时间轴示出基于包含关注语的集群中包含的字词的集群名来显示第二画面,该第二画面示出包含关注语的集群随时间的变化。由此,能够容易地识别层次性集群分析的结果随时间的变化。

Description

文本挖掘方法、文本挖掘存储介质及文本挖掘装置
技术领域
本发明涉及文本挖掘,特别是涉及显示包含层次性集群分析的结果的画面的文本挖掘方法、文本挖掘程序以及文本挖掘装置。
背景技术
近年来,对自由记载的文本数据进行解析并从解析结果中寻求有用信息的文本挖掘正受到关注。文本挖掘中,例如,通过从作为分析对象的文本数据中提取字词并解析字词的出现频率、出现趋势等来寻求信息。
下面考虑一种文本挖掘装置,对从文本数据中提取出的字词进行层次性集群分析,并显示包含其结果的画面。层次性集群分析中,基于字词之间的相似度,层次性地生成包含相似度高的字词的集群。通常,使用图10所示的树状图(Dendrogram)将层次性集群分析的结果提供给分析人。分析人能够基于层次性集群分析的结果来掌握文本数据的概要。
日本特开2018-18118号公报中记载了一种将层次性集群分析的结果以图11所示的方式进行显示的文本挖掘装置。该文献中记载的文本挖掘装置在给出了集群数m以及集群内显示数据的最大数量n时,根据层次性集群分析的结果求出m个集群,并将求出的m个集群以云状图的方式显示在画面中,在各集群的内部显示n个以下的字词。
发明内容
文本数据中包括如维护作业记录、呼叫中心的电话应答记录等由具有日期的句子构成并且长期累积储存的文本数据。在对这种文本数据进行层次性集群分析时,将文本数据例如按照月份划分,对每月的文本数据进行层次性集群分析。由此,能够针对每个月求出层次性集群分析的结果。
在该情况下,考虑到分析人想要从文本数据中选择想要关注的字词(以下称为关注语),获知每个月中的包含关注语的集群、包含关注语的集群发生变化的时期、关注语的出现频率随时间的变化等。但是,通过现有的文本挖掘装置,使用者无法简单地识别层次性集群分析的结果随时间的变化。
因此,本发明的目的在于提供使用者能够简单地是被层次性集群分析的结果随时间的变化的文本挖掘方法、文本挖掘程序以及文本挖掘装置。
本发明的第一方式是文本挖掘方法,显示包含文本数据的分析结果的画面,其特征在于,所述文本挖掘方法包括:
从由具有日期的句子构成的文本数据中提取字词的步骤;
对所述字词按照每个分析期间进行层次性集群分析的步骤;以及
将包含所述层次性集群分析的结果的画面进行显示的步骤,
当在包含所述结果的第一画面内输入了用于指定关注语的指示时,显示所述画面的步骤中进行第二画面的显示,所述第二画面示出包含所述关注语的集群随时间的变化。
本发明的第二方式根据本发明的第一方式,其特征在于,
所述第二画面沿着时间轴示出基于所述集群中包含的字词的集群名。
本发明的第三方式根据本发明的第二方式,其特征在于,
所述集群名是将所述集群中包含的字词按照出现频率从高到低的顺序连接规定个数以下的所述字词而成的。
本发明的第四方式根据本发明的第二方式,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含标记,所述标记具有与所述集群名的变化程度对应的形态。
本发明的第五方式根据本发明的第四方式,其特征在于,
所述标记是具有与所述集群名的变化程度对应的颜色的箭头。
本发明的第六方式根据本发明的第二方式,其特征在于,
将构成所述集群名的字词中的、相对于前一个集群名发生了变化的字词,在所述第二画面内进行强调显示。
本发明的第七方式根据本发明的第二方式,其特征在于,
所述第二画面还包含沿着所述时间轴表示所述关注语的出现频率随时间的变化的图形。
本发明的第八方式根据本发明的第七方式,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含分界线,所述图形的背景具有以每个所述分界线为边界的不同的形态。
本发明的第九方式根据本发明的第二方式,其特征在于,
当所述集群名发生大幅变化的情况较多时,显示所述画面的步骤中显示包含警告消息的画面。
本发明的第十方式是一种文本挖掘存储介质,存储用于显示包含文本数据的分析结果的画面的文本挖掘程序,其特征在于,
在计算机上使CPU利用存储器执行:
从由具有日期的句子构成的文本数据中提取字词的步骤;
对所述字词按照每个分析期间进行层次性集群分析的步骤;以及
将包含所述层次性集群分析的结果的画面进行显示的步骤,
当在包含所述结果的第一画面内输入了用于指定关注语的指示时,显示所述画面的步骤中进行第二画面的显示,所述第二画面示出包含所述关注语的集群随时间的变化。
本发明的第十一方式根据本发明的第十方式,其特征在于,
所述第二画面沿着时间轴示出基于所述集群中包含的字词的集群名。
本发明的第十二方式根据本发明的第十一方式,其特征在于,
所述集群名是将所述集群中包含的字词按照出现频率从高到低的顺序连接规定个数以下的所述字词而成的。
本发明的第十三方式根据本发明的第十一方式,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含标记,所述标记具有与所述集群名的变化程度对应的形态。
本发明的第十四方式根据本发明的第十三方式,其特征在于,
所述标记是具有与所述集群名的变化程度对应的颜色的箭头。
本发明的第十五方式根据本发明的第十一方式,其特征在于,
将构成所述集群名的字词中的、相对于前一个集群名发生了变化的字词,在所述第二画面内进行强调显示。
本发明的第十六方式根据本发明的第十一方式,其特征在于,
所述第二画面还包含沿着所述时间轴表示所述关注语的出现频率随时间的变化的图形。
本发明的第十七方式根据本发明的第十六方式,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含分界线,所述图形的背景具有以每个所述分界线为边界的不同的形态。
本发明的第十八方式根据本发明的第十一方式,其特征在于,
当所述集群名发生大幅变化的情况多时,显示所述画面的步骤中显示包含警告消息的画面。
本发明的第十九方式是文本挖掘装置,显示包含文本数据的分析结果的画面,其特征在于,所述文本挖掘装置具有:
字词提取部,从由具有日期的句子构成的文本数据中提取字词;
集群处理部,对所述字词按照每个分析期间进行层次性集群分析;以及
画面显示部,将包含所述层次性集群分析的结果的画面进行显示,
当在包含所述结果的第一画面内输入了用于指定关注语的指示时,所述画面显示部进行第二画面的显示,所述第二画面示出包含所述关注语的集群随时间的变化。
本发明的第二十方式根据本发明的第十九方式,其特征在于,
所述第二画面沿着时间轴示出基于所述集群中包含的字词的集群名。
根据上述的第一、第十或第十九方式,当在包含层次性集群分析的结果的第一画面内输入了用于指定关注语的指示时,通过将示出包含关注语的集群随时间的变化的第二画面进行显示,使得使用者能够容易地识别层次性集群分析的结果随时间的变化。
根据上述的第二、第十一或第二十方式,通过沿着时间轴示出基于包含关注语的集群中的字词的集群名,使得使用者能够容易地识别包含关注语的集群随时间的变化。
根据上述的第三或第十二方式,通过沿着时间轴示出将包含关注语的集群内出现频率高的字词连接而成的群组名,使得使用者能够容易地识别包含关注语的集群随时间的变化。
根据上述的第四、第五、第十三或第十四方式,通过显示包含标记(具有与变化程度对应的颜色的箭头)的第二画面,该标记具有与包含关注语的集群的名称的变化程度对应的形态,使得使用者能够容易地识别包含关注语的集群的变化程度。
根据上述的第六或第十五方式,通过将构成包含关注语的集群的名称的字词中的发生了变化的字词进行强调显示,使得使用者能够容易地识别在包含关注语的集群中出现频率高的字词是如何变化的。
根据上述的第七或第十六方式,通过除了显示包含关注语的集群随时间的变化以外,还显示包含示出关注语的出现频率随时间的变化的画面,使得使用者能够容易地识别层次性集群分析的结果随时间的变化。
根据上述的第八或第十七方式,通过在与包含关注语的集群的名称发生变化的时期对应的位置上显示分界线,并且按照每个分界线切换图形的背景形态,使得使用者能够容易地识别包含关注语的集群发生变化的时期。
根据上述的第九或第十八方式,当包含关注语的集群的名称发生大幅变化的情况较多时,通过显示包含警告消息的画面,使得使用者能够识别层次性集群分析不佳的情况。
附图说明
图1是示出本发明的实施方式所涉及的文本挖掘装置的结构的框图。
图2是示出作为图1所示的文本挖掘装置动作的计算机的结构的框图。
图3是示出图1所示的文本挖掘装置的动作的流程图。
图4是示出图1所示的文本挖掘装置所显示的层次性集群分析的结果的窗口的例子的图。
图5是示出在图4所示的窗口内指定关注语的操作的图。
图6是示出图1所示的文本挖掘装置所显示的表示分析结果随时间的变化的窗口的例子的图。
图7是示出图1所示文本挖掘装置的显示画面的例子的图。
图8A是示出层次性集群分析的结果随时间的变化的例子的图。
图8B是图8A的后续图。
图8C是图8B的后续图。
图8D是图8C的后续图。
图9是示出图1所示的文本挖掘装置所显示的窗口的图。
图10是示出树状图的例子的图。
图11是示出现有的文本挖掘装置中的层次性集群分析的结果的显示方式的图。
其中,附图标记说明如下:
10 文本挖掘装置
11 指示输入部
12 文本数据存储部
13 字词提取部
14 集群处理部
15 分析结果存储部
16 画面显示部
20 计算机
21 CPU
22 主存储器
29 鼠标
30 记录介质
31 文本挖掘程序
32 文本数据
41、51、61 窗口
42 上下文菜单
43 鼠标光标
52 曲线图形
53 关注语集群名
54 分界线
55 箭头
具体实施方式
下面,参照附图,对本发明的实施方式所涉及的文本挖掘方法、文本挖掘程序以及文本挖掘装置进行说明。典型地,使用计算机来执行本实施方式所涉及的文本挖掘方法。本实施方式所涉及的文本挖掘程序是用于使用计算机来实施文本挖掘方法的程序。典型地,使用计算机来构成本实施方式所涉及的文本挖掘装置。执行文本挖掘程序的计算机作为文本挖掘装置发挥功能。图1是表示本发明的实施方式所涉及的文本挖掘装置的结构的框图。图1所示的文本挖掘装置10具备指示输入部11、文本数据存储部12、字词提取部13、集群处理部14、分析结果存储部15以及画面显示部16。文本挖掘装置10对文本数据存储部12中存储的文本数据进行层次性集群分析,并且显示包含分析结果的画面。
文本挖掘装置10的动作概要如下所述。对指示输入部11输入来自使用者(文本数据的分析者)的指示。文本数据存储部12中存储有自由记载的一个以上的文本数据。字词提取部13通过对文本数据存储部12中存储的文本数据进行语素解析,来从文本数据中提取字词。集群处理部14对由字词提取部13提取的字词进行层次性集群分析。分析结果存储部15存储集群处理部14的分析结果。画面显示部16基于分析结果存储部15中存储的分析结果来显示画面数据。
文本数据存储部12中存储有由具有日期的句子构成的、长期(例如,几年间)累积储存的文本数据。使用者使用指示输入部11输入用于指定分析对象的文本数据、分析期间和分析间隔的指示、以及用于指定关注语的指示等。字词提取部13、集群处理部14以及画面显示部16根据来自的使用者的指示进行动作,显示包含对文本数据进行了层次性集群分析的结果的画面。另外,画面显示部16根据来自使用者的指示,显示包含层次性集群分析的结果随时间的变化的画面。
图2是示出作为文本挖掘装置10发挥功能的计算机的结构的框图。图2所示的计算机20具备CPU21、主存储器22、存储部23、输入部24、显示部25、通信部26以及记录介质读取部27。作为主存储器22例如使用DRAM。作为存储部23例如使用硬盘、固态硬盘。输入部24例如包括键盘28、鼠标29。作为显示部25例如使用液晶显示器。通信部26是有线通信或者无线通信的接口电路。记录介质读取部27是存储有程序等的存储介质30的接口电路。作为记录介质30例如使用CD-ROM、DVD-ROM、USB存储器等非暂时性记录介质。在计算机20执行文本挖掘程序31的情况下,存储部23存储文本挖掘程序31以及文本数据32。文本挖掘程序31以及文本数据32例如可以是使用通信部26从服务器、其他计算机接收到的,也可以是使用记录介质读取部27从记录介质30读取的。当执行文本挖掘程序31时,文本挖掘程序31以及文本数据32被复制转移到主存储器22。CPU21通过将主存储器22作为工作用存储器来使用,执行主存储器22中存储的文本挖掘程序31,从而进行从文本数据32中提取字词的处理、对提取出的字词进行层次性集群分析的处理、显示包含分析结果的画面的处理等。此时,计算机20作为文本挖掘装置10发挥功能。需要说明的是,上述的计算机20的结构只是一个例子,可以使用任意的计算机来构成文本挖掘装置10。图3是表示文本挖掘装置10的动作的流程图。在进行图3所示的动作前,文本数据存储部12中存储有自由记载并且累积储存的一个以上的文本数据。文本数据由具有日期(例如,作业日、受理日等)的句子构成,文本数据按照日期被划分为多个部分。文本挖掘装置10对文本数据存储部12中存储的文本数据中的由使用者指定的文本数据进行处理。
图3中,指示输入部11首先从使用者接收用于指定作为分析对象的文本数据、分析期间以及分析间隔的指示(步骤S101)。使用者使用输入部24在画面所显示的对话框(未图示)中输入这些信息。接收到的指示被输出给文本挖掘装置10的各部。
然后,字词提取部13从文本数据存储部12中读取指定的文本数据(步骤S102)。然后,字词提取部13通过对在步骤S102中读取的文本数据进行语素解析,由此从读取的文本数据中提取字词(步骤S103)。此时,字词提取部13从读取的文本数据中仅提取此后分析所需的字词。然后,集群处理部14对在步骤S103中提取出的字词进行层次性集群分析(步骤S104)。然后,集群处理部14求出在步骤S103中提取出的字词的出现频率(步骤S105)。然后,分析结果存储部15将在步骤S104中求出的层次性集群分析的结果以及在步骤S105中求出的字词的出现频率进行存储(步骤S106)。
集群处理部14从指示输入部11接收使用者指定的分析期间以及分析间隔。分析期间表示作为分析对象的文本数据中的实际进行层次性集群分析的期间。分析期间以分析间隔为单位被划分为多个期间。例如,在分析期间为2005年6月1日至2015年5月31日的期间、分析间隔为一个月的情况下,十一年的分析期间被划分为132个期间。
将分割后的期间的个数设为p。集群处理部14在步骤S104中对p个期间中的每个期间进行层次性集群分析。具体而言,集群处理部14针对p个期间中的每个期间,对在步骤S103中提取出的字词使用在步骤S102中读取的文本数据中的具有期间内日期时间的句子来进行层次性集群分析。例如,集群处理部14基于文本数据32中的两个字词之间的距离(两个字词以什么样的程度分开出现),求出两个字词之间的相似度。集群处理部14基于求出的字词之间的相似度,使用规定的方法(例如,最短距离法、最长距离法、群组平均法、十进制法、沃德法等)进行层次性集群分析。
集群处理部14在步骤S105中对p个期间中的每个期间求出字词的出现频率。在步骤S104中求出层次性集群分析的结果为p个,在步骤S105中分别求出字词的p个出现频率。分析结果存储部15在步骤S106对p个期间中的每个期间存储层次性集群分析的结果以及字词的出现频率。
然后,画面显示部16显示包含分析结果存储部15中存储的层次性集群分析的结果的画面(步骤S107)。图4是示出在步骤S107中显示的窗口的例子的图。图4所示的窗口41包含层次性集群分析的结果。当对层次性集群分析的结果设定集群数时,就可以决定各集群中包含的字词。文本挖掘装置10在显示包含层次性集群分析的结果的画面时,取代树状图而以图4所示的方式显示多个集群。
文本挖掘装置10具有集群数以及集群内最大显示数据量作为动作参数。以下,将前者设为m,将后者设为n。在初始状态下将这些值设为规定的初始值。使用者可以使用指示输入部11任意设定这些值。文本挖掘装置10中,将在步骤S103中提取出的字词分类为m个集群。各集群中包含一个以上字词。在窗口41中通过云状图显示m个集群,在各集群内部显示各集群所含的字词。各集群内部显示的字词的个数被限制为n个以下。例如,在n=5时某个集群包含十个字词的情况下,在画面中显示的集群的内部显示五个字词。
然后,指示输入部11从使用者接收指示(步骤S111)。然后,文本挖掘装置10判断在步骤S111中接收的指示是否是指定关注语的指示(步骤S112)。文本挖掘装置10进行控制,在“是”的情况下行进至步骤S121,在“否”的情况下行进至步骤S113。
在后者的情况下,在步骤S111中接收的指示例如是使窗口移动的指示、不显示窗口的指示、关闭窗口的指示等。画面显示部16按照在步骤S111中接收的指示,显示更新后的画面(步骤S113)。然后,文本挖掘装置10进行控制,行进至步骤S111。
当执行步骤S111时,显示包含层次性集群分析的结果的画面。以下,设定为当执行步骤S111时,显示包括图4所示的窗口41的画面。另外,将鼠标光标43位于显示画面内的某个要素上时点击鼠标29的按键的操作称为“点击要素”,将包含关注语的集群称为“关注语集群”,将关注语集群上标记的名称称为“关注语集群名”。
图5是示出指定关注语的操作的图。使用者在窗口41内点击(第一次点击)指定为关注语的字词(此处为“分解”)。此时,显示画面内出现上下文菜单42。使用者在上下文菜单42中点击(第二次点击)项目“前往分析结果随时间的变化”。通过该操作,将第一次点击的字词指定为关注语。
在步骤S112为“是”的情况下,画面显示部16从分析结果存储部15读取层次性集群分析的结果以及关注语的出现频率(步骤S121)。然后,画面显示部16基于读取的数据,显示包含层次性集群分析的结果随时间的变化的画面(步骤S122)。
图6是示出在步骤S122中显示的、表示分析结果随时间的变化的窗口的图。在步骤S111中将“分解”指定为关注语的情况下,显示图6所示的窗口51。例如如图7所示,窗口51与图4所示的窗口41重叠显示。
窗口51包含折线图形52,该折线图形52沿着在水平方向上延伸的时间轴表示关注语的出现频率随时间的变化。作为关注语的出现频率,例如使用关注语集群所包含的所有字词的合计出现次数中关注语的出现次数所占的比例。也可以根据使用者的指示,将关注语的出现频率切换为关注语的出现次数。
通过层次性集群分析得到的集群的结构(集群中包含的要素)随时间发生变化。为了表示集群随时间的变化,自动为集群命名。在集群仅包含一个字词的情况下,直接使用该字词作为集群名。在集群包含两个字词的情况下,使用将这两个字词按照出现频率从高到低的顺序连接而成的集合作为集群名。在集群包含三个以上字词的情况下,使用将群组中包含的字词中出现频率最高的三个字词按照出现频率从高到低的顺序连接而成的集合作为集群名。此外,在构成集群名的字词的集合相同的情况下,即使字词的顺序不同,也视作同一集群名。
图8A~图8D是示出层次性集群分析的结果随时间的变化的例子的图。图8A~图8D记载了不同月份的层次性集群分析的结果。图8A~图8D中,云状图表示集群,标记有下划线的字符串表示集群名。圆的尺寸表示圆内记载的字词的出现频率。
在图8A所示的分析结果中,从文本数据中提取出的字词被分类为包含“驱动”及“分解”的集群,包含“排气”、“压力”、“流量”及“阀门”的集群,以及包含“传送带”、“旋转”、“检查”、“电动机”、“伸展”的集群。这三个集群分别被命名为“驱动、分解”、“排气、压力、流量”以及“传送带、旋转、检查”的名称。对于图8B~图8D所示的分析结果,也通过同样的方法对三个集群命名。
当指定“分解”作为关注语时,关注语集群名在图8A所示的分析结果中是“分解、驱动”,在图8B所示的分析结果中是“驱动、传送带、旋转”,在图8C所示的分析结果中是“排气、压力、流量”,在图8D所示的分析结果中是“排气、压力、分解”。关注语集群名像这样地随时间发生变化。
除了折线图形52以外,图6所示的窗口51还包含关注语集群名53、分界线54以及箭头55。关注语集群名53沿着在水平方向上延伸的时间轴,显示在折线图形52的上部。分界线54在折线图形52内显示在与关注语集群名53发生变化的时期对应的位置。关注语集群名53表示在每个由分界线54区分的期间内。折线图形52的背景根据每个分界线54而具有不同的状态(例如,不同的颜色、不同的图案)。将构成关注语集群名53的字词中相对于此前的集群名发生了变化的字词(旧关注语集群名中不包含而新关注语集群名中包含的字词)进行强调显示。窗口51中以斜体粗体字显示这种字词。
箭头55在分界线54的上部显示在与关注语集群名53发生变化的时期对应的位置。按照与关注语集群名53的变化程度对应的方式显示箭头55。在构成关注语集群名53的所有字词均发生了变化的情况下,显示红色箭头55r。在构成关注语集群名53的字词中的两个字词发生了变化的情况下,显示蓝色箭头55b。在构成关注语集群名53的字词中的一个字词发生了变化的情况下,显示黑色箭头55n。需要说明的是,箭头55的显示方式只要根据关注语集群名53的变化程度而不同,就可以是任意方式。例如,可以是箭头55的尺寸根据关注语集群名53的变化程度而不同。
在图6所示的例子中,关注语集群名53按照“驱动、分解”、“驱动、传送带、旋转”、“排气、压力、流量”以及“排气、压力、分解”的顺序随时间发生变化。由于在第一次变化中,构成关注语集群名53的字词中有两个字词发生了变化,因此在最初的分界线54上显示蓝色箭头55b。由于在第二次变化中,构成关注语集群名53的所有字词均发生了变化,因此在第二个分界线54上显示红色箭头55r。由于在第三次变化中,构成关注语集群名53的字词中有一个字词发生了变化,因此在第三个分界线54上显示黑色箭头55n。
然后,画面显示部16针对在步骤S122中显示的画面中包含的箭头55的每个种类求出其个数(步骤S123)。然后,画面显示部16基于各种类的箭头55的个数,判断关注语集群名53的变化是否较大(步骤S124)。例如,画面显示部16可以在红色箭头55r的个数超过箭头55总数的30%的情况下判断为“是”,也可以在红色箭头55r的个数与蓝色箭头55b的个数的合计超过箭头55的总数的60%的情况下判断为“是”。文本挖掘装置10进行控制,在“是”的情况下行进至步骤S125,在“否”的情况下行进至步骤S111。
在前者的情况下,画面显示部16显示包含警告消息的画面(步骤S125)。图9是示出在步骤S125中显示的窗口的图。由于关注语集群的结构发生大幅变化的情况较多,因此图9所示的窗口61中包含提示重新进行层次性集群分析的设定(例如,集群数、对象字词的数量)的警告消息。然后,文本挖掘装置10进行控制,行进至步骤S111。
如上所述,本实施方式所涉及的文本挖掘方法包括从由具有日期的句子构成的文本数据中提取字词的步骤(步骤S102、S103)、对提取出的字词针对每个分析期间进行层次性集群分析的步骤(步骤S104)、以及显示包含层次性集群分析的分析结果的画面的步骤(步骤S107、S113、S121~S125)。当在包含分析结果的第一画面(包含窗口41的画面)内输入了用于指定关注语的指示时(图5),在显示画面的步骤(步骤S122)中显示用于表示包含关注语的集群随时间的变化的第二画面(包含窗口51的画面)。根据本实施方式所涉及的文本挖掘方法,当在包含层次性集群分析的结果的第一画面内输入了用于指定有关注语的指示时,通过显示用于表示包含关注语的集群随时间的变化的第二画面,使得使用者能够容易地识别层次性集群分析的结果随时间的变化。
另外,第二画面沿着时间轴示出基于包含关注语的集群中包含的字词的集群名(关注语集群名53)。另外,该集群名是将包含关注语的集群中所包含的字词按照出现频率从高到低的顺序连接规定个数以下(三个以下)的字词而成的。因此,使用者能够容易地识别包含关注语的群组随时间的变化。
另外,第二画面在与包含关注语的集群的名称发生变化的时期对应的位置包含标记,该标记具有与集群名的变化程度对应的状态。该标记可以是具有与集群名的变化程度对应的颜色的箭头55。通过显示包含这种标记(箭头55)的第二画面,使得使用者能够容易地识别包含关注语的集群的名称的变化程度。另外,将构成集群名的字词中相对于之前的集群名发生了变化的字词(图6所示的“传送带”、“旋转”等)在第二画面内进行强调显示。因此,使用者能够容易地识别在包含关注语的集群中出现频率高的字词是如何变化的。
另外,第二画面包含沿着时间轴表示关注语的出现频率随时间的变化的图形(折线图形52)。通过除了显示包含关注语的集群随时间的变化以外还显示包括用于表示关注语的出现频率随时间的变化的图形的画面,使得使用者能够容易地识别层次性集群分析的结果随时间的变化。另外,第二画面在与包含关注语的集群的名称发生变化的时期对应的位置包含分界线54,并且图形的背景按照每个分界线具有不同的形态。因此,使用者能够容易地识别包含关注语的集群发生变化的时期。另外,当包含关注语的群组的名称发生大幅变化的情况较多时,显示画面的步骤将包含警告消息的画面(包含窗口61的画面)进行显示。因此,使用者能够确认层次性集群分析不佳的情况。
本实施方式所涉及的文本挖掘装置10以及文本挖掘程序31具有与上述文本挖掘方法同样的特征,并且实现同样的效果。根据本实施方式所涉及的文本挖掘方法、文本挖掘装置10以及文本挖掘程序31,使用者能够容易地识别层次性集群分析的结果随时间的变化。以上详细地说明了本发明,但以上的说明在所有内容只是示例性的,并不限制本发明。应当理解的是,在不脱离本发明的范围的情况下,可以提出许多其他的变更、变形。

Claims (20)

1.一种文本挖掘方法,显示包含文本数据的分析结果的画面,其特征在于,所述文本挖掘方法包括:
从由具有日期的句子构成的文本数据中提取字词的步骤;
对所述字词按照每个分析期间进行层次性集群分析的步骤;以及
将包含所述层次性集群分析的结果的画面进行显示的步骤,
当在包含所述结果的第一画面内输入了用于指定关注语的指示时,在显示所述画面的步骤中进行第二画面的显示,所述第二画面示出包含所述关注语的集群随时间的变化。
2.根据权利要求1所述的文本挖掘方法,其特征在于,
所述第二画面沿着时间轴示出基于所述集群中包含的字词的集群名。
3.根据权利要求2所述的文本挖掘方法,其特征在于,
所述集群名是将所述集群中包含的字词按照出现频率从高到低的顺序连接规定个数以下的所述字词而成的。
4.根据权利要求2所述的文本挖掘方法,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含标记,所述标记具有与所述集群名的变化程度对应的形态。
5.根据权利要求4所述的文本挖掘方法,其特征在于,
所述标记是具有与所述集群名的变化程度对应的颜色的箭头。
6.根据权利要求2所述的文本挖掘方法,其特征在于,
将构成所述集群名的字词中的、相对于前一个集群名发生了变化的字词,在所述第二画面内进行强调显示。
7.根据权利要求2所述的文本挖掘方法,其特征在于,
所述第二画面还包含沿着所述时间轴表示所述关注语的出现频率随时间的变化的图形。
8.根据权利要求7所述的文本挖掘方法,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含分界线,所述图形的背景具有以每个所述分界线为边界的不同的形态。
9.根据权利要求2所述的文本挖掘方法,其特征在于,
当所述集群名发生大幅变化的情况多时,在显示所述画面的步骤中显示包含警告消息的画面。
10.一种文本挖掘存储介质,存储有用于显示包含文本数据的分析结果的画面的文本挖掘程序,其特征在于,
在计算机上使CPU利用存储器执行:
从由具有日期的句子构成的文本数据中提取字词的步骤;
对所述字词按照每个分析期间进行层次性集群分析的步骤;以及
将包含所述层次性集群分析的结果的画面进行显示的步骤,
当在包含所述结果的第一画面内输入了用于指定关注语的指示时,在显示所述画面的步骤中进行第二画面的显示,所述第二画面示出包含所述关注语的集群随时间的变化。
11.根据权利要求10所述的文本挖掘存储介质,其特征在于,
所述第二画面沿着时间轴示出基于所述集群中包含的字词的集群名。
12.根据权利要求11所述的文本挖掘存储介质,其特征在于,
所述集群名是将所述集群中包含的字词按照出现频率从高到低的顺序连接规定个数以下的所述字词而成的。
13.根据权利要求11所述的文本挖掘存储介质,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含标记,所述标记具有与所述集群名的变化程度对应的形态。
14.根据权利要求13所述的文本挖掘存储介质,其特征在于,
所述标记是具有与所述集群名的变化程度对应的颜色的箭头。
15.根据权利要求11所述的文本挖掘存储介质,其特征在于,
将构成所述集群名的字词中的、相对于前一个集群名发生了变化的字词,在所述第二画面内进行强调显示。
16.根据权利要求11所述的文本挖掘存储介质,其特征在于,
所述第二画面还包含沿着所述时间轴表示所述关注语的出现频率随时间的变化的图形。
17.根据权利要求16所述的文本挖掘存储介质,其特征在于,
所述第二画面在与所述集群名发生变化的时期对应的位置上还包含分界线,所述图形的背景具有以每个所述分界线为边界的不同的形态。
18.根据权利要求11所述的文本挖掘存储介质,其特征在于,
当所述集群名发生大幅变化的情况多时,在显示所述画面的步骤中显示包含警告消息的画面。
19.一种文本挖掘装置,显示包含文本数据的分析结果的画面,其特征在于,所述文本挖掘装置具有:
字词提取部,从由具有日期的句子构成的文本数据中提取字词;
集群处理部,对所述字词按照每个分析期间进行层次性集群分析;以及
画面显示部,将包含所述层次性集群分析的结果的画面进行显示,
当在包含所述结果的第一画面内输入了用于指定关注语的指示时,所述画面显示部进行第二画面的显示,所述第二画面示出包含所述关注语的集群随时间的变化。
20.根据权利要求19所述的文本挖掘装置,其特征在于,
所述第二画面沿着时间轴示出基于所述集群中包含的字词的集群名。
CN201910164187.1A 2018-03-20 2019-03-05 文本挖掘方法、文本挖掘存储介质及文本挖掘装置 Active CN110309260B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-052073 2018-03-20
JP2018052073A JP7078429B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Publications (2)

Publication Number Publication Date
CN110309260A true CN110309260A (zh) 2019-10-08
CN110309260B CN110309260B (zh) 2023-07-18

Family

ID=68064564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910164187.1A Active CN110309260B (zh) 2018-03-20 2019-03-05 文本挖掘方法、文本挖掘存储介质及文本挖掘装置

Country Status (4)

Country Link
JP (1) JP7078429B2 (zh)
KR (1) KR102175658B1 (zh)
CN (1) CN110309260B (zh)
TW (1) TWI736860B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102359033B1 (ko) * 2020-02-18 2022-02-04 목포해양대학교 산학협력단 Lng 선박 정비 연관성을 이용한 예방 정비 모델 생성 방법 및 그 시스템

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
JP2007086911A (ja) * 2005-09-20 2007-04-05 Nec Corp 文章入力装置、文章入力方法及び文章入力用プログラム
JP2010224823A (ja) * 2009-03-23 2010-10-07 Toshiba Corp 共起表現抽出装置及び共起表現抽出方法
CN103593340A (zh) * 2013-10-28 2014-02-19 茵鲁维夫有限公司 自然表达信息处理方法、处理及回应方法、设备及系统
CN104978407A (zh) * 2015-06-18 2015-10-14 上海交通大学 用于高维数据特征属性变化趋势的可视化呈现系统及方法
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及系统
WO2018020842A1 (ja) * 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100913027B1 (ko) * 2002-09-23 2009-08-20 이원석 데이터 마이닝 시스템 및 그 방법
US7644053B2 (en) * 2004-03-03 2010-01-05 The Boeing Company System, method, and computer program product for combination of cognitive causal models with reasoning and text processing for knowledge driven decision support
KR100816934B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 결과를 이용한 군집화 시스템 및 그 방법
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
KR101091185B1 (ko) * 2010-02-25 2011-12-09 고려대학교 산학협력단 뉴스 데이터 분석 장치 및 방법
TWI501097B (zh) * 2012-12-22 2015-09-21 Ind Tech Res Inst 文字串流訊息分析系統和方法
JP5592552B1 (ja) * 2013-10-25 2014-09-17 株式会社Ubic 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
JP2007086911A (ja) * 2005-09-20 2007-04-05 Nec Corp 文章入力装置、文章入力方法及び文章入力用プログラム
JP2010224823A (ja) * 2009-03-23 2010-10-07 Toshiba Corp 共起表現抽出装置及び共起表現抽出方法
CN103593340A (zh) * 2013-10-28 2014-02-19 茵鲁维夫有限公司 自然表达信息处理方法、处理及回应方法、设备及系统
CN104978407A (zh) * 2015-06-18 2015-10-14 上海交通大学 用于高维数据特征属性变化趋势的可视化呈现系统及方法
WO2018020842A1 (ja) * 2016-07-25 2018-02-01 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
CN106933809A (zh) * 2017-03-27 2017-07-07 三角兽(北京)科技有限公司 信息处理装置及信息处理方法
CN107291886A (zh) * 2017-06-21 2017-10-24 广西科技大学 一种基于增量聚类算法的微博话题检测方法及系统

Also Published As

Publication number Publication date
JP7078429B2 (ja) 2022-05-31
KR20190110435A (ko) 2019-09-30
CN110309260B (zh) 2023-07-18
JP2019164592A (ja) 2019-09-26
KR102175658B1 (ko) 2020-11-06
TWI736860B (zh) 2021-08-21
TW201941083A (zh) 2019-10-16

Similar Documents

Publication Publication Date Title
Greenberg et al. Design patterns for wildlife‐related camera trap image analysis
US9519692B2 (en) Visualizing related events within a timeline
US8504348B2 (en) User simulation for viewing web analytics data
JP6404889B2 (ja) マルチセンサビジュアルアナリティクスのためのプロセッサ実装方法、マルチセンサデータを要約するシステム、及びマルチセンサビジュアルアナリティクスのための方法を実行するためのコンピュータプログラムを具現化した非一時的なコンピュータ可読媒体
US9348581B2 (en) Systems, method and computer program products for tracking and viewing changes to information stored in a data structure
CN101430758B (zh) 文档识别装置和方法
Paternò et al. Customizable automatic detection of bad usability smells in mobile accessed web applications
CN104205062A (zh) 剖析数据可视化
EP2713319A1 (en) Analyzing and displaying multidimensional data
CN108011928A (zh) 一种信息推送方法、终端设备及计算机可读介质
US20170052669A1 (en) Navigation and visualization of multi-dimensional data
Bao et al. Reverse engineering time-series interaction data from screen-captured videos
US20120215804A1 (en) Data-programming environment
US20040153971A1 (en) System and method for checking and resolving publication design problems
Abad et al. Learn more, pay less! lessons learned from applying the wizard-of-oz technique for exploring mobile app requirements
CN102426570B (zh) 示出统计图中影响因素的方法和设备
CN110309260A (zh) 文本挖掘方法、文本挖掘存储介质及文本挖掘装置
Dal Sasso et al. Blended, not stirred: Multi-concern visualization of large software systems
US9189561B2 (en) Bridge event analytics tools and techniques
Bateman et al. Interactive usability instrumentation
CN102542426A (zh) 可视化进销存管理系统和管理方法
Nguyen et al. A survey of analytic provenance
US20100251211A1 (en) Generating and using code-based diagrams
CN114675818B (zh) 一种基于粗糙集理论的度量可视化工具的实现方法
Jakobsen et al. Fisheyes in the field: using method triangulation to study the adoption and use of a source code visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant