CN110309290B - 文本挖掘方法、文本挖掘程序以及文本挖掘装置 - Google Patents

文本挖掘方法、文本挖掘程序以及文本挖掘装置 Download PDF

Info

Publication number
CN110309290B
CN110309290B CN201910096738.5A CN201910096738A CN110309290B CN 110309290 B CN110309290 B CN 110309290B CN 201910096738 A CN201910096738 A CN 201910096738A CN 110309290 B CN110309290 B CN 110309290B
Authority
CN
China
Prior art keywords
occurrence
text data
screen
word
occurrence network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910096738.5A
Other languages
English (en)
Other versions
CN110309290A (zh
Inventor
柿木未希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Screen Holdings Co Ltd
Original Assignee
Screen Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Screen Holdings Co Ltd filed Critical Screen Holdings Co Ltd
Publication of CN110309290A publication Critical patent/CN110309290A/zh
Application granted granted Critical
Publication of CN110309290B publication Critical patent/CN110309290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)

Abstract

文本挖掘方法包括:从文本数据中提取字词的步骤;针对提取的字词生成共现矩阵的步骤;基于生成的共现矩阵生成共现网络的步骤;以及显示包含生成的共现网络的画面的步骤。当在包含以指定的整体文本数据为基础的第一共现网络的第一画面中输入指定关注语的指示时,从限定文本数据中提取字词,该限定文本数据由指定的文本数据中的包含关注语的部分构成,针对提取的字词使用限定文本数据生成第二共现矩阵,基于第二共现矩阵生成第二共现网络,显示包含第二共现网络的第二画面。

Description

文本挖掘方法、文本挖掘程序以及文本挖掘装置
技术领域
本发明涉及文本挖掘,尤其,涉及用于显示包含字词的共现网络的画面的文本挖掘方法、文本挖掘程序以及文本挖掘装置。
背景技术
近年来,分析自由描述的文本数据并从分析结果获取有用的信息的文本挖掘引起关注。在文本挖掘中,例如,通过从作为分析对象的文本数据中提取字词,并分析字词的出现频率或出现倾向等来获取信息。
在分析自由描述的文本数据时,分析人不是在初始阶段主观地选择对象,而是需要掌握文本数据的整体。因此,分析人可以使用文本数据中包含的字词的共现网络。
图19是表示共现网络的例子的图。共现网络从文本数据中提取相同句子中包含的较多的词对,并将其结果通过无向图表现。当作为分析对象的文本数据中字词Wa和字词Wb包含在相同句子中的情况较多时,共现网络中包含与字词Wa对应的节点、与字词Wb对应的节点以及连接两者的边。图19所示的共现网络中包含与“员工”对应的节点、与“对应”对应的节点以及连接两者的边。观察图19所示的共现网络,可知在作为分析对象的文本数据中“员工”和“对应”包含在相同句子中的情况较多。
通常,共现网络是基于指定的整体文本数据生成的。以下,将这种共现网络称为“整体共现网络”。分析人可以根据自己做出的假设或分析目的从整体共现网络中选择多个应关注的字词(以下,称为关注语),考虑关注语进行以下分析。
为了判断选择的关注语是否适合于分析目的等,分析人在选择关注语时,考察包含关注语的句子中如何使用关注语。因此,分析人有时使用以指定的文本数据中的、由包含关注语的句子构成的文本数据(以下,称为限定文本数据)为基础的共现网络。需要说明的是,所谓“包含关注语的句子”不仅指包含关注语的单个句子,还指含有包含关注语的句子的段落等以模块单位分割的多个句子(句子集合)。以下,将这种共现网络称为“限定共现网络”。分析人通过使用限定共现网络,可以掌握限定文本数据的内容。分析人可反复参照整体共现网络和限定共现网络,直至选择所有关注语。
以下的本挖掘装置生成文本数据中包含的字词的共现网络,并显示包含所生成的共现网络的画面。日本特开平8-314980号公报中记载了一种文档数据库显示装置,其对多个文档中的每一个文档生成整体共现网络,并显示包含所生成的多个整体共现网络的画面。该显示装置从多个整体共现网络中搜索用户输入的字词,并在画面上强调显示搜索到的字词。
现有技术的文本挖掘装置基于指定的整体文本数据生成共现网络。因此,根据现有技术的文本挖掘装置,可以容易地显示包含整体共现网络的画面。
另一方面,当使用现有技术的文本挖掘装置来显示包含限定共现网络的画面时,分析人需要进行复杂的操作。具体地,分析人每次从整体共现网络中选择一个关注语时,都需要基于指定的文本数据生成限定文本数据,并将所生成的限定文本数据提供给文本挖掘装置。此外,分析人在选择关注语时,参考整体共现网络和限定共现网络两者。因此,文本挖掘装置需要存储整体共现网络的图像数据和限定共现网络的图像数据。然而,当生成较多的共现网络时,难以进行图像数据的存储和管理。
发明内容
因此,本发明的目的在于提供一种文本挖掘方法、文本挖掘程序以及文本挖掘装置,其可以通过简单的操作来显示包含指定了关注语的共现网络的画面。
本发明的第一方式是文本挖掘方法,用于显示包含文本数据的分析结果的画面,其特征在于,包括:
从文本数据中提取字词的步骤;
针对所述字词生成共现矩阵的步骤;
基于所述共现矩阵生成共现网络的步骤;以及
显示包含所述共现网络的画面的步骤;
当在包含以指定的文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,提取所述字词的步骤为从限定文本数据中提取所述字词,该限定文本数据由所述指定的文本数据中的包含所述关注语的部分构成,生成所述共现矩阵的步骤为针对所述字词使用所述限定文本数据生成第二共现矩阵,生成所述共现网络的步骤为基于所述第二共现矩阵生成第二共现网络,显示所述画面的步骤为显示包含所述第二共现网络的第二画面。
根据本发明的第一方式,本发明的第二方式的特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个节点并选择开始分析,从而输入将与所述节点对应的字词指定为所述关注语的指示。
根据本发明的第一方式,本发明的第三方式的特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个节点,从而输入与所述节点对应的字词指定为所述关注语的指示。
根据本发明的第一方式,本发明的第四方式的特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个边,从而输入将与所述边连接的两个节点所对应的字词指定为所述关注语的指示。
根据本发明的第一方式,本发明的第五方式的特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个边并选择开始分析,从而输入将与所述边连接的多个节点所对应的字词指定为所述关注语的指示。
根据本发明的第一方式,本发明的第六方式的特征在于,
当在包含多个第二共现网络的第二画面中输入了合并指示时,显示所述画面的步骤以选项卡的方式显示所述多个第二共现网络。
根据本发明的第六方式,本发明的第七方式的特征在于,
通过在所述第二画面中抓取一个第二共现网络并释放到另一个第二共现网络中,从而输入所述合并指示。
根据本发明的第一方式,本发明的第八方式的特征在于,
所述限定文本数据由所述指定的文本数据中的、包含所述关注语的句子构成。
根据本发明的第一方式,本发明的第九方式的特征在于,
指定了多个关注语的所述限定文本数据由所述指定的文本数据中的、包含所有所述多个关注语的句子构成。
根据本发明的第八方式,本发明的第十方式的特征在于,
指定了多个关注语的所述限定文本数据由所述指定的文本数据中的、包含所述多个关注语中的任意一个关注语的句子构成。
根据本发明的第一方式,本发明的第十一方式的特征在于,
生成所述共现矩阵的步骤中,生成将Jaccard系数作为元素的共现矩阵。
本发明的第十二方式是计算机可读取的记录介质,其上存储有文本挖掘程序,所述文本挖掘程序用于显示包含文本数据的分析结果的画面,其特征在于,
所述所述文本挖掘程序在计算机上使CPU利用存储器执行:
从文本数据中提取字词的步骤;
针对所述字词生成共现矩阵的步骤;
基于所述共现矩阵生成共现网络的步骤;以及
显示包含所述共现网络的画面的步骤,
当在包含以指定的文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,提取所述字词的步骤为从限定文本数据中提取所述字词,该限定文本数据由所述指定的文本数据中的包含所述关注语的部分构成,生成所述共现矩阵的步骤为针对所述字词使用所述限定文本数据生成第二共现矩阵,生成所述共现网络的步骤为基于所述第二共现矩阵生成第二共现网络,显示所述画面的步骤为显示包含所述第二共现网络的第二画面。
根据本发明的十二方式,本发明的第十三方式的特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个节点并选择开始分析,从而输入将与所述节点对应的字词指定为所述关注语的指示。
根据本发明的十二方式,本发明的第十四方式的特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个节点,从而输入将与所述节点对应的字词指定为所述关注语的指示。
根据本发明的十二方式,本发明的第十五方式的特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个边,从而输入将与所述边连接的两个节点所对应的字词指定为所述关注语的指示。
根据本发明的十二方式,本发明的第十六方式的特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个边并选择开始分析,从而输入将与所述边连接的多个节点所对应的字词指定为所述关注语的指示。
根据本发明的十二方式,本发明的第十七方式的特征在于,
在包含多个第二共现网络的第二画面中输入了合并指示时,显示所述画面的步骤为以选项卡方式显示所述多个第二共现网络。
根据本发明的十七方式,本发明的第十八方式的特征在于,
通过在所述第二画面中抓取一个第二共现网络并释放到另一个第二共现网络中,从而输入所述合并指示。
本发明的第十九方式是文本挖掘装置,用于显示包含文本数据的分析结果的画面,其特征在于,包括:
字词提取部,从文本数据中提取字词;
共现矩阵生成部,针对所述字词生成共现矩阵;
共现网络生成部,基于所述共现矩阵生成共现网络;以及
画面显示部,显示包含所述共现网络的画面,
当在包含以指定的文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,所述字词提取部从限定文本数据中提取所述字词,该限定文本数据由所述指定的文本数据中的包含所述关注语的部分构成,所述共现矩阵生成部针对所述字词使用所述限定文本数据生成二共现矩阵,所述共现网络生成部基于所述第二共现矩阵生成第二共现网络,所述画面显示部显示包含所述第二共现网络的第二画面。
根据本发明的十九方式,本发明的第二十方式的特征在于,
在包含多个第二共现网络的第二画面中输入了合并指示时,所述画面显示部以选项卡方式显示所述多个第二共现网络。
发明效果
根据所述第一、第十二或第十九方式,当在包含以指定的文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,显示包含以文本数据中的包含关注语的部分为基础的第二共现网络的第二画面。因此,可以通过简单的操作显示包含指定关注语的共现网络的画面。
根据所述第二或第十三方式,通过在第一画面中选择一个或多个节点和开始分析,可以通过简单的操作来输入指定一个或多个关注语的指示,并显示包含指定一个或多个关注语的共现网络的画面。
根据所述第三或第十四方式,通过在第一画面中连续选择一个节点,可以通过简单的操作来输入指定一个关注语的指示,并显示包含指定了一个关注语的共现网络的画面。
根据所述第四或第十五方式,通过在第一画面中连续选择一个边,可以通过简单的操作来输入指定两个关注语的指示,并显示包含指定了两个关注语的共现网络的画面。
根据所述第五或第十六方式,通过在第一画面中选择一个或多个边和开始分析,可以通过更简单的操作来输入指定多个关注语的指示,并显示包含指定了多个关注语的共现网络的画面。
根据所述第六、第十七或第二十方式,当输入了合并指示时,通过以选项卡方式显示多个第二共现网络,可以紧凑地显示多个第二共现网络。
根据所述第七或第十八方式,通过在第二画面中抓取并释放第二共现网络,可以通过简单的操作来输入合并指示,并能够紧凑地显示多个第二共现网络。
根据所述第八方式,当输入了指定关注语的指示时,可以通过以句子为单位划分指定的文本数据来获取限定文本数据,并显示包含以获取的限定文本数据为基础的第二共现网络的画面。
根据所述第九或第十方式,可以显示包含进行了多个关注语的AND处理或OR处理的第二共现网络的画面。
根据所述第十一方式,通过生成将Jaccard系数作为元素的共现矩阵,可以适当地分析包含在文本数据的字词的共现性。
附图说明
图1是表示本发明的实施方式的文本挖掘装置的结构的框图。
图2是表示用作图1所示的文本挖掘装置的计算机的结构的框图。
图3是表示图1所示的文本挖掘装置的操作的流程图。
图4是表示在图1所示的文本挖掘装置中生成的共现矩阵的例子的图。
图5是表示由图1所示的文本挖掘装置显示的包含整体共现网络的窗口的例子的图。
图6是表示在图5所示的窗口内指定关注语的第一操作的图。
图7是表示在图5所示的窗口内指定关注语的第二操作的图。
图8是表示在图5所示的窗口内指定关注语的第三操作的图。
图9是表示在图5所示的窗口内指定关注语的第四操作的图。
图10是表示在图5所示的窗口内指定关注语的第五操作的图。
图11是表示在图5所示的窗口内指定关注语的第六操作的图。
图12是表示由图1所示的文本挖掘装置显示的包含限定共现网络的窗口的例子的图。
图13是表示由图1所示的文本挖掘装置显示的包含限定共现网络的窗口的例子的图。
图14是表示图1所示的文本挖掘装置的显示画面的例子的图。
图15是表示图1所示的文本挖掘装置的显示画面的例子的图。
图16是表示图1所示的文本挖掘装置的显示画面的例子的图。
图17是表示在图1所示的文本挖掘装置中合并窗口的操作的图。
图18是表示进行了图17所示的操作之后的显示画面的图。
图19是表示共现网络的例子的图。
附图标记说明
10 文本挖掘装置
11 指示输入部
12 文本数据存储部
13 字词提取部
14 共现矩阵生成部
15 共现网络生成部
16 画面显示部
20 计算机
21 CPU
22 主存储器
29 鼠标
30 记录介质
31 文本挖掘程序
32 文本数据
41~45 窗口
51 整体共现网络
52~54 限定共现网络
61 分析按钮
62 鼠标光标
63~64 选项卡
71~75 画面
具体实施方式
以下,参照附图说明根据本发明的实施方式的文本挖掘方法、文本挖掘程序以及文本挖掘装置。典型地使用计算机来执行本实施方式的文本挖掘方法。根据本实施方式的文本挖掘程序是用于使用计算机执行文本挖掘方法的程序。典型地使用计算机来构成本实施方式的文本挖掘装置。将执行文本挖掘程序的计算机用作文本挖掘装置。
图1是表示根据本发明的实施方式的文本挖掘装置的结构的框图。图1所示的文本挖掘装置10具有:指示输入部11、文本数据存储部12、字词提取部13、共现矩阵生成部14、共现网络生成部15以及画面显示部16。文本挖掘装置10基于存储在文本数据存储部12的文本数据生成共现网络作为文本数据的分析结果,并显示包含生成的共现网络的画面。
文本挖掘装置10的操作如下所述。来自用户(文本数据的分析人)的指示输入到指示输入部11中。文本数据存储部12存储自由描述的一个以上的文本数据。字词提取部13从文本数据存储部12中读取指定的文本数据,对读取的文本数据进行语素分析,从文本数据中提取字词。共现矩阵生成部14生成由字词提取部13提取的字词的共现矩阵。共现网络生成部15基于由共现矩阵生成部14生成的共现矩阵来生成共现网络。画面显示部16显示包含由共现网络生成部15生成的共现网络的画面。
用户使用指示输入部11输入指定作为分析对象的文本数据的指示、指定关注语的指示等。字词提取部13、共现网络生成部15以及画面显示部16根据来自用户的指示进行用于显示包含共现网络的画面的操作。当输入了指定文本数据的指示时,基于指定的整体文本数据,生成共现网络,并显示包含整体共现网络的画面。当在包含整体共现网络的画面中输入了指定关注语的指示时,生成以指定的文本数据中的、包含关注语的句子为基础的限定共现网络,并显示包含限定共现网络的画面。
图2是表示用作文本挖掘装置10的计算机的结构的框图。图2所示的计算机20包括:CPU21、主存储器22、存储部23、输入部24、显示部25、通信部26以及记录介质读取部27。主存储器22中例如使用DRAM。存储部23中例如使用硬盘或固态驱动器。输入部24中例如包括键盘28和鼠标29。显示部25中例如使用液晶显示器。通信部26是有线通信或无线通信的接口电路。记录介质读取部27是存储程序等的记录介质30的接口电路。记录介质30中使用例如CD-ROM、DVD-ROM、USB存储器等的非暂时性记录介质。
当计算机20执行文本挖掘程序31时,存储部23存储文本挖掘程序31和文本数据32。文本挖掘程序31和文本数据32例如可以使用通信部26从服务器或其他计算机来接收,或者可以使用记录介质读取部27从记录介质30中读取。
当执行文本挖掘程序31时,文本挖掘程序31和文本数据32复制转移到主存储器22。CPU21利用主存储器22作为工作存储器,通过执行存储在主存储器22中的文本挖掘程序31,进行从文本数据32提取字词的处理、针对提取的字词生成共现矩阵的处理、基于生成的共现矩阵生成共现网络的处理、显示包含所生成的共现网络的画面的处理等。此时,计算机20用作文本挖掘装置10。需要说明的是,以上所述的计算机20的结构只是一个例子,可以使用任意的计算机来构成文本挖掘装置10。
图3是表示文本挖掘装置10的操作的流程图。在进行图3所示的操作之前,文本数据存储部12存储有一个以上自由描述的文本数据。每个文本数据包含多个句子。文本挖掘装置10在存储于文本数据存储部12的文本数据之中对用户指定的文本数据进行处理。
在图3中,指示输入部11首先从用户接收指定文本数据的指示(步骤S101)。此时,除了指定文本数据的指示之外,指示输入部11还可以接收用于设定共现矩阵的基准值(后述中将详细描述)的指示、在AND处理和OR处理(后述中将详细描述)之间切换的指示、以及用于详细设定共现网络的显示形态的指示等。接收的指示将输出到文本挖掘装置10的每个单元。
然后,字词提取部13从文本数据存储部12中读取指定的文本数据(步骤S102)。然后,字词提取部13通过对在步骤S102中读取的文本数据进行语素分析,从读取的文本数据中提取字词(步骤S103)。此时,字词提取部13从读取的文本数据中仅提取此后分析所需的字词。然后,共现矩阵生成部14通过使用在步骤S102中读取的文本数据来生成在步骤S103中提取的字词的共现矩阵(步骤S104)。
图4是表示在文本挖掘装置14中生成的共现矩阵的例子的图。共现矩阵的元素是针对词对获取的Jaccard系数。对于作为分析对象的文本数据,将包含字词Wa的句子的集合设定为A,将包含字词Wb的句子的集合设定为B。词对(Wa,Wb)的Jaccard系数K(Wa,Wb)由下面公式(1)给出。
K(Wa,Wb)=|A∩B|/|A∪B|(1)
在公式(1)中,符号∩表示用于求交集的运算,符号∪表示用于求并集的运算,|S|表示包含在集合S中的元素的个数。
在步骤S104中,共现矩阵生成部14针对从步骤S102读取的整体文本数据中提取的所有词对求出Jaccard系数,并生成将求出的Jaccard系数作为元素的共现矩阵。共现矩阵的行和列对应从步骤S102读取的整体文本数据中提取的字词的种类。当从读取的整体文本数据中提取出n个种类的字词时,步骤S104生成的共现矩阵是所有对角元素为1的n行n列的对称矩阵。
需要说明的是,共现矩阵生成部14也可以将文本数据通过句子以外的单位进行划分从而求出Jaccard系数。例如,共现矩阵生成部14可以将包含字词Wa的段落的集合设为A,将包含字词Wb的段落的集合设为B,根据公式(1)求出Jaccard系数。此外,当文本数据中包含的句子具有日期时,共现矩阵生成部14可以将文本数据分成由具有相同日期的句子构成的多个部分,将包含字词Wa的部分的集合设为A,将包含字词Wb的部分的集合设为B,并根据公式(1)求出Jaccard系数。此外,共现矩阵生成部14也可以生成包含表示字词的共现性的其他值(例如,辛普森系数和余弦距离等)作为元素的共现矩阵。
然后,共现网络生成部15基于在步骤S104中生成的共现矩阵来生成整体共现网络(步骤S105)。然后,画面显示部16显示包含步骤S105生成的整体共现网络的画面(步骤S106)。图5是表示步骤S106显示的、包含整体共现网络的窗口的例子的图。图5所示的窗口41包含整体共现网络51和分析按钮61。分析按钮61用于指示开始分析。
共现网络生成部15具有共现矩阵的基准值(以下,称为V)。基准值V可以是预设值,也可以是用户使用指示输入部11设定的值。在步骤S104生成的共现矩阵中,当与字词Wa对应的行中包含的Jaccard系数K(Wa,*)的最大值为基准值V以上时,共现网络生成部15将与字词Wa对应的节点(记载为字词Wa的节点)包含到整体共现网络中。此外,在步骤S104生成的共现矩阵中,当与词对(Wa,Wb)相关的Jaccard系数K(Wa,Wb)为基准值V以上时,共现网络生成部15将连接与字词Wa对应的节点和与字词Wb对应的节点的边包含到整体共现网络中。
在图5所示的整体共现网络51中,与出现频率较高的字词对应的节点显示得较大。当显示包含共现网络的画面时,如果Jaccard系数K(Wa,Wb)较大,则可以将连接与字词Wa对应的节点和与字词Wb对应的节点的边显示得较粗。此外,也可以根据Jaccard系数来切换边的颜色,或者切换边的粗细和颜色两者。共现网络被分成可通过边到达的多个部分。在显示包含共现网络的画面时,可以按照分配给各部分的颜色来显示包含在各单元中的多个节点。需要说明的是,共现网络中包含的节点与边的位置无关。
然后,指示输入部11从用户接收指定关注语的指示(步骤S111)。当执行步骤S111时,显示包含整体共现网络的画面。用户操作鼠标29以选择整体共现网络的元素,从而输入指定关注语的指示。需要说明的是,用户在输入指示时,可以代替鼠标29使用键盘28,或者也可以在显示画面直接进行触摸等操作。以下,在执行步骤S111时,显示有包含图5所示的窗口41的画面。
图6~图11是分别表示用于在窗口41中指定关注语的第一~第六的操作的图。在图6~图11中,对话框表示操作的过程,白色箭头表示鼠标光标62的移动。对话框和箭头在实际的画面中不显示。以下,将鼠标光标62位于显示画面内的某元素上时点击(双击)鼠标29的按钮的操作称作“点击(双击)元素”。
如图6所示,用户首先在窗口41上点击(首次点击)与指定为关注语的字词(此处是“露天浴池”)对应的节点,然后点击(第二次点击)分析按钮61。通过该操作,与第一次点击的节点对应的字词被指定为关注语。这样,通过在包含整体共现网络的画面中选择整体共现网络中包含的一个节点并选择开始分析,可以输入指定一个关注语的指示。
如图7所示,用户在窗口41上双击与指定为关注语的字词(此处是“露天浴池”)对应的节点。通过该操作,与双击的节点对应的字词被指定为关注语。这样,通过在包含整体共现网络的画面中连续选择整体共现网络中包含的一个节点,可以输入指定一个关注语的指示。
如图8所示,用户首先在窗口41上点击(首次点击)与指定为关注语的字词(此处为“露天浴池”)对应的节点,然后点击(第二次点击)与指定为关注语的另一个字词(此处为“价格”)对应的节点,最后点击(最后一次点击)分析按钮61。通过该操作,与第一次和第二次点击的节点对应的两个字词被指定为关注语。用户在窗口41上也可以依次点击p个(p是3以上的整数)节点,最后点击分析按钮61。通过该操作,与p个节点对应的p个字词被指定为关注语。这样,通过在包含整体共现网络的画面中选择整体共现网络中包含中的多个节点并选择开始分析,可以输入指定多个关注语的指示。
如图9所示,用户在窗口41上双击连接两个节点的边,该两个节点与指定为关注语的两个字词(此处为“露天浴池”和“台阶”)对应。这样,与双击的边连接的两个节点所对应的两个字词被指定为关注语。这样,通过在包含整体共现网络的画面上连续选择整体共现网络中包含的一个边,可以输入指定两个关注语的指示。
如图10所示,用户在窗口41上首先点击(首次点击)连接两个节点的边,该两个节点与指定为关注语的两个字词(此处为“露天浴池”和“台阶”)对应,然后点击(第二次点击)分析按钮61。这样,与第一次点击的边连接的两个节点所对应的两个字词被指定为关注语。这样,通过在包含整体共现网络的画面上选择整体共现网络中包含的一个边并选择开始分析,可以输入指示两个关注语的指示。
如图11所示,用户在窗口41上点击(首次点击)连接两个节点的边,该两个节点与指定为关注语的两个字词(此处为“露天浴池”和“台阶”)对应,然后点击(第二次点击)连接与指定为关注语的另外两个字词(此处为“价格”和“思考”)对应的两个节点的边,最后点击(最后一次点击)分析按钮61。通过该操作,与第一次和第二次点击的两个边连接的四个节点所对应的四个字词被指定为关注语。用户可以在窗口41上依次点击q个(q为3以上的整数)边,最后点击分析按钮61。通过该操作,与q个边连接的2q个节点所对应的2q个字词被指定为关注语。这样,通过在包含整体共现网络的画面中选择整体共现网络中包含的多个边并选择开始分析,可以输入指定多个关注语的指示。
在步骤S111中,除了指定关注语的指示之外,指示输入部11还可以接收设定共现矩阵的基准值的指示、在AND处理和OR处理之间切换的指示、详细设定共现网络显示方式的指示等。接收的指示输出到文本挖掘装置10的每个单元中。
然后,字词提取部13通过从步骤S102读取的文本数据中提取包含步骤S111中指定的关注语的句子,从而获取由包含关注语的句子构成的限定文本数据(步骤S112)。
当指定多个关注语时,字词提取部13具有指示进行AND处理或者OR处理的标识。标识的值可以是预设值,也可以是用户使用指示输入部11设定的值。当标识指示AND处理时,字词提取部13通过从读取的文本数据中提取包含指定的所有多个关注语的句子,从而获取限定文本数据。当标识指示OR处理时,字词提取部13通过从读取的文本数据中提取包含指定的任意一个关注语的句子,从而获取限定文本数据。
然后,字词提取部13通过对步骤S112中获取的限定文本数据进行语素分析,从限定文本数据中提取字词(步骤S113)。然后,共现矩阵生成部14使用在步骤S112中获取的限定文本数据来生成在步骤S113中提取的字词的共现矩阵(步骤S114)。然后,共现网络生成部15基于步骤S114中生成的共现矩阵来生成限定共现网络(步骤S115)。需要说明的是,步骤S103~S105和步骤S113~S115之间,处理对象不同,但处理内容相同。
通常,从通过步骤S112获取的限定文本数据中提取的字词的种类少于从通过步骤S102读取的文本数据中提取的字词的种类。在步骤S114中生成的共现矩阵与在步骤S104中生成的共现矩阵不同。在步骤S115中生成的限定共现网络与在步骤S105中生成的整体共现网络不同。
然后,画面显示部16显示在步骤S115中生成的包含限定共现网络的画面(步骤S116)。图12和图13是表示在步骤S116中显示的包含限定共现网络的窗口的例子的图。图12所示的窗口42包含指定一个关注语(此处为“露天浴池”)时的限定共现网络52。图13所示的窗口43包含指定两个关注语(此处为“露天浴池”和“澡堂”)的限定共现网络53。
图14和图15是表示文本挖掘装置10的显示画面的例子的图。画面显示部16可以并列地显示包含整体共现网络的窗口和包含限定共现网络的窗口而不重叠,也可以将两者重叠显示。在图14所示的画面71中,包含整体共现网络51的窗口41和包含限定共现网络52的窗口42并列显示而不重叠。用户可以在画面71中同时查看整体共现网络51和限定共现网络52。在图15所示的画面72中,包含限定共现网络52的窗口42重叠在包含整体共现网络51的窗口41上显示。用户可以在画面72中通过切换来查看整体共现网络51和限定共现网络52。
然后,指示输入部11接收来自用户的指示(步骤S121)。然后,文本挖掘装置10判断在步骤S121中接收的指示是否是指定关注语的指示(步骤S122)。在步骤S122中,如果是Yes,则文本挖掘装置10的控制进入到步骤S112。在这种情况下,对于在步骤S121中指定的关注语执行步骤S112~S116,并显示包含以由步骤S121指定的关注语的句子构成的限定文本数据为基础的限定共现网络的画面。
图16是表示文本挖掘装置10的显示画面的例子的图。在图16所示的画面73中,将包含作为关注语而指定“澡堂”时的限定共现网络54的窗口44重叠在包含整体共现网络51的窗口41和包含限定共现网络52的窗口42上显示。当在步骤S111将“露天浴池”指定为关注语,并在步骤S121将“澡堂”指定为关注语时,显示画面73。用户可以在画面73中通过切换来查看整体共现网络51和限定共现网络52、54。
在步骤S122中,如果是No,则文本挖掘装置10的控制进入到步骤S123。在这种情况下,在步骤S121接收的指示例如是移动窗口的指示、隐藏窗口的指示、关闭窗口的指示、合并窗口的指示等。在显示有包含整体共现网络和限定共现网络的画面时,用户可以通过操作指示输入部11输入这些指示。画面显示部16根据在步骤S121接收的指示显示更新的画面(步骤S123)。此后,文本挖掘装置10的控制进入到步骤S121。
图17是表示合并窗口的操作的图。在图17所示的画面74中,显示有包含将“露天浴池”指定为关注语时的限定共现网络52的窗口42以及包含将“澡堂”指定为关注语时的限定共现网络54的窗口44。用户可以在画面74中同时查看两个限定共现网络52、54。
图17所示的带阴影的箭头是表示在按下鼠标29的按钮的状态下移动鼠标光标62的情况。该箭头实际不显示在画面中。用户进行下述操作:在画面74上抓取限定共现网络52并在限定共现网络54中释放(拖动操作)。更详细地,当鼠标光标62在窗口42中时,用户按下鼠标29的按钮,并在按住鼠标29的按钮的同时将鼠标光标62移动到窗口44内,当鼠标光标62位于窗口44中时,释放鼠标29的按钮。通过该操作来输入合并窗口的指示。
图18是表示在进行图17所示的操作之后的显示画面的图。在图18所示的画面75中,显示有将多个限定共现网络以选项卡方式显示的窗口45。在图18中,当选择记载为“露天浴池”的选项卡64时,在窗口45中显示当“露天浴池”指定为关注语时的限定共现网络52。当选择记载为“澡堂”的选项卡63时,在窗口45中显示图17所示的限定共现网络54。
当用户点击窗口45中的关闭按钮(×标记)时,窗口45关闭。当用户点击选项卡63中的关闭按钮时,不显示选项卡63。当用户点击选项卡64中的关闭按钮时,不显示选项卡64,并在窗口45显示限定共现网络54。
如上所示,本实施方式的文本挖掘方法包括:从文本数据中提取字词的步骤(步骤S102、S103、S112、S113);针对提取的字词生成共现矩阵的步骤(步骤S104、S114)、基于生成的共现矩阵生成共现网络的步骤(步骤S105、S115)、以及显示包含共现网络的画面的步骤(步骤S106、S116)。当在包含以指定的整体文本数据为基础的第一共现网络(整体共现网络51)的第一画面(包括窗口41的画面)中输入了指定关注语的指示时,提取字词的步骤(步骤S112、S113)为从限定文本数据中提取字词,该限定文本数据由指定的文本数据中的包含关注语的部分(包含关注语的句子)构成,生成共现矩阵的步骤(步骤S114)为针对提取的字词使用限定文本数据来生成第二共现矩阵,生成共现网络的步骤(步骤S115)为基于第二共现矩阵来生成第二共现网络(限定共现网络52~54),显示画面的步骤(步骤S116)为显示包含第二共现网络的第二画面(包括窗口42~45的画面)。这样,在根据本实施方式的文本挖掘方法中,当在包含以指定的整体文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,显示包含以指定的文本数据中的包含关注语的部分为基础的第二共现网络的第二画面。因此,可以通过简单的操作显示包含指定关注语的共现网络的画面。
此外,通过在第一画面中选择第一共现网络中包含的一个或多个节点并选择开始分析,可以输入将与节点对应的字词指定为关注语的指示(图6、图8)。这样,通过在第一画面中选择一个或多个节点和开始分析,可以通过简单的操作输入指定一个或多个关注语的指示,并显示包含指定一个或多个关注语的共现网络的画面。此外,通过在第一画面中连续选择第一共现网络中包含的一个节点,可以输入将与节点对应的字词指定为关注语的指示(图7)。这样,通过在第一画面中连续选择一个节点,可以通过简单的操作来输入指定一个关注语的指示,并显示包含指定一个关注语的共现网络的画面。
此外,通过在第一画面中连续选择第一共现网络中包含的一个边,可以输入将与边连接的两个节点所对应的字词指定为关注语的指示(图9)。这样,通过在第一画面中连续选择一个边,可以通过简单的操作输入指定两个关注语的指示,并显示包含指定两个关注语的共现网络的画面。此外,通过在第一画面中选择第一共现网络中包含的一个或多个边并选择开始分析,可以输入将与边连接的多个节点多对应的字词指定为关注语的指示(图10、图11)。这样,通过在第一画面中选择一个或多个边和开始分析,可以通过简单的操作输入指定多个关注语的指示,并显示包含指定多个关注语时的共现网络的画面。
此外,当在包含多个第二共现网络(限定共现网络52、54)的第二画面(画面74)中输入了合并指示时(图17),显示画面的步骤是将多个第二共现网络以选项卡方式来显示(图18)。这样,可以紧凑地显示多个第二共现网络。此外,通过在第二画面中抓取一个第二共现网络(限定共现网络52)并在另一个第二共现网络(限定共现网络54)中释放,可以输入合并指示。因此,可以通过简单的操作输入合并指示,并紧凑地显示多个第二共现网络。
限定文本数据可以由指定的文本数据中的包含关注语的句子构成。在这种情况下,当输入了指定关注语的指示时,可以以句子为单位划分指定的文本数据从而获取限定文本数据,并显示包含以获取的限定文本数据为基础的第二共现网络的画面。指定多个关注语时的限定文本数据可以由指定的文本数据中的包含所有多个关注语的句子构成。在这种情况下,可以显示包含对多个关注语进行AND处理的第二共现网络的画面。指定多个关注语的限定文本数据可以由指定的文本数据中的包含多个关注语中的任意一个关注语的句子构成。在这种情况下,可以显示包含对多个关注语进行OR处理的第二共现网络的画面。此外,在生成共现矩阵的步骤中,生成具有Jaccard系数作为元素的共现矩阵。因此,可以适当地分析文本数据中包含的字词的共现性。
本实施方式的文本挖掘装置10和文本挖掘程序31具有与上述的文本挖掘方法相同的特征,并且实现相同的效果。根据本实施方式的文本挖掘方法、文本挖掘装置10以及文本挖掘程序31,可以通过简单的操作显示包含指定关注语的共现网络的画面。
尽管在上面详细说明了本发明,但以上的说明在所有方面仅是示例性的,而不是限制性的。应当理解的是,在不脱离本发明的范围的情况下,可以提出许多其他的变更和变形。

Claims (20)

1.一种文本挖掘方法,用于显示包含文本数据的分析结果的画面,其特征在于,包括:
从文本数据中提取字词的步骤;
针对所述字词生成共现矩阵的步骤;
基于所述共现矩阵生成共现网络的步骤;以及
显示包含所述共现网络的画面的步骤,
当在包含以指定的整体文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,提取所述字词的步骤为从限定文本数据中提取所述字词,该限定文本数据由所述指定的文本数据中的包含所述关注语的部分构成,生成所述共现矩阵的步骤为针对所述字词使用所述限定文本数据生成第二共现矩阵,生成所述共现网络的步骤为基于所述第二共现矩阵生成第二共现网络,显示所述画面的步骤为显示包含所述第二共现网络的第二画面。
2.根据权利要求1所述的文本挖掘方法,其特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个节点并选择开始分析,从而输入将与所述节点对应的字词指定为所述关注语的指示。
3.根据权利要求1所述的文本挖掘方法,其特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个节点,从而输入将与所述节点对应的字词指定为所述关注语的指示。
4.根据权利要求1所述的文本挖掘方法,其特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个边,从而输入将与所述边连接的两个节点所对应的字词指定为所述关注语的指示。
5.根据权利要求1所述的文本挖掘方法,其特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个边并选择开始分析,从而输入将与所述边连接的多个节点所对应的字词指定为所述关注语的指示。
6.根据权利要求1所述的文本挖掘方法,其特征在于,
当在包含多个第二共现网络的第二画面中输入了合并指示时,显示所述画面的步骤以选项卡方式来显示所述多个第二共现网络。
7.根据权利要求6所述的文本挖掘方法,其特征在于,
通过在所述第二画面中抓取一个第二共现网络并释放到另一个第二共现网络中,从而输入所述合并指示。
8.根据权利要求1所述的文本挖掘方法,其特征在于,
所述限定文本数据由所述指定的文本数据中的、包含所述关注语的句子构成。
9.根据权利要求8所述的文本挖掘方法,其特征在于,
指定了多个关注语的所述限定文本数据由所述指定的文本数据中的、包含所有所述多个关注语的句子构成。
10.根据权利要求8所述的文本挖掘方法,其特征在于,
指定了多个关注语的所述限定文本数据由所述指定的文本数据中的、包含所述多个关注语中的任意一个关注语的句子构成。
11.根据权利要求1所述的文本挖掘方法,其特征在于,
生成所述共现矩阵的步骤中,生成将Jaccard系数作为元素的共现矩阵。
12.一种计算机可读取的记录介质,其上存储有文本挖掘程序,所述文本挖掘程序用于显示包含文本数据的分析结果的画面,其特征在于,
所述文本挖掘程序在计算机中使CPU利用存储器执行:
从文本数据中提取字词的步骤;
针对所述字词生成共现矩阵的步骤;
基于所述共现矩阵生成共现网络的步骤;以及
显示包含所述共现网络的画面的步骤,
当在包含以指定的整体文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,提取所述字词的步骤为从限定文本数据中提取所述字词,该限定文本数据由所述指定的文本数据中的包含所述关注语的部分构成,生成所述共现矩阵的步骤为针对所述字词使用所述限定文本数据生成第二共现矩阵,生成所述共现网络的步骤为基于所述第二共现矩阵生成第二共现网络,显示所述画面的步骤为显示包含所述第二共现网络的第二画面。
13.根据权利要求12所述的计算机可读取的记录介质,其特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个节点并选择开始分析,从而输入将与所述节点对应的字词指定为所述关注语的指示。
14.根据权利要求12所述的计算机可读取的记录介质,其特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个节点,从而输入将与所述节点对应的字词指定为所述关注语的指示。
15.根据权利要求12所述的计算机可读取的记录介质,其特征在于,
通过在所述第一画面中连续选择所述第一共现网络中包含的一个边,从而输入将与所述边连接的两个节点所对应的字词指定为所述关注语的指示。
16.根据权利要求12所述的计算机可读取的记录介质,其特征在于,
通过在所述第一画面中选择所述第一共现网络中包含的一个或多个边并选择开始分析,从而输入将与所述边连接的多个节点所对应的字词指定为所述关注语的指示。
17.根据权利要求12所述的计算机可读取的记录介质,其特征在于,
当在包含多个第二共现网络的第二画面中输入了合并指示时,显示所述画面的步骤是以选项卡方式显示所述多个第二共现网络。
18.根据权利要求17所述的计算机可读取的记录介质,其特征在于,
通过在所述第二画面中抓取一个第二共现网络并释放到另一个第二共现网络内,从而输入所述合并指示。
19.一种文本挖掘装置,用于显示包含文本数据的分析结果的画面,其特征在于,包括:
字词提取部,从文本数据中提取字词;
共现矩阵生成部,针对所述字词生成共现矩阵;
共现网络生成部,基于所述共现矩阵生成共现网络;以及
画面显示部,显示包含所述共现网络的画面,
当在包含以指定的整体文本数据为基础的第一共现网络的第一画面中输入了指定关注语的指示时,所述字词提取部从限定文本数据中提取所述字词,该限定文本数据由所述指定的文本数据中的包含所述关注语的部分构成,所述共现矩阵生成部针对所述字词使用所述限定文本数据生成第二共现矩阵,所述共现网络生成部基于所述第二共现矩阵生成第二共现网络,所述画面显示部显示包含所述第二共现网络的第二画面。
20.根据权利要求19所述的文本挖掘装置,其特征在于,
当在包含多个第二共现网络的第二画面中输入了合并指示时,所述画面显示部以选项卡方式来显示所述多个第二共现网络。
CN201910096738.5A 2018-03-20 2019-01-31 文本挖掘方法、文本挖掘程序以及文本挖掘装置 Active CN110309290B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-052074 2018-03-20
JP2018052074A JP6987003B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置

Publications (2)

Publication Number Publication Date
CN110309290A CN110309290A (zh) 2019-10-08
CN110309290B true CN110309290B (zh) 2023-06-06

Family

ID=68065531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910096738.5A Active CN110309290B (zh) 2018-03-20 2019-01-31 文本挖掘方法、文本挖掘程序以及文本挖掘装置

Country Status (4)

Country Link
JP (1) JP6987003B2 (zh)
KR (1) KR102162779B1 (zh)
CN (1) CN110309290B (zh)
TW (1) TWI703457B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN107451120A (zh) * 2017-08-01 2017-12-08 中国人民解放军火箭军工程大学 一种公开文本情报的内容冲突检测方法及系统
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2806867B2 (ja) * 1995-03-13 1998-09-30 株式会社トレンディ ドキュメントデータベースの構築方法、表示方法、及び表示装置
JPH10283367A (ja) * 1997-04-09 1998-10-23 Mitsubishi Electric Corp ハイパーメディア装置
JP5059282B2 (ja) * 2003-10-14 2012-10-24 ソニー株式会社 情報提供システム,情報提供サーバ,ユーザ端末装置,コンテンツ表示装置,コンピュータプログラム,およびコンテンツ表示方法
JP2006215936A (ja) * 2005-02-07 2006-08-17 Hitachi Ltd 検索システム及び検索方法
JP2007193380A (ja) * 2006-01-16 2007-08-02 So-Net Entertainment Corp 情報処理装置,情報処理方法,およびコンピュータプログラム
JP5534167B2 (ja) * 2009-12-16 2014-06-25 日本電気株式会社 グラフ作成装置、グラフ作成方法およびグラフ作成プログラム
JP5331723B2 (ja) * 2010-02-05 2013-10-30 株式会社エヌ・ティ・ティ・データ 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
US20120066628A1 (en) * 2010-09-09 2012-03-15 Microsoft Corporation Drag-able tabs
JP2014085992A (ja) * 2012-10-26 2014-05-12 Hitachi Ltd 文書認識支援装置、文書認識支援方法および文書認識支援プログラム
JP5903376B2 (ja) * 2012-12-11 2016-04-13 日本電信電話株式会社 情報推薦装置、情報推薦方法、及び情報推薦プログラム
US9177105B2 (en) * 2013-03-29 2015-11-03 Case Western Reserve University Quantitatively characterizing disease morphology with co-occurring gland tensors in localized subgraphs
KR101512084B1 (ko) * 2013-11-15 2015-04-17 한국과학기술원 가상현실 기반의 3차원 웹 검색 인터페이스를 제공하는 웹 검색 시스템 및 그 제공 방법
JP6287192B2 (ja) * 2013-12-26 2018-03-07 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
US10452721B2 (en) * 2014-08-22 2019-10-22 Hitachi, Ltd. Autopoietic information processing system and method
JP6280859B2 (ja) * 2014-11-20 2018-02-14 日本電信電話株式会社 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム
JP6524790B2 (ja) * 2015-05-14 2019-06-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JPWO2017061253A1 (ja) * 2015-10-09 2018-08-16 アイビーリサーチ株式会社 表示制御装置、表示制御方法及び表示制御プログラム
TWM523901U (zh) * 2016-01-04 2016-06-11 信義房屋仲介股份有限公司 可語意分析關鍵字的搜尋引擎裝置
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
CN107193803B (zh) * 2017-05-26 2020-07-10 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000227917A (ja) * 1999-02-05 2000-08-15 Agency Of Ind Science & Technol シソーラスブラウジングシステムと方法およびその処理プログラムを記録した記録媒体
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN107766318A (zh) * 2016-08-17 2018-03-06 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN107451120A (zh) * 2017-08-01 2017-12-08 中国人民解放军火箭军工程大学 一种公开文本情报的内容冲突检测方法及系统

Also Published As

Publication number Publication date
CN110309290A (zh) 2019-10-08
KR102162779B1 (ko) 2020-10-07
TW201945958A (zh) 2019-12-01
KR20190110428A (ko) 2019-09-30
JP6987003B2 (ja) 2021-12-22
JP2019164593A (ja) 2019-09-26
TWI703457B (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
JP2004086243A (ja) 機械翻訳システム、機械翻訳方法及び機械翻訳プログラム
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
JP5296014B2 (ja) 検索装置、方法及びプログラム
CN114154461A (zh) 一种文本数据的处理方法、装置及系统
WO2018020842A1 (ja) テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JP6674172B2 (ja) トピック推定装置、トピック推定方法、およびプログラム
JP4900158B2 (ja) 検索システム、方法およびプログラム
CN110309290B (zh) 文本挖掘方法、文本挖掘程序以及文本挖掘装置
CN109445900B (zh) 用于图片显示的翻译方法和装置
JP6529698B2 (ja) データ分析装置およびデータ分析方法
JP2017146729A (ja) 情報処理装置、操作支援方法および操作支援プログラム
JP2009134378A (ja) 文書群提示装置および文書群提示プログラム
KR102227881B1 (ko) 이미지를 이용한 특수문자 검색 장치 및 방법
JP4877930B2 (ja) 文書処理装置及び文書処理方法
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム
CN110163975B (zh) 空间直线的绘制方法、装置、设备及存储介质
JP2007080019A (ja) 自然言語処理システム、自然言語処理方法、自然言語処理プログラム
JP7314997B2 (ja) タイムライン表示装置、タイムライン表示方法およびタイムライン表示プログラム
JP2015225412A (ja) 文書要約装置、方法、及びプログラム
WO2018054127A1 (zh) 一种手写输入方法及装置
JP6200392B2 (ja) 情報提示装置および情報提示プログラム
JP2007052533A (ja) 統計最適化統合装置、および統計最適化統合プログラム
JP2010092230A (ja) 機器・装置用図記号検索用プログラム
JP2009157538A (ja) 活動管理装置、活動管理システムおよび活動管理プログラム
JP2006172029A (ja) 検索結果提示方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant