CN113015971A - 聚类分析方法、聚类分析系统及聚类分析程序 - Google Patents

聚类分析方法、聚类分析系统及聚类分析程序 Download PDF

Info

Publication number
CN113015971A
CN113015971A CN202080005909.XA CN202080005909A CN113015971A CN 113015971 A CN113015971 A CN 113015971A CN 202080005909 A CN202080005909 A CN 202080005909A CN 113015971 A CN113015971 A CN 113015971A
Authority
CN
China
Prior art keywords
index
display data
file
network
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202080005909.XA
Other languages
English (en)
Other versions
CN113015971B (zh
Inventor
山崎邦利
细谷龍一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aikusai Co ltd
Original Assignee
Aikusai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aikusai Co ltd filed Critical Aikusai Co ltd
Priority to CN202210540671.1A priority Critical patent/CN114911935A/zh
Publication of CN113015971A publication Critical patent/CN113015971A/zh
Application granted granted Critical
Publication of CN113015971B publication Critical patent/CN113015971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Generation (AREA)
  • Devices For Executing Special Programs (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

服务器4执行:相似度计算步骤(S2),计算一篇文件的内容与其他文件的内容的相似度;聚类分类步骤(S3),基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并以相似的文件进行聚类划分;第1指标计算步骤(S4),计算示出网络中的文件的中心性的第1指标;第2指标计算步骤(S5),计算与所述网络中的所述第1指标不同的、示出文件的重要性的第2指标;以及显示数据生成步骤(S6),关于文件,由与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。

Description

聚类分析方法、聚类分析系统及聚类分析程序
技术领域
本发明涉及将多个文件按其内容分类为聚类,并生成示出文件关联的显示数据的一种聚类分析方法、聚类分析系统及聚类分析程序。
背景技术
一直以来,在分析多篇学术论文或文献等文件时,由人来阅读文件并按内容进行分类、或制作摘要。由人进行分析不仅耗费时间,而且当多个人进行分析时,会因作业人员的经验和知识而导致分类或摘要的制作精度存在偏差的倾向。
此外,对于如学术论文等复杂且专业性高的文件,为了理解内容需要具有高度的专业知识。然而,即使是不具备这种专业知识的人,也希望容易地获得和理解最新的信息,并将其活用。
例如,已经提出了一种聚类分析方法,其中对通过概念检索而检索到的技术文献进行形态分析,并对由其得到的各单词附加权重,以将各技术文献向量化,并将向量化的朝向接近的技术文献归为一个聚类(例如,“专利文献1”。)。
通过这样的技术,虽然可以将信息分类为聚类,但没有达到理解文件间的关系或聚类间的关系等的程度。
专利文献
【专利文献1】日本专利文献特开第2005-92443号公报
发明内容
发明所要解决的问题
本发明的目的在于:提供一种聚类分析方法、聚类分析系统及聚类分析程序,通过将多篇文件,特别是数量庞大的文件分类成由相似文件构成的聚类,并且使其能够俯瞰文件间的关联,从而能够在更短的时间内有效率地理解多篇文件的主旨。
解决问题的手段
即,本发明是一种计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析方法,包括:相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;聚类分类步骤,基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并分类成由相似的文件构成的聚类;第1指标计算步骤,计算示出所述网络中的文件的中心性的第1指标;第2指标计算步骤,计算与所述网络中的所述第1指标不同的第2指标;以及显示数据生成步骤,对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
此外,本发明是一种将多篇文件根据其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析系统,包括:相似度计算部,其计算一篇文件的内容与其他文件的内容的相似度;聚类分类部,其基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并将相似的文件分类成聚类;第1指标计算部,其计算示出网络中的文件的中心性的第1指标;第2指标计算部,其计算与网络中的第1指标不同的、示出文件的重要性的第2指标;以及显示数据生成部,其对于文件,以与第1指标相应的节点的物件的大小的表现、与第2指标相应的物件的形状对应的形状的量规和量规的长度的表现、与聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
另外,本发明是一种使计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析程序,执行以下步骤:相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;聚类分类步骤,基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并将相似的文件分类成聚类;第1指标计算步骤,计算示出网络中的文件的中心性的第1指标;
第2指标计算步骤,计算与网络中的所述第1指标不同的第2指标;以及显示数据生成步骤,对于文件,以与第1指标相应的节点的物件的大小的表现、与所述第2指标相应的物件的形状对应的形状的量规和量规的长度的表现、与聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出网络的第1显示数据。
发明效果
根据本发明,通过将多篇文件,特别是数量庞大的文件分类成由相似文件构成的聚类,并且使其能够俯瞰文件间的关联,从而能够在更短的时间内有效率地理解多篇文件(特别是数量庞大的文件)的主旨。
附图说明
图1是本发明一实施方式的聚类分析系统的整体构成图。
图2是在信息终端的输出部显示的聚类分析结果的显示例。
图3是第1显示数据的说明图。
图4是示出本发明一实施方式中在聚类分析系统的服务器执行的聚类分析控制例程的流程图。
图5是示出本发明一实施方式中在聚类分析系统的服务器执行的聚类分析控制例程的流程图。
具体实施方式
以下,基于附图对本发明一实施方式进行说明。
图1是示出本发明一实施方式的聚类分析系统的整体构成图,基于同一图对本实施方式的构成进行说明。
如图1所示,本实施方式的聚类分析系统1中,文件数据库2(以下将数据库标记为“DB”)、信息终端3以及服务器4通过通信网N连接。通信网N是,例如互联网、内联网、VPN(Virtual Private Network)等,使用有线或无线的通信手段,可以双向传递信息的通信网。此外,在图1中,为了简化说明,一个文件DB2和一个信息终端3只与一台服务器4连接,但是一台服务器4可以与多个文献DB和多个信息终端3连接。
文件DB2是,例如存储有学术论文、专利文献、杂志、书籍、新闻报道等文件的信息的数据库,并向限定人士或非限定人士公开所存储的文件。在本实施方式中,以存储有医学文献的信息的文件DB为例,对文件DB2进行说明。然而,对本发明的文件DB中可存储的文件的内容、领域以及种类没有限制。本实施方式中,医学文献的信息包括,作者名和出版年、作者的所属机构等书目性事项,论文的题目、主旨及正文等论文的内容性事项,引用/被引用的件数、文献名等引用/被引用信息,以及文献刊登的学会名、杂志名、或出版社名等的刊登信息。
在本说明书中,“文件”(a document)由“文章”(sentences)构成,“文章”由两个以上的“句子”(a sentence)构成,而“句子”由两个以上的“单词”(a word)构成。在本说明书中,“主旨”(abstract)是预先配置于一个文件的开头或末尾,以表现该文件的概要或特征的文章。在本说明书,“摘要”或“摘要句”(都为summary)是从某对象提取的,表现该对象的概要或特征的一个以上的句子。在此,对象可以是文章、文件、或聚类。
此外,文件DB2也可以是通过通信网N可访问的网络上的网站,文件存储部20还能够获得记载于可访问网站的文本作为文件。
将网站作为文件获得时,可以以规定的件数作为上限,获得网页搜索引擎的搜索结果。例如,可以对规定的搜索查询,获得前500件的网站。
信息终端3,例如是个人计算机(以下称为“PC”)、智能电话、平板PC、以及手机等便携式终端,具有输出部10和输入部11。
输出部10,例如是显示器或打印机等装置,能够将在服务器4生成的显示数据以可视觉识别的方式显示。
输入部11,例如是键盘或鼠标等装置,可进行信息的输入或操作。输出部10与输入部11也可以成为一体,例如构成触摸面板。
使用信息终端3者(用户),可以在输出部10确认服务器4生成的显示数据,并且可以通过输入部11对服务器4发出各种指示。
服务器4由一个或多个服务器(计算机)构成,该一个或多个服务器(计算机)对多篇文献,按文件的内容分类成聚类(聚类划分),且生成示出各文件的关联的显示数据。服务器4具有各种演算部及存储部,例如文件存储部20、相似度计算部21、聚类分类部22、第1指标计算部23、第2指标计算部24、显示数据整合部25(显示数据生成部),以及学习系统26。
具体而言,文件存储部20是一种通过通信网N与文件DB2连接,从文件DB2获得并存储所需文件的信息的存储部。例如,在本实施方式中,从文件DB2获得并存储医学文献。此外,文件存储部20具有搜索功能,通过从存储的文件提取包含特定关键词的文件,或者按日期提取特定的文件,可以获得要分类为聚类的文件的母体。文件存储部20还具有一旦在文件DB2进行文件的追加或删除等更新,就会与此同步自动进行文件存储部20内的文件的更新的功能。
相似度计算部21具有对于文件存储部20所存储的文件或所生成的文件的母体,计算一个文件的内容与其他文件的内容的相似度的功能。在相似度的计算中,可以使用例如TF_IDF或余弦相似度。也就是说,相似度计算部21对于各文件的内容提取所使用的单词,从在文件内的出现频率(TF:Term Frequency)和相对于在其他文件使用的单词的稀缺性(IDF:Inverse Document Frequency)的积,对各单词进行单词的加权,并进行文件的向量化。接着,相似度计算部21计算向量化的文件间的余弦(cos)值作为该文件间的相似度的値。例如,如第1文件与第2文件的相似度为0.856,第1文件与第3文件的相似度为0.732这样,相似度以0至1之间的值表示,越接近1表示文件越相似。
聚类分类部22,基于由相似度计算部21计算出的相似度,生成包含各文件并以线(以下称为“边”)连结的网络,并以相似的文件分类成聚类。聚类划分的算法没有特别限定,例如可以使用通过反复计算特定出即使切掉边,也可以极力保持节点之间连接性的聚类的算法(所谓的Girvan-Newman算法)。
第1指标计算部23具有计算第1指标的功能,第1指标示出由聚类分类部22生成的网络中的各文件的中心性。计算中心性的算法没有特别限定,例如可以使用特征向量中心性(Eigenvector centrality)、网页排名(PageRank)、中介中心性(betweennesscentrality)、以及度中心性(degree centrality)等。本实施方式中使用特征向量中心性。特征向量中心性以如下概率表示:关于网络上的一个文件(以下称为“节点”),在从该网络中的任意节点出发并反复沿着边行进的情况下,通过该节点的概率。
第2指标计算部24,具有从文件存储部20,对于各文件计算与第1指标不同的第2指标的功能。第2指标,例如是根据基于引用/被引用信息的被引用件数、或根据基于刊登信息的刊登有文件的学会等的等级等计算的所谓影响因子。如此,第2指标可以是示出文件的绝对重要性而与网络没有关系的指标。例如,根据科睿唯安公司的网站(https://clarivate.jp/products/journal-citation-reports/impact-factor/)刊登的说明,影响因子是为了将刊登有文件的期刊(学术杂志)的影响度数值化以进行评价,而将该期刊刊登的所有论文的被引用次数的总值(=论文组的总影响度)除以论文的刊登篇数计算出来的。应当注意,第2指标可以是对于该文件示出的重要性而单独赋予的,例如可以是基于文件的引用信息而计算出来的。
用于计算第2指标的引用信息可以参考文件所包含的信息获得。此外,也可以以刊登文件的学术杂志的信息为基础,从其他信息源得到诸如影响因子等的已知指标。
此外,当文件是网站而非学术论文时,作为第2指标,可以使用对网站的访问数等作为表示文件的重要性的指标。
显示数据整合部25具有生成与各文件相关的各种显示数据的功能,并且与显示数据相应地具有第1显示数据生成部25a、第2显示数据生成部25b、以及第3显示数据生成部25c。
图2是在信息终端的输出部显示的聚类分析结果的显示例。如图所示,第1范围A所示的显示数据为第1显示数据,第2范围B所示的显示数据为第2显示数据,以及第3范围C所示的显示数据为第3显示数据。
第1显示数据生成部25a具有如下功能:对于各文件,通过与第1指标相应的表现、与第2指标相应的表现、与聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据的功能。
具体而言,如图3所示,第1显示数据生成部25a以一个圆表示网络上的一个文件(以下称为“节点”),以圆的大小表现第1指标,以颜色表现聚类的种类,并以边的粗细表现相似度的大小。此外,第1显示数据生成部25a以圆弧的长度表现第2指标。
应当注意,节点不限于仅包含一个文件的节点,也可以是包含多篇文献的节点。例如,一个节点也可以是由相似度高的多篇文献彼此合并的节点。
应当注意,表示节点的形状的物件不限于圆,也可以是例如三角形、四角形、五角形等的多角形,椭圆等比照圆的形状,心形、星形等常作为记号使用的形状。第1指标的大小也可以以物件的大小来表现。
第2指标的大小也可以通过配置在表示节点的物件的外侧的量规、以及量规的长度来表现。优选地,可以通过与物件形状对应的量规、量规的长度来表示第2指标的大小。例如,当表示节点的物件为圆时,与圆的形状对应的量规的形状为圆弧,量规如上所述可以以圆弧的长度表示第2指标。在此情况下作为量规的圆弧的长度,例如可以表现为:以网络中的节点中具有第2指标的最大值的节点为基准,使作为最大値的节点的第2指标的量规的表现为圆,使与其相比第2指标小的节点的量规的表现为与第2指标的大小相应的圆弧的长度。
图3中显示了10个节点30a至30j(以下统称为“节点30”),左上的4个节点30a至30d属于第1聚类,右下的6个节点30e至30j属于第2聚类。应当注意,第1聚类与第2聚类,在第1范围A中以不同的颜色示出,但在图3中以影线(hatching)的不同示出颜色的不同。
节点30的大小示出中心性的大小,图3中,节点30a、节点30e比其他节点大,可知是中心性更高的文件。此外,节点30中,通过同心的圆弧31的长度示出第2指标(例如影响因子)。因此,在图3中,由于节点30a的圆弧31a、节点30g的圆弧31g为较长的圆弧,因此可知其为影响因子较大的文件。
此外,连结节点30的边32的粗细示出以该边32连结的文件间的相似度的大小。因此,在图3中,由于节点30a与节点30c之间,节点30e与节点30h之间的边32较粗,因此可知这些节点间的相似度较高。
进一步地,第1显示数据生成部25a,可以将网络扩大显示及缩小显示,并与该扩大显示及缩小显示相应地增减显示的边的数量,生成第1显示数据。例如,第1显示数据生成部25a设定越缩小显示则值越高的阈值,并且仅显示相似度为该阈值以上的边。由此,越将网络缩小显示,则与显示的节点数量增加相对的是,与一个节点连接的边的显示数量减少。
此外,将网络扩大显示及缩小显示之际,也可以将相似度高且相邻的多个节点合并显示。由此,即使将网络缩小显示,也可以在不增加节点数量的情况下进行显示。
此外,第1显示数据生成部25a使用根据力学模型的绘制算法确定各节点的位置,以及间隔,即边的长度。例如,第1显示数据生成部25a在连接有多个边的节点、以及与该节点直接连接的节点施加引力,并进行绘制以形成就近汇集的岛。另一方面,使岛彼此之间产生斥力,并进行绘制将其配置在相互远离的位置。通过使用这样的力学模型确定各节点的位置以及间隔,使各节点在不重复的情况下以适度的间隔配置。
进一步地,第1显示数据生成部25a,如图2的第4范围a所示,作为凡例,显示各聚类的颜色及该聚类的摘要句。具体而言,第1显示数据生成部25a,例如对于同一聚类内的文件,将其分解为构成医学文献中的各项目(研究的定位,研究的背景,先前研究的课题,研究的目的,研究的贡献,研究的意义等)的文章,并提取构成一个或多个特定的项目(研究的目的,研究的意义)的文章作为摘要元素。接着,第1显示数据生成部25a基于提取的摘要元素制作摘要句。这种将各文件分解为各项目的处理也可以使用已经机器学习了将各文件分解为各项目的处理的AI。此外,基于摘要元素制作摘要句的处理,也可以使用基于摘要元素制作摘要句的AI。
此外,当文件为网站时,也可以基于刊登在网站的文本制作摘要句。由于也存在网站为多篇文献的集合体的情况,因此也可以将由多篇文献构成的一个网站作为一个集中的节点。
第2显示数据生成部25b提取属于一个聚类的文件的题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成以与该出现频率相应的大小显示该单词的第2显示数据。具体而言,如图2的第2范围B所示,在圆形的框内,由第1范围A指定的一个聚类内越频繁出现的单词,以越大的字体表现。例如,图2中,文字“clinical”以最大的方式示出,接着是“Vedolizumab”、“infliximab”,“remission”,“endoscopic”,“Cohort”以大的方式示出。各个单词可以以横向或纵向等所有的位置关系配置,以不与其他单词重叠。
第3显示数据生成部25c提取属于一个聚类的文件的所述题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成根据该出现频率按顺序显示该单词的第3显示数据。也就是说,第3显示数据生成部25c,根据出现频率显示(所谓的排名显示)在第2显示数据生成部25b提取的一个指定聚类内频繁出现的单词。例如,图2中,“clinical”配置在最上方位置,接着在其下配置“Vedolizumab”,“infliximab”,“remission”,“endoscopic”,“Cohort”。进一步地,第3显示数据生成部25c也可以像“clinical 100%”,“Vedolizumab88%”这样,将指定聚类内的文件中的单词的使用率包含在显示数据中。
此外,相似度计算部21及聚类分类部22具有如下功能:将包含提取的出现频率高的单词等特定单词的文件排除在分析之外,并输出再次分析的分析结果,将其反映在第1显示数据,第2显示数据,和第3显示数据。
此外,相似度计算部21及聚类分类部22具有如下功能:对于示出包含提取的出现频率高的单词等特定单词的文件的节点,在以第1显示数据示出的网络上强调显示。
作为节点的强调方法,可以通过改变节点的色彩,或者添加视觉效果等各种方法,显示其包含所选择的单词。
显示数据整合部25生成将在这些第1显示数据生成部25a、第2显示数据生成部25b和第3显示数据生成部25c生成的各显示数据整合在如图2所示的一个屏幕中的显示数据,并发送给通过服务器4和通信网N连接的信息终端3。
学习系统26具有提供将上述第1显示数据生成部25a中的各文件分解成各项目的AI,以及基于摘要元素制作摘要句的AI的功能。具体而言,学习系统26通过将已预先判明各项目的文件的数据作为学习用数据(教学数据)进行机器学习(例如深度学习或神经网络),生成将文件分解成作为其构成元素的项目的AI(已学习模型)。通过将已预先使用摘要元素的摘要句作为学习用数据进行机器学习(例如深度学习或神经网络),生成基于摘要元素制作摘要句的AI(已学习模型)。
如此构成的聚类分析系统1中,例如当用户通过信息终端3的输入部11对服务器4输入特定的疾病名称等的信息时,将与输入信息相应的如图2所示的各显示数据从服务器4输出到信息终端3的输出部10。
图4示出在聚类分析系统1的服务器4执行的聚类分析控制例程的流程图。以下顺着该流程图,对本实施方式的聚类分析方法进行详细说明。
服务器4,当从信息终端3接收到特定的疾病名称等的输入信息时,作为步骤S1,从文件存储部20获得与该输入信息对应的文件的母体。
接着,在步骤S2中,相似度计算部21计算构成母体的文件间的相似度。
此外,在步骤S3中,聚类分类部22,基于在步骤S2计算出的相似度生成文件间的网络,并进行分类以使相似的文件的集合构成聚类。
在步骤S4中,第1指标计算部23计算第1指标,该第1指标示出在步骤S3生成的网络中的文件中心性。
在步骤S5中,第2指标计算部24计算第2指标。第2指标例如是期刊的影响因子。
在步骤S6中,分别由第1显示数据生成部25a生成第1显示数据,第2显示数据生成部25b生成第2显示数据,第3显示数据生成部25c生成第3显示数据,并由显示数据整合部25生成已将这些显示数据整合的显示数据。接着,显示数据整合部25将已整合的显示数据发送至信息终端3,并结束该例程。
图5示出在将特定单词排除后进行再分析的情况下,在聚类分析系统1的服务器4执行的聚类分析控制例程的流程图。注意,省略对与上述相同的流程的说明。
服务器4,作为步骤S9,将第3显示数据所包含的出现频率高的单词等、应从文件的母体排除的文件所包含的单词的候补,显示在信息终端3的输出部10等。
作为步骤S10,用户使用信息终端3的输入部11等,输入或选择应排除的单词。服务器4受理单词的输入或选择。
作为步骤S11,一旦在步骤S10中选择了应排除的单词,就会获得已将包含应排除的单词的文件去除的文件的母体。在此之后的步骤S12~S16的处理流程,与以上说明的步骤S2~S6的处理流程相同,因此省略其说明。
如上所述,在本实施方式的聚类分析系统1中,基于仅通过对文件内容的自然语言处理而得的文件间的相似度而形成网络,形成相似的文件的聚类,并通过与示出中心性的第1指标相应的表现、与聚类的种类相应的表现、以及与相似度的大小相应的表现,生成示出该网络的第1显示数据,从而可以将从各文件的信息到文件间的关联性都作为一个显示进行把握。即,本实施方式的第1显示数据的网络,是不使用文件的引用/被引用信息,而仅基于除去这些信息的文件内容形成的,因此能够形成与文件内容的相似度相应的聚类。
进一步地,通过将第2指标与第1显示数据一并示出,可以容易且多方面地把握文件的定位及重要性,其中,第2指标是与基于文件内容的第1指标不同的影响因子等。
此外,在第1显示数据中,通过以示出文件的节点的物件的大小表现第1指标,以与物件的形状相应的形状的量规、及根据量规的长度表现第2指标,可以同时直观地把握文件的中心性和重要性。
此外,通过将包含指定单词的文件从分析对象排除,并进行再次分析,可以将即使出现频率高也不感兴趣的文件排除,以提取和把握更感兴趣的文件,其中,指定单词是从文件所包含的出现频率高的单词中指定的。
此外,通过对于示出包含指定单词的文件的节点在网络中强调显示,可以把握包含感兴趣的单词的文件位于网络上的哪个位置,其中,指定单词是从文件所包含的出现频率高的单词中指定的。
此外,在第1显示数据中,通过使用力学模型确定网络上各文件的配置,以不重叠地示出多篇文献,从而可以提高视觉识别性。
进一步地,在第1显示数据中,可以将网络扩大显示及缩小显示,并与该扩大显示及缩小显示相应地增减显示的边的数量。由此,与网络的扩大显示及缩小显示相应地,避免边以繁杂的方式显示,可以提高阅览性。此外,由此,由于与网络的扩大显示及缩小显示相应地,信息量被最优化,因此可以减轻服务器4处理的负担及减少给信息终端3的信息量,并且可以进行顺畅的显示変更。
此外,通过提取属于聚类的文件所包含的出现频率高的单词,并使得以与该出现频率相应的大小显示该单词的第2显示数据、和根据该出现频率按顺序显示该单词的第3显示数据与第1显示数据同时生成,可以更容易地把握各聚类的内容。特别是在第2显示数据和第3显示数据中,通过将文件的至少题目、主旨和正文中的一个作为对象提取出现频率,例如即使是仅能获得题目和主旨的文件,或者没有题目和主旨而仅有正文的文件,也能提取出现频率,从而可以提取更适合用于表现聚类的单词。
如此,根据本实施方式,通过将多篇文件,特别是数量庞大的文件分类成由相似文件构成的聚类,并且使其能够俯瞰文件间的关联,从而能够在更短的时间内有效率地理解多篇文件的主旨。
以上对本发明一实施方式进行了具体说明,但本发明不限于该实施方式,本领域技术人员可以理解的是,在不脱离权力要说书所规定的本发明的范围和精神的情况下,可以对其进行各种变更和改变。
在上述实施方式中,如图3所示,第1显示数据生成部25a以圆的大小表现第1指标,以圆弧的长度表现第2指标。第1指标和第2指标的表现不限于此,例如还可以作为两重的同心圆示出,其中,以一种颜色示出的第1指标配置在内侧,以其他颜色示出的第2指标配置在外側。
此外,在上述实施方式中,在相似度的计算中使用TF-IDF和余弦相似度,使用Girvan-Newman算法作为聚类划分的算法,以及使用特征向量中心性作为计算中心性的算法。相似度、聚类划分及中心性的各自的计算手法不限于这些算法,例如,可以分别使用其他算法,也可以将相似度、聚类划分及中心性统一使用一种算法进行处理。
符号说明
1 聚类分析系统
2 文件DB
3 信息终端
4 服务器
10 输出部
11 输入部
20 文件存储部
21 相似度计算部
22 聚类分类部
23 第1指标计算部
24 第2指标计算部
25 显示数据整合部(显示数据生成部)
25a 第1显示数据生成部
25b 第2显示数据生成部
25c 第3显示数据生成部
26 学习系统
30(30a~30j) 节点
31(31a~31j) 圆弧
N 通信网
A 第1范围
B 第2范围
C 第3范围
a 第4范围

Claims (15)

1.一种计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析方法,其特征在于,包括:
相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;
聚类分类步骤,基于计算出的相似度将文件或聚类作为节点,生成将相似的节点间以边连结的网络,并分类成由相似的文件构成的聚类;
第1指标计算步骤,计算示出所述网络中的文件的中心性的第1指标;
第2指标计算步骤,计算与所述网络中的所述第1指标不同的、示出文件的重要性的第2指标;以及
显示数据生成步骤,对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
2.根据权利要求1所述的聚类分析方法,其中,
在所述显示数据生成步骤中生成显示数据,该显示数据以圆表现所述第1指标的物件,并以与所述第1指标的圆同心的圆弧、及所述圆弧的长度表现所述第2指标的量规。
3.根据权利要求1或2所述的聚类分析方法,其中,
所述文件具有题目、主旨及正文中的至少一个作为其构成元素,
所述显示数据生成步骤,进一步地,提取属于一个聚类的文件的题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成以与该出现频率相应的大小显示该单词的第2显示数据。
4.根据权利要求1至3中任一项所述的聚类分析方法,其中,
所述文件具有题目、主旨及正文中的至少一个作为其构成要素,
所述显示数据生成步骤,进一步地,提取属于一个聚类的文件的题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成根据该出现频率按顺序显示该单词的第3显示数据。
5.根据权利要求1至4中任一项所述的聚类分析方法,其中,
所述文件是刊登在学术杂志的文件,所述第2指标是根据所述文件的引用而计算的。
6.根据权利要求1至4中任一项所述的聚类分析方法,其中,
所述文件,是通过网页搜索以规定的件数作为上限而获得的网站上记载的文件。
7.根据权利要求6所述的聚类分析方法,其中,
所述第2指标,是根据对所述网站的访问数而计算的。
8.根据权利要求6或7所述的聚类分析方法,其中,
提取所述文件包含的出现频率高的单词,并生成以该出现频率相应的大小显示该单词的第2显示数据。
9.根据权利要求6至8中任一项所述的聚类分析方法,其中,
提取所述文件包含的出现频率高的单词,并生成根据该出现频率按顺序显示该单词的第3显示数据。
10.根据权利要求1至9中任一项所述的聚类分析方法,进一步包括:
从分析对象中排除包含指定单词的文件,并进行再次分析的步骤,其中,所述指定单词是从所述文件包含的出现频率高的单词中指定的。
11.根据权利要求1至9中任一项所述的聚类分析方法,进一步包括:
生成对于示出包含指定单词的文件或聚类的节点在网络中强调显示的第1显示数据的步骤,其中,所述指定单词是从所述文件包含的出现频率高的单词中指定的。
12.根据权利要求1至4中任一项所述的聚类分析方法,其中,
所述显示数据生成步骤,使用力学模型来确定所述网络上的文件的配置,以使多篇文献不以重叠的方式显示。
13.根据权利要求1至5中任一项所述的聚类分析方法,其中,
所述显示数据生成步骤,以连结文件与文件的线的粗细来表现与所述文件间的相似度的大小相应的表现,并可以将所述网络扩大及缩小显示,与该扩大及缩小显示相应地增减所述线的显示数量,从而生成所述第1显示数据。
14.一种将多篇文件根据其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析系统,其特征在于,包括:
相似度计算部,其计算一篇文件的内容与其他文件的内容的相似度;
聚类分类部,其基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并将相似的文件分类成聚类;
第1指标计算部,其计算示出所述网络中的文件的中心性的第1指标;
第2指标计算部,其计算与所述网络中的所述第1指标不同的、示出文件的重要性的第2指标;以及
显示数据生成部,其对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
15.一种使计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析程序,其特征在于,执行以下步骤:
相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;
聚类分类步骤,基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并将相似的文件分类成聚类;
第1指标计算步骤,计算示出所述网络中的文件的中心性的第1指标;
第2指标计算步骤,计算与所述网络中的所述第1指标不同的第2指标;以及
显示数据生成步骤,对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
CN202080005909.XA 2019-05-17 2020-05-15 聚类分析方法、聚类分析系统及可读存储介质 Active CN113015971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210540671.1A CN114911935A (zh) 2019-05-17 2020-05-15 聚类分析方法、聚类分析系统及聚类分析程序

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019019715 2019-05-17
JPPCT/JP2019/019715 2019-05-17
PCT/JP2020/019406 WO2020235468A1 (ja) 2019-05-17 2020-05-15 クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202210540671.1A Division CN114911935A (zh) 2019-05-17 2020-05-15 聚类分析方法、聚类分析系统及聚类分析程序

Publications (2)

Publication Number Publication Date
CN113015971A true CN113015971A (zh) 2021-06-22
CN113015971B CN113015971B (zh) 2022-06-07

Family

ID=73459424

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210540671.1A Pending CN114911935A (zh) 2019-05-17 2020-05-15 聚类分析方法、聚类分析系统及聚类分析程序
CN202080005909.XA Active CN113015971B (zh) 2019-05-17 2020-05-15 聚类分析方法、聚类分析系统及可读存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202210540671.1A Pending CN114911935A (zh) 2019-05-17 2020-05-15 聚类分析方法、聚类分析系统及聚类分析程序

Country Status (6)

Country Link
US (2) US11636144B2 (zh)
EP (1) EP3882786A4 (zh)
JP (2) JP6852941B1 (zh)
CN (2) CN114911935A (zh)
TW (2) TWI733453B (zh)
WO (1) WO2020235468A1 (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235392A1 (en) * 2009-03-16 2010-09-16 Mccreight Shawn System and Method for Entropy-Based Near-Match Analysis
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
CN109376238A (zh) * 2018-09-14 2019-02-22 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法
CN109376236A (zh) * 2018-07-27 2019-02-22 中山大学 一种基于聚类分析的学术论文作者权重分析方法

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3469302B2 (ja) * 1993-09-08 2003-11-25 株式会社東芝 テキスト選定装置
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US6298174B1 (en) * 1996-08-12 2001-10-02 Battelle Memorial Institute Three-dimensional display of document set
US6154213A (en) * 1997-05-30 2000-11-28 Rennison; Earl F. Immersive movement-based interaction with large complex information structures
US6256648B1 (en) * 1998-01-29 2001-07-03 At&T Corp. System and method for selecting and displaying hyperlinked information resources
US6038574A (en) * 1998-03-18 2000-03-14 Xerox Corporation Method and apparatus for clustering a collection of linked documents using co-citation analysis
JP4025443B2 (ja) 1998-12-04 2007-12-19 富士通株式会社 文書データ提供装置及び文書データ提供方法
JP4128431B2 (ja) 2002-11-27 2008-07-30 富士通株式会社 有向グラフ解析方法、解析装置及びそのプログラム
GB2403636A (en) 2003-07-02 2005-01-05 Sony Uk Ltd Information retrieval using an array of nodes
JP2005092443A (ja) 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc クラスター分析装置およびクラスター分析方法
KR101126028B1 (ko) * 2004-05-04 2012-07-12 더 보스턴 컨설팅 그룹, 인코포레이티드 관련된 데이터베이스 레코드들을 선택하고, 분석하며,네트워크로서 비주얼화하기 위한 방법 및 장치
US7356777B2 (en) * 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
JPWO2006112507A1 (ja) * 2005-04-20 2008-12-11 株式会社アイ・ピー・ビー 調査対象文書の索引語抽出装置及び文書特徴分析装置
US20060242190A1 (en) * 2005-04-26 2006-10-26 Content Analyst Comapny, Llc Latent semantic taxonomy generation
US7475072B1 (en) * 2005-09-26 2009-01-06 Quintura, Inc. Context-based search visualization and context management using neural networks
NO323257B1 (no) * 2005-10-28 2007-02-19 Telenor Asa Fremgangsmater for a analysere strukturen av et nettverk
JP2008052494A (ja) 2006-08-24 2008-03-06 Sony Corp ネットワーク分析支援装置および方法、プログラム並びに記録媒体
JP4769151B2 (ja) * 2006-09-01 2011-09-07 日本電信電話株式会社 文書集合分析装置,文書集合分析方法,その方法を実装したプログラム及びそのプログラムを格納した記録媒体
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
US8122026B1 (en) * 2006-10-20 2012-02-21 Google Inc. Finding and disambiguating references to entities on web pages
US20090043797A1 (en) * 2007-07-27 2009-02-12 Sparkip, Inc. System And Methods For Clustering Large Database of Documents
JP2009093564A (ja) * 2007-10-11 2009-04-30 Fuji Xerox Co Ltd 文書抽出装置および文書抽出プログラム
US9384186B2 (en) * 2008-05-20 2016-07-05 Aol Inc. Monitoring conversations to identify topics of interest
US8396870B2 (en) * 2009-06-25 2013-03-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
US8635223B2 (en) * 2009-07-28 2014-01-21 Fti Consulting, Inc. System and method for providing a classification suggestion for electronically stored information
US8245135B2 (en) * 2009-09-08 2012-08-14 International Business Machines Corporation Producing a visual summarization of text documents
US10324598B2 (en) * 2009-12-18 2019-06-18 Graphika, Inc. System and method for a search engine content filter
JP5533091B2 (ja) * 2010-03-18 2014-06-25 株式会社リコー 座標平面におけるデータ点分布領域の識別方法及びその識別プログラム
US8359279B2 (en) * 2010-05-26 2013-01-22 Microsoft Corporation Assisted clustering
GB2486490A (en) * 2010-12-17 2012-06-20 Royal Holloway & Bedford New College Method for structuring a network
JP2014191757A (ja) 2013-03-28 2014-10-06 Fujitsu Ltd 情報処理方法、装置及びプログラム
JP5813052B2 (ja) 2013-05-14 2015-11-17 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム
US20150066933A1 (en) * 2013-09-03 2015-03-05 String Enterprises, Inc. Computer-implemented methods and systems for generating visual representations of complex and voluminous marketing and sales and other data
EP3259680A4 (en) * 2015-02-20 2018-10-17 Hewlett-Packard Development Company, L.P. Citation explanations
JP6182279B2 (ja) * 2015-03-31 2017-08-16 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
JP6524790B2 (ja) * 2015-05-14 2019-06-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9436760B1 (en) * 2016-02-05 2016-09-06 Quid, Inc. Measuring accuracy of semantic graphs with exogenous datasets
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
US20170351752A1 (en) * 2016-06-07 2017-12-07 Panoramix Solutions Systems and methods for identifying and classifying text
JP6794162B2 (ja) 2016-07-25 2020-12-02 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
US9836183B1 (en) * 2016-09-14 2017-12-05 Quid, Inc. Summarized network graph for semantic similarity graphs of large corpora
US9911211B1 (en) * 2017-04-13 2018-03-06 Quid, Inc. Lens-based user-interface for visualizations of graphs
US10956790B1 (en) * 2018-05-29 2021-03-23 Indico Graphical user interface tool for dataset analysis
US20190386995A1 (en) * 2018-06-14 2019-12-19 Zero31Skytech Inc. Apparatus, system and method to limit access to open networks by requiring the consensus of pre-existing nodes to admit candidate nodes
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
US11113327B2 (en) * 2019-02-13 2021-09-07 Optum Technology, Inc. Document indexing, searching, and ranking with semantic intelligence

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235392A1 (en) * 2009-03-16 2010-09-16 Mccreight Shawn System and Method for Entropy-Based Near-Match Analysis
CN105589948A (zh) * 2015-12-18 2016-05-18 重庆邮电大学 一种文献引用网络可视化及文献推荐方法及系统
CN109376236A (zh) * 2018-07-27 2019-02-22 中山大学 一种基于聚类分析的学术论文作者权重分析方法
CN109376238A (zh) * 2018-09-14 2019-02-22 大连理工大学 一种基于参考文献列表重叠度的论文相关度量化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐杨炳: "基于引用网络的文献聚类及主题变迁的方法分析研究", 《中国优秀硕士学位论文全文数据库社会科学第II辑》 *

Also Published As

Publication number Publication date
US11636144B2 (en) 2023-04-25
JPWO2020235468A1 (ja) 2021-06-10
TW202139053A (zh) 2021-10-16
JP6852941B1 (ja) 2021-03-31
CN113015971B (zh) 2022-06-07
WO2020235468A1 (ja) 2020-11-26
TWI733453B (zh) 2021-07-11
JP2021099847A (ja) 2021-07-01
TW202044101A (zh) 2020-12-01
TWI806069B (zh) 2023-06-21
EP3882786A4 (en) 2022-03-23
US20220043851A1 (en) 2022-02-10
CN114911935A (zh) 2022-08-16
JP7490241B2 (ja) 2024-05-27
US20230119422A1 (en) 2023-04-20
EP3882786A1 (en) 2021-09-22

Similar Documents

Publication Publication Date Title
JP6555704B1 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP2021086580A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP2024041946A (ja) クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム
US20240111943A1 (en) Summary creation method, summary creation system, and summary creation program
JP6621514B1 (ja) 要約作成装置、要約作成方法、及びプログラム
CN113015971B (zh) 聚类分析方法、聚类分析系统及可读存储介质
JP2021086592A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
Dzieciątko Application of text analytics to analyze emotions in the speeches
Teixeira Lopes et al. Assisting health consumers while searching the web through medical annotations
Kölbl et al. Obtaining More Specific Topics and Detecting Weak Signals by Topic Word Selection
KR102322786B1 (ko) 전자문서의 관계기반 저작관리방법 및 저작관리시스템
JP2021128620A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP2011018152A (ja) 情報提示装置、情報提示方法およびプログラム
Izo et al. Named entities as a metadata resource for indexing and searching information
Kaur et al. Towards Visualization Recommendation-A Semi-Automated Domain-Specific Learning Approach.
JP7193890B2 (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
JP7431379B1 (ja) データ処理装置及びデータ処理方法
Hoque An analytical approach to analyze the popular word search from nineteen-year news dataset using Natural language processing technique
Škoric Classification of terms on a positive-negative feelings polarity scale based on emoticons
van Hoek et al. Assessing visualization techniques for the search process in digital libraries
Sharkey et al. Deconstruct and Reconstruct: Using Topic Modeling on an Analytics Corpus.
Şahin Real-Time Live Insult Analysis on Twitter-X Social Media Platform
Burget et al. Automatic annotation of online articles based on visual feature classification
JP2020173759A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
Katarzyna et al. Sentiment analysis of opinions about hotels extracted from the Internet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant