CN116644338B - 基于混合相似度的文献主题分类方法、装置、设备及介质 - Google Patents
基于混合相似度的文献主题分类方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116644338B CN116644338B CN202310638201.3A CN202310638201A CN116644338B CN 116644338 B CN116644338 B CN 116644338B CN 202310638201 A CN202310638201 A CN 202310638201A CN 116644338 B CN116644338 B CN 116644338B
- Authority
- CN
- China
- Prior art keywords
- index
- document
- similarity
- author
- literature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 41
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 238000007621 cluster analysis Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000004927 fusion Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Optimization (AREA)
- Operations Research (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于混合相似度的文献主题分类方法、装置、设备及介质,属于大数据技术领域,解决了现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。本申请技术方案主要包括:获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签。
Description
技术领域
本发明属于大数据技术领域,具体而言涉及基于混合相似度的文献主题分类方法、装置、设备及介质。
背景技术
海量的阅读内容给人们带来了巨大的障碍,这一问题在不久的未来也将越发严重。相关数据表明,2022年全年的学术论文发表量相较于30年前已经增长了十余倍,年增长量也逐年攀高,近年来,每年有超过700万的文章被发表。这意味着,未来的科研人员将会需要阅读更多的资料来追踪最新的科学进展。
为了应对该现状,已经有一些研究成果使用自动化算法从学术论文做分类,主要分为两部分工作。一部分侧重在内容上的工作,比如概念抽取,把研究对象从论文本身提炼到术语层级,并在这些术语之间探索关联性,如不同概念的上下位关系及时间先后顺序。这些工作对于信息的高度提炼确实能够帮助人们更好地理清整个领域的发展脉络,但对于学者而言,却丢失了很多论文本身的信息。另一部分则是注重引文网络中的关系,其认为引文网络中不相邻的论文节点不相似的假设与现实并不相符,很多情况下写作者会有意避免引用相似论文。然而这种使用简单的单一数值对于引用的重要性做刻画、或者将引用关系定义为“方法”或“背景”相对较为单薄,对文章本身内容上的信息考虑不足。
综上,现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于混合相似度的文献主题分类方法、装置、设备及介质,用以解决现有技术中对于文献集合内容的主题类别划分存在忽略文献内容关联和作者关联等因素而导致精度较低的问题。
本发明第一方面实施例提供一种基于混合相似度的文献主题分类方法,包括以下步骤:
获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;
根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;
根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;
依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签。
在一些实施例中,获取文献实体异构网络集合,包括:
获取查询关键词,根据所述查询关键词向文献库召回文献集合;
收集所述文献集合的实体异构信息以召回所述文献实体异构网络集合,所述实体异构信息包括作者信息或者引文数据,所述实体异构信息还包括文献标题、摘要、关键词或者部分正文中的一种或者多种的组合,其中所述作者信息包括作者的常用名、别名、所属机构以及邮箱。
在一些实施例中,所述根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并融合以生成混合相似度指标,包括:
采用OAG-BERT学术语言大模型基于所述实体异构信息生成各所述文献的特征向量;
根据所述特征向量计算各所述文献对的相似度,对所述相似度进行归一化计算以获得相似度指标,所述相似度指标的计算公式表示为:
其中/>表示文献对i-j的相似度指标,/>表示文献对i-j的相似度,dot(Ei,Ej)表示对文献i的特征向量Ei和文献j的特征向量Ej做点积运算;
根据所述引文网络信息构建各所述文献对引用指标,所述引用指标的计算表示为:
其中/>表示文献对i-j的引用指标,cij表示文献i引用文献j的引用率,nref表示文献i的引用文献总数;
根据所述文献作者计算各所述文献对的同作者数指标,所述同作者数指标的计算表示为:
其中/>表示文献对i-j的同作者数指标,Asame为文献对i-j的相同作者数,Atotal为文献对i-j总的作者数量;
根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标。
在一些实施例中,所述根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标,包括:
依据所述相似度指标、所述引用指标和所述同作者数指标,调节所述相似度指标、所述引用指标和所述同作者数指标各自的权重,以使得所述混合相似度中所述相似度指标、所述引用指标和所述同作者数指标各自所起的作用相平等;
根据所述权重融合所述相似度指标、所述引用指标和所述同作者数指标以生成所述混合相似度指标,计算公式表示为:
其中/>表示所述混合相似度指标,α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重。
在一些实施例中,所述依据所述相似度指标、所述引用指标和所述同作者数指标,调节所述相似度指标、所述引用指标和所述同作者数指标各自的权重,包括根据以下方程调节:
α+β+γ=1,其中α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重,/>表示所有文献对相似度指标之和,/>表示所有文献对引用指标之和,/>表示所有文献对同作者数指标之和。
在一些实施例中,所述根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇,包括:
根据所述混合相似度指标构建文献网络图,以所述文献作为所述文献网络图的节点,以所述混合相似度指标作为所述文献网络图中两所述节点之间的连接权重;
采用Leiden算法对所述文献网络图进行聚类以获得所述若干文献簇。
在一些实施例中,依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签,包括:
通过OAG-BERT学术语言大模型获取所述文献簇中各所述文献的特征向量;
抽取所述特征向量的M个第一候选关键词,遍历所有所述特征向量以形成第一关键词列表;
抽取所述文献簇中各所述文献的M个第二候选关键词,遍历所述文献簇中所有所述文献以形成第二关键词列表;
计算每个候选关键词在所述第一关键词列表出现的次数和在所述第二关键词列表出现的次数之和,作为所述候选关键词的得分,取所述得分靠前的若干所述候选关键词作为所述文献簇的所述主题标签。
本发明第二方面实施例提供的基于混合相似度的文献主题分类装置,包括:
获取模块,用于获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;
指标融合模块,根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;
聚类模块,根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;
提取模块,依据各所述文献簇进行关键词提取,以获得各所述文献簇的主题标签。
本发明第三方面实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的基于混合相似度的文献主题分类方法。
本发明第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的基于混合相似度的文献主题分类方法。
有益效果:
本发明实施例通过对论文对的相似度指标、引用指标和同作者数指标进行融合形成混合相似度指标,该混合相似度指标不仅包括基于语义信息和上下文信息的相似度指标,优于传统方法中通过词与词的关系评估方法,而且通过文献引用指标和同作者数指标这对相互补足的指标加强文献相似度中文献关系的考虑,避免了文献形成时基于现实的考虑对于引用关系的操作而影响主题分类的精度。然后通过聚类的方式将文献实体异构网络集合中的文献进行聚类,在各个划分的方向中依据特征向量和文献文本进行关键词的提取以得到兼顾内容宽泛性和细粒度描述的主题标签。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明第一方面实施例提供的基于混合相似度的文献主题分类方法流程示意图;
图2为本发明实施例的文献网络图示意图;
图3为本发明第一方面实施例优选实施例流程示意图;
图4为本发明第二方面实施例提供的基于混合相似度的文献主题分类装置架构示意图;
图5为本发明第三方面实施例提供的电子设备架构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合、分离、互换和/或重新布置。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里使用的术语是为了描述具体实施例的目的,而不意图是限制性的。如这里所使用的,除非上下文另外清楚地指出,否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外,当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时,说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组,但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是,如这里使用的,术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语,如此,它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。
以下通过具体实施例对本发明第一方面实施例提供的基于混合相似度的文献主题分类方法进行介绍。请参阅图1,本发明第一方面实施例提供的基于混合相似度的文献主题分类方法包括:
步骤一、获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息。
步骤二、根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标。
步骤三、根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇。
步骤四、依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签。
其中的文献可以是根据文献完成者可以检索到的科学技术文章,包括但不限于学术论文、科技期刊、专利文件、科普文章或者网络博文等。便于描述,本实施例中的应用对象以论文集合为例对本发明进行说明。
应当理解的是,本实施例提供的基于混合相似度的文献主题分类方法的应用目标即对查询到的论文集合进行主题分类,在很多场景下都有着重要的应用价值。对于刚踏入新领域的学生和研究人员,往往需要较多的时间搜索论文、并收集相关信息。然而对一个领域内的技术要点间的关联关系以及相似程度,可能会涉及大量的隐式信息的处理和大量的引用关系计算,这些“隐式信息”则往往来源于对领域了解后的认知。因此,对于这类人,对特定的领域进行相关论文的聚类并进行可视化显示可以快速的帮助他们对整个领域形成整体的认识,快速进行进一步的研究方向选择。类似地,对于综述写作人员,对技术领域做聚类分析,能够快速的对领域内的论文,进行整体的聚类分析和可视化展示,从繁杂的数据整理统计中抽离出来,进行更深一步的规律挖掘总结。即使是对跨领域学者或者相关技术的爱好者,聚类分析也能够帮助他们概括出技术的规模和相似程度,从而迅速的找到自己最感兴趣的领域。
优选地,在步骤一中,获取文献实体异构网络集合,包括:
获取查询关键词,根据所述查询关键词向文献库召回文献集合;
收集所述文献集合的实体异构信息以召回所述文献实体异构网络集合,所述实体异构信息包括作者信息或者引文数据,所述实体异构信息还包括文献标题、摘要、关键词或者部分正文中的一种或者多种的组合,其中所述作者信息包括作者的常用名、别名、所属机构以及邮箱。
具体地,从论文库中得到与查询关键词k相关的召回论文集合。并收集其中的标题、摘要、关键词和作者信息以及引用等字段数据。为进一步的指标计算和聚类标注工作做准备。其中论文库选择依托AMiner搜索引擎以及数据库得到与关键词k相关的论文集合作为数据源。收集其标题、摘要、关键词和作者信息以及引用等字段数据构建召回论文实体异构网络集合,其中尤其强调对于作者信息要确保其所有信息都能完整收集,包括其常用名,别名,所属机构以及邮箱等信息,为进一步计算相同作者数量做好数据准备。
优选地,在一些实施例中,步骤二、所述根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并融合以生成混合相似度指标,包括:
采用OAG-BERT学术语言大模型基于所述实体异构信息生成各所述文献的特征向量。
OAG-BERT学术语言大模型使用论文的标题、摘要、发表地、关键词以及合作者姓名与所属单位生成第i篇论文的768维隐向量(下文也称作特征向量)表示为Ei。OAG-BERT集成了科技资源大量的异构实体,包括论文、作者、概念、地点和隶属关系,在学术异构网络上进行了增强,不仅可以理解学术文本信息,还可以理解异构网络中的实体知识,并且采用新的预训练策略,适用于各种下游学术任务。只需将论文的标题、摘要、发表地、关键词以及合作者姓名与所属单位输入到OAG-BERT中就可以得到这篇论文隐向量表示。一些实施例中利用该模型对数据源中收集的异构实体信息(包括论文、作者、概念、地点和所属机构)进行特征提取。
根据所述特征向量计算各所述文献对的相似度,对所述相似度进行归一化计算以获得相似度指标AS-degree,所述相似度指标的计算公式表示为:
其中/>表示文献对i-j的相似度指标,/>表示文献对i-j的相似度,dot(Ei,Ej)表示对文献i的特征向量Ei和文献j的特征向量Ej做点积运算。
相比于只是将论文进行简单分词统计的传统方法,本实施例在计算论文文本相似度时,论文的信息不仅编码到同一个隐向量空间还引入了文本的语义信息以及上下文信息,该方法不仅在实验效果上优于以往传统方法,还更加符合现实需求。此外通过对相似度的归一化计算,避免了由于相似度值的本身绝对大小而影响与其他指标进行融合的问题。
根据所述引文网络信息构建各所述文献对引用指标,所述引用指标的计算表示为:
其中/>表示文献对i-j的引用指标,cij表示文献i引用文献j的引用率,nref表示文献i的引用文献总数。
在实际计算过程中,以符号来表示直接引用关系指标DC-index,通过两篇论文之间的引用关系占引用总数的比例来反映引用相似程度。由于本实施例是通过引用指标表征相似度的,虽然引用指标是有向的,但是相似度是无向的,因此通过无向化处理信息不失真且,通过无向话对称处理方便后续计算。通过取二者最值的方式对直接引用关系指标做了一个无向化处理,使得互相之间的相似系数能够对称,这是满足实际情况的,也方便后续的聚类。
根据所述文献作者计算各所述文献对的同作者数指标,所述同作者数指标的计算表示为:
其中/>表示文献对i-j的同作者数指标,Asame为文献对i-j的相同作者数,Atotal为文献对i-j总的作者数量。
在实际计算过程中,以符号来表示为共同作者数指标CA-degree,通过共同作者占总作者数的比例反映相似度关系。
然后,根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标。
因为共同作者和引用关系对于文本相似度具有互补性。通过文献引用指标和同作者数指标这对相互补足的指标加强文献相似度中文献关系的考虑,避免了文献形成时基于现实的考虑对于引用关系的操作而影响主题分类的精度。
优选地,在一些实施例中,所述根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标,包括:
依据所述相似度指标、所述引用指标和所述同作者数指标,调节所述相似度指标、所述引用指标和所述同作者数指标各自的权重,以使得所述混合相似度中所述相似度指标、所述引用指标和所述同作者数指标各自所起的作用相平等;
根据所述权重融合所述相似度指标、所述引用指标和所述同作者数指标以生成所述混合相似度指标,计算公式表示为:
其中/>表示所述混合相似度指标,α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重。
在一些实施例中,所述依据所述相似度指标、所述引用指标和所述同作者数指标,调节所述相似度指标、所述引用指标和所述同作者数指标各自的权重,包括根据以下方程调节:
α+β+γ=1,其中α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重,/>表示所有文献对相似度指标之和,/>表示所有文献对引用指标之和,/>表示所有文献对同作者数指标之和。
应当理解的是,根据本实施例的应用场景,文献的内容相似和关系相似对于文献的评价的重要性使相当的,为了使得各指标的作用相平等,本实施例中通过上式三项指标之间的关系自动的调节各权重的大小,使得权重与指标的大小相适配,降低了由于指标取值本身带来的不平衡性。
优选地,在一些实施例中,关于步骤三、在一些实施例中,所述根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇,包括:
如图2所示,根据所述混合相似度指标构建文献网络图,以所述文献作为所述文献网络图的节点,以所述混合相似度指标作为所述文献网络图中两所述节点之间的连接权重;
采用Leiden算法对所述文献网络图进行聚类以获得所述若干文献簇。
Leiden算法是对Louvin算法的改进,其具有高效性,高稳定性,高灵活性,高精度和高可解释性是近几年的SOTA算法之一,包括三个阶段:节点的局部移动,对分区进行重构,以及基于重构分区的网络聚合,使用非引用分区为聚合网络创建一个初始分区。
在一些实施例中,依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签,包括:
通过OAG-BERT学术语言大模型获取所述文献簇中各所述文献的特征向量。
抽取所述特征向量的M个第一候选关键词,遍历所有所述特征向量以形成第一关键词列表。在一些实施例中,具体地,第一候选关键词的抽取可以是通过OAG-BERT在生成特征向量后直接完成的,OAG-BERT基于特征向量和文献标题及摘要部分进行抽取。
接着,抽取所述文献簇中各所述文献的M个第二候选关键词,遍历所述文献簇中所有所述文献以形成第二关键词列表。本实施例中,例如使用查询AMiner数据接口直接获取文献簇中各论文源数据的关键字字段。
计算每个所述候选关键词在所述第一关键词列表出现的次数和在所述第二关键词列表出现的次数之和,作为所述候选关键词的得分,取所述得分靠前的若干所述候选关键词作为所述文献簇的所述主题标签。
具体地,首先根据混合相似度指标构建以为权重的论文图G,使用Leiden社区发现算法进行聚类,将G聚为N个簇,C=(c1,c2...ck...cN)。
为了汇聚标题、摘要以及关键字的信息,结合OAG-BERT抽取到的较为宽泛的领域信息和原有数据即文献中较为细粒度的技术名词,从而最大程度上获得每篇论文的关键词,综合反映该簇的整体情况。本发明提出了将OAG-BERT模型抽取的基于标题和摘要的第一候选关键词和文献中原有的关键字字段相结合的SOC(score of candidate,候选者得分)算法。
采用SOC(i,k)表示第i个在第k簇的关键词集合中出现的总次数。
采用oag_list表示使用OAG-BERT抽取算法对某簇(例如第k簇)论文集合进行关键词抽取所汇聚形成的关键词列表;具体方法为对k簇中每个论文使用OAG-BERT形成的特征向量,单独进行关键词抽取得到两个关键词,该簇所有论文的关键词汇聚到oag_list中。同理将所有论文源数据中所得关键词汇聚成为origin_list。
采用count(i,oag_list),count(i,origin_list)分别代表候选词i在oag_list和origin_list中出现了多少次。SOC(i,k)的计算公式表示为:
SOC(i,k)=count(i,oag_list)+count(i,origin_list)。
基于上述公式可以实现对任意文献簇中所有候选主题词的soc分数计算,并根据得到的分数进行排名,本实施例取前二者作为该文献簇的最终标注,最终完成对所有文献簇的主题标签标注。
综上,如图3所示,本发明优选实施例中,给定查询关键词k(如领域、技术、作者)依托AMiner数据库,对相关论文集合进行数据检索与收集,包括论文的共同作者信息和引文网络信息以及论文的标题、摘要、关键字等信息。面向聚类任务建立包含论文引文网络和论文属性的数据库或者文献集合。然后,基于引文网络和论文文本信息构建包含三个核心指标(CA-degree,AS-degree,DC-index)的度量指标体系,并采用融合算法形成混合相似度指标HYB。接着,依据混合相似度指标,并以此作为距离进行Leiden聚类,结合OAG-BERT在综合文本信息抽取论文的关键词和数据源中的关键词,采用上述提出的SOC算法为候选关键词打分,得分最高这位该聚类的主题标签。最后,通过系统界面实现数据上传等交互性操作,依据形成的带标注的类,实现网络嵌入的可视化交互系统。
较佳地地,在一些实施例中,将聚类结果数据传入Gephi绘图软件的API,依据图聚类的结果对检索结果的聚类效果以论文网络图的形式进行自动可视化展示。可视化的示意图结果如图2所示。其中边的颜色深浅代表相似度的大小,颜色越深相似度越大。该网络图可以结合原有的每篇论文的链接以及对类内的各种指标,如簇内论文平均年限,平均被引数等统计指标做展示,为研究人员提供综合的评价参考。
本发明第二方面实施例提供的基于混合相似度的文献主题分类装置,如图4所示,包括:
获取模块,用于获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;
指标融合模块,根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;
聚类模块,根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;
提取模块,依据各所述文献簇进行关键词提取,以获得各所述文献簇的主题标签。
本发明第三方面实施例提供一种电子设备,如图5所示,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的基于混合相似度的文献主题分类方法。
本发明第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的基于混合相似度的文献主题分类方法。
计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于混合相似度的文献主题分类方法,其特征在于,包括以下步骤:
获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;
根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;
根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;
依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签;
所述根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并融合以生成混合相似度指标,包括:
采用OAG-BERT学术语言大模型基于所述实体异构信息生成各所述文献的特征向量,所述实体异构信息包括论文、作者、概念、地点和所属机构;
根据所述特征向量计算各所述文献对的相似度,对所述相似度进行归一化计算以获得相似度指标,所述相似度指标的计算公式表示为:
其中/>表示文献对i-j的相似度指标,/>表示文献对i-j的相似度,dot(Ei,Ej)表示对文献i的特征向量Ei和文献j的特征向量Ej做点积运算;
根据所述引文网络信息构建各所述文献对引用指标,所述引用指标的计算表示为:
其中/>表示文献对i-j的引用指标,cij表示文献i引用文献j的引用率,nref表示文献i的引用文献总数;
根据所述文献作者计算各所述文献对的同作者数指标,所述同作者数指标的计算表示为:
其中/>表示文献对i-j的同作者数指标,Asame为文献对i-j的相同作者数,Atotal为文献对i-j总的作者数量;
根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标;
所述依据所述相似度指标、所述引用指标和所述同作者数指标,调节所述相似度指标、所述引用指标和所述同作者数指标各自的权重,包括根据以下方程调节:
其中α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重,/>表示所有文献对相似度指标之和,/>表示所有文献对引用指标之和,/>表示所有文献对同作者数指标之和。
2.根据权利要求1所述的基于混合相似度的文献主题分类方法,其特征在于:获取文献实体异构网络集合,包括:
获取查询关键词,根据所述查询关键词向文献库召回文献集合;
收集所述文献集合的实体异构信息以召回所述文献实体异构网络集合,所述实体异构信息包括作者信息或者引文数据,所述实体异构信息还包括文献标题、摘要、关键词或者部分正文中的一种或者多种的组合,其中所述作者信息包括作者的常用名、别名、所属机构以及邮箱。
3.根据权利要求1所述的基于混合相似度的文献主题分类方法,其特征在于:所述根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标,包括:
依据所述相似度指标、所述引用指标和所述同作者数指标,调节所述相似度指标、所述引用指标和所述同作者数指标各自的权重,以使得所述混合相似度中所述相似度指标、所述引用指标和所述同作者数指标各自所起的作用相平等;
根据所述权重融合所述相似度指标、所述引用指标和所述同作者数指标以生成所述混合相似度指标,计算公式表示为:
其中/>表示所述混合相似度指标,α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重。
4.根据权利要求1所述的基于混合相似度的文献主题分类方法,其特征在于:所述根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇,包括:
根据所述混合相似度指标构建文献网络图,以所述文献作为所述文献网络图的节点,以所述混合相似度指标作为所述文献网络图中两所述节点之间的连接权重;
采用Leiden算法对所述文献网络图进行聚类以获得所述若干文献簇。
5.根据权利要求1所述的基于混合相似度的文献主题分类方法,其特征在于:依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签,包括:
通过OAG-BERT学术语言大模型获取所述文献簇中各所述文献的特征向量;
抽取所述特征向量的M个第一候选关键词,遍历所有所述特征向量以形成第一关键词列表;
抽取所述文献簇中各所述文献的M个第二候选关键词,遍历所述文献簇中所有所述文献以形成第二关键词列表;
计算每个候选关键词在所述第一关键词列表出现的次数和在所述第二关键词列表出现的次数之和,作为所述候选关键词的得分,取所述得分靠前的若干所述候选关键词作为所述文献簇的所述主题标签。
6.一种基于混合相似度的文献主题分类装置,其特征在于,包括:
获取模块,用于获取文献实体异构网络集合,所述文献实体异构网络集合至少包括文献文本、文献作者以及文献间的引文网络信息;
指标融合模块,根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并进行融合以生成混合相似度指标;
聚类模块,根据所述混合相似度指标对所述文献实体异构网络集合中的文献进行聚类分析以获得若干文献簇;
提取模块,依据各所述文献簇中文献的特征向量和所述文献文本进行关键词提取,以获得各所述文献簇的主题标签;
所述根据所述文献文本、所述文献作者以及所述引文网络信息进行指标评价,并融合以生成混合相似度指标,包括:
采用OAG-BERT学术语言大模型基于所述实体异构信息生成各所述文献的特征向量,所述实体异构信息包括论文、作者、概念、地点和所属机构;
根据所述特征向量计算各所述文献对的相似度,对所述相似度进行归一化计算以获得相似度指标,所述相似度指标的计算公式表示为:
其中/>表示文献对i-j的相似度指标,/>表示文献对i-j的相似度,dot(Ei,Ej)表示对文献i的特征向量Ei和文献j的特征向量Ej做点积运算;
根据所述引文网络信息构建各所述文献对引用指标,所述引用指标的计算表示为:
其中/>表示文献对i-j的引用指标,cij表示文献i引用文献j的引用率,nref表示文献i的引用文献总数;
根据所述文献作者计算各所述文献对的同作者数指标,所述同作者数指标的计算表示为:
其中/>表示文献对i-j的同作者数指标,Asame为文献对i-j的相同作者数,Atotal为文献对i-j总的作者数量;
根据所述相似度指标、所述引用指标和所述同作者数指标进行指标融合以生成所述混合相似度指标;
所述依据所述相似度指标、所述引用指标和所述同作者数指标,调节所述相似度指标、所述引用指标和所述同作者数指标各自的权重,包括根据以下方程调节:
其中α表示相似度指标的权重,β表示引用指标的权重,γ表示同作者数指标的权重,/>表示所有文献对相似度指标之和,/>表示所有文献对引用指标之和,/>表示所有文献对同作者数指标之和。
7.一种电子设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5任一项所述的基于混合相似度的文献主题分类方法。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的基于混合相似度的文献主题分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310638201.3A CN116644338B (zh) | 2023-06-01 | 2023-06-01 | 基于混合相似度的文献主题分类方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310638201.3A CN116644338B (zh) | 2023-06-01 | 2023-06-01 | 基于混合相似度的文献主题分类方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116644338A CN116644338A (zh) | 2023-08-25 |
CN116644338B true CN116644338B (zh) | 2024-01-30 |
Family
ID=87618482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310638201.3A Active CN116644338B (zh) | 2023-06-01 | 2023-06-01 | 基于混合相似度的文献主题分类方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644338B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN110083703A (zh) * | 2019-04-28 | 2019-08-02 | 浙江财经大学 | 一种基于引用网络和文本相似度网络的文献聚类方法 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN112270178A (zh) * | 2020-10-23 | 2021-01-26 | 平安科技(深圳)有限公司 | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 |
CN113868424A (zh) * | 2021-10-14 | 2021-12-31 | 平安银行股份有限公司 | 文本主题的确定方法、装置、计算机设备及存储介质 |
CN113988087A (zh) * | 2021-10-26 | 2022-01-28 | 北京智谱华章科技有限公司 | 技术主题多指标计算及趋势预测方法及装置 |
CN114638225A (zh) * | 2022-03-08 | 2022-06-17 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于科技文献图网络的关键词自动抽取方法 |
CN114661902A (zh) * | 2022-01-10 | 2022-06-24 | 北京智谱华章科技有限公司 | 基于多特征融合的文献库冷启动作者同名消歧方法及设备 |
CN115017315A (zh) * | 2022-06-09 | 2022-09-06 | 北京市科学技术研究院 | 一种前沿主题识别方法、系统及计算机设备 |
-
2023
- 2023-06-01 CN CN202310638201.3A patent/CN116644338B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589948A (zh) * | 2015-12-18 | 2016-05-18 | 重庆邮电大学 | 一种文献引用网络可视化及文献推荐方法及系统 |
CN110083703A (zh) * | 2019-04-28 | 2019-08-02 | 浙江财经大学 | 一种基于引用网络和文本相似度网络的文献聚类方法 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN112270178A (zh) * | 2020-10-23 | 2021-01-26 | 平安科技(深圳)有限公司 | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 |
WO2021189920A1 (zh) * | 2020-10-23 | 2021-09-30 | 平安科技(深圳)有限公司 | 医疗文献簇的主题确定方法、装置、电子设备及存储介质 |
CN113868424A (zh) * | 2021-10-14 | 2021-12-31 | 平安银行股份有限公司 | 文本主题的确定方法、装置、计算机设备及存储介质 |
CN113988087A (zh) * | 2021-10-26 | 2022-01-28 | 北京智谱华章科技有限公司 | 技术主题多指标计算及趋势预测方法及装置 |
CN114661902A (zh) * | 2022-01-10 | 2022-06-24 | 北京智谱华章科技有限公司 | 基于多特征融合的文献库冷启动作者同名消歧方法及设备 |
CN114638225A (zh) * | 2022-03-08 | 2022-06-17 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种基于科技文献图网络的关键词自动抽取方法 |
CN115017315A (zh) * | 2022-06-09 | 2022-09-06 | 北京市科学技术研究院 | 一种前沿主题识别方法、系统及计算机设备 |
Non-Patent Citations (6)
Title |
---|
TopicBERT: A cognitive approach for topic detection from multimodal post stream using BERT and memory–graph;Meysam Asgari-Chenaghlu et al.;《Chaos, Solitons and Fractals》;1-13 * |
Using Structural and Semantic Information to Identify Software Components;Cezar Sas et al.;《2021 IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER)》;546-550 * |
基于异构信息网络的科技文献主题识别研究;席崇俊 等;《文献与数据学报》;第4卷(第3期);66-78 * |
基于文档嵌入和引文分析的学科主题分析——内容演化与爆发模式;张爽;《中国优秀硕士学位论文全文数据库》;1-69 * |
基于文献内容和引用特征融合的科学结构分析方法研究;任红娟;《情报学报》;第32卷(第10期);1068-1074 * |
基于智能情报挖掘的技术甄别发展现状及趋势预测研究;褚晓泉 等;《工程管理科技前沿》;第41卷(第3期);7-14 * |
Also Published As
Publication number | Publication date |
---|---|
CN116644338A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919619B (zh) | 一种商品聚类方法、装置及电子设备 | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
JP5332477B2 (ja) | ターム階層の自動生成 | |
US10019442B2 (en) | Method and system for peer detection | |
Singh et al. | Sentiment analysis of textual reviews; Evaluating machine learning, unsupervised and SentiWordNet approaches | |
US20060242190A1 (en) | Latent semantic taxonomy generation | |
JP5391632B2 (ja) | ワードと文書の深さの決定 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN109086355B (zh) | 基于新闻主题词的热点关联关系分析方法及系统 | |
Garg et al. | The structure of word co-occurrence network for microblogs | |
Nazemi et al. | Visual analytics for analyzing technological trends from text | |
CN110795613B (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN112257386B (zh) | 一种文景转换中场景空间关系信息布局生成的方法 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Sapul et al. | Trending topic discovery of Twitter Tweets using clustering and topic modeling algorithms | |
Kumbhar et al. | Text document clustering using k-means algorithm with dimension reduction techniques | |
JP2012079187A (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
Yuan et al. | Research of deceptive review detection based on target product identification and metapath feature weight calculation | |
Watanabe et al. | A paper recommendation mechanism for the research support system papits | |
CN112417082A (zh) | 一种科研成果数据消歧归档存储方法 | |
CN116644338B (zh) | 基于混合相似度的文献主题分类方法、装置、设备及介质 | |
Zhang et al. | Text information classification method based on secondly fuzzy clustering algorithm | |
Sharma et al. | A trend analysis of significant topics over time in machine learning research | |
CN115563268A (zh) | 一种文本摘要的生成方法及装置、电子设备、存储介质 | |
CN112434126B (zh) | 一种信息处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |