CN115686432A - 一种用于检索排序的文献评价方法、存储介质及终端 - Google Patents

一种用于检索排序的文献评价方法、存储介质及终端 Download PDF

Info

Publication number
CN115686432A
CN115686432A CN202211718607.4A CN202211718607A CN115686432A CN 115686432 A CN115686432 A CN 115686432A CN 202211718607 A CN202211718607 A CN 202211718607A CN 115686432 A CN115686432 A CN 115686432A
Authority
CN
China
Prior art keywords
document
literature
influence
documents
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211718607.4A
Other languages
English (en)
Other versions
CN115686432B (zh
Inventor
王帅
王中健
金敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yaorongyun Digital Technology Chengdu Co ltd
Original Assignee
Yaorongyun Digital Technology Chengdu Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yaorongyun Digital Technology Chengdu Co ltd filed Critical Yaorongyun Digital Technology Chengdu Co ltd
Priority to CN202211718607.4A priority Critical patent/CN115686432B/zh
Priority to CN202310244305.6A priority patent/CN116185332A/zh
Publication of CN115686432A publication Critical patent/CN115686432A/zh
Application granted granted Critical
Publication of CN115686432B publication Critical patent/CN115686432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/08Sorting, i.e. grouping record carriers in numerical or other ordered sequence according to the classification of at least some of the information they carry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于检索排序的文献评价方法、存储介质及终端,属于信息检索技术领域,包括以下步骤:根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,根据综合评价结果指导检索结果排序;计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性;以文献的发表时间作为筛选切片,比较该切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力;根据文献中词对出现概率确定文献的创新性。本发明根据相关性、影响力、创新性对文献进行综合评价,并根据综合评价结果指导检索结果排序,进而为用户提供满足参考价值的检索结果。

Description

一种用于检索排序的文献评价方法、存储介质及终端
技术领域
本发明涉及信息检索技术领域,尤其涉及一种用于检索排序的文献评价方法、存储介质及终端。
背景技术
检索结果的呈现是检索系统的重要组成部分,在文献越来越多的趋势下,判断哪些文献是符合用户场景需求的文献,对于节省用户时间有着举足轻重的作用。
传统的检索结果排序已经无法满足特定场景用户的使用需求,如仅凭相关度排序,虽然可以最大程度上匹配检索条件,但却不能保证排序靠前文献的质量;如按被引数量排序,虽然能够确定研究价值丰富的文献,但是更容易揭示历史文献,对于最新的文献曝光度不足的情况下,可能会错过有价值的突破性文章;如按时间排序虽然可以得到最新的研究,但依然无法判断哪些文献具有的突破性的创新与发展潜力。
综上,根据单一指标对检索结果进行排序,无法为用户提供满足参考价值的检索结果,因此亟待需要提供能够契合用户特定检索需求的结果排序方法。
发明内容
本发明的目的在于克服现有技术的问题,提供一种用于检索排序的文献评价方法、存储介质及终端。
本发明的目的是通过以下技术方案来实现的:一种用于检索排序的文献评价方法,所述方法包括以下步骤:
根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,根据综合评价结果指导检索结果排序;
计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性;
以文献的发表时间作为筛选切片,比较该切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力;
根据文献中词对出现概率确定文献的创新性。
在一示例中,对文献进行综合评价时,对各指标评价结果进行加权处理得到最终综合评价结果。
在一示例中,所述检索式与文献主题词的文本相似度sim(A ,B)计算式为:
Figure 401265DEST_PATH_IMAGE001
其中, A i B i 分别表示特征向量AB的各分量;n为各向量长度。
在一示例中,获取当前文献的影响力时,还包括:
以文献的发表时间、研究方向的热门程度、类型作为筛选切片,比较同一切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力。
在一示例中,计算文献的影响力前还包括:
对于文献被引数大于阈值的第一文献,根据对应切片下的各文献被引数确定新的被引数数值,令第一文献的被引数为被引数数值。
在一示例中,获取当前文献的影响力时,还包括:
根据文献发表平台的影响力对文献的影响力进行更新;
比较当前文献发表平台中文献的被引数与整体文献发表平台的文献被引数,进而确定当前文献发表平台的影响力。
在一示例中,所述根据文献中词对出现概率确定文献的创新性包括:
根据词对在整体数据集中实际出现的概率与预期出现概率的比值确定词对的普遍性;
根据当前文献中所有词对的普遍性由小至大排序,取前5%-20%中任一值作为当前文献的普遍性Score com
采用对数变换获取普遍性Score com 的正态分布变量并取负数,得到当前文献的创新性。
在一示例中,所述普遍性com(w 1 w 2 )计算式为:
Figure 29692DEST_PATH_IMAGE002
其中,w 1 ,w 2 为组成词组的词的频次,w 1 w 2 为词对的频次;N表示整体数据集。
需要进一步说明的是,上述方法各示例对应的技术特征可以相互组合或替换构成新的技术方案。
本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一示例或多个示例组成形成的所述的一种用于检索排序的文献评价方法的步骤。
本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一示例或多个示例形成的所述的一种用于检索排序的文献评价方法的步骤。
与现有技术相比,本发明有益效果是:
(1)在一示例中,通过计算检索式与文献主题词的文本相似度进而计算得到检索式与文献的相关性,提高了检索式与文献的匹配度,提高了检索精度;以文献的发表时间作为筛选切片进而确定文献的影响力,降低了对新发布文献的影响力评价的影响,保证了文献影响力评价的准确性;根据词对出现概率确定文献的创新性,实现对文献价值的评价;在此基础上,根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,并根据综合评价结果指导检索结果排序,能够使排序靠前的检索结果中文献兼容相关性、影响力、创新性中至少两个指标,进而为用户提供满足参考价值的检索结果,契合用户特定检索需求的检索结果排序。
(2)在一示例中,对各指标评价结果进行加权处理,能够平衡各指标对文献评价的影响,使最终综合评价结果更贴近文献本身特质,保证检索结果排序的精准性。
(3)在一示例中,进一步引入文献的研究方向的热门程度、类型作为筛选切片,综合考虑了各切片因子对文献影响力的影响,进而提高文献影响力的评价准确性。
(4)在一示例中,在计算文献的影响力前,对被引量较为极端的文献进行极端值处理,消除了极端值对文献影响力计算的影响,进一步提高了影响力计算的准确性与可靠性。
(5)在一示例中,通过文献发表平台的影响力对文献的影响力进行补充,避免了文献出现研究领域特别新或者发表时间特别早导致文献自身影响力计算失真的情况,保证影响力计算的准确度。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明一示例中的方法流程图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,使用序数词 (例如,“第一和第二”、“第一至第四”等 )是为了对物体进行区分,并不限于该顺序,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
在一示例中,一种用于检索排序的文献评价方法,该方法具体包括:
根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,根据综合评价结果指导检索结果排序。其中,相关性表示文献与检索式中词组的相关性;影响力即检索结果中各文献的影响力,反应了文献的质量(价值);创新性即检索结果中各文献的创新性,反应了文献的创新度与发展潜力。当然,文献的影响力、创新性可提前进行评价,即将文献收录至检索数据库中即可开展文献的影响力、创新性评价,进而降低后续检索过程中文献综合评价难度,提升文献综合评价速度,优化用户的检索体验。
优选地,根据相关性、影响力、创新性对文献进行综合评价,并根据综合评价结果指导检索结果排序,能够使排序靠前的检索结果中文献兼容相关性、影响力、创新性中至少两个指标。此时,从三个维度对检索结果中的文献进行综合评价,从各方面综合考虑了用户对检索结果中文献的高质量要求,进而根据综合评价结果指导检索结果排序,能够为用户提供满足参考价值的检索结果,契合用户特定检索需求的检索结果排序。其中,高质量要求(特定检索需求)表示检索结果中文献需具备参考价值、创新与发展潜力等,且检索结果不能错过有价值的、新发表的突破性文献。
作为一选项,可根据相关性、影响力、创新性中任一指标对文献进行综合评价,并根据综合评价结果指导检索结果排序,以保证排序的灵活性,以满足不同用户的检索需求。
进一步地,本发明计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性,提高了检索式与文献的匹配度以及检索精度。
进一步地,本发明以文献的发表时间作为筛选切片,比较该切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力,降低了对新发布文献的影响力评价的影响,保证了文献影响力评价的准确性。其中,以文献的发表时间作为筛选切片表示通过相同发表时间作为筛选条件,进而评价文献的影响力。当然,相同发表时间的概念可延伸至一定时期,如同年一个月内或一年内发表的文献都可视为相同时间发表。
进一步地,本发明根据文献中词对出现概率确定文献的创新性,实现对文献价值(创新度与发展潜力)的评价,利于综合评价的开展。
在一示例中,对文献进行综合评价时,对各指标评价结果进行加权处理得到最终综合评价结果。具体地,为综合评价文献,得到用户需求的排序结果,需结合实际情况进行加权,本发明通过多次实验反馈最终确定方案。其中,综合评价计算式为:
Figure 331361DEST_PATH_IMAGE003
Figure 754252DEST_PATH_IMAGE004
其中,Score表示综合评价得分;Score sim 表示相关性评价得分;Score effect 表示影响力评价得分;Score nov 表示创新性评价得分;λ1、λ2、λ3分别表示相关性得分、影响力得分、创新性得分的加权系数;计算Score nov 时,将其值标准化至
Figure 141371DEST_PATH_IMAGE005
。本示例中,对各指标评价结果进行加权处理,能够平衡各指标对文献评价的影响,使最终综合评价结果更贴近文献本身特质,保证检索结果排序的精准性。
在一示例中,在相关性计算过程中,文献由多个主题组成,主题由多个主题词组成,主题词才是文章的内容,检索式实质需要匹配是主题词,因此本申请先通过联合文献-主题概率分布与主题-词(主题词)概率分布得到文献的主题词概率分布,此时检索式仅需和文献的主题词进行匹配即可实现检索式与文献的匹配。具体地,文献-主题概率分布与主题-词(主题词)概率分布根据主题模型输出得到,即将文献中文本信息输入主题模型即可得到文献-主题概率、主题-词概率分布。
具体地,主题模型是以非监督学习的方式对文本集的隐含语义结构进行聚类的统计模型,常用于发现文献中的抽象主题。本发明基于主题模型中的经典模型LDA(LatentDirichlet Allocation),LDA认为一篇文档包含多个主题,而文章中的每个词由固定的主题生成,文档中的主题分布服从参数为α’的Dirichlet(狄利克雷)分布,而各个主题上的词分布服从参数为β’的Dirichlet分布,是一个三层贝叶斯概率模型。通过主题模型,可以生成文献-主题概率分布P(z k |d j )与主题-词概率分布P(w j | z k ),其中z k 代表主题集k中的某个给定主题,d j 代表文献集中的某篇给定文献,w j 代表关键词集中的某个给定的词。P(z k |d j )越大的主题,越能代表文献内容,而其中P(w j | z k )越大的词,越是能代表文献内容的主题词。于是联合P(z k |d j )P(w j | z k )可得:各主题词对于文献的重要程度,即文献-主题词的概率分布
Figure 511172DEST_PATH_IMAGE006
,文献的主要内容则可表示为各主题词的概率分布。
进一步地,检索式与文献的相关度sim(A ,B)计算包括以下步骤:
1) 检索式规范;规范词表本质上是一种受控词表,它把词汇和同义词、近义词、上位类术语和下位类术语,以及相关关系术语连接起来,常用于辅助检索以及标准化展示。词表包括:
规范词:指某个关键词或实体的规范化表达词语;
规范缩写: 指某个关键词或实体的规范化缩写词语;
扩展词:指某个关键词或实体的除规范化表达词语外的其他表达词语;
上/下位词:指某个关键词或实体的规范化表达词语的语义扩展词,表达其种和属。
例如:靶点PD-1的规范词为“programmed cell death protein 1”,规范缩写为“PD-1”,扩展词包括“CD279”、“programmed cell death 1”、“programmed death 1”、“PD1”等等,这里的所有词都映射到同一个实体。PD-1的上位词为“costimulatory andinhibitory T-cell receptors(共刺激和抑制性T细胞受体)”,其代表着“PD-1”的一种扩展概念,而PD-1是属于该类概念下的一个靶点。
2) 对检索式s进行处理,采用分词算法进行分词,依据候选词表,保证医学专业名词短语不会被拆分;依据停用词表,去除无主要意义的符号、冠词、介词、副词、连词等,生成无序检索词表;遍历规范词表,判断检索词是否存在;此处匹配将会出现三种情况:第一种,检索词匹配到了规范词,即检索词本身就为规范词,则不做处理;第二种,检索词匹配到了扩展词,则将该检索词替换为扩展词;第三种检索词没有匹配到任何词,则不做处理,最终得到规范后的检索词表
Figure 965549DEST_PATH_IMAGE007
3) 为检索词分配权重;传统的文献检索中,用户为了扩大检索范围,会使用多个同义或近义词来进行检索,在这种情况下,检索词表经过规范化后中会出现多个相同的规范词。本申请中,检索式中越多提及的词,即检索词表s^'中频次更高的词,是用户检索策略中的重点。因此,我们将对检索词表进行去重处理,并依据频次给予权重,对于任意的检索词,有
Figure 762604DEST_PATH_IMAGE008
,其中ω i 表示检索词s i 的权重,f i 表示检索词s i 的频次,F代表总频次。
4) 生成特征向量;为计算检索式与主题的相似度,需将检索式与文献转换为其特征向量。遍历文献的主题词集,与检索词进行并集运算,得到不重复的词表,词表即位特征向量维度。对于检索式,将权重作为分量值;对于每篇文献,将其主题词的概率作为分量,空白分量填充为0,最终得到检索式特征向量A与主题特征向量B
5) 计算相关性;采用余弦相似度,计算检索式与文献的相似性,得到文献与检索式的相关性指标Score sim
Figure 433757DEST_PATH_IMAGE009
其中,sim(A,B)∈[0,1);A i B i 分别表示特征向量AB的各分量,特征向量的值即为文献-主题词的概率分布;n为各向量长度;sim(A,B)结果越大,代表二者相关性更大,结果为0,则代表二者不相关。
在一示例中,文献的被引数量能较大程度反应文献的影响力,但容易受发表时间早晚、研究方向的热门程度、文献类型的影响,为排除影响,采用这三个维度进行筛选切片,保证文献的被引数量有一定的可比性。本示例中,获取当前文献的影响力时,还包括:
以文献的发表时间、研究方向的热门程度、类型作为筛选切片,比较同一切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力。具体地,通过比较同一切片下某篇文献的被引与该切片的整体的被引情况,得出文献d j 的自身影响力effect doc
Figure 607249DEST_PATH_IMAGE010
其中,n为文献相关的主题数量;cite为选定文献被引数;Cite year,type,interest 为与该文献同一年、同发文类型、同研究方向的文献被引数。
在一示例中,在切片中,部分文献的被引数量较为极端,如大部分文献的被引数量为100以内的整数,但是某些重磅文章的被引数量会达到几千甚至是万,而这些少部分的文献并不能反应大部分文献的分布,因此需当作极端值进行处理,此外,由于被引数量最低为0,文献被引数量整体呈偏态分布,所以在这里仅对极大值进行处理。
对于文献被引数大于阈值的第一文献,根据对应切片下的各文献被引数确定新的被引数数值,令第一文献的被引数为被引数数值。作为一选项,新的被引数数值也可基于历史经验得出。
具体地,阈值可根据历史经验得出或人为划分,如上所述,大部分文献的被引数量为100时,将千级及以上数量单位均进行极端值处理,此时1000即可作为阈值。进一步地,对于新的被引数数值的确定,采用分箱的方法来进行异常值的处理。具体地,对文献集的被引数量进行划分,找出其下四分位数Q 1 、上四位数分位数Q 3 、以及四分位数间范围IQR。根据正态分布中的经验得知,大约99.7%的数据位于平均值的三个标准差之内(<3σ),而箱体中的Q 1 Q 3 分别位于离平均值的-0.675σ和0.675σ,即IQR为1.35。为确保大多数值可被计算到,我们取1.7IQR作为极端值的判定点,对于文献被引数cite>(Q 3 +1.7*(Q 3 -Q 1 ))的文献,使其被引数等于Q 3 (被引数数值);其中cite为文献被引数,Q 1 为25%分位对应的被引数,Q 3 为75%分位对应的被引数。
在一示例中,为避免文献出现研究领域特别新或者发表时间特别早导致文献自身影响力计算失真的情况,获取当前文献的影响力时,还包括:
根据文献发表平台的影响力effect p 对文献的影响力进行补充。本示例中,通过给予期刊影响力与文献自身影响力一定的权重,最终结合得到文献的综合影响力指标
Figure 617931DEST_PATH_IMAGE011
;其中,
Figure 648203DEST_PATH_IMAGE012
表示权重系数。
进一步地,文献发表平台的影响力的计算包括:
比较当前文献发表平台中文献的被引数与整体文献发表平台的文献被引数,进而确定当前文献发表平台的影响力。其中,文献发表平台包括不限于各种类型学术期刊、学位论文平台、会议论文平台、专利平台等等。
作为一选项,学术辐射力、平台市场占有率、读者群和发行量、被国际权威检索系统或数据库收录率、文献被引率、文献被采纳及其实践效果情况中任意指标或多个指标都可用于对文献发表平台的影响力进行评价。其中,学术辐射力可以通过总被引频次(从期刊创刊至今发表的论文在统计当年被引用的总次数)、即年指标(某种期刊当年发表的论文被引用的总次数与当年总数之比)和基金产文率(该指标为期刊中基金资助项目的论文与论文总数之比)等主要指标综合评价学术期刊(或其他平台)的学术水平和学科地位。市场占有率表征学术期刊(或其他平台)对用户的作用,是体现学术期刊在市场竞争中地位和可持续发展潜力的一个重要指标,可用市场有效容量表示;市场有效容量等于某刊实际发行量与本学科领域同类期刊当年发行总量的比值。
在一示例中,文献中的词对组合可以在一定程度表示文献的内容,而在研究领域大致相同的情况下,研究文献中越普遍的内容对应的某些词对组合出现的预期概率也将会越高;而词对组合实际出现概率越低,则代表该方向研究越稀缺。在切片中,构建目标论文数据集与词对应关系表,统计单篇论文所有词对组合,并将切片中所有论文的词对汇总在一起,构成切片的词对整体数据集 N。此时,根据文献中词对出现概率确定文献的创新性具体包括以下步骤:
(1)比较某个词对组合在整体数据集实际出现的概率与其预期出现概率的比值,这个比值代表着该词对的组合难易程度,即普遍性com(w 1 w 2 )
Figure 744335DEST_PATH_IMAGE002
其中,w 1 ,w 2 为组成词组的词的频次,w 1 w 2 为词对的频次;N表示整体数据集。
(2)对于每篇文献,所有词对的普遍性由小到大排列,取前5%-20%中任一值作为当前文献的普遍性Score com ,本示例优选取10%处的值作为该篇论文的普遍性
Figure 455940DEST_PATH_IMAGE013
(3)创新性与普遍性相反,因此,采用对数变换来获得普遍性的正态分布变量并取负数,得到创新性
Figure 383444DEST_PATH_IMAGE014
Score nov 值越大,表示知识组合比预期组合越少见,文献创新性越高。
现将上述方法各示例进行组合,得到本发明的优选示例如图1所示,此时已经根据输入的检索式获取得到对应的检索结果文献集,方法包括以下步骤:
S1:计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性;
S2:以文献的发表时间、研究方向的热门程度、类型作为筛选切片,比较同一切片下当前文献的被引数与整体文献被引数,计算当前文献的影响力;
S3:根据文献中词对出现概率确定文献的创新性;
S4:根据相关性、影响力、创新性的评价结果进行综合评价结果计算,得到最终排序结果。
为验证本发明方法的有效性,分不同时间、不同影响因子期刊、不同被引情况的维度下共抽取了100篇文献,确保试验文献集中的文献在各维度上保持均匀分布,具有典型特征。通过相关专业人员进行问卷调研,给定关键词,随机抽取多篇文献,对文献进行综合推荐程度评分,分值为1-10分,结果得到每篇文献的多个用户的推荐程度矩阵。对每篇文献的推荐程度进行计算,排除评价中的最低分与最高分后计算平均值,按分数划分为四个文献集,分别为强推荐文献(8分以上)、推荐文献(6-8分)、普通文献(3-6分)、不推荐文献(3分以下),作为对照组。
对文献进行标注,确定索引。分别使用传统排序方法、多维评价指标进行文献排序,得到文献排序结果作为实验组。根据对照组我们得到,100篇文献中,有4篇文献为强烈推荐,对应排序结果中的top4,以此类推,top5-23应为推荐文献,top24-75应为普通文献,top76-100应为不推荐文献。分别计算各实验组不同推荐程度文献与对照组的交集,确定试验组在各个区间的命中情况,文献排序推荐结果如表1所示:
表1 文献排序推荐结果表
Figure 522302DEST_PATH_IMAGE015
根据上表可知,相较于传统排序,本申请多维评价指标在确定推荐文献中具有更大的命中率,能够较好满足用户的检索需求。
本申请还包括一种存储介质,与上述任一示例或多个示例组成的一种用于检索排序的文献评价方法具有相同的发明构思,其上存储有计算机指令,所述计算机指令运行时执行上述一种用于检索排序的文献评价方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还包括一种终端,与上述任一示例或多个示例组成的一种用于检索排序的文献评价方法具有相同的发明构思,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述一种用于检索排序的文献评价方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (10)

1.一种用于检索排序的文献评价方法,其特征在于:其包括以下步骤:
根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,根据综合评价结果指导检索结果排序;
计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性;
以文献的发表时间作为筛选切片,比较该切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力;
根据文献中词对出现概率确定文献的创新性。
2.根据权利要求1所述的一种用于检索排序的文献评价方法,其特征在于:对文献进行综合评价时,对各指标评价结果进行加权处理得到最终综合评价结果。
3.根据权利要求1所述的一种用于检索排序的文献评价方法,其特征在于:检索式与文献主题词的文本相似度sim(A ,B)计算式为:
Figure 302110DEST_PATH_IMAGE001
其中, A i B i 分别表示特征向量AB的各分量;n为各向量长度。
4.根据权利要求1所述的一种用于检索排序的文献评价方法,其特征在于:获取当前文献的影响力时,还包括:
以文献的发表时间、研究方向的热门程度、类型作为筛选切片,比较同一切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力。
5.根据权利要求4所述的一种用于检索排序的文献评价方法,其特征在于:计算文献的影响力前还包括:
对于文献被引数大于阈值的第一文献,根据对应切片下的各文献被引数确定新的被引数数值,令第一文献的被引数为被引数数值。
6.根据权利要求4所述的一种用于检索排序的文献评价方法,其特征在于:获取当前文献的影响力时,还包括:
根据文献发表平台的影响力对文献的影响力进行更新;
比较当前文献发表平台中文献的被引数与整体文献发表平台的文献被引数,进而确定当前文献发表平台的影响力。
7.根据权利要求1所述的一种用于检索排序的文献评价方法,其特征在于:所述根据文献中词对出现概率确定文献的创新性包括:
根据词对在整体数据集中实际出现的概率与预期出现概率的比值确定词对的普遍性;
根据当前文献中所有词对的普遍性由小至大排序,取前5%-20%中任一值作为当前文献的普遍性Score com
采用对数变换获取普遍性Score com 的正态分布变量并取负数,得到当前文献的创新性。
8.根据权利要求7所述的一种用于检索排序的文献评价方法,其特征在于:所述普遍性com(w 1 w 2 )计算式为:
Figure 554100DEST_PATH_IMAGE002
其中,w 1 ,w 2 为组成词组的词的频次,w 1 w 2 为词对的频次;N表示整体数据集。
9.一种存储介质,其上存储有计算机指令,其特征在于:所述计算机指令运行时执行权利要求1-8任意一项所述的一种用于检索排序的文献评价方法的步骤。
10.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于:所述处理器运行所述计算机指令时执行权利要求1-8任意一项所述的一种用于检索排序的文献评价方法的步骤。
CN202211718607.4A 2022-12-30 2022-12-30 一种用于检索排序的文献评价方法、存储介质及终端 Active CN115686432B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211718607.4A CN115686432B (zh) 2022-12-30 2022-12-30 一种用于检索排序的文献评价方法、存储介质及终端
CN202310244305.6A CN116185332A (zh) 2022-12-30 2022-12-30 用于对检索结果进行排序的文献评价方法、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211718607.4A CN115686432B (zh) 2022-12-30 2022-12-30 一种用于检索排序的文献评价方法、存储介质及终端

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310244305.6A Division CN116185332A (zh) 2022-12-30 2022-12-30 用于对检索结果进行排序的文献评价方法、存储介质及终端

Publications (2)

Publication Number Publication Date
CN115686432A true CN115686432A (zh) 2023-02-03
CN115686432B CN115686432B (zh) 2023-04-07

Family

ID=85057312

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211718607.4A Active CN115686432B (zh) 2022-12-30 2022-12-30 一种用于检索排序的文献评价方法、存储介质及终端
CN202310244305.6A Withdrawn CN116185332A (zh) 2022-12-30 2022-12-30 用于对检索结果进行排序的文献评价方法、存储介质及终端

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310244305.6A Withdrawn CN116185332A (zh) 2022-12-30 2022-12-30 用于对检索结果进行排序的文献评价方法、存储介质及终端

Country Status (1)

Country Link
CN (2) CN115686432B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786197A (zh) * 2023-04-17 2024-03-29 中国标准化研究院 一种文献的交互式数据探索系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316371B (zh) * 2023-11-29 2024-04-16 杭州未名信科科技有限公司 病例报告表的生成方法、装置、电子设备和存储介质

Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256848A1 (en) * 2004-05-13 2005-11-17 International Business Machines Corporation System and method for user rank search
US20100191741A1 (en) * 2009-01-27 2010-07-29 Palo Alto Research Center Incorporated System And Method For Using Banded Topic Relevance And Time For Article Prioritization
CN102193999A (zh) * 2011-05-09 2011-09-21 北京百度网讯科技有限公司 一种对搜索结果进行排序的方法及设备
CN102880728A (zh) * 2012-10-31 2013-01-16 中国科学院自动化研究所 名人视频搜索结果个性化排序的方法
US20130173610A1 (en) * 2011-12-29 2013-07-04 Microsoft Corporation Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches
CN103324687A (zh) * 2013-06-03 2013-09-25 北界创想(北京)软件有限公司 对多篇文档进行相关性检验的方法和装置
CN103455609A (zh) * 2013-09-05 2013-12-18 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN103729432A (zh) * 2013-12-27 2014-04-16 河海大学 一种引文数据库中主题文献学术影响力的分析与排序方法
CN104268224A (zh) * 2014-09-26 2015-01-07 詹茂森 一种搜索引擎的搜索结果处理方法
CN105975453A (zh) * 2015-12-01 2016-09-28 乐视网信息技术(北京)股份有限公司 评论标签提取方法和装置
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN107229738A (zh) * 2017-06-18 2017-10-03 杭州电子科技大学 一种基于文档评分模型和相关度的学术论文搜索排序方法
CN107391921A (zh) * 2017-07-13 2017-11-24 武汉科技大学 一种科学文献中参考文献影响力评估方法
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN111723291A (zh) * 2020-06-15 2020-09-29 腾讯科技(深圳)有限公司 选取搜索意图词组的方法和装置
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112989196A (zh) * 2021-03-30 2021-06-18 北京工业大学 基于个性化召回算法lfm的图书推荐方法
CN113761323A (zh) * 2020-06-01 2021-12-07 深圳华大基因科技有限公司 文献推荐系统及文献推荐方法
CN115438155A (zh) * 2022-09-22 2022-12-06 《中华医学杂志》社有限责任公司 一种基于相关性和重要性的文献搜索排序方法及电子设备

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256848A1 (en) * 2004-05-13 2005-11-17 International Business Machines Corporation System and method for user rank search
US20100191741A1 (en) * 2009-01-27 2010-07-29 Palo Alto Research Center Incorporated System And Method For Using Banded Topic Relevance And Time For Article Prioritization
CN102193999A (zh) * 2011-05-09 2011-09-21 北京百度网讯科技有限公司 一种对搜索结果进行排序的方法及设备
US20130173610A1 (en) * 2011-12-29 2013-07-04 Microsoft Corporation Extracting Search-Focused Key N-Grams and/or Phrases for Relevance Rankings in Searches
CN102880728A (zh) * 2012-10-31 2013-01-16 中国科学院自动化研究所 名人视频搜索结果个性化排序的方法
CN103324687A (zh) * 2013-06-03 2013-09-25 北界创想(北京)软件有限公司 对多篇文档进行相关性检验的方法和装置
CN103455609A (zh) * 2013-09-05 2013-12-18 江苏大学 一种基于新核函数Luke核的专利文献相似度检测方法
CN103678576A (zh) * 2013-12-11 2014-03-26 华中师范大学 基于动态语义分析的全文检索系统
CN103729432A (zh) * 2013-12-27 2014-04-16 河海大学 一种引文数据库中主题文献学术影响力的分析与排序方法
CN104268224A (zh) * 2014-09-26 2015-01-07 詹茂森 一种搜索引擎的搜索结果处理方法
CN105975453A (zh) * 2015-12-01 2016-09-28 乐视网信息技术(北京)股份有限公司 评论标签提取方法和装置
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN107229738A (zh) * 2017-06-18 2017-10-03 杭州电子科技大学 一种基于文档评分模型和相关度的学术论文搜索排序方法
CN107391921A (zh) * 2017-07-13 2017-11-24 武汉科技大学 一种科学文献中参考文献影响力评估方法
CN109597995A (zh) * 2018-12-04 2019-04-09 国网江西省电力有限公司信息通信分公司 一种基于bm25加权结合词向量的文本表示方法
CN113761323A (zh) * 2020-06-01 2021-12-07 深圳华大基因科技有限公司 文献推荐系统及文献推荐方法
CN111723291A (zh) * 2020-06-15 2020-09-29 腾讯科技(深圳)有限公司 选取搜索意图词组的方法和装置
CN112100470A (zh) * 2020-09-03 2020-12-18 北京大学 基于论文数据分析的专家推荐方法、装置、设备及存储介质
CN112989196A (zh) * 2021-03-30 2021-06-18 北京工业大学 基于个性化召回算法lfm的图书推荐方法
CN115438155A (zh) * 2022-09-22 2022-12-06 《中华医学杂志》社有限责任公司 一种基于相关性和重要性的文献搜索排序方法及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚思宇 等: "高校科研人员专利行为对学术影响力的实证研究" *
江秋菊: "融入主题和时间因素的文献影响力评价研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117786197A (zh) * 2023-04-17 2024-03-29 中国标准化研究院 一种文献的交互式数据探索系统

Also Published As

Publication number Publication date
CN116185332A (zh) 2023-05-30
CN115686432B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115686432B (zh) 一种用于检索排序的文献评价方法、存储介质及终端
Noh et al. Keyword selection and processing strategy for applying text mining to patent analysis
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
US9117006B2 (en) Recommending keywords
Do et al. Legal question answering using ranking SVM and deep convolutional neural network
US9081852B2 (en) Recommending terms to specify ontology space
EP3539018A1 (en) Apparatus and method for semantic search
WO2020233344A1 (zh) 一种搜索方法、装置及存储介质
Parlar et al. A new feature selection method for sentiment analysis of Turkish reviews
CN116134432A (zh) 用于提供对查询的答案的系统和方法
US8428933B1 (en) Usage based query response
US8775160B1 (en) Usage based query response
Wang et al. Indexing by L atent D irichlet A llocation and an E nsemble M odel
CN115309872B (zh) 一种基于Kmeans召回的多模型熵加权检索方法及系统
Song et al. An effective query recommendation approach using semantic strategies for intelligent information retrieval
CN114611491A (zh) 基于文本挖掘技术的智慧政务舆情分析研究方法
CN111274494B (zh) 结合深度学习和协同过滤技术的复合标签推荐方法
CN108470035B (zh) 一种基于判别混合模型的实体-引文相关性分类方法
CN111563361B (zh) 文本标签的提取方法及装置、存储介质
Amini Interactive learning for text summarization
Radwan et al. Using genetic algorithm to improve information retrieval systems
Grivolla et al. Automatic classification of queries by expected retrieval performance
Irshad et al. SwCS: Section-Wise Content Similarity Approach to Exploit Scientific Big Data.
Kalaivani et al. Feature selection based on genetic algorithm and hybrid model for sentiment polarity classification
Wabo et al. Vectorization on class-oriented documents for job recommendation based on supervised machine learning models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant