CN116450772A - 一种检索结果智能推荐方法、装置及统一检索方法 - Google Patents

一种检索结果智能推荐方法、装置及统一检索方法 Download PDF

Info

Publication number
CN116450772A
CN116450772A CN202310151132.3A CN202310151132A CN116450772A CN 116450772 A CN116450772 A CN 116450772A CN 202310151132 A CN202310151132 A CN 202310151132A CN 116450772 A CN116450772 A CN 116450772A
Authority
CN
China
Prior art keywords
keyword
literature
query
keywords
tobacco
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310151132.3A
Other languages
English (en)
Inventor
王永胜
冯伟华
刘亚丽
宗国浩
王迪
王锐
胡斌
贾楠
王金棒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Tobacco Research Institute of CNTC
Original Assignee
Zhengzhou Tobacco Research Institute of CNTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Tobacco Research Institute of CNTC filed Critical Zhengzhou Tobacco Research Institute of CNTC
Priority to CN202310151132.3A priority Critical patent/CN116450772A/zh
Publication of CN116450772A publication Critical patent/CN116450772A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种检索结果智能推荐方法、装置及统一检索方法,所述检索结果智能推荐方法包括以下步骤:S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;S4,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。

Description

一种检索结果智能推荐方法、装置及统一检索方法
技术领域
本发明涉及烟草科技文献资源检索领域,尤其是涉及一种检索结果智能推荐方法、装置及统一检索方法。
背景技术
科技文献资源蕴含着大量的信息知识,是重要的知识库。对烟草领域来说,论文、专利成果等科技文献包含了烟草领域85%-90%的科技信息,有效利用这些文献资料中所包含知识信息,可以避免重复研究,挺高工作效率,降低工作成本,同时也可以为开发新产品、新技术提供理论和技术支撑。一直以来,烟草行业都非常重视对科技创新工作的投入,近些年其在科学研究、技术开发和生产经营等活动中,积累了海量的科技文献信息资源,如烟草类科技论文、烟草专利、烟草标准、烟草科技成果等数据,数据量已达到了百万条。烟草科技文献资源的爆发式增长,促使烟草行业对科技信息资源的需求已从单纯的资源获取演变为精准的知识服务需求,这对烟草科技文献平台的资源整合能力、信息检索能力、知识精准定位能力、知识分析能力都提出了极大的挑战。将多种来源、不同结构和数据类型多样化的烟草科技文献资源进行深度融合,并提供统一检索和精准推荐服务,是提高烟草科研人员跨学科、跨领域、跨检索库获取知识资源的重要方法,也是完善文献信息资源共享机制、提高文献类信息服务水平的有效支撑手段。
烟草领域是一个跨越多个学科的领域,涵盖生物、化学、农业、工艺等多个学科,从烟草科技文献的数据来源上看,烟草科技文献资源一般可分为自有文献资源库和外购文献资源库两大类,这些烟草科技文献资源往往数量巨大、种类繁多、结构各异,需要大量的人力来配置和维护数据源以给用户提供文献检索服务,成本巨大。此外,由于外购资源由不同的文献数据资源服务商提供,数据资源的数据结构、存储手段、发布机制、检索方式、显示形式等差异巨大,各类烟草科技文献资源无法做到有效的知识融合和精准的知识检索服务。面对数据量巨大、来源广泛且数据结构和组织形式千差万别的烟草科技文献资源,如何对海量多源异构烟草科技文献资源进行深度融合、统一检索和精准知识推荐,实现烟草科技文献资源的有序组织、快速定位和有效揭示,并对检索结果进行统一加载、统一展示和统一分析,帮助用户高效精准地找到检索内容,从而提高烟草科技文献检索的检索效率和精准度,已成为当前烟草科技文献检索领域亟需解决的问题。
由于针对烟草领域的各个科技文献数据库供应商不同,服务方式也不同,目前常用的统一检索技术一般是针对特定的数据库类型,面对海量多源异构烟草文献资源,其检索结果的质量和排序效果并不理想,异构数据库的互操作性也很差。现有的烟草文献检索方式通常是基于关键词的方式来进行检索结果匹配,提交给搜索引擎的有限关键词常常不能完整地表达其检索信息需求,且由于人类语言与机器语言的差异,使得搜索引擎在处理用户查询时,通常会丢失语义信息。并且,烟草领域跨越多个学科,涉及的科技文献种类和文献范围特别广泛,而且烟草领域有大量的烟草专有术语以及一些缩写词、合成词等,面对多源异构烟草科技文献资源,采用传统的检索方式,检索效率和性能并不高。此外,采用基于查询关键词的检索方式,往往通过统计查询关键词在检索文献中出现的频率来对检索结果进行排序,忽略了用户检索意图和语义环境,导致海量多源异构烟草科技文献检索结果的查全率和查准率往往达不到理想的效果。
为了解决以上存在的问题,人们一直在寻求一种理想的技术解决方案。
发明内容
本发明的目的在于解决上述现有技术存在的缺陷,在对多源异构烟草科技文献检索时,针对检索条件引入一种检索结果智能推荐方法,通过对原查询关键词和查询扩展词的权重计算,不仅可以体现查询关键词的重要程度,更好的完成查询扩展任务,还能对查询扩展词和检索结果进行更深层次的相似度计算,从而提高科技文献的检索性能。
本发明还提供一种面向多源异构烟草科技文献资源的统一检索方法,实现海量多源异构烟草科技文献资源的统一检索和智能推荐,从而大幅度提高多源异构烟草科技文献资源检索和结果推荐的精准度,帮助用户快速、精准的找到检索内容。
为了实现上述目的,本发明所采用的技术方案是:一种检索结果智能推荐方法,包括以下步骤:
S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;
S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;
S4,基于每个查询关键词的综合位置权重值、 值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
具体的,S1的具体步骤如下:
构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF-IDF算法提取科技文献语料库的关键词;
计算每个关键词的领域特征权重:
其中,为关键词,/>表示关键词 />在科技文献语料库的逆文档频率,/>表示对数函数。
具体的,S2中确定查询语句的查询关键词具体步骤如下:
在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;
利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;
按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;
将每个基础关键词以及其对应的扩展关键词作为查询关键词。
更进一步的,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;
基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:
/>i/>
其中,表示特征权重值,S表示查询语句的向量,/>表示基础关键词或扩展关键词的向量,/>表示扩展关键词与基础关键词的相似度顺序,i=0时, />表示基础关键词,代表基础关键词或扩展关键词与查询语句的相似度;
在基于每个查询关键词的综合位置权重值、值以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;
其中,表示对查询语句分词后的每个查询关键词/>在一条检索结果中出现的频率; />表示查询关键词/>在所有检索结果的逆文档频率;/>表示查询关键词/>在科技文献领域的领域特征权值,/>为查询关键词/>的综合位置权重值。
本发明第二方面提供一种检索结果智能推荐装置,包括:
关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;
综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;
计算单元,用于计算每个查询关键词在检索结果中的/>值;
排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
本发明第三方面提供一种面向多源异构烟草科技文献资源的统一检索方法,包括以下步骤:
步骤1,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器;根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型;根据烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;
步骤2,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
步骤3,在统一检索框输入查询语句,经所述统一检索语法转换器转换为预设统一语法后,经过分词和去停用词操作确定查询语句的查询关键词;根据查询关键词从各个烟草科技文献资源库中获取检索结果;
步骤4,对检索结果进行结构格式化、内容清洗、数据归一化处理,并基于构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹进行去重和整合操作;以及基于烟草科技文献质量评价模型对检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果;
步骤5,根据检索结果计算每个查询关键词的综合位置权重值以及值;
步骤6,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
本发明还提供一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述的检索结果智能推荐方法。
本发明具有突出的实质性特点和显著的进步,具体的,本发明针对查询语句引入一种基于词向量的检索结果匹配方法,通过对原基础关键词和查询扩展词的综合位置权重值、值、领域特征权值计算,可以体现查询词的重要程度,更好的完成查询扩展任务,从而提高科技文献的检索性能。
本发明在对原基础关键词和查询扩展词的权重计算时,还进一步计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重,从而可以对查询扩展词和检索结果进行更深层次的相似度计算,进一步体现查询词的重要程度,从而提高科技文献的检索性能。
本发明还提出一种面向多源异构烟草科技文献资源的统一检索方法,通过烟草科技文献数据资源去重模型、统一检索语法转换器以及智能推荐算法实现海量多源异构烟草科技文献资源的统一检索和智能推荐,从而大幅度提高多源异构烟草科技文献资源检索和结果推荐的精准度,帮助用户快速、精准的找到检索内容,解决了多源异构烟草科技文献资源冗余和知识难以发现等问题。
附图说明
图1是本发明实施例1所述智能推荐方法的流程示意图。
图2是本发明实施例2所述智能推荐方法的流程示意图。
图3是本发明实施例3所述智能推荐方法的流程示意图。
图4是本发明实施例5所述统一检索方法的流程示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。
对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明中涉及到TF-IDF,其中,TF-IDF(term frequency–inverse documentfrequency,词频-逆向文件频率)是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF是一个词语在一篇文章中的出现次数,IDF是一个词语在所有文档中出现次数的倒数,一个词语在一篇文档中出现次数越多, 同时在所有文档中出现次数越少,越能够代表该文章,所以二者相乘的TF-IDF就可以用来衡量一个词在一篇文档中的重要性。TF-IDF加权可作为检索结果与用户查询之间相关程度的度量或评级。
TF的计算公式如下:
其中,代表某一文本中词条/>出现的次数,/>代表总词条数。
IDF的计算公式如下:
其中,其中Y是语料库的文档总数,是包含词条w的文档数。为了避免词条 />未出现在任何文档中从而导致分母为0的情况,需要对公式做一些平滑,对分母加一从而使语料库中没有出现的词也可以得到一个合适的IDF值,
通过对TF和IDF的定义,可以进一步计算某一个词w的TF-IDF值:
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
实施例1
如图1所示,本实施例提供一种检索结果智能推荐方法,包括以下步骤:
S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;
S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;
S4,基于每个查询关键词的综合位置权重值、 值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序;
优选的,采用科技文献检索结果评价分析模型,计算检索结果与查询语句的相关度;
其中,
式中,表示对查询语句分词后的每个查询关键词/>在一条检索结果中出现的频率;/>表示查询关键词/>在所有检索结果的逆文档频率;/>表示查询关键词/>在科技文献领域的领域特征权值,/>为查询关键词/>的综合位置权重值。
可以看出,本实施例针对查询语句引入一种基于词向量的检索结果匹配方法,通过对原基础关键词和查询扩展词的综合位置权重值、值、领域特征权值计算,可以体现基础关键词和查询扩展词的重要程度,更好的完成查询扩展任务,从而提高科技文献的检索性能。
实施例2
本实施例给出一种具体实施例,如图2所示,具体步骤如下:
S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值,具体步骤如下:
构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF-IDF算法提取科技文献语料库的关键词;
计算每个关键词的领域特征权重:
其中, 为关键词,/>表示查询关键词 />在科技文献语料库的逆文档频率,/>表示对数函数;
S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;
其中,确定查询语句的查询关键词具体步骤如下:
在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;
利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;
按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;
将每个基础关键词以及其对应的扩展关键词作为查询关键词;
S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;
S4,基于科技文献检索结果评价分析模型 ,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序;
其中,
式中,表示对查询语句分词后的每个查询关键词/>在一条检索结果中出现的频率;/>表示查询关键词/>在所有检索结果的逆文档频率;/>表示查询关键词/>在科技文献领域的领域特征权值, />为查询关键词/>的综合位置权重值。
在具体实施中,由于关键词词汇属于人类的语言,而计算机是不能理解人类语言的,为了便于计算机运算,需要将关键词词汇映射到计算机可以理解的维度,即词向量。
word2vec是常用的词向量经典模型,其原理是,在一个句子中,一个词的周围若干词和这个词有较强的相关性,而其他词相关性则较差,根据这样的思想,构建神经网络,来对当前词和其上下文词进行模型训练,最终得到词向量。
本实施例中同样采用Word2vec来获取词向量,具体的,科技文献词向量模型的训练步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用Word2vec嵌入模型对科技文献语料库进行训练学习,生成科技文献词向量模型,得到每个关键词的词向量形式。
在具体实施中,科技文献关键词扩展库的构建步骤如下:
构建科技文献语料库,采用TF-IDF算法提取科技文献语料库的文献关键词,并通过同义词、近义词扩展得到关键词扩展库;
根据关键词扩展库中的文献关键词,在科学技术叙词表和领域术语表的基础上,结合烟草各领域主题词词库,构建烟草科技关键词词典;
利用训练的科技文献词向量模型,在科技文献语料库中采用余弦相似度计算方法对烟草词汇语义相似度进行计算,构建烟草词汇语义相似度匹配模型;
基于烟草词汇语义相似度匹配模型对烟草科技关键词词典的各个烟草词汇进行同义词、近义词扩展,得到烟草科技文献关键词扩展库。
可以看出,科技文献词向量模型的训练步骤、科技文献关键词扩展库的构建步骤以及计算每个关键词在科技文献领域的领域特征权值中,均包括构建科技文献语料库,采用TF-IDF算法提取科技文献语料库的文献关键词这一步骤,因此,可以先构建科技文献语料库,采用TF-IDF算法提取科技文献语料库的文献关键词,然后再同时进行科技文献词向量模型的训练步骤、科技文献关键词扩展库的构建步骤以及计算每个关键词在科技文献领域的领域特征权值。
实施例3
本实施例与实施例2的区别在于:如图3所示,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;
基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:
其中, 表示特征权重值,S表示查询语句的向量,/>表示基础关键词或扩展关键词的向量,/>表示扩展关键词与基础关键词的相似度顺序,i=0时, />表示基础关键词,代表基础关键词或扩展关键词与查询语句的相似度;
构建科技文献检索结果评价分析模型为: />
本实施例中,在对原基础关键词和查询扩展词的权重计算时,还进一步计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重,从而可以对查询扩展词和检索结果进行更深层次的相似度计算,进一步体现查询词的重要程度,从而提高科技文献的检索性能。
实施例4
本实施例提供一种检索结果智能推荐装置,包括:
关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;
综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;
计算单元,用于计算每个查询关键词在检索结果中的/>值;
排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
在具体实施时,每个关键词在科技文献领域的领域特征权值、确定查询语句的查询关键词、每个查询关键词综合位置权重值和值以及计算检索结果与查询语句的相关度的具体计算步骤均参照前述实施例1-3所述的步骤。
实施例5
本实施例提供一种面向多源异构烟草科技文献资源的统一检索方法,如图4所示,包括以下步骤:
步骤1,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器;根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型;根据烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;
步骤2,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
步骤3,在统一检索框输入查询语句,经所述统一检索语法转换器转换为预设统一语法后,经过分词和去停用词操作确定查询语句的查询关键词;根据查询关键词从各个烟草科技文献资源库中获取检索结果;
步骤4,对检索结果进行结构格式化、内容清洗、数据归一化处理,并基于构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹进行去重和整合操作;以及基于烟草科技文献质量评价模型对检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果;
步骤5,根据检索结果计算每个查询关键词的综合位置权重值以及值;
步骤6,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
本实施例中提出的一种面向多源异构烟草科技文献资源的统一检索方法,通过烟草科技文献数据资源去重模型、统一检索语法转换器以及智能推荐算法实现海量多源异构烟草科技文献资源的统一检索和智能推荐,从而大幅度提高多源异构烟草科技文献资源检索和结果推荐的精准度,帮助用户快速、精准的找到检索内容,解决了多源异构烟草科技文献资源冗余和知识难以发现等问题。
实施例6
本发明提供一种多源异构烟草科技文献资源的统一检索方法的一个具体实施例,具体包括如下步骤:
步骤11,首先对外购烟草科技文献资源库所提供接口服务进行健康检查,判断接口服务是否可用,进一步确定可调用的外购烟草科技文献资源库,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器。
步骤12,根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型。
步骤13,基于烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;
步骤21,根据烟草科技文献的特点,构建烟草科技文献语料库,对语料库进行去停用词、分词操作,采用TF-IDF算法提取烟草科技文献文本语料库的关键词,并计算所有关键词的IDF值。
烟草科技文献语料库库中部分关键词的IDF值和TF值如下表所示。
烟草词汇 IDF值 TF值
烟草 50.7745913 17679
烤烟 62.1350577 15697
烟叶 71.635847 4575
漂浮育苗 155.243684 1227
主流烟气 172.38371 1105
香料烟 172.696283 1103
叶青素 266.027972 786
花叶病 324.273764 663
烟粉虱 349.937008 554
步骤22,结合烟草科技文献的特点和烟草词汇词义特征,采用层次分析法,进一步对步骤21得到的关键词进行领域特征权重计算,计算公式如下:
其中, 为关键词,/>表示关键词/>在科技文献语料库的逆文档频率,/>表示对数函数。
步骤21中选取的部分关键词在烟草科技文献领域的特征权值,如下表:
烟草词汇 IDF值 TF值 特征权值
烟草 50.7745913 17679 0.71
烤烟 62.1350577 15697 0.79
烟叶 71.635847 4575 0.86
漂浮育苗 155.243684 1227 1.19
主流烟气 172.38371 1105 1.24
香料烟 172.696283 1103 1.24
叶青素 266.027972 786 1.42
烟碱 324.273764 663 1.51
烟粉虱 349.937008 554 1.54
特征权值越高代表该关键词对烟草科技文献领域的重要性越大。例如,“烤烟”、“烟叶”等词汇属于烟草领域常见词汇,虽文档中出现频率很大,但这些词汇相对来说,比较笼统,覆盖范围太广,对检索作用不大,不能够很好的通过该词汇精准的匹配到用户想要的深层次知识。
步骤23,采用Word2vec嵌入模型对烟草科技文献语料库进行训练学习, 生成烟草文献词向量模型, 获取每个烟草关键词的词向量形式。
在具体实施时,Word2vec嵌入模型的训练参数分别为最相似词维度topNSize=40,上下文窗口大小参数Window=5, 高频词汇的随机降采样的配置阈值为1e-3,为获取关键词向量采用CBOW 算法模型并采用Softmax 方法进行优化,生成烟草科技文献词向量模型。
步骤24: 根据步骤21提取的烟草科技文献关键词,通过同义词、近义词扩展得到关键词扩展库;
步骤25,根据关键词扩展库中的烟草关键词,在现有权威的科学技术叙词表和烟草术语表的基础上,结合烟草各领域主题词词库,构建烟草科技关键词词典。
步骤26,利用步骤23构建的烟草科技文献词向量模型,在步骤21构建的烟草科技文献语料库上采用余弦相似度计算的计算方法对烟草词汇语义相似度进行计算,构建烟草词汇语义相似度匹配模型;
步骤27,基于步骤26得到的烟草词汇语义相似度匹配模型,对步骤25构建的烟草关键词词典的各个烟草关键词进行同义词、近义词扩展,得到烟草科技文献关键词扩展库。
步骤31,用户在统一检索输入框输入查询语句,例如“烟草中含有多少烟碱”,利用步骤11构建的统一检索语法转换器进行转换,以执行统一的检索语法,并实现查询语句与、或、非等逻辑运算及检索优先级逻辑运算。
步骤32,对步骤31经统一检索语法转换器转换后的查询语句进行分词和去停用词操作,将那些不代表概念的词语过滤掉,最后得到的关键词为“烟草”、“烟碱”两个词汇,这两个词汇即为基础关键词。
步骤33,针对步骤32切分后的基础关键词“烟草”和“烟碱”,结合步骤27获取的烟草科技文献关键词扩展库,并利用步骤23获取的烟草文献词向量模型,计算并获取与基础关键词“烟草”的相似度最高的三个扩展关键词“烟叶”、“卷烟”、“烤烟”,与基础关键词“烟碱”的相似度最高的三个扩展关键词“尼古丁”、“烟气”、“烟草素”,
步骤34, 将步骤33获得的“烟草”和“烟碱”以及扩展后的“烟叶”、“卷烟”、“烤烟”、“尼古丁”、“烟气”、“烟草素”这几个词的词向量进行正则化、归一化处理,获得各个查询关键词的词向量空间模型。
步骤35,计算各个基础关键词及扩展关键词在检索式“烟草中含有多少烟碱”中的特征权重,计算公式如下:
(5)
其中,S代表查询语句的向量,代表查询关键词和查询扩展词的向量,/>代表前与查询关键词n个最相似的查询扩展词词项的顺序,i=0代表查询关键词或者查询同义词,代表查询关键词或查询扩展词与查询语句的相似度。
步骤35,将步骤33获取的扩展关键词以及步骤32获取的基础关键词作为查询关键词,向各个烟草科技文献资源库发起查询请求,调用自有文献资源检索接口和步骤11中认定可用的外购烟草文献资源检索结接口,将检索结果缓存到缓存服务器中。
步骤41, 对步骤35所获取检索结果进行结构格式化、内容清洗、数据归一化处理,并根据烟草科技文献数据资源结构特点,结合步骤12构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹,实现对烟草科技文献检索结果的去重和整合操作。
步骤42,基于步骤13构建的烟草科技文献质量评价模型,对步骤42处理后的检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果。
步骤51,在步骤42的基础上,采用层次分析法,根据查询关键词在检索结果中出现的位置信息,确定不同位置的相关权重。
具体步骤为:确定查询关键词匹配烟草科技文献标题、摘要以及正文的各自权重,例如标题对应的权重为0.8、摘要对应的权重为0.5、正文对应的权重为0.3,根据查询关键词在标题、摘要、正文的出现的次数,进一步的可以得到关键词在不同位置匹配的综合权重值, />的计算公式如下:
(6)
其中,i表示扩展关键词与基础关键词的相似度顺序,,j为关键词的位置编号,其中标题的编号为1、摘要的编号为2、正文的编号为3,/>代表基础关键词或扩展关键词/>在标题、摘要、正文的出现的次数,/>代表在基础关键词或扩展关键词 />各个位置的权重。
步骤52,根据检索结果计算每个查询关键词的值;
步骤6,基于每个查询关键词的综合位置权重值、 值以及领域特征权值构建烟草科技文献检索结果评价分析模型/>,通过计算检索结果与查询语句的相关度,依据通过烟草科技文献检索结果评价分析模型计算的分值大小对检索结果进行排序。
其中,烟草科技文献检索结果评价分析模型的计算公式如下:
(7)
其中,表示对查询语句分词后的其中一个查询关键词/>在一条检索结果中出现的频率;/>表示查询关键词/>在所有检索结果的逆文档频率;/>代表查询关键词/>在烟草科技文献领域的特征权值;/>代表查询关键词/>在检索式中的特征权重;/>代表查询关键词在不同位置匹配的综合权重值;/>代表查询语句中所有查询关键词的综合权重。
进一步的,可按照查询语句与烟草科技文献的匹配度大小将其列表输出供用户查阅,实现海量多源异构烟草科技文献资源的统一检索和智能推荐,帮助用户快速、精准的找到检索内容。
实施例7
本实施例还提供一种计算机存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例1-3任一项所述的检索结果智能推荐方法。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (10)

1.一种检索结果智能推荐方法,其特征在于,包括以下步骤:
S1,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
S2,获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;
S3,根据检索结果计算每个查询关键词的综合位置权重值以及值;
S4,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
2.根据权利要求1所述的一种检索结果智能推荐方法,其特征在于,S1的具体步骤如下:
构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF-IDF算法提取科技文献语料库的关键词;
计算每个关键词的领域特征权重:
其中,为关键词,/>表示关键词/>在科技文献语料库的逆文档频率,/>表示对数函数。
3.根据权利要求1或2所述的一种检索结果智能推荐方法,其特征在于,S2中确定查询语句的查询关键词具体步骤如下:
在检索框输入查询语句,经过分词和去停用词操作后得到查询语句的基础关键词;
利用训练的科技文献词向量模型,在预先构建的科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;
按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;
将每个基础关键词以及其对应的扩展关键词作为查询关键词。
4.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,在获取扩展关键词后,将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;
基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:
i/>
其中,表示特征权重值,S表示查询语句的向量,/>表示基础关键词或扩展关键词的向量,/>表示扩展关键词与基础关键词的相似度顺序,i=0时,/>表示基础关键词,/>代表基础关键词或扩展关键词与查询语句的相似度;
在基于每个查询关键词的综合位置权重值、值以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;
其中,表示对查询语句分词后的每个查询关键词/>在一条检索结果中出现的频率;表示查询关键词/>在所有检索结果的逆文档频率;/>表示查询关键词/>在科技文献领域的领域特征权值,/>为查询关键词/>的综合位置权重值。
5.根据权利要求3所述的一种检索结果智能推荐方法,其特征在于,
科技文献词向量模型的训练步骤如下:构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用Word2vec嵌入模型对科技文献语料库进行训练学习,生成科技文献词向量模型,得到每个关键词的词向量形式;
科技文献关键词扩展库的构建步骤如下:
构建科技文献语料库,对科技文献语料库进行去停用词和分词操作后,采用TF-IDF算法提取科技文献语料库的文献关键词,并进行同义词、近义词扩展;
根据关键词扩展库中的文献关键词,在科学技术叙词表和术语表的基础上,结合领域主题词词库,构建科技关键词词典;
利用训练的科技文献词向量模型,在科技文献语料库中采用余弦相似度计算方法进行计算,构建关键词语义相似度匹配模型;
基于词汇语义相似度匹配模型对科技关键词词典的各个关键词进行同义词、近义词扩展,得到科技文献关键词扩展库。
6.一种检索结果智能推荐装置,其特征在于,包括:
关键词特征权值获取单元,用于获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
查询单元,用于获取查询语句,确定查询语句的查询关键词,根据查询关键词从科技文献资源库中获取检索结果;
综合位置权重值获取单元,用于根据检索结果计算每个查询关键词的综合位置权重值;
计算单元,用于计算每个查询关键词在检索结果中的/>值;
排序单元,用于基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
7.一种面向多源异构烟草科技文献资源的统一检索方法,其特征在于,包括以下步骤:
步骤1,根据各个可用烟草科技文献资源库检索式的语法特点和逻辑运算方法,构建统一检索语法转换器;根据烟草科技文献资源的资源类型,构建烟草科技文献数据资源去重模型;根据烟草科技文献字段丰富度和文献内容丰富度,构建烟草科技文献质量评价模型;
步骤2,获取科技文献领域关键词,并计算每个关键词在科技文献领域的领域特征权值;
步骤3,在统一检索框输入查询语句,经所述统一检索语法转换器转换为预设统一语法,确定查询语句的查询关键词;根据查询关键词从各个烟草科技文献资源库中获取检索结果;
步骤4,对检索结果进行结构格式化、内容清洗、数据归一化处理,并基于构建的烟草科技文献数据资源去重模型,提取烟草科技文献信息指纹进行去重和整合操作;以及基于烟草科技文献质量评价模型对检索结果进行质量评价,去除低质量检索结果,保留高质量检索结果;
步骤5,根据检索结果计算每个查询关键词的综合位置权重值以及值;
步骤6,基于每个查询关键词的综合位置权重值、值以及领域特征权值,计算检索结果与查询语句的相关度,根据相关度大小对检索结果进行排序。
8.根据权利要求7所述的一种面向多源异构烟草科技文献资源的统一检索方法,其特征在于,步骤3中,查询关键词的获取步骤如下:
获得查询语句后,经分词和去停用词操作,得到查询语句的基础关键词;
利用训练的烟草科技文献词向量模型,在预先构建的烟草科技文献关键词扩展库中采用余弦相似度计算方法进行计算,得到每个扩展词与基础关键词的相似度;
按照相似度从大到小顺序对扩展词进行排序,选取相似度排序靠前的预设个数的扩展词,执行同/近义词合并,得到扩展关键词;
将每个基础关键词与其对应的扩展关键词的词向量进行正则化、归一化处理,获得每个基础关键词与其对应的扩展关键词的词向量空间模型;
基于每个基础关键词与其对应的扩展关键词的词向量空间模型,分别计算每个基础关键词及其对应的扩展关键词在查询语句中的特征权重:
其中,表示特征权重值,S表示查询语句的向量,/>表示基础关键词或扩展关键词的向量,/>表示扩展关键词与基础关键词的相似度顺序,i=0时,/>表示基础关键词,/>代表基础关键词或扩展关键词与查询语句的相似度;
将每个基础关键词以及其对应的扩展关键词作为查询关键词;
步骤6中,在基于每个查询关键词的综合位置权重值以及值、以及领域特征权值计算检索结果与查询语句的相关度时,基于科技文献检索结果评价分析模型进行计算;
其中,表示对查询语句分词后的每个查询关键词/>在一条检索结果中出现的频率;表示查询关键词/>在所有检索结果的逆文档频率;/>表示查询关键词/>在科技文献领域的领域特征权值,/>为查询关键词/>的综合位置权重值。
9.根据权利要求8所述的一种面向多源异构烟草科技文献资源的统一检索方法,其特征在于,烟草科技文献词向量模型的训练步骤如下:构建烟草科技文献语料库,对烟草科技文献语料库进行去停用词和分词操作后,采用Word2vec嵌入模型对烟草科技文献语料库进行训练学习,生成烟草科技文献词向量模型,得到每个关键词的词向量形式;
烟草科技文献关键词扩展库的构建步骤如下:
构建烟草科技文献语料库,对烟草科技文献语料库进行去停用词和分词操作后,采用TF-IDF算法提取烟草科技文献语料库的烟草关键词,并通过同义词、近义词扩展得到关键词扩展库;
根据关键词扩展库中的烟草关键词,在科学技术叙词表和烟草术语表的基础上,结合烟草各领域主题词词库,构建烟草科技关键词词典;
利用训练的烟草科技文献词向量模型,在烟草科技文献语料库中采用余弦相似度计算方法进行计算,构建烟草词汇语义相似度匹配模型;
基于烟草词汇语义相似度匹配模型对科技关键词词典的各个关键词进行同义词、近义词扩展,得到烟草科技文献关键词扩展库。
10.一种计算机存储介质,其特征在于:所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-5中任一项所述的检索结果智能推荐方法。
CN202310151132.3A 2023-02-22 2023-02-22 一种检索结果智能推荐方法、装置及统一检索方法 Pending CN116450772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310151132.3A CN116450772A (zh) 2023-02-22 2023-02-22 一种检索结果智能推荐方法、装置及统一检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310151132.3A CN116450772A (zh) 2023-02-22 2023-02-22 一种检索结果智能推荐方法、装置及统一检索方法

Publications (1)

Publication Number Publication Date
CN116450772A true CN116450772A (zh) 2023-07-18

Family

ID=87120931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310151132.3A Pending CN116450772A (zh) 2023-02-22 2023-02-22 一种检索结果智能推荐方法、装置及统一检索方法

Country Status (1)

Country Link
CN (1) CN116450772A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117874827A (zh) * 2024-03-12 2024-04-12 武汉华工安鼎信息技术有限责任公司 一种涉密文件的管理方法、设备及存储介质
CN118035286A (zh) * 2024-01-25 2024-05-14 中南大学 一种基于医疗大模型的信息查询系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118035286A (zh) * 2024-01-25 2024-05-14 中南大学 一种基于医疗大模型的信息查询系统
CN117874827A (zh) * 2024-03-12 2024-04-12 武汉华工安鼎信息技术有限责任公司 一种涉密文件的管理方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
CN103678576B (zh) 基于动态语义分析的全文检索系统
US7844592B2 (en) Ontology-content-based filtering method for personalized newspapers
US8332434B2 (en) Method and system for finding appropriate semantic web ontology terms from words
TWI544351B (zh) Extended query method and system
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
JP5057474B2 (ja) オブジェクト間の競合指標計算方法およびシステム
US20190266286A1 (en) Method and system for a semantic search engine using an underlying knowledge base
CN108416008A (zh) 一种基于自然语言处理的bim产品数据库语义检索方法
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN112486919A (zh) 文档管理方法、系统及存储介质
Kanapala et al. Passage-based text summarization for legal information retrieval
CN116450772A (zh) 一种检索结果智能推荐方法、装置及统一检索方法
Chuang et al. Automatic query taxonomy generation for information retrieval applications
US20190012388A1 (en) Method and system for a semantic search engine using an underlying knowledge base
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
TWI446191B (zh) Word matching and information query method and device
CN111723179A (zh) 基于概念图谱的反馈模型信息检索方法、系统及介质
CN115544225A (zh) 基于语义的数字档案信息关联检索方法
CN114691845A (zh) 语义搜索方法、装置、电子设备、存储介质及产品
CN111125299B (zh) 一种基于用户行为分析的动态词库更新方法
John et al. A personalised user preference and feature based semantic information retrieval system in semantic web search
Angrosh et al. Ontology-based modelling of related work sections in research articles: Using crfs for developing semantic data based information retrieval systems
Cetintas et al. Using past queries for resource selection in distributed information retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination