CN116719954B - 一种信息检索方法、电子设备及存储介质 - Google Patents
一种信息检索方法、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116719954B CN116719954B CN202310973009.XA CN202310973009A CN116719954B CN 116719954 B CN116719954 B CN 116719954B CN 202310973009 A CN202310973009 A CN 202310973009A CN 116719954 B CN116719954 B CN 116719954B
- Authority
- CN
- China
- Prior art keywords
- retrieval
- information
- resources
- resource
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 93
- 238000012163 sequencing technique Methods 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000010354 integration Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 13
- 239000004973 liquid crystal related substance Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请公开了一种信息检索方法、电子设备及存储介质,信息检索方法包括:构建基于各异构数据库的元数据向量集和多个历史检索信息的词向量频繁集,基于词向量频繁集,在元数据向量集中确定目标候选项目,然后基于知识图谱三元组关系和TransE模型对目标候选项目进行分析,获取偏好特征向量,而后进一步获取目标检索信息和其在元数据向量集中所对应的初步检索结果,在初步检索结果中确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出。本申请提出的信息检索方法能够更准确、高效地获取所检索的信息。
Description
技术领域
本申请涉及信息检索技术领域,特别涉及一种信息检索方法、电子设备及存储介质。
背景技术
在创新发展的快速推动下,高速、大量的知识产权信息资源被收录,资源利用者可以通过互联网获取知识产权信息资源内容,方便了需求者对资源的充分利用,也保护了资源所属知识产权者的利益。但是随着可选用的知识产权信息资源数量的增长,给用户准确使用资源以避免侵权的问题也带来了很大的难度。
《Journal of Physics》上发表的一篇名为“Application of Natural LanguageProcessing Technology in Educational Resources Retrieval”的文献中提出了一种信息检索方法,其利用自然语言处理技术能够很好地达到对文本类信息资源的处理效果,并通过简化检索关键词与资源的匹配关系,提升了检索性能。然而该检索方法仅在应用于小型数据库时能够获取较佳的检索效果,当应用于异构、体量较大的资源检索时效果较差。
发明内容
本申请实施例提供了一种信息检索方法、电子设备及存储介质,以解决现有技术中异构、体量较大的资源检索效果差问题。
第一方面,本申请实施例提供了一种信息检索方法,包括:
基于各异构数据库重新构建元数据向量集,元数据向量集中的各元素均采用词向量表示;
获取多个历史检索信息,构建多个历史检索信息的词向量频繁集;
基于词向量频繁集,在元数据向量集中确定目标候选项目;
基于知识图谱三元组关系和TransE模型对目标候选项目进行分析,获取偏好特征向量;
获取目标检索信息和其在元数据向量集中所对应的初步检索结果;
基于初步检索结果确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出。
在上述第一方面的一种可能的实现中,基于初步检索结果确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出,包括:
针对初步检索结果中的每一个检索资源,获取检索资源与目标检索信息之间的相似度权重,并基于相似度权重确定检索资源的注意力值;
获取注意力值高于设定值的所有检索资源作为待检索资源;
获取各待检索资源与偏好特征向量之间的相似度;
对各待检索资源按照相似度由高到低依次排序后输出。
在上述第一方面的一种可能的实现中,获取各待检索资源与偏好特征向量之间的相似度,包括:
获取各待检索资源与目标检索信息之间的匹配度;
将各待检索资源按照匹配度降序排列;
选取排序靠前的部分待检索资源,获取其与偏好特征向量之间的相似度;
按照相似度由高到低,将排序靠前的部分待检索资源依次排序后输出。
在上述第一方面的一种可能的实现中,匹配度是基于TFIDF算法获取的。
在上述第一方面的一种可能的实现中,检索资源的注意力值是基于包括门控循环单元的双向循环神经网络模型获取的。
在上述第一方面的一种可能的实现中,基于词向量频繁集,在元数据向量集中确定目标候选项目,包括:
基于词向量频繁集,获取元数据向量集中的与多个历史检索信息相关联的所有资源,作为候选项目集;
获取候选项目集中的各元素与词向量频繁集之间的距离,作为元素的支持度;
基于支持度最小的元素确定目标候选项目。
在上述第一方面的一种可能的实现中,目标候选项目满足设定检索关联规则。
在上述第一方面的一种可能的实现中,基于各异构数据库重新构建元数据向量集,包括:
获取各异构数据库中的元数据;
将元数据按照RDF格式的标准,利用转换技术进行统一规范、去重和整合处理;
基于Skipgram词向量计算方法将处理后的各元数据转换为词向量形式。
第二方面,本申请实施里提供了一种电子设备,包括:存储器,用于存储由电子设备的一个或多个处理器执行的指令;以及,处理器,当处理器执行存储器中的指令时,可使得电子设备执行上述第一方面任一种可能的实现中的方法。
第三方面,本申请实施里提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行上述第一方面任一种可能的实现中的方法。
与现有技术相比,本申请至少具有以下技术效果:
通过对各异构数据库中的各资源数据进行初步处理后,进一步利用知识图谱三元组关系和TransE模型对用户检索资源时的深层意识进行挖掘,获取用户对检索资源的偏好特征向量,然后将用户对检索资源的偏好特征向量作为资源匹配的最后一环,完成对信息资源的检索,并将检索结果按排序反馈给用户。本申请使用本申请提出的基于数据挖掘的方法能够更准确、高效地获取所检索的信息,并且该方法应用于模糊资源检索时,检索的资源更符合检索者的需求标准,其检索效果相比现行的资源检索大幅提升。
附图说明
图1根据本申请的一些实施例,示出了信息检索方法的流程示意图;
图2根据本申请的一些实施例,示出了元数据向量集构建方法的流程示意图;
图3根据本申请的一些实施例,示出了各待检索资源输出方法的流程示意图;
图4根据本申请的一些实施例,示出了各个检索方法的检索输出与预测的检索结果的匹配值分布图;
图5根据本申请的一些实施例,示出了电子设备的结构示意图;
图6根据本申请的一些实施例,示出了片上系统(System on Chip,SOC)的结构示意图。
具体实施方式
下面结合具体实施例和附图对本申请做进一步说明。可以理解的是,本公开的说明性实施例包括但不限于信息检索方法、电子设备及存储介质。此处描述的具体实施例仅仅是为了解释本申请,而非对本申请的限定。此外,为了便于描述,附图中仅示出了与本申请相关的部分而非全部的结构或过程。
以下由特定的具体实施例说明本申请的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本申请的其他优点及功效。虽然本申请的描述将结合较佳实施例一起介绍,但这并不代表此申请的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本申请的权利要求而有可能延伸出的其它选择或改造。为了提供对本申请的深度了解,以下描述中将包含许多具体的细节。本申请也可以不使用这些细节实施。此外,为了避免混乱或模糊本申请的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
随着创新发展的快速推动,人们的知识产权保护意识不断增强,高校作为科研重地之一,如何有效利用知识产权信息资源,提高知识产权信息资源利用效率是高校进行教学、科研研究无法回避的主要问题之一。
高校知识产权信息资源库中存储的信息资源类型比较丰富,无法采用一种元数据标准就可以将所有类型的知识产权信息资源统一进行描述。在对知识产权信息资源数据进行管理时,通常为方便管理主要是将不同的资源存储在各个互不相同且各自独立的异构数据库中,这也给高校信息检索带来了一定的难度。
由于数据挖掘技术可以深入挖掘知识产权信息资源数据中的深层关联,增加检索文本与正确高校知识产权信息资源之间的匹配成功率,从而提高资源检索效率。基于此,本申请的一实施例提供了一种信息检索方法,包括:构建基于各异构数据库的元数据向量集和多个历史检索信息的词向量频繁集,基于词向量频繁集,在元数据向量集中确定目标候选项目,然后基于知识图谱三元组关系和TransE模型对目标候选项目进行分析,获取偏好特征向量,而后进一步获取目标检索信息和其在元数据向量集中所对应的初步检索结果,在初步检索结果中确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出。
本申请通过对各异构数据库中的各资源数据进行初步处理后,进一步利用知识图谱三元组关系和TransE模型对用户检索资源时的深层意识进行挖掘,获取用户对检索资源的偏好特征向量,然后将用户对检索资源的偏好特征向量作为资源匹配的最后一环,完成对信息资源的检索,并将检索结果按排序反馈给用户。使用本申请提出的基于数据挖掘的方法能够更准确、高效地获取所检索的信息,并且该方法应用于模糊资源检索时,检索的资源更符合检索者的需求标准,其检索效果相比现行的资源检索大幅提升。
下面将结合附图对本申请的实施例进行进一步的详细描述。
图1所示为根据本申请的一个实施例的信息检索方法的流程图。如图1所示,该信息检索方法包括以下步骤:
步骤S1:基于各异构数据库重新构建元数据向量集,元数据向量集中的各元素均采用词向量表示。
具体地,如图2所示,该步骤包括:
S101,获取各异构数据库中的元数据。
S102,将元数据按照RDF格式的标准,利用转换技术进行统一规范、去重和整合处理。
S103,基于Skipgram词向量计算方法将处理后的各元数据转换为词向量形式。
进一步地,由于高校知识产权信息资源库中存储的信息资源类型比较丰富、类型不同一,因而为方便管理,一般将不同的资源存储在各个互不相同且各自独立的数据库中。所以需要对这些异构的高校知识产权信息资源进行集成,建立资源元数据与检索文本映射关系。以实现在检索时将输入的检索请求转化为各个异构高校知识产权信息资源库对应的资源库检索指令,最后根据元数据的资源映射关系返回进行检索结果发布。即需要对高校知识产权信息资源进行元数据重构集成。
在对高校知识产权信息资源进行元数据重构集成时,对于管理端自输入资源一般按照输入数据库的原数据规范来进行描述;对于外部申请资源,主要采用收割的方式获得新型资源的元数据;对于网络上公开发布的高校知识产权信息资源,则利用WEB爬虫方式通过对URL的分析来获取开放的元数据。
在获得所有高校知识产权信息资源的元数据后,还需要按照RDF格式的标准,利用XML等转换技术进行统一的元数据规范、去重和整合。
结合知识产权信息资源搜索时常使用的检索向量主要是文本形式,本申请对知识产权信息资源数据进行文本向量化表示处理。转换为元数据后,为提高检索时高校知识产权信息资源与对应检索向量的匹配成功率,减少信息资源中其它文本的影响,利用去噪模型对资源信息进行噪声去除。本申请将高校知识产权信息资源中与主体相关性较低的信息进行过滤,利用正则化原理提取文本词句中的词干,以减少无关信息的干扰。同时,根据信息资源文本中的原始语言语法关系,分割文本空格,分词并去掉文本中的停用词。
本申请采用Skipgram词向量模型将高校知识产权信息资源库中资源元数据文本进行向量化表示。Skipgram词向量计算模型是根据输入的信息资源文本预测可能输出的所有词向量,并选择最大概率的词向量最为转换结果。Skipgram词向量计算模型的计算公式如下:
,
其中,为输入的高校知识产权信息资源文本;/>为预测输出对应词向量/>的概率;/>为高校知识产权信息资源文本词向量矩阵;/>为词向量化处理的权重矩阵;/>为Skipgram词向量计算模型的输出;/>为待处理的资源文本词汇数。
步骤S2:获取多个历史检索信息,构建多个历史检索信息的词向量频繁集。
由于用户在对高校知识产权信息资源进行检索时,其所有输入的检索词向量都包含了用户的检索资源意识、用户对资源类型的偏好程度等信息。因此,可结合用户进行资源检索时输入的检索词向量之间的关联关系,深入挖掘用户的检索意识,提高检索的准确率。
具体地,可按照步骤S1中对各异构数据库中信息资源数据的处理过程,对用户检索时输入的各个历史检索信息进行分词、知识点映射处理,遍历资源数据库中与用户检索信息知识点相关联的所有结构知识点,以此来构建历史检索信息的向量频繁集。
步骤S3:基于词向量频繁集,在元数据向量集中确定目标候选项目。
具体地,该步骤S3可具体包括:基于词向量频繁集,获取元数据向量集中的与多个历史检索信息相关联的所有资源,作为候选项目集;获取候选项目集中的各元素与词向量频繁集之间的距离,作为元素的支持度;基于支持度最小的元素确定目标候选项目。
进一步地,目标候选项目需满足设定检索关联规则。
步骤S4:基于知识图谱三元组关系和TransE模型对目标候选项目进行分析,获取偏好特征向量。
具体地,根据知识图谱的三元组关系,利用TransE模型分析知识点与用户检索意识之间的关联。对于用户检索信息中的知识图谱三元组,其中表示两个知识点实体之间的关系的TransE 模型的目标函数如下:
,
其中,为两个知识点实体之间关联关系的划分系数;/>为TransE模型的评分函数。由检索信息中的知识图谱三元组得到用户检索意识与待检索高校知识产权信息资源之间的关联规则,利用基于关联规则的数据挖掘算法,挖掘用户的资源检索偏好即检索意识。
步骤S5:获取目标检索信息和其在元数据向量集中所对应的初步检索结果。
步骤S6:基于初步检索结果确定各待检索资源,并基于偏好特征向量对各待检索资源排序后输出。
具体地,如图3所示,该步骤S6具体包括:
步骤S601:针对初步检索结果中的每一个检索资源,获取检索资源与目标检索信息之间的相似度权重,并基于相似度权重确定检索资源的注意力值。
进一步地,在双向循环神经网络中,加入门控循环单元来提高网络的训练效率。门控循环单元的输出如下:
,
其中,为输入双向循环神经网络的样本量;/>表示门控循环单元的更新门;为门控循环单元的重置门;/>为门控循环单元的权重系数。
为避免检索高校知识产权信息资源时因匹配量较少,造成较大的检索偏差,在双向循环神经网络的检索结构中加入注意力机制可利于对初步确定的检索资源进行全文深度理解。
在自注意力机制模型中,首先由用户检索信息与初步资源检索结果的相似度,得到相似度权重。对相似度权重归一化后,将检索信息与资源相似度权重进行加权求和,得到资源的注意力值:
,
其中,为softmax 函数归一化后的相似度权重;/>为用户输入检索向量的键入值;/>为待处理的资源数量。
步骤S602:获取注意力值高于设定值的所有检索资源作为待检索资源。
步骤S603:获取各待检索资源与偏好特征向量之间的相似度。
步骤S604:对各待检索资源按照相似度由高到低依次排序后输出。
进一步地,获取各待检索资源与偏好特征向量之间的相似度,对各待检索资源按照相似度由高到低依次排序后输出,包括以下步骤:基于TFIDF算法获取各待检索资源与目标检索信息之间的匹配度;将各待检索资源按照匹配度降序排列;选取排序靠前的部分待检索资源,获取其与偏好特征向量之间的相似度;按照相似度由高到低,将排序靠前的部分待检索资源依次排序后输出。
具体地,TFIDF算法模型为:
,
其中,为检索词在待检索资源中出现的次数;/>为高校知识产权信息资源中重复频率最高的词的出现次数;/>为检索目标库汇总所有高校知识产权信息资源的数量;/>为包含检索词的资源数量。
以下通过测试的方式对本申请实施例所提出的信息检索方法进行性能评估,以其它的现行检索方法为对比,在高校知识产权信息资源库中完成实验并分析检索效果。
【实验准备】
本实验选用某高校知识产权信息资源数据库作为实验数据来源,该数据库总的资源类型、资源内容、资源分类标签等详细信息均已知。从数据库中抽取一定量的知识产权信息资源数据组成训练集,用于辅助检索方法确定各项基本检索参数。
将组成训练集的资源数据从高校知识产权信息资源数据库中抽取后,随机在知识产权信息资源数据库中抽取不同数量的资源数据,经过人工处理后组成10组检索实验子集,用于对资源减速方法的性能测试。对实验资源数据集的人工处理主要包括添加相似度较高的干扰资源数据、改变实验数据集中的干扰资源数量两种操作。实际用于本次实验研究的知识产权信息资源实验集的相关参数具体如下表1所示。
表1知识产权信息资源实验数据集参数
本次实验中所使用的知识产权信息资源原始数据在各个数据子集中均不互相重叠,以免对检索方法实验造成干扰。人工添加不同比例与原始资源数据相似度较高的干扰资源时,人工标注以便于后续计算资源检索方法的检索准确率。
【实验过程】
实验以通过直观、科学地获取与分析实验指标数据,来验证本申请实施例的信息检索方法的适用性为实验目的。因此,实验的具体完成形式为将本申请方法与基于自然语言处理技术的资源检索方法、基于深度学习的资源检索方法进行对比。在三种资源检索方法的对比之下,通过分析各个检索方法在实验验证指标下的数据值高低,来分析检索方法在实际应用于知识产权信息资源检索工作的效果。
实验选用指标为F1值、完全匹配值作为检索方法的检索效果的测试指标,另外选择检索目标资源时方法的检索耗时指标作为补充,实现对资源检索方法的综合性能评价。其中,完全匹配值为检索方法的检索结果与预期检索结果完全相符的次数占总检索次数的比例。F1值可以表征预测资源检索结果与实际检索结果之间的平均重叠情况,即利用检索方法的检索准确率、方法的召回率进行计算。
依照设定的检索标签,在准备的实验数据子集上,分别使用选定的检索方法完成相应的检索工作。同一检索标签10次,以平均值作为当前标签的检索结果。每一实验子集上共进行50次不同检索需求下的知识产权信息资源检索工作,记录在当前实验子集上各个方法的正确检索次数、错误检索次数等数据,利用MAATLAB 2012a软件对统计的数据计算处理后,得到对应实验指标的具体数值。横向、纵向对处理后得到的实验指标数据进行分析,评价所选择的各个检索方法性能优劣。
【实验结果】
以下通过三个方面对各检索方法的检索结果进行验证。
(1)统计使用不同检索方法进行知识产权信息资源检索时,检索方法的正确检索次数,并计算各方法对应的检索准确率、召回率,经过计算得到如下表2的F1值。
表2 知识产权信息资源检索的F1值对比
对上表2中各个资源检索方法的F1值进行分析可知,在对不同参数的实验数据子集依据检索需求进行检索时,本申请的信息检索方法其F1值在各个实验组中均高于另外两个检索方法。从检索方法的F1最大、最小值之间差距来看,本申请的信息检索方法其F1值的最大值与最小值相差约为4.6;基于自然语言处理技术的方法其F1值的最大值与最小值相差约为11.8;基于深度学习的资源检索方法其F1值的最大值与最小值相差约为18.6。
上述数据说明本申请的信息检索方法检索效果更稳定,可靠性更高。
(2)在进行相应的高校知识产权信息资源检索时,预先设定最佳的检索结果,将各个检索方法的检索输出与预测的检索结果相互匹配。根据完全匹配值的定义,计算实验所用检索方法的完全匹配值,得到图4的对比结果。
分析图4中的数据可知,在对知识产权信息资源进行检索时,本申请的信息检索方法其完全匹配值曲线一直位于90~95%区间内。并且在对不同参数的实验资源数据集进行处理时,该检索方法的完全匹配值波动较小。基于自然语言处理技术的资源检索方法的完全匹配值对应不同的实验数据子集差异较大,导致方法的完全匹配值曲线出现剧烈抖动。从整体上看,基于深度学习的资源检索方法的完全匹配值曲线位于以上两种检索方法的中间部分。从完全匹配值来看,本申请的信息检索方法其检索正确率高于90%,检索效果优于另外两种检索对比方法。
(3)根据设定的检索输入向量,在使用不同的检索方法对实验数据集进行资源检索时,各个检索方法在实验数据子集上的检索耗时统计情况如下表3所示。
表3 检索方法在不同数据集上的检索平均耗时/ms
从各个检索方法在不同实验数据子集的检索耗时数据分析可知,本申请的信息检索方法的检索耗时远少于另外两种资源检索方法。对表3中的数据进一步求平均值,在本次实验中,本申请的信息检索方法的平均检索耗时为150.19ms,基于自然语言处理技术的资源检索方法的平均检索耗时为455.02ms,基于深度学习的资源检索方法的平均检索耗时为269.67ms。利用本申请的信息检索方法进行知识产权信息资源检索时,相比至少缩短了约44.31%的检索时间,检索效率大幅提升。
对上述的实验指标分析内容进行总结可知,在为高校提供知识产权信息资源检索服务时,使用本申请提出的信息检索方法能够更准确、高效地获取所检索的信息,并且该方法应用于模糊资源检索时,检索的资源更符合检索者需求标准检索效果相比现行的资源检索大幅提升。
现在参考图5,所示为根据本申请的一个实施例的电子设备400的框图。电子设备400可以包括耦合到控制器中枢403的一个或多个处理器401。对于至少一个实施例,控制器中枢403经由诸如前端总线(Front Side Bus,FSB)之类的多分支总线、诸如快速通道连(QuickPath Interconnect,QPI)之类的点对点接口、或者类似的连接406与处理器401进行通信。处理器401执行控制一般类型的数据处理操作的指令。在一实施例中,控制器中枢403包括,但不局限于,图形存储器控制器中枢(Graphics&Memory Controller Hub,GMCH) (未示出)和输入/输出中枢(Input Output Hub,IOH) (其可以在分开的芯片上)(未示出),其中GMCH包括存储器和图形控制器并与IOH耦合。
电子设备400还可包括耦合到控制器中枢403的协处理器402和存储器404。或者,存储器和GMCH中的一个或两者可以被集成在处理器内(如本申请中所描述的),存储器404和协处理器402直接耦合到处理器401以及控制器中枢403,控制器中枢403与IOH处于单个芯片中。
存储器404可以是例如动态随机存取存储器(DRAM,Dynamic Random AccessMemory)、相变存储器(PCM,Phase Change Memory)或这两者的组合。存储器404中可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。计算机可读存储介质中存储有指令,具体而言,存储有该指令的暂时和永久副本。该指令可以包括:由处理器中的至少一个执行时导致电子设备400实施如图1至图3所示方法的指令。当指令在计算机上运行时,使得计算机执行上述实施例公开的方法。
在一个实施例中,协处理器402是专用处理器,诸如例如高吞吐量集成众核(ManyIntegrated Core,MIC)处理器、网络或通信处理器、压缩引擎、图形处理器、图形处理单元上的通用计算(General-purpose computing on graphics processing units,GPGPU)、或嵌入式处理器等等。协处理器402的任选性质用虚线表示在图5中。
在一个实施例中,电子设备400可以进一步包括网络接口(Network InterfaceController,NIC)406。网络接口406可以包括收发器,用于为电子设备400提供无线电接口,进而与任何其他合适的设备(如前端模块,天线等)进行通信。在各种实施例中,网络接口406可以与电子设备400的其他组件集成。网络接口406可以实现上述实施例中的通信单元的功能。
电子设备400可以进一步包括输入/输出(Input/Output,I/O)设备405。I/O405可以包括:用户界面,该设计使得用户能够与电子设备400进行交互;外围组件接口的设计使得外围组件也能够与电子设备400交互;和/或传感器设计用于确定与电子设备400相关的环境条件和/或位置信息。
值得注意的是,图5仅是示例性的。即虽然图5中示出了电子设备400包括处理器401、控制器中枢403、存储器404等多个器件,但是,在实际的应用中,使用本申请各方法的设备,可以仅包括电子设备400各器件中的一部分器件,例如,可以仅包含处理器401和网络接口406。图5中可选器件的性质用虚线示出。
现在参考图6,所示为根据本申请的一实施例的片上系统(System on Chip,SoC)500的框图。在图6中,相似的部件具有同样的附图标记。另外,虚线框是更先进的SoC的可选特征。在图6中,SoC500包括:互连单元550,其被耦合至处理器510;系统代理单元580;总线控制器单元590 ;集成存储器控制器单元540;一组或一个或多个协处理器520,其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器;静态随机存取存储器(Static Randomaccess Memory,SRAM)单元530;直接存储器存取(Direct Memory Access,DMA)单元560。在一个实施例中,协处理器520包括专用处理器,诸如例如网络或通信处理器、压缩引擎、图形处理单元上的通用计算(General-purpose computing on graphics processing units,GPGPU)、高吞吐量MIC处理器、或嵌入式处理器等。
静态随机存取存储器(SRAM)单元530可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性计算机可读介质。计算机可读存储介质中存储有指令,具体而言,存储有该指令的暂时和永久副本。该指令可以包括:由处理器中的至少一个执行时导致SoC实施如图1至图3所示方法的指令。当指令在计算机上运行时,使得计算机执行上述实施例中公开的方法。
本申请的各方法实施方式均可以以软件、磁件、固件等方式实现。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(Digital Signal Processor,DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
至少一个实施例的一个或多个方面可以由存储在计算机可读存储介质上的表示性指令来实现,指令表示处理器中的各种逻辑,指令在被机器读取时使得该机器制作用于执行本申请的技术的逻辑。被称为“知识产权(Intellectual Property,IP)核”的这些表示可以被存储在有形的计算机可读存储介质上,并被提供给多个客户或生产设施以加载到实际制造该逻辑或处理器的制造机器中。
在一些情况下,指令转换器可用来将指令从源指令集转换至目标指令集。例如,指令转换器可以变换(例如使用静态二进制变换、包括动态编译的动态二进制变换)、变形、仿真或以其它方式将指令转换成将由核来处理的一个或多个其它指令。指令转换器可以用软件、硬件、固件、或其组合实现。指令转换器可以在处理器上、在处理器外、或者部分在处理器上且部分在处理器外。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。 然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (8)
1.一种信息检索方法,用于检索异构数据库中的信息,其特征在于,包括:
基于各所述异构数据库重新构建元数据向量集,所述元数据向量集中的各元素均采用词向量表示;
获取多个历史检索信息,构建所述多个历史检索信息的词向量频繁集;
基于所述词向量频繁集,在所述元数据向量集中确定目标候选项目;
基于知识图谱三元组关系和TransE模型对所述目标候选项目进行分析,获取偏好特征向量;
获取目标检索信息和其在所述元数据向量集中所对应的初步检索结果;
基于所述初步检索结果确定各待检索资源,并基于所述偏好特征向量对各所述待检索资源排序后输出;
其中,所述基于所述初步检索结果确定各待检索资源,并基于所述偏好特征向量对各所述待检索资源排序后输出,包括:
针对所述初步检索结果中的每一个检索资源,获取所述检索资源与所述目标检索信息之间的相似度权重,并基于包括门控循环单元的双向循环神经网络模型根据所述相似度权重确定所述检索资源的注意力值;
获取所述注意力值高于设定值的所有所述检索资源作为待检索资源;
获取各所述待检索资源与所述偏好特征向量之间的相似度;
对各所述待检索资源按照所述相似度由高到低依次排序后输出。
2.如权利要求1所述的信息检索方法,其特征在于,所述获取各所述待检索资源与所述偏好特征向量之间的相似度,对各所述待检索资源按照所述相似度由高到低依次排序后输出,包括:
获取各所述待检索资源与所述目标检索信息之间的匹配度;
将各所述待检索资源按照所述匹配度降序排列;
选取排序靠前的部分所述待检索资源,获取其与所述偏好特征向量之间的相似度;
按照所述相似度由高到低,将所述排序靠前的部分所述待检索资源依次排序后输出。
3.如权利要求2所述的信息检索方法,其特征在于,所述匹配度是基于TFIDF算法获取的。
4.如权利要求1所述的信息检索方法,其特征在于,所述基于所述词向量频繁集,在所述元数据向量集中确定目标候选项目,包括:
基于所述词向量频繁集,获取所述元数据向量集中的与所述多个历史检索信息相关联的所有资源,作为候选项目集;
获取所述候选项目集中的各元素与所述词向量频繁集之间的距离,作为所述元素的支持度;
基于所述支持度最小的所述元素确定所述目标候选项目。
5.如权利要求4所述的信息检索方法,其特征在于,所述目标候选项目满足设定检索关联规则。
6.如权利要求1所述的信息检索方法,其特征在于,所述基于各所述异构数据库重新构建元数据向量集,包括:
获取各所述异构数据库中的元数据;
将所述元数据按照RDF格式的标准,利用转换技术进行统一规范、去重和整合处理;
基于Skipgram词向量计算方法将处理后的各所述元数据转换为词向量形式。
7.一种电子设备,其特征在于,包括:
存储器,用于存储由所述电子设备的一个或多个处理器执行的指令;
处理器,当所述处理器执行所述存储器中的所述指令时,可使得所述电子设备执行权利要求1~6任一项所述的信息检索方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,该指令在计算机上执行时使得计算机执行权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973009.XA CN116719954B (zh) | 2023-08-04 | 2023-08-04 | 一种信息检索方法、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310973009.XA CN116719954B (zh) | 2023-08-04 | 2023-08-04 | 一种信息检索方法、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116719954A CN116719954A (zh) | 2023-09-08 |
CN116719954B true CN116719954B (zh) | 2023-10-17 |
Family
ID=87864690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310973009.XA Active CN116719954B (zh) | 2023-08-04 | 2023-08-04 | 一种信息检索方法、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116719954B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081669A (zh) * | 2011-01-24 | 2011-06-01 | 哈尔滨工业大学 | 多源遥感资源异构数据库的分级检索方法 |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及系统 |
CN111061828A (zh) * | 2019-11-29 | 2020-04-24 | 华中师范大学 | 一种数字图书馆知识检索方法及装置 |
CN113158033A (zh) * | 2021-03-19 | 2021-07-23 | 浙江工业大学 | 一种基于知识图谱偏好传播的协同推荐模型构建方法 |
CN113868235A (zh) * | 2021-09-29 | 2021-12-31 | 深圳市联银互通信息有限公司 | 一种基于大数据的信息检索分析系统 |
CN114282119A (zh) * | 2022-03-03 | 2022-04-05 | 深圳昊通技术有限公司 | 一种基于异构信息网络的科技信息资源检索方法及系统 |
CN114281965A (zh) * | 2021-11-23 | 2022-04-05 | 北京百度网讯科技有限公司 | 信息检索方法、装置、电子设备和存储介质 |
CN115168744A (zh) * | 2022-08-09 | 2022-10-11 | 舟山广播电视总台 | 基于用户画像和知识图谱的广电技术知识推荐方法 |
CN115544297A (zh) * | 2022-09-23 | 2022-12-30 | 珠海高凌信息科技股份有限公司 | 一种声音数据库构建及智能检索方法、系统及存储介质 |
WO2023039901A1 (zh) * | 2021-09-18 | 2023-03-23 | 京东方科技集团股份有限公司 | 一种文本推荐方法、模型训练方法、装置及可读存储介质 |
CN116450913A (zh) * | 2022-01-06 | 2023-07-18 | 中移动信息技术有限公司 | 一种检索方法、装置、服务器及计算机可读存储介质 |
-
2023
- 2023-08-04 CN CN202310973009.XA patent/CN116719954B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081669A (zh) * | 2011-01-24 | 2011-06-01 | 哈尔滨工业大学 | 多源遥感资源异构数据库的分级检索方法 |
CN103593425A (zh) * | 2013-11-08 | 2014-02-19 | 南方电网科学研究院有限责任公司 | 基于偏好的智能检索方法及系统 |
CN111061828A (zh) * | 2019-11-29 | 2020-04-24 | 华中师范大学 | 一种数字图书馆知识检索方法及装置 |
CN113158033A (zh) * | 2021-03-19 | 2021-07-23 | 浙江工业大学 | 一种基于知识图谱偏好传播的协同推荐模型构建方法 |
WO2023039901A1 (zh) * | 2021-09-18 | 2023-03-23 | 京东方科技集团股份有限公司 | 一种文本推荐方法、模型训练方法、装置及可读存储介质 |
CN113868235A (zh) * | 2021-09-29 | 2021-12-31 | 深圳市联银互通信息有限公司 | 一种基于大数据的信息检索分析系统 |
CN114281965A (zh) * | 2021-11-23 | 2022-04-05 | 北京百度网讯科技有限公司 | 信息检索方法、装置、电子设备和存储介质 |
CN116450913A (zh) * | 2022-01-06 | 2023-07-18 | 中移动信息技术有限公司 | 一种检索方法、装置、服务器及计算机可读存储介质 |
CN114282119A (zh) * | 2022-03-03 | 2022-04-05 | 深圳昊通技术有限公司 | 一种基于异构信息网络的科技信息资源检索方法及系统 |
CN115168744A (zh) * | 2022-08-09 | 2022-10-11 | 舟山广播电视总台 | 基于用户画像和知识图谱的广电技术知识推荐方法 |
CN115544297A (zh) * | 2022-09-23 | 2022-12-30 | 珠海高凌信息科技股份有限公司 | 一种声音数据库构建及智能检索方法、系统及存储介质 |
Non-Patent Citations (3)
Title |
---|
AWAR算法在信息检索查询扩展中的研究;郝慎学;;科技通报(09);第181-184页 * |
Xiaoqin Feng ; Jianfeng Ma ; Shaobin Liu ; Yinbin Miao ; Ximeng Liu ; Kim-Kwang Raymond Choo.Transparent Ciphertext Retrieval System Supporting Integration of Encrypted Heterogeneous Database in Cloud-Assisted IoT.IEEE Internet of Things Journal.2021,第3784 - 3798页. * |
基于Web日志的用户访问模式挖掘的研究;夏聪;中国优秀硕士学位论文全文数据库;第I138-335页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116719954A (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159223B (zh) | 一种基于结构化嵌入的交互式代码搜索方法及装置 | |
CN108959246B (zh) | 基于改进的注意力机制的答案选择方法、装置和电子设备 | |
US10061766B2 (en) | Systems and methods for domain-specific machine-interpretation of input data | |
US20200356729A1 (en) | Generation of text from structured data | |
CN110334186B (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
US20210117625A1 (en) | Semantic parsing of natural language query | |
US20110184981A1 (en) | Personalize Search Results for Search Queries with General Implicit Local Intent | |
CN112417126B (zh) | 一种问答方法、计算设备以及存储介质 | |
US20210216576A1 (en) | Systems and methods for providing answers to a query | |
US11016997B1 (en) | Generating query results based on domain-specific dynamic word embeddings | |
CN106708929B (zh) | 视频节目的搜索方法和装置 | |
US11651014B2 (en) | Source code retrieval | |
CN113127632B (zh) | 基于异质图的文本摘要方法及装置、存储介质和终端 | |
CN113297360B (zh) | 基于弱监督学习和联合学习机制的法律问答方法及设备 | |
CN112581327B (zh) | 基于知识图谱的法律推荐方法、装置和电子设备 | |
CN112632224A (zh) | 基于案例知识图谱的案件推荐方法、装置和电子设备 | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
AU2018226420B2 (en) | Voice assisted intelligent searching in mobile documents | |
CN112818126A (zh) | 网络安全语料库构建模型的训练方法、应用方法及装置 | |
CN116719954B (zh) | 一种信息检索方法、电子设备及存储介质 | |
CN113468311B (zh) | 一种基于知识图谱的复杂问句问答方法、装置及存储介质 | |
CN115757694A (zh) | 招聘行业文本召回方法及系统、设备与介质 | |
CN113076089B (zh) | 一种基于对象类型的api补全方法 | |
CN110929501B (zh) | 文本分析方法和装置 | |
CN114490946A (zh) | 基于Xlnet模型的类案检索方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |