CN114282119B - 一种基于异构信息网络的科技信息资源检索方法及系统 - Google Patents

一种基于异构信息网络的科技信息资源检索方法及系统 Download PDF

Info

Publication number
CN114282119B
CN114282119B CN202210201321.2A CN202210201321A CN114282119B CN 114282119 B CN114282119 B CN 114282119B CN 202210201321 A CN202210201321 A CN 202210201321A CN 114282119 B CN114282119 B CN 114282119B
Authority
CN
China
Prior art keywords
resource
scientific
user
preference
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210201321.2A
Other languages
English (en)
Other versions
CN114282119A (zh
Inventor
傅艳平
胡毅
吕乃昌
刘谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Haotong Technology Co ltd
Original Assignee
Shenzhen Haotong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Haotong Technology Co ltd filed Critical Shenzhen Haotong Technology Co ltd
Priority to CN202210201321.2A priority Critical patent/CN114282119B/zh
Publication of CN114282119A publication Critical patent/CN114282119A/zh
Application granted granted Critical
Publication of CN114282119B publication Critical patent/CN114282119B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异构信息网络的科技信息资源检索方法及系统,其中科技信息资源检索方法包括:获取目标用户在学术资源网站的用户交互数据,基于用户交互数据构建异构信息网络;构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;本发明为用户生成了更符合用户需求意愿的科技信息资源检索结果,提高了科技信息资源检索的高效性和精准性。

Description

一种基于异构信息网络的科技信息资源检索方法及系统
技术领域
本发明涉及资源检索领域,更具体的,涉及一种基于异构信息网络的科技信息资源检索方法及系统。
背景技术
科技资源检索是科技资源服务的重要手段,是决定科技资源是否能被切实、有效利用的关键环节,随着科技行业的不断发展与进步,科技资源数据信息量急剧增加,从浩如烟海的、不同结构的科技资源中快速精确地找到用户所需要的信息,又因为科技资源不同于日常普通的生活和生产资源,具有显著的专业性、知识性和复杂性,关键词检索法既无法对其特性进行理解,又需要依赖大量的人力对每一个资源进行复杂的信息标注,所以难以满足科技资源服务的需求。因此如何对科技信息资源进行高精度检索成为广泛关注的问题之一。
为了能够提高科技资源检索的高效性及精准性,需要开发一款系统进行实现,该系统通过获取目标用户在学术资源网站的用户交互数据,构建异构信息网络构建用户偏好模型生成目标用户的偏好特征;将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果在该系统实现过程中,如何根据目标用户的偏好特征生成科技信息资源检索结果是亟不可待需要解决的问题。
发明内容
为了解决上述技术问题,本发明提出了一种基于异构信息网络的科技信息资源检索方法及系统。
本发明第一方面提供了一种基于异构信息网络的科技信息资源检索方法,包括:
获取目标用户在学术资源网站的用户交互数据,将所述用户交互数据进行预处理,基于用户交互数据构建异构信息网络;
构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;
将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;
将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;
根据目标用户与科技信息资源检索结果的交互记录及检索行为生成交互反馈数据,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据。
本方案中,所述的生成目标用户的偏好特征,具体为:
根据目标用户的学术资源网站访问行为获取目标用户的用户交互数据,将所述用户交互数据进行一致性表达;
通过所述用户交互数据选择含有目标用户偏好的交互数据,通过含有目标用户偏好的交互数据提取语义特征及类别特征;
建立用户偏好模型,通过所述语义特征及类别特征对所述用户偏好模型进行训练,通过训练后的用户偏好模型生成目标用户的偏好特征;
并将所述偏好特征在所述异构信息网络中进行表示,得到异构信息网络中偏好特征对应的资源节点类型及资源节点类型之间的关系。
本方案中,所述的通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目,具体为:
将检索对象进行关键词分词,根据所述关键词确定异构信息网络中的目标节点类型及目标节点位置;
基于Meta-Path根据所述目标节点类型及目标节点位置进行随机游走;
根据异构信息网络中用户偏好特征对应的资源节点类型之间的关系给定Meta-Path随机游走的路径约束条件;
获取Meta-Path随机游走生成的元路径,通过所述目标节点类过滤所述元路径中其他类型的节点,得到包含目标节点的多条元路径;
计算所述元路径的相似度,并根据所述相似度进行元路径的排序,生成相似度最高的N个元路径;
通过所述相似度最高的N个元路径在搜索空间中生成相似度最高的N个资源项目。
本方案中,所述的将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果,具体为:
提取相似度最高的N个资源项目的特征值,通过比较分析生成N个资源项目的特征值偏差率;
比较每个资源项目的特征值偏差率,将所述特征值偏差率小于预设偏差率阈值的资源项目归为同类别资源项目集合,并生成项目集合特征;
将所述项目集合特征与目标用户的偏好特征进行匹配,根据匹配程度进行各类别资源项目集合的排序,生成第一排序结果;
根据各类别资源项目集合中的资源项目的特征值进行排序,生成第二排序结果;
根据所述第一排序结果及所述第二排序结果生成科技信息资源检索结果。
本方案中,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据,具体为:
获取科技信息资源检索结果,根据目标用户对科技信息资源检索结果的交互记录生成交互反馈数据;
通过所述交互反馈数据对含有用户偏好的交互数据进行更新,并通过所述用户偏好模型生成更新后偏好特征;
根据所述更新后偏好特征及检索对象进行二次检索,重新生成科技信息资源检索列表。
本方案中,还包括:
计算科技信息资源检索结果中结果序列的精度及召回率,通过结果序列中每个位置的精度及召回率生成精度-召回率曲线;
根据所述精度-召回率曲线获取科技信息资源检索结果中的平均精度信息,判断所述平均精度信息是否处于预设精度范围内;
若不处于,则生成修正信息,根据所述修正信息对用户偏好模型及科技信息资源检索结果进行修正;
所述平均精度信息的计算公式具体为:
Figure 59565DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
表示平均精度信息,
Figure 509001DEST_PATH_IMAGE004
表示科技信息资源检索结果总数,
Figure DEST_PATH_IMAGE005
表示检索结果中 的排名信息,
Figure 941119DEST_PATH_IMAGE006
表示科技信息资源检索结果中第
Figure 894031DEST_PATH_IMAGE005
个的精度,
Figure DEST_PATH_IMAGE007
表示科技信息资源检索 结果中第
Figure 753403DEST_PATH_IMAGE005
个的召回率,
Figure 362239DEST_PATH_IMAGE008
表示科技信息资源检索结果中第
Figure DEST_PATH_IMAGE009
个的召回率。
本发明第二方面还提供了一种基于异构信息网络的科技信息资源检索系统,该系统包括:存储器、处理器,所述存储器中包括一种基于异构信息网络的科技信息资源检索方法程序,所述一种基于异构信息网络的科技信息资源检索方法程序被所述处理器执行时实现如下步骤:
获取目标用户在学术资源网站的用户交互数据,将所述用户交互数据进行预处理,基于用户交互数据构建异构信息网络;
构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;
将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;
将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;
根据目标用户与科技信息资源检索结果的交互记录及检索行为生成交互反馈数据,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据。
本方案中,所述的生成目标用户的偏好特征,具体为:
根据目标用户的学术资源网站访问行为获取目标用户的用户交互数据,将所述用户交互数据进行一致性表达;
通过所述用户交互数据选择含有目标用户偏好的交互数据,通过含有目标用户偏好的交互数据提取语义特征及类别特征;
建立用户偏好模型,通过所述语义特征及类别特征对所述用户偏好模型进行训练,通过训练后的用户偏好模型生成目标用户的偏好特征;
并将所述偏好特征在所述异构信息网络中进行表示,得到异构信息网络中偏好特征对应的资源节点类型及资源节点类型之间的关系。
本方案中,所述的通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目,具体为:
将检索对象进行关键词分词,根据所述关键词确定异构信息网络中的目标节点类型及目标节点位置;
基于Meta-Path根据所述目标节点类型及目标节点位置进行随机游走;
根据异构信息网络中用户偏好特征对应的资源节点类型之间的关系给定Meta-Path随机游走的路径约束条件;
获取Meta-Path随机游走生成的元路径,通过所述目标节点类过滤所述元路径中其他类型的节点,得到包含目标节点的多条元路径;
计算所述元路径的相似度,并根据所述相似度进行元路径的排序,生成相似度最高的N个元路径;
通过所述相似度最高的N个元路径在搜索空间中生成相似度最高的N个资源项目。
本方案中,所述的将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果,具体为:
提取相似度最高的N个资源项目的特征值,通过比较分析生成N个资源项目的特征值偏差率;
比较每个资源项目的特征值偏差率,将所述特征值偏差率小于预设偏差率阈值的资源项目归为同类别资源项目集合,并生成项目集合特征;
将所述项目集合特征与目标用户的偏好特征进行匹配,根据匹配程度进行各类别资源项目集合的排序,生成第一排序结果;
根据各类别资源项目集合中的资源项目的特征值进行排序,生成第二排序结果;
根据所述第一排序结果及所述第二排序结果生成科技信息资源检索结果。
本方案中,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据,具体为:
获取科技信息资源检索结果,根据目标用户对科技信息资源检索结果的交互记录生成交互反馈数据;
通过所述交互反馈数据对含有用户偏好的交互数据进行更新,并通过所述用户偏好模型生成更新后偏好特征;
根据所述更新后偏好特征及检索对象进行二次检索,重新生成科技信息资源检索列表。
本方案中,还包括:
计算科技信息资源检索结果中结果序列的精度及召回率,通过结果序列中每个位置的精度及召回率生成精度-召回率曲线;
根据所述精度-召回率曲线获取科技信息资源检索结果中的平均精度信息,判断所述平均精度信息是否处于预设精度范围内;
若不处于,则生成修正信息,根据所述修正信息对用户偏好模型及科技信息资源检索结果进行修正;
所述平均精度信息的计算公式具体为:
Figure 598048DEST_PATH_IMAGE002
其中,
Figure 608730DEST_PATH_IMAGE003
表示平均精度信息,
Figure 639002DEST_PATH_IMAGE004
表示科技信息资源检索结果总数,
Figure 735134DEST_PATH_IMAGE005
表示检索结果中 的排名信息,
Figure 509055DEST_PATH_IMAGE006
表示科技信息资源检索结果中第
Figure 374243DEST_PATH_IMAGE005
个的精度,
Figure 575417DEST_PATH_IMAGE007
表示科技信息资源检索 结果中第
Figure 158845DEST_PATH_IMAGE005
个的召回率,
Figure 408561DEST_PATH_IMAGE008
表示科技信息资源检索结果中第
Figure 456152DEST_PATH_IMAGE009
个的召回率。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于异构信息网络的科技信息资源检索方法程序,所述一种基于异构信息网络的科技信息资源检索方法程序被处理器执行时,实现如上述任一项所述的一种基于异构信息网络的科技信息资源检索方法的步骤。
本发明公开了一种基于异构信息网络的科技信息资源检索方法及系统,其中科技信息资源检索方法包括:获取目标用户在学术资源网站的用户交互数据,基于用户交互数据构建异构信息网络;构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;本发明为用户生成了更符合用户需求意愿的科技信息资源检索结果,提高了科技信息资源检索的高效性和精准性。
附图说明
图1示出了本发明一种基于异构信息网络的科技信息资源检索方法的流程图;
图2示出了本发明计算元路径的相似度的方法流程图;
图3示出了本发明通过排序生成科技信息资源检索结果的方法流程图;
图4示出了本发明一种基于异构信息网络的科技信息资源检索系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于异构信息网络的科技信息资源检索方法的流程图;
如图1所示,本发明第一方面提供了一种基于异构信息网络的科技信息资源检索方法,包括:
S102,获取目标用户在学术资源网站的用户交互数据,将所述用户交互数据进行预处理,基于用户交互数据构建异构信息网络;
S104,构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;
S106,将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;
S108,将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;
S110,根据目标用户与科技信息资源检索结果的交互记录及检索行为生成交互反馈数据,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据。
需要说明的是,所述的生成目标用户的偏好特征,具体为:
根据目标用户的学术资源网站访问行为获取目标用户的用户交互数据,将所述用户交互数据进行一致性表达;
通过所述用户交互数据选择含有目标用户偏好的交互数据,通过含有目标用户偏好的交互数据提取语义特征及类别特征;
建立用户偏好模型,通过所述语义特征及类别特征对所述用户偏好模型进行训练,通过训练后的用户偏好模型生成目标用户的偏好特征;
并将所述偏好特征在所述异构信息网络中进行表示,得到异构信息网络中偏好特征对应的资源节点类型及资源节点类型之间的关系。
需要说明的是,用户交互数据包括:用户短期阅读科技文献、图片信息、课题文本标签等等,通过构建用户偏好模型提取个人偏好,能够准确的捕捉用户偏好的动态变化,根据目标用户检索资源过程中的检索交互记录获取目标用户的偏好变化,使得检索结果进一步贴近用户需求,增强用户体验。
图2示出了本发明计算元路径的相似度的方法流程图。
根据本发明实施例,所述的通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目,具体为:
S202,将检索对象进行关键词分词,根据所述关键词确定异构信息网络中的目标节点类型及目标节点位置;
S204,基于Meta-Path根据所述目标节点类型及目标节点位置进行随机游走;
S206,根据异构信息网络中用户偏好特征对应的资源节点类型之间的关系给定Meta-Path随机游走的路径约束条件;
S208,获取Meta-Path随机游走生成的元路径,通过所述目标节点类过滤所述元路径中其他类型的节点,得到包含目标节点的多条元路径;
S210,计算所述元路径的相似度,并根据所述相似度进行元路径的排序,生成相似度最高的N个元路径;
S212,通过所述相似度最高的N个元路径在搜索空间中生成相似度最高的N个资源项目。
需要说明的是,通过Meta-Path的随机游走提取特征,生成节点关联关系序列,捕获不同类型节点之间的语义和结构相关性。Meta-Path的随机游走与普通的随机游走存在不同,其对游走的路径进行了一定的约束,其计算公式为:
Figure DEST_PATH_IMAGE011
其中,
Figure 828227DEST_PATH_IMAGE012
表示游走路径,
Figure DEST_PATH_IMAGE013
表示随机游走路径中的第
Figure 961268DEST_PATH_IMAGE014
个节点,
Figure DEST_PATH_IMAGE015
表示节点的类型,
Figure 14675DEST_PATH_IMAGE016
是节点n的类型为
Figure DEST_PATH_IMAGE017
的一层邻居;所述的相似度计算可以为,将所述元路径的项目 节点映射到低维空间,形成低维特征向量,计算低维特征向量的相似度,向量间相似度计算 的方法有余弦相似度、欧氏距离、马氏距离等。
图3示出了本发明通过排序生成科技信息资源检索结果的方法流程图。
根据本发明实施例,所述的将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果,具体为:
S302,提取相似度最高的N个资源项目的特征值,通过比较分析生成N个资源项目的特征值偏差率;
S304,比较每个资源项目的特征值偏差率,将所述特征值偏差率小于预设偏差率阈值的资源项目归为同类别资源项目集合,并生成项目集合特征;
S306,将所述项目集合特征与目标用户的偏好特征进行匹配,根据匹配程度进行各类别资源项目集合的排序,生成第一排序结果;
S308,根据各类别资源项目集合中的资源项目的特征值进行排序,生成第二排序结果;
S310,根据所述第一排序结果及所述第二排序结果生成科技信息资源检索结果。
需要说明的是,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据,具体为:
获取科技信息资源检索结果,根据目标用户对科技信息资源检索结果的交互记录生成交互反馈数据;
通过所述交互反馈数据对含有用户偏好的交互数据进行更新,并通过所述用户偏好模型生成更新后偏好特征;
根据所述更新后偏好特征及检索对象进行二次检索,重新生成科技信息资源检索列表。
需要说明的是,本发明还包括,根据科技信息检索结果中的平均精度信息生成修正信息,具体为:
计算科技信息资源检索结果中结果序列的精度及召回率,通过结果序列中每个位置的精度及召回率生成精度-召回率曲线;
根据所述精度-召回率曲线获取科技信息资源检索结果中的平均精度信息,判断所述平均精度信息是否处于预设精度范围内;
若不处于,则生成修正信息,根据所述修正信息对用户偏好模型及科技信息资源检索结果进行修正;
精度是检索出的相关资源数与检索出的资源总数的比率,召回率是检索出的相关资源数和异构信息网络中所有的相关资源数的比率,所述平均精度信息的计算公式具体为:
Figure 916772DEST_PATH_IMAGE002
其中,
Figure 459749DEST_PATH_IMAGE003
表示平均精度信息,表示科技信息资源检索结果总数,
Figure 752190DEST_PATH_IMAGE005
表示检索结果中的 排名信息,
Figure 671604DEST_PATH_IMAGE006
表示科技信息资源检索结果中第
Figure 365891DEST_PATH_IMAGE005
个的精度,
Figure 17452DEST_PATH_IMAGE007
表示科技信息资源检索结 果中第个的召回率,
Figure 125085DEST_PATH_IMAGE008
表示科技信息资源检索结果中第
Figure 520294DEST_PATH_IMAGE009
个的召回率。
根据本发明实施例,本发明还包括,通过异构信息网络中与目标用户相似的邻居用户更新目标用户的偏好特征,具体为:
通过计算检索对象与所述偏好特征的匹配度获取目标用户对检索对象的偏好程度;
若所述偏好程度小于预设偏好程度阈值时,则根据目标用户的属性特征生成索引标签,根据所述索引标签建立搜索任务,计算异构信息网络中目标用户节点与邻居用户节点的相似度;
判断所述相似度是否大于预设相似度阈值,若大于,则选取对应邻居用户节点,提取邻居用户的偏好特征,通过所述目标用户的偏好特征及预设贡献系数计算计算更新目标用户的偏好特征;
根据更新后的目标用户的偏差特征生成待推送资源项目集合,并根据目标用户的偏好程度生成推送列表。
需要说明的是,在科技研发过程中,不同的科研资源项目可能会用到相同的科学技术手段需要部分重复的科技信息资源,因此,当目标用户对检索对象的偏好程度不足以提供有价值的信息量时,则引入异构信息网络中相似度高的邻居用户节点,根据邻居用户节点对目标用户的偏好影响进行目标用户偏好特征的更新,若异构信息网络中的相似用户节点对检索对象交互数据不够充分时,极易引入无关噪声,因此不需考虑异构信息网络中相似邻居节点的偏好影响。
图4示出了本发明一种基于异构信息网络的科技信息资源检索系统的框图。
本发明第二方面还提供了一种基于异构信息网络的科技信息资源检索系统4,该系统包括:存储器41、处理器42,所述存储器中包括一种基于异构信息网络的科技信息资源检索方法程序,所述一种基于异构信息网络的科技信息资源检索方法程序被所述处理器执行时实现如下步骤:
获取目标用户在学术资源网站的用户交互数据,将所述用户交互数据进行预处理,基于用户交互数据构建异构信息网络;
构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;
将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;
将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;
根据目标用户与科技信息资源检索结果的交互记录及检索行为生成交互反馈数据,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据。
需要说明的是,所述的生成目标用户的偏好特征,具体为:
根据目标用户的学术资源网站访问行为获取目标用户的用户交互数据,将所述用户交互数据进行一致性表达;
通过所述用户交互数据选择含有目标用户偏好的交互数据,通过含有目标用户偏好的交互数据提取语义特征及类别特征;
建立用户偏好模型,通过所述语义特征及类别特征对所述用户偏好模型进行训练,通过训练后的用户偏好模型生成目标用户的偏好特征;
并将所述偏好特征在所述异构信息网络中进行表示,得到异构信息网络中偏好特征对应的资源节点类型及资源节点类型之间的关系。
需要说明的是,用户交互数据包括:用户短期阅读科技文献、图片信息、课题文本标签等等,通过构建用户偏好模型提取个人偏好,能够准确的捕捉用户偏好的动态变化,根据目标用户检索资源过程中的检索交互记录获取目标用户的偏好变化,使得检索结果进一步贴近用户需求,增强用户体验。
根据本发明实施例,所述的通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目,具体为:
将检索对象进行关键词分词,根据所述关键词确定异构信息网络中的目标节点类型及目标节点位置;
基于Meta-Path根据所述目标节点类型及目标节点位置进行随机游走;
根据异构信息网络中用户偏好特征对应的资源节点类型之间的关系给定Meta-Path随机游走的路径约束条件;
获取Meta-Path随机游走生成的元路径,通过所述目标节点类过滤所述元路径中其他类型的节点,得到包含目标节点的多条元路径;
计算所述元路径的相似度,并根据所述相似度进行元路径的排序,生成相似度最高的N个元路径;
通过所述相似度最高的N个元路径在搜索空间中生成相似度最高的N个资源项目。
需要说明的是,通过Meta-Path的随机游走提取特征,生成节点关联关系序列,捕获不同类型节点之间的语义和结构相关性。Meta-Path的随机游走与普通的随机游走存在不同,其对游走的路径进行了一定的约束,其计算公式为:
Figure 131404DEST_PATH_IMAGE018
其中,
Figure 219446DEST_PATH_IMAGE012
表示游走路径,
Figure 548796DEST_PATH_IMAGE013
表示随机游走路径中的第
Figure 747696DEST_PATH_IMAGE014
个节点,
Figure 150996DEST_PATH_IMAGE015
表示节点的类型,
Figure 472256DEST_PATH_IMAGE016
是节点n的类型为
Figure 226585DEST_PATH_IMAGE017
的一层邻居;所述的相似度计算可以为,将所述元路径的项目 节点映射到低维空间,形成低维特征向量,计算低维特征向量的相似度,向量间相似度计算 的方法有余弦相似度、欧氏距离、马氏距离等。
需要说明的是,所述的将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果,具体为:
提取相似度最高的N个资源项目的特征值,通过比较分析生成N个资源项目的特征值偏差率;
比较每个资源项目的特征值偏差率,将所述特征值偏差率小于预设偏差率阈值的资源项目归为同类别资源项目集合,并生成项目集合特征;
将所述项目集合特征与目标用户的偏好特征进行匹配,根据匹配程度进行各类别资源项目集合的排序,生成第一排序结果;
根据各类别资源项目集合中的资源项目的特征值进行排序,生成第二排序结果;
根据所述第一排序结果及所述第二排序结果生成科技信息资源检索结果。
需要说明的是,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据,具体为:
获取科技信息资源检索结果,根据目标用户对科技信息资源检索结果的交互记录生成交互反馈数据;
通过所述交互反馈数据对含有用户偏好的交互数据进行更新,并通过所述用户偏好模型生成更新后偏好特征;
根据所述更新后偏好特征及检索对象进行二次检索,重新生成科技信息资源检索列表。
需要说明的是,本发明还包括,根据科技信息检索结果中的平均精度信息生成修正信息,具体为:
计算科技信息资源检索结果中结果序列的精度及召回率,通过结果序列中每个位置的精度及召回率生成精度-召回率曲线;
根据所述精度-召回率曲线获取科技信息资源检索结果中的平均精度信息,判断所述平均精度信息是否处于预设精度范围内;
若不处于,则生成修正信息,根据所述修正信息对用户偏好模型及科技信息资源检索结果进行修正;
精度是检索出的相关资源数与检索出的资源总数的比率,召回率是检索出的相关资源数和异构信息网络中所有的相关资源数的比率,所述平均精度信息的计算公式具体为:所述平均精度信息的计算公式具体为:
Figure 25914DEST_PATH_IMAGE002
其中,
Figure 549299DEST_PATH_IMAGE003
表示平均精度信息,
Figure 41460DEST_PATH_IMAGE004
表示科技信息资源检索结果总数,
Figure 17507DEST_PATH_IMAGE005
表示检索结果中 的排名信息,
Figure 620526DEST_PATH_IMAGE006
表示科技信息资源检索结果中第
Figure 263997DEST_PATH_IMAGE005
个的精度,
Figure 599164DEST_PATH_IMAGE007
表示科技信息资源检索 结果中第
Figure 390402DEST_PATH_IMAGE005
个的召回率,
Figure 469217DEST_PATH_IMAGE008
表示科技信息资源检索结果中第
Figure 29511DEST_PATH_IMAGE009
个的召回率。
根据本发明实施例,本发明还包括,通过异构信息网络中与目标用户相似的邻居用户更新目标用户的偏好特征,具体为:
通过计算检索对象与所述偏好特征的匹配度获取目标用户对检索对象的偏好程度;
若所述偏好程度小于预设偏好程度阈值时,则根据目标用户的属性特征生成索引标签,根据所述索引标签建立搜索任务,计算异构信息网络中目标用户节点与邻居用户节点的相似度;
判断所述相似度是否大于预设相似度阈值,若大于,则选取对应邻居用户节点,提取邻居用户的偏好特征,通过所述目标用户的偏好特征及预设贡献系数计算计算更新目标用户的偏好特征;
根据更新后的目标用户的偏差特征生成待推送资源项目集合,并根据目标用户的偏好程度生成推送列表。
需要说明的是,在科技研发过程中,不同的科研资源项目可能会用到相同的科学技术手段需要部分重复的科技信息资源,因此,当目标用户对检索对象的偏好程度不足以提供有价值的信息量时,则引入异构信息网络中相似度高的邻居用户节点,根据邻居用户节点对目标用户的偏好影响进行目标用户偏好特征的更新,若异构信息网络中的相似用户节点对检索对象交互数据不够充分时,极易引入无关噪声,因此不需考虑异构信息网络中相似邻居节点的偏好影响。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于异构信息网络的科技信息资源检索方法程序,所述一种基于异构信息网络的科技信息资源检索方法程序被处理器执行时,实现如上述任一项所述的一种基于异构信息网络的科技信息资源检索方法的步骤。
本发明公开了一种基于异构信息网络的科技信息资源检索方法及系统,其中科技信息资源检索方法包括:获取目标用户在学术资源网站的用户交互数据,基于用户交互数据构建异构信息网络;构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;本发明为用户生成了更符合用户需求意愿的科技信息资源检索结果,提高了科技信息资源检索的高效性和精准性。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种基于异构信息网络的科技信息资源检索方法,其特征在于,包括如下步骤:
获取目标用户在学术资源网站的用户交互数据,将所述用户交互数据进行预处理,基于用户交互数据构建异构信息网络;
构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;
将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;
将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;
根据目标用户与科技信息资源检索结果的交互记录及检索行为生成交互反馈数据,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据;
所述的生成目标用户的偏好特征,具体为:
根据目标用户的学术资源网站访问行为获取目标用户的用户交互数据,将所述用户交互数据进行一致性表达;
通过所述用户交互数据中优选含有目标用户偏好的交互数据,通过含有目标用户偏好的交互数据提取语义特征及类别特征;
建立用户偏好模型,通过所述语义特征及类别特征对所述用户偏好模型进行训练,通过训练后的用户偏好模型生成目标用户的偏好特征;
并将所述偏好特征在所述异构信息网络中进行表示,得到异构信息网络中偏好特征对应的资源节点类型及资源节点类型之间的关系。
2.根据权利要求1所述的一种基于异构信息网络的科技信息资源检索方法,其特征在于,所述的通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目,具体为:
将检索对象进行关键词分词,根据所述关键词确定异构信息网络中的目标节点类型及目标节点位置;
基于Meta-Path根据所述目标节点类型及目标节点位置进行随机游走;
根据异构信息网络中用户偏好特征对应的资源节点类型之间的关系给定Meta-Path随机游走的路径约束条件;
获取Meta-Path随机游走生成的元路径,通过所述目标节点类过滤所述元路径中其他类型的节点,得到包含目标节点的多条元路径;
计算所述元路径的相似度,并根据所述相似度进行元路径的排序,生成相似度最高的N个元路径;
通过所述相似度最高的N个元路径在搜索空间中生成相似度最高的N个资源项目。
3.根据权利要求1所述的一种基于异构信息网络的科技信息资源检索方法,其特征在于,所述的将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果,具体为:
提取相似度最高的N个资源项目的特征值,通过比较分析生成N个资源项目的特征值偏差率;
比较每个资源项目的特征值偏差率,将所述特征值偏差率小于预设偏差率阈值的资源项目归为同类别资源项目集合,并生成项目集合特征;
将所述项目集合特征与目标用户的偏好特征进行匹配,根据匹配程度进行各类别资源项目集合的排序,生成第一排序结果;
根据各类别资源项目集合中的资源项目的特征值进行排序,生成第二排序结果;
根据所述第一排序结果及所述第二排序结果生成科技信息资源检索结果。
4.根据权利要求1所述的一种基于异构信息网络的科技信息资源检索方法,其特征在于,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据,具体为:
获取科技信息资源检索结果,根据目标用户对科技信息资源检索结果的交互记录生成交互反馈数据;
通过所述交互反馈数据对含有用户偏好的交互数据进行更新,并通过所述用户偏好模型生成更新后偏好特征;
根据所述更新后偏好特征及检索对象进行二次检索,重新生成科技信息资源检索列表。
5.根据权利要求1所述的一种基于异构信息网络的科技信息资源检索方法,其特征在于,还包括:
计算科技信息资源检索结果中结果序列的精度及召回率,通过结果序列中每个位置的精度及召回率生成精度-召回率曲线;
根据所述精度-召回率曲线获取科技信息资源检索结果中的平均精度信息,判断所述平均精度信息是否处于预设精度范围内;
若不处于,则生成修正信息,根据所述修正信息对用户偏好模型及科技信息资源检索结果进行修正;
所述平均精度信息的计算公式具体为:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
表示平均精度信息,
Figure DEST_PATH_IMAGE006
表示科技信息资源检索结果总数,
Figure DEST_PATH_IMAGE008
表示检索结果中的排名信息,
Figure DEST_PATH_IMAGE010
表示科技信息资源检索结果中第
Figure 711326DEST_PATH_IMAGE008
个的精度,
Figure DEST_PATH_IMAGE012
表示科技信息资源检索结果中第
Figure 428747DEST_PATH_IMAGE008
个的召回率,
Figure DEST_PATH_IMAGE014
表示科技信息资源检索结果中第
Figure DEST_PATH_IMAGE016
个的召回率。
6.一种基于异构信息网络的科技信息资源检索系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种基于异构信息网络的科技信息资源检索方法程序,所述一种基于异构信息网络的科技信息资源检索方法程序被所述处理器执行时实现如下步骤:
获取目标用户在学术资源网站的用户交互数据,将所述用户交互数据进行预处理,基于用户交互数据构建异构信息网络;
构建用户偏好模型,根据预处理后的用户交互数据对所述用户偏好模型进行训练生成目标用户的偏好特征;
将检索对象进行关键词分词,确定关键词在异构信息网络中对应的目标节点,通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目;
将相似度最高的N个资源项目与所述偏好特征进行匹配,按照匹配度进行排序,生成科技信息资源检索结果;
根据目标用户与科技信息资源检索结果的交互记录及检索行为生成交互反馈数据,根据目标用户的实时交互反馈数据更新含有目标用户偏好的交互数据;
所述的生成目标用户的偏好特征,具体为:
根据目标用户的学术资源网站访问行为获取目标用户的用户交互数据,将所述用户交互数据进行一致性表达;
通过所述用户交互数据中优选含有目标用户偏好的交互数据,通过含有目标用户偏好的交互数据提取语义特征及类别特征;
建立用户偏好模型,通过所述语义特征及类别特征对所述用户偏好模型进行训练,通过训练后的用户偏好模型生成目标用户的偏好特征;
并将所述偏好特征在所述异构信息网络中进行表示,得到异构信息网络中偏好特征对应的资源节点类型及资源节点类型之间的关系。
7.根据权利要求6所述的一种基于异构信息网络的科技信息资源检索系统,其特征在于,所述的通过计算元路径的相似度在搜索空间中生成相似度最高的N个资源项目,具体为:
将检索对象进行关键词分词,根据所述关键词确定异构信息网络中的目标节点类型及目标节点位置;
基于Meta-Path根据所述目标节点类型及目标节点位置进行随机游走;
根据异构信息网络中用户偏好特征对应的资源节点类型之间的关系给定Meta-Path随机游走的路径约束条件;
获取Meta-Path随机游走生成的元路径,通过所述目标节点类过滤所述元路径中其他类型的节点,得到包含目标节点的多条元路径;
计算所述元路径的相似度,并根据所述相似度进行元路径的排序,生成相似度最高的N个元路径;
通过所述相似度最高的N个元路径在搜索空间中生成相似度最高的N个资源项目。
8.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质中包括一种基于异构信息网络的科技信息资源检索方法程序,所述一种基于异构信息网络的科技信息资源检索方法程序被处理器执行时,实现如权利要求1至5中任一项所述的一种基于异构信息网络的科技信息资源检索方法的步骤。
CN202210201321.2A 2022-03-03 2022-03-03 一种基于异构信息网络的科技信息资源检索方法及系统 Active CN114282119B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210201321.2A CN114282119B (zh) 2022-03-03 2022-03-03 一种基于异构信息网络的科技信息资源检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210201321.2A CN114282119B (zh) 2022-03-03 2022-03-03 一种基于异构信息网络的科技信息资源检索方法及系统

Publications (2)

Publication Number Publication Date
CN114282119A CN114282119A (zh) 2022-04-05
CN114282119B true CN114282119B (zh) 2022-05-24

Family

ID=80882137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210201321.2A Active CN114282119B (zh) 2022-03-03 2022-03-03 一种基于异构信息网络的科技信息资源检索方法及系统

Country Status (1)

Country Link
CN (1) CN114282119B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116719954B (zh) * 2023-08-04 2023-10-17 中国人民解放军海军潜艇学院 一种信息检索方法、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951441A (zh) * 2014-03-24 2015-09-30 阿里巴巴集团控股有限公司 一种对对象进行排序的方法及装置
CN111708922A (zh) * 2020-06-19 2020-09-25 北京百度网讯科技有限公司 用于表示异构图节点的模型生成方法及装置
CN113190754B (zh) * 2021-05-11 2022-05-10 四川大学 一种基于异构信息网络表示学习的推荐方法

Also Published As

Publication number Publication date
CN114282119A (zh) 2022-04-05

Similar Documents

Publication Publication Date Title
CN109359244B (zh) 一种个性化信息推荐方法和装置
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN112487199B (zh) 一种基于用户购买行为的用户特征预测方法
US20150032753A1 (en) System and method for pushing and distributing promotion content
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN111310011A (zh) 一种信息推送方法、装置、电子设备及存储介质
CN113268667B (zh) 一种基于中文评论情感引导的序列推荐方法及系统
CN108446333B (zh) 一种大数据文本挖掘处理系统及其方法
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN110083766B (zh) 一种基于元路径引导嵌入的查询推荐方法及装置
CN114223012A (zh) 推送对象确定方法、装置、终端设备及存储介质
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN112989053A (zh) 一种期刊推荐方法及装置
CN112288510A (zh) 物品推荐方法、装置、设备及存储介质
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
CN114491277A (zh) 基于数据清洗的知识标签赋予与应用方法
CN114022233A (zh) 一种新型的商品推荐方法
CN113763084A (zh) 产品推荐的处理方法、装置、设备及存储介质
CN111611491A (zh) 搜索词推荐方法、装置、设备及可读存储介质
CN109977301A (zh) 一种用户使用习惯挖掘方法
CN117648444B (zh) 基于图卷积属性聚合的专利聚类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant