CN115982357A - 资源推荐方法、装置以及存储介质 - Google Patents

资源推荐方法、装置以及存储介质 Download PDF

Info

Publication number
CN115982357A
CN115982357A CN202211723980.9A CN202211723980A CN115982357A CN 115982357 A CN115982357 A CN 115982357A CN 202211723980 A CN202211723980 A CN 202211723980A CN 115982357 A CN115982357 A CN 115982357A
Authority
CN
China
Prior art keywords
resource
word
vectors
vector
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211723980.9A
Other languages
English (en)
Inventor
赖培源
周宇轩
廖晓东
廖德章
王增辉
李奎
李岱素
邱姗姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong South China Technology Transfer Center Co ltd
Original Assignee
Guangdong South China Technology Transfer Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong South China Technology Transfer Center Co ltd filed Critical Guangdong South China Technology Transfer Center Co ltd
Priority to CN202211723980.9A priority Critical patent/CN115982357A/zh
Publication of CN115982357A publication Critical patent/CN115982357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种资源推荐方法、装置以及存储介质,涉及计算机技术领域,其中的方法包括:对词向量进行向量聚类处理,对与资源相对应的词向量组进行聚合处理,采用语义聚类以及向量融合的方式生成资源特征向量,构建知识图谱并通过注意力机制训练获得各个资源特征向量在知识图谱中的传播偏好,并基于各类资源分别与用户类型的交互关系进行训练学习,对多个预测模型进行训练;使用知识图谱和/或训练好的预测模型进行资源推荐处理。本公开能够充分利用资源实体的信息和交互信息进行融合推荐,并采用多任务模式解决数据稀疏性问题;可以实现资源的精准匹配推荐,解决了实体的异构多类型问题,提高了推荐结果的准确性,提高用户的使用体验。

Description

资源推荐方法、装置以及存储介质
技术领域
本公开涉及计算机技术领域,尤其涉及一种资源推荐方法、装置以及存储介质。
背景技术
在技术转移平台中集聚了科技成果、科研人才、学术论文、发明专利、科技服务、技术经纪人、技术需求等资源,资源类型多且数量庞大。技术转移平台需要对用户提供精准的资源推荐,能够对海量信息进行筛选、过滤,将用户最关注最感兴趣的信息展现在用户面前,对用户提供具有良好用户体验的互联网平台,提升用户工作的效率,节省用户筛选信息的时间。现有的技术转移平台使用的推荐模型通常基于内容或协同过滤,部分通过知识图谱等技术进行路径推荐或者权重推荐,缺少针对复杂资源场景的推荐模型,并且具有用户的交互数据稀疏、推荐结果不准确等问题。因此,需要新的关于资源推荐的技术方案。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种资源推荐方法、装置以及存储介质。
根据本公开实施例的第一方面,提供一种资源推荐方法,包括:生成资源的数字表征信息;其中,所述数字表征信息包括:资源ID、资源类型和词向量;对所述词向量进行向量聚类处理,获得与所述资源相对应的词向量组;对与所述资源相对应的词向量组进行聚合处理,生成与所述资源相对应的资源特征向量;确定用户实体与所述资源之间的关系信息,基于所述用户实体、所述资源的资源特征向量和所述关系信息构建知识图谱;在所述知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重;根据用户的交互行为类型并基于所述资源特征向量,生成多个交互行为数据集,并基于所述多个交互行为数据集生成多个训练样本,对多个预测模型进行训练;使用所述知识图谱和/或训练好的预测模型进行资源推荐处理。
可选地,所述生成资源的数字表征信息包括:对所述资源的描述文本进行分词处理,获得多个分词;生成与各个分词相对应的词向量;基于所述资源ID、所述资源类型、所述词向量生成所述数字表征信息。
可选地,所述对所述词向量进行向量聚类处理,获得与所述资源相对应的词向量组包括:在全部词向量中获取词向量集合;其中,所述词向量集合中的词向量数量等于预设的向量数量;对所述词向量集合进行分组处理,获得多个词向量子集合;其中,所述词向量子集合的总数量等于预设的分组数量;对于所述词向量子集合中的全部词向量进行语义相似度聚类处理,从所述全部词向量中获得多个聚类词向量,并基于此多个聚类词向量生成所述词向量组;其中,此多个聚类词向量的数量等于预设的每个词向量组中的聚类向量数量。
可选地,所述对于所述词向量子集合中的全部词向量进行语义相似度聚类处理,从所述全部词向量中获得多个聚类词向量包括:计算所述全部词向量中的任意两个词向量之间的第一余弦相似度;基于与至少一个最大第一余弦相似度对应的两个词向量,获得多个聚类词向量。
可选地,所述对与所述资源相对应的词向量组进行聚合处理,生成与所述资源相对应的资源特征向量包括:对于各个词向量组中的聚类词向量进行降维处理,使得各个词向量组中的聚类词向量的维度都相同;对各个词向量组中的全部聚类词向量进行求和运算,生成所述资源特征向量。
可选地,所述在所述知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重包括:计算所述资源特征向量之间的第二余弦相似度;获得与大于相似度阈值的第二余弦相似度对应两个资源特征向量,在此两个资源特征向量之间建立关联关系;通过注意力机制确定所述资源特征向量之间的传播偏好系数;基于所述传播偏好系数构建资源特征向量之间的路径权重。
可选地,所述资源包括:科技成果、学术论文、发明专利、科研人才、以及科技企业、技术需求中的至少一项;所述交互行为数据集包括:所述资源特征向量、所述用户实体以及所述资源特征向量和所述用户实体之间的交互关系;所述预测模型包括:CTR预估模型。
根据本公开实施例的第二方面,提供一种资源推荐装置,包括:资源表征模块,用于生成资源的数字表征信息;其中,所述数字表征信息包括:资源ID、资源类型和词向量;聚类处理模块,用于对所述词向量进行向量聚类处理,获得与所述资源相对应的词向量组;聚合处理模块,用于对与所述资源相对应的词向量组进行聚合处理,生成与所述资源相对应的资源特征向量;图谱构建模块,用于确定用户实体与所述资源之间的关系信息,基于所述用户实体、所述资源的资源特征向量和所述关系信息构建知识图谱;权重确定模块,用于在所述知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重;模型训练模块,用于根据用户的交互行为类型并基于所述资源特征向量,生成多个交互行为数据集,并基于所述多个交互行为数据集生成多个训练样本,对多个预测模型进行训练;推荐处理模块,用于使用所述知识图谱和/或训练好的预测模型进行资源推荐处理。
根据本公开实施例的第三方面,提供一种资源推荐装置,包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述的方法。
基于本公开上述实施例提供的资源推荐方法、装置以及存储介质,通过对资源进行数字化表征并采用语义聚类以及向量融合的方式生成资源特征向量,构建知识图谱并通过注意力机制训练获得各个资源特征向量在知识图谱中的传播偏好,并基于各类资源分别与用户类型的交互关系进行训练学习,对多个预测模型进行训练;能够充分利用资源实体的信息和交互信息进行融合推荐,并采用多任务模式解决数据稀疏性问题;可以实现资源的精准匹配推荐,解决了实体的异构多类型问题,提高了推荐结果的准确性,提高用户的使用体验。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征以及优势将变得更加明显。附图用来提供对本公开实施例的进一步的理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为本公开的资源推荐方法的一个实施例的流程示意图;
图2为本公开的资源推荐方法的一个实施例中的生成资源的数字表征信息的示意图;
图3为本公开的资源推荐方法的一个实施例中的进行向量聚类处理的流程示意图;
图4为本公开的资源推荐方法的一个实施例中的进行融合的示意图;
图5为本公开的资源推荐方法的一个实施例中的生成资源特征向量的流程示意图;
图6为本公开的资源推荐方法的一个实施例中的构建传播偏好的流程示意图;
图7为本公开的资源推荐方法的一个实施例中的训练资源实体的传播偏好的示意图;
图8为本公开的资源推荐方法的一个实施例中的多任务训练模型的示意图;
图9为本公开的资源推荐装置的一个实施例的模块示意图;
图10为本公开的资源推荐装置的另一个实施例的示意图。
具体实施方式
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。
示例性方法
随着互联网尤其是移动互联网的高速发展,现在需要面对海量的信息数据,如何从纷繁芜杂的数据中快速获取用户想要的信息,是各个信息平台正在通过各种AI和大数据技术努力解决的问题。对信息的筛选和过滤成为衡量一个互联网平台用户体验好坏的重要指标,技术转移平台需要对用户提供精准的资源推荐。现有的技术转移平台所使用的推荐模型通常基于内容或协同过滤,部分通过知识图谱等技术进行路径推荐或者权重推荐,缺少针对复杂资源场景的推荐模型,并且具有用户的交互数据稀疏、推荐结果不准确等问题;并且,技术转移平台既要将科技资源推荐给企业,也要把需求推荐给成果所有方,实现异构双向推荐。
图1为本公开的资源推荐方法的一个实施例的流程示意图,如图1所示的方法包括步骤:S101-S107。下面对各步骤分别进行说明。
S101,生成资源的数字表征信息;其中,数字表征信息包括资源ID、资源类型和词向量等信息。
在一个实施例中,资源包括科技成果、学术论文、发明专利、科研人才、以及科技企业、技术需求等中的至少一项。可以使用多种方法生成资源的数字表征信息,例如,对资源的描述文本进行分词处理,获得多个分词;生成与各个分词相对应的词向量;基于资源ID、资源类型、词向量生成数字表征信息。
S102,对词向量进行向量聚类处理,获得与资源相对应的词向量组。
S103,对与资源相对应的词向量组进行聚合处理,生成与资源相对应的资源特征向量。
S104,确定用户实体与资源之间的关系信息,基于用户实体、资源的资源特征向量和关系信息构建知识图谱。
S105,在知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重。
S106,根据用户的交互行为类型并基于资源特征向量,生成多个交互行为数据集,并基于多个交互行为数据集生成多个训练样本,对多个预测模型进行训练。
S107,使用知识图谱和/或训练好的预测模型进行资源推荐处理。
在一个实施例中,建立各类资源实体,资源包括科技成果、学术论文、发明专利、科研人才、以及科技企业、技术需求等。基于资源的描述文本进行提取,生成资源的数字表征信息为[ID,Type,Vectors],即[资源ID,资源类型,词向量]。如图2所示,将资源描述文本进行分词,并基于分词生成词向量。将资源的文本描述进行词划分,划分的结果为[W1,W2,…,Wi…,Wn],其中,Wi表示第i个划分的词,n为划分的最大词的个数,n可以根据平台资源特征设定。例如,如果资源的描述文本超过500字,则将n设置为80;如果资源的描述文本在200字到500字之间,则将n设为30等。
可以使用多种方法对词向量进行向量聚类处理。图3为本公开的资源推荐方法的一个实施例中的进行向量聚类处理的流程示意图,如图3所示的方法包括步骤:S301-S303。下面对各步骤分别进行说明。
S301,在全部词向量中获取词向量集合;其中,词向量集合中的词向量数量等于预设的向量数量。
S302,对词向量集合进行分组处理,获得多个词向量子集合;其中,词向量子集合的总数量等于预设的分组数量。
S303,对于词向量子集合中的全部词向量进行语义相似度聚类处理,从全部词向量中获得多个聚类词向量,并基于此多个聚类词向量生成词向量组;其中,此多个聚类词向量的数量等于预设的每个词向量组中的聚类向量数量。
例如,计算全部词向量中的任意两个词向量之间的第一余弦相似度,基于与一个或多个最大第一余弦相似度对应的两个词向量,获得多个聚类词向量。
在一个实施例中,如图4所示,一个资源的聚类词向量个数l=k×m,其中,k,m为非零整数,m为预设的分组数量,k为每个词向量组中的聚类向量数量。通过语义相似度分析进行向量聚类,得到一个资源的聚类词向量集合E={e[1],e[2],…e[i]…,e[l]}。
在一个资源的全部词向量中获取词向量集合,词向量集合中的词向量数量等于预设的向量数量n,将此n个词向量划分为m个词向量子集合,m必须为n的约数(即可被整除)。在每个词向量子集合内选择语义向量最接近的k个词向量,作为进行融合向量的聚类词向量。
例如,资源为一个科技成果,此科技成果为“基于大数据的信息科技智库政策云平台研发与应用”,此科技成果的描述信息为“该成果利用计算、存储、网络、安全、功能软件等资源,研究基于分布式存储和融合框架的政策云平台建设关键技术,构建了涵盖基本政策汇编服务应用、用户关注热点、科技政策自动抓取、科技政策大数据库、云管理技术、专题知识库等功能应用架构,开发出基于大数据的信息科技智库政策云平台。成果可为管理部门对科技政策的汇编管理、政策制定和加速企业技术提升及科技成果转化等提供支撑,具有数据资源丰富、功能齐全、应用面广等特点。项目申请发明专利7件,登记软件著作权6项,具有自主知识产权”。
通过结巴工具等现有工具对上述的描述文本进行分词处理,获得多个分词,多个分词为[计算;存储;网络;安全;功能;软件;资源;…]等特征词汇,共有88个,生成与各个分词相对应的词向量。设n=60、m=6、k=2,从获得的所有88个词向量中随机取其中的60个,作为词向量集合。对词向量集合进行分组处理,将词向量集合中的60个词分为6个词向量子集合,每个词向量子集合中包含有10个词向量。在每个词向量子集合中通过语义聚类,对于每个词向量子集合中的全部词向量进行语义相似度聚类处理,从全部词向量中获得2个聚类词向量,基于此2个聚类词向量生成词向量组。
如图4所示,对词向量集合进行分组处理按照抽样方法进行,即取第0个,第(0+m)个,第(0+2m)个,第(0+3m)个,第(0+4m)个…直至第54个,按照序号次序抽取。对词向量集合内的词向量进行语义相似度聚类处理,通过词向量的余弦相似度进行比较,通过两两计算余弦相似度,选取相似度最大的一组词对作为改组的特征向量,即聚类词向量。例如,对于上述的科技成果资源,假设第一个词向量子集合(抽样分组)为{计算;资源;云平台;关注;大数据;汇编;加速;数据;应用;发明专利},两两计算词向量之间的余弦相似度,通过余弦相似度计算,获得多个聚类词向量为{大数据;数据},即{大数据;数据}之间的余弦相似度为最大;基于{大数据;数据}生成词向量组,即生成资源的特征向量序列。
对与资源相对应的词向量组进行聚合处理可以使用多种方法。图5为本公开的资源推荐方法的一个实施例中的生成资源特征向量的流程示意图,如图5所示的方法包括步骤:S501-S502。下面对各步骤分别进行说明。
S501,对于各个词向量组中的聚类词向量进行降维处理,使得各个词向量组中的聚类词向量的维度都相同。
S502,对各个词向量组中的全部聚类词向量进行求和运算,生成资源特征向量。
在一个实施例中,每个资源实体都有多个词向量组,每个词向量组中都有两个或多个聚类词向量。可以通过现有的白化法(whitening method)等方法,对各个词向量组中的聚类词向量进行降维处理,将全部聚类词向量的维度统一为q,q为非零整数,通常可以取128,256,512和768等。考虑训练服务器的性能,性能越好则取的维度数q越大,得到的特征信息也越丰富,对一个资源实体的各个词向量组中的全部聚类词向量进行求和运算,采用向量求和进行融合,生成此资源实体的资源特征向量,资源特征向量为代表资源特征的融合向量。
例如,一个资源实体的全部词向量组中的聚类词向量的数量为l个,对l个聚类词向量进行求和运算,生成此资源实体的资源特征向量。资源特征向量的维度数为q,资源特征向量为O={O[1],O[2],…O[s],…,O[q]},其中,O[s]=∑[esi]i=0,1,2,…,l;O[s]表示资源特征向量(融合向量)O的第s个元素,esi为第i个聚类词向量的第s个元素,即将E[i]中的第s个元素取出来进行和运算。E[i]=[e0i,e1i,..epi,…eli],i表示第i个词向量(聚类词向量),将全部聚类词向量E[i]进行逐位对应求和。通过将全部聚类词向量进行逐位求和,融合为资源特征向量,可以为多任务训练提供底层共享特征向量数据。
可以使用多种方法在知识图谱中确定资源特征向量之间的关联关系并构建资源特征向量之间的路径权重。图6为本公开的资源推荐方法的一个实施例中的构建传播偏好的流程示意图,如图6所示的方法包括步骤:S601-S604。下面对各步骤分别进行说明。
S601,计算资源特征向量之间的第二余弦相似度。
S602,获得与大于相似度阈值的第二余弦相似度对应两个资源特征向量,在此两个资源特征向量之间建立关联关系。
S603,通过注意力机制确定资源特征向量之间的传播偏好系数。
S604,基于传播偏好系数构建资源特征向量之间的路径权重。
在一个实施例中,基于用户、资源实体、用户与资源的关系,以及资源与资源的关系,建立实体之间的知识图谱。用户实体包括企业、非企业用户、技术人员等实体,用户实体与资源之间的关系信息包括发布、收藏、浏览、成交等信息。将用户实体与其发布的、收藏的、浏览的、成交等发生关系的各类资源进行知识图谱构建,其构建的知识图谱的三元组关系为:[用户实体;关系(发布、收藏、浏览、成交等);资源特征向量]。
资源特征向量之间的关系可以根据资源特征向量(融合向量)之间的相似度进行构建;设定相似度阈值,例如相似度阈值在0.8-0.9之间。在知识图谱构建中,当资源特征向量之间的相似度(例如为余弦相似度等)超过阈值,则建立相似关联关系,当相似度未超过阈值,则认为不相关,不建立关联关系。相似度阈值的设置通常根据系统的计算能力和数据规模确定,规模越小相似度阈值可以设得越高。同时在模型的训练实验中,还需要考虑资源特征向量(融合向量)的性能,可进行阈值调参。
注意力机制可以看成是组合函数,通过计算注意力的概率分布,突出某个关键输入对输出的影响,可以使用现有的注意力机制训练资源实体的传播偏好。以各类科技资源实体作为指导,使用现有的注意力机制训练方法获得各个资源特征向量在知识图谱上的传播偏好。如图7所示,假设基于上述方法获得与资源实体(资源特征向量)ei建立关联的实体(资源特征向量)包括{R1,R2,…,Rj,…,Rm},即在知识图谱中,资源特征向量ei与实体{R1,R2,…,Rj,…,Rm}之间具有关联关系。使用现有的注意力机制模型训练获得传播偏好,将资源实体(资源特征向量)ei作为输入,另一个资源实体(资源特征向量)Rj作为特征向量q,注意力打分函数使用点积模型,则资源实体ei和资源实体Rj之间传播偏好系数pi,j为:
Figure BDA0004028999050000101
通过注意力机制获得资源特征向量之间的传播偏好,将偏好系数输入到知识图谱中构建路径权重,为后续基于路径的推荐算法提供基础数据。
在一个实施例中,根据资源类型及交互数据进行多任务训练,获得预测模型(推荐模型)的参数。根据用户的交互行为类型并基于资源特征向量,生成多个交互行为数据集,交互行为数据集包括资源特征向量、用户实体以及资源特征向量和用户实体之间的交互关系。用户的交互行为类型包括企业用户浏览、非企业用户浏览、企业用户成交、非企业用户成交等。
例如,根据用户的交互行为类型进行数据归类,将企业用户浏览成果、专利、论文等资源实体的浏览记录数据列为数据集1,生成交互行为数据集1;将非企业用户浏览企业需求、企业产品等企业信息的浏览记录列为数据集2,生成交互行为数据集2;将企业用户在平台成交的成果、专利等订单数据列为数据集3,生成交互行为数据集3;将非企业用户在平台成交的企业需求、科研设备等订单列为数据集4,生成交互行为数据集4等;还可以根据实际发生的其他交互信息归集新的数据集。
如图8所示,由于用户在关注成果的同时,也很可能会关注具有相似技术特征的其他资源,例如专利、学术论文等,因此,采用多任务训练来加强用户与资源之间的匹配特征。通过共享底层资源、用户的特征向量数据,基于交互数据进行训练。例如,可以采用CTR(Click-Through-Rate)预估模型作为预测模型,通过训练调参获得合适的参数模型。可以使用现有的训练样本生成方法基于多个交互行为数据集生成多个训练样本,并对多个预测模型进行训练,每个预测模型可以为现有的CTR预估模型等,使用CTR预估模型进行多任务训练,共享训练模型参数,获得多任务推荐模型。
可以使用知识图谱和训练好的多个预测模型中的至少一个进行资源推荐处理。例如,在知识图谱中使用现有的推荐路径算法,获得与资源特征向量(需求资源等)相匹配的推荐用户,即将需求资源等推荐给用户,或者获得与用户相匹配的资源特征向量,即向用户推荐资源。基于训练好的多个预测模型,使用现有的模型使用方法通过多个预测模型输出与资源特征向量相对应的推荐用户,即将需求资源等推荐给用户,或者输出与用户相对应资源特征向量,即向用户推荐资源。
上述实施例中的资源推荐方法,通过对资源进行数字化表征并采用语义聚类以及向量融合的方式生成资源特征向量,构建知识图谱并通过注意力机制训练获得各个资源特征向量在知识图谱中的传播偏好,并基于各类资源分别与用户类型的交互关系进行训练学习,对多个预测模型进行训练;能够充分利用资源实体的信息和交互信息进行融合推荐,并采用多任务模式解决数据稀疏性问题;可以实现资源的精准匹配推荐,解决了实体的异构多类型问题,提高了推荐结果的准确性,提高用户的使用体验。
示例性装置
在一个实施例中,如图9所示,本公开提供一种资源推荐装置,包括:资源表征模块91、聚类处理模块92、聚合处理模块93、图谱构建模块94、权重确定模块95、模型训练模块96和推荐处理模块97。资源表征模块91生成资源的数字表征信息,数字表征信息包括资源ID、资源类型和词向量等。聚类处理模块92对词向量进行向量聚类处理,获得与资源相对应的词向量组。聚合处理模块93对与资源相对应的词向量组进行聚合处理,生成与资源相对应的资源特征向量。
图谱构建模块94确定用户实体与资源之间的关系信息,基于用户实体、资源的资源特征向量和关系信息构建知识图谱。权重确定模块95在知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重。模型训练模块96根据用户的交互行为类型并基于资源特征向量,生成多个交互行为数据集,并基于多个交互行为数据集生成多个训练样本,对多个预测模型进行训练。推荐处理模块97使用知识图谱和/或训练好的预测模型进行资源推荐处理。
在一个实施例中,资源表征模块91对资源的描述文本进行分词处理,获得多个分词。资源表征模块91生成与各个分词相对应的词向量,基于资源ID、资源类型、词向量生成数字表征信息。聚类处理模块92在全部词向量中获取词向量集合,词向量集合中的词向量数量等于预设的向量数量;聚类处理模块92对词向量集合进行分组处理,获得多个词向量子集合,词向量子集合的总数量等于预设的分组数量;聚类处理模块92对于词向量子集合中的全部词向量进行语义相似度聚类处理,从全部词向量中获得多个聚类词向量,并基于此多个聚类词向量生成词向量组。聚类处理模块92计算全部词向量中的任意两个词向量之间的第一余弦相似度,基于与至少一个最大第一余弦相似度对应的两个词向量,获得多个聚类词向量。
聚合处理模块93对于各个词向量组中的聚类词向量进行降维处理,使得各个词向量组中的聚类词向量的维度都相同;聚合处理模块93对各个词向量组中的全部聚类词向量进行求和运算,生成资源特征向量。
权重确定模块95计算资源特征向量之间的第二余弦相似度,获得与大于相似度阈值的第二余弦相似度对应两个资源特征向量,在此两个资源特征向量之间建立关联关系;权重确定模块95通过注意力机制确定资源特征向量之间的传播偏好系数,基于传播偏好系数构建资源特征向量之间的路径权重。
图10为本公开的资源推荐装置的另一个实施例的示意图,如图10所示,资源推荐装置1001包括一个或多个处理器1011和存储器1012。处理器1011可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制资源推荐装置101中的其他组件以执行期望的功能。
存储器1012可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器1011可以运行程序指令,以实现上文的本公开的各个实施例的资源推荐方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,资源推荐装置1001还可以包括:输入装置1013以及输出装置1014等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备1013还可以包括例如键盘、鼠标等等。该输出装置1014可以向外部输出各种信息。该输出设备1014可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该资源推荐装置1001中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,资源推荐装置1001还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的资源推荐方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的资源推荐方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
上述实施例中的资源推荐方法、装置以及存储介质,通过对资源进行数字化表征并采用语义聚类以及向量融合的方式生成资源特征向量,构建知识图谱并通过注意力机制训练获得各个资源特征向量在知识图谱中的传播偏好,并基于各类资源分别与用户类型的交互关系进行训练学习,对多个预测模型进行训练;能够充分利用资源实体的信息和交互信息进行融合推荐,并采用多任务模式解决数据稀疏性问题;可以实现资源的精准匹配推荐,解决了实体的异构多类型问题,提高了推荐结果的准确性,提高用户的使用体验。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

Claims (10)

1.一种资源推荐方法,包括:
生成资源的数字表征信息;其中,所述数字表征信息包括:资源ID、资源类型和词向量;
对所述词向量进行向量聚类处理,获得与所述资源相对应的词向量组;
对与所述资源相对应的词向量组进行聚合处理,生成与所述资源相对应的资源特征向量;
确定用户实体与所述资源之间的关系信息,基于所述用户实体、所述资源的资源特征向量和所述关系信息构建知识图谱;
在所述知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重;
根据用户的交互行为类型并基于所述资源特征向量,生成多个交互行为数据集,并基于所述多个交互行为数据集生成多个训练样本,对多个预测模型进行训练;
使用所述知识图谱和/或训练好的预测模型进行资源推荐处理。
2.如权利要求1所述的方法,所述生成资源的数字表征信息包括:
对所述资源的描述文本进行分词处理,获得多个分词;
生成与各个分词相对应的词向量;
基于所述资源ID、所述资源类型、所述词向量生成所述数字表征信息。
3.如权利要求2所述的方法,所述对所述词向量进行向量聚类处理,获得与所述资源相对应的词向量组包括:
在全部词向量中获取词向量集合;其中,所述词向量集合中的词向量数量等于预设的向量数量;
对所述词向量集合进行分组处理,获得多个词向量子集合;其中,所述词向量子集合的总数量等于预设的分组数量;
对于所述词向量子集合中的全部词向量进行语义相似度聚类处理,从所述全部词向量中获得多个聚类词向量,并基于此多个聚类词向量生成所述词向量组。
4.如权利要求3所述的方法,所述对于所述词向量子集合中的全部词向量进行语义相似度聚类处理,从所述全部词向量中获得多个聚类词向量包括:
计算所述全部词向量中的任意两个词向量之间的第一余弦相似度;
基于与至少一个最大第一余弦相似度对应的两个词向量,获得多个聚类词向量。
5.如权利要求1所述的方法,所述对与所述资源相对应的词向量组进行聚合处理,生成与所述资源相对应的资源特征向量包括:
对于各个词向量组中的聚类词向量进行降维处理,使得各个词向量组中的聚类词向量的维度都相同;
对各个词向量组中的全部聚类词向量进行求和运算,生成所述资源特征向量。
6.如权利要求1所述的方法,所述在所述知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重包括:
计算所述资源特征向量之间的第二余弦相似度;
获得与大于相似度阈值的第二余弦相似度对应两个资源特征向量,在此两个资源特征向量之间建立关联关系;
通过注意力机制确定所述资源特征向量之间的传播偏好系数;
基于所述传播偏好系数构建资源特征向量之间的路径权重。
7.如权利要求1所述的方法,其中,
所述资源包括:科技成果、学术论文、发明专利、科研人才、以及科技企业、技术需求中的至少一项;
所述交互行为数据集包括:所述资源特征向量、所述用户实体以及所述资源特征向量和所述用户实体之间的交互关系;所述预测模型包括:CTR预估模型。
8.一种资源推荐装置,包括:
资源表征模块,用于生成资源的数字表征信息;其中,所述数字表征信息包括:资源ID、资源类型和词向量;
聚类处理模块,用于对所述词向量进行向量聚类处理,获得与所述资源相对应的词向量组;
聚合处理模块,用于对与所述资源相对应的词向量组进行聚合处理,生成与所述资源相对应的资源特征向量;
图谱构建模块,用于确定用户实体与所述资源之间的关系信息,基于所述用户实体、所述资源的资源特征向量和所述关系信息构建知识图谱;
权重确定模块,用于在所述知识图谱中确定资源特征向量之间的关联关系,构建资源特征向量之间的路径权重;
模型训练模块,用于根据用户的交互行为类型并基于所述资源特征向量,生成多个交互行为数据集,并基于所述多个交互行为数据集生成多个训练样本,对多个预测模型进行训练;
推荐处理模块,用于使用所述知识图谱和/或训练好的预测模型进行资源推荐处理。
9.一种资源推荐装置,包括:
处理器;用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一项所述的方法。
CN202211723980.9A 2022-12-30 2022-12-30 资源推荐方法、装置以及存储介质 Pending CN115982357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211723980.9A CN115982357A (zh) 2022-12-30 2022-12-30 资源推荐方法、装置以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211723980.9A CN115982357A (zh) 2022-12-30 2022-12-30 资源推荐方法、装置以及存储介质

Publications (1)

Publication Number Publication Date
CN115982357A true CN115982357A (zh) 2023-04-18

Family

ID=85959338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211723980.9A Pending CN115982357A (zh) 2022-12-30 2022-12-30 资源推荐方法、装置以及存储介质

Country Status (1)

Country Link
CN (1) CN115982357A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150046A (zh) * 2023-09-12 2023-12-01 广东省华南技术转移中心有限公司 基于上下文语义的任务自动分解方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150046A (zh) * 2023-09-12 2023-12-01 广东省华南技术转移中心有限公司 基于上下文语义的任务自动分解方法和系统
CN117150046B (zh) * 2023-09-12 2024-03-15 广东省华南技术转移中心有限公司 基于上下文语义的任务自动分解方法和系统

Similar Documents

Publication Publication Date Title
US11080304B2 (en) Feature vector profile generation for interviews
US20200050968A1 (en) Interactive interfaces for machine learning model evaluations
EP3161635B1 (en) Machine learning service
US10963810B2 (en) Efficient duplicate detection for machine learning data sets
Liu et al. Incrests: Towards real-time incremental short text summarization on comment streams from social network services
US20140279716A1 (en) Systems and methods for classifying electronic information using advanced active learning techniques
US11966873B2 (en) Data distillery for signal detection
JP2018524672A (ja) 分散コンピューティング・システム上でデータマイニング・タスクを実行するための計算リソースを推定するためのコンピュータ実装方法、コンピュータ・プログラム、およびシステム
US20140219571A1 (en) Time-based sentiment analysis for product and service features
JP7358003B2 (ja) 複数のクエリ解釈に基づくファセットベースのクエリ絞り込み
CN111966886A (zh) 对象推荐方法、对象推荐装置、电子设备及存储介质
CN112070545B (zh) 用于优化信息触达的方法、装置、介质和电子设备
Darwiesh et al. Social media big data analysis: Towards enhancing competitiveness of firms in a post-pandemic world
US20220092262A1 (en) Text classification using models with complementary granularity and accuracy
Mirtalaie et al. Sentiment analysis of specific product’s features using product tree for application in new product development
CN115982357A (zh) 资源推荐方法、装置以及存储介质
CN115809887A (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
Sulova Models for web applications data analysis
Peng et al. An approach of extracting feature requests from app reviews
Ramannavar et al. A proposed contextual model for big data analysis using advanced analytics
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及系统
Rashid Access methods for Big Data: current status and future directions
CN115203570A (zh) 预测模型的训练方法、专家推荐匹配方法、装置以及介质
CN112801226A (zh) 数据筛选方法和装置、计算机可读存储介质、电子设备
Sumathi et al. Sentiment Analysis on Feedback Data of E-commerce Products Based on NLP

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination