CN116108162B - 一种基于语义增强的复杂文本推荐方法及系统 - Google Patents
一种基于语义增强的复杂文本推荐方法及系统 Download PDFInfo
- Publication number
- CN116108162B CN116108162B CN202310197696.0A CN202310197696A CN116108162B CN 116108162 B CN116108162 B CN 116108162B CN 202310197696 A CN202310197696 A CN 202310197696A CN 116108162 B CN116108162 B CN 116108162B
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- resource
- entity
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 252
- 238000012549 training Methods 0.000 claims abstract description 56
- 230000003993 interaction Effects 0.000 claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000012512 characterization method Methods 0.000 claims description 42
- 230000004927 fusion Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 8
- 238000012935 Averaging Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 5
- 230000017105 transposition Effects 0.000 claims description 5
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义增强的复杂文本推荐方法和系统,针对成果转化平台中供给的成果描述文本复杂问题,提出在复杂文本特征提取的基础上,针对中文词汇多样性问题,采用通用词汇文本扩展的方式,对文本特征词进行内容扩展,并使用上下文特征提取算法,融合资源实体的结构信息、扩展的文本信息,以及基于历史交互信息建立实体间的关联信息,基于融合的实体向量,通过推荐算法进行推荐模型训练,实现复杂文本描述场景下的智能推荐。本发明针对复杂文本的推荐构建推荐模型,提高了复杂文本推荐的效率及准确性。
Description
技术领域
本发明涉及计算机人工智能领域,更具体的,涉及一种基于语义增强的复杂文本推荐方法及系统。
背景技术
在传统的推荐系统中,用户通常不会提供详细的用户资料,或者提供不一定完整、甚至不一定真实的用户资料,因此,只能通过“最热门的项目”、“最高的评分”等一些冷启动方式。但是,在一些商业平台中,因为双方均有主动对接的意愿,通常能获得较为丰富、真实的用户资料,通过发布企业的技术需求和悬赏金额,吸引技术专家在线提交解决方案,进而由企业负责选定技术方案并协商签订技术合同,达成在线的技术对接。
在相关商业平台中,技术专家为了能够得到企业的认可,获得更多由平台推荐的技术需求,他们都愿意在平台提交详细的个人资料进行注册认证,包括提交他们的项目成果、发表的论文、获得的技术专利、参与研发的产品等等。企业的技术需求也有详细的文本描述,包括需求的具体内容、技术指标、研究基础等。但专家的信息、企业技术需求信息、科技项目成果信息多数是离散而多语义的,目前的推荐算法模型尚未有针对复杂文本描述场景下的设计。因此针对复杂文本的推荐,如何提供一种基于语义增强的推荐方法是亟不可待需要解决的问题。
发明内容
为了解决上述至少一个技术问题,本发明提出了一种基于语义增强的复杂文本推荐方法及系统。
本发明第一方面提供了一种基于语义增强的复杂文本推荐方法,包括:
通过将复杂文本资源进行特征提取,生成资源实体的结构向量及文本向量,并在提取特征的基础上进行文本扩展的增强语义;
融合资源实体的结构信息、扩展的文本信息生成模型参数,将资源通过三元组进行表示;
采用注意力机制基于历史交互信息生成实体间的关联向量,通过所述关联向量建立实体间的关联信息;
将结构向量、文本向量及关联向量进行融合,基于融合的实体向量,构建复杂文本推荐模型进行模型参数训练,通过训练后的复杂文本推荐模型进行推荐。
本方案中,生成资源实体的结构向量,具体为:
获取文本中的关键词信息,基于所述关键词信息建立实体、关系及属性的三元组;
将三元组中的实体节点及关系进行随机初始化,对于任一三元组(h,r,t),其初始化结构嵌入向量为(eh,s,er,et,s),eh,s为头节点,er为实体间的关系,et,s为尾节点,其中d1和d2为可设定的向量维度数量,为非零整数;
利用TransR模型学习知识图谱结构嵌入表征向量,对节点结构嵌入向量进行特征向量特征映射,其中特征映射的评分函数Fs为:
其中,表示关系空间对应矩阵,为可训练参数,R表示实数集;
将三元组中的头节点及尾节点映射到关系空间进行向量比较,通过训练生成资源实体的结构向量。
本方案中,生成资源实体的文本向量,具体为:
获取文本资源属性的关键词,基于公开文库建立检索空间,根据所述关键词在检索空间中进行数据检索,将相似度符合预设标准的数据进行标记,通过标记的数据进行信息拓展,获取相应的描述文本;
在相应的描述文本中进行数据统计,选用出现频次最多的段落,对于相同频次的选择先出现的段落,进行字数限制,使用Bert训练生成特征词基于上下文的文本向量;
对实体ei的描述性文本Wi进行初始化,Wi=[wi,1,wi,2,…,wi,j],其中表示组成文本Wi的词组,d3为可设定的向量维度数量,为非零整数;
将Bert的输出隐藏状态向量取平均作为实体的文本嵌入向量,获取知识图谱中任一三元组的头节点的文本嵌入表征向量为eh,d,尾节点的文本嵌入表征向量为et,d,其中
对实体的文本嵌入向量进行特征映射,通过对比获取实体的文本向量,其中特征映射的评分函数Fd为:
其中,表示关系空间对应矩阵,为可训练参数。
本方案中,融合资源实体的结构信息、扩展的文本信息生成模型参数,具体为:
在知识图谱嵌入表征学习过程中根据结构向量和文本向量,根据结构向量和文本向量对应评分函数的值判断知识图谱中是否存在对应三元组,对应目标函数g定义为:g(h,r,t)=Fs+Fd;
知识图谱嵌入表征学习的目标函数L定义为:
其中,Γ表示训练集,(h,r,t,t′)表示有效三元组与无效三元组的集合,(h,r,t)表示知识图谱上存在三元组,(h,r,t′)表示知识图谱中不存在三元组,t′表示通过随机替换有效三元组中的一个实体,σ表示模型参数集合;
通过训练后获取模型参数,将实体的结构嵌入向量表征和文本嵌入向量表征拼接作为实体的嵌入向量表征,对知识图谱上的一个三元组(h,r,t),其嵌入向量为:
(eh,er,et)=([eh,s;eh,d],er,[et,s;et,d]);
将所有的资源实体通过三元组进行表示。
本方案中,采用注意力机制基于历史交互信息生成实体间的关联向量,通过所述关联向量建立实体间的关联信息,具体为:
获取文本资源的历史交互信息,定义Xi,Yj表示文本资源i,j的综合表征,
其中,Ei表示资源i的属性融合向量,Ej表示资源j的属性融合向量,Ri表示其他资源与资源i的关系,Rj表示其他资源与资源j的关系,m表示实体的属性总数;
用缩放点积注意力机制计算key和query之间的相似度作为注意力权重,根据注意力权重对资源i,j进行聚合,通过平均池化层得到资源i,j在交互信息上的表征向量fi,fj,作为实体间的关联向量。
本方案中,基于融合的实体向量,构建复杂文本推荐模型进行模型参数训练,具体为:
将实体的结构向量、文本向量及交互信息对应的关联向量进行融合,得到资源i及资源j的综合表征Ci,Cj,Ci=Wc[ei,h,s;ei,h,d;fi],Cj=Wc[ej,h,s;ej,h,d;fj],其中,Wc表示融合参数矩阵,ei,h,s,ej,h,s分别表示资源i及资源j的结构向量,ei,h,d,ej,h,d分别表示资源i及资源j的文本向量;
利用CTR预估模型构建复杂文本推荐模型,对资源i和资源j进行匹配,获取匹配程度r,
所述复杂文本推荐模型的目标函数LCF为:
其中,(i,j+,j-)表示推荐训练集O的正例及负例,(i,j+)表示正例,(i,j-)表示负例,σ表示模型参数集合。
本发明第二方面提供了一种基于语义增强的复杂文本推荐系统,包括如下模块:特征词提取模块、结构向量生成模块、文本向量生成模块、交互向量生成模块、表征向量融合模块、推荐训练模块以及数据更新模块;
所述特征词提取模用于从资源的描述文本中提取关键词;
所述结构向量生成模块用于将资源的关键词以及与关键词的关系构建三元组,通过TransR模型训练得到资源的结构向量,当资源涉及到多个关键词时,负责将多个结构向量进行融合生成资源的融合结构向量;
所述文本向量生成模块用于将关键词在公开数据中进行检索扩展,获得描述文本后,逐段落计算词频并选定词频最大的段落,采用Bert训练获得文本向量,并获取融合文本向量;
交互向量生成模块基于注意力机制将发生交互关系的资源之间进行相关系数的计算,当多个交互关系时可选择交互次数最多的资源,并基于相关系数计算获得资源的关联向量;
表征向量融合模块将结构向量、文本向量、交互向量进行拼接,获得资源的融合表征向量,作为推荐训练模块的输入;
推荐训练模块将各个资源的融合表征向量以及各个资源的交互历史信息,按照预设比例设置训练集、验证集、测试集进行复杂文本推荐模型的训练,获得模型参数;
数据更新模块将更新后的资源以及资源间的交互数据,导入到各个模块进行重新训练,实现模型的持续优化。
本方案中,利用CTR预估模型构建复杂文本推荐模型,对资源i和资源j进行匹配,获取匹配程度r,T表示矩阵转置,Ci,Cj为资源i及资源j的综合表征;
Ci=Wc[ei,h,s;ei,h,d;fi]
Cj=Wc[ej,h,s;ej,h,d;fj]
其中,Wc表示融合参数矩阵,ei,h,s,ej,h,s分别表示资源i及资源j的结构向量,ei,h,d,ej,h,d分别表示资源i及资源j的文本向量,fi,fj表示实体间的关联向量;
所述复杂文本推荐模型的目标函数LCF为:
其中,(i,j+,j-)表示推荐训练集O的正例及负例,(i,j+)表示正例,(i,j-)表示负例,σ表示模型参数集合。
本发明公开了一种基于语义增强的复杂文本推荐方法和系统,针对成果转化平台中供给的成果描述文本复杂问题,提出在复杂文本特征提取的基础上,针对中文词汇多样性问题,采用通用词汇文本扩展的方式,对文本特征词进行内容扩展,并使用上下文特征提取算法,融合资源实体的结构信息、扩展的文本信息,以及基于历史交互信息建立实体间的关联信息,基于融合的实体向量,通过推荐算法进行推荐模型训练,实现复杂文本描述场景下的智能推荐。本发明针对复杂文本的推荐构建推荐模型,提高了复杂文本推荐的效率及准确性。
附图说明
图1示出了本发明一种基于语义增强的复杂文本推荐方法的流程图;
图2示出了本发明生成文本向量的方法流程图;
图3示出了本发明根据资源交互信息生成关联向量的方法流程图;
图4示出了本发明一种基于语义增强的复杂文本推荐系统的框图;
图5示出了本发明一种基于语义增强的复杂文本推荐系统的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于语义增强的复杂文本推荐方法的流程图。
如图1所示,本发明第一方面提供了一种基于语义增强的复杂文本推荐方法,包括:
S102,通过将复杂文本资源进行特征提取,生成资源实体的结构向量及文本向量,并在提取特征的基础上进行文本扩展的增强语义;
S104,融合资源实体的结构信息、扩展的文本信息生成模型参数,将资源通过三元组进行表示;
S106,采用注意力机制基于历史交互信息生成实体间的关联向量,通过所述关联向量建立实体间的关联信息;
S108,将结构向量、文本向量及关联向量进行融合,基于融合的实体向量,构建复杂文本推荐模型进行模型参数训练,通过训练后的复杂文本推荐模型进行推荐。
需要说明的是,通过构建词向量的三元组信息,采用TransR方法,通过训练生成结构向量,首先,获取文本中的关键词信息,基于所述关键词信息建立实体、关系及属性的三元组,即建立[专家,关系,属性词],以及[需求,关系,属性词]的三元组;
将三元组中的实体节点及关系进行随机初始化,对于任一三元组(h,r,t),其初始化结构嵌入向量为(eh,s,er,et,s),eh,s为头节点,er为实体间的关系,et,s为尾节点,其中d1和d2为可设定的向量维度数量,为非零整数;
利用TransR模型学习知识图谱结构嵌入表征向量,假设知识图谱上三元组的头节点的结构嵌入向量加上关系嵌入向量约等于尾节点的结构嵌入向量,即:
eh,s+er≈et,s
知识图谱上节点和关系可能不在同一个嵌入向量空间上,对节点结构嵌入向量进行特征向量特征映射,其中特征映射的评分函数Fs为:
其中,表示关系空间对应矩阵,为可训练参数,R表示实数集;
根据假设可知如果知识图谱上存在三元组,则Fs的值小于预设阈值,否则大于预设阈值,将三元组中的头节点及尾节点映射到关系空间进行向量比较,通过训练生成资源实体的结构向量,在融合模型中,将Fs作为目标函数进行训练,在选定的模型参数中,可以获得可训练参数
图2示出了本发明生成文本向量的方法流程图。
根据本发明实施例,生成资源实体的文本向量,具体为:
S202,获取文本资源属性的关键词,基于公开文库(如百度百科)建立检索空间,根据所述关键词在检索空间中进行数据检索,将相似度符合预设标准的数据进行标记,通过标记的数据进行信息拓展,获取相应的描述文本;
S204,在相应的描述文本中进行数据统计,选用出现频次最多的段落,对于相同频次的选择先出现的段落,进行字数限制,使用Bert训练生成特征词基于上下文的文本向量;
S206,对实体的描述性文本进行初始化,将Bert的输出隐藏状态向量取平均作为实体的文本嵌入向量,对实体的文本嵌入向量进行特征映射,通过对比获取实体的文本向量。
需要说明的是,对实体ei的描述性文本Wi进行初始化,Wi=[wi,1,wi,2,…,wi,j],其中表示组成文本Wi的词组,d3为可设定的向量维度数量,为非零整数;
将Bert的输出隐藏状态向量取平均作为实体的文本嵌入向量,获取知识图谱中任一三元组的头节点的文本嵌入表征向量为eh,d,尾节点的文本嵌入表征向量为et,d,其中假设知识图谱上三元组的头结点文本嵌入向量加上关系嵌入向量约等于尾结点文本嵌入向量:
eh,d+er≈et,d
其中特征映射的评分函数Fd为:
其中,表示关系空间对应矩阵,为可训练参数;
根据假设如果知识图谱上存在三元组,则Fd的值小于预设阈值,否则大于预设阈值。在融合模型中,将Fd作为目标函数的一部分进行训练,在选定的模型参数中,可以获得可训练参数
需要说明的是,在知识图谱嵌入表征学习过程中根据结构向量和文本向量,根据结构向量和文本向量对应评分函数的值判断知识图谱中是否存在对应三元组,对应目标函数g定义为:g(h,r,t)=Fs+Fd,如果知识图谱上存在三元组,则g(h,r,t)的值小于预设阈值,否则g(h,r,t)大于预设阈值。
知识图谱嵌入表征学习的目标函数L定义为:
其中,Γ表示训练集,(h,r,t,t′)表示有效三元组与无效三元组的集合,(h,r,t)表示知识图谱上存在三元组,(h,r,t′)表示知识图谱中不存在三元组,t′表示通过随机替换有效三元组中的一个实体,σ表示模型参数集合;
通过训练后获取模型参数,将实体的结构嵌入向量表征和文本嵌入向量表征拼接作为实体的嵌入向量表征,对知识图谱上的一个三元组(h,r,t),其嵌入向量为:
(eh,er,et)=([eh,s;eh,d],er,[et,s;et,d]);
将所有的资源实体,包括人才、成果、企业需求、发明专利等,都用三元组表示,三元组中融合结构向量和文本向量信息。
图3示出了本发明根据交互信息生成关联向量的方法流程图。
根据本发明实施例,采用注意力机制基于历史交互信息生成实体间的关联向量,通过所述关联向量建立实体间的关联信息,具体为:
假设资源i与资源j之间存在交互历史关系,交互行为包括访问、成交、收藏等。
S302,获取文本资源的历史交互信息,根据资源i及资源j的属性融合向量及关系融合向量定义资源的综合表征;
定义Xi,Yj表示文本资源i,j的综合表征,
其中,Ei表示资源i的属性融合向量,由m个ei,t,k拼接组成,ei,t,k表示第i个实体的第k个属性t,Ej表示资源j的属性融合向量,由m个ej,t,k拼接组成,ej,t,k表示第j个实体的第k个属性t,Ri为关系融合向量,表示其他资源与资源i的关系,由m个ei,r,k拼接组成,ei,r,k表示第i个实体与当前实体的第k个属性的关系r,Rj为关系融合向量,表示其他资源与资源j的关系,由m个ej,r,k拼接组成,ej,r,k表示第j个实体与当前实体的第k个属性的关系r;
S304,采用注意力机制生成资源i及资源j之间的注意力权重;
用缩放点积注意力机制计算key和query之间的相似度作为注意力权重Ai,j,具体为:
其中,为可训练参数,/>dk为Kj的维度,T为矩阵转置,Qi为资源i注意力机制的query值,Kj为资源j注意力机制的key值;
S306,通过注意力权重对资源i及资源j进行聚合,并利用平均池化层得到资源i及资源j在交互信息上的表征向量,生成资源实体的关联向量;
根据注意力权重对资源i,j进行聚合,得到资源聚合后的表示Fi,Fj:
Fj=softmax(Ai,j)Vj
其中,Vi,Vj为资源i,j在注意力机制中的value值,为可训练参数,通过平均池化层得到资源i,j在交互信息上的表征向量fi,fj,作为实体间的关联向量,fi=mean pooling(Fi),fj=mean pooling(Fj),其中mean pooling表示池化操作。
需要说明的是,将实体的结构向量、文本向量及交互信息对应的关联向量进行融合,得到资源i及资源j的综合表征Ci,Cj,Ci=Wc[ei,h,s;ei,h,d;fi],Cj=Wc[ej,h,s;ej,h,d;fj],其中,Wc表示融合参数矩阵,ei,h,s,ej,h,s分别表示资源i及资源j的结构向量,ei,g,d,ej,g,d分别表示资源i及资源j的结构向量;
利用CTR预估模型构建复杂文本推荐模型,通过训练目标函数得到参数模型,对资源i和资源j进行匹配,获取匹配程度r,通过匹配程度进行复杂文本的推荐,T表示矩阵转置;
所述复杂文本推荐模型的目标函数LCF为:
其中,(i,j+,j-)表示推荐训练集O的正例及负例,(i,j+)表示正例,(i,j-)表示负例,σ表示模型参数集合。
图4、5示出了本发明一种基于语义增强的复杂文本推荐系统的框图及结构示意图。
本发明第二方面提供了一种基于语义增强的复杂文本推荐系统,包括如下模块:存储器、处理器、特征词提取模块、结构向量生成模块、文本向量生成模块、交互向量生成模块、表征向量融合模块、推荐训练模块以及数据更新模块;
所述存储器中包括一种基于语义增强的复杂文本推荐方法程序,所述处理器执行一种基于深度学习的知识产权个性化推荐方法程序;
所述特征词提取模用于从资源的描述文本中提取关键词;
所述结构向量生成模块用于将资源的关键词以及与关键词的关系构建三元组,通过TransR模型训练得到资源的结构向量,当资源涉及到多个关键词时,负责将多个结构向量进行融合生成资源的融合结构向量;
所述文本向量生成模块用于将关键词在公开数据中进行检索扩展,获得描述文本后,逐段落计算词频并选定词频最大的段落,采用Bert训练获得文本向量,并获取融合文本向量;
交互向量生成模块基于注意力机制将发生交互关系的资源之间进行相关系数的计算,当多个交互关系时可选择交互次数最多的资源,并基于相关系数计算获得资源的关联向量;
表征向量融合模块将结构向量、文本向量、交互向量进行拼接,获得资源的融合表征向量,作为推荐训练模块的输入;
推荐训练模块将各个资源的融合表征向量以及各个资源的交互历史信息,按照预设比例设置训练集、验证集、测试集进行复杂文本推荐模型的训练,获得模型参数;
数据更新模块将更新后的资源以及资源间的交互数据,导入到各个模块进行重新训练,实现模型的持续优化。
需要说明的是,对于复杂文本推荐模型的训练还设置定时训练模块,所述定时训练模块负责定时启动模型的训练更新,可设定固定时间,如每周六凌晨一点。利用CTR预估模型构建复杂文本推荐模型,通过训练目标函数得到模型参数后,对资源i和资源j进行匹配,获取匹配程度r,根据匹配程度进行相关推荐,T表示矩阵转置,Ci,Cj为资源i及资源j的综合表征;
Ci=Wc[ei,h,s;ei,h,d;fi]
Cj=Wc[ej,h,s;ej,h,d;fj]
其中,Wc表示融合参数矩阵,ei,g,s,ej,g,s分别表示资源i及资源j的结构向量,ei,g,d,ej,g,d分别表示资源i及资源j的文本向量,fi,fj表示实体间的关联向量;
所述复杂文本推荐模型的目标函数LCF为:
其中,(i,j+,j-)表示推荐训练集O的正例及负例,(i,j+)表示正例,(i,j-)表示负例,σ表示模型参数集合。
本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种基于语义增强的复杂文本推荐方法程序,所述一种基于语义增强的复杂文本推荐方法程序被处理器执行时,实现如上述任一项所述的一种基于语义增强的复杂文本推荐方法的步骤。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (3)
1.一种基于语义增强的复杂文本推荐方法,其特征在于,包括以下步骤:
通过将复杂文本资源进行特征提取,生成资源实体的结构向量及文本向量,并在提取特征的基础上进行文本扩展的增强语义;
融合资源实体的结构信息、扩展的文本信息生成模型参数,将资源通过三元组进行表示;
采用注意力机制基于历史交互信息生成实体间的关联向量,通过所述关联向量建立实体间的关联信息;
将结构向量、文本向量及关联向量进行融合,基于融合的实体向量,构建复杂文本推荐模型进行模型参数训练,通过训练后的复杂文本推荐模型进行推荐;
生成资源实体的结构向量,具体为:
获取文本中的关键词信息,基于所述关键词信息建立实体、关系及属性的三元组;
将三元组中的实体节点及关系进行随机初始化,对于任一三元组(h,r,t),其初始化结构嵌入向量为(eh,s,er,et,s),eh,s为头节点,er为实体间的关系,et,s为尾节点,其中d1和d2为可设定的向量维度数量,为非零整数;
利用TransR模型学习知识图谱结构嵌入表征向量,对节点结构嵌入向量进行特征向量特征映射,其中特征映射的评分函数Fs为:
其中,表示关系空间对应矩阵,为可训练参数,R表示实数集;
将三元组中的头节点及尾节点映射到关系空间进行向量比较,通过训练生成资源实体的结构向量;
生成资源实体的文本向量,具体为:
获取文本资源属性的关键词,基于公开文库建立检索空间,根据所述关键词在检索空间中进行数据检索,将相似度符合预设标准的数据进行标记,通过标记的数据进行信息拓展,获取相应的描述文本;
在相应的描述文本中进行数据统计,选用出现频次最多的段落,对于相同频次的选择先出现的段落,进行字数限制,使用Bert训练生成特征词基于上下文的文本向量;
对实体ei的描述性文本Wi进行初始化,Wi=[wi,1,wi,2,…,wi,l],其中表示组成文本Wi的词组,d3为可设定的向量维度数量,为非零整数;
将Bert的输出隐藏状态向量取平均作为实体的文本嵌入向量,获取知识图谱中任一三元组的头节点的文本嵌入表征向量为eh,d,尾节点的文本嵌入表征向量为et,d,其中
对实体的文本嵌入向量进行特征映射,通过对比获取实体的文本向量,其中特征映射的评分函数Fd为:
其中,表示关系空间对应矩阵,为可训练参数,R表示实数集;
融合资源实体的结构信息、扩展的文本信息生成模型参数,具体为:
在知识图谱嵌入表征学习过程中根据结构向量和文本向量,根据结构向量和文本向量对应评分函数的值判断知识图谱中是否存在对应三元组,对应目标函数g定义为:g(h,r,t)=Fs+Fd;如果知识图谱上存在三元组,则g(h,r,t)的值小于预设阈值,否则g(h,r,t)大于预设阈值;
知识图谱嵌入表征学习的目标函数L定义为:
其中,Γ表示训练集,(h,r,t,t′)表示有效三元组与无效三元组的集合,(h,r,t)表示知识图谱上存在三元组,(h,r,t′)表示知识图谱中不存在三元组,t′表示通过随机替换有效三元组中的一个实体,σ表示模型参数集合;
通过训练后获取模型参数,将实体的结构嵌入向量表征和文本嵌入向量表征拼接作为实体的嵌入向量表征,对知识图谱上的一个三元组(h,r,t),其嵌入向量为:
(eh,er,et)=([eh,s;eh,d],er,[et,s;et,d]);
将所有的资源实体通过三元组进行表示;
基于融合的实体向量,构建复杂文本推荐模型进行模型参数训练,具体为:
将实体的结构向量、文本向量及交互信息对应的关联向量进行融合,得到资源i及资源j的综合表征Ci,Cj,Ci=Wc[ei,h,s;ei,h,d;fi],Cj=Wc[ej,h,s;ej,h,d;fj],其中,Wc表示融合参数矩阵,ei,h,s,ej,h,s分别表示资源i及资源j的结构向量,ei,h,d,ej,h,d分别表示资源i及资源j的文本向量;
利用CTR预估模型构建复杂文本推荐模型,对资源i和资源j进行匹配,获取匹配程度r,T表示矩阵转置;
所述复杂文本推荐模型的目标函数LCF为:
其中,(i,j+,j-)表示推荐训练集O的正例及负例,(i,j+)表示正例,(i,j-)表示负例,σ表示模型参数集合。
2.根据权利要求1所述的一种基于语义增强的复杂文本推荐方法,其特征在于,采用注意力机制基于历史交互信息生成实体间的关联向量,通过所述关联向量建立实体间的关联信息,具体为:
获取文本资源的历史交互信息,定义Xi,Yj表示文本资源i,j的综合表征,
其中,Ei表示资源i的属性融合向量,Ej表示资源j的属性融合向量,Ri表示其他资源与资源i的关系,Rj表示其他资源与资源j的关系,m表示实体的属性总数;
用缩放点积注意力机制计算键向量key和查询向量query之间的相似度作为注意力权重,根据注意力权重对资源i,j进行聚合,通过平均池化层得到资源i,j在交互信息上的表征向量fi,fj,作为实体间的关联向量。
3.一种基于语义增强的复杂文本推荐系统,其特征在于,包括如下模块:特征词提取模块、结构向量生成模块、文本向量生成模块、交互向量生成模块、表征向量融合模块、推荐训练模块以及数据更新模块;
所述特征词提取模用于从资源的描述文本中提取关键词;
所述结构向量生成模块用于将资源的关键词以及与关键词的关系构建三元组,通过TransR模型训练得到资源的结构向量,当资源涉及到多个关键词时,负责将多个结构向量进行融合生成资源的融合结构向量;
所述文本向量生成模块用于将关键词在公开数据中进行检索扩展,获得描述文本后,逐段落计算词频并选定词频最大的段落,采用Bert训练获得文本向量,并获取融合文本向量;
交互向量生成模块基于注意力机制将发生交互关系的资源之间进行相关系数的计算,当多个交互关系时可选择交互次数最多的资源,并基于相关系数计算获得资源的关联向量;
表征向量融合模块将结构向量、文本向量、交互向量进行拼接,获得资源的融合表征向量,作为推荐训练模块的输入;
推荐训练模块将各个资源的融合表征向量以及各个资源的交互历史信息,按照预设比例设置训练集、验证集、测试集进行复杂文本推荐模型的训练,获得模型参数;
数据更新模块将更新后的资源以及资源间的交互数据,导入到各个模块进行重新训练,实现模型的持续优化;
生成资源实体的结构向量,具体为:
获取文本中的关键词信息,基于所述关键词信息建立实体、关系及属性的三元组;
将三元组中的实体节点及关系进行随机初始化,对于任一三元组(h,r,t),其初始化结构嵌入向量为(eh,s,er,et,s),eh,s为头节点,er为实体间的关系,et,s为尾节点,其中d1和d2为可设定的向量维度数量,为非零整数;
利用TransR模型学习知识图谱结构嵌入表征向量,对节点结构嵌入向量进行特征向量特征映射,其中特征映射的评分函数Fs为:
其中,表示关系空间对应矩阵,为可训练参数,R表示实数集;
将三元组中的头节点及尾节点映射到关系空间进行向量比较,通过训练生成资源实体的结构向量;
生成资源实体的文本向量,具体为:
获取文本资源属性的关键词,基于公开文库建立检索空间,根据所述关键词在检索空间中进行数据检索,将相似度符合预设标准的数据进行标记,通过标记的数据进行信息拓展,获取相应的描述文本;
在相应的描述文本中进行数据统计,选用出现频次最多的段落,对于相同频次的选择先出现的段落,进行字数限制,使用Bert训练生成特征词基于上下文的文本向量;
对实体ei的描述性文本Wi进行初始化,Wi=[wi,1,wi,2,…,wi,l],其中表示组成文本Wi的词组,d3为可设定的向量维度数量,为非零整数;
将Bert的输出隐藏状态向量取平均作为实体的文本嵌入向量,获取知识图谱中任一三元组的头节点的文本嵌入表征向量为eh,d,尾节点的文本嵌入表征向量为et,d,其中
对实体的文本嵌入向量进行特征映射,通过对比获取实体的文本向量,其中特征映射的评分函数Fd为:
其中,表示关系空间对应矩阵,为可训练参数,R表示实数集;
融合资源实体的结构信息、扩展的文本信息生成模型参数,具体为:
在知识图谱嵌入表征学习过程中根据结构向量和文本向量,根据结构向量和文本向量对应评分函数的值判断知识图谱中是否存在对应三元组,对应目标函数g定义为:g(h,r,t)=Fs+Fd;如果知识图谱上存在三元组,则g(h,r,t)的值小于预设阈值,否则g(h,r,t)大于预设阈值;
知识图谱嵌入表征学习的目标函数L定义为:
其中,Γ表示训练集,(h,r,t,t′)表示有效三元组与无效三元组的集合,(h,r,t)表示知识图谱上存在三元组,(h,r,t′)表示知识图谱中不存在三元组,t′表示通过随机替换有效三元组中的一个实体,σ表示模型参数集合;
通过训练后获取模型参数,将实体的结构嵌入向量表征和文本嵌入向量表征拼接作为实体的嵌入向量表征,对知识图谱上的一个三元组(h,r,t),其嵌入向量为:
(eh,er,et)=([eh,s;eh,d],er[et,s;et,d]);
将所有的资源实体通过三元组进行表示;
构建复杂文本推荐模型进行模型参数训练,具体为:
将实体的结构向量、文本向量及交互信息对应的关联向量进行融合,得到资源i及资源j的综合表征Ci,Cj,Ci=Wc[ei,h,s;ei,h,d;fi],Cj=Wc[ej,h,s;ej,h,d;fj],其中,Wc表示融合参数矩阵,ei,h,s,ej,h,s分别表示资源i及资源j的结构向量,ei,h,d,ej,h,d分别表示资源i及资源j的文本向量;
利用CTR预估模型构建复杂文本推荐模型,对资源i和资源j进行匹配,获取匹配程度r,T表示矩阵转置;
所述复杂文本推荐模型的目标函数LCF为:
其中,(i,j+,j-)表示推荐训练集O的正例及负例,(i,j+)表示正例,(i,j-)表示负例,σ表示模型参数集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310197696.0A CN116108162B (zh) | 2023-03-02 | 2023-03-02 | 一种基于语义增强的复杂文本推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310197696.0A CN116108162B (zh) | 2023-03-02 | 2023-03-02 | 一种基于语义增强的复杂文本推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116108162A CN116108162A (zh) | 2023-05-12 |
CN116108162B true CN116108162B (zh) | 2024-03-08 |
Family
ID=86267287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310197696.0A Active CN116108162B (zh) | 2023-03-02 | 2023-03-02 | 一种基于语义增强的复杂文本推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116108162B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118094016A (zh) * | 2024-04-22 | 2024-05-28 | 腾讯科技(深圳)有限公司 | 推荐方法、装置、设备、计算机可读存储介质及程序产品 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113590928A (zh) * | 2021-01-19 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置及计算机可读存储介质 |
CN113761383A (zh) * | 2021-10-13 | 2021-12-07 | 中国人民大学 | 一种基于统一用户行为建模的搜索和推荐融合系统 |
CN113793197A (zh) * | 2021-09-02 | 2021-12-14 | 中电积至(海南)信息技术有限公司 | 一种基于知识图谱语义融合的会话推荐系统 |
CN114491062A (zh) * | 2021-12-30 | 2022-05-13 | 中国科学院计算机网络信息中心 | 一种融合知识图谱和主题模型的短文本分类方法 |
US11354505B1 (en) * | 2021-11-11 | 2022-06-07 | Vivun Inc. | Natural language text processing for automated product gap clustering and display |
WO2022116537A1 (zh) * | 2020-12-04 | 2022-06-09 | 上海帜讯信息技术股份有限公司 | 一种资讯推荐方法、装置、电子设备和存储介质 |
CN114969316A (zh) * | 2021-02-24 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN115344794A (zh) * | 2022-08-19 | 2022-11-15 | 重庆邮电大学 | 一种基于知识图谱语义嵌入的旅游景点推荐方法 |
CN115577095A (zh) * | 2022-12-12 | 2023-01-06 | 南方电网科学研究院有限责任公司 | 一种基于图论的电力标准信息推荐方法 |
CN115640449A (zh) * | 2021-07-20 | 2023-01-24 | 腾讯科技(深圳)有限公司 | 媒体对象推荐方法、装置、计算机设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150286486A1 (en) * | 2014-01-16 | 2015-10-08 | Symmpl, Inc. | System and method of guiding a user in utilizing functions and features of a computer-based device |
CN112148883A (zh) * | 2019-06-29 | 2020-12-29 | 华为技术有限公司 | 一种知识图谱的嵌入表示方法及相关设备 |
CN112307214A (zh) * | 2019-07-26 | 2021-02-02 | 株式会社理光 | 一种基于深度强化学习的推荐方法及推荐装置 |
TWI774117B (zh) * | 2020-11-09 | 2022-08-11 | 財團法人資訊工業策進會 | 知識圖譜建置系統與知識圖譜建置方法 |
-
2023
- 2023-03-02 CN CN202310197696.0A patent/CN116108162B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022116537A1 (zh) * | 2020-12-04 | 2022-06-09 | 上海帜讯信息技术股份有限公司 | 一种资讯推荐方法、装置、电子设备和存储介质 |
CN113590928A (zh) * | 2021-01-19 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置及计算机可读存储介质 |
CN114969316A (zh) * | 2021-02-24 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN115640449A (zh) * | 2021-07-20 | 2023-01-24 | 腾讯科技(深圳)有限公司 | 媒体对象推荐方法、装置、计算机设备和存储介质 |
CN113793197A (zh) * | 2021-09-02 | 2021-12-14 | 中电积至(海南)信息技术有限公司 | 一种基于知识图谱语义融合的会话推荐系统 |
CN113761383A (zh) * | 2021-10-13 | 2021-12-07 | 中国人民大学 | 一种基于统一用户行为建模的搜索和推荐融合系统 |
US11354505B1 (en) * | 2021-11-11 | 2022-06-07 | Vivun Inc. | Natural language text processing for automated product gap clustering and display |
CN114491062A (zh) * | 2021-12-30 | 2022-05-13 | 中国科学院计算机网络信息中心 | 一种融合知识图谱和主题模型的短文本分类方法 |
CN115344794A (zh) * | 2022-08-19 | 2022-11-15 | 重庆邮电大学 | 一种基于知识图谱语义嵌入的旅游景点推荐方法 |
CN115577095A (zh) * | 2022-12-12 | 2023-01-06 | 南方电网科学研究院有限责任公司 | 一种基于图论的电力标准信息推荐方法 |
Non-Patent Citations (2)
Title |
---|
吴婷 ; .融合辅助文本信息的项目冷启动推荐研究.现代计算机(专业版).2018,(第13期),全文. * |
戴青云等.一种基于注意力机制的无监督商标检索方法.广东工业大学学报.2020,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116108162A (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
CN107609389B (zh) | 一种基于图像内容相关性的验证方法及系统 | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN116108162B (zh) | 一种基于语义增强的复杂文本推荐方法及系统 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN113360621A (zh) | 一种基于模态推理图神经网络的场景文本视觉问答方法 | |
CN114896377A (zh) | 一种基于知识图谱的答案获取方法 | |
CN113641797A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN112884150A (zh) | 一种预训练模型知识蒸馏的安全性增强方法 | |
CN115331075A (zh) | 一种多模态场景图知识增强的对抗式多模态预训练方法 | |
WO2023134069A1 (zh) | 实体关系的识别方法、设备及可读存储介质 | |
CN113641811B (zh) | 促进购买行为的会话推荐方法、系统、设备及存储介质 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
CN113761887A (zh) | 基于文本处理的匹配方法、装置、计算机设备和存储介质 | |
CN115879422B (zh) | 一种对话回复生成方法、装置和存储介质 | |
CN116150334A (zh) | 基于UniLM模型和Copy机制的中文共情语句训练方法及系统 | |
CN110502619A (zh) | 一种基于gru神经网络内部注意力机制的答案选择模型 | |
CN114996566A (zh) | 一种面向工业互联网平台的智能推荐系统及方法 | |
CN114282606A (zh) | 对象识别方法、装置、计算机可读存储介质及计算机设备 | |
CN112434174A (zh) | 多媒体信息的发布账号的识别方法、装置、设备及介质 | |
Liu et al. | Collaborative filtering recommender algorithm based on ontology and singular value decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |