CN111914895B - 基于多层注意力机制并融合图谱的水利门户信息推荐方法 - Google Patents

基于多层注意力机制并融合图谱的水利门户信息推荐方法 Download PDF

Info

Publication number
CN111914895B
CN111914895B CN202010601160.7A CN202010601160A CN111914895B CN 111914895 B CN111914895 B CN 111914895B CN 202010601160 A CN202010601160 A CN 202010601160A CN 111914895 B CN111914895 B CN 111914895B
Authority
CN
China
Prior art keywords
water conservancy
information
conservancy information
user
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010601160.7A
Other languages
English (en)
Other versions
CN111914895A (zh
Inventor
张鹏程
高橙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010601160.7A priority Critical patent/CN111914895B/zh
Publication of CN111914895A publication Critical patent/CN111914895A/zh
Application granted granted Critical
Publication of CN111914895B publication Critical patent/CN111914895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于多层注意力机制并融合图谱的水利门户信息推荐方法。针对收集的水利信息数据的特点,利用Doc2vec和聚类丰富特征集;在构建推荐模型时,首先借助soft‑attention形成特征级注意力机制对各特征进行融合,同时构建水利信息图谱,挖掘用户的潜在兴趣后形成每条水利信息的最终表示向量;然后用具有位置编码的self‑attention形成行为级注意力机制产生用户行为的表示向量;再次借助soft‑attention生成用户兴趣的表示向量;最后使用多层感知机计算用户点击水利信息的概率以生成最终的TOP‑N推荐列表。本发明方法能解决从事水利行业的人员无法一站式阅读感兴趣的水利信息的问题,且利用多层注意力机制及图谱能使推荐更加精确,可解释性更强。

Description

基于多层注意力机制并融合图谱的水利门户信息推荐方法
技术领域
本发明涉及水利门户信息推荐方法,尤其是一种基于多层注意力机制并融合图谱的水利门户信息推荐方法。
背景技术
水利门户网站是水利部门进行水利信息整合、发布、为公众提供信息和服务的平台。它面向水利行业和社会,用来报道各种水事动态,传达和贯彻水利部有关文件和重大会议精神。经过水利信息化的不断发展,现如今水利网站繁多,每个流域以及省份乃至区县级别的地区都有其相应的水利网站。但是这些系统之间往往是相互独立的,数据难以整合和共享,严重了干扰水利行业从业人员关注自己感兴趣的水利信息的效率。经调研,如今水利门户网站的发展趋势是能够成为水利信息资源整合、共享的重要组成部分,因此搭建一个可以解决信息化进程中所面临的的各类水利信息孤立问题的平台已是一项迫切的需求。我们旨在建立一种水利信息推荐方法,以便给水利行业从业人员提供一个“一站式”的综合网站。这样,水利行业从业人员无须了解及访问过多地方门户网站就可以获取到感兴趣的水利信息内容推送。
现有的个性化推荐方法多种多样,但还没有应用到水利信息上。就其他领域的个性化推荐而言,传统的推荐方法常使用协同过滤、逻辑回归、因子分解、组合模型等。但相比于深度学习模型,这些传统方法在挖掘数据中隐藏的信息方面稍显逊色,而深度学习构建的模型十分灵活,可以同时融合图像、自然语言处理等领域的成果并迅速演化,现如今主流的推荐系统都已进入深度学习阶段。Wang等人使用知识图谱来丰富新闻实体中的信息同时加强了各个实体之间的联系,然而使用的特征过于单一,这会造成信息损失甚至产生“辛普森悖论”损害推荐系统的性能;Zhou等人提出了深度兴趣模型来预测商品点击率,他们利用注意力机制给各个点击的商品进行加权聚合以区分重要性,然而点击序列通常是时间相关的,模型并没有考虑进各个点击行为之间的依赖性;Wu等人提出一种具有注意力多视角学习的推荐方法,采用三层注意力机制分别对文本、新闻以及用户进行编码,但是对于用户而言,针对已经点击过的新闻是否可以对当前待推荐新闻具备一定的影响力,在这方面存在考虑不足的问题。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明目的在于提供一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,以准确有效地进行水利信息的个性化推荐,方便用户使用,拓宽用户的阅读面。
技术方案:为实现上述发明目的,本发明所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,包括如下步骤:
(1)收集各大水利门户网站中的水利信息数据并进行预处理操作增加区域特征;
(2)使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征向量;
(3)对标题和正文的文本表示向量进行聚类,并用手肘法确定出最终的文本主题类别个数,增加主题特征;
(4)将区域特征、主题特征、发布时间特征通过嵌入操作转换为与标题和正文特征相同维度的向量,形成最终的特征集;
(5)将特征集输入到特征级注意力机制中,对各个特征进行融合后,得到用户浏览过的每条水利信息的初步表示向量;
(6)收集每条水利信息的地区、时间和主题,构建水利信息图谱,并训练出图谱中每个实体的向量,将每条水利信息中的实体及融合图谱扩展后的实体的向量求平均,并与步骤(5)得到的初步表示向量相加得到水利信息的最终表示向量。
(7)将水利信息的最终表示向量输入到具有位置编码的自注意力机制,学习出用户每一个行为的表示向量;
(8)以待推荐水利信息为查询项,用户行为的表示向量为值项,利用注意力机制进行对值项加权求和得到用户的兴趣表示向量;
(9)计算用户的兴趣表示向量与待推荐水利信息的相关性,得到最终给用户进行推荐的列表。
所述步骤(1)获取数据集并进行预处理,目的是为特征集的处理做准备,所述步骤(1)进一步为:
(11)使用爬虫收集各大水利门户网站的水利信息数据,包括发布时间、水利信息标题、水利信息正文字段;
(12)初步处理数据,将数据中存在缺失的,含有异常值的相关数据删除;
(13)根据用户的历史点击水利信息行为序列,选取一个时间点对行为序列进行分割,形成训练集和测试集,时间点之前的行为序列为训练集,之后的为测试集;
(14)基于信息来源或内容为每条水利信息添加区域字段,为特征集增加区域特征。
所述步骤(2)对收集到的数据中的文本内容进行向量化,以得到特征集中的标题特征和正文特征,辅助推荐的效果:
(21)对收集到的水利信息数据中的水利信息标题以及正文进行去除停用词和分词操作;
(22)利用Doc2Vec模型中的PV-DM模型将标题和正文分别表示成向量的形式,作为标题特征和正文特征向量。
所述步骤(3)中,由于用户是否会对一条水利信息进行浏览不仅仅依赖文本的内容,为了解决这一问题,利用Doc2Vec得出的向量对文本进行聚类以得出每条水利信息所属的主题类别,同时辅助手肘法得出最适合的主题类别个数。这样能够丰富推荐系统的特征集,提高推荐系统的性能,所述步骤(3)进一步为:
(31)将收集到的水利信息数据中的每一条水利信息的标题以及正文合并成一条水利信息文本数据;
(32)利用Doc2Vec模型中的PV-DM模型将每条水利信息文本数据表示成向量的形式;
(33)将每条水利信息的文本向量组成矩阵X={x1,x2,x3,...,xn},其中xi(1<i≤n)表示第i条水利信息文本的表示向量,再从矩阵X中随机选取k个对象{c1,c2,c3,...,ck},1<k≤n作为初始聚类中心,其中n表示爬取到的水利信息的总条数;
(34)计算每一个对象到初始聚类中心的欧氏距离,距离计算公式为
Figure BDA0002559010700000041
其中cj表示第j个聚类中心,xit表示第i条文本向量的第t个分量,cjt表示第j个聚类中心的第t个分量,m表示每条文本的表示向量的维度;
(35)再次计算每个类簇中心,计算公式为
Figure BDA0002559010700000042
cl表示第l个聚类中心,sl表示第l个类簇,xi表示第l个类簇中的第i条水利信息的表示向量,|sl|表示第l个类簇中对象的个数;
(36)通过手肘法的核心指标误差平方和SSE确定k值,相关系数的计算公式为
Figure BDA0002559010700000043
式中sl是第l个簇,x是sl中的样本点,dl是类簇sl的质心,取肘部对应的k值作为k-means的类簇个数;
(37)通过手肘法确定聚类个数k后,重复步骤(31)-(35)对水利信息文本向量进行聚类;
(38)记录每条水利信息所属的类簇,为特征集增加主题特征。
所述步骤(4)中,为了将步骤(1)-(3)所得到的水利信息的各个特征输入模型中,同时又考虑到要尽可能降低信息的损失、输入步骤(5)中的特征级注意力机制的向量需要相同的维度这两个方面,因此需要对特征进行进一步的处理,所述步骤(4)进一步为:
(41)对于区域特征和主题特征,看作类别型特征将其进行one-hot编码;
(42)对于发布时间,以月为单位转换为类别型特征,再对其进行one-hot编码;
(43)将区域特征、主题特征、发布时间特征的高维稀疏one-hot编码分别进行嵌入操作,获得与标题及正文特征向量相同维度的向量。
步骤(5)使用特征级的注意力机制融合各个特征后,所得的向量可作为每条水利信息的初步表示向量,它能反应出细粒度的用户偏好。该注意力机制是基于soft-attention的,其键项不等于值项,所述步骤(5)进一步为:
(51)将步骤(4)中得到的区域、主题、发布时间、标题及正文特征向量经过多层感知机(MLP)后输入到tanh激活函数中转换成隐藏表示形式;用来转换的激活函数公式为uit=tanh(Wwhit+bw),其中uit表示第t条水利信息的隐藏表示形式,hit表示第t条水利信息的第i个特征,Ww与bw是MLP的参数;
(52)将得到的隐藏表示形式与上下文向量做点积并用softmax进行归一化,得到每个特征的权重;用来得到权重的公式为
Figure BDA0002559010700000051
其中vw是在训练过程中初始时随机产生的上下文向量,并且在训练过程中进行更新;
(53)根据每个特征的权重进行加权求和,计算出用户浏览过的每条水利信息的初步表示向量,计算公式为
Figure BDA0002559010700000052
其中st表示用户浏览过的第t条水利信息的初步表示向量,M表示水利信息包含的特征总个数。
步骤(6)中,收集每条水利信息相关的所有实体,构建出水利信息图谱后,利用TransR训练出图谱中每个实体的向量,然后再与步骤(5)得到的初步表示向量相加得到水利信息的最终表示向量。该步骤目的是利用图谱增强水利信息之间的关联性,以此来挖掘用户潜在的兴趣,所述步骤(6)进一步为:
(61)以每条水利信息的时间、地区、主题为基础构建图谱,并以txt格式保存,图谱中的实体有地区、事件主题、事件发生时间三大类,关系有四种:描述省市包含的关系、描述市区包含的关系、描述地区包含的事件主题以及描述事件主题的发生时间;
(62)将上述txt文件输入到图谱特征学习模型TransR中进行训练;给定图谱中的所有三元组,利用TransR为图谱中的每个实体及关系学习到其对应的向量表示;
(63)根据每条水利信息,得到图谱中与之对应的三大类实体的表示向量
Figure BDA0002559010700000053
分别为地区、事件发生时间、事件主题。以这三个实体为中心再往外扩展两跳,再引入与
Figure BDA0002559010700000054
距离为2的实体们,分别记为
Figure BDA0002559010700000055
其中I、J、K分别表示满足上述关系的结点集合;最后将这些向量进行求平均值
Figure BDA0002559010700000056
其中m为加入计算的实体总个数;最终得到的et作为用户浏览历史中第t条水利信息的潜在兴趣表示向量;
(64)将步骤(5)所得水利信息的初步表示向量与潜在兴趣的表示向量相加,得到该条水利信息的最终表示向量。
所述步骤(7)中,由于用户每一次浏览水利信息的行为可能取决于很久以前的一次行为,也可能只与最近的几次的行为相关,即每个行为都会与其他行为都有某种程度上的关系。为了计算不同行为在整体行为中处于何种位置以及建模这种行为之间的关联性,所述步骤(7)进一步为:
(71)记用户行为序列个数为r,生成用户历史行为序列中每个行为的位置编码,该位置编码的维度和水利信息的表示向量q的维度一致;
(72)将用户历史行为序列中每个浏览行为的位置编码与相应的水利信息的最终表示向量进行相加;
(73)将相加后的结果输入Transformer模型中的自注意力机制中得到加权后的r个浏览行为的表示向量a1,a2,...,ar
所述步骤(8)用来建模用户在面对不同的待推荐水利信息时的兴趣,其中以待推荐水利信息为查询项,由步骤(7)得到的用户行为的表示向量为键项,利用注意力机制进行对键项加权求和得到用户的兴趣表示向量,所述步骤(8)进一步为:
(81)将用户的行为表示向量a1,a2,...,ar与待推荐水利信息的最终表示向量q相连接;
(82)将连接后的得到的向量送入层数为4的全连接层中,中间两层是激活函数为sigmoid的隐藏层,最后一层为输出层,对其使用softmax激活函数得到每一个历史行为的权重β12,...,βr
(83)对历史行为进行加权求和得到用户在面对不同的待推荐水利信息时的兴趣表示z,加权求和的公式为
Figure BDA0002559010700000061
所述步骤(9)中,计算用户兴趣和待推荐水利信息的表示向量得到两者的相关性强度,以衡量用户对待推荐信息的兴趣得分,所述步骤(9)进一步为:
(91)将用户的兴趣表示向量z与待推荐水利信息的表示向量q进行连接后送入层数为4的全连接层中,每层的激活函数均为sigmoid,输出用户对待推荐水利信息的点击概率;
(92)采用
Figure BDA0002559010700000071
为损失函数,并使用随机梯度下降法对模型进行训练,其中y为用户真实的是否点击的标签,p(x)为模型预测出的点击率,x是输入到全连接层的中的样本向量,N为样本的个数,D为样本集;
(93)在训练集上训练好后,将测试集输入模型,预测出用户对各个待推荐水利信息的点击概率,按概率从高到低的顺序形成TOP-N推荐列表返回给用户。
有益效果:本发明提供的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,与现有的技术相比,本发明的优点在于:解决了用户需要访问多个水利门户网站,进行主动搜索才能阅读感兴趣的水利信息的困难;使用特征级的注意力机制融合了各个特征,加强了对用户细粒度偏好的挖掘;使用带有位置编码的自注意力机制为用户不同行为之间的关联性进行了建模;能根据待推荐信息的不同计算出相应的用户兴趣表示;此外,能够利用水利信息图谱挖掘用户的潜在兴趣,拓宽用户的阅读面。该模型可以提高水利信息个性化推荐精度,根据注意力机制的权重不同增强推荐系统的可解释性。
附图说明
图1为本发明实施例的整体步骤图;
图2为本发明具体示例的方法流程图;
图3为本发明中图谱多跳含义示例图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,主要包括如下步骤:
步骤1:收集各大水利门户网站中的水利信息数据并进行预处理操作;
步骤2:使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征向量;
步骤3:使用K-means方法对标题和正文的文本表示向量进行聚类,并用手肘法确定出最终的文本主题类别个数,增加主题特征;
步骤4:将区域特征、主题特征、发布时间特征通过嵌入操作转换为与标题和正文特征相同维度的向量,形成最终的特征集;
步骤5:将特征集输入到特征级注意力机制中,对各个特征进行融合后,得到用户浏览过的每条水利信息的初步表示向量;
步骤6:构建水利信息图谱,使用TransR训练出图谱中每个实体的向量,融合图谱后,得到水利信息的最终表示向量。
步骤7:将水利信息的表示向量输入到具有位置编码的自注意力机制中,学习出用户每一个行为的表示向量;
步骤8:以待推荐水利信息为查询项,用户行为的表示向量为键项,利用注意力机制进行对键项加权求和得到用户的兴趣表示向量;
步骤9:计算用户的兴趣表示向量与待推荐水利信息的相关性,得到最终给用户进行推荐的TOP-N列表。
如图2所示,本发明实施例公开的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,具体步骤如下:
步骤1:获取数据集并进行预处理,以用来为特征集的处理做准备,具体步骤如下:
步骤11:使用爬虫收集各大水利门户网站(包含地方性的水利网站:如7大流域、23个省、4个直辖市、5个自治区、2个特别行政区;以及个别综合类水利网站:如中国水利网、中华人民共和国水利部、水旱灾害防御司等)的水利信息数据,并将爬取到的发布时间、水利信息标题、水利信息正文存储到数据库中。其中对于地方性的水利网站,直接在数据库中添加区域字段并设置为相应的所属地区;
步骤12:初步处理数据,将数据中存在缺失的,含有异常值的相关数据删除;
步骤13:根据用户的历史点击行为序列,选取一个时间点对行为序列进行分割,形成训练集和测试集,时间点之前的行为序列为训练集,之后的为测试集;
步骤14:以我国7大流域、23个省、4个直辖市、5个自治区、2个特别行政区为区域标准,将水利信息中是否包含以上区域的名称作为匹配依据,对爬取到的每条水利信息进行匹配,以为其添加上区域的信息。这样即可为特征集增加区域特征。
步骤2:使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征,辅助推荐的效果。具体步骤如下:
步骤21:对收集到的数据中的水利信息标题及正文使用Jieba(结巴)分词进行去除停用词和分词操作;
步骤22:利用Doc2Vec模型中的PV-DM模型将标题和正文分别表示成向量的形式,作为标题特征和正文特征向量。
步骤3:由于用户是否会对一条水利信息进行浏览不仅仅依赖文本的内容,为了解决这一问题,利用Doc2Vec得出的向量对文本进行聚类以得出每条水利信息所属的主题类别,同时辅助手肘法得出最适合的主题类别个数。具体步骤如下:
步骤31:将收集到的水利信息数据中的每一条水利信息的标题以及正文合并成一条水利信息文本数据;
步骤32:利用Doc2Vec模型中的PV-DM模型将每条水利信息文本数据表示成向量的形式;
步骤33:将每条水利信息的文本向量组成矩阵X={x1,x2,x3,...,xn},其中xi(1<i≤n)表示第i条水利信息文本的表示向量,再从矩阵X中随机选取k个对象{c1,c2,c3,...,ck},1<k≤n作为初始聚类中心,其中n表示爬取到的水利信息的总条数;
步骤34:计算每一个对象到初始聚类中心的欧氏距离,距离计算公式为
Figure BDA0002559010700000091
其中cj表示第j个聚类中心,xit表示第i条文本的表示向量的第t个分量,cjt表示第j个聚类中心的第t个分量,m表示每条文本的表示向量的维度;
步骤35:再次计算每个类簇中心,计算公式为
Figure BDA0002559010700000092
cl表示第l个聚类中心,sl表示第l个类簇,xi表示第l个类簇中的第i条水利信息的表示向量,|sl|表示第l个类簇中对象的个数;
步骤36:通过手肘法的核心指标误差平方和SSE确定k值,SSE越小则聚类效果越好,计算公式为
Figure BDA0002559010700000101
式中sl是第l个簇,x是类簇sl中的样本点,dl是类簇sl的质心,取肘部对应的k值作为k-means的类簇个数;
步骤37:通过手肘法确定聚类个数k后,重复步骤31-35对水利信息文本向量进行聚类;
步骤38:记录每条水利信息所属的类簇,为特征集增加主题特征。
步骤4:为了将步骤1-3所得到的水利信息的各个特征输入模型中,同时又考虑到要尽可能降低信息的损失、输入步骤5中的特征级注意力机制的向量需要相同的维度这两个方面,因此需要对特征进行进一步的处理。具体步骤如下:
步骤41:对于区域特征和主题特征,看作类别型特征将其进行one-hot编码;
步骤42:对于发布时间,以月为单位转换为类别型特征,再对其进行one-hot编码;
步骤43:将区域特征、主题特征、发布时间特征的高维稀疏one-hot编码分别进行嵌入化(embedding),获得与标题及正文特征向量相同维度的低维稠密向量。
步骤5:使用特征级的注意力机制融合各个特征,目的是用所得的向量可作为每条水利信息的初步表示向量。具体步骤如下:
步骤51:将步骤4中得到的区域、主题、发布时间、标题及正文的特征向量输入到一层网络中并通过tanh激活函数转换成对应的隐藏表示形式;用来转换的激活函数公式为uit=tanh(Wwhit+bw),其中uit表示第t条水利信息第i个特征的隐藏表示形式,hit表示第t条水利信息的第i个特征,Ww与bw是参数;
步骤52:将得到的隐藏表示形式uit与上下文向量做点积并用softmax进行归一化,得到每个特征的权重;用来得到权重的公式为
Figure BDA0002559010700000102
其中vw是在训练初始时随机产生的上下文向量,并且在训练过程中进行更新,它可以看做是一个查询“什么特征在吸引用户兴趣时起到的作用最大”的表示;
步骤53:根据每个特征的权重进行加权求和,计算出用户浏览过的每条水利信息的初步表示向量,计算公式为
Figure BDA0002559010700000111
其中st表示用户浏览过的第t条水利信息的初步表示向量,M表示水利信息包含的特征总个数。融合了各个特征后的水利信息初步表示向量能反映出细粒度的用户偏好。
步骤6:收集每条水利信息相关的所有实体,构建出水利信息图谱后,利用TransR训练出图谱中每个实体的向量,然后再与步骤5得到的初步表示向量相加得到水利信息的最终表示向量。该步骤目的是利用图谱增强水利信息之间的关联性,以此来挖掘用户潜在的兴趣,具体步骤如下:
步骤61:步骤2-4在构造特征集时,每条水利信息的时间、地区、主题均已保存,以此为基础构建图谱,记为g。图谱以txt格式保存,总共需要生成三个txt文件,分别为实体及编号.txt、关系及编号.txt、三元组.txt,各自存放的内容为:实体名称及其编号,关系名称及其编号,三元组(开始实体、结束实体、两者之间的关系)。一条数据占据一行。
关系共有4种:include_city(描述省市包含关系)、include_district(描述市区包含关系)、include_topic(描述地区包含的事件主题)、happen_time(描述事件主题的发生时间)。实体有三大类:地区(省、市、区、县)、事件主题、事件发生时间。三元组中存放的内容:省、市、include_city,市、区、include_district,事件主题、事件发生时间、happen_time,市、事件主题、include_topic等等。
若用(hg,rg,tg)来表示图谱g中的三元组,则hg与tg分别为开始实体与尾实体,rg则表示两个实体结点之间的关系;
步骤62:将上述txt文件输入到图谱特征学习模型TransR中进行训练。给定图谱中的所有三元组(hg,rg,tg),利用TranR可以为图谱中的每个实体及关系学习到其对应的低维向量表示,该向量表示能保持图谱含有的结构信息。最终能从TransR的输出中提取出所有实体的向量;
步骤63:结合图3对该步骤进行讲解。图中的圆形表示实体结点,横线表示关系。
以用户浏览历史中的第t条信息((0≤t≤r),r为用户历史浏览总条数)为例,根据该条水利信息,可以得到图谱中与之对应的三大类实体的表示向量
Figure BDA0002559010700000121
分别为地区、事件发生时间、事件主题。
为了达到扩展用户兴趣的目的,分别以这三个实体为中心再往外扩展两跳。若以
Figure BDA0002559010700000122
为例,就是再引入图中灰色标记的实体们(以
Figure BDA0002559010700000123
为起点,往这些灰色实体们走去,均不会超过两个关系的距离)。将这些周边的邻居结点记为
Figure BDA0002559010700000124
其中I表示满足上述条件的结点集合。
以此类推,三个中心结点
Figure BDA0002559010700000125
的满足上述条件的邻居结点们分别可记为
Figure BDA0002559010700000126
最后将这些实体的向量进行求平均值,公式为
Figure BDA0002559010700000127
其中m为加入计算的实体总个数。最终得到的et作为用户浏览历史中第t条水利信息的潜在兴趣表示向量;
步骤64:将步骤5所得水利信息的初步表示向量st与潜在兴趣的表示向量et相加,得到该条水利信息的最终表示向量qt
步骤7:将步骤6所得到的每条水利信息的最终表示向量输入到具有位置编码的self-attention,学习出用户每一个行为的表示向量,目的是建模行为之间的关联。具体步骤如下:
步骤71:记用户行为序列个数为r,即用户共浏览水利信息r条,然后生成用户历史行为序列中每个行为的位置编码,该位置编码的维度和水利信息的最终表示向量q的维度一致,其计算公式为
Figure BDA0002559010700000128
其中dmodel为每条水利信息的表示向量q的维度,num∈[1,2,...,dmodel],pos∈[1,2,...,r]为用户的一个行为在整个行为序列中所处的位置;
步骤72:将用户历史行为序列中每个浏览行为的位置编码与相应的水利信息的表示向量q进行相加;
步骤73:将相加后的结果输入到Transfomer模型中的自注意力机制(self-attention)中得到加权后的r个浏览行为的表示向量a1,a2,...,ar。该注意力机制仅依靠自身便能为输入序列中的每一个元素都分配权重,因此产生的表示向量可以建模行为之间的关联。
步骤8:以待推荐水利信息为查询项(query),由步骤7得到的用户行为的表示向量为键项(keys),利用注意力机制进行对keys加权求和,目的是得到用户的兴趣表示向量以建模行为之间的关联。具体步骤如下:
步骤81:将用户的行为表示向量a1,a2,...,ar与待推荐水利信息的最终表示向量q相连接;
步骤82:将连接后的得到的向量送入层数为4的全连接层中,中间两层是激活函数为sigmoid的隐藏层,最后一层为输出层,对其使用softmax激活函数得到每一个历史行为的权重β12,...,βr
步骤83:对历史行为进行加权求和得到用户在面对不同的待推荐水利信息时的兴趣表示z,加权求和的公式为
Figure BDA0002559010700000131
步骤9:计算用户兴趣和待推荐水利信息的表示向量得到两者的相关性强度,目的是衡量用户对待推荐信息的兴趣得分来形成最终的TOP-N推荐列表。
具体步骤如下:
步骤91:将用户的兴趣表示向量z与待推荐水利信息的表示向量进行连接后送入层数为4的全连接层中,每层的激活函数均为sigmoid,最终输出概率p(x)即为模型预测出的用户对待推荐水利信息的点击概率,其中x是输入到全连接层的中的样本向量;
步骤92:采用
Figure BDA0002559010700000132
为损失函数,并使用随机梯度下降法对模型进行训练,其中y∈{0,1}为用户真实的是否点击的标签,p(x)为模型预测出的点击率,N为样本的个数,D为样本集;
步骤93:在训练集上训练好后,将测试集输入模型,预测出用户对各个待推荐水利信息的点击概率,按概率从高到低的顺序形成TOP-N推荐列表返回给用户。
当实验结束后,可以提取出三层注意力机制中的各层权重,并借助热度图可视化展示,以达到可解释性的目的。例如在第二层行为级注意力机制中,可以提取出各个信息之间的权重,并将热度图的横纵坐标均设置为历史浏览水利信息的编号,这样,依据热度图中颜色的深浅,即可知道用户过去某一条浏览记录与其他浏览记录之间的相关性大小,判断出哪些信息在该次浏览行为中起到了主导作用。
综上,本发明通过在特征级与兴趣级使用soft-attention、在行为级使用自注意力机制,解决无法捕捉细粒度用户偏好、用户行为无法产生关联性、用户表示在不同待推荐水利息面前不变这三个问题,使得水利信息推荐更加准确。同时模型中还融入了图谱来挖掘用户潜在的兴趣,避免“信息茧房”的桎梏。最终产生的模型具有较强的可解释性,能够根据权重的不同解释哪些特征、哪些浏览行为比较重要。此外,也解决了用户需要访问多个水利门户网站,进行主动搜索才能阅读感兴趣的水利信息的困难。

Claims (10)

1.一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,包括如下步骤:
(1)收集各大水利门户网站中的水利信息数据并进行预处理操作增加区域特征;
(2)使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征向量;
(3)对标题和正文的文本表示向量进行聚类,并用手肘法确定出最终的文本主题类别个数,增加主题特征;
(4)将区域特征、主题特征、发布时间特征通过嵌入操作转换为与标题和正文特征相同维度的向量,形成最终的特征集;
(5)将特征集输入到特征级注意力机制中,对各个特征进行融合后,得到用户浏览过的每条水利信息的初步表示向量;
(6)收集每条水利信息的地区、时间和主题,构建水利信息图谱,并训练出图谱中每个实体的向量,将每条水利信息中的实体及融合图谱扩展后的实体的向量求平均,并与步骤(5)得到的初步表示向量相加得到水利信息的最终表示向量;
(7)将水利信息的最终表示向量输入到具有位置编码的自注意力机制,学习出用户每一个行为的表示向量;
(8)以待推荐水利信息为查询项,用户行为的表示向量为键项,利用注意力机制进行对键项加权求和得到用户的兴趣表示向量;
(9)计算用户的兴趣表示向量与待推荐水利信息的相关性,得到最终给用户进行推荐的列表。
2.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(1)包括:
(11)使用爬虫收集各大水利门户网站的水利信息数据,包括发布时间、水利信息标题、水利信息正文字段;
(12)初步处理数据,将数据中存在缺失的,含有异常值的相关数据删除;
(13)根据用户的历史点击水利信息行为序列,选取一个时间点对行为序列进行分割,形成训练集和测试集,时间点之前的行为序列为训练集,之后的为测试集;
(14)基于信息来源或内容为每条水利信息添加区域字段,为特征集增加区域特征。
3.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(2)包括:
(21)对收集到的水利信息数据中的水利信息标题以及正文进行去除停用词和分词操作;
(22)利用Doc2Vec模型中的PV-DM模型将标题和正文分别表示成向量的形式,作为标题特征和正文特征向量。
4.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(3)包括:
(31)将收集到的水利信息数据中的每一条水利信息的标题以及正文合并成一条水利信息文本数据;
(32)利用Doc2Vec模型中的PV-DM模型将每条水利信息文本数据表示成向量的形式;
(33)将每条水利信息的文本向量组成矩阵X={x1,x2,x3,...,xn},其中xi(1<i≤n)表示第i条水利信息文本的表示向量,再从矩阵X中随机选取k个对象{c1,c2,c3,...,ck},1<k≤n作为初始聚类中心,其中n表示爬取到的水利信息的总条数;
(34)计算每一个对象到初始聚类中心的欧氏距离,距离计算公式为
Figure FDA0003722266410000021
其中cj表示第j个聚类中心,xit表示第i条文本向量的第t个分量,cjt表示第j个聚类中心的第t个分量,m表示每条文本的表示向量的维度;
(35)再次计算每个类簇中心,计算公式为
Figure FDA0003722266410000022
cl表示第l个聚类中心,sl表示第l个类簇,xi表示第l个类簇中的第i条水利信息的表示对象,|sl|表示第l个类簇中对象的个数;
(36)通过手肘法的核心指标误差平方和SSE确定k值,相关系数的计算公式为
Figure FDA0003722266410000031
式中sl是第l个簇,x是sl中的样本点,dl是类簇sl的质心,取肘部对应的k值作为k-means的类簇个数;
(37)通过手肘法确定聚类个数k后,重复步骤(31)-(35)对水利信息文本向量进行聚类;
(38)记录每条水利信息所属的类簇,为特征集增加主题特征。
5.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(4)包括:
(41)对于区域特征和主题特征,看作类别型特征将其进行one-hot编码;
(42)对于发布时间特征,以月为单位转换为类别型特征,再对其进行one-hot编码;
(43)将区域特征、主题特征、发布时间特征的高维稀疏one-hot编码分别进行嵌入操作,获得与标题及正文特征向量相同维度的向量。
6.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(5)包括:
(51)将步骤(4)中得到的区域、主题、发布时间、标题及正文的特征向量输入到一层网络中并通过tanh激活函数转换成对应的隐藏表示形式;用来转换的激活函数公式为uit=tanh(Wwhit+bw),其中uit表示第t条水利信息第i个特征的隐藏表示形式,hit表示第t条水利信息的第i个特征,Ww与bw是参数;
(52)将得到的隐藏表示形式uit与上下文向量做点积并用softmax进行归一化,得到每个特征的权重;用来得到权重的公式为
Figure FDA0003722266410000032
其中vw是在训练初始时随机产生的上下文向量,并且在训练过程中进行更新;
(53)根据每个特征的权重进行加权求和,计算出用户浏览过的每条水利信息的初步表示向量,计算公式为
Figure FDA0003722266410000033
其中st表示用户浏览过的第t条水利信息的初步表示向量,M表示水利信息包含的特征总个数。
7.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(6)包括:
(61)以每条水利信息的时间、地区、主题为基础构建图谱,并保存为txt文件,图谱中的实体有地区、事件主题、事件发生时间三大类,关系有四种:描述省市包含的关系、描述市区包含的关系、描述地区包含的事件主题以及描述事件主题的发生时间;
(62)将上述txt文件输入到图谱特征学习模型TransR中进行训练;给定图谱中的所有三元组,利用TranR为图谱中的每个实体及关系学习到其对应的向量表示;
(63)根据每条水利信息,得到图谱中与之对应的三大类实体的表示向量
Figure FDA0003722266410000041
分别为地区、事件发生时间、事件主题;以这三个实体为中心再往外扩展两跳,引入与
Figure FDA0003722266410000042
距离为2的实体结点们,分别记为
Figure FDA0003722266410000043
其中I、J、K分别表示满足与
Figure FDA0003722266410000044
距离为2的实体结点集合;最后将这些向量进行求平均值
Figure FDA0003722266410000045
其中m为加入计算的实体总个数;最终得到的et作为用户浏览历史中第t条水利信息的潜在兴趣表示向量;
(64)将步骤(5)所得水利信息的初步表示向量与潜在兴趣的表示向量相加,得到该条水利信息的最终表示向量。
8.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(7)包括:
(71)记用户行为序列个数为r,生成用户历史行为序列中每个行为的位置编码,该位置编码的维度和水利信息的表示向量q的维度一致;
(72)将用户历史行为序列中每个浏览行为的位置编码与相应的水利信息的最终表示向量进行相加;
(73)将相加后的结果输入到Transfomer模型中的自注意力机制中得到加权后的r个浏览行为的表示向量a1,a2,...,ar
9.根据权利要求8所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(8)包括:
(81)将用户的行为表示向量a1,a2,...,ar与待推荐水利信息的最终表示向量q相连接;
(82)将连接后的得到的向量送入层数为4的全连接层中,中间两层是激活函数为sigmoid的隐藏层,最后一层为输出层,对其使用softmax激活函数得到每一个历史行为的权重β12,...,βr
(83)对历史行为进行加权求和得到用户在面对不同的待推荐水利信息时的兴趣表示z,加权求和的公式为
Figure FDA0003722266410000051
10.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(9)包括:
(91)将用户的兴趣表示向量z与待推荐水利信息的表示向量进行连接后送入层数为4的全连接层中,每层的激活函数均为sigmoid,输出用户对待推荐水利信息的点击概率;
(92)采用
Figure FDA0003722266410000052
为损失函数,并使用随机梯度下降法对模型进行训练,其中y为用户真实的是否点击的标签,p(x)为模型预测出的点击率,x是输入到全连接层的中的样本向量,N为样本的个数,D为样本集;
(93)在训练集上训练好后,将测试集输入模型,预测出用户对各个待推荐水利信息的点击概率,按概率从高到低的顺序形成TOP-N推荐列表返回给用户。
CN202010601160.7A 2020-06-29 2020-06-29 基于多层注意力机制并融合图谱的水利门户信息推荐方法 Active CN111914895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010601160.7A CN111914895B (zh) 2020-06-29 2020-06-29 基于多层注意力机制并融合图谱的水利门户信息推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010601160.7A CN111914895B (zh) 2020-06-29 2020-06-29 基于多层注意力机制并融合图谱的水利门户信息推荐方法

Publications (2)

Publication Number Publication Date
CN111914895A CN111914895A (zh) 2020-11-10
CN111914895B true CN111914895B (zh) 2022-08-26

Family

ID=73226901

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010601160.7A Active CN111914895B (zh) 2020-06-29 2020-06-29 基于多层注意力机制并融合图谱的水利门户信息推荐方法

Country Status (1)

Country Link
CN (1) CN111914895B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507132B (zh) * 2020-12-14 2022-08-05 天津大学 一种基于知识图谱和注意力机制的推荐方法
CN112579914A (zh) * 2020-12-31 2021-03-30 安徽大学 基于自注意力因子分解机的时间感知服务推荐系统及方法
CN113239210B (zh) * 2021-05-25 2022-09-27 河海大学 基于自动化补全知识图谱的水利文献推荐方法及系统
CN113378048B (zh) * 2021-06-10 2022-07-26 浙江工业大学 一种基于多视角知识图谱注意力网络的个性化推荐方法
CN116204737B (zh) * 2023-05-04 2023-07-07 海看网络科技(山东)股份有限公司 一种基于用户行为编码的推荐方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737778A (zh) * 2019-09-04 2020-01-31 北京邮电大学 基于知识图谱和Transformer的专利推荐方法
US10599686B1 (en) * 2018-09-27 2020-03-24 Babylon Partners Limited Method and system for extracting information from graphs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10599686B1 (en) * 2018-09-27 2020-03-24 Babylon Partners Limited Method and system for extracting information from graphs
CN110737778A (zh) * 2019-09-04 2020-01-31 北京邮电大学 基于知识图谱和Transformer的专利推荐方法

Also Published As

Publication number Publication date
CN111914895A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914895B (zh) 基于多层注意力机制并融合图谱的水利门户信息推荐方法
Darko et al. Artificial intelligence in the AEC industry: Scientometric analysis and visualization of research activities
CN111222332B (zh) 一种结合注意力网络和用户情感的商品推荐方法
Jiang et al. Author topic model-based collaborative filtering for personalized POI recommendations
CN111209386B (zh) 一种基于深度学习的个性化文本推荐方法
CN104572797A (zh) 基于主题模型的个性化服务推荐系统和方法
CN107315738A (zh) 一种文本信息的创新度评估方法
CN109903099B (zh) 用于评分预测的模型构建方法和系统
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
Elwakil et al. Construction productivity fuzzy knowledge base management system
CN111639176A (zh) 一种基于一致性监测的实时事件摘要方法
CN113779264A (zh) 基于专利供需知识图谱的交易推荐方法
CN114386513A (zh) 一种集成评论与评分的交互式评分预测方法及系统
Chandra et al. Collective representation learning on spatiotemporal heterogeneous information networks
CN114003726B (zh) 一种基于子空间嵌入的学术论文差异性分析方法
CN110910235A (zh) 一种基于用户关系网络的贷中异常行为检测方法
CN113407729B (zh) 一种面向司法的个性化案例推荐方法及系统
Liu et al. Age inference using a hierarchical attention neural network
Zhang et al. Modeling and prediction of stock price with convolutional neural network based on blockchain interactive information
Yang et al. Multi-graph Fusion Graph Convolutional Networks with pseudo-label supervision
CN111723302A (zh) 一种基于协同双模型深度表示学习的推荐方法
Yin et al. A deep natural language processing‐based method for ontology learning of project‐specific properties from building information models
CN115935067A (zh) 面向社会化推荐的语义与结构视图融合的物品推荐方法
CN115391555A (zh) 一种用户感知的知识图谱推荐系统及方法
Hamad et al. Sentiment analysis of restaurant reviews in social media using naïve bayes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant