CN111914895B - 基于多层注意力机制并融合图谱的水利门户信息推荐方法 - Google Patents
基于多层注意力机制并融合图谱的水利门户信息推荐方法 Download PDFInfo
- Publication number
- CN111914895B CN111914895B CN202010601160.7A CN202010601160A CN111914895B CN 111914895 B CN111914895 B CN 111914895B CN 202010601160 A CN202010601160 A CN 202010601160A CN 111914895 B CN111914895 B CN 111914895B
- Authority
- CN
- China
- Prior art keywords
- water conservancy
- information
- conservancy information
- user
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 229
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000007246 mechanism Effects 0.000 title claims abstract description 49
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 239000013598 vector Substances 0.000 claims abstract description 96
- 239000013604 expression vector Substances 0.000 claims abstract description 84
- 230000006399 behavior Effects 0.000 claims description 67
- 238000012549 training Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于多层注意力机制并融合图谱的水利门户信息推荐方法。针对收集的水利信息数据的特点,利用Doc2vec和聚类丰富特征集;在构建推荐模型时,首先借助soft‑attention形成特征级注意力机制对各特征进行融合,同时构建水利信息图谱,挖掘用户的潜在兴趣后形成每条水利信息的最终表示向量;然后用具有位置编码的self‑attention形成行为级注意力机制产生用户行为的表示向量;再次借助soft‑attention生成用户兴趣的表示向量;最后使用多层感知机计算用户点击水利信息的概率以生成最终的TOP‑N推荐列表。本发明方法能解决从事水利行业的人员无法一站式阅读感兴趣的水利信息的问题,且利用多层注意力机制及图谱能使推荐更加精确,可解释性更强。
Description
技术领域
本发明涉及水利门户信息推荐方法,尤其是一种基于多层注意力机制并融合图谱的水利门户信息推荐方法。
背景技术
水利门户网站是水利部门进行水利信息整合、发布、为公众提供信息和服务的平台。它面向水利行业和社会,用来报道各种水事动态,传达和贯彻水利部有关文件和重大会议精神。经过水利信息化的不断发展,现如今水利网站繁多,每个流域以及省份乃至区县级别的地区都有其相应的水利网站。但是这些系统之间往往是相互独立的,数据难以整合和共享,严重了干扰水利行业从业人员关注自己感兴趣的水利信息的效率。经调研,如今水利门户网站的发展趋势是能够成为水利信息资源整合、共享的重要组成部分,因此搭建一个可以解决信息化进程中所面临的的各类水利信息孤立问题的平台已是一项迫切的需求。我们旨在建立一种水利信息推荐方法,以便给水利行业从业人员提供一个“一站式”的综合网站。这样,水利行业从业人员无须了解及访问过多地方门户网站就可以获取到感兴趣的水利信息内容推送。
现有的个性化推荐方法多种多样,但还没有应用到水利信息上。就其他领域的个性化推荐而言,传统的推荐方法常使用协同过滤、逻辑回归、因子分解、组合模型等。但相比于深度学习模型,这些传统方法在挖掘数据中隐藏的信息方面稍显逊色,而深度学习构建的模型十分灵活,可以同时融合图像、自然语言处理等领域的成果并迅速演化,现如今主流的推荐系统都已进入深度学习阶段。Wang等人使用知识图谱来丰富新闻实体中的信息同时加强了各个实体之间的联系,然而使用的特征过于单一,这会造成信息损失甚至产生“辛普森悖论”损害推荐系统的性能;Zhou等人提出了深度兴趣模型来预测商品点击率,他们利用注意力机制给各个点击的商品进行加权聚合以区分重要性,然而点击序列通常是时间相关的,模型并没有考虑进各个点击行为之间的依赖性;Wu等人提出一种具有注意力多视角学习的推荐方法,采用三层注意力机制分别对文本、新闻以及用户进行编码,但是对于用户而言,针对已经点击过的新闻是否可以对当前待推荐新闻具备一定的影响力,在这方面存在考虑不足的问题。
发明内容
发明目的:针对现有技术中存在的问题与不足,本发明目的在于提供一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,以准确有效地进行水利信息的个性化推荐,方便用户使用,拓宽用户的阅读面。
技术方案:为实现上述发明目的,本发明所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,包括如下步骤:
(1)收集各大水利门户网站中的水利信息数据并进行预处理操作增加区域特征;
(2)使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征向量;
(3)对标题和正文的文本表示向量进行聚类,并用手肘法确定出最终的文本主题类别个数,增加主题特征;
(4)将区域特征、主题特征、发布时间特征通过嵌入操作转换为与标题和正文特征相同维度的向量,形成最终的特征集;
(5)将特征集输入到特征级注意力机制中,对各个特征进行融合后,得到用户浏览过的每条水利信息的初步表示向量;
(6)收集每条水利信息的地区、时间和主题,构建水利信息图谱,并训练出图谱中每个实体的向量,将每条水利信息中的实体及融合图谱扩展后的实体的向量求平均,并与步骤(5)得到的初步表示向量相加得到水利信息的最终表示向量。
(7)将水利信息的最终表示向量输入到具有位置编码的自注意力机制,学习出用户每一个行为的表示向量;
(8)以待推荐水利信息为查询项,用户行为的表示向量为值项,利用注意力机制进行对值项加权求和得到用户的兴趣表示向量;
(9)计算用户的兴趣表示向量与待推荐水利信息的相关性,得到最终给用户进行推荐的列表。
所述步骤(1)获取数据集并进行预处理,目的是为特征集的处理做准备,所述步骤(1)进一步为:
(11)使用爬虫收集各大水利门户网站的水利信息数据,包括发布时间、水利信息标题、水利信息正文字段;
(12)初步处理数据,将数据中存在缺失的,含有异常值的相关数据删除;
(13)根据用户的历史点击水利信息行为序列,选取一个时间点对行为序列进行分割,形成训练集和测试集,时间点之前的行为序列为训练集,之后的为测试集;
(14)基于信息来源或内容为每条水利信息添加区域字段,为特征集增加区域特征。
所述步骤(2)对收集到的数据中的文本内容进行向量化,以得到特征集中的标题特征和正文特征,辅助推荐的效果:
(21)对收集到的水利信息数据中的水利信息标题以及正文进行去除停用词和分词操作;
(22)利用Doc2Vec模型中的PV-DM模型将标题和正文分别表示成向量的形式,作为标题特征和正文特征向量。
所述步骤(3)中,由于用户是否会对一条水利信息进行浏览不仅仅依赖文本的内容,为了解决这一问题,利用Doc2Vec得出的向量对文本进行聚类以得出每条水利信息所属的主题类别,同时辅助手肘法得出最适合的主题类别个数。这样能够丰富推荐系统的特征集,提高推荐系统的性能,所述步骤(3)进一步为:
(31)将收集到的水利信息数据中的每一条水利信息的标题以及正文合并成一条水利信息文本数据;
(32)利用Doc2Vec模型中的PV-DM模型将每条水利信息文本数据表示成向量的形式;
(33)将每条水利信息的文本向量组成矩阵X={x1,x2,x3,...,xn},其中xi(1<i≤n)表示第i条水利信息文本的表示向量,再从矩阵X中随机选取k个对象{c1,c2,c3,...,ck},1<k≤n作为初始聚类中心,其中n表示爬取到的水利信息的总条数;
(37)通过手肘法确定聚类个数k后,重复步骤(31)-(35)对水利信息文本向量进行聚类;
(38)记录每条水利信息所属的类簇,为特征集增加主题特征。
所述步骤(4)中,为了将步骤(1)-(3)所得到的水利信息的各个特征输入模型中,同时又考虑到要尽可能降低信息的损失、输入步骤(5)中的特征级注意力机制的向量需要相同的维度这两个方面,因此需要对特征进行进一步的处理,所述步骤(4)进一步为:
(41)对于区域特征和主题特征,看作类别型特征将其进行one-hot编码;
(42)对于发布时间,以月为单位转换为类别型特征,再对其进行one-hot编码;
(43)将区域特征、主题特征、发布时间特征的高维稀疏one-hot编码分别进行嵌入操作,获得与标题及正文特征向量相同维度的向量。
步骤(5)使用特征级的注意力机制融合各个特征后,所得的向量可作为每条水利信息的初步表示向量,它能反应出细粒度的用户偏好。该注意力机制是基于soft-attention的,其键项不等于值项,所述步骤(5)进一步为:
(51)将步骤(4)中得到的区域、主题、发布时间、标题及正文特征向量经过多层感知机(MLP)后输入到tanh激活函数中转换成隐藏表示形式;用来转换的激活函数公式为uit=tanh(Wwhit+bw),其中uit表示第t条水利信息的隐藏表示形式,hit表示第t条水利信息的第i个特征,Ww与bw是MLP的参数;
步骤(6)中,收集每条水利信息相关的所有实体,构建出水利信息图谱后,利用TransR训练出图谱中每个实体的向量,然后再与步骤(5)得到的初步表示向量相加得到水利信息的最终表示向量。该步骤目的是利用图谱增强水利信息之间的关联性,以此来挖掘用户潜在的兴趣,所述步骤(6)进一步为:
(61)以每条水利信息的时间、地区、主题为基础构建图谱,并以txt格式保存,图谱中的实体有地区、事件主题、事件发生时间三大类,关系有四种:描述省市包含的关系、描述市区包含的关系、描述地区包含的事件主题以及描述事件主题的发生时间;
(62)将上述txt文件输入到图谱特征学习模型TransR中进行训练;给定图谱中的所有三元组,利用TransR为图谱中的每个实体及关系学习到其对应的向量表示;
(63)根据每条水利信息,得到图谱中与之对应的三大类实体的表示向量分别为地区、事件发生时间、事件主题。以这三个实体为中心再往外扩展两跳,再引入与距离为2的实体们,分别记为其中I、J、K分别表示满足上述关系的结点集合;最后将这些向量进行求平均值其中m为加入计算的实体总个数;最终得到的et作为用户浏览历史中第t条水利信息的潜在兴趣表示向量;
(64)将步骤(5)所得水利信息的初步表示向量与潜在兴趣的表示向量相加,得到该条水利信息的最终表示向量。
所述步骤(7)中,由于用户每一次浏览水利信息的行为可能取决于很久以前的一次行为,也可能只与最近的几次的行为相关,即每个行为都会与其他行为都有某种程度上的关系。为了计算不同行为在整体行为中处于何种位置以及建模这种行为之间的关联性,所述步骤(7)进一步为:
(71)记用户行为序列个数为r,生成用户历史行为序列中每个行为的位置编码,该位置编码的维度和水利信息的表示向量q的维度一致;
(72)将用户历史行为序列中每个浏览行为的位置编码与相应的水利信息的最终表示向量进行相加;
(73)将相加后的结果输入Transformer模型中的自注意力机制中得到加权后的r个浏览行为的表示向量a1,a2,...,ar。
所述步骤(8)用来建模用户在面对不同的待推荐水利信息时的兴趣,其中以待推荐水利信息为查询项,由步骤(7)得到的用户行为的表示向量为键项,利用注意力机制进行对键项加权求和得到用户的兴趣表示向量,所述步骤(8)进一步为:
(81)将用户的行为表示向量a1,a2,...,ar与待推荐水利信息的最终表示向量q相连接;
(82)将连接后的得到的向量送入层数为4的全连接层中,中间两层是激活函数为sigmoid的隐藏层,最后一层为输出层,对其使用softmax激活函数得到每一个历史行为的权重β1,β2,...,βr;
所述步骤(9)中,计算用户兴趣和待推荐水利信息的表示向量得到两者的相关性强度,以衡量用户对待推荐信息的兴趣得分,所述步骤(9)进一步为:
(91)将用户的兴趣表示向量z与待推荐水利信息的表示向量q进行连接后送入层数为4的全连接层中,每层的激活函数均为sigmoid,输出用户对待推荐水利信息的点击概率;
(93)在训练集上训练好后,将测试集输入模型,预测出用户对各个待推荐水利信息的点击概率,按概率从高到低的顺序形成TOP-N推荐列表返回给用户。
有益效果:本发明提供的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,与现有的技术相比,本发明的优点在于:解决了用户需要访问多个水利门户网站,进行主动搜索才能阅读感兴趣的水利信息的困难;使用特征级的注意力机制融合了各个特征,加强了对用户细粒度偏好的挖掘;使用带有位置编码的自注意力机制为用户不同行为之间的关联性进行了建模;能根据待推荐信息的不同计算出相应的用户兴趣表示;此外,能够利用水利信息图谱挖掘用户的潜在兴趣,拓宽用户的阅读面。该模型可以提高水利信息个性化推荐精度,根据注意力机制的权重不同增强推荐系统的可解释性。
附图说明
图1为本发明实施例的整体步骤图;
图2为本发明具体示例的方法流程图;
图3为本发明中图谱多跳含义示例图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明实施例公开的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,主要包括如下步骤:
步骤1:收集各大水利门户网站中的水利信息数据并进行预处理操作;
步骤2:使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征向量;
步骤3:使用K-means方法对标题和正文的文本表示向量进行聚类,并用手肘法确定出最终的文本主题类别个数,增加主题特征;
步骤4:将区域特征、主题特征、发布时间特征通过嵌入操作转换为与标题和正文特征相同维度的向量,形成最终的特征集;
步骤5:将特征集输入到特征级注意力机制中,对各个特征进行融合后,得到用户浏览过的每条水利信息的初步表示向量;
步骤6:构建水利信息图谱,使用TransR训练出图谱中每个实体的向量,融合图谱后,得到水利信息的最终表示向量。
步骤7:将水利信息的表示向量输入到具有位置编码的自注意力机制中,学习出用户每一个行为的表示向量;
步骤8:以待推荐水利信息为查询项,用户行为的表示向量为键项,利用注意力机制进行对键项加权求和得到用户的兴趣表示向量;
步骤9:计算用户的兴趣表示向量与待推荐水利信息的相关性,得到最终给用户进行推荐的TOP-N列表。
如图2所示,本发明实施例公开的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,具体步骤如下:
步骤1:获取数据集并进行预处理,以用来为特征集的处理做准备,具体步骤如下:
步骤11:使用爬虫收集各大水利门户网站(包含地方性的水利网站:如7大流域、23个省、4个直辖市、5个自治区、2个特别行政区;以及个别综合类水利网站:如中国水利网、中华人民共和国水利部、水旱灾害防御司等)的水利信息数据,并将爬取到的发布时间、水利信息标题、水利信息正文存储到数据库中。其中对于地方性的水利网站,直接在数据库中添加区域字段并设置为相应的所属地区;
步骤12:初步处理数据,将数据中存在缺失的,含有异常值的相关数据删除;
步骤13:根据用户的历史点击行为序列,选取一个时间点对行为序列进行分割,形成训练集和测试集,时间点之前的行为序列为训练集,之后的为测试集;
步骤14:以我国7大流域、23个省、4个直辖市、5个自治区、2个特别行政区为区域标准,将水利信息中是否包含以上区域的名称作为匹配依据,对爬取到的每条水利信息进行匹配,以为其添加上区域的信息。这样即可为特征集增加区域特征。
步骤2:使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征,辅助推荐的效果。具体步骤如下:
步骤21:对收集到的数据中的水利信息标题及正文使用Jieba(结巴)分词进行去除停用词和分词操作;
步骤22:利用Doc2Vec模型中的PV-DM模型将标题和正文分别表示成向量的形式,作为标题特征和正文特征向量。
步骤3:由于用户是否会对一条水利信息进行浏览不仅仅依赖文本的内容,为了解决这一问题,利用Doc2Vec得出的向量对文本进行聚类以得出每条水利信息所属的主题类别,同时辅助手肘法得出最适合的主题类别个数。具体步骤如下:
步骤31:将收集到的水利信息数据中的每一条水利信息的标题以及正文合并成一条水利信息文本数据;
步骤32:利用Doc2Vec模型中的PV-DM模型将每条水利信息文本数据表示成向量的形式;
步骤33:将每条水利信息的文本向量组成矩阵X={x1,x2,x3,...,xn},其中xi(1<i≤n)表示第i条水利信息文本的表示向量,再从矩阵X中随机选取k个对象{c1,c2,c3,...,ck},1<k≤n作为初始聚类中心,其中n表示爬取到的水利信息的总条数;
步骤34:计算每一个对象到初始聚类中心的欧氏距离,距离计算公式为其中cj表示第j个聚类中心,xit表示第i条文本的表示向量的第t个分量,cjt表示第j个聚类中心的第t个分量,m表示每条文本的表示向量的维度;
步骤36:通过手肘法的核心指标误差平方和SSE确定k值,SSE越小则聚类效果越好,计算公式为式中sl是第l个簇,x是类簇sl中的样本点,dl是类簇sl的质心,取肘部对应的k值作为k-means的类簇个数;
步骤37:通过手肘法确定聚类个数k后,重复步骤31-35对水利信息文本向量进行聚类;
步骤38:记录每条水利信息所属的类簇,为特征集增加主题特征。
步骤4:为了将步骤1-3所得到的水利信息的各个特征输入模型中,同时又考虑到要尽可能降低信息的损失、输入步骤5中的特征级注意力机制的向量需要相同的维度这两个方面,因此需要对特征进行进一步的处理。具体步骤如下:
步骤41:对于区域特征和主题特征,看作类别型特征将其进行one-hot编码;
步骤42:对于发布时间,以月为单位转换为类别型特征,再对其进行one-hot编码;
步骤43:将区域特征、主题特征、发布时间特征的高维稀疏one-hot编码分别进行嵌入化(embedding),获得与标题及正文特征向量相同维度的低维稠密向量。
步骤5:使用特征级的注意力机制融合各个特征,目的是用所得的向量可作为每条水利信息的初步表示向量。具体步骤如下:
步骤51:将步骤4中得到的区域、主题、发布时间、标题及正文的特征向量输入到一层网络中并通过tanh激活函数转换成对应的隐藏表示形式;用来转换的激活函数公式为uit=tanh(Wwhit+bw),其中uit表示第t条水利信息第i个特征的隐藏表示形式,hit表示第t条水利信息的第i个特征,Ww与bw是参数;
步骤52:将得到的隐藏表示形式uit与上下文向量做点积并用softmax进行归一化,得到每个特征的权重;用来得到权重的公式为其中vw是在训练初始时随机产生的上下文向量,并且在训练过程中进行更新,它可以看做是一个查询“什么特征在吸引用户兴趣时起到的作用最大”的表示;
步骤53:根据每个特征的权重进行加权求和,计算出用户浏览过的每条水利信息的初步表示向量,计算公式为其中st表示用户浏览过的第t条水利信息的初步表示向量,M表示水利信息包含的特征总个数。融合了各个特征后的水利信息初步表示向量能反映出细粒度的用户偏好。
步骤6:收集每条水利信息相关的所有实体,构建出水利信息图谱后,利用TransR训练出图谱中每个实体的向量,然后再与步骤5得到的初步表示向量相加得到水利信息的最终表示向量。该步骤目的是利用图谱增强水利信息之间的关联性,以此来挖掘用户潜在的兴趣,具体步骤如下:
步骤61:步骤2-4在构造特征集时,每条水利信息的时间、地区、主题均已保存,以此为基础构建图谱,记为g。图谱以txt格式保存,总共需要生成三个txt文件,分别为实体及编号.txt、关系及编号.txt、三元组.txt,各自存放的内容为:实体名称及其编号,关系名称及其编号,三元组(开始实体、结束实体、两者之间的关系)。一条数据占据一行。
关系共有4种:include_city(描述省市包含关系)、include_district(描述市区包含关系)、include_topic(描述地区包含的事件主题)、happen_time(描述事件主题的发生时间)。实体有三大类:地区(省、市、区、县)、事件主题、事件发生时间。三元组中存放的内容:省、市、include_city,市、区、include_district,事件主题、事件发生时间、happen_time,市、事件主题、include_topic等等。
若用(hg,rg,tg)来表示图谱g中的三元组,则hg与tg分别为开始实体与尾实体,rg则表示两个实体结点之间的关系;
步骤62:将上述txt文件输入到图谱特征学习模型TransR中进行训练。给定图谱中的所有三元组(hg,rg,tg),利用TranR可以为图谱中的每个实体及关系学习到其对应的低维向量表示,该向量表示能保持图谱含有的结构信息。最终能从TransR的输出中提取出所有实体的向量;
步骤63:结合图3对该步骤进行讲解。图中的圆形表示实体结点,横线表示关系。
为了达到扩展用户兴趣的目的,分别以这三个实体为中心再往外扩展两跳。若以为例,就是再引入图中灰色标记的实体们(以为起点,往这些灰色实体们走去,均不会超过两个关系的距离)。将这些周边的邻居结点记为其中I表示满足上述条件的结点集合。
步骤64:将步骤5所得水利信息的初步表示向量st与潜在兴趣的表示向量et相加,得到该条水利信息的最终表示向量qt。
步骤7:将步骤6所得到的每条水利信息的最终表示向量输入到具有位置编码的self-attention,学习出用户每一个行为的表示向量,目的是建模行为之间的关联。具体步骤如下:
步骤71:记用户行为序列个数为r,即用户共浏览水利信息r条,然后生成用户历史行为序列中每个行为的位置编码,该位置编码的维度和水利信息的最终表示向量q的维度一致,其计算公式为其中dmodel为每条水利信息的表示向量q的维度,num∈[1,2,...,dmodel],pos∈[1,2,...,r]为用户的一个行为在整个行为序列中所处的位置;
步骤72:将用户历史行为序列中每个浏览行为的位置编码与相应的水利信息的表示向量q进行相加;
步骤73:将相加后的结果输入到Transfomer模型中的自注意力机制(self-attention)中得到加权后的r个浏览行为的表示向量a1,a2,...,ar。该注意力机制仅依靠自身便能为输入序列中的每一个元素都分配权重,因此产生的表示向量可以建模行为之间的关联。
步骤8:以待推荐水利信息为查询项(query),由步骤7得到的用户行为的表示向量为键项(keys),利用注意力机制进行对keys加权求和,目的是得到用户的兴趣表示向量以建模行为之间的关联。具体步骤如下:
步骤81:将用户的行为表示向量a1,a2,...,ar与待推荐水利信息的最终表示向量q相连接;
步骤82:将连接后的得到的向量送入层数为4的全连接层中,中间两层是激活函数为sigmoid的隐藏层,最后一层为输出层,对其使用softmax激活函数得到每一个历史行为的权重β1,β2,...,βr;
步骤9:计算用户兴趣和待推荐水利信息的表示向量得到两者的相关性强度,目的是衡量用户对待推荐信息的兴趣得分来形成最终的TOP-N推荐列表。
具体步骤如下:
步骤91:将用户的兴趣表示向量z与待推荐水利信息的表示向量进行连接后送入层数为4的全连接层中,每层的激活函数均为sigmoid,最终输出概率p(x)即为模型预测出的用户对待推荐水利信息的点击概率,其中x是输入到全连接层的中的样本向量;
步骤93:在训练集上训练好后,将测试集输入模型,预测出用户对各个待推荐水利信息的点击概率,按概率从高到低的顺序形成TOP-N推荐列表返回给用户。
当实验结束后,可以提取出三层注意力机制中的各层权重,并借助热度图可视化展示,以达到可解释性的目的。例如在第二层行为级注意力机制中,可以提取出各个信息之间的权重,并将热度图的横纵坐标均设置为历史浏览水利信息的编号,这样,依据热度图中颜色的深浅,即可知道用户过去某一条浏览记录与其他浏览记录之间的相关性大小,判断出哪些信息在该次浏览行为中起到了主导作用。
综上,本发明通过在特征级与兴趣级使用soft-attention、在行为级使用自注意力机制,解决无法捕捉细粒度用户偏好、用户行为无法产生关联性、用户表示在不同待推荐水利息面前不变这三个问题,使得水利信息推荐更加准确。同时模型中还融入了图谱来挖掘用户潜在的兴趣,避免“信息茧房”的桎梏。最终产生的模型具有较强的可解释性,能够根据权重的不同解释哪些特征、哪些浏览行为比较重要。此外,也解决了用户需要访问多个水利门户网站,进行主动搜索才能阅读感兴趣的水利信息的困难。
Claims (10)
1.一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,包括如下步骤:
(1)收集各大水利门户网站中的水利信息数据并进行预处理操作增加区域特征;
(2)使用Doc2Vec模型获得水利信息标题以及水利信息正文的文本表示向量,为特征集增加标题特征和正文特征向量;
(3)对标题和正文的文本表示向量进行聚类,并用手肘法确定出最终的文本主题类别个数,增加主题特征;
(4)将区域特征、主题特征、发布时间特征通过嵌入操作转换为与标题和正文特征相同维度的向量,形成最终的特征集;
(5)将特征集输入到特征级注意力机制中,对各个特征进行融合后,得到用户浏览过的每条水利信息的初步表示向量;
(6)收集每条水利信息的地区、时间和主题,构建水利信息图谱,并训练出图谱中每个实体的向量,将每条水利信息中的实体及融合图谱扩展后的实体的向量求平均,并与步骤(5)得到的初步表示向量相加得到水利信息的最终表示向量;
(7)将水利信息的最终表示向量输入到具有位置编码的自注意力机制,学习出用户每一个行为的表示向量;
(8)以待推荐水利信息为查询项,用户行为的表示向量为键项,利用注意力机制进行对键项加权求和得到用户的兴趣表示向量;
(9)计算用户的兴趣表示向量与待推荐水利信息的相关性,得到最终给用户进行推荐的列表。
2.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(1)包括:
(11)使用爬虫收集各大水利门户网站的水利信息数据,包括发布时间、水利信息标题、水利信息正文字段;
(12)初步处理数据,将数据中存在缺失的,含有异常值的相关数据删除;
(13)根据用户的历史点击水利信息行为序列,选取一个时间点对行为序列进行分割,形成训练集和测试集,时间点之前的行为序列为训练集,之后的为测试集;
(14)基于信息来源或内容为每条水利信息添加区域字段,为特征集增加区域特征。
3.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(2)包括:
(21)对收集到的水利信息数据中的水利信息标题以及正文进行去除停用词和分词操作;
(22)利用Doc2Vec模型中的PV-DM模型将标题和正文分别表示成向量的形式,作为标题特征和正文特征向量。
4.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(3)包括:
(31)将收集到的水利信息数据中的每一条水利信息的标题以及正文合并成一条水利信息文本数据;
(32)利用Doc2Vec模型中的PV-DM模型将每条水利信息文本数据表示成向量的形式;
(33)将每条水利信息的文本向量组成矩阵X={x1,x2,x3,...,xn},其中xi(1<i≤n)表示第i条水利信息文本的表示向量,再从矩阵X中随机选取k个对象{c1,c2,c3,...,ck},1<k≤n作为初始聚类中心,其中n表示爬取到的水利信息的总条数;
(37)通过手肘法确定聚类个数k后,重复步骤(31)-(35)对水利信息文本向量进行聚类;
(38)记录每条水利信息所属的类簇,为特征集增加主题特征。
5.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(4)包括:
(41)对于区域特征和主题特征,看作类别型特征将其进行one-hot编码;
(42)对于发布时间特征,以月为单位转换为类别型特征,再对其进行one-hot编码;
(43)将区域特征、主题特征、发布时间特征的高维稀疏one-hot编码分别进行嵌入操作,获得与标题及正文特征向量相同维度的向量。
6.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(5)包括:
(51)将步骤(4)中得到的区域、主题、发布时间、标题及正文的特征向量输入到一层网络中并通过tanh激活函数转换成对应的隐藏表示形式;用来转换的激活函数公式为uit=tanh(Wwhit+bw),其中uit表示第t条水利信息第i个特征的隐藏表示形式,hit表示第t条水利信息的第i个特征,Ww与bw是参数;
7.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(6)包括:
(61)以每条水利信息的时间、地区、主题为基础构建图谱,并保存为txt文件,图谱中的实体有地区、事件主题、事件发生时间三大类,关系有四种:描述省市包含的关系、描述市区包含的关系、描述地区包含的事件主题以及描述事件主题的发生时间;
(62)将上述txt文件输入到图谱特征学习模型TransR中进行训练;给定图谱中的所有三元组,利用TranR为图谱中的每个实体及关系学习到其对应的向量表示;
(63)根据每条水利信息,得到图谱中与之对应的三大类实体的表示向量分别为地区、事件发生时间、事件主题;以这三个实体为中心再往外扩展两跳,引入与距离为2的实体结点们,分别记为其中I、J、K分别表示满足与距离为2的实体结点集合;最后将这些向量进行求平均值其中m为加入计算的实体总个数;最终得到的et作为用户浏览历史中第t条水利信息的潜在兴趣表示向量;
(64)将步骤(5)所得水利信息的初步表示向量与潜在兴趣的表示向量相加,得到该条水利信息的最终表示向量。
8.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(7)包括:
(71)记用户行为序列个数为r,生成用户历史行为序列中每个行为的位置编码,该位置编码的维度和水利信息的表示向量q的维度一致;
(72)将用户历史行为序列中每个浏览行为的位置编码与相应的水利信息的最终表示向量进行相加;
(73)将相加后的结果输入到Transfomer模型中的自注意力机制中得到加权后的r个浏览行为的表示向量a1,a2,...,ar。
10.根据权利要求1所述的一种基于多层注意力机制并融合图谱的水利门户信息推荐方法,其特征在于,所述步骤(9)包括:
(91)将用户的兴趣表示向量z与待推荐水利信息的表示向量进行连接后送入层数为4的全连接层中,每层的激活函数均为sigmoid,输出用户对待推荐水利信息的点击概率;
(93)在训练集上训练好后,将测试集输入模型,预测出用户对各个待推荐水利信息的点击概率,按概率从高到低的顺序形成TOP-N推荐列表返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010601160.7A CN111914895B (zh) | 2020-06-29 | 2020-06-29 | 基于多层注意力机制并融合图谱的水利门户信息推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010601160.7A CN111914895B (zh) | 2020-06-29 | 2020-06-29 | 基于多层注意力机制并融合图谱的水利门户信息推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914895A CN111914895A (zh) | 2020-11-10 |
CN111914895B true CN111914895B (zh) | 2022-08-26 |
Family
ID=73226901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010601160.7A Active CN111914895B (zh) | 2020-06-29 | 2020-06-29 | 基于多层注意力机制并融合图谱的水利门户信息推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914895B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112507132B (zh) * | 2020-12-14 | 2022-08-05 | 天津大学 | 一种基于知识图谱和注意力机制的推荐方法 |
CN112579914A (zh) * | 2020-12-31 | 2021-03-30 | 安徽大学 | 基于自注意力因子分解机的时间感知服务推荐系统及方法 |
CN113239210B (zh) * | 2021-05-25 | 2022-09-27 | 河海大学 | 基于自动化补全知识图谱的水利文献推荐方法及系统 |
CN113378048B (zh) * | 2021-06-10 | 2022-07-26 | 浙江工业大学 | 一种基于多视角知识图谱注意力网络的个性化推荐方法 |
CN116204737B (zh) * | 2023-05-04 | 2023-07-07 | 海看网络科技(山东)股份有限公司 | 一种基于用户行为编码的推荐方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110737778A (zh) * | 2019-09-04 | 2020-01-31 | 北京邮电大学 | 基于知识图谱和Transformer的专利推荐方法 |
US10599686B1 (en) * | 2018-09-27 | 2020-03-24 | Babylon Partners Limited | Method and system for extracting information from graphs |
-
2020
- 2020-06-29 CN CN202010601160.7A patent/CN111914895B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10599686B1 (en) * | 2018-09-27 | 2020-03-24 | Babylon Partners Limited | Method and system for extracting information from graphs |
CN110737778A (zh) * | 2019-09-04 | 2020-01-31 | 北京邮电大学 | 基于知识图谱和Transformer的专利推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111914895A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914895B (zh) | 基于多层注意力机制并融合图谱的水利门户信息推荐方法 | |
Darko et al. | Artificial intelligence in the AEC industry: Scientometric analysis and visualization of research activities | |
CN111222332B (zh) | 一种结合注意力网络和用户情感的商品推荐方法 | |
Jiang et al. | Author topic model-based collaborative filtering for personalized POI recommendations | |
CN111209386B (zh) | 一种基于深度学习的个性化文本推荐方法 | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐系统和方法 | |
CN107315738A (zh) | 一种文本信息的创新度评估方法 | |
CN109903099B (zh) | 用于评分预测的模型构建方法和系统 | |
CN112256866A (zh) | 一种基于深度学习的文本细粒度情感分析方法 | |
Elwakil et al. | Construction productivity fuzzy knowledge base management system | |
CN111639176A (zh) | 一种基于一致性监测的实时事件摘要方法 | |
CN113779264A (zh) | 基于专利供需知识图谱的交易推荐方法 | |
CN114386513A (zh) | 一种集成评论与评分的交互式评分预测方法及系统 | |
Chandra et al. | Collective representation learning on spatiotemporal heterogeneous information networks | |
CN114003726B (zh) | 一种基于子空间嵌入的学术论文差异性分析方法 | |
CN110910235A (zh) | 一种基于用户关系网络的贷中异常行为检测方法 | |
CN113407729B (zh) | 一种面向司法的个性化案例推荐方法及系统 | |
Liu et al. | Age inference using a hierarchical attention neural network | |
Zhang et al. | Modeling and prediction of stock price with convolutional neural network based on blockchain interactive information | |
Yang et al. | Multi-graph Fusion Graph Convolutional Networks with pseudo-label supervision | |
CN111723302A (zh) | 一种基于协同双模型深度表示学习的推荐方法 | |
Yin et al. | A deep natural language processing‐based method for ontology learning of project‐specific properties from building information models | |
CN115935067A (zh) | 面向社会化推荐的语义与结构视图融合的物品推荐方法 | |
CN115391555A (zh) | 一种用户感知的知识图谱推荐系统及方法 | |
Hamad et al. | Sentiment analysis of restaurant reviews in social media using naïve bayes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |