CN113095088B - 一种基于文本的消费意图分析方法 - Google Patents

一种基于文本的消费意图分析方法 Download PDF

Info

Publication number
CN113095088B
CN113095088B CN202110485144.0A CN202110485144A CN113095088B CN 113095088 B CN113095088 B CN 113095088B CN 202110485144 A CN202110485144 A CN 202110485144A CN 113095088 B CN113095088 B CN 113095088B
Authority
CN
China
Prior art keywords
node
event
product
representation
embedding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110485144.0A
Other languages
English (en)
Other versions
CN113095088A (zh
Inventor
丁效
刘挺
秦兵
蔡碧波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202110485144.0A priority Critical patent/CN113095088B/zh
Publication of CN113095088A publication Critical patent/CN113095088A/zh
Application granted granted Critical
Publication of CN113095088B publication Critical patent/CN113095088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于文本的消费意图分析方法,它属于消费意图分析技术领域。本发明解决了由于现有方法忽略了彼此相距较远的节点的结构相似性,导致对消费意图分析的准确度低的问题。本发明提出的技术将任务描述为一个异构图推理任务,以充分利用全局连接信息,使用节点聚合机制来捕获语义特征,使用元结构来显式地建模远距离节点之间的拓扑结构相似性,考虑了远距离节点之间的拓扑结构相似性后,可以大幅提高消费意图分析结果的准确度。本发明可以应用于消费意图分析。

Description

一种基于文本的消费意图分析方法
技术领域
本发明属于消费意图分析技术领域,具体涉及一种基于文本的消费意图分析方法。
背景技术
许多人类的消费意图是由他将要做的事情所触发的。例如,如果一个人想“跑步”,他可能需要一双“跑鞋”。事实上,挖掘这样的事件与产品的关系对社交媒体平台和电子商务网站都可以起到作用,以帮助他们更好地了解客户,并修正他们对个体的广告策略。事件-产品对识别(EPI)任务旨在识别事件是否能触发一个人对产品的消费意图,是目前在社交媒体平台和电子商务网站等领域非常重要的商业需求,遂此任务的目标是帮助构建和完成大规模事件-产品知识库。例如,如图1和图2所示,给定事件-产品对(e1,p1),此任务的目标是确定想要“摆脱干燥皮肤”的人是否需要“面膜”。此任务具有挑战性的问题有待解决。即事件-产品对的上下文信息有限,无法捕捉事件和产品之间的复杂关系。
此前所在消费意图分析领域的方法,如文献(Xinyu Fu,Jiani Zhang,ZiqiaoMeng,and Irwin King.2020.MAGNN:Metapath Aggregated Graph Neural Network forHeterogeneous Graph Embedding.In WWW 2020:The Web Conference.2331–2341.)是将节点嵌入到保留网络语义和结构信息的稠密向量中。为了处理多种类型的节点和关系,元路径被广泛用于将原始异构网络转换为多个同构网络,进而进行特征聚合,即节点从每个同构网络的拓扑邻居中聚合特征信息。这样,特征信息在网络拓扑上传播以生成节点嵌入,从而有利于下游任务。然而,现有的异构图神经网络的工作大多集中在保持“接近”(proximity)的概念,而不是局部拓扑结构的概念。在这里,“接近”是一种节点级特征,这意味着两个节点在图中空间的距离较近。而局部拓扑结构是一种立足于全局图结构上的结构特征。
近几年来,大量此任务的工作集中在神经网络的图表,如文献(Petar
Figure BDA0003049990680000011
Guillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Liò,and YoshuaBengio.2018.Graph Attention Networks.In ICLR 2018:Interna tional Conferenceon Learning Representations 2018.以及Tom Young,Devamanyu Hazarika,SoujanyaPoria,and Erik Cambria.2017.Recent Trends in Deep Learning Based NaturalLanguage Processing.arXiv preprint arXiv:1708.02709(2017).)。图神经网络(GNN)的目标是将图中的每个节点hv嵌入到一个低维向量空间中。通过学习得到的向量可以用于许多下游任务,例如节点分类、节点聚类和链接预测。应用于此任务的GNN可分为两类:基于频谱的GNN(spectral-based GNNs)和基于空间的GNN(spatial-based GNNs)。
其中较早期的工作集中于基于频谱的GNN,其利用图傅里叶变换(Graph FourierTransform)实现卷积。即利用图的拉普拉斯矩阵(Laplacian matrix)导出其频域上的拉普拉斯算子,再类比频域上的欧式空间中的卷积,导出图卷积的公式。基于频谱的GNN的主要缺点是只能执行直推学习(transductive learning),即为图中的每个节点训练唯一嵌入,使其无法自然地推广到看不见的节点,并且具有较差的可拓展性。
此外,相关工作提出了基于空间的GNN在图上进行归纳学习。其直接定义图域中的卷积,并通过从节点的局部邻域采样和聚合特征来获得节点嵌入。Graph-SAGE(WilliamL.Hamilton,Rex Ying,and Jure Leskovec.2017.Inductive Representation Learningon Large Graphs.In Advances in Neural Information Processing Systems.1024–1034.)即通过学习图的聚合函数,而不是每个节点的单个稠密向量来促进对图的未见节点的泛化。在这一想法的启发下,前人提出了许多其他基于空间的GNN变体,其中最著名的是GAT(Graph attention network),文献(Petar
Figure BDA0003049990680000021
Guillem Cucurull,ArantxaCasanova,Adriana Romero,Pietro Liò,and Yoshua Bengio.2018.Graph AttentionNetworks.In ICLR 2018:International Conference on Learning Representations2018.)将注意机制集成到聚合函数(aggregator function)中,为每个邻居节点分配相对重要性权重。
上述所有GNN都基于邻域聚合技术。然而,常见的邻域聚合只考虑节点特征,使得其只能捕获邻近相似性,但在捕获复杂邻域结构(即结构相似性)方面能力较差。最近的工作在理论上指出了传统基于聚合的GNN的这种弱点。文献(Andreas Loukas.2020.Whatgraph neural networks cannot learn:depth vs width.In ICLR 2020:EighthInternational Conference on Learning Representations.)表明,GCN应该足够具有足够的宽度和深度以检测特定的子图结构。许多其余工作也考虑了如何利用高阶局部结构模式的图,在这一系列的研究中,文献(John Boaz Lee,Ryan A.Rossi,Xiangnan Kong,Sungchul Kim,Eunyee Koh,and Anup Rao.2019.Graph Convolutional Networks withMotif-based Attention.In Proceedings of the 28th ACM International Conferenceon Information and Knowledge Management.499–508.)使用indicative motifs(一种连接模式)来捕获高阶连接模式,根据加权多跳高阶邻接矩阵进行聚合,然而其并没有显式地建模节点的结构特征。相反,文献(Yilun Jin,guojie song,and Chuan Shi.2020.GraLSP:Graph Neural Networks with Local Structural Patterns.In AAAI 2020:The Thirty-Fourth AAAI Conference on Artificial Intelligence,Vol.34.4361–4368.)通过随机的匿名游走路径(Sergey Ivanov and Evgeny Burnaev.2018.Anonymous WalkEmbeddings.In ICML 2018:Thirty-fifth International Conference on MachineLearning.2186–2195.)显式地捕获复杂的结构特征,每种匿名游走路径都嵌入到密集向量中以参与聚合过程。文献(Qingqing Long,Yilun Jin,Guojie Song,Yi Li,and WeiLin.2020.Graph Structural topic Neural Network.In KDD 2020:26th ACM SIGKDDConference on Knowledge Discovery and Data Mining.1065–1073.)并没有直接处理结构模式,而是专注于在多种结构模式上的分布,从而具有较小的方差,并具备更好的效率。
然而,上面提到的所有GNN都是为同构图构建的。异构图中存在不同类型的节点,因此节点特征往往位于不同的特征空间中。此外,不同的边类型使得异构图的连接模式比同构图中的连接模式更复杂。由于这些原因,同构图的GNN不能自然地适应异构图。
异构图嵌入的目的是在保持图的语义和拓扑的同时,使用稠密向量来表示图中的节点。例如,ESIM(Jingbo Shang,Meng Qu,Jialu Liu,Lance M.Kaplan,Jiawei Han,andJian Peng.2016.Meta-Path Guided Embedding for Similarity Search in Large-Scale Hetero geneous Information Networks.arXiv preprint arXiv:1610.09769(2016).)以元路径为指导,学习节点嵌入进行相似性搜索。Metapath2vec(Yuxiao Dong,Nitesh V.Chawla,and Ananthram Swami.2017.metapath2vec:Scalable RepresentationLearning for Heterogeneous Networks.In Proceedings of the 23rd ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.135–144.)在单个元路径的引导下生成随机游走,然后将路径输入skip-gram模型生成节点嵌入。HIN2Vec(Tao yang Fu,Wang-Chien Lee,and Zhen Lei.2017.HIN2Vec:Explore Meta paths inHeterogeneous Information Networks for Representation Learning.In Proceedingsof the 2017ACM on Conference on Information and Knowledge Management.1797–1806.)通过预测HIN中的不同关系来学习HIN嵌入。HAN(Xiao Wang,Houye Ji,Chuan Shi,Bai Wang,Yanfang Ye,Peng Cui,and Philip S Yu.2019.Heterogeneous GraphAttention Network.In The World Wide Web Conference on.2022–2032.)将异构图转换为多个基于元路径的同构图,然后使用图注意力机制聚合来自邻居节点的信息,并利用注意力机制来组合各种元路径。MAGNN(Xinyu Fu,Jiani Zhang,Ziqiao Meng,and IrwinKing.2020.MAGNN:Metapath Aggregated Graph Neural Network for HeterogeneousGraph Embedding.In WWW 2020:The Web Conference.2331–2341.)以与HAN相似的方式将异构图转换为多个同构图,但考虑了元路径上的中间节点和多个元路径之间的关系,以提高模型的性能。在另一项研究中,有几种方法在不使用元路径的情况下执行HIN嵌入。HetGNN(Chuxu Zhang,Dongjin Song,Chao Huang,Ananthram Swami,and NiteshV.Chawla.2019.Heterogeneous Graph Neural Network.In Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery&Data Mining.793–803.)保留了基于图神经网络的一阶相似性和二阶相似性。MV-ACM(Kai Zhao,Ting Bai,Bin Wu,Bai Wang,Youjie Zhang,Yuanyu Yang,and Jian-Yun Nie.2020.DeepAdversarial Completion for Sparse Heterogeneous Information NetworkLearning.In WWW 2020:The Web Conference.508–518.)通过整合来自不同语义空间的互补信息来处理HIN中的稀疏问题。
然而,上述引入的所有异构图嵌入方法都集中在学习近节点的邻近相似性上,而忽略了彼此相距较远的节点的结构相似性,即它们既不连接也没有相同的邻居。但在此问题中,结构特征是非常重要的,因此,如果忽略了彼此相距较远的节点的结构相似性必然会导致对消费意图分析的准确度低,通过同时利用学习邻近相似性和结构相似性仍然有改进的空间。
发明内容
本发明的目的是为解决由于现有方法忽略了彼此相距较远的节点的结构相似性,导致对消费意图分析的准确度低的问题,而提出了一种基于文本的消费意图分析方法。
本发明为解决上述技术问题所采取的技术方案是:一种基于文本的消费意图分析方法,所述方法具体包括以下步骤:
步骤一、利用基于预训练语言模型的序列标记模型(BERT-CRF)构建事件消费图(Event Consumption Graph);
步骤二、抽取事件消费图中节点的语义角度嵌入(embedding)和结构角度嵌入;
步骤三、将步骤二获得的语义角度嵌入和结构角度嵌入输入第一MLP(多层感知器)进行训练,输出为同一个节点的语义角度嵌入和结构角度嵌入的融合结果,即分别输出每个节点的语义角度嵌入和结构角度嵌入的融合结果;
步骤四、基于步骤三获得的融合结果,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,再将给定事件节点e的表示形式与给定产品节点p的表示形式连接,将连接结果输入第二MLP进行训练;
步骤五、对于关系待预测的事件节点e′和产品节点p′,将事件节点e′和产品节点p′融入构建的事件消费图后,抽取出事件节点e′的语义角度嵌入和结构角度嵌入以及产品节点p′的语义角度嵌入和结构角度嵌入;
利用训练好的第一MLP对语义角度嵌入和结构角度嵌入进行融合,得到事件节点e′的语义角度嵌入和结构角度嵌入的融合结果以及产品节点p′的语义角度嵌入和结构角度嵌入的融合结果;
再通过节点聚合获得事件节点e′和产品节点p′的表示形式,将事件节点e′的表示形式与产品节点p′的表示形式连接,将连接结果输入训练好的第二MLP进行关系预测。
具体的,所述步骤一的具体过程为:
从电子商务的评论数据中标记出部分事件-产品对,并利用标记出的事件-产品对以及标记出的事件-产品对所在的评论句子对基于预训练语言模型的序列标记模型进行训练;
再利用训练好的基于预训练语言模型的序列标记模型从未标记的电子商务评论数据中提取事件-产品对,将从包含噪声的评论数据中提取出的事件-产品对剔除后,获得筛选后的事件-产品对;
通过补充事件-事件关系、产品-产品关系,再根据筛选所得到的事件-产品关系,构建事件消费图;
具体的,所述补充事件-事件关系、产品-产品关系,其具体过程为:
事件-事件关系的补充
利用预训练语言模型分别得到每个事件的稠密表示,再根据得到的稠密表示计算两个事件的余弦相似度,若两个事件的余弦相似度大于等于设定的相似度阈值(本发明中阈值设置为0.981),则在两个事件之间添加一条边,否则不添加;
产品-产品关系的补充
遵循电子商务网站的产品分类系统来判断产品是否属于同一类别,若两个产品属于同一类别,则在两个产品之间添加一条边,否则不添加;
具体的,所述步骤二中,抽取事件消费图中节点的语义角度嵌入,其具体过程为:
对于事件消费图中的任一产品节点Vp,在事件消费图中检索到所有包含产品节点Vp的事件-产品对(Ve,Vp),将检索到的每个事件-产品对分别处理为([CLS]Ve,[CLS]Vp),其中,Ve为事件-产品对中的事件节点,[CLS]Ve为Ve所在的评论句子的开头,[CLS]Vp为Vp所在的评论句子的开头;
将([CLS]Ve,[CLS]Vp)输入预训练语言模型(BERT),将产品节点Vp的[CLS]令牌的最终隐藏状态作为产品节点Vp的表示,若检索到的事件-产品对(Ve,Vp)的个数为K,则产品节点Vp的语义角度嵌入为K个表示的平均;
同理,获得每个产品节点的语义角度嵌入以及每个事件节点的语义角度嵌入;
具体的,所述步骤二中,抽取事件消费图中节点的结构角度嵌入,其具体过程为:
节点类型集为A={a1,a2},其中,ai代表第i种类型的节点,i=1,2,每种类型节点的元结构数的集合为U={u1,u2},ui代表第i种类型节点的元结构数;
本发明中包含两种类型的节点,即事件节点和产品节点;
对于第i种类型节点ai,预定义的元结构集为
Figure BDA0003049990680000061
对应的诱导邻接矩阵为
Figure BDA0003049990680000062
其中,
Figure BDA0003049990680000063
为ai的第j个元结构,j=1,2,…,ui
Figure BDA0003049990680000064
为诱导邻接矩阵中的第j个元素;
根据诱导邻接矩阵生成每个元结构的结构矩阵,再将生成的各个结构矩阵分别压缩成一个结构向量,压缩成的结构向量组成的集合为
Figure BDA0003049990680000065
cj表示基于第j个元结构的结构向量;
采用多头注意机制(multi-head attention)将每个元结构的结构向量进行融合,得到节点ai的密集结构表示,即节点ai的结构角度嵌入;
Figure BDA0003049990680000066
其中,βj为cj的权重;
具体的,所述权重βj的计算方法为:
Figure BDA0003049990680000067
其中,ej=qT·cj,q为query向量,上角标T代表转置;
具体的,所述步骤四中,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,其具体过程为:
步骤四一、对于给定事件节点e,聚合与给定事件节点有交互的每个产品节点的表示,聚合过程如下函数所示:
Figure BDA0003049990680000068
其中,
Figure BDA0003049990680000071
为事件-产品关系聚合结果,C(k)是连接到给定事件节点的产品节点集,Aggree-g(·)是异构节点聚合函数,We-g和be-g分别是权重和偏差,σ表示激活函数;
步骤四二、同理,得到事件-事件关系的聚合结果
Figure BDA0003049990680000072
步骤四三、组合
Figure BDA0003049990680000073
Figure BDA0003049990680000074
得到给定事件节点e的表示形式oe
Figure BDA0003049990680000075
d2=σ(W2·d1+b2)
oe=σ(Wl·dl-1+bl)
其中,l是一个隐藏层的索引,
Figure BDA0003049990680000076
代表向量之间的连接,b2代表第2个隐藏层的偏差项,W2代表第2个隐藏层的系数矩阵,bl-1代表第l-1个隐藏层的偏差项,bl代表第l个隐藏层的偏差项,Wl代表第l个隐藏层的系数矩阵;
步骤四四、对于给定产品节点p,采用与步骤四一至步骤四三同样的方法获得给定产品节点p的表示形式op
具体的,所述激活函数σ为elu;
具体的,所述异构节点聚合函数Aggree-g为平均算子,其函数如下:
Figure BDA0003049990680000077
其中,hj′为C(k)中的第j′个产品节点的语义角度嵌入和结构角度嵌入的融合结果,aj′为hj′的权重;
具体的,所述权重aj′的计算过程为:
Figure BDA0003049990680000078
其中,
Figure BDA0003049990680000079
为hj′的初始权重,
Figure BDA00030499906800000710
为aj′经过格式化处理的结果,hk是给定节点的语义角度嵌入和结构角度嵌入的融合结果,w2代表attention层的参数向量,W1代表第1个隐藏层的系数矩阵,b1代表第1个隐藏层的偏差项,b代表attention层的偏移量,为实数标量参数;
Figure BDA0003049990680000081
进行归一化处理,得到hj′的权重aj′
Figure BDA0003049990680000082
具体的,所述将事件节点e′的表示形式与产品节点p′的表示形式连接,将连接结果输入训练好的第二MLP进行关系预测;其具体过程为:
Figure BDA0003049990680000083
g2=σ(W2·g1+b2)
...
gl=σ(Wl·gl-1+bl)
re′p′=σ(wT·gl)
其中,oe′为事件节点e′的表示形式,op′为产品节点p′的表示形式,w代表第二MLP的参数向量,re′p′表示事件节点e′是产品节点p′的有效使用场景的概率。
具体的,所述MLP的目标函数为交叉熵(cross-entrophy)损失函数,交叉熵(cross-entrophy)损失函数的形式具体为:
Figure BDA0003049990680000084
其中,ei为事件,pj为产品,ei,pj∈D,集合D由事件消费图中的事件产品对以及人工标注的8000对事件-商品关系组成,rei,pj表示事件ei是产品pj的有效使用场景的概率,yei,pj代表事件ei是否触发了针对产品pj的消费意图,若是则为1,否则为0。构建的事件消费图为模型提供了先验知识,可以取得更好的效果。
利用标准的ADAM算法对提出的技术(MS-HGNN)模型进行了参数优化。
本发明的有益效果是:本发明提出了一种基于文本的消费意图分析方法,本发明提出的技术(MS-HGNN)将任务描述为一个异构图推理任务,以充分利用全局连接信息,使用节点聚合机制来捕获语义特征,使用元结构来显式地建模远距离节点之间的拓扑结构相似性,考虑了远距离节点之间的拓扑结构相似性后,可以大幅提高消费意图分析结果的准确度。
本发明的技术也是构建大规模精确事件-产品知识库的关键步骤,可用于许多下游任务,具有较高的商业价值。
附图说明
图1是事件-商品对识别任务的示意图;
图2是相似局部拓扑结构示意图;
图3是本发明方法的流程图;
图4为模型结构图;
图5是定义不同元结构的示意图;
图6(a)为GAT的可视化结果图;
图6(b)为MAGNN的可视化结果图;
图6(c)为MS-HGNN的可视化结果图。
具体实施方式
具体实施方式一:结合图3和图4说明本实施方式。本发明利用电子商务评论数据构造了事件消耗图(event consumption graph,后续简称为ECG)。选择评论数据作为原始数据集的一个原因是,人们可以描述他们的购买动机或购买意图,即所购买的产品被用于评论中的内容。例如一篇关于润唇膏的评论,可能是“它看起来不错!我希望它能让我的嘴唇在这个冬天的远离干裂。”此短句可以抽取到事件-产品对:唇膏→保持我的嘴唇远离干裂。电子商务评论数据的另一个优点是,它几乎可以涵盖各种产品,具有较大的覆盖度。本发明方法具体包括以下步骤:
步骤一:通过基于预训练语言模型结合序列标记模型BERT-CRF,从电子商务评论句子中提取购买产品的触发事件。在句子层次上评估模型性能,即抽取事件片段是否正确。在测试数据集上的F1值达到91.2%。然后利用该模型从大规模未标记数据集中提取更多事件-产品对。进而得到了大量的原始事件-产品对。注意,在现实世界的情况中,包含噪声的评论数据中描述的事件可能并不贴合产品的确切使用场景。例如抽取模型从“我买它是为了免费送货”的评论中提取无效对“免费送货”-“商品”。显然此类事件在语义上过于泛化,需要进行额外的筛选。
步骤二:为了引入更多的外部知识,可以进一步利用事件-事件和产品-产品关系丰富成对数据,从而得到了一个异构图。图中有两种节点:事件节点和产品节点,三种关系:事件-事件关系、事件-产品关系和产品-产品关系。以下对几种关系进行介绍:对于事件-事件关系,将连接具有相似语义信息的事件。本发明认为,事件-事件关系可以缓解原始数据集中的稀疏问题,因为具有相似语义的事件可以共享相同的产品。对于产品-产品关系,如果产品对属于同一类别,即可添加一条边。本发明认为,产品-产品关系可以为区分一般事件和特定事件提供结构信息。直观地说,连接到一般事件的产品更有可能属于不同的类别,而与特定事件连接的产品往往属于同一类别。例如“免费送货”相应产品种类比较多样,但具体活动“游泳”相应产品主要是游泳设备。因此,与一般事件对应的产品的边的密度比在特定事件中的密度更稀疏。为了找出两个事件是否相似,本发明首先使用BERT来得到这两个事件的稠密表示。如果两个事件的余弦相似度超过阈值,即可将在它们之间添加一个边。至于产品类别,本方法遵循某电子商务网站的产品分类系统来判断货物是否属于同一类别,这样即可得到最终丰富的ECG。
步骤三:进行节点特征表示
1.语义层面的embedding。以往的图神经网络方法采用词袋(bag-of-words)来初始化节点表示,从而省略或未能充分利用语言节点对象的深度语义表示以及它们之间的交互作用。近年来,人们对预训练语言模型的兴趣激增,这在各种NLP(自然语言处理)任务上取得了良好的改进。在这项工作中,本发明提出了一种基于BERT的方法来学习ECG中的语义嵌入。由于事件和产品节点的处理过程完全相同,因此在这里以产品节点为例。具体地说,对于ECG中的每个产品节点
Figure BDA0003049990680000102
首先检索与ECG相关的所有事件-产物对。然后将每对数据
Figure BDA0003049990680000103
分别处理为:[CLS]Vi e
Figure BDA0003049990680000104
之后将序列送入BERT,将每个节点之前的[CLS]令牌的最终隐藏状态定义为相应节点的表示。如果
Figure BDA0003049990680000105
发生在K个事件-产品对中,即可以得到
Figure BDA0003049990680000106
的K个表示,
Figure BDA0003049990680000107
的最终表示是其K表示的平均嵌入。
2.结构层面的embedding。为了探索异构图的局部拓扑和连接模式,本发明提出了一系列元结构来提取子图模式。元结构可以看作是元路径的推广,其中考虑了不同类型节点之间更复杂的交互模式。与元路径相似,可以为不同类型的节点定义不同的元结构。给定图G,节点类型集A={a1....aL}和每种类型的节点U={u1....uL}的元结构数,表示预定义的元路径结构集为:
Figure BDA0003049990680000101
对于每个特定类型的ai,预定义的元结构集是
Figure BDA0003049990680000108
构造了相应的元结构诱导邻接矩阵Wt,相应的诱导邻接矩阵为
Figure BDA0003049990680000109
利用包含目标节点及其一阶邻域的子图的元结构诱导邻接矩阵对目标节点的局部的结构模式进行建模,为了保持特征向量的固定性,本发明方法均匀地采样每个类型的邻域集,而不是使用完整的邻域集,以保持特征向量的模糊性。通过这种方式,将为ai类型的节点生成ui结构矩阵。然后将每个矩阵都被压缩成一个结构向量:
Figure BDA0003049990680000111
这里,ai表示节点类型,cj表示基于j-元结构的结构向量。为了将多个结构向量融合到单个密集结构表示s中,进而使用多头注意机制(multi-head attention)将它们融合在一起。
ei=qT·ci
Figure BDA0003049990680000112
Figure BDA0003049990680000113
q为query向量;
在本发明中,为事件和产品节点设计了三种元结构。图5显示了由不同元结构定义的邻域及其权重,它们之间存在较大差异。M1,M2是专门为事件节点设计的,M3是为产品节点设计的。对于事件节点结构建模,目标是设计能够捕捉和反映一般事件和特定事件之间差异的特征。一个事件可能连接到各种产品,但是产品之间的关系可能会有很大的变化。直观地说,连接到一般事件的产品将相互连接并形成密集的子图,而连接到特定事件的产品具有稀疏连接或没有连接。因此,M1和M2可以有效地捕捉一般事件和特定事件之间连接模式的差异。
3.对于产品节点结构建模,目标应该是避免对直接连接它的事件节点应用单一的统一定义。直观地说,如果存在另一个与Vi e
Figure BDA0003049990680000114
一起连接的事件Vk
Figure BDA0003049990680000115
之间的联系可能会更强。因此,本发明定义了M3,只保持事件邻居通过较强的联系与产品的连接,这使模型能够区分较弱的联系和较强的联系。
4.语义和结构embedding融合:将语义嵌入x和结构嵌入s结合在一起。首先连接它们表示向量,然后将其输入MLP。
步骤四:进行多视图邻居聚合,本模块旨在分别学习给定事件和产品的表示形式。然后将学习到的表示形式输入到一个分数预测模块中,以预测这对组合的关系。
本发明提出的多视图体系结构进行聚合过程。在异构图的多视图体系结构中,在每个单一视图下的子图仅包含一种特定类型的关系类型,这使得我们能够避免在聚合不同类型的节点信息时带来的噪音。
1.内部视图聚合。首先,此部分介绍事件-产品关系的聚合方法。对于目标事件,本方法通过聚合与目标事件节点有交互的每个产品节点的表示,聚合过程如下函数所示:
Figure BDA0003049990680000121
其中,C(i)是连接到目标事件节点的产品节点集,hj是节点的表示向量,Aggree-g是异构节点聚合函数。We-g和be-g是一个神经网络的权重和偏差。σ表示一个非线性的激活函数,在此模型中,使用elu作为激活函数。有很多种聚合函数可以从中选择。一个常用的聚合函数是平均算子。其函数如下:
Figure BDA0003049990680000122
这里的ak固定为所有邻居的1/C(K)。缺点是所有邻居节点对表示目标节点的贡献相等,这可能不是最优的,因为节点之间的交互影响可能会有很大的变化。为了允许邻居做出不同的贡献,进而可以为每个交互分配一个权重,就像GAT所做的那样。
Figure BDA0003049990680000123
其中,akh表示与Vj和目标节点的交互作用的注意力权重。并将注意力akj用一个两层的注意力网络来得到,其定义如下:
Figure BDA0003049990680000124
这里hk是目标节点的embedding,通过使用Softmax函数对上述注意力分数进行归一化,得到最终的注意权重如下:
Figure BDA0003049990680000125
对于事件-事件关系的聚合,聚合函数的数学表示如下:
Figure BDA0003049990680000126
如公式所示,事件-事件聚合器的体系结构与事件-产品几乎相同。
2.跨视图聚合:为了学习更好的目标节点表示法,本发明考虑了不同视图空间之间的关系,使用标准MLP组合这两个向量,得到最终事件目标节点表示oe,定义为:
Figure BDA0003049990680000131
c2=σ(W2·d1+b2)
...
oe=σ(Wl·dl-1+bl)
其中,l是一个隐藏层的索引。
3.得分预测:产品目标节点的聚合过程与上述事件节点相同,但其模块参数相互独立。利用给定事件oe和给定商品op的密集表示,可以首先将它们连接
Figure BDA0003049990680000134
然后将其输入MLP进行相关关系预测:
Figure BDA0003049990680000132
g2=σ(W2·g1+b2)
...
gl-1=σ(Wl·gl-1+bl)
rep=σ(wT·gl-1)
在这里,l是一个隐藏层的索引,而rep代表是从事件e到产品p的预测的相关性分数。
步骤五:参数优化:本发明将交叉熵(cross-entrophy)指定为目标函数。rep表示事件e是产品p的有效使用场景的概率,则损失函数为:
Figure BDA0003049990680000133
利用标准的ADAM算法对MS-HGNN模型进行了参数优化。
本发明提出了一种识别产品与电子商务评论中出现的事件之间的关系的技术(MS-HGNN)。本发明方法一方面可以利用事件对信息的全局上下文来增强推理,另一方面,可以通过引入一系列元结构来提取特定的子图模式来挖掘异构图中节点的邻近相似性和结构相似性。结果已经表明,与最先进的技术如BERT、MAGNN等技术相比,本发明方法提出的MS-HGNN框架更好的捕获了节点的结构特征,并提高了此任务的F1分数。在元结构技术的帮助下,充分考虑节点的结构相似性的信息,克服了其余技术的局限性。
模型结构如图4所示,其具体效果如下:
1、通过与其他基于异构图的方法的比较,表明在事件-产品图中进行推理可以提高模型的性能。基于原始事件-产品图进行推理而非仅仅是基于单一的事件-产品对进行推理更好的利用了数据中的全局信息,所以能取得更好的效果。
2、实验表明,在异构模型中,HAN模型在执行任务时性能较差,甚至比GAT等同构图神经网络还差。这说明,为了区分事件-产品对关系,聚合来自同构邻居节点和异构邻居节点的信息是有效的。HAN仅聚合来自基于同构元路径的邻域(元路径上的末端节点)的信息,这有助于挖掘同构节点之间的相似性。例如沿元路径“电影-演员-电影”的聚合可以促进“共演员”关系建模。但是,在此的任务中,本发明目标是揭示异构节点(即事件和产品节点)之间的相关性,因此事件节点和产品节点之间的显式交互是非常重要的。基于对HAN的改进,MAGNN模型通过考虑元路径上的中间节点来改进HAN,从而隐式地补充异构邻居节点之间的交互,从而提高性能。本发明方法同时利用异构节点交互和节点拓扑模式特性,并进行进一步的改进。
3、在同构模型中,GraLSP模型优于GAT,因为GAT只考虑节点特征,而忽略了结构模式特征,但GraLSP模型使用匿名游走路径有效地捕获局部图结构,并将其表示为嵌入,进而将其合并到邻域聚合中。这表明了建模节点结构特征在此任务中的重要性和有效性。由于GraLSP主要是为同构图设计的,无法充分利用异构连接模式,只能利用单个元径基同构图的结构特征。但本发明提出的MS-HGNN模型可以借助元结构捕捉异构节点之间复杂的连接模式,更适用于此任务。
采用以下实例验证本发明的有益效果:
实施例一:
在表1中的带注释的数据集上列出了基线方法和MS-HGNN的识别精度结果,印证了本发明提出的模型(MS-HGNN)同时利用异构节点的交互作用和节点拓扑模式的特性;此图提供的异构和同构邻域为识别关系是否有效提供了额外的证据;MS-HGNN模型可以借助元结构捕捉异构节点之间复杂的连接模式,更适合此任务。
表1模型方法及基线方法实验结果
Figure BDA0003049990680000141
Figure BDA0003049990680000151
实施例二:
为了验证模型中每个组件的有效性,需进一步对不同的MS-HGNN变体进行实验。从表2中的变体获得结果。具体变体实验如下:
表2消融实验结果
Figure BDA0003049990680000152
基于MS-HGNN的方法,从不同的角度证实信息的有用性,通过去除MS-HGNN的不同部分,进一步评价MS-HGNN的每个模块的重要性,并得到:
1.MS-HGNN/EE:从最终模型中删除事件-事件关系聚合模块
2.MS-HGNN/PP:从最终模型中删除产品-产品关系聚合模块
3.MS-HGNN/Stru:从最终模型中删除元结构特征提取模块
对MS-HGNN、MS-HGNN/PP、MS-HGNN/EE的比较表明,添加边事件-事件和产品-产品可以提高模型的性能。原始事件-产品图是一个二部图,只存在事件-产品关系。用事件-事件和产品-产品的边丰富了事件与产品之间的联系关系。该结果验证了异构图构造的有用性。事件-事件的边提供了额外的推理过程。例如,当模型试图识别事件e1和产品p2之间的关系时,如果存在路径e1→e2→p2,它可以给予相对较高的分数,因为具有相似语义的事件往往共享相同的产品。并且该产品-产品边关联了属于同一类别的产品,这可能有助于识别该事件是一般的还是特定的。一般事件可能连接到不同范围的产品,因此它们不相互连接,从而导致子图密度较低。
在去除边属性聚合模块时,MS-HGNN模型的性能下降很大,这证明了对频率边属性的聚合方法的设计是值得的。很明显,频率越高,给定对有效的概率就越大。在本发明中,使用注意力机制来学习节点内容与边属性之间的交互。
MS-HGNN模型的性能优于基于元路径的异构图推理框架,证实了结构相似性的表示学习可以支持关系识别过程,并揭示了基于元路径的异构图推理框架倾向于保持接近相似性,但忽略了结构相似性。由目标节点及其邻域的元结构所提取的局部结构特征可用于推理。
实施例三:
除了对GNN模型进行定量评估外,本发明方法还对节点嵌入进行了可视化处理,以对嵌入结果进行定性评估。从数据集的正测试集中随机选择50个事件-产品对,然后使用t-SNE将这些节点的嵌入投影到二维空间中。在图6(a)、图6(b)、图6(c)中说明了GAT、MAGNN和MS-HGNN的可视化结果。其中,黑色点和灰色点分别表示事件和产品。
在可视化的基础上,可以快速地分辨出图嵌入模型在对异构图的学习能力方面的差异。作为传统的同构图嵌入,GAT不能有效地将事件和产品节点划分为两个不同的组。相反,异构模型MAGNN可以划分这两种类型的节点。本发明提出的MS-HGNN获得了最佳的嵌入结果,具有两个分离良好的事件和产品组,以及事件-产品对的同构相关性。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (7)

1.一种基于文本的消费意图分析方法,其特征在于,所述方法具体包括以下步骤:
步骤一、利用基于预训练语言模型的序列标记模型构建事件消费图;
所述步骤一的具体过程为:
从电子商务的评论数据中标记出部分事件-产品对,并利用标记出的事件-产品对以及标记出的事件-产品对所在的评论句子对基于预训练语言模型的序列标记模型进行训练;
再利用训练好的基于预训练语言模型的序列标记模型从未标记的电子商务评论数据中提取事件-产品对,将从包含噪声的评论数据中提取出的事件-产品对剔除后,获得筛选后的事件-产品对;
通过补充事件-事件关系、产品-产品关系,再根据筛选所得到的事件-产品关系,构建事件消费图;
所述补充事件-事件关系、产品-产品关系,其具体过程为:
事件-事件关系的补充
利用预训练语言模型分别得到每个事件的稠密表示,再根据得到的稠密表示计算两个事件的余弦相似度,若两个事件的余弦相似度大于等于设定的相似度阈值,则在两个事件之间添加一条边,否则不添加;
产品-产品关系的补充
遵循电子商务网站的产品分类系统来判断产品是否属于同一类别,若两个产品属于同一类别,则在两个产品之间添加一条边,否则不添加;
步骤二、抽取事件消费图中节点的语义角度嵌入和结构角度嵌入;
所述步骤二中,抽取事件消费图中节点的语义角度嵌入,其具体过程为:
对于事件消费图中的任一产品节点Vp,在事件消费图中检索到所有包含产品节点Vp的事件-产品对(Ve,Vp),将检索到的每个事件-产品对分别处理为([CLS]Ve,[CLS]Vp),其中,Ve为事件-产品对中的事件节点,[CLS]Ve为Ve所在的评论句子的开头,[CLS]Vp为Vp所在的评论句子的开头;
将([CLS]Ve,[CLS]Vp)输入预训练语言模型,将产品节点Vp的[CLS]令牌的最终隐藏状态作为产品节点Vp的表示,若检索到的事件-产品对(Ve,Vp)的个数为K,则产品节点Vp的语义角度嵌入为K个表示的平均;
同理,获得每个事件节点的语义角度嵌入;
所述步骤二中,抽取事件消费图中节点的结构角度嵌入,其具体过程为:
节点类型集为A={a1,a2},其中,ai代表第i种类型的节点,i=1,2,每种类型节点的元结构数的集合为U={u1,u2},ui代表第i种类型节点的元结构数;
对于第i种类型节点ai,预定义的元结构集为
Figure FDA0003326016920000021
对应的诱导邻接矩阵为
Figure FDA0003326016920000022
其中,
Figure FDA0003326016920000023
为ai的第j个元结构,j=1,2,…,ui
Figure FDA0003326016920000024
为诱导邻接矩阵中的第j个元素;
根据诱导邻接矩阵生成每个元结构的结构矩阵,再将生成的各个结构矩阵分别压缩成一个结构向量,压缩成的结构向量组成的集合为
Figure FDA0003326016920000025
cj表示基于第j个元结构的结构向量;
采用多头注意机制将每个元结构的结构向量进行融合,得到节点ai的密集结构表示,即节点ai的结构角度嵌入;
Figure FDA0003326016920000026
其中,βj为cj的权重;
步骤三、将步骤二获得的语义角度嵌入和结构角度嵌入输入第一MLP进行训练,输出为同一个节点的语义角度嵌入和结构角度嵌入的融合结果,即分别输出每个节点的语义角度嵌入和结构角度嵌入的融合结果;
步骤四、基于步骤三获得的融合结果,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,再将给定事件节点e的表示形式与给定产品节点p的表示形式连接,将连接结果输入第二MLP进行训练;
步骤五、对于关系待预测的事件节点e′和产品节点p′,将事件节点e′和产品节点p′融入构建的事件消费图后,抽取出事件节点e′的语义角度嵌入和结构角度嵌入以及产品节点p′的语义角度嵌入和结构角度嵌入;
利用训练好的第一MLP对语义角度嵌入和结构角度嵌入进行融合,得到事件节点e′的语义角度嵌入和结构角度嵌入的融合结果以及产品节点p′的语义角度嵌入和结构角度嵌入的融合结果;
再通过节点聚合获得事件节点e′和产品节点p′的表示形式,将事件节点e′的表示形式与产品节点p′的表示形式连接,将连接结果输入训练好的第二MLP进行关系预测。
2.根据权利要求1所述的一种基于文本的消费意图分析方法,其特征在于,所述βj的计算方法为:
Figure FDA0003326016920000031
其中,ej=qT·cj,q为query向量,上角标T代表转置。
3.根据权利要求2所述的一种基于文本的消费意图分析方法,其特征在于,所述步骤四中,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,其具体过程为:
步骤四一、对于给定事件节点e,聚合与给定事件节点有交互的每个产品节点的表示,聚合过程如下函数所示:
Figure FDA0003326016920000032
其中,
Figure FDA0003326016920000033
为事件-产品关系聚合结果,C(k)是连接到给定事件节点的产品节点集,Aggree-g(·)是异构节点聚合函数,We-g和be-g分别是权重和偏差,σ表示激活函数;
步骤四二、同理,得到事件-事件关系的聚合结果
Figure FDA0003326016920000034
步骤四三、组合
Figure FDA0003326016920000035
Figure FDA0003326016920000036
得到给定事件节点e的表示形式oe
Figure FDA0003326016920000037
其中,l是一个隐藏层的索引,
Figure FDA0003326016920000038
代表向量之间的连接,b2代表第2个隐藏层的偏差项,W2代表第2个隐藏层的系数矩阵,bl-1代表第l-1个隐藏层的偏差项,bl代表第l个隐藏层的偏差项,Wl代表第l个隐藏层的系数矩阵;
步骤四四、对于给定产品节点p,采用与步骤四一至步骤四三同样的方法获得给定产品节点p的表示形式op
4.根据权利要求3所述的一种基于文本的消费意图分析方法,其特征在于,所述激活函数σ为elu。
5.根据权利要求4所述的一种基于文本的消费意图分析方法,其特征在于,所述异构节点聚合函数Aggree-g为平均算子,其函数如下:
Figure FDA0003326016920000041
其中,hj′为C(k)中的第j′个产品节点的语义角度嵌入和结构角度嵌入的融合结果,aj′为hj′的权重。
6.根据权利要求5所述的一种基于文本的消费意图分析方法,其特征在于,所述aj′的计算过程为:
Figure FDA0003326016920000042
其中,
Figure FDA0003326016920000043
为hj′的初始权重,hk是给定节点的语义角度嵌入和结构角度嵌入的融合结果,w2代表attention层的参数向量,W1代表第1个隐藏层的系数矩阵,b1代表第1个隐藏层的偏差项,b代表attention层的偏移量;
Figure FDA0003326016920000044
进行归一化处理,得到hj′的权重aj′
Figure FDA0003326016920000045
7.根据权利要求6所述的一种基于文本的消费意图分析方法,其特征在于,所述将事件节点e′的表示形式与产品节点p′的表示形式连接,将连接结果输入训练好的第二MLP进行关系预测;其具体过程为:
Figure FDA0003326016920000046
g2=σ(W2·g1+b2)
...
gl=σ(Wl·gl-1+bl)
re′p′=σ(wT·gl)
其中,oe′为事件节点e′的表示形式,op′为产品节点p′的表示形式,w代表第二MLP 的参数向量,re′p′表示事件节点e′是产品节点p′的有效使用场景的概率。
CN202110485144.0A 2021-04-30 2021-04-30 一种基于文本的消费意图分析方法 Active CN113095088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110485144.0A CN113095088B (zh) 2021-04-30 2021-04-30 一种基于文本的消费意图分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110485144.0A CN113095088B (zh) 2021-04-30 2021-04-30 一种基于文本的消费意图分析方法

Publications (2)

Publication Number Publication Date
CN113095088A CN113095088A (zh) 2021-07-09
CN113095088B true CN113095088B (zh) 2022-03-04

Family

ID=76681117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110485144.0A Active CN113095088B (zh) 2021-04-30 2021-04-30 一种基于文本的消费意图分析方法

Country Status (1)

Country Link
CN (1) CN113095088B (zh)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862027B (zh) * 2017-10-31 2019-03-12 北京小度信息科技有限公司 检索意图识别方法、装置、电子设备及可读存储介质
CN112132633B (zh) * 2020-09-30 2021-07-06 哈尔滨工业大学 一种基于消费事理图谱的消费意图识别和预测方法

Also Published As

Publication number Publication date
CN113095088A (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
Zhang et al. Network representation learning: A survey
Xia et al. Graph learning: A survey
Cavallari et al. Embedding both finite and infinite communities on graphs [application notes]
Fortunato Community detection in graphs
Luqman et al. Fuzzy multilevel graph embedding
Moyano Learning network representations
Liao et al. Deep linear graph attention model for attributed graph clustering
Huang et al. Learning social image embedding with deep multimodal attention networks
Liu et al. Effective model integration algorithm for improving link and sign prediction in complex networks
Dong et al. Iterative graph attention memory network for cross-modal retrieval
Agrawal et al. Community detection in networks using graph embedding
Tong et al. Representation learning using Attention Network and CNN for Heterogeneous networks
Xu et al. Visual sentiment analysis with social relations-guided multiattention networks
Li et al. Adaptive subgraph neural network with reinforced critical structure mining
Fang et al. Contrastive multi-modal knowledge graph representation learning
Huang et al. From content to links: Social image embedding with deep multimodal model
Wang et al. Heterogeneous graph neural network for attribute completion
Duan et al. Self-supervised contrastive graph representation with node and graph augmentation
Jaffali et al. Survey on social networks data analysis
CN113095088B (zh) 一种基于文本的消费意图分析方法
CN106156259A (zh) 一种用户行为信息展示方法及系统
Han et al. An effective heterogeneous information network representation learning framework
Su et al. Multi-view graph matching for 3D model retrieval
Xue et al. An incremental group-specific framework based on community detection for cold start recommendation
Qi et al. Instance-Incremental Scene Graph Generation From Real-World Point Clouds via Normalizing Flows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant