CN113095088A - 一种基于文本的消费意图分析方法 - Google Patents
一种基于文本的消费意图分析方法 Download PDFInfo
- Publication number
- CN113095088A CN113095088A CN202110485144.0A CN202110485144A CN113095088A CN 113095088 A CN113095088 A CN 113095088A CN 202110485144 A CN202110485144 A CN 202110485144A CN 113095088 A CN113095088 A CN 113095088A
- Authority
- CN
- China
- Prior art keywords
- node
- event
- product
- embedding
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 61
- 230000002776 aggregation Effects 0.000 claims abstract description 39
- 238000004220 aggregation Methods 0.000 claims abstract description 39
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 230000009469 supplementation Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 10
- 238000012552 review Methods 0.000 description 6
- 238000012800 visualization Methods 0.000 description 6
- 238000002565 electrocardiography Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009182 swimming Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000566114 Anser rossii Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101100285518 Drosophila melanogaster how gene Proteins 0.000 description 1
- 206010013786 Dry skin Diseases 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000037336 dry skin Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000007934 lip balm Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于文本的消费意图分析方法,它属于消费意图分析技术领域。本发明解决了由于现有方法忽略了彼此相距较远的节点的结构相似性,导致对消费意图分析的准确度低的问题。本发明提出的技术将任务描述为一个异构图推理任务,以充分利用全局连接信息,使用节点聚合机制来捕获语义特征,使用元结构来显式地建模远距离节点之间的拓扑结构相似性,考虑了远距离节点之间的拓扑结构相似性后,可以大幅提高消费意图分析结果的准确度。本发明可以应用于消费意图分析。
Description
技术领域
本发明属于消费意图分析技术领域,具体涉及一种基于文本的消费意图分析方法。
背景技术
许多人类的消费意图是由他将要做的事情所触发的。例如,如果一个人想“跑步”,他可能需要一双“跑鞋”。事实上,挖掘这样的事件与产品的关系对社交媒体平台和电子商务网站都可以起到作用,以帮助他们更好地了解客户,并修正他们对个体的广告策略。事件-产品对识别(EPI)任务旨在识别事件是否能触发一个人对产品的消费意图,是目前在社交媒体平台和电子商务网站等领域非常重要的商业需求,遂此任务的目标是帮助构建和完成大规模事件-产品知识库。例如,如图1和图2所示,给定事件-产品对(e1,p1),此任务的目标是确定想要“摆脱干燥皮肤”的人是否需要“面膜”。此任务具有挑战性的问题有待解决。即事件-产品对的上下文信息有限,无法捕捉事件和产品之间的复杂关系。
此前所在消费意图分析领域的方法,如文献(Xinyu Fu,Jiani Zhang,ZiqiaoMeng,and Irwin King.2020.MAGNN:Metapath Aggregated Graph Neural Network forHeterogeneous Graph Embedding.In WWW 2020:The Web Conference.2331–2341.)是将节点嵌入到保留网络语义和结构信息的稠密向量中。为了处理多种类型的节点和关系,元路径被广泛用于将原始异构网络转换为多个同构网络,进而进行特征聚合,即节点从每个同构网络的拓扑邻居中聚合特征信息。这样,特征信息在网络拓扑上传播以生成节点嵌入,从而有利于下游任务。然而,现有的异构图神经网络的工作大多集中在保持“接近”(proximity)的概念,而不是局部拓扑结构的概念。在这里,“接近”是一种节点级特征,这意味着两个节点在图中空间的距离较近。而局部拓扑结构是一种立足于全局图结构上的结构特征。
近几年来,大量此任务的工作集中在神经网络的图表,如文献(PetarGuillem Cucurull,Arantxa Casanova,Adriana Romero,Pietro Liò,and YoshuaBengio.2018.Graph Attention Networks.In ICLR 2018:Interna tional Conferenceon Learning Representations 2018.以及Tom Young,Devamanyu Hazarika,SoujanyaPoria,and Erik Cambria.2017.Recent Trends in Deep Learning Based NaturalLanguage Processing.arXiv preprint arXiv:1708.02709(2017).)。图神经网络(GNN)的目标是将图中的每个节点hv嵌入到一个低维向量空间中。通过学习得到的向量可以用于许多下游任务,例如节点分类、节点聚类和链接预测。应用于此任务的GNN可分为两类:基于频谱的GNN(spectral-based GNNs)和基于空间的GNN(spatial-based GNNs)。
其中较早期的工作集中于基于频谱的GNN,其利用图傅里叶变换(Graph FourierTransform)实现卷积。即利用图的拉普拉斯矩阵(Laplacian matrix)导出其频域上的拉普拉斯算子,再类比频域上的欧式空间中的卷积,导出图卷积的公式。基于频谱的GNN的主要缺点是只能执行直推学习(transductive learning),即为图中的每个节点训练唯一嵌入,使其无法自然地推广到看不见的节点,并且具有较差的可拓展性。
此外,相关工作提出了基于空间的GNN在图上进行归纳学习。其直接定义图域中的卷积,并通过从节点的局部邻域采样和聚合特征来获得节点嵌入。Graph-SAGE(WilliamL.Hamilton,Rex Ying,and Jure Leskovec.2017.Inductive Representation Learningon Large Graphs.In Advances in Neural Information Processing Systems.1024–1034.)即通过学习图的聚合函数,而不是每个节点的单个稠密向量来促进对图的未见节点的泛化。在这一想法的启发下,前人提出了许多其他基于空间的GNN变体,其中最著名的是GAT(Graph attention network),文献(PetarGuillem Cucurull,ArantxaCasanova,Adriana Romero,Pietro Liò,and Yoshua Bengio.2018.Graph AttentionNetworks.In ICLR 2018:International Conference on Learning Representations2018.)将注意机制集成到聚合函数(aggregator function)中,为每个邻居节点分配相对重要性权重。
上述所有GNN都基于邻域聚合技术。然而,常见的邻域聚合只考虑节点特征,使得其只能捕获邻近相似性,但在捕获复杂邻域结构(即结构相似性)方面能力较差。最近的工作在理论上指出了传统基于聚合的GNN的这种弱点。文献(Andreas Loukas.2020.Whatgraph neural networks cannot learn:depth vs width.In ICLR 2020:EighthInternational Conference on Learning Representations.)表明,GCN应该足够具有足够的宽度和深度以检测特定的子图结构。许多其余工作也考虑了如何利用高阶局部结构模式的图,在这一系列的研究中,文献(John Boaz Lee,Ryan A.Rossi,Xiangnan Kong,Sungchul Kim,Eunyee Koh,and Anup Rao.2019.Graph Convolutional Networks withMotif-based Attention.In Proceedings of the 28th ACM International Conferenceon Information and Knowledge Management.499–508.)使用indicative motifs(一种连接模式)来捕获高阶连接模式,根据加权多跳高阶邻接矩阵进行聚合,然而其并没有显式地建模节点的结构特征。相反,文献(Yilun Jin,guojie song,and Chuan Shi.2020.GraLSP:Graph Neural Networks with Local Structural Patterns.In AAAI 2020:The Thirty-Fourth AAAI Conference on Artificial Intelligence,Vol.34.4361–4368.)通过随机的匿名游走路径(Sergey Ivanov and Evgeny Burnaev.2018.Anonymous WalkEmbeddings.In ICML 2018:Thirty-fifth International Conference on MachineLearning.2186–2195.)显式地捕获复杂的结构特征,每种匿名游走路径都嵌入到密集向量中以参与聚合过程。文献(Qingqing Long,Yilun Jin,Guojie Song,Yi Li,and WeiLin.2020.Graph Structural topic Neural Network.In KDD 2020:26th ACM SIGKDDConference on Knowledge Discovery and Data Mining.1065–1073.)并没有直接处理结构模式,而是专注于在多种结构模式上的分布,从而具有较小的方差,并具备更好的效率。
然而,上面提到的所有GNN都是为同构图构建的。异构图中存在不同类型的节点,因此节点特征往往位于不同的特征空间中。此外,不同的边类型使得异构图的连接模式比同构图中的连接模式更复杂。由于这些原因,同构图的GNN不能自然地适应异构图。
异构图嵌入的目的是在保持图的语义和拓扑的同时,使用稠密向量来表示图中的节点。例如,ESIM(Jingbo Shang,Meng Qu,Jialu Liu,Lance M.Kaplan,Jiawei Han,andJian Peng.2016.Meta-Path Guided Embedding for Similarity Search in Large-Scale Hetero geneous Information Networks.arXiv preprint arXiv:1610.09769(2016).)以元路径为指导,学习节点嵌入进行相似性搜索。Metapath2vec(Yuxiao Dong,Nitesh V.Chawla,and Ananthram Swami.2017.metapath2vec:Scalable RepresentationLearning for Heterogeneous Networks.In Proceedings of the 23rd ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.135–144.)在单个元路径的引导下生成随机游走,然后将路径输入skip-gram模型生成节点嵌入。HIN2Vec(Tao yang Fu,Wang-Chien Lee,and Zhen Lei.2017.HIN2Vec:Explore Meta paths inHeterogeneous Information Networks for Representation Learning.In Proceedingsof the 2017ACM on Conference on Information and Knowledge Management.1797–1806.)通过预测HIN中的不同关系来学习HIN嵌入。HAN(Xiao Wang,Houye Ji,Chuan Shi,Bai Wang,Yanfang Ye,Peng Cui,and Philip S Yu.2019.Heterogeneous GraphAttention Network.In The World Wide Web Conference on.2022–2032.)将异构图转换为多个基于元路径的同构图,然后使用图注意力机制聚合来自邻居节点的信息,并利用注意力机制来组合各种元路径。MAGNN(Xinyu Fu,Jiani Zhang,Ziqiao Meng,and IrwinKing.2020.MAGNN:Metapath Aggregated Graph Neural Network for HeterogeneousGraph Embedding.In WWW 2020:The Web Conference.2331–2341.)以与HAN相似的方式将异构图转换为多个同构图,但考虑了元路径上的中间节点和多个元路径之间的关系,以提高模型的性能。在另一项研究中,有几种方法在不使用元路径的情况下执行HIN嵌入。HetGNN(Chuxu Zhang,Dongjin Song,Chao Huang,Ananthram Swami,and NiteshV.Chawla.2019.Heterogeneous Graph Neural Network.In Proceedings of the 25thACM SIGKDD International Conference on Knowledge Discovery&Data Mining.793–803.)保留了基于图神经网络的一阶相似性和二阶相似性。MV-ACM(Kai Zhao,Ting Bai,Bin Wu,Bai Wang,Youjie Zhang,Yuanyu Yang,and Jian-Yun Nie.2020.DeepAdversarial Completion for Sparse Heterogeneous Information NetworkLearning.In WWW 2020:The Web Conference.508–518.)通过整合来自不同语义空间的互补信息来处理HIN中的稀疏问题。
然而,上述引入的所有异构图嵌入方法都集中在学习近节点的邻近相似性上,而忽略了彼此相距较远的节点的结构相似性,即它们既不连接也没有相同的邻居。但在此问题中,结构特征是非常重要的,因此,如果忽略了彼此相距较远的节点的结构相似性必然会导致对消费意图分析的准确度低,通过同时利用学习邻近相似性和结构相似性仍然有改进的空间。
发明内容
本发明的目的是为解决由于现有方法忽略了彼此相距较远的节点的结构相似性,导致对消费意图分析的准确度低的问题,而提出了一种基于文本的消费意图分析方法。
本发明为解决上述技术问题所采取的技术方案是:一种基于文本的消费意图分析方法,所述方法具体包括以下步骤:
步骤一、利用基于预训练语言模型的序列标记模型(BERT-CRF)构建事件消费图(Event Consumption Graph);
步骤二、抽取事件消费图中节点的语义角度嵌入(embedding)和结构角度嵌入;
步骤三、将步骤二获得的语义角度嵌入和结构角度嵌入输入第一MLP(多层感知器)进行训练,输出为同一个节点的语义角度嵌入和结构角度嵌入的融合结果,即分别输出每个节点的语义角度嵌入和结构角度嵌入的融合结果;
步骤四、基于步骤三获得的融合结果,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,再将给定事件节点e的表示形式与给定产品节点p的表示形式连接,将连接结果输入第二MLP进行训练;
步骤五、对于关系待预测的事件节点e′和产品节点p′,将事件节点e′和产品节点p′融入构建的事件消费图后,抽取出事件节点e′的语义角度嵌入和结构角度嵌入以及产品节点p′的语义角度嵌入和结构角度嵌入;
利用训练好的第一MLP对语义角度嵌入和结构角度嵌入进行融合,得到事件节点e′的语义角度嵌入和结构角度嵌入的融合结果以及产品节点p′的语义角度嵌入和结构角度嵌入的融合结果;
再通过节点聚合获得事件节点e′和产品节点p′的表示形式,将事件节点e′的表示形式与产品节点p′的表示形式连接,将连接结果输入训练好的第二MLP进行关系预测。
具体的,所述步骤一的具体过程为:
从电子商务的评论数据中标记出部分事件-产品对,并利用标记出的事件-产品对以及标记出的事件-产品对所在的评论句子对基于预训练语言模型的序列标记模型进行训练;
再利用训练好的基于预训练语言模型的序列标记模型从未标记的电子商务评论数据中提取事件-产品对,将从包含噪声的评论数据中提取出的事件-产品对剔除后,获得筛选后的事件-产品对;
通过补充事件-事件关系、产品-产品关系,再根据筛选所得到的事件-产品关系,构建事件消费图;
具体的,所述补充事件-事件关系、产品-产品关系,其具体过程为:
事件-事件关系的补充
利用预训练语言模型分别得到每个事件的稠密表示,再根据得到的稠密表示计算两个事件的余弦相似度,若两个事件的余弦相似度大于等于设定的相似度阈值(本发明中阈值设置为0.981),则在两个事件之间添加一条边,否则不添加;
产品-产品关系的补充
遵循电子商务网站的产品分类系统来判断产品是否属于同一类别,若两个产品属于同一类别,则在两个产品之间添加一条边,否则不添加;
具体的,所述步骤二中,抽取事件消费图中节点的语义角度嵌入,其具体过程为:
对于事件消费图中的任一产品节点Vp,在事件消费图中检索到所有包含产品节点Vp的事件-产品对(Ve,Vp),将检索到的每个事件-产品对分别处理为([CLS]Ve,[CLS]Vp),其中,Ve为事件-产品对中的事件节点,[CLS]Ve为Ve所在的评论句子的开头,[CLS]Vp为Vp所在的评论句子的开头;
将([CLS]Ve,[CLS]Vp)输入预训练语言模型(BERT),将产品节点Vp的[CLS]令牌的最终隐藏状态作为产品节点Vp的表示,若检索到的事件-产品对(Ve,Vp)的个数为K,则产品节点Vp的语义角度嵌入为K个表示的平均;
同理,获得每个产品节点的语义角度嵌入以及每个事件节点的语义角度嵌入;
具体的,所述步骤二中,抽取事件消费图中节点的结构角度嵌入,其具体过程为:
节点类型集为A={a1,a2},其中,ai代表第i种类型的节点,i=1,2,每种类型节点的元结构数的集合为U={u1,u2},ui代表第i种类型节点的元结构数;
本发明中包含两种类型的节点,即事件节点和产品节点;
采用多头注意机制(multi-head attention)将每个元结构的结构向量进行融合,得到节点ai的密集结构表示,即节点ai的结构角度嵌入;
其中,βj为cj的权重;
具体的,所述权重βj的计算方法为:
其中,ej=qT·cj,q为query向量,上角标T代表转置;
具体的,所述步骤四中,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,其具体过程为:
步骤四一、对于给定事件节点e,聚合与给定事件节点有交互的每个产品节点的表示,聚合过程如下函数所示:
d2=σ(W2·d1+b2)
…
oe=σ(Wl·dl-1+bl)
其中,l是一个隐藏层的索引,代表向量之间的连接,b2代表第2个隐藏层的偏差项,W2代表第2个隐藏层的系数矩阵,bl-1代表第l-1个隐藏层的偏差项,bl代表第l个隐藏层的偏差项,Wl代表第l个隐藏层的系数矩阵;
步骤四四、对于给定产品节点p,采用与步骤四一至步骤四三同样的方法获得给定产品节点p的表示形式op;
具体的,所述激活函数σ为elu;
具体的,所述异构节点聚合函数Aggree-g为平均算子,其函数如下:
其中,hj′为C(k)中的第j′个产品节点的语义角度嵌入和结构角度嵌入的融合结果,aj′为hj′的权重;
具体的,所述权重aj′的计算过程为:
其中,为hj′的初始权重,为aj′经过格式化处理的结果,hk是给定节点的语义角度嵌入和结构角度嵌入的融合结果,w2代表attention层的参数向量,W1代表第1个隐藏层的系数矩阵,b1代表第1个隐藏层的偏差项,b代表attention层的偏移量,为实数标量参数;
具体的,所述将事件节点e′的表示形式与产品节点p′的表示形式连接,将连接结果输入训练好的第二MLP进行关系预测;其具体过程为:
g2=σ(W2·g1+b2)
...
gl=σ(Wl·gl-1+bl)
re′p′=σ(wT·gl)
其中,oe′为事件节点e′的表示形式,op′为产品节点p′的表示形式,w代表第二MLP的参数向量,re′p′表示事件节点e′是产品节点p′的有效使用场景的概率。
具体的,所述MLP的目标函数为交叉熵(cross-entrophy)损失函数,交叉熵(cross-entrophy)损失函数的形式具体为:
其中,ei为事件,pj为产品,ei,pj∈D,集合D由事件消费图中的事件产品对以及人工标注的8000对事件-商品关系组成,rei,pj表示事件ei是产品pj的有效使用场景的概率,yei,pj代表事件ei是否触发了针对产品pj的消费意图,若是则为1,否则为0。构建的事件消费图为模型提供了先验知识,可以取得更好的效果。
利用标准的ADAM算法对提出的技术(MS-HGNN)模型进行了参数优化。
本发明的有益效果是:本发明提出了一种基于文本的消费意图分析方法,本发明提出的技术(MS-HGNN)将任务描述为一个异构图推理任务,以充分利用全局连接信息,使用节点聚合机制来捕获语义特征,使用元结构来显式地建模远距离节点之间的拓扑结构相似性,考虑了远距离节点之间的拓扑结构相似性后,可以大幅提高消费意图分析结果的准确度。
本发明的技术也是构建大规模精确事件-产品知识库的关键步骤,可用于许多下游任务,具有较高的商业价值。
附图说明
图1是事件-商品对识别任务的示意图;
图2是相似局部拓扑结构示意图;
图3是本发明方法的流程图;
图4为模型结构图;
图5是定义不同元结构的示意图;
图6(a)为GAT的可视化结果图;
图6(b)为MAGNN的可视化结果图;
图6(c)为MS-HGNN的可视化结果图。
具体实施方式
具体实施方式一:结合图3和图4说明本实施方式。本发明利用电子商务评论数据构造了事件消耗图(event consumption graph,后续简称为ECG)。选择评论数据作为原始数据集的一个原因是,人们可以描述他们的购买动机或购买意图,即所购买的产品被用于评论中的内容。例如一篇关于润唇膏的评论,可能是“它看起来不错!我希望它能让我的嘴唇在这个冬天的远离干裂。”此短句可以抽取到事件-产品对:唇膏→保持我的嘴唇远离干裂。电子商务评论数据的另一个优点是,它几乎可以涵盖各种产品,具有较大的覆盖度。本发明方法具体包括以下步骤:
步骤一:通过基于预训练语言模型结合序列标记模型BERT-CRF,从电子商务评论句子中提取购买产品的触发事件。在句子层次上评估模型性能,即抽取事件片段是否正确。在测试数据集上的F1值达到91.2%。然后利用该模型从大规模未标记数据集中提取更多事件-产品对。进而得到了大量的原始事件-产品对。注意,在现实世界的情况中,包含噪声的评论数据中描述的事件可能并不贴合产品的确切使用场景。例如抽取模型从“我买它是为了免费送货”的评论中提取无效对“免费送货”-“商品”。显然此类事件在语义上过于泛化,需要进行额外的筛选。
步骤二:为了引入更多的外部知识,可以进一步利用事件-事件和产品-产品关系丰富成对数据,从而得到了一个异构图。图中有两种节点:事件节点和产品节点,三种关系:事件-事件关系、事件-产品关系和产品-产品关系。以下对几种关系进行介绍:对于事件-事件关系,将连接具有相似语义信息的事件。本发明认为,事件-事件关系可以缓解原始数据集中的稀疏问题,因为具有相似语义的事件可以共享相同的产品。对于产品-产品关系,如果产品对属于同一类别,即可添加一条边。本发明认为,产品-产品关系可以为区分一般事件和特定事件提供结构信息。直观地说,连接到一般事件的产品更有可能属于不同的类别,而与特定事件连接的产品往往属于同一类别。例如“免费送货”相应产品种类比较多样,但具体活动“游泳”相应产品主要是游泳设备。因此,与一般事件对应的产品的边的密度比在特定事件中的密度更稀疏。为了找出两个事件是否相似,本发明首先使用BERT来得到这两个事件的稠密表示。如果两个事件的余弦相似度超过阈值,即可将在它们之间添加一个边。至于产品类别,本方法遵循某电子商务网站的产品分类系统来判断货物是否属于同一类别,这样即可得到最终丰富的ECG。
步骤三:进行节点特征表示
1.语义层面的embedding。以往的图神经网络方法采用词袋(bag-of-words)来初始化节点表示,从而省略或未能充分利用语言节点对象的深度语义表示以及它们之间的交互作用。近年来,人们对预训练语言模型的兴趣激增,这在各种NLP(自然语言处理)任务上取得了良好的改进。在这项工作中,本发明提出了一种基于BERT的方法来学习ECG中的语义嵌入。由于事件和产品节点的处理过程完全相同,因此在这里以产品节点为例。具体地说,对于ECG中的每个产品节点首先检索与ECG相关的所有事件-产物对。然后将每对数据分别处理为:[CLS]Vi e,之后将序列送入BERT,将每个节点之前的[CLS]令牌的最终隐藏状态定义为相应节点的表示。如果发生在K个事件-产品对中,即可以得到的K个表示,的最终表示是其K表示的平均嵌入。
2.结构层面的embedding。为了探索异构图的局部拓扑和连接模式,本发明提出了一系列元结构来提取子图模式。元结构可以看作是元路径的推广,其中考虑了不同类型节点之间更复杂的交互模式。与元路径相似,可以为不同类型的节点定义不同的元结构。给定图G,节点类型集A={a1....aL}和每种类型的节点U={u1....uL}的元结构数,表示预定义的元路径结构集为:
对于每个特定类型的ai,预定义的元结构集是构造了相应的元结构诱导邻接矩阵Wt,相应的诱导邻接矩阵为利用包含目标节点及其一阶邻域的子图的元结构诱导邻接矩阵对目标节点的局部的结构模式进行建模,为了保持特征向量的固定性,本发明方法均匀地采样每个类型的邻域集,而不是使用完整的邻域集,以保持特征向量的模糊性。通过这种方式,将为ai类型的节点生成ui结构矩阵。然后将每个矩阵都被压缩成一个结构向量:
这里,ai表示节点类型,cj表示基于j-元结构的结构向量。为了将多个结构向量融合到单个密集结构表示s中,进而使用多头注意机制(multi-head attention)将它们融合在一起。
ei=qT·ci
q为query向量;
在本发明中,为事件和产品节点设计了三种元结构。图5显示了由不同元结构定义的邻域及其权重,它们之间存在较大差异。M1,M2是专门为事件节点设计的,M3是为产品节点设计的。对于事件节点结构建模,目标是设计能够捕捉和反映一般事件和特定事件之间差异的特征。一个事件可能连接到各种产品,但是产品之间的关系可能会有很大的变化。直观地说,连接到一般事件的产品将相互连接并形成密集的子图,而连接到特定事件的产品具有稀疏连接或没有连接。因此,M1和M2可以有效地捕捉一般事件和特定事件之间连接模式的差异。
3.对于产品节点结构建模,目标应该是避免对直接连接它的事件节点应用单一的统一定义。直观地说,如果存在另一个与Vi e和一起连接的事件Vk,之间的联系可能会更强。因此,本发明定义了M3,只保持事件邻居通过较强的联系与产品的连接,这使模型能够区分较弱的联系和较强的联系。
4.语义和结构embedding融合:将语义嵌入x和结构嵌入s结合在一起。首先连接它们表示向量,然后将其输入MLP。
步骤四:进行多视图邻居聚合,本模块旨在分别学习给定事件和产品的表示形式。然后将学习到的表示形式输入到一个分数预测模块中,以预测这对组合的关系。
本发明提出的多视图体系结构进行聚合过程。在异构图的多视图体系结构中,在每个单一视图下的子图仅包含一种特定类型的关系类型,这使得我们能够避免在聚合不同类型的节点信息时带来的噪音。
1.内部视图聚合。首先,此部分介绍事件-产品关系的聚合方法。对于目标事件,本方法通过聚合与目标事件节点有交互的每个产品节点的表示,聚合过程如下函数所示:
其中,C(i)是连接到目标事件节点的产品节点集,hj是节点的表示向量,Aggree-g是异构节点聚合函数。We-g和be-g是一个神经网络的权重和偏差。σ表示一个非线性的激活函数,在此模型中,使用elu作为激活函数。有很多种聚合函数可以从中选择。一个常用的聚合函数是平均算子。其函数如下:
这里的ak固定为所有邻居的1/C(K)。缺点是所有邻居节点对表示目标节点的贡献相等,这可能不是最优的,因为节点之间的交互影响可能会有很大的变化。为了允许邻居做出不同的贡献,进而可以为每个交互分配一个权重,就像GAT所做的那样。
其中,akh表示与Vj和目标节点的交互作用的注意力权重。并将注意力akj用一个两层的注意力网络来得到,其定义如下:
这里hk是目标节点的embedding,通过使用Softmax函数对上述注意力分数进行归一化,得到最终的注意权重如下:
对于事件-事件关系的聚合,聚合函数的数学表示如下:
如公式所示,事件-事件聚合器的体系结构与事件-产品几乎相同。
2.跨视图聚合:为了学习更好的目标节点表示法,本发明考虑了不同视图空间之间的关系,使用标准MLP组合这两个向量,得到最终事件目标节点表示oe,定义为:
c2=σ(W2·d1+b2)
...
oe=σ(Wl·dl-1+bl)
其中,l是一个隐藏层的索引。
g2=σ(W2·g1+b2)
...
gl-1=σ(Wl·gl-1+bl)
rep=σ(wT·gl-1)
在这里,l是一个隐藏层的索引,而rep代表是从事件e到产品p的预测的相关性分数。
步骤五:参数优化:本发明将交叉熵(cross-entrophy)指定为目标函数。rep表示事件e是产品p的有效使用场景的概率,则损失函数为:
利用标准的ADAM算法对MS-HGNN模型进行了参数优化。
本发明提出了一种识别产品与电子商务评论中出现的事件之间的关系的技术(MS-HGNN)。本发明方法一方面可以利用事件对信息的全局上下文来增强推理,另一方面,可以通过引入一系列元结构来提取特定的子图模式来挖掘异构图中节点的邻近相似性和结构相似性。结果已经表明,与最先进的技术如BERT、MAGNN等技术相比,本发明方法提出的MS-HGNN框架更好的捕获了节点的结构特征,并提高了此任务的F1分数。在元结构技术的帮助下,充分考虑节点的结构相似性的信息,克服了其余技术的局限性。
模型结构如图4所示,其具体效果如下:
1、通过与其他基于异构图的方法的比较,表明在事件-产品图中进行推理可以提高模型的性能。基于原始事件-产品图进行推理而非仅仅是基于单一的事件-产品对进行推理更好的利用了数据中的全局信息,所以能取得更好的效果。
2、实验表明,在异构模型中,HAN模型在执行任务时性能较差,甚至比GAT等同构图神经网络还差。这说明,为了区分事件-产品对关系,聚合来自同构邻居节点和异构邻居节点的信息是有效的。HAN仅聚合来自基于同构元路径的邻域(元路径上的末端节点)的信息,这有助于挖掘同构节点之间的相似性。例如沿元路径“电影-演员-电影”的聚合可以促进“共演员”关系建模。但是,在此的任务中,本发明目标是揭示异构节点(即事件和产品节点)之间的相关性,因此事件节点和产品节点之间的显式交互是非常重要的。基于对HAN的改进,MAGNN模型通过考虑元路径上的中间节点来改进HAN,从而隐式地补充异构邻居节点之间的交互,从而提高性能。本发明方法同时利用异构节点交互和节点拓扑模式特性,并进行进一步的改进。
3、在同构模型中,GraLSP模型优于GAT,因为GAT只考虑节点特征,而忽略了结构模式特征,但GraLSP模型使用匿名游走路径有效地捕获局部图结构,并将其表示为嵌入,进而将其合并到邻域聚合中。这表明了建模节点结构特征在此任务中的重要性和有效性。由于GraLSP主要是为同构图设计的,无法充分利用异构连接模式,只能利用单个元径基同构图的结构特征。但本发明提出的MS-HGNN模型可以借助元结构捕捉异构节点之间复杂的连接模式,更适用于此任务。
采用以下实例验证本发明的有益效果:
实施例一:
在表1中的带注释的数据集上列出了基线方法和MS-HGNN的识别精度结果,印证了本发明提出的模型(MS-HGNN)同时利用异构节点的交互作用和节点拓扑模式的特性;此图提供的异构和同构邻域为识别关系是否有效提供了额外的证据;MS-HGNN模型可以借助元结构捕捉异构节点之间复杂的连接模式,更适合此任务。
表1模型方法及基线方法实验结果
实施例二:
为了验证模型中每个组件的有效性,需进一步对不同的MS-HGNN变体进行实验。从表2中的变体获得结果。具体变体实验如下:
表2消融实验结果
基于MS-HGNN的方法,从不同的角度证实信息的有用性,通过去除MS-HGNN的不同部分,进一步评价MS-HGNN的每个模块的重要性,并得到:
1.MS-HGNN/EE:从最终模型中删除事件-事件关系聚合模块
2.MS-HGNN/PP:从最终模型中删除产品-产品关系聚合模块
3.MS-HGNN/Stru:从最终模型中删除元结构特征提取模块
对MS-HGNN、MS-HGNN/PP、MS-HGNN/EE的比较表明,添加边事件-事件和产品-产品可以提高模型的性能。原始事件-产品图是一个二部图,只存在事件-产品关系。用事件-事件和产品-产品的边丰富了事件与产品之间的联系关系。该结果验证了异构图构造的有用性。事件-事件的边提供了额外的推理过程。例如,当模型试图识别事件e1和产品p2之间的关系时,如果存在路径e1→e2→p2,它可以给予相对较高的分数,因为具有相似语义的事件往往共享相同的产品。并且该产品-产品边关联了属于同一类别的产品,这可能有助于识别该事件是一般的还是特定的。一般事件可能连接到不同范围的产品,因此它们不相互连接,从而导致子图密度较低。
在去除边属性聚合模块时,MS-HGNN模型的性能下降很大,这证明了对频率边属性的聚合方法的设计是值得的。很明显,频率越高,给定对有效的概率就越大。在本发明中,使用注意力机制来学习节点内容与边属性之间的交互。
MS-HGNN模型的性能优于基于元路径的异构图推理框架,证实了结构相似性的表示学习可以支持关系识别过程,并揭示了基于元路径的异构图推理框架倾向于保持接近相似性,但忽略了结构相似性。由目标节点及其邻域的元结构所提取的局部结构特征可用于推理。
实施例三:
除了对GNN模型进行定量评估外,本发明方法还对节点嵌入进行了可视化处理,以对嵌入结果进行定性评估。从数据集的正测试集中随机选择50个事件-产品对,然后使用t-SNE将这些节点的嵌入投影到二维空间中。在图6(a)、图6(b)、图6(c)中说明了GAT、MAGNN和MS-HGNN的可视化结果。其中,黑色点和灰色点分别表示事件和产品。
在可视化的基础上,可以快速地分辨出图嵌入模型在对异构图的学习能力方面的差异。作为传统的同构图嵌入,GAT不能有效地将事件和产品节点划分为两个不同的组。相反,异构模型MAGNN可以划分这两种类型的节点。本发明提出的MS-HGNN获得了最佳的嵌入结果,具有两个分离良好的事件和产品组,以及事件-产品对的同构相关性。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (11)
1.一种基于文本的消费意图分析方法,其特征在于,所述方法具体包括以下步骤:
步骤一、利用基于预训练语言模型的序列标记模型构建事件消费图;
步骤二、抽取事件消费图中节点的语义角度嵌入和结构角度嵌入;
步骤三、将步骤二获得的语义角度嵌入和结构角度嵌入输入第一MLP进行训练,输出为同一个节点的语义角度嵌入和结构角度嵌入的融合结果,即分别输出每个节点的语义角度嵌入和结构角度嵌入的融合结果;
步骤四、基于步骤三获得的融合结果,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,再将给定事件节点e的表示形式与给定产品节点p的表示形式连接,将连接结果输入第二MLP进行训练;
步骤五、对于关系待预测的事件节点e′和产品节点p′,将事件节点e′和产品节点p′融入构建的事件消费图后,抽取出事件节点e′的语义角度嵌入和结构角度嵌入以及产品节点p′的语义角度嵌入和结构角度嵌入;
利用训练好的第一MLP对语义角度嵌入和结构角度嵌入进行融合,得到事件节点e′的语义角度嵌入和结构角度嵌入的融合结果以及产品节点p′的语义角度嵌入和结构角度嵌入的融合结果;
再通过节点聚合获得事件节点e′和产品节点p′的表示形式,将事件节点e′的表示形式与产品节点p′的表示形式连接,将连接结果输入训练好的第二MLP进行关系预测。
2.根据权利要求1所述的一种基于文本的消费意图分析方法,其特征在于,所述步骤一的具体过程为:
从电子商务的评论数据中标记出部分事件-产品对,并利用标记出的事件-产品对以及标记出的事件-产品对所在的评论句子对基于预训练语言模型的序列标记模型进行训练;
再利用训练好的基于预训练语言模型的序列标记模型从未标记的电子商务评论数据中提取事件-产品对,将从包含噪声的评论数据中提取出的事件-产品对剔除后,获得筛选后的事件-产品对;
通过补充事件-事件关系、产品-产品关系,再根据筛选所得到的事件-产品关系,构建事件消费图。
3.根据权利要求2所述的一种基于文本的消费意图分析方法,其特征在于,所述补充事件-事件关系、产品-产品关系,其具体过程为:
事件-事件关系的补充
利用预训练语言模型分别得到每个事件的稠密表示,再根据得到的稠密表示计算两个事件的余弦相似度,若两个事件的余弦相似度大于等于设定的相似度阈值,则在两个事件之间添加一条边,否则不添加;
产品-产品关系的补充
遵循电子商务网站的产品分类系统来判断产品是否属于同一类别,若两个产品属于同一类别,则在两个产品之间添加一条边,否则不添加。
4.根据权利要求3所述的一种基于文本的消费意图分析方法,其特征在于,所述步骤二中,抽取事件消费图中节点的语义角度嵌入,其具体过程为:
对于事件消费图中的任一产品节点Vp,在事件消费图中检索到所有包含产品节点Vp的事件-产品对(Ve,Vp),将检索到的每个事件-产品对分别处理为([CLS]Ve,[CLS]Vp),其中,Ve为事件-产品对中的事件节点,[CLS]Ve为Ve所在的评论句子的开头,[CLS]Vp为Vp所在的评论句子的开头;
将([CLS]Ve,[CLS]Vp)输入预训练语言模型,将产品节点Vp的[CLS]令牌的最终隐藏状态作为产品节点Vp的表示,若检索到的事件-产品对(Ve,Vp)的个数为K,则产品节点Vp的语义角度嵌入为K个表示的平均;
同理,获得每个产品节点的语义角度嵌入以及每个事件节点的语义角度嵌入。
5.根据权利要求4所述的一种基于文本的消费意图分析方法,其特征在于,所述步骤二中,抽取事件消费图中节点的结构角度嵌入,其具体过程为:
节点类型集为A={a1,a2},其中,ai代表第i种类型的节点,i=1,2,每种类型节点的元结构数的集合为U={u1,u2},ui代表第i种类型节点的元结构数;
采用多头注意机制将每个元结构的结构向量进行融合,得到节点ai的密集结构表示,即节点ai的结构角度嵌入;
其中,βj为cj的权重。
7.根据权利要求6所述的一种基于文本的消费意图分析方法,其特征在于,所述步骤四中,通过节点聚合获得给定事件节点e和给定产品节点p的表示形式,其具体过程为:
步骤四一、对于给定事件节点e,聚合与给定事件节点有交互的每个产品节点的表示,聚合过程如下函数所示:
其中,l是一个隐藏层的索引,代表向量之间的连接,b2代表第2个隐藏层的偏差项,W2代表第2个隐藏层的系数矩阵,bl-1代表第l-1个隐藏层的偏差项,bl代表第l个隐藏层的偏差项,Wl代表第l个隐藏层的系数矩阵;
步骤四四、对于给定产品节点p,采用与步骤四一至步骤四三同样的方法获得给定产品节点p的表示形式op。
8.根据权利要求7所述的一种基于文本的消费意图分析方法,其特征在于,所述激活函数σ为elu。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485144.0A CN113095088B (zh) | 2021-04-30 | 2021-04-30 | 一种基于文本的消费意图分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110485144.0A CN113095088B (zh) | 2021-04-30 | 2021-04-30 | 一种基于文本的消费意图分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113095088A true CN113095088A (zh) | 2021-07-09 |
CN113095088B CN113095088B (zh) | 2022-03-04 |
Family
ID=76681117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110485144.0A Active CN113095088B (zh) | 2021-04-30 | 2021-04-30 | 一种基于文本的消费意图分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095088B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443846A (zh) * | 2022-01-24 | 2022-05-06 | 重庆邮电大学 | 一种基于多层级文本异构图的分类方法、装置及电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815308A (zh) * | 2017-10-31 | 2019-05-28 | 北京小度信息科技有限公司 | 意图识别模型的确定及检索意图识别方法、装置 |
CN112132633A (zh) * | 2020-09-30 | 2020-12-25 | 哈尔滨工业大学 | 一种基于消费事理图谱的消费意图识别和预测方法 |
-
2021
- 2021-04-30 CN CN202110485144.0A patent/CN113095088B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109815308A (zh) * | 2017-10-31 | 2019-05-28 | 北京小度信息科技有限公司 | 意图识别模型的确定及检索意图识别方法、装置 |
CN112132633A (zh) * | 2020-09-30 | 2020-12-25 | 哈尔滨工业大学 | 一种基于消费事理图谱的消费意图识别和预测方法 |
Non-Patent Citations (3)
Title |
---|
FARSHAD KOOTI ET.AL: "Portrait of an Online Shopper:", 《ARXIV:1512.04912V1》 * |
付博: "面向社会媒体的用户消费意图分析", 《中国优秀博硕士学位论文全文数据库(博士)》 * |
钱岳 等: "聊天机器人中用户出行消费意图识别方法", 《中国科学:信息科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114443846A (zh) * | 2022-01-24 | 2022-05-06 | 重庆邮电大学 | 一种基于多层级文本异构图的分类方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113095088B (zh) | 2022-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | HGNN+: General hypergraph neural networks | |
Xia et al. | Graph learning: A survey | |
Ranjan et al. | LFNN: Lion fuzzy neural network-based evolutionary model for text classification using context and sense based features | |
Moyano | Learning network representations | |
Huang et al. | Learning social image embedding with deep multimodal attention networks | |
Liao et al. | Deep linear graph attention model for attributed graph clustering | |
Liu et al. | Effective model integration algorithm for improving link and sign prediction in complex networks | |
Zhang et al. | Multiview graph restricted Boltzmann machines | |
Dong et al. | Iterative graph attention memory network for cross-modal retrieval | |
Xu et al. | Visual sentiment analysis with social relations-guided multiattention networks | |
Tong et al. | Representation learning using Attention Network and CNN for Heterogeneous networks | |
Li et al. | Adaptive subgraph neural network with reinforced critical structure mining | |
Chen et al. | Heterogeneous graph convolutional network with local influence | |
Wang et al. | User-based network embedding for opinion spammer detection | |
Li et al. | Image-text bidirectional learning network based cross-modal retrieval | |
CN113095088B (zh) | 一种基于文本的消费意图分析方法 | |
Fu et al. | Robust representation learning for heterogeneous attributed networks | |
Duan et al. | Self-supervised contrastive graph representation with node and graph augmentation | |
Huang et al. | From content to links: Social image embedding with deep multimodal model | |
Wang et al. | Heterogeneous graph neural network for attribute completion | |
Li et al. | Semi-supervised variational user identity linkage via noise-aware self-learning | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
Jaffali et al. | Survey on social networks data analysis | |
CN106156259A (zh) | 一种用户行为信息展示方法及系统 | |
Qi et al. | Instance-Incremental Scene Graph Generation From Real-World Point Clouds via Normalizing Flows |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |