CN112132633B - 一种基于消费事理图谱的消费意图识别和预测方法 - Google Patents

一种基于消费事理图谱的消费意图识别和预测方法 Download PDF

Info

Publication number
CN112132633B
CN112132633B CN202011069677.2A CN202011069677A CN112132633B CN 112132633 B CN112132633 B CN 112132633B CN 202011069677 A CN202011069677 A CN 202011069677A CN 112132633 B CN112132633 B CN 112132633B
Authority
CN
China
Prior art keywords
event
consumption
intention
consumption intention
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011069677.2A
Other languages
English (en)
Other versions
CN112132633A (zh
Inventor
丁效
秦兵
刘挺
石乾坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202011069677.2A priority Critical patent/CN112132633B/zh
Publication of CN112132633A publication Critical patent/CN112132633A/zh
Application granted granted Critical
Publication of CN112132633B publication Critical patent/CN112132633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于消费事理图谱的消费意图识别和预测方法,它属于消费意图识别与预测技术领域。本发明解决了现有技术对消费意图识别和预测的准确率低的问题。本发明所采用的主要技术方案为:步骤一、基于预训练模型进行事件抽取;步骤二、基于预训练模型进行事件间关系抽取;步骤三、基于评论语料,采用无监督方法构建二分图作为弱监督信息;步骤四、基于二分图弱监督信息和标注数据,构建消费事理图谱;步骤五、使用训练数据训练同异质关系注意力模型,使用同异质关系注意力模型判断事件和消费意图的对应关系。本发明可以应用于消费意图识别与预测。

Description

一种基于消费事理图谱的消费意图识别和预测方法
技术领域
本发明属于消费意图识别与预测技术领域,具体涉及一种基于消费事理图谱的消费意图识别和预测方法。
背景技术
消费意图是指用户表达出的对购买产品服务等一些商业消费需求的意愿(Fu,B.,and T.Liu."Weakly-supervised consumption intent detection in microblogs."Journal of Computational Information Systems 6.9(2013):2423-2431.)。消费意图识别技术是对带有消费需求色彩的互联网用户生成的文本或用户本身行为数据进行的分析和整理,通过特定方式挖掘出用户当前或潜在的消费需求(Fu,B.,and T.Liu."Consumption intent recognition for social media:task,challenge andopportunity."Intell Comput Appl 5(2015):1-4.)。消费意图可分为短期消费意图和长期消费意图,消费意图识别主要针对短期消费意图进行研究,消费意图预测针对长期消费意图进行研究。
近年来,人们习惯在社交媒体上表达自己的想法或状态,社交媒体资源呈现几何式增长,巨量的社交媒体数据中蕴含着大量的用户发布的,对诸如商业产品购买等有价值的行为信息及个性化需求信息,这些非结构化的文本表达了人们的各种消费意愿和消费需求。如微博“最近打算换个新手机”表达了对手机的消费意图,“我想吃烤肉”表达了对于烤肉的消费意图。2019年,Facebook月活跃用户达25亿,Twitter月活跃用户数超过三亿,新浪微博的月活动用户超过4亿,这些活跃的用户群及其公开发表的相关博文积累了海量的用户信息,为消费意图识别等社会计算的相关研究提供了前所未有的数据资源。
对用户的消费意图可以通过对用户当前所处的状态进行分析而得到。具体而言,对于一个将要露营的用户,自然的,我们可以推测其消费意图包括帐篷、手杖、零食等;而一个将要游泳的用户会需要泳镜、泳帽、泳裤等游泳用品。社交媒体用户常常在微博等公开平台上发表短博文描述自己最近的生活状态,其中包含了事件相关的信息,如“我恋爱了”,“最近发烧了,怎么办”等。
此外,用户的消费意图并不是一成不变的,其消费意图会随时间而发生变化,且其演变存在一定规律。对于一个孕妇,人们可以很自然地推测其当前具有的消费意图——“孕妇服装”、“孕妇餐”等;且大多数人“怀孕”以后会“生育孩子”和“养育孩子”,随着用户“怀孕”到用户“生育孩子”、“养育孩子”的演化,用户的消费意图也会逐渐从“孕妇装”演变为“母婴用品”、“婴儿奶粉”、“婴儿车”等。事件和消费意图随时间的演化规律是一类重要的常识知识,消费事理图谱可以建模事件之间的演化关系和用户消费意图的演变。
事件是人类社会的核心概念之一,人们的社会活动往往是由事件驱动的,而不同的事件之间存在着常识意义上的演化关系,如下班后会回家,生病后会去医院,去北京后可能会游览天安门等。这种事件之间相继发生的演化规律和模式是一种很有价值的知识,具有十分重要的商业和社会价值,事理图谱(Xiao,Ding,Zhongyang Li,Ting Liu,KuoLiao."ELG:An Event Logic Graph"arXiv preprint arXiv:1907.08015(2019).)则是对这种演化规律和模式的描述。2017年10月,刘挺教授在中国计算机大会(CNCC)上正式提出事理图谱的概念。事理图谱是由事件构成的有向图,其节点为事件,边代表事件之间的时序演化关系或因果关系。具体而言,事理图谱是一个描述事件之间顺承与因果关系的事理演化逻辑有向图,是事件演化规律和模式的知识库。事理图谱是人类行为活动的真实刻画,可以为揭示和发现事件演化规律与人们的行为模式提供强有力的支持。
消费图谱构建的目的是建立事件与其对应消费意图之间的联系。给定一个事件,我们期望得到该事件对应的消费意图,如事件“游泳”需要泳帽、泳镜;事件“爬山”需要登山靴、登山杖等。这种事件和消费意图的对应关系称为消费图谱。消费图谱是一种常识知识,这类知识很少在文本中显式地被表述,比如,很少有人会做出“游泳需要泳帽”或“打篮球需要篮球鞋”等类似的表述。
由于获取大规模用户消费数据的难度较大,且难以获得每个用户消费前所经历的事件,因此,目前消费图谱构建的相关工作较少,现有方法在消费意图识别和预测的任务上表现不佳,对消费意图识别和预测的准确率较低。
发明内容
本发明的目的是为解决现有技术对消费意图识别和预测的准确率低的问题,而提出了一种基于消费事理图谱的消费意图识别和预测方法。
本发明为解决上述技术问题采取的技术方案是:一种基于消费事理图谱的消费意图识别和预测方法,该方法包括以下步骤:
步骤一、利用标注了事件的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型从叙事性文本中抽取得到事件;
步骤二、利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型对步骤一中抽取的事件组成的事件对的顺承关系进行判别,构建事理图谱;
步骤三、根据步骤一中抽取出的事件构建二分图作为弱监督信息;
步骤四、结合步骤二构建的事理图谱和步骤三得到的弱监督信息,构建消费事理图谱;
步骤五:建立同异质关系注意力模型,基于构建的消费事理图谱来训练建立的同异质关系注意力模型;
将事件和消费意图输入训练好的同异质关系注意力模型后,模型输出事件和消费意图存在或不存在对应关系。
本发明的有益效果是:
本发明基于对预训练模型微调的思路实现了前两个任务,基于多阶段的训练的方式对模型进行了优化,基于我们提出的数据集对模型的表现进行了评价。我们通过爬虫得到了近亿条某电子商务网站的评论语料作为弱监督信号以协助构建消费图谱,我们针对数据特点,提出利用二分图嵌入算法建模事件和消费意图关系,有效利用了上述弱监督信号以及人工标注数据,在消费图谱的构建任务上取得了较高的实验结果,相关指标超过了基线模型。本发明提出了一个可有效利用消费事理图谱进行消费意图识别和预测的模型,该模型分别对事件和消费意图的同质和异质信息进行建模,将事理图谱信息融入了消费意图识别和预测任务,在消费意图预测和识别任务上取得较好的效果,相关指标超过了基线模型,提高了对消费意图识别和预测的准确率,本发明方法的消费意图识别的准确率达到75.7%,消费意图预测的准确率达到78.4%。
附图说明
图1为本发明的一种基于消费事理图谱的消费意图识别和预测方法的流程图;
图2为本发明提出的同异质关系注意力模型结构图。
具体实施方式
具体实施方式一:结合图1说明本实施方式。本实施方式所述的一种基于消费事理图谱的消费意图识别和预测方法,该方法具体通过以下步骤实现:
步骤一、利用标注了事件的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型从叙事性文本中抽取得到事件;
步骤二、利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型对步骤一中抽取的事件组成的事件对的顺承关系进行判别,构建事理图谱;
步骤三、根据步骤一中抽取出的事件构建二分图作为弱监督信息;
步骤四、利用二分图嵌入算法,结合步骤二构建的事理图谱和步骤三得到的弱监督信息,构建消费事理图谱;
步骤五:建立同异质关系注意力模型,基于构建的消费事理图谱来训练建立的同异质关系注意力模型;
将事件和消费意图输入训练好的同异质关系注意力模型后,模型输出事件和消费意图存在或不存在对应关系。
本发明基于消费事理图谱,可以得到用户当前和未来的消费意图,进而向其推荐相关的商品。基于特定事件对应特定的商品需求以及事件之间的演化关系,提出基于消费事理图谱的消费意图识别与预测,既可以基于特定事件推荐用户当下所需购买的相关商品;也可以根据用户当前的消费意图预测出用户未来的消费意图,从而进行广义的推荐。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤一中,利用标注了事件的数据对预训练好的BERT-Base模型进行微调,其具体过程为:
将标注数据输入预训练好的BERT-Base模型后,微调过程分两个阶段进行:
第一个阶段:设置学习率为1e-3,训练轮次为2,使用的优化算法为BertAdam算法,对预训练好的BERT-Base模型的线性层参数进行训练;
第二个阶段:设置学习率为3e-5,训练轮次为10,使用的优化算法为BertAdam算法,对预训练好的BERT-Base模型的线性层和BERT层的参数进行训练;
完成两个阶段的训练后,获得微调后的BERT-Base模型。
本实施方式中采用的标注数据是对语句中的事件进行标注后的数据。
事件抽取任务比较常用的方法是基于序列标注模型对原文进行抽取,进而得到不同的事件。本任务可视为一个序列标注任务。常见的序列标注模型有隐马尔可夫模型、条件随机场模型、LSTM模型等。2018年,Jacob Devlin等人提出BERT,其基于Transformer双向编码器,利用海量语料,使用了语言模型和下一句预测任务进行预训练,在阅读理解、情感分析、命名实体识别许多自然语言处理的任务上取得了最佳结果,并开放了中文模型参数以供使用。我们基于的序列标注模型基于BERT实现。我们基于BERT-Base,使用BertAdam算法在数据集上进行了微调。我们基于Pytorch框架和pytorch-transformers库实现模型,模型的训练分为两个阶段。
具体实施方式三:本实施方式与具体实施方式二不同的是:所述步骤二中,利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调,其具体过程为:
将标注数据输入预训练好的BERT-Base模型后,进行微调的过程分为3个阶段进行:
第1个阶段:对线性层的参数进行训练,学习率设置为1e-3,训练轮次为1,使用的优化算法为BertAdam算法;
第2个阶段:对线性层和事件嵌入层的参数进行训练,学习率设置为5e-5,训练轮次为3,使用的优化算法为BertAdam算法;
第3个阶段:对所有层的参数进行训练,学习率设置为1e-5,训练轮次为5,使用的优化算法为BertAdam算法;
微调过程中使用交叉熵损失函数对BERT-Base模型进行优化;将微调后的BERT-Base模型的Embedding层输出累加作为transformer层的输入,通过对微调后的BERT-Base模型最后一层的第一个输出进行分类,来对事件对的顺承关系进行判别。
本实施方式中使用的标注数据中标注了事件以及事件对之间的顺承关系。
具体实施方式四:本实施方式与具体实施方式三不同的是:所述微调后的BERT-Base模型的Embedding层包括事件嵌入层(Event Embedding)、词嵌入层(TokenEmbedding)、分段嵌入层(Segmentation Embedding)以及位置嵌入层(PositionEmbeddings);
所述事件嵌入层中,头事件用H代表,尾事件用T代表,上下文中除头事件和尾事件以外的其他事件用A代表,其余字符用O代表。
本实施方式中,在预训练好的BERT-Base模型的基础上加了一层事件嵌入层,使得模型可以对事件间是否存在顺承关系进行判别。
具体实施方式五:本实施方式与具体实施方式四不同的是:所述步骤三的具体过程为:
基于爬虫得到电子商务网站商品评论语料,对于某个事件,根据该事件在各个消费意图对应的评论下出现的频率,得到该事件与每一个消费意图之间的关联权重,遍历所有事件,得到一个二分图;
所述二分图中的两类节点分别是事件节点和消费意图节点,事件节点与消费意图节点之间的边代表事件在该消费意图对应的商品评论中出现的频率。
具体实施方式六:本实施方式与具体实施方式五不同的是:所述步骤四的具体过程为:
定义:U表示所有的事件节点,V表示所有的消费意图节点,E1为关联权重,即事件在各消费意图评论区中出现的频率,E1∈RU×V,G1=(U,V,E1)表示基于事件在各自消费意图评论区中出现的频率而得到的二分图;
G2=(U,V,E2)表示人工标注的事件所对应消费意图的数据构成的二分图,E2代表特定事件和消费意图具有或不具有对应关系,E2∈{0,1}U×V
将G2分为训练数据集和测试数据集两部分,训练数据集G2_train=(U_train,V,E2_train),测试数据集G2_test=(U_test,V,E2_test);U_train、E2_train表征训练数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;U_test、E2_test表征测试数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;
G3=(U,U,E3)表征事理图谱,E3为事理图谱的边上的权值,该权值由频率计算得到;
事件和消费意图的显式关系建模:
给定训练数据集中的事件ui和消费意图vj,则通过公式计算二者之间存在边的概率P(i,j)为:
Figure BDA0002713427970000061
基于G2_train:
Figure BDA0002713427970000062
其中:E2_train[i,j]代表事件ui和消费意图vj具有或不具有对应关系,若事件ui和消费意图vj具有对应关系,则
Figure BDA0002713427970000063
的值为1,若事件ui和消费意图vj不具有对应关系,则
Figure BDA0002713427970000064
的值为0;
我们通过最小化它们之间的差异来学习相关节点的嵌入向量。我们选择KL-散度作为分布之间的差异度量,其定义为:
Figure BDA0002713427970000065
Figure BDA0002713427970000066
其中,L1代表第一个损失函数项,eij代表事件ui和消费意图vj之间的边,eij∈G1时,事件ui和消费意图vj具有对应关系,即
Figure BDA0002713427970000067
事件间的隐式关系建模:
事件间的隐式关系的建模方法有两种,第一种是通过事理图谱直接得到事件间的关系,第二种为通过消费意图间接得到事件间的关系;
若两个事件节点ui1和ui2均与同一个消费意图节点相连,则两个事件节点ui1和ui2之间存在隐式相邻关系,即ui1和ui2为二阶事件相邻节点;基于这种思路,得到任意一个事件节点u在二分图上的二阶事件相邻节点后,得到一个仅由节点u和二阶事件相邻节点构成的图G_u;图G_u中的边为二阶事件相邻节点之间的连线,比如ui1和ui2之间的连线;
基于图G_u,通过随机游走得到由u节点构成的语料库S_u,采用和Skip-gram相同的思路,对第二个损失函数项L2进行优化:
Figure BDA0002713427970000071
式中,Neighbor(ui)代表节点ui的二阶相邻节点的集合,P(uc|ui)代表给定事件节点ui时事件节点uc出现的概率;
当考虑事理图谱相关信息的时候,G_u直接取事理图谱即可。
消费意图间的隐式关系建模:
同理,通过随机游走得到由消费意图节点v构成的语料库S_v,对第三个损失函数项L3进行优化:
Figure BDA0002713427970000072
式中,Neighbor(vj)代表节点vj的二阶消费意图相邻节点的集合,P(vc|vj)代表给定消费意图节点vj时消费意图节点vc出现的概率;
则整体的优化目标L为:
minimizeL=L1-αlnL2-βlnL3
式中,α和β为损失函数的权重系数;
满足优化目标时,得到基于G1、G2_train和G3的U、V的表示,构建出消费事理图谱。
根据本实施方式的定义,模型的输入为U,V,G1,G2_train,G3,输出为G2_test′,该输出和标注数据G2_test对比计算得出模型的相关指标;通过特定任务上的训练得到基于G1、G2_train、G3的U、V的表示,进而通过该表示得到G2_test′。
具体实施方式七:结合图2说明本实施方式。本实施方式与具体实施方式六不同的是:所述步骤五中,建立的同异质关系注意力模型由事件编码器和消费意图编码器组成,分别对事件和消费意图进行建模,事件编码器和消费意图编码器均由同质关系聚合器和异质关系聚合器组成;所有的编码器使用共享的事件嵌入层和消费意图嵌入层,事件嵌入层的初始向量为不同事件的词嵌入表示的均值,消费意图嵌入层的初始向量采用随机初始化;
事件编码器
事件编码器中的同质关系聚合器通过事件-事件之间的关系得到该事件的表示,异质关系聚合器通过事件-消费之间的关系得到该事件的表示;
给定事件event,基于事理图谱,得到该事件event的二阶事件相邻节点集合Neighbor_event_to_event(event);基于消费图谱,得到与该事件event具有对应关系的消费意图节点,得到的全部消费意图节点组成该事件event的消费意图相邻节点集合Neighbor_event_to_consumption(event);
事件编码器的同质关系聚合器的输入为该事件event和该事件的二阶事件相邻节点集合Neighbor_event_to_event(event);事件编码器的异质关系聚合器的输入为该事件event的消费意图相邻节点集合Neighbor_event_to_consumption(event),二者均通过Attention机制、分别利用同质关系信息和异质关系信息,得到该事件的隐含表示e1和e1′;
对于事件编码器的同质关系聚合器,给定事件event的隐含表示e1为:
Figure BDA0002713427970000081
Figure BDA0002713427970000082
Figure BDA0002713427970000083
其中,
Figure BDA0002713427970000084
为事件同质相似度,w1、W1和W2都是事件编码器的同质关系聚合器的权重,b1、b2和b3都是事件编码器的同质关系聚合器的偏置,αee为归一化后的事件同质相似度,x为事件event的二阶事件相邻节点集合中的节点,eventhomo代表事件编码器的同质关系聚合器的输出,
Figure BDA0002713427970000087
符号代表向量之间的连接,σ是激活函数;
对于事件编码器的异质关系聚合器,给定事件event的隐含表示e1′为:
Figure BDA0002713427970000085
Figure BDA0002713427970000086
Figure BDA0002713427970000091
其中,
Figure BDA0002713427970000095
为事件异质相似度,w2、W1′和W2′都是事件编码器的异质关系聚合器的权重,b1′、b2′和b3′都是事件编码器的异质关系聚合器的偏置,αec为归一化后的事件异质相似度,x′为事件event的消费意图邻居节点集合中的节点,eventhetero代表事件编码器的异质关系聚合器的输出;
事件编码器输出事件的表示为:
Figure BDA0002713427970000092
其中,ventrepr为事件编码器输出事件的表示;
消费意图编码器
类似的,消费意图编码器中的同质关系聚合器建模消费-消费之间的关系,异质关系聚合器建模消费-事件之间的关系;
给定消费意图consumption,若另一个消费意图consumption2和该消费意图均与同一个事件具有对应关系,则认为消费意图consumption2是该消费意图consumption的二阶消费意图相邻节点,将消费意图consumption的全部二阶消费意图相邻节点consumption2构成的集合称为二阶消费意图相邻节点集合Neighbor_con_to_con(consumption);基于消费图谱,得到消费意图consumption的事件相邻节点集合Neighbor_con_to_event(consumption);
同质关系聚合器的输入为该消费意图consumption和该消费意图节点的二阶消费意图相邻节点集合Neighbor_con_to_con(consumption);异质关系聚合器的输入为该消费意图节点consumption的事件相邻节点集合Neighbor_con_to_event(consumption),二者均通过Attention机制、分别利用同质关系信息和异质关系信息,得到该消费意图的隐含表示e2和e2′;
对于消费意图编码器的同质关系聚合器,给定消费意图节点的向量表示e2
Figure BDA0002713427970000093
Figure BDA0002713427970000094
Figure BDA0002713427970000101
其中,
Figure BDA0002713427970000107
为消费意图同质相似度,w3、W3和W4都是消费意图编码器的同质关系聚合器的权重,b4、b5和b6都是消费意图编码器的同质关系聚合器的偏置,αcc为归一化后的消费意图同质相似度,x″为消费意图consumption的二阶消费意图相邻节点集合中的节点,consumptionhomo代表消费意图编码器的同质关系聚合器的输出;
对于消费意图编码器的异质关系聚合器,给定消费意图节点的向量表示e2′:
Figure BDA0002713427970000102
Figure BDA0002713427970000103
Figure BDA0002713427970000104
其中,
Figure BDA0002713427970000108
为消费意图异质相似度,w4、W3′和W4′都是消费意图编码器的异质关系聚合器的权重,b4′、b5′和b6′都是消费意图编码器的异质关系聚合器的偏置,αce为归一化后的消费意图异质相似度,x″′为消费意图节点的事件相邻节点集合中的节点,consumptionhetero代表消费意图编码器的异质关系聚合器的输出;
消费意图编码器输出消费意图表示为:
Figure BDA0002713427970000105
其中,consumptionrepr为消费意图编码器输出消费意图;
基于获得的事件表示和消费意图表示,得出事件与消费意图是否存在对应关系:
Figure BDA0002713427970000106
g2=σ(W5·g1+b7)
pred=wT·g2
其中,g1和g2为中间变量,W5和w为权重,b7为偏置,pred为模型输出结果。
本实施方式的同异质关系注意力模型采用交叉熵作为损失函数,基于Adam算法进行优化。
具体实施方式八:本实施方式与具体实施方式一不同的是:所述叙事性文本包括微博文本和游记。
本实施方式中的叙事性文本包括但不限于微博文本和游记。
我们采用以下实施例验证本发明的有益效果:
我们人工标注了3135个事件的消费意图用于模型的训练和预测,这些数据以(事件,消费意图)有序对的格式存储。事件的消费意图可分为短期消费意图和长期消费意图,消费意图分析针对长期消费意图进行研究。我们基于随机采样得到(事件,消费意图)的负样本。
事实上,对事件长期消费意图和短期消费意图的区分标注是较为困难的,因为这类数据相对稀疏,且不同的标注者对“长期”概念的理解不同,因此,我们在制定数据标注规范的时候,要求标注每个事件的全部消费意图,无需区分短期或长期。因此,我们的数据集既包含了短期消费意图又包含了长期消费意图,我们基于如下方法得到长期消费意图:
定义一个事件的长期消费意图为该事件的n跳内后继节点的消费意图的并集和该事件消费意图的交集。
这里的n是一个超参数。不难看出,n值选取越大,越偏向更长的“长期”,当n值取0时,长期消费意图退化为短期消费意图。
数据分析表明,n值较小的时候,长期消费意图数据过于稀疏,n值较大的时候,由于事件跨度较大,其预测较为困难。综合以上考虑,实验中n值取2。n取2时,共2316个事件具有短期消费意图,1609个事件具有长期消费意图,这些数据分别被用于消费意图识别和预测任务。
实施例一:
消费图谱构建任务的实验结果如表1所示,其中HITS@10表示模型预测的前k个消费预测中正确的消费意图占该事件的总消费意图的比例;
表1
Figure BDA0002713427970000111
Figure BDA0002713427970000121
我们的基线模型设置如下:
1、出现次数(POP)。消费意图按其受欢迎程度(即在整个数据集中出现的频率)进行排名。
2、语义嵌入相似度(SES)。事件的预训练词嵌入的均值被用作其表示。给定一个新事件,我们使用欧氏距离评估其与训练集中事件的相似性。预测结果由训练集中最相似的事件给出。然后,我们基于出现次数对其余标签进行排序。
3、多标签分类(MC)。显然,给定观察到的事件,预测其消费意图,这也被视为多标签分类问题。我们使用LSTM作为特征提取器,然后使用全连接层获取模型针对该事件对每个标签的对数。
4、事理图谱增强的多标签分类(EMC)。我们在多标签分类模型的损失函数中添加了图相关的损失函数项,以融入事理图谱相关的信息。
5、加权值的基于出现次数的模型(Weighted Pop)。这是一个简单但实际表现较强的基线模型。事实上,我们在考虑了一个事件在特定消费意图的评论区出现的频率的同时,还考虑了该消费意图的评论区中其他事件的个数,以及该消费意图在最终结果中出现的频率。使用这两个频率对模型1进行改进可得到一个较高的基线模型表现。
实验结果分析表明:
BiNE(二分图嵌入算法)和BiNE[elg](引入事件同质编码器的二分图嵌入算法)取得了最佳的实验结果,表明二分图嵌入算法可有效的利用弱监督信息和标注数据,得到事件的正确消费意图;事理图谱的引入提高了模型在该任务上的表现,说明事理图谱的引入有助于判断事件的消费意图,事理图谱对事件间关系的建模优于基于二阶邻居节点得到的事件间关系,这是由于具有顺承关系的事件往往具有一些相似的消费意图。
POP是我们任务中最弱的基准,因为它不利用事件的语义信息。SES比POP表现更好,但比MC差,这表明消费意图识别问题不能简单地定义为事件相似性匹配问题。
EMC效果优于MC,表明事理图谱信息的引入有助于多标签分类模型得到正确的消费意图。
WeightedPop在基线模型中表现较高,说明事件在消费意图对应评论中出现的频率的信息对该事件消费意图的判断有较大帮助。
实施例二:
消费意图识别和预测任务,消费意图识别和预测任务的实验结果分别如表2和表3所示;
表2
Figure BDA0002713427970000131
表3
Figure BDA0002713427970000132
对模型介绍如下:
Model*为我们提出的同异质关系注意力模型。
Model[-elg]为本发明提出的模型删除了事件同质编码器得到的模型,其无法利用事理图谱中事件的顺承关系信息。
GraphRec为一个基于社交媒体和用户历史评价信息对用户进行推荐的模型,GraphRec和本发明提出的模型的区别在于其没有显式地对消费意图之间的同质信息进行建模;
Naive模型仅考虑事件-消费异质关系,其没有利用任何同质信息。
Random为随机猜测,其随机猜测一个事件和消费意图是否具有对应关系。
对实验结果分析表明:
同异质关系注意力模型在消费意图识别和预测任务上的相关实验结果均显著高于Model[-elg],说明事理图谱信息的引入有助于消费意图的识别和预测,这是因为具有顺承关系的事件更容易具有相似的消费意图,对事件的相邻节点的建模有助于获得更丰富的事件节点相关的信息,从而更准确地预测该事件的消费意图。
同异质关系注意力模型在消费意图识别和预测任务上的相关实验结果也显著高于GraphRec,这是因为后者不能显式地利用消费意图之间的关系,事实上,不同的消费意图之间的相似度不同,如“香水彩妆”和“珠宝首饰”之间的相似度显然高于“香水彩妆”和“地方特产”,在数据集中,相似的消费意图倾向于同时出现,消费意图之间的同质关系可以显示地对这种共现进行建模。
Naive模型在消费意图识别和预测任务上的相关实验结果均较低,这是因为其仅仅利用了事件和消费意图之间的直接联系,没有利用到消费事理图谱中图的相关信息,退化为一个多分类模型,因此其实验结果较差;但其实验结果仍显著高于随机猜测,这是因为事件节点和消费意图节点本身已经包含了丰富的语义信息。
相比于消费意图识别任务,同异质关系注意力模型在消费意图预测任务上取得了更好的效果,这是因为在消费意图预测任务中,消费意图在相邻事件中的共现更多,而事理图谱的融入有助于模型建模这种共现信息。
本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims (5)

1.一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,该方法包括以下步骤:
步骤一、利用标注了事件的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型从叙事性文本中抽取得到事件;
步骤二、利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调后,利用微调后的BERT-Base模型对步骤一中抽取的事件组成的事件对的顺承关系进行判别,构建事理图谱;
步骤三、根据步骤一中抽取出的事件构建二分图作为弱监督信息;
步骤四、结合步骤二构建的事理图谱和步骤三得到的弱监督信息,构建消费事理图谱;其具体过程为:
定义:U表示所有的事件节点,V表示所有的消费意图节点,E1为关联权重,即事件在各消费意图评论区中出现的频率,G1=(U,V,E1)表示基于事件在各自消费意图评论区中出现的频率而得到的二分图;
G2=(U,V,E2)表示人工标注的事件所对应消费意图的数据构成的二分图,E2代表特定事件和消费意图具有或不具有对应关系;
将G2分为训练数据集和测试数据集两部分,训练数据集G2_train=(U_train,V,E2_train),测试数据集G2_test=(U_test,V,E2_test);U_train、E2_train表征训练数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;U_test、E2_test表征测试数据集中的事件节点以及这些事件节点和消费意图是否构成对应关系;
G3=(U,U,E3)表征事理图谱,E3为事理图谱的边上的权值;
事件和消费意图的显式关系建模:
给定训练数据集中的事件ui和消费意图vj,则通过公式计算二者之间存在边的概率P(i,j)为:
Figure FDA0003040006590000011
基于G2_train:
Figure FDA0003040006590000012
其中:E2_train[i,j]代表事件ui和消费意图vj具有或不具有对应关系,若事件ui和消费意图vj具有对应关系,则
Figure FDA0003040006590000013
的值为1,若事件ui和消费意图vj不具有对应关系,则
Figure FDA0003040006590000021
的值为0;
Figure FDA0003040006590000022
其中,L1代表第一个损失函数项,eij代表事件ui和消费意图vj之间的边,eij∈G1时,事件ui和消费意图vj具有对应关系,即
Figure FDA0003040006590000023
事件间的隐式关系建模:
若两个事件节点ui1和ui2均与同一个消费意图节点相连,则两个事件节点ui1和ui2之间存在隐式相邻关系,即ui1和ui2为二阶事件相邻节点;得到任意一个事件节点u在二分图上的二阶事件相邻节点后,得到一个仅由节点u和二阶事件相邻节点构成的图G_u;
基于图G_u,通过随机游走得到语料库S_u,采用和Skip-gram相同的思路,对第二个损失函数项L2进行优化:
Figure FDA0003040006590000024
式中,Neighbor(ui)代表节点ui的二阶相邻节点的集合,P(uc|ui)代表给定事件节点ui时事件节点uc出现的概率;
消费意图间的隐式关系建模:
同理,通过随机游走得到由消费意图节点v构成的语料库S_v,对第三个损失函数项L3进行优化:
Figure FDA0003040006590000025
式中,Neighbor(vj)代表节点vj的二阶消费意图相邻节点的集合,P(vc|vj)代表给定消费意图节点vj时消费意图节点vc出现的概率;
则整体的优化目标L为:
minimizeL=L1-αlnL2-βlnL3
式中,α和β为损失函数的权重系数;
满足优化目标时,得到基于G1、G2_train和G3的U、V的表示,构建出消费事理图谱;
步骤五:建立同异质关系注意力模型,基于构建的消费事理图谱来训练建立的同异质关系注意力模型;
将事件和消费意图输入训练好的同异质关系注意力模型后,模型输出事件和消费意图存在或不存在对应关系;
所述建立的同异质关系注意力模型由事件编码器和消费意图编码器组成,事件编码器和消费意图编码器均由同质关系聚合器和异质关系聚合器组成;
事件编码器
给定事件event,基于事理图谱,得到该事件event的二阶事件相邻节点集合Neighbor_event_to_event(event);基于消费图谱,得到与该事件event具有对应关系的消费意图节点,得到的全部消费意图节点组成该事件event的消费意图相邻节点集合Neighbor_event_to_consumption(event);
事件编码器的同质关系聚合器的输入为该事件event和该事件的二阶事件相邻节点集合Neighbor_event_to_event(event);事件编码器的异质关系聚合器的输入为该事件event的消费意图相邻节点集合Neighbor_event_to_consumption(event),二者均通过Attention机制、分别利用同质关系信息和异质关系信息,得到该事件的隐含表示e1和e1′;
对于事件编码器的同质关系聚合器,给定事件event的隐含表示e1为:
Figure FDA0003040006590000031
Figure FDA0003040006590000032
Figure FDA0003040006590000033
其中,
Figure FDA0003040006590000034
为事件同质相似度,w1、W1和W2都是事件编码器的同质关系聚合器的权重,b1、b2和b3都是事件编码器的同质关系聚合器的偏置,αee为归一化后的事件同质相似度,x为事件event的二阶事件相邻节点集合中的节点,eventhomo代表事件编码器的同质关系聚合器的输出,
Figure FDA0003040006590000035
符号代表向量之间的连接,σ是激活函数;
对于事件编码器的异质关系聚合器,给定事件event的隐含表示e1′为:
Figure FDA0003040006590000041
Figure FDA0003040006590000042
Figure FDA0003040006590000043
其中,
Figure FDA0003040006590000044
为事件异质相似度,w2、W1′和W2′都是事件编码器的异质关系聚合器的权重,b1′、b2′和b3′都是事件编码器的异质关系聚合器的偏置,αec为归一化后的事件异质相似度,x′为事件event的消费意图邻居节点集合中的节点,eventhetero代表事件编码器的异质关系聚合器的输出;
事件编码器输出事件的表示为:
Figure FDA0003040006590000045
其中,ventrepr为事件编码器输出事件的表示;
消费意图编码器
给定消费意图consumption,若另一个消费意图consumption2和该消费意图均与同一个事件具有对应关系,则认为消费意图consumption2是该消费意图consumption的二阶消费意图相邻节点,将消费意图consumption的全部二阶消费意图相邻节点consumption2构成的集合称为二阶消费意图相邻节点集合Neighbor_con_to_con(consumption);基于消费图谱,得到消费意图consumption的事件相邻节点集合Neighbor_con_to_event(consumption);
同质关系聚合器的输入为该消费意图consumption和该消费意图节点的二阶消费意图相邻节点集合Neighbor_con_to_con(consumption);异质关系聚合器的输入为该消费意图节点consumption的事件相邻节点集合Neighbor_con_to_event(consumption),二者均通过Attention机制、分别利用同质关系信息和异质关系信息,得到该消费意图的隐含表示e2和e2′;
对于消费意图编码器的同质关系聚合器,给定消费意图节点的向量表示e2
Figure FDA0003040006590000046
Figure FDA0003040006590000051
Figure FDA0003040006590000052
其中,
Figure FDA0003040006590000053
为消费意图同质相似度,w3、W3和W4都是消费意图编码器的同质关系聚合器的权重,b4、b5和b6都是消费意图编码器的同质关系聚合器的偏置,αcc为归一化后的消费意图同质相似度,x″为消费意图consumption的二阶消费意图相邻节点集合中的节点,consumptionhomo代表消费意图编码器的同质关系聚合器的输出;
对于消费意图编码器的异质关系聚合器,给定消费意图节点的向量表示e2′:
Figure FDA0003040006590000054
Figure FDA0003040006590000055
Figure FDA0003040006590000056
其中,
Figure FDA0003040006590000057
为消费意图异质相似度,w4、W3′和W4′都是消费意图编码器的异质关系聚合器的权重,b4′、b5′和b6′都是消费意图编码器的异质关系聚合器的偏置,αce为归一化后的消费意图异质相似度,x″′为消费意图节点的事件相邻节点集合中的节点,consumptionhetero代表消费意图编码器的异质关系聚合器的输出;
消费意图编码器输出消费意图表示为:
Figure FDA0003040006590000058
其中,consumptionrepr为消费意图编码器输出消费意图;
基于获得的事件表示和消费意图表示,得出事件与消费意图是否存在对应关系:
Figure FDA0003040006590000059
g2=σ(W5·g1+b7)
pred=wT·g2
其中,g1和g2为中间变量,W5和w为权重,b7为偏置,pred为模型输出结果。
2.根据权利要求1所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述步骤一中,利用标注了事件的数据对预训练好的BERT-Base模型进行微调,其具体过程为:
将标注数据输入预训练好的BERT-Base模型后,微调过程分两个阶段进行:
第一个阶段:设置学习率为1e-3,训练轮次为2,使用的优化算法为BertAdam算法,对预训练好的BERT-Base模型的线性层参数进行训练;
第二个阶段:设置学习率为3e-5,训练轮次为10,使用的优化算法为BertAdam算法,对预训练好的BERT-Base模型的线性层和BERT层的参数进行训练;
完成两个阶段的训练后,获得微调后的BERT-Base模型。
3.根据权利要求2所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述步骤二中,利用标注了事件以及事件之间顺承关系的数据对预训练好的BERT-Base模型进行微调,其具体过程为:
将标注数据输入预训练好的BERT-Base模型后,进行微调的过程分为3个阶段进行:
第1个阶段:对线性层的参数进行训练,学习率设置为1e-3,训练轮次为1,使用的优化算法为BertAdam算法;
第2个阶段:对线性层和事件嵌入层的参数进行训练,学习率设置为5e-5,训练轮次为3,使用的优化算法为BertAdam算法;
第3个阶段:对所有层的参数进行训练,学习率设置为1e-5,训练轮次为5,使用的优化算法为BertAdam算法;
微调过程中使用交叉熵损失函数对BERT-Base模型进行优化;将微调后的BERT-Base模型的Embedding层输出累加作为transformer层的输入,通过对微调后的BERT-Base模型最后一层的第一个输出进行分类,来对事件对的顺承关系进行判别。
4.根据权利要求3所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述微调后的BERT-Base模型的Embedding层包括事件嵌入层、词嵌入层、分段嵌入层以及位置嵌入层;
所述事件嵌入层中,头事件用H代表,尾事件用T代表,上下文中除头事件和尾事件以外的其他事件用A代表,其余字符用O代表。
5.根据权利要求4所述的一种基于消费事理图谱的消费意图识别和预测方法,其特征在于,所述步骤三的具体过程为:
基于爬虫得到电子商务网站商品评论语料,对于某个事件,根据该事件在各个消费意图对应的评论下出现的频率,得到该事件与每一个消费意图之间的关联权重,遍历所有事件,得到一个二分图;
所述二分图中的两类节点分别是事件节点和消费意图节点,事件节点与消费意图节点之间的边代表事件在该消费意图对应的商品评论中出现的频率。
CN202011069677.2A 2020-09-30 2020-09-30 一种基于消费事理图谱的消费意图识别和预测方法 Active CN112132633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011069677.2A CN112132633B (zh) 2020-09-30 2020-09-30 一种基于消费事理图谱的消费意图识别和预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011069677.2A CN112132633B (zh) 2020-09-30 2020-09-30 一种基于消费事理图谱的消费意图识别和预测方法

Publications (2)

Publication Number Publication Date
CN112132633A CN112132633A (zh) 2020-12-25
CN112132633B true CN112132633B (zh) 2021-07-06

Family

ID=73843810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011069677.2A Active CN112132633B (zh) 2020-09-30 2020-09-30 一种基于消费事理图谱的消费意图识别和预测方法

Country Status (1)

Country Link
CN (1) CN112132633B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095088B (zh) * 2021-04-30 2022-03-04 哈尔滨工业大学 一种基于文本的消费意图分析方法
CN113326352B (zh) * 2021-06-18 2022-05-24 哈尔滨工业大学 一种基于异构事件图的子事件关系识别方法
CN117351003B (zh) * 2023-11-24 2024-02-23 华南理工大学 一种基于视频动作的多模型集成多相位mri肿瘤分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635117B (zh) * 2018-12-26 2021-05-14 零犀(北京)科技有限公司 一种基于知识图谱识别用户意图方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Graph neural networks for social recommendation";fan wenqi 等;《the world wide web conference 2019》;20191123;全文 *
"基于概念图谱和情绪知识的消费意图预测研究";赵晶晶;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20190115;全文 *
"聊天机器人中用户出行消费意图识别方法";钱岳 等;《中国科学:信息科学》;20170609;第47卷(第8期);全文 *

Also Published As

Publication number Publication date
CN112132633A (zh) 2020-12-25

Similar Documents

Publication Publication Date Title
CN112132633B (zh) 一种基于消费事理图谱的消费意图识别和预测方法
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN107122455A (zh) 一种基于微博的网络用户增强表示方法
CN112559747B (zh) 事件分类处理方法、装置、电子设备和存储介质
Subramanian et al. A survey on sentiment analysis
Singh et al. Sentiment analysis of Twitter data using TF-IDF and machine learning techniques
CN111460157A (zh) 用于多领域文本分类的循环卷积多任务学习方法
Sharma et al. A boosted SVM based ensemble classifier for sentiment analysis of online reviews
Ibrahim Forecasting the early market movement in bitcoin using twitter's sentiment analysis: An ensemble-based prediction model
Jin et al. Multi-label sentiment analysis base on BERT with modified TF-IDF
Xiong et al. Affective impression: Sentiment-awareness POI suggestion via embedding in heterogeneous LBSNs
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
Kumar Social Media Analytics for Stance Mining A Multi-Modal Approach with Weak Supervision.
CN114328919A (zh) 文本内容分类方法、装置、电子设备及存储介质
Sadr et al. Improving the performance of text sentiment analysis using deep convolutional neural network integrated with hierarchical attention layer
Kuo et al. Integrated microblog sentiment analysis from users’ social interaction patterns and textual opinions
Saha et al. The corporeality of infotainment on fans feedback towards sports comment employing convolutional long-short term neural network
Pughazendi et al. Graph sample and aggregate attention network optimized with barnacles mating algorithm based sentiment analysis for online product recommendation
Fang et al. Sentiment analysis based on Chinese BERT and fused deep neural networks for sentence-level Chinese e-commerce product reviews
Mahalakshmi et al. Twitter sentiment analysis using conditional generative adversarial network
Baboo et al. Sentiment analysis and automatic emotion detection analysis of twitter using machine learning classifiers
Shen et al. User review analysis of dating apps based on text mining

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant