CN111798262B - 用户关注点识别方法、系统和存储介质 - Google Patents

用户关注点识别方法、系统和存储介质 Download PDF

Info

Publication number
CN111798262B
CN111798262B CN202010430540.9A CN202010430540A CN111798262B CN 111798262 B CN111798262 B CN 111798262B CN 202010430540 A CN202010430540 A CN 202010430540A CN 111798262 B CN111798262 B CN 111798262B
Authority
CN
China
Prior art keywords
user
score
data
vehicle type
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010430540.9A
Other languages
English (en)
Other versions
CN111798262A (zh
Inventor
刘业政
陶守正
姜元春
孙见山
钱洋
井二康
周永行
梁瑞成
魏学梅
田志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202010430540.9A priority Critical patent/CN111798262B/zh
Publication of CN111798262A publication Critical patent/CN111798262A/zh
Application granted granted Critical
Publication of CN111798262B publication Critical patent/CN111798262B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用户关注点识别方法、系统和存储介质,涉及数据处理领域。包括以下步骤:获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据;基于历史评论数据获取评论隐向量;基于历史评分数据和评论隐向量获取感知隐向量;基于用户购车目标数据和感知隐向量获取注意力得分;基于感知隐向量和注意力得分获取总体感知向量;基于总体感知向量构建评分预测模型;基于评分预测模型获取用户对车型的预测评分;基于预测评分和历史总评分数据优化评分预测模型;基于优化后的评分预测模型得到用户对目标车型每一维度的关注度分布。本发明可以准确识别用户的关注点。

Description

用户关注点识别方法、系统和存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种用户关注点识别方法、系统和存储介质。
背景技术
随着互联网等信息技术的飞速发展和智能终端设备的普及,人们越来越多地在线上论坛与朋友分享兴趣、讨论时事,众多领域的商家诸如汽车领域,也会主动建立论坛吸引用户以增加客户的归属感、帮助改善产品或服务。众多的在线论坛每天都会产生大量数据,如何从海量的论坛数据中挖掘出用户对某款具体产品的关注点以成为工业界和学术界共同关注的研究热点。
传统的用户关注点识别方法主要基于汽车论坛用户发布的文本或数值型数据,采用基础的自然语言处理技术或统计方法构建多阶段用户关注点识别模型,继而通过模型预测用户的关注点。
然而本申请的发明人发现,现有技术在分析用户对于某一产品的关注点时,考虑的层面较少,忽略了用户本身意愿的层面,导致现有技术的分析结果不够准确。即现有技术在识别用户关注点时存在准确性低的缺点。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种用户关注点识别方法、系统和存储介质,解决了现有技术准确性低的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明解决其技术问题所提供的一种用户关注点识别方法,所述识别方法由计算机执行,包括以下步骤:
获取用户评价数据,形成历史数据;所述历史数据包括:用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据;
基于所述历史评论数据获取用户对车型每一维度的评论隐向量;
基于所述历史评分数据和所述评论隐向量获取用户对车型每一维度的感知隐向量;
基于所述用户购车目标数据和所述感知隐向量获取用户对车型每一维度的注意力得分;
基于所述感知隐向量和所述注意力得分获取用户对车型的总体感知向量;基于所述总体感知向量构建评分预测模型;
基于所述评分预测模型获取用户对车型的预测评分;基于所述预测评分和所述历史总评分数据优化所述评分预测模型;
将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。
优选的,所述用户对车型每一维度的评论隐向量的获取方法包括:
对所述历史评论数据进行预处理,包括:分词处理,去除停用词和特殊字符;
基于word2vec算法计算预处理后的评论数据,得到每个词语的隐向量;
对所有词语的隐向量的求平均,得到用户对车型每一维度的评论隐向量。
优选的,所述用户对车型每一维度的注意力得分的获取方法包括:
预先构建加性注意力模型,具体为:
s(pi,q)=VTtanh(Wppi+Wqq)
其中:
s(pi,q)为注意力打分函数;
V、Wp和Wq为网络参数;
pi为用户对车型的维度感知隐向量;
q为表示用户购车目标的one-hot向量;
将所述用户购车目标数据和所述感知隐向量输入到所述加性注意力模型中,基于softmax归一化方法求得注意力得分,所述注意力得分具体为:
Figure BDA0002500409950000031
其中:
V、Wp和Wq均为待学习的参数,采用[-1,1]的均匀分布进行初始化。
优选的,基于加权平均聚合策略,处理所述每一维度的感知隐向量和所述每一维度的注意力得分,得到用户对车型的总体感知向量;所述总体感知向量具体为:
Figure BDA0002500409950000041
其中:
p为用户对车型的总体感知向量;
αi为用户对车型第i个维度的注意力分布;
pi为用户对车型第i个维度的感知隐向量;
基于softmax函数和全连接层处理所述总体感知向量,得到评分预测模型,具体为:
Figure BDA0002500409950000042
其中:
Figure BDA0002500409950000043
表示用户对车型的总评分为t的预测概率。
优选的,所述评分预测模型的优化方法包括:
基于所述历史总评分数据和所述预测评分计算交叉熵损失函数,所述交叉熵损失函数为:
Figure BDA0002500409950000044
其中:
y为用户对目标车型的总评分;
Figure BDA0002500409950000045
为模型预测的用户对目标车型的总评分;
c为批样本量,kt表示用户对目标车型的总评分为类别t的概率,
Figure BDA0002500409950000046
为模型预测的用户对目标车型的总评分为类别t的概率;
以256条样本为一个训练批次,迭代优化模型,直至连续的10个批次损失值误差不超过预设的阈值。
优选的,所述用户对目标车型每一维度的关注度分布的获取方法包括:
Figure BDA0002500409950000051
Figure BDA0002500409950000052
其中:
αi为用户对目标车型第i个维度的注意力得分,用于表示用户的关注度分布;
Figure BDA0002500409950000053
Figure BDA0002500409950000054
均为训练好的模型参数;
Figure BDA0002500409950000055
表示用户对目标车型第i个维度的感知隐向量。
本发明解决其技术问题所提供的一种用户关注点识别系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取用户评价数据,形成历史数据;所述历史数据包括:用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据;
基于所述历史评论数据获取用户对车型每一维度的评论隐向量;
基于所述历史评分数据和所述评论隐向量获取用户对车型每一维度的感知隐向量;
基于所述用户购车目标数据和所述感知隐向量获取用户对车型每一维度的注意力得分;
基于所述感知隐向量和所述注意力得分获取用户对车型的总体感知向量;基于所述总体感知向量构建评分预测模型;
基于所述评分预测模型获取用户对车型的预测评分;基于所述预测评分和所述历史总评分数据优化所述评分预测模型;
将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。
本发明解决其技术问题所提供的一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如上述的方法。
(三)有益效果
本发明提供了一种用户关注点识别方法、系统和存储介质。与现有技术相比,具备以下有益效果:
本发明通过获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据;基于历史评论数据获取评论隐向量;基于历史评分数据和评论隐向量获取感知隐向量;基于用户购车目标数据和感知隐向量获取注意力得分;基于感知隐向量和注意力得分获取总体感知向量;基于总体感知向量构建评分预测模型;基于评分预测模型获取用户对车型的预测评分;基于预测评分和历史总评分数据优化评分预测模型;将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。本发明综合考虑到用户的购车目标因素,可以准确分析出用户对某一车型的关注度分布,有助于汽车企业改进产品,从而给商家带来巨大的经济效益。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的用户关注点识别方法的整体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种用户关注点识别方法、系统和存储介质,解决了现有技术准确性低问题,可以准确识别用户的关注点。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例通过获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据;基于历史评论数据获取评论隐向量;基于历史评分数据和评论隐向量获取感知隐向量;基于用户购车目标数据和感知隐向量获取注意力得分;基于感知隐向量和注意力得分获取总体感知向量;基于总体感知向量构建评分预测模型;基于评分预测模型获取用户对车型的预测评分;基于预测评分和历史总评分数据优化评分预测模型;将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。本发明实施例综合考虑到用户的购车目标因素,可以准确分析出用户对某一车型的关注度分布,有助于汽车企业改进产品,从而给商家带来巨大的经济效益。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种用户关注点识别方法,该方法由计算机执行,如图1所示,包括以下步骤:
S1、获取用户评价数据,形成历史数据;上述历史数据包括:用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据;
S2、基于上述历史评论数据获取用户对车型每一维度的评论隐向量;
S3、基于上述历史评分数据和上述评论隐向量获取用户对车型每一维度的感知隐向量;
S4、基于上述用户购车目标数据和上述感知隐向量获取用户对车型每一维度的注意力得分;
S5、基于上述感知隐向量和上述注意力得分获取用户对车型的总体感知向量;基于上述总体感知向量构建评分预测模型;
S6、基于上述评分预测模型获取用户对车型的预测评分;基于上述预测评分和上述历史总评分数据优化上述评分预测模型;
S7、将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。
本发明实施例通过获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据;基于历史评论数据获取评论隐向量;基于历史评分数据和评论隐向量获取感知隐向量;基于用户购车目标数据和感知隐向量获取注意力得分;基于感知隐向量和注意力得分获取总体感知向量;基于总体感知向量构建评分预测模型;基于评分预测模型获取用户对车型的预测评分;基于预测评分和历史总评分数据优化评分预测模型;将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。本发明实施例综合考虑到用户的购车目标因素,可以准确分析出用户对某一车型的关注度分布,有助于汽车企业改进产品,从而给商家带来巨大的经济效益。
需要说明的是,本发明实施例为面向汽车领域基于特定目标的用户关注点识别方法,即基于用户对具体车型每一维度的评分和评论数据、用户的购车目的数据以及对该车型的总评分数据,挖掘用户对该车型每一个维度的关注程度。
本发明实施例提出的用户关注点识别方法基于以下假设:用户对某一车型的总评分取决于用户对该车型每一维度的感知,而且每一维度感知对总评分的影响不同,即用户在对该车型打总评分时会差异化地考虑该车型的所有维度信息。
下面对各步骤进行具体分析。
在步骤S1中,获取用户评价数据,形成历史数据;上述历史数据包括:用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据。
具体的,从汽车论坛上获取相关数据。
本发明实施例设定存在||U||个用户,U为用户全集,对于U中的一个用户u,其对某一具体车型cs的总评分为
Figure BDA0002500409950000101
y=[k1,k2,...,kc],kt表示用户u对该车型的总评分为t的真实概率,c为评分量表级数。例如对于5分制评分量表来说,用户对某一车型总体打分为3分,那么y表示为[0,0,1,0,0]。
车型一共有n个评价维度,评价维度是指如空间、动力、操控、油耗、外观、内饰、性价比之类的车型属性,用户u对该车型第i个维度的评论文本记为di1,且di1={wi11,wi12,...,wi1m},wi1k为该评论中的第k个词语;记用户u对该车型第i个维度的评分为ri2,用one-hot编码表示,例如用户对某一车型在空间维度上打5分,那么ri2表示为ri2=[0,0,0,0,1];记用户u的购车目标为q,用one-hot编码表示。
在步骤S2中,基于上述历史评论数据获取用户对车型每一维度的评论隐向量。
具体的,包括以下步骤:
S201、对上述每一维度的评论数据进行预处理,包括:分词处理,去除停用词和特殊字符。具体如下:
汇总S1中获取到的所有的用户评论数据,形成一个文档。对文档进行预处理:先对文档进行分词,而后剔除其中的停用词和特殊字符。
S201、基于word2vec算法计算预处理后的评论数据,得到每个词语的隐向量。
具体的,使用文献[Efficient Estimation of Word Representations inVector Space,2013]中提出的word2vec算法计算出预处理后文档中每个词语的隐向量表示,维度为128维。
S203、对所有词语的隐向量的求平均,得到用户对目标车型每一维度的评论隐向量。
具体的,基于得到的词语的隐向量表示,通过对原评论中出现的词语的隐向量求平均,得到该条评论的隐向量表示。ri1表示用户u对cs车型第i个维度的评论文本di1对应的评论隐向量,维度为128。
在步骤S3中,基于上述历史评分数据和上述评论隐向量获取用户对车型每一维度的感知隐向量。
具体的,利用S1中得到的用户u对cs车型第i个维度的评分向量ri2和S2得到的用户u对cs车型第i个维度的评论隐向量ri1,通过全连接层得到用户u对cs车型第i个维度的感知隐向量,记为pi。同理,计算所有的用户维度感知隐向量。
在步骤S4中,基于上述用户购车目标数据和上述感知隐向量获取用户对车型每一维度的注意力得分。具体包括:
S401、预先构建加性注意力模型。
加性注意力模型为
s(pi,q)=VTtanh(Wppi+Wqq)
其中:
s(pi,q)为注意力打分函数;
V、Wp和Wq为可学习的网络参数,具体的,采用[-1,1]的均匀分布进行初始化;
pi为用户对车型的维度感知隐向量;
q为表示用户购车目的的one-hot向量。
S402、将用户购车目标数据和感知隐向量输入到加性注意力模型中,基于softmax归一化方法求得注意力得分。
具体的,针对某一特定的用户u和特定的第i个维度,将通过S1获取的用户u的购车目标向量q和通过S3得到的用户u对cs车型所有维度的感知隐向量作为输入。
通过softmax归一化得到注意力得分
Figure BDA0002500409950000121
其中:
V、Wp和Wq均为待学习的参数,具体的,采用[-1,1]的均匀分布进行初始化。
同理,计算用户u对cs车型所有维度的注意力得分和所有用户对车型每一维度的注意力得分。
在步骤S5中,基于上述感知隐向量和上述注意力得分获取用户对车型的总体感知向量;基于上述总体感知向量构建评分预测模型。具体包括:
S501、获取总体感知向量。
具体的,以某一特定的用户u为例,通过S3获取的用户u对cs车型第i个维度的感知隐向量pi和通过S4得到的用户u对cs车型第i个维度的注意力得分αi,利用加权平均聚合策略得到用户u对该车型的总体感知向量:
Figure BDA0002500409950000131
其中:
p为用户对具体车型的总体感知向量;
αi为用户对具体车型第i个维度的注意力分布;
pi为用户对具体车型第i个维度的感知隐向量。
S502、构建评分预测模型。
具体的,基于softmax函数和全连接层处理所述总体感知向量,得到评分预测模型。具体为:
Figure BDA0002500409950000132
其中:
Figure BDA0002500409950000133
表示用户u对该车型的总评分为t的预测概率。
在步骤S6中,基于上述评分预测模型获取用户对车型的预测评分;基于上述预测评分和上述历史总评分数据优化上述评分预测模型。具体包括以下步骤:
S601、获取预测评分。
通过评分预测模型得到用户u对该车型的预测评分。
S602、优化评分预测模型。
以某一特定的用户u为例,利用S1中获取的用户u对cs车型的总评分y以及通过S601获取的用户u对该车型的预测总评分
Figure BDA0002500409950000141
计算交叉熵损失函数:
Figure BDA0002500409950000142
其中:
y为用户对目标车型的总评分;
Figure BDA0002500409950000143
为模型预测的用户对目标车型的总评分;
c为批样本量,kt表示用户对目标车型的总评分为类别t的概率,
Figure BDA0002500409950000144
为模型预测的用户对目标车型的总评分为类别t的概率。
同理,计算其他用户-车型对的损失函数值。
以256条样本为一个训练批次,使用Adam优化器迭代优化模型,具体的,Adam优化器为现有技术,直至连续的10个批次损失值误差不超过阈值0.01则认为模型收敛,停止迭代。
在步骤S7中,将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。
具体的,将此时用户u对cs车型每个维度的评分和评论数据以及用户的购车目的数据输入模型,计算得到用户u对该车型每一维度的注意力得分[α1,α2,...,αn]。
在本发明实施例中,将上述注意力得分[α1,α2,...,αn]作为用户u对该车型基于特定目标的关注度分布:
Figure BDA0002500409950000151
Figure BDA0002500409950000152
其中:
Figure BDA0002500409950000153
Figure BDA0002500409950000154
均为训练好的模型参数,
Figure BDA0002500409950000155
为通过训练好的模型计算出来的用户对cs车型第i个维度的感知隐向量。
同理,计算用户u对cs车型所有维度的关注度分布和所有用户对所有目标车型每一维度的关注度分布。
本发明实施例还提供了一种用户关注点识别系统,上述系统包括计算机,上述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,上述至少一个存储单元中存储有至少一条指令,上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤:
S1、获取用户评价数据,形成历史数据;上述历史数据包括:用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据;
S2、基于上述历史评论数据获取用户对车型每一维度的评论隐向量;
S3、基于上述历史评分数据和上述评论隐向量获取用户对车型每一维度的感知隐向量;
S4、基于上述用户购车目标数据和上述感知隐向量获取用户对车型每一维度的注意力得分;
S5、基于上述感知隐向量和上述注意力得分获取用户对车型的总体感知向量;基于上述总体感知向量构建评分预测模型;
S6、基于上述评分预测模型获取用户对车型的预测评分;基于上述预测评分和上述历史总评分数据优化上述评分预测模型;
S7、将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。
可理解的是,本发明实施例提供的上述识别系统与上述识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考用户关注点识别方法中的相应内容,此处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如上述的方法。
综上所述,与现有技术相比,具备以下有益效果:
1.本发明实施例通过获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据;基于历史评论数据获取评论隐向量;基于历史评分数据和评论隐向量获取感知隐向量;基于用户购车目标数据和感知隐向量获取注意力得分;基于感知隐向量和注意力得分获取总体感知向量;基于总体感知向量构建评分预测模型;基于评分预测模型获取用户对车型的预测评分;基于预测评分和历史总评分数据优化评分预测模型;将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布。本发明实施例综合考虑到用户的购车目标因素,可以准确分析出用户对某一车型的关注度分布,有助于汽车企业改进产品,从而给商家带来巨大的经济效益。
2.本发明采用端到端的方式对用户数据进行建模,避免了传统的多阶段用户关注点识别方法中每一阶段误差扩散问题的出现。
3.本发明采用了先进的词嵌入方法对用户评论数据的语义进行建模,更加符合实际情况。
4.本发明结合用户的购车目的信息和注意力机制,采用用户的购车目标信息监督用户对车型所有维度的注意力分布的学习,更加符合实际情况。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种用户关注点识别方法,其特征在于,所述识别方法由计算机执行,包括以下步骤:
获取用户评价数据,形成历史数据;所述历史数据包括:用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据;
基于所述历史评论数据获取用户对车型每一维度的评论隐向量;
基于所述历史评分数据和所述评论隐向量获取用户对车型每一维度的感知隐向量;
基于所述用户购车目标数据和所述感知隐向量获取用户对车型每一维度的注意力得分;
基于所述感知隐向量和所述注意力得分获取用户对车型的总体感知向量;基于所述总体感知向量构建评分预测模型;
基于所述评分预测模型获取用户对车型的预测评分;基于所述预测评分和所述历史总评分数据优化所述评分预测模型;
将用户对目标车型每一维度的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布;
所述用户对车型每一维度的注意力得分的获取方法包括:
预先构建加性注意力模型,具体为:
s(pi,q)=VTtanh(Wppi+Wqq)
其中:
s(pi,q)为注意力打分函数;
V、Wp和Wq为网络参数;
pi为用户对车型第i个维度的感知隐向量,i=1,2,...,n;
q为表示用户购车目标的one-hot向量;
将所述用户购车目标数据和所述感知隐向量输入到所述加性注意力模型中,基于softmax归一化方法求得注意力得分,所述注意力得分具体为:
Figure FDA0003741364660000021
其中:
αi为用户对车型第i个维度的注意力分布;
V、Wp和Wq均为待学习的参数,采用[-1,1]的均匀分布进行初始化;
基于加权平均聚合策略,处理所述每一维度的感知隐向量和所述每一维度的注意力得分,得到用户对车型的总体感知向量;所述总体感知向量具体为:
Figure FDA0003741364660000022
其中:
p为用户对车型的总体感知向量;
基于softmax函数和全连接层处理所述总体感知向量,得到评分预测模型,具体为:
Figure FDA0003741364660000023
其中:
Figure FDA0003741364660000031
表示用户对车型的总评分为t的预测概率;
c为批样本量;
所述评分预测模型的优化方法包括:
基于所述历史总评分数据和所述预测评分计算交叉熵损失函数,所述交叉熵损失函数为:
Figure FDA0003741364660000032
其中:
y为用户对目标车型的总评分;
Figure FDA0003741364660000033
为模型预测的用户对目标车型的总评分;
kt表示用户对目标车型的总评分为类别t的概率;
以256条样本为一个训练批次,迭代优化模型,直至连续的10个批次损失值误差不超过预设的阈值。
2.如权利要求1所述的识别方法,其特征在于,所述用户对车型每一维度的评论隐向量的获取方法包括:
对所述历史评论数据进行预处理,包括:分词处理,去除停用词和特殊字符;
基于word2vec算法计算预处理后的评论数据,得到每个词语的隐向量;
对所有词语的隐向量的求平均,得到用户对车型每一维度的评论隐向量。
3.如权利要求1所述的识别方法,其特征在于,所述用户对目标车型每一维度的关注度分布的获取方法包括:
Figure FDA0003741364660000041
Figure FDA0003741364660000042
其中:
αi为用户对目标车型第i个维度的注意力得分,用于表示用户的关注度分布;
Figure FDA0003741364660000043
Figure FDA0003741364660000044
均为训练好的模型参数;
Figure FDA0003741364660000045
表示用户对目标车型第i个维度的感知隐向量。
4.一种用户关注点识别系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
获取用户评价数据,形成历史数据;所述历史数据包括:用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据;
基于所述历史评论数据获取用户对车型每一维度的评论隐向量;
基于所述历史评分数据和所述评论隐向量获取用户对车型每一维度的感知隐向量;
基于所述用户购车目标数据和所述感知隐向量获取用户对车型每一维度的注意力得分;
基于所述感知隐向量和所述注意力得分获取用户对车型的总体感知向量;基于所述总体感知向量构建评分预测模型;
基于所述评分预测模型获取用户对车型的预测评分;基于所述预测评分和所述历史总评分数据优化所述评分预测模型;
将用户对目标车型每一维度的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型,得到用户对目标车型每一维度的关注度分布;
所述用户对车型每一维度的注意力得分的获取方法包括:
预先构建加性注意力模型,具体为:
s(pi,q)=VTtanh(Wppi+Wqq)
其中:
s(pi,q)为注意力打分函数;
V、Wp和Wq为网络参数;
pi为用户对车型第i个维度的感知隐向量,i=1,2,...,n;
q为表示用户购车目标的one-hot向量;
将所述用户购车目标数据和所述感知隐向量输入到所述加性注意力模型中,基于softmax归一化方法求得注意力得分,所述注意力得分具体为:
Figure FDA0003741364660000051
其中:
αi为用户对车型第i个维度的注意力分布;
V、Wp和Wq均为待学习的参数,采用[-1,1]的均匀分布进行初始化;
基于加权平均聚合策略,处理所述每一维度的感知隐向量和所述每一维度的注意力得分,得到用户对车型的总体感知向量;所述总体感知向量具体为:
Figure FDA0003741364660000061
其中:
p为用户对车型的总体感知向量;
基于softmax函数和全连接层处理所述总体感知向量,得到评分预测模型,具体为:
Figure FDA0003741364660000062
其中:
Figure FDA0003741364660000063
表示用户对车型的总评分为t的预测概率;
c为批样本量;
所述评分预测模型的优化方法包括:
基于所述历史总评分数据和所述预测评分计算交叉熵损失函数,所述交叉熵损失函数为:
Figure FDA0003741364660000064
其中:
y为用户对目标车型的总评分;
Figure FDA0003741364660000065
为模型预测的用户对目标车型的总评分;
kt表示用户对目标车型的总评分为类别t的概率;
以256条样本为一个训练批次,迭代优化模型,直至连续的10个批次损失值误差不超过预设的阈值。
5.一种计算机可读存储介质,该介质上存储有至少一条指令,至少所述一条指令由处理器加载并执行以实现如权利要求1所述的方法。
CN202010430540.9A 2020-05-20 2020-05-20 用户关注点识别方法、系统和存储介质 Active CN111798262B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010430540.9A CN111798262B (zh) 2020-05-20 2020-05-20 用户关注点识别方法、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010430540.9A CN111798262B (zh) 2020-05-20 2020-05-20 用户关注点识别方法、系统和存储介质

Publications (2)

Publication Number Publication Date
CN111798262A CN111798262A (zh) 2020-10-20
CN111798262B true CN111798262B (zh) 2022-09-06

Family

ID=72805855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010430540.9A Active CN111798262B (zh) 2020-05-20 2020-05-20 用户关注点识别方法、系统和存储介质

Country Status (1)

Country Link
CN (1) CN111798262B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114745B (zh) * 2023-08-18 2024-03-15 广东数鼎科技有限公司 一种意向车型预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN110517121A (zh) * 2019-09-23 2019-11-29 重庆邮电大学 基于评论文本情感分析的商品推荐方法及商品推荐装置
CN110827115A (zh) * 2019-10-08 2020-02-21 合肥工业大学 基于注意力机制的产品推荐方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170060871A1 (en) * 2015-08-25 2017-03-02 International Business Machines Corporation Group-based attention management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018212710A1 (en) * 2017-05-19 2018-11-22 National University Of Singapore Predictive analysis methods and systems
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN110517121A (zh) * 2019-09-23 2019-11-29 重庆邮电大学 基于评论文本情感分析的商品推荐方法及商品推荐装置
CN110827115A (zh) * 2019-10-08 2020-02-21 合肥工业大学 基于注意力机制的产品推荐方法和系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Personalized recommendation algorithm based on graph entropy in trust social network;Cai Yongjia等;《Journal of Computer Applications》;20190802;第39卷(第1期);全文 *
一种融合社交信息的注意力推荐模型;柴超群;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20191215(第12期);全文 *
基于全局与局部相融合的方面注意力推荐模型;张天龙等;《中国科技论文》;20191115(第11期);全文 *
基于双层注意力机制的评分预测推荐模型;李钰钰等;《中国科技论文》;20180923(第9期);全文 *
基于用户评论的动态方面注意力电商推荐深度学习模型;冯兴杰等;《计算机应用与软件》;20200312(第03期);全文 *
社会化在线评论情感因素测量与有用性分析;田依林等;《现代情报》;20180613(第06期);全文 *

Also Published As

Publication number Publication date
CN111798262A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
CN110532542B (zh) 一种基于正例与未标注学习的发票虚开识别方法及系统
CN111966914B (zh) 基于人工智能的内容推荐方法、装置和计算机设备
CN111797321A (zh) 一种面向不同场景的个性化知识推荐方法及系统
CN109710766B (zh) 一种工单数据的投诉倾向分析预警方法及装置
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN111339260A (zh) 一种基于bert和qa思想的细粒度情感分析方法
CN113159355A (zh) 数据预测方法、装置、物流货量预测方法、介质、设备
CN112085525A (zh) 一种基于混合模型的用户网络购买行为预测研究方法
CN111881722A (zh) 一种跨年龄人脸识别方法、系统、装置及存储介质
CN110826327A (zh) 情感分析方法、装置、计算机可读介质及电子设备
CN112819024B (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
CN112070543A (zh) 一种电商网站中评论质量的检测方法
CN107688822B (zh) 基于深度学习的新增类别识别方法
CN111798262B (zh) 用户关注点识别方法、系统和存储介质
US20210357699A1 (en) Data quality assessment for data analytics
CN112632377A (zh) 一种基于用户评论情感分析与矩阵分解的推荐方法
CN111143533A (zh) 一种基于用户行为数据的客服方法及系统
CN115712777A (zh) 一种基于逻辑回归的文献推荐系统的排序方法
CN111144430A (zh) 基于遗传算法的养卡号码识别方法及装置
CN110956528B (zh) 一种电商平台的推荐方法及系统
CN111400413B (zh) 一种确定知识库中知识点类目的方法及系统
CN110717103B (zh) 基于堆栈降噪编码器改进的协同过滤方法
CN113553501A (zh) 一种基于人工智能的用户画像预测的方法及装置
CN111291180A (zh) 一种工单数据分类方法、终端及存储介质
CN118132856B (zh) 一种基于大数据的智能分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant