CN111798262B

CN111798262B - 用户关注点识别方法、系统和存储介质

Info

Publication number: CN111798262B
Application number: CN202010430540.9A
Authority: CN
Inventors: 刘业政; 陶守正; 姜元春; 孙见山; 钱洋; 井二康; 周永行; 梁瑞成; 魏学梅; 田志强
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2022-09-06
Anticipated expiration: 2040-05-20
Also published as: CN111798262A

Abstract

本发明提供一种用户关注点识别方法、系统和存储介质，涉及数据处理领域。包括以下步骤：获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据；基于历史评论数据获取评论隐向量；基于历史评分数据和评论隐向量获取感知隐向量；基于用户购车目标数据和感知隐向量获取注意力得分；基于感知隐向量和注意力得分获取总体感知向量；基于总体感知向量构建评分预测模型；基于评分预测模型获取用户对车型的预测评分；基于预测评分和历史总评分数据优化评分预测模型；基于优化后的评分预测模型得到用户对目标车型每一维度的关注度分布。本发明可以准确识别用户的关注点。

Description

用户关注点识别方法、系统和存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种用户关注点识别方法、系统和存储介质。

背景技术

随着互联网等信息技术的飞速发展和智能终端设备的普及，人们越来越多地在线上论坛与朋友分享兴趣、讨论时事，众多领域的商家诸如汽车领域，也会主动建立论坛吸引用户以增加客户的归属感、帮助改善产品或服务。众多的在线论坛每天都会产生大量数据，如何从海量的论坛数据中挖掘出用户对某款具体产品的关注点以成为工业界和学术界共同关注的研究热点。

传统的用户关注点识别方法主要基于汽车论坛用户发布的文本或数值型数据，采用基础的自然语言处理技术或统计方法构建多阶段用户关注点识别模型，继而通过模型预测用户的关注点。

然而本申请的发明人发现，现有技术在分析用户对于某一产品的关注点时，考虑的层面较少，忽略了用户本身意愿的层面，导致现有技术的分析结果不够准确。即现有技术在识别用户关注点时存在准确性低的缺点。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种用户关注点识别方法、系统和存储介质，解决了现有技术准确性低的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

本发明解决其技术问题所提供的一种用户关注点识别方法，所述识别方法由计算机执行，包括以下步骤：

获取用户评价数据，形成历史数据；所述历史数据包括：用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据；

基于所述历史评论数据获取用户对车型每一维度的评论隐向量；

基于所述历史评分数据和所述评论隐向量获取用户对车型每一维度的感知隐向量；

基于所述用户购车目标数据和所述感知隐向量获取用户对车型每一维度的注意力得分；

基于所述感知隐向量和所述注意力得分获取用户对车型的总体感知向量；基于所述总体感知向量构建评分预测模型；

基于所述评分预测模型获取用户对车型的预测评分；基于所述预测评分和所述历史总评分数据优化所述评分预测模型；

将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型，得到用户对目标车型每一维度的关注度分布。

优选的，所述用户对车型每一维度的评论隐向量的获取方法包括：

对所述历史评论数据进行预处理，包括：分词处理，去除停用词和特殊字符；

基于word2vec算法计算预处理后的评论数据，得到每个词语的隐向量；

对所有词语的隐向量的求平均，得到用户对车型每一维度的评论隐向量。

优选的，所述用户对车型每一维度的注意力得分的获取方法包括：

预先构建加性注意力模型，具体为：

s(p_i，q)＝V^Ttanh(W_pp_i+W_qq)

其中：

s(p_i，q)为注意力打分函数；

V、W_p和W_q为网络参数；

p_i为用户对车型的维度感知隐向量；

q为表示用户购车目标的one-hot向量；

将所述用户购车目标数据和所述感知隐向量输入到所述加性注意力模型中，基于softmax归一化方法求得注意力得分，所述注意力得分具体为：

其中：

V、W_p和W_q均为待学习的参数，采用[-1，1]的均匀分布进行初始化。

优选的，基于加权平均聚合策略，处理所述每一维度的感知隐向量和所述每一维度的注意力得分，得到用户对车型的总体感知向量；所述总体感知向量具体为：

其中：

p为用户对车型的总体感知向量；

α_i为用户对车型第i个维度的注意力分布；

p_i为用户对车型第i个维度的感知隐向量；

基于softmax函数和全连接层处理所述总体感知向量，得到评分预测模型，具体为：

其中：

表示用户对车型的总评分为t的预测概率。

优选的，所述评分预测模型的优化方法包括：

基于所述历史总评分数据和所述预测评分计算交叉熵损失函数，所述交叉熵损失函数为：

其中：

y为用户对目标车型的总评分；

为模型预测的用户对目标车型的总评分；

c为批样本量，k_t表示用户对目标车型的总评分为类别t的概率，

为模型预测的用户对目标车型的总评分为类别t的概率；

以256条样本为一个训练批次，迭代优化模型，直至连续的10个批次损失值误差不超过预设的阈值。

优选的，所述用户对目标车型每一维度的关注度分布的获取方法包括：

其中：

α_i为用户对目标车型第i个维度的注意力得分，用于表示用户的关注度分布；

和

均为训练好的模型参数；

表示用户对目标车型第i个维度的感知隐向量。

本发明解决其技术问题所提供的一种用户关注点识别系统，所述系统包括计算机，所述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，所述至少一个存储单元中存储有至少一条指令，所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤：

本发明解决其技术问题所提供的一种计算机可读存储介质，该介质上存储有至少一条指令，至少所述一条指令由处理器加载并执行以实现如上述的方法。

(三)有益效果

本发明提供了一种用户关注点识别方法、系统和存储介质。与现有技术相比，具备以下有益效果：

本发明通过获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据；基于历史评论数据获取评论隐向量；基于历史评分数据和评论隐向量获取感知隐向量；基于用户购车目标数据和感知隐向量获取注意力得分；基于感知隐向量和注意力得分获取总体感知向量；基于总体感知向量构建评分预测模型；基于评分预测模型获取用户对车型的预测评分；基于预测评分和历史总评分数据优化评分预测模型；将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型，得到用户对目标车型每一维度的关注度分布。本发明综合考虑到用户的购车目标因素，可以准确分析出用户对某一车型的关注度分布，有助于汽车企业改进产品，从而给商家带来巨大的经济效益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的用户关注点识别方法的整体流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种用户关注点识别方法、系统和存储介质，解决了现有技术准确性低问题，可以准确识别用户的关注点。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例通过获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据；基于历史评论数据获取评论隐向量；基于历史评分数据和评论隐向量获取感知隐向量；基于用户购车目标数据和感知隐向量获取注意力得分；基于感知隐向量和注意力得分获取总体感知向量；基于总体感知向量构建评分预测模型；基于评分预测模型获取用户对车型的预测评分；基于预测评分和历史总评分数据优化评分预测模型；将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型，得到用户对目标车型每一维度的关注度分布。本发明实施例综合考虑到用户的购车目标因素，可以准确分析出用户对某一车型的关注度分布，有助于汽车企业改进产品，从而给商家带来巨大的经济效益。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例提供了一种用户关注点识别方法，该方法由计算机执行，如图1所示，包括以下步骤：

S1、获取用户评价数据，形成历史数据；上述历史数据包括：用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据；

S2、基于上述历史评论数据获取用户对车型每一维度的评论隐向量；

S3、基于上述历史评分数据和上述评论隐向量获取用户对车型每一维度的感知隐向量；

S4、基于上述用户购车目标数据和上述感知隐向量获取用户对车型每一维度的注意力得分；

S5、基于上述感知隐向量和上述注意力得分获取用户对车型的总体感知向量；基于上述总体感知向量构建评分预测模型；

S6、基于上述评分预测模型获取用户对车型的预测评分；基于上述预测评分和上述历史总评分数据优化上述评分预测模型；

S7、将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型，得到用户对目标车型每一维度的关注度分布。

需要说明的是，本发明实施例为面向汽车领域基于特定目标的用户关注点识别方法，即基于用户对具体车型每一维度的评分和评论数据、用户的购车目的数据以及对该车型的总评分数据，挖掘用户对该车型每一个维度的关注程度。

本发明实施例提出的用户关注点识别方法基于以下假设：用户对某一车型的总评分取决于用户对该车型每一维度的感知，而且每一维度感知对总评分的影响不同，即用户在对该车型打总评分时会差异化地考虑该车型的所有维度信息。

下面对各步骤进行具体分析。

在步骤S1中，获取用户评价数据，形成历史数据；上述历史数据包括：用户对车型每一维度的历史评论数据、用户对车型每一维度的历史评分数据、用户对车型的历史总评分数据和用户购车目标数据。

具体的，从汽车论坛上获取相关数据。

本发明实施例设定存在||U||个用户，U为用户全集，对于U中的一个用户u，其对某一具体车型cs的总评分为

y＝[k₁，k₂，...，k_c]，k_t表示用户u对该车型的总评分为t的真实概率，c为评分量表级数。例如对于5分制评分量表来说，用户对某一车型总体打分为3分，那么y表示为[0，0，1，0，0]。

车型一共有n个评价维度，评价维度是指如空间、动力、操控、油耗、外观、内饰、性价比之类的车型属性，用户u对该车型第i个维度的评论文本记为d_i1，且d_i1＝{w_i11，w_i12，...，w_i1m}，w_i1k为该评论中的第k个词语；记用户u对该车型第i个维度的评分为r_i2，用one-hot编码表示，例如用户对某一车型在空间维度上打5分，那么r_i2表示为r_i2＝[0，0，0，0，1]；记用户u的购车目标为q，用one-hot编码表示。

在步骤S2中，基于上述历史评论数据获取用户对车型每一维度的评论隐向量。

具体的，包括以下步骤：

S201、对上述每一维度的评论数据进行预处理，包括：分词处理，去除停用词和特殊字符。具体如下：

汇总S1中获取到的所有的用户评论数据，形成一个文档。对文档进行预处理：先对文档进行分词，而后剔除其中的停用词和特殊字符。

S201、基于word2vec算法计算预处理后的评论数据，得到每个词语的隐向量。

具体的，使用文献[Efficient Estimation of Word Representations inVector Space，2013]中提出的word2vec算法计算出预处理后文档中每个词语的隐向量表示，维度为128维。

S203、对所有词语的隐向量的求平均，得到用户对目标车型每一维度的评论隐向量。

具体的，基于得到的词语的隐向量表示，通过对原评论中出现的词语的隐向量求平均，得到该条评论的隐向量表示。r_i1表示用户u对cs车型第i个维度的评论文本d_i1对应的评论隐向量，维度为128。

在步骤S3中，基于上述历史评分数据和上述评论隐向量获取用户对车型每一维度的感知隐向量。

具体的，利用S1中得到的用户u对cs车型第i个维度的评分向量r_i2和S2得到的用户u对cs车型第i个维度的评论隐向量r_i1，通过全连接层得到用户u对cs车型第i个维度的感知隐向量，记为p_i。同理，计算所有的用户维度感知隐向量。

在步骤S4中，基于上述用户购车目标数据和上述感知隐向量获取用户对车型每一维度的注意力得分。具体包括：

S401、预先构建加性注意力模型。

加性注意力模型为

s(p_i，q)＝V^Ttanh(W_pp_i+W_qq)

其中：

s(p_i，q)为注意力打分函数；

V、W_p和W_q为可学习的网络参数，具体的，采用[-1，1]的均匀分布进行初始化；

p_i为用户对车型的维度感知隐向量；

q为表示用户购车目的的one-hot向量。

S402、将用户购车目标数据和感知隐向量输入到加性注意力模型中，基于softmax归一化方法求得注意力得分。

具体的，针对某一特定的用户u和特定的第i个维度，将通过S1获取的用户u的购车目标向量q和通过S3得到的用户u对cs车型所有维度的感知隐向量作为输入。

通过softmax归一化得到注意力得分

其中：

V、W_p和W_q均为待学习的参数，具体的，采用[-1，1]的均匀分布进行初始化。

同理，计算用户u对cs车型所有维度的注意力得分和所有用户对车型每一维度的注意力得分。

在步骤S5中，基于上述感知隐向量和上述注意力得分获取用户对车型的总体感知向量；基于上述总体感知向量构建评分预测模型。具体包括：

S501、获取总体感知向量。

具体的，以某一特定的用户u为例，通过S3获取的用户u对cs车型第i个维度的感知隐向量p_i和通过S4得到的用户u对cs车型第i个维度的注意力得分α_i，利用加权平均聚合策略得到用户u对该车型的总体感知向量：

其中：

p为用户对具体车型的总体感知向量；

α_i为用户对具体车型第i个维度的注意力分布；

p_i为用户对具体车型第i个维度的感知隐向量。

S502、构建评分预测模型。

具体的，基于softmax函数和全连接层处理所述总体感知向量，得到评分预测模型。具体为：

其中：

表示用户u对该车型的总评分为t的预测概率。

在步骤S6中，基于上述评分预测模型获取用户对车型的预测评分；基于上述预测评分和上述历史总评分数据优化上述评分预测模型。具体包括以下步骤：

S601、获取预测评分。

通过评分预测模型得到用户u对该车型的预测评分。

S602、优化评分预测模型。

以某一特定的用户u为例，利用S1中获取的用户u对cs车型的总评分y以及通过S601获取的用户u对该车型的预测总评分

计算交叉熵损失函数：

其中：

y为用户对目标车型的总评分；

为模型预测的用户对目标车型的总评分；

为模型预测的用户对目标车型的总评分为类别t的概率。

同理，计算其他用户-车型对的损失函数值。

以256条样本为一个训练批次，使用Adam优化器迭代优化模型，具体的，Adam优化器为现有技术，直至连续的10个批次损失值误差不超过阈值0.01则认为模型收敛，停止迭代。

在步骤S7中，将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型，得到用户对目标车型每一维度的关注度分布。

具体的，将此时用户u对cs车型每个维度的评分和评论数据以及用户的购车目的数据输入模型，计算得到用户u对该车型每一维度的注意力得分[α₁，α₂，...，α_n]。

在本发明实施例中，将上述注意力得分[α₁，α₂，...，α_n]作为用户u对该车型基于特定目标的关注度分布：

其中：

和

均为训练好的模型参数，

为通过训练好的模型计算出来的用户对cs车型第i个维度的感知隐向量。

同理，计算用户u对cs车型所有维度的关注度分布和所有用户对所有目标车型每一维度的关注度分布。

本发明实施例还提供了一种用户关注点识别系统，上述系统包括计算机，上述计算机包括：

至少一个存储单元；

至少一个处理单元；

其中，上述至少一个存储单元中存储有至少一条指令，上述至少一条指令由上述至少一个处理单元加载并执行以实现以下步骤：

可理解的是，本发明实施例提供的上述识别系统与上述识别方法相对应，其有关内容的解释、举例、有益效果等部分可以参考用户关注点识别方法中的相应内容，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，该介质上存储有至少一条指令，至少所述一条指令由处理器加载并执行以实现如上述的方法。

综上所述，与现有技术相比，具备以下有益效果：

1.本发明实施例通过获取用户对车型每一维度的历史评论数据、历史评分数据、历史总评分数据和用户购车目标数据；基于历史评论数据获取评论隐向量；基于历史评分数据和评论隐向量获取感知隐向量；基于用户购车目标数据和感知隐向量获取注意力得分；基于感知隐向量和注意力得分获取总体感知向量；基于总体感知向量构建评分预测模型；基于评分预测模型获取用户对车型的预测评分；基于预测评分和历史总评分数据优化评分预测模型；将用户对目标车型每一维度的的评论数据、评分数据和用户对目标车型的购车目标数据输入优化后的评分预测模型，得到用户对目标车型每一维度的关注度分布。本发明实施例综合考虑到用户的购车目标因素，可以准确分析出用户对某一车型的关注度分布，有助于汽车企业改进产品，从而给商家带来巨大的经济效益。

2.本发明采用端到端的方式对用户数据进行建模，避免了传统的多阶段用户关注点识别方法中每一阶段误差扩散问题的出现。

3.本发明采用了先进的词嵌入方法对用户评论数据的语义进行建模，更加符合实际情况。

4.本发明结合用户的购车目的信息和注意力机制，采用用户的购车目标信息监督用户对车型所有维度的注意力分布的学习，更加符合实际情况。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。