CN110209767A

CN110209767A - 一种用户画像构建方法

Info

Publication number: CN110209767A
Application number: CN201910452154.7A
Authority: CN
Inventors: 周庆; 侯芬; 胡月; 葛亮; 陈超; 文举; 尹畅; 欧娇娇; 王欢
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2019-09-06

Abstract

本申请涉及一种用户画像构建方法，涉及评论文本分析和自然语言处理技术领域，包括：提取评价文本中的目标词和意见词；量化意见词，得到意见词的量化结果；将所述目标词进行分类：将各类别词和各所述目标词分别带入向量训练模型，得到有向量形式的类别词和有向量形式的目标词；计算各目标词与类别词之间的余弦距离；将最大余弦距离值所对应的目标词归入对应的类别中；对各类别下的目标词所对应意见词的量化结果进行求和，得到各类别的分值；根据各类别的分值得到用户画像。面对繁杂庞大的评价文本，通过量化意见词、对目标词进行分类并计算出各类别分值，准确地体现用户的喜厌程度，精准地得到用户画像，给用户带来更好的体验。

Description

一种用户画像构建方法

技术领域

本申请涉及大数据分析领域，尤其涉及评论文本分析和自然语言处理领域。

背景技术

随着互联网技术的流行，互联网用户每天都在互联网上产生大量数据，包括静态数据、动态数据，通过提取数据中的用户特征，建立用户画像是十分有意义的。通过建立用户画像有助于：理解用户，获得和分析用户的反馈，挖掘用户的潜在需求等，并为用户提供个性化服务。例如，在电商领域，通过收集用户的浏览、收藏、购买的商品信息，分析用户的消费行为，获得用户的消费偏好，并构建用户画像。针对不同用户的特征提供对应的服务，为用户带来更好的服务体验。

目前的研究中，常见的用户画像构建常常立足于用户行为的统计分析。比如电商例子中，通过统计用户浏览、收藏、加入购物车以及购买的几种行为进行统计，可以一定程度上得到用户更偏好在哪类商品，但只是统计意义上的规律，并不能够细致刻画用户的偏好，也不能够完全解释用户的偏好。而能够直接、具体、准确地反应用户喜恶以及对哪些方面喜好哪些方面厌恶，便是用户自己写下的评论。因此，对用户评论深入分析有利于更为精准地刻画用户画像，能给用户带来更好的体验，具有研究意义和应用价值。而用户的评论数据无疑是庞大的，人工逐条读取获得信息显然是不可能的，所以如何从大量评论文本中提取出用户意见观点是研究重点之一。

发明内容

为了对披露的实施例的一些方面有基本的理解，下面给出了简单的概括。所述概括不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围，而是作为后面的详细说明的序言。

根据本公开实施例的一个方面，提供了一种用户画像构建方法。

在一些可选实施例中，所述方法包括步骤:

提取评价文本中的目标词和意见词；

量化意见词，得到意见词的量化结果；

将所述目标词进行分类：将各类别词和各所述目标词分别带入向量训练模型，得到有向量形式的类别词和有向量形式的目标词；计算各目标词与类别词之间的余弦距离；将最大余弦距离值所对应的目标词归入对应的类别中；

对各类别下的目标词所对应意见词的量化结果进行求和，得到各类别的分值；

根据各类别的分值得到用户画像。

通过向量模型训练目标词和类别词，并计算具有向量的目标词和具有向量的类别词之间的余弦距离，通过最大余弦距离值将目标词归入对应的类别中，通过对各类别的目标词所对应意见词进行量化并求和方式，得到各类别的分值，通过各类别的分值得到用户画像。

在一些可选实施例中，所述步骤之前还包括如下步骤：

对评论文本进行预处理，包括：

清洗数据、筛除数据；

对评论文本进行分词、词性标注、依存句法分析。

通过对评论文本的清洗数据、筛除数据，使评论文本更准确地表达用户及评论对象的特征信息。

在一些可选实施例中，所述提取评价文本中的目标词和意见词，包括：

设置:初始意见词集为，初始目标词集，第一初始中间意见词集，第二初始中间意见词集，第一初始中间目标词集，第二初始中间目标词集；

遍历预处理的评论文本，根据初始意见词集中的意见词，利用第一规则提取目标词，如果提取的目标词不在初始目标词集中，则向第一初始中间目标词集、初始目标词集中加入目标词，否则不加入；

遍历预处理的评论文本，根据初始意见词集中的意见词，利用第四规则提取意见词，如果提取的意见词不在初始意见词集中，则向第一初始中间意见词集、初始意见词集中加入意见词，否则不加入；

遍历预处理的评论文本，根据第一初始中间目标词集中的目标词，利用第三规则提取目标词，如果提取的目标词不在初始目标词集中，则向第二初始中间目标词集、初始目标词集中加入目标词，否则不加入；

遍历预处理的评论文本，根据第一初始中间目标词集中的目标词，利用第二规则提取意见词，如果提取的意见词不在初始意见词集中，则向第二初始中间意见词集、初始意见词集中加入意见词，否则不加入；

判断第一初始中间意见词集、第二初始中间意见词集、第一初始中间目标词集、第二初始中间目标词集是否均为空：如果是，则分别输出初始意见词集和初始目标词集，提取目标词和意见词完成。

通过：第一规则:给定意见词，根据句法修饰关系，提取目标词；第二规则:给定目标词，根据句法修饰关系，提取意见词；第三规则:给定目标词，根据句法修饰关系，提取目标词；第四规则:给定意见词，根据句法修饰关系，提取意见词；通过输出初始意见词集和初始目标词集，得到提取的目标词和意见词。

在一些可选实施例中，所述量化意见词，得到意见词的量化结果，包括：

遍历提取的意见词,赋予提取的意见词分值；

设置程度词的权重值；

判断意见词是否被程度词修饰：当是，将意见词的分值乘以意见词所对应程度词的权重值，得到意见词的量化结果；当否，意见词的量化结果为赋予的意见词分值。

在一些可选实施例中，所述向量训练模型为word2vec模型。

在一些可选实施例中，通过计算目标词与类别词之间的余弦距离,为向量，θ为向量和向量间的夹角，||x||为向量的模，||y||为向量的模。

本公开实施例提供的一些技术方案可以实现以下技术效果：采用以上方式，针对用户对评价对象的评价文本，通过提取目标词和意见词的方式，在面对繁杂庞大的评价文本时，无需人工逐条读取和总结，便能准确、清晰地了解到用户的喜厌特征；通过量化意见词、对目标词进行分类并计算出各类别分值，各类别分值能准确地体现用户的喜厌程度，从而更精准地得到用户画像，给用户带来更好的体验。

以上的总体描述和下文中的描述仅是示例性和解释性的，不用于限制本申请。

附图说明

图1是本公开实施例提供的一具体实施方式的流程示意图；

图2是本公开实施例提供的一具体实施方式的评价文本预处理的流程示意图；

图3是本公开实施例提供的一具体实施方式的目标词与意见词提取的流程示意图；

图4是本公开实施例提供的一具体实施方式的意见词量化的流程示意图；

图5是本公开实施例提供的一具体实施方式的目标词分类的流程示意图。

具体实施方式

为了能够更加详尽地了解本公开实施例的特点与技术内容，下面结合附图对本公开实施例的实现进行详细阐述，在以下的技术描述中，为方便解释起见，通过多个细节以提供对所披露实施例的充分理解。

本公开实施例提供了一种用户画像构建方法，如图1所示，包括步骤:

1.收集评论数据，统计真实用户的在线评价文本，并组成初始数据集，初始数据集包括评价用户的信息、评价对象的信息和评价用户对评价对象的评价文本，评价用户可以包含不止一个，评价对象也可以包含不止一个。

2.利用自然语言处理技术对评论文本数据进行预处理，包括：清洗数据、筛除无用数据；例如：评价内容为“没有”、“无”或空值；使用jieba、Stanford Parser等工具对评论文本进行分词、词性标注、依存句法分析。

3.提取评价文本中的目标词和意见词，包括：设置:初始意见词集为O，初始目标词集为T，第一初始中间意见词集为O1，第二初始中间意见词集为O2，第一初始中间目标词集为T1，第二初始中间目标词集为T2，所述初始意见词集O为给定的非空词集，所述T、T1、T2、O1、O2为空集；第一规则为R1，第二规则为R2，第三规则为R3，第四规则为R4；所述意见词为形容词，所述目标词为名词或名词短语；遍历预处理的评论文本，根据初始意见词集O中的意见词，利用第一规则R1提取目标词，如果提取的目标词不在初始目标词集T中，则向第一初始中间目标词集T1、初始目标词集T中加入目标词，否则不加入；遍历预处理的评论文本，根据初始意见词集O中的意见词，利用第四规则R4提取意见词，如果提取的意见词不在初始意见词集O中，则向第一初始中间意见词集O1、初始意见词集O中加入意见词，否则不加入；遍历预处理的评论文本，根据第一初始中间目标词集T1中的目标词，利用第三规则R3提取目标词，如果提取的目标词不在初始目标词集T中，则向第二初始中间目标词集T2、初始目标词集T中加入目标词，否则不加入；遍历预处理的评论文本，根据第一初始中间目标词集T1中的目标词，利用第二规则R2提取意见词，如果提取的意见词不在初始意见词集O中，则向第二初始中间意见词集O2、初始意见词集O中加入意见词，否则不加入；判断第一初始中间意见词集O1、第二初始中间意见词集O2、第一初始中间目标词集T1、第二初始中间目标词集T2是否均为空：如果是，则分别输出初始意见词集O和初始目标词集T，提取目标词和意见词完成。所述第一规则R1表示给定意见词，根据直接相关或间接相关的句法修饰关系，提取目标词；所述第二规则R2表示给定目标词，根据直接相关或间接相关的句法修饰关系，提取意见词；所述第三规则R3表示给定目标词，根据直接相关或间接相关的句法修饰关系，提取目标词；所述第四规则R4表示给定意见词，根据直接相关或间接相关的句法修饰关系，提取意见词。所述直接相关表示：两个词语存在直接关系，不需要通过其他的词关联；所述间接相关表示：两个词语的关联需要通过其他的词实现。

4.量化意见词，包括：选取现有知网词典，词典包括中英文积极词性词语集合、消极词性词语集合、否定词集合、程度副词集合；为使得词典更符合当前文本库，随机抽取评论集合中的20％的数据，人工提取评论中的合理的积极词性词语、消极词性词语、否定词和程度副词，并且未出现在现有词典中，将其添加进词典；遍历上一步提取的意见词：当意见词存在于积极词集中，则将其赋予分值1，当存在于消极词集中，则将其赋予分值-1，当意见词均不在积极词集与消极词集中，则将其赋予分值0；根据不同的程度副词，设置不同的权重值；判断意见词是否被程度副词修饰：当是，将意见词的分值乘以意见词所对应程度副词的权重值，得到意见词的量化结果；当否，意见词的量化结果为赋予的意见词分值。

5.将目标词进行分类，并得到用户在给定维度上的画像,包括：选用来自知网和百度文库的语料，将各给定分类类别词和各所述目标词分别带入采用gensim工具训练的word2vec模型进行向量训练，得到有向量形式的给定分类类别词和有向量形式的目标词；通过计算各目标词与各给定分类类别词之间的余弦距离，为向量，θ为向量和向量间的夹角，||x||为向量的模，||y||为向量的模；将最大余弦距离值所对应的目标词归入对应的给定分类类别中，余弦距离即目标词与各给定分类类别词的词间距，所述词间距表示词之间的距离，用于描述两个词之间的相似程度，词间距越趋于1表示越相似，越趋于0表示越相异；通过计算词间距，映射到用户评价指标，计算各项得分。对各给定分类类别下的目标词所对应意见词的量化结果进行求和，得到各给定分类类别的分值；根据各给定分类类别的分值得到用户在给定维度上的画像。

本一些实施例中，还包括：得到评价对象的画像。针对同一评价对象的不同用户评论，重复以上步骤1-5，得到评价对象的画像。

本一些实施例中，利用gensim中的similarity函数计算目标词与给定分类类别词之间的余弦距离。

本一些实施例中，以学生对老师的教学评价为评价数据，本实施例提供了一种基于学生教学评论的教师画像的构建，在课程教学设计与内容、教学方法、课程管理、课程考核、教学态度、学习收获六个维度上评价教师的教学成果。包括如下步骤：

步骤一、获取全校学生在教务系统上的教学评价数据，并组成初始数据；在初始数据中，对学生的姓名与教师的姓名进行加密，初始数据中每条数据信息主要包含：学年、学期、学生学号、教师工号、学生所属学院、课程名称、课程编号、评价文本。

步骤二、对初始数据进行清洗筛选与预处理，如图2所示，包括：将评价文本为“没有”、“无”或没有文本评价的数据删除；对筛除后的数据中的文本评价用jieba工具进行分词，再利用Stanford parser工具对分词后的文本评价进行词性标注与依存句法分析，输出词性标注、依存句法分析结果。

步骤三、提取评价文本中的意见词与目标词，如图3所示：由于数据集是全校学生对全校教师的教学评价，文本为中文。因没有按照每位教师收到的评价排列，所以在构建教师画像时需要针对某一位教师的全部文本评价进行意见词和目标词的提取。包括步骤如下：

S1.设置初始意见词集O为给定词集{“好”，“优秀”，“幽默”，“认真”}、初始目标词集为T、第一初始中间意见词集为O1、第二初始中间意见词集为O2、第一初始中间目标词集为T1、第二初始中间目标词集为T2，所述T、O1、O2、T1、T2空集。

S2.遍历经过步骤二预处理过的某位教师的评价数据，根据初始意见词集O中的意见词：利用第一规则R1提取目标词，如果提取的目标词不在T中则向T1、T中加入目标词，否则不加入；可选的，当提取的目标词在T中则丢弃选取的目标词；利用R4规则提取意见词，如果提取的意见词不在O中则向O1、O中加入意见词，否则不加入；可选的，当提取的意见词在O中则丢弃选取的意见词。

S3.遍历经过步骤二处理过的某位教师的评论集，根据T1中的目标词：利用第三规则R3提取目标词，如果提取的目标词不在T中则向T2、T中加入目标词，否则不加入；可选的，当提取的目标词在T中则丢弃选取的目标词；利用第二规则R2提取意见词，如果提取的意见词不在O中则向O2、O中加入意见词，否则不加入；可选的，当提取的意见词在O中则丢弃选取的意见词。

S4.判断O1、O2、T1、T2是否均为空集：当是，则输出O、T中的值，提取目标词和意见词完成；当不是，则执行S2。

本一些实施例中，步骤三中的第一规则R1表示给定意见词，根据直接相关或间接相关的句法修饰关系，提取目标词；第二规则R2表示给定目标词，根据直接相关或间接相关的句法修饰关系，提取意见词；第三规则R3表示给定目标词，根据直接相关或间接相关的句法修饰关系，提取目标词；第四规则R4表示给定意见词，根据直接相关或间接相关的句法修饰关系，提取意见词。

本一些实施例中，步骤三中的第一规则R1和第三规则R3的提取规则认为只有名词或名词短语才能成为目标词，第二规则R2和第四规则R4的提取规则认为只有形容词才能成为意见词。

提取规则的定义如表1：

表1提取规则说明

表1中，第1列是规则ID；第2列是提取规则描述，必须满足的约束(在s.t之后)；第3列是输出的提取词；第4列是示例。在每个示例中，下划线的单词是给定的已知单词，而双引号的单词是提取的单词。括号中显示了相应的示例的依赖关系。在一些实施例中，i、j均为正整数。R1₁表示利用第一规则R1，根据直接相关的句法修饰关系，提取目标词；R1₂表示利用第一规则R1，根据间接相关的句法修饰关系，提取目标词；R2₁表示利用第二规则R2，根据直接相关的句法修饰关系，提取意见词；R2₂表示利用第二规则R2，根据间接相关的句法修饰关系，提取意见词；R3₁表示利用第三规则R3，根据直接相关的句法修饰关系，提取目标词；R3₂表示利用第三规则R3，根据间接相关的句法修饰关系，提取目标词；R4₁表示利用第四规则R4，根据直接相关的句法修饰关系，提取意见词；R4₂表示利用第四规则R4，根据间接相关的句法修饰关系，提取意见词。符号含义如表2所示,当意见词O带有下标时，如O_i则表示意见词i,目标词T、其他任何词H类似。

表2符号定义

以R1₁为例，用语言描述该规则即：从已知的意见词集合中取一个意见词O，判断O与其他词之间的依赖关系，若依赖关系在{MR}集合中，且O依赖的词的词性是名词，则根据O找到了一个目标词T。具体实例：给定的文本是“这个手机有一个好屏幕”，已知意见词“好”，“好”通过“mod”依赖与“屏幕”。“mod”表示修饰关系，在集合{MR}中，“屏幕”词性为名词。所以给定意见词“好”便可以提取出目标词“屏幕”。

步骤四、量化步骤三中提取出来的意见词，如图4所示，包括：

B1.选取何时的现有知网词典，词典包括中英文积极词性词语集合、消极词性词语集合、否定词集合、程度副词集合。

B2.根据评论数据改进选取的词典：为使得词典更符合当前文本库，随机抽取评论数据中的20％的数据，人工提取评论中的合理的积极词性词语、消极词性词语、否定词和程度副词，并且未出现在现有词典中，将其添加进词典。比如“充分”、“丰富”、“受用”等词放入中文积极词性集合中，“难懂”、“难”、“紧张”等词放入中文消极词性集合中，“应该”、“应当”、“不够”等词放入否定词集合中。

B3.根据改进的词典，遍历步骤三提取的意见词，判断意见词是否存在积极/消极情绪词集中。如果存在于积极词集中，则将其极性分极为1，如果存在于消极词集中，则将其极性分极为-1，均不在则极性分级为0。

B4.判断意见词是否被程度副词修饰。设定一个大小为五的窗口，若意见词在原句中前五个词中出现程度副词就被视为有程度副词修饰；若未出现程度副词，则被视为没有程度副词修饰，意见词的极性不变，得出该意见词的量化结果。根据不同的程度副词，设置不同的权值，知网词典中的程度副词集合中的most类别下的程度副词权值设为2，over类别下程度副词权值设为1.5，very类别下程度副词权值设为1.25，more类别下程度副词权值设为1.2，ish类别下程度副词权值设为1.2，insufficient类别下程度副词权值设为0.8，insufficient类别下程度副词权值设为0.5，inverse类别下程度副词权值设为-1，将权值乘步骤B3中得到的极性分级得到意见词最终的量化结果。

步骤五、将步骤三中提取出来的目标词进行分类，已知需要在课程教学设计与内容、教学方法、课程管理、课程考核、教学态度、学习收获六个方面评价教师教学情况。故将已提取的目标词划分到六个类别中，图5是目标词分类的流程图，包括：

C1.选用来自知网和百度文库的中文文本语料，采用gensim工具训练word2vec词向量模型，具体而言即首先利用model＝gensim.models.Word2Vec()函数建立一个空的模型对象，再用model.build_vocab()函数遍历一次语料库建立词典，最后model.train()函数第二次遍历语料库建立神经网络模型，获得词向量模型。

C2.遍历步骤三中提取的目标词，将其带入训练好的word2vec词向量模型，获得目标词的向量形式。将给定的六个评价方面的词也带入模型训练获得对应向量形式。获得向量形式通过执行“model[]”即可，中括号内为需转成向量形式的词语。

C3.根据目标词和六个评价方面词的向量形式，计算各目标词与各评价方面词之间的余弦距离，可以根据向量形式带入余弦距离公式计算，也可以利用gensim中的similarity函数直接计算余弦距离，距离越大者相似度越高，取距离最大者归入该方面类别。

C4.根据步骤四的量化结果，以及C3中分类情况，计算每个类别的分值，即将每个类别下的目标词所对应的意见词的量化结果求和。最终得到用户在给定方面上的画像。

综上，本实施例通过构建教学评价中的教师画像，教师只需要查看自己的画像结果就可以了解到教学情况，而非逐条读取众多学生评价再自行总结，并且本实施例子中，提取目标词意见词的准确率、召回率以及F1值(准确率和召回率的调和平均，两倍的准确率与召回率的乘积除上准确率与召回率的和)均达到80％左右，意见词量化结果的准确率、召回率以及F1值均超过90％，达到了帮助教师方便快速、简洁清晰且精准有效地了解自己的教学效果的目的。本实施例虽然是以学生对教师教学评价来构建的教师画像，但同时也适用于构建其他领域的用户画像，比如基于电商消费者对商品的评价，可以构建消费者画像和商品的画像。这里不再赘述。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种用户画像构建方法，其特征在于，包括步骤:

提取评价文本中的目标词和意见词；

量化意见词，得到意见词的量化结果；

根据各类别的分值得到用户画像。

2.根据权利要求1所述的一种用户画像构建方法，其特征在于，还包括如下步骤：

对评论文本进行预处理，包括：

清洗数据、筛除数据；

对评论文本进行分词、词性标注、依存句法分析。

3.根据权利要求1所述的一种用户画像构建方法，其特征在于，所述提取评价文本中的目标词和意见词，包括：

设置:初始意见词集，初始目标词集，第一初始中间意见词集，第二初始中间意见词集，第一初始中间目标词集，第二初始中间目标词集；

4.根据权利要求1所述的一种用户画像构建方法，其特征在于：所述量化意见词，得到意见词的量化结果，包括：

遍历提取的意见词,赋予提取的意见词分值；

设置程度词的权重值；

5.根据权利要求1所述的一种用户画像构建方法，其特征在于，所述向量训练模型为word2vec模型。

6.根据权利要求1所述的一种用户画像构建方法，其特征在于，通过计算目标词与类别词之间的余弦距离,为向量，θ为向量和向量间的夹角，||x||为向量的模，||y||为向量的模。