CN106875213B

CN106875213B - 产品的偏好区域识别方法和装置

Info

Publication number: CN106875213B
Application number: CN201710022878.9A
Authority: CN
Inventors: 张强; 王安宁; 杨善林; 彭张林; 倪鑫; 任明仑; 陆效农
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2017-01-12
Filing date: 2017-01-12
Publication date: 2018-01-19
Anticipated expiration: 2037-01-12
Also published as: CN106875213A; US20180197192A1

Abstract

本发明涉及一种产品的偏好区域识别方法和装置，该方法包括：获取不同区域的用户对待分析产品的评论文本，并从获取的各条评论文本中提取出所述待分析产品的产品特征；确定在评论文本中用户对产品特征的情感极性；计算产品特征的情感倾向与区域之间的关联程度；从各个产品特征中提取出具有区域偏好的产品特征；对于提取出的具有区域偏好的每一个产品特征，确定该产品特征针对该情感极性的偏好区域。本发明针对零碎、随意的在线产品评论内容，可以提供偏好区域，使企业更加有针对性的制定营销策略，驱动企业产品的区域化营销策略。

Description

产品的偏好区域识别方法和装置

技术领域

本发明涉及文本挖掘技术领域，尤其是涉及一种产品的偏好区域识别方法和装置。

背景技术

随着Web2.0技术的快速发展，越来越多的用户选择通过在线社交媒体发表自己的购物体验。研究表明77％的消费者在购买之前会浏览在线评论。相比于个人推荐，75％的消费者更加相信在线产品评论。研究结果说明，在线产品评论在用户的购买决策中扮演着越来越重要的角色，成为企业重要的信息资源。

从用户空间分布来看，不同区域的用户由于区域环境、文化以及经济的差异，对产品特征的偏好是不同的。实现对不同区域特征偏好的识别，从而驱动企业产品的区域化营销策略。但是，由于在线产品评论内容的零碎性和随意性，导致从在线产品评论中识别产品特征区域偏好十分复杂。

发明内容

针对以上缺陷，本发明提供一种产品的偏好区域识别方法和装置，可以提供偏好区域，使企业更加有针对性的制定营销策略，驱动企业产品的区域化营销策略。

第一方面，本发明提供的产品的偏好区域识别方法包括：

获取不同区域的用户对待分析产品的评论文本，并从获取的各条评论文本中提取出所述待分析产品的产品特征，其中的区域为用户所属城市的等级或用户的所属地区；

根据在每一条评论文本中的每一个产品特征的观点词，确定在该条评论文本中用户对该产品特征的情感极性；

根据每一个产品特征在包含该产品特征的各条评论文本中的情感极性以及包含该产品特征的各条评论文本的用户的所属区域，计算该产品特征的情感倾向与区域之间的关联程度；

根据各个产品特征的情感倾向与区域之间的关联程度，从各个产品特征中提取出具有区域偏好的产品特征；

对于提取出的具有区域偏好的每一个产品特征，根据在不同区域中包含该产品特征且该产品特征的情感极性相同的评论文本的数量的统计值与期望值之间的差值，确定该产品特征针对该情感极性的偏好区域。

可选的，所述从获取的各条评论文本中提取出所述待分析产品的产品特征，包括：

对各条评论文本进行中文分词，从分词结果中提取出名词和名词短语；

利用关联规则从提取出的名词和名词短语中提取出频繁项集；

对所述频繁项集中的名词和/或名词短语进行同义词聚合，并剔除所述频繁项集中的非产品特征词。

可选的，所述根据在每一条评论文本中的每一个产品特征的观点词，确定在该条评论文本中用户对该产品特征的情感极性，包括：

确定所述观点词所属的情感词库的类型；

根据所述情感词库的类型，确定该条评论文本中用户对该产品特征的情感极性。

可选的，所述每一条评论文本中的每一个产品特征的观点词为在该条评论文本中与该产品特征邻近的预设数量的字符中的形容词。

可选的，采用下式计算每一个产品特征的情感倾向与区域之间的关联程度：

式中，χ²为该产品特征的情感倾向与区域之间的关联程度，n_kj为在第k个区域中包含该产品特征且该产品特征的情感极性为j的评论文本的数量的统计值，E_kj为在第k个区域中包含该产品特征且该产品特征的情感极性为j的评论文本的数量的期望值。

可选的，采用下式计算所述期望值E_kj：

式中，n为获取的所有评论文本的数量，C_j为包含该产品特征且该产品特征的情感极性为j为评论文本的数量的统计值，R_k为包含该产品特征且用户所属第k个区域的评论文本的数量的统计值。

可选的，所述确定该产品特征针对该情感极性的偏好区域，包括：

计算在每一个区域中，包含具有该情感极性的该产品特征的评论文本的数量的统计值和期望值之间的差值；

将各个区域中所述差值最大的区域作为该产品特征针对该情感极性的偏好区域。

可选的，所述方法还包括：

在从获取的各条评论文本中提取出所述待分析产品的产品特征后，将每一个产品特征与所述待分析产品的配置文档中的产品属性型号进行配对，并将该产品特征的偏好区域作为该产品属性型号的偏好区域。

可选的，所述方法还包括：

对与所述待分析产品同一类别的多个产品，分别进行偏好区域识别；根据同一类别的多个不同产品的偏好区域，形成该类别产品的偏好区域。

第二方面，本发明提供的产品的偏好区域识别装置包括：

第一特征提取模块，用于获取不同区域的用户对待分析产品的评论文本，并从获取的各条评论文本中提取出所述待分析产品的产品特征，其中的区域为用户所属城市的等级或用户的所属地区；

情感极性确定模块，用于根据在每一条评论文本中的每一个产品特征的观点词，确定在该条评论文本中用户对该产品特征的情感极性；

关联程度计算模块，用于根据每一个产品特征在包含该产品特征的各条评论文本中的情感极性以及包含该产品特征的各条评论文本的用户的所属区域，计算该产品特征的情感倾向与区域之间的关联程度；

第二特征提取模块，用于根据各个产品特征的情感倾向与区域之间的关联程度，从各个产品特征中提取出具有区域偏好的产品特征；

偏好区域计算模块，用于对于提取出的具有区域偏好的每一个产品特征，根据在不同区域中包含该产品特征且该产品特征的情感极性相同的评论文本的数量的统计值与期望值之间的差值，确定该产品特征针对该情感极性的偏好区域。

本发明提供的产品的偏好区域识别方法和装置，首先提取评论文本中的产品特征，然后基于产品特征的情感极性和评论用户的所属区域，提取出具有区域偏好的产品特征，最后针对具有区域偏好的产品特征，基于包含具有某一情感极性的某一产品特征的评论文本的数量的统计值和期望值，确定该产品特征针对该情感极性的偏好区域，至此得到该待分析产品的各个具有区域偏好的产品特征针对不同情感极性的偏好区域。可见，本发明提供的偏好区域的识别方法，针对零碎、随意的在线产品评论内容，可以提供偏好区域，使企业更加有针对性的制定营销策略，驱动企业产品的区域化营销策略。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1示出了一种产品的偏好区域识别方法的流程示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

第一方面，本发明提供一种产品的偏好区域识别方法，如图1所示，该方法具体包括以下步骤：

S1、获取不同区域的用户对待分析产品的评论文本，并从获取的各条评论文本中提取出所述待分析产品的产品特征，其中的区域为用户所属城市的等级或用户的所属地区；

可理解的是，所谓的用户所属城市的等级，例如根据2016年中国城市等级划分标准可知城市有一线城市、二线城市、三线及以下城市，即城市的等级包括一线、二线、三线及以下，城市的等级反映的是区域的经济。所谓的地区，例如根据中国自然地理特征可将城市或乡镇划分为七大地区，例如华东、华南、华北、华中、东北、西北、西南，地区反应的是区域的人文与环境。可见本发明中的区域可以针对评论用户所在城市的等级，也可以是评论用户所属的地区。

可理解的是，所谓的产品特征，是指能够反映产品的某些特征的参数，例如对于汽车来说，产品特征有外观、空间、油耗、内饰、动力等。

S2、根据在每一条评论文本中的每一个产品特征的观点词，确定在该条评论文本中用户对该产品特征的情感极性；

可理解的是，所谓的观点词是指能够反映用户对待分析产品的这一产品特征的情感倾向，例如，喜欢、不喜欢、还可以、一般等。

可理解的是，所谓的情感极性，是指对情感倾向极端化，例如，将观点词分为两个极端，一个是正面的，喜欢，另一个是负面的，不喜欢。

S3、根据每一个产品特征在包含该产品特征的各条评论文本中的情感极性以及包含该产品特征的各条评论文本的用户的所属区域，计算该产品特征的情感倾向与区域之间的关联程度；

可理解的是，若该产品特征的情感倾向与区域之间相互独立，则关联程度较弱，若该产品特征的情感倾向与区域之间不相互独立，且依赖程度较强，则说明关联程度较强。

S4、根据各个产品特征的情感倾向与区域之间的关联程度，从各个产品特征中提取出具有区域偏好的产品特征；

可理解的是，所谓的区域偏好是指产品特征的情感倾向和评论用户的所属区域之间不是相互独立的，在不同的区域中，用户具有不同的情感倾向。

S5、对于提取出的具有区域偏好的每一个产品特征，根据在不同区域中包含该产品特征且该产品特征的情感极性相同的评论文本的数量的统计值与期望值之间的差值，确定该产品特征针对该情感极性的偏好区域。

可理解的是，若情感极性为正面，则偏好区域为用户显著喜欢的区域；若情感极性为负面，则偏好区域为用户显著不喜欢的区域。

本发明提供的产品的偏好区域识别方法，首先提取评论文本中的产品特征，然后基于产品特征的情感极性和评论用户的所属区域，提取出具有区域偏好的产品特征，最后针对具有区域偏好的产品特征，基于包含具有某一情感极性的某一产品特征的评论文本的数量的统计值和期望值，确定该产品特征针对该情感极性的偏好区域，至此得到该待分析产品的各个具有区域偏好的产品特征针对不同情感极性的偏好区域。可见，本发明提供的偏好区域的识别方法，针对零碎、随意的在线产品评论内容，可以提供偏好区域，使企业更加有针对性的制定营销策略，驱动企业产品的区域化营销策略。

在具体实施时，S1中可以但不限于采用网络爬虫在社交媒体上获取大量的在线产品评论，所获取的评论文本可以采用集合的方式表示：R＝{r₁,r₂,...,r_n}，其中的每条评论r_i表达了用户u_k对产品的若干特征的观点态度，可以看作为一组“用户-特征-观点”对的集合，即：{(u_k,f_j,o_j)|f_j∈r_i}，其中的f_j为产品特征，o_j为观点。

在具体实施时，S1中从评论文本中提取产品特征的方式有多种，其中一种可选的方式为：

S11、对各条评论文本进行中文分词，从分词结果中提取出名词和名词短语；

S12、利用关联规则从提取出的名词和名词短语中提取出频繁项集；

S13、对所述频繁项集中的名词和/或名词短语进行同义词聚合，并剔除所述频繁项集中的非产品特征词。

这里，首先对评论文本进行分词、提取出名词和名词短语、提取出频繁项集，然后对频繁项集中的名词和名词短语进行同义词聚合，剔除一些非产品特征词等，从而获得产品的产品特征。

在具体实施时，S11中，目前的分词手段有多种，例如采用结巴中文分词软件进行分词，然后从分词结果中提取出名词、名词短语。名词和名词短语的提取可以通过词性标注的方式实现。在S12中，采用的关联规则，例如Apriori算法，对名词和名词短语进行挖据，形成频繁项集，例如频繁一相集、频繁二项集等。在S13中，对频繁项集中的名词、名词短语进行同义词聚合，例如汽车产品的“外观”、“外形”、“车身”等词均反映的是汽车外观的整体情况，利用同义词词库进行整合后，用“外观”表示。在S13中还剔除所述频繁项集中的非产品特征词，主要是去掉单字名词、过滤一些常用的但不是产品特征的名词或名词短语，例如“问题”、“家人”。

下面以汽车为待分析产品，利用同义词库对提取的各个特征进行整合，具体整合表如下表1所示：

表1产品特征的整合表

产品特征	特征集合
		外观	外观颜值车尾大灯
空间	空间后排后备箱头部空间内部空间前排
		内饰	内饰颜色材料中控显示屏细节做工
油耗	油耗市区油耗高速油耗平均油耗
		动力	动力发动机起步速度加速马力
操控	操控方向盘后视镜刹车离合器油门
		舒适性	舒适性悬挂减震共振座椅隔音
性价比	性价比价格配置性能

从上表1中可以看出，将各个特征进行整合之后，便得到八个产品特征：外观、空间、内饰、油耗、动力、操控、舒适性、性价比。

在具体实施时，S2中，由于观点词一般都在特征词的附近，而且一般为形容词，例如外观显得大气、车头十分饱满，因此可以在产品特征的附近寻找形容词作为观点词，例如，评论文本中的产品特征的观点词为在该条评论文本中与该产品特征邻近的预设数量的字符中的形容词。

在具体实施时，S2中确定用户对产品特征的情感极性的方式有多种，其中一种可选的方式为：确定所述观点词所属的情感词库的类型；根据所述情感词库的类型，确定该条评论文本中用户对该产品特征的情感极性。

举例来说，情感词库有积极类型的，也有消极类型的，假如情感词库类型为积极词库，则在该条评论文本中用户对该产品特征的情感极性为正面态度，例如喜欢；假如情感词库类型为消极词库，则在该条评论文本中用户对该产品特征的情感极性为负面态度，例如不喜欢。举例来说，以n条评论文本为例，将上表1中整合得到的八个产品特征的情感极性以及每一条评论文本中用户的满意度整理成如下表2所示的结构化数据：

表2八个产品特征的情感极性以及用户满意度的结构化数据表

当然，上述仅仅是对情感倾向的一种定性分析，为了便于后续的计算，还可以进行定量处理，例如，正面态度的情感极性设置为1，负面态度的情感极性设置为0，当然还可以设置为其他数值，只要两种情感极性的数值不同即可，这里的0、1也可以理解为用户态度的强度。这里，采用情感词库对产品特征的情感倾向进行定性分析，简单、易实现。

在具体实施时，可以采用下式计算每一个产品特征的情感倾向与区域之间的关联程度：

举例来说，以城市等级为区域，对不同城市等级、不同情感极性的评论文本进行数量统计，统计结果如下表3所示：

表3城市等级-产品特征的情感极性之间的交叉表

从上表3中可以看出，对于一个产品特征f_i，包括该产品特征的评论文本的数量为n，在包括该产品特征的评论文本中评论用户所属城市为一线城市的评论文本的数量为R₁，在R₁中有n₁₀条评论文本中该产品特征的情感极性为正面态度，有n₁₁条评论文本中该产品特征的情感极性为负面态度；对于二线城市、三线及以下城市类似。在这n条评论中，有C₀条评论文本中该产品特征的情感极性为正面态度，有C₁条评论文本中该产品特征的情感极性为负面态度。

基于上述表3，该产品特征f_i的情感倾向与城市等级之间的关联程度的计算过程大致为：

首先，设置k和j的取值范围：k的范围为[1,3]，j的取值范围为[0,1]。

然后，针对每一个k和j，采用下式(2)进行计算：

最后，对根据上述(2)计算得到的各个值求和，得到产品特征f_i的情感倾向与城市等级的关联程度。

可理解的是，由于上述计算是基于以城市等级为区域，如果是基于地区的话，则k的范围可以为[1,7]。

在上述过程中，可以采用下式计算所述期望值E_kj：

上述式(3)的推到过程如下：

对于某个产品特征，假设城市等级和产品特征的情感倾向之间相互独立，则：

p_ki＝p_kp_i (4)

在上式(4)中，p_ki为包括该产品特征的评论文本的用户所属城市的等级为k且情感极性为i的概率，p_k为包括该产品特征的评论文本的用户所属城市的等级为k的概率，p_i为包括该产品特征的评论文本中该产品特征的情感极性为i的概率；其中的p_k＝R_k/n，p_k＝C_i/n，其中的n为包括该产品特征的评论文本的数量。R_k和C_i的含义可以参考上表3。

在具体实施时，S4中提取具有区域偏好的产品特征时，是基于各个产品特征的情感倾向与区域之间的关联程度。举例来说，通过S3中的计算，得到每一个产品特征的情感倾向与区域的关联程度χ²，各个产品特征对应的关联程度可以组成一个集合χ_i ²越大，则说明产品特征f_i的情感倾向与区域之间的关联程度越强，例如，对于α＝0.05，则该产品特征的情感极性与区域特征存在显著关联关系。基于此，可以将其中几个最大的关联程度对应的产品特征提取出来作为具有区域偏好的产品特征。

举例来说，以汽车作为待分析产品为例，计算其各个产品特征的情感倾向与区域之间的关联程度，如下表4所示：

表4汽车的产品特征的情感倾向与区域之间的关联程度χ²

区域特征	df	空间	动力	操控	油耗	舒适性	外观	内饰	性价比
										城市等级	2	5.599	0.041	0.548	5.129	2.827	1.176	0.251	1.479
城市地区	6	14.134	8.416	3.524	6.326	2.468	11.935	8.255	2.982

其中，

从上表4中可以看出，空间和油耗这两个产品特征与城市等级的关联程度较大，分别为5.599和5.129，接近说明存在较显著影响，因此可以将空间和油耗作为具有区域偏好的产品特征提取出来。同时也可以看出，空间、外观、内饰和动力的情感倾向与区域之间的关联程度也比较大，尤其是空间和外观，关联程度χ²值达到14.134和11.935，与相近，因此可以将空间和外观作为具有区域偏好的产品特征提取出来。

在具体实施时，S5中，确定产品特征的偏好区域的过程可以为：

S51、计算在每一个区域中，包含具有该情感极性的该产品特征的评论文本的数量的统计值和期望值之间的差值；

S52、将各个区域中所述差值最大的区域作为该产品特征针对该情感极性的偏好区域。

举例来说，对于某个产品特征，以七个地区为例进行说明：

显著喜欢：对于每个地区，计算包括该产品特征、该产品特征的情感极性为正面且评论用户属于该地区的评论文本的真实统计数量与期望数量之前的偏差；然后将偏差值最大的地区，作为显著喜欢的地区，即该产品特征针对情感极性为正面的偏好地区。

显著不喜欢：对于每个地区，计算包括该产品特征、该产品特征的情感极性为负面且评论用户属于该地区的评论文本的真实统计数量与期望数量之前的偏差；然后将偏差值最大的地区，作为显著不喜欢的地区，即该产品特征针对情感极性为负面的偏好地区。

基于上述表4，针对油耗这一具有偏好区域的产品特征，其情感倾向与城市等级之间的交叉表如表5所示：

表5油耗的情感倾向与城市等级之间的交叉表

从上表5中可以看出，三线及以下城市的油耗的正面情感极性的评论数量明显高于期望值，而一线城市对油耗负面情感极性的评论数量明显高于期望值，这说明中小城市用户对油耗特征的性能要求相对较低，而对于一线城市用户来说则更加看重油耗特征的性能。

基于上述表4，针对空间这一具有偏好区域的产品特征，其情感倾向与地区之间的交叉表如下表6所示：

表6空间的情感倾向与地区之间的交叉表

从上表6中可以看出，华南和西南地区的空间这一产品特征的正面情感极性的评论数量明显高于期望值，而华东和西北地区的正面情感极性的评论数量则明显低于期望值，说明华南和西南地区对空间这一产品特征较满意，而华东和西北地区对空间这一产品特征的要求则相对更高。

在具体实施时，S1中在从获取的各条评论文本中提取出所述待分析产品的产品特征后，还可以将每一个产品特征与所述待分析产品的配置文档中的产品属性型号进行配对，并将该产品特征的偏好区域作为该产品属性型号的偏好区域。其中的配对过程可以通过关键词索引的方式实现产品的配置文档中的产品属性型号进行配对。

这里，将产品特征与产品属性型号配对，这样得到的产品特征的偏好区域即该产品属性型号的偏好区域。由于即便是同一产品，也可能有不同的配置，例如同一款手机中，有的内存为2G，有的内存为3G，这里将产品特征与产品配置文档中的产品属性型号配对，可以得到在该配置下的偏好区域，对于另一种配置下的偏好区域可能有所变化，可见将产品特征与产品属性型号配对，使得识别出的偏好区域更加精准。

在具体实施时，还可以对与上述待分析产品同一类别的多个产品，分别进行偏好区域识别，得到该多个产品中每一个产品的偏好区域，进而根据同一类别的多个不同产品的偏好区域，形成该类别产品的偏好区域，这样有助于一类产品的营销策略的制定。

第二方面，本发明还提供一种产品的偏好区域识别装置，该装置包括：

可理解的是，本发明提供的偏好区域识别装置为本发明提供的偏好区域识别方法的功能架构模块，其有关内容的解释说明、实施方法、举例、有益效果等内容可以参考上述偏好区域识别方法中的相应内容，在此不再赘述。

本发明的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种产品的偏好区域识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从获取的各条评论文本中提取出所述待分析产品的产品特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据在每一条评论文本中的每一个产品特征的观点词，确定在该条评论文本中用户对该产品特征的情感极性，包括：

确定所述观点词所属的情感词库的类型；

4.根据权利要求1所述的方法，其特征在于，所述每一条评论文本中的每一个产品特征的观点词为在该条评论文本中与该产品特征邻近的预设数量的字符中的形容词。

5.根据权利要求1所述的方法，其特征在于，采用下式计算每一个产品特征的情感倾向与区域之间的关联程度：

<mrow> <msup> <mi>&chi;</mi> <mn>2</mn> </msup> <mo>=</mo> <mo>&Sigma;</mo> <mfrac> <msup> <mrow> <mo>(</mo> <msub> <mi>n</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>E</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <msub> <mi>E</mi> <mrow> <mi>k</mi> <mi>j</mi> </mrow> </msub> </mfrac> </mrow>

6.根据权利要求5所述的方法，其特征在于，采用下式计算所述期望值E_kj：

7.根据权利要求1所述的方法，其特征在于，所述确定该产品特征针对该情感极性的偏好区域，包括：

8.根据权利要求1～7任一所述的方法，其特征在于，还包括：

9.根据权利要求1～7任一所述的方法，其特征在于，还包括：

10.一种产品的偏好区域识别装置，其特征在于，包括：