CN112463915B

CN112463915B - 美妆产品社交媒体评论挖掘的方法、系统及存储介质

Info

Publication number: CN112463915B
Application number: CN202110138599.5A
Authority: CN
Inventors: 苏旋; 郭轩; 邓庆晃; 徐葳
Original assignee: Guanchuan Network Technology Nanjing Co ltd
Current assignee: Guanchuan Network Technology Nanjing Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-06-25
Anticipated expiration: 2041-02-02
Also published as: CN112463915A

Abstract

本发明提出了一种美妆产品社交媒体评论挖掘的方法、系统及存储介质，构建包含品牌的中英文名称美妆品牌词库以及后缀词库，同时构建美妆产品名称映射，将美妆产品的别称映射到正式名称，基于社交媒体评论数据查询产品共现次数，生成按产品共现次数排序的统计图，从而实现对产品评论数据的提取和分析供策略调整使用。本发明采用对关键词语料切分再精分的方法，克服现有数据获取技术的关键词获取不准确的技术问题，使用社交媒体评论作为数据挖掘的基础提高了数据分析的客观性。

Description

美妆产品社交媒体评论挖掘的方法、系统及存储介质

技术领域

本发明涉及大数据的技术领域，特别是涉及一种美妆产品社交媒体评论挖掘的方法、系统及存储介质。

背景技术

社交媒体指互联网上基于用户关系的内容生产与交换平台。社交媒体是人们彼此之间用来分享意见、见解、经验和观点的工具和平台。社交媒体近年来蓬勃发展，爆发出令人眩目的能量，其传播的信息已成为人们浏览互联网的重要内容。

美妆产品是指为了美化、保留或改变人的外表(例如为了表演)而用于人体的调剂(除肥皂)，或为了净、染、擦、矫正或保护皮肤、头发、指甲、眼睛或牙齿而用的调剂。

美妆产品由于其本身美化外表的作用深受年轻人喜爱。但由于其品牌和品类繁多，挑选起来容易让人眼花缭乱。随着社交媒体井喷式地发展，越来越多的用户在社交媒体上分享对各种美妆产品观点。最常见的有使用体验、好物分享、产品测评、产品促销等类型。这些观点在社交媒体上传播迅速，吸引大量用户阅读。美妆产品品牌商从用户观点中得到与自己品牌有关的观点十分重要。

目前美妆产品社交媒体评论挖掘的工作很少，现有技术中大多数的评论挖掘都是基于电商评论做的。相比于社交媒体评论，电商评论的风格单一，且评论维度固定，大部分是对于单一产品的评论，无法获得真实客观的评论，以这些数据为基础分析也无法获得有价值的结论。目前，社交媒体评论风格多变，用户会分享产品测评，其中会涉及到多个产品，对于社交媒体评论挖掘不仅可以挖掘出用户对于产品的使用感受，还可以得到同一个评论中与该产品同类型的其它产品（可以视作竞品）信息。

发明内容

基于上述问题，本发明提出了一种美妆产品社交媒体评论挖掘的方法、系统及存储介质，对社交媒体上美妆产品的用户评论进行挖掘，获取并分析获得基于用户评论的有价值数据，供产品营销。解决了现有技术获取数据单一，分析结构不客观的技术问题。

为解决上述技术问题，本发明提供一种美妆产品社交媒体评论挖掘的方法：

步骤101，构建第一词库，所述第一词库包含品牌的中英文名称；

步骤102，构建后缀词库；

步骤103，构建产品名称映射，将所述产品的第二名称映射到第一名称；

步骤104，查询产品共现次数，生成按所述产品共现次数排序的统计图。

进一步的，所述步骤101具体为：

步骤1011，获取互联网美妆品牌名称数据，构建初始名称数据集合；

步骤1012，统计关键词集合，选取固定的词数量n，所述n大于或等于1，统计nwords关键词集合的关键词，每个nwords集合中保存的每个关键词的字符数量都为n；

步骤1013，切分，对 nwords 进行语料切分，对存储于nwords集合中的关键词进行切分分词，若片段出现在得到的集合 nwords 中，则所述片段不切分，对于切分下来的多余的词舍弃，切分获得的切分关键词保存到对应的nwords集合中；

步骤1014，词库精分：获取品牌的第一名称，按照所述第一名称将关键词集合重新分类存储区，将所有相同产品的关键词重新排列组合到一个集合中，形成以产品第一名称为索引的至少一数据集合。

进一步的，所述后缀词库为美妆产品后缀词，表征产品的具体类别；

进一步的，所述步骤104具体为：根据给定的查询产品，利用正则表达式，匹配查询用户观点中与其类型相同的产品出现的次数。

进一步的，所述正则表达式为品牌前缀、后缀分离的正则表达式：

。

本发明提供一种美妆产品社交媒体评论挖掘的系统：

词库构建模块201，用于构建第一词库，所述第一词库包含品牌的中英文名称；

后缀词库构建模块202，用于构建后缀词库；

映射模块203，用于构建产品名称映射，将所述产品的第二名称映射到第一名称；

统计模块204，用于查询产品共现次数，生成按所述产品共现次数排序的统计图。

进一步的，所述词库构建模块201包括：

数据获取模块2011，获取互联网美妆品牌名称数据，构建初始名称数据集合；

关键词统计模块2012，用于统计关键词集合，选取固定的词数量n，所述n大于或等于1，统计nwords关键词集合的关键词，每个nwords集合中保存的每个关键词的字符数量都为n；

切分模块2013，用于切分，对 nwords 进行语料切分，对存储于nwords集合中的关键词进行切分分词，若片段出现在得到的集合 nwords 中，则所述片段不切分，对于切分下来的多余的词舍弃，切分获得的切分关键词保存到对应的nwords集合中；

精分模块2014，用于词库精分：获取品牌的第一名称，按照所述第一名称将关键词集合重新分类存储区，将所有相同产品的关键词重新排列组合到一个集合中，形成以产品第一名称为索引的至少一数据集合。

进一步的，所述统计模块204具体执行方式为：根据给定的查询产品，利用正则表达式，匹配查询用户观点中与其类型相同的产品出现的次数。

。

此外，本发明提供一种计算机可读存储介质，用于存储计算机程序，所述程序执行上述美妆产品社交媒体评论挖掘的方法。

本发明提出了一种美妆产品社交媒体评论挖掘的方法、系统及存储介质，构建包含品牌的中英文名称美妆品牌词库以及后缀词库，同时构建美妆产品名称映射，将美妆产品的别称映射到正式名称，基于社交媒体评论数据查询产品共现次数，生成按产品共现次数排序的统计图，从而实现对产品评论数据的提取和分析供策略调整使用。本发明采用对关键词预料切分再精分的方法，克服现有数据获取技术的关键词获取不准确的技术问题，使用社交媒体评论作为数据挖掘的基础提高了数据分析的客观性。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的美妆产品社交媒体评论挖掘的方法流程图；

图2为本申请实施例提供的词库的构建的过程流程图；

图3为本申请实施例提供的美妆产品社交媒体评论挖掘的系统结构框图；

图4为本申请实施例提供的词库精分重新分类的匹配树示意图；

图5为本申请实施例提供的以兰蔻小棕瓶为例的产品共现次数排序的统计图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

本发明的主要目的是对社交媒体上美妆产品的用户评论进行挖掘，获取并分析获得基于用户评论的有价值数据，以便于调整产品营销策略。评论挖掘是基于产品共现分析的评论挖掘，分析用户评论中一段话中产品的共现信息。

图1示出了本发明实施例提供的美妆产品社交媒体评论挖掘的方法流程图。

步骤101，构建第一词库，所述第一词库包含品牌的中英文名称；所述第一词库是美妆品牌词库，例如：兰蔻、LANCOME、雅诗兰黛、Estee Lauder等品牌。所述第一词库的构建的过程包括，具体流程图如图2所示：

步骤1011，获取互联网美妆品牌名称数据，构建初始名称数据集合。

本步骤使用现有技术的网络数据获取算法，获取网页、电商平台以及互联网其他美妆品牌名称数据，构建初始名称数据集合G1。此处给出两个定义，品牌：品牌名称，例如兰蔻、雅诗兰黛、海蓝之谜、赫莲娜等。产品：是指品牌+描述+后缀，例如：兰蔻菁纯面霜，雅诗兰黛特润修护肌活精华露。其中，初始名称数据集合G1可以是以数组形式保存，其中保存的是包含了品牌名称的描述。

步骤1012，统计关键词集合：选取固定的词数量n，对初始名称数据集合G1统计2words、3words、…、nwords关键词集合中的关键词，每个nwords集合中保存的每个关键词的字符数量都为n，例如2words集合中的关键词为兰蔻、LC等字符都为2的关键词；当nwords较长时，关键词通常是品牌+描述+后缀的形式，例如：兰蔻菁纯面霜，雅诗兰黛特润修护肌活精华露。

步骤1013，切分：对 nwords 进行语料切分，所谓切分即是对存储于nwords集合中的关键词进行切分分词，此时n>2，一般从3开始切分。切分的规则是，只有一个片段出现在得到的集合 nwords 中，这个片段就不切分，比如“娇韵诗”，只要“娇韵”和“韵诗”都在nwords 集合中，这时候即使“娇韵诗”不在nwords中，那么“娇韵诗”还是不切分，保留下来；对于切分下来的多余的词舍弃，切分获得的切分关键词保存到对应的nwords集合中，例如“娇韵诗效果”，其属于5words，经过切分，将“效果”切分舍弃，保留“娇韵诗”关键词并保存至3words中。

步骤1014，词库精分：获取品牌的第一名称，按照所述第一名称将2words、3words、…、nwords关键词集合重新分类存储区。

在本步骤中，经过步骤1011-步骤1013之后，nwords中存储的产品名称可能属于不同的产品，本步骤获取品牌的第一名称（例如：兰蔻小黑瓶、兰蔻小棕瓶、兰蔻大眼精华等格式为“品牌+后缀”的第一名称；或者品牌+描述+后缀的形式，例如：兰蔻菁纯面霜，雅诗兰黛特润修护肌活精华露），将所有相同品牌的关键词重新排列组合到一个集合中，形成以品牌名称（即第一名称，例如兰蔻）为索引的一个或多个数据集合。例如，将“兰蔻精华小黑瓶”、“兰蔻保养小黑瓶”、“兰蔻基因小黑瓶”等关键词全部归类存储到“兰蔻小黑瓶”集合中。由此构建完成第一词库。本步骤的词库构建方法可以克服现有技术网络数据获取算法的关键词不准确的技术问题。

本步骤的关键词集合重新分类存储使用的是基于匹配树的关键词匹配算法，具体算法如下，图示如图4所示：

步骤1，构建匹配树 Tree = (V,E)，其中 V 为节点集，第一层节点为根节点且唯一，第二层节点为获取的品牌第一名称；E为当前子节点到根节点的权重之和。

步骤2，设置第一预设阈值，遍历2words、3words、…、nwords关键词集合，生成关键词集合中的关键词向量、第二层节点关键词向量，计算关键词集合中的关键词向量与第二层节点集关键词向量的第一余弦相似度similarity，将第一余弦相似度similarity大于或等于第一预设阈值的相似关键词置于对应第二层节点的子节点，形成第三层节点集，第一预设阈值可以是0.4-1不等，根据实际情况设置；具体的余弦相似度计算公式如下，其中A为关键词集合中的关键词向量（A_i为A的分量），B为第二层节点集关键词向量（B_i为B的分量）：

。

步骤3，设置第二预设阈值，第一预设阈值可以是0.6-1不等，根据实际情况设置，第二预设阈值大于第一预设阈值，将第二预设阈值设置大于第一预设阈值能够提高本步骤的匹配精度。生成第二层节点关键词向量、第三层节点关键词，计算第二层节点集关键词向量与第三层节点集关键词向量的第二余弦相似度similarity，将第二余弦相似度similarity大于或等于第二预设阈值的相似关键词置于对应第三层节点的子节点。具体的余弦相似度计算公式如下：

。

步骤4，基于第二层节点作为根节点的树形成以第一名称为索引的至少一数据集合。本发明的基于匹配树的关键词匹配算法，建立匹配树，利用两次余弦相似度匹配算法，提高了匹配的精度，且余弦相似度匹配提高了算法的稳定性。

步骤102，构建后缀词库；

后缀词库即美妆产品后缀词，美妆产品后缀词可以表征产品的具体类别，例如：精华、面霜、粉底、防晒、香水等。在数据库中建立并保存后缀词库。

构建美妆产品名称映射，用来将美妆产品的别称（第二名称）统一映射到正式名称（第一名称），例如：黑绷带映射到赫莲娜黑绷带面霜。映射构建采用字典的形式，所有的别称作为键，正式名称作为值，查询时匹配到的别称转化为正式名称，记录在正式名称的数据中，最后结果以正式名称展示。

查询产品共现：给定一款查询产品，查询用户观点中与其类型相同的产品出现的次数。产品共现定义为用户观点一段话中不同产品共同出现。相比于一篇文章的共现，定义为一段话的共现更能反映共现产品相互之间的竞争关系，这是因为用户对于产品的比较通常出现在一段话中。

利用正则表达式：

匹配所有品牌满足前缀+品牌描述+后缀的的产品名称(品牌和产品后缀可以是任意个，中间部分表达式可以根据需要进行数据清洗)。这些匹配到的产品在用户的一个观点的一个段落中记作一次共现，若多次出现也只记作一次。最终生成按共现次数由大到小排列/排序的统计图，统计图可以是柱形图或者曲线图等可以用作图示的任意图形，统计图的显示名称为产品正式名称（第一名称）。图5为以兰蔻小棕瓶为例的产品共现次数排序的统计图。

本步骤使用品牌前缀、后缀分离正则的方式能够提高正则匹配的精准度，相比于现有技术能够更加快速、准确地匹配出产品。

图3示出了本发明实施例提供的美妆产品社交媒体评论挖掘的系统结构框图。

词库构建模块201，构建第一词库，所述第一词库包含品牌的中英文名称；所述第一词库是美妆品牌词库，例如：兰蔻、LANCOME、雅诗兰黛、Estee Lauder等品牌。所述第一词库的构建的过程包括：

数据获取模块2011，用于获取互联网美妆品牌名称数据，构建初始名称数据集合。

本模块使用现有技术的网络使用现有技术的网络数据获取算法，获取网页、电商平台以及互联网其他美妆品牌名称数据，构建初始名称数据集合G1。此处给出两个定义，品牌：品牌名称，例如兰蔻、雅诗兰黛、海蓝之谜、赫莲娜等。产品：是指品牌+描述+后缀，例如：兰蔻菁纯面霜，雅诗兰黛特润修护肌活精华露。其中，初始名称数据集合G1可以是以数组形式保存，其中保存的是包含了品牌名称的描述。

关键词统计模块2012，用于统计关键词集合：选取固定的词数量n，对初始名称数据集合G1统计 2words、3words、…、nwords关键词集合中的关键词，每个nwords集合中保存的每个关键词的字符数量都为n，例如2words集合中的关键词为兰蔻、LC等字符都为2的关键词；当nwords较长时，关键词通常是品牌+描述+后缀的形式，例如：兰蔻菁纯面霜，雅诗兰黛特润修护肌活精华露。

切分模块2013，用于切分：对 nwords 进行语料切分，所谓切分即是对存储于nwords集合中的关键词进行切分分词，此时n>2，一般从3开始切分。切分的规则是，只有一个片段出现在得到的集合 nwords 中，这个片段就不切分，比如“娇韵诗”，只要“娇韵”和“韵诗”都在 nwords 集合中，这时候即使“娇韵诗”不在nwords中，那么“娇韵诗”还是不切分，保留下来；对于切分下来的多余的词舍弃，切分获得的切分关键词保存到对应的nwords集合中，例如“娇韵诗效果”，其属于5words，经过切分，将“效果”切分舍弃，保留“娇韵诗”关键词并保存至3words中。

精分模块2014，用于词库精分：获取品牌的第一名称，按照所述第一名称将2words、3words、…、nwords关键词集合重新分类存储区。

在本模块中， nwords中存储的产品名称可能属于不同的产品，获取品牌的第一名称（例如：兰蔻小黑瓶、兰蔻小棕瓶、兰蔻大眼精华等格式为“品牌+后缀”的第一名称；或者品牌+描述+后缀的形式，例如：兰蔻菁纯面霜，雅诗兰黛特润修护肌活精华露），将所有相同品牌的关键词重新排列组合到一个集合中，形成以品牌名称（即第一名称，例如兰蔻）为索引的一个或多个数据集合。例如，将“兰蔻精华小黑瓶”、“兰蔻保养小黑瓶”、“兰蔻基因小黑瓶”等关键词全部归类存储到“兰蔻小黑瓶”集合中。由此构建完成第一词库。本发明的词库构建方法可以克服现有技术网络数据获取算法的关键词不准确的技术问题。

本模块的关键词集合重新分类存储使用的是基于匹配树的关键词匹配算法，具体算法如下，图示如图4所示：

。

。

后缀词库构建模块202，用于构建后缀词库；

利用正则表达式：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种美妆产品社交媒体评论挖掘的方法，其特征在于，所述方法步骤包括：

所述构建第一词库包括词库精分，获取品牌的第一名称，按照所述第一名称将关键词集合重新分类存储，将所有相同产品的关键词重新排列组合到一个集合中，形成以第一名称为索引的至少一数据集合；关键词集合为选取固定的词数量n，统计nwords关键词的集合，每个nwords集合中保存的每个关键词的字符数量都为n，所述n大于或等于1；重新分类算法为：

步骤1），构建匹配树 Tree = (V,E)，其中 V 为节点集，第一层节点为根节点且唯一，第二层节点为获取的品牌第一名称；E为当前子节点到根节点的权重之和；

步骤2），设置第一预设阈值，遍历关键词集合，生成关键词集合中的关键词向量、第二层节点关键词向量，计算关键词集合中的关键词向量与第二层节点集关键词向量的第一余弦相似度，将第一余弦相似度大于或等于第一预设阈值的相似关键词置于对应第二层节点的子节点，形成第三层节点集；

步骤3），设置第二预设阈值，第二预设阈值大于第一预设阈值；生成第二层节点关键词向量、第三层节点关键词向量，计算第二层节点集关键词向量与第三层节点集关键词向量的第二余弦相似度，将第二余弦相似度大于或等于第二预设阈值的相似关键词置于对应第三层节点的子节点；

步骤4），基于第二层节点作为根节点的树形成以第一名称为索引的至少一数据集合；

步骤102，构建后缀词库，所述后缀词库为美妆产品后缀词，用于表征产品的具体类别；

步骤103，构建产品名称映射，将所述产品的第二名称映射到第一名称，所述第二名称为美妆产品的别称；

2.根据权利要求1所述的方法，其特征在于，步骤101在词库精分之前还包括：

步骤1013，切分，对 nwords 进行语料切分，对存储于nwords集合中的关键词进行切分分词，若片段出现在得到的集合 nwords 中，则所述片段不切分，对于切分下来的多余的词舍弃，切分获得的切分关键词保存到对应的nwords集合中。

3.根据权利要求1所述的方法，其特征在于，所述步骤104具体为：根据给定的查询产品，利用正则表达式，匹配查询用户观点中与其类型相同的产品出现的次数；所述正则表达式为品牌前缀、后缀分离的正则表达式：

。

4.一种美妆产品社交媒体评论挖掘的系统，其特征在于，包括以下模块：

词库构建模块（201），用于构建第一词库，所述第一词库包含品牌的中英文名称；

所述词库构建模块（201）包括精分模块（2014），用于词库精分：获取品牌的第一名称，按照所述第一名称将关键词集合重新分类存储，将所有相同产品的关键词重新排列组合到一个集合中，形成以第一名称为索引的至少一数据集合；关键词集合为选取固定的词数量n，统计nwords关键词的集合，每个nwords集合中保存的每个关键词的字符数量都为n，所述n大于或等于1；精分模块（2014）执行的重新分类具体为：

后缀词库构建模块（202），用于构建后缀词库，所述后缀词库为美妆产品后缀词，用于表征产品的具体类别；

映射模块（203），用于构建产品名称映射，将所述产品的第二名称映射到第一名称，所述第二名称为美妆产品的别称；

统计模块（204），用于查询产品共现次数，生成按所述产品共现次数排序的统计图。

5.根据权利要求4所述的系统，其特征在于，所述词库构建模块（201）还包括：

数据获取模块（2011），获取互联网美妆品牌名称数据，构建初始名称数据集合；

关键词统计模块（2012），用于统计关键词集合，选取固定的词数量n，所述n大于或等于1，统计nwords关键词集合的关键词，每个nwords集合中保存的每个关键词的字符数量都为n；

切分模块（2013），用于切分，对 nwords 进行语料切分，对存储于nwords集合中的关键词进行切分分词，若片段出现在得到的集合 nwords 中，则所述片段不切分，对于切分下来的多余的词舍弃，切分获得的切分关键词保存到对应的nwords集合中。

6.根据权利要求4所述的系统，其特征在于，所述统计模块（204）具体执行方式为：根据给定的查询产品，利用正则表达式，匹配查询用户观点中与其类型相同的产品出现的次数；所述正则表达式为品牌前缀、后缀分离的正则表达式：

。

7.一种计算机可读存储介质，用于存储计算机程序，所述计算机程序执行权利要求1-3任一项所述的美妆产品社交媒体评论挖掘的方法。