CN110442670B

CN110442670B - 一种基于文本标引的消费者画像生成方法

Info

Publication number: CN110442670B
Application number: CN201910500779.6A
Authority: CN
Inventors: 杨臻; 陈丽杨; 张轩
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD; Tianjin Transportation Technical College
Current assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD; Tianjin Transportation Technical College
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2023-05-26
Anticipated expiration: 2039-06-11
Also published as: CN110442670A

Abstract

本发明提供一种基于文本标引的消费者画像生成方法，从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系，包括如下步骤：采集消费者数据；制作判定图进行消费者数据标引，生成分类结果；建立数据库将分类数据进行存储；利用数据可视化工具进行数据的统计及可视化图表展示。本发明利用网络大数据结合用户的基本属性信息及历史发布信息的挖掘分析，从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系，从而得出用户的合理画像。直接支持企业应用做决策，另外方法便于普通用户操作，不需要具备专业的大数据技术及算法编程技术。

Description

一种基于文本标引的消费者画像生成方法

技术领域

本发明属于数据挖掘技术领域，尤其是涉及一种基于文本标引的消费者画像生成方法。

背景技术

满足消费者需求是企业存在的基础。要满足消费者需求，首先要找到目标消费者，了解他们的消费行为和消费习惯。消费者画像则是锚定目标群体的有效工具。

目前企业的用户画像，是以简单的数据统计和简单的算法模型作为支持，基于Hadoop平台或者其他大数据平台进行数据处理，生成统计报表支持企业决策。但是在用户画像标签结果层面上并没有进行深度的数据挖掘，标签比较简单，使得用户画像没有发挥出更多的功能。

现有技术缺点：画像体系简单，只覆盖了消费者按照基本属性基本属性(区域、年龄、性别、职业等)，结合消费行为(如购买的产品品类、品牌、购买频次等)，形成消费者画像。这样的画像缺少消费者心理学数据的分析，例如购买动机、购买因素、购物方式、兴趣爱好、生活习惯等等，缺少这些信息的画像不能指导企业直接应用。

发明内容

有鉴于此，本发明旨在提出一种基于文本标引的消费者画像生成方法，以解决上述背景技术中提到的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于文本标引的消费者画像生成方法，包括如下步骤：

(1)采集消费者数据；

(2)制作判定图进行消费者数据标引，生成分类结果；

(3)建立数据库将分类数据进行存储；

(4)利用数据可视化工具进行数据的统计及可视化图表展示。

进一步的，所述步骤(1)中，先进行目标人群的抽样，设定清洗规则进行人群清洗，获得有效人群以后，进行该人群基础用户信息及历史微博的采集。

进一步的，判定图制作方法包括如下步骤:

(21)创建新任务；

(22)在判定图界面增加节点；

节点包括逻辑节点和模式节点，逻辑节点包括判定节点、联合判定节点、以及排除节点，模式节点包括特征词节点和汉堡包节点；

(23)建立判定图的逻辑结构；

构建判定图的逻辑为：根节点下—>联合判定节点—>判定节点和非判定节点—>特征词节点和汉堡包节点，其中汉堡包节点下可以添加并集节点和特征词节点。

(24)分析输出数据，给节点打上标签；

(25)对打标签和未命中标签数据进行数据调优，补充及删除特征词，修改判定图。

进一步的，所述步骤(22)中，各节点的含义及位置如下：

a.逻辑节点——判定节点

含义：满足什么条件，就能判定是什么；

位置：通常放在根节点下、联合判定下，下边可以添加模式节点和逻辑节点；

b.逻辑节点——联合判定节点

含义：同时满足两个以上条件，就能判定是什么；

位置：通常放在根节点下，下边只能添加判定节点和非判定节点，判定表示必须满足的条件，非判定表示必须不满足的条件；

c.逻辑节点——排除节点

含义：满足什么条件，就不能判定什么；

位置：只能添加在联合判定节点下，和联合判定下的其他判定节点同时使用，下边可以添加模式节点和逻辑节点；

d.模式节点——特征词节点

特征词节点是填写关键词的地方，只有这里面填写的词才会参与到互联网的搜，匹配文本中出现的特征词集合，并且排除出现在歧义词串中的情况，特征词可以是一个集合，词之间使用中文或西文的逗号隔开，匹配可以设置三种类型和匹配位置，三种类型包括：分词、变形、正则，匹配位置包括：起始、结尾、等于，默认选择不限，匹配不仅可以直接扫描字符串匹配，也可以对文本串先进行分词，再匹配，匹配不仅可以直接扫描字符串匹配，也支持文本串的变形识别、间隔的模糊匹配，匹配不仅可以直接扫描字符串匹配，也支持正则表达式的匹配；

e.模式节点——汉堡包节点

汉堡包识别模式可以识别文本中同时出现两个(多个)子串的情况，汉堡包模式可以设置两个子串之间的距离、两个子串出现的顺序，以及子串中不允许出现的子串，汉堡包节点不能直接跟在联合判定节点下面，只能跟在判定节点或排除节点后。

进一步的，所述步骤(25)中，调优是判定图构建完成后，通过实时/回溯系统获取数据，按照标签、命中线索逐条判断数据的标签是否准确，并修改判定图的过程，

处理方法包括：

1.检查判定图标引逻辑：检查逻辑是否过严：如汉堡逻辑距离过近；检查特征词是否够全：是否收入了标引所需的特征词；修改后利用判定图中集成的单条测试功能测试逻辑修改是否有效；

2.检查采集配置是否全面：检查是否部署了数据所在信源；检查是否部署了相关采集词。

进一步的，所述步骤(2)中制作判定图之前还包括采用知识树模型构建层级式知识框架、确定数据的资源类型以及构建集合的语义标引规则，从而获取制作判定图需要的数据。

进一步的，所述步骤(3)中，经过数据标引形成三类数据进行存储

1、人物的基础信息数据库：目标人群的年龄、地域、职业、性别等基础信息；

2、标签数据库：针对人群发布的微博进行打标签，标签维度参见数据标

引模块介绍的标签体系；

3、动态数据库：人物微博的点击数、评论数、点赞数等动态数据。

进一步的，所述步骤(4)中，可视化工具包括powerbi、Smartbi、datav、文图、图表秀、excel。

进一步的，还包括根据可视化图表撰写分析报告，形成文字解读及分析。

本发明还提出一种基于文本标引的消费者画像生成系统，具体方案是这样实现的：

一种基于文本标引的消费者画像生成系统，包括依次相连的数据采集模块、数据标引模块、数据存储模块、数据可视化模块、以及分析报告模块；

所述数据采集模块用于获取目标人群数据；

所述数据标引模块用于制作判定图，获取目标人群分类结果；

所述数据存储模块用于将分类结果进行存储；

所述数据可视化模块用于将数据进行统计及可视化图表展示；

所述分析包括模块用于对可视化图表进行文字解读及分析。

相对于现有技术，本发明所述的一种基于文本标引的消费者画像生成方法具有以下优势：

本发明所述的是提供一种基于社交媒体数据的消费者行为画像工具，利用网络大数据结合用户的基本属性信息及历史发布信息的挖掘分析，从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系，从而得出用户的合理画像。直接支持企业应用做决策，另外方法便于普通用户操作，不需要具备专业的大数据技术及算法编程技术。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种基于文本标引的消费者画像生成方法的工作流程示意图；

图2为本发明实施例所述的判定图示意图；

图3为本发明实施例所述的品牌用户年龄分布示意图；

图4为本发明实施例所述的品牌用户地域分布示意图；

图5为本发明实施例所述的品牌用户关键词示意图；

图6为本发明实施例所述的品牌用户关注美妆品牌分类示意图；

图7为本发明实施例所述的品牌用户关注护肤功效示意图；

图8为本发明实施例所述的品牌用户妆容及穿衣风格示意图；

图9为本发明实施例所述的品牌用户关注明星示意图；

图10为本发明实施例所述的品牌用户常用出行方式示意图；

图11为本发明实施例所述的品牌用户养生行为示意图；

图12为本发明实施例所述的品牌用户常见签到地点示意图；

图13为本发明实施例所述的品牌用户活跃的文艺活动示意图；

图14为本发明实施例所述的品牌用户活跃的文学类型示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

本发明提供一种基于文本标引的消费者画像生成方法，从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系。

工作流程包括如图1所示，包括

一、数据采集模块：

数据采集模块首先进行目标人群的抽样，可按兴趣、年龄、关注产品、共同评价等方法根据需求进行抽样，例如关注**品牌的人群、购买使用**产品的人群，80后、90后人群等。人群抽样以后，会设定清洗规则进行人群清洗，比如发微博数>50,排除蓝V用户等规则；获得有效人群以后，进行该人群基础用户信息及历史微博的采集。

二、数据标引模块工作流程

消费者画像生成方法的核心在于判定图制作部分，具体工作流程如下：

(一)梳理知识和语料

为了实现某一组织目标的所有相关组织知识间的因果关系或从属关系，采用知识树模型构建层级式知识框架。树结构作为知识内容的表示形式，其结构要尽可能适应其所要承载内容的要求。

根节点表示组织的目标知识，条目是指知识树节点上的词或短语，类目是词树集中用作固定类目的条目，叶子是指层级结构的末端节点。在这基础上对知识进行分门别类，做到快速、准确地定义知识的分类，对每一个目标知识进行细分。借助于知识树的管理，知识可以在一棵树上不断的积累，分门别类的进行保存，在需要的时候可以非常方便的找到。

(二)确定数据的资源类型

1.了解客户想要达到的业务目标，想利用数据达到的目的，是产品改进，还是舆情监控、竞争对手分析等，明确判定图的主题名称；

2.针对业务需求，通过搜索引擎、微博、专业的论坛和网站等，搜索与主题相关的数据，看看哪些空间(资源类型、网站)的数据符合需求；

3.若发现未覆盖的信源，及时提交部署；

4.确定用于标引数据的判定图的资源类型。

(三)构建集合的语义标引规则

这一步将对已有标签的进一步细致分类以及知识添加。

1.数据细分：如在这一步对兴趣偏好方面的数据再细分为娱乐偏好、生活偏好、美食偏好、出行偏好、运动偏好等；娱乐标签可细化为明星、电影、电视剧、音乐、游戏、综艺、体育等；

2.基于细分的标签维度，总结知识的逻辑关系：总结能够标引该类数据的关键特征知识，如通过看提及明星的数据，可以总结该类数据主要有明星名称类特征词+人物形象类修饰词，两类特征词同现在一句话中。

(四)根据以上结果绘制判定图

判定图提供了可视化的需求输入交互界面，可以将对数据的操作需求表示在判定图中。具体步骤：

1.创建新任务。

2.在判定图界面增加节点。

节点包括：

(1)逻辑节点——判定节点

含义：满足什么条件，就能判定是什么。“或”的关系，非常常用的一种关系，可以理解为分类。

位置：通常放在根节点下、联合判定下。下边可以添加模式节点和逻辑节点。

(2)逻辑节点——联合判定节点

含义：同时满足两个以上条件，就能判定是什么。“与”的关系是指同时满足多个条件的时候才输出一个结果。

位置：通常放在根节点下，下边只能添加判定节点和非判定节点。判定表示必须满足的条件，非判定表示必须不满足的条件。

(3)逻辑节点——排除节点

含义：满足什么条件，就不能判定什么。

位置：只能添加在联合判定节点下，和联合判定下的其他判定节点同时使用。下边可以添加模式节点和逻辑节点。

(4)模式节点——特征词节点

特征词节点是填写关键词的地方，只有这里面填写的词才会参与到互联网的搜索。匹配文本中出现的特征词集合，并且排除出现在歧义词串中的情况。特征词可以是一个集合，词之间使用中文或西文的逗号隔开。匹配可以设置三种类型和匹配位置。三种类型包括：分词、变形、正则。匹配位置包括：起始、结尾、等于，默认选择不限。匹配不仅可以直接扫描字符串匹配，也可以对文本串先进行分词，再匹配。匹配不仅可以直接扫描字符串匹配，也支持文本串的变形识别、间隔的模糊匹配。匹配不仅可以直接扫描字符串匹配，也支持正则表达式的匹配。

(5)模式节点——汉堡包节点

汉堡包识别模式可以识别文本中同时出现两个(多个)子串的情况。汉堡包模式可以设置两个子串之间的距离、两个子串出现的顺序，以及子串中不允许出现的子串。汉堡包节点不能直接跟在表达“与”关系的联合判定节点下面，只能跟在判定节点或排除节点后。

3、建立判定图的逻辑结构

4、为数据打标签

分析输出数据，给节点打上标签，这样在单条测试和看数据的时候就能知道具体是任务下的哪条分支的数据。

5、对打标签和未命中标签数据进行数据调优，补充及删除特征词，修正语义判定规则(修改判定图)

调优是判定图构建完成后，通过实时/回溯系统获取数据，按照标签、命中线索逐条判断数据的标签是否准确，并修改判定图的过程。

处理方法包括：

1.检查判定图标引逻辑：检查逻辑是否过严：如汉堡逻辑距离过近；检查特征词是否够全：是否收入了标引所需的特征词；修改后利用判定图中集成的单条测试功能测试逻辑修改是否有效。

由此生成判定图。

三、数据存储模块：

经过数据标引主要形成三类数据进行存储

1、人物的基础信息数据库：目标人群的年龄、地域、职业、性别等基础信息

引模块介绍的标签体系；

3、动态数据库：人物微博的点击数、评论数、点赞数等动态数据

四、数据可视化：

利用数据可视化工具进行数据的统计及可视化图表展示。常用的可视化工具有powerbi、Smartbi、datav、文图、图表秀、excel等。

五、分析报告撰写

根据可视化图表撰写分析报告，形成文字解读及分析。

以为某品牌用户兴趣爱好画像为例，

1、采集微博数据源：选取提及该品牌用户微博id，去除广告数据、企业账号，且限定发微博数大于100条，最终获得品牌用户id 2000个；采集每位用户微博数据100条，共计200000条数据。

2、设计兴趣爱好维度判定图,为数据源打标签。判定图(部分)如图2所示。

3、将打标签数据导入可视化分析工具，得到用户画像：

(1)该品牌用户年龄分布如图3所示；

(2)该品牌用户地域分布如图4所示：

该品牌用户女性占绝大多数，年龄集中分布于18-30岁区间，其中最主要是18-22岁，处于大学本科年龄段；地域分布与微博用户分布一致，多集中于经济较发达地区，而经济相对落后省市覆盖率较差，说明产品推广要实现全覆盖还需进一步努力。

(3)该品牌用户关键词如图5所示：

用户自我认知标签很多，其中“美食”、“旅游”、“娱乐”、“名人明星”是最高频的标签，说明该品牌用户对于自我满足感较为看重，物质享受和精神享受都是他们不可或缺的诉求。

(4)该品牌用户关注美妆品牌分类如图6所示：

用户关注的美妆品牌多为欧美品牌，日韩品牌显得逊色；其中也有提及平价品牌(一般社交媒体的晒单多倾向于高级品牌)，说明这个客群用户注重美妆产品性价比，会根据产品功效甄选最优产品。

(5)该品牌用户关注护肤功效如图7所示：

用户最关注的护肤功效是深层清理、控油和抗衰老；彩妆产品开发需要考虑控油及易清洁功能；同时避免上妆“卡粉”的问题。

(6)该品牌用户妆容及穿衣风格如图8所示：

用户的妆容多为cos妆和裸妆，在彩妆产品开发可参照cosplay角色特点以及自然青春的妆容要求；用户的服装风格多为正式装和瑞丽风格，说明用户是一群追求时尚和自然妆容，且散发都市气息的年轻人。

(7)该品牌用户关注明星如图9所示：

用户喜欢的明星多为“流量小生/小花”的青春偶像系，说明用户多为“外貌协会”对于青春靓丽的外形有高于其它的偏好，喜欢“颜值消费”和休闲轻松的生活方式；

(8)该品牌用户常用出行方式如图10所示；

(9)该品牌用户养生行为如图11所示：

用户多用自行车、房车和电动车等便利的交通工具出行，多采用保健、运动等养生方式，说明该品牌用户是一群爱自由、爱生活的年轻人。

(10)该品牌用户常见签到地点如图12所示：

用户签到地点中学校最为活跃，说明用户相对较宅，以校园熟人社交生活圈为主。

(11)该品牌用户活跃的文艺活动如图13所示；

(12)该品牌用户活跃的文学类型如图14所示：

用户多活跃于摄影、歌咏比赛等文艺活动，且多活跃于小说、童话等文学类型，说明该品牌用户内心丰富，富有生活情趣，且有浪漫主义色彩。在做彩妆产品开发时，无论在产品外观，还是产品寓意，都建议要赋予丰富的内涵来吸引用户。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本标引的消费者画像生成方法，其特征在于：包括如下步骤：

(1)采集消费者数据；

(2)制作判定图进行消费者数据标引，生成分类结果；

(3)建立数据库将分类数据进行存储；

(4)利用数据可视化工具进行数据的统计及可视化图表展示；

判定图制作方法包括如下步骤:

(21)创建新任务；

(22)在判定图界面增加节点；

节点包括逻辑节点和模式节点，逻辑节点包括判定节点、联合判定节点以及非判定节点，模式节点包括特征词节点和汉堡包节点；

(23)建立判定图的逻辑结构；

构建判定图的逻辑为：根节点下—>联合判定节点—>判定节点和非判定节点—>特征词节点和汉堡包节点，其中汉堡包节点下添加并集节点和特征词节点；

(24)分析输出数据，给节点打上标签；

(25)对打标签和未命中标签数据进行数据调优，补充及删除特征词，修改判定图；

特征词节点是填写关键词的地方，只有这里面填写的词才会参与到互联网的搜索，匹配文本中出现的特征词集合，并且排除出现在歧义词串中的情况，特征词是一个集合，词之间使用中文或西文的逗号隔开，匹配设置三种类型和匹配位置，三种类型包括：分词、变形、正则，匹配位置包括：起始、结尾、等于，匹配不仅直接扫描字符串匹配，也对文本串先进行分词，再匹配，匹配不仅直接扫描字符串匹配，也支持文本串的变形识别、间隔的模糊匹配，匹配不仅直接扫描字符串匹配，也支持正则表达式的匹配；

汉堡包识别模式识别文本中同时出现不少于两个子串的情况，汉堡包模式设置两个子串之间的距离、两个子串出现的顺序以及子串中不允许出现的子串，汉堡包节点不能直接跟在联合判定节点下面，只能跟在判定节点或非判定节点后。

2.根据权利要求1所述的一种基于文本标引的消费者画像生成方法，其特征在于：所述步骤(1)中，先进行目标人群的抽样，设定清洗规则进行人群清洗，获得有效人群以后，进行该人群基础用户信息及历史微博的采集。

3.根据权利要求1所述的一种基于文本标引的消费者画像生成方法，其特征在于：所述步骤(22)中，各节点的含义及位置如下：

a.逻辑节点——判定节点

含义：满足什么条件，就能判定是什么；

位置：放在联合判定下；

b.逻辑节点——联合判定节点

含义：同时满足两个以上条件，就能判定是什么；

位置：放在根节点下，下边只能添加判定节点和非判定节点，判定表示必须满足的条件，非判定表示必须不满足的条件；

c.逻辑节点——非判定节点

含义：满足什么条件，就不能判定什么；

位置：只能添加在联合判定节点下，和联合判定下的其他判定节点同时使用；

d.模式节点——特征词节点

e.模式节点——汉堡包节点

4.根据权利要求1所述的一种基于文本标引的消费者画像生成方法，其特征在于：所述步骤(25)中，调优是判定图构建完成后，通过实时/回溯系统获取数据，按照标签、命中线索逐条判断数据的标签是否准确，并修改判定图的过程，

处理方法包括：

①检查判定图标引逻辑：检查汉堡逻辑距离过近；检查特征词是否够全：是否收入了标引所需的特征词；修改后利用判定图中集成的单条测试功能测试逻辑修改是否有效；

②检查采集配置是否全面：检查是否部署了数据所在信源；检查是否部署了相关采集词。

5.根据权利要求1所述的一种基于文本标引的消费者画像生成方法，其特征在于：所述步骤(2)中制作判定图之前还包括采用知识树模型构建层级式知识框架、确定数据的资源类型以及构建集合的语义标引规则，从而获取制作判定图需要的数据。

6.根据权利要求1所述的一种基于文本标引的消费者画像生成方法，其特征在于：所述步骤(3)中，经过数据标引形成三类数据进行存储

①人物的基础信息数据库：目标人群的年龄、地域、职业、性别基础信息；

②标签数据库：针对人群发布的微博进行打标签，标签维度参见数据标引介绍的标签体系；

③动态数据库：人物微博的点击数、评论数、点赞数动态数据。

7.根据权利要求1所述的一种基于文本标引的消费者画像生成方法，其特征在于：所述步骤(4)中，可视化工具包括powerbi、Smartbi、datav、文图、图表秀、excel。

8.根据权利要求1所述的一种基于文本标引的消费者画像生成方法，其特征在于：还包括根据可视化图表撰写分析报告，形成文字解读及分析。