CN110442670B - 一种基于文本标引的消费者画像生成方法 - Google Patents

一种基于文本标引的消费者画像生成方法 Download PDF

Info

Publication number
CN110442670B
CN110442670B CN201910500779.6A CN201910500779A CN110442670B CN 110442670 B CN110442670 B CN 110442670B CN 201910500779 A CN201910500779 A CN 201910500779A CN 110442670 B CN110442670 B CN 110442670B
Authority
CN
China
Prior art keywords
node
data
text
nodes
indexing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910500779.6A
Other languages
English (en)
Other versions
CN110442670A (zh
Inventor
杨臻
陈丽杨
张轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Tianjin Transportation Technical College
Original Assignee
TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Tianjin Transportation Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD, Tianjin Transportation Technical College filed Critical TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Priority to CN201910500779.6A priority Critical patent/CN110442670B/zh
Publication of CN110442670A publication Critical patent/CN110442670A/zh
Application granted granted Critical
Publication of CN110442670B publication Critical patent/CN110442670B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种基于文本标引的消费者画像生成方法,从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系,包括如下步骤:采集消费者数据;制作判定图进行消费者数据标引,生成分类结果;建立数据库将分类数据进行存储;利用数据可视化工具进行数据的统计及可视化图表展示。本发明利用网络大数据结合用户的基本属性信息及历史发布信息的挖掘分析,从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系,从而得出用户的合理画像。直接支持企业应用做决策,另外方法便于普通用户操作,不需要具备专业的大数据技术及算法编程技术。

Description

一种基于文本标引的消费者画像生成方法
技术领域
本发明属于数据挖掘技术领域,尤其是涉及一种基于文本标引的消费者画像生成方法。
背景技术
满足消费者需求是企业存在的基础。要满足消费者需求,首先要找到目标消费者,了解他们的消费行为和消费习惯。消费者画像则是锚定目标群体的有效工具。
目前企业的用户画像,是以简单的数据统计和简单的算法模型作为支持,基于Hadoop平台或者其他大数据平台进行数据处理,生成统计报表支持企业决策。但是在用户画像标签结果层面上并没有进行深度的数据挖掘,标签比较简单,使得用户画像没有发挥出更多的功能。
现有技术缺点:画像体系简单,只覆盖了消费者按照基本属性基本属性(区域、年龄、性别、职业等),结合消费行为(如购买的产品品类、品牌、购买频次等),形成消费者画像。这样的画像缺少消费者心理学数据的分析,例如购买动机、购买因素、购物方式、兴趣爱好、生活习惯等等,缺少这些信息的画像不能指导企业直接应用。
发明内容
有鉴于此,本发明旨在提出一种基于文本标引的消费者画像生成方法,以解决上述背景技术中提到的问题。
为达到上述目的,本发明的技术方案是这样实现的:
一种基于文本标引的消费者画像生成方法,包括如下步骤:
(1)采集消费者数据;
(2)制作判定图进行消费者数据标引,生成分类结果;
(3)建立数据库将分类数据进行存储;
(4)利用数据可视化工具进行数据的统计及可视化图表展示。
进一步的,所述步骤(1)中,先进行目标人群的抽样,设定清洗规则进行人群清洗,获得有效人群以后,进行该人群基础用户信息及历史微博的采集。
进一步的,判定图制作方法包括如下步骤:
(21)创建新任务;
(22)在判定图界面增加节点;
节点包括逻辑节点和模式节点,逻辑节点包括判定节点、联合判定节点、以及排除节点,模式节点包括特征词节点和汉堡包节点;
(23)建立判定图的逻辑结构;
构建判定图的逻辑为:根节点下—>联合判定节点—>判定节点和非判定节点—>特征词节点和汉堡包节点,其中汉堡包节点下可以添加并集节点和特征词节点。
(24)分析输出数据,给节点打上标签;
(25)对打标签和未命中标签数据进行数据调优,补充及删除特征词,修改判定图。
进一步的,所述步骤(22)中,各节点的含义及位置如下:
a.逻辑节点——判定节点
含义:满足什么条件,就能判定是什么;
位置:通常放在根节点下、联合判定下,下边可以添加模式节点和逻辑节点;
b.逻辑节点——联合判定节点
含义:同时满足两个以上条件,就能判定是什么;
位置:通常放在根节点下,下边只能添加判定节点和非判定节点,判定表示必须满足的条件,非判定表示必须不满足的条件;
c.逻辑节点——排除节点
含义:满足什么条件,就不能判定什么;
位置:只能添加在联合判定节点下,和联合判定下的其他判定节点同时使用,下边可以添加模式节点和逻辑节点;
d.模式节点——特征词节点
特征词节点是填写关键词的地方,只有这里面填写的词才会参与到互联网的搜,匹配文本中出现的特征词集合,并且排除出现在歧义词串中的情况,特征词可以是一个集合,词之间使用中文或西文的逗号隔开,匹配可以设置三种类型和匹配位置,三种类型包括:分词、变形、正则,匹配位置包括:起始、结尾、等于,默认选择不限,匹配不仅可以直接扫描字符串匹配,也可以对文本串先进行分词,再匹配,匹配不仅可以直接扫描字符串匹配,也支持文本串的变形识别、间隔的模糊匹配,匹配不仅可以直接扫描字符串匹配,也支持正则表达式的匹配;
e.模式节点——汉堡包节点
汉堡包识别模式可以识别文本中同时出现两个(多个)子串的情况,汉堡包模式可以设置两个子串之间的距离、两个子串出现的顺序,以及子串中不允许出现的子串,汉堡包节点不能直接跟在联合判定节点下面,只能跟在判定节点或排除节点后。
进一步的,所述步骤(25)中,调优是判定图构建完成后,通过实时/回溯系统获取数据,按照标签、命中线索逐条判断数据的标签是否准确,并修改判定图的过程,
处理方法包括:
1.检查判定图标引逻辑:检查逻辑是否过严:如汉堡逻辑距离过近;检查特征词是否够全:是否收入了标引所需的特征词;修改后利用判定图中集成的单条测试功能测试逻辑修改是否有效;
2.检查采集配置是否全面:检查是否部署了数据所在信源;检查是否部署了相关采集词。
进一步的,所述步骤(2)中制作判定图之前还包括采用知识树模型构建层级式知识框架、确定数据的资源类型以及构建集合的语义标引规则,从而获取制作判定图需要的数据。
进一步的,所述步骤(3)中,经过数据标引形成三类数据进行存储
1、人物的基础信息数据库:目标人群的年龄、地域、职业、性别等基础信息;
2、标签数据库:针对人群发布的微博进行打标签,标签维度参见数据标
引模块介绍的标签体系;
3、动态数据库:人物微博的点击数、评论数、点赞数等动态数据。
进一步的,所述步骤(4)中,可视化工具包括powerbi、Smartbi、datav、文图、图表秀、excel。
进一步的,还包括根据可视化图表撰写分析报告,形成文字解读及分析。
本发明还提出一种基于文本标引的消费者画像生成系统,具体方案是这样实现的:
一种基于文本标引的消费者画像生成系统,包括依次相连的数据采集模块、数据标引模块、数据存储模块、数据可视化模块、以及分析报告模块;
所述数据采集模块用于获取目标人群数据;
所述数据标引模块用于制作判定图,获取目标人群分类结果;
所述数据存储模块用于将分类结果进行存储;
所述数据可视化模块用于将数据进行统计及可视化图表展示;
所述分析包括模块用于对可视化图表进行文字解读及分析。
相对于现有技术,本发明所述的一种基于文本标引的消费者画像生成方法具有以下优势:
本发明所述的是提供一种基于社交媒体数据的消费者行为画像工具,利用网络大数据结合用户的基本属性信息及历史发布信息的挖掘分析,从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系,从而得出用户的合理画像。直接支持企业应用做决策,另外方法便于普通用户操作,不需要具备专业的大数据技术及算法编程技术。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例所述的一种基于文本标引的消费者画像生成方法的工作流程示意图;
图2为本发明实施例所述的判定图示意图;
图3为本发明实施例所述的品牌用户年龄分布示意图;
图4为本发明实施例所述的品牌用户地域分布示意图;
图5为本发明实施例所述的品牌用户关键词示意图;
图6为本发明实施例所述的品牌用户关注美妆品牌分类示意图;
图7为本发明实施例所述的品牌用户关注护肤功效示意图;
图8为本发明实施例所述的品牌用户妆容及穿衣风格示意图;
图9为本发明实施例所述的品牌用户关注明星示意图;
图10为本发明实施例所述的品牌用户常用出行方式示意图;
图11为本发明实施例所述的品牌用户养生行为示意图;
图12为本发明实施例所述的品牌用户常见签到地点示意图;
图13为本发明实施例所述的品牌用户活跃的文艺活动示意图;
图14为本发明实施例所述的品牌用户活跃的文学类型示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面将参考附图并结合实施例来详细说明本发明。
本发明提供一种基于文本标引的消费者画像生成方法,从消费阶层、精神消费类型、产品接受度、兴趣爱好、人生阶段五个维度描绘消费者画像体系。
工作流程包括如图1所示,包括
一、数据采集模块:
数据采集模块首先进行目标人群的抽样,可按兴趣、年龄、关注产品、共同评价等方法根据需求进行抽样,例如关注**品牌的人群、购买使用**产品的人群,80后、90后人群等。人群抽样以后,会设定清洗规则进行人群清洗,比如发微博数>50,排除蓝V用户等规则;获得有效人群以后,进行该人群基础用户信息及历史微博的采集。
二、数据标引模块工作流程
消费者画像生成方法的核心在于判定图制作部分,具体工作流程如下:
(一)梳理知识和语料
为了实现某一组织目标的所有相关组织知识间的因果关系或从属关系,采用知识树模型构建层级式知识框架。树结构作为知识内容的表示形式,其结构要尽可能适应其所要承载内容的要求。
根节点表示组织的目标知识,条目是指知识树节点上的词或短语,类目是词树集中用作固定类目的条目,叶子是指层级结构的末端节点。在这基础上对知识进行分门别类,做到快速、准确地定义知识的分类,对每一个目标知识进行细分。借助于知识树的管理,知识可以在一棵树上不断的积累,分门别类的进行保存,在需要的时候可以非常方便的找到。
(二)确定数据的资源类型
1.了解客户想要达到的业务目标,想利用数据达到的目的,是产品改进,还是舆情监控、竞争对手分析等,明确判定图的主题名称;
2.针对业务需求,通过搜索引擎、微博、专业的论坛和网站等,搜索与主题相关的数据,看看哪些空间(资源类型、网站)的数据符合需求;
3.若发现未覆盖的信源,及时提交部署;
4.确定用于标引数据的判定图的资源类型。
(三)构建集合的语义标引规则
这一步将对已有标签的进一步细致分类以及知识添加。
1.数据细分:如在这一步对兴趣偏好方面的数据再细分为娱乐偏好、生活偏好、美食偏好、出行偏好、运动偏好等;娱乐标签可细化为明星、电影、电视剧、音乐、游戏、综艺、体育等;
2.基于细分的标签维度,总结知识的逻辑关系:总结能够标引该类数据的关键特征知识,如通过看提及明星的数据,可以总结该类数据主要有明星名称类特征词+人物形象类修饰词,两类特征词同现在一句话中。
(四)根据以上结果绘制判定图
判定图提供了可视化的需求输入交互界面,可以将对数据的操作需求表示在判定图中。具体步骤:
1.创建新任务。
2.在判定图界面增加节点。
节点包括:
(1)逻辑节点——判定节点
含义:满足什么条件,就能判定是什么。“或”的关系,非常常用的一种关系,可以理解为分类。
位置:通常放在根节点下、联合判定下。下边可以添加模式节点和逻辑节点。
(2)逻辑节点——联合判定节点
含义:同时满足两个以上条件,就能判定是什么。“与”的关系是指同时满足多个条件的时候才输出一个结果。
位置:通常放在根节点下,下边只能添加判定节点和非判定节点。判定表示必须满足的条件,非判定表示必须不满足的条件。
(3)逻辑节点——排除节点
含义:满足什么条件,就不能判定什么。
位置:只能添加在联合判定节点下,和联合判定下的其他判定节点同时使用。下边可以添加模式节点和逻辑节点。
(4)模式节点——特征词节点
特征词节点是填写关键词的地方,只有这里面填写的词才会参与到互联网的搜索。匹配文本中出现的特征词集合,并且排除出现在歧义词串中的情况。特征词可以是一个集合,词之间使用中文或西文的逗号隔开。匹配可以设置三种类型和匹配位置。三种类型包括:分词、变形、正则。匹配位置包括:起始、结尾、等于,默认选择不限。匹配不仅可以直接扫描字符串匹配,也可以对文本串先进行分词,再匹配。匹配不仅可以直接扫描字符串匹配,也支持文本串的变形识别、间隔的模糊匹配。匹配不仅可以直接扫描字符串匹配,也支持正则表达式的匹配。
(5)模式节点——汉堡包节点
汉堡包识别模式可以识别文本中同时出现两个(多个)子串的情况。汉堡包模式可以设置两个子串之间的距离、两个子串出现的顺序,以及子串中不允许出现的子串。汉堡包节点不能直接跟在表达“与”关系的联合判定节点下面,只能跟在判定节点或排除节点后。
3、建立判定图的逻辑结构
构建判定图的逻辑为:根节点下—>联合判定节点—>判定节点和非判定节点—>特征词节点和汉堡包节点,其中汉堡包节点下可以添加并集节点和特征词节点。
4、为数据打标签
分析输出数据,给节点打上标签,这样在单条测试和看数据的时候就能知道具体是任务下的哪条分支的数据。
5、对打标签和未命中标签数据进行数据调优,补充及删除特征词,修正语义判定规则(修改判定图)
调优是判定图构建完成后,通过实时/回溯系统获取数据,按照标签、命中线索逐条判断数据的标签是否准确,并修改判定图的过程。
处理方法包括:
1.检查判定图标引逻辑:检查逻辑是否过严:如汉堡逻辑距离过近;检查特征词是否够全:是否收入了标引所需的特征词;修改后利用判定图中集成的单条测试功能测试逻辑修改是否有效。
2.检查采集配置是否全面:检查是否部署了数据所在信源;检查是否部署了相关采集词。
由此生成判定图。
三、数据存储模块:
经过数据标引主要形成三类数据进行存储
1、人物的基础信息数据库:目标人群的年龄、地域、职业、性别等基础信息
2、标签数据库:针对人群发布的微博进行打标签,标签维度参见数据标
引模块介绍的标签体系;
3、动态数据库:人物微博的点击数、评论数、点赞数等动态数据
四、数据可视化:
利用数据可视化工具进行数据的统计及可视化图表展示。常用的可视化工具有powerbi、Smartbi、datav、文图、图表秀、excel等。
五、分析报告撰写
根据可视化图表撰写分析报告,形成文字解读及分析。
以为某品牌用户兴趣爱好画像为例,
1、采集微博数据源:选取提及该品牌用户微博id,去除广告数据、企业账号,且限定发微博数大于100条,最终获得品牌用户id 2000个;采集每位用户微博数据100条,共计200000条数据。
2、设计兴趣爱好维度判定图,为数据源打标签。判定图(部分)如图2所示。
3、将打标签数据导入可视化分析工具,得到用户画像:
(1)该品牌用户年龄分布如图3所示;
(2)该品牌用户地域分布如图4所示:
该品牌用户女性占绝大多数,年龄集中分布于18-30岁区间,其中最主要是18-22岁,处于大学本科年龄段;地域分布与微博用户分布一致,多集中于经济较发达地区,而经济相对落后省市覆盖率较差,说明产品推广要实现全覆盖还需进一步努力。
(3)该品牌用户关键词如图5所示:
用户自我认知标签很多,其中“美食”、“旅游”、“娱乐”、“名人明星”是最高频的标签,说明该品牌用户对于自我满足感较为看重,物质享受和精神享受都是他们不可或缺的诉求。
(4)该品牌用户关注美妆品牌分类如图6所示:
用户关注的美妆品牌多为欧美品牌,日韩品牌显得逊色;其中也有提及平价品牌(一般社交媒体的晒单多倾向于高级品牌),说明这个客群用户注重美妆产品性价比,会根据产品功效甄选最优产品。
(5)该品牌用户关注护肤功效如图7所示:
用户最关注的护肤功效是深层清理、控油和抗衰老;彩妆产品开发需要考虑控油及易清洁功能;同时避免上妆“卡粉”的问题。
(6)该品牌用户妆容及穿衣风格如图8所示:
用户的妆容多为cos妆和裸妆,在彩妆产品开发可参照cosplay角色特点以及自然青春的妆容要求;用户的服装风格多为正式装和瑞丽风格,说明用户是一群追求时尚和自然妆容,且散发都市气息的年轻人。
(7)该品牌用户关注明星如图9所示:
用户喜欢的明星多为“流量小生/小花”的青春偶像系,说明用户多为“外貌协会”对于青春靓丽的外形有高于其它的偏好,喜欢“颜值消费”和休闲轻松的生活方式;
(8)该品牌用户常用出行方式如图10所示;
(9)该品牌用户养生行为如图11所示:
用户多用自行车、房车和电动车等便利的交通工具出行,多采用保健、运动等养生方式,说明该品牌用户是一群爱自由、爱生活的年轻人。
(10)该品牌用户常见签到地点如图12所示:
用户签到地点中学校最为活跃,说明用户相对较宅,以校园熟人社交生活圈为主。
(11)该品牌用户活跃的文艺活动如图13所示;
(12)该品牌用户活跃的文学类型如图14所示:
用户多活跃于摄影、歌咏比赛等文艺活动,且多活跃于小说、童话等文学类型,说明该品牌用户内心丰富,富有生活情趣,且有浪漫主义色彩。在做彩妆产品开发时,无论在产品外观,还是产品寓意,都建议要赋予丰富的内涵来吸引用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于文本标引的消费者画像生成方法,其特征在于:包括如下步骤:
(1)采集消费者数据;
(2)制作判定图进行消费者数据标引,生成分类结果;
(3)建立数据库将分类数据进行存储;
(4)利用数据可视化工具进行数据的统计及可视化图表展示;
判定图制作方法包括如下步骤:
(21)创建新任务;
(22)在判定图界面增加节点;
节点包括逻辑节点和模式节点,逻辑节点包括判定节点、联合判定节点以及非判定节点,模式节点包括特征词节点和汉堡包节点;
(23)建立判定图的逻辑结构;
构建判定图的逻辑为:根节点下—>联合判定节点—>判定节点和非判定节点—>特征词节点和汉堡包节点,其中汉堡包节点下添加并集节点和特征词节点;
(24)分析输出数据,给节点打上标签;
(25)对打标签和未命中标签数据进行数据调优,补充及删除特征词,修改判定图;
特征词节点是填写关键词的地方,只有这里面填写的词才会参与到互联网的搜索,匹配文本中出现的特征词集合,并且排除出现在歧义词串中的情况,特征词是一个集合,词之间使用中文或西文的逗号隔开,匹配设置三种类型和匹配位置,三种类型包括:分词、变形、正则,匹配位置包括:起始、结尾、等于,匹配不仅直接扫描字符串匹配,也对文本串先进行分词,再匹配,匹配不仅直接扫描字符串匹配,也支持文本串的变形识别、间隔的模糊匹配,匹配不仅直接扫描字符串匹配,也支持正则表达式的匹配;
汉堡包识别模式识别文本中同时出现不少于两个子串的情况,汉堡包模式设置两个子串之间的距离、两个子串出现的顺序以及子串中不允许出现的子串,汉堡包节点不能直接跟在联合判定节点下面,只能跟在判定节点或非判定节点后。
2.根据权利要求1所述的一种基于文本标引的消费者画像生成方法,其特征在于:所述步骤(1)中,先进行目标人群的抽样,设定清洗规则进行人群清洗,获得有效人群以后,进行该人群基础用户信息及历史微博的采集。
3.根据权利要求1所述的一种基于文本标引的消费者画像生成方法,其特征在于:所述步骤(22)中,各节点的含义及位置如下:
a.逻辑节点——判定节点
含义:满足什么条件,就能判定是什么;
位置:放在联合判定下;
b.逻辑节点——联合判定节点
含义:同时满足两个以上条件,就能判定是什么;
位置:放在根节点下,下边只能添加判定节点和非判定节点,判定表示必须满足的条件,非判定表示必须不满足的条件;
c.逻辑节点——非判定节点
含义:满足什么条件,就不能判定什么;
位置:只能添加在联合判定节点下,和联合判定下的其他判定节点同时使用;
d.模式节点——特征词节点
特征词节点是填写关键词的地方,只有这里面填写的词才会参与到互联网的搜索,匹配文本中出现的特征词集合,并且排除出现在歧义词串中的情况,特征词是一个集合,词之间使用中文或西文的逗号隔开,匹配设置三种类型和匹配位置,三种类型包括:分词、变形、正则,匹配位置包括:起始、结尾、等于,匹配不仅直接扫描字符串匹配,也对文本串先进行分词,再匹配,匹配不仅直接扫描字符串匹配,也支持文本串的变形识别、间隔的模糊匹配,匹配不仅直接扫描字符串匹配,也支持正则表达式的匹配;
e.模式节点——汉堡包节点
汉堡包识别模式识别文本中同时出现不少于两个子串的情况,汉堡包模式设置两个子串之间的距离、两个子串出现的顺序以及子串中不允许出现的子串,汉堡包节点不能直接跟在联合判定节点下面,只能跟在判定节点或非判定节点后。
4.根据权利要求1所述的一种基于文本标引的消费者画像生成方法,其特征在于:所述步骤(25)中,调优是判定图构建完成后,通过实时/回溯系统获取数据,按照标签、命中线索逐条判断数据的标签是否准确,并修改判定图的过程,
处理方法包括:
①检查判定图标引逻辑:检查汉堡逻辑距离过近;检查特征词是否够全:是否收入了标引所需的特征词;修改后利用判定图中集成的单条测试功能测试逻辑修改是否有效;
②检查采集配置是否全面:检查是否部署了数据所在信源;检查是否部署了相关采集词。
5.根据权利要求1所述的一种基于文本标引的消费者画像生成方法,其特征在于:所述步骤(2)中制作判定图之前还包括采用知识树模型构建层级式知识框架、确定数据的资源类型以及构建集合的语义标引规则,从而获取制作判定图需要的数据。
6.根据权利要求1所述的一种基于文本标引的消费者画像生成方法,其特征在于:所述步骤(3)中,经过数据标引形成三类数据进行存储
①人物的基础信息数据库:目标人群的年龄、地域、职业、性别基础信息;
②标签数据库:针对人群发布的微博进行打标签,标签维度参见数据标引介绍的标签体系;
③动态数据库:人物微博的点击数、评论数、点赞数动态数据。
7.根据权利要求1所述的一种基于文本标引的消费者画像生成方法,其特征在于:所述步骤(4)中,可视化工具包括powerbi、Smartbi、datav、文图、图表秀、excel。
8.根据权利要求1所述的一种基于文本标引的消费者画像生成方法,其特征在于:还包括根据可视化图表撰写分析报告,形成文字解读及分析。
CN201910500779.6A 2019-06-11 2019-06-11 一种基于文本标引的消费者画像生成方法 Active CN110442670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910500779.6A CN110442670B (zh) 2019-06-11 2019-06-11 一种基于文本标引的消费者画像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910500779.6A CN110442670B (zh) 2019-06-11 2019-06-11 一种基于文本标引的消费者画像生成方法

Publications (2)

Publication Number Publication Date
CN110442670A CN110442670A (zh) 2019-11-12
CN110442670B true CN110442670B (zh) 2023-05-26

Family

ID=68428737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910500779.6A Active CN110442670B (zh) 2019-06-11 2019-06-11 一种基于文本标引的消费者画像生成方法

Country Status (1)

Country Link
CN (1) CN110442670B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275486A (zh) * 2020-01-17 2020-06-12 北京光速斑马数据科技有限公司 消费者研究方法和系统
CN116091112A (zh) * 2022-12-29 2023-05-09 江苏玖益贰信息科技有限公司 一种消费者画像生成装置及画像分析方法
CN117271905B (zh) * 2023-11-21 2024-02-09 杭州小策科技有限公司 基于人群画像的侧向需求分析方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN104866557A (zh) * 2015-05-18 2015-08-26 江南大学 一种基于建构学习理论的个性化即时学习支持系统与方法
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106528656A (zh) * 2016-10-20 2017-03-22 杨瀛 一种基于学员历史和实时学习状态参量实现课程推荐的方法和系统
CN107578292A (zh) * 2017-09-19 2018-01-12 上海财经大学 一种用户画像构建系统
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统
CN107993139A (zh) * 2017-11-15 2018-05-04 华融融通(北京)科技有限公司 一种基于动态规则库的消费金融反欺诈系统与方法
CN108460125A (zh) * 2018-02-26 2018-08-28 影核(北京)网络科技有限公司 一种针对影院用户进行场景化标签化分类的方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1845104A (zh) * 2006-05-22 2006-10-11 赵开灏 信息智能检索加工的系统和方法
CN102207945A (zh) * 2010-05-11 2011-10-05 天津海量信息技术有限公司 基于知识网络的文本标引系统及其方法
CN104866557A (zh) * 2015-05-18 2015-08-26 江南大学 一种基于建构学习理论的个性化即时学习支持系统与方法
CN106504099A (zh) * 2015-09-07 2017-03-15 国家计算机网络与信息安全管理中心 一种构建用户画像的系统
CN106528656A (zh) * 2016-10-20 2017-03-22 杨瀛 一种基于学员历史和实时学习状态参量实现课程推荐的方法和系统
CN107578292A (zh) * 2017-09-19 2018-01-12 上海财经大学 一种用户画像构建系统
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统
CN107993139A (zh) * 2017-11-15 2018-05-04 华融融通(北京)科技有限公司 一种基于动态规则库的消费金融反欺诈系统与方法
CN108460125A (zh) * 2018-02-26 2018-08-28 影核(北京)网络科技有限公司 一种针对影院用户进行场景化标签化分类的方法

Also Published As

Publication number Publication date
CN110442670A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
Ye et al. The value of influencer marketing for business: A bibliometric analysis and managerial implications
Pantano et al. The Cinderella moment: Exploring consumers' motivations to engage with renting as collaborative luxury consumption mode
Alegre et al. Repeat visitation in mature sun and sand holiday destinations
Bernini et al. Analysing tourist satisfaction at a mature and multi-product destination
CN110442670B (zh) 一种基于文本标引的消费者画像生成方法
Liu et al. A systematic review of literature on contested heritage
Ali et al. Exploring destination's negative e-reputation using aspect based sentiment analysis approach: case of Marrakech destination on TripAdvisor
Valls et al. Using ontology-based clustering to understand the push and pull factors for British tourists visiting a Mediterranean coastal destination
La et al. Knowledge mapping of sharing accommodation: A bibliometric analysis
Saeed et al. The antecedents and consequences of brand personality: A systematic review
Karimi-Majd et al. A new data mining methodology for generating new service ideas
Quattrone et al. Social Interactions or Business Transactions? What customer reviews disclose about Airbnb marketplace
Kim et al. Analysis of consumer value using semantic network: The comparison of hierarchical and nonhierarchical value structures
Guleria et al. Impact of memorable tourism experiences on tourists’ storytelling intentions: an empirical investigation
Ding et al. [Retracted] Clustering Merchants and Accurate Marketing of Products Using the Segmentation Tree Vector Space Model
Belabbes et al. Conceptualizing and measuring customer experience for a mobile telecoms operator: the customer’s perspective
Durão et al. Social Media research in the Hotel Industry: A bibliometric analysis
Yoon et al. Finding tourism niche on image-based social media: Integrating computational methods
WO1995013587A1 (fr) Systeme de support pour le marketing et la publicite automatises
Moorthi et al. Improving business process by predicting customer needs based on seasonal analysis: the role of big data in e-commerce
Shen How small brands survive the social media firestorm through culture heritage: A case study of Irish fashion microblogging
Basir et al. Designing a model of customers' purchase intention with emphasis on social media: based on grounded theory.
Vassilakis et al. Database knowledge enrichment utilizing trending topics from Twitter
SANCHEZ-ARRIETA et al. The impact of corporate social responsibility communications on firms’ social capital development. A literature review
Farjoo et al. Design of a recommender system for online shopping using decision tree and Apriori algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221229

Address after: No. 269, Xiqing Road, Xiqing District, Tianjin 300122

Applicant after: TIANJIN TRANSPORTATION TECHNICAL College

Applicant after: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO.,LTD.

Address before: No.269 Xiqing Road, Xiqing District, Tianjin 300110

Applicant before: TIANJIN TRANSPORTATION TECHNICAL College

GR01 Patent grant
GR01 Patent grant