CN114898246A - 一种基于大数据的用户分类方法、系统和装置 - Google Patents

一种基于大数据的用户分类方法、系统和装置 Download PDF

Info

Publication number
CN114898246A
CN114898246A CN202210381750.2A CN202210381750A CN114898246A CN 114898246 A CN114898246 A CN 114898246A CN 202210381750 A CN202210381750 A CN 202210381750A CN 114898246 A CN114898246 A CN 114898246A
Authority
CN
China
Prior art keywords
video
audience
user
data
big data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210381750.2A
Other languages
English (en)
Inventor
张征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Avanti Electronic Technology Co ltd
Original Assignee
Guangzhou Avanti Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Avanti Electronic Technology Co ltd filed Critical Guangzhou Avanti Electronic Technology Co ltd
Priority to CN202210381750.2A priority Critical patent/CN114898246A/zh
Publication of CN114898246A publication Critical patent/CN114898246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的用户分类方法、系统及装置,属于大数据分类处理技术领域,包括获取视频数据,同时从视频数据中提取观众数据,根据视频数据对视频进行标识处理,根据处理结果获取视频标签,从观众数据中提取观众信息和观众评论,对观众评论进行分词处理,根据分词处理结果对评论添加对应的线索标签,将评论线索标签结合视频标签和观众信息对观众进行分类,根据分类结果生成观众用户画像,本发明能生成用户画像,根据构建的用户画像,对用户的需求进行针对性的广告推荐,具有结构简单、设计合理、易于制造的优点。

Description

一种基于大数据的用户分类方法、系统和装置
技术领域
本发明属于大数据分类处理技术领域,具体地说,涉及一种基于大数据的用户分类方法、系统及装置。
背景技术
随着大数据时代的到来和用户在网上购物的流行,在大数据背景下,通过优秀的推荐算法对用户感兴趣的商品进行推荐,提高商品曝光率、增加用户购买量的行为已经成为了一个电子商务系统的基本功能之一,而对于用户购买行为的精准预测,构建精确的用户画像,反馈给市场、营销等人员,进行有针对性的商品销售,则是推荐算法的最终目标。
从海量的用户行为数据中快速地圈定符合业务要求的潜在客户已经成为数据价值挖掘的重要课题,对于精准营销、数据分析和用户推荐等领域而言,需要通过业务数据来预测需要的结果,如果商家可以掌握消费者的购买意愿,商家就可以合理地安排商品的库存。
目前,短视频和直播快速成为产品推广销售新渠道,越来越多的网络用户参与其中,然而,现有的电商推荐系统中,往往根据用户的购买行为基于协同过滤算法向用户推荐物品,但是用户在购买玩物品后,对于该物品的需求性会大大降低,导致对于固定产品去寻找潜在的客户缺少可行方案,现在商品推荐主要采用的是单一用户和单一商品直接进行匹配比对的方法,对于目前动辄上千万种类的商品和上千万用户来说,大幅提高了商品推荐的运行成本,同时不能准确的构建用户画像,导致商品广告推荐不能很好的推送给需要的用户。
发明内容
1、要解决的问题
针对现有商品推荐主要采用的是单一用户和单一商品直接进行匹配比对的方法,提高了商品推荐的运行成本,同时不能准确的构建用户画像,导致商品广告推荐不能很好的推送给需要的用户的问题,本发明提供一种基于大数据的用户分类方法、系统及装置。
2、技术方案
为解决上述问题,本发明采用如下的技术方案。
一种基于大数据的用户分类方法,采用以下步骤:
步骤1:获取视频数据,同时从视频数据中提取观众数据;
步骤2:根据步骤1获得的视频数据对视频进行标识处理,根据处理结果获取视频标签;
步骤3:从步骤1获得的观众数据中提取观众信息和观众评论;
步骤4:对步骤3获取的观众评论进行分词处理,根据分词处理结果对评论添加对应的线索标签;
步骤5:将步骤4获得的评论线索标签结合步骤2获得的视频标签和步骤3获得的观众信息对观众进行分类;
步骤6:根据步骤5的分类结果生成观众用户画像。
优选地,所述步骤1中获取的视频是从第三方媒体渠道平台采集的视频素材和直播视频。
为了获取大量的视频素材,优选地,所述步骤1中视频数据包括视频标题,视频时长,主播信息,视频IP地址,视频内容。
为了获取准确的视频标签,优选地,所述步骤2中对视频进行标识处理是对视频进行特征提取,特征提取后计算特征权重,特征权重大于预设阈值的特征作为视频标签,视频标签分为地区标签和品牌标签。
为了让分类结果更加准确,优选地,所述步骤3中观众信息包括用户昵称,用户编码,用户IP地址,用户历史标签和用户视频观看记录。
为了使得主播和用户所在地判断更加准确,进一步的,所述视频IP地址和所述用户IP地址会得到视频主播所在城市和用户所在城市,对主播和用户所在城市的城市名称进行标准化处理,结合国家城市编码映射出对应的城市编码。
为了让评率标签更加符合评论内容,优选地,所述步骤4中线索标签是通过得到观众评论中的关键词,根据关键词对该评论打上对应类别的线索标签。
为了生成更准确的用户画像,优选地,所述步骤5对观众进行分类是根据评论线索标签、视频标签和观众信息得到观众在预设时间范围内访问同类视频标签的访问次数,当访问次数超过预设次数是,判断该观众为当前视频标签的高频访问潜在客户,当用户的评论线索标签与视频标签的内容相符时,判断该用户当前视频标签的评论意向潜在客户。
一种基于大数据的用户分类系统,包括:
视频采集模块,用于从第三方平台采集获取视频数据;
数据分类模块,用于对视频数据进行分类,获得视频信息和观众信息和观众评论;
分词模块;用于对观众评论进行分词处理;
标识标签模块,用户对视频信息进行标识处理,获取视频标签,对分词模块处理的词句添加对应的线索标签;
观众分类模块,用于根据标识标签模块得到的视频标签和线索标签对用户进行分类,根据分类结果,生成观众用户画像。
一种基于大数据的用户分类装置,所述装置包括服务处理器和分布存储器,所述服务处理器连接所述存储器,所述分布存储器中存储有服务自管理程序,配置用于存储机器可读指令,所述服务处理器执行所述服务自管理程序,指令在由所述处理器执行时,以实现如上所述的基于大数据的用户分类方法。
一种基于大数据的用户分类方法、系统及装置,通过采集获取观众数据和视频数据,从观众数据中分析出观众的观看频率,发布的评论和弹幕,观众自身的信息,对观众发送的评论和弹幕进行分词处理,从中提取关键词,根据关键词对用户添加线索标签,从视频数据中分析得到视频标签,结合视频标签、用户标签判断用户是否为评论意向潜在客户,通过用户访问频率,判断用户是否为高频访问潜在客户,利用多维度数据:视频信息、用户信息、评论内容、用户历史行为提高潜在客户的圈选准确率,最终生成用户画像,根据构建的用户画像,对用户的需求进行针对性的广告推荐。
3、有益效果
相比于现有技术,本发明的有益效果为:
(1)本发明通过对视频进行标识处理,先对视频进行特征提取,在特征提取后计算特征权重,特征权重大于预设阈值的特征作为视频标签,得到视频的地区标签和品牌标签,通过特征得到视频标签,可以对该视频的观众进行更准确的分类;
(2)本发明对观众发送的评论和弹幕内容进行逐条处理,然后进行多轮分词处理,从评论中提取出更符合业务需求的分词结果,根据分词结果可以得到用户的需求,推送更符合用户需求的视频;
(3)本发明通过用户发送的评论数据判断该用户是否为当前视频标签的评论意向潜在客户,通过用户在预设时间范围内的访问次数判断该观众是否为当前视频标签的高频访问潜在客户,通过两种判断结果结合,可以生成更加准确的用户画像。
附图说明
为了更清楚地说明本申请实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。
图1为本发明的步骤示意图;
图2为本发明的流程示意图;
图3为本发明的系统结构示意图;
图4为本发明的设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例,通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例,基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例1
如图1所示,一种基于大数据的用户分类方法,具体流程如下:
建立视频数据库,从第三方媒体渠道平台采集视频素材和直播视频,将视频数据保存至视频数据库内,第三方媒体渠道平台分为短视频平台和直播视频平台,视频可以分为短视频数据和直播视频,将视频数据保存至数据库中,同时采用ApacheSpark技术从大规模直播互动数据中快速定位潜在客户数据,视频数据可以包括视频标题,视频时长,主播信息,视频IP地址,视频内容。
根据视频数据对视频进行标识处理,先对视频进行特征提取,特征提取后计算特征权重,特征权重大于预设阈值的特征作为视频标签,视频标签分为地区标签和品牌标签,采用TF-IDF算法和布尔权重法提取视频数据中的特征。
从观众数据中提取观众信息和观众评论,利用Spark实时数据处理技术对评论数据逐条处理,包括对观众信息、直播信息、观众评论三类数据进行标签加工和数据存储,观众信息包括用户昵称,用户编码,用户IP地址,用户历史标签和用户视频观看记录。
视频IP地址和用户IP地址会得到视频主播所在城市和用户所在城市,对主播和用户所在城市的城市名称进行标准化处理,结合国家城市编码映射出对应的城市编码。
采用HanLP分词工具对观众评论进行分词处理,根据分词处理结果对评论添加对应的线索标签,线索标签是通过得到观众评论中的关键词,根据关键词对该评论打上对应类别的线索标签,其中关键词的判别可以采用采用向量空间模型来判断获取,向量空间模型被广泛用于关键词检测中的文本表示,其在转化文本为向量表示的时候有着很强的优势,这大大方便了文本之间的相互计算,向量空间模型公式如下:
V(d)=(t1,w1(d);…;ti,wi(d);…;tn,wn(d))
其中V(d)是用户发送的评论生成的文本集合中每一条评论或弹幕d的一个范化矢量,ti是从评论或弹幕d中选出的特征项,wi(d)为ti在评论或弹幕d中的权重,该模型方便了文本之间的相互计算。
将评论线索标签结合视频标签和观众信息对观众进行分类,使用Spark批数据处理技术对观众数据和观众近30天的行为数据进行分析,从而圈选潜在客户,通过对观众进行分类是根据评论线索标签、视频标签和观众信息得到观众在预设时间范围内访问同类视频标签的访问次数,当访问次数超过预设次数是,判断该观众为当前视频标签的高频访问潜在客户,当用户的评论线索标签与视频标签的内容相符时,判断该用户为当前视频标签的评论意向潜在客户,否则,从标签化处理后历史评论数据中找出该用户最近30天在同品牌直播间的发送的评论数据,然后按以上逻辑分析该用户是否为当前品牌的评论意向潜在客户,根据分类结果生成观众用户画像。
通过上述描述可知,在本实例中,通过从第三方媒体渠道平台采集视频素材和直播视频,从视频素材中提取观众数据和视频数据,从观众数据中分析出观众的观看频率,发布的评论和弹幕,观众自身的信息,对观众发送的评论和弹幕进行分词处理,从中提取关键词,根据关键词对用户添加线索标签,从视频数据中分析得到视频标签,结合视频标签、用户标签判断用户是否为评论意向潜在客户,通过用户访问频率,判断用户是否为高频访问潜在客户,利用多维度数据:视频信息、用户信息、评论内容、用户历史行为提高潜在客户的圈选准确率,最终生成用户画像。
实施例2
如图2所示,一种基于大数据的用户分类系统,包括:
视频采集模块,用于从第三方平台采集获取视频数据;
数据分类模块,用于对视频数据进行分类,获得视频信息和观众信息和观众评论;
分词模块;用于对观众评论进行分词处理;
标识标签模块,用户对视频信息进行标识处理,获取视频标签,对分词模块处理的词句添加对应的线索标签;
观众分类模块,用于根据标识标签模块得到的视频标签和线索标签对用户进行分类,根据分类结果,生成观众用户画像。
通过上述描述可知,在本实例中,通过视频采集模块采集获取视频数据,使用数据分类模块对采集的视频数据进行分类,获得视频信息和观众信息和观众评论,使用分词模块对观众评论进行分词处理,标识标签模块获取视频标签和用户的线索标签,观众分类模块根据视频标签和线索标签对用户进行分类生成观众用户画像,从而圈选潜在客户。
实施例3
如图3所示,一种基于大数据的用户分类装置,所述装置包括服务处理器和分布存储器,所述服务处理器连接所述存储器,所述分布存储器中存储有服务自管理程序,配置用于存储机器可读指令,所述服务处理器执行所述服务自管理程序,指令在由所述处理器执行时,以实现如实施例1所述的基于大数据的用户分类方法。
通过上述描述可知,在本实例中,通过采集视频素材和直播视频,从视频素材中提取观众数据和视频数据,从观众数据中分析出观众的观看频率,发布的评论和弹幕,观众自身的信息,对观众发送的评论和弹幕进行分词处理,从中提取关键词,根据关键词对用户添加线索标签,从视频数据中分析得到视频标签,结合视频标签、用户标签判断用户是否为评论意向潜在客户,通过用户访问频率,判断用户是否为高频访问潜在客户,利用多维度数据:视频信息、用户信息、评论内容、用户历史行为提高潜在客户的圈选准确率,最终生成准确性较高用户画像。
以上所述实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。

Claims (10)

1.一种基于大数据的用户分类方法,其特征在于,采用以下步骤:
步骤1:获取视频数据,同时从视频数据中提取观众数据;
步骤2:根据步骤1获得的视频数据对视频进行标识处理,根据处理结果获取视频标签;
步骤3:从步骤1获得的观众数据中提取观众信息和观众评论;
步骤4:对步骤3获取的观众评论进行分词处理,根据分词处理结果对评论添加对应的线索标签;
步骤5:将步骤4获得的评论线索标签结合步骤2获得的视频标签和步骤3获得的观众信息对观众进行分类;
步骤6:根据步骤5的分类结果生成观众用户画像。
2.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤1中获取的视频是从第三方媒体渠道平台采集的视频素材和直播视频。
3.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤1中视频数据包括视频标题,视频时长,主播信息,视频IP地址,视频内容。
4.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤2中对视频进行标识处理是对视频进行特征提取,特征提取后计算特征权重,特征权重大于预设阈值的特征作为视频标签,视频标签分为地区标签和品牌标签。
5.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤3中观众信息包括用户昵称,用户编码,用户IP地址,用户历史标签和用户视频观看记录。
6.根据权利要求3和权利要求5所述的一种基于大数据的用户分类方法,其特征在于:所述视频IP地址和所述用户IP地址会得到视频主播所在城市和用户所在城市,对主播和用户所在城市的城市名称进行标准化处理,结合国家城市编码映射出对应的城市编码。
7.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤4中线索标签是通过得到观众评论中的关键词,根据关键词对该评论打上对应类别的线索标签。
8.根据权利要求1所述的一种基于大数据的用户分类方法,其特征在于:所述步骤5对观众进行分类是根据评论线索标签、视频标签和观众信息得到观众在预设时间范围内访问同类视频标签的访问次数,当访问次数超过预设次数是,判断该观众为当前视频标签的高频访问潜在客户,当用户的评论线索标签与视频标签的内容相符时,判断该用户当前视频标签的评论意向潜在客户。
9.一种基于大数据的用户分类系统,其特征在于,包括:
视频采集模块,用于从第三方平台采集获取视频数据;
数据分类模块,用于对视频数据进行分类,获得视频信息和观众信息和观众评论;
分词模块;用于对观众评论进行分词处理;
标识标签模块,用户对视频信息进行标识处理,获取视频标签,对分词模块处理的词句添加对应的线索标签;
观众分类模块,用于根据标识标签模块得到的视频标签和线索标签对用户进行分类,根据分类结果,生成观众用户画像。
10.一种基于大数据的用户分类装置,其特征在于,所述装置包括服务处理器和分布存储器,所述服务处理器连接所述存储器,所述分布存储器中存储有服务自管理程序,配置用于存储机器可读指令,所述服务处理器执行所述服务自管理程序,指令在由所述处理器执行时,以实现如权利要求1-8所述的基于大数据的用户分类方法。
CN202210381750.2A 2022-04-12 2022-04-12 一种基于大数据的用户分类方法、系统和装置 Pending CN114898246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210381750.2A CN114898246A (zh) 2022-04-12 2022-04-12 一种基于大数据的用户分类方法、系统和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210381750.2A CN114898246A (zh) 2022-04-12 2022-04-12 一种基于大数据的用户分类方法、系统和装置

Publications (1)

Publication Number Publication Date
CN114898246A true CN114898246A (zh) 2022-08-12

Family

ID=82717766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210381750.2A Pending CN114898246A (zh) 2022-04-12 2022-04-12 一种基于大数据的用户分类方法、系统和装置

Country Status (1)

Country Link
CN (1) CN114898246A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105142028A (zh) * 2015-07-29 2015-12-09 华中科技大学 面向三网融合的电视节目内容搜索与推荐方法
CN109831684A (zh) * 2019-03-11 2019-05-31 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN111815375A (zh) * 2020-09-04 2020-10-23 北京悠易网际科技发展有限公司 广告投放中的用户画像方法及装置
CN112070524A (zh) * 2020-07-24 2020-12-11 广州阿凡提电子科技有限公司 广告业务推荐方法、装置
CN113613075A (zh) * 2021-08-11 2021-11-05 苏州律点信息科技有限公司 一种视频推荐方法、装置及云服务器
CN114282054A (zh) * 2020-09-28 2022-04-05 苏宁云计算有限公司 一种视频推荐方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105142028A (zh) * 2015-07-29 2015-12-09 华中科技大学 面向三网融合的电视节目内容搜索与推荐方法
CN109831684A (zh) * 2019-03-11 2019-05-31 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN112070524A (zh) * 2020-07-24 2020-12-11 广州阿凡提电子科技有限公司 广告业务推荐方法、装置
CN111815375A (zh) * 2020-09-04 2020-10-23 北京悠易网际科技发展有限公司 广告投放中的用户画像方法及装置
CN114282054A (zh) * 2020-09-28 2022-04-05 苏宁云计算有限公司 一种视频推荐方法、装置、计算机设备和存储介质
CN113613075A (zh) * 2021-08-11 2021-11-05 苏州律点信息科技有限公司 一种视频推荐方法、装置及云服务器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张鸿涛编著: "《移动互联网》", 30 September 2018 *
曹琳,刘宇著: "《互联网处理技术与应用研究》", 30 June 2019 *
蒋加伏,朱前飞主编: "《Python程序设计基础》", 31 August 2019 *

Similar Documents

Publication Publication Date Title
CN110222272B (zh) 一种潜在客户挖掘与推荐方法
CN108154401B (zh) 用户画像刻画方法、装置、介质和计算设备
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
CN105989004B (zh) 一种信息投放的预处理方法和装置
CN108205768B (zh) 数据库建立方法和数据推荐方法及装置、设备和存储介质
US20190156395A1 (en) System and Method for Analyzing and Searching for Features Associated with Objects
US8380727B2 (en) Information processing device and method, program, and recording medium
CN109711867B (zh) 基于收视大数据的购物者画像构建营销方法和系统
CN112200601B (zh) 物品推荐方法、装置及可读存储介质
CN103886074A (zh) 基于社交媒体的商品推荐系统
KR20140026932A (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
CN112184290A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN116862592B (zh) 一种基于用户行为的sop私域营销信息自动推送方法
CN113191845A (zh) 一种在线直播购物平台数据分析处理方法、系统、设备和计算机存储介质
CN115544242B (zh) 基于大数据的同类商品选型推荐方法
CN113946754A (zh) 基于用户画像的权益推荐方法、装置、设备及存储介质
CN113516496A (zh) 广告转化率预估模型构建方法、装置、设备及其介质
CN108268519B (zh) 一种推荐网络对象的方法和装置
CN114201680A (zh) 一种向用户推荐营销产品内容的方法
CN116739836B (zh) 一种基于知识图谱的餐饮数据分析方法及系统
US20150142782A1 (en) Method for associating metadata with images
JP2005100221A (ja) 投資判断支援情報提供装置および方法
CN114898246A (zh) 一种基于大数据的用户分类方法、系统和装置
KR102429104B1 (ko) 인공지능에 기반한 상품 카탈로그 자동 분류 시스템
CN115563176A (zh) 一种电子商务数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220812