CN117312658A - 一种基于大数据分析的推广方法及系统 - Google Patents

一种基于大数据分析的推广方法及系统 Download PDF

Info

Publication number
CN117312658A
CN117312658A CN202311156168.7A CN202311156168A CN117312658A CN 117312658 A CN117312658 A CN 117312658A CN 202311156168 A CN202311156168 A CN 202311156168A CN 117312658 A CN117312658 A CN 117312658A
Authority
CN
China
Prior art keywords
user
content
tag
pushed
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311156168.7A
Other languages
English (en)
Other versions
CN117312658B (zh
Inventor
宋瑞银
朱鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Fengteng Network Technology Co ltd
Original Assignee
Guangzhou Fengteng Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Fengteng Network Technology Co ltd filed Critical Guangzhou Fengteng Network Technology Co ltd
Priority to CN202311156168.7A priority Critical patent/CN117312658B/zh
Publication of CN117312658A publication Critical patent/CN117312658A/zh
Application granted granted Critical
Publication of CN117312658B publication Critical patent/CN117312658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于大数据分析的推广方法及系统,方法包括:采集待推送用户数据;并从推广端获取待推送内容的内容素材;基于浏览历史数据,筛选出用户对应的多个基础标签,生成标签集合;对内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;将各内容标签组对应的图像素材和音频素材,推送至对应用户的用户端。实施本申请,只需要对用户筛选对应的基础标签,构建标签集合,进而可以便捷地将相同内容发送给同一标签组所对应的用户,而无需对每个用户均进行单独地、针对性的画像分析,也无需将画像多次与待推送内容进行匹配,减少服务器执行一些步骤的重复次数,而无需占用大量的计算资源。

Description

一种基于大数据分析的推广方法及系统
技术领域
本发明涉及数据推广领域,尤其涉及一种基于大数据分析的推广方法及系统。
背景技术
随着互联网技术的发展,人们习惯了通过互联网获取信息。各大社区、论坛或各官方网站,成为了人们获取信息的主要途径。而如何对用户数据进行分析、针对性推送用户的喜好内容成为了这些网站的重要运营内容。
目前,主流网站主要是依据浏览历史信息对用户进行画像,从而分析用户的浏览偏好和感兴趣的内容。但是,这种方式需要对每个用户单独进行画像,再单独进行针对性推送,并且考虑到浏览历史信息本身所包含内容的局限性(考虑用户隐私,可获取的数据有限),导致对用户的画像精细度有限,会存在对大量不同用户推送相同内容的情况,而服务器需要多次执行对用户进行画像,以及将画像多次与待推送内容进行匹配等步骤,该过程十分繁琐,因此需要占用大量的计算资源。
发明内容
本发明提供了一种基于大数据分析的推广方法及系统,以解决现有技术需要占用大量计算资源的技术问题。
为了解决上述技术问题,本发明实施例提供了一种基于大数据分析的推广方法,包括:
在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应;
基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像;
依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应;
将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。
作为优选方案,所述基础标签的类型包括浏览内容标签、网站类型标签和用户信息标签,且所述浏览内容标签、网站类型标签和用户信息标签均为预先构建的;所述用户信息标签依据经过授权的用户信息构建得到,所述用户信息包括用户的性别、年龄和职业;
所述基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,包括:
对所述浏览历史数据所涉及的网站进行分类;其中,网站的类型包括新闻资讯类、论坛社区类、电子商务类、博客个人类、视频音乐类和搜索引擎类;
将所述预设时间段内占比最高的网站类型所对应的基础标签,确定为所述待推送用户所对应的网站类型标签;
依据确定的所述待推送用户所对应的网站类型标签,检索预设数据库,筛选出对应的网络链接;其中,在所述网站类型标签构建的过程中,所述网络链接还与所述网站类型标签具有映射关系;
通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,依据识别到的产品类型筛选出所述待推送用户所对应的浏览内容标签;
依据筛选出的浏览内容标签和网站类型标签,结合所述待推送用户所对应的用户信息标签,生成与待推送用户分别对应的标签集合。
作为优选方案,所述通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,包括:
从预设数据库中选取检测函数对产品进行特征提取,实时提取出产品的不连续角点;其中,每一产品类型对应一个检测函数;
计算同一产品各角点之间的距离,获得多个距离值;
根据所述多个距离值,计算各距离值之间的相对系数;
根据所述各距离值以及各相对系数,通过检索确定产品类型。
作为优选方案,所述依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合之前,还包括:
从所述浏览历史数据中获取内容文本;
对所述内容文本进行分词,获得若干个词,并对各词依据词频从大到小进行依次排序;
从所述若干个词中,根据排序结果,提取与各词性分别对应地特征,并分别构建各词性对应的特征词集合;
通过预先训练好的多个分类器,分别对各特征词集合进行情绪分类,获得情绪分类结果;其中,每个词性对应一个分类器;所述情绪分类结果包括各种情绪的占比;
实时更新所述情绪分类结果,并确定所述情绪分类结果中当前时刻最大占比的情绪类型;
依据所述当前时刻最大占比的情绪类型,实时更新所述待推送用户分别对应的标签集合。
作为优选方案,所述特征集合划分为五种情绪机制,所述确定所述情绪分类结果中当前时刻最大占比的情绪类型,具体为:
根据下式计算情绪类型n的占比Qn
其中,m表示共计m种情绪类型,In4表示第n种情绪类型的第4层情绪机制所对应的预测值,In5表示第n种情绪类型的第5层情绪机制所对应的预测值,Im4指第m种情绪类型的第4层情绪机制所对应的预测值,Im5指第m种情绪类型的第5层情绪机制所对应的预测值。
作为优选方案,所述将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端,包括:
根据所述内容标签组所对应的一个或多个标签集合,通过所述用户标识与各标签集合之间的对应关系,确定需要推送的用户所对应的用户标识;
通过确定需要推送的用户标识,追溯到对应的用户端;其中,所述用户标识包括设备ID或设备编号;
将所述内容标签组对应的图像素材和音频素材,推送到追溯到的用户端。
作为优选方案,所述在用户端滚动采集待推送用户于预设时间段内的用户数据,包括:
根据用户端的存储数据量,设置一时间窗口;
在检测到用户的浏览行为时,记录当前的第一时间点,并根据所述用户端的存储数据量,记录第二时间点;其中,所述第二时间点在所述第一时间点之前;
根据所述第一时间点和所述第二时间点,设置所述预设时间段;
通过所述时间窗口,在所述预设时间段内滚动采集待推送用户的用户数据。
相应的,本发明实施例还提供了一种基于大数据分析的推广系统,包括获取模块、构建模块、遍历模块和推广模块;其中,
所述获取模块,用于在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应;
所述构建模块,用于基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像;
所述遍历模块,用于依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应;
所述推广模块,用于将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。
作为优选方案,所述基础标签的类型包括浏览内容标签、网站类型标签和用户信息标签,且所述浏览内容标签、网站类型标签和用户信息标签均为预先构建的;所述用户信息标签依据经过授权的用户信息构建得到,所述用户信息包括用户的性别、年龄和职业;
所述构建模块基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,包括:
所述构建模块对所述浏览历史数据所涉及的网站进行分类;其中,网站的类型包括新闻资讯类、论坛社区类、电子商务类、博客个人类、视频音乐类和搜索引擎类;
将所述预设时间段内占比最高的网站类型所对应的基础标签,确定为所述待推送用户所对应的网站类型标签;
依据确定的所述待推送用户所对应的网站类型标签,检索预设数据库,筛选出对应的网络链接;其中,在所述网站类型标签构建的过程中,所述网络链接还与所述网站类型标签具有映射关系;
通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,依据识别到的产品类型筛选出所述待推送用户所对应的浏览内容标签;
依据筛选出的浏览内容标签和网站类型标签,结合所述待推送用户所对应的用户信息标签,生成与待推送用户分别对应的标签集合。
作为优选方案,所述构建模块通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,包括:
所述构建模块从预设数据库中选取检测函数对产品进行特征提取,实时提取出产品的不连续角点;其中,每一产品类型对应一个检测函数;
计算同一产品各角点之间的距离,获得多个距离值;
根据所述多个距离值,计算各距离值之间的相对系数;
根据所述各距离值以及各相对系数,通过检索确定产品类型。
作为优选方案,所述推广系统还包括更新模块,所述更新模块用于所述依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合之前:
从所述浏览历史数据中获取内容文本;
对所述内容文本进行分词,获得若干个词,并对各词依据词频从大到小进行依次排序;
从所述若干个词中,根据排序结果,提取与各词性分别对应地特征,并分别构建各词性对应的特征词集合;
通过预先训练好的多个分类器,分别对各特征词集合进行情绪分类,获得情绪分类结果;其中,每个词性对应一个分类器;所述情绪分类结果包括各种情绪的占比;
实时更新所述情绪分类结果,并确定所述情绪分类结果中当前时刻最大占比的情绪类型;
依据所述当前时刻最大占比的情绪类型,实时更新所述待推送用户分别对应的标签集合。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提供了一种基于大数据分析的推广方法及系统,所述推广方法包括:在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应;基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像;依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应;将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。实施本申请实施例,通过对内容素材进行遍历,确定内容标签组与标签集合之间的关系,然后将图像素材和音频素材通过用户标识推送至标签结合所对应的一个或多个待推送用户,在该过程中只需要对用户筛选对应的基础标签,构建标签集合,进而可以便捷地将相同内容发送给同一标签组所对应的用户,而无需对每个用户均进行单独地、针对性的画像分析,也无需将画像多次与待推送内容进行匹配,减少服务器执行一些步骤的重复次数,而无需占用大量的计算资源。
附图说明
图1:为本发明基于大数据分析提供的推广方法的一种实施例的流程示意图。
图2:为本发明基于大数据分析提供的推广系统的一种实施例的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参照图1,图1为本发明实施例提供的一种基于大数据分析的推广方法,包括步骤S1至步骤S4;其中,
步骤S1,在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应。
在本实施例中,所述在用户端滚动采集待推送用户于预设时间段内的用户数据,包括:
根据用户端的存储数据量,设置一时间窗口;
在检测到用户的浏览行为时,可以触发记录功能,记录当前时刻为第一时间点,并根据所述用户端的存储数据量,记录第二时间点;其中,所述第二时间点在所述第一时间点之前;
根据所述第一时间点和所述第二时间点连成的时间区间,设置为所述预设时间段;
通过所述时间窗口,在所述预设时间段内滚动采集待推送用户的用户数据。在本实施例中,该时间窗口是用于滚动采集数据的,譬如所述预设时间段为1天,该时间窗口为1h,此时可以通过这个1h的时间窗口滚动采集这一天内的数据。而时间窗口的长度根据用户端的存储数据量考虑,在此之外,还可以结合考虑设备的存储空间以确定时间窗口的长度(考虑采集的数据量)。这样,设置的时间窗口可以更具合理性,同时通过这种基于时间窗口的数据采集方式,可以采集到需要的数据,而放弃无效的数据,提高用户数据集整体的有效性。
进一步地,所述用户数据包括浏览历史数据和用户标识。用户标识具体为设备的ID或设备对应的编号。在本实施例中,所述基于大数据分析的推广方法可以基于一个推广平台实现。所述推广平台包括用户端、推广端和服务器,而本实施例所述的基于大数据分析的推广方法可以应用于所述服务端。本实施例的用户端可以包含若干个,具体为一种终端设备,设备的信息通常包含设备ID。另一方面,由于用户端有多个,在对设备进行管理时,为了信息追溯的方便,可以为设备依次编号,例如1,2,3,…,N等如此类推。而上述的设备ID或编号,可以作为设备的唯一标识。
本实施例的内容素材包含若干内容标签组、图像素材和音频素材。而内容标签组与图像素材以及音频素材对应。内容标签组可以通过预先构建好的若干标签进行构建。这样,在对步骤S2通过匹配度确定内容标签组对应的一个或多个标签集合时,不需要临时进行设置,而直接调用预先构建好的内容标签组,使得内容标签组在多次的推广中可以重复利用,减少计算资源的消耗,也进一步解决了推广过程的繁琐的问题。
步骤S2,基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像。
在本实施例中,所述基础标签的类型包括浏览内容标签、网站类型标签和用户信息标签,且所述浏览内容标签、网站类型标签和用户信息标签均为预先构建的;所述用户信息标签依据经过授权的用户信息构建得到(为了符合相关法律法规),所述用户信息包括用户的性别、年龄和职业;
考虑到用户可能会浏览到不同类型的网站以及内容,所述基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,包括:
对所述浏览历史数据所涉及的各网站分别进行分类;其中,网站的类型包括但不限于新闻资讯类、论坛社区类、电子商务类、博客个人类、视频音乐类和搜索引擎类;
将所述预设时间段内用户浏览时间占比最高的网站类型所对应的基础标签筛选出来,并将筛选出的基础标签确定为所述待推送用户所对应的网站类型标签;
依据确定的所述待推送用户所对应的网站类型标签,检索预设数据库,筛选出对应的网络链接;其中,在所述网站类型标签构建的过程中,所述网络链接还与所述网站类型标签具有映射关系,此时依据网站类型标签,可以检索出多个网络链接;
通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,依据识别到的产品类型筛选出所述待推送用户所对应的浏览内容标签;
依据筛选出的浏览内容标签和网站类型标签,结合所述待推送用户所对应的用户信息标签,生成与待推送用户分别对应的标签集合。需要说明的是,由于基础标签均是预先构建好的,并且在应用程序中用户量较大的情况下,用户的浏览行为可能相似甚至相同,此时可能会出现其对应的标签集合相同。此时通过构建标签集合,并实施步骤S3和S4,可以对相同标签集合的用户推送相同的内容,而无需重复执行用户画像(只需要标签集,而不需要利用标签集进行用户画像分析)等步骤,以减小服务器的负担。
作为一种优选实施方式,所述通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,包括:
从预设数据库中选取检测函数对产品进行特征提取,实时提取出产品的不连续角点;其中,每一产品类型对应一个检测函数;
计算同一产品各角点之间的距离,获得多个距离值;
根据所述多个距离值,计算各距离值之间的相对系数;
根据所述各距离值以及各相对系数,通过检索确定产品类型。譬如,一个产品有a1,a2,a3,…,an等多个角点,此时计算各角点两两之间的距离值s1,s2,s3,…,sk等。然后,各距离值之间可以计算出若干的相对系数,譬如相对系数m1=s2/s1,此外还有m2,m3,…,mp等,由此,可以得到多个相对系数。基于各距离值以及各相对系数,并将这两类值的集合作为产品的参数,与预设数据库中预先存储的参数值进行匹配,检索到相似程度最高者确定为产品类型。相比现有的产品图像搜索技术,可以精确识别产品类型,减小外观相似的产品类型之间的误差。
步骤S3,依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应。
作为本实施例的一种优选实施方式,步骤S3所述依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合之前,还包括:
从所述浏览历史数据中获取内容文本;
对所述内容文本进行分词,获得若干个词,并对各词依据词频从大到小进行依次排序;
从所述若干个词中,根据排序结果,提取与各词性分别对应地特征,并分别构建各词性对应的特征词集合;
通过预先训练好的多个分类器,分别对各特征词集合进行情绪分类,获得情绪分类结果;其中,每个词性对应一个分类器;所述情绪分类结果包括各种情绪的占比;本实施例中情绪的类型包括但不限于悲伤、内疚、失望、惊奇、思念、慌、羞和愤怒等。
实时更新所述情绪分类结果,并确定所述情绪分类结果中当前时刻最大占比的情绪类型;
依据所述当前时刻最大占比的情绪类型,实时更新所述待推送用户分别对应的标签集合。实施本申请实施例,可以针对用户不同的情绪/情感,自适应地推送相应的内容,实现个性化的推广。此外,还可以对浏览历史数据的主题、浏览历史数据中体现出的用户的兴趣进行分析,调整对标签集合的更新策略,以进一步提高推送内容的针对性。
在本实施例中,所述特征集合划分为五种情绪机制,所述确定所述情绪分类结果中当前时刻最大占比的情绪类型,具体为:
根据下式计算情绪类型n的占比Qn
其中,m表示共计m种情绪类型,In4表示第n种情绪类型的第4层情绪机制所对应的预测值,In5表示第n种情绪类型的第5层情绪机制所对应的预测值,Im4指第m种情绪类型的第4层情绪机制所对应的预测值,Im5指第m种情绪类型的第5层情绪机制所对应的预测值。进一步地,本和实施例分类器输出的预测值可以通过一些现有的效果评价指标例如准确率或召回率等进行评价,在确定该分类器的性能符合要求时,再对其进行采用。
步骤S4,将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。
在本实施例中,根据所述内容标签组所对应的一个或多个标签集合,通过所述用户标识与各标签集合之间的对应关系,确定需要推送的用户所对应的用户标识;
通过确定需要推送的用户标识,追溯到对应的用户端;其中,所述用户标识包括设备ID或设备编号;
将所述内容标签组对应的图像素材和音频素材,推送到追溯到的用户端。这样,可以便捷地将相同内容发送给同一标签组所对应的用户,而无需对每个用户均进行单独地、针对性的画像分析,减少所需的服务器计算资源。
相应的,参照图2,本发明实施例还提供了一种基于大数据分析的推广系统,包括获取模块101、构建模块102、遍历模块103和推广模块104;其中,
所述获取模块101,用于在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应;
所述构建模块102,用于基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像;
所述遍历模块103,用于依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应;
所述推广模块104,用于将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。
作为优选方案,所述基础标签的类型包括浏览内容标签、网站类型标签和用户信息标签,且所述浏览内容标签、网站类型标签和用户信息标签均为预先构建的;所述用户信息标签依据经过授权的用户信息构建得到,所述用户信息包括用户的性别、年龄和职业;
所述构建模块102基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,包括:
所述构建模块102对所述浏览历史数据所涉及的网站进行分类;其中,网站的类型包括新闻资讯类、论坛社区类、电子商务类、博客个人类、视频音乐类和搜索引擎类;
将所述预设时间段内占比最高的网站类型所对应的基础标签,确定为所述待推送用户所对应的网站类型标签;
依据确定的所述待推送用户所对应的网站类型标签,检索预设数据库,筛选出对应的网络链接;其中,在所述网站类型标签构建的过程中,所述网络链接还与所述网站类型标签具有映射关系;
通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,依据识别到的产品类型筛选出所述待推送用户所对应的浏览内容标签;
依据筛选出的浏览内容标签和网站类型标签,结合所述待推送用户所对应的用户信息标签,生成与待推送用户分别对应的标签集合。
作为优选方案,所述构建模块102通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,包括:
所述构建模块102从预设数据库中选取检测函数对产品进行特征提取,实时提取出产品的不连续角点;其中,每一产品类型对应一个检测函数;
计算同一产品各角点之间的距离,获得多个距离值;
根据所述多个距离值,计算各距离值之间的相对系数;
根据所述各距离值以及各相对系数,通过检索确定产品类型。
作为优选方案,所述推广系统还包括更新模块,所述更新模块用于所述依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合之前:
从所述浏览历史数据中获取内容文本;
对所述内容文本进行分词,获得若干个词,并对各词依据词频从大到小进行依次排序;
从所述若干个词中,根据排序结果,提取与各词性分别对应地特征,并分别构建各词性对应的特征词集合;
通过预先训练好的多个分类器,分别对各特征词集合进行情绪分类,获得情绪分类结果;其中,每个词性对应一个分类器;所述情绪分类结果包括各种情绪的占比;
实时更新所述情绪分类结果,并确定所述情绪分类结果中当前时刻最大占比的情绪类型;
依据所述当前时刻最大占比的情绪类型,实时更新所述待推送用户分别对应的标签集合。
作为一种优选实施方式,所述特征集合划分为五种情绪机制,所述更新模块确定所述情绪分类结果中当前时刻最大占比的情绪类型,具体为:
所述更新模块根据下式计算情绪类型n的占比Qn
其中,m表示共计m种情绪类型,In4表示第n种情绪类型的第4层情绪机制所对应的预测值,In5表示第n种情绪类型的第5层情绪机制所对应的预测值,Im4指第m种情绪类型的第4层情绪机制所对应的预测值,Im5指第m种情绪类型的第5层情绪机制所对应的预测值。
作为一种优选实施方式,所述推广模块104将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端,包括:
所述推广模块104根据所述内容标签组所对应的一个或多个标签集合,通过所述用户标识与各标签集合之间的对应关系,确定需要推送的用户所对应的用户标识;
通过确定需要推送的用户标识,追溯到对应的用户端;其中,所述用户标识包括设备ID或设备编号;
将所述内容标签组对应的图像素材和音频素材,推送到追溯到的用户端。
相比于现有技术,本发明实施例具有如下有益效果:
本发明提供了一种基于大数据分析的推广方法及系统,所述推广方法包括:在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应;基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像;依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应;将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。实施本申请实施例,通过对内容素材进行遍历,确定内容标签组与标签集合之间的关系,然后将图像素材和音频素材通过用户标识推送至标签结合所对应的一个或多个待推送用户,在该过程中只需要对用户筛选对应的基础标签,构建标签集合,进而可以便捷地将相同内容发送给同一标签组所对应的用户,而无需对每个用户均进行单独地、针对性的画像分析,也无需将画像多次与待推送内容进行匹配,减少服务器执行一些步骤的重复次数,而无需占用大量的计算资源。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据分析的推广方法,其特征在于,包括:
在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应;
基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像;
依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应;
将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。
2.如权利要求1所述的一种基于大数据分析的推广方法,其特征在于,所述基础标签的类型包括浏览内容标签、网站类型标签和用户信息标签,且所述浏览内容标签、网站类型标签和用户信息标签均为预先构建的;所述用户信息标签依据经过授权的用户信息构建得到,所述用户信息包括用户的性别、年龄和职业;
所述基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,包括:
对所述浏览历史数据所涉及的网站进行分类;其中,网站的类型包括新闻资讯类、论坛社区类、电子商务类、博客个人类、视频音乐类和搜索引擎类;
将所述预设时间段内占比最高的网站类型所对应的基础标签,确定为所述待推送用户所对应的网站类型标签;
依据确定的所述待推送用户所对应的网站类型标签,检索预设数据库,筛选出对应的网络链接;其中,在所述网站类型标签构建的过程中,所述网络链接还与所述网站类型标签具有映射关系;
通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,依据识别到的产品类型筛选出所述待推送用户所对应的浏览内容标签;
依据筛选出的浏览内容标签和网站类型标签,结合所述待推送用户所对应的用户信息标签,生成与待推送用户分别对应的标签集合。
3.如权利要求2所述的一种基于大数据分析的推广方法,其特征在于,所述通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,包括:
从预设数据库中选取检测函数对产品进行特征提取,实时提取出产品的不连续角点;其中,每一产品类型对应一个检测函数;
计算同一产品各角点之间的距离,获得多个距离值;
根据所述多个距离值,计算各距离值之间的相对系数;
根据所述各距离值以及各相对系数,通过检索确定产品类型。
4.如权利要求1所述的一种基于大数据分析的推广方法,其特征在于,所述依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合之前,还包括:
从所述浏览历史数据中获取内容文本;
对所述内容文本进行分词,获得若干个词,并对各词依据词频从大到小进行依次排序;
从所述若干个词中,根据排序结果,提取与各词性分别对应地特征,并分别构建各词性对应的特征词集合;
通过预先训练好的多个分类器,分别对各特征词集合进行情绪分类,获得情绪分类结果;其中,每个词性对应一个分类器;所述情绪分类结果包括各种情绪的占比;
实时更新所述情绪分类结果,并确定所述情绪分类结果中当前时刻最大占比的情绪类型;
依据所述当前时刻最大占比的情绪类型,实时更新所述待推送用户分别对应的标签集合。
5.如权利要求4所述的一种基于大数据分析的推广方法,其特征在于,所述特征集合划分为五种情绪机制,所述确定所述情绪分类结果中当前时刻最大占比的情绪类型,具体为:
根据下式计算情绪类型n的占比Qn
其中,m表示共计m种情绪类型,In4表示第n种情绪类型的第4层情绪机制所对应的预测值,In5表示第n种情绪类型的第5层情绪机制所对应的预测值,Im4指第m种情绪类型的第4层情绪机制所对应的预测值,Im5指第m种情绪类型的第5层情绪机制所对应的预测值。
6.如权利要求1所述的一种基于大数据分析的推广方法,其特征在于,所述将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端,包括:
根据所述内容标签组所对应的一个或多个标签集合,通过所述用户标识与各标签集合之间的对应关系,确定需要推送的用户所对应的用户标识;
通过确定需要推送的用户标识,追溯到对应的用户端;其中,所述用户标识包括设备ID或设备编号;
将所述内容标签组对应的图像素材和音频素材,推送到追溯到的用户端。
7.一种基于大数据分析的推广系统,其特征在于,包括获取模块、构建模块、遍历模块和推广模块;其中,
所述获取模块,用于在用户端滚动采集待推送用户于预设时间段内的用户数据;并从推广端获取待推送内容的内容素材;其中,所述用户数据包括浏览历史数据和用户标识;所述内容素材包括若干内容标签组、图像素材和音频素材;所述内容标签组与图像素材以及音频素材对应;
所述构建模块,用于基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,并构建每一所述用户标识与各标签集合之间的对应关系;其中,所述标签集合用于对用户进行画像;
所述遍历模块,用于依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合;其中,在所述内容标签组与标签集合的匹配度大于等于预设阈值时,则判断两者对应;
所述推广模块,用于将各所述内容标签组对应的图像素材和音频素材,通过所述用户标识分别推送至对应标签集合所对应的一个或多个待推送用户所对应的用户端。
8.如权利要求7所述的一种基于大数据分析的推广系统,其特征在于,所述基础标签的类型包括浏览内容标签、网站类型标签和用户信息标签,且所述浏览内容标签、网站类型标签和用户信息标签均为预先构建的;所述用户信息标签依据经过授权的用户信息构建得到,所述用户信息包括用户的性别、年龄和职业;
所述构建模块基于所述浏览历史数据,筛选出所述待推送用户对应的多个基础标签,生成与每一待推送用户分别对应的标签集合,包括:
所述构建模块对所述浏览历史数据所涉及的网站进行分类;其中,网站的类型包括新闻资讯类、论坛社区类、电子商务类、博客个人类、视频音乐类和搜索引擎类;
将所述预设时间段内占比最高的网站类型所对应的基础标签,确定为所述待推送用户所对应的网站类型标签;
依据确定的所述待推送用户所对应的网站类型标签,检索预设数据库,筛选出对应的网络链接;其中,在所述网站类型标签构建的过程中,所述网络链接还与所述网站类型标签具有映射关系;
通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,依据识别到的产品类型筛选出所述待推送用户所对应的浏览内容标签;
依据筛选出的浏览内容标签和网站类型标签,结合所述待推送用户所对应的用户信息标签,生成与待推送用户分别对应的标签集合。
9.如权利要求8所述的一种基于大数据分析的推广系统,其特征在于,所述构建模块通过图像识别技术,实时识别出所述浏览历史数据中所涉及的产品类型,包括:
所述构建模块从预设数据库中选取检测函数对产品进行特征提取,实时提取出产品的不连续角点;其中,每一产品类型对应一个检测函数;
计算同一产品各角点之间的距离,获得多个距离值;
根据所述多个距离值,计算各距离值之间的相对系数;
根据所述各距离值以及各相对系数,通过检索确定产品类型。
10.如权利要求7所述的一种基于大数据分析的推广系统,其特征在于,所述遍历模块依据所述标签集合对所述内容素材进行遍历,分别确定各内容标签组对应的一个或多个标签集合之前,还包括:
从所述浏览历史数据中获取内容文本;
对所述内容文本进行分词,获得若干个词,并对各词依据词频从大到小进行依次排序;
从所述若干个词中,根据排序结果,提取与各词性分别对应地特征,并分别构建各词性对应的特征词集合;
通过预先训练好的多个分类器,分别对各特征词集合进行情绪分类,获得情绪分类结果;其中,每个词性对应一个分类器;所述情绪分类结果包括各种情绪的占比;
实时更新所述情绪分类结果,并确定所述情绪分类结果中当前时刻最大占比的情绪类型;
依据所述当前时刻最大占比的情绪类型,实时更新所述待推送用户分别对应的标签集合。
CN202311156168.7A 2023-09-08 2023-09-08 一种基于大数据分析的推广方法及系统 Active CN117312658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311156168.7A CN117312658B (zh) 2023-09-08 2023-09-08 一种基于大数据分析的推广方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311156168.7A CN117312658B (zh) 2023-09-08 2023-09-08 一种基于大数据分析的推广方法及系统

Publications (2)

Publication Number Publication Date
CN117312658A true CN117312658A (zh) 2023-12-29
CN117312658B CN117312658B (zh) 2024-04-09

Family

ID=89254451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311156168.7A Active CN117312658B (zh) 2023-09-08 2023-09-08 一种基于大数据分析的推广方法及系统

Country Status (1)

Country Link
CN (1) CN117312658B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095508A (zh) * 2015-08-31 2015-11-25 北京奇艺世纪科技有限公司 一种多媒体内容推荐方法和多媒体内容推荐装置
KR20190128978A (ko) * 2018-05-09 2019-11-19 한국과학기술원 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템
CN111210258A (zh) * 2019-12-23 2020-05-29 北京三快在线科技有限公司 广告投放方法、装置、电子设备及可读存储介质
US20210406736A1 (en) * 2020-06-26 2021-12-30 Rekammend Inc. System and method of content recommendation
CN115687790A (zh) * 2022-12-01 2023-02-03 松原市逐贵网络科技有限公司 基于大数据的广告推送方法、系统及云平台
CN115982454A (zh) * 2022-12-20 2023-04-18 平安科技(深圳)有限公司 基于用户画像的问卷推送方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095508A (zh) * 2015-08-31 2015-11-25 北京奇艺世纪科技有限公司 一种多媒体内容推荐方法和多媒体内容推荐装置
KR20190128978A (ko) * 2018-05-09 2019-11-19 한국과학기술원 인간 감정 인식을 위한 딥 생리적 정서 네트워크를 이용한 인간 감정 추정 방법 및 그 시스템
CN111210258A (zh) * 2019-12-23 2020-05-29 北京三快在线科技有限公司 广告投放方法、装置、电子设备及可读存储介质
US20210406736A1 (en) * 2020-06-26 2021-12-30 Rekammend Inc. System and method of content recommendation
CN115687790A (zh) * 2022-12-01 2023-02-03 松原市逐贵网络科技有限公司 基于大数据的广告推送方法、系统及云平台
CN115982454A (zh) * 2022-12-20 2023-04-18 平安科技(深圳)有限公司 基于用户画像的问卷推送方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
乔绿茵;张敏;: "我国基于Folksonomy的标签推荐方法研究综述", 信息资源管理学报, no. 04, 26 December 2012 (2012-12-26) *
马晓悦;马昊;: "考虑标签情绪信息的图书资源个性化推荐方法研究", 情报理论与实践, no. 09, 24 September 2020 (2020-09-24) *

Also Published As

Publication number Publication date
CN117312658B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN108009228B (zh) 一种内容标签的设置方法、装置及存储介质
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
CN108694223B (zh) 一种用户画像库的构建方法及装置
CN104573054B (zh) 一种信息推送方法和设备
US7739221B2 (en) Visual and multi-dimensional search
US20080005105A1 (en) Visual and multi-dimensional search
CN107577759A (zh) 用户评论自动推荐方法
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
CN111309936A (zh) 一种电影用户画像的构建方法
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
EP2008199A2 (en) System and method of segmenting and tagging entities based on profile matching using a multi-media survey
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN115659008B (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN116561415A (zh) 基于大数据旅游推荐系统及方法
CN113806588A (zh) 搜索视频的方法和装置
CN115018255A (zh) 一种基于集成学习数据挖掘技术的旅游景区评价信息质量有效性分析方法
CN112269906B (zh) 网页正文的自动抽取方法及装置
JP2020521246A (ja) ネットワークアクセス可能なコンテンツの自動化された分類
CN117312658B (zh) 一种基于大数据分析的推广方法及系统
CN101655853A (zh) 建立模型的装置和方法
CN113902526B (zh) 基于人工智能的产品推荐方法、装置和计算机设备及介质
CN114827728A (zh) 节目数据推荐方法及系统
CN110110202A (zh) 一种信息流推送方法及装置
Sakthivelan et al. RETRACTED ARTICLE: A video analysis on user feedback based recommendation using A-FP hybrid algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant