CN117076779A - 一种基于大数据分析的推广方法、装置、设备及存储介质 - Google Patents

一种基于大数据分析的推广方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117076779A
CN117076779A CN202311114425.0A CN202311114425A CN117076779A CN 117076779 A CN117076779 A CN 117076779A CN 202311114425 A CN202311114425 A CN 202311114425A CN 117076779 A CN117076779 A CN 117076779A
Authority
CN
China
Prior art keywords
user
data
different users
promoted
user group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311114425.0A
Other languages
English (en)
Inventor
柏坤
张梓尧
黄祖真
毕磊
黄琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Ronghe Beijing Technology Co ltd
Original Assignee
Zhongke Ronghe Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Ronghe Beijing Technology Co ltd filed Critical Zhongke Ronghe Beijing Technology Co ltd
Priority to CN202311114425.0A priority Critical patent/CN117076779A/zh
Publication of CN117076779A publication Critical patent/CN117076779A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Discrete Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于大数据分析的推广方法、装置、设备及存储介质,属于大数据技术领域。本申请实施例通过从各个地方收集不同类型的用户数据,采用不同的方法得到了用户的多种特征,然后采用图聚类算法得到单一特征对应的分组情况和组合特征对应的分组情况,这样通过多样化得分组方式,能够尽可能的得到多种多样的用户分组情况,之后再进一步按照用户的分组情况分析不同用户之间的相似情况,从而依据该相似情况再重新分组,也即对用户分组进行了精细处理,得到更加准确的用户分组情况,再基于重新分组情况进行数据推广,这样由于用户分组更加准确,将相似用户分到同一组,能够精准对用户进行推广,避免误推广的情况出现。

Description

一种基于大数据分析的推广方法、装置、设备及存储介质
技术领域
本申请涉及大数据技术领域,特别涉及一种基于大数据分析的推广方法、装置、设备及存储介质。
背景技术
随着移动互联网的快速发展,人们的信息获取途径和方式发生了巨大变革。用户的需求越来越多样化,对于信息的获取也变得更加迅速和便捷。为了满足用户的个性化需求,各大互联网企业纷纷采用推送技术为用户提供个性化的信息服务。
推送技术作为一种广泛应用的信息传递手段,其主要目的是将相关的信息内容推送给目标用户,以满足用户的需求。
目前的推广方法通常是根据用户的点击行为,为其推荐相同类型的数据,推广方式非常的单一,且对用户分析不足,经常无法获知用户真实需求。
发明内容
本申请实施例提供了一种基于大数据分析的推广方法、装置、设备及存储介质,能够达到精准推广效果。所述技术方案如下:
一方面,提供了一种基于大数据分析的推广方法,所述方法包括:
从社交网络平台、数据库获取用户数据,所述用户数据包括不同用户相关联的文本数据、图像数据和视频数据中至少两项;
对所述用户数据进行特征提取,得到不同用户的文本特征和图像特征;
利用分类算法、社区发现算法以及社区画像算法,根据所述用户数据中的显性信息和隐性信息,确定所述不同用户的画像特征2
通过图聚类算法,分别根据所述不同用户的文本特征、图像特征和画像特征,对所述不同用户进行分组,得到单一特征对应的第一用户分组;
通过图聚类算法,根据所述不同用户的文本特征、图像特征和画像特征的组合特征,对所述不同用户进行分组,得到所述组合特征对应的第二用户分组;
根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分,所述相似评分与所述概率或频次正相关;
通过所述不同用户之间的相似评分,对所述不同用户进行重新分组,得到多个第三用户分组;
根据待推广数据与所述多个第三用户分组的匹配程度,将所述待推广数据推广至所述多个第三用户分组中的目标用户分组。
在一些实施例中,所述利用分类算法、社区发现算法以及社区画像算法,根据所述用户数据中的显性信息和隐性信息,确定所述不同用户的画像特征,包括:
利用分类算法和社区发现算法,分别根据所述用户数据中的显性信息和隐性信息,划分得到显性社区和隐形社区;
基于用户相似性和社区差异性的画像方法,对所述显性社区和隐形社区中的用户进行社区画像,得到所述不同用户的画像特征。
在一些实施例中,所述根据待推广数据与所述多个第三用户分组的匹配程度,将所述待推广数据推广至所述多个第三用户分组中的目标用户分组,包括:
对每个第三用户分组中不同用户的文本特征、图像特征和画像特征进行共享,得到每个第三用户分组的共享特征;
对所述待推广数据与所述每个第三用户分组的共享特征进行匹配,得到每个第三用户分组与所述待推广数据的匹配程度;
将匹配程度符合目标匹配条件的第三用户分组确定为目标用户分组;
将所述待推广数据推广至所述目标用户分组。
在一些实施例中,所述对所述待推广数据与所述每个第三用户分组的共享特征进行匹配,得到每个第三用户分组与所述待推广数据的匹配程度,包括:
将所述待推广数据与所述每个第三用户分组的共享特征输入卷积神经网络CNN模型中,由所述CNN模型对所述待推广数据与所述每个第三用户分组的共享特征进行特征提取,得到多模态特征;
将提取的多模态特征输入长短期记忆LSTM网络中,由所述LSTM网络对所述多模态特征进行处理输出多模态长期特征;
将所述多模态长期特征输入全连接层,输出所述每个第三用户分组与所述待推广数据的匹配程度。
在一些实施例中,所述根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分,包括:
对所述第一用户分组和所述第二用户分组中任两个用户分组进行重合率计算,得到所述任两个用户分组之间的重合率;
响应于所述任两个用户分组之间的重合率大于或等于目标重合率,将所述任两个用户分组合并为一个用户分组;
基于合并后的用户分组,执行所述根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分的步骤。
在一些实施例中,所述任两个用户分组之间的重合率通过下述公式一计算:
J(Ai,Aj)=Ai∩Aj/Ai∪Aj, 公式一
其中,Ai为任一用户分组,Aj为区别于Ai的另一用户分组,i和j为用户分组标识,J(Ai,Aj)为用户分组Ai和用户分组Aj之间的重合率,所述J(Ai,Aj)的值域为[0,1]。
在一些实施例中,所述方法还包括:
通过下述公式二,计算所述待推广数据的展示完整率:
Q=Pv/Bv, 公式二
其中,Pv为所述待推广数据的完整展示次数,Bv为所述待推广数据的次数;
根据所述待推广数据的展示完整率,通过下述公式三,确定本次推广的误差率:
其中,E为本次推广的误差率,E的值域为(0,1),Qi为用户i观看所述待推广数据的播放率;
所述Qpred通过下述公式四确定:
Qpred=Ti/(1-U0), 公式四
其中,Ti为用户i观看所述待推广数据的时长,U0为所述待推广数据与所述目标用户分组的匹配程度;
基于所述本次推广的误差率,对所述第三用户分组的分组情况进行修正。
一方面,提供了一种基于大数据分析的推广装置,所述装置包括:
获取模块,用于从社交网络平台、数据库获取用户数据,所述用户数据包括不同用户相关联的文本数据、图像数据和视频数据中至少两项;
提取模块,用于对所述用户数据进行特征提取,得到不同用户的文本特征和图像特征;
确定模块,用于利用分类算法、社区发现算法以及社区画像算法,根据所述用户数据中的显性信息和隐性信息,确定所述不同用户的画像特征;
分组模块,用于通过图聚类算法,分别根据所述不同用户的文本特征、图像特征和画像特征,对所述不同用户进行分组,得到单一特征对应的第一用户分组;
所述分组模块,用于通过图聚类算法,根据所述不同用户的文本特征、图像特征和画像特征的组合特征,对所述不同用户进行分组,得到所述组合特征对应的第二用户分组;
所述确定模块,用于根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分,所述相似评分与所述概率或频次正相关;
所述分组模块,用于通过所述不同用户之间的相似评分,对所述不同用户进行重新分组,得到多个第三用户分组;
推广模块,用于根据待推广数据与所述多个第三用户分组的匹配程度,将所述待推广数据推广至所述多个第三用户分组中的目标用户分组。
在一些实施例中,所述确定模块用于:
利用分类算法和社区发现算法,分别根据所述用户数据中的显性信息和隐性信息,划分得到显性社区和隐形社区;
基于用户相似性和社区差异性的画像方法,对所述显性社区和隐形社区中的用户进行社区画像,得到所述不同用户的画像特征。
在一些实施例中,所述推广模块用于:
对每个第三用户分组中不同用户的文本特征、图像特征和画像特征进行共享,得到每个第三用户分组的共享特征;
对所述待推广数据与所述每个第三用户分组的共享特征进行匹配,得到每个第三用户分组与所述待推广数据的匹配程度;
将匹配程度符合目标匹配条件的第三用户分组确定为目标用户分组;
将所述待推广数据推广至所述目标用户分组。
在一些实施例中,所述推广模块用于:
将所述待推广数据与所述每个第三用户分组的共享特征输入卷积神经网络CNN模型中,由所述CNN模型对所述待推广数据与所述每个第三用户分组的共享特征进行特征提取,得到多模态特征;
将提取的多模态特征输入长短期记忆LSTM网络中,由所述LSTM网络对所述多模态特征进行处理输出多模态长期特征;
将所述多模态长期特征输入全连接层,输出所述每个第三用户分组与所述待推广数据的匹配程度。
在一些实施例中,所述确定模块用于:
对所述第一用户分组和所述第二用户分组中任两个用户分组进行重合率计算,得到所述任两个用户分组之间的重合率;
响应于所述任两个用户分组之间的重合率大于或等于目标重合率,将所述任两个用户分组合并为一个用户分组;
基于合并后的用户分组,执行所述根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分的步骤。
在一些实施例中,所述任两个用户分组之间的重合率通过下述公式一计算:
J(Ai,Aj)=Ai∩Aj/Ai∪Aj, 公式一
其中,Ai为任一用户分组,Aj为区别于Ai的另一用户分组,i和j为用户分组标识,J(Ai,Aj)为用户分组Ai和用户分组Aj之间的重合率,所述J(Ai,Aj)的值域为[0,1]。
在一些实施例中,所述装置还包括修正模块,所述修正模块用于:
通过下述公式二,计算所述待推广数据的展示完整率:
Q=Pv/Bv, 公式二
其中,Pv为所述待推广数据的完整展示次数,Bv为所述待推广数据的次数;
根据所述待推广数据的展示完整率,通过下述公式三,确定本次推广的误差率:
其中,E为本次推广的误差率,E的值域为(0,1),Qi为用户i观看所述待推广数据的播放率;
所述Qpred通过下述公式四确定:
Qpred=Ti/(1-U0), 公式四
其中,Ti为用户i观看所述待推广数据的时长,U0为所述待推广数据与所述目标用户分组的匹配程度;
基于所述本次推广的误差率,对所述第三用户分组的分组情况进行修正。
一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现上述基于大数据分析的推广方法的各种可选实现方式。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现上述基于大数据分析的推广方法的各种可选实现方式。
一个方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得电子设备能够执行上述任一种可能实施方式的基于大数据分析的推广方法。
本申请实施例通过从各个地方收集不同类型的用户数据,采用不同的方法得到了用户的多种特征,然后采用图聚类算法得到单一特征对应的分组情况和组合特征对应的分组情况,这样通过多样化得分组方式,能够尽可能的得到多种多样的用户分组情况,之后再进一步按照用户的分组情况分析不同用户之间的相似情况,从而依据该相似情况再重新分组,也即对用户分组进行了精细处理,得到更加准确的用户分组情况,再基于重新分组情况进行数据推广,这样由于用户分组更加准确,将相似用户分到同一组,能够精准对用户进行推广,避免误推广的情况出现。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还能够根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于大数据分析的推广方法的实施环境的示意图:
图2是本申请实施例提供的一种基于大数据分析的推广方法的流程图;
图3是本申请实施例提供的一种基于大数据分析的推广装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图;
图5是本申请实施例提供的一种终端的结构框图;
图6是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如,在不脱离各种所述示例的范围的情况下,第一图像能够被称为第二图像,并且类似地,第二图像能够被称为第一图像。第一图像和第二图像都能够是图像,并且在某些情况下,能够是单独且不同的图像。
本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上,例如,多个数据包是指两个或两个以上的数据包。
应理解,在本文中对各种该示例的描述中所使用的术语只是为了描述特定示例,而并非旨在进行限制。如在对各种该示例的描述和所附权利要求书中所使用的那样,单数形式“一个(“a”“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。
还应理解,本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”,是一种描述关联对象的关联关系,表示能够存在三种关系,例如,A和/或B,能够表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中的字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
还应理解,根据A确定B并不意味着仅仅根据A确定B,还能够根据A和/或其它信息确定B。
还应理解,术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。
还应理解,术语“如果”可被解释为意指“当…时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“如果确定…”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定…时”或“响应于确定…”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
下面对本申请的实施环境进行说明。
图1是本申请实施例提供的一种基于大数据分析的推广方法的实施环境的示意图。该实施环境包括终端101,或者该实施环境包括终端101和基于大数据分析的推广平台102。终端101通过无线网络或有线网络与基于大数据分析的推广平台102相连。
终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器,膝上型便携计算机中的至少一种。终端101安装和运行有支持基于大数据分析的推广的应用程序,例如,该应用程序能够是系统应用、即时通讯应用、新闻推送应用、购物应用、在线视频应用、社交应用。
示例性地,该终端101能够具有数据分析和处理功能,能够对采集到的数据进行处理,并根据处理结果进行数据推广(发送)。该终端101能够独立完成该工作,也能够通过基于大数据分析的推广平台102为其提供数据服务。本申请实施例对此不作限定。
基于大数据分析的推广平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。基于大数据分析的推广平台102用于为支基于大数据分析的推广的应用程序提供后台服务。可选地,基于大数据分析的推广平台102承担主要处理工作,终端101承担次要处理工作;或者,基于大数据分析的推广平台102承担次要处理工作,终端101承担主要处理工作;或者,基于大数据分析的推广平台102或终端101分别能够单独承担处理工作。或者,基于大数据分析的推广平台102和终端101两者之间采用分布式计算架构进行协同计算。
可选地,该基于大数据分析的推广平台102包括至少一台服务器1021以及数据库1022,该数据库1022用于存储数据,在本申请实施例中,该数据库1022中能够存储有用户数据、待推广数据以及用户分组,为至少一台服务器1021提供数据服务。
服务器能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。
本领域技术人员能够知晓,上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021能够仅为一个,或者上述终端101、服务器1021为几十个或几百个,或者更多数量,本申请实施例对终端或服务器的数量和设备类型不加以限定。
图2是本申请实施例提供的一种基于大数据分析的推广方法的流程图,该方法应用于电子设备中,该电子设备为终端或服务器,参见图2,该方法包括以下步骤。
201、电子设备从社交网络平台、数据库获取用户数据,该用户数据包括不同用户相关联的文本数据、图像数据和视频数据中至少两项。
在本申请实施例中,可以对不同用户之间的相似度进行分析,然后将相似用户分类到同一个用户分组中,进而通过用户分组的形式与待推广数据进行匹配,来完成推广过程。
对用户分组之前,电子设备需要先获取用户数据,该用户数据即可从各个方面来表征用户的信息,例如喜好、需求等,通过用户数据对用户进行分组,即可能够将相同或相似喜好或需求的用户分到同一个用户分组中,进而进行数据推广时的准确性更好。
该用户数据可以包括多种类型的数据,该用户数据可以包括文本数据、图像数据和视频数据中至少两项。例如,该用户数据可以包括该用户的基本信息,如用户的姓名、年龄、属相、身份或职业、所属地等。该用户数据还可以包括用户的行为数据,如用户对某个视频进行了点赞,又如用户下载了某图像等。该用户数据还可以包括该用户的社会关系数据,如该用户与哪些用户之间属于某种亲属关系,又如该用户与哪些用户属于同事关系等。
需要说明的是,该步骤201可以为电子设备在有用户分组需求时进行,并将本次分组情况在本地存储或存储至数据库,该步骤201也可以为电子设备获取待推广数据时进行,本申请实施例对此不作限定。
202、电子设备对该用户数据进行特征提取,得到不同用户的文本特征和图像特征。
电子设备获取到不同类型的用户数据后,可以对其进行特征提取,得到相应类型的特征。可以理解的,对于用户数据中的文本数据,可以经过特征提取得到文本特征。由于视频数据是由视频帧组成,对于用户数据中的图像数据和视频数据,可以经过特征提取得到图像特征。
其中,该特征提取步骤可以通过任一种特征提取网络实现,也可以通过其他特征提取方式实现,本申请实施例对此不做限定。
203、电子设备利用分类算法、社区发现算法以及社区画像算法,根据该用户数据中的显性信息和隐性信息,确定该不同用户的画像特征。
除了上述步骤202所示的特征提取方法,在本申请实施例中,还可以通过社区分类的方法,借助用户数据对用户进行画像得到画像特征。这样通过步骤202和步骤203能够得到多种特征,以进行后续的分组流程。
这样通过多样化的特征进行分组,能够得到多种多样的用户分组,也即是后续得到的用户分组是考虑到多种情况得到的,非常全面,基于这样的用户分组进行进一步分析处理再重新分组,能够在一定程度上保证分组的准确性。
需要说明的是,随着社交网络的兴起、用户生成内容的激增以及数据挖掘等技术的发展,社区画像的对象由小群体发展成为用户规模更大、信息更为丰富、应用场景更为广泛的社区,社区画像的本质是用户画像信息的融合,从社区内容和社区交互两方面揭示社区特征。
社区画像以用户画像为基础,利用大数据对不同社区各方面情况进行数据分析,形成不同组别的数据集合,进而根据得出的数据集合对社区进行精准化管理。另一方面,作为一组信息集合,社区画像蕴含对应社区的社会基础属性,从其中关键节点可以分析出社区人群所具有的部分共性特征。
首先,社区画像可以帮助更直观地区分显式社区与隐式社区,分析用户聚合行为和动机,辅助社区发现。其次,社区画像可以更准确地过滤噪音数据,充分利用用户社会关系数据,完善与丰富单用户画像。这样,社区画像可以更全面、精准地支持群体兴趣跟踪、社区知识可视化、社区排名、推荐系统以及网络服务等应用。
对于显性信息和隐形信息,这两种信息的外在形态不同,这二者是相对而言的。显性信息是客观事物直接显露出来的,并可以被接受者直接使用或吸收的信息,如语言信息、图象信息、体态语信息等。例如,用户订阅某项内容这就是一种显性信息,能够很直观的表达出用户喜欢该某项内容。隐态信息则是主体通过显性信息间接表达出来的,需要接受者思考才能识别的信息,如暗示、隐喻、象征等手法表达信息。例如,用户加入了一个用户群,该用户群中其他用户均是篮球爱好者,其实则可以分析出,该用户可能也是个篮球爱好者。
在一些实施例中,电子设备可以利用分类算法和社区发现算法,分别根据该用户数据中的显性信息和隐性信息,划分得到显性社区和隐形社区。然后电子设备基于用户相似性和社区差异性的画像方法,对该显性社区和隐形社区中的用户进行社区画像,得到该不同用户的画像特征。
其中,电子设备可以基于用户数据中的显性信息,利用分类算法划分形成显式社区,然后分析用户数据中的用户特征潜在信息,利用社区发现算法生成隐式社区。
其中,基于用户相似性的方法通过分析社区成员共同的兴趣、相近的情感、观点或行为等因素探索社区形成的原因。具体的,可以基于用户数据形成单用户画像,计算不同单用户画像间的相似程度,将相似的单用户画像聚为一类,然后将聚为一类的单用户画像进行融合,生成典型用户社区画像。另外,也可以通过分析用户数据中个人数据、行为数据和社会关系数据等多类数据,利用每类用户数据相应的画像技术生成社区画像。
基于社区差异性的画像方法,通过分析社区内外成员之间的差异,来刻画社区的特征,对该显性社区和隐形社区中的用户进行社区画像,得到该不同用户的画像特征。也即是,可以从社交网络整体视角分析与计算社区成员与网络中其他社区成员的差异来进行社区画像。具体的,可以考虑社区成员和与所述社区成员有紧密关系的社区外成员之间的差异来进行社区画像。
204、电子设备通过图聚类算法,分别根据该不同用户的文本特征、图像特征和画像特征,对该不同用户进行分组,得到单一特征对应的第一用户分组。
经过上述步骤202和步骤203,电子设备获取到用户的多种特征,可以通过图聚类算法进行聚类,从而将不同用户分类为多个用户分组。
其中,聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在本申请实施例中一簇则是一个用户分组。
对于图的聚类,图是指顶点+边来构成的图,基于图的聚类则是对图中顶点的划分来完成聚类。
在图中,顶点为用户,边为用户之间的相似度。G(V,E)表示无向图,V={v1,v2,……,vm}为顶点的集合。E为边的集合。
在该步骤204中,电子设备可以分别基于用户的文本特征、图像特征和画像特征,生成图,然后基于图进行聚类,得到第一用户分组。
也即是,电子设备可以基于不同用户的文本特征对该不同用户进行分组,得到文本特征对应的第一用户分组。电子设备可以基于不同用户的图像特征对该不同用户进行分组,得到图像特征对应的第一用户分组。电子设备可以基于不同用户的画像特征对该不同用户进行分组,得到画像特征对应的第一用户分组。
205、电子设备通过图聚类算法,根据该不同用户的文本特征、图像特征和画像特征的组合特征,对该不同用户进行分组,得到该组合特征对应的第二用户分组。
在该步骤205中,电子设备可以先对不同用户的文本特征、图像特征和画像特征进行组合,得到组合特征,然后再通过图聚类算法,基于组合特征生成图,然后对图中的顶点进行划分完成聚类,得到第二用户组合。
其中,图聚类算法同上述步骤204,在此不多做赘述。
206、电子设备根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定该不同用户之间的相似评分,该相似评分与该概率或频次正相关。
其中,该相似评分与该概率或频次正相关,也即是,概率或频次越高,相似评分越高;概率或频次越低,相似评分越低。
可以理解的,如果在上述得到的用户组合中任意两个用户被分到同一个用户组合中的概率或频次高,则说明这两个用户之间的相似度比较高,通过各种特征均被分到了同一个用户分组中。如果在上述得到的用户组合中任意两个用户被分到同一个用户组合中的概率或频次低,则说明这两个用户之间的相似度比较低,通过各种特征都分不到了同一个用户分组中,说明两个用户的特征之间的相似度比较低。
在一些实施例中,在确定不同用户之间的相似评分时,可先对上述步骤204和步骤205得到的第一用户分组和第二用户分组进行整合,如果有重合率比较高的用户分组,可以将其组合为一个用户分组,再计算不同用户之间的相似评分。具体的,该步骤206可以通过下述步骤一至步骤三实现。
步骤一、电子设备对该第一用户分组和该第二用户分组中任两个用户分组进行重合率计算,得到该任两个用户分组之间的重合率。
在一些实施例中,该任两个用户分组之间的重合率通过下述公式一计算:
J(Ai,Aj)=Ai∩Aj/Ai∪Aj, 公式一
其中,Ai为任一用户分组,Aj为区别于Ai的另一用户分组,i和j为用户分组标识,J(Ai,Aj)为用户分组Ai和用户分组Aj之间的重合率,该J(Ai,Aj)的值域为[0,1]。
步骤二、电子设备响应于该任两个用户分组之间的重合率大于或等于目标重合率,将该任两个用户分组合并为一个用户分组。
其中,该目标重合率可以由相关技术人员根据经验或需求进行设置,例如,该目标重合率可以设置为75%,本申请实施例对此不作限定。
步骤三、电子设备基于合并后的用户分组,执行该根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定该不同用户之间的相似评分的步骤。
207、电子设备通过该不同用户之间的相似评分,对该不同用户进行重新分组,得到多个第三用户分组。
得到不同用户之间的相似评分后,电子设备可以将相似评分高的用户分到同一个用户分组中。对于两个用户来说,如果该两个用户之间的相似评分高,则说明该两个用户的各项特征比较相似,那么二者的兴趣爱好或者喜好需求等可能也比较相似,因而可以将该两个用户分到同一个用户分组中。
在一些实施例中,相关技术人员可以设置相似评分阈值,电子设备可以将大于或等于该相似评分阈值的两个用户分到同一个用户分组中。具体的,对于两个用户,响应于该两个用户之间的相似评分大于或等于相似评分阈值,电子设备可以将该两个用户分到同一个第三用户分组中。
其中,该相似评分阈值可以由相关技术人员根据经验或需求进行设置,例如,该相似评分阈值可以设置为85%,本申请实施例对此不作限定。
208、电子设备根据待推广数据与该多个第三用户分组的匹配程度,将该待推广数据推广至该多个第三用户分组中的目标用户分组。
电子设备在得到最终的用户分组后,可以通过将待推广数据与第三用户分组进行匹配的方式,来确定哪个或哪些第三用户分组可能是待推广数据的受众群体,从而进行推广。
该待推广数据可以是图片、文本、视频等形式的数据,本申请实施例对此不做限定。
在一些实施例中,得到第三用户分组后,若电子设备获取到待推广数据需要推广时,可以将第三用户分组中的不同用户之间的特征进行共享,将第三用户分组看做一个整体,将共享的特征作为该第三用户分组的特征来为其匹配待推广数据。具体的,该步骤208可以通过下述步骤A至步骤D实现。
步骤A、电子设备可以对每个第三用户分组中不同用户的文本特征、图像特征和画像特征进行共享,得到每个第三用户分组的共享特征。
例如,假设一个第三用户分组包括用户1和用户2,用户1对应的特征包括特征1、特征2和特征3,用户2对应的特征包括特征1、特征4和特征5,则电子设备可以将第三用户分组中用户1和用户2的特征进行共享作为第三用户分组的特征,也即是,该第三用户分组的共享特征为特征1、特征2、特征3、特征4和特征5。
步骤B、电子设备对该待推广数据与该每个第三用户分组的共享特征进行匹配,得到每个第三用户分组与该待推广数据的匹配程度。
在一些实施例中,该步骤B可以通过卷积神经网络(convolutional neuralnetworks,CNN)模型和LSTM网络实现,具体的,电子设备可以将该待推广数据与该每个第三用户分组的共享特征输入卷积神经网络CNN模型中,由该CNN模型对该待推广数据与该每个第三用户分组的共享特征进行特征提取,得到多模态特征,然后电子设备可以将提取的多模态特征输入长短期记忆(Long Short-Term Memory,LSTM)网络中,由该LSTM网络对该多模态特征进行处理输出多模态长期特征,最后电子设备将该多模态长期特征输入全连接层,输出该每个第三用户分组与该待推广数据的匹配程度。
采用CNN模型进行特征提取,可以提取到数据的局部特征,并且,CNN模型中权值是共享的,可以减少参数数量,降低训练难度。进一步地,采用LSTM网络对CNN模型取的特征向量进行处理,得到局部特征的长距离特征,LSTM网络具有长时记忆功能,解决了长序列训练过程中存在的梯度消失和梯度爆炸问题。
步骤C、电子设备将匹配程度符合目标匹配条件的第三用户分组确定为目标用户分组。
其中,该目标匹配条件可以由相关技术人员根据经验或需求进行设置,例如,该目标匹配条件可以为匹配程度大于80%,本申请实施例对此不做限定。
步骤D、电子设备将该待推广数据推广至该目标用户分组。
在一些实施例中,如果一开始第三用户分组的精准度达不到最精准的程度,还可以通过推广后的效果,来查看是否需要修正,如果需要修正可以通过下述修正方式,对第三用户分组进行修正。
具体的,电子设备可以先通过下述公式二,计算该待推广数据的展示完整率:
Q=Pv/Bv, 公式二
其中,Pv为该待推广数据的完整展示次数,Bv为该待推广数据的次数。
然后电子设备根据该待推广数据的展示完整率,通过下述公式三,确定本次推广的误差率:
其中,E为本次推广的误差率,E的值域为(0,1),Qi为用户i观看该待推广数据的播放率。
该Qpred通过下述公式四确定:
Qpred=Ti/(1-U0), 公式四
其中,Ti为用户i观看该待推广数据的时长,U0为该待推广数据与该目标用户分组的匹配程度;
最后电子设备基于该本次推广的误差率,对该第三用户分组的分组情况进行修正。
本申请实施例通过从各个地方收集不同类型的用户数据,采用不同的方法得到了用户的多种特征,然后采用图聚类算法得到单一特征对应的分组情况和组合特征对应的分组情况,这样通过多样化得分组方式,能够尽可能的得到多种多样的用户分组情况,之后再进一步按照用户的分组情况分析不同用户之间的相似情况,从而依据该相似情况再重新分组,也即对用户分组进行了精细处理,得到更加准确的用户分组情况,再基于重新分组情况进行数据推广,这样由于用户分组更加准确,将相似用户分到同一组,能够精准对用户进行推广,避免误推广的情况出现。
上述所有可选技术方案,能够采用任意结合形成本申请的可选实施例,在此不再一一赘述。
图3是本申请实施例提供的一种基于大数据分析的推广装置的结构示意图,参见图3,该装置包括:
获取模块301,用于从社交网络平台、数据库获取用户数据,该用户数据包括不同用户相关联的文本数据、图像数据和视频数据中至少两项;
提取模块302,用于对该用户数据进行特征提取,得到不同用户的文本特征和图像特征;
确定模块303,用于利用分类算法、社区发现算法以及社区画像算法,根据该用户数据中的显性信息和隐性信息,确定该不同用户的画像特征;
分组模块304,用于通过图聚类算法,分别根据该不同用户的文本特征、图像特征和画像特征,对该不同用户进行分组,得到单一特征对应的第一用户分组;
该分组模块304,用于通过图聚类算法,根据该不同用户的文本特征、图像特征和画像特征的组合特征,对该不同用户进行分组,得到该组合特征对应的第二用户分组;
该确定模块303,用于根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定该不同用户之间的相似评分,该相似评分与该概率或频次正相关;
该分组模块304,用于通过该不同用户之间的相似评分,对该不同用户进行重新分组,得到多个第三用户分组;
推广模块305,用于根据待推广数据与该多个第三用户分组的匹配程度,将该待推广数据推广至该多个第三用户分组中的目标用户分组。
在一些实施例中,该确定模块303用于:
利用分类算法和社区发现算法,分别根据该用户数据中的显性信息和隐性信息,划分得到显性社区和隐形社区;
基于用户相似性和社区差异性的画像方法,对该显性社区和隐形社区中的用户进行社区画像,得到该不同用户的画像特征。
在一些实施例中,该推广模块305用于:
对每个第三用户分组中不同用户的文本特征、图像特征和画像特征进行共享,得到每个第三用户分组的共享特征;
对该待推广数据与该每个第三用户分组的共享特征进行匹配,得到每个第三用户分组与该待推广数据的匹配程度;
将匹配程度符合目标匹配条件的第三用户分组确定为目标用户分组;
将该待推广数据推广至该目标用户分组。
在一些实施例中,该推广模块305用于:
将该待推广数据与该每个第三用户分组的共享特征输入卷积神经网络CNN模型中,由该CNN模型对该待推广数据与该每个第三用户分组的共享特征进行特征提取,得到多模态特征;
将提取的多模态特征输入长短期记忆LSTM网络中,由该LSTM网络对该多模态特征进行处理输出多模态长期特征;
将该多模态长期特征输入全连接层,输出该每个第三用户分组与该待推广数据的匹配程度。
在一些实施例中,该确定模块303用于:
对该第一用户分组和该第二用户分组中任两个用户分组进行重合率计算,得到该任两个用户分组之间的重合率;
响应于该任两个用户分组之间的重合率大于或等于目标重合率,将该任两个用户分组合并为一个用户分组;
基于合并后的用户分组,执行该根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定该不同用户之间的相似评分的步骤。
在一些实施例中,该任两个用户分组之间的重合率通过下述公式一计算:
J(Ai,Aj)=Ai∩Aj/Ai∪Aj, 公式一
其中,Ai为任一用户分组,Aj为区别于Ai的另一用户分组,i和j为用户分组标识,J(Ai,Aj)为用户分组Ai和用户分组Aj之间的重合率,该J(Ai,Aj)的值域为[0,1]。
在一些实施例中,该装置还包括修正模块,该修正模块用于:
通过下述公式二,计算该待推广数据的展示完整率:
Q=Pv/Bv, 公式二
其中,Pv为该待推广数据的完整展示次数,Bv为该待推广数据的次数;
根据该待推广数据的展示完整率,通过下述公式三,确定本次推广的误差率:
其中,E为本次推广的误差率,E的值域为(0,1),Qi为用户i观看该待推广数据的播放率;
该Qpred通过下述公式四确定:
Qpred=Ti/(1-U0), 公式四
其中,Ti为用户i观看该待推广数据的时长,U0为该待推广数据与该目标用户分组的匹配程度;
基于该本次推广的误差率,对该第三用户分组的分组情况进行修正。
本申请实施例提供的装置,通过从各个地方收集不同类型的用户数据,采用不同的方法得到了用户的多种特征,然后采用图聚类算法得到单一特征对应的分组情况和组合特征对应的分组情况,这样通过多样化得分组方式,能够尽可能的得到多种多样的用户分组情况,之后再进一步按照用户的分组情况分析不同用户之间的相似情况,从而依据该相似情况再重新分组,也即对用户分组进行了精细处理,得到更加准确的用户分组情况,再基于重新分组情况进行数据推广,这样由于用户分组更加准确,将相似用户分到同一组,能够精准对用户进行推广,避免误推广的情况出现。
需要说明的是:上述实施例提供的基于大数据分析的推广装置在基于大数据分析的推广时,仅以上述各功能模块的划分进行举例说明,实际应用中,能够根据需要而将上述功能分配由不同的功能模块完成,即将基于大数据分析的推广装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于大数据分析的推广装置与基于大数据分析的推广方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是本申请实施例提供的一种电子设备的结构示意图,该电子设备400可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(Central ProcessingUnits,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器401加载并执行以实现上述各个方法实施例提供的基于大数据分析的推广方法。该电子设备还能够包括其他用于实现设备功能的部件,例如,该电子设备还能够具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出。本申请实施例在此不做赘述。
上述方法实施例中的电子设备能够实现为终端。例如,图5是本申请实施例提供的一种终端的结构框图。该终端500可以是便携式移动终端,比如:智能手机、平板电脑、MP3(MovingPictureExpertsGroupAudioLayerIII,动态影像专家压缩标准音频层面3)播放器、MP4(MovingPictureExpertsGroupAudioLayerIV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端500包括有:处理器501和存储器502。
处理器501可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器501可以采用DSP(DigitalSignalProcessing,数字信号处理)、FPGA(Field-ProgrammableGateArray,现场可编程门阵列)、PLA(ProgrammableLogicArray,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器501可以集成有GPU(GraphicsProcessingUnit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器501还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器502可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器502中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器501所执行以实现本申请中方法实施例提供的基于大数据分析的推广方法。
在一些实施例中,终端500还可选包括有:外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地,外围设备包括:射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。
外围设备接口503可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一些实施例中,处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上;在一些其他实施例中,处理器501、存储器502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路504用于接收和发射RF(RadioFrequency,射频)信号,也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路504包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity,无线保真)网络。在一些实施例中,射频电路504还可以包括NFC(NearFieldCommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏505用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时,显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时,显示屏505还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏505可以为一个,设置在终端500的前面板;在另一些实施例中,显示屏505可以为至少两个,分别设置在终端500的不同表面或呈折叠设计;在另一些实施例中,显示屏505可以是柔性显示屏,设置在终端500的弯曲表面上或折叠面上。甚至,显示屏505还可以设置成非矩形的不规则图形,也即异形屏。显示屏505可以采用LCD(LiquidCrystalDisplay,液晶显示屏)、OLED(OrganicLight-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件506用于采集图像或视频。可选地,摄像头组件506包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(VirtualReality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器501进行处理,或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路507还可以包括耳机插孔。
定位组件508用于定位终端500的当前地理位置,以实现导航或LBS(LocationBasedService,基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioningSystem,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。
电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于:加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。
加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号,控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器512可以检测终端500的机体方向及转动角度,陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时,可以检测用户对终端500的握持信号,由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时,由处理器501根据用户对显示屏505的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器514用于采集用户的指纹,由处理器501根据指纹传感器514采集到的指纹识别用户的身份,或者,由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器501授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置在终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时,指纹传感器514可以与物理按键或厂商Logo集成在一起。
光学传感器515用于采集环境光强度。在一个实施例中,处理器501可以根据光学传感器515采集的环境光强度,控制显示屏505的显示亮度。具体地,当环境光强度较高时,调高显示屏505的显示亮度;当环境光强度较低时,调低显示屏505的显示亮度。在另一个实施例中,处理器501还可以根据光学传感器515采集的环境光强度,动态调整摄像头组件506的拍摄参数。
接近传感器516,也称距离传感器,通常设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中,当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时,由处理器501控制显示屏505从亮屏状态切换为息屏状态;当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时,由处理器501控制显示屏505从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图5中示出的结构并不构成对终端500的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述方法实施例中的电子设备能够实现为服务器。例如,图6是本申请实施例提供的一种服务器的结构示意图,该服务器600可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(Central Processing Units,CPU)601和一个或一个以上的存储器602,其中,所述存储器602中存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器601加载并执行以实现上述各个方法实施例提供的基于大数据分析的推广方法。当然,该服务器还能够具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条计算机程序的存储器,上述至少一条计算机程序由可由处理器执行以完成上述实施例中的基于大数据分析的推广方法。例如,计算机可读存储介质能够是只读存储器(Read-OnlyMemory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、只读光盘(Compact Disc Read-Only Memory,简称:CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括一条或多条程序代码,所述一条或多条程序代码存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码,所述一个或多个处理器执行所述一条或多条程序代码,使得电子设备能够执行上述基于大数据分析的推广方法。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应理解,根据A确定B并不意味着仅仅根据A确定B,还能够根据A和/或其它信息确定B。
本领域普通技术人员能够理解实现上述实施例的全部或部分步骤能够通过硬件来完成,也能够通过程序来指令相关的硬件完成,该程序能够存储于一种计算机可读存储介质中,上述提到的存储介质能够是只读存储器,磁盘或光盘等。
以上描述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于大数据分析的推广方法,其特征在于,所述方法包括:
从社交网络平台、数据库获取用户数据,所述用户数据包括不同用户相关联的文本数据、图像数据和视频数据中至少两项;
对所述用户数据进行特征提取,得到不同用户的文本特征和图像特征;
利用分类算法、社区发现算法以及社区画像算法,根据所述用户数据中的显性信息和隐性信息,确定所述不同用户的画像特征;
通过图聚类算法,分别根据所述不同用户的文本特征、图像特征和画像特征,对所述不同用户进行分组,得到单一特征对应的第一用户分组;
通过图聚类算法,根据所述不同用户的文本特征、图像特征和画像特征的组合特征,对所述不同用户进行分组,得到所述组合特征对应的第二用户分组;
根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分,所述相似评分与所述概率或频次正相关;
通过所述不同用户之间的相似评分,对所述不同用户进行重新分组,得到多个第三用户分组;
根据待推广数据与所述多个第三用户分组的匹配程度,将所述待推广数据推广至所述多个第三用户分组中的目标用户分组。
2.根据权利要求1所述的方法,其特征在于,所述利用分类算法、社区发现算法以及社区画像算法,根据所述用户数据中的显性信息和隐性信息,确定所述不同用户的画像特征,包括:
利用分类算法和社区发现算法,分别根据所述用户数据中的显性信息和隐性信息,划分得到显性社区和隐形社区;
基于用户相似性和社区差异性的画像方法,对所述显性社区和隐形社区中的用户进行社区画像,得到所述不同用户的画像特征。
3.根据权利要求1所述的方法,其特征在于,所述根据待推广数据与所述多个第三用户分组的匹配程度,将所述待推广数据推广至所述多个第三用户分组中的目标用户分组,包括:
对每个第三用户分组中不同用户的文本特征、图像特征和画像特征进行共享,得到每个第三用户分组的共享特征;
对所述待推广数据与所述每个第三用户分组的共享特征进行匹配,得到每个第三用户分组与所述待推广数据的匹配程度;
将匹配程度符合目标匹配条件的第三用户分组确定为目标用户分组;
将所述待推广数据推广至所述目标用户分组。
4.根据权利要求3所述的方法,其特征在于,所述对所述待推广数据与所述每个第三用户分组的共享特征进行匹配,得到每个第三用户分组与所述待推广数据的匹配程度,包括:
将所述待推广数据与所述每个第三用户分组的共享特征输入卷积神经网络CNN模型中,由所述CNN模型对所述待推广数据与所述每个第三用户分组的共享特征进行特征提取,得到多模态特征;
将提取的多模态特征输入长短期记忆LSTM网络中,由所述LSTM网络对所述多模态特征进行处理输出多模态长期特征;
将所述多模态长期特征输入全连接层,输出所述每个第三用户分组与所述待推广数据的匹配程度。
5.根据权利要求1所述的方法,其特征在于,所述根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分,包括:
对所述第一用户分组和所述第二用户分组中任两个用户分组进行重合率计算,得到所述任两个用户分组之间的重合率;
响应于所述任两个用户分组之间的重合率大于或等于目标重合率,将所述任两个用户分组合并为一个用户分组;
基于合并后的用户分组,执行所述根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分的步骤。
6.根据权利要求5所述的方法,其特征在于,所述任两个用户分组之间的重合率通过下述公式一计算:
J(Ai,Aj)=Ai∩Aj/AiUAj,公式一
其中,Ai为任一用户分组,Aj为区别于Ai的另一用户分组,i和j为用户分组标识,J(Ai,Aj)为用户分组Ai和用户分组Aj之间的重合率,所述J(Ai,Aj)的值域为[0,1]。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过下述公式二,计算所述待推广数据的展示完整率:
Q=Pv/Bv,公式二
其中,Pv为所述待推广数据的完整展示次数,Bv为所述待推广数据的次数;
根据所述待推广数据的展示完整率,通过下述公式三,确定本次推广的误差率:
其中,E为本次推广的误差率,E的值域为(0,1),Qi为用户i观看所述待推广数据的播放率;
所述Qpred通过下述公式四确定:
Qpred=Ti/(1-U0),公式四
其中,Ti为用户i观看所述待推广数据的时长,U0为所述待推广数据与所述目标用户分组的匹配程度;
基于所述本次推广的误差率,对所述第三用户分组的分组情况进行修正。
8.一种基于大数据分析的推广装置,其特征在于,所述装置包括:
获取模块,用于从社交网络平台、数据库获取用户数据,所述用户数据包括不同用户相关联的文本数据、图像数据和视频数据中至少两项:
提取模块,用于对所述用户数据进行特征提取,得到不同用户的文本特征和图像特征;
确定模块,用于利用分类算法、社区发现算法以及社区画像算法,根据所述用户数据中的显性信息和隐性信息,确定所述不同用户的画像特征;
分组模块,用于通过图聚类算法,分别根据所述不同用户的文本特征、图像特征和画像特征,对所述不同用户进行分组,得到单一特征对应的第一用户分组;
所述分组模块,用于通过图聚类算法,根据所述不同用户的文本特征、图像特征和画像特征的组合特征,对所述不同用户进行分组,得到所述组合特征对应的第二用户分组;
所述确定模块,用于根据所有用户分组中不同用户被分到同一个用户分组中的概率或频次,确定所述不同用户之间的相似评分,所述相似评分与所述概率或频次正相关2
所述分组模块,用于通过所述不同用户之间的相似评分,对所述不同用户进行重新分组,得到多个第三用户分组;
推广模块,用于根据待推广数据与所述多个第三用户分组的匹配程度,将所述待推广数据推广至所述多个第三用户分组中的目标用户分组。
9.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于大数据分析的推广方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条计算机程序,所述至少一条计算机程序由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的基于大数据分析的推广方法。
CN202311114425.0A 2023-08-31 2023-08-31 一种基于大数据分析的推广方法、装置、设备及存储介质 Pending CN117076779A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311114425.0A CN117076779A (zh) 2023-08-31 2023-08-31 一种基于大数据分析的推广方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311114425.0A CN117076779A (zh) 2023-08-31 2023-08-31 一种基于大数据分析的推广方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN117076779A true CN117076779A (zh) 2023-11-17

Family

ID=88715145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311114425.0A Pending CN117076779A (zh) 2023-08-31 2023-08-31 一种基于大数据分析的推广方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117076779A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027317A (zh) * 2016-07-21 2016-10-12 中国人民解放军海军工程大学 信任感知的Web服务质量预测系统及方法
CN114529352A (zh) * 2022-04-09 2022-05-24 南京联动视界电子科技有限公司 一种基于大数据分析的智能营销推广方法及系统
CN116401456A (zh) * 2023-04-10 2023-07-07 安徽美图信息科技有限公司 一种画像方法、系统、设备及存储介质
CN116597406A (zh) * 2023-05-24 2023-08-15 蔚来软件科技(上海)有限公司 基于多模态的用户意图车型识别方法及装置、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106027317A (zh) * 2016-07-21 2016-10-12 中国人民解放军海军工程大学 信任感知的Web服务质量预测系统及方法
CN114529352A (zh) * 2022-04-09 2022-05-24 南京联动视界电子科技有限公司 一种基于大数据分析的智能营销推广方法及系统
CN116401456A (zh) * 2023-04-10 2023-07-07 安徽美图信息科技有限公司 一种画像方法、系统、设备及存储介质
CN116597406A (zh) * 2023-05-24 2023-08-15 蔚来软件科技(上海)有限公司 基于多模态的用户意图车型识别方法及装置、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴斌: ""网络科学与计算"", 31 August 2019, 北京:北京邮电大学出版社, pages: 112 *

Similar Documents

Publication Publication Date Title
CN108304441B (zh) 网络资源推荐方法、装置、电子设备、服务器及存储介质
CN110471858B (zh) 应用程序测试方法、装置及存储介质
CN110222789B (zh) 图像识别方法及存储介质
CN111104980B (zh) 确定分类结果的方法、装置、设备及存储介质
CN110807361A (zh) 人体识别方法、装置、计算机设备及存储介质
CN110163066B (zh) 多媒体数据推荐方法、装置及存储介质
CN108320756B (zh) 一种检测音频是否是纯音乐音频的方法和装置
WO2022057435A1 (zh) 基于搜索的问答方法及存储介质
CN110933468A (zh) 播放方法、装置、电子设备及介质
CN112818979B (zh) 文本识别方法、装置、设备及存储介质
CN111031391A (zh) 视频配乐方法、装置、服务器、终端及存储介质
CN113987326B (zh) 资源推荐方法、装置、计算机设备及介质
CN110675473B (zh) 生成gif动态图的方法、装置、电子设备及介质
CN110837557A (zh) 摘要生成方法、装置、设备及介质
CN112860046B (zh) 选择运行模式的方法、装置、电子设备及介质
CN113343709B (zh) 意图识别模型的训练方法、意图识别方法、装置及设备
CN113407774B (zh) 封面确定方法、装置、计算机设备及存储介质
CN118135255A (zh) 图像匹配模型的训练方法、图像匹配的方法及计算机设备
CN114996573A (zh) 内容项处理方法、装置、设备及存储介质
CN111897709B (zh) 监控用户的方法、装置、电子设备及介质
CN115221888A (zh) 实体提及的识别方法、装置、设备及存储介质
CN117076779A (zh) 一种基于大数据分析的推广方法、装置、设备及存储介质
CN111858983A (zh) 图片类别的确定方法、装置、电子设备及存储介质
CN111597823A (zh) 中心词提取方法、装置、设备及存储介质
CN111367492A (zh) 网页页面展示方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination