CN114077710A - 社交网络账号识别方法、装置及电子设备 - Google Patents

社交网络账号识别方法、装置及电子设备 Download PDF

Info

Publication number
CN114077710A
CN114077710A CN202010843882.3A CN202010843882A CN114077710A CN 114077710 A CN114077710 A CN 114077710A CN 202010843882 A CN202010843882 A CN 202010843882A CN 114077710 A CN114077710 A CN 114077710A
Authority
CN
China
Prior art keywords
subsequence
social network
network account
determining
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010843882.3A
Other languages
English (en)
Other versions
CN114077710B (zh
Inventor
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010843882.3A priority Critical patent/CN114077710B/zh
Publication of CN114077710A publication Critical patent/CN114077710A/zh
Application granted granted Critical
Publication of CN114077710B publication Critical patent/CN114077710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种社交网络账号识别方法、装置、电子设备及计算机可读存储介质;方法包括:接收社交网络账号发布的多个信息、以及对应的类别和发布时间;根据所述的多个信息的发布时间的先后顺序,将所述多个信息的类别组合成类别序列;从所述类别序列中提取表征至少一种维度的变异特征,其中,所述变异特征表征所述社交网络账号所发布的信息的变异程度;根据所述至少一种维度的变异特征,确定所述社交网络账号的原创识别结果。通过本申请,能够准确识别出账号的原创属性。

Description

社交网络账号识别方法、装置及电子设备
技术领域
本申请涉及人工智能技术,尤其涉及一种社交网络账号识别方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
随着互联网技术的发展以及移动端应用的普及,诞生了移动社交的新媒体时代,申请人在实施本申请实施例时发现存在大量社交网络账号对他人原创内容进行篡改、删减、拼凑的“洗稿”现象,导致社交网络账号发布的内容不聚焦于账号本身定位且内容创作内容定位发散,从而影响内容转化率以及内容推荐效率,并且也严重影响知识产权环境。
相关技术中针对变异账号,主要通过用户投诉和举报来发现,但是这种方法的效率和准确率都无法满足海量内容的原创审核需求。
发明信息
本申请实施例提供一种社交网络账号识别方法、装置、电子设备及计算机可读存储介质,能够准确和高效地识别出社交网络账号的原创属性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种社交网络账号识别方法,包括:
接收社交网络账号发布的多个信息、以及对应的类别和发布时间;
根据所述的多个信息的发布时间的先后顺序,将所述多个信息的类别组合成类别序列;
从所述类别序列中提取表征至少一种维度的变异特征,其中,所述变异特征表征所述社交网络账号所发布的信息的变异程度;
根据所述至少一种维度的变异特征,确定所述社交网络账号的原创识别结果。
在上述方案中,在确定所述社交网络账号的原创识别结果之后,所述方法还包括:
执行以下处理中的至少一种:
当所述社交网络账号为变异账号时,降低发送所述社交网络账号的发布内容的权重、或限制发送所述社交网络账号的发布内容的次数、或取消发送所述社交网络账号的发布内容;
根据所述社交网络账号的变异程度,降低或取消所述社交网络账号的发布内容的分发费用减免额度;
根据所述社交网络账号的变异程度,降低所述社交网络账号的发布内容在内容审核队列中的排序优先级;
当所述社交网络账号为变异账号时,将所述社交网络账号的发布内容调整到内容审核队列的末尾。
本申请实施例提供一种社交网络账号识别装置,包括:。
接收模块,用于接收社交网络账号发布的多个信息、以及对应的类别和发布时间;
组合模块,用于根据所述的多个信息的发布时间的先后顺序,将所述多个信息的类别组合成类别序列;
提取模块,用于从所述类别序列中提取表征至少一种维度的变异特征,其中,所述变异特征表征所述社交网络账号所发布的信息的变异程度;
确定模块,用于根据所述至少一种维度的变异特征,确定所述社交网络账号的原创识别结果。
在上述方案中,所述至少一个维度的变异特征包括类别波动特征;
所述提取模块,还用于:
对所述类别序列进行第一轮采样处理,得到多个第一子序列;
根据每个所述第一子序列中末尾类别的出现次数,确定与所述出现次数负相关的第一波动特征;
对所述类别序列进行第二轮采样处理,得到多个第二子序列;
确定每个所述第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度;
确定与所述类别相似度负相关的第二波动特征;
将每个所述第一子序列对应的第一波动特征进行融合处理,和/或,将每个所述第二子序列对应的第二波动特征进行融合处理,并将融合处理结果作为所述所述类别序列的类别波动特征;
其中,所述相邻子序列是所述第二子序列后之后被采集到的子序列。
在上述方案中,所述提取模块,还用于:
通过第一采样窗口对所述类别序列进行多次滑动采样,将每次滑动后所述第一采样窗口内的多个类别作为采样得到的第一子序列;
其中,所述第一采样窗口的长度小于所述类别序列的长度,且所述第一轮采样窗口的滑动步长小于所述第一采样窗口的长度;
所述对所述类别序列进行第二轮采样处理,得到多个第二子序列,包括:
通过第二采样窗口对所述类别序列进行多次滑动采样,将每次滑动后所述第二采样窗口内的多个类别作为采样得到的第二子序列;
其中,所述第二采样窗口的长度小于所述类别序列的长度,且所述第二轮采样窗口的滑动步长等于所述第二采样窗口的长度。
在上述方案中,所述提取模块,还用于:
针对每个所述第二子序列执行以下处理:
将所述第二子序列包括的每个类别对应的词向量组合,得到所述第二子序列的词向量,并
将所述相邻子序列包括的每个类别对应的词向量组合,得到所述相邻子序列的词向量;
将所述第二子序列的词向量与所述相邻子序列的词向量之间的余弦距离,确定为所述子序列对应的信息与所述相邻子序列对应的信息之间的类别相似度。
在上述方案中,所述提取模块,还用于:
针对每个所述第二子序列执行以下处理:
生成所述第二子序列的词表,其中,所述第二子序列的词表包括所述第二子序列对应的多个信息中每个词语的出现次数,并
生成所述相邻子序列的词表,其中,所述相邻子序列的词表包括所述相邻子序列对应的多个信息中每个词语的出现次数;
将所述第二子序列的词表与所述相邻子序列的词表之间的相似度,确定为所述子序列对应的信息与相邻子序列对应的信息之间的类别相似度。
在上述方案中,所述至少一个维度的变异特征包括类别差异特征;
所述提取模块,还用于:
对所述类别序列进行第三轮采样处理,得到多个第三子序列;
确定每个所述第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度;
确定与所述标签重合度负相关的子序列差异特征;
将每个所述子序列的子序列差异特征进行融合处理,将融合处理结果作为所述类别序列的类别差异特征;
其中,所述相邻子序列是所述第三子序列后之后被采集到的子序列。
在上述方案中,所述提取模块,还用于:
针对每个所述第三子序列执行以下处理:
生成所述第三子序列的标签集合,其中,所述第三子序列的标签集合包括所述第三子序列对应的每个信息所关联的标签,并
生成所述相邻子序列的标签集合,其中,所述相邻子序列的标签集合包括所述相邻子序列对应的每个信息所关联的标签;
确定所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签重合比例,将所述标签重合比例确定为所述第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度。
在上述方案中,所述提取模块,还用于:
确定所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签交集、以及所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签并集;
根据所述标签交集的标签数目与所述标签并集的标签数目的比值,确定所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签重合比例;
其中,所述标签重合比例与所述标签交集的标签数目正相关、与所述标签并集的标签数目负相关。
在上述方案中,所述至少一个维度的变异特征包括类别匹配特征;
所述提取模块,还用于:
对所述类别序列中进行第四轮采样处理,得到多个第四子序列;
确定每个所述第四子序列对应的信息与所述社交网络账号之间的标签匹配度,确定与所述标签匹配度负相关的标签匹配特征;
将每个所述子序列的标签匹配特征进行融合处理,将融合处理结果作为所述类别序列的类别匹配特征。
在上述方案中,所述提取模块,还用于:
针对每个所述第四子序列执行以下处理:
生成所述第四子序列的标签集合,其中,所述第四子序列的标签集合包括:所述第四子序列对应的每个信息所关联的标签;
生成所述社交网络账号的标签集合,其中,所述社交网络账号的标签集合包括:所述社交网络账号的介绍信息所关联的标签;
确定所述第四子序列的标签集合与所述社交网络账号的标签集合之间的标签重合比例,将所述标签重合比例确定为所述第四子序列对应的信息与所述社交网络账号之间的标签匹配度。
在上述方案中,所述提取模块,还用于:
确定所述第四子序列的标签集合与所述社交网络账号的标签集合包括的相同标签的数目;
根据所述数目确定所述第四子序列的标签集合与所述社交网络账号的集合之间的标签重合比例;
其中,所述标签重合比例与所述数目正相关、与所述社交网络账号的标签集合的标签的数目负相关。
在上述方案中,所述确定模块,还用于:
确定与任意一种维度的变异特征正相关的变异分数;或者
对所述至少一种维度的变异特征进行融合处理,并确定与融合处理结果正相关的变异分数;
执行以下操作至少之一:
将与所述变异分数所处的分数区间关联的变异等级,确定为所述社交网络账号的变异等级;其中,不同的所述分数区间对应不同的所述变异等级,且所述变异等级与所述社交网络账号的原创程度负相关;
当所述变异分数高于或等于变异分数阈值时,确定所述社交网络账号为变异账号,当所述变异分数低于所述变异分数阈值时,确定所述社交网络账号为原创账号。
在上述方案中,所述装置还包括:执行模块,用于:
执行以下处理中的至少一种:
当所述社交网络账号为变异账号时,降低发送所述社交网络账号的发布内容的权重、或限制发送所述社交网络账号的发布内容的次数、或取消发送所述社交网络账号的发布内容;
根据所述社交网络账号的变异程度,降低或取消所述社交网络账号的发布内容的分发费用减免额度;
根据所述社交网络账号的变异程度,降低所述社交网络账号的发布内容在内容审核队列中的排序优先级;
当所述社交网络账号为变异账号时,将所述社交网络账号的发布内容调整到内容审核队列的末尾。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的社交网络账号识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的社交网络账号识别方法。
本申请实施例具有以下有益效果:
通过从类别序列中挖掘出出隐藏的与发布信息的变异程度相关的多维度特征,能够直接用于反映社交网络账号的信息的原创性,从而能够社交网络中海量的信息进行原创性的高效和准确地识别。
附图说明
图1A-1B是本申请实施例提供的社交网络账号识别系统的结构示意图;
图2是本申请实施例提供的应用社交网络账号识别方法的电子设备的结构示意图;
图3A-3D是本申请实施例提供的社交网络账号识别方法的流程示意图;
图4是本申请实施例提供的社交网络账号识别方法的序列采样示意图;
图5是本申请实施例提供的社交网络账号识别方法的序列采样示意图;
图6是本申请实施例提供的社交网络账号识别方法的序列采样示意图;
图7是本申请实施例提供的应用社交网络账号识别方法的内容分发示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)文章:推荐客户端推荐给用户阅读的文章,文章可以包括视频、图片,文章通常是自媒体账号注册公众号后主动编辑发布的。
2)视频:推荐客户端推荐给用户阅读的视频,包括竖版的小视频和横版的短视频,以信息流的形式提供。
3)终端:用户所使用的可以接收消息的电子设备,电子设备中安装有智能操作系统。
4)用户:使用电子设备的人。
5)MCN(Multi-Channel Network):是一种多频道网络的产品形态,将PGC内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
6)专业生产内容(PGC,Professional Generated Content)互联网术语,用来泛指内容个性化、视角多元化、传播民主化、社会关系虚拟化。
7)用户原创内容(UGC,User Generated Content)并不是某一种具体的业务,而是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重的方式。
8)终端程序:运行在终端上的可接收消息及信息流的信息的应用。
9)服务端:部署在多组服务器上、专门为终端程序提供远程网络服务的服务器程序。
10)看点:手机社交客户端的内嵌功能,可以推荐多篇文章和视频供用户阅读。
11)信息流:消息来源,是一种资料格式,网站透过它将最新资讯传播给用户,通常以时间轴方式排列,时间轴是信息流最原始、最直觉、也最基本的展示形式,用户能够订阅网站的先决条件是,网站提供了消息来源,将信息源汇流于一处称为聚合,而用于聚合的软体称为聚合器,对终端用户而言,聚合器是专门用来订阅网站的软件,一般亦称为阅读器。
12)机器学习:(ML,Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
社交网络源自网络社交,网络社交的起点是电子邮件,互联网本质上就是计算机之间的联网,早期的电子邮件解决了远程的邮件传输的问题,至今它也是互联网上最普及的应用,同时它也是网络社交的起点,论坛则进一步将“群发”和“转发”常态化,理论上实现了向所有人发布信息并讨论话题的功能,成为早期的互联网内容自发产生的平台。
论坛把网络社交推进一步,从单纯的点对点交流推进到了点对面交流,即时通信和博客更像是前面两个社交工具的升级版本,前者提高了即时效果和并行交流能力;后者的信息发布节点开始体现越来越强的个体意识,因为在时间维度上的分散信息开始可以被聚合,进而成为信息发布节点的“形象”和“性格”,随着网络社交的悄悄演进,个体在网络上的形象更加趋于完整,从而诞生了社交网络,社交网络涵盖以人类社交为核心的所有网络服务形式,互联网是一个能够相互交流,相互沟通,相互参与的互动平台,社交网络使得互联网从研究部门、学校、政府、商业应用平台扩展成一个人类社交的工具,网络社交更是把其范围拓展到移动终端平台领域,借助移动终端的普遍性和无线网络的应用,利用各种交友/即时通讯/邮件收发器等软件,使移动终端成为新的社交网络的载体,社交网络,也就是网络+社交的意思,通过网络这一载体把人们连接起来,从而形成具有某一特点的团体。
在自媒体时代,各种不同的声音来自各种不同社交网络账号,每一个个体都从独立获得的资讯中对事物做出判断,自媒体是由普通大众主导的信息传播活动,由相关技术的“点到面”的传播,转化为“点到点”的一种对等的传播概念,同时,它也是指为个体提供信息生产、积累、共享、传播内容兼具私密性和公开性的信息传播方式,自媒体的内容通常以信息流形式展示出来供用户快速刷新,新闻客户端首页的新闻信息流可以看做一个新型聚合器,订阅源是移动终端登录账号的好友或关注的公众账号,内容是他们公开发布的动态,当好友数量较多且活跃时,可以收到不断更新的内容,这是最常见的信息流形式,时间是信息流所遵循的终极维度,因为内容的更新是不断向服务器发出请求的结果,时间轴是信息流最原始、最直觉、最基本的展示形式,各种不同的社交网络账号创作的各自图文和内容可以被用户订阅,然后当图文的内容有更新的时候,通过下行的消息方式将对应的咨询内容推送给用户展现在信息流界面,用户也可以主动刷新信息流获取最新的咨询信息,信息流中间的图文成为用户消费信息和资讯的一种主流模式。
申请人在实施本申请实施例时发现社交网络账号会搬运各种来源的内容进行发布,大多数社交网络账号会对别人的原创内容进行篡改、删减、拼凑,以低廉的方式搬运内容却不顾版权作者的利益,并且搬运内容时仅聚焦实时热点,而不符合账号本身的定位,导致内容创作定位发散,影响内容在用户的转化率、内容的推荐效率、以及用户针对账号的留存率,同时也严重影响知识产权的环境,所以需要限制、打压直接搬运内容的变异账号所发布的内容,整体提升账号生态水平,相关技术中主要通过用户投诉和举报来发现变异账号,但是这种依赖于人工的方式效率低且需要大量人工成本。
本申请实施例提供一种社交网络账号识别方法、装置、电子设备和计算机可读存储介质,能够识别账号的原创程度从而提高发布信息转化率,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以实施为服务器,下面,将说明设备实施为服务器时示例性应用。
参见图1A,图1A是本申请实施例提供的社交网络账号识别系统的架构示意图,终端400-1(信息流读者端)以及终端400-2(信息流创作端)通过网络300-1连接服务器200,网络300-1可以是广域网或者局域网,又或者是二者的组合。终端400-2接收到社交网络账号所创作的信息,并将所接收到的信息发送到服务器200,服务器200接收到信息之后,对社交网络账号进行原创账号识别,即通过本申请实施例提供的社交网络账号的识别方法识别该账号相对于注册定位的变异程度,得到原创账号识别结果,根据原创账号识别结果对接收到的信息进行分发,从而将信息推送至终端400-1供用户浏览。
基于图1A,参见图1B,图1B是本申请实施例提供的社交网络账号识别系统的区块链可选架构图,服务器以及终端都可以加入区块链网络300-2而成为其中的一个节点(即运行有区块链网络300-2中的一个节点)。区块链网络300-2的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如终端,都可以在不需要授权的情况下接入区块链网络300-2,以作为区块链网络300-2的共识节点,例如,服务器200映射为区块链网络300-2中的共识节点300-1,终端400-1映射为区块链网络300-2中的共识节点300-2,终端400-2映射为区块链网络300-2中的共识节点300-0。
以区块链网络300-2为联盟链为例,服务器和终端在获得授权后可以接入区块链网络300-2。终端400-2的客户端内接收到社交网络账号的待发布的信息,将发布的信息发送至服务器200,以使服务器200对社交网络账号进行账号识别,得到社交网络账号的账号级别(原创级别或者变异级别),在将社交网络账号的账号级别进行上链存储之前,将上链存储社交网络账号的账号级别的提案发送到其他终端,其他终端可以通过执行智能合约的方式来对上链存储社交网络账号的账号级别的提案进行验证(可以验证识别结果是否合理),例如,其他终端曾经举报过该社交网络账号,并将该社交网络账号假如黑名单,因此若识别结果为该社交网络账号为原创账号时,会验证该识别结果不正确,当超过数目阈值的节点确认验证通过时,其他终端验证通过后将对其签署数字签名(即背书),当上链存储社交网络账号的账号级别的提案有足够的背书时,才会进行上链存储,通过多个节点对社交网络账号的账号级别进行共识验证的方式,可以保证识别结果的可靠性,在上链存储之后的时间阈值内接收到该社交网络账号的发布信息,可以直接在区块链网络中查询社交网络账号的账号级别,并根据所查询得到的账号级别对该信息进行分发与推荐。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图2,图2是本申请实施例提供的应用社交网络账号识别方法的电子设备的结构示意图,以电子设备为服务器为例,图2所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口)。
在一些实施例中,本申请实施例提供的社交网络账号识别装置可以采用软件方式实现,图2示出了存储在存储器250中的社交网络账号识别装置255,其可以是程序和插件等形式的软件,包括以下软件模块:接收模块2551、组合模块2552、提取模块2553、确定模块2554以及执行模块2555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的社交网络账号识别方法。
参见图3A,图3A是本申请实施例提供的社交网络账号识别方法的一个可选的流程示意图,将结合图3A示出的步骤101-104进行说明。
在步骤101中,接收社交网络账号发布的多个信息、以及对应的类别和发布时间。
作为示例,社交网络账号可以为自媒体账号,社交网络账号可以为基于即时通讯客户端的个人社交账号,社交网络账号还可以是信息流客户端的用户登录账号等等。
作为示例,所接收的社交网络账号发布的多个信息可以是在一定时期内发布的多个信息,例如最近一个月内、一周内该社交网络账号所发布的信息,针对所收集的信息,还需要接收每个信息的类别以及发布时间。
在步骤102中,根据多个信息的发布时间的先后顺序,将多个信息的类别组合成类别序列。
作为示例,按照发布的信息的发布时间的先后顺序,对多个信息的类别进行排序,可以是按照发布时间的升序对多个信息的类别进行排序,也可以是按照发布时间的降序对多个信息的类别进行排序,例如,接收到三个发布的信息,信息A、信息B以及信息C,信息A的发布时间是2020年7月1日,其类别是体育,信息B的发布时间是2020年7月5日,其类别是娱乐,信息C的发布时间是2020年7月8日,其类别是娱乐,则按照发布时间降序排序时,信息C的类别娱乐、信息B的类别娱乐以及信息A的类别体育,按照发布时间升序排序时,信息A的类别体育、信息B的类别娱乐以及信息C的类别娱乐。
在步骤103中,从类别序列中提取表征至少一种维度的变异特征,其中,变异特征表征社交网络账号所发布的信息的变异程度。
作为示例,至少一个维度的变异特征包括类别波动特征、类别差异特征以及类别匹配特征,类别波动特征用于表征所发信息(文章/视频)之间的垂类波动程度,类别差异特征用于表征所发信息(文章/视频)之间的差异变化程度,类别匹配特征用于表征所发信息(文章/视频)与社交网络账号的定位(介绍信息)匹配程度。
基于图3A,参见图3B,图3B是本申请实施例提供的社交网络账号识别方法的流程示意图,当至少一个维度的变异特征包括类别波动特征时,步骤103中从类别序列中提取表征至少一种维度的变异特征可以通过图3B示出的步骤1031B-1036B实现。
在步骤1031B中,对类别序列进行第一轮采样处理,得到多个第一子序列。
在一些实施例中,步骤1031B中的第一轮采样处理、后续进行的第二轮采样处理、第三轮采样处理以及第四轮采样处理均属于不同轮次的采样处理,每个轮次的采样处理会进行多次采样,任一轮次的采样处理可以得到多个子序列,步骤1031B中的第一子序列、后续得到的第二子序列、第三子序列以及第四子序列是为了区分进行不同轮次采样(可以采用不同的采样窗口)采样得到的子序列,不是用于特指某个子序列,而是特指某轮次采样之后得到的一类子序列。
在一些实施例中,上述对类别序列进行第一轮采样处理,得到多个第一子序列,可以通过以下技术方案实现:通过第一采样窗口对类别序列进行多次滑动采样,将每次滑动后第一采样窗口内的多个类别作为采样得到的第一子序列;其中,第一采样窗口的长度小于类别序列的长度,且第一轮采样窗口的滑动步长小于第一采样窗口的长度。
在步骤1032B中,根据每个第一子序列中末尾类别的出现次数,确定与出现次数负相关的第一波动特征。
作为示例,第一波动特征与出现次数之间的关系是负相关关系,即可以对出现次数进行以下算子处理中的至少一种:将出现次数参数与出现次数相减,将出现次数与出现次数参数(负数)相乘,即第一波动特征与出现次数是一种减函数的关系,第一波动特征随着出现次数的增加而递减。
在一些实施例中,根据每个第一子序列中末尾类别在相应子序列中的出现次数,确定与出现次数负相关的第一波动特征,经过第一轮采样处理后,得到多个第一子序列,例如,针对类别序列(a,b,c,c,a,c,a)进行第一轮采样处理,采样窗口的大小为3,滑动步长为1,按照从前往后的顺序以固定滑动步长以及固定采样窗口从排序在首位的类别开始进行采样,以使序列中的每个类别对应为每次采样得到的子序列中的末尾类别,具体而言,进行本轮次的多次采样得到如下第一子序列:a,ab,abc,bcc,cca,cac,aca,针对第一子序列a而言,末尾类别是a,该类别在第一子序列a中的出现次数为1,针对第一子序列bcc而言,末尾类别是c,该类别在第一子序列bcc中的出现次数为2。
在一些实施例中,还可以针对类别序列(a,b,c,c,a,c,a)进行第一轮采样处理,采样窗口的大小为3,滑动步长为1,按照从前往后的顺序以固定滑动步长以及固定采样窗口从末尾类别开始进行采样,以使序列中的每个类别对应为每次采样得到的子序列中的末尾类别,具体而言,进行本轮次的多次采样得到如下第一子序列:abc,bcc,cca,cac,aca,针对第一子序列abc而言,末尾类别是c,该类别在第一子序列abc中的出现次数为1,针对第一子序列b cc而言,末尾类别是c,该类别在第一子序列bcc中的出现次数为2,即每次采样均获得固定长度的子序列,当采样无法得到固定长度的子序列时即停止采样,从而根据每个第一子序列中末尾类别在相应子序列中的出现次数,确定与出现次数负相关的第一波动特征。
在步骤1033B中,对类别序列进行第二轮采样处理,得到多个第二子序列。
在一些实施例中,上述对类别序列进行第二轮采样处理,得到多个第二子序列,可以通过以下技术方案实现:通过第二采样窗口对类别序列进行多次滑动采样,将每次滑动后第二采样窗口内的多个类别作为采样得到的第二子序列;其中,第二采样窗口的长度小于类别序列的长度,且第二轮采样窗口的滑动步长等于第二采样窗口的长度。
作为示例,由于第一轮采样窗口的滑动步长小于第一采样窗口的长度,则第一轮采样是有重叠采样,第一轮采样和第二轮采样的区别主要在于前者的滑动步长为1,是为了针对每个类别提取特征,后者的滑动步长为第二采样窗口的长度,即得到的多个第二子序列之间没有重叠,不存在某一信息的类别同时存在于两个第二子序列,相当于实现了针对类别序列的不重叠切分,第二轮采样是一种优选实施方式,能够准确捕捉序列的类别变异并且减少计算量,在其他的实施方式中,第一轮采样和第二轮采样均可以采取有重叠采样,或者均采取无重叠采样,针对无重叠采样而言,滑动的步长最小值是1,即以类别作为遍历基本单元,滑动的步长也可以取小于类别序列长度一半的其他值。
作为示例,第二轮采样处理过程中包括一个子轮次采样,首先针对类别序列进行第一子轮次采样,得到多个不重叠的第二子序列,例如,针对类别序列(a,b,c,c,a,c,a)进行第二轮采样处理,从类别序列中的首位类别开始采样,采样窗口的大小为3,滑动步长为3,即得到多个不重叠的第二子序列a bc,cac,a。
作为示例,参见图4,图4是本申请实施例提供的社交网络账号识别方法的序列采样示意图,第二轮采样处理过程中包括多个子轮次采样,首先针对类别序列进行第一子轮次采样,得到多个不重叠的第二子序列,例如,针对类别序列(a,b,c,c,a,c,a)进行第二轮采样处理中的第一子轮次采样,第一子轮次从类别序列中的首位类别开始采样,采样窗口的大小为3,滑动步长为3,即得到多个不重叠的第二子序列abc,cac,a,其中,第二子序列cac为第二子序列abc的相邻子序列,接着,针对类别序列(a,b,c,c,a,c,a)进行第二轮采样处理中的第二子轮次采样,第二子轮次从类别序列中的第二位类别开始采样,采样窗口的大小为3,滑动步长为3,即得到多个不重叠的第二子序列bcc,aca,其中,第二子序列aca为第二子序列bcc的相邻子序列,接着继续进行下一子轮次采样处理,下一子轮次采样处理与前一子轮次采样处理的区别在于采样开始的类别是序列中排序位置与轮次数目相同的类别,例如针对第三子轮次采样的开始位置是序列中从前往后排序在第三位的类别,直到子轮次采样处理的数目达到预设的子轮次采样数目阈值,例如,当子轮次采样数目阈值为2时,即完成上述的第一子轮次采样以及第二子轮次采样后,相当于完成了第二轮采样处理,子轮次采样数目阈值可以为将类别序列中类别数目与窗口大小的比值进行取整得到整数值,取整处理是仅取比值中的整数部分。
在步骤1034B中,确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度。
作为示例,相邻子序列是第二轮采样处理中在首个第二子序列之后被采集到的首个子序列。
作为示例,承接上述针对类别序列(a,b,c,c,a,c,a)进行第二轮采样,且第二轮采样处理过程中包括一个子轮次采样的情况,继续说明确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度的具体实施方式,得到多个第二子序列(abc,cac,a),确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度,即相当于确定第二子序列abc对应的信息与第二子序列cac对应的信息之间的类别相似度S1,2,以及确定第二子序列cac对应的信息与第二子序列a对应的信息之间的类别相似度S2,3
作为示例,参见图4,承接上述针对类别序列(a,b,c,c,a,c,a)进行第二轮采样,且第二轮采样处理过程中包括多个子轮次采样的情况,继续说明确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度的具体实施方式,第一子轮次从类别序列中的首位类别开始采样,经过第一子轮次采样,得到多个不重叠的第二子序列abc,cac,a,接着,针对类别序列(a,b,c,c,a,c,a)进行第二子轮次采样,第二子轮次从类别序列中的第二位类别开始采样,得到多个不重叠的第二子序列bcc,aca,子轮次采样数目阈值为2时,即完成上述的第一子轮次采样以及第二子轮次采样后,相当于完成了第二轮采样处理,确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度的过程是实际上是确定每个子轮次采样得到的多个子序列中的前两个子序列之间的类别相似度,在存在多个子轮次采样时,上述每个第二子序列指的是每个子轮次采样得到的首个第二子序列,即确定经过第一子轮次采样得到第二子序列abc,cac之间的对应信息的类别相似度S1,2,以及确定经过第二子轮次采样得到第二子序列bcc,aca之间的对应信息的类别相似度S2,3
在一些实施例中,上述确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度,可以通过以下技术方案实现:针对每个第二子序列执行以下处理:将第二子序列包括的每个类别对应的词向量组合,得到第二子序列的词向量,并将相邻子序列包括的每个类别对应的词向量组合,得到相邻子序列的词向量;将第二子序列的词向量与相邻子序列的词向量之间的余弦距离,确定为第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度。
作为示例,词向量模型是考虑词语位置关系的模型,通过大量语料的训练,将每个词语映射到向量当中,并将第二子序列中每个词向量进行组合得到序列的词向量,进而通过求余弦距离的方式,从而确定出第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度,类别相似度与余弦距离成负相关。
作为示例,还可以利用词袋模型确定序列之间的类别相似度,将第二子序列中每个类别的词语装进一个袋子里,不考虑其词法和语序,即每个词语都是独立的。例如,针对第二子序列abc,cac,就可以构成一个由a、b、c组成的词袋,建立一个数组用于映射匹配词袋里的词[a,b,c],第二子序列abc映射为向量[1,1,1],由a对应的词向量[1,0,0]、b对应的词向量[0,1,0]以及c对应的词向量[0,0,1]组合而成,第二子序列cac映射为向量[1,0,2],由c对应的词向量[0,0,1]、a对应的词向量[1,0,0]以及c对应的词向量[0,0,1]组合而成,进而通过求两个子序列映射得到的向量的余弦距离的方式,从而确定出第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度,类别相似度与余弦距离成负相关。
在一些实施例中,上述确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度,可以通过以下技术方案实现:针对每个第二子序列执行以下处理:生成第二子序列的词表,其中,第二子序列的词表包括第二子序列对应的多个信息中每个词语在多个信息中整体的出现次数,并生成相邻子序列的词表,其中,相邻子序列的词表包括相邻子序列对应的多个信息中每个词语在多个信息中整体的出现次数;将第二子序列的词表与相邻子序列的词表之间的相似度,确定为子序列对应的信息与相邻子序列对应的信息之间的类别相似度。
在一些实施例中,针对多个信息中的每个信息提取至少一个关键词建立词表,将所提取的关键词对应的词向量组合作为对应信息的向量表示,进而计算每个向量表示之间的余弦距离,类别相似度与余弦距离成负相关,在建立词表之前,可以将多个信息的多个关键词中语义相近的关键词统一为一个词语,避免由于进行简单的词语替换,而将相同语义的多个关键词用不同的向量表示,从而导致计算得到的类别相似度偏小或偏大的情况,进而导致社交网络账号的原创识别结果不准确。
在步骤1035B中,确定与类别相似度负相关的第二波动特征。
作为示例,第二波动特征与类别相似度之间的关系是负相关关系,即可以对类别相似度进行以下算子处理中的至少一种:将类别相似参数与类别相似度相减,将类别相似度与类别相似参数(负数)相乘,即第二波动特征与类别相似度是一种减函数的关系,第二波动特征随着类别相似度的增加而递减。
在步骤1036B中,将每个第一子序列对应的第一波动特征进行融合处理,和/或,将每个第二子序列对应的第二波动特征进行融合处理,并将融合处理结果作为类别序列的类别波动特征。
作为示例,将每个第一子序列对应的第一波动特征进行融合处理实际上是将第一波动特征进行融合处理,实际上是对第一波动特征进行相加或者相乘处理或者是进行多次幂处理之后进行对应的开方处理,将每个第二子序列对应的第二波动特征进行融合处理实际上是将第二波动特征进行融合处理,实际上是对第二波动特征进行相加或者相乘处理或者是进行多次幂处理之后进行对应的开方处理,这里的和/或表征存在以下三种实施方式:仅将每个第一子序列对应的第一波动特征进行融合处理实际上是将第一波动特征进行融合处理,即对多个第一波动特征进行相加或者相乘处理或者是进行多次幂处理之后进行对应的开方处理,仅将每个第二子序列对应的第二波动特征进行融合处理实际上是将第二波动特征进行融合处理,即对第二波动特征进行相加或者相乘处理或者是进行多次幂处理之后进行对应的开方处理,将每个第一子序列对应的第一波动特征进行融合处理实际上是将第一波动特征进行融合处理,即对多个第一波动特征进行相加或者相乘处理或者是进行多次幂处理之后进行对应的开方处理(得到第一融合结果)、并将每个第二子序列对应的第二波动特征进行融合处理实际上是将第二波动特征进行融合处理,即对第二波动特征进行相加或者相乘处理或者是进行多次幂处理之后进行对应的开方处理(得到第二融合结果),且将这两种融合结果进行一步的融合处理(相乘或者相加)。
作为示例,这里对进行融合处理的算子不进行限定,但是经过融合处理得到的类别波动特征与任一波动特征之间的关系是正相关关系,即类别波动特征与任一波动特征之间是一种增函数的关系,类别波动特征随着任一波动特征的增加而递减。
基于图3A,参见图3C,图3C是本申请实施例提供的社交网络账号识别方法的流程示意图,当至少一个维度的变异特征包括类别差异特征时,步骤103中从类别序列中提取表征至少一种维度的变异特征可以通过图3C示出的步骤1031C-1034C实现。
在步骤1031C中,对类别序列进行第三轮采样处理,得到多个第三子序列。
作为示例,步骤1031C中进行第三轮采样处理的方式可以参考步骤1031B以及步骤1033B中的采样方式,可以进行重叠采样或者无重叠采样,步骤1031C中的优选采样方式是以步长为1,滑动窗口大小为1的方式进行顺序采样,例如,针对类别序列(b,c,c,a,c,a)进行采样得到的第三子序列为a,b,c,c,a,c,a。
在步骤1032C中,确定每个第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度。
作为示例,相邻子序列是在第三轮采样处理中在首个第三子序列之后首个被采集到的子序列。
作为示例,第三子序列实质上是类别序列,而类别实际上是基于信息得到的,即第三子序列中的每个类别均存在对应的信息,针对于每个信息,存在至少一个标签,因此,进一步确定每个第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度,即从更加细粒度的标签维度的指标来描述类别的差异。
在一些实施例中,上述确定每个第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度,可以通过以下技术方案实现:针对每个第三子序列执行以下处理:生成第三子序列的标签集合,其中,第三子序列的标签集合包括第三子序列对应的每个信息所关联的标签,并生成相邻子序列的标签集合,其中,相邻子序列的标签集合包括相邻子序列对应的每个信息所关联的标签;确定第三子序列的标签集合与相邻子序列的标签集合之间的标签重合比例,将标签重合比例确定为第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度。
作为示例,承接步骤1031C中的优选采样方式继续说明确定每个第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度的实施方式,生成第三子序列a,b,c,c,a,c,a,其中,第三子序列a,b是互为相邻关系的子序列,即第三子序列b是第三子序列a的相邻子序列,针对第三子序列a而言,确定第三子序列a所对应的信息的标签集合,例如,第三子序列a为体育,第三子序列a所对应的信息为运动员刘某夺冠新闻,第三子序列a所对应的信息的标签集合为由标签刘某、夺冠、短跑组成的标签集合,采取相同的方式确定相邻子序列b的标签集合,相邻子序列b的标签集合中包括标签夺冠、短跑以及李某。
在一些实施例中,上述确定第三子序列的标签集合与相邻子序列的标签集合之间的标签重合比例,可以通过以下技术方案实现:确定第三子序列的标签集合与相邻子序列的标签集合之间的标签交集、以及第三子序列的标签集合与相邻子序列的标签集合之间的标签并集;根据标签交集的标签数目与标签并集的标签数目的比值,确定第三子序列的标签集合与相邻子序列的标签集合之间的标签重合比例;其中,标签重合比例与标签交集的标签数目正相关、与标签并集的标签数目负相关。
作为示例,承接上述第三子序列a以及第三子序列b继续说明确定第三子序列的标签集合与相邻子序列的标签集合之间的标签重合比例的实施方式,确定第三子序列的标签集合与相邻子序列的标签集合之间的标签交集(由夺冠、短跑组成的集合)、以及第三子序列的标签集合与相邻子序列的标签集合之间的标签并集(由夺冠、短跑、刘某、以及李某组成的集合);根据标签交集的标签数目(数目为2)与标签并集的标签数目(数目为4)的比值,确定第三子序列的标签集合与相邻子序列的标签集合之间的标签重合比例;其中,标签重合比例与标签交集的标签数目正相关、与标签并集的标签数目负相关,最简单的实施方式是将标签交集的标签数目与标签并集的标签数目的比值直接作为标签重合比例。
在步骤1033C中,确定与标签重合度负相关的子序列差异特征。
作为示例,子序列差异特征与标签重合度之间的关系是负相关关系,即可以对标签重合度进行以下算子处理中的至少一种:将标签重合度参数与标签重合度相减,将标签重合度与标签重合度参数(负数)相乘,即子序列差异特征与标签重合度是一种减函数的关系,子序列差异特征随着标签重合度的增加而递减。
在步骤1034C中,将每个第三子序列的子序列差异特征进行融合处理,将融合处理结果作为类别序列的类别差异特征。
作为示例,将每个第三子序列对应的子序列差异特征进行融合处理,实际上是对子序列差异特征进行相加或者相乘处理,或者是进行多次幂处理之后进行对应的开方处理。这里对进行融合处理的算子不进行限定,但是经过融合处理得到的类别差异特征与任一子序列差异特征之间的关系是正相关关系,即类别差异特征与任一子序列差异特征之间是一种增函数的关系,类别差异特征随着任一子序列差异特征的增加而递减。
基于图3A,参见图3D,图3D是本申请实施例提供的社交网络账号识别方法的流程示意图,当至少一个维度的变异特征包括类别匹配特征时,步骤103中从类别序列中提取表征至少一种维度的变异特征可以通过图3C示出的步骤1031D-1033D实现。
在步骤1031D中,对类别序列中进行第四轮采样处理,得到多个第四子序列。
作为示例,步骤1031D中进行第三轮采样处理的方式可以参考步骤1031B、步骤1033B以及步骤1031C中的采样方式,可以进行重叠采样或者无重叠采样,步骤1031D中的优选采样方式是以步长为1,滑动窗口大小为1的方式进行顺序采样,例如,针对类别序列(b,c,c,a,c,a)进行采样得到的第三子序列为a,b,c,c,a,c,a。
作为示例,第四子序列实质上是类别序列,而类别实际上是基于信息得到的,即第四子序列中的每个类别均存在对应的信息,针对于每个信息,存在至少一个标签,因此,进一步确定每个第四子序列对应的信息与社交网络账号之间的标签匹配度,即从更加细粒度的标签维度的指标来描述类别与社交网络账号之间的定位的匹配程度。
在步骤1032D中,确定每个第四子序列对应的信息与社交网络账号之间的标签匹配度,确定与标签匹配度负相关的标签匹配特征。
在一些实施例中,上述确定每个第四子序列对应的信息与社交网络账号之间的标签匹配度,可以通过以下技术方案实现:针对每个第四子序列执行以下处理:生成第四子序列的标签集合,其中,第四子序列的标签集合包括:第四子序列对应的每个信息所关联的标签;生成社交网络账号的标签集合,其中,社交网络账号的标签集合包括:社交网络账号的介绍信息所关联的标签;确定第四子序列的标签集合与社交网络账号的标签集合之间的标签重合比例,将标签重合比例确定为第四子序列对应的信息与社交网络账号之间的标签匹配度。
作为示例,承接步骤1031D中的优选采样方式继续说明确定每个第四子序列对应的信息与社交网络账号之间的标签匹配度的实施方式,生成第四子序列a,b,c,c,a,c,a,针对第四子序列a而言,确定第四子序列a所对应的信息的标签集合,例如,第四子序列a为体育,第四子序列a所对应的信息为运动员刘某夺冠新闻,第四子序列a所对应的信息的标签集合为由标签刘某、夺冠、短跑组成的标签集合。社交网络账号的标签集合包括:社交网络账号的介绍信息所关联的标签,介绍信息可以是社交网络账号注册时所提交并关联的介绍信息,用于介绍社交网络账号的发文类别、以及擅长领域等等,所起的作用类似于书的前言或者是论文的摘要,介绍信息所关联的标签可以是由社交网络账号提交的标签,或者是根据介绍信息进行关键词提取处理自动生成的标签,例如,社交网络账号的标签集合为为由标签短跑、长跑、跨栏组成的标签集合。
作为示例,标签匹配特征与标签匹配度之间的关系是负相关关系,即可以对标签匹配度进行以下算子处理中的至少一种:将标签匹配度参数与标签匹配度相减,将标签匹配度与标签匹配度参数(负数)相乘,即标签匹配特征与标签匹配度是一种减函数的关系,标签匹配特征随着标签匹配度的增加而递减,进一步的标签匹配度参数可以是固定值或者是变化值,当标签匹配度参数为变化值时,标签匹配度参数是与标签集合所关联的信息的发布时间相关,发布时间越久远,则标签匹配度参数的绝对值越小,发布时间越靠近当前时间,则标签匹配度参数的绝对值越大,标签匹配度参数的绝对值与发布时间距离当前时间的距离成负相关。
在一些实施例中,上述确定第四子序列的标签集合与社交网络账号的标签集合之间的标签重合比例,可以通过以下技术方案实现:确定第四子序列的标签集合与社交网络账号的标签集合包括的相同标签的数目;根据数目确定第四子序列的标签集合与社交网络账号的集合之间的标签重合比例;其中,标签重合比例与数目正相关、与社交网络账号的标签集合的标签的数目负相关。
作为示例,承接上述第四子序列a继续说明确定第四子序列的标签集合与社交网络账号的标签集合之间的标签重合比例的实施方式,确定第四子序列的标签集合与社交网络账号的标签集合包括的相同标签的数目(数目为1,标签短跑);根据数目确定第四子序列的标签集合与社交网络账号的集合之间的标签重合比例;其中,标签重合比例与数目正相关、与社交网络账号的标签集合的标签的数目(数目为3)负相关,最简单的实施方式是将数目与社交网络账号的标签数目的比值直接作为标签重合比例。
在步骤1033D中,将每个第四子序列的标签匹配特征进行融合处理,将融合处理结果作为类别序列的类别匹配特征。
作为示例,将每个第四子序列对应的标签匹配特征进行融合处理,实际上是对标签匹配特征进行相加或者相乘处理,或者是进行多次幂处理之后进行对应的开方处理。这里对进行融合处理的算子不进行限定,但是经过融合处理得到的类别匹配特征与任一标签匹配特征之间的关系是正相关关系,即类别匹配特征与任一标签匹配特征之间是一种增函数的关系,类别匹配特征随着任一标签匹配特征的增加而递减。
在步骤104中,根据至少一种维度的变异特征,确定社交网络账号的原创识别结果。
作为示例,根据至少一种维度的变异特征可以确定出社交网络账号的变异等级,进而根据社交网络账号的变异等级确定出与变异等级负相关的原创等级,针对不同的原创等级可以执行不同的分发推荐策略。
在一些实施例中,步骤104中根据至少一种维度的变异特征,确定社交网络账号的原创识别结果,可以通过以下技术方案实现:确定与任意一种维度的变异特征正相关的变异分数;或者对至少一种维度的变异特征进行融合处理,并确定与融合处理结果正相关的变异分数;执行以下操作至少之一:将与变异分数所处的分数区间关联的变异等级,确定为社交网络账号的变异等级;其中,不同的分数区间对应不同的变异等级,且变异等级与社交网络账号的原创程度负相关;当变异分数高于或等于变异分数阈值时,确定社交网络账号为变异账号,当变异分数低于变异分数阈值时,确定社交网络账号为原创账号。
作为示例,变异分数与变异特征之间的关系是正相关关系,即可以对变异特征进行以下算子处理中的至少一种:将变异特征参数与变异特征相加,将变异特征与变异特征参数(正数)相乘,即变异分数与变异特征是一种增函数的关系,变异分数随着变异特征的增加而递减。
作为示例,对至少一种维度的变异特征进行融合处理,实际上是对变异特征进行相加或者相乘处理,或者是进行多次幂处理之后进行对应的开方处理,这里对进行融合处理的算子不进行限定,但是经过融合处理得到的变异分数与任一变异特征之间的关系是正相关关系,即变异分数与任一变异特征之间是一种增函数的关系,变异分数随着变异特征的增加而递减。
作为示例,不同的分数区间对应不同的变异等级,将与变异分数所处的分数区间关联的变异等级,确定为社交网络账号的变异等级;变异等级与社交网络账号的原创程度负相关,从而根据变异等级确定社交网络账号的原创程度,即对原创程度进行细粒度划分,不同的分数区间对应不同的原创程度,从而对应不同的信息分发推荐策略。
作为示例,当变异分数高于或等于变异分数阈值时,确定社交网络账号为变异账号,当变异分数低于变异分数阈值时,确定社交网络账号为原创账号,即对社交网络账号进行二分类,分类为变异账号以及原创账号,从而执行不同的信息分发推荐策略。
在一些实施例中,在执行步骤104确定社交网络账号的原创识别结果之后,还可以执行以下技术方案:执行以下处理中的至少一种:当社交网络账号为变异账号时,降低发送社交网络账号的发布内容的权重、或限制发送社交网络账号的发布内容的次数、或取消发送社交网络账号的发布内容;根据社交网络账号的变异程度,降低或取消社交网络账号的发布内容的分发费用减免额度;根据社交网络账号的变异程度,降低社交网络账号的发布内容在内容审核队列中的排序优先级;当社交网络账号为变异账号时,将社交网络账号的发布内容调整到内容审核队列的末尾。
作为示例,当社交网络账号为变异账号时,降低在社交网络中发送社交网络账号的发布内容的权重,权重低的发布内容在排序时的优先级低,从而被分发的机会降低,即降低在社交网络中发送社交网络账号的发布内容的分发率、或限制发送社交网络账号的发布内容的次数、或取消发送社交网络账号的发布内容;根据社交网络账号的变异程度,降低或取消社交网络账号的发布内容的分发费用减免额度,分发费用减免额度与变异程度成正相关;根据社交网络账号的变异程度,降低社交网络账号的发布内容在内容审核队列中的排序优先级,降低排序优先级的幅度与变异程度成正相关,变异程度越高,降低排序优先级的幅度越大。
下面,将说明本申请实施例提供的社交网络账号识别方法在一个实际的应用场景中的示例性应用。
本申请实施例提供一种社交网络账号识别方法,通过无监督机器学习方法来对账号发布内容与账号本身定位及发布内容之间的变化关系进行建模识别,其核心思想是对以下三个维度:所发文章/视频之间的垂类是否波动很大、所发文章/视频之间的差异是否很大、所发文章/视频是否与账号定位匹配来综合考量一个自媒体账号的变异情况,每个维度单独量化得到对应特征,最后将这些特征融合为量化分数来对社交网络账号进行变异程度的排序,可以依据不同的情况设定不同变异等级的阀值,从而对社交网络账号进行明确的等级区分,并对应采用不同的策略。获取先验数据和后验的账号发文数据,模型可以每天依据数据的变化随时更新和刷新账号的变异排序数据,确保账号变异程度数据的实时性,通常内容平台不限制社交网络账号的发文内容,社交网络账号可在多个领域发表文章。但平台会根据账号的入驻分类以及读者的阅读行为数据,判断出社交网络账号的擅长领域。通过本申请实施例提供的社交网络账号识别方法,能够让社交网络账号的发布信息聚焦专门的领域,提高发布信息的内容质量、以及信息转化率,并且有效降低重复以及低质量信息的分发率,从而降低后台服务器资源浪费;无监督的建模方法不需要进行人工标注,降低了人工成本且提升处理的时效性。
社交网络账号可以为自媒体账号,在社交网络账号生产和发文的主流程链路上,通过调用社交网络账号识别服务来识别账号的变异程度排名,然后依据的不同的场景采用不同的应用策略,对于账号变异的识别结果,可以用在如下几个场景:(1)在识别结果为无原创账号时,进行推荐分发时对于变异账号发布的内容进行降权分发或者限制分发,甚至取消分发,从而使得用户对账号和账号发文的一致性能够有良好的感知;(2)依据变异程度降低变异账号补贴的激励的力度,或者根据平台的运营策略取消变异账号的补贴和激励,限制变异账号的发文频率;(3)在内容审核链路上,由于审核资源的有限,同时为了让原创头部账号的内容尽快完成处理和分发,在审核调度时候将变异账号放在审核调度的队列末尾以等待审核;(4)对恶意变异账号,即发文与定位方向严重不符的变异账号进行管理,在发布多篇变异内容造成用户困扰后,账号将被封号。上述各种场景都需要对变异账号进行准确的识别和排序判断。通常内容平台不限制社交网络账号的发文内容,社交网络账号可在多个领域发表文章。但平台会根据社交网络账号的入驻分类,以及读者的阅读行为数据,判断出社交网络账号发布信息的擅长领域。社交网络账号发表擅长领域之外的内容,账号垂直度指数会降低,如果长期发布与社交网络账号定位不符的内容,严重影响和误导用户阅读,就会被判定为是变异账号,读者对内容的认同是最重要的,垂直度指数在整个自媒体指数计算中主要起辅助修正的作用。
在本申请实施例提供的社交网络账号识别方法中,社交网络账号的识别主要考虑三个维度的特征:(1)所发文章/视频之间的垂类是否波动很大;(2)所发文章/视频之间的差异是否很大;(3)所发文章/视频是否与账号定位匹配,这三个维度用于综合评价社交网络账号的变异情况,对每个维度进行单独量化,最后将每个维度的特征融合为量化分数来对账号进行变异程度的排序,可以依据不同的应用场景设定不同变异等级的阀值,从而对社交网络账号进行明确的等级区分,以采用不同的策略。在本申请实施例提供的社交网络账号识别方法中,可以获取先验的账号发文数据、以及后验的账号发文数据,模型可以每天依据数据的变化随时更新和刷新账号的变异排序数据,以确保账号变异程度数据变化的实时性,这三个维度特征的挖掘由变异账号特征挖掘模型获取账号发文统计数据、账号发文标记分类以及标签数据得到,最后由变异账号识别服务实现上述量化识别功能。
判断变异账号的其中一个维度是判断所发文章/视频之间的垂类是否波动很大,其核心思路是将社交网络账号的发文垂类按照发文时间先后排序进行排序,从而刻画每篇文章或者视频的垂类波动程度,参见图5,图5是本申请实施例提供的社交网络账号识别方法的序列采样示意图,每个社交网络账号发布的内容都有一个所属类目(一级类目),类目构成一个连续的序列,通过下述公式(1)来具体表达垂类波动程度:
Figure BDA0002642377650000291
其中,C表示发文垂类变化分数,分数越大表示发文垂类波动越大,n表示社交网络账号一个月内的发文数量,i表示按照发文时间先后顺序排序的第i篇文章/视频,windowLengt表示滑动窗口的大小,可以设置在5-10之间,CnChanni(假设如果滑动窗口大小为5)表示第i篇文章发文垂类在前5篇文章中出现的次数,Simi,i+1表示将发文垂类序列按照滑动窗口大小不重叠切分,相邻两段发文垂类构成词袋模型(Bag-of-words model),并计算两者之间的相似度,从而刻画两段时间内发文垂类的分布差异性,词袋模型是将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立。
判断变异账号的其中一个维度是判断所发文章/视频之间的差异是否很大,其核心思路是将社交网络账号发文的标签按照发文时间先后排序,刻画相邻两篇文章/视频标签之间的相似性,用于描述文章/视频之间的差异,参见图6,图6是本申请实施例提供的社交网络账号识别方法的序列采样示意图,通过下述公式(2)来具体表达差异:
Figure BDA0002642377650000301
其中,T表示发文标签的相似分数,分数越大表示发文之间的差异越大,n表示账号一个月发文数量,i表示按照发文时间先后顺序排序的第i篇文章/视频,IntersectionSizei,i+1表示第i篇文章/视频和第i+1篇文章/视频之间的标签交集大小,UnionSizei,i+1表示第i篇文章/视频和第i+1篇文章/视频之间的标签(tag)并集大小。
判断变异账号的其中一个维度是判断所发文章/视频是否与账号定位匹配,其核心思路是刻画一个账号所有发文的标签命中账号简介和账号名字的程度,用于描述所发文章/视频与账号的匹配程度,通过下述公式(3)来具体表达匹配程度:
Figure BDA0002642377650000302
其中,M表示发文与账号的匹配程度,分数越大表示越不匹配,n表示账号一个月发文数量,i表示按照发文时间先后顺序排序的第i篇文章/视频,HitTags表示第i篇文章/视频命中账号名字和简介的标签数量,CntTagsi表示第i篇文章/视频的所有的标签数量,wi表示第i篇文章/视频发文的时间权重,距离当前时间越近的发文表示权重越大。
在获取上述三个维度的分数之后,通过融合模型中的下述公式(4)进行计算:
S=(μ+C)α(π+T)β(σ+M)γ (4);
其中,S表示社交网络账号最后的变异得分,α、β、γ表示权重参数,例如:α=0.5,β=5,γ=0.5,μ、π、σ表示平滑系数,例如:μ=0.04,π=0.08,σ=0.0001。
社交网络账号评分等级可以用于审核调度排序(将变异程度高的账号排在审核队列末尾)和执行账号打击封禁及降权处理,这样有助于平台整体提升优质自媒体内容分发的概率,减少低质账号分发的概率,增进整个平台的健康度。
参见图7,图7是本申请实施例提供的应用社交网络账号识别方法的内容分发示意图。
图7中包括用户端端发布系统或者网页端发布系统(内容生产端)和内容消费端,通过移动端或者后端接口应用程序接口系统接收PGC或者UGC,MCN或者PUGC的内容生产者提供的本地或者网页发布系统提供的图文内容或者上传视频内容,包括短视频和小视频,这些都是分发内容的主要内容来源,内容发布者的账号(社交网络账号)首先是需要申请和注册的,申请和注册的时候会选择一个所属的类别或者申请为综合账号,通常这个环节需要设置审核环节,已审核申请者是否具有申请资格;通过和上下行内容接口服务器的通讯,先获取上传服务器接口地址,然后再发布内容;消费者终端和上下行内容接口服务器通讯,以获取访问内容的索引信息,然后和上下行内容接口服务器和内容出口服务通讯以直接消费内容,消费内容的前提通过信息流推荐分发获得内容的索引;信息流、用户点击行为、以及环境的上报模块,收集用户当前网络环境及用户对信息流中间信息的点击操作行为和信息流内容的曝光数据,以上报给统计上报接口服务器;如果是视频内容,则上报视频的播放时长,缓存时间及针对视频内容的各种互动行为比如转发,分享,收藏,点赞等。
图7中包括上下行内容接口服务器和内容出口服务,上下行内容接口服务器和内容生产端直接通讯,从前端提交的内容通常是内容的标题,发布者,摘要,封面图,发布时间,将内容存储在内容数据库;内容出口服务和推荐分发系统通讯以获取推荐分发的结果,并将结果下发到消费端展示在用户的信息流列表当中;内容出口服务通常是一组地域上就近部署在用户附近的接入服务;同时给统计接口服务器上报每个账号的发文流水信息,包括发文时间,内容类型,同时也把社交网络账号提供的内容标记信息,比如分类,标签,选择的封面图,标题作为扩展信息保存在内容数据库当中。
图7中包括内容数据库,内容的核心数据库保存有所有生产者发布内容的元信息,重点是内容本身的元信息,比如元信息大小,封面图链接,标题,发布时间,账号作者,来源渠道,入库实践,还包括人工审核过程中对内容的分类(包括一,二,三级分类和标签信息,比如一篇讲解x果手机的文章,一级分类是科技,二级分类是智能手机,三级分类是国外手机,标签信息是x果与型号,对于视频内容,通常在审核过程当中由机器辅助生产分类和标签;人工审核过程当中会会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库当中保存,人工审核结果也是后续衡量算法过滤模型效率的一个重要依据;整个业务流程当中内容处理主要包括机器处理和人工审核处理,依据不同的内容标记,内容库分为不同的内容池,推荐分发服务器、排重服务器、以及内容特征建模服务都需要从内容数据库当中获取内容,比如图文排重服务器会依据业务需求加载过去一段时间(如一周)已经入库启用的内容,对于重复重新入库的内容将加上过滤标记不再提供给内容推荐服务输出到用户;排重服务和变异账号识别服务都是机器处理过程,处理的结果保存在内容数据库当中。
图7中包括调度中心,调度中心负责内容流转的整个调度过程,通过上下行内容接口服务器接收入库的内容,然后从内容数据库中获取内容的元信息;调度中心调度排重服务器,对重复入库的内容进行标记和过滤,同时把去重流水信息同步给搬运特征挖掘模型模块作为输入;调度中心调度变异账号识别服务,评估计算每一发文账号的变异(人工已经标记和认证为原创账号的账号可以豁免不经过这个过程)分数排名,用于后续的人工审核调度或者分发过程降权等实际应用场景当中;对于机器无法处理的内容,比如政治敏感,安全问题等需要人工审核的内容,调度中心调用人工审核系统进行人工审核的处理。
图7中包括人工审核服务系统,人工审核服务系统需要读取内容数据库中视频内容本身的原始信息,通常是一个复杂的基于网页数据库开发的系统,主要是确保推送的内容符合当地法律和政策允许的访问,比如是否涉及色情,赌博,政治敏感的特性以进行一轮初步过滤;审核的内容来自自媒体主动发布和网络爬虫从公共网络上获取的内容;审核的结果最后通过调度中心,写入内容数据库当中。
图7中包括排重服务,排重服务和内容调度服务器通讯,排重服务主要包括标题去重,封面图的图片去重,内容正文去重及视频指纹和音频指纹去重,通常是将图文内容标题和正文向量化,采用思姆哈希(simmhash)及转换器的双向编码表示(BERT)获取正文向量以及图片向量,对图片向量进行去重处理,对于视频内容,抽取视频指纹和音频指纹以构建向量,然后计算向量之间的距离,比如欧式距离来确定是否重复。
图7中包括统计上报接口服务器,统计上报接口服务器接收内容消费端上报的用户的当前网络环境、用户对信息流中间信息的点击操作行为、以及信息流文章的曝光数据;统计上报接口服务器将上报的统计数据结果写入统计数据库;统计上报接口服务器接受内容生产入口服务上报的账号发文原始流水信息。
图7中包括变异特征模型挖掘,变异特征模型挖掘按照上面描述的无监督模型,通过内容处理过程和账号发文流水的统计信息,构建所发文章/视频之间的垂类是否波动很大,所发文章/视频之间的差异是否很大,所发文章/视频是否与账号定位匹配的量化特征,建模的内容数据通过读取内容数据库当中的内容元数据以及统计数据库获得。
图7中包括变异账号识别服务,变异账号识别服务搬运特征变异特征模型挖掘的特征结果来进行变异账号的量化评估,其核心是实现变异账号识别的融合,具体融合公式及参数参见公式(4)以及对应描述;变异账号识别服务与调度中心服务通讯,以完成发文的社交网络账号的变异等级识别标记。
图7中包括统计数据库,统计数据库接收内容消费端的统计数据上报,为后续的统计分析和挖掘提供数据支撑;统计数据库接收内容生产端的发文流水上报。
通过本申请实施例提供的社交网络账号识别方法能够让社交网络账号的发布信息聚焦专门的领域,提高发布信息的内容质量、以及信息转化率,并且有效降低重复以及低质量信息的分发率,从而降低后台服务器资源浪费;无监督的建模方法不需要进行人工标注,降低了人工成本且提升处理的时效性。
下面继续说明本申请实施例提供的社交网络账号识别装置255实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的社交网络账号识别装置255中的软件模块可以包括:接收模块2551,用于接收社交网络账号发布的多个信息、以及对应的类别和发布时间;组合模块2552,用于根据的多个信息的发布时间的先后顺序,将多个信息的类别组合成类别序列;提取模块2553,用于从类别序列中提取表征至少一种维度的变异特征,其中,变异特征表征社交网络账号所发布的信息的变异程度;确定模块2554,用于根据至少一种维度的变异特征,确定社交网络账号的原创识别结果。
在一些实施例中,至少一个维度的变异特征包括类别波动特征;提取模块2553,还用于:对类别序列进行第一轮采样处理,得到多个第一子序列;根据每个第一子序列中末尾类别的出现次数,确定与出现次数负相关的第一波动特征;对类别序列进行第二轮采样处理,得到多个第二子序列;确定每个第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度;确定与类别相似度负相关的第二波动特征;将每个第一子序列对应的第一波动特征进行融合处理,和/或,将每个第二子序列对应的第二波动特征进行融合处理,并将融合处理结果作为类别序列的类别波动特征;其中,相邻子序列是第二子序列后之后被采集到的子序列。
在一些实施例中,提取模块2553,还用于:通过第一采样窗口对类别序列进行多次滑动采样,将每次滑动后第一采样窗口内的多个类别作为采样得到的第一子序列;其中,第一采样窗口的长度小于类别序列的长度,且第一轮采样窗口的滑动步长小于第一采样窗口的长度;通过第二采样窗口对类别序列进行多次滑动采样,将每次滑动后第二采样窗口内的多个类别作为采样得到的第二子序列;其中,第二采样窗口的长度小于类别序列的长度,且第二轮采样窗口的滑动步长等于第二采样窗口的长度。
在一些实施例中,提取模块2553,还用于:针对每个第二子序列执行以下处理:将第二子序列包括的每个类别对应的词向量组合,得到第二子序列的词向量,并将相邻子序列包括的每个类别对应的词向量组合,得到相邻子序列的词向量;将第二子序列的词向量与相邻子序列的词向量之间的余弦距离,确定为子序列对应的信息与相邻子序列对应的信息之间的类别相似度。
在一些实施例中,提取模块2553,还用于:针对每个第二子序列执行以下处理:生成第二子序列的词表,其中,第二子序列的词表包括第二子序列对应的多个信息中每个词语的出现次数,并生成相邻子序列的词表,其中,相邻子序列的词表包括相邻子序列对应的多个信息中每个词语的出现次数;将第二子序列的词表与相邻子序列的词表之间的相似度,确定为子序列对应的信息与相邻子序列对应的信息之间的类别相似度。
在一些实施例中,至少一个维度的变异特征包括类别差异特征;
提取模块2553,还用于:对类别序列进行第三轮采样处理,得到多个第三子序列;确定每个第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度;确定与标签重合度负相关的子序列差异特征;将每个子序列的子序列差异特征进行融合处理,将融合处理结果作为类别序列的类别差异特征;其中,相邻子序列是第三子序列后之后被采集到的子序列。
在一些实施例中,提取模块2553,还用于:针对每个第三子序列执行以下处理:生成第三子序列的标签集合,其中,第三子序列的标签集合包括第三子序列对应的每个信息所关联的标签,并生成相邻子序列的标签集合,其中,相邻子序列的标签集合包括相邻子序列对应的每个信息所关联的标签;确定第三子序列的标签集合与相邻子序列的标签集合之间的标签重合比例,将标签重合比例确定为第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度。
在一些实施例中,提取模块2553,还用于:确定第三子序列的标签集合与相邻子序列的标签集合之间的标签交集、以及第三子序列的标签集合与相邻子序列的标签集合之间的标签并集;根据标签交集的标签数目与标签并集的标签数目的比值,确定第三子序列的标签集合与相邻子序列的标签集合之间的标签重合比例;其中,标签重合比例与标签交集的标签数目正相关、与标签并集的标签数目负相关。
在一些实施例中,至少一个维度的变异特征包括类别匹配特征;提取模块2553,还用于:对类别序列中进行第四轮采样处理,得到多个第四子序列;确定每个第四子序列对应的信息与社交网络账号之间的标签匹配度,确定与标签匹配度负相关的标签匹配特征;将每个子序列的标签匹配特征进行融合处理,将融合处理结果作为类别序列的类别匹配特征。
在一些实施例中,提取模块2553,还用于:针对每个第四子序列执行以下处理:生成第四子序列的标签集合,其中,第四子序列的标签集合包括:第四子序列对应的每个信息所关联的标签;生成社交网络账号的标签集合,其中,社交网络账号的标签集合包括:社交网络账号的介绍信息所关联的标签;确定第四子序列的标签集合与社交网络账号的标签集合之间的标签重合比例,将标签重合比例确定为第四子序列对应的信息与社交网络账号之间的标签匹配度。
在一些实施例中,提取模块2553,还用于:确定第四子序列的标签集合与社交网络账号的标签集合包括的相同标签的数目;根据数目确定第四子序列的标签集合与社交网络账号的集合之间的标签重合比例;其中,标签重合比例与数目正相关、与社交网络账号的标签集合的标签的数目负相关。
在一些实施例中,确定模块2554,还用于:确定与任意一种维度的变异特征正相关的变异分数;或者对至少一种维度的变异特征进行融合处理,并确定与融合处理结果正相关的变异分数;执行以下操作至少之一:将与变异分数所处的分数区间关联的变异等级,确定为社交网络账号的变异等级;其中,不同的分数区间对应不同的变异等级,且变异等级与社交网络账号的原创程度负相关;当变异分数高于或等于变异分数阈值时,确定社交网络账号为变异账号,当变异分数低于变异分数阈值时,确定社交网络账号为原创账号。
在一些实施例中,装置还包括:执行模块2555,用于:执行以下处理中的至少一种:当社交网络账号为变异账号时,降低发送社交网络账号的发布内容的权重、或限制发送社交网络账号的发布内容的次数、或取消发送社交网络账号的发布内容;根据社交网络账号的变异程度,降低或取消社交网络账号的发布内容的分发费用减免额度;根据社交网络账号的变异程度,降低社交网络账号的发布内容在内容审核队列中的排序优先级;当社交网络账号为变异账号时,将社交网络账号的发布内容调整到内容审核队列的末尾。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的社交网络账号识别方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的社交网络账号识别方法,例如,如图3A-3D示出的社交网络账号识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例从类别序列中挖掘出出隐藏的与发布信息的变异程度相关的多维度特征,能够直接用于反映社交网络账号的信息的原创性,从而能够社交网络中海量的信息进行原创性的高效和准确地识别,从而能够有效督促社交网络账号的发布信息质量,以提高信息的转化率以及推荐效率,降低无效推荐导致的分发系统以及推荐系统的资源浪费,同时能够替代人工标注审核的方式,以降低人工审核成本并提升发布信息以及账号审核的时效性,从而提高信息分发以及推荐的效率。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种社交网络账号识别方法,其特征在于,包括:
接收社交网络账号发布的多个信息、以及对应的类别和发布时间;
根据所述的多个信息的发布时间的先后顺序,将所述多个信息的类别组合成类别序列;
从所述类别序列中提取表征至少一种维度的变异特征,其中,所述变异特征表征所述社交网络账号所发布的信息的变异程度;
根据所述至少一种维度的变异特征,确定所述社交网络账号的原创识别结果。
2.根据权利要求1所述的方法,其特征在于,
所述至少一个维度的变异特征包括类别波动特征;
所述从所述类别序列中提取表征至少一种维度的变异特征,包括:
对所述类别序列进行第一轮采样处理,得到多个第一子序列;
根据每个所述第一子序列中末尾类别的出现次数,确定与所述出现次数负相关的第一波动特征;
对所述类别序列进行第二轮采样处理,得到多个第二子序列;
确定每个所述第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度;
确定与所述类别相似度负相关的第二波动特征;
将每个所述第一子序列对应的第一波动特征进行融合处理,和/或,将每个所述第二子序列对应的第二波动特征进行融合处理,并将融合处理结果作为所述类别序列的类别波动特征;
其中,所述相邻子序列是所述第二子序列之后首个被采集到的子序列。
3.根据权利要求2所述的方法,其特征在于,
所述对所述类别序列进行第一轮采样处理,得到多个第一子序列,包括:
通过第一采样窗口对所述类别序列进行多次滑动采样,将每次滑动后所述第一采样窗口内的多个类别作为采样得到的第一子序列;
其中,所述第一采样窗口的长度小于所述类别序列的长度,且所述第一轮采样窗口的滑动步长小于所述第一采样窗口的长度;
所述对所述类别序列进行第二轮采样处理,得到多个第二子序列,包括:
通过第二采样窗口对所述类别序列进行多次滑动采样,将每次滑动后所述第二采样窗口内的多个类别作为采样得到的第二子序列;
其中,所述第二采样窗口的长度小于所述类别序列的长度,且所述第二轮采样窗口的滑动步长等于所述第二采样窗口的长度。
4.根据权利要求2所述的方法,其特征在于,所述确定每个所述第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度,包括:
针对每个所述第二子序列执行以下处理:
将所述第二子序列包括的每个类别对应的词向量组合,得到所述第二子序列的词向量,并
将所述相邻子序列包括的每个类别对应的词向量组合,得到所述相邻子序列的词向量;
将所述第二子序列的词向量与所述相邻子序列的词向量之间的余弦距离,确定为所述第二子序列对应的信息与所述相邻子序列对应的信息之间的类别相似度。
5.根据权利要求2所述的方法,其特征在于,所述确定每个所述第二子序列对应的信息与相邻子序列对应的信息之间的类别相似度,包括:
针对每个所述第二子序列执行以下处理:
生成所述第二子序列的词表,其中,所述第二子序列的词表包括所述第二子序列对应的多个信息中每个词语的出现次数,并
生成所述相邻子序列的词表,其中,所述相邻子序列的词表包括所述相邻子序列对应的多个信息中每个词语的出现次数;
将所述第二子序列的词表与所述相邻子序列的词表之间的相似度,确定为所述子序列对应的信息与相邻子序列对应的信息之间的类别相似度。
6.根据权利要求1所述的方法,其特征在于,
所述至少一个维度的变异特征包括类别差异特征;
所述从所述类别序列中提取表征至少一种维度的变异特征,包括:
对所述类别序列进行第三轮采样处理,得到多个第三子序列;
确定每个所述第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度;
确定与所述标签重合度负相关的子序列差异特征;
将每个所述第三子序列的子序列差异特征进行融合处理,将融合处理结果作为所述类别序列的类别差异特征;
其中,所述相邻子序列是所述第三子序列之后首个被采集到的子序列。
7.根据权利要求6所述的方法,其特征在于,所述确定每个所述第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度,包括:
针对每个所述第三子序列执行以下处理:
生成所述第三子序列的标签集合,其中,所述第三子序列的标签集合包括所述第三子序列对应的每个信息所关联的标签,并
生成所述相邻子序列的标签集合,其中,所述相邻子序列的标签集合包括所述相邻子序列对应的每个信息所关联的标签;
确定所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签重合比例,将所述标签重合比例确定为所述第三子序列对应的信息与相邻子序列对应的信息之间的标签重合度。
8.根据权利要求7所述的方法,其特征在于,所述确定所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签重合比例,包括:
确定所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签交集、以及所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签并集;
根据所述标签交集的标签数目与所述标签并集的标签数目的比值,确定所述第三子序列的标签集合与所述相邻子序列的标签集合之间的标签重合比例;
其中,所述标签重合比例与所述标签交集的标签数目正相关、与所述标签并集的标签数目负相关。
9.根据权利要求1所述的方法,其特征在于,
所述至少一个维度的变异特征包括类别匹配特征;
所述从所述类别序列中提取表征至少一种维度的变异特征,包括:
对所述类别序列中进行第四轮采样处理,得到多个第四子序列;
确定每个所述第四子序列对应的信息与所述社交网络账号之间的标签匹配度,确定与所述标签匹配度负相关的标签匹配特征;
将每个所述第四子序列的标签匹配特征进行融合处理,将融合处理结果作为所述类别序列的类别匹配特征。
10.根据权利要求9所述的方法,其特征在于,所述确定每个所述第四子序列对应的信息与所述社交网络账号之间的标签匹配度,包括:
针对每个所述第四子序列执行以下处理:
生成所述第四子序列的标签集合,其中,所述第四子序列的标签集合包括:所述第四子序列对应的每个信息所关联的标签;
生成所述社交网络账号的标签集合,其中,所述社交网络账号的标签集合包括:所述社交网络账号的介绍信息所关联的标签;
确定所述第四子序列的标签集合与所述社交网络账号的标签集合之间的标签重合比例,将所述标签重合比例确定为所述第四子序列对应的信息与所述社交网络账号之间的标签匹配度。
11.根据权利要求10所述的方法,其特征在于,所述确定所述第四子序列的标签集合与所述社交网络账号的标签集合之间的标签重合比例,包括:
确定所述第四子序列的标签集合与所述社交网络账号的标签集合包括的相同标签的数目;
根据所述数目确定所述第四子序列的标签集合与所述社交网络账号的集合之间的标签重合比例;
其中,所述标签重合比例与所述数目正相关、且与所述社交网络账号的标签集合的标签的数目负相关。
12.根据权利要求1所述的方法,其特征在于,所述根据所述至少一种维度的变异特征,确定所述社交网络账号的原创识别结果,包括:
确定与任意一种维度的变异特征正相关的变异分数;或者
对所述至少一种维度的变异特征进行融合处理,并确定与融合处理结果正相关的变异分数;
执行以下操作至少之一:
将与所述变异分数所处的分数区间关联的变异等级,确定为所述社交网络账号的变异等级;其中,不同的所述分数区间对应不同的所述变异等级,且所述变异等级与所述社交网络账号的原创程度负相关;
当所述变异分数高于或等于变异分数阈值时,确定所述社交网络账号为变异账号,当所述变异分数低于所述变异分数阈值时,确定所述社交网络账号为原创账号。
13.一种社交网络账号识别装置,其特征在于,包括:
接收模块,用于接收社交网络账号发布的多个信息、以及对应的类别和发布时间;
组合模块,用于根据所述的多个信息的发布时间的先后顺序,将所述多个信息的类别组合成类别序列;
提取模块,用于从所述类别序列中提取表征至少一种维度的变异特征,其中,所述变异特征表征所述社交网络账号所发布的信息的变异程度;
确定模块,用于根据所述至少一种维度的变异特征,确定所述社交网络账号的原创识别结果。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的社交网络账号识别方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的社交网络账号识别方法。
CN202010843882.3A 2020-08-20 2020-08-20 社交网络账号识别方法、装置及电子设备 Active CN114077710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010843882.3A CN114077710B (zh) 2020-08-20 2020-08-20 社交网络账号识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010843882.3A CN114077710B (zh) 2020-08-20 2020-08-20 社交网络账号识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114077710A true CN114077710A (zh) 2022-02-22
CN114077710B CN114077710B (zh) 2023-09-19

Family

ID=80281919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010843882.3A Active CN114077710B (zh) 2020-08-20 2020-08-20 社交网络账号识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114077710B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427174A (zh) * 2015-12-08 2016-03-23 微梦创科网络科技(中国)有限公司 一种基于社交网络的转行用户的挖掘方法及装置
CN106886518A (zh) * 2015-12-15 2017-06-23 国家计算机网络与信息安全管理中心 一种微博账号分类的方法
US9798883B1 (en) * 2014-10-06 2017-10-24 Exabeam, Inc. System, method, and computer program product for detecting and assessing security risks in a network
CN109450920A (zh) * 2018-11-29 2019-03-08 北京奇艺世纪科技有限公司 一种异常账号检测方法及装置
CN110598157A (zh) * 2019-09-20 2019-12-20 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798883B1 (en) * 2014-10-06 2017-10-24 Exabeam, Inc. System, method, and computer program product for detecting and assessing security risks in a network
CN105427174A (zh) * 2015-12-08 2016-03-23 微梦创科网络科技(中国)有限公司 一种基于社交网络的转行用户的挖掘方法及装置
CN106886518A (zh) * 2015-12-15 2017-06-23 国家计算机网络与信息安全管理中心 一种微博账号分类的方法
CN109450920A (zh) * 2018-11-29 2019-03-08 北京奇艺世纪科技有限公司 一种异常账号检测方法及装置
CN110598157A (zh) * 2019-09-20 2019-12-20 北京字节跳动网络技术有限公司 目标信息识别方法、装置、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MISRA, DURGA PRASANNA等: "Plagiarism:Software-based Detection and the Importance of (Human) Hardware", INDIAN JOURNAL OF RHEUMATOLOGY, vol. 12, no. 4, pages 188 - 189 *
刘琛: "基于行为分析的社交网络异常账号的检测", 中国优秀硕士学位论文全文数据库 (信息科技辑), no. 6, pages 139 - 103 *

Also Published As

Publication number Publication date
CN114077710B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN110225373B (zh) 一种视频审核方法、装置及电子设备
CN110569361B (zh) 一种文本识别方法及设备
CN110569377B (zh) 一种媒体文件的处理方法和装置
WO2022252363A1 (zh) 数据处理方法、计算机设备以及可读存储介质
CN112131411A (zh) 一种多媒体资源推荐方法、装置、电子设备及存储介质
CN112153426B (zh) 一种内容账号管理方法、装置、计算机设备及存储介质
CN112104642B (zh) 一种异常账号确定方法和相关装置
CN111507097A (zh) 一种标题文本处理方法、装置、电子设备及存储介质
US20180307733A1 (en) User characteristic extraction method and apparatus, and storage medium
US20200311607A1 (en) Systems and methods for improved modelling of partitioned datasets
Hoppe et al. Using sequence analysis to determine the well-functioning of small groups in large online courses
CN114996486A (zh) 一种数据推荐方法、装置、服务器以及存储介质
CN113626624B (zh) 一种资源识别方法和相关装置
CN112989167B (zh) 搬运账号的识别方法、装置、设备及计算机可读存储介质
Liu et al. Analyzing reviews guided by app descriptions for the software development and evolution
Rolfe Web strategies for the curation and discovery of open educational resources
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
CN112861009A (zh) 基于人工智能的媒体账号推荐方法、装置及电子设备
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN116976353A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN116955777A (zh) 内容的审核方法、装置、设备、介质及计算机程序产品
CN114077710A (zh) 社交网络账号识别方法、装置及电子设备
Xue et al. A recommendation system for scientific water data
CN116484085A (zh) 一种信息投放方法、装置、设备及存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40065964

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant