CN108629610B - 推广信息曝光量的确定方法和装置 - Google Patents

推广信息曝光量的确定方法和装置 Download PDF

Info

Publication number
CN108629610B
CN108629610B CN201710182080.0A CN201710182080A CN108629610B CN 108629610 B CN108629610 B CN 108629610B CN 201710182080 A CN201710182080 A CN 201710182080A CN 108629610 B CN108629610 B CN 108629610B
Authority
CN
China
Prior art keywords
target
reading
reading record
record
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710182080.0A
Other languages
English (en)
Other versions
CN108629610A (zh
Inventor
周忠
俞平
翁家才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710182080.0A priority Critical patent/CN108629610B/zh
Publication of CN108629610A publication Critical patent/CN108629610A/zh
Application granted granted Critical
Publication of CN108629610B publication Critical patent/CN108629610B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种推广信息曝光量的确定方法和装置。包括:获取目标帐号所发表的每篇目标文章的阅读日志,阅读日志中包括阅读记录,阅读记录中包括:用户标识和阅读时间戳;从目标文章的阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,目标阅读记录集合中用户标识相同的目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;根据目标阅读记录的数量确定目标文章对应的推广信息曝光量;根据每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。解决了相关技术将流量主的账号所发表文章的阅读量确定为该流量主的账号所对应的推广信息曝光量,导致流量主的账号对应的推广信息曝光量预测结果不准确的技术问题。

Description

推广信息曝光量的确定方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种推广信息曝光量的确定方法和装置。
背景技术
微信公众号互选广告是一种新的广告形式,广告主和流量主通过微信广告平台进行双向互选,自由达成广告合作,广告创意呈现在公众号文章内。对于这样一种新的广告形式,保证各方利益不受损害对于微信广告平台长远发展具有重要的意义。
图1是根据现有技术的一种互选广告的示意图,如图1所示,在进行互选广告交易之前,微信广告平台需要根据各个公众号的历史文章阅读数据来为每个公众号设置一个合理的广告曝光区间,便于流量主设置承诺曝光量,也便于广告主选择适合的流量主,平台再根据流量主在文章末尾广告的实际曝光量与承诺曝光量的完成情况予以扣费。
如果广告预估曝光区间偏低,则无法体现流量主本身的传播影响力;反之,如果广告预估曝光区间偏高,则相应广告的报价也会偏高,可能损害广告主的利益,在承诺曝光量未达成的情况下也会打击流量主的积极性。因此,互选广告的曝光量预估是一个重要的过程。
广告主进行互选交易时会按照预期曝光区间筛选流量主,这就要求流量主对自身文章能够带来的有效广告曝光有一个准确的把握,而流量主如果只根据历史文章的阅读数据来划定曝光区间会造成预估区间不准确,同时如果流量主随意设置承诺曝光量也会给平台的长远发展造成不利影响。
针对上述相关技术将流量主的账号所发表文章的阅读量确定为该流量主的账号所对应的推广信息曝光量,导致流量主的账号对应的推广信息曝光量预测结果不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种推广信息曝光量的确定方法和装置,以至少解决相关技术将流量主的账号所发表文章的阅读量确定为该流量主的账号所对应的推广信息曝光量,导致流量主的账号对应的推广信息曝光量预测结果不准确的技术问题。
根据本发明实施例的一个方面,提供了一种推广信息曝光量的确定方法,包括:获取目标帐号所发表的每篇目标文章的阅读日志,其中,所述阅读日志中包括至少一条阅读记录,所述阅读记录中包括:用户标识和阅读时间戳;从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,所述目标阅读记录集合中用户标识相同的所述目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;根据所述目标阅读记录集合中所述目标阅读记录的数量确定所述目标文章对应的推广信息曝光量;根据每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量。
根据本发明实施例的另一方面,还提供了一种推广信息曝光量的确定装置,包括:第一获取单元,用于获取目标帐号所发表的每篇目标文章的阅读日志,其中,所述阅读日志中包括至少一条阅读记录,所述阅读记录中包括:用户标识和阅读时间戳;第一筛选单元,用于从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,所述目标阅读记录集合中用户标识相同的所述目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;第一确定单元,用于根据所述目标阅读记录集合中所述目标阅读记录的数量确定所述目标文章对应的推广信息曝光量;第二确定单元,用于根据每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量。
在本发明实施例中,通过获取目标帐号内发表的每篇目标文章的阅读日志,从阅读日志中提取阅读记录中记录的用户标识和阅读时间戳,再根据提取的用户标识和阅读时间戳筛选出符合预定条件的多个目标阅读记录,得到目标记录集合,然后根据目标阅读记录集合中目标阅读记录的数量确定目标文章对应的推广信息曝光量,还可以根据目标帐号内的每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量,可以解决了相关技术将流量主的账号所发表文章的阅读量确定为该流量主的账号所对应的推广信息曝光量,导致流量主的账号对应的推广信息曝光量预测结果不准确的技术问题,进而达到准确获得流量主的账号对应的媒体曝光量的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据现有技术的一种互选广告的示意图;
图2是根据本发明实施例的推广信息曝光量的确定方法的硬件环境的示意图;
图3是根据本发明实施例的一种可选的推广信息曝光量的确定方法的流程图;
图4是根据本发明实施例的一种可选的互选广告曝光区间的具体计算步骤的流程图;
图5是根据本发明实施例的一种可选的推广信息曝光量的确定装置的示意图;
图6是根据本发明实施例的另一种可选的推广信息曝光量的确定装置的示意图;
图7是根据本发明实施例的另一种可选的推广信息曝光量的确定装置的示意图;
图8是根据本发明实施例的另一种可选的推广信息曝光量的确定装置的示意图;
图9是根据本发明实施例的另一种可选的推广信息曝光量的确定装置的示意图;
图10是根据本发明实施例的另一种可选的推广信息曝光量的确定装置的示意图;以及
图11是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种推广信息曝光量的确定方法实施例。
可选地,在本实施例中,上述推广信息曝光量的确定方法可以应用于如图2所示的由服务器102和终端104所构成的硬件环境中。如图2所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的推广信息曝光量的确定方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的推广信息曝光量的确定方法也可以是由安装在其上的客户端来执行。
图3是根据本发明实施例的一种可选的推广信息曝光量的确定方法的流程图,如图3所示,该方法可以包括以下步骤:
步骤S302,获取目标帐号所发表的每篇目标文章的阅读日志,其中,阅读日志中包括至少一条阅读记录,阅读记录中包括:用户标识和阅读时间戳;
步骤S304,从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,目标阅读记录集合中用户标识相同的目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;
步骤S306,根据目标阅读记录集合中目标阅读记录的数量确定目标文章对应的推广信息曝光量;
步骤S308,根据每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。
通过上述步骤S302至步骤S308,通过获取目标帐号内发表的每篇目标文章的阅读日志,从阅读日志中提取阅读记录中记录的用户标识和阅读时间戳,再根据提取的用户标识和阅读时间戳筛选出符合预定条件的多个目标阅读记录,得到目标记录集合,然后根据目标阅读记录集合中目标阅读记录的数量确定目标文章对应的推广信息曝光量,还可以根据目标帐号内的每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量,可以解决了相关技术将流量主的账号所发表文章的阅读量确定为该流量主的账号所对应的推广信息曝光量,导致流量主的账号对应的推广信息曝光量预测结果不准确的技术问题,进而达到准确获得流量主的账号对应的媒体曝光量的技术效果。
在步骤S302提供的技术方案中,目标帐号可以是用户在公众平台上申请的应用账号,用户可以在公众平台上通过目标帐号与特定群体进行文字、图片、语音、以及视频的全方位沟通与互动。
可选地,目标帐号可以是微信公众号,用户在微信平台上申请微信公众号,并通过该微信公众号发布文章,供其他用户阅读。
可选地,目标帐号还可以是普通用户申请的微信账号,或者在媒体服务平台上申请的媒体账号等。
可选地,目标账号可以发表至少一个片目标文章,此处需要说明的是,本发明实施例中的目标文章并不仅仅局限于文字内容,还可以包括图片、音频、视频等内容数据。还需要说明的是,本发明实施例的目标文章中可以包括推广信息,也即每篇目标文章中都可以附有一个推广信息,其中,推广信息可以位于目标文章中的任意位置,例如文章开头、文章中间或者文章结尾。本发明实施例中的推广信息可以是广告形式,例如文字广告、视频广告等,还可以是图片、音频、视频等形式。其他用户在阅读该目标账号所发表的目标文章的过程中,会在留下阅读该篇目标文章的阅读记录。目标文章在阅读记录中,记录每次阅读该目标文章的用户标识以及用户在阅读该目标文章的时间戳。不同的用户或者同一用户在不同的时间多次阅读该目标文章的情况下,会产生多条阅读记录,目标文章通过阅读日志存储多条阅读记录。
作为一个可选的示例,阅读记录可以记录目标帐号中目标文章被用户阅读的信息。例如,用户A在08:00阅读了目标帐号B中的目标文章C,则目标文章C的阅读记录中记录下用户A在08:00进行了阅读。
可选地,阅读记录可以采用预定的格式记录,例如,在上述可选的示例中的阅读记录,可以记录为:(公众号B,目标文章C,用户A,阅读时间戳08:00)。
作为一个可选的示例,阅读日志中可以包括多条阅读记录,例如,用户A在08:00阅读了目标帐号B中的目标文章C;用户A在08:30阅读了目标帐号B中的目标文章C;用户D在08:00阅读了目标帐号B中的目标文章C;用户D在09:30阅读了目标帐号B中的目标文章C;用户D在09:45阅读了目标帐号B中的目标文章C,则阅读日中记录下:用户A在08:00进行了阅读;用户A在08:30进行了阅读;用户D在08:00进行了阅读;用户D在09:30进行了阅读;用户D在09:45进行了阅读。
可选地,阅读日志中可以记载的多条按照预定格式记录的阅读记录,例如上述可选的示例中的阅读日志,可以如下所示:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳09:30);
(公众号B,目标文章C,用户A,阅读时间戳08:30);
(公众号B,目标文章C,用户D,阅读时间戳09:45)。
作为一种可选的实施例,阅读记录中还包括:完全阅读标记,其中:在获取目标帐号所发表的每篇目标文章的阅读日志之后,该实施例还可以包括:从目标文章的至少一个阅读记录中筛选出完全阅读标记为目标值的阅读记录,其中,目标值用于指示目标文章被完整阅读。
例如,用户A在阅读目标文章C的过程中,用户完全阅读了目标文章C,则在该条阅读记录中,将完全阅读标记设为数值1;用户A在阅读目标文章C的过程中,用户没有完全阅读目标文章C,则在该条阅读记录中,将完全阅读标记设为数值0。在目标文章C的阅读记录中,筛选完全阅读标记为数值1的阅读记录,即可得到完全阅读目标文章C的阅读记录。
采用本发明上述实施例,可以在阅读记录中筛选出完全阅读标记为目标值的阅读记录,筛选出用户完全阅读目标文章的阅读记录,从而可以根据筛选出的阅读记录的数量,得出目标文章被完全阅读的次数。
作为一种可选的实施例,从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合包括:从完全阅读标记为目标值的阅读记录中筛选出目标阅读记录,得到目标阅读记录集合。
例如,第一条阅读记录为:用户A在阅读目标文章C的过程中,用户完全阅读了目标文章C,则在该条阅读记录中,将完全阅读标记设为数值1;第二条阅读记录为:用户A在阅读目标文章C的过程中,用户没有完全阅读目标文章C,则在该条阅读记录中,将完全阅读标记设为数值0;第三条阅读记录为:用户B在阅读目标文章C的过程中,用户完全阅读了目标文章C,则在该条阅读记录中,将完全阅读标记设为数值1。在目标文章C的阅读记录中,筛选完全阅读标记为数值1的阅读记录,可以得到完全阅读目标文章C的阅读记录,即得出第一条阅读记录和第三条阅读记录为完全阅读目标文章C的阅读记录。筛选出的第一条阅读记录和第三条阅读记录即为目标阅读记录,第一条阅读记录和第三条阅读记录构成的集合即为目标阅读记录集合。
采用本发明上述实施例,对目标文章的阅读记录进行筛选,得出完全阅读目标文章的目标阅读记录集合,该目标阅读记录集合内的元素数量即为目标文章被完全阅读的次数。
可选地,阅读记录中可以记载完全阅读标记的数值,例如,用户A在08:00,完全阅读了目标帐号B中的目标文章C;用户A在08:30,未完全阅读目标帐号B中的目标文章C,假设在目标文件被完全阅读的情况下,完全记录标记的数值为1;假设在目标文件未被完全阅读的情况下,完全记录标记的数值为0,则阅读记录可以是:
(公众号B,目标文章C,用户A,阅读时间戳08:00,完全阅读标记=1);
(公众号B,目标文章C,用户A,阅读时间戳08:30,完全阅读标记=0)。
在步骤S304提供的技术方案中,第一预定阈值可以是预先设置的时间段,在目标文章的阅读记录中筛选出用户标识相同的阅读记录中阅读时间戳之间的时间差超过第一预定阈值的阅读记录作为目标阅读记录,得到目标阅读记录集合。
例如,可以第一预定阈值设为1小时,对阅读记录进行筛选,假设阅读记录如下所示:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户A,阅读时间戳08:30);
(公众号B,目标文章C,用户B,阅读时间戳08:30);
(公众号B,目标文章C,用户A,阅读时间戳09:30)。
则筛选后的目标阅读记录集合为:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户B,阅读时间戳08:30);
(公众号B,目标文章C,用户A,阅读时间戳09:30)。
可选地,若用户标识相同的目标阅读记录中的阅读时间戳之间的时间差低于第一预定阈值,则仅保留其中的一条阅读记录。
作为一种可选的实施例,从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合可以包括:
步骤S3041,按照用户标识和阅读时间戳对目标文章的至少一个阅读记录进行排序;
步骤S3042,依次遍历排序后的至少一个阅读记录中的每个阅读记录,执行以下步骤,得到目标阅读记录集合,其中,每个阅读记录在执行以下步骤时被标记为当前阅读记录:
步骤S30421,判断当前阅读记录中的用户标识是否与上一条阅读记录中的用户标识相同;
步骤S30422,在当前阅读记录中的用户标识与上一条阅读记录中的用户标识不相同的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中;
步骤S30423,在当前阅读记录中的用户标识与上一条阅读记录中的用户标识相同的情况下,判断当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差是否超过第一预定阈值;
步骤S30424,在当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差超过第一预定阈值的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中。
采用本发明上述实施例,根据第一预定阈值筛选出同一用户的多个阅读记录中时间戳之差高于第一预定阈值的阅读记录,可以使筛选出的阅读记录更加准确,避免同一用户多次阅读同一目标文章造成的恶意为目标文章刷阅读量的情况。
作为一个可选的示例,假设目标文章的阅读记录为:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳09:30);
(公众号B,目标文章C,用户A,阅读时间戳08:30);
(公众号B,目标文章C,用户D,阅读时间戳09:45)。
通过步骤S3041,按照用户标识和阅读时间戳对目标文章的至少一个阅读记录进行排序,得到排序后的阅读记录为:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户A,阅读时间戳08:30);
(公众号B,目标文章C,用户D,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳09:30);
(公众号B,目标文章C,用户D,阅读时间戳09:45)。
通过步骤S3042,依次遍历排序后的阅读记录,得到目标阅读记录集合,其中,步骤S3042可以通过以下步骤实现。
通过步骤S30421,判断当前阅读记录中的用户标识是否与上一条阅读记录中的用户标识相同。
一个可选的实施例,在上述排序后的阅读记录中,假设当前阅读记录:(公众号B,目标文章C,用户D,阅读时间戳08:00),则上一条阅读记录:(公众号B,目标文章C,用户A,阅读时间戳08:30),当前阅读记录的用户标识为“用户D”,上一条阅读记录的用户标识也为“用户A”,则确定当前阅读记录与上一条阅读记录不同,然后执行步骤S30422。
通过步骤S30422,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中。
一个可选的实施例,在上述排序后的阅读记录中,假设当前阅读记录:(公众号B,目标文章C,用户D,阅读时间戳08:00),则上一条阅读记录:(公众号B,目标文章C,用户A,阅读时间戳08:30),可以确定当前阅读记录:(公众号B,目标文章C,用户D,阅读时间戳08:00)为目标阅读记录并添加至目标阅读记录集合中。
另一个可选的实施例,在上述排序后的阅读记录中,假设当前阅读记录:(公众号B,目标文章C,用户A,阅读时间戳08:30),则上一条阅读记录:(公众号B,目标文章C,用户A,阅读时间戳08:00),当前阅读记录的用户标识为“用户A”,上一条阅读记录的用户标识也为“用户A”,则确定当前阅读记录与上一条阅读记录相同,然后执行步骤S30423。
通过步骤S30423,判断当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差是否超过第一预定阈值。
假设第一阈值为1小时,在上述排序后的阅读记录中,若当前阅读记录:(公众号B,目标文章C,用户A,阅读时间戳08:30);则上一条阅读记录:(公众号B,目标文章C,用户A,阅读时间戳08:00);阅读时间戳之间的时间差为08:30-08:00=0:30<1小时,则遍历下一个阅读记录。
假设第一阈值为1小时,在上述排序后的阅读记录中,若当前阅读记录:(公众号B,目标文章C,用户D,阅读时间戳09:30);则上一条阅读记录:(公众号B,目标文章C,用户D,阅读时间戳08:00);阅读时间戳之间的时间差为09:30-08:00=1:30>1小时,则执行步骤S30424,将前阅读记录:(公众号B,目标文章C,用户D,阅读时间戳09:30)添加至目标阅读记录集合。
作为一个可选的示例,假设第一阈值为1小时,排序后的阅读记录为:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户A,阅读时间戳08:30);
(公众号B,目标文章C,用户D,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳09:30);
(公众号B,目标文章C,用户D,阅读时间戳09:45)。
则通过步骤S30421至步骤S30424得到的目标阅读记录集合为:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳09:30)。
作为一种可选的实施例,在从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合之后,该实施例还可以包括:获取目标阅读记录集合中第一目标阅读记录的数量,其中,第一目标阅读记录的用户标识为第一标识;判断第一目标阅读记录的数量是否超过第二预定阈值;在第一目标阅读记录的数量超过第二预定阈值的情况下,在目标阅读记录集合中保留第二预定阈值数量的第一目标阅读记录。
采用本发明上述实施例,在同一用户的阅读记录高于第二预定阈值的情况下,以第二预定阈值的数值作为第一目标阅读记录的数量,可以避免同一用户多次阅读同一目标文章造成的恶意为目标文章刷阅读量的情况。
作为一个可选的示例,假设目标阅读记录集合为:
(公众号B,目标文章C,用户A,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳09:30);
(公众号B,目标文章C,用户D,阅读时间戳10:30)。
则以用户D作为第一标识,获取第一目标阅读记录集合为:
(公众号B,目标文章C,用户D,阅读时间戳08:00);
(公众号B,目标文章C,用户D,阅读时间戳09:30);
(公众号B,目标文章C,用户D,阅读时间戳10:30)。
其中,第一目标阅读记录的数量为3,假设第二预定阈值为2,则目标阅读记录集合中保留的第一目标阅读记录的数量为2。
在步骤S306提供的技术方案中,目标文件中可以包括推广信息,其中,推广信息可以插入在目标文章的文章开头、文章中间或者文章结尾处,目标文章被阅读的数量,即为推广信息曝光量,其中,目标文章被阅读的数量可以根据目标阅读记录集合中目标阅读记录的数量确定。
可选地,推广信息可以是广告形式,例如文字广告、视频广告等,还可以是图片、音频、视频等形式。
作为一个可选的示例,假设目标文章内目标阅读记录集合中目标阅读记录的数量为2,则目标文章对应的推广信息的曝光量也为2。
在步骤S308提供的技术方案中,目标账号中可以发表多篇目标文章,根据目标账号中每篇目标文章对应的推广信息曝光量,可以确定目标账号对应的推广信息曝光量,具体地,目标账号对应的推广信息曝光量可以为该目标账号所发表的每篇目标文章对应的推广信息曝光量的总和。
作为一个可选的示例,假设目标公众账号E中包括3篇目标文章,其中,3篇目标文章对应的推广信息曝光量分别为10、9、11,则目标公众账号对应的推广信息曝光量为10+9+11=30。
作为一种可选的实施例,根据每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量包括:
首先,按照以下公式计算每篇目标文章对应的推广信息曝光量的平均值和标准差:
Figure BDA0001253105310000141
其中,expi为第i篇目标文章对应的推广信息曝光量,n为目标帐号所发表的目标文章的数量,mean为平均值,std为标准差。
然后,根据上述计算得到的平均值和标准差确定目标帐号对应的推广信息曝光量区间,其中,推广信息曝光量区间的上限值可以为mean+3*std,推广信息曝光量区间的下限值可以为mean-3*std。目标账号对应的推广信息曝光区间可以用于指示该目标账号对应的推广信息曝光量。
采用本发明上述实施例,推广信息曝光量的序列基本满足正态分布,根据正态函数的性质,选取正态分布中区间的上限值为mean+3*std,下限值为mean-3*std的数值作为推广信息曝光量,可以准确确定目标帐号对应的推广信息的曝光区间。
作为一种可选的实施例,推广信息曝光量区间的上限值为每篇目标文章对应的推广信息曝光量中的最大值,推广信息曝光量区间的下限值为每篇目标文章对应的推广信息曝光量的最小值。
采用本发明上述实施例,可以准确确定目标帐号对应的推广信息的曝光区间。
作为一种可选的实施例,根据每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量可以包括:将每篇目标文章对应的推广信息曝光量中的异常值进行剔除;根据剔除异常值之后的每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。
采用本发明上述实施例,通过剔除目标帐号中目标文章对应的推广信息曝光量中的异常值,可以准确确定目标帐号对应的推广信息曝光量。
作为一种可选的实施例,将每篇目标文章对应的推广信息曝光量中的异常值进行剔除可以包括:将每篇目标文章对应的推广信息曝光量按照由小到大的顺序排序;计算第一推广信息曝光量与第二推广信息曝光量之间的差值,其中,第一推广信息曝光量为顺序排在3/4分位数的推广信息曝光量,第二推广信息曝光量为顺序排在1/4分位数的推广信息曝光量;根据差值确定剔除区间,其中,剔除区间的上限值为第一推广信息曝光量与1.5倍的差值的和,剔除区间的下限值为第二推广信息曝光量与1.5倍的差值的差;将每篇目标文章对应的推广信息曝光量不在剔除区间的目标文章对应的推广信息曝光量确定为异常值进行剔除。
采用本发明上述实施例,通过计算得出的剔除区间,剔除目标帐号中目标文章对应的推广信息曝光量中的异常值,可以准确确定目标帐号对应的推广信息曝光量。
作为一个可选的示例,假设有8篇目标文章,每篇目标文章对应的曝光量分别为5、6、2、12、14、30、7以及9,按照曝光量由小到大的顺序排序,排序结果为2、5、6、7、9、12、14、以及30,第一推广信息曝光量为顺序排在3/4分位数的推广信息曝光量为(12+14)÷2=13;第二推广信息曝光量为顺序排在1/4分位数的推广信息曝光量(5+6)÷2=5.5,第一推广信息曝光量与第二推广信息曝光量之间的差值为13-5.5=7.5,剔除区间的上限值为13+1.5*7.5=24.25,剔除区间的下限值为5.5-1.5*7.5=-5.75,可以确定剔除区间为[-5.75,24.25]剔除不在剔除区间的目标文章对应的推广信息曝光量,即推广信息曝光量为30的数值作为异常值被剔除。
本发明还提供了一种优选实施例,该优选实施例提供了一种基于公众号文章阅读日志的广告曝光预估方法及装置。
本实施例提出了一种基于公众号文章阅读日志的广告曝光量预估方法及装置,其主要思路是分析公众号最近发表的文章的阅读日志,提取出有效阅读数据,预测该公众号文末广告的曝光区间,并给出曝光区间的上下限范围。
具体实现逻辑如下:
Spark系统读取所有公众号最近N天内发表的文章在发表T天内的阅读日志,生成如下格式的元组:
(公众号id,文章id,用户id,阅读时间戳t,阅读标记f)
其中,在阅读标记为f=0的情况下,表示文章未被完全阅读,在阅读标记为f=1的情况下,表示文章已被完全阅读。可选的,只有已被完全阅读的文章才能产生有效的广告曝光,因此需要过滤掉未被完全阅读的文章所在的元组;
对每个公众号的每一篇文章,按照(用户id,阅读时间戳t)这两个关键字进行升序排序,生成文章的阅读时间序列,下面是文章i生成的一个阅读时间序列:
(文章i,用户1,阅读时间戳t1)
(文章i,用户1,阅读时间戳t2)
(文章i,用户2,阅读时间戳t3)
(文章i,用户2,阅读时间戳t4)
(文章i,用户2,阅读时间戳t5)
(文章i,用户k,阅读时间戳tk)
这样便可以将同一个用户的阅读日志按照时间先后顺序聚合在一起,同时满足t1<=t2,t3<=t4<=t5。
得到上述文章i的阅读时间序列后,Spark采用下面的步骤遍历该阅读时间序列得到有效广告曝光序列:
需要说明的是,Spark,即Apache Spark,是专为大规模数据处理而设计的快速通用的计算引擎。
步骤1:初始化时间戳变量:initial_ts=null,初始化用户id变量:initial_userid=null,初始化用于存放有效广告曝光记录的栈stack,转入步骤2;
步骤2:如果没有下一条阅读时间序列,则遍历完成,跳出;
否则取下一条阅读时间序列中的元组,用相应的阅读时间戳和用户id分别设置变量current_ts,current_userid;
步骤3:如果current_userid!=initial_userid,则将当前阅读元组压入栈stack中,同时设置initial_userid=current_userid,initial_ts=current_ts,转入步骤4;
否则判断current_ts-initial_ts<=M*60,表示是否为M分钟内的重复阅读,如果是,则设置initial_ts=current_ts,转入步骤2;否则将当前阅读元组压入栈stack中,设置initial_ts=current_ts,转入步骤4;
步骤4:判断有效曝光栈stack中current_userid对应的有效曝光记录是否超过K,如果是,则将当前该用户的曝光记录弹出栈stack,转入步骤2;
经过上述步骤的处理后,栈stack中元素长度就是该文章的预计广告曝光量:
expi=length(stack)
接下来使用箱线图剔除expi序列中的异常值,设剔除完异常值的广告曝光量序列为:
exp1,exp2,…,expn
求取曝光量序列的平均值及标准差:
Figure BDA0001253105310000181
Figure BDA0001253105310000182
由于广告曝光序列基本满足正态分布,因此取[mean-3*std,mean+3*std]作为预期广告曝光区间;
图4是根据本发明实施例的一种可选的互选广告曝光区间的具体计算步骤的流程图,如图4所示,该计算步骤包括:
步骤S402,收集该公众号N天发表的所有文章在发表T天内的阅读日志,并按阅读用户标识、阅读时间进行排序,同一用户M分钟内的重复阅读日志只记一次,同一个用户对一篇文章的阅读次数最多记K次,计算每一篇文章的阅读量;
步骤S404,对公众号N天发表文章阅读量进行排序,计算1/4分位数Q1及3/4分位数Q3,计算IRQ=Q3-Q1,使用箱型图剔除不再[Q1-1.5*IRQ,Q3+1.5*IRQ]范围内的文章曝光量;
步骤S406,对过滤之后的文章阅读序列,计算该序列的平均值mean以及标准差std,使用mean及std作为近似广告曝光序列的平均值及标准差;
步骤S408,输出[mean-3*std,mean+3*std]作为互选广告的曝光区间。
本发明实施例通过分析流量主历史文章的完全阅读数据,同时加入有效广告曝光规则,生成一个合理的广告曝光区间,从而防止流量主随意设置承诺曝光。
在互选广告流量主曝光区间预估中,使用本技术方案中的方法,能够较准确的预估流量主的预计曝光区间,大部分流量主的承诺曝光量都能够完成。
可选地,关于曝光区间的选定,除了以平均值和标准差为基准给出以外,还可以使用曝光序列中的[最大值,最小值]给定。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述推广信息曝光量的确定方法的推广信息曝光量的确定装置。图5是根据本发明实施例的一种可选的推广信息曝光量的确定装置的示意图,如图5所示,该装置可以包括:第一获取单元51,用于获取目标帐号所发表的每篇目标文章的阅读日志,其中,所述阅读日志中包括至少一条阅读记录,所述阅读记录中包括:用户标识和阅读时间戳;第一筛选单元53,用于从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,所述目标阅读记录集合中用户标识相同的所述目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;第一确定单元55,用于根据所述目标阅读记录集合中所述目标阅读记录的数量确定所述目标文章对应的推广信息曝光量;第二确定单元57,用于根据每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量。
需要说明的是,该实施例中的第一获取单元51可以用于执行本申请实施例1中的步骤S302,该实施例中的第一筛选单元53可以用于执行本申请实施例1中的步骤S304,该实施例中的第一确定单元55可以用于执行本申请实施例1中的步骤S306,该实施例中的第二确定单元57可以用于执行本申请实施例1中的步骤S308。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图2所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
作为一种可选的实施例,如图6所示,第一筛选单元53可以包括:排序模块531,用于按照用户标识和阅读时间戳对目标文章的至少一个阅读记录进行排序;遍历模块533,用于依次遍历排序后的至少一个阅读记录中的每个阅读记录,执行以下步骤,得到目标阅读记录集合,其中,每个阅读记录在执行以下步骤时被标记为当前阅读记录:判断当前阅读记录中的用户标识是否与上一条阅读记录中的用户标识相同;在当前阅读记录中的用户标识与上一条阅读记录中的用户标识不相同的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中;在当前阅读记录中的用户标识与上一条阅读记录中的用户标识相同的情况下,判断当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差是否超过第一预定阈值;在当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差超过第一预定阈值的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中。
作为一种可选的实施例,如图7所示,该实施例还可以包括:第二获取单元71,用于在从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合之后,获取目标阅读记录集合中第一目标阅读记录的数量,其中,第一目标阅读记录的用户标识为第一标识;判断单元72,用于判断第一目标阅读记录的数量是否超过第二预定阈值;保留单元73,用于在第一目标阅读记录的数量超过第二预定阈值的情况下,在目标阅读记录集合中保留第二预定阈值数量的第一目标阅读记录。
作为一种可选的实施例,如图8所示,阅读记录中还可以包括:完全阅读标记,其中:该实施例还可以包括:第二筛选单元81,用于在获取目标帐号所发表的每篇目标文章的阅读日志之后,从目标文章的至少一个阅读记录中筛选出完全阅读标记为目标值的阅读记录,其中,目标值用于指示目标文章被完整阅读;第一筛选单元53可以包括:筛选模块535,用于从完全阅读标记为目标值的阅读记录中筛选出目标阅读记录,得到目标阅读记录集合。
作为一种可选的实施例,如图9所示,第二确定单元57可以包括:第一计算模块571,用于按照以下公式计算每篇目标文章对应的推广信息曝光量的平均值和标准差:
Figure BDA0001253105310000211
其中,expi为第i篇目标文章对应的推广信息曝光量,n为目标帐号所发表的目标文章的数量,mean为平均值,std为标准差;第一确定模块573,用于根据平均值和标准差确定目标帐号对应的推广信息曝光量区间,其中,推广信息曝光量区间的上限值为mean+3*std,推广信息曝光量区间的下限值为mean-3*std,或者,推广信息曝光量区间的上限值为每篇目标文章对应的推广信息曝光量中的最大值,推广信息曝光量区间的下限值为每篇目标文章对应的推广信息曝光量的最小值。
作为一种可选的实施例,如图10所示,第二确定单元57可以包括:剔除模块575,用于将每篇目标文章对应的推广信息曝光量中的异常值进行剔除;第二确定模块577,用于根据剔除异常值之后的每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。
通过上述模块,可以解决了相关技术将流量主的账号所发表文章的阅读量确定为该流量主的账号所对应的推广信息曝光量,导致流量主的账号对应的推广信息曝光量预测结果不准确的技术问题,进而达到准确获得公众号对应的媒体曝光量的技术效果。
实施例3
根据本发明实施例,还提供了一种用于实施上述推广信息曝光量的确定方法的终端。
图11是根据本发明实施例的一种终端的结构框图,如图11所示,该终端可以包括:一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205,如图11所示,该终端还可以包括输入输出设备207。
其中,存储器203可用于存储软件程序以及模块,如本发明实施例中的推广信息曝光量的确定方法和装置对应的程序指令/模块,处理器201通过运行存储在存储器203内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的推广信息曝光量的确定方法。存储器203可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器203可进一步包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置205用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置205包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置205为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器203用于存储应用程序。
处理器201可以调用存储器203存储的应用程序,以执行下述步骤:获取目标帐号所发表的每篇目标文章的阅读日志,其中,阅读日志中包括至少一条阅读记录,阅读记录中包括:用户标识和阅读时间戳;从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,目标阅读记录集合中用户标识相同的目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;根据目标阅读记录集合中目标阅读记录的数量确定目标文章对应的推广信息曝光量;根据每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。
处理器201还用于执行下述步骤:按照用户标识和阅读时间戳对目标文章的至少一个阅读记录进行排序;依次遍历排序后的至少一个阅读记录中的每个阅读记录,执行以下步骤,得到目标阅读记录集合,其中,每个阅读记录在执行以下步骤时被标记为当前阅读记录:判断当前阅读记录中的用户标识是否与上一条阅读记录中的用户标识相同;在当前阅读记录中的用户标识与上一条阅读记录中的用户标识不相同的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中;在当前阅读记录中的用户标识与上一条阅读记录中的用户标识相同的情况下,判断当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差是否超过第一预定阈值;在当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差超过第一预定阈值的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中。
处理器201还用于执行下述步骤:获取目标阅读记录集合中第一目标阅读记录的数量,其中,第一目标阅读记录的用户标识为第一标识;判断第一目标阅读记录的数量是否超过第二预定阈值;在第一目标阅读记录的数量超过第二预定阈值的情况下,在目标阅读记录集合中保留第二预定阈值数量的第一目标阅读记录。
处理器201还用于执行下述步骤:从目标文章的至少一个阅读记录中筛选出完全阅读标记为目标值的阅读记录,其中,目标值用于指示目标文章被完整阅读;从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合包括:从完全阅读标记为目标值的阅读记录中筛选出目标阅读记录,得到目标阅读记录集合。
处理器201还用于执行下述步骤:按照以下公式计算每篇目标文件对应的推广信息曝光量的平均值和标准差:
Figure BDA0001253105310000241
Figure BDA0001253105310000242
其中,expi为第i篇目标文章对应的推广信息曝光量,n为目标帐号所发表的目标文章的数量,mean为平均值,std为标准差;根据平均值和标准差确定目标帐号对应的推广信息曝光量区间,其中,推广信息曝光量区间的上限值为mean+3*std,推广信息曝光量区间的下限值为mean-3*std,或者,推广信息曝光量区间的上限值为每篇目标文章对应的推广信息曝光量中的最大值,推广信息曝光量区间的下限值为每篇目标文章对应的推广信息曝光量的最小值。
处理器201还用于执行下述步骤:将每篇目标文章对应的推广信息曝光量中的异常值进行剔除;根据剔除异常值之后的每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。
采用本发明实施例,提供了一种推广信息曝光量的确定的方案。通过获取目标帐号内发表的每篇目标文章的阅读日志,从阅读日志中提取阅读记录中记录的用户标识和阅读时间戳,再根据提取的用户标识和阅读时间戳筛选出符合预定条件的多个目标阅读记录,得到目标记录集合,然后根据目标阅读记录集合中目标阅读记录的数量目标文章对应的推广信息曝光量,还地可以根据目标帐号内的每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量,可以解决了相关技术将流量主的账号所发表文章的阅读量确定为该流量主的账号所对应的推广信息曝光量,导致流量主的账号对应的推广信息曝光量预测结果不准确的技术问题,进而达到准确获得流量主的账号对应的媒体曝光量的技术效果。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图11所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如,终端还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图11所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行推广信息曝光量的确定方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取目标帐号所发表的每篇目标文章的阅读日志,其中,阅读日志中包括至少一条阅读记录,阅读记录中包括:用户标识和阅读时间戳;
S2,从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,目标阅读记录集合中用户标识相同的目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;
S3,根据目标阅读记录集合中目标阅读记录的数量确定目标文章对应的推广信息曝光量;
S4,根据每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:按照用户标识和阅读时间戳对目标文章的至少一个阅读记录进行排序;依次遍历排序后的至少一个阅读记录中的每个阅读记录,执行以下步骤,得到目标阅读记录集合,其中,每个阅读记录在执行以下步骤时被标记为当前阅读记录:判断当前阅读记录中的用户标识是否与上一条阅读记录中的用户标识相同;在当前阅读记录中的用户标识与上一条阅读记录中的用户标识不相同的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中;在当前阅读记录中的用户标识与上一条阅读记录中的用户标识相同的情况下,判断当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差是否超过第一预定阈值;在当前阅读记录中的阅读时间戳与上一条阅读记录中的阅读时间戳之间的时间差超过第一预定阈值的情况下,将当前阅读记录确定为目标阅读记录并添加至目标阅读记录集合中。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取目标阅读记录集合中第一目标阅读记录的数量,其中,第一目标阅读记录的用户标识为第一标识;判断第一目标阅读记录的数量是否超过第二预定阈值;在第一目标阅读记录的数量超过第二预定阈值的情况下,在目标阅读记录集合中保留第二预定阈值数量的第一目标阅读记录。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:从目标文章的至少一个阅读记录中筛选出完全阅读标记为目标值的阅读记录,其中,目标值用于指示目标文章被完整阅读;从目标文章的至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合包括:从完全阅读标记为目标值的阅读记录中筛选出目标阅读记录,得到目标阅读记录集合。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:按照以下公式计算每篇目标文章对应的推广信息曝光量的平均值和标准差:
Figure BDA0001253105310000271
其中,expi为第i篇目标文章对应的推广信息曝光量,n为目标帐号所发表的目标文章的数量,mean为平均值,std为标准差;根据平均值和标准差确定目标帐号对应的推广信息曝光量区间,其中,推广信息曝光量区间的上限值为mean+3*std,推广信息曝光量区间的下限值为mean-3*std,或者,推广信息曝光量区间的上限值为每篇目标文章对应的推广信息曝光量中的最大值,推广信息曝光量区间的下限值为每篇目标文章对应的推广信息曝光量的最小值。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:将每篇目标文章对应的推广信息曝光量中的异常值进行剔除;根据剔除异常值之后的每篇目标文章对应的推广信息曝光量确定目标帐号对应的推广信息曝光量。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种推广信息曝光量的确定方法,其特征在于,包括:
获取目标帐号所发表的每篇目标文章的阅读日志,其中,所述阅读日志中包括至少一条阅读记录,所述阅读记录中包括:用户标识和阅读时间戳;
从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,所述目标阅读记录集合中用户标识相同的所述目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;
根据所述目标阅读记录集合中所述目标阅读记录的数量确定所述目标文章对应的推广信息曝光量;
根据每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量;
所述从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合包括:
按照所述用户标识和所述阅读时间戳对所述目标文章的所述至少一个阅读记录进行排序;
依次遍历排序后的所述至少一个阅读记录中的每个阅读记录,执行以下步骤,得到所述目标阅读记录集合,其中,所述每个阅读记录在执行以下步骤时被标记为当前阅读记录:判断所述当前阅读记录中的用户标识是否与上一条阅读记录中的用户标识相同;在所述当前阅读记录中的用户标识与所述上一条阅读记录中的用户标识不相同的情况下,将所述当前阅读记录确定为所述目标阅读记录并添加至所述目标阅读记录集合中;在所述当前阅读记录中的用户标识与所述上一条阅读记录中的用户标识相同的情况下,判断所述当前阅读记录中的阅读时间戳与所述上一条阅读记录中的阅读时间戳之间的时间差是否超过所述第一预定阈值;在所述当前阅读记录中的阅读时间戳与所述上一条阅读记录中的阅读时间戳之间的时间差超过所述第一预定阈值的情况下,将所述当前阅读记录确定为所述目标阅读记录并添加至所述目标阅读记录集合中。
2.根据权利要求1所述的方法,其特征在于,在所述从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合之后,所述方法还包括:
获取所述目标阅读记录集合中第一目标阅读记录的数量,其中,所述第一目标阅读记录的用户标识为第一标识;
判断所述第一目标阅读记录的数量是否超过第二预定阈值;
在所述第一目标阅读记录的数量超过第二预定阈值的情况下,在所述目标阅读记录集合中保留第二预定阈值数量的所述第一目标阅读记录。
3.根据权利要求1所述的方法,其特征在于,所述阅读记录中还包括:完全阅读标记,其中:
在所述获取目标帐号所发表的每篇目标文章的阅读日志之后,所述方法还包括:从所述目标文章的所述至少一个阅读记录中筛选出所述完全阅读标记为目标值的阅读记录,其中,所述目标值用于指示所述目标文章被完整阅读;
所述从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合包括:从所述完全阅读标记为所述目标值的阅读记录中筛选出所述目标阅读记录,得到目标阅读记录集合。
4.根据权利要求1所述的方法,其特征在于,所述根据每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量包括:
按照以下公式计算每篇所述目标文章对应的推广信息曝光量的平均值和标准差:
Figure FDA0003380604320000021
Figure FDA0003380604320000031
其中,expi为第i篇所述目标文章对应的推广信息曝光量,n为所述目标帐号所发表的所述目标文章的数量,mean为所述平均值,std为所述标准差;
根据所述平均值和标准差确定所述目标帐号对应的推广信息曝光量区间,其中,所述推广信息曝光量区间的上限值为mean+3*std,所述推广信息曝光量区间的下限值为mean-3*std,或者,所述推广信息曝光量区间的上限值为所述每篇所述目标文章对应的推广信息曝光量中的最大值,所述推广信息曝光量区间的下限值为所述每篇所述目标文章对应的推广信息曝光量的最小值。
5.根据权利要求1所述的方法,其特征在于,所述根据每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量包括:
将所述每篇所述目标文章对应的推广信息曝光量中的异常值进行剔除;
根据剔除异常值之后的所述每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量。
6.一种推广信息曝光量的确定装置,其特征在于,包括:
第一获取单元,用于获取目标帐号所发表的每篇目标文章的阅读日志,其中,所述阅读日志中包括至少一条阅读记录,所述阅读记录中包括:用户标识和阅读时间戳;
第一筛选单元,用于从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合,其中,所述目标阅读记录集合中用户标识相同的所述目标阅读记录中的阅读时间戳之间的时间差超过第一预定阈值;
第一确定单元,用于根据所述目标阅读记录集合中所述目标阅读记录的数量确定所述目标文章对应的推广信息曝光量;
第二确定单元,用于根据每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量;
所述第一筛选单元包括:
排序模块,用于按照所述用户标识和所述阅读时间戳对所述目标文章的所述至少一个阅读记录进行排序;
遍历模块,用于依次遍历排序后的所述至少一个阅读记录中的每个阅读记录,执行以下步骤,得到所述目标阅读记录集合,其中,所述每个阅读记录在执行以下步骤时被标记为当前阅读记录:判断所述当前阅读记录中的用户标识是否与上一条阅读记录中的用户标识相同;在所述当前阅读记录中的用户标识与所述上一条阅读记录中的用户标识不相同的情况下,将所述当前阅读记录确定为所述目标阅读记录并添加至所述目标阅读记录集合中;在所述当前阅读记录中的用户标识与所述上一条阅读记录中的用户标识相同的情况下,判断所述当前阅读记录中的阅读时间戳与所述上一条阅读记录中的阅读时间戳之间的时间差是否超过所述第一预定阈值;在所述当前阅读记录中的阅读时间戳与所述上一条阅读记录中的阅读时间戳之间的时间差超过所述第一预定阈值的情况下,将所述当前阅读记录确定为所述目标阅读记录并添加至所述目标阅读记录集合中。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二获取单元,用于在所述从所述目标文章的所述至少一条阅读记录中筛选出目标阅读记录,得到目标阅读记录集合之后,获取所述目标阅读记录集合中第一目标阅读记录的数量,其中,所述第一目标阅读记录的用户标识为第一标识;
判断单元,用于判断所述第一目标阅读记录的数量是否超过第二预定阈值;
保留单元,用于在所述第一目标阅读记录的数量超过第二预定阈值的情况下,在所述目标阅读记录集合中保留第二预定阈值数量的所述第一目标阅读记录。
8.根据权利要求6所述的装置,其特征在于,所述阅读记录中还包括:完全阅读标记,其中:
所述装置还包括:第二筛选单元,用于在所述获取目标帐号所发表的每篇目标文章的阅读日志之后,从所述目标文章的所述至少一个阅读记录中筛选出所述完全阅读标记为目标值的阅读记录,其中,所述目标值用于指示所述目标文章被完整阅读;
所述第一筛选单元包括:筛选模块,用于从所述完全阅读标记为所述目标值的阅读记录中筛选出所述目标阅读记录,得到目标阅读记录集合。
9.根据权利要求6所述的装置,其特征在于,所述第二确定单元包括:
第一计算模块,用于按照以下公式计算每篇所述目标文章对应的推广信息曝光量的平均值和标准差:
Figure FDA0003380604320000051
Figure FDA0003380604320000052
其中,expi为第i篇所述目标文章对应的推广信息曝光量,n为所述目标帐号所发表的所述目标文章的数量,mean为所述平均值,std为所述标准差;
第一确定模块,用于根据所述平均值和标准差确定所述目标帐号对应的推广信息曝光量区间,其中,所述推广信息曝光量区间的上限值为mean+3*std,所述推广信息曝光量区间的下限值为mean-3*std,或者,所述推广信息曝光量区间的上限值为所述每篇所述目标文章对应的推广信息曝光量中的最大值,所述推广信息曝光量区间的下限值为所述每篇所述目标文章对应的推广信息曝光量的最小值。
10.根据权利要求6所述的装置,其特征在于,所述第二确定单元包括:
剔除模块,用于将所述每篇所述目标文章对应的推广信息曝光量中的异常值进行剔除;
第二确定模块,用于根据剔除异常值之后的所述每篇所述目标文章对应的推广信息曝光量确定所述目标帐号对应的推广信息曝光量。
CN201710182080.0A 2017-03-23 2017-03-23 推广信息曝光量的确定方法和装置 Active CN108629610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710182080.0A CN108629610B (zh) 2017-03-23 2017-03-23 推广信息曝光量的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710182080.0A CN108629610B (zh) 2017-03-23 2017-03-23 推广信息曝光量的确定方法和装置

Publications (2)

Publication Number Publication Date
CN108629610A CN108629610A (zh) 2018-10-09
CN108629610B true CN108629610B (zh) 2022-02-08

Family

ID=63707549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710182080.0A Active CN108629610B (zh) 2017-03-23 2017-03-23 推广信息曝光量的确定方法和装置

Country Status (1)

Country Link
CN (1) CN108629610B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110545292B (zh) * 2019-09-29 2021-07-30 秒针信息技术有限公司 一种异常流量监测的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992342A (zh) * 2015-05-11 2015-10-21 腾讯科技(北京)有限公司 推广信息投放有效性确定方法、监测服务器及终端
CN106095939A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 账户权限的获取方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104992342A (zh) * 2015-05-11 2015-10-21 腾讯科技(北京)有限公司 推广信息投放有效性确定方法、监测服务器及终端
WO2016180138A1 (zh) * 2015-05-11 2016-11-17 腾讯科技(深圳)有限公司 推广信息投放有效性确定方法、监测服务器及终端
CN106095939A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 账户权限的获取方法和装置

Also Published As

Publication number Publication date
CN108629610A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
CN108733706B (zh) 热度信息的生成方法和装置
CN104091276B (zh) 在线分析点击流数据的方法和相关装置及系统
CN108304426B (zh) 标识的获取方法及装置
CN110381151B (zh) 一种异常设备检测方法及装置
CN106708844A (zh) 一种用户群体的划分方法和装置
CN109697454B (zh) 一种基于隐私保护的跨设备个体识别方法及装置
CN110545292B (zh) 一种异常流量监测的方法及装置
JPWO2017115458A1 (ja) ログ分析システム、方法およびプログラム
CN108038130A (zh) 虚假用户的自动清理方法、装置、设备及存储介质
CN112307297B (zh) 一种基于优先级规则的用户标识统一方法及系统
CN113505272B (zh) 基于行为习惯的控制方法和装置、电子设备和存储介质
CN111371672A (zh) 消息推送方法及装置
CN106301979B (zh) 检测异常渠道的方法和系统
CN107330709B (zh) 确定目标对象的方法及装置
CN108629610B (zh) 推广信息曝光量的确定方法和装置
CN113609389A (zh) 一种社区平台信息推送方法及系统
CN106919609B (zh) 产品信息推送方法和装置
CN113393270B (zh) 广告点位贡献值的确定方法和装置、电子设备和存储介质
CN113837318A (zh) 流量判定方案的确定方法和装置、电子设备和存储介质
CN105681097B (zh) 获取终端设备更换周期的方法和装置
CN110955760A (zh) 判决结果的评价方法和相关装置
CN109783559B (zh) 房产交易数据的获取方法、装置、电子设备以及存储介质
CN113655958A (zh) 应用数据的存储方法
CN111382343B (zh) 一种标签体系生成方法及装置
CN109413459B (zh) 一种直播平台中用户的推荐方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant