CN112686717A - 一种广告召回的数据处理方法及系统 - Google Patents
一种广告召回的数据处理方法及系统 Download PDFInfo
- Publication number
- CN112686717A CN112686717A CN202110263914.7A CN202110263914A CN112686717A CN 112686717 A CN112686717 A CN 112686717A CN 202110263914 A CN202110263914 A CN 202110263914A CN 112686717 A CN112686717 A CN 112686717A
- Authority
- CN
- China
- Prior art keywords
- nodes
- flow
- traffic
- coverage
- advertisement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于计算机技术领域,具体涉及一种广告召回的数据处理方法及系统。该广告召回的数据处理方法包括:根据广告请求日志构建流量倒排索引,流量倒排索引用于表示广告定向与广告流量之间的映射关系;获取定向树,并根据定向树和流量倒排索引获取定向树的各个节点的覆盖流量;根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据独立集合确定异常召回节点。基于该方法及系统能够实现对无法召回或召回量不足的广告进行诊断得到异常召回节点,有利于广告主、流量方或平台方对召回量不足的广告的异常节点进行归因分析,从而能够便于广告主在后续的广告投放中对定向树进行调整从而得到更为充足的召回量。
Description
技术领域
本申请涉及计算机技术领域,具体涉及一种广告召回的数据处理方法及系统。
背景技术
在日常运营中存在广告无法召回或召回量较小问题。相关技术中,可构造白板系统排查广告无法召回问题。白板系统是一个展示广告过程信息的日志系统,排查问题过程需要首先根据不同app选择不同的请求模版,填充所需的用户信息、设备号等参数;然后请求模拟模块根据填充的模版信息构造白板请求,广告系统收到白板请求,在响应中把广告选单各关键环节上报上来的详细日志信息返回给请求模拟模块;最后请求模拟模块把详细日志数据上报给日志解析入库模块,然后日志解析入库模块拿到详细日志进行解析,供前端进行日志查询。
然而,构造白板系统排查广告无法召回问题具有以下缺陷:白板系统只能诊断广告的召回量为零,也即无法召回的问题;对于广告召回量较小的情况白板系统会认为召回正常,无法诊断出来。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种广告召回的数据处理方法及系统,至少在一定程度上克服相关技术中存在的技术问题:对于广告召回量较小的情况无法诊断。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种广告召回的数据处理方法,包括根据广告请求日志构建流量倒排索引,所述流量倒排索引用于表示广告定向与广告流量之间的映射关系;获取定向树,并根据所述定向树和所述流量倒排索引获取所述定向树的各个节点的覆盖流量;根据所述节点的覆盖流量将所述节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据所述独立集合确定异常召回节点。
根据本申请实施例的一个方面,提供一种广告召回的数据处理系统,其特征在于,用于执行本申请实施例提供的广告召回的数据处理方法,所述广告召回的数据处理系统包括:
流量倒排索引模块,根据广告请求日志构建流量倒排索引,所述流量倒排索引用于表示广告定向与广告流量之间的映射关系;
定向树入库模块,用于获取定向树以根据所述定向树和所述流量倒排索引获取所述定向树的各个节点的覆盖流量;
故障诊断模块,分别与所述流量倒排索引模块和所述定向树入库模块连接,用于根据所述节点的覆盖流量将所述节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据所述独立集合确定异常召回节点。
在本申请的一些实施例中,基于以上技术方案,所述流量倒排索引模块包括:
词项生成单元,用于根据所述广告请求日志生成词项字典和词项元信息,所述词项字典包括多列倒排偏移数据,所述词项元信息包括每列所述倒排偏移数据指向的倒排流量数据的倒排数据起始地址,所述倒排流量数据包括广告定向与广告流量之间的映射信息;
词项字典寻址单元,根据每个所述节点在所述词项字典中的所属列的列元信息得到词项字典地址,所述词项字典地址为所述多列倒排偏移数据分别对应的存储地址;
倒排偏移查询单元,用于根据所述词项字典地址查询所述词项字典以得到所述节点的倒排偏移;
起始地址查询单元,用于根据每个所述节点的列元信息查询所述词项元信息以得到所述节点对应的倒排数据起始地址;
倒排索引建立单元,用于根据所述倒排数据起始地址和所述倒排偏移建立所述流量倒排索引。
在本申请的一些实施例中,基于以上技术方案,所述故障诊断模块包括:
排序单元,用于将所述节点按照覆盖流量从大到小的顺序排序;
集合建立单元,用于将覆盖流量最大的所述节点单独建立为独立集合;
交集流量计算单元,用于将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量;
第一判断单元,用于在所述测试集合与所有所述独立集合的交集的覆盖流量均小于或等于流量阈值的情况下,将所述测试集合单独建立为另一个独立集合,重复所述将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量的步骤直至所有所述节点均处于所述独立集合中;
第二判断单元,用于在所述测试集合与一个或多个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到与所述测试集合的交集覆盖流量最大的所述独立集合中,并重复所述将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量的步骤直至所有所述节点均处于所述独立集合中;
诊断单元,将覆盖流量最小的一个或多个所述独立集合中的一个或多个所述节点作为异常召回节点。
在本申请的一些实施例中,基于以上技术方案,所述排序单元包括:
第一排序子单元,用于将覆盖流量小于或等于所述流量阈值的所述节点直接建立为独立集合;
第二排序子单元,用于将覆盖流量大于所述流量阈值的所述节点按照覆盖流量从大到小的顺序排序。
在本申请的一些实施例中,基于以上技术方案,所述第二排序子单元包括:
分类子单元,用于将将所述节点按照预设属性分类到对应的优先级中;
分类排序子单元,用于先将所述节点按照优先级的高低进行排序,将优先级较高的所述节点排序在优先级较低的节点之前,再分别将同一优先级中的所述节点按照覆盖流量大小排序,将同一优先级中覆盖流量较大的所述节点排序在覆盖流量较小的节点之前。
在本申请的一些实施例中,基于以上技术方案,所述第二判断单元包括:
第一判断子单元,在所述测试集合与一个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到该独立集合中;
第二判断子单元,在所述测试集合与多个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到具有最高优先级的节点的所述独立集合中,或者将所述测试集合加入到具有最高优先级的节点并且与所述测试集合的交集覆盖流量最大的所述独立集合中。
在本申请的一些实施例中,基于以上技术方案,所述诊断单元还包括:
诊断子单元,将节点优先级最低的所述独立集合中的一个或多个节点作为异常召回节点,或者将节点优先级相同但覆盖流量最小的所述独立集合中的一个或多个节点作为异常召回节点。
在本申请的一些实施例中,基于以上技术方案,所述预设属性包括广告位属性、流量侧属性和广告定向属性;其中:
所述广告位属性为与广告规格类型相关的属性,为第一优先级;
所述流量规则属性为与广告流量提供方制定的规则相关的属性,为第二优先级;
所述广告定向属性为与广告投放个性化定向相关的属性,为第三优先级。
在本申请的一些实施例中,基于以上技术方案,所述广告召回的数据处理系统还包括:
操作建议模块,用于接收故障诊断模块输出的所述异常召回节点,并且输出所述异常召回节点在诊断结果数据库中映射的操作建议,其中,所述诊断结果数据库存储有所述异常召回节点与所述操作建议的映射关系。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的广告召回的数据处理方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的广告召回的数据处理方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的广告召回的数据处理方法。
由上述技术方案可知,本申请至少具有如下优点和积极效果:
本申请实施方式的广告召回的数据处理方法及系统先根据定向树和流量倒排索引获取定向树的各个节点的覆盖流量,再根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据独立集合确定异常召回节点,从而通过将定向树的各个节点划分到流量交集小于或等于流量阈值的多个独立集合实现对定向树的各个节点的分类,进而实现对无法召回或召回量不足的广告进行节点的诊断以得到异常召回节点,有利于广告主、流量方或平台方对无法召回或召回量不足的广告的异常节点进行归因分析,从而能够便于广告主在后续的广告投放中对定向树进行调整从而得到更为充足的召回量的同时,能够便于流量方对流量规则进行更为合理的设定,便于流量方和平台方对广告召回量进行监控和管理。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请某些实施方式的广告召回的数据处理系统的架构示意图。
图2示出了本申请某些实施方式的广告召回的数据处理方法的步骤流程图。
图3示出了本申请另一些实施方式的广告召回的数据处理系统的架构示意图。
图4示意性地示出了本申请某些实施方式的根据广告请求日志构建流量倒排索引,流量倒排索引用于表示广告定向与广告流量之间的映射关系的步骤流程图。
图5示出了本申请某些实施方式中建立流量倒排索引并根据流量倒排索引查询定向节点的覆盖流量的过程示意图。
图6示出了本申请某些实施方式中定向树的结构示意图。
图7示意性地示出了本申请某些实施方式的根据节点的覆盖流量确定异常召回节点的步骤流程图。
图8示出了本申请某个实施例中根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合的过程示意图的第一部分。
图9示出了本申请某个实施例中根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合的过程示意图的第二部分。
图10示意性地示出了本申请某些实施方式的将节点按照覆盖流量从大到小的顺序排序的步骤流程图。
图11示意性地示出了本申请某些实施方式的将覆盖流量大于流量阈值的节点按照覆盖流量从大到小的顺序排序的步骤流程图。
图12示意性地示出了本申请某些实施方式中对节点按照预设属性分类到对应的优先级中并且根据异常召回节点在诊断结果数据库中映射的操作建议提供对应的操作建议的具体实施例的示意图。
图13示意性地示出了本申请某些实施方式的在测试集合与一个或多个独立集合的交集的覆盖流量大于流量阈值的情况下的步骤流程图。
图14示意性地示出了整体定向条件的召回量为零并且各节点的覆盖流量相近的举例。
图15示意性地示出了本申请另一些实施方式的广告召回的数据处理方法的步骤流程图。
图16示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在对本申请实施例提供的广告召回的数据处理方法及系统等技术方案作出详细说明之前,先对本申请部分实施例中涉及的区块链技术进行简单介绍。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
在本申请的以下各实施例中,主要以广告投放过程中对广告召回的数据处理方法及系统进行说明,广告投放的广告内容包括但不限于视频、图像、文本等内容形式,本申请并不以此为限。
下面结合具体应用场景对本申请实施例提供的技术方案作出详细说明。
广告投放的检索阶段中,可能发生召回量为零、召回量较少或者其他召回量异常等情况。当此类情况出现时,可以对广告投放的检索阶段的召回量的异常进行诊断。
图1示出了本申请某些实施方式的广告召回的数据处理系统的架构示意图。如图1所示,广告召回的数据处理系统100包括流量倒排索引模块10、定向树入库模块20和故障诊断模块30。
其中,流量倒排索引模块10,可以用于根据广告请求的Tracklog(追踪日志)的小时日志中的流量特征数据构建流量倒排索引,流量倒排索引用于表示流量和广告之间的映射关系。定向树入库模块20可以获取定向树以根据定向树和流量倒排索引获取定向树的各个节点的覆盖流量。故障诊断模块30可以分别与流量倒排索引模块10和定向树入库模块20连接,用于根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据独立集合确定异常召回节点。
图2示出了本申请某些实施方式的广告召回的数据处理方法的步骤流程图,该广告召回的数据处理方法的执行主体可以是终端设备,也可以是服务器等,本申请对此不设限。如图2所示,该广告召回的数据处理方法主要可以包括如下步骤S01~步骤S03:
S01. 根据广告请求日志构建流量倒排索引,流量倒排索引用于表示广告定向与广告流量之间的映射关系。
图3示出了本申请另一些实施方式的广告召回的数据处理系统的架构示意图。广告召回的数据处理系统100可以包括数据接入层、数据计算层、数据存储层和应用层。其中,流量倒排索引模块10可以具体地包括计算引擎11、文件系统12和分析引擎13。可以参阅图3,计算引擎11(在图3的示例中为Spark)的离线小时计算任务从广告请求日志中抽取请求id(请求编号)和请求所带的一体化id(特征)数据写入HDFS,然后导入分析引擎13(在图3的示例中为Pivot)中以构建流量倒排索引。广告请求日志为在广告请求过程中产生包括用户及流量特征的日志数据,根据广告请求日志能够构建流量倒排索引。图3所示的实施例采用分析引擎Pivot作为构建索引的数据库。其中,Spark是专为大规模数据处理而设计的快速通用的计算引擎。Pivot是一个OLAP(On-Line Analytical Proces-sing,联机分析处理)分析引擎。Pivot是基于列存储,通过分布式并行计算的分析引擎,能够提供最快亚秒级时延的大数据实时分析能力。本发明不具体限定在Pivot这一种OLAP分析引擎,在本申请一些实施方式中,分析引擎Pivot可以替换为各种其他有效的新型OLAP分析引擎。一体化id是广告定向的定向特征集的表达,相关技术中,可以把所有的广告定向、流量特征打平到一体化id这个统一的维度空间。
图4示意性地示出了本申请某些实施方式的根据广告请求日志构建流量倒排索引的步骤流程图。如图4所示,在以上实施例的基础上,步骤S01. 根据广告请求日志构建流量倒排索引,可以进一步包括以下步骤S011~步骤S015:
S011. 根据广告请求日志生成词项字典和词项元信息,词项字典包括多列倒排偏移数据,词项元信息包括每列倒排偏移数据指向的倒排流量数据的倒排数据起始地址,倒排流量数据包括广告定向与广告流量之间的映射信息;
S012. 根据每个所述节点在所述词项字典中的所属列的列元信息得到词项字典偏移,并计算出词项字典地址,所述词项字典地址为所述多列倒排偏移数据分别对应的存储地址;
S013. 根据词项字典地址查询词项字典以得到节点的倒排偏移;
S014. 根据每个节点的列元信息查询词项元信息以得到节点对应的倒排数据起始地址;
S015. 根据倒排数据起始地址和倒排偏移建立流量倒排索引。
具体实施方式中,可以将广告所有的定向特征和流量属性都打平统一到一体化id的一维空间中形成流量索引。但由于一体化id的基数可以高达10亿级,若将一体化id单独存为一列数据会存在流量索引查询慢的问题。
为克服上述流量索引查询慢的缺陷,在参阅图4所示的步骤S011~步骤S015的同时,请参阅图5给出的根据流量索引建立流量倒排索引并查询定向节点的覆盖流量的过程的具体示意图。
根据广告请求日志生成词项字典和词项元信息,具体可以为,将广告所有的定向特征和流量属性都打平统一到一体化id的一维空间中形成流量索引,流量索引可以包括将一体化id按定向类别散列到不同列对应地生成的词项字典的各列倒排偏移数据,每列流量偏移数据具有对应的列元信息。其中,词项元信息包括每列倒排偏移数据指向的倒排流量数据的倒排数据起始地址,倒排流量数据包括广告定向与广告流量之间的映射信息。如图5所示,在Pivot(分析引擎)构建流量索引时,广告位(包括“朋友圈”等定向)处于列元信息为“其他定向”的列中;性别(包括“性别_女”、“性别_男”和“性别_未知”的定向)处于列元信息为“系统定向”的列中;人群信息(包括“游戏人群”等定向)处于列元信息为“人群包”的列中;一体化id按定向类别散列到“其他定向”“系统定向”“人群包”这三个不同的列中,从而能够通过分列查询实现加速查询。进一步地,定向使用较频繁的热门定向类别如“性别_女”、“性别_男”和“性别_未知”的定向可以配置到pivot(分析引擎)的内存索引中,内存索引处理速度较快,可以加速流量索引的查询。
根据流量索引构建倒排索引并查询定向节点的覆盖流量的具体过程可以如图5中的步骤1至步骤4所示。假设广告投放的定向特征树的某个定向节点的逻辑表达式为:性别_男 && 游戏人群 && 朋友圈。当查询该定向节点的覆盖流量时,分析引擎Pivot首先执行步骤1(对应步骤S012):根据每个定向子节点“性别_男”、“游戏人群”、“朋友圈”的列元信息分别找到系统定向、人群包、其他定向这三列Term字典在词项字典中的偏移量从而得到词项字典地址,词项字典地址为多列倒排偏移数据分别对应的存储地址。其中,Term字典为词项字典。词项字典具有对应的列元信息。
然后执行步骤2(对应步骤S013和S014):根据Term字典中系统定向、人群包、其他定向这三列倒排偏移数据的偏移量得到词项字典地址后,根据词项字典地址获取各列倒排偏移数据的位置。在Term字典的各列倒排偏移数据中分别查询“性别_男”、“游戏人群”、“朋友圈”得到节点“性别_男”、“游戏人群”、“朋友圈”节点“性别_男”、“游戏人群”、“朋友圈”对应的倒排偏移,再根据每个节点的列元信息:系统定向、人群包、其他定向查询词项元信息以得到节点“性别_男”、“游戏人群”、“朋友圈”分别对应的倒排数据起始地址。其中,列元信息相同的同类定向节点的倒排数据起始地址相同,例如,节点“性别_女”、“性别_男”和“性别_未知”的倒排数据起始地址相同。
接着执行步骤3(对应步骤S015):根据倒排数据起始地址和倒排偏移计算出各定向子节点“性别_男”、“游戏人群”、“朋友圈”的倒排索引数据,从而得到流量倒排索引。倒排流量索引用于表示广告定向与广告流量之间的映射关系。例如,图5中的文档doc中包括a1、a2、a3、a4……等,实际数据中可能包括10亿数量级的文档,每个文档表示用户发生一个广告请求时产生的一次广告流量,一次广告流量对应的覆盖流量为1。图5所示的倒排索引数据中,定向子节点“性别_男”映射的文档a1~a6中,文档a3、a4和a5的对应数据为1,表示定向子节点“性别_男”覆盖了文档a3、a4和a5对应的广告流量,定向子节点在文档a1~a6中的覆盖流量为3。
再接着,执行步骤4(对应步骤S02中的“根据定向树和流量倒排索引获取定向树的各个节点的覆盖流量”):根据定向节点中各定向子节点在流量倒排索引中对应的倒排索引数据和定向节点的逻辑表达式得到图5所示的正排数据,计算出定向节点覆盖的流量。在定向节点的逻辑表达式为“性别_男 && 游戏人群 && 朋友圈”的情况下,也即定向节点的各定向子节点“性别_男”、“游戏人群”、“朋友圈”之间的逻辑表达式关系为“性别_男 && 游戏人群 && 朋友圈”的情况下,可以根据该逻辑表达式和流量倒排索引查询到该定向节点“性别_男 && 游戏人群 && 朋友圈”的覆盖流量。
S02. 获取定向树,并根据定向树和流量倒排索引获取定向树的各个节点的覆盖流量。
定向树入库模块20在数据接入层上可以具体地包括索引解析代理器21(在图3的示例中为Agent)、数据银行22(在图3的示例中为TdBank)和数据处理引擎23(在图3的示例中为分布式大数据处理引擎Flink)。其中,索引解析代理器Agent用于接收索引文件并将索引文件上报到数据银行TdBank再发送到分布式大数据处理引擎Flink以计算得到定向树。其中,索引文件为在广告的检索阶段中从广告库订阅广告数据产生的包含广告属性及定向树的索引文件。根据该索引文件可以计算并生成相应的定向树数据。Tdbank是大数据平台(TBD)的第一线,它旨在统一数据接入入口,提供多样的数据接入方式,以及高效实时的分布式数据分发。Flink是一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据进行快速计算。
数据接入层的索引解析代理器Agent从广告检索推送过来的全量索引文件中解析出广告定向树数据并写入到数据银行Tdbank消息队列,计算层的分布式大数据处理引擎Flink从数据银行Tdbank解析消费广告定向树数据实时计算入库写入到ES(Elasticsearch,实时搜索引擎)14中,当广告召回完成之后,ES中的广告定向树数据可以导入到HDFS(Hadoop Distributed File System,分布式文件系统)22中实现长期的存储。
ES是一个基于搜索引擎Lucene构建的开源分布式搜索分析引擎,可以近实时的索引、检索数据。具备高可靠、易使用、社区活跃等特点,在全文检索、日志分析、监控分析等场景具有广泛应用。HDFS是一个分布式文件系统。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
其中,节点可以包括中间节点和叶子节点。根据定向树和流量倒排索引获取定向树的各个节点的覆盖流量,具体地为,根据定向树的各个节点的逻辑表达式和流量倒排索引计算出覆盖的流量,也即根据图5所示的节点的逻辑表达式“性别_男 && 游戏人群 &&朋友圈”和流量倒排索引计算出该节点覆盖的流量。
图6示出了本申请某些实施方式中定向树的结构示意图。定向树是定向关系的抽象。定向树Lambda可以包括一个或多个节点。每个节点可以包括一个定向特征集Repository。定向特征集Repository为一个或多个同类定向的集合。定向树Lambda的递归定义如下公式所示:
定向树Lambda等于0~n个定向树Lambda与定向特征集Repository进行“与”或“或”的逻辑运算后再与0~1个“非”运算符进行逻辑运算的运算结果。定向树Lambda的定义式是一个递归的结构。
定向特征集Repository的定义式如下公式所示:
定向特征集Repository等于1~n个定向特征token进行“或”的逻辑运算后再与0~1个“非”运算符进行逻辑运算的运算结果。定向特征token可以是定向点特征id(如图6所示的id1、id2、id3、id4……等 ),定向范围特征range或文本特征text。具体地,定向点特征id可以为性别女、游戏人群、付费人群等;定向范围特征range可以为年龄18~34、年龄20~50等;文本特征text可以为搜索内容包括“游戏”或“付费”等关键词。
S03. 根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据独立集合确定异常召回节点。
其中,节点可以包括中间节点和叶子节点。故障诊断模块30根据待诊断广告的请求时间和诊断时间从定向树入库模块20的ES中查询出定向树后,再从流量倒排索引模块10中获取流量倒排索引以获取定向树的各个节点的覆盖流量,然后根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据独立集合确定异常召回节点。
由此,通过获取广告请求过程中的日志数据并写入到OLAP分析引擎构建流量倒排索引,再通过实时处理广告检索阶段的索引文件同步而来的广告定向树数据构建查询任务查询广告定向树中各节点覆盖的流量,并根据节点的覆盖流量及节点之间交叉的覆盖流量得到异常召回节点,从而帮助用户(包括广告主、流量方或平台方等)找出导致广告无法召回的定向节点,从而能够实现对无法召回或召回量不足的广告进行诊断得到异常召回节点,有利于广告主、流量方或平台方对召回量不足的广告的异常节点进行归因分析,从而能够便于广告主在后续的广告投放中对定向树进行调整从而得到更为充足的召回量的同时,能够便于流量方对流量规则进行更为合理的设定,便于流量方和平台方对广告召回量进行监控和管理。
图7示意性地示出了本申请某些实施方式的根据节点的覆盖流量确定异常召回节点的步骤流程图。如图7所示,在以上实施例的基础上,步骤S03. 根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据独立集合确定异常召回节点,可以进一步包括以下步骤S031~步骤S036:
S031. 将节点按照覆盖流量从大到小的顺序排序。
优选地,S02、S03和S031~S036所述的节点可以为叶子节点,能够有利于将无法召回或召回量较小的诊断结果归因到定向树的最末端,使得诊断归因能够更加细致和明确。定向树的覆盖流量为0,说明广告出现无法召回的异常问题,因此,需要对无法召回的广告进行诊断得到异常召回节点。获取图8的流程a所示的覆盖流量为0的定向树后,如图8的流程b所示,先将定向树的叶子节点按照覆盖流量从大到小的顺序排序,“性别女”的叶子节点的覆盖流量最大,覆盖数为5000,因此“性别女”的叶子节点排在第一序位。后面排序也安装覆盖流量的覆盖数的大小对叶子节点进行排序。
S032. 将覆盖流量最大的节点单独建立为独立集合。
S033. 将不在集合中的覆盖流量最大的节点作为测试集合,获取测试集合与所有独立集合的交集的覆盖流量。
S032和S033在具体例子中可以如图8的流程c所示,将覆盖流量最大的节点“性别女”作为独立集合,然后不在集合中的覆盖流量最大的节点“公众号规格”作为测试集合,获取测试集合与所有独立集合的交集的覆盖流量,此时,独立集合只有“性别女”,查询流量倒排索引后得到测试集合与独立集合“性别女”的交集的覆盖流量为1500。
S034.在测试集合与所有独立集合的交集的覆盖流量均小于或等于流量阈值的情况下,将测试集合单独建立为另一个独立集合,重复将不在集合中的覆盖流量最大的节点作为测试集合,获取测试集合与所有独立集合的交集的覆盖流量的步骤直至所有节点均处于独立集合中。
S035. 在测试集合与一个或多个独立集合的交集的覆盖流量大于流量阈值的情况下,将测试集合加入到与测试集合的交集覆盖流量最大的独立集合中,并重复将不在集合中的覆盖流量最大的节点作为测试集合,获取测试集合与所有独立集合的交集的覆盖流量的步骤直至所有节点均处于独立集合中。
接着,S034和S035在具体例子中可以如图8和图9的流程c至流程h所示,在测试集合与所有独立集合的交集的覆盖流量均小于或等于流量阈值的情况下,将测试集合单独建立为另一个独立集合;在测试集合与一个或多个独立集合的交集的覆盖流量大于流量阈值的情况下,将测试集合加入到与测试集合的交集覆盖流量最大的独立集合中。
在图8和图9的实施例中,流量阈值为100。在其他实施例中,流量阈值可以为0、10、20、30、50、80、100、120、150、180、200、300、400、500等。流程c中,测试集合与独立集合的交集的覆盖流量为1500,大于流量阈值100,因此,将测试集合“公众号规格”加入到独立集合“性别女”中,形成流程d中所示的新的独立集合“性别女 && 公众号规格”。
到流程d中,将不在集合中的覆盖流量最大的节点“年龄18~34”作为测试集合,获取测试集合与独立集合“性别女 && 公众号规格”的交集的覆盖流量,测试集合与独立集合的交集的覆盖流量为1200,大于流量阈值100,因此,将测试集合的叶子节点“年龄18~34”加入到独立集合“性别女 && 公众号规格”中形成流程e中的“性别女 && 公众号规格 && 年龄 18~34”。
再到图9所示的流程e中,将不在集合中的覆盖流量最大的节点“人群标签”作为测试集合,获取测试集合与独立集合“性别女 && 公众号规格 && 年龄 18~34”的交集的覆盖流量,测试集合与独立集合的交集的覆盖流量为0,小于流量阈值100。因此,如流程f所示,将测试集合“人群标签”单独建立为另一个独立集合“人群标签”。
再到流程g中,将不在集合中的覆盖流量最大的节点“已安装定向”作为测试集合,获取测试集合“已安装定向”与独立集合“性别女 && 公众号规格 && 年龄 18~34”和独立集合“人群标签”的交集的覆盖流量。测试集合“已安装定向”与独立集合“性别女 && 公众号规格 && 年龄 18~34”的交集的覆盖流量为400,大于流量阈值100。测试集合“已安装定向”与独立集合“人群标签”的交集的覆盖流量为200,大于流量阈值100但小于独立集合“性别女 && 公众号规格 && 年龄 18~34”的交集的覆盖流量400。因此,将测试集合“已安装定向”加入到与测试集合的交集覆盖流量最大的独立集合“性别女 && 公众号规格 && 年龄18~34”中。最终得到的结果如流程h所示,所有节点均处于独立集合中。
图8和图9所示的根据节点的覆盖流量将节点划分为流量交集小于或等于流量阈值的多个独立集合的过程,也可以理解为对广告的定向树进行剪枝的过程。
S036. 将覆盖流量最小的一个或多个独立集合中的一个或多个节点作为异常召回节点。
在某些实施方式中,在所有节点均处于独立集合中后,可以将一个或多个独立集合加入到诊断结果列表中,然后将诊断结果列表中的覆盖流量最小的一个或多个独立集合中的一个或多个节点作为异常召回节点。
具体地,可以仅将一个独立集合中的一个节点作为异常召回节点,也可以将一个或多个独立集合中的多个节点作为异常召回节点。
可以理解,不同流量方的APP,如新闻、QQ、微信的广告请求的协议不一样,采用白板系统对广告无法召回问题进行排查诊断,在构建广告请求时需要适配不同的协议,并且需要构造满足广告定向人群和流量的请求。并且,白板系统不支持诊断历史广告的无法召回问题,只能对在投放过程中的广告的无法召回问题进行诊断,为了对投放过程中的广告进行诊断,白板系统构造请求需要花费大量的时间,从而使得采用白板系统对广告无法召回问题进行排查诊断的过程耗时较长。
而本申请实施例的所示的步骤S031~S036将寻找召回量较小或无法召回的定向原因所在的问题转变为将定向树的节点划分为流量交集小于或等于流量阈值的多个独立集合的问题,将寻找无法召回(召回量为零)的定向原因所在的问题转变为将定向树的节点划分成不相交集合的问题,本申请实施例的所示的步骤S031~S036及图8、图9所示的广告召回的数据处理方法根据节点的覆盖流量得到异常召回节点的步骤数量较少,无需对叶子节点进行所有可能的排列组合即可查找出异常召回节点,时间复杂度一般为O(n)。并且,本申请实施例的所示的步骤S01和S02耗时也较少,无需进行大量计算。由此,本申请实施方式的广告召回的数据处理方法的运行耗时较少,能够具有较高的对广告无法召回问题进行排查诊断的诊断效率。
并且,本申请某些实施方式的广告召回的数据处理方法克服了白板系统在广告离线时无法进行诊断的问题。本申请在广告投放的检索召回的诊断中,可以在广告召回检索阶段就存储了历史的广告信息和流量属性,由此,本申请某些实施方式的广告召回的数据处理方法可以利用存储了的广告信息和流量属性获取历史广告的广告定向树并构建流量倒排索引,从而完成对召回量为零、召回量较少或者其他召回量异常情况的诊断,获取异常召回节点。
构建定向树检索流量的索引并通过分析节点的覆盖流量及节点之间的交叉覆盖流量得到异常召回节点,不仅可以找出导致索引无法召回的原因,还能通过比较不同时间下定向覆盖的流量分析引起流量异动的广告定向。可以理解,在不同的时间点,定向树检索流量的索引不同,定向树检索流量的索引可以每隔预定时间更新一次,对不同的时间点的定向树检索流量的索引得到的定向覆盖的流量进行分析,有利于广告主在不同的时间点分析召回量的变化,从而能够帮助广告主在更为合适的时间点投放广告以获取更为充足的召回量。
图10示意性地示出了本申请某些实施方式的将节点按照覆盖流量从大到小的顺序排序的步骤流程图。如图10所示,在以上实施例的基础上,步骤S031. 将节点按照覆盖流量从大到小的顺序排序,可以进一步包括以下步骤S0311~步骤S0312:
S0311. 将覆盖流量小于或等于流量阈值的节点直接建立为独立集合;
S0312. 将覆盖流量大于流量阈值的节点按照覆盖流量从大到小的顺序排序。
在步骤S031中将覆盖流量小于或等于流量阈值的节点直接建立为独立集合,能够节省后续S32~S34步骤中计算测试集合与独立集合交集的覆盖流量并在测试集合与所有独立集合的交集的覆盖流量均小于或等于流量阈值的情况下,将测试集合单独建立为另一个独立集合的步骤。可以理解,当节点的覆盖流量小于或等于流量阈值,将该节点作为测试集合与独立集合交集后的覆盖流量必然小于或等于流量阈值,后续步骤必然将该节点直接建立为独立集合。因此,将覆盖流量小于或等于流量阈值的节点直接建立为独立集合,可以省略部分实施例中“计算测试集合与独立集合交集的覆盖流量,并在测试集合与所有独立集合的交集的覆盖流量均小于或等于流量阈值的情况下,将该测试集合单独建立为另一个独立集合”的步骤,能够提升诊断效率,降低诊断耗时。
进一步地,可以将覆盖流量小于或等于流量阈值的节点直接建立为独立集合后直接加入到诊断结果列表中,在该独立集合加入到诊断结果列表之后,将不再与后续步骤的测试集合进行交集与计算覆盖流量,可以理解,该独立集合的节点的覆盖流量小于或等于流量阈值,因此该独立集合与测试集合的交集的覆盖流量必然小于或等于流量阈值,测试集合将不会加入到该独立集合中。由此,可以节省后续步骤中将测试集合与该独立集合进行交集与计算覆盖流量的步骤,从而能够提升诊断效率,降低诊断耗时。
当流量阈值为零时,步骤S0311则是将覆盖流量为零的节点直接建立为独立集合;步骤S0312则是将覆盖流量大于零的节点按照覆盖流量从大到小的顺序排序。进一步地,当流量阈值为零时,将覆盖流量为零的节点直接建立为独立集合并加入到诊断结果列表中,再将覆盖流量大于零的节点按照覆盖流量从大到小的顺序排序。
图11示意性地示出了本申请某些实施方式的将覆盖流量大于流量阈值的节点按照覆盖流量从大到小的顺序排序的步骤流程图。如11所示,在以上实施例的基础上,步骤S0312. 将覆盖流量大于流量阈值的节点按照覆盖流量从大到小的顺序排序,可以进一步包括以下步骤S03121~步骤S03122:
S03121. 将节点按照预设属性分类到对应的优先级中;
S03122. 先将节点按照优先级的高低进行排序,将优先级较高的节点排序在优先级较低的节点之前,再分别将同一优先级中的节点按照覆盖流量大小排序,将同一优先级中覆盖流量较大的节点排序在覆盖流量较小的节点之前。
图12示意性地示出了本申请某些实施方式中对节点按照预设属性分类到对应的优先级中并且根据异常召回节点在诊断结果数据库中映射的操作建议提供对应的操作建议的具体实施例的示意图。预设属性可以包括广告位属性、流量侧属性和广告定向属性。其中:
广告位属性为与广告规格类型相关的属性。例如,图12所示的广告位属性包括站点集、创意规格、商品类型和广告位等。广告位属性为第一优先级。由于广告位属性为与广告规格类型相关的属性,此类属性一般不易更改,较为固定,并且不容易出错。例如广告位属性中的创意规格、商品类型等均为基础属性。因此,将广告位属性作为第一优先级,能够有利于大幅降低将广告位属性中的定向节点作为异常召回节点的可能性,从而能够使得异常召回节点的判断更为准确,根据异常召回节点给出的操作建议也更为具有可操作性。
流量规则属性为与广告流量提供方制定的规则相关的属性。例如,图12所示的流量规则属性包括二审流量包、行业黑名单、客户黑名单和底价过滤等。流量规则属性为第二优先级。第二优先级低于第一优先级。由于流量规则属性为与广告流量提供方制定的规则相关的属性,广告流量提供方制定的规则一般较为固定,并且一般更改周期较长。广告主可以根据广告流量提供方制定的规则进行对应的适应操作,但是当广告召回量由于与广告流量提供方制定的规则有冲突而召回量较少时,广告主针对流量规则属性下的定向能够执行的调整操作也较少。因此,将流量规则属性作为第二优先级,可以使得流量方规则属性下的节点出现在诊断结果列表和异常召回节点中的频率降低。
广告定向属性为与广告投放个性化定向相关的属性。例如,图12所示的广告定向属性包括基础定向、自定义人群、罗卡标签、再营销、不在投放期等。广告定向属性为第三优先级。第三优先级低于第一优先级和第二优先级。广告定向属性类别下的节点一般为个性化的定向节点,大部分由广告主直接设置,并且,不同个性化定向节点之间交叉流量较少的概率也较高;广告定向属性类别下的节点的可更改性也更强。因此,将广告定向属性作为第三优先级,有利于大幅提高将广告定向属性中的定向节点作为异常召回节点的可能性,从而能提高对异常召回节点的判断的准确性的同时,根据异常召回节点给出的操作建议也更为具有可操作性。
由此,可以将对广告召回量为零、召回量较少或者其他召回量异常等情况的诊断尽量归因到广告定向属性或流量规则属性类别下的定向节点,广告定向属性或流量规则属性类别下的定向节点较多地为广告主可调整的定向类别,使得广告召回的数据处理方法根据异常召回节点给出的操作建议也更为具有可操作性。在广告召回诊断中,优先满足广告位属性的基础属性,排除广告位属性的基础属性作为诊断结果,其次满足流量规则属性的流量规则,最后满足广告定向属性的个性化定向,更为符合广告召回的逻辑,有利于使得诊断结果更为合理准确。
图13示意性地示出了本申请某些实施方式的在测试集合与一个或多个独立集合的交集的覆盖流量大于流量阈值的情况下的步骤流程图。如图13所示,在以上实施例的基础上,步骤S035. 在测试集合与一个或多个独立集合的交集的覆盖流量大于流量阈值的情况下,将测试集合加入到与测试集合的交集覆盖流量最大的独立集合中,可以进一步包括以下步骤S0351和S0352:
S0351. 在测试集合与一个独立集合的交集的覆盖流量大于流量阈值的情况下,将测试集合加入到该独立集合中。
S0352. 在测试集合与多个独立集合的交集的覆盖流量大于流量阈值的情况下,将测试集合加入到具有最高优先级的节点的独立集合中,或者将测试集合加入到具有最高优先级的节点并且与测试集合的交集覆盖流量最大的独立集合中。
其中,具有最高优先级的节点的独立集合,也即是在所有节点中优先级最高的一个或多个节点所在的集合。例如图9所示的流程g中,测试集合“已安装定向”与独立集合“性别女 && 公众号规格 && 年龄 18~34”、独立集合“人群标签”的交集覆盖流量均大于流量阈值100,则将测试集合“已安装定向”加入到具有最高优先级的节点的独立集合“性别女&& 公众号规格 && 年龄 18~34”中。由此,能够使得与独立集合的交集覆盖流量大于流量阈值的测试集合中的节点能够优先加入到具有最高优先级的节点的独立集合中,可以理解,测试集合与独立集合的交集覆盖流量大于流量阈值,该测试集合中的节点一般更不可能是导致召回量较少或者无法召回的原因,从而更有可能是正常召回节点。并且,具有最高优先级的节点的独立集合中的节点的优先级较高,优先级较高的节点一般属于广告位属性、流量规则属性等,一般不易更改,较为固定,不容易出错导致召回量异常。因此,将与独立集合的交集覆盖流量大于流量阈值的测试集合加入到具有最高优先级的节点的独立集合中,可以实现将更有可能是正常召回节点的节点加入到更不可能出现异常的节点集合中,有利于将更有可能是正常召回节点的节点分类到同一独立集合中。
配合前述将与所有独立集合的交集的覆盖流量均小于或等于流量阈值的测试集合单独建立为另一个独立集合的步骤,可以理解,与所有独立集合的交集的覆盖流量均小于或等于流量阈值的测试集合中的节点更有可能是召回异常的原因。将与所有独立集合的交集的覆盖流量均小于或等于流量阈值的测试集合中的节点单独建立为另一个独立集合,可以将更可能是导致召回量不足的节点划分到单独的独立集合中,有利于对更可能是导致召回量不足的异常节点的定位。
综上,以上步骤能有利于将更可能是导致召回量不足的节点与更可能是正常召回节点的节点划分到不同的独立集合中,实现对节点的分类,有利于对召回量过少或者无法召回等召回异常情况进行诊断归因的结果更为准确,更符合广告召回的逻辑,从而能够使得对异常召回节点的诊断更为准确。
在以上实施例的基础上,步骤S036. 将覆盖流量最小的一个或多个独立集合中的一个或多个节点作为异常召回节点,可以进一步包括以下步骤S0361:
S0361. 将节点优先级最低的独立集合中的一个或多个节点作为异常召回节点,或者将节点优先级相同但覆盖流量最小的独立集合中的一个或多个节点作为异常召回节点。
其中,节点优先级最低的独立集合可以为具有优先级最低的节点的独立集合。节点优先级相同的独立集合可以为多个均具有最低优先级的节点独立集合。节点优先级相同但覆盖流量最小的独立集合可以为,多个均具有最低优先级的节点独立集合中,覆盖流量最小的一个或多个独立集合。
由于优先级较低的节点对广告主而言一般可更改性更强,优先级较低的节点之间产生冲突使得交叉流量较少的可能性更高,将节点优先级最低的独立集合中的一个或多个节点作为异常召回节点,可以提高根据异常召回节点给出的操作建议的可操作性,并且提高对异常召回节点的诊断的准确性。将节点优先级最低的独立集合中的一个或多个节点作为异常召回节点,具体地,可以将节点优先级最低的独立集合中的全部节点均作为异常召回节点。在某些实施例中,可以将节点优先级最低的独立集合中的节点优先级最低的节点作为异常召回节点。在某些实施例中,可以将节点优先级最低的独立集合中的节点优先级最低并且覆盖流量最小的节点作为异常召回节点。
由于覆盖流量最小的节点作为导致召回量不足的原因的可能性较大,因此将节点优先级相同但覆盖流量最小的一个或多个独立集合中的一个或多个节点作为异常召回节点,可以进一步提高对异常召回节点的诊断的准确,有利于使得本申请某些实施方式的广告召回的数据处理方法更加符合广告召回的逻辑性。
在具体示例中,图14示意性地示出了整体定向条件的召回量为零并且各节点的覆盖流量相近的举例。图14所示的整体定向条件的召回量为零。定向节点“公众号”的覆盖流量为1080。定向节点“行业黑名单”的覆盖流量为1100。定向节点“罗卡付费人群”的覆盖流量为1250。定向节点“行业黑名单”与定向节点“罗卡付费人群”的交叉覆盖流量为460;定向节点“行业黑名单”与定向节点“公众号”的交叉覆盖流量为415;定向节点“公众号”与定向节点“罗卡付费人群”的交叉覆盖流量为350。然而,定向节点“行业黑名单”、定向节点“罗卡付费人群”与定向节点“公众号”的交叉覆盖流量为0,即无法召回。
在此种情况下,假设流量阈值为200,按照没有设置节点的属性优先级的算法,则先将“罗卡付费人群”作为独立集合,“行业黑名单”作为测试集合,交集覆盖流量为460,大于流量阈值,将“行业黑名单”加入到独立集合中形成新的独立集合“罗卡付费人群 && 行业黑名单”。再将“公众号”作为测试集合,获取测试集合与独立集合“罗卡付费人群 && 行业黑名单”的交叉覆盖流量,覆盖流量为0,小于流量阈值,应当将测试集合单独建立为另一个独立集合。于是,将测试集合“公众号”单独建立为另一个独立集合“公众号”。再将独立集合“罗卡付费人群 && 行业黑名单”和独立集合“公众号”加入到诊断结果列表中。由于诊断结果列表中的覆盖流量最小的独立集合为独立集合“公众号”,因此,将独立集合“公众号”中的节点“公众号”作为异常召回节点。
上述情况中,“行业黑名单”、定向节点“罗卡付费人群”与定向节点“公众号”的覆盖流量相差较小,但是因为相差较小的覆盖流量而产生了定向节点的先后排序,覆盖流量最小的定向节点“公众号”排序最后,最终由于此先后排序影响了对异常召回节点的判断,倾向于将覆盖流量与其他节点相差不大但覆盖流量最小的定向节点“公众号”诊断为异常节点。
可以理解,在异常召回节点的诊断过程中,归因跟排序有关,由于覆盖流量较少而排序在较后的节点,更有可能被归因认为是异常召回节点,从而被认为是广告无法召回或召回量较少的原因。但是,当多个节点的覆盖流量相差不大时,覆盖流量略少的节点被归因成为异常召回节点不一定是合理的,这给算法的准确性带来了不确定性。
在以上实施例的基础上,针对此情况,可以如图11的S03121所示的实施方式,根据节点的预设属性设置优先级,将节点按照预设属性分类到对应的优先级中。又由于,如图12所示的具体实施例中,“公众号”属于第一优先级“广告位属性”中的广告位,优先级高于第二优先级的“行业黑名单”与第三优先级的“罗卡付费人群”中的任一个节点。因此,可以如步骤S0361所示,将节点优先级最低的独立集合“罗卡付费人群 && 行业黑名单”中的节点“罗卡付费人群”、“行业黑名单”作为异常召回节点输出。进一步地,可以将节点优先级最低的独立集合“罗卡付费人群 && 行业黑名单”中的优先级较低的节点“罗卡付费人群”作为异常召回节点输出。由此,可以解决对覆盖流量相近的节点的诊断不合理的问题。
相关技术中,白板系统不支持归因建议,白板系统对历史广告的无法召回问题,返回的是广告召回的过程日志,广告召回的过程日志对于用户来说非常难以理解。
针对相关技术中白板系统对历史广告的无法召回问题的诊断结果日志对于用户来说难以理解的缺点,请参阅图15,图15示意性地示出了本申请另一些实施方式的广告召回的数据处理方法的步骤流程图,广告召回的数据处理方法在包括步骤S01~步骤S03的基础上还可以步骤S04:
S04. 输出异常召回节点在诊断结果数据库中映射的操作建议,其中,诊断结果数据库存储有异常召回节点与操作建议的映射关系。
请参阅图12,例如,当异常召回节点为“创意规格”时,由于结果数据库存储有异常召回节点“创意规格”与操作建议“确认规格配置是否正常”的映射关系,此时,广告召回的数据处理方法可以根据异常召回节点“创意规格”输出“确认规格配置是否正常”的操作建议。由此,可以将异常召回节点翻译及映射成可理解的语言,可以增加广告主及其运营者对异常召回节点的理解,并且能够为广告主及其运营者提供下一步的操作建议。
优选地,在某些实施方式中,在广告的召回量小于流量阈值时,可以执行本申请某些实施方式的广告召回数据处理方法,以获取异常召回节点,并能够得到该异常召回节点相对应操作建议,方便广告主根据该操作建议调整广告定向的相关设置,从而对定向树进行调整,进而能够在后续的广告投放中得到更为充足的召回量。进一步地,流量阈值可以由广告主、流量方或者平台方自定义设置,从而有利于使得广告主、流量方或者平台方可以根据需要设定合适的流量阈值,从而有利于广告主能够实现对召回量较少的情况进行诊断并进行相关调整,从而得到满意的召回量。
进一步地,在某些实施方式中,在得到异常召回节点之后,可以将多个异常召回节点通过图12所示的决策树模型按广告位属性、流量规则属性、广告定向属性这三个类别进行归因,再根据不同分类下具体定向给出可操作的建议。比如无法召回的定向节点是“底价过滤”时,诊断建议模块会输出广告位的底价,并建议客户(也即广告主)调高广告出价。
基于本申请的广告召回的数据处理方法,通过将定向树的各个节点划分到流量交集小于或等于流量阈值的多个独立集合实现对定向树的各个节点的分类,进而实现对无法召回或召回量不足的广告进行节点的诊断以得到异常召回节点,有利于广告主、流量方或平台方对无法召回或召回量不足的广告的异常节点进行归因分析,从而能够便于广告主在后续的广告投放中对定向树进行调整从而得到更为充足的召回量的同时,能够便于流量方对流量规则进行更为合理的设定,便于流量方和平台方对广告召回量进行监控和管理。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的广告召回的数据处理系统100,可以用于执行本申请上述实施例中的广告召回的数据处理方法。
图1示出了本申请某些实施方式的广告召回的数据处理系统的架构示意图。广告召回的数据处理系统100可以包括:
流量倒排索引模块10,根据广告请求日志构建流量倒排索引,所述流量倒排索引用于表示广告定向与广告流量之间的映射关系;
定向树入库模块20,用于获取定向树以根据所述定向树和所述流量倒排索引获取所述定向树的各个节点的覆盖流量;
故障诊断模块30,分别与所述流量倒排索引模块和所述定向树入库模块连接,用于根据所述节点的覆盖流量将所述节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据所述独立集合确定异常召回节点。
在本申请的一些实施例中,基于以上各实施例,所述流量倒排索引模块包括:
词项生成单元,用于根据广告请求日志生成词项字典和词项元信息,词项字典包括多列倒排偏移数据,词项元信息包括每列倒排偏移数据指向的倒排流量数据的倒排数据起始地址,倒排流量数据包括广告定向与广告流量之间的映射信息;
词项字典寻址单元,根据每个所述节点在所述词项字典中的所属列的列元信息得到词项字典偏移,并计算出词项字典地址,所述词项字典地址为所述多列倒排偏移数据分别对应的存储地址;
倒排偏移查询单元,用于根据词项字典地址查询词项字典以得到节点的倒排偏移;
起始地址查询单元,用于根据每个节点的列元信息查询词项元信息以得到节点对应的倒排数据起始地址;
倒排索引建立单元,用于根据倒排数据起始地址和倒排偏移建立流量倒排索引。
在本申请的一些实施例中,基于以上各实施例,所述故障诊断模块包括:
排序单元,用于将所述节点按照覆盖流量从大到小的顺序排序;
集合建立单元,用于将覆盖流量最大的所述节点单独建立为独立集合;
交集流量计算单元,用于将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量;
第一判断单元,用于在所述测试集合与所有所述独立集合的交集的覆盖流量均小于或等于流量阈值的情况下,将所述测试集合单独建立为另一个独立集合,重复所述将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量的步骤直至所有所述节点均处于所述独立集合中;
第二判断单元,用于在所述测试集合与一个或多个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到与所述测试集合的交集覆盖流量最大的所述独立集合中,并重复所述将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量的步骤直至所有所述节点均处于所述独立集合中;
诊断单元,将覆盖流量最小的一个或多个所述独立集合中的一个或多个所述节点作为异常召回节点。
在本申请的一些实施例中,基于以上各实施例,所述排序单元包括:
第一排序子单元,用于将覆盖流量小于或等于所述流量阈值的所述节点直接建立为独立集合;
第二排序子单元,用于将覆盖流量大于所述流量阈值的所述节点按照覆盖流量从大到小的顺序排序。
在本申请的一些实施例中,基于以上各实施例,所述第二排序子单元包括:
分类子单元,用于将将所述节点按照预设属性分类到对应的优先级中;
分类排序子单元,用于先将所述节点按照优先级的高低进行排序,将优先级较高的所述节点排序在优先级较低的节点之前,再分别将同一优先级中的所述节点按照覆盖流量大小排序,将同一优先级中覆盖流量最大的所述节点排序在覆盖流量最小的节点之前。
在本申请的一些实施例中,基于以上各实施例,所述第二判断单元包括:
第一判断子单元,在所述测试集合与一个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到该独立集合中;
第二判断子单元,在所述测试集合与多个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到具有最高优先级的节点的所述独立集合中或者具有最高优先级的节点并且与所述测试集合的交集覆盖流量最大的所述独立集合中。
在本申请的一些实施例中,基于以上各实施例,所述诊断单元还包括:
诊断子单元,将节点优先级最低的一个或多个所述独立集合中的一个或多个节点或者节点优先级相同但覆盖流量最小的一个或多个所述独立集合中的一个或多个节点作为异常召回节点。
在本申请的一些实施例中,基于以上各实施例,所述预设属性包括广告位属性、流量侧属性和广告定向属性;其中:
所述广告位属性为与广告规格类型相关的属性,为第一优先级;
所述流量规则属性为与广告流量提供方制定的规则相关的属性,为第二优先级;
所述广告定向属性为与广告投放个性化定向相关的属性,为第三优先级。
在本申请的一些实施例中,基于以上各实施例,所述广告召回的数据处理系统还包括:
操作建议模块,用于接收故障诊断模块输出的所述异常召回节点,并且输出所述异常召回节点在诊断结果数据库中映射的操作建议,其中,所述诊断结果数据库存储有所述异常召回节点与所述操作建议的映射关系。
本申请各实施例中提供的广告召回的数据处理系统100的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图16示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图16示出的电子设备的计算机系统1600仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图16所示,计算机系统1600包括中央处理器1601(Central Processing Unit,CPU),其可以根据存储在只读存储器1602(Read-Only Memory,ROM)中的程序或者从存储部分1608加载到随机访问存储器1603(Random Access Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1603中,还存储有系统操作所需的各种程序和数据。中央处理器1601、在只读存储器1602以及随机访问存储器1603通过总线1604彼此相连。输入/输出接口1605(Input /Output接口,即I/O接口)也连接至总线1604。
以下部件连接至输入/输出接口1605:包括键盘、鼠标等的输入部分1606;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1607;包括硬盘等的存储部分1608;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至输入/输出接口1605。可拆卸介质1611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1610上,以便于从其上读出的计算机程序根据需要被安装入存储部分1608。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1609从网络上被下载和安装,和/或从可拆卸介质1611被安装。在该计算机程序被中央处理器1601执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种广告召回的数据处理方法,其特征在于,包括:
根据广告请求日志构建流量倒排索引,所述流量倒排索引用于表示广告定向与广告流量之间的映射关系;
获取定向树,并根据所述定向树和所述流量倒排索引获取所述定向树的各个节点的覆盖流量;
根据所述节点的覆盖流量将所述节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据所述独立集合确定异常召回节点。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述节点的覆盖流量将所述节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据所述独立集合确定异常召回节点包括:
将所述节点按照覆盖流量从大到小的顺序排序;
将覆盖流量最大的所述节点单独建立为独立集合;
将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量;
在所述测试集合与所有所述独立集合的交集的覆盖流量均小于或等于流量阈值的情况下,将所述测试集合单独建立为另一个独立集合,重复所述将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量的步骤直至所有所述节点均处于所述独立集合中;
在所述测试集合与一个或多个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到与所述测试集合的交集覆盖流量最大的所述独立集合中,并重复所述将不在集合中的覆盖流量最大的所述节点作为测试集合,获取所述测试集合与所有所述独立集合的交集的覆盖流量的步骤直至所有所述节点均处于所述独立集合中;
将覆盖流量最小的一个或多个所述独立集合中的一个或多个所述节点作为异常召回节点。
3.根据权利要求2所述的数据处理方法,其特征在于,所述将所述节点按照覆盖流量从大到小的顺序排序包括:
将覆盖流量小于或等于所述流量阈值的所述节点直接建立为独立集合;
将覆盖流量大于所述流量阈值的所述节点按照覆盖流量从大到小的顺序排序。
4.根据权利要求3所述的数据处理方法,其特征在于,所述将覆盖流量大于所述流量阈值的所述节点按照覆盖流量从大到小的顺序排序包括:
将所述节点按照预设属性分类到对应的优先级中;
先将所述节点按照优先级的高低进行排序,将优先级较高的所述节点排序在优先级较低的节点之前,再分别将同一优先级中的所述节点按照覆盖流量大小排序,将同一优先级中覆盖流量较大的所述节点排序在覆盖流量较小的节点之前。
5.根据权利要求4所述的数据处理方法,其特征在于,所述在所述测试集合与一个或多个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到与所述测试集合的交集覆盖流量最大的所述独立集合中包括:
在所述测试集合与一个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到该独立集合中;
在所述测试集合与多个所述独立集合的交集的覆盖流量大于所述流量阈值的情况下,将所述测试集合加入到具有最高优先级的节点的所述独立集合中,或者将所述测试集合加入到具有最高优先级的节点并且与所述测试集合的交集覆盖流量最大的所述独立集合中。
6.根据权利要求4或5所述的数据处理方法,其特征在于,所述将覆盖流量最小的一个或多个所述独立集合中的一个或多个节点作为异常召回节点包括:
将节点优先级最低的所述独立集合中的一个或多个节点作为异常召回节点,或者将节点优先级相同但覆盖流量最小的所述独立集合中的一个或多个节点作为异常召回节点。
7.根据权利要求4所述的数据处理方法,其特征在于,所述预设属性包括广告位属性、流量侧属性和广告定向属性;其中:
所述广告位属性为与广告规格类型相关的属性,为第一优先级;
所述流量规则属性为与广告流量提供方制定的规则相关的属性,为第二优先级;
所述广告定向属性为与广告投放个性化定向相关的属性,为第三优先级。
8.根据权利要求1所述的数据处理方法,其特征在于,所述数据处理方法还包括:
输出所述异常召回节点在诊断结果数据库中映射的操作建议,其中,所述诊断结果数据库存储有所述异常召回节点与所述操作建议的映射关系。
9.根据权利要求1所述的数据处理方法,其特征在于,所述根据广告请求日志构建流量倒排索引包括:
根据所述广告请求日志生成词项字典和词项元信息,所述词项字典包括多列倒排偏移数据,所述词项元信息包括每列所述倒排偏移数据指向的倒排流量数据的倒排数据起始地址,所述倒排流量数据包括广告定向与广告流量之间的映射信息;
根据每个所述节点在所述词项字典中的所属列的列元信息得到词项字典地址,所述词项字典地址为所述多列倒排偏移数据分别对应的存储地址;
根据所述词项字典地址查询所述词项字典以得到所述节点的倒排偏移;
根据每个所述节点的列元信息查询所述词项元信息以得到所述节点对应的倒排数据起始地址;
根据所述倒排数据起始地址和所述倒排偏移建立所述流量倒排索引。
10.一种广告召回的数据处理系统,其特征在于,用于执行权利要求1至9任意一项所述的数据处理方法,所述数据处理系统包括:
流量倒排索引模块,根据广告请求日志构建流量倒排索引,所述流量倒排索引用于表示广告定向与广告流量之间的映射关系;
定向树入库模块,用于获取定向树以根据所述定向树和所述流量倒排索引获取所述定向树的各个节点的覆盖流量;
故障诊断模块,分别与所述流量倒排索引模块和所述定向树入库模块连接,用于根据所述节点的覆盖流量将所述节点划分为流量交集小于或等于流量阈值的多个独立集合,并根据所述独立集合确定异常召回节点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110263914.7A CN112686717B (zh) | 2021-03-11 | 2021-03-11 | 一种广告召回的数据处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110263914.7A CN112686717B (zh) | 2021-03-11 | 2021-03-11 | 一种广告召回的数据处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686717A true CN112686717A (zh) | 2021-04-20 |
CN112686717B CN112686717B (zh) | 2021-07-02 |
Family
ID=75458350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110263914.7A Active CN112686717B (zh) | 2021-03-11 | 2021-03-11 | 一种广告召回的数据处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686717B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240458A (zh) * | 2021-04-26 | 2021-08-10 | 西安点告网络科技有限公司 | 广告竞价超时率可靠保障方法、系统、终端及存储介质 |
CN113723998A (zh) * | 2021-08-24 | 2021-11-30 | 北京腾云天下科技有限公司 | 广告归因的方法、装置、电子设备和存储介质 |
CN114285722A (zh) * | 2021-12-10 | 2022-04-05 | 苏州浪潮智能科技有限公司 | 一种分布式存储集群节点通信告警方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599078A (zh) * | 2009-07-10 | 2009-12-09 | 腾讯科技(深圳)有限公司 | 一种文本检索的方法及装置 |
CN103365904A (zh) * | 2012-04-05 | 2013-10-23 | 阿里巴巴集团控股有限公司 | 一种广告信息搜索方法和系统 |
CN104009984A (zh) * | 2014-05-15 | 2014-08-27 | 清华大学 | 基于倒排列表的网流索引检索与压缩的方法 |
CN107168991A (zh) * | 2017-03-28 | 2017-09-15 | 北京三快在线科技有限公司 | 一种搜索结果展示方法和装置 |
CN109767292A (zh) * | 2018-12-20 | 2019-05-17 | 厦门笨鸟电子商务有限公司 | 一种买家公司推荐方法 |
CN110019647A (zh) * | 2017-10-25 | 2019-07-16 | 华为技术有限公司 | 一种关键词搜索方法、装置和搜索引擎 |
US20190364340A1 (en) * | 2018-05-24 | 2019-11-28 | Zedo, Inc. | Brand and Ad Messaging Recall Method and System |
CN110990695A (zh) * | 2019-11-22 | 2020-04-10 | 厦门美柚股份有限公司 | 推荐系统内容召回方法及装置 |
CN111324794A (zh) * | 2018-12-13 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于搜索引擎的搜索效果检测方法及装置 |
-
2021
- 2021-03-11 CN CN202110263914.7A patent/CN112686717B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101599078A (zh) * | 2009-07-10 | 2009-12-09 | 腾讯科技(深圳)有限公司 | 一种文本检索的方法及装置 |
CN103365904A (zh) * | 2012-04-05 | 2013-10-23 | 阿里巴巴集团控股有限公司 | 一种广告信息搜索方法和系统 |
CN104009984A (zh) * | 2014-05-15 | 2014-08-27 | 清华大学 | 基于倒排列表的网流索引检索与压缩的方法 |
CN107168991A (zh) * | 2017-03-28 | 2017-09-15 | 北京三快在线科技有限公司 | 一种搜索结果展示方法和装置 |
CN110019647A (zh) * | 2017-10-25 | 2019-07-16 | 华为技术有限公司 | 一种关键词搜索方法、装置和搜索引擎 |
US20190364340A1 (en) * | 2018-05-24 | 2019-11-28 | Zedo, Inc. | Brand and Ad Messaging Recall Method and System |
CN111324794A (zh) * | 2018-12-13 | 2020-06-23 | 北京京东尚科信息技术有限公司 | 基于搜索引擎的搜索效果检测方法及装置 |
CN109767292A (zh) * | 2018-12-20 | 2019-05-17 | 厦门笨鸟电子商务有限公司 | 一种买家公司推荐方法 |
CN110990695A (zh) * | 2019-11-22 | 2020-04-10 | 厦门美柚股份有限公司 | 推荐系统内容召回方法及装置 |
Non-Patent Citations (2)
Title |
---|
冯娟娟: "基于用户兴趣的电子商务广告推荐模型研究与应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈震 等: ""基于倒排列表的网流索引检索与压缩方法"", 《技术研究》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240458A (zh) * | 2021-04-26 | 2021-08-10 | 西安点告网络科技有限公司 | 广告竞价超时率可靠保障方法、系统、终端及存储介质 |
CN113240458B (zh) * | 2021-04-26 | 2023-11-03 | 西安点告网络科技有限公司 | 广告竞价超时率可靠保障方法、系统、终端及存储介质 |
CN113723998A (zh) * | 2021-08-24 | 2021-11-30 | 北京腾云天下科技有限公司 | 广告归因的方法、装置、电子设备和存储介质 |
CN113723998B (zh) * | 2021-08-24 | 2023-09-26 | 北京腾云天下科技有限公司 | 广告归因的方法、装置、电子设备和存储介质 |
CN114285722A (zh) * | 2021-12-10 | 2022-04-05 | 苏州浪潮智能科技有限公司 | 一种分布式存储集群节点通信告警方法、装置、设备及介质 |
CN114285722B (zh) * | 2021-12-10 | 2023-08-25 | 苏州浪潮智能科技有限公司 | 一种分布式存储集群节点通信告警方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112686717B (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112686717B (zh) | 一种广告召回的数据处理方法及系统 | |
US20220147405A1 (en) | Automatically scalable system for serverless hyperparameter tuning | |
CA2992563C (en) | Method and system for applying probabilistic topic models to content in a tax environment to improve user satisfaction with a question and answer customer support system | |
US10484413B2 (en) | System and a method for detecting anomalous activities in a blockchain network | |
CN109344170B (zh) | 流数据处理方法、系统、电子设备及可读存储介质 | |
US20170109676A1 (en) | Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process | |
CN109906451A (zh) | 使用多义码的相似性搜索 | |
CN111915366B (zh) | 一种用户画像构建方法、装置、计算机设备及存储介质 | |
US20210112101A1 (en) | Data set and algorithm validation, bias characterization, and valuation | |
CN111641710A (zh) | 基于微服务的数据处理方法、装置、终端及存储介质 | |
US11188969B2 (en) | Data-analysis-based validation of product review data and linking to supply chain record data | |
US20170109639A1 (en) | General Model for Linking Between Nonconsecutively Performed Steps in Business Processes | |
CN112003940B (zh) | 基于区块链和在线业务的支付网络状态处理方法及服务器 | |
CN110414259A (zh) | 一种构建数据类目、实现数据共享的方法及设备 | |
CN112017007A (zh) | 用户行为数据的处理方法及装置、计算机设备、存储介质 | |
CN112799868B (zh) | 一种根因确定方法、装置、计算机设备及存储介质 | |
CN113297287B (zh) | 用户策略自动部署方法、装置及电子设备 | |
CN107644042B (zh) | 软件程序点击率预估排序方法及服务器 | |
CN112766560A (zh) | 联盟区块链网络优化方法、装置、系统和电子设备 | |
US20170109637A1 (en) | Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process | |
CN116228402A (zh) | 一种金融征信特征仓库技术支持系统 | |
CN111427936B (zh) | 报表生成方法、装置、计算机设备和存储介质 | |
Li | Naive Bayes algorithm for Twitter sentiment analysis and its implementation in MapReduce | |
CN113656692A (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN113672660A (zh) | 一种数据查询方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40042947 Country of ref document: HK |