CN110992096B - 预测模型训练方法、装置以及媒体标识预测方法及装置 - Google Patents

预测模型训练方法、装置以及媒体标识预测方法及装置 Download PDF

Info

Publication number
CN110992096B
CN110992096B CN201911219375.6A CN201911219375A CN110992096B CN 110992096 B CN110992096 B CN 110992096B CN 201911219375 A CN201911219375 A CN 201911219375A CN 110992096 B CN110992096 B CN 110992096B
Authority
CN
China
Prior art keywords
log entry
target
log
media
target log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911219375.6A
Other languages
English (en)
Other versions
CN110992096A (zh
Inventor
张贵川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Miaozhen Information Technology Co Ltd
Original Assignee
Miaozhen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Miaozhen Information Technology Co Ltd filed Critical Miaozhen Information Technology Co Ltd
Priority to CN201911219375.6A priority Critical patent/CN110992096B/zh
Publication of CN110992096A publication Critical patent/CN110992096A/zh
Application granted granted Critical
Publication of CN110992096B publication Critical patent/CN110992096B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种预测模型训练方法、装置以及媒体标识预测方法及装置,其中,所述预测模型训练方法包括:获取用户设备对不同媒体中投放的广告进行操作的监测日志;依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;基于各条日志条目对应的训练样本,训练预测模型。本申请中,由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识,其关联覆盖率也会相应地提高。

Description

预测模型训练方法、装置以及媒体标识预测方法及装置
技术领域
本申请涉及机器学习技术领域,尤其是涉及一种预测模型训练方法、装置以及媒体标识预测方法及装置。
背景技术
在广告监测领域中,通常需要检测到用户在不同媒体商家的广告曝光和点击行为。但是,存在一些媒体商家出于对自身保护的目的,通常不会将针对用户设备的媒体加密身份标识,例如:消息摘要算法(Message-Digest Algorithm)、国际移动设备识别码(International Mobile Equipment Identity,IMEI)、广告标识符(Identifier ForAdvertising,IDFA)等进行回传,而只是回传媒体本身的私有加密身份标识,为后续的对于媒体商家的数据分析带来了困难。
现有技术中,针对用户设备,可以将一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识进行关联,从而获取媒体加密身份标识。在广告监测时,通常可以采用软件开发工具包(Software Development Kit,SDK)或应用程序接口(ApplicationProgramming Interface,API)来检测不同媒体之间的身份标识是否关联。
但是,该方法存在不同媒体之间的身份标识关联覆盖率低的缺点,且因为需要与媒体商家进行沟通才能确定不同媒体之间的身份标识是否关联,其成本较高,不利于对媒体商家的数据分析。因此,如何提高一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识的关联率是一个亟待解决的问题。
发明内容
有鉴于此,本申请的至少提供一种预测模型训练方法、装置以及媒体标识预测方法及装置,以提高一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识的关联率,方便对于媒体商家的数据分析。
第一方面,本申请实施例提供了一种预测模型训练方法,包括:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;
基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。
一种可选实施方式中,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目,包括:
针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目。
一种可选实施方式中,所述基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本,包括:
基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;
基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。
一种可选实施方式中,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;
其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;
所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;
所述第一设备类型包括:目标日志条目中携带的设备类型;
所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;
所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;
所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;
所述重叠IP数,包括:对应分组中匹配日志条目的数量。
一种可选实施方式中,所述预测模型包括下述至少一种:随机森林RF模型、梯度下降树GBDT模型、多分类LR模型以及支持向量机SVM模型。
第二方面,本申请实施例提供了一种媒体标识预测方法,包括:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过第一方面任意一项的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;
所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是,或否关联;
基于所述预测结果,确定所述目标日志条目的身份标识。
一种可选实施方式中,所述基于所述预测结果,确定所述目标日志条目的身份标识,包括:
基于所述预测结果,选取所述目标日志条目的标签类型为是且置信度最高的对应的预测结果,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。
第三方面,本申请实施例还提供一种预测模型训练装置,该预测模型训练装置包括:第一获取模块、第一确定模块、生成模块以及训练模块,其中:
所述第一获取模块,用于获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
所述第一确定模块,用于依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
所述生成模块,用于基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;
所述训练模块,用于基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。
一种可选实施方式中,所述第一确定模块,用于从所述监测日志中确定与所述目标日志条目对应的匹配日志条目时,具体用于:
针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目。
一种可选实施方式中,所述生成模块,用于基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本时,具体用于:
基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;
基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。
一种可选实施方式中,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;
其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;
所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;
所述第一设备类型包括:目标日志条目中携带的设备类型;
所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;
所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;
所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;
所述重叠IP数,包括:对应分组中匹配日志条目的数量。
一种可选实施方式中,所述预测模型包括下述至少一种:随机森林RF模型、梯度下降树GBDT模型、多分类LR模型以及支持向量机SVM模型。
第四方面,本申请实施例还提供一种媒体标识预测装置,该媒体标识预测装置包括:第二获取模块、第二确定模块、输入模块以及第三确定模块,其中:
所述第二获取模块,用于获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
所述第二确定模块,用于依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
所述输入模块,用于将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过第一方面任意一项的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;
所述第三确定模块,用于基于所述预测结果,确定所述目标日志条目的身份标识。
一种可选实施方式中,所述第三确定模块,用于基于所述预测结果,确定所述目标日志条目的身份标识时,具体用于:
基于所述预测结果,选取所述目标日志条目的标签类型为是且置信度最高的对应的预测结果,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。
第五方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤;
或者执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
第六方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤;
或者执行上述第二方面,或第二方面中任一种可能的实施方式中的步骤。
本申请实施例提供的预测模型训练方法、装置以及媒体标识预测方法及装置,在对预测模型进行训练的时候,首先获取用户设备对不同媒体中投放的广告进行操作的监测日志,其中所述监测日志中包括多条日志条目;之后,依次将所述监测日志中的每条日志条目作为目标日志条目,并从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;在得到所述目标日志条目以及与该条目标日志条目对应的匹配日志条目之后,便基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;最后,基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备,达到目标预测效果。
与现有技术中相比,目前在广告监测当中的常用方法,比如,采用软件开发工具包(Software Development Kit,SDK)或应用程序接口(Application ProgrammingInterface,API)来检测不同媒体之间的身份标识是否关联相比,由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识,其关联覆盖率也会相应地提高。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种预测模型训练方法的流程图;
图2示出了本申请实施例所提供的一种媒体标识预测方法的流程图;
图3示出了本申请实施例所提供的一种预测模型训练装置的结构示意图;
图4示出了本申请实施例所提供的一种媒体标识预测装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中,在进行广告监测时,通常采用的是软件开发工具包(SoftwareDevelopment Kit,SDK)或应用程序接口(Application Programming Interface,API)来检测不同媒体之间的身份标识是否关联。其通常需要与媒体商家进行沟通才能确定不同媒体之间的身份标识是否关联,其成本较高,且不同媒体之间的身份标识关联覆盖率较低,不利于对媒体商家的数据分析。
基于上述研究,本申请提供的预测模型训练方法、装置以及媒体标识预测方法及装置。在对预测模型进行训练的时候,首先获取用户设备对不同媒体中投放的广告进行操作的监测日志,其中所述监测日志中包括多条日志条目;之后,依次将所述监测日志中的每条日志条目作为目标日志条目,并从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;在得到所述目标日志条目以及与该条目标日志条目对应的匹配日志条目之后,便基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;最后,基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备,达到目标预测效果。该方法由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识,其关联覆盖率也会相应地提高。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案,都应该是发明人在本申请过程中对本申请做出的贡献。
下面将结合本申请中附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本公开实施例所提供的预测模型训练方法以及媒体标识预测方法的执行主体一般为具有一定计算能力的计算机设备,该计算机设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该预测模型训练方法以及媒体标识预测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
下面以执行主体为计算机设备为例对本公开实施例提供的预测模型训练方法以及媒体标识预测方法加以说明。
实施例一
参见图1所示,为本申请实施例一提供的一种预测模型训练方法的流程图,所述方法包括步骤S101~S104,其中:
S101:获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目。
S102:依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同。
S103:基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本。
S104:基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。
下面分别对上述S101~S104分别加以详细说明。
一:在上述S101中,用户设备对不同媒体中投放的广告进行操作的监测日志,是指在广告监测过程中,用户在不同媒体上产生的操作行为,操作行为包括:点击、跳转、退出等。
其中,不同媒体投放的广告包括:在门户网站、应用程序APP、小程序等媒体上投放的广告。
示例性的,用户在不同媒体上的不同操作行为都会被记录下来,形成监测日志。监测日志包括如下信息:用户的IP地址、媒体地址、设备类型、行为时间戳、不同媒体对应用户的身份标识等信息。
其中,用户的IP地址指的是用户在进行媒体操作行为时的IP地址,通常情况下,在一段时间内,其用户的IP地址趋于稳定。
媒体地址可通过不同媒体对应的点位来确定,点位一般指媒体投放的具体位置,例如,网络广告在哪个频道,投放哪个位置等。
设备类型指的可以是不同设备的系统类型,例如:安卓系统(Android)、Apple-苹果系统(iPhone OS,iOS)、塞班系统(Symbian OS)等不同的设备系统。
行为时间戳指的是用户在不同媒体上的不同操作行为时间。在具体操作过程中,可以将行为时间戳字段按照天、小时或者其他时间单位进行标准格式转换。
示例性的,以“天”为时间单位进行标准格式转换,例如,“对于A媒体在2019年11月1日星期五16:00的操作行为”可以转换为“A-星期五-16”,由此可以区分不同媒体对于不同的时间行为特征。
不同媒体对应用户的身份标识指的是不同媒体基于不同用户的身份标识,例如:消息摘要算法(Message-Digest Algorithm)、国际移动设备识别码(InternationalMobile Equipment Identity,IMEI)、广告标识符(Identifier For Advertising,IDFA)等。针对一些加密性较高的媒体商家,其身份标识可能为媒体本身的私有加密身份标识。
二:在上述S102中,基于步骤S101中获取的用户设备对不同媒体中投放的广告进行操作的监测日志,依次将所述监测日志中的每条日志条目作为目标日志条目,并基于确定出的目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;
其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同。
具体地,在所述监测日志中确定与所述目标日志条目对应的匹配日志条目的过程中,针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该目标日志条目对应的匹配日志条目。
示例性的,假设从监测日志的选取一条满足目标要求的日志条目,将其确定为目标日志条目,并将该目标日志条目的特征信息提取出来,其特征信息主要包括:用户的IP地址以及行为时间戳。
基于该目标日志条目的用户的IP地址以及行为时间戳,选取与该目标日志条目的用户IP地址相同且在一定时间间隔内的对应的匹配日志条目。
示例性的,该目标日志条目的用户IP为124.95.40.31,且其行为时间戳为2019-01-01 00:10:00,其预设的时间间隔为10min,那么,其对应的匹配日志条目的用户IP地址为124.95.40.31,且其行为时间戳在2019-01-0100:00:00至2019-01-01 00:20:00的范围内,若某一监测日志条目满足上述两点要求,则可以将该监测日志条目确定为与目标日志条目对应的匹配日志条目。
三:在上述S103中,基于步骤S102中确定的所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,提取其对应的特征信息,生成至少一条训练样本;
其中,首先基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
示例性的,将所述目标日志条目与其对应的匹配日志条目两两分组,并将其分组之后的结果看作一个日志对。
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值。
示例性的,基于上述的日志对,将其日志对中包含的特征信息提取出来,用于后续训练过程。
其中,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;
其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;
所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;
所述第一设备类型包括:目标日志条目中携带的设备类型;
所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;
所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;
所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;
所述重叠IP数,包括:对应分组中匹配日志条目的数量。
示例性的,若多个日志对所对应的IP为同一个,则认为其IP是重叠的,记为一个重叠IP数,即多个日志对中有多少个不同的用户IP地址,则记为多少个重叠IP数。
四:在上述S104中,基于步骤S103中确定的在该分组下,所述目标日志条目在多种目标特征下的特征值生成的各条日志条目对应的训练样本,进行预测模型训练;
其中,所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。
示例性的,所述预测模型包括下述至少一种:随机森林(Random Forest,RF)模型、梯度下降树(GradientBoostingDecisionTree,GBDT)模型、多分类(Logistic Regression,LR)模型以及支持向量机(Support Vector Machine,SVM)模型。
示例性的,基于多种目标特征,包括:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息,生成对应的样本信息,输入至随机森林训练模型当中,进行模型训练过程,并将训练完成的随机森林模型进行保存,用于后续不同媒体身份标识是否关联的判定当中。
基于上述研究,本申请实施例提供的一种预测模型训练方法。在对预测模型进行训练的时候,首先,获取用户设备对不同媒体中投放的广告进行操作的监测日志,其中,所述监测日志中包括多条日志条目;获取监测日志之后,依次将所述监测日志中的每条日志条目作为目标日志条目,并从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;在得到所述目标日志条目以及与该条目标日志条目对应的匹配日志条目之后,便基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;最后,基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备,达到目标预测效果。该方法由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识,其关联覆盖率也会相应地提高。
实施例二
参见图2所示,为本申请实施例一提供的一种媒体标识预测方法的流程图,所述方法包括步骤S201~S204,其中:
S201:获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目。
S202:依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同。
S203:将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过实施例1任意一项的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度。
所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是,或否关联。
S204:基于所述预测结果,确定所述目标日志条目的身份标识。
下面分别对上述S201~S204分别加以详细说明。
上述S201~S202的具体实现方式与上述S101~S102类似,在此不再赘述。
在上述S203中,将上述步骤S201-S202中得到的所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过实施例1任意一项的预测模型训练方法得到的预测模型中,得到预测结果。
其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度。
所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是,或否关联。
在上述S204中,基于在步骤S203中得到的预测结果,通过标签类型与置信度数值,确定所述目标日志条目的身份标识。
其中,基于所述预测结果,选取所述目标日志条目的标签类型为是且置信度最高的对应的预测结果,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。
示例性的,通常选取其标签类型为是且置信度最高的对应的预测结果为目标结果,也就是,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。
基于上述研究,本申请实施例提供的一种媒体标识预测方法。首先获取用户设备对不同媒体中投放的广告进行操作的监测日志,其中所述监测日志中包括多条日志条目;之后,依次将所述监测日志中的每条日志条目作为目标日志条目,并从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;在得到所述目标日志条目与所述目标日志条目对应的匹配日志条目之后,将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过实施例1中任意一项的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是,或否关联;最后,基于所述预测结果,确定所述目标日志条目的身份标识。该方法由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识,其关联覆盖率也会相应地提高。
实施例三
参照图3所示,为本申请实施例三提供的一种预测模型训练装置的示意图,该预测模型训练装置包括:第一获取模块31、第一确定模块32、生成模块33以及训练模块34,其中:
所述第一获取模块31,用于获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
所述第一确定模块32,用于依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
所述生成模块33,用于基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;
所述训练模块34,用于基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。
基于上述研究,本申请实施例提供的一种预测模型训练装置。在对预测模型进行训练的时候,首先,获取用户设备对不同媒体中投放的广告进行操作的监测日志,其中,所述监测日志中包括多条日志条目;获取监测日志之后,依次将所述监测日志中的每条日志条目作为目标日志条目,并从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;在得到所述目标日志条目以及与该条目标日志条目对应的匹配日志条目之后,便基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;最后,基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备,达到目标预测效果。该方法由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高的身份标识,其关联覆盖率也会相应地提高。
一种可能的实施方式中,所述第一确定模块32,用于从所述监测日志中确定与所述目标日志条目对应的匹配日志条目时,具体用于:
针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目。
一种可能的实施方式中,所述生成模块33,用于基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本时,具体用于:
基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;
基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。
一种可能的实施方式中,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;
其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;
所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;
所述第一设备类型包括:目标日志条目中携带的设备类型;
所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;
所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;
所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;
所述重叠IP数,包括:对应分组中匹配日志条目的数量。
一种可能的实施方式中,所述预测模型包括下述至少一种:随机森林RF模型、梯度下降树GBDT模型、多分类LR模型以及支持向量机SVM模型。
实施例四
参照图4所示,为本申请实施例四提供的一种媒体标识预测装置,该媒体标识预测装置包括:第二获取模块41、第二确定模块42、输入模块43以及第三确定模块44,其中:
所述第二获取模块41,用于获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
所述第二确定模块42,用于依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同。
所述输入模块43,用于将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过实施例一的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;
所述第三确定模块44,用于基于所述预测结果,确定所述目标日志条目的身份标识。
基于上述研究,本申请实施例提供的一种媒体标识预测装置。首先获取用户设备对不同媒体中投放的广告进行操作的监测日志,其中所述监测日志中包括多条日志条目;之后,依次将所述监测日志中的每条日志条目作为目标日志条目,并从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;在得到所述目标日志条目与所述目标日志条目对应的匹配日志条目之后,将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过实施例1中任意一项的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是,或否关联;最后,基于所述预测结果,确定所述目标日志条目的身份标识。该方法由于无需与媒体商家沟通是否成功关联,其成本也会相应降低,且其不同媒体之间,尤其是一些媒体加密程度较低的身份标识与一些媒体加密程度较高身份标识,其关联覆盖率也会相应地提高。
一种可能的实施方式中,所述第三确定模块44,用于基于所述预测结果,确定所述目标日志条目的身份标识时,具体用于:
基于所述预测结果,选取所述目标日志条目的标签类型为是且置信度最高的对应的预测结果,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。
实施例五
本申请实施例还提供了一种计算机设备500,如图5所示,为本申请实施例提供的计算机设备500结构示意图,包括:
处理器51、存储器52、和总线53;存储器52用于存储执行指令,包括内存521和外部存储器522;这里的内存521也称内存储器,用于暂时存放处理器51中的运算数据,以及与硬盘等外部存储器522交换的数据,处理器51通过内存521与外部存储器522进行数据交换,当所述计算机设备500运行时,所述处理器51与所述存储器52之间通过总线53通信,使得所述处理器51在用户态执行以下指令:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;
基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备。
一种可能的实施方式中,处理器51执行的指令中,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目,包括:
针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目。
一种可能的实施方式中,处理器51执行的指令中,所述基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本,包括:
基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;
基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。
一种可能的实施方式中,处理器51执行的指令中,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;
其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;
所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;
所述第一设备类型包括:目标日志条目中携带的设备类型;
所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;
所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;
所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;
所述重叠IP数,包括:对应分组中匹配日志条目的数量。
一种可能的实施方式中,处理器51执行的指令中,所述预测模型包括下述至少一种:随机森林RF模型、梯度下降树GBDT模型、多分类LR模型以及支持向量机SVM模型。
所述处理器51还执行以下指令:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过第一方面任意一项的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;
所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是,或否关联;
基于所述预测结果,确定所述目标日志条目的身份标识。
一种可能的实施方式中,处理器51执行的指令中,所述基于所述预测结果,确定所述目标日志条目的身份标识,包括:
基于所述预测结果,选取所述目标日志条目的标签类型为是且置信度最高的对应的预测结果,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的文本摘要的提取方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (9)

1.一种预测模型训练方法,其特征在于,该方法包括:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;
基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备;
其中,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目,包括:
针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目;
所述基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本,包括:
基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;
基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。
2.根据权利要求1所述的预测模型训练方法,其特征在于,所述多种目标特征包括下述至少一种:第一设备身份标识,第二设备身份标识,第一设备类型,第二设备类型,重叠IP数,第一访问频次信息、第二访问频次信息;
其中,所述第一设备身份标识包括:目标日志条目中携带的设备身份标识;
所述第二设备身份标识包括:对应分组中匹配日志条目中携带的设备身份标识;
所述第一设备类型包括:目标日志条目中携带的设备类型;
所述第二设备类型包括:对应分组中匹配日志条目中携带的设备类型;
所述第一访问频次信息包括:与目标日志对应的设备,访问目标媒体的频次;所述目标媒体为所述目标日志对应的媒体;
所述第二访问频次信息包括:与匹配日志条目对应的用户设备,访问对应分组中与所述匹配日志条目对应的非目标媒体的频次;
所述重叠IP数,包括:对应分组中匹配日志条目的数量。
3.根据权利要求1所述的预测模型训练方法,其特征在于,所述预测模型包括下述至少一种:随机森林RF模型、梯度下降树GBDT模型、多分类LR模型以及支持向量机SVM模型。
4.一种媒体标识预测方法,其特征在于,该方法包括:
获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过权利要求1-3任意一项所述的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;
所述标签类型包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识是或否关联;
基于所述预测结果,确定所述目标日志条目的身份标识。
5.根据权利要求4所述的媒体标识预测方法,其特征在于,所述基于所述预测结果,确定所述目标日志条目的身份标识,包括:
基于所述预测结果,选取所述目标日志条目的标签类型为是且置信度最高的对应的预测结果,确定所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识为互相关联的。
6.一种预测模型训练装置,其特征在于,包括:
第一获取模块,用于获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
第一确定模块,用于依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
生成模块,用于基于所述目标日志条目以及与该条目标日志条目对应的匹配日志条目,生成至少一条训练样本;
训练模块,用于基于各条日志条目对应的训练样本,训练预测模型;所述预测模型用于预测所述目标日志中携带的设备标识信息,与其对应的任一条匹配日志条目中携带的设备标识信息是否对应同一用户设备;
其中,所述第一确定模块具体用于:
针对所述目标日志条目,基于所述目标日志条目中携带的行为时间信息,以及媒体IP信息,从所述监测日志中确定与该所述目标日志条目对应的匹配日志条目;
所述生成模块,具体用于:
基于各条匹配日志条目中携带的设备身份标识,将所述匹配日志条目分成至少一个分组;
针对每个分组,基于所述目标日志条目,以及该分组中的匹配日志条目,确定在该分组下,所述目标日志条目在多种目标特征下的特征值;
基于该分组下,所述目标日志条目在多种目标特征下的特征值,构成与该分组对应的一条训练样本。
7.一种媒体标识预测装置,其特征在于,该方法包括:
第二获取模块,用于获取用户设备对不同媒体中投放的广告进行操作的监测日志;所述监测日志中包括多条日志条目;
第二确定模块,用于依次将所述监测日志中的每条日志条目作为目标日志条目,从所述监测日志中确定与所述目标日志条目对应的匹配日志条目;其中,所述目标日志条目与任一条匹配日志条目对应的媒体不同;
输入模块,用于将所述目标日志条目与所述目标日志条目对应的匹配日志条目输入至通过权利要求1-3任意一项所述的预测模型训练方法得到的预测模型中,得到预测结果;其中,所述预测结果包括:所述目标日志条目与所述目标日志条目对应的匹配日志条目的身份标识、标签类型与置信度;
第三确定模块,用于基于所述预测结果,确定所述目标日志条目的身份标识。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法的步骤。
CN201911219375.6A 2019-12-03 2019-12-03 预测模型训练方法、装置以及媒体标识预测方法及装置 Active CN110992096B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911219375.6A CN110992096B (zh) 2019-12-03 2019-12-03 预测模型训练方法、装置以及媒体标识预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911219375.6A CN110992096B (zh) 2019-12-03 2019-12-03 预测模型训练方法、装置以及媒体标识预测方法及装置

Publications (2)

Publication Number Publication Date
CN110992096A CN110992096A (zh) 2020-04-10
CN110992096B true CN110992096B (zh) 2023-08-29

Family

ID=70089684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911219375.6A Active CN110992096B (zh) 2019-12-03 2019-12-03 预测模型训练方法、装置以及媒体标识预测方法及装置

Country Status (1)

Country Link
CN (1) CN110992096B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708497A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于VideoBag特征的精准广告投放系统及方法
CN105005593A (zh) * 2015-06-30 2015-10-28 北京奇艺世纪科技有限公司 多用户共用设备的场景识别方法和装置
CN105608179A (zh) * 2015-12-22 2016-05-25 百度在线网络技术(北京)有限公司 确定用户标识的关联性的方法和装置
CN106302849A (zh) * 2016-08-04 2017-01-04 北京集奥聚合科技有限公司 一种通过运营商数据进行移固融合的方法
CN106447383A (zh) * 2016-08-30 2017-02-22 杭州启冠网络技术有限公司 跨时间、多维度异常数据监测的方法和系统
CN107341679A (zh) * 2016-04-29 2017-11-10 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
CN107590689A (zh) * 2017-08-25 2018-01-16 北京奇艺世纪科技有限公司 一种广告数据推荐方法和系统
CN107730038A (zh) * 2017-10-09 2018-02-23 小草数语(北京)科技有限公司 用户偏好性别的预测方法、装置及其设备
CN107730364A (zh) * 2017-10-31 2018-02-23 北京麒麟合盛网络技术有限公司 用户识别方法及装置
CN108197190A (zh) * 2017-12-26 2018-06-22 北京秒针信息咨询有限公司 一种用户识别的方法和装置
CN108399551A (zh) * 2017-02-08 2018-08-14 阿里巴巴集团控股有限公司 一种确定用户标签和推送信息的方法及系统
CN109241031A (zh) * 2018-08-14 2019-01-18 腾讯科技(深圳)有限公司 模型生成方法、模型使用方法、装置、系统及存储介质
CN110097066A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110400169A (zh) * 2019-07-02 2019-11-01 阿里巴巴集团控股有限公司 一种信息推送方法、装置及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9438965B2 (en) * 2012-04-13 2016-09-06 The Nielsen Company (Us), Llc Methods, apparatus, and articles of manufacture to identify media delivery

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708497A (zh) * 2012-01-13 2012-10-03 合一网络技术(北京)有限公司 一种基于VideoBag特征的精准广告投放系统及方法
CN105005593A (zh) * 2015-06-30 2015-10-28 北京奇艺世纪科技有限公司 多用户共用设备的场景识别方法和装置
CN105608179A (zh) * 2015-12-22 2016-05-25 百度在线网络技术(北京)有限公司 确定用户标识的关联性的方法和装置
CN107341679A (zh) * 2016-04-29 2017-11-10 腾讯科技(深圳)有限公司 获取用户画像的方法及装置
CN106302849A (zh) * 2016-08-04 2017-01-04 北京集奥聚合科技有限公司 一种通过运营商数据进行移固融合的方法
CN106447383A (zh) * 2016-08-30 2017-02-22 杭州启冠网络技术有限公司 跨时间、多维度异常数据监测的方法和系统
CN108399551A (zh) * 2017-02-08 2018-08-14 阿里巴巴集团控股有限公司 一种确定用户标签和推送信息的方法及系统
CN107590689A (zh) * 2017-08-25 2018-01-16 北京奇艺世纪科技有限公司 一种广告数据推荐方法和系统
CN107730038A (zh) * 2017-10-09 2018-02-23 小草数语(北京)科技有限公司 用户偏好性别的预测方法、装置及其设备
CN107730364A (zh) * 2017-10-31 2018-02-23 北京麒麟合盛网络技术有限公司 用户识别方法及装置
CN108197190A (zh) * 2017-12-26 2018-06-22 北京秒针信息咨询有限公司 一种用户识别的方法和装置
CN110097066A (zh) * 2018-01-31 2019-08-06 阿里巴巴集团控股有限公司 一种用户分类方法、装置及电子设备
CN109241031A (zh) * 2018-08-14 2019-01-18 腾讯科技(深圳)有限公司 模型生成方法、模型使用方法、装置、系统及存储介质
CN110245719A (zh) * 2019-03-27 2019-09-17 中国海洋大学 一种面向实体和用户画像的特征融合方法
CN110096526A (zh) * 2019-04-30 2019-08-06 秒针信息技术有限公司 一种用户属性标签的预测方法及预测装置
CN110400169A (zh) * 2019-07-02 2019-11-01 阿里巴巴集团控股有限公司 一种信息推送方法、装置及设备

Also Published As

Publication number Publication date
CN110992096A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN109598509B (zh) 风险团伙的识别方法和装置
CN109951435B (zh) 一种设备标识提供方法及装置和风险控制方法及装置
JP6609047B2 (ja) アプリケーション情報リスクマネジメントのための方法及びデバイス
CN108304426B (zh) 标识的获取方法及装置
Riadi Forensic investigation technique on android's blackberry messenger using nist framework
CN111078742B (zh) 用户分类模型训练方法、用户分类方法及装置
CN110149318B (zh) 邮件元数据的处理方法及装置、存储介质、电子装置
CN105653947A (zh) 一种评估应用数据安全风险的方法及装置
CN110689084A (zh) 一种异常用户识别方法及装置
CN113572752A (zh) 异常流量的检测方法和装置、电子设备、存储介质
CN111612085B (zh) 一种对等组中异常点的检测方法及装置
CN110659493A (zh) 威胁告警方式生成的方法、装置、电子设备及存储介质
CN112446736A (zh) 一种点击通过率ctr预测方法及装置
CN110188276B (zh) 数据发送装置、方法、电子设备及计算机可读存储介质
CN110245059A (zh) 一种数据处理方法、设备及存储介质
JP5698494B2 (ja) 携帯端末およびプログラム
JP2015026182A (ja) セキュリティサービス効果表示システム、セキュリティサービス効果表示方法、及びセキュリティサービス効果表示プログラム
CN110992096B (zh) 预测模型训练方法、装置以及媒体标识预测方法及装置
CN110874301A (zh) 程序卡顿信息的获取方法和装置
CN110674383B (zh) 舆情查询方法、装置及设备
CN109660676B (zh) 异常对象的识别方法、装置及设备
CN108924840B (zh) 黑名单管理方法、装置及终端
CN108268545B (zh) 一种分级的用户标签库的创建的方法和装置
CN113727351B (zh) 一种通信欺诈识别方法、装置及电子设备
CN107040603A (zh) 用于确定应用程序App活跃场景的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant