CN111340062A - 一种映射关系确定方法及装置 - Google Patents

一种映射关系确定方法及装置 Download PDF

Info

Publication number
CN111340062A
CN111340062A CN202010080166.4A CN202010080166A CN111340062A CN 111340062 A CN111340062 A CN 111340062A CN 202010080166 A CN202010080166 A CN 202010080166A CN 111340062 A CN111340062 A CN 111340062A
Authority
CN
China
Prior art keywords
data
sample
tested
mapping relation
determination model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010080166.4A
Other languages
English (en)
Inventor
景艳山
卢亿雷
姚俊盛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike Beijing Data Technology Co ltd
Original Assignee
Enyike Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enyike Beijing Data Technology Co ltd filed Critical Enyike Beijing Data Technology Co ltd
Priority to CN202010080166.4A priority Critical patent/CN111340062A/zh
Publication of CN111340062A publication Critical patent/CN111340062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Stored Programmes (AREA)

Abstract

本申请提供一种映射关系确定方法及装置,其中,映射关系确定方法包括:获取测试数据;其中,测试数据包括多个ID数据,ID数据包括设备信息或者与用户身份对应的信息;根据测试数据生成待测试样本;其中,待测试样本包括多个待测候选对,待测候选对包括两个不同类型的ID数据;将待测试样本输入预先训练好的映射关系确定模型中,获得映射关系确定模型输出的待测候选对中映射关系确定的候选对。因此,可以通过预先训练好的映射关系确定模型确定测试数据中映射关系确定的ID数据,从而使得生成映射关系的过程不需要生成参数传递的依赖,不会出现参数丢失的问题,提高了得到ID数据间的映射关系的准确度。

Description

一种映射关系确定方法及装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种映射关系确定方法及装置。
背景技术
当前互联网环境下,在不同设备间会生成不一样的设备号,并且不同设备号呈现为割裂的形式,因此,无法将不同设备所形成统一到物理世界中单一个体进行综合分析,从而会对不同供应方行业资源产生不必要的浪费,对受众个体也会造成不便。
在现有技术中,可以通过互联参数传递的方式完成部分的设备号间的打通,但是采用该方式,在打通的过程中,参数容易丢失,从而使得得到的设备号间的映射关系准确度不高。
发明内容
本申请实施例的目的在于提供一种映射关系确定方法及装置,用以解决得到的设备号间的映射关系准确度不高的技术问题。
为了实现上述目的,本申请实施例所提供的技术方案如下所示:
第一方面,本申请实施例提供一种映射关系确定方法,包括:获取测试数据;其中,所述测试数据包括多个ID数据,所述ID数据包括设备信息或者与用户身份对应的信息;根据所述测试数据生成待测试样本;其中,所述待测试样本包括多个待测候选对,所述待测候选对包括两个不同类型的ID数据;将所述待测试样本输入预先训练好的映射关系确定模型中,获得所述映射关系确定模型输出的所述待测候选对中映射关系确定的候选对。因此,可以通过预先训练好的映射关系确定模型确定测试数据中映射关系确定的ID数据,从而使得生成映射关系的过程不需要生成参数传递的依赖,不会出现参数丢失的问题,提高了得到ID数据间的映射关系的准确度。
在本申请的可选实施例中,所述根据所述测试数据生成待测试样本,包括:在同一个互联网协议地址下,将所述测试数据中,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,所述多个待测候选对组成所述待测试样本。因此,可以将同一个互联网协议地址下,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,从中确定映射关系确定的ID数据,从而降低计算的复杂度,并且提高得到ID数据间的映射关系的准确度。
在本申请的可选实施例中,在所述将所述待测试样本输入预先训练好的映射关系确定模型中之前,所述映射关系确定方法还包括:获取样本数据;其中,所述样本数据包括多个样本候选对,所述样本候选对包括两个映射关系确定的ID数据;利用所述样本数据训练映射关系确定模型,获得所述预先训练好的映射关系确定模型。因此,可以事先利用样本顺序对映射关系确定模型进行训练,由于样本数据中包括多组映射关系确定的ID数据,因此训练后的映射关系确定模型可以用于从测试数据中确定映射关系确定的ID数据。
在本申请的可选实施例中,所述利用所述样本数据训练映射关系确定模型,包括:根据所述样本数据生成正样本以及负样本;确定所述样本数据的特征;利用所述样本数据以及所述特征训练二分类模型,确定所述预先训练好的映射关系确定模型。因此,样本数据可以分为正样本以及负样本,可以根据不同的特征同时对映射关系确定模型进行训练,从而提高利用映射关系确定模型从测试数据中确定映射关系确定的ID数据的准确度。
在本申请的可选实施例中,在所述获得所述预先训练好的映射关系确定模型之后,所述映射关系确定方法还包括:对所述预先训练好的映射关系确定模型的精确率进行评估,以对所述预先训练好的映射关系确定模型进行训练。因此,在完成对映射关系确定模型的训练后,可以随时对训练好的映射关系确定模型的精确率进行评估,以对映射关系确定模型进行实时的优化,保证得到的ID数据间的映射关系的准确度较高。
在本申请的可选实施例中,在所述获取样本数据之后,所述映射关系确定方法还包括:对所述样本数据进行过滤。因此,在利用样本数据对映射关系确定模型进行训练之前,可以对样本数据进行异常数据的过滤,避免影响训练好的映射关系确定模型的质量,从而保证得到的ID数据间的映射关系的准确度较高。
第二方面,本申请实施例提供一种映射关系确定装置,包括:第一获取模块,用于获取测试数据;其中,所述测试数据包括多个ID数据,所述ID数据包括设备信息或者与用户身份对应的信息;生成模块,用于根据所述测试数据生成待测试样本;其中,所述待测试样本包括多个待测候选对,所述待测候选对包括两个不同类型的ID数据;获得模块,用于将所述待测试样本输入预先训练好的映射关系确定模型中,获得所述映射关系确定模型输出的所述待测候选对中映射关系确定的候选对。因此,可以通过预先训练好的映射关系确定模型确定测试数据中映射关系确定的ID数据,从而使得生成映射关系的过程不需要生成参数传递的依赖,不会出现参数丢失的问题,提高了得到ID数据间的映射关系的准确度。
在本申请的可选实施例中,所述生成模块还用于:在同一个互联网协议地址下,将所述测试数据中,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,所述多个待测候选对组成所述待测试样本。因此,可以将同一个互联网协议地址下,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,从中确定映射关系确定的ID数据,从而降低计算的复杂度,并且提高得到ID数据间的映射关系的准确度。
在本申请的可选实施例中,所述映射关系确定装置还包括:第二获取模块,用于获取样本数据;其中,所述样本数据包括多个样本候选对,所述样本候选对包括两个映射关系确定的ID数据;训练模块,用于利用所述样本数据训练映射关系确定模型,获得所述预先训练好的映射关系确定模型。因此,可以事先利用样本顺序对映射关系确定模型进行训练,由于样本数据中包括多组映射关系确定的ID数据,因此训练后的映射关系确定模型可以用于从测试数据中确定映射关系确定的ID数据。
在本申请的可选实施例中,所述训练模块还用于:根据所述样本数据生成正样本以及负样本;确定所述样本数据的特征;利用所述样本数据以及所述特征训练二分类模型,确定所述预先训练好的映射关系确定模型。因此,样本数据可以分为正样本以及负样本,可以根据不同的特征同时对映射关系确定模型进行训练,从而提高利用映射关系确定模型从测试数据中确定映射关系确定的ID数据的准确度。
在本申请的可选实施例中,所述映射关系确定装置还包括:评估模块,用于对所述预先训练好的映射关系确定模型的精确率进行评估,以对所述预先训练好的映射关系确定模型进行训练。因此,在完成对映射关系确定模型的训练后,可以随时对训练好的映射关系确定模型的精确率进行评估,以对映射关系确定模型进行实时的优化,保证得到的ID数据间的映射关系的准确度较高。
在本申请的可选实施例中,所述映射关系确定装置还包括:过滤模块,用于对所述样本数据进行过滤。因此,在利用样本数据对映射关系确定模型进行训练之前,可以对样本数据进行异常数据的过滤,避免影响训练好的映射关系确定模型的质量,从而保证得到的ID数据间的映射关系的准确度较高。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线;所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如第一方面中的映射关系确定方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面中的映射关系确定方法。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举本申请实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种映射关系确定方法的流程图;
图2为本申请实施例提供的微信小程序设备号与手机设备号的示意图;
图3为本申请实施例提供的一种映射关系确定模型的训练方法的流程图;
图4为本申请实施例提供的步骤S302的实施方式的流程图;
图5为本申请实施例提供的一种映射关系确定装置的结构框图;
图6为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
当前互联网环境下,在不同设备间会生成不一样的设备号,且不同的设备号之间呈现为割裂的形式。其中,设备号指对网络访问设备的标识。因此,无法将不同设备统一到一起进行综合的分析,从而会对不同供应方行业资源产生不必要的浪费,对受众个体也会造成不便。
以广告投放为例,针对同一个用户来说,同一个广告的投放次数以不超过六次为最佳。但是,由于不同的设备号之间是割裂的,广告投放方无法知晓该用户已经被投放的广告次数,因此就会出现诸多问题。例如,对于供应方来说,可能存在无效广告重复投放、无法有效的知道受众的真实接触情等情况;而对于需求方来说,可能存在被推送无意义信息等问题。
针对上述问题,现有技术中可以通过互联参数传递的方式完成部分的设备号间的打通。举例来说,该方式可以包括如下步骤:
第一步,在网站中的采集Cookie信息,其中,Cookie信息是一种基于网页所生成的设备信息。
第二步,用点击连接产生从网页到应用的跳转。
第三步,系统将网页端Cookie信息从网页中传递至应用内。
第四步,应用解析跳转链接中串联的Cookie信息并计入。
第五步,应用内采集苹果设备中的广告信息(Identifier For Advertising,IDFA)或者安卓设备中的国际移动设备识别码(International Mobile EquipmentIdentity,IMEI)。
第六步,应用生成Cookie与IDFA的映射关系(一种基于网页所生成或者Cookie与IMEI的映射关系。
在上述方式中,首先,由于仅支持Cookie、IDFA、IMEI等类型的设备号,因此其可以打通的设备号类型有限;其次,该方式必须产生跳转形成两种设备号的映射关系,如果不产生跳转在无法形成映射关系,而在跳转中很容易产生参数的丢失,从而造成确定的设备号的映射关系不准确;最后,该方式必须要为网站浏览并点击跳转,并成功传递才能完成映射关系的生成,因此收集的范围比较小。
针对现有技术存在的上述问题,发明人提供了一种映射关系确定方法,在该映射关系确定方法中,只需在可以采集日志的设备上进行日志采集便可以确定该设备的设备号或者与用户身份对应的账号与其他设备号或者与用户身份对应的账号的映射关系,也就是说,可以适用于更多的设备号类型,同时也无需依赖跳转;此外,在该映射关系确定方法中,可以通过算法生成映射关系,不再对设备间的联动有要求;因此,本申请实施例提供的映射关系确定方法可以有效的提高得到的映射关系的准确度。
下面详细对本申请实施例提供的映射关系确定方法进行详细的介绍,其中,为了介绍的更加清楚,在下面的实施例中均以广告投放的应用场景为例进行叙述。可以理解,除了广告投放,本申请实施例提供的映射关系确定方法还可以应用于以下多种场景中:
场景一:多个APP内销售转化核对整合;
场景二:对个APP内用户兴趣爱好识别;
场景三:对个APP内用户征信情况,个人情况识别。
请参照图1,图1为本申请实施例提供的一种映射关系确定方法的流程图,该映射关系确定方法可以包括如下步骤:
步骤S101:获取测试数据。
步骤S102:根据测试数据生成待测试样本。
步骤S103:将待测试样本输入预先训练好的映射关系确定模型中,获得映射关系确定模型输出的待测候选对中映射关系确定的候选对。
具体的,在广告投放中,可以通过在不同的应用程序(Application,APP)中投放广告并收集相应的数据,例如:收集的数据可以包括用户接收投放的广告的移动终端的设备号、互联网协议地址、浏览器信息、设备信息、时间戳等。其中,收集上述数据的方式可以为对用户的使用行为监测日志进行收集储存,用户的使用行为监测日志中包括上述设备号、互联网协议地址、浏览器信息、设备信息、时间戳等信息。随后,便可以基于上述用户的使用行为监测日志中信息确定映射关系。
由于用户的使用行为监测日志中除了可以获取到终端的设备信息,还可以获取到与用户身份对应的信息,例如:微信小程序设备号、微信账号、微博账号等,在本申请实施例中,将上述设备信息以及与用户身份对应的信息统一命名为ID数据。因此,每一个ID数据都可以与另一个ID数据建立相应的映射关系,针对建立了映射关系的一系列ID数据可以看作是同一个用户,针对该用户对其投放最多六次广告。举例来说,确定了一个用户的终端的设备号与微信账号之间的映射关系,并且已经在该终端上向该用户投放了某一广告四次,因此,即使该用户换终端登录其微信账号,也最多只会在其微信上向其投放最多两次广告。
同样为了介绍的更加清楚,在下面的实施例中均以生成微信小程序设备号与手机设备号之间的映射关系为例进行叙述。可以理解,除了微信小程序设备号与手机设备号之间,本申请实施例还可以对微信小程序设备号、手机设备号、微信账号、微博账号等ID数据两两之间生成对应的映射关系。
首先,在微信小程序开发过程中以及在广告投放至手机应用中可以对当前用户的微信小程序设备号、行为发生时间戳、浏览器信息、手机设备信息、互联网协议地址等进行采集(即步骤S101中的测试数据,包括多个ID数据,ID数据包括设备信息或者与用户身份对应的信息),完成数据的载入。
然后,可以根据上述获取到的测试数据生成待测试样本,其中,待测试样本可以包括多个待测候选对,每个待测候选对包括两个不同类型的ID数据。下面对确定待测候选对的方式进行详细的介绍。
在本申请实施例这种,待测候选对的生成原则可以为:在同一个互联网协议地址下,在相近的时间内记录下微信小程序设备号与手机设备号。也就是说,步骤S102可以包括如下步骤:
在同一个互联网协议地址下,将测试数据中,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,多个待测候选对组成所述待测试样本。
其中,预设时间段可以为一个自然时间窗口,例如:一小时(北京时间:14点-15点),也可以为每次发生行为前后动态时间窗口,例如:一小时(行为发生在15:15分,时间窗口为14:45-15:45)。本申请实施例对此不作具体的限定,本领域技术人员可以根据实际情况对预设时间段的长短等进行合适的调整。
在一个预设时间段内,如果仅出现了两个不同类型的ID数据,则可以将该两个不同类型的ID数据看作一个候选对;在一个预设时间段内,如果出现了两个不同类型的多个ID数据,则可以对两种类型的ID数据进行笛卡尔积组合,确定多个候选对。
举例来说,将候选对表示为:候选对=<Dev ID,open ID>,请参照图2,图2为本申请实施例提供的微信小程序设备号与手机设备号的示意图,在图2中,存在三个候选对,分别为:<open ID1,Dev ID1>,<open ID3,Dev ID2>,<open ID2,Dev ID2>。
如果确定的候选对中任意一个ID数据在数据库已有收集的真实映射关系中都未出现的,则该候选对为待测候选对。例如:确定的候选对为:<10001,C9102>、<10002,C9117>以及<10004,C1812>,真实数据为:<10001,C9102>、<10002,C8173>,则待测候选对为:<10004,C1812>。
在确定待测试样本之后,可以将待测试样本输入到预先训练好的映射关系确定模型中,以从多个待测候选对中确定一个或者多个映射关系确定的候选对。其中,训练映射关系确定模型的具体过程在下面的实施例中进行详细的叙述,此处暂不介绍。
在本申请实施例中,可以通过预先训练好的映射关系确定模型确定测试数据中映射关系确定的ID数据,从而使得生成映射关系的过程不需要生成参数传递的依赖,不会出现参数丢失的问题,提高了得到ID数据间的映射关系的准确度。
下面详细介绍映射关系确定模型的训练过程。
请参照图3,图3为本申请实施例提供的一种映射关系确定模型的训练方法的流程图,在步骤S101之前,该映射关系确定模型的训练方法可以包括如下步骤:
步骤S301:获取样本数据。
步骤S302:利用样本数据训练映射关系确定模型,获得预先训练好的映射关系确定模型。
具体的,首先可以获取用于训练映射关系确定模型的样本数据,其中,获取样本数据的方式可以为从现有的数据库中直接获取,也可以为与获取测试数据的方式相似的方式。
若获取样本数据的方式为与获取测试数据的方式相似的方式,请参照图4,图4为本申请实施例提供的步骤S302的实施方式的流程图,步骤S302可以包括如下步骤:
步骤S401:根据样本数据生成正样本以及负样本。
步骤S402:确定样本数据的特征。
步骤S403:利用样本数据以及特征训练二分类模型,确定预先训练好的映射关系确定模型。
首先,可以在微信小程序开发过程中以及在广告投放至手机应用中获取数据,然后从获取的数据中确定候选对,最后从候选对中确定样本数据。其中,样本数据包括多个样本候选对,每个样本候选对包括两个映射关系确定的ID数据。
作为一种实施方式,从候选对中确定样本数据时,可以将候选对中映射关系与数据库中已有收集的真实映射关系完全一致的候选对作为正样本,例如:确定的候选对为:<10001,C9102>、<10002,C9117>、<10004,C1812>,真实数据为:<10001,C9102>、<10002,C8173>,则确定的正样本为:<10001,C9102>。
类似的,可以将候选对中有任意一个ID数据在数据库已有收集的真实映射关系中出现过,但映射关系并非完全一致的作为负样本,例如:确定的候选对为:<10001,C9102>、<10002,C9117>、<10004,C1812>,真实数据为:<10001,C9102>、<10002,C8173>,则确定的正样本为:<10002,C9117>。
然后,可以确定训练模型需要使用的特征。作为一种实施方式,特征可以包括静态特征以及行为特征。
提取静态特征可以对原始采集的行为监测日志的原始字段进行收集,特征值可以包括:操作系统版本是否一致、UA是否一致、UA相似度、设备机型是否一致、设备品牌是否一致、机型字符串相似度等。
提取行为特征可以通过在一个互联网协议地址下,一定时间窗口内候选对的一次共现,特征值可以包括:时间差、相同互联网协议地址下手机设备号数量、相同互联网协议地址下单个微信小程序设备号数量、相同互联网协议地址下单个手机设备号广告曝光量、相同互联网协议地址下微信小程序设备号行为数量、共现度累积和、共现次数、共现天数、1天内共现平均次数、1天内共现次数的方差等。
在确定样本数据的特征之后,可以将样本数据输入至映射关系确定模型中对其进行训练,训练的过程可以理解为判断上述特征是否合理,并对合理的特征进行权重分配,最后得到训练好的映射关系确定模型。作为一种实施方式,可以使用极限梯度提升树原理对二分类模型进行训练,得到训练好的映射关系确定模型。
作为另一种实施方式,在步骤S301之后,本申请实施例提供的映射关系确定模型的训练方法还可以包括一下步骤:
对样本数据进行过滤。
在利用样本数据对映射关系确定模型进行训练之前,为了避免异常数据影响模型的质量,可以先对获取的样本数据进行过滤,可以包括:异常互联网协议地址过滤(例如:1日内曝光量大于200或者1日内小程序行为大于1000)、异常设备号过滤(例如:1日内曝光量大于200或者1日内点击量大于50)、异常微信小程序设备号过滤(例如:一日内行为大于200或者设备号不合法过滤)等。
在本申请实施例中,可以事先利用样本顺序对映射关系确定模型进行训练,由于样本数据中包括多组映射关系确定的ID数据,因此训练后的映射关系确定模型可以用于从测试数据中确定映射关系确定的ID数据。
进一步的,在步骤S302之后,本申请实施例提供的映射关系确定模型的训练方法还可以包括如下步骤:
对预先训练好的映射关系确定模型的精确率进行评估,以对预先训练好的映射关系确定模型进行训练。
具体的,在对映射关系确定模型完成训练之后,可以对模型进行评估,并且根据评估的结果以及不断的积累一定时间的数据对模型不断的进行模型训练。
在本申请实施例中,在完成对映射关系确定模型的训练后,可以随时对训练好的映射关系确定模型的精确率进行评估,以对映射关系确定模型进行实时的优化,保证得到的ID数据间的映射关系的准确度较高。
请参照图5,图5为本申请实施例提供的一种映射关系确定装置的结构框图,该映射关系确定装置500可以包括:第一获取模块501,用于获取测试数据;其中,所述测试数据包括多个ID数据,所述ID数据包括设备信息或者与用户身份对应的信息;生成模块502,用于根据所述测试数据生成待测试样本;其中,所述待测试样本包括多个待测候选对,所述待测候选对包括两个不同类型的ID数据;获得模块503,用于将所述待测试样本输入预先训练好的映射关系确定模型中,获得所述映射关系确定模型输出的所述待测候选对中映射关系确定的候选对。
在本申请实施例中,可以通过预先训练好的映射关系确定模型确定测试数据中映射关系确定的ID数据,从而使得生成映射关系的过程不需要生成参数传递的依赖,不会出现参数丢失的问题,提高了得到ID数据间的映射关系的准确度。
进一步的,所述生成模块502还用于:在同一个互联网协议地址下,将所述测试数据中,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,所述多个待测候选对组成所述待测试样本。
在本申请实施例中,可以将同一个互联网协议地址下,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,从中确定映射关系确定的ID数据,从而降低计算的复杂度,并且提高得到ID数据间的映射关系的准确度。
进一步的,所述映射关系确定装置500还包括:第二获取模块,用于获取样本数据;其中,所述样本数据包括多个样本候选对,所述样本候选对包括两个映射关系确定的ID数据;训练模块,用于利用所述样本数据训练映射关系确定模型,获得所述预先训练好的映射关系确定模型。
在本申请实施例中,可以事先利用样本顺序对映射关系确定模型进行训练,由于样本数据中包括多组映射关系确定的ID数据,因此训练后的映射关系确定模型可以用于从测试数据中确定映射关系确定的ID数据。
进一步的,所述训练模块还用于:根据所述样本数据生成正样本以及负样本;确定所述样本数据的特征;利用所述样本数据以及所述特征训练二分类模型,确定所述预先训练好的映射关系确定模型。
在本申请实施例中,样本数据可以分为正样本以及负样本,可以根据不同的特征同时对映射关系确定模型进行训练,从而提高利用映射关系确定模型从测试数据中确定映射关系确定的ID数据的准确度。
进一步的,所述映射关系确定装置500还包括:评估模块,用于对所述预先训练好的映射关系确定模型的精确率进行评估,以对所述预先训练好的映射关系确定模型进行训练。
在本申请实施例中,在完成对映射关系确定模型的训练后,可以随时对训练好的映射关系确定模型的精确率进行评估,以对映射关系确定模型进行实时的优化,保证得到的ID数据间的映射关系的准确度较高。
进一步的,所述映射关系确定装置还包括:过滤模块,用于对所述样本数据进行过滤。
在本申请实施例中,在利用样本数据对映射关系确定模型进行训练之前,可以对样本数据进行异常数据的过滤,避免影响训练好的映射关系确定模型的质量,从而保证得到的ID数据间的映射关系的准确度较高。
请参照图6,图6为本申请实施例提供的一种电子设备的结构框图,该电子设备包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604。其中,通信总线604用于实现这些组件直接的连接通信,通信接口602用于与其他节点设备进行信令或数据的通信,存储器603存储有处理器601可执行的机器可读指令。当电子设备运行时,处理器601与存储器603之间通过通信总线604通信,机器可读指令被处理器601调用时执行上述映射关系确定方法。
例如,本申请实施例的处理器601通过通信总线604以及通信接口602从存储器603读取计算机程序并执行该计算机程序可以实现如下方法:步骤S101:获取测试数据。步骤S102:根据测试数据生成待测试样本。步骤S103:将待测试样本输入预先训练好的映射关系确定模型中,获得映射关系确定模型输出的待测候选对中映射关系确定的候选对。在一些实施例中,处理器601还可以对映射关系确定模型进行训练,也就是说,可以实现如下方法:步骤S301:获取样本数据。步骤S302:利用样本数据训练映射关系确定模型,获得预先训练好的映射关系确定模型。
处理器601可以是一种集成电路芯片,具有信号处理能力。上述处理器601可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器603可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
可以理解,图6所示的结构仅为示意,电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等实体设备,还可以是虚拟机等虚拟设备。另外,电子设备也不一定是单台设备,还可以是多台设备的组合,例如服务器集群,等等。
本申请实施例还提供一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述实施例中映射关系确定方法的步骤,例如包括:获取测试数据;其中,所述测试数据包括多个ID数据,所述ID数据包括设备信息或者与用户身份对应的信息;根据所述测试数据生成待测试样本;其中,所述待测试样本包括多个待测候选对,所述待测候选对包括两个不同类型的ID数据;将所述待测试样本输入预先训练好的映射关系确定模型中,获得所述映射关系确定模型输出的所述待测候选对中映射关系确定的候选对。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种映射关系确定方法,其特征在于,包括:
获取测试数据;其中,所述测试数据包括多个ID数据,所述ID数据包括设备信息或者与用户身份对应的信息;
根据所述测试数据生成待测试样本;其中,所述待测试样本包括多个待测候选对,所述待测候选对包括两个不同类型的ID数据;
将所述待测试样本输入预先训练好的映射关系确定模型中,获得所述映射关系确定模型输出的所述待测候选对中映射关系确定的候选对。
2.根据权利要求1所述的映射关系确定方法,其特征在于,所述根据所述测试数据生成待测试样本,包括:
在同一个互联网协议地址下,将所述测试数据中,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,所述多个待测候选对组成所述待测试样本。
3.根据权利要求1或2所述的映射关系确定方法,其特征在于,在所述将所述待测试样本输入预先训练好的映射关系确定模型中之前,所述映射关系确定方法还包括:
获取样本数据;其中,所述样本数据包括多个样本候选对,所述样本候选对包括两个映射关系确定的ID数据;
利用所述样本数据训练映射关系确定模型,获得所述预先训练好的映射关系确定模型。
4.根据权利要求3所述的映射关系确定方法,其特征在于,所述利用所述样本数据训练映射关系确定模型,包括:
根据所述样本数据生成正样本以及负样本;
确定所述样本数据的特征;
利用所述样本数据以及所述特征训练二分类模型,确定所述预先训练好的映射关系确定模型。
5.根据权利要求3所述的映射关系确定方法,其特征在于,在所述获得所述预先训练好的映射关系确定模型之后,所述映射关系确定方法还包括:
对所述预先训练好的映射关系确定模型的精确率进行评估,以对所述预先训练好的映射关系确定模型进行训练。
6.根据权利要求3所述的映射关系确定方法,其特征在于,在所述获取样本数据之后,所述映射关系确定方法还包括:
对所述样本数据进行过滤。
7.一种映射关系确定装置,其特征在于,包括:
第一获取模块,用于获取测试数据;其中,所述测试数据包括多个ID数据,所述ID数据包括设备信息或者与用户身份对应的信息;
生成模块,用于根据所述测试数据生成待测试样本;其中,所述待测试样本包括多个待测候选对,所述待测候选对包括两个不同类型的ID数据;
获得模块,用于将所述待测试样本输入预先训练好的映射关系确定模型中,获得所述映射关系确定模型输出的所述待测候选对中映射关系确定的候选对。
8.根据权利要求7所述的映射关系确定装置,其特征在于,所述生成模块还用于:
在同一个互联网协议地址下,将所述测试数据中,出现在预设时间段内的两个不同类型的ID数据确定为一个待测候选对,所述多个待测候选对组成所述待测试样本。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线;
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-6任一项所述的映射关系确定方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-6任一项所述的映射关系确定方法。
CN202010080166.4A 2020-02-04 2020-02-04 一种映射关系确定方法及装置 Pending CN111340062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010080166.4A CN111340062A (zh) 2020-02-04 2020-02-04 一种映射关系确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010080166.4A CN111340062A (zh) 2020-02-04 2020-02-04 一种映射关系确定方法及装置

Publications (1)

Publication Number Publication Date
CN111340062A true CN111340062A (zh) 2020-06-26

Family

ID=71185156

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010080166.4A Pending CN111340062A (zh) 2020-02-04 2020-02-04 一种映射关系确定方法及装置

Country Status (1)

Country Link
CN (1) CN111340062A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651790A (zh) * 2021-01-19 2021-04-13 恩亿科(北京)数据科技有限公司 基于快消行业用户触达的ocpx自适应学习方法和系统
CN112835872A (zh) * 2021-02-08 2021-05-25 北京明略昭辉科技有限公司 用于id打通的方法、装置及设备
CN113448859A (zh) * 2021-07-09 2021-09-28 中国工商银行股份有限公司 基于分布式系统的测试数据生成方法及装置
CN115952770A (zh) * 2023-03-15 2023-04-11 广州汇通国信科技有限公司 一种数据标准化的处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105871585A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 终端关联方法及装置
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其系统
CN107066616A (zh) * 2017-05-09 2017-08-18 北京京东金融科技控股有限公司 用于账号处理的方法、装置及电子设备
CN108491424A (zh) * 2018-02-07 2018-09-04 链家网(北京)科技有限公司 用户id关联方法及装置
CN110648172A (zh) * 2019-09-04 2020-01-03 北京益商慧评网络科技有限公司 一种融合多种移动设备的身份识别方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105871585A (zh) * 2015-12-03 2016-08-17 乐视网信息技术(北京)股份有限公司 终端关联方法及装置
CN106528777A (zh) * 2016-10-27 2017-03-22 北京百分点信息科技有限公司 跨屏用户标识归一的方法及其系统
CN107066616A (zh) * 2017-05-09 2017-08-18 北京京东金融科技控股有限公司 用于账号处理的方法、装置及电子设备
CN108491424A (zh) * 2018-02-07 2018-09-04 链家网(北京)科技有限公司 用户id关联方法及装置
CN110648172A (zh) * 2019-09-04 2020-01-03 北京益商慧评网络科技有限公司 一种融合多种移动设备的身份识别方法和系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112651790A (zh) * 2021-01-19 2021-04-13 恩亿科(北京)数据科技有限公司 基于快消行业用户触达的ocpx自适应学习方法和系统
CN112651790B (zh) * 2021-01-19 2024-04-12 恩亿科(北京)数据科技有限公司 基于快消行业用户触达的ocpx自适应学习方法和系统
CN112835872A (zh) * 2021-02-08 2021-05-25 北京明略昭辉科技有限公司 用于id打通的方法、装置及设备
CN113448859A (zh) * 2021-07-09 2021-09-28 中国工商银行股份有限公司 基于分布式系统的测试数据生成方法及装置
CN113448859B (zh) * 2021-07-09 2024-08-02 中国工商银行股份有限公司 基于分布式系统的测试数据生成方法及装置
CN115952770A (zh) * 2023-03-15 2023-04-11 广州汇通国信科技有限公司 一种数据标准化的处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107566358B (zh) 一种风险预警提示方法、装置、介质及设备
CN107168854B (zh) 互联网广告异常点击检测方法、装置、设备及可读存储介质
CN111340062A (zh) 一种映射关系确定方法及装置
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN112801498B (zh) 风险识别模型的训练方法、风险识别方法、装置及设备
CN109345417B (zh) 基于身份认证的业务人员的在线考核方法及终端设备
CN111178983A (zh) 用户性别预测方法、装置、设备及存储介质
CN111612085B (zh) 一种对等组中异常点的检测方法及装置
CN112069425A (zh) 日志管理方法、装置、电子设备及可读存储介质
CN111666298A (zh) 基于flink的用户服务类别检测方法、装置、计算机设备
CN107871213B (zh) 一种交易行为评价方法、装置、服务器以及存储介质
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN117093627A (zh) 信息挖掘的方法、装置、电子设备和存储介质
CN112950359A (zh) 一种用户识别方法和装置
CN116776390A (zh) 一种数据泄漏行为的监测方法、装置、存储介质及设备
CN117033552A (zh) 情报评价方法、装置、电子设备及存储介质
CN111275071A (zh) 预测模型训练、预测方法、装置及电子设备
CN114285896B (zh) 信息推送方法、装置、设备、存储介质及程序产品
CN115147195A (zh) 一种招标采购风险监控方法、装置、设备及介质
CN110557351A (zh) 用于生成信息的方法和装置
CN115039380B (zh) 业务数据处理方法、装置、电子设备以及存储介质
CN111143644B (zh) 物联网设备的识别方法及装置
CN109726550A (zh) 异常操作行为检测方法、装置及计算机可读存储介质
CN110020166A (zh) 一种数据分析方法及相关设备
CN108510071B (zh) 数据的特征提取方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200626

RJ01 Rejection of invention patent application after publication