CN115729974A - 数据处理方法及装置、电子设备、计算机可读存储介质 - Google Patents

数据处理方法及装置、电子设备、计算机可读存储介质 Download PDF

Info

Publication number
CN115729974A
CN115729974A CN202111024684.5A CN202111024684A CN115729974A CN 115729974 A CN115729974 A CN 115729974A CN 202111024684 A CN202111024684 A CN 202111024684A CN 115729974 A CN115729974 A CN 115729974A
Authority
CN
China
Prior art keywords
objects
feature information
information
characteristic information
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111024684.5A
Other languages
English (en)
Inventor
吴杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111024684.5A priority Critical patent/CN115729974A/zh
Publication of CN115729974A publication Critical patent/CN115729974A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例揭示了一种数据处理方法及装置、电子设备、计算机可读存储介质。该方法包括:获取多个对象的特征信息,并从多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将多个对象中除第一对象以外的其他对象作为未知属性的第二对象,进而根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性,再根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将目标对象作为已知属性的对象。本申请实施例的技术方案实现了在缺乏购买数据的情况下也能确定出已知属性的对象,极大地优化了确定已知属性的对象方案。

Description

数据处理方法及装置、电子设备、计算机可读存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据处理方法及装置、电子设备、计算机可读存储介质。
背景技术
目前,在相关技术中通常是利用购买数据如火车票、飞机票等确定出已知属性的对象,但是在缺乏购买数据的情况下,如何确定出已知属性的对象,现有技术中并没有明确方案。
发明内容
为解决上述技术问题,本申请的实施例提供了一种数据处理方法及装置、电子设备、计算机可读存储介质。
根据本申请实施例的一个方面,提供了一种数据处理方法,所述方法包括:获取多个对象的特征信息;其中,所述特征信息包括用于表征对象地理性质的信息;从所述多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将所述多个对象中除所述第一对象以外的其他对象作为未知属性的第二对象;根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性;根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将所述目标对象作为已知属性的对象。
根据本申请实施例的一个方面,提供了一种数据处理装置,所述装置包括:获取模块,配置为获取多个对象的特征信息;其中,所述特征信息包括用于表征对象地理性质的信息;筛选模块,配置为从所述多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将所述多个对象中除所述第一对象以外的其他对象作为未知属性的第二对象;计算模块,配置为根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性;确定模块,配置为根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将所述目标对象作为已知属性的对象。
根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述电子设备执行时,使得所述电子设备实现如上所述的数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数据处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实施例中提供的数据处理方法。
在本申请的实施例提供的技术方案中,通过获取多个对象的特征信息,并从多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将多个对象中除第一对象以外的其他对象作为未知属性的第二对象,进而根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性,再根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将目标对象作为已知属性的对象,其中特征信息包括用于表征对象地理性质的信息;这样无需再借助于购买数据,丰富了确定已知属性的对象的方式;并且实现了在缺乏购买数据的情况下,也能确定出已知属性的对象,极大地优化了确定已知属性的对象方案,降低了由于缺乏购买数据无法确定出已知属性的对象而给相关工作人员带来的困扰。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出的数据处理云架构示意图;
图2是本申请的一示例性实施例示出的数据处理方法的流程图;
图3是图2所示实施例中的步骤S110在一示例性实施例中的流程图;
图4是图2所示实施例中的步骤S130在一示例性实施例中的流程图;
图5是图2所示实施例中的步骤S130在一示例性实施例中的流程图;
图6是图2所示实施例中的步骤S130在一示例性实施例中的流程图;
图7是图2所示实施例中的步骤S130在一示例性实施例中的流程图;
图8是本申请的一示例性实施例示出的数据处理方法的流程图;
图9是本申请的一示例性实施例示出的地图界面的示意图;
图10是本申请的一示例性实施例示出的数据处理装置的框图;
图11是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相相同的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相同的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作 /步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是,在本申请中提及的“多个”是指两个或者两个以上。“和/ 或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请实施例提供的方案涉及云计算的相关技术。可以理解的是,云计算(cloudcomputing)指的是IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等传统计算机和网络技术发展融合的产物。其中,云服务器就是一种以云计算技术为基础的服务器。
请参阅图1,图1是本申请的一个实施例示出的数据处理云架构示意图。从图1所示的数据处理云架构中可以看出,云服务器20具有逻辑计算能力,具体地,云服务器20获取多个对象10的特征信息,并从多个对象10中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将多个对象中除第一对象以外的其他对象作为未知属性的第二对象,进而根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性,再根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将目标对象作为已知属性的对象;对象10 可支持接入输入设备30来生成相应指令。
其中,对象10中的终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、车载终端、可穿戴设备等设备,但并不局限于此。
其中,云服务器20是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器;在本申请的一个实施例中,云服务器20也可以是独立的物理服务器,还可以是多个物理服务器构成的服务器集群或者分布式系统等。
其中,输入设备30可以是键盘、鼠标、游戏手柄等设备,本处也不对此进行限制。
基于图1所示应用场景,在采用了本申请实施例的技术方案之后,通过云服务器根据获取到多个对象的特征信息进行相应计算,从而可以确定出已知属性的对象(如具有风险的用户),这样无需再借助于购买数据,丰富了确定已知属性的对象的方式;并且实现了在缺乏购买数据的情况下,也能确定出已知属性的对象,极大地优化了确定已知属性的对象方案,降低了由于缺乏购买数据无法确定出已知属性的对象而给相关工作人员带来的困扰。
以下对本申请实施例的技术方案的各种实现细节进行详细阐述:
请参阅图2,图2是本申请的一个实施例示出的数据处理方法的流程图。该方法可以由图1所示数据处理云架构中的云服务器20执行;如图2所示,数据处理方法至少包括步骤S110至步骤S140,详细介绍如下:
步骤S110,获取多个对象的特征信息;其中,特征信息包括用于表征对象地理性质的信息。
本申请实施例中的对象包括但不限于使用终端的用户,其中每个用户都有自己唯一的标识,例如用户标识(包括但不限于身份证号码、手机号码、终端出厂标识号)等,以用于和其他用户进行区分。
本申请实施例中的特征信息包括用于表征对象地理性质的信息,其中表征对象地理性质的信息包括但不限于对象使用过的地理性质数据或对象所处环境对应的地理性质数据等。
本申请实施例中的地理性质指的是和地理位置相关的性质;例如对象为使用终端的用户时,用户使用过的地理性质数据包括但不限于任意应用程序中的收货地址,用户所处环境对应的地理性质数据包括但不限于IP地址(Internet Protocol Address,互联网协议地址)、LBS(Location Based Services,基于地理性质的服务)地址等。
在本申请的一个实施例中,请参阅图3,步骤S110中获取多个对象的特征信息的过程,可以包括步骤S1101至步骤S1102,详细介绍如下:
步骤S1101,采集多个对象针对同一类型的特征信息,以根据第一对象和第二对象同一类型的特征信息,计算第一对象和第二对象之间的地理性质相关性;其中,特征信息的类型包括IP地址类型、收货地址类型以及LBS 地址类型中的至少一种。
可以理解的是,如前述所介绍表征对象地理性质的信息可以为对象使用过的地理性质数据或对象所处环境对应的地理性质数据,由此可以看出特征信息的类型是有多种的,具体地,特征信息的类型包括但不限于IP地址类型、收货地址类型以及LBS地址类型等。
在本申请的一个实施例中,可以采集一种类型的特征信息,例如采集多个对象针对IP地址类型的特征信息、多个对象针对收货地址类型的特征信息以及多个对象针对LBS地址类型的特征信息这三种类型的特征信息中的任意一种即可。
在本申请的一个实施例中,可以同时采集多种类型的特征信息,例如同时采集多个对象针对IP地址类型的特征信息、多个对象针对收货地址类型的特征信息以及多个对象针对LBS地址类型的特征信息这三种类型的特征信息中的至少两种。其中在计算对象之间(即第一对象和第二对象之间,下同)的地理性质相关性时,是需要根据对象的相同类型的特征信息进行计算,例如在采集到多个对象针对IP地址类型的特征信息时,是根据多个对象针对IP地址类型的特征信息,计算对象之间的地理性质相关性;在采集到多个对象针对收货地址类型的特征信息时,是根据多个对象针对收货地址类型的特征信息,计算对象之间的地理性质相关性;在采集到多个对象针对LBS 地址类型的特征信息时,是根据多个对象针对LBS地址类型的特征信息,计算对象之间的地理性质相关性。
需要说明的是,如果根据多种类型的特征信息分别计算得到对象之间的地理性质相关性,可以对多个地理性质相关性进行平均值计算或其他相应计算,从而得到最终的对象之间的地理性质相关性。
步骤S1102,若未采集到所有对象针对同一类型的特征信息,则对未采集到的对象的特征信息进行补齐,以获取到所有对象针对同一类型的特征信息。
在本申请的一个实施例中,在采集多个对象的特征信息时,可以指定需要采集的特征信息的类型,其中可能会存在未采集到所有对象针对指定类型的特征信息的情况,那么此时可以对未采集到的对象针对该指定类型的特征信息执行补齐操作,从而保证可以获取到所有对象针对该指定类型的特征信息。其中对未采集到的对象的特征信息执行补齐操作,可以是利用对应对象在历史时间段内针对该指定类型的特征信息执行补齐操作。
举例说明,例如设指定采集的特征信息的类型为LBS地址类型的特征信息,对象共有100个,以及采集到95个对象针对LBS地址类型的特征信息,明显的,此时未采集到5个对象针对LBS地址类型的特征信息,那么此时可以利用对应对象在历史时间段内针对LBS地址类型的特征信息执行补齐操作,从而获取到100个对象针对LBS地址类型的特征信息。
在本申请的一个实施例中,在采集多个对象的特征信息时,可以指定需要采集的特征信息的类型,其中可能会存在未采集到所有对象针对指定类型的特征信息的情况,那么此时可以更换所指定的需要采集的特征信息的类型,进而采集更换后的对应类型的特征信息,从而保证可以获取到所有对象针对同一类型的特征信息。
举例说明,例如设指定采集的特征信息的类型为LBS地址类型的特征信息,对象共有100个,以及采集到95个对象针对LBS地址类型的特征信息,明显的,此时未采集到5个对象针对LBS地址类型的特征信息,那么可以更换所指定的特征信息的类型,如将指定的特征信息的类型由LBS地址类型的特征信息更换为IP地址类型;此时再采集100个对象针对IP地址类型的特征信息,其中更换所指定的特征信息的类型后可能会采集到所有对象针对IP地址类型的特征信息,也可能不会采集到所有对象针对IP地址类型的特征信息,那么可以再次更换所指定的特征信息的类型,如将指定的特征信息的类型由IP地址类型更换为收货地址的特征信息;此时再采集100 个对象针对收货地址的特征信息,以此类推,直至获取到所有对象针对同一类型的特征信息。
在本申请的一个实施例中,在步骤S1102中对未采集到的对象的特征信息进行补齐的过程之后,还可以包括以下步骤:
根据多个对象的特征信息的类型,对多个对象的特征信息进行标准化处理,以使多个对象的特征信息包括经度信息和纬度信息。
本申请实施例中的标准化处理指的是对特征信息进行相应转换以使特征信息包括经度信息和纬度信息的处理。
其中,如果获取到的对象的特征信息的类型为IP地址类型以及收货地址类型时,其对应的特征信息均是不包含经度信息和纬度信息的,那么此时需要对IP地址类型的特征信息以及收货地址类型的特征信息进行标准化处理,以使得经过标准化处理后的IP地址类型的特征信息以及收货地址类型的特征信息均包括经度信息和纬度信息。
在本申请的一个实施例中,对IP地址类型的特征信息进行标准化处理,可以是采用Web服务API,如普通的IP服务或者精准的IP服务等。其中普通的IP服务是利用IP获取大致地理位置,调用API接口,返回请求参数中指定上网IP的大致特征信息(一般为城市级别),特征信息包括经纬度、省、市等地址信息,但是如果请求参数中未指定上网IP,则默认返回当前服务请求来源的IP所对应的大致特征信息,其中该服务所返回的经纬度信息只是一个大概的地理位置,一般为城市中心点;相应地,精准的IP服务是类似的,但是其是利用IP获取精确地理位置。
在本申请的一个实施例中,对IP地址类型的特征信息进行标准化处理,也可以是通过具有将IP转换为包含经纬度信息功能的平台实现,如Logstash 平台等。
在本申请的一个实施例中,对收货地址类型的特征信息进行标准化处理,可以是先确定收货地址类型的特征信息包含的具体地址信息,然后将具体地址信息转换为对应的经纬度信息。
其中,如果获取到的对象的特征信息的类型为LBS地址类型的特征信息时,其对应的特征信息本身是包含经度信息和纬度信息的,那么此时无需对LBS地址类型的特征信息进行标准化处理。
步骤S120,从多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将多个对象中除第一对象以外的其他对象作为未知属性的第二对象。
本申请实施例中的属性包括但不限于和风险相关的属性,其中风险指的是具有可能发生的危险。例如针对于对象而言,其可以指代的是对象执行危险操作的可能性,如果对象执行危险操作的可能性较大,则将其称之为风险对象,如果用户执行危险操作的可能性较小或为零,则将其称之为普通对象。
本申请实施例中多个对象包括有至少一个已知属性的第一对象,以及至少一个未知属性的第二对象。其中已知属性的第一对象指的是已经确定该对象为风险对象,未知属性的第二对象指的是暂未能确定该对象是否为风险对象。
本申请实施例中可以通过属性值从多个对象中筛选出已知属性的第一对象和未知属性的第二对象。其中属性值指的是每个对象对应的已知属性值,其用于判定对象是否为具有该属性的对象,需要强调的是,属性值只是用于初步判断对象是否为具有该属性的对象。其中如果对象对应的属性值大于或等于预设属性阈值,则表征该对象为已知属性的对象(即第一对象);如果对象对应的属性值小于预设属性阈值,则表征该对象为未知属性的对象(即第二对象)。
步骤S130,根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性。
本申请实施例中从多个对象中筛选出属性值大于或等于预设属性阈值的对象作为第一对象,相应地,多个对象中除第一对象以外的其他对象则作为第二对象,进而根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性,这样数据计算量更少,能够节省计算资源,并且符合实际需求。
举例说明,例如设获取到100个对象的特征信息,以及从100个对象中筛选出1个属性值大于或等于预设属性阈值的第一对象,那么剩余的99个对象即为第二对象,此时需要根据该第一对象的特征信息与其余99个第二对象的特征信息,分别计算第一对象与其余99个第二对象之间的地理性质相关性;其中计算量为99次,如果直接计算100个对象之间的特征信息,那么计算量则为(99+98+……+2+1)次,由此可见,先筛选出第一对象能够在极大程度上减少数据计算量,以节省大量计算资源。
本申请实施例中的地理性质相关性指的是对象之间的地理性质的相关程度,其中对象之间的特征信息越相近,则表征对象之间的地理性质的相关程度越高,相应地,对象之间的特征信息越远,则表征对象之间的地理性质的相关程度越低。
在本申请实施例中,步骤S130中根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性的过程,可以包括至少以下四种方式:
方式一,请参阅图4,步骤S130可以包括步骤S1301a至步骤S1302a,详细介绍如下:
步骤S1301a,根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;
步骤S1302a,根据间隔距离,计算第一对象和第二对象之间的地理性质相关性。
本申请实施例中将计算得到的第一对象和第二对象之间的间隔距离称之为第一参数,其中在方式一中,是根据第一参数计算得到第一对象和第二对象之间的地理性质相关性。
在本申请的一个实施例中,可以采用下述公式计算第一对象和第二对象之间的间隔距离:
Figure RE-GDA0003267195870000101
其中,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,Lai为第一对象i 对应的特征信息中包含的经度信息,Laj为第二对象j对应的特征信息中包含的经度信息,Loi为第一对象i对应的特征信息中包含的纬度信息,Loj为第二对象j对应的特征信息中包含的纬度信息。
在本申请的一个实施例中,可以采用下述公式计算第一对象和第二对象之间的地理性质相关性:
Figure RE-GDA0003267195870000102
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为在第一预设时间段内获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数,其中每个时刻对应获取一次第一对象i和第二对象j对应的特征信息。
方式二,请参阅图5,步骤S130可以包括步骤S1301b至步骤S1303b,详细介绍如下:
步骤S1301b,根据预设对象在第二预设时间段内的多个特征信息,计算预设对象在第二预设时间段内的地理性质变化度;其中,地理性质变化度用于表征预设对象在第二预设时间段内的地理性质变动情况,预设对象包括第一对象和第二对象中的至少一个;
步骤S1302b,根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;
步骤S1303b,根据地理性质变化度以及间隔距离,计算第一对象和第二对象之间的地理性质相关性。
本申请实施例中将计算得到的预设对象在第二预设时间段内的地理性质变化度称之为第二参数,其中在方式二中,是根据第一参数以及第二参数计算得到第一对象和第二对象之间的地理性质相关性。应当明确的是,方式二中除了考虑静态参数(即间隔距离)之外,还考虑了动态参数(即地理性质变化度),这样使得计算得到的第一对象和第二对象之间的地理性质相关性更为准确。
举例说明,设第一对象1与第二对象2之间的间隔距离为St12=1000米,第一对象1与第二对象3之间的间隔距离也为St13=1000米,其中第一对象1 与第二对象2在第二预设时间段内都是从重庆到北京,而第三对象3在该第二预设时间段内是从重庆到上海,那么明显地,第一对象1和第二对象2之间的地理性质相关程度相比第一对象1和第二对象3之间的地理性质相关程度更高。
在本申请的一个实施例中,可以采用下述公式计算预设对象在第二预设时间段内的地理性质变化度:
Figure RE-GDA0003267195870000111
其中,σk为预设对象k在第二预设时间段内的地理性质变化度,Lakq为预设对象k对应的特征信息q包含的经度信息,Lak为对预设对象k的多个特征信息中包含的经度信息计算平均值所得到的平均经度信息,Lokq为预设对象k对应的特征信息q包含的纬度信息,Lok为对预设对象k的多个特征信息中包含的纬度信息计算平均值所得到的平均纬度信息,n为在第一预设时间段内获取到的预设对象k的特征信息的第一总数。
可以理解的是,预设对象k包括第一对象i和第二对象j中的至少一个,具体地,预设对象k可以为第一对象i,预设对象k可以为第二对象j,预设对象k可以为第一对象i和第二对象j;同时第一预设时间段可以和第二预设时间段相同或不相同,在实际应用中,可以根据具体应用场景进行灵活调整。
在本申请的一个实施例中,可以采用下述公式计算第一对象和第二对象之间的地理性质相关性:
Figure RE-GDA0003267195870000121
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数,其中每个时刻对应获取一次预设对象k对应的特征信息,σk为预设对象k在第二预设时间段内的地理性质变化度。
可以理解的是,方式二中步骤S1301b和步骤S1302b可以同时执行也可以任意交换顺序执行,同时方式二中步骤S1302b和方式一中步骤S1301a相同,这里不再赘述。
方式三,请参阅图6,步骤S130可以包括步骤S1301c至步骤S1303c,详细介绍如下:
步骤S1301c,记录在第一预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第二总数;
步骤S1302c,根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;
步骤S1303c,根据第二总数以及间隔距离,计算第一对象和第二对象之间的地理性质相关性。
本申请实施例中将记录得到的在第一预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第二总数称之为第三参数,其中在方式三中,是根据第一参数以及第三参数计算得到第一对象和第二对象之间的地理性质相关性。应当明确的是,方式三中除了考虑静态参数(即间隔距离)之外,还考虑了特征信息的采集情况(即第二总数),这样使得计算得到的第一对象和第二对象之间的地理性质相关性更为准确。
举例说明,设第一对象1与第二对象2之间的间隔距离为St12=1000米,第一对象1与第二对象3之间的间隔距离也为St13=1000米,其中在第一预设时间段内采集到的第一对象1和第二对象2的特征信息的第二总数m=8,在该第一预设时间段内采集到第一对象1和第三对象3的特征信息的第二总数为m=5,明显的,采集到的第二对象2的特征信息的数量大于采集到的第三对象3的特征信息的数量,因此可以确定第二对象2的活动更为频繁,那么第一对象1和第二对象2之间的地理性质相关程度相比第一对象1和第二对象3之间的地理性质相关程度更高。
需要说明的是,在第一预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第二总数,和在第一预设时间段内获取到的第一对象的特征信息和第二对象的特征信息的第一总数存在一定区别,其中采集指的是实际采集到的情况,而获取指的是在实际没有采集到的情况下进行补齐的情况,例如实际采集到第一对象1的特征信息为1个,第二对象2的特征信息为0个,那么会对第二对象2的特征信息进行补齐,此时获取到第一对象的特征信息和第二对象的特征信息的第一总数为2个,而采集到的第一对象的特征信息和第二对象的特征信息的第二总数为1个。
在本申请的一个实施例中,可以采用下述公式计算第一对象和第二对象之间的地理性质相关性:
Figure RE-GDA0003267195870000131
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为在第一预设时间段内获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数,m为在第一预设时间段内采集到的第一对象i对应的特征信息和第二对象j对应的特征信息的第二总数。
可以理解的是,方式三中步骤S1301c和步骤S1302c可以同时执行也可以任意交换顺序执行,同时方式三中步骤S1302c和方式一中步骤S1301a相同,这里不再赘述。
方式四,请参阅图7,步骤S130可以包括步骤S1301d至步骤S1304d,详细介绍如下:
步骤S1301d,记录在第三预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第三总数;
步骤S1302d,根据预设对象在第二预设时间段内的多个特征信息,计算预设对象在第二预设时间段内的地理性质变化度;其中,地理性质变化度用于表征预设对象在第二预设时间段内的地理性质变动情况,预设对象包括第一对象和第二对象中的至少一个;
步骤S1303d,根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;
步骤S1304d,根据第三总数、地理性质变化度以及间隔距离,计算第一对象和第二对象之间的地理性质相关性。
本申请实施例中将记录得到的在第三预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第三总数称之为第四参数(第三预设时间段和第一预设时间段可以相同可以不相同,相应地,在第三预设时间段和第一预设时间段相同时,第三总数和第二总数相同,在第三预设时间段和第一预设时间段不相同时,第三总数和第二总数不相同),其中在方式四中,是根据第一参数、第二参数以及第四参数计算得到第一对象和第二对象之间的地理性质相关性。
在本申请的一个实施例中,可以采用下述公式计算第一对象和第二对象之间的地理性质相关性:
Figure RE-GDA0003267195870000141
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为在第一预设时间段内获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数,σk为预设对象 k在第二预设时间段内的地理性质变化度,m为在第三预设时间段内采集到的第一对象i对应的特征信息和第二对象j对应的特征信息的第三总数。
可以理解的是,方式四中步骤S1301d、步骤S1302d以及步骤S1303d可以同时执行也可以任意交换顺序执行,方式四中步骤S1301d和方式三中步骤 S1301c类似,方式四中的步骤S1302d和方式二中步骤S1302b相同,方式四中的步骤S1303d和方式一中步骤S1301a相同,这里不再赘述。
需要说明的是,这里所介绍的是几种计算第一对象和第二对象之间的地理性质相关性的方式,在实际应用中,可以根据具体应用场景进行灵活调整。
步骤S140,根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将目标对象作为已知属性的对象。
本申请实施例中根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性之后,就可以根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,进而该目标对象即为已知属性的对象。
可以理解的是,步骤S130中介绍的几种计算第一对象和第二对象之间的地理性质相关性的方式中,计算得到的地理性质相关性越低,则表征对象之间的地理性质相关程度越高,相应地,计算得到的地理性质相关性越高,则表征对象之间的地理性质相关程度越低。
在本申请的一个实施例中,步骤S140中根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象的过程,可以包括以下步骤:
从第二对象中筛选出与第一对象之间的地理性质相关性值低于预设相关性阈值的第二对象,以将筛选出的第二对象确定为目标对象。
需要说明的是,上述所介绍的数据处理方法也可以不由图1所示数据处理云架构中的云服务器执行,也可以由其他具有逻辑计算能力的设备进行执行,在实际应用中,可以根据具体应用场景进行灵活调整。
本申请实施例中通过获取多个对象的特征信息,并从多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将多个对象中除第一对象以外的其他对象作为未知属性的第二对象,进而根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性,再根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将目标对象作为已知属性的对象,其中特征信息包括用于表征对象地理性质的信息;这样无需再借助于购买数据,丰富了确定已知属性的对象的方式;并且实现了在缺乏购买数据的情况下,也能确定出已知属性的对象,极大地优化了确定已知属性的对象方案,降低了由于缺乏购买数据无法确定出已知属性的对象而给相关工作人员带来的困扰。
以下对本申请实施例的一个具体应用场景进行详细说明;其中,本申请实施例中特征信息以位置信息(相应地,地理性质即为位置)、属性以风险以及对象以用户为例进行详细说明:
请参阅图8,数据处理方法至少可以包括以下步骤,详细介绍如下:
一、数据的搜集和清洗
a)搜集所有用户在特定时间段内,每个时间节点的位置信息;
b)将IP地址、收货地址、LBS地址等位置信息统一转化成LBS的经纬度信息,如下表1所示,以方便后续用户之间的间隔距离的计算;
用户ID 时间 经度 纬度
ID1 2021年05月18日17:47:16 104.06277 30.67299
ID2 2021年05月18日17:47:23 120.16077 30.19099
…… …… …… ……
表1
c)对空置数据进行处理,具体的,可以用前一个时间段的位置数据对缺失位置数据进行补齐。
二、计算位置相关性数据
a)计算每个时间点每两个用户之间的间隔距离:
Figure RE-GDA0003267195870000161
其中Stij表示t这个时刻两个用户之间的间隔距离;Lai表示用户i对应的位置信息中包含的经度信息,Laj表示用户j对应的位置信息中包含的经度信息,Loi表示用户i对应的位置信息中包含的纬度信息,Loj表示用户j对应的位置信息中包含的纬度信息。
可以理解的是,当在t这个时刻获取的两个用户的位置信息数据源一致时,如位置信息数据源都来自IP且该时刻IP一致,或者位置信息数据源都来自收货地址且收货地址一致,则取Stij=0。
b)计算在指定时间段内用户的位置相关性:
Figure RE-GDA0003267195870000171
即在指定时间段内计算得到用户i和用户j之间的n个间隔距离,并同时对距离进行汇总,然后除以总数,得到用户i和用户j之间的位置相关性。
c)对不相同用户相关性的加权标准化
由于每个用户本身的位置变化有大有小,为了平衡不相同行动幅度的用户的位置相似度有可比性,可以增加用户自身位置变动的标准差数据,作为参数加权修正用户的位置相关性。
计算用户位置变化度:
Figure RE-GDA0003267195870000172
其中σk表示用户k在指定时间段内的位置变化度,Lakq表示用户k对应的位置信息q包含的经度信息,Lak表示对用户k在该指定时间段内的多个位置信息中包含的经度信息计算平均值所得到的平均经度信息,Lokq表示用户k对应的位置信息q包含的纬度信息,Lok表示对用户k在该指定时间段内的多个位置信息中包含的纬度信息计算平均值所得到的平均纬度信息, n表示获取到的用户k的位置信息的总数。
进一步地,计算得到用户位置变化度后,再重新计算用户之间的位置相关性:
Figure RE-GDA0003267195870000173
其中步骤c)与步骤b)的区别在于在计算用户之间的位置相关性时利用了σk
三、选取异常用户
计算得到每组用户之间的位置相关性后,按照一定顺序进行排序,数值越高表征两个用户之间的位置的相关程度越低,数值越低表征两个用户的位置的相关程度越高。可以理解的是,如果明确某个用户存在风险(即已知属性的第一对象,也称之为种子用户),则与之对应的位置相关性数值低的用户也相应存在一定风险。
其中针对与种子用户位置相关性数值低的用户,请参阅图9,还可以在地图界面上显示其的位置变动情况,以辅助相关工作人员对这些用户进行排查,以确定是否为具有风险的用户。
本申请实施例中通过根据获取到多个用户的位置信息进行相应计算,从而确定出了已知风险用户,实现了在缺乏购买数据的情况下,也能确定出已知风险用户,在极大程度上优化了确定已知风险用户的方案。
图10是本申请的一个实施例示出的数据处理装置的框图。如图10所示,该装置包括:
获取模块1010,配置为获取多个对象的特征信息;其中,特征信息包括用于表征对象地理性质的信息;
筛选模块1020,配置为从多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将多个对象中除第一对象以外的其他对象作为未知属性的第二对象;
计算模块1030,配置为根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性;
确定模块1040,配置为根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将目标对象作为已知属性的对象。
本申请实施例中通过根据获取到多个对象的特征信息进行相应计算,从而确定出了已知属性的对象,这样无需再借助于购买数据,丰富了确定已知属性的对象的方式;并且实现了在缺乏购买数据的情况下,也能确定出已知属性的对象,极大地优化了确定已知属性的对象方案,降低了由于缺乏购买数据无法确定出已知属性的对象而给相关工作人员带来的困扰。
在本申请的一个实施例中,计算模块1030包括:
第一计算子单元,配置为根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;第二计算子单元,配置为根据间隔距离,计算第一对象和第二对象之间的地理性质相关性。
在本申请的一个实施例中,第一计算子单元可以采用下述公式计算第一对象和第二对象之间的间隔距离:
Figure RE-GDA0003267195870000191
其中,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,Lai为第一对象i 对应的特征信息中包含的经度信息,Laj为第二对象j对应的特征信息中包含的经度信息,Loi为第一对象i对应的特征信息中包含的纬度信息,Loj为第二对象j对应的特征信息中包含的纬度信息。
在本申请的一个实施例中,第二计算子单元可以采用下述公式计算第一对象和第二对象之间的地理性质相关性:
Figure RE-GDA0003267195870000192
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数。
在本申请的一个实施例中,计算模块1030可以包括:
第一记录单元,配置为记录在第一预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第二总数,以根据第二总数以及间隔距离,计算第一对象和第二对象之间的地理性质相关性。
在本申请的一个实施例中,计算模块1030可以包括:
第三计算子单元,配置为根据预设对象在第二预设时间段内的多个特征信息,计算预设对象在第二预设时间段内的地理性质变化度;其中,地理性质变化度用于表征预设对象在第二预设时间段内的地理性质变动情况,预设对象包括第一对象和第二对象中的至少一个;第四计算子单元,配置为根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;第五计算子单元,配置为根据地理性质变化度以及间隔距离,计算第一对象和第二对象之间的地理性质相关性。
在本申请的一个实施例中,第三计算子单元可以采用下述公式计算预设对象在第二预设时间段内的地理性质变化度:
Figure RE-GDA0003267195870000193
其中,σk为预设对象k在第二预设时间段内的地理性质变化度,Lakq为预设对象k对应的特征信息q包含的经度信息,Lak为对预设对象k的多个特征信息中包含的经度信息计算平均值所得到的平均经度信息,Lokq为预设对象k对应的特征信息q包含的纬度信息,Lok为对预设对象k的多个特征信息中包含的纬度信息计算平均值所得到的平均纬度信息,n为获取到的预设对象k的特征信息的第一总数。
在本申请的一个实施例中,第五计算子单元可以采用下述公式计算第一对象和第二对象之间的地理性质相关性:
Figure RE-GDA0003267195870000201
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数,σk为预设对象k在第二预设时间段内的地理性质变化度。
在本申请的一个实施例中,计算模块1030可以包括:
第二记录单元,配置为记录在第三预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第三总数,以根据第三总数、地理性质变化度以及间隔距离,计算第一对象和第二对象之间的地理性质相关性。
在本申请的一个实施例中,获取模块1010包括:
采集单元,配置为采集多个对象针对同一类型的特征信息,以根据第一对象和第二对象同一类型的特征信息,计算第一对象和第二对象之间的地理性质相关性;其中,特征信息的类型包括互联网协议地址类型、收货地址类型以及基于地理性质的服务地址类型中的至少一种;补齐单元,配置为若未采集到所有对象针对同一类型的特征信息,则对未采集到的对象的特征信息进行补齐,以获取到所有对象针对同一类型的特征信息。
在本申请的一个实施例中,获取模块1010可以包括:
标准化处理单元,配置为根据多个对象的特征信息的类型,对多个对象的特征信息进行统一化处理,以使多个对象的特征信息包括经度信息和纬度信息。
需要说明的是,上述实施例所提供的装置与上述实施例所提供的方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
本申请的实施例还提供了一种电子设备,包括一个或多个处理器和存储装置,其中,存储装置用于存储一个或多个程序,当一个或多个程序被电子设备执行时实现如前的数据处理方法。
图11示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图11示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从储存部分1208加载到随机访问存储器(Random Access Memory, RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、 ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output, I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的储存部分1208;以及包括诸如LAN(Local AreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1212,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入储存部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1212被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不相同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的数据处理方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各个实施例中提供的数据处理方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (15)

1.一种数据处理方法,其特征在于,所述方法包括:
获取多个对象的特征信息;其中,所述特征信息包括用于表征对象地理性质的信息;
从所述多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将所述多个对象中除所述第一对象以外的其他对象作为未知属性的第二对象;
根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性;
根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将所述目标对象作为已知属性的对象。
2.如权利要求1所述的方法,其特征在于,所述根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性,包括:
根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;
根据所述间隔距离,计算第一对象和第二对象之间的地理性质相关性。
3.如权利要求2所述的方法,其特征在于,采用下述公式计算第一对象和第二对象之间的间隔距离:
Figure FDA0003241917020000011
其中,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,Lai为第一对象i对应的特征信息中包含的经度信息,Laj为第二对象j对应的特征信息中包含的经度信息,Loi为第一对象i对应的特征信息中包含的纬度信息,Loj为第二对象j对应的特征信息中包含的纬度信息。
4.如权利要求2所述的方法,其特征在于,采用下述公式计算第一对象和第二对象之间的地理性质相关性:
Figure FDA0003241917020000012
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数。
5.如权利要求2所述的方法,其特征在于,所述方法还包括:
记录在第一预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第二总数,以根据所述第二总数以及所述间隔距离,计算第一对象和第二对象之间的地理性质相关性。
6.如权利要求1所述的方法,其特征在于,所述根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性,包括:
根据预设对象在第二预设时间段内的多个特征信息,计算所述预设对象在所述第二预设时间段内的地理性质变化度;其中,所述地理性质变化度用于表征所述预设对象在所述第二预设时间段内的地理性质变动情况,所述预设对象包括第一对象和第二对象中的至少一个;
根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的间隔距离;
根据所述地理性质变化度以及所述间隔距离,计算第一对象和第二对象之间的地理性质相关性。
7.如权利要求6所述的方法,其特征在于,采用下述公式计算所述预设对象在所述第二预设时间段内的地理性质变化度:
Figure FDA0003241917020000021
其中,σk为预设对象k在所述第二预设时间段内的地理性质变化度,Lakq为所述预设对象k对应的特征信息q包含的经度信息,Lak为对所述预设对象k的多个特征信息中包含的经度信息计算平均值所得到的平均经度信息,Lokq为所述预设对象k对应的特征信息q包含的纬度信息,Lok为对所述预设对象k的多个特征信息中包含的纬度信息计算平均值所得到的平均纬度信息,n为获取到的所述预设对象k的特征信息的第一总数。
8.如权利要求6所述的方法,其特征在于,采用下述公式计算所述第一对象和所述第二对象之间的地理性质相关性:
Figure FDA0003241917020000031
其中,Sij为第一对象i和第二对象j之间的地理性质相关性,Stij为第一对象i和第二对象j之间的间隔距离,t为获取第一对象i对应的特征信息和第二对象j对应的特征信息的时刻,n为获取到的第一对象i对应的特征信息和第二对象j对应的特征信息的第一总数,σk为预设对象k在所述第二预设时间段内的地理性质变化度。
9.如权利要求6所述的方法,其特征在于,所述方法还包括:
记录在第三预设时间段内采集到的第一对象的特征信息和第二对象的特征信息的第三总数,以根据所述第三总数、所述地理性质变化度以及所述间隔距离,计算第一对象和第二对象之间的地理性质相关性。
10.如权利要求1-9中任一项所述的方法,其特征在于,所述获取多个对象的特征信息,包括:
采集多个对象针对同一类型的特征信息,以根据第一对象和第二对象同一类型的特征信息,计算第一对象和第二对象之间的地理性质相关性;其中,特征信息的类型包括互联网协议地址类型、收货地址类型以及基于地理性质的服务地址类型中的至少一种;
若未采集到所有对象针对同一类型的特征信息,则对未采集到的对象的特征信息进行补齐,以获取到所有对象针对同一类型的特征信息。
11.如权利要求10所述的方法,其特征在于,在所述对未采集到的对象的特征信息进行补齐之后,所述方法还包括:
根据多个对象的特征信息的类型,对所述多个对象的特征信息进行标准化处理,以使所述多个对象的特征信息包括经度信息和纬度信息。
12.一种数据处理装置,其特征在于,所述装置包括:
获取模块,配置为获取多个对象的特征信息;其中,所述特征信息包括用于表征对象地理性质的信息;
筛选模块,配置为从所述多个对象中筛选出属性值大于或等于预设属性阈值的对象作为已知属性的第一对象,以及将所述多个对象中除所述第一对象以外的其他对象作为未知属性的第二对象;
计算模块,配置为根据第一对象的特征信息和第二对象的特征信息,计算第一对象和第二对象之间的地理性质相关性;
确定模块,配置为根据第一对象和第二对象之间的地理性质相关性,从第二对象中确定目标对象,以将所述目标对象作为已知属性的对象。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述电子设备执行时,使得所述电子设备实现如权利要求1-11中任一项所述的数据处理方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的数据处理方法。
15.一种计算机程序产品,包括计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1-11中任一项所述的数据处理方法。
CN202111024684.5A 2021-09-01 2021-09-01 数据处理方法及装置、电子设备、计算机可读存储介质 Pending CN115729974A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111024684.5A CN115729974A (zh) 2021-09-01 2021-09-01 数据处理方法及装置、电子设备、计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111024684.5A CN115729974A (zh) 2021-09-01 2021-09-01 数据处理方法及装置、电子设备、计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115729974A true CN115729974A (zh) 2023-03-03

Family

ID=85292285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111024684.5A Pending CN115729974A (zh) 2021-09-01 2021-09-01 数据处理方法及装置、电子设备、计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115729974A (zh)

Similar Documents

Publication Publication Date Title
CN109299348B (zh) 一种数据查询方法、装置、电子设备及存储介质
CN110300084B (zh) 基于ip地址的画像方法和装置,电子设备,可读介质
CN103164416A (zh) 一种用户关系的识别方法及设备
CN110708212B (zh) 分布式系统中调用链路的追踪方法及装置
CN112800095A (zh) 一种数据处理方法、装置、设备及存储介质
WO2020052312A1 (zh) 一种定位方法、装置、电子设备及可读存储介质
CN110414259B (zh) 一种构建数据类目、实现数据共享的方法及设备
CN111428978A (zh) 一种补贴计算方法、装置、电子设备及存储介质
CN111061740A (zh) 一种数据同步方法、设备和存储介质
CN112084179A (zh) 一种数据处理的方法、装置、设备及存储介质
CN110245014B (zh) 数据处理方法和装置
CN113849702A (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN109561212B (zh) 一种发布信息的合并方法、装置、设备和存储介质
CN115729974A (zh) 数据处理方法及装置、电子设备、计算机可读存储介质
CN113688133B (zh) 基于合规计算的数据处理方法、系统、装置、介质及设备
US11816109B2 (en) Data provision method in a data utilization system
CN114115796A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN113836428A (zh) 业务推送方法、装置、计算机设备和存储介质
CN113485890A (zh) 航班查询系统业务监控方法、装置、设备及存储介质
CN111222048A (zh) 用户数量的查询计算方法、装置、电子设备、及存储介质
CN111552715A (zh) 用户查询方法和装置
CN117591025B (zh) 多源异构数据处理系统
CN111832304B (zh) 楼盘名称的查重方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication