CN113704640B - 用户常驻地址的预测方法、装置、电子设备及存储介质 - Google Patents

用户常驻地址的预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113704640B
CN113704640B CN202110910542.2A CN202110910542A CN113704640B CN 113704640 B CN113704640 B CN 113704640B CN 202110910542 A CN202110910542 A CN 202110910542A CN 113704640 B CN113704640 B CN 113704640B
Authority
CN
China
Prior art keywords
identifier
predicted
characteristic
sample
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110910542.2A
Other languages
English (en)
Other versions
CN113704640A (zh
Inventor
苏照杰
刘家骅
胡懋地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202110910542.2A priority Critical patent/CN113704640B/zh
Publication of CN113704640A publication Critical patent/CN113704640A/zh
Application granted granted Critical
Publication of CN113704640B publication Critical patent/CN113704640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种用户常驻地址的预测方法、装置、电子设备及存储介质,该方法包括:获取至少一个用户标识对应的待预测位置,并获取第一统计特征,确定第一统计特征的第一标识;分别对第一标识进行加密,得到第一加密集合;接收其他联合预测平台发送的第二加密集合;确定两个加密集合的交集,生成交集中每条数据对应的新的标识,将第二加密标识和新的特征标识的对应关系发送至其他联合预测平台;通过第一底层子模型对新的特征标识对应的第一统计特征进行处理,得到第一向量,接收其他联合预测平台发送的新的特征标识对应的第二向量;通过上层模型对第一向量和第二向量进行常驻地址的预测,得到常驻地址预测结果。本公开可以提高预测准确性。

Description

用户常驻地址的预测方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及互联网技术领域,特别是涉及一种用户常驻地址的预测方法、装置、电子设备及存储介质。
背景技术
外卖业务在向场景化推荐方向发展,工作地、居住地等常驻地址是用户最主要的外卖场景,对用户常驻地址的精准刻画对外卖业务非常重要。
现有技术中,在预测用户常驻地址时,主要通过位置轨迹数据找出和用户关联的位置,然后基于用户在该位置的定位数据产出统计特征,将统计特征输入模型,通过模型判断该位置是否为常驻地址。
现有技术对常驻地址的挖掘方案主要基于单一平台的用户位置轨迹信息,由于单一平台积累的大部分用户位置轨迹数据非常稀疏,而且由于隐私保护无法引入其他平台的数据,导致常驻地址预测的准确性较低。
发明内容
本申请实施例提供一种用户常驻地址的预测方法、装置、电子设备及存储介质,有助于在隐私保护要求下提高常驻地址预测的准确性,提升用户体验。
为了解决上述问题,第一方面,本申请实施例提供了一种用户常驻地址的预测方法,包括:
获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
第二方面,本申请实施例提供了一种用户常驻地址的预测装置,包括:
数据获取模块,用于获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
标识加密模块,用于采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
标识集合接收模块,用于接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
交集确定模块,用于确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
底层处理模块,用于根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
常驻地址预测模块,用于通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的用户常驻地址的预测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请实施例公开的用户常驻地址的预测方法的步骤。
本申请实施例提供的用户常驻地址的预测方法、装置、电子设备及存储介质,通过获取到至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将用户标识和待预测位置确定为第一统计特征的第一特征标识,得到第一特征标识集合,采用不可逆加密算法对第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合,接收其他联合预测平台发送的第二加密特征标识集合,第二加密特征标识集合中的第二加密特征标识是采用相同的不可逆加密算法加密得到,确定第一加密特征标识集合与第二加密特征标识集合的交集,生成交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,并将第二加密特征标识和新的特征标识的第二对应关系发送至其他联合预测平台,根据新的特征标识和第一对应关系,通过第一底层子模型对对应的第一统计特征进行处理得到第一向量,同时其他联合预测平台对相同的新的特征标识对应的第二统计特征进行处理得到第二向量,当前预测平台通过上层模型对第一向量和第二向量进行常驻地址的预测,得到交集中的用户标识和待预测位置对应的常驻地址预测结果,实现了当前预测平台和其他联合预测平台分别使用各自相同用户标识和待预测位置的数据进行联合预测,预测过程中不传输具体的特征数据,只需对采用不可逆加密算法加密后的特征标识进行比对确定交集,无法获知交集以外的数据的真实标识,满足了隐私保护要求,同时联合了多个预测平台的数据进行预测,可以弥补单一平台位置数据的不足,从而可以提高预测结果的准确性,提升用户体验。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的用户常驻地址的预测方法的流程图;
图2是本申请实施例中的待预测位置附近区域的经纬度编码的示意图;
图3是本申请实施例中的常驻地址的预测模型联合训练和联合预测的架构图;
图4是本申请实施例二的用户常驻地址的预测装置的结构示意图;
图5是本申请实施例三的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例提供的一种用户常驻地址的预测方法,如图1所示,该方法包括:步骤110至步骤160。
步骤110,获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合。
本申请实施例提供的用户常驻地址的预测方法可以基于预设的触发时间触发执行,例如每隔一个月触发一次,或者每隔一周触发一次,或者,还可以基于其他的触发条件触发执行。在进行用户常驻地址的预测时,一般是对一定时间段内的所有用户的位置数据进行预测,以确定至少一个用户和位置数据的常驻地址预测结果。常驻地址可以包括居住地址和工作地址等。
在进行用户常驻地址的预测时,首先获取至少一个用户标识对应的待预测位置,一个用户标识可以对应多个待预测位置,每个待预测位置可以是一个区域,也可以是具体的地理位置。对于与每个用户标识对应的每个待预测位置,分别基于一定时间段内的位置数据确定对应的统计特征,作为第一统计特征,并将与第一统计特征对应的用户标识和待预测位置确定为该第一统计特征的第一特征标识,对于至少一个用户标识对应的待预测位置,可以得到至少一个第一特征标识,从而得到至少一个第一特征标识组成的第一特征标识集合。
在本申请的一个实施例中,获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,包括:根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置;根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征。
其中,所述预设时间段是预先设置的用于确定统计特征的时间段,例如可以是过去半年内或者过去一个月内等。
用户终端每隔预设间隔上报一次位置数据,每上报一次位置数据可以称为一次打点,可以将所述预设时间段内一个用户标识对应的位置数据中属于同一个位置区域的位置数据进行统计,得到每个位置区域的位置数据出现频次,基于出现频次可以选取出现频次最高的预设数量的位置区域作为一个用户标识对应的待预测位置,对于至少一个用户标识中的每个用户标识分别进行这样的处理,得到至少一个用户标识对应的待预测位置。其中,所述待预测位置为用户常驻地址的候选位置。
对于每个用户标识对应的位置数据,分别对该用户标识对应的待预测位置进行特征的统计,例如可以分为工作日和非工作日分别进行统计,并在一天中可以分为多个时间段分别统计待预测位置出现的频次,将工作日中待预测位置在多个时间段出现的频次和非工作日中待预测位置在多个时间段出现的频次作为该用户标识在待预测位置下的第一统计特征。对于每个用户标识对应的每个待预测位置分别进行上述特征的统计,得到与至少一个用户标识和待预测位置对应的第一统计特征。
通过基于预设时间段内至少一个用户标识对应的位置数据来确定待预测位置,可以获取到较为准确的作为常驻地址的候选位置。
在本申请的一个实施例中,根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置,包括:分别对所述至少一个用户标识对应的位置数据进行经纬度编码;确定每个用户标识对应的每个经纬度编码的出现频次,并将出现频次最高的预设数量的经纬度编码确定为用户标识对应的待预测位置,得到所述至少一个用户标识对应的待预测位置。
其中,所述经纬度编码可以采用GeoHash进行编码。GeoHash是一种地址编码方法,能够把二维的空间经纬度数据编码成一个字符串。
对于每个用户标识对应的位置数据分别进行经纬度编码,可以进行7位的GeoHash编码,采用7位的GeoHash编码一般可以精确到小区级别,如果想获得更加精确的编码数据,也可以采用8位的GeoHash编码,通过进行经纬度编码得到每个位置数据对应的经纬度编码。对于一个用户标识,统计该用户标识下的每个经纬度编码的出现频次,可以按照出现频次由高到低的顺序对经纬度编码进行排序,选取排序靠前的预设数量的经纬度编码,并使用选取的经纬度编码来标识该用户标识对应的待预测位置,即将出现频次最高的预设数量的经纬度编码确定为用户标识对应的待预测位置,在一个用户标识对应的经纬度编码的数量不足预设数量时,将所有的经纬度编码确定为该用户标识对应的待预测位置。对于每个用户标识分别进行待预测位置的确定,得到至少一个用户标识对应的待预测位置,每个用户标识对应的待预测位置的数量最多为预设数量。其中,所述预设数量例如可以为10。
通过对位置数据进行经纬度编码来确定用户标识对应的待预测位置,可以获取到较为精确的用于预测常驻地址的候选位置。
在本申请的一个实施例中,根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征,包括:根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据;将所述待预测位置和所述待预测位置的经纬度编码的相邻编码确定为所述待预测位置的附近区域;根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据;根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征。
其中,所述多个时间段是一天内的多个时间段,例如将每个小时作为一个时间段,一天内可以有24个时间段,或者将两个小时作为一个时间段,一天内可以有12个时间段。
在基于位置数据的经纬度编码确定用户标识对应的待预测位置后,对于一个用户标识对应的每个待预测位置,可以将该待预测位置和该待预测位置的经纬度编码的相邻编码确定为待预测位置的附近区域,如图2所示,中心位置为待预测位置的经纬度编码,周围相邻的8个经纬度编码和该待预测位置共同组成该待预测位置的附近区域。
对于一个用户标识对应的一个待预测位置,首先统计在所述预设时间段内的每一天分别按照多个时间段进行统计,如果在一天内的一个时间段内有该待预测位置对应的位置数据,则可以记为1,在一天内的一个时间段内没有该待预测位置对应的位置数据,则可以记为0,从而得到每一天的定位分布数据。这样记录是因为用户的位置数据是比较稀疏的,在一个时间段内用户的定位服务开启时可以获取到多个位置数据,如果用户的定位服务没有开启就无法获取到位置数据,所以在一个时间段内如果有多个待预测位置对应的位置数据只需记录1即可表明该时间段内用户在该待预测位置出现过。
在统计到预设时间段内每一天的定位分布数据后,可以将预设时间段内的每一天分为工作日和非工作日分布进行统计,即将预设时间段内属于工作日的每一天的定位分布数据按照多个时间段分别进行累加得到在工作日内多个时间段内的定位分布数据,并将预设时间段内属于非工作日的每一天的定位分别数据按照多个时间段分别进行累加得到在非工作日内多个时间段内的定位分布数据。例如,将一个小时作为一个时间段,一天内待预测位置的定位分布数据为24维的向量,对于一个用户标识对应的一个待预测位置按照工作日和非工作日可以得到48维的向量。
对于一个用户标识对应的一个待预测位置,还需要统计包括该待预测位置的附近区域在工作日和非工作日的定位分布数据,同样上述待预测位置的定位分布数据的统计方式进行统计。例如,将一个小时作为一个时间段时,一天内一个待预测位置对应的附近区域的定位分布数据为24维的向量,按照工作日和非工作日一个附近区域可以得到48维的向量。
对于一个用户标识对应的一个待预测位置,对待预测位置在工作日的定位分布数据和非工作日的定位分布数据、以及包括待预测位置的附近区域在工作日的定位分布数据和非工作日的定位分布数据进行拼接,得到与用户标识和待预测位置对应的第一统计特征。例如,将一个小时作为一个时间段时,第一统计特征为96维的向量。
在确定与用户标识和待预测位置对应的第一统计特征时,同时对待预测位置的特征进行统计以及对附近区域的特征进行统计,以统计到更加准确的特征,可以弥补定位数据稀疏的缺陷。
在一种可选的实施方式中,根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征,包括:对在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的中心位置特征;对同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的附近位置特征;将所述中心位置特征和附近位置特征拼接为与用户标识和待预测位置对应的第一统计特征。
对于一个用户标识下的一个待预测位置,将工作日多个时间段内的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在工作日的中心位置特征,将非工作日多个时间段内的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在非工作日的中心位置特征;对于一个用户标识下的一个待预测位置,将该待预测位置的附近区域在工作日内多个时间段的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在工作日的附近位置特征,将该待预测位置的附近区域在非工作日内多个时间段的定位分布数据进行归一化处理,得到在同一用户标识下所述待预测位置在非工作日的附近位置特征;将中心位置特征和附近位置特征进行拼接,得到与用户标识和待预测位置对应的第一统计特征。其中,所述归一化处理可以采用min-max归一化方式,min=0,max=统计天数*24,统计天数对于工作日和非工作日是不同的,具体是各自对应的总天数。
通过对定位分布数据进行归一化处理,使得位置特征中的每个值均位于0和1之间,可以使得工作日和非工作日的特征具有可比性,便于后续的处理。
步骤120,采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合。
其中,所述不可逆加密算法可以为sha256、MD5等算法。
采用不可逆加密算法对第一特征标识集合中的每一个第一特征标识分别进行加密,得到每一个第一特征标识对应的第一加密特征标识,所有的第一加密特征标识组成第一加密特征标识集合。采用不可逆加密算法可以保证在后续确定交集时无法获取到其他联合预测平台的第二特征标识,以符合隐私保护要求。
步骤130,接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到。
本申请实施例提供的用户常驻地址的预测方法由当前预测平台执行,在执行过程中与其他联合预测平台进行联合预测。其他联合预测平台对于与用户标识对应的待预测位置的确定采用上述当前预测平台确定至少一个用户标识对应的待预测位置的方式进行确定,对于与用户标识和待预测位置对应的第二统计特征的获取方式与上述第一统计特征的获取方式相同,这里均不再赘述。
其他联合预测平台在获取到与用户标识和待预测位置对应的第二统计特征后,将对应的用户标识和待预测位置确定为该第二统计特征的第二特征标识,并采用与当前预测平台相同的不可逆加密算法对第二特征标识进行加密得到第二加密特征标识,多个第二加密特征标识组成第二加密特征标识集合,将第二加密特征标识集合发送至当前预测平台。当前预测平台接收其他联合预测平台发送的第二加密特征标识集合,并进行后续的数据对齐以获取交集。
步骤140,确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台。
将所述第一加密特征标识集合与第二加密特征标识集合进行匹配,匹配成功的数据为第一加密特征标识集合与第二加密特征标识集合共有的数据,即第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成交集中每一条数据对应的新的特征标识。表1是第一加密特征标识集合与所述第二加密特征标识集合的交集和对应的新的特征标识,如表1所示,表中每一行表示一条交集数据,new_id表示新的特征标识,encrypt表示采用不可逆加密算法进行加密,A表示当前预测平台,B表示其他联合预测平台。
表1特征标识映射关系
new_id 当前预测平台 其他联合预测平台
1 encrypt(idA_i1) encrypt(idB_j1)
2 encrypt(idA_i2) encrypt(idB_j2)
3 encrypt(idA_i3) encrypt(idB_j3)
在得到表1所示的特征表示映射关系后,可以将该特征标识映射关系拆分为第一加密特征标识和新的特征标识的第一对应关系,以及第二加密特征标识和新的特征标识的第二对应关系,当前预测平台保存第一对应关系,将第二对应关系发送至所述其他联合预测平台,其他联合预测平台可以基于第二对应关系获取对应的数据进行处理。
由于第一加密特征标识和第二加密特征标识均采用了不可逆加密算法进行加密,对于其他联合预测平台中非交集中的第二加密特征标识当前预测平台无法得到真实的第二特征标识,符合了隐私保护要求。
在本申请的一个实施例中,确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,包括:将所述第一加密特征标识集合与所述第二加密特征标识集合进行数据碰撞,得到所述第一加密特征标识集合与所述第二加密特征标识集合的交集。
在确定第一加密特征标识集合与所述第二加密特征标识集合的交集时,可以采用数据碰撞的方式来确定,这样可以快速地得到第一加密特征标识集合与所述第二加密特征标识集合的交集,提高处理效率。
步骤150,根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的。
进行用户常驻地址预测的预测模型可以包括当前预测平台的第一底层子模型、其他联合预测平台的第二底层子模型以及当前预测平台的上层模型,同当前预测平台与其他联合预测平台进行联合预测。
按照新的特征标识的顺序,分别对每一个新的特征标识对应的数据进行处理,即根据新的特征标识和第一对应关系,确定要处理的第一加密特征标识,进而根据第一加密特征标识得到第一特征标识,根据第一特征标识获取到对应的第一统计特征,将第一统计特征输入第一底层子模型,通过第一底层子模型对该第一统计特征进行处理,得到第一向量。与此同时,其他联合预测平台也根据相同的新的特征标识获取到对应的第二加密特征标识,并根据第二加密特征标识得到第二特征标识,进而根据第二特征标识获取到对应的第二统计特征,将第二统计特征输入第二底层子模型,通过第二底层子模型对第二统计特征进行处理,得到第二向量,将第二向量发送至当前预测平台,当前预测平台接收到其他联合预测平台发送的新的特征标识对应的第二向量。
步骤160,通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
对于一个新的特征标识得到第一向量和第二向量后,可以将该第一向量和第二向量输入上层模型,通过上层模型对第一向量和第二向量进行常驻地址的预测,得到新的特征标识对应的常驻地址预测结果,基于第一对应关系,可以得到该新的特征标识对应的第一加密特征标识,进而得到第一特征标识,由于第一特征标识包括用户标识和待预测位置,从而得到用户标识和待预测位置,这样就得到了与交集中的用户标识和待预测位置对应的常驻地址预测结果。对于交集中的每一个新的特征标识对应的数据均进行上述的预测处理,得到交集中每一个新的特征标识对应的常驻地址预测结果。其中,所述常驻地址预测结果可以是工作地、居住地或者非工作地非居住地。
本申请实施例提供的用户常驻地址的预测方法,通过获取到至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将用户标识和待预测位置确定为第一统计特征的第一特征标识,得到第一特征标识集合,采用不可逆加密算法对第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合,接收其他联合预测平台发送的第二加密特征标识集合,第二加密特征标识集合中的第二加密特征标识是采用相同的不可逆加密算法加密得到,确定第一加密特征标识集合与第二加密特征标识集合的交集,生成交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,并将第二加密特征标识和新的特征标识的第二对应关系发送至其他联合预测平台,根据新的特征标识和第一对应关系,通过第一底层子模型对对应的第一统计特征进行处理得到第一向量,同时其他联合预测平台对相同的新的特征标识对应的第二统计特征进行处理得到第二向量,当前预测平台通过上层模型对第一向量和第二向量进行常驻地址的预测,得到交集中的用户标识和待预测位置对应的常驻地址预测结果,实现了当前预测平台和其他联合预测平台分别使用各自相同用户标识和待预测位置的数据进行联合预测,预测过程中不传输具体的特征数据,只需对采用不可逆加密算法加密后的特征标识进行比对确定交集,无法获知交集以外的数据的真实标识,满足了隐私保护要求,同时联合了多个预测平台的数据进行预测,可以弥补单一平台位置数据的不足,从而可以提高预测结果的准确性。
在上述技术方案的基础上,所述方法还包括:
获取第一样本数据集合,所述第一样本数据集合中的第一样本数据包括第一特征标识样本、第一统计特征样本和标注数据;
采用所述不可逆加密算法对第一样本数据集合中的第一特征标识样本进行加密,得到第一标识样本集合;
接收所述其他联合预测平台发送的第二标识样本集合,所述第二标识样本集合为所述其他联合预测平台采用所述不可逆加密算法对第二样本数据集合中第二特征标识样本进行加密得到;
确定所述第一标识样本集合与所述第二标识样本集合的交集,并生成该交集中每一条数据对应的新的标识样本,建立第一标识样本与新的标识样本的对应关系,作为第一对应关系样本,建立第二标识样本与新的标识样本的对应关系,作为第二对应关系样本,将第二对应关系样本发送至所述其他联合预测平台;
根据所述新的标识样本和所述第一对应关系样本,从所述第一样本数据集合中获取与所述新的标识样本对应的第一统计特征样本,并通过第一底层子模型对所述第一统计特征样本进行处理,得到第一向量样本,接收所述其他联合预测平台发送的所述新的标识样本对应的第二向量样本,所述第二向量样本是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征样本进行处理得到的;
通过上层模型对所述第一向量样本和第二向量样本进行常驻地址的预测,得到新的标识样本对应的常驻地址预测结果;
确定所述新的标识样本对应的常驻地址预测结果与标注数据的误差;
根据所述误差进行反向传播,更新所述第一底层子模型、第二底层子模型和上层模型的网络参数,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
对常驻地址的预测模型进行训练时,即对第一底层子模型、第二底层子模型和上层模型进行训练时,也是基于当前预测平台和其他联合预测平台进行联合训练,训练过程中只传输数据样本中加密后的样本标识,不传输具体的数据,从而满足隐私保护要求。
第一样本数据集合的获取方式和上述的第一统计特征的获取方式相同,这里不再赘述,数据表中从用户注册的居住地和工作地等常驻地址中提取,对于同时预测居住地和工作地的预测模型可以为三分类模型,从而对于居住地的中心位置所对应的经纬度编码可以标记为居住地位置,标注可以为1,对于工作地的中心位置所对应的经纬度编码可以标记为工作地位置,标注可以为2,其他位置多对应的经纬度编码可以标记为非居住地非工作地,标注可以为3。其他联合预测平台也采用相同的方式准备第二样本数据集合,第二样本数据集合中的每一条第二样本数据包括第二特征标识样本和第二统计特征样本,不包含标注数据。
在获取到第一样本数据集合后,采用不可逆加密算法对第一样本数据集合中的第一特征标识样本进行加密,得到加密后的第一特征标识样本,将加密后的第一特征标识样本作为第一标识样本,从而得到第一标识样本集合。同时其他联合预测平台采用相同的不可逆加密算法对第二样本数据集合中的第二特征标识样本进行加密,得到第二标识样本集合,并将第二标识样本集合发送至当前预测平台。当前预测平台接收到其他联合预测平台发送的第二标识样本集合。
当前预测平台对第一标识样本集合和第二标识样本集合中的数据进行数据对齐,可以通过数据碰撞的方式确定第一标识样本集合和第二标识样本集合的交集,生成交集中每一条数据对应的新的标识样本,建立第一标识样本与新的标识样本的对应关系,将该对应关系作为第一对应关系样本,建立第二标识样本与新的标识样本的对应关系,将该对应关系作为第二对应关系样本,将第二对应关系样本发送至其他联合预测平台。后续基于数据对齐的结果进行联合训练。
当前预测平台根据新的标识样本和第一对应关系样本,每次可以选取预设数量的新的标识样本参与一个批次的训练,即将新的标识样本对应的第一统计特征样本输入第一底层子模型,得到第一向量样本;同时其他联合预测平台根据新的标识样本和第二对应关系样本选取相同新的标识样本的数据参与该批次的训练,将相同的新的标识样本对应的第二统计特征输入第二底层子模型,得到第二向量样本,并将第二向量样本发送至当前预测平台,当前预测平台接收到其他联合预测平台发送的第二向量样本。
当前预测平台通过上层模型对第一向量样本和第二向量样本进行常驻地址的预测,得到新的标识样本对应的常驻地址预测结果。确定新的标识样本对应的第一特征标识样本,获取第一特征标识样本对应的标注数据,确定常驻地址预测结果与标注数据的损失值,根据损失值进行反向传播,更新上层模型的网络参数,上层模型的网络参数更新完毕后,确定第一底层子模型的更新参数以及第二底层子模型的更新参数,将第二底层子模型的更新参数发送至其他联合预测平台,当前预测平台基于第一底层子模型的更新参数进行反向传播更新第一底层子模型的网络参数,其他联合预测平台基于第二底层子模型的更新参数进行反向传播更新第二底层子模型的网络参数,完成一个批次的训练,迭代执行上述的训练过程,直至满足训练结束条件,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
在训练过程中,其他联合预测平台将加密后得到的第二标识样本集合发送至当前预测平台,当前预测平台确定第一标识样本集合与第二标识样本集合的交集,由于两个标识样本集合均采用相同的不可逆加密算法进行加密得到,对于交集以外的标识样本无法获取到真实的标识样本,从而满足了隐私保护要求,同时在训练过程中,当前预测平台只需将当前预测平台中的第一统计特征样本输入当前预测平台中的第一底层子模型,其他联合预测平台将相同的新的标识样本对应的第二统计特征样本输入到其他联合预测平台中的第二底层子模型,两个预测平台之间相互不传输真实的统计特征,只需传输中间的计算结果,从而实现了在满足隐私保护要求下的联合训练。
图3是本申请实施例中的常驻地址的预测模型联合训练和联合预测的架构图,如图3所示,当前预测平台和其他联合预测平台分别处理各自的位置数据,得到各自的统计特征以及对应的特征标识,分别对各自的特征标识采用相同的不可逆加密算法进行加密,得到各自的加密特征标识集合,当前预测平台得到第一加密特征标识集合,其他联合预测平台得到第二加密特征标识集合,并将得到的第二加密特征标识集合发送至当前预测平台,当前预测平台对两个加密特征标识集合进行数据对齐,得到两个集合的交集,生成新的特征标识,保存新的特征标识与第一加密特征标识的第一对应关系,并将新的特征标识与第二加密特征标识的第二对应关系发送至其他联合预测平台,数据预测阶段,当前预测平台和其他联合预测平台使用相同的新的特征标识对应的统计特征分别使用各自的底层子模型进行处理,当前预测平台得到第一向量,其他联合预测平台得到第二向量,其他联合预测平台将第二向量发送至当前预测平台,当前预测平台将第一向量和第二向量输入上层模型,通过上层模型进行常驻地址的预测,得到常驻地址预测结果。图3中的实线表示前向处理过程,虚线表示反向传播更新网络参数的过程。在训练过程中,基于预测结果与标注数据的损失值进行反向传播更新上层模型的参数,并确定第一底层子模型和第二底层子模型的更新参数,基于第一底层子模型的更新参数更新第一底层子模型的网络参数,并将第二底层子模型的更新参数发送至其他联合预测平台,其他联合预测平台基于第二底层子模型的更新参数对第二底层子模型的网络参数进行调整,迭代执行训练过程,直至满足训练结束条件,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
在数据传输过程中,只传输加密的特征标识和处理的中间结果,不传输真实的位置数据和特征数据,多个预测平台分别对各自的数据进行底层的处理,从而满足了隐私保护要求,而且可以联合多个预测平台的位置数据,弥补了单一平台位置数据的不足,可以提高常驻地址预测结果的准确性。
实施例二
本实施例提供的一种用户常驻地址的预测装置,如图4所示,所述用户常驻地址的预测装置400包括:
数据获取模块410,用于获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
标识加密模块420,用于采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
标识集合接收模块330,用于接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
交集确定模块440,用于确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
底层处理模块450,用于根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
常驻地址预测模块460,用于通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
可选的,所述数据获取模块包括:
待预测位置确定单元,用于根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置;
统计特征确定单元,用于根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征。
可选的,所述待预测位置确定单元具体用于:
分别对所述至少一个用户标识对应的位置数据进行经纬度编码;
确定每个用户标识对应的每个经纬度编码的出现频次,并将出现频次最高的预设数量的经纬度编码确定为用户标识对应的待预测位置,得到所述至少一个用户标识对应的待预测位置。
可选的,所述统计特征确定单元包括:
第一定位分布统计子单元,用于根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据;
附近区域确定子单元,用于将所述待预测位置和所述待预测位置的经纬度编码的相邻编码确定为所述待预测位置的附近区域;
第二定位分布统计子单元,用于根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据;
统计特征确定子单元,用于根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征。
可选的,所述统计特征确定子单元具体用于:
对在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的中心位置特征;
对同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的附近位置特征;
将所述中心位置特征和附近位置特征拼接为与用户标识和待预测位置对应的第一统计特征。
可选的,所述交集确定模块包括:
交集确定单元,用于将所述第一加密特征标识集合与所述第二加密特征标识集合进行数据碰撞,得到所述第一加密特征标识集合与所述第二加密特征标识集合的交集。
可选的,所述装置还包括:
样本数据获取模块,用于获取第一样本数据集合,所述第一样本数据集合中的第一样本数据包括第一特征标识样本、第一统计特征样本和标注数据;
标识样本加密模块,用于采用所述不可逆加密算法对第一样本数据集合中的第一特征标识样本进行加密,得到第一标识样本集合;
标识样本接收模块,用于接收所述其他联合预测平台发送的第二标识样本集合,所述第二标识样本集合为所述其他联合预测平台采用所述不可逆加密算法对第二样本数据集合中第二特征标识样本进行加密得到;
样本交集确定模块,用于确定所述第一标识样本集合与所述第二标识样本集合的交集,并生成该交集中每一条数据对应的新的标识样本,建立第一标识样本与新的标识样本的对应关系,作为第一对应关系样本,建立第二标识样本与新的标识样本的对应关系,作为第二对应关系样本,将第二对应关系样本发送至所述其他联合预测平台;
底层训练模块,用于根据所述新的标识样本和所述第一对应关系样本,从所述第一样本数据集合中获取与所述新的标识样本对应的第一统计特征样本,并通过第一底层子模型对所述第一统计特征样本进行处理,得到第一向量样本,接收所述其他联合预测平台发送的所述新的标识样本对应的第二向量样本,所述第二向量样本是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征样本进行处理得到的;
上传模型训练模块,用于通过上层模型对所述第一向量样本和第二向量样本进行常驻地址的预测,得到新的标识样本对应的常驻地址预测结果;
损失值确定模块,用于确定所述新的标识样本对应的常驻地址预测结果与标注数据的损失值;
网络参数调整模块,用于根据所述损失值进行反向传播,更新所述第一底层子模型、第二底层子模型和上层模型的网络参数,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
本申请实施例提供的用户常驻地址的预测装置,用于实现本申请实施例一中所述的用户常驻地址的预测方法的各步骤,装置的各模块的具体实施方式参见相应步骤,此处不再赘述。
本申请实施例提供的用户常驻地址的预测装置,通过获取到至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将用户标识和待预测位置确定为第一统计特征的第一特征标识,得到第一特征标识集合,采用不可逆加密算法对第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合,接收其他联合预测平台发送的第二加密特征标识集合,第二加密特征标识集合中的第二加密特征标识是采用相同的不可逆加密算法加密得到,确定第一加密特征标识集合与第二加密特征标识集合的交集,生成交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,并将第二加密特征标识和新的特征标识的第二对应关系发送至其他联合预测平台,根据新的特征标识和第一对应关系,通过第一底层子模型对对应的第一统计特征进行处理得到第一向量,同时其他联合预测平台对相同的新的特征标识对应的第二统计特征进行处理得到第二向量,当前预测平台通过上层模型对第一向量和第二向量进行常驻地址的预测,得到交集中的用户标识和待预测位置对应的常驻地址预测结果,实现了当前预测平台和其他联合预测平台分别使用各自相同用户标识和待预测位置的数据进行联合预测,预测过程中不传输具体的特征数据,只需对采用不可逆加密算法加密后的特征标识进行比对确定交集,无法获知交集以外的数据的真实标识,满足了隐私保护要求,同时联合了多个预测平台的数据进行预测,可以弥补单一平台位置数据的不足,从而可以提高预测结果的准确性。
实施例三
本申请实施例还提供了一种电子设备,如图5所示,该电子设备500可以包括一个或多个处理器510以及与处理器510连接的一个或多个存储器520。电子设备500还可以包括输入接口530和输出接口540,用于与另一装置或系统进行通信。被处理器510执行的程序代码可存储在存储器520中。
电子设备500中的处理器510调用存储在存储器520的程序代码,以执行上述实施例中的用户常驻地址的预测方法。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的用户常驻地址的预测方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请实施例提供的一种用户常驻地址的预测方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (10)

1.一种用户常驻地址的预测方法,其特征在于,包括:
获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
2.根据权利要求1所述的方法,其特征在于,获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,包括:
根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置;
根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征。
3.根据权利要求2所述的方法,其特征在于,根据预设时间段内至少一个用户标识对应的位置数据,确定所述至少一个用户标识对应的待预测位置,包括:
分别对所述至少一个用户标识对应的位置数据进行经纬度编码;
确定每个用户标识对应的每个经纬度编码的出现频次,并将出现频次最高的预设数量的经纬度编码确定为用户标识对应的待预测位置,得到所述至少一个用户标识对应的待预测位置。
4.根据权利要求2所述的方法,其特征在于,根据所述至少一个用户标识对应的位置数据,对所述待预测位置对应的位置数据进行统计,得到与用户标识和待预测位置对应的第一统计特征,包括:
根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据;
将所述待预测位置和所述待预测位置的经纬度编码的相邻编码确定为所述待预测位置的附近区域;
根据所述至少一个用户标识对应的位置数据,统计在同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据;
根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征。
5.根据权利要求4所述的方法,其特征在于,根据在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据和所述附近区域在工作日和非工作日多个时间段内的定位分布数据,确定与用户标识和待预测位置对应的第一统计特征,包括:
对在同一用户标识下所述待预测位置在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的中心位置特征;
对同一用户标识下所述附近区域在工作日和非工作日多个时间段内的定位分布数据分别进行归一化处理,得到在同一用户标识下所述待预测位置在工作日和非工作日对应的附近位置特征;
将所述中心位置特征和附近位置特征拼接为与用户标识和待预测位置对应的第一统计特征。
6.根据权利要求1所述的方法,其特征在于,确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,包括:
将所述第一加密特征标识集合与所述第二加密特征标识集合进行数据碰撞,得到所述第一加密特征标识集合与所述第二加密特征标识集合的交集。
7.根据权利要求1所述的方法,其特征在于,还包括:
获取第一样本数据集合,所述第一样本数据集合中的第一样本数据包括第一特征标识样本、第一统计特征样本和标注数据;
采用所述不可逆加密算法对第一样本数据集合中的第一特征标识样本进行加密,得到第一标识样本集合;
接收所述其他联合预测平台发送的第二标识样本集合,所述第二标识样本集合为所述其他联合预测平台采用所述不可逆加密算法对第二样本数据集合中第二特征标识样本进行加密得到;
确定所述第一标识样本集合与所述第二标识样本集合的交集,并生成该交集中每一条数据对应的新的标识样本,建立第一标识样本与新的标识样本的对应关系,作为第一对应关系样本,建立第二标识样本与新的标识样本的对应关系,作为第二对应关系样本,将第二对应关系样本发送至所述其他联合预测平台;
根据所述新的标识样本和所述第一对应关系样本,从所述第一样本数据集合中获取与所述新的标识样本对应的第一统计特征样本,并通过第一底层子模型对所述第一统计特征样本进行处理,得到第一向量样本,接收所述其他联合预测平台发送的所述新的标识样本对应的第二向量样本,所述第二向量样本是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征样本进行处理得到的;
通过上层模型对所述第一向量样本和第二向量样本进行常驻地址的预测,得到新的标识样本对应的常驻地址预测结果;
确定所述新的标识样本对应的常驻地址预测结果与标注数据的损失值;
根据所述损失值进行反向传播,更新所述第一底层子模型、第二底层子模型和上层模型的网络参数,得到训练完成的第一底层子模型、第二底层子模型和上层模型。
8.一种用户常驻地址的预测装置,其特征在于,包括:
数据获取模块,用于获取至少一个用户标识对应的待预测位置,并获取与用户标识和待预测位置对应的第一统计特征,将所述用户标识和待预测位置确定为所述第一统计特征的第一特征标识,得到第一特征标识集合;
标识加密模块,用于采用不可逆加密算法分别对所述第一特征标识集合中的第一特征标识进行加密,得到第一加密特征标识集合;
标识集合接收模块,用于接收其他联合预测平台发送的第二加密特征标识集合,所述其他联合预测平台为与当前预测平台进行常驻地址的联合预测的其他平台,所述第二加密特征标识集合为所述其他联合预测平台确定的第二加密特征标识的集合,所述第二加密特征标识是采用所述不可逆加密算法对第二特征标识进行加密得到;
交集确定模块,用于确定所述第一加密特征标识集合与所述第二加密特征标识集合的交集,并生成所述交集中每一条数据对应的新的特征标识,保存第一加密特征标识和新的特征标识的第一对应关系,将第二加密特征标识和新的特征标识的第二对应关系发送至所述其他联合预测平台;
底层处理模块,用于根据所述新的特征标识和所述第一对应关系,通过第一底层子模型对与所述新的特征标识对应的第一统计特征进行处理,得到第一向量,接收所述其他联合预测平台发送的所述新的特征标识对应的第二向量,所述第二向量是所述其他联合预测平台通过第二底层子模型对与所述新的特征标识对应的第二统计特征进行处理得到的;
常驻地址预测模块,用于通过上层模型对所述第一向量和所述第二向量进行常驻地址的预测,得到与所述交集中的用户标识和待预测位置对应的常驻地址预测结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的用户常驻地址的预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任意一项所述的用户常驻地址的预测方法的步骤。
CN202110910542.2A 2021-08-09 2021-08-09 用户常驻地址的预测方法、装置、电子设备及存储介质 Active CN113704640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110910542.2A CN113704640B (zh) 2021-08-09 2021-08-09 用户常驻地址的预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110910542.2A CN113704640B (zh) 2021-08-09 2021-08-09 用户常驻地址的预测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113704640A CN113704640A (zh) 2021-11-26
CN113704640B true CN113704640B (zh) 2023-04-07

Family

ID=78651985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110910542.2A Active CN113704640B (zh) 2021-08-09 2021-08-09 用户常驻地址的预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113704640B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803228A (zh) * 2018-12-28 2019-05-24 中国联合网络通信集团有限公司 业务热点区域定位方法、装置、设备和可读介质
CN111241225A (zh) * 2020-01-10 2020-06-05 北京百度网讯科技有限公司 常驻区域变更的判断方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10097647B2 (en) * 2014-11-06 2018-10-09 Neustar, Inc. Method and system for predicting a geographic location of a network entity
CN108182282A (zh) * 2018-01-26 2018-06-19 智慧足迹数据科技有限公司 地址真实性验证方法、装置及电子设备
CN109376761B (zh) * 2018-09-12 2021-01-22 北京三快在线科技有限公司 一种地址标识及其经纬度的挖掘方法及装置
CN109934265B (zh) * 2019-02-15 2021-06-11 同盾控股有限公司 一种常驻地址的确定方法和装置
CN110598131B (zh) * 2019-08-20 2020-12-04 北京三快在线科技有限公司 确定用户常驻区域的方法、装置、存储介质和电子设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109803228A (zh) * 2018-12-28 2019-05-24 中国联合网络通信集团有限公司 业务热点区域定位方法、装置、设备和可读介质
CN111241225A (zh) * 2020-01-10 2020-06-05 北京百度网讯科技有限公司 常驻区域变更的判断方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113704640A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN111428881B (zh) 识别模型的训练方法、装置、设备及可读存储介质
CN111444952A (zh) 样本识别模型的生成方法、装置、计算机设备和存储介质
CN111125512A (zh) 业务推荐处理方法、装置及系统
CN111340558B (zh) 基于联邦学习的线上信息处理方法、装置、设备及介质
CN110234062B (zh) 定位方法、定位装置、服务器和计算机可读存储介质
CN110784883B (zh) 基站建设评估方法、装置、设备和存储介质
CN110991905A (zh) 风险模型训练方法以及装置
CN112948274A (zh) 测试用例评分模型训练方法和测试用例选择方法
CN109636345A (zh) 一种业务办理工作流的智能管理方法及系统
CN111127062A (zh) 一种基于空间搜索算法的群体欺诈识别方法及装置
CN110675179A (zh) 营销信息处理方法、装置、电子设备及可读存储介质
CN114531302A (zh) 数据加密方法、装置及存储介质
CN114416485A (zh) 数据处理方法及装置
CN113704640B (zh) 用户常驻地址的预测方法、装置、电子设备及存储介质
CN105162931B (zh) 一种通信号码的分类方法及装置
CN113793174A (zh) 数据关联方法、装置、计算机设备和存储介质
CN112579907B (zh) 一种异常任务检测方法、装置、电子设备和存储介质
CN111651741B (zh) 用户身份识别方法、装置、计算机设备和存储介质
CN111369281A (zh) 线上消息处理方法、装置、设备及可读存储介质
CN112529102A (zh) 特征拓展方法、设备、介质及计算机程序产品
CN114817340B (zh) 数据追溯方法、装置、计算机设备及储存介质
CN110035126A (zh) 一种文件处理方法、装置、计算设备及存储介质
CN116610503A (zh) 部件检测方法及装置
CN110087230B (zh) 数据处理方法、装置、存储介质及电子设备
CN110020728B (zh) 业务模型强化学习方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant