CN112115382A

CN112115382A - 数据处理方法及装置、存储介质、电子装置

Info

Publication number: CN112115382A
Application number: CN202011059522.0A
Authority: CN
Inventors: 陈新宇; 张美玲; 王涛; 张梦豪; 周瑞
Original assignee: Beijing Deepglint Information Technology Co ltd
Current assignee: Beijing Deepglint Information Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2020-12-22
Anticipated expiration: 2040-09-30
Also published as: CN112115382B

Abstract

本申请实施例中提供了数据处理方法及装置、存储介质、电子装置，其中，所述方法包括获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息、事件信息；根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。采用本申请的数据处理方法具有高实时性并且还能节省大量运算资源。

Description

数据处理方法及装置、存储介质、电子装置

技术领域

本申请涉及计算机视觉处理技术，具体地，涉及数据处理方法及装置、存储介质、电子装置。

背景技术

在确定人员亲密度关系时通常是根据人员的行为数据，如来源数据(IP地址或者真实地址)，访问数据(出现或者点击链接)、偏好(购物或者浏览记录)等进行分组聚类计算相似性与距离，然后根据距离大小归一化到亲密度的描述数值。具体地，当来源数据为人脸照片时可采用人脸照片进行亲密度计算，并利用人脸唯一标识一个人，再利用人脸出现的时空关系和计算机算法做距离几何计算并给出估算结果。

在进行亲密度关系计算时依赖于全量数据，在针对于静态数据集做全量计算的过程中当数据不断增加时需要从头计算所有数据，从而影响计算实时性和效率。

针对相关技术中，亲密度关系的计算过程依赖全量数据，从而影响计算实时性和计算效率的问题，目前尚未存在有效的解决方案。

发明内容

本申请实施例中提供了数据处理方法及装置、存储介质、电子装置，以至少解决相关技术中的亲密度关系的计算过程依赖全量数据，从而影响计算实时性和计算效率的问题。

根据本申请实施例的第一个方面，提供了一种数据处理方法，包括：获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息；根据预设时间窗在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

根据本申请实施例的第二个方面，提供了一种数据处理装置包括：获取模块，用于获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息；建立模块，用于根据预设时间窗在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；亲密度计算模块，用于根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

根据本申请实施例的第三个方面，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本申请实施例的第四个方面，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

采用本申请实施例中提供的数据处理方法，通过获取按照用户的地理信息分组得到的多个数据流信息，根据预设时间窗在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。将用户的行为数据抽象为不断增长的数据流，亲密度计算发生在数据流中对于增量计算的亲密度信息具有高实时性，而且还能节省运算资源。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例中的数据处理方法所运行的计算机设备的硬件结构框图；

图2是本申请实施例中的数据处理方法流程示意图；

图3是本申请实施例中的数据处理装置结构示意图；

图4是本申请实施例中的数据处理方法技术实施流程示意图；

图5本申请实施例中的与流式数据结合的技术实施流程示意图；

图6是本申请实施例中的滑动时间窗的示意图；

图7是本申请实施例中的翻转时间窗的示意图；

图8是本申请实施例中的用户之间亲密关系展示的示意图。

具体实施方式

本申请实施例中涉及的技术术语如下：

ID，唯一标识用户的ID

pair_ID，与用户有关联关系的其他用户ID

location_ID，用户出现的地理信息

capture_time，用户出现的时间信息

start_time，开始时间

end_time，结束时间

quantity，关联关系数量，同一用户组关联关系的数量

visit_location，事件地点数目，同一用户组事件的地点数量，表示为去重的结果。

visit_time，事件时间为取每条关联关系的开始时间(start_time)的小时，作为key值，统计其关联关系的数量，生成一个字典。

在实现本申请的过程中，发明人发现，当需要计算亲密度关系时需要依赖全量数据，针对静态数据集做全量计算，当数据不断增加时需要从头计算所有数据，对计算的实时性、效率影响较大。

针对上述问题，本申请实施例中提供了一种数据处理方法，包括：获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息、事件信息；根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机设备上为例，图1是本申请实施例的一种数据接口的配置方法计算机设备的硬件结构框图。

本申请实施例还提供了一种计算机设备。如图1所示，计算机设备10可以包括：至少一个处理器101，例如CPU，至少一个网络接口104，用户接口103，存储器105，至少一个通信总线102，可选地，还可以包括显示屏106。其中，通信总线102用于实现这些组件之间的连接通信。其中，用户接口103可以包括触摸屏、键盘或鼠标等等。网络接口104可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通过网络接口104可以与服务器建立通信连接。存储器105可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器，存储器105包括本申请实施例中的flash。存储器105可选的还可以是至少一个位于远离前述处理器101的存储系统。如图1所示，作为一种计算机存储介质的存储器105中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。

需要说明的是，网络接口104可以连接接收器、发射器或其他通信模块，其他通信模块可以包括但不限于WiFi模块、蓝牙模块等，可以理解，本申请实施例中计算机设备也可以包括接收器、发射器和其他通信模块等。

处理器201可以用于调用存储器205中存储的程序指令，并使计算机设备20执行数据处理方法。

实施例一

在本实施例中提供了数据处理方法，如图2所示，该流程包括如下步骤：

步骤S201，获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息、事件信息；

步骤S202，根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；

步骤S203，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

采用本申请实施例中提供的方法，通过获取按照用户的地理信息分组得到的多个数据流信息，根据预设时间窗在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。将用户的行为数据抽象为不断增长的数据流，亲密度计算发生在数据流中，对于增量计算的亲密度信息具有高实时性，而且还能节省运算资源。

在上述步骤S201中用户的地理信息是指与用户相关的事件所发生的位置信息，位置信息可以包括经纬度信息或者具体地名信息。将所述数据流信息按照所述用户的地理信息分组后得到以所述用户的地理信息为分组项的多个数据流信息。

在一种具体实施方式中，将实时采集得到的用户的事件流抽象为数据流信息，并且在每个所述数据流信息中至少包括了用户ID信息和事件信息。所述用户ID信息用于作为用户的唯一标识，所述事件信息用于作为作为将用户的行为数据抽象后的结果。

在一种具体实施方式中，获取的所述多个数据流信息时随时获取的时间不断地增长的。

在一种具体实施方式中，获取按照用户的地理信息分组得到的多个数据流信息是按照不同的用户的地理信息分组并行的多个数据流。

在一种具体实施方式中，上述步骤S201之前还可以包括数据清洗、数据采集等处理步骤。具体地，作为流式数据处理的一个环节，使用缓存和规则过滤掉重复的、不符合要求的数据。

在上述步骤S202中根据所述预设时间窗和所述事件信息，在所述数据流信息上建立数据之间的关联关系。数据之间的关联关系时按照用户ID信息进行区分的，即在所述数据流信息中建立是不同的两个所述用户ID信息之间的数据关联关系。

在一种具体实施方式中，将所述目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系所述数据关联关系。目标用户是指需要进行亲密度关系计算的用户，其他用户是指非目标用户但与目标用户产生过关联关系的用户。

在另一种具体实施方式中，对于不同的两个所述用户ID之间都会建立数据关联关系，通过所述预设时间窗在所述数据流信息中确定时间段，通过所述事件信息确定在所述确定时间段内的出现的事件信息。

在上述步骤S203中根据所述数据关联关系的统计结果中的相关参数，计算得到所述目标用户与所述其他用户的亲密度关系。

在一种具体实施方式中，在流式数据上进行亲密度计算时，通过不断的读取数据流信息，并缓存中间结果，并根据中间结果和计算方法，生成新的亲密度分数。亲密度关系的计算过程是持续、有状态的。

在另一种具体实施方式中，随着事件信息的触发与数据流信息的更新不断更新，触发亲密度分数计算的方式为存储的状态更新，再结合亲密度分数的公式计算出亲密度关系，并对用户ID信息的亲密度分数进行归一化处理。

作为本申请可选的实施方式，所述数据关联关系的统计结果包括：根据所述用户ID信息得到用户分组信息；根据所述用户分组信息统计在一个时间段内目标用户组中目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系，其中，所述关联关系至少包括：关联关系数量信息、事件地点数目信息、事件时间信息；将所述目标用户的所述关联关系数量信息、所述事件地点数目信息、所述事件时间信息作为所述统计结果。

具体实施时，将数据关联关系按照天进行统计。将数据关联关系按照ID进行分组并且使用流式数据的翻转时间窗，将时间窗固定成一天的时间窗，统计每个人与其有关联关系的用户数据存入流式数据的状态里面。状态一直保存，并且实时更新。

在一种具体实施方式中，流式数据的状态包括两种，窗口状态和全局状态，为了保证数据的增量计算，采用是全局状态。

作为本申请可选的实施方式，所述将所述目标用户的所述关联关系数量信息、所述事件地点数目信息、所述事件时间信息作为所述统计结果包括：将所述关联关系数量信息和所述事件地点数目信息存储到流式数据的第一状态；将所述事件时间信息进行分组统计得到每个分组的关联关系数量，建立一个字典并存储到所述流式数据的第二状态，其中，所述第一状态和/或所述第二状态分别存储在分布式的计算节点。

具体实施时，将关联关系数目和抓拍地点数目存储到第一状态。将抓拍时间按照开始时间的小时分组统计关联关系数量，得到一个字典，key值为小时，value值为关联关系数目，存储到第二状态。

在一种具体实施方式中，所述第一状态和/或第二状态，是分布式流式计算中存储计算结果的数据库。其特点是随着事件触发与数据流的更新不断更新，实现上，状态是分布式的存储在每个计算节点上。

在一种具体实施方式中，按照ID分组，按天统计group_ID对应每个pair_ID的信息并且存入状态中。状态存储的原则是每个group_ID的数据流会存储一个字典状态，字典中的key代表一个pair_ID。

作为本申请可选的实施方式，所述数据关联关系的统计结果通过将每次的统计结果累加到所述流式数据的状态中进行更新。具体实施时，每天的统计结果只需要累加到状态里，从而实现了动态数据的增量计算。

作为本申请可选的实施方式，所述根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系包括：根据每个所述用户ID信息在所述预设时间窗中的最后一条时间出现的事件，得到第一事件数组；在事件时间与所述预设时间窗的开始时间的差值不大于一个时间阈值的情况下，得到第二事件数组；根据所述第一事件数组和所述第二事件数组中的两个所述用户ID信息建立所述数据关联关系。

具体实施时，每个用户在每个时间窗中保留时间最晚出现的那一条事件组成的数组为第一事件数组。根据所述第一事件数组中事件时间与时间窗开始时间的差值小于等于一个阈值的用户ID信息，得到第二事件数组。通过所述第一事件数组和所述第二事件数组，计算出两个不同的所述用户ID信息的所述数据关联关系。

在一种具体实施方式中，在所述第一事件数组中的事件是在预设时间窗中只出现过一次的事件，即在所述第一事件数组的事件经过了去重且保留唯一一个事件。在所诉第二时间数组中为第一时间组中时间事件与预设时间窗开始事件小于一个阈值的所有事件。。

在另一种具体实施方式中，数据关联关系根据第一事件数组和第二事件数组的两个数组间两两配对得到，配对原则为用户ID信息不同。

在一种优选地实施方式中，所述根据每个所述用户ID信息在所述预设时间窗中的最后一条时间出现的事件，得到第一事件数组包括：根据时间窗大小和滑动步长，建立一个滑动时间窗，其中，所述时间窗大小根据所述用户的地理信息的数据源类型确定；在所述滑动时间窗在所述数据流信息中按照所述滑动步长滑动的过程中，根据每个所述用户ID信息在所述滑动时间窗中的最后一条时间出现的事件，得到所述第一事件数组。

具体实施时，将有时间窗大小和滑动步长的一类时间窗定义为滑动时间窗。滑动时间窗会在所述数据流信息上滑动，同一事件不会出现在同一个时间窗内，但是可以出现在多个时间窗内。

作为本申请可选的实施方式，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系之前，包括：复制所述数据关联关系的统计结果，同时将所述目标用户的用户ID信息与所述其他用户的用户ID信息交换。

具体实施时，数据关联关系是一对一的关联关系，但是只有一份。由于需要对用户ID信息进行分组统计，故需要将一份数据变成两份，同时将其中一份数据的ID和pair_ID交换。

作为本申请可选的实施方式，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系包括：获取所述数据关联关系的统计结果中的关联关系数量信息；根据所述关联关系数量信息计算所述数据源的事件时间权重和事件时间数值；根据所述事件时间权重、所述事件时间值、事件地点数目信息以及事件地点分散程度，计算得到所述目标用户与所述其他用户的亲密度分数，其中，所述事件地点分散程度根据所述事件地点数目与所述事件时间之间的比值确定；在所述目标用户的数据关联关系更新的情况下，更新所述目标用户与所述其他用户的亲密度分数。

具体实施时，触发计算亲密度的方式为用户的关联关系更新，实时更新亲密分数。通过获取所述数据关联关系的统计结果中的关联关系数量信息，计算得到事件时间的权重。通过获取所述数据关联关系的统计结果中的关联关系数量信息，计算事件时间的数值。最后根据所述事件时间的权重和事件时间的数值，以及事件地点分散程度计算得到所述目标用户与所述其他用户的亲密度分数。

在一种具体实施方式中，对得到的所述目标用户与所述其他用户的亲密度分数进行归一化处理，并且转化为十分制。

在另一种具体实施方式中，事件地点分散程度的数值在[0,1]，数值越大代表事件地点越不相同，数值越小即代表两个用户间的关系越亲密。

在一种优选实施方式中，统计所述数据关联关系的信息存储到流式数据的状态里，并且计算得到亲密分数，再将每个用户的亲密分数进行归一化处理。

作为本申请可选的实施方式，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系之后，包括：根据所述亲密度关系生成所述目标用户与所述其他用户的亲密度关系排名的可视化图形，其中，所述亲密度关系包括：一对多关系且亲密度关系之间是非对等的；所述其他用户与所述目标用户的亲密度关系的亲疏程度与所述其他用户对应的所述可视化图形大小呈正比。

具体实施时，在所述可视化图形中除了要查询的目标用户以外还包括其他用户。比如可以是与查询的目标用户亲的密度最高的十个其他用户，并采用图片的大小来描述用户间的亲疏远近，亲密度分数越高的用户图片会越大，反之越小。

在一种具体实施方式中，在所述可视化图形中的亲密关系是一对多关系，并且亲密关系不是对等的。

在另一种具体实施方式中，根据计算得到的亲密分数，在可视化图形中分数的展示的方式为与目标用户的密度排名靠前的其他用户。

作为本申请可选的实施方式，所述获取按照用户的地理信息分组得到的多个数据流信息之前包括：采集携带有唯一标识ID和事件的数据源，所述数据源包括：WI-FI探针抓取的在一个地点出现的事件信息，和/或注册用户在一个地理位置时使用终端应用程序的事件信息，和/或人脸识别系统采集到目标用户出现在一个地点的事件信息；将不同的数据源与统一数据接口适配并将所述数据源写入到消息队列中。

具体实施时，采集携带有唯一标识ID和事件的数据源，即支持各类数据源，对数据源的要求为能产生带有唯一标识的一个用户的数据源，并且携带相关的事件。同时为满足不同设备与不同数据源类型的接入需求，数据采集系统提供统一的接口，定义数据格式和类型，由不同的数据源提供适配器，适配这个接口。采集端是流式数据处理的开始，将数据源源不断的写入消息队列中。

在一种具体实施方式中，数据源可以包括：WI-FI探针抓取的手机终端(唯一标识ID)在特定地点出现的事件信息。

在另一种具体实施方式中，数据源可以包括：注册用户在某些地理位置使用手机终端应用(唯一标识ID)的事件信息

在另一种具体实施方式中，数据源可以包括：具有人脸(唯一标识ID)识别能力的系统采集的人员出现在某些地点的事件信息。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例二

在本实施例二中还提供了一种数据处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本申请实施例的数据处理装置的结构框图，如图3所示，该装置包括：

获取模块30，用于获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息、事件信息；

建立模块31，用于根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；

亲密度计算模块32，用于根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

在所述获取模块30中用户的地理信息是指与用户相关的事件所发生的位置信息，位置信息可以包括经纬度信息或者具体地名信息。将所述数据流信息按照所述用户的地理信息分组后得到以所述用户的地理信息为分组项的多个数据流信息。

在一种具体实施方式中，系统还可以包括数据清洗、数据采集等处理模块。具体地，作为流式数据处理的一个环节，使用缓存和规则过滤掉重复的、不符合要求的数据。

在所述建立模块31中根据所述预设时间窗和所述事件信息，在所述数据流信息上建立数据之间的关联关系。数据之间的关联关系时按照用户ID信息进行区分的，即在所述数据流信息中建立是不同的两个所述用户ID信息之间的数据关联关系。

在所述亲密度计算模块32中根据所述数据关联关系的统计结果中的相关参数，计算得到所述目标用户与所述其他用户的亲密度关系。

为了更好的理解上述数据传输流程，以下结合优选实施例对上述技术方案进行解释说明，但不用于限定本发明实施例的技术方案。

在本申请的数据处理方法中实时性高，处理结果的亲密度计算是随着即时数据与事件的发生实时计算的。本申请中的方法对于增量计算只依赖之前计算的中间结果与新数据，不需要重算所有历史数据，节省运算资源。

在本申请的数据处理方法会随时间自动归档数据，并演化为最新的亲密度数据。此外，处理方法的准确率高，利用历史统计信息及同镜、连续出现等行为依据，准确率高于单纯同镜距离计算的结果。

如图4所示，是本申请实施例中的数据处理方法技术实施流程示意图，具体包括如下步骤：

步骤S400，数据收集：获取多业务线，各种设备类型的用户行为信息：带有唯一标识一个人员的数据源。

具体实施时，数据在采集时支持各类数据源。对所述数据源的要求为能产生带有唯一标识一个人员的数据源，并且携带相关的事件。

数据源包括如WIFI探针抓取的在特定地点出现的事件信息、注册用户在某些地理位置使用手机应用的事件信息以及具有人脸识别能力的系统采集的人员出现在某些地点的事件信息等。

同时，为满足不同设备与不同数据源类型的接入需求，数据采集系统提供统一的接口，定义数据格式和类型，由不同的数据源提供适配器，适配这个接口。采集端是流式数据处理的开始，将数据源源不断的写入消息队列中。

步骤S401，数据清洗：将用户行为信息过滤，主要过滤掉时空信息可能有误的信息。

具体实施时，作为流式数据处理的一个环节，读取数据采集，使用缓存和规则过滤掉重复的、不符合要求的数据。比如，如果时间与当前时间相差很大的消息等，则将带有唯一标识ID的实时的数据写入下游。

步骤S402，数据计算1：根据用户行为数据间的关联关系(时空信息)，构建人与人的关联关系。

步骤S403，数据计算2：通过人与人间的关联关系建模得到人与人间的社交关系。

具体实施时，数据计算的主要流程为不断的读取数据，缓存中间结果，并根据中间结果和计算方法，生成新的亲密度分数。不同于普通的计算过程，此处的计算是持续的、有状态的。

在上述步骤S402中关联关系的建立包括：结合流式数据处理框架的时间窗建立一对一的关联关系，主要依赖于同一时空信息来建立联系。

在上述步骤S403中建立模型时需要进行关联数据的复制和交换，对于用户ID即带有唯一标识ID分组的时，每个ID的关联关系都是完整的。对步骤S402中的关联关系数据复制一份，并交换ID。

在上述步骤S403中建立模型包括：按天统计写入状态，按照ID分组，按天统计group_ID对应每个pair_ID的信息，并且存入状态中。状态存储的原则是每个group_ID的数据流会存储一个字典状态，字典中的key代表一个pair_ID。

其中，状态是分布式流式计算中，存储计算结果的数据库，其特点是随着事件触发与数据流的更新不断更新，实现上，状态是分布式的存储在每个计算节点上。

在上述步骤S403中建立模型还包括：亲密度分数计算，触发亲密度分数计算的方式为存储的状态更新，结合亲密度分数的公式，计算亲密度，并对ID的亲密度分数归一化处理。

步骤S404，数据应用于数据展示，展示某个用户的社交关系图。

具体实施时，所述社交关系图中的亲密关系是一对多关系。亲密关系不是对等的，A对B的亲密分数不一定等于B对A的亲密分数。

依据亲密分数的特性，分数展示的形式为某个用户(ID)亲密度排名前十的用户(PAIR_ID)。图8是本申请实施例中的用户之间亲密关系展示的示意图，最底下的图片为要查询的用户(ID)，上图中除了要查询的用户以外有十个其他用户，是与查询用户亲密度最高的十个用户，用图片的大小来描述用户间的亲疏远近，亲密度分数越高的用户图片会越大(如ID_3)，反之越小(如ID_4)。如果分数想相等则图片大小一致(如ID_1与ID_2)。

图5本申请实施例中的与流式数据结合的技术实施流程示意图，具体包括如下步骤：

步骤S1，采集多个数据源。

步骤S2，建立消息队列。

步骤S3，数据过滤。

步骤S4，滑动窗口建立关联关系。

具体地，在步骤S4中包括建立用户关联关系的步骤。

经过清洗数据流程后的数据流是带有唯一标识用户的ID近实时的数据流。通过消息队列写入流式数据处理框架中。

表1表示数据流中原始数据的主要信息，数据主要信息如下：

表1

ID	location_ID	capture_time
			ID_1	location_1	2020-06-01 12:00:00

建立用户关联关系具体包括：

首先，数据流分组,按照location_ID(用户的地理信息)进行分组，得到单一location_ID的并行数据流。

其次，按照摄像头分类设置时间窗，根据地理条件，以及摄像头的抓拍范围，人为将摄像头分为三种类型，并且将不同类型的摄像头定义不同的时间窗见表2，表2表示摄像头分类的距离以及时间窗大小。

表2

采用的判断方法：拿摄像头抓拍举例：每张抓拍上会有多个人脸，小摄像头大概率最多2个人脸。中等摄像头基本上维持在4，5个人脸，大摄像头基本也在8个人脸及其以内。基本适用于所有的场景下面。摄像头覆盖面积越大，被同时拍到的机率越大，所有判断两人是否有关联关系的时间就要越短。反之则越长。

以事件为摄像头抓拍为例，将分组后的多个数据流结合滑动时间窗得到关联关系，图6是本申请实施例中的滑动时间窗的示意图，滑动时间窗的定义为有时间窗大小和滑动步长的一类时间窗，同一事不会出现在同一个时间窗内，但是可能会出现在多个时间窗内。

每个location_ID根据抓拍机特性定义时间窗大小，规则是每个用户在每个时间窗中保留时间最晚的那条抓拍组成的数组为tail。

如图6中三个用户在时间窗1中保留的都是第4条抓拍记录。然后将tail中抓拍时间与时间窗开始时间的差值小于等于1秒的ID，生成一个新的数组head。tail和head两个数组中，在两个数组不同ID间两两配对。得到关联数据如表3，表3表示关联数据的模拟数据。

表3:

ID	pair_ID	location_ID	start_time	end_time
					ID_1	ID_3	location_1	12:00:01	12:00:02
ID_1	ID_2	location_1	12:00:01	12:00:02

其中，

tail＝distinct(window所有ID,取时间最晚的一条)

head＝tail(capture_time-window_start_time＜＝1秒)

关联关系＝head&tail两个数组间两两配对，配对原则为ID不同。

其中window_start_time是时间窗开始的时间。

步骤S5，翻转窗口按天统计，按天累加，保存全量数据到state。

通过统计关联关系的信息，存储到状态里，并且通过公式得到亲密分数，再将每个用户的亲密分数归一化处理。以事件为摄像头拍摄为例，具体包括：

首先，数据复制以及交换：关联数据是一对一的关联关系，但是只有一份，由于会对ID分组统计，所以需要将一份数据变成两份，同时将其中一份数据的ID和pair_ID交换。

其次，关联数据按天统计：先将关联数据按照ID进行分组并且使用流式数据的翻转时间窗见图7，如图7所示是本申请实施例中的翻转时间窗的示意图。将时间窗固定成一天的时间窗，统计每个人与其有关联关系的用户数据存入流式数据的状态里面。状态一直保存，并且实时更新，数据流按天统计结果见表5中所示数据。

流式数据的状态有两种，窗口状态和全局状态，窗口状态只是在时间窗内有效，全局状态则是在整个生命周期内有效的，为了保证数据的增量计算，结合了窗口状态和全局状态。翻转时间窗分配程序将每个元素分配给指定时间窗大小的时间窗，翻转时间窗有一个固定的大小并且元素之间不重叠。表5是按天统计数据。

表5

quantity＝count(pair_ID)

visit_location＝count(distinct location_ID)

visit_time＝count(paID_ID).groupby(start_time.hour)

将表5中的统计结构存入时间窗中状态里，会存储为两个状态，将关联关系数目和抓拍地点数目存储到第一状态。

将抓拍时间按照开始时间的小时分组统计关联关系数量，得到一个字典，key值为小时，value值为关联关系数目存储到第二状态。

随着时间的增加，每天的统计结果只需要累加到状态里，实现了动态数据的增量计算。

步骤S6，亲密分数计算，读取state，结合function，生成亲密分数。

具体实施时，触发用户计算亲密度的方式为用户的关联关系更新，实时更新亲密分数。以事件为摄像头抓拍为例。

S61，计算抓拍时间的权重：

其中quantityi为小时数对应的关联关系数目。

S62,计算抓拍时间的值(function1)事件

S63，计算分数(function)

其中，

判断两个用户的到访地点分散程度，数值在[0,1]，值越大代表到访地点越不相同，值越小代表两个用户间的关系越亲密。

rate为调节参数，用于适应于各类环境，目的在于减轻因为大客流量下导致的误识别。比如，办公环境等人流量相对小的地方，参数会相对偏大，而对于商场类的人流量相对大的地方，参数会相对偏小。比如，rate在一般场景可下取5。

S64，归一化处理，并且转化为十分制。这里采用的是最大值归一化处理方法。得到结果。

步骤S7，存入数据库。

本申请的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息、事件信息；

S2，根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；

S3，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本申请的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息、事件信息；

根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；

根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

2.根据权利要求1所述的方法，其特征在于，所述数据关联关系的统计结果包括：

根据所述用户ID信息得到用户分组信息；

根据所述用户分组信息统计在一个时间段内目标用户组中目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系，其中，所述关联关系至少包括：关联关系数量信息、事件地点数目信息、事件时间信息；

将所述目标用户的所述关联关系数量信息、所述事件地点数目信息、所述事件时间信息作为所述统计结果。

3.根据权利要求2所述的方法，其特征在于，所述将所述目标用户的所述关联关系数量信息、所述事件地点数目信息、所述事件时间信息作为所述统计结果包括：

将所述关联关系数量信息和所述事件地点数目信息存储到流式数据的第一状态；

将所述事件时间信息进行分组统计得到每个分组的关联关系数量，建立一个字典并存储到所述流式数据的第二状态，其中，所述第一状态和/或所述第二状态分别存储在分布式的计算节点。

4.根据权利要求2所述的方法，其特征在于，所述数据关联关系的统计结果通过将每次的统计结果累加到所述流式数据的状态中进行更新。

5.根据权利要求1所述的方法，其特征在于，所述根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系包括：

根据每个所述用户ID信息在所述预设时间窗中的最后一条时间出现的事件，得到第一事件数组；

在事件时间与所述预设时间窗的开始时间的差值不大于一个时间阈值的情况下，得到第二事件数组；

根据所述第一事件数组和所述第二事件数组中的两个所述用户ID信息建立所述数据关联关系。

6.根据权利要求5所述的方法，其特征在于，所述根据每个所述用户ID信息在所述预设时间窗中的最后一条时间出现的事件，得到第一事件数组包括：

根据时间窗大小和滑动步长，建立一个滑动时间窗，其中，所述时间窗大小根据所述用户的地理信息的数据源类型确定；

在所述滑动时间窗在所述数据流信息中按照所述滑动步长滑动的过程中，根据每个所述用户ID信息在所述滑动时间窗中的最后一条时间出现的事件，得到所述第一事件数组。

7.根据权利要求1所述的方法，其特征在于，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系之前，包括：

复制所述数据关联关系的统计结果，同时将所述目标用户的用户ID信息与所述其他用户的用户ID信息交换。

8.根据权利要求1所述的方法，其特征在于，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系包括：

获取所述数据关联关系的统计结果中的关联关系数量信息；

根据所述关联关系数量信息计算所述数据源的事件时间权重和事件时间数值；

根据所述事件时间权重、所述事件时间值、事件地点数目信息以及事件地点分散程度，计算得到所述目标用户与所述其他用户的亲密度分数，其中，所述事件地点分散程度根据所述事件地点数目与所述事件时间之间的比值确定；

在所述目标用户的数据关联关系更新的情况下，更新所述目标用户与所述其他用户的亲密度分数。

9.根据权利要求1所述的方法，其特征在于，根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系之后，包括：

根据所述亲密度关系生成所述目标用户与所述其他用户的亲密度关系排名的可视化图形，其中，所述亲密度关系包括：一对多关系且亲密度关系之间是非对等的；

所述其他用户与所述目标用户的亲密度关系的亲疏程度与所述其他用户对应的所述可视化图形大小呈正比。

10.根据权利要求1所述的方法，所述获取按照用户的地理信息分组得到的多个数据流信息之前包括：

采集携带有唯一标识ID和事件的数据源，所述数据源包括：WI-FI探针抓取的在一个地点出现的事件信息，和/或注册用户在一个地理位置时使用终端应用程序的事件信息，和/或人脸识别系统采集到目标用户出现在一个地点的事件信息；

将不同的数据源与统一数据接口适配并将所述数据源写入到消息队列中。

11.一种数据处理装置，其特征在于，包括：

获取模块，用于获取按照用户的地理信息分组得到的多个数据流信息，其中，每个所述数据流信息至少包括：用户ID信息、事件信息；

建立模块，用于根据预设时间窗和所述事件信息，在所述数据流信息中建立不同的两个所述用户ID信息之间的数据关联关系，其中，所述数据关联关系包括：目标用户的用户ID信息与其他用户的用户ID信息之间的关联关系；

亲密度计算模块，用于根据所述数据关联关系的统计结果，计算得到所述目标用户与所述其他用户的亲密度关系。

12.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至10任一项中所述的方法。

13.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至10任一项中所述的方法。