CN112560054A

CN112560054A - 一种用户数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN112560054A
Application number: CN202011474641.2A
Authority: CN
Inventors: 王聪; 岳冬; 陈勇; 陈翀
Original assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Current assignee: Gree Electric Appliances Inc of Zhuhai; Zhuhai Lianyun Technology Co Ltd
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2021-03-26

Abstract

本申请涉及一种用户数据处理方法、装置、电子设备及存储介质，该方法包括：获取用户行为数据；根据预先训练的数据检测模型，构建所述用户行为数据对应的用户画像信息；将所述用户画像信息转换为预设信息格式后进行加密，得到用户画像密文；将所述用户画像密文保存至终端设备和服务器。该技术方案根据用户行为数据构建用户画像信息，并对用户画像信息转换为统一格式后加密存储在终端设备和服务器。由于存储的是密文，避免恶意第三方截取数据后获得用户隐私信息，提高用户隐私信息的安全性。另外，用户画像信息分别保存在终端设备和服务器，防止其中一个设备故障造成数据丢失，提高数据的安全性。

Description

一种用户数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及信息安全技术领域，尤其涉及一种用户数据处理方法、装置、电子设备及存储介质。

背景技术

在大数据和移动互联网年代，为分析用户的群体分布特征和多样化、个性化需求，绝大部分网络运营者和网络产品、服务提供者在业务活动中均会使用用户画像(userprofiling)。用户画像，是通过收集、汇聚、分析用户数据，对某特定自然人个人特征，如其职业、经济、健康、教育、个人喜好、信用、行为等方面做出分析或预测，形成其个人特征模型的过程，最终形成的个人特征模型即为用户画像信息。

由于用户画像信息关系到用户的行为习惯、消费习惯等个人隐私信息，因此，如何防止用户画像信息泄露，被他人非法获取使用，成为当前急需解决的技术问题。

发明内容

为了解决现有技术中用户画像信息易泄露，被他人非法获取使用技术问题，本申请实施例提供了一种用户数据处理方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种用户数据处理方法，包括：

获取用户行为数据；

根据预先训练的数据检测模型，构建所述用户行为数据对应的用户画像信息；

将所述用户画像信息转换为预设信息格式后进行加密，得到用户画像密文；

将所述用户画像密文保存至终端设备和服务器。

可选的，所述根据预先训练的数据检测模型，构建所述用户行为数据对应的用户画像信息，包括：

将所述用户行为数据输入所述数据检测模型，得到所述用户行为数据对应的用户习惯标签；

根据所述用户习惯标签构建所述用户画像信息。

可选的，所述将所述用户行为数据输入所述数据检测模型，得到所述用户行为数据对应的用户习惯标签，包括：

识别所述用户行为数据对应的行为时间、行为特征以及各所述行为特征对应的关键度；

获取所述行为时间对应的权重影响因子，所述权重影响因子随着所述行为时间与当前时间的接近而影响所述行为特征对应的特征权重增大；

根据所述权重影响因子及所述关键度，计算所述行为特征对应的特征权重；

根据所述行为特征及所述特征权重，生成所述用户习惯标签。

可选的，所述根据所述行为特征及所述特征权重，生成所述用户习惯标签，包括：

当所述特征权重大于或等于权重阈值时，生成包括所述行为特征及所述特征权重的用户习惯标签。

可选的，所述识别各所述行为特征对应的关键度，包括：

从所述用户行为数据中确定包含所述行为特征的第一集合；

计算在所述第一集合中，所述行为特征的出现频次；

计算所述行为特征的逆向文件频率，所述逆向文件频率通过将用户行为数据总数除以所述第一集合中的数据数目，再将得到的商取对数得到；

根据所述出现频次与所述逆向文件频率的乘积得到所述关键度。

可选的，所述根据所述用户习惯标签构建所述用户画像信息，包括：

获取最近一次得到的历史用户习惯标签；

比对所述用户习惯标签与所述历史用户习惯标签之间的相似度；

当所述相似度小于或等于预设阈值时，采用所述用户习惯标签更新所述历史用户习惯标签；

根据更新后的用户习惯标签构建所述用户画像信息。

可选的，所述将所述用户画像信息转换为预设信息格式后进行加密，得到用户画像密文，包括：

确定所述终端设备和服务器之间通过非对称加密算法加密的对称密钥；

通过所述对称密钥对预设信息格式的用户画像数据进行加密，得到所述用户画像密文。

第二方面，本申请实施例提供了一种用户数据处理装置，包括：

获取模块，用于获取用户行为数据；

构建模块，用于根据预先训练的数据检测模型，构建所述用户行为数据对应的用户画像信息；

转换加密模块，用于将所述用户画像信息转换为预设信息格式后进行加密，得到用户画像密文；

存储模块，用于将所述用户画像密文保存至终端设备和服务器。

第三方面，本申请实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行计算机程序时，实现上述方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本实施例中，根据用户行为数据构建用户画像信息，并对用户画像信息转换为统一格式后加密存储在终端设备和服务器。由于存储的是密文，避免恶意第三方截取数据后获得用户隐私信息，提高用户隐私信息的安全性。另外，用户画像信息分别保存在终端设备和服务器，防止其中一个设备故障造成数据丢失，提高数据的安全性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种用户数据处理方法的流程图；

图2为本申请另一实施例提供的一种用户数据处理方法的流程图；

图3为本申请另一实施例提供的一种用户数据处理方法的流程图；

图4为本申请另一实施例提供的一种用户数据处理方法的流程图；

图5为本申请另一实施例提供的一种用户数据处理方法的流程图；

图6为本申请另一实施例提供的一种用户数据处理方法的流程图；

图7为本申请实施例提供的一种用户数据处理装置的框图；

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例通过对用户画像信息进行转换加密，以提高用户数据的安全性。

本申请实施例的技术方案，可以在终端设备或服务器上实现，即根据用户行为数据构建用户画像信息，对用户画像信息进行转化加密，可以由终端设备执行或由服务器执行。加密后的用户画像信息会在终端设备和服务器分别以密文方式存储。

下面首先对本发明实施例所提供的一种用户数据处理方法进行介绍。

图1为本申请实施例提供的一种用户数据处理方法的流程图。如图1所示，该方法应用于终端设备或服务器，包括以下步骤：

步骤S11，获取用户行为数据。

其中，用户行为数据可以由终端设备采集，用户行为数据包括用户所执行的行为，如访问网页的次数，访问网页的相关性，访问频次，访问网页逗留时间，输入的信息，交互操作(关注，评分，书签，订单)等等。

终端设备将采集到的用户数据发送到服务器，由服务器执行后续步骤，也可由终端设备自身执行后续步骤。

可选的，在该步骤中，还可以对用户行为数据进行筛选过滤，将无效的用户行为数据筛除。无效的用户行为数据包括：出现次数较低的行为数据，如用户错误打开的页面等等；属于用户设置的禁止采集的用户行为数据，如访问银行、金融、理财等网站的行为等等。

步骤S12，根据预先训练的数据检测模型，构建用户行为数据对应的用户画像信息。

其中，数据检测模型可以通过预先使用样本数据对Faster R-CNN、SSD和YOLO等目标检测模型进行训练得到。

步骤S13，将用户画像信息转换为预设信息格式后进行加密，得到用户画像密文。

其中，可以基于可扩展标记语言(Extensible Markup Language，XML)的信息交换技术对用户画像信息进行格式转换，这样，将不同终端设备，使用不同操作系统，通过不同通信线路和通信协议，发送的服务器请求与接收到的应答转换为同一信息格式，实现终端设备通过单一线路访问不同服务器，服务器也通过单一线路为不同终端设备提供服务。

对于格式转换后的用户画像信息进行加密，可采用对称加密算法、非对称加密算法或两者结合的加密算法。以保证用户画像信息在终端设备和服务器之间传输的安全性。

可选的，终端设备和服务器之间还可以采用MD5信息摘要算法(MD5 Message-Digest Algorithm)对用户画像信息进行进一步加密。通过MD5算法，以512位分组来处理用户画像信息，且每一分组又被划分为16个32位子分组，经过了一系列的处理后，算法的输出由四个32位分组组成，将这四个32位分组级联后将生成一个128位散列值。这样，确保用户画像信息在终端设备和服务器之间传输的完整一致性。

可选的，对于存储在终端设备和存储在服务器的用户画像信息，可以分别采用不同的加密算法进行加密。

步骤S14，将用户画像密文保存至终端设备和服务器。

可选的，在终端设备或服务器中，用新生成的用户画像信息，更新并覆盖该用户对应的历史画像信息，并标记时间戳。

在上述实施例中，数据检测模型可以在服务器中训练得到，若由终端设备执行构建用户画像信息，则服务器将数据检测模型下发到终端设备。

图2为本申请另一实施例提供的一种用户数据处理方法的流程图。如图2所示，上述步骤S12包括以下步骤：

步骤S21，将用户行为数据输入数据检测模型，得到用户行为数据对应的用户习惯标签；

步骤S22，根据用户习惯标签构建用户画像信息。

通过数据检测模型，使用用户习惯标签对用户行为数据进行描述，这样，最终的用户画像信息可以为用户习惯标签的集合。

其中，可以采用历史用户行为数据作为样本对目标检测模型进行训练，使得模型学习用户行为数据与用户习惯之间的关系。例如，用户访问网站对应的行为数据中，包括访问网站的类型及每次在各网站停留的时间。这样，基于历史用户访问网站的行为数据，可以统计到用户在各类型网站访问的时间分布，进而可以确定用户的网站类型偏好，得到用于标记网站类型偏好的用户习惯标签。

图3为本申请另一实施例提供的一种用户数据处理方法的流程图。如图3所示，步骤S21包括以下步骤：

步骤S31，识别用户行为数据对应的行为时间、行为特征以及各行为特征对应的关键度。

其中，关键度用于表现该行为特征出现的频次，对于形成用户习惯标签的影响。

该步骤中，通过识别用户行为数据对应的行为特征，基于行为时间及行为发生的频次可以确定该行为特征是否为用户当前习惯，从而确定用户习惯标签。

图4为本申请另一实施例提供的一种用户数据处理方法的流程图。如图4所示，可选的，步骤S31中识别各行为特征对应的关键度，可以通过词频-逆文本频率(termfrequency–inverse document frequency，TF-IDF)算法实现，具体包括以下步骤S41至步骤S44：

步骤S41，从用户行为数据中确定包含行为特征的第一集合。

步骤S42，计算在第一集合中，行为特征的出现频次。

例如，第一集合中所有行为特征的数量为n，行为特征i的出现次数为t，则行为特征i的出现频次

步骤S43，计算行为特征的逆向文件频率，逆向文件频率通过将用户行为数据总数除以第一集合中的数据数目，再将得到的商取对数得到。

例如，用户行为数据总数为M，第一集合中的数据数目为m，则行为特征i的逆向文件频率

步骤S44，根据出现频次与逆向文件频率的乘积得到关键度。

基于上述步骤S42得到的行为特征i的出现频次TF，以及逆向文件频率IDF，计算得到行为特征i关键度

若用户行为数据总数为10000000，包含行为特征i的第一集合中用户数据数目为1000，第一集合中所有行为特征的数量为100，行为特征i的出现次数为15，则该行为特征对应的关键度为

步骤S32，获取行为时间对应的权重影响因子，权重影响因子随着行为时间与当前时间的接近而影响行为特征对应的特征权重增大。

其中，行为时间越久远对用户当前的行为习惯影响越小，例如，5年前用户搜索高考书目，当前用户搜索考研书目，此时，不能使用高考书目对应的标签作为用户画像信息。

例如，最近1周对应的权重影响因子为1，最近1个月对应的权重影响因子为0.6，最近1年对应的权重影响因子为0.3，最近5年对应的权重影响因子为0.01。

若用户行为时间分布时间范围较大，如在最近1周、最近1个月及最近1年都存在包含相同行为特征的用户行为数据，则可以选择出现频率最高的时间范围确定该行为特征的所对应的权重影响因子。例如，用户在最近1周内访问购物网站14次，最近1月内访问购物网站100次，则最近1周内访问购物网站频率为2次/天，最近1月内访问购物网站频率为3.3次/天。则可选择最近1月对应的权重影响因子0.6作为访问购物网站这一行为特征的权重影响因子。

可选的，也可选择最近的行为时间所对应的权重影响因子作为行为特征的权重影响因子；或者选择访问频率超过一定阈值的时间所对应的权重影响因子作为行为特征的权重影响因子；等等。

步骤S33，根据权重影响因子及关键度，计算行为特征对应的特征权重。

例如，将权重影响因子与关键度相乘，得到该行为特征对应的权重。若包含该行为特征i的用户行为数据的行为时间为最近1个月，该行为特征i对应的权重影响因子为0.6，则该行为特征对应的特征权重W＝0.6×0.6＝0.36。

步骤S34，根据行为特征及特征权重，生成用户习惯标签。

可选的，可以设置一权重阈值，当特征权重大于或等于权重阈值时，生成包括行为特征及特征权重的用户习惯标签。例如，基于上述行为特征i及特征权重生成的用户习惯标签可以为<行为特征i，0.36>。

通过上述步骤S31至步骤S34，基于数据检测模型识别到的用户行为特征、行为时间及行为特征对应的关键度，来分析得到用户习惯标签，使得用户习惯标签可以准确地反映用户当前的行为习惯。

在上述实施例中，为了避免频繁更新用户画像信息，在用户行为习惯变化不大的情况下，不更新用户习惯标签。图5为本申请另一实施例提供的一种用户数据处理方法的流程图。如图5所示，上述步骤S22包括：

步骤S51，获取最近一次得到的历史用户习惯标签；

步骤S52，比对用户习惯标签与历史用户习惯标签之间的相似度；

步骤S53，当相似度小于或等于预设阈值时，采用用户习惯标签更新历史用户习惯标签；

步骤S54，根据更新后的用户习惯标签构建用户画像信息。

通过上述步骤S51至S54，当用户习惯变化较大时，才更新用户习惯标签，基于新的用户习惯标签来重新构建用户画像信息。

图6为本申请另一实施例提供的一种用户数据处理方法的流程图。如图6所示，上述步骤S13包括：

步骤S61，确定终端设备和服务器之间通过非对称加密算法加密的对称密钥；

步骤S62，通过对称密钥对预设信息格式的用户画像数据进行加密，得到用户画像密文。

其中，对称加密AES，数据的加密和解密都只使用同一个密钥。非对称加密RSA，需要提前生成两个密钥(一对的)，通过其中一个密钥加密后的数据，只有另一个密钥能解密。通常这两个密钥中有一个会暴漏出来，即对外公开的，这个密钥称为“公钥”，反之另一个是隐藏起来的，不公开的密钥称为“私钥”。本实施例中，可以使用RSA和AES加密算法相结合的方式实现数据加密。

举例来说，终端设备使用RSA和AES加密算法相结合的方式实现数据加密，服务器进行解密的步骤如下：

步骤a1，终端设备随机产生AES密钥aesKey；

步骤a2，使用aesKey对用户画像信息进行加密，得到加密内容A；

步骤a3，使用RSA公钥rsaPublicKey对aesKey加密，得到加密内容B；

步骤a4，将加密内容A和加密内容B传输到服务器；

步骤a5，服务器接收到加密内容A和加密内容B；

步骤a6，使用预置在服务器端的RSA私钥rsaPrivateKey对加密内容B进行解密，还原得到终端设备的aesKey；

步骤a7，使用得到的aesKey对加密内容A进行解密，得到用户画像信息。

这样在传输的过程中，即时加密后的AES密钥被别人截取，对其也无济于事，因为他人并不知道RSA的私钥，无法解密得到原本的AES密钥，就无法解密用AES加密后的用户画像信息。

另外，也可由服务器使用RSA和AES加密算法相结合的方式实现数据加密，终端设备进行解密，具体过程和上述加解密过程类似，在此不再赘述。

在上述实施例中，通过采用对称和非对称结合的加密方式，进一步提高终端设备与服务器之间通信的安全性，以及在终端设备和服务器存储用户画像信息的安全性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。

图7为本申请实施例提供的一种用户数据处理装置的框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图7所示，该用户数据处理装置包括：

获取模块71，用于获取用户行为数据；

构建模块72，用于根据预先训练的数据检测模型，构建用户行为数据对应的用户画像信息；

转换加密模块73，用于将用户画像信息转换为预设信息格式后进行加密，得到用户画像密文；

存储模块74，用于将用户画像密文保存至终端设备和服务器。

可选的，构建模块72，用于将所述用户行为数据输入所述数据检测模型，得到所述用户行为数据对应的用户习惯标签；根据所述用户习惯标签构建所述用户画像信息。

可选的，构建模块72，用于识别所述用户行为数据对应的行为时间、行为特征以及各所述行为特征对应的关键度；获取所述行为时间对应的权重影响因子，所述权重影响因子随着所述行为时间与当前时间的接近而影响所述行为特征对应的特征权重增大；根据所述权重影响因子及所述关键度，计算所述行为特征对应的特征权重；根据所述行为特征及所述特征权重，生成所述用户习惯标签。

可选的，构建模块72，用于当所述特征权重大于或等于权重阈值时，生成包括所述行为特征及所述特征权重的用户习惯标签。

可选的，构建模块72，用于从所述用户行为数据中确定包含所述行为特征的第一集合；计算在所述第一集合中，所述行为特征的出现频次；计算所述行为特征的逆向文件频率，所述逆向文件频率通过将用户行为数据总数除以所述第一集合中的数据数目，再将得到的商取对数得到；根据所述出现频次与所述逆向文件频率的乘积得到所述关键度。

可选的，构建模块72，用于获取最近一次得到的历史用户习惯标签；比对所述用户习惯标签与所述历史用户习惯标签之间的相似度；当所述相似度小于或等于预设阈值时，采用所述用户习惯标签更新所述历史用户习惯标签；根据更新后的用户习惯标签构建所述用户画像信息。

可选的，转换加密模块73，用于确定所述终端设备和服务器之间通过非对称加密算法加密的对称密钥；通过所述对称密钥对预设信息格式的用户画像数据进行加密，得到所述用户画像密文。

本申请实施例还提供一种电子设备，如图8所示，电子设备可以包括：处理器1501、通信接口1502、存储器1503和通信总线1504，其中，处理器1501，通信接口1502，存储器1503通过通信总线1504完成相互间的通信。

存储器1503，用于存放计算机程序；

处理器1501，用于执行存储器1503上所存放的计算机程序时，实现以下上述方法实施例的步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect，P C I)总线或扩展工业标准结构(Extended IndustryStandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(DigitalSignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以下上述方法实施例的步骤。

需要说明的是，对于上述装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

进一步需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种用户数据处理方法，其特征在于，包括：

获取用户行为数据；

将所述用户画像密文保存至终端设备和服务器。

2.根据权利要求1所述的方法，其特征在于，所述根据预先训练的数据检测模型，构建所述用户行为数据对应的用户画像信息，包括：

根据所述用户习惯标签构建所述用户画像信息。

3.根据权利要求2所述的方法，其特征在于，所述将所述用户行为数据输入所述数据检测模型，得到所述用户行为数据对应的用户习惯标签，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述行为特征及所述特征权重，生成所述用户习惯标签，包括：

5.根据权利要求3所述的方法，其特征在于，所述识别各所述行为特征对应的关键度，包括：

从所述用户行为数据中确定包含所述行为特征的第一集合；

计算在所述第一集合中，所述行为特征的出现频次；

6.根据权利要求2所述的方法，其特征在于，所述根据所述用户习惯标签构建所述用户画像信息，包括：

获取最近一次得到的历史用户习惯标签；

根据更新后的用户习惯标签构建所述用户画像信息。

7.根据权利要求1所述的方法，其特征在于，所述将所述用户画像信息转换为预设信息格式后进行加密，得到用户画像密文，包括：

8.一种用户数据处理装置，其特征在于，包括：

获取模块，用于获取用户行为数据；

9.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述计算机程序时，实现权利要求1-7任一项所述的方法步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7任一项所述的方法步骤。