CN109829320A

CN109829320A - 一种信息的处理方法和装置

Info

Publication number: CN109829320A
Application number: CN201910033439.7A
Authority: CN
Inventors: 涂治国; 张旭; 李涛
Original assignee: Zhuhai Tianyan Technology Co Ltd
Current assignee: Zhengzhou Apas Technology Co ltd
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-05-31
Anticipated expiration: 2039-01-14
Also published as: CN109829320B

Abstract

本申请实施例公开了一种信息的处理方法和装置，该方法包括：获取用户输入的目标数据；将所述目标数据作为整词，并通过预定的哈希算子对所述整词进行哈希映射计算，得到整词哈希映射值；将所述整词哈希映射值和所述目标数据中的部分字符组合为部分词，分别对所述整词和所述部分词进行位阵列映射；将映射后的数据进行投影，得到相应的投影矩阵；获取所述部分词中的目标部分词，根据所述目标部分词对应的投影矩阵，对所述目标部分词对应的数据进行上传。利用本申请实施例，客户端采用hash映射和投影的方式，对数据进行加密，加密性能较好，从而使得数据在传输的过程中更加安全。

Description

一种信息的处理方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种信息的处理方法和装置。

背景技术

在当前的大数据时代，信息技术为人类社会带来便捷的同时，也产生了数据安全与用户隐私的问题，为了保证信息技术的深入发展，保护个人数据隐私成为当务之急，而如何在数据发布和分析的同时保证其中的个人敏感信息不被泄露是当前面临的重大挑战。

当前，人们对隐私问题的重视促进了隐私保护技术的研究，其中，删除数据集的标识符属性是保护个人隐私的一种手段，然而，虽然删除数据集的标识符属性(如姓名、ID号等)能够在一定程度上保护个人隐私，但是一些攻击案例表明，上述简单的删除标识符的操作远不足以保证隐私信息的安全。因此，需要提供一种隐私信息更安全的处理方案。

发明内容

本申请实施例的目的是提供一种信息的处理方法和装置，以提供一种隐私信息更安全的处理方案。

为实现上述技术方案，本申请实施例是这样实现的：

本申请实施例提供的一种信息的处理方法，所述方法包括：

获取用户输入的目标数据；

将所述目标数据作为整词，并通过预定的哈希算子对所述整词进行哈希映射计算，得到整词哈希映射值；

将所述整词哈希映射值和所述目标数据中的部分字符组合为部分词，分别对所述整词和所述部分词进行位阵列映射；

将映射后的数据进行投影，得到相应的投影矩阵；

获取所述部分词中的目标部分词，根据所述目标部分词对应的投影矩阵，对所述目标部分词对应的数据进行上传。

本申请实施例提供的一种信息的处理方法，所述方法包括：

接收上传的目标部分词对应的数据，所述目标部分词对应的数据是在将用户输入的目标数据作为整词，并通过预定的哈希算子对所述整词进行哈希映射计算，得到整词哈希映射值，将所述整词哈希映射值和所述目标数据中的部分字符组合为部分词，分别对所述整词和所述部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，在获取所述部分词中的目标部分词后，根据所述目标部分词对应的投影矩阵而上传的数据；

根据所述目标部分词对应的数据，构建所述目标部分词对应的恢复矩阵；

对所述目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵；

基于所述反向投影矩阵，对所述目标数据进行频次统计，得到统计结果；

根据所述统计结果，确定所述目标数据中字符的排序，以确定所述目标数据。

本申请实施例提供的一种信息的处理装置，所述装置包括：

数据获取模块，用于获取用户输入的目标数据；

整词映射模块，用于将所述目标数据作为整词，并通过预定的哈希算子对所述整词进行哈希映射计算，得到整词哈希映射值；

部分词映射模块，用于将所述整词哈希映射值和所述目标数据中的部分字符组合为部分词，分别对所述整词和所述部分词进行位阵列映射；

投影模块，用于将映射后的数据进行投影，得到相应的投影矩阵；

数据上传模块，用于获取所述部分词中的目标部分词，根据所述目标部分词对应的投影矩阵，对所述目标部分词对应的数据进行上传。

本申请实施例提供的一种信息的处理装置，所述装置包括：

数据接收模块，用于接收上传的目标部分词对应的数据，所述目标部分词对应的数据是在将用户输入的目标数据作为整词，并通过预定的哈希算子对所述整词进行哈希映射计算，得到整词哈希映射值，将所述整词哈希映射值和所述目标数据中的部分字符组合为部分词，分别对所述整词和所述部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，在获取所述部分词中的目标部分词后，根据所述目标部分词对应的投影矩阵而上传的数据；

恢复矩阵构建模块，用于根据所述目标部分词对应的数据，构建所述目标部分词对应的恢复矩阵；

反向投影模块，用于对所述目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵；

频次统计模块，用于基于所述反向投影矩阵，对所述目标数据进行频次统计，得到统计结果；

目标数据确定模块，用于根据所述统计结果，确定所述目标数据中字符的排序，以确定所述目标数据。

由以上本申请实施例提供的技术方案可见，本申请实施例通过获取用户输入的目标数据，将目标数据作为整词，并通过预定的哈希算子对整词进行哈希映射计算，得到整词哈希映射值，将整词哈希映射值和目标数据中的部分字符组合为部分词，分别对整词和部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，获取部分词中的目标部分词，根据目标部分词对应的投影矩阵，对目标部分词对应的数据进行上传，这样，客户端采用hash映射和投影的方式，对数据进行加密，加密性能较好，从而使得数据在传输的过程中更加安全，保护了用户的隐私数据，而且，在上传数据的过程中，获取部分词中的目标部分词进行上传，使得上传数据量较小。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种信息的处理方法实施例；

图2为本申请一种信息的处理系统的结构示意图；

图3为本申请另一种信息的处理方法实施例；

图4为本申请又一种信息的处理方法实施例；

图5为本申请又一种信息的处理方法实施例；

图6为本申请一种信息的处理过程的示意图；

图7为本申请一种频率统计得到的结果的示意图；

图8为本申请又一种信息的处理方法实施例；

图9为本申请一种信息的处理装置实施例；

图10为本申请又一种信息的处理装置实施例；

图11为本申请一种信息的处理设备实施例；

图12为本申请另一种信息的处理设备实施例。

具体实施方式

本申请实施例提供一种信息的处理方法和装置。

实施例一

如图1所示，本申请实施例提供一种信息的处理方法，该方法的执行主体可以为终端设备，其中，该终端设备可以如个人计算机等终端设备，还可以是如手机或平板电脑等移动终端设备。该方法可以应用于对用户数据进行隐私保护等处理中。该方法具体可以包括以下步骤：

在步骤S102中，获取用户输入的目标数据。

其中，目标数据可以是任意数据，本申请实施例中，目标数据可以是用户输入的搜索词(或热搜词等)，具体如“世界杯法国”或者如域名“google”等。

在实施中，当前，各类运营商(如通讯运营商、游戏运营商等)和大数据企业拥有大量的用户数据，网络上大规模的网络数据之间可能存在相互关联，从而使得各种数据集成和数据融合技术蓬勃发展，同时互联网本身的便捷性，可以使得各种类型的信息触手可及，对网络中收集的数据集进行分析可以使人们获得更多知识。但是，在当前的大数据时代，信息技术为人类社会带来便捷的同时，也产生了数据安全与用户隐私的问题，为了保证信息技术的深入发展，保护个人数据隐私成为政府和企业的当务之急，而如何在数据发布和分析的同时保证其中的个人敏感信息不被泄露是当前面临的重大挑战。

当前，人们对隐私问题的重视促进了隐私保护技术的研究，其中，删除数据集的标识符属性是保护个人隐私的一种手段，然而，虽然删除数据集的标识符属性(如姓名、ID号等)能够在一定程度上保护个人隐私，但是一些攻击案例表明，上述简单的删除标识符的操作远不足以保证隐私信息的安全。平衡隐私保护程度和数据可用性，探索以可用性为导向的隐私保护技术，成为当前研究的热点，而对隐私保护程度进行量化，又产生了差分隐私技术。

差分隐私是针对统计数据库的隐私泄露问题提出的一种新的隐私定义，基于差分隐私，在对数据集进行处理得到相应的计算处理结果的过程中，该计算处理结果对于某个具体记录的变化是不敏感的，而单个记录在数据集中或者不在数据集中，对计算结果的影响也是微乎其微，所以，一个记录因其加入到数据集中所产生的隐私泄露风险被控制在极小的、可接受的范围内，攻击者无法通过观察计算结果而获取准确的个体信息。

以下对差分隐私的相关定义进行说明：给定n个用户，每个用户对应一条记录，给定一个隐私算法M及其定义域Dom(M)和值域Ran(M)，若算法M在任意两条记录t和t'(t,t'∈Dom(M))上得到相同输出结果且满足下列不等式，则M满足ε-差分隐私。

Pr[M(t)＝t^*]≤e^ε×Pr[M(t')＝t^*] (1)

从上述定义中可以得到，差分隐私通过控制任意两条记录的输出结果的相似性，从而确保算法M满足ε-差分隐私，也即是根据隐私算法M的某个输出结果，几乎无法推导出其输入数据为哪一条记录等。

差分隐私的实施可以分为中心化和本地化两种。在中心化差分隐私保护技术中，算法M的隐私性通过近邻数据集来定义，因此其要求一个可信的第三方数据收集者来对数据分析结果进行隐私化处理。对于本地化差分隐私技术而言，每个用户能够独立地对个体数据进行处理，即将隐私化处理过程从数据收集方转移到单个用户端上，这样，就可以不需要可信第三方的介入，同时也免除了不可信第三方数据收集者可能带来的隐私攻击等问题。

当前，本地化差分隐私技术也已经得到运用，例如，苹果公司将该技术应用在操作系统iOS10上保护用户的设备数据，谷歌公司同样使用该技术从Chrome浏览器采集用户的行为统计数据等。本地化差分隐私技术作为新兴的隐私保护技术，已经成为当前的研究热点。对本地化差分隐私的研究和应用,主要考虑以下两个方面问题，即一方面，如何设计满足ε-本地化差分隐私的数据扰动算法，以保护其中的敏感信息；另一方面，数据收集者如何对查询结果进行求精处理，以提高统计结果的可用性。

差分隐私技术通常包含数据扰动和还原校正两个步骤，其中，不同的技术人员在数据扰动和还原校正方面的处理过程可以不同，例如，对于苹果公司和谷歌公司在增加扰动和数据恢复上均存在差别，苹果公司在加密上传的数据带宽、恢复精度方面的处理更优。

本地化差分隐私的研究工作可以基于随机响应技术展开，包括针对离散型数据的频数发布和针对连续型数据的均值发布等。表中，W-RR随机扰动技术可以是差分隐私扰动的基础。其中，对于利用随机响应技术进行隐私保护的处理，假设需要统计对某位总统候选人A的支持情况，有n个用户，其中支持总统候选人A的真实比例为π，其中，该真实比例对于用户是不可知的，可以对其比例进行统计，为此，技术人员或信息采集商可以发起一个敏感的问题，即“你是否支持总统候选人A？”，针对该问题，每个用户可以对此进行响应，其中，出于对隐私性的考虑，用户可能不会直接响应真实答案，而是通过下述方式决定：假设其借助于一枚非均匀的硬币来给出答案，其正面向上的概率为p，反面向上的概率为1-p，如果抛出该硬币，且正面向上，则可以回答真实答案，反面向上则回答与真实答案相反的答案。

假设，经过上述统计得到的统计结果中，如果回答“是”的人数为n₁，则回答“否”的人数为n-n₁，则如下公式(2)

Pr(X_i＝1)＝πp+(1-π)(1-p) (2)

Pr(X_i＝0)＝(1-π)p+π(1-p) (3)

然后，可以构造似然函数，即如下公式(4)

并且，lnL＝n₁ln[πp+(1-π)(1-p)]+(n-n₁)ln[(1-π)p+π(1-p)] (5)

其中，当时，极大似然估计为：

从而，可以根据总人数n，回答“是”的人数n₁和扰动概率p，可恢复真实统计值：且其隐私预算当已知隐私预算时，可得到扰动概率为

RAPPOR和S-Hist是基于上述随机响应的思想进行隐私保护，即可以将数据进行映射，然后再添加扰动。对于k个候选值，将每个候选值都编码成长度为log(k)的0或1组成的数据串，然后对数据串上的每一位数据进行随机响应。RAPPOR导致的缺点是上传的数据量大，而且当log(k)不是整数时，误差会较大。尽管S-Hist通过随机选取其中一位数据进行上传，但是S-Hist会导致查询结果不稳定，误差较大的问题等。

事实上，对于热搜词这一应用场景，候选值k可以认为是无穷大，可以属于无字典用户特征，不能直接采用上述随机扰动方法。RAPPOR-unknown是基于RAPPOR方法的一个改进，每个用户对数据的扰动处理与RAPPOR一致,但针对RAPPOR中数据收集者需要预先采集候选字符串列表，RAPPOR-unknown中基于n-gram思想，从字符串中抽取r个长度相同的字符串,然后，将扰动结果和字符串的相关信息发送给第三方数据收集者。采集数据后，数据收集者通过共现技术还原字符串，以得到字符串列表。很明显，RAPPOR-unknown通信代价更高，对于O(s)+O(r)，这主要是因为除了传输扰动后的数据，还需要将字符串及其位置信息一起传输给数据收集者用于统计候选值列表，比RAPPOR方法多出的O(r)即表示字符串及其位置信息的传输代价，显然，RAPPOR-unknown不适合字符串较多的情形，否则，不仅通信代价高,而且数据可用性也会降低等，为此，本申请实施例提供一种未知字典情况下的Heavyhitter查询，基于对RAPPOR-unkown和S-Hist的研究和改进的相关技术方案，具体可以参见下述相关内容：

当前，不同的应用程序或不同的搜索引擎，都会为用户提供搜索功能，用户可以通过该搜索功能查找网络中出现的相关内容，或者，可以通过搜索功能查询某应用程序内的某功能或信息等，例如，用户可以在搜索引擎的搜索栏中输入需要搜索的关键字，输入完成后，可以点击其中的搜索或确定按键，然后，搜索引擎可以获取搜索栏中的关键字，然后，通过该关键字生成相应的搜索请求发送给服务器，以使服务器根据该搜索请求中的关键字获取相应的数据等；再例如，用户可以启动终端设备中安装的某应用程序，该应用程序中可以包括进行应用内搜索的搜索栏，用户可以在该搜索栏中输入需要使用的功能的名称或需要查找的信息的关键字等，输入完成后，可以点击其中的搜索或确定按键，然后，搜索引擎可以获取搜索栏中的关键字，然后，通过该关键字生成相应的搜索请求发送给该应用程序的服务器，以使该应用程序的服务器根据该搜索请求中的关键字获取相应的功能的信息或其它相关信息等。

基于上述处理过程，为了保证用户的隐私数据不会在传输的过程中被窃取或被暴露给其它人，可以基于差分隐私对用户的隐私数据进行隐藏，因此，在用户向搜索栏中输入热搜词后，可以获取搜索栏中用户输入的热搜词，并可以将该热搜词作为目标数据，因此，可以获取到用户输入的目标数据。

在步骤S104中，将目标数据作为整词，并通过预定的哈希算子对该整词进行哈希映射计算，得到整词哈希映射值。

其中，整词可以是用户输入的目标数据的完整信息，例如用户输入的是“世界杯法国”，则该整词可以为“世界杯法国”，还可以是通过预定的分词方式将用户输入的目标数据划分为多个部分，每个部分可以作为一个整词，其中划分的多个部分中的每个部分可以包含大于一定数量的字符，如用户输入的目标数据包括15个文字，则将其分为多个不同部分，且每一部分超过7个文字，则可以将15个文字划分为7个文字的整词和8个文字的整词等，具体可以根据实际情况设定，本申请实施例对此不做限定。预定的哈希算子可以是用于确定某信息的哈希值的计算因子，哈希算子可以根据实际情况设定，本申请实施例对此不做限定。

在实施中，可以根据预设的方法将目标数据进行处理，具体地，基于差分隐私的处理过程，可以将用户输入的目标数据作为一个整词，然后，可以随机选取某个哈希算子，然后，可以计算该哈希算子下目标数据的哈希值，得到的哈希值即为整词哈希映射值，具体地，若用户输入的目标数据可以用d表示，随机选取的哈希算子可以通过j表示，则可以计算该哈希算子下目标数据的哈希值，可以对得到的上述哈希值进行预定关系的映射处理，得到整词哈希映射值，即为h_j(d)，具体可以如38或28等。

在步骤S106中，将上述整词哈希映射值和目标数据中的部分字符组合为部分词，分别对上述整词和该部分词进行位阵列映射。

其中，部分字符可以是目标数据中的一个或多个字符，例如，目标数据为“世界杯法国”，则部分字符可以是其中的一个字符，如“杯”等。位阵列映射可以是将某元素映射成为一个位阵列的映射方式，位阵列映射可以通过多种方式实现，例如基于Bloom Filter空间的位阵列映射等。

在实施中，为了隐藏用户输入的目标数据，可以将目标数据进行拆分，将目标数据拆分为部分词结构，此外，为了后续处理过程中能够对部分词进行聚类处理，还可以通过上述整词哈希映射值来构建部分词，具体地，可以从目标数据中选取部分字符，然后们可以在选取的字符前(或该字符后)加入上述整词哈希映射值，通过上述处理可以得到一个部分词，基于上述处理可以得到目标数据对应的多个部分词。例如，目标数据为“世界杯法国”，上述整词哈希映射值可以为h_j(d)，则可以先选取目标数据中的部分字符“世”，将其与整词哈希映射值进行组合，得到“h_j(d)世”，则“h_j(d)世”即可以作为一个部分词，相应的，还可以选取目标数据中的部分字符“界”，将其与整词哈希映射值进行组合，得到“h_j(d)界”，“h_j(d)界”即可以作为一个部分词，通过相同的处理方式可以得到h_j(d)杯”、h_j(d)法”和h_j(d)国”等部分词。

基于上述相关内容，目标数据还对应有整词，如目标数据为“世界杯法国”，则整词可以为“世界杯法国”，然后，可以对上述整词和该部分词分别进行位阵列映射，以将上述整词和该部分词分别映射到预定的空间中(如映射到Bloom Filter空间中等)，其中，对上述整词和该部分词分别进行位阵列映射的具体处理可以依据当前常用的方法实现，在此不再赘述。其中，需要说明的是，对上述整词和该部分词分别进行位阵列映射的过程中，可以生成一个M维的向量ν，且该向量的初值可以为0，可以将ν_hj(d)置为1。

在步骤S108中，将映射后的数据进行投影，得到相应的投影矩阵。

在实施中，通过上述步骤S106的处理，对上述整词和该部分词进行位阵列映射后，可以将映射后的数据进行投影，具体地，以进行Hadamard投影为例，可以进行下列变换，w＝H_hadamard*ν，其中，H_hadamard可以根据实际情况设定，例如H₁₀₂₄或H₅₁₂等。通过上述Hadamard投影处理，可以得到一个取值为[-1,1]的向量w，即可以得到相应的投影矩阵。

在步骤S110中，获取上述部分词中的目标部分词，根据该目标部分词对应的投影矩阵，对目标部分词对应的数据进行上传。

其中，目标部分词可以部分词中的一个或多个部分词，例如，基于上述步骤S106中的示例，目标数据为“世界杯法国”，部分词可以包括“h_j(d)世”、“h_j(d)界”、h_j(d)杯”、h_j(d)法”和h_j(d)国”等部分词，目标部分词可以是上述5个部分词中的一个或多个部分词。

在实施中，通过上述步骤S108的处理得到投影矩阵后，可以在[0，m)中随机选择一个变量l_i，同时，可以获取目标数据对应的隐私系数，然后，可以基于上述隐私系数和上述变量l_i对应的投影矩阵，计算扰动概率(如伯努利概率等)，其中，以概率p的分布为P(u＝1)＝p，当u为1时，输出v_out＝1，否则输出v_out＝-1等。然后，可以通过扰动概率从目标部分词对应的投影矩阵中随机选择一位数据ν_out，其中，ν_out∈[-1,1]。如图2所示，终端设备可以将上述变量l_i、哈希算子j和一位数据ν_out上传给服务器。

本申请实施例提供一种信息的处理方法，通过获取用户输入的目标数据，将目标数据作为整词，并通过预定的哈希算子对整词进行哈希映射计算，得到整词哈希映射值，将整词哈希映射值和目标数据中的部分字符组合为部分词，分别对整词和部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，获取部分词中的目标部分词，根据目标部分词对应的投影矩阵，对目标部分词对应的数据进行上传，这样，客户端采用hash映射和投影的方式，对数据进行加密，加密性能较好，从而使得数据在传输的过程中更加安全，保护了用户的隐私数据，而且，在上传数据的过程中，获取部分词中的目标部分词进行上传，使得上传数据量较小。

实施例二

如图3所示，本申请实施例提供一种信息的处理方法，该方法的执行主体可以为服务器，其中，该服务器可以是单一的服务器，也可以是由多个服务器组成的服务器集群。该方法可以应用于对用户数据进行隐私保护等处理中。该方法具体可以包括以下步骤：

在步骤S302中，接收上传的目标部分词对应的数据，该目标部分词对应的数据是在将用户输入的目标数据作为整词，并通过预定的哈希算子对该整词进行哈希映射计算，得到整词哈希映射值，将该整词哈希映射值和目标数据中的部分字符组合为部分词，分别对整词和部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，在获取到部分词中的目标部分词后，根据目标部分词对应的投影矩阵而上传的数据。

在实施中，用户的终端设备等可以获取用户输入的目标数据，然后，将目标数据作为整词，并通过预定的哈希算子对该整词进行哈希映射计算，得到整词哈希映射值，可以将上述整词哈希映射值和目标数据中的部分字符组合为部分词，分别对上述整词和该部分词进行位阵列映射，例如可以将上述整词和该部分词映射到Bloom Filter空间等。将映射后的数据进行投影，得到相应的投影矩阵，获取上述部分词中的目标部分词，根据该目标部分词对应的投影矩阵，对目标部分词对应的数据进行上传。

在步骤S304中，根据上述目标部分词对应的数据，构建目标部分词对应的恢复矩阵。

在实施中，在接收到上传的目标部分词对应的数据后，可以构建反向投影矩阵(如Bloom Filter矩阵等)，其中可以针对上传的所有数据设置相应的常数，其中，该常数可以与隐私系数有关。然后，可以对反向投影矩阵进行初始化处理。对于用户上传的数据，以其中的任意数据为例，如上传的数据为(j,l_i,v_out)，可以根据上述设置的常数、用户输入的目标数据和上述输出的一位数据ν_out，构建目标部分词对应的恢复矩阵。

在步骤S306中，对目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵。

在步骤S308中，基于上述反向投影矩阵，对目标数据进行频次统计，得到统计结果。

在实施中，由于反向投影矩阵可以恢复用户输入的目标数据的频次信息，因此，对于特定字符，可以对该特定字符进行哈希映射，得到该特定字符的哈希映射值。然后，可以基于上述反向投影矩阵对该特定字符的频次进行统计，具体地，可以预先设定进行频次统计的相关算法，该算法可以依据大量的样本数据进行概率统计等方式获得，在实际应用中还可以设定其它相关算法，并可以基于该算法对该特定字符的频次进行统计计算等。

需要说明的是，为了尽可能的减小频次统计的误差，可以对上述得到的频次或频数进行修正，具体的修正方式可以根据平均误差等方式进行修正，还可以通过预定的误差修正方式算法对上述频次或频数进行修正等。

在步骤S310中，根据上述统计结果，确定目标数据中字符的排序，以确定目标数据。

在实施中，通过上述处理，对用户输入的目标数据进行数据恢复后，首先，可以对目标数据对应的部分词进行每个位置的频次统计，然后，对相同前缀的数据进行聚类，从而将多个不同的部分词拼接完成整词，最后，可以对得到的整词进行频次统计，得到相应搜索词的排序。

本申请实施例提供一种信息的处理方法，通过接收上传的目标部分词对应的数据，目标部分词对应的数据是在将用户输入的目标数据作为整词，并通过预定的哈希算子对整词进行哈希映射计算，得到整词哈希映射值，将整词哈希映射值和目标数据中的部分字符组合为部分词，分别对整词和部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，在获取部分词中的目标部分词后，根据目标部分词对应的投影矩阵而上传的数据，根据目标部分词对应的数据，构建目标部分词对应的恢复矩阵，对目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵，基于反向投影矩阵，对目标数据进行频次统计，得到统计结果，根据统计结果，确定目标数据中字符的排序，以确定目标数据，这样，服务器端针对上传的结果得到恢复矩阵和反向投影，获得反向投影矩阵，进行频次恢复，并将搜索词进行整词和部分词进行分解，分别对部分词和整词进行统计，先对部分词统计，根据前缀拼接各个位置的部分词，得到整词，再对整词进行频率统计，得到热搜词结果，从而对整词和部分词分别进行Hash映射扰动和统计，两者扰动和统计规则完全一样，而且扰动上传的数据只需要一位数据，使数据上传带宽很小，且达到数据恢复精度高的具体变化，达到了隐藏用户数据的同时，能够进行热搜词发现的技术效果，具有上传数据量小，加密性能好。

实施例三

如图4所示，本申请实施例提供一种信息的处理方法，该方法的执行主体可以为终端设备和服务器，其中，该终端设备可以如个人计算机等终端设备，还可以是如手机或平板电脑等移动终端设备，该服务器可以是单一的服务器，也可以是由多个服务器组成的服务器集群。该方法可以应用于对用户数据进行隐私保护等处理中。该方法具体可以包括以下步骤：

在步骤S402中，终端设备获取用户输入的目标数据。

上述步骤S402的具体处理过程可以参见上述实施例一中步骤S102的相关内容，在此不再赘述。

在步骤S404中，终端设备将目标数据作为整词，并通过预定的哈希算子对上述整词进行哈希映射计算，得到整词哈希映射值。

上述步骤S404的具体处理过程可以参见上述实施例一中步骤S104的相关内容，在此不再赘述。

在步骤S406中，终端设备将上述整词哈希映射值和目标数据中的部分字符组合为部分词，分别对整词和部分词进行位阵列映射。

上述步骤S406的具体处理过程可以参见上述实施例一中步骤S106的相关内容，在此不再赘述。

在步骤S408中，终端设备将映射后的数据进行投影，得到相应的投影矩阵。

上述步骤S408的具体处理过程可以参见上述实施例一中步骤S108的相关内容，在此不再赘述。

在步骤S410中，终端设备根据目标部分词对应的投影矩阵和预定的隐私系数，确定目标部分词对应的扰动概率。

其中，隐私系数可以根据实际情况设定，具体如0.9或0.5等，本申请实施例对此不做限定。

上述步骤S410的处理可以多种多样，具体可以通过上述实施例一中S110中的相关内容执行。

在步骤S412中，终端设备根据上述扰动概率，从目标部分词对应的投影矩阵中选取一位输出数据。

其中，输出数据为上述提到的向量ν_out，且ν_out∈[-1,1]。

在实施中，可以通过扰动概率从目标部分词对应的投影矩阵中选择一位数据ν_out，具体处理过程可以根据得到的实际扰动概率的数值，并可以基于预定的算法确定，本申请实施例对此不做限定。

在步骤S414中，终端设备将预定的哈希算子、上述输出数据和目标部分词的信息进行上传。

其中，目标部分词的信息可以包括目标部分词在整词中的位置信息、目标部分词的内容等，本申请实施例中，目标部分词的信息可以为目标部分词在整词中的位置信息。

在实施中，终端设备可以获取上述计算哈希值的过程中选用的哈希算子(基于上述内容可以用j表示)、上述输出的一位数据ν_out，以及目标部分词在整词中的位置信息，其中，目标部分词在整词中的位置信息可以通过上述步骤S410中，在[0，m)中随机选择一个变量l_i表示，这样，终端设备可以将(j，l_i，ν_out)作为目标部分词对应的数据，并可以将(j，l_i，ν_out)上传给服务器。

在步骤S416中，服务器接收上传的目标部分词对应的数据。

在步骤S418中，服务器根据目标部分词对应的数据，构建目标部分词对应的恢复矩阵。

在步骤S420中，服务器对目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵。

在步骤S422中，服务器基于上述反向投影矩阵，对目标数据中的部分词进行每个位置的频次统计。

在步骤S424中，服务器对目标数据中的部分词进行每个位置的频次统计得到的频数进行修正，得到修正后的每个位置的频次统计结果。

在实施中，为了使得得到的每个位置的频次统计的结果更加准确，可以对目标数据中的部分词进行每个位置的频次统计得到的频数进行修正，具体的修正方式可以通过多种方式实现。例如可以通过平均误差(即每个位置的频次统计得到的频数加上或减去平均误差等)进行修正等。

在步骤S426中，服务器根据修正后的每个位置的频次统计结果，对相同前缀的部分词进行聚类，将属于同一类的部分词拼接成为整词。

在步骤S428中，服务器对拼接的整词进行频次统计，得到统计结果。

在步骤S430中，服务器根据上述统计结果，确定目标数据中字符的排序，以确定目标数据。

而且，服务器通过接收上传的目标部分词对应的数据，根据目标部分词对应的数据，构建目标部分词对应的恢复矩阵，对目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵，基于反向投影矩阵，对目标数据进行频次统计，得到统计结果，根据统计结果，确定目标数据中字符的排序，以确定目标数据，这样，服务器端针对上传的结果得到恢复矩阵和反向投影，获得反向投影矩阵，进行频次恢复，并将搜索词进行整词和部分词进行分解，分别对部分词和整词进行统计，先对部分词统计，根据前缀拼接各个位置的部分词，得到整词，再对整词进行频率统计，得到热搜词结果，从而对整词和部分词分别进行Hash映射扰动和统计，两者扰动和统计规则完全一样，而且扰动上传的数据只需要一位数据，使数据上传带宽很小，且达到数据恢复精度高的具体变化，达到了隐藏用户数据的同时，能够进行热搜词发现的技术效果，具有上传数据量小，加密性能好。

实施例四

如图5所示，本申请实施例提供一种信息的处理方法，该方法的执行主体可以为终端设备和服务器，其中，该终端设备可以如个人计算机等终端设备，还可以是如手机或平板电脑等移动终端设备，该服务器可以是单一的服务器，也可以是由多个服务器组成的服务器集群。该方法可以应用于对用户数据进行隐私保护等处理中。本实施例中，以分别对整词和部分词进行位阵列映射，以将该整词和部分词映射到Bloom Filter空间，以及投影矩阵为Hadamard投影矩阵，反向投影矩阵为Bloom Filter矩阵为例进行详细说明，对于其它情况的处理，可以参见下述相关内容执行，本申请实施例对此不做限定。该方法具体可以包括以下步骤：

在步骤S502中，终端设备获取用户输入的目标数据。

在实施中，不同的应用程序或不同的搜索引擎，都会为用户提供搜索功能，用户可以通过该搜索功能查找网络中出现的相关内容，或者，可以通过搜索功能查询某应用程序内的某功能或信息等。基于上述方式，为了保证用户的隐私数据不会在传输的过程中被窃取或被暴露给其它人，可以基于差分隐私对用户的隐私数据进行隐藏，因此，在用户向搜索栏中输入热搜词后，可以获取搜索栏中用户输入的热搜词，并可以将该热搜词作为目标数据，因此，可以获取到用户输入的目标数据。

在步骤S504中，终端设备将目标数据作为整词，并通过预定的哈希算子对上述整词进行哈希映射计算，得到整词哈希映射值。

在实施中，可以基于差分隐私的处理过程，将用户输入的目标数据作为一个整词，然后，可以随机选取某个哈希算子，然后，可以计算该哈希算子下目标数据的哈希值，再对得到的哈希值进行映射处理，得到整词哈希映射值，即若用户输入的目标数据可以用d表示，随机选取的哈希算子可以通过j表示，则可以计算该哈希算子下目标数据的哈希值，可以对得到的上述哈希值进行预定关系的映射处理，得到整词哈希映射值，即为h_j(d)，具体可以如38或28等。例如，首先构建k个sha256的哈希hash算子，k＝65536，然后，可以通过上述哈希算子对上述整词进行哈希计算，得到上述整词对应的哈希值，然后，可以将整词对应的哈希值映射到预定数值区间内的某一个数值，如，可以将整词对应的哈希值映射到[0，128)之间的某个数值(如82或97等)。映射得到的数值即为整词哈希映射值。

在步骤S506中，终端设备将上述整词哈希映射值和目标数据中的部分字符组合为部分词，分别将整词和部分词映射到Bloom Filter空间。

在实施中，可以通过上述整词哈希映射值来构建部分词，具体处理过程可以包括多种方式，以下提供一种可选的处理方式，具体可以包括以下内容：可以从目标数据中选取部分字符，然后们可以在选取的字符之前或该字符之后加入上述整词哈希映射值，通过上述处理可以得到一个部分词，具体地，通过上述方式对整词s进行哈希运算得到相应的哈希值h(s)，可以将上述哈希值映射到[0,128)之间的某个数值，作为后续部分词的前缀，然后，随机选择部分字符s[i:i+1]，i∈[0,1,2,3,4,5,6,7,8,9…]，连接上述两个词得到r＝h(s)|s[i:i+1]，可以将其作为部分词。从过上述处理可以得到目标数据对应的多个部分词。

例如，目标数据为“世界杯法国”，上述整词哈希映射值可以为h_j(d)，则可以先选取目标数据中的部分字符“世”，将其与整词哈希映射值进行组合，得到“h_j(d)世”，则“h_j(d)世”即可以作为一个部分词，相应的，还可以选取目标数据中的其它部分字符，将其与整词哈希映射值进行组合，得到相应的部分词。

基于上述相关内容，可以将上述整词和该部分词分别映射到Bloom Filter空间，具体地，可以生成一个m维的向量ν，且该向量的初值可以为0，可以将ν_hj(d)置为1，然后，可以将上述整词和该部分词分别映射到Bloom Filter空间，其具体处理可以依据当前常用的方法实现，在此不再赘述。

在步骤S508中，终端设备将映射后的数据进行Hadamard投影，得到Hadamard投影矩阵。

在实施中，基于上述内容，首先构建k个sha256的hash算子，其中k＝65536，将任意字符数据统一映射到Bloom Filter空间，空间宽度m可以为1024，得到一个向量v＝{0}^m,然后，构建一个H₁₀₂₄的Hadamard矩阵，通过上述步骤S506的处理，将上述整词和该部分词映射到Bloom Filter空间后，可以映射后的数据进行Hadamard投影，具体地，可以进行下列变换，w＝H_hadamard*ν，其中，H_hadamard可以为H₁₀₂₄，即将Hash映射进行Hadamard投影w＝H₁₀₂₄*v，得到一个取值为[-1,1]的向量w，即可以得到Hadamard投影矩阵。

在步骤S510中，终端设备根据目标部分词对应的Hadamard投影矩阵和预定的隐私系数，确定目标部分词对应的伯努利概率。

上述步骤S510的处理可以多种多样，具体可以通过上述实施例一中的相关内容执行，以下还可以再提供一种可选的处理方式，具体可以包括以下内容：将目标部分词对应的Hadamard投影矩阵和预定的隐私系数分别代入下述公式

中计算，得到目标部分词对应的伯努利概率，其中，p表示目标部分词对应的伯努利概率，w[li]表示目标部分词对应的Hadamard投影矩阵，ε表示隐私系数。其中，以概率p的伯努利分布为P(u＝1)＝p，当u为1时，输出v_out＝1，否则输出v_out＝-1等。

在实施中，通过上述步骤S508的处理得到Hadamard投影矩阵后，可以在[0，m)中随机选择一个变量l_i，通过上述步骤S508的处理，得到目标部分词对应的Hadamard投影矩阵w[li]，然后，可以将w[li]和隐私系数ε代入到上述方程(6)中进行计算，得到目标部分词对应的伯努利概率。

在步骤S512中，终端设备根据上述伯努利概率，从目标部分词对应的Hadamard投影矩阵中选取一位输出数据。

其中，输出数据为上述提到的向量ν_out，且ν_out∈[-1,1]。

在实施中，可以通过伯努利概率从目标部分词对应的Hadamard投影矩阵中选择一位数据ν_out，具体处理过程可以根据得到的实际伯努利概率的数值，并可以基于预定的算法确定，本申请实施例对此不做限定。

在步骤S514中，终端设备将预定的哈希算子、上述输出数据和目标部分词的信息进行上传。

在实施中，终端设备可以获取上述计算哈希值的过程中选用的哈希算子(基于上述内容可以用j表示)、上述输出的一位数据ν_out，以及目标部分词在整词中的位置信息，其中，目标部分词在整词中的位置信息可以通过上述步骤S510中，在[0，m)中随机选择一个变量l_i表示，这样，终端设备可以将(j，l_i，ν_out)作为目标部分词对应的数据，并可以将(j，l_i，ν_out)上传给服务器。通过上述方式可以将不同的部分词对应的数据上传给服务器。如图6所示，以热搜词(域名)“yahoo”为例，通过上述处理过程，可以得到整词或部分词映射到BloomFilter空间的数组或矩阵，其中，该数组或矩阵有0和1构成，然后得到Hadamard投影矩阵(即以-1和1构成的矩阵)，最终得到上传的数据(j，l_i，1)(即ν_out＝1)。

在步骤S516中，服务器接收上传的目标部分词对应的数据。

其中，上传的目标部分词对应的数据即为上述(j，l_i，ν_out)。

如图6所示，可以通过图6所示的处理过程得到热搜词(域名)“yahoo”及其频次信息，具体可以参见上述相关内容。

在步骤S518中，服务器根据目标部分词对应的数据，构建目标部分词对应的恢复矩阵。

在实施中，在接收到上传的目标部分词对应的数据后，可以构建Bloom Filter矩阵，首先，可以针对所有接收到的数据(j,l_i,v_out)，设置相应的常数，即下述等式(7)

其中，ε表示隐私系数，c_ε表示设置的常数。

然后，可以对Bloom Filter矩阵进行初始化处理，即M∈{0}^k×m，其中，m为上述向量ν的维数，k为预定维数，且k＝0,1,2,3….。对于用户上传的数据(j,l_i,v_out)，可以根据上述设置的常数、用户输入的目标数据和上述输出的一位数据ν_out，构建目标部分词对应的恢复矩阵，即得到x_i＝d*v_out*c_ε，并且M(j,l_i)+＝x_i。其中，目标部分词对应的恢复矩阵为M(j，l_i)，x_i为中间系数。

在步骤S520中，服务器对目标部分词对应的恢复矩阵进行Hadamard反向投影，得到Bloom Filter矩阵。

在实施中，基于上述内容，得到目标部分词对应的恢复矩阵后，可以对目标部分词对应的恢复矩阵进行Hadamard反向投影，得到Bloom Filter矩阵其中，M为Bloom Filter矩阵，M^H表示目标部分词对应的恢复矩阵。

在步骤S522中，服务器基于上述Bloom Filter矩阵，对目标数据中的部分词进行每个位置的频次统计。

在实施中，由于Bloom Filter矩阵可以可恢复用户输入的目标数据的频次信息，因此，对于特定字符，可以对该特定字符进行哈希映射，得到该特定字符的哈希映射值。然后，可以基于上述Bloom Filter矩阵对该特定字符的频次进行统计，具体地，对于矩阵M∈R^k×m进行统计，得到

其中，M_l,hl(d)表示Bloom Filter矩阵，ν_mean表示目标数据中的部分词进行每个位置的频次统计的数值。

在步骤S524中，服务器对目标数据中的部分词进行每个位置的频次统计得到的频数进行修正，得到修正后的每个位置的频次统计结果。

在实施中，为了使得得到的每个位置的频次统计的结果更加准确，可以对目标数据中的部分词进行每个位置的频次统计得到的频数进行修正，具体的修正方式可以通过以下方式实现，具体可以参见下述等式(9)

其中，f表示修正参数，n表示目标部分词对应的Hadamard投影矩阵中包含的数据的总位数。

在步骤S526中，服务器根据修正后的每个位置的频次统计结果，对相同前缀的部分词进行聚类，将属于同一类的部分词拼接成为整词。

在步骤S528中，服务器对拼接的整词进行频次统计，得到统计结果。

在步骤S530中，服务器根据上述统计结果，确定目标数据中字符的排序，以确定目标数据。

通过上述方式，可以以下述方式进行结果的表示，例如，首先进行频率统计模拟，将用户数据n＝100000，数据域d＝3000，隐私系数ε＝4的数据进行模拟实验，将统计真实值和文中所述的差分隐私算法得到的统计值进行比较，按照频次差异最大作为恢复误差估计，如下：

err＝max(abs(f(x_i)-f^*(x_i))) (10)

频率统计得到结果如图7所示，图中阴影条为真实值，空白条为估计值，可见，差分隐私的数据频率大小和趋势均接近真实值。

上述统计结果表明，频次恢复误差不会超过10％，真实反映了原始数据的统计信息，同时满足了差分隐私的要求。按照上述方法，对模拟数据进行整词和分词分别统计，最后的统计词汇频率完全反映了真实词汇的出现频率。

实施例五

如图8所示，本申请实施例提供一种信息的处理方法，该方法的执行主体可以为终端设备和服务器，其中，该终端设备可以如个人计算机等终端设备，还可以是如手机或平板电脑等移动终端设备，该服务器可以是单一的服务器，也可以是由多个服务器组成的服务器集群。该方法可以应用于对用户数据进行隐私保护等处理中。

在步骤S802中，终端设备获取用户输入的目标数据。

在步骤S804中，终端设备将目标数据作为整词，并通过预定的哈希算子对上述整词进行哈希映射计算，得到整词哈希映射值。

在步骤S806中，终端设备将上述整词哈希映射值和目标数据中的部分字符组合为部分词，分别将整词和部分词映射到Bloom Filter空间。

在步骤S808中，终端设备将映射后的数据进行Hadamard投影，得到Hadamard投影矩阵。

在步骤S810中，终端设备根据目标部分词对应的Hadamard投影矩阵和预定的隐私系数，确定目标部分词对应的伯努利概率。

在步骤S812中，终端设备根据上述伯努利概率，从目标部分词对应的Hadamard投影矩阵中选取一位输出数据。

在步骤S814中，终端设备将预定的哈希算子、上述输出数据和目标部分词的信息进行上传。

在步骤S816中，服务器接收上传的目标部分词对应的数据。

在步骤S818中，服务器根据目标部分词对应的数据，构建目标部分词对应的恢复矩阵。

在步骤S820中，服务器对目标部分词对应的恢复矩阵进行Hadamard反向投影，得到Bloom Filter矩阵。

在步骤S822中，服务器基于上述Bloom Filter矩阵，对目标数据中的部分词进行每个位置的频次统计。

在步骤S824中，服务器根据每个位置的频次统计的结果，对相同前缀的部分词进行聚类，将属于同一类的部分词拼接成为整词。

在步骤S826中，服务器对拼接的整词进行频次统计，得到统计结果。

在步骤S828中，服务器根据上述统计结果，确定目标数据中字符的排序，以确定目标数据。

实施例六

以上为本申请实施例提供的信息的处理方法，基于同样的思路，本申请实施例还提供一种信息的处理装置，如图9所示。

所述信息的处理装置包括：数据获取模块901、整词映射模块902、部分词映射模块903、投影模块904和数据上传模块905，其中：

数据获取模块901，用于获取用户输入的目标数据；

整词映射模块902，用于将所述目标数据作为整词，并通过预定的哈希算子对所述整词进行哈希映射计算，得到整词哈希映射值；

部分词映射模块903，用于将所述整词哈希映射值和所述目标数据中的部分字符组合为部分词，分别对所述整词和所述部分词进行位阵列映射；

投影模块904，用于将映射后的数据进行投影，得到相应的投影矩阵；

数据上传模块905，用于获取所述部分词中的目标部分词，根据所述目标部分词对应的投影矩阵，对所述目标部分词对应的数据进行上传。

本申请实施例中，所述数据上传模块905，包括：

概率确定单元，用于根据所述目标部分词对应的投影矩阵和预定的隐私系数，确定所述目标部分词对应的扰动概率；

输出数据选取单元，用以根据所述扰动概率，从所述目标部分词对应的投影矩阵中选取一位输出数据；

数据上传单元，用于将预定的哈希算子、所述输出数据和所述目标部分词的信息进行上传。

本申请实施例中，所述扰动概率为伯努利概率，所述投影矩阵为Hadamard投影矩阵，所述概率确定单元，用于将所述目标部分词对应的Hadamard投影矩阵和预定的隐私系数分别代入下述公式

中计算，得到所述目标部分词对应的伯努利概率，其中，p表示所述目标部分词对应的伯努利概率，w[li]表示所述目标部分词对应的Hadamard投影矩阵，ε表示隐私系数。

本申请实施例提供一种信息的处理装置，通过获取用户输入的目标数据，将目标数据作为整词，并通过预定的哈希算子对整词进行哈希映射计算，得到整词哈希映射值，将整词哈希映射值和目标数据中的部分字符组合为部分词，分别对整词和部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，获取部分词中的目标部分词，根据目标部分词对应的投影矩阵，对目标部分词对应的数据进行上传，这样，客户端采用hash映射和投影的方式，对数据进行加密，加密性能较好，从而使得数据在传输的过程中更加安全，保护了用户的隐私数据，而且，在上传数据的过程中，获取部分词中的目标部分词进行上传，使得上传数据量较小。

实施例七

基于同样的思路，本申请实施例还提供一种信息的处理装置，如图10所示。

所述信息的处理装置包括：数据接收模块1001、恢复矩阵构建模块1002、反向投影模块1003、频次统计模块1004和目标数据确定模块1005，其中：

数据接收模块1001，用于接收上传的目标部分词对应的数据，所述目标部分词对应的数据是在将用户输入的目标数据作为整词，并通过预定的哈希算子对所述整词进行哈希映射计算，得到整词哈希映射值，将所述整词哈希映射值和所述目标数据中的部分字符组合为部分词，分别对所述整词和所述部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，在获取所述部分词中的目标部分词后，根据所述目标部分词对应的投影矩阵而上传的数据；

恢复矩阵构建模块1002，用于根据所述目标部分词对应的数据，构建所述目标部分词对应的恢复矩阵；

反向投影模块1003，用于对所述目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵；

频次统计模块1004，用于基于所述反向投影矩阵，对所述目标数据进行频次统计，得到统计结果；

目标数据确定模块1005，用于根据所述统计结果，确定所述目标数据中字符的排序，以确定所述目标数据。

本申请实施例中，所述频次统计模块1004，包括：

第一频次统计单元，用于基于所述反向投影矩阵，对所述目标数据中的部分词进行每个位置的频次统计；

拼接单元，用于根据所述每个位置的频次统计结果，对相同前缀的部分词进行聚类，将属于同一类的部分词拼接成为整词；

第二频次统计单元，用于对拼接的整词进行频次统计，得到统计结果。

本申请实施例中，所述装置还包括：

频次统计模块，用于对所述目标数据中的部分词进行每个位置的频次统计得到的频数进行修正，得到修正后的每个位置的频次统计结果；

所述拼接单元，用于根据所述修正后的每个位置的频次统计结果，对相同前缀的部分词进行聚类，将属于同一类的部分词拼接成为整词。

本申请实施例中，所述分别对所述整词和所述部分词进行位阵列映射，以将所述整词和所述部分词映射到Bloom Filter空间，所述投影矩阵为Hadamard矩阵，所述反向投影矩阵为Bloom Filter矩阵。

本申请实施例提供一种信息的处理装置，通过接收上传的目标部分词对应的数据，根据目标部分词对应的数据，构建目标部分词对应的恢复矩阵，对目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵，基于反向投影矩阵，对目标数据进行频次统计，得到统计结果，根据统计结果，确定目标数据中字符的排序，以确定目标数据，这样，服务器端针对上传的结果得到恢复矩阵和反向投影，获得反向投影矩阵，进行频次恢复，并将搜索词进行整词和部分词进行分解，分别对部分词和整词进行统计，先对部分词统计，根据前缀拼接各个位置的部分词，得到整词，再对整词进行频率统计，得到热搜词结果，从而对整词和部分词分别进行Hash映射扰动和统计，两者扰动和统计规则完全一样，而且扰动上传的数据只需要一位数据，使数据上传带宽很小，且达到数据恢复精度高的具体变化，达到了隐藏用户数据的同时，能够进行热搜词发现的技术效果，具有上传数据量小，加密性能好。

实施例八

基于同样的思路，本申请实施例还提供一种信息的处理设备，如图11所示。

该信息的处理设备可以为上述实施例提供的终端设备等。

信息的处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1101和存储器1102，存储器1102中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1102可以是短暂存储或持久存储。存储在存储器1102的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对信息的处理设备中的一系列计算机可执行指令。更进一步地，处理器1101可以设置为与存储器1102通信，在信息的处理设备上执行存储器1102中的一系列计算机可执行指令。信息的处理设备还可以包括一个或一个以上电源1103，一个或一个以上有线或无线网络接口1104，一个或一个以上输入输出接口1105，一个或一个以上键盘1106。

具体在本实施例中，信息的处理设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对信息的处理设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

获取用户输入的目标数据；

将映射后的数据进行投影，得到相应的投影矩阵；

本申请实施例中，所述根据所述目标部分词对应的投影矩阵，对所述目标部分词对应的数据进行上传，包括：

根据所述目标部分词对应的投影矩阵和预定的隐私系数，确定所述目标部分词对应的扰动概率；

根据所述扰动概率，从所述目标部分词对应的投影矩阵中选取一位输出数据；

将预定的哈希算子、所述输出数据和所述目标部分词的信息进行上传。

本申请实施例中，所述扰动概率为伯努利概率，所述投影矩阵为Hadamard投影矩阵，

所述根据所述目标部分词对应的投影矩阵和预定的隐私系数，确定所述目标部分词对应的扰动概率，包括：

将所述目标部分词对应的Hadamard投影矩阵和预定的隐私系数分别代入下述公式

本申请实施例提供一种信息的处理设备，通过获取用户输入的目标数据，将目标数据作为整词，并通过预定的哈希算子对整词进行哈希映射计算，得到整词哈希映射值，将整词哈希映射值和目标数据中的部分字符组合为部分词，分别对整词和部分词进行位阵列映射，将映射后的数据进行投影，得到相应的投影矩阵，获取部分词中的目标部分词，根据目标部分词对应的投影矩阵，对目标部分词对应的数据进行上传，这样，客户端采用hash映射和投影的方式，对数据进行加密，加密性能较好，从而使得数据在传输的过程中更加安全，保护了用户的隐私数据，而且，在上传数据的过程中，获取部分词中的目标部分词进行上传，使得上传数据量较小。

实施例九

基于同样的思路，本申请实施例还提供一种信息的处理设备，如图12所示。

该信息的处理设备可以为上述实施例提供的服务器等。

信息的处理设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器1201和存储器1202，存储器1202中可以存储有一个或一个以上存储应用程序或数据。其中，存储器1202可以是短暂存储或持久存储。存储在存储器1202的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对信息的处理设备中的一系列计算机可执行指令。更进一步地，处理器1201可以设置为与存储器1202通信，在信息的处理设备上执行存储器1202中的一系列计算机可执行指令。信息的处理设备还可以包括一个或一个以上电源1203，一个或一个以上有线或无线网络接口1204，一个或一个以上输入输出接口1205，一个或一个以上键盘1206。

本申请实施例中，所述基于所述反向投影矩阵，对所述目标数据进行频次统计，得到统计结果，包括：

基于所述反向投影矩阵，对所述目标数据中的部分词进行每个位置的频次统计；

根据所述每个位置的频次统计结果，对相同前缀的部分词进行聚类，将属于同一类的部分词拼接成为整词；

对拼接的整词进行频次统计，得到统计结果。

本申请实施例中，所述基于所述反向投影矩阵，对所述目标数据中的部分词进行每个位置的频次统计之后，所述方法还包括：

对所述目标数据中的部分词进行每个位置的频次统计得到的频数进行修正，得到修正后的每个位置的频次统计结果；

所述根据所述每个位置的频次统计结果，对相同前缀的部分词进行聚类，将属于同一类的数据拼接成为整词，包括：

根据所述修正后的每个位置的频次统计结果，对相同前缀的部分词进行聚类，将属于同一类的部分词拼接成为整词。

本申请实施例中，所述分别对所述整词和所述部分词进行位阵列映射，以将所述整词和所述部分词映射到Bloom Filter空间，所述投影矩阵为Hadamard投影矩阵，所述反向投影矩阵为Bloom Filter矩阵。

本申请实施例提供一种信息的处理设备，通过接收上传的目标部分词对应的数据，根据目标部分词对应的数据，构建目标部分词对应的恢复矩阵，对目标部分词对应的恢复矩阵进行反向投影，得到反向投影矩阵，基于反向投影矩阵，对目标数据进行频次统计，得到统计结果，根据统计结果，确定目标数据中字符的排序，以确定目标数据，这样，服务器端针对上传的结果得到恢复矩阵和反向投影，获得反向投影矩阵，进行频次恢复，并将搜索词进行整词和部分词进行分解，分别对部分词和整词进行统计，先对部分词统计，根据前缀拼接各个位置的部分词，得到整词，再对整词进行频率统计，得到热搜词结果，从而对整词和部分词分别进行Hash映射扰动和统计，两者扰动和统计规则完全一样，而且扰动上传的数据只需要一位数据，使数据上传带宽很小，且达到数据恢复精度高的具体变化，达到了隐藏用户数据的同时，能够进行热搜词发现的技术效果，具有上传数据量小，加密性能好。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种信息的处理方法，其特征在于，所述方法包括：

获取用户输入的目标数据；

将映射后的数据进行投影，得到相应的投影矩阵；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标部分词对应的投影矩阵，对所述目标部分词对应的数据进行上传，包括：

3.根据权利要求2所述的方法，其特征在于，所述扰动概率为伯努利概率，所述投影矩阵为Hadamard投影矩阵，

4.一种信息的处理方法，其特征在于，所述方法包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述反向投影矩阵，对所述目标数据进行频次统计，得到统计结果，包括：

对拼接的整词进行频次统计，得到统计结果。

6.根据权利要求5所述的方法，其特征在于，所述基于所述反向投影矩阵，对所述目标数据中的部分词进行每个位置的频次统计之后，所述方法还包括：

7.根据权利要求4-6中任一项所述的方法，其特征在于，所述分别对所述整词和所述部分词进行位阵列映射，以将所述整词和所述部分词映射到Bloom Filter空间，所述投影矩阵为Hadamard投影矩阵，所述反向投影矩阵为Bloom Filter矩阵。

8.一种信息的处理装置，其特征在于，所述装置包括：

数据获取模块，用于获取用户输入的目标数据；

9.根据权利要求8所述的装置，其特征在于，所述数据上传模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述扰动概率为伯努利概率，所述投影矩阵为Hadamard投影矩阵，所述概率确定单元，用于将所述目标部分词对应的Hadamard投影矩阵和预定的隐私系数分别代入下述公式

11.一种信息的处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述频次统计模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求11-13中任一项所述的装置，其特征在于，所述分别对所述整词和所述部分词进行位阵列映射，以将所述整词和所述部分词映射到Bloom Filter空间，所述投影矩阵为Hadamard矩阵，所述反向投影矩阵为Bloom Filter矩阵。