CN110955778A

CN110955778A - 一种基于差分隐私联合学习的垃圾短信识别方法及系统

Info

Publication number: CN110955778A
Application number: CN201911284688.XA
Authority: CN
Inventors: 阳文斯; 叶可江; 须成忠
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-03

Abstract

本发明涉及无线通讯技术领域，特别涉及一种基于差分隐私联合学习的垃圾短信识别方法及系统；在本发明内，手机客户端无需上传自己的短信数据至数据中心，利用手机本地短信数据集训练基于卷积神经网络的分类模型，然后将本地模型参数上传至服务器，服务器整合参与联合学习的手机客户端垃圾短信识别分类模型的参数，构建共享垃圾短信分类模型，加入差分隐私的联合学习保证了即使在共享参数的情况下也不泄露参与联合学习的手机用户信息，进一步保护手机客户端的数据隐私性和敏感性。

Description

一种基于差分隐私联合学习的垃圾短信识别方法及系统

技术领域

本发明涉及无线通讯技术领域，特别涉及一种基于差分隐私联合学习的垃圾短信识别方法及系统。

背景技术

随着通讯时代的到来，无线通信服务功能的不断增强和完善，手机成为人们日常通讯必不可少的工具之一。

手机短信也以其操作简单、方便快捷等诸多优点，成为用户间沟通的桥梁之一，但手机短信为用户提供便捷消息服务的同时，随之而来的诸多垃圾短信问题也日益严峻，广告信息、欺诈短信、谣言散布等短信内容，已经严重影响到人们正常生活、运营商形象乃至社会稳定。因此，研究垃圾短信的识别与处理对维护人民的正常生活和社会稳定具有重要意义。

目前传统的垃圾短信识别系统收集用户的短信内容建模，但是很多短信内容涉及用户的隐私问题，致使在收集短信内容建模过程中有一定的困难，数据量的不足以及一些垃圾短信识别系统的特征提取能力不强导致模型的分类效果不佳。

发明内容

本发明主要解决的技术问题是提供一种基于差分隐私联合学习的垃圾短信识别方法，是一种去中心化的垃圾短信识别技术，在不共享手机客户端的本地短信内容的情况下，可借助其他手机客户端提供的垃圾分类模型参数进行协同训练，构建共享垃圾短信分类模型，其具有更强的特征提取能力，在保护用户隐私的同时有效提高垃圾短信的识别准确率；还提供了一种基于差分隐私联合学习的垃圾短信识别系统。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种基于差分隐私联合学习的垃圾短信识别方法，其中，包括如下步骤：

步骤S1、各个手机客户端输入训练数据，对手机客户端内的短信内容进行数据清洗处理；

步骤S2、再从服务器下载初始化的底层模型，在该底层模型内提取出短信文本的特征信息和语义信息，从而进行分类构建垃圾短信检测模型；

步骤S3、运用手机客户端的本地的数据集对垃圾短信检测模型的参数进行训练更新，并将更新后的垃圾短信检测模型的参数上传至服务器内，服务器基于差分隐私通过整合参与所有的手机客户端上传的参数构建共享垃圾短信分类模型。

作为本发明的一种改进，步骤S1包括如下步骤：

步骤S11、对短信内容进行数据清洗，将短信内容中的一些特殊元素过滤；

步骤S12、将短信内容的词生成词典，词典中的每个词对应一个序号，按照原始短信内容中词的顺序，将短信里的词替换为所对应的序号。

作为本发明的进一步改进，在步骤S12内，如果短信内容的词大于设定的最大长度的词，则进行剪切，如果短信内容的词小于设定的最大长度的词，则用0进行填充来获得词向量。

作为本发明的更进一步改进，在步骤S3内，每个手机客户端运用本地的数据集对垃圾短信检测模型的参数进行训练更新，计算出垃圾短信检测模型的变化，再对垃圾短信检测模型的变化量进行归一化算出归一化值，然后将垃圾短信检测模型的变化量和归一化值传给服务器。

作为本发明的更进一步改进，在步骤S3内，服务器在共享垃圾短信分类模型内进行隐私模式计算：计算当前轮数的隐私损失，如果隐私预算已消耗完，则直接返回当前的共享垃圾短信分类模型，同时各手机客户端基于共享垃圾短信分类模型区分出正常短信和垃圾短信。

作为本发明的更进一步改进，其于差分隐私，计算当前轮数的隐私损失时，如果隐私预算未消耗完，则随机选取一部分手机客户端参与共享垃圾短信分类模型的训练，使参与的手机客户端再运用本地的数据集对垃圾短信检测模型的参数进行训练更新，计算出垃圾短信检测模型的变化，再对垃圾短信检测模型的变化量进行归一化算出归一化值，然后将垃圾短信检测模型的变化量和归一化值传给服务器，服务器再在共享垃圾短信分类模型内进行隐私模式计算。

作为本发明的更进一步改进，服务器内共享垃圾短信分类模型的更新添加噪声处理。

作为本发明的更进一步改进，隐私模式计算内采用高斯机制。

一种基于差分隐私联合学习的垃圾短信识别系统，其中，包括：

清洗处理模块，用于对手机客户端内的短信内容进行数据清洗处理；

分类构建模块，用于提取出短信文本的特征信息和语义信息，从而进行分类构建垃圾短信检测模型；

检测区分模块，用于基于差分隐私通过整合参与所有的手机客户端上传的参数构建共享垃圾短信分类模型，从而区分出正常短信和垃圾短信。

作为本发明的一种改进，分类构建模块包括输入层、卷积层、池化层和全连接层；所述卷积层和池化层用于提取出短信文本的特征信息和语义信息。

本发明的有益效果是：与现有技术相比，在本发明内，手机客户端无需上传自己的短信数据至数据中心，利用手机本地短信数据集训练基于卷积神经网络的分类模型，然后将本地模型参数上传至服务器，服务器整合参与联合学习的手机客户端垃圾短信识别分类模型的参数，构建共享垃圾短信分类模型，加入差分隐私的联合学习保证了即使在共享参数的情况下也不泄露参与联合学习的手机用户信息，进一步保护手机客户端的数据隐私性和敏感性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于差分隐私联合学习的垃圾短信识别方法的步骤框图；

图2为本发明的基于差分隐私联合学习的垃圾短信识别方法的流程示意图；

图3为本发明的差分隐私联合学习的流程示意图；

图4为本发明的基于差分隐私联合学习的垃圾短信识别系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参照图1至图3，本发明的一种基于差分隐私联合学习的垃圾短信识别方法，包括如下步骤：

在本发明内，步骤S1包括如下步骤：

其中，在步骤S12内，如果短信内容的词大于设定的最大长度的词，则进行剪切，如果短信内容的词小于设定的最大长度的词，则用0进行填充来获得词向量。

具体地讲，分为三部分，分别为数据预处理、底层垃圾短信模型建立和基于差分隐私的联合学习框架设计；首先对短信的内容进行清洗，去除短信内容中特殊符号，如’#’,’$’等，然后用词袋模型生成短信内容的词向量；其次，设计可用于对垃圾短信进行识别检测的底层模型—卷积神经网络(CNN)结构；最后，根据设计的底层模型的特性，设计基于差分隐私的联合学习框架。

在本发明内，在步骤S3内，每个手机客户端运用本地的数据集对垃圾短信检测模型的参数进行训练更新，计算出垃圾短信检测模型的变化，再对垃圾短信检测模型的变化量进行归一化算出归一化值，然后将垃圾短信检测模型的变化量和归一化值传给服务器。

在步骤S3内，服务器在共享垃圾短信分类模型内进行隐私模式计算：计算当前轮数的隐私损失，如果隐私预算已消耗完，则直接返回当前的共享垃圾短信分类模型，同时各手机客户端可基于共享垃圾短信分类模型区分出正常短信和垃圾短信；其于差分隐私，计算当前轮数的隐私损失时，如果隐私预算未消耗完，则随机选取一部分手机客户端参与共享垃圾短信分类模型的训练，使参与的手机客户端再运用本地的数据集对垃圾短信检测模型的参数进行训练更新，计算出垃圾短信检测模型的变化，再对垃圾短信检测模型的变化量进行归一化算出归一化值，然后将垃圾短信检测模型的变化量和归一化值传给服务器，服务器再在共享垃圾短信分类模型内进行隐私模式计算。

在本发明内，使得每个手机客户端均上传垃圾短信检测模型的参数至服务器内，从而由服务器进行垃圾短信检测，这样进行共享的垃圾短信检测，可以避免手机客户端的信息泄露，因为，根本不知道，这个参数是由哪台手机上传的，每台手机客户端的参数信息均在共享垃圾短信分类模型内，根本不能分清是由哪台手机客户端上传的。

如图1所示，具体地进行详细介绍：

1、数据处理；各个用户手机上的原始短信文本的格式没有统一规范，包含很多标点符号和颜文字等特殊元素，无法直接进行处理，首先需要对短信内容进行数据清洗，将短信内容中的一些特殊元素过滤，如‘*’等，然后将短信内容的词生成词典，词典中的每个词对应一个序号，按照原始短信内容中词的顺序，将短信里的词替换为所对应的序号，如果大于最大长度的词进行剪切，小于最大长度的词将用0进行填充来获得词向量。

2、垃圾短信过滤识别；底层用于检测识别垃圾短信的模型为卷积神经网络模型，该卷积神经网络由输入层、卷积层、池化层和全连接层四个部分组成；卷积神经网络模型的显著特性如局部连接和权值共享，使得模型对微小的局部特征十分敏感，更有利于提取出短信文本的完备特征信息；特有的卷积层和池化层，使得模型在训练时可以提取出词与词之间更多的抽象特征和相关的语义信息，来更好的完成分类任务。

3、基于差分隐私的联合学习垃圾短信识别方法；基于差分隐私的联合学习是利用多个手机移动端的短信内容训练垃圾短信检测模型，将模型的更新传送至服务器，服务器通过聚合多个手机客户端的模型更新来学习共享垃圾短信检测模型，加入差分隐私的联合学习框架使得学习共享模型的过程中确保不会泄露哪个手机客户端参与了垃圾短信模型的更新，同时还能维持模型的高准确性和可靠性，基于差分隐私的联合学习框架如图2所示；差分隐私是指给定两个至多相差一条记录的数据集d和d’，对于一个设定的随机算法M，其取值范围为R，对于输出子集

若算法M在数据集d和d’上的任意输出结果满足：

P[M(d)∈S]≤e^εP[M(d′)∈S]+δ；则称算法M满足(ε，δ)-差分隐私；ε是隐私保护参数，表示隐私保护的程度，ε越小意味着对于真实输出的扰动越大，隐私保护程度也越高，δ表示严格的差分隐私下隐私泄露的概率。

本发明使用的差分隐私实现方法为高斯机制，给定函数f，通过对f的真实输出添加高斯噪声，噪声的大小取决于f输出的敏感度，f输出的敏感度S_f定义为||f(d)-f(d′)||₂；高斯机制定义为

差分隐私联合学习具体步骤如下：

1、首先对于手机客户端用户，从服务器下载初始化的垃圾短信检测模型，对于固定学习率η，每个手机移动端用户k在第t轮运用本地的数据集对本地的垃圾短信识别模型的参数w_t进行更新(其中

是计算的小批量的梯度，b是batch size.)；

模型更新完后计算模型的变化：

对模型的变化量(更新)进行归一化：

将模型的变化量(更新)和模型变化量归一化后的归一值传给服务器。

其次，对于服务器，首先初始化底层的垃圾短信分类模型和隐私计算模式；在每一轮t中先计算当前轮数的隐私损失，如果隐私预算已消耗完，则直接返回当前的模型参数w_t,否则的话，从N个手机客户端中随机选取m个作为客户端，参与差分隐私的联合学习；这些参与联合学习的手机客户端都会返回自己的本地模型更新以及归一化的模型更新值，服务器计算这些归一化的模型更新值的中位数S；再用这些模型的更新添加噪声实现差分隐私来更新共享垃圾短信检测模型：

本发明为集数据清洗、词向量提取、分类模型训练、建立共享模型和模型预测于一体的基于差分隐私联合学习的垃圾短信识别方法，其不同于传统的垃圾短信识别的方法，收集用户的短信内容于数据中心，再统一建立垃圾短信识别系统，本发明运用手机客户端的本地短信内容进行本地建模分析，数据无需上传至数据中心或服务器，仍然保留在本地，各手机客户端只需上传分类模型的参数(模型更新)，服务器通过整合参与差分隐私联合学习的手机客户端的垃圾短信分类模型参数(更新)构建共享垃圾短信分类模型，在保护手机客户端的短信内容情况下提高垃圾短信识别系统的效率。

本发明为一种去中心化的垃圾短信识别技术，在不共享手机客户端的本地短信内容的情况下可借助其他手机客户端提供的垃圾分类模型参数进行协同训练，构建共享垃圾短信分类模型；本发明具有更强的特征提取能力，在保护用户隐私的同时有效提高垃圾短信的识别准确率；在本发明内，手机移动端的垃圾短信分类模型和服务端的共享垃圾短信分类模型不断的进行迭代更新，从而在保护手机用户隐私的前提下，建立效果更好的垃圾短信识别系统；提供了一种基于差分隐私联合学习的垃圾短信识别系统，参见图4，包括：

清洗处理模块201，用于对手机客户端内的短信内容进行数据清洗处理；

分类构建模块202，用于提取出短信文本的特征信息和语义信息，从而进行分类构建垃圾短信检测模型；

检测区分模块203，用于基于差分隐私通过整合参与所有的手机客户端上传的参数构建共享垃圾短信分类模型，从而区分出正常短信和垃圾短信。

其中，分类构建模块202包括输入层、卷积层、池化层和全连接层；所述卷积层和池化层用于提取出短信文本的特征信息和语义信息。

本发明的一种基于差分隐私联合学习的垃圾短信识别系统，与传统的基于短信内容的识别方法不同，手机用户端无需上传自己的短信数据至数据中心，利用手机本地短信数据集训练基于卷积神经网络的分类模型，然后将本地模型参数上传至服务器，服务器整合参与联合学习的手机客户端垃圾短信识别分类模型的参数，构建共享垃圾短信分类模型，加入差分隐私的联合学习保证了即使在共享参数的情况下也不泄露参与联合学习的手机用户信息，进一步保护手机客户端的数据隐私性和敏感性的同时，在一定程度上节省训练成本，更好地提取出短信内容的文本特征，训练更高效地垃圾短信识别系统。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的系统实施例仅仅是示意性的，例如单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，步骤S1包括如下步骤：

3.根据权利要求2所述的一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，在步骤S12内，如果短信内容的词大于设定的最大长度的词，则进行剪切，如果短信内容的词小于设定的最大长度的词，则用0进行填充来获得词向量。

4.根据权利要求1所述的一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，在步骤S3内，每个手机客户端运用本地的数据集对垃圾短信检测模型的参数进行训练更新，计算出垃圾短信检测模型的变化，再对垃圾短信检测模型的变化量进行归一化算出归一化值，然后将垃圾短信检测模型的变化量和归一化值传给服务器。

5.根据权利要求1所述的一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，在步骤S3内，服务器在共享垃圾短信分类模型内进行隐私模式计算：计算当前轮数的隐私损失，如果隐私预算已消耗完，则直接返回当前的共享垃圾短信分类模型，同时各手机客户端基于共享垃圾短信分类模型区分出正常短信和垃圾短信。

6.根据权利要求5所述的一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，其于差分隐私，计算当前轮数的隐私损失时，如果隐私预算未消耗完，则随机选取一部分手机客户端参与共享垃圾短信分类模型的训练，使参与的手机客户端再运用本地的数据集对垃圾短信检测模型的参数进行训练更新，计算出垃圾短信检测模型的变化，再对垃圾短信检测模型的变化量进行归一化算出归一化值，然后将垃圾短信检测模型的变化量和归一化值传给服务器，服务器再在共享垃圾短信分类模型内进行隐私模式计算。

7.根据权利要求6所述的一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，服务器内共享垃圾短信分类模型的更新添加噪声处理。

8.根据权利要求6所述的一种基于差分隐私联合学习的垃圾短信识别方法，其特征在于，隐私模式计算内采用高斯机制。

9.一种基于差分隐私联合学习的垃圾短信识别系统，其特征在于，包括：

10.根据权利要求9所述的一种基于差分隐私联合学习的垃圾短信识别系统，其特征在于，分类构建模块包括输入层、卷积层、池化层和全连接层；所述卷积层和池化层用于提取出短信文本的特征信息和语义信息。