CN115134082A

CN115134082A - 一种隐私保护的社交媒体假消息检测方法

Info

Publication number: CN115134082A
Application number: CN202210615749.1A
Authority: CN
Inventors: 崔禾磊; 杨益滔; 丁亚三; 邱晨; 郭斌; 於志文
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-09-30

Abstract

本发明公开了一种隐私保护的社交媒体假消息检测方法，利用文本指纹以及局部敏感哈希技术，将假消息文本转化为可以进行快速相似性比对的关键字向量，进而利用可搜索加密技术在密文数据集上进行关键字查找，最终实现对密文假消息的比对和判定，且检测速度快，鲁棒性较强。此外本发明使用了不经意伪随机函数，在判断该消息是否为假消息的同时，保证用户的查询信息不会被泄露给第三方假消息鉴定机构和社交媒体假消息检测商。本发明还可通过第三方假消息鉴定机构授权加密的方式控制服务次数，进一步保证假消息鉴定机构发布的已鉴定假消息列表不会被社交媒体平台恶意追踪或纂改。

Description

一种隐私保护的社交媒体假消息检测方法

技术领域

本发明属于网络安全技术领域，具体涉及一种社交媒体假消息检测方法。

背景技术

社交媒体主要包括社交网站、微博、微信、论坛等等。经过10余年的发展，中国已成为全球最大的移动社交媒体市场，社交媒体用户已经超过了10亿人。随着市场规模的飞速扩大，移动社交媒体所承载的社会交往和信息传播功能也在不断革新，影响并改变了人际互动，工作方式，交易服务的方方面面。我们如今可以轻松通过移动社交软件获取资讯，索取服务。但是在享受社交媒体带来便利的同时，社交媒体平台也成为了传播假消息的主要途径，在巨大经济利益的诱惑之下，甚至出现恶意制造假消息，诽谤他人的现象。此外假消息带来的危害不容忽视，在个人层面上，假信息既误导人们的判断、扰乱人们的思维，又让人们难以分辨是非真假。在假信息的错误引导下，有些人很有可能会听信假信息，影响个人价值判断与选择。在国家层面上，假信息带来的不良舆论导向，会影响国家政策的制定，对公共利益造成负面影响，甚至造成社会秩序动荡。

针对这类问题，假消息检测技术应运而生，其旨在帮助用户在浏览新闻时更好的鉴别其真假性。目前这一领域在工业界及学术界都有广泛的研究和应用。工业界主流的假消息检测主要使用人工或算法检测的方式，如YouTube在世界范围内与医学专家合作以减少平台上有关COVID19的低质量视频新闻，WeChat开发了名为“微信辟谣助手”的小程序，它会获取用户的阅读文章的历史记录并与收集的假消息数据集比较以检测假消息。而学术界也公开了很多有关社交媒体上假消息的数据集，并且提出了很多机器学习的方法，通过分析文本消息的语法，语义特点，或用户的动态(点赞、关注、转发)去检测并定位假消息。

虽然目前社交媒体上假消息检测机制能够在一定程度上抑制假消息的传播，但主流检测方式大多基于文本内容信息。因而用户在使用该项服务时，常常担心社交媒体会收集并滥用其浏览记录隐私信息，甚至对特定用户进行背景调查或者行为监视。因此需要通过密码学方法设计一种能够对用户隐私做出有效保护，并且可以有效阻断假消息传播的新方法。同时也能激励更多的假消息鉴定机构提供更多的，不同的场景的假消息数据集。

发明内容

为了克服现有技术的不足，本发明提供了一种隐私保护的社交媒体假消息检测方法，利用文本指纹以及局部敏感哈希技术，将假消息文本转化为可以进行快速相似性比对的关键字向量，进而利用可搜索加密技术在密文数据集上进行关键字查找，最终实现对密文假消息的比对和判定，且检测速度快，鲁棒性较强。此外本发明使用了不经意伪随机函数，在判断该消息是否为假消息的同时，保证用户的查询信息不会被泄露给第三方假消息鉴定机构和社交媒体假消息检测商。本发明还可通过第三方假消息鉴定机构授权加密的方式控制服务次数，进一步保证假消息鉴定机构发布的已鉴定假消息列表不会被社交媒体平台恶意追踪或纂改。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：第三方假消息鉴定机构初始化系统参数；

首先基于椭圆曲线离散对数问题ECDLP构建不经意伪随机函数EC-OPRF：H(k,m)＝{0,1}^l×{0,1}^*→{0,1}^l，并生成一个随机秘钥对(k₁,k₂)，其中密钥k₁,k₂均为长度为l的数，即{0,1}^l，消息m为不定长度的字符串，即{0,1}^*，并初始化Fingerprint和局部敏感哈希LSH函数的参数；

步骤2：第三方假消息鉴定机构发布最新的假消息集合B；

对于每一条已鉴定的假消息m_i∈B，首先对假消息文本进行规范化处理，之后计算假消息文本指纹以及LSH关键字v_i并添加到列表V中，即V＝{v₁,…,v_n}；

步骤3：第三方假消息鉴定机构生成加密的假消息数据集D；

遍历步骤2中得到的列表V，对于每一分量v in v_i，使用k₁加密v，k₂加密假消息m_i的标识符，将加密后的结果作为键值对加入SSE框架中，最终得到加密的数据集D，并将数据集D同步至社交媒体假消息检测商；

步骤4：用户端程序规范化用户查询明文信息m_q；

用户安装并使用假消息鉴定机构提供的服务程序，当用户对消息的真实性有疑惑需要核查时，用户服务程序读取这条消息的明文信息并规范化处理，得到m_q；

步骤5：用户服务程序生成经过盲化处理的查询请求x，并发送至第三方假消息鉴定机构请求授权；

用户服务程序使用与步骤2中相同算法计算m_q的文本指纹以及LSH关键字v_q；之后用户服务程序生成一个随机数r作为盲化因子并缓存在本地，对于v_q的每一分量v_q[i]计算盲化请求x[i]＝mask(r,v_q[i])，mask(.)表示盲化，并将盲化处理后的查询请求x发送至第三方假消息鉴定机构；

步骤6：第三方假消息鉴定机构生成经过授权的盲化查询请求，并返回用户服务程序；

针对步骤5得到的盲化查询请求x，使用步骤1中本地保存的秘钥对(k₁,k₂)进行加密授权；对于x的每一分量，分别计算加密授权y₁[i]＝k₁·x[i]，y₂[i]＝k₂·x[i]，并将加密授权后的结果(y₁,y₂)返回用户服务程序；

步骤7：用户服务程序去除盲化因子从而获取经过授权的查询信息(t₁,t₂)；

针对步骤6中返回的加密授权结果(y₁,y₂)，使用步骤5中缓存的盲化因子r进行去盲操作得到经过授权的查询信息(t₁,t₂)，其中t₁[i]＝unmask(r^-1·y₁[i])，t₂[i]＝unmask(r^-1·y₂[i])，unmask(.)表示去盲化，r^-1通过求解盲化因子r关于椭圆曲线的阶的模逆运算得到；

步骤8：用户服务程序将经过授权的查询信息发送到社交媒体假消息检测商进行加密搜索，并在加密数据集中统计匹配的LSH关键字个数，从而得出这条消息为假的概率，最后向用户返回查询结果。

优选地，所述EC-OPRF函数H(k,m)＝{0,1}^l×{0,1}^*→{0,1}^l由三个哈希函数H₁:{0,1}^*→{0,1}^l，H₂:{0,1}^*→E,H₃:E→{0,1}^l实现，即H(k,m)＝H₃(k·H₂(H₁(m)))，其中E为椭圆曲线上的点，H₁为密码学哈希函数SHA256，哈希函数H₂和H₃通过椭圆曲线密码库实现。

优选地，所述椭圆曲线为NIST P-192椭圆曲线。

优选地，所述文本指纹的算法采用MinHash算法实现。

优选地，所述局部敏感哈希LSH函数采用Hamming-LSH算法实现。

优选地，所述盲化mask(.)使用椭圆曲线的乘法运算。

本发明的有益效果如下：

本发明能够实现对密文假消息的比对和判定，且检测速度快，鲁棒性较强；本发明还可通过第三方假消息鉴定机构授权加密的方式控制服务次数，进一步保证假消息鉴定机构发布的已鉴定假消息列表不会被社交媒体平台恶意追踪或纂改。

附图说明

图1为本发明的社交媒体假消息检测服务部署场景图。

图2为本发明的假消息检测的详细过程展示。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

为了克服现有技术的不足，本发明提出一种隐私保护的社交媒体假消息检测方法。利用文本指纹以及局部敏感哈希技术，将假消息文本转化为可以进行快速相似性比对的关键字向量，进而利用可搜索加密技术在密文数据集上进行关键字查找，最终实现对密文假消息的比对和判定，且检测速度快，鲁棒性较强。此外本发明使用了不经意伪随机函数和可搜索对称加密框架，在判断该消息是否为假消息的同时，保证用户的查询信息不会被泄露给第三方假消息鉴定机构和社交媒体假消息检测商。本发明还可通过第三方假消息鉴定机构授权加密的方式控制服务次数，进一步保证假消息鉴定机构发布的已鉴定假消息列表不会被社交媒体平台恶意追踪或纂改。

一种隐私保护的社交媒体假消息检测方法，包括如下步骤：

步骤1：第三方假消息鉴定机构初始化系统参数；

步骤2：第三方假消息鉴定机构发布最新的假消息集合B；

步骤3：第三方假消息鉴定机构生成加密的假消息数据集D；

步骤4：用户端程序规范化用户查询明文信息m_q；

具体实施例：

参阅图1，图2所示，本发明的具体步骤如下：

1、第三方假消息鉴定机构初始化系统参数。首先基于椭圆曲线离散对数问题(Elliptic Curve Discrete Logarithm Problem，ECDLP)构建不经意伪随机函数EC-OPRF函数H(k,m)，生成一个随机秘钥对(k₁,k₂)，并初始化Fingerprint和LSH函数的参数，最后初始化三个哈希函数H₁:{0,1}^*→{0,1}^l，H₂:{0,1}^*→E,H₃:E→{0,1}^l，其中E为椭圆曲线上的点，而{0,1}^*和{0,1}^l分别代表不定长度的字符串和长度为l的字符串。

具体地，哈希函数H₁可以使用常见的密码学哈希函数SHA256，哈希函数H₂和H₃则需要使用椭圆曲线密码库实现。椭圆曲线采用NIST P-192椭圆曲线。

2、第三方假消息鉴定机构鉴定并发布最新的假消息集合B。对于每一条已鉴定的假消息m_i∈B，首先对文本进行规范化处理，之后计算文本指纹以及LSH关键字v_i，将他们添加到列表V中，即V＝{v₁,…,v_n}。

具体的，为了增加检测的准确性，我们对每一条假消息进行常用词删除，符号删除的规范化处理，之后通过MinHash算法将高维文本数据哈希得到文本指纹，再使用基于Hamming距离的LSH哈希函数，将文本指纹进一步转化为LSH关键字向量。

3、第三方假消息鉴定机构生成加密的假消息数据集D。遍历步骤二中得到的列表V，对于每一分量v in v_i，使用k₁加密v，k₂加密假消息m_i的标识符，将加密后的结果作为键值对加入SSE框架中。最终得到加密的数据集D。并将数据集D同步至社交媒体假消息检测商。

具体的，假消息鉴定机构维护一个辅助的键-值数据结构

并遍历第2步中每一个v_i∈V。对于每一分量v in v_i，使用步骤一中的秘钥对(k₁,k₂)，进行加密处理t₁＝H₃(k₁·H₂(H₁(v))),t₂＝H₃(k₂·H₂(H₁(v)))，其中符号·代表椭圆曲线上的数乘运算，对于每一个计算出的t₁,t₂，如果可在

中找到键t₁对应的值n，则令c＝n+1并将(t₁,c)替换(t₁,n)插入

如果在

中找不到键t₁对应的值n，则令c＝1，将(t₁,1)插入

之后使用函数F与t₁计算消息c的认证码，即a＝F(t₁,c)，在本发明中函数F采用HMAC-SHA1签名认证算法实现。使用对称加密函数Enc加密假消息的标识符i，即b＝Enc(t₂,i)，最后将(a,b)作为键值对插入加密数据集D，在本发明中函数Enc采用AES加密算法实现。。

4、用户端程序规范化用户查询明文信息m_q。用户安装并使用假消息鉴定机构提供的服务程序，当用户对某条消息的真实性有疑惑需要核查时，用户服务程序读取这条消息的明文信息并规范化处理，得到m_q。

具体的，步骤4中采用了与步骤2中相同的规范化方法。

5、用户服务程序生成经过盲化处理的查询请求x，并发送至第三方假消息鉴定机构请求授权。用户服务程序使用步骤2中算法进一步计算m_q的文本指纹以及LSH关键字v_q。之后用户服务程序生成一个随机数r作为盲化因子并缓存在本地，对于v_q的每一分量v_q[i]计算盲化请求x[i]＝mask(r,v_q[i])＝r·H₂(H₁(v_q[i]))，并将盲化处理后的查询请求x发送至第三方假消息鉴定机构。

具体的，盲化操作一般是使用椭圆曲线的乘法运算，使他人在没有r时很难计算出v_q[i]。

6、第三方假消息鉴定机构生成经过授权的盲化查询请求，并放回给前端用户服务程序。针对步骤5得到的盲化查询请求x，使用步骤1中本地保存的秘钥对(k₁,k₂)进行加密授权。对于x的每一分量，分别计算加密授权y₁[i]＝k₁·x[i]y₂[i]＝k₂·x[i]。并将加密授权后的结果(y₁,y₂)返回用户服务程序。

7、用户服务程序去除盲化因子从而获取经过授权的查询信息(t₁,t₂)。针对步骤6中返回的加密授权结果(y₁,y₂)，使用步骤5中缓存的盲化因子r进行去盲操作得到经过授权的查询信息(t₁,t₂)，t₁[i]＝unmask(r^-1·y₁[i])t₂[i]＝unmask(r^-1·y₂[i])。

具体地，这里的r^-1由步骤5中的盲化因子r关于椭圆曲线阶的模逆运算得到。

8、用户服务程序将经过授权的查询信息发送到社交媒体假消息检测商进行加密搜索，并在加密数据集中统计匹配的LSH关键字个数，从而得出这条消息为假的概率，最后向用户返回查询结果。

具体的，对于t₁的每一个分量t₁[i]，社交媒体假消息检测商均维护一个计数器c，其初始值为0。对于每个t₁[i]，首先使用函数F(t₁[i],c)计算得到查询项o，如果在数据集D中能找到o，则使用t₂[i]解密得到假消息的标识符u_id＝Dec(t₂[i],D.get(o))，并将c自增1，重新计算查询项o，并重新在D查询，直到在D中无法找到这样的o。之后将i+1，并重复上述过程直到结束。最后统计匹配的LSH关键字个数，计算该消息是假消息的概率，并将结果返回给用户服务程序，向用户发送警告信息。

Claims

1.一种隐私保护的社交媒体假消息检测方法，其特征在于，包括如下步骤：

步骤1：第三方假消息鉴定机构初始化系统参数；

首先基于椭圆曲线离散对数问题ECDLP构建不经意伪随机函数EC-OPRF：H(k，m)＝{0，1}^l×{0，1}^*→{0，1}^l，并生成一个随机秘钥对(k₁，k₂)，其中密钥k₁，k₂均为长度为l的数，即{0，1}^l，消息m为不定长度的字符串，即{0，1}^*，并初始化Fingerprint和局部敏感哈希LSH函数的参数；

步骤2：第三方假消息鉴定机构发布最新的假消息集合B；

对于每一条已鉴定的假消息m_i∈B，首先对假消息文本进行规范化处理，之后计算假消息文本指纹以及LSH关键字v_i并添加到列表V中，即V＝{v₁，...，v_n}；

步骤3：第三方假消息鉴定机构生成加密的假消息数据集D；

步骤4：用户端程序规范化用户查询明文信息m_q；

用户服务程序使用与步骤2中相同算法计算m_q的文本指纹以及LSH关键字v_q；之后用户服务程序生成一个随机数r作为盲化因子并缓存在本地，对于v_q的每一分量v_q[i]计算盲化请求x[i]＝mask(r，v_q[i])，mask(.)表示盲化，并将盲化处理后的查询请求x发送至第三方假消息鉴定机构；

针对步骤5得到的盲化查询请求x，使用步骤1中本地保存的秘钥对(k₁，k₂)进行加密授权；对于x的每一分量，分别计算加密授权y₁[i]＝k₁·x[i]，y₂[i]＝k₂·x[i]，并将加密授权后的结果(y₁，y₂)返回用户服务程序；

步骤7：用户服务程序去除盲化因子从而获取经过授权的查询信息(t₁，t₂)；

针对步骤6中返回的加密授权结果(y₁，y₂)，使用步骤5中缓存的盲化因子r进行去盲操作得到经过授权的查询信息(t₁，t₂)，其中t₁[i]＝unmask(r^-1·y₁[i])，t₂[i]＝unmask(r^-1·y₂[i])，unmask(.)表示去盲化，r^-1通过求解盲化因子r关于椭圆曲线的阶的模逆运算得到；

2.根据权利要求1所述的一种隐私保护的社交媒体假消息检测方法，其特征在于，所述EC-OPRF函数H(k，m)＝{0，1}^l×{0，1}^*→{0，1}^l由三个哈希函数H₁：{0，1}^*→{0，1}^l，H₂：{0，1}^*→E，H₃：E→{0，1}^l实现，即H(k，m)＝H₃(k·H₂(H₁(m)))，其中E为椭圆曲线上的点，H₁为密码学哈希函数SHA256，哈希函数H₂和H₃通过椭圆曲线密码库实现。

3.根据权利要求1所述的一种隐私保护的社交媒体假消息检测方法，其特征在于，所述椭圆曲线为NIST P-192椭圆曲线。

4.根据权利要求1所述的一种隐私保护的社交媒体假消息检测方法，其特征在于，所述文本指纹的算法采用MinHash算法实现。

5.根据权利要求1所述的一种隐私保护的社交媒体假消息检测方法，其特征在于，所述局部敏感哈希LSH函数采用Hamming-LSH算法实现。

6.根据权利要求1所述的一种隐私保护的社交媒体假消息检测方法，其特征在于，所述盲化mask(.)使用椭圆曲线的乘法运算。