CN114928498A

CN114928498A - 一种欺诈信息识别方法、装置及计算机可读存储介质

Info

Publication number: CN114928498A
Application number: CN202210675326.9A
Authority: CN
Inventors: 王智明; 徐雷; 陶冶; 边林
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-08-19

Abstract

本发明提供一种欺诈信息识别方法、装置及计算机可读存储介质，所述方法包括：获取待发送的明文信息；对所述明文信息进行脱敏处理，得到脱敏后的数据信息；将脱敏后的数据信息与预存的敏感词特征库进行比较，输出所述脱敏后的数据信息是否为欺诈信息的判断结果。该方法、装置及计算机可读存储介质能够解决现有的欺诈信息识别方法容易产生事后处理、欺诈判断准确度低、隐私机密度低的问题。

Description

一种欺诈信息识别方法、装置及计算机可读存储介质

技术领域

本发明涉及信息安全技术领域，尤其涉及一种欺诈信息识别方法、装置及计算机可读存储介质。

背景技术

目前，个人隐私信息保护反欺诈系统中欺诈信息识别主要依托情报收集、作恶信息收集、用户业务层数据行为分析、异常信息(IP和手机号)库等技术手段，容易产生事后处理、欺诈判断准确度低、隐私机密度低等问题。

发明内容

本发明所要解决的技术问题是针对现有技术的上述不足，提供一种欺诈信息识别方法、装置及计算机可读存储介质，能够实现事前处理且隐私机密度高。

第一方面，本发明提供一种欺诈信息识别方法，包括：

获取待发送的明文信息；

对所述明文信息进行脱敏处理，得到脱敏后的数据信息；

将脱敏后的数据信息与预存的敏感词特征库进行比较，输出所述脱敏后的数据信息是否为欺诈信息的判断结果。

进一步地，所述对所述明文信息进行脱敏处理，得到脱敏后的数据信息，具体包括：

对所述明文信息按字节进行分隔，得到分隔后的明文字节流；

采用非对称随机数椭圆曲线流加密方法对所述分隔后的明文字节流进行加密，得到脱敏后的数据信息。

进一步地，所述采用非对称随机数椭圆曲线流加密方法对所述分隔后的明文字节流进行加密，得到脱敏后的数据信息，具体包括：

选定一条椭圆曲线，并随机选取所述椭圆曲线上的一点作为基点P(x,y)；

随机选择一个正整数K作为私钥，并生成公钥Q＝KP；

将Q和P发送给接收所述明文信息的用户；

将所述分隔后的明文字节流编码到椭圆曲线的M点，并产生一个随机整数R；

采用公钥对所述分隔后的明文字节流进行加密，得到脱敏后的数据信息C＝{RP，M+RQ}。

进一步地，所述椭圆曲线满足如下条件：

y²＝x³+sx+t

s,t∈{负整数，0，正整数}，且满足4us³+27ut²≠0

u∈{自然数}

式中，y为Y轴坐标，x为X轴坐标，s为随机参数。

进一步地，所述敏感词特征库中的敏感词是基于贝叶斯特征分类及提取的，提取敏感词特征向量的过程如下：

式中，n为预设上限阀值，取值范围为1,2,3,…,L，L为敏感词特征库中敏感词数量，P(w_i)为特征w_i的出现概率；P(c_j/w_i)为出现特征w_i的前提下在第c_j个文本中的概率；P(c_j)为c_j个文本的概率，P(w_i/c_j)为c_j个文本中出现特征w_i的文本数，P(d_x/c_j)为c_j个文本中出现特征w_i的概率。

进一步地，所述将脱敏后的数据信息与预存的敏感词特征库进行比较，输出所述脱敏后的数据信息是否为欺诈信息的判断结果，具体包括：

对脱敏后的数据信息进行向量化，得到脱敏后的字节流向量；

将脱敏后的字节流向量与预存的敏感词特征库进行比较，若存在f(w)-η≥0，则判断所述脱敏后的数据信息为正常信息，否则，判断所述脱敏后的数据信息为欺诈信息，其中，η为调整系数，f(w)的计算公式如下：

式中，L为敏感词特征库中敏感词数量，

为

的转置，

为脱敏后的字节流向量，

为敏感词特征库中的第x个敏感词特征向量，f(w)为第x个字节流向量匹配函数值。

进一步地，所述明文信息包括：明文短信信息、明文微信信息或明文邮件信息。

进一步地，所述输出所述脱敏后的数据信息是否为欺诈信息的判断结果之后，所述方法还包括：

若所述脱敏后的数据信息为欺诈信息，则将所述明文信息发送给内容和服务提供商/运营商，以使所述内容和服务提供商/运营商拦截所述明文信息，或者将所述明文信息发送至接收终端欺诈文件夹。

第二方面，本发明提供一种欺诈信息识别装置，包括：

信息获取模块，用于获取待发送的明文信息；

脱敏处理模块，与所述信息获取模块连接，用于对所述明文信息进行脱敏处理，得到脱敏后的数据信息；

欺诈识别模块，与所述脱敏处理模块连接，用于将脱敏后的数据信息与预存的敏感词特征库进行比较，输出所述脱敏后的数据信息是否为欺诈信息的判断结果。

第三方面，本发明提供一种欺诈信息识别装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以实现上述第一方面所述的欺诈信息识别方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的欺诈信息识别方法。

本发明提供的欺诈信息识别方法、装置及计算机可读存储介质，通过获取待发送的明文信息；并对所述明文信息进行脱敏处理，得到脱敏后的数据信息；以及将脱敏后的数据信息与预存的敏感词特征库进行比较，能够输出所述脱敏后的数据信息是否为欺诈信息的判断结果，由于本发明在发送明文信息之前对明文信息进行欺诈识别，且在识别过程中对明文信息进行脱敏处理，因此，能够实现事前处理且隐私机密度高，同时，通过与预存的敏感词特征库进行比较，能够提高欺诈判断的准确度，解决了现有的欺诈信息识别方法容易产生事后处理、欺诈判断准确度低、隐私机密度低的问题。

附图说明

图1为本发明实施例1的一种欺诈信息识别方法的流程图；

图2为本发明实施例的存储模型；

图3为本发明实施例2的一种欺诈信息识别装置的结构示意图；

图4为本发明实施例3的一种欺诈信息识别装置的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面将结合附图对本发明实施方式作进一步地详细描述。

可以理解的是，此处描述的具体实施例和附图仅仅用于解释本发明，而非对本发明的限定。

可以理解的是，在不冲突的情况下，本发明中的各实施例及实施例中的各特征可相互组合。

可以理解的是，为便于描述，本发明的附图中仅示出了与本发明相关的部分，而与本发明无关的部分未在附图中示出。

可以理解的是，本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构，也可由多个实体结构组成，或者，多个单元、模块也可集成为一个实体结构。

可以理解的是，在不冲突的情况下，本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。

可以理解的是，本发明的流程图和框图中，示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可代表一个单元、模块、程序段、代码，其包含用于实现规定的功能的可执行指令。而且，框图和流程图中的每个方框或方框的组合，可用实现规定的功能的基于硬件的系统实现，也可用硬件与计算机指令的组合来实现。

可以理解的是，本发明实施例中所涉及的单元、模块可通过软件的方式实现，也可通过硬件的方式来实现，例如单元、模块可位于处理器中。

实施例1：

本实施例提供一种欺诈信息识别方法，如图1所示，该方法包括：

步骤S101：获取待发送的明文信息。

在本实施例中，明文信息包括：明文短信信息、明文微信信息或明文邮件信息等，为了打击移动消息垃圾短信/邮件/微信，当发送终端通过运营商网络发出明文短信、微信或邮件时，运营商先获取待发送的明文信息，以便对该明文信息进行欺诈识别。

步骤S102：对所述明文信息进行脱敏处理，得到脱敏后的数据信息。

在本实施例中，为了保护用户的个人隐私信息，获取待发送的明文信息后，先对所述明文信息进行脱敏处理。

可选地，所述对所述明文信息进行脱敏处理，得到脱敏后的数据信息，具体包括：

在本实施例中，为了更好地保护用户个人隐私，对所述明文信息进行脱敏处理可以基于同态加密技术，同态加密(Fully homomorphic encryption，FHE)允许信息在计算和处理过程中仍然是加密的，而与管理数据的基础设施和云技术无关。比如，数据可以在不被查看、不以明文形式出现的情况下在不同参与方和云之间传输、分析和返回，同态加密使用不同的数学算法来进行加密，而且在过去10年间不断发展，本发明为了提高同态加密的效率，同态加密的过程包括：对所述明文信息按字节进行分隔，得到分隔后的明文字节流，再采用非对称随机数椭圆曲线流加密方法对所述分隔后的明文字节流进行加密(实现脱敏)。

具体地，将明文短信/微信/邮件信息分隔成一个一个字节，再使用非对称随机数椭圆曲线流加密方法对短信/微信/邮件明文字节流进行加密，将短信/微信/邮件明文的字节逐个加密。

可选地，所述采用非对称随机数椭圆曲线流加密方法对所述分隔后的明文字节流进行加密，得到脱敏后的数据信息，具体包括：

随机选择一个正整数K作为私钥，并生成公钥Q＝KP；

将Q和P发送给接收所述明文信息的用户；

在本实施例中，随机整数R具体可以是随机数+当前时间构成的序列，当前时间可以精确到毫秒，在采用公钥对所述分隔后的明文字节流进行加密之后，接收所述明文信息的用户可以采用私钥K进行解密，得到明文M＝{RQ，C+KRP}。

具体地，所述椭圆曲线满足如下条件：

y²＝x³+sx+t

s,t∈{负整数，0，正整数}，且满足4us³+27ut²≠0

u∈{自然数}

式中，y为Y轴坐标，x为X轴坐标，s为随机参数。

在本实施例中，脱敏后的数据信息即是具有机密性的短信/微信/邮件密文。

步骤S103：将脱敏后的数据信息与预存的敏感词特征库进行比较，输出所述脱敏后的数据信息是否为欺诈信息的判断结果。

在本实施例中，为了对短信/微信/邮件进行甄别，本发明采用贝叶斯决策来对待过滤和分析的短信/微信/邮件进行过滤和分析，提取短信/微信/邮件特征向量，得到敏感词特征库。

可选地，所述敏感词特征库中的敏感词是基于贝叶斯特征分类及提取的，提取敏感词特征向量的过程如下：

在本实施例中，敏感词是指带有欺诈倾向的词，x的取值范围是1,2,3，...L，L是敏感词特征库中敏感词数量，i是特征的个数，j是文本的个数。

可选地，所述将脱敏后的数据信息与预存的敏感词特征库进行比较，输出所述脱敏后的数据信息是否为欺诈信息的判断结果，具体包括：

式中，L为敏感词特征库中敏感词数量，

为

的转置，

为脱敏后的字节流向量，

在本实施例中，将短信/微信/邮件加密后的字节流向量作为输入量，查询敏感词特征库，判断短信/微信/邮件是否为欺诈，若f(w)-η≥0，则判断该短信/微信/邮件为正常短信/微信/邮件，否则为欺诈短信/微信/邮件。

可选地，所述输出所述脱敏后的数据信息是否为欺诈信息的判断结果之后，所述方法还包括：

在本实施例中，若判断出待发送的短信/微信/邮件为欺诈短信/微信/邮件，则将该欺诈短信/微信/邮件以及判断结果传送给内容和服务提供商/运营商做标记。内容和服务提供商/运营商可以拦截该欺诈短信/微信/邮件，或者将该欺诈短信/微信/邮件发送至接收终端的欺诈文件夹，接收终端可以删除或在安全状态下查看该欺诈短信/微信/邮件。

在本实施例中，如图2所示，欺诈短信/微信/邮件可以以三维向量的形式存储，欺诈短信/微信/邮件的判断结果可以采用稀疏矩阵存储。

在本实施例中，若判断出待发送的短信/微信/邮件为正常短信/微信/邮件，则将该正常短信/微信/邮件发送给接收终端。

本发明实施例提供的欺诈信息识别方法，通过获取待发送的明文信息；并对所述明文信息进行脱敏处理，得到脱敏后的数据信息；以及将脱敏后的数据信息与预存的敏感词特征库进行比较，能够输出所述脱敏后的数据信息是否为欺诈信息的判断结果，由于本发明在发送明文信息之前对明文信息进行欺诈识别，且在识别过程中对明文信息进行脱敏处理，因此，能够实现事前处理且隐私机密度高，同时，通过与预存的敏感词特征库进行比较，能够提高欺诈判断的准确度，解决了现有的欺诈信息识别方法容易产生事后处理、欺诈判断准确度低、隐私机密度低的问题。

实施例2：

如图3所示，本实施例提供一种欺诈信息识别装置，用于执行上述欺诈信息识别方法，包括：

信息获取模块11，用于获取待发送的明文信息；

脱敏处理模块12，与所述信息获取模块11连接，用于对所述明文信息进行脱敏处理，得到脱敏后的数据信息；

欺诈识别模块13，与所述脱敏处理模块12连接，用于将脱敏后的数据信息与预存的敏感词特征库进行比较，输出所述脱敏后的数据信息是否为欺诈信息的判断结果。

可选地，所述脱敏处理模块12具体包括：

字节分隔单元，用于对所述明文信息按字节进行分隔，得到分隔后的明文字节流；

椭圆加密单元，用于采用非对称随机数椭圆曲线流加密方法对所述分隔后的明文字节流进行加密，得到脱敏后的数据信息。

可选地，所述椭圆加密单元具体包括：

曲线选定单元，用于选定一条椭圆曲线，并随机选取所述椭圆曲线上的一点作为基点P(x,y)；

公私钥生成单元，用于随机选择一个正整数K作为私钥，并生成公钥Q＝KP；

发送单元，用于将Q和P发送给接收所述明文信息的用户；

编码单元，用于将所述分隔后的明文字节流编码到椭圆曲线的M点，并产生一个随机整数R；

字节流加密单元，用于采用公钥对所述分隔后的明文字节流进行加密，得到脱敏后的数据信息C＝{RP，M+RQ}。

可选地，所述椭圆曲线满足如下条件：

y²＝x³+sx+t

s,t∈{负整数，0，正整数}，且满足4us³+27ut²≠0

u∈{自然数}

式中，y为Y轴坐标，x为X轴坐标，s为随机参数。

可选地，所述欺诈识别模块13具体包括：

向量化单元，用于对脱敏后的数据信息进行向量化，得到脱敏后的字节流向量；

比较单元，用于将脱敏后的字节流向量与预存的敏感词特征库进行比较，若存在f(w)-η≥0，则判断所述脱敏后的数据信息为正常信息，否则，判断所述脱敏后的数据信息为欺诈信息，其中，η为调整系数，f(w)的计算公式如下：

式中，L为敏感词特征库中敏感词数量，

为

的转置，

为脱敏后的字节流向量，

可选地，所述明文信息包括：明文短信信息、明文微信信息或明文邮件信息。

可选地，所述装置还包括：

信息发送模块，用于若所述脱敏后的数据信息为欺诈信息，则将所述明文信息发送给内容和服务提供商/运营商，以使所述内容和服务提供商/运营商拦截所述明文信息，或者将所述明文信息发送至接收终端欺诈文件夹。

实施例3：

参考图4，本实施例提供一种欺诈信息识别装置，包括存储器21和处理器22，存储器21中存储有计算机程序，处理器22被设置为运行所述计算机程序以执行实施例1中的欺诈信息识别方法。

其中，存储器21与处理器22连接，存储器21可采用闪存或只读存储器或其他存储器，处理器22可采用中央处理器或单片机。

实施例4：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例1中的欺诈信息识别方法。

该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory，随机存取存储器)，ROM(Read-Only Memory，只读存储器)，EEPROM(Electrically ErasableProgrammable read only memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

实施例2至实施例4提供的欺诈信息识别装置及计算机可读存储介质，通过获取待发送的明文信息；并对所述明文信息进行脱敏处理，得到脱敏后的数据信息；以及将脱敏后的数据信息与预存的敏感词特征库进行比较，能够输出所述脱敏后的数据信息是否为欺诈信息的判断结果，由于本发明在发送明文信息之前对明文信息进行欺诈识别，且在识别过程中对明文信息进行脱敏处理，因此，能够实现事前处理且隐私机密度高，同时，通过与预存的敏感词特征库进行比较，能够提高欺诈判断的准确度，解决了现有的欺诈信息识别方法容易产生事后处理、欺诈判断准确度低、隐私机密度低的问题。

可以理解的是，以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进，这些变型和改进也视为本发明的保护范围。