CN107992473B

CN107992473B - 基于逐点互信息技术的诈骗信息特征词提取方法及系统

Info

Publication number: CN107992473B
Application number: CN201711190871.4A
Authority: CN
Inventors: 马宏远; 王丽宏; 杜翠兰; 贺敏; 刘玮; 赵晓航; 王博; 柳毅; 赵媛
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2017-11-24
Filing date: 2017-11-24
Publication date: 2021-04-27
Anticipated expiration: 2037-11-24
Also published as: CN107992473A

Abstract

本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统，该提取方法包括：提取诈骗信息主题关键词，组成主题关键词集合；将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合，并得到正样本分词集合、负样本候分词集合和候选关键词集合；根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重，将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理，得到候选关键词集合，计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值，得到候选关键词的权重，由此判断是否为合格关键词，实现了对数据流式信息的关键词提取。

Description

基于逐点互信息技术的诈骗信息特征词提取方法及系统

技术领域

本发明涉及信息检索技术领域，尤其涉及基于逐点互信息技术的诈骗信息特征词提取方法及系统。

背景技术

目前，随着互联网的快速发展，诈骗信息在网络信息空间中的快速多样化传播，特别是网络信息空间中涉及各个实体用户的网络环境，各种信息成爆炸式增长，使得用户对信息真实性、实时性、准确性的要求越来越高，相应的，对传统安全过滤技术的考验也日益严峻。在网络信息空间中，除了正常信息，还有大量正常业务合法流量，包括大量合法推送广告等流量。随着人们认知水平的提高，短信中的语言和内容也是日新月异，不断变化。甚至出现了“公证处通知”、“银行通知”、“中奖通知”、“特等奖”、“中奖”、“法院通知”、“法院传单”等等金钱诱惑和冒名的“威逼利诱”的字样。诈骗信息是属于损害广大用户利益，违法国家法律的有害流量。

发明内容

为了解决现有技术存在的问题，本发明的至少一个实施例提供了一种基于逐点互信息技术的诈骗信息特征词提取方法，包括：

根据用户输入的指令从信息组中提取诈骗信息主题关键词，组成主题关键词集合；

将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合，并分别对所述正样本集合和负样本集合中的信息进行分词，得到正样本分词集合、负样本分词集合和候选关键词集合；

根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值；

根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重，当所述候选关键词的权重大于预设阈值时，将所述候选关键词记为所述信息组的合格关键词。

在上述方案的基础上，本发明实施例还可以做出如下改进。

可选的，所述根据用户输入的指令从信息组中提取诈骗信息主题关键词之前，该提取方法还包括：

通过自动聚类方法对接收到的信息按类别进行划分，得到不同类型的所述信息组，所述自动聚类方法包括：原型聚类、高斯混合聚类、密度聚类和层次聚类。

可选的，所述根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性和负相互性，具体包括：

通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述正样本集合的正相互性PMI值；

通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述负样本集合的负相互性PMI值。

可选的，计算候选关键词与主题关键词在样本集合中PMI值的计算公式包括：

其中，P_h为所述候选关键词在所述样本集合的分词集合中出现的概率；所述N_h为所述候选关键词在所述样本集合的分词集合中出现的次数；所述N为所述样本集合的分词集合的总词数；P_z为所述主题关键词在所述样本集合的分词集合中出现的概率；所述N_z为所述主题关键词在所述样本集合的分词集合中出现的次数；所述N_hz为所述候选关键词和所述主题关键词在所述样本集合中同一条信息里出现的次数。

可选的，所述根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重，具体包括：

根据如下公式计算所述候选关键词在所述信息组的权重；

W_h＝|PMI_hz+-PMI_hz-|；

其中，W_h为所述候选关键词在所述信息组的权重；所述PMI_hz+为所述正相互性PMI值；所述PMI_hz-为所述负相互性PMI值；

所述当所述候选关键词的权重大于预设阈值时，将所述候选关键词记为所述信息组的合格关键词，具体包括：

当所述正相互性PMI值大于所述负相互性PMI值时，所述候选关键词为诈骗信息关键词；

当所述正相互性PMI值小于所述负相互性PMI值时，所述候选关键词为非诈骗信息关键词。

本发明的至少一个实施例提供了一种基于逐点互信息技术的诈骗信息特征词提取系统，包括：第一处理模块、第二处理模块、计算模块和判断模块；

所述第一处理模块，用于根据用户输入的指令从信息组中提取关键词，组成主题关键词集合；

所述第二处理模块，用于将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合，并分别对所述正样本集合和负样本集合中的信息进行分词，得到正样本分词集合、负样本分词集合和候选关键词集合；

所述计算模块，用于根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集计算得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值；

所述判断模块，用于根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重，当所述候选关键词的权重大于预设阈值时，将所述候选关键词记为所述信息组的合格关键词。

可选的，该提取系统还包括：信息分类模块，用于通过自动聚类方法对接收到的信息按类别进行划分，得到不同类型的所述信息组，所述自动聚类方法包括：原型聚类、高斯混合聚类、密度聚类和层次聚类。

可选的，所述计算模块具体用于，通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述正样本集合的正相互性PMI值；通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述负样本集合的负相互性PMI值。

可选的，所述计算模块通过如下公式计算候选关键词与主题关键词在样本集合中PMI值：

其中，PMI_hz为候选关键词与主题关键词在样本集合中的PMI值；P_h为所述候选关键词在所述样本集合的分词集合中出现的概率；所述N_h为所述候选关键词在所述样本集合的分词集合中出现的次数；所述N为所述样本集合的分词集合的总词数；P_z为所述主题关键词在所述样本集合的分词集合中出现的概率；所述N_z为所述主题关键词在所述样本集合的分词集合中出现的次数；所述N_hz为所述候选关键词和所述主题关键词在所述样本集合中同一条信息里出现的次数。

可选的，所述判断模块具体用于，根据如下公式计算所述候选关键词在所述信息组的权重；

W_h＝|PMI_hz+-PMI_hz-|；

并判断所述正相互性PMI值与所述负相互性PMI值的大小，当所述正相互性PMI值大于所述负相互性PMI值时，所述候选关键词为诈骗信息关键词；当所述正相互性PMI值小于所述负相互性PMI值时，所述候选关键词为非诈骗信息关键词。

本发明的上述技术方案与现有技术相比具有如下优点：本发明通过对信息组中的信息进行处理，得到候选关键词集合，计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值，得到候选关键词的权重，由此判断是否为合格关键词，实现了对数据流式信息的关键词提取。

附图说明

图1是本发明实施例提供的一种基于逐点互信息技术的诈骗信息特征词提取方法流程示意图；

图2是本发明实施例提供的一种基于逐点互信息技术的诈骗信息特征词提取系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种基于逐点互信息技术的诈骗信息特征词提取方法流程示意图，包括：

上述实施例中，根据用户的指令选择某一类信息组中的诈骗信息主题关键词，也就是说主题关键词由用户确定，该主题关键词为较为明显的诈骗信息关键词，系统将信息组中的信息按是否为诈骗信息进行分类，诈骗信息为正样本集合，非诈骗信息为负样本集合，分别对正样本集合和负样本集合中的信息进行分词，得到候选关键词、正样本集合分词集合和负样本集合分词集合，其中正样本分词集合和负样本分词集合分别为正样本集合和负样本集合中的所有分词，候选关键词集合为其中部分词，对候选关键词集合中的候选关键词分别进行计算，得到其相对于正样本分词集合的PMI值和相对于负样本分词集合的PMI值，而且可以得知每一个候选关键词相对于一个主题关键词都有一组相对于正样本分词集合的PMI值和相对于负样本分词集合的PMI值，将所有相对于正样本分词集合的PMI值进行累加得到正相互性PMI值，将所有相对于负样本分词集合的PMI值进行累加得到负相互性PMI值，并将正相互性PMI值减去负相互性PMI值，由此得到合格关键词，合格关键词可为诈骗信息关键词也可为非诈骗信息关键词。

逐点互信息，Pointwise mutual information简称PMI，是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

信息论的主要内容用语言来阐述。一种简洁的语言，以英语为例，通常有两个重要特点：首先，最常用的词应该比不太常用的词要短一些；其次，如果句子的某一部分被漏听或者由于噪声干扰，比如一辆车辆疾驰而过，而被误听，听者应该仍然可以抓住句子的大概意思。而如果把电子通信系统比作一种语言的话，这种健壮性是不可或缺的。将健壮性引入通信是通过信道编码完成的。信源编码和信道编码是信息论的基本研究课题。

自信息量I表示一个消息出现后所带来的信息量，用其概率的负对数来表示，即I＝-log₂ P，因此I是非负值，并且是概率P的单调递减函数。

在信息论中，信源是发出消息的源，信源输出以符号形式出现的具体消息。如果符号是确定的而且预先是知道的，那么该消息就无信息可言。只有当符号的出现是随机的，预先无法确定，一旦出现某个符号就给观察者提供了信息。因此可用随机变量或随机矢量来表示信源，运用概率论和随机过程的理论来研究信息，这就是香农信息论的基本点。实际应用中分析信源所采用的方法往往依信源特性而定。按照信源发出的消息在时间上和幅度上的分布情况可将信源分成离散信源和连续信源两大类。离散信源是指发出在时间和幅度上都是离散分布的离散消息的信源，如文字、数字、数据等符号都是离散消息。连续信源是指发出在时间和幅度上都是连续分布的连续消息(模拟消息)的信源，如语言、图像、图形等都是连续消息。

互信息是计算语言学模型分析的常用方法，它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。互信息本来是信息论中的一个概念，用于表示信息之间的关系，是两个随机变量统计相关性的测度，使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高，但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度，如果特征词属于该类的话，它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设，因此非常适合于文本分类的特征和类别的配准工作。

互信息的定义为后验概率与先验概率比值的对数，即

由于无法确定

和p(x_i)的大小关系，所以I(x_i；y_j)不一定大于或者等于零。互信息量I(x_i；y_j)在X集合上得统计平均值

平均互信息量I(X；Y)为上述I(X；y_j)在Y集合上的概率加权统计平均值，即

在数据挖掘或者信息检索的相关资料里，经常会用到PMI(Pointwise MutualInformation)这个指标来衡量两个事物之间的相关性。PMI的定义如下：

在概率论中，我们知道，如果x跟y不相关，则p(x,y)＝p(x)p(y)。二者相关性越大，则p(x,y)就相比于p(x)p(y)越大。根据条件概率公式，还可以写成

在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x)，自然就表示x跟y的相关程度。这里的log来自于信息论的理论，而且log1＝0，也恰恰表明p(x,y)＝p(x)p(y)，相关性为0，而且log是单调递增函数，所以“p(x,y)就相比于p(x)p(y)越大，x和y相关性越大”，这一性质也得到保留。

如图2所示，本发明的至少一个实施例提供了一种基于逐点互信息技术的诈骗信息特征词提取系统结构示意图，包括：第一处理模块、第二处理模块、计算模块和判断模块；

所述计算模块，用于根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集计算得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值，具体的，通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述正样本集合的正相互性PMI值；通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述负样本集合的负相互性PMI值；

在本实施例中，该提取系统还包括：信息分类模块，用于通过自动聚类方法对接收到的信息按类别进行划分，得到不同类型的所述信息组，所述自动聚类方法包括：原型聚类、高斯混合聚类、密度聚类和层次聚类。

在本实施例中，所述计算模块通过如下公式计算候选关键词与主题关键词在样本集合中PMI值：

在本实施例中，所述判断模块具体用于，根据如下公式计算所述候选关键词在所述信息组的权重；

W_h＝|PMI_hz+-PMI_hz-|；

实施例：对短信息进行简单分类，采用人工分类或自动聚类。如可将信息分为钓鱼网站诈骗信息、转账诈骗信息等，还可以进一步细分，如积分兑换、亲友冒充等等。对于每一类诈骗信息人工提取一些关键词作为主题词，这些关键词只是该类诈骗信息的部分关键词，如积分到期、积分兑换等，算法将自动提取其它没有被人共选取的关键词。

将收集到的诈骗信息样本分sample_sms根据是否为诈骗信息划分成正样本集合sample_sms+与负样本集合sample_sms-两部分。

对两个集合中的诈骗短信进行分词，对与每一个词计算word_i其与主题词w_j之间的PMI值，如计算正样本集合中“工商银行”与主题词“积分到期”之间的PMI值时，

其中n("工商银行")为“工商银行”出现的总次数，N为总词数。同样，

其中n(工商银行,积分到期)是“工商银行”与“积分到期”在同一条信息中出现的次数。则PMI值的计算结果如下：

则每一个词word_i与主题词w_j之间的逐点互信息PMI(word_i,w_j)的计算公式如下：

由于取对数后，值为负，因此我们取其相反数作为PMI值。计算完每一个词与主题词之间的PMI后，对其进行归一化处理，使其所有数值位于0到1之间，可使用下面的归一化公式：

每个词对每个主题提都有一个PMI值，这些PMI值可以进行求和得到最终的PMI值：

对于正负样本集合中的词求得PMI后通过下面的公式计算word_i的权重：

W_i＝|PMI(word_i)₊-PMI(word_i)_-|；

对词的权重进行排序，权重大词的在识别诈骗信息时更加重要，那些没有出现在主题词中的词，如果权重较大则也重要，从而实现了关键词的自动提取。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于逐点互信息技术的诈骗信息特征词提取方法，其特征在于，包括：

2.根据权利要求1所述的一种基于逐点互信息技术的诈骗信息特征词提取方法，其特征在于，所述根据用户输入的指令从信息组中提取诈骗信息主题关键词之前，该提取方法还包括：

3.根据权利要求1所述的一种基于逐点互信息技术的诈骗信息特征词提取方法，其特征在于，所述根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值，具体包括：

4.根据权利要求3所述的一种基于逐点互信息技术的诈骗信息特征词提取方法，其特征在于，计算候选关键词与主题关键词在样本集合中PMI值的计算公式包括：

5.根据权利要求1-4中任一所述的一种基于逐点互信息技术的诈骗信息特征词提取方法，其特征在于，所述根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重，具体包括：

根据如下公式计算所述候选关键词在所述信息组的权重；

W_h＝|PMI_hz+-PMI_hz-|；

6.一种基于逐点互信息技术的诈骗信息特征词提取系统，其特征在于，包括：第一处理模块、第二处理模块、计算模块和判断模块；

7.根据权利要求6所述的一种基于逐点互信息技术的诈骗信息特征词提取系统，其特征在于，该提取系统还包括：信息分类模块，用于通过自动聚类方法对接收到的信息按类别进行划分，得到不同类型的所述信息组，所述自动聚类方法包括：原型聚类、高斯混合聚类、密度聚类和层次聚类。

8.根据权利要求6所述的一种基于逐点互信息技术的诈骗信息特征词提取系统，其特征在于，所述计算模块具体用于，通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述正样本集合的正相互性PMI值；通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值，并分别归一化处理后进行求和，得到所述候选关键词在所述负样本集合的负相互性PMI值。

9.根据权利要求8所述的一种基于逐点互信息技术的诈骗信息特征词提取系统，其特征在于，所述计算模块通过如下公式计算候选关键词与主题关键词在样本集合中PMI值：

10.根据权利要求6-9中任一所述的一种基于逐点互信息技术的诈骗信息特征词提取系统，其特征在于，所述判断模块具体用于，根据如下公式计算所述候选关键词在所述信息组的权重；

W_h＝|PMI_hz+-PMI_hz-|；