CN107992473B - 基于逐点互信息技术的诈骗信息特征词提取方法及系统 - Google Patents

基于逐点互信息技术的诈骗信息特征词提取方法及系统 Download PDF

Info

Publication number
CN107992473B
CN107992473B CN201711190871.4A CN201711190871A CN107992473B CN 107992473 B CN107992473 B CN 107992473B CN 201711190871 A CN201711190871 A CN 201711190871A CN 107992473 B CN107992473 B CN 107992473B
Authority
CN
China
Prior art keywords
information
mutual
pmi
keyword
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711190871.4A
Other languages
English (en)
Other versions
CN107992473A (zh
Inventor
马宏远
王丽宏
杜翠兰
贺敏
刘玮
赵晓航
王博
柳毅
赵媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201711190871.4A priority Critical patent/CN107992473B/zh
Publication of CN107992473A publication Critical patent/CN107992473A/zh
Application granted granted Critical
Publication of CN107992473B publication Critical patent/CN107992473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于逐点互信息技术的诈骗信息特征词提取方法及系统,该提取方法包括:提取诈骗信息主题关键词,组成主题关键词集合;将信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并得到正样本分词集合、负样本候分词集合和候选关键词集合;根据候选关键词集合的候选关键词在信息组的正相互性PMI值和负相互性PMI值得到候选关键词在信息组的权重,将权重大于预设阈值的候选关键词记为信息组的合格关键词。本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。

Description

基于逐点互信息技术的诈骗信息特征词提取方法及系统
技术领域
本发明涉及信息检索技术领域,尤其涉及基于逐点互信息技术的诈骗信息特征词提取方法及系统。
背景技术
目前,随着互联网的快速发展,诈骗信息在网络信息空间中的快速多样化传播,特别是网络信息空间中涉及各个实体用户的网络环境,各种信息成爆炸式增长,使得用户对信息真实性、实时性、准确性的要求越来越高,相应的,对传统安全过滤技术的考验也日益严峻。在网络信息空间中,除了正常信息,还有大量正常业务合法流量,包括大量合法推送广告等流量。随着人们认知水平的提高,短信中的语言和内容也是日新月异,不断变化。甚至出现了“公证处通知”、“银行通知”、“中奖通知”、“特等奖”、“中奖”、“法院通知”、“法院传单”等等金钱诱惑和冒名的“威逼利诱”的字样。诈骗信息是属于损害广大用户利益,违法国家法律的有害流量。
发明内容
为了解决现有技术存在的问题,本发明的至少一个实施例提供了一种基于逐点互信息技术的诈骗信息特征词提取方法,包括:
根据用户输入的指令从信息组中提取诈骗信息主题关键词,组成主题关键词集合;
将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并分别对所述正样本集合和负样本集合中的信息进行分词,得到正样本分词集合、负样本分词集合和候选关键词集合;
根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值;
根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词。
在上述方案的基础上,本发明实施例还可以做出如下改进。
可选的,所述根据用户输入的指令从信息组中提取诈骗信息主题关键词之前,该提取方法还包括:
通过自动聚类方法对接收到的信息按类别进行划分,得到不同类型的所述信息组,所述自动聚类方法包括:原型聚类、高斯混合聚类、密度聚类和层次聚类。
可选的,所述根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性和负相互性,具体包括:
通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述正样本集合的正相互性PMI值;
通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述负样本集合的负相互性PMI值。
可选的,计算候选关键词与主题关键词在样本集合中PMI值的计算公式包括:
Figure GDA0002886043970000021
Figure GDA0002886043970000022
其中,Ph为所述候选关键词在所述样本集合的分词集合中出现的概率;所述Nh为所述候选关键词在所述样本集合的分词集合中出现的次数;所述N为所述样本集合的分词集合的总词数;Pz为所述主题关键词在所述样本集合的分词集合中出现的概率;所述Nz为所述主题关键词在所述样本集合的分词集合中出现的次数;所述Nhz为所述候选关键词和所述主题关键词在所述样本集合中同一条信息里出现的次数。
可选的,所述根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,具体包括:
根据如下公式计算所述候选关键词在所述信息组的权重;
Wh=|PMIhz+-PMIhz-|;
其中,Wh为所述候选关键词在所述信息组的权重;所述PMIhz+为所述正相互性PMI值;所述PMIhz-为所述负相互性PMI值;
所述当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词,具体包括:
当所述正相互性PMI值大于所述负相互性PMI值时,所述候选关键词为诈骗信息关键词;
当所述正相互性PMI值小于所述负相互性PMI值时,所述候选关键词为非诈骗信息关键词。
本发明的至少一个实施例提供了一种基于逐点互信息技术的诈骗信息特征词提取系统,包括:第一处理模块、第二处理模块、计算模块和判断模块;
所述第一处理模块,用于根据用户输入的指令从信息组中提取关键词,组成主题关键词集合;
所述第二处理模块,用于将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并分别对所述正样本集合和负样本集合中的信息进行分词,得到正样本分词集合、负样本分词集合和候选关键词集合;
所述计算模块,用于根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集计算得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值;
所述判断模块,用于根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词。
可选的,该提取系统还包括:信息分类模块,用于通过自动聚类方法对接收到的信息按类别进行划分,得到不同类型的所述信息组,所述自动聚类方法包括:原型聚类、高斯混合聚类、密度聚类和层次聚类。
可选的,所述计算模块具体用于,通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述正样本集合的正相互性PMI值;通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述负样本集合的负相互性PMI值。
可选的,所述计算模块通过如下公式计算候选关键词与主题关键词在样本集合中PMI值:
Figure GDA0002886043970000041
Figure GDA0002886043970000042
其中,PMIhz为候选关键词与主题关键词在样本集合中的PMI值;Ph为所述候选关键词在所述样本集合的分词集合中出现的概率;所述Nh为所述候选关键词在所述样本集合的分词集合中出现的次数;所述N为所述样本集合的分词集合的总词数;Pz为所述主题关键词在所述样本集合的分词集合中出现的概率;所述Nz为所述主题关键词在所述样本集合的分词集合中出现的次数;所述Nhz为所述候选关键词和所述主题关键词在所述样本集合中同一条信息里出现的次数。
可选的,所述判断模块具体用于,根据如下公式计算所述候选关键词在所述信息组的权重;
Wh=|PMIhz+-PMIhz-|;
其中,Wh为所述候选关键词在所述信息组的权重;所述PMIhz+为所述正相互性PMI值;所述PMIhz-为所述负相互性PMI值;
并判断所述正相互性PMI值与所述负相互性PMI值的大小,当所述正相互性PMI值大于所述负相互性PMI值时,所述候选关键词为诈骗信息关键词;当所述正相互性PMI值小于所述负相互性PMI值时,所述候选关键词为非诈骗信息关键词。
本发明的上述技术方案与现有技术相比具有如下优点:本发明通过对信息组中的信息进行处理,得到候选关键词集合,计算候选关键词相对于信息的正相互性PMI值和负相互性PMI值,得到候选关键词的权重,由此判断是否为合格关键词,实现了对数据流式信息的关键词提取。
附图说明
图1是本发明实施例提供的一种基于逐点互信息技术的诈骗信息特征词提取方法流程示意图;
图2是本发明实施例提供的一种基于逐点互信息技术的诈骗信息特征词提取系统结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供的一种基于逐点互信息技术的诈骗信息特征词提取方法流程示意图,包括:
根据用户输入的指令从信息组中提取诈骗信息主题关键词,组成主题关键词集合;
将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并分别对所述正样本集合和负样本集合中的信息进行分词,得到正样本分词集合、负样本分词集合和候选关键词集合;
根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值;
根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词。
上述实施例中,根据用户的指令选择某一类信息组中的诈骗信息主题关键词,也就是说主题关键词由用户确定,该主题关键词为较为明显的诈骗信息关键词,系统将信息组中的信息按是否为诈骗信息进行分类,诈骗信息为正样本集合,非诈骗信息为负样本集合,分别对正样本集合和负样本集合中的信息进行分词,得到候选关键词、正样本集合分词集合和负样本集合分词集合,其中正样本分词集合和负样本分词集合分别为正样本集合和负样本集合中的所有分词,候选关键词集合为其中部分词,对候选关键词集合中的候选关键词分别进行计算,得到其相对于正样本分词集合的PMI值和相对于负样本分词集合的PMI值,而且可以得知每一个候选关键词相对于一个主题关键词都有一组相对于正样本分词集合的PMI值和相对于负样本分词集合的PMI值,将所有相对于正样本分词集合的PMI值进行累加得到正相互性PMI值,将所有相对于负样本分词集合的PMI值进行累加得到负相互性PMI值,并将正相互性PMI值减去负相互性PMI值,由此得到合格关键词,合格关键词可为诈骗信息关键词也可为非诈骗信息关键词。
逐点互信息,Pointwise mutual information简称PMI,是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。
信息论的主要内容用语言来阐述。一种简洁的语言,以英语为例,通常有两个重要特点:首先,最常用的词应该比不太常用的词要短一些;其次,如果句子的某一部分被漏听或者由于噪声干扰,比如一辆车辆疾驰而过,而被误听,听者应该仍然可以抓住句子的大概意思。而如果把电子通信系统比作一种语言的话,这种健壮性是不可或缺的。将健壮性引入通信是通过信道编码完成的。信源编码和信道编码是信息论的基本研究课题。
自信息量I表示一个消息出现后所带来的信息量,用其概率的负对数来表示,即I=-log2 P,因此I是非负值,并且是概率P的单调递减函数。
在信息论中,信源是发出消息的源,信源输出以符号形式出现的具体消息。如果符号是确定的而且预先是知道的,那么该消息就无信息可言。只有当符号的出现是随机的,预先无法确定,一旦出现某个符号就给观察者提供了信息。因此可用随机变量或随机矢量来表示信源,运用概率论和随机过程的理论来研究信息,这就是香农信息论的基本点。实际应用中分析信源所采用的方法往往依信源特性而定。按照信源发出的消息在时间上和幅度上的分布情况可将信源分成离散信源和连续信源两大类。离散信源是指发出在时间和幅度上都是离散分布的离散消息的信源,如文字、数字、数据等符号都是离散消息。连续信源是指发出在时间和幅度上都是连续分布的连续消息(模拟消息)的信源,如语言、图像、图形等都是连续消息。
互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系,是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之间的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之间关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。
互信息的定义为后验概率与先验概率比值的对数,即
Figure GDA0002886043970000081
由于无法确定
Figure GDA0002886043970000082
和p(xi)的大小关系,所以I(xi;yj)不一定大于或者等于零。互信息量I(xi;yj)在X集合上得统计平均值
Figure GDA0002886043970000083
平均互信息量I(X;Y)为上述I(X;yj)在Y集合上的概率加权统计平均值,即
Figure GDA0002886043970000084
在数据挖掘或者信息检索的相关资料里,经常会用到PMI(Pointwise MutualInformation)这个指标来衡量两个事物之间的相关性。PMI的定义如下:
Figure GDA0002886043970000091
在概率论中,我们知道,如果x跟y不相关,则p(x,y)=p(x)p(y)。二者相关性越大,则p(x,y)就相比于p(x)p(y)越大。根据条件概率公式,还可以写成
Figure GDA0002886043970000092
在y出现的情况下x出现的条件概率p(x|y)除以x本身出现的概率p(x),自然就表示x跟y的相关程度。这里的log来自于信息论的理论,而且log1=0,也恰恰表明p(x,y)=p(x)p(y),相关性为0,而且log是单调递增函数,所以“p(x,y)就相比于p(x)p(y)越大,x和y相关性越大”,这一性质也得到保留。
如图2所示,本发明的至少一个实施例提供了一种基于逐点互信息技术的诈骗信息特征词提取系统结构示意图,包括:第一处理模块、第二处理模块、计算模块和判断模块;
所述第一处理模块,用于根据用户输入的指令从信息组中提取关键词,组成主题关键词集合;
所述第二处理模块,用于将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并分别对所述正样本集合和负样本集合中的信息进行分词,得到正样本分词集合、负样本分词集合和候选关键词集合;
所述计算模块,用于根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集计算得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值,具体的,通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述正样本集合的正相互性PMI值;通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述负样本集合的负相互性PMI值;
所述判断模块,用于根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词。
在本实施例中,该提取系统还包括:信息分类模块,用于通过自动聚类方法对接收到的信息按类别进行划分,得到不同类型的所述信息组,所述自动聚类方法包括:原型聚类、高斯混合聚类、密度聚类和层次聚类。
在本实施例中,所述计算模块通过如下公式计算候选关键词与主题关键词在样本集合中PMI值:
Figure GDA0002886043970000101
Figure GDA0002886043970000102
其中,PMIhz为候选关键词与主题关键词在样本集合中的PMI值;Ph为所述候选关键词在所述样本集合的分词集合中出现的概率;所述Nh为所述候选关键词在所述样本集合的分词集合中出现的次数;所述N为所述样本集合的分词集合的总词数;Pz为所述主题关键词在所述样本集合的分词集合中出现的概率;所述Nz为所述主题关键词在所述样本集合的分词集合中出现的次数;所述Nhz为所述候选关键词和所述主题关键词在所述样本集合中同一条信息里出现的次数。
在本实施例中,所述判断模块具体用于,根据如下公式计算所述候选关键词在所述信息组的权重;
Wh=|PMIhz+-PMIhz-|;
其中,Wh为所述候选关键词在所述信息组的权重;所述PMIhz+为所述正相互性PMI值;所述PMIhz-为所述负相互性PMI值;
并判断所述正相互性PMI值与所述负相互性PMI值的大小,当所述正相互性PMI值大于所述负相互性PMI值时,所述候选关键词为诈骗信息关键词;当所述正相互性PMI值小于所述负相互性PMI值时,所述候选关键词为非诈骗信息关键词。
实施例:对短信息进行简单分类,采用人工分类或自动聚类。如可将信息分为钓鱼网站诈骗信息、转账诈骗信息等,还可以进一步细分,如积分兑换、亲友冒充等等。对于每一类诈骗信息人工提取一些关键词作为主题词,这些关键词只是该类诈骗信息的部分关键词,如积分到期、积分兑换等,算法将自动提取其它没有被人共选取的关键词。
将收集到的诈骗信息样本分sample_sms根据是否为诈骗信息划分成正样本集合sample_sms+与负样本集合sample_sms-两部分。
对两个集合中的诈骗短信进行分词,对与每一个词计算word_i其与主题词w_j之间的PMI值,如计算正样本集合中“工商银行”与主题词“积分到期”之间的PMI值时,
Figure GDA0002886043970000111
其中n("工商银行")为“工商银行”出现的总次数,N为总词数。同样,
Figure GDA0002886043970000112
Figure GDA0002886043970000113
其中n(工商银行,积分到期)是“工商银行”与“积分到期”在同一条信息中出现的次数。则PMI值的计算结果如下:
Figure GDA0002886043970000121
则每一个词word_i与主题词w_j之间的逐点互信息PMI(word_i,w_j)的计算公式如下:
Figure GDA0002886043970000122
由于取对数后,值为负,因此我们取其相反数作为PMI值。计算完每一个词与主题词之间的PMI后,对其进行归一化处理,使其所有数值位于0到1之间,可使用下面的归一化公式:
Figure GDA0002886043970000123
每个词对每个主题提都有一个PMI值,这些PMI值可以进行求和得到最终的PMI值:
Figure GDA0002886043970000124
对于正负样本集合中的词求得PMI后通过下面的公式计算word_i的权重:
Wi=|PMI(word_i)+-PMI(word_i)-|;
对词的权重进行排序,权重大词的在识别诈骗信息时更加重要,那些没有出现在主题词中的词,如果权重较大则也重要,从而实现了关键词的自动提取。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于逐点互信息技术的诈骗信息特征词提取方法,其特征在于,包括:
根据用户输入的指令从信息组中提取诈骗信息主题关键词,组成主题关键词集合;
将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并分别对所述正样本集合和负样本集合中的信息进行分词,得到正样本分词集合、负样本分词集合和候选关键词集合;
根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值;
根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词。
2.根据权利要求1所述的一种基于逐点互信息技术的诈骗信息特征词提取方法,其特征在于,所述根据用户输入的指令从信息组中提取诈骗信息主题关键词之前,该提取方法还包括:
通过自动聚类方法对接收到的信息按类别进行划分,得到不同类型的所述信息组,所述自动聚类方法包括:原型聚类、高斯混合聚类、密度聚类和层次聚类。
3.根据权利要求1所述的一种基于逐点互信息技术的诈骗信息特征词提取方法,其特征在于,所述根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集合得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值,具体包括:
通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述正样本集合的正相互性PMI值;
通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述负样本集合的负相互性PMI值。
4.根据权利要求3所述的一种基于逐点互信息技术的诈骗信息特征词提取方法,其特征在于,计算候选关键词与主题关键词在样本集合中PMI值的计算公式包括:
Figure FDA0002886043960000021
Figure FDA0002886043960000022
其中,PMIhz为候选关键词与主题关键词在样本集合中的PMI值;Ph为所述候选关键词在所述样本集合的分词集合中出现的概率;所述Nh为所述候选关键词在所述样本集合的分词集合中出现的次数;所述N为所述样本集合的分词集合的总词数;Pz为所述主题关键词在所述样本集合的分词集合中出现的概率;所述Nz为所述主题关键词在所述样本集合的分词集合中出现的次数;所述Nhz为所述候选关键词和所述主题关键词在所述样本集合中同一条信息里出现的次数。
5.根据权利要求1-4中任一所述的一种基于逐点互信息技术的诈骗信息特征词提取方法,其特征在于,所述根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,具体包括:
根据如下公式计算所述候选关键词在所述信息组的权重;
Wh=|PMIhz+-PMIhz-|;
其中,Wh为所述候选关键词在所述信息组的权重;所述PMIhz+为所述正相互性PMI值;所述PMIhz-为所述负相互性PMI值;
所述当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词,具体包括:
当所述正相互性PMI值大于所述负相互性PMI值时,所述候选关键词为诈骗信息关键词;
当所述正相互性PMI值小于所述负相互性PMI值时,所述候选关键词为非诈骗信息关键词。
6.一种基于逐点互信息技术的诈骗信息特征词提取系统,其特征在于,包括:第一处理模块、第二处理模块、计算模块和判断模块;
所述第一处理模块,用于根据用户输入的指令从信息组中提取关键词,组成主题关键词集合;
所述第二处理模块,用于将所述信息组中的信息按是否为诈骗信息划分为正样本集合和负样本集合,并分别对所述正样本集合和负样本集合中的信息进行分词,得到正样本分词集合、负样本分词集合和候选关键词集合;
所述计算模块,用于根据所述信息组的主题关键词集合、正样本分词集合和负样本分词集计算得到所述候选关键词集合的候选关键词在所述信息组的正相互性PMI值和负相互性PMI值;
所述判断模块,用于根据所述正相互性PMI值和负相互性PMI值得到所述候选关键词在所述信息组的权重,当所述候选关键词的权重大于预设阈值时,将所述候选关键词记为所述信息组的合格关键词。
7.根据权利要求6所述的一种基于逐点互信息技术的诈骗信息特征词提取系统,其特征在于,该提取系统还包括:信息分类模块,用于通过自动聚类方法对接收到的信息按类别进行划分,得到不同类型的所述信息组,所述自动聚类方法包括:原型聚类、高斯混合聚类、密度聚类和层次聚类。
8.根据权利要求6所述的一种基于逐点互信息技术的诈骗信息特征词提取系统,其特征在于,所述计算模块具体用于,通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述正样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述正样本集合的正相互性PMI值;通过逐点互信息技术分别计算所述候选关键词与所述主题关键词集合中所有主题关键词在所述负样本集合的PMI值,并分别归一化处理后进行求和,得到所述候选关键词在所述负样本集合的负相互性PMI值。
9.根据权利要求8所述的一种基于逐点互信息技术的诈骗信息特征词提取系统,其特征在于,所述计算模块通过如下公式计算候选关键词与主题关键词在样本集合中PMI值:
Figure FDA0002886043960000041
Figure FDA0002886043960000042
其中,PMIhz为候选关键词与主题关键词在样本集合中的PMI值;Ph为所述候选关键词在所述样本集合的分词集合中出现的概率;所述Nh为所述候选关键词在所述样本集合的分词集合中出现的次数;所述N为所述样本集合的分词集合的总词数;Pz为所述主题关键词在所述样本集合的分词集合中出现的概率;所述Nz为所述主题关键词在所述样本集合的分词集合中出现的次数;所述Nhz为所述候选关键词和所述主题关键词在所述样本集合中同一条信息里出现的次数。
10.根据权利要求6-9中任一所述的一种基于逐点互信息技术的诈骗信息特征词提取系统,其特征在于,所述判断模块具体用于,根据如下公式计算所述候选关键词在所述信息组的权重;
Wh=|PMIhz+-PMIhz-|;
其中,Wh为所述候选关键词在所述信息组的权重;所述PMIhz+为所述正相互性PMI值;所述PMIhz-为所述负相互性PMI值;
并判断所述正相互性PMI值与所述负相互性PMI值的大小,当所述正相互性PMI值大于所述负相互性PMI值时,所述候选关键词为诈骗信息关键词;当所述正相互性PMI值小于所述负相互性PMI值时,所述候选关键词为非诈骗信息关键词。
CN201711190871.4A 2017-11-24 2017-11-24 基于逐点互信息技术的诈骗信息特征词提取方法及系统 Active CN107992473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711190871.4A CN107992473B (zh) 2017-11-24 2017-11-24 基于逐点互信息技术的诈骗信息特征词提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711190871.4A CN107992473B (zh) 2017-11-24 2017-11-24 基于逐点互信息技术的诈骗信息特征词提取方法及系统

Publications (2)

Publication Number Publication Date
CN107992473A CN107992473A (zh) 2018-05-04
CN107992473B true CN107992473B (zh) 2021-04-27

Family

ID=62032932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711190871.4A Active CN107992473B (zh) 2017-11-24 2017-11-24 基于逐点互信息技术的诈骗信息特征词提取方法及系统

Country Status (1)

Country Link
CN (1) CN107992473B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516053B (zh) * 2019-08-15 2022-08-05 出门问问(武汉)信息科技有限公司 对话处理方法、设备及计算机存储介质
CN110852090B (zh) * 2019-11-07 2024-03-19 中科天玑数据科技股份有限公司 一种用于舆情爬取的机构特征词汇扩展系统和方法
CN113051369A (zh) * 2021-03-31 2021-06-29 北京大米科技有限公司 文本内容识别的方法、装置、可读存储介质和电子设备
CN115292611B (zh) * 2022-10-09 2023-01-17 深圳市华云中盛科技股份有限公司 一种案件信息处理方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN105138523A (zh) * 2014-05-30 2015-12-09 富士通株式会社 在文本中确定语义关键词的方法和装置
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110818A1 (en) * 2014-10-21 2016-04-21 Hartford Fire Insurance Company System for dynamic fraud detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020212A (zh) * 2012-12-07 2013-04-03 合一网络技术(北京)有限公司 一种基于用户查询日志实时发现热点视频的方法和装置
CN105138523A (zh) * 2014-05-30 2015-12-09 富士通株式会社 在文本中确定语义关键词的方法和装置
CN107038193A (zh) * 2016-11-17 2017-08-11 阿里巴巴集团控股有限公司 一种文本信息的处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于文本分类技术的垃圾邮件过滤研究;张小花;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170815(第08期);论文全文 *

Also Published As

Publication number Publication date
CN107992473A (zh) 2018-05-04

Similar Documents

Publication Publication Date Title
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN107992473B (zh) 基于逐点互信息技术的诈骗信息特征词提取方法及系统
Sehgal et al. Sops: stock prediction using web sentiment
CN107515873A (zh) 一种垃圾信息识别方法及设备
Ginting et al. Hate speech detection on twitter using multinomial logistic regression classification method
CN116629275B (zh) 一种基于大数据的智能决策支持系统及方法
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN108052505A (zh) 文本情感分析方法及装置、存储介质、终端
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
CN109766435A (zh) 弹幕类别识别方法、装置、设备及存储介质
CN105809186A (zh) 情感分类的方法及系统
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN112818110A (zh) 文本过滤方法、设备及计算机存储介质
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113887214B (zh) 基于人工智能的意愿推测方法、及其相关设备
Prasanthi et al. A novel approach for sentiment analysis on social media using BERT & ROBERTA transformer-based models
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN111737475A (zh) 一种无监督的网络舆情垃圾长文本识别方法
CN116881408A (zh) 基于ocr和nlp的视觉问答防诈骗方法及系统
Atmajaya et al. ITE Law Enforcement Support through Detection Tools of Fake News, Hate Speech, and Insults in Digital Media
CN115391674A (zh) 网络社区虚假信息高效抑制方法及装置、设备、存储介质
Salau et al. Sentiment analysis of public health concerns of Tokyo 2020 Olympics using LSTM
Yeh et al. A fraud detection system for real-time messaging communication on Android Facebook messenger

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant