CN110309297B - 垃圾文本检测方法、可读存储介质和计算机设备 - Google Patents
垃圾文本检测方法、可读存储介质和计算机设备 Download PDFInfo
- Publication number
- CN110309297B CN110309297B CN201810217110.1A CN201810217110A CN110309297B CN 110309297 B CN110309297 B CN 110309297B CN 201810217110 A CN201810217110 A CN 201810217110A CN 110309297 B CN110309297 B CN 110309297B
- Authority
- CN
- China
- Prior art keywords
- text
- junk
- candidate
- detected
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000013145 classification model Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种垃圾文本检测方法、计算机可读存储介质和计算机设备,通过获取待检测文本;将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果;训练得到所述垃圾文本分类模型的方式包括:获取候选垃圾文本库中的各候选垃圾文本;确定各候选垃圾文本的文本向量,并基于各候选垃圾文本的文本向量确定各样本垃圾文本;将待训练样本文本输入待训练垃圾文本分类模型,获得所述垃圾文本分类模型,所述待训练样本包括各所述样本垃圾文本。本申请实施例提高了垃圾文本的识别率。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种垃圾文本检测方法、计算机可读存储介质和计算机设备。
背景技术
随着移动互联网技术的发展,在线社交网络的规模不断扩大,所包含的恶意用户也成倍增加。这些恶意用户利用社交网络的文字传播功能发布各种带有恶意信息的垃圾文本,如微商广告、金融诈骗信息、色情信息、及自动机生成的带乱码干扰的引流信息等。这些垃圾文本不仅影响着正常用户的社交体验,也会对用户财产安全、甚至社会的稳定造成不同程度的影响。
为此,有必要针对这些垃圾文本进行检测,进而采取相关的措施,传统的垃圾文本检测方式主要建立在基于规则的安全策略上,识别率较低。
发明内容
基于此,有必要针对垃圾文本的识别率较低的问题,提供一种垃圾文本检测方法、计算机可读存储介质和计算机设备。
一种垃圾文本检测方法,包括:
获取待检测文本;
将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果;
训练得到所述垃圾文本分类模型的方式包括:
获取候选垃圾文本库中的各候选垃圾文本;
确定各候选垃圾文本的文本向量,并基于各候选垃圾文本的文本向量确定各样本垃圾文本;
将待训练样本文本输入待训练垃圾文本分类模型,获得所述垃圾文本分类模型,所述待训练样本包括各所述样本垃圾文本。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述垃圾文本检测方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述垃圾文本检测方法的步骤。
上述垃圾文本检测方法、计算机可读存储介质和计算机设备,在训练获得垃圾文本分类模型时,对候选垃圾文本库中各候选垃圾文本进行向量化的处理,从中确定出各个样本垃圾文本,据此将包含确定的各样本垃圾文本的待训练文本输入待训练垃圾文本分类模型获得垃圾文本分类模型,并基于获得的垃圾文本分类模型对待检测文本进行检测,确定出待检测垃圾文本是否为垃圾文本,提高了垃圾文本的识别率。
附图说明
图1为一个实施例中垃圾文本检测方法的应用环境图;
图2为一个实施例中垃圾文本检测方法的流程示意图;
图3为一个实施例中垃圾文本检测方法的垃圾文本分类模型训练流程示意图;
图4为一个实施例中确定候选垃圾文本的文本向量的流程示意图;
图5为一个实施例中确定样本垃圾文本的流程示意图;
图6为一个实施例中确定样本垃圾文本的流程示意图;
图7为一个实施例中垃圾文本检测方法的流程示意图;
图8为一个实施例中垃圾文本检测方法的流程示意图;
图9为一个实施例中垃圾文本检测方法的流程示意图;
图10为一个实施例中垃圾文本检测方法的流程示意图;
图11为一个实施例中垃圾文本检测方法的流程图;
图12为一个实施例中垃圾文本检测方法的候选垃圾文本提纯流程示意图;
图13为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,该垃圾文本检测方法的应用环境可涉及用户终端110和服务器120,用户终端110和服务器120通过网络进行通信。用户终端110获取评论文本,该评论文本可以是基于用户终端110的用户的输入确定的文本,再通过网络将评论文本发送至服务器120,服务器120对该评论文本进行检测,确定该评论文本是否为垃圾文本。其中,用户终端110可以是移动终端或者台式终端,移动终端可以包括手机、音箱、机器人、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的物理服务器,或者多个物理服务器构成的服务器集群来实现。在其他实施例中,也可以由用户终端110获取评论文本后,直接对评论文本进行检测,确定该评论文本是否为垃圾文本。
如图2所示,在一个实施例中,提供了一种垃圾文本检测方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2,该垃圾文本检测方法具体包括如下步骤S210和步骤S220。
步骤S210,获取待检测文本。
其中,待检测文本是被检测的对象,是需要对其检测以确定去是否为垃圾文本的文本。该待检测文本可以通过各种可能的方式获得,例如可以是用户使用终端在社交平台上实时发布的文本信息。比如,待检测文本可以是用户使用终端在社交平台上实时发布的200字以内的短文本。
一个实施例中,当用户通过终端在社交平台上发布文本信息时,服务器将会对用户发送的文本信息进行检测,检测此文本信息是否为带有恶意信息的垃圾文本,如微商广告、金融诈骗信息、色情信息、或者自动机生成的带乱码干扰的引流信息等。
步骤S220,将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果。
其中,垃圾文本分类模型可通过线下训练获得。将待检测文本输入垃圾文本分类模型之后,可以根据该待检测文本的垃圾文本检测结果,该垃圾文本检测结果可以是该待检测文本是否为垃圾文本的结果,也可以是该待检测文本为垃圾文本的概率,从而可以该概率确定文本是否为垃圾文本。
一个实施例中,请参阅图3,训练得到所述垃圾文本分类模型的方式可以包括下述步骤S310至步骤S330。
步骤S310,获取候选垃圾文本库中的各候选垃圾文本。
其中,候选垃圾文本库中存储的文本是有较大概率为垃圾文本的文本,这些文本可以通过各种可能的方式获得,例如恶意账号发布的文本或者已经确定为是垃圾文本的文本,如人工确定或者其他的方式确定的文本。一个实施例中,可以是将候选垃圾文本库中的所有文本均作为候选垃圾文本,以便于对各候选垃圾文本进行处理后确定出样本垃圾文本。
步骤S320,确定各候选垃圾文本的文本向量,并基于各候选垃圾文本的文本向量确定各样本垃圾文本。
其中,候选垃圾文本的文本向量可以是对候选垃圾文本进行处理后所得到的向量化的文本信息。一个实施例中,候选垃圾文本的文本向量可以通过下述方式获得:将候选垃圾文本汉字转拼音,获得文本对应的拼音形式,然后对汉字文本和拼音文本进行向量化处理后,将汉字文本向量和拼音文本向量进行组合而形成候选垃圾文本的文本向量。
在其中一个实施例中,请参阅图4,确定各候选垃圾文本的文本向量的步骤包括步骤S321至步骤S323。
步骤S321,对各所述候选垃圾文本分别进行预处理,获得各所述候选垃圾文本的文字信息及拼音信息。
基于候选垃圾文本的多种表示方式,如“赚钱”:可以通过文字表示为“赚钱”,也可以使用拼音表示为“zhuanqian”。因此,当恶意用户利用社交网络的文字传播功能发布文本信息,可以将“赚钱”表示为“赚钱”或“zhuanqian”。本申请通过对候选垃圾文本处理为汉字文本和拼音文本,提高识别的准确率。
步骤S322,确定各候选垃圾文本的文字信息对应的文字特征向量、拼音信息对应的拼音特征向量。
在将文字信息和拼音信息进行向量化时,可以采用任何可能的向量化的方式进行,只要能够将文字信息和拼音信息向量化表示即可,本实施例不做具体限定。
步骤S323,分别组合各候选垃圾文本的文字特征向量和拼音特征向量,获得各候选垃圾文本的文本向量。
在其中一个实施例中,在组合各候选垃圾文本的文字特征向量和拼音特征向量,获得各候选垃圾文本的文本向量,可以用各种可能的组合方式,一个实施例中,可以通过拼接的方式进行组合。如将各候选垃圾文本的文字特征向量和拼音特征向量分别进行拼接,获得各候选垃圾文本的文本向量。
其中,利用中文文本向量与拼音文本向量拼接而成的长向量作为输入,提高了对同音字、故意设置的错别字的识别能力。
据此,一个实施例中,确定各候选垃圾文本的文本向量可以表示为:对于候选垃圾文本库D中的每一条文本di,o∈D,进行汉字转拼音处理得到文本di,o对应的拼音形式di,p,将汉字文本和拼音文本作为输入分别处理得到其对应的Doc2Vec(Doc2Vec用于得到文档/段落/句子的向量表达)向量化表示和/>令/>拼接为长向量,其中/>表示两个向量的拼接操作。
一个实施例中,在基于各候选垃圾文本的文本向量确定各样本垃圾文本时,可以通过对各候选垃圾文本的文本向量进行聚类,基于聚类中心个数的先验知识,先确定文本向量的聚类中心的个数和位置;其中由于文本库中的文本较多,执行时间过长,因此对文本库进行采样操作,并将采样后的向量化文本作为输入进行聚类。最后通过判断各个群簇的大小是否超过阈值t来提纯垃圾文本,确定各样本垃圾文本。
在其中一个实施例中,请参阅图5,基于各候选垃圾文本的文本向量确定各样本垃圾文本,包括步骤S324和步骤S325。
步骤S324,基于各候选垃圾文本的文本向量,对各候选垃圾文本进行聚类,获得聚类后的各群簇。
聚类是可以采用各种可能的聚类方式进行,如可以使用Kmeans算法(Kmeans算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则)对文本向量进行聚类,由于聚类中心个数的先验知识,先利用DBSCAN算法(DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。)来确定文本向量/>的聚类中心的个数K和位置ck,1≤k≤K;由于文本库中的文本较多,DBSCAN算法的执行时间过长,因此对文本库进行采样操作,并将采样后的向量化文本作为DBSCAN算法的输入。
步骤S325,将满足预定条件的各群簇包含的候选垃圾文本,确定为样本垃圾文本。
该预定条件可以设置为任何可能的筛选条件。在本实施例中,该预定条件可以设置为群簇的大小。据此,在其中一个实施例中,请参阅图6,将满足预定条件的各群簇包含的候选垃圾文本,确定为样本垃圾文本,包括:
步骤S3251,确定聚类后的各群簇中,群簇大小超过预设阈值的群簇;
步骤S3252,将群簇大小超过预设阈值的群簇包含的候选垃圾文本,确定为样本垃圾文本。
确定聚类后的各群簇的大小,通过设定预设阈值,将各群簇的大小与预设阈值相比较,超或预设阈值的群簇中的候选垃圾文本为样本垃圾文本。预设阈值的参数为t,可根据实际情况进行调整。
步骤S330,待训练样本文本输入待训练垃圾文本分类模型,获得所述垃圾文本分类模型,所述待训练样本包括各所述样本垃圾文本。
其中,待训练样本文本是用于输入到待训练垃圾文本分类模型中,用以训练待训练垃圾文本分类模型的文本。其中,待训练样本文本包括样本垃圾文本和普通文本,样本垃圾文本可以通过上述步骤S310至步骤S320获得,也可以通过其他方式,普通文本可以通过任何可能的方式确定,例如步骤S310至步骤S320中提纯后不属于样本垃圾文本的文本作为普通文本,也可以通过其他方式输入,如人工确定或者采用其他方式确定不是垃圾文本的文本,。
一个实施例中,可以以向量化的垃圾文本和向量化的正常文本输入到待训练垃圾文本分类模型中进行训练,以增加垃圾文本分类模型的准确率;以CNN(卷积神经网络)作为待训练垃圾文本分类模型,对垃圾文本的覆盖率较高、误报率较低。
上述垃圾文本检测方法,在训练获得垃圾文本分类模型时,对候选垃圾文本库中各候选垃圾文本进行向量化的处理,从中确定出各个样本垃圾文本,据此将包含确定的各样本垃圾文本的待训练文本输入待训练垃圾文本分类模型获得垃圾文本分类模型,并基于获得的垃圾文本分类模型对待检测文本进行检测,确定出待检测垃圾文本是否为垃圾文本,提高了垃圾文本的识别率。
在其中一个实施例中,请参阅图7,所述获取候选垃圾文本库中的各候选垃圾文本的步骤之前还包括步骤S340和步骤S350。
步骤S340,获取恶意账号池中的各问题账号,该问题账号可能包括分析识别出的恶意账号以及接收的举报信息中包含的被举报账号。
恶意账号池是收集管理分析识别出的恶意账号以及接收的举报信息中包含的被举报账号。
步骤S350,将各问题账号发布的文本确定为候选垃圾文本,添加到候选垃圾文本库中。
一个实施例中,可以将问题账号发布的所有文本都确定为候选垃圾文本,也可以是将问题账号最近发布(例如最近一段时间内发布,该最近一段时间可以是一周、一个月等)的文本确定为候选垃圾文本,通过实时获取问题账号所新发布的文本信息作为候选垃圾文本,可以加强训练获得垃圾文本检测模型的实时性。
在其中一个实施例中,请参阅图8,在获得所述待检测文本的垃圾文本检测结果的步骤之后还包括:
步骤S230,在所述垃圾文本检测结果为所述待检测文本为垃圾文本时,获得发布所述待检测文本的发布方的发布方账号。
步骤S240,将所述发布方账号添加到所述恶意账号池中。
当检测出待检测文本为垃圾文本时,对垃圾文本进行拦截,也可以对垃圾文本进行提醒(如:在文本信息的内容中加上提示标识,用户可以通过提示标识了解此文本信息不可信),也可以使垃圾文本信息区别于正常文本信息。对于识别出的垃圾文本,除进行相应的拦截外,还会进一步利用恶意账号反馈模块将发送垃圾文本的账号输送至恶意账号池,来扩充新的候选垃圾文本库,并可以据此做进一步的训练以对垃圾文本检测模型进行更新。
在其中一个实施例中,请参阅图9,所述将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果的步骤包括:
步骤S221,将所述待检测文本输入通过训练得到的垃圾文本分类模型,输出所述待检测文本是垃圾文本的垃圾文本概率。
步骤S222,在垃圾文本概率超过概率阈值时,确定所述待检测文本的垃圾文本检测结果为所述待检测文本为垃圾文本。
以实时发布的社交网络文本作为输入,结合训练得到的垃圾文本分类模型,对文本是否属于垃圾文本作出判断。将待检测文本输入通过训练得到的垃圾文本分类模型,得出待检测文本为垃圾文本的概率,再通过判断为垃圾文本的概率是否超过预设的概率阈值,确定出待检测文本的垃圾文本检测结果为所述待检测文本为垃圾文本。
在其中一个实施例中,请参阅图10,将所述待检测文本输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果,包括:
步骤S223,对所述待检测文本进行预处理,获得所述待检测文本的文字信息及拼音信息;
步骤S224,确定所述待检测文本的文字信息对应的文字特征向量、拼音信息对应的拼音特征向量;
步骤S225,组合所述待检测文本的文字特征向量和拼音特征向量,获得所述待检测文本的文本向量;
步骤S226,将所述待检测文本的文本向量输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果。
对于待检测文本通过已有的汉字转拼音工具(如xpinyin)得到文本di,o对应的拼音形式di,p,将汉字文本和拼音文本作为输入分别处理得到其对应的Doc2Vec向量化表示和/>令/>拼接为长向量,其中/>表示两个向量的拼接操作,获得待检测文本的文本向量,将其输入通过训练得到的垃圾文本分类模型,获得待检测文本为垃圾文本的概率,再通过判断为垃圾文本的概率是否超过预设的概率阈值,确定出待检测文本的垃圾文本检测结果为所述待检测文本为垃圾文本。
上述垃圾文本检测方法,通过利用无监督聚类的方式自动地获取恶意样本,结合文字和拼音特征,将文字信息及拼音信息分别处理为文字特征向量与拼音特征向量,并利用文字特征向量与拼音特征向量拼接而成的长向量作为CNN的输入训练垃圾文本分类模型,再由训练后的垃圾文本分类模型对实时评论文本进行检测,确定出垃圾文本。将离线的无监督学习和在线的有监督分类模型有机的结合在了一起,既保证了垃圾文本识别的时效性,又保证了垃圾文本识别的准确率和覆盖率,且模型迭代周期短。
为更清楚的描述本申请,提供下列实施例,但并不仅限于本实施。一种垃圾文本检测方法,请参阅图11:
从恶意账号池中提取所有的恶意账号,恶意账号池中包括分析识别出的恶意账号以及接收的举报信息中包含的被举报账号,获取各恶意账号在近期所发布的文本信息作为候选垃圾文本(可以将候选垃圾文本统一存储管理在候选垃圾文本库中,也可以直接使用),在各恶意账号在近期所发布的文本信息中不一定全是垃圾文本,也可能存在一定的正常文本,需要对候选垃圾文本库进行进一步的筛选,得到提纯后的垃圾文本库,获得样本垃圾文本,使得训练出的垃圾文本分类模型分辨的准确性更高。
请参阅图12,候选垃圾文本提纯的过程包括:
对于候选垃圾文本库D中的每一条文本di,o∈D,对其进行汉字转拼音处理得到文本di,o对应的拼音形式di,p,将汉字文本和拼音文本作为输入分别处理得到其对应的Doc2Vec向量化表示和/>令/>其中/>表示两个向量的拼接操作。使用Kmeans算法对文本向量/>进行聚类,基于聚类中心个数的先验知识,先利用DBSCAN算法来确定文本向量/>的聚类中心的个数K和位置ck,1≤k≤K;值得注意的是,由于文本库中的文本较多,DBSCAN算法的执行时间过长,因此采用对文本库进行采样操作,并将采样后的向量化文本作为DBSCAN算法的输入。最后通过判断各个群簇的大小是否超过阈值t来提纯垃圾文本,得到样本垃圾文本。
请继续参阅图11,将样本垃圾文本和样本正常文本对应的向量化信息输入到待训练垃圾文本分类模型(待训练垃圾文本分类模型可以是CNN垃圾文本分类器,也可以是其他垃圾文本分类器)中,对垃圾文本分类模型进行训练,得到垃圾文本分类模型。
通过获取实时发布的社交网络文本(待检测文本)作为输入离线学习到的垃圾文本分类模型,输出是垃圾文本概率的概率值,根据是垃圾文本概率的概率值的大小判断是否为垃圾文本;对于识别出的垃圾文本,对垃圾文本进行相应的拦截,此外,还会获取该垃圾文本对应的发布方账号,并将发布方账号将发送至恶意账号池,来扩充新的候选垃圾文本库。
上述垃圾文本检测方法,有效地将无监督的文本聚类方法和有监督的文本分类方法结合在一起。线下,基于无监督聚类善于挖掘垃圾文本的集群特征的特点利用DBSCAN和KMeans等聚类方法发掘新的垃圾文本模式,自动地获取恶意样本,极大地降低人工成本,从而缩短模型迭代周期,并将所发掘的垃圾文本作为训练样本训练垃圾文本分类器;线上,基于后者的高时效性及高精准度的特点利用深度卷积神经网络分类模型实时检测垃圾评论文本,并将所检测的垃圾文本所对应恶意账号反馈回离线的文本聚类方法。并结合文字和拼音特征,可以有效的降低各种干扰信息(如,简繁体字、同音字、多音字、火星文等)对文本聚类的干扰;采用CNN(为卷积神经网络)为垃圾文本分类模型,由于社交网络中的评论文本常为200字以内的短文本,而卷积神经网络在短文本分类上具有更为突出的表现,因此该系统采用深度卷积神经网络作为垃圾文本分类器,对垃圾文本的覆盖率较高、误报率较低;此外,利用识别出的垃圾文本对离线聚类及分类器训练进行反馈,利用垃圾文本的集群特点持续发掘新的垃圾文本模式。
另外,利用社交网络中的恶意账号来获取其发表的文本信息作为丰富的候选垃圾文本库,进一步通过聚类的方式获取到提纯后的垃圾文本库;利用中文文本向量与拼音文本向量拼接而成的长向量作为CNN的输入进行训练垃圾文本分类模型,将离线训练垃圾文本分类模型和在线垃圾文本识别相结合,并通过在线识别的垃圾文本回溯恶意账号、反馈离线训练过程的系统构建方式,再利用识别出的新的垃圾文本对CNN网络进行重新训练。提高了对同音字、故意设置的错别字的识别能力;提高了系统应对新增恶意的识别能力。
图13示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图13所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现垃圾文本检测方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行垃圾文本检测方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种垃圾文本检测方法,其特征在于,包括:
获取恶意账号池中的各问题账号,问题账号包括分析识别出的恶意账号以及接收的举报信息中包含的被举报账号;
将所述各问题账号发布的文本确定为候选垃圾文本,添加到候选垃圾文本库中;
获取所述候选垃圾文本库中的各候选垃圾文本;
确定所述各候选垃圾文本的文本向量,基于所述各候选垃圾文本的文本向量,对各候选垃圾文本进行聚类,获得聚类后的各群簇;
确定所述聚类后的各群簇中,群簇大小超过预设阈值的群簇,将群簇大小超过预设阈值的群簇包含的候选垃圾文本,确定为样本垃圾文本;所述样本垃圾文本是指作为样本的垃圾文本;
将待训练样本文本输入待训练垃圾文本分类模型,获得垃圾文本分类模型,所述待训练样本包括各所述样本垃圾文本;
获取待检测文本;
对所述待检测文本进行预处理,获得所述待检测文本的文字信息及拼音信息;
确定所述待检测文本的文字信息对应的文字特征向量、拼音信息对应的拼音特征向量;
组合所述待检测文本的文字特征向量和拼音特征向量,获得所述待检测文本的文本向量;
将所述待检测文本的文本向量输入通过训练得到的所述垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果;
在所述垃圾文本检测结果为所述待检测文本为垃圾文本时,获得发布所述待检测文本的发布方的发布方账号;
将所述发布方账号添加到所述恶意账号池中,跳转至所述获取恶意账号池中的各问题账号的步骤,以对所述垃圾文本分类模型进行更新。
2.根据权利要求1所述的垃圾文本检测方法,其特征在于,确定各候选垃圾文本的文本向量,包括:
对各所述候选垃圾文本分别进行预处理,获得各所述候选垃圾文本的文字信息及拼音信息;
确定各候选垃圾文本的文字信息对应的文字特征向量、拼音信息对应的拼音特征向量;
分别组合各候选垃圾文本的文字特征向量和拼音特征向量,获得各候选垃圾文本的文本向量。
3.根据权利要求2所述的垃圾文本检测方法,其特征在于,分别组合各候选垃圾文本的文字特征向量和拼音特征向量,获得各候选垃圾文本的文本向量,包括:
将各候选垃圾文本的文字特征向量和拼音特征向量进行拼接,获得各候选垃圾文本的文本向量。
4.根据权利要求1所述的垃圾文本检测方法,其特征在于,所述将所述待检测文本的文本向量输入通过训练得到的垃圾文本分类模型,获得所述待检测文本的垃圾文本检测结果包括:
将所述待检测文本的文本向量输入通过训练得到的垃圾文本分类模型,输出所述待检测文本是垃圾文本的垃圾文本概率;
在垃圾文本概率超过概率阈值时,确定所述待检测文本的垃圾文本检测结果为所述待检测文本为垃圾文本。
5.根据权利要求1所述的垃圾文本检测方法,其特征在于,所述垃圾文本分类模型为深度卷积神经网络。
6.根据权利要求1所述的垃圾文本检测方法,其特征在于,所述将各问题账号发布的文本确定为候选垃圾文本,添加到候选垃圾文本库中包括:
将各问题账号在预设时间段内发布的文本确定为候选垃圾文本,添加到候选垃圾文本库中。
7.根据权利要求1所述的垃圾文本检测方法,其特征在于,所述待训练样本文本还包括普通文本,所述普通文本包括不属于样本垃圾文本的候选垃圾文本。
8.根据权利要求7所述的垃圾文本检测方法,其特征在于,所述将待训练样本文本输入待训练垃圾文本分类模型,获得所述垃圾文本分类模型包括:
以向量化的样本垃圾文本和向量化的普通文本输入到待训练垃圾文本分类模型,获得所述垃圾文本分类模型。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述垃圾文本检测方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述垃圾文本检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810217110.1A CN110309297B (zh) | 2018-03-16 | 2018-03-16 | 垃圾文本检测方法、可读存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810217110.1A CN110309297B (zh) | 2018-03-16 | 2018-03-16 | 垃圾文本检测方法、可读存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110309297A CN110309297A (zh) | 2019-10-08 |
CN110309297B true CN110309297B (zh) | 2024-01-02 |
Family
ID=68073754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810217110.1A Active CN110309297B (zh) | 2018-03-16 | 2018-03-16 | 垃圾文本检测方法、可读存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110309297B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190646B (zh) * | 2020-01-14 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 一种用户名样本的标注方法、装置、电子设备及存储介质 |
CN111259985B (zh) * | 2020-02-19 | 2023-06-30 | 腾讯云计算(长沙)有限责任公司 | 基于业务安全的分类模型训练方法、装置和存储介质 |
CN113590812B (zh) * | 2020-04-30 | 2024-03-05 | 阿里巴巴集团控股有限公司 | 垃圾文本训练样本的筛选方法及装置、电子设备 |
CN111651598A (zh) * | 2020-05-28 | 2020-09-11 | 上海勃池信息技术有限公司 | 一种通过中心向量相似度匹配的垃圾文本审核装置和方法 |
CN112395556B (zh) * | 2020-09-30 | 2022-09-06 | 广州市百果园网络科技有限公司 | 异常用户检测模型训练方法、异常用户审核方法及装置 |
CN112632219B (zh) * | 2020-12-17 | 2022-10-04 | 中国联合网络通信集团有限公司 | 一种垃圾短信的拦截方法和拦截装置 |
CN112989789B (zh) * | 2021-03-15 | 2024-05-17 | 京东科技信息技术有限公司 | 文本审核模型的测试方法、装置、计算机设备及存储介质 |
CN113254649B (zh) * | 2021-06-22 | 2023-07-18 | 中国平安人寿保险股份有限公司 | 敏感内容识别模型的训练方法、文本识别方法及相关装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101316246A (zh) * | 2008-07-18 | 2008-12-03 | 北京大学 | 一种基于分类器动态更新的垃圾邮件检测方法及系统 |
CN101382934A (zh) * | 2007-09-06 | 2009-03-11 | 华为技术有限公司 | 多媒体模型检索方法、装置及系统 |
CN103501487A (zh) * | 2013-09-18 | 2014-01-08 | 小米科技有限责任公司 | 分类器更新方法、装置、终端、服务器及系统 |
CN103605694A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 一种相似文本检测装置和方法 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
US8903920B1 (en) * | 2005-10-24 | 2014-12-02 | At&T Intellectual Property I, L.P. | Detection and prevention of e-mail malware attacks |
CN105631049A (zh) * | 2016-02-17 | 2016-06-01 | 北京奇虎科技有限公司 | 一种识别诈骗短信的方法和系统 |
CN106572097A (zh) * | 2016-11-01 | 2017-04-19 | 南京邮电大学 | 一种基于移动设备的混合式身份认证方法 |
CN109766475A (zh) * | 2018-12-13 | 2019-05-17 | 北京爱奇艺科技有限公司 | 一种垃圾文本的识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9165328B2 (en) * | 2012-08-17 | 2015-10-20 | International Business Machines Corporation | System, method and computer program product for classification of social streams |
-
2018
- 2018-03-16 CN CN201810217110.1A patent/CN110309297B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8903920B1 (en) * | 2005-10-24 | 2014-12-02 | At&T Intellectual Property I, L.P. | Detection and prevention of e-mail malware attacks |
CN101382934A (zh) * | 2007-09-06 | 2009-03-11 | 华为技术有限公司 | 多媒体模型检索方法、装置及系统 |
CN101206673A (zh) * | 2007-12-25 | 2008-06-25 | 北京科文书业信息技术有限公司 | 网络搜索过程中关键词的智能纠错系统及方法 |
CN101316246A (zh) * | 2008-07-18 | 2008-12-03 | 北京大学 | 一种基于分类器动态更新的垃圾邮件检测方法及系统 |
CN103501487A (zh) * | 2013-09-18 | 2014-01-08 | 小米科技有限责任公司 | 分类器更新方法、装置、终端、服务器及系统 |
CN103605694A (zh) * | 2013-11-04 | 2014-02-26 | 北京奇虎科技有限公司 | 一种相似文本检测装置和方法 |
CN103795612A (zh) * | 2014-01-15 | 2014-05-14 | 五八同城信息技术有限公司 | 即时通讯中的垃圾和违法信息检测方法 |
CN105631049A (zh) * | 2016-02-17 | 2016-06-01 | 北京奇虎科技有限公司 | 一种识别诈骗短信的方法和系统 |
CN106572097A (zh) * | 2016-11-01 | 2017-04-19 | 南京邮电大学 | 一种基于移动设备的混合式身份认证方法 |
CN109766475A (zh) * | 2018-12-13 | 2019-05-17 | 北京爱奇艺科技有限公司 | 一种垃圾文本的识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
Food group consumption in an Italian population using the updated food classification system FoodEx2: Results from the Italian Nutrition & HEalth Survey (INHES) study;G. Pounis 等;《Nutrition, Metabolism and Cardiovascular Diseases》;307-328 * |
余本功 等.基于CP-CNN的中文短文本分类研究.《计算机应用研究》.2017,第1-6页. * |
基于自学习的图像分类算法研究;贾广象;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-2615 * |
Also Published As
Publication number | Publication date |
---|---|
CN110309297A (zh) | 2019-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309297B (zh) | 垃圾文本检测方法、可读存储介质和计算机设备 | |
US20210295179A1 (en) | Detecting fraud by calculating email address prefix mean keyboard distances using machine learning optimization | |
CN109831460B (zh) | 一种基于协同训练的Web攻击检测方法 | |
CN105144040A (zh) | 基于通信上下文的预测文本建议 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN107341143A (zh) | 一种句子连贯性判断方法及装置和电子设备 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
Luckner et al. | Stable web spam detection using features based on lexical items | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN111324810A (zh) | 一种信息过滤方法、装置及电子设备 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
US11138458B2 (en) | Method and system for detecting drift in text streams | |
CN114491018A (zh) | 敏感信息检测模型的构建方法、敏感信息检测方法及装置 | |
CN113591077A (zh) | 一种网络攻击行为预测方法、装置、电子设备及存储介质 | |
CN109509110B (zh) | 基于改进bbtm模型的微博热点话题发现方法 | |
CN114529910A (zh) | 手写文字识别方法、装置、存储介质及电子设备 | |
CN112381458A (zh) | 项目评审方法、项目评审装置、设备及存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN116561298A (zh) | 基于人工智能的标题生成方法、装置、设备及存储介质 | |
CN114841147B (zh) | 基于多指针协同注意力的谣言检测方法及装置 | |
CN111291551A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN116257601A (zh) | 一种基于深度学习的违法词库构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |