CN109766475A - 一种垃圾文本的识别方法及装置 - Google Patents

一种垃圾文本的识别方法及装置 Download PDF

Info

Publication number
CN109766475A
CN109766475A CN201811524265.6A CN201811524265A CN109766475A CN 109766475 A CN109766475 A CN 109766475A CN 201811524265 A CN201811524265 A CN 201811524265A CN 109766475 A CN109766475 A CN 109766475A
Authority
CN
China
Prior art keywords
text
identified
matrix
vector
rubbish
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811524265.6A
Other languages
English (en)
Inventor
唐颢诚
都金涛
郑培凝
陆祁
周寻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN201811524265.6A priority Critical patent/CN109766475A/zh
Publication of CN109766475A publication Critical patent/CN109766475A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种垃圾文本的识别方法及装置,涉及信息处理技术领域,用以实现更加准确地识别出垃圾文本。本发明实施例的方案包括:对待识别文本进行预处理操作,预处理操作为将待识别文本中满足第一预设特征的内容删除,和/或将待识别文本中满足第二预设特征的内容替换,然后将经过预处理操作的待识别文本转化为用于表示待识别文本中的文字的第一矩阵,以及用于表示待识别文本中的文字对应拼音的第二矩阵,再将第一矩阵和第二矩阵输入垃圾文本识别模型,根据垃圾文本识别模型的输出结果确定待识别文本属于各文本类型的概率,若待识别文本属于垃圾文本的概率大于预设值,则确定待识别文本为垃圾文本。

Description

一种垃圾文本的识别方法及装置
技术领域
本发明涉及信息处理技术领域,特别是涉及一种垃圾文本的识别方法及装置。
背景技术
随着用户使用视频网站的频率越来越高,使用时长也越来长,用户在视频网站上生成的用户原创内容(User Generated Content,UGC)文本内容量也以爆炸式的速度增长。例如,视频网站中出现的弹幕、评论、直播聊天室等都是以文字为主体的产品,用户使用视频网站中的这些功能的过程中,可以产生海量的文本。
在这些UGC文本中,往往存在大量的垃圾文本,例如广告、辱骂文字、负面舆论信息、色情内容等。目前可以通过大量的人工操作来添加关键词,通过关键词来过滤垃圾文本,然而黑产为了避开关键词经常对文本进行变更字形等操作,例如将“黄色”替换为“煌色”,导致无法精准地识别出垃圾文本。
发明内容
本发明实施例的目的在于提供一种垃圾文本的识别方法及装置,以实现更加准确地识别出垃圾文本。具体技术方案如下:
第一方面,本发明实施例提供一种垃圾文本的识别方法,包括:
对待识别文本进行预处理操作,所述预处理操作为将所述待识别文本中满足第一预设特征的内容删除,和/或将所述待识别文本中满足第二预设特征的内容替换;
将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵;
将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;
若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
在一种可能的实现方式中,所述对待识别文本进行预处理操作的步骤,包括:
将所述待识别文本中的表情符号和回复信息删除;
根据特殊汉字与正常汉字的映射关系,将所述待识别文本中的特殊汉字转化为正常汉字。
在一种可能的实现方式中,所述将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵的步骤,包括:
将经过预处理操作的待识别文本中的文字转化为文字向量;
若所述待识别文本的文字向量的维数大于预设维数,则截取所述待识别文本的所述预设维数的文字向量;
若所述待识别文本的文字向量的维数小于所述预设维数,则将所述待识别文本的文字向量补齐至所述预设维数;
将所述待识别文本的所述预设维数的文字向量构建为所述第一矩阵;
将经过预处理操作的待识别文本中的文字转化为拼音;
将所述待识别文本中的拼音转化为拼音向量;
若所述待识别文本的拼音向量的维数大于所述预设维数,则截取所述待识别文本的所述预设维数的拼音向量;
若所述待识别文本的拼音向量的维数小于所述预设维数,则将所述待识别文本的拼音向量补齐至所述预设维数;
将所述待识别文本的所述预设维数的拼音向量构建为所述第二矩阵。
在一种可能的实现方式中,所述将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率的步骤,包括:
使用至少两种卷积核分别对所述第一矩阵进行卷积,得到针对所述第一矩阵的至少两种特征向量;
使用至少两种卷积核分别对所述第二矩阵进行卷积,得到针对所述第二矩阵的至少两种特征向量;
分别对每种特征向量进行池化;
将每种特征向量对应的池化结果进行拼接,得到所述待识别文本的特征向量;
通过激活函数处理所述待识别文本的特征向量,确定所述待识别文本属于各文本类型的概率。
在一种可能的实现方式中,在所述将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型步骤之前,所述方法还包括:
对待训练文本进行所述预处理操作;
将经过预处理操作的待训练文本转化为用于表示待训练文本中的文字的第三矩阵,以及用于表示待训练文本中的文字对应拼音的第四矩阵;
通过深度学习模型处理所述第三矩阵和所述第四矩阵,根据对每个待训练文本对应的第三矩阵和第四矩阵的处理结果,将所述深度学习模型训练为所述垃圾文本识别模型。
第二方面,本申请实施例提供一种垃圾文本的识别装置,包括:
预处理模块,用于对待识别文本进行预处理操作,所述预处理操作为将所述待识别文本中满足第一预设特征的内容删除,和/或将所述待识别文本中满足第二预设特征的内容替换;
转化模块,用于将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵;
确定模块,用于将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;
识别模块,用于若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
在一种可能的实现方式中,所述预处理模块,具体用于将所述待识别文本中的表情符号和回复信息删除;根据特殊汉字与正常汉字的映射关系,将所述待识别文本中的特殊汉字转化为正常汉字。
在一种可能的实现方式中,所述转化模块,具体用于将经过预处理操作的待识别文本中的文字转化为文字向量;若所述待识别文本的文字向量的维数大于预设维数,则截取所述待识别文本的所述预设维数的文字向量;若所述待识别文本的文字向量的维数小于所述预设维数,则将所述待识别文本的文字向量补齐至所述预设维数;将所述待识别文本的所述预设维数的文字向量构建为所述第一矩阵;
所述转化模块,具体还用于将经过预处理操作的待识别文本中的文字转化为拼音;将所述待识别文本中的拼音转化为拼音向量;若所述待识别文本的拼音向量的维数大于所述预设维数,则截取所述待识别文本的所述预设维数的拼音向量;若所述待识别文本的拼音向量的维数小于所述预设维数,则将所述待识别文本的拼音向量补齐至所述预设维数;将所述待识别文本的所述预设维数的拼音向量构建为所述第二矩阵。
在一种可能的实现方式中,所述确定模块,具体用于使用至少两种卷积核分别对所述第一矩阵进行卷积,得到针对所述第一矩阵的至少两种特征向量;使用至少两种卷积核分别对所述第二矩阵进行卷积,得到针对所述第二矩阵的至少两种特征向量;分别对每种特征向量进行池化;将每种特征向量对应的池化结果进行拼接,得到所述待识别文本的特征向量;通过激活函数处理所述待识别文本的特征向量,确定所述待识别文本属于各文本类型的概率。
在一种可能的实现方式中,所述装置还包括:训练模块;
所述预处理模块,还用于对待训练文本进行所述预处理操作;
所述转化模块,还用于将经过预处理操作的待训练文本转化为用于表示待训练文本中的文字的第三矩阵,以及用于表示待训练文本中的文字对应拼音的第四矩阵;
所述训练模块,用于通过深度学习模型处理所述第三矩阵和所述第四矩阵,根据对每个待训练文本对应的第三矩阵和第四矩阵的处理结果,将所述深度学习模型训练为所述垃圾文本识别模型。
第三方面,本发明实施例还提供一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本发明实施还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。
第五方面,本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本发明实施例提供的垃圾文本的识别方法及装置,可对待识别文本进行预处理操作,减少文本中的非关键信息对文本语义的影响,且通过对待识别文本中的内容替换,可以避免因文字变型而影响识别结果,然后将第一矩阵和第二矩阵输入垃圾文本识别模型,根据垃圾文本识别模型的输出结果确定待识别文本属于各文本类型的概率,进而若待识别文本属于垃圾文本的概率大于预设值,则可确定待识别文本为垃圾文本。可见,本发明实施例将拼音特征也引入到了垃圾文本识别模型,可以增强对同音字的识别能力,避免了文字变型等操作带来的干扰,可以提高对垃圾文本识别的准确性。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种垃圾文本的识别方法的流程图;
图2为本发明实施例提供的一种垃圾文本识别模型的示例性示意图;
图3为本发明实施例提供的一种垃圾文本的识别装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了更加准确地识别出垃圾文本,本发明实施例中可以对待识别文本进行预处理操作,然后将经过预处理操作的待识别文本转化为用于表示待识别文本中的文字的第一矩阵,以及用于表示待识别文本中的文字对应拼音的第二矩阵,将第一矩阵和第二矩阵输入垃圾文本识别模型,根据垃圾文本识别模型的输出结果确定待识别文本属于各文本类型的概率,进而若确定待识别文本属于垃圾文本的概率大于预设值,则可确定待识别文本为垃圾文本。
通过对待识别文本的预处理操作,可以减少非关键文本对分类结果的影响,且根据文字和拼音两种特征来确定待识别文本所属的文本类型,可以避免因文字变形而影响识别结果,增强了对同音字的识别能力,使得分类结果更加准确,相比于通过匹配关键词识别垃圾文本的方法,可以避免文字变形等操作带来的干扰,提高了识别垃圾文本的准确性。
如图1所示,本发明实施例提供了一种垃圾文本的识别方法,该方法可以由能够与视频网站后台通信的服务器执行,也可以由视频网站的后台执行,该方法包括:
S101、对待识别文本进行预处理操作。
其中,在视频网站的后台接收到用户输入的文本(例如评论消息等)后,可将用户输入的文本作为待识别文本,进而视频网站的后台,或者能够与该视频网站的后台进行通信的服务器可以对待识别文本进行预处理操作。
预处理操作为将待识别文本中满足第一预设特征的内容删除,和/或将待识别文本中满足第二预设特征的内容替换。
可选地,满足第一预设特征的内容可以为中文表情、字符表情、emoji表情等。可以预先维护满足第一特征的内容的数据库,若识别到待识别文本中的内容与该数据库中的内容匹配,则将匹配的内容从待识别文本中删除。
满足第二特征的内容可以为特殊汉字、繁体字等。可以预先维护满足第二特征的内容的数据库,以及每个内容的转换关系,若识别到待识别文本中的内容与该数据库中的内容匹配,则根据该内容的转换关系对该内容进行转换。
示例性地,满足第一特征的内容可以为中文表情。可以维护一个中文表情的表情库,若待识别文本中有存在于该表情库中的中文表情,则将该中文表情删除,例如,若待识别文本为“[微笑][微笑][再见]又开始睡不着觉了”,处理后的结果为“又开始睡不着觉了”。
再例如,还可以将待识别文本中可能存在的字符表情进行过滤,同样可以维护一个字符表情库。例如,字符表情库中存储了“O(∩_∩)O哈哈~”、“(#^.^#)”等字符表情,若待识别文本为“O(∩_∩)O哈哈~突然一看,原来是我打错了字”,处理后的待识别文本为“突然一看,原来是我打错了字”。
可选地,还可以将待识别文本中的emoji表情、表情包等与表情相关的内容删除。而对于指向型符号“→”、心形符号等经常出现在垃圾文本中的符号可以不进行删除处理,以根据这些经常出现在垃圾文本中的符号来识别出垃圾文本。
另外,由于用户昵称不影响文本内容,所以可以将回复信息中的引用部分删除,例如待识别文本为“回复@1469421650你是不是看不到我。”,处理后的结果为“你是不是看不到我。”
满足第二特征的内容可以为特殊汉字,可以维护一个特殊汉字和正常汉字的对应关系表,例如可将待识别文本中的替换为“女”,可以避免将这些特殊汉字作为符号删除,以保证文本的完整。
满足第二特征的内容还可以为繁体字,可以将待识别文本中的繁体字转换为简体字,例如“後面這幾個麵包好大”会被转化为“后面这几个面包好大”。简体字和繁体字表达的语义相同,但是将繁体字转化为简体字可以缩减待识别文本对应的词典大小。可选地,还可以将待识别文本中的全角符号转化为半角符号。
S102、将经过预处理操作的待识别文本转化为用于表示待识别文本中的文字的第一矩阵,以及用于表示待识别文本中的文字对应拼音的第二矩阵。
一方面,将待识别文本转化为用于表示待识别文本中的文字的第一矩阵的方法为:
将经过预处理操作的待识别文本中的文字转化为文字向量,若待识别文本的文字向量的维数大于预设维数,则截取待识别文本的预设维数的文字向量,若待识别文本的文字向量的维数小于预设维数,则将待识别文本的文字向量补齐至预设维数,然后将待识别文本的预设维数的文字向量构建为第一矩阵。
例如,可以将经过预处理操作的待识别文本提取为文字级,即将连续的文本分割为单独的汉字或符号,例如经过预处理的待识别文本为“你是不是看不到我→”,该待识别文本将会被提取为“你”、“是”、“不”、“是”、“看”、“不”、“到”、“我”、“→”。
再例如,若待识别文本被提取为文字级之后包括20个文字,将其转换为文字向量后为“[42,42,118,48,130,13,52,39,117,21,349,135,114,152,275,535,98,162,550,163]”,预设维数为128,则可通过补0操作将该文字向量补齐至128维,补齐后的结果为“[42,42,118,48,130,13,52,39,117,21,349,135,114,152,275,535,98,162,550,163,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]”。
然后可以将该文字向量初始化为128×64维的第一矩阵。
另一方面,将待识别文本转化为用于表示待识别文本中的文字对应拼音的第二矩阵的方法为:
将经过预处理的待识别文本中的拼音转化为拼音向量,若待识别文本的拼音向量的维数大于预设维数,则截取待识别文本的预设维数的拼音向量;若待识别文本的拼音向量的维数小于预设维数,则将待识别文本的拼音向量补齐至预设维数,然后将待识别文本的预设维数的拼音向量构建为所述第二矩阵。
例如,结合上文中的例子,若待识别文本被提取为“你”、“是”、“不”、“是”、“看”、“不”、“到”、“我”、“→”,则可将其转化为拼音“ni”、“shi”、“bu”、“shi”、“kan”、“bu”、“dao”、“wo”。可选地,若待识别文本中本来就包含拼音,则在将待识别文本转化为拼音的过程中可以保留原有的拼音,也可以将原有的拼音删除。
然后将待识别文本的拼音转化为拼音向量,并将拼音向量补齐至128维,然后将该拼音向量初始化为128×64维的第二矩阵。
S103、将第一矩阵和第二矩阵输入垃圾文本识别模型,根据垃圾文本识别模型输出的结果确定待识别文本属于各文本类型的概率。
其中,垃圾文本识别模型可以包括卷积神经网络和激活函数。
具体的,可以使用至少两种卷积核分别对第一矩阵进行卷积,得到针对第一矩阵的至少两种特征向量,且使用至少两种卷积核分别对第二矩阵进行卷积,得到针对第二矩阵的至少两种特征向量。
示例性地,如图2所示,本申请实施例可以使用四种卷积核分别对第一矩阵进行卷积,且使用四种卷积核分别对第二矩阵进行卷积,这四种卷积核的尺寸分别为1×64、2×64、3×64、4×64,每种卷积核有128个模板。需要说明的是,图2仅为一个示例性示意图,图2未示出完整的特征向量以及卷积结果。
其中可使用128个1×64的卷积核分别对待识别文本中的每个字对应的文字向量和拼音向量进行卷积,即分别对第一矩阵和第二矩阵中的每一行进行卷积,对第一矩阵进行卷积后,使用修正线性单元(Rectified linear unit,ReLU)激活函数抽取1-gram(一元)特征,可以得到128个128×1维的特征矩阵,也可以表示为1个128×1×128维的特征矩阵,同样,对第二矩阵进行卷积得到的也是1个128×1×128维的特征矩阵。
同理,使用128个2×64的卷积核分别对待识别文本中的连续的每个两字对应的文字向量和拼音向量进行卷积,对第一矩阵进行卷积后,使用ReLU激活函数抽取2-gram特征,可以得到1个127×1×128维的特征矩阵,同样,对第二矩阵进行卷积可以得到1个127×1×128维的特征矩阵。
使用128个3×64的卷积核分别对待识别文本中的连续的每个三字对应的文字向量和拼音向量进行卷积,对第一矩阵进行卷积后,使用ReLU激活函数抽取3-gram特征,可以得到1个126×1×128维的特征矩阵,同样,对第二矩阵进行卷积可以得到1个126×1×128维的特征矩阵。
使用128个4×64的卷积核分别对待识别文本中的连续的每个四字对应的文字向量和拼音向量进行卷积,对第一矩阵进行卷积后,使用ReLU激活函数抽取4-gram特征,可以得到1个125×1×128维的特征矩阵,同样,对第二矩阵进行卷积可以得到1个125×1×128维的特征矩阵。
其中,使用尺寸为1×64的卷积核进行卷积得到的卷积结果可以表示单个字的含义,使用尺寸为2×64的卷积核进行卷积得到的卷积结果可以表示连续的两个字的含义,使用尺寸为3×64的卷积核进行卷积得到的卷积结果可以表示连续的三个字的含义,使用尺寸为4×64的卷积核进行卷积得到的卷积结果可以表示连续的四个字的含义。使用这四种尺寸的卷积核进行卷积可以扩大卷积视野,更能表达待识别文本的特征,提供更加强大的特征表达能力。
在卷积之后,可分别对每种特征向量进行池化。
可以理解的是,在经过上述的卷积步骤后,可以得到针对第一矩阵的四个特征向量和针对第二矩阵的四个特征向量,可通过1-max-pooling操作,分别对针对第一矩阵的四个特征向量和针对第二矩阵的四个特征向量进行池化。
示例性地,对于第一矩阵的128×1×128维的特征向量,在图2中可以看作是128个128×1的向量,可以取每个向量中的最大值(即图2中卷积后得到的每一列中的最大值),即得到128个1×1维的向量,也可以表示为1×1×128维的矩阵。按照这种池化方法,对第一矩阵的四个特征向量进行池化后可得到4个1×1×128维的矩阵,对第二矩阵的四个特征向量进行池化后也可以得到4个1×1×128维的矩阵。
然后,将每种特征向量对应的池化结果进行拼接,得到待识别文本的特征向量。
可以理解的是,可以将上述第一矩阵对应的4个1×1×128维的矩阵和第二矩阵的4个1×1×128维的矩阵进行拼接,得到的待识别文本的特征向量为一个1024维的向量。
在得到待识别文本的特征向量后,可通过具有分类功能的激活函数处理待识别文本的特征向量,确定待识别文本属于各文本类型的概率。其中,文本类型至少包括垃圾文本和正常文本。
可选的,可以将S型(sigmoid)函数作为激活函数将待识别文本进行二分类,即将待识别文本分为正常文本和垃圾文本两类。也可以将softmax函数作为激活函数将待识别文本分为多类,例如,将待识别文本分为正常文本、广告文本、色情文本等。其中,使用激活函数对待识别文本的特征向量进行处理可以得到待识别文本属于各类文本的概率。
S104、若待识别文本属于垃圾文本的概率大于预设值,则确定待识别文本为垃圾文本。
例如,假设预设值为0.8,若在上一步骤中识别到待识别文本属于正常文本的概率为0.1,属于垃圾文本的概率为0.9,则可确定待识别文本为垃圾文本,进而可过滤掉该待识别文本,不显示在视频网站的显示界面上。
采用本发明实施例提供的方法,可对待识别文本进行预处理操作,减少文本中的非关键信息对文本语义的影响,且通过对待识别文本中的内容替换,可以避免因文字变型而影响识别结果,然后将第一矩阵和第二矩阵输入垃圾文本识别模型,根据垃圾文本识别模型的输出结果确定待识别文本属于各文本类型的概率,进而若待识别文本属于垃圾文本的概率大于预设值,则可确定待识别文本为垃圾文本。可见,本发明实施例将拼音特征也引入到了垃圾文本识别模型,可以增强对同音字的识别能力,避免了文字变型等操作带来的干扰,可以提高对垃圾文本识别的准确性。
可选地,在执行图1所示的实施例之前,本申请实施例需对垃圾文本模型进行训练,训练方法为:
将待训练文本进行预处理操作,具体地,可以按照对上述待识别文本进行预处理操作的方法对待训练文本进行预处理操作。
然后将经过预处理操作的待训练文本转换为用于表示待训练文本中的文字的第三矩阵,以及用于表示待训练文本中的文字对应拼音的第四矩阵。
其中,将待训练文本转化为第三矩阵和第四矩阵的方法与上文中描述的将待识别文本转化为第一矩阵和第二矩阵的方法相同,可参考上文中的相关描述。
然后再通过深度学习模型处理第三矩阵和第四矩阵,根据对每个待训练文本对应的第三矩阵和第四矩阵的处理结果,将深度学习模型训练为垃圾文本识别模型。
其中,通过深度学习模型处理第三矩阵和第四矩阵的方法,与上文中描述的通过垃圾文本识别模型处理第一矩阵和第二矩阵的方法相同,可参考上文中的相关描述。
可以理解的,对第三矩阵和第四矩阵的处理结果为深度学习模型中的激活函数输出的待训练文本属于各文本类型的概率,在得到该处理结果后,可以根据处理结果调整深度学习模型中的参数,通过对一定数量的待训练文本的处理,以及根据处理结果调整深度学习模型中的参数,可以得到能够更加准确地识别垃圾文本的垃圾文本识别模型。
采用本发明实施例提供的方法,可对待训练文本进行预处理操作,减少文本中的非关键信息对文本语义的影响,且通过对待训练文本中的内容替换,可以避免因文字变型而影响识别结果,然后通过深度学习模型对经过预处理的待训练文本的文字对应的第三矩阵,以及待训练文本的文字的拼音对应的第四矩阵进行处理,根据处理结果将深度学习模型训练出垃圾文本识别模型,进而使用垃圾文本识别模型识别接收到的文本是否为垃圾文本。可见,本发明实施例将拼音特征也引入到了卷积神经网络,可以增强对同音字的识别能力,避免了文字变型等操作带来的干扰,可以提高对垃圾文本识别的准确性。
此外,本发明实施例中使用多种卷积模板对待训练文本进行处理,可以扩大卷积视野,更能反映文本的语义特征,且采用垃圾文本识别模型识别垃圾文本,无需人工进行添加关键词,减少了人工操作的工作量,且维护成本较低。
对应于上述方法实施例,本发明实施例还提供一种垃圾文本的识别装置,如图3所示,该装置包括:预处理模块301、转化模块301、确定模块303和识别模块304。
预处理模块301,用于对待识别文本进行预处理操作,预处理操作为将待识别文本中满足第一预设特征的内容删除,和/或将待识别文本中满足第二预设特征的内容替换。
转化模块302,用于将经过预处理操作的待识别文本转化为用于表示待识别文本中的文字的第一矩阵,以及用于表示待识别文本中的文字对应拼音的第二矩阵。
确定模块303,用于将第一矩阵和第二矩阵输入垃圾文本识别模型,根据垃圾文本识别模型的输出结果确定待识别文本属于各文本类型的概率,文本类型至少包括正常文本和垃圾文本。
识别模块304,用于若待识别文本属于垃圾文本的概率大于预设值,则确定待识别文本为垃圾文本。
可选地,预处理模块301,具体用于将待识别文本中的表情符号和回复信息删除;根据特殊汉字与正常汉字的映射关系,将待识别文本中的特殊汉字转化为正常汉字。
可选地,转化模块302,具体用于将经过预处理操作的待识别文本中的文字转化为文字向量;若待识别文本的文字向量的维数大于预设维数,则截取待识别文本的预设维数的文字向量;若待识别文本的文字向量的维数小于预设维数,则将待识别文本的文字向量补齐至预设维数;将待识别文本的预设维数的文字向量构建为第一矩阵。
转化模块302,具体还用于将经过预处理操作的待识别文本中的文字转化为拼音;将待识别文本中的拼音转化为拼音向量;若待识别文本的拼音向量的维数大于预设维数,则截取待识别文本的预设维数的拼音向量;若待识别文本的拼音向量的维数小于预设维数,则将待识别文本的拼音向量补齐至预设维数;将待识别文本的预设维数的拼音向量构建为第二矩阵。
可选地,确定模块303,具体用于使用至少两种卷积核分别对第一矩阵进行卷积,得到针对第一矩阵的至少两种特征向量;使用至少两种卷积核分别对第二矩阵进行卷积,得到针对第二矩阵的至少两种特征向量;分别对每种特征向量进行池化;将每种特征向量对应的池化结果进行拼接,得到待识别文本的特征向量;通过激活函数处理待识别文本的特征向量,确定待识别文本属于各文本类型的概率。
可选地,该装置还包括训练模块。
预处理模块301,还用于对待训练文本进行预处理操作;
转化模块302,还用于将经过预处理操作的待训练文本转化为用于表示待训练文本中的文字的第三矩阵,以及用于表示待训练文本中的文字对应拼音的第四矩阵;
训练模块,用于通过深度学习模型处理第三矩阵和第四矩阵,根据对每个待训练文本对应的第三矩阵和第四矩阵的处理结果,将深度学习模型训练为垃圾文本识别模型。
本发明实施例还提供了一种电子设备,该电子设备可以为视频网站的后台服务器,或者为能够与视频网站的后台通信的服务器,如图4所示,该电子设备包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述方法实施例描述的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一垃圾文本的识别方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一垃圾文本的识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种垃圾文本的识别方法,其特征在于,包括:
对待识别文本进行预处理操作,所述预处理操作为将所述待识别文本中满足第一预设特征的内容删除,和/或将所述待识别文本中满足第二预设特征的内容替换;
将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵;
将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;
若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
2.根据权利要求1所述的方法,其特征在于,所述对待识别文本进行预处理操作的步骤,包括:
将所述待识别文本中的表情符号和回复信息删除;
根据特殊汉字与正常汉字的映射关系,将所述待识别文本中的特殊汉字转化为正常汉字。
3.根据权利要求1所述的方法,其特征在于,所述将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵的步骤,包括:
将经过预处理操作的待识别文本中的文字转化为文字向量;
若所述待识别文本的文字向量的维数大于预设维数,则截取所述待识别文本的所述预设维数的文字向量;
若所述待识别文本的文字向量的维数小于所述预设维数,则将所述待识别文本的文字向量补齐至所述预设维数;
将所述待识别文本的所述预设维数的文字向量构建为所述第一矩阵;
将经过预处理操作的待识别文本中的文字转化为拼音;
将所述待识别文本中的拼音转化为拼音向量;
若所述待识别文本的拼音向量的维数大于所述预设维数,则截取所述待识别文本的所述预设维数的拼音向量;
若所述待识别文本的拼音向量的维数小于所述预设维数,则将所述待识别文本的拼音向量补齐至所述预设维数;
将所述待识别文本的所述预设维数的拼音向量构建为所述第二矩阵。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率的步骤,包括:
使用至少两种卷积核分别对所述第一矩阵进行卷积,得到针对所述第一矩阵的至少两种特征向量;
使用至少两种卷积核分别对所述第二矩阵进行卷积,得到针对所述第二矩阵的至少两种特征向量;
分别对每种特征向量进行池化;
将每种特征向量对应的池化结果进行拼接,得到所述待识别文本的特征向量;
通过激活函数处理所述待识别文本的特征向量,确定所述待识别文本属于各文本类型的概率。
5.根据权利要求1-4任一项所述的方法,其特征在于,在所述将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型步骤之前,所述方法还包括:
对待训练文本进行所述预处理操作;
将经过预处理操作的待训练文本转化为用于表示待训练文本中的文字的第三矩阵,以及用于表示待训练文本中的文字对应拼音的第四矩阵;
通过深度学习模型处理所述第三矩阵和所述第四矩阵,根据对每个待训练文本对应的第三矩阵和第四矩阵的处理结果,将所述深度学习模型训练为所述垃圾文本识别模型。
6.一种垃圾文本的识别装置,其特征在于,包括:
预处理模块,用于对待识别文本进行预处理操作,所述预处理操作为将所述待识别文本中满足第一预设特征的内容删除,和/或将所述待识别文本中满足第二预设特征的内容替换;
转化模块,用于将经过预处理操作的待识别文本转化为用于表示所述待识别文本中的文字的第一矩阵,以及用于表示所述待识别文本中的文字对应拼音的第二矩阵;
确定模块,用于将所述第一矩阵和所述第二矩阵输入垃圾文本识别模型,根据所述垃圾文本识别模型的输出结果确定所述待识别文本属于各文本类型的概率,所述文本类型至少包括正常文本和垃圾文本;
识别模块,用于若所述待识别文本属于垃圾文本的概率大于预设值,则确定所述待识别文本为垃圾文本。
7.根据权利要求6所述的装置,其特征在于,
所述预处理模块,具体用于将所述待识别文本中的表情符号和回复信息删除;根据特殊汉字与正常汉字的映射关系,将所述待识别文本中的特殊汉字转化为正常汉字。
8.根据权利要求6所述的装置,其特征在于,
所述转化模块,具体用于将经过预处理操作的待识别文本中的文字转化为文字向量;若所述待识别文本的文字向量的维数大于预设维数,则截取所述待识别文本的所述预设维数的文字向量;若所述待识别文本的文字向量的维数小于所述预设维数,则将所述待识别文本的文字向量补齐至所述预设维数;将所述待识别文本的所述预设维数的文字向量构建为所述第一矩阵;
所述转化模块,具体还用于将经过预处理操作的待识别文本中的文字转化为拼音;将所述待识别文本中的拼音转化为拼音向量;若所述待识别文本的拼音向量的维数大于所述预设维数,则截取所述待识别文本的所述预设维数的拼音向量;若所述待识别文本的拼音向量的维数小于所述预设维数,则将所述待识别文本的拼音向量补齐至所述预设维数;将所述待识别文本的所述预设维数的拼音向量构建为所述第二矩阵。
9.根据权利要求8所述的装置,其特征在于,
所述确定模块,具体用于使用至少两种卷积核分别对所述第一矩阵进行卷积,得到针对所述第一矩阵的至少两种特征向量;使用至少两种卷积核分别对所述第二矩阵进行卷积,得到针对所述第二矩阵的至少两种特征向量;分别对每种特征向量进行池化;将每种特征向量对应的池化结果进行拼接,得到所述待识别文本的特征向量;通过激活函数处理所述待识别文本的特征向量,确定所述待识别文本属于各文本类型的概率。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述装置还包括:训练模块;
所述预处理模块,还用于对待训练文本进行所述预处理操作;
所述转化模块,还用于将经过预处理操作的待训练文本转化为用于表示待训练文本中的文字的第三矩阵,以及用于表示待训练文本中的文字对应拼音的第四矩阵;
所述训练模块,用于通过深度学习模型处理所述第三矩阵和所述第四矩阵,根据对每个待训练文本对应的第三矩阵和第四矩阵的处理结果,将所述深度学习模型训练为所述垃圾文本识别模型。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
CN201811524265.6A 2018-12-13 2018-12-13 一种垃圾文本的识别方法及装置 Pending CN109766475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811524265.6A CN109766475A (zh) 2018-12-13 2018-12-13 一种垃圾文本的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811524265.6A CN109766475A (zh) 2018-12-13 2018-12-13 一种垃圾文本的识别方法及装置

Publications (1)

Publication Number Publication Date
CN109766475A true CN109766475A (zh) 2019-05-17

Family

ID=66450523

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811524265.6A Pending CN109766475A (zh) 2018-12-13 2018-12-13 一种垃圾文本的识别方法及装置

Country Status (1)

Country Link
CN (1) CN109766475A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN111079410A (zh) * 2019-12-23 2020-04-28 五八有限公司 文本识别方法、装置、电子设备及存储介质
CN111538837A (zh) * 2020-04-27 2020-08-14 北京同邦卓益科技有限公司 用于分析企业经营范围信息的方法和装置
CN112989810A (zh) * 2019-12-17 2021-06-18 北京达佳互联信息技术有限公司 文本信息的识别方法、装置及服务器、存储介质
CN113591464A (zh) * 2021-07-28 2021-11-02 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN115858776A (zh) * 2022-10-31 2023-03-28 北京数美时代科技有限公司 一种变体文本分类识别方法、系统、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315849B1 (en) * 2010-04-09 2012-11-20 Wal-Mart Stores, Inc. Selecting terms in a document
CN105808602A (zh) * 2014-12-31 2016-07-27 中国移动通信集团公司 一种垃圾信息的检测方法及装置
US20180068344A1 (en) * 2013-10-15 2018-03-08 Jennifer L. Sultzaberger Systems and methods for management of media campaigns
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8315849B1 (en) * 2010-04-09 2012-11-20 Wal-Mart Stores, Inc. Selecting terms in a document
US20180068344A1 (en) * 2013-10-15 2018-03-08 Jennifer L. Sultzaberger Systems and methods for management of media campaigns
CN105808602A (zh) * 2014-12-31 2016-07-27 中国移动通信集团公司 一种垃圾信息的检测方法及装置
CN108228704A (zh) * 2017-11-03 2018-06-29 阿里巴巴集团控股有限公司 识别风险内容的方法及装置、设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
荣光辉,黄震华: "基于深度学习的问答匹配方法", 《计算机应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309297A (zh) * 2018-03-16 2019-10-08 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN110309297B (zh) * 2018-03-16 2024-01-02 腾讯科技(深圳)有限公司 垃圾文本检测方法、可读存储介质和计算机设备
CN112989810A (zh) * 2019-12-17 2021-06-18 北京达佳互联信息技术有限公司 文本信息的识别方法、装置及服务器、存储介质
CN112989810B (zh) * 2019-12-17 2024-03-12 北京达佳互联信息技术有限公司 文本信息的识别方法、装置及服务器、存储介质
CN111079410A (zh) * 2019-12-23 2020-04-28 五八有限公司 文本识别方法、装置、电子设备及存储介质
CN111079410B (zh) * 2019-12-23 2023-12-22 五八有限公司 文本识别方法、装置、电子设备及存储介质
CN111538837A (zh) * 2020-04-27 2020-08-14 北京同邦卓益科技有限公司 用于分析企业经营范围信息的方法和装置
CN113591464A (zh) * 2021-07-28 2021-11-02 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN113591464B (zh) * 2021-07-28 2022-06-10 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN115858776A (zh) * 2022-10-31 2023-03-28 北京数美时代科技有限公司 一种变体文本分类识别方法、系统、存储介质和电子设备
CN115858776B (zh) * 2022-10-31 2023-06-23 北京数美时代科技有限公司 一种变体文本分类识别方法、系统、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN109766475A (zh) 一种垃圾文本的识别方法及装置
Rosa et al. A “deeper” look at detecting cyberbullying in social networks
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN108874776A (zh) 一种垃圾文本的识别方法及装置
CN108388554B (zh) 基于协同过滤注意力机制的文本情感识别系统
CN109858039A (zh) 一种文本信息识别方法及识别装置
CN110175221B (zh) 利用词向量结合机器学习的垃圾短信识别方法
Yang et al. Sentiment analysis of Weibo comment texts based on extended vocabulary and convolutional neural network
US20220269354A1 (en) Artificial intelligence-based system and method for dynamically predicting and suggesting emojis for messages
CN108304509B (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN105956740B (zh) 一种基于文本逻辑特征的语义风险计算方法
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN110750648A (zh) 一种基于深度学习和特征融合的文本情感分类方法
Alawneh et al. Sentiment analysis-based sexual harassment detection using machine learning techniques
Gupta et al. SMPOST: parts of speech tagger for code-mixed indic social media text
CN110298041A (zh) 垃圾文本过滤方法、装置、电子设备及存储介质
CN112507702A (zh) 文本信息的抽取方法、装置、电子设备及存储介质
CN107545505A (zh) 保险理财产品信息的识别方法及系统
CN110020430B (zh) 一种恶意信息识别方法、装置、设备及存储介质
Vitman et al. Sarcasm detection framework using context, emotion and sentiment features
WO2024109597A1 (zh) 文本合并判断模型的训练方法和文本合并判断方法
CN110704611B (zh) 基于特征解交织的非法文本识别方法及装置
Guo et al. Supervised contrastive learning with term weighting for improving Chinese text classification
Joseph et al. A comparative study of word embedding techniques for sms spam detection
CN109947932B (zh) 一种推送信息分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190517

RJ01 Rejection of invention patent application after publication