发明内容
本申请实施例提供一种异常文本检测方法及装置,旨在通过对文本进行预处理,消除影响异常文本检测结果有效性的因素,达到提高异常文本检测结果的准确性,进而有效防控文本内容风险的目的。
本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种异常文本检测方法,包括:
对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;
提取所述第一中间文本中的特征数据;
基于所述特征数据,对所述待检测文本进行检测;
在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
可选的,本申请第一方面提供的异常文本检测方法中,对所述待检测文本进行预处理,包括以下至少一项:
将所述待检测文本中包含的内容资源链接替换为第一预设字符;
将所述待检测文本中包含的表情符号替换为第二预设字符;
在所述待检测文本的文本末尾包含连续标点符号的情况下,去除所述连续标点符号。
可选的,本申请第一方面提供的异常文本检测方法中,提取所述第一中间文本中的特征数据,包括:
基于所述第一中间文本的内容结构数据,提取所述特征数据,所述内容结构数据包括段落结构数据和字符结构数据中至少一种。
可选的,本申请第一方面提供的异常文本检测方法中,所述段落结构数据包括段落个数和段落长度;
则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:
确定所述第一中间文本中所包含的段落,得到段落个数;
统计所述第一中间文本中每个段落的长度,得到至少一个段落长度;
基于所述段落个数和所述至少一个段落长度,确定所述第一中间文本的平均段落长度;
根据所述段落个数、所述至少一个段落长度和所述平均段落长度中至少一项,确定所述特征数据。
可选的,本申请第一方面提供的异常文本检测方法中,所述字符结构数据包括文本字符总个数;
则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:
统计所述第一中间文本中所包含的字符的个数,作为所述文本字符总个数;
根据所述文本字符总个数,确定所述特征数据。
可选的,本申请第一方面提供的异常文本检测方法中,所述字符结构数据还包括非汉字字符个数、非数字字符个数和非字母字符个数;
则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:
统计所述第一中间文本中所包含的非汉字字符的个数、非数字字符的个数和非字母字符的个数,分别对应得到非汉字字符个数、非数字字符个数和非字母字符个数;
计算所述非汉字字符个数、所述非数字字符个数和所述非字母字符个数之和,作为目标字符个数;
基于所述目标字符个数与所述文本字符总个数,确定目标字符占比;
根据所述目标字符个数和所述目标字符占比中至少一项,确定所述特征数据。
可选的,本申请第一方面提供的异常文本检测方法中,所述字符结构数据还包括标点符号个数;
则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:
统计所述第一中间文本中所包含的标点符号的个数,得到标点符号个数;
基于所述标点符号个数与所述文本字符总个数,确定标点符号占比;
根据所述标点符号个数和所述标点符号占比中至少一项,确定所述特征数据。
可选的,本申请第一方面提供的异常文本检测方法中,所述字符结构数据还包括每种指定字符的个数;
则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:
统计所述第一中间文本中所包含的每种所述指定字符的个数;
基于每种所述指定字符的个数和所述文本字符总个数,确定每种所述指定字符的占比;
根据每种所述指定字符的个数和每种所述指定字符的占比中至少一项,确定所述特征数据;
其中,所述指定字符包括繁体字符、日文字符、字母字符中至少一种。
可选的,本申请第一方面提供的异常文本检测方法中,所述字符结构数据包括:每种特定字符的个数;
则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:
统计所述第一中间文本中所包含的每种所述特定字符的个数;
根据每种所述特定字符的个数,确定所述特征数据;
其中,所述特定字符包括字母数字组合字符、所述第一预设字符、所述第二预设字符和高危关联字符中的至少一种。
可选的,本申请第一方面提供的异常文本检测方法中,所述字符结构数据包括词总个数和单字词个数;
则基于所述第一中间文本的所述内容结构数据,提取所述特征数据,包括:
确定所述第一中间文本中所包含的词,得到词总个数和单字词个数;
基于所述单字词个数和所述词总个数,确定单字词占比;
根据所述单字词占比,确定所述特征数据。
可选的,本申请第一方面提供的异常文本检测方法中,还包括:
确定历史文本,以及所述历史文本的文本标记信息,所述文本标记信息用于表示所述历史文本中是否包含异常内容;
对所述历史文本进行预处理,得到与所述历史文本相对应的第二中间文本;
提取所述第二中间文本中的历史特征数据;
基于与所述历史文本相对应的所述历史特征数据和所述文本标记信息,对初始模型进行训练,得到训练后的异常内容检测模型;
则基于所述特征数据,对所述待检测文本进行检测,包括:
将所述特征数据作为所述异常内容检测模型的输入向量,利用所述异常内容检测模型对所述待检测文本进行检测。
可选的,本申请第一方面提供的异常文本检测方法中,基于与所述历史文本相对应的所述历史特征数据和所述文本标记信息,对初始模型进行训练,得到训练后的异常内容检测模型,包括:
基于所述历史特征数据,生成所述初始模型的输入向量;
将所述输入向量输入所述初始模型,得到所述初始模型的输出;
根据所述初始模型的输出与所述文本标记信息之间的差距,调整所述初始模型的参数;
重复以上步骤,直至所述差距满足预设条件,得到训练后的所述异常内容检测模型。
可选的,本申请第一方面提供的异常文本检测方法中,所述初始模型采用孤立森林iForest算法构建。
可选的,本申请第一方面提供的异常文本检测方法中,所述检测结果包括异常概率值;
在所述异常概率值大于预设概率阈值的情况下,确定所述检测结果指示所述待检测文本中包含异常内容。
第二方面,本申请实施例提供一种异常文本检测装置,包括:
处理模块,用于对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;
提取模块,用于提取所述第一中间文本中的特征数据;
检测模块,用于基于所述特征数据,对所述待检测文本进行检测;
确定模块,用于在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
第三方面,本申请实施例还提供一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;
提取所述第一中间文本中的特征数据;
基于所述特征数据,对所述待检测文本进行检测;
在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
第四方面,本申请实施例还提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;
提取所述第一中间文本中的特征数据;
基于所述特征数据,对所述待检测文本进行检测;
在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
本申请实施例中,在检测文本是否为异常文本的过程中,需要在对待检测文本进行预处理后,提取与待检测文本对应的特征数据,进而基于提取到的特征数据,实现对异常文本的有效识别。如此,通过对文本的预处理操作,消除影响异常文本检测结果有效性的因素,达到提高异常文本检测结果的准确性,进而有效防控文本内容风险的目的。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着互联网技术的快速发展,网络社区平台越来越普及,越来越多的用户选择使用网络社区平台分享生活、交流经验、拓展业务等。
与此同时,网络社区平台用户的爆发式增长,也可能导致平台内容良莠不齐,甚至违规违限,降低用户体验。以随着网络社区平台用户的爆发式增长,用户群中网络黑灰产人员的比例也会相应增长为例,网络黑灰产人员为了绕过网络社区平台方的内容防控系统,通常会对违规文本进行结构重建,比如在违规内容中加入大量纯表情或特殊标点符号等,则与正常文本相比,这部分违规文本在结构上会存在明显的异常。
在相关技术中,为了实现对文本异常内容的检测,可以直接统计文本中的内容结构特征,比如文本长度、符号占比、外部链接等,然后根据人工设定的阈值,比如判断文本长度是否小于设定的长度阈值,符号占比是否大于设定的占比阈值等,来判断文本内容是否正常,进而确定文本是否正常。但是,上述基于统计的内容结构特征进行异常文本检测的方案,至少存在以下问题:
(1)文本中大量正常的标点符号使用,会对统计文本中的内容结构特征造成较大影响,比如很多正常文本为了表达某种语气会在文本末尾添加大量标点符号,如“好吧。。。。。”,或者文本内容中包含HTTP(Hyper Text Transfer Protocol,超文本传输协议)链接等,此时也会出现大量的标点符号。
(2)严重依赖人工经验设置判断阈值;而且,考虑到网络社区平台中会有不同类型的讨论区,内容类型不同其对应的结构特征也会有所区别,则基于人工经验设置的阈值,在某一场景下适用而在其他场景下不一定适用,如此,不仅大大增加了人力成本,也无法保证异常文本检测结果的准确性。
综上可知,现有的直接利用统计的文本结构特征辅以人工经验设置阈值识别异常文本的方式,难以满足异常文本检测的实际需求。
鉴于此,结合异常文本一般具有内容量少、文本特征值与正常数据差别很大的特点,在本申请实施例提供的方案中,可以利用特征分割的方式实现对文本中异常内容的有效识别,简单来说,通过特征分割的方式完成对文本中异常样本点的隔离所需的划分数小于对文本中正常样本点的划分数。如此,在有效识别异常文本的基础上,有效地防控内容风险,保障网络社区平台的健康发展。
以下结合附图,详细说明本申请各实施例提供的技术方案。
参见图1所示,本申请实施例提供一种异常文本检测方法,该方法可包括:
步骤S101:对待检测文本进行预处理,得到与待检测文本相对应的第一中间文本。
可以理解到,待检测文本可以为通过网络爬虫等方式,从论坛、贴吧等网络社区平台获取到的需要进行异常内容检测的文本。
考虑到待检测文本中可能存在影响异常内容检测的因素,则与现有的对待检测文本直接进行特征统计的方式不同,在本申请实施例中,需要对待检测文本进行预处理,以消除对待检测文本是否为异常文本的检测结果有影响的因素。
以下将举例说明对待检测文本进行预处理得到第一中间文本的过程,预处理方式可以包括以下至少一项:
方式一:将待检测文本中包含的内容资源链接替换为第一预设字符。
所述内容资源链接可以包括URL(Uniform Resource Locator,统一资源定位符)链接、HTTP链接等。
能够理解到,内容资源链接中包含的标点符号等通常不代表文本结构异常,则为了可以消除内容资源链接中包含的大量标点符号等正常内容,对待检测文本是否为异常文本的检测结果的影响,优选的,可以将待检测文本中出现的所有内容资源链接替换为统一的第一预设字符,比如替换为特定字符“&”等。
方式二:将待检测文本中包含的表情符号替换为第二预设字符。
所述表情符号可以指代任何表征表情含义的符号,比如emoji(绘文字)表情符号,:)、:-)、0.0等传统风格表情符号,-_-|||、(^_-)等动漫风格表情符号,(︶^︶)、╮(╯◇╰)╭等东亚风格表情符号,等等。
能够理解到,表情符号中包含的标点符号等通常不代表文本结构异常,则为了可以消除表情符号中包含的大量标点符号等正常内容,对待检测文本是否为异常文本的检测结果的影响,优选的,可以将待检测文本中出现的所有表情符号替换为统一的第二预设字符,比如替换为特定字符“#”等。
方式三:在待检测文本的文本末尾包含连续标点符号的情况下,去除连续标点符号。
能够理解到,文本末尾出现的连续标点符号通常用于表达用户的语气,比如“。。。。。。”、“!!!!!!”、“?!”等,该连续标点符号的出现不代表文本结构异常,则为了可以消除文本末尾出现正常的连续标点符号,对待检测文本是否为异常文本的检测结果的影响,优选的,可以直接将待检测文本的文本末尾包含的连续标点符号直接去除。
采用上述预处理方式中的至少一项,即可以完成待检测文本到第一中间文本的转换,进而可以执行如下基于第一中间文本提取与待检测文本对应的特征数据的操作。
步骤S103:提取第一中间文本中的特征数据。
可选的,基于第一中间文本的内容结构数据,提取特征数据。
在本申请实施例中,可以从文本内在结构出发对文本特征进行统计,能够提高文本特征数据提取的准确性和有效性,以真实反映文本的内容,进而基于提取到的特征数据,可以有效地识别出网络黑灰产人员对异常文本进行了结构重塑的情况,辅助完成异常文本的检测。
可选的,内容结构数据包括段落结构数据和字符结构数据中至少一种,如此,则可以至少从文本的段落结构及所包含的字符结构出发对文本特征数据进行统计。
以下将举例说明基于第一中间文本的段落结构数据和字符结构数据,提取与待检测文本对应的特征数据的过程。
可选的,在第一中间文本的段落结构数据包括段落个数和段落长度的情况下,基于第一中间文本的内容结构数据,提取特征数据的步骤可包括以下内容:
确定第一中间文本中所包含的段落,得到段落个数;统计第一中间文本中每个段落的长度,得到至少一个段落长度;基于段落个数和至少一个段落长度,确定第一中间文本的平均段落长度;根据段落个数、至少一个段落长度和平均段落长度中至少一项,确定特征数据。
在本申请的实施例中,统计第一中间文本中包含的段落的个数以及每个段落的段落长度,可选的,可以根据文本中的回车符、段落标识符等区分段落,以及根据每个段落中包含的所有字符的个数确定段落长度,并基于统计得到的所有段落长度之和与段落个数之比,确定该中间文本的平均段落长度,如此,在进行特征数据提取的过程中,可以根据异常文本检测的实际需求,基于统计出的段落个数、至少一个段落长度及文本的平均段落长度中至少一项确定文本的特征数据,有助于提高异常文本检测结果的准确性。
需要说明的是,段落结构数据除上述段落个数、段落长度外还可以包括其他能够反映文本的段落结构特征的内容,以能够更加充分、全面地基于段落结构特征数据反映文本的内容结构特征。
可选的,在第一中间文本的字符结构数据包括文本字符总个数的情况下,基于第一中间文本的内容结构数据,提取特征数据的步骤可以包括以下内容:
统计第一中间文本中所包含的字符的个数,作为文本字符总个数;根据文本字符总个数,确定特征数据。
在本申请的实施例中,优选的,可以通过统计第一中间文本的文本字符总个数,确定与待检测文本对应的特征数据,以从整体量化角度反映文本的字符结构,进而能够从文本字符数量组成方面展现文本的内容结构特征。
可选的,在第一中间文本的字符结构数据,除了包括文本字符总个数还包括非汉字字符个数、非数字字符个数和非字母字符个数的情况下,基于第一中间文本的内容结构数据,提取特征数据的步骤可以包括以下内容:
统计第一中间文本中所包含的非汉字字符的个数、非数字字符的个数和非字母字符的个数,分别对应得到非汉字字符个数、非数字字符个数和非字母字符个数;计算非汉字字符个数、非数字字符个数和非字母字符个数之和,作为目标字符个数;基于目标字符个数与文本字符总个数,确定目标字符占比;根据目标字符个数和目标字符占比中至少一项,确定特征数据。
在本申请的实施例中,优选的,可以通过统计第一中间文本的非汉字字符个数、非数字字符个数和非字母字符个数,确定与待检测文本对应的特征数据。
可选的,将文本中的上述三种字数之和作为目标字符个数,并基于该目标字符个数与文本字符总个数确定目标字符占比,以基于目标字符个数和目标字符占比中至少一项确定文本的特征数据;可知的是,这里的目标字符包括非汉字字符、非数字字符和非字母字符,即除常规的汉字字符、数字字符、字母字符以外的其他类别的字符,以及目标字符占比=目标字符个数/文本字符总个数,如此,则可以实现从常规的汉字字符、数字字符、字母字符以外的特定字符角度反映文本的字符结构,进而能够从文本的特定字符构成方面展现文本的内容结构,有助于更加全面的展现文本的内容结构特征。
可选的,在第一中间文本的字符结构数据,除了包括文本字符总个数还包括标点符号个数的情况下,基于第一中间文本的内容结构数据,提取特征数据的步骤可以包括以下内容:
统计第一中间文本中所包含的标点符号的个数,得到标点符号个数;基于标点符号个数与文本字符总个数,确定标点符号占比;根据标点符号个数和标点符号占比中至少一项,确定特征数据。
在本申请的实施例中,优选的,可以通过统计第一中间文本的标点符号个数,确定与待检测文本对应的特征数据。可选的,基于标点符号个数在文本字符总个数中的占比,体现文本总体字符构成中标点符号的占比情况,进而可以根据标点符号个数和标点符号占比中至少一项确定文本的特征数据,其中,标点符号占比可以通过标点符号个数与文本字符总个数之比表示,如此,可以实现从文本中标点符号构成的量化角度反映文本的字符结构,有助于更加全面的展现文本的内容结构特征。
可选的,在第一中间文本的字符结构数据,除了包括文本字符总个数还包括每种指定字符的个数的情况下,基于第一中间文本的内容结构数据,提取特征数据的步骤可以包括以下内容:
统计第一中间文本中所包含的每种指定字符的个数;基于每种指定字符的个数和文本字符总个数,确定每种指定字符的占比;根据每种指定字符的个数和每种指定字符的占比中至少一项,确定特征数据;其中,指定字符包括繁体字符、日文字符、字母字符中至少一种。
在本申请的实施例中,优选的,可以通过统计第一中间文本的每种指定字符的个数及每种指定字符在文本总体字符构成中的占比,其中,每种指定字符的占比可以通过每种指定字符的个数分别与文本字符总个数之比表示,确定与待检测文本对应的特征数据。
可选的,指定字符可以包括繁体字符、日文字符、字母字符三种类别中一个或多个,但不仅限于上述几种指定字符类别;可以理解到,指定字符可以指相较于普通用户通常在文本大量使用的汉字字符等而言,比较敏感的字符类别,如此,通过对文本中包含的指定字符的相关特征的提取,可以实现从文本内容构成中较特殊、敏感的字符角度反映文本的字符结构,有助于展现文本内容属性方面的文本特征,以有助于快速识别该待检测文本是否为网络黑灰产人员等发布的异常文本。
可选的,在第一中间文本的字符结构数据包括每种特定字符的个数的情况下,基于第一中间文本的内容结构数据,提取特征数据的步骤可以包括以下内容:
统计第一中间文本中所包含的每种特定字符的个数;根据每种特定字符的个数,确定特征数据;其中,特定字符包括字母数字组合字符、第一预设字符、第二预设字符和高危关联字符中的至少一种。
在本申请的实施例中,优选的,可以通过统计第一中间文本的每种特定字符的个数,确定与待检测文本对应的特征数据。
可选的,特定字符可以包括字母数字组合字符、用于替代内容资源链接的第一预设字符、用于替代表情符号的第二预设字符及高危关联字符中的一个或多个,但不仅限于上述几种特定字符类别。
可以理解到,基于字母数字组合字符确定待检测文本的特征数据,使得对文本的内容结构特征的挖掘更加全面;基于第一预设字符、第二预设字符确定待检测文本的特征数据,可以兼顾对待检测文本进行预处理形成的文本内容结构,避免遗漏因预处理文本过程中可能引发的文本异常情况。
可选的,高危关联字符指关联在一起能够给用户带来风险,引起威胁用户信息、财产、隐私等安全问题的字符,可以包括高危关联关键字、高危关联关键词、高危关联拼音等,比如“联系”、“加我”、“QQ”等关联在一起,存在误导用户接触到网络黑客、钓鱼网站等可能的风险,可见,通过基于对高危关联字符相关特征数据的提取,有助于从文本内容的风险安全性等角度展现文本的内容结构特征,进而有助于达到有效防控文本内容风险的目的。
可选的,在第一中间文本的字符结构数据包括词总个数和单字词个数的情况下,基于第一中间文本的内容结构数据,提取特征数据的步骤可以包括以下内容:
确定第一中间文本中所包含的词,得到词总个数和单字词个数;基于单字词个数和词总个数,确定单字词占比;根据单字词占比,确定特征数据。
在本申请的实施例中,优选的,可以通过统计第一中间文本包含的词的详细情况,确定与待检测文本对应的特征数据,其中,单字词占比可以通过单字词个数与词总个数之比表示,;可以理解到,通过对文本中单字词构成情况进行特征统计,可以从文本内容结构顺畅性、连贯性等角度反映文本的字符结构,有助于更加全面的展现文本的内容结构特征。
需要说明的是,字符结构数据除上述文本字符总个数、非汉字字符个数、非数字字符个数、非字母字符个数、标点符号个数、每种指定字符的个数、每种特定字符的个数、词总个数、单字词个数外还可以包括其他能够反映文本的字符结构的内容,以能够更加全面的展示文本的内容结构特征。
可选的,对于文本中包含的词,可以采用分词算法实现;对于文本中包含的内容资源链接、表情符号、标点符号、非汉字字符、非数字字符、非字母字符、指定字符、特定字符等,可以通过设置相应的正则表达式进行识别的方式确定,进而实现个数、占比等的特征统计。
在本申请的实施例中,基于上述确定的特征数据,作为文本异常检测的基础,可以在一定程度上确保对文本内容安全域的风险监测,即通过对待检测文本的内容结构特征较全面的统计,可以为异常文本检测奠定可靠、准确的基础,有助于提高异常文本检测的准确性,进而有效防控文本内容风险的目的。
在基于第一中间文本的段落结构数据、字符结构数据等内容结构数据完成特征数据后,则可以执行以下判断待检测文本是否正常的步骤。
步骤S105:基于特征数据,对待检测文本进行检测。
优选的,提取到与待检测文本对应的特征数据后,可以利用训练好的异常检测模型基于输入的特征数据进行自动检测,实现对异常文本的自动识别,达到提高异常文本检测效率的目的。
也就是说,可以将特征数据作为异常内容检测模型的输入向量,利用异常内容检测模型对待检测文本进行检测。
由上述内容可知,作为异常内容检测模型的输入向量的特征数据,即为通过将对待检测文本进行预处理,得到第一中间文本,并基于第一中间文本的内容结构数据进行特征提取得到的数据。
可选的,通过以下实施例预先训练异常检测模型,以用于实时的异常文本检测,可以包括以下操作:
确定历史文本,以及历史文本的文本标记信息,文本标记信息用于表示历史文本中是否包含异常内容。
需要说明的是,在进行异常内容检测模型的训练时,先获取训练样本,即可以在同一网络社区平台也可以在不同网络社区平台,获取预设时间段内的历史文本。基于这些训练样本,可以确定模型训练时的训练集和验证集。可选的,训练集和验证集的样本数量可以灵活调配,例如,65%的训练样本作为训练集,用于训练异常内容检测模型,而剩余35%的训练样本作为验证集,验证异常内容检测模型的输出是否满足要求。
在获取到训练样本的基础上,需要对样本数据进行标定,也就是对历史文本进行文本标记信息的标定,以指示每个历史文本中是否包含异常内容。
需要说明的是,作为异常内容检测模型训练样本的历史文本,文本标记信息可以包括正常文本标识和异常文本标识,或者仅包括异常文本标识等,能够确保对历史文本中的内容进行正常与否的区分即可。
对历史文本进行预处理,得到与历史文本相对应的第二中间文本;提取第二中间文本中的历史特征数据;基于与历史文本相对应的历史特征数据和文本标记信息,对初始模型进行训练,得到训练后的异常内容检测模型。
需要说明的是,可以采用同上述对待检测文本进行预处理相同的方式,实现对历史文本的预处理得到第二中间文本;以及采用同上述提取第一中间文本中的特征数据相同的方式,对第二中间文本进行特征提取,得到与历史文本对应的历史特征数据,在此不再赘述。
优选的,初始模型采用孤立森林iForest算法构建。
可以理解到,通过特征分割的次数区分异常文本和正常文本的过程,可以通过孤立森林iForest算法自动实现,也就是说,利用孤立森林iForest算法自动学习出各文本的内在的特征逻辑关系,完成对文本正常与否的判断,如此在节省人力的情况下,可以自动有效地识别出异常文本,进而助于有效防控内容风险、保障网络社区平台的健康发展。
举例来说,利用孤立森林iForest算法不断进行特征分割,可以识别出不同的特征,如图2所示,识别出特征样本点x1,进行特征分割的划分数为10次,以及如图3所示,识别出特征样本点x0,进行特征分割的划分数为4次,则考虑到基于文本中异常样本点的隔离所需的划分数小于对文本中正常样本点的划分数,可以将样本点x1识别为正常样本点,而将样本点x0识别为异常样本点,准确而高效。
可选的,通过以下实施例实现基于与历史文本相对应的历史特征数据和文本标记信息,对初始模型进行训练,得到训练后的异常内容检测模型的过程,可以包括:
基于历史特征数据,生成初始模型的输入向量;
将输入向量输入初始模型,得到初始模型的输出;
根据初始模型的输出与文本标记信息之间的差距,调整初始模型的参数;
重复以上步骤,直至差距满足预设条件,得到训练后的异常内容检测模型。
可以理解到,将基于历史特征数据生成的特征向量输入初始模型进行特征拟合,并根据每次的实际输出与期望输出的差距对初始模型的参数进行调整。如此循环往复,使得初始模型的实际输出不断地逼近期望输出,直至实际输出与期望输出的差距足够小,达到预设条件,可以认为完成了对初始模型的训练,得到训练后的异常内容检测模型。
步骤S107:在检测结果指示待检测文本中包含异常内容的情况下,确定待检测文本为异常文本。
可选的,检测结果可以包括异常概率值,则在异常概率值大于预设概率阈值的情况下,确定检测结果指示待检测文本中包含异常内容。
在一个具体实施例中,异常内容检测模型的输入向量可以表示为{段落个数,平均段落长度,文本字符总个数,目标字符个数,目标字符占比,标点符号个数,标点符号占比,每种指定字符的个数,每种特定字符的个数,单字词占比},则经过异常内容检测模型的计算,将输出待检测文本的异常概率值65%,则在预设概率阈值为60%的情况下,指示待检测文本中包含异常内容,进而可以确定待检测文本为异常文本。
需要说明的是,用于指示待检测文本中是否包含异常内容的检测结果,还可以异常概率值以外的其他形式表示,比如正常概率值,即基于表征文本正常程度的值确定待检测文本中是否包含异常内容。
本申请实施例还提供一种异常文本检测装置,参见图4所示,该装置可具体包括:
处理模块401,用于对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;
提取模块403,用于提取所述第一中间文本中的特征数据;
检测模块405,用于基于所述特征数据,对所述待检测文本进行检测;
确定模块407,用于在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
能够理解,本申请实施例提供的异常文本检测装置,能够实现前述实施例中提供的异常文本检测方法,关于异常文本检测方法的相关阐释均适用于异常文本检测装置,此处不再赘述。
图5是本申请的一个实施例电子设备的结构示意图。请参考图5,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成异常文本检测装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;
提取所述第一中间文本中的特征数据;
基于所述特征数据,对所述待检测文本进行检测;
在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
上述如本申请前述对应实施例揭示的异常文本检测装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field -Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行前述对应异常文本检测装置执行的方法,并实现异常文本检测装置在前述对应实施例的功能,本申请实施例在此不再赘述。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图4所示实施例中异常文本检测装置执行的方法,并具体用于执行:
对待检测文本进行预处理,得到与所述待检测文本相对应的第一中间文本;
提取所述第一中间文本中的特征数据;
基于所述特征数据,对所述待检测文本进行检测;
在检测结果指示所述待检测文本中包含异常内容的情况下,确定所述待检测文本为异常文本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。