CN111159338A

CN111159338A - 一种恶意文本的检测方法、装置、电子设备及存储介质

Info

Publication number: CN111159338A
Application number: CN201911340066.4A
Authority: CN
Inventors: 揭文君; 吴迪; 李泽
Original assignee: Reach Best Technology Co Ltd
Current assignee: Reach Best Technology Co Ltd; Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-15

Abstract

本公开提供一种恶意文本的检测方法、装置、电子设备及存储介质，该方法包括：将待检测文本进行归一化处理，得到归一化后的待检测文本；至少根据归一化后的待检测文本，确定恶意文本库中恶意文本与待检测文本的最高相似度，其中，最高相似度，至少为归一化后的待检测文本和恶意文本库中各恶意文本的相似度中最高的相似度；若最高相似度大于预设相似度阈值，则确定待检测文本为恶意文本。相对于现有技术仅仅基于待检测文本进行关键词库匹配的方式而言，提高了恶意文本检测的准确率。

Description

一种恶意文本的检测方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种恶意文本的检测方法、装置、电子设备及存储介质。

背景技术

相关技术中，为了尽可能地阻止不良信息在互联网中的传播，可以通过关键词匹配的方法对恶意文本进行检测。具体来说，会通过用户举报和人工发现的方式，将恶意文本中的某些词选为关键词，然后添加到关键词库，之后通过将待检测文本直接作为待搜索关键词，在关键词库中搜索该待搜关键词，若在关键词库中命中该待搜索关键词，即可确定待检测文本为恶意文本。

然而，恶意文本发布方只需对恶意文本中的词语进行微调，即可避免与关键词库中的关键词相同或相似，导致无法检测出恶意文本，即相关技术中的恶意文本检测方法的准确率较低。

发明内容

本公开提供一种恶意文本的检测方法、装置、电子设备及存储介质，以至少解决相关技术中恶意文本的检测方法的准确率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种恶意文本的检测方法，包括：

将待检测文本进行归一化处理，得到归一化后的待检测文本；

至少根据所述归一化后的待检测文本，确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度，其中，所述最高相似度，至少为所述归一化后的待检测文本和所述恶意文本库中各恶意文本的相似度中最高的相似度；

若所述最高相似度大于预设相似度阈值，则确定所述待检测文本为恶意文本。

在一种可选的实施方式中，所述至少根据所述归一化后的待检测文本，确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度，包括：

对所述归一化后的待检测文本进行类型转换，得到语义与所述待检测文本相同、且表现形式与所述待检测文本不同的转换后的文本；

分别计算所述归一化后的待检测文本与各恶意文本的第一相似度、以及计算所述转换后的文本与各恶意文本的第二相似度；

从所述第一相似度集合和所述第二相似度集合中确定出最高相似度，作为所述恶意文本库中恶意文本与所述待检测文本的最高相似度。

在一种可选的实施方式中，所述若所述最高相似度大于预设相似度阈值，则确定所述待检测文本为恶意文本，包括：

若所述最高相似度中的至少一个大于预设相似度阈值，则确定所述待检测文本为恶意文本。

至少根据所述归一化后的待检测文本的文本向量与所述恶意文本库中的各恶意文本的文本向量，确定各恶意文本与所述待检测文本的相似度，其中，文本的文本向量通过预先训练得到的模型而生成；

从各恶意文本与所述待检测文本的文本向量的相似度中，确定出最高的相似度。

在一种可选的实施方式中，所述文本的文本向量通过预先训练得到的模型通过如下方式而生成：

通过预先训练得到的模型，获取所述文本包含的多个词语的词向量；

计算所述多个词语的词向量的平均值，得到所述文本的文本向量；或者，

将所述文本输入预先训练得到的模型；

从所述预先训练得到的模型的隐藏层获取与所述文本对应的文本向量。

在一种可选的实施方式中，在所述至少根据所述归一化后的待检测文本，确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度之前，还包括：

基于预先获取的恶意文本，生成与所述恶意文本对应的对抗文本；

根据所述恶意文本以及所述对抗文本，构建恶意文本库。

根据本公开实施例的第二方面，提供一种恶意文本检测装置，包括：

归一化处理模块，被配置为执行将待检测文本进行归一化处理，得到归一化后的待检测文本；

相似度确定模块，被配置为执行至少根据所述归一化后的待检测文本，确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度，其中，所述最高相似度，至少为所述归一化后的待检测文本和所述恶意文本库中各恶意文本的相似度中最高的相似度；

恶意文本确定模块，被配置为执行若所述最高相似度大于预设相似度阈值，则确定所述待检测文本为恶意文本。

在一种可选的实施方式中，所述相似度确定模块，包括：

转换单元，被配置为执行对所述归一化后的待检测文本进行类型转换，得到语义与所述待检测文本相同、且表现形式与所述待检测文本不同的转换后的文本；

计算单元，被配置为执行分别计算所述归一化后的待检测文本与各恶意文本的第一相似度、以及计算所述转换后的文本与各恶意文本的第二相似度；

确定单元，被配置为执行从所述第一相似度集合和所述第二相似度集合中确定出最高相似度，作为所述恶意文本库中恶意文本与所述待检测文本的最高相似度。

在一种可选的实施方式中，所述恶意文本确定模块，包括：

在一种可选的实施方式中，所述相似度确定模块，包括：

文本相似度确定单元，被配置为执行至少根据所述归一化后的待检测文本的文本向量与所述恶意文本库中的各恶意文本的文本向量，确定各恶意文本与所述待检测文本的相似度，其中，文本的文本向量通过预先训练得到的模型而生成；

最高相似度确定单元，被配置为执行从各恶意文本与所述待检测文本的文本向量的相似度中，确定出最高的相似度。

在一种可选的实施方式中，所述检测装置，还包括：

第一获取模块，被配置为执行通过预先训练得到的模型，获取所述文本包含的多个词语的词向量；

平均值计算模块，被配置为执行计算所述多个词语的词向量的平均值，得到所述文本的文本向量；或者，

输入模块，被配置为执行将所述文本输入预先训练得到的模型；

第二获取模块，被配置为执行从所述预先训练得到的模型的隐藏层获取与所述文本对应的文本向量。

在一种可选的实施方式中，所述检测装置，还包括：

生成模块，被配置为执行基于预先获取的恶意文本，生成与所述恶意文本对应的对抗文本；

构建模块，被配置为执行根据所述恶意文本以及所述对抗文本，构建恶意文本库。

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面中任一项恶意文本的检测方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面中任一项恶意文本的检测方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，当其在电子设备上运行时，使得恶意文本检测电子设备执行：上述第一方面中任一项恶意文本的检测方法的方法步骤。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过本公开实施例提供的方法，可以将待检测文本进行归一化处理，得到多个与待检测文本表现形式不同，但语义相同的文本，然后根据归一化后的待检测文本和恶意文本库中各恶意文本的语义相似度中最高的相似度与预设相似度阈值，确定待检测文本是否为恶意文本，这样，即使恶意文本发布方对恶意文本中的词语进行微调，但由于恶意文本的语义并没有改变，因此仍然可以被识别出来，相对于现有技术仅仅基于待检测文本进行关键词库匹配的方式而言，提高了恶意文本检测的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1a是根据一示例性实施例示出的一种恶意文本的检测方法的流程图。

图1b是根据一示例性实施例示出的一种恶意文本的检测方法中确定最高相似度方法的流程图。

图2是根据一示例性实施例示出的一种恶意文本的检测方法中确定文本的文本向量的方法的流程图。

图3是根据一示例性实施例示出的一种恶意文本的检测装置的框图。

图4是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

实施例1

图1a是根据一示例性实施例示出的一种恶意文本的检测方法的流程图，如图1a所示，通过该方法可以提高恶意文本检测的准确性。

该方法的执行主体包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等可以通过运行预定程序或指令来执行逻辑计算等预定处理过程的智能电子设备。其中，服务器可以是单个服务器或者多个服务器组。

可选地，服务器中还可以包括至少一种数据库，用以存储文本识别模型、恶意文本数据、恶意用户等等。当服务器是服务器组时，服务器组中的每个服务器之间可以共享已识别的恶意文本数据、恶意网站、恶意用户等。该恶意文本检测的方法可以包括以下步骤：

在步骤S101中，将待检测文本进行归一化处理，得到归一化后的待检测文本。

可选地，待检测文本可以是消息文本，比如，微博昵称、微博话题等，也可以是用户发表的线上评论、文章、帖子等。

待检测文本中可以包含汉字和/或汉字对应的拼音和/或英文等，例如，“恶意yi文ben检测”，具体形式不做限定。

通常，由于不同用户的表述习惯有所区别，因此，针对同一个语义的待检测文本，不同用户可能会采用不同的文本进行描述，例如，在描述“玩耍”时，可以描述为“玩耍”，“wanshua”，“play”，“玩耍玩耍”，“玩耍wanshua”等多种形式，或者还可以添加一些无实际意义的字符，比如“玩～耍～”，“玩耍去！”，“玩耍！#”等。

在一种可选的实施方式中，为了避免待检测文本中的重复词语或者无实际意义的标点符号等的存在，导致文本检测不准确，本公开实施例中，可以对待检测文本进行归一化处理。

所述的归一化处理可以包括但不限于如下操作：

去除待检测文本中的预设停用词——所述停用词比如包括“的”、“了”以及其他与待检测文本关联度较小的词；

将待检测文本统一转化为全角或半角，其中，不可见字符例如可以是回车、换行等；

删除待检测文本中的不可见字符；

去除待检测文本中的标点符号。

其中，上述对待检测文本进行归一化处理的方法仅是一种示例性说明，并不对本公开造成任何限定。

采用上述列举的归一化处理方式对待检测文本进行处理后，在保证待检测文本的准确性之余，还可以减少冗余，提高文本检测的效率。

在步骤S102中，至少根据归一化后的待检测文本，确定恶意文本库中恶意文本与待检测文本的最高相似度。

其中，最高相似度，至少为归一化后的待检测文本和恶意文本库中各恶意文本的相似度中最高的相似度。

如图1b所示，在一种可选的实施方式中，可以采用如下步骤S1021～S1023确定最高相似度：

在步骤S1021中，对归一化后的待检测文本进行类型转换，得到语义与待检测文本相同、且表现形式与待检测文本不同的转换后的文本。

其中，待检测文本可以包括下述至少一种表达形式：

中文汉字形式；中文拼音形式；英文形式。

为了得到多种表达形式下的最高相似度，可以对归一化后的待检测文本进行类型转换，如将汉字形式的待检测文本转换为拼音形式，将汉字形式的待检测文本转换为英文形式等，得到语义与待检测文本相同、且表现形式与待检测文本不同的转换后的文本。

例如，假设归一化后的待检测文本为“玩耍”，则对归一化后的待检测文本进行转换后可以是“wanshua”或“play”。

在步骤S1022中，分别计算归一化后的待检测文本与各恶意文本的第一相似度、以及计算转换后的文本与各恶意文本的第二相似度。

其中，相似度可以指文本之间的余弦相似度；或者，当文本向量为单位向量时(即向量对应的模为1)，相似度也可以指文本向量之间的向量内积。

其中，文本向量是文本的向量表达形式，也可称为词嵌入(Word Embedding)。可以通过预先训练的模型而生成。

基于上述记载的相似度内容所示，在一种可选的实施方式中，计算归一化后的待检测文本与各恶意文本的第一相似度时，可以先确定出待检测文本的文本向量以及各恶意文本的文本向量，然后计算文本向量之间的余弦相似度，作为第一相似度。

可选地，计算文本向量之间的余弦相似度时，例如，可以通过匹配算法计算待检测文本的文本向量与恶意文本库中各恶意文本的文本向量之间的余弦相似度。

可选地，在通过匹配算法计算相似度时，可以通过顺序遍历的方式，依次计算归一化后的待检测文本与各恶意文本的第一相似度。

或者，考虑到当恶意文本库中恶意文本的数量较多时，由于需要对恶意文本库中所有恶意文本进行精确计算，可能使得计算成本极高，生产代价大的问题，本公开在确定相似度时，也可以基于相似度搜索模块(开源的一个用于有效的相似性搜索和稠密矢量聚类的库)来搜索恶意文本的文本向量，并确定第一相似度，该方法包括如下步骤：

将待检测文本的文本向量输入相似度搜索模块，以便相似度搜索模块计算待检测文本的文本向量和恶意文本库中各文本对应的文本向量的第一相似度；

接收相似度搜索模块返回的第一相似度。

其中，相似度搜索模块可以是Faiss模块，使用Faiss模块可以加快检索效率。faiss提供多种索引方法，本公开实施例中，例如可以选择最简单的暴力检索L2距离的索引：IndexFlatL2。

例如，可以将待检测文本的文本向量输入相似度搜索模Faiss，以创建搜索索引。可选地，可以在Faiss模块中指定待搜索目标向量的维度。当搜索索引创建后，可以通过IndexFlatL2执行添加和搜索方法了，以搜索相似向量。

可选地，为了提高搜索速度，可以对恶意文本库中每个恶意文本的文本向量指定一个ID，当搜素与待检测文本的文本向量最相似的向量时，则可以返回最相似向量的ID及对应的相似度(或距离)。

需要说明的是，由于该过程中需要计算待检测文本的文本向量的模以及恶意文本库中各恶意文本的文本向量的模，这可能导致计算相似度的速度较低，为了避免上述问题，本公开实施例可以针对待检测文本的文本向量以及恶意文本库中各恶意文本的文本向量进行单位化，使得待检测文本的文本向量的模以及恶意文本库中各恶意文本的文本向量的模均为1，从而简化计算相似度的过程，提高相似度的计算速度。

在一种可选的实施方式中，为了扩大待检测文本的检测范围，可以将相似度搜索模块加载为远程过程调用服务(RPC，Remote Procedure Call)。这样，可以接收客户端发送的远程过程调用请求，然后从远程过程调用请求中确定待检测文本，然后再确定待检测文本的文本向量，进而判断检测待检测文本是否为恶意文本。

同理，计算转换后的文本与各恶意文本的第二相似度时，可以先确定转换后的文本的文本向量以及各恶意文本的文本向量，然后采用上述方式计算文本向量之间的余弦相似度作为第二相似度，为避免重复，此处不再赘述。

在步骤S1023中，从第一相似度集合和第二相似度集合中确定出最高相似度，作为恶意文本库中恶意文本与待检测文本的最高相似度。

可选地，针对多个表达形式，可以分别得到各表达形式下的最高相似度，即得到多个候选的最高相似度，需要说明的是，本公开中的多个可以是2个或2个以上。然后再从各表达形式下得到的多个候选的最高相似度中，确定最高相似度。

例如，沿用上述实施例，假设执行步骤S1022后得到待检测文本在汉字表达形式下，与恶意文本的最高相似度(候选的最高相似度)是85％；在拼音表达形式下，与恶意文本的最高相似度(候选的最高相似度)是80％，在英文表达形式下，与恶意文本的最高相似度(候选的最高相似度)是65％，则可以确定最高相似度为85％。

通过待检测文本的多个表达形式，可以对同一语义的不同表达形式分别进行检测，即使恶意文本发布方在某种表达形式下对恶意文本中的词语进行微调，但是由于其某种表达形式下恶意文本的语义并没有改变，因此仍然可以被识别出来，提高了恶意文本检测的准确率。例如，恶意文本发布方有时候会更改发布文本中的汉字，然而汉字的拼音并没有改变，虽然汉字变了，但是仍然带有拼音的语义，而通过本公开的技术方案也可将其检测为恶意文本。

需要说明的是，在一种可选的实施方式中，在至少根据归一化后的待检测文本，确定恶意文本库中恶意文本与待检测文本的最高相似度之前，还包括：

基于预先获取的恶意文本，生成与恶意文本对应的对抗文本；

其中，获取恶意文本的方式，例如可以构建关键词表，通过关键词匹配选取出预设数量的恶意文本；或者，可以通过人工审核的方式，即工作人员对用户发布的文本进行审核从而选取预设数量的恶意文本；或者，可以根据用户的举报内容选取预设数量的恶意文本。

或者，在一种实施方式中，可以根据实际情况结合上述一种或多种方法，获取恶意文本，本公开对此不做限定。

为了保证恶意文本库中的恶意文本足够完整，本公开实施例，还可以基于预先获取的恶意文本，生成与恶意文本对应的对抗文本，这样，即使攻击者根据恶意文本库中的恶意文本的关键字对文本进行微调，采用本公开提供的方法仍可以识别出该文本，进而提高文本检测的准确性。

其中，恶意文本对应的对抗文本可以指对恶意文本添加细微干扰后形成的文本。

可选地，对恶意文本添加细微干扰可以包括但不限于如下操作：

对恶意文本进行繁简转换；

将恶意文本中包含的英文、阿拉伯数字、中文数字等进行互换处理；

将文本统一转化为全角或半角；

删除文本中的不可见字符；其中，不可见字符例如可以是回车、换行等；

对文本进行归一化处理。

在一种实施方式中，基于上述方式获取恶意文本以及恶意文本对应的对抗文本之后，可以根据恶意文本以及对抗文本，构建恶意文本库。

可选地，恶意文本库中的恶意文本可以是定时更新的，更新的来源包括但不限于以上几种，当工作人员发现新的难以检测到的恶意文本时，可以添加到恶意文本库中，以实现恶意文本库的动态更新。

在步骤S103中，若最高相似度大于预设相似度阈值，则确定待检测文本为恶意文本。

在一种实施方式中，预设相似度阈值p的取值范围为：p∈[0,1]，该阈值可以由人工根据经验设定。其中，阈值越高，检测的准确度越高，但灵敏度越低。

例如，假设通过步骤S102确定最高相似度为q，且q>p，则表明待检测文本为恶意文本。

实施例2

在步骤S1022中，计算归一化后的待检测文本与各恶意文本的第一相似度、以及计算转换后的文本与各恶意文本的第二相似度时，可以根据文本的文本向量进行计算，其中文本的文本向量可以通过预先训练得到的模型而生成。

以下结合图2介绍一种文本向量的生成方法，需要说明的是，该文本向量生成方法仅是一种示例性说明，并不对本公开实施例提供的方法造成任何限定。

可选地，考虑到基于编码器-解码器框架的神经网络构建文本分类模型的过程中，输入的源语句可以通过神经网络的编码器得到一个固定维度的、语义特征完整的词向量的这一特点，本公开也可以采用基于编码器-解码器框架的神经网络构建的文本分类模型确定待检测文本的文本向量，实现方式如下：

如图2所示，可以通过如下步骤S201～步骤S202确定待检测文本的文本向量:

在步骤S201中，将待检测文本输入预先训练好的文本分类模型；其中，文本分类模型基于恶意文本样本和非恶意文本样本训练得到；

可选地，文本分类模型可以用于对文本进行分类，比如，Transformer模型，TextCNN模型，Adversarial LSTM模型等。

恶意文本样本，比如可以是包含广告、色情、暴力等元素的文本。或者，可以根据实际应用中的需求预设恶意文本样本，例如，在一个可选的实施例中，恶意文本样本可以是指包含兼职刷单等广告信息的文本，也可以指中包含恶意引导用户转移财产以侵占用户财产信息的文本样本。

非恶意文本样本，即不包含广告、色情、暴力等元素的文本。

在一种可选地实施方式中，针对恶意文本样本的获取方式不做限定，例如可以构建关键词表，通过关键词匹配得到预设数量的恶意文本样本；或者，可以通过人工审核的方式，即工作人员对用户发布的文本进行审核从而选取预设数量的恶意文本样本；或者，可以根据用户的举报内容选取预设数量的恶意文本。可选地，在一种实施方式中，可以根据实际情况结合上述一种或多种方法，获取恶意文本，本公开对此不做限定。

在步骤S202中，从文本分类模型的隐藏层获取与待检测文本对应的文本向量。

需要说明的是，将待检测文本输入文本分类模型后，可以移除文本分类模型的输出层，以便对待检测文本进行卷积运算后，可以从文本分类模型的隐藏层中获取待检测文本的文本向量。

采用上述方法确定待检测文本的文本向量时，由于文本分类模型是一种基于注意力机制(Attention)的网络结构，能够计算一个文本中的每个词与该文本中所有词的相互关系，并基于词与词之间的相互关系计算各词的重要程度(权重)，因此，通过上述方法确定的文本向量不但包含该文本本身的特征，还包含了各词与这个文本的关系，相比于传统技术手段获取的的文本向量更具有全局性。

或者，除上述文本向量的生成方式外，本公开实施例也可以采用采用无监督的方式获取待检测文本的文本向量。

例如，可以先对待检测文本进行分词处理，得到待检测文本的关键词。可选地，可以利用分词工具获取待检测文本的关键词，例如，jieba(结巴)、SnowNLP(Snow NaturalLanguage Processing，雪花自然语言处理)等；然后，将待检测文本的关键词输入预先训练得到的向量转化模型，例如word2vec(word to vector，单词转换为向量)模型、BERT模型等，从而输出得到待检测文本的关键词对应的词向量；最后，可以基于多个关键词的词向量，计算多个词向量的平均值得到文本的文本向量。

需要说明的是，上述确定待检测文本的文本向量的方法仅是本公开实施例的一种示例性说明，并不对本公开实施例造成任何限定。

出于与上述实施例1相同的发明构思，本公开还提供一种恶意文本的检测装置框图，用以解决相关技术中恶意文本的检测准确率较低的问题。

以下通过介绍实施例3，对本公开提供的恶意文本的检测装置进行详细说明。

实施例3

图3是根据一示例性实施例示出的一种恶意文本的检测装置框图。参照图3，该装置300包括词向量确定模块301，相似度确定模块302，恶意文本确定模块303。

归一化处理模块301，被配置为执行将待检测文本进行归一化处理，得到归一化后的待检测文本；

相似度确定模块302，被配置为执行至少根据归一化后的待检测文本，确定恶意文本库中恶意文本与待检测文本的最高相似度，其中，最高相似度，至少为归一化后的待检测文本和恶意文本库中各恶意文本的相似度中最高的相似度；

恶意文本确定模块303，被配置为执行若最高相似度大于预设相似度阈值，则确定待检测文本为恶意文本。

在一种可选的实施方式中，所述相似度确定模块302，包括：

转换单元，被配置为执行对归一化后的待检测文本进行类型转换，得到语义与待检测文本相同、且表现形式与待检测文本不同的转换后的文本；

计算单元，被配置为执行分别计算归一化后的待检测文本与各恶意文本的第一相似度、以及计算转换后的文本与各恶意文本的第二相似度；

确定单元，被配置为执行从第一相似度集合和第二相似度集合中确定出最高相似度，作为恶意文本库中恶意文本与待检测文本的最高相似度。

在一种可选的实施方式中，恶意文本确定模块303，包括：

若最高相似度中的至少一个大于预设相似度阈值，则确定所述待检测文本为恶意文本。

在一种可选的实施方式中，所述相似度确定模块302，包括：

文本相似度确定单元，被配置为执行至少根据归一化后的待检测文本的文本向量与恶意文本库中的各恶意文本的文本向量，确定各恶意文本与待检测文本的相似度，其中，文本的文本向量通过预先训练得到的模型而生成；

最高相似度确定单元，被配置为执行从各恶意文本与待检测文本的文本向量的相似度中，确定出最高的相似度。

在一种可选的实施方式中，所述检测装置，还包括：

第一获取模块，被配置为执行通过预先训练得到的模型，获取文本包含的多个词语的词向量；

平均值计算模块，被配置为执行计算多个词语的词向量的平均值，得到文本的文本向量；或者，

输入模块，被配置为执行将文本输入预先训练得到的模型；

第二获取模块，被配置为执行从预先训练得到的模型的隐藏层获取与文本对应的文本向量。

在一种可选的实施方式中，所述检测装置，还包括：

生成模块，被配置为执行基于预先获取的恶意文本，生成与恶意文本对应的对抗文本；

构建模块，被配置为执行根据恶意文本以及对抗文本，构建恶意文本库。

通过本公开实施例提供的装置，可以将待检测文本进行归一化处理，得到多个与待检测文本表现形式不同，但语义相同的文本，然后根据归一化后的待检测文本和恶意文本库中各恶意文本的语义相似度中最高的相似度与预设相似度阈值，确定待检测文本是否为恶意文本，这样，即使恶意文本发布方对恶意文本中的词语进行微调，但由于恶意文本的语义并没有改变，因此仍然可以被识别出来，相对于现有技术仅仅基于待检测文本进行关键词库匹配的方式而言，提高了恶意文本检测的准确率。

实施例4

图4是根据一示例性实施例示出的一种电子设备的硬件结构示意图。如图4所示，电子设备400包括但不限于：射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。

本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本公开实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器410，耦合到所述存储器，用于：

至少根据归一化后的待检测文本，确定恶意文本库中恶意文本与待检测文本的最高相似度，其中，最高相似度，至少为归一化后的待检测文本和恶意文本库中各恶意文本的相似度中最高的相似度；

若最高相似度大于预设相似度阈值，则确定待检测文本为恶意文本。

在一种可选的实施方式中，所述处理器还用于：

对归一化后的待检测文本进行类型转换，得到语义与所述待检测文本相同、且表现形式与待检测文本不同的转换后的文本；

分别计算归一化后的待检测文本与各恶意文本的第一相似度、以及计算转换后的文本与各恶意文本的第二相似度；

从第一相似度集合和第二相似度集合中确定出最高相似度，作为恶意文本库中恶意文本与待检测文本的最高相似度。

可选地，若最高相似度中的至少一个大于预设相似度阈值，则确定待检测文本为恶意文本。

在一种可选的实施方式中，所述处理器还用于：

至少根据归一化后的待检测文本的文本向量与恶意文本库中的各恶意文本的文本向量，确定各恶意文本与待检测文本的相似度，其中，文本的文本向量通过预先训练得到的模型而生成；

从各恶意文本与待检测文本的文本向量的相似度中，确定出最高的相似度。

在一种可选的实施方式中，所述处理器还用于：

通过预先训练得到的模型，获取文本包含的多个词语的词向量；

计算多个词语的词向量的平均值，得到文本的文本向量；

或者，将文本输入预先训练得到的模型；

从预先训练得到的模型的隐藏层获取与所述文本对应的文本向量。

在一种可选的实施方式中，所述处理器还用于：

根据恶意文本以及对抗文本，构建恶意文本库。

存储器409，用于存储可在处理器410上运行的计算机程序，该计算机程序被处理器410执行时，实现处理器410所实现的上述功能。

应理解的是，本公开实施例中，射频单元401可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器410处理；另外，将上行的数据发送给基站。通常，射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元301还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块402为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器309中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。

输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit，GPU)4041和麦克风4042，图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克4042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。

电子设备400还包括至少一种传感器405，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度，接近传感器可在电子设400移动到耳边时，关闭显示面板4061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。

用户输入单元407可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器410，接收处理器410发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071，用户输入单元407还可以包括其他输入设备4072。具体地，其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板4071可覆盖在显示面板4061上，当触控面板4071检测到在其上或附近的触摸操作后，传送给处理器410以确定触摸事件的类型，随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图4中，触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元408为外部装置与电子设备400连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。

存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比

如音频数据、电话本等)等。此外，存储器409可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器410是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器409内的软件程序和/或模块，以及调用存储在存储器409内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元；优选的，处理器410可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器410中。

电子设备400还可以包括给各个部件供电的电源411(比如电池)，优选的，电源411可以通过电源管理系统与处理器410逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外，电子设备400包括一些未示出的功能模块，在此不再赘述。

在示例性实施例中，还提供了一种包括指令的存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中所述任意一种方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种恶意文本的检测方法，其特征在于，包括：

2.根据权利要求1所述的检测方法，其特征在于，至少根据所述归一化后的待检测文本，确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度，包括：

分别计算所述归一化后的待检测文本与各恶意文本的第一相似度集合、以及计算所述转换后的文本与各恶意文本的第二相似度集合；

3.根据权利要求2所述的检测方法，其特征在于，若所述最高相似度大于预设相似度阈值，则确定所述待检测文本为恶意文本，包括：

4.根据权利要求1或2所述的检测方法，其特征在于，至少根据所述归一化后的待检测文本，确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度，包括：

5.根据权利要求4所述的检测方法，其特征在于，文本的文本向量通过预先训练得到的模型通过如下方式而生成：

将所述文本输入预先训练得到的模型；

6.根据权利要求1所述的检测方法，其特征在于，在所述至少根据所述归一化后的待检测文本，确定所述恶意文本库中恶意文本与所述待检测文本的最高相似度之前，还包括：

根据所述恶意文本以及所述对抗文本，构建恶意文本库。

7.一种恶意文本的检测装置，其特征在于，包括：

8.根据权利要求7所述的检测装置，其特征在于，所述相似度确定模块，包括：

确定单元，被配置为执行从所述第一相似度和第二相似度中，分别确定出最高的相似度。

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的恶意文本的检测方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的恶意文本的检测方法。