CN111460110B

CN111460110B - 异常文本检测方法、异常文本序列检测方法及装置

Info

Publication number: CN111460110B
Application number: CN201910058966.3A
Authority: CN
Inventors: 康杨杨; 孙常龙; 刘晓钟; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2023-04-25
Anticipated expiration: 2039-01-22
Also published as: CN111460110A

Abstract

本发明实施例提供了一种异常文本检测方法、异常文本序列检测方法及装置。其中，所述异常文本检测方法，包括：从原始文本序列中，获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息；确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。通过本发明实施例，可以准确检测异常文本。

Description

异常文本检测方法、异常文本序列检测方法及装置

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种异常文本检测方法、异常文本序列检测方法及装置。

背景技术

随着科技的发展，人们的交流越来越多地通过电子信息交流，例如，通过文本信息进行交流。但是，这种通信方式存在着一些不良用户发送异常文本的情况。例如，发送各种骚扰信息、推广信息、诈骗类信息等。为了有效杜绝这些情况，净化通信环境，通常会针对每个输入文本进行检测确定其是否为异常文本，但现有的异常文本因检测准确性不足，造成异常文本检测效果不佳。

发明内容

有鉴于此，本发明实施例提供一种异常文本检测方案，以解决上述问题。

根据本发明实施例的第一方面，提供了一种异常文本检测方法，包括：获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息；确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

根据本发明实施例的第二方面，提供了一种异常文本序列检测方法包括：根据上述的异常文本检测方法确定原始文本序列中各所述输入文本是否为异常文本；根据各所述输入文本的检测结果，确定所述各输入文本所在的原始文本序列是否为异常序列。

根据本发明实施例的第三方面，提供了一种异常文本检测装置，包括：第一序列获取模块，用于获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；第一差异获取模块，用于对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息；第二差异获取模块，用于确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；异常检测模块，用于至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

根据本发明实施例的第四方面，提供了一种异常文本序列检测装置，所述装置使用上述的异常文本检测装置确定原始文本序列中各所述输入文本是否为异常文本；并根据各所述输入文本的检测结果，确定所述各输入文本所在的原始文本序列是否为异常序列。

根据本发明实施例提供的异常文本检测方案，根据输入文本序列中相邻输入文本间的第一差异信息、当前输入文本与经过历史检测确定异常文本间的第二差异信息，确定所述当前输入文本是否为异常文本。这样综合考虑了多个输入文本间的差异、以及当前输入文本与历史检测确定为异常文本间的差异，提升了检测时考虑因素的全面性，避免了现有技术中只孤立地检测当前输入文本，致使通过简单修改就能规避检测的问题，进而使检测更加准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例一的一种异常文本检测方法的步骤流程图；

图2为根据本发明实施例二的一种异常文本检测方法的步骤流程图；

图3为根据本发明实施例三的一种异常文本检测方法的步骤流程图；

图4为根据本发明实施例四的一种异常文本检测方法的步骤流程图；

图5为根据本发明实施例五的一种异常文本序列检测方法的步骤流程图；

图6为根据本发明实施例六的一种异常文本检测装置的结构框图；

图7为根据本发明实施例七的一种异常文本检测装置的结构框图；

图8为根据本发明实施例八的一种异常文本序列检测装置的结构框图；

图9为根据本发明实施例九的一种电子设备的结构示意图；

图10为根据本发明的一种使用场景的示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

参照图1，示出了根据本发明实施例一的一种异常文本检测方法的步骤流程图。

本实施例的异常文本检测方法包括以下步骤：

步骤S102：从原始文本序列中，获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少一两个输入文本。

原始文本序列可以是根据在设定时间段内获取的用户输入的输入文本生成的序列。

所述当前输入文本可以是原始文本序列中任何需要进行异常文本检测的文本。

所述输入文本序列是从原始文本序列中获得的，包括至少两个输入文本，除包含所述当前输入文本外，剩余的所述输入文本的数量本领域技术人员可以根据需要确定，使得所述方法的适应性更好，既能够实现异常文本的检测，又可以避免输入文本过多导致运算量过大，确保检测速度。

步骤S104：对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息。

其中，本领域技术人员可以根据需要选定相邻输入文本间的间隔。如间隔为0，间隔为1等。

所述第一差异信息用于表示所述输入文本序列中相邻输入文本间的差异。

若所述第一差异信息指示的相邻输入文本间的差异较小，则表示用户希望通过简单修改规避异常检测的可能越高，即当前输入文本为异常文本的概率越高；反之，则所述当前输入文本不为异常文本的概率越高。

步骤S106：确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息。

其中，经过历史检测确定的异常文本可以是任何经过检测确定为异常文本的输入文本。

所述第二差异信息用于表示所述当前输入文本与经过历史检测确定的异常文本间的差异。

若第二差异信息指示的所述当前输入文本与某一经过历史检测确定的异常文本间的差异越小，则所述当前输入文本为异常文本的概率越大；反之，则所述当前输入文本为异常文本的概率越小。

对于本领域技术人员而言，其可以根据需要，使用任何匹配的文本属性参数确定所述第二差异信息，本实施例对此不作限定。例如，文本属性参数可以是文本相似度、文本编辑距离等。

当使用不同的文本属性参数确定所述第二差异信息时，可以采用与文本属性参数相适应的计算方法得到所述第二差异信息。

步骤S108：至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

在不同使用场景中，异常文本的判断规则可能存在差异，因此，本领域技术人员可以根据需要，采用合适的判断规则，根据所述第一差异信息和所述第二差异信息确定所述当前输入文本是否为异常文本，本实施例对此不作限定。

例如，在一具体实现中，通过对所述第一差异信息和所述第二差异信息进行求和，根据获取的求和结果，确定所述当前输入文本是否为异常文本。

通过本实施例，根据输入文本序列中相邻输入文本间的第一差异信息、当前输入文本与经过历史检测确定异常文本间的第二差异信息，确定所述当前输入文本是否为异常文本。

这样综合考虑了多个输入文本间的差异、以及当前输入文本与历史检测确定为异常文本间的差异，提升了检测时考虑因素的全面性，避免了现有技术中只孤立地检测当前输入文本，致使通过简单修改就能规避检测的问题，进而使检测更加准确。

本实施例的异常文本检测方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等。

实施例二

参照图2，示出了根据本发明实施例二的一种异常文本检测方法的步骤流程图。

本实施例的异常文本检测方法包括前述步骤S102～S108：

其中，所述步骤S104包括以下子步骤：

子步骤S1041：对所述输入文本序列中的选定间隔的相邻输入文本进行编辑距离计算，得到第一编辑距离。

其中，编辑距离是指通过编辑第一文本得到第二文本所需的编辑次数，该编辑次数可以用于表征所述第二文本相对所述第一本的差异，也可以称为改写程度。

根据需要，本领域技术人员可以采用匹配的方法计算编辑距离，例如，采用莱文斯坦距离(Levenshtein距离)算法、汉明距离算法、最佳字符串匹配算法(Damerau-Levenshtein距离)等。

下面，以在设定时间段内，获取到用户输入的n个输入文本，形成的原始文本序列表示为(S1，S2，S3，……Sn)为例进行说明。其中S1～Sn分别表示获取到的一个所述输入文本，n为大于或等于2的正整数。

生成所述输入文本序列时，可以从原始文本序列中选取m个所述输入文本，与所述当前输入文本构成包含其的输入文本序列。根据性能需求和处理能力等因素的不同，m可以选择任何匹配的值。此外，针对不同的所述当前输入文本，m的取值可能不同。

如，m的取值为2，所述当前输入文本为输入文本S5，选取的输入文本为输入文本S3和S4，包含其的输入文本序列可以表示为(S3，S4，S5)。这种情况下，对所述输入文本序列中的选定间隔的相邻输入文本进行编辑距离计算，获得相邻输入文本间的第一编辑距离的过程如下：

其中，选定间隔为0，即计算输入文本序列中任意相邻输入文本件的编辑距离。编辑距离可以采用莱文斯坦距离算法，分别计算相邻输入文本S3和S4间的编辑距离和相邻输入文本S4和S5间的编辑距离，获取各自对应的第一编辑距离。

当然，选定间隔可以为1，即计算输入文本序列中输入文本S3和S5件的编辑距离，获取第一编辑距离。

子步骤S1042：将所述第一编辑距离确定为对应的所述相邻输入文本间的所述第一差异信息。

在本实施例中，各所述相邻输入文本间的第一差异信息根据所述第一编辑距离确定。如输入文本S3和输入文本S4间的第一编辑距离为5，则相邻输入文本S3和S4间的第一差异信息为5。

在本实施例中，计算输入文本间的编辑距离的计算量较小，因此可以提升确定第一差异信息的速度，进而提升检测速度；而且根据输入文本间的编辑距离可以较为准确地表征相邻输入文本间的第一差异信息，进而保证在后续根据第一差异信息确定所述当前输入文本是否为异常文本时，检测的准确性更好。

此外，通过本实施例，根据输入文本序列中相邻输入文本间的第一差异信息、当前输入文本与经过历史检测确定异常文本间的第二差异信息，确定所述当前输入文本是否为异常文本。

实施例三

参照图3，示出了根据本发明实施例三的一种异常文本检测方法的步骤流程图。

本实施例的异常文本检测方法包括前述的步骤S102～S108。

步骤S104的实现方式可以是实施例二中所述步骤S104的具体实现方式，也可以是其他的具体实现方式。

其中，在一具体实现中，所述步骤S106包括以下子步骤：

子步骤S1061：对所述当前输入文本与经过历史检测确定的异常文本进行编辑距离计算，得到第二编辑距离。

例如，若步骤S104采用实施例二中步骤S104的实现方式，则所述经过历史检测确定的所述异常文本可以是所述原始文本序列中被检测为异常文本的输入文本(记作第一历史异常文本)，也可以是所述原始文本序列之外的被检测为异常文本的输入文本(记作第二历史异常文本)。

为了降低计算量，以提升检测效率，从所述第一历史异常文本和/或所述第二历史异常文本中选取至少一个所述异常文本。例如，从所述第一历史异常文本中选取位于所述当前输入文本之前，且与所述当前输入文本距离最小的P个异常文本。P是正整数。

选取的所述异常文本的具体数量可以根据需求具体确定，本实施例对此不作限定。

子步骤S1062：将所述第二编辑距离，确定为所述当前输入文本与经过历史检测确定的异常文本间的所述第二差异信息。

所述第二编辑距离可以采用任何适当的编辑距离计算方法计算，例如，莱文斯坦距离(Levenshtein距离)算法、汉明距离算法、最佳字符串匹配算法(Damerau-Levenshtein距离)等。

在本实施例的步骤S104采用实施例二中的实现方式时，所述第二编辑距离采用的计算方法可以与所述第一编辑距离采用的计算方法相同，也可以不同。本实施例中，以所述第一编辑距离和所述第二编辑距离采用相同的计算方法为例进行说明。

例如，采用莱文斯坦距离算法，计算所述当前输入文本与选中的所述异常文本间的第二编辑距离。若选中的所述异常文本为多个，则针对每个选中的所述异常文本，分别计算其与所述当前输入文本间的第二编辑距离，并将所述第二编辑距离确定为所述当前输入文本与对应的选中的所述异常文本间的第二差异信息。

在本实施例中，一方面，从多个经过历史检测确定的所述异常文本中选取至少一个所述异常文本用于后续与所述当前输入文本进行第二编辑距离计算，可以减少计算量，提升检测速度。

另一方面，计算当前输入文本与选中的异常文本间的第二编辑距离的计算量较小，因此可以提升确定第二差异信息的速度，进而提升检测速度；而且根据第二编辑距离可以较为准确地表征当前输入文本与选中的异常文本间的第二差异信息，进而保证在后续根据第二差异信息确定所述当前输入文本是否为异常文本时，检测的准确性更好。

实施例四

参照图4，示出了根据本发明实施例四的一种异常文本检测方法的步骤流程图。

本实施例的异常文本检测方法包括前述的步骤S102～S108。

在本实施例中，步骤S104的实现方式可以是实施例二中所述步骤S104的具体实现方式，也可以是其他的具体实现方式。

步骤S106的具体实现方式可以是实施例三中的所述步骤S106的具体实现方式，也可以是其他具体实现方式。

其中，在本实施例中，所述步骤S108具体为：根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本；其中，所述置信度信息为使用异常文本检测模型对所述当前输入文本进行检测获得的信息。

在本实施例中，所述置信度信息用于指示使用所述异常文本检测模型对所述当前输入文本进行检测获得的所述当前输入文本为异常文本的概率。

所述异常文本检测模型可以是训练完成的用于异常文本检测的神经网络模型，或通过异常文本检测规则形成的规则模型等等，本实施例对此不作限定。

本实施例中，在确定所述当前输入文本是否为异常文本时，由于综合考虑了所述当前输入文本的内容、所述当前输入文本与其他输入文本间的差异、所述的当前输入文本与经过历史检测确定为异常文本间的差异，因而提升了异常文本检测的准确性。

在一具体实现中：所述根据获得的所述第一差异信息、第二差异信息和置信度信息确定所述当前输入文本是否为异常文本包括以下子步骤：

子步骤S1081：分别确定所述第一差异信息、所述第二差异信息结合所述置信度信息对应的权重。

本领域技术人员可以根据经验，为所述第一差异信息、所述第二差异信息和所述置信度信息确定匹配的权重。

当所述第一差异信息的数量为多个时，各所述第一差异信息的权重可以相同，也可以不同(例如所述当前输入文本与相邻的输入文本间的第一差异信息的权重较大，而其他相邻输入文本间的权重较小等)。

同样地，当所述第二差异信息的数量为多个时，各所述第二差异信息的权重可以相同，也可以不同(例如，所述当前输入文本与时间较新的所述异常文本间的第二差异信息的权重较高，其与时间较旧的所述异常文本间的第二差异信息的权重较低)。

本实施例中，以各所述第一差异信息的权重相同，各所述第二差异信息的权重相同为例进行说明。这样可以简化计算，提升检测效率。

子步骤S1082：根据所述第一差异信息、所述第二差异信息、所述置信度信息及各自对应的权重，确定所述当前输入文本是否为异常文本。

在一具体实现中，对各所述第一差异信息进行加和，并根据加和结果和对应的权重，计算获得所述当前输入文本的第一差异总得分。对各所述第二差异信息进行加和，并根据加和结果和对应的权重，计算获得所述当前输入文本的第二差异总得分。根据所述置信度信息和对应的权重，计算确定所当前输入文本的置信度得分。根据所述第一差异总得分、所述第二差异总得分和所述置信度得分的和确定所述当前输入文本的总得分。

若所述总得分小于或等于设定值，则确定所述当前输入文本为异常文本；反之，则确定所述当前输入文本不为异常文本。

在本实施例中，一方面，在确定异常文本时，综合考虑了第一差异信息、第二差异信息和置信度信息，提升了检测的准确性。另一方面，分别针对第一差异信息、第二差异信息和置信度信息确定了对应的权重，进而提升了检测的准确性。

实施例五

参照图5，示出了根据本发明实施例五的一种异常文本序列检测方法的步骤流程图。

本实施例的异常文本序列检测方法包括以下步骤：

步骤S502：根据前述的所述异常文本检测方法，确定原始文本序列中各所述输入文本是否为异常文本。

其中，所述输入文本可以是任何需要被进行异常文本检测的序列中的输入文本。

例如，所述输入文本可以是原始文本序列中的输入文本。所述原始文本序列包括在设定时间段内获取到的全部或部分输入文本。其中的所述输入文本的数量大于或等于2。

在一具体实现中，使用所述异常文本检测方法对各所述输入文本进行检测时，可以根据所述原始文本序列中各所述输入文本的先后关系，依次将各所述输入文本确定为当前输入文本，并对所述当前输入文本进行检测，确定其是否为异常文本。

步骤S504：根据各所述输入文本的检测结果，确定各所述输入文本所在的原始文本序列是否为异常序列。

检测结果用于指示对应的所述输入文本是否为异常文本。

在一具体实现中，步骤S504包括：根据对所述原始文本序列中各所述输入文本的检测结果，确定所述原始文本序列中，为异常文本的所述输入文本的数量；根据为异常文本的所述输入文本的数量和所述原始文本序列中输入文本的总数量，确定所述原始文本序列的异常文本比重；根据所述异常文本比重确定所述原始文本序列是否为异常序列。

例如，所述异常文本比重大于或等于设定的异常阈值，则所述原始文本序列为异常序列；反之，则不为异常序列。

在本实施例中，通过获取设定时间段内的至少两个输入文本组成原始文本序列，并采用前述实施例中的异常文本检测方法，对原始文本序列中的每个输入文本进行检测，并根据检测结果确定所述原始文本序列是否为异常序列。这样可以针对原始文本序列整体进行检测，避免现有技术中针对输入文本进行独立检测存在的容易漏检的问题，提升检测可靠性。

本实施例的异常文本序列检测方法可以由任意适当的具有数据处理能力的电子设备执行，包括但不限于：服务器、移动终端(如平板电脑、手机等)和PC机等。

实施例六

参照图6，示出了根据本发明实施例六的一种异常文本检测装置的结构框图。

本实施例的异常文本检测装置包括：第一序列获取模块602，用于从原始文本序列中，获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；第一差异获取模块604，用于对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息；第二差异获取模块606，用于确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；异常检测模块608，用于至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

通过本实施例，根据输入文本序列中相邻输入文本间的第一差异信息、当前输入文本与经过历史检测确定异常文本间的第二差异信息，确定所述当前输入文本是否为异常文本。这样综合考虑了多个输入文本间的差异、以及当前输入文本与历史检测确定为异常文本间的差异，提升了检测时考虑因素的全面性，避免了现有技术中只孤立地检测当前输入文本，致使通过简单修改就能规避检测的问题，进而使检测更加准确。

实施例七

参照图7，示出了根据本发明实施例七的一种异常文本检测装置的结构框图。

本实施例的异常文本检测装置包括：第一序列获取模块702，用于从原始文本序列中，获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；第一差异获取模块704，用于对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息；第二差异获取模块706，用于确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；异常检测模块708，用于至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

可选地，所述第一差异获取模块704包括：第一距离计算模块7041，用于对所述输入文本序列中的选定间隔的相邻输入文本进行编辑距离计算，得到第一编辑距离；第一确定模块7042，用于将所述第一编辑距离确定为对应的所述相邻输入文本间的所述第一差异信息。

可选地，所述第二差异获取模块706包括：第二距离计算模块7061，用于对所述当前输入文本与经过历史检测确定的异常文本进行编辑距离计算，得到第二编辑距离；第二确定模块7062，用于将所述第二编辑距离确定为所述当前输入文本与经过历史检测确定的异常文本间的所述第二差异信息。

可选地，所述异常检测模块708具体用于：根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本；其中，所述置信度信息为使用异常文本检测模型对所述当前输入文本进行检测获得的信息。

可选地，所述异常检测模块708在根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本时，包括：权重确定模块7081，用于分别确定所述第一差异信息、所述第二差异信息和所述置信度信息对应的权重；第三确定模块7082，用于根据所述第一差异信息、所述第二差异信息、所述置信度信息及各自对应的权重，确定所述当前输入文本是否为异常文本。

本实施例的异常文本检测装置用于实现前述多个方法实施例中相应的下载应用的方法，并具有相应方法实施例的有益效果，在此不再赘述。

实施例八

参照图8，示出了根据本发明实施例八的一种异常文本序列检测装置的结构框图。

本实施例的异常文本序列检测装置包括：异常判断模块802，用于使用上述的异常文本检测装置确定原始文本序列中各所述输入文本是否为异常文本；异常序列确定模块804，用于根据各所述输入文本的检测结果，确定所述各输入文本所在的原始文本序列是否为异常序列。

通过本实施例，通过获取设定时间段内的至少两个输入文本组成原始文本序列，并采用前述实施例中的异常文本检测方法，对原始文本序列中的每个输入文本进行检测，并根据检测结果确定所述原始文本序列是否为异常序列。这样可以针对原始文本序列整体进行检测，避免现有技术中针对输入文本进行独立检测存在的容易漏检的问题，提升检测可靠性。

实施例九

参照图9，示出了根据本发明实施例九的一种电子设备的结构示意图，本发明具体实施例并不对电子设备的具体实现做限定。

如图9所示，该电子设备可以包括：处理器(processor)902、通信接口(Communications Interface)904、存储器(memory)906、以及通信总线908。

其中：

处理器902、通信接口904、以及存储器906通过通信总线908完成相互间的通信。

通信接口904，用于与其它电子设备如终端设备或服务器进行通信。

处理器902，用于执行程序910，具体可以执行上述下载应用的方法实施例中的相关步骤。

具体地，程序910可以包括程序代码，该程序代码包括计算机操作指令。

处理器902可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器906，用于存放程序910。存储器906可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序910具体可以用于使得处理器902执行以下操作：从原始文本序列中，获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息；确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

在一种可选的实施方式中，程序910还用于使得处理器902在对所述输入文本序列中的选定间隔的相邻输入文本进行计算，得到所述相邻输入文本间的第一差异信息时，对所述输入文本序列中的选定间隔的相邻输入文本进行编辑距离计算，得到第一编辑距离；将所述第一编辑距离确定为对应的所述相邻输入文本间的所述第一差异信息。

在一种可选的实施方式中，程序910还用于使得处理器902在确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息时，对所述当前输入文本与经过历史检测确定的异常文本进行编辑距离计算，得到第二编辑距离；将所述第二编辑距离确定为所述当前输入文本与经过历史检测确定的异常文本间的所述第二差异信息。

在一种可选的实施方式中，程序910还用于使得处理器902在根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本时，根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本；其中，所述置信度信息为使用异常文本检测模型对所述当前输入文本进行检测获得的信息。

在一种可选的实施方式中，程序910还用于使得处理器902在根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本时，分别确定所述第一差异信息、所述第二差异信息和所述置信度信息对应的权重；根据所述第一差异信息、所述第二差异信息、所述置信度信息及各自对应的权重，确定所述当前输入文本是否为异常文本。

程序910中各步骤的具体实现可以参见上述异常文本检测方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

通过本实施例的电子设备，根据输入文本序列中相邻输入文本间的第一差异信息、当前输入文本与经过历史检测确定异常文本间的第二差异信息，确定所述当前输入文本是否为异常文本。这样综合考虑了多个输入文本间的差异、以及当前输入文本与历史检测确定为异常文本间的差异，提升了检测时考虑因素的全面性，避免了现有技术中只孤立地检测当前输入文本，致使通过简单修改就能规避检测的问题，进而使检测更加准确。

或者，程序910具体还可以用于使得处理器902执行以下操作：根据上述的异常文本检测方法确定原始文本序列中各所述输入文本是否为异常文本；根据各所述输入文本的检测结果，确定所述各输入文本所在的原始文本序列是否为异常序列。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的异常文本检测方法。此外，当通用计算机访问用于实现在此示出的异常文本检测方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的异常文本检测方法的专用计算机。

下面以在垃圾信息识别使用场景中为例，对异常文本序列检测方法进行说明，检测过程如图10所示。

需要说明的是，图10中，S1～Sn用于指示输入文本S1～Sn,H1～Hn用于指示对应的输入文本通过异常文本检测方法检测后的检测结果。图10中最上方的S用于指示根据所有的输入文本的检测结果确定的最终结果。

步骤A：获取原始文本序列。

其中，原始文本序列中包括在设定时间段内用户输入的n个输入文本，如图10中所示的输入文本S1～Sn。原始文本序列中各输入文本依据获取的时间依次排列。

在垃圾信息识别使用场景中，采用的发送信息策略是在设定时间段内，对用户发送的所有信息(即输入文本)进行静默处理(即暂时不发送接收的信息)，根据获得的所有输入文本生成原始文本序列。在静默时间段内，对所有输入文本进行逐条检测，确定其是否为异常文本，再根据检测结果确定原始文本序列是否为异常序列。

若为异常序列，则将该原始文本序列中所有输入文本进行拦截；若不为异常序列，则将该原始文本序列中所有输入文本进行逐条发送。

步骤B：针对原始文本序列中各输入文本进行异常文本检测，确定其是否为异常文本。

例如，从原始文本序列中确定当前输入文本，即当前需要进行检测的输入文本。

针对当前输入文本(以图10中输入文本S5为例)执行以下子步骤：

子步骤B1：使用异常文本检测模型对所述当前输入文本进行检测(图10中以输入文本S5指向异常文本检测模型的箭头指示)，获得置信度信息。

在本使用场景中，异常文本检测模型为LR+CNN的混合架构模型。其中，LR(logistic regression)为逻辑回归，CNN(Convolutional Neural Networks)为卷积神经网络。

通过训练样本集训练该异常文本检测模型，并使用该异常文本检测模块对当前输入文本进行检测，获得置信度信息。

当然，异常文本检测模型也可以是其他任何匹配的能够进行异常文本检测的模型等，如VSM模型、LR模型或CNN模型等。

子步骤B2：从原始文本序列中选取与当前输入文本距离最小的且位于其之前的m个输入文本，根据当前输入文本和选取的m个输入文本生成输入文本序列。

以当前输入文本为输入文本S5为例，m＝2，选取的输入文本为输入文本S3和S4，输入文本序列为(S3,S4,S5)。

子步骤B3：计算输入文本序列中相邻输入文本间的第一差异信息。

分别计算输入文本S3和S4间的第一编辑距离，将第一编辑距离确定为与其对应的第一差异信息(图10中以输入文本S3指向输入文本S5的箭头指示)。计算输入文本S4和S5间的第一编辑距离，将第一编辑距离确定为与其对应的第一差异信息(图10中以输入文本S4指向输入文本S5的箭头指示)。

采用第一编辑距离来表征差异程度，第一编辑距离越小，表示尝试通过修改输入文本规避检测的可能越大。

子步骤B4：获取经过历史检测确定为异常文本的输入文本。

以当前输入文本为输入文本S5为例，从所有历史检测确定为异常文本的输入文本中选取与其距离最小的P个。

假设P＝2，在对输入文本S1～S4进行检测后，确定输入文本S2和输入文本S3为异常文本，则当前输入文本S5的历史检测确定为异常文本的输入文本为输入文本S2(记作历史异常文本S2)和输入文本S3(记作历史异常文本S3)。

子步骤B5：分别计算当前输入文本与历史检测确定为异常文本的输入文本间的第二差异信息。

计算当前输入文本S5与历史异常文本S2间的第二编辑距离(图10中以输入文本S2的检测结果H2指向输入文本S5的箭头指示)，作为其对应的第二差异信息；计算当前输入文本S5与历史异常文本S3间的第二编辑距离(图10中以输入文本S3的检测结果H3指向输入文本S5的箭头指示)，作为其对应的第二差异信息。

子步骤B6：根据第一差异信息、第二差异信息和置信度信息及各自对应权重，确定当前输入文本是否为异常文本。

仍以输入文本S5为例，本使用场景中，置信度信息以图10中异常文本检测模型指向检测结果H5的箭头指示，第一差异信息和第二差异信息以输入文本S5指向检测结果H5的箭头指示。

设第一差异信息的权重为a，第二差异信息的权重为b，置信度信息的权重为c。

针对当前输入文本S5，其总得分表示为T5，则T5＝a*(X34+X45)+b*(Y25+Y35)+c*Z5。

其中，X34为输入文本S3和S4间第一差异信息，X45为输入文本S4和S5间第一差异信息，Y25为输入文本S2与当前输入文本S5间第二差异信息，Y35为输入文本S3与当前输入文本S5间第二差异信息，Z5为当前输入文本S5置信度信息。

若总得分T5小于或等于设定值，则表示当前输入文本S5为异常文本；反之，则不为异常文本。

在针对一个当前输入文本检测完成后，可以重新确定新的当前输入文本，并重复执行子步骤B1～B6，直至完成对原始文本序列中所有输入文本的检测。

步骤C：根据检测结果确定原始文本序列是否为异常序列。

根据对所述原始文本序列中各所述输入文本的检测结果，确定所述原始文本序列中，为异常文本的所述输入文本的数量。

根据为异常文本的所述输入文本的数量和所述原始文本序列中输入文本的总数量，确定所述原始文本序列的异常文本比重。

根据所述异常文本比重确定所述原始文本序列是否为异常序列。

在本使用场景中，解决了以往的垃圾信息识别方法使用人工标注训练样本训练的机器学习模型对每个输入文本进行检测判断其是否为垃圾信息存在的非常依赖训练数据，对新出现的变种短信识别能力弱的问题，而且能够解决现有方法中在预测时，仅孤立的考虑当前输入文本，进行局部分析存在的识别准确性低的问题，还能够解决机器学习模型依赖人工更新，识别滞后的问题。

避免了恶意营销信息、诈骗信息、色情信息和违禁信息等垃圾信息传播不正当、不健康内容。防止其浪费社会资源，给消费者造成潜在的经济损失，避免其损害品牌形象。

有效防止了不良用户通过不停地尝试修改输入文本，绕过已有的检测系统。本使用场景中使用的检测方法不仅考虑当前输入文本，而且考虑与其对应的输入文本，构成输入文本序列，还考虑了历史检测确定为异常文本的输入文本，从综合角度判断当前输入文本是否为异常文本，可以快速有效地检测出尝试修改规避检测这一行为模式，可以准确地检测异常文本，并对垃圾信息加以拦截。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种异常文本检测方法，其特征在于，包括：

从原始文本序列中，获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；

对所述输入文本序列中的选定间隔的输入文本进行编辑距离计算，得到第一编辑距离；将所述第一编辑距离确定为对应的所述选定间隔的输入文本间的第一差异信息；

确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；所述第二差异信息基于所述当前输入文本与经过历史检测确定的异常文本间的相似度和/或编辑距离确定；

至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

2.根据权利要求1所述的方法，其特征在于：

对所述当前输入文本与经过历史检测确定的异常文本进行编辑距离计算，得到第二编辑距离；

将所述第二编辑距离确定为所述当前输入文本与经过历史检测确定的异常文本间的所述第二差异信息。

3.根据权利要求1所述的方法，其特征在于，所述至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本具体为：

根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本；

其中，所述置信度信息为使用异常文本检测模型对所述当前输入文本进行检测获得的信息。

4.根据权利要求3所述的方法，其特征在于：

分别确定所述第一差异信息、所述第二差异信息和所述置信度信息对应的权重；

根据所述第一差异信息、所述第二差异信息、所述置信度信息及各自对应的权重，确定所述当前输入文本是否为异常文本。

5.一种异常文本序列检测方法，其特征在于，包括：

根据权利要求1-4中任一项所述的异常文本检测方法确定原始文本序列中各所述输入文本是否为异常文本；

根据各所述输入文本的检测结果，确定所述各输入文本所在的原始文本序列是否为异常序列。

6.一种异常文本检测装置，其特征在于，包括：

第一序列获取模块，用于从原始文本序列中，获得包含当前输入文本的输入文本序列，所述输入文本序列包括至少两个输入文本；

第一差异获取模块，用于对所述输入文本序列中的选定间隔的输入文本进行编辑距离计算，得到第一编辑距离；将所述第一编辑距离确定为对应的所述选定间隔的输入文本间的第一差异信息；

第二差异获取模块，用于确定所述当前输入文本与经过历史检测确定的异常文本间的第二差异信息；所述第二差异信息基于所述当前输入文本与经过历史检测确定的异常文本间的相似度和/或编辑距离确定；

异常检测模块，用于至少根据所述第一差异信息与所述第二差异信息确定所述当前输入文本是否为异常文本。

7.根据权利要求6所述的装置，其特征在于，所述第二差异获取模块包括：

第二距离计算模块，用于对所述当前输入文本与经过历史检测确定的异常文本进行编辑距离计算，得到第二编辑距离；

第二确定模块，用于将所述第二编辑距离确定为所述当前输入文本与经过历史检测确定的异常文本间的所述第二差异信息。

8.根据权利要求6所述的装置，其特征在于，所述异常检测模块具体用于：根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本；其中，所述置信度信息为使用异常文本检测模型对所述当前输入文本进行检测获得的信息。

9.根据权利要求8所述的装置，其特征在于，所述异常检测模块在根据获得的所述第一差异信息、第二差异信息结合置信度信息确定所述当前输入文本是否为异常文本时，包括：

权重确定模块，用于分别确定所述第一差异信息、所述第二差异信息和所述置信度信息对应的权重；

第三确定模块，用于根据所述第一差异信息、所述第二差异信息、所述置信度信息及各自对应的权重，确定所述当前输入文本是否为异常文本。

10.一种异常文本序列检测装置，其特征在于，包括：

异常判断模块，用于使用权利要求6-9中任一项所述的异常文本检测装置确定原始文本序列中各所述输入文本是否为异常文本；

异常序列确定模块，用于根据各所述输入文本的检测结果，确定所述各输入文本所在的原始文本序列是否为异常序列。