CN106528581A

CN106528581A - 文本检测方法及装置

Info

Publication number: CN106528581A
Application number: CN201510587677.4A
Authority: CN
Inventors: 王彦锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Singapore Holdings Pte Ltd
Priority date: 2015-09-15
Filing date: 2015-09-15
Publication date: 2017-03-22
Anticipated expiration: 2035-09-15
Also published as: CN106528581B

Abstract

本申请公开了一种文本检测方法及装置，该方法涉及网络技术领域。包括：生成待检测文本的摘要信息；确定摘要信息集合中是否保存所述摘要信息；若所述摘要信息集合中保存所述摘要信息，则根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本；若所述摘要信息集合中未保存所述摘要信息，则根据文本相似度计算模型检测所述待检测文本是否是重复文本。该方案有效缩减了需要计算相似度的待检测文本的数量，减少了计算量，降低了对计算资源的要求。

Description

文本检测方法及装置

技术领域

本申请涉及网络技术领域，尤其涉及一种文本检测方法及装置。

背景技术

当今时代是大数据时代，数据量的增长速度非常迅猛。为了避免数据重复，在聚类分析、数据去重、信息检索等很多领域通常会检测获取到的待检测文本是否是重复文本。

按照现有的文本检测方法，首先采用贝叶斯算法对已检测出的重复文本集合进行训练得出文本相似度计算模型；然后以词语为单位分割待检测文本，得到待检测文本包括的词语，统计每个词语的出现频率，将待检测文本包括的词语及其出现频率带入文本相似度计算模型中，得到待检测文本的相似度；最后将待检测文本的相似度与设定阀值进行比较，若待检测文本的相似度大于设定阈值，则确定待检测文本是重复文本。

上述文本检测方法中，需要将每个待检测文本包括的词语及其出现频率带入文本相似度模型计算待检测文本的相似度，通常每个待检测文本包括的词语数量非常大，因此，上述文本检测方法的计算量非常大，对计算资源要求很高。

发明内容

本申请实施例提供一种文本检测方法及装置，用以解决相关技术中存在的计算量非常大，对计算资源要求很高的问题。

根据本申请实施例，提供一种文本检测方法，包括：

生成待检测文本的摘要信息；

确定摘要信息集合中是否保存所述摘要信息；

若所述摘要信息集合中保存所述摘要信息，则根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本；

若所述摘要信息集合中未保存所述摘要信息，则根据文本相似度计算模型检测所述待检测文本是否是重复文本。

具体的，生成待检测文本的摘要信息，具体包括：

获取待检测文本；

将所述待检测文本以词语为单位进行分割，得到所述待检测文本包括的原始词语；

根据设定规则筛选所述待检测文本包括的原始词语，得到所述待检测文本包括的候选词语；

统计所述候选词语在所述待检测文本的出现频率；

选取出现频率大于预设频率的候选词语作为所述待检测文本包括的选定词语；

根据所述选定词语生成所述待检测文本的摘要信息。

具体的，根据所述选定词语生成所述待检测文本的摘要信息，具体包括：

组合所述选定词语得到所述待检测文本的摘要信息；或者，

将所述待检测文本以语句为单位进行分割，得到所述待检测文本包括的原始语句；从所述原始语句中选取包括所述选定词语的语句作为所述待检测文本包括的选定语句；将所述选定语句按照在所述待检测文本中出现的先后顺序进行排序，得到所述待检测文本的摘要信息。

具体的，确定摘要信息集合中是否保存所述摘要信息，具体包括：

将所述摘要信息进行至少两次哈希处理，得到一组哈希值；

从所述摘要信息集合中查找所述一组哈希值；

若查找到所述一组哈希值，则确定所述摘要信息集合中保存所述摘要信息；

若未查找到所述一组哈希值，则确定所述摘要信息集合中未保存所述摘要信息。

可选的，在确定所述摘要信息集合中未保存所述摘要信息之后，还包括：

将所述一组哈希值与所述摘要信息对应保存在所述摘要信息集合中；

在文本数据库中建立所述摘要信息对应的历史文本集合；

将所述待检测文本保存在所述摘要信息对应的历史文本集合中。

具体的，根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本，具体包括：

从文本数据库中获取所述摘要信息对应的历史文本集合；

确定所述历史文本集合中是否保存与所述待检测文本相同的历史文本；

若确定所述历史文本集合中保存与所述待检测文本相同的历史文本，则确定所述待检测文本是重复文本；

若确定所述历史文本集合中未保存与所述待检测文本相同的历史文本，则逐一计算所述待检测文本与所述历史文本集合中每个历史文本的相似度，确定计算出的每个相似度是否大于第一设定阈值，若计算出的至少一个相似度大于所述第一设定阈值，则确定所述待检测文本是重复文本，若计算出的所有相似度均小于或等于所述第一设定阈值，则确定所述待检测文本不是重复文本。

可选的，确定所述历史文本集合中未保存与所述待检测文本相同的历史文本之后，还包括：

具体的，根据文本相似度计算模型检测所述待检测文本是否是重复文本，具体包括：

获取文本相似度计算模型；

根据所述文本相似度计算模型计算所述待检测文本的相似度；

确定所述待检测文本的相似度是否大于第二设定阈值；

若所述待检测文本的相似度大于所述第二设定阈值，则确定所述待检测文本是重复文本；若所述待检测文本的相似度小于或等于所述第二设定阈值，则确定所述待检测文本不是重复文本。

根据本申请实施例，还提供一种文本检测装置，包括：

生成单元，用于生成待检测文本的摘要信息；

确定单元，用于确定摘要信息集合中是否保存所述摘要信息；

检测单元，用于若所述确定单元确定所述摘要信息集合中保存所述摘要信息，则根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本；若所述确定单元确定所述摘要信息集合中未保存所述摘要信息，则根据文本相似度计算模型检测所述待检测文本是否是重复文本。

具体的，所述生成单元，用于生成待检测文本的摘要信息，具体用于：

获取待检测文本；

统计所述候选词语在所述待检测文本的出现频率；

根据所述选定词语生成所述待检测文本的摘要信息。

具体的，所述生成单元，用于根据所述选定词语生成所述待检测文本的摘要信息，具体用于：

组合所述选定词语得到所述待检测文本的摘要信息；或者，

具体的，所述确定单元，用于确定摘要信息集合中是否保存所述摘要信息，具体用于：

将所述摘要信息进行至少两次哈希处理，得到一组哈希值；

从所述摘要信息集合中查找所述一组哈希值；

可选的，所述确定单元，还用于：

在确定所述摘要信息集合中未保存所述摘要信息之后，将所述一组哈希值与所述摘要信息对应保存在所述摘要信息集合中；

在文本数据库中建立所述摘要信息对应的历史文本集合；

具体的，所述检测单元，用于根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本，具体用于：

从文本数据库中获取所述摘要信息对应的历史文本集合；

可选的，所述检测单元，还用于：

在确定所述历史文本集合中未保存与所述待检测文本相同的历史文本之后，将所述待检测文本保存在所述摘要信息对应的历史文本集合中。

具体的，所述检测单元，用于根据文本相似度计算模型检测所述待检测文本是否是重复文本，具体用于：

获取文本相似度计算模型；

确定所述待检测文本的相似度是否大于第二设定阈值；

本申请实施例提供一种文本检测方法及装置，生成待检测文本的摘要信息；确定摘要信息集合中是否保存所述摘要信息；若所述摘要信息集合中保存所述摘要信息，则根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本；若所述摘要信息集合中未保存所述摘要信息，则根据文本相似度计算模型检测所述待检测文本是否是重复文本。该方案中，首先生成待检测文本的摘要信息，然后确定摘要信息集合中是否保存该摘要信息，若保存则根据该摘要信息对应的历史文本集合检测待检测文本是否是重复文本，若未保存才会根据文本相似度计算模型检测待检测文本是否是重复文本，并不是直接根据文本相似度计算模型对待检测文本进行检测，避免了根据文本相似度计算模型计算每个待检测文本的相似度，从而有效缩减了需要计算相似度的待检测文本的数量，减少了计算量，降低了对计算资源的要求。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种文本检测方法的流程图；

图2为本申请实施例中S11的流程图；

图3为本申请实施例中S12的流程图；

图4为本申请实施例中S13的流程图；

图5为本申请实施例中S14的流程图；

图6为本申请实施例中另一种文本检测方法的流程图；

图7为本申请实施例中一种文本检测装置的结构示意图。

具体实施方式

为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决相关技术中存在的计算量非常大，对计算资源要求很高的问题，本申请实施例提供一种文本检测方法，该方法的流程如图1所示，具体包括如下步骤：

S11：生成待检测文本的摘要信息。

为了避免数据重复，在聚类分析、数据去重、信息检索等很多领域都需要检测获取到的每个文本是否是重复文本，当前获取到的文本作为待检测文本，待检测文本可以是邮件、短信、论文、推广信息、评论、新闻等等。

待检测文本的摘要信息描述的是待检测文本的概要，可以根据待检测文本生成。

S12：确定摘要信息集合中是否保存待检测文本的摘要信息，若摘要信息集合中保存待检测文本的摘要信息，则执行S13；若摘要信息集合中未保存待检测文本的摘要信息，则执行S14。

可以预先将历史文本的摘要信息或者摘要信息的相关信息保存在摘要信息集合中，以便于后续对待检测文本进行检查时进行比对。

S13：根据待检测文本的摘要信息对应的历史文本集合检测待检测文本是否是重复文本。

可以预先建立每个摘要信息对应的历史文本集合，若确定摘要集合中保存待检测文本的摘要信息，则根据该摘要信息对应的历史文本集合来检测待检测文本是否是重复文本，由于每个摘要信息对应的历史文本集合中包括的历史文本个数有限，因此，该步骤的计算量很小，对计算资源的要求不高。

S14：根据文本相似度计算模型检测待检测文本是否是重复文本。

文本相似度计算模型可以是预先根据已有的重复文本训练得到的，随着时间的推移，重复文本不断变化，因此为了保证计算精度需要按照设定周期训练已有的重复文本得到更为准确的文本相似度计算模型。由于通过S11和S12对待检测文本进行了筛选，在该步骤中只需对于摘要信息未保存在摘要信息集合中的待检测文本进行检测即可。

该方案中，首先生成待检测文本的摘要信息，然后确定摘要信息集合中是否保存该摘要信息，若保存则根据该摘要信息对应的历史文本集合检测待检测文本是否是重复文本，若未保存才会根据文本相似度计算模型检测待检测文本是否是重复文本，并不是直接根据文本相似度计算模型对待检测文本进行检测，避免了根据文本相似度计算模型计算每个待检测文本的相似度，从而有效缩减了需要计算相似度的待检测文本的数量，减少了计算量，降低了对计算资源的要求。

下面详细介绍上述方法的各个步骤。

具体的，上述S11中的生成待检测文本的摘要信息的实现过程如图2所示，具体包括以下步骤：

S111：获取待检测文本。

获取的方式可以是用户输入、主动搜索、自动上传等等。

S112：将待检测文本以词语为单位进行分割，得到待检测文本包括的原始词语。

该步骤中，词语可以中文、英文、法文、拉丁文等等，分割待检测文本后，得到的是待检测文本包括的原始词语。

S113：根据设定规则筛选待检测文本包括的原始词语，得到待检测文本包括的候选词语。

待检测文本包括的原始词语中，很多并不适合出现在摘要信息中，因此可以根据设定规则对这些原始词语进行筛选，得到待检测文本包括的候选词语。

设定规则可以包括过滤掉停用词、歧义词、非法词、人称代词、助词等等。

S114：统计待检测文本包括的候选词语在待检测文本的出现频率。

例如：待检测文本包括的原始词语共10000个，待检测文本包括的候选词语为“假期”、“家人”、“旅游”和“出国”，其中，“假期”共出现310次，“家人”共出现520次，“旅游”共出现450次，“出国”共出现150次，那么，“假期”的出现频率为310/10000，“家人”的出现频率为520/10000，“旅游”的出现频率为450/10000，“出国”的出现频率为150/10000。

S115：选取出现频率大于预设频率的候选词语作为待检测文本包括的选定词语。

预设频率可以根据实际需要进行设定。

继续沿用上例，若预设频率为30/1000，则待检测文本包括的选定词语为“假期”、“家人”“旅游”。

S116：根据待检测文本包括的选定词语生成待检测文本的摘要信息。

该步骤的实现方式有很多种，下面列举两种方式进行说明：

第一种实现方式，组合待检测文本包括的选定词语得到待检测文本的摘要信息。

继续沿用上例，最终生成的待检测文本的摘要信息可以为“假期家人旅游”。

第二种实现方式，将待检测文本以语句为单位进行分割，得到待检测文本包括的原始语句；从待检测文本包括的原始语句中选取包括选定词语的语句作为待检测文本包括的选定语句；将待检测文本包括的选定语句按照在待检测文本中出现的先后顺序进行排序，得到待检测文本的摘要信息。

可以将标点符号作为分割语句的标志，两个标点符号之间的内容作为一个原始语句，然后通过待检测文本包括的选定词语确定待检测文本包括的选定语句，再组合待检测文本包括的选定语句得到待检测文本的摘要信息。

通过步骤S111-S116，可以生成待检测文本的摘要信息，由于只是对待检测文本进行了分词、筛选就可以生成待检测文本的摘要信息，计算量非常小，需要的计算资源也很少，从而可以有效避免相关技术中的问题。

具体的，上述S12中的确定摘要信息集合中是否保存待检测文本的摘要信息的实现方式如图3所示，具体包括如下步骤：

S121：将待检测文本的摘要信息进行至少两次哈希处理，得到一组哈希值。

为了减少误差、提高准确性，可以对待检测文本的摘要信息进行至少两次哈希处理，得到的至少两个哈希值作为一组哈希值，用于进一步确定摘要信息集合中是否保存待检测文本的摘要信息。可选的，可以进行四次、五次、六次等等哈希处理。

S122：从摘要信息集合中查找一组哈希值，若查找到一组哈希值，则执行S123；若未查找到一组哈希值，则执行S124。

在该实施例中，摘要信息集合中保存的是每个摘要信息对应的一组哈希值，因此可以通过确定摘要信息集合中是否保存S121中得到的一组哈希值确定摘要信息集合中是否保存待检测文本的摘要信息。

S123：确定摘要信息集合中保存待检测文本的摘要信息。

S124：确定摘要信息集合中未保存待检测文本的摘要信息。

S12的实现方式有很多种，根据摘要信息集合中保存的信息不同而不同。例如，当摘要信息集合中保存的是各个摘要信息对应的一组哈希值的实现方式，可以通过S121-S124来实现；当摘要信息集合中保存的是各个摘要信息的具体内容时，还可以直接将待检测文本的摘要信息与摘要信息集合中的集合信息逐一比对来实现。

一种可选的实施方式，在确定摘要信息集合中未保存待检测文本的摘要信息之后，还包括：将一组哈希值与待检测文本的摘要信息对应保存在摘要信息集合中；在文本数据库中建立待检测文本的摘要信息对应的历史文本集合；将待检测文本保存在待检测文本的摘要信息对应的历史文本集合中。

待检测文本的摘要信息对应的历史文本集合可以但不限于保存在文本数据库中。

由于摘要信息集合中未保存待检测文本的摘要信息，为了便于后续检测文本，可以将一组哈希值与待检测文本的摘要信息对应保存在摘要信息集合中，并在文本数据中保存待检测文本。

具体的，上述S13的根据待检测文本的摘要信息对应的历史文本集合检测待检测文本是否是重复文本的实现方式如图4所示，具体包括步骤：

S131：从文本数据库中获取待检测文本的摘要信息对应的历史文本集合。

该历史文本集合中保存的是与待检测文本的摘要信息对应的历史文本，因此，需要首先获取该摘要信息对应的历史文本集合。

S132：确定待检测文本的摘要信息对应的历史文本集合中是否保存与待检测文本相同的历史文本，若确定待检测文本的摘要信息对应的历史文本集合中保存与待检测文本相同的历史文本，则执行S133；若确定待检测文本的摘要信息对应的历史文本集合中未保存与待检测文本相同的历史文本，则执行S134。

S133：确定待检测文本是重复文本。

若确定待检测文本的摘要信息对应的历史文本集合中保存与待检测文本相同的历史文本，则可以直接确定待检测文本是重复文本。

S134：逐一计算待检测文本与历史文本集合中每个历史文本的相似度，执行S135。

若确定待检测文本的摘要信息对应的历史文本集合中未保存与待检测文本相同的历史文本，还需要逐一计算待检测文本的摘要信息对应的历史文本集合中每个历史文本与待检测文本的相似度，进而来确定待检测文本是否是重复文本。

S135：确定计算出的每个相似度是否大于第一设定阈值，若计算出的至少一个相似度大于第一设定阈值，则执行S136；若计算出的所有相似度均小于或等于第一设定阈值，则执行S137。

第一设定阈值可以根据实际需要进行设定。

S136：确定待检测文本是重复文本。

若计算出的至少一个相似度大于第一设定阈值，说明待检测文本与其摘要信息对应的历史文本集合中的多个历史文本相似度极高，则可以直接确定该检测文本是重复文本。

S137：确定待检测文本不是重复文本。

若计算出的所有相似度均小于或等于第一设定阈值，说明待检测文本与其摘要信息对应的历史文本集合中的所有历史文本均不相似，则可以直接确定待检测文本不是重复文本。

S134中计算待检测文本的摘要信息对应的历史文本集合中每个历史文本与待检测文本的相似度，相对于根据文本相似度计算模型来计算待检测文本的相似度的计算量要小的多，因此，本实施例中的文本检测方法相对于相关技术中的方法，减少了计算量，节省了计算资源。

一种可选的实施方式，确定待检测文本的摘要信息对应的历史文本集合中未保存与待检测文本相同的历史文本之后，还包括：将待检测文本保存在待检测文本的摘要信息对应的历史文本集合中。从而可以便于后续进行文本检测。

具体的，上述S14中的根据文本相似度计算模型检测待检测文本是否是重复文本的实现方式如图5所示，具体包括如下步骤：

S141：获取文本相似度计算模型。

文本相似度计算模型可以是预先根据已有的重复文本训练得到的，随着时间的推移，重复文本不断变化，因此为了保证计算精度需要按照设定周期训练已有的重复文本得到更为准确的文本相似度计算模型。具体可以但不限于采用贝叶斯算法训练已有的重复文本集合得到文本相似度计算模型。

S142：根据文本相似度计算模型计算待检测文本的相似度。

具体过程可以是，以词语为单位分割待检测文本，得到待检测文本包括的原始词语，统计每个原始词语的出现频率，将待检测文本包括的原始词语及其出现频率带入文本相似度计算模型中，得到待检测文本的相似度。

S143：确定待检测文本的相似度是否大于第二设定阈值，若待检测文本的相似度大于第二设定阈值，则执行S144；若待检测文本的相似度小于或等于第二设定阈值，则执行S145。

第二设定阈值可以根据实际需要进行设定。

S144：确定待检测文本是重复文本。

若待检测文本的相似度大于第二设定阈值，说明待检测文本与已有的重复文本非常相似，则直接确定待检测文本是重复文本。

S145：确定待检测文本不是重复文本。

若待检测文本的相似度小于或等于第二设定阈值，则说明待检测文本与已有的重复文本均不相似，则直接确定待检测文本不是重复文本。

上述S133、S136和S144在确定待检测文本是重复文本后，还可以在待检测文本上添加重复文本标识，用于后续训练得到文本相似度计算模型。

本申请实施例还提供另一种文本检测方法，该方法的应用场景是服务器检测接收到的邮件是否为重复邮件(通常认为重复邮件就是垃圾邮件)，若服务器检测出接收到的邮件不是重复邮件，则将该邮件发送给用户，若服务器检测出接收到的邮件为重复邮件，则直接拦截该邮件或者发送给用户并且给予提醒。该方法的流程如图6所示，具体包括如下步骤：

S601：接收待检测邮件。

S602：将待检测邮件以词语为单位进行分割，得到待检测邮件包括的原始词语。

该步骤中，词语可以中文、英文、法文、拉丁文等等，分割待检测邮件后，得到的是待检测邮件包括的原始词语。

S603：根据设定规则筛选待检测邮件包括的原始词语，得到待检测邮件包括的候选词语。

待检测邮件包括的原始词语中，很多并不适合出现在摘要信息中，因此可以根据设定规则对这些原始词语进行筛选，得到待检测邮件包括候选词语。

S604：统计待检测邮件包括的候选词语在待检测邮件的出现频率。

例如：待检测邮件包括的原始词语共1000个，待检测邮件包括的候选词语为“公司”、“招标”、“设备”和“产品”，其中，“公司”共出现30次，招标”共出现50次，“设备”共出现40次，“产品”共出现10次，那么，“公司”的出现频率为30/1000，“招标”的出现频率为50/1000，“产品”的出现频率为40/1000，“产品”的出现频率为10/1000。

S605：选取出现频率大于预设频率的候选词语作为待检测邮件包括的选定词语。

继续沿用上例，若预设频率为29/1000，则待检测邮件包括的选定词语为“公司”、“招标”“设备”。

S606：将待检测邮件以语句为单位进行分割，得到待检测邮件包括的原始语句；从待检测邮件包括的原始语句中选取包括选定词语的语句作为待检测邮件包括的选定语句；将待检测邮件包括的选定语句按照在待检测邮件中出现的先后顺序进行排序，得到待检测邮件的摘要信息。

可以将标点符号作为分割语句的标志，两个标点符号之间的内容作为一个原始语句，然后通过待检测邮件包括的选定词语确定待检测邮件包括的选定语句，再组合待检测邮件包括的选定语句得到待检测邮件的摘要信息。

S607：将待检测邮件的摘要信息进行五次哈希处理，得到一组哈希值。

得到的一组哈希值中包括五次哈希处理的结果。

S608：从摘要信息集合中查找一组哈希值，若查找到一组哈希值，则执行S609；若未查找到一组哈希值，则执行S610。

可以预先将历史邮件的摘要信息或者摘要信息的相关信息保存在摘要信息集合中，以便于后续对待检测邮件进行检查时进行比对。

S609：确定摘要信息集合中保存待检测邮件的摘要信息，执行S611。

S610：确定摘要信息集合中未保存待检测邮件的摘要信息,执行S618。

S611：从文本数据库中获取待检测邮件的摘要信息对应的历史邮件集合。

该历史邮件集合中保存的是与待检测邮件的摘要信息对应的历史邮件，因此，需要首先获取该摘要信息对应的历史邮件集合。

S612：确定待检测邮件的摘要信息对应的历史邮件集合中是否保存与待检测邮件相同的历史邮件，若确定待检测邮件的摘要信息对应的历史邮件集合中保存与待检测邮件相同的历史邮件，则执行S613；若确定待检测邮件的摘要信息对应的历史邮件集合中未保存与待检测邮件相同的历史邮件，则执行S614。

S613：确定待检测邮件是重复邮件。

若确定待检测邮件的摘要信息对应的历史邮件集合中保存与待检测邮件相同的历史邮件，则可以直接确定待检测邮件是重复邮件。

S614：将待检测邮件保存在待检测邮件的摘要信息对应的历史邮件集合中，逐一计算待检测邮件与历史邮件集合中每个历史邮件的相似度，执行S615。

若确定待检测邮件的摘要信息对应的历史邮件集合中未保存与待检测邮件相同的历史邮件，还需要逐一计算待检测邮件的摘要信息对应的历史邮件集合中每个历史邮件与待检测邮件的相似度，进而来确定待检测邮件是否是重复邮件。

S615：确定计算出的每个相似度是否大于第一设定阈值，若计算出的至少一个相似度大于第一设定阈值，则执行S616；若计算出的所有相似度均小于或等于第一设定阈值，则执行S617。

第一设定阈值可以根据实际需要进行设定。

S616：确定待检测邮件是重复邮件。

若计算出的至少一个相似度大于第一设定阈值，说明待检测邮件与其摘要信息对应的历史邮件集合中的多个历史邮件相似度极高，则可以直接确定该检测邮件是重复邮件。

S617：确定待检测邮件不是重复邮件。

若计算出的所有相似度均小于或等于第一设定阈值，说明待检测邮件与其摘要信息对应的历史邮件集合中的所有历史邮件均不相似，则可以直接确定待检测邮件不是重复邮件。

S618：将一组哈希值与待检测邮件的摘要信息对应保存在摘要信息集合中；在文本数据库中建立待检测邮件的摘要信息对应的历史邮件集合；将待检测邮件保存在待检测邮件的摘要信息对应的历史邮件集合中。

由于摘要信息集合中未保存待检测邮件的摘要信息，为了便于后续检测邮件，可以将一组哈希值与待检测邮件的摘要信息对应保存在摘要信息集合中，并在邮件数据中保存待检测邮件。

S619：获取文本相似度计算模型。

文本相似度计算模型可以是预先根据已有的重复邮件训练得到的，随着时间的推移，重复邮件不断变化，因此为了保证计算精度需要按照设定周期训练已有的重复邮件得到更为准确的文本相似度计算模型。具体可以但不限于采用贝叶斯算法训练已有的重复邮件集合得到文本相似度计算模型。

S620：以词语为单位分割待检测邮件，得到待检测邮件包括的原始词语，统计每个原始词语的出现频率，将待检测邮件包括的原始词语及其出现频率带入文本相似度计算模型中，得到待检测邮件的相似度。

S621：确定待检测邮件的相似度是否大于第二设定阈值，若待检测邮件的相似度大于第二设定阈值，则执行S622；若待检测邮件的相似度小于或等于第二设定阈值，则执行S623。

第二设定阈值可以根据实际需要进行设定。

S622：确定待检测邮件是重复邮件。

若待检测邮件的相似度大于第二设定阈值，说明待检测邮件与已有的重复邮件非常相似，则直接确定待检测邮件是重复邮件。

S623：确定待检测邮件不是重复邮件。

若待检测邮件的相似度小于或等于第二设定阈值，则说明待检测邮件与已有的重复邮件均不相似，则直接确定待检测邮件不是重复邮件。

上述S613、S616和S622在确定待检测邮件是重复邮件后，还可以在待检测邮件上添加重复邮件标识，用于后续训练得到文本相似度计算模型

该方案中，无需直接根据文本相似度计算模型对待检测文本进行检测，避免了根据文本相似度计算模型计算每个待检测文本的相似度，从而有效缩减了需要计算相似度的待检测文本的数量，减少了计算量，降低了对计算资源的要求。

基于同一发明构思，本申请实施例还提供一种文本检测装置，该装置与如图1所示的文本检测方法相对应，该装置的结构如7图所示，包括生成单元71、确定单元72和检测单元73，其中：

所述生成单元71，用于生成待检测文本的摘要信息；

所述确定单元72，用于确定摘要信息集合中是否保存所述摘要信息；

所述检测单元73，用于若所述确定单元71确定所述摘要信息集合中保存所述摘要信息，则根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本；若所述确定单元71确定所述摘要信息集合中未保存所述摘要信息，则根据文本相似度计算模型检测所述待检测文本是否是重复文本。

具体的，所述生成单元71，用于生成待检测文本的摘要信息，具体用于：

获取待检测文本；

统计所述候选词语在所述待检测文本的出现频率；

根据所述选定词语生成所述待检测文本的摘要信息。

具体的，所述生成单元71，用于根据所述选定词语生成所述待检测文本的摘要信息，具体用于：

组合所述选定词语得到所述待检测文本的摘要信息；或者，

具体的，所述确定单元72，用于确定摘要信息集合中是否保存所述摘要信息，具体用于：

将所述摘要信息进行至少两次哈希处理，得到一组哈希值；

从所述摘要信息集合中查找所述一组哈希值；

可选的，所述确定单元72，还用于：

在文本数据库中建立所述摘要信息对应的历史文本集合；

具体的，所述检测单元73，用于根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本，具体用于：

从文本数据库中获取所述摘要信息对应的历史文本集合；

可选的，所述检测单元73，还用于：

具体的，所述检测单元73，用于根据文本相似度计算模型检测所述待检测文本是否是重复文本，具体用于：

获取文本相似度计算模型；

确定所述待检测文本的相似度是否大于第二设定阈值；

上述说明示出并描述了本申请的优选实施例，但如前所述，应当理解本申请并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围，则都应在本申请所附权利要求的保护范围内。

Claims

1.一种文本检测方法，其特征在于，包括：

生成待检测文本的摘要信息；

确定摘要信息集合中是否保存所述摘要信息；

2.如权利要求1所述的方法，其特征在于，生成待检测文本的摘要信息，具体包括：

获取待检测文本；

统计所述候选词语在所述待检测文本的出现频率；

根据所述选定词语生成所述待检测文本的摘要信息。

3.如权利要求2所述的方法，其特征在于，根据所述选定词语生成所述待检测文本的摘要信息，具体包括：

组合所述选定词语得到所述待检测文本的摘要信息；或者，

4.如权利要求1所述的方法，其特征在于，确定摘要信息集合中是否保存所述摘要信息，具体包括：

将所述摘要信息进行至少两次哈希处理，得到一组哈希值；

从所述摘要信息集合中查找所述一组哈希值；

5.如权利要求4所述的方法，其特征在于，在确定所述摘要信息集合中未保存所述摘要信息之后，还包括：

在文本数据库中建立所述摘要信息对应的历史文本集合；

6.如权利要求1-5任一所述的方法，其特征在于，根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本，具体包括：

从文本数据库中获取所述摘要信息对应的历史文本集合；

7.如权利要求6所述的方法，其特征在于，确定所述历史文本集合中未保存与所述待检测文本相同的历史文本之后，还包括：

8.如权利要求1-5任一所述的方法，其特征在于，根据文本相似度计算模型检测所述待检测文本是否是重复文本，具体包括：

获取文本相似度计算模型；

确定所述待检测文本的相似度是否大于第二设定阈值；

9.一种文本检测装置，其特征在于，包括：

生成单元，用于生成待检测文本的摘要信息；

10.如权利要求9所述的装置，其特征在于，所述生成单元，用于生成待检测文本的摘要信息，具体用于：

获取待检测文本；

统计所述候选词语在所述待检测文本的出现频率；

根据所述选定词语生成所述待检测文本的摘要信息。

11.如权利要求10所述的装置，其特征在于，所述生成单元，用于根据所述选定词语生成所述待检测文本的摘要信息，具体用于：

组合所述选定词语得到所述待检测文本的摘要信息；或者，

12.如权利要求9所述的装置，其特征在于，所述确定单元，用于确定摘要信息集合中是否保存所述摘要信息，具体用于：

将所述摘要信息进行至少两次哈希处理，得到一组哈希值；

从所述摘要信息集合中查找所述一组哈希值；

13.如权利要求12所述的装置，其特征在于，所述确定单元，还用于：

在文本数据库中建立所述摘要信息对应的历史文本集合；

14.如权利要求9-13任一所述的装置，其特征在于，所述检测单元，用于根据所述摘要信息对应的历史文本集合检测所述待检测文本是否是重复文本，具体用于：

从文本数据库中获取所述摘要信息对应的历史文本集合；

15.如权利要求14所述的装置，其特征在于，所述检测单元，还用于：

16.如权利要求9-13任一所述的装置，其特征在于，所述检测单元，用于根据文本相似度计算模型检测所述待检测文本是否是重复文本，具体用于：

获取文本相似度计算模型；

确定所述待检测文本的相似度是否大于第二设定阈值；