CN111611786A

CN111611786A - 文本相似度的计算方法及装置

Info

Publication number: CN111611786A
Application number: CN202010419437.4A
Authority: CN
Inventors: 郑丹丹
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-04-07
Filing date: 2017-04-07
Publication date: 2020-09-01
Anticipated expiration: 2037-04-07
Also published as: CN107229605A; CN107229605B; CN111611786B

Abstract

本申请提供一种文本相似度的计算方法，包括：通过基于相同的过滤策略，对原始的黑样本库中的文本样本以及新录入的文本样本进行分词处理得到的文本分词，按照多个保持梯度的文本过滤比例分别进行文本分词过滤处理，并使用过滤后剩余的文本分词分别对原始的黑样本库中的文本样本以及新录入的文本样本进行重构，然后利用文本分词的过滤比例来表征新录入的文本样本与黑样本的相似度，通过匹配重构后的黑样本库与新录入的文本样本中的文本分词，为新录入的文本样本进行分词得到的文本分词设置黑样本相似度。本申请可以显著提升在计算新录入的文本样本与黑样本库中的文本样本的相似度时的计算效率。

Description

文本相似度的计算方法及装置

技术领域

本申请涉及计算机应用领域，尤其涉及一种文本相似度的计算方法及装置。

背景技术

社交应用，通常都会面临内容审核的问题。而一款社交产品，通常可能会有几千万甚至几亿的用户量，每天每时每刻都有巨大的信息量在交互。因此如何基于已审核出的不良历史内容，快速的完成各种不良内容的实时线上防控，具有十分重要的意义。

在相关技术中，在基于已审核出的不良历史内容针对各种不良内容进行实时的线上防控时，通常是基于文本相似度来实现的；比如，可以基于编辑距离或者余弦距离等算法，计算社交应用产生的文本样本与已审核出每一条包含不良内容的黑样本的文本相似度，然后通过计算出的文本相似度来完成不良内容的实时线上防控。

然而，通过诸如编辑距离或者余弦距离等算法，计算社交文本产生的文本样本与每一条黑样本的相似度时，通常都面临着1:N的轮询；因此，当黑样本的数量较多，轮询所有的黑样本依次进行相似度的计算，从响应速度上看，无法满足实时的线上防控的要求。

发明内容

本申请提出一种文本相似度的计算方法，应用于计算机设备，所述计算机设备包括多个黑样本库；所述多个黑样本库为基于预设过滤策略，针对原始的黑样本库中的部分文本样本进行过滤后，基于剩余的文本样本创建得到；其中，所述多个黑样本库分别对应不同的文本过滤比例；所述方法包括：

针对新录入的文本样本进行分词处理，得到若干文本分词；

将所述多个黑样本库依次选定为目标样本库，并基于所述预设过滤策略，按照所述目标样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤；

将所述若干文本分词中剩余的文本分词依次选定为目标文本分词，并将所述目标文本分词与所述目标样本库中的文本分词依次进行匹配；

如果所述目标文本分词与所述目标样本库中任一文本分词匹配时，基于与所述目标样本库对应的文本过滤比例，为所述目标文本分词设置黑样本相似度。

本申请还提出一种文本相似度的计算装置，应用于计算机设备，所述计算机设备包括多个黑样本库；所述多个黑样本库为基于预设过滤策略，针对原始的黑样本库中的部分文本样本进行过滤后，基于剩余的文本样本创建得到；其中，所述多个黑样本库分别对应不同的文本过滤比例；所述装置包括：

分词模块，针对新录入的文本样本进行分词处理，得到若干文本分词；

过滤模块，将所述多个黑样本库依次选定为目标样本库，并基于所述预设过滤策略，按照所述目标样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤；

匹配模块，将所述若干文本分词中剩余的文本分词依次选定为目标文本分词，并将所述目标文本分词与所述目标样本库中的文本分词依次进行匹配；

设置模块，如果所述目标文本分词与所述目标样本库中任一文本分词匹配时，基于与所述目标样本库对应的文本过滤比例，为所述目标文本分词设置黑样本相似度。

本申请中，通过基于相同的过滤策略，对原始的黑样本库中的文本样本以及新录入的文本样本进行分词处理得到的文本分词，按照多个保持梯度的文本过滤比例分别进行文本分词过滤处理，并使用过滤后剩余的文本分词分别对原始的黑样本库中的文本样本以及新录入的文本样本进行重构，然后利用文本分词的过滤比例来表征新录入的文本样本与黑样本的相似度，通过匹配重构后的黑样本库与新录入的文本样本中的文本分词，为新录入的文本样本进行分词得到的文本分词设置黑样本相似度，可以显著提升在计算新录入的文本样本与黑样本库中的文本样本的相似度时的计算效率，从而在基于黑样本对新录入的文本样本进行实时的线上防控时，可以快速的完成针对新录入的文本样本的内容审核，提高系统的响应速度。

附图说明

图1是本申请一实施例示出的一种文本相似度的计算方法的流程图；

图2是本申请一实施例示出的一种文本相似度算法的整体设计框架图；

图3是本申请一实施例示出的一种对原始的黑样本库中的社交文本进行重构的处理流程图；

图4是本申请一实施例示出的一种对新录入的社交文本执行相似度打分的处理流程图；

图5是本申请一实施例示出的一种文本相似度的计算装置的逻辑框图；

图6是本申请一实施例示出的承载所述文本相似度的计算装置的计算机设备所涉及的硬件结构图。

具体实施方式

在相关技术中，在基于已审核出的包含不良内容的黑样本，针对社交应用中产生的社交文本进行内容审核，完成实时的线上防控时，通常可以通过以下方式来实现：

在示出的一种实现方式中，在社交应用上线之初，可以设置专门的风控人员，由风控人员通过手动浏览社交应用产生的社交文本，依靠人工来判断用户通过社交应用发布的消息或者服务内容等社交文本等，是否存在违反规定的不良内容。当社交应用的用户数量不断增长，依靠人工不足以支撑快速审核时，风控人员可以依照经验配置大量关键词规则，进而审核平台可以基于配置的这些关键词规则来自动的检查社交应用产生的社交文本中是否存在不良关键词。

然而，关键词规则往往是审核人员根据历史审核经验提炼出来的，并不能涵盖全部历史审核信息，而且通过关键词的形式进行内容审核比较机械，通常都是直接匹配，存在大量误判断的情况。

在示出的另一种实现方式中，可以针对社交应用中产生的社交文本，以及已审核出的包含不良内容的黑样本进行行精确的内容匹配，进而完成对社交应用产生的社交文本的内容审核。

然而，通过精确匹配的方式，虽然能满足在进行实时的线上防控时的响应速度的要求，然而社交应用产生的文本内容的表达形式丰富多样，因而采用精确的内容匹配，召回率太低；而且，审核平台需要耗费大量处理资源去做精确查询，在进行内容审核的实效性很差，无法满足实时的要求。

在示出的第三种实现方式中，可以基于编辑距离或者余弦距离等相似度算法，计算社交应用产生的社交文本与已审核出的每一条包含不良内容的黑样本的文本相似度，将社交应用产生的社交文本与黑样本进行模糊匹配，然后通过计算出的文本相似度对来完成不良内容的实时线上防控。

然而，通过模糊匹配的方式，在基于诸如编辑距离或者余弦距离等相似度算法，计算社交文本产生的文本样本与每一条黑样本的相似度时，通常都面临着1:N的轮询，需要依次计算社交应用产生单条社交文本，与黑样本库中的所有黑样本的文本相似度，因此当黑样本的数量较多，轮询所有的黑样本依次进行相似度的计算，从响应速度上看，无法满足实时的线上防控的要求。

可见，目前在针对社交应用产生的社交文本进行内容审核，完成实时的线上防控时，并不能很好的兼顾在进行内容审核时的准确度以及系统的响应效率；因此，如何利用审核平台沉淀的大量包含不良内容的黑样本，快速高效的完成社交应用产生的社交文本的内容审核，成为业内亟待解决的问题。

有鉴于此，本申请提出一种利用文本分词的文本过滤比例来表征新录入的文本与黑样本的文本相似度，并采用精确匹配文本分词的方式，来完成新录入的文本样本与黑样本的模糊匹配，进而得出二者的文本相似度的算法。

在该算法中，通过基于相同的过滤策略，对原始的黑样本库中的文本样本以及新录入的文本样本进行分词处理得到的文本分词，按照多个保持梯度的文本过滤比例分别进行文本分词过滤处理，并使用过滤后剩余的文本分词分别对原始的黑样本库中的文本样本以及新录入的文本样本进行重构，然后利用文本分词的过滤比例来表征新录入的文本样本与黑样本的相似度，通过匹配重构后的黑样本库与新录入的文本样本中的文本分词，为新录入的文本样本进行分词得到的文本分词设置黑样本相似度，可以显著提升在计算新录入的文本样本与黑样本库中的文本样本的相似度时的计算效率，从而在基于黑样本对新录入的文本样本进行实时的线上防控时，可以快速的完成针对新录入的文本样本的内容审核，提高系统的响应速度。

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图1，图1是本申请一实施例提供的一种文本相似度的计算方法，应用于计算机设备，所述计算机设备包括多个黑样本库；所述多个黑样本库为基于预设过滤策略，针对原始的黑样本库中的部分文本样本进行过滤后，基于剩余的文本样本创建得到；其中，所述多个黑样本库分别对应不同的文本过滤比例；且所述多个黑样本库对应的文本过滤比例保持梯度；所述方法执行以下步骤：

步骤101，针对新录入的文本样本进行分词处理，得到若干文本分词；

步骤102，将所述多个黑样本库依次选定为目标样本库，并基于所述预设过滤策略，按照选定的所述目标样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤；

步骤103，将所述若干文本分词中剩余的文本分词依次选定为目标文本分词，并将所述目标文本分词与所述目标样本库中的文本分词依次进行匹配；

步骤104，如果所述目标文本分词与所述目标样本库中任一文本分词匹配时，基于与所述目标样本库对应的文本过滤比例，为所述目标文本分词设置黑样本相似度。

上述计算机设备，可以包括用于搭载步骤101-104所示出的文本相似度算法，基于已审核完成的若干包含不良内容的黑样本，完成对新录入的文本样本的内容审核的任何形式的计算机设备。在实际应用中，上述计算设备可以是服务端设备，也可以是客户端设备；例如，上述计算机设备具体可以是内容审核平台中一台服务器，也可以是一台与内容审核平台对接的用于执行内容审核的PC终端。

上述文本样本，具体可以包括社交应用所产生的社交文本；例如，可以包括用户通过社交应用发布的聊天消息，也可以包括用户所使用的社交应用产生的与用户社交相关的服务消息，等等。

上述新录入的文本样本，则可以是上述计算机设备提取到的，用户在使用社交应用时录入的新的社交文本；而上述黑样本库中的文本样本，则可以是内容审核平台的历史审核记录中沉淀的大量包含不良内容的社交文本。当然，在实际应用中，上述文本样本也可以是社交文本以外的，其它类型的需要进行内容审核，完成实时的线上防控的线上文本，在本申请中将不进行特别限定。

在本申请中，将提出一种利用文本分词的文本过滤比例来表征新录入的文本与黑样本的文本相似度，并采用精确匹配文本分词的方式，来完成新录入的文本样本与黑样本的模糊匹配，进而得出二者的文本相似度的算法。

请参见图2，图2为本申请示出的该文本相似度算法的整体设计框架图。

如图2所示，在该算法中，可以基于相同的过滤策略，对黑样本库中全部的文本样本以及新录入的文本样本进行分词处理得到的文本分词，按照多个保持梯度的过滤比例分别进行文本分词过滤处理，并使用剩余的文本分词的离散值，分别对原始的黑样本库本以及新录入的文本样本进行重构，然后利用文本分词的文本过滤比例来表征新录入的文本样本与黑样本的相似度，并通过匹配重构后的黑样本库与新录入的文本样本中的文本分词，来为新录入的文本样本进行分词得到的文本分词，设置黑样本相似度；

由于在该相似度算法中，通过简单的文本分词匹配，就可以快速完成文本相似度的计算，为新录入的文本样本分词得到的文本分词设置出黑样本相似度，因此可以显著提升在计算新录入的文本样本与黑样本库中的文本样本的相似度时的计算效率，从而在基于黑样本对新录入的文本样本进行实时的线上防控时，可以快速的完成针对新录入的文本样本的内容审核，提高系统的响应速度。

以下以上述文本样本为社交应用产生的社交文本，并结合针对社交文本进行内容审核，完成实时的线上防控的应用场景为例进行说明。显然，以上述文本样本为社交应用为例，仅为示例性的，并不用于对本申请的技术方案进行限定。

在本申请中，上述计算机设备可以收集大量通用的社交文本，来创建一个通用样本库。该通用样本库中的社交文本，可以涵盖需要由该计算机设备进行文本内容审核的社交应用所产生的社交文本，也可以涵盖该计算机设备能够收集到的互联网上的一切其它的社交应用所产生的社交文本；即上述计算机设备，可以通过收集互联网上各中社交应用所产生的社交文本，然后基于收集到的社交文本来创建上述通用样本库。

其中，在实际应用中，上述通用样本库中的社交文本的数量，需要保持一个较大的数量级，以便可以尽可能的确保该通用样本库中的社交文本，能够涵盖用户在日常的线上社交中可能产生的一切关键词；例如，在示出的一个例子中，上述计算机设备可以收集提取200亿条线上的通用社交文本，来创建上述通用样本库。

当上述通用样本库创建完成后，首先可以针对通用样本库中的全量社交文本分别进行文本分词处理；其中，在进行文本分词处理时采用的文本分词算法，在本申请中不进行特别限定，本领域技术人员在将本申请的技术方案付诸实现时，可以参考相关技术中的记载。

当针对通用文本库中的全量社交文本分词处理完成后，由于此时分词得到的大量文本分词中，可能包含一些无效的文本分词；比如，标点符号，以及一些诸如“的”，“了”等没有实际含义的停用词；因此，当分词完成后，上述计算机设备还可以进一步针对分词处理得到的大量文本分词，进行过滤处理，进一步去除这些文本分词中的标点符号，并结合搭载的停用词库，去除这些文本分词中的停用词。

当然，在实际应用中，除了进一步标点符号以及停用词过滤以外，也可以基于实际的需求进一步引入其它形式的过滤策略；例如，可以针对分词处理后的大量文本分词进行词性分析，并依据词性分析的结果，有选择的保留哪些具有实际含义的文本分词；比如，仅保留这些文本分词中的主语、谓语以及宾语相关的文本分词。

当针对分词处理后的文本分词进一步进行过滤完成后，此时上述计算机设备可以进一步结合预设的统计分析算法，量化出分词处理后的各文本分词对应于该通用样本库的重要程度，得到各文本分词对应于该通用样本库的权重值。

其中，在量化各文本分词对应于该通用样本库的重要程度是所采用的统计学方法，在本申请中不进行特别限定。

在示出的一种实施方式中，上述权重值具体可以是IDF(inverse documentfrequency，逆文本频率)值；上述计算机设备可以基于IDF值来表征各文本分词对应于通用样本库的重要程度。

其中，在计算某一个语料库中的目标词语对应于该语料库的IDF值时，通常可以用该语料库中的总文件数目，除以包含该目标词语的文件的数目，再将得到的商取对数得到。而上述计算机设备在计算各文本分词对应于通用样本库的重要程度时，可以依次统计通用样本库中包含各文本分词的社交文本的数量，然后使用通用样本库中社交文本的总数量，分别除以统计出的该数量，再将得到的商进行取对数计算得到各文本分词相对于通用样本库的IDF值。

当然，在实际应用中，除了通过IDF值来表征文本分词相对于通用样本库的重要程度以外，也可以使用其它形式的统计学方法来量化各文本分词相对于通用样本库的重要程度；

例如，在实际应用中，还可以采用卡方统计、信息墒等统计方法，来量化各文本分词相对于通用样本库的重要程度，在本申请中不再进行详述，本领域技术人员在将本申请的技术方案付诸实施时，可以参考相关技术中的记载。

在本例中，上述计算机设备可以预配置一个原始的黑样本库，该黑样本库用于存储内容审核平台中沉淀的大量的已审核出的包含不良内容的社交文本(即黑样本)。当上述计算机设备量化出各文本分词，相对于通用样本库的重要程度，得到对应权重值后，后续可以以量化出的各文本分词相对于通用样本库的权重值作为依据，并按照预配置完成的多个保持梯度的文本过滤比例，针对原始的黑样本库中的部分黑样本进行文本过滤处理，然后基于剩余的黑样本对原始的黑样本库分别进行重构，得到多个重构后的黑样本库。

请参见图3，图3为本申请示出的一种对原始的黑样本库中的社交文本进行重构的处理流程图。

在初始状态下，内容审核平台中通常会沉淀的大量的已审核出的包含不良内容的社交文本，为了充分利用这些已审核完成的社交文本，上述计算机设备可以将内容审核平台沉淀下来的这些社交文本作为黑样本，来创建原始的黑样本库，然后针对该原始的黑样本库中的全量社交文本进行重构。

如图3所示，在针对黑样本库中的全量社交文本进行重构时，首先可以针对黑样本库中的全量社交文本分别进行文本分词处理；其中，需要说明的是，对黑样本库中的社交文本进行分词处理得到的文本分词，通常可以是针对上述通用样本库进行分词处理得到的文本分词的子集。

当分词处理完成后，上述计算机设备还可以进一步过滤文本分词中的标点符号以及停用词，或者进一步引入其它的过滤策略进行文本分词过滤，具体的实现过程不再赘述。

请继续参见图3，当针对黑样本库进行分词处理后得到文本分词完成进一步的文本分词过滤后，此时上述计算机设备可以基于预设过滤策略，按照预配置完成的多个保持梯度的文本过滤比例，针对上述原始的黑样本库分词处理得到的文本分词中的部分文本分词分别进行文本过滤处理，并分别基于剩余的文本分词的离散值来完成上述黑样本库的重构。其中，在这种情况下，重构完成的黑样本库，将分别对应不同的文本过滤比例。

在示出的一种实施方式中，由于通用样本库中的各文本分词已经预先量化出了相对于通用样本的重要程度，并计算出了可以表征各文本分词的重要程度的权重值；而且，对于针对原始的黑样本库中的社交文本进行分词处理得到的文本分词而言，通常是针对上述通用样本库中的社交文本进行分词处理得到的文本分词的子集；因此，对于原始的黑样本库中的每个社交文本而言，都有一个相对于通用样本库的权重值。

在这种情况下，在设置上述预设过滤策略时，具体可以参考原始的黑样本库中的各文本分词对应的权重值来有选择的进行过滤，以完成针对原始的黑样本库的重构。

在示出的一种实施方式中，上述预设过滤策略具体可以包括以下策略中的任一：

仅丢弃权重值最高的文本分词；

仅丢弃权重值最低的文本分词；

同时丢弃权重值最高和最低的文本分词。

在本申请中，由于是利用文本分词的文本过滤比例，来表征新录入的文本与黑样本的文本相似度，因此最终丢弃掉的文本分词所占的比例，在某种程度将影响最终的文本相似度的结果。

对于权重值最低的文本分词，其重要程度最低，这部分重要程度低的文本分词对最终的相似度结果的影响最小，如果优先过滤掉重要程度最低的文本分词，有助于提升最终的文本相似度结果的精准度；但精准度过高可能导致内容审核平台最终在基于文本相似度判定新录入的社交文本是否命中黑样本库中的文本分词时的命中次数下降，内容审核平台对于包含不良内容的社交文本的召回率过低的问题。因此，在这种情况下，如果本领域技术人员更加关注最终计算结果的准确度，那么可以将上述预设过滤策略设置为“丢弃权重值最低的文本分词”。

相似的，由于权重值最高的文本分词，重要程度最高，这部分重要程度高的文本分词对最终的相似度结果的影响最大，因此优先过滤掉重要程度最高的文本分词，会导致最终的文本相似度结果的精准度较低，导致内容审核平台最终在基于文本相似度判定新录入的社交文本是否命中黑样本库中的文本分词时的命中次数上升，内容审核平台对于包含不良内容的社交文本的召回率过高的问题；因此，在这种情况下，如果本领域技术人员更加关注内容审核平台对于包含不良内容的社交文本内的召回率，那么可以将上述预设过滤策略设置为“仅丢弃权重值最高的文本分词”。

当然，在实际应用中，内容审核平台通常需要兼顾文本相似度结果的准确度，以及对于包含不良内容的社交文本的召回率；因此，在这种情况下，本领域技术人员可以将上述预设过滤策略设置为“同时丢弃权重值最高和最低的文本分词”；例如，如图3所示，图3中示出的过滤策略即为“同时丢弃权重值最高和最低的文本分词”。

在示出的一种实施方式中，上述多个保持梯度的文本过滤比例的具体数量，以及各过滤比例之间的梯度值，在本申请中均不进行特别限定，本领域技术人员可以基于实际需求进行设置，或者也可以基于工程经验进行设置；例如，在一种实现方式中，上述多个保持梯度的预设过滤比例的数量为10％、20％、40％以及50％等四个保持梯度的过滤比例。

请继续参见图3，假设上述多个保持梯度的文本过滤比例，为10％、20％、40％以及50％等四个保持10％的增长梯度的文本过滤比例，上述计算机设备可以将该四个文本过滤比例，依次选定为目标过滤比例，然后按照上述预设过滤策略，按照选定的该目标过滤比例，针对该黑样本库进行分词处理得到的文本分词中的部分文本分词进行文本分词丢弃，然后分别计算剩余的文本分词的离散值(比如hash值)，并基于原始的黑样本库中剩余的文本分词的离散值，来重新构建出对应于上述目标过滤比例的离散值样本库(该离散值样本库即为重构后的黑样本库)。

其中，在示出的一种实施方式中，上述计算机设备在将上述多个保持梯度的预设过滤比例，依次选定为目标过滤比例时，具体可以按照过滤比例由低到高的顺序，依次选定为目标过滤比例。

继续参见图3，以利用IDF值表征各文本分词对应于通用样本库的重要程度为例，在实现时，上述计算机设备首先可以按照10％的过滤比例，丢弃掉针对上述黑样本库进行文本分词得到的文本分词中，IDF值高于95％分位(即IDF值最高的5％)的文本分词，以及低于5％分位(即IDF值最低的5％)的文本分词，然后分别计算剩余的文本分词的离散值，基于计算出的各剩余的文本分词的离散值，生成第一离散值样本库；

进一步的，在生成第一离散值样本库后，上述计算机设备，可以继续按照20％的过滤比例，丢弃掉针对上述黑样本库进行文本分词得到的文本分词中，IDF值高于90％分位的文本分词，以及低于10％分位的文本分词，然后分别计算剩余的文本分词的离散值，基于计算出的各剩余的文本分词的离散值，生成第二离散值样本库。

以此类推，上述计算机设备后续可以继续按照40％的过滤比例，丢弃掉针对上述黑样本库进行文本分词得到的文本分词中，IDF值高于80％分位的文本分词，以及低于20％分位的文本分词，然后分别计算剩余的文本分词的离散值，生成第三离散值样本库。以及，可以继续按照50％的过滤比例，丢弃掉针对上述黑样本库进行文本分词得到的文本分词中，IDF值高于60％分位的文本分词，以及低于30％分位的文本分词，然后分别计算剩余的文本分词的离散值，生成第四离散值样本库。

如图3所示，上述计算机设备按照以上示出的方式对上述黑样本库进行重构完成后，将可以重构出4个分别对应不同的过滤比例的离散值样本库，此时上述计算机设备可以将重构完成的离散值样本库中的离散值记录分别加载到内存中。此时针对上述原始的黑样本库的重构过程结束，原始的黑样本库已经按照不同的文本过滤比例，被重构为了多个离散值样本库。由于最终重构完成的离散值样本库中，仅仅包括若干个基于黑样本库中的文本分词的离散值，因此上述计算机设备需要加载的数据量显著减少。

请参见图4，图4为本申请示出的一种对新录入的社交文本执行相似度打分的处理流程图。

如图4所示，上述计算机设备在提取到用户通过社交应用新录入的社交文本后，可以基于与已经重构完成的多个离散值样本库对应的过滤比例，采用相同的过滤策略依次进行文本重构。

首先，上述计算机设备可以针对提取到的新录入的社交文本进行文本分词处理，得到若干文本分词，并在分词处理完成后，还可以进一步过滤文本分词中的标点符号以及停用词，或者进一步引入其它的过滤策略进行文本分词过滤，具体的实现过程不再赘述。

当针对新录入的社交文本进行文本分词处理后得到文本分词完成进一步的文本分词过滤后，此时上述计算机设备可以将上述重构后的多个离散值样本库依次选定为目标样本库；

其中，在示出的一种实施方式中，上述计算机设备在将上述多个离散值样本库，依次选定为目标样本库时，具体可以将上述多个离散值样本库按照对应的过滤比例由低到高的顺序，依次选定为目标样本库。

当选定出目标样本库后，上述计算机设备可以基于相同的过滤策略，按照选定的该目标样本库对应的过滤比例，针对进行分词处理得到的文本分词中的部分文本分词进行文本分词过滤，完成针对新录入的社交文本的第一次重构。

当第一次重构完成后，可以将剩余的文本分词依次选定为目标分词，并计算选定的该目标分词的离散值，然后将计算得到的该目标分词的离散值与内存中加载的该目标样本库中的离散值依次进行匹配；如果该目标分词的离散值与该目标样本库中任一离散值匹配时，则可以基于与该目标样本对应的文本过滤比例，为该目标分词设置黑样本相似度；

其中，在示出的一种实施方式中，在基于与该目标样本对应的文本过滤比例，为该目标分词设置黑样本相似度时，具体可以将与上述目标样本库对应的文本过滤比例转换为目标数值，并计算1与该目标数值的差值，然后将该目标分词的黑样本相似度，设置为大于等于该差值；比如，当该目标过滤比例为10％时，则可以将该目标分词与上述黑样本库中的黑样本的相似度设置为大于等于0.9。

当然，如果该目标分词的离散值与上述目标样本库中的离散值均不匹配，此时可以将下一个文本分词选定为目标分词，重新执行以上过程，以此类推，直到所有的文本分词的离散值与上述目标样本库中的离散值均完成匹配，此时第一次重构后的离散值匹配完成。

在完成第一次重构后的离散值匹配后，此时新录入的社交文本分词处理后的文本分词中，可能仍然存在未设置出相似度的文本分词。因此，在这种情况下，可以继续将下一个离散值样本库选定为目标样本库，根据该目标样本库对应的文本过滤比例，按照以上示出的方式对该新录入的社交文本进行第二次重构，并重新执行以上示出的通过离散值匹配为各文本分词评分的过程，以此类推，直到将新录入的社交文本按照上述多个离散值样本库对应的文本过滤比例，分别完成重构，并完成相应的离散值匹配过程后时停止。

其中，需要说明的是，对于在上一次重构后已经设置出相似度评分的文本分词，如果在选定目标样本库时采用各离散值样本库的过滤比例由小到大的顺序作为选定顺序，那么该文本分词可以不再参与下一次重构后的相似度评分过程。

继续参见图4，以利用IDF值表征各文本分词对应于通用样本库的重要程度，以及针对黑样本库按照10％、20％、40％以及50％等四个保持梯度的过滤比例分别进行重构，得到四个离散值样本库为例；在实现时，可以按照对应的过滤比例由大到小的顺序，将上述四个离散值样本库依次选定为目标样本库。

如图4所述，首先可以将对应的过滤比例为10％的第一离散值样本库选定为目标样本库，并按照10％的过滤比例，过滤掉针对新录入的社交文本进行文本分词得到的文本分词中，IDF值高于95％分位(即IDF值最高的5％)的文本分词，以及低于5％分位(即IDF值最低的5％)的文本分词，并分别计算剩余的文本分词的离散值；然后，将剩余的各文本分词的离散值依次选定为目标分词，并将该目标分词的离散值，与该第一离散值样本库中的离散值依次进行匹配；如果该目标分词的离散值与该第一离散值样本库中的任一离散值匹配时，则可以将该目标分词相对于上述黑样本库中的黑样本的相似度，设置为不低于90％。

当然，如果该目标分词的离散值与上述第一离散值样本库中的离散值均不匹配，此时可以将下一个文本分词选定为目标分词，重新执行以上过程，以此类推，直到所有的文本分词的离散值与上述第一离散值样本库中的离散值均完成匹配。

请继续参见图4，当新录入的该社交文本进行分词处理得到的所有的文本分词的离散值与上述第一离散值样本库中的离散值均完成匹配，如果此时仍然存在未设置出相似度评分的文本分词，此时可以将对应的文本过滤比例为20％的第二离散值样本库选定为目标样本库，并按照20％的文本过滤比例，过滤掉针对新录入的社交文本进行文本分词得到的文本分词中，IDF值高于90％分位的文本分词，以及低于10％分位的文本分词，并分别计算剩余的文本分词的离散值；然后，将剩余的各文本分词的离散值依次选定为目标分词，并将该目标分词的离散值，与该第二离散值样本库中的离散值依次进行匹配；如果该目标分词的离散值与该第二离散值样本库中的任一离散值匹配时，则可以将该目标分词相对于上述黑样本库中的黑样本的相似度，设置为不低于80％。

如果该目标分词的离散值与上述第二离散值样本库中的离散值均不匹配，此时可以将下一个文本分词选定为目标分词，重新执行以上过程，以此类推，直到所有的文本分词的离散值与上述第二离散值样本库中的离散值均完成匹配。

相似的，当新录入的该社交文本进行分词处理得到的所有的文本分词的离散值与上述第二离散值样本库中的离散值均完成匹配，如果此时仍然存在未设置出相似度评分的文本分词，此时可以将对应的过滤比例为40％的第三离散值样本库选定为目标样本库，按照40％的过滤比例，过滤掉针对新录入的社交文本进行文本分词得到的文本分词中，IDF值高于80％分位的文本分词，以及低于20％分位的文本分词，迭代执行以上示出的相似度评分过程；

进一步的，当新录入的该社交文本进行分词处理得到的所有的文本分词的离散值与上述第三离散值样本库中的离散值均完成匹配，如果此时仍然存在未设置出相似度评分的文本分词，此时可以将对应的文本过滤比例为50％的第四离散值样本库选定为目标样本库，按照50％的文本过滤比例，过滤掉针对新录入的社交文本进行文本分词得到的文本分词中，IDF值高于60％分位的文本分词，以及低于30％分位的文本分词迭代执行以上示出的相似度评分过程，具体的执行过程不再赘述。

当然，在实际应用中，当新录入的社交文本进行分词处理后的文本分词，分别按照上述多个离散值样本库对应的过滤比例，分别过滤掉部分的文本分词完成重构，并且所有文本分词的离散值与对应的离散值样本库中的所有离散值均完成了匹配后，此时如果该新录入的文本样本中的任一文本分词，被选定为所述目标分词，并且该文本分词的离散值与上述多个离散值样本库中的离散值均不匹配时，则可以将该文本分词的黑样本相似度，即与上述黑样本库中的文本样本的相似度设置0。

可见，通过利用文本分词的文本过滤比例，来表征新录入的社交文本与黑样本的文本相似度，并采用离散值匹配的方式，来为新录入的社交文本中的各文本分词设置与黑样本的相似度评分，可以实现以精确匹配的方式，完成新录入的文本样本与黑样本的模糊匹配，与传统的基于编辑距离或者余弦距离等相似度算法，来计算新录入的社交文本与黑样本的模糊匹配的方式相比，可以显著的提升计算效率。

在本例中，当通过图4示出的上述相似度评分流程，完成针对新录入的上述社交文本进行分词处理得到的各文本分词的相似度评分后，上述计算机设备可以基于该相似度的评分结果，对该新录入的社交文本进行内容审核。

具体的，上述计算机设备可以预设值一个相似度阈值，然后将该新录入的社交文本中各文本分词的相似度评分与该相似度阈值进行比较；如果该新录入的社交文本中任一文本分词的相似度达到该相似度阈值，此时可以将该文本分词确定为敏感关键词，并采取相应的安全防控措施(比如对文本进行屏蔽)将上述新录入的社交文本作为包含不良内容的黑样本进行实时的安全防控。

当然，如果该新录入的社交文本中的文本分词的相似度评分，均低于该相似度阈值，此时该新录入的社交文本为正常的社交文本，可以不进行任何处理。

另外，需要说明的是，当基于相似度评分将新录入的社交文本作为黑样本进行相应的安全防控处理后，可以将该新录入的社交文本作为黑样本，更新到上述原始的黑样本库中。通过这种方式，可以基于内容审核的结果，不断的对原始的黑样本库中的黑样本库进行增量更新，进而可以不断丰富原始的黑样本库中的数据样本。

与上述方法实施例相对应，本申请还提供了装置的实施例。

请参见图5，本申请提出一种文本相似度的计算装置50，所述计算机设备包括多个黑样本库；所述多个黑样本库为基于预设过滤策略，针对原始的黑样本库中的部分文本样本进行过滤后，基于剩余的文本样本创建得到；其中，所述多个黑样本库分别对应不同的文本过滤比例；其中，请参见图6，作为承载所述文本相似度的计算装置50的计算机设备所涉及的硬件架构中，通常包括CPU、内存、非易失性存储器、网络接口以及内部总线等；以软件实现为例，所述文本相似度的计算装置50通常可以理解为加载在内存中的计算机程序，通过CPU运行之后形成的软硬件相结合的逻辑装置，所述装置50包括：

分词模块501，针对新录入的文本样本进行分词处理，得到若干文本分词；

过滤模块502，将所述多个黑样本库依次选定为目标样本库，并基于所述预设过滤策略，按照所述目标样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤；

匹配模块503，将所述若干文本分词中剩余的文本分词依次选定为目标文本分词，并将所述目标文本分词与所述目标样本库中的文本分词依次进行匹配；

设置模块504，如果所述目标文本分词与所述目标样本库中任一文本分词匹配时，基于与所述目标样本库对应的文本过滤比例，为所述目标文本分词设置黑样本相似度。

在本例中，所述分词模块501进一步：

针对所述黑样本库中的文本样本依次进行分词处理；

所述过滤模块502进一步：

将预设的多个保持梯度的文本过滤比例，依次选定为目标过滤比例；基于所述预设过滤策略，按照所述目标过滤比例，针对所述黑样本库进行分词处理得到的文本分词中的部分文本分词进行过滤；

所述装置50还包括：

创建模块505(图5中未示出)，计算所述黑样本库中剩余的文本分词的离散值，并基于计算出的所述剩余的文本分词的离散值，创建对应于所述目标过滤比例的黑样本库。

在本例中，所述多个黑样本库对应的文本过滤比例保持梯度；所述过滤模块502进一步：

将所述多个黑样本库按照对应的文本过滤比例由低到高的顺序，依次选定为目标样本库。

在本例中，所述预设过滤策略包括以下策略中的任一：

仅丢弃权重值最高的文本分词；

仅丢弃权重值最低的文本分词；

同时丢弃权重值最高和最低的文本分词。

在本例中，所述权重值为所述文本分词对应于通用样本库的IDF值。

在本例中，所述设置模块504：

将与所述目标样本库对应的文本过滤比例转换为目标数值；

计算1与所述目标数值的差值；

将所述目标文本分词的黑样本相似度，设置为大于等于所述差值。

在本例中，所述设置模块504进一步：

当所述新录入的文本样本中的任一文本分词，与所述多个黑样本库中的文本分词均不匹配时，将该文本分词的黑样本相似度设置0。

在本例中，所述装置50还包括：

防护模块506(图5中未示出)，当所述新录入的文本样本中的任一文本分词的黑样本相似度达到预设阈值时，将所述新录入的文本样本作为包含不良内容的黑样本进行实时的安全防控。

在本例中，所述文本样本为社交文本；所述黑样本库中的文本样本为包含不良内容的社交文本。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种文本相似度的计算方法，其特征在于，应用于计算机设备；所述方法包括：

基于预设过滤策略，针对原始的黑样本库中的部分文本样本按照对应的文本过滤比例进行过滤后，基于剩余的文本样本创建目标黑样本库；

针对新录入的文本样本进行分词处理，得到若干文本分词；

基于所述预设过滤策略，按照所述目标黑样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤；

将所述若干文本分词中剩余的文本分词依次与所述目标黑样本库中的文本分词进行匹配；

如果所述剩余的文本分词中的任一目标文本分词与所述目标黑样本库中任一文本分词匹配时，将所述目标文本分词的黑样本相似度，设置为大于等于1与所述目标黑样本库对应的文本过滤比例的差值。

2.根据权利要求1所述的方法，其特征在于，所述基于预设过滤策略，针对原始的黑样本库中的部分文本样本按照对应的文本过滤比例进行过滤后，基于剩余的文本样本创建目标黑样本库，包括：

针对所述原始的黑样本库中的文本样本依次进行分词处理；

将预设的多个保持梯度的文本过滤比例，依次选定为目标过滤比例；

基于所述预设过滤策略，按照所述目标过滤比例，针对所述黑样本库进行分词处理得到的文本分词中的部分文本分词进行过滤；

计算所述黑样本库中剩余的文本分词的离散值，并基于计算出的所述剩余的文本分词的离散值，创建对应于所述目标过滤比例的黑样本库，以将所述原始的黑样本库重构为对应的文本过滤比例保持梯度的多个黑样本库。

3.根据权利要求2所述的方法，其特征在于，

所述基于所述预设过滤策略，按照所述目标黑样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤，包括：

将所述多个黑样本库按照对应的文本过滤比例由低到高的顺序，依次选定为所述目标黑样本库，并基于所述预设过滤策略，按照所述目标黑样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤。

4.根据权利要求1或2所述的方法，其特征在于，所述预设过滤策略包括以下策略中的任一：

仅丢弃权重值最高的文本分词；

仅丢弃权重值最低的文本分词；

同时丢弃权重值最高和最低的文本分词。

5.根据权利要求4所述的方法，其特征在于，所述权重值为所述文本分词对应于通用样本库的IDF值。

6.根据权利要求1所述的方法，其特征在于，所述将所述目标文本分词的黑样本相似度，设置为大于等于1与所述目标黑样本库对应的文本过滤比例的差值，包括：

将与所述目标黑样本库对应的文本过滤比例转换为目标数值；

计算1与所述目标数值的差值；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述新录入的文本样本中的任一目标文本分词，与所述多个黑样本库中的文本分词均不匹配时，将该目标文本分词的黑样本相似度设置0。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述新录入的文本样本中的任一目标文本分词的黑样本相似度达到预设阈值时，将所述新录入的文本样本作为包含不良内容的黑样本进行实时的安全防控。

9.根据权利要求1所述的方法，其特征在于，所述文本样本为社交文本；所述黑样本库中的文本样本为包含不良内容的社交文本。

10.一种文本相似度的计算装置，其特征在于，应用于计算机设备所述装置包括：

创建模块，基于预设过滤策略，针对原始的黑样本库中的部分文本样本按照对应的文本过滤比例进行过滤后，基于剩余的文本样本创建目标黑样本库；

过滤模块，基于所述预设过滤策略，按照所述目标黑样本库对应的文本过滤比例，针对所述若干文本分词中的部分文本分词进行过滤；

匹配模块，将所述若干文本分词中剩余的文本分词依次与所述目标黑样本库中的文本分词进行匹配；

设置模块，如果所述剩余的文本分词中的任一目标文本分词与所述目标黑样本库中任一文本分词匹配时，将所述目标文本分词的黑样本相似度，设置为大于等于1与所述目标黑样本库对应的文本过滤比例的差值。

11.根据权利要求10所述的装置，其特征在于，所述创建模块进一步：

针对所述原始的黑样本库中的文本样本依次进行分词处理；

12.根据权利要求11所述的装置，其特征在于，

所述过滤模块进一步：

13.根据权利要求10或11所述的装置，其特征在于，所述预设过滤策略包括以下策略中的任一：

仅丢弃权重值最高的文本分词；

仅丢弃权重值最低的文本分词；

同时丢弃权重值最高和最低的文本分词。

14.根据权利要求13所述的装置，其特征在于，所述权重值为所述文本分词对应于通用样本库的IDF值。

15.根据权利要求10所述的装置，其特征在于，所述设置模块：

计算1与所述目标数值的差值；

16.根据权利要求10所述的装置，其特征在于，所述设置模块进一步：

17.根据权利要求10所述的装置，其特征在于，所述装置还包括：

防护模块，当所述新录入的文本样本中的任一目标文本分词的黑样本相似度达到预设阈值时，将所述新录入的文本样本作为包含不良内容的黑样本进行实时的安全防控。

18.根据权利要求10所述的装置，其特征在于，所述文本样本为社交文本；所述黑样本库中的文本样本为包含不良内容的社交文本。