CN110147531A

CN110147531A - 一种相似文本内容的识别方法、装置及存储介质

Info

Publication number: CN110147531A
Application number: CN201810595368.5A
Authority: CN
Inventors: 白帆
Original assignee: Guangzhou Tencent Technology Co Ltd
Current assignee: Guangzhou Tencent Technology Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2019-08-20
Anticipated expiration: 2038-06-11
Also published as: CN110147531B

Abstract

本申请提供了一种相似文本内容的识别匹配方法，包括：获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值；确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数；其中，所述N为相似性阈值；每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值；当存在出现次数大于或等于所述相似性阈值的第二文本内容标识，则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。相应的。本申请还提供了实现上述方法的装置。

Description

一种相似文本内容的识别方法、装置及存储介质

技术领域

本申请涉及信息技术领域，尤其涉及一种相似文本内容的识别方法、装置及存储介质。

背景技术

随着互联网的发展，越来越多的人在公众平台上发布文章，这些文章可以是记实和案例，也可以是经验和方法等。但是公众平台上发布的文章也存在抄袭行为，也即存在内容相似或雷同的文章，这严重影响了作者发文的体验以及公众平台的创作生态。

发明内容

本申请的实施例提供了一种相似文本内容的识别方法，包括：获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值；确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数；其中，所述N为相似性阈值；每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值；当存在出现次数大于或等于所述相似性阈值的第二文本内容标识，则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。

本申请的实施例提供了一种相似文本内容的识别装置，包括：获取模块，获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值；第一确定模块，确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数；其中，所述N为相似性阈值，每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值；以及第二确定模块，当存在出现次数大于或等于所述相似性阈值的第二文本内容标识，则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。

本申请实施例还提供了一种存储介质，存储有可读指令，可以使至少一个处理器执行上述相似文本内容的识别方法。

本申请提供的技术方案，根据倒排索引技术，针对所述第一特征值集合中的至少N个第一特征值，在特征值索引库中确定分别包含所述至少N个第一特征值的第二文本内容，并在确定的各第二文本内容中，如果存在出现次数大于所述相似阈值的第二文本内容，则确定所述第一文本内容与所述第二文本内容相似，一方面大大提高了相似文本内容的识别速度和效率，另一方面提高了硬件资源的效率，节省了大量的计算资源。

附图说明

图1为本申请一实施例所述的一种相似文本内容的识别方法的实施环境的示意图；

图2为本申请一实施例的一种相似文本内容的识别方法的流程图；

图3为本申请一实施例的一种相似文本内容的识别方法的流程图；

图4为本申请一实施例所述的特征值索引库的示意图；

图5为本申请一实施例所述的特征值索引库的另一示意图；

图6示出了本申请一实施例所述的确定第二文本内容的标识的方法示意图；

图7为本申请一实施例的一种相似文本内容的识别方法的流程图；

图8A为本申请一实施例的相似文本内容的识别装置的结构示意图；

图8B为本申请一实施例的第一确定模块的结构示意图；及

图9为本申请一实施例的用户终端的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施例来对本发明的方案进行阐述。实施例中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。

如前所述，当前的公众平台中发布的文章存在抄袭行为，为了解决该问题，一些相似文本内容的识别方案采用的是一对一式的顺序匹配模式，也即将待匹配的文本内容与文本内容库中的各个文本内容逐一比较。而这种顺序匹配方式的效率十分低下，例如，假设每10万文章的匹配耗时为1秒，如果需要匹配的文章是5000万，那么进行这一轮顺序匹配需要500秒也即约8.3分钟，显然，这样的耗时不仅给作者造成了不好的体验，还给机器资源造成了重大负担。

为了解决上述问题，本申请的实例提出了一种相似文本内容的识别方法。该相似文本内容的识别方法，通过倒排索引技术可以将一篇文本内容在毫秒级别与公众平台内的所有文章进行匹配并找到与之有相似内容的其他文本内容。

图1显示了本申请一些实施例所述的一种相似文本内容的识别方法所适用的实施环境示意图。如图1所示，本申请一些实施例所述的文本内容的匹配方法的实施环境至少包括：设备终端11、网络12、服务器13。此外，本申请一些实施例所述的相似文本内容的识别方法的实施环境还可以包括：公众平台101以及用户数据库102。

在本申请的一些实例中，上述设备终端11可以是指具有数据计算处理功能的智能设备，包括但不限于(安装有通信模块的)智能手机、掌上电脑、平板电脑、以及个人电脑等。设备终端11上安装有操作系统，包括但不限于：Android操作系统、Symbian操作系统、Windows mobile操作系统、以及苹果iPhone OS操作系统等等。设备终端11上安装有各种应用客户端，比如公众平台的应用客户端。

网络12可以包括有线网络和无线网络。如图1所示，在接入网一侧，设备终端11可以通过无线的方式或者有线的方式接入到网络12；而在核心网一侧，服务器13一般是通过有线方式连接到网络12的。当然，上述服务器13也可以通过无线方式连接到网络12。

服务器13可以是公众平台101的服务器，主要用于将设备终端11上传的一篇待匹配的文本内容与已上传至公众平台的的文本内容进行匹配。服务器13可以是单独的服务器也可以是多个服务器组成的服务器集群。

公众平台101还可以包括用户数据库102，用于存储用户上传至公众平台的文本内容等。

下面结合附图，通过几个实施例对本申请实例提供的相似文本内容的识别方法进行说明。

基于上述图1所示的实施环境图，本申请的一些实施例提供了一种相似文本内容的识别方法，由服务器13执行。图2示出了本申请实例提供的相似文本内容的识别方法的流程图。如图2所示，该相似文本内容的识别方法包括以下步骤：

步骤201：获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值。

通常情况下，当用户需要在公众平台上发布一篇第一文本内容时，需要通过该公众平台的应用客户端将上述第一文本内容上传至上述公众平台的服务器。

在一些实例中，上述服务器在接收到上述第一文本内容后，将所述第一文本内容转化为数字格式的所述第一文本内容；根据所述数字格式的所述第一文本内容生成与所述第一文本内容对应的转移矩阵；将所述转移矩阵转化为一维数组；根据所述一维数组，得到所述第一文本内容的第一特征值集合。

在一些实例中，上述服务器在接收到上述第一文本内容后，还可以对所述第一文本内容进行分词处理；通过预设算法将分词处理后的所述第一文本内容转化为所述第一特征值集合。

步骤202：确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数；其中，所述N为相似性阈值；每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值。

在一些实例中，上述服务器确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识时，针对所述至少N个第一特征值中的每一个第一特征值：获取与该第一特征值对应的内存地址；从所述内存地址，获取所述该第一特征值对应的所述多个第二文本内容标识。

在一些实例中，针对所述至少N个第一特征值中的每一个第一特征值：根据所述第一特征值，搜索特征索引库，得到与所述第一特征值对应的第二文本内容标识；其中，所述特征值索引库记录有所述第一特征值与所述第二文本内容标识之间的对应关系。

在一些实例中，依次提取所述M个第二文本内容中每一个所述第二文本内容的第二特征值集合；将所述第二特征值集合中每个第二特征值与包含所述特征值的第二文本内容标识的对应关系记录在所述特征值索引库中，其中，根据所述第一特征值确定出对应的第二特征值。

在一些实例中，选择所述第一特征值集合中的一个第一特征值，确定对应于所述选择的第一特征值的第二文本内容标识，并根据所述确定的第二文本内容标识，更新每个第二文本内容标识的出现次数；如果更新后的出现次数中，没有出现大于或等于所述相似性阈值的出现次数，选择所述第一特征值集合中的下一个第一特征值，并返回所述确定对应于所述选择的第一特征值的第二文本内容标识的步骤。

在一些实例中，针对所述第一特征值集合中的每个第一特征值，分别确定与所述第一特征值对应的第二文本内容标识；在与所述第一特征值集合中各第一特征值对应的第二文本内容标识中，获取每个第二文本内容标识对应的出现次数。

步骤203：当存在出现次数大于或等于所述相似性阈值的第二文本内容标识，则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。

在一些实例中，生成提示消息，所述提示消息用于提示所述第二文本内容与所述第一文本内容相似。

本申请提供的技术方案，根据倒排索引技术，针对所述第一特征值集合中的至少N个第一特征值，在特征值索引库中确定分别包含所述至少N个第一特征值的第二文本内容，并在确定的各第二文本内容中，如果存在出现次数大于或等于所述相似阈值的第二文本内容，则确定所述第一文本内容与所述第二文本内容相似，一方面大大提高了相似文本内容的识别速度和效率，另一方面提高了硬件资源的效率，节省了大量的计算资源。

下面结合附图，介绍本申请实施例提供的相似文本内容的识别方法。

图3为本申请一些实施例提供的相似文本内容的识别方法的流程图，由服务器13执行。如图3所示，该相似文本内容的识别方法包括以下步骤：

步骤301：建立特征值索引库。

通常情况下，当用户需要在公众平台上发布一篇第一文本内容时，需要通过该公众平台的应用客户端将上述第一文本内容上传至上述公众平台的服务器。比如，当用户需要在微信公众平台上发布一篇文章时，可以通过微信客户端的原创功能将文章上传至微信公众平台的服务器。在上传上述第一文本内容之前，不失一般性的假设，上述公众平台的文本内容库中已经存储了M个第二本文内容。

这里，上述第二文本内容可以是设备终端上传至公众平台，并由上述公众平台的文本内容库中存储的原创的文本内容比如原创文章，其中，上述文本内容库可以是公众平台的原创文章库，上述第一文本内容在上传时需要与上述文本内容库中存储的上述第二文本内容进行匹配，以确定上述文本内容库中是否存在与上述第一文本内容相似的第二文本内容。如果上述文本内容库中存在与上述第一文本内容相似的第二文本内容，则认为上述第一文本内容不是原创的文本内容，也即为抄袭的文本内容。

在一些实例中，上述服务器需要基于上述公众平台的文本内容库中保存的M个第二文本内容建立特征值索引库。其中，建立特征值索引库的方法包括以下步骤：

步骤3011：依次提取所述M个第二文本内容中每一个所述第二文本内容的第二特征值集合；

步骤3012：将所述第二特征值集合中每个第二特征值与包含所述第二特征值的第二文本内容标识的对应关系记录在所述特征值索引库中。

在一些实例中，以上述第二特征值集合中的每一个第二特征值为偏移量，根据预设的内存起始地址确定一段连续的内存空间。具体的，根据上述第二特征值集合中的每一个第二特征值为偏移量，建立一个数组比如指针数组，其中，该数组引用内存的一个连续的空间，该偏移量用于表征每个数组元素在上述数组中的位置，比如偏移量为100时，则表示上述数组中第100个数组元素，每一个数组元素中包含一个内存地址，该内存地址中保存了包含上述第二特征值的第二文本内容的标识。因此，所述特征值索引库记录了每一个上述第二特征值与包含该第二特征值的第二文本内容标识的对应关系。其中，上述第二文本内容的标识为用于标识上述第二文本内容的标识符，比如可以是上述第二文本内容的名称或者文本内容ID(Identifier)，上述第一特征值和上述第二特征值的数值范围为0-5000万。

图4示出了特征值索引库的示意图。如图4所示，以上述数组为指针数组为例。文本内容库中共有M个第二文本内容401，服务器依次提取上述M个第二文本内容401的第二特征值集合402，得到M个第二特征值集合402。然后以第二特征值集合中的每一个第二特征值为偏移量403，建立一个指针数组404，其中，偏移量403表示数组元素405在指针数组404中的位置，也可以称为数字元素405的索引，每一个偏移量403的值对应一个第二特征值406。每一个指针数组404的数字元素405中包含一个内存地址，该内存地址中存储了包含相应的第二特征值406的第二文本内容的标识407.

图5示出了特征值索引库的另一示意图。如图5所示，文本内容库中共有M个第二文本内容501，服务器依次提取上述M个第二文本内容501的第三特征值集合502，得到M个第三特征值集合502，并将这M个第三特征值集合502取并集，得到第二特征值集合503。以第二特征值集合503中的第二特征值504为索引，以具有第二特征值504的第二文本内容的文本内容的标识505为内容，生成第二特征值504对应的索引记录，并将所述索引记录保存至特征值索引库。

在一些实例中，上述服务器还可以设置所述第二特征值集合，并置其为空集；对所述M个第二文本内容依次执行如下处理：获取第i个所述第二文本内容，提取所述第i个所述第二文本内容的第三特征值集合，1<＝i<＝M；以及将所述第三特征值集合与所述第二特征值集合取并集，并将取并集后的结果作为所述第二特征值集合。具体的，上述服务器设置一个第二特征值集合，并置其为空集；获取第1个第二文本内容的第三特征值集合，将获取的第1个第二文本内容的第三特征值集合与上述第二特征值集合取并集，并将取并集的结果作为第1次取并集后的第二特征值集合；然后获取第2个第二文本内容的第三特征集合，将获取的第2个第二文本内容的第三特征值集合与上述第1次取并集后的第二特征值集合取并集，并将取并集的结果作为第2次取并集的第二特征值集合，依照这种方法，获取第M个第二文本内容的第三特征值集合，并将获取的第M个第二文本内容的第三特征值集合与第M-1次取并集的第二特征值集合再取并集，最终得到M个第二文本内容的第二特征值集合。

步骤302：获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值。

在一些实例中，响应于用户的上传操作，上述服务器接收到设备终端的上述应用客户端上传的第一文本内容。在一些实例中，上述服务器在获取到上述第一文本内容后，将所述第一文本内容转化为数字格式的所述第一文本内容；根据所述数字格式的所述第一文本内容生成与所述第一文本内容对应的转移矩阵；将所述转移矩阵转化为一维数组；根据所述一维数组，得到所述第一文本内容的第一特征值集合。

具体的，上述服务器接收到上述第一文本内容后，首先将上述第一文本内容通过预设编码方式转化为数字格式的第一文本内容，比如使用可变长度字符编码方式(UTF-8：8-bit Unicode Transformation Format)将上述第一文本内容转化为字节形式的第一文本内容，也即使用0-255之间的数字表示上述第一文本内容，具体可以使用三个字节表示一个汉字，其中，上述数字格式的第一文本内容具备一种数字结构。然后将数字格式的第一文本内容转化为转移矩阵，也即转化为二维数字矩阵，上述数字矩阵包含了上述数字结构。为了降低数据量，将上述转移矩阵转化为一维数组以对上述转移矩阵进行特征降维。根据降维的一维数组以及预设算法，得到上述第一文本内容的第一特征值集合。

这里，根据降维的一维数组以及预设算法，得到上述待匹配的文本内容的第一数值特征集合可以包括：首先生成X组随机位置数组，这X组的随机位置数组中的每个位置数组中的位置数字由0到256*256之间的所有数字随机无序排列而成，每个位置数组中的位置数字代表上述转移矩阵的一个位置且每个位置对应的位置数字在每个位置数组中只出现一次。然后依次使用这X组随机位置数组中的每一个随机位置数组的位置数字与上述一维数组中的数组元素去匹配，也即每次使用一个随机位置数组中的256*256个位置数字与上述一维数组中256*256个数组元素匹配，当确定上述随机位置数组中的一个位置数字对应的上述一维数组中的一个数组元素为非零值时，记录上述随机位置数组的编号以及上述位置数字，根据该随机位置数组的编号以及上述位置数字计算第一数值特征，例如第一特征值＝该随机位置数组的编号*256*256+上述位置数字。

在另一些实例中，上述服务器在获取到上述第一文本内容后，对所述第一文本内容进行分词处理；通过预设算法比如哈希算法将分词处理后的所述第一文本内容转化为所述第一特征值集合。

步骤303：获取所述第一特征值集合中的每一个第一特征值对应的内存地址。

在一些实例中，确定所述第一特征值集合中每一个所述第一特征值对应的内存地址，包括：

步骤3031：将该第一特征值作为偏移量，根据预设的内存起始地址和所述偏移量，确定与所述第一特征值对应的内存空间。

步骤3032：从所述确定的内存空间中，获取与该第一特征值对应的内存地址。

在一些实例中，当在上述特征值索引库中获取与该第一特征值对应的内存地址时，可以根据上述偏移量确定出上述第一特征值对应的内存空间，该内存空间中存储有一个内存地址，该内存地址中存储有包含上述第一特征值的第二文本内容标识。然后，从该内存空间中获取与上述第一特征值对应的内存地址。

在一些实例中，当在上述特征值索引库中获取与该第一特征值对应的内存地址时，首先，可以通过该第一特征值确定出相应的第二特征值，根据确定出的第二特征值作为上述偏移量；然后，确定出特征值索引库中的数组中对应于上述偏移量的数组元素，并从该数组元素中获取一个内存地址，该内存地址中存储有包含上述第一特征值的第二文本内容标识；最后，从该内存空间中获取与上述第一特征值对应的内存地址。

步骤304：从所述内存地址，获取所述第一特征值对应的第二文本内容标识。

具体的，上述服务器访问确定的所述第一特征值对应的内存地址，以获取具有该第一特征值的第二文本内容标识，其中，具有该第一特征值的第二文本内容的标识可以为一个或多个。

图6示出了确定第二文本内容的标识的方法示意图。如图6所示，以指针数组为例，针对第一文本内容的第一特征值集合中的每一个第一特征值执行如下操作，以第一特征值“2”(601)为例来详细说明：根据第一特征值“2”(601)可以确定出对应的第二特征值为“2”，而后确定出与之对应的数组元素的偏移量602，其中，该偏移量602与第一特征值“2”(601)相同，从偏移量602对应的数组元素603中获取包括第一特征值“2”的第二文本内容的标识604，其中，包括第一特征值“2”的第二文本内容的标识604也就是特征值索引库中第二特征值“2”(605)对应的第二文本内容的标识。

在另一些实例中，针对所述第一特征值集合中的每一个第一特征值：根据所述第一特征值，搜索特征值索引库，得到与所述第一特征值对应的多个第二文本内容标识；其中，所述特征值索引库记录有所述第一特征值与所述第二文本内容标识之间的对应关系。

以图5为例，根据第一特征值“2”(504)，搜索特征值索引库，得到与第一特征值“2”(504)对应的多个第二文本内容标识505，其中，包括第二文本内容6、第二文本内容22以及第二文本内容12。

步骤305：在与所述第一特征值集合中各第一特征值对应的第二文本内容标识中，获取每个第二文本内容标识对应的出现次数。

在一些实例中，对所述第一特征值集合中的每个第一特征值依次执行：将所述第一特征值与上述特征值索引库中所述第二特征值集合中的每一个所述第二特征值比较；当所述第一特征值与所述第二特征值集合中的一个所述第二特征值相同时，确定包含所述第一特征值的第二文本内容出现，获取包含所述第一特征值的第二文本内容标识，并将所述第二文本内容标识对应的出现次数加1。

仍以图6为例，当获取了包括第一特征值“2”的第二文本内容的标识604后，那么第二文本内容的标识604中包括的第二文本内容1、第二文本内容3以及第二文本内容9就认为是出现一次，第二文本内容1、第二文本内容3以及第二文本内容9对应的出现次数分别加1。如果确定第一特征值“100”(606)对应的第二文本内容的标识时，获取到包括第一特征值“100”(606)的第二文本内容的标识607，那么确定第二文本内容的标识607中包括的第二文本内容3、第二文本内容2以及第二文本内容M出现一次，第二文本内容3、第二文本内容2以及第二文本内容M对应的出现次数分别加1。因此，可以确定第二文本内容3当前的出现次数为2次。

步骤306：确定各第二文本内容标识对应的出现次数中是否存在大于或等于所述相似性阈值的出现次数，如果存在，则执行步骤307；如果不存在，则执行步骤308。

在一些实例中，设定相似阈值比如100，当上述各第二文本内容中存在出现次数大于上述相似阈值的第二文本内容时，确定所述第一文本内容与所述第二文本内容相似。

步骤307：确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似，生成提示消息，所述提示消息用于提示所述第二文本内容与所述第一文本内容相似。

在一些实例中，上述服务器将上述提示消息发送至设备终端以使其展示所述提示消息，所述提醒消息包括所述第二文本内容标识以及所述第二本文内容标识对应的链接地址；其中，响应于用户点击所述设备终端展示的所述链接地址，所述设备终端展示所述第二文本内容标识对应的第二文本内容。

步骤308：确定不存在与上述第一文本内容相似的第二文本内容。

在一些实例中，当确定不存在与上述第一文本内容相似的第二文本内容时，允许用户将上述第一文本内容上传至上述公众平台。

通过本申请的技术方案，根据倒排索引技术，针对所述第一特征值集合中的每一个第一特征值，计算包括该第一特征值的第二文本内容标识的出现次数之后，如果存在第二文本内容标识的出现次数大于或等于上述相似阈值，确定该第二文本内容与上述第一文本内容相似，这样一方面大大提高了相似文本内容的识别速度和效率，另一方面提高了硬件资源的效率，节省了大量的计算资源

图7为本申请一些实施例提供的相似文本内容的识别方法的流程图。如图7所示，该相似文本内容的识别方法包括以下步骤：

步骤701：建立特征值索引库。

步骤702：获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值。

步骤701～702的方法与步骤301～步骤302的方法相同，在此不再赘述。

步骤703：获取与所述第一特征值集合中至少N个第一特征值中的每一个第一特征值对应的内存地址。

在一些实例中，所述N为相似性阈值；每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值。确定所述至少N个第一特征值中每一个所述第一特征值对应的内存地址的方法与步骤303中确定所述第一特征值集合中每一个所述第一特征值对应的内存地址方法相同，在此不再赘述。

步骤704：从所述内存地址，获取所述第一特征值对应的第二文本内容标识。

步骤704的方法与步骤304的方法相同，在此不再赘述。

步骤705：选择所述第一特征值集合中的一个第一特征值。

步骤706：确定对应于所述选择的第一特征值的第二文本内容标识，并根据所述确定的第二文本内容标识，更新每个第二文本内容标识的出现次数。

在一些实例中，针对所述选择的第一特征值执行：将所述第一特征值与上述特征值索引库中所述第二特征值集合中的每一个所述第二特征值比较；当所述第一特征值与所述第二特征值集合中的一个所述第二特征值相同时，确定包含所述第一特征值的第二文本内容出现，获取包含所述第一特征值的一个或多个第二文本内容标识，并将获取的所述一个或多个第二文本内容标识对应的出现次数加1以更新每个第二文本内容标识的出现次数。

步骤707：确定更新后的出现次数中是否存在大于或等于相似性阈值的出现次数，如果不存在，则执行步骤708；如果存在，执行步骤709。

步骤708：选择所述第一特征值集合中的下一个第一特征值，并返回步骤706。

步骤709：确定上述第一文本内容与出现次数大于或等于上述相似阈值的第二文本内容标识对应的第二文本内容相似，并生成提示消息，所述提示消息用于提示所述第二文本内容与所述第一文本内容相似。

通过本申请的技术方案，根据倒排索引技术，针对所述第一特征值集合中的至少N个第一特征值的每一个第一特征值，更新一次出现次数，当其中一个第二文本内容标识的出现次数大于或等于上述相似阈值时，确定该第二文本内容与上述第一文本内容相似，这样无需将第一特征值集合中的每一个第一特征值比较完，就可以确定出相似的第二文本内容，更加提高了相似文本内容的识别速度和效率，同时提高了硬件资源的效率，节省了大量的计算资源。

对应以上相似文本内容的识别方法，本申请还提供了实现上述方法的相似文本内容的识别装置800，该识别装置800位于可以位于公众平台的服务器中。图8A示出了相似文本内容的识别装置800的结构图。如图8A所示，该相似文本内容的识别装置800包括：获取模块801、第一确定模块802以及第二确定模块803，其中，各模块的功能如下：

获取模块801，获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值；

第一确定模块802，确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数；其中，所述N为相似性阈值，每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值；以及

第二确定模块803，如果存在出现次数大于或等于所述相似性阈值的第二文本内容标识，则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。

在一些实例中，如图8B所示，所述第一确定模块802，包括：文本内容标识单元8021，针对所述至少N个第一特征值中的每一个第一特征值：获取与该第一特征值对应的内存地址；从所述内存地址，获取所述该第一特征值对应的所述多个第二文本内容标识。

在一些实例中，所述文本内容标识单元8021，进一步将该第一特征值作为偏移量，根据预设的内存起始地址和所述偏移量，确定与所述第一特征值对应的内存空间；从所述确定的内存空间中，获取与该第一特征值对应的内存地址。

在一些实例中，所述文本内容标识单元8021，针对所述至少N个第一特征值中的每一个第一特征值：根据所述第一特征值，搜索特征值索引库，得到与所述第一特征值对应的多个第二文本内容标识；其中，所述特征值索引库记录有所述第一特征值与所述第二文本内容标识之间的对应关系。

在一些实例中，如图8B所示，所述第一确定模块802，包括：出现次数单元8022；其中，

所述文本内容标识单元8021，选择所述第一特征值集合中的一个第一特征值，确定对应于所述选择的第一特征值的第二文本内容标识；

所述出现次数单元8022，根据所述确定的第二文本内容标识，更新每个第二文本内容标识的出现次数；

如果更新后的各出现次数中，不存在大于或等于所述相似性阈值的出现次数，所述文本内容标识单元8021，进一步选择所述第一特征值集合中的下一个第一特征值，并返回所述确定对应于所述选择的第一特征值的第二文本内容标识的步骤。

在一些实例中，所述文本内容标识单元8021，针对所述第一特征值集合中的每个第一特征值，分别确定与所述第一特征值对应的第二文本内容标识；

所述出现次数单元8022，在与所述第一特征值集合中各第一特征值对应的第二文本内容标识中，获取每个第二文本内容标识对应的出现次数。

在一些实例中，识别装置800进一步包括：建立模块804，依次提取所述M个第二文本内容中每一个所述第二文本内容的第二特征值集合；将所述第二特征值集合中每个第二特征值与包含所述第二特征值的第二文本内容标识的对应关系记录在所述特征值索引库中。

在一些实例中，所述获取模块801，将所述第一文本内容转化为数字格式的所述第一文本内容；根据所述数字格式的所述第一文本内容生成与所述第一文本内容对应的转移矩阵；将所述转移矩阵转化为一维数组；根据所述一维数组，得到所述第一文本内容的第一特征值集合。

在一些实例中，识别装置800进一步包括：提示模块805，生成提示消息，所述提示消息用于提示所述第二文本内容与所述第一文本内容相似。

上述相似文本内容的识别装置，根据倒排索引技术，针对所述第一特征值集合中的至少N个第一特征值，在特征值索引库中确定分别包含所述至少N个第一特征值的第二文本内容，并在确定的各第二文本内容中，如果存在出现次数大于所述相似阈值的第二文本内容，则确定所述第一文本内容与所述第二文本内容相似，一方面大大提高了相似文本内容的识别速度和效率，另一方面提高了硬件资源的效率，节省了大量的计算资源。

图9示出了实现相似文本内容的识别装置800所在的服务器900的组成结构图。如图9所示，该计算设备包括一个或者多个处理器(CPU)902、通信模块904、存储器906、用户接口910，以及用于互联这些组件的通信总线908。

处理器902可通过通信模块904接收和发送数据以实现网络通信和/或本地通信。

用户接口910包括一个或多个输出设备912，其包括一个或多个扬声器和/或一个或多个可视化显示器。用户接口910也包括一个或多个输入设备914，其包括诸如，键盘，鼠标，声音命令输入单元或扩音器，触屏显示器，触敏输入板，姿势捕获摄像机或其他输入按钮或控件等。

存储器906可以是高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、或其他随机存取固态存储设备；或者非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存设备，或其他非易失性固态存储设备。

存储器906存储处理器902可执行的指令集，包括：

操作系统916，包括用于处理各种基本系统服务和用于执行硬件相关任务的程序；

应用918，包括用于实现相似文本内容的识别方法各种应用程序，这种应用程序能够实现上述各实例中的处理流程，比如可以包括图8A所示的实现相似文本内容的识别方法的识别装置800中的部分或全部单元。各单元或模块801-805中的至少一个模块可以存储有机器可执行指令。处理器802通过执行存储器806中各模块801-805中至少一个模块中的机器可执行指令，进而能够实现上述各模块801-805中的至少一个模块的功能。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施例中的硬件模块可以以硬件方式或硬件平台加软件的方式实现。上述软件包括机器可读指令，存储在非易失性存储介质中。因此，各实施例也可以体现为软件产品。

因此，本申请的一些实例还提供了一种计算机可读存储介质，其上存储有计算机指令，其中，所述计算机指令被处理器执行时实现上述图2-5中所述方法的步骤。

各例中，硬件可以由专门的硬件或执行机器可读指令的硬件实现。例如，硬件可以为专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。

另外，本申请的每个实例可以通过由数据处理设备如计算机执行的数据处理程序来实现。显然，数据处理程序构成了本申请。此外，通常存储在一个存储介质中的数据处理程序通过直接将程序读取出存储介质或者通过将程序安装或复制到数据处理设备的存储设备(如硬盘和或内存)中执行。因此，这样的存储介质也构成了本申请，本申请还提供了一种非易失性存储介质，其中存储有数据处理程序，这种数据处理程序可用于执行本申请上述方法实例中的任何一种实例。

图8A、8B中的模块对应的机器可读指令可以使计算机上操作的操作系统等来完成这里描述的部分或者全部操作。非易失性计算机可读存储介质可以是插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器。安装在扩展板或者扩展单元上的CPU等可以根据指令执行部分和全部实际操作。

另外，在本申请各个实例中的装置及各模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上装置或模块集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种相似文本内容的识别方法，其特征在于，包括：

获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值；

确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数；其中，所述N为相似性阈值；每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值；

当存在出现次数大于或者等于所述相似性阈值的第二文本内容标识，则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。

2.根据权利要求1所述的方法，其中，确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识包括：

针对所述至少N个第一特征值中的每一个第一特征值：

获取与该第一特征值对应的内存地址；

从所述内存地址，获取所述该第一特征值对应的所述多个第二文本内容标识。

3.根据权利要求2所述的方法，其中，所述获取与该第一特征值对应的内存地址包括：

将该第一特征值作为偏移量，根据预设的内存起始地址和所述偏移量，确定与所述第一特征值对应的内存空间；

从所述确定的内存空间中，获取与该第一特征值对应的内存地址。

4.根据权利要求1所述的方法，其中，确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，包括：

针对所述至少N个第一特征值中的每一个第一特征值：

根据所述第一特征值，搜索特征值索引库，得到与所述第一特征值对应的多个第二文本内容标识；其中，所述特征值索引库记录有所述第一特征值与所述第二文本内容标识之间的对应关系。

5.根据权利要求4所述的方法，进一步包括：

获取M个第二文本内容的第二特征值集合；其中，所述第二特征值集合包含所述M个第二文本内容的多个第二特征值；

分别将所述第二特征值集合中每个第二特征值与对应于所述第二特征值的第二文本内容标识的对应关系记录在所述特征值索引库中。

6.根据权利要求1所述的方法，其中，确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数，包括：

选择所述第一特征值集合中的一个第一特征值，

确定对应于所述选择的第一特征值的第二文本内容标识，并根据所述确定的第二文本内容标识，更新所述第二文本内容标识的出现次数；

如果更新后的各出现次数中，不存在大于或等于所述相似性阈值的出现次数，选择所述第一特征值集合中的下一个第一特征值，并返回所述确定对应于所述选择的第一特征值的第二文本内容标识的步骤。

7.根据权利要求1所述的方法，其中，确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数，包括：

针对所述第一特征值集合中的每个第一特征值，分别确定与所述第一特征值对应的第二文本内容标识；

在与所述第一特征值集合中各第一特征值对应的第二文本内容标识中，获取每个第二文本内容标识对应的出现次数。

8.根据权利要求1所述的方法，其中，所述获取第一文本内容的第一特征值集合，包括：

将所述第一文本内容转化为数字格式；

根据所述数字格式的所述第一文本内容生成与所述第一文本内容对应的转移矩阵；

将所述转移矩阵转化为一维数组；

根据所述一维数组，得到所述第一文本内容的第一特征值集合。

9.根据权利要求1所述的方法，所述方法进一步包括：

生成提示消息，所述提示消息用于提示所述第二文本内容与所述第一文本内容相似。

10.根据权利要求9所述的方法，其中，所述提示消息包括所述第二文本内容标识以及所述第二本文内容标识对应的链接地址。

11.一种相似文本内容的识别装置，其特征在于，包括：

获取模块，获取第一文本内容的第一特征值集合，所述第一特征值集合中包含至少一个第一特征值；

第一确定模块，确定与所述第一特征值集合中的至少N个第一特征值对应的多个第二文本内容标识，并确定所述多个第二文本内容标识中，每个第二文本内容标识的出现次数；其中，所述N为相似性阈值，每个第二文本内容标识对应的第二文本内容具有所述N个第一特征值中的至少一个第一特征值；以及

第二确定模块，当存在出现次数大于或等于所述相似性阈值的第二文本内容标识，则确定所述第一文本内容与所述第二文本内容标识对应的第二文本内容相似。

12.根据权利要求11所述的装置，其中，所述第一确定模块，包括：

文本内容标识模块，针对所述至少N个第一特征值中的每一个第一特征值：获取与该第一特征值对应的内存地址；从所述内存地址，获取所述该第一特征值对应的所述多个第二文本内容标识。

13.根据权利要求11所述的装置，其中，所述第一确定模块，包括：出现次数模块；其中，

所述文本内容标识模块，选择所述第一特征值集合中的一个第一特征值，确定对应于所述选择的第一特征值的第二文本内容标识；

所述出现次数模块，根据所述确定的第二文本内容标识，更新第二文本内容标识的出现次数；

如果更新后的各出现次数中，不存在大于或等于所述相似性阈值的出现次数，所述文本内容标识模块，进一步选择所述第一特征值集合中的下一个第一特征值，并返回所述确定对应于所述选择的第一特征值的第二文本内容标识的步骤。

14.根据权利要求13所述的装置，其中，所述文本内容标识模块，针对所述第一特征值集合中的每个第一特征值，分别确定与所述第一特征值对应的第二文本内容标识；

所述出现次数模块在与所述第一特征值集合中各第一特征值对应的第二文本内容标识中，获取每个第二文本内容标识对应的出现次数。

15.一种存储介质，其特征在于，存储有机器可读指令，可以使至少一个处理器执行如权利要求1-10任一项所述的方法。