CN116910296B

CN116910296B - 搬运内容识别方法、系统、电子设备和介质

Info

Publication number: CN116910296B
Application number: CN202311164572.9A
Authority: CN
Inventors: 张浩然; 丁顺意; 张璐; 陶明
Original assignee: Shanghai Renyimen Technology Co ltd
Current assignee: Shanghai Renyimen Technology Co ltd
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-12-08
Anticipated expiration: 2043-09-08
Also published as: CN116910296A

Abstract

本公开涉及搬运内容识别方法、系统、电子设备和介质。该方法包括：确定数据集中的图像是否存在站内相同图；在存在站内相同图时确定数据集是否具有站内活动标签；数据集具有站内活动标签时将数据集识别为正常数据集，否则确定图像分类是否为人像，在图像分类为人像时，确定图像路径是否命中搬运图像路径：在命中搬运图像路径时将数据集识别为虚假人设，否则确定图像是否满足豁免条件，满足豁免条件时将数据集识别为豁免数据集，否则将数据集识别为虚假人设；在图像分类不为人像时确定图像是否满足豁免条件，满足豁免条件时将数据集识别为豁免数据集，否则将数据集识别为虚假内容。

Description

搬运内容识别方法、系统、电子设备和介质

技术领域

本公开涉及数据处理领域，更具体地涉及搬运内容识别方法、系统、电子设备和介质。

背景技术

随着网络社交的普及乃至全民化，社交软件上搬运内容的现状令人担忧。这种搬运行为侵犯了原创者的知识产权，削弱了他们的创作动力，并且在一定程度上破坏了信息的可信度和社交平台的公平性。

社交软件平台可以采用多种技术手段来识别搬运内容，包括文本匹配算法、图像和视频检索技术等。这些技术的综合应用可以帮助社交平台检测并打击搬运行为，保护原创者的权益和信息的可信度。然而，需要注意的是单一技术可能无法完全解决问题，综合运用多种技术手段才能提高搬运内容的识别准确性和覆盖范围。

以Soul app为例，公司对搬运抄袭的打击做了不少的努力，但是单纯训练分类模型来识别搬运抄袭，由于场景的复杂性，模型识别的准确率和召回率都较差，另外也尝试使用了图像全局特征+大规模向量检索，但是由于全局特征的准确率不高，导致识别系统可用性差。

因此，迫切需要一种能够完成搬运内容的识别技术，对用户的文案和发图进行虚假判别，保护真实用户能够取得高质量的使用体验，同时打压虚假用户的曝光，对其社交行为进行部分限制。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

根据本公开的一个方面，提供了一种搬运内容识别方法，包括：在待识别数据集包括图像数据的情况下，确定所述图像数据是否存在站内相同图；在确定所述图像数据存在站内相同图的情况下，确定所述数据集标签是否为站内活动标签；在确定所述数据集标签为站内活动标签的情况下，将所述数据集识别为正常数据集，否则确定所述图像的分类是否为人像：在确定所述图像的分类为人像的情况下，确定所述图像的路径是否命中搬运图像路径；在确定所述图像的路径命中搬运图像路径的情况下，将所述数据集识别为虚假人设，否则确定所述图像中的光学字符识别OCR长度是否大于10或者图像是否为动图；在确定所述图像中的光学字符识别OCR长度大于10或者图像为动图的情况下，将所述数据集识别为豁免数据集，否则确定所述图像的召回数量是否大于第一预定阈值；在确定所述图像的召回数量大于第一预定阈值的情况下，将所述数据集识别为豁免数据集，否则确定所述图像是否为用户的历史图；在确定所述图像为用户的历史图的情况下，将所述数据集识别为豁免数据集，否则将所述数据集识别为虚假人设。

根据本公开的一些实施例，所述搬运内容识别方法还包括：在确定所述图像的分类不为人像的情况下，确定所述图像中的光学字符识别OCR长度是否大于10或者图像是否为动图；在确定所述图像中的光学字符识别OCR长度大于10或者图像为动图的情况下，将所述数据集识别为豁免数据集，否则确定所述图像的召回数量是否大于第一预定阈值；在确定所述图像的召回数量大于第一预定阈值的情况下，将所述数据集识别为豁免数据集，否则确定所述图像是否为用户的历史图；在确定所述图像为用户的历史图的情况下，将所述数据集识别为豁免数据集，否则确定所述图像的分类是否在类别豁免名单内：在确定所述图像的分类在类别豁免名单内的情况下，将所述数据集识别为豁免数据集，否则确定所述图像是否为视频图像：在确定所述图像为视频图像的情况下，将所述数据集识别为豁免数据集，否则将所述数据集识别为虚假内容。

根据本公开的一些实施例，其中确定所述图像数据是否存在站内相同图包括：根据尺度不变特征转换SIFT算法建立以簇心为关键字的局部特征倒排索引表和全局特征倒排索引表；根据SIFT算法对所述图像数据进行局部特征抽取或全局特征抽取，获得局部特征描述子或者全局特征描述子，其中对所述图像数据进行局部特征抽取包括检测所述图像数据的多个稳定关键点，并对每个稳定关键点进行特征抽取；对所述局部特征或者全局特征描述子进行乘积量化，得到量化后的短向量，其中短向量中的每一个元素是乘积量化过程中分段后的子段所属的簇心；以短向量中的每一个元素为关键字，从局部特征倒排索引表或全局特征倒排索引表中检索包含该元素的图像标识符，召回多个簇心；计算短向量中的每个元素与召回的对应簇心之间的相似度，去除相似度低于第二预定阈值和误匹配的簇心后，返回剩余簇心所对应的图像；计算返回的图像与所述图像数据的相似度，确定所述图像数据是否存在站内相同图。

根据本公开的一些实施例，所述搬运内容识别方法还包括：在确定所述图像数据不存在站内相同图的情况下，确定所述图像数据是否存在站外相似图；在确定所述图像数据存在站外相似图的情况下，将所述数据集识别为假图，否则将所述数据集识别为正常数据集。

根据本公开的一些实施例，其中确定所述图像数据是否存在站外相似图包括：建立与外部识图软件的接口；构建相似图检索请求并发送到外部识图软件；响应于从外部识图软件接收到的响应数据提取相似图像信息；计算所述图像数据与所提取的相似图像信息的相似度，确定所述图像数据是否存在站外相似图。

根据本公开的一些实施例，所述搬运内容识别方法还包括：在确定待识别数据集包括文本数据的情况下，确定所述文本数据是否存在站内相似文本；以及在确定所述文本数据存在站内相似文本的情况下将所述数据集识别为虚假文本。

根据本公开的一些实施例，其中确定所述文本数据是否存在站内相似文本包括：将所述文本数据表示为特征向量；计算所述文本数据的特征向量与数据库中文本的特征向量的相似度，其中所述数据库是事先建立的站内文本数据库；在相似度大于第三预定阈值的情况下，确定所述文本数据存在站内相似文本，否则确定所述文本数据不存在站内相似文本。

根据本公开的一些实施例，其中在所述数据集被识别为豁免数据集的情况下，所述搬运内容识别方法还包括：确定所述数据集中是否还包括其他图像数据；在确定所述数据集中不包括其他图像数据的情况下，将所述数据集识别为正常数据集；以及在确定所述数据集中还包括其他图像数据的情况下，迭代执行在确定所述数据集标签不为站内活动标签的情况下所执行的步骤。

根据本公开的另一个方面，提供了一种搬运内容识别系统，包括被配置为执行本公开中所述的任一实施例的搬运内容识别方法的单元。

根据本公开的一些实施例，提供了一种电子设备，包括：存储器；和耦接至存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行本公开中所述的任一实施例的搬运内容识别方法。

根据本公开的又一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行本公开中所述的任一实施例的搬运内容识别方法。

根据本公开的再一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时执行本公开中所述的任一实施例的搬运内容识别方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征、方面及其优点将会变得清楚。

附图说明

下面参照附图说明本公开的优选实施例。此处所说明的附图用来提供对本公开的进一步理解，各附图连同下面的具体描述一起包含在本说明书中并形成说明书的一部分，用于解释本公开。应当理解的是，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开构成限制。在附图中：

图1示出了根据本公开的示例性实施例的搬运内容识别方法的流程图。

图2示出了根据本发明的示例性实施例的图像检索方法的检索库建立流程图。

图3示出了根据本公开的示例性实施例的图像检索方法的检索流程图。

图4示出了根据本公开的示例性实施例的电子设备的示意性框图。

图5示出了根据本公开的示例性实施例中可采用的计算机系统的示例结构的框图。

应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不一定是按照实际的比例关系绘制的。在各附图中使用了相同或相似的附图标记来表示相同或者相似的部件。因此，一旦某一项在一个附图中被定义，则在随后的附图中可能不再对其进行进一步讨论。

实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，但是显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对实施例的描述实际上也仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值应被解释为仅仅是示例性的，不限制本公开的范围。

本公开中使用的术语“包括”及其变型意指至少包括后面的元件/特征、但不排除其它元件/特征的开放性术语，即“包括但不限于”。此外，本公开使用的术语“包含”及其变型意指至少包含后面的元件/特征、但不排除其它元件/特征的开放性术语，即“包含但不限于”。因此，包括与包含是同义的。术语“基于”意指“至少部分地基于”。

整个说明书中所称“一个实施例”、“一些实施例”或“实施例”意味着与实施例结合描述的特定的特征、结构或特性被包括在本公开的至少一个实施例中。例如，术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。而且，短语“在一个实施例中”、“在一些实施例中”或“在实施例中”在整个说明书中各个地方的出现不一定全都指的是同一个实施例，但是也可以指同一个实施例。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。除非另有指定，否则“第一”、“第二”等概念并非意图暗示如此描述的对象必须按时间上、空间上、排名上的给定顺序或任何其它方式的给定顺序。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面结合附图对本公开的实施例进行详细说明，但是本公开并不限于这些具体的实施例。下面这些具体实施例可以相互结合，对于相同或者相似的概念或过程可能在某些实施例不再赘述。此外，在一个或多个实施例中，特定的特征、结构或特性可以由本领域的普通技术人员从本公开将清楚的任何合适的方式组合。

本发明基于社交软件上搬运内容的现状提出了一整套搬运内容识别系统，采用了多个识别模型以及一系列策略来完成搬运内容识别。首先在图像识别方面，本发明以局部特征作为图像的表征，保证了较高的准确性，在线上实测中准确率可以达到99%以上。同时本发明利用该表征构建了大规模的向量检索系统，所包含的图像库超过1亿级别，该相同图检索系统被用来判断用户发的图像是否为搬运其他用户的图像。在文本方面，同样支持大规模的文本检索系统，与图像检索同理，被用于判断用户发布的文本是否是抄袭其他用户的文本。为了提升图像检索的覆盖面，本发明引入外网的重复图像判断方法，当站内用户搬运图像来自外网时，本搬运内容识别系统同样能够满足需求。除此之外，本发明还融入了若干其他信息：用户设备信息、图像摄像头信息、图像文字识别结果、图像分类信息、图像路径信息、评论信息等进行综合决策判断，最终为帖子打上是否为搬运内容的标记。

下面参考图1到图5来详细说明根据本发明的示例性实施例的搬运内容识别方法及系统。

根据本发明的实施例，在对社交平台的数据集（例如，论坛上的帖子、短视频平台上的视频作品等）进行搬运内容识别时，需要先识别该数据集是否包括图像数据和/或文本数据。在数据集包括文本数据的情况下，确定所述文本数据是否存在站内相似文本，并在确定所述文本数据存在站内相似文本的情况下将所述数据集识别为虚假文本。在数据集包括图像数据的情况下，确定所述图像数据是否存在站内相同图，在存在站内相同图的情况下，通过一系列策略进一步判断该站内相同图是否为搬运内容；在不存在站内相同图的情况下，进一步通过与外部识图软件的接口确定是否存在站外相似图，在存在站外相似图的情况下，将所述数据集识别为假图；在所述图像数据既不存在站内相同图也不存在站外相似图的情况下，将所述数据集识别为正常数据集。

图1示出了根据本发明的示例性实施例的搬运内容识别方法的流程图100。

如图1所示，在步骤S101处，确定待识别的数据集是否包括图像数据和/或文本数据。根据本发明的实施例，有的作品为纯文本帖子，有的作品既有文本也有图片或视频，有的作品只有图片或者视频。

在步骤S102处，在确定待识别的数据集包括文本数据的情况下，确定所述文本数据是否存在站内相似文本。

根据本发明的实施例，在确定所述文本数据存在站内相似文本的情况下将所述数据集识别为虚假文本，而在确定所述文本数据不存在站内相似文本的情况下将该数据集识别为正常数据集。

确定文本数据是否存在站内相似文本的方法可以有多种。根据本发明的实施例，可以利用相似簇心进行相似文本检索。具体地，首先，将待检索的文本表示为特征向量，优选采用以Transformers为主要框架的双向编码表征模型（BERT：Bidirectional EncoderRepresentation from Transformers）作为文本提取器。接着，使用欧氏距离计算所述文本数据的特征向量与数据库中文本的特征向量的相似度，其中所述数据库是事先建立的站内文本数据库。最后，根据相似度得分或设定的相似度阈值，确定与待检索文本相似度较高的文本作为检索结果。在检索得到数据库中具有与待检索文本的相似度大于预定阈值的文本的情况下，确定所述文本数据存在站内相似文本，否则确定所述文本数据不存在站内相似文本。

通过利用相似簇心技术，能够高效地找到与待检索文本相似的文本数据，为相似文本检索提供了一种有效的解决方案。

在步骤S103处，在确定待识别的数据集包括图像数据的情况下，确定图像数据中的图像是否存在站内相同图。一般情况下，对待识别数据集（例如帖子、作品）的搬运内容的识别主要针对站内图像识别，其次针对站内文本识别，站外图像识别作为辅助识别。

在确定图像数据中的图像存在站内相同图的情况下，进行到步骤S104，否则进行步骤S105。

如何确定图像数据中的图像是否存在站内相同图的操作将在下面参考图2和图3进行说明。

在步骤S104处，确定所述数据集标签是否为站内活动标签。每个论坛或者音视频软件都会定期举办一些站内活动。根据本发明的实施例，以soul app为例，在某个时间段内，站内举办了城市明信片和我的引力签活动。在举办这种活动期间，用户在app上发帖可以打上此类标签，有此类标签的作品或帖子为正常的。

在确定所述数据集标签为站内活动标签的情况下，所述数据集被识别为正常数据集，否则方法进行到步骤S106。

在步骤S106处，确定所述图像的分类是否为人像。根据本发明的实施例，对图像的分类有691类，其中对人像和非人像进行了分类处理。在确定所述图像的分类为人像的情况下，方法进行到步骤S107，否则方法进行到步骤S111。

在步骤S107处，确定所述图像的路径是否命中搬运图像路径。根据本发明的实施例，在确定所述图像的路径命中搬运图像路径，将所述数据集识别为虚假人设，否则方法进行到步骤S108。

根据本发明的实施例，在图像的路径命中搬运图像路径时，是典型的搬运行为，此时识别出的虚假人设的抄袭行为是最高级别的。

在步骤S108处，确定所述图像中的光学字符识别（OCR：Optical CharacterRecognition）长度是否大于10或者图像是否为动图。

根据本发明的实施例，在图像中的OCR长度大于10或者图像为动图的情况下，将该数据集识别为豁免数据集，因为OCR长度太长的图像以及动图的识别相对计算成本要大得多，在此先将其视为正常数据集。否则方法进行到步骤S109。

在步骤S109处，确定所述图像的召回数量是否大于预定阈值。一般情况下，在图像的召回数量比较大，例如大于30次的情况下，该图像可能为明星头像之类的人像，不应将其视为内容搬运。因此根据本发明的实施例，在确定图像的召回数量大于预定阈值时，将该数据集识别为豁免数据集,否则方法进行到步骤S110。

在步骤S110处，确定所述图像是否为用户的历史图。

根据本发明的实施例，可以通过用户的账户历史信息、用户设备信息等确定该图像是否为用户的历史图。在确定该图像为用户的历史图的情况下，将该数据集识别为豁免数据集,否则将所述数据集识别为虚假人设。

回到步骤S106，在确定所述图像的分类不为人像的情况下，方法进行到步骤S111。

如图1所示，在步骤S111处，确定所述图像中的光学字符识别（OCR：OpticalCharacter Recognition）长度是否大于10或者图像是否为动图。

根据本发明的实施例，在图像中的OCR长度大于10或者图像为动图的情况下，将该数据集识别为豁免数据集，因为OCR长度太长的图像以及动图的识别相对计算成本要大得多，在此先将其视为正常数据集。否则方法进行到步骤S112。

在步骤S112处，确定所述图像的召回数量是否大于预定阈值。一般情况下，在图像的召回数量比较大，例如大于30次的情况下，该图像可能为大家广泛使用的网红风景照之类的图像，不应将其视为内容搬运。因此根据本发明的实施例，在确定图像的召回数量大于预定阈值时，将该数据集识别为豁免数据集,否则方法进行到步骤S113。

在步骤S113处，确定所述图像是否为用户的历史图。

根据本发明的实施例，可以通过用户的账户历史信息、用户设备信息等确定该图像是否为用户的历史图。在确定该图像为用户的历史图的情况下，将该数据集识别为豁免数据集,否则方法进行到步骤S114处，确定所述图像的分类是否在类别豁免名单内。根据本发明的实施例，对图像的分类有691类，包括人像类，同时设定了一些豁免类别，包括但不限于表情包、影视截图、游戏截图、聊天截图等。

根据本发明的实施例，在确定所述图像的分类在类别豁免名单内的情况下，将所述数据集识别为豁免数据集，否则方法进行到步骤S115。

在步骤S115处，确定所述图像是否为视频图像。

根据本发明的实施例，因为视频图像包括很多帧，如果对每一帧都进行处理，计算量太大，因此在确定所述图像为视频图像的情况下，将所述数据集识别为豁免数据集，否则将所述数据集识别为虚假内容。

如图1所示，在所述数据集被识别为豁免数据集的各种情况下，所述方法还包括步骤S116，确定所述数据集中是否还包括其他图像数据。根据本发明的实施例，在确定所述数据集中不包括其他图像数据的情况下，将所述数据集识别为正常数据集，否则迭代执行图1中的步骤S106-S116，直到确定所示数据集中不再包括其他图像数据为止。

在确定图像数据中的图像不存在站内相同图的情况下，方法进行步骤S105。在步骤S105处，确定所述图像数据是否存在站外相似图。

根据本发明的实施例，在确定所述图像数据存在站外相似图的情况下，将所述数据集识别为假图，否则将所述数据集识别为正常数据集。

根据本发明的实施例，可以通过建立与外部识图软件（例如，百度识图服务器）的接口对潜在的站外抄袭进行相似图检索。具体来说，在建立与外部识图软件的接口后，构建相似图检索请求并发送到外部识图软件（例如，百度识图服务器），响应于从外部识图软件接收到的响应数据提取相似图像信息。最后，计算所述图像数据与所提取的相似图像信息的相似度，在相似度大于预定阈值时确定所述图像数据存在站外相似图。

可以采用多种方法来确定图像数据中的图像是否存在站内相同图，本发明主要采用站内相同图检索方法来确定。

图2示出了根据本发明的示例性实施例的图像检索方法的检索库建立流程图200。

根据本发明的实施例，图像检索方法需要先建立图像检索库，然后基于图像检索库对图像进行检索，而对图像检索库的建立包括局部特征检索库的建立和全局特征检索库的建立。

如图2所示，在步骤S201处，检测每个样本图像的N个稳定关键点，并对每个稳定关键点进行特征抽取获得N*D1个局部特征描述子。

根据本发明的实施例，可以采用SIFT算法来进行各个稳定关键点的特征抽取。其中N为自然数，D1为维度。N的选取取决于待检测图像的稳定关键点的数量。根据本发明的优选实施例，在对局部特征进行抽取时，D1优选取128维。

例如，在图像具有8个稳定关键点时，N=8，D1取128维，则进行特征抽取可以获得8*128=1024个局部特征描述子。

在步骤S202处，对N*D1个局部特征描述子进行乘积量化。根据本发明的实施例，步骤S202可以拆分成三个子步骤S2021、S2022和S2023。

如图2所示，在子步骤S2021处，将D1维度分成m1个子段，获得每一子段的子维度D1/m1以及每一子段的局部特征描述子为N*D1/m1个。

根据本发明的实施例，采用最优乘积量化OPQ来对局部特征描述子进行量化。将D1维度分成m1个段，则每个段的子维度为D1/m1，每个段的局部特征描述子数量为N*D1/m1个。应理解，m1为能被维度D1整除的自然数。例如，在D1取128维，m1取2时，每个段的子维度为64维。

在子步骤S2022处，对每一子段中的D1/m1个局部特征描述子分别进行聚类，并设置聚类数目K1，获得每一子段的K1个D1/m1维的簇心。其中每个簇心（也称为聚类中心）用一个簇心ID表示，簇心ID范围为0到K1-1，其中K1一般为五千到十万之间的自然数。

在子步骤S2023处，将N个关键点中的每一个关键点的特征向量量化成一个D1/m1维的短向量。应理解，短向量中的每一个元素是该子段所属的簇心ID。

经过优化乘积量化后，N个关键点被量化成N个D1/m1维的短向量。

在步骤S203处，通过对于每个簇心ID记录包含该簇心ID的样本图像的图像标识符，建立簇心ID到样本图像的映射关系，从而建立以簇心ID为关键字的局部特征倒排索引表。应理解，图像标识符是用来标识图像的信息。

对全局特征倒排索引表的建立与对局部特征倒排索引表的建立类似，只是在第一步特征抽取时是直接对每个样本图像进行全局特征抽取，获得D2个全局特征描述子。根据本发明的实施例，可以采用SIFT算法来进行全局特征的抽取。其中D2为维度。根据本发明的优选实施例，在对全局特征进行抽取时，D2优选取768维，则进行特征抽取可以获得768个全局特征描述子。其余对全局特征倒排索引表的建立过程中的操作与对局部特征倒排索引表的建立类似，在此不赘述。

通过建立以簇心ID为关键字的局部特征倒排索引表和全局特征倒排索引表，建立了图像检索库。

图3示出了根据本发明的示例性实施例的图像检索方法的检索流程图300。

如图3所示，在接收到用户输入的待查询图像时，在步骤S301处，检测待查询图像的M个稳定关键点，并对每个稳定关键点进行特征抽取获得M*D1个局部特征描述子。应理解，M为可以与N相同或不同的自然数，并且M的选取同样取决于待检测图像的稳定关键点的数量。这里查询时进行特征抽取的维度D1与建库时的维度一致。

在步骤S302处，对M*D1个局部特征描述子进行乘积量化。与建立图像检索库时一样，根据本发明的实施例，步骤S302也可以拆分成三个子步骤S3021、S3022和S3023。

如图3所示，在子步骤S3021处，将D1维度分成m1个子段，获得每一子段的子维度D1/m1以及每一子段的局部特征描述子为M*D1/m1个。

根据本发明的实施例，进行图像检索时取的维度和子维度与建库时取的维度和子维度一致，因此分段数也一致，其最优乘积量化原理与步骤S2021时一样。即将D1维度分成m1个段，则每个段的子维度为D1/m1，每个段的局部特征描述子数量为M*D1/m1个。

在子步骤S3022处，对每一子段中的D1/m1个局部特征描述子分别进行聚类，并设置聚类数目K1，获得每一子段的K1个D1/m1维的簇心。其中每个簇心用一个簇心ID表示，簇心ID范围为0到K1-1，其中K1一般为五千到十万之间的自然数。应理解，进行图像检索时设置的聚类数目与建库时设置的聚类数目一致，均为K1。

在子步骤S3023处，将M个关键点中的每一个关键点的特征向量量化成一个D1/m1维的短向量。应理解，短向量中的每一个元素是该子段所属的簇心ID。

经过优化乘积量化后，M个关键点被量化成M个D1/m1维的短向量。

如图3所示，在步骤S303处，以短向量中的每一个元素为关键字，从局部特征倒排索引表中检索包含该元素的图像标识符，召回M*m1个簇心。

在步骤S304处，根据召回的簇心的重复率从高到低对M*m1个簇心进行排序。应理解，召回的簇心的重复率越高，图像的匹配率越高，而且用户可以根据需要设置希望返回排序后簇心的前多少百分比。

根据本发明的实施例，例如在M为10个稳定关键点，D1为128维，m1为2时，召回2*10=20个簇心，假设其中召回的簇心ID 32的重复率为4，簇心ID 89的重复率为3，簇心ID 1111的重复率为1，簇心ID 12的重复率为5，簇心ID 811的重复率为2……，则对这1280个簇心进行重复率从高到低的排序，为12, 32, 89, 811, 1111……。

在步骤S305处，计算每一个关键点的特征向量量化成的短向量中的每个元素与召回的对应簇心间的欧式距离，去除召回的M*m1个簇心中欧式距离大于第一预定阈值的簇心。

根据本发明的实施例，通过计算欧氏距离来计算短向量中的每个元素与召回的对应簇心间的相似度，去掉相似度低于预定阈值的簇心。应理解，该预定阈值可以根据需要进行设定，在此不做限制。

在步骤S306处，去除召回的M*m1个簇心中误匹配的簇心，将剩余簇心所映射的图像发送给用户。根据本发明的实施例，可以根据召回的簇心的位置与每一个关键点的特征量化成的短向量中的每个元素的位置信息来判断是否误匹配，去除位置明显误匹配的簇心。召回的簇心中剩余的簇心所对应的图像即为发送给用户的通过局部特征检索获得的图像。

对全局特征的检索流程与对局部特征的检索流程类似，在此不赘述。

应理解，在对图像进行检索时，可以只进行局部特征检索，也可以只进行全局特征检索，还可以同时进行局部特征和全局特征检索。在同时进行局部特征检索和全局特征检索时，局部特征和全部特征的检索是并行进行的。

同时，虽然图中未示出，但本发明也提出了根据本公开的示例性实施例的图像检索系统，其包括被配置为执行图2和图3中所示出的图像检索方法200和300的单元。

本公开提出的搬运内容识别方法，通过站内相同图检索、站外相似图检索、站内相似文本等多个维度的搬运抄袭识别，对用户的文案和发图进行虚假判别，保护真实用户能够取得高质量的使用体验。

虽然图中未示出，但本发明也提出了根据本公开的示例性实施例的搬运内容识别系统，其包括被配置为执行图1所示出的搬运内容识别方法100的单元。

本公开的实施例提供的搬运内容识别系统可以实现本文中任何实施例提供的搬运内容识别方法。

本申请提出了一种基于站内相同图检索、站外相似图检索、站内相似文本等多个维度的搬运内容识别系统，对用户的文案和发图进行虚假判别，保护真实用户能够取得高质量的使用体验。以soul app为例，通过本发明的搬运内容识别系统和方法，搬运抄袭识别准确率可达到99%以上，召回率可达到80%，广场举报量下降43.7%，广场假人举报下降39%，广场假人帖下降78.7%，广场非原创帖下降39.2%。

本公开的一些实施例还提供一种电子设备。图4示出了本公开的电子设备4的一些实施例的框图。该电子设备可用来实现根据本公开的任一实施例所述的方法。

例如，在一些实施例中，电子设备4可以为各种类型的设备，例如可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。例如，电子设备4可以包括显示面板，以用于显示根据本公开的方案中所利用的数据和/或执行结果。例如，显示面板可以为各种形状，例如矩形面板、椭圆形面板或多边形面板等。另外，显示面板不仅可以为平面面板，也可以为曲面面板，甚至球面面板。

如图4所示，该实施例的电子设备4包括：存储器41以及耦接至该存储器41的处理器42。应当注意，图4所示的电子设备4的组件只是示例性的，而非限制性的，根据实际应用需要，该电子设备4还可以具有其它组件。处理器42可以控制电子设备4中的其它组件以执行期望的功能。

在一些实施例中，存储器41用于存储一个或多个计算机可读指令。处理器42用于运行计算机可读指令时，计算机可读指令被处理器42运行时实现根据上述任一实施例所述的方法。关于该方法的各个步骤的具体实现以及相关解释内容可以参见上述的实施例，重复之处在此不作赘述。

例如，处理器42和存储器41之间可以直接或间接地互相通信。例如，处理器42和存储器41可以通过网络进行通信。网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。处理器42和存储器41之间也可以通过系统总线实现相互通信，本公开对此不作限制。

例如，处理器42可以体现为各种适当的处理器、处理装置等，诸如中央处理器(CPU)、图形处理器(Graphics Processing Unit，GPU)、网络处理器(NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。中央处理元(CPU)可以为X86或ARM架构等。例如，存储器41可以包括各种形式的计算机可读存储介质的任意组合，例如易失性存储器和/或非易失性存储器。存储器41例如可以包括系统存储器，系统存储器例如存储有操作系统、应用程序、引导装载程序（Boot Loader）、数据库以及其它程序等。在存储介质中还可以存储各种应用程序和各种数据等。

另外，根据本公开的一些实施例，根据本公开的各种操作/处理在通过软件和/或固件实现的情况下，可从存储介质或网络向具有专用硬件结构的计算机系统，例如图5所示的计算机系统500安装构成该软件的程序，该计算机系统在安装有各种程序时，能够执行各种功能，包括诸如前文所述的功能等等。图5示出了根据本公开的实施例中可采用的计算机系统的示例结构的框图。

在图5中，中央处理单元（CPU）501根据只读存储器（ROM）502中存储的程序或从存储部分508加载到随机存取存储器（RAM）503的程序执行各种处理。在RAM 503中，也根据需要存储当CPU 501执行各种处理等时所需的数据。中央处理单元仅仅是示例性的，其也可以是其它类型的处理器，诸如前文所述的各种处理器。ROM 502、RAM 503和存储部分508可以是各种形式的计算机可读存储介质，如下文所述。需要注意的是，虽然图5中分别示出了ROM502、RAM 503和存储部分508，但是它们中的一个或多个可以合并或者位于相同或不同的存储器或存储模块中。

CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。

下述部件连接到输入/输出接口505：输入部分506，诸如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等；输出部分507，包括显示器，比如阴极射线管（CRT）、液晶显示器（LCD），扬声器，振动器等；存储部分508，包括硬盘，磁带等；和通信部分509，包括网络接口卡比如LAN卡、调制解调器等。通信部分509允许经由网络比如因特网执行通信处理。容易理解的是，虽然图5中示出的计算机系统500中的各个装置或模块是通过总线504来通信的，但它们也可以通过网络或其它方式进行通信，其中，网络可以包括无线网络、有线网络、和/或无线网络和有线网络的任意组合。

根据需要，驱动器510也连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上，使得从中读出的计算机程序根据需要被安装到存储部分508中。

在通过软件实现上述系列处理的情况下，可以从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。

根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，或者从存储部分508被安装，或者从ROM 502被安装。在该计算机程序被CPU 501执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，在本公开的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

在一些实施例中，还提供了一种计算机程序，包括：指令，指令当由处理器执行时使处理器执行上述任一个实施例的方法。例如，指令可以体现为计算机程序代码。

在本公开的实施例中，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络(，包括局域网(LAN)或广域网(WAN))连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块、部件或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块、部件或单元的名称在某种情况下并不构成对该模块、部件或单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示例性的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本公开的一些实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

在本文提供的描述中，阐述了许多特定细节。然而，理解的是，可以在没有这些特定细节的情况下实施本公开的实施例。在其它情况下，为了不模糊该描述的理解，没有对众所周知的方法、结构和技术进行详细展示。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种搬运内容识别方法，包括：

在待识别数据集包括图像数据的情况下，确定所述图像数据是否存在站内相同图；

在确定所述图像数据存在站内相同图的情况下，确定所述数据集标签是否为站内活动标签；

在确定所述数据集标签为站内活动标签的情况下，将所述数据集识别为正常数据集，否则确定所述图像的分类是否为人像：

在确定所述图像的分类为人像的情况下，确定所述图像的路径是否命中搬运图像路径；

在确定所述图像的路径命中搬运图像路径的情况下，将所述数据集识别为虚假人设，否则确定所述图像中的光学字符识别OCR长度是否大于10或者图像是否为动图；

在确定所述图像中的光学字符识别OCR长度大于10或者图像为动图的情况下，将所述数据集识别为豁免数据集，否则确定所述图像的召回数量是否大于第一预定阈值；

在确定所述图像的召回数量大于第一预定阈值的情况下，将所述数据集识别为豁免数据集，否则确定所述图像是否为用户的历史图；

在确定所述图像为用户的历史图的情况下，将所述数据集识别为豁免数据集，否则将所述数据集识别为虚假人设,

其中确定所述图像数据是否存在站内相同图包括：

根据尺度不变特征转换SIFT算法建立以簇心为关键字的局部特征倒排索引表和全局特征倒排索引表；

根据SIFT算法对所述图像数据进行局部特征抽取或全局特征抽取，获得局部特征描述子或者全局特征描述子，其中对所述图像数据进行局部特征抽取包括检测所述图像数据的多个稳定关键点，并对每个稳定关键点进行特征抽取；

对所述局部特征或者全局特征描述子进行乘积量化，得到量化后的短向量，其中短向量中的每一个元素是乘积量化过程中分段后的子段所属的簇心；

以短向量中的每一个元素为关键字，从局部特征倒排索引表或全局特征倒排索引表中检索包含该元素的图像标识符，召回多个簇心；

计算短向量中的每个元素与召回的对应簇心之间的相似度，去除相似度低于第二预定阈值和误匹配的簇心后，返回剩余簇心所对应的图像；

计算返回的图像与所述图像数据的相似度，确定所述图像数据是否存在站内相同图。

2.如权利要求1所述的搬运内容识别方法，还包括：

在确定所述图像的分类不为人像的情况下，确定所述图像中的光学字符识别OCR长度是否大于10或者图像是否为动图；

在确定所述图像为用户的历史图的情况下，将所述数据集识别为豁免数据集，否则确定所述图像的分类是否在类别豁免名单内：

在确定所述图像的分类在类别豁免名单内的情况下，将所述数据集识别为豁免数据集，否则确定所述图像是否为视频图像：

在确定所述图像为视频图像的情况下，将所述数据集识别为豁免数据集，否则将所述数据集识别为虚假内容。

3.如权利要求1或2所述的搬运内容识别方法，还包括：

在确定所述图像数据不存在站内相同图的情况下，确定所述图像数据是否存在站外相似图；

在确定所述图像数据存在站外相似图的情况下，将所述数据集识别为假图，否则将所述数据集识别为正常数据集。

4.如权利要求3所述的搬运内容识别方法，其中确定所述图像数据是否存在站外相似图包括：

建立与外部识图软件的接口；

构建相似图检索请求并发送到外部识图软件；

响应于从外部识图软件接收到的响应数据提取相似图像信息；

计算所述图像数据与所提取的相似图像信息的相似度，确定所述图像数据是否存在站外相似图。

5.如权利要求1或2所述的搬运内容识别方法，还包括：

在确定待识别数据集包括文本数据的情况下，确定所述文本数据是否存在站内相似文本；以及

在确定所述文本数据存在站内相似文本的情况下将所述数据集识别为虚假文本。

6.如权利要求5所述的搬运内容识别方法，其中确定所述文本数据是否存在站内相似文本包括：

将所述文本数据表示为特征向量；

计算所述文本数据的特征向量与数据库中文本的特征向量的相似度，其中所述数据库是事先建立的站内文本数据库；

在相似度大于第三预定阈值的情况下，确定所述文本数据存在站内相似文本，否则确定所述文本数据不存在站内相似文本。

7.如权利要求1或2所述的搬运内容识别方法，其中在所述数据集被识别为豁免数据集的情况下，所述方法还包括：

确定所述数据集中是否还包括其他图像数据；

在确定所述数据集中不包括其他图像数据的情况下，将所述数据集识别为正常数据集；以及

在确定所述数据集中还包括其他图像数据的情况下，迭代执行在确定所述数据集标签不为站内活动标签的情况下所执行的步骤。

8.一种搬运内容识别系统，包括被配置为执行如权利要求1-7中任一项所述的方法的单元。

9.一种电子设备，包括：

存储器；和

耦接至所述存储器的处理器，所述存储器中存储有指令，所述指令当由所述处理器执行时，使得所述电子设备执行根据权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。