CN110442803A

CN110442803A - 由计算设备执行的数据处理方法、装置、介质和计算设备

Info

Publication number: CN110442803A
Application number: CN201910738504.6A
Authority: CN
Inventors: 尚刘刚; 张华�; 丁长林
Original assignee: Netease Media Technology Beijing Co Ltd
Current assignee: Netease Media Technology Beijing Co Ltd
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2019-11-12

Abstract

本发明的实施方式提供了一种由计算设备执行的数据处理方法，包括：获取原始数据，原始数据包括至少一个文本数据；基于预定规则处理至少一个文本数据中的目标文本数据，得到第一处理结果；以及响应于第一处理结果表征目标文本数据中包括的冗余内容，基于冗余内容更新预定规则。本发明的方法通过使用预定规则识别冗余内容，实现较为准确地识别文章中的冗余内容，提高识别效率，为用户带来了更好的阅读体验。此外，本发明的实施方式提供了一种数据处理装置、一种计算机可读存储介质以及一种计算设备。

Description

由计算设备执行的数据处理方法、装置、介质和计算设备

技术领域

本发明的实施方式涉及计算机领域，更具体地，本发明的实施方式涉及一种由计算设备执行的数据处理方法、数据处理装置、计算机可读存储介质和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着电子技术的快速发展，用户能够获取的数据资源越来越多。例如，用户可以通过电子设备浏览各种文章。但是，由于为用户提供的文章通常是由机器抓取产生，因此，文章中不可避免地会出现冗余内容，冗余内容例如包括与文章内容不相关或者重复出现的内容。为了提高用户的阅读体验，相关技术通常通过分类技术将文章中的文本内容或图片内容分类为冗余内容和非冗余内容，并删除冗余内容以提高用户的阅读体验，其中，分类技术例如包括机器学习算法或者深度学习算法。

目前，已经出现一些识别冗余内容的方式。然而，在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：无论是通过机器学习算法或者深度学习算法进行分类，算法模型需要基于大量的训练数据进行训练，训练数据的构建需要付出很多的人力和时间，算法模型过于依赖训练数据，使得分类效果较差。

针对相关技术中的上述问题，目前还未提出有效的解决方案。

发明内容

现有技术无论是通过机器学习算法或者深度学习算法进行分类，算法模型需要基于大量的训练数据进行训练，训练数据的构建需要付出很多的人力和时间，算法模型过于依赖训练数据，使得分类效果较差。

因此在现有技术中，在通过分类技术将文章中的文本内容或图片内容分类为冗余内容和非冗余内容时，分类效果较差是非常令人烦恼的过程。

为此，非常需要一种改进的由计算设备执行的数据处理方法，以实现较为准确地识别文章中的冗余内容，提高识别效率，为用户带来了更好的阅读体验。

在本上下文中，本发明的实施方式期望提供一种由计算设备执行的数据处理方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种由计算设备执行的数据处理方法，包括：获取原始数据，所述原始数据包括至少一个文本数据，基于预定规则处理所述至少一个文本数据中的目标文本数据，得到第一处理结果，响应于所述第一处理结果表征所述目标文本数据中包括的冗余内容，基于所述冗余内容更新所述预定规则。

在本发明的一个实施例中，所述目标文本数据包括第一类文本数据和第二类文本数据中的至少一个，所述预定规则包括第一文本规则和第二文本规则中的至少一个；所述基于预定规则处理所述至少一个文本数据中的目标文本数据，包括以下至少一项：基于所述第一文本规则处理所述第一类文本数据，以确定所述第一类文本数据是否包括所述冗余内容，以及基于所述第二文本规则处理所述第二类文本数据，以确定所述第二类文本数据是否包括所述冗余内容。

在本发明的另一实施例中，当所述目标文本数据包括多个第一类文本数据时，所述基于所述第一文本规则处理所述第一类文本数据，以确定所述第一类文本数据是否包括所述冗余内容，包括以下至少一项：确定所述多个第一类文本数据中的任意两个第一类文本数据之间的第一相似度，并且响应于所述第一相似度大于第一预设相似度，将所述两个第一类文本数据的其中一个作为所述冗余内容，确定所述多个第一类文本数据中的每个第一类文本数据与预设文本数据之间的第二相似度，将所述第二相似度大于第二预设相似度的第一类文本数据作为所述冗余内容，以及确定所述多个第一类文本数据中的每个第一类文本数据的至少一个第一关键词是否与预设关键词相同，将至少一个第一关键词与预设关键词相同的第一类文本数据作为所述冗余内容。

在本发明的另一实施例中，当所述目标文本数据包括多个第二类文本数据时，所述基于所述第二文本规则处理所述第二类文本数据，以确定所述第二类文本数据是否包括所述冗余内容，包括：确定所述多个第二类文本数据中是否存在预设数量的特定第二类文本数据，响应于存在预设数量的特定第二类文本数据，确定所述预设数量的特定第二类文本数据中的至少一个作为所述冗余内容。

在本发明的另一实施例中，所述基于所述冗余内容更新所述预定规则，包括以下至少一项：将所述第二相似度大于第二预设相似度的第一类文本数据添加至所述预设文本数据，以及将至少一个第一关键词与预设关键词相同的第一类文本数据添加至所述预设文本数据。

在本发明的另一实施例中，所述方法还包括：获取经训练的第一分类模型，以及基于所述第一分类模型处理所述至少一个文本数据得到第二处理结果，基于所述第二处理结果确定所述至少一个文本数据中的至少部分文本数据为所述目标文本数据。

在本发明的另一实施例中，所述基于所述第一分类模型处理所述至少一个文本数据得到第二处理结果，基于所述第二处理结果确定所述至少一个文本数据中的至少部分文本数据为所述目标文本数据，包括：基于所述第一分类模型对所述至少一个文本数据进行分类，得到第一分类结果和第二分类结果，其中，所述第一分类结果包括冗余内容的概率为第一概率，所述第二分类结果包括冗余内容的概率为第二概率，所述第二概率大于所述第一概率，以及将所述第一分类结果作为所述目标文本数据。

在本发明的另一实施例中，所述第二分类结果还包括标题数据，所述标题数据包括至少一个第二关键词，所述方法还包括：获取所述第二分类结果的至少一个第三关键词，将所述至少一个第三关键词与所述至少一个第二关键词进行比较，得到比较结果，以及响应于比较结果表征至少部分所述第三关键词与至少部分所述第二关键词相同，则确定所述第二分类结果不包括冗余内容，否则确定所述第二分类结果包括冗余内容。

在本发明的另一实施例中，所述原始数据还包括至少一个图像数据，所述方法还包括：获取经训练的第二分类模型，基于所述第二分类模型处理所述至少一个图像数据，得到第三处理结果，以及响应于所述第三处理结果表征了所述至少一个图像数据中包括冗余图像，删除所述冗余图像。

在本发明实施方式的第二方面中，提供了一种数据处理装置，包括：第一获取模块、第一处理模块以及更新模块。其中，第一获取模块，获取原始数据，所述原始数据包括至少一个文本数据，第一处理模块，基于预定规则处理所述至少一个文本数据中的目标文本数据，得到第一处理结果，更新模块，响应于所述第一处理结果表征所述目标文本数据中包括的冗余内容，基于所述冗余内容更新所述预定规则。

在本发明的另一实施例中，所述装置还包括：第二获取模块以及第二处理模块。其中，第二获取模块，获取经训练的第一分类模型，第二处理模块，基于所述第一分类模型处理所述至少一个文本数据得到第二处理结果，基于所述第二处理结果确定所述至少一个文本数据中的至少部分文本数据为所述目标文本数据。

在本发明的另一实施例中，所述第二分类结果还包括标题数据，所述标题数据包括至少一个第二关键词，所述装置还包括：第三获取模块、比较模块以及确定模块。其中，第三获取模块，获取所述第二分类结果的至少一个第三关键词，比较模块，将所述至少一个第三关键词与所述至少一个第二关键词进行比较，得到比较结果，确定模块，响应于比较结果表征至少部分所述第三关键词与至少部分所述第二关键词相同，则确定所述第二分类结果不包括冗余内容，否则确定所述第二分类结果包括冗余内容。

在本发明的另一实施例中，所述原始数据还包括至少一个图像数据，所述装置还包括：第四获取模块、第三处理模块以及删除模块。其中，第四获取模块，获取经训练的第二分类模型，第三处理模块，基于所述第二分类模型处理所述至少一个图像数据，得到第三处理结果，删除模块，响应于所述第三处理结果表征了所述至少一个图像数据中包括冗余图像，删除所述冗余图像。

在本发明实施方式的第三方面中，提供了一种计算机可读存储介质，其上存储有可执行指令，所述指令被处理单元执行时使所述处理单元执行如上所述任一项所述的方法。

在本发明实施方式的第四方面中，提供了一种计算设备包括：处理单元；以及存储单元，存储有计算机可执行指令，上述指令在被处理单元执行如上所述任一项所述的方法。

该方法、装置、介质以及计算设备能够实现较为准确地识别文章中的冗余内容，提高识别效率，为用户带来了更好的阅读体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施例的数据处理方法及其装置的示例性系统架构；

图2示意性地示出了根据本发明实施例的由计算设备执行的数据处理方法的流程图；

图3示意性地示出了根据本发明另一实施例的由计算设备执行的数据处理方法的流程图；

图4示意性地示出了根据本发明实施例的用于实现数据处理的程序产品；

图5示意性地示出了根据本发明实施例的数据处理装置的框图；

图6示意性地示出了根据本发明另一实施例的数据处理装置的框图；以及

图7示意性地示出了根据本发明的这种实施方式的用于实现数据处理的计算设备。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种由计算设备执行的数据处理方法、装置、介质和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有技术中无论是通过机器学习算法或者深度学习算法进行分类，算法模型需要基于大量的训练数据进行训练，训练数据的构建需要付出很多的人力和时间，算法模型过于依赖训练数据，使得分类效果较差。另外，本发明实施例提供的由计算设备执行的数据处理方法能够实现较为准确地识别文章中的冗余内容，提高识别效率，为用户带来了更好的阅读体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

首先参考图1详细阐述本发明实施例的数据处理方法及其装置的示例性系统架构。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本发明实施例所提供的数据处理方法一般可以由服务器105执行。相应地，本发明实施例所提供的应用于终端的数据处理装置一般可以设置于服务器105中。本发明实施例所提供的数据处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本发明实施例所提供的数据处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

示例性方法

下面结合图1的系统架构，参考图2、图3来描述根据本发明示例性实施方式的由计算设备执行的数据处理的方法。需要注意的是，上述系统架构仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

图2示意性地示出了根据本发明实施例的由计算设备执行的数据处理方法的流程图。

如图2所示，该方法包括操作S210～S230。

在操作S210，获取原始数据，原始数据包括至少一个文本数据。

根据本发明实施例，至少一个文本数据例如可以包括多篇文章，每篇文章中例如包括多个段落以及多个句子等等。

在操作S220，基于预定规则处理至少一个文本数据中的目标文本数据，得到第一处理结果。

根据本发明实施例，目标文本数据例如为多篇文章中的至少一篇文章。其中，预定规则可以包括预先存储的冗余内容规则库，该规则库中包括之前识别的冗余内容。通过利用规则库处理目标文本数据，可以得到关于目标文本数据的第一处理结果。其中，目标文本数据例如包括多个段落以及多个句子，该第一处理结果例如包括多个段落中每个段落是否为冗余内容，或者多个句子中的每个句子是否为冗余内容。其中，冗余内容例如包括与文章内容不相关或者重复出现的内容，冗余内容例如可以是文章中的推广广告、广告链接、二维码等等。

在操作S230，响应于第一处理结果表征目标文本数据中包括的冗余内容，基于冗余内容更新预定规则。

在第一处理结果包括冗余内容时，可以将该冗余内容存入规则库中以便更新规则库。本发明实施例通过实时更新规则库以丰富规则库中的冗余内容，便于后续使用规则库识别冗余内容时提高规则库的识别效果。

另外，在识别出目标文本数据中的冗余内容时，可以删除该目标文本数据中的冗余内容，便于提高用户的阅读体验。

本发明实施例通过预定规则识别文本中的冗余内容，并根据识别结果实时更新预定规则，提高预定规则的识别效果。

根据本发明实施例，目标文本数据例如包括第一类文本数据和第二类文本数据中的至少一个，预定规则包括第一文本规则和第二文本规则中的至少一个。

例如，第一类文本数据可以是文章中的段落，第二类文本数据可以是文章中的句子。第一文本规则包括段落规则，第二文本规则包括句子规则。

其中，上述操作S220包括：基于第一文本规则处理第一类文本数据，以确定第一类文本数据是否包括冗余内容，或者基于第二文本规则处理第二类文本数据，以确定第二类文本数据是否包括冗余内容。

例如，可以利用段落规则处理文章中的段落，便于判断段落是否为冗余段落，或者利用句子规则处理文章中的句子，便于判断句子是否为冗余句子。

根据本发明实施例，当目标文本数据包括多个第一类文本数据时，基于第一文本规则处理第一类文本数据，以确定第一类文本数据是否包括冗余内容，即利用段落规则识别文章中的段落是否为冗余段落，包括以下至少一项：

(1)确定多个第一类文本数据中的任意两个第一类文本数据之间的第一相似度，并且响应于第一相似度大于第一预设相似度，将两个第一类文本数据的其中一个作为冗余内容。

根据本发明实施例，例如计算两个段落之间的第一相似度，如果第一相似度大于第一预设相似度，则表明两个段落之间较为相似，则可以将两个段落中后出现的段落作为冗余内容，并可以删除文章中后出现的段落，以减少文章中的冗余内容。

具体地，例如可以通过计算两个段落之间的编辑距离，当编辑距离小于0.02时，可以确定该两个段落较为相似，则将后出现的段落作为冗余段落。其中，编辑距离是针对两个字符串的差异程度的量化测量，测量方式可以是一个字符串至少需要多少次增加或删除操作才能与另一字符串完全一样。

(2)确定多个第一类文本数据中的每个第一类文本数据与预设文本数据之间的第二相似度，将第二相似度大于第二预设相似度的第一类文本数据作为冗余内容。

根据本发明实施例，预设文本数据例如可以是存储于规则库中的冗余段落。通过计算多个段落中的每个段落与预先存储的冗余段落之间的第二相似度，将第二相似度大于第二预设相似度的段落作为冗余段落，并且可以删除该冗余段落，以减少文章中的冗余内容。

(3)确定多个第一类文本数据中的每个第一类文本数据的至少一个第一关键词是否与预设关键词相同，将至少一个第一关键词与预设关键词相同的第一类文本数据作为冗余内容。

根据本发明实施例，预设关键词例如可以是预先定义的关键词，该预设关键词例如可以是与推广广告相关的关键词。如果段落中出现该预设关键词，则可以表明该段落为冗余段落。

例如，以预设关键词为“推荐”和“阅读”举例，如果段落中出现第一关键词为“推荐”和“阅读”时，则表明该段落为推广广告，即，该段落为冗余段落。

另外，在判断段落中的关键词是否与预设关键词相同时，可以考虑多个预设关键词的顺序。例如，只有在段落中的多个关键词出现的顺序与预设关键词的顺序一样时，才表明该段落为冗余段落；如果段落中的多个关键词与预设关键词一样，但是段落中的多个关键词出现的顺序与预设关键词的顺序不一样时，表明该段落为非冗余段落。例如，当多个预设关键词为“推荐”和“阅读”时，该多个预设关键词的顺序为：首先是“推荐”，然后是“阅读”。当段落中依次出现“推荐”和“阅读”时，由于多个关键词出现的顺序与预设关键词的顺序一样，表明该段落为冗余段落。当段落中依次出现“阅读”和“推荐”时，由于多个关键词出现的顺序与预设关键词的顺序不一样，表明该段落不是冗余段落。

其中，上述操作S230包括：将第二相似度大于第二预设相似度的第一类文本数据添加至预设文本数据，以及将至少一个第一关键词与预设关键词相同的第一类文本数据添加至预设文本数据。

即，基于冗余内容更新预定规则包括：将第二相似度大于第二预设相似度的段落添加至预设文本数据，以及将段落中的第一关键词与预设关键词相同的段落添加至预设文本数据。

在本发明实施例中，当目标文本数据包括多个第二类文本数据时，基于第二文本规则处理第二类文本数据，以确定第二类文本数据是否包括冗余内容。即，利用句子规则识别文章中的句子是否为冗余句子，包括：确定多个第二类文本数据中是否存在预设数量的特定第二类文本数据，响应于存在预设数量的特定第二类文本数据，确定预设数量的特定第二类文本数据中的至少一个作为冗余内容。

根据本发明实施例，如果文章中包括预设数量个相同句子时，该预设数量个句子中包括冗余句子。例如，预设数量例如为3，如果一个句子在文章中重复出现3次，则该重复出现的句子包括冗余句子，可以将重复出现的句子中出现第2次和第3次的句子作为冗余句子，并删除出现第2次和第3次的句子。

在本发明实施例中，基于冗余内容更新预定规则还可以包括：当存在预设数量的特定第二类文本数据时，可以将特定第二类文本数据中的冗余内容添加至规则库中，例如可以将冗余句子添加至规则库中，以便不断更新句子规则。

根据本发明实施例，预定规则的更新方式还可以包括人工增加冗余内容的方式。例如，可以通过人工实时筛选出冗余的段落或句子，并将所筛选的冗余段落或冗余句子添加至规则库中，便于实时更新段落规则或句子规则。本发明实施例通过不断丰富规则库中的冗余内容，实现规则库在后续冗余识别过程中达到快速准确识别的效果。

图3示意性地示出了根据本发明另一实施例的由计算设备执行的数据处理方法的流程图。

如图3所示，该方法包括操作S210～S230以及操作S310～S320。其中，操作S210～S230与上参考图2描述的操作相同或类似，在此不再赘述。

在操作S310，获取经训练的第一分类模型。

根据本发明实施例，第一分类模型例如可以是SVM(Support Vector Machine)分类模型。

在操作S320，基于第一分类模型处理至少一个文本数据得到第二处理结果，基于第二处理结果确定至少一个文本数据中的至少部分文本数据为目标文本数据。

根据本发明实施例，操作S320可以在操作S220之前执行。其中，通过第一分类模型处理至少一个文本数据，以识别出至少一个文本数据中的目标文本数据。

具体地，操作S320包括：基于第一分类模型对至少一个文本数据进行分类，得到第一分类结果和第二分类结果，其中，第一分类结果包括冗余内容的概率为第一概率，第二分类结果包括冗余内容的概率为第二概率，第二概率大于第一概率，以及将第一分类结果作为目标文本数据。

例如，通过第一分类模型对至少一个文本数据进行分类得到第一分类结果和第二分类结果，其中，第一分类结果例如为经第一分类模型识别的非冗余内容，为了避免第一分类模型误判导致错漏文章中的冗余内容，可以将第一分类结果作为目标文本数据，并使用预定规则继续进行对第一分类结果进行冗余识别。

另外，第二分类结果例如为经第一分类模型识别的冗余内容，该第二分类结果还包括标题数据，标题数据包括至少一个第二关键词。为了确保第二分类结果的准确性，可以对第二分类结果进行冗余校验。

具体地，对第二分类结果进行冗余校验包括：通过获取第二分类结果的至少一个第三关键词，并将至少一个第三关键词与至少一个第二关键词进行比较，得到比较结果，如果响应于比较结果表征至少部分第三关键词与至少部分第二关键词相同，则确定第二分类结果不包括冗余内容，否则确定第二分类结果包括冗余内容。

换言之，第二分类结果中的第三关键词例如为文章的段落或句子中的多个关键词，如果第三关键词与第二关键词有交集，则表示文章中段落或句子与文章标题相关联，表示第一分类模型识别的第二分类结果为误判结果，即，该第二分类结果中的段落或句子为非冗余内容。

如果第三关键词与第二关键词没有交集，则表示文章中段落或句子与文章标题无关联，表示第一分类模型识别的第二分类结果为正确结果，即，该第二分类结果中的段落或句子为冗余内容。

其中，以第一分类模型为SVM分类模型举例，以下描述SVM分类模型的训练过程。

首先，获取多个样本数据，多个样本数据的每个样本数据包括样本标签，其中，样本标签用于表征样本数据是否包括冗余内容。

在本发明实施例中，多个样本数据例如可以是文章的多个段落或者多个句子，每个样本数据包括样本标签，样本标签例如可以为“冗余”或者“非冗余”。

其次，获取多个样本数据中每个样本数据的特征向量，并基于每个样本数据的特征向量以及每个样本数据的样本标签训练第一分类模型。

其中，获取多个样本数据中每个样本数据的特征向量，包括：获取每个样本数据的至少一个第四关键词，得到多个样本数据的第四关键词集合，基于第四关键词集合中的每个关键词在每个样本数据中的权重，得到每个样本数据的特征向量。

例如，以两个样本数据举例，第一样本数据包括关键词A和关键词B，第二样本数据包括关键词C和关键词D。其中，关键词A、关键词B、关键词C、关键词D组成第四关键词集合。其中，第一样本数据的特征向量为[a₁，b₁，c₁，d₁]，a₁表示关键词A在第一样本数据中的权重，b₁表示关键词B在第一样本数据中的权重，c₁表示关键词C在第一样本数据中的权重，d₁表示关键词D在第一样本数据中的权重。第二样本数据的特征向量为[a₂，b₂，c₂，d₂]，a₂表示关键词A在第二样本数据中的权重，b₂表示关键词B在第二样本数据中的权重，c₂表示关键词C在第二样本数据中的权重，d₂表示关键词D在第二样本数据中的权重。

本发明实施例通过将预定规则以及分类模型结合使用，例如首先通过第一分类模型初步识别出非冗余内容，再通过预定规则进一步识别来自第一分类模型的非冗余内容，避免第一分类模型误判导致错漏文章中的冗余内容，提高了冗余内容的识别准确性。并且通过预定规则进一步识别来自第一分类模型的非冗余内容，可以避免冗余识别过程过于依赖第一分类模型，以此提高了识别效果。

根据本发明实施例，由于用于训练分类模型的样本数据是过去的数据，因此，如果在实践中出现新类型的冗余内容，则分类模型对新类型的冗余内容的识别能力不足，需要不断更换分类模型，以提高分类模型对新类型的冗余内容的识别能力，但是频繁更换分类模型的成本较高。

因此，可以通过实时更新预定规则的方式提高对新类型的冗余内容的识别效果。具体地，可以通过将新类型的冗余内容实时添加至规则库中，以不断丰富规则库中的冗余内容的类型。由于预定规则是实时更新的，因此预定规则中可以包括新类型的冗余内容，通过将预定规则以及分类模型结合使用，不需要频繁更换分类模型，提高了对新类型的冗余内容的识别能力，提高了冗余识别的效率，保证冗余识别的准确性。

根据本发明实施例，原始数据还包括至少一个图像数据，可以通过图像识别算法识别出文章中的冗余图像。其中，图像识别算法例如包括第二分类模型，该第二分类模型可以是卷积神经网络模型。

在本发明实施例中，通过获取经训练的第二分类模型，并基于第二分类模型处理至少一个图像数据，得到第三处理结果，最后响应于第三处理结果表征了至少一个图像数据中包括冗余图像，删除冗余图像。

具体地，可以通过获取多个图像样本数据，每个图像样本数据具有样本标签，样本标签例如可以为“冗余”或者“非冗余”。其次，将每个图像样本数据利用特征向量进行表示，并基于特征向量训练得到第二分类模型。通过该第二分类模型可以识别文章中的冗余图像，例如可以识别出冗余图像在文章中的位置，以便删除相应位置中的冗余图像。

示例性介质

在介绍了本发明示例性实施方式的方法之后，接下来，参考图4对本发明示例性实施方式的一种计算机可读存储介质进行介绍。计算机可读存储介质存储有计算机可执行指令，上述指令在被处理单元执行时用于实现上述方法实施例中任一项所述的数据处理方法。

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算设备上运行时，所述程序代码用于使所述计算设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤，例如，所述计算设备可以执行如图2中所示的操作S210：获取原始数据，所述原始数据包括至少一个文本数据；操作S220：基于预定规则处理所述至少一个文本数据中的目标文本数据，得到第一处理结果；操作S230：响应于所述第一处理结果表征所述目标文本数据中包括的冗余内容，基于所述冗余内容更新所述预定规则。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图4所示，描述了根据本发明的实施方式的用于实现数据处理的程序产品40，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在计算设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆，RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言——诸如Java，C++等，还包括常规的过程式程序设计语言——诸如“C”，语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图5和图6对本发明示例性实施方式的数据处理装置进行介绍。

图5示意性地示出了根据本发明实施例的数据处理装置的框图。

如图5所示，数据处理装置500可以包括第一获取模块510、第一处理模块520以及更新模块530。

第一获取模块510，例如执行上文参考图2描述的操作S210，获取原始数据，原始数据包括至少一个文本数据。

第一处理模块520，例如执行上文参考图2描述的操作S220，基于预定规则处理至少一个文本数据中的目标文本数据，得到第一处理结果。

更新模块530，例如执行上文参考图2描述的操作S230，响应于第一处理结果表征目标文本数据中包括的冗余内容，基于冗余内容更新预定规则。

在本发明的一个实施例中，目标文本数据包括第一类文本数据和第二类文本数据中的至少一个，预定规则包括第一文本规则和第二文本规则中的至少一个；基于预定规则处理至少一个文本数据中的目标文本数据，包括以下至少一项：基于第一文本规则处理第一类文本数据，以确定第一类文本数据是否包括冗余内容，以及基于第二文本规则处理第二类文本数据，以确定第二类文本数据是否包括冗余内容。

在本发明的另一实施例中，当目标文本数据包括多个第一类文本数据时，基于第一文本规则处理第一类文本数据，以确定第一类文本数据是否包括冗余内容，包括以下至少一项：确定多个第一类文本数据中的任意两个第一类文本数据之间的第一相似度，并且响应于第一相似度大于第一预设相似度，将两个第一类文本数据的其中一个作为冗余内容，确定多个第一类文本数据中的每个第一类文本数据与预设文本数据之间的第二相似度，将第二相似度大于第二预设相似度的第一类文本数据作为冗余内容，以及确定多个第一类文本数据中的每个第一类文本数据的至少一个第一关键词是否与预设关键词相同，将至少一个第一关键词与预设关键词相同的第一类文本数据作为冗余内容。

在本发明的另一实施例中，当目标文本数据包括多个第二类文本数据时，基于第二文本规则处理第二类文本数据，以确定第二类文本数据是否包括冗余内容，包括：确定多个第二类文本数据中是否存在预设数量的特定第二类文本数据，响应于存在预设数量的特定第二类文本数据，确定预设数量的特定第二类文本数据中的至少一个作为冗余内容。

在本发明的另一实施例中，基于冗余内容更新预定规则，包括以下至少一项：将第二相似度大于第二预设相似度的第一类文本数据添加至预设文本数据，以及将至少一个第一关键词与预设关键词相同的第一类文本数据添加至预设文本数据。

图6示意性地示出了根据本发明另一实施例的数据处理装置的框图。

如图6所示，数据处理装置600可以包括第一获取模块510、第一处理模块520、更新模块530、第二获取模块610以及第二处理模块620。其中，第一获取模块510、第一处理模块520以及更新模块530与上参考图5描述的模块相同或类似，在此不再赘述。

第二获取模块610，例如执行上文参考图3描述的操作S310，获取经训练的第一分类模型。

第二处理模块620，例如执行上文参考图3描述的操作S320，基于第一分类模型处理至少一个文本数据得到第二处理结果，基于第二处理结果确定至少一个文本数据中的至少部分文本数据为目标文本数据。

在本发明的另一实施例中，基于第一分类模型处理至少一个文本数据得到第二处理结果，基于第二处理结果确定至少一个文本数据中的至少部分文本数据为目标文本数据，包括：基于第一分类模型对至少一个文本数据进行分类，得到第一分类结果和第二分类结果，其中，第一分类结果包括冗余内容的概率为第一概率，第二分类结果包括冗余内容的概率为第二概率，第二概率大于第一概率，以及将第一分类结果作为目标文本数据。

在本发明的另一实施例中，第二分类结果还包括标题数据，标题数据包括至少一个第二关键词，装置还包括：第三获取模块、比较模块以及确定模块。其中，第三获取模块，获取第二分类结果的至少一个第三关键词，比较模块，将至少一个第三关键词与至少一个第二关键词进行比较，得到比较结果，确定模块，响应于比较结果表征至少部分第三关键词与至少部分第二关键词相同，则确定第二分类结果不包括冗余内容，否则确定第二分类结果包括冗余内容。

在本发明的另一实施例中，原始数据还包括至少一个图像数据，装置还包括：第四获取模块、第三处理模块以及删除模块。其中，第四获取模块，获取经训练的第二分类模型，第三处理模块，基于第二分类模型处理至少一个图像数据，得到第三处理结果，删除模块，响应于第三处理结果表征了至少一个图像数据中包括冗余图像，删除冗余图像。

由于发明的示例实施例的数据处理装置500、600的各个功能模块与上述数据处理方法的示例实施例的步骤对应，因此在此不再赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图7对本发明示例性实施方式的一种计算设备，用于实现本发明的数据处理方法。

本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解，本发明的各个方面可以实现为装置、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的数据处理方法中的步骤。例如，所述处理单元可以执行如图2中所示的操作S210：获取原始数据，所述原始数据包括至少一个文本数据；操作S220：基于预定规则处理所述至少一个文本数据中的目标文本数据，得到第一处理结果；操作S230：响应于所述第一处理结果表征所述目标文本数据中包括的冗余内容，基于所述冗余内容更新所述预定规则。

下面参照图7来描述根据本发明的这种实施方式的用于实现数据处理的计算设备70。如图7所示的计算设备70仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图7所示，计算设备70以通用计算设备的形式表现。计算设备70的组件可以包括但不限于：上述至少一个处理单元701、上述至少一个存储单元702、连接不同系统组件(包括存储单元702和处理单元701)的总线703。

总线703表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元702可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)7021和/或高速缓存存储器7022，还可以进一步包括只读存储器(ROM)7023。

存储单元702还可以包括具有一组(至少一个)程序模块7024的程序/实用工具7025，这样的程序模块7024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备70也可以与一个或多个外部设备704(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与计算设备70交互的设备通信，和/或与使得计算设备70能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/0)接口705进行。并且，计算设备70还可以通过网络适配器706与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器706通过总线703与计算设备70的其它模块通信。应当明白，尽管图中未示出，可以结合计算设备70使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种由计算设备执行的数据处理方法，包括：

获取原始数据，所述原始数据包括至少一个文本数据；

基于预定规则处理所述至少一个文本数据中的目标文本数据，得到第一处理结果；以及

响应于所述第一处理结果表征所述目标文本数据中包括的冗余内容，基于所述冗余内容更新所述预定规则。

2.根据权利要求1所述的方法，其中，所述目标文本数据包括第一类文本数据和第二类文本数据中的至少一个，所述预定规则包括第一文本规则和第二文本规则中的至少一个；所述基于预定规则处理所述至少一个文本数据中的目标文本数据，包括以下至少一项：

基于所述第一文本规则处理所述第一类文本数据，以确定所述第一类文本数据是否包括所述冗余内容；以及

基于所述第二文本规则处理所述第二类文本数据，以确定所述第二类文本数据是否包括所述冗余内容。

3.根据权利要求2所述的方法，其中，当所述目标文本数据包括多个第一类文本数据时，所述基于所述第一文本规则处理所述第一类文本数据，以确定所述第一类文本数据是否包括所述冗余内容，包括以下至少一项：

确定所述多个第一类文本数据中的任意两个第一类文本数据之间的第一相似度，并且响应于所述第一相似度大于第一预设相似度，将所述两个第一类文本数据的其中一个作为所述冗余内容；

确定所述多个第一类文本数据中的每个第一类文本数据与预设文本数据之间的第二相似度，将所述第二相似度大于第二预设相似度的第一类文本数据作为所述冗余内容；以及

确定所述多个第一类文本数据中的每个第一类文本数据的至少一个第一关键词是否与预设关键词相同，将至少一个第一关键词与预设关键词相同的第一类文本数据作为所述冗余内容。

4.根据权利要求2所述的方法，其中，当所述目标文本数据包括多个第二类文本数据时，所述基于所述第二文本规则处理所述第二类文本数据，以确定所述第二类文本数据是否包括所述冗余内容，包括：

确定所述多个第二类文本数据中是否存在预设数量的特定第二类文本数据；

响应于存在预设数量的特定第二类文本数据，确定所述预设数量的特定第二类文本数据中的至少一个作为所述冗余内容。

5.根据权利要求3所述的方法，其中，所述基于所述冗余内容更新所述预定规则，包括以下至少一项：

将所述第二相似度大于第二预设相似度的第一类文本数据添加至所述预设文本数据；以及

将至少一个第一关键词与预设关键词相同的第一类文本数据添加至所述预设文本数据。

6.根据权利要求1所述的方法，还包括：

获取经训练的第一分类模型；以及

基于所述第一分类模型处理所述至少一个文本数据得到第二处理结果，基于所述第二处理结果确定所述至少一个文本数据中的至少部分文本数据为所述目标文本数据。

7.根据权利要求6所述的方法，其中，所述基于所述第一分类模型处理所述至少一个文本数据得到第二处理结果，基于所述第二处理结果确定所述至少一个文本数据中的至少部分文本数据为所述目标文本数据，包括：

基于所述第一分类模型对所述至少一个文本数据进行分类，得到第一分类结果和第二分类结果，其中，所述第一分类结果包括冗余内容的概率为第一概率，所述第二分类结果包括冗余内容的概率为第二概率，所述第二概率大于所述第一概率；以及

将所述第一分类结果作为所述目标文本数据。

8.一种数据处理装置，包括：

第一获取模块，获取原始数据，所述原始数据包括至少一个文本数据；

第一处理模块，基于预定规则处理所述至少一个文本数据中的目标文本数据，得到第一处理结果；以及

更新模块，响应于所述第一处理结果表征所述目标文本数据中包括的冗余内容，基于所述冗余内容更新所述预定规则。

9.一种计算机可读存储介质，其上存储有可执行指令，所述指令被处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。

10.一种计算设备，包括：

处理单元；以及

存储单元，其上存储有可执行指令，所述指令被所述处理单元执行时使所述处理单元执行根据权利要求1-7中任一项所述的方法。