CN111027282A

CN111027282A - 文本去重方法和装置、电子设备及计算机可读存储介质

Info

Publication number: CN111027282A
Application number: CN201911147667.3A
Authority: CN
Inventors: 于广泽
Original assignee: Admaster Technology Beijing Co ltd
Current assignee: Beijing second hand Artificial Intelligence Technology Co.,Ltd.
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-17

Abstract

本申请实施例提供的文本去重方法和装置、电子设备及计算机可读存储介质，涉及文本去重技术领域。在本申请实施例中，首先，对获取的各文本数据进行排序处理。其次，针对进行排序处理后的每个文本数据分别进行拆分处理，得到与每个文本数据分别对应的文本集合。然后，对相邻的文本集合进行相似度比较并进行去重处理。通过上述方法，可以提高文本去重的效率。

Description

文本去重方法和装置、电子设备及计算机可读存储介质

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种文本去重方法和装置、电子设备及计算机可读存储介质。

背景技术

从微博、微信、论坛等社交媒体中抓取的信息往往包含大量的重复文本，例如转发、回复等操作都会产生大量的重复文本。每天社交媒体中会产生数以亿计的数据，大量的重复信息混杂其中，给数据分析与数据挖掘带来了巨大的挑战，快速高效地合并大量的重复文本在数据处理中显得尤为重要。

传统比较两个文本相似性的方法，大多是将文本分词之后，转化为特征向量距离的度量，比如常见的欧氏距离、海明距离或者余弦角度等等。也有很多方法利用局部敏感哈希方法，避免去重过程中的两两比较运算以提高效率，如Simhash算法。其中，Simhash算法基于文档中包含的词汇生成文档的特征向量，而后通过局部敏感哈希方法将一篇文档转换成一个64位的哈希值，最后通过比较哈希值来进行文本去重。

但是，经发明人研究发现，在现有技术中，文本去重的计算步骤复杂，需要较大的计算量且计算时间长，从而存在着文本去重的效率低的问题。

发明内容

有鉴于此，本申请的目的在于提供一种文本去重方法和装置、电子设备及计算机可读存储介质，以改善现有技术中存在的问题。

为实现上述目的，本申请实施例采用如下技术方案：

一种文本去重方法，包括：

对获取的各文本数据进行排序处理；

针对进行排序处理后的每个文本数据分别进行拆分处理，得到与每个文本数据分别对应的文本集合；

对相邻的文本集合进行相似度比较并进行去重处理。

在本申请实施例较佳的选择中，所述对相邻的文本集合进行相似度比较并进行去重处理的步骤，包括：

针对每一个文本集合，计算该文本集合与相邻文本集合的相似度；

根据该文本集合与相邻文本集合的相似度进行去重处理。

在本申请实施例较佳的选择中，所述根据该文本集合与相邻文本集合的相似度进行去重处理的步骤，包括：

判断该文本集合与相邻文本集合的相似度是否大于相似度阈值；

若该文本集合与相邻文本集合的相似度大于相似度阈值，则去除该文本集合。

在本申请实施例较佳的选择中，所述文本去重方法还包括：

若该文本集合与相邻文本集合的相似度小于相似度阈值，则保留该文本集合与相邻文本集合。

在本申请实施例较佳的选择中，所述针对进行排序处理后的每个文本数据分别进行拆分处理，得到与每个文本数据分别对应的文本集合的步骤，包括：

针对进行排序处理后的每一个文本数据，对该文本数据包括的字符进行拆分处理，得到与该文本数据对应的、包括至少一个字符的文本集合。

在本申请实施例较佳的选择中，所述对获取的各文本数据进行排序处理的步骤，包括：

获取各文本数据的各排序字符；

按照预设规则对获取的各排序字符进行排序处理，得到各排序字符的顺序表，根据所述顺序表对各排序字符对应的各文本数据进行排序处理。

在本申请实施例较佳的选择中，所述方法还包括获取各文本数据的步骤，该步骤包括：

获取待处理的多个原始数据；

对所述多个原始数据进行数据清洗处理，得到对应的多个文本数据。

本申请实施例还提供了一种文本去重装置，包括：

排序处理模块，用于对获取的各文本数据进行排序处理；

拆分处理模块，用于针对进行排序处理后的每个文本数据分别进行拆分处理，得到与每个文本数据分别对应的文本集合；

去重处理模块，用于对相邻的文本集合进行相似度比较并进行去重处理。

本申请实施例还提供了一种电子设备，包括存储器和处理器，所述处理器用于执行所述存储器中存储的可执行的计算机程序，以实现上述的文本去重方法。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现上述文本去重方法的步骤。

本申请实施例提供的文本去重方法和装置、电子设备及计算机可读存储介质，通过对文本数据进行排序处理之后再进行去重处理，只需要对相邻的文本进行相似度比较即可实现文本去重，避免了现有技术中计算步骤复杂，所导致的需要较大的计算量且计算时间长的问题，提高了文本去重效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备的结构框图。

图2为本申请实施例提供的文本去重方法的流程示意图。

图3为本申请实施例提供的步骤S130的流程示意图。

图4为本申请实施例提供的步骤S132的流程示意图。

图5为本申请实施例提供的文本去重装置的结构框图。

图标：10-电子设备；12-存储器；14-处理器；100-文本去重装置；110-排序处理模块；120-拆分处理模块；130-去重处理模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

如图1所示，本申请实施例提供了一种电子设备10。其中，所述电子设备10可以包括存储器12、处理器14和文本去重装置100。

详细地，所述存储器12和处理器14之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述文本去重装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序，例如，所述文本去重装置100所包括的软件功能模块及计算机程序等，以实现文本去重方法。

其中，所述存储器12可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

所述处理器14可能是一种集成电路芯片，具有信号的处理能力。上述的处理器14可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)、片上系统(System on Chip，SoC)等。

可以理解，图1所示的结构仅为示意，所述电子设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

结合图2，本申请实施例还提供一种可应用于上述电子设备10的文本去重方法。其中，所述文本去重方法有关的流程所定义的方法步骤可以由所述电子设备10实现，下面将对图2所示的具体流程进行详细阐述。

步骤S110，对获取的各文本数据进行排序处理。

在本申请实施例中，在获取到各文本数据之后，可以对各文本数据进行排序处理。

步骤S120，针对进行排序处理后的每个文本数据分别进行拆分处理，得到与每个文本数据分别对应的文本集合。

在本申请实施例中，通过步骤S110对各文本数据进行排序之后，可以对进行排序处理后的每个文本数据进行拆分处理，得到与每个文本数据对应的文本集合。

步骤S130，对相邻的文本集合进行相似度比较并进行去重处理。

在本申请实施例中，通过步骤S120得到与每个文本数据对应的文本集合之后，可以对相邻的文本集合进行相似度比较并进行去重处理。

通过上述方法，通过对文本数据进行排序处理之后再进行去重处理，只需要对相邻的文本进行相似度比较即可实现文本去重，避免了现有技术中计算步骤复杂，所导致的需要较大的计算量且计算时间长的问题，提高了文本去重效率。

首先，在步骤S110之前，所述文本去重方法还包括获取各文本数据的步骤。可选地，获取各文本数据的具体方式不受限制，可以根据实际应用需求进行设置。

例如，在一种可以替代的示例中，该步骤可以包括以下子步骤：

首先，获取待处理的多个原始数据。其次，对所述多个原始数据进行数据清洗处理，得到对应的多个文本数据。

需要说明的是，所述待处理的原始数据可能包括一些特定无意义字符与规则文本，所以需要对所述待处理的原始数据进行数据清洗处理，以去除特定无意义字符与规则文本，得到对应的多个文本数据。

例如，在一种可以替代的示例中，结合表1，所述待处理的原始数据可以是从微博中抓取的多条微博信息，每一条微博信息可以包括该条微博的网址信息、该条微博对应的话题信息、该条微博的正文和该条微博对应的商品链接，可以对所述微博信息进行数据清洗处理，去除所述网址信息、话题信息和商品链接，得到微博的正文，即为需要的文本数据。

表1待处理的原始数据

详细地，如表1所示，待处理的原始数据包括4条微博信息，分别为微博信息1、微博信息2、微博信息3和微博信息4。其中，微博信息1包括网址信息“http://weibo.com/5301203203/I29Ff61Ba”、微博正文“鲜亮焕采，细致泡泡具有超强吸附力，吸走脸部垃圾，对肌肤进行深层清洁，牛奶精华的提亮效果，温和提亮肤色，由内而外亮白肌肤。50g/支”和商品链接“http://t.cn/AiHtZu8J”，可以对微博信息1进行数据清洗处理处理，去除所述网址信息和商品链接，得到微博信息1的微博正文。

微博信息2包括网址信息“http://weibo.com/2610903621/I1iO4iDDo”、话题信息“#大容量精华##精华护肤水##小仙女必备款#”和微博正文“大家都知道韩斯清的畅销产品之一是什么吗？就是韩斯清玻尿酸精华爽肤水保湿平衡修复祛痘神仙水”，可以对微博信息2进行数据清洗处理，去除所示为网址信息和话题信息，得到微博信息2的微博正文。

微博信息3包括网址信息“http://weibo.com/7215931448/I1TBey4TC”、微博正文“鲜亮焕采，细致泡泡具有超强吸附力，吸走脸部垃圾，对肌肤进行深层清洁，牛奶精华的提亮效果，温和提亮肤色，由内而外亮白肌肤。50g/支”和商品链接“http://t.cn/AiHvlq7n”，可以对微博信息3进行数据清洗处理，去除所述网址信息和商品链接，得到微博信息3的微博正文。

微博信息4包括网址信息“http://weibo.com/5661957013/I1FJ6eag2”、话题信息“#大容量精华##精华护肤水##小仙女必备款#”和微博正文“大家都知道韩斯清的畅销产品之一是什么吗？就是韩斯清玻尿酸精华爽肤水保湿平衡修复祛痘神仙水”，可以对微博信息4进行数据清洗处理，去除所述网址信息和话题信息，得到微博信息4的微博正文。

结合表2，在对上述的4条微博信息进行数据清洗处理之后，可以得到4条微博正文，也即多个文本数据。

表2文本数据

对于步骤S110，需要说明的是，对获取的各文本数据进行排序处理的具体方式不受限制，可以根据实际应用需求进行设置。

例如，在一种可以替代的示例中，步骤S110可以包括以下子步骤：

首先，获取各文本数据的各排序字符。其次，按照预设规则对获取的各排序字符进行排序处理，得到各排序字符的顺序表，根据所述顺序表对各排序字符对应的各文本数据进行排序处理。

详细地，各文本数据的各排序字符可以指的是各文本数据的首字符，例如，文本数据1为“鲜亮焕采，细致泡泡具有超强吸附力，吸走脸部垃圾，对肌肤进2行深层清洁，牛奶精华的提亮效果，温和提亮肤色，由内而外亮白肌肤。50g/支”，排序字符为“鲜”。文本数据2为“大家都知道韩斯清的畅销产品之一是什么吗？就是韩斯清玻尿酸精华爽肤水保湿平衡修复祛痘神仙水”，排序字符为“大”。文本数据3为“鲜亮焕采，细致泡泡具有超强吸附力，吸走脸部垃圾，对肌肤进行深层清洁，牛奶精华的提亮效果，温和提亮肤色，由内而外亮白肌肤。50g/支”，排序字符为“鲜”。文本数据4为“大家都知道韩斯清的畅销产品之一是什么吗？就是韩斯清玻尿酸精华爽肤水保湿平衡修复祛痘神仙水”，排序字符为“大”。也就是说，可以根据各排序字符“鲜”、“大”、“鲜”和“大”对文本数据1、文本数据2、文本数据3和文本数据4进行排序。

其中，在所述各文本数据的首字符存在相同字符时，可以依次将各文本数据的首字符的下一字符作为排序字符。例如，在所述各文本数据的首字符存在相同字符时，各文本数据的第二个字符不同时，可以对各文本数据的第二个字符进行排序处理，得到所述顺序表。

可选地，所述预设规则的具体种类不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，所述预设规则可以是UCA排序算法。

需要说明的是，统一码归类算法(Unicode Collation Algorithm，UCA)是对整个Unicode字符集进行排序的一种算法。它提供语言方面的正确比较、排序和大小写转换。UCA作为Unicode标准的一部分开发，使用Unicode的国际组件(ICU)开放源代码库(由IBM开发并维护)来实现UCA。采用缺省的UCA排序可按适当的顺序对大多数语言中的大多数字符进行排序。但是，由于在共享字符的各种语言之间，在排序和比较方面存在诸多变化，UCA无法为所有语言提供正确的排序。UCA以空间和时间上的小小代价提供了高级的比较、排序和大小写转换。

我们知道计算机是不能直接处理文本的，而是和数字打交道。因此，为了表示文本，就建立了一个字符到数字的映射表，叫做编码。最著名的字符编码就是ASCII了，它使用7-bit来表示应用字母表以及数字和其他字符。这对于英语来说是够用了，但是对于其他语言，这个7-bit就不能满足条件了，因为字符远远超过了7-bit所能表示的最大个数。因此1987年，来自几个大的科技公司的工程师开始合作开发一种致力于能在全世界的所有书写系统中都能通用的字符编码系统，并与1991年10发布了Unicode的1.0.0标准，2018年6月发布了Unicode的11.0版本。对字符串排序的过程就是Collation，UCA就是Unicode表示的字符串进行排序的规则，制定这个规则的原因是不同语种对字符串的排序规则要求是不一样的，比如，德国、法国和瑞士对相同的字符排序的规则是不一样的，甚至在同一个语言下比如中文，多音字这种在不同组合里，排序的先后顺序也是不一样的。

其中，中文字符默认采用的排序是pinyin排序，首先按照pinyin声调的先后顺序进行排序，如果是在同一行的汉字，则按照笔画由少到多的顺序进行排序。如果还不能区分大小，就按照kRSUnicode(偏旁索引的方式，按照康熙字典的定义)的先后顺序进行排序。假如我们指定UCA的区域为zh_CN，则对于字符串中出现的中文则排在其他语言字符串前面。其他script charater则按照allkeys_CLDR.txt的顺序进行进行排序。值得注意的是，中文由于多音字，在这里不一定能够完全按照我们的习惯排序正确，比如“重逢(chong feng)”就没有第一个拼音chong去排，而是按照zhong来排列的。

例如，若待排序的字符为“一生一世”、“爱你”、“上”、“重要”、“产”、“艾你”和“重逢”，通过UCA排序算法进行排序处理之后，各字符的排序为“艾你”、“爱你”、“产”、“上”、“一生一世”、“重逢”和“重要”。

又例如，在一种可以替代的示例中，待处理的首字符分别为“鲜”、“大”、“鲜”和“大”，通过UCA排序算法对各首字符进行排序处理之后，可以得到各首字符的顺序表为“大”、“大”、“鲜”和“鲜”。结合表3，根据所述顺序表对各首字符对应的各文本数据进行排序处理，得到进行排序处理后的多个文本数据。

表3进行排序处理后的多个文本数据

对于步骤S120，需要说明的是，对每个文本数据分别进行拆分处理的具体方式不受限制，可以根据实际应用需求进行设置。

例如，在一种可以替代的示例中，步骤S120可以包括以下子步骤：

也就是说，对文本数据进行以字符为单位的拆分，不需要进行现有技术中的分词处理的步骤，提高文本去重的效率。结合表4，对进行排序处理后的多个文本数据进行字符拆分处理之后，得到多个文本集合。

表4多个文本集合

对于步骤S130，需要说明的是，对相邻的文本集合进行相似度比较并进行去重处理的具体方式不受限制，可以根据实际应用需求进行设置。

例如，在一种可以替代的示例中，结合图3，步骤S130可以包括步骤S131和步骤S132。

步骤S131，针对每一个文本集合，计算该文本集合与相邻文本集合的相似度。

步骤S132，根据该文本集合与相邻文本集合的相似度进行去重处理。

其中，所述相邻文本集合可以指的是该文本集合在所述顺序表上的下一文本集合。

可选地，根据该文本集合与相邻文本集合的相似度进行去重处理的具体方式不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，结合图4，步骤S132可以包括步骤S1321和步骤S1322。

步骤S1321，判断该文本集合与相邻文本集合的相似度是否大于相似度阈值。

步骤S1322，若该文本集合与相邻文本集合的相似度大于相似度阈值，则去除该文本集合。

对于步骤S1321，需要说明的是，所述相似度阈值的具体大小不受限制，可以根据实际应用需求进行设置。例如，在一种可以替代的示例中，所述相似度阈值可以为0.75。

对于文本集合2来说，计算得到文本集合2和相邻的文本集合4的相似度为1，超过相似度阈值0.75，去除文本集合2，保留文本集合4。

进一步地，在文本集合与相邻文本集合的相似度小于相似度阈值时，所述文本去重方法还可以包括以下子步骤：

详细地，对于文本集合4来说，文本集合4和相邻的文本集合1的交集为{'华'，'清'，'的'，'精'，'肤'}，交集的长度为5。文本集合4和文本集合1的并集为{”，'/'，'0'，'5'，'g'，'。'，'一'，'么'，'之'，'产'，'亮'，'什'，'仙'，'保'，'修'，'具'，'内'，'力'，'华'，'吗'，'吸'，'和'，'品'，'圾'，'垃'，'复'，'外'，'大'，'奶'，'家'，'对'，'就'，'尿'，'层'，'平'，'强'，'提'，'支'，'效'，'斯'，'是'，'有'，'果'，'水'，'泡'，'洁'，'深'，'清'，'温'，'湿'，'焕'，'爽'，'牛'，'玻'，'由'，'畅'，'痘'，'白'，'的'，'知'，'祛'，'神'，'精'，'细'，'而'，'肌'，'肤'，'脸'，'致'，'色'，'行'，'衡'，'走'，'超'，'进'，'道'，'部'，'都'，'酸'，'采'，'销'，'附'，'韩'，'鲜'，'，'，'？'}，并集的长度为86。所以文本集合4与文本集合1的相似度为5/86＝0.05813953488372093，小于阈值0.75，保留文本集合4和文本集合1。

结合表5，通过上述的方法步骤对文本集合进行去重处理之后，得到文本去重处理结果。

表5文本去重处理结果

结合图5，本发明实施例还提供了一种文本去重装置100，可以应用于上述的电子设备10。其中，该文本去重装置100可以包括排序处理模块110、拆分处理模块120和去重处理模块130。

所述排序处理模块110，用于对获取的各文本数据进行排序处理。在本实施例中，所述排序处理模块110可以用于执行图2所示的步骤S110，关于所述排序处理模块110的相关内容可以参照前文对步骤S110的具体描述。

所述拆分处理模块120，用于针对进行排序处理后的每个文本数据分别进行拆分处理，得到与每个文本数据分别对应的文本集合。在本实施例中，所述拆分处理模块120可以用于执行图2所示的步骤S120，关于所述拆分处理模块120的相关内容可以参照前文对步骤S120的具体描述。

所述去重处理模块130，用于对相邻的文本集合进行相似度比较并进行去重处理。在本实施例中，所述去重处理模块130可以用于执行图2所示的步骤S130，关于所述去重处理模块130的相关内容可以参照前文对步骤S130的具体描述。

在本申请实施例中，对应于上述的文本去重方法，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序运行时执行上述文本去重方法的各个步骤。

其中，前述计算机程序运行时执行的各步骤，在此不再一一赘述，可参考前文对所述文本去重方法的解释说明。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本去重方法，其特征在于，包括：

对获取的各文本数据进行排序处理；

对相邻的文本集合进行相似度比较并进行去重处理。

2.如权利要求1所述的文本去重方法，其特征在于，所述对相邻的文本集合进行相似度比较并进行去重处理的步骤，包括：

根据该文本集合与相邻文本集合的相似度进行去重处理。

3.如权利要求2所述的文本去重方法，其特征在于，所述根据该文本集合与相邻文本集合的相似度进行去重处理的步骤，包括：

4.如权利要求3所述的文本去重方法，其特征在于，所述方法还包括：

5.如权利要求1所述的文本去重方法，其特征在于，所述针对进行排序处理后的每个文本数据分别进行拆分处理，得到与每个文本数据分别对应的文本集合的步骤，包括：

6.如权利要求1所述的文本去重方法，其特征在于，所述对获取的各文本数据进行排序处理的步骤，包括：

获取各文本数据的各排序字符；

7.如权利要求1所述的文本去重方法，所述方法还包括获取各文本数据的步骤，该步骤包括：

获取待处理的多个原始数据；

8.一种文本去重装置，其特征在于，包括：

排序处理模块，用于对获取的各文本数据进行排序处理；

9.一种电子设备，其特征在于，包括存储器和处理器，所述处理器用于执行所述存储器中存储的可执行的计算机程序，以实现权利要求1-7任意一项所述的文本去重方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被执行时实现权利要求1-7任意一项所述文本去重方法的步骤。