CN117892727A

CN117892727A - 一种实时文本数据流去重系统及方法

Info

Publication number: CN117892727A
Application number: CN202410288617.1A
Authority: CN
Inventors: 丁建伟; 李航; 李斌; 陈周国; 李欣泽; 王鑫; 朱科
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2024-03-14
Filing date: 2024-03-14
Publication date: 2024-04-16
Anticipated expiration: 2044-03-14
Also published as: CN117892727B

Abstract

本发明公开了一种实时文本数据流去重系统及方法，涉及数据去重领域，其中去重系统包括：数据输入端，所述数据输入端由用于接收与发送文本数据流的消息队列组成；数据处理端，所述数据处理端由流处理引擎组成，能够按不同语种对文本数据进行预处理，并基于改进Ksentence进行文本标识计算，最后形成输出数据流；数据输出端，所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中；并以此提出了一种去重方法；本发明，侧重于对海量性、实时性的文本进行去重，适用于在线实时场景。

Description

一种实时文本数据流去重系统及方法

技术领域

本发明涉及数据去重领域，具体涉及一种实时文本数据流去重系统及方法。

背景技术

本节中的陈述仅提供与本公开相关的背景信息，并且可能不构成现有技术。

互联网中充斥着海量的文本，并且包含有大量的重复文本内容。对于搜索引擎的网页去重和过滤、社交媒体的文本去重等，均需要文本去重实现，提升文本质量，节约存储资源。

现有的文本去重方法大多是离线计算的模式，将文本转换成可比较的特征向量后，对特征向量两两进行比较或聚类，例如专利“一种面向开源情报的文本去重方法”计算文档的simhash特征向量、文本相似度以及文本信息量,通过与其余文档计算相似度，实现文本去重；专利“一种simhash文本去重方法”使用基于改进PSO-TextRank模型或者基于改进的LDA算法进行文本预处理后，将所有文本的simhash值进行比较,并将相似的文本合并为一条记录,去除重复的记录；专利“一种实时对长文本去重聚类的方法”在中心服务存储建立可以对特征向量进行快速模糊比对的数据结构，通过将文本列表进行定时定量计算，实现文本去重。

但离线计算模式的文本去重方法不能满足实时性要求高的应用，例如在数据源实时且不间断场景下的用户搜索内容推荐，且在海量数据下，将文本两两之间进行比较，需要极高的计算资源代价。目前仍缺少一种针对海量流数据文本的实时去重方法。

发明内容

本发明的目的在于：针对在海量数据场景下现有文本去重方法的实时性低、计算复杂度高的问题，提供了一种实时文本数据流去重系统及方法，侧重于对海量性、实时性的文本进行去重，适用于在线实时场景，解决了上述问题。

本发明的技术方案如下：

一种实时文本数据流去重系统，包括：

数据输入端，所述数据输入端由用于接收与发送文本数据流的消息队列组成；

数据处理端，所述数据处理端由流处理引擎组成，能够按不同语种对文本数据进行预处理，并基于改进Ksentence进行文本标识计算，最后形成输出数据流；

数据输出端，所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中。

进一步地，所述数据输入端是kafka；能够通过kafka对文本数据流进行接收与消费。

进一步地，所述数据处理端使用的是实时计算框架Flink，能够通过在Flink上对Kafka上的文本数据进行消费，按不同语种进行文本数据进行预处理，并基于改进Ksentence对文本标识进行计算，最后形成输出数据流。

进一步地，所述数据输出端由ElasticSearch数据库组成，通过设定ES文档的唯一标识_id，可实现数据的自动更新或者丢弃。

一种实时文本数据流去重方法，包括：

步骤S1：面向多语种的文本预处理；对输入的文本数据按不同语种进行清洗以及预处理；

步骤S2：基于改进Ksentence的文本标识计算；选择分词后长度大于K的词进行拼接，并利用simhash计算哈希值，得到文本唯一标识值key；

步骤S3：基于标识的文本存储策略；通过将key值作为流数据输出数据库的主键的组成部分，利用数据库的按主键更新或主键重复时不更新的策略，实现文本实时去重。

进一步地，所述步骤S1，包括：

步骤S11：从kafka实时消息队列中获取文本数据；

步骤S12：使用正则表达式对文本数据进行正则清洗，特殊符号用空格进行替换，并去除16进制编码与base64编码；

步骤S13：对经步骤S12处理后得到的字符串，按语种进行切割，得到语种字符串数组；

步骤S14：对中英文进行处理；

步骤S15：返回处理后的语种字符串数组。

进一步地，所述步骤S13，包括：

记录每个空格的位置得到数组，循环数组中的空格位置，并判断空格与空格之间字符串的语种类型，将相同语种的字符串用；进行拼接，得到若干语种字符串；不同语种字符串共同组成一个语种字符串数组，且数组长度为语种的个数；

所述步骤S14，包括：

若存在中文，则使用jieba对中文使用空格进行分词，并去除停用词；若存在英文，则还原英文词性，去除停用词；若为其余语种，则不做任何处理。

进一步地，所述步骤S2，包括：

步骤S21：获取语种字符串数组；

步骤S22：按；进行分割，取长度大于K的字符串；

步骤S23：按语种顺序将选择的字符串按空格拼接；

步骤S24：计算拼接后的字符串的唯一标识值。

进一步地，所述步骤S22，包括：

对数组中的每一个元素，若该元素为中文，在用；将字符串分割成列表后，保留列表中长度大于K的字符串；若该元素不为中文，在用；将字符串分割成列表后，保留列表中长度大于M的字符串；

所述步骤S23，包括：

按语种类型的升序进行排序，将步骤S22中保留的字符串用空格进行拼接，形成新的字符串；

步骤S24，包括：

计算新的字符串的simhash值，并将该值作为新的字符串对应文本的唯一标识值key。

进一步地，所述步骤S3，包括：

将处理后的文本数据输出到指定数据库ES时，通过将计算的文本的唯一标识值key添加到文本数据的主键中，并通过设置输出数据库的主键更新策略，实现流数据的自动去重。

与现有的技术相比本发明的有益效果是：

1、现有文本去重的方式大多为将多个待去重文本进行两两比较，基于比较结果将重复的文本去除。然而，目前文本去重方式在由于需要将待重文本两两进行比较，在面对海量待去重文本时，会花费大量时间，导致文本去重效率比较低，且不适用于实时性要求高的场景。

2、本发明面向实时文本去重的场景，提出了一种基于改进Ksentence的实时文本数据流去重方法，基于不同语种对文本进行详细预处理，降低干扰，提高文本表征的精确性；此外本发明按不同语种选择不同长度的文本字符串，再利用simhash计算哈希值，得到文本唯一标识值，优化Ksentence对部分修改的文本识别度较低的问题，提升文本去重的准确性；最后本发明利用流处理引擎对文本数据进行处理与输出，利用数据存储的主键更新策略，在不需要文本两两对比的条件下，实现文本实时去重。

附图说明

图1为一种实时文本数据流去重系统框架图；

图2为面向多语种的分词与预处理示意图；

图3为基于改进Ksentence的文本标识计算示意图。

具体实施方式

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

实施例一

针对海量数据流的实时文本去重问题，本实施例利用实时计算框架中的流处理引擎对海量文本数据流进行去重。通过对输入的文本数据按语种类型进行预处理与分词，并采用改进Ksentence对分词后的文本数据计算标识值，最后将文本标识值作为输出数据的主键组成部分，从而在存储时实现自动去重，整体框架如图1所示。

在本实施例中，具体的，一种实时文本数据流去重系统，具体包括如下：

数据输出端，所述数据输出端能够将数据处理端的输出数据流存储至对应的数据库中，便于后续检索。

在本实施例中，具体的，所述数据输入端是kafka；能够通过kafka对文本数据流进行接收与消费。

在本实施例中，具体的，所述数据处理端使用的是实时计算框架Flink，能够通过在Flink上对Kafka上的文本数据进行消费，按不同语种进行文本数据进行预处理，并基于改进Ksentence对文本标识进行计算，最后形成输出数据流。

在本实施例中，具体的，所述数据输出端由ElasticSearch数据库组成，通过设定ES文档的唯一标识_id，可实现数据的自动更新或者丢弃。

在本实施例中，在数据处理端还提出了一种实时文本数据流去重方法，具体包括如下步骤：

在本实施例中，具体的，请参阅图2，所述步骤S1，包括：

步骤S11：从kafka实时消息队列中获取文本数据；

步骤S12：使用正则表达式对文本数据进行正则清洗，特殊符号用空格进行替换，并去除16进制编码与base64编码；需要说明的是，特殊符号例如“[0-9’!"#$%&\'()*+,-./:;<=>?@，。?★、…【】《》♅♛♆？“”‘’！[\\]^_`{|}~]+”等；

步骤S14：对中英文进行处理；

步骤S15：返回处理后的语种字符串数组。

在本实施例中，具体的，所述步骤S13，包括：

记录每个空格的位置得到数组，循环数组中的空格位置，并判断空格与空格之间字符串的语种类型，将相同语种的字符串用“；”进行拼接，得到若干语种字符串；不同语种字符串共同组成一个语种字符串数组，且数组长度为语种的个数；

所述步骤S14，包括：

在本实施例中，具体的，请参阅图3，所述步骤S2，包括：

步骤S21：获取语种字符串数组；

步骤S22：按“；”进行分割，取长度大于K的字符串；

步骤S23：按语种顺序将选择的字符串按空格拼接；

步骤S24：计算拼接后的字符串的唯一标识值。

在本实施例中，具体的，所述步骤S22，包括：

对数组中的每一个元素，若该元素为中文，在用“；”将字符串分割成列表后，保留列表中长度大于K（K默认为5）的字符串；若该元素不为中文，在用；将字符串分割成列表后，保留列表中长度大于M（M默认为10）的字符串；

所述步骤S23，包括：

步骤S24，包括：

在本实施例中，具体的，所述步骤S3，包括：

将处理后的文本数据输出到指定数据库ES时，通过将计算的文本的唯一标识值key添加到文本数据的主键中，并通过设置输出数据库的主键更新策略，实现流数据的自动去重；需要说明的是，其中更新策略包括当数据主键冲突时，可以丢弃现有数据，或者用新数据更新旧数据；由于通过数据库主键进行更新或不更新的方法属于通用方法，在此不做限定。

需要说明的是，本发明的主要创新之处是提供了一种可用于实时计算框架的基于改进Ksentense的文本实时去重方法及装置，并详细描述了面向多语种的文本预处理与改进Ksentence的文本标识计算过程，有效降低噪音干扰，提升文本去重准确性，且可对海量数据进行实时文本去重。

同时，本发明不限定数据输入端使用的具体的消息队列工具、不限定数据处理端使用的具体的流式计算框架、不限定基于标识的文本去重策略、不限定数据输出端使用的具体数据库。本发明所提出的面向多语种的文本预处理方式、改进Ksentence的文本计算方式、以及将改进Ksentence运用到文本流数据进行实时去重的整体框架，都属于本发明所保护的内容。

本发明对Ksentence算法进行改进，基于两个重复文本中长度大于K的关键词应该是完全一样的假设，利用simhash计算不同语种文本拼接后关键词，将此哈希值作为文本唯一标识，提升Ksentence算法对文本的识别度，提高文本去重准确性。此外，本发明通过流计算引擎处理文本流数据，保证输入、计算、输出的过程的低延迟性，并结合数据库主键更新策略，实现文本数据流的去重，有效降低计算复杂度，提升文本去重的实时性。

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

提供本背景技术部分是为了大体上呈现本发明的上下文，当前所署名的发明人的工作、在本背景技术部分中所描述的程度上的工作以及本部分描述在申请时尚不构成现有技术的方面，既非明示地也非暗示地被承认是本发明的现有技术。

Claims

1.一种实时文本数据流去重系统，其特征在于，包括：

2.根据权利要求1所述的一种实时文本数据流去重系统，其特征在于，所述数据输入端是kafka；能够通过kafka对文本数据流进行接收与消费。

3.根据权利要求2所述的一种实时文本数据流去重系统，其特征在于，所述数据处理端使用的是实时计算框架Flink，能够通过在Flink上对Kafka上的文本数据进行消费，按不同语种进行文本数据进行预处理，并基于改进Ksentence对文本标识进行计算，最后形成输出数据流。

4.根据权利要求3所述的一种实时文本数据流去重系统，其特征在于，所述数据输出端由ElasticSearch数据库组成，通过设定ES文档的唯一标识_id，可实现数据的自动更新或者丢弃。

5.一种实时文本数据流去重方法，其特征在于，包括：

步骤S3：基于标识的文本存储策略；通过将key值作为流数据输出数据库的主键的组成部分，利用数据库的主键更新策略，实现文本实时去重。

6.根据权利要求5所述的一种实时文本数据流去重方法，其特征在于，所述步骤S1，包括：

步骤S11：从kafka实时消息队列中获取文本数据；

步骤S14：对中英文进行处理；

步骤S15：返回处理后的语种字符串数组。

7.根据权利要求6所述的一种实时文本数据流去重方法，其特征在于，所述步骤S13，包括：

所述步骤S14，包括：

8.根据权利要求7所述的一种实时文本数据流去重方法，其特征在于，所述步骤S2，包括：

步骤S21：获取语种字符串数组；

步骤S22：按；进行分割，取长度大于K的字符串；

步骤S23：按语种顺序将选择的字符串按空格拼接；

步骤S24：计算拼接后的字符串的唯一标识值。

9.根据权利要求8所述的一种实时文本数据流去重方法，其特征在于，所述步骤S22，包括：

所述步骤S23，包括：

步骤S24，包括：

10.根据权利要求9所述的一种实时文本数据流去重方法，其特征在于，所述步骤S3，包括：