CN117371533B

CN117371533B - 一种生成数据标签规则的方法及装置

Info

Publication number: CN117371533B
Application number: CN202311439140.4A
Authority: CN
Inventors: 王广武; 吴毅君; 黄河
Original assignee: Shenzhen Dr Ma Network Technology Co ltd
Current assignee: Shenzhen Dr Ma Network Technology Co ltd
Priority date: 2023-11-01
Filing date: 2023-11-01
Publication date: 2024-05-24
Anticipated expiration: 2043-11-01
Also published as: CN117371533A

Abstract

本发明提供了一种生成数据标签规则的方法及装置，包括：获取若干个原始数据；对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；其中，每个分类数据集中包含若干个类型相同的原始数据；对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。实现了根据数据的特征，通过自动化流程自动生成准确、高效的数据标签规则，减少人工操作的复杂性和错误率，进而提高数据标签的效率和准确性的技术效果。

Description

一种生成数据标签规则的方法及装置

技术领域

本发明涉及大数据处理技术领域，特别涉及一种生成数据标签规则的方法及装置。

背景技术

近几年，随着大数据技术的发展，数据爆炸式增长，如何优化处理和分析的过程，提高对数据的处理和分析效率，是目前技术人员较为关注的话题。

而在数据处理和分析的过程中，对数据进行标签化是一项关键的步骤，通过对数据进行标签化，可以大大提高数据处理的效率和准确性。然而，现有的数据标签规则的生成方法往往需要人工操作，较常见的方式为人工纯手动编写sql语句的方式生成数据标签规则，进一步完成数据打标签操作，不仅费时费力，而且容易出错。因此，开发一种能够自动生成准确、高效的数据标签规则的方法和技术，对于提高数据处理的效率和准确性具有重要意义。

因此，如何根据数据的特征，通过自动化流程自动生成准确、高效的数据标签规则，减少人工操作的复杂性和错误率，进而提高数据标签的效率和准确性，是大数据处理技术领域亟待解决的问题之一。

发明内容

本发明旨在至少一定程度上解决上述技术中的技术问题。为此，本发明的目的在于提供一种生成数据标签规则的方法及装置，通过对原始数据进行特征提取，根据特征提取结果对原始数据进行分类得到若干个分类数据集，对分类数据集进行预处理，根据预处理后的数据集类型生成对应的数据标签规则，从而实现了根据数据的特征，通过自动化流程自动生成准确、高效的数据标签规则，减少人工操作的复杂性和错误率，进而提高数据标签的效率和准确性的技术效果。

本发明提供一种生成数据标签规则的方法，包括：

获取若干个原始数据；其中，原始数据包括：文本数据、图像数据、音频数据和视频数据；

对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；

根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；其中，每个分类数据集中包含若干个类型相同的原始数据；

对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；

确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。

优选的，生成数据标签规则的方法，对若干个原始数据进行特征提取，得到对应的若干个原始数据特征，包括：

通过若干个历史原始数据和对应的包含内容对预设神经网络模型进行训练，得到预设内容识别模型；

将若干个原始数据输入预设内容识别模型中，得到每个原始数据对应的原始数据特征；其中，原始数据特征包括：仅包含文本内容、仅包含图像内容、既包含图像内容又包含文本内容、仅包含声音内容及既包含图像内容又包含声音内容。

优选的，生成数据标签规则的方法，根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集，包括：

将原始数据特征为仅包含文本内容的原始数据确定为文本数据，若干个文本数据组成文本分类数据集；

将原始数据特征为仅包含图像内容以及既包含图像内容又包含文本内容的原始数据确定为图像数据，若干个图像数据组成图像分类数据集；

将原始数据特征为仅包含声音内容的原始数据确定为音频数据，若干个音频数据组成音频分类数据集；

将原始数据特征为既包含图像内容又包含声音内容的原始数据确定为视频数据，若干个视频数据组成视频分类数据集。

优选的，生成数据标签规则的方法，对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集，包括：

对文本分类数据集中包含的所有文本数据按照首字母从A-Z的顺序进行排序，将首字母相同的文本数据分为一组，每组从第一个文本数据开始，依次将每个文本数据与所在组中排在该文本数据之后的所有文本数据进行内容匹配，当确定匹配到的内容完全相同时，将其中一个文本数据从文本分类数据集中删除，去除文本分类数据集中的重复文本，得到预处理文本数据集；

对图像分类数据集中包含的图像进行图像去重处理，得到预处理图像数据集；

通过预设音频去重算法对音频分类数据集进行去重操作，去除音频分类数据集中的重复音频，得到预处理音频数据集；

对视频分类数据集中包含的视频进行视频去重处理，得到预处理视频数据集；

预处理文本数据集、预处理图像数据集、预处理音频数据集和预处理视频数据集组成预处理数据集。

优选的，生成数据标签规则的方法，对图像分类数据集中包含的图像进行图像去重处理，得到预处理图像数据集，包括：

将预处理图像数据集中的所有图像缩小到预设尺寸，得到缩小图像集；

按照缩小图像集中的图像先后顺序，选取缩小图像集中的一张图像作为待处理图像，获取待处理图像中的像素点的像素值；

统计待处理图像中每一个像素值出现的次数，确定待处理图像对应的像素分布情况，根据像素分布情况确定待处理图像中每一个像素值对应的出现概率；

根据待处理图像中每一个像素值对应的出现概率和预设系数确定待处理图像的图像判断值；

将待处理图像作为第一处理图像，对第一处理图像进行离散余弦变换，得到对应的变换矩阵，计算变换矩阵中所有元素值的元素均值；

判断第一处理图像对应的变换矩阵中各元素值与元素均值的关系，当元素值大于元素均值时，将元素值修改为1；当元素值小于等于元素均值时，将元素值修改为0；

将进行了元素值修改的矩阵作为第一处理图像对应的哈希矩阵，通过预设矩阵扫描方式对哈希矩阵进行扫描，将扫描结果作为第一处理图像对应的哈希值；其中，哈希值的表示为二进制；

确定预设长度分割参数和预设宽度分割参数，根据预设长度分割参数和预设宽度分割参数对待处理图像进行图像分割，得到若干张子图像；

对若干张子图像均进行与第一处理图像相同的哈希值获取操作，得到对应的若干个子哈希值；

将第一处理图像对应的哈希值与若干个子哈希值相加，得到待处理图像对应的哈希值；

对缩小图像集中的所有图像进行以上操作，得到每张图像对应的图像判断值和哈希值；将待处理图像之后的所有图像作为比较图像，对待处理图像与每张比较图像进行图像判断，确定是否存在待处理图像的目标重复图像；如果存在，则对待处理图像和目标重复图像的灰度值进行拉普拉斯滤波处理，获得待处理图像和目标重复图像的梯度值，将待处理图像与目标重复图像的梯度值进行对比，将梯度值较小的图像从图像分类数据集中删除，进行图像去重处理，对缩小图像集中的所有图像进行以上操作，将完成图像去重处理的缩小图像集中的图像放大到原始尺寸，所有恢复到原始尺寸的图像组成预处理图像数据集。

优选的，生成数据标签规则的方法，对待处理图像与每张比较图像进行图像判断，确定是否存在待处理图像的目标重复图像，包括：

选取一张比较图像作为当前比较图像；

获取当前比较图像中像素点对应的像素值分布情况，根据待处理图像对应的像素值分布情况和当前比较图像对应的像素值分布情况，利用预设联合计算公式，得到待处理图像和当前比较图像的图像联合判断值；

将待处理图像的图像判断值和当前比较图像的图像判断值相加，将相加得到的数与图像联合判断值相减，得到待处理图像和当前比较图像的图像综合判断值；

获取待处理图像的二进制哈希值和当前比较图像的二进制哈希值对应的十进制哈希值，计算待处理图像与当前比较图像对应的十进制哈希值之间的差值，将该差值作为待处理图像与当前比较图像的图像相似度距离；

当图像综合判断值大于预设判断阈值且图像相似度距离小于预设距离阈值时，确定当前比较图像为待处理图像的重复图像，对待处理图像与每张比较图像进行以上操作，确定待处理图像的所有重复图像；

对所有重复图像的灰度值进行拉普拉斯滤波处理，得到对应的梯度值，比较所有重复图像的梯度值，获取最大梯度值图像，当最大梯度值图像只有一张时，将该最大梯度值图像作为目标重复图像；当最大梯度值图像有多张时，选择其中任意一张作为目标重复图像，并将其余最大梯度值图像删除。

优选的，生成数据标签规则的方法，对视频分类数据集中包含的视频进行视频去重处理，得到预处理视频数据集，包括：

获取视频分类数据集中每一个视频的视频时长，将视频时长相同的视频分为一组，得到若干个子视频组，选取其中一个子视频组作为待处理视频组；

获取待处理视频组中每个视频的文本描述信息，通过预设时序文本特征提取模型对文本描述信息进行特征提取，得到每个视频对应的文本特征向量；

获取待处理视频组中每个视频的音频描述信息，通过预设视觉几何组神经网络模型对音频描述信息进行特征提取，得到对应的音频特征向量；

将待处理视频组中的所有视频依次输入预设动作特征提取模型中，得到每个视频对应的动作特征向量；

从待处理视频组中第一个视频开始，将当前视频作为待比较视频，当前视频之后的视频作为比较视频，获取待比较视频的文本特征向量与每个比较视频的文本特征向量之间的文本向量距离；

获取待比较视频的音频特征向量与每个比较视频的音频特征向量之间的音频向量距离；

获取待比较视频的动作特征向量与每个比较视频的动作特征向量之间的动作向量距离；

当两个视频的三个向量距离均小于预设向量距离阈值时，确定两个视频为重复视频，在视频分类数据集中将其中一个视频删除；

对若干个子视频组中的所有视频进行以上操作，去除视频分类数据集中的重复视频，得到预处理视频数据集。

优选的，生成数据标签规则的方法，确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则，包括：

当确定预处理数据集的类型为文本数据集时，确定生成的数据标签中需要包括的文本主要信息，基于主要信息确定对应的文本数据标签规则；其中，文本主要信息包括文本涉及的人物、地点、事件和时间；

当确定预处理数据集的类型为图像数据集时，确定生成的数据标签中需要包括的图像主要信息，基于主要信息确定对应的图像数据标签规则；其中，图像主要信息包括图像中包含的内容类型、人物、事物名称；

当确定预处理数据集的类型为音频数据集时，确定生成的数据标签中需要包括的音频主要信息，基于主要信息确定对应的音频数据标签规则；其中，音频主要信息包括音频内容涉及的事件、表达的主要内容和出声者的信息；

当确定预处理数据集的类型为视频数据集时，确定生成的数据标签中需要包括的视频主要信息，基于主要信息确定对应的视频数据标签规则；其中，视频主要信息包括视频内容涉及的人物、事件、类型。

优选的，生成数据标签规则的方法，在确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则后，还包括：

获取若干个历史数据集及数据集中的数据对应的历史数据标签；其中，历史数据集包括历史文本数据集、历史图像数据集、历史音频数据集和历史视频数据集；

基于生成的数据标签规则为对应类型的历史数据集中的数据生成对应的验证数据标签；

获取每个历史数据集中验证数据标签与对应历史数据标签一致的一致标签数量，将每个类型的历史数据集对应的一致标签数量与验证数据标签数量的比值作为与该历史数据集对应的数据标签规则的验证指标；

将每个数据标签规则对应的验证指标与验证阈值进行比较，当验证指标大于验证阈值时，确定该数据标签规则合格；

将验证合格的数据标签规则应用于对应类型的预处理数据集中的数据，生成每个数据对应的数据标签。

本发明还提供一种生成数据标签规则的装置，包括：

数据获取模块，用于获取若干个原始数据；

特征提取模块，用于对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；

数据分类模块，用于根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；其中，每个分类数据集中包含若干个类型相同的原始数据；

数据预处理模块，用于对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；

规则生成模块，用于确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。

本发明通过提供一种生成数据标签规则的方法及装置，包括：获取若干个原始数据；对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；其中，每个分类数据集中包含若干个类型相同的原始数据；对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。从而实现了根据数据的特征，通过自动化流程自动生成准确、高效的数据标签规则，减少人工操作的复杂性和错误率，进而提高数据标签的效率和准确性的技术效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种生成数据标签规则的方法的流程图；

图2为本发明实施例中一种可选的哈希矩阵预设扫描方式示意图；

图3为本发明实施例中一种可选的视频去重方法的流程图；

图4为本发明实施例中一种生成数据标签规则的装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

参照图1，本发明实施例提供一种生成数据标签规则的方法，包括：

步骤S1，获取若干个原始数据；其中，原始数据包括：文本数据、图像数据、音频数据和视频数据；

步骤S2，对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；

步骤S3，根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；其中，每个分类数据集中包含若干个类型相同的原始数据；

步骤S4，对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；

步骤S5，确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。

上述技术方案的技术原理和技术效果是：获取若干个原始数据；对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。从而实现了根据数据的特征，通过自动化流程自动生成准确、高效的数据标签规则，减少人工操作的复杂性和错误率，进而提高数据标签的效率和准确性的技术效果。

本发明实施例提供生成数据标签规则的方法，对若干个原始数据进行特征提取，得到对应的若干个原始数据特征，包括：

该实施例中，历史原始数据对应的包含内容可以是文本内容、图像内容和声音内容。

该实施例中，预设内容识别模型用于识别输入模型的原始数据包含的内容类型，将原始数据包含的内容类型作为原始数据的原始数据特征。

上述技术方案的技术原理和技术效果是：通过若干个历史原始数据和对应的包含内容对预设神经网络模型进行训练，得到预设内容识别模型；将若干个原始数据输入预设内容识别模型中，得到每个原始数据对应的原始数据特征；其中，原始数据特征包括：仅包含文本内容、仅包含图像内容、既包含图像内容又包含文本内容、仅包含声音内容及既包含图像内容又包含声音内容。实现了通过预设内容识别模型识别原始数据包含的内容类型，进而保证接下来原始数据分类结果的准确性的技术效果。

本发明实施例提供生成数据标签规则的方法，根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集，包括：

上述技术方案的技术原理和技术效果是：将原始数据特征为仅包含文本内容的原始数据确定为文本数据，若干个文本数据组成文本分类数据集；将原始数据特征为仅包含图像内容以及既包含图像内容又包含文本内容的原始数据确定为图像数据，若干个图像数据组成图像分类数据集；将原始数据特征为仅包含声音内容的原始数据确定为音频数据，若干个音频数据组成音频分类数据集；将原始数据特征为既包含图像内容又包含声音内容的原始数据确定为视频数据，若干个视频数据组成视频分类数据集。实现了通过原始数据对应的原始数据特征对原始数据进行分类，保证数据分类准确性，进而确保对应类型的分类数据集中的数据正确性的技术效果。

本发明实施例提供生成数据标签规则的方法，对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集，包括：

该实施例中，对文本分类数据集中包含的所有文本数据按照首字母从A-Z的顺序进行排序，将首字母相同的文本数据分为一组的具体实施方式可以是：确定文本分类数据集中包含的所有文本数据的首字母，按照首字母从A-Z的顺序为所有文本数据进行排序，根据排序结果将首字母相同的文本数据划分为同一组。例如：文本数据集中的数据为：你好，你是谁，这是什么，画画，画画，画蛇添足这六个，按照首字母排序结果为：安静，画画，画画，画蛇添足，你好，你是谁，按照首字母进行分组，结果为：安静一组，画画，画画和画蛇添足一组，你好和你是谁一组。

该实施例中，每组从第一个文本数据开始，依次将每个文本数据与所在组中排在该文本数据之后的所有文本数据进行内容匹配，当确定匹配到的内容完全相同时，将其中一个文本数据从文本分类数据集中删除的具体实施方式可以是：每组从第一个文本数据开始，依次将该文本数据与排在其后的组中所有文本数据进行内容匹配，当内容匹配结果完全相同时，将顺序靠后的文本数据删除。例如：文本数据画画，画画和画蛇添足为一组，从组内第一个文本数据画画开始，将该文本数据与排在其后的所有文本数据进行匹配，确定画画与画画匹配成功，删除该组中的第二个文本数据画画。

该实施例中，预设音频算法可以在代码网站获取，例如CSDN网站等。

上述技术方案的技术原理和技术效果是：对文本分类数据集中包含的所有文本数据按照首字母从A-Z的顺序进行排序，将首字母相同的文本数据分为一组，每组从第一个文本数据开始，依次将每个文本数据与所在组中排在该文本数据之后的所有文本数据进行内容匹配，当确定匹配到的内容完全相同时，将其中一个文本数据从文本分类数据集中删除，去除文本分类数据集中的重复文本，得到预处理文本数据集；对图像分类数据集中包含的图像进行图像去重处理，得到预处理图像数据集；通过预设音频去重算法对音频分类数据集进行去重操作，去除音频分类数据集中的重复音频，得到预处理音频数据集；对视频分类数据集中包含的视频进行视频去重处理，得到预处理视频数据集；预处理文本数据集、预处理图像数据集、预处理音频数据集和预处理视频数据集组成预处理数据集。实现了通过不同去重方式对不同类型的分类数据集进行去重，进而保留各分类数据集的有效数据，提高接下来数据集预处理过程的处理效率的技术效果。

参照图2，本发明实施例提供生成数据标签规则的方法，对图像分类数据集中包含的图像进行图像去重处理，得到预处理图像数据集，包括：

该实施例中，预设尺寸可以为16*16。

该实施例中，预设系数为255，图像判断值为图像信息熵，根据待处理图像中每一个像素值对应的出现概率和预设系数确定待处理图像的图像判断值的具体实施方式可以是：根据信息熵确定函数确定待处理图像的图像信息熵，将该图像信息熵作为图像判断值，其中，X表示待处理图像，H(X)为待处理图像的信息熵即图像判断值，p(x_i)表示待处理图像中像素值i出现的概率，在待处理图像中，当像素值i出现的次数为M，待处理图像中像素点总个数为N，则该像素值i出现的概率p(x_i)为M/N，对数函数的底数为2。

该实施例中，离散余弦变换(Discrete Cosine Transform，DCT)是一种数字处理方法，经常用于数据处理，DCT是多种数字变换方法的一种，它是把空间域图像变换到频率域进行分析的方法。变换矩阵为DCT系数矩阵。

该实施例中，预设扫描方式为Z形扫描。例如，当哈希矩阵为：时，扫描方式如图2所示，扫描结果对应的哈希值为0010010111000010。

该实施例中，预设长度分割参数可以为4或8，预设宽度分割参数可以为4或8，需要说明的是预设长度分割参数和预设宽度分割参数取值相同。

上述技术方案的技术原理和技术效果是：通过将图像分类数据集中的图像缩小到预设尺寸得到缩小图像集，选择一张图像作为待处理图像，根据待处理图像中每个像素值出现的概率和预设系数确定图像判断值；将待处理图像作为第一处理图像，对第一处理图像进行离散余弦变换，得到对应的变换矩阵，计算变换矩阵中所有元素值的元素均值，根据变换矩阵中元素值与元素均值的关系对变换矩阵进行修改得到第一处理图像的哈希矩阵，扫描哈希矩阵得到对应的第一处理图像对应的哈希值；根据预设长度分割参数和预设宽度分割参数对待处理图像进行图像分割，得到若干张子图像；对若干张子图像均进行与第一处理图像相同的哈希值获取操作，得到对应的若干个子哈希值，将第一处理图像对应的哈希值与若干个子哈希值相加，得到待处理图像对应的哈希值；对缩小图像集中的所有图像进行以上操作得到对应的图像判断值和哈希值；将待处理图像之后的所有图像作为比较图像，确定比较图像中是否存在待处理图像的目标重复图像，如果存在，将待处理图像和目标重复图像中梯度值(经过拉普拉斯滤波获取)较小的删除。实现了保留了图像的整体特征和局部特征的同时，根据图像判断值和哈希值确定是否存在重复图像，根据图像梯度值对图像进行删除，确保重复图像获取过程的准确性和严谨性，确保保留图像的图像清晰度的技术效果。

本发明实施例提供生成数据标签规则的方法，对待处理图像与每张比较图像进行图像判断，确定是否存在待处理图像的目标重复图像，包括：

选取一张比较图像作为当前比较图像；

该实施例中，待处理图像和当前比较图像的图像联合判断值可以是待处理图像和当前比较图像的联合信息熵，预设联合计算公式可以是联合信息熵计算公式，根据联合信息熵确定公式确定待处理图像和当前比较图像的联合信息熵即图像联合判断值，其中X表示待处理图像，Y表示当前比较图像，H(X,Y)表示待处理图像和当前比较图像的联合信息熵，即待处理图像和当前比较图像的图像联合判断值，p(x_i,y_i)表示待处理图像和待比较图像中像素值i出现的总概率，计算方式为将像素值i在待处理图像中出现的次数与像素值i在当前比较图像中出现的次数相加得到总次数，确定待处理图像与当前比较图像的总像素点个数，将总次数与总像素点个数的比值作为p(x_i,y_i)，对数函数的底数为2。

该实施例中，图像综合判断值可以是待处理图像和当前比较图像的互信息熵，互信息熵I(X,Y)＝H(X)+H(Y)-H(X,Y)，其中H(Y)为当前比较图像的信息熵。

该实施例中，预设判断阈值和预设距离阈值均用于判断待处理图像和当前比较图像的重复度，可以根据经验值设定。

上述技术方案的技术原理和技术效果是：根据待处理图像和当前比较图像对应的像素值分布情况，利用预设联合计算公式，得到待处理图像和当前比较图像的图像联合判断值；根据待处理图像的图像判断值、当前比较图像的图像判断值与图像联合判断值确定待处理图像和当前比较图像的图像综合判断值；将待处理图像的二进制哈希值和当前比较图像的二进制哈希值对应的十进制哈希值的差值作为待处理图像与当前比较图像的图像相似度距离；当图像综合判断值大于预设判断阈值且图像相似度距离小于预设距离阈值时，确定当前比较图像为待处理图像的重复图像，对待处理图像与每张比较图像进行以上操作，确定待处理图像的所有重复图像；对所有重复图像的灰度值进行拉普拉斯滤波处理，得到对应的梯度值，比较所有重复图像的梯度值，获取最大梯度值图像，当最大梯度值图像只有一张时，将该最大梯度值图像作为目标重复图像；当最大梯度值图像有多张时，选择其中任意一张作为目标重复图像，并将其余最大梯度值图像删除。实现了根据待处理图像和比较图像的图像综合判断值以及图像相似度距离确定比较图像中待处理图像的重复图像，根据重复图像的梯度值确定待处理图像的目标重复图像，确保图像删除过程的合理性以及严谨性，保证预处理图像数据集中的图像数据有效性和正确性的技术效果。

参照图3，本发明实施例提供生成数据标签规则的方法，对视频分类数据集中包含的视频进行视频去重处理，得到预处理视频数据集，包括：

步骤S441，获取视频分类数据集中每一个视频的视频时长，将视频时长相同的视频分为一组，得到若干个子视频组，选取其中一个子视频组作为待处理视频组；

步骤S442，获取待处理视频组中每个视频的文本描述信息，通过预设时序文本特征提取模型对文本描述信息进行特征提取，得到每个视频对应的文本特征向量；

步骤S443，获取待处理视频组中每个视频的音频描述信息，通过预设视觉几何组神经网络模型对音频描述信息进行特征提取，得到对应的音频特征向量；

步骤S444，将待处理视频组中的所有视频依次输入预设动作特征提取模型中，得到每个视频对应的动作特征向量；

步骤S445，从待处理视频组中第一个视频开始，将当前视频作为待比较视频，当前视频之后的视频作为比较视频，获取待比较视频的文本特征向量与每个比较视频的文本特征向量之间的文本向量距离；

步骤S446，获取待比较视频的音频特征向量与每个比较视频的音频特征向量之间的音频向量距离；

步骤S447，获取待比较视频的动作特征向量与每个比较视频的动作特征向量之间的动作向量距离；

步骤S448，当两个视频的三个向量距离均小于预设向量距离阈值时，确定两个视频为重复视频，在视频分类数据集中将其中一个视频删除；

步骤S449，对若干个子视频组中的所有视频进行以上操作，去除视频分类数据集中的重复视频，得到预处理视频数据集。

该实施例中，预设时序文本特征提取模型可以通过长短期记忆网络实现，长短期记忆网络是一种时间循环神经网络，比较适合用于对时序数据提取语义特征，在自然语言处理任务中常被用来对上下文信息提取语义特征，长短期记忆网络可以通过输入门，遗忘门，输出门的三个门结构，选择性地遗忘部分历史数据，加入部分当前输入数据，最终整合到当前状态并产生输出状态。

该实施例中，预设视觉几何组神经网络模型通过对视频的音频信息进行卷积运算和池化运算，得到视频对应的音频特征信息，该音频特征信息可以通过音频特征向量表示。

该实施例中，预设动作特征提取模型可以由基于3D卷积的C3D、I3D等网络、基于光流和空间的2Stream方法的TSN(time scalar network，时标网状图)，以及基于RNN(Recurrent Neural Network，循环神经网络)的各种动作识别网络实现。

该实施例中，获取待比较视频的文本特征向量与每个比较视频的文本特征向量之间的文本向量距离的具体实施方式是：确定待比较视频的文本向量为比较视频的文本向量为/>则文本向量距离为/>需要说明的是音频向量距离和视频向量距离的计算方式与文本向量距离的计算方式相同。

该实施例中，预设向量距离阈值的取值的具体表示方式可以是：预设向量距离阈值＝min(文本向量距离最小值，音频向量距离最小值，视频向量距离最小值)。

上述技术方案的技术原理和技术效果是：通过预设时序文本特征提取模型，得到每个视频对应的文本特征向量；通过预设视觉几何组神经网络模型对音频描述信息进行特征提取，得到对应的音频特征向量；通过预设动作特征提取模型中，得到每个视频对应的动作特征向量；从待处理视频组中第一个视频开始，将当前视频作为待比较视频，当前视频之后的视频作为比较视频，获取待比较视频的文本特征向量与每个比较视频的文本特征向量之间的文本向量距离、音频向量距离和视频向量距离，根据三个向量距离与预设向量距离阈值的关系确定两个视频是否重复，如果重复，选择二者之一删除。实现了通过特征提取网络获取视频的多个特征向量，根据多个特征向量之间的距离确定是否存在重复视频，确保重复视频识别过程的准确性和严密性，保证预处理视频数据集中的数据有效性的技术效果。

本发明实施例提供生成数据标签规则的方法，确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则，包括：

上述技术方案的技术原理和技术效果是：当确定预处理数据集的类型为文本数据集时，确定生成的数据标签中需要包括的文本主要信息，基于主要信息确定对应的文本数据标签规则；当确定预处理数据集的类型为图像数据集时，确定生成的数据标签中需要包括的图像主要信息，基于主要信息确定对应的图像数据标签规则；当确定预处理数据集的类型为音频数据集时，确定生成的数据标签中需要包括的音频主要信息，基于主要信息确定对应的音频数据标签规则；当确定预处理数据集的类型为视频数据集时，确定生成的数据标签中需要包括的视频主要信息，基于主要信息确定对应的视频数据标签规则。实现了根据数据集类型确定对应数据标签规则，确保数据标签规则对于此类数据的合理性，保证数据标签规则与数据的高适配性的技术效果。

本发明实施例提供生成数据标签规则的方法，在确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则后，还包括：

该实施例中，验证阈值为0.9-0.95之间的数值。

上述技术方案的技术原理与技术效果为：取若干个历史数据集及数据集中的数据对应的历史数据标签；基于生成的数据标签规则为对应类型的历史数据集中的数据生成对应的验证数据标签；获取每个历史数据集中验证数据标签与对应历史数据标签一致的一致标签数量，将每个类型的历史数据集对应的一致标签数量与验证数据标签数量的比值作为与该历史数据集对应的数据标签规则的验证指标；将每个数据标签规则对应的验证指标与验证阈值进行比较，当验证指标大于验证阈值时，确定该数据标签规则合格；将验证合格的数据标签规则应用于对应类型的预处理数据集中的数据，生成每个数据对应的数据标签。实现了对数据标签规则进行验证，进而保证基于该数据标签规则生成的数据标签的准确性的技术效果。

参照图4，本发明实施例还提供一种生成数据标签规则的装置，包括：

数据获取模块10，用于获取若干个原始数据；

特征提取模块20，用于对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；

数据分类模块30，用于根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；其中，每个分类数据集中包含若干个类型相同的原始数据；

数据预处理模块40，用于对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；

规则生成模块50，用于确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。

上述技术方案的技术原理和技术效果是：数据获取模块，用于获取若干个原始数据；特征提取模块，用于对若干个原始数据进行特征提取，得到对应的若干个原始数据特征；数据分类模块，用于根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集；数据预处理模块，用于对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集；规则生成模块，用于确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则。实现了根据数据的特征，通过自动化流程自动生成准确、高效的数据标签规则，减少人工操作的复杂性和错误率，进而提高数据标签的效率和准确性的技术效果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种生成数据标签规则的方法，其特征在于，包括：

确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则；

对若干个原始数据进行特征提取，得到对应的若干个原始数据特征，包括：

将若干个原始数据输入预设内容识别模型中，得到每个原始数据对应的原始数据特征；其中，原始数据特征包括：仅包含文本内容、仅包含图像内容、既包含图像内容又包含文本内容、仅包含声音内容及既包含图像内容又包含声音内容；

根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集，包括：

将原始数据特征为既包含图像内容又包含声音内容的原始数据确定为视频数据，若干个视频数据组成视频分类数据集；

对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集，包括：

预处理文本数据集、预处理图像数据集、预处理音频数据集和预处理视频数据集组成预处理数据集；

对图像分类数据集中包含的图像进行图像去重处理，得到预处理图像数据集，包括：

按照缩小图像集中的图像先后顺序，选取缩小图像集中的一张图像作为待处理图像，获取所述待处理图像中的像素点的像素值；

根据待处理图像中每一个像素值对应的出现概率和预设系数确定所述待处理图像的图像判断值；

将所述待处理图像作为第一处理图像，对所述第一处理图像进行离散余弦变换，得到对应的变换矩阵，计算所述变换矩阵中所有元素值的元素均值；

将进行了元素值修改的矩阵作为第一处理图像对应的哈希矩阵，通过预设矩阵扫描方式对所述哈希矩阵进行扫描，将扫描结果作为第一处理图像对应的哈希值；其中，哈希值的表示为二进制；

确定预设长度分割参数和预设宽度分割参数，根据所述预设长度分割参数和预设宽度分割参数对所述待处理图像进行图像分割，得到若干张子图像；

2.如权利要求1所述的生成数据标签规则的方法，其特征在于，对待处理图像与每张比较图像进行图像判断，确定是否存在待处理图像的目标重复图像，包括：

选取一张比较图像作为当前比较图像；

获取当前比较图像中像素点对应的像素值分布情况，根据所述待处理图像对应的像素值分布情况和当前比较图像对应的像素值分布情况，利用预设联合计算公式，得到待处理图像和当前比较图像的图像联合判断值；

3.如权利要求1所述的生成数据标签规则的方法，其特征在于，对视频分类数据集中包含的视频进行视频去重处理，得到预处理视频数据集，包括：

获取待处理视频组中每个视频的文本描述信息，通过预设时序文本特征提取模型对所述文本描述信息进行特征提取，得到每个视频对应的文本特征向量；

4.如权利要求1所述的生成数据标签规则的方法，其特征在于，确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则，包括：

当确定预处理数据集的类型为文本数据集时，确定生成的数据标签中需要包括的文本主要信息，基于所述主要信息确定对应的文本数据标签规则；其中，文本主要信息包括文本涉及的人物、地点、事件和时间；

当确定预处理数据集的类型为图像数据集时，确定生成的数据标签中需要包括的图像主要信息，基于所述主要信息确定对应的图像数据标签规则；其中，图像主要信息包括图像中包含的内容类型、人物、事物名称；

当确定预处理数据集的类型为音频数据集时，确定生成的数据标签中需要包括的音频主要信息，基于所述主要信息确定对应的音频数据标签规则；其中，音频主要信息包括音频内容涉及的事件、表达的主要内容和出声者的信息；

当确定预处理数据集的类型为视频数据集时，确定生成的数据标签中需要包括的视频主要信息，基于所述主要信息确定对应的视频数据标签规则；其中，视频主要信息包括视频内容涉及的人物、事件、类型。

5.如权利要求4所述的生成数据标签规则的方法，其特征在于，在确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则后，还包括：

6.一种生成数据标签规则的装置，其特征在于，包括：

数据获取模块，用于获取若干个原始数据；

规则生成模块，用于确定每个预处理数据集的数据集类型，根据该数据集类型，生成该预处理数据集中包含的数据对应的数据标签规则；

所述特征提取模块用于对若干个原始数据进行特征提取，得到对应的若干个原始数据特征的方法，包括：

所述数据分类模块用于根据若干个原始数据特征，对若干个原始数据进行分类，根据分类结果确定若干个分类数据集的方法，包括：

所述数据预处理模块用于对每个分类数据集中的数据进行数据预处理，得到对应的若干个预处理数据集的方法，包括：

所述对图像分类数据集中包含的图像进行图像去重处理，得到预处理图像数据集的方法，包括：