CN116187325A

CN116187325A - 一种数据检测方法及其系统

Info

Publication number: CN116187325A
Application number: CN202310475702.4A
Authority: CN
Inventors: 赵明明; 兰天; 孙大双; 孔令燃; 陈骁; 赵明; 郑鑫; 王晓朋
Original assignee: Beijing Egova Technology Co ltd
Current assignee: Beijing Egova Technology Co ltd
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-05-30

Abstract

本申请公开了一种数据检测方法及其系统，其中数据检测方法包括以下步骤：进行原始数据预处理；根据预处理后的原始数据，生成识别库；获取输入数据，根据识别库进行相似度的计算；对相似度结果进行输出，确定文本数据集合；对文本数据集合进行检测处理并输出。本申请在进行数据检测的过程中，可以结合实际应用场景与需求，平衡相似度计算速度与精度性能，选取合适的方法来得到文本数据间的相似度得分，有效提升了文本数据相似度的计算效率。

Description

一种数据检测方法及其系统

技术领域

本申请涉及数据处理领域，具体地，涉及一种数据检测方法及其系统。

背景技术

当前随着自然语言处理相关技术的不断发展，关于文本数据分类、文本数据相似度等技术点也在不断进行着更新迭代。其中，文本数据相似度的计算作为一种能够找出相似重复文本内容的技术，能够帮助人们快速地完成低技术性的重复劳动，极大地提升工作效率。目前的文本数据相似度的实现主要基于两种方法，一是基于关键词提取后进行的相似向量数学计算，另一种是基于深度学习利用大量数据对神经网络模型的训练与生成。这两种实现方案都可以计算得出输入的两条文本的相似度结果，能够识别出在一定时空范围内相似文本的出现频率，可以敏锐地发现这里面的突发热点内容，并做出及时的处置与反馈。但是目前文本数据相似度的两种实现方案中，利用提取的关键词进行相似向量数学计算相比于基于深度学习的方案，其检测准确率会略低。而利用深度学习来实现文本数据相似度匹配的方案对已有数据量的需求较大，且在执行计算时对设备性能也有的较高的要求，算法执行的检测时间也较长，有计算速度较慢的缺陷。

因此，如何提供一种提高数据检测的准确度以及提高数据的检测时间的方法，成为本领域急需解决的问题。

发明内容

本申请提供了一种数据检测方法，包括以下步骤：进行原始数据预处理；根据预处理后的原始数据，生成识别库；获取输入数据，根据识别库进行相似度的计算；对相似度结果进行输出，确定文本数据集合；对文本数据集合进行检测处理并输出。

如上的，其中，原始数据指文本案卷记录的数据信息，进行原始数据预处理包括提取出需要的大类、小类、所属街道、所属社区与文本描述信息。

如上的，其中，在生成识别库的过程中，还包括，自定义时间段T；在时间段T内完成识别库的生成，并在每隔时间段T内，对识别库进行更新。

如上的，其中，获取输入数据，根据识别库进行相似度的计算包括以下子步骤：对获取的输入数据进行预处理；根据预处理后的输入数据，进行数据相似度的计算。

如上的，其中，对获取的输入数据进行预处理包括，在输入数据中提取出需要的大类、小类、所属街道、所属社区与文本描述信息。

一种数据检测系统，包括预处理单元、识别库生成单元、相似度计算单元、文本数据集合确定单元以及检测输出单元；预处理单元用于进行原始数据预处理；识别库生成单元用于根据预处理后的原始数据，生成识别库；相似度计算单元用于获取输入数据，根据识别库进行相似度的计算；文本数据集合确定单元用于对相似度结果进行输出，确定文本数据集合；检测输出单元用于对文本数据集合进行检测处理并输出。

如上的，其中，预处理单元进行原始数据预处理包括提取出需要的大类、小类、所属街道、所属社区与文本描述信息。

如上的，其中，识别库生成单元在生成识别库的过程中，还包括，自定义时间段T；在时间段T内完成识别库的生成，并在每隔时间段T内，对识别库进行更新。

如上的，其中，相似度计算单元获取输入数据，根据识别库进行相似度的计算包括以下子步骤：对获取的输入数据进行预处理；根据预处理后的输入数据，进行数据相似度的计算。

如上的，其中，相似度计算单元对获取的输入数据进行预处理包括，在输入数据中提取出需要的大类、小类、所属街道、所属社区与文本描述信息。

本申请具有以下有益效果：

（1）本申请在获取输入的文本数据后，计算其二者的相似结果时，可以结合实际应用场景与需求，平衡相似度计算速度与精度性能，选取合适的方法来得到文本数据间的相似度得分，有效提升了文本数据相似度的计算效率。

（2）本申请在原始的文本数据中提取能够对文本案卷产生有效描述的文本属性，对其进行整合保存为识别库，对输入相似度计算方法的待比较历史数据进行了极大的精简。同时，结合提取出有效的文本属性，极大地提升了对文本案卷相似度计算方法的覆盖维度，提升了本发明方法在类似应用场景中的普适性，能够在其他应用环境实现相应的技术迁移。

（3）本申请对文本之间相似度的计算，可以将多个不同文本根据其之间的相似度得分来进行归类，使不同的文本描述指向同一个语义信息，实现诸如ChatGPT等文本对话算法中输入不同的文本描述对应同一个文本含义，同时也能够对此类自然语言处理模型的训练与测试时所需大量的文本数据进行整合，提升数据处理的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的数据检测的方法的流程图；

图2是根据本申请实施例提供的数据检测系统的内部结构示意图。

具体实施方式

下面结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明提供了一种数据检测方法，能够利用文本数据的内容对数据间的相似性进行优化，实现了在确定数据检测速度的同时，也提升了数据的检测精度，结合多个维度的属性来提升最终的检测结果，达到了同时兼顾速度与精度，提升了对输入数据的处理速度。

实施例一

如图1所示，为本实施例提供的一种数据检测方法，具体包括以下步骤：

步骤S110：进行原始数据预处理。

本实施例的原始数据是指文本案卷记录的数据信息。

由于在原始数据中，为了能够记录与描述地精准，便于后续流程的进展，每条文本案卷中记录的信息有很多，而其中大部分的属性是在数据的相似度计算中使用不到的。因此本实施例在初始会对这些冗余的初始数据进行关键信息提取，从中挑选在后续相似度计算时需要的大类、小类、所属街道、所属社区与文本描述等关键的文本信息进行保存。将其中大部分不能对文本案卷类型有描述意义的数据删除，可以便于后续计算的便捷，同时大大减少生成识别库所占的空间。

其中对原始文本数据进行预处理，首先定义一个时间段T，在时间段T内对原始文本数据进行预处理，将预处理后的原始文本数据保存为以二进制方式存储数据的npy格式文件。

步骤S120：根据预处理后的原始数据，生成识别库。

本实施例为了同时兼顾检测速度、识别精度与数据时效性，采用了识别库生成与相似度计算分离的方法。

其中在生成识别库的过程中，还包括，自定义时间段T。

该时间段T可由工作人员进行设置，具体数值范围在此不进行限定。

在时间段T内完成识别库的生成，并在每隔时间段T内，对识别库进行更新。

其中生成识别库具体通过下述方式实现：将对每条文本案卷信息的预处理结果以可被后续相似度计算接口直接读取的方式，保存为以二进制方式存储数据的npy格式文件，多个npy格式文件构成识别库，识别库中即包含文本案卷相同的大类、小类、所属街道、所属社区与文本描述等属性。

其中更新识别库具体通过下述方式实现：通过每隔T时间就对该文件进行一次更新，保证新加入的文本数据也纳入识别库中，保证了数据的实效性。

利用npy格式的文件来保存识别库与利用其他诸如xlsx或csv等文件的优势在于，此类利用二进制保存内部数据的文件可以在后续与输入数据进行逐一对比来计算相似度时，其需要的读取时间非常短，以此来实现保证新的文本案卷能够定时纳入识别库的同时，保证了文本数据相似度匹配计算的速度。

步骤S130：获取输入数据，根据识别库进行相似度的计算。

获取输入数据，根据识别库进行相似度的计算具体包括以下子步骤：

步骤S1301：对获取的输入数据进行预处理。

其中与对原始数据进行预处理的方式类似，输入数据中通常也存在很多冗余的文本信息，因此也需要从输入数据中提取出与识别库中文本案卷信息相同的大类、小类、所属街道、所属社区与文本描述等属性。

若输入数据中不存在文本案卷信息相同的大类、小类、所属街道、所属社区与文本描述等属性，则对相应的空白属性统一设置为空白值，便于后续数据处理保持一致性。

步骤S1302：根据预处理后的输入数据，进行数据相似度的计算。

其中相似度的计算包括以下子步骤：

步骤S13021：进行粗略相似度判断。

其中粗略相似度判断包括：对文本案卷属性中大类与小类进行强制性判断。只要输入数据的大小类与识别库中参与对比计算文本案卷的大小类有一个不一致，则会直接将该识别库中的文本案卷判断为不相似文本，以此来提升对文本类别相似度的匹配效率。

步骤S13022：进行细致相似度计算。

其中细致相似度的计算结果由文本案卷信息的属性相似度与描述相似度相加得到。

属性相似度由每组文本案卷对应的大类、小类、所属街道与所属社区这4个文本属性的匹配关系得出，描述相似度由每组文本案卷中文本描述的相似度计算得出。

属性相似度score具体表示为：score = A*0.1 + B*0.1 + C*0.1 + D*0.1 + E*0.6

其中A表示大类对应值，若输入数据对应的大类与识别库中任意文本案卷信息的大类是否一致，若一致，则A值为1，否则A值为0。B表示小类对应值，若输入数据对应的小类与识别库中任意文本案卷信息的小类是否一致，若一致，则B值为1，否则B值为0。C表示所述街道对应值，输入数据对应的所属街道与识别库中任意文本案卷信息的所属街道信息是否一致，若一致，则C值为1，否则C值为0。D值表示社区对应值，输入数据对应的所属社区与识别库中任意文本案卷信息的所属社区是否一致，若一致，则D值为1，否则D值为0。E表示案卷文本相似度值，具体表示输入数据的文本描述与识别库中任意文本案卷信息的文本描述的相似结果，具体数值分布在0到1之间，得分越高证明二者的相似度越高。

具体地，若参与计算的4个文本属性中存在空值，则对相应文本属性进行忽略，不参与到计算中，并将该属性对应的得分权重加权分配到其他剩余的计算属性中，以此来去除因未记录而产生的空值对文本案卷相似度计算的影响。

例如若参与计算的输入数据或识别库中对应的文本案卷信息的大类属性为空值，则将大类对应的权重0.1分配到小类、所属街道、所属社区中，具体可以将0.1等分为3份，分别分配给小类、所属街道、所属社区3个属性中。

具体地，在文本案卷描述相似度值的确定中，本实施例主要通过利用Bert结构实现的深度学习方法与基于词向量余弦相似度计算的数学方法进行确定。其中具体的实现方式分别为：

步骤F1：利用Bert结构实现的深度学习方法进行文本案卷描述相似度值的确定。

在基于Transformer实现的Bert网络结构中，其主体结构为对多层Transformer结构的堆叠，来得到更好的特征提取。该方法需要足够量的数据集来参与模型训练，以得到对文本数据相似程度较好的识别效果。在利用文本数据输入训练时，为了能使网络不受单向语言模型的限制，Bert会随机地采用MLM方法来对输入的文本利用MASK来替换，并且对生成的MASK会以不同概率来进行掩盖、随机改变与保持不变三种操作，以此来得到更好的识别效果。

在对进行比对的两个文本数据进行相似度训练计算时，会将二者进行合并，得到合并文本数据，将合并文本数据的中间利用SEP分隔符进行隔开，在头部插入CLS标识来代表合并后两个文本的整体表示。之后Bert会基于自注意力机制来计算不同文本词之间的相关性，其中注意力结果

表示为：/>

，

其中，W^Q、W^K、W^V是三个可训练的参数矩阵，X为输入的特征信息矩阵，Q、K、V即输入矩阵与对应的变换矩阵相乘，该方法处理后数据中每个词通过对应权重矩阵映射而来，相当于经历了一次线性变换，可大大增强模型的拟合能力。K^T是K的转置矩阵，QK^T即为不同词之间的相似度矩阵，d_k为矩阵K的维度大小，对分子QK^T中的每个元素除以

，是为了将计算的相似度矩阵变为标准正态分布，使得整体结果方差变小，训练时梯度更新稳定。再进行softmax归一化，使得每个字符与其他所有字符的注意力权重之和为1。最后再与矩阵V相乘，得到原始输入X各词的最终加权求和结果。

这样就使得矩阵中每个字符嵌入的值都包含有与其他所有字符的相关信息，得到原始数据数据中所有字符的相互注意力机制矩阵，通过该注意力结果就可以得到对训练数据有着高鲁棒性的相似度检测模型，完成文本数据的训练。

步骤F2：基于词向量余弦相似度计算的数学方法进行文本案卷描述相似度值的确定。

其中本实施例利用TF-IDF方法来提取文本中能够有效代表语义的关键词。首先利用TF方法来提取原始数据中的中文含义词频，在利用停用词库将原始数据中的无意义连接词去除后，统计其中出现频率较高有实际意义的词语，来组成高频词语库。之后利用IDF方法来统计其逆文档频率，在该条文本数据中挑选出在所有的语料信息库中出现频率高的词语，这类词语虽然具有实际意义，但是在所有的语料库中有这大范围的出现，不能对该条输入数据起到代表性作用，故需要对此类词语进行惩罚，以此来得到更好的关键词提取。

在完成对原始数据的有效高频词语提取后，将两个文本数据提取出所有的词语保存构建为词袋，并计算出词袋中每个词语对应出现的频率，利用该频率构建文本对应的词频向量做为该数据的特征向量，最后利用该词频特征向量来计算二者的余弦值，得到这一组文本的余弦相似度作为案卷文本相似度的结果。具体计算词袋余弦相似度

的公式如下：

，

其中，x1与x2分别为每次计算时两个文本对同一词袋中关键词的词频向量，

为对这多维向量之间的内积计算，分母为两个词频向量相对于原点欧式距离的乘积。

以此来计算得到输入两个文本相对于共同生成词袋中的词袋向量余弦距离，得出两个文本的相似度，得分越高，则判断输入的文本对相似度越高。

步骤S140：对相似度结果进行输出，确定文本数据集合。

其中根据上述方式，将得到的属性相似度与描述相似度进行加权求和，得出最终二者文本案卷的相似度得分。将识别库中所有文本案卷的相似度得分进行排名，输出其中得分大于指定阈值的文本案卷信息的数量，并将识别库中得分大于指定阈值的文本案卷信息形成文本数据集合。

步骤S150：对文本数据集合进行检测处理并输出。

其中文本数据集合代表了与原始数据数据比较相似的多个文本，最终需要将该集合作为比对结果进行输出，但是在输出的过程中可能存在一些问题导致输出错误，因此需要对文本数据集合进行检测处理，以保证比对结果输出的准确性。

在该文本数据集合中，首先实时获取文本数据集合的信任值，信任值表示对该集合的信任程度，信任值的大小取决于该集合是否传输存在异常，若传输存在异常，则信任值的数值会小于指定阈值，若该集合不存在异常，则信任值会大于指定阈值。

当信任值小于指定阈值，则意味着该集合的文本存在传输困难或异常的情况，则发出提示，提示该集合为异常状态，将该集合标记为不信任，再次从识别库中选取与输入数据相似的文本。

当信任值大于指定阈值时，输出文本数据集合。

其中信任值具体

表示为：

其中i表示文本数据集合中第i个文本案卷信息，N表示文本数据集合中文本案卷信息的数量，

表示第i个文本案卷信息传输时所需带宽，/>

表示第i个文本案卷信息的数据完整度，一般来讲，若文本案卷信息不存在缺少信息，数据字段的情况下，则完整度为100%，若缺少数据字段，则将其完整度设为50%，p表示预先设置的传输链路故障概率，一般来讲，文本案卷信息通过传输链路进行传输，可能存在传输链路故障的可能，因此在计算信任值时也将传输链路故障的概率考虑进去。

实施例二

如图2所示，本申请提供了一种数据检测系统，其中具体包括：预处理单元210、识别库生成单元220、相似度计算单元230、文本数据集合确定单元240以及检测输出单元250。

其中预处理单元210用于进行原始数据预处理。

识别库生成单元220用于根据预处理后的原始数据，生成识别库。

其中在生成识别库的过程中，还包括，自定义时间段T。

相似度计算单元230用于获取输入数据，根据识别库进行相似度的计算。

其中相似度计算单元230包括以下子模块：预处理模块、相似度计算模块。

预处理模块用于对获取的输入数据进行预处理。

若输入数据中不存在文本案卷信息相同的大类、小类、所属街道、所属社区与文本描述等属性，则对相应的空白属性进行填充。

相似度计算模块用于根据预处理后的输入数据，进行数据相似度的计算。

其中相似度计算模块执行以下子步骤：

步骤T1：进行粗略相似度判断。

步骤T2：进行细致相似度计算。

属性相似度score具体表示为：

score = A*0.1 + B*0.1 + C*0.1 + D*0.1 + E*0.6

具体地，在文本案卷描述相似度值的确定中，本实施例主要通过利用Bert结构实现的深度学习方法与基于词向量余弦相似度计算的数学方法进行确定。这两个方法的具体实现方式如下：

表示为：

，

，是为了将计算的相似度矩阵变为标准正态分布，使得整体结果方差变小，训练时梯度更新稳定。再进行softmax归一化，使得每个字符与其他所有字符的注意力权重之和为1。最后再与矩阵V相乘，得到原始输入X各词的最终加权求和结果。/>

其中本实施例利用TF-IDF方法来提取文本中能够有效代表语义的关键词。首先利用TF方法来提取文本中的中文含义词频，在利用停用词库将原始数据中的无意义连接词去除后，统计其中出现频率较高有实际意义的词语，来组成高频词语库。之后利用IDF方法来统计其逆文档频率，在该条文本数据中挑选出在所有的语料信息库中出现频率高的词语，这类词语虽然具有实际意义，但是在所有的语料库中有这大范围的出现，不能对该条输入数据起到代表性作用，故需要对此类词语进行惩罚，以此来得到更好的关键词提取。

的公式如下：

，

文本数据集合确定单元240用于对相似度结果进行输出，确定文本数据集合。

检测输出单元250用于对文本数据集合进行检测处理并输出。其中文本数据集合代表了与原始数据数据比较相似的多个文本，最终需要将该集合作为比对结果进行输出，但是在输出的过程中可能存在一些问题导致输出错误，因此需要对文本数据集合进行检测处理，以保证比对结果输出的准确性。

当信任值大于指定阈值时，输出文本数据集合。

其中信任值具体

表示为：

，

表示第i个文本案卷信息传输时所需带宽，/>

本申请具有以下有益效果：

虽然当前申请参考的示例被描述，其只是为了解释的目的而不是对本申请的限制，对实施方式的改变，增加和/或删除可以被做出而不脱离本申请的范围。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。