CN113342799B

CN113342799B - 一种数据修正方法及系统

Info

Publication number: CN113342799B
Application number: CN202110905953.2A
Authority: CN
Inventors: 姚娟娟; 钟南山
Original assignee: Mingpinyun Beijing Data Technology Co Ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-12-21
Anticipated expiration: 2041-08-09
Also published as: CN113342799A

Abstract

本发明提供一种数据修正方法及系统，方法包括：从预设的实验数据库中获取实验数据，所述实验数据带有分类标签；根据所述分类标签，从预设的标准数据库中获取与所述实验数据对应的标准数据，所述标准数据用于为实验提供数据指导；通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据；将所述待修正数据和多项对应的所述实验数据输入预设的修正参数获取模型，获取所述待修正数据的修正参数；根据所述修正参数，对所述待修正数据进行修正；本发明中的数据修正方法，实现了对标准数据库中的标准数据的实时修正，避免由于标准数据修正不及时，而导致用户的体验感较差的问题，修正准确率较高，自动化程度较高。

Description

一种数据修正方法及系统

技术领域

本发明涉及数据处理领域，尤其涉及一种数据修正方法及系统。

背景技术

在实验研究过程中，通常利用行业标准数据为实验人员提供指导或参考，帮助实验人员获取实验数据，而随着数据处理技术的发展，技术迭代的速度越来越快，数据的应用场景也越来越广泛，导致标准数据和实验数据之间的差异越来越大，标准数据的更新速度逐渐跟不上实际应用场景的需求，不足以为实验人员的实际操作提供一定有意义的指导。

发明内容

本发明提供一种数据修正方法及系统，以解决现有技术中标准数据修正不及时，以及修正准确率较低的问题。

本发明提供的数据修正方法，包括：

从预设的实验数据库中获取实验数据，所述实验数据带有分类标签；

根据所述分类标签，从预设的标准数据库中获取与所述实验数据对应的标准数据，所述标准数据用于为实验提供数据指导；

通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据；

将所述待修正数据和多项对应的所述实验数据输入预设的修正参数获取模型，获取所述待修正数据的修正参数；

根据所述修正参数，对所述待修正数据进行修正；

所述修正参数获取模型的获取步骤包括：

获取第二训练集，所述第二训练集包括：多项第二实验数据样本和对应的第二标准数据样本，以及第二实验数据样本与第二标准数据样本之间的标注修正参数；

将所述第二训练集中的多项第二实验数据样本和对应的第二标准数据样本分别输入深度神经网络进行特征提取，获取第二实验数据样本和第二标准数据样本之间的相同数据特征和不同数据特征；

根据所述相同数据特征和所述不同数据特征，获取修正参数获取模型；

根据所述相同数据特征和所述不同数据特征，获取修正参数获取模型的步骤包括：

根据所述相同数据特征和不同数据特征，确定第一权值和第二权值，所述第一权值与相同数据特征相对应，所述第二权值与不同数据特征相对应；

根据所述相同数据特征、不同数据特征，以及对应的第一权值和第二权值，获取预测修正参数；

根据所述预测修正参数、标注修正参数和预设的第二损失函数，对所述深度神经网络进行训练，获取修正参数获取模型。

可选的，从预设的标准数据库中获取与所述实验数据对应的标准数据的步骤包括：

预先构建用于存储实验数据的实验数据库；

对所述实验数据进行分类，并标注对应的分类标签；

预先构建用于存储标准数据的标准数据库，所述标准数据库与所述实验数据库相关联；

对所述标准数据进行分类，确定所述标准数据的类别；

根据所述分类标签与所述标准数据的类别，获取与所述实验数据对应的标准数据。

可选的，通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据的步骤包括：

对多项对应的所述实验数据进行预处理，预处理的步骤包括：根据预先的实验数据阈值范围，去除超出所述实验数据阈值范围的实验数据，获取预处理数据；

将所述预处理数据和所述标准数据分别输入预先训练好的差异识别模型进行差异识别，获取标准数据与预处理数据之间的差异度；

判断标准数据与多项对应的实验数据之间的差异度是否均超出预设的差异阈值范围，获取判断结果，根据判断结果，确定待修正数据。

可选的，所述差异识别模型的获取步骤包括：

获取第一训练集，所述第一训练集包括：多项第一实验数据样本和对应的第一标准数据样本，以及第一实验数据样本与第一标准数据样本之间的第一标注差异值；

将所述第一训练集中的多项第一实验数据样本和对应的第一标准数据样本分别输入卷积神经网络进行特征提取，获取第一实验数据特征和第一标准数据特征；

根据所述第一实验数据特征和所述第一标准数据特征，确定所述第一训练集中的第一实验数据样本和对应的第一标准数据样本之间的第一预测差异值；

根据所述第一预测差异值、第一标注差异值和预设的第一损失函数，对所述卷积神经网络进行训练，获取差异识别模型。

可选的，确定第一权值和第二权值的步骤包括：根据预先设置的权值设置策略，对所述相同数据特征和不同数据特征进行权值分配，获取第一权值和第二权值，所述第一权值小于或等于第二权值。

可选的，根据所述修正参数，对所述待修正数据进行修正的步骤包括：

将所述修正参数替代所述标准数据库中的待修正数据，获取最终数据，完成数据修正。

可选的，创建实验数据库与中心云端的第一连接，并且，创建标准数据库与中心云端的第二连接；

通过所述第一连接对应的接口、所述第二连接对应的接口，从中心云端获取对应的实验数据和标准数据，并分别存储至实验数据库和标准数据库。

本发明还提供一种数据修正系统，包括：

待修正数据获取模块，用于从预设的实验数据库中获取实验数据，所述实验数据带有分类标签；根据所述分类标签，从预设的标准数据库中获取与所述实验数据对应的标准数据，所述标准数据用于为实验提供数据指导；通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据；

修正参数获取模块，用于将所述待修正数据和多项对应的所述实验数据输入预设的修正参数获取模型，获取所述待修正数据的修正参数；

数据修正模块，用于根据所述修正参数，对所述待修正数据进行修正；所述待修正数据获取模块、修正参数获取模块和数据修正模块连接；

所述修正参数获取模型的获取步骤包括：

本发明的有益效果：本发明中的数据修正方法，通过根据分类标签，从预设的标准数据库中获取与实验数据对应的标准数据，将标准数据与多项对应的实验数据进行对比，获取差异度，根据差异度，确定待修正数据，将待修正数据和多项对应的所述实验数据输入预设的修正参数获取模型，获取待修正数据的修正参数，根据修正参数，对待修正数据进行修正，实现了对标准数据库中的标准数据的实时修正，避免由于标准数据修正不及时，而导致用户的体验感较差的问题，修正准确率较高，自动化程度较高。

附图说明

图1是本发明实施例中数据修正方法的流程示意图。

图2是本发明实施例中数据修正方法中获取与实验数据对应的标准数据的流程示意图。

图3是本发明实施例中数据修正方法中确定待修正数据的流程示意图。

图4是本发明实施例中数据修正方法中获取修正参数获取模型的流程示意图。

图5是本发明实施例中数据修正系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

发明人发现，目前，在实验研究过程中，通常利用行业标准数据为实验人员提供指导或参考，帮助实验人员获取实验数据，而随着数据处理技术的发展，技术迭代的速度越来越快，数据的应用场景也越来越广泛，导致标准数据和实验数据之间的差异越来越大，标准数据的更新速度逐渐跟不上实际应用场景的需求，标准数据的修正准确率较低，不足以为实验人员的实际操作提供一定有意义的指导，如医学研究过程中，通常以基础医学研究数据作为行业的标准数据，以该标准数据为临床医学实验提供数据指导，然而，由于临床医学实验数据变化较快，标准数据很难较好地跟上实验数据的更新与修正速度，且修正的准确率较低。因此，发明人提出一种数据修正方法及系统，通过根据分类标签，从预设的标准数据库中获取与实验数据对应的标准数据，将标准数据与多项对应的实验数据进行对比，获取差异度，根据差异度，确定待修正数据，将待修正数据和多项对应的所述实验数据输入预设的修正参数获取模型，获取待修正数据的修正参数，根据修正参数，对待修正数据进行修正，实现了对标准数据库中的标准数据的实时修正，避免由于标准数据修正不及时，而导致用户的体验感较差的问题，修正准确率较高，自动化程度较高，可实施性较强，成本较低。

如图1所示，本实施例中的数据修正方法，包括：

S1：从预设的实验数据库中获取实验数据，所述实验数据带有分类标签；例如：根据预先设置的实验数据获取频率，从所述实验数据库中定期获取实验数据，便于后续对标准数据库中的标准数据进行实时更新。

在一些实施例中，预先构建用于存储实验数据的实验数据库；对实验数据的类别，对所述实验数据进行分类，并标注对应的分类标签；通过对实验数据进行分类标签的标注，能够有助于建立不同实验数据与标准数据之间的对应关系。

S2：根据所述分类标签，从预设的标准数据库中获取与所述实验数据对应的标准数据，所述标准数据用于为实验提供数据指导；即利用所述分类标签，确定与实验数据相对应的标准数据。

S3：通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据；如：当标准数据与多项对应的实验数据之间的差异度均超出预设的差异阈值范围时，则将对应的标准数据确定为待修正数据。

S4：将所述待修正数据和多项对应的所述实验数据输入预设的修正参数获取模型，获取所述待修正数据的修正参数；通过将待修正数据和多项对应的实验数据输入训练好的修正参数获取模型进行修正参数获取，能够提高修正参数的准确度。

S5：根据所述修正参数，对所述待修正数据进行修正。通过根据修正参数，对待修正数据进行修正，实现了对标准数据库中的标准数据的实时修正，避免由于标准数据修正不及时，而导致用户的体验感较差的问题，修正准确率较高，自动化程度较高，成本较低，实施较方便。

在一些实施例中，根据所述修正参数，对所述待修正数据进行修正的步骤包括：将所述修正参数替代所述标准数据库中的待修正数据，获取最终数据，完成数据修正。

请参考图2，由于标准数据库中的标准数据与实验数据库中的实验数据的数据量较大，因此，通过设置分类标签，能够便于获取与实验数据相对应的标准数据。进一步地，从预设的标准数据库中获取与所述实验数据对应的标准数据的步骤包括：

S201：预先构建用于存储实验数据的实验数据库；

S202：对所述实验数据进行分类，并标注对应的分类标签；

S203：预先构建用于存储标准数据的标准数据库，所述标准数据库与所述实验数据库相关联；

S204：对所述标准数据进行分类，确定所述标准数据的类别；

S205：根据所述分类标签与所述标准数据的类别，获取与所述实验数据对应的标准数据。即根据实验数据的分类标签，获取与分类标签相匹配的标准数据的类别，根据该类别，确定对应的标准数据。

如图3所示，为了较好地获取待修正数据，本实施例中通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据的步骤包括：

S301：对多项对应的所述实验数据进行预处理，预处理的步骤包括：根据预先的实验数据阈值范围，去除超出所述实验数据阈值范围的实验数据，获取预处理数据；通过对多项实验数据进行预处理，能够去除实验数据中的超出实验数据的正常范围的数据，避免对后续标准数据的修正产生影响。所述实验数据阈值范围可以根据实际情况进行设置，不同类别的实验数据可以对应不同的实验数据阈值范围，此处不再赘述。

S302：将所述预处理数据和所述标准数据分别输入预先训练好的差异识别模型进行差异识别，获取标准数据与预处理数据之间的差异度；通过获取标准数据和预处理数据之间的差异度，能够有助于确定待修正数据。

S303：判断标准数据与多项对应的实验数据之间的差异度是否均超出预设的差异阈值范围，获取判断结果，根据判断结果，确定待修正数据。若标准数据与多项对应的实验数据之间的差异度均超出预设的差异阈值范围，则将对应的标准数据确定为待修正数据。或者，还可以设置数量比值，若标准数据与多项对应的实验数据之间的差异度超出预设的差异阈值范围，且超出预设的差异阈值范围的次数大于所述数量比值时，则将对应的标准数据确定为待修正数据。

在一些实施例中，所述差异识别模型的获取步骤包括：

根据所述第一预测差异值、第一标注差异值和预设的第一损失函数，对所述卷积神经网络进行迭代训练，获取差异识别模型。所述第一损失函数可以采用常见的交叉熵损失函数和均方误差损失函数等，此处不再赘述。通过获取差异识别模型，能够较准确地识别出标准数据与实验数据之间的差异度。

请参考图4，所述修正参数获取模型的获取步骤包括：

S401：获取第二训练集，所述第二训练集包括：多项第二实验数据样本和对应的第二标准数据样本，以及第二实验数据样本与第二标准数据样本之间的标注修正参数；

S402：将所述第二训练集中的多项第二实验数据样本和对应的第二标准数据样本分别输入深度神经网络进行特征提取，获取第二实验数据样本和第二标准数据样本之间的相同数据特征和不同数据特征；

S403：根据所述相同数据特征和不同数据特征，确定第一权值和第二权值，所述第一权值与相同数据特征相对应，所述第二权值与不同数据特征相对应；通过对相同数据特征和不同数据特征分别设置不同的权值，有助于获取预测修正参数。

在一些实施例中，确定第一权值和第二权值的步骤包括：根据预先设置的权值设置策略，对所述相同数据特征和不同数据特征进行权值分配，获取第一权值和第二权值，所述第一权值小于或等于第二权值。

S404：根据所述相同数据特征、不同数据特征，以及对应的第一权值和第二权值，获取预测修正参数；即根据所述第一权值和第二权值，对相同数据特征和不同数据特征进行加权，获取预测修正参数，精确度较高。

S405：根据所述预测修正参数、标注修正参数和预设的第二损失函数，对所述深度神经网络进行训练，获取修正参数获取模型。所述第二损失函数可以为对数似然损失函数等常见的损失函数，此处不再赘述。

为了完善实验数据库与标准数据库中的数据资源，发明人提出，创建实验数据库与中心云端的第一连接，并且，创建标准数据库与中心云端的第二连接；通过所述第一连接对应的接口、所述第二连接对应的接口，从中心云端获取对应的实验数据和标准数据，并分别存储至实验数据库和标准数据库。通过建立实验数据库与中心云端的连接，同时，建立标准数据库与中心云端的连接，能够便于实验数据库和标准数据库从中心云端实时获取相应的实验数据和标准数据，丰富实验数据库和标准数据库中的数据内容。

在一些实施例中，将多个关联终端与所述中心云端建立第三连接，并且，将多个所述关联终端与实验数据库建立第四连接；

通过所述第三连接和第四连接，所述实验数据库从中心云端和多个所述关联终端获取相应的实验数据并进行存储。通过建立关联终端与中心云端的连接，同时，建立实验数据库与关联终端的连接，能够便于实验数据库从中心云端或关联终端实时获取实验数据，用户也可以通过关联终端上传相应的实验数据至实验数据库。如医生通过手机或电脑将实时实验数据上传至实验数据库。

在一些实施例中，还可以采集数据修正需求，所述数据修正需求包括：待修正数据，根据所述数据修正需求，进行数据修正。

如图5所示，本实施例还提供一种数据修正系统，包括：

数据修正模块，用于根据所述修正参数，对所述待修正数据进行修正；所述待修正数据获取模块、修正参数获取模块和数据修正模块依次连接。通过根据分类标签，从预设的标准数据库中获取与实验数据对应的标准数据，将标准数据与多项对应的实验数据进行对比，获取差异度，根据差异度，确定待修正数据，将待修正数据和多项对应的所述实验数据输入预设的修正参数获取模型，获取待修正数据的修正参数，根据修正参数，对待修正数据进行修正，实现了对标准数据库中的标准数据的实时修正，避免由于标准数据修正不及时，而导致用户的体验感较差的问题，修正准确率较高，自动化程度较高，可实施性较强，成本较低。

在一些实施例中，从预设的标准数据库中获取与所述实验数据对应的标准数据的步骤包括：

预先构建用于存储实验数据的实验数据库；

对所述实验数据进行分类，并标注对应的分类标签；

对所述标准数据进行分类，确定所述标准数据的类别；

在一些实施例中，通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据的步骤包括：

在一些实施例中，所述差异识别模型的获取步骤包括：

在一些实施例中，所述修正参数获取模型的获取步骤包括：

根据所述相同数据特征和所述不同数据特征，获取修正参数获取模型。

在一些实施例中，根据所述相同数据特征和所述不同数据特征，获取修正参数获取模型的步骤包括：

在一些实施例中，根据所述修正参数，对所述待修正数据进行修正的步骤包括：

在一些实施例中，创建实验数据库与中心云端的第一连接，并且，创建标准数据库与中心云端的第二连接；

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本实施例中的任一项方法。

本实施例还提供一种电子终端，包括：处理器及存储器；

所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行本实施例中任一项方法。

本实施例中的计算机可读存储介质，本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供的电子终端，包括处理器、存储器、收发器和通信接口，存储器和通信接口与处理器和收发器连接并完成相互间的通信，存储器用于存储计算机程序，通信接口用于进行通信，处理器和收发器用于运行计算机程序，使电子终端执行如上方法的各个步骤。

在本实施例中，存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种数据修正方法，其特征在于，包括：

根据所述修正参数，对所述待修正数据进行修正；

所述修正参数获取模型的获取步骤包括：

2.根据权利要求1所述的数据修正方法，其特征在于，从预设的标准数据库中获取与所述实验数据对应的标准数据的步骤包括：

预先构建用于存储实验数据的实验数据库；

对所述实验数据进行分类，并标注对应的分类标签；

对所述标准数据进行分类，确定所述标准数据的类别；

3.根据权利要求1所述的数据修正方法，其特征在于，通过对比标准数据与多项对应的实验数据之间的差异度，确定待修正数据的步骤包括：

4.根据权利要求3所述的数据修正方法，其特征在于，所述差异识别模型的获取步骤包括：

5.根据权利要求1所述的数据修正方法，其特征在于，确定第一权值和第二权值的步骤包括：根据预先设置的权值设置策略，对所述相同数据特征和不同数据特征进行权值分配，获取第一权值和第二权值，所述第一权值小于或等于第二权值。

6.根据权利要求1所述的数据修正方法，其特征在于，根据所述修正参数，对所述待修正数据进行修正的步骤包括：

7.根据权利要求1所述的数据修正方法，其特征在于，

创建实验数据库与中心云端的第一连接，并且，创建标准数据库与中心云端的第二连接；

8.一种数据修正系统，其特征在于，包括：

所述修正参数获取模型的获取步骤包括：