CN117390005A

CN117390005A - 基于大数据的检验预测方法、装置、计算机设备及存储介质

Info

Publication number: CN117390005A
Application number: CN202311378397.3A
Authority: CN
Inventors: 吴俊纯; 陈泽锋; 吴彦豪; 王军涵; 李志华; 林琳; 张宇涛; 郭璇
Priority date: 2023-10-23
Filing date: 2023-10-23
Publication date: 2024-01-12

Abstract

本发明涉及互联网大数据领域，提出一种基于大数据的检验预测方法、装置、计算机设备及存储介质，获取检验数据并对检验数据进行分类、清洗、整理后，以检验数据为基础进行多次迭代训练从而获得检验预测模型，该检验预测模型能够对待检验样品进行精确的预测，从而提高检验机构的检验效率及检验准确率。

Description

基于大数据的检验预测方法、装置、计算机设备及存储介质

技术领域

本发明涉及互联网大数据领域，尤其涉及基于大数据的检验预测方法、装置、计算机设备及存储介质。

背景技术

全国的检验检测行业发展已久，检验检测项目的数量也是每年在不断增加，随着检验检测项目的增加，国内的检验机构工作量也是与日俱增。如果能够将过去多年间的检验检测项目的数据进行整合，利用现在的大数据技术挖掘这些数据间的互相关系，并利用这些数据对之后的检验检测项目进行预测，有助于提高检验机构的工作效率和工作质量。

发明内容

本申请实施例提供了一种基于大数据的检验预测方法、装置、计算机设备及存储介质，能够整合检验数据，通过大数据技术对未来的检验样品进行预测，该技术方案如下：

第一方面，本申请实施例提供了一种基于大数据的检验预测方法，包括步骤：

获取检验数据库中的检验数据并将其存入到预测数据库中；

将所述预测数据库中的所述检验数据以预设分类规则进行分类；

按照预设符号规则去除所述检验数据中的特殊符号；

将所述检验数据中的文本数据按照预设文本清洗规则进行文本数据清洗处理；

通过预设的词袋模型将所述检验数据中的文本数据转换为向量形式从而得到所述文本数据的特征向量，再对所述特征向量进行归一化处理；

将归一化处理后的所述特征向量按照预设数学建模算法规则进行多次迭代训练得到检验预测模型；

获取待检验样品信息，按照预设数据挖掘规则挖掘出所述预测数据库中的与所述待检验样品相关的检验数据并提取为预测数据集，将所述预测数据集与所述待检验样品信息输入到所述检验预测模型中，从而得到检验预测结果。

第二方面，本申请实施例同样提供了一种基于大数据的检验预测装置，包括：

检验数据收集模块，用于获取检验数据库中的检验数据并将其存入到预测数据库中；

数据整理清洗模块，用于将所述预测数据库中的所述检验数据以预设分类规则进行分类，按照预设符号规则去除所述检验数据中的特殊符号，将所述检验数据中的文本数据按照预设文本清洗规则进行文本数据清洗处理，通过预设的词袋模型将所述检验数据中的文本数据转换为向量形式从而得到所述文本数据的特征向量，再对所述特征向量进行归一化处理；

模型训练模块，用于将归一化处理后的所述特征向量按照预设数学建模算法规则进行多次迭代训练得到检验预测模型；

样品预测模块，用于获取待检验样品信息，按照预设数据挖掘规则挖掘出所述预测数据库中的与所述待检验样品相关的检验数据并提取为预测数据集，将所述预测数据集与所述待检验样品信息输入到所述检验预测模型中，从而得到检验预测结果。

第三方面，本申请实施例提供了一种计算机设备，处理器、存储器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如第一方面方法的步骤。

本申请实施例的基于大数据的检验预测方法及其系统，获取检验数据并将其存入到预测数据库中，然后对预测数据库中的检验数据进行分类，去除检验数据中的特殊符号、将检验数据中的文本数据进行清洗处理、通过词袋模型将文本数据转换为向量形式，从而得到特征向量，再对特征向量进行归一化处理，将归一化处理后的特征向量按照数学建模算法进行多次迭代训练从而得到检验预测模型，随后获取待检验样品的信息，挖掘待检验样品相关的检验数据并将其提取为预测数据集后，将其与所述待检验样品信息一起输入到检验预测模型中，从而得到检验预测模型对待检验样品的检验预测结果。本申请的技术方案，通过清洗整理检验数据，对清洗整理后的检验数据进行迭代训练从而得到一个检验预测模型，该检验预测模型可以对待检验样品进行精确的预测，从而有效减少相关检验机构的工作量，并提高检验机构的检验准确率和检验速度。

为了更好地理解和实施，下面结合附图详细说明本申请的技术方案。

附图说明

图1为本申请第一实施例提供的基于大数据的检验预测方法的流程示意图；

图2为本申请第二实施例提供的基于大数据的检验预测装置的结构示意图；

图3为本申请第三实施例提供的计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

实施例1

请参阅图1，图1为本申请第一实施例提供的基于大数据的检验预测方法的流程示意图。

在一个实施例中，本申请的基于大数据的检验预测方法包括以下步骤：

S101:获取检验数据库中的检验数据并将其存入到预测数据库中。

S102:将所述预测数据库中的所述检验数据以预设分类规则进行分类。

S103:按照预设符号规则去除所述检验数据中的特殊符号。

S104:将所述检验数据中的文本数据按照预设文本清洗规则进行文本数据清洗处理。

S105:通过预设的词袋模型将所述检验数据中的文本数据转换为向量形式从而得到所述文本数据的特征向量，再对所述特征向量进行归一化处理。

S106:将归一化处理后的所述特征向量按照预设数学建模算法规则进行多次迭代训练得到检验预测模型。

S107:获取待检验样品信息，按照预设数据挖掘规则挖掘出所述预测数据库中的与所述待检验样品相关的检验数据并提取为预测数据集，将所述预测数据集与所述待检验样品信息输入到所述检验预测模型中，从而得到检验预测结果。

本申请实施例的基于大数据的检验预测方法及其系统，获取检验数据并将其存入到预测数据库中，然后对预测数据库中的检验数据进行分类，去除检验数据中的特殊符号、将检验数据中的文本数据进行清洗处理、通过词袋模型将文本数据转换为向量形式，从而得到特征向量，再对特征向量按照数学建模算法进行多次迭代训练从而得到检验预测模型，随后获取待检验样品的信息，挖掘待检验样品相关的检验数据并将其提取为数据集后，将其与所述待检验样品信息一起输入到检验预测模型中，从而得到检验预测模型对待检验样品的检验预测结果。本申请的技术方案，通过清洗整理检验数据，对清洗整理后的检验数据进行迭代训练从而得到一个检验预测模型，该检验预测模型可以对待检验样品进行精确的预测，从而有效减少相关检验机构的工作量，并提高检验机构的检验准确率和检验速度。

下面将针对步骤S101～S107进行详细说明。

关于S101,获取检验数据库中的检验数据并将其存入到预测数据库中。

其中，所述检验数据库预先存储来自检验检测行业的各项公开的检验数据，所述检验数据即检验项目进行时所产生的各项数据，包括有检验样品自身的数据、检验项目的委托方、检验项目的实施方、检验项目的具体时间、地点等。

在一个实施例中，所述预测数据库为关系型数据库PostgreSQL，所述预测数据库包括有文本索引插件，通过所述文本索引插件可根据关键词在所述预测数据库中进行全文搜索。

所述关系型数据库PostgreSQL支持多种数据类型，包括整数、浮点数、文本、日期/时间、数组、JSON、XML等，它还支持自定义数据类型，允许用户定义自己的数据结构。在其他的实施例中，所述预测数据库也可以是Oracle数据库，或者是SQL Server数据库，管理员可以根据自己的需求选择所述预测数据库的类型。

关于S102，将所述预测数据库中的所述检验数据以预设分类规则进行分类。

所述预设分类规则可以预先设置，所述预测数据库按照预设的分类规则对存入的检验数据进行分类。

在一个实施例中，所述以预设分类规则对所述检验数据进行分类可包括以下分类方式中的任意一种或者两种以上的组合：

以检验样品的种类对所述检验数据进行分类；

以检验结果是否符合预设的检验标准对所述检验数据进行分类；

以提供所述检验数据的检验检测机构对所述检验数据进行分类；

以不同的检验委托方对所述检验数据进行分类。

其中，所述预设的检验标准可以是检验检测行业对同种类型的检验项目的公认的检测标准，或者所述预设的检验标准则是来自委托方的检验标准。

在其他实施例中，还可以使用与上述不同的分类方式对所述检验数据进行分类。具体可根据管理人员的需求进行设置。

关于S103，按照预设符号规则去除所述检验数据中的特殊符号。

所述检验数据来自于检验检测行业，其中包括有各家不同的检验机构，各家不同的检验机构记录的检验数据中带有自家特有的标记符号。清洗这些特有的标记符号，可以减少这些特有的标记符号对后续检验数据的使用的影响。

所述预设符号规则中可以预先设定好需要保留的符号，或记载设定需要除去的符号，这样按照所述预设符号规则便可将特有标记符号清除。所述预设符号规则可以由管理人员自行设定。

在一个实施例中，所述按照预设符号规则去除特殊符号的步骤包括：将除“*”、“％”、“&”、“*”、“^”、“-”、“+”、“/”、“＝”以外的符号去除。

在其他实施例中，所述预设符号规则可以由管理人员自行进行设置需要保留或是需要除去的符号。

关于S104，将所述检验数据中的文本数据按照预设文本清洗规则进行文本数据清洗处理。

所述文本数据，即检验数据之中的除数字和符号外的中文文本数据和英文文本数据。文本数据中存在重复、无用的数据，需要对其进行清洗，便于后续利用。所述预设文本清洗规则中设定了对文本数据进行清洗的具体步骤，可以由管理人员自行设定。

在一个实施例中，所述按照文本清洗规进行文本数据清洗的步骤包括以下任意一种或者两种以上的组合：

将中文文本数据转换为简体形式，将英文文本数据转换为小写形式；

删除所述文本数据中与预设停用词表中相同的词；

对所述英文文本数据进行分词和词干提取。

所述文本数据中有中文文本数据和英文文本数据两种形式，中文文本数据存在繁体形式和简体形式，英文文本数据存在大写形式和小写形式，为了避免混淆和重复，需要将中文文本数据和英文文本数据的形式各自进行统一，将中文文本数据统一转换为简体形式，将英文文本数据转换为小写形式，管理人员可以自行设置中文文本数据和英文文本数据的统一形式。

所述预设停用词表中设置有需要去除的停用词。所述停用词，即频繁出现但没有实际语义的词语，如介词、连词、冠词、代词等等，中文文本数据和英文文本数据都有停用词，例如中文文本数据中的“的”、“得”、“地”，英文文本数据中的“the”“that”等词语都是常见的停用词。管理人员通过预设停用词表中的停用词，可以将文本数据中的与停用词表一致的词语去除，可以精简文本数据。

分词和词干提取是常见的用于英文文本数据的数据处理手段。所述分词，即对一整段英文文本数据进行识别，将其单独分为一个个的英文单词，再对这些英文单词进行词干提取，找到其最根本的词根，这样可以进一步精简英文文本数据。所述词干提取需要通过具体的算法实现。

在一个实施例中，所述具体算法可以是Porter词干提取算法，在另一个实施例中，所述具体算法也可以是Snowball词干提取算法，或是其他的词干提取算法。

关于S105，通过预设的词袋模型将所述检验数据中的文本数据转换为向量形式从而得到所述文本数据的特征向量，再对所述特征向量进行归一化处理。

所述词袋模型(Bag of Words，BoW)是自然语言处理(NLP)中一种简单但常用的文本处理方法，通过词袋模型，可以将先前清洗过的文本数据转换为向量形式，即获得文本数据的各种特征向量，所述特征向量能够更加直观的体现文本数据的数据特点。

在一个实施例中，所述预设的词袋模型为TF-IDF词袋模型，在另一个实施例中，所述预设的词袋模型也可以是其他类型的词袋模型。

通过词袋模型将文本数据转换后得到的特征向量往往存在不同的量纲和量纲单位，对后续的数据分析和数据使用存在影响，所以需要将其归一化处理，归一化是将文本数据的特征向量映射到指定的范围，用于去除不同维度文本数据的特征向量的量纲以及量纲单位。

关于S106，将归一化处理后的所述特征向量按照预设数学建模算法规则进行多次迭代训练得到检验预测模型。

归一化处理后的特征向量可以用于数学建模训练，只需要通过特定的数学建模算法，对其进行多次迭代训练，就可以得出一个相关的数学模型用于检验预测。

所述数学建模算法，可以是BP神经网络算法，将样品的检测分类结果作为模型输出，将样品检测参数作为输入数据输入到模型进行训练，根据数据量的大小、参数类别的多少来设计算法网络结构，包括网络层数、每层网络的神经元数量、激活函数等，并选择适当的损失函数以衡量模型的精度性能，据此开始模型的迭代训练，并不断对如学习率、批量大小等神经网络参数进行调整；可选的，所述数学建模算法还可以是其他的神经网络算法，也可以是支持向量机算法(Support Vector Machine，SVM)，也可以是随机森林司算法(Random Forest Algorithm)。

关于S107，获取待检验样品信息，按照预设数据挖掘规则挖掘出所述预测数据库中的与所述待检验样品相关的检验数据并提取为预测数据集，将所述预测数据集与所述待检验样品信息输入到所述检验预测模型中，从而得到检验预测结果。

预设的数据挖掘规则可以挖掘出与待检验样品高度相关的检验数据，再将检验数据提取为预设数据集，并将其与所述待检验样品信息输入到检验预测模型中，可以实现对待检验样品的精准预测。

在一个实施例中，所述按照预设数据挖掘规则挖掘出相关的检验数据的步骤包括以下方式中的至少一种：

查询所述预测数据库中与所述待检验样品的类别相同的所述检验数据；

查询所述预测数据库中的与所述待检验样品的检验委托方相同的所述检验数据。

其中，所述预设数据挖掘规则可以由管理人员进行设置。

与所述待检验样品类别相同的所述检验数据与待检验样品具有高度的相似性，挖掘所述检验数据有助于实现对待检验样品的精确预测。

挖掘检验委托方相同的所述检验数据可以揭露检验委托方的过往检验委托，有助于提高预测数据集对于待检验样品的关联性。

所述检验预测模型是根据数学建模算法，利用大量的所述检验数据进行多次迭代训练从而得到，其对于检验相关的数据具有较高的灵敏性，且所述预测数据集是利用预设数据挖掘规则获取的与待检验样品高度相关的数据，将所述预测数据集与所述待检验样品信息一起输入到所述检验预测模型中，可以得到对所述待检验样品信息的精准的检验预测结果。所述检验预测结果是根据运算模型对所述待检验样品信息的预测，可以对后续进一步的精确检测的检测结果进行准确性辅助判断，以提高检测准确性。在一部分检测要求下，也可以直接作为检测结果，以提高检测效率。

实施例2

请参考图2，图2为本申请第二实施例提供的基于大数据的检验预测装置的结构示意图。该装置可以通过软件、硬件或两者的结合实现成为服务端的全部或一部分。该装置包括：

需要说明的是，上述实施例提供的基于大数据的检验预测装置在进行对待检验样品的预测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分为不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的检验预测装置与基于大数据的检验预测方法属于同一构思，其实现过程详见方法实施例1，这里不再赘述。

实施例3

请参考图3，为本申请第三实施例提供的计算机设备的结构示意图。如图3所示，该计算机设备130可以包括：存储器131、处理器132、以及存储在该存储器131并可以在该处理器132上运行的计算机程序133，例如：基于大数据的检验预测程序；该处理器132执行该计算机程序133时实现上述实施例中的步骤。

其中，该处理器132可以包括一个或多个处理核心。处理器132利用各种接口和线路连接计算机设备130内的各个部分，通过运行或执行存储在存储器131内的指令、程序、代码集或指令集，以及调用存储器131内的数据，执行计算机设备130的各种功能和处理数据，可选的，处理器132可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programble LogicArray，PLA)中的至少一个硬件形式来实现。处理器132可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器132中，单独通过一块芯片进行实现。

其中，存储器131可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器131包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器131可用于存储指令、程序、代码、代码集或指令集。存储器131可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器131可选的还可以是至少一个位于远离前述处理器132的存储装置。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以存储有多条指令，该指令适用于由处理器加载并执行上述实施例的方法步骤，具体执行过程可以参见上述实施例的具体说明，在此不进行赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于大数据的检验预测方法，其特征在于，包括：

获取检验数据库中的检验数据并将其存入到预测数据库中；

按照预设符号规则去除所述检验数据中的特殊符号；

2.根据权利要求1所述的基于大数据的检验预测方法，其特征在于，所述预测数据库为关系型数据库PostgreSQL，所述预测数据库包括有文本索引插件，通过所述文本索引插件可根据关键词在所述预测数据库中进行全文搜索。

3.根据权利要求1所述的基于大数据的检验预测方法，其特征在于，所述以预设分类规则进行分类的步骤包括以下任意一种或两种以上的组合：

以检验样品的种类对所述检验数据进行分类；

以不同的检验委托方对所述检验数据进行分类。

4.根据权利要求1所述的基于大数据的检验预测方法，其特征在于，所述按照预设符号规则去除特殊符号的步骤包括：

将除“*”、“％”、“&”、“*”、“^”、“-”、“+”、“/”、“＝”以外的符号去除。

5.根据权利要求1所述的基于大数据的检验预测方法，其特征在于，所述按照文本清洗规进行文本数据清洗的步骤包括以下任意一种或者两种以上的组合：

删除所述文本数据中与预设停用词表中相同的词；

对所述英文文本数据进行分词和词干提取。

6.根据权利要求1所述的基于大数据的检验预测方法，其特征在于，所述按照预设数据挖掘规则挖掘出相关的检验数据的步骤包括以下方式中的至少一种：

7.一种基于大数据的检验预测装置，其特征在于，包括：

8.一种计算机设备，包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，该指令在电子设备上执行时使电子设备执行如权利要求1至6中任一项所述的方法。