CN117252539A

CN117252539A - 基于神经网络的工程标准规范获取方法及系统

Info

Publication number: CN117252539A
Application number: CN202311222108.0A
Authority: CN
Inventors: 聂琪
Original assignee: Guangdong Zhuxiaobao Artificial Intelligence Technology Co ltd
Current assignee: Guangdong Zhuxiaobao Artificial Intelligence Technology Co ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-19

Abstract

本发明公开了一种基于神经网络的工程标准规范获取方法及系统，该方法包括：获取目标用户输入的原始数据；根据预设的数据预处理算法对所述原始数据进行处理，得到处理后数据；将所述处理后数据输入至训练好的GPT神经网络模型中，以得到输出的工程标准规范数据；将所述工程标准规范数据推送至用户终端。可见，本发明能够利用神经网络来直接提取用户输入的原始数据中的工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

Description

基于神经网络的工程标准规范获取方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于神经网络的工程标准规范获取方法及系统。

背景技术

随着工程项目的规模和复杂度的增加，对于工程项目进行合规检查和监控的难度和成本也越来越大，许多企业开始试图引入更加先进的信息技术来提高工程合规监控审查的效率，其中，如何及时搞笑地获取或更新工程标准规范成为了其中重要的一个问题。但现有的信息技术在解决工程标准规范的获取方面的工作任务时，过于依赖人工检索和检验，没有考虑到结合神经网络算法的优势，因此容易出错，效率较低。可见，现有技术存在缺陷，亟需解决。

发明内容

本发明所要解决的技术问题在于，提供一种基于神经网络的工程标准规范获取方法及系统，能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

为了解决上述技术问题，本发明第一方面公开了一种基于神经网络的工程标准规范获取方法，所述方法包括：

获取目标用户输入的原始数据；

根据预设的数据预处理算法对所述原始数据进行处理，得到处理后数据；

将所述处理后数据输入至训练好的GPT神经网络模型中，以得到输出的工程标准规范数据；

将所述工程标准规范数据推送至用户终端。

作为一种可选的实施方式，在本发明第一方面中，所述根据预设的数据预处理算法对所述原始数据进行处理，得到处理后数据，包括：

将语音类型的所述原始数据输入至语音识别算法模型中，以得到文本类型的处理后数据；所述语音识别算法模型为百度语音识别模型或腾讯AI开放平台API对应的算法模型。

作为一种可选的实施方式，在本发明第一方面中，所述GPT神经网络模型包括依次连接的文本预处理模型、GPT概率推测模型和文本片段组合模型。

作为一种可选的实施方式，在本发明第一方面中，所述文本预处理模型用于执行以下步骤：

根据预设的语言结构分析模型，对所述处理后数据进行分析，得到所述处理后数据中每一数据片段对应的语言结构类型；所述语言结构类型包括主语、谓语、宾语、定语、名词、动词、形容词中的一种或多种的组合；

根据预设的工程规范关键字库，对所述处理后数据进行关键字识别，以得到所述处理后数据中的多个关键字片段；

确定每一所述关键字片段对应的语言结构类型；

根据预设的类型-权重对应关系，计算每一所述关键字片段对应的语言结构类型对应的类型权重；

计算每一所述关键字片段与对应的匹配关键字之间的相似度；所述匹配关键字为所述工程规范关键库中用于识别出所述关键字片段的匹配字符；

计算每一所述关键字片段的所述类型权重和所述相似度的乘积，得到每一所述关键字片段对应的文本权重；

将所述文本权重大于预设的权重阈值的所有所述关键字片段确定为所述处理后数据对应的待预测片段。

作为一种可选的实施方式，在本发明第一方面中，所述GPT概率推测模型用于对每一所述待预测片段和对应的语言结构类型进行概率预测，以得到每一所述待预测片段对应的属于工程标准规范数据的数据类型的概率；所述GPT概率推测模型通过包括有多个训练文本片段和对应的语言结构类型标注和数据类型标注的训练数据集训练得到；所述数据类型包括工程标准规范名称、工程标准规范制定方、工程标准规范文字条件、工程标准规范数字条件、工程标准规范针对方中的至少一种。

作为一种可选的实施方式，在本发明第一方面中，所述文本片段组合模型包括文本筛选单元、文本拼接单元、文本连贯性预测单元和文本输出单元；所述文本筛选单元用于将所述概率大于预设的概率阈值的所述待预测片段筛选出来，得到多个待拼接片段；所述文本拼接单元用于对所述多个待拼接片段根据多种拼接规则进行组合拼接，以得到多个拼接片段；所述文本连贯性预测单元用于对每一所述拼接片段进行连贯性预测，以得到每一所述拼接片段的连贯性参数；所述文本输出单元将所述连贯性参数大于预设的参数阈值的所述拼接片段进行输出，以得到所述工程标准规范数据。

作为一种可选的实施方式，在本发明第一方面中，所述文本拼接单元用于执行以下步骤：

对于以任意次序连接的任意两个所述待拼接片段，对该两个待拼接片段的连接处对应的预设数量个字符，通过文本连贯性预测模型进行预测，得到该两个待拼接片段的对应的第一连贯性参数；所述文本连贯性预测模型通过包括有多个训练工程文本连接字符片段和对应的连贯性批注的训练数据集训练得到；

对该两个待拼接片段对应的所述语言结构类型，通过预设的语言结构连贯性规则进行判断，得到该两个待拼接片段对应的第二连贯性参数；

计算所述第一连贯性参数和所述第二连贯性参数的加权求和平均值，并判断所述加权求和平均值是否大于预设的连贯性阈值，若是，则输出该两个待拼接片段按该次序的组合为一个拼接片段。

本发明第二方面公开了一种基于神经网络的工程标准规范获取系统，所述系统包括：

获取模块，用于获取目标用户输入的原始数据；

处理模块，用于根据预设的数据预处理算法对所述原始数据进行处理，得到处理后数据；

输出模块，用于将所述处理后数据输入至训练好的GPT神经网络模型中，以得到输出的工程标准规范数据；

推送模块，用于将所述工程标准规范数据推送至用户终端。

作为一种可选的实施方式，在本发明第二方面中，所述处理模块根据预设的数据预处理算法对所述原始数据进行处理，得到处理后数据的具体方式，包括：

作为一种可选的实施方式，在本发明第二方面中，所述GPT神经网络模型包括依次连接的文本预处理模型、GPT概率推测模型和文本片段组合模型。

作为一种可选的实施方式，在本发明第二方面中，所述文本预处理模型用于执行以下步骤：

确定每一所述关键字片段对应的语言结构类型；

作为一种可选的实施方式，在本发明第二方面中，所述GPT概率推测模型用于对每一所述待预测片段和对应的语言结构类型进行概率预测，以得到每一所述待预测片段对应的属于工程标准规范数据的数据类型的概率；所述GPT概率推测模型通过包括有多个训练文本片段和对应的语言结构类型标注和数据类型标注的训练数据集训练得到；所述数据类型包括工程标准规范名称、工程标准规范制定方、工程标准规范文字条件、工程标准规范数字条件、工程标准规范针对方中的至少一种。

作为一种可选的实施方式，在本发明第二方面中，所述文本片段组合模型包括文本筛选单元、文本拼接单元、文本连贯性预测单元和文本输出单元；所述文本筛选单元用于将所述概率大于预设的概率阈值的所述待预测片段筛选出来，得到多个待拼接片段；所述文本拼接单元用于对所述多个待拼接片段根据多种拼接规则进行组合拼接，以得到多个拼接片段；所述文本连贯性预测单元用于对每一所述拼接片段进行连贯性预测，以得到每一所述拼接片段的连贯性参数；所述文本输出单元将所述连贯性参数大于预设的参数阈值的所述拼接片段进行输出，以得到所述工程标准规范数据。

作为一种可选的实施方式，在本发明第二方面中，所述文本拼接单元用于执行以下步骤：

本发明第三方面公开了另一种基于神经网络的工程标准规范获取系统，所述系统包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的基于神经网络的工程标准规范获取方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的基于神经网络的工程标准规范获取方法中的部分或全部步骤。

与现有技术相比，本发明具有以下有益效果：

本发明能够利用神经网络来直接提取用户输入的原始数据中的工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于神经网络的工程标准规范获取方法的流程示意图；

图2是本发明实施例公开的一种基于神经网络的工程标准规范获取系统的结构示意图；

图3是本发明实施例公开的另一种基于神经网络的工程标准规范获取系统的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于神经网络的工程标准规范获取方法及系统，能够利用神经网络来直接提取用户输入的原始数据中的工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于神经网络的工程标准规范获取方法的流程示意图。其中，图1所描述的方法可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定如图1所示，该基于神经网络的工程标准规范获取方法可以包括以下操作：

101、获取目标用户输入的原始数据。

可选的，获取的方式可以为通过人机交互系统获取，或是通过图像获取设备或是语音获取设备来直接获取，相应的原始数据的类型也可以为文本信息、图像信息或语音信息。

102、根据预设的数据预处理算法对原始数据进行处理，得到处理后数据。

可选的，可以用预设的数据清洗算法和数据编码算法对原始数据进行处理，以得到处理后的数据。

103、将处理后数据输入至训练好的GPT神经网络模型中，以得到输出的工程标准规范数据。

104、将工程标准规范数据推送至用户终端。

可选的，用户终端可以为办公室或施工现场的显示设备，用于对工程标准规范数据进行及时和准确的表达。

可见，实施本发明实施例所描述的方法能够利用神经网络来直接提取用户输入的原始数据中的工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

作为一种可选的实施例，上述步骤中的，根据预设的数据预处理算法对原始数据进行处理，得到处理后数据，包括：

将语音类型的原始数据输入至语音识别算法模型中，以得到文本类型的处理后数据；语音识别算法模型为百度语音识别模型或腾讯AI开放平台API对应的算法模型。

通过上述实施例，能够将语音类型的原始数据输入至语音识别算法模型中，以得到文本类型的处理后数据，从而能够直接从语音信息中提取出文本信息，以便于后续提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

作为一种可选的实施例，可选的，GPT神经网络模型包括依次连接的文本预处理模型、GPT概率推测模型和文本片段组合模型。

通过上述实施例，能够通过依次连接的文本预处理模型、GPT概率推测模型和文本片段组合模型来提取工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

可选的，文本预处理模型用于执行以下步骤：

根据预设的语言结构分析模型，对处理后数据进行分析，得到处理后数据中每一数据片段对应的语言结构类型；语言结构类型包括主语、谓语、宾语、定语、名词、动词、形容词中的一种或多种的组合；

根据预设的工程规范关键字库，对处理后数据进行关键字识别，以得到处理后数据中的多个关键字片段；

确定每一关键字片段对应的语言结构类型；

根据预设的类型-权重对应关系，计算每一关键字片段对应的语言结构类型对应的类型权重；

计算每一关键字片段与对应的匹配关键字之间的相似度；匹配关键字为工程规范关键库中用于识别出关键字片段的匹配字符；

计算每一关键字片段的类型权重和相似度的乘积，得到每一关键字片段对应的文本权重；

将文本权重大于预设的权重阈值的所有关键字片段确定为处理后数据对应的待预测片段。

通过上述实施例，文本预处理模型能够有效结合语言结构类型、匹配识别相似度等因素，来综合地为GPT概率推测模型提前筛选出更加准确和更高可能性的工程标准规范文本，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

作为一种可选的实施例，可选的，GPT概率推测模型用于对每一待预测片段和对应的语言结构类型进行概率预测，以得到每一待预测片段对应的属于工程标准规范数据的数据类型的概率；GPT概率推测模型通过包括有多个训练文本片段和对应的语言结构类型标注和数据类型标注的训练数据集训练得到；数据类型包括工程标准规范名称、工程标准规范制定方、工程标准规范文字条件、工程标准规范数字条件、工程标准规范针对方中的至少一种。

通过上述实施例，GPT概率推测模型能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

作为一种可选的实施例，可选的，文本片段组合模型包括文本筛选单元、文本拼接单元、文本连贯性预测单元和文本输出单元；文本筛选单元用于将概率大于预设的概率阈值的待预测片段筛选出来，得到多个待拼接片段；文本拼接单元用于对多个待拼接片段根据多种拼接规则进行组合拼接，以得到多个拼接片段；文本连贯性预测单元用于对每一拼接片段进行连贯性预测，以得到每一拼接片段的连贯性参数；文本输出单元将连贯性参数大于预设的参数阈值的拼接片段进行输出，以得到工程标准规范数据。

通过上述实施例，文本筛选单元、文本拼接单元、文本连贯性预测单元和文本输出单元能够实现结合文本筛选拼接以及连贯性预测等因素来拼接得到工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

作为一种可选的实施例，可选的，文本拼接单元用于执行以下步骤：

对于以任意次序连接的任意两个待拼接片段，对该两个待拼接片段的连接处对应的预设数量个字符，通过文本连贯性预测模型进行预测，得到该两个待拼接片段的对应的第一连贯性参数；文本连贯性预测模型通过包括有多个训练工程文本连接字符片段和对应的连贯性批注的训练数据集训练得到；

对该两个待拼接片段对应的语言结构类型，通过预设的语言结构连贯性规则进行判断，得到该两个待拼接片段对应的第二连贯性参数；

计算第一连贯性参数和第二连贯性参数的加权求和平均值，并判断加权求和平均值是否大于预设的连贯性阈值，若是，则输出该两个待拼接片段按该次序的组合为一个拼接片段。

通过上述实施例，文本拼接单元能够实现结合第一连贯性参数和第二连贯性参数等因素来提高拼接的准确性和有效性，以便于后续筛选得到工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

实施例二

请参阅图2，图2是本发明实施例公开的一种基于神经网络的工程标准规范获取系统的结构示意图。其中，图2所描述的系统可以应用于相应的数据处理设备、数据处理终端、数据处理服务器中，且该服务器可以是本地服务器，也可以是云服务器，本发明实施例不做限定。如图2所示，该系统可以包括：

获取模块201，用于获取目标用户输入的原始数据。

处理模块202，用于根据预设的数据预处理算法对原始数据进行处理，得到处理后数据。

输出模块203，用于将处理后数据输入至训练好的GPT神经网络模型中，以得到输出的工程标准规范数据。

推送模块204，用于将工程标准规范数据推送至用户终端。

可见，实施本发明实施例所描述的系统能够利用神经网络来直接提取用户输入的原始数据中的工程标准规范数据，从而能够提高工程标准规范数据的获取效率和精确性，相对于现有技术中依赖人工的方式，可以有效减少出错，使得工程建设合法合规。

作为一种可选的实施例，处理模块202根据预设的数据预处理算法对原始数据进行处理，得到处理后数据的具体方式，包括：

作为一种可选的实施例，GPT神经网络模型包括依次连接的文本预处理模型、GPT概率推测模型和文本片段组合模型。

作为一种可选的实施例，文本预处理模型用于执行以下步骤：

确定每一关键字片段对应的语言结构类型；

作为一种可选的实施例，GPT概率推测模型用于对每一待预测片段和对应的语言结构类型进行概率预测，以得到每一待预测片段对应的属于工程标准规范数据的数据类型的概率；GPT概率推测模型通过包括有多个训练文本片段和对应的语言结构类型标注和数据类型标注的训练数据集训练得到；数据类型包括工程标准规范名称、工程标准规范制定方、工程标准规范文字条件、工程标准规范数字条件、工程标准规范针对方中的至少一种。

实施例三

请参阅图3，图3是本发明实施例公开的另一种基于神经网络的工程标准规范获取系统的结构示意图。如图3所示，该系统可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

处理器302调用存储器301中存储的可执行程序代码，执行本发明实施例一公开的基于神经网络的工程标准规范获取方法中的部分或全部步骤。

实施例四

本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一公开的基于神经网络的工程标准规范获取方法中的部分或全部步骤。

以上所描述的系统实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于神经网络的工程标准规范获取方法及系统所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于神经网络的工程标准规范获取方法，其特征在于，所述方法包括：

获取目标用户输入的原始数据；

将所述工程标准规范数据推送至用户终端。

2.根据权利要求1所述的基于神经网络的工程标准规范获取方法，其特征在于，所述根据预设的数据预处理算法对所述原始数据进行处理，得到处理后数据，包括：

3.根据权利要求1所述的基于神经网络的工程标准规范获取方法，其特征在于，所述GPT神经网络模型包括依次连接的文本预处理模型、GPT概率推测模型和文本片段组合模型。

4.根据权利要求3所述的基于神经网络的工程标准规范获取方法，其特征在于，所述文本预处理模型用于执行以下步骤：

确定每一所述关键字片段对应的语言结构类型；

5.根据权利要求3所述的基于神经网络的工程标准规范获取方法，其特征在于，所述GPT概率推测模型用于对每一所述待预测片段和对应的语言结构类型进行概率预测，以得到每一所述待预测片段对应的属于工程标准规范数据的数据类型的概率；所述GPT概率推测模型通过包括有多个训练文本片段和对应的语言结构类型标注和数据类型标注的训练数据集训练得到；所述数据类型包括工程标准规范名称、工程标准规范制定方、工程标准规范文字条件、工程标准规范数字条件、工程标准规范针对方中的至少一种。

6.根据权利要求5所述的基于神经网络的工程标准规范获取方法，其特征在于，所述文本片段组合模型包括文本筛选单元、文本拼接单元、文本连贯性预测单元和文本输出单元；所述文本筛选单元用于将所述概率大于预设的概率阈值的所述待预测片段筛选出来，得到多个待拼接片段；所述文本拼接单元用于对所述多个待拼接片段根据多种拼接规则进行组合拼接，以得到多个拼接片段；所述文本连贯性预测单元用于对每一所述拼接片段进行连贯性预测，以得到每一所述拼接片段的连贯性参数；所述文本输出单元将所述连贯性参数大于预设的参数阈值的所述拼接片段进行输出，以得到所述工程标准规范数据。

7.根据权利要求6所述的基于神经网络的工程标准规范获取方法，其特征在于，所述文本拼接单元用于执行以下步骤：

8.一种基于神经网络的工程标准规范获取系统，其特征在于，所述系统包括：

获取模块，用于获取目标用户输入的原始数据；

推送模块，用于将所述工程标准规范数据推送至用户终端。

9.一种基于神经网络的工程标准规范获取系统，其特征在于，所述系统包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的基于神经网络的工程标准规范获取方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的基于神经网络的工程标准规范获取方法。