CN113868322A

CN113868322A - 一种语义结构解析方法、装置、设备及虚拟化系统、介质

Info

Publication number: CN113868322A
Application number: CN202111462969.7A
Authority: CN
Inventors: 龚小龙; 郑聪; 麻志毅
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2021-12-31
Anticipated expiration: 2041-12-03
Also published as: CN113868322B

Abstract

本发明提供了一种语义结构解析方法、装置、设备及虚拟化系统、介质，所述方法包括：获取元数据；判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；将语义结构完整的所述元数据转换为标准语义结构数据。这样，通过预训练模型对数据库资源中缺乏的部分语义结构进行预测，从而得到完整的语义结构，解决软件资源缺乏语义结构的问题，进而完成数据库资源的整合。

Description

一种语义结构解析方法、装置、设备及虚拟化系统、介质

技术领域

本发明涉及数据库技术领域，具体而言，涉及一种语义结构解析方法、装置、设备及虚拟化系统、介质。

背景技术

在这个“信息爆炸”的时代，随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展，迫使大数据技术必须面对新的现实：数据规模越来越大，数据复杂度越来越高，数据多样性越来越丰富，数据安全要求越来越严格。传统的数据集成技术正面临着严峻的挑战：应用各自为政，数仓等软件资源互不相通，多源异构的软件资源形式及数据存放的格式和数据安全的管理都是烟囱式模型，形成了数据孤岛，无法跨业务集成和使用。在这种情况下，软件资源中的信息往往通过ETL来实现，也造成了业务系统集成工作量大等多种困境。

其中，阻碍数据库资源整合的最主要困难是软件资源普遍缺乏语义结构的问题。但针对该问题，目前还没有研究方提供可实行的解决方案。

发明内容

本发明解决的问题是现有软件资源普遍缺乏语义结构阻碍数据库资源整合。

为解决上述问题，本发明首先提供一种语义结构解析方法，包括：

获取元数据；

判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；

若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；

将语义结构完整的所述元数据转换为标准语义结构数据。

这样，通过预训练模型对数据库资源中缺乏的部分语义结构进行预测，从而得到完整的语义结构，解决软件资源缺乏语义结构的问题，进而完成数据库资源的整合。

优选地，所述模式匹配预训练模型的训练过程为：

获取已标注的样本数据；

提取所述样本数据的数据特征、文本语义特征和统计特征；

将所述样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据的特征向量；

将所述样本数据的特征向量和标注作为输入参数，对预设的神经网络模型进行训练，得到模式匹配预训练模型。

优选地，所述深度语义表征预训练模型的训练过程为：

获取已标注的样本数据；

将所述样本数据按照预设规则进行分块，获取多个样本数据集，所述样本数据集中的每个样本数据的标注相同；

提取所述样本数据的数据特征、文本语义特征和统计特征；

将样本数据集中所有样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据集的特征向量；

将所述样本数据集的特征向量和标注作为输入参数，对预设的神经网络模型进行训练，得到深度语义表征预训练模型。

优选地，所述方法还包括：

对所述标准语义结构数据的表主题进行分类，建立分类映射表；

将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示；

获取所述数据视图的反馈数据，在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后，对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代；

获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率；

在所述F1分数和精准率落入预设范围后，停止对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代。

其次，提供一种语义结构解析装置，其包括：

获取单元，其用于获取元数据；

判断单元，其用于判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；

补充单元，其用于若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；

转换单元，其用于将语义结构完整的所述元数据转换为标准语义结构数据。

优选地，还包括：

映射单元，其用于对所述标准语义结构数据的表主题进行分类，建立分类映射表；

展示单元，其用于将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示；

迭代单元，其用于获取所述数据视图的反馈数据，在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后，对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代；

统计单元，其用于获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率；在所述F1分数和精准率落入预设范围后，停止对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代。

再次，提供一种电子设备，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如前述所述的方法。

另次，提供一种虚拟化系统，其包括：

连接器层，其用于与不同数据库建立底层物理连接；

探测感知层，其内设置有前述所述的语义结构解析装置，用于获取所述数据库的元数据并转化为标准语义结构数据；

公共基础层，其用于接收外部指令，对所述标准语义结构数据进行预设操作；

API接口层，其用于将预设操作后的所述标准语义结构数据转化为外接接口的对应格式进行输出。

优选地，所述探测感知层还包括：

元数据采集装置，其用于实时监测并获取连接的数据库中的元数据；

数据格式转化装置，其用于将所述语义结构解析装置转换的所述标准语义结构数据或元数据采集装置获取的所述元数据中的异构数据转换为同构数据。

最后，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如前述所述的方法。

这样，只需业务人员少量标注或通过数据资源视图修正标签，资源虚拟化系统中的数据库语义结构解析引擎会自动在线学习数据库及表格结构特征并预测出表格所属业务主题，最终形成可查询的可视化数据资源视图，进行前端展示。

附图说明

图1为根据本发明一实施例的语义结构解析方法的流程图；

图2为根据本发明一实施例的语义结构解析方法训练过程的流程图；

图3为根据本发明另一实施例的语义结构解析方法训练过程的流程图；

图4为根据本发明另一实施例的语义结构解析方法的流程图；

图5为根据本发明一实施例的语义结构解析装置的结构框图；

图6为根据本发明另一实施例的语义结构解析装置的结构框图；

图7为根据本发明一实施例的虚拟化系统的结构框图；

图8为根据本发明实施例的探测感知层的结构框图；

图9为根据本发明实施例的电子设备的结构框图。

具体实施方式

在这个“信息爆炸”的时代，随着云计算、物联网、移动计算、智慧城市、人工智能等领域日新月异的发展，人类社会已经步入了“信息高速路”的行驶轨道，数据量增长迅速，各类应用对大数据处理的需求也发生着变化。与此同时，传统的数据仓库不再一统江湖，而以流、批处理、AI等为代表的应用势头迅猛。数据已经渗透到每一个行业领域，逐渐成为重要的生产要素，这迫使大数据技术必须面对新的现实：数据规模越来越大，数据复杂度越来越高，数据多样性越来越丰富，数据安全要求越来越严格。传统的数据集成技术正面临着严峻的挑战：应用各自为政，数仓等软件资源互不相通，多源异构的软件资源形式及数据存放的格式和数据安全的管理都是烟囱式模型，无法跨业务集成和使用。在这种情况下，软件资源中的信息往往通过ETL来实现，也造成了业务系统集成工作量大等多种困境。信息孤岛现象突出，资源无法共享，利用率低。对于客户或者应用而言，亟需整合资源，消除孤岛，从而满足业务发展需求。

一般而言，为有效整合分散异构的信息资源，通常的操作步骤为：

借助工具，采集或收集分散数据存储至本地服务器或云服务器；借助ETL工具，配置连接脚本，将异构数据源数据全量同步至本地服务器的数据仓库或云端数据仓库；根据单位业务，进行数据分析及建模，构建相应的业务信息系统。

因为不同软件资源（如数据）在不同场景下，有各自的使用优势，所以单位在信息化过程中必定会选择多种数据库来构建自己的信息中心；另一方面，由于企业利益的考量，数据开发人员的习惯、能力等因素，业务数据的分析可能会用到多种工具。以上两个方面会给单位带来一些问题：

单位数据库的多样性，带来数据库管理的不便；

数据库的多样性，会使企业内部数据格式不一致，导致数据无法直接交换；

查询各种数据源需要使用不同的连接方式或客户端，以及不同的SQL语言，这会导致额外的学习成本以及复杂的应用开发逻辑；

若缺少统一的数据存储，数据分析工具的多样性会加重数据格式的不一致；若进行数据统一存储，又会导致数据存储成本的累加以及人工维护成本的增加；

数据分析工具的多样性，会使得生产出来的各种半成品、成品数据，缺少统一对接规范，不方便数据在其他工具的二次使用。

综上所述软件资源（如数据）虚拟化技术应运而生，它可以屏蔽软件资源的格式、地域、系统等属性，最终为用户呈现出统一的视图。软件资源虚拟化能够统一管理全域软件资源，并通过按需读取所需软件资源的方式，实现软件资源（如数据）的快速融合分析和可信管理，消灭数据烟囱。

但是目前的软件资源虚拟化技术，对于普遍存在的软件资源缺乏语义结构的情况（如数据库缺少数据字典）缺少处理方案。

但是软件资源缺乏语义结构的情况，会给数据库的元数据的读取和处理带来极大的不便，例如：传统的数据表的关联融合前提至少需要明确所有表格中列标签，再根据业务需求通过sql语句进行关联；而在缺失列标签（列标签是数据语义结构的一部分）的前提下，基本的关联融合都无法完成。

本申请实施例提供了一种语义结构解析方法，该方法可以由语义结构解析装置来执行，该语义结构解析装置可以集成在电脑、服务器、计算机等电子设备中。如图1所示，其为根据本发明一实施例的语义结构解析方法的流程图；其中，所述语义结构解析方法，包括：

S100，获取元数据；

其中，所述元数据为各个数据库中的数据，该数据由于数据库本身的特性，其语义结构可能并不完成。

S200，判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；

在此需要说明的是，本申请中的语义结构完整，事实上是对应的元数据中是否包含本申请解读数据需要的各个要素，如果包含，则认为语义结构是完整的，如果不全部包含，则认为语义结构是不完整的。

本步骤中，暂定语义结构包括列主题和表主题，并非是限定，而是包含关系，其语义结构也可以包含有其他主题内容，与本步骤并不冲突。

S300，若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；

其中，训练完成的模式匹配预训练模型可以基于元数据对应的物理数据预测出其列主题；训练完成的深度语义表征预训练模型，则可以基于元数据对应的物理数据预测出其表主题。

在此需要说明的是，元数据的存在是以一个表为单位的，其记载的是该表的列主题，表主题，存储地址等内容；其中，元数据对应的物理数据，即为该表的物理数据。

需要着重说明的是，由于一个表可能记录非常多的物理数据，因此本申请中，元数据对应的物理数据，实际上是指元数据对应的表中的一部分物理数据（并非全部的物理数据），该部分物理数据可以通过随机采样的方式得到。

在此需要说明的是，所述的语义结构不完整，基于步骤S200，仅考虑元数据中的列主题和表主题的情况，也可以具有多种情况，例如：缺少列主题但不缺少表主题，缺少表主题但不缺少列主题，列主题和表主题都缺少；也可以汇总为缺少列主题和/或缺少表主题，上述情况中，可以根据具体情况采取具体措施。

在此需要说明，和/或，其含义是包含三种情况，例如A，和/或，B；其实质上包含单独A、单独B、A和B三种情况。

因此，本步骤实质上是说，如果语义结构中缺少表主题，则将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题；如果语义结构中缺少列主题，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题；如果语义结构中缺少表主题和列主题，则将所述元数据分别输入训练完成的模式匹配预训练模型和训练完成的深度语义表征预训练模型，分别得到预测列主题和预测表主题，补充到语义结构中，得到完成的语义结构。

S400，将语义结构完整的所述元数据转换为标准语义结构数据。

在此需要说明的是，元数据的语义结构是多种多样的，为了方便还需要将其转换为标准的语义结构数据，从而便于读取和处理。

其中，所述标准语义结构数据，是一个预设的统一的格式数据，其具体结构可以由实际情况或者实验确定。

其中，每个数据库一般会具有数据字典，如果有数据字典，则意味着其中的元数据一般是具有完整的语义结构的，只需要收集数据库的字典，然后进行统一化和标准化，即可将其中的元数据转换为标准语义结构数据；

如果没有数据字典，则需要通过训练完成的模式匹配预训练模型，和/或，训练完成的深度语义表征预训练模型来辅助进行统一化和标准化。

在此，需要提醒的是，通过预训练模型得到的预测列主题和预测表主题，已经是标准语义结构的形式了，因此只需要将元数据的其余部分进行转换即可。

优选地，如图2所示，所述模式匹配预训练模型的训练过程为：

S101，获取已标注的样本数据；

其中，所述已标注的样本数据，可以是由对应的数据库所有人提供的，也可以是由行业公开数据中抽取的，也可以是由使用者修改标签后确定的，例如系统将样本数据和样本数据的标签通过视图展示出来，使用者修改视图上的预测标签，从而将修改后的标签作为标注。

举例说明，需要连接杭州的数据库，该数据库为阿里巴巴的进出货数据库，则可以请求对方提供带有标注的样本数据100行作为样本数据；另外从行业公开数据中获取900行的带有标注的样本数据，作为本步骤中的已标注的样本数据。

优选地，所述已标注的样本数据包括数据库所有方提供的样本数据和所属行业公开的样本数据。这样，只需要数据库所有方提供一小部分的样本数据，就可以完成预训练模型的训练，大大减少了数据库所有方的工作量。

S102，提取所述样本数据的数据特征、文本语义特征和统计特征；

其中，所述样本数据的形式表现较为复杂，由于所要表述的内容不同，不仅会包含数据、文本，还会包含引用关系或者包含关系等等内容，因此仅通过单一的特征提取方式无法表征其特性。

其中，通过规则算法或者匹配算法来提取所述样本数据的数据特征；通过构建机器学习模型，提取字符串、文本的统计等特征；通过bert模型，提取文本语义特征。具体算法在此不再赘述。

这样，通过多种特征提取方式结合使用，从而可以提取样本数据的多个角度的特征，增加其表征特性与实际特性的相似度。

S103，将所述样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据的特征向量；

其中，所述样本数据的数据特征、文本语义特征和统计特征一般为向量的形式；通过将其重组，从而得到一个可以表征其实际特性的特征向量。

其具体的重组过程有多种实现方式，以下举例进行说明：

例如数据特征、文本语义特征和统计特征分别为1*5列的向量、文本1*3列的向量、1*7列的向量；

则可以通过简单拼接的方式组成1*15列的向量，然后进行向量的标准化，得到最终1*15列的特征向量；

也可以先将三个向量统一补全为1*7列形式的向量，然后进行加权，得到一个1*7列形式的向量，标准化后得到最终1*7列的特征向量；

也可以先将三个向量统一补全为1*7列形式的向量，然后进行卷积得到一个1*7列形式的向量，标准化后得到最终1*7列的特征向量；

上述重组方式仅是对部分方式的详细描述，除此之外还可以为其他形式或过程，其具体重组过程以实际情况进行确定。

S104，将所述样本数据的特征向量和标注作为输入参数，对预设的神经网络模型进行训练，得到模式匹配预训练模型。

通过重组，已标注的样本数据就转换为了特征向量和标注；将其作为输入参数，输入预设的神经网络模型中进行训练，并根据输出数据和标注计算损失函数；根据损失函数调整预设的神经网络模型的参数，直至损失函数收敛为止。这样，就得到了模式匹配预训练模型。

例如，前述1000行的已标注的样本数据，就得到了1000行的特征向量和标注的组合；将这1000行的特征向量和标注的组合输入预设模型，得到输出数据和对应的标注（每行输入均会得到一个输出，该输出为与标注类似的列主题相似），计算损失函数并反馈调整预设模型，直至损失函数收敛。

在此需要进行说明的是，本申请中，预设的神经网络模型，并不是模式匹配预训练模型，所述模式匹配预训练模型还包括所述样本数据的特征提取和重组为特征向量的步骤；也即是说，特征向量输入预设的神经网络模型，得到所属的列主题；样本数据输入模式匹配预训练模型，也得到所属的列主题。

另外，预设的神经网络模型，在此仅是指该模型是预先设定的，且是用于神经网络训练的模型，指代的为某一类别的模型，并未直接指代某个模型；其与步骤S205中的预设的神经网络模型为同一类别的模型，但并非同一个模型。

这样，仅仅需要数据库方面提供少量（或者不提供，全部使用行业公开数据）的样本数据，即可完成对应的模式匹配预训练模型的训练，从而可以对数据库中的样本数据进行列主题预测。

优选地，如图3所示，所述深度语义表征预训练模型的训练过程为：

S201，获取已标注的样本数据；

在此需要说明的是，本步骤中的标注为表主题；至于所述样本数据是否含有其他内容的标注，在此不做限定。

其中，所述标注的表主题为最小粒度的主题。

S202，将所述样本数据按照预设规则进行分块，获取多个样本数据集，所述样本数据集中的每个样本数据的标注相同；

与列主题不同的是，每个表均会包含多行样本数据，因此需要将样本数据进行分块，每块设置对应的表主题标注。

比如，1000行样本数据，每5行进行一个分块，最终可以分为200左右的样本数据集（这是由于同一个标注的样本数据可能不是5的整倍数，因此可能出现3行样本数据组成一个样本数据集的情况）。

其中，获取的多个样本数据集中，每个样本数据集的标注即是其内的样本数据的标注。

优选地，至少两个样本数据集的标注相同。

所述样本数据集是用于训练预设模型的，因此相同标注的样本数据集应当有多个，这样才便于确认该标注对应的样本数据集的特性。

在此，需要对表主题进行说明，与列主题不同，表主题是具有上位和下位关系的，也即是说，表主题有子主题和母主题之分，每个母主题会包含多个子主题；例如合同主题、销售主题为母主题；合同主题下面还包括订单主题、库存主题、出货主题等，这些为子主题。

优选地，所述标注中的表主题为子主题。

优选地，所述预设规则可以为预设参数，每次选择满足预设参数的数量作为一个块（一个样本数据集）。

S203，提取所述样本数据的数据特征、文本语义特征和统计特征；

其中，提取所述样本数据的特征，即为提取1000行样本数据中的每行样本数据的特征。

其中，提取所述样本数据的特征，可以以样本数据集为分块，进行集中提取；这样可以使得同一个样本数据集中的特征同时进行提取，避免遗漏。例如，将一个样本数据集中的5行样本数据分别提取特征。

S204，将样本数据集中所有样本数据的数据特征、文本语义特征和统计特征重组为所述样本数据集的特征向量；

一个样本数据集包含多个样本数据，进行特征提取时分别提取每个样本数据的数据特征、文本语义特征和统计特征；进行重组时，与列主题不同，在此将一个样本数据集中的多个数据特征、文本语义特征和统计特征进行重组。

其具体的重组过程有多种实现方式，以下举例进行说明：

例如一个样本数据集包含5行样本数据，每个样本数据的数据特征、文本语义特征和统计特征分别为1*5列的向量、文本1*3列的向量、1*7列的向量；

则可以通过简单拼接的方式组成5个1*15列的向量，然后通过加权计算得到一个1*15列的向量，将进行向量的标准化，得到最终1*15列的特征向量；

也可以先将三个向量统一补全为1*7列形式的向量，获得5*3个1*7列形式的向量，然后进行加权，得到一个1*7列形式的向量，标准化后得到最终1*7列的特征向量；

也可以先将三个向量统一补全为1*7列形式的向量，获得5*3个1*7列形式的向量，然后进行卷积得到一个1*7列形式的向量，标准化后得到最终1*7列的特征向量；

S205，将所述样本数据集的特征向量和标注作为输入参数，对预设的神经网络模型进行训练，得到深度语义表征预训练模型。

例如，前述1000行的已标注的样本数据，就得到了200个样本数据集的特征向量和标注的组合；将这200个的特征向量和标注的组合输入预设模型，得到输出数据和对应的标注（每个输入均会得到一个输出，该输出为与标注类似的表主题相似），计算损失函数并反馈调整预设模型，直至损失函数收敛。

在此需要进行说明的是，本申请中，预设的神经网络模型，并不是深度语义表征预训练模型，所述深度语义表征预训练模型还包括所述样本数据的特征提取和重组为样本数据集的特征向量的步骤；也即是说，特征向量输入预设的神经网络模型，得到所属的表主题；样本数据输入深度语义表征预训练模型，也得到所属的表主题。

另外，预设的神经网络模型，在此仅是指该模型是预先设定的，且是用于神经网络训练的模型，指代的为某一类别的模型，并未直接指代某个模型；其与步骤S104中的预设的神经网络模型为同一类别的模型，但并非同一个模型。

这样，仅仅需要数据库方面提供少量（或者不提供，全部使用行业公开数据）的样本数据，即可完成对应的深度语义表征预训练模型的训练，从而可以对数据库中的样本数据进行表主题预测。

优选地，如图4所示，所述方法还包括：

S500，对所述标准语义结构数据的表主题进行分类，建立分类映射表；

其中，所述标注中的表主题为子主题。

本步骤中，将表主题进行分类，也即是将表主题按照子主题和母主题的对应关系进行划分，将不同的表主题（子主题）划分到不同的母主题之内；比如把订单主题、库存主题、出货主题分类为合同主题；其中的分类映射表，即为表征子主题与母主题对应关系的映射表。

S600，将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示；

其中，所述数据视图中不仅展示标准语义结构数据，还会将表主题中的子主题和母主题以及列主题进行展示，从而便于使用者的观察和进一步修正。

优选地，如果所述表主题、所述列主题为预测表主题、预测列主题，则将其在数据视图中展示为可修订状态；这样，可以便于使用者对预测的主题进行修正。

优选地，将所述表主题中的母主题也视为预测表主题，从而将其在数据视图中展示为可修订状态；这样，可以对分类结果进行修正。

S700，获取所述数据视图的反馈数据，在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后，对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代；

其中，所述数据视图的反馈数据，即为使用者对数据视图的修订数据。

在此需要说明的是，由于标准语义结构数据中包含相对独立的表主题和列主题，因此对表主题和列主题的反馈数据是相互独立统计的，从而可以对所述模式匹配预训练模型和所述深度语义表征预训练模型进行相互独立的迭代训练。

其中，列主题的反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后，对所述模式匹配预训练模型进行迭代；表主题的反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后，对所述深度语义表征预训练模型进行迭代。

例如，列主题的修订量累计到20条、30条或者100条后进行迭代训练。

优选地，所述预设时间范围内所述服务器处于空闲状态；也即是在该预设时间范围内，服务器的利用率较低，从而利用该时间进行迭代。

优选地，所述预设时间范围为23:00-1:00。

其中，对所述模式匹配预训练模型进行迭代，即为获取列主题的反馈数据，将该反馈数据作为一部分已标注的样本数据，剩余的样本数据可以从行业公开的样本数据中随机选取，或者从已连通的数据库中随机抽取；将当前的模式匹配预训练模型作为待训练模型，重新执行深度网络模型训练过程，直至损失函数收敛，得到迭代后的模式匹配预训练模型。

类似地，根据表主题的反馈数据对深度语义表征预训练模型进行迭代。

优选地，检测数据库中的元数据变动情况，若元数据中新类型数据表增加的数量达到阈值，则根据新类型数据表对深度语义表征预训练模型进行迭代。

优选地，所述新类型数据表，为新增加的类型的数据表（即原本有5种数据表，现在新增加了一种），或者结构变化的数据表（即原本有5种数据表，现在其中一种数据表的结构变化了）。

S800，获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率；

迭代完成后，可以随机抽取已知正确标注的样本数据，来作为统计基础。

需要说明的是，所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率，也是分别独立获取的。

其中，F1分数（F1-score）是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛，常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数，最大为1，最小为0。精准率(accuracy)，代表分类器对整个样本判断正确的比重。其具体计算方法，在此不再赘述。

S900，在所述F1分数和精准率落入预设范围后，停止对所述模式匹配预训练模型和/或所述深度语义表征预训练模型进行迭代。

优选地，如果迭代前的F1分数与迭代后的F1分数的差值的绝对值小于1%，且迭代前、迭代后的精准率均大于90%，则认为所述F1分数和精准率落入预设范围。

需要说明的是，所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率判断，也是分别独立进行的。

这样，只需业务人员通过数据资源视图修正标签，就可以自动在线学习数据库及表格结构特征并预测出列主题和表主题。

这样，明确了数据语义结构，形成了数据资源视图，才能实现数据之间的关联融合能力，构建逻辑表等最终真正实现资源虚拟化，打破数据孤岛。

这样，该过程辅助业务人员实现快速给数据表列打标签的过程，可以针对行业高效建立统一的数据字典，摆脱数据库软件开发商的诸多限制。

本申请实施例提供了一种语义结构解析装置，用于执行本发明上述内容所述的语义结构解析方法，以下对所述语义结构解析装置进行详细描述。

如图5所示，所述语义结构解析装置，包括：

获取单元211，其用于获取元数据；

判断单元212，其用于判断所述元数据的语义结构是否完整，所述语义结构至少包括列主题和表主题；

补充单元213，其用于若所述语义结构不完整，则将所述元数据对应的物理数据输入训练完成的模式匹配预训练模型，得到预测列主题，和/或，将所述元数据对应的物理数据输入训练完成的深度语义表征预训练模型，得到预测表主题，将所述语义结构补充完整；

转换单元214，其用于将语义结构完整的所述元数据转换为标准语义结构数据。

这样，通过预训练模型对数据库资源中缺乏的部分语义结构进行预测，从而得到完整的语义结构，解决软件资源却反语义结构的问题，进而完成数据库资源的整合。

优选地，如图6所示，所述语义结构解析装置，还包括：

映射单元215，其用于对所述标准语义结构数据的表主题进行分类，建立分类映射表；

展示单元216，其用于将所述标准语义结构数据和所述分类映射表转换为数据视图进行展示；

迭代单元217，其用于获取所述数据视图的反馈数据，在所述反馈数据的数量累计到预设数据量或者当前时间位于预设时间范围内后，对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代；

统计单元218，其用于获取迭代后的所述模式匹配预训练模型和/或所述深度语义表征预训练模型的F1分数和精准率；在所述F1分数和精准率落入预设范围后，停止对所述模式匹配预训练模型和所述深度语义表征预训练模型进行迭代。

本申请实施例提供了一种虚拟化系统，用于执行本发明上述内容所述的语义结构解析方法或装置，以下对所述虚拟化系统进行详细描述。

如图7所示，所述虚拟化系统，包括：

连接器层100，其用于与不同数据库建立底层物理连接；

探测感知层200，其内设置有前述所述的语义结构解析装置210，用于获取所述数据库的元数据并转化为标准语义结构数据；

公共基础层300，其用于接收外部指令，对所述标准语义结构数据进行预设操作；

API接口层400，其用于将预设操作后的所述标准语义结构数据转化为外接接口的对应格式进行输出。

其中，所述连接器层存储的为连接信息，来连接不同位置、不同公司的数据源；

这样，通过连接器层获取不同的数据源，通过探测感知层来探测数据量表述量、字段、类型这些元数据，进行数据格式的一致性转换，以及探测实时的数据资源变化，如增加了一些表格；另外还通过探测感知层探测数据库，如果有数据字典，则收集数据库的字典，进行统一化和标准化；如果没有数据字典，则获取有哪些业务的数据，如仓储，资源等；重构出一套统一标准的字典；然后形成数据资源视图，便于使用者查询；最后通过API接口层形成统一的API接口，输出数据。

具体地：

所述连接器层为软件资源统一接入规范，包括关系型软件资源（如Mysql、Oracle等）和非关系型类软件资源（键值存储、列式存储、文档存储、索引存储等）。为各类数据源开发Connector，并支持通过增加连接器来拓展需要的软件资源，无需数据搬迁，形成软件资源版本通用的接入规范，最终系统提供一个易操作的交互界面，方便用户按照既定的规范快速接入各种常用异构软件资源；其次，对于不常用的软件资源或者是常用软件资源的不常用版本，结合提供的开放性自定义接入规范的标准协议格式，开放的连接器层允许用户自主二次开发中间件，连接所需的软件资源。

所述公共基础层300，可以包括如查询模块、可视化模块、内置接口模块、安全模块、视图模块等这些基础模块。

其中，为了方便用户对关联的数据源有全局的了解，系统内置了可视化模块，数据资源概览、详情等页面，方便用户全面了解自己所拥有的数据。同时所有在虚拟化系统中创建的任务都有统一的可视化任务监控模块；

软件资源虚拟化的目标是将物理软件资源（如物理数据）虚拟化成视图（如逻辑表、虚拟表），并在虚拟化的过程中加入映射封装能力，实现数据关联融合，对用户来讲屏蔽了数据关联融合的复杂计算逻辑，用户只需要通过视图对所需的资源进行查询或调用。映射封装能力提供开放的开发接口，允许用户上传自己的SQL代码或者AI算法执行关联融合运算。

针对构建好的视图，提供高性能的数据查询关联能力，让用户快速找到自己需要的数据资源。

针对行业软件资源异构的情况，且行业各单位内部组织结构的逻辑，需要对接入的软件资源进行权限管理和数据接入认证，确保后续数据资源调用不会对单位带来安全方面的影响。

针对行业中存在的很多没有获取的数据资源的情况（如未采集的外部公开数据、未采集的设备数据、未采集的能耗数据等），系统提供的内置接口模块制定了二次开发协议，允许对接第三方数据采集工具所采集到的各类数据资源，并按照系统制定的规范进行接入管理。

所述API接口层400，关系型软件资源（如Mysql、Oracle等）和非关系型类软件资源（键值存储、列式存储、文档存储、索引存储等）。使用API接口层400自动生成与管理能力，使用开放式方法支持多种访问资源的API，即同样的软件资源可以通过不同的接口来访问，支持Restful、JDCBC/SQ、SOAP、MDX、Webservice、Dubbo、MQTT、Socket等多种协议API。全面纳管行业单位已有的第三方工具产生的API、接入的数据源API、关联融合形成的视图API及系统内各模块进行数据交换产生的其他API，实现统一调用、鉴权、限流、安全防护等功能，同时对API按照业务领域分类分级管理，构建统一的对外资源服务展示窗口，支持跨域跨源信息系统的推送集成，方便业务开发人员进行二次开发与调用。

优选地，如图8所示，所述探测感知层200还包括：

元数据采集装置220，其用于实时监测并获取连接的数据库中的元数据；

数据格式转化装置230，其用于将所述语义结构解析装置转换的所述标准语义结构数据或元数据采集装置获取的所述元数据中的异构数据转换为同构数据。

具体地，系统内置元数据采集装置并实现数据源探测感知功能（如数据源的各类元数据），其可以配置一个易操作的交互界面；其次对于其他异构数据源，制定开放性的探测感知功能开发接口规范，用户可以根据自己的需求编写相应代码，实现相应探测感知功能，达到实时或定时监听指定数据源。

对于连接的软件资源缺少数据库语义结构的情况，系统内置数据库语义结构解析功能，通过自定义行业标准，结合AI能力来统一解析所有连接的数据源的数据库结构及数据行业内的含义，并进行数据标记（如列名、表名、表主题、关系等），从而最终实现数据关联融合的目标，本质上完成打破数据孤岛的目标。

数据格式转化装置，对于连接的软件资源异构的情况（如同种内容两种不同的存储方式），该装置通过结合行业业务模型和封装的AI能力将异构数据源进行格式统一。

这样，通过虚拟化系统，具有以下优势：

不影响原有软件资源系统的自运行及使用；易拓展软件资源；自动探测分析未知语义结构的数据库；统一的API接口规范访问多种数据源；提供软件资源虚拟化能力，允许用户上载自定义关联融合算法进行映射封装，并最终提供视图（逻辑表）；系统的整体开放性允许用户二次开发，迭代并集成；关键功能模块微服务化，能够按需配置软件资源虚拟化系统。

该发明架构更加凸显开放性，以降低数据管理基础架构成本的方式辅助社会单位数字化转型等工作，同时支撑了各类发展阶段不同的社会单位的需求，高效支撑各类业务应用的开发，适合大范围、跨行业的快速推广。

本申请实施例提供了一种电子设备，如图9所示，其包括存储有计算机程序的计算机可读存储介质301和处理器302，所述计算机程序被所述处理器读取并运行时，实现如前述所述的语义结构解析方法。

本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如前述所述的语义结构解析方法。

本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是空调器，制冷装置，个人计算机，服务器，或者网络设备等)或processor(处理器)执行本发明实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本申请中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于语义结构解析的方法、语义结构解析的装置、电子设备、机器可读存储介质实施例而言，由于其基本相似于最前端所述语义结构解析方法实施例，所以描述的比较简单，相关之处参见最前端所述语义结构解析方法实施例的部分说明即可。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语义结构解析方法，其特征在于，包括：

获取元数据；

将语义结构完整的所述元数据转换为标准语义结构数据。

2.如权利要求1所述的方法，其特征在于，所述模式匹配预训练模型的训练过程为：

获取已标注的样本数据；

提取所述样本数据的数据特征、文本语义特征和统计特征；

3.如权利要求1所述的方法，其特征在于，所述深度语义表征预训练模型的训练过程为：

获取已标注的样本数据；

提取所述样本数据的数据特征、文本语义特征和统计特征；

4.如权利要求1所述的方法，其特征在于，所述方法还包括：

5.一种语义结构解析装置，其特征在于，包括：

获取单元，其用于获取元数据；

6.如权利要求5所述的装置，其特征在于，还包括：

7.一种电子设备，其特征在于，包括存储有计算机程序的计算机可读存储介质和处理器，所述计算机程序被所述处理器读取并运行时，实现如权利要求1-4任一项所述的方法。

8.一种虚拟化系统，其特征在于，包括：

连接器层，其用于与不同数据库建立底层物理连接；

探测感知层，其内设置有权利要求5或6所述的语义结构解析装置，用于获取所述数据库的元数据并转化为标准语义结构数据；

9.如权利要求8所述的系统，其特征在于，所述探测感知层还包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器读取并运行时，实现如权利要求1-4任一项所述的方法。