CN110727695B

CN110727695B - 面向新型供电城轨列车数据运维的自然语言查询解析方法

Info

Publication number: CN110727695B
Application number: CN201910936345.0A
Authority: CN
Inventors: 吴晓凡; 刘晋; 潘硕; 李辉; 田野; 陈刚; 陈珂; 江大伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2022-05-03
Anticipated expiration: 2039-09-29
Also published as: CN110727695A

Abstract

本发明公开了一种面向新型供电城轨列车数据运维的自然语言查询解析方法。新型供电城轨列车运行时采集获得的运维数据存储于数据库中，组建一条运维数据的训练样本；对运维数据的自然语言查询和字段进行嵌入处理；将两组输入向量结合各自的标签输入到各自的不同神经网络模型中进行训练；将待测试的自然语言查询语句处理成输入向量，通过训练后的两个不同神经网络模型映射到，对结构化查询语句的不同分类部分进行预测输出，预测后再组合合并成完整的预测结果。本发明利用了数据库已存储的大规模数据扩充训练样本，在获取成本低、存储代价小、使用效率高的基础上，丰富了模型学习到的语义信息，提升了对结构化查询语句的预测准确率。

Description

面向新型供电城轨列车数据运维的自然语言查询解析方法

技术领域

本发明涉及计算机机器学习领域中的语言数据查询方法，尤其是涉及了一种面向新型供电城轨列车数据运维的自然语言查询解析方法。

背景技术

在新型供电城轨列车运维系统中，对所存储的数据进行查询是最频繁也是最重要的操作。传统的查询方式需要精通数据库查询语法的用户为每一个查询编写结构化查询语句，随着业务规模的扩大和人工智能技术的发展，现代的个性化运维系统对使用自然语言的查询方式提出了迫切的需求。与传统查询方式相比，通过对自然语言查询进行解析，把自然语言转换为结构化查询语句，能够使用户在不需要了解数据具体存储方式的情况下快速地实现查询意图。这种自然语言查询解析技术能够大大地提高新型城轨列车个性化运维系统的查询便利性和使用效率，在业务数据规模不断扩大的背景下，使个性化运维系统为大数据的管理和使用提供更好的支撑。

近年来，随着人工智能技术的快速发展，自然语言查询的解析方法集中在神经网络领域。这类方法一般将自然语言查询和数据库的字段名称进行词嵌入表示作为模型输入，通过序列-序列或者序列-集合的模型结构生成结构化查询语句。但是实际场景下的自然语言查询在很多情况下不会显式地出现字段名称，因此仅使用词向量建模两者的语义联系具有较大的局限性。一些最新的方法采用了外部知识库、概念网络以及预训练模型等外部资源来增强对自然语言和字段的语义表示，但是这些外部资源的获取和存储对网络环境和存储空间有很高的要求，不适合在新型城轨列车运维的实际场景中使用。

发明内容

本发明的目的在于针对新型供电城轨列车运维数据处理，提供了一种面向新型供电城轨列车数据运维的自然语言查询解析方法，方法上将已存储的数据所带来的丰富信息加入到神经网络模型中，在获取成本低、存储代价小、使用效率高的基础上提高了对结构化查询语句的预测准确率。

本发明解决问题的技术方案如下：

(1)新型供电城轨列车运行时采集获得的运维数据存储于数据库中，运维数据包括车辆运行能耗参数、车厢空气细颗粒物浓度参数等。由运维数据的一个自然语言查询语句以及该自然查询语句所对应的一个结构化查询语句组建一条运维数据的训练样本，自然语言查询语句包含有字段，每种字段具有多个属性值；

对于每条训练样本，将自然语言查询语句中出现的每个字段的属性值替换为同种字段的其他属性值，并同样对结构化查询语句做相同替换，由此重复多次形成一批训练样本，完成对训练样本的扩展；

本发明中，自然语言查询语句中的字段是根据数据库中的词典建立字段，利用词典识别自然语言查询语句获得。字段是由单个词或者多个词组成。

(2)针对新型供电城轨列车运行时采集获得的运维数据，对运维数据的自然语言查询和字段进行嵌入处理：

对自然语言查询语句中出现的属于字段属性值的词进行标记，按照不同种字段对应的词映射为不同的类型向量，同一种字段对应的词映射为同一类型向量；同时对自然语言查询语句中每个字段属性值的词处理获得第一词向量；对数据库中每种字段属性值的词的第一词向量进行平均处理获得平均词向量作为该种字段的内容向量，对每个字段的词处理获得第二词向量；

最后将自然语言查询语句中每个类型向量以及数据库中每种字段的内容向量和各自的词向量组合，形成两组输入向量；

(3)将两组输入向量结合各自的标签输入到各自的不同神经网络模型中进行训练，标签是指两组输入向量共同组成的组合对应于结构化查询语句所属部分的分类标签，获得训练后的两个不同神经网络模型；

(4)将待测试的自然语言查询语句按照上述步骤处理成输入向量，通过训练后的两个不同神经网络模型映射到两个不同的标签空间，对结构化查询语句的不同分类部分进行预测输出，预测后再组合合并成完整的预测结果。

本发明方法上将已存储的运维数据所带来的丰富信息加入到神经网络模型中。

所述步骤(2)中，如果出现某个字段或者字段的属性值是由多个词组成，则将多个词视为一个整体对待，多个词的词向量的平均值作为整体的词向量。

所述步骤(2)中，具体是将类型向量和第一词向量前后拼接进行组合，将内容向量和第二词向量前后拼接进行组合，第一词向量是由自然语言查询语句的每个词获得，第二词向量是指字段的词向量。

在本发明的新型供电城轨列车运维数据的查询解析处理中，数据库中存储的运维数据是一种获取成本低、存储代价小、使用效率高的信息来源。

本发明将每个字段下已存储的数据用于对字段的语义表示，能够突破字段名称的局限性，对字段形成更加准确的语义存储；对自然语言中出现的属性值按照字段进行标记，能够直接形成自然语言和字段的联系，为结构化查询语句的生成做好铺垫。

此外，新型城轨列车系统的数据存储规模很大，本发明扩充了训练样本，缓解该任务缺乏大规模标注样本的问题，增强模型的泛化性。

本发明的有益效果是：

本发明解决的问题是对新型供电城轨列车运维中的自然语言查询进行语义解析进而转换为结构化查询语句。现有的技术方案通常先对输入的自然语言和数据库字段进行向量表示然后用神经网络预测结果，但是仅从训练样本中学习的向量表示缺乏足够的语义信息，对预测效果有很大影响。

本发明方法在解析自然语言查询的过程中，利用了数据库已存储的大规模数据扩充训练样本，并在向量表示阶段结合了已存储数据的语义信息，在获取成本低、存储代价小、使用效率高的基础上，丰富了模型学习到的语义信息，提升了对结构化查询语句的预测准确率。

附图说明

图1是面向新型供电城轨列车个性化运维的自然语言查询解析示意图。

具体实施方式

现结合具体实施过程对本发明的技术方案作进一步说明。

如图1所示，本发明的具体实施例及其具体实施过程如下：

(1)首先根据列车已存储的运维数据对训练样本进行扩充。

本实施采用的基本思想是用数据表中存储的同一字段的其他内容，替换训练样本中的属性值，产生新样本。这种替换能够在保证新样本正确性的情况下，丰富训练集蕴含的语义信息。具体的流程如下,对于每条训练样本：

a)遍历它的标签里的条件子句，返回所有出现的字段；

b)对于a)步得到的每个字段，遍历它的每个属性值，如果能够在该样本的自然语言查询中唯一的匹配的到同样的字符串，则将该字段加入可替换字段集合；

c)对于可替换字段集合中的每个字段，随机的取一个属性值并替换样本中原有的属性值，为了充分利用已存储数据，重复此过程5次，那么产生了5条新的训练样本。

例如，在列车已存储的运维数据中，字段“车厢编号”具有“四号”、“五号”、“八号”等多个属性值，一条自然语言查询语句为“返回四号车厢的空气细颗粒物浓度”，其中包含字段“车厢编号”的属性值“四号”，所以可以将自然语言查询语句“返回四号车厢的空气细颗粒物浓度”替换为“返回五号车厢的空气细颗粒物浓度”、“返回八号车厢的空气细颗粒物浓度”等，自然语言查询语句“返回四号车厢的空气细颗粒物浓度”对应的结构化查询语句也做相同替换。

经过以上步骤，训练样本在原来的基础上扩充了约5倍，和原有的样本相比，新样本利用了大规模的新型供电城轨列车系统中所存储数据，带来了更加丰富的语义信息，使接下来训练的模型学习到更加准确的参数。

(2)结合已存储的运维数据对自然语言查询语句和字段进行嵌入表示。为了将真实世界数据所构成的训练样本输入到神经网络模型之中，需要首先使用嵌入层将每个输入的数据表示成高维度的向量。在本发明中，输入的数据有两个，分别是自然语言查询和数据库字段。

自然语言查询语句的向量表示来源于词向量和类型向量，其具体表示方法如下：

a)首先对自然语言查询语句进行分词，得到一个词语序列；

b)对于a)得到的序列中长度为1-6的词语子序列，在数据库已存储的内容中检索是否在某个字段下存在相等的属性值,如果有，则将该词语子序列合并为一个词语，并将类型标记设置为该字段的编号，若没有，则类型标记为0；

c)对于b)步骤之后得到的每个词语，通过查询词向量表映射到对应的词向量，对于b)中进行了合并的词语，其词向量用合并前每个词语的词向量的平均值代替；

d)对于b)步骤之后得到的每个词语，通过查询类型向量表映射到对应的类型向量；

e)将自然语言查询中每个词语的词向量和类型向量前后拼接得到每个词语最后的向量表示，将它们组合在一起，就是自然语言查询语句的向量表示。

例如，一条自然语言查询语句为“返回四号车厢的空气细颗粒物浓度”，分词后得到词语序列为“返回/四号/车厢/的/空气/细颗粒物/浓度”，那么我们通过对该词语序列中长度为1-6的子序列分别在已存储的运维数据中检索匹配，得到“四号”是“车厢编号”的一个属性值。所以该句的类型标记序列为“0/车厢编号/0/0/0/0/0”。将词语序列的每个词分别通过词向量表映射到一个词向量上，将类型标记序列的每个值分别通过类型向量表映射到一个类型向量上，然后将在序列中相同位置的词向量和类型向量前后拼接，得到自然语言查询语句的向量表示。词向量表和类型向量表可以随机初始化或者通过预训练模型的得到的向量初始化，在训练过程中保持参数更新。

数据库字段的向量表示来源于词向量和内容向量，其具体表示方法如下：

a)首先对每个字段的名称进行分词；

b)对于每个字段名称，如果分词后的词语数量为1，则该字段的词向量就是这个唯一的词语的词向量，否则，该字段的词向量为其中所有词语的平均词向量；

c)对于每个字段，抽取已存储的数据在该字段下所有独特的属性值，并进行分词，将所有词向量的平均值作为该字段的内容向量；

d)将每个字段的词向量和类型向量前后拼接得到每个字段最后的向量表示，将所有字段的向量表示组合在一起，就是数据库字段的向量表示。

例如，在某个自然语言查询语句所涉及的数据表中，字段一共有四个，分别是车厢编号、车厢面积、车厢温度、空气细颗粒物浓度。那么将四个字段看作一个词语序列，对每个字段先分词，如果由一个词组成，则通过词向量表映射得到字段的词向量，如果由多个词组成，比如“空气/细颗粒物/浓度”，则把这些词的平均值作为该字段的词向量。对于每个字段，已存储的运维数据中都存在它的一些属性值，比如车厢编号有“四号”、“五号”等，通过把每个字段所对应的所有属性值的词向量取平均，得到每个字段的内容向量。对于由多个词组成的属性值，则把这些词的词向量的平均值作为该属性值的词向量。

(3)将两组输入向量通过不同的神经网络映射到不同的标签空间，预测结构化查询语句的不同子部分，再将它们组合成最终的预测结果。

结构化查询语句的不同子部分就是指查询选择字段、查询条件字段、条件操作符、查询条件取值等。在经过第(2)步得到两组输入向量之后，对不同子部分的预测，采用不同的神经网络。对每个神经网络，首先对输入向量通过过长短期记忆模型进行编码，挖掘更深层次的语义特征，然后建立计算自然语言查询基于字段注意力的向量表示，最后根据任务特征进行标签输出。

例如，一条自然语言查询语句为“返回四号车厢的空气细颗粒物浓度”，其结构化查询语句的预测分为5个子部分。第一个子部分是选择字段，即对所有字段进行预测，类别概率超过某一阈值的字段为预测的选择字段，真实的选择字段是“空气细颗粒物浓度”。第二个子部分是条件字段个数，人为地设定某个整数范围，类别是这个范围中的每一个数，将其中得分最高的数作为预测的条件字段个数，假设个数为n，则需要将第三至第五个子部分迭代n次，例子中的真实条件字段个数为1。第三个子部分是条件字段，这一步和选择字段的预测相同，例子中的真实条件字段为车厢编号。第四个子部分为条件操作符，即对“大于”、“小于”、“等于”这三个操作符进行打分，分数最高的就是预测的条件操作符，例子中的真实条件操作符是“等于”。第五个子部分为条件属性值，即通过序列-序列模型生成一个字符串，作为预测的条件属性值，例子中真实的条件属性值是“四号”。

上述(2)和(3)两个步骤是完整模型的结构，通过输入训练样本，使模型的参数不断调整，直到模型的损失不再明显下降。

(4)将测试数据或者实际应用中的自然语言查询输入到模型中得到预测结果。

以上四个步骤是本发明的具体实施过程，通过增加样本扩充层以提高训练样本的语义丰富程度，以及在向量表示层结合存储的运维数据以更准确的表示字段语义，在没有显著提升获取和存储成本的情况下，提升了对结构化查询语句的预测准确率。

Claims

1.一种面向新型供电城轨列车数据运维的自然语言查询解析方法，其特征在于：方法的步骤如下：

(1)新型供电城轨列车运行时采集获得的运维数据存储于数据库中，由运维数据的一个自然语言查询语句以及该自然语言查询语句所对应的一个结构化查询语句组建一条运维数据的训练样本，自然语言查询语句包含有字段，每种字段具有多个属性值；对于每条训练样本，将自然语言查询语句中出现的每个字段的属性值替换为同种字段的其他属性值，并同样对结构化查询语句做相同替换，由此重复多次形成一批训练样本，完成对训练样本的扩展；

(2)针对新型供电城轨列车运行时采集获得的运维数据，对运维数据的自然语言查询和字段进行嵌入处理：对自然语言查询语句中出现的属于字段属性值的词进行标记，按照不同种字段对应的词映射为不同的类型向量，同一种字段对应的词映射为同一类型向量；同时对自然语言查询语句中每个字段属性值的词处理获得第一词向量；对数据库中每种字段属性值的词的第一词向量进行平均处理获得平均词向量作为该种字段的内容向量，对每个字段的词处理获得第二词向量；最后将自然语言查询语句中每个类型向量以及数据库中每种字段的内容向量和各自的词向量组合，形成两组输入向量；

2.根据权利要求1所述的一种面向新型供电城轨列车数据运维的自然语言查询解析方法，其特征在于：所述步骤(2)中，如果出现某个字段或者字段的属性值是由多个词组成，则将多个词视为一个整体对待，多个词的词向量的平均值作为整体的词向量。

3.根据权利要求1所述的一种面向新型供电城轨列车数据运维的自然语言查询解析方法，其特征在于：所述步骤(2)中，具体是将类型向量和第一词向量前后拼接进行组合，将内容向量和第二词向量前后拼接进行组合，第一词向量是由自然语言查询语句的每个词获得，第二词向量是指字段的词向量。