CN116386641A

CN116386641A - 一种可泛化的语音生成sql方法

Info

Publication number: CN116386641A
Application number: CN202310210616.0A
Authority: CN
Inventors: 沈然; 沈皓; 孙钢; 谷泓杰; 叶方彬; 汪一帆; 林恺丰; 李伊玲; 刘华岱; 黄俊杰
Original assignee: Zhejiang University ZJU; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-07-04

Abstract

本发明公开了一种可泛化的语音生成SQL方法。本发明采用的技术方案为：步骤1)，利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息标准化处理；步骤2)，利用自监督音频表征模型提取语义信息丰富的音频表征；步骤3)，将步骤2)得到的音频表征通过反向梯度和分类器对不同语者的音频进行分类，并在推理时使用梯度反转，学习语者无关的音频表征；步骤4)，将步骤2)得到的音频表征同文本数据库特征输入relation‑aware transformer中，并将输出随即输入到SQL解码器中得到预测的SQL，并与真实SQL计算MLE损失。本发明采用语音重编程和梯度反转分类器技术，解决了直接的语音到SQL解析，减少了声学方法和音频中的风格信息而保留语义信息。

Description

一种可泛化的语音生成SQL方法

技术领域

本发明涉及SQL语句生成及语音理解，具体地说是一种可泛化的语音生成SQL方法。

背景技术

语音问题生成数据库查询语句旨在将口语问题转换为给定关系数据库的SQL查询，传统方法采用级联方式实现，即通过自动语音设别模型和文本问题生成数据库查询语句模型。但这种方式同时面临以下挑战：1)模型训练面临数据稀缺的主要问题，可用的并行数据有限；2)系统应该足够健壮，能够处理与源数据不同的各种域外语音样本。

发明内容

为了克服多口音和多语者对语音到SQL解析的限制，本发明提供一种可泛化的语音生成SQL方法，其采用语音重编程和梯度反转分类器技术，以解决直接的语音到SQL解析，减少声学方法和音频中的风格信息而保留语义信息。

为此，本发明采用如下的技术方案：一种可泛化的语音生成SQL方法，其包括：

步骤1)，利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息标准化处理，得到包含声学信息丰富的音频和语者信息标准化后的音频以及原始音频组成新的音频；

步骤2)，利用自监督音频表征模型提取语义信息丰富的音频表征；

步骤3)，将步骤2)得到的音频表征通过反向梯度和分类器对不同语者的音频进行分类，并在推理时使用梯度反转，学习语者无关的音频表征；

步骤4)，将步骤2)得到的音频表征同文本数据库特征输入relation-awaretransformer(RAT)中，并将输出随即输入到SQL解码器中得到预测的SQL，并与真实SQL计算MLE损失。

语音生成SQL方法传统上以级联方式实现，这种方式面临以下挑战：1)模型训练面临数据稀缺的主要问题，可用的并行数据有限；2)系统应该足够健壮，能够处理与源数据不同的各种域外语音样本。在本发明中，提出了第一个直接的语音到SQL解析，它避免了跨级联系统的错误复合。具体来说，1)利用最近在大规模预训练方面取得的成果，表明它解决了数据稀缺问题并允许直接进行语音到SQL的解析；2)引入了语音重编程和梯度反转分类器技术，以减少声学方差和学习风格无关的表示，提高模型对不可见的域外自定义数据的泛化能力。

进一步地，步骤1)中，为了扰动声学特征，使用下述函数：a)随机重采样RR，b)共振峰移位fs，c)音高随机化pr，d)使用参数均衡器peq的随机频率整形。

更进一步地，步骤1)中，对于RR，采用随机重采样来修改节奏，原始波形被分成若干段，其长度从19帧到32帧随机均匀抽取，使用线性插值对每个片段进行重采样，重采样因子从0.5到1.5随机抽取。

更进一步地，步骤1)中，对于fs，从Uniform(1,1.4)中统一采样共振峰位移比；采样比率后，再次随机决定是否取采样比率的倒数。

更进一步地，步骤1)中，对于pr，分别从Uniform(1,2)和Uniform(1,1.5)均匀采样音高偏移率和音高范围率；采样后，随机决定是否取采样比率的倒数。

更进一步地，步骤1)中，peq表示一系列组合的低倾斜、峰值和高倾斜滤波器，使用一个低架HLS、一个高架HHS和八个峰值滤波器HPeak。

进一步地，步骤2)的具体内容为：

为缓解数据稀缺问题并从原始波形中学习语言内容，利用自监督的语音表征模型Hubert，使用多层卷积波形编码器生成音频特征，随后通过transformer上下文编码器来构造上下文表示；

采用Hubert-Base模型作为语音表示，该模型在960小时的LibriSpeech上进行预训练。值得注意的是，语音表示不仅可以合并丰富的声学信息，还可以合并与口音和说话者相关的声学属性。

进一步地，步骤3)的具体内容为：

为消除语音表示中的说话人身份，在说话人分类器中引入了一个梯度反转层GRL，它将说话人的变化视为一个分类问题，并直接最大化域的损失通过反转其梯度来优化分类器；在反向传播中，GRL从后续层获取梯度并在将其传递到前一层之前，通过乘以-1来更改其符号：

R(x)＝x,

其中，I表示单位矩阵；R表示该层执行的操作；x表示传入GRL层的输入。

进一步地，步骤4)包括：

步骤41)，将步骤2)得到的音频表征与文本的schema进行跨模态的融合得到包含问题与schema信息的编码器输出特征，计算公式如下：

其中，R_ij是预先获取的边关系，表示问题和模式自身和彼此之间的预定义交叉关系；H是头数；

分别是查询、键和值的线性层参数矩阵；d_k表示key的维度；d_model表示模型维度；q_i表示第i个question；s_j表示第j个schema；e_ij表示e(q_i,s_j)，e(q_i,s_j)表示中间得到的值；z(q_i,s_i)表示每个q和s的对齐关系；

步骤42)，将步骤41)得到的编码器输出输入到SQL解码器中，SQL解码器遵循基于语法的架构，它以深度优先遍历顺序将SQL生成为抽象语法树AST；SQL AST的生成过程分解为顺序动作，分为两种情况：1)APPLYRULE，根据文法规则扩展最后生成的节点或完成一个叶节点，2)SELECCTCOLUMN和SELECTTABLE，分别表示从架构中选择列或表项。

更进一步地，步骤4)还包括：

步骤43)，生成一个SQL y的概率被定义为：

其中，x是编码后的问题、列和表，a_t是时间步t的动作标记，a<t是时间步t之前的顺序动作；y表示SQL；

在树结构的LSTM解码器中，将每个时间步t的隐藏状态更新为mt，h_t＝LSTM([a_t-1；p_t；c_t；n_t]，m_t-1，h_t-1)，其中m_t是时间步t的细胞状态，h_t是隐藏状态，a_t-1是前一个动作嵌入，p_t是当前节点的父信息，c_t是上下文向量，n_t是当前节点类型的嵌入，父信息包含父动作的隐藏状态和嵌入，上下文向量使用对x和h_t-1的多头注意力计算；最后，如何计算动作概率p(a_t|x，a<t)解释如下：

对于APPLYRULE操作，

p(a_t＝AR[r]|x，a_＜t)＝softmaxR(g(h_t))

其中，AR是APPLYRULE动作，g(·)是由两个线性层和一个tanh激活函数组成的前馈网络；

对于SELECTTABLE操作，

其中，x_j表示x的第j列；ST表示SELECTABLE操作，SELECTCOLUMN操作的计算与其一致。

本发明具有的有益效果如下：避免了跨级联系统的错误复合，具体来说，1)为了加速社区中语音驱动的SQL解析研究，发布了一个大规模和多说话人的数据集MASpider；2)解决了数据稀缺问题并允许直接进行语音到SQL的解析；3)引入了语音重编程和梯度反转分类器技术，减少声学方差和学习风格无关的表示，提高对不可见的域外自定义数据的泛化能力。

附图说明

图1是本发明使用的端到端的网络系统概览图，包括自监督的语音表征模型Hubert、语言模型GloVe、双向LSTM、梯度反转层、领域分类器、RAT以及SQL解码器。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供一种可泛化的语音生成SQL方法，包括如下步骤：

步骤1)，利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息规范化处理，得到包含声学信息丰富的音频和语者信息规划化后的音频以及原始音频组成新的音频；

所述的步骤1)利用语音重编程获取声学信息增强的音频输入，其具体步骤为：

为了扰动声学特征，使用下述函数，即a)随机重采样RR，以及b)共振峰移位fs，以及c)音高随机化pr，d)使用参数均衡器peq的随机频率整形。

对于RR，采用随机重采样来修改节奏。原始波形被分成若干段，其长度从19帧到32帧随机均匀抽取。使用线性插值对每个片段进行重采样，重采样因子从0.5到1.5随机抽取。

对于fs，从Uniform(1,1.4)中统一采样共振峰位移比。采样比率后，再次随机决定是否取采样比率的倒数。

对于pr，分别从Uniform(1,2)和Uniform(1,1.5)均匀采样音高偏移率和音高范围率。同样，随机决定是否取采样比率的倒数。

peq表示一系列组合的低倾斜、峰值和高倾斜滤波器。本发明使用一个低架HLS、一个高架HHS和八个峰值滤波器HPeak。

所述的步骤2)具体为：

为了缓解数据稀缺问题并从原始波形中学习语言内容，本发明利用自监督的语音表征模型Hubert，使用多层卷积波形编码器生成音频特征，随后通过transformer上下文编码器来构造上下文表示。

本发明采用Hubert-Base模型作为语音表示，该模型在960小时的LibriSpeech上进行预训练。值得注意的是，发现语音表示不仅可以合并丰富的声学信息，还可以合并与口音和说话者相关的声学属性。

所述的步骤3)具体为：

为了消除语音表示中的说话人身份，在说话人分类器中引入了一个梯度反转层(GRL)，它将说话人的变化视为一个分类问题，并直接最大化域的损失通过反转其梯度来优化分类器。在反向传播中，GRL从后续层获取梯度并在将其传递到前一层之前通过乘以-1来更改其符号：

R(x)＝x,

所述的步骤4)具体为：

4.1)将步骤2)得到的音频表征与文本的schema进行跨模态的融合得到包含问题与schema信息的编码器输出特征，计算公式如下：

分别是查询、键和值的线性层参数矩阵；d_k表示key的维度；d_model表示模型维度；q_i表示第i个question；s_j表示第j个schema；e_ij表示e(q_i,s_j)，e(q_i,s_j)表示中间得到的值；z(q_i,s_i)表示每个q和s的对齐关系。

4.2)将步骤4.1)得到的编码器输出输入到SQL解码器中，SQL解码器遵循基于语法的架构，它以深度优先遍历顺序将SQL生成为抽象语法树(AST)。SQL AST的生成过程分解为顺序动作，分为两种情况：(1)APPLYRULE，根据文法规则扩展最后生成的节点或完成一个叶节点，(2)SELECCTCOLUMN和SELECTTABLE表示分别从架构中选择列或表项。

4.3.1)生成一个SQL y的概率被定义为：

其中x是问题、列和表的编码记忆，a_t是时间步t的动作标记，a<t是时间步t之前的顺序动作。

4.3.2)在树结构的LSTM解码器中，将每个时间步t的隐藏状态更新为mt，h_t＝LSTM([a_t-1；p_t；c_t；n_t]，m_t-1，h_t-1)，其中m_t是时间步t的细胞状态，h_t是隐藏状态，a_t-1是前一个动作嵌入，p_t是当前节点的父信息，c_t是上下文向量，n_t是当前节点类型的嵌入，父信息包含父动作的隐藏状态和嵌入，上下文向量使用对x和h_t-1的多头注意力计算；最后，如何计算动作概率p(a_t|x，a<t)解释如下：

对于APPLYRULE操作，

p(a_t＝AR[r]|X，a_＜t)＝softmaxR(g(h_t))

对于SELECTTABLE操作，

应用例

本发明所述的方法在标注的MASpider上进行实验，并且比较了级联系统和基础模型(除去本发明提出的方法之外的模型)训练基于TTS数据集所得的实验结果。为了客观地评价本发明的算法的性能，本发明在所选出的测试集中，使用了component matchingaccuracy和exact match accuracy这种评价标准来对于本发明的效果进行评价。分别在两种设定下完成实验，1)测试模型的效果，在这种设定下测试集的口音和语者在训练集中是可见的，但是测试集的数据库仍是不可见的；2)对自定义数据的泛化性，这种设定下测试集的口音、语者以及数据库均是不可见的。

按照具体实施方式中描述的步骤，所得的实验结果如表1、表2所示，本发明的方法表示为Wav2SQL。

从表1中可以发现，Wav2SQL在所有组件匹配准确率和exact match准确率上都高于级联模型，并实现了有竞争力的结果同上界模型TTS+S2SQL相比，证明了本发明方法的有效性。对于自定义数据的泛化性，Wav2SQL在绝大部分组件匹配准确率上也都高于级联系统，证明Wav2SQL有着更强的泛化性相比于级联模型，证明本发明提出的方法可以有效缓解多口音多语者对语音生成SQL任务的限制。

从表2中同样发现Wav2SQL比级联模型效果要好，因此得到的结论是类似的。

表1本发明在MASpider上获得的component matching和exact match accuracy的测试结果

表2本发明在MASpider上根据难度划分的测试结果

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims

1.一种可泛化的语音生成SQL方法，其特征在于，包括：

步骤4)，将步骤2)得到的音频表征同文本数据库特征输入relation-awaretransformer中，并将输出随即输入到SQL解码器中得到预测的SQL，并与真实SQL计算MLE损失。

2.根据权利要求1所述的一种可泛化的语音生成SQL方法，其特征在于，步骤1)中，为了扰动声学特征，使用下述函数：a)随机重采样RR，b)共振峰移位fs，c)音高随机化pr，d)使用参数均衡器peq的随机频率整形。

3.根据权利要求2所述的一种可泛化的语音生成SQL方法，其特征在于，步骤1)中，对于RR，采用随机重采样来修改节奏，原始波形被分成若干段，其长度从19帧到32帧随机均匀抽取，使用线性插值对每个片段进行重采样，重采样因子从0.5到1.5随机抽取。

4.根据权利要求2所述的一种可泛化的语音生成SQL方法，其特征在于，步骤1)中，对于fs，从Uniform(1,1.4)中统一采样共振峰位移比；采样比率后，再次随机决定是否取采样比率的倒数。

5.根据权利要求2所述的一种可泛化的语音生成SQL方法，其特征在于，步骤1)中，对于pr，分别从Uniform(1,2)和Uniform(1,1.5)均匀采样音高偏移率和音高范围率；采样后，随机决定是否取采样比率的倒数。

6.根据权利要求2所述的一种可泛化的语音生成SQL方法，其特征在于，步骤1)中，peq表示一系列组合的低倾斜、峰值和高倾斜滤波器，使用一个低架HLS、一个高架HHS和八个峰值滤波器HPeak。

7.根据权利要求1所述的一种可泛化的语音生成SQL方法，其特征在于，步骤2)的具体内容为：

采用Hubert-Base模型作为语音表示，该模型在960小时的LibriSpeech上进行预训练。

8.根据权利要求1所述的一种可泛化的语音生成SQL方法，其特征在于，步骤3)的具体内容为：

R(x)＝x,

9.根据权利要求1所述的一种可泛化的语音生成SQL方法，其特征在于，步骤4)包括：

步骤41)，将步骤2)得到的音频表征与文本的schema进行跨模态的融合，得到包含问题与schema信息的编码器输出特征，计算公式如下：

步骤42)，将步骤41)得到的编码器输出输入到SQL解码器中，SQL解码器遵循基于语法的架构，它以深度优先遍历顺序将SQL生成为抽象语法树AST；SQL AST的生成过程分解为顺序动作，分为两种情况：1)APPLYRULE，根据文法规则扩展最后生成的节点或完成一个叶节点，2)SELECCTCOLUM和SELECTTABLE，分别表示从架构中选择列或表项。

10.根据权利要求9所述的一种可泛化的语音生成SQL方法，其特征在于，步骤4)还包括：

步骤43)，生成一个SQL y的概率被定义为：

其中，x是编码后的问题、列和表，a_t是时间步t的动作标记，a＜t是时间步t之前的顺序动作；y表示SQL；

在树结构的LSTM解码器中，将每个时间步t的隐藏状态更新为mt，h_t＝LSTM([a_t-1；p_t；c_t；n_t]，m_t-1，h_t-1)，其中m_t是时间步t的细胞状态，h_t是隐藏状态，a_t-1是前一个动作嵌入，p_t是当前节点的父信息，c_t是上下文向量，n_t是当前节点类型的嵌入，父信息包含父动作的隐藏状态和嵌入，上下文向量使用对x和h_t-1的多头注意力计算；最后，如何计算动作概率p(a_t|x，a＜t)解释如下：

对于APPLYRULE操作，

p(a_t＝AR[r]|x，a＜t)＝softmax_R(g(h_t))

对于SELECTTABLE操作，