CN116386641A - 一种可泛化的语音生成sql方法 - Google Patents

一种可泛化的语音生成sql方法 Download PDF

Info

Publication number
CN116386641A
CN116386641A CN202310210616.0A CN202310210616A CN116386641A CN 116386641 A CN116386641 A CN 116386641A CN 202310210616 A CN202310210616 A CN 202310210616A CN 116386641 A CN116386641 A CN 116386641A
Authority
CN
China
Prior art keywords
sql
audio
generalizable
information
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310210616.0A
Other languages
English (en)
Inventor
沈然
沈皓
孙钢
谷泓杰
叶方彬
汪一帆
林恺丰
李伊玲
刘华岱
黄俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Zhejiang University ZJU
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical Zhejiang University ZJU
Priority to CN202310210616.0A priority Critical patent/CN116386641A/zh
Publication of CN116386641A publication Critical patent/CN116386641A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种可泛化的语音生成SQL方法。本发明采用的技术方案为:步骤1),利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息标准化处理;步骤2),利用自监督音频表征模型提取语义信息丰富的音频表征;步骤3),将步骤2)得到的音频表征通过反向梯度和分类器对不同语者的音频进行分类,并在推理时使用梯度反转,学习语者无关的音频表征;步骤4),将步骤2)得到的音频表征同文本数据库特征输入relation‑aware transformer中,并将输出随即输入到SQL解码器中得到预测的SQL,并与真实SQL计算MLE损失。本发明采用语音重编程和梯度反转分类器技术,解决了直接的语音到SQL解析,减少了声学方法和音频中的风格信息而保留语义信息。

Description

一种可泛化的语音生成SQL方法
技术领域
本发明涉及SQL语句生成及语音理解,具体地说是一种可泛化的语音生成SQL方法。
背景技术
语音问题生成数据库查询语句旨在将口语问题转换为给定关系数据库的SQL查询,传统方法采用级联方式实现,即通过自动语音设别模型和文本问题生成数据库查询语句模型。但这种方式同时面临以下挑战:1)模型训练面临数据稀缺的主要问题,可用的并行数据有限;2)系统应该足够健壮,能够处理与源数据不同的各种域外语音样本。
发明内容
为了克服多口音和多语者对语音到SQL解析的限制,本发明提供一种可泛化的语音生成SQL方法,其采用语音重编程和梯度反转分类器技术,以解决直接的语音到SQL解析,减少声学方法和音频中的风格信息而保留语义信息。
为此,本发明采用如下的技术方案:一种可泛化的语音生成SQL方法,其包括:
步骤1),利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息标准化处理,得到包含声学信息丰富的音频和语者信息标准化后的音频以及原始音频组成新的音频;
步骤2),利用自监督音频表征模型提取语义信息丰富的音频表征;
步骤3),将步骤2)得到的音频表征通过反向梯度和分类器对不同语者的音频进行分类,并在推理时使用梯度反转,学习语者无关的音频表征;
步骤4),将步骤2)得到的音频表征同文本数据库特征输入relation-awaretransformer(RAT)中,并将输出随即输入到SQL解码器中得到预测的SQL,并与真实SQL计算MLE损失。
语音生成SQL方法传统上以级联方式实现,这种方式面临以下挑战:1)模型训练面临数据稀缺的主要问题,可用的并行数据有限;2)系统应该足够健壮,能够处理与源数据不同的各种域外语音样本。在本发明中,提出了第一个直接的语音到SQL解析,它避免了跨级联系统的错误复合。具体来说,1)利用最近在大规模预训练方面取得的成果,表明它解决了数据稀缺问题并允许直接进行语音到SQL的解析;2)引入了语音重编程和梯度反转分类器技术,以减少声学方差和学习风格无关的表示,提高模型对不可见的域外自定义数据的泛化能力。
进一步地,步骤1)中,为了扰动声学特征,使用下述函数:a)随机重采样RR,b)共振峰移位fs,c)音高随机化pr,d)使用参数均衡器peq的随机频率整形。
更进一步地,步骤1)中,对于RR,采用随机重采样来修改节奏,原始波形被分成若干段,其长度从19帧到32帧随机均匀抽取,使用线性插值对每个片段进行重采样,重采样因子从0.5到1.5随机抽取。
更进一步地,步骤1)中,对于fs,从Uniform(1,1.4)中统一采样共振峰位移比;采样比率后,再次随机决定是否取采样比率的倒数。
更进一步地,步骤1)中,对于pr,分别从Uniform(1,2)和Uniform(1,1.5)均匀采样音高偏移率和音高范围率;采样后,随机决定是否取采样比率的倒数。
更进一步地,步骤1)中,peq表示一系列组合的低倾斜、峰值和高倾斜滤波器,使用一个低架HLS、一个高架HHS和八个峰值滤波器HPeak。
进一步地,步骤2)的具体内容为:
为缓解数据稀缺问题并从原始波形中学习语言内容,利用自监督的语音表征模型Hubert,使用多层卷积波形编码器生成音频特征,随后通过transformer上下文编码器来构造上下文表示;
采用Hubert-Base模型作为语音表示,该模型在960小时的LibriSpeech上进行预训练。值得注意的是,语音表示不仅可以合并丰富的声学信息,还可以合并与口音和说话者相关的声学属性。
进一步地,步骤3)的具体内容为:
为消除语音表示中的说话人身份,在说话人分类器中引入了一个梯度反转层GRL,它将说话人的变化视为一个分类问题,并直接最大化域的损失通过反转其梯度来优化分类器;在反向传播中,GRL从后续层获取梯度并在将其传递到前一层之前,通过乘以-1来更改其符号:
R(x)=x,
Figure BDA0004112524550000021
其中,I表示单位矩阵;R表示该层执行的操作;x表示传入GRL层的输入。
进一步地,步骤4)包括:
步骤41),将步骤2)得到的音频表征与文本的schema进行跨模态的融合得到包含问题与schema信息的编码器输出特征,计算公式如下:
Figure BDA0004112524550000031
其中,Rij是预先获取的边关系,表示问题和模式自身和彼此之间的预定义交叉关系;H是头数;
Figure BDA0004112524550000032
分别是查询、键和值的线性层参数矩阵;dk表示key的维度;dmodel表示模型维度;qi表示第i个question;sj表示第j个schema;eij表示e(qi,sj),e(qi,sj)表示中间得到的值;z(qi,si)表示每个q和s的对齐关系;
步骤42),将步骤41)得到的编码器输出输入到SQL解码器中,SQL解码器遵循基于语法的架构,它以深度优先遍历顺序将SQL生成为抽象语法树AST;SQL AST的生成过程分解为顺序动作,分为两种情况:1)APPLYRULE,根据文法规则扩展最后生成的节点或完成一个叶节点,2)SELECCTCOLUMN和SELECTTABLE,分别表示从架构中选择列或表项。
更进一步地,步骤4)还包括:
步骤43),生成一个SQL y的概率被定义为:
Figure BDA0004112524550000033
其中,x是编码后的问题、列和表,at是时间步t的动作标记,a<t是时间步t之前的顺序动作;y表示SQL;
在树结构的LSTM解码器中,将每个时间步t的隐藏状态更新为mt,ht=LSTM([at-1;pt;ct;nt],mt-1,ht-1),其中mt是时间步t的细胞状态,ht是隐藏状态,at-1是前一个动作嵌入,pt是当前节点的父信息,ct是上下文向量,nt是当前节点类型的嵌入,父信息包含父动作的隐藏状态和嵌入,上下文向量使用对x和ht-1的多头注意力计算;最后,如何计算动作概率p(at|x,a<t)解释如下:
对于APPLYRULE操作,
p(at=AR[r]|x,a<t)=softmaxR(g(ht))
其中,AR是APPLYRULE动作,g(·)是由两个线性层和一个tanh激活函数组成的前馈网络;
对于SELECTTABLE操作,
Figure BDA0004112524550000041
Figure BDA0004112524550000042
其中,xj表示x的第j列;ST表示SELECTABLE操作,SELECTCOLUMN操作的计算与其一致。
本发明具有的有益效果如下:避免了跨级联系统的错误复合,具体来说,1)为了加速社区中语音驱动的SQL解析研究,发布了一个大规模和多说话人的数据集MASpider;2)解决了数据稀缺问题并允许直接进行语音到SQL的解析;3)引入了语音重编程和梯度反转分类器技术,减少声学方差和学习风格无关的表示,提高对不可见的域外自定义数据的泛化能力。
附图说明
图1是本发明使用的端到端的网络系统概览图,包括自监督的语音表征模型Hubert、语言模型GloVe、双向LSTM、梯度反转层、领域分类器、RAT以及SQL解码器。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种可泛化的语音生成SQL方法,包括如下步骤:
步骤1),利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息规范化处理,得到包含声学信息丰富的音频和语者信息规划化后的音频以及原始音频组成新的音频;
步骤2),利用自监督音频表征模型提取语义信息丰富的音频表征;
步骤3),将步骤2)得到的音频表征通过反向梯度和分类器对不同语者的音频进行分类,并在推理时使用梯度反转,学习语者无关的音频表征;
步骤4),将步骤2)得到的音频表征同文本数据库特征输入relation-awaretransformer(RAT)中,并将输出随即输入到SQL解码器中得到预测的SQL,并与真实SQL计算MLE损失。
所述的步骤1)利用语音重编程获取声学信息增强的音频输入,其具体步骤为:
为了扰动声学特征,使用下述函数,即a)随机重采样RR,以及b)共振峰移位fs,以及c)音高随机化pr,d)使用参数均衡器peq的随机频率整形。
对于RR,采用随机重采样来修改节奏。原始波形被分成若干段,其长度从19帧到32帧随机均匀抽取。使用线性插值对每个片段进行重采样,重采样因子从0.5到1.5随机抽取。
对于fs,从Uniform(1,1.4)中统一采样共振峰位移比。采样比率后,再次随机决定是否取采样比率的倒数。
对于pr,分别从Uniform(1,2)和Uniform(1,1.5)均匀采样音高偏移率和音高范围率。同样,随机决定是否取采样比率的倒数。
peq表示一系列组合的低倾斜、峰值和高倾斜滤波器。本发明使用一个低架HLS、一个高架HHS和八个峰值滤波器HPeak。
所述的步骤2)具体为:
为了缓解数据稀缺问题并从原始波形中学习语言内容,本发明利用自监督的语音表征模型Hubert,使用多层卷积波形编码器生成音频特征,随后通过transformer上下文编码器来构造上下文表示。
本发明采用Hubert-Base模型作为语音表示,该模型在960小时的LibriSpeech上进行预训练。值得注意的是,发现语音表示不仅可以合并丰富的声学信息,还可以合并与口音和说话者相关的声学属性。
所述的步骤3)具体为:
为了消除语音表示中的说话人身份,在说话人分类器中引入了一个梯度反转层(GRL),它将说话人的变化视为一个分类问题,并直接最大化域的损失通过反转其梯度来优化分类器。在反向传播中,GRL从后续层获取梯度并在将其传递到前一层之前通过乘以-1来更改其符号:
R(x)=x,
Figure BDA0004112524550000051
其中,I表示单位矩阵;R表示该层执行的操作;x表示传入GRL层的输入。
所述的步骤4)具体为:
4.1)将步骤2)得到的音频表征与文本的schema进行跨模态的融合得到包含问题与schema信息的编码器输出特征,计算公式如下:
Figure BDA0004112524550000061
其中,Rij是预先获取的边关系,表示问题和模式自身和彼此之间的预定义交叉关系;H是头数;
Figure BDA0004112524550000062
分别是查询、键和值的线性层参数矩阵;dk表示key的维度;dmodel表示模型维度;qi表示第i个question;sj表示第j个schema;eij表示e(qi,sj),e(qi,sj)表示中间得到的值;z(qi,si)表示每个q和s的对齐关系。
4.2)将步骤4.1)得到的编码器输出输入到SQL解码器中,SQL解码器遵循基于语法的架构,它以深度优先遍历顺序将SQL生成为抽象语法树(AST)。SQL AST的生成过程分解为顺序动作,分为两种情况:(1)APPLYRULE,根据文法规则扩展最后生成的节点或完成一个叶节点,(2)SELECCTCOLUMN和SELECTTABLE表示分别从架构中选择列或表项。
4.3.1)生成一个SQL y的概率被定义为:
Figure BDA0004112524550000063
其中x是问题、列和表的编码记忆,at是时间步t的动作标记,a<t是时间步t之前的顺序动作。
4.3.2)在树结构的LSTM解码器中,将每个时间步t的隐藏状态更新为mt,ht=LSTM([at-1;pt;ct;nt],mt-1,ht-1),其中mt是时间步t的细胞状态,ht是隐藏状态,at-1是前一个动作嵌入,pt是当前节点的父信息,ct是上下文向量,nt是当前节点类型的嵌入,父信息包含父动作的隐藏状态和嵌入,上下文向量使用对x和ht-1的多头注意力计算;最后,如何计算动作概率p(at|x,a<t)解释如下:
对于APPLYRULE操作,
p(at=AR[r]|X,a<t)=softmaxR(g(ht))
其中,AR是APPLYRULE动作,g(·)是由两个线性层和一个tanh激活函数组成的前馈网络;
对于SELECTTABLE操作,
Figure BDA0004112524550000071
Figure BDA0004112524550000072
其中,xj表示x的第j列;ST表示SELECTABLE操作,SELECTCOLUMN操作的计算与其一致。
应用例
本发明所述的方法在标注的MASpider上进行实验,并且比较了级联系统和基础模型(除去本发明提出的方法之外的模型)训练基于TTS数据集所得的实验结果。为了客观地评价本发明的算法的性能,本发明在所选出的测试集中,使用了component matchingaccuracy和exact match accuracy这种评价标准来对于本发明的效果进行评价。分别在两种设定下完成实验,1)测试模型的效果,在这种设定下测试集的口音和语者在训练集中是可见的,但是测试集的数据库仍是不可见的;2)对自定义数据的泛化性,这种设定下测试集的口音、语者以及数据库均是不可见的。
按照具体实施方式中描述的步骤,所得的实验结果如表1、表2所示,本发明的方法表示为Wav2SQL。
从表1中可以发现,Wav2SQL在所有组件匹配准确率和exact match准确率上都高于级联模型,并实现了有竞争力的结果同上界模型TTS+S2SQL相比,证明了本发明方法的有效性。对于自定义数据的泛化性,Wav2SQL在绝大部分组件匹配准确率上也都高于级联系统,证明Wav2SQL有着更强的泛化性相比于级联模型,证明本发明提出的方法可以有效缓解多口音多语者对语音生成SQL任务的限制。
从表2中同样发现Wav2SQL比级联模型效果要好,因此得到的结论是类似的。
表1本发明在MASpider上获得的component matching和exact match accuracy的测试结果
Figure BDA0004112524550000081
表2本发明在MASpider上根据难度划分的测试结果
Figure BDA0004112524550000082
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种可泛化的语音生成SQL方法,其特征在于,包括:
步骤1),利用语音重编程对原始的语音输入进行声学信息多样化处理和语者信息标准化处理,得到包含声学信息丰富的音频和语者信息标准化后的音频以及原始音频组成新的音频;
步骤2),利用自监督音频表征模型提取语义信息丰富的音频表征;
步骤3),将步骤2)得到的音频表征通过反向梯度和分类器对不同语者的音频进行分类,并在推理时使用梯度反转,学习语者无关的音频表征;
步骤4),将步骤2)得到的音频表征同文本数据库特征输入relation-awaretransformer中,并将输出随即输入到SQL解码器中得到预测的SQL,并与真实SQL计算MLE损失。
2.根据权利要求1所述的一种可泛化的语音生成SQL方法,其特征在于,步骤1)中,为了扰动声学特征,使用下述函数:a)随机重采样RR,b)共振峰移位fs,c)音高随机化pr,d)使用参数均衡器peq的随机频率整形。
3.根据权利要求2所述的一种可泛化的语音生成SQL方法,其特征在于,步骤1)中,对于RR,采用随机重采样来修改节奏,原始波形被分成若干段,其长度从19帧到32帧随机均匀抽取,使用线性插值对每个片段进行重采样,重采样因子从0.5到1.5随机抽取。
4.根据权利要求2所述的一种可泛化的语音生成SQL方法,其特征在于,步骤1)中,对于fs,从Uniform(1,1.4)中统一采样共振峰位移比;采样比率后,再次随机决定是否取采样比率的倒数。
5.根据权利要求2所述的一种可泛化的语音生成SQL方法,其特征在于,步骤1)中,对于pr,分别从Uniform(1,2)和Uniform(1,1.5)均匀采样音高偏移率和音高范围率;采样后,随机决定是否取采样比率的倒数。
6.根据权利要求2所述的一种可泛化的语音生成SQL方法,其特征在于,步骤1)中,peq表示一系列组合的低倾斜、峰值和高倾斜滤波器,使用一个低架HLS、一个高架HHS和八个峰值滤波器HPeak。
7.根据权利要求1所述的一种可泛化的语音生成SQL方法,其特征在于,步骤2)的具体内容为:
为缓解数据稀缺问题并从原始波形中学习语言内容,利用自监督的语音表征模型Hubert,使用多层卷积波形编码器生成音频特征,随后通过transformer上下文编码器来构造上下文表示;
采用Hubert-Base模型作为语音表示,该模型在960小时的LibriSpeech上进行预训练。
8.根据权利要求1所述的一种可泛化的语音生成SQL方法,其特征在于,步骤3)的具体内容为:
为消除语音表示中的说话人身份,在说话人分类器中引入了一个梯度反转层GRL,它将说话人的变化视为一个分类问题,并直接最大化域的损失通过反转其梯度来优化分类器;在反向传播中,GRL从后续层获取梯度并在将其传递到前一层之前,通过乘以-1来更改其符号:
R(x)=x,
Figure FDA0004112524540000021
其中,I表示单位矩阵;R表示该层执行的操作;x表示传入GRL层的输入。
9.根据权利要求1所述的一种可泛化的语音生成SQL方法,其特征在于,步骤4)包括:
步骤41),将步骤2)得到的音频表征与文本的schema进行跨模态的融合,得到包含问题与schema信息的编码器输出特征,计算公式如下:
Figure FDA0004112524540000022
其中,Rij是预先获取的边关系,表示问题和模式自身和彼此之间的预定义交叉关系;H是头数;
Figure FDA0004112524540000023
分别是查询、键和值的线性层参数矩阵;dk表示key的维度;dmodel表示模型维度;qi表示第i个question;sj表示第j个schema;eij表示e(qi,sj),e(qi,sj)表示中间得到的值;z(qi,si)表示每个q和s的对齐关系;
步骤42),将步骤41)得到的编码器输出输入到SQL解码器中,SQL解码器遵循基于语法的架构,它以深度优先遍历顺序将SQL生成为抽象语法树AST;SQL AST的生成过程分解为顺序动作,分为两种情况:1)APPLYRULE,根据文法规则扩展最后生成的节点或完成一个叶节点,2)SELECCTCOLUM和SELECTTABLE,分别表示从架构中选择列或表项。
10.根据权利要求9所述的一种可泛化的语音生成SQL方法,其特征在于,步骤4)还包括:
步骤43),生成一个SQL y的概率被定义为:
Figure FDA0004112524540000031
其中,x是编码后的问题、列和表,at是时间步t的动作标记,a<t是时间步t之前的顺序动作;y表示SQL;
在树结构的LSTM解码器中,将每个时间步t的隐藏状态更新为mt,ht=LSTM([at-1;pt;ct;nt],mt-1,ht-1),其中mt是时间步t的细胞状态,ht是隐藏状态,at-1是前一个动作嵌入,pt是当前节点的父信息,ct是上下文向量,nt是当前节点类型的嵌入,父信息包含父动作的隐藏状态和嵌入,上下文向量使用对x和ht-1的多头注意力计算;最后,如何计算动作概率p(at|x,a<t)解释如下:
对于APPLYRULE操作,
p(at=AR[r]|x,a<t)=softmaxR(g(ht))
其中,AR是APPLYRULE动作,g(·)是由两个线性层和一个tanh激活函数组成的前馈网络;
对于SELECTTABLE操作,
Figure FDA0004112524540000032
Figure FDA0004112524540000033
其中,xj表示x的第j列;ST表示SELECTABLE操作,SELECTCOLUMN操作的计算与其一致。
CN202310210616.0A 2023-03-07 2023-03-07 一种可泛化的语音生成sql方法 Pending CN116386641A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310210616.0A CN116386641A (zh) 2023-03-07 2023-03-07 一种可泛化的语音生成sql方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310210616.0A CN116386641A (zh) 2023-03-07 2023-03-07 一种可泛化的语音生成sql方法

Publications (1)

Publication Number Publication Date
CN116386641A true CN116386641A (zh) 2023-07-04

Family

ID=86960609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310210616.0A Pending CN116386641A (zh) 2023-03-07 2023-03-07 一种可泛化的语音生成sql方法

Country Status (1)

Country Link
CN (1) CN116386641A (zh)

Similar Documents

Publication Publication Date Title
CN108053836B (zh) 一种基于深度学习的音频自动化标注方法
CN110534095A (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN107077842A (zh) 用于语音转录的系统和方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
CN111508470B (zh) 一种语音合成模型的训练方法及装置
Yi et al. Singing voice synthesis using deep autoregressive neural networks for acoustic modeling
CN112417134B (zh) 基于语音文本深度融合特征的摘要自动生成系统及方法
Zhang et al. Durian-sc: Duration informed attention network based singing voice conversion system
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
Yoneyama et al. Source-filter hifi-gan: Fast and pitch controllable high-fidelity neural vocoder
CN108461080A (zh) 一种基于hlstm模型的声学建模方法和装置
Yoneyama et al. Unified source-filter GAN: Unified source-filter network based on factorization of quasi-periodic parallel WaveGAN
CN114495969A (zh) 一种融合语音增强的语音识别方法
JP2017151230A (ja) 音声変換装置および音声変換方法ならびに計算機プログラム
JP3014177B2 (ja) 話者適応音声認識装置
Mamatov et al. Speech recognition based on transformer neural networks
CN107403620A (zh) 一种语音识别方法及装置
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
CN114360485A (zh) 语音处理方法、系统、装置及介质
Mei et al. A particular character speech synthesis system based on deep learning
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
CN116092475B (zh) 一种基于上下文感知扩散模型的口吃语音编辑方法和系统
CN116386641A (zh) 一种可泛化的语音生成sql方法
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
Sunny et al. Feature extraction methods based on linear predictive coding and wavelet packet decomposition for recognizing spoken words in malayalam

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination