CN111611349A

CN111611349A - 语音查询方法、装置、计算机设备及存储介质

Info

Publication number: CN111611349A
Application number: CN202010456585.3A
Authority: CN
Inventors: 璧典寒; 赵亮
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-01

Abstract

本发明公开了一种语音查询方法、装置、计算机设备及存储介质，所述方法包括：接收包含场景标识符的场景查询指令，获取源语音数据；输入训练完成的深度学习拼音识别模型，根据提取出的语音拼音特征输出拼音序列数据；从与场景标识符匹配的拼音词典中查找出与拼音序列数据中包含的拼音串匹配的关键词拼音串，将其替换成与其匹配的关键词拼音串对应的关键词，记录为拼音转换数据；将拼音转换数据输入语言识别模型，根据词义特征预测出预测汉字，得到最终语音数据；输入，通过SQL语句转换模型获取查询结果并进行展示。本发明实现了快速地、准确地、自动地识别出用户的语音数据中的专业用语，提升了识别准确率和用户体验满意度。

Description

语音查询方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音信号处理领域，尤其涉及一种语音查询方法、装置、计算机设备及存储介质。

背景技术

目前，在互联网技术领域，由于业务场景千变万化而且不断新增业务场景，数据库中存储越来越多的数据，针对不同的业务场景中的专业用语就越来越多，因此通过语音识别出专业用语进行准确的查询越来越成为迫切需求。现有技术中，主要通过大量的训练词语样本进行训练深度神经网络完成的语音识别系统实现语音识别，由于训练词语样本中出现的评率极低或者无，因此对于特殊的业务场景而产生的专业用语，语音识别系统往往会转换为同音词，但是却不是正确的专业用语，例如用户说的是“置业顾问”，语音识别系统转换为“职业顾问”等，造成通过语音查询获得的结果并非是用户真正想要的结果，导致识别准确率低，用户的体验满意度低。

发明内容

本发明提供一种语音查询方法、装置、计算机设备及存储介质，实现了针对不同的业务场景，能够快速地、准确地、自动地识别出用户的语音数据中的专业用语，从而获得用户需要的查询结果，提升了识别准确率，提高了用户的体验满意度。

一种语音查询方法，包括：

接收包含场景标识符的场景查询指令，获取源语音数据；

将所述源语音数据输入训练完成的深度学习拼音识别模型，所述深度学习拼音识别模型提取出所述源语音数据中的语音拼音特征，获取所述深度学习拼音识别模型根据所述语音拼音特征输出的拼音序列数据；其中，所述拼音序列数据包括拼音数据及其对应的音调数据；

从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据；其中，所述拼音转换数据包括拼音数据及其对应的音调数据和所述关键词；

将所述拼音转换数据输入语言识别模型，所述语言识别模型提取出所述拼音转换数据中所有所述拼音数据及其对应的音调数据的词义特征，所述语言识别模型根据所述词义特征预测出所有所述拼音数据及其对应的音调数据在所述拼音转换数据中的预测汉字，将所有所述预测汉字替代与其对应的所述拼音数据及其对应的音调数据，将替代后的所述拼音转换数据记录为最终语音数据；

将所述最终语音数据输入SQL语句转换模型，所述SQL语句转换模型将所述最终语音数据转换成SQL查询语句，通过执行所述SQL查询语句获取查询结果并进行展示。

一种语音查询装置，包括：

接收模块，用于接收包含场景标识符的场景查询指令，获取源语音数据；

提取模块，用于将所述源语音数据输入训练完成的深度学习拼音识别模型，所述深度学习拼音识别模型提取出所述源语音数据中的语音拼音特征，获取所述深度学习拼音识别模型根据所述语音拼音特征输出的拼音序列数据；其中，所述拼音序列数据包括拼音数据及其对应的音调数据；

查询模块，用于从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据；其中，所述拼音转换数据包括拼音数据及其对应的音调数据和所述关键词；

识别模块，用于将所述拼音转换数据输入语言识别模型，所述语言识别模型提取出所述拼音转换数据中所有所述拼音数据及其对应的音调数据的词义特征，所述语言识别模型根据所述词义特征预测出所有所述拼音数据及其对应的音调数据在所述拼音转换数据中的预测汉字，将所有所述预测汉字替代与其对应的所述拼音数据及其对应的音调数据，将替代后的所述拼音转换数据记录为最终语音数据；

显示模块，用于将所述最终语音数据输入SQL语句转换模型，所述SQL语句转换模型将所述最终语音数据转换成SQL查询语句，通过执行所述SQL查询语句获取查询结果并进行展示。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音查询方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音查询方法的步骤。

本发明提供的语音查询方法、装置、计算机设备及存储介质，通过接收包含场景标识符的场景查询指令，获取源语音数据；将所述源语音数据输入训练完成的深度学习拼音识别模型，获取所述深度学习拼音识别模型根据提取的语音拼音特征输出的拼音序列数据；从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，得到拼音转换数据；将所述拼音转换数据输入语言识别模型，所述语言识别模型根据提取的词义特征预测出所有预测汉字，将所有所述预测汉字进行替代，得到最终语音数据；将所述最终语音数据输入SQL语句转换模型，转换成SQL查询语句，通过执行所述SQL查询语句获取查询结果并进行展示，如此，本发明实现了针对不同的业务场景，能够快速地、准确地、自动地识别出用户的语音数据中的专业用语(特殊词语)，从而获得用户需要的查询结果，避免了识别出错误的词语导致查询结果不正确，进而提升了识别准确率，提高了用户的体验满意度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音查询方法的应用环境示意图；

图2是本发明一实施例中语音查询方法的流程图；

图3是本发明一实施例中语音查询方法的步骤S20的流程图；

图4是本发明一实施例中语音查询方法的步骤S203的流程图；

图5是本发明另一实施例中语音查询方法的步骤S20的流程图；

图6是本发明一实施例中语音查询方法的步骤S30的流程图；

图7是本发明另一实施例中语音查询方法的步骤S30的流程图；

图8是本发明一实施例中语音查询方法的步骤S50的流程图；

图9是本发明一实施例中语音查询装置的原理框图；

图10是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的语音查询方法，可应用在如图1的应用环境中，其中，客户端(计算机设备)通过网络与服务器进行通信。其中，客户端(计算机设备)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑、摄像头和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音查询方法，其技术方案主要包括以下步骤S10-S50：

S10，接收包含场景标识符的场景查询指令，获取源语音数据。

可理解地，所述场景标识符为业务场景的唯一标识符，所述业务场景可以根据需求进行设定，比如所述业务场景可以为餐厅点餐、航班查询等等，所述场景查询指令为在所述业务场景下收集到所述源语音数据之后需要进行查询而触发的指令，所述源语音数据为收集用户发出的语音的信号数据，接收到所述场景查询指令之后，获取所述源语音数据，其获取方式可以根据需求进行设定，比如通过所述场景查询指令中的所述源语音数据对应的路径进行自数据库中获取所述源语音数据等。

S20，将所述源语音数据输入训练完成的深度学习拼音识别模型，所述深度学习拼音识别模型提取出所述源语音数据中的语音拼音特征，获取所述深度学习拼音识别模型根据所述语音拼音特征输出的拼音序列数据；其中，所述拼音序列数据包括拼音数据及其对应的音调数据。

可理解地，所述深度学习拼音识别模型为训练完成的深度卷积神经网络模型，所述深度学习拼音识别模型为将接收到的源语音数据转换成含有拼音数据及其对应的音调数据的拼音序列数据，例如：源语音数据为“宫保鸡丁剩下多少份”的发音数据，经过深度学习拼音识别模型输出拼音序列数据为“gong1bao3ji1ding1sheng4xia4duo1shao3fen4”等，所述语音拼音特征为汉字发音转化成数据向量的特征，每个汉字的发音都有其对应的特有的数据向量，所述深度学习拼音识别模型通过提取所述源语音数据中每个汉字的所述语音拼音特征，并对其进行识别，输出所述拼音序列数据，所述拼音序列数据包括所述拼音数据及其对应的所述音调数据，例如在拼音序列数据

“gong1bao3ji1ding1sheng4xia4duo1shao3fen4”中，“gong”为拼音数据，其后的“1”为其音调数据。

在一实施例中，如图2所示，所述步骤S20中，即所述深度学习拼音识别模型提取出所述源语音数据中的语音拼音特征，获取所述深度学习拼音识别模型根据所述语音拼音特征输出的拼音序列数据，包括：

S201，通过分帧加窗的方法，对所述源语音数据进行音频转换，得到二维音频图像信号。

可理解地，所述分帧加窗的方法为先将源语音数据进行预加重(为了对语音的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率)，再将预加重后的源语音数据进行分成多个帧(即预设时间段)的语音信号，优选地，所述帧设置为10至30ms的时间段，然后将每个帧的语音信号进行加窗(即与一个窗函数相乘)，加窗是为了更好的进行傅里叶展开，最后将每个帧展开的傅里叶函数输出对应的二维音频图像，将所有二维音频图像进行拼接即生成二维音频图像信号(即语谱图)；所述窗函数指为了减少泄漏而寻找的函数，所述窗函数能够将原本没有周期性的语音信号呈现出周期函数的部分特征。

S202，将所述二维音频图像信号输入所述深度学习拼音识别模型中的声学模型，所述声学模型提取所述二维音频图像信号的语音拼音特征，获取所述声学模型根据提取出的所述二维音频图像信号的语音拼音特征输出的语音序列数组；所述声学模型为基于Keras和TensorFlow训练的深度卷积神经网络模型。

可理解地，所述声学模型为基于Keras和TensorFlow训练的深度卷积神经网络模型，所述Keras是一个使用Python语音编写的人工神经网络库，可以作为Tensorflow、Microsoft-CNTK和Theano等高阶应用程序的接口，所述TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统，所述TensorFlow能运作在不同计算机上而且属于一款轻量级和可扩充性强的软件，所述声学模型通过Keras和TensorFlow进行构建神经网络模型，实现了快速、灵活、可扩充的语音识别，所述语音拼音特征为汉字发音转化成数据向量的特征，所述语音序列数组为一串包含多个拼音字母的一维数组；所述声学模型提取出所述二维音频图像信号的语音拼音特征，即所述声学模型通过对所述二维音频图像信号进行识别，根据所述二维音频图像信号的语音拼音特征输出语音序列数组。

S203，对所述语音序列数组进行解码，得到所述源语音数据的所述拼音序列数据。

可理解地，对所述语音序列数组进行解码，所述解码过程为合并重复的拼音字母、增加音调数据以及去除静音分隔符的操作处理过程，最终得到所述拼音序列数据。

如此，本发明通过分帧加窗的方法，将所述源语音数据进行音频转换成二维音频图像信号；将所述二维音频图像信号输入所述深度学习拼音识别模型中的声学模型，获取所述声学模型根据提取出的所述二维音频图像信号的语音拼音特征输出的语音序列数组；再对所述语音序列数组进行解码，最后得到所述拼音序列数据，实现了对语音数据自动识别出准确的拼音数据，提高了识别准确率和可靠性。

在一实施例中，如图4所示，所述步骤S203中，即所述对所述语音序列数组进行解码，得到所述源语音数据的所述拼音序列数据，包括：

S2031，将所述语音序列数组中连续重复的拼音字母进行合并，得到合并数组。

可理解地，所述拼音字母为单个字母，例如：a、b、c等等，所述语音序列数组中包含多个拼音字母，所述语音序列数组中存在连续重复的拼音字母，是由于发音过程中每个人的发音长短不同会存在拖音的现象，所以需要对连续重复的拼音字母进行合并，去除拖音现象，从而得到所述合并数组。

S2032，在所述合并数组中的每个所述拼音数据后增加其对应的所述音调数据，得到增强数组。

可理解地，所述合并数组中存在静音分隔符，将每个字的拼音数据进行分隔开，根据每个字的拼音数据对应的二维音频图像信号识别出其对应的音调数据，并将所述音调数据在每个所述拼音数据后增加，从而生成所述增强数据。

S2033，去除所述增强数组中的静音分隔符，将去除后的所述增强数组确定为所述拼音序列数据。

可理解地，将所述增强数组中的静音分隔符进行去除，所述静音分隔符为每个字的拼音数据之间停顿或者转折跳变的分隔点的符号标识，将去除后的所述增强数组确定为所述拼音序列数据。

如此，本发明通过合并连续重复的拼音字母，并在每个拼音数据后增加其对应的音调数据，再去除静音分隔符，得到拼音序列数据，实现了解决拖音现象产生的问题，以及将每个拼音数据的音调转换成计算机识别的符号并增加在每个拼音数据后面，将音调数据增加入拼音序列数据，增强了拼音序列数据，为后续提供了识别方向，提升了识别准确率和命中率。

在一实施例中，如图5所示，所述步骤S20之前，即所述将所述源语音数据输入训练完成的深度学习拼音识别模型之前，包括：

S204，获取语音样本集，所述语音样本集包括多个训练样本，每个所述训练样本都对应一个结果标签。

可理解地，所述语音样本集包含有至少一个所述训练样本，即所述语音样本为所述训练样本的集合，所述训练样本为历史收集的语音的信号数据，并且每个所述训练样本都关联一个所述结果标签，所述结果标签为所述训练样本经过确定之后的语音内容，即所述训练样本中的语音内容就是所述结果标签。

S205，将所述训练样本输入含有初始参数的拼音识别模型。

可理解地，所述拼音识别模型为深度卷积神经网络模型，所述拼音识别模型的网络结构可以根据需求进行设定，作为优选，所述拼音识别模型的网络结构为VGG19模型的网络结构，所述初始参数为所述拼音识别模型的网络结构的层级及参数。

S206，所述拼音识别模型提取出所述训练样本中的语音拼音特征，所述拼音识别模型根据所述训练样本中的语音拼音特征输出所述训练样本的识别结果和损失值。

可理解地，所述拼音识别模型对所述训练样本进行所述语音拼音特征的提取，对提取出的所述语音拼音特征进行识别得到所述识别结果，将识别的所述训练样本的所述识别结果与该训练样本对应的所述结果标签输入所述所述拼音识别模型中的损失函数中，通过所述损失函数计算出所述损失值。

S207，在所述损失值未达到预设的收敛条件时，迭代更新所述拼音识别模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型。

其中，可理解地，所述收敛条件可以为所述损失值经过了8000次计算后值为很小且不会再下降的条件，即在所述损失值经过8000次计算后值为很小且不会再下降时，停止训练，并将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型；所述收敛条件也可以为所述损失值小于设定阈值的条件，即在所述损失值小于设定阈值时，停止训练，并收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型。

如此，在所述损失值未达到预设的收敛条件时，不断更新迭代所述拼音识别模型的初始参数，可以不断向准确的识别结果靠拢，让识别结果的准确率越来越高。

S208，在所述损失值达到预设的收敛条件时，将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型。

如此，根据所述训练样本的结果标签和识别结果，不断训练所述拼音识别模型，在所述损失值达到预设的收敛条件时，将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型。

S30，从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据；其中，所述拼音转换数据包括拼音数据及其对应的音调数据和所述关键词。

可理解地，获取与所述场景标识符匹配的所述拼音词典，从所述拼音词典中查找出与所述拼音序列数据中包含的所述拼音串一致的所述关键词拼音串，所述拼音序列数据中包含多个所述拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据，例如：拼音序列数据为“gong1bao3ji1ding1sheng4xia4duo1shao3fen4”，拼音词典中有关键词拼音串为“gong1bao3ji1ding1”，其对应的关键词为“宫保鸡丁”，则最后输出的拼音转换数据为“宫保鸡丁sheng4xia4duo1shao3fen4”。

在一实施例中，如图6所示，所述步骤S30之前，即所述从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串之前，包括：

S301，获取与所述场景标识符匹配的预设词库中的所有定制词语。

可理解地，所述定制词语为在所述场景标识符关联的业务场景下使用的特殊词语，所述定制词语都由汉字组成，所述预设词库包含了所有所述定制词语。

S302，将所有所述定制词语进行拼音转换，得到每个所述定制词语对应的定制词语拼音串。

可理解地，将所有所述定制词语进行拼音的转换，将每个汉字转换成其对应的拼音及音调，从而得到每个所述定制词语对应的所述定制词语拼音串。

S303，按照字典树构建方式，将所有所述定制词语拼音串构建成所述拼音词典，并将所述拼音词典与所述场景标识符关联；所述拼音词典中包含拼音与汉字的对应关系。

可理解地，通过字典树构建方式，从根结点开始，将所有所述定制词语拼音串进行排序并将公共前缀进行合成一个节点，再将不同的拼音进行分叉处理，每个节点的所有子节点包含的拼音都不相同，不断连接节点，直到完结节点(可以优选为“@”)；从根节点到完结节点，路径上经过的拼音连接起来，为对应的定制词语拼音串，从而构建成所述拼音词典，并将所述场景标识符与所述拼音词典进行关联，通过与所述场景标识符的匹配情况就可以获取到该拼音词典，所述拼音词典中每个拼音都会有一个汉字与其对应，如此，最大限度地减少无谓的拼音的比较，便于查询。

在一实施例中，如图7所示，所述步骤S30中，即所述从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据，包括：

S304，通过字典树查询方式，在所述拼音词典中查询出与所述拼音序列数据中包含的所述拼音串匹配的拼音串路径，将所述拼音串路径中的所有所述拼音进行拼接生成所述关键词拼音串，同时将所述拼音串路径中的所有所述拼音对应的汉字进行拼接生成所述关键词。

可理解地，通过字典树查询方式，在所拼音词典中查询出与所述拼音序列数据中包含的所述拼音串匹配的拼音串路径，例如：拼音串为“xue2li4”，则如下图所示，查询出“xue2li4”的拼音串路径，将“xue2”“li4”进行拼接生成所述关键词拼音串“xue2li4”，将“xue2”对应的“学”和“li4”对应的“历”进行拼接生成关键词“学历”。

S305，将每个所述拼音串替换成与每个所述拼音串对应的所述关键词，将替换后的所述拼音序列数据记录为拼音转换数据。

如此，通过字典树查询方式，能够在拼音词典中快速查询出关键词并进行替换，实现了针对特定的场景快速识别出正确的特殊词语(专业用语)，利用拼音的公共前缀来减少查询时间，最大限度地减少无谓的拼音比较，查询效率比普通查询方式要高。

S40，将所述拼音转换数据输入语言识别模型，所述语言识别模型提取出所述拼音转换数据中所有所述拼音数据及其对应的音调数据的词义特征，所述语言识别模型根据所述词义特征预测出所有所述拼音数据及其对应的音调数据在所述拼音转换数据中的预测汉字，将所有所述预测汉字替代与其对应的所述拼音数据及其对应的音调数据，将替代后的所述拼音转换数据记录为最终语音数据。

可理解地，所述语言识别模型为训练完成的神经网络模型，所述语音识别模型可以提取出输入的拼音转换数据的词义特征，根据词义特征预测出转换数据中所有拼音数据及其对应的音调数据对应的预测汉字，将所有所述预测汉字替代与其对应的所述拼音数据及其对应的音调数据，将替代后的所述拼音转换数据记录为最终语音数据，所述最终语音数据为无拼音的汉字组成，所述语言识别模型通过输入多个包含有拼音数据及其对应的音调数据和汉字的样本进行训练而获得，所述词义特征为拼音之间正向和逆向组成的词语意义的特征，例如：将拼音转换数据为“宫保鸡丁sheng4xia4duo1shao3fen4”输入语言识别模型，输出最终语音数据为“宫保鸡丁剩下多少份”。

S50，将所述最终语音数据输入SQL语句转换模型，所述SQL语句转换模型将所述最终语音数据转换成SQL查询语句，通过执行所述SQL查询语句获取查询结果并进行展示。

可理解地，所述SQL语句转换模型为通过多个与SQL语句样本关联的语音样本进行训练并训练完成的深度卷积神经网络模型，所述SQL语句转换模型通过提取所述最终语音数据中的向量特征进行预测处理，得到所述最终语音数据的预测结果，再经过所述SQL语句转换模型中的验证模型对各所述预测结果进行验证，确定出所述SQL查询语句，获取执行所述SQL查询语句后获得的所述查询结果，将所述查询结果通过用户的客户端中的应用程序界面进行展示。

本发明通过接收包含场景标识符的场景查询指令，获取源语音数据；将所述源语音数据输入训练完成的深度学习拼音识别模型，所述深度学习拼音识别模型提取出所述源语音数据中的语音拼音特征，获取所述深度学习拼音识别模型根据所述语音拼音特征输出的拼音序列数据；从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据；将所述拼音转换数据输入语言识别模型，所述语言识别模型提取出所述拼音转换数据中所有所述拼音数据及其对应的音调数据的词义特征，所述语言识别模型根据所述词义特征预测出所有所述拼音数据及其对应的音调数据在所述拼音转换数据中的预测汉字，将所有所述预测汉字替代与其对应的所述拼音数据及其对应的音调数据，将替代后的所述拼音转换数据记录为最终语音数据；将所述最终语音数据输入SQL语句转换模型，所述SQL语句转换模型将所述最终语音数据转换成SQL查询语句，通过执行所述SQL查询语句获取查询结果并进行展示。

如此，本发明实现了通过接收包含场景标识符的场景查询指令，获取源语音数据；将所述源语音数据输入训练完成的深度学习拼音识别模型，获取所述深度学习拼音识别模型根据提取的语音拼音特征输出的拼音序列数据；从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，得到拼音转换数据；将所述拼音转换数据输入语言识别模型，所述语言识别模型根据提取的词义特征预测出所有预测汉字，将所有所述预测汉字进行替代，得到最终语音数据；将所述最终语音数据输入SQL语句转换模型，转换成SQL查询语句，通过执行所述SQL查询语句获取查询结果并进行展示，因此，实现了针对不同的业务场景中快速地、准确地、自动地识别出用户的语音数据中的专业用语(特殊词语)，从而获得用户需要的查询结果，避免了识别出错误的词语导致查询结果不正确，进而提升了识别准确率，提高了用户的体验满意度。

在一实施例中，如图8所示，所述步骤S50中，即所述将所述最终语音数据输入SQL语句转换模型，所述SQL语句转换模型将所述最终语音数据转换成SQL查询语句，包括：

S501，将所述最终语音数据输入所述SQL语句转换模型。

可理解地，所述SQL语句转换模型为基于Bi-LSTM(Bi-Long Short-Term Memory双向长短期记忆)方法进行训练并得到训练完成的模型，所述SQL语句转换模型也称为Bi-LSTM模型(命名实体识别模型)。

S502，所述SQL语句转换模型通过提取所述最终语音数据中的向量特征进行预测处理，得到所述最终语音数据的预测结果；所述预测结果包括至少一个预测语句及对应的识别概率。

可理解地，所述向量特征为SQL语句中的与where子句相关的向量特征、SQL语句中的与条件间运算符相关的向量特征和SQL语句中的与select语句相关的向量特征，所述SQL语句转换模型根据提取所述最终语音数据中的所述向量特征进行预测处理，得到所述预测结果，所述预测结果包括多个预测语句及对应的识别概率，所述预测语句为SQL格式的计算机执行语句。

S503，通过所述SQL语句转换模型中的验证模型对各所述预测语句进行验证，得到各所述预测语句对应的执行结果。

可理解地，所述验证的规则可以根据需求进行设定，优选地，所述验证的规则为：1.在所述预测语句中的的运算符为等号时，所述预测语句中的where条件中的值不在执行该预测语句返回结果的数据中；2.在所述预测语句的执行结果为空时，所述预测语句为不佳。若满足其中一个所述验证的规则，则所述执行结果为零；若都不满足所述验证的规则，则所述预测语句对应的执行结果就加一。

S504，根据各所述预测语句对应的所述识别概率和所述执行结果，确定各所述预测语句对应的质量系数。

可理解地，所述确定的方式可以根据需求进行设定，作为优选，所述确定的方式可以为将所述预测语句的识别概率与所述预测语句对应的执行结果进行相乘得出所述预测SQL语句对应的质量系数。

S505，将所有所述质量系数中最大的所述质量系数对应的所述预测语句确定为所述SQL查询语句。

可理解地，所述质量系数为衡量所述预测语句执行的质量效果，将所有所述质量系数中最大的所述质量系数(质量效果最佳)对应的所述预测语句确定为所述SQL查询语句。

如此，通过SQL语句转换模型确定出SQL查询语句，进而得到执行后的质量效果最佳的SQL语句，实现了生成唯一的、最佳的SQL语句

在一实施例中，提供一种语音查询装置，该语音查询装置与上述实施例中语音查询方法一一对应。如图9所示，该语音查询装置包括接收模块11、确定模块12、识别模块13和检测模块14。各功能模块详细说明如下：

接收模块11，用于接收包含场景标识符的场景查询指令，获取源语音数据；

提取模块12，用于将所述源语音数据输入训练完成的深度学习拼音识别模型，所述深度学习拼音识别模型提取出所述源语音数据中的语音拼音特征，获取所述深度学习拼音识别模型根据所述语音拼音特征输出的拼音序列数据；其中，所述拼音序列数据包括拼音数据及其对应的音调数据；

查询模块13，用于从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据；其中，所述拼音转换数据包括拼音数据及其对应的音调数据和所述关键词；

识别模块14，用于将所述拼音转换数据输入语言识别模型，所述语言识别模型提取出所述拼音转换数据中所有所述拼音数据及其对应的音调数据的词义特征，所述语言识别模型根据所述词义特征预测出所有所述拼音数据及其对应的音调数据在所述拼音转换数据中的预测汉字，将所有所述预测汉字替代与其对应的所述拼音数据及其对应的音调数据，将替代后的所述拼音转换数据记录为最终语音数据；

显示模块15，用于将所述最终语音数据输入SQL语句转换模型，所述SQL语句转换模型将所述最终语音数据转换成SQL查询语句，通过执行所述SQL查询语句获取查询结果并进行展示。

在一实施例中，所述提取模块12包括：

第一转换单元，用于通过分帧加窗的方法，对所述源语音数据进行音频转换，得到二维音频图像信号；

识别单元，用于将所述二维音频图像信号输入所述深度学习拼音识别模型中的声学模型，所述声学模型提取所述二维音频图像信号的语音拼音特征，获取所述声学模型根据提取出的所述二维音频图像信号的语音拼音特征输出的语音序列数组；所述声学模型为基于Keras和TensorFlow训练的深度卷积神经网络模型；

解码单元，用于对所述语音序列数组进行解码，得到所述源语音数据的所述拼音序列数据。

在一实施例中，所述解码单元包括：

合并子单元，用于将所述语音序列数组中连续重复的拼音字母进行合并，得到合并数组；

增强子单元，用于在所述合并数组中的每个所述拼音数据后增加其对应的所述音调数据，得到增强数组；

去除子单元，用于去除所述增强数组中的静音分隔符，将去除后的所述增强数组确定为所述拼音序列数据。

在一实施例中，所述提取模块12还包括：

第一获取单元，用于获取语音样本集，所述语音样本集包括多个训练样本，每个所述训练样本都对应一个结果标签；

第一输入单元，用于将所述训练样本输入含有初始参数的拼音识别模型；

第一提取单元，用于所述拼音识别模型提取出所述训练样本中的语音拼音特征，所述拼音识别模型根据所述训练样本中的语音拼音特征输出所述训练样本的识别结果和损失值；

迭代单元，用于在所述损失值未达到预设的收敛条件时，迭代更新所述拼音识别模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型；

收敛单元，用于在所述损失值达到预设的收敛条件时，将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型。

在一实施例中，所述查询模块13包括：

第二获取单元，用于获取与所述场景标识符匹配的预设词库中的所有定制词语；

第二转换单元，用于将所有所述定制词语进行拼音转换，得到每个所述定制词语对应的定制词语拼音串；

搭建单元，用于按照字典树构建方式，将所有所述定制词语拼音串构建成所述拼音词典，并将所述拼音词典与所述场景标识符关联；所述拼音词典中包含拼音与汉字的对应关系。

在一实施例中，所述查询模块13还包括：

查询单元，用于通过字典树查询方式，在所述拼音词典中查询出与所述拼音序列数据中包含的所述拼音串匹配的拼音串路径，将所述拼音串路径中的所有所述拼音进行拼接生成所述关键词拼音串，同时将所述拼音串路径中的所有所述拼音对应的汉字进行拼接生成所述关键词；

替换单元，用于将每个所述拼音串替换成与每个所述拼音串对应的所述关键词，将替换后的所述拼音序列数据记录为拼音转换数据。

在一实施例中，所述显示模块15包括：

第二输入单元，用于将所述最终语音数据输入所述SQL语句转换模型；

第二提取单元，用于所述SQL语句转换模型通过提取所述最终语音数据中的向量特征进行预测处理，得到所述最终语音数据的预测结果；所述预测结果包括至少一个预测语句及对应的识别概率；

验证单元，用于通过所述SQL语句转换模型中的验证模型对各所述预测语句进行验证，得到各所述预测语句对应的执行结果；

输出单元，用于根据各所述预测语句对应的所述识别概率和所述执行结果，确定各所述预测语句对应的质量系数；

确定单元，用于将所有所述质量系数中最大的所述质量系数对应的所述预测语句确定为所述SQL查询语句。

关于语音查询装置的具体限定可以参见上文中对于语音查询方法的限定，在此不再赘述。上述语音查询装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音查询方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音查询方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音查询方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音查询方法，其特征在于，包括：

接收包含场景标识符的场景查询指令，获取源语音数据；

2.如权利要求1所述的语音查询方法，其特征在于，所述深度学习拼音识别模型提取出所述源语音数据中的语音拼音特征，获取所述深度学习拼音识别模型根据所述语音拼音特征输出的拼音序列数据，包括：

通过分帧加窗的方法，对所述源语音数据进行音频转换，得到二维音频图像信号；

将所述二维音频图像信号输入所述深度学习拼音识别模型中的声学模型，所述声学模型提取所述二维音频图像信号的语音拼音特征，获取所述声学模型根据提取出的所述二维音频图像信号的语音拼音特征输出的语音序列数组；所述声学模型为基于Keras和TensorFlow训练的深度卷积神经网络模型；

对所述语音序列数组进行解码，得到所述源语音数据的所述拼音序列数据。

3.如权利要求2所述的语音查询方法，其特征在于，所述对所述语音序列数组进行解码，得到所述源语音数据的所述拼音序列数据，包括：

将所述语音序列数组中连续重复的拼音字母进行合并，得到合并数组；

在所述合并数组中的每个所述拼音数据后增加其对应的所述音调数据，得到增强数组；

去除所述增强数组中的静音分隔符，将去除后的所述增强数组确定为所述拼音序列数据。

4.如权利要求1所述的语音查询方法，其特征在于，所述将所述源语音数据输入训练完成的深度学习拼音识别模型之前，包括：

获取语音样本集，所述语音样本集包括多个训练样本，每个所述训练样本都对应一个结果标签；

将所述训练样本输入含有初始参数的拼音识别模型；

所述拼音识别模型提取出所述训练样本中的语音拼音特征，所述拼音识别模型根据所述训练样本中的语音拼音特征输出所述训练样本的识别结果和损失值；

在所述损失值未达到预设的收敛条件时，迭代更新所述拼音识别模型的初始参数，直至所述损失值达到所述预设的收敛条件时，将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型；

在所述损失值达到预设的收敛条件时，将收敛之后的所述拼音识别模型记录为训练完成的深度学习拼音识别模型。

5.如权利要求1所述的语音查询方法，其特征在于，所述从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串之前，包括：

获取与所述场景标识符匹配的预设词库中的所有定制词语；

将所有所述定制词语进行拼音转换，得到每个所述定制词语对应的定制词语拼音串；

按照字典树构建方式，将所有所述定制词语拼音串构建成所述拼音词典，并将所述拼音词典与所述场景标识符关联；所述拼音词典中包含拼音与汉字的对应关系。

6.如权利要求1所述的语音查询方法，其特征在于，所述从与所述场景标识符匹配的拼音词典中查找出与所述拼音序列数据中包含的拼音串匹配的关键词拼音串，将所述拼音序列数据中的所有所述拼音串替换成与其匹配的所述关键词拼音串对应的关键词，将替换后的所述拼音序列数据记录为拼音转换数据，包括：

通过字典树查询方式，在所述拼音词典中查询出与所述拼音序列数据中包含的所述拼音串匹配的拼音串路径，将所述拼音串路径中的所有所述拼音进行拼接生成所述关键词拼音串，同时将所述拼音串路径中的所有所述拼音对应的汉字进行拼接生成所述关键词；

将每个所述拼音串替换成与每个所述拼音串对应的所述关键词，将替换后的所述拼音序列数据记录为拼音转换数据。

7.如权利要求1所述的语音查询方法，其特征在于，所述将所述最终语音数据输入SQL语句转换模型，所述SQL语句转换模型将所述最终语音数据转换成SQL查询语句，包括：

将所述最终语音数据输入所述SQL语句转换模型；

所述SQL语句转换模型通过提取所述最终语音数据中的向量特征进行预测处理，得到所述最终语音数据的预测结果；所述预测结果包括至少一个预测语句及对应的识别概率；

通过所述SQL语句转换模型中的验证模型对各所述预测语句进行验证，得到各所述预测语句对应的执行结果；

根据各所述预测语句对应的所述识别概率和所述执行结果，确定各所述预测语句对应的质量系数；

将所有所述质量系数中最大的所述质量系数对应的所述预测语句确定为所述SQL查询语句。

8.一种语音查询装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语音查询方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音查询方法。