CN115910051A

CN115910051A - 音频数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN115910051A
Application number: CN202111157074.2A
Authority: CN
Inventors: 唐延欢
Original assignee: TCL Technology Group Co Ltd
Current assignee: TCL Technology Group Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2023-04-04

Abstract

本发明公开了一种音频数据处理方法、装置、电子设备及存储介质，该方法通过调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵，然后确定待处理音频数据的第二音素预测矩阵，并根据第一音素预测矩阵和待处理音频数据的第二音素预测矩阵确定目标音素预测矩阵，最后根据目标音素预测矩阵确定待处理音频数据与预设的关键词的匹配结果，从而能够根据匹配结果判定待处理音频数据是否为用户个性化定制的关键词，进而实现语音唤醒功能。采用本发明实施例，能够解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

Description

音频数据处理方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种音频数据处理方法、装置、电子设备及存储介质。

背景技术

语音唤醒功能是当前人机交互系统的必备功能之一，广泛应用于智能音箱、车载、手机等智能语音系统。但目前主流的语音唤醒系统，大多是基于单个唤醒词的深度定制，其模型只能针对一个固定的唤醒词进行唤醒响应，无法满足用户个性化定制唤醒词，乃至个性化定制命令词的需求。

发明内容

本发明实施例的目的是提供一种音频数据处理方法、装置、电子设备及存储介质，以解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

第一方面，本发明实施例提供了一种音频数据处理方法，包括：

调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵；

确定待处理音频数据的第二音素预测矩阵；

根据第一音素预测矩阵和第二音素预测矩阵，确定目标音素预测矩阵；

根据目标音素预测矩阵，确定待处理音频数据与预设的关键词的匹配结果。

第二方面，本发明实施例提供了一种音频数据处理装置，包括：

调用模块，用于调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵；

第一确定模块，用于确定待处理音频数据的第二音素预测矩阵；

第二确定模块，用于根据第一音素预测矩阵和第二音素预测矩阵，确定目标音素预测矩阵；

匹配模块，用于根据目标音素预测矩阵，确定待处理音频数据与预设的关键词的匹配结果。

第三方面，本发明实施例提供了一种电子设备，电子设备包括处理器、存储器以及存储在存储器中且被配置为由处理器执行的计算机程序，存储器与处理器耦接，且处理器执行计算机程序时以实现上述任一项的音频数据处理方法中的步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行以实现上述任一项的音频数据处理方法中的步骤。

本发明实施例提供了一种音频数据处理方法、装置、电子设备及存储介质，该方法通过根据语音识别模型输出的第一音素预测矩阵和待处理音频数据的二音素预测矩阵，确定目标音素预测矩阵，能够在待处理音频数据中含有预设的关键词时，有效提高该关键词对应音素的概率值，从而能够提高识别待处理音频数据中用户个性化定制的关键词的识别准确率，解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

附图说明

图1是本发明实施例提供的音频数据处理方法的一种流程示意图；

图2是本发明实施例提供的语音识别模型的一种结构示意图；

图3是本发明实施例提供的音频数据处理方法的另一种流程示意图；

图4是本发明实施例提供的音频数据处理装置的一种结构示意图；

图5是本发明实施例提供的音频数据处理装置的另一种结构示意图；

图6是本发明实施例提供的电子设备的一种结构示意图；

图7是本发明实施例提供的电子设备的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解的是，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

请参见图1，图1是本发明实施例提供的音频数据处理方法的一种流程示意图，如图1所示，本发明实施例提供的音频数据处理方法包括步骤101至步骤104；

步骤101，调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵。

在本实施例中，待处理音频数据包括用户实时录入的语音数据、本地存储的录音数据以及通过网络传输得到的音频数据，具体属于那种类型的数据在此不做限定。

在一些实施例中，在调用已训练的语音识别模型之前是需要先得到一个已训练的语音识别模型，因此，在步骤101之前，音频数据处理方法还包括：

对获取的多个音频数据进行转换处理，得到与各音频数据对应的多个音素字符串；

以多个音频数据作为待训练的语音识别模型的输入数据，以多个音素字符串作为待训练的语音识别模型的标签数据构建训练样本集合；

根据训练样本集合中的训练样本，对待训练的语音识别模型进行训练，并基于设定的目标损失函数进行模型参数优化以生成已训练的语音识别模型。

在本实施例中，对获取的多个音频数据进行转换处理，得到与各音频数据对应的多个音素字符串的步骤，具体包括：

将获取的多个音频数据的中文标签转换为对应的多个拼音序列，得到与多个音频数据对应的多个音素字符串。

应当理解的是，当音频数据对应的是英文标签或其他的外国语言标签时，该音频数据对应的音素则是语言中构成各个词所需的一个或多个单位，例如，当音频数据为中文且具体中文标签为“我爱中国”时，则将构成每个词所需的一个或多个单位作为音素，即将“wo”、“ai”、“zhong”、“guo”中的“w”、“o”、(“a”、“i”/“ai”)、“zh”、“ong”、“g”、“u”、“o”各个拼音作为音素，最终得到“woaizhongguo”的音素字符串。又如，当音频数据为英文且具体英文标签为“I LoveChina”时，则将构成各个词所需的一个或多个单位作为音素，即将“I”、“L”、“o”、“v”、“e”、“C”、“h”、“i”、“n”、“a”各个字母作为音素，最终得到“ilovechina”的音素字符串。

在另一实施例中，待训练的语音识别模型依次由卷积层、池化层、翻译层以及全连接层相连接而构成。

需要说明的是，本实施例提供的翻译层可以为transformer模型层，也可以为其他用于机器翻译的模型层，只要能确实现机器翻译功能的模型均可用作本实施例的翻译层，因此，翻译层具体的结构在此不做限定。其中，本发明实施例提供的翻译层是以transformer层为主，以下实施例也均是以transformer层作为翻译层进行展开说明。

具体的，本实施例提供的待训练的语音识别模型包括有2个卷积层、2个池化层、6个transformer层(每个transformer层中含有4个多头注意力层)，其中，输入层与第一个卷积层连接，第一个卷积层后面连接第一个池化层，第一个池化层后面连接第二个卷积层，第二个卷积层后面连接第二个池化层，第二个池化层后面连接6层transformer层(各transformer层依次首尾连接)，最后一层transformer层的后面连接全连接层。

请参见图2，图2是本发明实施例提供的语音识别模型的一种结构示意图，如图2所示，该语音识别模型主要由2个CNN网络22、6个Transformer结构23以及全连接层24构成，其中，各个CNN网络22包括卷积层(第一个卷积层的卷积核为3*3，通道数为16；第二个卷积层的卷积核为3*3，通道数为32)、BN层(Batch Normalization，批量标准化层/批量归一化层(用于将分散的数据统一))、激活函数为LeakyRelu以及最大值池化层(该池化层的卷积核为2*2)；各个Transformer结构23包括4个Multi-HeadAttention层(多头注意力层，用于将重要信息的权重增大，不重要的信息的权重减小)、Add&Norm层(Add表示残差连接(Residual Connection)用于防止网络退化，Norm表示Layer Normalization，用于对每一层的激活值进行归一化)、Feed Forward层(前馈神经网络层，相当于全连接层用于进行矩阵运算)。

可选的，上述语音识别模型采用CTC损失函数进行训练，以使语音识别模型能够对序列数据进行学习，从而无需事先标注好训练数据中输入序列和输出序列的映射关系，使得语音识别模型在序列学习任务中具有更好的识别效果。

具体的，请继续参见图2，本申请将梅尔频谱图作为模型的输入数据，也即待处理音频数据，因此，当将二维的300*40的Melspectrogram(梅尔频谱图)21输入至本实施例提供的语音识别模型后，需要先对该300*40的Melspectrogram(梅尔频谱图)21进行预处理，使其成为三维数据，即300*40*1的第一特征图，然后第一层CNN网络22将对该300*40*1的第一特征图进行特征提取，得到150*20*16的第二特征图，然后第二层CNN网络22将对该150*20*16的第二特征图继续进行特征提取，得道75*10*32的第三特征图，为了提高识别效率，本实施例将三维的75*10*32的第三特征图重构成二维的75*320的第四特征图，从而将二维的75*320的第四特征图输入至Transformer结构23中，以进行语言转换处理，得到转换处理后的75*320的第五特征图，然后全连接层24将75*320的第五特征图映射为75*71维度的特征向量logits(75表示待处理音频数据的75个时间步，71表示预设的音素列表的长度，分属71个音素的特征)，并通过softmax函数对特征向量logits进行归一化处理，最终得到待处理音频数据的第一音素预测矩阵。

步骤102，确定待处理音频数据的第二音素预测矩阵。

在本实施例中，步骤102具体包括：

将预设的关键词转换为关键音素字符串；

根据关键音素字符串，构建待处理音频数据的第二音素预测矩阵；其中，第二音素预测矩阵中的关键音素字符串的概率值为第一预设阈值，除关键音素字符串外的其他音素字符串的概率值为第二预设阈值，第一预设阈值大于第二预设阈值。

需要说明的是，预设的关键词为用户预先设定的词语，也即用户个性化定制的关键词。

根据上述实施例提供的转换处理方法步骤，将预设的关键词转换为对应的关键音符字符串，例如，预设的关键词为“打开电视”，则关键音素字符串为“dakaidianshi”。在得到关键音素字符串之后，则需根据该关键音素字符串构建与待处理音频数据对应的第二音素预测矩阵，该第二音素预测矩阵与第一音素预测矩阵结构相同且含有相同的音素，但音素的概率值不相同。

具体的，本实施例通过将第二音素预测矩阵中的关键音素字符串的概率值设为第一预设阈值(例如，设为0.3)，除关键音素字符串外的其他音素字符串的概率值设为第二预设阈值(小于0.3的任意非负数值，例如设为0)，从而在第二音素预测矩阵中仅有关键音素字符串的概率值为0.3，其他字符串的概率值为0。

步骤103，根据第一音素预测矩阵和第二音素预测矩阵，确定目标音素预测矩阵。

在本实施例中，步骤103具体包括：

将第一音素预测矩阵中音素字符串的概率值，对应加上第二音素预测矩阵中音素字符串的概率值，得到目标音素预测矩阵。

为了针对性地提高对预设的关键词的识别准确率，本实施例在得到语音识别模型输出的第一音素预测矩阵和构建的第二音素预测矩阵后，将第一音素预测矩阵和第二音素预测矩阵中的各音素对应的概率值相加，得到对预设的关键词对应的概率值进行提高后的目标音素预测矩阵，从而便于在后续的识别过程中提高输出该预设的关键词对应的音素字符串的概率，进而有效解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

譬如，当第一音素预测矩阵中含有预设的关键词，且该预设的关键词在第一音素预测矩阵中的概率值为0.4时，通过在第一音素预测矩阵中关键词概率为0.4的基础上加上第二音素预测矩阵中关键词的概率值0.3，则将得到该预设的关键词概率值为0.7的目标音素预测矩阵，从而在后续的关键词识别中，能够更精准的识别出待处理音频数据中是否有对应的关键词。

步骤104，根据目标音素预测矩阵，确定待处理音频数据与预设的关键词的匹配结果。

在本实施例中，步骤104具体包括：

对目标音素预测矩阵进行字符串提取处理，得到目标音素字符串；

检测目标音素字符串与预设的关键音素字符串之间的编辑距离；

当编辑距离小于或等于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配成功；或者，

当编辑距离大于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配失败。

具体的，字符串提取处理具体包括：筛选出目标音素预测矩阵中每个时间步中概率值最大的音素，得到多个音素，然后再在该多个音素中删除掉空字符以及重复的字符，得到目标音素预测矩阵对应的目标音素字符串。

为了避免无法识别讲话不清楚/语言不标准的用户输入的待处理音频数据，本实施例通过检测目标音素字符串与关键音素字符串之间的编辑距离，以确定待处理音频数据与用户预设的关键词是否类似，并在编辑距离小于预设的距离阈值时，判定用户输入的待处理音频数据与预设的关键词匹配成功，从而能够根据该匹配成功结果使机器实现唤醒功能。

例如，当目标音素字符串为“woshiniudehuadehunshi”(对应的中文含义为“我是牛德华的浑师”)，而预设的关键词对应的关键音素字符串为“woshiliudehuadefensi”(对应的中文含义为“我是刘德华的粉丝”)时，此时目标音素字符串“niu”中的“n”需要修改为“l”，“hun”中的“h”需要修改为“f”，“u”需要修改为“e”，最后的“shi”中需要删除音素“h”，从而才能使得目标音素字符串与关键音素字符串相同。由于需要将目标音素字符串进行4次的增加/修改/删除操作，因此，目标音素字符串与关键音素字符串之间的编辑距离为4，在确定预设的距离阈值为4时，则判定用户输入的待处理音频数据与预设的关键词匹配成功。

以下将以中文和中文对应的音素(拼音)作为音频数据，展开说明机器执行唤醒操作的过程。本实施例所指的机器包括如电视、空调、风扇、手机、电脑、平板等各种电子设备，唤醒操作包括机器的开机/启动/打开显示器或开启对应功能如开启风扇。

请参见图3，图3是本发明实施例提供的音频数据处理方法的另一种流程示意图，如图3所示，本发明实施例提供的音频数据处理方法包括步骤301至步骤313；

步骤301，将获取的多个音频数据的中文标签转换为对应的多个拼音序列，得到与各音频数据对应的多个音素字符串。

步骤302，以多个音频数据作为待训练的语音识别模型的输入数据，以多个音素字符串作为待训练的语音识别模型的标签数据构建训练样本集合。

其中，待训练的语音识别模型依次由卷积层、池化层、transformer层以及全连接层相连接而构成。

步骤303，根据训练样本集合中的训练样本，对待训练的语音识别模型进行训练，并基于设定的目标损失函数进行模型参数优化以生成已训练的语音识别模型。

步骤304，调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵。

在本实施例中，待处理音频数据为开启电视之类的音频数据，因此，语音识别模型输出的第一音素预测矩阵中与开启电视之类的相似的音素的概率值都较高，但与预设的关键词相同的音素对应的概率值是否是最高则无法确定。

步骤305，将预设的关键词转换为关键音素字符串。

在本实施例中，由于本实施例中的机器为电视，故用户预设的关键词为“打开电视”，则关键音素字符串为“dakaidianshi”。

步骤306，根据关键音素字符串，构建对应的第二音素预测矩阵。

其中，第二音素预测矩阵中的关键音素字符串的概率值为第一预设阈值，除关键音素字符串外的其他音素字符串的概率值为第二预设阈值，第一预设阈值大于第二预设阈值。

具体的，设定第二音素预测矩阵中“dakaidianshi”对应的概率值为0.3，其他音素对应的概率值为0。

步骤307，将第一音素预测矩阵中音素字符串的概率值，对应加上第二音素预测矩阵中音素字符串的概率值，得到目标音素预测矩阵。

在本实施例中，由于第二音素预测矩阵中“dakaidianshi”对应的概率值为0.3，其他音素对应的概率值为0，故而目标音素预测矩阵中的“dakaidianshi”对应的概率值则会比第一音素预测矩阵中的概率值高0.3。

步骤308，对目标音素预测矩阵进行字符串提取处理，得到目标音素字符串。

提取出目标音素预测矩阵中每个时间步中概率值最大的音素，并将提取出的音素去掉重复和空的字符，得到目标音素字符串。例如，最终得到的目标音素字符串为“dakaidiansi”。

步骤309，根据预设的音素列表，确定目标音素字符串对应的目标识别码序列，和预设的关键词对应的关键识别码序列。

预设的音素列表包括预设数量的且各不相同的音素以及与各音素对应的识别码，满足预设条件的不同音素对应相同的识别码。

具体的，预设的音素列表如下表所示：

其中，该预设的音素列表含有71个音素，且本发明实施例提出一种相近音节编码的方案，如上表所示，将平翘舌声母采用相同识别码(如音素“ci”对应的音素识别码为“持”，音素“chi”对应的音素识别码也为“持”)，前后鼻音采用相同识别码等(如音素“yin”对应的音素识别码为“因”，音素“ying”对应的音素识别码也为“因”)。采用如上述表格提供的相近音节编码的方案，能够解决普通话不标准导致无法识别唤醒词的问题。

步骤310，检测目标识别码序列与关键识别码序列之间的编辑距离。

步骤311，当编辑距离小于或等于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配成功。

步骤312，当编辑距离大于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配失败。

在本实施例中，通过本发明实施例提供的检测目标识别码序列与关键识别码序列之间的编辑距离，并根据编辑距离与预设的距离阈值确定待处理音频数据与关键词是否匹配，能够解决普通话不标准导致无法识别唤醒词的问题。

步骤313，当检测到待处理音频数据与预设的关键词匹配成功后，执行唤醒操作。

在确定目标识别码序列与关键识别码序列之间的编辑距离小于或等于预设的距离阈值时，则确定待处理音频数据与预设的关键词匹配成功，则电视将执行开机操作。

综上所述，本发明实施例提供的音频数据处理方法，该方法通过调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵，然后根据第一音素预测矩阵和待处理音频数据的第二音素预测矩阵确定目标音素预测矩阵，最后根据目标音素预测矩阵确定待处理音频数据与预设的关键词的匹配结果，从而能够根据匹配结果判定待处理音频数据是否为用户个性化定制的关键词，进而实现语音唤醒功能。采用本发明实施例，能够解决当前的语音唤醒功能无法满足用户个性化定制唤醒词的需求的问题。

根据上述实施例所描述的方法，本实施例将从音频数据处理装置的角度进一步进行描述，该音频数据处理装置具体可以作为独立的实体来实现，也可以集成在电子设备，比如终端中来实现，该终端可以包括手机、平板电脑等。

请参见图4，图4是本发明实施例提供的音频数据处理装置的一种结构示意图，如图4所示，本发明实施例提供的音频数据处理装置400，包括：

调用模块401，用于调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵。

第一确定模块402，用于确定待处理音频数据的第二音素预测矩阵。

在本实施例中，第一确定模块402具体用于：将预设的关键词转换为关键音素字符串；根据关键音素字符串，构建对应的第二音素预测矩阵。

第二确定模块403，用于根据第一音素预测矩阵和第二音素预测矩阵，确定目标音素预测矩阵。

在本实施例中，第二确定模块403具体用于：将第一音素预测矩阵中音素字符串的概率值，对应加上第二音素预测矩阵中音素字符串的概率值，得到目标音素预测矩阵。

匹配模块404，用于根据目标音素预测矩阵，确定待处理音频数据与预设的关键词的匹配结果。

在本实施例中，匹配模块404具体用于：对目标音素预测矩阵进行字符串提取处理，得到目标音素字符串；检测目标音素字符串与关键音素字符串之间的编辑距离；当编辑距离小于或等于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配成功；当编辑距离大于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配失败。

在另一种实施例中，匹配模块404具体还用于：对目标音素预测矩阵进行字符串提取处理，得到目标音素字符串；根据预设的音素列表，确定目标音素字符串对应的目标识别码序列，和预设的关键词对应的关键识别码序列；预设的音素列表包括预设数量的且各不相同的音素以及与各音素对应的识别码，满足预设条件的不同音素对应相同的识别码；检测目标识别码序列与关键识别码序列之间的编辑距离；当编辑距离小于或等于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配成功；当编辑距离大于预设的距离阈值时，确定待处理音频数据与预设的关键词匹配失败。

在本实施例中，请参见图5，图5是本发明实施例提供的音频数据处理装置的另一种结构示意图，本实施例提供的音频数据处理装置，还包括：

转换模块405，用于对获取的多个音频数据进行转换处理，得到与各音频数据对应的多个音素字符串。

在本实施例中，转换模块405具体用于：将获取的多个音频数据的中文标签转换为对应的多个拼音序列，得到与各音频数据对应的多个音素字符串。

构建模块406，用于以多个音频数据作为待训练的语音识别模型的输入数据，以多个音素字符串作为待训练的语音识别模型的标签数据构建训练样本集合；待训练的语音识别模型依次由卷积层、池化层、transformer层以及全连接层相连接而构成。

训练模块407，用于根据训练样本集合中的训练样本，对待训练的语音识别模型进行训练，并基于设定的目标损失函数进行模型参数优化以生成已训练的语音识别模型。

具体实施时，以上各个模块和/或单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块和/或单元的具体实施可参见前面的方法实施例，具体可以达到的有益效果也请参看前面的方法实施例中的有益效果，在此不再赘述。

另外，请参见图6，图6是本发明实施例提供的电子设备的一种结构示意图，该电子设备可以是移动终端如智能手机、平板电脑等设备。如图6所示，电子设备600包括处理器601、存储器602。其中，处理器601与存储器602电性连接。

处理器601是电子设备600的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器602内的应用程序，以及调用存储在存储器602内的数据，执行电子设备600的各种功能和处理数据，从而对电子设备600进行整体监控。

在本实施例中，电子设备600中的处理器601会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器602中，并由处理器601来运行存储在存储器602中的应用程序，从而实现各种功能：

确定待处理音频数据的第二音素预测矩阵；

该电子设备600可以实现本发明实施例所提供的音频数据处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一音频数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

请参见图7，图7是本发明实施例提供的电子设备的另一种结构示意图，如图7所示，图7示出了本发明实施例提供的电子设备的具体结构框图，该电子设备可以用于实施上述实施例中提供的音频数据处理方法。该电子设备700可以为移动终端如智能手机或笔记本电脑等设备。

RF电路710用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯。RF电路710可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。RF电路710可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。上述的无线网络可以使用各种通信标准、协议及技术，包括但并不限于全球移动通信系统(Global System for Mobile Communication,GSM)、增强型移动通信技术(Enhanced DataGSM Environment,EDGE)，宽带码分多址技术(Wideband Code Division MultipleAccess,WCDMA)，码分多址技术(Code Division Access,CDMA)、时分多址技术(TimeDivision Multiple Access,TDMA)，无线保真技术(Wireless Fidelity，Wi-Fi)(如美国电气和电子工程师协会标准IEEE 802.11a，IEEE 802.11b,IEEE802.11g和/或IEEE802.11n)、网络电话(Voice over Internet Protocol,VoIP)、全球微波互联接入(Worldwide Interoperability for Microwave Access，Wi-Max)、其他用于邮件、即时通讯及短消息的协议，以及任何其他合适的通讯协议，甚至可包括那些当前仍未被开发出来的协议。

存储器720可用于存储软件程序以及模块，如上述实施例中音频数据处理方法对应的程序指令/模块，处理器780通过运行存储在存储器720内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现如下功能：

确定待处理音频数据的第二音素预测矩阵；

存储器720可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器720可进一步包括相对于处理器780远程设置的存储器，这些远程存储器可以通过网络连接至电子设备700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入单元730可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元730可包括触敏表面731以及其他输入设备732。触敏表面731，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面731上或在触敏表面731附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面731可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器780，并能接收处理器780发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面731。除了触敏表面731，输入单元730还可以包括其他输入设备732。具体地，其他输入设备732可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元740可用于显示由用户输入的信息或提供给用户的信息以及电子设备700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元740可包括显示面板741，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板741。进一步的，触敏表面731可覆盖显示面板741，当触敏表面731检测到在其上或附近的触摸操作后，传送给处理器780以确定触摸事件的类型，随后处理器780根据触摸事件的类型在显示面板741上提供相应的视觉输出。虽然在图中，触敏表面731与显示面板741是作为两个独立的部件来实现输入和输出功能，但是在某些实施例中，可以将触敏表面731与显示面板741集成而实现输入和输出功能。

电子设备700还可包括至少一种传感器750，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板741的亮度，接近传感器可在翻盖合上或者关闭时产生中断。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于电子设备700还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路760、扬声器761，传声器762可提供用户与电子设备700之间的音频接口。音频电路760可将接收到的音频数据转换后的电信号，传输到扬声器761，由扬声器761转换为声音信号输出；另一方面，传声器762将收集的声音信号转换为电信号，由音频电路760接收后转换为音频数据，再将音频数据输出处理器780处理后，经RF电路710以发送给比如另一终端，或者将音频数据输出至存储器720以便进一步处理。音频电路760还可能包括耳塞插孔，以提供外设耳机与电子设备700的通信。

电子设备700通过传输模块770(例如Wi-Fi模块)可以帮助用户接收请求、发送信息等，它为用户提供了无线的宽带互联网访问。虽然图中示出了传输模块770，但是可以理解的是，其并不属于电子设备700的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器780是电子设备700的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器720内的软件程序和/或模块，以及调用存储在存储器720内的数据，执行电子设备700的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器780可包括一个或多个处理核心；在一些实施例中，处理器780可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解地，上述调制解调处理器也可以不集成到处理器780中。

电子设备700还包括给各个部件供电的电源790(比如电池)，在一些实施例中，电源可以通过电源管理系统与处理器780逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源790还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，电子设备700还包括摄像头(如前置摄像头、后置摄像头)、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备的显示单元是触摸屏显示器，移动终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行一个或者一个以上程序包含用于进行以下操作的指令：

确定待处理音频数据的第二音素预测矩阵；

具体实施时，以上各个模块可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个模块的具体实施可参见前面的方法实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。为此，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行以实现本发明实施例所提供的音频数据处理方法中任一实施例的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的音频数据处理方法任一实施例中的步骤，因此，可以实现本发明实施例所提供的任一音频数据处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种音频数据处理方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。并且，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

确定所述待处理音频数据的第二音素预测矩阵；

根据所述第一音素预测矩阵和所述第二音素预测矩阵，确定目标音素预测矩阵；

根据所述目标音素预测矩阵，确定所述待处理音频数据与预设的关键词的匹配结果。

2.如权利要求1所述的方法，其特征在于，所述调用已训练的语音识别模型对待处理音频数据进行识别，得到第一音素预测矩阵之前，还包括：

对获取的多个音频数据进行转换处理，得到与各所述音频数据对应的多个音素字符串；

以所述多个音频数据作为待训练的语音识别模型的输入数据，以所述多个音素字符串作为所述待训练的语音识别模型的标签数据构建训练样本集合；所述待训练的语音识别模型依次由卷积层、池化层、翻译层以及全连接层相连接而构成；

根据所述训练样本集合中的训练样本，对所述待训练的语音识别模型进行训练，并基于设定的目标损失函数进行模型参数优化以生成所述已训练的语音识别模型。

3.如权利要求2所述的方法，其特征在于，所述对获取的多个音频数据进行转换处理，得到与各所述音频数据对应的多个音素字符串，包括：

将获取的多个音频数据的中文标签转换为对应的多个拼音序列，得到与所述多个音频数据对应的多个音素字符串。

4.如权利要求1-3任一项所述的方法，其特征在于，所述确定所述待处理音频数据的第二音素预测矩阵，包括：

将预设的关键词转换为关键音素字符串；

根据所述关键音素字符串，构建所述待处理音频数据的第二音素预测矩阵；其中，所述第二音素预测矩阵中的所述关键音素字符串的概率值为第一预设阈值，除所述关键音素字符串外的其他音素字符串的概率值为第二预设阈值，所述第一预设阈值大于所述第二预设阈值。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一音素预测矩阵和所述第二音素预测矩阵，确定目标音素预测矩阵，包括：

将所述第一音素预测矩阵中音素字符串的概率值，对应加上所述第二音素预测矩阵中音素字符串的概率值，得到目标音素预测矩阵。

6.如权利要求5所述的方法，其特征在于，所述根据所述目标音素预测矩阵，确定所述待处理音频数据与预设的关键词的匹配结果，包括：

对所述目标音素预测矩阵进行字符串提取处理，得到目标音素字符串；

检测所述目标音素字符串与所述关键音素字符串之间的编辑距离；

当所述编辑距离小于或等于预设的距离阈值时，确定所述待处理音频数据与所述预设的关键词匹配成功；或者，

当所述编辑距离大于预设的距离阈值时，确定所述待处理音频数据与所述预设的关键词匹配失败。

7.如权利要求6所述的方法，其特征在于，所述检测所述目标音素字符串与所述关键音素字符串之间的编辑距离，包括：

根据预设的音素列表，确定所述目标音素字符串对应的目标识别码序列，和所述预设的关键词对应的关键识别码序列；所述预设的音素列表包括预设数量的且各不相同的音素以及与各音素对应的识别码，满足预设条件的不同音素对应相同的识别码；

检测所述目标识别码序列与所述关键识别码序列之间的编辑距离。

8.一种音频数据处理装置，其特征在于，包括：

第一确定模块，用于确定所述待处理音频数据的第二音素预测矩阵；

第二确定模块，用于根据所述第一音素预测矩阵和所述第二音素预测矩阵，确定目标音素预测矩阵；

匹配模块，用于根据所述目标音素预测矩阵，确定所述待处理音频数据与预设的关键词的匹配结果。

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述存储器与所述处理器耦接，且所述处理器执行所述计算机程序时以实现如权利要求1至7任一项所述的音频数据处理方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至7任一项所述的音频数据处理方法中的步骤。