CN113436615A

CN113436615A - 语义识别模型及其训练方法、语义识别方法

Info

Publication number: CN113436615A
Application number: CN202110760947.2A
Authority: CN
Inventors: 司马华鹏; 姚奥; 汤毅平
Original assignee: Nanjing Siyu Intelligent Technology Co ltd
Current assignee: Nanjing Siyu Intelligent Technology Co ltd
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-09-24
Anticipated expiration: 2041-07-06
Also published as: CN113436615B

Abstract

本申请实施例提供了一种语义识别模型及其训练方法、语义识别方法，所述模型包括：声学模块，包括依次连接的特征过滤层、音素特征层以及词特征层；语义模块，包括依此连接的全连接层、Transform层以及逻辑回归层；声学模块配置为，提取音频数据中的音素特征向量和词特征向量；语义模块配置为，根据音素特征向量和词特征向量输出音频数据对应的语义标签，语义标签用于指示音频数据对应的语义类别。

Description

语义识别模型及其训练方法、语义识别方法

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种语义识别模型及其训练方法、语义识别方法。

背景技术

目前，在外呼机器人/协呼机器人领域，语音语义的识别一般采用将语音信号通过自动语音识别技术(Automatic Speech Recognition，简称为ASR)转成文本，通过文本判断语义。

通过ASR技术将语音转为文本的过程中，一方面存在一定的错误率，另一方面，同一ASR模型对于不同的语音类型适应不同，例如，同一ASR模型对带有口音的普通话、口语化的表述、方言等语音类型具有不同的适应效果，或者，同一ASR模型对金融领域的语音识别和教育领域的语音识别也具有不同的适应效果。通过上述ASR识别出的文本判读用户的语义，则会导致错误率传导，进一步造成语义识别中存在一定的错误率。除此之外，ASR模型本身对样本数据的需求也极高，ASR模型的训练与建立需要极大的样本数量，同时对样本的标签质量亦存在着较高的要求。通常而言，单一ASR模型在训练阶段的样本量需达到上万小时的音频数据；而如需进一步满足前述针对不同语音类型或不同领域的需求，则针对每一需求均需要重新采集针对性的样本数据进行ASR模型的训练。因此，基于ASR技术进行语义识别，不仅存在准确性不佳的问题，且还需要耗费相当的人力、金钱与时间成本获取样本以实模型的训练与建立。

针对相关技术中，通过ASR技术进行语音语义识别导致效果不佳且成本过高的技术问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语义识别模型及其训练方法、语义识别方法，以至少解决相关技术中通过ASR技术进行语音语义识别导致效果不佳且成本过高的技术问题。

在本申请的一个实施例中，提出了一种语义识别模型，包括：声学模块，包括依次连接的特征过滤层、音素特征层以及词特征层；语义模块，包括依此连接的全连接层、Transform层以及逻辑回归层；所述声学模块配置为，提取音频数据中的音素特征向量和词特征向量；所述语义模块配置为，根据所述音素特征向量和所述词特征向量输出所述音频数据对应的语义标签，所述语义标签用于指示所述音频数据对应的语义类别。

在本申请的一个实施例中，还提出了一种语义识别模型的训练方法，用于训练上述语义识别模型，所述方法包括：使用第一样本数据训练声学模块，其中，所述第一样本数据包括第一音频数据以及所述第一音频数据中的每一帧数据对应的音素与词；将目标样本数据输入训练后的所述声学模块，得到所述目标样本数据对应的音素特征向量和词特征向量，其中，所述目标样本数据包括目标语义数据及所述目标语义数据对应的目标语义类别标签；使用所述目标样本数据对应的音素特征向量和词特征向量训练语义模块和所述声学模块；其中，所述声学模块包括依次连接的特征过滤层、音素特征层以及词特征层，训练过程中所述特征过滤层的参数保持不变。

在本申请的一个实施例中，还提出了语义识别方法，应用于上述语义识别模型，所述方法包括：将语音数据输入所述语义识别模型；通过所述语义识别模型输出所述语音数据对应的语义类别标签，其中，所述语义类别标签用于指示所述语音数据对应的语义类别。

在本申请的一个实施例中，还提出了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在本申请的一个实施例中，还提出了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本申请实施例，建立一个语义识别模型，包括：声学模块和语义模块，其中声学模块包括依次连接的特征过滤层、音素特征层以及词特征层；语义模块包括依此连接的全连接层、Transform层以及逻辑回归层；通过声学模块提取音频数据中的音素特征向量和词特征向量；通过语义模块根据音素特征向量和词特征向量输出音频数据对应的语义类别，同时在训练模型时特征过滤层的参数保持不变，有效解决了相关技术中通过ASR技术进行语音语义识别导致效果不佳的技术问题。通过模型结构以及训练方法的改进，一方面基于音素与词的综合特征进行语义识别，另一方面采用了基于Transform的网络结构构成语义模块，在提高识别效果的同时显著降低了模型体积，同时在训练模型时特征过滤层的参数保持不变，避免了训练过程中灾难性遗忘，进而提升了语音语义识别过程中的准确率。与此同时，在显著提升语义识别的准确性的基础上，本申请实施例中的语义识别模型直接基于音素特征与词特征等实现语义理解，其在实践过程中，针对某一特定的语义范围进行训练仅需要十几小时的音频数据作为样本，对多个不同的语义范围，也仅需要额外增加十几小时的样本数据，故此，本申请实施例中的语义识别模型及其训练方法、语义识别方法对样本的需求显著低于相关技术中基于ASR所实现的语义识别。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的语义识别模型的结构框图；

图2是根据本申请实施例的又一种可选的语义识别模型的结构框图；

图3是本申请实施例的一种可选的语义识别模型的训练方法流程图；

图4是本申请实施例中一种可选的训练数据集构建流程图；

图5是根据本申请实施例的一种可选的模型训练方法流程图；

图6是本申请实施例的一种可选的语义识别方法流程图；

图7是根据本申请实施例的一种可选的电子装置结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

图1是根据本申请实施例的一种可选的语义识别模型的结构框图，如图1所示，所述模型包括：

声学模块102，包括依次连接的特征过滤层1021、音素特征层1022以及词特征层1023；

语义模块104，包括依此连接的全连接层1041、Transform层1042以及逻辑回归层1043；

声学模块102配置为，提取音频数据中的音素特征向量和词特征向量；

语义模块104配置为，根据音素特征向量和词特征向量输出音频数据对应的语义标签，语义标签用于指示音频数据对应的语义类别。

需要说明的是，如图1所示，上述模型由一声学模块102与一语义模块104构成，其中，声学模块102用于进行特征提取，即声学模块102等同于一特征提取器。上述特征过滤层可以通过SincNet层来实现，也可以通过任意卷积核(kernel)或过滤器(filter)等可以实现特征过滤的网络层实现，本申请实施例对此不做限定。

语义模块104用于根据声学模块102提取的音频特征进行语义识别。

上述声学模块102可对音频的指定特征提取，该指定特征的提取基于音素与词实现，该特征用于表现音频的综合特征，如声调、语速等，可更好地表征音频的语义特性。

在一实施例中，Transform层包括至少两个Transform基本编码层，其中，至少两个Transform基本编码层共享一个参数矩阵。

在一实施例中，Transform基本编码层包括：

多头注意力机制层，配置为将所述全连接层输出的特征向量进行关联；

第一残差及归一化层，配置为使所述多头注意力机制层输出的特征向量分布一致；

前馈网络层，配置为将所述第一残差及归一化层输出的特征向量进行降维处理后输入第二残差及归一化层；

第二残差及归一化层，配置为使所述前馈网络层输出的特征向量分布一致。

图2是根据本申请实施例的又一种可选的语义识别模型的结构框图，如图2所示，声学模块的特征过滤层为Sinc_net滤波层或LEAF滤波层，过滤后依次进行音素特征和词特征的提取。上述特征过滤层优选采用LEAF滤波层，其使用Gabor卷积层构成，每个卷积层只有两个参数，故而可进一步压缩模型的体积。语义模块104可以基于Transform以及bert(Binary ERlang Term序列化库)等网络结构实现，语义模块104的特征编码层可以采取多层Transform的基本编码层，图2所示中以6层为例进行展示。Transform的基本编码层包括：多头注意力机制层(multi-head self-attention mechanism)单元与全连接前馈网络层(fully connected feed-forward network，相当于前述前馈网络层)单元，每一单元后面接残差及归一化层(Add&Norm)。需要说明的是，多个Transform基本编码层之间共享同一个参数矩阵。

需要说明的是，现有的语音语义识别过程中，通常使用的是ASR模型，而不是Transform网络结构。现有的Transform网络结构，其通常采取6层encoder和6层decoder，且各层之间不共享参数，进而造成模型偏大。本申请实施例中所采用的网络模型构架中，由于语义识别的效果可显著优于传统的ASR技术，因此多个Transform基本编码层之间可共享参数矩阵，进而在保证识别准确性的前提下，压缩模型大小，节省资源消耗。

需要说明的是，以相关技术中用于进行语义识别的ASR模型为例，其模型内部的多个卷积层之间参数并不共享。一方面，虽然ASR模型中各个卷积层的参数独立训练可以带来较好的模型效果，但是，其依赖于极大的样本数据量，即仅有在样本数据的数量达到足够大(通常需要上万小时的音频数据作为样本)时，ASR模型中各个卷积层的参数采用独立训练而非共享的方式才能令ASR模型起到较好的效果；反之，如若样本数据的数量不足，ASR模型中各个卷积层的参数独立训练反而会产生负面效果(如将不必要训练的参数调整)，令模型识别的准确率极低。另一方面，对于ASR模型而言，由于其自身在进行语义识别过程中所存在的天然缺陷，其如若采用各个卷积层之间参数共享的方式，则会令整体的模型识别效果进一步降低，而无法满足基本的功能需求。

经实测，采用时长为2000小时的样本数据，对ASR模型中各个卷积层之间参数进行独立训练，训练完成后的ASR模型进行语义识别的准确率为56.74％；采用时长为2000小时的样本数据对ASR模型进行训练，且各个卷积层之间的参数共享，训练完成后的ASR模型进行语义识别的准确率为61.26％；采用时长为12000小时的样本数据，对ASR模型中各个卷积层之间参数进行独立训练，训练完成后的ASR模型进行语义识别的准确率为82.43％；采用时长为12000小时的样本数据对ASR模型进行训练，且各个卷积层之间的参数共享，训练完成后的ASR模型进行语义识别的准确率为74.23％。

基于此，相关技术中的ASR模型在模型的体积、模型训练的样本数据数量、以及模型的准确性三个维度中，仅能牺牲其它两个维度对于某一个维度进行优化，而无法确保同时对两个或三个维度进行同时优化。

相较之下，本申请实施例中所采用的多个Transform基本编码层之间参数共享的方式，一方面如前述可令模型得以压缩，节省资源消耗；另一方面，本申请实施例中的语义识别模型对样本的需求显著低于相关技术中基于ASR所实现的语义识别(对单一语义范围仅需要十几小时)，且其识别准确性不受ASR识别过程中错误率的影响，可保证较高的识别准确率，故在参数共享的情形下，仍可保证较好的模型效果。

经实测，在一示例中，采用时长为15小时的样本数据，对本申请实施例中多个Transform基本编码层之间参数独立训练的语义识别模型进行训练，训练完成后的模型进行语义识别的准确率为97.21％，训练完成后的模型体积为185M。在另一示例中，采用时长为15小时的样本数据，对本申请实施例中采用多个Transform基本编码层之间参数共享的语义识别模型进行训练，训练完成后的模型进行语义识别的准确率为96.78％，训练完成后的模型体积为72M，显然地，后一示例中模型压缩了60％，其模型体积得以显著改善。但模型体积较于前一示例减少了34％。因此，上述实施例中Transform基本编码层之间参数共享的语义识别模型，在模型效果可控的情形下，显著压缩了模型的体积。

故此，本申请实施例中，采用多个Transform基本编码层之间参数共享的语义识别模型，在小样本数据的情形下，同时实现了语义识别模型识别准确性的保证以及模型体积的压缩，显著提升了语义识别模型在工程运用中的价值。

在本申请的另一实施例中，还提供了一种语义识别模型的训练方法，用于训练上述任一实施例中的语义识别模型，如图3所示所述方法包括：

步骤S302，使用第一样本数据训练声学模块，其中，第一样本数据包括第一音频数据以及第一音频数据中的每一帧数据对应的音素与词；

步骤S304，将目标样本数据输入训练后的声学模块，得到目标样本数据对应的音素特征向量和词特征向量，其中，目标样本数据包括目标语义数据及目标语义数据对应的目标语义类别标签；

步骤S306，使用目标样本数据对应的音素特征向量和词特征向量训练语义模块和声学模块；其中，声学模块包括依次连接的特征过滤层、音素特征层以及词特征层，训练过程中特征过滤层的参数保持不变。

需要说明的是，上述训练方法是针对上述任一实施例中涉及的语义识别模型进行的，语义识别模型的相关结构在此不再赘述。

在一实施例中，使用第一样本数据训练声学模块，包括：

将第一样本数据进行矫正后输入初始声学模块；

通过音素损失函数和词损失函数训练音素特征层和所述词特征层的参数，得到训练后的所述声学模块。

在一实施例中，将目标样本数据输入训练后的声学模块之前，所述方法还包括：

获取第二样本数据，其中，第二样本数据包括预设语义数据以及所述预设语义数据对应的语义类别标签；

对第二样本数据进行增强处理，得到第三样本数据；

将第三样本数据转换为第二音频数据，并对第二音频数据进行加噪处理，得到目标样本数据。

在一实施例中，使用目标样本数据对应的音素特征向量和词特征向量训练语义模块和声学模块，包括：

使用目标样本数据对应的音素特征向量和词特征向量，以及语义损失函数，训练语义模块的参数；

使用目标样本数据对应的音素特征向量和词特征向量，以及音素损失函数和词损失函数训练音素特征层和词特征层的参数。

下面通过一具体示例来说明上述语义识别模型的训练过程。训练方法包括：

S1，预设第一训练数据集(相当于前述第一样本数据)，该第一训练数据为音频数据，对应标签为音频数据中每一帧音频的音素与词；通过矫正器对上述第一训练数据集中数据进行音频与音素、词的对应，获取数据集D1。图4是本申请实施例中一种可选的训练数据集构建流程图。如图4所示，预设第二训练数据集，该第二训练数据为语义数据，语义数据指某个新领域的冷启动阶段，人工定义不同话术的语义类别，并对应制定语义标注标准，以采用人工标注的形式将不同话术的语义类别作为其标签，以形成第二训练数据集，该第二训练数据集标记为数据集D2(相当于前述第二样本数据)。在此基础上，通过替换同义词、句式组匹配、回译等数据增强的方式对D2进行数据增强，以得到增强后的数据集D3(相当于前述第三样本数据)。进一步通过TTS技术合成与真人录音结合的方式将D3中的话术转换为音频数据，经加噪处理后构成语义识别数据集D4(相当于前述目标样本数据)。

第一训练数据集可采用特定领域的音频数据作为训练集，也可以采用公开训练集，如Fluent Speech Commands数据集、THCHS30数据集、AISHELL等，本申请实施例对此不作限定。对于英文训练音频，可以采用LibriSpeech Alignments矫正器，对于中文训练音频，可以采用MFA(Montreal Forced Aligner)矫正器，矫正器的选择不限于此。上述矫正器的工作方式为本领域技术人员已知的，在此不再赘述。第一训练集与第二训练集在样本上可以相同也可以不同，本申请实施例对此不作限定。

S2，训练模型。本申请实施例中，模型的loss采用交叉损失函数；其中，对于声学模块，loss为loss_声学，loss_声学进一步包括loss_音素与loss_词；对于语义模块，loss为loss_语义。

图5是根据本申请实施例的一种可选的模型训练方法流程图，如图5所示，首先，通过D1对声学模块进行训练，训练算法可采用adam优化算法，以得到完成训练的声学模块。声学模块的训练目标为音频中每一帧所对应的音素和词，通过对音素与词的联合训练过程，以确定可以更好的表征音素与词的相应特征，进而完成训练的音素特征层与词特征层。

其次，利用完成训练的声学模型对D4进行特征提取，并通过提取的特征对语义模块进行训练，训练算法可采用AdaBound算法。本发明中，语义模块的训练过程中对于声学模型逐层解冻，仅保留SincNet层固定；具体而言，即将SincNet层的参数固定，将音素特征层以及词特征层与语义模块中的其余参数一同训练，以对音素特征层以及词特征层的参数进行微调，训练过程中，对音素特征层与词特征层进行逐层训练处理。

通过上述方式，在对于语义模块训练过程中，可对于声学模块中的参数进行一定的调整，即对于声学模块的音素特征层和词特征层根据训练轮次，逐次解冻微调参数，其他声学模型层均固定参数不做参数微调，进而进一步提高整体模型的识别准确率。

需要说明的是，在迁移学习的过程中(即上述在语义模块训练过程中对声学模块的参数进行调整的过程)，如何以及何时更新模型的权重参数尤为重要；实际训练过程中，需避免微调过程中覆盖有用的预训练信息，以对预训练模型最大化的迁移，以避免产生灾难性遗忘(category forgetting)的问题(灾难性遗忘：如果一个模型忘记了它最初被训练的任务，就会发生这种情况)。本申请实施例中提出的语义识别模型训练过程可有效的规避可能产生的灾难性遗忘的问题。

根据本申请的另一实施例，还提供了一种语义识别方法，应用于上述练好的语义识别模型，如图6所示，所述方法包括：

步骤S602，将语音数据输入语义识别模型；

步骤S604，通过语义识别模型输出语音数据对应的语义类别标签，其中，语义类别标签用于指示语音数据对应的语义类别。

需要说明的是，输入语音识别模型的语音数据可以是没有经过任何处理的音频数据，通过本申请实施例中训练好的语义识别模型，可以有效提取音频数据中的音频特征，识别出对应的语义类别。

以下从语义理解的准确率以及样本数据的需求两个角度，通过实际测试阐述本申请实施例中的语义识别模型及其训练方法、语义识别方法与现有技术的对比。

对于准确率而言，以本申请实施例中完成训练的语义识别模型以及现有技术中完成训练的ASR模型分别对同一批音频数据进行语义识别的对比。经过多个音频的实际测试，本申请实施例中的语义识别模型的识别准确率可达到96.78％，而现有技术中的ASR模型的识别准确率可达82.43％，显然地，本申请实施例中完成训练的网络模型在语义识别的准确率明显优于现有技术中的基于ASR技术实现的语义识别准确率，准确率至少提高14％。

对于样本数据而言，以银行业务问答场景下的语义识别为例，训练一可实现银行业务问答过程中语义识别功能的通用ASR模型，所需的样本数据约为13000小时，且该通用ASR模型仅能识别普通话或类普通话。在此基础上，训练一可实现四川地区银行业务问答过程中语义识别功能的ASR模型，则需要在前述通用ASR模型的基础上，进一步通过6000小时的四川话音频作为样本数据继续进行训练。

较于此，本申请实施例中，训练一可实现银行业务问答过程中语义识别功能的语义识别功能所需要的样本数据为15小时，在此基础上，训练一可实现四川地区银行业务问答过程中语义识别功能的语义识别功能，需要重新获取约15小时的四川话音频作为样本数据继续进行训练。

由此可得，虽然本申请实施例中的语义识别模型在针对不同用户习惯或不同场景下，需要重新采集样本进行模型的训练，但其整体对样本的需求显著低于现有技术中基于ASR模型的语义识别的样本需求。故此，本申请实施例可对于不同的用户需求，实现快速的模型训练与生成，进而显著改善业务部署的效率。

下面通过以下示例性实施例对本申请实施例中的模型训练方法以及语义识别方法进行进一步的说明。

示例性实施例1

本示例性实施例的模型构架如前述，此处不再赘述。

训练过程：

S1，将THCHS30和AISHELL数据集预设为第一训练数据集，通过预先完成训练的中文文矫正器MFA，对第一训练数据集进行音频与音素、词的对应以得到数据集D1。

以陪护领域的相关话术构建第二训练数据集，本示例性实施例中，第二训练数据集包括1404条样本数据，对应96个语义标签，以此形成数据集D2，部分数据如下表所示：

在此基础上，通过替换同义词、句式组匹配、回译等数据增强的方式对D2进行数据增强，以得到增强后的数据集D3，数据集D3中包括12436条数据。进一步通过TTS技术合成与真人录音结合的方式将D3中的数据转换为音频数据，经加噪处理后构成语义识别数据集D4。具体而言，通过TTS对D3中的数据进行语音的生成，同时对部分数据进行真人录音，并利用噪音数据集对上述合成语音以及真人录音进行加噪，最终得到20000条数据。

首先，通过D1对声学模块进行训练，训练算法可采用adam优化算法，以得到完成训练的声学模块。声学模块的训练目标为音频中每一帧所对应的音素和词，通过对音素与词的联合训练过程，以确定可以更好的表征音素与词的相应特征，进而完成训练的音素特征层与词特征层。

其次，利用完成训练的声学模型对D4进行特征提取，并通过提取的特征对语义模块进行训练，训练算法可采用AdaBound算法。本发明中，语义模块的训练过程中对于声学模型逐层解冻，仅保留SincNet层固定；具体过程如前述，不再赘述。

识别过程：

S1，通过上述完成训练的声学模块以及语义模块，进行相应的语义识别。具体而言，输入为语音内容为“在几几年结婚”的音频，则经过识别可输出“询问结婚日期”这个语音语义标签。

示例性实施例2

本示例性实施例中，语义模型的模型构架以及训练过程均如示例性实施例1，在此不再赘述。

本示例性实施例将本申请实施例中的基于Transform的语义识别模型与识别方法与现有技术中的基于SLU技术实现的语义识别进行对比。

现有技术中，SLU技术实现的语义识别通常用于实现简单的命令式语音，例如“打开音响”、“关闭音响”、“调高空调”等，该类语音具有标准的动作与对象，语义理解较为简单，因此，对于上类语音通过SLU技术即可实现较好的语义识别。

但是，语义识别的场景中存在相当数量的非命令式语音，且类似的语音内容可能存在完全不同的语义。例如，询问用户对某一产品的满意度，用户可能存在以下答复：

a，这个还行。(指示用户对该产品满意)；

b，这个…还行吧。(指示用户对该产品基本满意)；

c，就这个还算行？(指示用户对该产品不满意)。

经实测，基于SLU技术实现的语义识别技术，对上述非命令式语音进行语义识别的准确率为42.58％。

本示例性实施例中，对于同一批音频采用本申请实施例中的语义识别模型与识别方法进行识别，经实测，识别准确率为93.67％。由此可得，本申请实施例中对于非命令式语音以及语义模糊的语音仍可保持较高的识别效果。

根据本申请实施例的又一个方面，还提供了一种用于实施上述语义识别模型训练方法的电子装置，上述电子装置可以但不限于应用于服务器中。如图7所示，该电子装置包括存储器702和处理器704，该存储器702中存储有计算机程序，该处理器704被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

步骤S1，使用第一样本数据训练声学模块，其中，第一样本数据包括第一音频数据以及第一音频数据中的每一帧数据对应的音素与词；

步骤S2，将目标样本数据输入训练后的声学模块，得到目标样本数据对应的音素特征向量和词特征向量，其中，目标样本数据包括目标语义数据及目标语义数据对应的目标语义类别标签；

步骤S3，使用目标样本数据对应的音素特征向量和词特征向量训练语义模块和声学模块；其中，声学模块包括依次连接的特征过滤层、音素特征层以及词特征层，训练过程中特征过滤层的参数保持不变。

步骤S1，将语音数据输入语义识别模型；

步骤S2，通过语义识别模型输出语音数据对应的语义类别标签，其中，语义类别标签用于指示语音数据对应的语义类别。

可选地，本领域普通技术人员可以理解，图7所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图7中所示更多或者更少的组件(如网络接口等)，或者具有与图7所示不同的配置。

其中，存储器702可用于存储软件程序以及模块，如本申请实施例中的语义识别模型训练方法与其应用的神经网络模型的训练方法和装置对应的程序指令/模块，处理器704通过运行存储在存储器702内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的事件检测方法。存储器702可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器702可进一步包括相对于处理器704远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器702具体可以但不限于用于储存事件检测方法的程序步骤。此外，还可以包括但不限于上述语义识别模型训练方法中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置706用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置706包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置706为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器708，用于显示训练过程；和连接总线710，用于连接上述电子装置中的各个模块部件。

本申请的实施例还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

步骤S1，将语音数据输入语义识别模型；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种语义识别模型，其特征在于，包括：

声学模块，包括依次连接的特征过滤层、音素特征层以及词特征层；

语义模块，包括依此连接的全连接层、Transform层以及逻辑回归层；

所述声学模块配置为，提取音频数据中的音素特征向量和词特征向量；

所述语义模块配置为，根据所述音素特征向量和所述词特征向量输出所述音频数据对应的语义标签，所述语义标签用于指示所述音频数据对应的语义类别。

2.根据权利要求1所述的模型，其特征在于，

所述Transform层包括至少两个Transform基本编码层，其中，至少两个所述Transform基本编码层共享一个参数矩阵。

3.根据权利要求1所述的模型，其特征在于，所述Transform基本编码层包括：

4.一种语义识别模型的训练方法，其特征在于，用于训练如权利要求1至3任一项所述的语义识别模型，所述方法包括：

使用第一样本数据训练声学模块，其中，所述第一样本数据包括第一音频数据以及所述第一音频数据中的每一帧数据对应的音素与词；

将目标样本数据输入训练后的所述声学模块，得到所述目标样本数据对应的音素特征向量和词特征向量，其中，所述目标样本数据包括目标语义数据及所述目标语义数据对应的目标语义类别标签；

使用所述目标样本数据对应的音素特征向量和词特征向量训练语义模块和所述声学模块；其中，所述声学模块包括依次连接的特征过滤层、音素特征层以及词特征层，训练过程中所述特征过滤层的参数保持不变。

5.根据权利要求4所述的方法，其特征在于，所述使用第一样本数据训练声学模块，包括：

将所述第一样本数据进行矫正后输入初始声学模块；

通过音素损失函数和词损失函数训练所述音素特征层和所述词特征层的参数，得到训练后的所述声学模块。

6.根据权利要求4所述的方法，其特征在于，将目标样本数据输入训练后的所述声学模块之前，所述方法还包括：

获取第二样本数据，其中，所述第二样本数据包括预设语义数据以及所述预设语义数据对应的语义类别标签；

对所述第二样本数据进行增强处理，得到第三样本数据；

将所述第三样本数据转换为第二音频数据，并对所述第二音频数据进行加噪处理，得到所述目标样本数据。

7.根据权利要求5所述的方法，其特征在于，所述使用所述目标样本数据对应的音素特征向量和词特征向量训练语义模块和所述声学模块，包括：

使用所述目标样本数据对应的音素特征向量和词特征向量，以及语义损失函数，训练所述语义模块的参数；

使用所述目标样本数据对应的音素特征向量和词特征向量，以及所述音素损失函数和所述词损失函数训练所述音素特征层和所述词特征层的参数。

8.一种语义识别方法，其特征在于，所述方法应用于如权利要求1至3任一项所述的语义识别模型，所述方法包括：

将语音数据输入所述语义识别模型；

通过所述语义识别模型输出所述语音数据对应的语义类别标签，其中，所述语义类别标签用于指示所述语音数据对应的语义类别。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求4至8任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求4至8任一项中所述的方法。