CN112687296B

CN112687296B - 音频不流利的识别方法、装置、设备及可读存储介质

Info

Publication number: CN112687296B
Application number: CN202110258590.8A
Authority: CN
Inventors: 康昱; 李航; 丁文彪; 刘子韬
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-03-10
Filing date: 2021-03-10
Publication date: 2021-06-29
Anticipated expiration: 2041-03-10
Also published as: CN112687296A

Abstract

本发明提供一种音频不流利的识别方法、装置、设备及可读存储介质，识别方法包括：将音频片段输入预设的音频特征提取模型，得到音频片段的音频特征；将音频片段对应的文本输入预设的文本特征提取模型，得到文本特征；根据音频特征和文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果。本发明的识别方法有效的结合了音频片段中的文本信息与音频信息对不流利进行判断，提升了不流利识别准确率。

Description

音频不流利的识别方法、装置、设备及可读存储介质

技术领域

本发明涉及语音和文本识别技术领域，尤其涉及一种音频不流利的识别方法、装置、设备及可读存储介质。

背景技术

随着科技的发展，越来越多的人选择使用网上语音媒体流产品，例如在线课堂产品，其中，语音不流利的情况时有发生，因此语音质量的监测变得越来越重要。

不流利检测在语音自动转录领域已经发展多年，其主要目标是将说话人在说话过程中的不流利情况进行识别。通过不流利检测技术，可以将出现的不流利情况抓取出来。但是，目前的不流利检测方法主要是基于转录文本的识别方法，由于仅依靠文本只能覆盖一部分不流利情况，以及转录文本本身会带有一定的误差，这些因素都会对识别效果造成一定的影响。

发明内容

为了解决上述技术问题中的至少一个，本发明的一些方面提供了一种音频不流利的识别方法、装置、设备及可读存储介质，以提升音频不流利的识别准确率。

一方面，本发明实施例提供一种音频不流利的识别方法，包括：

将音频片段输入预设的音频特征提取模型，得到所述音频片段的音频特征；

将所述音频片段对应的文本输入预设的文本特征提取模型，得到文本特征；

根据所述音频特征和所述文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果。

另一方面，本发明实施例还提供一种音频不流利的识别装置，包括：

音频特征提取模块，用于根据音频片段得到所述音频片段的音频特征；

文本特征提取模块，用于根据所述音频片段对应的文本得到文本特征；

音频不流利判别模块，设有判别器，所述判别器用于根据所述音频特征和所述文本特征得到音频不流利的识别结果。

另一方面，本发明实施例还提供一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如上任一项所述的音频不流利的识别方法中的步骤。

又一方面，本发明实施例还提供一种电子设备，设备包括处理器和存储器，存储器中存储有适于处理器执行的计算机程序指令，计算机程序指令被处理器运行时执行如上任一项所述的音频不流利的识别方法中的步骤。

本发明实施例的音频不流利识别方法有效的结合了音频片段中的文本信息与音频信息对不流利进行判断，提升了不流利识别准确率。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1为本发明实施例音频不流利识别方法的第一种流程示意图；

图2为本发明实施例音频不流利识别方法的第二种流程示意图；

图3为本发明实施例音频不流利识别方法的第三种流程示意图；

图4为人声活动检测技术的示意图；

图5为本发明实施例音频特征提取模型的结构示意图；

图6为本发明实施例文本特征提取模型的结构示意图；

图7为本发明实施例音频不流利判别模型的结构示意图；

图8为本发明实施例音频不流利识别结果的处理示意图；

图9为本发明实施例音频不流利识别装置的结构示意图。

图10为本发明实施例电子设备的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。

本发明一些实施例提供的方法可以由相关的处理器执行，且下文均以处理器作为执行主体为例进行说明。其中，执行主体可以根据具体案例进行调整，如服务器、电子设备、计算机等。

传统的不流利检测方法仅依靠文本，无法非常准确的进行识别。对于不流利的发生，如犹豫、卡壳等现象，大部分能有效的体现在说话内容中进而反映在文本特征中。但有些情况下，文本信息并不能充分反映出不流利现象，这时候就需要音频特征来作为辅助。举个例子：当人们在说“这个”和“那个”这两个词的时候，有的时候是因为说话卡壳用来填补犹豫部分，而有的时候是正常用法，比如“这个题目…”，这时候就可以借助音频特征来进行判断，因为正常用法下说话方式是很连贯的。

犹豫的情况：大部分人在犹豫的时候，会下意识的说出“这个”、“那个”等填充词用来填补自己思考的过程，这是一种需要检测的不流利现象。但是有的时候，人们在正常讲话过程中说的内容也会包括这些词，比如“这个题目”，“那个练习”等。这时候如果光使用文本来进行不流利的判断，就会出现误判断。因此本发明提出使用文本和音频配合一起检测，当人们说出“这个”的时候，文本模型会注意到这个词，同时，音频模型也会注意到这个词所在的音频区间，去检测人们在说这个词的状态。通常来说，犹豫过程中说出的“这个”与正常语境下说出的“这个”在音频特征上会有较大区别，因此将音频与文本相结合，就能较为准确的判断出不流利现象。

卡壳的情况：人们在说话的时候有时会卡壳，如“再，再次说明一下…”，这也是一种需要检测的不流利现象。但是有时候，人们也会对一些内容进行强调，比如“我再次再次再次说明一下…”，这种强调的说话内容与卡壳的说话内容有时候是非常接近的，这时候如果只使用文本来进行不流利的判断，就会出现误判断。因此本发明提出将音频特征和文本特征进行有效的结合，共同用于判断不流利的发生。另外，简单的多模态融合方法也无法有效结合文本和音频分别提取到的不流利信息。

一方面，本发明实施例提供了一种音频不流利的识别方法，参见图1所示，识别方法包括：

S10、将音频片段输入预设的音频特征提取模型，得到音频片段的音频特征。

S20、将音频片段对应的文本输入预设的文本特征提取模型，得到文本特征。其中，音频片段对应的文本获取方式下文进行描述。

S30、根据音频特征和文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果。该步骤中，结合了音频特征和文本特征来进行判别，如果音频特征和文本特征中分别包含了多种不同类型的特征向量，则该步骤的范围包括了将音频特征中各种不同类型特征向量与文本特征中各种不同类型特征向量进行的各种不同组合，在下文的不同实施方式中进行具体说明。判别器可以采用一个参数共享的2层全连接神经网络，最终得到二分类预测结果y。

本发明实施例的上述识别方法，通过将音频片段中提取的音频特征和文本特征相结合对不流利进行判断，利用音频不流利判别模型的判别器得到音频不流利的识别结果。相比于现有技术中仅利用文本进行判别，明显提升了音频不流利的识别准确率。

在一些实施例中，S10、将音频片段输入预设的音频特征提取模型，得到音频片段的音频特征，包括：

S101、将音频片段输入大规模预训练音频神经网络PANNs，得到音频片段的第一音频特征。第一音频特征为用于表征音频片段内容信息的特征向量；第一音频特征包括表征整个音频片段内容信息的第一音频特征向量，和/或，表征各个时间步上的音频内容信息的第二音频特征向量。此处限定的第一音频特征是为了与后面的第一注意力地图特征进行区分，也就是说，第一音频特征和第一注意力地图特征属于音频特征范围下的两种不同类别。PANNS（Large-Scale Pretrained Audio Neural Networks）：用于音频模式识别的大规模预训练音频神经网络。该模型采用CNN（卷积神经网络）结构作为基础，并且在AudioSet数据集（谷歌发布的一种音频数据集）上事先进行过预训练。

在一些实施例中，S20、将音频片段对应的文本输入预设的文本特征提取模型得到文本特征，包括：

S201、将音频片段对应的文本输入预训练的双向编码器表征量BERT（Bidirectional Encoder Representation from Transformers）模型，得到第一文本特征，第一文本特征为用于表征文本内容信息的特征向量；第一文本特征包括表征文本句子内容的第一文本特征向量，和/或，表征文本句子中各个词的词信息的第二文本特征向量。此处限定的第一文本特征是为了与后面的第二注意力地图特征进行区分，也就是说，第一文本特征和第二注意力地图特征属于文本特征范围下的两种不同类别。BERT模型是基于Transformer的双向编码器表征，BERT模型的根基就是Transformer，来源于attention isall you need。其中双向的意思表示它在处理一个词的时候，能考虑到该词前面和后面单词的信息，从而获取上下文的语义。表征文本句子内容的第一文本特征向量为BERT模型输出中的CLS文本特征，CLS文本特征为包含整个文本的文本信息的特征向量，CLS(CommonLanguage Specification，公共语言规范)。BERT模型的输出中位于头部的是[CLS] token（公共语言规范标识），也就是CLS文本特征，是代表整句说话内容的特征向量；位于[CLS]token之后的是文本中每个词对应的特征向量，也就是表征文本句子中各个词的词信息的第二文本特征向量。

在一些实施例中，S30、根据音频特征和文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果包括：

S301、将音频特征和文本特征进行第一融合处理，得到第一融合特征向量，将第一融合特征向量输入音频不流利判别模型的判别器，得到音频不流利的识别结果。在该实施方式中，音频特征包括表征整个音频片段内容信息的第一音频特征向量，和/或，表征各个时间步上的音频内容信息的第二音频特征向量。文本特征包括表征文本句子内容的第一文本特征向量，和/或，表征文本句子中各个词的词信息的第二文本特征向量。将第一音频特征与第一文本特征进行融合包括了不同组合方式。具体的，可以将第一音频特征向量与第一文本特征向量融合，或者将第一音频特征向量与第二文本特征向量融合，或者将第一音频特征向量与第一文本特征向量和第二文本特征向量融合。同样的，第二文本特征向量的结合方式与上面类似。

通过将第一音频特征与第一文本特征进行融合，能够将音频特征和文本特征进行有效的结合，共同用于判断不流利的发生。通过同时利用文本与音频两种模态的信息，极大提升了不流利的识别准确率。

进一步的，将音频特征和文本特征进行第一融合处理，得到第一融合特征向量，包括：将第一音频特征与第一文本特征相乘，得到第一融合特征向量。

在一些实施例中，S10、将音频片段输入预设的音频特征提取模型，得到音频片段的音频特征，还包括：

S102、将第一音频特征输入多头自注意力Multi-head Self-Attention层，得到第一注意力地图特征，第一注意力地图特征包含了音频注意力分布信息，第一注意力地图特征用于表征各个时间步上的音频的重要程度。本发明实施例在大规模预训练音频神经网络PANNs的基础上增加了一层多头自注意力Multi-head Self-Attention层，可以得到包含有音频注意力分布信息的第一注意力地图特征。

在一些实施例中，S20、将音频片段对应的文本输入预设的文本特征提取模型，得到文本特征，还包括：

S202、将频片段对应的文本输入预设的文本特征提取模型得到第二注意力地图特征，其中，第二注意力地图特征包含了文本注意力分布信息，第二注意力地图特征用于表征各个词的重要程度。BERT模型中也使用了Multi-head Self-Attention层，通过Multi-headSelf-Attention层能产生代表各个词重要性的第二注意力地图特征。

在一些实施例中，S30、根据音频特征和文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果，包括：

S302、将第一注意力地图特征和第二注意力地图特征相乘，得到融合注意力地图特征。由于第一注意力地图特征和第二注意力地图特征各自包含了语音和文本中突出的位置。例如：文本的意力地图中对于某个词的位置进行了突出，而如果音频的意力地图中同样对该词所位于的声音区间进行了突出的话，那么这个地方就极有可能发生了不流利。该步骤将包含音频注意力分布信息的第一注意力地图特征与包含文本注意力分布信息的第二注意力地图特征相融合，增加了后续判别的准确性。

S303、将第一音频特征和第一文本特征相乘，得到第一融合特征向量。

即该实施例中，音频特征包括了第一音频特征和第一注意力地图特征；文本特征包括了第一文本特征和第二注意力地图特征。需要说明的是，第一注意力地图特征需要与表征各个时间步上的音频内容信息的第二音频特征向量同时利用。第二注意力地图特征需要与表征文本句子中各个词的词信息的第二文本特征向量同时利用。

因此，该实施例中第一音频特征至少包括表征各个时间步上的音频内容信息的第二音频特征向量。第一文本特征至少包括表征文本句子中各个词的词信息的第二文本特征向量。

S304、将融合注意力地图特征和第一融合特征向量相乘并相加，得到综合融合特征向量。

S305、将综合融合特征向量输入音频不流利判别模型的判别器，得到音频不流利的识别结果。

进一步的，S302、将第一注意力地图特征和第二注意力地图特征相乘，得到融合注意力地图特征，包括：

将第一注意力地图特征和第二注意力地图特征相乘，得到第二融合特征向量；

将第二融合特征向量进行归一化处理，得到融合注意力地图特征。例如，将两个注意力地图特征相乘再经过Softmax（归一化函数）归一化之后，就能进一步将一个语音片段中不流利的部分突出出来，得到一个更加准确的每个时间步的重要性。

需要说明的是，音频特征可以包括第一音频特征向量、第二音频特征向量和第一注意力地图特征之中的至少一种，文本特征可以包括第一文本特征向量、第二文本特征向量和第二注意力地图特征之中的至少一种。将音频特征与文本特征进行融合包括了将上面各种不同向量特征进行组合的多种不同情况。以上分别给出了①音频特征包括第一音频特征向量、第二音频特征向量，文本特征包括第一文本特征向量、第二文本特征向量的组合情况；②音频特征包括第二音频特征向量、第一注意力地图特征，文本特征包括第二文本特征向量、第二注意力地图特征的组合情况。以及③音频特征包括第一音频特征向量、第二音频特征向量、第一注意力地图特征，文本特征包括第一文本特征向量、第二文本特征向量、第二注意力地图特征的组合情况。可选的，还可以是其他的组合情况，例如音频特征包括第一音频特征向量，文本特征包括第二文本特征向量、第二注意力地图特征的组合情况等。在此不再一一进行列举。

在一些实施例中，音频片段对应的文本可以通过以下步骤实现：

将音频片段输入语音识别模型，得到音频片段对应的文本。语音识别模型可以采用ASR（Automatic Speech Recognition，自动语音识别）模型，从而得到每段录音中说话内容的文本。

在一些实施例中，音频不流利判别模型通过以下方法训练获得：

获取样本音频片段，并输入音频特征提取模型，得到样本音频片段的样本音频特征。

获取样本音频片段对应的样本文本，并输入文本特征提取模型，得到样本文本特征。

以上过程与前面描述的音频特征获取过程及文本特征获取过程类似，不再赘述。

根据样本音频特征、样本文本特征，以及样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型，其中，标签信息用于表征样本音频片段的流利信息。该步骤的过程具体包括：

将样本音频特征、样本文本特征输入将要进行训练的音频不流利判别模型，得到音频不流利的预测结果；

根据预测结果、样本音频片段对应的标签信息和相应的损失函数，得到预测结果相对于标签信息（作为真实值）的损失；

根据获得的损失来调整音频不流利判别模型的参数，使得平均损失达到最小值，完成训练得到音频不流利判别模型。

进一步的，样本音频特征包括：表征整个样本音频片段内容信息的第一样本音频特征向量、表征各个时间步上的样本音频内容信息的第二样本音频特征向量、表征各个时间步上的音频的重要程度的第一样本注意力地图特征中的至少一种。例如，样本音频特征可以包括第一样本音频特征向量或第二样本音频特征向量，或者包括第一样本音频特征向量和第二样本音频特征向量，或者包括第二样本音频特征向量和第一样本注意力地图特征，或者包括第一样本音频特征向量、第二样本音频特征向量和第一样本注意力地图特征。

样本文本特征包括：表征文本句子内容的第一样本文本特征向量、表征文本句子中各个词的词信息的第二样本文本特征向量、表征各个词的重要程度的第二样本注意力地图特征中的至少一种。例如，样本文本特征可以包括第一样本文本特征向量或第二样本文本特征向量，或者包括第一样本文本特征向量和第二样本文本特征向量，或者包括第二样本文本特征向量和第二样本注意力地图特征，或者包括第一样本文本特征向量、第二样本文本特征向量和第二样本注意力地图特征。

在上一步骤中根据样本音频特征、样本文本特征得到音频不流利的预测结果的过程中，包括了样本音频特征的各种不同特征向量与样本文本特征的各种不同特征向量的各种不同组合方式。例如，可以将第一样本音频特征向量或第二样本音频特征向量与第一样本文本特征向量或第二样本文本特征向量相结合；或者将第二样本音频特征向量和第一样本注意力地图特征与第二样本文本特征向量和第二样本注意力地图特征相结合；或者将第一样本音频特征向量、第二样本音频特征向量和第一样本注意力地图特征与第一样本文本特征向量、第二样本文本特征向量和第二样本注意力地图特征相结合。其他结合方式不再一一列出。

进一步的，根据样本音频特征、样本文本特征，以及样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型包括以下几种不同情况：

将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；根据样本音频文本融合特征向量、样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型。

或者，将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；将第一样本注意力地图特征和第二样本注意力地图特征融合，得到融合样本注意力地图特征；根据样本音频文本融合特征向量、融合样本注意力地图特征、样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型。

或者，将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；将第一样本注意力地图特征和第二样本注意力地图特征融合，得到融合样本注意力地图特征；基于样本音频文本融合特征向量和融合样本注意力地图特征获得第一预测结果；基于第一样本音频特征向量获得第二预测结果；基于第一样本文本特征向量获得第三预测结果；根据第一预测结果、第二预测结果、第三预测结果，以及样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型。在该情况下分别得到三个预测结果，在基于融合特征得到第一预测结果的同时，还会基于单独整个音频片段的特征向量得到第二预测结果，以及基于单独整个文本句子的特征向量得到第三预测结果，后面两个产生的损失会帮助融合特征在训练时的学习。

在一些实施例中，参见图2所示，一种音频不流利的识别方法，包括：

将音频片段输入预设的音频特征提取模型，得到音频片段的第二音频特征向量和第一Attention Map特征（第一注意力地图特征）。

将音频片段对应的文本输入预设的文本特征提取模型，得到第二文本特征向量和第二Attention Map特征（第二注意力地图特征）。

将第一Attention Map特征和第二Attention Map特征相乘，得到融合注意力地图特征。通过将第一Attention Map特征和第二Attention Map特征相乘进行融合，能够将音频特征和文本特征进行有效的结合，共同用于判断不流利的发生。通过同时利用文本与音频两种模态的信息，极大提升了不流利的识别准确率。

将第二音频特征向量和第二文本特征向量相乘，得到第一融合特征向量。上步得到的融合注意力地图特征整合了文本和语音两部分信息的每个时间步的重要性，需要利用这个重要性信息将每个时间步的特征向量融合到一起，因此将输出的音频和文本在每个时间步上的特征向量进行相乘，以此汇总两个不同模态的信息。

将融合注意力地图特征和第一融合特征向量相乘并相加，得到综合融合特征向量。通过该步骤达到对每个时间步根据重要性进行加权求和的效果，来突出重要时间步的特征。通过多模态融合的方法，有效的突出了文本与音频信息中同时起重要作用的部分，增加了多模态信息融合的效率，提升识别准确率。

将综合融合特征向量输入音频不流利判别模型的判别器，得到音频不流利的识别结果。判别器可以采用一个参数共享的2层全连接神经网络，最终得到二分类预测结果y。

下面以一个优选的应用实例来说明本发明实施例的音频不流利的识别方法，参见图3所示的音频不流利识别方法的第二流程示意图。

1、首先，将整个录音/录像进行VAD(Voice Activity Detection，语音活动检测)切割。即通过语音活动检测技术，将整节课录音/录像中人们的说话时间自动标记出来，并根据标记的结果将整段录音/录像切分成为一句一句的小段语音。只对有声片段进行处理，对噪声或无声片段不做处理。参见图4所示的人声活动检测技术的示意图。

2、对有声片段进行音频流利度特征提取。使用大规模预训练音频神经网络PANNs对切分出来的小段录音进行特征提取，该模型采用CNN网络结构作为基础，并且在AudioSet数据集上事先进行过预训练。音频信号通过该网络后成为了一系列能代表该音频所包含信息的特征向量。并且，在PANNs基础上，额外添加了一层Multi-head Self-Attention层，将各个时间步上的特征向量根据各自的重要性整合为一个统一的特征向量。最终该模块的输出包含了三部分：输出1、Multi-head Self-Attention层输出的包含整个片段音频信息的特征向量（第一音频特征向量）；输出2、所有时间步上的音频特征向量（第二音频特征向量）；以及输出3、Multi-head Self-Attention层产生的各个时间步重要程度的AttentionMap特征（第一注意力地图特征）。参见图5所示的音频特征提取模型的结构示意图。

3、对有声片段进行文本流利度特征提取。将通过VAD切分后得到小段录送入语音识别模型(ASR)，从而得到每段录音中说话内容的文本。并使用预训练的BERT模型将每段录音中的说话内容提取为能代表说话文本内容的特征向量。最后从Bert模型中同样获取了三部分的输出：输出1、BERT输出中位于头部的[CLS] token所代表整句说话内容的特征向量（第一文本特征向量）；输出2、位于[CLS] token之后的文本中每个词对应的特征向量（第二文本特征向量）；以及输出3、BERT中所使用的Multi-head Self-Attention层的最后一层产生的代表各个词的重要性的Attention Map特征（第二注意力地图特征）。参见图6所示的文本特征提取模型的结构示意图。

4、利用不流利判别模型进行识别。不流利判别模型的输入为上述过程2和3中所提取的所有有声片段的文本与音频特征，不流利判别模型的输出为对所有有声片段判断是否发生不流利的二分类结果[有不流利或无不流利]。不流利判别模型为神经网络模型，主要由3部分构成：Attention Over Attention模块、音频与文本信息融合模块；标签判别器（分类器），参见图7所示的音频不流利判别模型的结构示意图，具体过程如下：

a、将过程2和3中输出的注意力地图（Attention map）特征进行相乘，由于他们各自包含了语音和文本中突出的位置。例如：文本的Attention Map特征中对于某个词的位置进行了突出，如果音频的Attention Map特征中同样对该词所位于的声音区间进行了突出的话，那么这个地方就极有可能发生了不流利。

进一步，将两个Attention Map特征相乘的结果再经过Softmax函数归一化之后，就能进一步将一个片段中不流利的部分突出出来，得到一个更加准确的每个时间步的重要性。

b、音频与文本信息融合。在得到了过程a中输出的新的Attention Map特征（第一融合特征）之后，已经得到整合了文本和语音两部分信息的每个时间步的重要性，因此，需要利用这个重要性信息将每个时间步的特征向量融合到一起。类似于过程a中的操作，将过程2和3中输出的音频特征和文本特征在每个时间步上的特征向量进行相乘，以此汇总两个不同模态的信息。

进一步，再将汇总得到的各个时间步的多模态特征向量（第二融合特征）与过程a中得到的各个时间步的新的Attention Map特征进行相乘并在各个时间步上相加，以此达到对于每个时间步根据重要性进行加权求和的效果，来突出重要时间步的特征。

c、利用不流利判别器进行识别。所有有声片段通过上述处理过程后将得到一个n维的特征向量，例如256维的特征向量。将这些向量通过一个参数共享的2层全连接神经网络，得到最终的二分类预测结果y。

d、辅助损失函数。由于上述不流利判别模型的效果高度依赖于过程2和3中输出的Attention Map特征能否准确的反映出文本和音频在各个时间步上的重要性。因此，为了帮助神经网络能更好的学习到这部分的信息，额外添加了两个损失函数。即，过程2和3中还分别输出了一个n维的特征向量，也就是过程2中的输出1和过程3中的输出1，这两个特征向量分别只包含了文本与音频的特征，将这两个特征向量分别经过一个全连接神经网络，也同时预测结果，得到另外两个音频不流利的识别结果，分别用于训练音频特征提取模型和文本特征提取模型，这部分产生的损失会帮助过程2和3的模块更容易的学习到各自的重要性。

5、识别结果的进一步处理。不流利判别模型输出的结果为针对每段有声片段的预测结果，通过使用预先标记的语音序号及记录的每段语音在原始课堂音频上对应的开始时间，可以将识别为不流利的有声片段进行高亮展示，处理结果如图8所示。

另一方面，本发明实施例提供了一种音频不流利的识别装置，参见图9所示，识别装置包括：

音频特征提取模块，用于根据音频片段得到音频片段的音频特征。

文本特征提取模块，用于根据音频片段对应的文本得到文本特征。

音频不流利判别模块，设有判别器，判别器用于根据第三融合特征得到音频不流利的识别结果。

在一些实施例中，音频特征提取模块包括：

大规模预训练音频神经网络PANNs，用于根据音频片段得到音频片段的第一音频特征，第一音频特征为用于表征音频片段内容信息的特征向量；第一音频特征包括表征整个音频片段内容信息的第一音频特征向量，和/或，表征各个时间步上的音频内容信息的第二音频特征向量。

在一些实施例中，文本特征提取模块包括：

双向编码器表征量BERT模块，用于根据音频片段对应的文本得到第一文本特征，第一文本特征为用于表征文本内容信息的特征向量；第一文本特征包括表征文本句子内容的第一文本特征向量，和/或，表征文本句子中各个词的词信息的第二文本特征向量。

在一些实施例中，音频不流利判别模块包括：

第一融合处理模块，用于将音频特征和文本特征进行第一融合处理，得到第一融合特征向量；

判别器，用于根据第一融合特征向量得到音频不流利的识别结果。

在一些实施例中，第一融合处理模块用于将第一音频特征与第一文本特征相乘，得到第一融合特征向量。

在一些实施例中，音频特征提取模块还包括：

多头自注意力Multi-head Self-Attention层，用于根据第一音频特征得到第一注意力地图特征，第一注意力地图特征用于表征各个时间步上的音频的重要程度。

在一些实施例中，文本特征提取模块还包括：

第二注意力地图特征获取模块，用于根据音频片段对应的文本得到第二注意力地图特征，其中，第二注意力地图特征用于表征各个词的重要程度。

在一些实施例中，音频不流利判别模块包括：

融合注意力地图特征获取模块，用于将第一注意力地图特征和第二注意力地图特征相乘，得到融合注意力地图特征；

第一融合特征向量获取模块，用于将第一音频特征和第一文本特征相乘，得到第一融合特征向量；

综合融合特征向量获取模块，用于将融合注意力地图特征和第一融合特征向量相乘并相加，得到综合融合特征向量；

判别器，用于根据综合融合特征向量得到音频不流利的识别结果；

其中，融合注意力地图特征获取模块包括：

第二融合特征向量获取模块，用于将第一注意力地图特征和第二注意力地图特征相乘，得到第二融合特征向量；

归一化处理模块，用于将第二融合特征向量进行归一化处理，得到融合注意力地图特征。

在一些实施例中，识别装置还包括：

样本音频特征获取模块，用于获取样本音频片段，并输入音频特征提取模型，得到样本音频片段的样本音频特征；

样本文本特征获取模块，用于获取样本音频片段对应的样本文本，并输入文本特征提取模型，得到样本文本特征；

训练模块，用于根据样本音频特征、样本文本特征，以及样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型，其中，标签信息用于表征样本音频片段的流利信息。

其中的样本音频特征包括：表征整个样本音频片段内容信息的第一样本音频特征向量、表征各个时间步上的样本音频内容信息的第二样本音频特征向量、表征各个时间步上的音频的重要程度的第一样本注意力地图特征中的至少一种；

样本文本特征包括：表征文本句子内容的第一样本文本特征向量、表征文本句子中各个词的词信息的第二样本文本特征向量、表征各个词的重要程度的第二样本注意力地图特征中的至少一种。

具体的，训练模块将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；根据样本音频文本融合特征向量、样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型；或，

将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；将第一样本注意力地图特征和第二样本注意力地图特征融合，得到融合样本注意力地图特征；根据样本音频文本融合特征向量、融合样本注意力地图特征、样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型；或，

将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；将第一样本注意力地图特征和第二样本注意力地图特征融合，得到融合样本注意力地图特征；基于样本音频文本融合特征向量和融合样本注意力地图特征获得第一预测结果；基于第一样本音频特征向量获得第二预测结果；基于第一样本文本特征向量获得第三预测结果；根据第一预测结果、第二预测结果、第三预测结果，以及样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到音频不流利判别模型。

另一方面，本发明实施例还提供了一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行前述任一项所述的音频不流利的识别方法中的步骤。

另一方面，本发明实施例还提供了一种电子设备，如图10所示，设备包括通信接口1000、存储器2000和处理器3000。通信接口1000用于与外界设备进行通信，进行数据交互传输。存储器2000内存储有可在处理器3000上运行的计算机程序。所述存储器2000和处理器3000的数量可以为一个或多个。

如果通信接口1000、存储器2000及处理器3000独立实现，则通信接口1000、存储器2000及处理器3000可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，该图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口1000、存储器2000、及处理器3000集成在一块芯片上，则通信接口1000、存储器2000、及处理器3000可以通过内部接口完成相互间的通信。

处理器用于支持获取装置执行上述任一实施例所述音频不流利识别方法中的一个或多个步骤。处理器可以是中央处理单元（Central Processing Unit，简称CPU），还可以是其他通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行上述任一实施例所述音频不流利的识别方法中的一个或多个步骤。

存储器可以是只读存储器（Read-Only Memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（Random Access Memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（ElectricallyErasable Programmable Read-Only Memory，EEPROM）、只读光盘（Compact Disc Read-Only Memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过通信总线与处理器相连接。存储器也可以和处理器集成在一起。

在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。同时，在本发明的描述中，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电性连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种音频不流利的识别方法，其特征在于，包括：

根据所述音频特征和所述文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果；

所述根据所述音频特征和所述文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果包括：

将所述音频特征和所述文本特征进行第一融合处理，得到第一融合特征向量，将所述第一融合特征向量输入音频不流利判别模型的判别器，得到音频不流利的识别结果。

2.根据权利要求1所述的音频不流利的识别方法，其特征在于，所述将音频片段输入预设的音频特征提取模型，得到所述音频片段的音频特征，包括：

将所述音频片段输入大规模预训练音频神经网络PANNs，得到所述音频片段的第一音频特征，所述第一音频特征为用于表征音频片段内容信息的特征向量；所述第一音频特征包括表征整个音频片段内容信息的第一音频特征向量，和/或，表征各个时间步上的音频内容信息的第二音频特征向量。

3.根据权利要求2所述的音频不流利的识别方法，其特征在于，所述将所述音频片段对应的文本输入预设的文本特征提取模型，得到文本特征，包括：

将所述音频片段对应的文本输入预训练的双向编码器表征量BERT模型，得到第一文本特征，所述第一文本特征为用于表征文本内容信息的特征向量；所述第一文本特征包括表征文本句子内容的第一文本特征向量，和/或，表征文本句子中各个词的词信息的第二文本特征向量。

4.根据权利要求3所述的音频不流利的识别方法，其特征在于，所述将所述音频特征和所述文本特征进行第一融合处理，得到第一融合特征向量，包括：

将所述第一音频特征与所述第一文本特征相乘，得到所述第一融合特征向量。

5.根据权利要求4所述的音频不流利的识别方法，其特征在于，所述将音频片段输入预设的音频特征提取模型，得到所述音频片段的音频特征，还包括：

将所述第一音频特征输入多头自注意力Multi-head Self-Attention层，得到第一注意力地图特征，所述第一注意力地图特征用于表征各个时间步上的音频的重要程度。

6.根据权利要求5所述的音频不流利的识别方法，其特征在于，所述将所述音频片段对应的文本输入预设的文本特征提取模型，得到文本特征，还包括：

将所述音频片段对应的文本输入预设的文本特征提取模型得到第二注意力地图特征，其中，所述第二注意力地图特征用于表征各个词的重要程度。

7.根据权利要求6所述的音频不流利的识别方法，其特征在于，所述根据所述音频特征和所述文本特征，利用音频不流利判别模型的判别器，得到音频不流利的识别结果，包括：

将所述第一注意力地图特征和所述第二注意力地图特征相乘，得到融合注意力地图特征；

将所述第一音频特征和所述第一文本特征相乘，得到第一融合特征向量；

将所述融合注意力地图特征和所述第一融合特征向量相乘并相加，得到综合融合特征向量；

将所述综合融合特征向量输入音频不流利判别模型的判别器，得到音频不流利的识别结果。

8.根据权利要求7所述的音频不流利的识别方法，其特征在于，所述将所述第一注意力地图特征和所述第二注意力地图特征相乘，得到融合注意力地图特征，包括：

将所述第一注意力地图特征和所述第二注意力地图特征相乘，得到第二融合特征向量；

将所述第二融合特征向量进行归一化处理，得到所述融合注意力地图特征。

9.根据权利要求1所述的音频不流利的识别方法，其特征在于，所述方法还包括：

将所述音频片段输入语音识别模型，得到音频片段对应的文本。

10.根据权利要求1所述的音频不流利的识别方法，其特征在于，所述音频不流利判别模型通过以下方法训练获得：

获取样本音频片段，并输入所述音频特征提取模型，得到样本音频片段的样本音频特征；

获取样本音频片段对应的样本文本，并输入所述文本特征提取模型，得到样本文本特征；

根据样本音频特征、样本文本特征，以及所述样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到所述音频不流利判别模型，其中，所述标签信息用于表征样本音频片段的流利信息。

11.根据权利要求10所述的音频不流利的识别方法，其特征在于，

所述样本音频特征包括：表征整个样本音频片段内容信息的第一样本音频特征向量、表征各个时间步上的样本音频内容信息的第二样本音频特征向量、表征各个时间步上的音频的重要程度的第一样本注意力地图特征中的至少一种；

所述样本文本特征包括：表征文本句子内容的第一样本文本特征向量、表征文本句子中各个词的词信息的第二样本文本特征向量、表征各个词的重要程度的第二样本注意力地图特征中的至少一种。

12.根据权利要求11所述的音频不流利的识别方法，其特征在于，所述根据样本音频特征、样本文本特征，以及所述样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到所述音频不流利判别模型包括：

将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；根据样本音频文本融合特征向量、样本音频片段对应的标签信息，对所述初始音频不流利判别模型进行训练，得到所述音频不流利判别模型；或，

将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；将第一样本注意力地图特征和第二样本注意力地图特征融合，得到融合样本注意力地图特征；根据样本音频文本融合特征向量、融合样本注意力地图特征、样本音频片段对应的标签信息，对所述初始音频不流利判别模型进行训练，得到所述音频不流利判别模型；或，

将样本音频特征中的第一样本音频特征向量和/或第二样本音频特征向量，融合样本文本特征中的第一样本文本特征向量和/或第二样本文本特征向量，得到样本音频文本融合特征向量；将第一样本注意力地图特征和第二样本注意力地图特征融合，得到融合样本注意力地图特征；基于所述样本音频文本融合特征向量和所述融合样本注意力地图特征获得第一预测结果；基于第一样本音频特征向量获得第二预测结果；基于第一样本文本特征向量获得第三预测结果；根据所述第一预测结果、第二预测结果、第三预测结果，以及样本音频片段对应的标签信息，对所述初始音频不流利判别模型进行训练，得到所述音频不流利判别模型。

13.一种音频不流利的识别装置，其特征在于，包括：

音频不流利判别模块，设有判别器，所述判别器用于根据所述音频特征和所述文本特征得到音频不流利的识别结果；

其中，所述音频不流利判别模块包括：第一融合处理模块，用于将所述音频特征和所述文本特征进行第一融合处理，得到第一融合特征向量；

所述判别器，用于根据所述音频特征和所述文本特征得到音频不流利的识别结果时，具体用于：根据所述第一融合特征向量得到音频不流利的识别结果。

14.根据权利要求13所述的音频不流利的识别装置，其特征在于，所述音频特征提取模块包括：

大规模预训练音频神经网络PANNs，用于根据音频片段得到所述音频片段的第一音频特征，所述第一音频特征为用于表征音频片段内容信息的特征向量；所述第一音频特征包括表征整个音频片段内容信息的第一音频特征向量，和/或，表征各个时间步上的音频内容信息的第二音频特征向量。

15.根据权利要求14所述的音频不流利的识别装置，其特征在于，所述文本特征提取模块包括：

预训练的双向编码器表征量BERT模块，用于根据所述音频片段对应的文本得到第一文本特征，所述第一文本特征为用于表征文本内容信息的特征向量；所述第一文本特征包括表征文本句子内容的第一文本特征向量，和/或，表征文本句子中各个词的词信息的第二文本特征向量。

16.根据权利要求15所述的音频不流利的识别装置，其特征在于，所述第一融合处理模块用于将所述第一音频特征与所述第一文本特征相乘，得到所述第一融合特征向量。

17.根据权利要求15所述的音频不流利的识别装置，其特征在于，所述音频特征提取模块还包括：

多头自注意力Multi-head Self-Attention层，用于根据所述第一音频特征得到第一注意力地图特征，所述第一注意力地图特征用于表征各个时间步上的音频的重要程度。

18.根据权利要求17所述的音频不流利的识别装置，其特征在于，所述文本特征提取模块还包括：

第二注意力地图特征获取模块，用于根据所述音频片段对应的文本得到第二注意力地图特征，其中，所述第二注意力地图特征用于表征各个词的重要程度。

19.根据权利要求18所述的音频不流利的识别装置，其特征在于，所述音频不流利判别模块包括：

融合注意力地图特征获取模块，用于将所述第一注意力地图特征和所述第二注意力地图特征相乘，得到融合注意力地图特征；

第一融合特征向量获取模块，用于将所述第一音频特征和所述第一文本特征相乘，得到第一融合特征向量；

综合融合特征向量获取模块，用于将所述融合注意力地图特征和所述第一融合特征向量相乘并相加，得到综合融合特征向量；

判别器，用于根据所述综合融合特征向量得到音频不流利的识别结果；

其中，所述融合注意力地图特征获取模块包括：

第二融合特征向量获取模块，用于将所述第一注意力地图特征和所述第二注意力地图特征相乘，得到第二融合特征向量；

归一化处理模块，用于将所述第二融合特征向量进行归一化处理，得到所述融合注意力地图特征。

20.根据权利要求13所述的音频不流利的识别装置，其特征在于，所述识别装置还包括：

训练模块，用于根据样本音频特征、样本文本特征，以及所述样本音频片段对应的标签信息，对初始音频不流利判别模型进行训练，得到所述音频不流利判别模型，其中，所述标签信息用于表征样本音频片段的流利信息。

21.一种可读存储介质，其特征在于，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如权利要求1-12任一项所述的音频不流利的识别方法中的步骤。

22.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有适于所述处理器执行的计算机程序指令，所述计算机程序指令被所述处理器运行时执行如权利要求1-12任一项所述的音频不流利的识别方法中的步骤。