CN113674732B

CN113674732B - 语音置信度检测方法、装置、电子设备和存储介质

Info

Publication number: CN113674732B
Application number: CN202110935372.3A
Authority: CN
Inventors: 刘兵; 王佳伟; 臧启光; 吴震; 付晓寅
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2022-05-17
Anticipated expiration: 2041-08-16
Also published as: CN113674732A

Abstract

本公开提供了语音置信度检测方法、装置、电子设备和存储介质，涉及人工智能领域，尤其涉及深度学习技术、语音技术和智能交通等。具体实现方案为：获取交互语音的语音特征和识别结果；将所述语音特征和所述识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，其中，所述融合置信度模型用于检测所述识别结果的音节置信度和所述交互语音的整句置信度。本公开实施例可以减少语音置信度检测的模型体积，兼顾语音置信度检测准确率。

Description

语音置信度检测方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能领域，尤其涉及深度学习技术、语音技术和智能交通等，具体涉及一种语音置信度检测方法、装置、电子设备和存储介质。

背景技术

语音交互技术是人与机器用语音进行交互的一种技术，实现了类似自然对话的语音交互体验。

在语音交互过程中获取置信度，并根据置信度选择语音交互的语句，可以提高语音交互的准确性。

发明内容

本公开提供了一种语音置信度检测方法、装置、电子设备和存储介质。

根据本公开的一方面，提供了一种语音置信度检测方法，包括：

获取交互语音的语音特征和识别结果；

将所述语音特征和所述识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，其中，所述融合置信度模型用于检测所述识别结果的音节置信度和所述交互语音的整句置信度。

根据本公开的另一方面，提供了一种语音置信度检测装置，包括：

语音特征和结果获取模块，用于获取交互语音的语音特征和识别结果；

置信度确定模块，用于将所述语音特征和所述识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，其中，所述融合置信度模型用于检测所述识别结果的音节置信度和所述交互语音的整句置信度。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的语音置信度检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任一实施例所述的语音置信度检测方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任一实施例所述的语音置信度检测方法。

本公开实施例可以减少语音置信度检测的模型体积，兼顾语音置信度检测准确率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的一种语音置信度检测方法的示意图；

图2是根据本公开实施例的一种语音置信度检测方法的示意图；

图3是根据本公开实施例的一种第一初始置信度模型的示意图；

图4是根据本公开实施例的一种第二初始置信度模型的示意图；

图5是根据本公开实施例的一种现有初始置信度模型的示意图；

图6是根据本公开实施例的一种融合置信度模型的示意图；

图7是根据本公开实施例的一种语音置信度检测方法的示意图；

图8是根据本公开实施例的一种fbank特征的示意图；

图9是根据本公开实施例的一种smlta特征的示意图；

图10是根据本公开实施例的一种语音置信度检测方法的示意图；

图11是根据本公开实施例的一种语音置信度检测装置的示意图；

图12是用来实现本公开实施例的语音置信度检测方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例公开的一种语音置信度检测方法的流程图，本实施例可以适用于对语音交互过程中结果进行置信度检测的情况。本实施例方法可以由语音置信度检测装置来执行，该装置可采用软件和/或硬件的方式实现，并具体配置于具有一定数据运算能力的电子设备中，该电子设备可以是客户端设备，客户端设备例如手机、平板电脑、车载终端和台式电脑等，具体是车载终端。

S101，获取交互语音的语音特征和识别结果。

交互语音为在用户与客户端设备在语音交互场景下，对用户发出的语音进行采集得到的用户语音。语音交互场景是用户与客户端设备通过语音进行交互，以指示客户端设备执行相应操作。其中，识别结果为交互语音的文本。可以通过语音识别模型对交互语音进行文本识别，得到交互语音的语音特征和识别结果。交互语音的语音特征为语音识别模型对交互语音进行文本识别，得到的中间结果，具体是语音识别模型对交互语音进行特征提取，得到的特征，可以以向量形式表示。实际上，语音特征为语音识别模型在语音识别过程中的中间结果；识别结果为语音识别模型在语音识别过程中的最终结果。

S102，将所述语音特征和所述识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，其中，所述融合置信度模型用于检测所述识别结果的音节置信度和所述交互语音的整句置信度。

融合置信度模型用于实现音节置信度检测和整句置信度检测。其中，音节置信度是指识别结果的文本和交互语音一致的程度，用于检测识别结果中每个字是否与交互语音相应次序的字是否一致(或相同)，同时识别结果中各字的次序是否与交互语音中对应的字的次序一致。在语音交互过程中，音节置信度用于实现槽位级的澄清反问，例如，你是想听刘德华的什么歌曲。

整句置信度是指交互语音是否为需要进行交互的语音的程度，用于检测交互语音是否需要进行响应，即是否需要生成交互语音的回复语音，例如，用户说“我听说某个同事生病了，这是不是真的？”该语音实际是与其他用户进行交谈，无需语音交互系统进行交互。在语音交互过程中，整句置信度用于拒掉无效语音，以及基于整句置信度分数进行正句级澄清反问，例如，你要听谁的歌曲。无效语音及非交互语音，即不需要客户端设别进行回复的语音。

融合置信度模型实际上将音节置信度和整句置信度检测融合到一起，实现减小分别检测音节置信度和整句置信度的两个独立模型的占用体积，减少存储资源的消耗。

现有技术中，车载语音交互系统中置信度模型运行在云端，但因为车载语音交互系统的独特性，与其他语音交互系统(如音箱上)不同的是，车是经常处于移动状态中，如果车行驶在信号较差(如山区等)地方，车载语音交互系统极大可能因为断网无法正常工作，为了解决车载语音交互系统可离线运行的需求，需要置信度模型运行在车载终端的芯片上，而车载芯片的算力和内存资源都是有限的。

根据本公开的技术方案，通过获取交互语音的语音特征和识别结果，并输入至融合置信度模型，实现并行检测得到音节置信度和整句置信度，可以解决分别检测两个置信度而使用两个置信度模型而导致占用内存过大的问题，可以减少置信度检测的模型体积，减少内存占用，提高存储资源利用率，同时基于交互语音的语音特征和识别结果进行置信度检测，可以提高置信度检测准确率，以及基于语音特征的中间结果对置信度进行检测，可以解决基于交互语音的原始数据进行置信度检测导致模型体积大，结构复杂的问题，更加减少置信度检测的模型体积，和内存占用。

图2是根据本公开实施例公开的另一种语音置信度检测方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。所述将所述语音特征和识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，具体化为：通过所述融合置信度模型中编码层对所述语音特征和所述识别结果分别进行编码；通过所述融合置信度模型中第一融合分类层对编码结果进行处理，得到音节置信度；通过所述融合置信度模型中第二融合分类层对编码结果进行处理，得到整句置信度。

S201，获取交互语音的语音特征和识别结果。

S202，通过融合置信度模型中编码层对所述语音特征和所述识别结果分别进行编码。

编码层用于对语音特征和识别结果进行编码，其中编码层可以包括两个编码器，一个编码器对语音特征进行编码，得到第一编码结果；另一个编码器对识别结果进行编码，得到第二编码结果。第一编码结果和第二编码结果作为编码结果，复制并分别通过两个不同融合分类层进行置信度检测。

S203，通过所述融合置信度模型中第一融合分类层对编码结果进行处理，得到音节置信度。

编码结果包括对语音特征编码得到的第一编码结果和对识别结果编码得到的第二编码结果。融合分类层用于对编码结果进行融合，并分类，得到置信度。融合分类层包括融合层和分类层，融合层用于对编码结果进行融合，得到融合结果，分类层对融合结果进行分类，得到置信度。第一融合分类层用于对编码结果进行融合，并分类，得到音节置信度。

S204，通过所述融合置信度模型中第二融合分类层对编码结果进行处理，得到整句置信度。

第二融合分类层用于对编码结果进行融合，并分类，得到整句置信度。其中，第一融合分类层和第二融合分类层以不同的训练目标进行训练，从而实现检测不同置信度。

实际上，编码层和第一融合分类层，构成音节置信度的检测模型；编码层和第二融合分类层，构成整句置信度的检测模型。两个检测模型共用一个编码层，即共享编码层的参数，从而减少两个检测模型的体积，节省置信度检测模型占用的存储资源。除了共享编码层之外，还可以通过模型量化和模型蒸馏等技术减小融合置信度模型的体积。

在一个具体的例子中，采用音节样本训练第一融合分类层，以及采用整句样本训练第二融合分类层。其中，音节样本包括语音，以及对应的文本，其中，文本中每个字标注有置信度。整句样本包括文本以及文本对应的置信度。

可选的，语音置信度检测方法，还包括：采用音节样本对第一初始置信度模型进行训练，得到音节置信度模型；获取所述音节置信度模型中编码层，并构建第二初始置信度模型；采用整句样本对所述第二初始置信度模型进行训练，得到整句置信度模型；根据所述编码层，所述音节置信度模型中第一融合分类层，以及所述整句置信度模型中第二融合分类层，生成融合置信度模型。

初始置信度模型包括编码层和融合分类层，第一初始置信度模型包括编码层和第一融合分类层；第二初始置信度模型包括编码层和第二融合分类层。音节样本用于对第一初始置信度模型进行训练，得到音节置信度模型。具体是，对第一初始置信度模型中的编码层和第一融合分类层均进行训练，在训练完成的情况下，将当前的第一初始置信度模型，确定为音节置信度模型，从音节置信度模型提取出编码层，并固定该编码层的参数，作为第二初始置信度模型中的编码层。整句样本用于对第二初始置信度模型中第二融合分类层进行训练。在训练完成的情况下，将当前的第二初始置信度模型，确定为整句置信度模型。其中，音节置信度模型中编码层和整句置信度模型中编码层相同。融合置信度模型包括编码层和第一融合分类层和第二融合分类层。融合置信度模型的计算过程为：通过编码层对语音特征和识别结果进行处理，得到编码结果，分为两路分别发送至第一融合分类层和第二融合分类层进行融合分类，相应得到音节置信度和整句置信度。其中，训练完成，可以是指置信度模型在验证集上的准确率大于等于设定目标准确率，或者可以是损失函数小于等于目标数值，还可以是迭代次数大于等于目标次数等。

其中，固定音节置信度模型中编码层的参数，并确定第二初始置信度模型中编码层，对第二初始置信度模型进行训练，在训练的反向传播过程中，不再更新该编码层的梯度，最终得到整句置信度模型。该过程经实验，确定整句置信度模型的准确率可以满足需求，例如，大于等于某个准确率阈值。从而，由于整句和音节置信度模型输入相同，经实验效果验证后，两个模型可以采用相同的编码层结构并共享编码层参数，从而可以通过对齐音节置信度模型的编码层和整句置信度模型的编码层，实现减少融合置信度模型的体积和训练数据量。

通过将预先训练的音节置信度模型中的编码层作为第二初始置信度模型中编码层结合第二融合分类层，并进行训练，得到整句置信度模型，并将两个置信度模型中相同的编码层和不同的两个融合分类层进行组合，构建融合置信度模型，可以避免训练两个置信度模型，节省其中一个置信度模型中编码层的训练过程，并共享参数，极大减少了模型所需更新的参数量，可以提高融合置信度模型的训练效率，并且，由于音节置信度的复杂性较高，通过优先训练音节置信度，可以基于音节置信度模型的编码层，可以提高编码结果的代表性，提高整句置信度的预测准确率，提高置信度模型的检测准确率，从而实现兼顾融合置信度模型的训练效率和检测准确率。

此外，还可以直接构建融合置信度模型，并采用音节样本和整句样本共同训练编码层，并采用音节样本只训练第一融合分类层，以及采用整句样本只训练第二融合分类层，对第一融合分类层的第一训练目标和第二融合分类层的第二训练目标进行融合得到融合目标，基于融合目标训练融合置信度模型，在训练完成时，确定融合置信度模型训练完成。示例性的，融合目标可以是，第一训练目标和第二训练目标的加权和，其中，训练目标为损失函数。

可选的，所述融合分类层包括交叉注意力层和分类层；所述编码层的结构与基于注意力机制的Transformer模型中编码层的结构相同，所述交叉注意力层的结构与基于注意力机制的Transformer模型中注意力层的结构相同。

基于注意力机制的Transformer模型通常包括编码层、注意力层和解码层。而在本公开实施例中，训练目标是置信度检测结果，仅需要分类，由此，融合置信度模型的部分结构与基于注意力机制的Transformer模型的部分结构相同，即两者的编码层的结构相同，以及注意力层的结构相同，将基于注意力机制的Transformer模型的解码层替换为分类层，可以确定融合置信度模型中任意一路的置信度的检测结构。

注意力机制(Attention Mechanism)是在众多信息中把注意力集中放在重要信息上，选出关键信息，而忽略其他不重要的信息。通过注意力机制实现特征融合，可以避免简单特征融合而增加冗余信息以及忽视关键信息，更加关注待融合的特征中的重要信息，提高特征信息的代表性，从而提高分割模型的分割准确率。交叉注意力层(Cross-Attention)是指对语音特征和识别结果的注意力权重进行交叉计算的注意力结构。

其中，交叉注意力结构的计算主要由Q、K和V三个特征向量组成，计算公式如下所示：

其中，Q是识别结果的第一编码结果，K和V是语音特征的第二编码结果，即语音特征分别经过两个不同全连接层进行不同线性变换后提取出来的两个特征，并作为第二编码结果。d_k表示特征向量K在高维空间上的长度，起到归一化的作用。QK^T表示矩阵Q乘以矩阵K的转置矩阵。

计算公式表示对识别结果的第一编码结果和语音特征的第二编码结果(可以有两个数值，如图3、图4和图6所示)进行融合，具体是识别结果的第一编码结果中每个像素点和语音特征的一个第二编码结果相应像素点之间的相似度，并确定为语音特征的另一个第二编码结果中相应像素点的权重，最终计算另一个语音特征的另一个第二编码结果中各像素点的加权和，作为融合结果。

第一融合分类层中分类层为softmax层，其中，softmax层是归一化指数函数层，用于对两个类别(正反两类，通常定义为0/1的标签)建模，也即softmax函数得到的是分到正确类别的概率和分到错误类别的概率。音节置信度用于检测识别结果中每个字是正确还是错误，适合用softmax层进行分类。在一个具体的例子中，第一初始置信度模型的结构如图3所示，其中，输出的结构为识别结果中每个字的置信度，为0或者1。

第二融合分类层中分类层为sigmoid层，其中，sigmoid层是S型生长曲线函数层，用于只对一个类别建模，通常就是正确的那个类别。sigmoid函数得到的是分到正确类别的概率和未分到正确类别的概率。整句置信度用于检测识别结果是否为需要进行回复的交互文本，即仅需要检测是否为待回复的交互文本，适合用sigmoid层进行分类。在一个具体的例子中，第二初始置信度模型的结构如图4所示，其中，输出的结构为识别结果的置信度，为0或者1。

现有的置信度模型包括卷积神经网络(Convolutional Neural Networks，CNN)和长短期记忆神经网络(Long-Short Term Memory，LSTM)，或者包括CNN和循环卷积神经网络(Recurrent Neural Network，RNN)。而该置信度模型不能并行计算。本公开实施例采用基于注意力机制的Transformer模型的结构，可以实现高效的并行计算，提高前向计算速度。在一个具体的例子中，现有的置信度模型的结构如图5所示。

通过基于注意力机制进行特征融合，可以更加关注待融合的特征中的重要信息，提高特征信息的代表性，从而提高置信度模型的检测准确率，并且通过不同的分类层适用于不同的置信度的检测场景，提高分类的准确率，从而，提高置信度模型的检测准确率，并且，采用Transformer模型的结构，实现并行计算，提高融合置信度模型计算速度，加快语音交互的响应速度。

基于上述的第一初始置信度模型和第二初始置信度模型的结构，构建的融合置信度模型如图6所示。

根据本公开的技术方案，通过编码层对语音特征和识别结果分别进行编码，并采用不同的融合分类层对编码结果进行处理，分别得到音节置信度和整句置信度，实现两个检测模型共用一个编码层，即共享编码层的参数，从而减少两个检测模型的体积，节省置信度检测模型占用的存储资源。

图7是根据本公开实施例公开的另一种语音置信度检测方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。获取所述交互语音的语音特征和识别结果，具体化为：在流式多级截断注意力模型对交互语音进行文本识别的情况下，获取所述交互语音的语音特征和识别结果，语音特征为字级别特征。

S301，在流式多级截断注意力模型对交互语音进行文本识别的情况下，获取所述交互语音的语音特征和识别结果，语音特征为字级别特征。

流式多级截断注意力(Streaming Multi-Layer Truncated Attention，SMLTA)模型是一种基于连接时序分类(Connectionist Temporal Classification，CTC)和注意力的流式语音识别模型，实际是利用CTC模型的尖峰对连续音频流做截断，然后在每个截断的小语音片段上进行注意力建模。其中流式表示可以直接对语音的小片段(而不是必须整句)，进行一个个片段地增量解码，多级表示堆叠多层注意力模型，而截断则表示利用CTC模型的尖峰信息，把语音切割成一个一个小片段，注意力模型建模和解码可以在这些小片段上展开。SMLTA将传统的全局的注意力建模转换成局部注意力建模，所以这个过程也是一个可以流式实现的过程，无论多长的句子，都可以通过截段来实现流式解码和精准的局部注意力建模，因而实现了流式解码。

采用SMLTA模型对交互语音进行特征提取，得到初始语音特征fbank，该初始语音特征为帧级别特征。采用SMLTA模型进一步对初始语音特征fbank进行特征提取，得到中间语音特征smlta，作为本公开实施例中所使用的语音特征，其中，中间语音特征smlta，为字级别特征。实际上，对语音进行采样，每次采样得到一帧音频数据，一帧音频数据即可提取一个fbank特征，而综合多帧音频数据，可以提取得到smlta特征。

其中，fbank和smlta是两种数据类型，在等长的语音下，smlta特征大小一般仅为fbank特征大小的五分之一。示例性的，对同一段语音进行特征提取，如图8所示，一个矩形代表一个fbank特征，如图9所示，一个矩形代表一个smlta特征，在相同时长语音中，fbank特征的数量远多于smlta特征的数量。在图8和图9所示的语音中，1秒采集100帧，1秒采集三个字，而一帧可以提取80个fbank特征，则fbank的特征大小为100*80＝8000；而一个字可以提取512个smlta特征，则smlta的特征大小为3*512＝1536；从而，smlta特征大小大约为fbank特征大小的五分之一。实际上，fbank是低阶特征，smlta是高阶特征，直接使用高阶特征进行模型计算，可以减少高阶特征提取的前序步骤，缩短置信度计算时间，加快语音交互的响应速度，并且smlta特征是基于Attention机制提取的包含了上下文信息的特征，使得融合置信度模型的鲁棒性更强。

S302，将所述语音特征和识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度。

根据本公开的技术方案，通过获取在流式多级截断注意力模型对交互语音进行文本识别过程中的中间结果，字节别特征作为语音特征，可以减少特征的数据量，提高融合置信度模型的检测效率，缩短置信度计算时间，加快语音交互的响应速度，同时，该语音特征是基于注意力机制提取的特征，融合有上下文信息的特征，提高融合置信度模型的鲁棒性，从而提高融合置信度模型的检测准确率。

图10是根据本公开实施例公开的另一种语音置信度检测方法的流程图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。获取所述交互语音的语音特征和识别结果，具体化为：在流式多级截断注意力模型对交互语音进行文本识别的情况下，获取所述交互语音的语音特征和识别结果，语音特征为字级别特征。

S401，获取问题文本，并生成语音，形成正样本。

问题文本是指用户提出问题需要回复的文本。根据问题文本，生成语音。其中，可以采用语音合成算法(Text To Speech)，指从文字合成出语音。问题文本生成的语音即为需要进行交互(或回复)的语音，即作为整句样本中的正样本。其中，用户可以基于不同领域和意图，人工构造并泛化了大量问题文本，通过TTS合成的方法合成大量正样本，在合成时可以采用不同语速、不同发音用户和不同方言的方式等中的至少一项进行泛化，提高正样本的代表性。

S402，获取非交互语音。

非交互语音可以是指无需回复的语音。这类语音由于隐私问题不能从线上用户的系统直接收集。可以从网络上，获取调频广播(如FM)、歌曲或访谈节目等中的语音，作为非交互语音。

S403，获取录制的背景噪音。

背景噪音用于作为非交互语音的背景声音，与非交互语音进行叠加。可以预先录制不同状态下(如开窗不开窗、不同时间或不同风速等)的背景噪声。

S404，将所述非交互语音和所述背景噪音叠加，形成负样本。

将背景噪音与非交互语音进行叠加，形成背景噪音下的非交互语音，为非交互语音增加场景的声音特征，提高负样本的代表性。

此外，还可以将问题文本生成的语音与背景噪音进行叠加，更新正样本。

S405，根据所述正样本和所述负样本，确定整句样本，以及确定融合置信度模型。

收集大量的正样本和负样本，形成训练样本集合，该训练样本集合中每个样本，确定为整句样本。可以通过前述实施例的方式，根据整句样本，确定融合置信度模型，具体是通过整句样本训练融合置信度模型中的第二融合分类层。

S406，获取交互语音的语音特征和识别结果。

可选的，所述交互语音包括：交通场景交互语音。

交通场景交互语音可以是指任意交通场景下的交互语音。交通场景可以是陆上、海上、空中或空间等场景。示例性的，交通场景交互语音可以包括车载交互语音、航空交互语音、轮船交互语音或宇宙空间交互语音等。此外还可以包括一些不常用的承载用户并移动的交通工具的交互语音，如平衡车交互语音或热气球交互语音等。

通过将语音交互系统配置于交通工具中，实现对交通工具承载的用户的语音交互过程中语音进行交互识别，可以提高交通工具移动过程中的语音识别的准确率，从而提高交通工具移动过程中的语音交互的准确率，并且，通过将置信度检测模型配置于交通工具中，以运行在交通工具芯片上，如车载芯片，使得交通工具即使处在断网状态下，语音交互功能依然可用，提高语音交互系统的容错性和稳定性。

其中，前述背景噪音可以是车内背景噪音。示例性的，可以预先录制车辆不同状态下(如开窗不开窗，开空调不开空调，播放声音节目或不播放声音节目或不同车速等)的背景噪声，两者进行加噪产生了大量负样本。

S407，将所述语音特征和识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度。

实际上，语音交互系统上线一次唤醒多次交互前没有或只有很少的数据可以用于置信度模型训练，所以置信度模型的训练样本集合的样本数量是决定模型效果的一个关键因素。

根据本公开的技术方案，通过挖掘正负样本，生成整句样本，可以增加样本数量，快速积累大量训练数据，并在没有或存在少量真实数据的情况下，挖掘大量样本，可以提高样本的代表性，从而提高融合置信度模型的准确率，以实现兼顾减小融合置信度模型的体积，同时具有较好的置信度检测准确率。

根据本公开的实施例，图11是本公开实施例中的语音置信度检测装置的结构图，本公开实施例适用于对语音交互过程中结果进行置信度检测的情况。该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中，该电子设备可以是客户端设备，例如，客户端设备是车载终端。

如图11所示的一种语音置信度检测装置500，包括：语音特征和结果获取模块501和置信度确定模块502；其中，

语音特征和结果获取模块501，用于获取交互语音的语音特征和识别结果；

置信度确定模块502，用于将所述语音特征和所述识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，其中，所述融合置信度模型用于检测所述识别结果的音节置信度和所述交互语音的整句置信度。

进一步的，所述置信度确定模块502，包括：特征和结果编码单元，用于通过所述融合置信度模型中编码层对所述语音特征和所述识别结果分别进行编码；音节置信度确定单元，用于通过所述融合置信度模型中第一融合分类层对编码结果进行处理，得到音节置信度；整句置信度确定单元，用于通过所述融合置信度模型中第二融合分类层对编码结果进行处理，得到整句置信度。

进一步的，所述语音置信度检测装置，还包括：音节置信度模型训练模块，用于采用音节样本对第一初始置信度模型进行训练，得到音节置信度模型；第二初始置信度模型构建模块，用于获取所述音节置信度模型中编码层，并构建第二初始置信度模型；整句置信度模型训练模块，用于采用整句样本对所述第二初始置信度模型进行训练，得到整句置信度模型；融合置信度模块构建模块，用于根据所述编码层，所述音节置信度模型中第一融合分类层，以及所述整句置信度模型中第二融合分类层，生成融合置信度模型。

进一步的，所述融合分类层包括交叉注意力层和分类层；所述编码层的结构与基于注意力机制的Transformer模型中编码层的结构相同，所述交叉注意力层的结构与基于注意力机制的Transformer模型中注意力层的结构相同。

进一步的，所述语音特征和结果获取模501，包括：语音识别单元，用于定位信息获取模块，用于在流式多级截断注意力模型对交互语音进行文本识别的情况下，获取所述交互语音的语音特征和识别结果，语音特征为字级别特征。

进一步的，所述语音置信度检测装置，还包括：正样本生成模块，用于获取问题文本，并生成语音，形成正样本；非交互语音获取模块，用于获取非交互语音；背景噪音获取模块，用于获取录制的背景噪音；负样本生成模块，用于将所述非交互语音和所述背景噪音叠加，形成负样本；整句样本生成模块，用于根据所述正样本和所述负样本，确定整句样本，以及确定所述融合置信度模型。

进一步的，所述交互语音包括：交通场景交互语音。

上述语音置信度检测装置可执行本公开任意实施例所提供的语音置信度检测方法，具备执行语音置信度检测方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如语音置信度检测方法。例如，在一些实施例中，语音置信度检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的语音置信度检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音置信度检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种语音置信度检测方法，包括：

获取交互语音的语音特征和识别结果；

将所述语音特征和所述识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，其中，所述融合置信度模型用于检测所述识别结果的音节置信度和所述交互语音的整句置信度；所述音节置信度是指所述识别结果的文本和所述交互语音一致的程度；所述整句置信度是指所述交互语音是否为需要进行交互的语音的程度；

其中，所述将所述语音特征和识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，包括：

通过所述融合置信度模型中编码层对所述语音特征和所述识别结果分别进行编码；

通过所述融合置信度模型中第一融合分类层对编码结果进行处理，得到音节置信度；

通过所述融合置信度模型中第二融合分类层对编码结果进行处理，得到整句置信度。

2.根据权利要求1所述的方法，还包括：

采用音节样本对第一初始置信度模型进行训练，得到音节置信度模型；

获取所述音节置信度模型中编码层，并构建第二初始置信度模型；

采用整句样本对所述第二初始置信度模型进行训练，得到整句置信度模型；

根据所述编码层，所述音节置信度模型中第一融合分类层，以及所述整句置信度模型中第二融合分类层，生成融合置信度模型。

3.根据权利要求1所述的方法，其中，所述融合分类层包括交叉注意力层和分类层；所述编码层的结构与基于注意力机制的Transformer模型中编码层的结构相同，所述交叉注意力层的结构与基于注意力机制的Transformer模型中注意力层的结构相同。

4.根据权利要求1所述的方法，其中，所述获取交互语音的语音特征和识别结果，包括：

在流式多级截断注意力模型对交互语音进行文本识别的情况下，获取所述交互语音的语音特征和识别结果，语音特征为字级别特征。

5.根据权利要求1所述的方法，还包括：

获取问题文本，并生成语音，形成正样本；

获取非交互语音；

获取录制的背景噪音；

将所述非交互语音和所述背景噪音叠加，形成负样本；

根据所述正样本和所述负样本，确定整句样本，以及确定所述融合置信度模型。

6.根据权利要求1所述的方法，其中，所述交互语音包括：交通场景交互语音。

7.一种语音置信度检测装置，包括：

置信度确定模块，用于将所述语音特征和所述识别结果输入至融合置信度模型中，得到所述融合置信度模型输出的音节置信度和整句置信度，其中，所述融合置信度模型用于检测所述识别结果的音节置信度和所述交互语音的整句置信度；所述音节置信度是指所述识别结果的文本和所述交互语音一致的程度；所述整句置信度是指所述交互语音是否为需要进行交互的语音的程度；

其中，所述置信度确定模块，包括：

特征和结果编码单元，用于通过所述融合置信度模型中编码层对所述语音特征和所述识别结果分别进行编码；

音节置信度确定单元，用于通过所述融合置信度模型中第一融合分类层对编码结果进行处理，得到音节置信度；

整句置信度确定单元，用于通过所述融合置信度模型中第二融合分类层对编码结果进行处理，得到整句置信度。

8.根据权利要求7所述的装置，还包括：

音节置信度模型训练模块，用于采用音节样本对第一初始置信度模型进行训练，得到音节置信度模型；

第二初始置信度模型构建模块，用于获取所述音节置信度模型中编码层，并构建第二初始置信度模型；

整句置信度模型训练模块，用于采用整句样本对所述第二初始置信度模型进行训练，得到整句置信度模型；

融合置信度模块构建模块，用于根据所述编码层，所述音节置信度模型中第一融合分类层，以及所述整句置信度模型中第二融合分类层，生成融合置信度模型。

9.根据权利要求7所述的装置，其中，所述融合分类层包括交叉注意力层和分类层；所述编码层的结构与基于注意力机制的Transformer模型中编码层的结构相同，所述交叉注意力层的结构与基于注意力机制的Transformer模型中注意力层的结构相同。

10.根据权利要求7所述的装置，其中，所述语音特征和结果获取模块，包括：

语音识别单元，用于定位信息获取模块，用于在流式多级截断注意力模型对交互语音进行文本识别的情况下，获取所述交互语音的语音特征和识别结果，语音特征为字级别特征。

11.根据权利要求7所述的装置，还包括：

正样本生成模块，用于获取问题文本，并生成语音，形成正样本；

非交互语音获取模块，用于获取非交互语音；

背景噪音获取模块，用于获取录制的背景噪音；

负样本生成模块，用于将所述非交互语音和所述背景噪音叠加，形成负样本；

整句样本生成模块，用于根据所述正样本和所述负样本，确定整句样本，以及确定所述融合置信度模型。

12.根据权利要求7所述的装置，其中，所述交互语音包括：交通场景交互语音。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的语音置信度检测方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的语音置信度检测方法。