CN114267345B

CN114267345B - 模型训练方法、语音处理方法及其装置

Info

Publication number: CN114267345B
Application number: CN202210173741.4A
Authority: CN
Inventors: 林廷恩; 武玉川; 李永彬; 孙健
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-17
Anticipated expiration: 2042-02-25
Also published as: CN114267345A

Abstract

本申请提供一种模型训练方法、语音处理方法及其装置。该模型训练方法包括：获取样本数据对话语音信号以及对话语音信号对应的对话文本信息和标签数据；将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征；将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果；采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值；若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数；否则，得到训练完成的第一融合模型和分类模型。本申请训练得到的第一融合模型和分类模型能够准确的确定接收到的语音信号对应的用户意图是否用来打断机器客服输出的语音信号。

Description

模型训练方法、语音处理方法及其装置

技术领域

本申请涉及计算机技术领域，尤其涉及模型训练方法、语音处理方法及其装置。

背景技术

在语音对话场景中，机器客服系统正在输出机器语音时会接收到用户语音，机器客服系统通过确定用户语音是否具有打断意图，来进一步确定接下来输出的语音内容。

目前采用将用户语音转换成文本信息，提取文本信息中的关键词，根据关键词来确定用户语音是否具有打断意图。例如，存在等等、关闭、不要说等关键词，则确定用户语音具有打断意图。但是，目前采用该种方式确定用户语音的打断意图会存在确定错误的问题，进而降低了机器客服的服务质量以及用户体验感。

发明内容

本申请的多个方面提供模型训练方法、语音处理方法及其装置，以提高机器客服的服务质量。

本申请实施例第一方面提供一种模型训练方法，包括：获取样本数据和标签数据，样本数据包括：对话语音信号以及对话语音信号对应的对话文本信息，标签数据用于表示对话语音信号是或者不是打断情况的语音信号；将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征；将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果；采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值；若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数；若第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。

本申请实施例第二方面提供一种语音处理方法，应用于机器客服系统，语音处理方法包括：在机器客服系统输出第一语音信号的过程中，接收第二语音信号；将第一语音信号和第二语音信号进行信号组合处理，得到当前语音信号；对当前语音信号进行文本转换，得到当前文本信息；将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征，第一融合模型是上述第一方面的模型训练方法训练得到的；将第一融合特征输入分类模型进行分类处理，得到分类结果，分类结果用于表征第二语音信号对应的用户意图是否用来打断第一语音信号，分类模型是上述第一方面的模型训练方法训练得到的。

本申请实施例第三方面提供一种语音处理装置，应用于机器客服系统，语音处理装置，包括：

接收模块，用于在机器客服系统输出第一语音信号的过程中，接收第二语音信号；

组合模块，用于将第一语音信号和第二语音信号进行信号组合处理，得到当前语音信号；

转换模块，用于对当前语音信号进行文本转换，得到当前文本信息；

融合模块，用于将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征，第一融合模型是上述第一方面的模型训练方法训练得到的；

分类模块，用于将第一融合特征输入分类模型进行分类处理，得到分类结果，分类结果用于表征第二语音信号对应的用户意图是否用来打断第一语音信号，分类模型是上述第一方面的模型训练方法训练得到的。

本申请实施例应用于语音对话场景中，提供的模型训练方法包括：获取样本数据和标签数据，样本数据包括：对话语音信号以及对话语音信号对应的对话文本信息，标签数据用于表示对话语音信号是或者不是打断情况的语音信号；将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征；将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果；采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值；若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数；若第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。本申请实施例能够融合语音语义等多种数据，进行网络模型的训练，得到的第一融合模型和分类模型能够准确的确定接收到的语音信号对应的用户意图是否用来打断机器客服输出的语音信号，提高用户的体验。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请示例性实施例提供的一种模型训练方法的步骤流程图；

图2为本申请示例性实施例提供的另一种模型训练方法的步骤流程图；

图3为本申请示例性实施例提供的一种模型训练方法的示意图；

图4为本申请示例性实施例提供的一种语音处理方法的步骤流程图

图5为本申请示例性实施例提供的一种语音处理方法的示意图；

图6为本申请示例性实施例提供的另一种语音处理方法的示意图；

图7为本申请示例性实施例提供的一种语音处理装置的结构框图；

图8为本申请示例性实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有语音对话场景中，机器客服系统确定用户语音的打断意图会存在确定错误的问题，在本申请实施例提供的模型训练方法包括：获取样本数据和标签数据，样本数据包括：对话语音信号以及对话语音信号对应的对话文本信息，标签数据用于表示对话语音信号是或者不是打断情况的语音信号；将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征；将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果；采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值；若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数；若第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。本申请实施例能够融合语音语义等多种数据，进行网络模型的训练，得到的第一融合模型和分类模型能够准确的确定接收到的语音信号对应的用户意图是否用来打断机器客服输出的语音信号，提高用户的体验。

在本实施例中，并不限定模型训练方法的执行设备。可选地，模型训练方法可以借助云计算系统实现整体的模型训练方法。例如，模型训练方法可以应用于云服务器，以便借助于云上资源的优势运行各种神经网络模型；相对于应用于云端，模型训练方法也可以应用于常规服务器、云服务器或服务器阵列等服务端设备。

此外，本申请实施例提供模型训练方法得到的第一融合模型和分类模型可应用于确定机器客服系统采集到的第二语音信号对应的用户意图是否是对自身输出的第一语音信号的打断，例如，用户正在和机器客服系统进行语音对话时，用户输出语音信号“播放今天的天气预报”，然后机器客服系统输出第一语音信号“今天，天晴，温度为”，若此时采集到第二语音信号为“稍等，明天的天气呢”，则机器客服系统可以确定该第二语音信号的用户意图是对第一语音信号的打断，然后机器客服系统可以回复第二语音信号，如输出“明天下雨”等。若此时采集到的第二语音信号为“你早饭吃什么呢，鸡蛋可以吗，可以的”，该第二语音信号实质上是用户之间的对话，所以机器客服系统可以准确的确定该第二语音信号的用户意图并非是对第一语音信号的打断，则继续播放第一语音信号的剩余部分“-2度至9度，有大风蓝色预警，请注意防范”。

进一步地，第二语音信号是指机器客服系统能够采集到的所有语音信号，包括：人声、动物声、周围的电子设备发出的语音信号以及环境音频信号等各种机器客服系统周围的声音。本申请实施例的语音处理方法是为了在各种环境下，都能够准确的确定机器客服系统采集到的第二语音信号的用户意图是否是对正在输出的第一语音信号的打断。例如，在用户和周围人进行对话时，能够准确的确定用户和周围人输出的语音信号的意图并非是用来打断第一语音信号的。此外，当周围有婴儿哭声，尖叫声、风声、雨声以及打雷声等噪音时，也可以准确的确定采集的第二语音信号用户意图是否是对正在输出的第一语音信号的打断。还例如，对于机器客服系统周围的电子设备，如电视、广播以及音响等发出的语音信号，机器客服系统也可以准确的确定这些语音信号的用户意图是否是对正在输出的第一语音信号的打断。再者，对于上述所有的语音信号融合在一起的语音信号，机器客服系统也可以准确的确定这些融合在一起的语音信号的用户意图是否是对正在输出的第一语音信号的打断。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请示例性实施例提供的一种模型训练方法的步骤流程图。如图1所示该模型训练方法，具体包括以下步骤：

S101，获取样本数据和标签数据。

其中，样本数据包括：对话语音信号以及对话语音信号对应的对话文本信息，标签数据用于表示对话语音信号是或者不是打断情况的语音信号。

首先构建多个样本数据以及标签数据。具体为，获取人-机对话音频和人-人对话音频。其中，人-机对话音频是指真实的人和机器客服的对话音频，人-人对话音频是指人和人对话的音频。然后对这些对话音频进行处理，将一轮对话音频作为一个样本数据的对话语音信号。然后对对话语音信号进行文本转换，得到对应的对话文本信息。将该对话语音信号和对话文本信息关联为一组样本数据，本申请实施例可以构建多组样本数据。然后，采用众包的方式标注各组样本数据，若样本数据存在打断情况，则确定打断时机，并标注该样本数据对应的标签数据为1，其中，打断时机为一方（人或者机器客服）开始输出语音至另一方打断该语音所经历的时间。若样本数据不存在打断情况，则标注该样本数据对应的标签数据为0。

一种可选实施例中，样本数据还可以包括：噪声音频信号。该噪声音频信号可以是各种视频的音频和/或噪声音频。视频的音频包括：电视剧、电影或者广告等视频的音频。噪声音频包括：风声、水声、下雨声、打雷声或者动物叫声等。将这些噪声音频信号与上述对话语音信号、对话文本信息以及打断时机作为一组训练样本进行模型的训练。

S102，将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征。

其中，在训练开始时，第一融合模型的参数为初始化参数。通过调整第一融合模型的参数，进而更好的融合对话语音信号和对话文本信息。

S103，将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果。

在本申请实施例中，分类模型可以包括：全连接层、回归层。其中，全连接层是对第一融合特征进行特征提取，得到分类特征向量；回归层是对分类特征向量进行回归计算，确定在不同分类结果的概率，进而确定对应的预测分类结果。

其中，本步骤的预测分类结果是指在不同分类结果概率与分类结果计算后得到的值，如为分类结果为1的概率0.8，为分类结果为0的概率0.2。则得到的预测分类结果的计算方式为：0.8×1+0×0.2=0.8。

S104，采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值。

则第一损失值为：标签数据减去预测分类结果得到的值的绝对值。若标签数据为1。则第一损失值为0.2。若标签数据为0。则预测分类结果为0.8。

S105，若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数。

在本申请实施例中，第一损失值阈值可以根据实际需要设定。例如，设定为0.1。调整后的第一融合模型和分类模型的模型参数可以使预测的预测分类结果更接近标签数据。

S106，若第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。

在本申请实施例中，第一融合模型和分类模型需要多组样本数据进行多次的训练，最终得到的第一融合模型和分类模型具有较高的鲁棒性，能够对各种语音信号的用户意图进行确定。

参照图2，为本申请示例性实施例提供的另一种模型训练方法的步骤流程图。如图2所示该模型训练方法，具体包括以下步骤：

S201，获取样本数据和标签数据。

S202，采用第一融合模型的第一特征提取层对对话文本信息进行特征提取，得到第一预测文本特征。

参照图3，第一特征提取层可以是采用Textcnn（文本处理技术）。其中，采用第一特征提取成得到的第一预测文本特征为t1。

S203，采用第一融合模型的第一编码层对对话语音信号进行编码处理，得到第一预测语音特征。

其中，第一编码层可以采用Transformer（一种语言处理模型）的编码器技术。得到的第一预测语音特征为a1。

S204，融合第一预测文本特征和第一预测语音特征，得到第一预测融合特征。

其中，得到的第一预测融合特征

=[t1;a1;t1+a1;t1-a1; ∣t1-a1∣;t1*a1]。

S205，将噪声音频信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征。

其中，将噪声音频信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征，包括：将噪声音频信号、对话语音信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征。

进一步地，将噪声音频信号、对话语音信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征，包括：将对话文本信息输入第二融合模型的第二特征提取层进行特征提取，得到第二预测文本特征；将噪声音频信号和对话语音信号输入第二融合模型的第二编码层进行编码处理，得到第二预测语音特征；融合第二预测文本特征和第二预测语音特征，得到第二预测融合特征。

其中，第二特征提取层可以是采用Textcnn技术。第二编码层可以采用Transformer的编码器技术。

S206，采用一致性损失函数，确定第一预测融合特征和第二预测融合特征的第二损失值。

S207，根据第二损失值，调整第一融合模型的模型参数。

其中，一致性损失函数如下：

上式中，

表示第二损失值。

为第一预测融合特征，

为第二预测融合特征。

为第二预测融合特征的第j维向量。

为超参数，为一经验值，取1至2中的任一数字。

表示两个向量的相似度计算，采用余弦公式计算。

例如，参照图3，将对话文本信息输入第一特征提取层进行特征提取，得到第一预测文本特征t1，将对话语音信号输入第一编码层进行编码处理，得到第一预测语音特征a1，融合第一预测文本特征t1和第一预测语音特征a1，得到第一预测融合特征

=[t1;a1;t1+ a1;t1-a1; ∣t1-a1∣;t1*a1]。将对话文本信息输入第二特征提取层进行特征提取，得到第二预测文本特征t2，将噪声音频信号或者（噪声音频信号和对话语音信号）输入第二编码层进行编码处理，得到第二预测语音特征a2，融合第二预测文本特征t2和第二预测语音特征 a2，得到第二预测融合特征

=[t2;a2;t2+a2;t2-a2; ∣t2-a2∣;t2*a2]。其中，

=[t2];

=[a2];

=[t2+a2];

=[t2-a2];

=[∣t2-a2∣];

=[t2*a2]。

在本申请实施例中，引入大量外部的噪声音频信号进行第一融合模型的训练，能够提高第一融合模型对于各类噪声的鲁邦性，进而使训练得到的第一融合模型和分类模型不仅能够准确的确定用户的打断意图，也能有效识别出各类噪声进而降低误打断，有效拒识非人声、模糊人声、无效人声和无交互意图的语音信号，使得机器客服系统拥有更好的对话效率和体验。

此外，在训练阶段，根据第二损失值同时调整第一融合模型和第二融合模型，具体的，在第二损失值大于或等于预设损失值阈值时，采用第二损失值调整第一融合模型和第二融合模型，在第二损失值小于预设损失值阈值时，得到训练好的第一融合模型。

进一步地，在第一融合模型和分类模型的训练阶段，结合交叉损失函数和一致性损失函数能够使训练得到的第一融合模型和分类模型具有很好的鲁棒性，并且在实际应用中能够大大提高确定第二语音信号的用户意图是否对第一语音信号的打断的准确度。

S208，获取对话语音信号对应的打断时机。

其中，打断时机为对话语音信号中一方的语音信号开始输出至另一方输出语音信号时所经历的时长。

S209，标准化处理打断时机，得到标准化参数。

具体地，将各组训练数据的打断时机进行标准化处理，使其标准化为均值为0，方差为1的标准化参数，进而确定参数u和参数σ，其中，参数u为这组打断时机的平均数，参数σ为这组组打断时机的方差。例如，对于一组打断时机：1秒，2秒，4秒，5秒，则对应的u=3，σ=2.5，则标准化后的一组标准化参数为：-0.8，-0.4，0.4和0.8。此外，在应用阶段，若时机信息D为3秒，则对应的第一标准化参数d=0。

S210，将标准化参数和第一融合特征输入分类模型进行分类处理，得到预测分类结果。

S211，采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值。

S212，若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数。

S213，若第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。

图4为本申请示例性实施例提供的一种语音处理方法的步骤流程图。如图4所示该语音处理方法，应用于机器客服系统，具体包括以下步骤：

S401，在机器客服系统输出第一语音信号的过程中，接收第二语音信号。

示例性地，参照图5为本申请示例性实施例提供的一种语音处理方法的示意图。如图5所示，在机器客服系统51输出第一语音信号的过程中，接收第二语音信号；第二语音信号是机器客服系统51周围的对象52发出的，该对象52包括：人和/或物体。然后机器客服系统51将第一语音信号和第二语音信号进行信号组合处理，得到当前语音信号；对当前语音信号进行文本转换，得到当前文本信息；将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征；将第一融合特征输入分类模型进行分类处理，得到分类结果，分类结果用于表征第二语音信号对应的用户意图是否用来打断第一语音信号。

其中，第一语音信号是机器客服系统确定的，并且要输出的一种音频信号，第一语音信号可以为机器客服系统已经输出的音频信号，也可以是机器客服确定的完整的语音信号，包括已经输出的音频信号和未输出的音频信号。例如：用户语音信号为“今天的天气怎么样”，则机器客服系统根据该用户语音信号确定的回复语音信号为“今天天晴，气温为-2度至9度，有大风蓝色预警”，一种方式为可以将该完整的回复语音信号作为第一语音信号，另一种可选方式为若机器客服系统输出“今天天晴，气温为”时，接收到第二语音信号，则可以将输出的语音信号“今天天晴、气温为”作为第一语音信号。

在本申请实施例中，第一语音信号和第二语音信号，以及后续的语音信号均为音频格式，如fbank（一种音频格式）。

此外，机器客服系统具有音频采集功能，该机器客服系统可以每隔预设时间或者持续的对周围对象发出的语音信号进行采集。采集到的语音信号为第二语音信号，其中，机器客服系统采集到的第二语音信号不包括：机器客服系统发出的第一语音信号。第二语音信号主要包括：用户的主语音信号和/或背景语音信号。

S402，将第一语音信号和第二语音信号进行信号组合处理，得到当前语音信号。

其中，组合处理是指将第一语音信号在前，第二语音信号在后进行接续组合。

S403，对当前语音信号进行文本转换，得到当前文本信息。

其中，采用文本转换技术如（NLP，一种自然语言处理技术）对当前语音信号进行文本转换。示例性的，若第一语音信号为“今天天晴、气温为”，第二语音信号为“你早饭吃什么呢，鸡蛋可以吗，可以的，呼呼，刷刷刷”，并且第二语音信号附带一些背景语音信号。则当前语音信号为“今天天晴、气温为，你早饭吃什么呢，鸡蛋可以吗，可以的，呼呼，刷刷刷”，并且附带上述背景语音信号。然后将当前语音信号转换为文本语音信号为“今天天晴、气温为，你早饭吃什么呢，鸡蛋可以吗，可以的，呼呼，刷刷刷”。

S404，将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征。

其中，第一融合特征为表征当前文本信息和当前语音信号融合的一种特征向量。此外，第一融合模型是采用图1或者图2所示的模型训练方法训练得到的。

具体为，将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征，包括：采用第一融合模型的第一特征提取层对当前文本信息进行特征提取，得到文本特征；采用第一融合模型的第一编码层对当前语音信号进行编码处理，得到语音特征；融合文本特征和语音特征，得到第一融合特征。

进一步地，采用第一融合模型的第一特征提取层对当前文本信息进行特征提取，得到文本特征，包括：获取当前文本信息的历史沟通文本信息；采用第一融合模型的第一特征提取层对当前文本信息和历史沟通文本信息进行特征提取，得到文本特征。

其中，参照图6，采用第一特征提取层对当前文本信息进行提取。第一特征提取层的参数为预先训练好的，得到的文本特征t3为一种特征向量。

其中，历史沟通文本信息是指机器客服系统和外界对象在本次对话中的历史沟通的文本信息。其中，历史沟通文本信息是用户与机器客服系统进行沟通的有效文本，是存储在机器客服系统侧的，因此，机器客服系统可以获取该历史沟通文本信息。用户和机器客服的本次沟通文本信息包括：历史沟通文本和当前文本信息，其中，历史沟通文本信息如 “精灵，在的，主人，今天会下雨吗，不会主人，今天天晴”。

此外，可以将历史沟通文本信息和当前文本信息组合后的组合文本再经过第一特征提取层进行特征提取，得到文本特征。其中，组合文本的格式为[历史沟通文本信息；分割符；当前文本信息]。

在本申请实施例中，结合历史沟通文本信息，能够更准确的确定当前文本信息所处的对话场景，进而能够准确的确定第二语音信号的用户意图是为打断第一语音信号。

其中，参照图6，第一编码层可以采用Transformer（一种语言处理模型）的编码器技术对当前语音信号进行编码处理，第一编码层的编码参数是预先训练好的，得到的语音特征a3为一种特征向量。此外，得到的第一融合特征h3=[t3;a3;t3+a3;t3-a3; ∣t3-a3∣;t3*a3]。

S405，将第一融合特征输入分类模型进行分类处理，得到分类结果。

其中，分类结果用于表征第二语音信号对应的用户意图是否用来打断第一语音信号。此外，分类模型是预先训练好的。分类模型可以是二元分类器。

具体地，将第一融合特征输入分类模型进行分类处理，得到分类结果，包括：获取第二语音信号的时机信息；标准化处理时机信息，得到第一标准化参数；将第一标准化参数和第一融合特征输入分类模型进行分类处理，得到分类结果。

其中，时机信息为第一语音信号开始输出至接收到第二语音信号时所经历的时长。在本申请实施例中，机器客服系统输出的第一语音信号携带有时间戳信息，机器客服系统能够确定第一语音信号输出的开始时间，以及接收第二语音信号的接收时间，然后采用接收时间减去开始时间确定为时机信息。时机信息能够作为一个影响因素，能够进一步提高机器客服系统的确定第二语音信号的用户意图是否为打断第一语音信号的准确度。

此外，标准化处理时机信息，是指将时机信息标准化为均值为0，方差为1的第一标准化参数。具体地，第一标准化参数

。其中，D为时机信息，单位为秒。

和

为预先训练得到的参数。

在本申请实施例中，分类模型可以包括：全连接层、回归层以及映射层。其中，全连接层是对第一标准化参数和第一融合特征进行特征提取，得到分类特征向量；回归层是对分类特征向量进行回归计算，确定在不同分类结果的概率，映射层是根据该概率，确定具体的分类结果。

示例性的，若回归层确定分类结果为1的概率为0.98，分类结果为0的概率为0.02，则经过映射层映射，确定分类结果为1，即为具有打断意图。

在本申请实施例中，能够结合多模态数据，如：当前语音信号、当前文本信息、历史沟通文本信息以及时机信息，进而能够更准确的确定第二语音信号的用户意图是否为对第一语音信号的打断。进而能够在机器客服系统在播报语音时，即使在噪音的影响下，依旧可通过本申请实施例精准的确定用户的打断意图和非打断意图，大幅度较低是否为打断意图的误判，进而提升用户体验。

进一步地，分类结果可以是1或0，若是1，则表征第二语音信号对应的用户意图是否用来打断第一语音信号，则机器客服系统确定对话策略为“回复”或者“停止播音”，然后可以根据第二语音信号确定回复内容或者停止播音。若分类结果为0，则表征第二语音信号对应的用户意图不是用来打断第一语音信号，则机器客服系统确定对话策略为“恢复输出”，然后继续输出剩余语音信号。

本申请实施例应用于语音对话场景中，提供的语音处理方法包括：在机器客服系统输出第一语音信号的过程中，接收第二语音信号；将第一语音信号和第二语音信号进行信号组合处理，得到当前语音信号；对当前语音信号进行文本转换，得到当前文本信息；将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征；将第一融合特征输入分类模型进行分类处理，得到分类结果，分类结果用于表征第二语音信号对应的用户意图是否用来打断第一语音信号。本申请实施例能够融合当前文本信息和当前语音信号，通过网络模型的处理方式，准确的确定第二语音信号对应的用户意图是否用来打断第一语音信号，提高用户的体验。

在本申请实施例中，除了提供一种语音处理方法之外，还提供一种语音处理装置，应用于机器客服系统，如图7所示，该语音处理装置70包括：

接收模块71，用于在机器客服系统输出第一语音信号的过程中，接收第二语音信号；

组合模块72，用于将第一语音信号和第二语音信号进行信号组合处理，得到当前语音信号；

转换模块73，用于对当前语音信号进行文本转换，得到当前文本信息；

融合模块74，用于将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征；

分类模块75，用于将第一融合特征输入分类模型进行分类处理，得到分类结果，分类结果用于表征第二语音信号对应的用户意图是否用来打断第一语音信号。

在一可选实施例中，融合模块74具体用于：采用第一融合模型的第一特征提取层对当前文本信息进行特征提取，得到文本特征；采用第一融合模型的第一编码层对当前语音信号进行编码处理，得到语音特征；融合文本特征和语音特征，得到第一融合特征。

在一可选实施例中，融合模块74在采用第一融合模型的第一特征提取层对当前文本信息进行特征提取，得到文本特征时，具体用于：获取当前文本信息的历史沟通文本信息；采用第一融合模型的第一特征提取层对当前文本信息和历史沟通文本信息进行特征提取，得到文本特征。

本申请实施例的语音处理装置应用于语音对话场景中，能够融合当前文本信息和当前语音信号，通过网络模型的处理方式，准确的确定第二语音信号对应的用户意图是否用来打断第一语音信号，提高用户的体验。

此外，本申请实施例还提供一种模型训练装置（未示出），该模型训练装置包括：

获取模块，用于获取样本数据和标签数据，样本数据包括：对话语音信号以及对话语音信号对应的对话文本信息，标签数据用于表示对话语音信号是或者不是打断情况的语音信号；

融合模块，用于将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征；

预测分类模块，用于将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果；

确定模块，用于采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值；

调整模块，用于若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数；若第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。

在一可选实施例中，融合模块在将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征时，具体用于：采用第一融合模型的第一特征提取层对对话文本信息进行特征提取，得到第一预测文本特征；采用第一融合模型的第一编码层对对话语音信号进行编码处理，得到第一预测语音特征；融合第一预测文本特征和第一预测语音特征，得到第一预测融合特征。

在一可选实施例中，预测分类模块在将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果时，具体用于：获取对话语音信号对应的打断时机，打断时机为对话语音信号中一方的语音信号开始输出至另一方输出语音信号时所经历的时长；标准化处理打断时机，得到标准化参数；将标准化参数和第一融合特征输入分类模型进行分类处理，得到预测分类结果。

在一可选实施例中，样本数据还包括：噪声音频信号，模型训练装置还包括训练模块，具体用于通过以下过程训练第一融合模型：将噪声音频信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征；采用一致性损失函数，确定第一预测融合特征和第二预测融合特征的第二损失值；根据第二损失值，调整第一融合模型的模型参数。

在一可选实施例中，训练模块在将噪声音频信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征时，具体用于：将噪声音频信号、对话语音信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征。

在一可选实施例中，训练模块在将噪声音频信号、对话语音信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征时，具体用于：将对话文本信息输入第二融合模型的第二特征提取层进行特征提取，预测文本特征；将噪声音频信号和对话语音信号输入第二融合模型的第二编码层进行编码处理，得到预测语音特征；融合预测文本特征和预测语音特征，得到第二预测融合特征。

本申请实施例的模型训练装置应用于语音对话场景中，能够融合语音语义信息进行网络模型的训练，得到的第一融合模型和分类模型能够准确的确定采集的语音信号对应的用户意图是否用来打断机器客服系统输出的语音信号，提高用户的体验。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图8为本申请示例性实施例提供的一种电子设备的结构示意图。该电子设备用于运行上述模型训练方法和语音处理方法。如图8所示，该电子设备包括：存储器84和处理器85。

存储器84，用于存储计算机程序，并可被配置为存储其它各种数据以支持在电子设备上的操作。该存储器84可以是对象存储(Object Storage Service，OSS)。

存储器84可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器85，与存储器84耦合，用于执行存储器84中的计算机程序，以用于：获取样本数据和标签数据，样本数据包括：对话语音信号以及对话语音信号对应的对话文本信息，标签数据用于表示对话语音信号是或者不是打断情况的语音信号；将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征；将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果；采用交叉熵损失函数，确定预测分类结果和标签数据的第一损失值；若第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数；若第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。

进一步可选地，处理器85在将对话语音信号和对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征时，具体用于：采用第一融合模型的第一特征提取层对对话文本信息进行特征提取，得到第一预测文本特征；采用第一融合模型的第一编码层对对话语音信号进行编码处理，得到第一预测语音特征；融合第一预测文本特征和第一预测语音特征，得到第一预测融合特征。

进一步可选地，处理器85在预测分类模块在将第一预测融合特征输入分类模型进行分类处理，得到预测分类结果时，具体用于：获取对话语音信号对应的打断时机，打断时机为对话语音信号中一方的语音信号开始输出至另一方输出语音信号时所经历的时长；标准化处理打断时机，得到标准化参数；将标准化参数和第一融合特征输入分类模型进行分类处理，得到预测分类结果。

进一步可选地，处理器85还用于通过以下过程训练第一融合模型：将噪声音频信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征；采用一致性损失函数，确定第一预测融合特征和第二预测融合特征的第二损失值；根据第二损失值，调整第一融合模型的模型参数。

进一步可选地，处理器85在将噪声音频信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征时，具体用于：将噪声音频信号、对话语音信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征。

进一步可选地，处理器85在将噪声音频信号、对话语音信号和对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征时，具体用于：将对话文本信息输入第二融合模型的第二特征提取层进行特征提取，预测文本特征；将噪声音频信号和对话语音信号输入第二融合模型的第二编码层进行编码处理，得到预测语音特征；融合预测文本特征和预测语音特征，得到第二预测融合特征。

一种可选实施例中，处理器85，与存储器84耦合，用于执行存储器84中的计算机程序，以还用于：在机器客服系统输出第一语音信号的过程中，接收第二语音信号；将第一语音信号和第二语音信号进行信号组合处理，得到当前语音信号；对当前语音信号进行文本转换，得到当前文本信息；将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征，将第一融合特征输入分类模型进行分类处理，得到分类结果，分类结果用于表征第二语音信号对应的用户意图是否用来打断第一语音信号。

进一步可选地，处理器85在将当前文本信息和当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征时，具体用于采用第一融合模型的第一特征提取层对当前文本信息进行特征提取，得到文本特征；采用第一融合模型的第一编码层对当前语音信号进行编码处理，得到语音特征；融合文本特征和语音特征，得到第一融合特征。

进一步可选地，处理器85在采用第一融合模型的第一特征提取层对当前文本信息进行特征提取，得到文本特征时，具体用于：获取当前文本信息的历史沟通文本信息；采用第一融合模型的第一特征提取层对当前文本信息和历史沟通文本信息进行特征提取，得到文本特征。

进一步，如图8所示，该电子设备还包括：防火墙81、负载均衡器82、通信组件86、电源组件88等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。

本申请实施例提供的电子设备，在语音对话场景中，能够训练得到第一融合模型和分类模型，进而准确的确定第二语音信号对应的用户意图是否用来打断第一语音信号，提高用户的体验。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，致使处理器实现图1、图2或图4所示方法中的步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器实现图1、图2或图4所示方法中的步骤。

上述图8中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述图8中的电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的文本。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取样本数据和标签数据，所述样本数据包括：对话语音信号以及所述对话语音信号对应的对话文本信息，所述标签数据用于表示所述对话语音信号是或者不是打断情况的语音信号；

将所述对话语音信号和所述对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征；

将所述第一预测融合特征输入分类模型进行分类处理，得到预测分类结果；

采用交叉熵损失函数，确定所述预测分类结果和所述标签数据的第一损失值；

若所述第一损失值大于或等于第一损失值阈值，则调整第一融合模型和分类模型的模型参数；

若所述第一损失值小于第一损失值阈值，得到训练完成的第一融合模型和分类模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述将所述对话语音信号和所述对话文本信息输入第一融合模型进行特征融合处理，得到第一预测融合特征，包括：

采用所述第一融合模型的第一特征提取层对所述对话文本信息进行特征提取，得到第一预测文本特征；

采用所述第一融合模型的第一编码层对所述对话语音信号进行编码处理，得到第一预测语音特征；

融合所述第一预测文本特征和所述第一预测语音特征，得到所述第一预测融合特征。

3.根据权利要求1所述的模型训练方法，其特征在于，所述将所述第一预测融合特征输入分类模型进行分类处理，得到预测分类结果，包括：

获取所述对话语音信号对应的打断时机，所述打断时机为所述对话语音信号中一方的语音信号开始输出至另一方输出语音信号时所经历的时长；

标准化处理所述打断时机，得到标准化参数；

将所述标准化参数和所述第一预测融合特征输入所述分类模型进行分类处理，得到所述预测分类结果。

4.根据权利要求1至3任一项所述的模型训练方法，其特征在于，所述样本数据还包括：噪声音频信号，所述模型训练方法还包括：

将所述噪声音频信号和所述对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征；

采用一致性损失函数，确定所述第一预测融合特征和所述第二预测融合特征的第二损失值；

根据所述第二损失值，调整所述第一融合模型的模型参数。

5.根据权利要求4所述的模型训练方法，其特征在于，所述将所述噪声音频信号和所述对话文本信息输入第二融合模型进行特征融合处理，得到第二预测融合特征，包括：

将所述噪声音频信号、所述对话语音信号和所述对话文本信息输入所述第二融合模型进行特征融合处理，得到所述第二预测融合特征。

6.根据权利要求5所述的模型训练方法，其特征在于，所述将所述噪声音频信号、所述对话语音信号和所述对话文本信息输入所述第二融合模型进行特征融合处理，得到所述第二预测融合特征，包括：

将所述对话文本信息输入所述第二融合模型的第二特征提取层进行特征提取，得到第二预测文本特征；

将所述噪声音频信号和所述对话语音信号输入所述第二融合模型的第二编码层进行编码处理，得到第二预测语音特征；

融合所述第二预测文本特征和所述第二预测语音特征，得到所述第二预测融合特征。

7.一种语音处理方法，其特征在于，应用于机器客服系统，所述语音处理方法包括：

在机器客服系统输出第一语音信号的过程中，接收第二语音信号；

将所述第一语音信号和所述第二语音信号进行信号组合处理，得到当前语音信号；

对所述当前语音信号进行文本转换，得到当前文本信息；

将所述当前文本信息和所述当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征，所述第一融合模型是权利要求1至6任一项所述的模型训练方法训练得到的；

将所述第一融合特征输入分类模型进行分类处理，得到分类结果，所述分类结果用于表征所述第二语音信号对应的用户意图是否用来打断所述第一语音信号，所述分类模型是权利要求1至6任一项所述的模型训练方法训练得到的。

8.根据权利要求7所述的语音处理方法，其特征在于，所述将所述当前文本信息和所述当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征，包括：

采用所述第一融合模型的第一特征提取层对所述当前文本信息进行特征提取，得到文本特征；

采用所述第一融合模型的第一编码层对所述当前语音信号进行编码处理，得到语音特征；

融合所述文本特征和所述语音特征，得到所述第一融合特征。

9.根据权利要求8所述的语音处理方法，其特征在于，所述采用所述第一融合模型的第一特征提取层对所述当前文本信息进行特征提取，得到文本特征，包括：

获取所述当前文本信息的历史沟通文本信息；

采用所述第一融合模型的第一特征提取层对所述当前文本信息和所述历史沟通文本信息进行特征提取，得到所述文本特征。

10.一种语音处理装置，其特征在于，应用于机器客服系统，所述语音处理装置，包括：

组合模块，用于将所述第一语音信号和所述第二语音信号进行信号组合处理，得到当前语音信号；

转换模块，用于对所述当前语音信号进行文本转换，得到当前文本信息；

融合模块，用于将所述当前文本信息和所述当前语音信号输入第一融合模型进行特征融合处理，得到第一融合特征，所述第一融合模型是权利要求1至6任一项所述的模型训练方法训练得到的；

分类模块，用于将所述第一融合特征输入分类模型进行分类处理，得到分类结果，所述分类结果用于表征所述第二语音信号对应的用户意图是否用来打断所述第一语音信号，所述分类模型是权利要求1至6任一项所述的模型训练方法训练得到的。