CN112735431B

CN112735431B - 模型训练方法和装置及人工智能对话的识别方法和装置

Info

Publication number: CN112735431B
Application number: CN202011588096.XA
Authority: CN
Inventors: 袁兆卫
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-12-22
Anticipated expiration: 2040-12-29
Also published as: CN112735431A

Abstract

本申请公开了一种模型训练方法和装置及人工智能对话的识别方法和装置，其中，模型训练方法包括：获取真人语音对话语料；遍历所述真人语音对话语料中的每轮对话数据，基于该轮对话数据，生成训练样本，并基于所述训练样本，构建真人对话训练样本集合和机器对话训练样本集合；其中，每个所述训练样本集合包括文本训练样本、语音训练样本和情感训练样本；利用所述训练样本，训练人工智能对话识别模型的文本判别器、语音判别器和情感检测器；利用所述训练样本集合，对人工智能对话识别模型的权重概率计算层进行训练，得到用于计算最终识别概率的概率权重参数。采用本申请，可以对对话对象是否为人工智能机器进行准确识别。

Description

模型训练方法和装置及人工智能对话的识别方法和装置

技术领域

本发明涉及人工智能技术，特别是涉及一种模型训练方法和装置及人工智能对话的识别方法和装置。

背景技术

随着人工智能(Artificial Intelligence，AI)技术的日新月异发展，AI技术在很多领域得到广泛应用，极大提升了人们的生活质量和工作效率，同时也带来了一些风险和挑战，出现了一些对AI的恶意应用，例如AI电话欺诈、AI电话骚扰、AI短信骚扰等。为此，需要在用户使用即时通讯时(如电话、短信等)对对话方是人类还是人工智能机器进行准确识别，以使用户可以及时识别AI的恶意应用，避免这些AI的恶意应用危害用户安全。

发明内容

有鉴于此，本发明的主要目的在于提供一种识别人工智能对话的方法和装置，可以对对话对象是否为人工智能机器进行准确识别。

为了达到上述目的，本发明实施例提出的技术方案为：

一种模型训练方法，包括：

获取真人语音对话语料；

遍历所述真人语音对话语料中的每轮对话数据，基于该轮对话数据，生成训练样本，并基于所述训练样本，构建真人对话训练样本集合和机器对话训练样本集合；其中，每个所述训练样本集合包括文本训练样本、语音训练样本和情感训练样本；

利用所述训练样本，分别对人工智能对话识别模型中的文本判别器、语音判别器和情感检测器进行训练；

利用所述训练样本集合，对所述人工智能对话识别模型的权重概率计算层进行训练，得到所述人工智能对话识别模型中用于计算最终识别概率的概率权重参数；所述概率权重参数包括所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数。

较佳地，所述对所述人工智能对话识别模型的权重概率计算层进行训练包括：

将所述训练样本集合S_k中的文本训练样本，输入至所述文本判别器处理，得到对话对象为机器的第一概率；

将所述训练样本集合S_k中的语音训练样本，输入至所述语音判别器处理，得到语音来源为机器的第二概率；

将所述训练样本集合S_k中的情感训练样本，输入至所述情感检测器处理，得到训练样本携带每种预设情感的情感概率，并基于香农信息熵和所述情感概率，得到语音来源为机器的第三概率；

利用所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数，对所述第一概率、所述第二概率和所述第三概率进行加权计算，得到第四概率，将所述第四概率作为所述人工智能对话识别模型本次训练的最终识别概率；

根据所述第四概率和所述训练样本集合S_k对应的期望值，对所述概率权重参数进行反馈调整。

较佳地，所述基于香农信息熵和所述情感概率，得到语音来源为机器的第三概率包括：

基于所述情感概率，计算得到香农信息熵H(X)；其中，P(x)表示训练样本携带第x种情感的情感概率；N表示情感种类数量；

基于所述H(X)，计算P₃＝H(X)/H_max(X)，得到所述第三概率P₃；其中，所述H_max(X)表示情感种类数量为N时的最大香农信息熵。

较佳地，所述情感包括：

悲伤、愤怒、惊奇、恐惧、喜悦、仇恨和/或平静。

较佳地，所述文本训练样本的生成包括：

将一轮对话数据转化为文本数据；

从所述文本数据中提取出对话双方各自对应的文本特征序列o_t和r_t；

将所述文本数据中与所述特征序列o_t对应的文本数据，输入至人工智能AI对话生成器，得到与所述特征序列o_t对应的机器人对话特征序列r_t'；

基于所述文本特征序列o_t和r_t，构建第一文本训练样本，并加入相应对话数据的真人对话训练样本集合；所述第一文本训练样本包括序列[o_t:r_t]和期望值参数y＝0；y表示对话对象为机器的概率；

基于所述文本特征序列o_t和r_t'，构建第二文本训练样本，并加入相应对话数据的机器对话训练样本集合；所述第二文本训练样本包括序列[o_t:r_t']和期望值参数y＝1。

较佳地，所述语音训练样本的生成包括：

从一轮对话数据中，提取出对话双方各自关于预设发音相关声学特征的特征序列o_s和r_s；

将所述特征序列o_s对应的原始对话数据输入至AI对话生成器，得到与所述特征序列o_s对应的机器人对话特征序列r_s'；

基于所述特征序列o_s和r_s，构建第一语音训练样本，并加入相应对话数据的真人对话训练样本集合；所述第一语音训练样本为语音序列[o_s:r_s:y＝0]；其中，y表示语音来源为机器的概率；

基于所述特征序列r_s'，构建第二语音训练样本，并加入相应对话数据的机器对话训练样本集合；所述第二语音训练样本为语音序列[r_s':y＝1]。

较佳地，所述发音相关声学特征包括：

短时能量Short time energy特征、基频结构Fundamental FrequencyConstruction特征、短时过零率ZCR特征、共振峰Formant特征和梅尔频率倒谱系数MFCC特征。

较佳地，所述情感训练样本的生成包括：

从一轮对话数据中，提取出对话双方各自关于预设情感相关声学特征的特征序列o_f和r_f；

将所述特征序列o_f对应的原始对话数据，输入至AI对话生成器，得到与所述特征序列o_s对应的机器人对话特征序列r_f'；

基于所述特征序列o_f，构建第一情感训练样本，并加入相应对话数据的真人对话训练样本集合；其中，所述第一情感训练样本为情感序列[o_f:e]，e表示情感分类标签；

基于所述特征序列r_f，构建第二情感训练样本；其中，所述第二情感训练样本为情感序列[r_f:e]；

基于所述特征序列r_f'，构建第三情感训练样本，并加入相应对话数据的机器对话训练样本集合；其中，所述第三情感训练样本为情感序列[r_f']。

较佳地，所述情感相关声学特征包括：

语音发音的时间差异Time construction特征、语音信号的幅度构建Amplitudeconstruction特征、基频结构Fundamental Frequency Construction特征和梅尔频率倒谱系数MFCC特征。

一种人工智能对话的识别方法，包括：

获取与对话对象进行一轮交互的对话数据；

将所述对话数据输入至预先训练的人工智能对话识别模型处理，得到所述对话对象为机器的概率并输出；其中，所述人工智能对话识别模型基于上述模型训练方法得到；所述处理包括：

如果所述交互的类型为语音交互，则利用所述人工智能对话识别模型中的文本判别器、语音判别器、情感检测器和权重概率计算层，对所述对话数据进行处理，得到所述对话对象为机器的概率；

如果所述交互的类型为文本交互，则利用所述人工智能对话识别模型中的文本判别器对所述对话数据进行处理，得到所述对话对象为机器的概率。

较佳地，所述方法进一步包括：

当所述交互的类型为语音交互，且所述对话对象为机器的概率小于预设第一阈值时，输出提示信息；其中，所述提示信息用于提醒用户降低说话语速、咬字清晰和/或降低语义难度。

较佳地，所述方法进一步包括：

当所述对话对象为机器的概率在预设的模糊阈值范围内时，从预设的建议问题库中选择一问题并输出提示信息，并触发基于新一轮交互的对话数据，利用所述人工智能对话识别模型，确定所述对话对象为机器的概率；所述提示信息用于提醒用户向对话对象询问所选择的问题。

较佳地，所述方法进一步包括：

在输出所述对话对象为机器的概率之后，输出识别结果是否正确的询问信息；

当接收到用户的识别结果有误的反馈信息时，触发基于所述对话数据、所述对话对象为机器的概率以及所述反馈信息，对所述人工智能对话识别模型进行再训练。

较佳地，所述方法进一步包括：

当所述交互的类型为语音交互，且所述对话数据为用户的自动接听电话工具与所述对话对象之间交互的语音数据时，如果所述对话对象为机器的概率小于预设的真人阈值，则输出用于提醒用户接听电话的提示信息；否则，触发用户确认是否需要挂断电话，并在接收到用户的挂机指令时，挂断电话。

本申请实施例还公开了一种模型训练装置，包括：

语料获取单元，用于获取真人语音对话语料；

样本生成单元，用于遍历所述真人语音对话语料中的每轮对话数据，基于该轮对话数据，生成训练样本，并基于所述训练样本，构建真人对话训练样本集合和机器对话训练样本集合；其中，每个所述训练样本集合包括文本训练样本、语音训练样本和情感训练样本；

第一训练单元，用于利用所述训练样本，分别对人工智能对话识别模型中的文本判别器、语音判别器和情感检测器进行训练；

第二训练单元，用于利用所述训练样本集合，对所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数进行训练，得到所述人工智能对话识别模型中用于计算最终识别概率的概率权重参数。

本申请实施例还公开了一种人工智能对话的识别装置，包括：

数据获取单元，用于获取与对话对象进行一轮交互的对话数据；

第一识别单元，用于如果所述交互的类型为语音交互，则将所述对话数据输入至预先训练的人工智能对话识别模型处理，得到所述对话对象为机器的概率并输出；其中，所述人工智能对话识别模型基于前述任一训练方法得到；

第二识别单元，用于如果所述交互的类型为文本交互，则将所述对话数据输入至所述人工智能对话识别模型中的文本判别器处理，得到所述对话对象为机器的概率并输出。

本申请实施例还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的模型训练方法的步骤。

本申请实施例还公开了一种电子设备，包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

本申请实施例还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的人工智能对话的识别方法的步骤。

由上述技术方案可见，本申请实施例提出的模型训练方法和装置及人工智能对话的识别方法和装置，利用人工智能对话识别模型中的文本判别器、语音判别器和情感检测器各自输出的概率，采用权重计算的方式，确定对话对象为机器的最终概率。如此，可以充分利用人与机器在文本、语音以及情感等方面的特征差异，对对话对象是否为人工智能机器进行准确识别。另外，本申请实施例既可以支持语音对话场景也支持文本对话场景，因此，具有广泛的应用性。

附图说明

图1为本发明实施例一的模型训练方法流程示意图；

图2为本发明实施例的文本判别器结构示意图；

图3为本发明实施例的语音判别器的框架示意图；

图4为本发明实施例中利用情感训练样本得到第三概率的处理过程示意图；

图5为本发明实施例二的人工智能对话的识别方法流程示意图；

图6～图11为本发明实施例二分别在场景一至场景六中的应用示意图；

图12为本发明实施例的模型训练装置结构示意图；

图13为本发明实施例的人工智能对话的识别装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例一的模型训练方法流程示意图，如图1所示，该实施例实现的模型训练方法主要包括：

步骤101、获取真人语音对话语料。

本步骤，用于获取真人之间的历史对话数据，以便在后续步骤中基于这些数据生成用于训练模型的样本数据。

步骤102、遍历所述真人语音对话语料中的每轮对话数据，基于该轮对话数据，生成训练样本，并基于所述训练样本，构建真人对话训练样本集合和机器对话训练样本集合。

其中，每个所述训练样本集合包括文本训练样本、语音训练样本和情感训练样本。

步骤102中，将基于步骤101中所获取的真人语音对话语料中的每轮对话数据，生成训练样本，以及真人对话训练样本集合和机器对话训练样本集合。其中，为了便于对模型中权重概率计算层的权重参数进行单独训练，这里需要专门生成真人对话训练样本集合和机器对话训练样本集合。

这里需要说明的是，一轮对话数据是指对话双方进行一轮交互产生的对话数据。

在一个实施方式中，具体可以采用下述方法基于一轮对话数据生成文本训练样本：

步骤x1、将一轮对话数据转化为文本数据。

具体地，本步骤中可以采用现有的语音数据转文本数据的方法实现，在此不再赘述。

步骤x2、从所述文本数据中提取出对话双方各自对应的文本特征序列o_t和r_t。

本步骤用于从当前处理的一轮对话的文本数据中提取出对话双方各自对应文本的文本特征序列o_t和r_t。o_t和r_t将组成一个信息对[o_t:r_t]。

具体地，可以采用现有的N-Gram或独热编码等方法，或者训练一个深度网络(如循环神经网络(RNN)、深度信念网络(DBN)等)，将文本数据转换为上述文本特征序列o_t和r_t。

步骤x3、将所述文本数据中与所述特征序列o_t对应的文本数据，输入至人工智能(AI)对话生成器，得到与所述特征序列o_t对应的机器人对话特征序列r_t'。

本步骤中，将基于一轮对话中先讲话方的特征序列o_t对应的原始文本数据，利用AI对话生成器，生成对应的机器人对话的特征序列r_t'，以在后续步骤中构建人机对话的信息对[o_t:r_t']，即得到人机对话样本数据。

步骤x4、基于所述文本特征序列o_t和r_t，构建第一文本训练样本，并加入相应对话数据的真人对话训练样本集合；所述第一文本训练样本包括序列[o_t:r_t]和期望值参数y＝0；y表示对话对象为机器的概率。

本步骤用于构建真人之间对话的训练样本，即第一文本训练样本，由于样本中的数据为真人之间的交互数据，因此，该训练样本的期望值y为0。

步骤x5、基于所述文本特征序列o_t和r_t'，构建第二文本训练样本，并加入相应对话数据的机器对话训练样本集合；所述第二文本训练样本包括序列[o_t:r_t']和期望值参数y＝1。

本步骤用于构建人与机器之间对话的训练样本，即第二文本训练样本，由于样本中的数据为人与机器之间的交互数据，因此，该训练样本的期望值y为1。

在一个实施方式中，具体可以采用下述方法基于一轮对话数据生成语音训练样本：

步骤y1、从一轮对话数据中，提取出对话双方各自关于预设发音相关声学特征的特征序列o_s和r_s。

这里需要说明的是，人类发音韵律自然，节奏稳定，但是，机器发音很难做到这一点，机器合成的语音往往韵律死板、节奏不稳定。基于该人机发音的区别特点，本申请实施例中将以影响发音韵律和节奏的发音相关声学特征，作为检测是否为机器发音的重要指标，以提高机器对话识别的能力。

较佳地，为了提高语音识别的准确性，上述发音相关声学特征可以具体包括下述特征，但不限于此：

短时能量(Short time energy)特征、基频结构(Fundamental FrequencyConstruction)特征、短时过零率(ZCR)特征、共振峰(Formant)特征和梅尔频率倒谱系数(MFCC)特征。

其中，Short time energy:体现的是信号在不同时刻的强弱程度。

Fundamental Frequency Construction：反映了声门相邻两次开闭之间的时间间隔或开闭的频率。

Zero Crossing Rate:指语音信号的符号变化的比率，例如，信号从正数变成负数或从负数变化为正数。

Formant:指当声门处准周期脉冲激励进入声道时会引起共振，产生一组共振频率。这一组共振频率称为共振峰频率或简称共振峰，共振峰是反映声道谐振特性的重要特征，它携带了声音的辨识属性，代表了发音信息的最直接的来源

MFCC：该特征能够准确描述声道形状在语音短时功率谱的包络，是语音识别领域最重要的参考特征之一。

步骤y2、将所述特征序列o_s对应的原始对话数据输入至AI对话生成器，得到与所述特征序列o_s对应的机器人对话特征序列r_s'。

这里，特征序列o_s对应的原始对话数据即步骤y1使用的所述对话数据中与特征序列o_s对应的对话数据。

步骤y3、基于所述特征序列o_s和r_s，构建第一语音训练样本，并加入相应对话数据的真人对话训练样本集合；所述第一语音训练样本为语音序列[o_s:r_s:y＝0]；其中，y表示语音来源为机器的概率。

本步骤中构建的第一语音训练样本是基于人与人对话的特征序列o_s和r_s生成的，因此，第一语音训练样本对应的期望参数y为0，表示语音来源为机器的概率为0。

步骤y4、基于所述特征序列r_s'，构建第二语音训练样本，并加入相应对话数据的机器对话训练样本集合；所述第二语音训练样本为语音序列[r_s':y＝1]。

本步骤中构建的第二语音训练样本是基于机器产生的特征序列r_s'构建的，因此，第二语音训练样本的期望参数y为1，表示语音来源为机器的概率为1。

在一个实施方式中，具体可以采用下述方法基于一轮对话数据生成情感训练样本：

步骤z1、从一轮对话数据中，提取出对话双方各自关于预设情感相关声学特征的特征序列o_f和r_f。

这里需要说明的是，人类情感大致分为：悲伤、愤怒、惊奇、恐惧、喜悦、仇恨和平静7种类型，考虑到人类在正常对话中能准确表达自己的情感，而机器则难做到，基于该区别，本发明实施例中引入了关于预设情感相关声学特征的提取，以便基于这些特征提高机器识别的准确性。

较佳地，上述情感相关声学特征可以具体包括下述特征，但不限于此：

语音发音的时间差异(Time construction)特征、语音信号的幅度构建(Amplitude construction)特征、基频结构(Fundamental Frequency Construction)特征和梅尔频率倒谱系数(MFCC)特征。

其中，Time construction特征是指语音发音的时间差异。当人们表达不同的情感时，时间结构不同，主要体现在两个方面：连续发音时间长度和平均发音率。与平静的发音时间相比，欢乐，愤怒和惊奇的发音时间大大缩短。但是，与平静的发音时间相比，悲伤的发音时间更长。

Amplitude construction特征和语音情感状态有直接的联系。当说话者生气或高兴时，讲话的音量通常很高。当说话者伤心或沮丧时，语音音量通常较低。

Fundamental Frequency Construction特征在不同的情感下呈现的曲线不同。对于同一句子，如果表达的情感不同，则基本频率曲线也不同。当说话者处于幸福状态时，语音的基本频率曲线通常会向上弯曲；并且当说话者处于悲伤状态时，语音的基本频率曲线通常向下弯曲。

对于具有不同情感的句子而言，所具有的MFCC特征也不一样，因此，这里，引入MFCC特征能进一步提高情感识别的准确率。

步骤z2、将所述特征序列o_f对应的原始对话数据，输入至AI对话生成器，得到与所述特征序列o_s对应的机器人对话特征序列r_f'。

这里，特征序列o_f对应的原始对话数据即步骤z1中的所述对话数据中与特征序列o_f对应的对话数据。

步骤z3、基于所述特征序列o_f，构建第一情感训练样本，并加入相应对话数据的真人对话训练样本集合；其中，所述第一情感训练样本为情感序列[o_f:e]，e表示情感分类标签。

步骤z4、基于所述特征序列r_f，构建第二情感训练样本；其中，所述第二情感训练样本为情感序列[r_f:e]。

步骤z5、基于所述特征序列r_f'，构建第三情感训练样本，并加入相应对话数据的机器对话训练样本集合；其中，所述第三情感训练样本为情感序列[r_f']。

采用上述生成训练样本方法，可以得到每轮对话数据对应的真人对话训练样本集合和机器对话训练样本集合。由于真人对话训练样本集合中训练样本的期望值为0，相应的，真人对话训练样本集合的期望值也为0。同样的，由于机器对话训练样本集合中训练样本的期望值为1，相应的，机器对话训练样本集合的期望值也为1。

步骤103、利用所述训练样本，分别对人工智能对话识别模型中的文本判别器、语音判别器和情感检测器进行训练。

本步骤中，将基于训练样本的类型，利用步骤102中得到的训练样本，分别对相应的判别器或检测器进行训练，即利用文本训练样本，训练文本判别器，利用语音训练样本，训练语音判别器，利用情感训练样本，训练情感检测器。

在实际应用中可以利用现有方法构建上述文本判别器、语音判别器和情感检测器。例如，可以利用RNN里面的encoder-decoder结构中的encoder部分实现文本判别器，即输入为一组序列，输出为一个数字：P1，即序列r来自机器的概率。图2为本发明实施例基于RNN实现的文本判别器结构示意图。如图2所示，将o和r作为两组序列持续输入到文本判别器中，并保持上下文记忆，最后通过一个全连接层输出一个数字，表示在o既定的情况下，r是机器输出的概率P1。其中，o由o₁、o₂、o₃和o₄组成，r由r₁、r₂、r₃和r₄组成。对应的损失函数P_d为：

在一个实施方式中，可以采用深度置信网络(DBN)与支持向量机(SVN)分类器的组合实现上述语音判别器。图3给出了该语音判别器的框架示意图。将语音训练样本输入至该语音判别器，即可得到样本的来源为机器的概率。

其中，DBN利用连续帧的语音信号提取出和上文描述的与语音韵律/节奏特征相关的高维特征向量，作为SVM的输入；SVM将分别输出声音来源是人类和机器的得分，最后，再通过基于分类得分的分类概率计算函数(如Softmax函数)计算得出声音来源是机器的概率P2。

在一个实施方式中，也可以采用DBN与SVN分类器的组合实现上述情感检测器。其框架与图3所示的语音判别器框架相同。将情感训练样本输入至情感检测器中处理，即可输出该样本对应的各预设情感类别的概率。

其中，DBN将从输入的情感训练样本中提取出与上述情感相关声学特征相关的高维特征向量，作为SVM的输入，该高维特征向量能够充分描述情感语音特征之间的相关性。SVM分类器将基于输入的高维特征向量进行情感类型识别，最终通过softmax函数计算得出当前训练样本具有各种情感类别的概率。

步骤104、利用所述训练样本集合，对所述人工智能对话识别模型的权重概率计算层进行训练，得到所述人工智能对话识别模型中用于计算最终识别概率的概率权重参数；所述概率权重参数包括所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数。

本步骤中将利用步骤102中基于每轮对话数据得到的真人对话训练样本集合和机器对话训练样本集合，对所述人工智能对话识别模型的权重概率计算层进行训练，以获得文本判别器、语音判别器和情感检测器各自对应的概率权重参数，从而可以确保基于这些概率权重参数，对文本判别器、语音判别器和情感检测器各自输出的概率结果进行权重计算，可以得到更准确的最终识别概率，进而可以保障最终训练得到的人工智能对话识别模型对机器对话的识别能力。

在一个实施方式中，步骤104中具体可以采用下述方法，利用一个上述训练样本集合(即真人对话训练样本集合或机器对话训练样本集合)，对人工智能对话识别模型的权重概率计算层进行训练：

上述方法中，在利用一训练样本集合S_k对人工智能对话识别模型的权重概率计算层进行训练时，先分别将集合中的训练样本输入至对应的文本判别器、语音判别器或情感检测器处理，得到三个概率值，即第一概率、第二概率和第三概率，然后再将这三个概率值输入至权重概率计算层，权重概率计算层将基于这三个概率值采用权重计算的方式，得到本次基于训练样本集合S_k训练的最终识别概率，最后基于该最终识别概率和训练样本集合S_k的期望参数值，可以计算出相应的损失函数值，这样，基于本次得到的损失函数值再对权重概率计算层中文本判别器、语音判别器和情感检测器各自对应的概率权重参数进行反馈调整，即可使得调整后的概率权重参数能提高权重概率计算层输出的最终识别概率的准确性。上述反馈调整的具体实现为本领域技术人员所掌握，在此不再赘述。

在上述对人工智能对话识别模型的权重概率计算层进行训练的方法中，在将情感训练样本输入至所述情感检测器处理，得到训练样本携带每种预设情感的情感概率之后，还需要基于这些情感概率和香农信息熵，得到语音来源为机器的第三概率，如此，可以利用真人语音与机器语音在信息熵方面的差异性，保障第三概率的准确性。图4为本发明实施例中利用情感训练样本得到第三概率的处理过程示意图。如图4所示，在情感检测器通过softmax函数计算得出当前训练样本对应的各种情感类别的概率后，需要输入至分类评价器处理，该分类评价器将基于输入的情感概率和香农信息熵，得到语音来源为机器的第三概率。

具体可以采用下述方法基于香农信息熵和所述情感概率，得到语音来源为机器的第三概率：

这里需要说明的是，上述公式的现实意义是：越确定的事情其信息熵(信息量)越小，越不确定的事情其信息熵越大，如下表所示，如果每个情感分类的概率都是一样的，则其不确定性最大，信息熵也达到最大值2.8，如果感情分类100％确定是某个类别，则其信息熵也达到最小值0。人类发音一般表达的情感比较清晰，即表达的情感类型更明确，因此，其信息熵会比较小，而机器发音表达的情感会比较模糊不清，因此，其信息熵会比较大。基于此，在上述方法中，定义第三概率的计算公式为P₃＝H(X)/H_max(X)，即将对话过程中对话对象的语音情感分类的信息熵实际值H(X)除以信息熵的最大值H_max(X)。公式P₃＝H(X)/H_max(X)的现实意义是：对方语音所表达的情感的确定性越大，越不可能是机器人；确定性越小，越有可能是机器人。这样，通过利用真人与机器的上述信息熵区别特征，结合香农信息熵对情感检测器处理得到的各种情感类别的概率进行处理，可以进一步提高情感识别结果(即语音来源为机器的第三概率)的准确性。

表1

基于上述实施例一实现的模型训练方法，本申请实施例二还提出了一种人工智能对话的识别方法，如图5所示，该人工智能对话的识别方法主要包括：

步骤501、获取与对话对象进行一轮交互的对话数据。

步骤502、将所述对话数据，输入至预先训练的人工智能对话识别模型处理，得到所述对话对象为机器的概率并输出。

其中，所述人工智能对话识别模型基于上述模型训练方法得到；具体的，所述处理包括：

利用上述人工智能对话的识别方法，将一轮对话数据输入至已训练好的人工智能对话识别模型中处理，即可得到对话对象为机器的概率。该方法中，当对话双方采用语音方式交互时，需要综合文本判别器、语音判别器、情感检测器各自输出的概率，利用权重概率计算层对这些概率进行处理，得到对话对象为机器的最终概率。这样，通过综合语音、文本和情感三种识别手段的处理结果，可以有效提高最终识别结果的准确性。而当对话双方采用文本方式交互时，可以仅利用人工智能对话识别模型中的文本判别器对文本对话数据进行处理，该文本判别器的处理结果即为当前对话中对话对象为机器的概率。因此，上述人工智能对话的识别方法既可以支持语音对话中对话对象为机器的识别也支持文本对话中对话对象为机器的识别，从而具有广泛的应用场景。下面结合几种具体场景对上述识别方法的具体应用进行详细说明：

场景一、判断文本对话的对象：

如图6所示，该场景中，可以持续将对话双方的文本输入到训练好的人工智能对话识别模型中的文本判别器进行处理，进而可以得到对话对象是机器的概率，用户根据该概率可以决定下一步对话策略，是终止对话，还是降低对话难度。

场景二、判断语音对话的对象

如图7所示，该场景中对话双方采用语音交互的方式，此时，可以持续将对话双方的语音输入到训练好的人工智能对话识别模型处理，用户终端将基于模型输出的对话对象为机器的概率，在对话界面中显示对话对象是否为机器的提示信息。

场景三、对话对象为机器人时的说话策略提示：

如图8所示，该场景中对话双方采用语音交互的方式，此时，可以持续将对话双方的语音输入到训练好的人工智能对话识别模型处理，当模型输出的对话对象为机器的概率小于预设第一阈值时，可以在用户界面显示提示信息，以提醒用户降低说话语速、咬字清晰和/或降低语义难度。

场景四、请求用户帮助判别

如图9所示，该场景中可以持续将对话双方的文本/语音输入到训练好的人工智能对话识别模型处理，如果模型输出的当所述对话对象为机器的概率在预设的模糊阈值范围内，则不能明显判断出对方是人类或者机器，此时可以主动提示用户发问，以帮助模型再次进行更好地判别，具体操作可以为：从预设的建议问题库中选择一问题并输出提示信息，并触发基于新一轮交互的对话数据，利用所述人工智能对话识别模型，再次确定所述对话对象为机器的概率；所述提示信息用于提醒用户向对话对象询问所选择的问题。

场景五、用户手动纠正判别错误

如图10所示，该场景中可以持续将对话双方的文本/语音输入到训练好的人工智能对话识别模型处理，在模型输出对话对象为机器的概率之后，可以输出识别结果是否正确的询问信息；当接收到用户的识别结果有误的反馈信息时，将触发利用此次通话内容作为样本数据对模型进行优化训练，即触发基于所述对话数据、所述对话对象为机器的概率以及所述反馈信息，对所述人工智能对话识别模型进行再训练。

场景六、自动接听电话

如图11所示，该场景中当用户终端接收到陌生来电后，可以通过自动接听电话工具帮用户接听该陌生来电，可以持续将对话双方的文本/语音输入到训练好的人工智能对话识别模型处理，在模型输出对话对象为机器的概率之后，如果该对话对象为机器的概率小于预设的真人阈值，则输出用于提醒用户接听电话的提示信息；否则，触发用户确认是否需要挂断电话，并在接收到用户的挂机指令时，挂断电话。

与上述实施例一相对应，本申请实施例还公开了一种模型训练装置，如图12所示，该装置包括：

语料获取单元1201，用于获取真人语音对话语料；

样本生成单元1202，用于遍历所述真人语音对话语料中的每轮对话数据，基于该轮对话数据，生成训练样本，并基于所述训练样本，构建真人对话训练样本集合和机器对话训练样本集合；其中，每个所述训练样本集合包括文本训练样本、语音训练样本和情感训练样本；

第一训练单元1203，用于利用所述训练样本，分别对人工智能对话识别模型中的文本判别器、语音判别器和情感检测器进行训练；

第二训练单元1204，用于利用所述训练样本集合，对所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数进行训练，得到所述人工智能对话识别模型中用于计算最终识别概率的概率权重参数。

与上述实施例二相对应，本申请实施例还公开了一种人工智能对话的识别装置，如图13所示，该装置包括：

数据获取单元1301，用于获取与对话对象进行一轮交互的对话数据；

第一识别单元1302，用于如果所述交互的类型为语音交互，则将所述对话数据输入至预先训练的人工智能对话识别模型处理，得到所述对话对象为机器的概率并输出；其中，所述人工智能对话识别模型基于前述任一训练方法得到；

第二识别单元1303，用于如果所述交互的类型为文本交互，则将所述对话数据输入至所述人工智能对话识别模型中的文本判别器处理，得到所述对话对象为机器的概率并输出。

此外，基于上述实施例一，本申请实施例还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的模型训练方法的步骤。

相应的，本申请实施例还公开了一种电子设备，包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

基于上述实施例二，本申请实施例还公开了一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如前所述的人工智能对话的识别方法的步骤。

相应的本申请实施例还公开了一种电子设备，包括如前所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

上述实施例中，存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASiC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型训练方法，其特征在于，包括：

获取真人语音对话语料；

利用所述训练样本集合，对所述人工智能对话识别模型的权重概率计算层进行训练，得到所述人工智能对话识别模型中用于计算最终识别概率的概率权重参数；所述概率权重参数包括所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数；

其中，所述机器对话训练样本集合中文本训练样本的构建包括：

基于一轮对话中先讲话方的文本特征序列o_t对应的原始文本数据，利用AI对话生成器，生成对应的机器人对话的特征序列r_t'，基于所述文本特征序列o_t和所述特征序列r_t'，构建文本训练样本，并加入相应对话数据的机器对话训练样本集合；

所述机器对话训练样本集合中语音训练样本的构建包括：

基于一轮对话中先讲话方关于预设发音相关声学特征的特征序列o_s对应的原始对话数据，利用AI对话生成器，生成对应的机器人对话特征序列r_s'，基于所述机器人对话特征序列r_s'，构建语音训练样本，并加入相应对话数据的机器对话训练样本集合；

所述机器对话训练样本集合中情感训练样本的构建包括：

基于一轮对话中先讲话方关于预设情感相关声学特征的特征序列o_f对应的原始对话数据，利用AI对话生成器，生成对应的机器人对话特征序列r_f'，基于所述机器人对话特征序列r_f'，构建情感训练样本，并加入相应对话数据的机器对话训练样本集合；所述对所述人工智能对话识别模型的权重概率计算层进行训练包括：

2.根据权利要求1所述的方法，其特征在于，所述基于香农信息熵和所述情感概率，得到语音来源为机器的第三概率包括：

3.根据权利要求2所述的方法，其特征在于，所述情感包括：

悲伤、愤怒、惊奇、恐惧、喜悦、仇恨和/或平静。

4.根据权利要求1所述的方法，其特征在于，所述文本训练样本的生成包括：

将一轮对话数据转化为文本数据；

5.根据权利要求1所述的方法，其特征在于，所述语音训练样本的生成包括：

6.根据权利要求5所述的方法，其特征在于，所述发音相关声学特征包括：

短时能量Short time energy特征、基频结构Fundamental Frequency Construction特征、短时过零率ZCR特征、共振峰Formant特征和梅尔频率倒谱系数MFCC特征。

7.根据权利要求1所述的方法，其特征在于，所述情感训练样本的生成包括：

8.根据权利要求7所述的方法，其特征在于，所述情感相关声学特征包括：

9.一种人工智能对话的识别方法，其特征在于，包括：

获取与对话对象进行一轮交互的对话数据；

将所述对话数据输入至预先训练的人工智能对话识别模型处理，得到所述对话对象为机器的概率并输出；其中，所述人工智能对话识别模型基于权利要求1至8任一项所述模型训练方法得到；所述处理包括：

10.根据权利要求9所述的方法，其特征在于，所述方法进一步包括：

11.根据权利要求9所述的方法，其特征在于，所述方法进一步包括：

12.根据权利要求9所述的方法，其特征在于，所述方法进一步包括：

13.根据权利要求9所述的方法，其特征在于，所述方法进一步包括：

14.一种模型训练装置，其特征在于，包括：

语料获取单元，用于获取真人语音对话语料；

样本生成单元，用于遍历所述真人语音对话语料中的每轮对话数据，基于该轮对话数据，生成训练样本，并基于所述训练样本，构建真人对话训练样本集合和机器对话训练样本集合；其中，每个所述训练样本集合包括文本训练样本、语音训练样本和情感训练样本；所述机器对话训练样本集合中文本训练样本的构建包括：基于一轮对话中先讲话方的文本特征序列o_t对应的原始文本数据，利用AI对话生成器，生成对应的机器人对话的特征序列r_t'，基于所述文本特征序列o_t和所述特征序列r_t'，构建文本训练样本，并加入相应对话数据的机器对话训练样本集合；所述机器对话训练样本集合中语音训练样本的构建包括：基于一轮对话中先讲话方关于预设发音相关声学特征的特征序列o_s对应的原始对话数据，利用AI对话生成器，生成对应的机器人对话特征序列r_s'，基于所述机器人对话特征序列r_s'，构建语音训练样本，并加入相应对话数据的机器对话训练样本集合；所述机器对话训练样本集合中情感训练样本的构建包括：基于一轮对话中先讲话方关于预设情感相关声学特征的特征序列o_f对应的原始对话数据，利用AI对话生成器，生成对应的机器人对话特征序列r_f'，基于所述机器人对话特征序列r_f'，构建情感训练样本，并加入相应对话数据的机器对话训练样本集合；

第二训练单元，用于利用所述训练样本集合，对所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数进行训练，得到所述人工智能对话识别模型中用于计算最终识别概率的概率权重参数；其中，所述训练包括：将所述训练样本集合S_k中的文本训练样本，输入至所述文本判别器处理，得到对话对象为机器的第一概率；将所述训练样本集合S_k中的语音训练样本，输入至所述语音判别器处理，得到语音来源为机器的第二概率；将所述训练样本集合S_k中的情感训练样本，输入至所述情感检测器处理，得到训练样本携带每种预设情感的情感概率，并基于香农信息熵和所述情感概率，得到语音来源为机器的第三概率；利用所述文本判别器、所述语音判别器和所述情感检测器各自对应的概率权重参数，对所述第一概率、所述第二概率和所述第三概率进行加权计算，得到第四概率，将所述第四概率作为所述人工智能对话识别模型本次训练的最终识别概率；根据所述第四概率和所述训练样本集合S_k对应的期望值，对所述概率权重参数进行反馈调整。

15.一种人工智能对话的识别装置，其特征在于，包括：

第一识别单元，用于如果所述交互的类型为语音交互，则将所述对话数据输入至预先训练的人工智能对话识别模型处理，得到所述对话对象为机器的概率并输出；其中，所述人工智能对话识别模型基于权利要求1至8任一项所述模型训练方法得到；

16.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至8任一项所述模型训练方法的步骤。

17.一种电子设备，其特征在于，包括如权利要求16所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。

18.一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求9至13任一项所述人工智能对话的识别方法的步骤。

19.一种电子设备，其特征在于，包括如权利要求18所述的非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。