CN116151834A

CN116151834A - 对话特征表示方法和装置以及模型训练方法和装置

Info

Publication number: CN116151834A
Application number: CN202210922786.7A
Authority: CN
Inventors: 汪自立; 蒋宁; 吴海英
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2023-05-23

Abstract

本说明书实施例提供一种对话特征表示方法和装置以及模型训练方法和装置。一种模型训练方法可包括：获取训练对话语料以及训练对话语料中每个训练对话语料对应的标注类别标签，训练对话语料中不包括非文本对话语料；将训练对话语料输入至教师模型，得到训练对话语料对应的第一编码特征向量和预测类别标签，其中，第一编码特征向量为教师模型的编码网络层的输出，预测类别标签为教师模型的输出结果；将训练对话语料输入至学生模型，得到训练对话语料对应的第二编码特征向量；根据标注类别标签、预测类别标签、第一编码特征向量和第二编码特征向量，确定第一损失；基于第一损失，调整学生模型的参数。

Description

对话特征表示方法和装置以及模型训练方法和装置

技术领域

本公开涉及人工智能领域，尤其涉及一种对话特征表示方法和对话特征表示装置、以及模型训练方法和模型训练装置。

背景技术

近年来，随着电子技术的发展，越来越多的用户通过线上对话的方式完成资源交互。例如，传统的线下资源销售面临瓶颈，进而线上销售变得越发重要。在线上销售中，各个销售平台广泛应用实时聊天技术进行资源交互。在这种情况下，如果能够从聊天信息中获取对话特征表示，并将对话特征表示返回给业务系统，则可使业务系统有效地进行下游任务计算，例如，业务系统可利用对话特征表示，预测用户对资源的交互意愿、预测用户对客服的服务质量评价、或者进行个性化用户分流等。

然而，对于这种多媒体的对话信息进行特征表示一直是线上资源交互的重要问题。

发明内容

本公开提供一种对话特征表示方法和对话特征表示装置以及模型训练方法和模型训练装置，以至少解决如何获得更加准确的对话特征表示的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供了一种模型训练方法，所述训练方法可包括：获取训练对话语料以及所述训练对话语料中每个训练对话语料对应的标注类别标签，所述训练对话语料中不包括非文本对话语料；将所述训练对话语料输入至教师模型，得到所述训练对话语料对应的第一编码特征向量和预测类别标签，其中，所述第一编码特征向量为所述教师模型的编码网络层的输出，所述预测类别标签为所述教师模型的输出结果；将所述训练对话语料输入至学生模型，得到所述训练对话语料对应的第二编码特征向量；根据所述标注类别标签、所述预测类别标签、所述第一编码特征向量和所述第二编码特征向量，确定第一损失；基于所述第一损失，调整所述学生模型的参数。

根据本公开实施例的第二方面，提供了一种对话特征表示方法，可包括：获取用户的多媒体会话中的待处理对话语料；对所述待处理对话语料进行处理，得到处理后的对话语料，其中，所述处理后的对话语料中不包括非文本对话语料；将所述处理后的对话语料输入至学生模型，得到所述处理后的对话语料的编码特征向量。

根据本公开实施例的第三方面，提供了一种用户意图的预测方法，可包括：获取用户的多媒体会话中的待处理对话语料；对所述待处理对话语料进行处理，得到处理后的对话语料，其中，所述处理后的对话语料中不包括非文本对话语料；将所述处理后的对话语料输入至学生模型，得到所述处理后的对话语料的编码特征向量，根据所述处理后的对话语料的编码特征向量用于预测所述用户的交互意图。

根据本公开实施例的第四方面，提供了一种模型训练装置，所述训练装置可包括：数据获取模块，被配置为获取训练对话语料以及所述训练对话语料中每个训练对话语料对应的标注类别标签，所述训练对话语料中不包括非文本对话语料；模型训练模块，被配置为：将所述训练对话语料输入至教师模型，得到所述训练对话语料对应的第一编码特征向量和预测类别标签，其中，所述第一编码特征向量为所述教师模型的编码网络层的输出，所述预测类别标签为所述教师模型的输出结果；将所述训练对话语料输入至学生模型，得到所述训练对话语料对应的第二编码特征向量；根据所述标注类别标签、所述预测类别标签、所述第一编码特征向量和所述第二编码特征向量，确定第一损失；基于所述第一损失，调整所述学生模型的参数。

根据本公开实施例的第五方面，提供了一种对话特征表示装置，可包括：数据接收模块，被配置为获取用户的多媒体会话中的待处理对话语料；数据处理模块，被配置为对所述待处理对话语料进行处理，得到处理后的对话语料，其中，所述处理后的对话语料中不包括非文本对话语料；数据计算模块，被配置为将所述处理后的对话语料输入至学生模型，得到所述处理后的对话语料的编码特征向量。

根据本公开实施例的第六方面，提供了一种用户意图的预测方法，可包括：数据接收模块，被配置为获取用户的多媒体会话中的待处理对话语料；数据处理模块，被配置为对所述待处理对话语料进行处理，得到处理后的对话语料，其中，所述处理后的对话语料中不包括非文本对话语料；数据计算模块，被配置为将所述处理后的对话语料输入至学生模型，得到所述处理后的对话语料的编码特征向量，根据所述处理后的对话语料的编码特征向量用于预测所述用户的交互意图。

根据本公开实施例的第七方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的对话特征表示方法和模型训练方法。

根据本公开实施例的第八方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的对话特征表示方法和模型训练方法。

根据本公开实施例的第九方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的对话特征表示方法和模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开考虑到对话语料中的非文本信息，将非文本对话语料转化为文本对话语料，可提高用于模型训练的样本数据的准确度并且增大了样本数据的有效信息率，因此使用不包括非文本的对话语料来训练学生模型，使得训练好的学生模型能够输出更加准确的对话特征表示，以提升下游任务的性能。

此外，本公开引入教师模型，训练用于预测对话语料的特征表示的学生模型，使得本公开训练出的学生模型具有更好的语义表示效果；同时，也使本公开的学生模型具有计算量小且计算速度快的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开的实施例的对话表示模型训练方法的实施环境的示意图；

图2是根据本公开的实施例的对话表示模型的训练方法的流程图；

图3是根据本公开的实施例的标注训练对话语料的流程图；

图4示出根据本公开的实施例对对话数据进行分割的示意图；

图5是根据本公开的实施例对非文本对话语料进行文本提取的流程图；

图6是根据本公开的实施例的对文本信息进行预处理的流程图；

图7示出根据本公开的实施例的教师模型的示意图；

图8示出根据本公开的实施例的对话表示模型的示意图；

图9是根据本公开的实施例的对话特征表示方法的流程图；

图10是根据本公开的实施例的对话特征表示装置的框图；

图11是根据本公开的实施例的对话表示模型的训练装置的框图；

图12是根据本公开的实施例的用户意图的预测方法的流程图；

图13是根据本公开的实施例的对话表示设备的结构示意图；

图14是根据本公开的实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在进行线上对话时，交互的信息介质不仅包含文本信息，也可能包含语音、视频、链接等非文本信息。然而，在对话特征表示的相关技术中，一般仅利用对话中的文本信息进行对话特征表示，而忽略了对话中的非文本信息，导致对话特征表示的效果差。

本公开充分利用对话中的诸如链接信息、图片信息、音视频信息等非文本信息对对话进行特征表示，相比于现有的对话特征表示方法，本公开的对话特征表示更加准确，从而提升下游任务的性能。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置和设备进行详细描述。

图1是根据本公开的实施例的对话表示模型训练方法的实施环境的示意图。在本公开中，对话表示模型也可被称为学生模型。

参照图1，该应用环境100包括终端110和服务器120。

终端110为用户所在终端，终端110可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。虽然本实施例仅示出一个终端110进行说明，但是本领域技术人员可知晓，上述终端的数量可以为一个或两个以上。本公开实施例不对终端的数量和设备类型进行任何限定。

终端110可安装有目标应用，诸如聊天软件、资源交互软件等，并且可向服务器120提供各种信息，诸如会话数据等。

终端110可通过无线网络与服务器120连接，使得终端110与服务器120之间可进行数据交互。例如，网络可包含局域网(LAN)、广域网(WAN)、无线链路、内联网、互联网或其组合等。此外，终端110也可通过有线网络与服务器120连接，以进行数据交互。

服务器120可以是用于根据接收到的终端数据训练对话表示模型的服务器。例如，服务器120可包括接口、数据库、显示器以及处理器等。上述示例仅是示例性的，本公开不限于此。服务器120可从终端110接收会话数据，对接收的会话数据进行数据处理，并且利用处理后的样本数据训练对话表述模型。来自终端110的各种信息可被实时地发送至服务器120，也可在终端110上保存一段时间后再被发送至服务器120。

虽然图1示出了使用服务器训练对话表示模型，但是本公开实施例的模型训练方法可在任何具有数据处理功能的电子设备中实现。电子设备可以是例如，智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器(e-book reader)、桌上型PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、视频播放器、可穿戴装置等。

本公开提供的对话表示模型训练方法可被应用于任意需要进行对话特征表示的场景中，诸如用户交互意愿的预测、用户对客服的服务质量评价的预测、或者个性化用户分流。相应地，该方法也可应用于这些场景的产品中。

图2是根据本公开的实施例的对话表示模型的训练方法的流程图。

参照图2，在步骤S201，获取训练对话语料和训练对话语料中每个训练对话语料的标注类别标签。具体地，可从历史业务数据中获取历史会话数据，例如，可获取对用户进行资源销售的历史会话数据。又例如，可获取资源交互平台上的消费者与客服之间的历史会话数据。历史会话数据可包括对话数据和对话数据对应的用户行为数据，例如，在资源交互平台上，客服可在线上对话中向消费者发送图片、音视频、链接等信息，消费者可在线上对话中做出对这些信息的交互行为。

由于一般从业务数据拉取来的会话数据较大，所以可按照预设规则对会话数据中的对话数据进行分割，得到多个子对话数据，并且基于多个子对话数据中的每一个对话数据来获取训练对话语料。然后可基于子对话数据的对话内容和用户行为数据，设置训练对话语料的标注类别标签。下面参照图3详细描述如何标注训练对话语料。

图3是根据本公开的实施例的标注训练对话语料的流程图。

参照图3，在步骤S301，从历史业务数据中获取历史会话数据。例如，可从业务数据中拉取历史会话数据。会话数据可包括对话数据和与对话数据对应的用户行为数据。例如，对话数据可能包含对话文本信息、外部链接信息、图片信息、语音信息、视频信息、直播链接信息。这里，外部链接信息可表示通过该外部链接信息获取到诸如图片、音频、视频、文字、文章的信息。直播链接信息可表示通过该直播链接信息获取到相应直播间的直播信息的信息。用户行为数据可包含诸如链接点击时间、信息回复时长等。例如，对于外部链接(诸如图文链接、音视频链接)，用户行为数据还可包含浏览时长、收藏操作、转发操作、评论操作等交互行为数据。对于直播链接(诸如进入直播间的链接)，用户行为数据可包含用户的观看时长和在直播间的交互行为数据。

在步骤S302，对历史会话数据进行脱敏处理。敏感词可指例如暴露个人隐私的词语。可预先设置若干敏感词，通过将会话数据中的词语与预先设置的敏感词进行对比，过滤会话数据中的敏感词。此外，可根据预先设置的敏感词衍生更多的相似敏感词，然后根据预先设置的敏感词和衍生的敏感词过滤会话数据中的相应词语。

在步骤S303，按照预设规则对历史会话数据中的对话数据进行分割，得到不同时段的子对话数据。图4示出根据本公开的实施例对对话数据进行分割的示意图。下面以对用户与客服之间的对话数据进行分割为例进行阐述。

参照图4，在前后对话回复来源均为客服并且时间间隔大于第一预设时间时，可将前对话作为当前对话的结束，后对话作为下个时段对话的开始。此外，在前后对话回复的时间间隔大于第二预设时间并且后对话回复来源为客服时，可将前对话作为当前对话的结束，后对话作为下个时段对话的开始。例如，第一预设时间可被设置为15分钟，第二预设时间可被设置为2小时。

图4示出的分割规则仅是示例性的，本公开不限于此。

在步骤S304，根据子对话数据的当前对话内容和对应的用户行为数据，并且参考当前对话之前的对话内容和用户行为数据，对训练对话语料设置类别标签。以向用户推荐资源的一段对话为例，可根据这段对话的对话内容和用户行为，对这段对话所反映出的用户资源交互意愿进行人工标注。在这种情况下，对话数据的标注标签类别可包括“有意愿”、“无意愿”和“不确定”三种意愿标签。

上述类别标签仅是示例性的，本公开可根据不同的应用场景，设置对话数据的类别标签。

可选择具有明确类别标签的子对话数据用于模型训练。例如，可选择被标注为“有意向”和“无意向”的子对话数据。

在根据子对话数据对应的用户行为数据设置对应的训练对话语料的标注类别标签后，可进一步对各个子对话数据进行处理，以得到用于模型训练的训练对话语料。在本公开中，子对话数据可被看作初始训练对话语料。也就是说，在分割出多个子对话数据后，子对话数据是初始训练对话语料，而不是最终用于模型训练的训练对话语料。可根据各个子对话数据对应的用户行为数据来设置训练对话语料的标注类别标签，然后再通过对各个子对话数据进行处理得到最终的训练对话语料。

例如，可将初始训练对话语料中包括的文本对话语料作为第一文本信息，对初始训练对话语料中包括的非文本对话语料进行处理，得到第二文本信息，然后对第一文本信息和第二文本信息进行预处理，得到初始训练对话语料的第三文本信息，并且将初始训练对话语料的第三文本信息作为最终的训练对话语料。

第一文本信息可指对话数据中本身为文本的文本信息，第二文本信息可指通过对对话数据中的非文本信息进行文本转化得到的文本信息。

对话中的非文本信息可包括外部链接信息、图片信息、语音信息、视频信息和直播链接信息中的至少一种。外部链接信息可指通过外部链接信息展示图片、文字、语音或视频的链接信息，直播链接信息可指通过直播链接信息展示直播信息的链接信息。在本公开中，通过区分外部链接和直播链接，可更加有效地提取不同链接所展示的文本信息。

在本公开中，可根据不同的文本提取方法对不同类型的非文本对话语料进行处理，得到不同类型非文本对话语料对应的第二文本信息，文本提取方法与非文本对话语料的类型一一对应，相同类型的第二文本信息设置有相同类型的预设标记符，并且将至少一种类型对应的第二文本信息作为第二文本信息。

针对各种类型的非文本对话语料，可使用不同的文本提取方法对相应类型的非文本对话语料进行转化，得到相应类型的非文本对话语料对应的第二文本信息。此外，对于每种类型的非文本对话语料，在相应类型的第二文本信息中可设置相应类型的预设标记符(诸如类型标记符)，并且将带有预设标记符的第二文本信息作为最终的第二文本信息。通过对从不同类型非文本对话语料提取出的第二文本信息设置类型标记符，可使对话表示模型能够更好地学习第二文本信息的来源，以进一步提高对话表示模型的预测精度。下面参照图5详细描述如何对非文本对话语料进行文本提取。

图5是根据本公开的实施例对非文本对话语料进行文本提取的流程图。

参照图5，在步骤S501，通过识别图片信息中的图片内容，生成表示图片信息的第二文本信息。图片信息可包括诸如聊天对话中的表情图片、宣传类图片、拍摄的图片等。

例如，对于表情图片，可提取表情图片的表情主题，并且使用特定字符(诸如#)作为第二文本信息开始部分和结束部分，用以识别第二文本信息，并且在第二文本信息中标识该第二文本信息的来源类型并且添加相应的主题内容。

例如，可按照以下格式生成表情图片的第二文本信息："#表情："+"表情主题"+"#"。

对于宣传类图片或拍摄的图片，可通过图片文字识别OCR方式，识别该类图片的内容，并且使用特定字符(诸如#)作为第二文本信息的开始部分和结束部分，并且在第二文本信息中标识该第二文本信息的来源类型并且添加相应的主题内容。

例如，可按照以下格式生成该类图片的第二文本信息："#"+"图片："+OCR识别内容的前20个字符+"#"。若OCR识别出的内容不足20个字符，则以"#图片："+OCR内容+"#"作为图片的第二文本信息。

在步骤S502，通过识别音频信息中的音频内容，生成表示音频信息的第二文本信息。例如，音频信息可以是用户在对话中发送的语音数据。可通过自动语音识别ASR方式对音频信息进行语音识别得到音频文本，作为音频信息的第二文本信息。

在步骤S503，提取视频信息中的音频信息，并且通过识别提取出的音频信息的音频内容，生成表示视频信息的第二文本信息。例如，视频信息可以是用户在对话中发送的视频类宣传视频。

作为示例，可首先从视频信息中提取出音频数据，然后通过ASR方式对音频数据进行语音识别，并且使用特定字符(诸如#)作为第二文本信息的开始部分和结束部分，并且在第二文本信息中标识该第二文本信息的来源类型并且添加所识别的音频文本。

例如，可以以"#视频："+识别的音频文本前20个字符+"#"作为视频信息的第二文本信息。若识别音频文本不足20个字符，则以"#视频："+识别的音频文本+"#"作为视频信息的第二文本信息。

在步骤S504，通过对经由外部链接信息所展示的外部信息进行文本提取，生成表示外部链接信息的第二文本信息。这里，外部信息可指在对话中通过外部链接所展现的图片、文章、视频或音频的信息。一般地，这类信息通常会有文本标题，因此可使用特定字符(诸如#)作为第二文本信息的开始部分和结束部分，并且在第二文本信息中标识该第二文本信息的来源类型并且添加所识别的音频文本。

例如，可使用"#链接："+链接标题+"#"作为对话中的该类信息的第二文本信息。若该类信息没有文本标题，则以"#链接："+链接内容前20个有效字符+"#"作为该类信息的第二文本信息。

在步骤S505，通过对经由直播链接信息所展示的直播信息进行文本提取，生成表示直播链接信息的第二文本信息。例如，直播链接信息可指在对话中通过此进入相应直播间的链接。一般地，这类信息通常会有直播主题，可使用特定字符(诸如#)作为第二文本信息的开始部分和结束部分，并且在第二文本信息中标识该第二文本信息的来源类型并且添加相应的直播主题内容。

例如，可将"#直播："+直播主题+"#"作为该类信息的第二文本信息。若无直播主题，则可将"#直播："+直播介绍前20个有效字符+"#"作为该类信息的第二文本信息。

上述步骤仅是示例性的，本公开也可采用其他的文本提取方式对非文本信息进行文本提取，并且上述步骤序号并非用于限定步骤顺序，可根据对话数据中包括的各种非文本信息同时进行文本提取。

本公开通过对从初始训练对话语料中提取的文本信息进行数据处理，提高了样本数据的准确度并且增大了样本数据的有效信息率。

接下来，可对第一文本信息和第二文本信息进行预处理，得到初始训练对话语料的第三文本信息，并且将初始训练对话语料的第三文本信息作为最终的训练对话语料。

图6是根据本公开的实施例的对文本信息进行预处理的流程图。

在步骤S601，去除第一文本信息和第二文本信息中的特定字符。例如，可预先设置若干个特定字符，当文本信息中包含特定字符时，可将特定字符从文本信息中去除。例如，可去除文本信息中的空格、回车等字符。

在步骤S602，过滤第一文本信息和第二文本信息中的预设信息。例如，可预先设置若干非重要词语，诸如“您好”、“再见”等礼貌用语。当文本信息中包含预设的非重要词语时，可将非重要词语从文本信息中删除。此外，可根据预先设置的非重要词语衍生更多的相似词语，然后根据预先设置的敏感词和衍生的词语过滤会话数据中的相应词语。

由于这类非重要信息在对话特征表示中价值不大，所以将该类信息去除，可增大信息率。

在步骤S603，在第一文本信息和第二文本信息中设置信息回复来源。在各文本信息前可增加信息回复来源。例如，对于从用户与客服的对话中提取的文本信息，信息回复来源可包括“用户”和“客服”。可使用特定字符(诸如“【”和“】”)作为文本信息的开始部分和结束部分，并且在特定字符中间添加对应的信息回复来源。

例如，可按照以下方式在每个文本信息前设置信息回复来源："【"+信息回复来源+"】："+相应的文本信息。

在步骤S604，对第一文本信息和第二文本信息进行拼接。可将通过上述步骤(S601至S603)处理后的各文本信息直接拼接在一起。或者可按照信息回复的时间顺序依次拼接各文本信息。

在步骤S605，当拼接后的文本信息超过预设长度时，将拼接后的文本信息截断为预设长度范围。如果初始训练对话语料中的第一文本信息和第二文本信息经上述处理后，拼接的文本长度超过设定值，则可采用首尾截断方式进行截断处理。例如，拼接后的文本长度超过设定值512，可在该文本的首部开始选择300个字符，尾部选择211个字符，并且选择截断字符"[SEP]"连接首部和尾部。可根据实际需求设置最大文本长度。

上述步骤仅是示例性的，本公开也可采用其他的预处理方式对文本信息进行文本提取，或者可添加其他的预处理或省略上述预处理中的一部分。

本公开通过对从初始训练对话语料中提取的文本信息进行预处理，提高了样本数据的准确度并且增大了样本数据的有效信息率。

在步骤S202，将训练对话语料输入至教师模型，得到训练对话语料的第一编码特征向量和预测类别标签。这里，训练对话语料可指通过对预处理后的第三文本信息进行分词处理得到的多个分词。也就是说，可在输入教师模型之前，首先对第三文本信息进行分词处理，然后将第三文本信息分词后的各个分词输入至教师模型。或者，可直接将第三文本信息输入至教师模型。

根据本公开的实施例，可将教师模型的骨干网络输出的特征向量作为学习对象，来训练作为学生模型的对话表示模型。

第一编码特征向量是教师模型的编码网络层的输出，预测类别标签是教师模型的最终输出结果。

教师模型可包括编码网络层、池化层以及前馈网络层。例如，第三文本信息通过编码网络层，可输出第一编码特征向量。第一编码特征向量通过池化层，可输出降维后的第一编码特征向量，并且降维后的第一编码特征向量通过前馈网络层，可输出训练对话语料的预测类别标签。

教师模型的编码网络层可由作为骨干网络的Roberta网络实现。该编码网络层可包括嵌入层和M个编码隐层，其中，M为正整数。

在生成第一编码特征向量时，第三文本信息通过嵌入层，可输出第三文本信息的特征序列，该特征序列通过M个编码隐层，并且将最后一个编码隐层的预设位置处的编码特征向量作为训练对话语料的第一编码特征向量。例如，可选择编码隐层的第一个位置作为预设位置。

作为示例，通过编码网络层对训练对话语料进行特征编码，得到第一编码特征向量。在编码网络层中，通过嵌入层对训练对话语料进行特征提取，得到训练对话语料的特征序列，通过至少一个编码隐层对特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为第一编码特征向量。然后通过池化层对第一编码特征向量进行降维，得到降维后的第一编码特征向量；通过前馈网络层对降维后的第一编码特征向量进行特征编码，得到训练对话语料的预测类别标签。

在本公开中，编码隐层可由Transformer层实现。例如，嵌入层输出的特征序列通过Transformer层，此时该层可计算该特征序列各个位置的注意力，并根据注意力值输出对应的向量序列。

图7示出根据本公开的实施例的教师模型的示意图。

参照图7，教师模型可包括预训练Roberta网络作为骨干网络以及在此之上的池化层和前馈网络层。Roberta网络可由一个嵌入层和12个Transformer层构成，池化层为带有dropout层的池化层，前馈网络层可由两层前馈网络构成并且在两层前馈网络之间的激活函数采用tanh函数。

第三文本信息作为输入通过Roberta网络的嵌入层进行特征编码，输出第三文本信息的特征序列，该特征序列通过Roberta网络的Transformer层进行特征序列的编码，其中，在计算每一Transformer层的各个位置的输出向量时，相邻的Transformer层中的各个位置的输出向量进行交互，例如，后一Transformer层可使用前一Transformer层中的各个位置的输出向量进行特征编码，以得到该后一Transformer层中的各个位置的输出向量。然后选择最后一个Transformer层的第一位置处输出的第一编码特征向量作为学习对象。接下来，第一编码特征向量通过池化层进行降维处理，再通过前馈网络层进行特征提取，最终输出训练对话语料的预测类别标签。

图7示出的教师模型的结构仅是示例性的，本公开可根据实际需求在教师模型中添加其他层或者减少部分层。

在步骤S203，将训练对话语料输入至学生模型，得到训练对话语料的第二编码特征向量。这里，训练对话语料可指通过对预处理后的第三文本信息进行分词处理得到的多个分词。即可在输入学生模型之前，首先对第三文本信息进行分词处理，然后将第三文本信息分词后的各个分词输入至学生模型。或者，可直接将第三文本信息输入至学生模型。

本公开的对话表示模型作为学生模型，通过学习教师模型的骨干网络输出的特征向量，调整自身的网络参数。通过这样的训练方式，可使训练出的对话表示模型具有计算量小且计算速度快的优点。

本公开的学生模型可包括嵌入层、转化层以及编码网络层。第三文本信息通过嵌入层，可输出第三文本信息的特征序列，该特征序列通过转化层进行特征映射，并且映射后的特征序列通过编码网络层进行特征编码，并且将编码网络层的最后一个编码隐层的预设位置处的输出向量作为训练对话语料的第二编码特征向量。

学生模型的编码网络层可由N个编码隐层实现，其中，N为正整数。转化层的作用是将嵌入层的输出映射到编码隐层。

作为示例，可通过嵌入层对训练对话语料进行特征提取，得到训练对话语料的特征序列。通过转化层对特征序列进行特征映射，得到映射后的特征序列，通过编码网络层对映射后的特征序列进行特征编码，得到训练对话语料的第二编码特征向量。在编码网络层中，通过至少一个编码隐层对映射后的特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为所述第二编码特征向量。

例如，第三文本信息通过嵌入层进行特征提取处理，然后通过转化层进行特征映射，再通过N个Transformer层完成对特征序列的编码，并且将最后一个Transformer层的预设位置处的输出向量作为训练对话语料的第二编码特征向量。

在本公开中，学生模型的嵌入层可与教师模型的嵌入层相同。例如，学生模型的嵌入层的网络结构和参数可与教师模型的嵌入层相同。

图8示出根据本公开的实施例的对话表示模型的示意图。对话表示模型是本公开的学生模型。

参照图8，对话表示模型可由嵌入层、转化层和4个transformer层构成。

对话表示模型的嵌入层可采用与教师模型的嵌入层的网络结构和参数相同的嵌入层。例如，在嵌入层输出的特征维度为512并且Transformer层的隐向量大小为128的情况下，转化层可以是512×128的神经网络层，目的是为了将嵌入层的输出映射到Transformer层。

第三文本信息作为输入先经过嵌入层进行特征编码，然后经过转化层映射到与Transformer层的隐向量大小对应的特征序列，再经过Transformer层，完成对特征序列的编码，最终选择最后Transformer层的第一位置上的编码向量作为第三文本信息的第二编码特征向量。此外，也可选择Transformer层上的其他位置处输出的特征向量作为对话的特征表示。

图8示出的对话表示模型的结构仅是示例性的，本公开可根据实际需求在对话表示模型中添加其他层或者减少部分层。

在步骤S204，根据训练对话语料的标注类别标签、预测类别标签、第一编码特征向量和第二编码特征向量，确定第一损失，并基于第一损失调整学生模型的参数。

作为示例，可基于获取的标注类别标签(即真实标签)和教师模型输出的预测类别标签，选择二元交叉熵函数作为损失函数，计算真实标签与预测标签之间的损失值。可基于第一编码特征向量和第二编码特征向量，选择均方差函数作为损失函数，计算第一编码特征向量与第二编码特征向量之间的损失值。将上述损失值之和作为第一损失。

为了使训练出的对话表示模型的预测更加准确，还可基于教师模型的预设编码隐层输出的编码特征向量和学生模型的预设编码隐层输出的编码特征向量计算第二损失，和/或基于教师模型的预设编码隐层进行特征编码的注意力值和学生模型的预设编码隐层进行特征编码的注意力值计算第三损失，通过使第二损失和第三损失中的至少一个与第一损失之和最小化，更新对话表示模型的参数。即可选择性地使用第二损失和第三损失来训练对话表示模型的参数。例如，可使用第一损失、第二损失和第三损失来训练对话表示模型的参数，或者可使用第一损失和第二损失来训练对话表示模型的参数，或者使用第一损失和第三损失来训练对话表示模型的参数。在这种情况下，教师模型的输入数据与对话表示模型的输入数据可相同。

作为示例，可初始化一可训练的映射网络，并且将教师模型的骨干网络的第一位置处的特征向量作为学习对象，通过将表示对话的多个分词(诸如第三文本信息分词出的分词)输入至对学生模型和教师模型，将教师模型的特定隐层输出的特征向量与对话表示模型的特定隐层输出的特征向量之间的均方差损失、教师模型的特定隐层使用的注意力值与对话表示模型的特定隐层使用的注意力值之间的均方差损失、教师模型输出的第一编码特征向量与对话表示模型输出的第二编码特征向量之间的均方差损失相加，并且结合基于真实标签和预测标签产生的二元交叉熵损失，通过使这些损失总体最小化来更新对话表示模型、教师模型和映射网络的参数。

例如，参照图7和图8，教师模型包括12个Transformer层，并且对话表示模型(即学生模型)包括4个Transformer层。可将对话表示模型的第二编码特征向量经映射网络映射到512维大小，然后计算第一编码特征向量与映射后的第二编码特征向量之间的均方差损失，并且将对话表示模型的第1、2、3、4Transformer层的输出向量经映射网络映射到512维大小，分别计算与教师模型的第3、6、9、12Transformer层的输出向量之间的均差损失值，并且计算对话表示模型的第1、2、3、4Transformer层使用的注意力值分别与教师模型的第3、6、9、12Transformer层使用的注意力值之间的均差损失值。

在训练教师模型时，可将教师模型的骨干网络的嵌入层和0至3Transformer层的权重冻结，仅训练4至12Transformer层、池化层和前馈网络层的权重。同时，可将获取的样本数据集划分为训练集和验证集，训练过程中可定步长检测当前模型在验证集上的评价指标，例如，在训练过程中每进行若干步的模型更新，就运行验证程序得到相关的评价指标(诸如F2得分)，并以F2得分作为提前结束的条件，并保存验证集上得分最高的模型。

在训练对话表示模型时，可在训练过程中定步长检测当前模型在验证集上的损失值，并以验证集上的损失值作为提前结束的条件，并保存损失值最低的模型。

根据本公开的另一实施例，可先利用真实标签与预测标签之间的损失(诸如二元交叉熵损失)来调整教师模型的参数，待教师模型收敛后，再利用隐层输出向量之间的损失和第一与第二编码特征向量之间的损失(均方差损失)来调整对话表示模型。例如，在教师模型的训练过程中，基于真实标签与预测标签之间的损失，定步长检测当前模型在验证集上的F2得分，并以F2得分作为提前结束的条件，并保存验证集上得分最高的模型。可在对话表示模型的训练过程中，基于隐层输出向量之间的损失和第一与第二编码特征向量之间的损失，定步长检测当前模型在验证集上的损失值，并以验证集上的损失值作为提前结束的条件，并保存损失值最低的模型。在本公开中，可同时训练教师模型和对话表示模型，也可先训练教师模型，再训练对话表示模型。

本公开引入教师模型，利用教师模型输出的编码特征向量作为学习对象，训练作为学生模型的对话表示模型的参数，使得训练出的对话表示模型具有更好的语义表示效果。

图9是根据本公开的实施例的对话特征表示方法的流程图。本公开实施例的对话特征表示方法可在任何具有数据处理功能的电子设备中实现。电子设备可以是例如，智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书阅读器(e-book reader)、桌上型PC、膝上型PC、上网本计算机、工作站、服务器、个人数字助理(PDA)、便携式多媒体播放器(PMP)、视频播放器、可穿戴装置等。

参照图9，在步骤S901，获取多媒体会话中的待处理对话语料。当期望预测用户对资源的交互意图时，可从业务系统中接收用户与客服之间的对话数据。例如，当想要预测用户对某个商品是否有购买意愿时，可从资源交互平台上获取该用户与客服之间的对话语料。又例如，当想要预测用户对客服的服务质量评价，可从资源交互平台上获取该用户与客户之间的线上对话语料。上述示例仅是示例性的，本公开不限于此。

在步骤S902，对待处理对话语料进行处理，得到处理后的对话语料。处理后的对话语料中不包括非文本对话语料。

作为示例，可将待处理对话语料中包括的文本对话语料作为第四文本信息，将待处理对话语料中包括的非文本对话语料进行处理，得到第五文本信息。

例如，可根据不同的文本提取方法对不同类型的非文本对话语料进行转化，得到不同类型非文本对话语料对应的第五文本信息。其中，文本提取方法与非文本对话语料的类型一一对应，相同类型的第五文本信息设置有相同类型的预设标记符，并且将至少一种类型对应的第五文本信息作为第五文本信息。

然后，可对第四文本信息和第五文本信息进行预处理，得到待处理对话语料的第六文本信息，作为处理后的对话语料。

在本公开中，非文本对话语料的类型可包括外部链接信息、图片信息、语音信息、视频信息和直播链接信息中的至少一种，其中，外部链接信息是通过外部链接信息展示图片、文字、语音或视频的链接信息，直播链接信息是通过直播链接信息进入相应直播间的链接信息。

可将待处理对话语料中包括的文本信息作为第四文本信息，并且通过对待处理对话语料中包括的非文本信息进行转化得到第五文本信息。例如，电子设备可确定接收的对话数据中是否包括文本信息和非文本信息，如果包括非文本信息，则对非文本信息进行文本转化。

对于图片信息，可通过识别图片信息中的图片内容，生成表示图片信息的第五文本信息。例如，对于表情图片，可提取表情图片的表情主题，并且可按照以下格式生成表情图片的第五文本信息："#表情："+"表情主题"+"#"。对于宣传类图片或拍摄的图片，可通过图片文字识别OCR方式，识别该类图片的内容，并且可按照以下格式生成该类图片的第五文本信息："#"+"图片："+OCR识别内容的前20个字符+"#"。若OCR识别出的内容不足20个字符，则以"#图片："+OCR内容+"#"作为图片的第五文本信息。

对于音频信息，可通过识别音频信息中的音频内容，生成表示音频信息的第五文本信息。例如，可通过自动语音识别ASR方式对音频信息进行语音识别得到音频文本，作为音频信息的第五文本信息。

对于视频信息，可先提取视频信息中的音频信息，并且通过识别提取出的音频信息的音频内容，生成表示视频信息的第五文本信息。例如，可首先从视频信息中提取出音频数据，然后通过ASR方式对音频数据进行语音识别，并且可以以"#视频："+识别的音频文本前20个字符+"#"作为视频信息的第五文本信息。若识别音频文本不足20个字符，则以"#视频："+识别的音频文本+"#"作为视频信息的第五文本信息。

对于外部链接信息，可通过对经由外部链接信息所展示的图片、文字、音频或视频进行文本提取，生成表示外部链接信息的第五文本信息。一般地，这类信息通常会有文本标题，因此可使用"#链接："+链接标题+"#"作为对话中的该类信息的第五文本信息。若该类信息没有文本标题，则以"#链接："+链接内容前20个有效字符+"#"作为该类信息的第五文本信息。

对于直播链接信息，可通过对经由直播链接信息所展示的直播信息进行文本提取，生成表示直播链接信息的第五文本信息。一般地，这类信息通常会有直播主题，可将"#直播："+直播主题+"#"作为该类信息的第五文本信息。若无直播主题，则可将"#直播："+直播介绍前20个有效字符+"#"作为该类信息的第五文本信息。

对于每种类型的非文本信息，在相应类型的第五文本信息中可设置该类型的预设标记符，并且将具有预设标记符的第五文本信息作为该类型的非文本信息的第五文本信息。

在得到第四文本信息和第五文本信息后，可直接将上述第四文本信息和第五文本信息进行拼接。此外，在拼接前，可去除第四文本信息和第五文本信息中的特定字符，过滤第四文本信息和第五文本信息中的非重要信息；在第四文本信息和第五文本信息中设置信息回复来源等。当拼接后的文本信息超过预设长度时，对拼接后的文本信息进行截断，以得到预设长度范围的文本信息。这里，预设长度可根据对话表示模型的嵌入层的向量大小设置。

在步骤S903，将处理后的对话语料输入至学生模型，得到处理后的对话语料的编码特征向量。

在本公开中，学生模型可被称为对话表示模型，处理后的对话语料被输入至对话表示模型，可得到待处理对话语料的特征向量，作为待处理对话的对话特征表示。

作为示例，对话表示模型可包括嵌入层、转化层以及编码网络层。可通过嵌入层对处理后的对话语料进行特征提取，得到处理后的对话语料的特征序列，通过转化层对特征序列进行特征映射，得到映射后的特征序列。通过编码网络层对映射后的特征序列进行特征编码，得到处理后的对话语料的编码特征向量。

在编码网络层中，可包括至少一个编码隐层，可通过至少一个编码隐层对映射后的特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为处理后的对话语料的编码特征向量。

例如，对话表示模型可由嵌入层、转化层和4个transformer层构成。在嵌入层输出的特征维度为512并且Transformer层的隐向量大小为128的情况下，转化层可以是512×128的神经网络层。处理后的对话语料作为输入先经过嵌入层进行特征编码，然后经过转化层映射到与Transformer层的隐向量大小对应的特征序列，再经过Transformer层，完成对特征序列的编码，最终选择最后Transformer层的第一位置上的编码向量作为处理后的对话语料的对话特征表示。此外，也可选择Transformer层上的其他位置处输出的特征向量作为对话的特征表示。在得到对话的对话特征表示后，可将对话特征表示返回给业务系统或请求方，使得业务系统能够更有效地执行下游任务计算，例如，预测某个用户对某个资源是否有交互意图。

本公开在对话特征表示中，同时考虑到对话中的文本信息和非文本信息，能够获得更加准确的对话特征表示，以提升下游任务的性能。

图10是根据本公开的实施例的对话特征表示装置的框图。

参照图10，对话特征表示装置1000可包括数据接收模块1001、数据处理模块1002和数据计算模块1003。对话特征表示装置1000中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略对话特征表示装置1000中的一些模块，或者还可包括另外的模块，诸如数据返回模块(未示出)。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

数据接收模块1001可获取多媒体会话中的待处理对话预料。

数据处理模块1002可对待处理对话语料进行处理，得到处理后的对话语料。例如，可将待处理对话语料中包括的文本信息作为第四文本信息，并且通过对待处理对话语料中包括的非文本信息进行转化得到第五文本信息，通过对第四文本信息和第五文本信息进行预处理，得到待处理对话数据的第六文本信息。

针对各种类型的非文本信息，数据处理模块1002可使用不同的文本提取方法对相应类型的非文本信息进行转化，得到相应类型的非文本信息的第五文本信息。

例如，数据处理模块1002可通过识别图片信息中的图片内容，生成表示图片信息的第五文本信息，通过识别音频信息中的音频内容，生成表示音频信息的第五文本信息，通过识别从视频信息中提取出的音频信息的音频内容，生成表示视频信息的第五文本信息，通过对经由外部链接信息所展示的图片、文字、音频或视频进行文本提取，生成表示外部链接信息的第五文本信息，通过对经由直播链接信息所展示的直播信息进行文本提取，生成表示直播链接信息的第五文本信息。

此外，对于每种类型的非文本信息，数据处理模块1002可在相应类型的第五文本信息中设置相应类型的预设标记符，并且将具有预设标记符的第五文本信息作为相应类型的非文本信息的第五文本信息。

数据处理模块1002可通过执行以下至少一种操作对文本信息进行预处理：去除第四文本信息和第五文本信息中的特定字符；过滤第四文本信息和第五文本信息中的非重要信息；在第四文本信息和第五文本信息中设置信息回复来源；对第四文本信息和第五文本信息进行拼接；当拼接后的文本信息超过预设长度时，对拼接后的文本信息进行截断。

数据计算模块1003可将处理后的对话语料输入至本公开的学生模型，得到处理后的对话语料的编码特征向量。

例如，数据计算模块1003可将第六文本信息输入至对话表示模型，得到待处理对话数据的特征向量作为对话特征表示。对话表示模型可通过使用根据本公开实施例所述的训练方法得到。

作为示例，通过对话表示模型的嵌入层对处理后的对话语料进行特征提取，得到处理后的对话语料的特征序列，通过对话表示模型的转化层对特征序列进行特征映射，得到映射后的特征序列，通过对话表示模型的编码网络层对映射后的特征序列进行特征编码，得到处理后的对话语料的编码特征向量。例如，可通过编码网络层中的至少一个编码隐层对映射后的特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为处理后的对话语料的编码特征向量。

此外，本公开的对话特征表示装置还可用于根据处理后的对话语料的编码特征向量来预测用户的交互意图。例如，在获得处理后的对话语料的编码特征向量后，数据计算模块1003可根据该编码特征向量来预测用户的交互意图。此外，数据计算模块1003还可根据该编码特征向量用于任意下游任务。

上面已经参照图5、图6和图9分别描述了非文本信息的数据处理、预处理和对话特征表示过程，这里不在详细赘述。

图11是根据本公开的实施例的对话表示模型的训练装置的框图。

参照图11，训练装置1100可包括数据获取模块1101、数据处理模块1102和模型训练模块1103。训练装置1100中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略训练装置1100中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

数据获取模块1101可获取训练对话语料和训练对话语料的标注类别标签。

例如，数据获取模块1101可直接获取预先处理好的训练对话语料。即获取的训练对话语料不包括非文本对话语料。在这种情况下，训练装置1100可不包括数据处理模块1102。

又例如，数据获取模块1101可先获取初始训练对话语料，具体地，数据获取模块1101可获取历史会话数据，其中，历史会话数据包括对话数据和用户行为数据，按照预设规则对对话数据进行分割，得到多个子对话数据，并且将多个子对话数据中的每一个作为初始训练对话语料，基于初始训练对话语料的对话内容和对应的用户行为数据，设置训练对话语料的标注类别标签。

在获取初始训练对话语料的情况下，数据处理模块1102可将初始训练对话语料中包括的文本信息作为第一文本信息，并且通过对初始训练对话语料中包括的非文本信息进行转化得到第二文本信息，并且通过对第一文本信息和第二文本信息进行预处理，得到初始训练对话语料的第三文本信息，作为用于训练模型的最终训练对话语料。

针对各种类型的非文本信息，数据处理模块1102可使用不同的文本提取方法对相应类型的非文本信息进行转化，得到相应类型的非文本信息的第二文本信息。

例如，数据处理模块1102可通过识别图片信息中的图片内容，生成表示图片信息的第二文本信息；通过识别音频信息中的音频内容，生成表示音频信息的第二文本信息；通过识别从视频信息中提取出的音频信息的音频内容，生成表示视频信息的第二文本信息；通过对经由外部链接信息所展示的图片、文字、音频或视频进行文本提取，生成表示外部链接信息的第二文本信息；和/或通过对经由直播链接信息所展示的直播信息进行文本提取，生成表示直播链接信息的第二文本信息。

对于每种类型的非文本信息，数据处理模块1102可在相应类型的第二文本信息中设置相应类型的预设标记符，并且将具有预设标记符的第二文本信息作为相应类型的非文本信息的第二文本信息。

此外，数据处理模块1102可执行以下至少一种操作完成文本信息的预处理：去除第一文本信息和第二文本信息中的特定字符；过滤第一文本信息和第二文本信息中的非重要信息；在第一文本信息和第二文本信息中设置信息回复来源；对第一文本信息和第二文本信息进行拼接；当拼接后的文本信息超过预设长度时，对拼接后的文本信息进行截断，以得到预设长度范围的文本信息。

模型训练模块1103可将训练对话语料输入至教师模型，得到训练对话语料的第一编码特征向量和预测类别标签，其中，第一编码特征向量是教师模型的网络编码层的输出，预测类别标签是教师模型的输出结果；将训练对话语料输入至作为学生模型的对话表示模型，得到训练对话语料的第二编码特征向量，作为训练对话语料的对话特征表示；通过基于获取的标注类别标签、预测类别标签、第一编码特征向量和第二编码特征向量计算第一损失，基于第一损失调整教师模型和/或对话表示模型的参数。

在本公开中，教师模型可包括编码网络层、池化层以及前馈网络层，通过编码网络层对训练对话语料进行特征编码，得到第一编码特征向量，通过池化层对第一编码特征向量进行降维，得到降维后的第一编码特征向量；通过前馈网络层对降维后的第一编码特征向量进行特征编码，得到训练对话语料的预测类别标签。

例如，教师模型的编码网络层可包括嵌入层和至少一个编码隐层，通过嵌入层对训练对话语料进行特征提取，得到训练对话语料的特征序列；通过至少一个编码隐层对特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为第一编码特征向量。

在本公开中，学生模型可包括嵌入层、转化层以及编码网络层，通过嵌入层对训练对话语料进行特征提取，得到训练对话语料的特征序列；通过转化层对特征序列进行特征映射，得到映射后的特征序列；通过编码网络层对映射后的特征序列进行特征编码，得到训练对话语料的第二编码特征向量。

例如，编码网络层包括至少一个编码隐层，通过至少一个编码隐层对映射后的特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为第二编码特征向量。

在训练模型参数过程中，还可基于教师模型的预设编码隐层输出的编码特征向量和学生模型的预设编码隐层输出的编码特征向量计算第二损失，和/或基于教师模型的预设编码隐层进行特征编码的注意力值和学生模型的预设编码隐层进行特征编码的注意力值计算第三损失。通过使第二损失和第三损失中的至少一个与第一损失之和最小化，更新学生模型的参数。

上面已经参照图2至图9详细描述了模型训练过程，这里不在详细赘述。

图12是根据本公开的实施例的用户意图的预测方法的流程图。

参照图12，在步骤S1201，获取用户的多媒体会话中的待处理对话语料。

在步骤S1202，对待处理对话语料进行处理，得到处理后的对话语料。处理后的对话语料中不包括非文本对话语料。

在步骤S1203，将处理后的对话语料输入至学生模型，得到处理后的对话语料的编码特征向量。

步骤S1201至S1203可按照上面描述的相同或相似方式执行。

在步骤S1204，根据处理后的对话语料的编码特征向量预测用户的交互意图。

作为示例，在获得对话语料的编码特征向量后，将该编码特征向量输入至神经网络，输出用户的交互意图。例如，当想要预测用户对某个商品是否有购买意愿时，可从资源交互平台上获取该用户与客服之间的对话语料，利用上述方法获取该对话语料的编码特征向量，将该编码特征向量输入至用于预测用户意图的神经网络模型，可得到用户的购买意愿。

又例如，当想要预测用户对客服的服务质量评价，可从资源交互平台上获取该用户与客户之间的线上对话语料。利用上述方法获取该对话语料的编码特征向量，将该编码特征向量输入至用于评价服务质量的神经网络模型，可得到用户的对客服的服务质量评价分数。

上述示例仅是示例性的，本公开不限于此。此外，可在对话特征表示装置1000中添加预测模块，以实现对用户的交互意图预测。

图13是本公开实施例的硬件运行环境的对话表示设备的结构示意图。这里，对话表示设备1300可实现上述对话特表示的功能或者模型训练功能。

如图13所示，对话表示设备1300可包括：处理组件1301、通信总线1302、网络接口1303、输入输出接口1304、存储器1305以及电源组件1306。其中，通信总线1302用于实现这些组件之间的连接通信号。输入输出接口1304可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口1304还可包括标准的有线接口、无线接口。网络接口1303可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器1305可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器1305可选的还可以是独立于前述处理组件1301的存储装置。

本领域技术人员可以理解，图13中示出的结构并不构成对对话表示设备1300的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图13所示，作为一种存储介质的存储器1305中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、对话特征表示方法程序、模型训练程序以及数据库。

在图13所示的对话表示设备1300中，网络接口1303主要用于与外部设备/终端进行数据通信；输入输出接口1304主要用于与用户进行数据交互；对话表示设备1300中的处理组件1301、存储器1305可被设置在对话表示设备1300中，对话表示设备1300通过处理组件1301调用存储器1305中存储的对话特征表示程序、模型训练程序以及由操作系统提供的各种API，执行本公开实施例提供的对话特征表示方法、模型训练方法等。

处理组件1301可以包括至少一个处理器，存储器1305中存储有计算机可以执行指令集合，当计算机可以执行指令集合被至少一个处理器执行时，执行根据本公开实施例的对话特征表示方法和/或模型训练方法。此外，处理组件1301可执行如上所述的模型训练过程、执行对话特征表示方法的过程等。然而，上述示例仅是示例性的，本公开不限于此。

此外，处理组件1301可从外部设备接收训练好的对话表示模型，并且使用对话表示模型输出待处理对话的对话特征表示，并且将该对话特征表示返回给业务系统，以进行下游任务计算。

作为示例，对话表示设备1300可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，对话表示设备1300并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。对话表示设备1300还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在对话表示设备1300中，处理组件1301可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件1301还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件1301可运行存储在存储器中的指令或代码，其中，存储器1305还可以存储数据。指令和数据还可以经由网络接口1303而通过网络被发送和接收，其中，网络接口1303可以采用任何已知的传输协议。

存储器1305可以与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1305可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理器可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储器中的文件。

根据本公开的实施例，可提供一种电子设备。图14是根据本公开实施例的电子设备的框图，该电子设备1400可包括至少一个存储器1402和至少一个处理器1401，所述至少一个存储器1402存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器1401执行时，执行根据本公开实施例的对话特征表示方法或模型训练方法。

处理器1401可包括中央处理器(CPU)、音频处理器、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器1401还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器1402可包括操作系统(例如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块以及数据库。

存储器1402可与处理器1401集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1402可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1402和处理器1401可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1401能够读取存储在存储器1402中的文件。

此外，电子设备1400还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备1400的所有组件可经由总线和/或网络而彼此连接。

作为示例，电子设备1400可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1400并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1400还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

本领域技术人员可理解，图14中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的对话特征表示方法和模型训练方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述对话特征表示方法和模型训练方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种模型训练方法，其特征在于，所述训练方法包括：

获取训练对话语料以及所述训练对话语料中每个训练对话语料对应的标注类别标签，所述训练对话语料中不包括非文本对话语料；

将所述训练对话语料输入至教师模型，得到所述训练对话语料对应的第一编码特征向量和预测类别标签，其中，所述第一编码特征向量为所述教师模型的编码网络层的输出，所述预测类别标签为所述教师模型的输出结果；

将所述训练对话语料输入至学生模型，得到所述训练对话语料对应的第二编码特征向量；

根据所述标注类别标签、所述预测类别标签、所述第一编码特征向量和所述第二编码特征向量，确定第一损失；

基于所述第一损失，调整所述学生模型的参数。

2.根据权利要求1所述的训练方法，其特征在于，所述获取训练对话语料以及所述训练对话语料中每个训练对话语料对应的标注类别标签，包括：

获取历史会话数据，其中，所述历史会话数据包括对话数据和所述对话数据对应的用户行为数据；

按照预设规则对所述对话数据进行分割，得到多个子对话数据，并且基于所述子对话数据获取所述训练对话语料；

基于所述子对话数据对应的用户行为数据，设置所述训练对话语料的标注类别标签。

3.根据权利要求1所述的训练方法，其特征在于，所述获取训练对话语料以及所述训练对话语料中每个训练对话语料对应的标注类别标签之前，所述方法包括：

获取初始训练对话语料，所述初始训练对话语料中的至少部分初始训练对话语料中包括非文本对话语料；

将所述初始训练对话语料中包括的文本对话语料作为第一文本信息；

将所述初始训练对话语料中包括的非文本对话语料进行处理，得到第二文本信息；

对所述第一文本信息和所述第二文本信息进行预处理，得到所述初始训练对话语料的第三文本信息；

将所述初始训练对话语料的第三文本信息作为所述训练对话语料。

4.根据权利要求3所述的训练方法，其特征在于，所述将所述初始训练对话语料中包括的非文本对话语料进行处理，得到第二文本信息，包括：

根据不同的文本提取方法对不同类型的非文本对话语料进行处理，得到不同类型非文本对话语料对应的第二文本信息，所述文本提取方法与非文本对话语料的类型一一对应，相同类型的第二文本信息设置有相同类型的预设标记符；

将至少一种类型对应的第二文本信息作为所述第二文本信息；

其中，所述非文本对话语料的类型包括外部链接信息、图片信息、语音信息、视频信息和直播链接信息中的至少一种，其中，所述外部链接信息是通过所述外部链接信息展示图片、文字、语音或视频的链接信息，所述直播链接信息是通过所述直播链接信息展示直播信息的链接信息。

5.根据权利要求1所述的训练方法，其特征在于，所述教师模型还包括池化层以及前馈网络层，所述将所述训练对话语料输入至教师模型，得到所述训练对话语料对应的第一编码特征向量和预测类别标签，包括：

通过所述编码网络层对所述训练对话语料进行特征编码，得到所述第一编码特征向量；

通过所述池化层对所述第一编码特征向量进行降维，得到降维后的所述第一编码特征向量；

通过所述前馈网络层对所述降维后的所述第一编码特征向量进行特征编码，得到所述训练对话语料的预测类别标签。

6.根据权利要求5所述的训练方法，所述编码网络层包括嵌入层和至少一个编码隐层，所述对所述训练对话语料进行特征编码，得到所述第一编码特征向量，包括：

通过所述嵌入层对所述训练对话语料进行特征提取，得到所述训练对话语料的特征序列；

通过所述至少一个编码隐层对所述特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为所述第一编码特征向量。

7.根据权利要求1所述的训练方法，其特征在于，所述学生模型包括嵌入层、转化层以及编码网络层，所述将所述训练对话语料输入至学生模型，得到所述训练对话语料对应的第二编码特征向量，包括：

通过所述转化层对所述特征序列进行特征映射，得到映射后的特征序列；

通过所述编码网络层对所述映射后的特征序列进行特征编码，得到所述训练对话语料的第二编码特征向量。

8.根据权利要求7所述的训练方法，其特征在于，所述编码网络层包括至少一个编码隐层，所述对所述映射后的特征序列进行特征编码，得到所述训练对话语料的第二编码特征向量，包括：

通过所述至少一个编码隐层对所述映射后的特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为所述第二编码特征向量。

9.根据权利要求6和8所述的训练方法，其特征在于，所述基于所述第一损失，调整所述学生模型的参数，包括：

基于所述教师模型的预设编码隐层输出的编码特征向量和所述学生模型的预设编码隐层输出的编码特征向量计算第二损失，和/或基于所述教师模型的所述预设编码隐层进行特征编码的注意力值和所述学生模型的所述预设编码隐层进行特征编码的注意力值计算第三损失；

通过使所述第二损失和所述第三损失中的至少一个与所述第一损失之和最小化，更新所述学生模型的参数。

10.一种对话特征表示方法，其特征在于，包括：

获取多媒体会话中的待处理对话语料；

对所述待处理对话语料进行处理，得到处理后的对话语料，其中，所述处理后的对话语料中不包括非文本对话语料；

将所述处理后的对话语料输入至学生模型，得到所述处理后的对话语料的编码特征向量。

11.根据权利要求10所述的对话特征表示方法，其特征在于，所述对所述待处理对话语料进行处理，得到处理后的对话语料，包括：

将所述待处理对话语料中包括的文本对话语料作为第四文本信息；

将所述待处理对话语料中包括的非文本对话语料进行处理，得到第五文本信息；

对所述第四文本信息和所述第五文本信息进行预处理，得到所述待处理对话语料的第六文本信息，作为所述处理后的对话语料。

12.根据权利要求10所述的对话特征表示方法，其特征在于，所述学习模型包括嵌入层、转化层以及编码网络层，所述将所述处理后的对话语料输入至学生模型，得到所述处理后的对话语料的编码特征向量，包括：

通过所述嵌入层对所述处理后的对话语料进行特征提取，得到所述处理后的对话语料的特征序列；

通过所述编码网络层对所述映射后的特征序列进行特征编码，得到所述处理后的对话语料的编码特征向量。

13.根据权利要求12所述的对话特征表示方法，其特征在于，所述编码网络层包括至少一个编码隐层，所述通过所述编码网络层对所述映射后的特征序列进行特征编码，得到所述处理后的对话语料的编码特征向量，包括：

通过所述至少一个编码隐层对所述映射后的特征序列进行特征编码，并且将最后一个编码隐层预设位置处的编码特征向量作为所述处理后的对话语料的编码特征向量。

14.一种用户意图的预测方法，其特征在于，包括：

获取用户的多媒体会话中的待处理对话语料；

将所述处理后的对话语料输入至学生模型，得到所述处理后的对话语料的编码特征向量，

根据所述处理后的对话语料的编码特征向量用于预测所述用户的交互意图。

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-14中的任意一项所述的方法。

16.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-14中的任意一项所述的方法。