CN111680497B

CN111680497B - 会话识别模型训练方法及装置

Info

Publication number: CN111680497B
Application number: CN201910138842.6A
Authority: CN
Inventors: 徐梓钧
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2023-12-08
Anticipated expiration: 2039-02-25
Also published as: CN111680497A

Abstract

本申请提供了一种会话识别模型训练方法及装置，其中，该会话识别模型训练方法包括：将训练数据经过会话特征提取方法处理，得到训练特征；将训练特征输入待训练识别模型的第一卷积进行处理，得到第一输出数据；将第一输出数据输入第二卷积进行降维处理，得到特征图；将特征图与特征图对应的掩模向量进行点积操作，得到空间注意力特征图；将空间注意力特征图与第一输出数据进行组合得到表示特征；将表示特征与对应的标注数据使用损失函数进行计算，得到损失误差；若损失误差大于设定值，则调整待训练识别模型的参数，得到更新的待训练识别模型；若损失误差小于设定值，则将确定参数的待训练识别模型作为会话识别模型。

Description

会话识别模型训练方法及装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种会话识别模型训练方法及装置。

背景技术

在进行会话、短文等语料数据识别之前，需要将语料数据处理成表示语料数据的特征。但是现有的是将每个句子处理成单独的一个特征，一个语料数据中有多个句子时，形成多个特征；这样的处理方式会导致需要处理句子时，数据处理量比较大。

发明内容

有鉴于此，本申请实施例的目的在于提供一种会话特征提取方法、会话识别模型训练方法及装置，能够通过将待处理语料进行处理行为一个三维张量解决现有技术中存在的一段会话中需要将每个句子形成独立的句子特征，导致不能合适的表达句子的问题，达到提取的三维张量可以更好地表示句子的效果。

根据本申请的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可读指令。当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行所述机器可读指令，以执行一个或多个以下操作：

将待处理语料进行预处理，得到第一语料数据；

将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，得到第二语料数据；

将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据，所述句量表示句子的数量；

将所述第三语料数据中的每句话中的每个词使用第三数值长度的向量表示，以将所述待处理语料形成第一数值、第二数值乘第三数值大小的三维张量。

本申请实施例提供的会话特征提取方法，采用直接将语料数据形成三维张量，与现有技术中针对语料数据的特征的提取方式对每个句子提取一个独立的特征，本申请实施例提供的方法，提取了语料数据中的各个单词与会话内容之间的直接联系，形成三维张量数据，三维张量可以直接表示一语料数据的特征。

在一些实施例中，所述将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，包括：

若所述第一语料数据中的第一句子的长度大于第一数值的长度，将所述第一句子进行截断处理，形成长度为第一数值的长度的第一目标句子。

在一些实施例中，所述将所述第一句子进行截断处理，形成长度为第一数值的长度的第一目标句子，包括：

截断所述第一句子中前面多余的词，预留所述第一句子后面第一数值的长度的词形成第一目标句子。

由于一个句子的开始可能会存在一个辅助的，用于进入话题的铺垫性的文字，因此通过将句子前面多余的词截断删除，可以减少将句子中的重要信息删除的概率。

若所述第一语料数据中的第二句子的长度小于第一数值的长度，将所述第二句子的第一设定位置补充设定内容，形成长度为第一数值的第二目标句子。

在一些实施例中，所述将所述第二句子的第一设定位置补充设定内容，形成长度为第一数值的第二目标句子，包括：

在所述第二句子中的句末补充设定内容，形成长度为第一数值的第二目标句子。

由于一个句子的重点信息可能在句中或句末，因此，在句子末尾添加一些辅助的词，使句子的重点靠前，在对得到的语料的特征进行训练时可以更容易关注重点。

进一步，本申请实施例提供的会话特征提取方法，还可以将各个长短不一的句子处理成长短相同的句子，从而可以使最后生成的三维张量更加整齐。

在一些实施例中，所述将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据的步骤，包括：

若所述第二语料数据中的句量小于第二数值，在所述第二语料数据中的第二设定位置补充设定内容，形成第二数值的句量的第三语料数据。

在一些实施例中，所述在所述第二语料数据中的第二设定位置补充设定内容，形成第二数值的句量的第三语料数据的步骤，包括：

在所述第二语料数据中的文本最前位置补充设定内容，形成第二数值的句量的第三语料数据。

若所述第二语料数据中的句量大于第二数值，对所述第二语料数据进行截断处理，得到第三语料数据。

在一些实施例中，所述对所述第二语料数据进行截断处理，得到第三语料数据，包括：

将所述第二语料数据中末尾的多余的句子进行截断处理，预留所述第二语料数据中前面的第二数值的句量的句子形成第三语料数据。

在一些实施例中，所述将待处理语料进行预处理，得到第一语料数据的步骤，包括：

将待处理语料数据中的设定类字符进行过滤；或/及，

将所述待处理语料数据连续关联句子进行拼接，形成一个句子。

在另一方面，本申请实施例还提供一种会话识别模型训练方法，包括：

将训练数据经过上述的会话特征提取方法处理，得到训练特征；

将所述训练特征输入待训练识别模型进行训练，得到会话识别模型。

在另一方面，本申请实施例还提供一种会话识别方法，包括：

将待识别语料输入上述的会话识别模型，得到识别结果。

在一些实施例中，所述将所述训练特征输入待训练识别模型进行训练，得到会话识别模型的步骤，包括：

将所述训练特征输入待训练识别模型的第一卷积进行处理，得到第一输出数据；

将所述第一输出数据输入第二卷积进行降维处理得到，特征图；

将所述特征图与所述第一输出数据进行得到表示特征；

将所述表示特征与对应的标注数据使用损失函数进行计算，得到损失误差；

若损失误差大于设定值，则调整所述待训练识别模型的参数，得到更新的待训练识别模型；

若损失误差小于设定值，则将确定参数的待训练识别模型作为会话识别模型。

在一些实施例中，所述将所述特征图与所述第一输出数据进行得到表示特征的步骤，包括：

将所述特征图与所述特征图对应的掩模向量进行点积操作，得到注意力特征图；

将所述注意力特征图与所述第一输出数据进行组合得到表示特征。

在一些实施例中，所述方法还包括：

使用tensorflow提供的数据读取类，加载所述训练数据。

在另一方面，本申请实施例提供了一种会话特征提取装置，包括：

预处理模块，用于将待处理语料进行预处理，得到第一语料数据；

第一处理模块，用于将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，得到第二语料数据；

第二处理模块，用于将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据，所述句量表示句子的数量；

表示模块，用于将所述第三语料数据中的每句话中的每个词使用第三数值长度的向量表示，以将所述待处理语料形成第一数值、第二数值乘第三数值大小的三维张量。

在一些实施例中，所述第一处理模块，还用于：

在一些实施例中，所述第二处理模块，还用于：

在一些实施例中，所述预处理模块，还用于：

将待处理语料数据中的设定类字符进行过滤；或/及，

在另一方面，本申请实施例提供一种会话识别模型训练装置，包括：

提取模块，用于将训练数据经过上述的会话特征提取方法处理，得到训练特征；

训练模块，用于将所述训练特征输入待训练识别模型进行训练，得到会话识别模型。

在一些实施例中，所述训练模块，还用于：

将所述特征图与所述第一输出数据进行得到表示特征；

在一些实施例中，所述训练模块，还用于：

在一种实施，所述装置还包括：加载模块，用于使用tensorflow提供的数据读取类，加载所述训练数据。

在另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的任一种可能的实施方式中会话特征提取方法的步骤。

在另一方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述的任一种可能的实施方式中会话识别模型训练方法的步骤。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了一现有技术中对话数据的特征处理模型示意图；

图2示出了本申请实施例所提供的一种电子设备的结构示意图；

图3示出了本申请实施例所提供的一种会话特征提取方法的流程图；

图4示出了本申请实施例所提供的一种会话识别模型训练方法的流程图；

图5示出了本申请实施例提供的一会话识别模型示意图；

图6示出了本申请实施例所提供的一种会话特征提取装置的结构示意图；

图7示出了本申请实施例所提供的一种会话识别模型训练装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的一个方面涉及一种会话特征提取方法、会话识别模型训练方法及装置。该会话特征提取方法通过将语料数据提取成三维张量，可以更直接地表示多个句子的语料。

值得注意的是，在本申请提出申请之前，在需要对多个句子形成的语料数据提取特征时，是将语料中的每个词形成对应的特征，需要对语料数据进行识别时，将每个词形成的多个特征输入模型中进行。然而，本申请提供的会话特征提取方法可以一个语料数据可以形成一个三维的张量。

如图1所示，下面就一种的语料提取的特征，以及对提取的特征进行的后续的处理方式进行简单描述。

图1所示的语料数据处理主要是先将一段话中的多句话中的每个词使用词向量表示得到：每一句话中的词向量word1、word2、…、wordn。然后，将词向量输入一循环神经网络(Recurrent Neural Networks，简称RNN)中进行处理，图中示出的RNN是LSTM(Long Short-Term Memory，中文称长短期记忆网络)。通过LSTM的处理后，然后将每个句子的特征输入一注意力机制(Attention)中，识别出每个句子中的主要特征，得到每个句子的句向量(sentence embedding)；再将每个句向量(sentence embedding)各自输入一LSTM中进行计算处理后，再输入一注意力机制(Attention)中，识别出一段话中的主要特征，得到能够表达一段话的重要信息的会话表示向量。

上述的处理方式是将一段话中的多句话中的每个词输入一个循环神经网络中进行处理，得到能够表示一段话中的每句话的句向量，然后将句向量再输入一循环神经网络中进行处理，得到能够表示一段话的重要信息的句向量。通过两个循环神经网络对一段话进行逐一识别，但是这种处理方式相对比较繁琐。此外，由于使用了多个循环神经网络，在模型的训练的过程中存在梯度弥散、耗时久的缺陷。进一步地，在多层注意力机制下，单词与会话之间需要通过句子这个中间表示建立联系，从而忽略了单词本身与整体会话内容之间的联系。

基于上述研究，本申请提供以下几个实施例，可以解决上述的繁琐问题，以及在对会话的表示也能够更快，具体描述如下。

实施例一

图2示出根据本申请的一些实施例为电子设备100的示例性硬件和软件组件的示意图。例如，电子设备的处理器上，用于执行本申请中的功能。

电子设备100可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的会话特征提取方法或会话识别模型训练方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

实施例二

本实施例提供一种会话特征提取方法。本实施例中的方法可以由一电子设备执行。图3示出了本申请一个实施例中的会话特征提取方法的流程图。下面对图2所示的会话特征提取方法的流程进行详细描述。

步骤S201，将待处理语料进行预处理，得到第一语料数据。

上述的待处理语料数据可以是线上咨询产生的会话记录；也可以是用户自述的一段文字记录。

不管是哪种类型的待处理语料，直接得到的语料都可能存在一些训练过程不需要的字符。例如，不需要的字符可以是用户信息、表情符号、html标记语言等一些非官方使用的字符。

在一个实例中，上述的待处理语料可以来源于一平台人工客服与用户的会话记录。

这类会话记录中可能会存在一些敏感信息。例如，用户账号、用户手机号、用户年龄等信息。因此，步骤S201还可以包括：对会话记录进行脱敏处理，利用规则去除用户相关的信息，得到包含用户与客服的对话记录，在一次对话过程中包含多轮用户与客服的对话内容。

在一种实施方式，步骤S201可以包括：将待处理语料数据中的设定类字符进行过滤。本实施方式中，可以利用设定规则过滤设定类字符。在一个实例中，上述的待处理语料可以是在中文环境中产生的语料，则设定规则可以是对待处理语料进行识别，将识别为非中文字符的过滤掉。

通过将一些训练过程中不需要的字符过滤掉，可以减少设定类字符对待处理语料的干扰。

在另一种实施方式，步骤S201可以包括：将所述待处理语料数据连续关联句子进行拼接，形成一个句子。

在一个实例中，若上述的待处理语料是在线对话。对实际对话过程中，由于各种原因(例如，用户着急知道更多信息，则可能一次发送多个问题)，用户的输入与客服的回复可能无法一一对应的。因此，需要将一段会话数据进行处理，对用户或客服的连续输入的多句话进行拼接，得到用户问话与客服回答相对应的一问一答形式的会话数据。

在一个实例中，待处理语料可以是：

用户：你好

用户：请问发什么快递

用户：什么时候发货

客服：24小时内使用申通快递发货

用户：谢谢

客服：请问还有什么可以帮助您的吗

用户：没有了

上述实例中的“你好”、“请问发什么快递”以及“什么时候发货”则可以拼接成一句话。

进一步地，步骤S201还可以包括：对待处理语料数据进行分词处理，将一句话中的每个词进行分割处理。关于分词算法的选择可以是：基于字符串匹配、基于统计以及机器学习的分词方法、通过让计算机模拟人对句子的理解实现识别词等方法。在一个实例中，可以选择jieba分词。

在一个实例中，一个待处理语料中的一个句子是“我在A公司上班”，分词结果为：我、在、A公司、上班。

步骤S202，将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，得到第二语料数据。

上述的第一数值可以是按照需求设置的。在不同的应用领域，可以设置不同的第一数值。

第一语料数据中的句子的长度可能比第一数值的长度长，也可能比第一数值的长度短，因此，针对不同的长度的句子可以采用不同的处理方式。对于长度大于第一数值的长度的句子可以截断部分内容，使句子的长度等于第一数值的长度；对于长度小于第一数值的长度的句子可以补充设定内容，使句子的长度等于第一数值的长度。下面就具体描述不同的句子的处理方式。

在一种实施方式中，步骤S202可以包括：若所述第一语料数据中的第一句子的长度大于第一数值的长度，将所述第一句子进行截断处理，形成长度为第一数值的长度的第一目标句子。

在一些实施例中，可以截断句子中最末尾的词；也可以截断句子最前面的词；还可以截断句子中的一些语气词等。

在一个实例中，上述的第一数值可以是五，一句子的内容是“我今天八点半之前到公司了”，该句子中分别包括“我”、“今天”、“八点半之前”、“到”、“公司”及“了”。而这个句子的词量是六，因此，需要截断一些多余的词。

例如，可以截断句子最前面的词，则截取之后的句子表示为“今天八点半之前到公司了”。再例如，可以截断句子末尾的词，则截取之后的句子表示为“我今天八点半之前到公司”。

可选地，上述的将所述第一句子进行截断处理，形成长度为第一数值的长度的第一目标句子，包括：截断所述第一句子中前面多余的词，预留所述第一句子后面第一数值的长度的词形成第一目标句子。

在一种实施方式中，步骤S202可以包括：若所述第一语料数据中的第二句子的长度小于第一数值的长度，将所述第二句子的第一设定位置补充设定内容，形成长度为第一数值的第二目标句子。

在一些实施例中，可以在句子的前面补充设定内容；也可以在句子的后面补充设定内容。

在一个实例中，上述的第一数值可以是五，一句子的内容是“我到公司了”，该句子中分别包括“我”、“到”、“公司”及“了”。而这个句子的词量是四，因此，需要补充设定内容，使句子的长度为第一数值的长度。

在一个实例中，可以在句子的末尾补充设定内容，则补充后的句子可以表示为：“我到公司了*”；也可以在句子的前面补充设定内容，则补充后的句子可以表示为“*我到公司了”。其中，“*”表示一个设定内容，在一个实例中，“*”可以是对应词向量为零的一个字符，例如，在jieba分词中，上述的设定内容“*”可以是“pad”。下面以补充的词为“pad”为例进行后面的描述。具体地，“pad”转化的词向量为零向量。

可选地，上述的将所述第二句子的第一设定位置补充设定内容，形成长度为第一数值的第二目标句子，包括：在所述第二句子中的句末补充设定内容，形成长度为第一数值的第二目标句子。

步骤S203，将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据。

上述的句量表示句子的数量。

第二语料数据中的句子的数量可能比第二数值的多，也可能比第二数值的少，因此，针对不同的句子数量的第二语料数据可以采用不同的处理方式。对于句子数量大于第二数值的第二语料数据可以截断部分句子，使句子的数量等于第二数值；对于句子数量小于第二数值的第二语料数据可以补充设定内容，使句子数量等于第二数值。下面就具体描述不同的句量的第二语料数据的处理方式。

在一种实施方式中，步骤S203可以包括：若所述第二语料数据中的句量小于第二数值，在所述第二语料数据中的第二设定位置补充设定内容，形成第二数值的句量的第三语料数据。

可选地，上述的在所述第二语料数据中的第二设定位置补充设定内容，形成第二数值的句量的第三语料数据的步骤，包括：在所述第二语料数据中的文本最前位置补充设定内容，形成第二数值的句量的第三语料数据。

在一个实例中，以数字的示意一个词，第二语料数据表示为：

其中，上述的矩阵中每个数字表示一个词，每个行向量表示一个句子；

上述的第二数值可以是五，则需要将上述实例中的第二语料数据进行补充，得到第三语料数据。可选地，可以在第二语料数据的最前面补充设定内容；也可以在第二语料数据的最后面补充设定内容。

在一个实例中，可以在第二语料数据的最后面补充设定内容，则补充设定内容后的第三语料数据表示为：

在一个实例中，可以在第二语料数据的最前面补充设定内容，则补充设定内容后的第三语料数据表示为：

在另一种实施方式中，步骤S203可以包括：若所述第二语料数据中的句量大于第二数值，对所述第二语料数据进行截断处理，得到第三语料数据。

步骤S204，将所述第三语料数据中的每句话中的每个词使用第三数值长度的向量表示，以将所述待处理语料形成第一数值、第二数值乘第三数值大小的三维张量。

在一个实例中，通过上述的步骤S201至S203的多个步骤，可以得到句子长度等于第一数值，句子数量等于第二数值的第三语料数据：

进一步地，可以将第三语料数据中的每一句话“padpadpadpadpad”、“12345”…等中的每个词表示成第三数值长度的向量。从而可以得到第一数值、第二数值乘第三数值大小的三维张量。

在一个实例中，第一数值可以是L，第二数值可以是N，第三数值可以是D；则每段话可以处理成一个N×L×D的三维张量。

实施例三

本实施例提供一种会话识别模型训练方法。本实施例中的方法可以由一电子设备执行。本实施例中的会话识别模型训练方法可以由执行实施例二中的会话特征提取方法的电子设备不同的设备执行；也可以由执行实施例二中的会话特征提取方法的电子设备相同的设备执行。图4示出了本申请一个实施例中的会话识别模型训练方法的流程图。下面对图4所示的会话识别模型训练方法的流程进行详细描述。

步骤S301，将训练数据经过上述的会话特征提取方法处理，得到训练特征。

上述的训练数据可以来源于一平台人工客服与用户的会话记录。

在一些实施例中，会话识别模型训练方法还包括：使用tensorflow提供的数据读取类，加载所述训练数据。

TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统，被广泛应用于各类机器学习(machine learning)算法的编程实现。

步骤S302，将所述训练特征输入待训练识别模型进行训练，得到会话识别模型。

在一些实施例中，如图5所示，步骤S302可以包括：

步骤S3021，将所述训练特征输入待训练识别模型的第一卷积进行处理，得到第一输出数据；

图5所示的第一卷积模块(convolution module)进行卷积处理。进一步地，还可以对卷积处理后的数据进行池化操作，从而得到上述的第一输出数据。

其中，若待训练识别模型有更新时，将训练数据输入最新的待训练识别模型中进行训练。

步骤S3022，将所述第一输出数据输入第二卷积进行降维处理得到，特征图；

然后将上述的第一输出数据输入第二卷积进行降维处理。

在一个实例中，可以选择1×1的卷积神经网络进行处理，得到特征图。

步骤S3023，将所述特征图与所述第一输出数据进行得到表示特征；

进一步地，考虑到原始的训练数据中可能存在无用信息，例如，padding。则需要抑制此部分数值，因此，将步骤S3022得到的特征图与数据相关的掩模做一次点积操作，得到对于训练数据的spatial attention map。

可选地，步骤S3023可以包括：将所述特征图与所述特征图对应的掩模向量进行点积操作，得到注意力特征图；将所述注意力特征图与所述第一输出数据进行组合得到表示特征。

如图5所示，先将1×1的卷积神经网络的输出特征图与特征图对应的掩模向量(conversion mask)做点积，可以得到注意力特征图(spatial attention map)。

步骤S3024，将所述表示特征与对应的标注数据使用损失函数进行计算，得到损失误差。

若损失误差大于设定值，则执行步骤S3025；若损失误差小于设定值，则将确定参数的待训练识别模型作为会话识别模型。

在一种可选的实施方式中，可以采用交叉熵损失函数计算上述的损失误差。在一个实例中，上述的训练数据可以是用户与客服的对话记录，则可以将客服实际的回复作为标签，与待训练识别模型的输出数据表示特征进行损失计算。

步骤S3025，调整所述待训练识别模型的参数，得到更新的待训练识别模型。

进一步地，可以使用随机梯度下降算法完成对模型参数的更新。

通过本实施例中的方法，通过将三维张量输入训练模型中训练，可以直接通过待训练识别模型对整个会话进行训练就可以得到会话识别模型。

进一步地，将上述的注意力特征图和输出特征进行组合可以得到会话级别的特征表示(conersion represention)。其中，确定好参数的会话级别的特征表示则可以作为会话识别模型。

进一步地，在其它实施例中，通过实施例三训练得到的会话识别模型可以用于对各个会话记录进行识别，可以得到会话记录所表达的重点信息。详细地，可以将待识别语料输入上述的会话识别模型，得到识别结果。

进一步地，使用会话识别模型对会话内容进行识别的各个步骤可以由与执行训练得到会话识别模型的各个步骤的电子设备相同的设备执行，也可以由执行训练得到会话识别模型的各个步骤的不同的电子设备相同的设备执行。

实施例四

基于同一申请构思，本申请实施例中还提供了与会话特征提取方法对应的会话特征提取装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述会话特征提取方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

图6是示出本申请的一些实施例的会话特征提取装置的框图，该会话特征提取装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图6所示，会话特征提取装置可以包括：预处理模块401、第一处理模块402、第二处理模块403及表示模块404，其中，

预处理模块401，用于将待处理语料进行预处理，得到第一语料数据；

第一处理模块402，用于将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，得到第二语料数据；

第二处理模块403，用于将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据，所述句量表示句子的数量；

表示模块404，用于将所述第三语料数据中的每句话中的每个词使用第三数值长度的向量表示，以将所述待处理语料形成第一数值、第二数值乘第三数值大小的三维张量。

在一些实施例中，所述第一处理模块402，还用于：

在一些实施例中，所述第二处理模块403，还用于：

在一些实施例中，所述预处理模块401，还用于：

将待处理语料数据中的设定类字符进行过滤；或/及，

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本申请实施例提供的会话特征提取装置，采用直接将语料数据形成三维张量，与现有技术中针对语料数据的特征的提取方式对每个句子提取一个独立的特征，本申请实施例提供的方法，提取了语料数据中的各个单词与会话内容之间的直接联系，形成三维张量数据，三维张量可以直接表示一语料数据的特征。

实施例五

基于同一申请构思，本申请实施例中还提供了与会话识别模型训练方法对应的会话识别模型训练装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述会话识别模型训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

图7是示出本申请的一些实施例的会话识别模型训练装置的框图，该会话特征提取装置实现的功能对应上述方法执行的步骤。该装置可以理解为上述服务器，或服务器的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图7所示，会话识别模型训练装置可以包括：提取模块501以及训练模块502，其中，

提取模块501，用于将训练数据经过上述的会话特征提取方法处理，得到训练特征；

训练模块502，用于将所述训练特征输入待训练识别模型进行训练，得到会话识别模型。

在一些实施例中，所述训练模块502，还用于：

将所述特征图与所述第一输出数据进行得到表示特征；

进一步地，本申请实施例中的装置，通过将语料的三维张量输入卷积网络处理即可，与现有技术相比，现有技术需要对句子的注意力使用循环神经网络的处理，以及再对整体语料的注意力使用循环神经网络的处理的多重处理，本申请实施例提供的只需要较少的卷积处理，提高对语料数据处理的效率。

在一些实施例中，所述训练模块502，还用于：

通过本实施例中的装置，通过将三维张量输入训练模型中训练，可以直接通过待训练识别模型对整个会话进行训练就可以得到会话识别模型。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的会话特征提取方法的步骤。

此外，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的会话识别模型训练方法的步骤。

本申请实施例所提供的会话特征提取方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的会话特征提取方法的步骤，具体可参见上述方法实施例，在此不再赘述。

本申请实施例所提供的会话识别模型训练方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的会话识别模型训练方法的步骤，具体可参见上述方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种会话识别模型训练方法，其特征在于，包括：

将训练数据经过会话特征提取方法处理，得到训练特征；

将所述第一输出数据输入第二卷积进行降维处理，得到特征图；

将所述特征图与所述特征图对应的掩模向量进行点积操作，得到空间注意力特征图；

将所述空间注意力特征图与所述第一输出数据进行组合得到表示特征；

若损失误差小于设定值，则将确定参数的待训练识别模型作为会话识别模型；

其中，所述会话特征提取方法包括：

将待处理语料进行预处理，得到第一语料数据；

2.如权利要求1所述的方法，其特征在于，所述将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，包括：

3.如权利要求2所述的方法，其特征在于，所述将所述第一句子进行截断处理，形成长度为第一数值的长度的第一目标句子，包括：

4.如权利要求1所述的方法，其特征在于，所述将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，包括：

5.如权利要求4所述的方法，其特征在于，所述将所述第二句子的第一设定位置补充设定内容，形成长度为第一数值的第二目标句子，包括：

6.如权利要求1所述的方法，其特征在于，所述将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据，包括：

7.如权利要求6所述的方法，其特征在于，所述在所述第二语料数据中的第二设定位置补充设定内容，形成第二数值的句量的第三语料数据，包括：

8.如权利要求1所述的方法，其特征在于，所述将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据，包括：

9.如权利要求8所述的方法，其特征在于，所述对所述第二语料数据进行截断处理，得到第三语料数据，包括：

10.如权利要求1所述的方法，其特征在于，所述将待处理语料进行预处理，得到第一语料数据的步骤，包括：

将待处理语料数据中的设定类字符进行过滤；或/及，

11.如权利要求1至10任一项所述的方法，其特征在于，所述方法还包括：

使用tensorflow提供的数据读取类，加载所述训练数据。

12.一种会话识别模型训练装置，其特征在于，包括：

提取模块，用于将训练数据经过会话特征提取方法处理，得到训练特征；

训练模块，用于将所述训练特征输入待训练识别模型的第一卷积进行处理，得到第一输出数据；将所述第一输出数据输入第二卷积进行降维处理，得到特征图；将所述特征图与所述特征图对应的掩模向量进行点积操作，得到空间注意力特征图；将所述空间注意力特征图与所述第一输出数据进行组合得到表示特征；将所述表示特征与对应的标注数据使用损失函数进行计算，得到损失误差；若损失误差大于设定值，则调整所述待训练识别模型的参数，得到更新的待训练识别模型；若损失误差小于设定值，则将确定参数的待训练识别模型作为会话识别模型；

其中，所述会话特征提取方法包括：

将待处理语料进行预处理，得到第一语料数据；

13.如权利要求12所述的装置，其特征在于，所述将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，包括：

14.如权利要求13所述的装置，其特征在于，所述将所述第一句子进行截断处理，形成长度为第一数值的长度的第一目标句子，包括：

15.如权利要求12所述的装置，其特征在于，所述将所述第一语料数据中的每一句话进行处理，将每句话处理成第一数值的长度，包括：

16.如权利要求15所述的装置，其特征在于，所述将所述第二句子的第一设定位置补充设定内容，形成长度为第一数值的第二目标句子，包括：

17.如权利要求12所述的装置，其特征在于，所述将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据，包括：

18.如权利要求17所述的装置，其特征在于，所述在所述第二语料数据中的第二设定位置补充设定内容，形成第二数值的句量的第三语料数据，包括：

19.如权利要求12所述的装置，其特征在于，所述将所述第二语料数据的句量进行处理，得到包括第二数值的句量的第三语料数据，包括：

20.如权利要求19所述的装置，其特征在于，所述对所述第二语料数据进行截断处理，得到第三语料数据，包括：

21.如权利要求12所述的装置，其特征在于，所述将待处理语料进行预处理，得到第一语料数据的步骤，包括：

将待处理语料数据中的设定类字符进行过滤；或/及，

22.如权利要求12至21任一项所述的装置，其特征在于，所述装置还包括：

加载模块，用于使用tensorflow提供的数据读取类，加载所述训练数据。

23.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至11任一所述的方法的步骤。

24.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至11任一所述的方法的步骤。