CN115310429B

CN115310429B - 一种多轮倾听对话模型中的数据压缩与高性能计算方法

Info

Publication number: CN115310429B
Application number: CN202210936269.5A
Authority: CN
Inventors: 郑义恒; 肖永强
Original assignee: Xiamen Biebeyun Co ltd
Current assignee: Fujian Reliable Cloud Computing Technology Co.,Ltd.
Priority date: 2022-08-05
Filing date: 2022-08-05
Publication date: 2023-04-28
Anticipated expiration: 2042-08-05
Also published as: CN115310429A

Abstract

本发明涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。该方法实现阶段包括：数据预处理阶段、数据向量化阶段、向量聚合阶段、模型拟合阶段、并行计算阶段。本发明涉及的技术包括：预训练语言模型、深度循环神经网络、注意力机制、并行计算。本发明中所提出的技术方案在有限的计算性能与开发周期内，使得语言模型同时具备强对话策略约束与足够的知识广度。

Description

一种多轮倾听对话模型中的数据压缩与高性能计算方法

技术领域

本发明涉及计算机软件技术领域，特别涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。

背景技术

人机对话技术作为自然语言处理的核心研究内容，对该技术的研究与应用是学界与业界的关注重点。在近十年的井喷式发展后，涌现出诸如注意力机制、预训练模型、端到端方法以及迁移学习等领域热点，推动了人机对话技术的发展。

在实际应用中，人机对话系统被分为任务型与非任务型对话系统。任务型对话系统面向垂直领域，目的是在有限的对话次数中满足用户的要求，常见的应用场景例如在线客服、机票预订助手等。非任务型对话系统面向的领域更为开放，对话的话题更为自由，对话内容涉及的领域更为广泛，构建系统需要的数据更为多样性。

随着人机对话技术的演进，催生了存在横跨任务型与非任务型对话系统的应用场景，例如心理健康领域的倾听对话系统。此类对话系统的目的是模拟真人咨询师的谈话策略，主要以倾听的方式引导来访者倾诉自身的遭遇与困惑，并由对话系统根据来访者所述给出对应的安慰与调解语句，以达到为来访者排解忧虑的作用。

对于对话倾听系统，目前常见的实现方式是基于大规模预训练模型，对现有的特定领域预料进行进一步拟合，但由于模型复杂度高、数据集庞大等因素，在常见的计算设备上拟合模型所消耗的时间往往是数周乃至数月。在追求敏捷开发快速迭代的当下，这样的时间成本是十分昂贵的。并且现有方案对于对话双方的文本数据采用均等的拟合权重，对于对话策略的拟合缺少数据与理论支持。

发明内容

本发明的目的在于提供一种多轮倾听对话模型中的数据压缩与高性能计算方法，在有限的计算资源下，使得语言模型同时具备强对话策略约束与足够的知识广度。

为实现上述目的，本发明的技术方案是：一种多轮倾听对话模型中的数据压缩与高性能计算方法，包括：

数据预处理阶段，使用人工少量数据标记的方式对倾诉数据进行标记；

数据向量化阶段，采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示；

向量聚合阶段，采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取；

模型拟合阶段，对预训练语言模型的训练流程进行重构，在损失函数计算中对部分语义数据进行遮罩处理；

并行计算阶段，采用并行计算并行聚合的计算方式。

在本发明一实施例中，所述数据预处理阶段，通过人工少量数据标记的方式对倾诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。

在本发明一实施例中，所述倾诉数据的数据格式为对话文本序列。

在本发明一实施例中，所述数据向量化阶段，根据倾诉数据中出现的中文字符，构建中文语料字典，使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集。

在本发明一实施例中，所述向量聚合阶段，对倾诉数据中的高频词进行统计分析，去除其中的无意义词与停止词后，将前n个高频词加入所述中文语料字典，将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。

在本发明一实施例中，对自杀相关词汇进行进一步统计，并构建自杀劝阻策略以及其触发规则，以达到对自杀倾向的发现和及时安抚。

在本发明一实施例中，中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进行调整。

在本发明一实施例中，所述模型拟合阶段，将所述向量聚合阶段输出的数据进行填充与截断操作后得到的向量序列H分批次输入预训练语言模型进行前向计算，其中，

在前向计算的过程中，向量序列H会先输入自注意力模型进行编码，即

其中，查询向量Q＝W_qH，键向量K＝W_kH，值向量V＝W_vH；D_k是Q和K中列向量的维度，

为三个投影矩阵；

经过自注意力模型编码后，将向量序列H输入后续的前向计算流程；在数据完成前向计算之后，遍历本批次内的样本计算损失函数，选择CrossEntropy作为损失函数：

其中，Y_标签∈{0,1}^C为标签对应的one-hot向量表示；

给定数据集为

将每个样本x⁽ⁿ⁾输入前向计算流程，输出为Y_预测值；基于数据预处理阶段中对倾诉数据的倾诉文本标记，在遍历到倾诉文本时不计算损失函数。

在本发明一实施例中，所述并行计算阶段，在前向计算与反向传播时，将计算任务分为n份，在计算周期内每个计算节点独立不重复的计算一部分任务，并在计算周期结束时将计算结果传递给相邻下一个计算节点，并同时从相邻的上一节点获取一份计算结果；在所有计算周期结束时，启动同步阶段，存有完整计算数据的节点将相应的数据块传递给相邻节点，并接力传递至所有节点。

相较于现有技术，本发明具有以下有益效果：本发明方法在大数据大规模计算的场景下显著提升集群计算资源的利用率。并且在任务型对话场景中，能够在控制谈话边界与策略的情况下同时保证机器生成文本的多样性以及谈话体验的真实性。

用户在使用本发明所提出的模型拟合与构建方案时，可以降低计算与时间成本，并且通过直接的数据标记，就可以将对话策略信息转化为模型可理解的数学表示，通过构建词表这一直观的方式，可以对心理健康对话等特殊场景下的对于自杀等特定倾向文本做到及时高效的检测。并且由于本发明在损失函数计算中设计的遮罩优化操作，使得在强策略强边界场景下的谈话内容的个性化可定制成为了现实的可能。

附图说明

图1为本发明方法流程示意图。

图2为本发明数据预处理阶段示意图。

图3为本发明数据向量化阶段示意图。

图4为本发明模型拟合阶段示意图。

图5为本发明并行计算阶段示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

如图1所示，本发明一种多轮倾听对话模型中的数据压缩与高性能计算方法，包括：

并行计算阶段，采用并行计算并行聚合的计算方式。

以下为本发明具体实现过程。

本发明一种多轮倾听对话模型中的数据压缩与高性能计算方法，步骤如下：

步骤1：数据预处理阶段

如图2所示，原始数据格式为对话文本序列，为了让模型按照特定的谈话策略对来访者的倾诉作出回应，需要人工对文本所属的倾听策略进行标注，将策略标签与倾诉文本标记在数据中。

步骤2：数据向量化阶段

如图3所示，在本阶段中将标记后的中文文本转换为对应的向量表示。根据对话数据中出现的中文字符，构建中文语料字典，使用每个字符在字典中的索引值将数据集映射为字符索引数据集。

步骤3：向量聚合阶段

为让模型在有限的时间与计算资源之下专注于学习数据中的倾听语句与谈话策略，本方案创新性的对来访者一方的倾诉数据进行进一步提纯与压缩。对倾诉数据中的高频词进行统计分析，去除其中的无意义词与停止词后，将前n个高频词加入步骤2中构建的语料字典，将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。并且，由于心理健康领域的特殊性，本方案中对自杀相关词汇进行了进一步统计，并构建了自杀劝阻策略以及其触发规则，以达到对自杀倾向的发现和及时安抚。

为了在不同的应用场景中发挥本专利的优势，数据的向量化词典与高频词参数需要根据对话系统系统的应用场景与生成文本侧重进行调整。

步骤4：模型拟合阶段

如图4所示，将步骤3中输出的向量化数据样本，进行填充与截断操作后，将向量序列H数据分批次输入预训练语言模型进行前向计算操作，其中，

在前向计算的过程中，向量数据会输入自注意力模型进行编码，即

其中，查询向量Q＝W_qH，键向量K＝W_kH，值向量V＝W_vH；D_k是输入矩阵Q和K中列向量的维度，

为三个投影矩阵。

经过注意力编码操作后，将向量输入后续的前向计算流程。在数据完成前向计算之后，遍历本批次内的样本计算损失函数，选择CrossEntropy作为损失函数

其中Y_标签∈{0,1}^C为标签对应的one-hot向量表示。

给定数据集为

将每个样本x⁽ⁿ⁾输入前向计算流程，输出为Y_预测值。基于步骤1中的倾诉文本标记，在遍历到倾诉文本数据时不计算损失函数值。

步骤5：并行计算阶段

如图5所示，在前向计算与反向传播时，将计算任务分为n份，在计算周期内每个计算节点独立不重复的计算一部分任务，并在计算周期结束时将计算结果传递给相邻下一个计算节点，并同时从相邻的上一节点获取一份计算结果。在所有计算周期结束时，启动同步阶段，存有完整计算数据的节点将相应的数据块传递给相邻节点，并接力传递至所有节点。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，包括：

数据向量化阶段，采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示；所述数据向量化阶段，根据倾诉数据中出现的中文字符，构建中文语料字典，使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集；所述中文语料字典包括策略词典、常规词典、高频词典、重点触发词词典；

数据向量化阶段还包括将倾听数据中的中文文本转换为对应的向量表示；将标记后的倾诉数据中的中文文本转换为对应的向量表示的方式为：将“倾诉开始+倾诉语句+倾诉结束”转换为“0+倾诉语句对应向量+1”，其中0、1分别为倾诉开始、倾诉结束对应的向量，倾诉语句对应向量由常规词典、高频词典、重点触发词词典获取；将倾听数据中的中文文本转换为对应的向量表示的方式为：将“倾听开始+倾听策略+倾听语句+倾听结束”转换为“2+倾听策略对应向量+倾听语句对应向量+3”，其中2、3分别为倾听开始、倾听结束对应的向量，倾听策略对应向量由策略词典获取，倾听语句对应向量由常规词典获取；

所述模型拟合阶段，将所述向量聚合阶段输出的数据进行填充与截断操作后得到的向量序列H分批次输入预训练语言模型进行前向计算，其中，

其中，查询向量Q＝W_qH，键向量K＝W_kH，值向量V＝W_vH；D_k是Q和K中列向量的维度，为三个投影矩阵；

其中，Y_标签∈{0,1}^C为标签对应的one-hot向量表示；

给定数据集为将每个样本x⁽ⁿ⁾输入前向计算流程，输出为Y_预测值；基于数据预处理阶段中对倾诉数据的倾诉文本标记，在遍历到倾诉文本时不计算损失函数；

并行计算阶段，采用并行计算并行聚合的计算方式；具体的，所述并行计算阶段，在前向计算与反向传播时，将计算任务分为n份，在计算周期内每个计算节点独立不重复的计算一部分任务，并在计算周期结束时将计算结果传递给相邻下一个计算节点，并同时从相邻的上一节点获取一份计算结果；在所有计算周期结束时，启动同步阶段，存有完整计算数据的节点将相应的数据块传递给相邻节点，并接力传递至所有节点。

2.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述数据预处理阶段，通过人工少量数据标记的方式对倾诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。

3.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述倾诉数据的数据格式为对话文本序列。

4.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，所述向量聚合阶段，对倾诉数据中的高频词进行统计分析，去除其中的无意义词与停止词后，将前n个高频词加入所述中文语料字典，将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。

5.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，对自杀相关词汇进行进一步统计，并构建自杀劝阻策略以及其触发规则，以达到对自杀倾向的发现和及时安抚。

6.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法，其特征在于，中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进行调整。