CN115048944B

CN115048944B - 一种基于主题增强的开放域对话回复方法及系统

Info

Publication number: CN115048944B
Application number: CN202210981384.4A
Authority: CN
Inventors: 李太豪; 黄剑韬
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-12-20
Anticipated expiration: 2042-08-16
Also published as: CN115048944A; WO2024036840A1

Abstract

本发明公开一种基于主题增强的开放域对话回复方法及系统，该方法包括：步骤一：采集并预处理得到中文对话语料数据集；步骤二：利用自然语言处理工具包进行对话的断句、分词和词性标注并抽取名词性词语；步骤三：对每一句对话进行语义及主题信息的增强处理，后使用预训练句子表征模型学习原始句子与增强后句子的向量表征；步骤四：使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理；步骤五：将主题聚合增强后的句向量输入预训练的生成模型，生成对话回复候选集，最后采用对比学习方法训练回复排序选择模型选出最适合的回复。本发明解决了开放域对话回复生成中的生成回复主题不一致性的问题，提高了回复生成的效果。

Description

一种基于主题增强的开放域对话回复方法及系统

技术领域

本发明属于人工智能领域，涉及一种基于主题增强的开放域对话回复方法及系统。

背景技术

开放域对话回复生成是自然语言处理中一项具有挑战性的任务，开放域对话是指在不限定领域下进行通用聊天。目前在任务型对话回复任务中，人工智能取得了重大的突破，可是开放域的对话回复中，无法掌控用户的意图变化，所以需要模型具有更强的泛化能力及鲁棒性。

目前对话回复生成的系统主要分成两种模式，一种是基于检索模型在特定数据库或语料库中找寻相似内容的回复，现在很多知识问答或者任务型对话都是采用这种检索模型。而在开放域聊天中，没有一个特定的语料库可供查询，所以这种检索模型的效果往往不如预期。而随着深度学习的兴起，尤其是大规模预训练生成模型如GPT、T5、BART等的提出，基于深度学习的生成式对话系统也受到了越来越多的关注。虽然在大规模的对话预料中预训练然后再微调的方式，可以生成语义通顺的回复，可是在开放域对话回复中往往生成比较泛的回复，缺少主题的一致性。

在开放域对话回复中，目前的技术往往只考虑生成回复与前文的连贯性，却忽略了主题之间的一致性，导致模型通常会给出很泛的回复。而且由于开放域中没有固定的主题，难以及时侦测主题，并给出一致的回复。所以需要根据对话上下文来抽取出隐含的主题信息，并透过主题增强的方法指导回复生成。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于主题增强的开放域对话回复方法及系统，其具体技术方案如下：

一种基于主题增强的开放域对话回复方法，包括以下步骤：

步骤一：采集开源的中文开放域对话文本语料并预处理得到中文对话语料数据集；

步骤二：利用公开的自然语言处理工具包HanNLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语；

步骤三：对每一句对话进行语义及主题信息的增强处理，后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征；

步骤四：使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理，得到主题聚合增强后的句向量；

步骤五：将主题聚合增强后的句向量输入到预训练的生成模型GPT中，采用束搜索的解码策略生成对话回复候选集，最后采用对比学习的方法训练回复排序选择模型将最适合的回复选出来。

进一步的，所述步骤一具体为：通过网络爬虫的方式，采集开源的中文开放域对话文本语料并进行数据的过滤与清洗，得到中文对话语料数据集。

进一步的，所述步骤二具体为：利用公开的自然语言处理工具包HanNLP，对中文对话语料数据集中的每一段对话进行断句得到m句对话：

，每一句对话进行分词得到n个词语：

，对每一个词语

按照现代汉语语料库加工规范进行词性分类，依据词语在句法结构或语言形态上承担的成分，通过词性分类赋予每个词词性标记，并用正则表达式将符合名词性的词语全部抽取出来，即从词性类别中选择具有名词功能的形容词、名词、人名、地名、机构团体名、专有名词。

进一步的，所述步骤三，具体包括以下子步骤：

步骤3.1，将每一句对话

进行数据的语义增强；

步骤3.2：对抽取出来的名词进行主题信息的增强；

步骤3.3：对增强的对话文本做再一次的数据增强的处理；

步骤3.4：然后使用预训练的句子表征模型RoBERTa来学习原始句子与增强后的句子的向量表征。

进一步的，所述语义增强的方式包括：1）利用中文近义词词典将对话文本中的词组进行随机同义词替换；2）将对话文本中的临近词组进行随机的调换位置；3）使用对话文本中的非名词词组进行随机的重复多次或者删除；4）使用SimBERT模型改写对话文本；

所述主题信息的增强的方式包括：采用的方法包括：1）使用大规模词向量模型得到名词或名词性短语的相似词，并用所述相似词替换原本对话文本中的名词或名词短语；2）使用对话文本中的名词词组或短语进行随机的重复多次。

进一步的，所述步骤四，具体包括以下子步骤：

步骤4.1：首先用原始的对话文本与增强后的对话文本建构一张有向图，图上的节点

代表编码后的原始句子,

代表增强后的句子集合；每一增强后的句子都有一条边

指向原始句子，最后得到一张有向图

；

步骤4.2：在建构好有向图

后，使用图卷积神经网络，沿着边的方向对原始句子进行语义以及主题的聚合增强处理；

所述聚合增强处理的具体方式为：

在有向图

中存在两种关系：

一阶直接相邻

表示两个节点中有一条边相连，指的是原始句子与直接相邻的增强后的句子，

二阶间接相邻

表示两个节点之间没有一条边直接相连，而是有一个共同的相邻节点；

透过邻接矩阵

与

分别计算对应的度矩阵，计算公式分别为：

，

并透过各对应的度矩阵对邻接矩阵

与

分别做一个归一化的操作，对应的计算公式分别为：

，

，

然后使用一个线性变化以及Sigmod激活函数来计算每一个经过一阶相邻与二阶相邻增强后的句子向量

，其计算公式为：

，

，

其中

表示主题增强前的原始句向量，

和

表示线性变化的权重，

与

则为可学习的参数。

进一步的，所述步骤五，具体包括以下子步骤：

步骤5.1：将得到的主题聚合增强后的句向量和原始句向量拼接起来，输入到预训练的生成模型GPT中，在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集；

步骤5.2：采用对比学习的方法训练回复排序选择模型得到原始句子最适合的回复。

进一步的，所述步骤5.2具体为：在通过网络爬虫搜集到的开放域中文对话语料中构建正负例，将同一段对话的前后文作为正例，该段对话的前文与其他段对话的回复作为负例，训练回复排序选择模型去判断该回复是否适合，具体为：将前后文两两拼接在一起，然后输入到预训练BERT模型中，然后将BERT模型输出中[CLS] token对应的向量

取出来做分类。

进一步的，所述回复排序选择模型训练的损失函数为：

，

其中，S ¹ _i表示一段对话句子i中的前文句子，S ² _i表示一段对话中的对句子S ¹ _i回复的后文句子，S ² _j表示另一段对话即其他段对话句子j中的回复的后文句子，N表示有N个其他段对话句子。

一种基于主题增强的开放域对话回复系统，包括：

文本采集模块，基于网络爬虫，用于采集中文开放域对话文本语料，并对数据进行过滤与清洗；

分词与词性标注模块，用于断句分词，并依据每一个词组或短语在句法结构或语言形态上承担的成分，通过词性分类赋予每个词一个词性的标记，然后透过正规表达式，提取出具有名词性质的词；

语义及主题增强模块，用于让模型更好地学习到句子语义表征，对原始句子进行语义及主题的数据增强，包括以下内容方式：1)随机同义词替换，2)随机临近词调换，3)随机删除或重复非名词词组，4)使用SimBERT做句子改写，5)使用词向量模型做名词的同义词替换，6)名词词组的随机重复；

文本编码模块，使用预训练句子表征模型得到原始句子与增强后句子的向量表征，然后利用图卷积神经网络，透过对数据增强后的句子向量表征做聚合，得到主题增强后的句子向量表征；

基于对比学习的句子排序模块，采用对比学习的方法，将同一段对话的前后文作为正例，取该段对话的前文与另一段对话的回复作为负例训练回复排序选择模型，用于筛选出最适合的回复文本；

回复生成模块，将图卷积神经网络得到的主题增强的句子向量表征作为Prompt输入到预训练生成模型GPT中，并采用Beam Search束搜索的方式产生主题相关的回复候选集，然后透过前面训练好的排序模块进行排序筛选找到最适合的回复。

本发明的优点如下：

1、本发明的基于对比学习、图卷积神经网络与主题增强的开放域与对话回复系统，利用语意及主题增强，并透过图卷积网络进行聚合，生成具有主题一致性的回复候选集，同时利用对比学习的思想优化回复排序选择模型，确保生成兼具主题一致性与语意流畅性的回复内容。

2、本发明的开放域对话回复生成方法，结合了当下流行的数据增强，透过词性标注与大规模词向量模型在有限的对话语料中，利用策略增强了句子的语意及主题信息；图卷积神经网络，透过语意及主题增强后的问句，对原始问句做了一个主题的融合与增强；对比学习，利用构建正负例的方法，模型学习的过程中拉近了相关回复的距离，让模型可以从生成的回复候选集中排序出适合的回复；本发明应用这些最新的研究与方法解决了开放域对话回复生成中遇到的生成回复比较泛，缺少主题一致性等问题，提高回复生成的效果。

附图说明

图1是本发明的一种基于主题增强的开放域对话回复系统框图；

图2是本发明的一种基于主题增强的开放域对话回复方法流程示意图；

图3是本发明实施例的一种基于主题增强的开放域对话回复装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的一种基于主题增强的开放域对话回复系统，包括：

如图2所示，本发明的一种基于主题增强的开放域对话回复方法，包括如下步骤：

步骤一：采集开源的中文开放域对话文本语料并预处理得到对话语料数据集。

透过网络爬虫采集中文开放域对话文本语料，其中包括微博语料、豆瓣会话语料、百度贴吧对话语料。并对这些语料进行数据的过滤与清洗最后得到近300万笔对话数据。

步骤二：利用公开的自然语言处理工具包HanNLP进行对话的断句、分词和词性标注并用正则表达式抽取出名词性词语。

利用公开的自然语言处理工具包HanNLP提供的中文分词与词性标注套件，对每一段对话进行断句得到m句对话：

，每一句对话进行分词得到n个词语：

，并由机器给句子中分词的结果，依据其在句法结构或语言形态上承担的成分，通过词性分类赋予每个词的词性标记。

其中，对每一个词语

按照PKU规范（现代汉语语料库加工规范）被分成43类，为了找到与主题相关的词组，从这43类的词性类别中选择了an(具有名词功能的形容词)、n(名词)、nr(人名)、ns(地名)、nt(机构团体名)、nz(专有名词)，并用正则表达式将符合上述词性的词语全部抽取出来。

步骤三：对每一句对话进行语义及主题信息的增强处理，后使用预训练的句子表征模型学习原始句子与增强后句子的向量表征，具体包括以下子步骤：

步骤3.1，为了更好地让网络模型学习到句子语义表征，将每一句对话

进行数据的语义增强，采用的方法包括：1）利用中文近义词词典将对话文本（对话的句子）中的词组进行随机同义词替换；2）将对话文本中的临近词组进行随机的调换位置；3）使用对话文本中的非名词词组进行随机的重复多次或者删除；4）使用SimBERT模型改写对话文本。

步骤3.2：若对话句子中有透过词性标注模型找出名词或名词性短语，除了步骤3.1对句子语义进行增强外，还会使用抽取出来的名词进行主题信息的增强，采用的方法包括：1）使用大规模词向量模型得到这些名词或名词性短语的相似词，并用这些相似词替换原本对话文本（原始句子）中的名词或名词短语；2）使用对话文本中的名词词组或短语进行随机的重复多次。

步骤3.3：得到语义及主题信息增强的对话文本之后，再利用上述步骤二至步骤三的方法，对增强的对话文本做再一次的数据增强的处理，确保增强后语义及主题的丰富性。

步骤3.4：然后使用预训练的句子表征模型RoBERTa来学习原始句子与增强后的句子的向量表征，输入一个句子到RoBERTa模型中，将模型输出中[CLS] token对应的向量取出作为该句子的向量表征。

步骤四：使用图卷积神经网络提取对话句子的语义及主题信息，并进行主题聚合增强的处理，得到主题聚合增强后的句向量，具体包括以下子步骤：

代表编码后的原始句子,

代表增强后的句子集合；每一增强后的句子都有一条边

指向原始句子，最后得到一张有向图

；

步骤4.2：在建构好有向图

后，接下来要使用图卷积神经网络，沿着边的方向对原始句子进行语义以及主题的聚合增强处理，具体操作如下：

在有向图

中一共存在两种关系：

一阶直接相邻

二阶间接相邻

表示两个节点之间没有一条边直接相连，而是有一个共同的相邻节点，指的是增强后的句子之间，因为在建立的有向图网路中，没有直接相连的结点也会存在某些主题之间的联系，透过这种二阶间接相邻关系可以提取到更多文本主题相关的特征；

透过邻接矩阵

与

分别计算对应的度矩阵，计算公式分别为：

，

并透过各对应的度矩阵对邻接矩阵

与

分别做一个归一化的操作，防止某一节点因为相连的边比较多而造成较大的影响力，对应的计算公式分别为：

，

，

，其计算公式为：

，

，

其中

表示主题增强前的原始句向量，

和

表示线性变化的权重，

与

则为可学习的参数，用来控制一阶相邻与二阶相邻的增强后语句对主题增强的影响。

步骤5.1：将得到的主题聚合增强后的句向量作为一个主题的Prompt和原始句向量拼接起来，输入到预训练的生成模型GPT中，在解码的过程中采用Beam Search束搜索的方式产生对话回复候选集，不同于Greedy Search贪心搜索的是每一个time step时间步只产生概率最高的特征向量token，Beam Search在生成回复的时候每一步都保留束宽beamsize个概率最高的候选特征向量token。

步骤5.2：在使用Beam Search产生多个对话回复候选集后，采用对比学习的方法训练一个回复排序选择模型将最适合的回复选出来。

通过网络爬虫搜集到的开放域中文对话语料中构建正负例，将同一段对话的前后文作为正例，该段对话的前文与其他段对话的回复作为负例，训练模型去判断该回复是否适合，具体为：将前后文两两拼接在一起，然后输入到预训练BERT模型中，然后将输出中[CLS] token对应的向量

取出来做分类。其中，回复排序选择模型训练的损失函数为：

，

S ¹ _i表示一段对话句子i中的前文句子，S ² _i表示一段对话中的对句子S ¹ _i回复的后文句子，S ² _j表示另一段对话即其他段对话句子j中的回复的后文句子，N表示有N个其他段对话句子；

采用对比学习的方法是让正例之间的距离

更加靠近，同时让负例之间的距离增加。

综上所述，本实施提供的方法，通过图卷积神经网络、对比学习与主题增强，可以实现开放域主题可控回复生成。

与前述一种基于主题增强的开放域对话回复方法的实施例相对应，本发明还提供了一种基于主题增强的开放域对话回复装置的实施例。

参见图3，本发明实施例提供的一种基于主题增强的开放域对话回复装置，包括一个或多个处理器，用于实现上述实施例中的一种基于主题增强的开放域对话回复方法。

本发明的一种基于主题增强的开放域对话回复装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本发明的一种基于主题增强的开放域对话回复装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于主题增强的开放域对话回复方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主题增强的开放域对话回复方法，其特征在于，包括以下步骤：

所述步骤二具体为：利用公开的自然语言处理工具包HanNLP，对中文对话语料数据集中的每一段对话进行断句得到m句对话：

，每一句对话进行分词得到n个词语：

，对每一个词语

按照现代汉语语料库加工规范进行词性分类，依据词语在句法结构或语言形态上承担的成分，通过词性分类赋予每个词词性标记，并用正则表达式将符合名词性的词语全部抽取出来，即从词性类别中选择具有名词功能的形容词、名词、人名、地名、机构团体名、专有名词；

所述步骤三，具体包括以下子步骤：

步骤3.1，将每一句对话

进行数据的语义增强；

步骤3.2：对抽取出来的名词进行主题信息的增强；

步骤3.3：对增强的对话文本做再一次的数据增强的处理；

步骤3.4：然后使用预训练的句子表征模型RoBERTa来学习原始句子与增强后的句子的向量表征；

2.如权利要求1所述的一种基于主题增强的开放域对话回复方法，其特征在于，所述步骤一具体为：通过网络爬虫的方式，采集开源的中文开放域对话文本语料并进行数据的过滤与清洗，得到中文对话语料数据集。

3.如权利要求1所述的一种基于主题增强的开放域对话回复方法，其特征在于，所述语义增强的方式包括：1）利用中文近义词词典将对话文本中的词组进行随机同义词替换；2）将对话文本中的临近词组进行随机的调换位置；3）使用对话文本中的非名词词组进行随机的重复多次或者删除；4）使用SimBERT模型改写对话文本；

4.如权利要求1所述的一种基于主题增强的开放域对话回复方法，其特征在于，所述步骤四，具体包括以下子步骤：

代表编码后的原始句子,

代表增强后的句子集合；每一增强后的句子都有一条边

指向原始句子，最后得到一张有向图

；

步骤4.2：在建构好有向图G后，使用图卷积神经网络，沿着边的方向对原始句子进行语义以及主题的聚合增强处理；

所述聚合增强处理的具体方式为：

在有向图G中存在两种关系：

一阶直接相邻

二阶间接相邻

透过邻接矩阵

与

分别计算对应的度矩阵，计算公式分别为：

，

并透过各对应的度矩阵对邻接矩阵

与

分别做归一化的操作，对应的计算公式分别为：

，

，

，其计算公式为：

，

，

其中

表示主题增强前的原始句向量，W和b表示线性变化的权重，

与

则为可学习的参数。

5.如权利要求4所述的一种基于主题增强的开放域对话回复方法，其特征在于，所述步骤五，具体包括以下子步骤：

6. 如权利要求5所述的一种基于主题增强的开放域对话回复方法，其特征在于，所述步骤5.2具体为：在通过网络爬虫搜集到的开放域中文对话语料中构建正负例，将同一段对话的前后文作为正例，该段对话的前文与其他段对话的回复作为负例，训练回复排序选择模型去判断该回复是否适合，具体为：将前后文两两拼接在一起，然后输入到预训练BERT模型中，然后将BERT模型输出中[CLS] token对应的向量

取出来做分类。

7.如权利要求6所述的一种基于主题增强的开放域对话回复方法，其特征在于，所述回复排序选择模型训练的损失函数为：

，

8.一种基于主题增强的开放域对话回复系统，其特征在于，包括：

语义及主题增强模块，用于让模型更好地学习到句子语义表征，对原始句子进行语义及主题的数据增强，包括以下内容方式：1)随机同义词替换，2)随机临近词调换，3)随机删除或重复非名词词组，4)使用SimBERT模型做句子改写，5)使用词向量模型做名词的同义词替换，6)名词词组的随机重复；