CN113377915B

CN113377915B - 对话篇章解析方法

Info

Publication number: CN113377915B
Application number: CN202110692574.XA
Authority: CN
Inventors: 苏劲松; 王安特; 曾华琳
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-06-22
Filing date: 2021-06-22
Publication date: 2022-07-19
Anticipated expiration: 2041-06-22
Also published as: CN113377915A

Abstract

本发明公开了一种对话篇章解析方法、介质和设备，其中方法包括：获取历史对话信息，并对历史对话信息进行预处理，以生成初始训练样本；根据初始训练样本生成第一训练样本和第二训练样本；根据第一训练样本进行模型训练，以得到结构自感知教师模型；根据第二训练样本进行模型训练，以得到结构自感知学生模型，并拉近结构自感知教师模型的结构关系和结构自感知学生模型的结构关系，以得到最终结构自感知学生模型；获取待解析对话信息，并将待解析对话信息输入到最终结构自感知学生模型，以生成对应待解析对话信息的对话轮次间篇章关系；能够自动对对话信息进行解析，避免因引入显式预测结果而导致的错误传播；同时，提高篇章解析效果。

Description

对话篇章解析方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种对话篇章解析方法、一种计算机可读存储介质和一种计算机设备。

背景技术

相关技术中，在对对话篇章进行解析时；多采用编码器学习每轮对话表示，再通过拼接或者相加等方法，以预测两轮对话之间的篇章关系,并没有对篇章结构关系在模型中进行直接的建模；此外，相关技术引入显式历史轮次预测结果辅助当前轮次篇章关系预测的方式，存在错误传播问题，最终篇章解析效果不佳。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的一个目的在于提出一种对话篇章解析方法，能够自动对对话信息进行解析，直接在模型中对篇章结构关系进行建模并避免因引入显式预测结果而导致的错误传播；同时，提高篇章解析效果。

本发明的第二个目的在于提出一种计算机可读存储介质。

本发明的第三个目的在于提出一种计算机设备。

为达到上述目的，本发明第一方面实施例提出了一种对话篇章解析方法，包括以下步骤：获取历史对话信息，并对所述历史对话信息进行预处理，以生成初始训练样本，其中，所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签；根据所述初始训练样本生成第一训练样本和第二训练样本，其中，所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系，所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息；根据所述第一训练样本进行模型训练，以得到结构自感知教师模型，其中，所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数；根据所述第二训练样本进行模型训练，以得到结构自感知学生模型，并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系，以得到最终结构自感知学生模型，其中，所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数；获取待解析对话信息，并将所述待解析对话信息输入到所述最终结构自感知学生模型，以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析，生成对应所述待解析对话信息的对话轮次间篇章关系。

根据本发明实施例的对话篇章解析方法，首先，获取历史对话信息，并对所述历史对话信息进行预处理，以生成初始训练样本，其中，所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签；接着，根据所述初始训练样本生成第一训练样本和第二训练样本，其中，所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系，所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息；然后，根据所述第一训练样本进行模型训练，以得到结构自感知教师模型，其中，所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数；接着，根据所述第二训练样本进行模型训练，以得到结构自感知学生模型，并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系，以得到最终结构自感知学生模型，其中，所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数；然后，获取待解析对话信息，并将所述待解析对话信息输入到所述最终结构自感知学生模型，以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析，生成对应所述待解析对话信息的对话轮次间篇章关系；从而实现自动对对话信息进行解析，避免因引入显式预测结果而导致的错误传播；同时，提高篇章解析效果。

另外，根据本发明上述实施例提出的对话篇章解析方法还可以具有如下附加的技术特征：

可选地，所述历史对话信息包括每轮对话内容和相关对话者身份信息，其中，对所述历史对话信息进行预处理，包括：对所述每轮对话内容进行分词，并对所述每轮对话内容进行大小写统一，以及根据所述相关对话者身份信息生成对话者身份矩阵，以完成对所述历史对话信息的预处理。

可选地，所述结构自感知教师模型和所述结构自感知学生模型均包括对话层次编码模型、结构自感知图网络模型和篇章关系分类器；其中，所述对话层次编码模型包括子词级别的序列处理模型和对话级别的序列处理模型，所述子词级别的序列处理模型和所述对话级别的序列处理模型采用双向GRU模型；所述子词级别的序列处理模型和所述对话级别的序列处理模型以所述每轮对话文本信息作为输入，并根据所述每轮对话文本信息输出每轮对话隐状态表示；所述结构自感知图网络模型根据所述对话者身份矩阵及每轮对话隐状态表示生成篇章关系隐状态表示，并根据所述篇章关系隐状态表示输出最终对话篇章结构隐状态表示。

可选地，所述每轮对话隐状态表示、所述篇章关系隐状态表示和所述最终对话篇章结构隐状态表示通过以下公式表述：

U^(t)＝SASA(U^(t-1),R^(t-1))

R^t＝GRU(U^(t),R^(t-1))

1≤t≤T

其中，U^(t)表示第t层的每轮对话隐状态表示，SASA表示结构感知自监督注意力机制，GRU(*)表示门控循环神经网络，R^t表示第t层的篇章关系隐状态表示，

表示最终对话篇章结构隐状态表示，T为模型总层数，

表示拼接操作，

表示转置操作。

可选地，所述第一对话篇章解析损失函数通过以下公式表述：

其中，d表示对话实例，θ表示模型参数，|d|表示对话轮次数，P(*)表示预测概率，

表示结构关系关联预测，

表示篇章解析树中第i个节点的父节点，

表示最终对话篇章结构隐状态表示，

表示结构关系标签分类，

表示(i,j)对话对的结构关系标签。

可选地，所述关系标签识别损失函数和所述结构蒸馏损失函数通过以下公式表述：

其中，

表示关系标签识别损失，

表示结构蒸馏损失，d表示对话实例，|d|表示对话轮次数，l_ij表示第i轮与第j轮对话的篇章关系标签，

表示结构自感知学生模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示，

表示所述结构自感知教师模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示，W^t表示可学习的参数，MSE(*)表示均方误差损失函数。

为达到上述目的，本发明第二方面实施例提出了一种计算机可读存储介质，其上存储有对话篇章解析程序，该对话篇章解析程序被处理器执行时实现如上述的对话篇章解析方法。

根据本发明实施例的计算机可读存储介质，通过存储对话篇章解析程序，以使得处理器在执行该对话篇章解析程序时，实现如上述的对话篇章解析方法，从而实现自动对对话信息进行解析，避免因引入显式预测结果而导致的错误传播；同时，提高篇章解析效果。

为达到上述目的，本发明第三方面实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如上述的对话篇章解析方法。

根据本发明实施例的计算机设备，通过存储器对对话篇章解析程序进行存储，以使得处理器在执行该对话篇章解析程序时，实现如上述的对话篇章解析方法，从而实现自动对对话信息进行解析，避免因引入显式预测结果而导致的错误传播；同时，提高篇章解析效果。

附图说明

图1为根据本发明实施例的对话篇章解析方法的流程示意图；

图2为根据本发明实施例的结构自感知教师模型和结构自感知学生模型的模型结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

相关技术中，并没有对篇章结构关系在模型中进行直接的建模；进而容易因为引入显式预测结果而导致错误传播问题，最终篇章解析效果不佳。根据本发明实施例的对话篇章解析方法，首先，获取历史对话信息，并对所述历史对话信息进行预处理，以生成初始训练样本，其中，所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签；接着，根据所述初始训练样本生成第一训练样本和第二训练样本，其中，所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系，所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息；然后，根据所述第一训练样本进行模型训练，以得到结构自感知教师模型，其中，所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数；接着，根据所述第二训练样本进行模型训练，以得到结构自感知学生模型，并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系，以得到最终结构自感知学生模型，其中，所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数；然后，获取待解析对话信息，并将所述待解析对话信息输入到所述最终结构自感知学生模型，以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析，生成对应所述待解析对话信息的对话轮次间篇章关系；从而实现自动对对话信息进行解析，避免因引入显式预测结果而导致的错误传播；同时，提高篇章解析效果。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

图1为根据本发明实施例的对话篇章解析方法的流程示意图，如图1所示，该对话篇章解析方法包括以下步骤：

S101，获取历史对话信息，并对历史对话信息进行预处理，以生成初始训练样本，其中，初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签。

需要说明的是，历史对话信息可以是有标注篇章结构的对话样本。

作为一种示例，历史对话信息包括每轮对话内容、相关对话者发言信息和篇章结构信息。

其中，对历史对话信息进行预处理的方式可以有多种。

作为一种示例，历史对话信息包括每轮对话内容和相关对话者身份信息，其中，对历史对话信息进行预处理，包括：对每轮对话内容进行分词，并对每轮对话内容进行大小写统一，以及根据相关对话者身份信息生成对话者身份矩阵，以完成对历史对话信息的预处理。

作为另一种示例，将获取的每轮对话进行分词和大小写统一等预处理，接着，使用每轮对话的对话者信息生成一个N*N的对话者身份矩阵；其中，N为对话轮数，在该矩阵中，如果第i轮和第j轮对话对话者身份相同，则对话者身份矩阵中(i，j)置为1，否则为0。

S102，根据初始训练样本生成第一训练样本和第二训练样本，其中，第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系，第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息。

也就是说，将初始训练样本划分为第一训练样本和第二训练样本，以便后续根据第一训练样本进行结构自感知教师模型的训练，并根据第二训练样本进行结构自感知学生模型的训练；可知，在结构自感知教师模型的训练样本中，包括了待解析对话信息中不包含的结构关系，通过这些结构关系，结构自感知教师模型可以学习到更丰富的篇章结构表示；而结构自感知学生模型的训练样本中包含的内容，待解析对话信息也包含。

S103，根据第一训练样本进行模型训练，以得到结构自感知教师模型，其中，结构自感知教师模型的损失函数包括第一对话篇章解析损失函数。

S104，根据第二训练样本进行模型训练，以得到结构自感知学生模型，并通过结构自感知学生模型中的结构蒸馏损失函数拉进结构自感知教师模型的结构关系和结构自感知学生模型的结构关系，以得到最终结构自感知学生模型，其中，结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数。

即言，通过第一训练样本进行训练得到结构自感知教师模型，通过第二训练样本进行训练得到结构自感知学生模型；进而，通过第一训练样本训练得到的结构自感知教师模型能够学习到更丰富的篇章结构表示，而通过结构蒸馏损失函数，结构自感知教师模型可以将其丰富的篇章结构表示教授给结构自感知学生模型，以提高最终结构自感知学生模型对于对话篇章解析的效果。

在一些实施例中，如图2所示，结构自感知教师模型和结构自感知学生模型均包括对话层次编码模型、结构自感知图网络模型和篇章关系分类器；其中，对话层次编码模型包括子词级别的序列处理模型和对话级别的序列处理模型，子词级别的序列处理模型和对话级别的序列处理模型采用双向GRU模型(Gated Recurrent Unit)；子词级别的序列处理模型和对话级别的序列处理模型以每轮对话文本信息作为输入，并根据每轮对话文本信息输出融入上下文信息的每轮对话隐状态表示；结构自感知图网络模型根据对话者身份矩阵及每轮对话隐状态表示生成篇章关系隐状态表示，并根据篇章关系隐状态表示输出最终对话篇章结构隐状态表示。

在一些实施例中，每轮对话隐状态表示、篇章关系隐状态表示和最终对话篇章结构隐状态表示通过以下公式表述：

U^(t)＝SASA(U^(t-1),R^(t-1))

R^t＝GRU(U^(t),R^(t-1))

1≤t≤T

表示最终对话篇章结构隐状态表示，T为模型总层数，

表示拼接操作，

表示转置操作。

在一些实施例中，第一对话篇章解析损失函数通过以下公式表述：

表示结构关系关联预测，

表示篇章解析树中第i个节点的父节点，

表示最终对话篇章结构隐状态表示，

表示结构关系标签分类，

表示(i,j)对话对的结构关系标签。

在一些实施例中，关系标签识别损失函数和所述结构蒸馏损失函数通过以下公式表述：

其中，

表示关系标签识别损失，

S105，获取待解析对话信息，并将待解析对话信息输入到最终结构自感知学生模型，以通过结构自感知学生模型对待解析对话信息进行自动解析，生成对应待解析对话信息的对话轮次间篇章关系。

也就是说，在得到最终结构自感知学生模型之后，将获取到的待解析对话信息输入到最终结构自感知学生模型中，以便结构自感知学生模型根据输入进行自动解析，以生成对应的对话轮次间篇章关系。

综上所述，根据本发明实施例的对话篇章解析方法，首先，获取历史对话信息，并对所述历史对话信息进行预处理，以生成初始训练样本，其中，所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签；接着，根据所述初始训练样本生成第一训练样本和第二训练样本，其中，所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系，所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息；然后，根据所述第一训练样本进行模型训练，以得到结构自感知教师模型，其中，所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数；接着，根据所述第二训练样本进行模型训练，以得到结构自感知学生模型，并通过所述结构自感知学生模型中的结构蒸馏损失函数拉进所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系，以得到最终结构自感知学生模型，其中，所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数；然后，获取待解析对话信息，并将所述待解析对话信息输入到所述最终结构自感知学生模型，以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析，生成对应所述待解析对话信息的对话轮次间篇章关系；从而实现自动对对话信息进行解析，避免因引入显式预测结果而导致的错误传播；同时，提高篇章解析效果。

为了实现上述实施例，本发明实施例提出了一种计算机可读存储介质，其上存储有对话篇章解析程序，该对话篇章解析程序被处理器执行时实现如上述的对话篇章解析方法。

为了实现上述实施例，本发明实施例提出了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如上述的对话篇章解析方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种对话篇章解析方法，其特征在于，包括以下步骤：

获取历史对话信息，并对所述历史对话信息进行预处理，以生成初始训练样本，其中，所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签；

根据所述初始训练样本生成第一训练样本和第二训练样本，其中，所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系，所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息；

根据所述第一训练样本进行模型训练，以得到结构自感知教师模型，其中，所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数；

根据所述第二训练样本进行模型训练，以得到结构自感知学生模型，并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系，以得到最终结构自感知学生模型，其中，所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数；

获取待解析对话信息，并将所述待解析对话信息输入到所述最终结构自感知学生模型，以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析，生成对应所述待解析对话信息的对话轮次间篇章关系；

其中，所述第一对话篇章解析损失函数通过以下公式表述：