CN113239152B

CN113239152B - 适用于多轮对话的对话修复方法、装置、设备及存储介质

Info

Publication number: CN113239152B
Application number: CN202110542269.2A
Authority: CN
Inventors: 于凤英; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2023-07-25
Anticipated expiration: 2041-05-18
Also published as: CN113239152A

Abstract

本申请涉及人工智能技术领域，揭示了一种适用于多轮对话的对话修复方法、装置、设备及存储介质，其中方法包括：获取目标对话数据和所述目标对话数据对应的历史对话数据；对所述目标对话数据进行文本标记的插入，得到标记后的对话数据；根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量；根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果；根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果。从而在不破坏多轮对话数据的关联关系的情况下对目标对话数据进行了修复。

Description

适用于多轮对话的对话修复方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种适用于多轮对话的对话修复方法、装置、设备及存储介质。

背景技术

智能人机问答系统得到广泛的应用，在智能人机问答系统中用智能聊天机器人代替人工客服已成为一种社会趋势，也是节约人力成本的重要成果。对于多轮对话，有时因沟通的急迫性还会导致人为言语表达不清楚，使对话数据不完整，从而增加了智能聊天机器人理解交流者的真正意图的难度。

发明内容

本申请的主要目的为提供一种适用于多轮对话的对话修复方法、装置、设备及存储介质，旨在解决现有技术在多轮对话时，因言语表达不清楚，使对话数据不完整，从而增加了智能聊天机器人理解交流者的真正意图的难度的技术问题。

为了实现上述发明目的，本申请提出一种适用于多轮对话的对话修复方法，所述方法包括：

获取目标对话数据和所述目标对话数据对应的历史对话数据；

对所述目标对话数据进行文本标记的插入，得到标记后的对话数据；

根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量；

根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果；

根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果。

进一步的，所述对所述目标对话数据进行文本标记的插入，得到标记后的对话数据的步骤，包括：

采用预设的文本标记生成规则，在所述目标对话数据中的每个字符的前面插入所述文本标记，得到所述标记后的对话数据。

进一步的，所述根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量的步骤，包括：

将所述历史对话数据和所述标记后的对话数据进行依次拼接，得到拼接后的对话数据；

采用目标编码器，对所述拼接后的对话数据进行编码处理，得到所述待处理的编码向量；

其中，所述目标编码器依次包括：多头注意力层、第一归一化层、前馈神经网络层和第二归一化层。

进一步的，所述根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果的步骤，包括：

采用目标文本标记操作预测模型，根据所述待处理的编码向量，分别对每个所述文本标记进行操作预测，得到各个所述文本标记各自对应的所述操作预测结果，所述操作预测结果包括：保留、删除和替换中的任一种；

其中，所述目标文本标记操作预测模型是基于全连接层和分类层训练得到的模型。

进一步的，所述根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果的步骤，包括：

将所述待处理的编码向量和所述操作预测结果输入目标解码器进行解码及对话修复，得到所述目标对话数据对应的待纠正的对话数据，其中，所述目标解码器是基于LSTM层训练得到的模型；

获取所述目标对话数据对应的目标实体词词典；

根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果。

进一步的，所述根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果的步骤，包括：

采用目标替换方式预测模型，根据输入了所述待处理的编码向量和所述操作预测结果的所述目标解码器，分别对每个所述文本标记进行替换方式预测，得到各个所述文本标记各自对应的替换方式预测结果，其中，所述目标替换方式预测模型是基于全连接层和分类层训练得到的模型；

当存在所述替换方式预测结果为生成时，将所述替换方式预测结果为生成的所述文本标记作为待纠正的文本标记；

根据所述待纠正的文本标记，从所述待纠正的对话数据中进行词语获取，得到待纠正的词语集合；

分别将所述待纠正的词语集合中的每个词语在所述目标实体词词典中进行匹配，得到所述待纠正的词语集合中的各个词语各自对应的词语匹配结果；

根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果。

进一步的，所述根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果的步骤，包括：

当存在所述词语匹配结果为失败时，分别将所述词语匹配结果为失败的每个词语作为一个需纠正的词语，得到需纠正的词语集合；

从所述需纠正的词语集合中获取一个所述需纠正的词语，得到目标需纠正的词语；

分别对所述目标需纠正的词语和所述目标实体词词典中的每个词语进行编辑距离的计算，得到待分析的编辑距离集合；

从所述待分析的编辑距离集合中找出最小的编辑距离，得到目标编辑距离；

将所述目标编辑距离在所述目标实体词词典中的词语作为所述目标需纠正的词语对应的目标纠正词语；

将所述待纠正的对话数据中的所述目标需纠正的词语替换为所述目标纠正词语，得到纠正后的对话数据；

将所述纠正后的对话数据作为所述待纠正的对话数据，重复执行所述从所述需纠正的词语集合中获取一个所述需纠正的词语，得到目标需纠正的词语的步骤，直至完成所述需纠正的词语集合中的所有所述需纠正的词语的获取；

将所述待纠正的对话数据作为所述目标对话修复结果。

本申请还提出了一种适用于多轮对话的对话修复装置，所述装置包括：

数据获取模块，用于获取目标对话数据和所述目标对话数据对应的历史对话数据；

标记后的对话数据确定模块，用于对所述目标对话数据进行文本标记的插入，得到标记后的对话数据；

待处理的编码向量确定模块，用于根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量；

操作预测结果确定模块，用于根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果；

目标对话修复结果确定模块，用于根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的适用于多轮对话的对话修复方法、装置、设备及存储介质，通过首先获取目标对话数据和目标对话数据对应的历史对话数据，对目标对话数据进行文本标记的插入，得到标记后的对话数据，其次根据历史对话数据和标记后的对话数据进行编码处理，得到待处理的编码向量，然后根据待处理的编码向量进行文本标记的操作预测，得到各个文本标记各自对应的操作预测结果，最后根据待处理的编码向量和操作预测结果进行解码及对话修复，得到目标对话数据对应的目标对话修复结果，实现了将标记后的对话数据和历史对话数据同时进行编码处理，从而在不破坏多轮对话数据的关联关系的情况下对目标对话数据进行了修复，通过目标对话数据对应的目标对话修复结果提高了智能聊天机器人理解交流者的真正意图的准确性。

附图说明

图1为本申请一实施例的适用于多轮对话的对话修复方法的流程示意图；

图2为本申请一实施例的适用于多轮对话的对话修复装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

为了解决现有技术在多轮对话时，因言语表达不清楚，使对话数据不完整，从而增加了智能聊天机器人理解交流者的真正意图的难度的技术问题，本申请提出了一种适用于多轮对话的对话修复方法，所述方法应用于人工智能技术领域，所述方法进一步应用于人工智能的自然语言处理技术领域。所述适用于多轮对话的对话修复方法，通过将插入了文本标记的需要修复的对话数据和历史对话数据一起进行编码，根据编码结果对文本标记进行操作预测，根据编码结果和操作预测结果进行解码及对话修复，从而得到修复后的对话数据，实现了将插入了文本标记的需要修复的对话数据和历史对话数据同时进行编码处理，从而在不破坏多轮对话数据的关联关系的情况下对对话数据进行了修复，通过修复后的对话数据提高了智能聊天机器人理解交流者的真正意图的准确性。

参照图1，本申请实施例中提供一种适用于多轮对话的对话修复方法，所述方法包括：

S1：获取目标对话数据和所述目标对话数据对应的历史对话数据；

S2：对所述目标对话数据进行文本标记的插入，得到标记后的对话数据；

S3：根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量；

S4：根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果；

S5：根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果。

本实施例通过首先获取目标对话数据和目标对话数据对应的历史对话数据，对目标对话数据进行文本标记的插入，得到标记后的对话数据，其次根据历史对话数据和标记后的对话数据进行编码处理，得到待处理的编码向量，然后根据待处理的编码向量进行文本标记的操作预测，得到各个文本标记各自对应的操作预测结果，最后根据待处理的编码向量和操作预测结果进行解码及对话修复，得到目标对话数据对应的目标对话修复结果，实现了将标记后的对话数据和历史对话数据同时进行编码处理，从而在不破坏多轮对话数据的关联关系的情况下对目标对话数据进行了修复，通过目标对话数据对应的目标对话修复结果提高了智能聊天机器人理解交流者的真正意图的准确性。

对于S1，可以从数据库中获取目标对话数据和所述目标对话数据对应的历史对话数据，也可以获取用户输入的目标对话数据和所述目标对话数据对应的历史对话数据，还可以从第三方应用系统中获取目标对话数据和所述目标对话数据对应的历史对话数据。

目标对话数据，是需要修复的交流者发送的对话数据。目标对话数据是一轮对话数据。目标对话数据可以是一句话，也可以是多句话。

历史对话数据和目标对话数据属于同一次对话，历史对话数据是目标对话数据之前的对话数据。历史对话数据可以是一轮对话数据，也可以是多轮对话数据。

其中，获取目标对话数据；获取所述目标对话数据的沟通者标识及对话轮次；根据所述目标对话数据的沟通者标识从数据库中对话数据，得到待提取的对话数据；以所述目标对话数据的对话轮次为开始轮次，从所述待提取的对话数据中进行往前(也就是往历史时间)提取至少一轮对话数据作为所述目标对话数据对应的历史对话数据。也就是说，所述目标对话数据对应的历史对话数据是与所述目标对话数据相邻的历史时间的一轮或多轮对话数据。

对于S2，分别对所述目标对话数据中每个字符插入文本标记，将插入了文本标记后的所述目标对话数据作为标记后的对话数据。

对于S3，根据所述历史对话数据和所述标记后的对话数据进行字向量编码、位置向量编码和轮次编码，根据编码的数据得到一个编码向量，将得到的编码向量作为待处理的编码向量。

其中，轮次编码得到轮次向量，轮次向量中的每个向量元素是第一轮次标识和第二轮次标识中任一种，第一轮次标识标识字符对应的字符来自历史对话数据，第二轮次标识对应的字符来自所述标记后的对话数据。每个第一轮次标识标识字符对应一个字符，每个第二轮次标识对应一个字符。比如，第一轮次标识设置为1，第二轮次标识设置为0，在此举例不做具体限定。

对于S4，根据所述待处理的编码向量，分别对插入所述目标对话数据中的每个所述文本标记进行操作预测，也就是说，每个所述文本标记对应一个操作预测结果。每个操作预测结果包括：保留、删除和替换中的任一种。

对于S5，根据所述待处理的编码向量和所述操作预测结果进行解码，在解码的过程中对所述操作预测结果为替换的字符进行替换以及对所述操作预测结果为保留的字符进行复制，替换和复制完成之后输出修复完整的对话数据，将修复完整的对话数据作为所述目标对话数据对应的目标对话修复结果。因对所述操作预测结果为删除的字符不进行复制，也不进行替换，从而实现了对所述目标对话数据中的操作预测结果为删除的文本标记对应的字符进行删除。

将目标对话修复结果替换所述目标对话数据，有利于提高了智能聊天机器人理解交流者的真正意图的准确性。

比如，所述目标对话数据为“交流者A：它的保费是多少？”，所述目标对话数据对应的历史对话数据为两轮对话，历史对话数据为“交流者A：平安一年期的医疗险哪款性价比比较高？”“智能聊天机器人：您可以购买保险M。”，所述目标对话数据对应的目标对话修复结果为“交流者A：保险M的保费是多少？”，在此举例不做具体限定。

在一个实施例中，上述对所述目标对话数据进行文本标记的插入，得到标记后的对话数据的步骤，包括：

S21：采用预设的文本标记生成规则，在所述目标对话数据中的每个字符的前面插入所述文本标记，得到所述标记后的对话数据。

本实施例实现了采用预设的文本标记生成规则在所述目标对话数据中的每个字符的前面插入所述文本标记，有利于将标记后的对话数据和历史对话数据同时进行编码处理，从而为预测每个字符的操作提供了支持。

对于S21，采用预设符号和字符位置组合的方式，在所述目标对话数据中的每个字符的前面插入所述文本标记，将插入所述文本标记的所述目标对话数据作为所述标记后的对话数据。

比如，所述目标对话数据为“它的保费是多少？”，“它的保费是多少？”对应的标记后的对话数据为“<u1>它<u2>的<u3>保<u4>费<u5>是<u6>多<u7>少<u8>？”，<u1>、<u2>、<u3>、<u4>、<u5>、<u6>、<u7>、<u8>就是文本标记，预设符号为“<u”和“>”，所述文本标记是在预设符号“<u”和“>”之间采用字符位置组合，在此举例不做具体限定。

在一个实施例中，上述根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量的步骤，包括：

S31：将所述历史对话数据和所述标记后的对话数据进行依次拼接，得到拼接后的对话数据；

S32：采用目标编码器，对所述拼接后的对话数据进行编码处理，得到所述待处理的编码向量；

本实施例实现了将插入了文本标记的需要修复的对话数据和历史对话数据同时进行编码处理，从而为在不破坏多轮对话数据的关联关系的情况下对对话数据进行了修复提供了支持。

对于S31，按对话顺序将所述历史对话数据和所述标记后的对话数据进行依次拼接，将拼接得到的对话数据作为拼接后的对话数据。

对于S32，采用目标编码器，对所述拼接后的对话数据进行字向量编码、位置向量编码和轮次编码，根据编码的数据得到一个编码向量，将得到的编码向量作为待处理的编码向量。

其中，所述拼接后的对话数据输入所述目标编码器之后，首先会经过多头注意力层，多头注意力层用于帮助目标编码器关注所述拼接后的对话数据的多个方面；其次，所述拼接后的对话数据会经过第一归一化层，第一归一化层对所述拼接后的对话数据中数据进行归一化处理；然后归一化处理后的数据将经过前馈神经网络层，前馈神经网络层将学习归一化处理后的数据中的特征；最后前馈神经网络层学习到的特征将经过第二归一化层，第二归一化层对前馈神经网络层学习到的特征进行归一化处理，归一化处理之后归一化后的特征作为编码向量输出。

多头注意力层、第一归一化层、前馈神经网络层和第二归一化层是Transformer模型中的网络层。Transformer模型，是基于encoder-decoder结构的模型，它抛弃了以往的seq2seq模型中的RNN，采用Self—attention或者Mulit-head-self-attention使得输入的数据可以并行处理，提高运行效率。

多头注意力层，又称为Multi-head Attention层。

第一归一化层和第二归一化层采用归一化层。归一化层，又称为Layer Norm层。前馈神经网络层又称为Feed Forward层。

在一个实施例中，上述根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果的步骤，包括：

S41：采用目标文本标记操作预测模型，根据所述待处理的编码向量，分别对每个所述文本标记进行操作预测，得到各个所述文本标记各自对应的所述操作预测结果，所述操作预测结果包括：保留、删除和替换中的任一种；

本实施例实现了采用目标文本标记操作预测模型，根据所述待处理的编码向量，分别对每个所述文本标记进行操作预测，为后续进行对话修复提供了支持。

对于S41，将所述待处理的编码向量输入所述目标文本标记操作预测模型，所述目标文本标记操作预测模型分别对每个所述文本标记进行操作预测，所述目标文本标记操作预测模型输出每个所述文本标记对应的所述操作预测结果。

全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

分类层用于按预设的分类标签，根据全连接层的数据进行分类预测。

其中，将全连接层和分类层作为文本标记操作预测初始模型；获取多个文本标记操作样本，多个文本标记操作样本中每个文本标记操作样本包括：编码向量样本和文本标记操作标定值；采用所述多个文本标记操作样本对所述文本标记操作预测初始模型进行训练，将训练结束的所述文本标记操作预测初始模型作为所述目标文本标记操作预测模型。

编码向量样本，是采用所述目标编码器对带文本标记的文本样本数据进行编码处理得到的向量。

在同一文本标记操作样本中，文本标记操作标定值是对编码向量样本对应的所述带文本标记的文本样本数据中的每个文本标记的操作(操作包括：保留、删除、替换)的标定结果。

在一个实施例中，上述根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果的步骤，包括：

S51：将所述待处理的编码向量和所述操作预测结果输入目标解码器进行解码及对话修复，得到所述目标对话数据对应的待纠正的对话数据，其中，所述目标解码器是基于LSTM层训练得到的模型；

S52：获取所述目标对话数据对应的目标实体词词典；

S53：根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果。

本实施例基于LSTM层训练得到的模型根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，通过LSTM层来控制所述操作预测结果为替换的所述文本标记对应位置的字符是由历史对话数据中的语句片段进行替换，还是根据当前语境自动生成的语句片段进行替换。

对于S51，将所述待处理的编码向量和所述操作预测结果同时输入目标解码器，目标解码器采用LSTM层来控制所述操作预测结果为替换的所述文本标记对应位置的字符是由历史对话数据中的语句片段进行替换，还是根据当前语境自动生成的语句片段进行替换，将确定用于替换的每个语句片段作为一个待纠正的替换词，将所有待纠正的替换词作为待纠正的替换词集合；分别根据所述操作预测结果为保留的每个所述文本标记，从所述标记后的对话数据中获取字符，得到保留的字符集合，按所述目标对话数据的字符顺序将所述待纠正的替换词集合和所述保留的字符集合进行对话数据合成，将合成的对话数据作为所述目标对话数据对应的所述待纠正的对话数据。

LSTM，是长短时记忆神经网络。

对于S52，可以从数据库中获取所述目标对话数据对应的目标实体词词典，也可以获取用户输入所述目标对话数据对应的目标实体词词典，还可以从第三方应用系统中获取所述目标对话数据对应的目标实体词词典。

所述目标对话数据对应的目标实体词词典，也就是说，目标实体词词典和所述目标对话数据属于同一应用场景。

目标实体词词典，也就是实体词词典。实体词词典包括：一个或多个实体词。实体词包括：名词、代词。

对于S53，根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，将纠正后的所述待纠正的对话数据作为所述目标对话数据对应的所述目标对话修复结果。

在一个实施例中，上述根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果的步骤，包括：

S531：采用目标替换方式预测模型，根据输入了所述待处理的编码向量和所述操作预测结果的所述目标解码器，分别对每个所述文本标记进行替换方式预测，得到各个所述文本标记各自对应的替换方式预测结果，其中，所述目标替换方式预测模型是基于全连接层和分类层训练得到的模型；

S532：当存在所述替换方式预测结果为生成时，将所述替换方式预测结果为生成的所述文本标记作为待纠正的文本标记；

S533：根据所述待纠正的文本标记，从所述待纠正的对话数据中进行词语获取，得到待纠正的词语集合；

S534：分别将所述待纠正的词语集合中的每个词语在所述目标实体词词典中进行匹配，得到所述待纠正的词语集合中的各个词语各自对应的词语匹配结果；

S535：根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果。

本实施例实现了根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，从而使得到的目标对话修复结果符合应用场景的实体词要求，提高了生成的目标对话修复结果的准确性，进一步提高了智能聊天机器人理解交流者的真正意图的准确性。

对于S531，采用目标替换方式预测模型，从输入了所述待处理的编码向量和所述操作预测结果的所述目标解码器中获取数据，根据获取的数据分别对每个所述文本标记进行替换方式预测，将采用当前语境自动生成的语句片段作为待纠正的替换词对应的所述文本标记对应的替换方式预测结果确定为生成，将由历史对话数据中的语句片段作为待纠正的替换词对应的所述文本标记对应的替换方式预测结果确定为非生成。

将全连接层和分类层依次连接作为替换方式预测初始模型，将训练后的替换方式预测初始模型作为所述目标替换方式预测模型。

对于S532，当存在所述替换方式预测结果为生成时，意味着所述替换方式预测结果对应的待纠正的替换词是根据当前语境自动生成的语句片段，该待纠正的替换词需要进行纠正，因此可以将所述替换方式预测结果为生成的所述文本标记作为待纠正的文本标记。

对于S533，分别根据每个所述待纠正的文本标记，从所述待纠正的对话数据中进行词语获取，将获取的所有词语作为待纠正的词语集合。

对于S534，从所述待纠正的词语集合中获取一个所述待纠正的词语，得到待匹配的词语；将待匹配的词语在所述目标实体词词典中进行匹配，当匹配成功时将所述待匹配的词语对应的词语匹配结果设置为成功，当匹配失败时将所述待匹配的词语对应的词语匹配结果设置为失败；重复执行所述从所述待纠正的词语集合中获取一个所述待纠正的词语，得到待匹配的词语的步骤，直至确定所述待纠正的词语集合中的各个词语各自对应的词语匹配结果。

对于S535，根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，将纠正后的所述待纠正的对话数据作为所述目标对话数据对应的所述目标对话修复结果。

在一个实施例中，上述根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果的步骤，包括：

S5351：当存在所述词语匹配结果为失败时，分别将所述词语匹配结果为失败的每个词语作为一个需纠正的词语，得到需纠正的词语集合；

S5352：从所述需纠正的词语集合中获取一个所述需纠正的词语，得到目标需纠正的词语；

S5353：分别对所述目标需纠正的词语和所述目标实体词词典中的每个词语进行编辑距离的计算，得到待分析的编辑距离集合；

S5354：从所述待分析的编辑距离集合中找出最小的编辑距离，得到目标编辑距离；

S5355：将所述目标编辑距离在所述目标实体词词典中的词语作为所述目标需纠正的词语对应的目标纠正词语；

S5356：将所述待纠正的对话数据中的所述目标需纠正的词语替换为所述目标纠正词语，得到纠正后的对话数据；

S5357：将所述纠正后的对话数据作为所述待纠正的对话数据，重复执行所述从所述需纠正的词语集合中获取一个所述需纠正的词语，得到目标需纠正的词语的步骤，直至完成所述需纠正的词语集合中的所有所述需纠正的词语的获取；

S5358：将所述待纠正的对话数据作为所述目标对话修复结果。

本实施例实现了根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，从而使得到的目标对话修复结果符合应用场景的实体词要求，提高了生成的目标对话修复结果的准确性，进一步提高了智能聊天机器人理解交流者的真正意图的准确性。

对于S5351，当存在所述词语匹配结果为失败时，意味着所述词语匹配结果为失败的词语不合格，因此将所述词语匹配结果为失败的每个词语作为一个需纠正的词语，将所有需纠正的词语作为需纠正的词语集合。

对于S5352，依次从所述需纠正的词语集合中获取一个所述需纠正的词语，得到目标需纠正的词语。

对于S5353，分别对所述目标需纠正的词语和所述目标实体词词典中的每个词语之间进行编辑距离的计算，也就是说，待分析的编辑距离集合的编辑距离的数量与所述目标实体词词典中的词语的数量相同。

对于S5354，从所述待分析的编辑距离集合中的所有编辑距离中找出最小的编辑距离，将找出的编辑距离作为目标编辑距离。

对于S5355，所述目标编辑距离在所述目标实体词词典中的词语就是更符合应用场景的实体词，此时可以将所述目标编辑距离在所述目标实体词词典中的词语作为所述目标需纠正的词语对应的目标纠正词语。

对于S5356，将所述待纠正的对话数据中的所述目标需纠正的词语替换为所述目标纠正词语，从而完成对所述目标需纠正的词语的纠正，将纠正所述目标需纠正的词语后的所述待纠正的对话数据作为所述纠正后的对话数据。

对于S5357，将所述纠正后的对话数据作为所述待纠正的对话数据，重复执行步骤S5352至少步骤S5357，直至完成所述需纠正的词语集合中的所有所述需纠正的词语的获取。

对于S5358，此时的所述待纠正的对话数据是完成需纠正的词语集合中所有需纠正的词语的纠正的对话数据，因此可以将所述待纠正的对话数据作为所述目标对话数据对应的所述目标对话修复结果。

参照图2，本申请还提出了一种适用于多轮对话的对话修复装置，所述装置包括：

数据获取模块100，用于获取目标对话数据和所述目标对话数据对应的历史对话数据；

标记后的对话数据确定模块200，用于对所述目标对话数据进行文本标记的插入，得到标记后的对话数据；

待处理的编码向量确定模块300，用于根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量；

操作预测结果确定模块400，用于根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果；

目标对话修复结果确定模块500，用于根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存适用于多轮对话的对话修复方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种适用于多轮对话的对话修复方法。所述适用于多轮对话的对话修复方法，包括：获取目标对话数据和所述目标对话数据对应的历史对话数据；对所述目标对话数据进行文本标记的插入，得到标记后的对话数据；根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量；根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果；根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种适用于多轮对话的对话修复方法，包括步骤：获取目标对话数据和所述目标对话数据对应的历史对话数据；对所述目标对话数据进行文本标记的插入，得到标记后的对话数据；根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量；根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果；根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果。

上述执行的适用于多轮对话的对话修复方法，通过首先获取目标对话数据和目标对话数据对应的历史对话数据，对目标对话数据进行文本标记的插入，得到标记后的对话数据，其次根据历史对话数据和标记后的对话数据进行编码处理，得到待处理的编码向量，然后根据待处理的编码向量进行文本标记的操作预测，得到各个文本标记各自对应的操作预测结果，最后根据待处理的编码向量和操作预测结果进行解码及对话修复，得到目标对话数据对应的目标对话修复结果，实现了将标记后的对话数据和历史对话数据同时进行编码处理，从而在不破坏多轮对话数据的关联关系的情况下对目标对话数据进行了修复，通过目标对话数据对应的目标对话修复结果提高了智能聊天机器人理解交流者的真正意图的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种适用于多轮对话的对话修复方法，其特征在于，所述方法包括：

根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果；

所述根据所述待处理的编码向量和所述操作预测结果进行解码及对话修复，得到所述目标对话数据对应的目标对话修复结果的步骤，包括：

获取所述目标对话数据对应的目标实体词词典；

根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果；

所述根据所述目标实体词词典、所述目标解码器和所述文本标记，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果的步骤，包括：

根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果；

所述根据所述词语匹配结果和所述目标实体词词典，对所述待纠正的对话数据进行纠正，得到所述目标对话修复结果的步骤，包括：

将所述待纠正的对话数据作为所述目标对话修复结果。

2.根据权利要求1所述的适用于多轮对话的对话修复方法，其特征在于，所述对所述目标对话数据进行文本标记的插入，得到标记后的对话数据的步骤，包括：

3.根据权利要求1所述的适用于多轮对话的对话修复方法，其特征在于，所述根据所述历史对话数据和所述标记后的对话数据进行编码处理，得到待处理的编码向量的步骤，包括：

4.根据权利要求1所述的适用于多轮对话的对话修复方法，其特征在于，所述根据所述待处理的编码向量进行所述文本标记的操作预测，得到各个所述文本标记各自对应的操作预测结果的步骤，包括：

5.一种适用于多轮对话的对话修复装置，用于实现权利要求1至4中任一项所述的方法，其特征在于，所述装置包括：

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。