CN116010563A

CN116010563A - 一种多轮对话数据分析方法、电子设备和存储介质

Info

Publication number: CN116010563A
Application number: CN202111231313.4A
Authority: CN
Inventors: 黄杰; 肖龙源; 李稀敏; 邹辉; 李威
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2023-04-25

Abstract

本发明涉及人工智能的语言处理领域，尤其涉及一种多轮对话数据分析方法、电子设备和存储介质。所述方法包括：S1、将多轮对话数据按对话顺序进行拼接形成文档；S2、将文档进行语言表征，输出文档中各个词的特征向量，即输出中间表示；S3、将中间表示进行Attention处理，输出文档表示；S4、将中间表示进行命名实体识别，输出一个或多个实体；S5、将所述实体按对话先后拼接后进行归一化处理，输出当前实体的特征向量；S6、将所述文档表示和所述当前实体的特征向量输入第一分类器，输出文档特征表示；S7、将所述当前实体的特征向量输入第二分类器，输出实体归一化结果。本方法适用于多主题问询、跳句回答等复杂对话场景，能很好地完成多轮对话数据分析。

Description

一种多轮对话数据分析方法、电子设备和存储介质

技术领域

本发明涉及人工智能的语言处理领域，尤其涉及一种多轮对话数据分析方法、电子设备和存储介质。

背景技术

在医疗对话中，存在大量的症状问询对话，这些症状问询对话包含着用户是否有相应的症状信息，可以为医生进一步问询和解答、分析用户身体情况提供依据。从医疗对话中分析用户症状情况，不仅可以提升在线医生对用户情况的掌握情况以提供更准确的解答，还可以在自动对话领域中，让自动对话更加贴近用户状态，使得对话更加流畅并提供更准确的建议，在最后还可以根据医疗对话信息，根据分析得到的症状信息生成相应的医疗报告。

在医疗对话中，根据对应由医生症状询问和用户回答的情况，一般症状信息可以分为三类：没有，存在，不确定，即分别对应没有相应症状、存在相应症状、不确定是否存在相应症状，并且还需要对医疗对话中提到的症状进行症状归一化，如“跑肚”归一化到标准症状实体“腹泻”上。现有做法一般是对多轮对话进行规则匹配，利用规则模型进行症状的识别。

但现在的方法存在一定局限性：首先，根据规则匹配，方法泛化性较差，针对复杂场景无法分析，从而无法得到准确的症状情况；其次，针对一轮对话中，存在多个症状问询的情况，一般做法也无法解决；最后，由于在对话系统中，对于医生的症状询问，经常存在用户并不在下一句对话中，而是在多轮对话后对询问症状的情况进行回答，即跳句回答的情况。

发明内容

有鉴于现有技术的上述缺陷，本发明的目的是提供一种多轮对话数据分析方法、电子设备和存储介质，使得对话更加流畅并提供更准确的建议，如应用于医疗领域，可以适用于多症状问询、跳句回答等复杂医疗对话场景，很好地分析医疗对话数据。

为实现上述目的，本发明第一方面提供了一种多轮对话数据分析方法，包括以下步骤：

S1、将多轮对话数据按对话顺序进行拼接形成文档；

S2、将文档进行语言表征处理，输出文档中各个词的特征向量，即输出中间表示；

S3、将中间表示进行Attention处理，输出文档表示；

S4、将中间表示进行命名实体识别，输出一个或多个实体；

S5、将所述实体按对话先后拼接后进行归一化处理，输出当前实体的特征向量；

S6、将所述文档表示和所述当前实体的特征向量输入第一分类器，输出文档特征表示；

S7、将所述当前实体的特征向量输入第二分类器，输出实体归一化结果。

进一步的，用于所述S2中语言表征处理的模型为Bert模型。

进一步的，在语言表征处理模型的训练时，采用各实体单独训练的方式。

进一步的，所述S5的归一化处理方式为求均值。

进一步的，所述轮对话数据分析方法应用于医疗对话的数据分析，提取医疗对话信息中的症状信息，并生成相应的医疗报告。

本发明的第二方面还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如本发明第一方面任一方案所述的多轮对话数据分析方法中的步骤。

本发明的第三方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面任一方案所述的多轮对话数据分析方法中的步骤。

本发明实现了如下技术效果：

本发明的多轮对话数据分析方法，适用于多主题问询、跳句回答等复杂对话场景，能很好地完成多轮对话数据分析。

将本发明的多轮对话数据分析装置及方法应用于医疗对话系统，可以对用户症状特征回答情况的分析，得到医疗情况报告，为医生答疑、用户健康总结、自动对话构建等提供可靠的依据。

附图说明

图1是本发明的一个较佳实施例的多轮对话数据分析装置。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。

现结合附图和具体实施方式对本发明进一步说明。

如图1所示，本发明公开了一种多轮对话数据分析方法的流程示例，包括以下步骤：

S1、将多轮对话数据按对话顺序进行拼接形成文档；

S2、将文档通过bert模型等语言表征模型进行语言表征处理，输出文档中各个词的特征向量，即输出中间表示；

S3、将中间表示进行Attention处理，输出文档表示；

S4、将中间表示进行命名实体识别，输出一个或多个实体；

S5、将所述实体按对话先后拼接后采用mean(求均值)等方式进行归一化处理，输出当前实体的特征向量；

在本实施例中，在步骤S2中，加载已在通用数据集上训练的开源的语言表征模型(以Bert为例)，在垂直领域中的对话数据集上进行再次预训练，使得预训练模型更符合对话数据集分布，提高下游任务性能。

在医疗领域，医生和患者展开多轮对话进行症状询问，如：

医生：最近有没有呕吐、咳嗽、发烧的症状呢？

用户：呕吐，有时会吐，不多，没有发烧。

医生：那还有其他症状吗？

用户：肚子疼。”。

通过这两轮对话，我们可以得到信息为1)呕吐：存在；2)咳嗽：不确定；3)发烧：没有；4)肚子疼：存在。

将多句对话按照对话顺序进行拼接，并且将每个句子对应的NER(命名实体识别)识别结果也按顺序拼接成一条NER识别结果。

对于医生的询问，患者通常在下一句或者下下句进行回答，通过对用户和医生的对话信息合并，可以更好地获取用户对医生询问信息的回答情况，如果不合并则无法知道对于医生的询问信息，用户的回答是什么，将NER识别结果合并是为了通过上下文联系找到症状在合并后的句子中的对应位置。

本发明的多轮对话分析方法在应用于医疗对话时具备如下技术效果：

a.应用语言表征模型在垂直对话领域数据集上再次进行预训练，提高了下游任务性能。

b.应用归一化处理和Attention机制分别获取实体特征和拼接句子特征，利用实体特征进行归一化结果分类，利用实体特征和句子特征来判断用户在当前对话中的回答的对应症状的情况，可以很好地获取用户对症状的回答情况。

c.采用多实体依次训练，可以解决多症状问询问题。

d.采用多轮对话拼接，可以解决多跳回答的问题。

本发明的多轮对话数据分析方法，基于如下的计算机数据分析模型，包括：语句拼接模块、语言表征模块、命名实体识别模块、Attention模块、归一化模块、第一分类器和第二分类器。其中，语句拼接模块用于将多轮对话数据按对话顺序拼接成文档；语言表征模块用于输入文档，在特定语境下进行语言表征处理，输出文档的中间表示；命名实体识别模块用于输入中间表示，进行命名实体识别，输出一个或多个实体；归一化模块用于输入所述命名实体模块输出的一个或多个实体，进行归一化处理，输出当前实体的特征向量；Attention模块用于输入中间表示，运用Attention机制，输出文档特征表示；第一分类器用于输入所述文档特征表示和所述当前实体的特征向量，输出文档的语义信息；第二分类器用于输入所述当前实体的特征向量，输出实体归一化结果。

在本多轮对话数据分析装置中，语言表征模块采用Bert模块等预训练模型，在垂直对话领域进行预训练，以提高实体识别和分类的准确率。

在本实施例中：

(1)Bert模型采用哈工大开源的Roberta为初始权重进行再次预训练，具体为12层encoder层；

(2)Attention层(或称Attention模块)主要是衡量每个字符对整体句子特征的重要程度，从而抓取特殊字符的具体含义。Attention计算公式如下：

u_it＝tanh(W_wh_it+b_w)

其中，h_it为第i句话的第t个字符的Bert输出，W_w、b_w分别为其对应的权重和偏置，u_w为每个字的权重，∝_it为每个字在句子中的重要程度，s_i为第i个句子的特征向量，可用于后续分类。

(3)在本实施例中，归一化模块采用mean模块，mean模块用于对实体特征进行求平均操作，以实现归一化。

(4)由于拼接后的句子中，有可能包含多个症状的问询和回答，故将每个症状单独训练模型，以解决多症状询问问题，提高识别的准确率。

(5)在本实施例中，第一分类器、第二分类器可以根据具体应用选用决策树分类器、选择树分类器或证据分类器等分类器。

分类器的构造和实施大体会经过以下几个步骤：选定样本(包含正样本和负样本)，将所有样本分成训练样本和测试样本两部分；在训练样本上执行分类器算法，生成分类模型；在测试样本上执行分类模型，生成预测结果；根据预测结果，计算必要的评估指标，评估分类模型的性能。

将本发明的多轮对话数据分析装置应用于医疗对话系统，可以对用户症状特征回答情况的分析，得到医疗情况报告，为医生答疑、用户健康总结、自动对话构建等提供可靠的依据。

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备。该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器、半导体存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种多轮对话数据分析方法，其特征在于，包括以下步骤：

S1、将多轮对话数据按对话顺序进行拼接形成文档；

S3、将中间表示进行Attention处理，输出文档表示；

S4、将中间表示进行命名实体识别，输出一个或多个实体；

2.如权利要求1所述的多轮对话数据分析方法，其特征在于，用于所述S2中语言表征处理的模型为Bert模型。

3.如权利要求1所述的多轮对话数据分析方法，其特征在于，在语言表征处理模型的训练时，采用各实体单独训练的方式。

4.如权利要求1所述的多轮对话数据分析方法，其特征在于，所述S5的归一化处理方式为求均值。

5.如权利要求1-4任一项所述的多轮对话数据分析方法，其特征在于，应用于医疗对话的数据分析，提取医疗对话信息中的症状信息，并生成相应的医疗报告。

6.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如权利要求1-5任一项所述的多轮对话数据分析方法中的步骤。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-5任一项所述的多轮对话数据分析方法中的步骤。