CN112287089A

CN112287089A - 用于自动问答系统的分类模型训练、自动问答方法及装置

Info

Publication number: CN112287089A
Application number: CN202011319773.8A
Authority: CN
Inventors: 施晓明; 陈曦; 张子恒; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-01-29
Anticipated expiration: 2040-11-23
Also published as: CN112287089B

Abstract

本申请公开了一种用于自动问答系统的分类模型训练、自动问答方法及装置，涉及人工智能领域。方法包括：利用弱监督数据集对分类模型进行预训练，得到预训练分类模型，弱监督数据集中包括第一询问数据以及弱监督标签；通过预训练分类模型对目标数据集进行分类，并基于分类结果确定目标数据集的目标损失，目标数据集中包含第二询问数据以及标注标签；对目标损失和预训练过程中弱监督数据集的弱监督损失进行损失融合，得到融合损失；基于融合损失对预训练分类模型进行微调，得到目标分类模型。通过引入弱监督数据集进行模型预训练，并在微调阶段融入弱监督数据集的信息，在保证模型训练质量的前提下降低模型训练过程对标注数据的依赖。

Description

用于自动问答系统的分类模型训练、自动问答方法及装置

技术领域

本申请实施例涉及人工智能领域，特别涉及一种用于自动问答系统的分类模型训练、自动问答方法及装置。

背景技术

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器人问答又称为自动问答，是一种对用户输入的自然语言进行语义识别，并基于语义识别结果进行自动回复的技术。在设计一套自动问答系统时，开发人员首先需要选定深度学习模型，然后利用大量包含标注数据的自然语言训练样本，对深度学习模型进行训练。其中，深度学习模型本质上是一种分类模型，用于对自然语言训练样本进行分类，而模型训练过程即通过调整模型参数，使模型分类结果趋向于标注数据的过程。

然而，自然语言训练样本中的标注数据需要通过人工设置，且为了提高模型训练质量，需要具有专业知识的人员对大量自然语言训练样本进行标注，导致准备训练样本的成本较高，且样本准备时间较长，影响模型的训练效率。

发明内容

本申请实施例提供了一种用于自动问答系统的分类模型训练、自动问答方法及装置，可以降低模型训练过程中对标注数据的需求，从而降低人工标注成本和样本准备时长，提高模型的训练效率。所述技术方案如下：

一方面，本申请实施例提供了一种用于自动问答系统的分类模型训练方法，所述方法包括：

利用弱监督数据集对分类模型进行预训练，得到预训练分类模型，所述弱监督数据集中包括第一询问数据以及弱监督标签，所述弱监督标签从所述第一询问数据对应的回复数据中提取得到；

通过所述预训练分类模型对目标数据集进行分类，并基于分类结果确定所述目标数据集的目标损失，所述目标数据集中包含第二询问数据以及标注标签，所述标注标签是基于所述第二询问数据进行人工标注得到；

对所述目标损失和预训练过程中所述弱监督数据集的弱监督损失进行损失融合，得到融合损失；

基于所述融合损失对所述预训练分类模型进行微调，得到目标分类模型。

另一方面，本申请实施例提供了一种自动问答方法，所述方法包括：

获取目标询问数据；

将所述目标询问数据输入目标分类模型，得到所述目标分类模型输出的目标分类标签，所述目标分类模型通过对分类模型进行预训练和微调得到；

基于所述目标分类标签生成所述目标询问数据对应的目标回复数据；

其中，预训练过程基于弱监督数据集，微调过程基于目标数据集，且微调过程中基于融合损失进行微调，所述融合损失由所述目标数据集的目标损失和所述弱监督数据集的弱监督损失融合得到，所述弱监督数据集中包括第一询问数据以及弱监督标签，所述弱监督标签从所述第一询问数据对应的回复数据中提取得到，所述目标数据集中包含第二询问数据以及标注标签，所述标注标签是基于所述第二询问数据进行人工标注得到。

另一方面，本申请实施例提供了一种用于自动问答系统的分类模型训练装置，所述装置包括：

预训练模块，用于利用弱监督数据集对分类模型进行预训练，得到预训练分类模型，所述弱监督数据集中包括第一询问数据以及弱监督标签，所述弱监督标签从所述第一询问数据对应的回复数据中提取得到；

目标损失确定模块，用于通过所述预训练分类模型对目标数据集进行分类，并基于分类结果确定所述目标数据集的目标损失，所述目标数据集中包含第二询问数据以及标注标签，所述标注标签是基于所述第二询问数据进行人工标注得到；

损失融合模块，用于对所述目标损失和预训练过程中所述弱监督数据集的弱监督损失进行损失融合，得到融合损失；

微调模块，用于基于所述融合损失对所述预训练分类模型进行微调，得到目标分类模型。

另一方面，本申请实施例提供了一种自动问答装置，所述装置包括：

获取模块，用于获取目标询问数据；

分类模块，用于将所述目标询问数据输入目标分类模型，得到所述目标分类模型输出的目标分类标签，所述目标分类模型通过对分类模型进行预训练和微调得到；

生成模块，用于基于所述目标分类标签生成所述目标询问数据对应的目标回复数据；

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上述方面所述的用于自动问答系统的分类模型训练方法，或，实现如上述方面所述的自动问答方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上述方面所述的用于自动问答系统的分类模型训练方法，或，实现如上述方面所述的自动问答方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的用于自动问答系统的分类模型训练方法，或，实现如上述方面所述的自动问答方法。

本申请实施例中，在训练用于自动问答系统的分类模型时，首先利用包含弱监督标签的弱监督数据集对分类模型进行预训练，然后利用包含标注标签的目标数据集对预训练分类模型进行微调，并将弱监督数据集训练过程中的弱监督损失融合至微调阶段，从而利用融合得到的融合损失对预训练分类模型进行微调，得到目标分类模型；通过引入弱监督数据集进行模型预训练，并在微调阶段融入弱监督数据集的信息，在保证模型训练质量的前提下，能够降低模型训练过程对标注数据(即目标数据集)的依赖，从而降低样本标注成本，缩短样本准备时长，进而提高了模型的训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的分类模型训练方法的原理示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一个示例性实施例提供的用于自动问答系统的分类模型训练方法的流程图；

图4示出了本申请另一个示例性实施例提供的用于自动问答系统的分类模型训练方法的流程图；

图5是本申请一个示例性实施例示出的损失融合过程的实施示意图；

图6示出了本申请实施例提供的分类模型训练方法的原理示意图；

图7是本申请一个示例性实施例示出的利用知识图谱设置弱监督标签过程的实施示意图；

图8示出了本申请一个示例性实施例提供的自动问答方法的流程图；

图9是本申请一个示例性实施例提供的用于自动问答系统的分类模型训练装置的结构框图；

图10是本申请一个示例性实施例提供的自动问答装置的结构框图；

图11示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面首先对本申请实施例中涉及的名词进行说明。

人工标注：指训练神经网络模型前，通过标注人员对训练数据集中的训练样本进行真实值(ground-truth)标注的过程。人工标注得到的标注标签作为模型训练过程中对模型输出结果的监督，相应的，模型训练的过程即通过调整模型参数，使模型输出结果趋向于标注标签的过程。本申请实施例中涉及的人工标注过程即标注人员为自动问答系统中的询问数据设置标注标签的过程，该标注标签为特定领域内的专用名词。

弱监督学习(Weakly Supervised Learning)：相较于基于人工标注的标注标签进行监督学习，弱监督学习是一种在无法获取足够高置信度标注数据的情况下，利用低置信度标注数据(即弱监督数据集)进行神经网络模型训练的过程。其中，弱监督学习可以包括不完全监督学习(部分数据包含标注标签，部分数据不包含标注标签)、不确切监督学习(标注数据仅为粗粒度标签)和不精确监督学习(部分数据的标注标签存在错误或偏移)。

预训练(pre-training)：一种通过使用大型数据集对神经网络模型进行训练，使神经网络模型学习到数据集中的通用特征的过程。预训练的目的是为后续神经网络模型在特定数据集上训练提供优质的模型参数。本申请实施例中的预训练指利用弱监督数据集训练分类模型的过程。

微调(fine-tuning)：一种使用特定数据集对预训练神经网络模型进行进一步训练的过程。通常情况下，微调阶段所使用数据集的数据量小于预训练阶段所使用数据集的数据量，且微调阶段采用监督式学习的方式，即微调阶段所使用数据集中的训练样本包含标注信息。本申请实施例中的微调阶段指利用包含标注标签的目标数据集训练分类模型(经过预训练)的过程。

损失函数(loss function)：又被称为代价函数(cost function)，是一种用于评价神经网络模型的预测值与真实值之间差异程度的函数，损失函数越小，表明神经网络模型的性能越好，模型的训练过程即通过调整模型参数，最小化损失函数的过程。对于不同的神经网络模型，所采用的损失函数也不同，常见的损失函数包括0-1损失函数、绝对值损失函数、对数损失函数、指数损失函数、感知损失函数、交叉熵损失函数等等。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例提供的分类模型训练方法，即在机器人问答(即自动问答)方面的应用。

自动问答系统作为一种能够对自然语言问题进行自动回复的系统，其关键技术在于语义识别，旨在将自然语言解析为计算机能够处理的逻辑语义表示，而槽填充(slotfilling)作为语义识别中重要的模块，通常被视为一个结构化预测问题，用于从自然语言会话中抽取出预定义槽位的属性值。相关技术中，进行槽填充训练时，需要根据预先设定好的领域关键词对自然语言问题进行标注，标注出其中与领域相关的核心词，从而将包含标注数据的自然语言问题作为训练样本进行深度学习模型训练，使深度学习模型能够从自然语言问题中提取出结构化的语义表示(槽填充数据)。

通常情况下，对特定领域的训练样本进行人工标注时，需要由具有特定领域相关知识的专业人员执行，且为了保证模型训练质量，需要对大量训练样本进行人工标注，导致人工标注的成本较高，且需要花费大量时间，不利于后续深度学习模型的训练。

本申请实施例提供了一种用于自动问答系统的分类模型训练方法，在保证模型训练质量的前提下，能够降低分类模型训练过程对人工标注训练样本的依赖，从而降低人工标注成本和时间，提高模型的训练效率。图1示出了本申请实施例提供的分类模型训练方法的原理示意图。

如图1所示，分类模型的训练分为预训练和微调两个阶段。预训练阶段，计算机设备将弱监督数据集12中的询问数据作为样本输入，得到分类模型11输出的预测标签，并根据弱监督数据集12中的弱监督标签以及预测标签确定弱监督损失13，从而基于弱监督损失13对分类模型11进行预训练。其中，弱监督数据集12中的弱监督标签对询问数据对应的回复数据中提取得到。

微调阶段，计算机设备将目标数据集14中的询问数据作为样本输入，得到分类模型11(经过预训练)输出的预测标签，并根据目标数据集14中的标注标签以及预测标签确定目标损失。对于确定出的目标损失，计算机设备并非直接利用该目标损失进行模型微调，而是对预训练过程中的弱监督损失13和目标损失进行损失融合，得到融合损失15，进而基于融合损失15对分类模型进行微调。其中，目标数据集14中的标注标签由人工标注。

通过上述两步式的模型训练方法，除了利用弱监督数据进行模型预训练，以降低对标注数据的依赖外，还通过将弱监督数据动态引入微调阶段，使微调过程中的模型能够获取更高深度的局部最优点，在仅使用少量包含标注数据的训练样本进行模型微调的情况下，提高模型的分类性能。

本申请实施例提供的分类模型训练方法以及自动问答方法，可以应用于特定领域的自动问答系统。以医学领域的自动问答系统为例，在自动问答系统开发阶段，计算机设备首先获取人工问答系统中用户的提问以及医生对提问的回复，然后基于提问和回复自动生成弱监督数据集，并采用人工标注方式生成目标数据集，其中，弱监督数据集的数据量远大于目标数据集的数据量。

进一步的，计算机设备利用弱监督数据集和目标数据集对分类模型进行预训练和微调(采用本申请实施例提供的训练方法)，最终训练得到目标分类模型，该目标分类模型即具有从自然语言中识别出医学实体词，并将医学实体词映射为标准化的医学标准词的能力。

自动问答系统应用阶段，训练得到的目标分类模型预先部署在医学问题自动问答系统的后台服务器中，当接收到用户询问数据时，服务器首先对用户询问数据进行预处理，使其满足目标分类模型的模型输入要求，从而通过目标分类模型对模型输入进行推理，最终输出预测的分类标签(对应医学标准词)。

基于预测得到的分类标签，服务器可以进一步生成自动回复文本，并进行反馈，实现医学问题的自动回复。

在一些可能的实施方式中，服务器还可以基于分类标签进一步提高相关服务，比如科室指引、医生推荐等等，本实施例对此不作限定。

需要说明的是，本申请实施例提供的分类模型训练方法，还可以应用于其他领域的自动问答系统，比如客服领域、金融领域等等，本申请实施例仅以医学领域为例进行示意性说明，但并不对此构成限定。

图2示出了本申请一个示例性实施例提供的实施环境的示意图。本实施例以分类模型训练方法以及自动问答方法应用于医学领域的自动问答系统为例进行说明，该实施环境中包括终端210和服务器220。其中，终端210与服务器220之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210是具有自动问答系统使用权限电子设备。该电子设备可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

其中，该自动问答系统可以通过网页进行访问，或者，通过应用程序进行访问。比如，用户可以使用终端210登录医学问诊网站，并使用该网站提供的自动问答系统进行医学问题咨询；或者，用户可以在终端210中安装医学问答应用程序，从而使用该医学问答应用程序提供的自动问答系统进行医学问题咨询，本申请实施例对此不作限定。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，服务器220为自动问答系统的后台服务器。

本实施例中，服务器220中设置有分类模型，该分类模型具有从自然语言中识别出医学实体词，并将医学实体词映射为标准化的医学标准词的能力(通过本申请实施例提供的分类模型训练方法训练得到)。该分类模型可以是基于转换器的双向编码器(Bidirectional Encoder Representation from Transformers，BERT)模型、卷积神经网络(Convolutional Neural Networks，CNN)模型、循环神经网络(Recurrent NeuralNetwork，RNN)模型、丰富层次化特征的卷积神经网络(Rich feature hierarchiesConvolutional Neural Network，RCNN)模型等等，本实施例对此不作限定。

在一种可能的实施方式中，如图2所示，终端210向服务器220发送询问请求，服务器220将询问请求中包含的询问数据221(吃点东西就会拉肚子，有时左腹会轻微疼痛，吃完饭会有恶心的感觉)输入分类模型222，由分类模型222对询问数据221进行推理，输出用于医学槽填充中的症状原因223(肠道功能紊乱)以症状名称224(胃肠道炎症)。进一步的，服务器220根据症状原因223和症状名称224生成自动回复内容225(您这是肠道功能紊乱引起的胃肠道炎症，建议少食辛辣)，并反馈至终端210，供终端210进行显示。

在其他可能的实施方式中，分类模型222也可以设置在终端210中，由终端210基于自然语言输出用于医学槽填充的相关信息，并传输至服务器220，由服务器220生成自动回复内容并反馈至终端210，本实施例对此不作限定。

此外，上述分类模型可以由服务器220训练得到，也可以由其他计算机设备训练完成后部署在服务器220侧，为了方便表述，下述各个实施例以分类模型训练方法由计算机设备执行为例进行说明。

图3示出了本申请一个示例性实施例提供的用于自动问答系统的分类模型训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，利用弱监督数据集对分类模型进行预训练，得到预训练分类模型，弱监督数据集中包括第一询问数据以及弱监督标签，弱监督标签从第一询问数据对应的回复数据中提取得到。

在一种可能的实施方式中，当自动问答系统应用于特定领域时，计算机设备获取特定领域内的人工问答记录(包括询问数据以及人工回复数据)，并基于该人工问答记录生成弱监督数据集。其中，弱监督数据集中的弱监督数据包括第一询问数据以及对应的弱监督标签，且该弱监督标签由计算机设备自动生成，无需人工标注。

由于人工问答记录中的询问数据通常是非特定领域人员的自然语言表达，存在口语化表述或表意不清的问题，因此直接基于询问数据设置弱监督标签的效果较差(弱监督标签的准确率较低)。而人工问答记录中的人工回复数据通常是特定领域专业人员的回复，通常包含领域内的专有名词且表意清楚，因此基于人工回复数据设置弱监督标签的效果较好。在一种可能的实施方式中，计算机设备从询问数据对应的回复数据中提取特定领域的专业词汇，并提取到的专业词汇作为弱监督标签。

在一种可能的应用场景下，当自动问答系统用于医学领域时，计算机设备从网络爬取医学问答系统中的人工问答数据，并从医学询问数据对应的人工回复数据(可以由医生回复)中提取弱监督标签。

基于弱监督数据集进行预训练，虽然可能导致分类模型无法学习到准确的标签，但是可以帮助分类模型消除大多数负面标签，有助于降低标注成本，后续使用精标注数据进行进一步模型微调，即可进一步提高分类模型的分类准确性。

步骤302，通过预训练分类模型对目标数据集进行分类，并基于分类结果确定目标数据集的目标损失，目标数据集中包含第二询问数据以及标注标签，标注标签是基于第二询问数据进行人工标注得到。

不同于弱监督数据集中询问数据对应的弱监督标签自动生成，目标数据集中询问数据对应的标注标签由人工标注得到，比如，可以由特定领域的专业标注人员对询问数据进行标注得到，因此标注标签的准确度高于弱监督标签的准确度。此外，为了保证分类结果的统一性，弱监督标签与标注标签均属于预设标签集合，比如，预设标签集合中包含29个候选标签，弱监督标签和标注标签均属于该预设标签集合。

从数据量角度来讲，目标数据集的数据量远小于弱监督数据集的数据量，即在模型训练过程中，利用大量弱监督数据进行模型预训练，利用少量精标注数据进行模型微调，以此降低标注成本。

可选的，在进行模型微调过程中，计算机设备将目标数据集中的第二询问数据输入预训练分类模型，得到预训练分类模型输出的各个候选标签的概率分布，从而基于该分类结果和标注标签的概率分布，确定预训练分类模型在目标数据集上的目标损失。

步骤303，对目标损失和预训练过程中弱监督数据集的弱监督损失进行损失融合，得到融合损失。

本申请实施例中，在仅使用少量精标注数据的情况下，为了进一步提高模型质量，在利用目标数据集对预训练分类模型进行微调的过程中，计算机设备并非直接基于目标损失进行模型微调，而是动态融合弱监督数据集在预训练过程中的弱监督损失，得到融合损失。

在一些实施例中，为了提高损失融合效果，预训练和微调阶段采用相同类型的损失函数。比如，计算机设备在预训练和微调阶段均采用二分类交叉熵逻辑回归损失(BinaryCross Entropy With logits Loss，BCEWithlogitsLoss)。

在一种可能的实施方式中，进行损失融合过程中，计算机设备确定目标损失和弱监督损失的损失权重，从而对目标损失和弱监督损失进行加权融合，得到融合损失，其中，目标损失和弱监督损失各自对应的损失权重在微调过程中动态变化。

步骤304，基于融合损失对预训练分类模型进行微调，得到目标分类模型。

进一步的，基于得到的融合损失，计算机设备对预训练分类模型进行微调，以最小化融合损失，并在融合损失满足收敛条件时，得到目标分类模型。

采用“预训练+微调”的方式进行分类模型训练，由于分类模型基于大规模数据集(弱监督数据集+目标数据集)训练得到，因此分类模型具有更好的泛化能力，能够更加准确理解用户的自然语言表述，提高了分类模型的召回率；并且，采用融合弱监督数据的方式进行微调，使微调过程中分类模型能够获取更高深度的局部最优点，提高模型的分类性能，并降低数据的标注成本。

综上所述，本申请实施例中，在训练用于自动问答系统的分类模型时，首先利用包含弱监督标签的弱监督数据集对分类模型进行预训练，然后利用包含标注标签的目标数据集对预训练分类模型进行微调，并将弱监督数据集训练过程中的弱监督损失融合至微调阶段，从而利用融合得到的融合损失对预训练分类模型进行微调，得到目标分类模型；通过引入弱监督数据集进行模型预训练，并在微调阶段融入弱监督数据集的信息，在保证模型训练质量的前提下，能够降低模型训练过程对标注数据(即目标数据集)的依赖，从而降低样本标注成本，缩短样本准备时长，进而提高了模型的训练效率。

通过分析预训练阶段和微调阶段的损失函数曲线发现，预训练阶段损失函数的收敛速度较慢，而微调阶段损失函数的收敛速度较快。在微调过程中融入弱监督数据信息后，损失函数的收敛速度放缓，且模型能够学习到更深的局部最优点，从而达到更好的模型训练效果。

此外，为了确保融合得到的损失受到更多来自目标损失函数的影响，而非弱监督损失函数的影响，计算机设备需要动态调整融入的弱监督损失的比重，下面采用示例性的实施例进行说明。

图4示出了本申请另一个示例性实施例提供的用于自动问答系统的分类模型训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤401，进行第i轮预训练时，将弱监督数据集中预设数量的第一询问数据输入分类模型，并基于分类结果和弱监督标签确定第i轮预训练的第i弱监督损失。

在一种可能的实施方式中，计算机设备在模型训练过程(包括预训练和微调)采用迷你批次(mini-batch)技术，即每一轮训练过程中，计算机设备从数据集中选取预设数量的训练样本用于本轮模型训练。比如，该预设数量为50。

相应的，计算机设备在进行第i轮预训练时，从弱监督数据集中获取预设数量的弱监督数据，并将弱监督数据中的第一询问数据输入分类模型，得到分类模型输出的分类结果(各个候选标签的概率分布)，并以第一询问数据对应的弱监督标签为监督，确定第i轮预训练的第i弱监督损失。

在一个示意性的例子中，预训练过程中分类模型的弱监督损失可以表示为：

其中，θ为分类模型的模型参数，x_i为第i轮预训练中使用的第一询问数据，y_i为模型预测标签的概率分布，y′_i为第一询问数据对应弱监督标签的概率分布。

步骤402，存储第i轮预训练的第i弱监督损失。

不同于相关技术中，计算机设备仅关注预训练结果，而不会对预训练中间过程产生的数据进行存储，本申请实施例中，为了便于后续进行模型微调时，融入弱监督数据的信息，计算机设备在每一轮预训练后，都会对本轮预训练的弱监督损失进行存储。

示意性的，如图5所示，每一轮预训练过程中，计算机设备采用迷你批次技术从弱监督数据集51中获取一批弱监督数据，并利用分类模型52对弱监督数据进行分类，从而根据分类结果得到本轮的监督损失，并进行存储。完成分类模型预训练时，共存储j轮预训练对应的弱监督损失。

在一些实施例中，每一轮预训练后，计算机设备都会检测本轮预训练后的弱监督损失是否满足训练完成条件，若满足，则执行步骤404，若不满足，则执行步骤403。

步骤403，响应于第i轮预训练的第i弱监督损失不满足训练完成条件，调整分类模型的模型参数，并进行第i+1轮预训练。

可选的，该训练完成条件包括损失收敛条件(即弱监督损失是否收敛)和训练轮数条件(即预训练轮数是否达到轮数上限)中的至少一种。当第i弱监督损失不满足训练完成条件时，计算机设备基于第i弱监督损失，对分类模型的模型参数进行调整，并利用参数调整后的分类模型进行下一轮预训练。其中，计算机设备可以通过反向传播或梯度下降算法进行参数调整，本实施例对此不作限定。

步骤404，响应于第i轮预训练的第i弱监督损失满足训练完成条件，停止预训练并得到预训练分类模型。

当第i弱监督损失不满足训练完成条件时，计算机设备即停止模型预训练，并将当前模型参数作为预训练分类模型的模型参数。

示意性的，如图5所示，计算机设备根据第1至第j-1轮预训练的弱监督损失对分类模型52进行参数调整，并在第j轮预训练后停止预训练，得到预训练分类模型53。

步骤405，通过预训练分类模型对目标数据集进行分类，并基于分类结果确定目标数据集的目标损失，目标数据集中包含第二询问数据以及标注标签。

本步骤的实现方式可以参考上述步骤302，本实施例在此不再赘述。

在一个示意性的例子中，微调过程中分类模型的目标损失可以表示为：

其中，θ为分类模型的模型参数(初始参数为预训练后分类模型的模型参数)，x_i为第i轮微调中使用的第二询问数据，y_i为模型预测标签的概率分布，y′_i为第二询问数据对应标注标签的概率分布。

步骤406，获取第t轮微调的第t目标损失，以及第t轮预训练的第t弱监督损失，t为正整数。

为了保证后续损失融合过程中损失函数的梯度一致性，计算机设备进行第t轮微调得到第t目标损失后，从存储的预训练阶段的弱监督损失中，提取第t轮预训练得到的第t弱监督损失，以便后续对第t轮目标损失以及第t轮弱监督损失进行损失融合，即对相同梯度下目标损失函数和弱监督损失函数进行融合。

示意性的，如图5所示，每一轮微调过程中，计算机设备采用迷你批次技术从目标数据集54中获取一批精标注数据，并利用预训练分类模型53对精标注数据进行分类，从而根据分类结果得到本轮的目标损失。进一步的，计算机设备获取预训练过程中同一轮次时的弱监督损失。比如，在进行第1轮微调得到第1目标损失后，计算机设备获取第1轮预训练得到的第1弱监督损失，在进行第i轮微调得到第i目标损失后，计算机设备获取第i轮预训练得到的第i弱监督损失。

步骤407，确定第t目标损失对应的第一损失权重，以及第t弱监督损失对应的第二损失权重，第一损失权重大于第二损失权重。

本申请实施例中，在微调阶段，计算机设备动态学习弱监督损失与目标损失的线性组合的比例，以此动态调整微调阶段融入弱监督数据的比重。因此，第t轮微调后进行损失融合时，计算机设备需要动态确定第t目标损失对应的第一损失权重，以及第t弱监督损失对应的第二损失权重。其中，为了确保微调模型参数过程中，受到更多来自目标损失的影响，而非弱监督损失，第一损失权重大于第二损失权重。

在一种可能的实施方式中，计算机设备根据相同轮次下，目标损失函数以及弱监督损失函数的当前梯度确定目标损失和弱监督损失各自对应的损失权重。本步骤可以包括如下步骤：

一、获取进行第t轮微调时目标损失函数的第一梯度，以及进行第t轮预训练时弱监督损失函数的第二梯度。

在一种可能的实施方式中，损失函数的梯度可以根据相邻两轮训练时的损失以及训练任务的学习率(learning rate)确定得到，因此计算机设备在微调阶段，同样对每一轮微调得到的目标损失进行存储，以便后续确定目标损失函数的梯度。其中，确定第一梯度和第二梯度的过程可以包括如下步骤。

1、基于第t轮微调的第t目标损失以及第t-1轮微调的第t-1目标损失，确定进行第t轮微调时目标损失函数的第一梯度。

训练过程中，计算机设备基于预先设置的学习率对模型参数进行逐步调整，以此逐步降低损失，因此损失函数的梯度可以采用相邻两轮训练过程中损失之差以及学习率来近似表示。

在一种可能的实施方式中，计算机设备根据相邻两轮微调过程中目标损失之差，以及微调过程的学习率，确定目标损失函数在进行第t轮微调时的第一梯度，其中，第一梯度可以表示为：

其中，

为第t轮微调的第t目标损失，

为第t-1轮微调的第t-1目标损失，h_T为微调过程的学习率。

2、基于第t轮预训练的第t弱监督损失以及第t-1轮预训练的第t-1弱监督损失，确定进行第t轮预训练时弱监督损失函数的第二梯度。

与确定第t轮微调时目标损失函数第一梯度过程类似的，计算机设备根据相邻两轮预训练过程中弱监督损失之差，以及预训练过程的学习率，确定弱监督损失函数在进行第t轮弱监督时的第二梯度，其中，第二梯度可以表示为：

其中，

为第t轮预训练的第t弱监督损失，

为第t-1轮预训练的第t-1弱监督损失，h_W为预训练过程的学习率。

二、基于第一梯度和第二梯度的梯度比值，确定第一损失权重和第二损失权重。

为了在微调训练过程中，逐步增强目标损失的影响，并逐步降低弱监督损失的影响，本申请实施例中，计算机设备基于第一梯度和第二梯度的梯度比值确定损失权重时，融合线性退火函数(linear annealing function)动态分配损失权重。可选的，本步骤可以包括如下步骤。

1、确定第一梯度和第二梯度的梯度比值。

在一种可能的实施方式中，当预训练和微调阶段采用相同的学习率时(即h_T＝h_W)，目标损失函数与弱监督损失函数之间的梯度比值可以表示为：

2、基于梯度比值和当前训练轮次，通过线性退火函数确定第一损失权重和第二损失权重，其中，第一损失权重与当前训练轮次呈正相关关系。

本实施例中设计了一种与训练轮次以及(损失函数)梯度比值相关的线性退火函数，计算机设备在确定当前轮次的损失权重时，即将当前轮次损失函数之前的梯度比值以及训练轮次输入该线性退火函数。在一个示意性的例子中，该线性退火函数如下：

其中，K为控制退火率的超参，t为训练轮次，λ为损失函数的梯度比值。

进一步的，计算机设备将λ(t)确定为弱监督损失的第二损失权重，将1-λ(t)确定为目标损失的第一损失权重，即随着训练轮数的不断增加，弱监督损失的损失权重逐渐减小，目标损失的损失权重逐渐增大。

步骤408，基于第t目标损失、第一损失权重、第t弱监督损失以及第二损失权重，确定第t轮微调的第t融合损失。

进一步的，计算机设备根据第一损失权重和第二损失权重，对第t目标损失和第t弱监督损失进行加权计算，将加权计算结果确定为第t轮微调的第t融合损失。

在一个示意性的例子中，第t轮微调的第t融合损失可以表示为：

其中，

为目标损失函数，

为弱监督损失函数。

示意性的，如图5所示，计算机设备根据第1弱监督损失对应的损失权重λ(1)以及第1目标损失对应的损失权重1-λ(1)，加权计算得到第1融合损失；根据第i弱监督损失对应的损失权重λ(i)以及第1目标损失对应的损失权重1-λ(i)，加权计算得到第i融合损失；根据第j弱监督损失对应的损失权重λ(j)以及第j目标损失对应的损失权重1-λ(j)，加权计算得到第j融合损失。

步骤409，基于融合损失对预训练分类模型进行微调，得到目标分类模型。

每一轮微调时，计算机设备即根据本轮对应的融合损失，对预训练分类模型进行微调，并在融合损失满足训练完成条件时，停止微调并得到目标分类模型。

在一个示意性的例子中，如图6所示，预训练分类模型61(BERT模型)时，计算机设备将弱监督数据集62中的询问数据作为样本输入，得到分类模型61输出的预测标签，并根据弱监督数据集62中的弱监督标签以及预测标签确定弱监督损失63(进行存储)，从而基于弱监督损失63对分类模型61进行预训练。

完成预训练后，计算机设备将目标数据集64中的询问数据作为样本输入，得到分类模型61(经过预训练)输出的预测标签，并根据目标数据集64中的标注标签以及预测标签确定目标损失65。进一步的，计算机设备确定同一训练轮次下弱监督损失63的梯度g_W以及目标损失65的梯度g_T，从而根据梯度比值

以及当前训练轮次t，确定弱监督损失63的损失权重λ(t)以及目标损失65的损失权重1-λ(t)，并对损失进行加权融合，得到融合损失，进而基于融合损失对模型参数进行微调。

本实施例中，计算机设备基于目标损失函数以及弱监督损失函数之间的梯度比值，并设计线性退火函数为目标损失以及弱监督损失动态分配损失权重，在微调阶段融入弱监督损失的同时，随着微调阶段的进行逐步下调弱监督损失对参数微调的影响，进一步提高了弱监督数据在模型训练过程中的利用率，降低模型训练对精标注数据的依赖，并有助于提高模型的训练质量。

上述各个实施例中，为了提高模型训练质量，计算机设备在准备弱监督数据集的过程中，确定自动问答系统所属的目标领域，从而基于目标领域的知识图谱(KnowledgeGraph)，从第一询问数据对应的回复数据中提取目标领域的实体词，并基于提取到的实体词为第一询问数据设置弱监督标签。

在一些实施例中，当提取出的实体词属于预设标签集合时，计算机设备将该实体词设置为第一询问数据的弱监督标签；当提取出的实体词不属于预设标签集合时，计算机设备通过预先设置的映射关系，将实体词映射成预设标签，从而将映射得到的预设标签设置为第一询问数据的弱监督标签。

在一个示意性的例子中，当自动问答系统应用于医学领域时，如图7所示，计算机设备获取医学领域的知识图谱71，并利用该知识图谱对医学问题询问数据72对应的医生回复数据73进行医学实体词提取，从而根据提取到的医学实体词，为医学问题询问数据72设置医学词汇标签74。本示例仅以自动问答系统应用于医学领域为例进行示意性说明，但并不对此构成限定。

在实际训练过程中，分别采用RNN、CNN、RCNN以及BERT模型作为分类模型，选取包含1152条精标注数据的目标数据集，以及包含10000条弱监督数据的弱监督数据集进行模型训练，最终训练得到分类模型的F1得分以及轮次准确率数据如表一所示。

表一

从上表可以看出，“分类模型+弱监督预训练+动态融合弱监督数据”的方案优于“分类模型+弱监督预训练”的方案，即在精标注数据中动态融合弱监督数据有利于提高微调阶段的模型训练效果。

图8示出了本申请一个示例性实施例提供的自动问答方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤801，获取目标询问数据。

在一种可能的实施方式中，该目标询问数据为医学问题询问数据，该医学问题询问数据可以是用户通过终端上传的文本数据，或者，也可以是语音数据，计算机设备将语音数据转换为文本数据后，用于进行后续自动问答。

步骤802，将目标询问数据输入目标分类模型，得到目标分类模型输出的目标分类标签，目标分类模型通过对分类模型进行预训练和微调得到。

其中，预训练过程基于弱监督数据集，微调过程基于目标数据集，且微调过程中基于融合损失进行微调，融合损失由目标数据集的目标损失和弱监督数据集的弱监督损失融合得到，弱监督数据集中包括第一询问数据以及弱监督标签，弱监督标签从第一询问数据对应的回复数据中提取得到，目标数据集中包含第二询问数据以及标注标签，标注标签是基于第二询问数据进行人工标注得到。即该目标分类模型可以通过上述任意实施例提供的分类模型训练方法训练得到。

在一种可能的实施方式中，对于获取到的目标询问数据，计算机设备对该目标询问数据进行预处理，将目标询问数据转化为符合目标分类模型输入条件的形式，并将预处理后的目标询问数据输入目标分类模型。比如，计算机设备将目标询问数据转化为词向量序列，从而将词向量序列输入目标分类模型。

可选的，目标分类模型根据输入的目标询问数据输出候选分类标签的预测概率分布，计算机设备即根据该预测概率分布，将概率最高的前n个候选标签确定为目标分类标签，n为正整数。

步骤803，基于目标分类标签生成目标询问数据对应的目标回复数据。

在一种可能的实施方式中，计算机设备基于目标分类标签的属性，将目标分类标签填入回复模板中对应属性的填充槽内，从而生成目标回复数据。

在一个示意性的例子中，当回复模板为“您好，您的情况考虑是(症状原因)引起的(症状原因)”时，当第一目标分类标签“肠胃炎”对应的属性为症状原因，第二目标分类标签“腹痛”对应的属性为症状原因时，计算机设备生成的目标回复数据为“您好，您的情况考虑是肠胃炎引起的腹痛”。

图9是本申请一个示例性实施例提供的用于自动问答系统的分类模型训练装置的结构框图，如图9所示，该装置包括：

预训练模块901，用于利用弱监督数据集对分类模型进行预训练，得到预训练分类模型，所述弱监督数据集中包括第一询问数据以及弱监督标签，所述弱监督标签从所述第一询问数据对应的回复数据中提取得到；

目标损失确定模块902，用于通过所述预训练分类模型对目标数据集进行分类，并基于分类结果确定所述目标数据集的目标损失，所述目标数据集中包含第二询问数据以及标注标签，所述标注标签是基于所述第二询问数据进行人工标注得到；

损失融合模块903，用于对所述目标损失和预训练过程中所述弱监督数据集的弱监督损失进行损失融合，得到融合损失；

微调模块904，用于基于所述融合损失对所述预训练分类模型进行微调，得到目标分类模型。

可选的，损失融合模块903，包括：

损失获取单元，用于获取第t轮微调的第t目标损失，以及第t轮预训练的第t弱监督损失，t为正整数；

权重确定单元，用于确定所述第t目标损失对应的第一损失权重，以及所述第t弱监督损失对应的第二损失权重，所述第一损失权重大于所述第二损失权重；

损失融合单元，用于基于所述第t目标损失、所述第一损失权重、所述第t弱监督损失以及所述第二损失权重，确定所述第t轮微调的第t融合损失。

可选的，所述权重确定单元，用于：

获取进行所述第t轮微调时目标损失函数的第一梯度，以及进行所述第t轮预训练时弱监督损失函数的第二梯度；

基于所述第一梯度和所述第二梯度的梯度比值，确定所述第一损失权重和所述第二损失权重。

可选的，所述权重确定单元，用于：

确定所述第一梯度和所述第二梯度的梯度比值；

基于所述梯度比值和当前训练轮次，通过线性退火函数确定所述第一损失权重和所述第二损失权重，其中，所述第一损失权重与所述当前训练轮次呈正相关关系。

可选的，所述权重确定单元，具体还用于：

确定所述第一梯度和所述第二梯度的梯度比值；

可选的，所述权重确定单元，具体用于：

基于所述第t轮微调的所述第t目标损失以及第t-1轮微调的第t-1目标损失，确定进行所述第t轮微调时所述目标损失函数的所述第一梯度；

基于所述第t轮预训练的所述第t弱监督损失以及第t-1轮预训练的第t-1弱监督损失，确定进行所述第t轮预训练时所述弱监督损失函数的所述第二梯度。

可选的，所述预训练模块901，包括：

弱监督损失计算单元，用于在进行第i轮预训练时，将所述弱监督数据集中预设数量的所述第一询问数据输入所述分类模型，并基于分类结果和所述弱监督标签确定第i轮预训练的第i弱监督损失；

存储单元，用于存储所述第i轮预训练的所述第i弱监督损失；

参数调整单元，用于响应于所述第i轮预训练的所述第i弱监督损失不满足训练完成条件，调整所述分类模型的模型参数，并进行第i+1轮预训练；

训练停止单元，用于响应于所述第i轮预训练的所述第i弱监督损失满足训练完成条件，停止预训练并得到所述预训练分类模型。

可选的，所述装置还包括：

提取模块，用于基于目标领域的知识图谱，从所述第一询问数据对应的所述回复数据中提取所述目标领域的实体词；

标签设置模块，用于基于提取到的所述实体词为所述第一询问数据设置所述弱监督标签。

可选的，预训练和微调过程采用相同的学习率。

可选的，所述第一询问数据和所述第二询问数据为医学问题询问数据；

所述弱监督标签和所述标注标签为医学词汇标签。

图10是本申请一个示例性实施例提供的自动问答装置的结构框图，如图10所示，该装置包括：

获取模块1001，用于获取目标询问数据；

分类模块1002，用于将所述目标询问数据输入目标分类模型，得到所述目标分类模型输出的目标分类标签，所述目标分类模型通过对分类模型进行预训练和微调得到；

生成模块1003，用于基于所述目标分类标签生成所述目标询问数据对应的目标回复数据；

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

请参考图11，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1300包括中央处理单元(Central Processing Unit，CPU)1301、包括随机存取存储器1302和只读存储器1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令，至少一条指令由处理器加载并执行以实现上述任一实施例所述的用于自动问答系统的分类模型训练方法，或，实现上述任一实施例所述的自动问答方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例所述的用于自动问答系统的分类模型训练方法，或，执行上述实施例所述的自动问答方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种用于自动问答系统的分类模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述目标损失和预训练过程中所述弱监督数据集的弱监督损失进行损失融合，得到融合损失，包括：

获取第t轮微调的第t目标损失，以及第t轮预训练的第t弱监督损失，t为正整数；

确定所述第t目标损失对应的第一损失权重，以及所述第t弱监督损失对应的第二损失权重，所述第一损失权重大于所述第二损失权重；

基于所述第t目标损失、所述第一损失权重、所述第t弱监督损失以及所述第二损失权重，确定所述第t轮微调的第t融合损失。

3.根据权利要求2所述的方法，其特征在于，所述确定所述第t目标损失对应的第一损失权重，以及所述第t弱监督损失对应的第二损失权重，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一梯度和所述第二梯度的梯度比值，确定所述第一损失权重和所述第二损失权重，包括：

确定所述第一梯度和所述第二梯度的梯度比值；

5.根据权利要求3所述的方法，其特征在于，所述获取进行所述第t轮微调时目标损失函数的第一梯度，以及进行所述第t轮预训练时弱监督损失函数的第二梯度，包括：

6.根据权利要求2所述的方法，其特征在于，所述利用弱监督数据集对分类模型进行预训练，得到预训练分类模型，包括：

进行第i轮预训练时，将所述弱监督数据集中预设数量的所述第一询问数据输入所述分类模型，并基于分类结果和所述弱监督标签确定第i轮预训练的第i弱监督损失；

存储所述第i轮预训练的所述第i弱监督损失；

响应于所述第i轮预训练的所述第i弱监督损失不满足训练完成条件，调整所述分类模型的模型参数，并进行第i+1轮预训练；

响应于所述第i轮预训练的所述第i弱监督损失满足训练完成条件，停止预训练并得到所述预训练分类模型。

7.根据权利要求1至6任一所述的方法，其特征在于，所述利用弱监督数据集对分类模型进行预训练，得到预训练分类模型之前，所述方法还包括：

基于目标领域的知识图谱，从所述第一询问数据对应的所述回复数据中提取所述目标领域的实体词；

基于提取到的所述实体词为所述第一询问数据设置所述弱监督标签。

8.根据权利要求1至6任一所述的方法，其特征在于，

所述第一询问数据和所述第二询问数据为医学问题询问数据；

所述弱监督标签和所述标注标签为医学词汇标签。

9.一种自动问答方法，其特征在于，所述方法包括：

获取目标询问数据；

10.一种用于自动问答系统的分类模型训练装置，其特征在于，所述装置包括：

11.一种自动问答装置，其特征在于，所述装置包括：

获取模块，用于获取目标询问数据；

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至8任一所述的用于自动问答系统的分类模型训练方法，或，实现如权利要求9所述的自动问答方法。

13.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至8任一所述的用于自动问答系统的分类模型训练方法，或，实现如权利要求9所述的自动问答方法。