CN112711938B

CN112711938B - 一种阅读理解模型构建方法、装置、电子设备及存储介质

Info

Publication number: CN112711938B
Application number: CN202110323266.XA
Authority: CN
Inventors: 吕向楠
Original assignee: Beijing Wofeng Times Data Technology Co ltd
Current assignee: Beijing Wofeng Times Data Technology Co ltd
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2021-07-06
Anticipated expiration: 2041-03-26
Also published as: CN112711938A

Abstract

本发明提供一种阅读理解模型构建方法、装置、电子设备及存储介质，该方法包括：根据第一领域场景数据集，得到第一领域场景的训练集；根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型；所述通用阅读理解模型为根据通用领域场景数据集预先训练深度学习模型得到的。本发明在通用阅读理解模型的基础上进行增强训练减少了训练时间以及训练数据的标注成本，针对不同的领域场景单独建立专用阅读理解模型提高了对于单一领域的准确率。

Description

一种阅读理解模型构建方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种阅读理解模型构建方法、装置、电子设备及存储介质。

背景技术

机器阅读理解是指对于给定的问题以及文档，利用模型对问题预测答案。

现有阅读理解模型仅对训练数据进行拆分为训练集、验证集、测试集，训练优化模型。对于不同的领域场景阅读理解需求，仅通过直接增加训练集、验证集、测试集的方式扩大样本数据，使得阅读理解模型对新领域场景具有问答能力，这就导致模型在持续化构建使用过程中对单一领域场景答案的准确率出现波动。而为单一领域专门训练阅读理解模型，又需要花费大量时间，而且标注数据的成本也较高。

发明内容

本发明提供一种阅读理解模型构建方法，用以解决现有技术中阅读理解模型对于单一领域场景准确率较低，为单一领域专门训练阅读理解模型成本较高的缺陷。

第一方面，本发明提供一种阅读理解模型构建方法，包括：

根据第一领域场景数据集，得到第一领域场景的训练集；

根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型；

所述通用阅读理解模型为根据通用领域场景数据集预先训练深度学习模型得到的。

根据本发明提供的一种阅读理解模型构建方法，所述根据第一领域场景数据集，得到第一领域场景的训练集，包括：

确定所述第一领域场景数据集的领域场景类别与第二领域场景数据集的领域场景类别相同，则将所述第一领域场景数据集与第二领域场景数据集合并，得到所述第一领域场景的训练集；其中，所述第二领域场景数据集为已有的领域场景数据。

确定不存在与所述第一领域场景数据的领域场景类别相同的已有领域场景数据集，则将所述第一领域场景数据作为所述第一领域场景的训练集。

根据本发明提供的一种阅读理解模型构建方法，所述确定不存在与所述第一领域场景数据的领域场景类别相同的已有领域场景数据集，将所述第一领域场景数据集作为第一领域场景的训练集之后，还包括：

将所述第一领域场景数据集加入到已有的领域场景数据中。

根据本发明提供的一种阅读理解模型构建方法，所述通用阅读理解模型的获取步骤包括：

获取通用领域场景数据集；

将所述通用领域场景数据集拆分为通用训练集、通用验证集、通用测试集；

根据所述通用训练集、通用验证集、通用测试集，对所述初始深度学习型进行训练验证、测试，得到所述通用阅读理解模型。

根据本发明提供的一种阅读理解模型构建方法，所述通用领域场景数据集是多领域场景阅读理解样本经过数据标注后的数据集合；

所述多领域场景阅读理解样本至少包括问题、文档、答案以及问题与答案所对应的文档位置。

根据本发明提供的一种阅读理解模型构建方法，所述根据所述通用训练集、通用验证集、通用测试集，对所述深度学习型进行训练、验证、测试，得到所述通用阅读理解模型，进一步包括：

根据所述通用训练集对初始深度学习模型进行训练，优化模型的参数；

根据所述通用验证集对训练优化后的深度学习模型进行验证，优化模型的超参数；

根据所述通用测试集对验证优化后的深度学习模型进行测试评估，得到验证优化后的深度学习模型的泛化误差；

确定所述泛化误差小于预设阈值，则取所述验证优化后的深度学习模型为所述通用阅读理解模型。

第二方面，本发明还提供一种阅读理解模型构建装置，包括：

训练集生成模块，用于根据第一领域场景数据集，得到第一领域场景的训练集；

专用阅读理解模型生成模块，用于根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述阅读理解模型构建方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述阅读理解模型构建方法的步骤。

本发明提供的一种阅读理解模型构建方法、装置、电子设备及存储介质，根据第一领域场景数据集，得到第一领域场景的训练集，用于训练通用阅读理解模型；根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型。针对不同的领域场景单独建立专用阅读理解模型提高了对于单一领域的准确率，在通用阅读理解模型的基础上进行增强训练，减少了训练时间以及训练数据的标注成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种阅读理解模型构建方法的流程示意图之一；

图2是本发明提供的通用阅读理解模型的获取方法流程示意图；

图3是本发明提供的通用阅读理解模型的训练方法的示意图；

图4是本发明提供的一种阅读理解模型构建装置的结构示意图；

图5是本发明提供的一种阅读理解模型构建电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明用于多领域场景下的专用阅读理解模型构建，下面结合图1-图5描述本发明。

第一方面，如图1所示，本发明提供的一种阅读理解模型构建方法，包括：

S11、根据第一领域场景数据集，得到第一领域场景的训练集；

S12、根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型；

其中，所述通用阅读理解模型为根据通用领域场景数据集预先训练深度学习模型得到的。

具体地，步骤S11中第一领域场景数据集为新输入的场景数据，本发明是针对多领域场景情况下的专用阅读理解模型构建，因而，需要根据第一领域场景数据集的场景类别获取第一领域场景的训练集，作为专用阅读理解模型的训练依据。

然后，步骤S12以第一领域场景数据的训练集为依据对通用阅读理解模型进行二次训练，得到第一场景模型的专用阅读理解模型。

通用领域场景数据集为涉及多个领域场景的阅读理解问答训练数据，根据领域场景数据集训练深度学习模型得到通用阅读理解模型。通用阅读理解模型可以独立进行阅读理解问答，其适用于多个领域场景，泛化能力较强，但是对于单一领域场景而言，由于受到训练数据集中其他领域场景数据的训练数据影响，通用阅读理解模型对于该单一领域场景的问答准确率有限。

根据第一领域场景数据的训练集对通用阅读理解模型做二次训练，强化模型对第一领域场景的问答能力，提高准确率，得到第一领域场景的专有阅读理解模型。

可以理解的是第一领域场景可以是通用领域场景数据集涉及的多个领域场景中的一个，也可以是通用领域场景数据集涉及的多个领域场景的相关领域，这样就有了“增强”的基础。举例来说，通用领域场景集数据涉及熔断器、接触器、PLC、警报器，第一领域场景可以是变频器、变压器等相关领域场景，因为同属于电气电路领域，具有一定的增强学习基础。对于每一获取到的领域场景数据，均以通用阅读理解模型为基础进行二次训练，得到不同领域场景的专用阅读理解模型。

本发明根据第一领域场景数据集，得到第一领域场景的训练集，用于训练通用阅读理解模型；根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型。针对不同的领域场景单独建立专用阅读理解模型提高了对于单一领域的准确率，在通用阅读理解模型的基础上进行增强训练，减少了训练时间以及训练数据的标注成本。

本发明的一个实施例中，所述根据第一领域场景数据集，得到第一领域场景的训练集，包括：确定所述第一领域场景数据集的领域场景类别与第二领域场景数据集的领域场景类别相同，则将所述第一领域场景数据集与第二领域场景数据集合并，得到所述第一领域场景的训练集；其中，所述第二领域场景数据集为已有的领域场景数据。

具体地，确定第一领域场景数据集的领域场景类别与第二领域场景数据集的领域场景类别相同（第二领域场景数据集为已有的领域场景数据），意味着第一领域场景为已有的分类，该分类已有对应的领域场景数据集。这时需要将二者的领域场景分类集数据合并，作为该领域场景分类的训练集用于对通用阅读理解模型进行二次训练。

本实施例通过确定第一领域场景数据集的领域场景类别与第二领域场景数据集的领域场景类别相同，则将第一领域场景数据集与第二领域场景数据集合并，得到所述第一领域场景的训练集。扩大了第一领域场景的训练数据量，提升了专用阅读理解模型回答的准确率。

在本发明的一个实施例中，确定所述第一领域场景数据集的领域场景类别与第二领域场景数据集的领域场景类别相同，则根据所述第一领域场景数据对第二领域场景的专用阅读理解模型进行增强训练，得到第二领域场景的优化的专用阅读理解模型。

相比于上一实施例，由于训练阅读理解模型使用的总的数据集相同，最终得到的专用阅读理解模型也是相同的，但是本实施例直接根据第一领域场景数据集以第二领域场景的专用阅读理解模型为基础进行增强训练，节省了训练时间。

本发明的一个实施例中，所述根据第一领域场景数据集，得到第一领域场景的训练集，包括：确定不存在与所述第一领域场景数据的领域场景类别相同的已有领域场景数据集，则将所述第一领域场景数据作为所述第一领域场景的训练集。

具体地，确定不存在与第一领域场景数据的领域场景类别相同的已有领域场景数据集，意味着该第一领域场景为新的领域场景类别，这时需要在通用阅读理解模型的基础上重新构建第一领域场景的专用阅读理解模型，因此直接以第一领域场景数据集作为第一领域场景的训练集。本实施例在第一领域场景为新领域场景的情况下，以通用阅读理解模型为基础为第一领域场景构建了专用阅读理解模型，节省了模型训练所花费的时间，以及获取训练数据的成本。

本发明的一个实施例中，所述确定不存在与所述第一领域场景数据的领域场景类别相同的已有领域场景数据集，将所述第一领域场景数据集作为第一领域场景的训练集之后，还包括：将所述第一领域场景数据集加入到已有的领域场景数据中。

具体地，在为第一领域场景数据生成专用阅读理解模型后，还需要将第一领域场景数据集加入到已有的领域场景数据中。以便于后续接收新的领域场景数据后进行检测、合并或新建等操作。例如后续接收新的领域场景数据与加入到已有领域场景数据中的第一领域场景数据集类别相同，则将接收到的新的领域场景数据加入到该第一领域场景数据集中。

本实施例通过将所述第一领域场景数据集加入到已有的领域场景数据中，便于场景数据集管理以及后续领域场景数据检测等操作，同时扩充丰富了领域场景数据。

如图2所示，本发明的一个实施例中，所述通用阅读理解模型的获取步骤包括：

S21、获取通用领域场景数据集。

其中，通用领域场景数据集为涉及多个领域场景的领域场景数据集，用于训练初始训练深度学习模型，涉及多个领域场景的目的在于使得问答模型提升泛化能力，具备“通用性”。

S22、将所述通用领域场景数据集拆分为通用训练集、通用验证集、通用测试集。

将通用领域场景数据集进行上述拆分是为了防止模型过拟合，降低泛化误差。对通用领域场景数据集拆分的具体比例，可以根据通用领域场景数据的总数量按需求设置。

S23、根据所述通用训练集、通用验证集、通用测试集，对所述初始深度学习型进行训练、验证、测试，得到所述通用阅读理解模型。

本实施例利用通用领域场景数据集训练初始深度学习模型得到了对于多个领域场景具备问答能力的通用阅读理解模型作为基础模型，节省了专用阅读理解模型的训练时间及获取训练数据的成本。

本发明的一个实施例中，所述通用领域场景数据集是多领域场景阅读理解样本经过数据标注后的数据集合；所述多领域场景阅读理解样本至少包括问题、文档、答案以及问题与答案所对应的文档位置。

其中，数据标注是给阅读理解样本加标签，标签表征了阅读理解样本问答相关属性，通过标注后的数据对初始深度学习模型进行训练得到对相关领域场景问题具有问答能力的通用阅读理解模型。

举例来说，标注内容可以为领域、场景、问题内容、答案内容等属性，如问题 “施耐德EA9AN（20A）断路器的价格”标注为“品牌型号规格产品价格”，答案 “EA9AN（20A）价格为80元，出现在‘施耐德EA9AN产品手册’文档第3页第2段”标注为“型号规格价格价格值货币文档位置 ”，通过将文档、标注的问题输入初始深度学习模型，并根据标注答案、文档位置校正初始深度学习模型，训练得到通用阅读理解模型。

本实施例中的通用领域场景数据集是多领域场景阅读理解样本经过数据标注后的数据集合，便于进行模型训练。通过多领域场景阅读理解样本至少包括问题、文档、答案以及问题与答案所对应的文档位置，使得训练后的通用阅读理解模型能够根据输入的问题、文档，推理出问题的答案，并匹配给出问题与答案所在文档的位置，提升了答案的可读性。

本发明的一个实施例中，所述根据所述通用训练集、通用验证集、通用测试集，对所述深度学习型进行训练验证、测试，得到所述通用阅读理解模型，进一步包括：S231、根据所述通用训练集对初始深度学习模型进行训练，优化模型的参数；S232、根据所述通用验证集对训练优化后的深度学习模型进行验证，优化模型的超参数；S233、根据所述通用测试集对验证优化后的深度学习模型进行测试评估，得到验证优化后的深度学习模型的泛化误差；S234、确定所述泛化误差小于预设阈值，则取所述验证优化后的深度学习模型为所述通用阅读理解模型。

具体地，S231根据所述通用训练集对初始深度学习模型进行训练，优化模型的参数，使得模型具备学习能力；S232根据通用验证集对训练优化后的深度学习模型进行验证，优化模型的超参数，验证集的作用是为了防止模型在训练集上过拟合，即防止模型过多学到训练集上特有的特征。其中，超参数可以包含正则化参数、神经网络的层数、每一隐含层中神经元的个数等；S233通用测试集用于测试模型的性能；S234确定所述泛化误差小于预设阈值，则取所述验证优化后的深度学习模型为所述通用阅读理解模型，即选择泛化能力更优的模型作为通用阅读理解模型。

本实施例中利用通用训练集、通用验证集、通用测试集优化初始深度学习模型，筛选出了泛化能力更优的通用阅读理解模型。

在本发明的另外一系列实施例中，专用阅读理解模型的训练方法参照上述通用阅读理解模型的训练方法，此处不再赘述。

下面对本发明提供的一种阅读理解模型构建装置进行描述，下文描述的阅读理解模型构建装置与上文描述的阅读理解模型构建方法可相互对应参照。

第二方面，如图4所示，本发明提供的一种阅读理解模型构建装置包括：训练集生成模块41、专用阅读理解模型生成模块42.

其中，练集生成模块41用于根据第一领域场景数据集，得到第一领域场景的训练集；专用阅读理解模型生成模块42，用于根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型；所述通用阅读理解模型为根据通用领域场景数据集预先训练深度学习模型得到的。

本实施例根据第一领域场景数据集，得到第一领域场景的训练集，用于训练通用阅读理解模型；根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型。针对不同的领域场景单独建立专用阅读理解模型提高了对于单一领域的准确率，在通用阅读理解模型的基础上进行增强训练，减少了训练时间以及训练数据的标注成本。

第三方面，图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行一种阅读理解模型构建方法，该方法包括：根据第一领域场景数据集，得到第一领域场景的训练集；根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型；所述通用阅读理解模型为根据通用领域场景数据集预先训练深度学习模型得到的。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的一种阅读理解模型构建方法，该方法包括：根据第一领域场景数据集，得到第一领域场景的训练集；根据所述第一领域场景的训练集，对通用阅读理解模型做二次训练，得到所述第一领域场景的专用阅读理解模型；所述通用阅读理解模型为根据通用领域场景数据集预先训练深度学习模型得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种阅读理解模型构建方法，其特征在于，包括：

根据第一领域场景数据集，得到第一领域场景的训练集；

所述通用阅读理解模型为根据通用领域场景数据集预先训练深度学习模型得到的；

所述通用领域场景数据集是多领域场景阅读理解样本经过数据标注后的数据集合；

所述多领域场景阅读理解样本包括问题、文档、答案以及问题与答案所对应的文档位置；

所述根据第一领域场景数据集，得到第一领域场景的训练集，包括：

确定不存在与所述第一领域场景数据的领域场景类别相同的已有领域场景数据集，则将所述第一领域场景数据作为所述第一领域场景的训练集；

将所述第一领域场景数据集加入到已有的领域场景数据中。

2.根据权利要求1所述的阅读理解模型构建方法，其特征在于，所述根据第一领域场景数据集，得到第一领域场景的训练集，包括：

3.根据权利要求1所述的阅读理解模型构建方法，其特征在于，所述通用阅读理解模型的获取步骤包括：

获取通用领域场景数据集；

根据所述通用训练集、通用验证集、通用测试集，对初始深度学习模型进行训练验证、测试，得到所述通用阅读理解模型。

4.根据权利要求3所述的阅读理解模型构建方法，其特征在于，所述根据所述通用训练集、通用验证集、通用测试集，对所述深度学习模型进行训练、验证、测试，得到所述通用阅读理解模型，进一步包括：

5.一种阅读理解模型构建装置，其特征在于，包括：

训练集生成模块，用于根据第一领域场景数据集，得到第一领域场景的训练集；所述根据第一领域场景数据集，得到第一领域场景的训练集，包括：确定不存在与所述第一领域场景数据的领域场景类别相同的已有领域场景数据集，则将所述第一领域场景数据作为所述第一领域场景的训练集；将所述第一领域场景数据集加入到已有的领域场景数据中；

所述多领域场景阅读理解样本包括问题、文档、答案以及问题与答案所对应的文档位置。

6.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述阅读理解模型构建方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述阅读理解模型构建方法的步骤。