CN112906366B

CN112906366B - 基于albert的模型构建方法、装置、系统及介质

Info

Publication number: CN112906366B
Application number: CN202110134355.XA
Authority: CN
Inventors: 杨瑞兴; 周洋纲; 薛鹏
Original assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Current assignee: Shenzhen ZNV Technology Co Ltd; Nanjing ZNV Software Co Ltd
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2023-07-07
Anticipated expiration: 2041-01-29
Also published as: CN112906366A

Abstract

本申请公开了一种基于ALBERT的模型构建方法、装置、系统及介质，该方法包括：获取古文数据集，基于古文数据集确定对应的训练数据集；基于ALBERT模型对训练数据集进行模型预训练，得到古文领域的预训练模型；基于ALBERT模型和标点训练集对预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型。本申请基于ALBERT模型进行构建古文标点模型，从而得到高精度的古文标点模型，再通过该高精度的古文标点模型对古文数据进行标点，从而提升了古文数据的标点准确率和标点效率。

Description

基于ALBERT的模型构建方法、装置、系统及介质

技术领域

本申请涉及模型构建和古文断句标点领域，尤其涉及一种基于ALBERT的模型构建方法、装置、系统及介质。

背景技术

古汉语和现代汉语差异较大，古文通常没有断句和标点符号，比较晦涩难懂，这也给古文研究带来了较大的挑战。目前，古文标点的方式主要是人工断句标点方式和人工智能标点方式。

人工断句标点方式进行标点时，不仅要求标点人员具备专业的知识背景，还需要消耗大量的时间和精力，同时，面对海量的没有标点的古文，很难在短期时间内完成古文的断句标点任务。

人工智能标点方式主要是自然语言处理(NaturalLanguageProcessing，NLP)，统计学习模型的进步使得基于大规模古文资料的自然语言处理技术发展迅速。人们开始尝试将统计学方法应用于古文自动断句标点任务。早期人们所采用传统的统计学习方法，例如规则方法、n-gram、条件随机场(ConditionalRandomFields，CRF)等，这些方法都需要人为设计特征，比较依赖先验知识，因此模型规模和表达力都比较有限。

发明内容

本申请的主要目的在于提供一种基于ALBERT的模型构建方法、装置、系统及介质，旨在构建高精度的古文标点模型，以及提升古文数据的标点准确率和标点效率。

为实现上述目的，本申请实施例提供一种基于ALBERT的模型构建方法，所述ALBERT为A Lite BERT模型，所述基于ALBERT的模型构建方法包括：

获取古文数据集，基于所述古文数据集确定对应的训练数据集；

基于ALBERT模型对所述训练数据集进行模型预训练，得到古文领域的预训练模型；

基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型。

可选地，所述标点训练集包括标号集和点号集，所述基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练的步骤包括：

基于所述ALBERT模型和所述训练数据集的文本对所述训练数据集中的各个文字进行分类，得到各个类型的文字；

通过所述ALBERT模型中的ALBERT分类方法输出各个类型的文字对应的标号或/和点号，以对所述预训练模型进行模型微调训练。

可选地，所述基于所述古文数据集确定对应的训练数据集的步骤包括：

将所述古文数据集中带有标点的古文数据按照预设比例进行划分，得到带有标点古文数据的训练数据集。

可选地，所述基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型的步骤之后，还包括：

将待测试古文数据输入至所述古文标点模型中，通过所述古文标点模型中的预设滑动窗口方式对所述待测试古文数据进行截断，得到各个重叠区的古文数据；

基于所述古文标点模型将各个所述重叠区的古文数据进行标点处理，得到各个所述重叠区对应的第一输出古文数据；

将各个所述第一输出古文数据进行数据合并，得到所述待测试古文数据对应的第二输出古文数据，基于所述第二输出古文数据确定目标输出古文数据。

可选地，所述基于所述第二输出古文数据确定目标输出古文数据的步骤包括：

检测在所述第二输出古文数据中是否存在前后不匹配的标点；

若检测到在所述第二输出古文数据中不存在前后不匹配的标点，则将所述第二输出古文数据确定为所述待测试古文数据对应的目标输出古文数据。

可选地，所述检测在所述第二输出古文数据中是否存在前后不匹配的标点的步骤之后，还包括：

若检测到在所述第二输出古文数据中存在前后不匹配的标点，则删除所述前后不匹配的标点；

将删除前后不匹配的标点的第二输出古文数据确定为所述目标输出古文数据。

可选地，所述基于所述第二输出古文数据确定目标输出古文数据的步骤之后，还包括：

获取不带标点的古文数据，并将所述不带标点的古文数据输入至古文标点模型中，基于所述古文标点模型对所述不带标点的古文数据进行全文标点，得到对应的第一验证数据；

确定所述不带标点的古文数据基于人工标点的第二验证数据，基于所述第一验证数据和所述第二验证数据确定差异标点的个数；

基于所述差异标点的个数对所述古文标点模型进行模型评估。

本申请实施例还提供一种基于ALBERT的模型构建装置，所述基于ALBERT的模型构建装置包括：

获取模块，用于获取古文数据集；

确定模块，用于基于所述古文数据集确定对应的训练数据集；

训练模块，用于基于ALBERT模型对所述训练数据集进行模型预训练，得到古文领域的预训练模型；

所述训练模块还用于基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练；

所述确定模块还用于将模型微调训练后的模型确定为古文标点模型。

本申请实施例还提供一种模型构建系统，所述模型构建系统包括存储器、处理器和存储在所述存储器上并在所述处理器上运行的基于ALBERT的模型构建程序，所述基于ALBERT的模型构建程序被所述处理器执行时实现如上所述的基于ALBERT的模型构建方法的步骤。

本申请实施例还提供一种介质，所述介质上存储有基于ALBERT的模型构建程序，所述基于ALBERT的模型构建程序被处理器执行时实现如上所述的基于ALBERT的模型构建方法的步骤。

本申请实施例提供的基于ALBERT的模型构建方法、装置、系统及介质，通过获取古文数据集，基于古文数据集确定对应的训练数据集；基于ALBERT模型对训练数据集进行模型预训练，得到古文领域的预训练模型；基于ALBERT模型和标点训练集对预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型。由此可知，本申请通过ALBERT模型对训练数据集进行模型预训练，再通过ALBERT模型和标点训练集对预训练模型进行模型微调训练，从而构建古文标点模型，得到高精度的古文标点模型，通过该高精度的古文标点模型对古文数据进行标点，提升了古文数据的标点准确率和标点效率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的系统结构示意图；

图2是本申请基于ALBERT的模型构建方法第一实施例的流程示意图；

图3是本申请基于ALBERT的模型构建方法另一实施例的流程示意图；

图4是本申请基于ALBERT的模型构建方法预设滑动窗口方式处理的流程示意图；

图5是本申请基于ALBERT的模型构建方法另一实施例的流程示意图；

图6是本申请基于ALBERT的模型构建方法功能实现的流程示意图；

图7是本申请基于ALBERT的模型构建装置的功能模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例的主要解决方案是：获取古文数据集，基于古文数据集确定对应的训练数据集；基于ALBERT模型对训练数据集进行模型预训练，得到古文领域的预训练模型；基于ALBERT模型和标点训练集对预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型。由此可知，本申请通过ALBERT模型对训练数据集进行模型预训练，再通过ALBERT模型和标点训练集对预训练模型进行模型微调训练，从而构建古文标点模型，得到高精度的古文标点模型，通过该高精度的古文标点模型对古文数据进行标点，提升了古文数据的标点准确率和标点效率。

具体地，参照图1，图1为本申请实施例方案涉及的硬件运行环境的系统结构示意图。

本申请实施例的系统可以为具有数据处理功能的模型构建系统或服务器。

如图1所示，该系统可以为模型构建系统，模型构建系统可以包括：处理器1001，例如CPU(CentralProcessingUnit，中央处理器)，存储器1005，用户接口1003，网络接口1004，通信总线1002。通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(board)，用户接口1003可选的还可以包括标准的有线接口(如USB(UniversalSerialBus，通用串行总线)接口)、无线接口(如蓝牙接口)。网络接口1004可以包括标准的有线接口、无线接口(如WI-FI((Wireless-Fidelity))接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地，系统还可以包括RF(RadioFrequency，射频)电路，传感器、WiFi模块等。

本领域技术人员可以理解，图1的系统结构并不构成对系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种介质(需要说明的是，本申请的介质为一种计算机可读存储介质)的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于ALBERT的模型构建程序。其中，操作系统是管理和控制系统硬件和软件资源的程序，支持基于ALBERT的模型构建程序以及其它软件或程序的运行。

在图1所示的系统中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端，与客户端进行数据通信；其中，处理器1001可以用于调用存储器1005中存储的基于ALBERT的模型构建程序，并执行如下操作：

进一步地，处理器1001可以调用存储器1005中存储的基于ALBERT的模型构建程序，还执行以下操作：

基于上述的系统架构但不限于上述架构，本申请实施例提供了基于ALBERT的模型构建方法的实施例。

需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些数据下，可以以不同于此处的顺序完成所示出或描述的步骤。

本申请本实施例方法的执行主体可以是一种基于ALBERT的模型构建装置，也可以是一种模型构建系统或服务器，本实施例以模型构建系统作为执行主体进行举例。

参照图2，图2为本申请基于ALBERT的模型构建方法第一实施例的流程示意图。所述基于ALBERT的模型构建方法包括:

步骤S10，获取古文数据集，基于所述古文数据集确定对应的训练数据集。

在需要构建古文标点模型时，模型构建系统首先需要在互联网的搜索文库中获取大量的古文资料作为古文标点模型训练的古文数据集，其中，搜索文库包括但不限制于百度文库、中国知网文库和360文库，古文资料中包含带标点的古文资料和不带标点的古文资料。由于在互联网的搜索文库中获取到的古文资料的质量参差不齐，因此模型构建系统需要对获取到的古文资料进行归并，将带有标点的古文资料按照一定比例进行数据集划分，从而得到训练古文标点模型的训练数据集和测试数据集。

需要说明的是，训练数据集用于古文标点模型的模型训练，模型训练包括模型预训练和模型微调训练。测试数据集用于测试古文标点模型的模型精度，因此，测试数据集不参与模型预训练和模型微调训练。除了在带有标点的古文资料中选择一定比例的古文数据作为测试数据集之外，本实施例还在不带有标点的古文资料中随机筛选出若干篇章古文数据，并将这些篇章古文数据作为测试数据集。进一步，为了得到更加精确的古文标点模型，本实施例需要从专业古文文库中获取古文资料作为训练数据集和测试数据集。

进一步地，所述步骤S10包括：

步骤S101，将所述古文数据集中带有标点的古文数据按照预设比例进行划分，得到带有标点古文数据的训练数据集。

具体地，模型构建系统将带有标点的古文资料按照预设比例进行数据集划分，从而得到训练古文标点模型的带有标点古文数据的训练数据集和测试数据集，其中，预设比例为训练数据集：测试数据集＝8：2。可以理解为，若获取到100篇带标点的古文资料，则将80篇古文资料作为训练古文标点模型的带有标点古文数据的训练数据集，20篇古文资料训练古文标点模型的带有标点古文数据的测试数据集。

步骤S20，基于ALBERT模型对所述训练数据集进行模型预训练，得到古文领域的预训练模型。

需要说明的是，本实施例中的ALBERT模型即为ALite BERT模型，不是Google(谷歌)开源的中文预训练ALBERT模型，而是Google开源未处理的ALBERT模型。本实施例中的ALBERT模型主要是对BERT模型做了进一步的改进，首先，在BERT模型中，词嵌入大小E和隐藏层大小H是相等的，因此词典大小V非常庞大，若词嵌入大小E恒等于隐藏层大小H，则增加隐藏层大小H将直接加大词嵌入矩阵O(V×H)的大小，除此之外，这种增加还会通过词典大小V进行放大。ALBERT模型对词嵌入大小E进行因式分解，将大的词嵌入矩阵O(V×H)分解为两个小的词嵌入矩阵O(V×E+E×H)，从而将隐藏层大小H与词嵌入大小E分离。其次，ALBERT模型提出隐藏层大小H共享机制，在ALBERT模型中，全连接层的参数和注意力层的参数均是共享的，即ALBERT模型有多层的深度连接，但是各层之间的参数是一样的。

ALBERT模型和BERT模型的数据处理方式类似，即将古文资料中的句子按照行放置，每句放置一行，文档段落按照空行分割开。在数据处理时，模型算法会在各个句子打上MASK标签和片段标签，其中，MASK标签用于判断上下文当前词是否恰当，片段标签用户判断上下文是否连续。

模型构建系统将训练数据集中的所有古文资料输入至ALBERT模型中，通过ALBERT模型对训练数据集进行模型预训练，得到基于以上所有训练数据集而得到的高质量的古文领域的预训练模型。

进一步地，在模型预训练完成之后，输出训练数据集中的所有古文资料对应的古文字向量，然后通过对所有古文字向量进行学习，从而更有利于接下来的模型微调训练。需要说明的是，古文字向量即ALBERT模型根据古文资料中各个字和句子，将古文资料中的各个句子转化为对应的二进制向量。

步骤S30，基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型。

需要说明的是，对于模型微调训练也即标点任务，就是将带标点的古文资料处理成序列标注所需要的数据集样式。当前模型的标点仅限于点号，即{(，)、(。)、(、)、(？)、(！)、(；)、(：)}7种标点，对应的分类类别为{(B_，)、(I_，)、(B_。)、(I_。)、(B_、)、(I_、)、(B_？)、(I_？)、(B_！)、(I_！)、(B_；)、(I_；)、(B_：)、(I_：)}14种，不存在标点组合的情况。其中，B表示句子开头，I表示句子内部。句子标点标注为标点之前的短句标注为该标点类型，比如句子“天之苍苍，其正色邪？”，该句子标点标注为[B_，][I_，][I_，][I_，][B_？][I_？][I_？][I_？]。

为了满足古文标点更大限的需求，本实施例对ALBERT模型中的标点训练集进行扩展，将标点训练集扩展到了标号集和点号集，标号集包括但不限制于双引号(“)、(”)、书名号(《)、(》)、单引号(‘)，括号，连接号(-、～)和间隔号(·)，本实施例添加的标号有引号和书名号两种标号类型，因此会存在点号和标号的组合，例如(：“)、(。”)、(？”)等。因此标注的类别也会大量的增加。需要说明的是，从所有的训练数据集中提取了需要识别的标点类别，共有256种，由于类别数量在1000以内，因此没有对数量比较少的类型进行去除，直接采用所有类别进行训练，从而将ALBERT模型中的标点训练集进行扩展。

模型构建系统通过模型预训练得到预训练模型后，通过标点扩展后的ALBERT模型根据训练数据集中古文资料的文本将每个文字进行分类，然后再通过标点扩展后的ALBERT模型中的分类方式对古文资料中的文字标点进行重新编排标点，从而完成对预训练模型的模型微调训练，最后将模型微调训练后的预训练模型作为古文资料标点的古文标点模型。

进一步地，由于本实施例采用ALBERT模型，而没有采用ALBERT+CRF架构或者ALBERT+BiLSTM+CRF架构，因此为了避免序列标注任务中的独立性假设和可能出现的标记偏执情况，本实施例对标注方式进行了更改，去掉了上述标注方式中的“I”相关结构，只保留“B”，表示在该文字后存在标点符号，没有标点的标注为“O”，例如句子“天之苍苍，其正色邪？”，在没有进行模型微调训练之前，它的标点标注为[B_，][I_，][I_，][I_，][B_？][I_？][I_？][I_？]，在经过模型微调训练之后，它的标点标注为[O][O][O][B_，][O][O][O][B_？]。

此外，句子开头也会有标点符号的存在，例如句子“《百家姓》出《兔园集》，乃宋初钱唐老儒所作。”以书名号开头。因此为了适配这种情况，默认在句子开头添加“#”字符，如果句子起始存在符号则标注为“B_{符号}”，没有的标注为“O”。因此句子“《百家姓》出《兔园集》，乃宋初钱唐老儒所作。”的句子变成“#百家姓出兔园集乃宋初钱唐老儒所作”，其标注为[B_《][O][O][B_》][B_《][O][O][B_》，][O][O][O][O][O][O][O][O][B_。]。

进一步地，所述步骤S30，基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练包括：

步骤S301，基于所述ALBERT模型和所述训练数据集的文本对所述训练数据集中的各个文字进行分类，得到各个类型的文字；

步骤S302，通过所述ALBERT模型中的ALBERT分类方法输出各个类型的文字对应的标号或/和点号，以对所述预训练模型进行模型微调训练。

具体地，模型构建系统通过标点扩展后的ALBERT模型根据训练数据集中古文资料的文本将每个文字进行分类，然后再通过标点扩展后的ALBERT模型中的ALBERT分类方式对古文资料中的文字标点进行重新编排标点，输出各个类型的文字对应的标号或/和点号，从而完成对预训练模型的模型微调训练。为了更好的理解，在本实施例中举例说明，比如，在某古文资料中的有一句文字为“凡上之赐予亦如之。”，在没有进行模型微调训练之前，它的标点标注为[B_。][I_。][I_。][I_。][I_。][I_。][I_。][I_。]，在模型微调训练时，ALBERT模型认为“亦”字可能为另一句的开头，则先将“凡上之赐予亦如之。”微调为“凡上之赐予，亦如之。”，再进行重新编排标点，最后的标点标注为[O][O][O][O][B_，][O][O][B_。]。

本实施例实现通过获取古文数据集，基于古文数据集确定对应的训练数据集；基于ALBERT模型对训练数据集进行模型预训练，得到古文领域的预训练模型；基于ALBERT模型和标点训练集对预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型。由此可知，本实施例通过ALBERT模型对训练数据集进行模型预训练，再通过ALBERT模型和标点训练集对预训练模型进行模型微调训练，从而构建古文标点模型，得到高精度的古文标点模型，通过该高精度的古文标点模型对古文数据进行标点，提升了古文数据的标点准确率和标点效率。

参照图3，图3为本申请基于ALBERT的模型构建方法另一实施例的流程示意图。基于上述图2所示的实施例，在本实施例中，在上述步骤S30之后，还包括：

步骤S40，将待测试古文数据输入至所述古文标点模型中，通过所述古文标点模型中的预设滑动窗口方式对所述待测试古文数据进行截断，得到各个重叠区的古文数据。

模型构建系统在构建完成古文标点模型之后，获取测试数据集中的待测试古文数据，并将待测试古文数据输入至古文标点模型中。需要说明的是，一篇古文的长度不限，既存在短段落，也存在长段落，甚至存在超长段落，但是古文标点模型处理的长度一般不会太长，目前在序列标注等问题中，处理最大长度为512字符。如果古文标点模型要预测数千乃至数万字符的超长段落时，无法一次性将整个段落一次性处理，则需要训练更长序列长度的古文标点模型，这样硬件很难满足要求，时间也要更长。因此将长段落进行截断处理是一个必要的过程。截断之后，对于截断处的标点会因序列文本内容的不完整而产生错误，因此前后两次截断需要添加重叠区以避免该错误。

参照图4，图4是本申请基于ALBERT的模型构建方法预设滑动窗口方式处理的流程示意图。本实施例将古文标点模型处理的最大序列长度设置成128个字符，并且古文中的句子通常不会超过32个字符，因此本实施例的预设滑动窗口方式采用的是固定重叠区长度，重叠区长度设置成64个字符。对于处理结果，每次只取中间的64个字符，只有第一个窗口和最后一个窗口取96个字符，因此，古文标点模型可以一次性将全篇章古文进行批量处理。需要说明的是，古文标点模型可处理的最大批次数量设置成32，因此单批次可以处理古文的最大字符数为2112字符。

步骤S50，基于所述古文标点模型将各个所述重叠区的古文数据进行标点处理，得到各个所述重叠区对应的第一输出古文数据；

步骤S60，将各个所述第一输出古文数据进行数据合并，得到所述待测试古文数据对应的第二输出古文数据，基于所述第二输出古文数据确定目标输出古文数据。

在通过古文标点模型中的预设滑动窗口方式对待测试古文数据进行截断，得到各个重叠区后，古文标点模型对每一个重叠区中的古文数据进行标点处理，在标点完成之后，古文标点模型输出每个重叠区中标点之后的古文数据(第一输出古文数据)。接着，模型构建系统将所有的第一输出古文数据按照截断的顺序进行数据合并，得到待测试古文数据经过古文标点模型新的标点后的古文数据(第二输出古文数据)。最后，模型构建系统对第二输出古文数据中异常标点进行排查与处理，从而得到待测试古文数据最终的目标输出古文数据。

进一步地，所述步骤S60，基于所述第二输出古文数据确定目标输出古文数据包括：

步骤S601，检测在所述第二输出古文数据中是否存在前后不匹配的标点；

步骤S602，若检测到在所述第二输出古文数据中不存在前后不匹配的标点，则将所述第二输出古文数据确定为所述待测试古文数据对应的目标输出古文数据；

步骤S603，若检测到在所述第二输出古文数据中存在前后不匹配的标点，则删除所述前后不匹配的标点；

步骤S604，将删除前后不匹配的标点的第二输出古文数据确定为所述目标输出古文数据。

由于标点的存在，特别的是本实施例中需要识别双引号和书名号，因此存在标点的匹配等问题。例如，例如只有左引号没有右引号，只有左书名号没有右书名，部分点号应该在引号内(”，)等等问题。通过统计大部分问题都是标号左右不匹配，因此本实施例对于左右不匹配的标号进行删除。

具体地，模型构建系统检测在第二输出古文数据中是否存在前后不匹配的标点，若模型构建系统检测到在第二输出古文数据中不存在前后不匹配的标点，模型构建系统则将第二输出古文数据确定为待测试古文数据对应的目标输出古文数据。若模型构建系统检测到在第二输出古文数据中存在前后不匹配的标点，模型构建系统则删除该前后不匹配的标点，然后再把删除前后不匹配的标点的第二输出古文数据确定为目标输出古文数据。

在本实施例中，比如，第二输出古文数据中古文句子为[O][O][O][O][O][O][O][B_，][O][O][O][O][O][B_。》]，而前面的句子中没有出现(《)，模型构建系统则删除(》)，即得到修改后的为[O][O][O][O][O][O][O][B_，][O][O][O][O][O][B_。]。

本实施例实现通过将待测试古文数据输入至古文标点模型中，通过古文标点模型中的预设滑动窗口方式对待测试古文数据进行截断，得到各个重叠区的古文数据；基于古文标点模型将各个重叠区的古文数据进行标点处理，得到各个重叠区对应的第一输出古文数据；将各个第一输出古文数据进行数据合并，得到待测试古文数据对应的第二输出古文数据，基于第二输出古文数据确定目标输出古文数据。由此可知，本实施例通过采用固定重叠区长度的滑动窗口方式对整篇古文进行标点，从而能够一次性的将全篇章数据截断并输入至古文标点模型中做批量识别标点，再对重叠区的标点做一次合并筛选，最后对合并后的古文进行异常纠错，大大提升古文处理效率和标点正确率。

参照图5，图5为本申请基于ALBERT的模型构建方法另一实施例的流程示意图。基于上述图3所示的实施例，在本实施例中，在上述步骤S60之后还包括：

步骤S70，获取不带标点的古文数据，并将所述不带标点的古文数据输入至古文标点模型中，基于所述古文标点模型对所述不带标点的古文数据进行全文标点，得到对应的第一验证数据；

步骤S80，确定所述不带标点的古文数据基于人工标点的第二验证数据，基于所述第一验证数据和所述第二验证数据确定差异标点的个数；

步骤S90，基于所述差异标点的个数对所述古文标点模型进行模型评估。

模型构建系统在对带有标点的古文数据进行测试之外，还需要对不带标点的古文数据进行测试，因此，模型构建系统在测试数据集中获取不带标点的古文数据，并将不带标点的古文数据输入至古文标点模型中，古文标点模型对不带标点的古文数据进行全文标点，标点的方法为步骤S40至步骤S60的方法，本实施例不再累赘说明，在标点完成之后，输出不带标点的古文数据对应的第一验证数据。接着，模型构建系统确定该不带标点的古文数据对人工标引后的第二验证数据，即普通古籍专业人员(具有古文相关专业本科学历、中等水平的人员)对该不带标点的古文数据进行标点后的第二验证数据，然后以第二验证数据作为对比数据，确定第一验证数据与第二验证数据存在的差异标点的个数，将差异标点的个数和全部标点的个数求商确定标点标点差异率，最后根据标点差异率对古文标点模型的精确率进行评估。在本实施例中，一共选取了8篇不带标点的测试古文数据，共7062个字符，通过古文标点模型标点后有1313处标点，通过与人工标引比较，二者共有203处差异标点，标点差异率为15.4％。其中，差异标点又可以分为一级差异标点和二级差异标点，一级差异标点认定古文标点模型标点错误，二级差异标点认为古文标点模型标点是可接受的，因此如果单纯统计一级差异标点的话，标点差异率将大大降低。

进一步地，本实施例还可以以准确率(P)作为古文标点模型的精确度的评价标准，即P＝TP/(TP+FP)，其中，TP为真正例，FP为假正例，由于缺少公开测试数据集作为评价古文标点模型的标准数据集，因此本实施例在自己构造的测试数据集的基础上对古文标点模型精度做了简单评估，本实施例古文标点模型的模型准确性为75.1％。

本实施例实现通过获取不带标点的古文数据，并将不带标点的古文数据输入至古文标点模型中，基于古文标点模型对不带标点的古文数据进行全文标点，得到对应的第一验证数据；确定不带标点的古文数据基于人工标点的第二验证数据，基于第一验证数据和第二验证数据确定差异标点的个数；基于差异标点的个数对古文标点模型进行模型评估。由此可知，本实施例通过将古文标点模型标点后的不带标点的古文数据与人工标点后的不带标点的古文数据进行比较，确定差异标点的个数，再根据差异标点的个数和全部标点的个数确定标点标点差异率，最后根据标点差异率对古文标点模型的精确率进行评估，从而验证了古文标点模型的泛化能力，以及古文标点模型的实用性。

参照图6，图6为本申请基于ALBERT的模型构建方法功能实现的流程示意图。模型构建系统首先在互联网的搜索文库中获取大量的古文资料作为古文标点模型训练的古文数据集(互联网数据抓取)，然后将带有标点的古文资料按照预设比例进行数据集划分，从而得到训练古文标点模型的训练数据集(模型预训练数据集准备)。模型构建系统将训练数据集中的所有古文资料输入至ALBERT模型中，通过ALBERT模型对训练数据集进行模型预训练，从而得到基于ALBERT模型的古文领域的预训练模型(模型预训练)，接着，通过标点扩展后的ALBERT模型根据训练数据集中古文资料的文本将每个文字进行分类，然后再通过标点扩展后的ALBERT模型中的ALBERT分类方式对古文资料中的文字标点进行重新编排标点，输出各个类型的文字对应的标号或/和点号(序列标注数据集准备)，从而完成对预训练模型的模型微调训练(模型微调)。模型构建系统在构建完成古文标点模型之后，通过预设滑动窗口方式对待测试古文数据进行截断，得到各个重叠区，古文标点模型对每一个重叠区中的古文数据进行标点处理(滑动窗口篇章标点)，然后检测在第二输出古文数据中是否存在前后不匹配的标点，若检测到在第二输出古文数据中不存在前后不匹配的标点，则将第二输出古文数据确定为待测试古文数据对应的目标输出古文数据。若检测到在第二输出古文数据中存在前后不匹配的标点，则删除该前后不匹配的标点(异常标点处理)，然后再把删除前后不匹配的标点的第二输出古文数据确定为目标输出古文数据(结果输出)。

本申请还提供一种基于ALBERT的模型构建装置。参照图7，图7是本申请基于ALBERT的模型构建装置的功能模块示意图。所述基于ALBERT的模型构建装置包括：

获取模块10，用于获取古文数据集；

确定模块20，用于基于所述古文数据集确定对应的训练数据集；

训练模块30，用于基于ALBERT模型对所述训练数据集进行模型预训练，得到古文领域的预训练模型；

所述训练模块30还用于基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练；

所述确定模块20还用于将模型微调训练后的模型确定为古文标点模型。

进一步地，所述训练模块30包括：

第一分类单元，用于基于所述ALBERT模型和所述训练数据集的文本对所述训练数据集中的各个文字进行分类，得到各个类型的文字；

输出单元，用于通过所述ALBERT模型中的ALBERT分类方法输出各个类型的文字对应的标号或/和点号，以对所述预训练模型进行模型微调训练。

进一步地，所述确定模块20包括：

第二分类单元，用于将所述古文数据集中带有标点的古文数据按照预设比例进行划分，得到带有标点古文数据的训练数据集。

进一步地，所述基于ALBERT的模型构建装置还包括：

输入模块，用于将待测试古文数据输入至所述古文标点模型中；

分段模块，用于通过所述古文标点模型中的预设滑动窗口方式对所述待测试古文数据进行截断，得到各个重叠区的古文数据；

处理模块，用于基于所述古文标点模型将各个所述重叠区的古文数据进行标点处理，得到各个所述重叠区对应的第一输出古文数据；

合并模块，用于将各个所述第一输出古文数据进行数据合并，得到所述待测试古文数据对应的第二输出古文数据；

所述确定模块20还用于基于第二输出古文数据确定目标输出古文数据；

检测模块，用于检测在第二输出古文数据中是否存在前后不匹配的标点；

所述确定模块20还用于若检测到在所述第二输出古文数据中不存在前后不匹配的标点，则将所述第二输出古文数据确定为所述待测试古文数据对应的目标输出古文数据；

删除模块，用于若检测到在所述第二输出古文数据中存在前后不匹配的标点，则删除所述前后不匹配的标点；

所述确定模块20还用于将删除前后不匹配的标点的第二输出古文数据确定为所述目标输出古文数据；

所述获取模块10还用于获取不带标点的古文数据；

所述输入模块还用于将所述不带标点的古文数据输入至古文标点模型中，基于所述古文标点模型对所述不带标点的古文数据进行全文标点，得到对应的第一验证数据；

所述确定模块20还用于确定不带标点的古文数据基于人工标点的第二验证数据，基于所述第一验证数据和所述第二验证数据确定差异标点的个数；

评估模块，用于基于所述差异标点的个数对古文标点模型进行模型评估。

其中，上述基于ALBERT的模型构建装置中各个模块的功能实现与上述基于ALBERT的模型构建方法实施例中各步骤相对应，其功能和实现过程在此处不再一一赘述。

本申请还提供一种介质，该介质上存储有基于ALBERT的模型构建程序，所述基于ALBERT的模型构建程序被处理器执行时实现如以上任一项实施例所述的基于ALBERT的模型构建方法的步骤。

本申请介质的具体实施例与上述基于ALBERT的模型构建方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的数据下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多数据下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件货物的形式体现出来，该计算机软件货物存储在一个介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台模型构建系统完成本申请各个实施例所述的方法。

Claims

1.一种基于ALBERT的模型构建方法，其特征在于，所述ALBERT为A Lite BERT模型，所述基于ALBERT的模型构建方法包括以下步骤：

基于ALBERT模型对所述训练数据集进行模型预训练，得到古文领域的预训练模型，所述预训练模型包括所述训练数据集中的古文资料对应的古文字向量，所述古文字向量包括所述ALBERT模型根据所述古文资料中的字和句子，将所述古文资料中的字和句子转化为对应的二进制向量；

基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练，并将模型微调训练后的模型确定为古文标点模型；

将各个所述第一输出古文数据进行数据合并，得到所述待测试古文数据对应的第二输出古文数据，基于所述第二输出古文数据确定目标输出古文数据；

所述基于所述第二输出古文数据确定目标输出古文数据的步骤包括：

若检测到在所述第二输出古文数据中不存在前后不匹配的标点，则将所述第二输出古文数据确定为所述待测试古文数据对应的目标输出古文数据；

若检测到在待输出古文数据中存在前后不匹配的标点，则删除所述前后不匹配的标点；

将删除前后不匹配的标点的待输出古文数据确定为所述目标输出古文数据；

其中，所述基于所述ALBERT模型和标点训练集对所述预训练模型进行模型微调训练的步骤包括：

通过所述ALBERT模型中的ALBERT分类方法对古文资料中的文字标点进行重新编排标点，输出各个类型的文字对应的标号或/和点号，以对所述预训练模型进行模型微调训练。

2.如权利要求1所述的基于ALBERT的模型构建方法，其特征在于，所述基于所述古文数据集确定对应的训练数据集的步骤包括：

3.如权利要求1至2任一项所述的基于ALBERT的模型构建方法，其特征在于，所述基于所述第二输出古文数据确定目标输出古文数据的步骤之后，还包括：

4.一种基于ALBERT的模型构建装置，其特征在于，所述基于ALBERT的模型构建装置包括：

获取模块，用于获取古文数据集；

训练模块，用于基于ALBERT模型对所述训练数据集进行模型预训练，得到古文领域的预训练模型，所述预训练模型包括所述训练数据集中的古文资料对应的古文字向量，所述古文字向量包括所述ALBERT模型根据所述古文资料中的字和句子，将所述古文资料中的字和句子转化为对应的二进制向量；

所述确定模块还用于将模型微调训练后的模型确定为古文标点模型；

所述确定模块还用于将待测试古文数据输入至所述古文标点模型中，通过所述古文标点模型中的预设滑动窗口方式对所述待测试古文数据进行截断，得到各个重叠区的古文数据；

其中，所述训练模块具体用于基于所述ALBERT模型和所述训练数据集的文本对所述训练数据集中的各个文字进行分类，得到各个类型的文字；

5.一种模型构建系统，其特征在于，所述模型构建系统包括存储器、处理器和存储在所述存储器上并在所述处理器上运行的基于ALBERT的模型构建程序，所述基于ALBERT的模型构建程序被所述处理器执行时实现如权利要求1至3中任一项所述的基于ALBERT的模型构建方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于ALBERT的模型构建程序，所述基于ALBERT的模型构建程序被处理器执行时实现如权利要求1至3中任一项所述的基于ALBERT的模型构建方法的步骤。