CN116187163A

CN116187163A - 一种用于专利文件处理的预训练模型的构建方法及系统

Info

Publication number: CN116187163A
Application number: CN202211640990.6A
Authority: CN
Inventors: 裴非; 徐青伟; 严长春; 范娥媚; 蔡明睿
Original assignee: Zhiguagua Tianjin Big Data Technology Co ltd; Beijing Zhiguquan Technology Service Co ltd
Current assignee: Beijing Xinghe Zhiyuan Technology Co ltd; Zhiguagua Tianjin Big Data Technology Co ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-05-30
Anticipated expiration: 2042-12-20
Also published as: CN116187163B

Abstract

本发明公开了一种用于专利文件处理的预训练模型的构建方法，其特征在于，包括模型构建、数据预处理、训练语料生成、辅助训练任务、下游微调任务、模型保存输出的步骤。技术方案通过对文档内部的标题、摘要、权利要求、说明书等各组成部分语义结构关系编码，融合文本字符、位置信息、结构关系生成模型输入，结合掩码语言模型MLM、下一句NSP训练策略和专利领域特定的字词、句子级别的辅助训练任务，通过专利领域的IPC分类、标题预测、摘要预测等任务进行微调，构建专利领域的预训练模型，提升了专利领域中文本检索、理解、解析等任务的整体准确率。

Description

一种用于专利文件处理的预训练模型的构建方法及系统

技术领域

本发明涉及文献检索技术领域，具体涉及一种用于专利文件处理的预训练模型的构建方法及系统。

背景技术

使用自然语言处理技术对专利文本检索进行自动化的分析在专利申请和审核过程中扮演越来越重要的角色，如何实现精准高效的专利文本分析已经成为专利领域中的一项重要工作内容。

预训练模型作为自然语言处理领域的重要突破,已经在几乎所有的文本任务中超越了传统的统计模型，在工业界得到了广泛应用。当前的专利文本处理分析通常基于已有的通用领域的预训练模型实现。但是，专利领域具有专业性强、文本结构复杂、语义内容丰富等特点导致已有的预训练模型的文本理解能力与专利领域文本的深度解析需求之间存在一定的差距。因此，如何基于专利领域的文本语料、融合专利领域先验知识、针对专利处理任务训练领域定制的预训练模型已经俨然成为目前的一项颇具价值的研究内容。

目前常见的预训练模型一般基于通用领域的文本语料进行训练，应用于专利领域时，由于专业术语、应用领域、应用场景的不同，存在下游任务适配性差的问题，导致专利文本理解和分析任务的准确率整体不高。

以专利、论文为代表的专业文本中蕴含了大量的专业性相关的字面、语法和语义信息，如专业词汇、语义相似度、篇章结构关系等，现有的预训练模型大多聚焦于字词和句子共现特征的表示学习，无法有效捕获这些专利文本中蕴含的深层语义信息。

一些改进的预训练模型结合了文档的排版结构信息、显示信息、文字信息作为输入，一定程度上利用了文档的结构化先验知识，增强了模型的表示能力。但是，这些通用的排版结构无法有效表达专利领域的内部组成部分之间的精确语义关系，如说明书中的技术背景、领域技术章节和文档中其他段落之间的逻辑关系缺乏有效表征，导致对于专利文档内部各组成部分的固有语义关系的利用和表达尚有不足。

发明内容

针对现有技术的不足，本发明提供的一种用于专利文件处理的预训练模型的构建方案，以提高中文专利文件的检索、理解、解析等任务的整体准确率。

为了实现上述目的，本发明提供如下技术方案：

本发明一方面提供了一种用于专利文件处理的预训练模型的构建方法，包括模型构建、数据预处理、训练语料生成、辅助训练任务、下游微调任务、模型保存输出的步骤：

所述模型构建是构建以Transformer为基础结构的深度神经网络模型；

所述数据预处理为对专利原始文本进行文档结构解析、格式转换和内容清洗的预处理操作，生成候选数据；

所述训练语料生成为从预处理后的数据抽取相关信息，包括专利文本中的句子及所属章节、字符、位置，将所述预训练样本之中至少部分实体进行掩码和字词变换，生成辅助训练任务和下游微调任务所需的训练语料；

根据生成的训练语料，执行辅助训练任务，包括通用训练任务和针对专利文件的特定训练任务，进行字、词、句的相关预测；

执行针对专利文件的下游微调任务，包括IPC分类、标题分类、摘要分类任务，提取专利文档中已有的IPC分类标签作为标注数据，生成IPC分类训练数据集，对所有专利文档中的标题以预定概率替换为其他专利标题，生成专利标题训练数据集，对所有专利文档中的摘要以预定概率替换为其他专利摘要，生成摘要训练数据集；

所述模型保存输出是选择最优的模型参数、词表、配置进行保存并输出。

其中，模型构建是构建以Transformer为基础结构的深度神经网络模型，输入包括字编码、位置编码、段落编码、结构编码等嵌入式表示向量之和，经过多层transformer的自注意力机制的编码器编码后输出隐藏层向量，作为各辅助训练任务和下游微调任务的输入，其中，字编码、位置编码、段落编码采用Bert原有的机制生成，结构编码采用训练语料生成一节中生成的结构编码表中对应的值。

其中，辅助训练任务通用预训练任务包括Bert模型训练中的全字掩蔽MLM和NSP任务，针对专利文件的特定辅助预训练任务包括字词完整性预测、TF预测、三元组顺序预测、句子完整性预测、段内句子顺序预测、句子距离预测任务。

其中，训练语料生成是从预处理后的数据抽取，所述数据包括专利文本中的字、位置、段落、结构信息，生成模型训练语料；

对于所述模型中输入的字、位置、段落采用与Bert相同的方式进行编码，结构信息通过数据预处理生成；

分别按照各自的预定比率，针对辅助训练任务的MLM和NSP、字词完整性预测、TF预测、三元组顺序预测、句子完整性预测、段内句子顺序预测、句子距离预测任务，以及下游微调任务的IPC分类、标题分类、摘要分类生成对应的训练语料数据集。

更适宜地，辅助训练任务通过两层全连接神经网络(MLP)的分类模型和回归模型实现，回归模型的输出直接采用MLP的输出，通过函数

归一化到0-1区间；分类模型预测值通过模型隐藏层执行softmax函数/>

计算标签的概率分布来计算；交叉熵损失函数采用公式/>

计算，其中，y和/>

分别表示原始真值和模型预测值。

优先地，下游微调任务通过两层全连接神经网络(MLP)的分类器实现，模型预测值通过隐藏层执行softmax函数

计算标签的概率分布来计算；交叉熵损失函数/>

其中，y和/>

分别表示原始真值和模型预测值。

更适宜地，模型保存输出是在pytorch/tensorflow平台上，顺序执行下述任务：

对掩蔽、替换的全词预测、NSP预训练任务对下一句进行预测、字词完整性预测、对归一化的TF值进行预测、三元组顺序预测、句子完整性预测、段内句子顺序预测、句子距离预测、执行IPC多标签多类别预测、对专利文档标题是否执行了随机替换进行预测、对专利文档摘要是否执行了随机替换进行预测；

通过早停(Early Stopping)机制选择每个任务对应的最优模型参数，将模型参数文件、词表、配置信息以统一标准格式进行保存并输出到模型数据库。

另一方面，本发明还提供一种构建用于专利文件处理的预训练模型的系统，包括模型构建单元、数据预处理单元、训练语料生成单元、辅助训练单元、微调单元、模型保存输出单元：

所述模型构建单元，用于构建以Transformer为基础结构的深度神经网络模型；

所述数据预处理元，用于对专利原始文本进行文档结构解析、格式转换和内容清洗的预处理操作，生成候选数据；

所述训练语料生成元，用于从预处理后的数据抽取相关信息，包括专利文本中的句子及所属章节、字符、位置，将所述预训练样本之中至少部分实体进行掩码和字词变换，生成辅助训练任务和下游微调任务所需的训练语料；

辅助训练单元，用于根据生成的训练语料，执行辅助训练任务，包括通用训练任务和针对专利文件的特定训练任务，进行字、词、句的相关预测；

微调单元，用于执行针对专利文件的下游微调任务，包括IPC分类、标题分类、摘要分类任务，提取专利文档中已有的IPC分类标签作为标注数据，生成IPC分类训练数据集，对所有专利文档中的标题以预定概率替换为其他专利标题，生成专利标题训练数据集，对所有专利文档中的摘要以预定概率替换为其他专利摘要，生成摘要训练数据集；

所述模型保存输出单元，用于选择最优的模型参数、词表、配置进行保存并输出。

其中，模型构建单元，用于构建以Transformer为基础结构的深度神经网络模型，输入包括字编码、位置编码、段落编码、结构编码等嵌入式表示向量之和，经过多层transformer的自注意力机制的编码器编码后输出隐藏层向量，作为各辅助训练任务和下游微调任务的输入，其中，字编码、位置编码、段落编码采用Bert原有的机制生成，结构编码采用训练语料生成一节中生成的结构编码表中对应的值。

更适宜地，训练语料生成单元，用于从预处理后的数据抽取，所述数据包括专利文本中的字、位置、段落、结构信息，生成模型训练语料；

本发明具有如下优点：

本发明提供的技术方案通过对文档内部的标题、摘要、权利要求、说明书等各组成部分语义结构关系编码，融合文本字符、位置信息、结构关系生成模型输入，结合掩码语言模型MLM(Masked Language Model)、下一句NSP(Next Sentence Prediction为了训练一个理解句子间关系的模型,引入一个下一句预测任务)训练策略和专利领域特定的字词、句子级别的辅助训练任务，通过专利领域的IPC分类、标题预测、摘要预测等任务进行微调，构建专利领域的预训练模型，提升了专利领域中文本检索、理解、解析等任务的整体准确率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其他的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例提供的用于专利文件处理的预训练模型的构建方法流程图；

图2为本发明实施例中的预训练模型结构；

图3本发明实施例提供的一种构建用于专利文件处理的预训练模型的系统架构示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供的一种用于专利文件处理的预训练模型的构建方法，包括步骤如下：

模型构建、数据预处理、训练语料生成、辅助训练任务、下游微调任务、模型保存输出，流程如图1所示，具体步骤为：

S101:模型构建是构建以Transformer为基础结构的深度神经网络模型；

S201:数据预处理:获取专利文本，进行文档结构解析、转换、清洗等预处理操作,生成按照标题、摘要、权利声明、说明书组织的文档结构树；

S202:训练语料生成:抽取包括专利文本中的字符、位置、段落、结构等信息，生成模型训练语料；

从预处理后的数据抽取包括专利文本中的句子及所属章节、字符、位置等信息，将所述预训练样本之中至少部分实体进行掩码和字词变换；

S301:根据生成的训练语料，执行辅助训练任务；

执行预训练任务，包括通用的MLM和NSP任务，专利领域的字词和句子级别的预测任务；

S302:执行专利文档处理的下游微调任务；

执行专利文档处理的特定下游微调任务，包括IPC分类、标题分类、摘要分类等任务。

S303:所述保存输出是选择具有最优参数的模型进行保存输出。

本方案可以使模型充分学习到专利领域知识，提升模型在专利领域文本理解任务中的适应性。

所述数据预处理是对专利原始文本进行文档结构解析、格式转换和内容清洗，生成候选数据；

所述训练语料生成从预处理后的数据抽取包括专利文本中的句子及所属章节、字符、位置等信息，生成辅助训练任务和下游微调任务所需的训练语料；

所述模型构建是构建以Transformer为基础结构的深度神经网络模型，输入包括字编码、位置编码、段落编码、结构编码等嵌入式表示向量加和，经过多层transformer的自注意力机制的编码器编码后输出隐藏层向量，作为各辅助训练任务和下游微调任务的输入；

所述辅助训练任务包括通用训练任务和专利领域特定的训练任务；

通用预训练任务包括Bert模型训练中的全字掩蔽MLM和NSP任务，MLM(MaskedLanguage Model掩码语言模型)、下一句NSP(Next Sentence Prediction，为了训练一个理解句子间关系的模型,引入一个下一句预测任务)，专利文献处理领域特定的辅助预训练任务包括字词完整性预测、TF预测、三元组顺序预测、句子完整性预测、段内句子顺序预测、句子距离预测等任务；

所述模型下游微调任务包括IPC分类、标题分类、摘要分类等专利领域任务；

数据预处理是对专利原始文本进行文档结构解析、格式转换和内容清洗，生成候选数据；文档结构解析是将原始的专利文档按照标题、摘要、权利声明、说明书等各组成部分进行分割，然后将各部分内部文本拆分为句子，构建树形数据结构的文档树，叶子节点的句子作为最小处理单元。其中，原始文档中的格式、标签等无关内容需要进行删除。

例如，一篇专利文本样例片段，对其进行上述步骤的预处理后生成的文档结构树如图3所示。专利文档作为根节点，发明名称、摘要、权利声明、说明书、说明书附图作为根节点下的二级节点。其中，权利声明根据权利要求的附属层次关系进行解析，例如首句“1.”部分解析为主权利要求，“2.”、“3.”、“5.”解析为主权利的从属权利要求，“4.”和“6.”分别作为“3.”、“5.”的从属权利要求，最终形成根据权利要求的具有语义关联关系的句子结构。

结构信息代表句子在专利文档中的位置，基于生成的专利文档树，对其中的节点进行层次化编码。算法分为两阶段执行，第一阶段遍历所有文档树，获取所有文档树的最大深度和各层的最大宽度；第二阶段通过宽度优先顺序对文档树进行遍历，对文档中各节点进行结构信息编码并保存到原始文档树。具体算法如算法1和算法2所示：

算法1：获取文档树最大深度和各层最大宽度

初始化专利文档树第一层的最大宽度数组W[0]＝1，文档树最大深度为H＝0。

以宽度优先的方式遍历语料库中所有的专利文档树：

对每一篇专利文档树，初始化FIFO队列为空、当前树深度为h＝0。

(1)文档树根顶点R入FIFO队列，标记当前节点深度Vh＝0。

重复执行(2)：

(2)从FIFO队列头取出第一个节点，如果FIFO队列为空，则转到(3)；

否则，获得FIFO队头节点V，从文档树中取出该节点V的所有下级顶点，计数为C，将这些节点的深度标记为Vh+1，并保存到原始文档树；

从FIFO队列中移除节点V，添加V的所有下级节点到FIFO队列尾部；

如果h<Vh+1，则h＝Vh+1，同时在W数组尾部新增一个元素，初始化为C，即W[h]＝C；

否则，如果W[h]<C，则W[h]＝C。

如果H<h，则H＝h。结束算法。

算法2：对文档树节点进行结构信息编码

遍历语料库中所有的专利文档树：

对每一篇专利文档树，记文档树中的每个节点V的深度为Vh，初始化FIFO队列为空。

(1)文档树根顶点R放入FIFO队列尾部，标记R的序号Ri＝0，编码Renc＝1。

(2)如果FIFO队列为空，则结束算法；否则，从FIFO队列头取出并移除节点V。

(3)从文档树中取出V的所有子节点N，按照V的子节点顺序分别从0开始递增编码每一个子节点N为序号Ni，将每个节点N编码为Nenc＝Venc*W[Vh]+Ni，保存Nenc到原始文档树作为该节点的结构信息编码，同时将顶点V的所有子顶点N放入FIFO队列尾，转到步骤(2)。

算法1和算法2执行完毕后，生成包含所有结构信息的编码表，其索引为结构信息编码，表中的值在模型开始训练时通过随机初始化的方式执行一次性设定。

所述训练语料生成从预处理后的数据抽取，包括专利文本中的字、位置、段落、结构等信息，生成模型训练语料；

模型输入中的字、位置、段落采用与Bert相同的方式进行编码，结构信息通过数据预处理中的算法1和算法2生成。

分别针对辅助训练任务的MLM和NSP、字词完整性预测、TF预测、三元组顺序预测、句子完整性预测、段内句子顺序预测、句子距离预测等任务，以及下游微调任务的IPC分类、标题分类、摘要分类生成对应的训练语料数据集。

全词掩蔽MLM采用专利领域词表结合jieba分词的方式，对专利文本进行分词后对15％的词进行[MASK]掩蔽，其中的80％采用领域词表中的近似词进行替换、10％进行随机替换、10％保持不变，生成训练数据集1；

NSP预训练任务采用与Bert相同的方式对句子对进行提取，生成训练数据集2；

字词完整性预测为二分类任务，是预测文本中的字词是否经过增加、替换、修改等操作。字词级别的增加、替换、修改比例为15％，其中的80％采用[MASK]替换、10％进行随机替换、10％保持不变，生成训练数据集3。

TF预测采用回归模型，预测文档中的缩放到0-1连续区间的词频数值。采用专利领域词表结合jieba分词后，统计每一篇专利文本中的词频(TF)，生成训练数据集4。

三元组顺序预测是对字符三元组随机乱序排列后的所有六种情况进行预测。训练语料是对文档中的文本切分为三元组，随机对其中的15％比例三元组执行随机乱序排列操作，生成训练数据集5。

句子完整性预测是预测句子中的字词是否经过删除、增加、替换、乱序操作。字词级别的删除、增加、替换、乱序操作比例为15％，其中的20％删除、20％随机增加、20％随机替换、20％进行乱序、20％保持不变，生成训练数据集6。

段内句子顺序预测是预测同一段落内的句子是否前-后或者后-前顺序，对专利文档中的所有句子对进行提取，按照50％的概率随机置换前后顺序，生成训练数据集7。

句子距离预测是预测句子的相邻、文档内、不同文档等三种情况，分别按照1/3的概率对专利文档中的相邻、文档内、不同文档的句子对进行提取，生成训练数据集8。

IPC分类是对专利文档中执行IPC多标签多类别预测，提取专利文档中已有的IPC分类标签作为标注数据，生成训练数据集9。

标题分类是以50％的其他专利文档标题随机替换原有专利标题进行预测，通过对所有专利文档中的标题以50％的概率替换为其他专利标题，生成训练数据集10。

摘要分类是以50％的其他专利文档摘要随机替换原有专利摘要进行预测，通过对所有专利文档中的摘要以50％的概率替换为其他专利摘要，生成训练数据集11。

所述模型构建是构建以Transformer为基础结构的深度神经网络模型，模型输入为字编码、位置编码、段落编码、结构编码等嵌入式表示向量加和，经过多层transformer的自注意力机制的编码器编码后输出隐藏层向量，作为各辅助训练任务和下游微调任务的输入；其中，字编码、位置编码、段落编码采用Bert原有的机制生成，结构编码采用训练语料生成一节中生成的结构编码表中对应的值；

模型结构如图2所示，模型使用与Bert相同配置参数的转换器transformer结构，包括12层、12个自注意力头、768维隐藏层。注意力机制采用transformer中的原有实现机制：

MultiHead(Q,K,V)＝Concat(head1,…,headn)W^O

这里，head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V)

其中，

分别表示Q、K、V的映射矩阵参数。第一层的Q、K、V来自于模型输入，后面各层的Q、K、V来自于模型前一层的输出，O为输出，Concat表示连接操作，d_k、d_v、d_model分别为Q/K、V、模型隐藏层的维度，这里取h＝12个注意力头,每一个注意力头取d_k、d_v、d_model/h＝64。

所述辅助训练任务包括通用训练任务和专利领域特定的训练任务；通用预训练任务包括Bert模型训练中的全词掩蔽MLM和NSP任务，专利领域特定的辅助预训练任务包括字词完整性预测、TF预测、三元组顺序预测、句子完整性预测、段内句子顺序预测、句子距离预测等任务。

辅助训练任务通过两层全连接神经网络(MLP)的分类模型和回归模型实现，回归模型的输出直接采用MLP的输出，通过函数

计算标签的概率分布来计算；交叉熵损失函数采用公式/>

计算，其中，y和/>

分别表示原始真值和模型预测值。

辅助训练任务和下游微调任务的模型训练优化器采用Adam、学习率1e-4、批次大小128,最大序列长度512，L2权重衰减0.01，β1＝0.9，β2＝0.999，dropout为0.1，激活函数采用gelu。

全词掩蔽MLM模型采用两层MLP分类器,在训练数据集1上应用交叉熵损失函数对掩蔽、替换的全词进行预测，记为任务1；

NSP预训练任务采用与Bert相同的方式实现，在训练数据集2上应用交叉熵损失函数对下一句进行预测，记为任务2；

字词完整性预测为二分类任务，在训练数据集3上应用交叉熵损失函数对字词是否经过增加、替换、修改等操作进行预测，记为任务3；

TF预测采用回归模型，预测文档中的缩放到0-1连续区间的词频数值，在训练数据集4上应用交叉熵损失函数对归一化的TF值进行预测，记为任务4；

三元组顺序预测是对字符三元组随机乱序排列后的所有六种情况，在训练数据集5上应用交叉熵损失函数进行预测，记为任务5；

句子完整性预测是预测句子中的字词是否经过删除、增加、替换、乱序操作，在训练数据集6上应用交叉熵损失函数进行预测，记为任务6；

段内句子顺序预测是在训练数据集7上应用交叉熵损失函数，预测同一段落内的句子是否前-后或者后-前顺序，记为任务7；

句子距离预测是是在训练数据集8上应用交叉熵损失函数，预测句子的相邻、文档内、不同文档等三种情况，记为任务8；

所述模型下游微调任务包括IPC分类、标题分类、摘要分类等专利领域任务。

下游微调任务通过两层全连接神经网络(MLP)的分类器实现，模型预测值通过模型隐藏层执行softmax函数

计算标签的概率分布来计算；交叉熵损失函数

其中，y和/>

分别表示原始真值和模型预测值。

IPC分类是在训练数据集9上应用交叉熵损失函数，执行IPC多标签多类别预测，记为任务9；

标题分类是在训练数据集10上应用交叉熵损失函数，对专利文档标题是否执行了随机替换进行预测，记为任务10；

摘要分类是在训练数据集11上应用交叉熵损失函数，对专利文档摘要是否执行了随机替换进行预测，记为任务11。

所述模型保存输出是在pytorch/tensorflow平台上，顺序执行任务1-11后，通过early stopping机制选择每个任务对应的最优模型参数，最后将模型参数文件、词表、配置信息以统一标准格式进行保存并输出到模型库。

实施例二

参照图3，本发明的另一实施例提供一种构建用于专利文件处理的预训练模型的系统300，包括模型构建单元310、数据预处理单元320、训练语料生成单元330、辅助训练单元340、微调单元350、模型保存输出单元360：

所述模型构建单元310，用于构建以Transformer为基础结构的深度神经网络模型；

数据预处理元320，用于对专利原始文本进行文档结构解析、格式转换和内容清洗的预处理操作，生成候选数据；

训练语料生成元330，用于从预处理后的数据抽取相关信息，包括专利文本中的句子及所属章节、字符、位置，将所述预训练样本之中至少部分实体进行掩码和字词变换，生成辅助训练任务和下游微调任务所需的训练语料；

辅助训练单元340，用于根据生成的训练语料，执行辅助训练任务，包括通用训练任务和针对专利文件的特定训练任务，进行字、词、句的相关预测；

微调单元350，用于执行针对专利文件的下游微调任务，包括IPC分类、标题分类、摘要分类任务，提取专利文档中已有的IPC分类标签作为标注数据，生成IPC分类训练数据集，对所有专利文档中的标题以预定概率替换为其他专利标题，生成专利标题训练数据集，对所有专利文档中的摘要以预定概率替换为其他专利摘要，生成摘要训练数据集；

模型保存输出单元360，用于选择最优的模型参数、词表、配置进行保存并输出。

其中，模型构建单元310，用于构建以Transformer为基础结构的深度神经网络模型，输入包括字编码、位置编码、段落编码、结构编码等嵌入式表示向量之和，经过多层transformer的自注意力机制的编码器编码后输出隐藏层向量，作为各辅助训练任务和下游微调任务的输入，其中，字编码、位置编码、段落编码采用Bert原有的机制生成，结构编码采用训练语料生成一节中生成的结构编码表中对应的值。

其中，训练语料生成单元330，用于从预处理后的数据抽取，所述数据包括专利文本中的字、位置、段落、结构信息，生成模型训练语料；

本发明实施例提供的一种构建用于专利文件处理的预训练模型的系统，各单元的功能及具体处理操作与前述方法中相同，在此不再赘述。

本发明的技术效果：

本发明提供的技术方案通过将专利文本作为训练语料、结合专利领域训练任务，充分利用了专利文档的固有结构和领域任务特点的先验知识，构建专利领域的预训练模型，解决了现有通用语言模型处理专利领域文本理解任务能力不足的缺陷，提升了专利文本理解的整体有效性和准确率。

第一，以专利文本作为训练语料，有利于预训练模型充分学习语料中专利领域的特定词法、句法、语义等语言规则，语料中蕴含的专利相关的常识、事实等知识也有利于被模型所捕获到；第二，通过难度增强的多个微调任务，使得模型不但具有原始Bert模型的MLM和NSP预测能力，还有助于模型对于具有复杂语法语义逻辑的专利文档的深度理解；第三，特别是针对专利文档固有内部结构特点设计的结构编码输入，通过对于专利文档固有结构语义关系的精确解析的有效表达和充分利用，能够将专利领域的先验知识融合进专利领域预训练模型，有效提升下游任务的整体效能；第四，专利领域下游特定任务的微调，进一步强化了模型有效解决专利领域文本处理和解析的能力。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种用于专利文件处理的预训练模型的构建方法，其特征在于，包括模型构建、数据预处理、训练语料生成、辅助训练任务、下游微调任务、模型保存输出的步骤：

所述模型构建是构建以转换器(Transformer)为基础结构的深度神经网络模型；

所述训练语料生成为从预处理后的数据抽取相关信息，包括专利文本中的句子及所属章节、字符、位置，将预训练样本之中至少部分实体进行掩码和字词变换，生成辅助训练任务和下游微调任务所需的训练语料；

2.如权利要求1所述的预训练模型的构建方法，其特征在于，

所述模型构建是构建以转换器(Transformer)为基础结构的深度神经网络模型，输入包括字编码、位置编码、段落编码、结构编码等嵌入式表示向量之和，经过多层transformer的自注意力机制的编码器编码后输出隐藏层向量，作为各辅助训练任务和下游微调任务的输入，其中，字编码、位置编码、段落编码采用Bert原有的机制生成，结构编码采用训练语料生成一节中生成的结构编码表中对应的值。

3.如权利要求1所述的预训练模型的构建方法，其特征在于，

所述辅助训练任务通用预训练任务包括Bert模型训练中的全字掩蔽MLM和NSP任务，针对专利文件的特定辅助预训练任务包括字词完整性预测、TF预测、三元组顺序预测、句子完整性预测、段内句子顺序预测、句子距离预测任务。

4.如权利要求3所述的预训练模型的构建方法，其特征在于，

所述训练语料生成是从预处理后的数据抽取，所述数据包括专利文本中的字、位置、段落、结构信息，生成模型训练语料；

5.如权利要求1所述的预训练模型的构建方法，其特征在于，

计算标签的概率分布来计算；交叉熵损失函数采用公式/>

计算，其中，y和/>

分别表示原始真值和模型预测值。

6.如权利要求1所述的预训练模型的构建方法，其特征在于，

所述下游微调任务通过两层全连接神经网络(MLP)的分类器实现，模型预测值通过模型隐藏层执行softmax函数

计算标签的概率分布来计算；交叉熵损失函数

其中，y和/>

分别表示原始真值和模型预测值。

7.如权利要求1所述的预训练模型的构建方法，其特征在于，

所述模型保存输出是在pytorch/tensorflow平台上，顺序执行下述任务：

通过早停(EarlyStopping)机制选择每个任务对应的最优模型参数，将模型参数文件、词表、配置信息以统一标准格式进行保存并输出到模型数据库。

8.一种构建用于专利文件处理的预训练模型的系统，其特征在于，包括模型构建单元、数据预处理单元、训练语料生成单元、辅助训练单元、微调单元、模型保存输出单元：

所述模型构建单元，用于构建以转换器(Transformer)为基础结构的深度神经网络模型；

所述训练语料生成元，用于从预处理后的数据抽取相关信息，包括专利文本中的句子及所属章节、字符、位置，将预训练样本之中至少部分实体进行掩码和字词变换，生成辅助训练任务和下游微调任务所需的训练语料；

所述微调单元，用于执行针对专利文件的下游微调任务，包括IPC分类、标题分类、摘要分类任务，提取专利文档中已有的IPC分类标签作为标注数据，生成IPC分类训练数据集，对所有专利文档中的标题以预定概率替换为其他专利标题，生成专利标题训练数据集，对所有专利文档中的摘要以预定概率替换为其他专利摘要，生成摘要训练数据集；

9.如权利要求8所述的构建用于专利文件处理的预训练模型的系统，其特征在于，

所述模型构建单元，用于构建以转换器(Transformer)为基础结构的深度神经网络模型，输入包括字编码、位置编码、段落编码、结构编码等嵌入式表示向量之和，经过多层转换器transformer的自注意力机制的编码器编码后输出隐藏层向量，作为各辅助训练任务和下游微调任务的输入，其中，字编码、位置编码、段落编码采用Bert原有的机制生成，结构编码采用训练语料生成一节中生成的结构编码表中对应的值。

10.如权利要求8所述的构建用于专利文件处理的预训练模型的系统，其特征在于，

所述训练语料生成单元，用于从预处理后的数据抽取，所述数据包括专利文本中的字、位置、段落、结构信息，生成模型训练语料；