CN112487811B

CN112487811B - 基于强化学习的级联信息提取系统及方法

Info

Publication number: CN112487811B
Application number: CN202011132768.6A
Authority: CN
Inventors: 姜华; 田济东; 陈文清; 肖力强
Original assignee: Shanghai Minpu Technology Co ltd
Current assignee: Shanghai Minpu Technology Co ltd
Priority date: 2020-10-21
Filing date: 2020-10-21
Publication date: 2021-07-06
Anticipated expiration: 2040-10-21
Also published as: CN112487811A

Abstract

本发明提供了一种基于强化学习的级联信息提取系统及方法，其中，预训练模块用于独立训练定位模块和分类模块，得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中；强化训练模块用于对定位模块和分类模块进行联合训练，并通过强化学习框架进一步优化定位模块和分类模块，得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块；预测模块用于对待检测文本进行信息提取，以待检测文本为输入，依次通过定位模块和分类模块，输出待检测文本的实体、关系和事件信息。本发明采用强化学习的方法有效解决级联模型存在不可导过程的问题，避免单独训练的模型在连接过程中产生的累积误差，从而保证信息提取的有效性和准确性。

Description

基于强化学习的级联信息提取系统及方法

技术领域

本发明涉及自然语言处理技术领域中的一种信息提取技术，具体地，涉及一种基于强化学习的级联信息提取系统及方法。

背景技术

信息提取是自然语言处理中的一类基础任务，主要包含如命名实体识别、关系抽取以及事件抽取等多个子任务。这些任务为后续复杂任务、如阅读理解、问答系统、文本生成等提供重要的支持。

通常，实体识别、关系抽取和事件抽取具有不同的定义方式，命名实体识别往往可以定义为序列标注任务，而事件抽取则是在特定语境下的分类任务，事件抽取比较复杂，可以看作两个序列标注任务的级联。此外，如果待提取的信息还存在嵌套形式，任务将变的更加复杂。想要统一提取不同类型的信息，目前常用的方法是通过多任务学习实现，然而，即使在多任务模型中，不同信息提取任务往往也需要通过定义不同的模块实现。这些模块同样采用已有的深度学习或者强化学习模型，如强化学习框架下的lattice-LSTM命名实体识别模型，基于强化学习的关系抽取模型等，通过共享一些信息实现多任务的联合训练，并未实质解决不同类型信息的统一提取。综上所述，迄今没有一个统一的学习框架可以一次性高效率的提取实体、关系以及事件等不同类型的信息。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于强化学习的级联信息提取系统及方法。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于强化学习的级联信息提取系统，包括：预训练模块、强化训练模块和预测模块，每一个模块中均包括定位模块和分类模块；

其中：

所述预训练模块用于独立训练定位模块和分类模块，得到的预训练参数直接传递至强化训练模块中对应的定位模块和分类模块中；

所述强化训练模块用于对定位模块和分类模块进行联合训练，并通过强化学习框架进一步优化定位模块和分类模块，得到的强化训练参数直接复用于预测模块中对应的定位模块和分类模块；

所述预测模块用于对待检测文本进行信息提取，以待检测文本为输入，依次通过定位模块和分类模块，输出待检测文本的实体、关系和事件信息。

优选地，所述强化学习模块还包括：行为模块和评价模块和优化模块；其中：

所述定位模块和分类模块的初始化参数直接从预训练模块中继承；

所述行为模块以定位模块选择的模型作为策略，根据定位模块和分类模块输出的概率分布进行采样，得到下一步预测的行为，并通过定义环境和奖励函数对预测的行为进行打分，得到对应的分值作为奖励；

所述评价模块以定位模块和分类模块的输出作为输入，通过另外一个神经网络计算奖励的期望作为奖励的阈值；

所述优化模块通过行为模块输出的奖励和评价模块输出的阈值优化定位模块和分类模块中的模型参数。

优选地，所述奖励函数与准确率和召回率指标相关，采用归一化的局部F1值与预期F1差值作为奖励函数；和/或

所述优化模块采用交叉熵损失函数作为优化过程中的损失函数。

优选地，所述强化学习框架采用异步优势行为评价模型。

优选地，每一个模块中的所述定位模块均包括定位模型；每一个模块中的所述分类模块均包括分类模型；

其中：

所述定位模型以文本为输入，以文本中所包含的信息片段为标签进行优化；

所述分类模型以文本中所包含的信息片段为输入，以信息片段的类型为标签进行优化。

优选地，每一个所述定位模型均为一个生成模型，包括基于文本的编码器和基于注意力机制的解码器；其中：

所述编码器用于捕捉文本特征，逐词学习文本的上下文编码，输出具有上下文信息的文本编码向量；

所述解码器以编码器的输出为输入，通过注意力机制逐步对所要提取的信息进行定位，得到位置信息；

每一个所述分类模型均为一个判别模型，首先通过定位模型捕捉到的位置信息对文本编码向量进行掩膜，得到局部信息片段向量，然后通过卷积神经网络提取模型所用的特征并通过全连接分类器进行最终的分类，确定候选片段是否为待提取信息并确定其类型。

优选地，所述编码器采用双向循环神经网络或者带有位置编码的转移模型；所述解码器采用带有注意力机制的指针网络，定位信息片段，对于每一个时刻，通过上一时刻得到的文本片段位置信息对整个文本做注意力操作，得到当前时刻文本信息位置概率分布，取概率最大的位置作为当前时刻定位到的信息，不断迭代得到所有候选实体的位置信息。

优选地，所述预训练模块中的定位模块和分类模块还分别包括一个优化器，所述优化器用于分别学习定位模块和分类模块的参数。

优选地，所述优化器采用ADAM优化器。

根据本发明的另一个方面，提供了一种基于强化学习的级联信息提取方法，包括：通过ADAM优化器分别预训练定位模块和分类模块；采用强化学习的方法交替训练定位模块和分类模块；调用训练好的参数进行嵌套实体识别检测，得到训练后的级联信息提取模型，利用训练后的级联信息提取获得待检测文本的实体、关系和事件信息。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述所述的方法。

根据本发明的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行上述所述的方法。

由于采用了上述技术方案，本发明与现有技术相比，至少包括如下至少一项的有益效果：

1、本发明提供的基于强化学习的级联信息提取系统及方法，通过“定位器-分类器”模式统一提取不同类型的信息。

2、本发明提供的基于强化学习的级联信息提取系统及方法，构建了一种基于强化学习的系统用于实现“定位器-分类器”模式。

3、本发明提供的基于强化学习的级联信息提取系统及方法，提出了一种强化学习的框架适用于训练“定位器-分类器”这类级联模型。一方面，该框架通过损失函数优化模型可以有效解决两个独立模块(定位模块和分类模块)之间不可导的问题；另一反面，该框架通过迭代方式训练定位器和分类器能够有效抑制累积误差对模型效果的负面影响。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一优选实施例中基于强化学习的级联信息提取系统的框架示意图。

图2为本发明一优选实施例中强化训练模块的框架示意图。

图3为本发明一优选实施例中预测模块的具体案例工作示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

综合分析信息提取中的几类任务(命名实体识别、关系抽取、事件抽取以及嵌套信息提取)，可以归纳出信息提取任务往往只涉及到局部的上下文，在提取的过程中，首先确定信息的位置，在对提取到的信息进行分类即可。因此，信息提取可以统一定义为级联的“定位-分类”任务，即先对相应待提取信息进行定位，再对信息的类型进行分类。基于上述理解，信息提取任务都可以映射成“定位-分类”问题。而在实践中，解决“定位-分类”问题面临着两大挑战：1)定位模型和分类模型按照级联方式组合带来误差累积，使得模型效果大幅度下降；2)连接定位模型和分类模型时出现不可导过程，导致模型难以联合训练。

本发明一实施例针对以上问题，提供了一种基于强化学习的级联信息提取系统，该系统首先将各个信息提取任务映射到“定位-分类”问题上，并针对这类泛化问题构建系统的三个模块：预训练模块，强化训练模块和预测模块。其中，预训练模块用于预训练定位模型和分类模型，为强化训练模块提供初始化参数；强化训练模块采用异步优势行为评价框架(A2C)进一步联合优化定位模型和分类模型，得到可用的模型参数；预测模块直接继承强化训练模块的参数，用于对输入文本提取相应的信息。

本实施例提供的基于强化学习的级联信息提取系统，包括：预训练模块、强化训练模块和预测模块，每一个模块中均包括定位模块和分类模块；

其中：

作为一优选实施例，所述强化学习模块还包括：行为模块和评价模块和优化模块；其中：

所述行为模块以定位模块选择的模型作为策略，根据定位模块和分类模块输出的概率分布进行采样，得到下一步预测的行为，并通过定义环境(用来产生奖励函数的机制都可以称为环境)和奖励函数对预测的行为进行打分，得到对应的分值作为奖励；

作为一优选实施例，所述奖励函数与准确率和召回率指标相关，采用归一化的局部F1值与预期F1差值作为奖励函数。

作为一优选实施例，所述优化模块采用交叉熵损失函数作为优化过程中的损失函数。

作为一优选实施例，所述强化学习框架采用异步优势行为评价模型。

作为一优选实施例，每一个模块中的所述定位模块均包括定位模型；每一个模块中的所述分类模块均包括分类模型；

其中：

作为一优选实施例，每一个所述定位模型均为一个生成模型，包括基于文本的编码器和基于注意力机制的解码器；其中：

每一个所述分类模型均为一个判别模型，首先通过定位模型捕捉到的位置信息对文本编码向量进行掩膜，得到局部信息片段向量，然后通过卷积神经网络提取模型所采用的特征并通过全连接分类器进行最终的分类，确定候选片段是否为待提取信息并确定其类型。

其中，所述卷积神经网络提取模型为在提取过程中所设计的模型。

作为一优选实施例，所述编码器采用双向循环神经网络或者带有位置编码的转移模型；所述解码器采用带有注意力机制的指针网络，定位信息片段，对于每一个时刻，通过上一时刻得到的文本片段位置信息对整个文本做注意力操作，得到当前时刻文本信息位置概率分布，取概率最大的位置作为当前时刻定位到的信息，不断迭代得到所有候选实体的位置信息。

作为一优选实施例，所述预训练模块中的定位模块和分类模块还分别包括一个优化器，该优化器用于分别学习两个模块的参数。

作为一优选实施例，所述优化器采用ADAM优化器。

在本发明部分实施例中：

预训练模块独立训练定位模型和分类模型，得到的参数直接传递到强化训练模块中对应的子模块，从而可以避免强化训练模块因冷启动导致难以快速收敛的问题。预训练模块主要包含定位模块和分类模块两个子模块，分别实现训练定位模型和分类模型。

强化训练模块主要用于对定位模型和分类模型进行联合训练，通过一种强化学习框架——异步优势行为评价模型(A2C)——进一步优化模型参数以消除两个模型单独训练所产生的累积误差，最终训练得到的模型参数直接复用于预测模块。基于异步优势行为评价模型的特点，强化训练模块构造行为子模块和评价子模块辅助定位模型和分类模型的联合训练。行为模块以定位模块和分类模块作为策略，根据其输出的分布进行采样，得到下一步预测的行为，并通过定义环境和奖励函数对该行为进行打分，得到对应的分值作为奖励，评价模块以定位模块和分类模块的输出作为输入，通过另外一个神经网络计算奖励的期望作为奖励的阈值，最终优化模块通过行为模块输出的奖励和评价模块输出的阈值优化定位模块和分类模块中的模型参数。

预测模块用于对待检测文本进行信息提取，以文本为输入，待检测的实体、关系和事件信息为输出实现预测。预测模块包含定位子模块和分类子模块，模型参数直接继承自强化训练模块。

预训练模块用于独立训练定位模型和分类模型，得到的预训练参数直接传递到强化训练模块中对应的子模块，从而可以避免强化训练模块因冷启动导致难以快速收敛的问题；强化训练模块主要用于对定位模型和分类模型进行联合训练，通过一种强化学习框架——异步优势行为评价模型(A2C)——进一步优化模型参数以消除两个模型单独训练所产生的累积误差，最终训练得到的模型参数直接复用于预测模块；预测模块用于对待检测文本进行信息提取，以文本为输入，待检测的实体、关系和事件信息为输出实现预测，其模型参数直接继承自强化训练模块。

预训练模块用于避免强化训练模块中存在的冷启动问题。预训练模块包含定位模块和分类模块两个子模块，每个子模块包含对应的模型和一个优化器，其实现的功能在于对两个子模块分别进行参数优化。其中定位模块以文本为输入，包含的信息片段为标签进行优化；分类模块则以信息片段为输入，信息片段的类型为标签进行优化。

强化训练模块，该模块中定位模块和分类模块参数直接通过预训练模块优化后的参数进行初始化，后通过强化学习的方法对两个模块进行联合优化，有效避免单独优化造成的误差累积问题。进一步地，强化训练模块包含包含定位模块、分类模块、行为模块和评价模块和优化模块，其中定位模块和分类模块与预训练模块中的两个模块具有相同的网络结构，其初始化参数直接从预训练模块中继承，行为模块以定位模块和分类模块作为策略，根据其输出的分布进行采样，得到下一步预测的行为，并通过定义环境和奖励函数对该行为进行打分，得到对应的分值作为奖励，评价模块以定位模块和分类模块的输出作为输入，通过另外一个神经网络计算奖励的期望作为奖励的阈值，最终优化模块通过行为模块输出的奖励和评价模块输出的阈值优化定位模块和分类模块中的模型参数。

预测模块用于实现信息的提取。该模块包含级联的定位子模块和分类子模块，这两个模块前两模块中对应的子模块结构相同，参数直接继承强化训练后的模型参数，通过级联的方式进行连接，最终以待检测文本为输入，提取到的信息为输出，最终实现信息提取。

构建独立的定位模块用于捕捉信息的精准位置。该模块同时存在于预训练、强化训练和预测模块中，参数则是在三个模块中依次传递。定位器模块包含两个子模型：基于文本的编码模型和基于注意力机制的解码模型。编码模型用于捕捉文本特征，获得具有上下文信息的文本编码向量，采用循环神经网络或者带有位置编码的转移模型进行编码。解码模型通过注意力机制逐步对所要提取的信息进行定位，采用指针网络进行解码。定位器模块的输出用作分类器模块的输入。

构建独立的分类模块用于捕捉信息的精准位置。该模块同时存在于预训练、强化训练和预测模块中，参数则是在三个模块中依次传递。分类模块以定位模块的输出为输入，通过编码模型得到候选信息片段的特征，其后通过卷积神经网络(CNN)对这些片段进行特征提取，再送入全连接的分类网络进行最终分类。

通过异步优势行为评价框架(A2C)构建强化训练模块。其中A2C框架定义了行为模块和评价模块。行为模块直接根据定位模块和分类模块输出的概率分布进行采样，通过定义与准确率和召回率指标相关的奖励函数用于评测样本；评价模块采用全连接网络拟合奖励函数的期望。

本实施例提供的基于强化学习的级联信息提取系统，定义了强化学习的框架，以定位器作为智能体，而将分类器作为环境首先学习定位器，一定迭代次数后固定定位器，单独训练分类器。以此框架交替训练定位器和分类器，从而达到模型优化的目的。

下面结合附图，对本发明上述实施例所提供的技术方案进一步详细描述如下。

如图1所示，本实施例所提供的基于强化学习的级联信息提取系统中，首先，预训练模块构造两个独立的定位子模块和分类子模块。两个子模块共享相同的预处理模块，包括文本分词、词性标注、语义解析以及语法解析等，解析后的文本特征通过不同的模型进行分布式表征：词汇特征和词性特征可以通过词向量和词性向量来进行表征，在学习的过程中不断优化；进一步通过语言模型对词汇特征进行向量化，得到的语言模型向量不仅包含词汇本身的信息，还包含丰富语义信息，语言模型训练过程中不进行更新；字符级别的信息通过卷积神经网络捕捉其形态学特征；采用卷积图网络对语义解析树和语法解析树进行卷积得到语义化特征和语法化特征。最终通过拼接所有向量得到最终的文本特征向量。

定位模块主体是一个包含编码器和解码器的生成模型，编码器通过双向循环神经网络及其变种构建，逐词学习文本的上下文编码；解码器采用带有注意力机制的指针网络定位信息片段，对于每一个时刻，通过上一时刻得到的文本片段位置信息对整个文本做注意力操作，得到当前时刻文本信息位置概率分布，取概率最大的位置作为当前时刻定位到的信息，不断迭代得到所有候选实体的位置信息。

分类模块主题是一个判别模型，首先通过定位模型捕捉到的位置信息对文本编码向量进行掩膜，得到局部信息片段向量，后通过卷积神经网络提取决策用的特征并通过全连接分类器进行最终的分类，确定候选片段是否为待提取信息并确定其类型。

预训练模块中的定位子模块和分类子模块还各自包含一个ADAM优化器用于训练，而后续两个模块中的定位子模块和分类子模块则不需要优化器。

强化训练模块通过A2C的框架(如图2所示)额外定义了行为模块和评价模块。定位模块相比于分类模块更为复杂，训练难度更大，因此，在实施强化学习的时候，本系统调整定位模块作为智能体，分类模块固定构建A2C框架。首先，定位模块选择一系列的动作确定待选片段的位置信息，而定位器选择的模型称为策略π，通过分类器分类后，与行为模块提供的环境交互，根据奖励函数计算奖励r，通过对奖励函数进行累积，得到状态-动作价值Q。由于所有的信息提取任务可以通过综合考量准确率和召回率的F1指标进行评估，本方法采用归一化的局部F1值与预期F1差值作为奖励函数。在A2C框架中，额外定义的评论模块用于预测价值V，以此价值为基础，定义优势函数A＝Q-V，当优势函数值为正时，说明累积奖励超过平均价值，反之亦然。根据策略梯度的定义，优化函数为J＝A log(π)＝(Q-V)log(π)，以此优化策略中的π中的参数，优化模块用于优化定位模块。更进一步，评论模块(critic)同样需要基于定位模块来优化以便更好地预测平均价值V，每个时刻t，通过时间差分误差(TD)优化：TD＝r_t+V_t+1-V_t。在训练定位模块后，需要固定该模块进一步训练分类模块，采用交叉熵损失函数。

预测模块直接级联定位模块和分类模块(定位模块的输出作为分类模块的输入)进行信息提取。如图3所示，给出了该模块的基本工作流程和案例，文本按照级联方式依次输入定位模块和分类模块，得到最终的信息和类型。其中，定位模块是一个包含编码器和解码器的生成模型，编码器通过双向循环神经网络及其变种构建，逐词学习文本的上下文编码，同时，本系统还提供一种替代编码器方案，通过具有位置信息的迁移机制构建，整体学习文本全局的上下文编码；解码器采用带有注意力机制的指针网络定位信息的范围，对于每一个时刻，通过上一时刻得到的文本片段位置信息对整个文本做注意力操作，得到当前时刻文本信息位置概率分布，取概率最大的位置作为当前时刻定位到的信息，不断迭代得到所有候选实体的位置信息。

本发明另一实施例一种基于强化学习的级联信息提取方法，包括：通过ADAM优化器分别预训练定位模块和分类模块；采用强化学习的方法交替训练定位模块和分类模块；调用训练好的参数进行嵌套实体识别检测，得到训练后的级联信息提取模型，利用训练后的级联信息提取获得待检测文本的实体、关系和事件信息。

本发明第三个实施例提供了一种终端，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行本发明上述实施例中所述的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明第四个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时可用于执行本发明上述实施例中所述的方法。

无论是实体识别、关系提取还是事件提取，都可以解析为两个级联的过程——信息定位和信息分类。因此，本发明上述实施例提供的基于强化学习的级联信息提取系统及方法，可以通过构造相应的定位模型和分类模型实现信息提取，该系统及方法兼顾对定位模块和分类模块的训练以及通过两个模型对信息进行提取，其中预训练模块通过训练数据对定位模型和分类模型分别进行训练，其得到的模型参数直接传递给强化训练模块；强化训练模块在预训练得到的参数基础上，通过一种强化学习框架——异步优势行为评价模型(A2C)——进一步优化以消除两个模型之间产生的累积误差；最终强化训练模块得到的模型参数直接复用于预测模块进行信息提取。综上所述，本系统及方法构建了一种通用的定位-分类信息提取系统，采用强化学习的方法有效解决级联模型存在不可导过程的问题，避免单独训练的模型在连接过程中产生的累积误差，从而保证信息提取的有效性和准确性。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于强化学习的级联信息提取系统，其特征在于，包括：预训练模块、强化训练模块和预测模块，每一个模块中均包括定位模块和分类模块；

其中：

所述预测模块用于对待检测文本进行信息提取，以待检测文本为输入，依次通过定位模块和分类模块，输出待检测文本的实体、关系和事件信息；

所述强化学习模块还包括：行为模块和评价模块和优化模块；其中：

2.根据权利要求1所述的基于强化学习的级联信息提取系统，其特征在于，所述奖励函数与准确率和召回率指标相关，采用归一化的局部F1值与预期F1差值作为奖励函数；和/或

3.根据权利要求1所述的基于强化学习的级联信息提取系统，其特征在于，所述强化学习框架采用异步优势行为评价模型。

4.根据权利要求1-3任一项所述的基于强化学习的级联信息提取系统，其特征在于，每一个模块中的所述定位模块均包括定位模型；每一个模块中的所述分类模块均包括分类模型；

其中：

5.根据权利要求4所述的基于强化学习的级联信息提取系统，其特征在于，每一个所述定位模型均为一个生成模型，包括基于文本的编码器和基于注意力机制的解码器；其中：

6.根据权利要求5所述的基于强化学习的级联信息提取系统，其特征在于，所述编码器采用双向循环神经网络或者带有位置编码的转移模型；所述解码器采用带有注意力机制的指针网络，定位信息片段，对于每一个时刻，通过上一时刻得到的文本片段位置信息对整个文本做注意力操作，得到当前时刻文本信息位置概率分布，取概率最大的位置作为当前时刻定位到的信息，不断迭代得到所有候选实体的位置信息。

7.根据权利要求5所述的基于强化学习的级联信息提取系统，其特征在于，所述预训练模块中的定位模块和分类模块还分别包括一个优化器，所述优化器用于分别学习定位模块和分类模块的参数。

8.根据权利要求7所述的基于强化学习的级联信息提取系统，其特征在于，所述优化器采用ADAM优化器。