CN109783604B

CN109783604B - 基于少量样本的信息提取方法、装置和计算机设备

Info

Publication number: CN109783604B
Application number: CN201811535440.1A
Authority: CN
Inventors: 郑子欧; 刘媛源; 张翔; 于修铭; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2024-03-19
Anticipated expiration: 2038-12-14
Also published as: CN109783604A

Abstract

本申请涉及大数据领域,提供了一种基于少量样本的信息提取方法、装置和计算机设备，方法包括：通过输入少量的样本对通用文本提取模型进行训练，提取出训练标注字段，并根据训练标注字段和目标标注字段对通用文本提取模型进行参数调整得到目标文本提取模型，当将待提取的文本输入目标文本提取模型时，不用预定义待提取文本中所需要提取的字段，就能得到与目标标注字段同一类型的字段信息，提高了文本提取的高效性和准确性。

Description

基于少量样本的信息提取方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于少量样本的信息提取方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的飞速发展，我们往往需要面对海量的数据，并在海量的数据中筛选提取出有用的信息。目前，传统的文本信息提取是针对某一特定领域的文本进行建模，需要在建模前确定文本信息提取的字段，并且需要获得大量相关标注数据集进行建模，才能从文本中提取特定的信息。

发明内容

基于此，有必要针对上述技术问题，提供一种基于少量样本的信息提取方法、装置、计算机设备和存储介质。

一种基于少量样本的信息提取方法，所述方法包括：

获取通用文本提取模型，所述通用文本提取模型用于提取标注字段；

获取少量训练样本，所述训练样本携带有目标标注字段；

将所述训练样本输入所述通用文本提取模型中进行训练，得到所述通用文本提取模型对所述训练样本提取得到的训练标注字段；

根据所述训练标注字段和所述目标标注字段对所述通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型；

获取待提取文本，将所述待提取文本输入所述目标文本提取模型中，通过所述目标文本提取模型从所述待提取文本中得到目标文本信息，所述目标文本信息与所述目标标注字段为同一类型的字段信息。

在其中一个实施例中，所述通用文本提取模型的建立步骤包括：

构建数据集，所述数据集包含多个任务样本，各个任务样本的文本类型不重合；

获取训练集和验证集；

通过所述训练集中的任务训练数据对所述各个任务样本进行训练，得到每个任务样本对应的多个候选任务样本子模型，所述候选任务样本模型用于提取标注字段；

将验证集中的验证数据输入所述候选任务样本模型中进行验证，得到各个候选任务样本子模型对应的准确率；

将准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型，将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型。

在其中一个实施例中，将所述准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型的步骤，还包括：

获取所述准确率最高的候选任务样本子模型对应的第一参数；

根据所述第一参数对各任务样本的参数进行第一次梯度下降，得到所述各任务样本的共性参数；

根据所述第一参数对所述共性参数进行第二次梯度下降，得到目标共性参数，根据所述目标共性参数得到各个任务样本对应的目标共性模型，将目标共性模型作为目标任务样本子模型。

在其中一个实施例中，将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型的步骤之后，还包括：

获取所述任务训练数据，所述任务训练数据携带有标记数据；

将所述任务训练数据输入所述通用文本提取模型中进行测试，得到任务测试数据；

将所述任务测试数据与所述标记数据进行比对，若任务测试数据与标记数据相同，则将所述训练样本输入所述通用文本提取模型中进行训练，得到所述通用文本提取模型对所述训练样本提取得到的训练标注字段；根据所述训练标注字段和所述目标标注字段对所述通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型；

若任务测试数据与标记数据不相同，则根据所述标记数据和所述任务测试数据对所述任务训练数据进行修正，得到修正任务训练数据，通过所述修正任务训练数据对所述各个任务样本进行再次训练，得到修正通用文本提取模型；

将所述修正任务训练数据输入修正通用文本提取模型中进行再次测试，得到修正任务测试数据，将所述修正任务测试数据与所述标记数据进行比对，直到所述修正任务测试数据与所述标记数据相同时，则停止对所述修正任务测试数据的修正，并将所述训练样本输入所述修正通用文本提取模型中进行训练，得到所述修正通用文本提取模型对所述训练样本提取得到的修正训练标注字段；

根据所述修正训练标注字段和所述目标标注字段对所述修改通用文本提取模型的参数进行调整，直到满足收敛条件，得到修改目标文本提取模型，将所述修改目标文本提取模型作为目标文本提取模型。

在其中一个实施例中，所述训练样本中携带有至少两种类型的目标标注字段，所述方法还包括：

获取目标标注字段的类型数量；

从所述多个目标任务样本子模型中获取与所述类型数量的数目相同的目标任务样本子模型作为目标标注子模型；

将所述训练样本分别输入各个所述目标标注子模型中进行训练，得到各个所述目标标注子模型对所述训练样本提取得到的训练标注子字段；

根据各个所述目标标注子模型对应的训练标注子字段和所述目标标注字段对各个所述目标标注样本子模型的参数进行调整，直到满足收敛条件，得到对应的目标文本提取子模型，各个所述目标文本子模型组成所述目标文本提取模型。

一种基于少量样本的信息提取装置，所述装置包括：

获取模块，用于获取通用文本提取模型，还用于获取少量训练样本，所述训练样本携带有目标标注字段，还用于获取待提取文本；

训练模块，用于将所述训练样本输入所述通用文本提取模型中进行训练，得到所述通用文本提取模型对所述训练样本提取得到的训练标注字段，还用于根据所述训练标注字段和所述目标标注字段对所述通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型；

提取模块，用于将所述待提取文本输入所述目标文本提取模型中，通过所述目标文本提取模型从所述待提取文本中得到目标文本信息，所述目标文本信息与所述目标标注字段为同一类型的字段信息。

在一个实施例中，所述装置还包括：

获取模块，还用于获取训练集和验证集；

模型建立模块，用于构建数据集，所述数据集包含多个任务样本，各个任务样本的文本类型不重合，还用于通过所述训练集中的任务训练数据对所述各个任务样本进行训练，得到每个任务样本对应的多个候选任务样本子模型，所述候选任务样本模型用于提取标注字段，将验证集中的验证数据输入所述候选任务样本模型中进行验证，得到各个候选任务样本子模型对应的准确率，将准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型，将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型。

在一个实施例中，所述装置还包括：

获取模块，还用于获取所述准确率最高的候选任务样本子模型对应的第一参数；

模型优化模块，用于根据所述第一参数对各任务样本的参数进行第一次梯度下降，得到所述各任务样本的共性参数，还用于根据所述第一参数对所述共性参数进行第二次梯度下降，得到目标共性参数，还用于根据所述目标共性参数得到各个任务样本对应的目标共性模型，将目标共性模型作为目标任务样本子模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取少量训练样本，所述训练样本携带有目标标注字段；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取少量训练样本，所述训练样本携带有目标标注字段；

上述基于少量样本的信息提取方法、装置、计算机设备和存储介质，通过获取通用文本提取模型，通用文本提取模型用于提取标注字段，获取少量训练样本，训练样本携带有目标标注字段，将训练样本输入通用文本提取模型中进行训练，得到通用文本提取模型对训练样本提取得到的训练标注字段，根据训练标注字段和目标标注字段对通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型，获取待提取文本，将待提取文本输入目标文本提取模型中，通过目标文本提取模型从待提取文本中得到目标文本信息，目标文本信息与所述目标标注字段为同一类型的字段信息，通过输入少量的样本对通用文本提取模型进行训练，提取出训练标注字段，并根据训练标注字段和目标标注字段对通用文本提取模型进行参数调整得到目标文本提取模型，当将待提取的文本输入目标文本提取模型时，不用预定义待提取文本中所需要提取的字段，就能得到与目标标注字段同一类型的字段信息，无需提供大量相关标注数据集进行建模，提高了文本提取的高效性和准确性。

附图说明

图1为一个实施例中基于少量样本的信息提取方法的应用环境图；

图2为一个实施例中基于少量样本的信息提取方法的流程示意图；

图3为一个实施例中通用文本提取模型的建立步骤的流程示意图；

图4为一个实施例中对通用文本提取模型的优化步骤的流程示意图；

图5为一个实施例中基于少量样本的信息提取装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于少量样本的信息提取方法，可以应用于如图1所示的应用环境中。图1为一个实施例中基于少量样本的信息提取方法运行的应用环境图。如图1所示，该应用环境包括终端110、服务器120、终端110和服务器120之间通过网络进行通信，通信网络可以是无线或者有线通信网络，例如IP网络、蜂窝移动通信网络等，其中终端和服务器的个数不限。但是需要说明的是，本方案中基于少量样本的信息提取方法的实现既可以直接在终端110上完成，也可以直接在服务器120上完成后由服务器120将最终提取的信息发送至终端110。

其中，终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端或者服务器通过获取通用文本提取模型，通用文本提取模型用于提取标注字段，通过获取训练样本，训练样本的数量小于预设阈值，训练样本携带有目标标注字段，将训练样本输入通用文本提取模型中进行训练，得到通用文本提取模型对训练样本提取得到的训练标注字段，根据训练标注字段和目标标注字段对通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型。获取待提取文本，将待提取文本输入目标文本提取模型中，通过目标文本提取模型从待提取文本中得到目标文本信息，目标文本信息与所述目标标注字段为同一类型的字段信息。通过输入少量的样本对通用文本提取模型进行训练，提取出训练标注字段，并根据训练标注字段和目标标注字段对通用文本提取模型进行参数调整得到目标文本提取模型，当将待提取的文本输入目标文本提取模型时，不用预定义待提取文本中所需要提取的字段，就能得到与目标标注字段同一类型的字段信息，无需提供大量相关标注数据集进行建模，提高了文本提取的高效性和准确性。

在一个实施例中，如图2所示，提供了一种基于少量样本的信息提取方法，以该方法应用于图1中的终端110为例进行说明，包括以下步骤：

步骤210，获取通用文本提取模型，通用文本提取模型用于提取标注字段。

其中，通用文本提取模型是已经训练的用来提取标注字段的模型。具体的通用文本提取模型可以是Bi-LSTM-CRF模型即命名实体识别模型，也可以是序列标注模型。将通用文本提取模型进行元学习（mata learning）,学习一些通用的领域无关特征。当用户输入少量样本时，该通用文本模型能基于这些领域无关特征给出用户所希望的字段，达到信息提取的作用。

步骤220，获取少量训练样本，训练样本携带有目标标注字段。

其中，训练样本指的是用户输入的文本样本。少量的训练样本是指训练样本的数量小于预设阈值，可以是小数目范围训练样本，比如训练样本的数量范围在十个以内，比如输入3至5份样本，甚至可以仅输入1份样本。目标标注字段是指在样本中进行标注的字段，即用户想要提取的信息字段。比如用户输入的样本是1份法律文书、1份合同，法律文书中标注的字段为“上诉法院”，字段对应的信息为“某法院”这个法院的名称，合同中标注的字段是“甲方”，字段对应的信息“A公司”这个公司的名称，那么训练样本就是为两份，目标标注字段分别为“上诉法院”“甲方”，目标标注字段在这两份特定的样本中对应的具体信息分别是“某法院”和“A公司”。

步骤230，将训练样本输入通用文本提取模型中进行训练，得到通用文本提取模型对训练样本提取得到的训练标注字段。

步骤240，根据训练标注字段和目标标注字段对通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型。

步骤250，获取待提取文本，将待提取文本输入目标文本提取模型中，通过目标文本提取模型从待提取文本中得到目标文本信息，目标文本信息与目标标注字段为同一类型的字段信息。

具体地，将训练样本输入通用文本提取模型中进行训练，通过训练对通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型。将少量训练样本输入通用文本提取模型中训练，最后得到目标文本提取模型的整个训练过程就是通用文本提取模型的一个元学习的过程，即在学习一些通用的领域无关特征，学习通用的领域无关特征这里具体指的是学习目标标注字段的内容，上述例子中可以是学习的“上诉法院”对应的“某法院”和“甲方”对应的“A公司”。元学习过程可以是通过将训练样本输入通用文本提取模型中进行训练，得到通用文本提取模型对训练样本提取得到的训练标注字段，根据训练标注字段和所述目标标注字段对通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型。

进一步的，通过学习得到了目标文本提取模型，当用户在目标文本提取模型中输入待提取文本时，即使待提取文本的领域并不是上述训练样本中涉及的合同领域和法律文本领域，待提取文本中也没有标注字段，目标文本提取模型能够预测用户所希望提取的字段并将字段对应的信息提取出来。比如在上述例子中，通过输入携带有目标标注字段的两份训练样本进行训练得到目标文本提取模型，即输入一份合同和一份法律文书，分别携带目标标注字段是“上诉法院”、“甲方”字段对应的信息分别是“某法院”和“A公司”。得到目标文本提取模型后，用户再输入一份简历，简历中没有预先标注的字段，即用户并没有预先标注提取简历中的哪些字段，并且可以理解的是，简历与合同、法律文书也是涉及不同领域的，但是目标文本提取模型会从这份简历中提取出“张三”这个名字，即预测出用户想要得出这份简历中求职者的姓名，并将该简历中的名字字段对应的信息提取出来。可以理解的是，当输入的待提取文本与训练样本不是同一领域的文本，目标文本提取模型能够预测并提取出目标文本信息，当输入的待提取文本与训练样本是同一领域的文本时，目标文本提取模型也可以预测并提取出目标文本信息。目标文本信息与目标标注字段为同一类型的字段信息，可以理解的是，目标文本提取模型是通用文本提取模型经过元学习得到的，具备预测用户想要从待提取文本中提取什么信息作为目标文本信息的能力。

在本实施例中，通过输入少量的样本对通用文本提取模型进行训练，提取出训练标注字段，并根据训练标注字段和目标标注字段对通用文本提取模型进行参数调整得到目标文本提取模型，从通用文本提取模型到目标文本提取模型的训练过程其实是元学习的一个过程，学习到的是如何利用少量的训练样本以及训练样本中目标标注字段的信息，对新输入的样本预测的能力。当将待提取文本输入目标文本提取模型时，不用预定义待提取文本中所需要提取的字段，目标文本提取模型不会限于针对某一特定领域，能够适用于通用领域的待提取文本，无需提供大量相关标注数据集进行建模，就能够从待提取文本中预测并提取需要提取的字段，提高了文本提取的高效性、准确性以及通用性。

在一个实施例中，如图3所示，为通用文本提取模型建立步骤的方法流程图，包括以下步骤：

步骤310，构建数据集，数据集包含多个任务样本，各个任务样本的文本类型不重合。

步骤320，获取训练集和验证集，通过训练集中的任务训练数据对各个任务样本进行训练，得到每个任务样本对应的多个候选任务样本子模型，所述候选任务样本模型用于提取标注字段。

其中，数据集是指包含多个任务样本的集合，各个任务样本的文本类型不重合。在每个任务样本中都存在任务训练数据和任务测试数据。在本实施例中可以将任务样本按照6:2:2的比例分成训练集、验证集、测试集，即训练集、验证集和测试集中都存在任务训练数据和任务测试数据。训练集、验证集、测试集中的训练样本是不重合的，各个训练样本中的文本类型也是不重合的。训练集是用于训练分类模型，后续结合验证集作用，会选出同一参数的不同取值。验证集是当通过训练集训练出多个模型后，为了能找出效果最佳的模型，使用各个模型对验证集数据进行预测，并记录模型准确率。选出效果最佳的模型所对应的参数，即用来调整模型参数。测试集是通过训练集和验证集得出最优模型后，使用测试集进行模型预测，用来衡量该最优模型的性能和分类能力，即可以把测试集作为不存在的数据集，当已经确定模型参数后，使用测试集进行模型性能评价。进一步的，通过训练集中的任务训练数据对各个任务样本进行训练，训练过程就是一个分类的过程，每一个任务样本得到对应的多个候选任务样本子模型，候选任务样本子模型用于提取标注字段。

步骤330，将验证集中的验证数据输入所述候选任务样本模型中进行验证，得到各个候选任务样本子模型对应的准确率。

步骤350，将准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型，将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型。

其中，验证集中的验证数据是指在构建数据集时分到验证集中的任务样本对应的任务训练数据和任务测试数据。验证是指将验证集中的多个任务训练数据输入候选任务样本子模型中训练，得到多个任务测试数据，将任务测试数据和任务训练数据一对一的对比匹配，得到候选任务样本子模型对应准确率。准确率是指任务测试数据和任务训练数据匹配成功的比例。在本实施例中，构建包括多个任务样本的数据集，通过训练集分类模型得到每个任务样本对应的多个候选任务样本模型，在每一个任务样本对应的多个候选任务样本模型中选取一个准确率最高的候选任务样本模型作为每一个任务样本对应的目标任务样本子模型，将各个任务样本对应的目标任务样本子模型组成通用文本提取模型，通用文本提取模型能够提取准确的提取标注字段。

在一个实施例中，如图4所示，为对通用文本提取模型优化步骤的方法流程图，包括以下步骤：

步骤410，获取准确率最高的候选任务样本子模型对应的第一参数。

步骤420，根据第一参数对各任务样本的参数进行第一次梯度下降，得到各任务样本的共性参数。

步骤430，根据第一参数对共性参数进行第二次梯度下降，得到目标共性参数，根据目标共性参数得到各个任务样本对应的目标共性模型，将目标共性模型作为目标任务样本子模型。

其中，梯度下降是迭代法的一种,在求解机器学习算法的模型参数，即无约束优化问题时，通过梯度下降法来一步步的迭代求解，调整模型参数，使得损失函数最小化，达到优化模型的目的。在本实施例中，根据准确率最高的候选任务样本子模型对应的第一参数对各任务样本进行第一次梯度下降，得到的各任务样本的共性参数，根据第一参数对共性参数进行第二次梯度下降，得到目标共性参数。假设各任务样本达到目标共性参数时，满足所有的任务样本都服从一个分布，即存在共性，本实施例是通过两次梯度下降得到目标共性参数，由于梯度下降是一个迭代过程，在其他实施例中对梯度下降的次数并不一定是限于两次，通过多次梯度下降的目的在于优化模型，得到目标共性参数，根据目标共性参数得到各个任务样本对应的目标共性模型，将目标共性模型作为目标任务样本子模型，目标任务样本子模型组成通用文本提取模型。最后的组成的通用文本提取模型既包含所有任务样本，且不会偏向于某一个任务样本。

在一个实施例中，在将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型的步骤之后，还包括：

获取任务训练数据，任务训练数据携带有标记数据。

将任务训练数据输入通用文本提取模型中进行测试，得到任务测试数据。

将任务测试数据与标记数据进行比对，若任务测试数据与标记数据相同，则将训练样本输入通用文本提取模型中进行训练，得到通用文本提取模型对训练样本提取得到的训练标注字段；根据训练标注字段和目标标注字段对通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型。

其中，任务训练数据是训练集中的任务训练数据，任务训练数据中携带有标记数据，比如训练集中有一份任务样本为一份合同，那么合同中的所有文本信息可以称为任务训练数据，标记数据是预先设定的，比如标记信息是“B公司”。将任务训练数据输入通用文本提取模型中进行测试，得到任务测试数据，比如若得到的任务测试数据为“B公司”，将任务测试数据与标记数据进行比对，可以看出任务测试数据与任务训练数据相同，则将训练样本输入通用文本提取模型中进行训练，得到通用文本提取模型对训练样本提取得到的训练标注字段，根据训练标注字段和目标标注字段对通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型。

若任务测试数据与标记数据不相同，则根据标记数据和任务测试数据对任务训练数据进行修正，得到修正任务训练数据，通过修正任务训练数据对各个任务样本进行再次训练，得到修正通用文本提取模型。

将修正任务训练数据输入修正通用文本提取模型中进行再次测试，得到修正任务测试数据，将修正任务测试数据与标记数据进行比对，直到修正任务测试数据与标记数据相同时，则停止对修正任务测试数据的修正，并将训练样本输入修正通用文本提取模型中进行训练，得到修正通用文本提取模型对训练样本提取得到的修正训练标注字段。

根据修正训练标注字段和目标标注字段对修改通用文本提取模型的参数进行调整，直到满足收敛条件，得到修改目标文本提取模型，将修改目标文本提取模型作为目标文本提取模型。

具体地，在上述例子中，标记数据为“甲方”和甲方对应的“B公司”，若得到的任务测试数据为“B公司”和“C公司”，将任务测试数据与标记数据进行比对，可以看出任务测试数据与任务训练数据不相同，则根据标记数据和任务测试数据对任务训练数据进行修正，得到修正任务训练数据，通过修正任务训练数据对各个任务样本进行再次训练，得到修正通用文本提取模型。修正可以是用户进行选择修正的，比如将“C公司”也进行标注。将标注后的任务测试数据加入任务训练数据中，得到修正任务训练数据，修正任务训练数据输入修正通用文本提取模型中进行再次测试，得到修正任务测试数据，将修正任务测试数据与标记数据进行比对，直到修正任务测试数据与标记数据相同时，则停止对修正任务测试数据的修正。通过不断的修正，来更新目标文本提取模型，提高目标文本提取模型的预测能力，让预测和提取的信息越来越偏向于用户希望提取的内容，提高了信息提取的准确性。

在一个实施例中，训练样本中携带有至少两种类型的目标标注字段，所述方法还包括：

获取目标标注字段的类型数量。

其中，目标标注字段的类型数量是指训练样本中标注的不同字段的数量，比如训练样本是一份合同、一份法律文书，合同中标注的字段是“甲方”、“合同履行地”，法律文书中标注的字段是“上诉法院”、“法院所在地”，那么就存在四种类型的字段，即目标标注字段的类型数量是四个。

从所述多个目标任务样本子模型中获取与所述类型数量的数目相同的目标任务样本子模型作为目标标注子模型。

将所述训练样本分别输入各个所述目标标注子模型中进行训练，得到各个所述目标标注子模型对所述训练样本提取得到的训练标注子字段。

根据各个所述目标标注子模型对应的训练标注子字段和所述目标标注字段对各个所述目标任务样本子模型的参数进行调整，直到满足收敛条件，得到对应的目标文本提取子模型，各个所述目标文本子模型组成所述目标文本提取模型。

其中，当训练样本中的目标标注字段的类型不止一种时，则要分别在不同的模型进行训练。获取与训练样本中目标标注字段的类型数量的数目相同的目标任务样本子模型作为目标标注子模型，将训练样本分别输入各个目标标注子模型中进行训练，即目标标注子模型的数量有训练样本中目标标注字段的类型决定。每一个目标标注子模型通过训练、参数调整都会对应得到一个目标文本提取子模型，再由目标文本提取子模型组成目标文本提取模型。这样，得到的目标文本提取模型能够根据目标标注字段分类型具有针对性的处理。

应该理解的是，虽然图1-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种基于少量样本的信息提取装置，包括获取模块710、训练模块720、提取模块730，其中：

获取模块710，用于获取通用文本提取模型，还用于获取少量训练样本，所述训练样本携带有目标标注字段，还用于获取待提取文本。

训练模块720，用于将所述训练样本输入所述通用文本提取模型中进行训练，得到所述通用文本提取模型对所述训练样本提取得到的训练标注字段，还用于根据所述训练标注字段和所述目标标注字段对所述通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型。

提取模块730，用于将所述待提取文本输入所述目标文本提取模型中，通过所述目标文本提取模型从所述待提取文本中得到目标文本信息，所述目标文本信息与所述目标标注字段为同一类型的字段信息。

在一个实施例中，装置还包括：

获取模块710，还用于获取训练集和验证集。

模型建立模块740，用于构建数据集，所述数据集包含多个任务样本，各个任务样本的文本类型不重合，还用于通过所述训练集中的任务训练数据对所述各个任务样本进行训练，得到每个任务样本对应的多个候选任务样本子模型，所述候选任务样本模型用于提取标注字段，将验证集中的验证数据输入所述候选任务样本模型中进行验证，得到各个候选任务样本子模型对应的准确率，将准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型，将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型。

在一个实施例中，装置还包括：

获取模块710，还用于获取所述准确率最高的候选任务样本子模型对应的第一参数。

模型优化模块750，用于根据所述第一参数对各任务样本的参数进行第一次梯度下降，得到所述各任务样本的共性参数，还用于根据所述第一参数对所述共性参数进行第二次梯度下降，得到目标共性参数，还用于根据所述目标共性参数得到各个任务样本对应的目标共性模型，将目标共性模型作为目标任务样本子模型。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储简历信息提取相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于少量样本的信息提取方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取通用文本提取模型，所述通用文本提取模型用于提取标注字段；获取少量训练样本，所述训练样本携带有目标标注字段；将所述训练样本输入所述通用文本提取模型中进行训练，得到所述通用文本提取模型对所述训练样本提取得到的训练标注字段；根据所述训练标注字段和所述目标标注字段对所述通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型；获取待提取文本，将所述待提取文本输入所述目标文本提取模型中，通过所述目标文本提取模型从所述待提取文本中得到目标文本信息，所述目标文本信息与所述目标标注字段为同一类型的字段信息。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取通用文本提取模型，所述通用文本提取模型用于提取标注字段；获取少量训练样本，所述训练样本携带有目标标注字段；将所述训练样本输入所述通用文本提取模型中进行训练，得到所述通用文本提取模型对所述训练样本提取得到的训练标注字段；根据所述训练标注字段和所述目标标注字段对所述通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型；获取待提取文本，将所述待提取文本输入所述目标文本提取模型中，通过所述目标文本提取模型从所述待提取文本中得到目标文本信息，所述目标文本信息与所述目标标注字段为同一类型的字段信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于少量样本的信息提取方法，所述方法包括：

获取少量训练样本，所述训练样本携带有目标标注字段；

获取待提取文本，将所述待提取文本输入所述目标文本提取模型中，通过所述目标文本提取模型从所述待提取文本中得到目标文本信息，所述目标文本信息与所述目标标注字段为同一类型的字段信息；

其中，所述通用文本提取模型和所述目标文本提取模型的建立步骤为：

获取训练集和验证集；

通过所述训练集中的任务训练数据对所述各个任务样本进行训练，得到每个任务样本对应的多个候选任务样本子模型，所述候选任务样本子模型用于提取标注字段；

将验证集中的验证数据输入所述候选任务样本子模型中进行验证，得到各个候选任务样本子模型对应的准确率；

将准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型，将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型；

根据所述修正训练标注字段和所述目标标注字段对所述修正通用文本提取模型的参数进行调整，直到满足收敛条件，得到修改目标文本提取模型，将所述修改目标文本提取模型作为目标文本提取模型。

2.根据权利要求1所述的方法，其特征在于，所述通用文本提取模型是命名实体识别模型。

3.根据权利要求1所述的方法，其特征在于，将所述准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型的步骤，还包括：

4.根据权利要求1所述的方法，其特征在于，所述训练样本中携带有至少两种类型的目标标注字段，所述方法还包括：

获取目标标注字段的类型数量；

从多个所述目标任务样本子模型中获取与所述类型数量的数目相同的目标任务样本子模型作为目标标注子模型；

根据各个所述目标标注子模型对应的训练标注子字段和所述目标标注字段对各个所述目标标注子模型的参数进行调整，直到满足收敛条件，得到对应的目标文本提取子模型，各个所述目标文本提取子模型组成所述目标文本提取模型。

5.根据权利要求1所述的方法，其特征在于，所述目标标注字段的类型数量是指训练样本中标注的不同字段的数量。

6.一种基于少量样本的信息提取装置，其特征在于，所述装置包括：

提取模块，用于将所述待提取文本输入所述目标文本提取模型中，通过所述目标文本提取模型从所述待提取文本中得到目标文本信息，所述目标文本信息与所述目标标注字段为同一类型的字段信息；

所述获取模块，还用于获取训练集和验证集；

模型建立模块，用于构建数据集，所述数据集包含多个任务样本，各个任务样本的文本类型不重合，还用于通过所述训练集中的任务训练数据对所述各个任务样本进行训练，得到每个任务样本对应的多个候选任务样本子模型，所述候选任务样本子模型用于提取标注字段；将验证集中的验证数据输入所述候选任务样本子模型中进行验证，得到各个候选任务样本子模型对应的准确率；将准确率最高的候选任务样本子模型作为任务样本对应的目标任务样本子模型，将各个任务样本对应的目标任务样本子模型组成所述通用文本提取模型；

所述获取模块，还用于获取所述任务训练数据，所述任务训练数据携带有标记数据；

所述模型建立模块，还用于将所述任务训练数据输入所述通用文本提取模型中进行测试，得到任务测试数据；将所述任务测试数据与所述标记数据进行比对，若任务测试数据与标记数据相同，则将所述训练样本输入所述通用文本提取模型中进行训练，得到所述通用文本提取模型对所述训练样本提取得到的训练标注字段；根据所述训练标注字段和所述目标标注字段对所述通用文本提取模型的参数进行调整，直到满足收敛条件，得到目标文本提取模型；若任务测试数据与标记数据不相同，则根据所述标记数据和所述任务测试数据对所述任务训练数据进行修正，得到修正任务训练数据，通过所述修正任务训练数据对所述各个任务样本进行再次训练，得到修正通用文本提取模型；将所述修正任务训练数据输入修正通用文本提取模型中进行再次测试，得到修正任务测试数据，将所述修正任务测试数据与所述标记数据进行比对，直到所述修正任务测试数据与所述标记数据相同时，则停止对所述修正任务测试数据的修正，并将所述训练样本输入所述修正通用文本提取模型中进行训练，得到所述修正通用文本提取模型对所述训练样本提取得到的修正训练标注字段；根据所述修正训练标注字段和所述目标标注字段对所述修正通用文本提取模型的参数进行调整，直到满足收敛条件，得到修改目标文本提取模型，将所述修改目标文本提取模型作为目标文本提取模型。

7.根据权利要求6所述的装置，其特征在于，所述训练样本中携带有至少两种类型的目标标注字段，所述装置还包括：

所述获取模块，还用于获取目标标注字段的类型数量；

所述模型建立模块，还用于从多个所述目标任务样本子模型中获取与所述类型数量的数目相同的目标任务样本子模型作为目标标注子模型；将所述训练样本分别输入各个所述目标标注子模型中进行训练，得到各个所述目标标注子模型对所述训练样本提取得到的训练标注子字段；根据各个所述目标标注子模型对应的训练标注子字段和所述目标标注字段对各个所述目标标注子模型的参数进行调整，直到满足收敛条件，得到对应的目标文本提取子模型，各个所述目标文本提取子模型组成所述目标文本提取模型。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。