CN114139545A

CN114139545A - 信息提取方法及装置

Info

Publication number: CN114139545A
Application number: CN202111489104.XA
Authority: CN
Inventors: 侯依宁; 李长亮; 毛璐
Original assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Technology Co ltd; Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-03-04

Abstract

本申请提供一种信息提取方法及装置，其中所述信息提取方法包括：对接收到的待处理文本进行分句处理，获得初始句子集合；获取所述初始句子集合中每个句子对应的分类信息；根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；根据所述目标实体集合确定所述待处理文本的信息提取结果。通过本方法，提升了信息提取效率以及信息提取的准确率。

Description

信息提取方法及装置

技术领域

本申请涉及计算机技术领域，特别涉及一种信息提取方法及装置、计算设备和计算机可读存储介质。

背景技术

在文本处理领域，通常会需要对文本进行信息提取，目前的处理方式是对整个文本进行识别和抽取，但对文本的信息提取属于篇章级的信息提取，当前的信息模型无法处理文本，或提取效果较差，有的文本中要提取的信息通常只出现在部分区域，不会在全文出现，例如在合同文件中，要提取的信息出现在特定区域，条款信息中通常不包含实体信息，对整个文本进行信息抽取时，抽取效率很低，目前对整个文本的信息提取方法是基于规则进行信息提取，即利用人工总结规律，构建一些规则，基于规则从文本中找出实体信息，但是由于文本的类型很多，基于规则的信息提取方法很难做到非常好的泛化性，对于不同类型的文本要配置不同的规则，工作量也十分巨大，耗费人力物力。

发明内容

有鉴于此，本申请实施例提供了一种信息提取方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种信息提取方法，包括：

对接收到的待处理文本进行分句处理，获得初始句子集合；

获取所述初始句子集合中每个句子对应的分类信息；

根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；

将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；

根据所述目标实体集合确定所述待处理文本的信息提取结果。

根据本申请实施例的第二方面，提供了一种信息提取装置，包括：

分句模块，被配置为对接收到的待处理文本进行分句处理，获得初始句子集合；

句子分类模块，被配置为获取所述初始句子集合中每个句子对应的分类信息；

确定模块，被配置为根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；

实体识别模块，被配置为将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；

信息提取模块，被配置为根据所述目标实体集合确定所述待处理文本的信息提取结果。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述信息提取方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现所述信息提取方法的步骤。

根据本申请实施例的第五方面，提供了一种芯片，其存储有计算机指令，该计算机指令被芯片执行时实现所述信息提取方法的步骤。

本申请实施例提供的信息提取方法，包括：对接收到的待处理文本进行分句处理，获得初始句子集合；获取所述初始句子集合中每个句子对应的分类信息；根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；根据所述目标实体集合确定所述待处理文本的信息提取结果。通过本方法，先通过句子分类，将待处理文本中不包含实体信息的句子过滤，再对包含实体信息的句子进行实体识别，避免了整篇文档进行实体抽取导致的抽取效率低的问题，也避免了在不包含实体的段落中抽取错误实体导致的信息抽取准确率低的问题。提升了信息提取效率以及信息提取的准确率。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的信息提取方法的流程图；

图3是本申请实施例提供的信息提取方法在合同文本进行信息提取的示意图；

图4是本申请实施例提供的信息提取装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

实体：指现实世界中客观存在的并可以互相区分的对象或事物，比如一个人名、一个地址名、一个合同名、一个日期等等。

Bert(Bidirectional Encoder Representations from Transformers)：一种双向注意力神经网络模型，是用于自然语言处理的预训练技术。

待处理文本：需要进行信息提取的载体，例如合同里的文本信息；法律文件中的文本信息等等。

待处理文件：待处理文本对应的文件，例如合同、法律文件等。

初始句子集合：待处理文本经过分句处理后，获得的初始句子的集合，在初始句子集合中不区分句子的分类。

目标句子集合：在初始句子集合中进行筛选后，确定句子的分类信息为包括实体信息的句子组成的集合，即目标句子集合中的目标句子均包括实体信息。

目标段落集合：由目标句子组成的段落为目标段落，多个目标段落组成目标段落集合。

目标实体集合：从目标段落中提取出的实体信息集合，包括目标实体、目标实体类型和目标实体对应的句子序号。

预设分句标识符：用于划分初始句子的标识，例如“。”、“？”、“！”等。

分类信息：用于表示句子分类的信息，分为第一类句子和第二类句子，其中，第一类句子代表句子中包括实体信息，第二类句子代表句子中不包括实体信息。

在文本处理领域，通常会需要对文本进行信息提取，目前的处理方式是对整个文本进行识别和抽取，对文本的信息提取属于篇章级的信息提取，当前的信息模型无法处理文本，或提取效果较差，例如对于合同对应的文本，对其进行信息提取可以通过信息提取模型，但是信息提取模型是句子级的信息提取，处理的文本长度较短，并且训练数据一般包含比较丰富的上下文信息，更加容易推理实体的类别和实际间的关系；还可以对整篇合同的信息提取采用基于规则进行信息提取，即利用人工总结规律构建一些规则，找出合同中的文本信息，但是由于合同的书写类型非常多，基于规则的方法很难做到很好的泛化型。

基于此，在本申请中，提供了一种信息提取方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示信息提取方法中的步骤。图2示出了根据本申请一实施例的信息提取方法的流程图，包括步骤202至步骤210。

步骤202：对接收到的待处理文本进行分句处理，获得初始句子集合。

其中，待处理文本是需要进行信息提取的文本，例如合同里的文本信息，法律文件中的文本信息等等，本申请提供的信息提取方法，提供了一种提取文本中的相关实体信息的方法。本申请提供的信息提取方法，既可以处理长文本，也可以处理短文本，具体的，长文本是指待处理文本中字符的字数超过阈值的文本，短文本具体是指待处理文本中字符的字数未超过阈值的文本。优选的，本申请提供的信息提取方法对长文本的信息提取率和提取准确率有更明显的提高。

在获得待处理文本后，需要对待处理文本进行分句，即将待处理文本划分为多个初始句子，组成初始句子集合，其中，初始句子集合即待处理文本经过分句处理后，获得的初始句子组成的集合。

在实际应用中，待处理文本是由多个句子组成，为待处理文本进行分句处理的方式通常是通过标点符号划分，因此，对接收到的待处理文本进行分句处理，获得初始句子集合，包括S2022-S2024：

S2022、获取预设分句标识符；

S2024、根据所述预设分句标识符对所述待处理文本进行分句处理，获得初始句子集合。

其中，预设分句标识符具体是指用于划分初始句子的标识，例如“。”、“？”、“！”等，在实际应用中，在进行分句处理时，可以将任意的标点符号作为预设分句标识符，也可以使用特定的标点符号作为预设分句标识符，预设分句标识符的具体内容不做限定，以实际应用为准。

根据预设分句标识符对待处理文本进行分句，可以将待处理文本划分为多个初始句子，组成初始句子集合。

在本申请提供的一具体实施方式中，待处理文本为“句子1，句子2，句子3。句子4；句子5；句子6！句子7。……”，获取预设分句标识符“，”、“。”、“；”、“？”、“！”等等，根据预设分句标识符对待处理文本进行分句处理，获得多个初始句子，并组成初始句子集合{句子1、句子2、句子3……句子n}。

在实际应用中，待处理文本通常是以文件的形式出现，基于此，所述方法还包括：

接收待处理文件；

解析所述待处理文件，获得所述待处理文件对应的待处理文本。

待处理文件即为待处理文本对应的文件，例如待处理文本为合同文本，则待处理文件即为合同文件；又例如待处理文本为法律文本，则待处理文件即为法律文件，具体的，待处理文件可以为txt格式的文件、pdf格式的文件、docx格式的文件等等，在本申请中，对待处理文件的格式不做限定。待处理文件可以是用户通过客户端上传的，也可以是预先保存在客户端中，由用户选择的。

接收待处理文件，通过文本识别技术解析该待处理文件，如果待处理文件为DOC、DOCX、WPS或TXT等类型，则将该待处理文件作为DOCX类型进行处理，在该待处理文件不为DOCX类型的情况下，将该待处理文件通过LibreOffice(拥有强大的数据导入和导出功能，能直接导入PDF文档、微软Word(.doc文件)、LotusWord，支持主要的OpenXML格式)等工具转换为DOCX类型，并针对DOCX格式提取文本；如果该待处理文件为PDF、PNG、JPG、JPEG或TIFF等类型，则将该待处理文件作为PDF类型进行处理，并在该待处理文件不为PDF类型的情况下，将该待处理文件转换为PDF类型，并针对PDF类型的待处理文件进行目标识别以及OCR识别提取文本。

将该待处理文件中的文本内容提取出来，获得对应的待处理文本，待处理文本仅保留待处理文件中的文本内容，清除了待处理文件中的格式样式等设置。

步骤204：获取所述初始句子集合中每个句子对应的分类信息。

在获得初始句子集合后，需要对每个句子进行分类，确定每个句子的分类信息。

在实际应用中，确定每个句子的分类信息可以通过人工标注的方式，即显示每个句子，由工作人员针对每个句子进行分类标注，确定每个句子的分类信息，但是上述方式对于工作人员的要求较高，也比较耗费工作人员的精力，当数据量比较大时，会有误判的现象发生，因此，获取初始句子集合中每个句子对应的分类信息还可以通过句子分类模型实现。

具体的，获取所述初始句子集合中每个句子对应的分类信息，包括：

将所述初始句子集合输入至句子分类模型中进行处理，获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息。

其中，句子分类模型具体是指用于为初始句子进行分类的人工智能模型，并输出初始句子的分类信息，在实际应用中，句子分类模型是根据初始句子中是否包括实体信息来为句子进行分类。分类信息即每个初始句子对应的分类。

具体的，将所述初始句子集合输入至句子分类模型中进行处理，获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息，包括S2042-S2046：

S2042、在所述初始句子集合中确定目标初始句子，并将所述目标初始句子输入至句子分类模型中进行句子分类，其中，所述句子分类模型被训练于判断句子中是否包含实体信息；

S2044、在所述目标初始句子包含实体信息的情况下，获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第一类句子；

S2046、在所述目标初始句子未包含实体信息的情况下，获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第二类句子。

在实际应用中，句子分类模型一次可以只处理一条句子，也可以一次处理多条句子，目标初始句子即为需要输入到句子分类模型中进行处理的初始句子。

在实际应用中，可以根据实际情况，将初始句子集合中的每个初始句子依次作为目标初始句子；也可以在初始句子集合中确定有特殊含义的部分初始句子为目标初始句子，如初始句子集合中包括每个初始句子对应的段落信息，仅选取每个段落中的第一个初始句子为目标初始句子。为了提高信息提取的准确率，优选的在本方案中，将初始句子集合中每个初始句子均作为目标初始句子进行处理。

当句子分类模型只处理一条句子时，可以在初始句子集合中确定一条目标初始句子，并将该目标初始句子输入至句子分类模型中进行处理，此时，可以根据初始句子集合中每个初始句子的顺序进行选择，还可以在初始句子集合中随机选择目标初始句子，具体选择方式不做限定，需要注意的是，每个初始句子仅被选中输入至分类模型进行处理一次，初始句子集合中的部分初始句子或全部初始句子输入至句子分类模型进行处理；当句子分类模型处理多条句子时，可以在初始句子集合中确定多条目标初始句子，将多条目标初始句子进行拼接，并将拼接后的目标初始句子输入至句子分类模型中进行处理。

句子分类模型被训练于判断目标初始句子中是否包含有实体信息，当目标初始句子中包括实体信息的情况下，则输出该目标初始句子对应的分类信息为第一类句子；当目标初始句子中不包括实体信息的情况下，则输出该目标初始句子对应的分类信息为第二类句子，其中，第一类句子代表句子中包括实体信息，第二类句子代表句子中不包括实体信息。

在本申请提供的一具体实施方式中，以将初始句子集合中的每个初始句子均作为目标初始句子为例，沿用上例，初始句子集合为{句子1、句子2、句子3……句子n}，当句子分类模型一次只处理一条句子时，依次在初始句子集合中选取句子1、句子2、句子3……句子n分别作为目标初始句子，并输入至句子分类模型，获得每个句子对应的句子分类信息，具体可以标识为“句子1，第一类句子”、“句子2，第一类句子”、“句子3，第二类句子”……“句子n，第二类句子”，即初始句子集合中的每一个句子均输入句子分类模型完成分类，获得每个句子对应的句子分类信息。

在本申请提供的另一具体实施方式中，以初始句子集合中的部分初始句子作为目标初始句子为例，沿用上例，初始句子集合为{句子1、句子2、句子3……句子n}，在其中依序或随机确定目标初始句子为句子1、句子2、句子3……句子m，其中m小于等于n，则将目标初始句子用特定符号拼接起来，如采用“#”进行拼接，获得拼接后的目标初始句子为“句子1#句子2#句子3#……句子m”，并将拼接后的目标初始句子输入到句子分类模型中，句子分类模型输出每个目标初始句子对应的分类信息“第一类句子#第一类句子#第二类句子……第二类句子”，其中，当m小于n时，即初始句子集合中的部分初始句子作为目标初始句子，拼接后输入句子分类模型，可以理解的，当初始句子集合中的全部初始句子需输入句子分类模型，且m小于n时，从剩余的n-m个句子中确定目标初始句子，采用同样的方式进行拼接，将拼接后的目标初始句子输入句子分类模型以得到各目标初始句子对应的分类信息，依次类推，直至初始句子集合中的所有句子均输入句子分类模型完成分类。

句子分类模型是经过训练的人工智能模型，句子分类模型可以是Bert模型、Transformer模型等等，在本申请实施例中，句子分类模型以Bert模型为例进行解释说明，该句子分类模型包括嵌入层、12个顺次连接的编码层和全连接层，将目标初始句子输入至嵌入层，生成目标初始句子向量，再将目标初始句子向量依次输入至12个编码层进行处理，获得目标初始句子编码向量，再将目标初始句子编码向量输入至全连接层进行处理，输出目标初始句子编码向量对应的分类信息。句子分类模型是经过预先训练好的，具备根据句子输出句子对应的分类信息的能力，具体的，所述句子分类模型通过下述步骤训练：

获取样本句子和所述样本句子对应的样本分类信息；

将所述样本句子输入至待训练句子分类模型，以使所述待训练句子分类模型判断所述样本句子中是否包含实体信息；

获得所述待训练句子分类模型输出的所述样本句子对应的预测分类信息；

根据所述预测分类信息和所述样本分类信息计算分类模型损失值；

根据所述分类模型损失值调整所述待训练句子分类模型的模型参数，并继续训练所述待训练句子分类模型，直至达到训练停止条件，获得训练好的句子分类模型。

其中，样本句子和样本句子对应的样本分类信息为句子分类模型的训练样本，其中样本句子即为用于输入至句子分类模型的句子，样本分类信息为该样本句子对应的分类信息，如实体信息和非实体信息。

将样本句子输入至句子分类模型进行处理，句子分类模型识别样本句子中是否包含实体信息，并根据样本句子中是否识别到实体信息来输出预测分类信息，将获得的预测分类信息与样本分类信息计算损失值，计算损失值的损失函数在实际应用中可以为0-1损失函数、绝对值损失函数、平方损失函数、交叉熵损失函数等，在本申请中，对损失函数的选择不做限定，以实际应用为准。在此，以交叉熵损失函数为例进行解释说明，参见下述公式1：

其中，C表示损失值Loss，x表示样本句子，y表示样本分类信息、a表示预测的输出，n表示样本总数量。在计算Loss值之后，根据Loss值反向传播调整句子分类模型中的学习率参数、Batch_size参数等，并用下一批次样本数据继续训练句子分类模型，直至损失值小于预设阈值和/或训练轮次达到预设的轮次。

在本申请提供的一具体实施方式中，以通过损失值小于预设阈值来停止训练所述句子分类模型为例，预设阈值为0.3，则当计算得到的Loss值小于0.3时，则认定句子分类模型训练完成。

在本申请提供的另一具体实施方式中，以预设的训练轮次来停止训练所述句子分类模型为例，预设的训练轮次为10轮，当样本数据的训练轮次到达10轮后，则认定句子分类模型已经训练完成。

在本申请提供的又一具体实施方式中，设置损失值预设阈值和预设训练轮次两个训练停止条件，同时监控损失值和训练轮次，当损失值或训练轮次中任意一项满足训练停止条件时，则认定句子分类模型已经训练完成。

步骤206：根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合。

在获得每个句子对应的分类信息之后，根据每个句子对应的分类信息即可在初始句子集合中对初始句子进行筛选，确定目标句子，并组成目标句子集合，再根据目标句子集合中每个目标句子的位置信息将目标句子拼接成目标段落组合，目标句子集合即在初始句子集合中进行筛选后，确定句子的分类信息包括实体信息的句子组成的集合。目标段落，即由目标句子组成的段落。目标段落集合即由至少一个目标段落组成的集合。

具体的，根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合，包括S2062-S2064：

S2062、确定分类信息为第一类句子的初始句子为目标句子，获得目标句子集合；

S2064、根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接，生成目标段落集合。

具体的，根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接，生成目标段落集合，包括：

将连续相邻的位置信息对应的目标句子进行拼接，生成一个目标段落；

根据每个目标段落生成目标段落集合。

其中，将初始句子集合中分类信息为第一类句子的初始句子确定为目标句子，即确定包含实体信息的初始句子为目标句子，并组成目标句子集合。在实际应用中，将对待处理文本进行分句处理时，会为每个初始句子进行编号，用以标识每个句子在待处理文本中的位置信息，再将编号相连的目标句子进行拼接，组成目标段落，将生成的目标段落组成目标段落集合，即位置相邻的目标句子拼接组成目标段落，目标段落再组成目标段落集合。

步骤208：将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合。

命名实体识别模型，也是经过训练的人工智能模型，命名实体识别模型可以是Bert模型、Transformer模型等等，在本申请实施例中，命名实体识别模型依然以Bert模型为例进行解释说明，该命名实体识别模型包括嵌入层、12个顺次连接的编码层和全连接层，将目标段落输入至嵌入层，生成目标段落向量，再将目标段落向量依次输入至12个编码层进行处理，获得目标段落编码向量，再将目标段落编码向量输入至全连接层进行处理，输出目标段落编码向量对应的目标实体，最终获得目标实体集合。

命名实体识别模型是经过预先训练好的，具备根据段落输出段落对应的实体的能力，其中，所述命名实体识别模型通过下述步骤训练：

获取样本段落和所述样本段落对应的标注实体；

将所述样本段落输入至待训练命名实体识别模型，以使所述待训练命名实体识别模型识别所述样本段落中的实体；

获得所述待训练命名实体识别模型输出的所述样本段落对应的预测实体；

根据所述预测实体和所述标注实体计算识别模型损失值；

根据所述识别模型损失值调整所述待训练命名实体识别模型的模型参数，并继续训练所述待训练命名实体识别模型，直至达到训练停止条件，获得训练好的命名实体识别模型。

其中，样本段落即有至少一个句子组成的段落，并在样本段落中标注有标注实体，具体的标注方式可以是BIO标注，BIEO标注、BIOSE标注等等，以BIO标注为例，段落中每个字符被标注为“B-X”、“I-X”或“O”，其中，“B-X”表示此元素在所在文本属于X类型，且此元素在所在文本的开头，“I-X”表示此元素所在文本属于X类型且此元素在所在文本的中间位置，“O”表示不属于任何类型。例如，样本段落为“A导弹的射程有500公里”，其中用BIO标注为(A：B-arm，导：I-arm，弹：I-arm，的：O，射：O，程：O，有：O，500：O，公：O，里：O)，即在该样本段落中，“A导弹”为样本段落对应的标注实体。“arm”为标注实体的实体类别。

将样本段落输入至待训练命名实体识别模型，命名实体识别模型用于识别样本段落中的实体信息，并输出该样本段落对应的预测实体，再计算预测实体与标注实体的损失值，再根据损失值调整命名实体识别模型的模型参数，直至达到训练停止条件，获得训练好的命名实体识别模型。其中，计算损失值的方式、模型训练停止条件、反向传播调整模型参数的具体内容，参见上述句子分类模型计算损失值的相关描述，在此不再赘述。

步骤210：根据所述目标实体集合确定所述待处理文本的信息提取结果。

在获得目标实体集合之后，即可根据该目标实体集合确定待处理文本的信息提取结果。

在实际应用中，目标实体集合中可能会有多个相同的实体，例如同一个实体在待处理文本的多处出现，因此，还需要对目标实体集合进行筛选，获得最终的信息提取结果，具体的，所述目标实体集合包括目标实体、实体类型和实体对应的句子序号；

根据所述目标实体集合确定所述待处理文本的信息提取结果，包括：

根据实体对应的句子序号、实体类型和预设规则对目标实体进行关联，获得所述待处理文本的信息提取结果。

在目标实体集合中，包括有目标实体、目标实体对应的实体类型、目标实体对应的句子序号，根据预设的规则对目标实体进行关联，进而获得待处理文本的信息提取结果，预设的规则包括但不限于：

1、出现在同一个句子中的实体具有对应关系。例如，在本申请提供的一具体实施方式中，“甲方”和“张三”两个实体均出现在同一个句子中，则可以确定张三是甲方。

2、出现在相邻句子中的实体具有对应关系。例如，在本申请提供的一具体实施方式中，“甲方”和“张三”两个实体均出现在第1个句子中，“A地址”出现在第2个句子，“乙方”和“李四”两个实体均出现在第3个句子中，“B地址”出现在第4个句子，则可以确定A地址为张三的地址，B地址为李四的地址。

根据每个实体对应的实体类型、实体对应的句子序号和预设的规则，可以对目标实体进行关联，组成待处理文本对应的信息提取结果。

本申请实施例提供的信息提取方法，包括：对接收到的待处理文本进行分句处理，获得初始句子集合；将所述初始句子集合输入至句子分类模型中进行处理，获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息；根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；根据所述目标实体集合确定所述待处理文本的信息提取结果。通过本方法，先通过句子分类，将待处理文本中不包含实体信息的句子过滤，再对包含实体信息的句子进行实体识别，避免了整篇文档进行实体抽取导致的抽取效率低的问题，也避免了在不包含实体的段落中抽取错误实体导致的信息抽取准确率低的问题。提升了信息提取效率以及信息提取的准确率。

图3示出了本申请一实施例的信息提取方法，该信息提取方法以对合同文本进行信息抽取为例进行描述，包括步骤302至步骤318。

步骤302：接收待处理合同文件。

在本申请提供的一具体实施例中，以对合同中的信息进行提取为例进行解释说明，接收待处理合同文件，待处理合同文件为PDF格式。待处理合同文件为“动产无偿寄托契约书”。

步骤304：解析该待处理合同文件，获得该待处理合同文件对应的待处理合同文本。

在本申请提供的一具体实施例中，在接收到待处理合同文件后，通过OCR识别和文档转换，对待处理合同文件进行解析，将待处理合同文件转换为待处理合同文本，待处理合同文本为“动产无偿寄托契约书\n寄托人张三(简称甲方)，承托人李四(简称乙方)。兹为动产家具寄托经双方同意缔结契约条件如下：\n第一条……\n甲方：张三\n住址：A\n乙方：李四\n住址：B\n****年**月**日”，其中，“\n”标识待处理合同文本中的换行符。

步骤306：获取预设分句标识符，根据该预设分句标识符对该待处理合同文本进行分句处理，获得初始句子集合。

在本申请提供的一具体实施例中，以“\n”作为预设分句标识符，根据“\n”对待处理合同文本进行分句处理，获得多个初始句子，组成初始句子集合。初始句子集合参见下述表1。

表1

步骤308：在该初始句子集合中确定目标初始句子，并将该目标初始句子输入至句子分类模型中进行句子分类。

在本申请提供的一具体实施例中，将初始句子集合中的每个初始句子作为目标初始句子，并用“#”进行拼接，将拼接好的每个目标初始句子输入至预先训练好的句子分类模型中进行句子分类，句子分类模型被训练于根据句子识别句子中是否包含实体信息。

步骤310：获得句子分类模型输出的目标初始句子对应的句子分类信息，其中，句子分类信息包括第一类句子或第二类句子。

在本申请提供的一具体实施例中，句子分类模型输出拼接后每个目标初始句子对应的句子分类信息，参见下述表2，其中1代表第一类句子，表示句子中包括实体信息；0代表第二类句子，表示句子中不包括实体信息。

表2

步骤312：确定句子分类信息为第一类句子的初始句子为目标句子，获得目标句子集合。

在本申请提供的一具体实施例中，根据上述表2的句子分类信息，确定句子分类信息为1的初始句子为目标句子，将句子分类信息为0的初始句子进行过滤，只保留句子分类信息为1的初始句子，组成目标句子集合。目标句子集合参见下述表3。

表3

步骤314：根据每个目标句子集合的位置信息对每个目标句子进行拼接，生成目标段落集合。

在本申请提供的一具体实施例中，根据目标句子集合中的句子序号，将连续序号对应的目标句子进行拼接，获得目标段落集合，目标段落集合参见下述表4。

表4

步骤316：将该目标段落集合输入至命名实体识别模型进行处理，获得该命名实体识别模型输出的目标实体集合，其中，目标实体集合包括目标实体、实体类型和实体对应的句子序号。

在本申请提供的一具体实施例中，将目标段落集合中的目标段落输入至命名实体识别模型，命名实体识别模型根据目标段落集合中每个目标段落输出对应的目标实体集合，参见下述表5。

表5

步骤318：根据实体对应的句子序号、实体类型和预设规则对目标实体进行关联，获得该待处理合同文本的信息提取结果。

在本申请提供的一具体实施例中，通过目标实体集合可以确定，“甲方”、“张三”两个实体均出现在第n-4个句子中，“乙方”、“李四”两个实体均出现在第n-2个句子中，因此，可以确定张三是甲方，李四是乙方。

同时第n-3个句子中的A是地址，第n-1个句子中的B是地址，第n-3个句子在甲方信息之后，第n-2个句子在乙方信息之后，因此可以确定A地址为甲方地址，B地址为乙方地址。

基于此，确定从待处理文本提取的信息为“动产无偿寄托契约书(合同名称)、****年**月**日(签订日期)、张三(甲方)、A(甲方住址)、李四(乙方)、B(乙方住址)”。

本申请实施例提供的信息提取方法，应用于合同文本的信息提取，通过本方法，先通过句子分类，将待处理文本中不包含实体信息的句子过滤，再对包含实体信息的句子进行实体识别，避免了整篇文档进行实体抽取导致的抽取效率低的问题，也避免了在不包含实体的段落中抽取错误实体导致的信息抽取准确率低的问题。提升了信息提取效率以及信息提取的准确率。

与上述方法实施例相对应，本申请还提供了信息提取装置实施例，图4示出了本申请一个实施例的信息提取装置的结构示意图。如图4所示，该装置包括：

分句模块402，被配置为对接收到的待处理文本进行分句处理，获得初始句子集合；

句子分类模块404，被配置为获取所述初始句子集合中每个句子对应的分类信息；

确定模块406，被配置为根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；

实体识别模块408，被配置为将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；

信息提取模块410，被配置为根据所述目标实体集合确定所述待处理文本的信息提取结果。

可选的，所述分句模块402，进一步被配置为：

获取预设分句标识符；

根据所述预设分句标识符对所述待处理文本进行分句处理，获得初始句子集合。

可选的，所述句子分类模块404，进一步被配置为：

在所述初始句子集合中确定目标初始句子，并将所述目标初始句子输入至句子分类模型中进行句子分类，其中，所述句子分类模型被训练于判断句子中是否包含实体信息；

在所述目标初始句子包含实体信息的情况下，获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第一类句子；

在所述目标初始句子未包含实体信息的情况下，获得所述句子分类模型输出的所述目标初始句子对应的分类信息为第二类句子。

可选的，所述确定模块406，进一步被配置为：

确定分类信息为第一类句子的初始句子为目标句子，获得目标句子集合；

根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接，生成目标段落集合。

可选的，所述确定模块406，进一步被配置为：

根据每个目标段落生成目标段落集合。

可选的，所述目标实体集合包括目标实体、实体类型和实体对应的句子序号；

所述信息提取模块410，进一步被配置为：

可选的，所述装置还包括：

接收模块，被配置为接收待处理文件；

解析模块，被配置为解析所述待处理文件，获得所述待处理文件对应的待处理文本。

可选的，所述装置还包括：

句子分类模型训练模块，被配置为：

获取样本句子和所述样本句子对应的样本分类信息；

可选的，所述装置还包括：

命名实体识别模型训练模块，被配置为：

获取样本段落和所述样本段落对应的标注实体；

根据所述预测实体和所述标注实体计算识别模型损失值；

本申请实施例提供的信息提取装置，包括：对接收到的待处理文本进行分句处理，获得初始句子集合；将所述初始句子集合输入至句子分类模型中进行处理，获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息；根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合；将所述目标段落集合输入至命名实体识别模型进行处理，获得所述命名实体识别模型输出的目标实体集合；根据所述目标实体集合确定所述待处理文本的信息提取结果。通过本装置，先通过句子分类，将待处理文本中不包含实体信息的句子过滤，再对包含实体信息的句子进行实体识别，避免了整篇文档进行实体抽取导致的抽取效率低的问题，也避免了在不包含实体的段落中抽取错误实体导致的信息抽取准确率低的问题。提升了信息提取效率以及信息提取的准确率。

上述为本实施例的一种信息提取装置的示意性方案。需要说明的是，该信息提取装置的技术方案与上述的信息提取方法的技术方案属于同一构思，信息提取装置的技术方案未详细描述的细节内容，均可以参见上述信息提取方法的技术方案的描述。

需要说明的是，装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块，各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架，而不应当理解为主要通过硬件方式实现该解决方案的实体装置。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述计算机指令时实现所述的信息提取方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的信息提取方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述信息提取方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述信息提取方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的信息提取方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述信息提取方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该计算机指令被处理器执行时实现如前所述信息提取方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种信息提取方法，其特征在于，包括：

对接收到的待处理文本进行分句处理，获得初始句子集合；

获取所述初始句子集合中每个句子对应的分类信息；

2.如权利要求1所述的信息提取方法，其特征在于，对接收到的待处理文本进行分句处理，获得初始句子集合，包括：

获取预设分句标识符；

3.如权利要求1所述的信息提取方法，其特征在于，获取所述初始句子集合中每个句子对应的分类信息，包括：

4.如权利要求3所述的信息提取方法，其特征在于，将所述初始句子集合输入至句子分类模型中进行处理，获得所述句子分类模型输出的所述初始句子集合中每个句子对应的分类信息，包括：

5.如权利要求4所述的信息提取方法，其特征在于，根据每个句子对应的分类信息在所述初始句子集合中确定目标句子集合，并根据所述目标句子集合确定目标段落集合，包括：

6.如权利要求5所述的信息提取方法，其特征在于，根据每个目标句子在所述待处理文本中的位置信息对每个目标句子进行拼接，生成目标段落集合，包括：

根据每个目标段落生成目标段落集合。

7.如权利要求1所述的信息提取方法，其特征在于，所述目标实体集合包括目标实体、实体类型和实体对应的句子序号；

8.如权利要求1-7任意一项所述的信息提取方法，其特征在于，所述方法还包括：

接收待处理文件；

9.如权利要求3所述的信息提取方法，其特征在于，所述句子分类模型通过下述步骤训练：

获取样本句子和所述样本句子对应的样本分类信息；

10.如权利要求1所述的信息提取方法，其特征在于，所述命名实体识别模型通过下述步骤训练：

获取样本段落和所述样本段落对应的标注实体；

根据所述预测实体和所述标注实体计算识别模型损失值；

11.一种信息提取装置，其特征在于，包括：

12.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述计算机指令时实现权利要求1-10任意一项所述方法的步骤。

13.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-10任意一项所述方法的步骤。