CN112214987B

CN112214987B - 一种信息提取方法、提取装置、终端设备及可读存储介质

Info

Publication number: CN112214987B
Application number: CN202010934154.3A
Authority: CN
Inventors: 王愈; 赵洋; 包荣鑫; 夏政委; 梅金芳
Original assignee: Shenzhen Valueonline Technology Co ltd
Current assignee: Shenzhen Valueonline Technology Co ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2023-02-03
Anticipated expiration: 2040-09-08
Also published as: CN112214987A

Abstract

本申请适用于数据处理技术领域，提供了一种信息提取方法、提取装置、终端设备及可读存储介质，该方法包括：获取待提取的文档，并对所述待提取的文档进行分句，得到各个目标句子；将各个所述目标句子输入预设的命名实体识别模型中进行识别，得到所述各个目标句子对应的标注序列；对所述标注序列进行解析，得到各个目标字段以及各个所述目标字段对应的目标位置信息；根据所述目标位置信息确定各个目标字段的对应关系；根据各个所述目标字段的对应关系得到目标信息。本申请可以一定程度上解决目前不能提取到公告中全部的有效信息的问题。

Description

一种信息提取方法、提取装置、终端设备及可读存储介质

技术领域

本申请属于数据处理领域，尤其涉及一种信息提取方法、提取装置、终端设备及可读存储介质。

背景技术

随着科学技术和经济的发展，人们越来越注重对于金钱的管理。比如，越来越多的人喜欢金融投资。而实现金融投资的一种方式是购买股票。

投资者在购买股票时，往往需要参考上市公司发布的公告，因此，投资者需要对公告中的有效信息进行提取。目前，提取公告的有效信息的方法主要有两种。一种是通过人工的方式进行提取。然而，由于每天发布的公告的数量多，因此，通过人工提取的效率比较低，从而导致投资者很难提取到自己想要的信息。一种是通过正则表达式的方法提取。但该方法不能很好地提取公告中的表格数据。

因此，目前不能提取到公告中全部的有效信息。

发明内容

本申请实施例提供了一种信息提取方法、提取装置、终端设备及可读存储介质，可以一定程度上解决目前不能提取到公告中全部的有效信息的问题。

第一方面，本申请实施例提供了一种信息提取方法，包括：

获取待提取的文档，并对上述待提取的文档进行分句，得到各个目标句子；

对上述标注序列进行解析，得到各个目标字段以及各个上述目标字段对应的目标位置信息；

根据上述目标位置信息确定各个目标字段的对应关系；

根据各个目标字段的对应关系得到目标信息。

第二方面，本申请实施例提供了一种信息提取装置，包括：

获取模块，用于获取待提取的文档，并对上述待提取的文档进行分句，得到各个目标句子；

识别模块，用于将各个上述目标句子输入预设的命名实体识别模型中进行识别，得到上述各个目标句子对应的标注序列；

解析模块，用于对上述标注序列进行解析，得到各个目标字段以及各个上述目标字段对应的目标位置信息；

确定模块，用于根据上述目标位置信息确定各个目标字段的对应关系；

目标信息得到模块，用于根据各个目标字段的对应关系得到目标信息。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面所述方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面所述方法的步骤。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的信息提取方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

本申请实施例与现有技术相比存在的有益效果是：

本申请提供一种信息提取方法，首先，获取待提取的文档，并对待提取的文档进行分句，得到各个目标句子。然后将各个目标句子输入预设的命名实体识别模型中进行识别，得到各个目标句子对应的标注序列。接着对标注序列进行解析，得到各个目标字段以及各个目标字段对应的目标位置信息。其次根据目标位置信息确定各个目标字段的对应关系。最后根据各个目标字段的对应关系得到目标信息。即在本申请中，由于对标注序列进行解析之后，可以得到各个目标字段以及各个目标字段对应的目标位置信息，因此，可以根据各个目标字段对应的目标位置信息确定各个目标字段的对应关系，然后根据各个目标字段的对应关系得到目标信息。因此，在本申请中，可以自动地提取到公告中的目标字段，然后实现各个目标字段的对应关系，从而可以提取到公共中的全部有效信息，进而帮助用户快速地了解到股份市场变化情况。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的信息提取方法的流程示意图；

图2是本申请一实施例提供的表格数据的示意图；

图3是本申请一实施例提供的信息提取装置的结构示意图；

图4是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的信息提取方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、个人数字助理(personal digital assistant，PDA)等终端设备上，本申请实施例对终端设备的具体类型不作任何限制。

为了说明本申请所述的技术方案，下面通过具体实施例来进行说明。

实施例一

下面对本申请实施例一提供的一种信息提取方法进行描述，请参阅附图1，该方法包括：

步骤S101、获取待提取的文档，并对待提取的文档进行分句，得到各个目标句子。

在步骤S101中，待提取的文档为公司发布的关于股权变动的公告文档。比如，公司发布的“详式权益变动报告书”。终端设备可以实时地获取待提取的文档。或者，终端设备也可以周期性地获取待提取的文档。终端设备在获取待提取的文档后，对待提取的文档进行分句，得到各个目标句子。

需要说明的是，当待提取的文档的格式为可携带文档格式(Portable DocumentFormat，pdf)时，终端设备在对待提取的文档进行分句之前，还需将pdf格式的待提取的文档转换为文本格式的文档，然后再对文本格式的文档进行分句。

应理解，对待提取的文档进行分句的方式用户可根据实际情况进行选择。比如，本实施例按照“！”、“。”以及“？”等结束符对待提取的文档进行分句。本申请对于对待提取的文档进行分句的方式不做限定。

在一些实施例中，还可以将从待提取的文档的表格中提取到的信息按照第一预设方式进行存储。比如，如2所示，将从表格中提取到的信息以json的格式存储为：{"horizontal Title":"南山投资","vertical Title":"本次交易前$$$持股比例","content":"5.21％"}，其中，‘$$$’表示拼接表头。

此外，还可对表格信息进行筛选。在对从待提取的文档的表格中提取到的信息按照第一预设方式进行存储后，删除掉没有包含预设词语的表格信息。比如，只保留横向表头包含公司等词语或/和纵向表头包含持有等词语的表格信息。

应理解，由于提取原则，会导致提取到的表格信息可能相同或相似的情况。比如，如图2所示，当从“南山集团”开始提取时，提取到的第一表格信息为“南山集团本次交易前股票数量为10000”，当从“本次交易前”开始提取时，提取到的第二表格信息为“本次交易前南山集团股票数量为10000”，此时，第一表格信息和第二表格信息相同。因此，在提取到各个表格信息后，使用预设算法计算两个表格信息的相似度。如果两个表格信息的相似度大于预设值，则判定两个表格信息相同，从而删除掉该两个表格信息中的其中一个表格信息。比如，第一表格信息为“南山集团本次交易前股票数量为10000”以及第二表格信息为“本次交易前南山集团股票数量为10000”，此时，第一表格信息与第二表格信息相同，删除掉第一表格信息或第二表格信息。

需要说明的是，计算两个表格信息的相似度的预设算法用户可根据实际情况进行选择。比如，本实施例采用莱温斯坦距离法或杰卡德距离法作为计算两个表格信息的相似度的预设算法。本申请在此不做具体限定。

在另一些实施例中，获取待提取的文档，并对待提取的文档进行分句，得到各个目标句子，包括：获取待提取的文档，并对待提取的文档进行分句，得到各个第一初始句子；获取各个第一初始句子的第一初始长度，将第一初始长度属于第一预设长度区间的第一初始句子确定为目标句子。

在本实施例中，由于较短或较长的第一初始句子为无关项，因此，终端设备在得到各个第一初始句子后，需要对各个第一初始句子进行筛选。只有当第一初始长度属于第一预设长度区间的第一初始句子才被确定为目标句子。比如，可以设置第一预设长度区间为[6，256]，则只有第一初始长度属于6至256之间的第一初始句子才被确定为目标句子。

在另一些实施例中，将第一初始长度属于第一预设长度区间的第一初始句子确定为目标句子，包括：将第一初始长度属于第一预设长度区间且小于或等于第一预设长度的第一初始句子确定为目标句子；根据预设分割方式对第一初始长度属于第一预设长度区间且大于第一预设长度的第一初始句子进行分割，得到目标句子，并将分割点前的预设数量的字符和分割点后的预设数量的字符组成目标句子。

在本实施例中，由于预设的命名实体识别模型中的每个样本的最大长度被设置为第一预设长度，因此，对第一初始长度属于第一预设长度区间且大于第一预设长度的第一初始句子需要根据预设分割方式再次进行分割，得到目标句子。比如，设置第一预设长度区间为[6，256]，第一预设长度为202。则对于长度大于202且小于256的第一初始句子需要再次进行分割。

并且，为了避免一个词语被分割开。在根据预设分割方式对第一初始长度属于第一预设长度区间且大于第一预设长度的第一初始句子进行分割后，将分割点前的预设数量的字符和分割点后的预设数量的字符组成目标句子。比如，设置第一预设长度区间为[6，256]，第一预设长度为202，预设数量为15。对于第一初始长度为256的第一初始句子，将第202个字符与第203之间的位置作为分割点，对第一初始长度为256的第一初始句子进行分割，得到目标句子。然后将分割点前的15个字符(即第188-第202个字符)以及分割点后的15个字符(即第203-第217个字符)组成一句新的句子，并将该新的句子作为目标句子。

步骤S102、将各个目标句子输入预设的命名实体识别模型中进行识别，得到各个目标句子对应的标注序列。

在步骤S102中，预设的命名实体识别模型((Named Entity Recognition，NER))为已训练的命名实体模型。该预设的命名实体模型需要识别的实体为各个披露主体及一致行动人、发生日期、变动前股数、变动前比例、变动后股数以及变动后比例等。训练集为各个关于股权变动的公告文档。在训练中，为了方便进行数据处理，可以采用英文表示各个实体。比如，采用“MAJ”表示“披露主体及一致行动人”，采用“BNU”表示变动前股数以及采用“BPE”表示变动前比例等。

对于命名实体识别模型的标注体系用户可根据实际情况进行选择。比如，采用BIO体系作为本实施例中的标注体系，即目标字段的开头使用B标注，目标字段的中间直到结尾使用I标注，不包含在目标字段里的部分使用O标注。本申请在此不做具体限定。需要说明的是，在命名实体识别模型的训练中，可以将预设比例的不包含目标字段的句子也输入至命名实体识别模型中进行识别，从而提高命名实体识别模型识别的准确性。

在一些实施例中，在命名实体识别模型训练的过程中，为了提高标注的准确性，还可以人工对标识体系标注的信息进行校对。

需要说明的是，对于命名实体识别模型的种类用户可根据实际情况进行选择。比如，采用BERT(Bidirectional Encoder Representation from Transformers)+CRF(conditional random field)模型作为本实施例的命名实体识别模型。本申请在此不做具体限定。

应理解，在将各个目标句子输入预设的命名实体识别模型进行识别之前，还需要将各个目标句子拆分成字的形式。对于目标句子的分字方法用户可根据实际情况进行选择或设计。例如，采用全分字的方法作为本实施例中的分字方法。比如，目标句子“新疆建工，交易前：50.79％”，采用全分字的形式拆分为：'新','疆','建','工','，','交','易','前',':','5','0','.','7','9','％'。本申请在此不做限定。

并且，由于BERT模型对终端设备的内存的要求较高。因此，当命名实体识别模型采用BERT+CRF模型时，还需要设置每次输入命名实体识别模型的目标句子的预设句子数量。比如，设置每次输入BERT模型的目标句子的预设句子数量为200。如果目标句子的数量超过预设句子数量，则按照每次输入目标句子的数量为预设句子数量的规则进行输入。

步骤S103、对标注序列进行解析，得到各个目标字段以及各个目标字段对应的目标位置信息。

在步骤S103中，目标字段包括目标主体字段以及目标数字字段。终端设备对标注序列的解析过程如下：首先查找目标字段以及目标字段的起始位置(该起始位置指目标字段在对应的目标句子中的起始位置)。然后查找目标字段的结束位置，从而得到各个目标字段和目标位置信息。比如，当使用BIO体系作标注体系时，终端设备对标注序列的解析过程为：首先查找‘B-*’标记，然后记录‘B-*’标记的起始位置、对应的目标字段。接着查找‘I-*’标记，直到句子结尾，或者找到了‘O’，并记录最后一个‘I-*’的位置。

得到目标字段的位置信息后，终端设备再在目标字段的位置信息后添加该目标字段对应的目标句子，从而得到解析结果。比如，解析结果为：'word':'中国建筑第四工程局有限公司','mark':'MAJ','begin':9,'end':21,'sen':'信息披露义务人:中国建筑第四工程局有限公司'}，其中，“mark”表示目标字段的类型。比如，“MAJ”表示披露主体及一致行动人，即表明“中国建筑第四工程局有限公司”是披露主体或一致行动人。“'begin':9,'end':21”表示目标主体字段“中国建筑第四工程局有限公司”在对应的目标句子“'sen':'信息披露义务人:中国建筑第四工程局有限公司'”中的起始位置和结束位置。

在一些实施例中，目标字段包括目标主体字段以及目标数字字段。相应地，对标注序列进行解析，得到各个目标字段以及各个目标字段对应的目标位置信息，包括：若没有找到标注序列中的第一标签对应的目标数字字段，则计算目标句子中各个第一数字字段与目标主体字段的第一距离；将最小的第一距离对应的第一数字字段确定为第一标签的目标数字字段。

在本实施例中，若没有找到标注序列中的第一标签对应的目标数字字段，比如，标注序列中的第一标签“BPE”没有找到对应的目标数字字段，则计算目标句子中各个第一数字字段与目标主体字段的第一距离，然后将最小的第一距离对应的第一数字字段确定为第一标签的目标数字字段。

在另一些实施例中，待提取的文档包括‘权益变动方式’部分以及‘附表’部分，由于‘附表’部分中的干扰项更少。因此，可以先在‘附表’部分查找第一标签的目标数字字段。如果此时还没有找到第一标签的目标数字字段，再在‘权益变动方式’部分查找第一标签的目标数字字段。

步骤S104、根据目标位置信息确定各个目标字段的对应关系。

在步骤S104中，解析结果中包含了各个目标字段以及各个目标字段对应的目标位置信息。因此，终端设备在得到解析结果后，采用目标数字字段的开始位置坐标减去目标主体字段的结束位置坐标，得到各个目标数字字段与各个目标主体字段的距离，并将与该目标数字字段的距离最小的目标主体字段确定为该目标数字字段对应的目标主体字段，从而确定各个目标字段的对应关系。

在一些实施例中，目标字段包括目标主体字段。相应地在根据各个目标字段对应的目标位置信息确定各个目标字段的对应关系之前，还包括：确定各个目标主体字段的实体类型；若存在实体类型相同的目标主体字段，则将实体类型相同的目标主体字段进行合并。

在本实施例中，在解析结果中，存在一些目标主体字段出现文字缺失或目标主体字段为简称的情况。此时，这些目标主体字段的实体类型是可能相同的，但由于表示的方式不同，从而识别为两个目标主体字段。比如，虽然目标主体字段“中建一局”和目标主体字段“中国建筑一局有限公司”的表示方式不同，但两者的实体类型均是指同一个公司“中国建筑一局有限公司”。

因此，在根据各个目标字段对应的目标位置信息确定各个目标字段的对应关系之前，可以先确定各个目标主体字段的实体类型；若存在实体类型相同的目标主体字段，则将实体类型相同的目标主体字段进行合并。应理解，合并的方式可以是只保留长度较长的目标主体字段，也可以保留长度较短的目标主体字段，本申请在此不做具体限定。

在一些可能实现的方式中，确定两个目标主体字段的实体类型的过程如下：如果长度较短的目标主体字段中有任何一个字符不在长度较长的目标主体字段中，则判定为两个目标主体字段的实体类型不相同，否则，两个目标主体字段的实体类型相同。需要说明的是，如果目标主体字段中包含空格和括号，则把空格和括号删掉掉再进行实体类型的判定。

在另一些实施例中，目标字段包括目标主体字段以及目标数字字段，待提取文档包括第一部分以及第二部分。相应地，根据目标位置信息确定各个目标字段的对应关系，包括：若目标数字字段没有找到对应的目标主体字段，则确定各个目标主体字段与第一句子相同的目标字符的数量，第一句子为包含第二数字字段的目标句子，第二数字字段为没有找到对应的目标主体字段的目标数字字段，目标字符为除了预设字符之外的字符；若目标字符的数量不为0，则根据目标字符的数量以及第一预设数量确定目标主体字段的第二距离；若目标字符的数量为0，则根据第二预设数量确目标主体字段的第二距离；将第二距离作为目标主体字段在第一部分中与第二数字字段之间的第三距离并计算目标主体字段在第二部分中与第二数字字段之间的第四距离；根据第三距离以及第四距离确定目标主体字段与第二数字字段之间的目标距离；将目标距离小于第一预设距离的目标主体字段确定为第二数字字段对应的目标主体字段。

在本实施例中，当第一部分指‘权益变动方式’部分时，第二部分指‘附表’部分，当第一部分指‘附表’部分，第二部分指‘权益变动方式’部分。第二数字字段指没有找到对应的目标主体字段的目标数字字段，第一句子指该第二数字字段对应的目标句子。预设字符指“集、团、股、份、公、司”等关键字。

若目标数字字段没有找到对应的目标主体字段，则确定各个目标主体字段与第一句子相同的目标字符的数量。比如，目标主体字段为“海尔集团”和“格力集团”，第二数字字段为“1000股”，第一句子为“海尔集团的股数为1000股”，则海尔集团和第一句子相同的目标字符为“海尔”，目标字符的的数量为2，格力集团和第一句子没有相同的目标字符，则目标字符的的数量为0。

若目标字符的数量不为0，则根据目标字符的数量以及第一预设数量确定目标主体字段的第二距离。比如，第一预设数量为5，目标主体字段“海尔集团”和第一句子“海尔集团的股数为1000股”的目标字符的的数量为2，则目标主体字段“海尔集团”和第二数字字段“1000股”的第二距离为7。

若目标字符的数量为0，则根据第二预设数量确定目标主体字段的第二距离。比如，第二预设数量为300，则目标主体字段“格力集团”和第二数字字段“1000股”的第二距离为300。

在得到各个第二距离后，将第二距离作为目标主体字段在第一部分中与第二数字字段之间的第三距离并计算目标主体字段在第二部分中与第二数字字段之间的第四距离。然后将第三距离和第四距离进行相加，得到目标主体字段与第二数字字段之间的目标距离。最后将目标距离小于第一预设距离的目标主体字段确定为第二数字字段对应的目标主体字段。

需要说明的是，如果第二数字字段在第二部分中的句子没有包含该目标主体字段，则将该目标主体字段在第二部分中与第二数字字段之间的第四距离设定为第二预设数量。

需要说明的是，如果目标主体字段只有一个，则当目标数字字段没有对的目标主体字段时，可以直接舍弃该没有对应的目标主体字段的目标数字字段。

在另一些实施例中，若各个目标距离大于或等于第一预设距离，则查找第一主体字段，第一主体字段为在第二部分中与第二数字字段距离最近的目标主体字段；若第一主体字段与第二数字字段的距离小于第二预设距离，且第一主体字段没有对应的目标数字字段，则将第一主体字段确定为第二数字字段对应的目标主体字段。

在本实施例中，在得到各个目标距离后，如果各个目标距离均大于第一预设距离，则查找第一主体字段，第一主体字段为在第二部分中与第二数字字段距离最近的目标主体字段，若第一主体字段与第二数字字段的距离小于第二预设距离，且第一主体字段没有对应的目标数字字段，则将第一主体字段作为第二数字字段对应的目标主体字段。需要说明的是，由于“附表”部分中的干扰项较少。因此，为了更加准确地得到第二数字字段对应的目标主体字段，可以将第二部分设置为“附表”部分。

在另一些实施例中，若第一主体字段与第二数字字段的距离小于第二预设距离，且第一主体字段有对应的目标数字字段，则查找第二主体字段，第二主体字段为在第一部分中与第二数字字段距离最近的目标主体字段；若第二主体字段与第二数字字段的距离小于第二预设距离，且第二主体字段没有对应的目标数字字段，则将第二主体字段作为第二数字字段对应的目标主体字段。

在另一些实施例中，目标字段还包括目标日期字段，则对于目标日期字段的处理过程如下：对各个目标句子进行识别，得到各个目标日期字段。判断各个目标日期字段是否以预设数字开头且各个目标日期字段是否包含“年”字。若目标日期字段以预设数字开头且目标日期字段没有包含“年”字，则在目标日期字段的第四个位置插入“年”字。然后再查看该目标日期字段是否包含“日”字。如果若目标日期字段以预设数字开头且目标日期字段包含“年”字，则直接查看目标日期字段是否包含“日”字。若该目标日期字段包含“日”字，则将“年”字以及“月”字替换为预设特殊字符，比如，将“年”字以及“月”字替换为“-”，并删掉“日”字，得到最终日期字段。若该目标日期字段没有包含“日”字，则将“年”字以及“月”字替换为预设特殊字符，将“日”字替换为预设数字，比如，将“日”字替换为替换为30，从而得到最终日期字段。

步骤S105、根据各个目标字段的对应关系得到目标信息。

在步骤S104中，在得到各个目标字段的对应关系之后，终端设备即可根据各个目标字段的对应关系得到目标信息。

综上所述，本申请提供一种信息提取方法，首先，获取待提取的文档，并对待提取的文档进行分句，得到各个目标句子。然后将各个目标句子输入预设的命名实体识别模型中进行识别，得到各个目标句子对应的标注序列。接着对标注序列进行解析，得到各个目标字段以及各个目标字段对应的目标位置信息。其次根据目标位置信息确定各个目标字段的对应关系。最后根据各个目标字段的对应关系得到目标信息。即在本申请中，由于对标注序列进行解析之后，可以得到各个目标字段以及各个目标字段对应的目标位置信息，因此，可以根据各个目标字段对应的目标位置信息确定各个目标字段的对应关系，然后根据各个目标字段的对应关系得到目标信息。因此，在本申请中，可以自动地提取到公告中的目标字段，然后实现各个目标字段的对应关系，从而可以提取到公共中的全部有效信息，进而帮助用户快速地了解到股份市场变化情况。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

实施例二

图3示出了一种信息提取装置的示例，为了便于说明，仅示出了与本申请实施例相关的部分。该装置300包括：

获取模块301，用于获取待提取的文档，并对待提取的文档进行分句，得到各个目标句子。

识别模块302，用于将各个目标句子输入预设的命名实体识别模型中进行识别，得到各个目标句子对应的标注序列。

解析模块303，用于对标注序列进行解析，得到各个目标字段以及各个目标字段对应的目标位置信息。

确定模块304，用于根据目标位置信息确定各个目标字段的对应关系。

目标信息得到模块305，用于根据各个目标字段的对应关系得到目标信息。

可选地，目标字段包括目标主体字段。

相应地，该装置300还包括：

实体类型确定模块，用于确定各个目标主体字段的实体类型。

合并模块，用于若存在实体类型相同的目标主体字段，则将实体类型相同的目标主体字段进行合并。

可选地，目标字段包括目标主体字段以及目标数字字段。

相应地，解析模块303包括：

计算单元，用于若没有找到标注序列中的第一标签对应的目标数字字段，则计算目标句子中各个第一数字字段与目标主体字段的第一距离。

确定单元，用于将最小的第一距离对应的第一数字字段确定为第一标签的目标数字字段。

可选地，目标字段包括目标主体字段以及目标数字字段，待提取文档包括第一部分以及第二部分。

相应地，确定模块304用于执行：

若目标数字字段没有找到对应的目标主体字段，则确定各个目标主体字段与第一句子相同的目标字符的数量，第一句子为包含第二数字字段的目标句子，第二数字字段为没有找到对应的目标主体字段的目标数字字段，目标字符为除了预设字符之外的字符；

若目标字符的数量不为0，则根据目标字符的数量以及第一预设数量确定目标主体字段的第二距离；

若目标字符的数量为0，则根据第二预设数量确定目标主体字段的第二距离；

将第二距离作为目标主体字段在第一部分中与第二数字字段之间的第三距离并计算目标主体字段在第二部分中与第二数字字段之间的第四距离；

根据第三距离以及第四距离确定目标主体字段与第二数字字段之间的目标距离；

将目标距离小于第一预设距离的目标主体字段作为第二数字字段对应的目标主体字段。

可选，该装置300还包括：

查找模块，用于若各个目标距离大于或等于第一预设距离，则查找第一主体字段，第一主体字段为在第二部分中与第二数字字段距离最近的目标主体字段。

相应地，确定模块304用于执行：

若第一主体字段与第二数字字段的距离小于第二预设距离，且第一主体字段没有对应的目标数字字段，则将第一主体字段确定为第二数字字段对应的目标主体字段。

可选地，获取模块301用于执行：

获取待提取的文档，并对待提取的文档进行分句，得到各个第一初始句子。

获取各个第一初始句子的第一初始长度，将第一初始长度属于第一预设长度区间的第一初始句子确定为目标句子。

可选地，获取模块301用于执行：

将第一初始长度属于第一预设长度区间且小于或等于第一预设长度的第一初始句子确定为目标句子。

根据预设分割方式对第一初始长度属于第一预设长度区间且大于第一预设长度的第一初始句子进行分割，得到目标句子，并将分割点前的预设数量的字符和所述分割点后的预设数量的字符组成目标句子。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例一基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例一部分，此处不再赘述。

实施例三

图4是本申请实施例三提供的终端设备的示意图。如图4所示，该实施例的终端设备400包括：处理器401、存储器402以及存储在上述存储器402中并可在上述处理器401上运行的计算机程序403。上述处理器401执行上述计算机程序403时实现上述各个方法实施例中的步骤。或者，上述处理器401执行上述计算机程序403时实现上述各装置实施例中各模块/单元的功能。

示例性的，上述计算机程序403可以被分割成一个或多个模块/单元，上述一个或者多个模块/单元被存储在上述存储器402中，并由上述处理器401执行，以完成本申请。上述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述上述计算机程序403在上述终端设备400中的执行过程。例如，上述计算机程序403可以被分割成监控视频图像帧获取模块、识别模块、解析模块、确定模块以及目标信息得到模块，各模块具体功能如下：

获取待提取的文档，并对所述待提取的文档进行分句，得到各个目标句子；

将各个所述目标句子输入预设的命名实体识别模型中进行识别，得到所述各个目标句子对应的标注序列；

对所述标注序列进行解析，得到各个目标字段以及各个所述目标字段对应的目标位置信息；

根据所述目标位置信息确定各个目标字段的对应关系；

根据各个所述目标字段的对应关系得到目标信息。

上述终端设备可包括，但不仅限于，处理器401、存储器402。本领域技术人员可以理解，图4仅仅是终端设备400的示例，并不构成对终端设备400的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如上述终端设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器401可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件插件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器402可以是上述终端设备400的内部存储单元，例如终端设备400的硬盘或内存。上述存储器402也可以是上述终端设备400的外部存储设备，例如上述终端设备400上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，上述存储器402还可以既包括上述终端设备400的内部存储单元也包括外部存储设备。上述存储器402用于存储上述计算机程序以及上述终端设备所需的其它程序和数据。上述存储器402还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或插件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述各个方法实施例中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种信息提取方法，其特征在于，包括：

根据所述目标位置信息确定各个目标字段的对应关系；

根据各个所述目标字段的对应关系得到目标信息；

所述目标字段包括目标主体字段以及目标数字字段，所述待提取文档包括第一部分以及第二部分；

相应地，所述根据所述目标位置信息确定各个目标字段的对应关系，包括：

若所述目标数字字段没有找到对应的目标主体字段，则确定各个所述目标主体字段与第一句子相同的目标字符的数量，所述第一句子为包含第二数字字段的目标句子，所述第二数字字段为没有找到对应的目标主体字段的目标数字字段，所述目标字符为除了预设字符之外的字符；

若所述目标字符的数量不为0，则根据所述目标字符的数量以及第一预设数量确定所述目标主体字段的第二距离；

若所述目标字符的数量为0，则根据第二预设数量确定所述目标主体字段的第二距离；

将所述第二距离作为所述目标主体字段在所述第一部分中与所述第二数字字段之间的第三距离并计算所述目标主体字段在所述第二部分中与所述第二数字字段之间的第四距离；

根据所述第三距离以及所述第四距离确定所述目标主体字段与所述第二数字字段之间的目标距离；

将所述目标距离小于第一预设距离的目标主体字段确定为所述第二数字字段对应的目标主体字段。

2.如权利要求1所述的信息提取方法，其特征在于，所述目标字段包括目标主体字段；

相应地，在所述根据所述目标位置信息确定各个目标字段的对应关系之前，还包括：

确定各个所述目标主体字段的实体类型；

若存在实体类型相同的目标主体字段，则将所述实体类型相同的目标主体字段进行合并。

3.如权利要求1所述的信息提取方法，其特征在于，所述目标字段包括目标主体字段以及目标数字字段；

相应地，所述对所述标注序列进行解析，得到各个目标字段以及各个所述目标字段对应的目标位置信息，包括：

若没有找到所述标注序列中的第一标签对应的目标数字字段，则计算所述目标句子中各个第一数字字段与所述目标主体字段的第一距离；

将最小的第一距离对应的第一数字字段确定为所述第一标签的目标数字字段。

4.如权利要求1所述的信息提取方法，其特征在于，还包括：

若各个所述目标距离大于或等于所述第一预设距离，则查找第一主体字段，所述第一主体字段为在所述第二部分中与所述第二数字字段距离最近的目标主体字段；

若所述第一主体字段与所述第二数字字段的距离小于第二预设距离，且所述第一主体字段没有对应的目标数字字段，则将所述第一主体字段确定为所述第二数字字段对应的目标主体字段。

5.如权利要求1所述的信息提取方法，其特征在于，所述获取待提取的文档，并对所述待提取的文档进行分句，得到各个目标句子，包括：

获取待提取的文档，并对所述待提取的文档进行分句，得到各个第一初始句子；

获取各个所述第一初始句子的第一初始长度，将所述第一初始长度属于第一预设长度区间的第一初始句子确定为目标句子。

6.如权利要求5所述的信息提取方法，其特征在于，所述将所述第一初始长度属于第一预设长度区间的第一初始句子确定为目标句子，包括：

将所述第一初始长度属于第一预设长度区间且小于或等于第一预设长度的第一初始句子确定为目标句子；

根据预设分割方式对所述第一初始长度属于第一预设长度区间且大于第一预设长度的第一初始句子进行分割，得到目标句子，并将分割点前的预设数量的字符和所述分割点后的预设数量的字符组成目标句子。

7.一种信息抽取装置，其特征在于，包括：

获取模块，用于获取待提取的文档，并对所述待提取的文档进行分句，得到各个目标句子；

识别模块，用于将各个所述目标句子输入预设的命名实体识别模型中进行识别，得到所述各个目标句子对应的标注序列；

解析模块，用于对所述标注序列进行解析，得到各个目标字段以及各个所述目标字段对应的目标位置信息；

确定模块，用于根据所述目标位置信息确定各个目标字段的对应关系；

目标信息得到模块，用于根据各个所述目标字段的对应关系得到目标信息；

所述目标字段包括目标主体字段以及目标数字字段，所述待提取文档包括第一部分以及第二部分；相应地，所述确定模块用于执行：

8.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的方法。