CN111814466B

CN111814466B - 基于机器阅读理解的信息抽取方法、及其相关设备

Info

Publication number: CN111814466B
Application number: CN202010592378.0A
Authority: CN
Inventors: 张思亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2024-09-13
Anticipated expiration: 2040-06-24
Also published as: CN111814466A; WO2021135910A1

Abstract

本发明涉及人工智能，提供了一种基于机器阅读理解的信息抽取方法、及其相关设备，所述基于机器阅读理解的信息抽取方法包括：从初始数据库中获取目标文本和目标问题；将目标文本和目标问题导入到预先训练好的信息抽取模型中，输出目标问题对应的目标答案；对目标文本进行分词处理，得到目标分词；根据预设标注方式对目标分词进行词性标注，得到词性集合；获取目标答案包含的目标分词作为答案分词，并根据词性集合提取答案分词对应的关联实体；判断关联实体是否属于目标问题，若属于，则将目标答案作为最终答案输出。本发明还涉及区块链技术，所述目标答案可存储于区块链中。本发明的技术方案实现对信息的准确抽取。

Description

基于机器阅读理解的信息抽取方法、及其相关设备

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于机器阅读理解的信息抽取方法、及其相关设备。

背景技术

信息抽取是将嵌入在文本中的非结构化信息自动提取为结构化信息的过程，传统的信息抽取方法是采用命名实体识别方法将文本中的专有名词识别出，但对于数值型的信息识别不准确，例如时间、金额、保单号、手机号等，从而在有数值型信息的情况下，无法准确提取文本中包含的信息，导致用户无法准确获取信息，降低工作效率。

发明内容

本发明实施例提供一种基于机器阅读理解的信息抽取方法、及其相关设备，以解决传统的信息抽取方法在有数值信息的情况下，提取信息的准确性不高，导致用户无法准确获取信息，降低工作效率的问题。

一种基于机器阅读理解的信息抽取方法，包括：

从初始数据库中获取目标文本和目标问题；

将所述目标文本和所述目标问题导入到预先训练好的信息抽取模型中，输出所述目标问题对应的目标答案；

对所述目标文本进行分词处理，得到目标分词；

根据预设标注方式对所述目标分词进行词性标注，得到词性集合；

获取所述目标答案包含的所述目标分词作为答案分词，并根据所述词性集合提取所述答案分词对应的关联实体；

判断所述关联实体是否属于所述目标问题，若属于，则将所述目标答案作为最终答案输出。

一种基于机器阅读理解的信息抽取装置，包括：

获取模块，用于从初始数据库中获取目标文本和目标问题；

目标答案输出模块，用于将所述目标文本和所述目标问题导入到预先训练好的信息抽取模型中，输出所述目标问题对应的目标答案；

分词模块，用于对所述目标文本进行分词处理，得到目标分词；

词性集合确定模块，用于根据预设标注方式对所述目标分词进行词性标注，得到词性集合；

关联实体确定模块，用于获取所述目标答案包含的所述目标分词作为答案分词，并根据所述词性集合提取所述答案分词对应的关联实体；

输出模块，用于判断所述关联实体是否属于所述目标问题，若属于，则将所述目标答案作为最终答案输出。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于机器阅读理解的信息抽取方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于机器阅读理解的信息抽取方法的步骤。

上述基于机器阅读理解的信息抽取方法、及其相关设备，通过将目标文本和目标问题导入到信息抽取模型中，输出目标答案，再对目标文本进行分词处理获取目标分词，对目标分词进行词性标注以得到词性集合，获取目标答案对应的答案分词，并根据词性集合提取答案分词对应的关联实体，若关联实体属于目标问题，则将目标答案作为最终答案输出。通过利用预先训练好的信息抽取模型获取目标答案的方式，能够保证目标答案是基于数值型信息对应的训练数据得到，从而提高在有数值型信息的情况下目标答案获取的准确性；对目标文本进行分词处理，能够提取目标文本对应的分词特征，避免无效数据对后续运算造成干扰，从而提高后续根据目标分词得到关联实体的准确性；根据关联实体逆推目标问题的方式，能够有效对目标答案进行验证，提高最终答案的准确性，进一步提高用户获取信息的准确率及工作效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于机器阅读理解的信息抽取的流程图；

图2是本发明实施例提供的基于机器阅读理解的信息抽取中对训练信息抽取模型的流程图；

图3是本发明实施例提供的基于机器阅读理解的信息抽取中步骤S72的流程图；

图4是本发明实施例提供的基于机器阅读理解的信息抽取中步骤S74的流程图；

图5是本发明实施例提供的基于机器阅读理解的信息抽取中步骤S746的流程图；

图6是本发明实施例提供的基于机器阅读理解的信息抽取中步骤S3的流程图；

图7是本发明实施例提供的基于机器阅读理解的信息抽取中步骤S5的流程图；

图8是本发明实施例提供的基于机器阅读理解的信息抽取装置的示意图；

图9是本发明实施例提供的计算机设备的基本机构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请提供的基于机器阅读理解的信息抽取方法应用于服务端，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。在一实施例中，如图1所示，提供一种基于机器阅读理解的信息抽取方法，包括如下步骤：

S1：从初始数据库中获取目标文本和目标问题。

具体地，通过直接从初始数据库中获取目标文本和目标问题，其中，初始数据库是指专门用于存储目标文本和目标问题的数据库。

需要说明的是，当提取到目标文本和目标问题后，将目标文本和目标问题从初始数据库中进行删除处理，避免后续提取存在多余数据导致信息提取出现错误的情况。

S2：将目标文本和目标问题导入到预先训练好的信息抽取模型中，输出目标问题对应的目标答案。

在本发明实施例中，当信息抽取模型检测到目标文本和目标问题时，将根据预先训练好的算法识别出目标问题相对目标文本对应的目标答案。

具体地，通过将目标文本和目标问题导入到预先训练好的信息抽取模型中，当信息抽取模型检测到目标文本和目标问题时，输出目标问题对应的目标答案。

S3：对目标文本进行分词处理，得到目标分词。

在本发明是实施例中，分词处理是指将连续的字序列按照一定的规范重新组合成词序列的过程，例如，将连续的字序列“ABCD”通过分词处理得到“AB”和“CD”。

具体地，利用机械分词方法对步骤S1获取到的目标文本做分词处理，获取分词处理后的目标分词。

机械分词方法主要有正向最大匹配、正向最小匹配、逆向最大匹配、逆向最小匹配四种方法。优选地，本提案采用正向最大匹配算法。

S4：根据预设标注方式对目标分词进行词性标注，得到词性集合。

在本发明实施例中，预设标注方式是指根据用户实际需求设定的标注方式，其具体可以通过匹配的方式标注，也可以直接识别目标分词对应的词性进行标注。

具体地，将目标分词与预设词性库中的基础分词进行匹配，若匹配到目标分词与基础分词相同，则获取该基础分词对应的词性对目标分词进行词性标注，得到词性标注后的基础词性，最后将所有基础词性组合成词性集合。

其中，预设词性库包含不同的基础分词及基础分词对应的词性。

需要说的是，词性为用户预先设定的名词、动词、数据等表示目标分词的属性。

S5：获取目标答案包含的目标分词作为答案分词，并根据词性集合提取答案分词对应的关联实体。

在本发明实施例中，关联实体指与答案分词存在关联的目标分词，通过根据词性集合构建目标分词之间的依赖关系，获取目标答案包含的目标分词作为答案分词，再选取与答案分词存在依赖关系的目标分词作为关联实体。

需要强调的是，为进一步保证上述目标答案的私密和安全性，上述目标答案还可以存储于一区块链的节点中。

S6：判断关联实体是否属于目标问题，若属于，则将目标答案作为最终答案输出。

具体地，将所有关联实体与目标问题进行比较，若目标问题包含关联实体的数量大于预先设定数量，则表示关联实体属于该目标问题，该目标问题对应的目标答案的准确性高，并将该目标答案作为最终答案进行输出。

本实施例中，通过将目标文本和目标问题导入到信息抽取模型中，输出目标答案，再对目标文本进行分词处理获取目标分词，对目标分词进行词性标注以得到词性集合，获取目标答案对应的答案分词，并根据词性集合提取答案分词对应的关联实体，若关联实体属于目标问题，则将目标答案作为最终答案输出。通过利用预先训练好的信息抽取模型获取目标答案的方式，能够保证目标答案是基于数值型信息对应的训练数据得到，从而提高在有数值型信息的情况下目标答案获取的准确性；对目标文本进行分词处理，能够提取目标文本对应的分词特征，避免无效数据对后续运算造成干扰，从而提高后续根据目标分词得到关联实体的准确性；根据关联实体逆推目标问题的方式，能够有效对目标答案进行验证，提高最终答案的准确性，进一步提高用户获取信息的准确率及工作效率。

在一实施例中，如图2所示，步骤S2之前，该基于机器阅读理解的信息抽取方法还包括如下步骤：

S71：从预设数据库中获取基础语料。

具体地，通过直接从预设数据库中获取基础语料，其中，预设数据库是指专门用于存储基础语料的数据库。

S72：针对每个基础语料进行语料标注处理，得到语料标注处理后的目标语料。

具体地，将每个基础语料导入到预设语料标注端口中进行语料标注处理，得到语料标注处理后的目标语料。其中，预设语料标注端口是指专门用于对基础语料进行语料标注处理的处理端口。

S73：将目标语料发送给目标用户进行抽检，并选取抽检通过的目标语料作为训练语料。

在本发明实施例中，目标用户是指针对目标语料进行审核是否准确的用户。

具体地，将目标语料发送给目标用户，当目标用户接收到目标语料后，由于目标语料存在数据量大的特点，故目标用户采用抽检的形式，当从所有目标语料中随机抽检合格的数量达到设定数值，表示目标语料的准确性达到目标用户设定要求，并反馈抽检通过的信号给服务端，当服务端检测到用户反馈的抽检通过的信号后，将目标语料确定为训练语料。

需要说明的是，训练语料中包含基础语料、问题语料和答案语料。

S74：将训练语料导入到bert模型中进行训练，得到信息抽取模型。

具体地，根据预设训练方式，将训练语料导入到bert模型中进行训练，并在训练结束后将当前bert模型作为信息抽取模型。其中，预设训练方式是指根据用户实际需求设定用于训练信息抽取模型的训练方法。

本实施例中，通过对获取到的基础语料进行语料标注处理得到目标语料的方式，能够保证基础语料中数据的关联性，丰富数据信息，从而提高后续训练的准确性；再将目标语料发送给目标用户进行抽检，能够避免由于运算错误导致目标语料出错，从而保证目标语料的准确性，进一步提高后续根据目标语料训练信息抽取模型的准确性。

在一实施例中，基础语料是由不同的字段构成，如图3所示，步骤S72中，即针对每个基础语料进行语料标注处理，得到语料标注处理后的目标语料包括如下步骤：

S721：利用基础语料中的字段与预设匹配库中的基础字段进行匹配的方式，将匹配成功的字段确定为初始字段，其中，基础字段包含答案格式。

在本发明实施例中，将基础语料中的字段与预设匹配库中的基础字段进行匹配，若存在与基础字段相同的字段，则将该字段确定为初始字段。其中，预设匹配库是指用于存储不同的基础字段及基础字段对应的答案格式的数据库。

需要说明的是，还可以利用预先设定好的正则表达式与基础语料进行匹配，若匹配成功，则表示基础语料中存在待抽取的字段，并将匹配到的字段确定为初始字段。

S722：根据预设转换要求将初始字段转换成问题，并将该问题作为问题语料。

在本发明实施例中，预设转换要求是根据用户实际需求设定用于表达问题的转换方式。通过根据预设转换要求，将步骤S721得到的初始字段转换成对应的问题，并将该问题作为问题语料。

例如，初始字段为“损失金额”，根据预设转换要求将初始字段转换为“损失金额是多少”。

S723：从基础语料中提取初始字段后x个字符作为目标字段，利用与初始字段匹配的基础字段对应的答案格式对目标字段进行匹配，选取匹配成功的目标字段作为答案语料，其中，x为大于1的正整数。

在本发明实施例中，识别初始字段在基础语料中的所在位置之后的x个字符，将x个字符作为目标字段，并获取与初始字段匹配的基础字段对应的答案格式，将目标字段与答案格式进行匹配，若目标字段属于该答案格式对应的字段，则表示匹配成功，并将该目标字段作为答案语料。

其中，答案格式是指根据用户实际需求设定的格式，其具体可以是指数字字符组成的格式，也可以是中文加数字组成的格式，此处不作限制。

例如，基础语料为：“我的员工在3月12日被汽车撞了，预估损失金额300.35，报案联系人张敏，号码是13435673567”，根据步骤S721匹配到的初始字段为：“损失金额”和“号码”，根据步骤S723得到的目标字段为：300.35和13435673567，按照预设转换要求将匹配到的初始字段转换成问题，即问题语料为“损失金额是多少”、“号码是多少”；若答案格式为数字字符组成的格式，则答案语料为：“13435673567”、“300.35”。

S724：建立问题语料与答案语料之间的映射关系，并将建立映射关系后的基础语料作为目标语料。

在本发明实施例中，由于每个问题语料都有其对应的答案，且基础语料中可能存在多个问题语料和答案语料，为了避免问题语料与答案语料存在问答不符，故需将每个问题语料，与根据该问题语料确定的答案语料之间建立映射关系，以保证每个问题语料都有其对应的准确答案语料。

若基础语料中的每个问题语料与答案语料之间都建立好映射关系，则将该基础语料作为目标语料。

本实施例中，通过从基础语料中提取问题语料和答案语料的方式，能够对基础语料中包含的特征数据进行精准标识，有利于模型训练过程对数据进行准确定位，提高训练过程的准确性；再通过建立问题语料与答案语料之间的映射关系，能够在存在多个问题语料和答案语料的情况下，避免问题语料与答案语料之间存在问答不符的情况，进一步保证目标语料获取的准确性，有效提高后续根据目标语料确定训练语料的准确性。

在一实施例中，训练语料包含所述基础语料、问题语料和答案语料，bert模型包含编码层和全连接分类层。如图4所示，步骤S74中，即将训练语料导入到bert模型中进行训练，得到信息抽取模型包括如下步骤：

S741：获取训练语料包含的基础语料和问题语料作为正样本，训练语料包含的答案语料作为负样本。

在本发明实施例中，将训练语料包含的基础语料和问题语料作为正样本，训练语料包含的答案语料作为负样本。

S742：将正样本和负样本分别导入到bert模型中的编码层进行向量特征转换处理，得到正样本对应的第一向量特征，负样本对应的第二向量特征。

在本发明实施例中，bert模型包含编码层和全连接分类层，编码层中存在用于对正样本和负样本进行向量特征转换处理的信息表示端口。根据步骤S741得到的正样本和负样本，通过将正样本和负样本分别导入到bert模型中的编码层，利用编码层中的信息表示端口对对正样本和负样本进行向量特征转换处理，得到正样本对应的第一向量特征，负样本对应的第二向量特征。

S743：利用全连接分类层对第一向量特征进行矩阵运算处理，输出n*2的矩阵向量。

具体地，全连接分类层中包含预设卷积核，根据预设卷积核对第一向量特征进行矩阵运算处理，将第一向量特征转换成n*2的矩阵向量。

其中，预设卷积核是指根据用户实际需求设定用于矩阵运算处理核函数。

S744：将矩阵向量的第一列作为初始起始位置向量，将矩阵向量的第二列作为初始结束位置向量，并根据初始起始位置向量和初始结束位置向量组合成初始结果。

在本发明实施例中，由于根据步骤S743得到的n*2矩阵向量中共有n行2列的向量，故直接选取该n*2矩阵向量中第一列的向量作为初始起始位置向量，选取该n*2矩阵向量中第二列的向量作为初始结束位置向量，并根据预设组合方式将初始起始位置向量和初始结束位置向量组合成初始结果。

其中，预设组合方式是指根据用户实际需求进行组合的方式。

S745：对第二向量特征进行矩阵转换处理，获取答案语料对应的目标起始位置向量和目标结束位置向量，并将目标起始位置向量和目标结束位置向量组合成目标结果。

在本发明实施例中，将第二向量特征导入到预设矩阵运算端口中进行矩阵转换处理，得到答案语料对应的目标起始位置向量和目标结束位置向量，并根据预设组合方式将目标起始位置向量和目标结束位置向量组合成目标结果。

其中，预设矩阵运算端口是指专门用于对第二向量特征进行矩阵转换成目标起始位置向量和目标结束位置向量的处理端口。

S746：基于初始结果和目标结果进行损失计算，得到损失数值。

具体地，将初始结果和目标结果导入到预设损失端口中进行损失计算，得到对应的损失数值。其中，预设损失端口中包含用户预先设定好的损失计算函数。

S747：将损失数值与预设阈值进行比较，若损失数值大于预设阈值，则对bert模型进行迭代更新，直到损失数值小于等于预设阈值为止，将更新后的bert模型确定为信息抽取模型。

具体地，将损失数值与预设阈值进行比较，若损失数值大于预设阈值，则利用预先设置好的损失函数，通过对bert模型中各个网络层的初始参数进行调整的方式进行迭代更新，若损失数值小于等于预设阈值，则停止迭代，并将该损失数值对应的bert模型确定为信息抽取模型。

需要说明的是，初始参数只是为了方便bert模型的运算预设的一个参数，使得根据训练语料获得的初始结果和目标结果之间必然存在误差，需要将这个误差信息逐层回传给bert模型中的各层网络结构，让每一层网络结构对预设的初始参数进行调整，才能获得识别效果更好的信息抽取模型。

本实施例中，通过将正样本与负样本分别转换成第一向量特征和第二向量特征，并对第一向量特征和第二向量特征进行矩阵运算处理，分别得到初始结果和目标结果，能够有效将正样本与负样本转换成机器识别特征，保证初始结果和目标结果转换的准确性，提高模型训练过程机器阅读理解的准确度；根据计算的损失数值与预设阈值进行比较，能够判断信息抽取模型是否训练完毕，进一步提高信息抽取模型训练的准确性。

在一实施例中，如图5所示，步骤S746中，即基于初始结果和目标结果进行损失计算，得到损失数值包括如下步骤：

S7461：根据初始结果和目标结果，计算初始起始位置向量与目标起始位置向量之间的起始相似度，以及计算初始结束位置向量与目标结束位置向量之间的结束相似度。

在本发明实施例中，根据初始结果和目标结果，按照公式(1)计算初始起始位置向量与目标起始位置向量之间的起始相似度，按照公式(2)计算初始结束位置向量与目标结束位置向量之间的结束相似度：

其中，X为起始相似度，A为初始起始位置向量，B为目标起始位置向量。

其中，Y为结束相似度，C为初始结束位置向量，D为目标结束位置向量。

S7462：将起始相似度与结束相似度进行求和，得到的和作为初始结果和目标结果之间的余弦计算结果。

具体地，将起始相似度与结束相似度进行相加，得到的和作为初始结果和目标结果之间的余弦计算结果。

S7643：根据余弦计算结果与交叉熵损失函数进行损失计算，得到损失数值。

在本发明实施例中，余弦计算结果表示模型预测初始结果和目标结果匹配的概率，当模型预测出的概率达到预设目标值时，表示初始结果和目标结果匹配，当模型预测出的概率未达到预设目标值时，表示初始结果和目标结果不匹配。其中，预设目标值具体可以是0.8，也可以根据用户实际需求进行设置，此处不做限制。

具体地，根据余弦计算结果，利用交叉熵损失函数公式，如公式(3)计算损失数值：

其中，H(p,q)为损失数值，x为0或1，p(x)为x对应的实际状态，若x为0，表示初始结果和目标结果不匹配，p(x)为0，若x为1，表示初始结果和目标结果匹配，p(x)为1，q(x)为余弦计算结果。

本实施例中，通过公式(1)和公式(2)计算起始相似度和结束相似度，能够快速准确地判断初始结果和目标结果起末位置的相似度，根据起始相似度和结束相似度确定余弦计算结果，并结合交叉熵损失函数确定损失数值，保证损失数值计算的准确性，进一步提高后续根据损失数值判断信息抽取模型是否训练完成的准确性。

在一实施例中，如图6所示，步骤S3中，即对目标文本进行分词处理，得到目标分词包括如下步骤：

S31：根据预设要求设置字符串索引值和分词的最大长度值。

在本发明实施例中，字符串索引值是指专门用于定位开始扫描字符的位置，若该字符串索引值为0，则表示第一个字符为开始扫描字符的位置。最大长度值是专门用于扫描字符的最大范围，若最大长度值为2，则表示扫描最多2个字符，若最大长度值为3，则表示扫描最多3个字符。

具体地，根据预设要求对字符串索引值和分词的最大长度值进行设置，其中，预设要求具体可以是将字符串索引值设置为0，将最大长度值设置为2，其具体的设置要求可以根据用户的实际需求进行设置，此处不做限制。

S32：根据字符串索引值和最大长度值，从目标文本中提取目标字符。

具体地，根据步骤S31得到的字符串索引值和最大长度值，按照从左到右的扫描方式扫描目标文本，当扫描到最大长度值的字符时，将从开始扫描位置的字符到该最大长度值的字符标识为目标字符，并对该目标字符进行提取。

例如，目标文本为“南京市长江大桥”，最大长度值为3，字符串索引的初始值为0，按照从左到右的方式扫描该目标文本，即扫描到最大长度值的字符为“南京市”，将该最大长度值的字符“南京市”标识为目标字符，并对该目标字符进行提取。

S33：将目标字符与预设字典库中的合法字符进行匹配。

具体地，将步骤32中得到的目标字符与预设字典库中的合法字符进行匹配。其中，预设字典库是指专门用于存储用户设定的合法字符的数据库。

S34：若匹配成功，则将目标字符确定为目标分词，并将字符串索引值更新为当前字符串索引值加上当前最大长度值，基于更新后的字符串索引值和最大长度值，从目标文本中提取目标字符进行匹配，直到完成对目标文本的分词操作为止。

具体地，将步骤S32中得到的目标字符与预设字典库中的合法字符进行匹配，当匹配到目标字符与预设字典库中的合法字符相同时，表示匹配成功，并将该目标字符确定为目标分词，同时将字符串索引值更新为当前步骤S32中的字符串索引值加上当前步骤S32中的最大长度值，基于更新后的字符串索引值和最大长度值，从目标文本中提取目标字符进行匹配，直到完成对目标文本的分词操作为止。

例如，如步骤S32中的例子所述，若目标字符“南京市”匹配到与预设字典库中的字符相同时，则将目标字符“南京市”确认为目标分词，并将字符串索引值更新为当前字符串索引值0+当前最大长度值3，即字符串索引值将更新为3，并基于更新后的字符串索引值3和最大长度值3，从目标文本中提取目标字符进行匹配，即针对目标文本“南京市长江大桥”，从“长”字符开始扫描。直到完成对目标文本的分词操作为止。

S35：若匹配失败，则将最大长度值进行递减，并基于更新后的最大长度值和字符串索引值从目标文本中提取目标字符进行匹配，直到完成对目标文本的分词操作为止。

具体地，将步骤S32中得到的目标字符与预设字典库中的合法字符进行匹配，当未匹配到目标字符与预设字典库中的合法字符相同时，表示匹配失败，则将最大长度值更新为当前步骤S32中的最大长度值减1，并基于更新后的最大长度值和字符串索引值从目标文本中提取目标字符进行匹配，直到完成对目标文本的分词操作为止。

需要说明的是，当所有最大长度值大于1的目标字符都未匹配到与预设字典库中的字符相同时，则将单个字符确认为目标分词。

例如：如步骤S32中的例子所述，若目标字符“南京市”未匹配到与预设字典库中的字符相同时，则将最大长度值更新为当前最大长度值3减1，即最大长度值更新为2，并基于更新后的最大长度值2和字符串索引值0从目标文本中提取目标字符进行匹配，直到完成对目标文本的分词操作为止。

本实施例中，通过设置字符串索引值和分词的最大长度值对目标文本进行分词处理，并根据字符串索引值和最大长度值与合法字符进行匹配得到目标分词，从而实现能够智能对目标文本进行分词处理，便于后续利用分词处理后的目标分词进行进一步匹配对应的关联实体，提高获取关联实体的精确度，进一步提高后续根据关联实体确定最终答案的准确性，从而有效提高用户获取信息的准确率及工作效率。

在一实施例中，目标答案存储于区块链中，如图7所示，S5中，即获取目标答案包含的目标分词作为答案分词，并根据词性集合提取答案分词对应的关联实体包括如下步骤：

S51：根据目标分词和词性集合，利用预设依赖构建端口构建每个目标分词对应的依赖关系。

在本发明实施例中，预设依赖构建端口是专门用于构建目标分词对应的依赖关系的处理端口，优选地，本提案预设依赖构建端口主要是利用HanLP开源工具，HanLP开源工具是指专门用于构建句法依赖树的处理工具。

具体地，根据目标分词和词性集合，利用预设依赖构建端口构建每个目标分词相对词性集合对应的依赖关系。

比如，目标分词为小明、摔坏、东西、赔偿、100元，若目标分词小明与赔偿、100元之间存在依赖关系，则表示小明赔偿了100元。

S52：获取目标答案包含的目标分词作为答案分词，根据依赖关系提取答案分词的关联实体。

具体地，将目标答案与目标分词进行匹配，若目标分词在目标答案范围内，则将该目标分词作为答案分词，并获取与该答案分词存在依赖关系的目标分词作为关联实体。

本实施例中，通过构建每个目标分词对应的依赖关系，并根据依赖关系提取答案分词对应的关联实体，根据依赖关系可以提高数据之间的关联性，丰富数据特征，进而保证关联实体获取的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于机器阅读理解的信息抽取装置，该基于机器阅读理解的信息抽取装置与上述实施例中基于机器阅读理解的信息抽取方法一一对应。如图8所示，该基于机器阅读理解的信息抽取装置包括获取模块81，目标答案输出模块82，分词模块83，词性集合确定模块84，关联实体确定模块85和最终答案输出模块86。各功能模块详细说明如下：

获取模块81，用于从初始数据库中获取目标文本和目标问题；

目标答案输出模块82，用于将目标文本和目标问题导入到预先训练好的信息抽取模型中，输出目标问题对应的目标答案；

分词模块83，用于对目标文本进行分词处理，得到目标分词；

词性集合确定模块84，用于根据预设标注方式对目标分词进行词性标注，得到词性集合；

关联实体确定模块85，用于获取目标答案包含的目标分词作为答案分词，并根据词性集合提取答案分词对应的关联实体；需要强调的是，为进一步保证上述目标答案的私密和安全性，上述目标答案还可以存储于一区块链的节点中；

最终答案输出模块86，用于判断关联实体是否属于目标问题，若属于，则将目标答案作为最终答案输出。

进一步地，该基于机器阅读理解的信息抽取装置还包括：

基础语料获取模块，用于从预设数据库中获取基础语料；

语料标注处理模块，用于针对每个基础语料进行语料标注处理，得到语料标注处理后的目标语料；

抽检模块，用于将目标语料发送给目标用户进行抽检，并选取抽检通过的目标语料作为训练语料；

训练模块，用于将训练语料导入到bert模型中进行训练，得到信息抽取模型。

进一步地，语料标注处理模块包括：

第一匹配子模块，用于利用基础语料中的字段与预设匹配库中的基础字段进行匹配的方式，将匹配成功的字段确定为初始字段，其中，基础字段包含答案格式；

转换子模块，用于根据预设转换要求将初始字段转换成问题，并将该问题作为问题语料；

第二匹配子模块，用于从基础语料中提取初始字段后x个字符作为目标字段，利用与初始字段匹配的基础字段对应的答案格式对目标字段进行匹配，选取匹配成功的目标字段作为答案语料，其中，x为大于1的正整数；

映射关系建立子模块，用于建立问题语料与答案语料之间的映射关系，并将建立映射关系后的基础语料作为目标语料。

进一步地，训练模块包括：

正负样本获取子模块，用于获取训练语料包含的基础语料和问题语料作为正样本，训练语料包含的答案语料作为负样本；

向量特征转换子模块，用于将正样本和负样本分别导入到bert模型中的编码层进行向量特征转换处理，得到正样本对应的第一向量特征，负样本对应的第二向量特征；

矩阵运算子模块，用于利用全连接分类层对第一向量特征进行矩阵运算处理，输出n*2的矩阵向量；

初始结果组合子模块，用于将矩阵向量的第一列作为初始起始位置向量，将矩阵向量的第二列作为初始结束位置向量，并根据初始起始位置向量和初始结束位置向量组合成初始结果；

目标结果组合子模块，用于对第二向量特征进行矩阵转换处理，获取答案语料对应的目标起始位置向量和目标结束位置向量，并将目标起始位置向量和目标结束位置向量组合成目标结果；

损失计算子模块，用于基于初始结果和目标结果进行损失计算，得到损失数值；

比较子模块，用于将损失数值与预设阈值进行比较，若损失数值大于预设阈值，则对bert模型进行迭代更新，直到损失数值小于等于预设阈值为止，将更新后的bert模型确定为信息抽取模型。

进一步地，损失计算子模块包括：

第一计算单元，用于根据初始结果和目标结果，计算初始起始位置向量与目标起始位置向量之间的起始相似度，以及计算初始结束位置向量与目标结束位置向量之间的结束相似度；

求和单元，用于将起始相似度与结束相似度进行求和，得到的和作为初始结果和目标结果之间的余弦计算结果；

第二计算单元，用于根据余弦计算结果与交叉熵损失函数进行损失计算，得到损失数值。

进一步地，分词模块83包括：

设置子模块，用于根据预设要求设置字符串索引值和分词的最大长度值；

目标字符提取子模块，用于根据字符串索引值和最大长度值，从目标文本中提取目标字符；

字符匹配子模块，用于将目标字符与预设字典库中的合法字符进行匹配；

字符匹配成功子模块，用于若匹配成功，则将目标字符确定为目标分词，并将字符串索引值更新为当前字符串索引值加上当前最大长度值，基于更新后的字符串索引值和最大长度值，从目标文本中提取目标字符进行匹配，直到完成对目标文本的分词操作为止；

字符匹配失败子模块，用于若匹配失败，则将最大长度值进行递减，并基于更新后的最大长度值和字符串索引值从目标文本中提取目标字符进行匹配，直到完成对目标文本的分词操作为止。

进一步地，关联实体确定模块85包括：

依赖关系构建子模块，用于根据目标分词和词性集合，利用预设依赖构建端口构建每个分词对应的依赖关系；

提取子模块，用于获取目标答案包含的目标分词作为答案分词，根据依赖关系提取答案分词的关联实体。

本申请的一些实施例公开了计算机设备。具体请参阅图9，为本申请的一实施例中计算机设备90基本结构框图。

如图9中所示意的，所述计算机设备90包括通过系统总线相互通信连接存储器91、处理器92、网络接口93。需要指出的是，图9中仅示出了具有组件91-93的计算机设备90，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器91至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器91可以是所述计算机设备90的内部存储单元，例如该计算机设备90的硬盘或内存。在另一些实施例中，所述存储器91也可以是所述计算机设备90的外部存储设备，例如该计算机设备90上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器91还可以既包括所述计算机设备90的内部存储单元也包括其外部存储设备。本实施例中，所述存储器91通常用于存储安装于所述计算机设备90的操作系统和各类应用软件，例如所述基于机器阅读理解的信息抽取方法的程序代码等。此外，所述存储器91还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器92在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器92通常用于控制所述计算机设备90的总体操作。本实施例中，所述处理器92用于运行所述存储器91中存储的程序代码或者处理数据，例如运行所述基于机器阅读理解的信息抽取方法的程序代码。

所述网络接口93可包括无线网络接口或有线网络接口，该网络接口93通常用于在所述计算机设备90与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有目标答案信息录入程序，所述目标答案信息录入程序可被至少一个处理器执行，以使所述至少一个处理器执行上述任意一种基于机器阅读理解的信息抽取方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台计算机设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

最后应说明的是，显然以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于机器阅读理解的信息抽取方法，其特征在于，所述基于机器阅读理解的信息抽取方法包括：

从初始数据库中获取目标文本和目标问题；

对所述目标文本进行分词处理，得到目标分词；

获取所述目标答案包含的所述目标分词作为答案分词，根据所述词性集合确定每个所述目标分词对应的依赖关系，并提取与所述答案分词存在依赖关系的所述目标分词作为关联实体；

将所述关联实体与所述目标问题进行比较，若所述目标问题包含所述关联实体的数量大于预设数量，则确定所述关联实体属于所述目标问题，并将所述目标答案作为最终答案输出。

2.如权利要求1所述的基于机器阅读理解的信息抽取方法，其特征在于，所述将所述目标文本和所述目标问题导入到预先训练好的信息抽取模型中，输出所述目标问题对应的目标答案的步骤之前，所述基于机器阅读理解的信息抽取方法还包括：

从预设数据库中获取基础语料；

针对每个所述基础语料进行语料标注处理，得到语料标注处理后的目标语料；

将所述目标语料发送给目标用户进行抽检，并选取抽检通过的目标语料作为训练语料；

将所述训练语料导入到bert模型中进行训练，得到信息抽取模型。

3.如权利要求2所述的基于机器阅读理解的信息抽取方法，其特征在于，所述基础语料是由不同的字段构成，所述针对每个所述基础语料进行语料标注处理，得到语料标注处理后的目标语料的步骤包括：

利用所述基础语料中的字段与预设匹配库中的基础字段进行匹配的方式，将匹配成功的字段确定为初始字段，其中，所述基础字段包含答案格式；

根据预设转换要求将所述初始字段转换成问题，并将所述问题作为问题语料；

从所述基础语料中提取所述初始字段后x个字符作为目标字段，利用与所述初始字段匹配的基础字段对应的答案格式对所述目标字段进行匹配，选取匹配成功的所述目标字段作为答案语料，其中，x为大于1的正整数；

建立所述问题语料与所述答案语料之间的映射关系，并将建立映射关系后的基础语料作为所述目标语料。

4.如权利要求3所述的基于机器阅读理解的信息抽取方法，其特征在于，所述训练语料包含所述基础语料、所述问题语料和所述答案语料，所述bert模型包含编码层和全连接分类层，所述将所述训练语料导入到bert模型中进行训练，得到信息抽取模型的步骤包括：

获取所述训练语料包含的基础语料和问题语料作为正样本，所述训练语料包含的答案语料作为负样本；

将所述正样本和所述负样本分别导入到bert模型中的编码层进行向量特征转换处理，得到所述正样本对应的第一向量特征，所述负样本对应的第二向量特征；

利用所述全连接分类层对所述第一向量特征进行矩阵运算处理，输出n*2的矩阵向量；

将所述矩阵向量的第一列作为初始起始位置向量，将所述矩阵向量的第二列作为初始结束位置向量，并根据所述初始起始位置向量和所述初始结束位置向量组合成初始结果；

对所述第二向量特征进行矩阵转换处理，获取所述答案语料对应的目标起始位置向量和目标结束位置向量，并将所述目标起始位置向量和所述目标结束位置向量组合成目标结果；

基于所述初始结果和所述目标结果进行损失计算，得到损失数值；

将所述损失数值与预设阈值进行比较，若所述损失数值大于预设阈值，则对所述bert模型进行迭代更新，直到所述损失数值小于等于预设阈值为止，将更新后的bert模型确定为所述信息抽取模型。

5.如权利要求4所述的基于机器阅读理解的信息抽取方法，其特征在于，所述基于所述初始结果和所述目标结果进行损失计算，得到损失数值的步骤包括：

根据所述初始结果和所述目标结果，计算所述初始起始位置向量与所述目标起始位置向量之间的起始相似度，以及计算所述初始结束位置向量与所述目标结束位置向量之间的结束相似度；

将所述起始相似度与所述结束相似度进行求和，得到的和作为所述初始结果和所述目标结果之间的余弦计算结果；

根据所述余弦计算结果与交叉熵损失函数进行损失计算，得到所述损失数值。

6.如权利要求1所述的基于机器阅读理解的信息抽取方法，其特征在于，所述对所述目标文本进行分词处理，得到目标分词的步骤包括：

根据预设要求设置字符串索引值和分词的最大长度值；

根据所述字符串索引值和所述最大长度值，从所述目标文本中提取目标字符；

将所述目标字符与预设字典库中的合法字符进行匹配；

若匹配成功，则将所述目标字符确定为所述目标分词，并将所述字符串索引值更新为当前所述字符串索引值加上当前所述最大长度值，基于更新后的所述字符串索引值和所述最大长度值，从所述目标文本中提取目标字符进行匹配，直到完成对所述目标文本的分词操作为止；

若匹配失败，则将所述最大长度值进行递减，并基于更新后的所述最大长度值和所述字符串索引值从所述目标文本中提取目标字符进行匹配，直到完成对所述目标文本的分词操作为止。

7.如权利要求1所述的基于机器阅读理解的信息抽取方法，其特征在于，所述目标答案可存储于区块链中，所述获取所述目标答案包含的所述目标分词作为答案分词，根据所述词性集合确定每个所述目标分词对应的依赖关系，并提取与所述答案分词存在依赖关系的所述目标分词作为关联实体的步骤包括：

根据所述目标分词和所述词性集合，利用预设依赖构建端口构建每个所述目标分词对应的依赖关系；

获取所述目标答案包含的所述目标分词作为答案分词，根据所述依赖关系提取所述答案分词的所述关联实体。

8.一种基于机器阅读理解的信息抽取装置，其特征在于，所述基于机器阅读理解的信息抽取装置包括：

获取模块，用于从初始数据库中获取目标文本和目标问题；

关联实体确定模块，用于获取所述目标答案包含的所述目标分词作为答案分词，根据所述词性集合确定每个所述目标分词对应的依赖关系，并提取与所述答案分词存在依赖关系的所述目标分词作为关联实体；

最终答案输出模块，用于将所述关联实体与所述目标问题进行比较，若所述目标问题包含所述关联实体的数量大于预设数量，则确定所述关联实体属于所述目标问题，并将所述目标答案作为最终答案输出。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于机器阅读理解的信息抽取方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于机器阅读理解的信息抽取方法的步骤。