CN112560491B

CN112560491B - 一种基于ai技术的信息抽取方法、装置和存储介质

Info

Publication number: CN112560491B
Application number: CN202011457669.5A
Authority: CN
Inventors: 刘祥
Original assignee: Beijing Bailian Intelligent Technology Co ltd
Current assignee: Beijing Bailian Intelligent Technology Co ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2024-03-19
Anticipated expiration: 2040-12-11
Also published as: CN112560491A

Abstract

本文公开了一种基于人工智能AI技术的信息抽取方法、装置和存储介质。其中，所述方法包括，对目标文件进行语义切割，得到切割后的多个文本单元；根据所述多个文本单元，利用预先训练好的命名实体识别模块识别出实体，并利用预先训练好的关系分类模型抽取实体之间的关系；利用预先训练好的机器阅读理解模型，对所识别出的实体和所抽取的实体之间的关系进行校验；根据校验后的实体和实体之间的关系，确定所述目标文件对应的结构化信息。

Description

一种基于AI技术的信息抽取方法、装置和存储介质

技术领域

本公开涉及但不限于人工智能、文档结构化处理领域，尤其涉及一种基于AI技术的信息抽取方法、装置和存储介质。

背景技术

结构化信息抽取技术被各行各业所需要，对目标数据(文件)进行进行抽取形成结构化数据，才能更有效地进行后续的信息加工、处理或分析。以招投标领域为例，针对招投标文件的信息抽取，目前主流的方法仍是根据正则匹配进行提取。其实现方式是通过分析招投标文件，定义一些诸如项目名称、项目编号、采购类型等触发词，以及电话、日期等模式，结合正则表达式进行文件内容的匹配，进而得到对应的字段信息，以实现对招投标文件的结构化信息的抽取。

近些年，随着知识图谱等技术的兴起，也有一些相结合的案例。其实现方式一般是通过先构建一个招投标领域知识图谱，然后基于图谱，计算招投标文件与图谱的匹配程度，通过卡阈值得到相应字段的信息，以实现对招投标文件的结构化信息的抽取。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本公开实施例提供一种基于AI技术的信息抽取方法，包括，

对目标文件进行语义切割，得到切割后的多个文本单元；

根据所述多个文本单元，利用预先训练好的命名实体识别模块识别出实体，并利用预先训练好的关系分类模型抽取实体之间的关系；

利用预先训练好的机器阅读理解模型，对所识别出的实体和所抽取的实体之间的关系进行校验；

根据校验后的实体和实体之间的关系，确定所述目标文件对应的结构化信息。

一些示例性的实施例中，所述对目标文件进行语义切割，得到切割后的多个文本单元，包括：

获取所述目标文件中的文本内容，根据语义分割模型对所述文本内容进行切割，得到切割后的所述多个文本单元。

一些示例性的实施例中，所述目标文件包括：网页文件；

所述获取所述目标文件中的文本内容，包括：

根据所述网页文件构建网页文档对象模型DOM树；

根据所述目标文件所属的类型对应的词典和预设的文本块分割算法，识别所述网页DOM树中的正文区域；

识别所述正文区域中包含的文本，并根据预设的格式转换为所述文本内容。

一些示例性的实施例中，所述预设的格式至少包括以下之一：表格内文本拼接格式、表格与非表格文本拼接格式、表格间文本拼接格式；

所述识别所述正文区域中包含的文本，并根据预设的格式转换为所述文本内容，包括：

根据预设的表格分类模型，从所述正文区域中识别出表格区域和非表格区域，并确定所述表格区域的表格类型；

根据所述表格类型和预设的表格内文本拼接格式，将各表格区域中的文本转换为表格文本；

根据所述预设的格式，将所述表格文本和非表格区域中的文本转换为所述文本内容。

一些示例性的实施例中，所述语义分割模型为：根据预先标注的样本对BERT预训练语言模型进行微调得到的模型。

一些示例性的实施例中，所述命名实体识别模型为基于深度学习的序列标注模型，所述序列标注模型由BERT预训练语言模型、双向长短期记忆BILSTM模型和融合Attention机制的条件随机场CRF模型组成；

所述命名实体识别模型根据以下方式预先训练确定：

根据需要识别的实体类型和关系类型，对样本数据进行标注得到训练数据；根据所述训练数据对所述命名实体识别模型进行训练；

所述关系分类模型由BERT预训练语言模型、双向长短期记忆BILSTM模型和线性回归Linear模型组成；

所述关系分类模型根据以下方式预先训练确定：

根据需要识别的实体类型和关系类型，对样本数据进行标注得到训练数据；根据所述训练数据对所述关系分类模型进行训练。

一些示例性的实施例中，所述机器阅读理解模型根据以下方式预先训练确定：

根据所述目标文件所属的类型，确定问题模板；

根据需要识别的实体类型和关系类型，对样本数据进行标注得到标注数据；

根据所述标注数据和所述问题模板生成训练数据，采用所述训练数据训练机器阅读理解模型；其中，每一种类型的问题模板分别对应一个机器阅读理解模型。

一些示例性的实施例中，所述利用预先训练好的机器阅读理解模型，对所识别出的实体和所抽取的实体之间的关系进行校验，包括：

利用所述预先训练好的机器阅读理解模型，根据所述实体和实体间关系，确定预测结果；

根据所述预测结果对所识别出的实体和所抽取的实体间的关系进行补充或纠正，得到校验后的实体和实体之间的关系。

本公开实施例还提供一种电子装置，包括存储器和处理器，所述存储器中存储有用于进行信息抽取的计算机程序，所述处理器被设置为读取并运行所述用于进行信息抽取的计算机程序以执行上述任一种基于AI技术的信息抽取方法。

本公开实施例还提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一种基于AI技术的信息抽取方法。

可以看到，本公开实施例提供的基于人工智能AI技术的结构化信息抽取方案，能自动的从文件中提取相关实体，并计算实体间的关系，提取所需的字段信息。该方式针对风格样式多变的招投标文件，具备极好的泛化能力和召回能力。

在阅读并理解了附图和详细描述后，可以明白其他方面。

附图说明

图1为本公开一实施例中信息抽取方法的流程图；

图2为本公开一实施例中进行文件预处理的流程图；

图3为本公开一实施例中进行实体识别和关系抽取的流程图；

图4为本公开一实施例中样本标注的示意图；

图5为本公开一实施例中进行数据校验并确定结构化信息的流程图；

图6为本公开一实施例中待提取信息的目标文件示例图；

图7为本公开一实施例中待提取信息的目标文件确定正文区域的示例图；

图8为本公开一实施例中表格转文本的示例图；

图9为本公开一实施例中信息抽取方法的流程图；

图10为本公开一实施例中信息抽取装置的结构图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步的详细描述。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

随着互联网技术的普及和发展，越来越多的招投标工作转到网上进行，Internet快速积累了海量的招投标文件。这些招投标文件由不同机构和网站发布，种类繁杂，风格多变，给文件的结构化工作带来不小的挑战，因此亟需一种行之有效的信息抽取方法来处理这些文件。

以招投标领域为例，越来越多的招投标工作转到网上进行，Internet快速积累了海量的招投标文件。这些招投标文件由不同机构和网站发布，种类繁杂，风格多变，给文件的结构化工作带来不小的挑战，因此亟需一种行之有效的信息抽取方法来处理这些文件。相关技术中也存在一些技术方案来实现信息抽取。例如，正则匹配一直以来是一个简单高效的方式，但其有着低召回以及难以维护等缺点。低召回是因为招投标文件风格多变，无法穷举所有的模式；难以维护是因为正则式随着规模数据的增加，每新加一条，需要考虑与已有正则库的兼容，再加上正则式的易读性差，维护成本大大增加。

而与知识图谱结合的方式很依赖图谱的质量。事实上构建一个高质量的招投标领域的知识图谱，代价是巨大的，而且图谱的构建反而需要招投标文件信息抽取来提供支持。

本公开实施例提出的基于AI技术的结构化信息抽取方法，采用命名实体识别、关系抽取等AI技术，能自动的从文件中提取相关实体，并计算实体间的关系，提取所需的字段信息。该方式针对风格样式多变的招投标文件，具备极好的泛化能力和召回能力。

实施例一

本实施例以招投标领域的结构化抽取为示例，提供一种基于AI技术的信息抽取方法，如图1所示，包括：

步骤101，获取招投标文件；

步骤102，对招投标文件进行预处理；

步骤103，实体识别；

步骤104，关系抽取；

步骤105，形成结构化信息。

事实上，招投标文件多从各类网站中获取，这些网站中部分有自己的固定模板，但更多是汇总聚合类网站，有着各种样式的招投标文件。因此，很有必要对这些文件进行统一预处理。这里预处理后的输出是语义切割后的文本段落，即多个文本单元，涉及到的AI技术主要应用在表格识别和语义分割上。

一些示例性的实施例中，步骤101所获取的招投标文件(也称为目标文件)为网页文件，对应地，步骤102中，所述预处理如图2所示，包括：

a.通过HTML解析器解析招投标网页文件，构建网页文档对象模型dom树。

b.剔除无效的标签内容，如comment、script等。

c.补全缺失的标签。一些招投标文件虽然在浏览器端能正确渲染，但是会出现诸如缺失闭合标签、缺失上级标签等问题，如td一般在tr下，有部分网页会在一个table下，偶尔出现td直接出现，而无tr的情况。

d.结合招投标领域的词典和文本块分割算法，确定网页文件中的正文区域。

e.对正文区域单独渲染，将其渲染后图片和含有表格的正文区域一块送入表格分类模型。该模型主要用于识别表格类型；其中，表格类型包括：行式表格(表头在第一列)、列式表格(表头在第一行)、矩阵式表格(表头为第一列和第一行共同组成)、混合式表格中。得到表格类型后，将其按照对应表头和具体值，按照预设的格式(表格内文本拼接格式)组成文本段，例如对表头和具体值组成“表头：值”形式，然后通过逗号进行拼接，这样就将表格转成有语义的文本段。如果有多个表格，则根据各自的表格类型进行拼接，得到对应的文本段；对于非表格的区域，则通过html转文本的方式，将非表格区域的信息转换为文本段；最后按照预设的规则，将全部文本段拼接在一起，如此便将网页文件转换成文本。

f.由于深度学习对文本长度的限制，无法将很长的文本直接送入模型，这里采用语义分割模型对长文本进行切割，得到多个文本单元。该模型根据BERT预训练语言模型加以预标注好的数据微调(fine-tuning)而得到，能尽可能保证对上下文有重要影响的文本与上下文分在一起，如文本“中标人信息。机构名：XX机构，联系人：张三。”会分在一起，而不会按照句号分成多个文本，因为“张三”和“XX机构”指的是中标人，而不是招标人或代理人。

g.输出经过语义切割后的多个文本单元。

其中，步骤d中的文本块分割算法为用于做网页正文提取的算法，可以为基于文本密度的网页正文提取算法、基于行块分布函数的网页正文提取算法等。一些示例性的实施例中，选用了改进的基于行块分布函数的网页正文提取算法。

一些示例性的实施例中，步骤f中的模型为利用标注好的样本数据，对BERT预训练语言模型进行微调后得到的模型。这里的微调是指采用目标领域数据对既有模型(BERT预训练语言模型)重新训练，使模型参数更适合解决目标领域的任务。

招投标文件在预处理完后，需要提取其中涉及到的实体，如项目名称、招投机构、监督机构、招投人等，以及实体间的关系，如投标关系、标段关系、中标关系、竞争对手关系等。其主要涉及到序列标注、关系分类等AI技术。

一些示例性的实施例中，步骤103和104的实体识别和关系抽取，其流程如图3所示，包括：

a.预先定义好需要识别的实体类型和关系类型，如项目名称、招标人、招标代理等实体，竞对、中标、联合投标等关系；

b.根据定义好的标签类型，利用样本数据人工标注一定数据量的招投标数据。标注形式如图4所示；

c.根据标注数据预先训练命名实体识别模型。这里采用了基于深度学习的序列标注模型，其由BERT预训练语言模型、双向长短期记忆BILSTM模型和融合Attention机制的条件随机场CRF模型组成。其中为了提升处理速度，对BERT预训练语言模型进行了裁剪，并选用了更高效的Lamb作为优化器算法。

d.根据标注数据预先训练关系分类模型。其模型结构为BERT预训练语言模型、BILSTM模型、线性回归Linear模型组成，其中BERT预训练语言模型、BILSTM模型是与命名实体识别模型共用。

e.使用时训练好的命名实体模型和关系分类模型对招投标文件预处理后的文本(即多个文本单元)进行标注，输出模型预测结果。所述预测结果包括识别出的实体和实体之间的关系。

一些示例性的实施例中，融合Attention机制的条件随机场CRF模型也称为Attention+CRF模型；步骤c中基于深度学习的序列标注模型，其由BERT预训练语言模型、双向长短期记忆BILSTM模型和融合Attention机制的条件随机场CRF模型组成，也称为BERT+BILSTM+Attention+CRF模型。

作为概率统计模型，命名实体识别和关系分类处理后的招投标文件仍需要进一步加工，用以避免遗漏和错误。基于AI技术的招投标智能校验，采用机器阅读理解技术，自动生成问题和答案，判断答案与提取结果的匹配程度，从而进一步筛选可靠信息。

一些示例性的实施例中，步骤105形成结构化信息如图5所示，包括：

a.定义问题模板。主要有2种类型，一种是是非问题，如“{org}是{project_name}的招标公司吗？”、“{project_name}的招标代理联系人有{person}吗？”等；另一种是匹配问题，如“项目招标的标的物是什么？”、“{section}的预算是多少？”等。这里的{project_name}、{person}、{section}等均为问题模板的槽位，可以根据命名实体识别模型和关系分类模型处理的结果进行填充。

b.根据标注数据和问题模板生成训练数据，训练机器阅读理解模型，每类问题一个模型。

c.使用机器阅读理解模型预测命名实体识别和关系分类模型处理的结果，将遗漏的进行补充，并对错误的进行纠正，最终得到招投标文件的结构化输出。

其中，上述步骤105中b的所述标注数据即为关系抽取过程中步骤b中的标注数据。

一些示例性的实施例中，所述机器阅读理解模型由BERT预训练语言模型和QAnet模型组成，也记为BERT+QAnet模型。

可以看到，本公开实施例所提供的信息提取方案，基于AI技术对招投标文件进行了预处理：采用了表格识别技术，自动对行式、列式、混合式、矩阵式等不同类型表格进行识别，同时采用了语义分割技术，在大文本段落切分时，考虑到上下文，做出更好的语句分割。

基于序列标注、关系分类的文档结构化方式，可以准确高效的识别出招投标文件中的诸如项目名称、中标人、招标人等字段实体，并汇总分析出它们之间的关系。

基于机器阅读理解的方式，可以用来校验提取结果，并补充遗漏的提取信息。

涉及到的模型均采用了BERT预训练语言模型。BERT模型由谷歌AI团队于2018年发布，在11个自然语言处理任务上刷新了记录，是自然语言处理史乃至AI史上的一个重大里程碑。其由海量文本语料训练而成，能够很好捕捉词语和句子级别的表示，高效抽取文本信息并应用于各类自然语言处理任务。

本公开实施例所提供的方案采用BERT和下游任务(如语义分割、命名实体识别、关系分类、机器阅读理解等)结合，具备更好的泛化能力。

一些示例性的实施例中，步骤103中进行命名实体识别的模型还可以采用其他具备相似识别效果的网络模型，不限于上述例举的特定模型。例如：向量词Word2Vec+LSTM+CRF模型，或隐马尔可夫模型HMM(Hidden Markov model)模型。

一些示例性的实施例中，步骤104中进行关系识别的模型还可以采用其他具备相似识别效果的网络模型，不限于上述例举的特定模型。例如，分段卷积神经网络(PiecewiseConvolutional Neural Networks)PCNN+Attention模型，或CR-CNN(排序分类卷积神经网络，Classification by Ranking CNN)模型。

一些示例性的实施例中，步骤105中的机器阅读理解模型还可以采用其他具备相似技术效果的网络模型，不限于上述例举的特定模型。例如，深度神经网络SDNet模型、双向注意力流BiDAF模型或BERT+DAE(DA Enhanced)+AoA(层叠式注意力Attention-over-Attention)模型。

一些示例性的实施例中，所述信息提取方法还可以用于其领域内相关信息的提取，如针对企业年报、裁判文书、新闻要素等目标文件进行结构化信息抽取。例如，针对裁判文书，相应调整步骤102中的词典，将其调整为裁判文书所属的这一类文件所对应的词典，其中的语义分割模型根据裁判文书的特点提前调整；步骤103和104中的相应地，定义对应于裁判文书相关的标签类型，并利用该方面的样本数据进行标注，得到标注数据，训练后的所述命名实体识别模块用于识别该目标文件(裁判文书)中的实体，训练后所述关系分类模型用于识别该目标文件(裁判文书)中实体之间的关系；步骤105中预先定义的问题模板是针对该目标文件(裁判文书)所属领域的问题模板，训练后的机器阅读理解模型用于预测实体和实体之间的关系。最终，得到针对裁判文书的结构化信息，并输出或保存。

对于其他领域的目标文件，根据上述实施例记载，本领域技术人员可以知晓如何相应调整相关步骤并实施，以得到对应的提取结果，在此不进行一一赘述。

本公开实施例提供的信息提取方法能具备很好的泛化能力，针对新模式的招投标文件，也能给予很好的支持。此外，该方法有着很好的进化能力，随着招投标信息抽取工作的积累，模型能够很方便快速的进行迭代与更新，维护成本低，自动化程度高。

可以看到，本公开实施例所提供的方案，充分利用了相关算法和模型的优势，针对信息提取提出了全新的解决方案。以招投标领域为例，针对大量样本进行了验证，确定了上述信息提出方案，能够很方便快速的进行迭代与更新，整体方案维护成本低，自动化程度高。

示例一

以XX采购网中一篇中标公告为目标文件，进行信息抽取，其过程如下：

步骤1：从XX采购网上获取该中标公告网页文件后，进行预处理，包括：进行渲染后，得到如图6所示的网页文件；对渲染后的网页文件进行正文区域提取，得到如图7红框中的正文区域；识别正文区域中的表格的类型，连同非表格的内容，将目标网元转换成文本；再进行长文本切割，得到多个文本单元。

其中，本示例中表格类型识别为行式表格，该表中内容对应的文本如图8所示。

以图6所示的目标文件，完成预处理后得到的分割后的多个文本单元如下：

[0]XX县卫生和计划生育局微量泵等医疗设备采购项目中标公示

[1]1、项目名称:XX县卫生和计划生育局微量泵等医疗设备采购项目

[2]2、招标编号:1545-194203112031

[3]3、采购预算:55.30万元

[4]4、招标方式:公开招标

[5]5、招标公告时间:2019年02月20日

[6]6、定标日期:2019年03月15日

[7]7、评标专家名单:张三、李四、王五

[8]8、评标方法:综合评分法

[9]9、评标结果:中标单位,云南XX科技有限公司；中标单位地址,云南省昆明市西山区XXX村；投标总价(中标价格),54.82万元；交货时间,合同签订后25日内

[10]联系人,王女士；联系电话,0871-12345678

[11]10、本公告期限为1个工作日(2019年03月18日),投标人如有异议请于本公告时间结束之日起的7个工作日内向姚安县财政局政府采购管理股进行实名书面投诉.

[12]行政监督部门电话:0878-5722526

[13]11、采购人:XX县卫生和计划生育局；采购人地址:XX县栋川镇蛉荷大道城南办公区

[14]采购人联系人:罗老师；电话:0878-1234567

[15]12、招标代理机构名称:云南XX招标有限公司；招标代理机构地址:云南省昆明市盘龙区XX路

[16]联系人:周大福、于六；招标代理机构联系电话:0871-66668888

[17]特此公告。云南XX招标有限公司二〇一九年三月十五日

其中，上述每一行为分割后得到的文本单元，左边中括号内数字表示为切割的索引号，可以看到部分行内容合并，如“9、评标结果”与表格提取的内容合并了，原文中的最后三行文本也合并在一起。

步骤2：每一行进入命名实体识别模型进行实体识别，并进行关系抽取(分类)。

其中，上述各文本单元进行实体识别结果如下：

[('XX县卫生和计划生育局微量泵等医疗设备采购项目','PN'),('XX县卫生和计划生育局','CR'),('微量泵','MN')]

[2]2、招标编号:1545-194203112031

[('1545-194203112031','PI')]

[3]3、采购预算:55.30万元

[('55.30万元','CB')]

[4]4、招标方式:公开招标

[]

[5]5、招标公告时间:2019年02月20日

[('2019年02月20日','DA')]

[6]6、定标日期:2019年03月15日

[('2019年03月15日','DA')]

[7]7、评标专家名单:张三、李四、王五

[]

[8]8、评标方法:综合评分法

[]

[('云南XX科技有限公司','WR')，('云南省昆明市西山区XXX村','AD')，('54.82万元','WA')]

[10]联系人,王女士；联系电话,0871-12345678

[('王女士','CP')，('0871-12345678','CT')]

[('2019年03月18日','DA')]

[12]行政监督部门电话:0878-5722526

[('0878-5722526','CT')]

[('XX县卫生和计划生育局','CR')，('XX县栋川镇蛉荷大道城南办公区','AD')]

[14]采购人联系人:罗老师；电话:0878-1234567

[('罗老师','CP')，('0878-1234567','CT')]

[('云南XX招标有限公司','CA')，('云南省昆明市盘龙区XX路','AD')]

[16]联系人:周大福、于六；招标代理机构联系电话:0871-66668888

[('周大福','CP'),('于六','CP')，('0871-66668888,'CT')]

[17]特此公告。云南XX招标有限公司二〇一九年三月十五日

[('云南XX招标有限公司','CA'),('二〇一九年三月十五日','DA')]

上述每2行表示原始分割后的文本单元及其对应识别出的实体。实体标签对应表如下：

表1实体识别结果表

标签	实体类型	标签	实体类型
				CR	招标人	CA	招标代理
TR	投标人	WR	中标人
				SO	监督机构	WA	中标金额
TA	投标金额	CB	招标预算
				CB	招标预算	AB	代理费用
BB	标书价格	SI	标段号
				SN	标段名称	MN	标的物
MB	标的物品牌	AD	地址
				CP	联系人	CT	联系电话
MI	邮箱	PN	项目名称
				PI	项目编号	DA	日期

其中，关系分类部分结果如下：

[]

[2]2、招标编号:1545-194203112031

[]

[3]3、采购预算:55.30万元

[]

[4]4、招标方式:公开招标

[]

[5]5、招标公告时间:2019年02月20日

[]

[6]6、定标日期:2019年03月15日

[]

[7]7、评标专家名单:张三、李四、王五

[]

[8]8、评标方法:综合评分法

[]

[('云南XX科技有限公司','云南省昆明市西山区XXX村','WR-AD')，('云南品XX技有限公司','54.82万元','WR-WA')]

[10]联系人,王女士；联系电话,0871-12345678

[('王女士','0871-12345678','CP-CT')]

[]

[12]行政监督部门电话:0878-5722526

[]

[('XX县卫生和计划生育局','XX县栋川镇蛉荷大道城南办公区','CR-AD')]

[14]采购人联系人:罗老师；电话:0878-1234567

[('罗老师','0878-1234567','CP-CT')]

[('云南XX招标有限公司','云南省昆明市盘龙区XX路','CA-AD')]

[16]联系人:周大福、于六；招标代理机构联系电话:0871-66668888

[('周大福','0871-66668888,'CP-CT'),('于六','0871-66668888,'CP-CT')]

[17]特此公告。云南XX招标有限公司二〇一九年三月十五日

[]

上述下划线标识了即为部分关系提取结果。

步骤3：使用机器阅读理解模型对上述实体识别结果和关系抽取结果进行补充或纠正，形成结构化信息。

例如，采用机器阅读理解模型，对部分结果进行预测的结果如下：

Q:XX县卫生和计划生育局微量泵等医疗设备采购项目的招标预算是多少？

A：55.30万元

Q：罗老师是采购联系人吗？

A：是

Q：2019年03月15日是公告发布日期吗？

A：否

Q：0871-12345678是谁的号码？

A：王女士

Q：这篇公告的类型是什么？

A：中标公告

最终汇总得到该中标文件的结构化信息如下：

/>

实施例二

本公开还提供一种基于人工智能AI技术的信息抽取方法，如图9所示，包括，

步骤901，对目标文件进行语义切割，得到切割后的多个文本单元；

步骤902，根据所述多个文本单元，利用预先训练好的命名实体识别模块识别出实体，并利用预先训练好的关系分类模型抽取实体之间的关系；

步骤903，利用预先训练好的机器阅读理解模型，对所识别出的实体和所抽取的实体之间的关系进行校验；

步骤904，根据校验后的实体和实体之间的关系，确定所述目标文件对应的结构化信息。

一些示例性的实施例中，所述目标文件包括：网页文件；

所述获取所述目标文件中的文本内容，包括：

根据所述网页文件构建网页文档对象模型DOM树；

一些示例性的实施例中，预设的文本块分割算法包括：基于文本密度的网页正文提取算法、基于行块分布函数的网页正文提取算法等。一些示例性的实施例中，选用了改进的基于行块分布函数的网页正文提取算法。

一些示例性的实施例中，所述目标文件包括：word文件、pdf文件、xml文件、excel等。相应地，获取这些目标文件中的文本内容后采用语义分割模型将文本内容分割为多个文本单元。

这里的微调是指采用目标领域数据对既有模型(BERT预训练语言模型)重新训练，使该模型参数更适合解决目标领域的任务。

一些示例性的实施例中，所述命名实体识别模型为基于深度学习的序列标注模型，所述序列标注模型由BERT预训练语言模型、双向长短期记忆BILSTM模型和融合Attention机制的条件随机场CRF模型组成；也称为BERT+BILSTM+Attention+CRF模型。

所述命名实体识别模型根据以下方式预先训练确定：

所述关系分类模型由BERT预训练语言模型、双向长短期记忆BILSTM模型和线性回归Linear模型组成；也称为BERT+BILSTM+Linear模型。

一些示例性的实施例中，其中所述关系分类模型中的BERT预训练语言模型、BILSTM模型是与命名实体识别模型中的BERT预训练语言模型、BILSTM模型是共用的。

所述关系分类模型根据以下方式预先训练确定：

根据所述目标文件所属的类型，确定问题模板；

实施例三

本公开还提供一种基于人工智能AI技术的信息抽取装置，如图10所示，包括，

文本单元切割模块101，对目标文件进行语义切割，得到切割后的多个文本单元；

实体和关系抽取模块102，根据所述多个文本单元，利用预先训练好的命名实体识别模块识别出实体，并利用预先训练好的关系分类模型抽取实体之间的关系；

校验模块103，利用预先训练好的机器阅读理解模型，对所识别出的实体和所抽取的实体之间的关系进行校验；

结构化信息确定模块104，根据校验后的实体和实体之间的关系，确定所述目标文件对应的结构化信息。

本实施例提供一种计算机存储介质，所述计算机存储介质中存储有计算机程序，其中，所述计算机程序被设置为在运行时执行上述实施中任一所述的方法。

本发明实施例提供一种电子装置，所述存储器中存储有用于进行信息提取的计算机程序，所述处理器被设置为读取并运行所述用于进行信息提取的计算机程序以执行上述任一一种基于AI技术的信息提取方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种基于AI技术的信息抽取方法，其特征在于，包括，

对目标文件进行语义切割，得到切割后的多个文本单元；

根据校验后的实体和实体之间的关系，确定所述目标文件对应的结构化信息；

其中，所述目标文件包括：网页文件；获取所述目标文件中的文本内容，包括：根据所述网页文件构建网页文档对象模型DOM树；根据所述目标文件所属的类型对应的词典和预设的文本块分割算法，识别所述网页DOM树中的正文区域；识别所述正文区域中包含的文本，并根据预设的格式转换为所述文本内容；

所述预设的格式至少包括以下之一：表格内文本拼接格式、表格与非表格文本拼接格式、表格间文本拼接格式；所述识别所述正文区域中包含的文本，并根据预设的格式转换为所述文本内容，包括：根据预设的表格分类模型，从所述正文区域中识别出表格区域和非表格区域，并确定所述表格区域的表格类型；根据所述表格类型和预设的表格内文本拼接格式，将各表格区域中的文本转换为表格文本；根据所述预设的格式，将所述表格文本和非表格区域中的文本转换为所述文本内容；

所述命名实体识别模型为基于深度学习的序列标注模型，所述序列标注模型由BERT预训练语言模型、双向长短期记忆BILSTM模型和融合Attention机制的条件随机场CRF模型组成；

所述命名实体识别模型根据以下方式预先训练确定：根据需要识别的实体类型和关系类型，对样本数据进行标注得到训练数据；根据所述训练数据对所述命名实体识别模型进行训练；所述关系分类模型由BERT预训练语言模型、双向长短期记忆BILSTM模型和线性回归Linear模型组成；所述关系分类模型根据以下方式预先训练确定：根据需要识别的实体类型和关系类型，对样本数据进行标注得到训练数据；根据所述训练数据对所述关系分类模型进行训练；

所述机器阅读理解模型根据以下方式预先训练确定：根据所述目标文件所属的类型，确定问题模板；根据需要识别的实体类型和关系类型，对样本数据进行标注得到标注数据；根据所述标注数据和所述问题模板生成训练数据，采用所述训练数据训练机器阅读理解模型；其中，每一种类型的问题模板分别对应一个机器阅读理解模型；

所述利用预先训练好的机器阅读理解模型，对所识别出的实体和所抽取的实体之间的关系进行校验，包括：利用所述预先训练好的机器阅读理解模型，根据所述实体和实体间关系，确定预测结果；根据所述预测结果对所识别出的实体和所抽取的实体间的关系进行补充或纠正，得到校验后的实体和实体之间的关系。

2.根据权利要求1所述的方法，其特征在于，

所述对目标文件进行语义切割，得到切割后的多个文本单元，包括：

所述获取所述目标文件中的文本内容，根据语义分割模型对所述文本内容进行切割，得到切割后的所述多个文本单元。

3.根据权利要求1或2所述的方法，其特征在于，

语义分割模型为：根据预先标注的样本对BERT预训练语言模型进行微调得到的模型。

4.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有用于进行信息抽取的计算机程序，所述处理器被设置为读取并运行所述用于进行信息抽取的计算机程序以执行所述权利要求1至3任一项中所述的方法。

5.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。