CN111475641A - 一种数据抽取方法、装置、存储介质及设备 - Google Patents

一种数据抽取方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN111475641A
CN111475641A CN201910789378.7A CN201910789378A CN111475641A CN 111475641 A CN111475641 A CN 111475641A CN 201910789378 A CN201910789378 A CN 201910789378A CN 111475641 A CN111475641 A CN 111475641A
Authority
CN
China
Prior art keywords
documents
group
triples
manually
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910789378.7A
Other languages
English (en)
Other versions
CN111475641B (zh
Inventor
吴文旷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing guoshuangqianli Technology Co., Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201910789378.7A priority Critical patent/CN111475641B/zh
Priority to PCT/CN2020/071879 priority patent/WO2021036181A1/zh
Publication of CN111475641A publication Critical patent/CN111475641A/zh
Application granted granted Critical
Publication of CN111475641B publication Critical patent/CN111475641B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/02Agriculture; Fishing; Mining

Abstract

本发明公开了一种数据抽取方法、装置、存储介质及设备,其中,方法包括:基于人工为第一组文档中的字符添加的标签,获取人工标注三元组,依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组,其中,预设模型为预设的与第二组文档的类型适配的模型,模型使用训练数据训练得到,训练数据包括人工标注三元组以及第一组文档,将人工标注三元组和自动标注三元组,作为从文档中抽取的知识数据。本发明的方案可以提高文档中有用信息的利用率,并且,本发明所得到的知识数据更全面。

Description

一种数据抽取方法、装置、存储介质及设备
技术领域
本发明涉及电子信息领域,特别是涉及一种数据抽取方法、装置、存储介质及设备。
背景技术
在油田的勘探、开发、生产过程中,积累了大量的文档形式的科技成果,例如,勘探部署、油气藏描述、开发方案、研究报告、档案文献等高价值的文档。在这些文档中存在大量的有用信息,例如:油田的名称、开发投产时间、日产油量、油气藏圈闭、储层岩性、厚度、净毛比等。这些信息对从事勘探开发的科研人员快速检索资料、分析数据、发掘资料潜在价值具有极强的辅助作用。
但是,文档中的有用信息是非结构化的,不方便科研人员的查询和使用,即文档中有用信息的利用率较低。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的数据抽取方法、装置、存储介质及设备。
借由上述技术方案,本发明提供的
本申请提供了一种数据抽取方法,包括:
基于人工为第一组文档中的字符添加的标签,获取人工标注三元组;
依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组;其中,所述预设模型为预设的与所述第二组文档的类型适配的模型,所述模型使用训练数据训练得到,所述训练数据包括所述人工标注三元组以及所述第一组文档;
将所述人工标注三元组和所述自动标注三元组,作为从文档中抽取的知识数据。
可选的,获取所述人工为第一组文档中的字符添加的标签的过程包括:
基于人工选取所述第一组文档中的字符的操作,显示待选实体标签的列表,所述待选实体标签依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选实体标签的列表中选择的标签,作为被选取字符的实体标签,得到标注的字符;
基于人工选取所述标注的字符的操作,显示实体标签间的待选关系的列表,所述实体标签间的待选关系依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选关系的列表中选择的关系,作为被选取的所述标注的字符的关系标签。
可选的,所述训练数据还包括以下至少一项:
所述人工标注三元组中的元素在所述第一组文档中的位置、所述人工标注三元组中的元素在所述第一组文档中的组间距离、所述人工标注三元组中的元素在所述第一组文档中的组间语法关系。
可选的,所述依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组,包括:
标注目标三元组,所述目标三元组为以下至少一项:所述预设模型从所述第二组文档中识别出的三元组中,存在矛盾的三元组;所述预设模型从所述第二组文档中识别出的三元组中,与所述人工标注三元组存在矛盾的三元组;缺项三元组;
获取人工对于所述目标三元组的校正结果,作为所述自动标注三元组。
可选的,使用所述目标三元组的校正结果和所述第二组文档,重新训练所述模型。
可选的,所述第一组文档的类型与所述第二组文档的类型相同;
所述与所述第二组文档的类型适配的模型的确定过程包括:
将在训练过程中,从所述第一组文档中识别出的三元组的准确率最高的模型,作为与所述第二组文档的类型适配的模型。
本申请还提供了一种数据抽取装置,包括:
第一获取模块,用于基于人工为第一组文档中的字符添加的标签,获取人工标注三元组;
确定模块,用于依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组;其中,所述预设模型为预设的与所述第二组文档的类型适配的模型,所述模型使用训练数据训练得到,所述训练数据包括所述人工标注三元组以及所述第一组文档;
执行模块,用于将所述人工标注三元组和所述自动标注三元组,作为从文档中抽取的知识数据。
可选的,还包括:第二获取模块,用于获取所述人工为第一组文档中的字符添加的标签;
所述第二获取模块,具体用于基于人工选取所述第一组文档中的字符的操作,显示待选实体标签的列表,所述待选实体标签依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选实体标签的列表中选择的标签,作为被选取字符的实体标签,得到标注的字符;
基于人工选取所述标注的字符的操作,显示实体标签间的待选关系的列表,所述实体标签间的待选关系依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选关系的列表中选择的关系,作为被选取的所述标注的字符的关系标签。
可选的,所述训练数据还包括以下至少一项:
所述人工标注三元组中的元素在所述第一文档中的位置、所述人工标注三元组中的元素在所述第一文档中的组间距离、所述人工标注三元组中的元素在所述第一文档中的组间语法关系。
可选的,所述确定模块,用于依据预设模型从第二文档中识别出的三元组,确定自动标注三元组,包括:
所述确定模块,具体用于标注目标三元组,所述目标三元组为以下至少一项:所述预设模型从所述第二文档中识别出的三元组中,存在矛盾的三元组;所述预设模型从所述第二文档中识别出的三元组中,与所述人工标注三元组存在矛盾的三元组;缺项三元组;
获取人工对于所述目标三元组的校正结果,作为所述自动标注三元组。
可选的,还包括:训练模块;
所述训练模块,用于使用所述目标三元组的校正结果和所述第二文档,重新训练所述模型。
可选的,还包括适配模型确定模块,用于将在训练过程中,从所述第一文档中识别出的三元组的准确率最高的模型,作为与所述第二文档的类型适配的模型;所述第一文档的类型与所述第二文档的类型相同。
本申请还提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行上述任意一种所述的数据抽取方法。
本申请还提供了一种设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一种所述的数据抽取方法。
在本发明提供的数据抽取方案中,基于人工为第一组文档中的字符添加的标签,获取人工标注三元组,依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组,将人工标注三元组与自动标注三元组,作为从文档中抽取的知识数据。即本发明得到的知识数据是三元组,因为三元组是结构化数据,从而,方便用户进行查询和使用,因此,通过本发明的方案可以提高文档中有用信息的利用率。
此外,在本发明中,将人工标注三元组和自动标注三元组都作为知识数据,其中,自动标注三元组是依据预设模型从第二组文档中识别出的三元组确定得到的,模型是采用人工标注三元组以及第一组文档为训练样本训练得到的与第二组文档的类型适配的模型。由于人工标注三元组为训练样本中的三元组,自动标注三元组是依据预设模型在测试过程中得到的三元组确定出的,即本发明所得到的知识数据中既包括训练样本中的三元组,也包括依据测试过程得到的三元组所得到的三元组,进而,使得本发明所得到的知识数据更全面。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例公开的一种数据抽取方法的流程示意图;
图2示出了本申请实施例公开的一种模型训练方法的流程示意图;
图3示出了本申请实施例公开的又一种数据抽取方法的流程示意图;
图4示出了本申请实施例公开的一种数据抽取装置的结构示意图;
图5示出了本申请实施例公开的一种设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本申请实施例中,将用于训练模型的文档称为第一组文档,将测试过程中的文档称为第二组文档。具体的,哪些文档是第一组文档,哪些文档是第二组文档,可以根据实际情况确定,本实施例不作限定。
图1为本申请实施例提供的数据抽取方法,包括以下步骤:
S101:基于人工为第一组文档中的字符添加的标签,获取人工标注三元组。
在本步骤中,三元组一般包括两个实体以及实体关系,其中,实体关系用于反映两个实体间的关系。
例如,在石油勘探领域,从第一组文档中获取的人工标注三元组可以为“a油田三千万吨产量”,其中,“a油田”为实体,“三千万吨”也是实体,“产量”是实体“a油田”和实体“三千万吨”的关系。
S102:依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组。
其中,预设模型为预设的与第二组文档的类型适配的模型。模型使用训练数据训练得到,训练数据包括人工标注三元组以及第一组文档。
具体的,对模型的训练过程包括:正向传播过程和反向传播过程。在正向传播过程中,模型从第一组文档中识别三元组。在反向传播过程中,按照预设损失函数,计算识别出的三元组与人工标注三元组间的损失函数值,以降低损失函数值为目标,调整模型中的参数。按照训练过程对调整参数后的模型继续进行训练,直至损失函数值不大于预设阈值,模型训练完成。
需要说明的是,损失函数的具体内容可以参见现有技术,这里不再赘述。
人工标注三元组的获取过程,以及模型的与文档类型之间的适配过程,将在图2所示的实施例中说明。
S103:将人工标注三元组和自动标注三元组,作为从文档中抽取的知识数据。
因为三元组是结构化数据,从而,方便用户进行查询和使用,因此,本实施例将文档中的字符转换为三元组,可以提高文档中的有用信息的利用率。
此外,在本实施例中,将人工标注三元组和自动标注三元组都作为知识数据,其中,自动标注三元组是依据预设模型从第二组文档中识别出的三元组确定得到的,模型是采用人工标注三元组以及第一组文档为训练样本训练得到的。由于人工标注三元组为训练样本中的三元组,自动标注三元组是依据预设模型在测试过程中得到的三元组确定出的,即本发明所得到的知识数据中既包括训练样本中的三元组,也包括依据测试过程得到的三元组所得到的三元组,进而,使得本发明所得到的知识数据更全面。
并且,预设模型为预设的与第二组文档的类型适配的模型,从而能够更为准确地识别出第二组文档的三元组。
需要说明的是,以上所述第一组文档和第二组文档可以为任何领域的文档,即上述数据抽取方法,可以应用在能够产生文档的任何领域,在以下实施例中,将以石油勘探领域为例进行说明。
图2为本申请实施例提供的模型训练方法,包括以下步骤:
S201、获取训练样本。
在本实施例中,训练样本包括:第一组文档和第一组文档中标注的三元组。
具体的,在本步骤中,获取第一组文档中标注的三元组的过程包括步骤A1~步骤A6:
A1、获取第一组文档。
在本实施例中,第一组文档为油气勘探、开发与生产过程中产生的文档,其中,第一组文档的格式可以为Word、PPT、PDF、Excel、JPG和PNG等格式。获取第一组文档的具体方式可以为:接收第一组文档,并提取文档中的字符(在文档为图片文档的情况下,对其中的字符进行OCR识别),得到识别后的字符,为人工对第一组文档中的字符标注三元组提供条件。
A2、基于人工选取第一组文档中的字符的操作,显示待选实体标签的列表。
在本步骤中,在人工选取第一组文档中的字符的情况下,显示待选实体标签的列表,即显示用于供人工选择的实体标签的列表。
在本实施例中,待选实体标签的列表中设置的待选实体标签,依据第一组文档和第二组文档所属的石油勘探领域的业务需求确定。例如,石油勘探领域的实体标签包括但不限于:油气田的名称、开发投产时间、日产油量、油气藏圈闭、储层岩性、厚度、净毛比。
A3、将人工从待选实体标签的列表中选择的标签,作为被选取字符的实体标签,得到标注的字符。
在本步骤中,针对已在第一组文档中选取的字符(即被选取字符),人工从待选实体标签的列表中选择被选取字符所属的实体的标签,作为被选取字符的实体标签,为了描述方便,将标注有实体标签的被选取字符称为标注的字符。
经过本步骤的操作,在第一组文档中可能存在多个被选取的字符,进而,可能存在多个标注的字符。
A4、基于人工选取标注的字符的操作,显示实体标签间的待选关系的列表。
多个标注的字符中多个标注的字符之间存在某种关系,因此,在本步骤中,在人工已选取标注的字符的情况下,显示实体标签间的待选关系的列表,以供人工从待选关系的列表中选择被选取的标注的字符间的关系。
在本实施例中,实体标签间的待选关系依据第一组文档和第二组文档所属的石油勘探领域的业务需求确定,例如,实体标签间的待选关系包括实体1的产量。其中,实体1为已标注的作为实体的字符的编号。假设一段话“a油田的产量为三千万吨”中,已选取的的字符“a油田”被标注为实体1,“三千万吨”被标注为实体2,则实体2的关系标签即为实体1的产量。
A5、将人工从待选关系的列表中选择的关系,作为被选取的标注的字符的关系标签。
上述步骤A1~步骤A5是人工为第一组文档中的字符添加标签的过程。
通过上述步骤A1~步骤A5,得到了实体标签,以及不同实体标签所指示的实体间关系的关系标签,并且,还得到了实体标签和关系标签间的对应关系。
A6、基于人工添加的实体标签和关系标签,获取人工标注三元组。
在本步骤中,从实体标签、关系标签以及对应关系中,获取由每个对应关系指示的三元组。其中,每个对应关系指示的三元组的获取过程相同,对于任意一个对应关系,该对应关系中实体标签指示的实体和关系标签指示的关系构成三元组,即得到人工标注三元组。
在本实施例中,可以将第一组文档以及从第一组文档中人工标注三元组作为训练样本。
可选的,为了提高训练后的模型从第二组文档中识别三元组的准确性,即训练后的模型从第二组文档中识别出的三元组准确性。在本实施例中,训练样本还包括:人工标注三元组中的元素在第一组文档中的位置,人工标注三元组中的元素在第一组文档中的组间距离,人工标注三元组中的元素在第一组文档中的组间语法关系。
其中,每个人工标注三元组分别对应有组间距离和组间语法关系,对于任意一个人工标注三元组,该人工标注三元组中的元素在第一组文档中的组间距离指:该人工标注三元组中的元素在第一组文档中的位置间的距离,具体的,距离可以为欧式距离,当然,还可以为其他形式的距离,本实施例不对距离的具体形式作限定。该人工标注三元组中的元素在第一组文档中的组间语法关系指:该人工标注三元组中的元素在第一组文档中的语法关系,其中,语法关系的示例为主、谓、宾、定、状、补、系、表等。还以人工标注三元组为“a油田三千万吨产量”为例,假设第一组文档中的句子为“a油田的产量为三千万吨”,则人工标注出三元组“a油田三千万吨产量”后,还标注出三元组中的元素在第一组文档中的语法的关系:“产量”标注为“主语”、“a油田”标注为“定语”、“三千万吨”标注为“宾语”。
S202、采用训练样本对多个模型分别进行训练,得到训练后的多个模型。
在本步骤中,多个模型可以包括:朴素贝叶斯模型、支持向量机模型(例如,SVM)、词嵌入模型(例如,word2vec)、循环神经网络模型(例如,RNN)和长短时记忆网络模型(例如,LSTM)。
具体的,对任意一个模型的训练过程都为现有技术,这里不在赘述,在本实施例中,训练后的模型具有从石油勘探领域的文档中识别三元组的功能。
申请人在研究的过程中发现,在石油勘探领域中,由于模型的结构不同,使得训练后的不同模型对某种类型的文档的测试准确性不同,因此,为了提高模型识别出三元组的准确性,可选的,本实施例中,可以选用不同类型的第一组文档,对多种模型分别进行训练,对于任意一种类型,使用该类型的第一组文档训练每种模型,将多种模型的输出结果的准确性(可以将损失函数的最小迭代值作为准确性得分)相比,选出输出结果最准确(损失函数的值最小)的模型,作为该类型的文档适配的模型。
使用任意一种类型的第一组文档训练模型的过程,可以参见图2所示的流程。
图3为本申请实施例提供的又一种数据抽取方法,包括以下步骤:
S301、基于人工为第一组文档中的字符添加的标签,获取人工标注三元组。
本步骤的具体实现原理可以参考S101,这里不再赘述。
S302、依据第二组文档的类型,选择与第二组文档的类型适配的模型,作为目标模型。
S303、将第二组文档输入目标模型,得到目标模型从第二组文档中识别出的三元组。
S304、依据目标模型从第二组文档中识别出的三元组,确定自动标注三元组。
在本步骤中,自动标注三元组指可以作为知识数据的三元组。具体的,依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组的方式可以包括:
第一种方式:将目标模型识别出的三元组作为自动标注三元组。
第二种方式:从目标模型识别出的三元组中标注目标三元组,获取人工对目标三元组的校正结果,并将对目标三元组校正后的三元组作为自动标注三元组。
其中,目标三元组为以下至少一项:1、目标模型从第二组文档中识别出的三元组中存在矛盾的三元组、2、目标模型从第二组文档中识别出的三元组中,与人工标注三元组存在矛盾的三元组,以及3、缺项三元组。
具体的,目标模型从第二组文档中识别出的三元组中,存在矛盾的三元组指:目标模型从第二组文档中识别出的三元组之间存在矛盾的三元组。例如,目标模型从第二组文档中识别出的三元组包括:“最大石油量为1000吨”和“最大石油量为5000吨”两个三元组,由于最大石油量的取值是唯一的,因此,这两个三元组是矛盾的三元组。
第三种方式:将目标模型识别出的三元组中除目标三元组外的三元组,以及对目标三元组校正后的三元组,作为自动标注三元组。
S305、将人工标注三元组和自动标注三元组,作为从文档中抽取的知识数据。
S306、将从文档中抽取的知识数据保存在预设知识图谱库。
本步骤的具体实现过程为现有技术,这里不再赘述。
可选的,为了提高训练后的模型从文档中识别三元组的准确性,还可以将目标标注三元组校正后的三元组以及第二组文档为训练样本,对训练后的模型继续进行训练,得到更新后的模型,在后续需要从文档中识别三元组的情况下,采用更新后的模型从文档中识别三元组。
本申请实施例具有以下有益效果:
有益效果一、
本实施例中,基于人工为第一组文档中的字符添加的标签,获取人工标注三元组,依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组,将人工标注三元组与自动标注三元组,作为从文档中抽取的知识数据。即本发明得到的知识数据是三元组,并且,三元组是结构化数据,从而,方便用户进行查询和使用,因此,通过本发明的方案可以提高文档中知识数据的利用率。
此外,在本实施例中,将人工标注三元组和自动标注三元组都作为知识数据,其中,自动标注三元组是依据预设模型从第二组文档中识别出的三元组确定得到的,预设模型为预设的与第二组文档的类型适配的模型,模型是采用人工标注三元组以及第一组文档为训练样本训练得到的。由于人工标注三元组为训练样本中的三元组,自动标注三元组是依据预设模型在测试过程中得到的三元组确定出的,即本实施例所得到的知识数据中既包括训练样本中的三元组,也包括依据测试过程得到的三元组所得到的三元组,进而,使得本实施例所得到的知识数据更全面。
有益效果二、
相对于现有技术中采用人工从文档中识别三元组作为知识数据,本申请实施例采用自动和半自动的方式从文档中识别三元组作为知识数据,因此,可以提高知识数据提取的速度和效率。
图4为本申请实施例提供的一种数据处理装置,包括:第一获取模块401、确定模块402和执行模块403。
其中,第一获取模块401用于基于人工为第一组文档中的字符添加的标签,获取人工标注三元组。确定模块402用于依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组。其中,预设模型为预设的与第二组文档的类型适配的模型,模型使用训练数据训练得到,训练数据包括人工标注三元组以及所述第一组文档。执行模块403用于将人工标注三元组和自动标注三元组,作为从文档中抽取的知识数据。
可选的,该装置还包括:第二获取模块404用于获取人工为第一组文档中的字符添加的标签。
第二获取模块404具体用于基于人工选取第一组文档中的字符的操作,显示待选实体标签的列表,待选实体标签依据第一组文档和第二组文档所属的领域的业务需求确定。将人工从待选实体标签的列表中选择的标签,作为被选取字符的实体标签,得到标注的字符。基于人工选取标注的字符的操作,显示实体标签间的待选关系的列表,实体标签间的待选关系依据第一组文档和第二组文档所属的领域的业务需求确定。将人工从待选关系的列表中选择的关系,作为被选取的标注的字符的关系标签。
可选的,训练数据还包括以下至少一项:人工标注三元组中的元素在第一组文档中的位置、人工标注三元组中的元素在第一组文档中的组间距离、人工标注三元组中的元素在第一组文档中的组间语法关系。
可选的,确定模块402用于依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组,包括:确定模块402具体用于标注目标三元组,目标三元组为以下至少一项:预设模型从第二组文档中识别出的三元组中,存在矛盾的三元组,预设模型从第二组文档中识别出的三元组中,与人工标注三元组存在矛盾的三元组;缺项三元组。获取人工对于目标三元组的校正结果,作为自动标注三元组。
可选的,该装置还包括:训练模块405。训练模块405用于使用目标三元组的校正结果和第二组文档,重新训练模型。
可选的,该装置还包括:适配模型确定模块406用于将在训练过程中,从第一组文档中识别出的三元组的准确率最高的模型,作为与第二组文档的类型适配的模型,第一组文档的类型与第二组文档的类型相同。
所述数据抽取装置包括处理器和存储器,上述第一获取模块、确定模块和执行模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高文档中有用信息的利用率。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述数据抽取方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述数据抽取方法。
本发明实施例提供了一种设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的数据抽取方法。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
基于人工为第一组文档中的字符添加的标签,获取人工标注三元组;
依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组;其中,预设模型为预设的与第二组文档的类型适配的模型,模型使用训练数据训练得到,训练数据包括人工标注三元组以及第一组文档;
将人工标注三元组和自动标注三元组,作为从文档中抽取的知识数据。
获取人工为第一组文档中的字符添加的标签的过程包括:
基于人工选取第一组文档中的字符的操作,显示待选实体标签的列表,待选实体标签依据第一组文档和第二组文档所属的领域的业务需求确定;
将人工从待选实体标签的列表中选择的标签,作为被选取字符的实体标签,得到标注的字符;
基于人工选取标注的字符的操作,显示实体标签间的待选关系的列表,实体标签间的待选关系依据第一组文档和第二组文档所属的领域的业务需求确定;
将人工从待选关系的列表中选择的关系,作为被选取的所述标注的字符的关系标签。
训练数据还包括以下至少一项:人工标注三元组中的元素在第一组文档中的位置、人工标注三元组中的元素在第一组文档中的组间距离、人工标注三元组中的元素在第一组文档中的组间语法关系。
依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组,包括:
标注目标三元组,目标三元组为以下至少一项:预设模型从第二组文档中识别出的三元组中,存在矛盾的三元组;预设模型从第二组文档中识别出的三元组中,与人工标注三元组存在矛盾的三元组;缺项三元组;
获取人工对于目标三元组的校正结果,作为自动标注三元组。
使用所述三元组的校正结果和第二组文档,重新训练所述模型。
第一组文档的类型与第二组文档的类型相同;
与第二组文档的类型适配的模型的确定过程包括:将在训练过程中,从第一组文档中识别出的三元组的准确率最高的模型,作为与第二组文档的类型适配的模型。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等,如图5所示。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种数据抽取方法,其特征在于,包括:
基于人工为第一组文档中的字符添加的标签,获取人工标注三元组;
依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组;其中,所述预设模型为预设的与所述第二组文档的类型适配的模型,所述模型使用训练数据训练得到,所述训练数据包括所述人工标注三元组以及所述第一组文档;
将所述人工标注三元组和所述自动标注三元组,作为从文档中抽取的知识数据。
2.根据权利要求1所述的方法,其特征在于,获取所述人工为第一组文档中的字符添加的标签的过程包括:
基于人工选取所述第一组文档中的字符的操作,显示待选实体标签的列表,所述待选实体标签依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选实体标签的列表中选择的标签,作为被选取字符的实体标签,得到标注的字符;
基于人工选取所述标注的字符的操作,显示实体标签间的待选关系的列表,所述实体标签间的待选关系依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选关系的列表中选择的关系,作为被选取的所述标注的字符的关系标签。
3.根据权利要求1所述的方法,其特征在于,所述训练数据还包括以下至少一项:
所述人工标注三元组中的元素在所述第一组文档中的位置、所述人工标注三元组中的元素在所述第一组文档中的组间距离、所述人工标注三元组中的元素在所述第一组文档中的组间语法关系。
4.根据权利要求1所述的方法,其特征在于,所述依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组,包括:
标注目标三元组,所述目标三元组为以下至少一项:所述预设模型从所述第二组文档中识别出的三元组中,存在矛盾的三元组;所述预设模型从所述第二组文档中识别出的三元组中,与所述人工标注三元组存在矛盾的三元组;缺项三元组;
获取人工对于所述目标三元组的校正结果,作为所述自动标注三元组。
5.根据权利要求4所述的方法,其特征在于,使用所述目标三元组的校正结果和所述第二组文档,重新训练所述模型。
6.根据权利要求1所述的方法,其特征在于,所述第一组文档的类型与所述第二组文档的类型相同;
所述与所述第二组文档的类型适配的模型的确定过程包括:
将在训练过程中,从所述第一组文档中识别出的三元组的准确率最高的模型,作为与所述第二组文档的类型适配的模型。
7.一种数据抽取装置,其特征在于,包括:
第一获取模块,用于基于人工为第一组文档中的字符添加的标签,获取人工标注三元组;
确定模块,用于依据预设模型从第二组文档中识别出的三元组,确定自动标注三元组;其中,所述预设模型为预设的与所述第二组文档的类型适配的模型,所述模型使用训练数据训练得到,所述训练数据包括所述人工标注三元组以及所述第一组文档;
执行模块,用于将所述人工标注三元组和所述自动标注三元组,作为从文档中抽取的知识数据。
8.根据权利要求7所述的装置,其特征在于,还包括:第二获取模块,用于获取所述人工为第一组文档中的字符添加的标签;
所述第二获取模块,具体用于基于人工选取所述第一组文档中的字符的操作,显示待选实体标签的列表,所述待选实体标签依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选实体标签的列表中选择的标签,作为被选取字符的实体标签,得到标注的字符;
基于人工选取所述标注的字符的操作,显示实体标签间的待选关系的列表,所述实体标签间的待选关系依据所述第一组文档和所述第二组文档所属的领域的业务需求确定;
将人工从所述待选关系的列表中选择的关系,作为被选取的所述标注的字符的关系标签。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1~6任意一项权利要求所述的数据抽取方法。
10.一种设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1~6任意一项权利要求所述的数据抽取方法。
CN201910789378.7A 2019-08-26 2019-08-26 一种数据抽取方法、装置、存储介质及设备 Active CN111475641B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910789378.7A CN111475641B (zh) 2019-08-26 2019-08-26 一种数据抽取方法、装置、存储介质及设备
PCT/CN2020/071879 WO2021036181A1 (zh) 2019-08-26 2020-01-14 一种数据抽取方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910789378.7A CN111475641B (zh) 2019-08-26 2019-08-26 一种数据抽取方法、装置、存储介质及设备

Publications (2)

Publication Number Publication Date
CN111475641A true CN111475641A (zh) 2020-07-31
CN111475641B CN111475641B (zh) 2021-05-14

Family

ID=71744906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910789378.7A Active CN111475641B (zh) 2019-08-26 2019-08-26 一种数据抽取方法、装置、存储介质及设备

Country Status (2)

Country Link
CN (1) CN111475641B (zh)
WO (1) WO2021036181A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108886A (ko) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
CN106649264A (zh) * 2016-11-21 2017-05-10 中国农业大学 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
CN108090499A (zh) * 2017-11-13 2018-05-29 中国科学院自动化研究所 基于最大信息三元组筛选网络的数据主动标注方法和系统
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统
CN108256063A (zh) * 2018-01-15 2018-07-06 中国人民解放军国防科技大学 一种面向网络安全的知识库构建方法
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及系统、计算机程序
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN109492686A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种图片标注方法与系统
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法
US20190156198A1 (en) * 2017-11-22 2019-05-23 Clinc, Inc. System and method for implementing an artificially intelligent virtual assistant using machine learning
US20190179842A1 (en) * 2017-12-11 2019-06-13 Tata Consultancy Services Limited Method and system for extraction of relevant sections from plurality of documents
CN110110327A (zh) * 2019-04-26 2019-08-09 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908671B (zh) * 2017-10-25 2022-02-01 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN107798136B (zh) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108984683B (zh) * 2018-06-29 2021-06-25 北京百度网讯科技有限公司 结构化数据的提取方法、系统、设备及存储介质
CN109471948A (zh) * 2018-11-08 2019-03-15 威海天鑫现代服务技术研究院有限公司 一种老年健康领域知识问答系统构建方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160108886A (ko) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
CN107291708A (zh) * 2016-03-30 2017-10-24 《中国学术期刊(光盘版)》电子杂志社有限公司 一种基于文本的自动识别文献研究的方法
CN106649264A (zh) * 2016-11-21 2017-05-10 中国农业大学 一种基于篇章信息的中文水果品种信息抽取方法及装置
CN108090070A (zh) * 2016-11-22 2018-05-29 北京高地信息技术有限公司 一种中文实体属性抽取方法
CN108090499A (zh) * 2017-11-13 2018-05-29 中国科学院自动化研究所 基于最大信息三元组筛选网络的数据主动标注方法和系统
US20190156198A1 (en) * 2017-11-22 2019-05-23 Clinc, Inc. System and method for implementing an artificially intelligent virtual assistant using machine learning
US20190179842A1 (en) * 2017-12-11 2019-06-13 Tata Consultancy Services Limited Method and system for extraction of relevant sections from plurality of documents
CN108595460A (zh) * 2018-01-05 2018-09-28 中译语通科技股份有限公司 关键词自动抽取的多路评测方法及系统、计算机程序
CN108256063A (zh) * 2018-01-15 2018-07-06 中国人民解放军国防科技大学 一种面向网络安全的知识库构建方法
CN108182295A (zh) * 2018-02-09 2018-06-19 重庆誉存大数据科技有限公司 一种企业知识图谱属性抽取方法及系统
CN108920465A (zh) * 2018-07-13 2018-11-30 福州大学 一种基于句法语义的农业领域关系抽取方法
CN109492686A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种图片标注方法与系统
CN109472033A (zh) * 2018-11-19 2019-03-15 华南师范大学 文本中的实体关系抽取方法及系统、存储介质、电子设备
CN109543047A (zh) * 2018-11-21 2019-03-29 焦点科技股份有限公司 一种基于医疗领域网站的知识图谱构建方法
CN109378053A (zh) * 2018-11-30 2019-02-22 安徽影联云享医疗科技有限公司 一种用于医学影像的知识图谱构建方法
CN110110327A (zh) * 2019-04-26 2019-08-09 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QING SONG ET AL.: "Entity Recognition and Relations Extraction Based on the Structure of Online Encyclopedia", 《2015 3RD INTERNATIONAL CONFERENCE ON APPLIED COMPUTING AND INFORMATION TECHNOLOGY/2ND INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND INTELLIGENCE》 *
朱沿旭: "面向开源社区的Web数据抽取与挖掘关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
李智星 等: "基于非结构化文本增强关联规则的知识推理方法", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332761A (zh) * 2023-11-30 2024-01-02 北京一标数字科技有限公司 一种pdf文档智能识别标注系统
CN117332761B (zh) * 2023-11-30 2024-02-09 北京一标数字科技有限公司 一种pdf文档智能识别标注系统

Also Published As

Publication number Publication date
WO2021036181A1 (zh) 2021-03-04
CN111475641B (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
US20240046684A1 (en) System for Information Extraction from Form-Like Documents
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
CN111552766B (zh) 使用机器学习来表征在引用图形上应用的参考关系
CN111985229A (zh) 一种序列标注方法、装置及计算机设备
US10699112B1 (en) Identification of key segments in document images
CN110334186A (zh) 数据查询方法、装置、计算机设备及计算机可读存储介质
US11887011B2 (en) Schema augmentation system for exploratory research
CN111666766A (zh) 数据处理方法、装置和设备
US20220121823A1 (en) System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations
CN112632269A (zh) 一种文档分类模型训练的方法和相关装置
CN110826342A (zh) 一种实现模型管理的方法、装置、计算机存储介质及终端
CN115203338A (zh) 一种标签及标签实例推荐方法
CN115937887A (zh) 文档结构化信息的提取方法及装置、电子设备、存储介质
CN111475641B (zh) 一种数据抽取方法、装置、存储介质及设备
CN114240672A (zh) 绿色资产的占比的识别方法及相关产品
JP2018041300A (ja) 機械学習用モデル生成装置及びプログラム。
CN109670162A (zh) 标题的确定方法、装置及终端设备
WO2021055868A1 (en) Associating user-provided content items to interest nodes
CN113742450B (zh) 用户数据等级落标的方法、装置、电子设备和存储介质
CN110309273A (zh) 问答方法和装置
CN114443834A (zh) 一种证照信息提取的方法、装置及存储介质
CN114118072A (zh) 文档结构化方法、装置、电子设备和计算机可读存储介质
TW202207109A (zh) 工程專案文件管理方法與系統
CN111488737A (zh) 文本识别方法、装置及设备
CN116303909B (zh) 一种电子投标文件与条款的匹配方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210826

Address after: No. 05-501, 5th floor, No. 229, Middle North Fourth Ring Road (South podium building of Haitai building), Haidian District, Beijing 100083

Patentee after: Beijing Qianli Richeng Technology Co.,Ltd.

Address before: 100083 No.401, South, 4th floor, Haitai building, 229 beisihuanzhong Road, Haidian District, Beijing

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: No. 05-501, 5th floor, No. 229, Middle North Fourth Ring Road (South podium building of Haitai building), Haidian District, Beijing 100083

Patentee after: Beijing guoshuangqianli Technology Co., Ltd

Address before: No. 05-501, 5th floor, No. 229, Middle North Fourth Ring Road (South podium building of Haitai building), Haidian District, Beijing 100083

Patentee before: Beijing Qianli Richeng Technology Co., Ltd

CP01 Change in the name or title of a patent holder