CN111274391B - 一种spo的抽取方法、装置、电子设备及存储介质 - Google Patents
一种spo的抽取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111274391B CN111274391B CN202010042686.6A CN202010042686A CN111274391B CN 111274391 B CN111274391 B CN 111274391B CN 202010042686 A CN202010042686 A CN 202010042686A CN 111274391 B CN111274391 B CN 111274391B
- Authority
- CN
- China
- Prior art keywords
- spo
- spos
- meeting
- extraction
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 210
- 238000012549 training Methods 0.000 claims abstract description 139
- 238000012216 screening Methods 0.000 claims abstract description 97
- 238000005065 mining Methods 0.000 claims abstract description 46
- 230000001502 supplementing effect Effects 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 40
- 238000012795 verification Methods 0.000 claims description 33
- 230000004927 fusion Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 18
- 238000013145 classification model Methods 0.000 claims description 16
- 238000012805 post-processing Methods 0.000 claims description 15
- 238000012217 deletion Methods 0.000 claims description 10
- 230000037430 deletion Effects 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000001514 detection method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种SPO的抽取方法、装置、电子设备及存储介质,涉及人工智能领域。具体实现方案为:将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在所述带标注的训练数据中预测出满足限定关系的SPO;将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;若所述满足筛选条件的SPO不满足输出条件,则根据所述满足筛选条件的SPO,在所述带标记的训练数据中挖掘出标注缺失的SPO;将所述标注缺失的SPO补充至所述带标注的训练数据中,重复执行上述操作,直到所述满足筛选条件的SPO满足所述输出条件。本申请实施例不仅可以有效地提高SPO的召回率,而且还可以节省人工成本,提高抽取效率。
Description
技术领域
本申请涉及计算机处理技术领域,进一步涉及人工智能技术,尤其是一种三元组SPO的抽取方法、装置、电子设备及存储介质。
背景技术
关系抽取系统是指从自然语言文本中抽取实体关系数据,也被称作SPO三元组数据,得到实体pair(主体S-客体O pair)与他们之间的关系(P)构成的三元组知识。知识抽取方法是旨在从海量互联网文本中通过抽取技术挖掘高置信度的实体关系数据。
从知识图谱构建的角度上看,实体关系代表将实体结点关联起来的边,属于强schema知识,可以用于提升知识图谱的连通度。从产品应用的角度来看,实体关系数据是实体的最重要信息之一,这标志着与其他实体之间关联的桥梁。实体关系数据可以直接满足用户对于实体关联的需求,也可以有效提高人们检索和浏览实体的效率,提升用户体验,典型的产品应用有实体问答、实体推荐等。但是,通常来说,用于训练抽取模型的带标注的训练数据和真实场景下的测试数据存在分布不一致的问题,通过远程监督和众包标注方法构建的训练数据不是完备的,存在缺漏或准确的问题,影响模型的训练效果。
在现有技术中,通常采用如下两种方案进行SPO的抽取:(1)通过挖掘模板进行抽取;这种方式主要指针对特定的垂类网站或固定的句法规则,人工配置好多个挖掘模板,如定义好网页正则模板、句法规则等对网页中固定结构的数据进行定向抽取;(2)通过单一的抽取模型进行抽取;这种方式主要指利用句子中的词字、分词和词性等信息,通过单一的深度学习模型实现SPO抽取功能。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
针对上述方案(1),主要缺点是:人工成本较大,需要人工配置目标模板,并且很难做到覆盖到真实场景的所有目标,导致召回率低;针对上述方案(2),主要缺点是:当用于训练抽取模型的带标注的训练数据与真实场景下的测试数据不一致时,仅依靠单一的抽取模型进行抽取,不能很好地覆盖到训练数据中所有有效的特征,导致召回率低。
发明内容
有鉴于此,本申请提出实施例提供一种SPO的抽取方法、装置、电子设备及存储介质,不仅可以有效地提高SPO的召回率,而且还可以节省人工成本,提高抽取效率。
第一方面,本申请实施例提供了一种SPO的抽取方法,所述方法包括:
将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在所述带标注的训练数据中预测出满足限定关系的SPO;
将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;
若所述满足筛选条件的SPO不满足输出条件,则根据所述满足筛选条件的SPO,在所述带标记的训练数据中挖掘出标注缺失的SPO;
将所述标注缺失的SPO补充至所述带标注的训练数据中,重复执行上述操作,直到所述满足筛选条件的SPO满足所述输出条件。
上述实施例具有如下优点或有益效果:上述实施例可以通过多个抽取模型对训练数据进行预测,在训练数据中预测出满足限定关系的SPO,而不是只通过单一的抽取模型对训练数据进行预测;当满足筛选条件的SPO不满足输出条件时,可以将挖掘出的标注缺失的SPO补充至带标注的训练数据中,再次通过多个抽取模型对训练数据进行预测,不仅可以有效地提高SPO的召回率,而且还可以节省人工成本,提高抽取效率。
在上述实施例中,所述在融合后的SPO中提取出满足筛选条件的SPO,包括:
统计所述融合后的SPO中的各个SPO被各个抽取模型预测的次数;若各个SPO被各个抽取模型预测的次数的总和超过预设阈值时,则判定该SPO为所述满足预设筛选条件的SPO;或者,
将所述融合后的SPO中的各个SPO输入至分类模型中,通过所述分类模型将各个SPO划分至第一类别或者第二类别中;将划分至所述第一类别或者所述第二类别的SPO判定为所述满足预设筛选条件的SPO。
上述实施例具有如下优点或有益效果:上述实施例中的各个抽取模型可以分别通过上述两种方式在融合后的SPO中提取出满足筛选条件的SPO,各个抽取模型可以根据自身需求选择其中一种方式,也可以在各个抽取模型中预先配置一种选择方式,在此不进行任何限定。
在上述实施例中,所述根据所述满足筛选条件的SPO,在所述带标注的训练数据中挖掘出标注缺失的SPO,包括:
对所述满足筛选条件的各个SPO进行识别,获取到各个SPO对应的句法特征和词法特征;
根据各个SPO对应的句法特征和词法特征,设置出至少一个挖掘模板;
使用所述至少一个挖掘模板,在所述带标注的训练数据中挖掘出标注缺失的SPO。
上述实施例具有如下优点或有益效果:上述实施例可以通过对SPO的识别设置至少一个挖掘模板,使用一个或者多个挖掘模板在带标注的训练数据中挖掘出标注缺失的SPO,然后可以将标注缺失的SPO补充至带标注的训练数据中,再次通过多个抽取模型对训练数据进行预测,不仅可以有效地提高SPO的召回率,而且还可以节省人工成本,提高抽取效率。
在上述实施例中,在所述将各个抽取模型输出的SPO进行融合之后,在所述在融合后的SPO中提取出满足筛选条件的SPO之前,所述方法还包括:
采用预先设置的冲突校验方法,对所述融合后的SPO中的各个SPO进行冲突校验;在校验成功的SPO中提取满足所述筛选条件的SPO;将校验失败的SPO进行删除。
上述实施例具有如下优点或有益效果:上述实施例通过预先设置的冲突校验方法对融合后的SPO中的各个SPO进行冲突校验,可以有效地提高SPO的准确率。
在上述实施例中,在所述将所述标注缺失的SPO补充至所述带标注的训练数据中之后,所述方法还包括:
根据各个抽取模型预测出的SPO,在所述带标注的训练数据中删除未被任何一个抽取模型预测的SPO的标注。
上述实施例具有如下优点或有益效果:如果某个SPO未被任何一个抽取模型预测过,那么表示该SPO是一个不准确的SPO,或者该SPO是一个无效的SPO,此时可以将该SPO的标注在训练数据中删除,从而可以提高SPO的准确率。
第二方面,本申请还提供了一种SPO的抽取装置,所述装置包括:抽取模型模块、多模型融合模块、后处理模块和数据增强模块;其中,
所述抽取模型模块,用于将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在所述带标注的训练数据中预测出满足限定关系的SPO;
所述多模型融合模块,用于将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;
所述后处理模块,用于若所述满足筛选条件的SPO不满足输出条件,则根据所述满足筛选条件的SPO,在所述带标记的训练数据中挖掘出标注缺失的SPO;
所述数据增强模块,用于将所述标注缺失的SPO补充至所述带标注的训练数据中,重复执行上述操作,直到所述满足筛选条件的SPO满足所述输出条件。
在上述实施例中,所述多模型融合模块,具体用于统计所述融合后的SPO中的各个SPO被各个抽取模型预测的次数;若各个SPO被各个抽取模型预测的次数的总和超过预设阈值时,则判定该SPO为所述满足预设筛选条件的SPO;或者,将所述融合后的SPO中的各个SPO输入至分类模型中,通过所述分类模型将各个SPO划分至第一类别或者第二类别中;将划分至所述第一类别或者所述第二类别的SPO判定为所述满足预设筛选条件的SPO。
在上述实施例中,所述后处理模块包括:识别子模块、设置子模块和挖掘子模块;其中,
所述识别子模块,用于对所述满足筛选条件的各个SPO进行识别,获取到各个SPO对应的句法特征和词法特征;
所述设置子模块,用于根据各个SPO对应的句法特征和词法特征,设置出至少一个挖掘模板;
所述挖掘子模块,用于使用所述至少一个挖掘模板,在所述带标注的训练数据中挖掘出标注缺失的SPO。
在上述实施例中,所述多模型融合模块,还用于采用预先设置的冲突校验方法,对所述融合后的SPO中的各个SPO进行冲突校验;在校验成功的SPO中提取满足所述筛选条件的SPO;将校验失败的SPO进行删除。
在上述实施例中,所述数据增强模块,还用于根据各个抽取模型预测出的SPO,在所述带标注的训练数据中删除未被任何一个抽取模型预测的SPO的标注。
第三方面,本申请实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本申请任意实施例所述的SPO的抽取方法。
第四方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请任意实施例所述的SPO的抽取方法。
上述申请中的一个实施例具有如下优点或有益效果:本申请提出的SPO的抽取方法、装置、电子设备及存储介质,先将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO;然后将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;若满足筛选条件的SPO不满足输出条件,则根据满足筛选条件的SPO,在带标记的训练数据中挖掘出标注缺失的SPO;再将标注缺失的SPO补充至带标注的训练数据中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件。也就是说,本申请可以将标注缺失的SPO补充至带标注的训练数据中,再将补充后的带标注的训练数据分别输入至多个抽取模型中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件,从而达到提高SPO的召回率的目的。而在现有的SPO的抽取方法中,无论是通过挖掘模板进行抽取,还是通过单一的抽取模型进行抽取,均会导致召回率低。因为本申请采用了多个抽取模型分别对训练数据进行预测,以及将标注缺失的SPO补充至训练数据的技术手段,克服了现有技术中召回率低和人工成本高的技术问题,进而达到了有效地提高SPO的召回率,节省人工成本,提高抽取效率的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例一提供的SPO的抽取方法的流程示意图;
图2是本申请实施例二提供的SPO的抽取方法的流程示意图;
图3是本申请实施例二提供的SPO的抽取系统的结构示意图;
图4是本申请实施例三提供的SPO的抽取装置的结构示意图;
图5是本申请实施例三提供的后处理模块的结构示意图;
图6是用来实现本申请实施例的SPO的抽取方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
实施例一
图1是本申请实施例一提供的SPO的抽取方法的流程示意图,该方法可以由SPO的抽取装置或者电子设备来执行,该装置或者电子设备可以由软件和/或硬件的方式实现,该装置或者电子设备可以集成在任何具有网络通信功能的智能设备中。如图1所示,SPO的抽取方法可以包括以下步骤:
S101、将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO。
在本申请的具体实施例中,电子设备可以将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO。具体地,电子设备可以先将未标注的训练数据进行标注,然后将带标注的训练数据分别输入至多个抽取模型中。假设本申请中的抽取模型为N个,分别为:抽取模型1、抽取模型2、…、抽取模型N;其中,N为大于1的自然数。在本步骤中,电子设备可以将带标注的训练数据分别输入至抽取模型1、抽取模型2、…、抽取模型N中。具体地,抽取模型1可以使用抽取算子1在带标注的训练数据中预测出满足限定关系的SPO;抽取模型2可以使用抽取算子2在带标注的训练数据中预测出满足限定关系的SPO;以此类推。
S102、将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO。
在本申请的具体实施例中,电子设备可以将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO。具体地,各个抽取模型预测出的SPO的数量可以是一个,也可以是多个,在此不进行任何限定。假设抽取模型1预测出的SPO构成第一子集;抽取模型2预测出的SPO构成第二子集;…;抽取模型N预测出的SPO构成第N子集。在本步骤中,电子设备可以将第一子集、第二子集、…、第N子集中的SPO融合为一个SPO集合;即:该SPO集合中包括第一子集、第二子集、…、第N子集中所有的SPO;然后在SPO集合中提取出满足筛选条件的SPO。
较佳地,在本申请的具体实施例中,电子设备可以通过以下两种方法在融合后的SPO中提取出满足筛选条件的SPO。第一、投票策略:统计融合后的SPO中的各个SPO被各个抽取模型预测的次数;若各个SPO被各个抽取模型预测的次数的总和超过预设阈值时,则判定该SPO为满足预设筛选条件的SPO;第二、分类模型策略:将融合后的SPO中的各个SPO输入至分类模型中,通过分类模型将各个SPO划分至第一类别或者第二类别中;将划分至第一类别或者第二类别的SPO判定为满足预设筛选条件的SPO。具体地,在分类模型策略中,可以通过分类模型将各个SPO划分至正确的类别或者不正确的类别中,然后将划分至正确的类别中的SPO判定为满足预设筛选条件的SPO。
S103、判断满足筛选条件的SPO是否满足输出条件;若是,则执行S104;否则,执行S105。
在本申请的具体实施例中,电子设备可以判断满足筛选条件的SPO是否满足输出条件;当满足筛选条件的SPO满足输出条件时,执行S104;当满足筛选条件的SPO不满足输出条件时,执行S105。具体地,本申请中的输出条件可以是:带标注的训练数据中的SPO的召回率大于预设阈值;即在带标注的训练数据中抽取出的SPO的数量足够多。
S104、结束SPO的抽取流程。
在本申请的具体实施例中,若电子设备判断出满足筛选条件的SPO满足输出条件,即在带标注的训练数据中抽取出的SPO的数量已足够多,则电子设备可以结束SPO的抽取流程。
S105、根据满足筛选条件的SPO,在带标记的训练数据中挖掘出标注缺失的SPO。
在本申请的具体实施例中,若电子设备判断出满足筛选条件的SPO不满足输出条件,即在带标注的训练数据中抽取出的SPO的数量不够多,则电子设备可以满足筛选条件的SPO,在训练数据中挖掘出标注缺失的SPO。具体地,电子设备可以对满足筛选条件的各个SPO进行识别,获取到各个SPO对应的句法特征和词法特征;根据各个SPO对应的句法特征和词法特征,设置出至少一个挖掘模板;使用至少一个挖掘模板,在带标注的训练数据中挖掘出标注缺失的SPO。
S106、将标注缺失的SPO补充至带标注的训练数据中,返回执行S101。
在本申请的具体实施例中,电子设备可以将标注缺失的SPO补充至带标注的训练数据中,然后返回执行S101。具体地,电子设备可以将挖掘出的标注缺失的SPO在训练数据中进行标注。
较佳地,在本申请的具体实施例中,电子设备在将标注缺失的SPO补充至带标注的训练数据之后,电子设备还可以根据各个抽取模型预测出的SPO,在带标注的训练数据中删除未被任何一个抽取模型预测的SPO的标注。具体地,假设训练数据中的某个SPO均未被任何一个抽取模型预测过,则电子设备可以将该SPO的标注在训练数据中进行删除。
本申请实施例提出的SPO的抽取方法,先将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO;然后将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;若满足筛选条件的SPO不满足输出条件,则根据满足筛选条件的SPO,在带标记的训练数据中挖掘出标注缺失的SPO;再将标注缺失的SPO补充至带标注的训练数据中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件。也就是说,本申请可以将标注缺失的SPO补充至带标注的训练数据中,再将补充后的带标注的训练数据分别输入至多个抽取模型中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件,从而达到提高SPO的召回率的目的。而在现有的SPO的抽取方法中,无论是通过挖掘模板进行抽取,还是通过单一的抽取模型进行抽取,均会导致召回率低。因为本申请采用了多个抽取模型分别对训练数据进行预测,以及将标注缺失的SPO补充至训练数据的技术手段,克服了现有技术中召回率低和人工成本高的技术问题,进而达到了有效地提高SPO的召回率,节省人工成本,提高抽取效率的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例二
图2是本申请实施例二提供的SPO的抽取方法的流程示意图。如图2所示,SPO的抽取方法可以包括以下步骤:
S201、将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO。
在本申请的具体实施例中,电子设备可以将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO。具体地,电子设备可以先将未标注的训练数据进行标注,然后将带标注的训练数据分别输入至多个抽取模型中。假设本申请中的抽取模型为N个,分别为:抽取模型1、抽取模型2、…、抽取模型N;其中,N为大于1的自然数。在本步骤中,电子设备可以将带标注的训练数据分别输入至抽取模型1、抽取模型2、…、抽取模型N中。具体地,抽取模型1可以使用抽取算子1在带标注的训练数据中预测出满足限定关系的SPO;抽取模型2可以使用抽取算子2在带标注的训练数据中预测出满足限定关系的SPO;以此类推。
S202、将各个抽取模型预测出的SPO进行融合。
在本申请的具体实施例中,电子设备可以将各个抽取模型预测出的SPO进行融合。具体地,各个抽取模型预测出的SPO的数量可以是一个,也可以是多个,在此不进行任何限定。假设抽取模型1预测出的SPO构成第一子集;抽取模型2预测出的SPO构成第二子集;…;抽取模型N预测出的SPO构成第N子集。在本步骤中,电子设备可以将第一子集、第二子集、…、第N子集中的SPO融合为一个SPO集合;即:该SPO集合中包括第一子集、第二子集、…、第N子集中所有的SPO。
S203、采用预先设置的冲突校验方法,对融合后的SPO中的各个SPO进行冲突校验;在校验成功的SPO中提取满足筛选条件的SPO;将校验失败的SPO进行删除。
在本申请的具体实施例中,电子设备可以采用预先设置的冲突校验方法,对融合后的SPO中的各个SPO进行冲突校验;在校验成功的SPO中提取满足筛选条件的SPO;将校验失败的SPO进行删除。具体地,在冲突校验中,包括schema校验、关系冲突检测以及修正实体的边界识别等策略,可以有效地提高SPO的准确率。
S204、判断满足筛选条件的SPO是否满足输出条件;若是,则执行S205;否则,执行S206。
在本申请的具体实施例中,电子设备可以判断满足筛选条件的SPO是否满足输出条件;当满足筛选条件的SPO满足输出条件时,执行S205;当满足筛选条件的SPO不满足输出条件时,执行S206。具体地,本申请中的输出条件可以是:带标注的训练数据中的SPO的召回率大于预设阈值;即在带标注的训练数据中抽取出的SPO的数量足够多。
S205、结束SPO的抽取流程。
在本申请的具体实施例中,若电子设备判断出满足筛选条件的SPO满足输出条件,即在带标注的训练数据中抽取出的SPO的数量已足够多,则电子设备可以结束SPO的抽取流程。
S206、根据满足筛选条件的SPO,在带标记的训练数据中挖掘出标注缺失的SPO。
在本申请的具体实施例中,若电子设备判断出满足筛选条件的SPO不满足输出条件,即在带标注的训练数据中抽取出的SPO的数量不够多,则电子设备可以满足筛选条件的SPO,在训练数据中挖掘出标注缺失的SPO。具体地,电子设备可以对满足筛选条件的各个SPO进行识别,获取到各个SPO对应的句法特征和词法特征;根据各个SPO对应的句法特征和词法特征,设置出至少一个挖掘模板;使用至少一个挖掘模板,在带标注的训练数据中挖掘出标注缺失的SPO。
S207、将标注缺失的SPO补充至带标注的训练数据中,返回执行S201。
在本申请的具体实施例中,电子设备可以将标注缺失的SPO补充至带标注的训练数据中,然后返回执行S201。具体地,电子设备可以将挖掘出的标注缺失的SPO在训练数据中进行标注。
图3是本申请实施例二提供的SPO的抽取系统的结构示意图。如图所示,SPO抽取系统包括:输入模块、抽取模型模块、多模型融合模块、后处理模块、数据增强模块、输出模块以及外部依赖模块;其中,每个模块的功能如下:
输入模块,用于将带标注的训练数据输入至抽取模型模块中。
抽取模型模块,用于在输入一个带标注的训练数据时,从带标注的训练数据中抽取出所有满足限定关系的SPO;该模块支持添加多个抽取算子,即通过多个抽取模型分别获取结果,且极易扩展算子。目前,抽取模型模块的主流做法有以下三类:1)pipeline结构模型,先基于biLSTM进行多标签关系分类,再依据关系类型采用biLSTM-CRF序列标注模型进行S和O的实体论元标注;2)基于膨胀卷积神经网络进行联合标注的半指针-半标注结构的联合抽取,先预测S,然后根据S同时预测O和P;3)基于分层强化学习模型的联合抽取,将抽取任务分解为两个子任务的层次结构:关系检测的High-level层识别句子中的多个关系,然后触发实体提取的Low-level层,提取每个关系的相关实体。
多模型融合模块,用于针对每个训练数据的多个抽取模型预测的所有SPO,调用多模型融合算子进行多模型融合择优。在该模块中,可以很容易地将上一模块中多个抽取算子的抽取结果扩展进来参与择优,当前多模型融合模块的常见做法是投票和分类模型两种策略;其中,投票策略是通过计数的方式统计SPO的被抽取模型预测的次数,选择投票数多的SPO作为最终结果;分类模型策略是将是否输出SPO视为二分类问题,预测每个SPO是否是满足筛选条件的SPO。
后处理模块,用于对多模型融合模块输出的SPO进行质量控制,包括冲突校验和基于句法pattern挖掘等方式,提升最终输出SPO的准确率和召回率。在冲突校验中,主要包括了Schema校验、关系冲突检测及修正实体的识别边界等策略,主要是为了提升抽取系统的准确率;基于句法pattern挖掘是通过识别句法词法特征,通过手工设置特定的pattern挖掘句子中的SPO,扩充抽取系统的召回率。
数据增强模块,用于在抽取模型训练时,训练集的标注质量对模型效果会有影响,因此,在该模块会采用数据增强的方式改善训练集质量。具体方法是用已训好模型对训练集的句子进行预测,并经过多模型融合模块和后处理模块,输出之前训练样本中标注缺失的SPO,将这部分SPO补充到训练样本的标注结果中,提升训练样本的召回率;另外,删除训练样本中所有模型均未预测到的SPO的标注,提升训练集的准确率。这样,用这个修正后的训练集重新训练和融合模型,可以有效提升抽取系统的效果。
输出模块,用于若满足筛选条件的SPO满足输出条件时,通过该输出模块将满足输出条件的SPO进行输出。
外部依赖模块,用于为抽取模型模块提供外部支撑,可以包括以下深度学习框架:分词及词性标注工具、Pytorch、keras、Paddle;抽取模型模块可以使用上述深度学习框架实现。
本申请面向不完备数据集的关系抽取系统框架引入多种抽取模型、多模型融合和数据增强的方法,一方面可以减少手工设置pattern的人工成本,使用深度学习模型对于所有SPO关系统一建模;另一方面可以使得原始数据集中的多种有效特征都得到增强,在保证准确的情况下,提升整体系统召回。
本申请实施例提出的SPO的抽取方法,先将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO;然后将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;若满足筛选条件的SPO不满足输出条件,则根据满足筛选条件的SPO,在带标记的训练数据中挖掘出标注缺失的SPO;再将标注缺失的SPO补充至带标注的训练数据中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件。也就是说,本申请可以将标注缺失的SPO补充至带标注的训练数据中,再将补充后的带标注的训练数据分别输入至多个抽取模型中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件,从而达到提高SPO的召回率的目的。而在现有的SPO的抽取方法中,无论是通过挖掘模板进行抽取,还是通过单一的抽取模型进行抽取,均会导致召回率低。因为本申请采用了多个抽取模型分别对训练数据进行预测,以及将标注缺失的SPO补充至训练数据的技术手段,克服了现有技术中召回率低和人工成本高的技术问题,进而达到了有效地提高SPO的召回率,节省人工成本,提高抽取效率的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
实施例三
图4是本申请实施例三提供的SPO的抽取装置的结构示意图。如图4所示,所述装置400包括:抽取模型模块401、多模型融合模块402、后处理模块403和数据增强模块404;其中,
所述抽取模型模块401,用于将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在所述带标注的训练数据中预测出满足限定关系的SPO;
所述多模型融合模块402,用于将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;
所述后处理模块403,用于若所述满足筛选条件的SPO不满足输出条件,则根据所述满足筛选条件的SPO,在所述带标记的训练数据中挖掘出标注缺失的SPO;
所述数据增强模块404,用于将所述标注缺失的SPO补充至所述带标注的训练数据中,重复执行上述操作,直到所述满足筛选条件的SPO满足所述输出条件。
进一步的,所述多模型融合模块402,具体用于统计所述融合后的SPO中的各个SPO被各个抽取模型预测的次数;若各个SPO被各个抽取模型预测的次数的总和超过预设阈值时,则判定该SPO为所述满足预设筛选条件的SPO;或者,将所述融合后的SPO中的各个SPO输入至分类模型中,通过所述分类模型将各个SPO划分至第一类别或者第二类别中;将划分至所述第一类别或者所述第二类别的SPO判定为所述满足预设筛选条件的SPO。
图5是本申请实施例三提供的后处理模块的结构示意图。如图5所示,,所述后处理模块403包括:识别子模块4031、设置子模块4032和挖掘子模块4033;其中,
所述识别子模块4031,用于对所述满足筛选条件的各个SPO进行识别,获取到各个SPO对应的句法特征和词法特征;
所述设置子模块4032,用于根据各个SPO对应的句法特征和词法特征,设置出至少一个挖掘模板;
所述挖掘子模块4033,用于使用所述至少一个挖掘模板,在所述带标注的训练数据中挖掘出标注缺失的SPO。
进一步的,所述多模型融合模块402,还用于采用预先设置的冲突校验方法,对所述融合后的SPO中的各个SPO进行冲突校验;在校验成功的SPO中提取满足所述筛选条件的SPO;将校验失败的SPO进行删除。
进一步的,所述数据增强模块404,还用于根据各个抽取模型预测出的SPO,在所述带标注的训练数据中删除未被任何一个抽取模型预测的SPO的标注。
上述SPO的抽取装置可执行本申请任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请任意实施例提供的SPO的抽取方法。
实施例四
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的SPO的抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的SPO的抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的SPO的抽取方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的SPO的抽取方法对应的程序指令/模块(例如,附图4所示的抽取模型模块401、多模型融合模块402、后处理模块403和数据增强模块404)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的SPO的抽取方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据SPO的抽取方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至SPO的抽取方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
SPO的抽取方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与SPO的抽取方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,先将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在带标注的训练数据中预测出满足限定关系的SPO;然后将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;若满足筛选条件的SPO不满足输出条件,则根据满足筛选条件的SPO,在带标记的训练数据中挖掘出标注缺失的SPO;再将标注缺失的SPO补充至带标注的训练数据中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件。也就是说,本申请可以将标注缺失的SPO补充至带标注的训练数据中,再将补充后的带标注的训练数据分别输入至多个抽取模型中,重复执行上述操作,直到满足筛选条件的SPO满足输出条件,从而达到提高SPO的召回率的目的。而在现有的SPO的抽取方法中,无论是通过挖掘模板进行抽取,还是通过单一的抽取模型进行抽取,均会导致召回率低。因为本申请采用了多个抽取模型分别对训练数据进行预测,以及将标注缺失的SPO补充至训练数据的技术手段,克服了现有技术中召回率低和人工成本高的技术问题,进而达到了有效地提高SPO的召回率,节省人工成本,提高抽取效率的技术效果;并且,本申请实施例的技术方案实现简单方便、便于普及,适用范围更广。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.一种三元组SPO的抽取方法,其特征在于,所述方法包括:
将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在所述带标注的训练数据中预测出满足限定关系的SPO;
将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;
若所述满足筛选条件的SPO不满足输出条件,对所述满足筛选条件的各个SPO进行识别,获取到各个SPO对应的句法特征和词法特征,根据各个SPO对应的句法特征和词法特征,设置出至少一个挖掘模板,使用所述至少一个挖掘模板,在所述带标注的训练数据中挖掘出标注缺失的SPO;
将所述标注缺失的SPO补充至所述带标注的训练数据中,重复执行上述操作,直到所述满足筛选条件的SPO满足所述输出条件。
2.根据权利要求1所述的方法,其特征在于,所述在融合后的SPO中提取出满足筛选条件的SPO,包括:
统计所述融合后的SPO中的各个SPO被各个抽取模型预测的次数;若各个SPO被各个抽取模型预测的次数的总和超过预设阈值时,则判定该SPO为所述满足预设筛选条件的SPO;或者,
将所述融合后的SPO中的各个SPO输入至分类模型中,通过所述分类模型将各个SPO划分至第一类别或者第二类别中;将划分至所述第一类别或者所述第二类别的SPO判定为所述满足预设筛选条件的SPO。
3.根据权利要求1所述的方法,其特征在于,在所述将各个抽取模型输出的SPO进行融合之后,在所述在融合后的SPO中提取出满足筛选条件的SPO之前,所述方法还包括:
采用预先设置的冲突校验方法,对所述融合后的SPO中的各个SPO进行冲突校验;在校验成功的SPO中提取满足所述筛选条件的SPO;将校验失败的SPO进行删除。
4.根据权利要求1所述的方法,其特征在于,在所述将所述标注缺失的SPO补充至所述带标注的训练数据中之后,所述方法还包括:
根据各个抽取模型预测出的SPO,在所述带标注的训练数据中删除未被任何一个抽取模型预测的SPO的标注。
5.一种SPO的抽取的装置,其特征在于,所述装置包括:抽取模型模块、多模型融合模块、后处理模块和数据增强模块;其中,
所述抽取模型模块,用于将带标注的训练数据分别输入至多个抽取模型中,通过各个抽取模型在所述带标注的训练数据中预测出满足限定关系的SPO;
所述多模型融合模块,用于将各个抽取模型预测出的SPO进行融合,在融合后的SPO中提取出满足筛选条件的SPO;
所述后处理模块,用于若所述满足筛选条件的SPO不满足输出条件,则根据所述满足筛选条件的SPO,在所述带标记的训练数据中挖掘出标注缺失的SPO;
所述数据增强模块,用于将所述标注缺失的SPO补充至所述带标注的训练数据中,重复执行上述操作,直到所述满足筛选条件的SPO满足所述输出条件;
所述后处理模块包括:识别子模块、设置子模块和挖掘子模块;其中,
所述识别子模块,用于对所述满足筛选条件的各个SPO进行识别,获取到各个SPO对应的句法特征和词法特征;
所述设置子模块,用于根据各个SPO对应的句法特征和词法特征,设置出至少一个挖掘模板;
所述挖掘子模块,用于使用所述至少一个挖掘模板,在所述带标注的训练数据中挖掘出标注缺失的SPO。
6.根据权利要求5所述的装置,其特征在于:
所述多模型融合模块,具体用于统计所述融合后的SPO中的各个SPO被各个抽取模型预测的次数;若各个SPO被各个抽取模型预测的次数的总和超过预设阈值时,则判定该SPO为所述满足预设筛选条件的SPO;或者,将所述融合后的SPO中的各个SPO输入至分类模型中,通过所述分类模型将各个SPO划分至第一类别或者第二类别中;将划分至所述第一类别或者所述第二类别的SPO判定为所述满足预设筛选条件的SPO。
7.根据权利要求5所述的装置,其特征在于,所述多模型融合模块,还用于采用预先设置的冲突校验方法,对所述融合后的SPO中的各个SPO进行冲突校验;在校验成功的SPO中提取满足所述筛选条件的SPO;将校验失败的SPO进行删除。
8.根据权利要求5所述的装置,其特征在于,所述数据增强模块,还用于根据各个抽取模型预测出的SPO,在所述带标注的训练数据中删除未被任何一个抽取模型预测的SPO的标注。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042686.6A CN111274391B (zh) | 2020-01-15 | 2020-01-15 | 一种spo的抽取方法、装置、电子设备及存储介质 |
EP21151532.5A EP3851977A1 (en) | 2020-01-15 | 2021-01-14 | Method, apparatus, electronic device, and storage medium for extracting spo triples |
US17/149,267 US20210216819A1 (en) | 2020-01-15 | 2021-01-14 | Method, electronic device, and storage medium for extracting spo triples |
KR1020210006103A KR102464248B1 (ko) | 2020-01-15 | 2021-01-15 | Spo의 추출 방법, 장치, 전자기기 및 저장 매체 |
JP2021004863A JP7242719B2 (ja) | 2020-01-15 | 2021-01-15 | Spoの抽出方法、装置、電子機器及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042686.6A CN111274391B (zh) | 2020-01-15 | 2020-01-15 | 一种spo的抽取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274391A CN111274391A (zh) | 2020-06-12 |
CN111274391B true CN111274391B (zh) | 2023-09-01 |
Family
ID=70999036
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010042686.6A Active CN111274391B (zh) | 2020-01-15 | 2020-01-15 | 一种spo的抽取方法、装置、电子设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210216819A1 (zh) |
EP (1) | EP3851977A1 (zh) |
JP (1) | JP7242719B2 (zh) |
KR (1) | KR102464248B1 (zh) |
CN (1) | CN111274391B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112560487A (zh) * | 2020-12-04 | 2021-03-26 | 中国电子科技集团公司第十五研究所 | 一种基于国产设备的实体关系抽取方法及系统 |
CN113360642A (zh) * | 2021-05-25 | 2021-09-07 | 科沃斯商用机器人有限公司 | 文本数据处理方法及装置、存储介质和电子设备 |
CN113656590B (zh) * | 2021-07-16 | 2023-12-15 | 北京百度网讯科技有限公司 | 行业图谱的构建方法、装置、电子设备及存储介质 |
CN113779260B (zh) * | 2021-08-12 | 2023-07-18 | 华东师范大学 | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 |
CN113742592A (zh) * | 2021-09-08 | 2021-12-03 | 平安信托有限责任公司 | 舆情信息推送方法、装置、设备及存储介质 |
CN114925693B (zh) * | 2022-01-05 | 2023-04-07 | 华能贵诚信托有限公司 | 一种基于多模型融合的多元关系抽取方法和抽取系统 |
CN114566247B (zh) * | 2022-04-20 | 2022-08-12 | 浙江太美医疗科技股份有限公司 | Crf的自动生成方法和装置、电子设备和存储介质 |
CN115204120B (zh) * | 2022-07-25 | 2023-05-30 | 平安科技(深圳)有限公司 | 保险领域三元组抽取方法、装置、电子设备及存储介质 |
CN115982352B (zh) * | 2022-12-12 | 2024-04-02 | 北京百度网讯科技有限公司 | 文本分类方法、装置以及设备 |
CN116562299B (zh) * | 2023-02-08 | 2023-11-14 | 中国科学院自动化研究所 | 文本信息的论元抽取方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
RU2681356C1 (ru) * | 2018-03-23 | 2019-03-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке |
CN110379520A (zh) * | 2019-06-18 | 2019-10-25 | 北京百度网讯科技有限公司 | 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质 |
CN110610193A (zh) * | 2019-08-12 | 2019-12-24 | 大箴(杭州)科技有限公司 | 标注数据的处理方法及装置 |
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7346601B2 (en) * | 2002-06-03 | 2008-03-18 | Microsoft Corporation | Efficient evaluation of queries with mining predicates |
JP2011227688A (ja) * | 2010-04-20 | 2011-11-10 | Univ Of Tokyo | テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置 |
RU2610241C2 (ru) * | 2015-03-19 | 2017-02-08 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов |
JP6790905B2 (ja) | 2017-02-20 | 2020-11-25 | 富士通株式会社 | 検出方法、検出装置および検出プログラム |
US10423726B2 (en) * | 2018-01-10 | 2019-09-24 | International Business Machines Corporation | Machine learning to integrate knowledge and natural language processing |
US20190294665A1 (en) * | 2018-03-23 | 2019-09-26 | Abbyy Production Llc | Training information extraction classifiers |
US10878296B2 (en) * | 2018-04-12 | 2020-12-29 | Discovery Communications, Llc | Feature extraction and machine learning for automated metadata analysis |
CN110569494B (zh) | 2018-06-05 | 2023-04-07 | 北京百度网讯科技有限公司 | 用于生成信息的方法、装置、电子设备及可读介质 |
CN109582799B (zh) * | 2018-06-29 | 2020-09-22 | 北京百度网讯科技有限公司 | 知识样本数据集的确定方法、装置及电子设备 |
US11562133B2 (en) * | 2018-12-04 | 2023-01-24 | Foundation Of Soongsil Univ-Industry Cooperation | System and method for detecting incorrect triple |
-
2020
- 2020-01-15 CN CN202010042686.6A patent/CN111274391B/zh active Active
-
2021
- 2021-01-14 US US17/149,267 patent/US20210216819A1/en not_active Abandoned
- 2021-01-14 EP EP21151532.5A patent/EP3851977A1/en not_active Withdrawn
- 2021-01-15 JP JP2021004863A patent/JP7242719B2/ja active Active
- 2021-01-15 KR KR1020210006103A patent/KR102464248B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868313A (zh) * | 2016-03-25 | 2016-08-17 | 浙江大学 | 一种基于模板匹配技术的知识图谱问答系统及方法 |
RU2681356C1 (ru) * | 2018-03-23 | 2019-03-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке |
CN108549639A (zh) * | 2018-04-20 | 2018-09-18 | 山东管理学院 | 基于多特征模板修正的中医医案命名识别方法及系统 |
CN110379520A (zh) * | 2019-06-18 | 2019-10-25 | 北京百度网讯科技有限公司 | 医疗知识图谱的挖掘方法及装置、计算机设备及可读介质 |
CN110610193A (zh) * | 2019-08-12 | 2019-12-24 | 大箴(杭州)科技有限公司 | 标注数据的处理方法及装置 |
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
Non-Patent Citations (1)
Title |
---|
基于自然语言处理的临床合理用药知识图谱构建;张小亮;王忠民;王永庆;郭建军;刘云;;中华医学图书情报杂志(第09期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
JP7242719B2 (ja) | 2023-03-20 |
US20210216819A1 (en) | 2021-07-15 |
KR102464248B1 (ko) | 2022-11-07 |
CN111274391A (zh) | 2020-06-12 |
JP2021111417A (ja) | 2021-08-02 |
EP3851977A1 (en) | 2021-07-21 |
KR20210092698A (ko) | 2021-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274391B (zh) | 一种spo的抽取方法、装置、电子设备及存储介质 | |
US11341366B2 (en) | Cross-modality processing method and apparatus, and computer storage medium | |
CN111967268B (zh) | 文本中的事件抽取方法、装置、电子设备和存储介质 | |
US20220383190A1 (en) | Method of training classification model, method of classifying sample, and device | |
CN111144115B (zh) | 预训练语言模型获取方法、装置、电子设备和存储介质 | |
CN111753914B (zh) | 模型优化方法和装置、电子设备及存储介质 | |
CN111783468B (zh) | 文本处理方法、装置、设备和介质 | |
JP2021190087A (ja) | テキスト認識処理方法、装置、電子機器及び記憶媒体 | |
CN111339759B (zh) | 领域要素识别模型训练方法、装置及电子设备 | |
US11361002B2 (en) | Method and apparatus for recognizing entity word, and storage medium | |
CN111539227B (zh) | 训练语义表示模型的方法、装置、设备和计算机存储介质 | |
US11928563B2 (en) | Model training, image processing method, device, storage medium, and program product | |
US20220067439A1 (en) | Entity linking method, electronic device and storage medium | |
WO2020215456A1 (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN111859997B (zh) | 机器翻译中的模型训练方法、装置、电子设备及存储介质 | |
CN111126061B (zh) | 对联信息生成方法和装置 | |
CN111078878B (zh) | 文本处理方法、装置、设备及计算机可读存储介质 | |
KR102456535B1 (ko) | 의료 사실 검증 방법, 장치, 전자 기기, 저장 매체 및 프로그램 | |
US20210406299A1 (en) | Method and apparatus for mining entity relationship, electronic device, and storage medium | |
US11321370B2 (en) | Method for generating question answering robot and computer device | |
CN113641830B (zh) | 模型预训练方法、装置、电子设备和存储介质 | |
CN112001169A (zh) | 文本纠错的方法、装置、电子设备和可读存储介质 | |
CN111241302B (zh) | 职位信息图谱生成方法、装置、设备和介质 | |
CN113312451B (zh) | 文本标签确定方法和装置 | |
CN112466277B (zh) | 韵律模型训练方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |