CN112328749B - 知识要素提取方法、装置、电子设备、介质和程序产品 - Google Patents
知识要素提取方法、装置、电子设备、介质和程序产品 Download PDFInfo
- Publication number
- CN112328749B CN112328749B CN202011339563.5A CN202011339563A CN112328749B CN 112328749 B CN112328749 B CN 112328749B CN 202011339563 A CN202011339563 A CN 202011339563A CN 112328749 B CN112328749 B CN 112328749B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- domain
- data
- element extraction
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 152
- 238000012549 training Methods 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000004590 computer program Methods 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 11
- 238000013526 transfer learning Methods 0.000 claims description 7
- 230000008901 benefit Effects 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 3
- 239000000243 solution Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
根据本公开的示例实施例,提供了一种知识要素提取方法、装置、电子设备、计算机可读存储介质和计算机程序产品,涉及知识图谱、深度学习领域。知识要素提取方法包括:使用针对领域的数据,基于与领域相关联的知识图谱,训练知识要素提取模型;以及使用经训练的知识要素提取模型,基于知识图谱,提取与领域相关联的知识要素。利用上述方法,可以基在低资源场景下于知识图谱实现人机结合的知识要素提取。其针对不同的数据场景问题,充分利用不同策略方案的优点进行整合,形成一套完整的、有效的问题解决方案,从而使得可以从不同维度、不同数据情形解决复杂的行业领域低资源问题,不仅能够提高知识要素提取的效率以及正确率,也能够提高用户体验。
Description
技术领域
本公开涉及计算机技术,并且更具体地,涉及知识要素提取方法、装置、电子设备、计算机可读存储介质和计算机程序产品,可以应用于知识图谱、深度学习领域中。
背景技术
知识要素提取可以包括从自然语言文本提取特定类型的知识信息,这些知识信息可以包括实体、概念、关系、侧面、事件等事实信息。此外,知识要素提取还可以包括进行结构化数据输出的文本处理技术。在知识要素提取中,自然语言文本数据可以由一些具体的单位构成,这些单位主要可以包括句子、段落、篇章。
在医疗、金融、教育等一些行业垂类领域中,高质量的标注数据是很稀少的,并且进行标注所需要花费的成本十分昂贵。因此,在进行针对这些领域的文本知识要素提取时,常常会面临样本缺失或稀少的低资源场景问题。然而,在这些领域中通常含有大量的无标注文本数据,并且通过各种公开的数据集也可以获得大量的通用领域或者其他领域的标注样本和无标注数据。不过,传统技术方案无法利用这些数据来解决低资源场景中的知识要素提取问题。
发明内容
根据本公开的实施例,提供了一种知识要素提取方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
在本公开的第一方面中,提供了一种知识要素提取方法,包括:使用针对领域的数据,基于与领域相关联的知识图谱,训练知识要素提取模型;以及使用经训练的知识要素提取模型,基于知识图谱,提取与领域相关联的知识要素。
在本公开的第二方面中,提供了一种知识要素提取装置,包括:模型训练模块,被配置为使用针对领域的数据,基于与领域相关联的知识图谱,训练知识要素提取模型;以及知识要素提取模块,被配置为使用经训练的知识要素提取模型,基于知识图谱,提取与领域相关联的知识要素。
在本公开的第三方面中,提供了一种电子设备,包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器能够实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机实现根据本公开的第一方面的方法。
在本公开的第五方面中,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时,执行根据本公开的第一方面的方法。
利用根据本申请的技术,可以基在低资源场景下于知识图谱实现人机结合的知识要素提取。其针对不同的数据场景问题,充分利用不同策略方案的优点进行整合,形成一套完整的、有效的问题解决方案,从而使得可以从不同维度、不同数据情形解决复杂的行业领域低资源问题,不仅能够提高知识要素提取的效率以及正确率,也能够提高用户体验。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中在本公开示例性实施例中,相同的参考标号通常代表相同部件。应当理解,附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示出了可以在其中实现本公开的某些实施例中的知识要素提取方法的知识要素提取环境100的示意性框图;
图2示出了根据本公开实施例的知识要素提取方法200的流程图;
图3示出了根据本公开实施例的知识要素提取过程300的示意性框图;
图4示出了根据本公开的实施例的知识要素提取装置400的示意性框图;以及
图5示出了根据本公开实施例的电子设备500的示意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如以上在背景技术中所描述的,传统技术方案无法利用领域中通常含有的大量的无标注文本数据以及大量的通用领域或者其他领域的标注样本和无标注数据来解决低资源场景中的知识要素提取问题。在传统方案中,主要通过分离地采取以下方式来进行知识要素提取:(1)文本增强,这种方式主要采用词汇短语替换、随机噪音注入、回译、句法变换等方法进行样本增强,生成更多的样本来解决样本不足的问题;(2)半监督学习,这种方式主要利用少量标注数据和大量无标注数据进行学习,在同等的少量标注样本下,半监督学习通常取得比监督学习较好的性能。一般主要采用熵最小化和一致性正则两种方案;以及(3)小样本学习,这种方式主要采用元学习的方案来解决低资源问题,利用已经学到的知识来解决新场景的问题。
然而,传统方案中所分离地采取的上述方式以下不足:(1)文本增强,通过这种方式生成的样本可能会改变语义,针对文本分类问题有一定的提升,但是无法较好的解决行业复杂的标注和提取问题;(2)半监督学习,这种方式一般而言侧重于在有监督的分类算法中加入无标记样本来实现半监督分类,着重解决分类问题,对于标注和提取问题解决效果一般;以及(3)小样本学习,由于采用这种方式时训练样本对于深度学习方法来说过少,很容易过拟合,泛化能力不好,无法解决复杂的行业领域问题。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开的实施例提出了一种知识要素提取方案。这种方案可以基在低资源场景下于知识图谱实现人机结合的知识要素提取。其针对不同的数据场景问题,充分利用不同策略方案的优点进行整合,形成一套完整的、有效的问题解决方案,从而使得可以从不同维度、不同数据情形解决复杂的行业领域低资源问题,不仅能够提高知识要素提取的效率以及正确率,也能够提高用户体验。
图1示出了可以在其中实现本公开的某些实施例中的知识要素提取方法的知识要素提取环境100的示意性框图。根据本公开的实施例,知识要素提取环境100可以是云环境。如图1中所示,知识要素提取环境100包括计算设备110。知识要素提取环境100中,提取相关数据120作为计算设备110的输入被提供给计算设备110,被提取出的知识要素130作为输出由计算设备110输出。
应当理解,知识要素提取环境100仅仅是示例性而不是限制性的,并且其是可扩展的,其中可以包括更多的计算设备110,并且可以向计算设备110提供更多的提取相关数据120作为输入,计算设备110也可以输出更多的知识要素130作为输出,从而使得可以满足更多用户同时利用更多的计算设备110,甚至利用更多的提取相关数据120来同时或者非同时地提取更多的知识要素130的需求。此外,计算设备110也可以并不实际输出知识要素130,而是仅通过计算获得知识要素130。
根据本公开的一个或多个实施例,在知识要素提取环境100中,被提供给计算设备110的提取相关数据120例如可以包括针对某个领域的、例如自然语言文本数据的输入数据,与该领域相关联的知识图谱,与该领域相关联的领域词典,对在训练知识要素提取模型时可以使用的、例如词汇增强、文本增强和多特征融合的方法的指示,对在提取知识要素时可以使用的、例如与知识图谱相关联的规则、与知识图谱相关联的模板和词典策略等的指示,以及针对通用领域或者其他领域的输入数据等。
根据本公开的一个或多个实施例,如上所述的、例如对在训练知识要素提取模型时可以使用的、例如词汇增强、文本增强和多特征融合的方法可以并不通过提取相关数据120来指示,而是可以由计算设备根据所获知的该领域以及与该领域相关联的知识图谱和领域词典来确定,因此相应的指示也可以不被包括在提取相关数据120中。
根据本公开的一个或多个实施例,针对某个领域的输入数据可以包括标注数据或者无标注数据,并且针对通用领域或者其他领域的输入数据同样可以包括标注数据或者无标注数据。
根据本公开的一个或多个实施例,当知识要素提取环境100中的计算设备110接收到与某个领域相关联的提取相关数据120作为输入之后,计算设备可以使用针对该领域的数据,基于与该领域相关联的知识图谱来训练知识要素提取模型,并且而后可以基于知识图谱,利用该知识要素提取模型来从输入提取与该领域想关联的知识要素。
在图1所示的知识要素提取环境100中,向计算设备110输入提取相关数据120以及从计算设备110输出知识要素130可以通过网络来进行。
图2示出了根据本公开的实施例的知识要素提取方法200的流程图。具体而言,知识要素提取方法200可以由图1中所示的知识要素提取环境100中的计算设备110来执行。应当理解的是,知识要素提取方法200还可以包括未示出的附加操作和/或可以省略所示出的操作,本公开的范围在此方面不受限制。
在框202,计算设备110使用针对领域的数据,基于与领域相关联的知识图谱,训练知识要素提取模型。根据本公开的一个或多个实施例,针对领域的数据可以包括针对该领域的、例如自然语言文本数据的输入数据。由于知识要素提取方法200用于针对特定领域提取知识要素,因此框202的步骤中所涉及的针对领域的数据包括针对该领域的标注数据和无标注数据中的至少一种。此外,知识图谱可以包括知识域可视化或知识领域映射地图,其可以包括显示知识发展进程与结构关系的一系列各种不同的图形,并且可以用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。因此,基于由与领域相关联的知识图谱所指示的知识要素之间的关系,可以更为容易和准确地实现知识要素的提取。
根据本公开的一个或多个实施例,在基于由与领域相关联的知识图谱所指示的知识要素之间的关系训练知识要素提取模型时,可以使用词汇增强、文本增强和多特征融合中的至少一项。此时,利用由与领域相关联的知识图谱所指示的知识要素之间的关系,可以使得词汇增强、文本增强和多特征融合等方法可以更高效和准确地训练知识要素提取模型。
根据本公开的一个或多个实施例,在训练知识要素提取模型时,计算设备110还可以基于与该领域相关联的领域词典。根据本公开的实施例,与领域相关联的知识词典可以指示领域中的词以及知识要素的词性、含义以及关系等属性。因此,同时基于由与领域相关联的知识图谱所指示的知识要素之间的关系,以及由与领域相关联的知识词典所指示的知识要素的上述属性,可以使得知识要素的提取的效率和准确性被进一步提高。
根据本公开的一个或多个实施例,当针对领域的数据包括针对该领域的标注数据时,通常这些标注数据的数据量不会很大。因此,计算设备110可以针对这些标注数据,使用小样本学习方法来训练知识要素提取模型。
进一步地,根据本公开的一个或多个实施例,当针对领域的数据同时包括针对该领域的标注数据和无标注数据时,计算设备110可以通过针对无标注数据使用半监督学习来训练知识要素提取模型。例如,计算设备110可以首先对无标注数据通过例如基于词典的不完全标注和标签估计来进行半监督学习。之后,计算设备110可以对经半监督学习的无标注数据进行样本增强。而后,计算设备110可以对经样本增强的经半监督学习的无标注数据通过例如强化学习、GAN算法、置信学习来进行数据降噪,以获得增强样本。最后,计算设备110可以使用增强样本和针对该领域的标注数据作为复合训练样本来训练知识要素提取模型。
根据本公开的一个或多个实施例,当针对领域的数据同时包括针对该领域的标注数据和无标注数据时,计算设备110还可以通过针对无标注数据使用主动学习来训练知识要素提取模型。例如,计算设备110可以首先对无标注数据通过例如代表性和不确定性的自洽一致性来进行主动学习。之后,计算设备110可以基于知识图谱和领域词典,对经主动学习的无标注数据使用例如与知识图谱相关联的规则、与知识图谱相关联的模板和词典策略中的至少一项来进行标注。在这一标注过程中可以涉及模型伪标。而后,计算设备110可以对经标注的经主动学习的无标注数据进行例如通过用户的人工标注,以获得人工标注样本。最后,计算设备110可以使用人工标注样本和针对该领域的标注数据作为复合训练样本来训练知识要素提取模型。
此外,根据本公开的一个或多个实施例,计算设备110还可以基于知识图谱,使用针对领域的数据、迁移学习算法、词汇增强、文本增强和多特征融合中的至少一项以及附加数据来训练知识要素提取模型,其中附加数据例如可以包括以下至少一项:针对通用领域的无标注数据,针对不同领域的标注数据和针对所涉及的领域的、针对不同知识要素提取任务的标注数据。通过使用这些与所涉及的领域并非直接相关联的数据,计算设备110可以利用迁移学习算法来训练针对所涉及的领域的知识要素提取模型。根据本公开的实施例,迁移学习算法例如可以包括语言模型预训练、领域相关记忆网络、领域自适应和对抗迁移以及多任务共享机制等。
在框204,计算设备110使用经训练的知识要素提取模型,基于知识图谱,提取与领域相关联的知识要素。根据本公开的实施例,当在训练知识要素提取模型时同时基于由与领域相关联的知识词典所指示的知识要素的属性时,计算设备110使用经训练的知识要素提取模型,同时基于知识图谱和指示词典,提取与领域相关联的知识要素。
根据本公开的一个或多个实施例,在提取与领域相关联的知识要素时,计算设备110可以使用以下至少一项:与知识图谱相关联的规则、与知识图谱相关联的模板和词典策略。例如,计算设备110可以通过解析知识图谱来获得与知识图谱相关联的规则和与知识图谱相关联的模板,并且可以通过解析知识词典来获得与知识词典相关联的词典策略。根据本公开的实施例,与知识图谱相关联的规则、与知识图谱相关联的模板和词典策略可以分别以规则库、模板库和策略库的形式被体现。
因此,通过执行与框202和框204对应的步骤,可以提高知识要素提取的效率以及正确率,进而够提高用户体验。
图3示出了根据本公开一个或多个实施例的知识要素提取过程300的示意性框图。如图3中所示,知识要素提取过程300中涉及领域数据310,并且领域数据310包括领域标注数据311、领域无标注数据312、通用领域无标注数据313以及不同任务、领域标注数据314,分别对应于参照知识要素提取方法200所描述的针对领域的标注数据、针对领域的无标注数据、针对不同领域的标注数据和针对所涉及的领域的、针对不同知识要素提取任务的标注数据。
如图3中所示,从领域无标注数据312分别引向半监督学习320和主动学习330的箭头指示领域无标注数据312可以被直接用于半监督学习和主动学习。从知识图谱和领域词典370分别引向半监督学习320和主动学习330的箭头指示知识图谱和领域词典可以被用于辅助半监督学习和主动学习的进行。从领域标注数据311、半监督学习320和主动学习330引向训练样本340的箭头指示领域标注数据、半监督学习和主动学习可以被复合地共同用作训练样本。从领域无标注数据312、通用领域无标注数据313以及不同任务、领域标注数据314共同地引向迁移学习350的箭头指示领域无标注数据、通用领域无标注数据以及不同任务、领域标注数据这些与所涉及的领域并非直接相关联的数据可以被用于迁移学习。
继续参照图3,从领域标注数据311引向模型训练360的箭头,从迁移学习350引向模型训练360的箭头以及从训练样本340引向模型训练360指示领域标注数据311、领域无标注数据312、通用领域无标注数据313以及不同任务、领域标注数据314可以单独地或者组合地通过某些操作被用于训练知识要素提取模型。从知识图谱和领域词典370引向模型训练360的箭头指示知识图谱和领域词典可以被用于辅助训练知识要素提取模型。
进一步地,从模型训练360引向知识要素提取模型380的箭头指示通过模型训练可以得到经训练的知识要素提取模型。而从知识要素提取模型380引向知识要素提取390的箭头则指示可以利用经训练的知识要素提取模型来实现从针对领域的数据提取知识要素。从知识图谱和领域词典370引向知识要素提取390的箭头指示知识图谱和领域词典可以被用于辅助从针对领域的数据提取知识要素。
以上参考图1至图3描述了可以在其中实现本公开的实施例中的知识要素提取方法的知识要素提取环境100、根据本公开的实施例的知识要素提取方法200以及根据本公开的实施例的知识要素提取流程300的相关内容。应当理解,上述描述是为了更好地展示本公开中所记载的内容,而不是以任何方式进行限制。
应当理解,本公开的上述各个附图中所采用的各种元件的数目和物理量的大小仅为举例,而并不是对本公开的保护范围的限制。上述数目和大小可以根据需要而被任意设置,而不会对本公开的实施方式的正常实施产生影响。
上文已经参见图1至图3描述了根据本公开的实施方式的知识要素提取方法200和知识要素提取流程300的细节。在下文中,将参见图4描述知识要素提取装置中的各个模块。
图4是根据本公开实施例的知识要素提取装置400的示意性框图。如图4所示,知识要素提取装置400可以包括:模型训练模块410,被配置为使用针对领域的数据,基于与所述领域相关联的知识图谱,训练知识要素提取模型;以及知识要素提取模块420,被配置为使用经训练的所述知识要素提取模型,基于所述知识图谱,提取与所述领域相关联的知识要素。
在一个或多个实施例中,其中所述模型训练模块410包括:第一模型训练模块(未示出),被配置为使用针对所述领域的所述数据,基于与所述领域相关联的所述知识图谱和领域词典,训练所述知识要素提取模型。
在一个或多个实施例中,其中所述模型训练模块410包括:第二模型训练模块(未示出),被配置为基于所述知识图谱,使用以下至少一项,训练所述知识要素提取模型:词汇增强、文本增强和多特征融合。
在一个或多个实施例中,其中所述知识要素提取模块420包括:第一知识要素提取模块(未示出),被配置为使用经训练的所述知识要素提取模型,基于所述知识图谱和所述领域词典,提取与所述领域相关联的所述知识要素。
在一个或多个实施例中,其中所述第一知识要素提取模块包括:第二知识要素提取模块(未示出),被配置为基于所述知识图谱和所述领域词典,使用以下至少一项,提取与所述领域相关联的所述知识要素:与所述知识图谱相关联的规则、与所述知识图谱相关联的模板和词典策略。
在一个或多个实施例中,其中针对所述领域的所述数据包括针对所述领域的标注数据,并且其中所述第二模型训练模块包括:第三模型训练模块(未示出),被配置为使用小样本学习方法,训练所述知识要素提取模型。
在一个或多个实施例中,其中针对所述领域的所述数据还包括针对所述领域的无标注数据,并且其中所述第三模型训练模块包括:半监督学习模块(未示出),被配置为针对所述领域的所述数据进行半监督学习;样本增强模块(未示出),被配置为对经半监督学习的所述数据进行样本增强;数据降噪模块(未示出),被配置为对经样本增强的经半监督学习的所述数据进行数据降噪以获得增强样本;以及第四模型训练模块(未示出),被配置为使用所述增强样本来训练所述知识要素提取模型。
在一个或多个实施例中,其中针对所述领域的所述数据包括针对所述领域的无标注数据,并且其中所述第一模型训练模块包括:主动学习模块(未示出),被配置为针对所述领域的所述数据进行主动学习;标注模块(未示出),被配置为对经主动学习的所述数据,基于所述知识图谱和所述领域词典,使用以下至少一项进行标注:与所述知识图谱相关联的规则、与所述知识图谱相关联的模板和词典策略;人工标注模块(未示出),被配置为对经标注的经主动学习的所述数据进行人工标注以获得人工标注样本;以及第五模型训练模块(未示出),被配置为使用所述人工标注样本来训练所述知识要素提取模型。
在一个或多个实施例中,其中所述第五模型训练模块包括:第六模型训练模块(未示出),被配置为基于所述知识图谱,使用针对所述领域的所述数据,附加数据,迁移学习方法和以下至少一项,训练所述知识要素提取模型:词汇增强、文本增强和多特征融合。
在一个或多个实施例中,其中所述附加数据包括以下至少一项:针对通用领域的无标注数据,针对不同于所述领域的领域的标注数据和针对所述领域的、针对不同知识要素提取任务的标注数据。
根据本公开的实施例,本公开还提供了一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
通过以上参考图1至图4的描述,根据本公开的实施方式的技术方案相对于传统方案具有诸多优点。例如,利用上述技术方案,可以基在低资源场景下于知识图谱实现人机结合的知识要素提取。其针对不同的数据场景问题,充分利用不同策略方案的优点进行整合,形成一套完整的、有效的问题解决方案,从而使得可以从不同维度、不同数据情形解决复杂的行业领域低资源问题,不仅能够提高知识要素提取的效率以及正确率,也能够提高用户体验。
图5示出了根据本公开实施例的电子设备500的示意性框图。例如,如图1所示的计算设备110和如图4所示的知识要素提取装置400可以由电子设备500来实施。电子设备500旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备500还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,该电子设备500包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备500内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备500,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的知识要素提取方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的知识要素提取方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的知识要素提取方法对应的程序指令/模块(例如,图4所示的模型训练模块510和知识要素提取模块520)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的知识要素提取方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备500的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至电子设备500。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
电子设备500还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与电子设备500的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也被称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本公开实施例的技术方案,可以基在低资源场景下于知识图谱实现人机结合的知识要素提取。其针对不同的数据场景问题,充分利用不同策略方案的优点进行整合,形成一套完整的、有效的问题解决方案,从而使得可以从不同维度、不同数据情形解决复杂的行业领域低资源问题,不仅能够提高知识要素提取的效率以及正确率,也能够提高用户体验。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种知识要素提取方法,包括:
使用针对领域的数据,基于与所述领域相关联的知识图谱,训练知识要素提取模型,其中针对所述领域的所述数据包括自然语言文本数据,其中训练所述知识要素提取模型包括:
使用针对所述领域的所述数据,基于与所述领域相关联的所述知识图谱和领域词典,训练所述知识要素提取模型;以及
使用经训练的所述知识要素提取模型,基于所述知识图谱,提取与所述领域相关联的知识要素,其中提取与所述领域相关联的所述知识要素包括:
使用经训练的所述知识要素提取模型,基于所述知识图谱和所述领域词典,提取与所述领域相关联的所述知识要素。
2.根据权利要求1所述的方法,其中训练所述知识要素提取模型包括:
基于所述知识图谱,使用以下至少一项,训练所述知识要素提取模型:词汇增强、文本增强和多特征融合。
3.根据权利要求1所述的方法,其中提取与所述领域相关联的所述知识要素包括:
基于所述知识图谱和所述领域词典,使用以下至少一项,提取与所述领域相关联的所述知识要素:与所述知识图谱相关联的规则、与所述知识图谱相关联的模板和词典策略。
4.根据权利要求2所述的方法,其中针对所述领域的所述数据包括针对所述领域的标注数据,并且其中训练所述知识要素提取模型还包括:
使用小样本学习方法,训练所述知识要素提取模型。
5.根据权利要求4所述的方法,其中针对所述领域的所述数据还包括针对所述领域的无标注数据,并且其中训练所述知识要素提取模型包括:
针对所述领域的所述数据进行半监督学习;
对经半监督学习的所述数据进行样本增强;
对经样本增强的经半监督学习的所述数据进行数据降噪以获得增强样本;以及
使用所述增强样本来训练所述知识要素提取模型。
6.根据权利要求1所述的方法,其中针对所述领域的所述数据包括针对所述领域的无标注数据,并且其中训练所述知识要素提取模型包括:
针对所述领域的所述数据进行主动学习;
对经主动学习的所述数据,基于所述知识图谱和所述领域词典,使用以下至少一项进行标注:与所述知识图谱相关联的规则、与所述知识图谱相关联的模板和词典策略;
对经标注的经主动学习的所述数据进行人工标注以获得人工标注样本;以及
使用所述人工标注样本来训练所述知识要素提取模型。
7.根据权利要求6所述的方法,其中训练所述知识要素提取模型包括:
基于所述知识图谱,使用针对所述领域的所述数据,附加数据,迁移学习方法和以下至少一项,训练所述知识要素提取模型:词汇增强、文本增强和多特征融合。
8.根据权利要求7所述的方法,其中所述附加数据包括以下至少一项:针对通用领域的无标注数据,针对不同于所述领域的领域的标注数据和针对所述领域的、针对不同知识要素提取任务的标注数据。
9.一种知识要素提取装置,包括:
模型训练模块,被配置为使用针对领域的数据,基于与所述领域相关联的知识图谱,训练知识要素提取模型,其中针对所述领域的所述数据包括自然语言文本数据,其中所述模型训练模块包括:
第一模型训练模块,被配置为使用针对所述领域的所述数据,基于与所述领域相关联的所述知识图谱和领域词典,训练所述知识要素提取模型;以及
知识要素提取模块,被配置为使用经训练的所述知识要素提取模型,基于所述知识图谱,提取与所述领域相关联的知识要素,其中所述知识要素提取模块包括:
第一知识要素提取模块,被配置为使用经训练的所述知识要素提取模型,基于所述知识图谱和所述领域词典,提取与所述领域相关联的所述知识要素。
10.根据权利要求9所述的装置,其中所述模型训练模块包括:
第二模型训练模块,被配置为基于所述知识图谱,使用以下至少一项,训练所述知识要素提取模型:词汇增强、文本增强和多特征融合。
11.根据权利要求9所述的装置,其中所述第一知识要素提取模块包括:
第二知识要素提取模块,被配置为基于所述知识图谱和所述领域词典,使用以下至少一项,提取与所述领域相关联的所述知识要素:与所述知识图谱相关联的规则、与所述知识图谱相关联的模板和词典策略。
12.根据权利要求10所述的装置,其中针对所述领域的所述数据包括针对所述领域的标注数据,并且其中所述第二模型训练模块包括:
第三模型训练模块,被配置为使用小样本学习方法,训练所述知识要素提取模型。
13.根据权利要求12所述的装置,其中针对所述领域的所述数据还包括针对所述领域的无标注数据,并且其中所述第三模型训练模块包括:
半监督学习模块,被配置为针对所述领域的所述数据进行半监督学习;
样本增强模块,被配置为对经半监督学习的所述数据进行样本增强;
数据降噪模块,被配置为对经样本增强的经半监督学习的所述数据进行数据降噪以获得增强样本;以及
第四模型训练模块,被配置为使用所述增强样本来训练所述知识要素提取模型。
14.根据权利要求9所述的装置,其中针对所述领域的所述数据包括针对所述领域的无标注数据,并且其中所述第一模型训练模块包括:
主动学习模块,被配置为针对所述领域的所述数据进行主动学习;
标注模块,被配置为对经主动学习的所述数据,基于所述知识图谱和所述领域词典,使用以下至少一项进行标注:与所述知识图谱相关联的规则、与所述知识图谱相关联的模板和词典策略;
人工标注模块,被配置为对经标注的经主动学习的所述数据进行人工标注以获得人工标注样本;以及
第五模型训练模块,被配置为使用所述人工标注样本来训练所述知识要素提取模型。
15.根据权利要求14所述的装置,其中所述第五模型训练模块包括:
第六模型训练模块,被配置为基于所述知识图谱,使用针对所述领域的所述数据,附加数据,迁移学习方法和以下至少一项,训练所述知识要素提取模型:词汇增强、文本增强和多特征融合。
16.根据权利要求15所述的装置,其中所述附加数据包括以下至少一项:针对通用领域的无标注数据,针对不同于所述领域的领域的标注数据和针对所述领域的、针对不同知识要素提取任务的标注数据。
17. 一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时,执行权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011339563.5A CN112328749B (zh) | 2020-11-25 | 2020-11-25 | 知识要素提取方法、装置、电子设备、介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011339563.5A CN112328749B (zh) | 2020-11-25 | 2020-11-25 | 知识要素提取方法、装置、电子设备、介质和程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328749A CN112328749A (zh) | 2021-02-05 |
CN112328749B true CN112328749B (zh) | 2024-05-03 |
Family
ID=74308927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011339563.5A Active CN112328749B (zh) | 2020-11-25 | 2020-11-25 | 知识要素提取方法、装置、电子设备、介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328749B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221564B (zh) * | 2021-04-29 | 2024-03-01 | 北京百度网讯科技有限公司 | 训练实体识别模型的方法、装置、电子设备和存储介质 |
CN116384381A (zh) * | 2023-01-04 | 2023-07-04 | 深圳擎盾信息科技有限公司 | 一种基于知识图谱的自动化合同要素识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059196A (zh) * | 2019-04-12 | 2019-07-26 | 张晓红 | 一种医学健康领域知识图谱的关系抽取方法及系统 |
CN110457403A (zh) * | 2019-08-12 | 2019-11-15 | 南京星火技术有限公司 | 图网络决策系统、方法及知识图谱的构建方法 |
WO2020007224A1 (zh) * | 2018-07-06 | 2020-01-09 | 中兴通讯股份有限公司 | 知识图谱构建及智能应答方法、装置、设备及存储介质 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN111666419A (zh) * | 2020-05-27 | 2020-09-15 | 北京北大软件工程股份有限公司 | 法律数据的知识图谱构建方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10679144B2 (en) * | 2016-07-12 | 2020-06-09 | International Business Machines Corporation | Generating training data for machine learning |
-
2020
- 2020-11-25 CN CN202011339563.5A patent/CN112328749B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020007224A1 (zh) * | 2018-07-06 | 2020-01-09 | 中兴通讯股份有限公司 | 知识图谱构建及智能应答方法、装置、设备及存储介质 |
CN110059196A (zh) * | 2019-04-12 | 2019-07-26 | 张晓红 | 一种医学健康领域知识图谱的关系抽取方法及系统 |
CN110457403A (zh) * | 2019-08-12 | 2019-11-15 | 南京星火技术有限公司 | 图网络决策系统、方法及知识图谱的构建方法 |
CN111428054A (zh) * | 2020-04-14 | 2020-07-17 | 中国电子科技网络信息安全有限公司 | 一种网络空间安全领域知识图谱的构建与存储方法 |
CN111597803A (zh) * | 2020-05-14 | 2020-08-28 | 鼎富智能科技有限公司 | 一种要素提取方法、装置、电子设备及存储介质 |
CN111666419A (zh) * | 2020-05-27 | 2020-09-15 | 北京北大软件工程股份有限公司 | 法律数据的知识图谱构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112328749A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11625539B2 (en) | Extracting trigger words and arguments from text to obtain an event extraction result | |
EP3859562A2 (en) | Method, apparatus, electronic device, storage medium and computer program product for generating information | |
CN111144115B (zh) | 预训练语言模型获取方法、装置、电子设备和存储介质 | |
US20210201198A1 (en) | Method, electronic device, and storage medium for generating node representations in heterogeneous graph | |
CN112487814B (zh) | 实体分类模型训练方法、实体分类方法、装置及电子设备 | |
US20210397947A1 (en) | Method and apparatus for generating model for representing heterogeneous graph node | |
CN111104514B (zh) | 文档标签模型的训练方法及装置 | |
CN111079442B (zh) | 文档的向量化表示方法、装置和计算机设备 | |
CN112347769B (zh) | 实体识别模型的生成方法、装置、电子设备及存储介质 | |
CN111859982B (zh) | 语言模型的训练方法、装置、电子设备及可读存储介质 | |
CN111950291B (zh) | 语义表示模型的生成方法、装置、电子设备及存储介质 | |
US11361002B2 (en) | Method and apparatus for recognizing entity word, and storage medium | |
CN112507101B (zh) | 一种建立预训练语言模型的方法和装置 | |
CN112328749B (zh) | 知识要素提取方法、装置、电子设备、介质和程序产品 | |
CN112541359B (zh) | 文档内容识别方法、装置、电子设备及介质 | |
US20210334659A1 (en) | Method and apparatus for adversarial training of machine learning model, and medium | |
CN111581358B (zh) | 信息抽取方法、装置及电子设备 | |
CN110532487B (zh) | 标签的生成方法及装置 | |
CN111783998B (zh) | 一种违规账号识别模型训练方法、装置及电子设备 | |
CN113360751A (zh) | 意图识别方法、装置、设备和介质 | |
CN111241302B (zh) | 职位信息图谱生成方法、装置、设备和介质 | |
US20210192151A1 (en) | Method, apparatus, electronic device and readable storage medium for translation | |
CN112015866B (zh) | 用于生成同义文本的方法、装置、电子设备及存储介质 | |
CN111026916B (zh) | 文本描述的转换方法、装置、电子设备及存储介质 | |
CN111125445B (zh) | 社区主题生成方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |