CN114610894A - 一种基于篇章语境的多任务联合知识挖掘方法及装置 - Google Patents
一种基于篇章语境的多任务联合知识挖掘方法及装置 Download PDFInfo
- Publication number
- CN114610894A CN114610894A CN202210094662.4A CN202210094662A CN114610894A CN 114610894 A CN114610894 A CN 114610894A CN 202210094662 A CN202210094662 A CN 202210094662A CN 114610894 A CN114610894 A CN 114610894A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- text content
- mining
- context
- chapter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 211
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于篇章语境的多任务联合知识挖掘方法及装置。该方法包括:确定待分析的文本内容;将文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对文本内容中的知识点进行多任务联合知识挖掘,获得篇章知识挖掘模型输出的知识挖掘结果;篇章语境知识图谱是对应各个知识挖掘任务的知识图谱,包含文本内容中实体知识、实体关系及目标背景知识信息;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。本发明提供的方法,通过基于包含目标背景知识信息的篇章语境知识图谱构建的篇章知识挖掘模型,能够有效识别文本内容中知识点的关联性,从而提升了知识挖掘的精度。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及一种基于篇章语境的多任务联合知识挖掘方法及装置。另外,还涉及一种电子设备及处理器可读存储介质。
背景技术
大量人类知识通常是通过计算机以电子数据形式的文本将内容保存下来。机器如果能从这些文本中准确理解和挖掘结构化知识,可以大大改善机器阅读理解水平和自动构建知识图谱的能力。现有信息抽取技术通常利用实体名识别(Named Entity Recognition,NER)、指代消歧(co-reference resolution)、实体链接(entity linking)、关系抽取(relation extraction)等与知识挖掘任务相关的技术对文本里的知识点进行知识挖掘。但是,目前通过上述技术挖掘的知识点并没有被有效利用来相互帮助性能提升,且未考虑篇章外的关于这些实体的已有背景知识,导致知识挖掘的精度较差。因此,如何提供一种高精度的知识挖掘方案成为亟待解决的难题。
发明内容
为此,本发明提供一种基于篇章语境的多任务联合知识挖掘方法及装置,以解决现有技术中存在的知识挖掘方案局限性较高,从而导致知识挖掘精度较差的缺陷。
第一方面,本发明提供一种基于篇章语境的多任务联合知识挖掘方法,包括:确定待分析的文本内容;将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;其中,所述篇章语境知识图谱是对应各个知识挖掘任务的知识图谱,包含所述文本内容中实体知识、实体关系以及目标背景知识信息;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
进一步的,所述的基于篇章语境的多任务联合知识挖掘方法,还包括:基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果。
进一步的,基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果,具体包括:
对所述知识挖掘结果进行逻辑一致性检测,并将检测通过的实体知识加入到所述篇章语境知识图谱中,获得新的篇章语境知识图谱;
将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新,直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。
进一步的,所述确定待分析的文本内容,具体包括:
获得初始的文本内容,对所述初始的文本内容进行分段、断句以及分词处理,得到预处理后的所述待分析的文本内容。
进一步的,所述的基于篇章语境的多任务联合知识挖掘方法,还包括:
从所述文本内容中提取相应的实体知识和实体关系,基于所述实体知识和所述实体关系构建所述文本内容对应的知识图谱;
从外部知识图谱和所述文本内容中提取与所述文本内容中实体知识相对应的目标背景知识信息,并将所述目标背景知识信息加载到所述文本内容对应的知识图谱中得到篇章语境知识图谱,将所述篇章语境知识图谱输入到篇章知识挖掘模型,确定基于篇章语境知识图谱的篇章知识挖掘模型。
第二方面,本发明还提供一种基于篇章语境的多任务联合知识挖掘装置,包括:
文本预处理单元,用于确定待分析的文本内容;
知识挖掘单元,用于将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;其中,所述篇章语境知识图谱是用于各个知识挖掘任务的包含所述文本内容中实体知识、实体关系以及目标背景知识信息的知识图谱;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
进一步的,所述知识挖掘单元,还用于基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果。
进一步的,所述知识挖掘单元,具体用于:
对所述知识挖掘结果进行逻辑一致性检测,并将检测通过的实体知识加入到所述篇章语境知识图谱中,获得新的篇章语境知识图谱;
将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新,直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。
进一步的,所述文本预处理单元,具体用于:
获得初始的文本内容,对所述初始的文本内容进行分段、断句以及分词处理,得到预处理后的所述待分析的文本内容。
进一步的,所述的基于篇章语境的多任务联合知识挖掘装置,还包括:
篇章语境知识图谱构建单元,用于从所述文本内容中提取相应的实体知识和实体关系,基于所述实体知识和所述实体关系构建所述文本内容对应的知识图谱;
篇章知识挖掘模型构建单元,用于从外部知识图谱和所述文本内容中提取与所述文本内容中实体知识相对应的目标背景知识信息,并将所述目标背景知识信息加载到所述文本内容对应的知识图谱中得到篇章语境知识图谱,将所述篇章语境知识图谱输入到篇章知识挖掘模型,确定基于篇章语境知识图谱的篇章知识挖掘模型。
第三方面,本发明还提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上述任意一项所述的基于篇章语境的多任务联合知识挖掘方法的步骤。
第四方面,本发明还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述任意一项所述的基于篇章语境的多任务联合知识挖掘方法的步骤。
本发明提供的基于篇章语境的多任务联合知识挖掘方法,通过确定待分析的文本内容;将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得篇章知识挖掘模型输出的知识挖掘结果,能够有效识别文本内容中知识点的关联性,从而极大提升了知识挖掘的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。
图1是本发明实施例提供的基于篇章语境的多任务联合知识挖掘方法的流程示意图;
图2是本发明实施例提供的基于篇章语境的多任务联合知识挖掘方法的应用示意图;
图3是本发明实施例提供的基于篇章语境的多任务联合知识挖掘装置的结构示意图;
图4是本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。
下面基于本发明所述的基于篇章语境的多任务联合知识挖掘方法,对其实施例进行详细描述。如图1所示,其为本发明实施例提供的基于篇章语境的多任务联合知识挖掘方法的流程示意图,具体实现过程包括以下步骤:
步骤101:确定待分析的文本内容。
在本发明实施例中,首先需要获得初始的文本内容,该初始的文本内容可以是与医药领域化合物提取或者人物介绍相关的文章,在此不做具体限定。然后对所述初始的文本内容进行分段、断句以及分词等预处理,得到预处理后的所述待分析的文本内容。具体的,如图2所示,可通过预设的段落分流器模块(Paragraph Splitter)、句子分流器模块(Sentence Splitter)以及分词器模块(Tokenizer)等处理模块对初始的文本内容进行分段、断句及分词,以得到待分析的文本内容。
步骤102:将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果。
在本发明实施例中,执行本步骤之前,需要预先针对每一篇文本内容建立一个相应的篇章语境(Article Context),利用这个篇章语境作为各个知识挖掘任务的知识图谱。这个篇章语境可以把篇章外部知识库里的相关背景知识信息作为目标背景知识信息用来初始化,然后通过对文本内容的知识挖掘不断完善扩充这个篇章语境知识图谱,以确定基于篇章语境知识图谱的篇章知识挖掘模型(即高精度篇章级别知识挖掘引擎)。具体的,从所述文本内容中提取相应的实体知识和实体关系,基于所述实体知识和所述实体关系构建所述文本内容对应的知识图谱;从外部知识图谱和所述文本内容中提取与所述文本内容中实体知识相对应的目标背景知识信息,并将所述目标背景知识信息加载到所述文本内容对应的知识图谱中得到篇章语境知识图谱,将所述篇章语境知识图谱输入到篇章知识挖掘模型。其中,所述实体知识可以是指文本内容中人物、医药名称、组织机构、概念等实体,所述实体关系是指文本内容中人物、医药名称、组织机构、概念等实体之间的关系。所述将目标背景知识信息加载到所述文本内容对应的知识图谱中得到篇章语境知识图谱,具体可以是将所述文本内容中实体知识相对应的目标背景知识信息加载到所述文本内容对应的所述知识图谱,形成相应的所述知识图谱的边和节点,以得到所述篇章语境知识图谱。其中,所述的目标背景知识信息是指上述实体知识对应的与自身相关联的属性信息,比如人物的职位信息、所属单位信息等。所述基于篇章语境知识图谱的篇章知识挖掘模型为预训练的传统知识挖掘引擎与所述篇章语境知识图谱相结合得到的高精度篇章级别知识挖掘引擎,即将篇章语境知识图谱中目标背景知识信息包含的特征信息输入到预训练的传统知识挖掘引擎中形成的知识挖掘引擎。
在本步骤中,可将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内基于包含目标背景知识信息的篇章语境知识图谱对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果。其中,所述篇章语境知识图谱是对应各个知识挖掘任务的篇章级别的知识图谱,包含所述文本内容中实体知识、实体关系以及目标背景知识信息;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的特征知识信息。通过将目标背景知识信息中记载的特征信息加入到多任务联合知识挖掘过程中,实现篇章级别的知识挖掘。
需要说明的是,所述目标背景知识信息的来源包括:实体知识所在句子中的背景知识信息、所述文本内容中除实体知识所在句子之外句子内容中的背景知识信息以及从外部知识图谱中获取的背景知识信息,在此不做具体限定。该背景知识信息具体可通过现有技术中的实体链接(Entity Linking)方法来确定的实体知识对应的实体的场景,从而解决现有方案机器的缺陷。
进一步的,为了得到精度更高的知识挖掘结果,可基于所述知识挖掘结果对所述篇章语境知识图谱进行进一步的迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果。具体的,基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果。对应的实现过程包括:对所述知识挖掘结果进行逻辑一致性检测,并将检测通过的实体知识加入到所述篇章语境知识图谱中,获得新的篇章语境知识图谱;将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新,直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。该迭代更新过程可以多次迭代,通过多次迭代能够融会贯通更多的知识点,发现更多看似孤立知识点的关联性,具体表现为每一次迭代都会产生更多实体知识的链接,从而实现同一篇文本内容中的不同知识挖掘任务通过迭代挖掘到的知识挖掘结果联系起来,以避免不同知识挖掘任务间(实体名识别、实体链接、关系抽取、指代消歧等)的协作不足。最终输出的知识挖掘结果中包含通过多次迭代更新之后获得的篇章语境知识图谱。
在实际实施过程中,所述篇章级别知识挖掘引擎可以将文本内容中提到的实体属性和关系挖掘出来形成一个篇章知识图谱。比如,利用该篇章级别知识挖掘来理解每一篇百科文本,来自动形成相应的篇章知识图谱,构造篇章语境带来精度提升的原因是可以把文本内容中每一句文字对应目标背景知识信息,从文本内容外面的知识库链接中获取的实体知识或文本内容里面其他句子里获取的实体知识,加入到模型输入信息里,以决策判断输出,从而提升知识挖掘的精度。
如图2所示,在一个完整实施例中,对于一篇逻辑通顺的文本内容,将该文本内容用作为初始的文本内容,用预设的处理模块对该文本内容进行分段、断句以及分词等预处理,同时将与该文本内容相关的目标背景知识信息从外部知识库或者文本内容获取并加载到这篇文本内容的篇章语境知识图谱里。然后基于这个篇章语境知识图谱和预处理好的文本内容作为输入,基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行分块处理(NP Chunking),命名实体识别(Named Entity Recognition,NER),实体链接(Entity Linking),指代消歧(Co-reference Resolution),事实抽取(FactExtraction),关系抽取(Relation Extraction)等多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果,并根据预设的异常检测规则对所述知识挖掘结果进行逻辑一致性检测(Consisitency Checking)及联合推理(Joint Inference),以剔除不符合要求的异常样本,并把通过检测的实体知识再次加入到篇章语境知识图谱中去得到新的篇章语境知识图谱。然后基于该新的篇章语境知识图谱和文本内容作为输入,即将文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对该文本内容中的知识点再次进行多任务联合知识挖掘和迭代。一直迭代重复,直至不能从所述文本内容中挖掘出新的知识点。其中,命名实体识别也称为实体识别、实体分块和实体提取,是知识挖掘的一个子任务,旨在将文本内容中的命名实体定位并分类为预先定义的类别,如人员、组织、位置、时间表达式、数量等。实体链接也称为实体链指,是一种知识挖掘任务,其要求将非结构化数据中的表示实体的词语(即所谓mention,对某个实体的指称项)识别出来。指代消歧是自然语言处理中的一个基本任务,目的在于自动识别表示同一个实体的名词短语或代词,并将他们归类。
采用本发明实施例所述的基于篇章语境的多任务联合知识挖掘方法,通过确定待分析的文本内容;将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得篇章知识挖掘模型输出的知识挖掘结果,能够有效识别文本内容中知识点的关联性,从而极大提升了知识挖掘的精度。
与上述提供的一种基于篇章语境的多任务联合知识挖掘方法相对应,本发明还提供一种基于篇章语境的多任务联合知识挖掘装置。由于该装置的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的基于篇章语境的多任务联合知识挖掘装置的实施例仅是示意性的。请参考图3所示,其为本发明实施例提供的一种基于篇章语境的多任务联合知识挖掘装置的结构示意图。
本发明所述的基于篇章语境的多任务联合知识挖掘装置,具体包括如下部分:
文本预处理单元301,用于确定待分析的文本内容;
知识挖掘单元302,用于将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;其中,所述篇章语境知识图谱是用于各个知识挖掘任务的包含所述文本内容中实体知识、实体关系以及目标背景知识信息的知识图谱;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
进一步的,所述知识挖掘单元,还用于基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果。
进一步的,所述知识挖掘单元,具体用于:
对所述知识挖掘结果进行逻辑一致性检测,并将检测通过的实体知识加入到所述篇章语境知识图谱中,获得新的篇章语境知识图谱;
将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新,直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。
进一步的,所述文本预处理单元,具体用于:
获得初始的文本内容,对所述初始的文本内容进行分段、断句以及分词处理,得到预处理后的所述待分析的文本内容。
进一步的,所述的基于篇章语境的多任务联合知识挖掘装置,还包括:
篇章语境知识图谱构建单元,用于从所述文本内容中提取相应的实体知识和实体关系,基于所述实体知识和所述实体关系构建所述文本内容对应的知识图谱;
篇章知识挖掘模型构建单元,用于从外部知识图谱和所述文本内容中提取与所述文本内容中实体知识相对应的目标背景知识信息,并将所述目标背景知识信息加载到所述文本内容对应的知识图谱中得到篇章语境知识图谱,将所述篇章语境知识图谱输入到篇章知识挖掘模型,确定基于篇章语境知识图谱的篇章知识挖掘模型。
采用本发明实施例所述的基于篇章语境的多任务联合知识挖掘装置,通过确定待分析的文本内容;将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得篇章知识挖掘模型输出的知识挖掘结果,能够有效识别文本内容中知识点的关联性,从而极大提升了知识挖掘的精度。
与上述提供的基于篇章语境的多任务联合知识挖掘方法相对应,本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例,所以描述得比较简单,相关之处请参见上述方法实施例部分的说明即可,下面描述的电子设备仅是示意性的。如图4所示,其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括:处理器(processor)401、存储器(memory)402和通信总线403,其中,处理器401,存储器402通过通信总线403完成相互间的通信,通过通信接口404与外部进行通信。处理器401可以调用存储器402中的逻辑指令,以执行基于篇章语境的多任务联合知识挖掘方法,该方法包括:确定待分析的文本内容;将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;其中,所述篇章语境知识图谱是对应各个知识挖掘任务的知识图谱,包含所述文本内容中实体知识、实体关系以及目标背景知识信息;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
此外,上述的存储器402中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:存储芯片、U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的基于篇章语境的多任务联合知识挖掘方法。该方法包括:确定待分析的文本内容;将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;其中,所述篇章语境知识图谱是对应各个知识挖掘任务的知识图谱,包含所述文本内容中实体知识、实体关系以及目标背景知识信息;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
又一方面,本发明实施例还提供一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于篇章语境的多任务联合知识挖掘方法。该方法包括:确定待分析的文本内容;将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;其中,所述篇章语境知识图谱是对应各个知识挖掘任务的知识图谱,包含所述文本内容中实体知识、实体关系以及目标背景知识信息;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于篇章语境的多任务联合知识挖掘方法,其特征在于,包括:
确定待分析的文本内容;
将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;
其中,所述篇章语境知识图谱是对应各个知识挖掘任务的知识图谱,包含所述文本内容中实体知识、实体关系以及目标背景知识信息;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
2.根据权利要求1所述的基于篇章语境的多任务联合知识挖掘方法,其特征在于,还包括:基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果。
3.根据权利要求2所述的基于篇章语境的多任务联合知识挖掘方法,其特征在于,基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果,具体包括:
对所述知识挖掘结果进行逻辑一致性检测,并将检测通过的实体知识加入到所述篇章语境知识图谱中,获得新的篇章语境知识图谱;
将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新,直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。
4.根据权利要求1所述的基于篇章语境的多任务联合知识挖掘方法,其特征在于,所述确定待分析的文本内容,具体包括:
获得初始的文本内容,对所述初始的文本内容进行分段、断句以及分词处理,得到预处理后的所述待分析的文本内容。
5.根据权利要求1所述的基于篇章语境的多任务联合知识挖掘方法,其特征在于,还包括:
从所述文本内容中提取相应的实体知识和实体关系,基于所述实体知识和所述实体关系构建所述文本内容对应的知识图谱;
从外部知识图谱和所述文本内容中提取与所述文本内容中实体知识相对应的目标背景知识信息,并将所述目标背景知识信息加载到所述文本内容对应的知识图谱中得到篇章语境知识图谱,将所述篇章语境知识图谱输入到篇章知识挖掘模型,确定基于篇章语境知识图谱的篇章知识挖掘模型。
6.一种基于篇章语境的多任务联合知识挖掘装置,其特征在于,包括:
文本预处理单元,用于确定待分析的文本内容;
知识挖掘单元,用于将所述文本内容输入到基于篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行多任务联合知识挖掘,获得所述篇章知识挖掘模型输出的知识挖掘结果;其中,所述篇章语境知识图谱是用于各个知识挖掘任务的包含所述文本内容中实体知识、实体关系以及目标背景知识信息的知识图谱;所述目标背景知识信息是从外部知识图谱和所述文本内容中提取的与所述文本内容中实体知识相对应的背景知识信息。
7.根据权利要求6所述的基于篇章语境的多任务联合知识挖掘装置,其特征在于,所述知识挖掘单元,还用于基于所述知识挖掘结果对所述篇章语境知识图谱进行迭代更新,以实现针对所述文本内容产生更多实体知识的链接,得到满足预设条件的知识挖掘结果。
8.根据权利要求7所述的基于篇章语境的多任务联合知识挖掘装置,其特征在于,所述知识挖掘单元,具体用于:
对所述知识挖掘结果进行逻辑一致性检测,并将检测通过的实体知识加入到所述篇章语境知识图谱中,获得新的篇章语境知识图谱;
将所述文本内容输入到基于新的篇章语境知识图谱的篇章知识挖掘模型内对所述文本内容中的知识点进行下一轮的多任务联合知识挖掘和迭代更新,直至不能挖掘出新的知识点时输出满足预设条件的知识挖掘结果。
9.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述的基于篇章语境的多任务联合知识挖掘方法的步骤。
10.一种处理器可读存储介质,所述处理器可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述的基于篇章语境的多任务联合知识挖掘方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210094662.4A CN114610894A (zh) | 2022-01-26 | 2022-01-26 | 一种基于篇章语境的多任务联合知识挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210094662.4A CN114610894A (zh) | 2022-01-26 | 2022-01-26 | 一种基于篇章语境的多任务联合知识挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114610894A true CN114610894A (zh) | 2022-06-10 |
Family
ID=81859321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210094662.4A Pending CN114610894A (zh) | 2022-01-26 | 2022-01-26 | 一种基于篇章语境的多任务联合知识挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610894A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115688920A (zh) * | 2022-11-22 | 2023-02-03 | 百度国际科技(深圳)有限公司 | 知识抽取方法、模型的训练方法、装置、设备和介质 |
CN117521658A (zh) * | 2024-01-03 | 2024-02-06 | 安徽思高智能科技有限公司 | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 |
-
2022
- 2022-01-26 CN CN202210094662.4A patent/CN114610894A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115688920A (zh) * | 2022-11-22 | 2023-02-03 | 百度国际科技(深圳)有限公司 | 知识抽取方法、模型的训练方法、装置、设备和介质 |
CN115688920B (zh) * | 2022-11-22 | 2023-08-25 | 百度国际科技(深圳)有限公司 | 知识抽取方法、模型的训练方法、装置、设备和介质 |
CN117521658A (zh) * | 2024-01-03 | 2024-02-06 | 安徽思高智能科技有限公司 | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 |
CN117521658B (zh) * | 2024-01-03 | 2024-03-26 | 安徽思高智能科技有限公司 | 一种基于篇章级事件抽取的rpa流程挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11221832B2 (en) | Pruning engine | |
EP2664997B1 (en) | System and method for resolving named entity coreference | |
CN109635298B (zh) | 团体状态识别方法、装置、计算机设备及存储介质 | |
TW202020691A (zh) | 特徵詞的確定方法、裝置和伺服器 | |
CN114610894A (zh) | 一种基于篇章语境的多任务联合知识挖掘方法及装置 | |
EP4322009A1 (en) | Test case generation method, apparatus and device | |
EP3748507B1 (en) | Automated software testing | |
CN113609261B (zh) | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
CN111507086A (zh) | 本地化应用程序中翻译文本位置的自动发现 | |
CN114186019A (zh) | 结合rpa和ai的企业项目的审核方法及装置 | |
CN113986864A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
CN110825840B (zh) | 词库扩充方法、装置、设备及存储介质 | |
CN110738056A (zh) | 用于生成信息的方法和装置 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN116150394A (zh) | 用于知识图谱的知识抽取方法、装置、存储介质和设备 | |
US11605006B2 (en) | Deep-learning model catalog creation | |
US20210133394A1 (en) | Experiential parser | |
CN111177378B (zh) | 一种文本挖掘方法、装置及电子设备 | |
JP2020123134A (ja) | 抽出方法,情報処理装置および抽出プログラム | |
CN116028498B (zh) | 质量检验表单存储方法、装置、电子设备和介质 | |
CN113535942B (zh) | 一种文本摘要生成方法、装置、设备及介质 | |
JP3783053B2 (ja) | 負の例予測処理方法、処理プログラムおよび処理装置、負の例予測処理を用いた日本語表記誤り検出処理プログラムおよび処理装置、ならびに負の例予測処理を用いた外の関係検出処理プログラムおよび処理装置 | |
CN116050417A (zh) | 文本数据的处理方法、装置以及电子设备 | |
CN115964509A (zh) | 知识图谱的信息补全方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |