CN109241289A - 实体信息图谱扩充方法及装置 - Google Patents

实体信息图谱扩充方法及装置 Download PDF

Info

Publication number
CN109241289A
CN109241289A CN201710537951.6A CN201710537951A CN109241289A CN 109241289 A CN109241289 A CN 109241289A CN 201710537951 A CN201710537951 A CN 201710537951A CN 109241289 A CN109241289 A CN 109241289A
Authority
CN
China
Prior art keywords
instance information
atlas
information atlas
entity
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710537951.6A
Other languages
English (en)
Inventor
曾祥辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710537951.6A priority Critical patent/CN109241289A/zh
Publication of CN109241289A publication Critical patent/CN109241289A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种实体信息图谱扩充方法及装置。其中,该方法包括:获取预先创建的第一实体信息图谱;对预定文书进行语义分析,获得语义分析结果;基于获得的语义分析结果构建第二实体信息图谱;将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果;基于校验结果对第一实体信息图谱进行扩充。本发明解决了相关技术中实体信息图谱的构建效率低的技术问题。

Description

实体信息图谱扩充方法及装置
技术领域
本发明涉及自然语言领域,具体而言,涉及一种实体信息图谱扩充方法及装置。
背景技术
在大数据时代,各行各业都在致力于大数据的挖掘与分析,然而大量的文本数据需要结构化后才能更好地应用于大数据分析。以司法领域为例,千万级的文书、网页信息都需要结构化,并与实体关联。目前主要通过人工或者规则来实现维度抽取,费时费力且效果一般。
针对上述相关技术中实体信息图谱的构建效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种实体信息图谱扩充方法及装置,以至少解决相关技术中实体信息图谱的构建效率低的技术问题。
根据本发明实施例的一个方面,提供了一种实体信息图谱扩充方法,包括:获取预先构建的第一实体信息图谱,其中,第一实体信息图谱包括对先例文书进行语义分析后获得的语义角色以及语义依存关系;对预定文书进行语义分析,获得语义分析结果;基于获得的语义分析结果构建第二实体信息图谱;将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果;基于校验结果对第一实体信息图谱进行扩充。
可选地,对预定文书进行语义分析,获得语义分析结果包括:对预定文书进行分句处理,得到预定文书中的各个句子;对各个句子的语义角色以及语义关系进行标注,获得包括指代实体的词的语义分析结果。
可选地,基于获得的语义分析结果构建第二实体信息图谱包括:根据语义分析结果中词与实体的指向关系,形成句子之间的关联关系;基于关联关系构建第二实体信息图谱。
可选地,将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果包括:将第一实体信息图谱与第二实体信息图谱进行比对操作;基于比对操作获得校验结果。
可选地,基于校验结果对第一实体信息图谱进行扩充包括:在校验结果是第一实体信息图谱与第二实体信息图谱不一致的情况下,获得第一实体信息图谱与第二实体信息图谱的区别实体;将区别实体扩充到第一实体信息图谱中。
根据本发明实施例的另外一个方面,还提供了一种实体信息图谱扩充装置,包括:第一获取单元,用于获取预先构建的第一实体信息图谱,其中,第一实体信息图谱包括对先例文书进行语义分析后获得的语义角色以及语义依存关系;第二获取单元,用于对预定文书进行语义分析,获得语义分析结果;构建单元,用于基于获得的语义分析结果构建第二实体信息图谱;校验单元,用于将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果;扩充单元,用于基于校验结果对第一实体信息图谱进行扩充。
可选地,第二获取单元包括:第一获取模块,用于对预定文书进行分句处理,得到预定文书中的各个句子;标注模块,用于对各个句子的语义角色以及语义关系进行标注,获得包括指代实体的词的语义分析结果。
可选地,构建单元包括:第一构建模块,用于根据语义分析结果中词与实体的指向关系,形成句子之间的关联关系;第二构建模块,用于基于关联关系构建第二实体信息图谱。
可选地,校验单元包括:比对模块,用于将第一实体信息图谱与第二实体信息图谱进行比对操作;第二获取模块,用于基于比对操作获得校验结果。
可选地,扩充单元包括:第三获取模块,用于在校验结果是第一实体信息图谱与第二实体信息图谱不一致的情况下,获得第一实体信息图谱与第二实体信息图谱的区别实体;扩充模块,用于将区别实体扩充到第一实体信息图谱中。
根据本发明实施例的另外一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的实体信息图谱扩充方法。
根据本发明实施例的另外一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的实体信息图谱扩充方法。
在本发明实施例中,可以实现通过获取预先构建的第一实体信息图谱,对预定文书进行语义分析,从而获得语义分析结果,基于获得的语义分析结果构建第二实体信息图谱,进而将第一实体信息图谱和第二实体信息图谱进行一致性校验,并得到校验结果,基于校验结果对第一实体信息图谱进行扩充,从而有效减少了相关技术中对实体信息图谱采用人工扩充的方法对人力以及时间的成本的耗费,解决了相关技术中实体信息图谱的构建效率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的实体信息图谱扩充方法的流程图;
图2是根据本发明实施例的可选的实体信息图谱扩充方法的流程图;
图3是根据本发明实施例的实体信息图谱扩充装置的示意图;
图4是根据本发明实施例的实体信息图谱扩充装置中第二获取单元33的优选示意图;
图5是根据本发明实施例的实体信息图谱扩充装置中构建单元35的优选示意图;
图6是根据本发明实施例的实体信息图谱扩充装置中校验单元37的优选示意图;以及
图7是根据本发明实施例的实体信息图谱扩充装置中扩充单元39的优选示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
论元:是指和谓语搭配的名词。
知识图谱:也称科学知识图谱,它通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法以及计量学引文分析、共现分析等方法的结合,并利用可视化的图谱形象地展现科学的核心结构、发展历史、前沿领域以及整体知识框架达到多学科融合目的的现代理论。
语言技术平台(Language Technology Platform,简称LTP):制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自低向上的丰富、高效、高精度的中文自然语言处理模块、应用程序接口、可视化工具以及能够以网络服务使用的语言技术云。
针对上述问题,本发明实施例采用获取初始化后的第一实体信息图谱,然后对预定文书进行语义分析,获得语义分析结果,再基于获得的语义分析结果构建第二实体信息图谱,并将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果,基于校验结果对第一实体信息图谱进行扩充,从而有效减少了相关技术中对实体信息图谱采用人工扩充的方法对人力以及时间的成本的耗费。下面进行详细说明。
根据本发明实施例,提供了一种实体信息图谱扩充方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的实体信息图谱扩充方法的流程图,如图1所示,该实体信息图谱扩充方法包括如下步骤:
步骤S102,获取预先构建的第一实体信息图谱,其中,第一实体信息图谱包括对先例文书进行语义分析后获得的语义角色以及语义依存关系。
其中,对第一实体信息图谱进行预先构建,可以采用人工梳理以及基于一些规则对现有的先例文书进行挖掘,进而构建司法领域的实体信息图谱,具体地,实体信息可以是法律信息、法院信息以及公司机构信息等,其中,这里的先例文书可以是多个。
步骤S104,对预定文书进行语义分析,获得语义分析结果。需要说明的是,此处的语义分析为一种对句子中的语义角色进行标注,以及对句子中的各个语言单位之间的关系进行分析的语言处理技术。例如,对于一个句子“三十四岁的王某以提交起诉状的方式状告四十岁的李某”进行语义分析时,对句子中的语义角色进行标注时,将“王某”标注为原告,将“李某”标注为被告,句子中的语言单位中,作为原告的“王某”与作为被告的“李某”之间的语义关联即是:“王某”告“李某”。
步骤S106,基于获得的语义分析结果构建第二实体信息图谱。
步骤S108,将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果。
步骤S110,基于校验结果对第一实体信息图谱进行扩充。
通过上述步骤,可以实现通过获取初始化后的第一实体信息图谱,对预定文书进行语义分析,从而获得语义分析结果,基于获得的语义分析结果构建第二实体信息图谱,进而将第一实体信息图谱和第二实体信息图谱进行一致性校验,并得到校验结果,基于校验结果对第一实体信息图谱进行扩充,从而有效减少了相关技术中对实体信息图谱采用人工扩充的方法对人力以及时间的成本的耗费,解决了相关技术中实体信息图谱的构建效率低的技术问题。
其中,语义分析是自然语言处理技术的一种,语义分析平台有语言技术平台(Language Technology Platform,简称LTP)等,主要包括句子中的语义角色标注以及语义依存分析,具体地,是分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现,从而使用语义依存刻画句子语义,其优势在于不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,由于论元的数目相对词汇来说在数量上少了许多,所以可以减少语义分析的工作量。其次,语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。其中,知识图谱实质上是一种语义网络,用于表现各词语或者概念之间的语义关系,本发明实施例中提供的扩充方法是将语义分析与知识图谱结合起来,在对预定文书进行语义分析之后,获取各个实体信息,利用这些实体信息填充知识图谱,从而对本发明实施例的实体信息图谱进行扩充。
在上述步骤S102至步骤S108中,通过将预先构建的第一实体信息图谱与基于语义分析结果构建的第二实体信息图谱进行一致性校验,根据校验结果对第一实体信息图谱进行扩充,取代了相关技术中对实体信息图谱进行扩充过程中采用人工的方式,有效地提高了实体信息图谱的扩充效率,提升了用户体验。
为了使获取的语义分析结果中各个句子之间的语义角色以及语义关系更加明确,对预定文书进行语义分析,获得语义分析结果可以包括:对预定文书进行分句处理,得到预定文书中的各个句子;对各个句子的语义角色以及语义关系进行标注,获得包括指代实体的词的语义分析结果。从而可以使用语义依存刻画句子语义,不再需要抽象词语本身,也即是,通过词汇所承受的语义框架来描述词汇,进而论元的数目相对词汇来讲数量减少了很多,从而也就减少了实体信息图谱构建的复杂度。
另外,基于获得的语义分析结果构建第二实体信息图谱可以包括:根据语义分析结果中词与实体的指向关系,形成句子之间的关联关系;基于关联关系构建第二实体信息图谱。具体地,可以将判决文书通过一些规则(例如,机器提取)或者是已有的解析程序解析出基本的实体信息,例如,原告、被告等;进而在第一实体信息谱图的辅助下,利用语义分析技术对分句处理得到的句子进行语义角色以及语义依存关系的标注,将分句处理后得到的句子中出现的指代同一实体或是相同概念的词语指向同一个实体,形成句子之间的关联,从而将整个文书中的实体信息形成一张实体信息图谱,也即是,本申请实施例中的第二实体信息图谱。例如,对于预定文书中的一段话:在2016年6月30日,张三由于在公共场合破坏公共财物被拘留,那么对这对话进行分句后得到的各个词语,其中,“破坏公共财物”是属于刑事案件,那么就会将“破坏公共财物”指向实体“刑事案件”,对于预定文书中的一段话:张某与李某由于合同纠纷发生冲突,张某以提交起诉状的方式状告李某违反合同,则可以将“张某”指向实体“原告”,“李某”指向“被告”,“合同纠纷”指向实体“民事案件”,从而形成句子之间的关联关系。进而将整个文书中的实体信息形成一张实体信息图谱(本申请中的第二实体信息图谱)。
为了确定第一实体信息图谱和第二实体信息图谱之间的区别,将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果可以包括:将第一实体信息图谱与第二实体信息图谱进行比对操作;基于比对操作获得校验结果。
为了实现对第一实体信息图谱进行扩充,基于校验结果对第一实体信息图谱进行扩充可以包括:在校验结果是第一实体信息图谱与第二实体信息图谱不一致的情况下,获得第一实体信息图谱与第二实体信息图谱的区别实体;将区别实体扩充到第一实体信息图谱中。具体地,将第一实体信息图谱的实体信息与第二实体信息图谱中的实体信息进行对比,判断第二实体信息图谱中的实体信息是否在第一实体信息图谱中出现,在判断结果是第二实体信息图谱中的实体信息在第一实体信息图谱中没有出现的情况下,也即是,在校验结果是第一实体信息图谱与第二实体信息图谱不一致的情况下,还需要对校验结果的正确性进行判断,用来避免在第二实体信息图谱构建的过程中,对预定文书进行语义分析过程中出现的错误的情况,可以通过设定一个预定的阈值,将上述在第二实体信息图谱中的实体信息在第一实体信息图谱中没有出现的个数统计出来,将统计结果与预定的阈值进行比较,在统计结果没有超过预定的阈值的情况下,可以认为校验结果正确,其中,在校验结果为正确的情况下,获取第一实体信息图谱与第二实体信息图谱之间的区别实体,并将区别实体添加到第一实体信息图谱中,从而实现对第一实体信息图谱的扩充;另外,将统计结果与预定的阈值进行比较,在统计结果超过预定的阈值的情况下,则认为校验结果不正确,在校验结果是不正确的情况下,重新对上述语义分析结果进行校正,也即是,对预定文书再次进行语义分析。通过这种校验方式可以方便快捷地判断出一致性校验的正确性。
下面结合附图对本申请一个完整的实施例进行详细说明。
图2是根据本发明实施例的可选的实体信息图谱扩充方法的流程图,如图2所示,基于规则、已有资料以及人工梳理的方式对第一实体信息图谱进行初始化,并对预定文书进行分句处理得出各个句子,也即是,解析出各个事实段,采用LTP进行语义分析,具体地,进行实体识别,语义角色以及语义依存关系标注,将分句结果中的各个句子中相同的词语指向同一个实体,形成句子之间的关联关系,进而构建第二实体信息图谱,然后将第一实体信息图谱与第二实体信息图谱进行比较,基于比较结果对第二实体信息进行扩充。
本申请实施例还提供了一种实体信息图谱扩充装置,需要说明的是,本申请实施例的实体信息图谱扩充装置可以用于执行本申请实施例所提供的用于实体信息图谱扩充方法。以下对本申请实施例提供的实体信息图谱扩充装置进行介绍。
图3是根据本发明实施例的实体信息图谱扩充装置的示意图,如图3所示,该实体信息图谱扩充装置包括:第一获取单元31、第二获取单元33、构建单元35、校验单元37以及扩充单元39,下面进行详细说明。
第一获取单元31,用于获取预先构建的第一实体信息图谱,其中,第一实体信息图谱包括对先例文书进行语义分析后获得的语义角色以及语义依存关系。
第二获取单元33,用于对预定文书进行语义分析,获得语义分析结果。
构建单元35,用于基于获得的语义分析结果构建第二实体信息图谱。
校验单元37,用于将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果。
扩充单元39,用于基于校验结果对第一实体信息图谱进行扩充。
在本发明实施例提供的实体信息图谱扩充装置中,通过第一获取单元31,用于获取初始化后的第一实体信息图谱,其中,第一实体信息图谱包括对先例文书进行语义分析后获得的语义角色以及语义依存关系;第二获取单元33,用于对预定文书进行语义分析,获得语义分析结果;构建单元35,用于基于获得的语义分析结果构建第二实体信息图谱;校验单元37,用于将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果;扩充单元39,用于基于校验结果对第一实体信息图谱进行扩充。从而有效减少了相关技术中对实体信息图谱采用人工扩充的方法对人力以及时间的成本的耗费,解决了相关技术中实体信息图谱的构建效率低的技术问题。
图4是根据本发明实施例的实体信息图谱扩充装置中第二获取单元33的优选示意图。如图4所示,该第二获取单元33包括:第一获取模块41,用于对预定文书进行分句处理,得到预定文书中的各个句子;标注模块43,与上述第一获取模块41连接,用于对各个句子的语义角色以及语义关系进行标注,获得包括指代实体的词的语义分析结果。
图5是根据本发明实施例的实体信息图谱扩充装置中构建单元35的优选示意图。如图5所示,该构建单元35包括:第一构建模块51,用于根据语义分析结果中词与实体的指向关系,形成句子之间的关联关系;第二构建模块53,与上述第一构建模块51连接,用于基于关联关系构建第二实体信息图谱。
图6是根据本发明实施例的实体信息图谱扩充装置中校验单元37的优选示意图。如图6所示,该校验单元37包括:比对模块61,用于将第一实体信息图谱与第二实体信息图谱进行比对操作;第二获取模块63,与上述比对模块61连接,用于基于比对操作获得校验结果。
图7是根据本发明实施例的实体信息图谱扩充装置中扩充单元39的优选示意图。如图7所示,该扩充单元39包括:第三获取模块71,用于在校验结果是第一实体信息图谱与第二实体信息图谱不一致的情况下,获得第一实体信息图谱与第二实体信息图谱的区别实体;扩充模块73,与上述第三获取模块71连接,用于将区别实体扩充到第一实体信息图谱中。
根据本发明实施例的另外一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一项的实体信息图谱扩充方法。
根据本发明实施例的另外一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的实体信息图谱扩充方法。
上述实体信息图谱扩充装置包括处理器和存储器,上述第一获取单元31、第二获取单元33、构建单元35、校验单元37、扩充单元39、第一获取模块41、标注模块43、第一构建模块51以及第二构建模块53等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。上述预设条件都可以存储在存储器中。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数对实体信息图谱进行扩充。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取预先构建的第一实体信息图谱,其中,所述第一实体信息图谱包括从先例文书中提取的多个实体;对预定文书进行语义分析,获得语义分析结果,其中,所述预定文书为除所述先例文书外的文书;基于获得的语义分析结果构建第二实体信息图谱;将第一实体信息图谱和第二实体信息图谱进行一致性校验,得到校验结果;基于校验结果对第一实体信息图谱进行扩充。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种实体信息图谱扩充方法,其特征在于,包括:
获取预先构建的第一实体信息图谱,其中,所述第一实体信息图谱包括对先例文书进行语义分析后获得的语义角色以及语义依存关系;
对预定文书进行语义分析,获得语义分析结果;
基于获得的所述语义分析结果构建第二实体信息图谱;
将所述第一实体信息图谱和所述第二实体信息图谱进行一致性校验,得到校验结果;
基于所述校验结果对第一实体信息图谱进行扩充。
2.根据权利要求1所述的方法,其特征在于,所述对预定文书进行语义分析,获得语义分析结果包括:
对所述预定文书进行分句处理,得到所述预定文书中的各个句子;
对所述各个句子的语义角色以及语义关系进行标注,获得包括指代实体的词的所述语义分析结果。
3.根据权利要求2所述的方法,其特征在于,所述基于获得的所述语义分析结果构建第二实体信息图谱包括:
根据所述语义分析结果中词与实体的指向关系,形成句子之间的关联关系;
基于所述关联关系构建所述第二实体信息图谱。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一实体信息图谱和所述第二实体信息图谱进行一致性校验,得到校验结果包括:
将所述第一实体信息图谱与所述第二实体信息图谱进行比对操作;
基于所述比对操作获得校验结果。
5.根据权利要求1或4所述的方法,其特征在于,所述基于校验结果对第一实体信息图谱进行扩充包括:
在所述校验结果是所述第一实体信息图谱与所述第二实体信息图谱不一致的情况下,获得所述第一实体信息图谱与所述第二实体信息图谱的区别实体;
将所述区别实体扩充到所述第一实体信息图谱中。
6.一种实体信息图谱扩充装置,其特征在于,包括:
第一获取单元,用于获取预先构建的第一实体信息图谱,其中,所述第一实体信息图谱包括对先例文书进行语义分析后获得的语义角色以及语义依存关系;
第二获取单元,用于对预定文书进行语义分析,获得语义分析结果;
构建单元,用于基于获得的所述语义分析结果构建第二实体信息图谱;
校验单元,用于将所述第一实体信息图谱和所述第二实体信息图谱进行一致性校验,得到校验结果;
扩充单元,用于基于所述校验结果对第一实体信息图谱进行扩充。
7.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:
第一获取模块,用于对所述预定文书进行分句处理,得到所述预定文书中的各个句子;
标注模块,用于对所述各个句子的语义角色以及语义关系进行标注,获得包括指代实体的词的所述语义分析结果。
8.根据权利要求7所述的装置,其特征在于,所述构建单元包括:
第一构建模块,用于根据所述语义分析结果中词与实体的指向关系,形成句子之间的关联关系;
第二构建模块,用于基于所述关联关系构建所述第二实体信息图谱。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至5中任意一项所述的实体信息图谱扩充方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至5中任意一项所述的实体信息图谱扩充方法。
CN201710537951.6A 2017-07-04 2017-07-04 实体信息图谱扩充方法及装置 Pending CN109241289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710537951.6A CN109241289A (zh) 2017-07-04 2017-07-04 实体信息图谱扩充方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710537951.6A CN109241289A (zh) 2017-07-04 2017-07-04 实体信息图谱扩充方法及装置

Publications (1)

Publication Number Publication Date
CN109241289A true CN109241289A (zh) 2019-01-18

Family

ID=65083274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710537951.6A Pending CN109241289A (zh) 2017-07-04 2017-07-04 实体信息图谱扩充方法及装置

Country Status (1)

Country Link
CN (1) CN109241289A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399498A (zh) * 2019-07-15 2019-11-01 上海交通大学 一种电力变压器运行规范知识图谱构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN105468605A (zh) * 2014-08-25 2016-04-06 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN106777275A (zh) * 2016-12-29 2017-05-31 北京理工大学 基于多粒度语义块的实体属性和属性值提取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399498A (zh) * 2019-07-15 2019-11-01 上海交通大学 一种电力变压器运行规范知识图谱构建方法

Similar Documents

Publication Publication Date Title
CN107798136B (zh) 基于深度学习的实体关系抽取方法、装置及服务器
CN110348214B (zh) 对恶意代码检测的方法及系统
US8799869B2 (en) System for ensuring comprehensiveness of requirements testing of software applications
Scanniello et al. Clustering support for static concept location in source code
CN106155686A (zh) 界面生成方法、装置和系统
US9424168B2 (en) System and method for automatic generation of software test
Buinevich et al. The life cycle of vulnerabilities in the representations of software for telecommunication devices
CN106528430B (zh) 一种应用程序的检测方法、装置及电子设备
KR101616544B1 (ko) Lda를 이용한 특허 문헌 분석 방법
CN104239206B (zh) 网页测试方法和装置
CN106469187A (zh) 关键词的提取方法及装置
CN108876470A (zh) 标签用户扩展方法、计算机设备及存储介质
Ali et al. Porter stemming algorithm for semantic checking
US8020123B2 (en) Transaction-based system and method for abstraction of hardware designs
US20120078950A1 (en) Techniques for Extracting Unstructured Data
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
Reynier et al. Minimal coverability set for Petri nets: Karp and Miller algorithm with pruning
US20140143604A1 (en) Mixed numeric and string constraint analysis
CN109241289A (zh) 实体信息图谱扩充方法及装置
CN113220996A (zh) 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN109033078B (zh) 语句类别识别方法及装置、存储介质、处理器
CN110442512A (zh) 多渠道资讯管理系统的可靠性测试方法及相关设备
CN109992651A (zh) 一种问题目标特征自动识别和抽取方法
CN110058849A (zh) 流程图的生成方法、装置、计算机设备以及存储介质
CN114879936A (zh) 一种面向自然语言需求的安全需求获取方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118