CN111914534B - 构建知识图谱语义映射方法及系统 - Google Patents

构建知识图谱语义映射方法及系统 Download PDF

Info

Publication number
CN111914534B
CN111914534B CN202010753082.2A CN202010753082A CN111914534B CN 111914534 B CN111914534 B CN 111914534B CN 202010753082 A CN202010753082 A CN 202010753082A CN 111914534 B CN111914534 B CN 111914534B
Authority
CN
China
Prior art keywords
text
boolean logic
module
relationship
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010753082.2A
Other languages
English (en)
Other versions
CN111914534A (zh
Inventor
杜津
吴楠
陈如杰
周育樑
徐真
张椿琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Shuce Software Co ltd
Original Assignee
Shanghai Shuce Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Shuce Software Co ltd filed Critical Shanghai Shuce Software Co ltd
Priority to CN202010753082.2A priority Critical patent/CN111914534B/zh
Publication of CN111914534A publication Critical patent/CN111914534A/zh
Application granted granted Critical
Publication of CN111914534B publication Critical patent/CN111914534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明提供了一种构建知识图谱语义映射方法及系统,包括:训练集管理步骤:管理文本训练集和测试集,并进行布尔模型的迭代;文本分析步骤:对输入的文本进行分词处理,将文本转换成带有句法结构的组合;布尔逻辑表达式步骤:根据获得的转换后的带有句法结构的组合,对文本到知识图谱实体关系之间的映射进行计算。本发明通过基于句法结构分析之上的布尔逻辑,获取了更多的文本语义相关的句法结构和搭配关系,通过这种关系构建的布尔逻辑可以更加精准的描述词之间的搭配和修饰结构,从而可以使用人工来透明的干预句法结构的词之间的搭配关系。

Description

构建知识图谱语义映射方法及系统
技术领域
本发明涉及自然语言处理知识图谱语义分析领域,具体地,涉及构建知识图谱语义映射方法及系统。尤其地,涉及基于句法分析和倒排索引构建知识图谱语义映射的方法。
背景技术
随着文本分析技术以及自然语言处理技术不断的发展,越来越需要基于知识图谱的推理引擎来帮助进行语义相关的处理。但是知识图谱的构建和实体的映射通常都有非常高的门槛,进入到应用领域,还需要比较多的处理,例如需要处理比较多的歧义消解的问题,需要解决统计算法实现模型训练,训练文档需要比较多的资源进行人工标注的问题。
现有的技术手段主要集中在知识图谱中实体和关系的构建方面,在从文本到知识图谱的映射方面的实现技术不多。在真实的企业应用场景里面,从文本到知识图谱的映射的精准度又是应用无法逾越的一个门槛。能够真正实现从文本到知识图谱的语义映射,知识图谱的推理引擎才能发挥它的能力,智能的去处理业务过程中产生的文本。而在现有的专利里面对于这种映射通常是直接通过关键词,或者简单的一些命名实体算法进行直接的映射,这往往造成实体三元组映射的准确率降低,因为没有考虑句法相关的上下文搭配信息或者一些歧义的场景。
知识图谱构建和标注通常采用半自动化的方式,除了需要手工构建领域相关的符合知识图谱定义的各种实体和关系,还需要对于各种实体和关系进行标注以及领域相关的文本描述的关系映射进行标注。这个标注的过程需要较大量的人工来校验对应的映射是否准确,当实体关系的数量和质量要求比较高时,所需要人工标注的资源通常需要多年的持续投入才能有效果,这对于现在的知识图谱的普及应用是非常高的一个门槛。
本发明在基于词法分析以及一些确定的句法分析结构的基础上,利用布尔逻辑作为推理引擎,能够高效快速的实现从文本到实体关系的映射,利用少量的人工干预,就可以实现高准确度的自动的语义映射标注。另外一方面利用布尔逻辑规则的倒排索引处理,可以提高布尔逻辑判断推理的性能,达到单机日处理千万级别的文档。
申请号为CN201910594867.7一种基于知识图谱的短文本语义理解与精准匹配方法及装置的中国专利的这种系统,其主要功能点侧重在于对于短文中的词在知识图谱中的实体进行检索,然后通过实体和词之间的置信度来进行,后面的语义分析通过知识集合和文本的相关度或者置信度来进行计算匹配。这种词和实体之间通过统计置信度直接进行映射会出现较大的误差,尤其在涉及到一些歧义或者无效词的干扰处理上很难准确映射,而调整也只能从统计置信度上去调节,无法直接控制映射过程本身。和本发明利用布尔逻辑表达式实现从文本到知识图谱透明映射有比较大的不同
申请号为CN201910943703.0,公开了“一种基于知识图谱的语义搜索方法及装置”的这种方法,其主要功能点也是基于每个关键词在知识图谱中的实体映射进行匹配,然后通过基于本体的语义扩展进行搜索结果的调整和映射,这一方法也主要采用关键词到实体的直接对应关系,发明侧重于知识图谱内部的检索方式,对于从文本到知识图谱的映射,并没有太多考虑,尤其对于歧义消解等,并没有处理。本发明主要侧重于从文本到知识图谱的映射过程。
CN201910706329.2,公开了“一种依存句法分析关系抽取模型的司法案件知识图谱构建方法”的这种方法,其主要功能点侧重在通过依存句法分析来扩充知识图谱领域的实体和实体三元组的关系。对于句法分析的结果到知识图谱的映射关系的歧义和纠错没有考虑,在实际的应用系统中将很难保证最终映射的精准度。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种构建知识图谱语义映射方法及系统。
根据本发明提供的一种构建知识图谱语义映射方法,其特征在于,包括:
训练集管理步骤:管理文本训练集和测试集,并进行布尔模型的迭代;
文本分析步骤:对输入的文本进行分词处理,将文本转换成带有句法结构的组合;
布尔逻辑表达式步骤:根据获得的转换后的带有句法结构的组合,对文本到知识图谱实体关系之间的映射进行计算;
布尔逻辑表达式索引步骤:对生产环境的布尔逻辑匹配过程进行优化;
知识图谱步骤:存储语义关系,对文本描述的语义关系进行搜索和推理。
优选地,所述训练集管理步骤包括:
步骤S101:对文本测试集进行初步的清洗和过滤,形成初始化的训练集和测试集,训练集通过词频统计,筛选出重要的关键词对知识图谱映射进行搭配,构建出初始化布尔逻辑规则集合;
步骤S102:人工识别训练集,调整优化布尔逻辑规则,调用测试集利用构建的初始化布尔逻辑规则集合转换成知识图谱结构;
步骤S103:验证测试集映射的准确率和召回率,若不满足目标要求,继续引入新的训练集人工优化布尔逻辑集合,调用步骤S102;若满足目标要求则,调用步骤S104;
步骤S104:对生产环境的海量文档进行输入和知识图谱解构提取,存入知识图谱数据库中。
优选地,所述文本分析步骤:
分词步骤:采用分词算法,对文本序列进行分词处理,分解成最基本的词向量单元。;
分句步骤:基于文本的分段和分句符号,对文本进行句子的分解,拆解出对应的属于同一个子句的词序列的组合;
句法结构分析步骤,对上一步骤中同一分句里面的词序列,对属于主语、谓语、宾语的词打上对应的标签,标记同一句子中对应的词之间的句法结构关系。
优选地,所述布尔逻辑表达式步骤
布尔逻辑表达式根据获得的带有句法结构的组合,对文本进行布尔逻辑的匹配计算;
所述匹配计算的逻辑由关键词的主谓宾关系,句子关系,词频关系以及距离搭配组成,利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构;
对于知识图谱中实体的属性描述,或者关系,采用对应的布尔逻辑表达式将文本映射到实体以及实体之间的关系。
优选地,所述布尔逻辑表达式索引步骤包括:
步骤S401:输入测试文档进行分词和句法结构分解;
步骤S402:文档重构成句法结构树模式,准备进行匹配计算;
步骤S403:对上述结构树的叶子节点到规则索引引擎检索,过滤出所有的可能布尔逻辑表达式;
步骤S404:对过滤出的布尔逻辑式集合进行扩展,根据REFER操作符的引用关系,扩展出所有的引用逻辑表达式,获得新的逻辑表达式集合,为下一步多条规则并行计算解除依赖关系;
步骤S405:对上述的新的逻辑表达式集合并行计算;
步骤S406:所有的匹配结果进行合并,输出优化结果。
优选地,所述知识图谱步骤:
对专业领域的知识图谱实体和关系进行描述和管理;
所述知识图谱中描述的是实体和实体之间的关系,包括:
实体定义是由各种维度的属性来构建,一个实体可以由多个维度的属性构成;
关系的定义存储的是实体和实体之间的关系,每一条关系的记录描述的都是两个实体之间的联系;
关系和实体之间的区别在于关系是属于多个实体之间的,基于关系的属性能够进行关系的计算。
根据本发明提供的一种构建知识图谱语义映射系统,包括:
训练集管理模块:管理文本训练集和测试集,并进行布尔模型的迭代;
文本分析模块:对输入的文本进行分词处理,将文本转换成带有句法结构的组合;
布尔逻辑表达式模块:根据获得的转换后的带有句法结构的组合,对文本到知识图谱实体关系之间的映射进行计算;
布尔逻辑表达式索引模块:对生产环境的布尔逻辑匹配过程进行优化;
知识图谱模块:存储语义关系,对文本描述的语义关系进行搜索和推理。
优选地,所述训练集管理模块包括:
模块S101:对文本测试集进行初步的清洗和过滤,形成初始化的训练集和测试集,训练集通过词频统计,筛选出重要的关键词对知识图谱映射进行搭配,构建出初始化布尔逻辑规则集合;
模块S102:人工识别训练集,调整优化布尔逻辑规则,调用测试集利用构建的初始化布尔逻辑规则集合转换成知识图谱结构;
模块S103:验证测试集映射的准确率和召回率,若不满足目标要求,继续引入新的训练集人工优化布尔逻辑集合,返回模块S102继续执行;若满足目标要求则,进入模块S104;
模块S104:对生产环境的海量文档进行输入和知识图谱解构提取,存入知识图谱数据库中;
所述文本分析模块:
分词模块:采用分词算法,对文本序列进行分词处理,分解成最基本的词向量单元。;
分句模块:基于文本的分段和分句符号,对文本进行句子的分解,拆解出对应的属于同一个子句的词序列的组合;
句法结构分析模块,对上一模块中同一分句里面的词序列,对属于主语、谓语、宾语的词打上对应的标签,标记同一句子中对应的词之间的句法结构关系;
所述布尔逻辑表达式模块
布尔逻辑表达式根据获得的带有句法结构的组合,对文本进行布尔逻辑的匹配计算;
所述匹配计算的逻辑由关键词的主谓宾关系,句子关系,词频关系以及距离搭配组成,利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构;
对于知识图谱中实体的属性描述,或者关系,采用对应的布尔逻辑表达式将文本映射到实体以及实体之间的关系。
优选地,所述布尔逻辑表达式索引模块包括:
模块S401:输入测试文档进行分词和句法结构分解;
模块S402:文档重构成句法结构树模式,准备进行匹配计算;
模块S403:对上述结构树的叶子节点到规则索引引擎检索,过滤出所有的可能布尔逻辑表达式;
模块S404:对过滤出的布尔逻辑式集合进行扩展,根据REFER操作符的引用关系,扩展出所有的引用逻辑表达式,获得新的逻辑表达式集合,为下一步多条规则并行计算解除依赖关系;
模块S405:对上述的新的逻辑表达式集合并行计算;
模块S406:所有的匹配结果进行合并,输出优化结果;
所述知识图谱模块:
对专业领域的知识图谱实体和关系进行描述和管理;
所述知识图谱中描述的是实体和实体之间的关系,包括:
实体定义是由各种维度的属性来构建,一个实体可以由多个维度的属性构成;
关系的定义存储的是实体和实体之间的关系,每一条关系的记录描述的都是两个实体之间的联系;
关系和实体之间的区别在于关系是属于多个实体之间的,基于关系的属性能够进行关系的计算。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的构建知识图谱语义映射方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
(1)通过基于句法结构分析之上的布尔逻辑,获取了更多的文本语义相关的句法结构和搭配关系,通过这种关系构建的布尔逻辑可以更加精准的描述词之间的搭配和修饰结构,从而可以使用人工来透明的干预句法结构的词之间的搭配关系。所采用的布尔逻辑,可以直观简洁的重构多个不同的关键词之间的搭配关系,可以高精准度的匹配到我们需要提取的关系或者实体,有效的排除语言中的歧义和干扰。所采用的布尔逻辑,除了常用的与或非等,还根据句法结构进行扩展,引入了主谓宾结构的操作符,词频距离,分句,短语修饰等操作符,确保关键词的修饰关系进行匹配。
(2)通过采用倒排索引技术,对布尔逻辑的表达式进行提前的索引处理,可以提高匹配效率。在文本分析当中为了提高准确率,传统的布尔逻辑表达式或者规则处理都是比较少量的,几百条或者上千条规则是比较大的极限。更多的规则将导致计算的性能线性增加。本发明的特性决定了需要上千万甚至上亿的匹配表达式帮助做出精准的语义映射,因此不进行特殊处理,会导致匹配的性能计算要求非常高,无法满足实时处理的要求。通过对规则进行索引,只对检索到相关关键词和操作符的规则进行逻辑运算,可以将每次单文档的匹配规则降低到百条左右,大大提升了性能。
(3)通过简化的布尔逻辑表达式,简化了人工透明控制匹配映射的过程,简单的主谓宾搭配,可以实现精准的匹配效果,消除歧义表达。例如(主语:[发动机],谓语:[抖动],宾语:空)可以构建起对发动机抖动相关问题的匹配,消除了启动发动机,方向盘抖动等描述可能产生的错误匹配,这样的布尔逻辑也非常容易维护和管理。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的一种功能关系模块示意图。
图2为本发明提供的模型构建/实施整体流程示意图。
图3为本发明提供的文本分析模块处理输出样例示意图。
图4为本发明提供的布尔逻辑表达式样例结构示意图。
图5为本发明提供的布尔逻辑计算优化流程示意图。
图6为本发明提供的知识图谱结构样例示意图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种构建知识图谱语义映射方法,其特征在于,包括:
训练集管理步骤:管理文本训练集和测试集,并进行布尔模型的迭代;
文本分析步骤:对输入的文本进行分词处理,将文本转换成带有句法结构的组合;
布尔逻辑表达式步骤:根据获得的转换后的带有句法结构的组合,对文本到知识图谱实体关系之间的映射进行计算;
布尔逻辑表达式索引步骤:对生产环境的布尔逻辑匹配过程进行优化;
知识图谱步骤:存储语义关系,对文本描述的语义关系进行搜索和推理。
具体地,所述训练集管理步骤包括:
步骤S101:对文本测试集进行初步的清洗和过滤,形成初始化的训练集和测试集,训练集通过词频统计,筛选出重要的关键词对知识图谱映射进行搭配,构建出初始化布尔逻辑规则集合;
步骤S102:人工识别训练集,调整优化布尔逻辑规则,调用测试集利用构建的初始化布尔逻辑规则集合转换成知识图谱结构;
步骤S103:验证测试集映射的准确率和召回率,若不满足目标要求,继续引入新的训练集人工优化布尔逻辑集合,调用步骤S102;若满足目标要求则,调用步骤S104;
步骤S104:对生产环境的海量文档进行输入和知识图谱解构提取,存入知识图谱数据库中。
具体地,所述文本分析步骤:
分词步骤:采用分词算法,对文本序列进行分词处理,分解成最基本的词向量单元。;
分句步骤:基于文本的分段和分句符号,对文本进行句子的分解,拆解出对应的属于同一个子句的词序列的组合;
句法结构分析步骤,对上一步骤中同一分句里面的词序列,对属于主语、谓语、宾语的词打上对应的标签,标记同一句子中对应的词之间的句法结构关系。
具体地,所述布尔逻辑表达式步骤
布尔逻辑表达式根据获得的带有句法结构的组合,对文本进行布尔逻辑的匹配计算;
所述匹配计算的逻辑由关键词的主谓宾关系,句子关系,词频关系以及距离搭配组成,利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构;
对于知识图谱中实体的属性描述,或者关系,采用对应的布尔逻辑表达式将文本映射到实体以及实体之间的关系。
具体地,所述布尔逻辑表达式索引步骤包括:
步骤S401:输入测试文档进行分词和句法结构分解;
步骤S402:文档重构成句法结构树模式,准备进行匹配计算;
步骤S403:对上述结构树的叶子节点到规则索引引擎检索,过滤出所有的可能布尔逻辑表达式;
步骤S404:对过滤出的布尔逻辑式集合进行扩展,根据REFER操作符的引用关系,扩展出所有的引用逻辑表达式,获得新的逻辑表达式集合,为下一步多条规则并行计算解除依赖关系;
步骤S405:对上述的新的逻辑表达式集合并行计算;
步骤S406:所有的匹配结果进行合并,输出优化结果。
具体地,所述知识图谱步骤:
对专业领域的知识图谱实体和关系进行描述和管理;
所述知识图谱中描述的是实体和实体之间的关系,包括:
实体定义是由各种维度的属性来构建,一个实体可以由多个维度的属性构成;
关系的定义存储的是实体和实体之间的关系,每一条关系的记录描述的都是两个实体之间的联系;
关系和实体之间的区别在于关系是属于多个实体之间的,基于关系的属性能够进行关系的计算。
根据本发明提供的一种构建知识图谱语义映射系统,包括:
训练集管理模块:管理文本训练集和测试集,并进行布尔模型的迭代;
文本分析模块:对输入的文本进行分词处理,将文本转换成带有句法结构的组合;
布尔逻辑表达式模块:根据获得的转换后的带有句法结构的组合,对文本到知识图谱实体关系之间的映射进行计算;
布尔逻辑表达式索引模块:对生产环境的布尔逻辑匹配过程进行优化;
知识图谱模块:存储语义关系,对文本描述的语义关系进行搜索和推理。
具体地,所述训练集管理模块包括:
模块S101:对文本测试集进行初步的清洗和过滤,形成初始化的训练集和测试集,训练集通过词频统计,筛选出重要的关键词对知识图谱映射进行搭配,构建出初始化布尔逻辑规则集合;
模块S102:人工识别训练集,调整优化布尔逻辑规则,调用测试集利用构建的初始化布尔逻辑规则集合转换成知识图谱结构;
模块S103:验证测试集映射的准确率和召回率,若不满足目标要求,继续引入新的训练集人工优化布尔逻辑集合,返回模块S102继续执行;若满足目标要求则,进入模块S104;
模块S104:对生产环境的海量文档进行输入和知识图谱解构提取,存入知识图谱数据库中;
所述文本分析模块:
分词模块:采用分词算法,对文本序列进行分词处理,分解成最基本的词向量单元。;
分句模块:基于文本的分段和分句符号,对文本进行句子的分解,拆解出对应的属于同一个子句的词序列的组合;
句法结构分析模块,对上一模块中同一分句里面的词序列,对属于主语、谓语、宾语的词打上对应的标签,标记同一句子中对应的词之间的句法结构关系;
所述布尔逻辑表达式模块
布尔逻辑表达式根据获得的带有句法结构的组合,对文本进行布尔逻辑的匹配计算;
所述匹配计算的逻辑由关键词的主谓宾关系,句子关系,词频关系以及距离搭配组成,利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构;
对于知识图谱中实体的属性描述,或者关系,采用对应的布尔逻辑表达式将文本映射到实体以及实体之间的关系。
具体地,所述布尔逻辑表达式索引模块包括:
模块S401:输入测试文档进行分词和句法结构分解;
模块S402:文档重构成句法结构树模式,准备进行匹配计算;
模块S403:对上述结构树的叶子节点到规则索引引擎检索,过滤出所有的可能布尔逻辑表达式;
模块S404:对过滤出的布尔逻辑式集合进行扩展,根据REFER操作符的引用关系,扩展出所有的引用逻辑表达式,获得新的逻辑表达式集合,为下一步多条规则并行计算解除依赖关系;
模块S405:对上述的新的逻辑表达式集合并行计算;
模块S406:所有的匹配结果进行合并,输出优化结果;
所述知识图谱模块:
对专业领域的知识图谱实体和关系进行描述和管理;
所述知识图谱中描述的是实体和实体之间的关系,包括:
实体定义是由各种维度的属性来构建,一个实体可以由多个维度的属性构成;
关系的定义存储的是实体和实体之间的关系,每一条关系的记录描述的都是两个实体之间的联系;
关系和实体之间的区别在于关系是属于多个实体之间的,基于关系的属性能够进行关系的计算。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述中任一项所述的构建知识图谱语义映射方法的步骤。
下面通过优选例,对本发明进行更为具体地说明。
优选例1:
本发明的核心是文本句法结构的解析模块、布尔逻辑表达式模块以及布尔逻辑表达式的检索模块。本系统从接收外界的输入文本开始,经过训练集管理模块对输入文本格式进行初步转换和管理,然后通过文本解析模块对文本进行分句、分词等语法结构的处理,转换成语法结构树。通过规则表达式模块进行匹配和逻辑计算。由于表达式数量庞大,需要借助于表达式索引模块进行表达式的过滤和检索,提高性能。最终映射成为知识图谱模块的语义结构,实现从文本到语义空间的转换。
本发明系统包含六个模块,如图一是本系统的功能关系模块图。
一、训练集管理模块,主要用于文本训练集和测试集的管理,以及整体模型的迭代:
布尔逻辑表达式同实体和关系的数量是一一对应的。为了实现映射关系的准确率和召回率评估,需要大量的训练文本和测试文本进行布尔模型的验证。
训练和测试文档需要分成多批,分阶段对布尔逻辑映射关系进行测试和检验,当测试的准确率和召回率达不到要求时,需要修改或者增加布尔逻辑表达式提高准确率和召回率。经过多次调试,让布尔逻辑表达式的匹配效果达到最终的准确率和召回率要求。
流程处理方式如图二所示:
步骤1.对文本测试集进行初步的清洗和过滤,形成初始化的训练集和测试集。训练集通过词频统计,筛选出重要的关键词对知识图谱映射进行搭配,构建出初始化布尔逻辑规则集合。
步骤2.人工识别训练集,调整优化布尔逻辑规则。调用测试集利用上述初始规则集合转换成知识图谱结构。
步骤3.验证测试集映射的准确率和召回率。若不满足目标要求,继续引入新训练集人工优化布尔逻辑集合,重复迭代运行以上步骤。
步骤4.达到生产要求,对生产环境的海量文档进行输入和知识图谱解构提取,存入知识图谱数据库中。
二、文本分析模块,其用于:
对文本进行分词处理,将文本转换成带有句法结构的组合。本模块需要对输入的文本序列进行如下步骤的处理:
分词:采用分词算法,对文本序列进行分词处理,分解成最基本的词向量单元。
分句:基于文本的分段和分句符号,对文本进行句子的分解,拆解出对应的属于同一个子句的词序列的组合。
句法结构分析,对上一步骤中同一分句里面的词序列,对属于主语、谓语、宾语的词打上对应的标签,标记同一句子中对应的词之间的句法结构关系。
如图三是本模块处理句子结构分析的一个样例。对于句子:”发动机会出现异常抖动的情况,这时候仪表盘上警告灯亮,检查发现变速箱有漏油的情况”,拆分出子分句,对子分句中主语、谓语进行了标注,形成了从分句到词的句法结构树。
三、布尔逻辑表达式模块,主要用于:
对文本到知识图谱实体关系之间的映射进行计算。布尔逻辑表达式需要依据上面文本分析模块处理的输出,对文本进行布尔逻辑的匹配计算(匹配计算主要涉到主谓宾、句子、词频以及词距离等),主要的计算逻辑由关键词的主谓宾关系,句子关系,词频关系以及距离搭配组成,专家利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构。知识图谱中实体的属性描述,或者关系,采用对应的布尔逻辑表达式将文本映射到实体以及实体之间的关系。为了提高布尔逻辑的句法词法结构表达能力,扩充如下的操作符(属于布尔逻辑表达式中的操作符,而操作符可以相互嵌套形成表达式,一个表达式包含很多个操作符和关键词。):
OR:当子节点之中,有一个计算为真,那么这个节点为真;全部为假,那么本节点为假。
AND:所有的子节点都为真,那么节点计算为真,否则为假。
NOT:当子节点为假,那么本节点为真;子节点为真,那么本节点为假。
SUBSENT:所有的子节点都需要为真,并且在一个子句之内。
SENT:所有子节点都为真,在同一个句子之内。
SUBJECT:所有子节点都为真,并且是主语。
OBJECT:所有子节点都为真,并且是宾语。
PREDICT:所有子节点都为真,并且是谓语。
REFER:引用规则,可以引用其他的表达式作为子表达式,值和子表达式相同。
MINOC_n:最少出现n次,下面的子节点的模式,需要出现最少n次可以匹配,例如需要某几个关键词出现至少n次以上才能匹配。
DIST_n:需要子表达式出现的模式至少在n个关键词的距离之内。这一操作符可以有效的排除关键词修饰相距较远,有歧义的情况。
如图四是布尔逻辑表达式的一个样例结构。匹配的逻辑是要求主语是发动机或者引擎,宾语包括抖动,或者报警等关键词,通过主语谓语和宾语在子句的限制,可以排除发动机作为宾语或者修饰语的情况和歧义。在匹配的时候,通过关键词从下至上的计算,当关键词出现,同时和上面父节点的关系和范围限定都能够匹配的时候,这条表达式逻辑计算为真。样例表达式,可以映射到图五知识图谱样例中(发动机,抖动,失效)的实体关系结构中。
四、布尔逻辑表达式索引模块,主要用于:
对生产环境的布尔逻辑匹配过程进行优化。布尔逻辑表达式的集合,将形成一个海量的布尔逻辑库。每一份文本,需要通过布尔逻辑表达式整个集合的匹配计算,映射到知识图谱的实体关系结构。这个布尔逻辑集合的计算随着实体关系千万级到亿级的增加,也将增加到千万级,甚至到亿级。这样单篇文本逻辑计算的性能随着表达式增加会线性下降。为了实现实时匹配和计算,对千万级甚至亿级的表达式进行倒排索引,对需要匹配计算的文本,分词以后,使用关键词对逻辑表达式进行检索,检索出来的可能表达式降低到几百条规模再进行逻辑计算,极大的提升了实时计算的性能。
规则存储的结构中,所有规则的最终叶子节点,都是关键词。针对规则的关键词倒排索引如下:
[引擎,rule1,rule3,rule15,…],rule1,rule3,rule15指引用了“引擎”的所有规则。
[发动机,rule1,rule2,rule8,…],rule1,rule2,rule8指引用了“发动机”的所有规则。
[抖动,rule1,rule9,…],rule1,rule9指所有引用了“抖动的规则”。
[报警,rule1,rule5,rule 10,rule1032,…],rule1,rule5,rule10,rule1032指所有引用了“报警”的规则。
如图五,是规则经过预处理之后优化计算流程:
步骤1.输入测试文档进行分词和句法结构分解。
步骤2.文档重构成句法结构树模式,准备进行匹配计算。
步骤3.对上述结构树的叶子节点(关键词)到规则索引引擎检索,过滤出所有的可能布尔逻辑表达式。
步骤4.对过滤出的布尔逻辑式集合进行扩展,根据REFER操作符的引用关系,扩展出所有的引用逻辑表达式。为下一步多条规则并行计算解除依赖关系。
此处所述的扩展和布尔逻辑表达式的扩展不同。前面提到的扩展,主要指布尔逻辑操作语义的扩展。通常布尔逻辑操作只有and,or,not等逻辑操作。我们引入了SENT,Subject,DIST等关于句子结构和词组合关系的更多逻辑操作符,在表达式里面能够更加方便的表达文本的语法结构和关键词搭配关系。
此处所述的扩展主要指同样的表达式可以被重复引用和共享。这样可以减少重复性的劳动。计算的时候为了实现并行化,需要对引用的规则解除依赖关系。
步骤5.对上述的新的逻辑表达式集合并行计算。
步骤6.所有的匹配结果进行合并,输出结果。
六、知识图谱模块,用于语义关系的存储,对文本描述的语义关系进行搜索和推理:
对专业领域的知识图谱实体和关系进行描述和管理。知识图谱中主要描述的是实体和实体之间的关系:
实体定义主要是由各种维度的属性来构建,一个实体可以由多个维度的属性构成。例如,
实体1:(属性-1,属性-2,属性-3…属性-n),每个属性值都属于某个特定的维度。在系统中,通常会存储有千万到上亿个实体。
关系的定义主要存储的是实体和实体之间的关系。每一条关系的记录描述的都是两个实体之间的某种联系。例如,
关系1:(实体1,实体2,关系-属性-1,关系-属性-2,关系-属性-3…关系-属性-n)
关系和实体之间的主要区别在于关系是属于多个实体之间的,基于关系的属性可以进行各种关系的计算。例如父子关系,包含关系,失效关系等等。实体之间的关系最终组合形成了一种图状的结构,可以对这个图进行推理或者搜索查询的操作。
如图六知识图谱样例里,是一个典型的汽车领域知识图谱的结构。“动力总成”、“ecu”、“发动机”等汽车零部件实体之间,具有“is_component”的关系属性,表达了零部件之间的组成关系;“抖动”,“警告灯亮”等实体,又和“发动机”、“机油”等零部件实体构成了“失效模式”的关系属性,表达了各个零件实体的失效模式。在应用中搜索“动力总成”实体的时候,可以检索出所有发动机相关的零部件实体,以及相关零部件的各种失效模式。可以以此为基础,构建智能专家诊断系统。
在本申请的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (6)

1.一种构建知识图谱语义映射方法,其特征在于,包括:
训练集管理步骤:管理文本训练集和测试集,并进行布尔模型的迭代;
文本分析步骤:对输入的文本进行分词处理,将文本转换成带有句法结构的组合;
布尔逻辑表达式步骤:根据获得的转换后的带有句法结构的组合,对文本到知识图谱实体关系之间的映射进行计算;
布尔逻辑表达式索引步骤:对生产环境的布尔逻辑匹配过程进行优化;
知识图谱步骤:存储语义关系,对文本描述的语义关系进行搜索和推理;
所述布尔逻辑表达式步骤:
布尔逻辑表达式根据获得的带有句法结构的组合,对文本进行布尔逻辑的匹配计算;
所述匹配计算的逻辑由关键词的主谓宾关系,句子关系,词频关系以及距离搭配组成,利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构;
对于知识图谱中实体的属性描述,或者关系,采用对应的布尔逻辑表达式将文本映射到实体以及实体之间的关系;
所述布尔逻辑表达式索引步骤包括:
步骤S401:输入测试文档进行分词和句法结构分解;
步骤S402:文档重构成句法结构树模式,准备进行匹配计算;
步骤S403:对上述结构树的叶子节点到规则索引引擎检索,过滤出所有的可能布尔逻辑表达式;
步骤S404:对过滤出的布尔逻辑式集合进行扩展,根据REFER操作符的引用关系,扩展出所有的引用逻辑表达式,获得新的逻辑表达式集合,为下一步多条规则并行计算解除依赖关系;
步骤S405:对上述的新的逻辑表达式集合并行计算;
步骤S406:所有的匹配结果进行合并,输出优化结果;
所述知识图谱步骤:
对专业领域的知识图谱实体和关系进行描述和管理;
所述知识图谱中描述的是实体和实体之间的关系,包括:
实体定义是由各种维度的属性来构建,一个实体由多个维度的属性构成;
关系的定义存储的是实体和实体之间的关系,每一条关系的记录描述的都是两个实体之间的联系;
关系和实体之间的区别在于关系是属于多个实体之间的,基于关系的属性能够进行关系的计算。
2.根据权利要求1所述的构建知识图谱语义映射方法,其特征在于,所述训练集管理步骤包括:
步骤S101:对文本测试集进行初步的清洗和过滤,形成初始化的训练集和测试集,训练集通过词频统计,筛选出重要的关键词对知识图谱映射进行搭配,构建出初始化布尔逻辑规则集合;
步骤S102:人工识别训练集,调整优化布尔逻辑规则,调用测试集利用构建的初始化布尔逻辑规则集合转换成知识图谱结构;
步骤S103:验证测试集映射的准确率和召回率,若不满足目标要求,继续引入新的训练集人工优化布尔逻辑集合,调用步骤S102;若满足目标要求则,调用步骤S104;
步骤S104:对生产环境的海量文档进行输入和知识图谱解构提取,存入知识图谱数据库中。
3.根据权利要求1所述的构建知识图谱语义映射方法,其特征在于,所述文本分析步骤:
分词步骤:采用分词算法,对文本序列进行分词处理,分解成最基本的词向量单元;
分句步骤:基于文本的分段和分句符号,对文本进行句子的分解,拆解出对应的属于同一个子句的词序列的组合;
句法结构分析步骤,对上一步骤中同一分句里面的词序列,对属于主语、谓语、宾语的词打上对应的标签,标记同一句子中对应的词之间的句法结构关系。
4.一种构建知识图谱语义映射系统,其特征在于,包括:
训练集管理模块:管理文本训练集和测试集,并进行布尔模型的迭代;
文本分析模块:对输入的文本进行分词处理,将文本转换成带有句法结构的组合;
布尔逻辑表达式模块:根据获得的转换后的带有句法结构的组合,对文本到知识图谱实体关系之间的映射进行计算;
布尔逻辑表达式索引模块:对生产环境的布尔逻辑匹配过程进行优化;
知识图谱模块:存储语义关系,对文本描述的语义关系进行搜索和推理;
所述布尔逻辑表达式模块
布尔逻辑表达式根据获得的带有句法结构的组合,对文本进行布尔逻辑的匹配计算;
所述匹配计算的逻辑由关键词的主谓宾关系,句子关系,词频关系以及距离搭配组成,利用这些逻辑组合关系重构出知识图谱中的某个语义结构对应的文本描述结构;
对于知识图谱中实体的属性描述,或者关系,采用对应的布尔逻辑表达式将文本映射到实体以及实体之间的关系;
所述布尔逻辑表达式索引模块包括:
模块S401:输入测试文档进行分词和句法结构分解;
模块S402:文档重构成句法结构树模式,准备进行匹配计算;
模块S403:对上述结构树的叶子节点到规则索引引擎检索,过滤出所有的可能布尔逻辑表达式;
模块S404:对过滤出的布尔逻辑式集合进行扩展,根据REFER操作符的引用关系,扩展出所有的引用逻辑表达式,获得新的逻辑表达式集合,为下一步多条规则并行计算解除依赖关系;
模块S405:对上述的新的逻辑表达式集合并行计算;
模块S406:所有的匹配结果进行合并,输出优化结果;
所述知识图谱模块:
对专业领域的知识图谱实体和关系进行描述和管理;
所述知识图谱中描述的是实体和实体之间的关系,包括:
实体定义是由各种维度的属性来构建,一个实体由多个维度的属性构成;
关系的定义存储的是实体和实体之间的关系,每一条关系的记录描述的都是两个实体之间的联系;
关系和实体之间的区别在于关系是属于多个实体之间的,基于关系的属性能够进行关系的计算。
5.根据权利要求4所述的构建知识图谱语义映射系统,其特征在于,所述训练集管理模块包括:
模块S101:对文本测试集进行初步的清洗和过滤,形成初始化的训练集和测试集,训练集通过词频统计,筛选出重要的关键词对知识图谱映射进行搭配,构建出初始化布尔逻辑规则集合;
模块S102:人工识别训练集,调整优化布尔逻辑规则,调用测试集利用构建的初始化布尔逻辑规则集合转换成知识图谱结构;
模块S103:验证测试集映射的准确率和召回率,若不满足目标要求,继续引入新的训练集人工优化布尔逻辑集合,返回模块S102继续执行;若满足目标要求则,进入模块S104;
模块S104:对生产环境的海量文档进行输入和知识图谱解构提取,存入知识图谱数据库中;
所述文本分析模块:
分词模块:采用分词算法,对文本序列进行分词处理,分解成最基本的词向量单元;
分句模块:基于文本的分段和分句符号,对文本进行句子的分解,拆解出对应的属于同一个子句的词序列的组合;
句法结构分析模块,对上一模块中同一分句里面的词序列,对属于主语、谓语、宾语的词打上对应的标签,标记同一句子中对应的词之间的句法结构关系。
6.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至3中任一项所述的构建知识图谱语义映射方法的步骤。
CN202010753082.2A 2020-07-30 2020-07-30 构建知识图谱语义映射方法及系统 Active CN111914534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010753082.2A CN111914534B (zh) 2020-07-30 2020-07-30 构建知识图谱语义映射方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010753082.2A CN111914534B (zh) 2020-07-30 2020-07-30 构建知识图谱语义映射方法及系统

Publications (2)

Publication Number Publication Date
CN111914534A CN111914534A (zh) 2020-11-10
CN111914534B true CN111914534B (zh) 2024-02-13

Family

ID=73286457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010753082.2A Active CN111914534B (zh) 2020-07-30 2020-07-30 构建知识图谱语义映射方法及系统

Country Status (1)

Country Link
CN (1) CN111914534B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112417875B (zh) * 2020-11-17 2023-08-15 深圳平安智汇企业信息管理有限公司 配置信息的更新方法、装置、计算机设备及介质
CN112579765A (zh) * 2020-12-18 2021-03-30 中国平安人寿保险股份有限公司 基于布尔表达式的数据筛选方法、装置、设备及存储介质
CN113033211A (zh) * 2021-03-25 2021-06-25 联想(北京)有限公司 一种数据处理方法及装置
CN113868439B (zh) * 2021-12-03 2022-02-25 北京大学 法律知识图谱构建方法及装置
CN115374284B (zh) * 2022-10-26 2023-04-07 江苏益柏锐信息科技有限公司 基于人工智能的数据挖掘方法及服务器
CN116628229B (zh) * 2023-07-21 2023-11-10 支付宝(杭州)信息技术有限公司 一种利用知识图谱生成文本语料的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462063A (zh) * 2014-12-12 2015-03-25 武汉大学 基于语义位置模型的位置信息结构化提取方法及系统
CN105144151A (zh) * 2012-12-31 2015-12-09 脸谱公司 结构化搜索查询的自然语言渲染
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9037529B2 (en) * 2011-06-15 2015-05-19 Ceresis, Llc Method for generating visual mapping of knowledge information from parsing of text inputs for subjects and predicates

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105144151A (zh) * 2012-12-31 2015-12-09 脸谱公司 结构化搜索查询的自然语言渲染
CN104462063A (zh) * 2014-12-12 2015-03-25 武汉大学 基于语义位置模型的位置信息结构化提取方法及系统
CN109271529A (zh) * 2018-10-10 2019-01-25 内蒙古大学 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"代码知识图谱构建及智能化软件开发方法研究";王飞 等;《软件学报》;第31卷(第1期);全文 *
Svitlana Vakulenko et al.."Message Passing for Complex Question Answering over Knowledge Graphs".《CIKM'19》.2019,全文. *

Also Published As

Publication number Publication date
CN111914534A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914534B (zh) 构建知识图谱语义映射方法及系统
CN112612902B (zh) 一种电网主设备的知识图谱构建方法及设备
CN108959433B (zh) 一种从软件项目数据中提取知识图谱并问答的方法与系统
US11550783B2 (en) One-shot learning for text-to-SQL
Cai et al. An encoder-decoder framework translating natural language to database queries
US20240012810A1 (en) Clause-wise text-to-sql generation
CN110888943A (zh) 基于微模板的法院裁判文书辅助生成的方法和系统
Liu et al. Semantic enhanced text-to-sql parsing via iteratively learning schema linking graph
Tekli et al. Minimizing user effort in XML grammar matching
CN113487211A (zh) 核电装备质量追溯方法、系统、计算机设备及介质
Popova et al. Multilevel ontologies for big data analysis and processing
Kilias et al. Idel: In-database entity linking with neural embeddings
CN114625748A (zh) Sql查询语句的生成方法、装置、电子设备及可读存储介质
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN110580170B (zh) 软件性能风险的识别方法及装置
CN112183110A (zh) 一种基于数据中心的人工智能数据应用系统及应用方法
CN115357678A (zh) 一种基于结构化自然语言规则的gis自动审查方法与系统
CN110309258A (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN113238937A (zh) 一种基于代码精简与误报过滤的编译器模糊测试方法
KR20110099319A (ko) 자동적인 데이터 저장소 아키텍처 검출
Sheremet Data and Knowledge Bases with Incomplete Information in a Set of Strings Framework
KR102605930B1 (ko) 데이터베이스 상에서 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼
KR102605929B1 (ko) 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템
Bui Efficient framework for learning code representations through semantic-preserving program transformations
KR102605931B1 (ko) 복수의 서로 다른 데이터베이스 상의 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 플랫폼

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant