CN113792123A

CN113792123A - 一种基于数据驱动的领域知识图谱构建方法及系统

Info

Publication number: CN113792123A
Application number: CN202111358723.5A
Authority: CN
Inventors: 胡炜梅
Original assignee: Guangzhou Giantan Information Technology Co ltd
Current assignee: Guangzhou Giantan Information Technology Co ltd
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2021-12-14
Anticipated expiration: 2041-11-17
Also published as: CN113792123B

Abstract

本发明涉及数据处理技术领域，提出一种基于数据驱动的领域知识图谱构建方法及系统，包括以下步骤：获取目标领域数据，识别目标领域数据的数据源结构后导入，构建相应领域的数据源；从数据源中提取词汇后进行词汇分析，再根据词汇分析结果将词汇进行概念分析，得到词汇对应的概念；根据词汇对应的概念，将词汇与预设的图谱进行概念匹配，生成词汇的图谱标签；对词汇表筛选，形成领域术语表，并以此为基础构建得到目标领域的领域知识图谱。本发明以概念作为最小颗粒度，通过对词汇进行词汇分析及概念分析，基于词汇的概念构建本体，再构建形成领域知识图谱，能够让用户高效、全面挑选领域术语，大大提高本体及知识图谱构建效率。

Description

一种基于数据驱动的领域知识图谱构建方法及系统

技术领域

本发明涉及数据处理技术领域，更具体地，涉及一种基于数据驱动的领域知识图谱构建方法及系统。

背景技术

本体（ontology）是共享概念模型的明确的形式化规范说明（Rudi Studer,1998），用于人与人之间、人与计算机之间能基于共享概念进行语言交流。本体作为机器理解人类语言的知识组织方式，可应用于知识表示、知识推理和知识共享等方面。目前本体可分为通用本体（general ontology）和领域本体（domain ontology）。通用本体用于描述世界万物，如SUMO，WordNet，HowNet等。领域本体可用于表示领域知识、进行领域知识推理，实现人与人、人与计算机之间的知识共享。知识图谱 (knowledge graph) 是以图的形式表现客观世界中的实体/概念及其之间关系的语义知识库。本体是一种规定更严格的知识图谱，也可以作为知识图谱的一部分，为实体及关系定义了描述的框架。

目前有如公开号为CN113010696A（公开日2021-06-22）提出的基于元数据模型的工程领域知识图谱构建方法，把本体作为知识图谱的模式层，提供实体的定义框架，再对文本或结构化数据进行实体和关系的提取。然而目前大部分知识图谱构建方法均基于构建好的知识图谱本体层提取数据之间的关系，容易忽略数据的概念多样化，易出现概念的缺漏，导致构建的知识图谱仍存在一定局限性。

发明内容

本发明为克服上述现有技术所述的容易忽略数据的概念多样化，易出现概念的缺漏，导致构建的知识图谱仍存在一定局限性的缺陷，提供一种基于数据驱动的领域知识图谱构建方法及系统。

为解决上述技术问题，本发明的技术方案如下：

一种基于数据驱动的领域知识图谱构建方法，包括以下步骤：

S1、获取目标领域数据，识别所述目标领域数据的数据源结构后导入，构建相应领域的数据源；

S2、从所述数据源中提取词汇后进行词汇分析，再根据词汇分析结果将词汇进行概念分析，得到词汇对应的词义、概念及其关联词；

S3、根据词汇对应的概念，将词汇与预设的图谱（包括通用图谱和构建中的目标领域知识图谱）进行概念匹配，获得词汇在图谱中的概念标签，对领域概念进行筛选后，生成领域术语表；

S4、对所述领域术语表中所有术语进行分析，逐一或批量作为领域知识图谱的类、属性、个体进入目标领域知识图谱，作为构建目标领域知识图谱的数据基础；

S5、对目标领域知识图谱中的结构、类、属性进行编辑调整，对个体进行编辑或批量导入，完成领域知识图谱的构建。

本技术方案以概念作为最小颗粒度，对概念进行了唯一符号表示，通过对词汇进行词汇分析及概念分析，基于词汇的概念构建本体，再构建形成领域知识图谱。

进一步的，本发明还提出一种基于数据驱动的领域知识图谱构建系统，包括数据源管理模块、词汇分析模块、概念匹配模块、知识图谱构建模块、知识图谱管理模块和可视化模块，其中，数据源管理模块用于获取结构化数据、半结构化数据和文本数据中的一种或多种，再对获取的数据进行数据结构识别，根据数据结构识别结果将数据导入相应的数据源，以及将获取的文本数据直接导入相应领域的数据源；词汇分析模块用于从数据源中提取词汇，并对提取的词汇进行热词（hot word）分析及新词分析后，再根据词汇分析结果将词汇进行概念分析，得到词汇对应的概念；概念匹配模块用于根据词汇对应的概念，将词汇与预设的知识图谱进行匹配，生成带有标签的领域术语表；知识图谱构建模块用于对所述领域术语表中所有词汇进行筛选，根据筛选后的领域术语表构建得到目标领域的领域知识图谱；知识图谱管理模块用于对知识图谱的类、属性、个体进行增加、删除、修改或查询，以及对知识图谱的类、个体的属性进行编辑，对知识图谱的个体进行批量导入；可视化模块用于将构建得到的目标领域的领域知识图谱进行图形化展示。

与现有技术相比，本发明技术方案的有益效果是：本发明通过对词汇进行词汇分析及概念分析，基于词汇的概念构建本体，再构建形成领域知识图谱，综合考虑了词汇的全面性和词汇概念多样性，能够供用户高效挑选领域词汇，大大提高本体及知识图谱构建效率；以词汇的概念为基准进行知识图谱的构建，能够保证数据的全面性、多样性及准确性，满足用户的使用需求。

附图说明

图1为实施例1的基于数据驱动的领域知识图谱构建方法的流程图。

图2为实施例2的基于数据驱动的领域知识图谱构建系统的架构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提出一种基于数据驱动的领域知识图谱构建方法，如图1所示，为本实施例的基于数据驱动的领域知识图谱构建方法的流程图。

本实施例提出的基于数据驱动的领域知识图谱构建方法中，包括以下步骤：

S1、获取目标领域数据，识别所述目标领域数据的数据源结构后导入，构建相应领域的数据源。

本步骤中，所获取的目标领域数据包括结构化数据、半结构化数据和文本数据中的一种或多种。

其中，在构建数据源的过程中，其具体步骤为：

对获取的结构化数据和/或半结构化数据进行数据结构识别，并根据数据结构识别结果将数据导入相应的数据源；

对获取的文本数据直接导入相应领域的数据源。

进一步的，在完成数据源的构建后，还包括对数据源内的词汇标注索引，以及对数据源内数据量的统计，便于后续对数据源的词汇进行处理。

S2、从所述数据源中提取词汇后进行词汇分析，再根据词汇分析结果将词汇进行概念分析，得到词汇对应的词义、概念及其关联词。

本步骤从所述数据源中提取词汇后进行词汇分析的具体操作包括：

采用改进后的PageRank算法从所述数据源中提取热词，采用新词发现算法从所述数据源中提取新词，并统计所提取的热词和/或新词的词频；

对所提取的热词和/或新词标注其词性、类型、来源和关联原文作为标签；所述词性包括人名、地名、其他名词、动词、形容词、副词、其他词等；所述类型包括基础词或短语，基础词指通用图谱中标记为“基础词”的词，往往不可再分，短语是组合词；所述来源包括热词和/或新词；所述关联原文包括原文中出现所提取的词汇的上下文。

在完成词汇分析后，为便于数据源中词汇的分类及存储，将各个词汇进行排序、过滤及分类。

其中，将各个词汇进行排序，其排序顺序为：将同时为热词和新词的词汇按词频倒序排序；将仅作为新词的词汇按词频倒序排序；将仅作为热词的词汇按词频倒序排序。

对词汇按实体和词性、词汇类型及其关联的图谱概念分别进行过滤，确定词汇为领域术语、停用词或非术语词；其中停用词为词汇分析生成的错误词或无意义的词。为方便用户挑选术语，本实施例中组合检索和过滤手段，例如在对词汇按实体和词性进行过滤时，所涉及的词性包括人名、地名、其他名词、动词、形容词、副词、其他词等。

本实施例中还包括对各个词汇按字、词进行检索，判断是否为停用词，若是，则将停用词加入停用词库。

最后，将筛选为领域术语的词汇加入领域术语表中，将停用词加入停用词库。对于领域术语表、停用词库及通用知识图谱中已有的词汇不需再增加。

进一步的，根据经词汇分析后词汇标注的标签，利用改进后的Word2Vec算法Word2Concept，对词汇进行概念分析，得到词对应的一个或多个概念向量，其中每一概念向量代表一个词义；使用概念向量的相似度找出每一词义的关联词。

S3、根据词汇对应的概念，将词汇与预设的知识图谱进行概念匹配，获得词汇在图谱中的概念标签，对领域概念进行筛选后，生成领域术语表。

其中，预设的知识图谱包括通用本体和构建中的目标领域知识图谱。其中，通用本体是一个预定义的数据集，例如SemNet或WordNet，其中SemNet为约有10万概念节点和25万关系的语义知识库，也称通用知识图谱。因为目标领域知识图谱的构建往往是迭代的，在增量构建时，需要使用存量的领域知识图谱进行分析，挑出增量部分即可，且每一次的概念匹配操作中，都需要判断已有概念是否已经进入了领域知识图谱。而每次术语挑选实际上只需要关注没有进入领域知识图谱的词汇。

本步骤中，将词汇与预设的知识图谱进行概念匹配的步骤包括：

根据词义从预设的知识图谱中进行概念匹配，获得词义在知识图谱中的概念标签。本实施例中的图谱概念包括通用图谱、领域图谱或无关联。

其中，当词汇有目标领域知识图谱概念标签且标签含义一致，表示该词汇在目标领域知识图谱中已有对应的概念，则该词汇不加入领域术语表；当词汇有通用知识图谱标签且标签含义一致，则该词汇不加入领域术语表；当词汇没有获得图谱概念标签，则将该词汇加入领域术语表中进一步基于Word2Concept综合词汇标签分析其词义；当词汇有目标领域知识图谱概念标签或通用知识图谱标签，但标签含义不一致，则将该词汇加入领域术语表中进一步基于Word2Concept综合词汇标签分析其词义。

在进行概念匹配的过程中，词汇有可能在图谱中有匹配的概念，也可能没有匹配上，即词汇对应的概念与本体（即通用图谱和指定领域图谱）进行概念匹配时，当词汇对应的概念是本体中已经有的，那么列出图谱概念和关联词。如果该词没有图谱概念标签，则表示这个词在领域有需要使用，但在领域知识图谱缺了，需补充进入领域术语表以进一步分析其词义。具有图谱标签但与图谱概念标签含义不一致的词汇意味着该词出现了已有知识图谱之外的词义，也需进入领域术语表以进一步分析其词义。

本实施例在进行分析词义时，是在Word2Concept的基础上，综合词汇标签进行判断而得。Word2Concept的本质是算法自动获得词义，具体的，通过将词义与概念对应匹配。但当概念存在没有被标识的情况，概念进入知识图谱的过程可以看作是一个概念标识的过程。

综合词汇的词汇标签（包括词性、类型、来源和关联原文）和词义的关联词、概念标签进行领域术语挑选，将挑选后的领域术语组成领域术语表。

此外，由于一个词汇的概念为一个或多个，本实施例将概念分析的结果加入词汇表作为一个栏目，则有可能出现一个词汇对应多个栏目。

进一步的，本步骤还包括对所述领域术语表中的术语进行编辑。其中，对术语进行编辑的步骤包括：

（1）增加：包括人工增加术语和从外部术语表的导入术语；

（2）修改：包括修改术语名词和对术语进行合并同义词；

（3）挑选：包括将术语加入知识图谱作为类、属性、或者个体；其中，当将术语加入知识图谱作为类时，则指定其父类；当将术语加入知识图谱作为个体时，则指定其所属的类。

S4、对所述领域术语表中所有术语进行分析，逐一或批量作为领域知识图谱的类、属性、个体构建目标领域知识图谱。

在另一实施例中，执行S4步骤后，由于更新了领域术语表、停用词表乃至有可能更新了领域知识图谱，可以重复执行一次S3~S4步骤，能够得到更为准确的领域术语表。

其具体步骤如下：

S5.1、对目标领域知识图谱中的结构、类、属性进行编辑调整，其中编辑方式包括以图谱结构为中心的树形编辑模式和/或以图谱节点关系为中心的图形化编辑模式；

S5.2、通过外部个体数据的批量导入完成构建的领域知识图谱中进行更新，其具体步骤包括：

选择领域知识图谱中的类，上传外部个体数据文件；

分析所述个体数据文件的文件结构，与所选择的类的属性进行对齐，得到类-属性与个体数据结构的对齐推荐列表；

确定可导入的个体字段、字段的索引方式后，将个体导入领域知识图谱中；在导入过程中，对导入的个体数据文件的每一条个体数据记录，查看其每个字段值是否符合相应的类-属性的属性值要求，若符合则执行导入操作，若不符合，则对个体数据中的字符字段进行越界阶段，和/或新建个体属性，再执行导入操作。

其中，若字段值不符合相应的类-属性的属性值要求，其具体表示为字段值超出类的属性值域，典型值域范围，包括枚举类值域、数字类值域区间、字符串类的长度；或者表示为字段为空。

上述对齐推荐列表是指个体数据字段与类的属性字段的对应关系推荐，例如个体集是一个诗集，其包括字段“诗名”“作者”“诗文”“翻译”；知识图谱中有“诗词”类，其字段有“名称”“作者”“诗句”“翻译”，那么，对齐推荐列表中，推荐“诗名”与“名称”对应，“作者”与“作者”对应。

在具体实施过程中，在构建数据源时，通常把具有以下特点的词挑为术语，作为知识图谱的获选：

（1）通用词。但在领域中有特殊的含义；例如“蝉”，在诗词领域中，指的是诗“物”的对象或诗的名称。

（2）热词。例如，在领域中经常出现，并对上下文有较大“含义”上的影响。

（3）领域专有的词。例如，在诗词图谱中“西江月”、“如梦令”等词牌名。

在进行词汇分析及概念分析时，一个词汇可能对应一个或多个概念，本实施例通过词汇完成概念分析得到的概念，根据概念的相关词，得到用于理解词汇概念的特征。例如词汇“莲花”，其经过概念识别后得到的第一概念是花卉的“莲花”，第二概念是药材的“莲花”，第三概念是超市“莲花”，第四概念是宗教中的“莲花”。在完成词汇概念分析后，将词汇与预设的本体进行匹配或构建，生成带有标签的领域术语表，其提取结果如下表1所示。

表1 词汇“莲花”的概念匹配结果

完成概念分析后，对如上所示领域术语表中的词汇进行筛选，根据筛选后的领域术语表构建得到目标领域的领域知识图谱。

本实施例以概念作为最小颗粒度，对概念进行了唯一符号表示，通过对词汇进行词汇分析及概念分析，基于词汇的概念构建本体，再构建形成领域知识图谱。与直接以词汇本身构建的知识图谱相比，本实施例提出的基于数据驱动的领域知识图谱构建方法通过对目标领域的结构化和非结构化数据源进行词汇分析、概念分析、本体匹配，获得带有丰富标签的领域词汇表，能够供用户高效挑选领域词汇，进入领域术语表，得到领域本体的候选概念集，大大提高本体及知识图谱构建效率；以词汇的概念为基准进行知识图谱的构建，能够保证数据的多样性及准确性，满足用户的使用需求。

实施例2

本实施例提出一种基于数据驱动的领域知识图谱构建系统，应用于实施例1提出的基于数据驱动的领域知识图谱构建方法。如图2所示，为本实施例的基于数据驱动的领域知识图谱构建系统的架构图。

本实施例提出的基于数据驱动的领域知识图谱构建系统中，包括：

数据源管理模块，用于获取结构化数据、半结构化数据和文本数据中的一种或多种，再对获取的数据进行数据结构识别，根据数据结构识别结果将数据导入相应的数据源，以及将获取的文本数据直接导入相应领域的数据源；

词汇分析模块，用于从数据源中提取词汇，并对提取的词汇进行热词分析及新词分析后，再根据词汇分析结果将词汇进行概念分析，得到词汇对应的概念；

概念匹配模块，用于根据词汇对应的概念，将词汇与预设的知识图谱进行匹配，生成带有标签的领域术语表；

知识图谱构建模块，用于对所述领域术语表中所有词汇进行筛选，根据筛选后的领域术语表构建得到目标领域的领域知识图谱；

知识图谱管理模块，用于对知识图谱的类、属性、个体进行增加、删除、修改或查询，以及对知识图谱的类、个体的属性进行编辑，对知识图谱的个体进行批量导入；

可视化模块，用于将构建得到的目标领域的领域知识图谱进行图形化展示。

本实施例中，词汇分析模块从所述数据源中提取词汇后进行词汇分析的步骤包括：采用改进后的PageRank算法从所述数据源中提取热词，采用新词发现算法从所述数据源中提取新词，并统计所提取的热词和/或新词的词频；对所提取的热词和/或新词标注其词性、类型、来源和关联原文作为标签；所述词性包括名词、动词或副词；所述类型包括基础词或短语；所述来源包括热词和/或新词；所述关联原文包括原文中出现所提取的词汇的上下文。

此外，词汇分析模块还根据经词汇分析后词汇标注的标签，利用改进后的Word2Vec算法Word2Concept，得到词对应的一个或多个概念向量，其中每一概念向量代表一个词义；使用概念向量的相似度找出每一词义的关联词。

本实施例中，词汇分析模块还对各个词汇进行排序，其排序顺序为：

（1）将同时为热词和新词的词汇按词频倒序排序；

（2）将仅作为新词的词汇按词频倒序排序；

（3）将仅作为热词的词汇按词频倒序排序；

完成排序后，对各个词汇按字、词进行检索，判断是否为停用词，然后对各个词汇按实体和词性、词汇类型及关联的图谱概念分别进行过滤，确定词汇为领域术语、停用词或非术语词，再将筛选为领域术语的词汇保留在领域术语表中，将停用词加入停用词库，将非术语词加入通用词汇表。进一步根据筛选后的领域术语表构建得到目标领域的领域知识图谱。

本实施例中，知识图谱管理模块在对术语进行编辑时，包括以下操作：

（1）增加：包括人工增加术语和从外部术语表的导入术语；

（2）修改：包括修改术语名词和对术语进行合并同义词；

在对目标领域知识图谱中的结构、类、属性进行编辑调整时，其编辑方式包括以图谱结构为中心的树形编辑模式和/或以图谱节点关系为中心的图形化编辑模式。

在通过外部个体数据的批量导入完成构建的领域知识图谱中进行更新时，其具体步骤包括：选择领域知识图谱中的类，上传外部个体数据文件；分析所述个体数据文件的文件结构，与所选择的类的属性进行对齐，得到类-属性与个体数据结构的对齐推荐列表；确定可导入的个体字段、字段的索引方式后，将个体导入领域知识图谱中；在导入过程中，对导入的个体数据文件的每一条个体数据记录，查看其每个字段值是否符合相应的类-属性的属性值要求，若符合则执行导入操作，若不符合，则对个体数据中的字符字段进行越界截断，和/或新建个体属性，再执行导入操作。

进一步的，本实施例的可视化模块将完成构建的目标领域的领域知识图谱进行图形化展示，供用户直观地查阅。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于数据驱动的领域知识图谱构建方法，其特征在于，包括以下步骤：

S3、根据词汇对应的概念，将词汇与预设的知识图谱进行概念匹配，获得词汇在图谱中的概念标签，对领域术语进行筛选后，生成领域术语表；

S4、对所述领域术语表中所有术语进行分析，逐一或批量作为领域知识图谱的类、属性、个体构建目标领域知识图谱；

2.根据权利要求1所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述目标领域数据包括结构化数据、半结构化数据和文本数据中的一种或多种。

3.根据权利要求2所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述S1步骤中，构建相应领域的数据源的步骤包括：对获取的结构化数据和/或半结构化数据进行数据结构识别，并根据数据结构识别结果将数据导入相应的数据源；对获取的文本数据直接导入相应领域的数据源。

4.根据权利要求1所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述S2步骤中，从所述数据源中提取词汇后进行词汇分析的步骤包括：

对所提取的热词和/或新词标注其词性、类型、来源和关联原文作为标签；所述词性包括人名、地名、其他名词、动词、形容词、副词或其他词；所述类型包括基础词或短语；所述来源包括热词和/或新词；所述关联原文包括原文中出现所提取的词汇的上下文。

5.根据权利要求4所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述S2步骤中，从所述数据源中提取词汇后进行词汇分析的步骤还包括以下一种或多种操作：

（1）将各个词汇进行排序；其排序顺序为：

将同时为热词和新词的词汇按词频倒序排序；

将仅作为新词的词汇按词频倒序排序；

将仅作为热词的词汇按词频倒序排序；

（2）对词汇按实体和词性、词汇类型及其关联的图谱概念分别进行过滤，确定词汇为领域术语、停用词或非术语词；其中停用词为词汇分析生成的错误词或无意义的词；

（3）将筛选为领域术语的词汇加入领域术语表中，将停用词加入停用词库。

6.根据权利要求4所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述S2步骤中，根据经词汇分析后词汇标注的标签，利用改进后的Word2Vec算法Word2Concept，对词汇进行概念分析，得到词对应的一个或多个概念向量，其中每一概念向量代表一个词义；使用概念向量的相似度找出每一词义的关联词。

7.根据权利要求6所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述S3步骤中，将词汇与预设的知识图谱进行概念匹配的步骤包括：根据词汇的词义从预设的知识图谱中进行概念匹配，获得词汇在知识图谱中的概念标签；其中：

当词汇有目标领域知识图谱概念标签且标签含义一致，表示该词汇在目标领域知识图谱中已有对应的概念，则该词汇不加入领域术语表；

当词汇有通用知识图谱标签且标签含义一致，则该词汇不加入领域术语表；

当词汇没有获得图谱概念标签，则将该词汇加入领域术语表中进一步基于Word2Concept综合词汇标签分析其词义；

当词汇有目标领域知识图谱概念标签或通用知识图谱标签，但标签含义不一致，则将该词汇加入领域术语表中进一步基于Word2Concept综合词汇标签分析其词义。

8.根据权利要求1~7任一项所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述S3步骤中，还包括以下步骤：对所述领域术语表中的术语进行编辑，包括以下一种或多种操作：

（1）增加：包括人工增加术语和从外部术语表的导入术语；

（2）修改：包括修改术语名词和对术语进行合并同义词；

9.根据权利要求1~7任一项所述的基于数据驱动的领域知识图谱构建方法，其特征在于，所述S5步骤中，包括以下步骤：

选择领域知识图谱中的类，上传外部个体数据文件；

确定可导入的个体字段、字段的索引方式后，将个体导入领域知识图谱中；在导入过程中，对导入的个体数据文件的每一条个体数据记录，查看其每个字段值是否符合相应的类-属性的属性值要求，若符合则执行导入操作，若不符合，则对个体数据中的字符字段进行越界截断，和/或新建个体属性，再执行导入操作。

10.一种基于数据驱动的领域知识图谱构建系统，其特征在于，包括：