CN111897781B

CN111897781B - 一种知识图谱数据抽取方法和系统

Info

Publication number: CN111897781B
Application number: CN202010766824.5A
Authority: CN
Inventors: 洪万福; 钱智毅; 翁秀玲
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2023-12-26
Anticipated expiration: 2040-08-03
Also published as: CN111897781A

Abstract

本公开提供了一种知识图谱数据抽取方法和系统，所述方法，包括：S1，获取待抽取的原数据；S2，对原数据进行检查，并判断数据文件类型；S3，对图片类型文件运用光学字符识别技术，识别出文件中的字符；S4，提取文件中的字符内容，并生成包含字串列表的文本数据；S5，运用自然语言处理技术处理所述字串列表，提取所述文本数据中的实体和关系；S6，根据提取的实体和关系抽取知识图谱数据。所述系统包括：数据输入管理组件；数据结构辨识组件；光学字符识别组件；文本提取组件；自然语言处理组件；知识图谱构建组件。本公开所述的方法和系统能够丰富知识图谱数据抽取支持的数据种类。提高数据抽取工作的效率。扩充知识图谱潜在的数据源。

Description

一种知识图谱数据抽取方法和系统

技术领域

本公开涉及知识图谱，尤其涉及一种知识图谱数据抽取方法和系统

背景技术

知识图谱是一种显示知识发展进程与结构关系的数据可视化技术，知识图谱描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。能够为学科研究提供切实的、有价值的参考。

数据抽取系统向知识图谱提供要收录的知识内容，包括实体、关系、属性等信息，以便知识图谱建立实体关联。对于一些非结构化数据，例如文本文件，数据抽取系统会调用自然语言处理模块提取出文本内容中的实体以及关系。

然而，很多非结构文件并非由文本组成，例如一部分pdf文件、图片文件等，数据以图片形式存在于文件中，传统自然语言处理技术无法提取出有用的信息，限制了数据抽取的适用范围，也限制了知识图谱的应用。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种知识图谱数据抽取方法和系统，具体实现方式：

一种知识图谱数据抽取方法，包括：

S1，获取待抽取的原数据；

S2，对原数据进行检查，并判断数据文件类型；

其中，所述检查包括文件格式检查和数据特征结构检查；所述文件类型包括图片类型文件、文本文件类型和富文本文件类型；

S3，若判断数据文件类型为图片类型文件，则对图片类型文件运用光学字符识别技术，识别出文件中的字符；

S4，提取经过光学字符识别技术识别后的图片类型文件、和/或文本类文件、和/或富文本类文件中的字符内容，并根据字符内容生成包含字串类别的文本数据；

S5，运用自然语言处理技术处理所述字串列表，提取所述文本数据中的实体和关系；

S6，从提取的实体和关系中抽取用于构建知识图谱的知识图谱数据。

进一步地，步骤S2中，若文件为不可识别的文件类型，则将不可识别的文件从原数据中抽取，并发出告警信息。

进一步地，步骤S3中，光学字符识别技术包括：对图片类型文件的图像进行降噪处理、二值化处理、字符切分、归一化处理、特征提取、降维处理、字符识别和结果优化。

进一步地，步骤S4中，根据字符内容生成包含字串类表的文本数据的方法包括：将字符内容按原数据的语言结构进行整理，还原成整段文字，根据整段文字生成字串列表。

进一步地，步骤S5中，运用自然语言处理技术处理所述文本数据的方法包括：对字串列表进行预处理，生成词汇列表并标记词汇属性；其中所述预处理包括：分词处理、词性标注、词形还原、停止词识别和依赖关系解析。

进一步地，在步骤S5中，提取文本数据中实体和关系的方法包括：对词汇列表进行分析，提取命名实体和关系描述，并整理成实体列表和关系列表。

进一步地，对词汇列表进行分析包括：对词汇进行命名实体识别、共指解析和歧义消解，为每个实体产生唯一的名称和同义词，并记录实体间关系，同时记录实体的属性信息。

进一步地，在步骤S6中，，抽取用于构建知识图谱的知识图谱数据的方法包括：

根据所述实体列表构建实体节点并标记属性，

按照所述关系列表建立节点之间的边，依据节点之间的边，生成知识图谱数据结构，并根据所述知识图谱数据结构从所述实体和关系中抽取用于构建知识图谱的知识图谱数据。

一种知识图谱数据抽取系统，包括：

数据输入管理组件，用于获取待抽取的原数据；

数据结构辨识组件，用于对原数据进行检查，并判断数据文件类型，将文件分为图片类型文件、文本类型文件、富文本类型文件、以及不可识别文件；

光学字符识别组件，用于识别图片类型文件中的字符；

文本提取组件，用于提取所述光学字符识别组件识别出的字符，以及提取文本类型文件和富文本类型文件中的字符，并形成文本数据；

自然语言处理组件，用于对文本数据中的词汇进行分类标记；

实体和关系辨识组件，用于从标记的词汇中提取出实体名词；以及实体间的关系描述；

知识图谱构建组件，用于将实体和关系转换为知识图谱数据。

进一步地，所述原数据的类型包括：结构化数据文件、非结构化文件。

进一步地，所述数据结构辨识组件从原数据中辨识出不可识别文件之后，抽取所述不可识别文件并发出告警信息。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开的知识图谱数据抽取方法逻辑示意图；

图2是本公开的知识图谱数据抽取系统原理示意图；

图中：

数据输入管理组件1；数据结构辨识组件2；光学字符识别组件3；文本提取组件4；自然语言处理组件5；实体和关系辨识组件6；知识图谱构建组件7。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。其中，执行主体可以根据具体案例进行调整，如服务器、电子设备、计算机等。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行，且下文均以服务器作为执行主体为例进行说明。

实施例一

参照图1，本实施例提供一种知识图谱数据抽取方法，基于光学字符识别和自然语言处理技术，知识图谱数据抽取方法包括：

S1，获取待抽取的原数据；

S2，对原数据进行检查，并判断数据文件类型；

S4，提取经过光学字符识别技术识别后的图片类型文件、和/或文本类文件、和/或富文本类文件中的字符内容，并根据字符内容生成包含字串列表的文本数据；

本公开的知识图谱数据抽取方法在收到用户上传的将要进行知识抽取的原数据文件之后，对原数据进行检查，可根据原数据文件的后缀名和数据特征结构判断数据文件类型，并根据文件是否可识别和文本是否可直接读取对不同类型的文件进行抽取，例如：

将图片类型文件全部抽取出来，以便于进行下一步的光学字符识别；对文本类型文件和富文类型文件，则可以直接提取文件中的字符内容，对不可识别的文件，则将不可识别的文件从原数据中抽取后向用户发出告警信息，以便于用户排查。需要说明的时，所述图片类型的文件不限于后缀名为jpg、png等图片格式文件，也包括包含图片的word、pdf等文本文件。

本实施例中，所述原数据文件可以是后缀名为csv、xml、owl、json等结构化数据文件；也可以是后缀名为doc、pdf、jpg、png、txt等非结构化文件。

步骤S3采用的光学字符识别技术主要用于处理图片类型非结构数据，一识别出其中的字符并标记其最可能对应的文字符号，以便于文本的提取；所述光学字符识别技术包括：对图片类型文件的图像进行降噪处理、二值化处理、字符切分、归一化处理、特征提取、降维处理、字符识别和结果优化。

现实中的数字图像在数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响，称为含噪图像或噪声图像。噪声是图像干扰的重要原因。一幅图像在实际应用中可能存在各种各样的噪声,这些噪声可能在传输中产生,也可能在量化等处理中产生。因此，为了便于后续的字符识别，需要将这些干扰的噪声尽可能的去除，这个过程即为图像降噪。

由于图像中往往包含大量的信息，包括颜色信息等，这会干扰字符识别的精度，因此对图像进行二值化处理，即将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果，图像的二值化使图像中数据量大为减少，使图像变得简单，从而能凸显出目标的轮廓。

由于图像文件中，字符经常会出现艺术化设计等，以及由于图像录入、传输造成的影响，导致文字的字符出现差异，字符之间很容易出现粘连、笔画交错、大小不一等现象，因此通过字符切换可有利于提高后续字符识别的准确率，并通过归一化对文字限定在设定范围内。

最后通过特征提取，提取图像文件中字符特征，通过降维处理减少冗余信息所造成的误差,提高后续识别的精度。最后经过识别和优化获得图像中准确的文本数据。

步骤S4中，提取文件中的字符内容后，将字符内容按原数据的语言结构进行整理，根据字符在原图片中的位置，保留原有语言结构，同时将其还原成整段文字，若原有语言结构中包含若干整段文字，则生成若干段整段文字，并根据整段文字生成字串列表，以便于自然语言处理。

步骤S5中，运用自然语言处理技术处理所述文本数据的方法包括：调用深度学习引擎，对文本数据中的词汇进行分类标记；其中，所述自然语言处理技术还包括对字串列表进行预处理，生成词汇列表，并标记词汇属性，所述预处理包括：分词处理、词性标注、词形还原、停止词识别和依赖关系解析等操作。

提取文本数据中实体和关系的方法包括：对词汇列表进行分析，提取出命名实体和：关系描述，整理成实体列表和关系列表，具体来说包括对词汇进行命名实体识别、共指解析和歧义消解，为每个实体产生唯一的名称和同义词，并记录实体间关系，同时记录实体的属性信息。

最后，根据实体列表构建实体节点并标记属性，按照关系列表建立节点之间的边，依据节点之间的边，生成知识图谱数据结构，根据所述知识图谱数据结构从实体和关系中抽取用于构建知识图谱的知识图谱数据，将产生的结果回传给数据抽取管理模块供用户检查确认，通过后将生成的实体和关系注入知识图谱中。可以在原知识图谱中增加提取的实体和关系；或根据提取的实体和关系新建知识图谱。

通过本公开的知识图谱数据抽取方法，能够丰富知识图谱数据抽取支持的数据种类。提高数据抽取工作的效率。扩充知识图谱潜在的数据源。

实施例二

参照图2，本实施例提供一种知识图谱数据抽取系统，包括：

数据输入管理组件1，用于获取待抽取的原数据；所述原数据的类型包括：结构化数据文件、非结构化文件。用户通过所述数据输入管理组件向系统发送要抽取的数据，和想要构建的目标图谱信息。用户需指定将要构建的知识图谱并将要进行知识抽取的数据直接上传而无需考虑文件格式。除用于上传数据资料外，该组件还支持显示数据抽取结果、结果预览等功能。

数据结构辨识组件2，用于对原数据进行检查，并判断数据文件类型，将文件分为图片类型文件、文本类型文件、富文本类型文件、以及不可识别文件；若用户上传的数据资料中，包括不可识别文件，则所述数据结构辨识组件从原数据中辨识出不可识别文件之后，抽取所述不可识别文件并发出告警信息以告知用户对相应文件进行处理。

光学字符识别组件3，用于识别图片类型文件中的字符；所述光学字符识别组件还包括：图像降噪、二值化、字符切分、归一化、特征提取、降维、字符识别、结果优化等模块；

文本提取组件4，用于提取所述光学字符识别组件识别出的字符，以及提取文本类型文件和富文本类型文件中的字符，并形成文本数据；所述文本提取组件能够将文本文件、富文本文件和经过光学字符识别后的文件内容按照原数据语言结构进行整理；

自然语言处理组件5，用于对文本数据中的词汇进行分类标记；所述自然语言处理组件还会对文本数据执行：分词处理、词性标注、词形还原、停止词识别、依赖解析等操作。

实体和关系辨识组件6，用于从标记的词汇中提取出实体名词；以及实体间的关系描述；所述实体和关系识别组件可对经自然语言处理组件标记的语料进行命名实体识别、共指解析、歧义消解等步骤，为每个实体产生唯一名称和同义词，并记录实体间关系，同时记录实体的其他属性信息，并将辨识出的信息返回给数据输入管理组件供用户预览。

知识图谱构建组件7，用于将实体和关系转换为知识图谱数据并构建知识图谱。可基于给出的实体和关系构建新的知识图谱、也可以在已有知识图谱中增加新的实体和关系。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种知识图谱数据抽取方法，其特征在于，包括：

S1，获取待抽取的原数据；

S2，对原数据进行检查，并判断数据文件类型；若文件为不可识别的文件类型，则将不可识别的文件从原数据中抽取，并发出告警信息；

S3，若判断数据文件类型为图片类型文件，则对图片类型文件运用光学字符识别技术，识别出文件中的字符；光学字符识别技术包括：对图片类型文件的图像进行降噪处理、二值化处理、字符切分、归一化处理、特征提取、降维处理、字符识别和结果优化；

S4，提取经过光学字符识别技术识别后的图片类型文件、和/或文本类文件、和/或富文本类文件中的字符内容，并根据字符内容生成包含字串列表的文本数据；将字符内容按原数据的语言结构进行整理，根据字符在原图片中的位置，保留原有语言结构，同时将其还原成整段文字，若原有语言结构中包含若干整段文字，则生成若干段整段文字，并根据整段文字生成字串列表；

S5，运用自然语言处理技术处理所述字串列表，提取所述文本数据中的实体和关系；运用自然语言处理技术处理所述文本数据的方法包括：对字串列表进行预处理，生成词汇列表并标记词汇属性；其中所述预处理包括：分词处理、词性标注、词形还原、停止词识别和依赖关系解析；提取文本数据中实体和关系的方法包括：对词汇列表进行分析，提取命名实体和关系描述，并整理成实体列表和关系列表；

2.如权利要求1所述的方法，其特征在于，在步骤S6，抽取用于构建知识图谱的知识图谱数据的方法包括：

根据所述实体列表构建实体节点并标记属性，

3.一种知识图谱数据抽取系统，其特征在于，包括：

数据输入管理组件，用于获取待抽取的原数据；

光学字符识别组件，用于对图片类型文件运用光学字符识别技术，识别图片类型文件中的字符,光学字符识别技术包括：对图片类型文件的图像进行降噪处理、二值化处理、字符切分、归一化处理、特征提取、降维处理、字符识别和结果优化；

文本提取组件，用于提取所述光学字符识别组件识别出的字符，以及提取文本类型文件和富文本类型文件中的字符，并形成文本数据；提取文件中的字符内容，将字符内容按原数据的语言结构进行整理，根据字符在原图片中的位置，保留原有语言结构，同时将其还原成整段文字，若原有语言结构中包含若干整段文字，则生成若干段整段文字，并根据整段文字生成字串列表；

实体和关系辨识组件，用于从标记的词汇中提取出实体名词；以及实体间的关系描述；运用自然语言处理技术处理所述字串列表，提取所述文本数据中的实体和关系；运用自然语言处理技术处理所述文本数据的方法包括：对字串列表进行预处理，生成词汇列表并标记词汇属性；其中所述预处理包括：分词处理、词性标注、词形还原、停止词识别和依赖关系解析；提取文本数据中实体和关系的方法包括：对词汇列表进行分析，提取命名实体和关系描述，并整理成实体列表和关系列表；知识图谱构建组件，用于将实体和关系转换为知识图谱数据。

4.如权利要求3所述的知识图谱数据抽取系统，其特征在于，所述原数据的类型包括：结构化数据文件、非结构化文件。

5.如权利要求3所述的知识图谱数据抽取系统，其特征在于，所述数据结构辨识组件从原数据中辨识出不可识别文件之后，抽取所述不可识别文件并发出告警信息。