CN110879843B

CN110879843B - 基于机器学习的构建自适应知识图谱技术的方法

Info

Publication number: CN110879843B
Application number: CN201910722435.XA
Authority: CN
Inventors: 赵继胜; 吴宇
Original assignee: Shanghai Fudian Intelligent Technology Co ltd
Current assignee: Shanghai Fudian Intelligent Technology Co ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2020-08-04
Anticipated expiration: 2039-08-06
Also published as: CN110879843A

Abstract

本发明提供了一种以机器学习技术对多种信息建立索引和关联的知识图谱实现技术。本发明侧重于对以非结构化数据为主的信息进行特征判别，并结合信息关联，生成以信息关联为基础的图数据库系统。不同于针对结构化信息的图数据库系统，本项发明针对目前广泛出现在商业应用中的非结构化数据(如图像，音视频等)的提取与关联(参见附图)构成的挑战，以机器学习特征提取作为技术基础，并通过伴随数据改变而实现的自适应数据特征修正技术，构建出结构化与非结构化数据结合的以特征关联为基础的图数据库索引系统，并以此实现知识图谱，从而实现对大规模数据的自动化知识图谱构建。该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景。

Description

基于机器学习的构建自适应知识图谱技术的方法

技术领域

本发明属于涉及信息技术领域，尤其是涉及通过机器学习技术构建知识图谱的技术。该技术使用深度神经网络对不同类型的非结构化数据进行特征提取，在此基础上以自适应方式对不断更新的知识库记录进行自适应信息关联，从而简化了信息采集和知识图谱构建的过程，可以对大规模数据进行自动化知识图谱构建。该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景。该项技术可用广泛的应用于商业智能、智能信息检索和涉及智慧城市的自动信息关联等场景。

背景技术

知识图谱将信息以单体间关联的方式进行表达，因此知识图谱通常以图的形式表达(如附图3)。‘mike’与‘jason’之间的关系为‘师生’，此处‘mike’与‘jason’是信息单体，而‘师生’则是他们之间的信息关联。知识图谱作为智能系统的基础已经广泛应用于各类场景，包括商业智能、智能投研等需要对不同类型知识点进行关联搜索的应用。随着应用场景和需求的不断发展，数据增量主要来自于不同类型的非结构化数据(例如两张图片之间的信息关联)，因此对以非结构化数据为主信息库以自动化的方式生成知识关联(参见附图2)，可以为构建商业智能平台提供更为便利的技术支撑，同时也是目前知识图谱系统设计的技术难题。在图数据库中，信息单体间的关联通过单体间的标注实现。对于非结构化数据，特别是对具有极大相似特征的信息单体(例如‘mike’的不同照片均表达同一人物)，可以相同的方式进行关联标注，这样可以避免对大量数据进行手工标注的工作量。同时，随着人工修改关联信息的内容和方式，对随后加入的信息单体间的自动化关联也会产生影响。

深度神经网络已经广泛应用于不同类型的人工智能数据判别和分析领域，在对非结构化数据处理方面页取得了良好的进展。特别是在自然语言处理方面，基于递归神经网络和其变体的神经网络技术已经可以很好的应用于语音识别和语音、文本特征提取。在图形图像领域，深度卷积网络和其变体已经广泛应用于智能安防、医疗健康等领域，对图片的特征提取已经取得了长足进步。

本项发明通过提供一种基于对非结构化数据进行特征提取(参见附图4)，并以特征相似度对类似的信息施加相同的信息关联的自动化知识图谱构建技术。该项技术可以为智能应用系统基础的知识图谱提供对非结构化数据的自动化管理，为数据采集和处理分类提供了极大的便利。为商业智能(产品推荐)和学术研究(相关信息检索和搜索)提供有效支持。

发明内容

本项发明设计了一种面向非结构化信息的自动化关联的技术，通过自动化关联，信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联，形成知识图谱的自适应构建。具体包括：

1.提供对各种类型的非结构化信息进行自动化特征向量生成的能力，包括音频信息、视频信息、文本信息和图片信息；

2.通过对特征向量进行相似度比对，确定相似信息的能力；

3.对相似信息引入相同的信息关联标注。

面向非结构化信息关联的自适应知识图谱构建(参见附图1、5)包括如下步骤：

1.构建特征提取训练模型(参见附图4)：

a.对于文本类型的特征提取模型：使用doc2vec技术在收集的文本素材上构建文本向量化模型；

b.对于图片类型的特征提取模型：收集图片和分类标注信息作为训练样本，通过resnet网络架构训练深度神经网络，并以训练好的网络的全连接层输出作为特征提取向量输出；

c.对于通过递归神经网络进行特征向量生成的音视频信息，通过以标签(通常采用音视频名称或作者)来表识训练数据集，建立基于递归神经网络的预测模型，再以训练好的递归神经网络模型的序列编码作为输出，即生成特征向量。

2.信息相似度比对系统：

a.对每种非结构化数据构建以(特征向量，数据实体)为单元的特征向量数据表(参见附图7)，该表通过特征向量进行排序；

b.新插入的信息单体需要记录在特征向量数据表，并按照特征向量的排序插入相应的位置；

c.并根据特征相似度检查相似信息的关联内容；

d.为新的信息单体建立与将相似信息的关联内容相同的信息关联；

3.自动建立信息关联：

a.在特征向量数据表中为新插入数据查找相似信息；

b.提取相似信息的关联内容；

c.为新的信息单体建立与将相似信息的关联内容相同的信息关联。

本项发明的上述技术方案有益结果如下：

在商业智能、金融智能投研和学术信息收集等领域，需要针对海量的非结构化信息作自动化信息关联，以快速构建知识图谱。目前的技术局限于手工标注信息关联，对非结构化信息存在的大量相似性，手工操作无法满足对信息不断增长、及时更新知识图谱的需求。本项发明通过使用深度神经网络实现对非结构化信息的特征向量生成，结合特征向量的相似度比对，依据对相似的信息采用相同的信息关联的方式，实现在海量非结构化信息采集的同时，以自适应方式构建知识图谱的能力。本项发明为高效的收集数据同时，自动构建知识图，为商业智能提供了更为精确和便捷的以非结构化信息为主的知识图谱支持。为面向大规模的非结构化数据检索、信息推荐和分析，提供了高效的技术平台。

附图说明

图1知识图谱构建：人工标注vs.基于机器学习的自动标注

图2结构化/非结构化信息知识图谱

图3结构化信息知识图谱

图4多种非结构化信息的特征向量生成

图5通过Neo4J实现知识图谱

图6通过对Neo4J扩展特征提取和比对,实现非结构化信息知识图谱的自适应生成

图7特征向量数据表

具体实施方式

根据发明内容中所阐述的构建面向非结构化数据信息关联的分析技术框架，其具体实现如下几节所述：本项发明的知识图谱系统由图数据库Neo4J(参见附图4)来实现，Neo4J是广泛应用的稳定的图数据引擎，支持结构化信息和非结构化信息。对自适应知识图谱的构建需要对Neo4J做如下几方面扩展(参见附图6)：

a.非结构化信息的特征向量生成系统(参见附图6)；

b.管理各种非结构化信息的特征向量数据表(参见附图7)，对每一种非结构化信息到对应的特征向量数据表的对应关系由特征向量管理表存储；

构建特征提取训练模型：

a.对音频类型的非机构和信息的特征向量表达能力：对音频信号通过递归神经网络网络实现编码，递归神经网络的结构为1000个输入单元，500个隐含神经元；

b.对文本类型的非结构化信息的特征提取和向量化表达，所用算法以doc2vec为基础，该算法是google词向量技术的扩展，通过采用针对宽采样窗体(采样宽度为200)来实现对文本信息的精确特征捕捉和特征向量生成；

c.对图片类型的非结构化信息的特征向量化表达能力：使用以残差网络resnet-50作为特征提取算法，通过其全连接层作为特征向量输出，特征向量长度设定为128；

d.对视频类型的非结构化信息的特征向量表达能力：视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码(生成特征向量，对于每一帧的特征向量长度设定为32，采样数量为128)，再将向量集合通过递归神经网络网络实现再编码，从而生成视频信息对应的特征向量，用于编码的递归神经网络架构为4096个输入单元，800个隐含神经元。

训练数据：

a.对于文本类型的特征提取模型，需要收集文本素材作为训练数据集；

b.对于图片类型的特征提取模型，需要收集图片和分类标注信息作为训练样本；

c.对于通过递归神经网络进行特征向量生成的音视频信息，通过以标签(通常采用音视频名称或作者)来表识训练数据集。

信息相似度比对系统:

a.对每种非结构化数据，在Neo4J中创建以(特征向量，数据实体)为单元的特征向量数据表，该表通过特征向量进行排序；

自动建立信息关联：

c.对新插入的信息单体I，从对应的特征向量数据表中找到相似度最接近的k个信息单体[J0,J1,…Jk-1]；

d.对于相似的信息单体[J0,J1,…Jk-1]，收集其关联信息集合Rj；

e.为信息单体I添加Rj中所有的关联信息；

特征向量的排序按照标准的几何向量排序方式。

相似度比对方式为计算两个特征向量之间的KL散度数值，相似单体的数量k通常设置为3或5。

Claims

1.一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，包括：

通过机器学习技术构建知识图谱的技术，该技术使用深度神经网络对不同类型的非结构化数据进行特征提取，在此基础上以自适应方式对不断更新的知识库记录进行自适应信息关联，从而简化了信息采集和知识图谱构建的过程，可以对大规模数据进行自动化知识图谱构建；该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景；

设计了一种面向非结构化信息的自动化关联的技术，通过自动化关联，信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联，形成知识图谱的自适应构建，具体包括：

步骤A.提供对各种类型的非结构化信息进行自动化特征向量生成的能力，包括音频信息、视频信息、文本信息和图片信息；

步骤B.通过对特征向量进行相似度比对，确定相似信息的能力；

步骤C.对相似信息引入相同的信息关联标注；

通过对已有的开源或商业版本图数据库系统进行扩展来实现步骤A-步骤C，所需扩展模块包括：基于机器学习的特征提取系统、特征比对系统；

所述特征比对系统包括：使用特征向量数据表来维护每一个信息单体和其特征向量的对应关系；

在图数据库中提供用于管理各种非结构化信息的特征向量数据表，对每一种非结构化信息到对应的特征向量数据表的对应关系由特征向量管理表存储；

所述特征比对系统提供基于图数据库Neo4J的自适应知识图谱系统实现：

对每种非结构化数据，在Neo4J中创建以特征向量和数据实体为单元的特征向量数据表，该表通过特征向量进行排序；

对向图数据库Neo4J中新插入的信息单体，需要记录在特征向量数据表，并按照特征向量的排序插入相应的位置；

对向图数据库Neo4J中新插入的信息单体I，从对应的特征向量数据表中找到相似度最接近的k个信息单体，并收集其关联信息集合Rj，为信息单体I添加Rj中所有的关联信息，从而实现对信息单体I自动化标注。

2.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，实现对面向非结构化信息的自动化关联的技术，通过自动化关联，信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联，形成知识图谱的自适应构建。

3.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，通过对特征向量进行相似度比对，确定相似信息的能力。

4.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，对相似信息引入相同的信息关联标注。

5.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，对文本类型的非结构化信息的特征提取和向量化表达，所用算法以doc2vec为基础，该算法是google词向量技术的扩展，通过采用针对宽采样窗体来实现对文本信息的精确特征捕捉和特征向量生成；

所述宽采样窗体的采样宽度为200。

6.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，对音频类型的非机构和信息的特征向量表达能力：对音频信号通过递归神经网络网络实现编码，递归神经网络的结构为1000个输入单元，500个隐含神经元。

7.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，对图片类型的非结构化信息的特征向量化表达能力：使用以残差网络resnet-50作为特征提取算法，通过其全连接层作为特征向量输出，特征向量长度设定为128。

8.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，对视频类型的非结构化信息的特征向量表达能力：视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码，再将向量集合通过递归神经网络网络实现再编码，从而生成视频信息对应的特征向量，用于编码的递归神经网络架构为4096个输入单元，800个隐含神经元；

所述特征向量生成技术：生成特征向量，对于每一帧的特征向量长度设定为32，采样数量为128。

9.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，特征向量的排序按照标准的几何向量排序方式。

10.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法，其特征在于，相似度比对方式为计算两个特征向量之间的KL散度数值，相似单体的数量k通常设置为3或5。