CN110879843B - 基于机器学习的构建自适应知识图谱技术的方法 - Google Patents

基于机器学习的构建自适应知识图谱技术的方法 Download PDF

Info

Publication number
CN110879843B
CN110879843B CN201910722435.XA CN201910722435A CN110879843B CN 110879843 B CN110879843 B CN 110879843B CN 201910722435 A CN201910722435 A CN 201910722435A CN 110879843 B CN110879843 B CN 110879843B
Authority
CN
China
Prior art keywords
information
feature
knowledge graph
machine learning
unstructured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910722435.XA
Other languages
English (en)
Other versions
CN110879843A (zh
Inventor
赵继胜
吴宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Fudian Intelligent Technology Co ltd
Original Assignee
Shanghai Fudian Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Fudian Intelligent Technology Co ltd filed Critical Shanghai Fudian Intelligent Technology Co ltd
Priority to CN201910722435.XA priority Critical patent/CN110879843B/zh
Publication of CN110879843A publication Critical patent/CN110879843A/zh
Application granted granted Critical
Publication of CN110879843B publication Critical patent/CN110879843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种以机器学习技术对多种信息建立索引和关联的知识图谱实现技术。本发明侧重于对以非结构化数据为主的信息进行特征判别,并结合信息关联,生成以信息关联为基础的图数据库系统。不同于针对结构化信息的图数据库系统,本项发明针对目前广泛出现在商业应用中的非结构化数据(如图像,音视频等)的提取与关联(参见附图)构成的挑战,以机器学习特征提取作为技术基础,并通过伴随数据改变而实现的自适应数据特征修正技术,构建出结构化与非结构化数据结合的以特征关联为基础的图数据库索引系统,并以此实现知识图谱,从而实现对大规模数据的自动化知识图谱构建。该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景。

Description

基于机器学习的构建自适应知识图谱技术的方法
技术领域
本发明属于涉及信息技术领域,尤其是涉及通过机器学习技术构建知识图谱的技术。该技术使用深度神经网络对不同类型的非结构化数据进行特征提取,在此基础上以自适应方式对不断更新的知识库记录进行自适应信息关联,从而简化了信息采集和知识图谱构建的过程,可以对大规模数据进行自动化知识图谱构建。该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景。该项技术可用广泛的应用于商业智能、智能信息检索和涉及智慧城市的自动信息关联等场景。
背景技术
知识图谱将信息以单体间关联的方式进行表达,因此知识图谱通常以图的形式表达(如附图3)。‘mike’与‘jason’之间的关系为‘师生’,此处‘mike’与‘jason’是信息单体,而‘师生’则是他们之间的信息关联。知识图谱作为智能系统的基础已经广泛应用于各类场景,包括商业智能、智能投研等需要对不同类型知识点进行关联搜索的应用。随着应用场景和需求的不断发展,数据增量主要来自于不同类型的非结构化数据(例如两张图片之间的信息关联),因此对以非结构化数据为主信息库以自动化的方式生成知识关联(参见附图2),可以为构建商业智能平台提供更为便利的技术支撑,同时也是目前知识图谱系统设计的技术难题。在图数据库中,信息单体间的关联通过单体间的标注实现。对于非结构化数据,特别是对具有极大相似特征的信息单体(例如‘mike’的不同照片均表达同一人物),可以相同的方式进行关联标注,这样可以避免对大量数据进行手工标注的工作量。同时,随着人工修改关联信息的内容和方式,对随后加入的信息单体间的自动化关联也会产生影响。
深度神经网络已经广泛应用于不同类型的人工智能数据判别和分析领域,在对非结构化数据处理方面页取得了良好的进展。特别是在自然语言处理方面,基于递归神经网络和其变体的神经网络技术已经可以很好的应用于语音识别和语音、文本特征提取。在图形图像领域,深度卷积网络和其变体已经广泛应用于智能安防、医疗健康等领域,对图片的特征提取已经取得了长足进步。
本项发明通过提供一种基于对非结构化数据进行特征提取(参见附图4),并以特征相似度对类似的信息施加相同的信息关联的自动化知识图谱构建技术。该项技术可以为智能应用系统基础的知识图谱提供对非结构化数据的自动化管理,为数据采集和处理分类提供了极大的便利。为商业智能(产品推荐)和学术研究(相关信息检索和搜索)提供有效支持。
发明内容
本项发明设计了一种面向非结构化信息的自动化关联的技术,通过自动化关联,信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联,形成知识图谱的自适应构建。具体包括:
1.提供对各种类型的非结构化信息进行自动化特征向量生成的能力,包括音频信息、视频信息、文本信息和图片信息;
2.通过对特征向量进行相似度比对,确定相似信息的能力;
3.对相似信息引入相同的信息关联标注。
面向非结构化信息关联的自适应知识图谱构建(参见附图1、5)包括如下步骤:
1.构建特征提取训练模型(参见附图4):
a.对于文本类型的特征提取模型:使用doc2vec技术在收集的文本素材上构建文本向量化模型;
b.对于图片类型的特征提取模型:收集图片和分类标注信息作为训练样本,通过resnet网络架构训练深度神经网络,并以训练好的网络的全连接层输出作为特征提取向量输出;
c.对于通过递归神经网络进行特征向量生成的音视频信息,通过以标签(通常采用音视频名称或作者)来表识训练数据集,建立基于递归神经网络的预测模型,再以训练好的递归神经网络模型的序列编码作为输出,即生成特征向量。
2.信息相似度比对系统:
a.对每种非结构化数据构建以(特征向量,数据实体)为单元的特征向量数据表(参见附图7),该表通过特征向量进行排序;
b.新插入的信息单体需要记录在特征向量数据表,并按照特征向量的排序插入相应的位置;
c.并根据特征相似度检查相似信息的关联内容;
d.为新的信息单体建立与将相似信息的关联内容相同的信息关联;
3.自动建立信息关联:
a.在特征向量数据表中为新插入数据查找相似信息;
b.提取相似信息的关联内容;
c.为新的信息单体建立与将相似信息的关联内容相同的信息关联。
本项发明的上述技术方案有益结果如下:
在商业智能、金融智能投研和学术信息收集等领域,需要针对海量的非结构化信息作自动化信息关联,以快速构建知识图谱。目前的技术局限于手工标注信息关联,对非结构化信息存在的大量相似性,手工操作无法满足对信息不断增长、及时更新知识图谱的需求。本项发明通过使用深度神经网络实现对非结构化信息的特征向量生成,结合特征向量的相似度比对,依据对相似的信息采用相同的信息关联的方式,实现在海量非结构化信息采集的同时,以自适应方式构建知识图谱的能力。本项发明为高效的收集数据同时,自动构建知识图,为商业智能提供了更为精确和便捷的以非结构化信息为主的知识图谱支持。为面向大规模的非结构化数据检索、信息推荐和分析,提供了高效的技术平台。
附图说明
图1知识图谱构建:人工标注vs.基于机器学习的自动标注
图2结构化/非结构化信息知识图谱
图3结构化信息知识图谱
图4多种非结构化信息的特征向量生成
图5通过Neo4J实现知识图谱
图6通过对Neo4J扩展特征提取和比对,实现非结构化信息知识图谱的自适应生成
图7特征向量数据表
具体实施方式
根据发明内容中所阐述的构建面向非结构化数据信息关联的分析技术框架,其具体实现如下几节所述:本项发明的知识图谱系统由图数据库Neo4J(参见附图4)来实现,Neo4J是广泛应用的稳定的图数据引擎,支持结构化信息和非结构化信息。对自适应知识图谱的构建需要对Neo4J做如下几方面扩展(参见附图6):
a.非结构化信息的特征向量生成系统(参见附图6);
b.管理各种非结构化信息的特征向量数据表(参见附图7),对每一种非结构化信息到对应的特征向量数据表的对应关系由特征向量管理表存储;
构建特征提取训练模型:
a.对音频类型的非机构和信息的特征向量表达能力:对音频信号通过递归神经网络网络实现编码,递归神经网络的结构为1000个输入单元,500个隐含神经元;
b.对文本类型的非结构化信息的特征提取和向量化表达,所用算法以doc2vec为基础,该算法是google词向量技术的扩展,通过采用针对宽采样窗体(采样宽度为200)来实现对文本信息的精确特征捕捉和特征向量生成;
c.对图片类型的非结构化信息的特征向量化表达能力:使用以残差网络resnet-50作为特征提取算法,通过其全连接层作为特征向量输出,特征向量长度设定为128;
d.对视频类型的非结构化信息的特征向量表达能力:视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码(生成特征向量,对于每一帧的特征向量长度设定为32,采样数量为128),再将向量集合通过递归神经网络网络实现再编码,从而生成视频信息对应的特征向量,用于编码的递归神经网络架构为4096个输入单元,800个隐含神经元。
训练数据:
a.对于文本类型的特征提取模型,需要收集文本素材作为训练数据集;
b.对于图片类型的特征提取模型,需要收集图片和分类标注信息作为训练样本;
c.对于通过递归神经网络进行特征向量生成的音视频信息,通过以标签(通常采用音视频名称或作者)来表识训练数据集。
信息相似度比对系统:
a.对每种非结构化数据,在Neo4J中创建以(特征向量,数据实体)为单元的特征向量数据表,该表通过特征向量进行排序;
b.新插入的信息单体需要记录在特征向量数据表,并按照特征向量的排序插入相应的位置;
自动建立信息关联:
c.对新插入的信息单体I,从对应的特征向量数据表中找到相似度最接近的k个信息单体[J0,J1,…Jk-1];
d.对于相似的信息单体[J0,J1,…Jk-1],收集其关联信息集合Rj;
e.为信息单体I添加Rj中所有的关联信息;
特征向量的排序按照标准的几何向量排序方式。
相似度比对方式为计算两个特征向量之间的KL散度数值,相似单体的数量k通常设置为3或5。

Claims (10)

1.一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,包括:
通过机器学习技术构建知识图谱的技术,该技术使用深度神经网络对不同类型的非结构化数据进行特征提取,在此基础上以自适应方式对不断更新的知识库记录进行自适应信息关联,从而简化了信息采集和知识图谱构建的过程,可以对大规模数据进行自动化知识图谱构建;该项技术可用广泛的应用于智能应用环境中的各种数据分析、查询场景;
设计了一种面向非结构化信息的自动化关联的技术,通过自动化关联,信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联,形成知识图谱的自适应构建,具体包括:
步骤A.提供对各种类型的非结构化信息进行自动化特征向量生成的能力,包括音频信息、视频信息、文本信息和图片信息;
步骤B.通过对特征向量进行相似度比对,确定相似信息的能力;
步骤C.对相似信息引入相同的信息关联标注;
通过对已有的开源或商业版本图数据库系统进行扩展来实现步骤A-步骤C,所需扩展模块包括:基于机器学习的特征提取系统、特征比对系统;
所述特征比对系统包括:使用特征向量数据表来维护每一个信息单体和其特征向量的对应关系;
在图数据库中提供用于管理各种非结构化信息的特征向量数据表,对每一种非结构化信息到对应的特征向量数据表的对应关系由特征向量管理表存储;
所述特征比对系统提供基于图数据库Neo4J的自适应知识图谱系统实现:
对每种非结构化数据,在Neo4J中创建以特征向量和数据实体为单元的特征向量数据表,该表通过特征向量进行排序;
对向图数据库Neo4J中新插入的信息单体,需要记录在特征向量数据表,并按照特征向量的排序插入相应的位置;
对向图数据库Neo4J中新插入的信息单体I,从对应的特征向量数据表中找到相似度最接近的k个信息单体,并收集其关联信息集合Rj,为信息单体I添加Rj中所有的关联信息,从而实现对信息单体I自动化标注。
2.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,实现对面向非结构化信息的自动化关联的技术,通过自动化关联,信息可以在有限的用户标注关联信息的基础上对后续输入的结构化/非结构化信息进行自动关联,形成知识图谱的自适应构建。
3.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,通过对特征向量进行相似度比对,确定相似信息的能力。
4.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,对相似信息引入相同的信息关联标注。
5.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,对文本类型的非结构化信息的特征提取和向量化表达,所用算法以doc2vec为基础,该算法是google词向量技术的扩展,通过采用针对宽采样窗体来实现对文本信息的精确特征捕捉和特征向量生成;
所述宽采样窗体的采样宽度为200。
6.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,对音频类型的非机构和信息的特征向量表达能力:对音频信号通过递归神经网络网络实现编码,递归神经网络的结构为1000个输入单元,500个隐含神经元。
7.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,对图片类型的非结构化信息的特征向量化表达能力:使用以残差网络resnet-50作为特征提取算法,通过其全连接层作为特征向量输出,特征向量长度设定为128。
8.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,对视频类型的非结构化信息的特征向量表达能力:视频信息的特征向量生成需要采用3中的基于图片的特征向量生成技术对从视频中定期截取的帧进行编码,再将向量集合通过递归神经网络网络实现再编码,从而生成视频信息对应的特征向量,用于编码的递归神经网络架构为4096个输入单元,800个隐含神经元;
所述特征向量生成技术:生成特征向量,对于每一帧的特征向量长度设定为32,采样数量为128。
9.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,特征向量的排序按照标准的几何向量排序方式。
10.根据权利要求1所述的一种基于机器学习的构建自适应知识图谱技术的方法,其特征在于,相似度比对方式为计算两个特征向量之间的KL散度数值,相似单体的数量k通常设置为3或5。
CN201910722435.XA 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法 Active CN110879843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722435.XA CN110879843B (zh) 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722435.XA CN110879843B (zh) 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法

Publications (2)

Publication Number Publication Date
CN110879843A CN110879843A (zh) 2020-03-13
CN110879843B true CN110879843B (zh) 2020-08-04

Family

ID=69727426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722435.XA Active CN110879843B (zh) 2019-08-06 2019-08-06 基于机器学习的构建自适应知识图谱技术的方法

Country Status (1)

Country Link
CN (1) CN110879843B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528477A (zh) * 2022-01-10 2022-05-24 华南理工大学 面向科研应用的自动机器学习实现方法、平台及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答系统的医学知识库构建方法
CN107944898A (zh) * 2016-10-13 2018-04-20 驰众信息技术(上海)有限公司 广告投放楼宇信息的自动发现与排序方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047441A1 (en) * 2004-08-31 2006-03-02 Ramin Homayouni Semantic gene organizer
US9606988B2 (en) * 2014-11-04 2017-03-28 Xerox Corporation Predicting the quality of automatic translation of an entire document
CN106886572B (zh) * 2017-01-18 2020-06-19 中国人民解放军信息工程大学 基于Markov逻辑网的知识图谱关系类型推测方法及其装置
CN109697233B (zh) * 2018-12-03 2023-06-20 中电科大数据研究院有限公司 一种知识图谱体系搭建方法
CN109918478A (zh) * 2019-02-26 2019-06-21 北京悦图遥感科技发展有限公司 基于知识图谱获取地理产品数据的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN107944898A (zh) * 2016-10-13 2018-04-20 驰众信息技术(上海)有限公司 广告投放楼宇信息的自动发现与排序方法
CN106844723A (zh) * 2017-02-10 2017-06-13 厦门大学 基于问答系统的医学知识库构建方法

Also Published As

Publication number Publication date
CN110879843A (zh) 2020-03-13

Similar Documents

Publication Publication Date Title
CN106874378B (zh) 基于规则模型的实体抽取与关系挖掘构建知识图谱的方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN111931061B (zh) 标签映射方法、装置、计算机设备及存储介质
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN113157965B (zh) 音频可视化模型训练及音频可视化方法、装置及设备
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN112528010B (zh) 知识推荐方法、装置、计算机设备及可读存储介质
CN111242033A (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN102855317A (zh) 一种基于演示视频的多模式索引方法及系统
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN113239159A (zh) 基于关系推理网络的视频和文本的跨模态检索方法
CN116150404A (zh) 一种基于联合学习的教育资源多模态知识图谱构建方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN110879843B (zh) 基于机器学习的构建自适应知识图谱技术的方法
CN110674265B (zh) 面向非结构化信息的特征判别与信息推荐系统
CN112749566B (zh) 一种面向英文写作辅助的语义匹配方法及装置
CN117216293A (zh) 一种多方式查询高校档案知识图谱构建方法及管理平台
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116561639A (zh) 一种面向开源情报的多模态数据情感分析方法
CN115599953A (zh) 视频文本检索模型的训练方法、检索方法及相关设备
CN115203532A (zh) 一种项目推荐方法、装置、电子设备及存储介质
CN114842301A (zh) 一种图像注释模型的半监督训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant