CN110472107B - 多模态知识图谱构建方法、装置、服务器以及存储介质 - Google Patents

多模态知识图谱构建方法、装置、服务器以及存储介质 Download PDF

Info

Publication number
CN110472107B
CN110472107B CN201910778329.3A CN201910778329A CN110472107B CN 110472107 B CN110472107 B CN 110472107B CN 201910778329 A CN201910778329 A CN 201910778329A CN 110472107 B CN110472107 B CN 110472107B
Authority
CN
China
Prior art keywords
data
module
construction
graph
micro
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910778329.3A
Other languages
English (en)
Other versions
CN110472107A (zh
Inventor
江小琴
刘文强
程序
谢思发
张涵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910778329.3A priority Critical patent/CN110472107B/zh
Publication of CN110472107A publication Critical patent/CN110472107A/zh
Application granted granted Critical
Publication of CN110472107B publication Critical patent/CN110472107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种多模态知识图谱构建方法、装置、服务器以及存储介质,应用于多模态知识图谱构建系统的构建层,构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,流式构建拓扑模块获取游戏领域的结构化数据,并对游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;微服务集合模块获取游戏领域的非结构化数据,并对游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;工具集模块按照预设周期对粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。基于上述方案,能够实现快速构建多模态知识图谱。

Description

多模态知识图谱构建方法、装置、服务器以及存储介质
技术领域
本发明涉及知识图谱技术领域,更具体的说,是涉及一种多模态知识图谱构建方法、装置、服务器以及存储介质。
背景技术
知识图谱于2012年由Google正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着AI(Artificial Intelligence,人工智能)技术发展和应用,知识图谱作为关键技术之一,已被广泛应用。
知识图谱能够把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制抽象成实体而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。知识图谱可以为信息推荐、语义理解、问题回答等提供支持,针对知识图谱的研究有重要意义。
本发明的发明人发现,随着技术的发展,越来越多的游戏被开发出来,为实现游戏推荐等目的,利用知识图谱了解不同游戏之间的相关性非常必要,因此,如何实现游戏的知识图谱的构建,成为了本领域技术人员需要考虑的问题。
发明内容
有鉴于此,本发明提供了一种多模态知识图谱构建方法、装置、服务器以及存储介质,以实现多模态知识图谱的构建。
为实现上述目的,一方面,本申请提供了一种多模态知识图谱构建方法,应用于多模态知识图谱构建系统的构建层,所述构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,所述方法包括:
所述流式构建拓扑模块获取游戏领域的结构化数据,并对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
所述微服务集合模块获取游戏领域的非结构化数据,并对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;
所述工具集模块按照预设周期对所述粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
又一方面,本申请还提供了一种多模态知识图谱构建装置,包括流式构建拓扑模块、微服务集合模块以及工具集模块;
所述流式构建拓扑模块,用于获取游戏领域的结构化数据,并对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
所述微服务集合模块,用于获取游戏领域的非结构化数据,并对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;
所述工具集模块,用于按照预设周期对所述粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
又一方面,本申请还提供了一种电子终端,包括:
处理器和存储器;所述处理器中包括流式构建拓扑模块、微服务集合模块以及工具集模块;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
所述流式构建拓扑模块获取游戏领域的结构化数据,并对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
所述微服务集合模块获取游戏领域的非结构化数据,并对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;
所述工具集模块按照预设周期对所述粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
又一方面,本申请还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上所述的多模态知识图谱构建方法。
经由上述的技术方案可知,与现有技术相比,本发明提供了一种多模态知识图谱构建方法、装置、服务器以及存储介质,应用于多模态知识图谱构建系统的构建层,构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,流式构建拓扑模块获取游戏领域的结构化数据,并对游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;微服务集合模块获取游戏领域的非结构化数据,并对游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;工具集模块按照预设周期对粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。基于上述方案,能够实现快速构建多模态知识图谱。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提出的一种多模态知识图谱构建系统的架构示意图;
图2为本申请实施例提供的一种多模态知识图谱构建方法的流程示意图;
图3为本申请实施例提供的另一种多模态知识图谱构建方法的流程示意图;
图4为本申请实施例提供的一种多模态知识图谱构建系统的应用例示意图;
图5为本申请实施例提供的一种多模态知识图谱示意图;
图6为本申请实施例提供的一种多模态知识图谱构建装置的结构示意图;
图7为本申请实施例提供的一种电子终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请发明人发现,如果要利用知识图谱了解不同游戏之间的相关性,需要构建一个涵盖游戏行业内所有游戏的多模态知识图谱,该知识图谱需要尽可能的包括每个游戏生命周期内的所有信息,除了包含每个游戏的基本属性,如开发商、发行时间等,还要包含游戏的一些热度指标,如下载量、同时在线人数、直播热度等。
爬虫每天从互联网上爬取的游戏最新数据达百万条级别,并且针对不同的数据类型甚至实体属性都有不同的处理方式。如,文本类数据就需要用NLP(Natural LanguageProcessing,自然语言处理)算法进行处理,提取出实体、关系及属性甚至事件;图片类文件就需要用到深度学习算法CNN(Convolutional Neural Networks,卷积神经网络)进行特征提取等。如何对这些数据分而治之,并有序的链接和融合在一起实现一个涵盖游戏行业内所有游戏的多模态知识图谱的构建,成为本申请发明人首先想要解决的问题。
为解决上述问题,本申请发明人首先提出采用批量式方式构建多模态知识图谱,批量方式构建知识图谱即间隔一段时间批量清洗数据,批量知识抽取、批量实体消歧、批量知识链接、批量知识融合等几个阶段构建知识图谱。但是采用批量式方式构建多模态知识图谱,必须等到在前一次知识图谱构建操作之后爬取的游戏数据达到一定的量,或者,距离前一次知识图谱构建操作的间隔时间达到一定的时长才会触发后一次知识图谱构建操作,这样会导致多模态知识图谱的更新不够及时。
另外,目前常用的批量式构建知识图谱的系统中的功能模块之间没有有效的通信机制,不同的功能模块处理的中间结果的存储位置不同,比如有的存储至数据库,有的存储至磁盘,因此,会导致知识图谱的构建效率不高。
为避免出现上述采用批量式方式构建多模态知识图谱的问题,本申请发明人提出采用流式的方式构建多模态知识图谱,采用流式的方式构建多模态知识图谱,可以实现获取到一条游戏数据之后即刻对该条游戏数据进行处理,而不必等到数据达到一定的量或间隔一定的时间再处理,这样,可以保证多模态知识图谱及时更新。
另外,目前常用的流式构建知识图谱的系统,在构建知识图谱的过程中,一直处于在线状态,其中的功能模块的处理的中间结果一直存储在内存中,因此,知识图谱的构建效率要比批量式构建知识图谱的系统高。
另外,本申请发明人还发现,构建多模态知识图谱所需的知识(实体信息、关系信息及属性信息)主要来自非结构化数据,比如,网站上的非结构化数据可以构建涵盖游戏行业98%的游戏的实体信息。基于此,需要从非结构化数据中抽取构建多模态知识图谱所需的知识,但是,从非结构化数据中抽取构建多模态知识图谱所需的知识的过程中,会用到机器学习的相关技术,但是机器学习的相关技术需要大量的训练样本支持,比如,从文本数据中抽取的实体、关系及属性会用到NLP算法,而该算法需要大量语料库、数据规模及标注样本量支持,而游戏知识图谱属于新领域的知识图谱,目前没有有效的数据积累,因此,从非结构化数据中抽取构建多模态知识图谱所需的知识的效果并不好。
为解决上述问题,本申请发明人提出以从结构化数据抽取构建多模态知识图谱所需的知识为主,以从非结构化数据抽取构建多模态知识图谱所需的知识为辅的方式构建多模态知识图谱。
基于上述内容,本申请提出了一种多模态知识图谱构建系统,以实现多模态知识图谱的构建。
请参阅图1,图1为本申请提出的一种多模态知识图谱构建系统的架构示意图。该系统主要包括数据层、构建层、知识层以及应用层,每一层都有很多功能模块,为了让某个功能模块在调整重启的过程中不影响其他模块的正常运行,以及,为了该功能模块在调整重启的过程中,流式数据不会丢失,本系统中采用了Kafka(卡夫卡)消息总线在数据层、构建层、知识层以及应用层间传输数据。
其中,数据层包括模型训练数据模块,爬虫数据模块、内部合作数据模块以及众包打分数据模块。
模型训练数据模块可以为tesla训练模型模块,tesla即腾讯算法计算平台,tesla训练模型模块包括各种深度学习模型,如BERT、CNN、KGAN等,以及,机器学习模型,如LR、XGBOOST等。爬虫数据模块中存储有爬虫爬取的结构化数据以及非结构化数据。内部合作数据模块以及众包打分数据模块,主要存储有用于对多模态知识图谱的属性值进行扩充所需的数据,这些数据是通过对excel或数据库中的数据进行字段映射得到的。
需要说明的是,爬虫数据模块、内部合作数据模块以及众包打分数据模块中的数据均会传入SDK(Software Development Kit,软件开发工具包)模块,由SDK模块根据不同的数据类型,如属性值、新闻文本、评论文本、图片及视频链接,将数据分发上报至Kafka消息总线中的4个订阅号,即,属性值订阅号、新闻文本订阅号、评论文本订阅号、图片及视频链接订阅号。模型训练数据模块中的数据直接分发上报至Kafka消息总线中的4个订阅号。
具体的,将属性值分发上报至Kafka消息总线中的属性值订阅号,将新闻文本分发上报至Kafka消息总线中的新闻文本订阅号,将评论文本上报至Kafka消息总线中的新闻文本订阅号,将图片及视频链接分发上报至Kafka消息总线中的图片及视频链接订阅号。
构建层包括流式构建拓扑模块、微服务集合模块、工具集模块、实体链接模块、配置中心模块及监测告警中心模块。
流式构建拓扑模块用于订阅Kafka消息总线中的属性值订阅号获取结构化数据,并对结构化数据进行在线流式处理,具体的处理包括数据清洗、知识融合及图谱数据落地。
流式构建拓扑模块对结构化数据进行在线流式处理之后,将生成构建多模态知识图谱所需的知识(实体信息、关系信息及属性信息),并将这些知识录入图数据库(如neo4j),生成图谱构建拓扑图。
但是,通过流式构建拓扑模块以及微服务集合模块构建的粗粒度的图谱存在一些问题,首先,因为本申请中是流式构建图谱,互联网上每天都有新游戏发行,新游戏上线的时候,信息量比较少,本申请中爬虫不可能一次性爬到这款游戏的所有名称及别称,就有可能在图谱层生成多个同义的游戏实体;但是随着时间推移这款新游的信息在互联网上不断增加,本申请中可以将这款游戏的所有称呼爬到,本申请中就可识别它们是一个实体;其次,因为本申请中是用实体名经过一系列规则处理后生成实体名同义词库进行实体链接,但有一小部分游戏根据实体名同义词库是区分不出来是同款游戏,所以会导致一款游戏多个实体。
本申请中在构建层中的工具集模块就是为了解决上述问题而设置的,工具集模块按照预设周期(比如,每周)对粗粒度的图谱中的数据进行校正,生成精细化图谱。
优选的,还可利用精细化图谱进行知识图谱表示学习生成图谱embedding(嵌入)模块及知识推理。
配置中心模块用于负责pb通信协议字段的配置及数据源的可信度配置;监测告警中心模块用于负责错误告警及数据统计。
知识层包括游戏周边信息模块、行业知识图谱模块、单业务图谱模块、图谱embedding模块,这些模块中的知识,如图谱embedding模块中的知识embedding、文章向量、图片特征向量、语音特征向量等知识,单业务图谱模块中的战队、角色、道具等知识,行业知识图谱模块中的公司、人、游戏等知识,游戏周边信息模块中的下载量及输入、在线人数、视频及直播热度等知识,可采用mysql、neo4j、cos及tdw中的任一形式进行存储。
应用层主要用于对外提供服务,本系统中提供了四种方式,第一种是号码包及报告方式,主要用于游戏拉新、画像分析、新游排行预测及行业趋势分析。第二种是Grpc接口方式,主要用于基于图谱数据的内容推荐场景,涉及到文章相似度计算、文章分类、图谱embedding查询、标签扩散,这种场景长期在线,对实时性要求也高。第三种是Restful Api接口方式,主要应用于QA问答系统对接企业微信机器人及微信公众号及游戏图谱数据查询,本实施例中可以采用flask提供Restful Api接口。第四种是门户网站方式,如gamekg.oa.com。
需要说明的是,流式构建拓扑模块可以采用strom、flink,spark streaming等流式计算方式中的任意一种。
基于图1所示的多模态知识图谱构建系统,本申请提出了一种多模态知识图谱构建方法,具体通过以下实施例详细说明。
请参阅图2,图2为本申请实施例提供的一种多模态知识图谱构建方法的流程示意图,该方法应用于多模态知识图谱构建系统的构建层,构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,该方法包括如下步骤:
S201:流式构建拓扑模块获取游戏领域的结构化数据,并对游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图。
本申请中,流式构建拓扑模块可采用storm流式计算方式生成图谱构建拓扑图,对结构化数据进行在线流式处理,数据流经storm,会经历数据清洗、实体链接、属性融合生成实体、关系及属性,最后录入图数据库,生成图谱构建拓扑图。
S202:微服务集合模块获取游戏领域的非结构化数据,并对游戏领域的非结构化数据进行处理,以在图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱。
本申请中,微服务集合模块中的一个个的微服务去处理非结构化数据,如:从新闻文本中提取实体、属性、关系和事件;从评论文本中提取观点及情感词;从图片中提取画风等。S201与S202相辅相成,通过数据总线进行数据路由分发及数据共享,以实体ID的方式链接起来,最终会构建一张粗粒度的多模态知识图谱。
S203:工具集模块按照预设周期对粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
本申请中,工具集模块可按照预设周期(如每周)对这张粗粒度的图谱进行扫描修正及知识消歧校正图谱数据,最终形成精细化的多模态知识图谱。需要说明的是,本申请中还可用精细化的多模态知识图谱进行知识图谱表示学习及知识推理。
本实施例提供了一种多模态知识图谱构建方法,应用于多模态知识图谱构建系统的构建层,构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,流式构建拓扑模块获取游戏领域的结构化数据,并对游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;微服务集合模块获取游戏领域的非结构化数据,并对游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;工具集模块按照预设周期对粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。基于上述方案,能够实现快速构建多模态知识图谱。
请参阅图3,图3为本申请实施例提供的另一种多模态知识图谱构建方法的流程示意图,该方法应用于多模态知识图谱构建系统的构建层,构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,该方法包括如下步骤:
S301:流式构建拓扑模块订阅Kafka消息总线中的属性值订阅号,获取游戏领域的结构化数据,游戏领域的结构化数据包括属性值订阅号中的属性值。
需要说明的是,属性值订阅号中的属性值是结构化的。
S302:流式构建拓扑模块对所述游戏领域的结构化数据进行数据清洗、知识融合及图谱数据落地处理,生成构建多模态知识图谱所需的知识。
其中,所述流式构建拓扑模块对所述游戏领域的结构化数据进行知识融合处理,包括:所述流式构建拓扑模块对所述游戏领域的结构化数据进行实体链接处理以及属性融合。
流式构建拓扑模块对游戏领域的结构化数据进行实体链接处理以及属性融合,包括:流式构建拓扑模块通过实体名对游戏领域的结构化数据处理后提取出词干生成实体名同义词库将不同实体进行链接;
流式构建拓扑模块按照游戏领域的结构化数据的数据源的可信度排序,选取排序靠前的预设数量的结构化数据作为实体属性的值。
详细说明如下:
数据清洗主要是用正则化去检查数据的合法性及格式的正确性。图谱数据落地包括两部分,一部分是知识未融合前的原始数据落地,这个主要是为知识融合出错做图谱校正时做的数据备份,另一个是知识融合后的数据写入图数据库,如neo4j。知识融合包括实体链接及属性融合。
下面,对流式构建拓扑模块的实体链接处理方式以及属性融合方式进行详细介绍。
实体链接指的是通过实体名经过一系列的规则处理后提取出词干生成实体名同义词库将不同实体链接在一块,如同一游戏在各大网站可能叫不一样的名字,有的叫中文名字,有的叫英文名字,有的中英文放一起作为游戏名称,还有的游戏实体名会加一些《》、空格、-、“”等符号,因此,本申请中,流式构建拓扑模块在用实体名做实体链接时包含有以下步骤:
步骤一:将实体名进行切割,如:一款游戏叫“猎血与酒The Witcher 3:WildHunt-Blood and Wine”,游戏的中英文名称放在了一起,我们会用jieba分词将游戏名切割成"猎血与酒"与”The Witcher 3:Wild Hunt-Blood and Wine”。
步骤二:去掉实体名中的《》、空格、:及下滑线等符号。
步骤三:提取实体名称词干,如去掉“游戏”、“公司”、“工作室”这些词。
步骤四:拿经过步骤一至步骤三处理过后生成的实体名列表去匹配实体名的同义词库,查找游戏的实体ID,如没有找到,则进行下一步。
步骤五:将实体名列表加入到实体名同义词库,选取其中一个名称作为实体ID,我们通过实体ID将同一实体链接在一起。
另外,因为一个实体可能来自多个源,每个数据源的权威和数据的准确度都不一样,流式构建拓扑模块将各个数据源按可信度进行排序,优先选取可信度高的数据源的数据作为实体属性的值,可信度低的数据源的数据作为实体属性的补充。这一过程即为流式构建拓扑模块的属性融合。
S303:流式构建拓扑模块将所述构建多模态知识图谱所需的知识录入图数据库,生成所述图谱构建拓扑图。
流式构建拓扑模块对结构化数据进行在线流式处理之后,将生成构建多模态知识图谱所需的知识(实体信息、关系信息及属性信息),并将这些知识录入图数据库(如neo4j),生成图谱构建拓扑图。
S304:微服务集合模块订阅Kafka消息总线中的新闻文本订阅号、评论文本订阅号、图片及视频链接订阅号获取游戏领域的非结构化数据。
游戏领域的非结构化数据包括新闻文本订阅号中的新闻文本数据、评论文本订阅号中的评论文本数据、图片及视频链接订阅号中的图片、音频及视频文件。
S305:微服务集合模块对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱。
在本申请中,微服务集合模块中包含多个微服务,具体可通过微服务集合模块中的知识抽取微服务对新闻文本订阅号中的新闻文本数据进行知识抽取处理;通过微服务集合模块中的游戏语料提取微服务对新闻文本订阅号中的新闻文本数据进行游戏语料抽取处理;通过微服务集合模块中的事件提取微服务对新闻文本订阅号中的新闻文本数据进行事件抽取处理;通过微服务集合模块中的观点及情感词提取微服务对评论文本订阅号中的评论文本数据进行观点及情感词提取处理;通过微服务集合模块中的文件下载微服务对图片及视频链接订阅号中的图片、视频及音频文件进行处理。
详细说明如下:
微服务集合模块中包括多个微服务,多个微服务用于订阅Kafka消息总线中的新闻文本订阅号、评论文本订阅号、图片及视频链接订阅号,获取非结构化数据。
其中,新闻文本订阅号中的新闻文本数据可以用来做知识抽取、游戏语料及事件抽取。由于知识抽取、游戏语料及事件抽取所用到的NLP技术不一样,因此,本申请中设置三个微服务,同时去订阅新闻文本订阅号,具体的,设置知识抽取微服务,知识抽取微服务从新闻文本数据中抽取实体、关系及属性,并调用SDK模块上报到属性值订阅号,经流式构建拓扑模块进行知识融合;另外,还设置一个游戏语料提取微服务,游戏语料提取微服务提取的语料会直接存入mysql语料库;另外,还设置了一个事件提取微服务,事件提取微服务提取的事件会通过grpc查询实体链接服务,将事件链接到实体上。
评论文本订阅号中的评论文本数据可以用来做观点及情感词提取,因此,本申请中,设置一个观点及情感词提取微服务去订阅评论文本订阅号,并用NLP技术提取出评论文本数据中的观点及情感词,然后通过实体链接模块进行实体链接处理。
另外,本申请中还设置了一个文件下载微服务订阅图片及视频链接订阅号,将图片、视频及音频文件下载下来存入COS分布式文件存储系统,同时对图片利用CV技术及卷积神经网络CNN,提取出图片画风属性值及特征向量;从音频文件中提取音效属性值及特征向量。图片画风及音效属性值会上报到属性值订阅号,经流式构建拓扑模块进行知识融合。特征向量会经实体链接模块进行实体链接处理后,写入图谱embedding库。
通过流式构建拓扑模块以及微服务集合模块对Kafka消息总线中的订阅号中的数据进行处理,构建粗粒度的图谱。
S306:工具集模块按照预设周期通过图谱扫描修正工具和知识消岐工具对粗粒度的多模态知识图谱。
需要说明的是,通过流式构建拓扑模块以及微服务集合模块构建的粗粒度的图谱存在一些问题,第一个问题是,因为本申请中是流式构建图谱,互联网上每天都有新游戏发行,新游戏上线的时候,信息量比较少,本申请中爬虫不可能一次性爬到这款游戏的所有名称及别称,就有可能在图谱层生成多个同义的游戏实体;但是随着时间推移这款新游的信息在互联网上不断增加,本申请中可以将这款游戏的所有称呼爬到,本申请中就可识别它们是一个实体;第二个问题是,因为本申请中是用实体名经过一系列规则处理后生成实体名同义词库进行实体链接,但有一小部分游戏根据实体名同义词库是区分不出来是同款游戏,所以会导致一款游戏多个实体。
本申请中在构建层中的工具集模块就是为了解决上述问题而设置的,具体的,工具集模块中至少包括图谱扫描修正工具和知识消岐工具。其中,图谱扫描修正工具是为了修正上面所说例子中的第一个问题,它会每周定期扫描图谱数据,发现同义的实体,就将他们的实体名同义词合并,删除多余实体,只留一个实体,同时将链接接到这些多余实体的爬虫原始数据从数据库拉取出来,调用SDK模块,重新流入流式构建拓扑模块进行知识融合,达到修正图谱数据的目的。
知识消歧工具是为了修正上面所说例子中的第二个问题,主要修正实体名链接出错的问题,本申请中采用以下办法进行知识消歧,在一种可实施方式中,由于有些游戏根据游戏名是看不出来是同款游戏,但是他们的游戏封面图却是一样的,所以本申请中可以计算两款游戏封面图片的相似度来识别这些游戏是不是同款游戏;在另一种可实施方式中,本申请中尝试用编辑距离、集合相似度计算、基于向量的相似度计算、还有用深度学习方法计算三元组置信度等方法计算实体相似度,达到知识消歧目的。
基于上述系统及方法实施例,本申请还提出了一种多模态知识图谱构建系统的应用例。
请参阅附图4,图4为本申请实施例提供的一种多模态知识图谱构建系统的应用例示意图。基于该系统可生成游戏领域内最大最全的游戏知识图谱,该知识图谱中包括实体22万+、关系62.1万+、属性133.8万+。如图5所示,为基于图4的系统生成的多模态游戏领域知识图谱示意图。
另外,本申请还提供了一种多模态知识图谱构建装置。
请参阅图6,图6为本申请实施例提供的一种多模态知识图谱构建装置的结构示意图,该装置包括流式构建拓扑模块61、微服务集合模块62以及工具集模块63;
流式构建拓扑模块61,用于获取游戏领域的结构化数据,并对游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
微服务集合模块62,用于获取游戏领域的非结构化数据,并对游戏领域的非结构化数据进行处理,以在图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;
工具集模块63,用于按照预设周期对粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
需要说明的是,上述各个单元的具体功能实现已在上述实施例中详细描述,本实施例不再赘述。
另一方面,本申请还提供了一种电子终端,如参见图7,其示出了本申请的构建层的一种组成结构示意图,本实施例的电子终端1100可以包括:处理器1101和存储器1102。
可选的,该电子终端还可以包括通信接口1103、输入单元1104和显示器1105和通信总线1106。
处理器1101、存储器1102、通信接口1103、输入单元1104、显示器1105、均通过通信总线1106完成相互间的通信。
在本申请实施例中,该处理器1101,可以为中央处理器(Central ProcessingUnit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器可以调用存储器1102中存储的程序。具体的,处理器可以执行多模态知识图谱方法的实施例中构建层所执行的操作。
存储器1102中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
一种多模态知识图谱构建方法,应用于多模态知识图谱构建系统的构建层,所述构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,所述方法包括:
所述流式构建拓扑模块获取游戏领域的结构化数据,并对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
所述微服务集合模块获取游戏领域的非结构化数据,并对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱;
所述工具集模块按照预设周期对所述粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
在一种可能的实现方式中,该存储器1102可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如图像播放功能等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,用户访问数据以及音频、视频、图像数据等等。
此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口1103可以为通信模块的接口,如GSM模块的接口。
本申请还可以包括显示器1105和输入单元1104等等。
当然,图7所示的电子终端的结构并不构成对本申请实施例中电子终端的限定,在实际应用中电子终端可以包括比图7所示的更多或更少的部件,或者组合某些部件。
另一方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例中电子终端执行的多模态知识图谱构建方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种多模态知识图谱构建方法,其特征在于,应用于多模态知识图谱构建系统的构建层,所述构建层包括流式构建拓扑模块、微服务集合模块以及工具集模块,所述方法包括:
所述流式构建拓扑模块获取游戏领域的结构化数据,并对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
所述微服务集合模块获取游戏领域的非结构化数据,并对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱,具体包括:所述流式构建拓扑模块和所述微服务集合模块通过卡夫卡消息总线进行数据路由分发和数据共享,并以实体ID的方式链接起来,得到粗粒度的多模态知识图谱;
所述工具集模块按照预设周期通过图谱扫描修正工具和知识消岐工具对所述粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述流式构建拓扑模块获取游戏领域的结构化数据,包括:
所述流式构建拓扑模块订阅卡夫卡消息总线中的属性值订阅号,获取游戏领域的结构化数据,所述游戏领域的结构化数据包括所述属性值订阅号中的属性值。
3.根据权利要求2所述的方法,其特征在于,所述微服务集合模块获取游戏领域的非结构化数据,包括:
所述微服务集合模块订阅所述卡夫卡消息总线中的新闻文本订阅号、评论文本订阅号、图片及视频链接订阅号获取游戏领域的非结构化数据,所述游戏领域的非结构化数据包括所述新闻文本订阅号中的新闻文本数据、所述评论文本订阅号中的评论文本数据、所述图片及视频链接订阅号中的图片、音频及视频文件。
4.根据权利要求1或2所述的方法,其特征在于,所述流式构建拓扑模块对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图,包括:
所述流式构建拓扑模块对所述游戏领域的结构化数据进行数据清洗、知识融合及图谱数据落地处理,生成构建多模态知识图谱所需的知识;其中,所述流式构建拓扑模块对所述游戏领域的结构化数据进行知识融合处理,包括:所述流式构建拓扑模块对所述游戏领域的结构化数据进行实体链接处理以及属性融合;
将所述构建多模态知识图谱所需的知识录入图数据库,生成所述图谱构建拓扑图。
5.根据权利要求1所述的方法,其特征在于,所述微服务集合模块中包含多个微服务,所述微服务集合模块对所述游戏领域的非结构化数据进行处理,包括:
通过所述微服务集合模块中的知识抽取微服务对新闻文本订阅号中的新闻文本数据进行知识抽取处理;
通过所述微服务集合模块中的游戏语料提取微服务对新闻文本订阅号中的新闻文本数据进行游戏语料抽取处理;
通过所述微服务集合模块中的事件提取微服务对新闻文本订阅号中的新闻文本数据进行事件抽取处理;
通过所述微服务集合模块中的观点及情感词提取微服务对评论文本订阅号中的评论文本数据进行观点及情感词提取处理;
通过所述微服务集合模块中的文件下载微服务对图片及视频链接订阅号中的图片、视频及音频文件进行处理。
6.根据权利要求4所述的方法,其特征在于,所述流式构建拓扑模块对所述游戏领域的结构化数据进行实体链接处理以及属性融合,包括:
所述流式构建拓扑模块通过实体名对所述游戏领域的结构化数据处理后提取出词干生成实体名同义词库将不同实体进行链接;
所述流式构建拓扑模块按照所述游戏领域的结构化数据的数据源的可信度排序,选取排序靠前的预设数量的结构化数据作为实体属性的值。
7.一种多模态知识图谱构建装置,其特征在于,包括流式构建拓扑模块、微服务集合模块以及工具集模块;
所述流式构建拓扑模块,用于获取游戏领域的结构化数据,并对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
所述微服务集合模块,用于获取游戏领域的非结构化数据,并对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱,具体包括:所述流式构建拓扑模块和所述微服务集合模块通过卡夫卡消息总线进行数据路由分发和数据共享,并以实体ID的方式链接起来,得到粗粒度的多模态知识图谱;
所述工具集模块,用于按照预设周期通过图谱扫描修正工具和知识消岐工具对所述粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
8.一种电子终端,其特征在于,包括:
处理器和存储器;所述处理器中包括流式构建拓扑模块、微服务集合模块以及工具集模块;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
所述流式构建拓扑模块获取游戏领域的结构化数据,并对所述游戏领域的结构化数据进行在线流式处理,生成图谱构建拓扑图;
所述微服务集合模块获取游戏领域的非结构化数据,并对所述游戏领域的非结构化数据进行处理,以在所述图谱构建拓扑图的基础上构建粗粒度的多模态知识图谱,具体包括:所述流式构建拓扑模块和所述微服务集合模块通过卡夫卡消息总线进行数据路由分发和数据共享,并以实体ID的方式链接起来,得到粗粒度的多模态知识图谱;
所述工具集模块按照预设周期通过图谱扫描修正工具和知识消岐工具对所述粗粒度的多模态知识图谱进行校正,以构建精细化的多模态知识图谱。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至6任一项所述的多模态知识图谱构建方法。
CN201910778329.3A 2019-08-22 2019-08-22 多模态知识图谱构建方法、装置、服务器以及存储介质 Active CN110472107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910778329.3A CN110472107B (zh) 2019-08-22 2019-08-22 多模态知识图谱构建方法、装置、服务器以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910778329.3A CN110472107B (zh) 2019-08-22 2019-08-22 多模态知识图谱构建方法、装置、服务器以及存储介质

Publications (2)

Publication Number Publication Date
CN110472107A CN110472107A (zh) 2019-11-19
CN110472107B true CN110472107B (zh) 2024-01-30

Family

ID=68512742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910778329.3A Active CN110472107B (zh) 2019-08-22 2019-08-22 多模态知识图谱构建方法、装置、服务器以及存储介质

Country Status (1)

Country Link
CN (1) CN110472107B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190955B (zh) * 2019-12-12 2023-03-28 西安交通大学 一种基于知识图谱的营配调贯通核查方法
CN111259087B (zh) * 2020-01-10 2022-10-14 中国科学院软件研究所 基于领域知识库的计算机网络协议实体链接方法和系统
CN111221984B (zh) * 2020-01-15 2024-03-01 北京百度网讯科技有限公司 多模态内容处理方法、装置、设备及存储介质
CN111437607B (zh) * 2020-03-20 2023-08-18 腾讯科技(深圳)有限公司 图像处理方法及装置、电子设备和计算机可读存储介质
CN113535967B (zh) * 2020-04-17 2022-02-22 复旦大学 中文通用概念图谱纠错装置
CN111667074A (zh) * 2020-05-19 2020-09-15 北京海致星图科技有限公司 一种应用知识推理到知识图谱生成方法及系统
CN111858962B (zh) * 2020-07-27 2023-04-07 腾讯科技(成都)有限公司 数据处理方法、装置及计算机可读存储介质
US20220083876A1 (en) * 2020-09-17 2022-03-17 International Business Machines Corporation Shiftleft topology construction and information augmentation using machine learning
CN112163109A (zh) * 2020-09-24 2021-01-01 中国科学院计算机网络信息中心 一种基于图片的实体消歧方法及系统
CN112527915B (zh) * 2020-11-17 2021-08-27 北京科技大学 线性文化遗产知识图谱构建方法、系统、计算设备和介质
CN112528042A (zh) * 2020-12-17 2021-03-19 济南浪潮高新科技投资发展有限公司 一种多模态商品知识图谱构建方法
CN113449114A (zh) * 2020-12-31 2021-09-28 中国科学技术大学智慧城市研究院(芜湖) 基于知识图谱的构建自然人生命周期全息画像方法
CN112905891B (zh) * 2021-03-05 2021-12-10 中国科学院计算机网络信息中心 基于图神经网络的科研知识图谱人才推荐方法及装置
CN112732821B (zh) * 2021-03-31 2021-07-06 成都新希望金融信息有限公司 数据入库方法、装置、设备及存储介质
CN114792424A (zh) * 2022-05-30 2022-07-26 北京百度网讯科技有限公司 文档图像的处理方法、装置及电子设备
CN116307757B (zh) * 2023-01-18 2024-02-20 辽宁荣科智维云科技有限公司 一种数据智能交互方法、交互系统、计算机设备及应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052576A (zh) * 2017-12-08 2018-05-18 国家计算机网络与信息安全管理中心 一种事理知识图谱构建方法及系统
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN109918452A (zh) * 2019-02-14 2019-06-21 北京明略软件系统有限公司 一种数据处理的方法、装置、计算机存储介质及终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052576A (zh) * 2017-12-08 2018-05-18 国家计算机网络与信息安全管理中心 一种事理知识图谱构建方法及系统
CN109344262A (zh) * 2018-10-31 2019-02-15 百度在线网络技术(北京)有限公司 知识体系的建立方法、装置及存储介质
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN109918452A (zh) * 2019-02-14 2019-06-21 北京明略软件系统有限公司 一种数据处理的方法、装置、计算机存储介质及终端

Also Published As

Publication number Publication date
CN110472107A (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
CN110472107B (zh) 多模态知识图谱构建方法、装置、服务器以及存储介质
Steinert-Threlkeld Twitter as data
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN111538819B (zh) 一种基于文档集多跳推理的问答系统的构建方法
Pham et al. S3g2: A scalable structure-correlated social graph generator
CN108369709B (zh) 用于基于网络的广告数据业务时延减小的系统和方法
CN111563192B (zh) 实体对齐方法、装置、电子设备及存储介质
CN112052404B (zh) 多源异构关系网络的群体发现方法、系统、设备及介质
CN105631749A (zh) 基于统计数据的用户画像计算方法
CN113536144B (zh) 一种社交网络信息的传播规模预测方法、装置
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN111782637A (zh) 一种模型构建方法、装置及设备
CN104199969A (zh) 网页数据分析方法及装置
CN111597788A (zh) 基于实体对齐的属性融合方法、装置、设备及存储介质
US9300712B2 (en) Stream processing with context data affinity
CN105354343B (zh) 基于远程对话的用户特征挖掘方法
CN110069686A (zh) 用户行为分析方法、装置、计算机装置及存储介质
CN111858962A (zh) 数据处理方法、装置及计算机可读存储介质
CN110210884B (zh) 确定用户特征数据的方法、装置、计算机设备及存储介质
US9075670B1 (en) Stream processing with context data affinity
CN112507214B (zh) 基于用户名的数据处理方法、装置、设备及介质
CN111737425B (zh) 一种应答方法、装置、服务器及存储介质
CN112396151A (zh) 谣言事件的分析方法、装置、设备及计算机可读存储介质
CN112883725A (zh) 一种文案生成方法、装置、电子设备、存储介质
JP2009265889A (ja) 言語処理装置およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant