CN110489565B - 基于领域知识图谱本体中的对象根类型设计方法及系统 - Google Patents
基于领域知识图谱本体中的对象根类型设计方法及系统 Download PDFInfo
- Publication number
- CN110489565B CN110489565B CN201910756506.8A CN201910756506A CN110489565B CN 110489565 B CN110489565 B CN 110489565B CN 201910756506 A CN201910756506 A CN 201910756506A CN 110489565 B CN110489565 B CN 110489565B
- Authority
- CN
- China
- Prior art keywords
- type
- text
- multimedia
- entity
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于领域知识图谱本体中的对象根类型设计方法及系统,其中,所述方法包括:对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;根据对象根类型将实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;对文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。在本发明实施例中,增加了事件类型、文本类型和多媒体类型,并扩展到分类表达领域的知识中,可以更好的描述各种典型的领域场景。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于领域知识图谱本体中的对象根类型设计方法及系统。
背景技术
知识图谱(Knowledge Graph,KG)旨在描述客观世界的概念、实体、事件以及他们之间的关系;知识图谱的本质是有向图结构的知识库,是人工智能应用不可或缺的基础资源;知识图谱构建的基础是建立知识图谱的数据模型,即采用什么样的方式来表达知识,也称知识建模或知识体系构建,本质上就是构建一个本体模型对知识进行描述;本体(Ontology)源自西方哲学,用以描述世界上的客观存在;比较流行的本体概念是美国斯坦福大学知名学者Gruber提出的,即本体是关于某个实体概念体系的明确规范的说明。
知识图谱分为两类:通用知识图谱和领域知识图谱;通用的知识图谱可以认为是百科全书,比如Google知识图谱、DBpedia、YAGO和Freebase等;领域知识图谱是基于领域数据构建的知识图谱,用于特定领域内的分析研究工作。
通用知识图谱和领域知识图谱,从基础架构上基本相同,但由于领域知识图谱面向特定的领域数据和场景,具有更深的知识概念层级体系深度和更细的知识表示粒度。
Sumo(Suggested Upper Merged Ontology)及其领域本体是当今存在的最大的公共本体,主要用于搜索、自然语言处理和推理等应用,包括约25000多个词条(terms)和80000多条公理(axiom)。
Schema.org是2011年起,由Bing、Google、Yahoo和Yandex等搜索引擎公司共同支持的语义网项目。截至目前为止,总共包括800多项的对象类型,上述几个搜索引擎的知识图谱在此基础上扩展实现。
领域知识图谱刚刚起步,国内学者做了很多探索性研究,涉及农业、医药、植物学等领域,对不同层次的本体模型进行了分析,如顶层本体、领域上层本体和领域应用本体。
理论上,领域知识图谱的本体可参照通用知识图谱的本体设计,但这种仅以实体为根类型的分类方法,在领域知识图谱工程中会遇到很多问题。一方面这种分类方法太过复杂,分析人员往往无法直接理解;另一方面,在描述领域的对象如文本类型方面没有足够的针对性。领域知识图谱不是为了描述整个世界,而是要解决领域的业务需求,所以需要为领域设计专门的本体根类型;不同的领域需要关注的知识重点也各不相同,除了本领域中主要的实体之外,一些领域还关注与实体相关的事件行为,如电话的通话记录、个人的订票信息、银行卡的交易记录等;很多领域需要研究新闻文章、学术论文等文本对象;随着计算机和互联网的发展,多媒体也成为某些领域的关注对象,比如新闻视频、短视频、监控录像等。
对象根类型的分类是构建领域知识图谱的基础工作,而现有流行的通用知识图谱并没有按照领域数据的特点分类,唯一的根类型就是实体,这给领域知识表达带来缺陷,无法完整表达如文本、视频图片等知识和关联。
发明内容
本发明的目的在于克服现有技术的不足,本发明提供了一种基于领域知识图谱本体中的对象根类型设计方法及系统,增加了事件类型、文本类型和多媒体类型,并扩展到分类表达领域的知识中,可以更好的描述各种典型的领域场景。
为了解决上述技术问题,本发明实施例提供了一种基于领域知识图谱本体中的对象根类型设计方法,所述方法包括:
对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;
基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;
根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。
可选的,所述结构化数据为领域产生的数据,保存在关系数据库的二维表中;所述半结构化数据为文本数据;所述非结构化数据包括图片数据、声音数据和视频数据。
可选的,所述根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型,包括:
基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;
基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型。
可选的,所述对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果,包括:
对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;
基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。
可选的,所述对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,包括:
所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工;
所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工。
可选的,所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工,包括:
依次通过文本分词、分类聚类和情感分析算法从所述文本类型中,获取领域关键词、地区分类、文本情感态度、主要观点;
根据领域关键词、地区分类、文本情感态度、主要观点提取所述文本类型的实体对象和属性;
基于人工确认的交互方法精确提取的实体对象和关系。
可选的,所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工,包括:
基于人工标注的方式对所述多媒体类型进行分类,获取分类后的多媒体类型;
基于语音识别算法将分类后的多媒体类型中的音频文件转化为文本文件;
基于文本分析算法对所述文本文件进行文字识别,获取识别结果;
基于人脸识别算法对分类后的多媒体类型进行人物识别及标签提取处理,提取人物标签;
对所述识别结果和所述人物标签进行人工确认交互方式进行标识处理,获取多媒体场景、事件、人物和关系。
另外,本发明实施例还提供了一种基于领域知识图谱本体中的对象根类型设计系统,所述系统包括:
类型分类模块:用于对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;
对象构建模块:用于基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;
对象转化模块:用于根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
知识加工模块:用于对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。
可选的,所述对象转化模块包括:
对象根类型设计单元:用于基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;
对象转化单元:用于基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型。
可选的,所述知识加工模块包括:
知识转换加工单元:用于对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;
转换单元:用于基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。
在本发明实施例中,增加了事件类型、文本类型和多媒体类型,并扩展到分类表达领域的知识中,可以更好的描述各种典型的领域场景。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例中的基于领域知识图谱本体中的对象根类型设计方法的流程示意图;
图2是本发明实施例中的基于领域知识图谱本体中的对象根类型设计系统的结构组成示意图;
图3是本发明实施例中的对象根类型表达现实场景示意图;
图4是本发明实施例中的统一知识对象浏览的逻辑示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例
领域知识图谱构建的建模一般有自顶向下和自底向上两种途径:
自顶向下的方法是指在构建领域知识图谱时首先定义数据模式即本体,一般通过领域专家人工编制;从最顶层的概念开始定义,然后逐步细化,形成结构良好的分类层次结构;自顶向下的方法多用于领域知识图谱本体构建,这是因为:一方面,相对于开放域知识图谱,领域知识图谱涉及的概念和范围都是固定或者可控的;另一方面,对于领域知识图谱,要求其满足较高的精度。
自底向上的方法则相反,首先对现有实体进行归纳组织,形成底层的概念,再逐步往上抽象形成上层的概念;自底向上的方法则多用于开放域即通用知识图谱的本体构建,因为开放的世界太过复杂,用自顶向下的方法无法考虑周全,且随着世界变化,对应的概念还在增长,自底向上的方法则可满足概念不断增长的需要。
领域知识图谱建模的过程相当繁琐,而且构建过程往往因各自领域和具体工程的不同而有所不同,一般有人工、自动和半自动这三种构建方法。
1、人工构建
本体具有很高的抽象性及概括性,目前高质量的本体只能通过人工构建,即由大量的领域专家相互协作完成;常见的人工构建方法主要有Skeletal法(又称骨架法)、TOVE法、SENSUS法、Methontology法、Ontology Development 101法(又称七步法)等;七步法包括七个构建阶段:确定本体的领域和范围、考虑重用现有本体、列出本体中的重要术语、定义类和类的继承、定义属性和关系、定义属性的限制、创建实例。
2、自动化构建
自动构建本体通常也称为本体学习,其目标在于利用知识获取技术、机器学习技术以及统计技术等从数据资源中自动地获取本体知识,从而降低本体构建的成本;自动化建模过程包含三个阶段:实体并列关系相似度计算、实体上下位关系抽取、本体的生成。
完全自动地构建本体模型虽然是人们的终极目标,但是实践证明目前还难以达到,极少有方法能够得到覆盖率和准确率都表现良好的本体。
3、半自动化构建
半自动构建介于人工构建和自动构建之间;对于大多数领域而言,完全自动化地构建本体是难以实现的,通常还需要在领域专家的指导下进行,这就是半自动建模;半自动建模可以平衡自动化方法和人工参与,在效率可以接受的情况下实现一定的准确率。
在领域知识图谱构建中,为了达到较高精度的准确率、知识覆盖率和召回率,采用自顶向下的途径和人工构建的方法,来设计领域知识图谱的本体根类型。
领域知识图谱可用于各个行业领域的数据整合和业务分析,比如政府分析、媒体分析、电商分析、金融分析、公安情报分析、学术领域分析、学科分析、军事信息搜索等;领域本体(Domain Ontology)是领域知识图谱的基础概念,面向不同领域有不同的领域本体;在领域知识图谱工程中,最先需要确定的是本体中的对象类型;各个领域都有自己关注的主要对象,领域的知识化是围绕这些对象产生和收集数据,所以在构建领域知识图谱中,领域关注的主要对象就是知识图谱中主要的对象类型;表1是总结的多领域的主要对象类型。
表1是总结的多领域的主要对象类型
进一步的,通过对表格中各个领域的对象类型梳理,抽象出实体类型、事件类型、文本类型和多媒体类型等对象类型;首先,可以抽象出实体类型,主要的特点是能够和现实世界对应起来,在自己的领域中,能够作为主体存在,如实体类型包括:人物、组织、电话、产品、物品、证件等;其次,可以抽象出事件类型,事件类型包括:企业登记、通话记录、股票交易、订单、轨迹等,是实体的事件行为如个人的轨迹,或者实体之间的事件行为如电话之间的通话记录;再次,如表1中的带下划线的对象类型,是文本类型、多媒体类型等;这些在某些领域行业等所占的空间比例也是非常高,比如在媒体领域,产生大量的文章、新闻,文本类的数据占据很重要的地位,需要在文本中进行提取、分析等,文本应当作为一种基础对象类型;在电视媒体、公安等领域,产生大量的新闻、监控等视频,同样需要在视频中分析、研究、查找,所以视频等多媒体类型,也应该作为一种对象根类型。
请参阅图1,图1是本发明实施例中的基于领域知识图谱本体中的对象根类型设计方法的流程示意图。
如图1所示,一种基于领域知识图谱本体中的对象根类型设计方法,所述方法包括:
S11:对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;
在本发明具体实施过程中,所述结构化数据为领域产生的数据,保存在关系数据库的二维表中;所述半结构化数据为文本数据;所述非结构化数据包括图片数据、声音数据和视频数据。
具体的,对获得的数据进行类型分析,针对数据中的结构化、半结构化数据和非结构化数据构三种类型的数据进行分类,分类至领域知识图谱中结构化数据、半结构化数据以及非结构化数据;其中,结构化数据为领域产生的数据,保存在关系数据库的二维表中;半结构化数据为文本数据;非结构化数据包括图片数据、声音数据和视频数据。
S12:基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;
在本发明具体实施过程中,根据领域知识图谱分别对上述的结构化数据、半结构化数据以及非结构化数据依次进行对象构建,从而分别获得实体对象、事件对象、文本对象以及多媒体对象。
S13:根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
在本发明具体实施过程中,所述根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型,包括:基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型。
具体的,首先根据领域知识图谱通过分析结构化数据、半结构化数据以及非结构化数据三种数据将对象根类型设计为实体类型、事件类型、文本类型和多媒体类型,形成领域知识图谱的顶层概念;然后通过分析过人工导入或爬虫读取的方式,将领域中的结构化数据、半结构化数据和非结构化中的实体对象、事件对象、文本对象以及多媒体对象转抽取加工成根类型的知识对象,即顶层概念四种对象根类型的实例。
S14:对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。
在本发明具体实施过程中,所述对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果,包括:对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。
具体的,所述对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,包括:所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工;所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工。
进一步的,所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工,包括:依次通过文本分词、分类聚类和情感分析算法从所述文本类型中,获取领域关键词、地区分类、文本情感态度、主要观点;根据领域关键词、地区分类、文本情感态度、主要观点提取所述文本类型的实体对象和属性;基于人工确认的交互方法精确提取的实体对象和关系。
进一步的,所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工,包括:基于人工标注的方式对所述多媒体类型进行分类,获取分类后的多媒体类型;基于语音识别算法将分类后的多媒体类型中的音频文件转化为文本文件;基于文本分析算法对所述文本文件进行文字识别,获取识别结果;基于人脸识别算法对分类后的多媒体类型进行人物识别及标签提取处理,提取人物标签;对所述识别结果和所述人物标签进行人工确认交互方式进行标识处理,获取多媒体场景、事件、人物和关系。
构建后的文本类型和多媒体类型的对象,又可以通过人工标注或计算机软件辅助的方式进行知识加工,从中抽取有价值的实体、事件和关系,这就是一个由顶层到底层不断细化的概念实例的形成过程;例如使用智能文本分析工具(如TRS集团的CKM软件),可以先对文本类型的知识对象提示实体对象和属性;再通过人工确认的交互方式精确提取知识对象和关系;通过文本分词、分类聚类、情感分析等算法,从文本中提取领域关键词、地区分类、文本情感态度、主要观点等,这些分析结果,可以补充到文档的属性中;以及,如多媒体类型的知识对象,通过可以首先以人工的方式对多媒体进行分类,使用语音识别软件(如讯飞)对音频文件进行语音转文字,使用文本分析工具(如CKM软件)进行文字识别,使用人脸识别软件(如海康或大华)对视频文件进行人物识别、标签提取等,再通过人工确认的交互方式,来标识重要的多媒体场景、事件、人物等。
领域本体的对象根类型,综合领域主要对象类型分析、领域数据类型分析,将领域知识图谱本体的根类型划分为实体类型、事件类型、文本类型和多媒体类型,深入说明四种对象根类型及各子类型的继承和层次通过领域知识图谱表达,表达对现实典型的领域场景;设计统一知识对象浏览的方式,对所有对象都能以统一的方式展示和浏览,帮助分析人员对知识的理解。
进一步的,对领域本体的对象根类型说明如下:
实体类型,对应领域中的主要对象目标,主要从结构化数据中提取实体对象;比如:个人、组织、车辆、电话等,实体类型有层次关系,比如公务员、企业人员、继承个人。
事件类型,是指实体的事件行为,以及同一实体间的事件关系,比如个人的铁路订票、电话之间的通话记录等。
文本类型,对应领域中的文本类数据,包括邮件、新闻文章、报告等,可以通过对正文的文本分析,提取相关的实体或者事件,并建立关系。
多媒体类型,对应领域中的多媒体图片、视频等多媒体数据资源,多媒体类型的主体是图片显示或视频播放,可通过图片识别、视频分析等实现从多媒体中,提取实体、事件等。
进一步的,图3是本发明实施例中的对象根类型表达现实场景示意图;图4是本发明实施例中的统一知识对象浏览的逻辑示意图。如图3所示,可以用知识图谱的方法,表达现实三个同事在会议室开了一个讨论论文编写会议的现实领域场景,实体类型:个人;事件类型:会议事件;文本类型:论文、会议记录;多媒体类型:会议录像;领域知识图谱,就是要和实际工作对象对应起来,比传统的关系数据库更直观表达和复原现实的业务场景,使分析人员的思维模型和现实模型能够很好的对应起来,有助于分析和研究;如图4所示,任何对象都能抽象为实体、事件、文本或多媒体类型之一,通过四个对象根类型,总结、设计出四种知识表达方式,所有对象都能够以统一的方式展示和浏览。
在本发明实施例中,增加了事件类型、文本类型和多媒体类型,并扩展到分类表达领域的知识中,可以更好的描述各种典型的领域场景。
实施例
请参阅图2,图2是本发明实施例中的基于领域知识图谱本体中的对象根类型设计系统的结构组成示意图。
如图2所示,一种基于领域知识图谱本体中的对象根类型设计系统,所述系统包括:
类型分类模块21:用于对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;
对象构建模块22:用于基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;
对象转化模块23:用于根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
知识加工模块24:用于对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。
可选的,所述对象转化模块23包括:
对象根类型设计单元:用于基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;
对象转化单元:用于基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型。
可选的,所述知识加工模块24包括:
知识转换加工单元:用于对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;
转换单元:用于基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。
具体地,本发明实施例的系统相关功能模块工作原理可参考方法实施例的相关描述,这里不再赘述。
在本发明实施例中,增加了事件类型、文本类型和多媒体类型,并扩展到分类表达领域的知识中,可以更好的描述各种典型的领域场景。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,ReadOnly Memory)、随机存取存储器(RAM,Random AccessMemory)、磁盘或光盘等。
另外,以上对本发明实施例所提供的一种基于领域知识图谱本体中的对象根类型设计方法及系统进行了详细介绍,本文中应采用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于领域知识图谱本体中的对象根类型设计方法,其特征在于,所述方法包括:
对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;
基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;
根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果;
所述根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型,包括:
基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;
基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
所述对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果,包括:
对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;
基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。
2.根据权利要求1所述的对象根类型设计方法,其特征在于,所述结构化数据为领域产生的数据,保存在关系数据库的二维表中;所述半结构化数据为文本数据;所述非结构化数据包括图片数据、声音数据和视频数据。
3.根据权利要求1所述的对象根类型设计方法,其特征在于,所述对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,包括:
所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工;
所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工。
4.根据权利要求3所述的对象根类型设计方法,其特征在于,所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工,包括:
依次通过文本分词、分类聚类和情感分析算法从所述文本类型中,获取领域关键词、地区分类、文本情感态度、主要观点;
根据领域关键词、地区分类、文本情感态度、主要观点提取所述文本类型的实体对象和属性;
基于人工确认的交互方法精确提取的实体对象和关系。
5.根据权利要求4所述的对象根类型设计方法,其特征在于,所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工,包括:
基于人工标注的方式对所述多媒体类型进行分类,获取分类后的多媒体类型;
基于语音识别算法将分类后的多媒体类型中的音频文件转化为文本文件;
基于文本分析算法对所述文本文件进行文字识别,获取识别结果;
基于人脸识别算法对分类后的多媒体类型进行人物识别及标签提取处理,提取人物标签;
对所述识别结果和所述人物标签进行人工确认交互方式进行标识处理,获取多媒体场景、事件、人物和关系。
6.一种基于领域知识图谱本体中的对象根类型设计系统,其特征在于,所述系统包括:
类型分类模块:用于对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;
对象构建模块:用于基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;
对象转化模块:用于根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
知识加工模块:用于对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果;
所述对象转化模块包括:
对象根类型设计单元:用于基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;
对象转化单元:用于基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
所述知识加工模块包括:
知识转换加工单元:用于对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;
转换单元:用于基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910756506.8A CN110489565B (zh) | 2019-08-15 | 2019-08-15 | 基于领域知识图谱本体中的对象根类型设计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910756506.8A CN110489565B (zh) | 2019-08-15 | 2019-08-15 | 基于领域知识图谱本体中的对象根类型设计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110489565A CN110489565A (zh) | 2019-11-22 |
CN110489565B true CN110489565B (zh) | 2023-05-16 |
Family
ID=68549825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910756506.8A Active CN110489565B (zh) | 2019-08-15 | 2019-08-15 | 基于领域知识图谱本体中的对象根类型设计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110489565B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177653B (zh) * | 2019-12-10 | 2023-05-30 | 中国建设银行股份有限公司 | 一种信用评估方法和装置 |
CN111177322A (zh) * | 2019-12-30 | 2020-05-19 | 成都数之联科技有限公司 | 一种领域知识图谱的本体模型构建方法 |
CN111324697B (zh) * | 2020-02-19 | 2023-10-24 | 广东小天才科技有限公司 | 一种家教机数据的分析管理方法及装置 |
CN111782800B (zh) * | 2020-06-30 | 2023-11-21 | 上海仪电(集团)有限公司中央研究院 | 一种面向事件追溯的智能会议分析方法 |
CN111897947A (zh) * | 2020-07-30 | 2020-11-06 | 杭州橙鹰数据技术有限公司 | 一种基于开源信息的数据分析处理方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109710701A (zh) * | 2018-12-14 | 2019-05-03 | 浪潮软件股份有限公司 | 一种用于公共安全领域大数据知识图谱的自动化构建方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
-
2019
- 2019-08-15 CN CN201910756506.8A patent/CN110489565B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550190A (zh) * | 2015-06-26 | 2016-05-04 | 许昌学院 | 面向知识图谱的跨媒体检索系统 |
WO2018036239A1 (zh) * | 2016-08-24 | 2018-03-01 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
CN107783973A (zh) * | 2016-08-24 | 2018-03-09 | 慧科讯业有限公司 | 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和系统 |
WO2018072563A1 (zh) * | 2016-10-18 | 2018-04-26 | 中兴通讯股份有限公司 | 一种知识图谱构建方法、装置及系统 |
CN108875051A (zh) * | 2018-06-28 | 2018-11-23 | 中译语通科技股份有限公司 | 面向海量非结构化文本的知识图谱自动构建方法及系统 |
CN109710701A (zh) * | 2018-12-14 | 2019-05-03 | 浪潮软件股份有限公司 | 一种用于公共安全领域大数据知识图谱的自动化构建方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
Non-Patent Citations (4)
Title |
---|
宠物知识图谱的半自动化构建方法;袁琦;刘渊;谢振平;陆菁;;《计算机应用研究》(第01期);全文 * |
教育知识图谱的构建方法研究;唐伟;《中国优秀硕士学位论文全文数据库-信息科技辑》;全文 * |
文物知识图谱构建与检索关键技术研究与实现;林炀平;《中国优秀硕士学位论文全文数据库-社会科学Ⅱ辑》;全文 * |
知识图谱精化研究综述;谢刚;《电子技术应用》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110489565A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110489565B (zh) | 基于领域知识图谱本体中的对象根类型设计方法及系统 | |
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
Kim et al. | Transparency and accountability in AI decision support: Explaining and visualizing convolutional neural networks for text information | |
CN107705066B (zh) | 一种商品入库时信息录入方法及电子设备 | |
US20220237373A1 (en) | Automated categorization and summarization of documents using machine learning | |
CN109344298A (zh) | 一种将非结构化数据转化为结构化数据的方法及装置 | |
CN111177322A (zh) | 一种领域知识图谱的本体模型构建方法 | |
Vijayarani et al. | Multimedia mining research-an overview | |
CN115238688A (zh) | 电子信息数据关联关系分析方法、装置、设备和存储介质 | |
Li et al. | A multi-level interactive lifelog search engine with user feedback | |
CN110263021A (zh) | 一种基于个性化标签体系的主题库生成方法 | |
CN113076468B (zh) | 一种基于领域预训练的嵌套事件抽取方法 | |
Feng et al. | ModelsKG: A Design and Research on Knowledge Graph of Multimodal Curriculum Based on PaddleOCR and DeepKE | |
Li et al. | News video title extraction algorithm based on deep learning | |
CN115080636A (zh) | 一种基于网络服务的大数据分析系统 | |
CN111046934B (zh) | 一种swift报文软条款识别方法及装置 | |
Tan et al. | Semantic presentation and fusion framework of unstructured data in smart cites | |
CN111913997A (zh) | 一种基于人工智能的用户画像系统的实现方法 | |
Wang et al. | Text Analysis and Visualization Research on the Hetu Dangse During the Qing Dynasty of China | |
Zhang | [Retracted] Application and Analysis of Big Data Mining in the Foreign Affairs Translation System | |
Deng et al. | A conceptual model of chinese oral memory based on digital humanities | |
Ngo et al. | Exploration and integration of job portals in Vietnam | |
Zhang et al. | An Introduction to the Implementation Strategy of Unstructured Data Governance for Aviation Enterprise | |
Zhao | Construction of Safety Early Warning Model for Construction of Engineering Based on Convolution Neural Network | |
Feng et al. | Intelligent question answering system based on entrepreneurial incubation knowledge graph |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |