CN107491555B - 知识图谱构建方法和系统 - Google Patents

知识图谱构建方法和系统 Download PDF

Info

Publication number
CN107491555B
CN107491555B CN201710785051.3A CN201710785051A CN107491555B CN 107491555 B CN107491555 B CN 107491555B CN 201710785051 A CN201710785051 A CN 201710785051A CN 107491555 B CN107491555 B CN 107491555B
Authority
CN
China
Prior art keywords
entity
data
structured data
dictionary table
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710785051.3A
Other languages
English (en)
Other versions
CN107491555A (zh
Inventor
谢敬聃
刘晖
王金武
张先华
靖文波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Derizhi Pharmaceutical Technology Co ltd
Original Assignee
Beijing Neuron Smart Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Neuron Smart Technology Co ltd filed Critical Beijing Neuron Smart Technology Co ltd
Priority to CN201710785051.3A priority Critical patent/CN107491555B/zh
Publication of CN107491555A publication Critical patent/CN107491555A/zh
Application granted granted Critical
Publication of CN107491555B publication Critical patent/CN107491555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion

Abstract

本发明提供知识图谱构建方法和系统,包括:根据通用数据标准建立知识图谱的基础架构;将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;获取与知识图谱中的内容相关的半结构化数据;从半结构化数据中抽取关键实体的实体信息;根据标准字典表将实体信息进行数据融合,形成结构化数据;将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。

Description

知识图谱构建方法和系统
技术领域
本发明涉及人工智能技术领域,尤其是涉及知识图谱构建方法和系统。
背景技术
构建知识图谱是目前实现人工智能技术在具体行业领域中应用的核心。以往的知识图谱主要基于现有的学科教材和文献知识,通过二次加工和编辑得出。这些知识图谱存在着人工工作量巨大,知识领域覆盖有限、实体和相关关系较少等不足,难以满足当前处理海量数据的场景应用需求。
另外,大量结构化的数据是人工智能技术开展具体应用和服务的基础。同时,对于专业性很强的学科,其研究进展迅速,知识更新和延展速度极快。大量的专业知识仍以书籍和文献的形式交流,仅有少量的知识可以通过各类百科网站查询浏览,而知识都是非结构化和半结构化的数据,它们是无法直接作为人工智能技术应用的基础的。
综上,如何完善知识图谱的构建以满足当前处理海量数据的场景应用需求,并将利用网络渠道获取的半结构化数据转换成结构化数据,从而为实现人工智能技术在具体行业领域中应用打下基础,成为需要解决的问题。
发明内容
有鉴于此,本发明的目的在于提供知识图谱构建方法和系统,通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。
第一方面,本发明实施例提供了知识图谱构建方法,所述方法包括:
根据通用数据标准建立知识图谱的基础架构;
将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;
获取与所述知识图谱中的内容相关的半结构化数据;
从所述半结构化数据中抽取关键实体的实体信息;
根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据;
将所述结构化数据生成对应的数据结构对,并将所述数据结构对存储为所述知识图谱。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表包括:
将所述实体的实体属性转换成三元组数据RDF;
根据所述RDF将所述实体属性与所述实体的关系类型和命名规则进行统一规范。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:
判断所述实体信息是否符合所述标准规范;
如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成所述结构化数据。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述实体信息包括实体名称和实体属性信息,所述如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:
将所述实体名称与所述标准字典表中的内容进行映射,得到相同实体名称以及所述相同实体名称的属性信息;
将所述相同实体名称的属性信息与所述实体属性信息进行数据融合,形成所述结构化数据。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述实体信息包括实体名称和实体属性信息,所述如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:
将所述实体名称与所述标准字典表中的内容进行映射,得到同义实体名称以及所述同义实体名称的属性信息;
将所述实体名称与所述同义实体名称建立同义对应关系;
根据所述同义对应关系将所述同义实体名称的属性信息与所述实体属性信息进行数据融合,形成所述结构化数据。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:
如果不符合,则根据专业知识分类对所述实体信息进行关系映射,形成所述结构化数据。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,将所述数据结构对存储为所述知识图谱包括:
将所述数据结构对转换为图形数据,并将所述图形数据存储到图形数据库。
第二方面,本发明实施例还提供知识图谱构建系统,所述系统包括:
基础架构建立模块,用于根据通用数据标准建立知识图谱的基础架构;
统一规范模块,用于将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;
获取模块,用于获取与所述知识图谱中的内容相关的半结构化数据;
抽取模块,用于从所述半结构化数据中抽取关键实体的实体信息;
数据融合模块,用于根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据;
生成及存储模块,用于将所述结构化数据生成对应的数据结构对,并将所述数据结构对存储为所述知识图谱。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述统一规范模块包括:
转换单元,用于将所述实体的实体属性转换成三元组数据RDF;
统一规范单元,用于根据所述RDF将所述实体属性与所述实体的关系类型和命名规则进行统一规范。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述数据融合模块包括:
判断单元,用于判断所述实体信息是否符合所述标准规范;
数据融合单元,用于在符合所述标准规范的情况下,根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据。
本发明实施例提供了知识图谱构建方法和系统,包括:根据通用数据标准建立知识图谱的基础架构;将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;获取与知识图谱中的内容相关的半结构化数据;从半结构化数据中抽取关键实体的实体信息;根据标准字典表将实体信息进行数据融合,形成结构化数据;将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的知识图谱构建方法流程图;
图2为本发明实施例提供的知识图谱构建方法的另一流程图;
图3为本发明实施例提供的知识图谱构建系统的示意图;
图4为本发明实施例提供的知识图谱构建系统的另一示意图。
图标:
10-基础架构建立模块;20-统一规范模块;30-获取模块;40-抽取模块;50-数据融合模块;60-生成及存储模块;21-转换单元;22-统一规范单元;51-判断单元;52-数据融合单元。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前如何完善知识图谱的构建以满足当前处理海量数据的场景应用需求,并将利用网络渠道获取的半结构化数据转换成结构化数据,从而为实现人工智能技术在具体行业领域中应用打下基础,成为需要解决的问题。基于此,本发明实施例提供的知识图谱构建方法和系统,通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。
为便于对本实施例进行理解,首先对本发明实施例所公开的知识图谱构建方法进行详细介绍。
实施例一:
图1为本发明实施例提供的知识图谱构建方法流程图。
参照图1,知识图谱构建方法包括:
步骤S101,根据通用数据标准建立知识图谱的基础架构;
步骤S102,将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;
进一步地,步骤S102可采取如下步骤实现:
将实体的实体属性转换成三元组数据RDF(Resource Description Framework,三元组数据);
根据RDF将实体属性与实体的关系类型和命名规则进行统一规范。
这里,以医学为例进行说明。医学教材和医学文献是建立传统医学知识图谱的主要依据和基础。其存在着人工整理输入工作量巨大、数据结构不严谨和数据冲突等多方面问题。目前,已经有部分国际通用的医学专业数据标准建立并在医疗系统内部推广应用,例如ICD-10国际疾病分类编码(International Classification of Diseases)。以这样的国际通用数据标准为基础建立医学知识字典表,确保了知识图谱覆盖的广度和专业性。传统的医学知识图谱中多数围绕单一关键实体建立,如以疾病为核心或以药品为核心建立,不同关键实体之间的关联关系无统一规范。
本发明实施例将实体的属性转换成RDF(Resource Description Framework)三元组数据,并对实体属性和实体间的关系类型和命名规则进行了统一规范。具体举例说明如下:感冒作为实体,其实体属性为感冒的症状有打喷嚏、流鼻涕和发烧等。将感冒这一实体的属性转化成RDF以后,即感冒的症状有打喷嚏,感冒的症状有流鼻涕,感冒的症状有发烧。从而对实体属性和实体间的关系类型和命名规则进行了统一规范。
以往的各类公开医学知识图谱较为局限,只包含疾病、症状、检查检验、药品等部分数据和实体之间的关系。各医学子领域知识之间的关系相互独立,没有做到直接的映射。本发明实施例的知识图谱中包括了疾病、症状、检查、检验、药品、医生、医院、治疗方法等多种医学子领域知识,并做到其中各个实体之间的关联关系,对各个实体的属性以及属性之间的关系做了统一规范。
步骤S103,获取与知识图谱中的内容相关的半结构化数据;
步骤S104,从半结构化数据中抽取关键实体的实体信息;
步骤S105,根据标准字典表将实体信息进行数据融合,形成结构化数据;
这里,对半结构化数据和结构化数据进行举例说明。首先,结构化数据举例如下:姓名:XXX;性别:男;年龄:18。字段和数据一一对应,可以直接导入到关系型数据库当中。半结构化数据里面也包含了部分结构化数据,但是没有完全分离开。可能是一段文本,例如患者基本信息:患者姓名XXX,年龄18岁,性别男。
具体地,仍以医学为例,首先,根据标准字典表将实体信息进行数据融合,需要将通过网络获取的医学百科知识中的关键实体(如疾病名称、药品名称等)与先前建立的标准字典表中的内容进行对照映射,做到实体对齐,消除数据冲突等问题。同时,保留实体的属性关系(如疾病名称——疾病症状、疾病名称——疾病治疗方法、药品名称——药品适应症等)。接下来对不符合先前制定的规范标准的实体、实体属性和实体关系的数据进行人工审核编辑,和关系映射。最终实现不同数据源数据融合和关系规则统一。
医学专业的复杂不仅体现在专业性强,同时医学专业人士和非医学专业人士对同一疾病、症状等的认知可能存在巨大的差异,这也造成了目前很难依赖用户输入数据完成智能诊断、智能问答等自助服务。我们发现在通过网络医学知识百科的数据中还包含着大量的符合普通用户表达习惯的对疾病、症状等实体的描述。对于此类数据,我们利用人工审核的方式,建立起与医学专业知识的对应关系。通过这样的方式,可以尽可能地提高知识图谱中的数据对现实世界中用户表达信息的覆盖。
步骤S106,将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。
进一步地,如图2所示,步骤S105可采取如下步骤实现:
步骤S1051,判断实体信息是否符合标准规范,如果是,则执行步骤S1051;如果否,则执行步骤S1052;
步骤S1052,根据标准字典表将实体信息进行数据融合,形成结构化数据;
步骤S1052,根据专业知识分类对实体信息进行关系映射,形成结构化数据。
进一步地,实体信息包括实体名称和实体属性信息,步骤S1052包括以下过程:
将实体名称与标准字典表中的内容进行映射,得到相同实体名称以及相同实体名称的属性信息;
将相同实体名称的属性信息与实体属性信息进行数据融合,形成结构化数据。
这里将实体名称作为索引,与标准字典表中的内容进行映射,得到相同实体名称以及相同实体名称的属性信息,根据标准字典表中实体命名及实体间关系的统一规范,将实体名称的属性信息与相同实体名称的属性信息融合到一起。
进一步地,步骤S1052还包括以下过程:
将实体名称与标准字典表中的内容进行映射,得到同义实体名称以及同义实体名称的属性信息;比如感冒这一实体名称的同义实体名称包括上呼吸道感染;
将实体名称与同义实体名称建立同义对应关系,例如将感冒与上呼吸道感染建立同义对应关系,即表明它们的含义相同;
根据同义对应关系将同义实体名称的属性信息与实体属性信息进行数据融合,形成结构化数据。
进一步地,将数据结构对存储为知识图谱包括:
将数据结构对转换为图形数据,并将图形数据存储到图形数据库。
这里的数据结构对为RDF三元组数据,利用Tinkerpop工具将其转换存储到图形数据库Neo4j中。因为RDF存储的方式难以满足多维度推理计算的性能需求。Neo4j是目前较为流行的图形数据库,基元是节点、关系以及属性,通过这三个基元可以完整地描述任意一个实体的情况。同时,还可以在关系上赋予属性,灵活扩展知识图谱的网络模型。
本发明实施例提供了知识图谱构建方法,包括:根据通用数据标准建立知识图谱的基础架构;将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;获取与知识图谱中的内容相关的半结构化数据;从半结构化数据中抽取关键实体的实体信息;根据标准字典表将实体信息进行数据融合,形成结构化数据;将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。通过构建知识图谱基础架构和利用多种网络渠道获取数据并完成数据融合,实现了将半结构化数据转换成结构化数据的功能,为下一步在此基础上开发人工智能技术打下基础。
本发明实施例提供的知识图谱构建方法所得到的知识图谱具有以下特点:覆盖面广;实体之间关系完整且互通性好;知识图谱具有可扩展性;专业性和用户表达丰富性;图形数据库存储形式方便检索和推理应用展开。
实施例二:
图3为本发明实施例提供的知识图谱构建系统的示意图。
参照图3,知识图谱构建系统包括:
基础架构建立模块10,用于根据通用数据标准建立知识图谱的基础架构;
统一规范模块20,用于将基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;
获取模块30,用于获取与知识图谱中的内容相关的半结构化数据;
抽取模块40,用于从半结构化数据中抽取关键实体的实体信息;
数据融合模块50,用于根据标准字典表将实体信息进行数据融合,形成结构化数据;
生成及存储模块60,用于将结构化数据生成对应的数据结构对,并将数据结构对存储为知识图谱。
进一步地,如图2所示,统一规范模块20包括:
转换单元21,用于将实体的实体属性转换成三元组数据RDF;
统一规范单元22,用于根据RDF将实体属性与实体的关系类型和命名规则进行统一规范。
进一步地,数据融合模块50包括:
判断单元51,用于判断实体信息是否符合标准规范;
数据融合单元52,用于在符合标准规范的情况下,根据标准字典表将实体信息进行数据融合,形成结构化数据。
本发明实施例提供的知识图谱构建系统,与上述实施例提供的知识图谱构建方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的知识图谱构建方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的知识图谱构建方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的进行知识图谱构建方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种知识图谱构建方法,其特征在于,所述方法包括:
根据ICD-10国际疾病分类编码建立医学知识图谱的基础架构;
将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;
从网络中获取与所述医学知识图谱中的内容相关的半结构化数据;
从所述半结构化数据中抽取关键实体的实体信息;
根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据;
将所述结构化数据生成对应的数据结构对,将所述数据结构对转换为图形数据,并将所述图形数据存储到图形数据库;
其中,所述根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:
判断所述实体信息是否符合所述标准规范;
如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成所述结构化数据;
其中,所述实体信息包括实体名称和实体属性信息,所述如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:
将所述实体名称与所述标准字典表中的内容进行映射,得到相同实体名称以及所述相同实体名称的属性信息;
将所述相同实体名称的属性信息与所述实体属性信息进行数据融合,形成所述结构化数据。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表包括:
将所述实体的实体属性转换成三元组数据RDF;
根据所述RDF将所述实体属性与所述实体的关系类型和命名规则进行统一规范。
3.根据权利要求1所述的知识图谱构建方法,其特征在于,所述实体信息包括实体名称和实体属性信息,所述如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据包括:
将所述实体名称与所述标准字典表中的内容进行映射,得到同义实体名称以及所述同义实体名称的属性信息;
将所述实体名称与所述同义实体名称建立同义对应关系;
根据所述同义对应关系将所述同义实体名称的属性信息与所述实体属性信息进行数据融合,形成所述结构化数据。
4.根据权利要求1所述的知识图谱构建方法,其特征在于,所述方法还包括:
如果不符合,则根据医学专业知识分类对所述实体信息进行关系映射,形成所述结构化数据。
5.一种知识图谱构建系统,其特征在于,所述系统包括:
基础架构建立模块,用于根据ICD-10国际疾病分类编码建立医学知识图谱的基础架构;
统一规范模块,用于将所述基础架构中的各个实体之间的关系进行统一规范,得到具有标准规范的标准字典表;
获取模块,用于从网络中获取与所述医学知识图谱中的内容相关的半结构化数据;
抽取模块,用于从所述半结构化数据中抽取关键实体的实体信息;
数据融合模块,用于根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据;
生成及存储模块,用于将所述结构化数据生成对应的数据结构对,将所述数据结构对转换为图形数据,并将所述图形数据存储到图形数据库;
其中,所述数据融合模块用于:
判断所述实体信息是否符合所述标准规范;
如果符合,则根据所述标准字典表将所述实体信息进行数据融合,形成所述结构化数据;
其中,所述实体信息包括实体名称和实体属性信息,所述数据融合模块还用于:
将所述实体名称与所述标准字典表中的内容进行映射,得到相同实体名称以及所述相同实体名称的属性信息;
将所述相同实体名称的属性信息与所述实体属性信息进行数据融合,形成所述结构化数据。
6.根据权利要求5所述的知识图谱构建系统,其特征在于,所述统一规范模块包括:
转换单元,用于将所述实体的实体属性转换成三元组数据RDF;
统一规范单元,用于根据所述RDF将所述实体属性与所述实体的关系类型和命名规则进行统一规范。
7.根据权利要求5所述的知识图谱构建系统,其特征在于,所述数据融合模块包括:
判断单元,用于判断所述实体信息是否符合所述标准规范;
数据融合单元,用于在符合所述标准规范的情况下,根据所述标准字典表将所述实体信息进行数据融合,形成结构化数据。
CN201710785051.3A 2017-09-01 2017-09-01 知识图谱构建方法和系统 Active CN107491555B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710785051.3A CN107491555B (zh) 2017-09-01 2017-09-01 知识图谱构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710785051.3A CN107491555B (zh) 2017-09-01 2017-09-01 知识图谱构建方法和系统

Publications (2)

Publication Number Publication Date
CN107491555A CN107491555A (zh) 2017-12-19
CN107491555B true CN107491555B (zh) 2020-11-20

Family

ID=60651500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710785051.3A Active CN107491555B (zh) 2017-09-01 2017-09-01 知识图谱构建方法和系统

Country Status (1)

Country Link
CN (1) CN107491555B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427707B (zh) * 2018-01-23 2021-05-04 深圳市阿西莫夫科技有限公司 人机问答方法、装置、计算机设备和存储介质
CN108345994A (zh) * 2018-02-05 2018-07-31 华中科技大学 一种结构化的施工过程安全知识获取、表达与过程监控方法
CN108197119A (zh) * 2018-02-05 2018-06-22 成都卓观信息技术有限公司 基于知识图谱的纸质档案数字化方法
CN108595683B (zh) * 2018-05-03 2021-04-16 合肥工业大学 基于医学知识图谱的医嘱合理性监测方法
CN109215771A (zh) * 2018-05-29 2019-01-15 平安医疗健康管理股份有限公司 医疗映射关系库建立方法、装置、计算机设备和存储介质
CN109033053B (zh) * 2018-07-10 2022-05-17 广州极天信息技术股份有限公司 一种基于场景的知识编辑方法及装置
CN109166631A (zh) * 2018-07-10 2019-01-08 武汉海云健康科技股份有限公司 基于网络科学和卷积神经网络的药品关联图谱的构建方法
CN109086391B (zh) * 2018-07-27 2022-07-01 北京光年无限科技有限公司 一种构建知识图谱的方法及系统
CN110895548B (zh) * 2018-08-24 2022-08-09 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN111144123B (zh) * 2018-10-16 2024-02-02 工业互联网创新中心(上海)有限公司 一种工业互联网标识解析数据字典构建方法
CN109597855A (zh) * 2018-11-29 2019-04-09 北京邮电大学 基于大数据驱动的领域知识图谱构建方法及系统
CN109582803A (zh) * 2018-11-30 2019-04-05 广东电网有限责任公司 竞争情报数据库的构建方法和系统
CN111435367A (zh) * 2019-01-15 2020-07-21 阿里巴巴集团控股有限公司 知识图谱的构建方法、系统、设备及存储介质
CN109885700B (zh) * 2019-02-26 2020-10-27 扬州制汇互联信息技术有限公司 一种基于工业知识图谱的非结构化数据分析方法
CN110083709B (zh) * 2019-04-28 2021-09-24 宁波深擎信息科技有限公司 一种基于描述定义的知识图谱自动构建方法及系统
CN110688549B (zh) * 2019-07-02 2021-01-01 光控特斯联(上海)信息科技有限公司 一种基于知识体系图谱构建的人工智能分类方法与系统
CN110543570B (zh) * 2019-07-29 2022-03-11 北京邮电大学 基于哈希寻址的知识图谱存储方法
CN110458471B (zh) * 2019-08-19 2022-05-20 绍兴数纺科技有限公司 标准化染料信息管理系统
CN112445890A (zh) * 2019-08-27 2021-03-05 北京国双科技有限公司 一种基于合同知识图谱的数据处理方法及相关装置
CN110704635B (zh) * 2019-09-16 2023-12-12 金色熊猫有限公司 一种知识图谱中三元组数据的转换方法及装置
CN112528032A (zh) * 2019-09-18 2021-03-19 北京国双科技有限公司 油气数据处理方法及装置
CN110781249A (zh) * 2019-10-16 2020-02-11 华电国际电力股份有限公司技术服务分公司 基于知识图谱的火电厂多源数据融合方法与装置
CN110866111A (zh) * 2019-11-18 2020-03-06 合肥工业大学 一种基于知识图谱的糖尿病智能知识服务系统
CN110929933A (zh) * 2019-11-22 2020-03-27 吉林农业大学 基于知识图谱的水稻病害预测与诊断方法
CN111475503A (zh) * 2019-12-27 2020-07-31 北京国双科技有限公司 一种虚拟知识图谱构建方法及装置
CN111444181B (zh) * 2020-03-20 2021-05-11 腾讯科技(深圳)有限公司 知识图谱更新方法、装置及电子设备
CN111951979A (zh) * 2020-08-13 2020-11-17 上海森亿医疗科技有限公司 药物信息标准化方法、药物信息标准化与检索平台和设备
CN112732939B (zh) * 2021-01-15 2022-11-29 中国科学院空天信息创新研究院 基于GraphDB的时空知识图谱构建方法、装置、介质及设备
CN112765363B (zh) * 2021-01-19 2022-11-22 昆明理工大学 一种面向科技服务需求的需求图谱构建方法
CN112948566B (zh) * 2021-04-21 2024-02-02 华东理工大学 化工知识图谱的构建方法及装置以及智能问答方法及装置
CN113139065B (zh) * 2021-04-25 2022-07-22 杭州电子科技大学 一种融合地理知识的混合知识图谱构建方法
CN113656590B (zh) * 2021-07-16 2023-12-15 北京百度网讯科技有限公司 行业图谱的构建方法、装置、电子设备及存储介质
US11321615B1 (en) 2021-08-30 2022-05-03 Blackswan Technologies Inc. Method and system for domain agnostic knowledge extraction

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130096944A1 (en) * 2011-10-13 2013-04-18 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Ontology Based Analytics

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN104484459A (zh) * 2014-12-29 2015-04-01 北京奇虎科技有限公司 一种对知识图谱中的实体进行合并的方法及装置
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106919689A (zh) * 2017-03-03 2017-07-04 中国科学技术信息研究所 基于术语释义知识单元的专业领域知识图谱动态构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"医疗健康信息处理研究进展现状及趋势";无;《中文信息处理发展报告2016》;20161231;第140-145页 *

Also Published As

Publication number Publication date
CN107491555A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN107491555B (zh) 知识图谱构建方法和系统
CN110990579B (zh) 跨语言的医学知识图谱构建方法、装置与电子设备
JP5268220B2 (ja) 二進データを解析する方法、システム及びコンピュータ製品
CN105723366B (zh) 用于准备用于搜索数据库的系统的方法以及用于执行向所连接的数据源的查询的系统和方法
CN105678057B (zh) 一种医疗信息分享系统
CN110837565B (zh) 实现药品推荐的模型训练装置及计算机设备
CN109637602A (zh) 医疗数据存储和查询方法、装置、存储介质及电子设备
KR20130120970A (ko) Edc시스템 주도로, 전자건강기록으로부터 임상시험 데이터를 수집하는 방법 및 장치
CN109360615A (zh) 一种医疗资源共享方法、装置、设备和存储介质
JP2024027087A (ja) 汎用モデルに基づく標準的な医学用語管理システム及び方法
KR101239140B1 (ko) 의학 표준 용어체계 매핑 방법 및 시스템
US10192031B1 (en) System for extracting information from DICOM structured reports
JPWO2009025022A1 (ja) 情報処理システム、およびプログラム
CN108877946A (zh) 一种基于网络特征的医生专家推荐方法
US20200342991A1 (en) Detecting recurrence of a medical condition
Hovenga et al. Health information systems.
Harman et al. Standardized mapping of nursing assessments across 59 US military treatment facilities
KR20110108998A (ko) 개념격자에 기반한 의료용어 매핑 시스템 및 방법
Brennan The National Library of Medicine: accelerating discovery, delivering information, improving health
Hammond eHealth interoperability
JP5682657B2 (ja) データベースシステム
Ströckl et al. Smart city technology meets smart health assistive systems-on the example of the project AYUDO
Bianchi et al. Biomedical data integration–capturing similarities while preserving disparities
CN110827988B (zh) 一种基于移动终端进行医学数据研究的控制方法
TW201301075A (zh) 醫療影像知識管理系統與其知識內容產生方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210507

Address after: Room 701-25, 7th floor, No.10 factory building, Changzhou Innovation Park, Changzhou, China, no.18-67, middle Changwu Road, Wujin District, Changzhou City, Jiangsu Province 213100

Patentee after: Famundo (Changzhou) Biotechnology Co.,Ltd.

Address before: Room 2019, 20 / F, building 683, zone 2, 5 Zhongguancun South Street, Haidian District, Beijing

Patentee before: BEIJING NEURON SMART TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231023

Address after: Room 1901-1914, 19th Floor, Building 2, Kejiyuan Road, Baiyang Street, Qiantang District, Hangzhou City, Zhejiang Province, 310000

Patentee after: Hangzhou derizhi Pharmaceutical Technology Co.,Ltd.

Address before: Room 701-25, 7th floor, No.10 factory building, Changzhou Innovation Park, Changzhou, China, no.18-67, middle Changwu Road, Wujin District, Changzhou City, Jiangsu Province 213100

Patentee before: Famundo (Changzhou) Biotechnology Co.,Ltd.

TR01 Transfer of patent right