CN110750599B - 一种基于实体建模的关联信息抽取和显示方法 - Google Patents

一种基于实体建模的关联信息抽取和显示方法 Download PDF

Info

Publication number
CN110750599B
CN110750599B CN201910897876.3A CN201910897876A CN110750599B CN 110750599 B CN110750599 B CN 110750599B CN 201910897876 A CN201910897876 A CN 201910897876A CN 110750599 B CN110750599 B CN 110750599B
Authority
CN
China
Prior art keywords
data
entity
model
information
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910897876.3A
Other languages
English (en)
Other versions
CN110750599A (zh
Inventor
于志伟
王妍妍
袁林
张强
王冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201910897876.3A priority Critical patent/CN110750599B/zh
Publication of CN110750599A publication Critical patent/CN110750599A/zh
Application granted granted Critical
Publication of CN110750599B publication Critical patent/CN110750599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于实体建模的关联信息抽取和显示方法,该方法通过建立模型、实体和关系等元数据信息,对业务数据进行数据整合和提取,生成实体和关系数据并提供关系信息的查询和显示,该方法步骤简单、能够适用于不同的业务场景;本发明方法用户只需要建立正确的元数据信息就能通过计算机实现批量数据的处理和信息抽取,抽取过程不需要人工干预,同时,采用图数据库对实体和关系信息进行存储,提高了存储和查询效率,通过节点和边的形式展示数据,增强了数据展示的可视化效果。

Description

一种基于实体建模的关联信息抽取和显示方法
技术领域
本发明涉及一种关联信息抽取和显示方法,特别是一种基于实体建模的关联信息抽取和显示方法。
背景技术
随着信息获取、存储和传播技术的发展,从大规模数据集中快速获取有用的信息成了众多学科的研究热点。虽然已经有大量的工作致力于探索高效的查询和分析方法,但大部分研究应用都忽略了实体之间普遍存在的关联。正是这种关联的存在,使得实体间显式或隐式地形成一个巨大的关联网络。基于这种无处不在的关联,不同来源、彼此关联的各种类型数据汇聚到一起,能更为形象地表现综合知识,有利于从多侧面、多视点表达尽可能完整的语义,并挖掘和理解隐含在数据中的知识。关于实体本身内容的研究已经很深入,实体间关联的研究才刚刚起步,而这种相互关联的研究更具有价值;为了更好地捕获实体间的关系,用图模型的顶点表示某个实体及其相关的所有信息,边表示实体间的关联。基于图研究实体关系及其分析技术,能在当前数据检索和分析基础上,进一步加深对现实世界的理解。
实体是指客观世界或网络虚拟空间中可区别且独立存在的个体。所谓关系,用英文解释形式多样,如relationship、linkage、correlation等;在中文表示中,“关系”从字面上解释是指“关联”或“联系”。
各类复杂系统,要么本身构成信息关联网络,如通信网络、社会网络、传感器网络等;要么隐式地蕴含各种关联关系,如相似关联、因果关联、隶属关联等。不同来源、不同类型的数据从不同视角、多个侧面对现实世界中的实体进行描述,将存在显式或隐式关联的各类数据资源有效融合,能够实现对事物更全面和准确的描述。利用这些无处不在的关联,一方面有利于快速获取相关信息,另一方面能促进知识的发现和挖掘。挖掘和利用实体关系,为人们认识世界提供了全新的途径。
发明内容
发明目的:本发明所要解决的技术问题是提供一种基于实体建模的关联信息抽取和显示方法,该方法通过建立模型、实体和关系等元数据信息,对业务数据进行数据整合和提取,生成实体和关系数据并提供关系信息的查询和显示,该方法步骤简单、能够适用于不同的业务场景。
为解决上述技术问题,本发明所采用的技术手段为:
一种基于实体建模的关联信息抽取和显示方法,具体包括以下步骤:
(1)在数据库中建立实体E元数据信息,其中实体E元数据信息包含实体名称、实体ID和实体包含的多个实体字段EFs信息;
(2)在数据库中建立关系R元数据信息,其中关系R元数据信息包含关系名称、关系类别信息以及关系两端对应的实体类型ID;
(3)根据业务目标数据结构T,在数据库中建立与待处理的业务目标数据对应的模型M元数据信息,并新建与模型M元数据信息对应的数据库表Table,模型M元数据信息包含模型名称、模型ID以及模型包含的多个模型字段MFs信息;
(4)通过指定模型M元数据信息中的模型字段MFs与实体E中实体字段EFs的对应关联,建立模型与多个实体的关联关系MEs;同时指定在这些实体E之间的关联关系EEs,其中,实体E之间的关联关系EEs为步骤(2)中建立的关系元数据R中的一种或多种,此时模型M下包含了与实体的关联信息MEs以及这些实体E之间的关系EEs信息;
(5)获取业务数据并将业务数据存储在事先建立的数据库表Table中;
(6)在获取业务数据过程中遍历每一条数据,并根据步骤(1)-(4)建立的元数据信息对每一条数据进行实体数据和关系数据的抽取,将获取的实体数据和关系数据信息进行存储;
(7)根据业务需求对抽取的实体和关系数据进行查询和显示。
其中,所述实体字段信息EFs和模型字段信息MFs包含字段的类型信息,所述类型支持字符串、整型、浮点型和日期类型。
其中,步骤(3)中,模型M包含的模型字段MFs信息与业务目标数据结构相对应(字段MFs信息的字段类型根据业务数据类型设定);数据库表Table的字段数量和类型与模型元数据M中模型字段MFs的数量和类型对应。
其中,步骤(4)中,模型字段MFs与实体E中实体字段EFs的对应关联时,数据类型保持一致且对应的实体字段EFs必须能唯一表征一个实体数据。
其中,步骤(5)中,获取业务数据的方法采用表格文件导入的方式或通过建立数据库连接的方式获取业务数据,所述业务数据为结构化数据。
其中,步骤(6)中,抽取实体数据和实体关系的方法为:对于模型M下的一条数据,根据模型M下的一条数据与多个实体E的关联关系MEs,将该条数据下部分字段数据(该模型字段与实体字段事先在步骤4中已经建立关联)作为关联的实体E下的对应字段(与模型字段关联的字段)数据,利用该数据创建对应实体E下的一条数据并保存,此时完成了一条实体数据的抽取;如果在模型M下指定了关联关系MRs,则根据抽取的实体E数据创建关联关系MRs下的一条关系数据;每条关系数据包含了在同一条模型数据下抽取的两个不同实体数据的信息。
其中,步骤(7)中,对实体和关系数据的查询通过图数据库方式进行查询,对数据的展示采用节点和连线的形式进行展示,其中节点对应每一条实体数据,连线对应每一条关系。
其中,对实体和关系的保存方式采用图数据库的方式进行保存。
有益效果:本发明通过建立模型、实体和关系等元数据信息,对业务数据进行数据整合和提取,生成实体和关系数据并提供关系信息的查询和显示,该方法步骤简单、能够适用于不同的业务场景;用户只需要建立正确的元数据信息就能通过计算机实现批量数据的处理和信息抽取,抽取过程不需要人工干预,同时,采用图数据库对实体和关系信息进行存储,提高了存储和查询效率,通过节点和边的形式展示数据,增强了数据展示的可视化效果。
附图说明
图1为本发明方法的流程图;
图2为本发明抽取的实体和关系数据的显示结果。
具体实施方式
下面结合附图对本发明的技术方案作进一步详细描述。
结合图1,本发明的基于实体建模的关联信息抽取和显示方法,具体包括以下步骤:
步骤1:在数据库中建立实体E元数据信息,其中实体E元数据信息包含实体名称、实体ID和实体包含的多个实体字段EFs信息;
步骤2:在数据库中建立关系R元数据信息,其中关系R元数据信息包含关系名称、关系类别信息以及关系两端对应的实体类型ID;
步骤3:根据业务目标数据结构T在数据库中建立与待处理的业务目标数据对应的模型M元数据信息并新建与模型M元数据信息对应的数据库表Table,模型M元数据信息包含模型名称、模型ID以及模型包含的多个模型字段MFs信息。其中,实体字段信息EFs和模型字段信息MFs包含字段的类型信息,类型支持字符串、整型、浮点型和日期类型;其中,模型M包含的模型字段MFs信息与业务目标数据结构相对应(字段MFs信息的字段类型根据业务数据类型设定);数据库表Table的字段数量和类型与模型元数据M中模型字段MFs的数量和类型对应;
步骤4:通过指定模型M元数据信息中的模型字段MFs与实体E中实体字段EFs的对应关联,建立模型与多个实体的关联关系MEs;同时指定在这些实体E之间的关联关系EEs,所述实体E之间的关联关系EEs为步骤2中建立的关系元数据R中的一种或多种,此时模型M下包含了与实体的关联信息MEs以及这些实体E之间的关系EEs信息;其中,模型字段MFs与实体E中实体字段EFs的对应关联时,数据类型保持一致且对应的实体字段EFs必须能唯一表征一个实体数据;
步骤5:获取业务数据并将业务数据存储在事先建立的数据库表Table中。其中,获取业务数据的方法采用表格文件导入的方式或通过建立数据库连接的方式获取业务数据,所述业务数据为结构化数据;
步骤6:在获取业务数据过程中遍历每一条数据,并根据步骤1-4建立的元数据信息对每一条数据进行实体数据和关系数据的抽取,将获取的实体数据和关系数据信息进行存储;其中,抽取实体数据和实体关系的方法为:对于模型M下的一条数据,根据模型M下的与多个实体E的关联关系MEs,将该条数据下部分字段数据(该模型字段与实体字段事先在步骤4中已经建立关联)作为关联的实体E下的对应字段(与模型字段关联的字段)数据,利用该数据创建对应实体E下的一条数据并保存,此时完成了一条实体数据的抽取;如果在模型M下指定了关联关系MRs,则根据抽取的实体E数据创建关联关系MRs下的一条关系数据;每条关系数据包含了在同一条模型数据下抽取的两个不同实体数据的信息;
步骤7:根据业务需求对抽取的实体和关系数据进行查询和显示。其中对实体和关系数据的查询通过图数据库方式进行查询,对数据的展示采用节点和连线的形式进行展示,其中节点对应每一条实体数据,连线对应每一条关系。对实体和关系的保存方式采用图数据库的方式进行保存。
如图2所示,下面为“人员乘坐航班记录”场景下实体和关系数据的抽取和显示方法:
业务目标数据结构T1以及具体的业务数据如下表所示:
表1人员乘坐航班记录的业务数据结构及业务数据
Figure BDA0002209492320000041
Figure BDA0002209492320000051
表1中记录了乘客在某个时间乘坐飞机的历史记录。
对应步骤1并结合当前的业务数据,在数据库中建立乘客实体E1和航班实体E2元数据信息,乘客实体E1和航班实体E2为待抽取的实体。
表2乘客实体E1元数据信息
Figure BDA0002209492320000052
表3航班实体E2元数据信息
Figure BDA0002209492320000053
Figure BDA0002209492320000061
对应步骤2,在数据库中建立乘客与航班的关系R1元数据信息,其中关系R1元数据信息包含关系名称、关系类别信息以及关系两端对应的实体类型ID。
表4乘客与航班关系R1元数据信息
Figure BDA0002209492320000062
对应步骤3,根据业务目标数据结构T1在数据库中建立与待处理的业务目标数据对应的模型M1元数据信息。模型M1元数据信息包含模型名称、模型ID以及模型包含的多个模型字段MFs信息。
表5人员乘坐航班记录业务数据对应的模型M1元数据信息
模型元数据属性 属性值 属性说明
模型名称(ModelName) AirTravelModel 模型的名称
模型ID(ModelID) M-001 模型的ID
模型字段1(MFs[0]) RID 对应业务数据的序号ID
模型字段2(MFs[1]) RPersonName 对应业务数据的姓名
模型字段3(MFs[2]) RPersonID 对应业务数据的身份证号
模型字段4(MFs[3]) RFlihtID 对应业务数据的班次
模型字段5(MFs[4]) RDate 对应业务数据的起飞时间
模型字段6(MFs[5]) RDeparture 对应业务数据的出发地
模型字段7(MFs[6]) RFlightType 对应业务数据的飞机型号
在数据库中新建与模型M1元数据信息对应的数据库表Table1。
表6人员乘坐航班记录业务数据对应的数据库表结构Table1的字段
Figure BDA0002209492320000063
Figure BDA0002209492320000071
对应步骤4,通过指定模型M1元数据信息中的模型字段MFs与实体E1、E2中实体字段EFs的对应关联,建立模型与实体E1、E2的关联如下表。同时,指定在E1和E2之间存在关系R1。
表7模型M1与实体E1、E2之间的字段对应关系
Figure BDA0002209492320000072
对应步骤5,采用表格文件导入的方式,读取业务数据信息并将数据存储在事先建立的数据库表Table1中。
对应步骤6,在获取业务数据过程中遍历每一条数据,对每一条数据进行实体E1、E2数据和关系R1数据的抽取,将获取的实体数据和关系数据信息进行存储,存储采用图数据库方式,当存储数据时发现数据已经存储在时则不进行存储。
对于模型M1下的一条数据,根据表7对业务数据进行实体抽取,将模型M1数据的RPersonName和RPersonID字段数据抽取作为为乘客实体E1的NAME和PersonID字段数据;将模型M1数据的RFlihtID、RDeparture和RFlightType字段数据抽取作为航班实体E2的FlightID、DeparturePlace和FlightType字段数据。抽取结果如下表所示,抽取过程中通过PersonID对乘客数据进行去重操作,通过FlightID对航班数据进行去重操作。
表8抽取后获得的乘客实体E1数据
PersonID NAME
320005199011111111 张三
320005199011111112 王五
320005199011111113 李六
320005199011111114 赵四
320005199011111115 徐七
320005199011111116 孙八
表9抽取后得到的航班实体E2数据
FlightID DeparturePlace FlightType
H1800 北京 空客320
H1801 上海 空客380
H1805 南京 空客330
同时,根据模型M1数据中,同一条数据中出现的乘客实体E1和乘客实体E2数据,抽取的关系R1的数据如下。
表10抽取后获得的关系R1对应的关系数据
Figure BDA0002209492320000081
以上完成了针对乘客乘坐飞机记录的业务数据,通过构建模型M1抽取乘客实体E1、航班实体E1和乘坐关系R1的数据,将实体数据和关系数据通过图数据库Neo4j进行存储,并通过图数据库Neo4j的查询功能进行节点和关系查询,对数据的展示采用节点和连线的形式进行展示,其中节点对应每一条实体数据,连线对应每一条关系。展示方式采用页面形式,用户可拖动节点或以某种不同的节点视角进行关联信息的查看。

Claims (1)

1.一种基于实体建模的关联信息抽取和显示方法,其特征在于,具体包括以下步骤:
步骤1,在数据库中建立实体E元数据信息,其中实体E元数据信息包含实体名称、实体ID和实体包含的多个实体字段EFs信息;
步骤2,在数据库中建立关系R元数据信息,其中关系R元数据信息包含关系名称、关系类别信息以及关系两端对应的实体类型ID;
步骤3,根据业务目标数据结构T在数据库中建立与待处理的业务目标数据对应的模型M元数据信息并新建与模型M元数据信息对应的数据库表Table,模型M元数据信息包含模型名称、模型ID以及模型包含的多个模型字段MFs信息;其中,实体字段信息EFs和模型字段信息MFs包含字段的类型信息,类型支持字符串、整型、浮点型和日期类型;其中,模型M包含的模型字段MFs信息与业务目标数据结构相对应,字段MFs信息的字段类型根据业务数据类型设定;数据库表Table的字段数量和类型与模型元数据M中模型字段MFs的数量和类型对应;
步骤4,通过指定模型M元数据信息中的模型字段MFs与实体E中实体字段EFs的对应关联,建立模型与多个实体的关联关系MEs;同时指定在这些实体E之间的关联关系EEs,实体E之间的关联关系EEs为步骤2中建立的关系元数据R中的一种或多种,此时模型M下包含了与实体的关联信息MEs以及这些实体E之间的关系EEs信息;其中,模型字段MFs与实体E中实体字段EFs的对应关联时,数据类型保持一致且对应的实体字段EFs必须能唯一表征一个实体数据;
步骤5,获取业务数据并将业务数据存储在事先建立的数据库表Table中;其中,获取业务数据的方法采用表格文件导入的方式或通过建立数据库连接的方式获取业务数据,业务数据为结构化数据;
步骤6,在获取业务数据过程中遍历每一条数据,并根据步骤1-4建立的元数据信息对每一条数据进行实体数据和关系数据的抽取,将获取的实体数据和关系数据信息进行存储;其中,抽取实体数据和实体关系的方法为:对于模型M下的一条数据,根据模型M下的与多个实体E的关联关系MEs,将该条数据下部分字段数据作为关联的实体E下的对应字段数据,利用该数据创建对应实体E下的一条数据并保存,此时完成了一条实体数据的抽取;如果在模型M下指定了关联关系MRs,则根据抽取的实体E数据创建关联关系MRs下的一条关系数据;每条关系数据包含了在同一条模型数据下抽取的两个不同实体数据的信息;
步骤7,根据业务需求对抽取的实体和关系数据进行查询和显示;其中对实体和关系数据的查询通过图数据库方式进行查询,对数据的展示采用节点和连线的形式进行展示,其中节点对应每一条实体数据,连线对应每一条关系;对实体和关系的保存方式采用图数据库的方式进行保存。
CN201910897876.3A 2019-09-20 2019-09-20 一种基于实体建模的关联信息抽取和显示方法 Active CN110750599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910897876.3A CN110750599B (zh) 2019-09-20 2019-09-20 一种基于实体建模的关联信息抽取和显示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910897876.3A CN110750599B (zh) 2019-09-20 2019-09-20 一种基于实体建模的关联信息抽取和显示方法

Publications (2)

Publication Number Publication Date
CN110750599A CN110750599A (zh) 2020-02-04
CN110750599B true CN110750599B (zh) 2022-06-28

Family

ID=69276827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910897876.3A Active CN110750599B (zh) 2019-09-20 2019-09-20 一种基于实体建模的关联信息抽取和显示方法

Country Status (1)

Country Link
CN (1) CN110750599B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737488B (zh) * 2020-06-12 2021-02-02 南京中孚信息技术有限公司 基于领域实体提取和关联分析的信息溯源方法及装置
CN111831696A (zh) * 2020-07-13 2020-10-27 上海华讯网络系统有限公司 基于图理论的资产信息存储方法和系统
CN112286879B (zh) * 2020-07-15 2021-08-13 上海柯林布瑞信息技术有限公司 基于元数据的数据资产构建方法及装置
CN111813873B (zh) * 2020-08-26 2023-09-26 烟台云朵软件有限公司 一种实体关系自动发现方法与系统
CN113009279B (zh) * 2021-03-05 2024-03-22 四川大川云能科技有限公司 基于Neo4j的配电网电压暂降故障定位及其可视化系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN110236741A (zh) * 2019-04-15 2019-09-17 浙江工业大学 一种具有拓扑优化固定单元和多孔髁突头单元的个性化髁突假体设计方法及个性化髁突假体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549731A (zh) * 2018-07-11 2018-09-18 中国电子科技集团公司第二十八研究所 一种基于本体模型的知识图谱构建方法
CN110236741A (zh) * 2019-04-15 2019-09-17 浙江工业大学 一种具有拓扑优化固定单元和多孔髁突头单元的个性化髁突假体设计方法及个性化髁突假体
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法

Also Published As

Publication number Publication date
CN110750599A (zh) 2020-02-04

Similar Documents

Publication Publication Date Title
CN110750599B (zh) 一种基于实体建模的关联信息抽取和显示方法
CN110704411B (zh) 适用于艺术领域的知识图谱搭建方法及装置、电子设备
CN103631909B (zh) 对大规模结构化和非结构化数据联合处理的系统及方法
US11157550B2 (en) Image search based on feature values
CN107818815B (zh) 电子病历的检索方法及系统
CN102073729B (zh) 一种关系化知识共享平台及其实现方法
CN106933833B (zh) 一种基于空间索引技术的位置信息快速查询方法
CN107590128B (zh) 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
CN106503223B (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN107203640B (zh) 通过数据库运行记录建立物理模型的方法及系统
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN108121739B (zh) 数据收集方法和数据收集系统
Zhou et al. A survey on the management of uncertain data
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN104679827A (zh) 一种基于大数据的公开信息关联方法及挖掘引擎
CN105095436B (zh) 数据源数据自动建模方法
CN103886011A (zh) 一种基于索引文件的社会关系网络创建与检索系统及方法
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN109408578A (zh) 一种针对异构环境监测数据融合方法
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN104331473A (zh) 一种基于知网节的学术知识获取方法及系统
Chu et al. Automatic data extraction of websites using data path matching and alignment
CN105447142B (zh) 一种双模式农业科技成果分类方法及系统
CN103279545A (zh) 一种图像预检索方法
CN111221967A (zh) 一种基于区块链架构的语言数据分类存储系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant