CN115238103A - 一种非结构化数据地图的构建方法及装置 - Google Patents

一种非结构化数据地图的构建方法及装置 Download PDF

Info

Publication number
CN115238103A
CN115238103A CN202210895172.4A CN202210895172A CN115238103A CN 115238103 A CN115238103 A CN 115238103A CN 202210895172 A CN202210895172 A CN 202210895172A CN 115238103 A CN115238103 A CN 115238103A
Authority
CN
China
Prior art keywords
unstructured
data
metadata
constructing
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210895172.4A
Other languages
English (en)
Inventor
刘艳
常欣荻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comac Software Co ltd
Shanghai Aviation Industry Group Co ltd
Original Assignee
Comac Software Co ltd
Shanghai Aviation Industry Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comac Software Co ltd, Shanghai Aviation Industry Group Co ltd filed Critical Comac Software Co ltd
Priority to CN202210895172.4A priority Critical patent/CN115238103A/zh
Publication of CN115238103A publication Critical patent/CN115238103A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Remote Sensing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及民机制造数据技术领域,尤其涉及一种非结构化数据地图的构建方法及装置,扫描民机数据存储系统中的非结构化文件,获取结构化元数据模型;提取所述元数据的关联关系,并构建图数据模型;基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图,从而能够提高数据查询性能和可视化效果,达到推进企业非结构化数据治理,实现企业非结构化数据资产可管理、可追溯,保障各业务系统间数据的有效共享与服务的目的。

Description

一种非结构化数据地图的构建方法及装置
技术领域
本申请涉及民机制造数据技术领域,尤其涉及一种非结构化数据地图的构建方法及装置。
背景技术
随着民用飞机制造业的发展,企业从产品设计研发、生产试飞到商业活动变得越来越复杂,企业的运营和决策越来越依赖于高效、高质量的数据支持,特别是大数据架构下文本、图像、音频等非结构数据的分析和处理。针对该需求,企业目前的做法是只对文档本身和表单数据实现了管理,没有对相关资料进行深入的标引和挖掘。尤其是对多年来沉淀下来的海量企业运营管理经验数据,单纯的内容管理服务系统,未实现全面的挖掘经验文档中的丰富的非结构化知识,因此不能很好的对接到集团其他设计开发系统中去。
然而,随着业务的开展,非结构化数据分析需求越来越广泛、深入,加之民机制造业业务和技术非常复杂,具有非结构化数据体量大、分布广、类型多的特点,如果企业非结构化数据架构不清,缺乏非结构化数据全景视图,则容易造成非结构化数据冗余,数据响应不及时,提供数据不一致等问题。企业非结构化数据资产使用效率低下,将严重制约数据共享服务能力提升。
发明内容
为克服现有技术中的不足,本申请提供一种非结构化数据地图的构建方法及装置,能够实现非结构化数据资产可管理、可追溯,保障各系统间数据的有效共享与服务。
本申请提供的一种非结构化数据地图的构建方法,应用于民机数据存储系统,包括以下步骤:
扫描所述民机数据存储系统中的非结构化文件,获取结构化元数据模型;其中,所述结构化元数据模型包含所述非结构化文件的元数据,所述元数据包括所述非结构化文件的名称、所述非结构化文件的主题、所述非结构化文件的类型中的一种或多种;
提取所述元数据的关联关系,并构建图数据模型;
基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;
基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图。
在一种可能的实施方式中,所述扫描所述民机数据存储系统中的非结构化文件,获取结构化元数据模型,包括以下步骤:
利用大数据解析工具扫描非结构化文件,采集所述非结构化文件的元数据;
对所述元数据进行解析形成多条父子结构关系键值对和所述非结构化文件的基本信息;
基于所述多条父子结构关系键值对和所述非结构化文件的基本信息形成结构化元数据模型。
在一种可能的实施方式中,所述通用计算引擎包括python引擎、Matlab引擎、AI引擎中的一种或多种,用于所述后端服务层基于不同的计算请求调用相适配的通用计算引擎。
在一种可能的实施方式中,所述提取所述元数据的关联关系,并构建图数据模型,包括以下步骤:
利用知识图谱工具以所述元数据、以及所述多条父子结构关系键值对和所述非结构化文件的基本信息为起点,形成父子溯源的图数据;
基于所述图数据构建所述元数据之间的映射关系;
基于所述元数据之间的映射关系构建图数据模型。
在一种可能的实施方式中,所述非结构化文件的基本信息包括非结构化文件的抽取时间、非结构化文件的索引位置、非结构化文件的创建人、非结构化文件的权限中的一种或多种。
在一种可能的实施方式中,所述基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图之后,还包括以下步骤:
采用图数据库对构建的所述非结构化数据地图进行存储。
在一种可能的实施方式中,所述利用大数据解析工具扫描非结构化文件,采集所述非结构化文件的元数据,包括以下步骤:
利用大数据解析工具的不同处理程序,针对不同类型的非结构化文件进行相适配处理,以将不同型的非结构化文件转换为结构化文档数据;
基于转换的所述结构化文档数据采集所述非结构化文件的元数据。
在一种可能的实施方式中,所述民机数据存储系统中的非结构化文件包括pdf文档、word文档、图片中的一种或多种类型。
本申请提供的一种非结构化数据地图的构建装置,包括:
扫描模块,用于扫描非结构化文件,获取结构化元数据模型;其中,所述结构化元数据模型包含所述非结构化文件的元数据,所述元数据包括所述非结构化文件的名称、所述非结构化文件的主题、所述非结构化文件的类型中的一种或多种;
提取模块,用于提取所述元数据的关联关系,并构建图数据模型;
确定模块,用于基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;
构建模块,用于基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图。
本申请提供的一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述任一所述的非结构化数据地图的构建方法的步骤。
本申请提供的一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述任意一项所述的非结构化数据地图的构建方法的步骤。
本实施例提供的一种非结构化数据地图的构建方法及装置,扫描民机数据存储系统中的非结构化文件,获取结构化元数据模型;提取所述元数据的关联关系,并构建图数据模型;基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图,从而能够提高数据查询性能和可视化效果,达到推进企业非结构化数据治理,实现企业非结构化数据资产可管理、可追溯,保障各业务系统间数据的有效共享与服务的目的。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请一实施例所述非结构化数据地图的构建方法的流程图;
图2示出了本申请一实施例所述获取结构化元数据模型的流程图;
图3示出了本申请一实施例所述构建图数据模型的流程图;
图4示出了本申请一实施例所述非结构化数据地图的构建装置的结构框图;
图5示出了示出了本申请一实施例所述电子设备的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
目前,在民机企业的非结构化数据架构开发领域,大多集中在数据存储、制定统一标准、搭建平台、初步数据搜索和利用、提供基本的非结构化数据服务,实现对内容的初步加工整合挖掘,未能充分挖掘非结构化数据的关系,对于非结构化文本解析,分析、挖掘、融合、再利用还有进一步研究的价值。基于此,本申请提供一种非结构化数据地图的构建方法、装置、电子设备及存储介质,能够推进企业非结构化数据治理,实现企业非结构化数据资产可管理、可追溯,保障各业务系统间数据的有效共享与服务。
参见说明书附图1,本申请提供的一种非结构化数据地图的构建方法,应用于民机数据存储系统,包括以下步骤:
S1、扫描所述民机数据存储系统中的非结构化文件,获取结构化元数据模型;其中,所述结构化元数据模型包含所述非结构化文件的元数据,所述元数据包括所述非结构化文件的名称、所述非结构化文件的主题、所述非结构化文件的类型中的一种或多种;
S2、提取所述元数据的关联关系,并构建图数据模型;
S3、基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;
S4、基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图。
具体的,参见说明书附图2,在步骤S1中,扫描所述民机数据存储系统中的非结构化文件,获取结构化元数据模型,包括以下步骤:
S101、利用大数据解析工具扫描非结构化文件,采集所述非结构化文件的元数据;
S102、对所述元数据进行解析形成多条父子结构关系键值对和所述非结构化文件的基本信息;
S103、基于所述多条父子结构关系键值对和所述非结构化文件的基本信息形成结构化元数据模型。
在该实施例中,利用大数据解析工具扫描从民机数据存储系统提取的非结构化文件,由于民机数据存储系统中所收集的非结构化文件来源于不同的子系统,所以非结构化文件的类型并不是单一的,包括了但不限于pdf文档、word文档、图片中的一种或多种类型。基于此,所利用的大数据解析工具使用不同的处理程序以针对不同类型的非结构化文件进行自动转换,生成结构化数据。在该实施例中,将所有类型的非结构化文件均转换为结构化的XML文档数据,然后基于转换的结构化的XML文档数据采集非结构化文件的元数据。其中,元数据是又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。在该实施例中,所述元数据包括所述非结构化文件的名称、所述非结构化文件的主题、所述非结构化文件的类型中的一种或多种。另外,在利用数据解析工具采集非结构化文件的元数据时,分为前端界面和后台系统两个部分,后台系统与各种类型的非结构化文件进行适配并采集元数据,前端界面对元数据进行整合及可视化展现。
在得到非结构化文件的元数据后,对所述元数据进行解析并形成多条父子结构关系键字对和所述非结构化文件的基本信息,其中,所述非结构化文件的基本信息包括非结构化文件的抽取时间、非结构化文件的索引位置、非结构化文件的创建人、非结构化文件的权限中的一种或多种。进而,基于形成的多条父子结构关系键字对和所述非结构化文件的基本信息,形成结构化元数据模型。
参见说明书附图3,在步骤S2中,所述提取所述元数据的关联关系,并构建图数据模型,包括以下步骤:
S201、利用知识图谱工具以所述元数据、以及所述多条父子结构关系键值对和所述非结构化文件的基本信息为起点,形成父子溯源的图数据;
S202、基于所述图数据构建所述元数据之间的映射关系;
S203、基于所述元数据之间的映射关系构建图数据模型。
其中,知识图谱工具在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储;模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。此应为本领域技术人员所熟知的技术手段,在此不做赘述。在该实施例中,主要是借助知识图谱形成父子溯源的图数据,用以展示出各个非结构化文件之间关联关系以及各个关键词下挂接的非结构化文件;同时基于知识图谱的分析结果,收集非结构化文件的元数据并构建分层级的映射关系,其中,不同的层次关系有具体不同的描述,根据这些关系的描述和层级表现,可以归纳为七种类型:跟随、因果、组成、并发、条件、互斥、继承。然后,根据元数据之间的映射关系建立图数据模型,其中,建立的图数据模型包括所属公司业务类别、文件名称、父子节点、父子节点的关联关系和方向、每个节点包含的文字等信息。
在步骤S3和步骤S4中,依据生成的图数据模型的映射关系,生成非结构化数据对象并确定非结构化数据对象之间的连接关系,进而构建非结构化数据地图。其中,基于图数据模型的映射关系提取非结构化数据对象,原因在于图的性质决定这些数据之间只要存在关系就会形成映射关系,可以轻松的利用图数据模型的映射关系,找到非结构化数据对象,以及非结构化数据对象之间的连接关系。
在构建好非结构化数据地图之后,通过图数据库对构建的所述非结构化数据地图进行存储,以便后期查阅。在该实施例中,使用图数据库Neo4j以属性图形式储存知识图,形成非结构化数据知识图谱,能够提高数据查询性能和可视化效果,同时达到推进企业非结构化数据治理,实现企业非结构化数据资产可管理、可追溯,保障各业务系统间数据的有效共享与服务的目的。
基于同一发明构思,本申请实施例中还提供了一种非结构化数据地图的构建装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述一种非结构化数据地图的构建方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如说明书附图4所示,本申请还提供了一种非结构化数据地图的构建装置,应用于民机数据存储系统,所述装置包括:
扫描模块401,用于扫描非结构化文件,获取结构化元数据模型;其中,所述结构化元数据模型包含所述非结构化文件的元数据,所述元数据包括所述非结构化文件的名称、所述非结构化文件的主题、所述非结构化文件的类型中的一种或多种;
提取模块402,用于提取所述元数据的关联关系,并构建图数据模型;
确定模块403,用于基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;
构建模块404,用于基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图。
在一些实施方式中,所述扫描模块401在扫描非结构化文件,获取结构化元数据模型,包括:
利用大数据解析工具扫描非结构化文件,采集所述非结构化文件的元数据;
对所述元数据进行解析形成多条父子结构关系键值对和所述非结构化文件的基本信息;
基于所述多条父子结构关系键值对和所述非结构化文件的基本信息形成结构化元数据模型。
并且,所述扫描模块401在利用大数据解析工具扫描非结构化文件,采集所述非结构化文件的元数据,包括:
利用大数据解析工具的不同处理程序,针对不同类型的非结构化文件进行相适配处理,以将不同型的非结构化文件转换为结构化文档数据;
基于转换的所述结构化文档数据采集所述非结构化文件的元数据。
其中,所述民机数据存储系统中的非结构化文件包括pdf文档、word文档、图片中的一种或多种类型。
在一些实施方式中,所述提取模块402在提取所述元数据的关联关系,并构建图数据模型,包括:利用知识图谱工具以所述元数据、以及所述多条父子结构关系键值对和所述非结构化文件的基本信息为起点,形成父子溯源的图数据;
基于所述图数据构建所述元数据之间的映射关系;
基于所述元数据之间的映射关系构建图数据模型。
其中,所述非结构化文件的基本信息包括非结构化文件的抽取时间、非结构化文件的索引位置、非结构化文件的创建人、非结构化文件的权限中的一种或多种。
在一些实施方式中,所述装置还包括存储模块,用于对构建的所述非结构化数据地图进行存储。
本申请所提供的一种非结构化数据地图的构建装置,扫描民机数据存储系统中的非结构化文件,获取结构化元数据模型;提取所述元数据的关联关系,并构建图数据模型;基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图,从而能够提高数据查询性能和可视化效果,达到推进企业非结构化数据治理,实现企业非结构化数据资产可管理、可追溯,保障各业务系统间数据的有效共享与服务的目的。
基于本发明的同一构思,说明书附图5所示,本申请实施例提供的一种电子设备500的结构,该电子设备500包括:至少一个处理器501,至少一个网络接口504或者其他用户接口503,存储器505,至少一个通信总线502。通信总线502用于实现这些组件之间的连接通信。该电子设备500可选的包含用户接口503,包括显示器(例如,触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等),键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触摸屏等)。
存储器505可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器505的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器505存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统5051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序模块5052,包含各种应用程序,例如桌面(launcher)、媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。
在本申请实施例中,通过调用存储器505存储的程序或指令,处理器501用于执行如一种非结构化数据地图的构建方法中的步骤,能够实现非结构化数据资产可管理、可追溯,保障各系统间数据的有效共享与服务。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如非结构化数据地图的构建方法中的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述非结构化数据地图的构建方法。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种非结构化数据地图的构建方法,其特征在于,应用于民机数据存储系统,包括以下步骤:
扫描所述民机数据存储系统中的非结构化文件,获取结构化元数据模型;其中,所述结构化元数据模型包含所述非结构化文件的元数据,所述元数据包括所述非结构化文件的名称、所述非结构化文件的主题、所述非结构化文件的类型中的一种或多种;
提取所述元数据的关联关系,并构建图数据模型;
基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;
基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图。
2.根据权利要求1所述一种非结构化数据地图的构建方法,其特征在于,所述扫描所述民机数据存储系统中的非结构化文件,获取结构化元数据模型,包括以下步骤:
利用大数据解析工具扫描非结构化文件,采集所述非结构化文件的元数据;
对所述元数据进行解析形成多条父子结构关系键值对和所述非结构化文件的基本信息;
基于所述多条父子结构关系键值对和所述非结构化文件的基本信息形成结构化元数据模型。
3.根据权利要求2所述一种非结构化数据地图的构建方法,其特征在于,所述提取所述元数据的关联关系,并构建图数据模型,包括以下步骤:
利用知识图谱工具以所述元数据、以及所述多条父子结构关系键值对和所述非结构化文件的基本信息为起点,形成父子溯源的图数据;
基于所述图数据构建所述元数据之间的映射关系;
基于所述元数据之间的映射关系构建图数据模型。
4.根据权利要求2所述一种非结构化数据地图的构建方法,其特征在于,所述非结构化文件的基本信息包括非结构化文件的抽取时间、非结构化文件的索引位置、非结构化文件的创建人、非结构化文件的权限中的一种或多种。
5.根据权利要求4所述一种非结构化数据地图的构建方法,其特征在于,所述基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图之后,还包括以下步骤:
采用图数据库对构建的所述非结构化数据地图进行存储。
6.根据权利要求5所述一种非结构化数据地图的构建方法,其特征在于,所述利用大数据解析工具扫描非结构化文件,采集所述非结构化文件的元数据,包括以下步骤:
利用大数据解析工具的不同处理程序,针对不同类型的非结构化文件进行相适配处理,以将不同型的非结构化文件转换为结构化文档数据;
基于转换的所述结构化文档数据采集所述非结构化文件的元数据。
7.根据权利要求6所述一种非结构化数据地图的构建方法,其特征在于,所述民机数据存储系统中的非结构化文件包括pdf文档、word文档、图片中的一种或多种类型。
8.一种非结构化数据地图的构建装置,其特征在于,包括:
扫描模块,用于扫描非结构化文件,获取结构化元数据模型;其中,所述结构化元数据模型包含所述非结构化文件的元数据,所述元数据包括所述非结构化文件的名称、所述非结构化文件的主题、所述非结构化文件的类型中的一种或多种;
提取模块,用于提取所述元数据的关联关系,并构建图数据模型;
确定模块,用于基于所述图数据模型的映射关系生成非结构化数据对象,并确定所述非结构化数据对象之间的连接关系;
构建模块,用于基于生成的所述非结构化数据对象以及确定的所述非结构化数据对象之间的连接关系构建非结构化数据地图。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的非结构化数据地图的构建方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的非结构化数据地图的构建方法的步骤。
CN202210895172.4A 2022-07-26 2022-07-26 一种非结构化数据地图的构建方法及装置 Pending CN115238103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210895172.4A CN115238103A (zh) 2022-07-26 2022-07-26 一种非结构化数据地图的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210895172.4A CN115238103A (zh) 2022-07-26 2022-07-26 一种非结构化数据地图的构建方法及装置

Publications (1)

Publication Number Publication Date
CN115238103A true CN115238103A (zh) 2022-10-25

Family

ID=83678222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210895172.4A Pending CN115238103A (zh) 2022-07-26 2022-07-26 一种非结构化数据地图的构建方法及装置

Country Status (1)

Country Link
CN (1) CN115238103A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450908A (zh) * 2023-06-19 2023-07-18 北京大数据先进技术研究院 基于数据湖的自助式数据分析方法、装置和电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116450908A (zh) * 2023-06-19 2023-07-18 北京大数据先进技术研究院 基于数据湖的自助式数据分析方法、装置和电子设备
CN116450908B (zh) * 2023-06-19 2023-10-03 北京大数据先进技术研究院 基于数据湖的自助式数据分析方法、装置和电子设备

Similar Documents

Publication Publication Date Title
US8959109B2 (en) Business intelligent in-document suggestions
US8019756B2 (en) Computer apparatus, computer program and method, for calculating importance of electronic document on computer network, based on comments on electronic document included in another electronic document associated with former electronic document
US7752192B2 (en) Method and system for indexing and serializing data
CN111159184B (zh) 元数据追溯方法、装置及服务器
CN110399448B (zh) 中文地名地址搜索匹配方法、终端、计算机可读存储介质
JP2022031625A (ja) 情報をプッシュするための方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
WO2016200667A1 (en) Identifying relationships using information extracted from documents
CN112559717B (zh) 搜索匹配方法、装置、电子设备以及存储介质
CN109885610A (zh) 一种结构化数据的抽取方法、装置、电子设备及存储介质
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN115238103A (zh) 一种非结构化数据地图的构建方法及装置
CN113609100A (zh) 数据存储方法、数据查询方法、装置及电子设备
CN113722600A (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN113220710A (zh) 数据查询方法、装置、电子设备以及存储介质
CN103927373A (zh) 基于增量式关联规则技术的动态大数据模型高效建立方法
CN111813555B (zh) 基于互联网技术的超融合基础架构分层资源管理系统
CN108399177B (zh) 一种基于数据库的数据处理方法及其系统
CN114880308A (zh) 一种基于大数据的元数据处理方法、装置、介质
CN111222918B (zh) 关键词挖掘方法、装置、电子设备及存储介质
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN117348852B (zh) 基于细粒度软件要素构建数据链路的方法、装置及介质
CN113901332B (zh) 任职历程信息挖掘方法和装置、以及存储介质和电子设备
EP4187431A1 (en) Address identification method and apparatus, electronic device, and storage medium
Jiao et al. Towards a lightweight SOA framework for enterprise cloud computing
Yang Development and Application of an English Corpus System Based on Java Web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination