CN115510116A - 数据目录构建方法、装置、介质及设备 - Google Patents

数据目录构建方法、装置、介质及设备 Download PDF

Info

Publication number
CN115510116A
CN115510116A CN202211134211.5A CN202211134211A CN115510116A CN 115510116 A CN115510116 A CN 115510116A CN 202211134211 A CN202211134211 A CN 202211134211A CN 115510116 A CN115510116 A CN 115510116A
Authority
CN
China
Prior art keywords
data
directory
metadata
entity
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211134211.5A
Other languages
English (en)
Inventor
李馨迟
黄萌
闫汇
刘康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202211134211.5A priority Critical patent/CN115510116A/zh
Publication of CN115510116A publication Critical patent/CN115510116A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请的实施例揭示了一种数据目录构建方法、装置、介质及设备,该数据目录构建方法包括:分别获取多个数据存储平台中的元数据,减小了数据传输量,然后对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,根据实体和关联关系构建全局元数据静态知识图谱,得到准确度高、数据覆盖面广的知识图谱,消除了各个数据存储平台之间的数据孤岛的情况,然后,根据待构建的数据目录的类型获取数据目录对应的目录构建策略,根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,进而便于对数据进行分析,有利于对数据进行挖掘利用。

Description

数据目录构建方法、装置、介质及设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种数据目录构建方法、装置、计算机可读存储介质及电子设备。
背景技术
大数据是信息化发展的新阶段,随着信息技术和人类生产生活交汇融合,互联网快速普及,全球数据呈现爆发增长、海量集聚的特点,对经济发展、社会治理、国家管理、人们生活都产生了重大影响。在大数据产业化的浪潮中,以数据为核心的信息基础设施将从大数据私有云发展为公有云、甚至逐步迈入混合云阶段。
企业的数据存在数据资源丰富,数据来源复杂等特征,如运营商包括业务域(business support system)数据、运营域(operation support system)数据、管理域(management support system)数据、移动深度包检测(Deep Packet Inspection,DPI)数据、固网DPI数据、信令数据等。
在传统的企业大数据管理的方式中,数据入湖是现阶段比较主流的数据集中化管控方式,可以针对企业各种各样的原始数据,将数据全部集中起来提供存取、处理、分析及传输,但是,其存在数据流转周期长、数据全局关联度低、数据安全性低等问题。
发明内容
为解决上述技术问题,本申请的实施例提供了一种数据目录构建方法、装置、计算机可读存储介质及电子设备,以提高数据管理效果。
根据本申请实施例的一个方面,提供了一种数据目录构建方法,方法包括:
分别获取多个数据存储平台中的元数据,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系;
根据实体和关联关系构建全局元数据静态知识图谱;
根据待构建的数据目录的类型获取数据目录对应的目录构建策略;
根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
在一些实施例中,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,包括:
分别对每个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库;
分别对每个实体库中实体进行关系识别,得到每个实体库中实体之间的关联关系。
在一些实施例中,分别对多个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库,包括:
获取元数据的数据类型;
根据数据类型进行实体识别策略匹配,得到元数据对应的实体识别策略;
根据实体识别策略对元数据进行实体识别,得到元数据对应的实体;
将元数据对应的实体添加至元数据对应的数据存储平台的实体库。
在一些实施例中,根据实体和关联关系构建全局元数据静态知识图谱,包括:
获取预设的初始知识图谱,并对每个实体库进行实体对齐,得到待增量实体及关联关系;
根据待增量实体及关联关系对初始知识图谱进行图谱补全,得到全局元数据静态知识图谱。
在一些实施例中,待构建的数据目录的类型为静态数据资源编目;根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
获取待构建的静态数据资源编目对应的目录项关键词表和目录项关系表;
根据目录项关键词表对全局元数据静态知识图谱进行关键词匹配,得到全局元数据静态知识图谱中含有的目录项信息;
根据目录项关系表对目录项信息进行关系编排,生成静态数据资源编目。
在一些实施例中,待构建的数据目录的类型为静态业务资源目录;根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
获取全局元数据静态知识图谱中每个节点的节点属性;
根据节点属性对每个节点进行聚类处理,得到每个节点所属的业务类别;
根据全局元数据静态知识图谱包含的业务类别以及每个业务类别包含的节点,生成静态业务资源目录。
在一些实施例中,待构建的数据目录的类型为动态资源检索目录;根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
接收用户输入的资源检索信息;
提取资源检索信息中的检索关键词;
根据检索关键词对全局元数据静态知识图谱进行关键信息提取,得到资源检索信息对应的检索结果;
根据检索结果生成动态资源检索目录。
根据本申请实施例的一个方面,提供了一种数据目录构建装置,装置包括:
实体及关系提取模块,配置为分别获取多个数据存储平台中的元数据,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系;
知识图谱构建模块,配置为根据实体和关联关系构建全局元数据静态知识图谱;
目录构建策略确认模块,配置为根据待构建的数据目录的类型获取数据目录对应的目录构建策略;
数据目录生成模块,配置为根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上的数据目录构建方法。
根据本申请实施例的一个方面,提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被电子设备执行时,使得电子设备实现如上的数据目录构建方法。
在本申请的实施例提供的技术方案中,通过分别获取多个数据存储平台中的元数据,减小了数据传输量,然后对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,根据实体和关联关系构建全局元数据静态知识图谱,得到准确度高、数据覆盖面广的知识图谱,消除了各个数据存储平台之间的数据孤岛的情况,然后,根据待构建的数据目录的类型获取数据目录对应的目录构建策略,根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,进而便于对数据进行分析,有利于对数据进行挖掘利用。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施例示出数据目录构建方法的应用环境的示意图;
图2是本申请的一示例性实施例示出的数据目录构建方法的流程图;
图3是本申请的一示例性实施例示出的元数据获取的示意图;
图4是本申请的另一示例性实施例示出的数据目录构建方法的流程图;
图5是本申请的另一示例性实施例示出的数据目录构建方法的流程图;
图6是本申请的另一示例性实施例示出的数据目录构建方法的流程图;
图7是本申请的一示例性实施例示出的数据目录构建装置的框图;
图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相同的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相同的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用应用程序形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/ 步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是,在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
可选的,在本实施例中,数据目录构建方法可以应用于如图1所示的环境中。如图1所示,该实施环境包括数据存储平台110、服务器120,多个数据存储平台110和服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
其中,数据存储平台110用于数据存储,数据存储平台110可以是智能手机、平板电脑、笔记本电脑、台式计算机、计算机集群等,但并不局限于此,本申请实施例对数据存储平台的数量和设备类型不加以限定。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
可选的,服务器120承担主要数据目录构建工作,终端110承担次要数据目录构建工作;或者,服务器120承担次要数据目录构建工作,终端110承担主要数据目录构建工作;或者,服务器120或终端110分别可以单独承担数据目录构建工作,本申请对此不进行限定。
请参阅图2,图2是本申请的一示例性实施例示出的数据目录构建方法的流程图。该数据目录构建方法可以应用于图1所示的实施环境,并由该实施环境中的服务器120具体执行。应理解的是,该方法也可以适用于其它的示例性实施环境,并由其它实施环境中的设备具体执行,本实施例不对该方法所适用的实施环境进行限制。
下面以服务器作为具体的执行主体来对本申请实施例提出的数据目录构建方法进行详细介绍。
如图2所示,在一示例性的实施例中,数据目录构建方法至少包括步骤 S210至步骤S240,详细介绍如下:
步骤S210,分别获取多个数据存储平台中的元数据,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系。
需要说明的是,元数据是指描述数据属性的数据,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。实体可以指的是客观存在并可相互区别的事物,也可以指的是特定领域的需要官方定义的抽象实体。关联关系指的是实体与实体之间的关系。
每个数据存储平台与服务器通信连接,以向服务器发送各数据存储平台中存储的数据对应的元数据。例如,公司A在不同地区分别部署有各地区对应的数据存储平台,这些数据存储平台用于分别存储其对应地区中产生的业务数据,执行数据目录构建的服务器可以获取所有数据存储平台中的元数据,也可以获取部分数据存储平台中的元数据,获取元数据的数据存储平台可以根据实际应用情况进行选择,本申请对此不进行限定。
示例性的,可以是服务器向数据存储平台发送元数据获取请求,以使数据存储平台根据该元数据获取请求向服务器反馈元数据。例如,请参阅图3,图3 为元数据获取的示意图,如图3所示,用户终端与服务器通信连接,用户终端向服务器发送数据目录构建请求,该数据目录构建请求中携带有数据存储平台的相关信息,服务器根据数据存储平台的相关信息确认需要进行元数据获取的数据存储平台,并向这些数据存储平台发送元数据获取请求,以使数据存储平台根据元数据获取请求反馈元数据。
示例性的,还可以是数据存储平台周期性向服务器上传其对应的元数据,如每间隔1天向服务器上传元数据,其中,数据存储平台可以通过仅向服务器上传元数据变化信息,以避免数据传输导致的带宽浪费。
得到数据存储平台的元数据后,识别元数据中含有的实体,以及提取各个实体之间的关联关系。
可选的,可以是预定义实体分类体系,再采用对应算法实现对实体的自动分类;还可以是基于实体的语义特征从元数据中识别出实体对象,然后采用聚类算法对识别出的实体对象进行聚类,以得到对应的实体;还可以是将元数据输入预先训练的实体识别模型中,该实体识别模型对元数据进行特征提取,以得到词嵌入向量,然后对词嵌入向量进行实体识别,以得到元数据中的实体,其中,实体识别模型可以是Bert(Bidirectional EncoderRepresentationsfrom Transformers)模型、长短时记忆神经网络(Long Short-TermMemory,LSTM)模型、循环神经网络(Recurrent Neural Network,RNN)模型等,还可以是其他的神经网络模型,本申请不进行限定。
进一步的,根据实体识别得到实体后,对这些实体进行关联关系提取。例如,计算第一实体和第二实体之间的关联值,该关联值为第一实体和第二实体同时出现的概率值,将关联值和预设关联值阈值进行比对,将关联值不小于预设关联值阈值的实体之间的关系确定为第一实体和第二实体之间的关联关系。
步骤S220,根据实体和关联关系构建全局元数据静态知识图谱。
需要说明的是,知识图谱指的是由(实体-关联关系-实体)三元组构成的知识图谱,用可视化的方式描述实体以及实体之间的相互联系。
得到实体和实体之间的关联关系即得到了多个三元组,根据三元组构建全局元数据静态知识图谱。根据三元组构建全局元数据静态知识图谱的过程可以理解为:按照经过合并处理后的多个三元组数据中各个元素之间的关系,将多个三元组数据连接成语义网络的过程,并且语义网络中的每个节点对应一个三元组数据中的实体类型或实体属性,节点之间的关系对应三元组数据中的关联关系的信息。
步骤S230,根据待构建的数据目录的类型获取数据目录对应的目录构建策略。
需要说明的是,数据目录用于对数据进行索引。目录构建策略用于限定在根据全局元数据静态知识图谱进行数据目录创建时对应的创建规则,如预创建的数据目录中的目录项、各个目录项之间的关联关系等。
可以理解的是,不同类型的数据目录对应的目录构建策略不同,可以根据用户输入的数据目录需求信息确认待构建的数据目录的类型。
可选的,可以是服务器预先存储有目录类型及构建策略映射表,该目录类型及构建策略映射表用于记录各个类型的数据目录所分别对应的目录构建策略,通过当前待构建的数据目录的类型查询目录类型及构建策略映射表,以确认待构建的数据目录对应的目录构建策略。
步骤S240,根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
需要说明的是,目录信息是指待构建的数据目录中各个目录项对应的信息,其为组成数据目录的具体内容。
根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,得到待构建的数据目录对应的目录项信息,然后根据各个目录项信息之间的关联关系生成数据目录。其中,各个目录项信息之间的关联关系包括但不限于目录项之间的等级关联,目录项之间的次序关系等,本申请对此不进行限定。
相关技术中,由于企业数据存在分布式存储的特点,企业会设有多个数据存储平台,因此,在对这些数据存储平台的数据进行汇聚计算时,需要进行数据汇聚传输,导致传输网络中存在大量数据的传输,容易堵塞网络,造成资源浪费,且这些数据存储平台之间较为分散,使得难以对全局数据进行应用,导致数据价值挖掘效果较差。
而本申请提供的数据目录构建方法,分别获取多个数据存储平台中的元数据,减小了数据传输量,然后对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,根据实体和关联关系构建全局元数据静态知识图谱,得到准确度高、数据覆盖面广的知识图谱,消除了各个数据存储平台之间的数据孤岛的情况,然后,根据待构建的数据目录的类型获取数据目录对应的目录构建策略,根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,进而便于对数据进行分析,有利于对数据进行挖掘利用。
在一些实施方式中,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,包括:分别对每个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库;分别对每个实体库中实体进行关系识别,得到每个实体库中实体之间的关联关系。
为了提高实体及实体关联关系提取的准确性,分别对每个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库,再分别对各个实体库中的实体之间进行关系识别,得到每个实体库中实体之间的关联关系。
在一些实施方式中,分别对多个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库,包括:获取元数据的数据类型;根据数据类型进行实体识别策略匹配,得到元数据对应的实体识别策略;根据实体识别策略对元数据进行实体识别,得到元数据对应的实体;将元数据对应的实体添加至元数据对应的数据存储平台的实体库。
可选的,元数据的数据类型包括结构化数据、半结构化数据和非结构化数据。结构化数据是指以关系型数据库表形式管理的数据,其数据存储和排列都是具有规律性的;半结构化数据是指有基本固定结构模式的数据,例如日志文件、XML文档、JSON文档、Email等;非结构化数据是指没有固定模式的数据,如WORD、PDF、PPT、EXL,各种格式的图片、视频等。
由于不同数据类型的数据表现形式不同,因此,需要根据元数据的数据类型匹配对应的实体识别策略,以根据实体识别策略对各类型的元数据分别进行实体识别,提高实体识别的准确性,且由于结构化数据可以直接识别得到实体,则通过区分出结构化数据,仅对半结构化数据和非结构化数据进行实体抽取等计算,可以节约计算资源,提高实体识别效率。
示例性的,服务器中存储有半结构化数据和非结构化数据实体识别模型(下文简称实体识别模型),将属于半结构化数据和非结构化数据的元数据输入至该实体识别模型中,根据实体识别模型对半结构化数据和非结构化数据进行实体抽取。例如,实体识别模型对输入的文本数据进行特征提取,得到文本数据对应的嵌入式向量,然后实体识别模型根据该嵌入式向量提取文本数据中包含的实体。
其中,在将半结构化数据和非结构化数据输入实体识别模型之前,还包括对半结构化数据和非结构化数据进行预处理。
由于半结构化数据和非结构化数据的编码格式可能不统一,且半结构化数据和非结构化数据中可能带有网页标签等数据,因此本申请实施例可对半结构化数据和非结构化数据进行转码、去标签等预处理,得到半结构化数据和非结构化数据对应的文本数据。在得到半结构化数据和非结构化数据对应的文本数据后,可对文本数据进行分词处理,再去除分词结果中的低频率出现词,得到侯处理词集合,再将侯处理词集合输入实体识别模型,得到实体识别模型输出的实体。
进一步的,根据实体和关联关系构建全局元数据静态知识图谱,包括:获取预设的初始知识图谱,并对每个实体库进行实体对齐,得到待增量实体及关联关系;根据待增量实体及关联关系对初始知识图谱进行图谱补全,得到全局元数据静态知识图谱。
初始知识图谱可以是基于专家经验和规则进行手工标注得到的知识图谱,基于该初始知识图谱进行图谱增量更新,得到全局元数据静态知识图谱。
对每个实体库之间进行实体对齐包括实体消歧和指代消解。
实体消歧是指计算实体的具体含义,指代消解是指计算各个指代词所指代的具体内容。
实体消歧是将不同来源的数据对齐成为一个实体,如实体“成某”在其他数据源可能被称为“成某大哥”、“Mou Chan”。可以利用Word2vec算法进行实体消歧,例如,两个实体的实体向量分别为Xword=(x1,x2,x3,…,xn)和 Yword=(y1,y2,y3,…,yn),计算Xword和Yword之间的距离,距离计算方式包括但不限于欧式距离计算方式、余弦距离计算方式等,根据Xword和Yword 之间的距离得到这两个实体之间的相似度,当相似度超过设定的相似度阈值时,则两个实体可以看作是指代的同一含义,即实现实体消歧。
指代消解能够有效解决文本当中的指代不明问题,可以获取待指代消解的实体或关联关系的上下文信息,提取上下文中的关键词,然后将这些关键词依次再原始文本中对待指代消解的实体进行替换,并分别提取替换后的文本的语义特征,根据语义特征计算该待指代消解的实体或关联关系用于指代该关键词的概率,选取概率最大的关键词作为待指代消解的实体或关联关系指代的内容。
然后,通过对每个实体库进行实体对齐后,得到待增量实体及关联关系,以根据待增量实体及关联关系对初始知识图谱进行图谱补全。例如,将初始知识图谱和待增量实体及关联关系进行知识图谱融合,得到中间知识图谱,然后将中间执行图谱输入预先训练的知识图谱补全模型中,以根据知识图谱补全模型进一步预测挖掘中间知识图谱中可能存在的关系和实体,最后得到知识图谱补全模型输出的全局元数据静态知识图谱。
该全局元数据静态知识图谱将因为地理位置、业务类型等原因呈现孤岛隔离的数据进行数据连接,避免数据孤岛的情况,便于后续数据目录的创建。
请参阅图4,图4是根据另一示例性实施例示出的一种数据目录创建方法的流程图。如图4所示,在一示例性的实施例中,待构建的数据目录的类型为静态数据资源编目;步骤S240中根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
步骤S2411,获取待构建的静态数据资源编目对应的目录项关键词表和目录项关系表;
步骤S2412,根据目录项关键词表对全局元数据静态知识图谱进行关键词匹配,得到全局元数据静态知识图谱中含有的目录项信息;
步骤S2413,根据目录项关系表对目录项信息进行关系编排,生成静态数据资源编目。
需要说明的是,静态数据资源编目是指按照预设的标准和规则,对全局元数据静态知识图谱的每各实体进行分析、选择、描述,并予以记录成为款目,继而将款目按一定顺序组织成为目录。
目录项关键词表包含有待构建的静态数据资源编目中需要生成的目录项信息,如目录项关键词表中的目录项关键词包括“用户上网数据”、“用户账号数据”、“短信数据”等。目录项关系表是指各个目录项信息之间的关系,如目录项关系表中的目录项关系包括“并列关系”、“包含关系”等,如用户上网数据中包含有用户的短信数据,则目录项关键词“用户上网数据”对应的目录项信息与目录项关键词“短信数据”对应的目录项信息为包含关系。
根据录项关键词表对全局元数据静态知识图谱进行关键词匹配,得到全局元数据静态知识图谱中含有的目录项信息,并根据目录项关系表对目录项信息进行关系编排,生成静态数据资源编目。
以目录项关键词表和目录项关系表为编目控制值域,对各个数据存储平台的数据资源的不同类别、不同层次的目录进行重新组织梳理,形成静态数据资源编目,满足从资源分类维度对数据资源的管理、发现、定位、共享。
请参阅图5,图5是根据另一示例性实施例示出的一种数据目录创建方法的流程图。如图5所示,在一示例性的实施例中,待构建的数据目录的类型为静态业务资源目录;步骤S240中根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
步骤S2421,获取全局元数据静态知识图谱中每个节点的节点属性;
步骤S2422,根据节点属性对每个节点进行聚类处理,得到每个节点所属的业务类别;
步骤S2423,根据全局元数据静态知识图谱包含的业务类别以及每个业务类别包含的节点,生成静态业务资源目录。
全局元数据静态知识图谱例具有至少两个节点,每个节点对应有节点属性值。节点属性值可以是具体内容,或者也可以是“缺省”或“空”,本申请不受图谱元素中信息节点的节点属性值的个数和具体内容的限制。
示例性的,根据节点属性对每个节点进行聚类处理具体包括:
2.1将全局元数据静态知识图谱中的所有节点作为待处理节点,得到待处理节点集合。
2.2依次从待处理节点集合中取一个节点,如节点i。
2.3获取节点i的节点属性。
2.4确定节点i对应的业务类别。
如果节点i为第一个处理的节点,即当前业务类别的数量为零,则根据节点i的属性确定一个新的业务类别,该业务类别的描述信息即节点i的节点属性。
如果节点i不为第一个处理的节点,则说明当前至少有一个业务类别,那么:
1)将节点i的节点属性与每个已经存在的业务类别的描述信息进行相似度计算,得到节点与类别相似度值。
其中,可以是分别对节点i的节点属性以及各个业务类别的描述信息进行特征提取,对提取得到的两个特征向量进行相似度计算,相似度计算的实施方法可是计算两个特征向量之间的欧式距离、余弦距离等,本申请对此不进行限定。
2)如果节点与类别相似度值大于对应业务类别中所有节点与该业务类别描述信息的相似度值的均值,则将节点i归为该业务类别中。
如果有多个业务类别都满足节点及类别相似度值大于均值的条件,那么确定节点及类别相似度值与各均值的差,选择差值最大的一个业务类别,将节点 i归为该业务类别中。
3)如果节点与类别相似度值不大于所有业务类别中所有节点与该业务类别描述信息的相似度值的均值,那么根据节点i的节点属性确定一个新的业务类别,该业务类别的描述信息即节点i的节点属性。
2.5将节点i从待处理节点集合中删除。
2.6通过全局元数据静态知识图谱确定与节点i存在边的所有节点,此处的所有节点必须在待处理节点集合中,如果不在,则说明已处理过,忽略该节点。
对于存在边的每个节点,如节点j:
1)计算节点j的节点属性与节点i的节点属性之间的边节点与节点相似度值xij
2)将节点j的节点属性与每个业务类别k的描述信息进行相似度计算,得到边节点与类型相似度值xkj,并获取节点i的节点属性与每个业务类别k的描述信息之间的节点与类型相似度值xki
3)将节点j与各业务类别的最终相似度值确定为:xj=1+α。
其中,α为调整系数,α=xij·xkj·xki
4)如果xj大于业务类别中所有节点与该业务类别描述信息的相似度值的均值,则将节点j归为该业务类别中,并将节点j从待处理节点集合中删除。
如果有多个业务类别都满足xj大于均值的条件,那么将节点j归为节点i 所属业务类别中。
5)如果xj不大于所有业务类别中所有节点与该业务类别描述信息的相似度值的均值,那么将节点j归为节点i所属业务类别中,并将节点j从待处理节点集合中删除。
重复执行2.1至2.6,直至待处理节点集合为空集。形成最终的聚类结果,根据聚类结果生成静态业务资源目录。
例如,生成的静态业务资源目录中的基础业务数据可以分为固定通信业务数据、蜂窝移动通信业务数据,卫星通信业务数据,互联网业务数据,网际互连协议(InternetProtocol,IP)电话业务通话数据、集群通信业务数据、无线寻呼业务数据等,可以理解的是,这些基础业务数据可以再根据每一类别细分出子业务目录,本申请对此不进行限定。
通过上述过程,可以根据业务领域对数据进行切割,从全局静态元数据知识图谱中根据业务需求选择出相应的数据,以分级业务的形式集中存储并进行处理,形成静态业务资源目录。
请参阅图6,图6是根据另一示例性实施例示出的一种数据目录创建方法的流程图。如图6所示,在一示例性的实施例中,待构建的数据目录的类型为动态资源检索目录;步骤S240中根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
步骤S2431,接收用户输入的资源检索信息;
步骤S2432,提取资源检索信息中的检索关键词;
步骤S2433,根据检索关键词对全局元数据静态知识图谱进行关键信息提取,得到资源检索信息对应的检索结果;
步骤S2434,根据检索结果生成动态资源检索目录。
获取用户输入的资源检索信息对应的检索关键词,并根据该检索关键词对全局元数据静态知识图谱进行关键信息提取,进而根据提取得到的检索结果生成动态资源检索目录。
例如,根据资源检索信息提取得到的检索关键词为“电话业务通话数据”,则根据该检索关键词对全局元数据静态知识图谱进行关键信息提取,得到资源检索信息对应的检索结果包含有全局元数据静态知识图谱对应的每个数据存盘平台中的所有电话业务通话数据。
动态资源检索目录是基于用户输入的需求自动生成的,其特征是实时性、跨领域、智能化,可以动态覆盖到多个数据存储平台进行协同索引。另外,还可以根据用户的问题进行语义识别,抽取信息中的关键特征,以生成动态资源检索目录。
该动态资源检索目录可以是全局元数据静态知识图谱的一部分子图,或者多个数据存储平台的多个子图融合得到的新的知识图谱,能覆盖到用户需要的全部元数据信息,帮助用户实现目标数据的全覆盖。
可以理解的是,本申请可以根据全局元数据静态知识图谱生成静态数据资源编目、静态业务资源目录和动态资源检索目录中的一种或多种,还可以根据全局元数据静态知识图谱生成其它类型的数据目录,本申请对此不进行限定。
本申请提供的数据目录构建方法,分别获取多个数据存储平台中的元数据,减小了数据传输量,然后对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系,根据实体和关联关系构建全局元数据静态知识图谱,得到准确度高、数据覆盖面广的知识图谱,消除了各个数据存储平台之间的数据孤岛的情况,然后,根据待构建的数据目录的类型获取数据目录对应的目录构建策略,根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,进而便于对数据进行分析,有利于对数据进行挖掘利用。
图7是本申请的一个实施例示出的数据目录构建装置的框图,如图7所示,该装置包括:
实体及关系提取模块710,配置为分别获取多个数据存储平台中的元数据,对元数据进行实体识别及实体关系识别,以提取元数据中的实体及实体之间的关联关系;
知识图谱构建模块720,配置为根据实体和关联关系构建全局元数据静态知识图谱;
目录构建策略确认模块730,配置为根据待构建的数据目录的类型获取数据目录对应的目录构建策略;
数据目录生成模块740,配置为根据目录构建策略对全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
在本申请的一个实施例中,实体及关系提取模块710可以包括:
实体提取单元,配置为分别对每个数据存储平台中的元数据进行实体识别,得到每个数据存储平台对应的实体库;
关系提取单元,配置为分别对每个实体库中实体进行关系识别,得到每个实体库中实体之间的关联关系。
在本申请的一个实施例中,实体提取单元可以包括:
数据类型获取单元,配置为获取元数据的数据类型;
实体识别策略匹配单元,配置为根据数据类型进行实体识别策略匹配,得到元数据对应的实体识别策略;
实体识别单元,配置为根据实体识别策略对元数据进行实体识别,得到元数据对应的实体;
实体添加单元,配置为将元数据对应的实体添加至元数据对应的数据存储平台的实体库。
在本申请的一个实施例中,知识图谱构建模块720可以包括:
实体对齐单元,配置为获取预设的初始知识图谱,并对每个实体库进行实体对齐,得到待增量实体及关联关系;
图谱补全单元,配置为根据待增量实体及关联关系对初始知识图谱进行图谱补全,得到全局元数据静态知识图谱。
在本申请的一个实施例中,待构建的数据目录的类型为静态数据资源编目;数据目录生成模块740可以包括:
标准获取单元,配置为获取待构建的静态数据资源编目对应的目录项关键词表和目录项关系表;
目录项信息提取单元,配置为根据目录项关键词表对全局元数据静态知识图谱进行关键词匹配,得到全局元数据静态知识图谱中含有的目录项信息;
第一目录生成单元,配置为根据目录项关系表对目录项信息进行关系编排,生成静态数据资源编目。
在本申请的一个实施例中,待构建的数据目录的类型为静态业务资源目录;数据目录生成模块740还可以包括:
节点属性获取单元,配置为获取全局元数据静态知识图谱中每个节点的节点属性;
聚类处理单元,配置为根据节点属性对每个节点进行聚类处理,得到每个节点所属的业务类别;
第二目录生成单元,配置为根据全局元数据静态知识图谱包含的业务类别以及每个业务类别包含的节点,生成静态业务资源目录。
在本申请的一个实施例中,待构建的数据目录的类型为动态资源检索目录;数据目录生成模块740还可以包括:
资源检索信息接收单元,配置为接收用户输入的资源检索信息;
检索关键词提取单元,配置为提取资源检索信息中的检索关键词;
检索结果获取单元,配置为根据检索关键词对全局元数据静态知识图谱进行关键信息提取,得到资源检索信息对应的检索结果;
第三目录生成单元,配置为根据检索结果生成动态资源检索目录。
需要说明的是,上述实施例所提供的数据目录构建装置与上述实施例所提供的数据目录构建方法属于同一构思,其中每个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的数据目录构建装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元 820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,存储单元存储有程序代码,程序代码可以被处理单元810执行,使得处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(ROM)823。
存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824,这样的程序模块825包括但不限于:操作系统、一个或者多个应用程序、其它程序模块和程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备870(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O) 接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或应用程序模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据备份存储系统等。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机应用程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在该计算机程序被处理单元810执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器 (RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发起、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
描述于本申请实施例中所涉及到的单元可以通过应用程序的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前的数据目录构建方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的,也可以是单独存在,而未装配入该电子设备中。
本申请的另一方面还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述每个实施例中提供的数据目录构建方法。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims (10)

1.一种数据目录构建方法,其特征在于,包括:
分别获取多个数据存储平台中的元数据,对所述元数据进行实体识别及实体关系识别,以提取所述元数据中的实体及所述实体之间的关联关系;
根据所述实体和所述关联关系构建全局元数据静态知识图谱;
根据待构建的数据目录的类型获取所述数据目录对应的目录构建策略;
根据所述目录构建策略对所述全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
2.根据权利要求1所述的方法,其特征在于,所述对所述元数据进行实体识别及实体关系识别,以提取所述元数据中的实体及所述实体之间的关联关系,包括:
分别对每个所述数据存储平台中的元数据进行实体识别,得到每个所述数据存储平台对应的实体库;
分别对每个所述实体库中实体进行关系识别,得到每个所述实体库中实体之间的关联关系。
3.根据权利要求2所述的方法,其特征在于,所述分别对所述多个数据存储平台中的元数据进行实体识别,得到所述每个数据存储平台对应的实体库,包括:
获取所述元数据的数据类型;
根据所述数据类型进行实体识别策略匹配,得到所述元数据对应的实体识别策略;
根据所述实体识别策略对所述元数据进行实体识别,得到所述元数据对应的实体;
将所述元数据对应的实体添加至所述元数据对应的数据存储平台的实体库。
4.根据权利要求2所述的方法,其特征在于,所述根据所述实体和所述关联关系构建全局元数据静态知识图谱,包括:
获取预设的初始知识图谱,并对每个所述实体库进行实体对齐,得到待增量实体及关联关系;
根据所述待增量实体及关联关系对所述初始知识图谱进行图谱补全,得到全局元数据静态知识图谱。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述待构建的数据目录的类型为静态数据资源编目;所述根据所述目录构建策略对所述全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
获取待构建的静态数据资源编目对应的目录项关键词表和目录项关系表;
根据所述目录项关键词表对所述全局元数据静态知识图谱进行关键词匹配,得到所述全局元数据静态知识图谱中含有的目录项信息;
根据所述目录项关系表对所述目录项信息进行关系编排,生成所述静态数据资源编目。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述待构建的数据目录的类型为静态业务资源目录;所述根据所述目录构建策略对所述全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
获取所述全局元数据静态知识图谱中每个节点的节点属性;
根据所述节点属性对每个所述节点进行聚类处理,得到每个所述节点所属的业务类别;
根据所述全局元数据静态知识图谱包含的业务类别以及每个所述业务类别包含的节点,生成所述静态业务资源目录。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述待构建的数据目录的类型为动态资源检索目录;所述根据所述目录构建策略对所述全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录,包括:
接收用户输入的资源检索信息;
提取所述资源检索信息中的检索关键词;
根据所述检索关键词对所述全局元数据静态知识图谱进行关键信息提取,得到所述资源检索信息对应的检索结果;
根据所述检索结果生成所述动态资源检索目录。
8.一种数据目录构建装置,其特征在于,包括:
实体及关系提取模块,配置为分别获取多个数据存储平台中的元数据,对所述元数据进行实体识别及实体关系识别,以提取所述元数据中的实体及所述实体之间的关联关系;
知识图谱构建模块,配置为根据所述实体和所述关联关系构建全局元数据静态知识图谱;
目录构建策略确认模块,配置为根据待构建的数据目录的类型获取所述数据目录对应的目录构建策略;
数据目录生成模块,配置为根据所述目录构建策略对所述全局元数据静态知识图谱进行目录信息提取,以根据得到的目录信息生成数据目录。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的数据目录构建方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的数据目录构建方法。
CN202211134211.5A 2022-09-16 2022-09-16 数据目录构建方法、装置、介质及设备 Pending CN115510116A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211134211.5A CN115510116A (zh) 2022-09-16 2022-09-16 数据目录构建方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211134211.5A CN115510116A (zh) 2022-09-16 2022-09-16 数据目录构建方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN115510116A true CN115510116A (zh) 2022-12-23

Family

ID=84504057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211134211.5A Pending CN115510116A (zh) 2022-09-16 2022-09-16 数据目录构建方法、装置、介质及设备

Country Status (1)

Country Link
CN (1) CN115510116A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738009A (zh) * 2023-08-09 2023-09-12 北京谷器数据科技有限公司 一种对数据进行归档回溯的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116738009A (zh) * 2023-08-09 2023-09-12 北京谷器数据科技有限公司 一种对数据进行归档回溯的方法
CN116738009B (zh) * 2023-08-09 2023-11-21 北京谷器数据科技有限公司 一种对数据进行归档回溯的方法

Similar Documents

Publication Publication Date Title
JP7170779B2 (ja) 自動的な意図のマイニング、分類、及び配置のための方法及びシステム
CN105138661B (zh) 一种基于Hadoop的网络安全日志k-means聚类分析系统及方法
CN104850601B (zh) 基于图数据库的警务实时分析应用平台及其构建方法
CN109684330A (zh) 用户画像库构建方法、装置、计算机设备及存储介质
CN111881290A (zh) 一种基于加权语义相似度的配网多源网架实体融合方法
CN111026874A (zh) 知识图谱的数据处理方法及服务器
US20200320045A1 (en) Sytems and methods for context-independent database search paths
CN111400504A (zh) 企业关键人的识别方法和装置
Koubarakis et al. Big, linked geospatial data and its applications in earth observation
CN111899822B (zh) 医疗机构数据库构建方法、查询方法、装置、设备和介质
CN115510249A (zh) 一种知识图谱的构建方法及装置、电子设备、存储介质
CN115827797A (zh) 一种基于大数据的环境数据分析整合方法及系统
CN115510116A (zh) 数据目录构建方法、装置、介质及设备
CN114996549A (zh) 基于活动对象信息挖掘的智能追踪方法与系统
US11443213B2 (en) System and method for approximate reasoning using ontologies and unstructured data
Bellini et al. Managing complexity of data models and performance in broker-based Internet/Web of Things architectures
Zhang et al. Towards an interoperable online volunteered geographic information system for disaster response
CN111191050A (zh) 知识图谱本体模型构建的方法和装置
CN114925210A (zh) 知识图谱的构建方法、装置、介质及设备
US20200081875A1 (en) Information Association And Suggestion
Xue et al. Information enterprise architecture for smart transportation system
TW578067B (en) Knowledge graphic system and method based on ontology
CN113157742A (zh) 一种智能公交的数据湖管理方法及系统
CN112671867A (zh) 一种融合多种交通方式的出行一体化云服务系统及方法
Marrero et al. Performance analysis in NoSQL databases, relational databases and NoSQL databases as a service in the cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination