CN116627966A - 数据管理方法、装置、电子设备以及存储介质 - Google Patents

数据管理方法、装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN116627966A
CN116627966A CN202310500585.2A CN202310500585A CN116627966A CN 116627966 A CN116627966 A CN 116627966A CN 202310500585 A CN202310500585 A CN 202310500585A CN 116627966 A CN116627966 A CN 116627966A
Authority
CN
China
Prior art keywords
data
data element
target
data elements
elements
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310500585.2A
Other languages
English (en)
Inventor
徐伟平
林少倩
杨俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202310500585.2A priority Critical patent/CN116627966A/zh
Publication of CN116627966A publication Critical patent/CN116627966A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据管理方法、装置、电子设备以及存储介质,该数据管理方法包括:响应于接收到的数据索引请求,获取数据索引请求中的索引信息;根据索引信息从待管理数据元集合中确定目标数据元和候选数据元,候选数据元包括待管理数据元集合中除目标数据元以外的其它数据元;根据目标数据元和候选数据元之间的匹配结果,从候选数据元中确定关联数据元;将目标数据元和关联数据元存储至数据索引请求对应的预设数据结构中进行管理。上述方案,能够对待管理数据元集合中的数据元进行管理,进而提升数据的使用效率。

Description

数据管理方法、装置、电子设备以及存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种数据管理方法、装置、电子设备以及存储介质。
背景技术
由于当前社会的信息化与数字化的持续发展,数据的快速增长使得对海量数据的管理成为挑战。
目前,随着大数据技术不断推陈出新,数据管理工具从数据库、数据仓库等,发展至大数据平台、数据中台,其中,这些数据管理工具都不可或缺地需要通过建立如数据表等数据结构来管理数据元。但若是数据过于繁杂,则会导致数据结构杂乱,降低对这些数据的使用效率,甚至可能发生数据遗漏的问题。
发明内容
本申请至少提供一种数据管理方法、装置、电子设备以及计算机可读存储介质。
本申请第一方面提供了一种数据管理方法,包括:响应于接收到的数据索引请求,获取所述数据索引请求中的索引信息;根据所述索引信息从待管理数据元集合中确定目标数据元和候选数据元,所述候选数据元包括所述待管理数据元集合中除所述目标数据元以外的其它数据元;根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元;将所述目标数据元和所述关联数据元存储至所述数据索引请求对应的预设数据结构中进行管理。
在一实施例中,所述根据所述索引信息从待管理数据元集合中确定目标数据元的步骤,包括:解析所述索引信息,得到所述索引信息的语义信息;对所述待管理数据元集合中的各个数据元进行特征提取,得到各个数据元的特征信息;将与所述语义信息匹配的特征信息对应的数据元作为所述目标数据元。
在一实施例中,所述根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元的步骤,包括:对各个目标数据元进行特征提取,得到所述各个目标数据元的目标特征信息;对各个候选数据元进行特征提取,得到所述各个候选数据元的候选特征信息;根据各个目标特征信息和各个候选特征信息分别计算所述各个目标数据元和所述各个候选数据元之间的特征相似度;将所述特征相似度大于预设关联阈值的候选数据元作为所述关联数据元。
在一实施例中,所述索引信息包括索引标签,所述数据元包括数据元标签,所述索引标签和所述数据元标签对应;所述根据所述索引信息从待管理数据元集合中确定目标数据元的步骤,包括:根据所述索引标签和所述数据元标签的对应关系筛选所述待管理数据元集合中的数据元,得到第一数据元集合;获取所述待管理数据元集合中除所述第一数据元集合外的数据元的特征信息;提取与所述索引信息的语义信息匹配的所述特征信息对应的数据元,得到第二数据元集合;将所述第一数据元集合和所述第二数据元集合进行合并,得到目标数据元集合,所述目标数据元集合包括所述目标数据元。
在一实施例中,在所述响应于接收到的数据索引请求,获取所述数据索引请求中的索引信息的步骤之前,所述方法还包括:将获取的待标注数据元集合输入预先训练的标签标注模型,得到所述标签标注模型输出的待管理数据元集合,所述标签标注模型输出的待管理数据元集合中的数据元含有若干初始标签;根据每个数据元中各个初始标签的权值对所述初始标签进行筛选,得到所述每个数据元的目标标签,将所述目标标签作为对应的数据元的数据元标签。
在一实施例中,在所述将所述目标数据元和所述关联数据元存储至所述数据索引请求对应的预设数据结构中进行管理的步骤之后,还包括:
根据所述预设数据结构中各个数据元的数据元标签和所述数据索引请求的索引标签,计算所述预设数据结构中各个数据元的推荐值;根据所述推荐值对所述预设数据结构中的各个数据元进行调整。
在一实施例中,所述根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元的步骤之后,所述方法还包括:建立所述目标数据元和所述关联数据元的关联关系;将所述目标数据元、所述关联数据元和所述关联关系存储至所述数据索引请求对应的预设数据结构中进行管理。
本申请第二方面提供了一种数据管理装置,包括:获取模块,用于响应于接收到的数据索引请求,获取所述数据索引请求中的索引信息;数据确定模块,用于根据所述索引信息从待管理数据元集合中确定目标数据元和候选数据元,所述候选数据元包括所述待管理数据元集合中除所述目标数据元以外的其它数据元;匹配模块,用于根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元;存储管理模块,用于将所述目标数据元和所述关联数据元存储至所述数据索引请求对应的预设数据结构中进行管理。
本申请第三方面提供了一种电子设备,包括存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述数据管理方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述数据管理方法。
上述方案,通过接收到的索引请求将待管理数据元集合中的数据元进行确定得到目标数据元,再根据目标数据元确定关联数据元,将目标数据元和关联数据元存储至索引请求对应的数据结构中,由此能够通过数据结构对待管理数据元集合中的数据元进行管理,并使数据结构清晰整洁,进而提升数据的使用效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请的数据管理方法的一示例性实施例的流程示意图;
图2是本申请的数据管理方法中根据索引信息从待管理数据元集合中确定目标数据元的流程示意图;
图3是本申请的数据管理方法中根据目标数据元和候选数据元之间的匹配结果,从候选数据元中确定关联数据元的效果示意图;
图4是本申请的数据管理方法中根据索引信息从待管理数据元集合中确定目标数据元的流程示意图;
图5是本申请的一示例性实施例示出的数据管理装置的框图;
图6是本申请电子设备一实施例的结构示意图;
图7是本申请计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
请参阅图1,图1是本申请的数据管理方法的一示例性实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S110,响应于接收到的数据索引请求,获取数据索引请求中的索引信息。
数据索引请求指的是在获取数据过程中对应生成的请求,例如:在根据从客户端输入的索引指令需要在服务器中索引数据时,就会存在由客户端向服务器发起的数据索引请求。
索引信息指的是数据索引请求携带的信息,索引信息用于从服务器或数据库中查找符合需求的数据。示例性地,对于数据结构中的表结构而言,可以在表中设置若干个可选字段和/或输入对象,索引信息就可以是这些可选字段和/或输入对象等,当一个或多个可选字段被选中,和/或输入对象内被输入如文字、图像等信息时,则根据被选中的可选字段和/或输入对象内的信息生成索引指令,在服务器中查找与被选中的可选字段和/或输入对象内的信息匹配的数据。
进一步地,再以数据库中数据表的表结构为例,索引信息可以是数据表的表标签、表描述等能够表征数据表特征的一些信息。
步骤S120,根据索引信息从待管理数据元集合中确定目标数据元和候选数据元,候选数据元包括待管理数据元集合中除目标数据元以外的其它数据元。
待管理数据元集合可以是一些行业标准数据元,例如公安部标准数据元,可以从公安部《GA/T 543.21-2021》获得;或是通过埋点技术进行数据采集得到的数据元。这些数据元中通常包括字段名称,字段类型,字段描述等相关信息。
目标数据元指的是在待管理数据元集合中与索引信息匹配的数据元。
候选数据元指的是在待管理数据元集合中除目标数据元以外的其它数据元,即与索引信息不满足匹配要求的数据元。
示例性地,可以设置匹配阈值,将与索引信息间的匹配度大于或等于匹配阈值的数据元确定为目标数据元,将与索引信息间的匹配度小于匹配阈值的数据元确定为候选数据元。
步骤S130,根据目标数据元和候选数据元之间的匹配结果,从候选数据元中确定关联数据元。
关联数据元实质上指的是与目标数据元匹配的候选数据元,根据匹配结果可以认为这部分候选数据元和目标数据元相似,即可能存在部分关联关系,因此,将这部分候选数据元确定为关联数据元。
示例性地,可以分别根据目标数据元和候选数据元的特征信息和/或是某些预设参数进行匹配,将与目标数据元的匹配度大于或等于匹配阈值的候选数据元确定为关联数据元。需要说明的是,此处的匹配阈值与步骤S120中的匹配阈值在数值上可以相同或不同,在此不做限定,但为便于说明以及在一定程度上区分两者,后续将S120步骤中提及的匹配阈值称为第一匹配阈值,将S130步骤中提及的匹配阈值称为第二匹配阈值。
步骤S140,将目标数据元和关联数据元存储至数据索引请求对应的预设数据结构中进行管理。
数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。
预设数据结构指的是在执行本申请中数据管理方法之前已经设置的数据结构,预设数据结构包括但不限于表结构、图结构以及树结构等,本申请主要以数据库中数据表的表结构为例进行示例性地说明。
示例性地,在确定目标数据元和关联数据元后,将目标数据元和关联数据元对应地存储至数据表中,以通过数据表对这些数据元进行管理。
可以看出,本申请通过接收到的索引请求将待管理数据元集合中的数据元进行确定得到目标数据元,再根据目标数据元确定关联数据元,将目标数据元和关联数据元存储至索引请求对应的数据结构中,由此能够通过数据结构对待管理数据元集合中的数据元进行管理,并使数据结构清晰整洁,进而提升数据的使用效率。
在上述实施例的基础上,本申请实施例采用图2所示的流程图详细阐述根据索引信息从待管理数据元集合中确定目标数据元的步骤,请参阅图2,图2是图1示出的数据管理方法中步骤S120的一示例性实施例的流程示意图。具体而言,本实施例方法包括以下步骤:
步骤S210,解析索引信息,得到索引信息的语义信息。
语义信息是信息的表现形式之一,指能够消除事物不确定性的有一定意义的信息。
示例性地,解析索引信息的过程可以由预先训练好的基于卷积神经网络的语义信息提取模型实现,具体可参考如自然语言处理(Natural Language Processing,NLP)等技术。以文本类型的索引信息为例,可以将索引信息输入语义信息提取模型进行语义提取,得到该索引信息的语义信息。需要说明的是,索引信息的语义信息实际上也可认为是索引信息的特征信息。
步骤S220,对待管理数据元集合中的各个数据元进行特征提取,得到各个数据元的特征信息。
数据元的特征信息包括但不限于如词向量、句向量等特征向量的信息。
具体地,将待管理数据元集合中的数据元输入预先训练好的特征提取模型中,得到特征提取模型中输出的各个数据元的特征信息。
步骤S230,将与语义信息匹配的特征信息对应的数据元作为目标数据元。
示例性地,分别基于各个数据元的特征信息计算与语义信息之间的匹配度,将匹配度大于或等于第一匹配阈值的数据元确定为目标数据元。
由上可以看出,本申请通过特征提取和特征匹配等方法,根据索引请求在待管理数据元集合中查找符合需求的数据元,进而实现对待管理数据元集合中的数据元进行快速筛选,得到目标数据元。
在上述实施例的基础上,本申请实施例采用如图3所示的效果示意图对步骤S130中根据目标数据元和候选数据元之间的匹配结果,从候选数据元中确定关联数据元的过程进行进一步地说明。具体步骤如下:
对各个目标数据元进行特征提取,得到各个目标数据元的目标特征信息;对各个候选数据元进行特征提取,得到各个候选数据元的候选特征信息;根据各个目标特征信息和各个候选特征信息分别计算各个目标数据元和各个候选数据元之间的特征相似度;将特征相似度大于预设关联阈值的候选数据元作为关联数据元。
其中,关联数据元指的是在待管理数据元集合中出目标数据元外和目标数据元存在一定关联关系的数据元。
示例性地,可以采用上述实施例中提供的特征提取模型对各个目标数据元和各个候选数据元进行特征提取,分别得到目标特征信息和候选特征信息,根据目标特征信息和候选特征信息,分别计算各个目标数据元和各个候选数据元之间的特征相似度,以便于通过特征相似度判断各个目标数据元和各个候选数据元之间是否可能存在关联关系,将特征相似度大于预设关联阈值的候选数据元作为关联数据元。
进一步说明,确定目标数据元对应的关联数据元能够使数据元之间建立关联关系,使数据元间的关系更为清晰,进而提高数据管理的效率。
在上述实施例的基础上,本申请实施例采用如图4所示的流程示意图对步骤S120中根据索引信息从待管理数据元集合中确定目标数据元的过程进行进一步地说明。其中,索引信息包括索引标签,数据元包括数据元标签,索引标签和数据元标签存在对应关系,具体步骤如下:
步骤S410,根据索引标签和数据元标签的对应关系筛选待管理数据元集合中的数据元,得到第一数据元集合。
其中,索引标签和数据元标签可以是预先设置的,也可以是根据打标签算法生成的,标签主要用于表征各个数据的关键信息。
示例性地,数据元“人的名字”的数据元标签就可以设置为“人”,当索引标签为“人”时,则会根据索引标签获取数据元标签为“人”的数据元,并得到“人的名字”。
具体地,根据索引标签、数据元标签和两者的对应关系在待管理数据元集合中进行数据元筛选,得到第一数据元集合,第一数据元集合中的数据元即为索引请求所需求的数据元。
步骤S420,获取待管理数据元集合中除第一数据元集合外的数据元的特征信息。
具体地,可以通过上述实施例中的特征提取模型,将待管理数据元集合中除第一数据元集合外的数据元输入该特征提取模型,得到该特征模型相应输出的特征信息。
步骤S430,提取与索引信息的语义信息匹配的特征信息对应的数据元,得到第二数据元集合。
具体地,分别计算索引信息的语义信息和待管理数据元集合中除第一数据元集合外的各个数据元的特征信息的匹配度,并与预设的第三匹配阈值进行比较,其中,第三匹配阈值和上述的第一匹配阈值、第二匹配阈值在数值上可以相同或不同,此处仅为便于说明而采取“第三”的描述。示例性地,若其匹配度大于或等于第三匹配阈值,则将相应的数据元归纳在第二数据集合中。
步骤S440,将第一数据元集合和第二数据元集合进行合并,得到目标数据元集合,目标数据元集合包括目标数据元。
可以理解的是,因为标签匹配过程和特征匹配过程是相对而言比较精准的匹配方法,得到的数据元的可信度也比较高,相应地获取到的数据元也能够满足索引需求,因此可以将由上述步骤得到的第一数据元集合和第二数据元集合进行合并,得到目标数据元集合,将第一数据元集合和第二数据元集合中的数据元作为目标数据元。
在上述实施例的基础上,本申请实施例对在响应于接收到的数据索引请求,获取数据索引请求中的索引信息的步骤之前的过程进行说明。具体步骤如下:
将获取的待标注数据元集合输入预先训练的标签标注模型,得到标签标注模型输出的待管理数据元集合,标签标注模型输出的待管理数据元集合中的数据元含有若干初始标签;根据每个数据元中各个初始标签的权值对初始标签进行筛选,得到每个数据元的目标标签,将目标标签作为对应的数据元的数据元标签。
标签标注模型的训练过程可以通过监督学习的方式进行实现,如:自监督学习、半监督学习、弱监督学习以及无监督学习等。优选地,对于无标签的待标注数据元集合而言,可以采用弱监督学习对初始标签标注模型进行训练,得到训练好的标签标注模型,将待标注数据元集合输入训练好的标签标注模型,得到标签标注模型输出的含有若干初始标签的数据元。
需要说明的是,一个数据元经过标签标注模型进行标注后可能含有多个初始标签,其中,可能只存在部分初始标签是符合对该数据元的描述的。因此,利用标签标注模型在标注时计算每个初始标签对应的权值,将每个初始标签的权值和预设标签阈值进行对比筛选,得到权值大于或等于预设标签阈值的初始标签,并将其作为该数据元的数据元标签,以提高数据元标签的描述准确性。
在上述实施例的基础上,本申请实施例对在将目标数据元和关联数据元存储至数据索引请求对应的预设数据结构中进行管理的步骤之后的过程进行说明。具体步骤如下:
根据预设数据结构中各个数据元的数据元标签和数据索引请求的索引标签,计算预设数据结构中各个数据元的推荐值;根据推荐值对预设数据结构中的各个数据元进行调整。
推荐值用于表征预设数据结构中的数据元对于数据索引请求的重要程度,即预设数据结构中推荐值越高的数据元,越接近于数据索引请求所需求的数据;而预设数据结构中推荐值越低的数据元,则可能不被本次的数据索引需要,或者说是在本次的数据索引过程中受到的关注度低。
示例性地,分别计算各个数据元中权值最高的数据元标签和索引标签的特征相似度,得到各个数据元对应的标签特征相似度;分别将各个数据元对应的标签特征相似度和权值最高的数据元标签的权值相乘,得到各个数据元的推荐值。通过标签间的特征相似度和标签权值相乘得到数据元的推荐值,利用推荐值表征了预设结构中各个数据元对于本次数据索引的重要程度,以便于根据推荐值对预设数据结构中的数据元进行管理。
需要说明的是,因为关联数据元相对于目标数据元的重要程度是次要的,关联数据元的存在主要是为了加强数据元间的联系,提升数据结构中数据元的完整性。但本申请数据管理方法的目的主要是为了管理满足数据索引请求的目标数据元,因此为提高数据管理效率,可以对上述数据元的推荐值计算过程进行进一步精简,可以只计算目标数据元的推荐值即可,而不需要计算关联数据元的推荐值。
进一步说明,还可以根据各个数据元的推荐值,对预设数据结构中的数据元更进一步地进行筛选,具体地可通过预设的推荐阈值和各个数据元的推荐值进行对比判断;或是按照推荐值将各个数据元排序输出,响应于获取到的修改指令,对预设数据结构和/或预设数据结构中的数据元进行修改。
更进一步地,对于数据库中数据表的表结构而言,通常在数据表中会将较为重要的数据设置为数据表的主键(primary key),主键值能唯一地标识表中的每一行,通过主键可强制表的实体完整性。因此,可以通过各个数据元的推荐值的数值大小关系,选取合适的数据元并对其添加主键。需要说明的是,因为主键对应的数据通常是相对重要的,为提高表结构的创建效率,在设置主键时,可以仅考虑目标数据元的推荐值。
在上述实施例的基础上,本申请实施例对根据目标数据元和候选数据元之间的匹配结果,从候选数据元中确定关联数据元的步骤之后的过程进行说明。具体步骤如下:
建立目标数据元和关联数据元的关联关系;将目标数据元、关联数据元和关联关系存储至数据索引请求对应的预设数据结构中进行管理。
需要说明的是,在根据数据索引请求确定目标数据元的基础上,再通过目标数据元确定与之相关联的关联数据元,加强了数据索引结果的完整性,也使得对数据元的管理更为全面,将目标数据元、关联数据元和关联关系对应存入预设数据结构,不仅提升了数据结构的构建效率,还提升了数据管理效率。
进一步需要说明的是,数据管理方法的执行主体可以是数据管理装置,例如,数据管理方法可以由终端设备或服务器或其它处理设备执行,其中,终端设备可以为用户设备(User Equipment,UE)、电脑、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该数据管理方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
图5是本申请的一示例性实施例示出的数据管理装置的框图。如图5所示,该示例性的数据管理装置500包括:获取模块510、数据确定模块520、匹配模块530和存储管理模块540。具体地:
获取模块510,用于响应于接收到的数据索引请求,获取数据索引请求中的索引信息。
数据确定模块520,用于根据索引信息从待管理数据元集合中确定目标数据元和候选数据元,候选数据元包括待管理数据元集合中除目标数据元以外的其它数据元。
匹配模块530,用于根据目标数据元和候选数据元之间的匹配结果,从候选数据元中确定关联数据元。
存储管理模块540,用于将目标数据元和关联数据元存储至数据索引请求对应的预设数据结构中进行管理。
在该示例性的数据管理装置中,通过接收到的索引请求将待管理数据元集合中的数据元进行确定得到目标数据元,再根据目标数据元确定关联数据元,将目标数据元和关联数据元存储至索引请求对应的数据结构中,由此能够通过数据结构对待管理数据元集合中的数据元进行管理,并使数据结构清晰整洁,进而提升数据的使用效率。
其中,各个模块的功能可参见数据管理方法实施例,此处不再赘述。
请参阅图6,图6是本申请电子设备一实施例的结构示意图。电子设备600包括存储器610和处理器620,处理器620用于执行存储器610中存储的程序指令,以实现上述任一数据管理方法实施例中的步骤。在一个具体的实施场景中,电子设备600可以包括但不限于:微型计算机、服务器,此外,电子设备600还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。
具体而言,处理器620用于控制其自身以及存储器610以实现上述任一数据管理方法实施例中的步骤。处理器620还可以称为CPU(Central Processing Unit,中央处理单元)。处理器620可能是一种集成电路芯片,具有信号的处理能力。处理器620还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器620可以由集成电路芯片共同实现。
上述方案,通过接收到的索引请求将待管理数据元集合中的数据元进行确定得到目标数据元,再根据目标数据元确定关联数据元,将目标数据元和关联数据元存储至索引请求对应的数据结构中,由此能够通过数据结构对待管理数据元集合中的数据元进行管理,并使数据结构清晰整洁,进而提升数据的使用效率。
请参阅图7,图7是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质710存储有能够被处理器运行的程序指令720,程序指令720用于实现上述任一数据管理方法实施例中的步骤。
上述方案,通过接收到的索引请求将待管理数据元集合中的数据元进行确定得到目标数据元,再根据目标数据元确定关联数据元,将目标数据元和关联数据元存储至索引请求对应的数据结构中,由此能够通过数据结构对待管理数据元集合中的数据元进行管理,并使数据结构清晰整洁,进而提升数据的使用效率。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种数据管理方法,其特征在于,所述方法包括:
响应于接收到的数据索引请求,获取所述数据索引请求中的索引信息;
根据所述索引信息从待管理数据元集合中确定目标数据元和候选数据元,所述候选数据元包括所述待管理数据元集合中除所述目标数据元以外的其它数据元;
根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元;
将所述目标数据元和所述关联数据元存储至所述数据索引请求对应的预设数据结构中进行管理。
2.根据权利要求1所述的方法,其特征在于,所述根据所述索引信息从待管理数据元集合中确定目标数据元的步骤,包括:
解析所述索引信息,得到所述索引信息的语义信息;
对所述待管理数据元集合中的各个数据元进行特征提取,得到各个数据元的特征信息;
将与所述语义信息匹配的特征信息对应的数据元作为所述目标数据元。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元的步骤,包括:
对各个目标数据元进行特征提取,得到所述各个目标数据元的目标特征信息;
对各个候选数据元进行特征提取,得到所述各个候选数据元的候选特征信息;
根据各个目标特征信息和各个候选特征信息分别计算所述各个目标数据元和所述各个候选数据元之间的特征相似度;
将所述特征相似度大于预设关联阈值的候选数据元作为所述关联数据元。
4.根据权利要求1所述的方法,其特征在于,所述索引信息包括索引标签,所述数据元包括数据元标签,所述索引标签和所述数据元标签对应;所述根据所述索引信息从待管理数据元集合中确定目标数据元的步骤,包括:
根据所述索引标签和所述数据元标签的对应关系筛选所述待管理数据元集合中的数据元,得到第一数据元集合;
获取所述待管理数据元集合中除所述第一数据元集合外的数据元的特征信息;
提取与所述索引信息的语义信息匹配的所述特征信息对应的数据元,得到第二数据元集合;
将所述第一数据元集合和所述第二数据元集合进行合并,得到目标数据元集合,所述目标数据元集合包括所述目标数据元。
5.根据权利要求4所述的方法,其特征在于,在所述响应于接收到的数据索引请求,获取所述数据索引请求中的索引信息的步骤之前,所述方法还包括:
将获取的待标注数据元集合输入预先训练的标签标注模型,得到所述标签标注模型输出的待管理数据元集合,所述标签标注模型输出的待管理数据元集合中的数据元含有若干初始标签;
根据每个数据元中各个初始标签的权值对所述初始标签进行筛选,得到所述每个数据元的目标标签,将所述目标标签作为对应的数据元的数据元标签。
6.根据权利要求5所述的方法,其特征在于,在所述将所述目标数据元和所述关联数据元存储至所述数据索引请求对应的预设数据结构中进行管理的步骤之后,还包括:
根据所述预设数据结构中各个数据元的数据元标签和所述数据索引请求的索引标签,计算所述预设数据结构中各个数据元的推荐值;
根据所述推荐值对所述预设数据结构中的各个数据元进行调整。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元的步骤之后,所述方法还包括:
建立所述目标数据元和所述关联数据元的关联关系;
将所述目标数据元、所述关联数据元和所述关联关系存储至所述数据索引请求对应的预设数据结构中进行管理。
8.一种数据管理装置,其特征在于,包括:
获取模块,用于响应于接收到的数据索引请求,获取所述数据索引请求中的索引信息;
数据确定模块,用于根据所述索引信息从待管理数据元集合中确定目标数据元和候选数据元,所述候选数据元包括所述待管理数据元集合中除所述目标数据元以外的其它数据元;
匹配模块,用于根据所述目标数据元和所述候选数据元之间的匹配结果,从所述候选数据元中确定关联数据元;
存储管理模块,用于将所述目标数据元和所述关联数据元存储至所述数据索引请求对应的预设数据结构中进行管理。
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的程序指令,以实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令被处理器执行时实现权利要求1至7任一项所述的方法。
CN202310500585.2A 2023-05-05 2023-05-05 数据管理方法、装置、电子设备以及存储介质 Pending CN116627966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310500585.2A CN116627966A (zh) 2023-05-05 2023-05-05 数据管理方法、装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310500585.2A CN116627966A (zh) 2023-05-05 2023-05-05 数据管理方法、装置、电子设备以及存储介质

Publications (1)

Publication Number Publication Date
CN116627966A true CN116627966A (zh) 2023-08-22

Family

ID=87640896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310500585.2A Pending CN116627966A (zh) 2023-05-05 2023-05-05 数据管理方法、装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN116627966A (zh)

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN110472090B (zh) 基于语义标签的图像检索方法以及相关装置、存储介质
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN112307337B (zh) 基于标签知识图谱的关联推荐方法、装置及计算机设备
CN114398473A (zh) 企业画像生成方法、装置、服务器及存储介质
CN111125457A (zh) 一种深度跨模态哈希检索方法及装置
CN116882372A (zh) 文本生成方法、装置、电子设备以及存储介质
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN110489740B (zh) 语义解析方法及相关产品
CN113704422A (zh) 一种文本推荐方法、装置、计算机设备和存储介质
CN116627966A (zh) 数据管理方法、装置、电子设备以及存储介质
CN114281942A (zh) 问答处理方法、相关设备及可读存储介质
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN113010664A (zh) 一种数据处理方法、装置及计算机设备
CN112148902A (zh) 数据处理方法、装置、服务器及存储介质
CN111476037B (zh) 文本处理方法、装置、计算机设备和存储介质
CN112015888B (zh) 摘要信息提取方法和摘要信息提取系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination