CN115905373A - 一种数据查询以及分析方法、装置、设备及存储介质 - Google Patents

一种数据查询以及分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115905373A
CN115905373A CN202310218626.9A CN202310218626A CN115905373A CN 115905373 A CN115905373 A CN 115905373A CN 202310218626 A CN202310218626 A CN 202310218626A CN 115905373 A CN115905373 A CN 115905373A
Authority
CN
China
Prior art keywords
data
abnormal
index
target
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310218626.9A
Other languages
English (en)
Other versions
CN115905373B (zh
Inventor
马云
孙丰
王笑晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yonghong Tech Co ltd
Original Assignee
Beijing Yonghong Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yonghong Tech Co ltd filed Critical Beijing Yonghong Tech Co ltd
Priority to CN202310218626.9A priority Critical patent/CN115905373B/zh
Publication of CN115905373A publication Critical patent/CN115905373A/zh
Application granted granted Critical
Publication of CN115905373B publication Critical patent/CN115905373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据技术领域,公开了一种数据查询以及分析方法、装置、设备及存储介质,用于提高数据查询的准确率以及提高数据索引的异常分析准确率。方法包括:根据数据查询路径查询目标任务数据的数据索引信息,对数据索引信息进行特征提取,得到特征信息集合;将特征信息集合输入聚类模型进行特征聚类,得到目标聚类结果;根据目标聚类结果构建距离数据离散分布图,根据距离数据离散分布图判断数据索引信息是否存在异常,得到数据异常判断结果;根据数据异常判断结果确定对应的异常索引节点;根据数据库组织信息,对异常索引节点进行数据库异常根因分析,生成目标任务数据对应的根因分析结果。

Description

一种数据查询以及分析方法、装置、设备及存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据查询以及分析方法、装置、设备及存储介质。
背景技术
随着计算机运用普及化,资料数据的记录渐渐由记录于纸本文件转为记录于电子媒介(或文件),各类数据可记录于这些电子媒介(或文件)而汇整为数据库。数据库里最常使用的功能为查询数据,使用者可通过下达查询指令,例如以SQL指令查询,而由数据库撷取相关联的数据。
现有的数据查询方案取决于使用者对数据库(例如字段意义)的了解,以及下达的查询指令的复杂度,例如以一个较复杂的SQL指令撷取数据可能较以多个较简单的SQL指令撷取数据费时,因此较复杂的SQL就可被视为质量较差的查询指令,导致数据查询的准确率低,进而导致数据查询过程的异常分析准确率低。
发明内容
本发明提供了一种数据查询以及分析方法、装置、设备及存储介质,用于提高数据查询的准确率以及提高数据索引的异常分析准确率。
本发明第一方面提供了一种数据查询以及分析方法,所述数据查询以及分析方法包括:
接收终端发送的数据查询任务并获取目标数据库的数据库组织信息,以及根据所述数据库组织信息确定所述数据查询任务的数据查询路径;
根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段;
对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果;
根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果;
根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点;
根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果。
结合第一方面,在本发明第一方面的第一实施方式中,所述根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,包括:
对所述数据查询路径进行路径解析,得到路径解析结果;
根据所述路径解析结果,从所述目标数据库中查询所述目标任务数据;
提取所述目标任务数据的数据索引信息,并对所述数据索引信息进行噪声去除,得到标准索引信息;
对所述标准索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段。
结合第一方面,在本发明第一方面的第二实施方式中,所述对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果,包括:
对所述特征信息集合进行向量特征编码,生成特征信息向量;
将所述特征信息集合输入预置的聚类模型;
通过所述聚类模型,对所述特征信息集合进行分簇,得到多个特征数据簇;
根据所述多个特征数据簇获取聚类中心,并根据所述聚类中心生成所述特征信息集合对应的目标聚类结果。
结合第一方面,在本发明第一方面的第三实施方式中,所述根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果,包括:
提取所述目标聚类结果中的聚类中心和多个数据点,并分别计算所述多个数据点和所述聚类中心的欧几里得距离,得到每个数据点对应的目标距离数据;
根据每个数据点对应的目标距离数据构建目标距离数据集合;
根据所述目标距离数据集合和所述多个数据点生成距离数据离散分布图;
对所述距离数据离散分布图进行数据索引信息分析,得到数据异常判断结果。
结合第一方面,在本发明第一方面的第四实施方式中,所述根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点,包括:
若所述数据异常判断结果为所述数据索引信息存在异常,则查找所述目标距离数据集合对应的异常数据点;
获取所述异常数据点对应的指标数据,得到异常索引信息;
根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点。
结合第一方面,在本发明第一方面的第五实施方式中,所述根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果,包括:
根据所述异常索引节点和所述数据库组织信息确定所述目标任务数据的异常类型;
根据所述异常类型匹配数据库根因分析模型;
根据所述数据库根因分析模型对所述异常索引节点和所述数据库组织信息进行异常根因分析,生成所述目标任务数据对应的根因分析结果。
结合第一方面,在本发明第一方面的第六实施方式中,所述数据查询以及分析方法还包括:
提取所述数据索引信息中的疑似异常点和质心,并计算所述疑似异常点到质心的第一距离,以及计算所述第一距离和距离均值对应的差值;
计算所述疑似异常点的数据点到质心的第二距离,并计算所述第二距离对应的预设倍数值,得到特征值;
对比所述差值和所述特征值,若所述差值大于所述特征值,则确定所述数据索引信息异常,生成异常索引节点。
本发明第二方面提供了一种数据查询以及分析装置,所述数据查询以及分析装置包括:
获取模块,用于接收终端发送的数据查询任务并获取目标数据库的数据库组织信息,以及根据所述数据库组织信息确定所述数据查询任务的数据查询路径;
提取模块,用于根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段;
聚类模块,用于对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果;
构建模块,用于根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果;
匹配模块,用于根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点;
分析模块,用于根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果。
结合第二方面,在本发明第二方面的第一实施方式中,所述提取模块具体用于:
对所述数据查询路径进行路径解析,得到路径解析结果;
根据所述路径解析结果,从所述目标数据库中查询所述目标任务数据;
提取所述目标任务数据的数据索引信息,并对所述数据索引信息进行噪声去除,得到标准索引信息;
对所述标准索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段。
结合第二方面,在本发明第二方面的第二实施方式中,所述聚类模块具体用于:
对所述特征信息集合进行向量特征编码,生成特征信息向量;
将所述特征信息集合输入预置的聚类模型;
通过所述聚类模型,对所述特征信息集合进行分簇,得到多个特征数据簇;
根据所述多个特征数据簇获取聚类中心,并根据所述聚类中心生成所述特征信息集合对应的目标聚类结果。
结合第二方面,在本发明第二方面的第三实施方式中,所述构建模块具体用于:
提取所述目标聚类结果中的聚类中心和多个数据点,并分别计算所述多个数据点和所述聚类中心的欧几里得距离,得到每个数据点对应的目标距离数据;
根据每个数据点对应的目标距离数据构建目标距离数据集合;
根据所述目标距离数据集合和所述多个数据点生成距离数据离散分布图;
对所述距离数据离散分布图进行数据索引信息分析,得到数据异常判断结果。
结合第二方面,在本发明第二方面的第四实施方式中,所述匹配模块具体用于:
若所述数据异常判断结果为所述数据索引信息存在异常,则查找所述目标距离数据集合对应的异常数据点;
获取所述异常数据点对应的指标数据,得到异常索引信息;
根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点。
结合第二方面,在本发明第二方面的第五实施方式中,所述分析模块具体用于:
根据所述异常索引节点和所述数据库组织信息确定所述目标任务数据的异常类型;
根据所述异常类型匹配数据库根因分析模型;
根据所述数据库根因分析模型对所述异常索引节点和所述数据库组织信息进行异常根因分析,生成所述目标任务数据对应的根因分析结果。
结合第二方面,在本发明第二方面的第六实施方式中,所述数据查询以及分析装置还包括:
计算模块,用于提取所述数据索引信息中的疑似异常点和质心,并计算所述疑似异常点到质心的第一距离,以及计算所述第一距离和距离均值对应的差值;计算所述疑似异常点的数据点到质心的第二距离,并计算所述第二距离对应的预设倍数值,得到特征值;对比所述差值和所述特征值,若所述差值大于所述特征值,则确定所述数据索引信息异常,生成异常索引节点。
本发明第三方面提供了一种数据查询以及分析设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据查询以及分析设备执行上述的数据查询以及分析方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的数据查询以及分析方法。
本发明提供的技术方案中,根据数据查询路径查询目标任务数据的数据索引信息,对数据索引信息进行特征提取,得到特征信息集合;将特征信息集合输入聚类模型进行特征聚类,得到目标聚类结果;根据目标聚类结果构建距离数据离散分布图,根据距离数据离散分布图判断数据索引信息是否存在异常,得到数据异常判断结果;根据数据异常判断结果确定对应的异常索引节点;根据数据库组织信息,对异常索引节点进行数据库异常根因分析,生成目标任务数据对应的根因分析结果,本发明通过对数据查询过程产生的索引特征信息进行特征聚类分析,得到数据异常判断结果,实现了对目标任务数据进行根因分析,提高了数据查询的准确率,以及提高了数据索引的异常分析。
附图说明
图1为本发明实施例中数据查询以及分析方法的一个实施例示意图;
图2为本发明实施例中对特征信息集合进行特征聚类的流程图;
图3为本发明实施例中判断数据索引信息是否存在异常的流程图;
图4为本发明实施例中匹配异常索引节点的流程图;
图5为本发明实施例中数据查询以及分析装置的一个实施例示意图;
图6为本发明实施例中数据查询以及分析装置的另一个实施例示意图;
图7为本发明实施例中数据查询以及分析设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种数据查询以及分析方法、装置、设备及存储介质,用于提高数据查询的准确率以及提高数据索引的异常分析准确率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中数据查询以及分析方法的一个实施例包括:
S101、接收终端发送的数据查询任务并获取目标数据库的数据库组织信息,以及根据数据库组织信息确定数据查询任务的数据查询路径;
可以理解的是,本发明的执行主体可以为数据查询以及分析装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
具体的,服务器接收终端发送的数据查询任务,并对该数据查询任务进行数据解析,在获得解析数据后,对该解析数据进行数据库标识匹配,确定对应的数据库标识,进而服务器根据该数据库标识确定目标数据库,进而获取该目标数据库的数据库组织信息,进一步地,服务器对该数据库组织信息进行数据查询路径匹配,确定该数据查询任务的数据查询路径。
S102、根据数据查询路径查询目标任务数据,并提取目标任务数据的数据索引信息,以及对数据索引信息进行特征提取,得到特征信息集合,其中,特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段;
具体的,服务器获取数据查询路径,数据查询路径包括待查询数据的标识信息和维度信息,标识信息和维度信息均采用预设标准描述,预设标准用于定义数据的参数标准和格式,根据待查询数据的维度信息确定查询路径节点信息,查询路径节点信息指向至少一个数据供方,根据查询路径节点信息计算路由路径,路由路径用于指示访问至少一个数据供方的访问顺序,按照路由路径指示的访问顺序访问至少一个数据供方,查询目标任务数据,并提取目标任务数据的数据索引信息,以及对数据索引信息进行特征提取,得到特征信息集合,其中,特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段。
S103、对特征信息集合进行向量特征编码,生成特征信息向量,并将特征信息向量输入预置的聚类模型,通过聚类模型对特征信息集合进行特征聚类,得到对应的目标聚类结果;
需要说明的是,对特征信息集合进行向量特征编码,生成特征信息向量,其中,服务器提取结构编码特征,进而根据该结构编码特征对特征向量集合进行向量特征编码,生成特征信息向量,进而将该特征信息向量输入聚类模型,通过该聚类模型对特征信息集合进行分簇,得到多个特征数据簇,进而服务器根据该多个特征数据簇进行特征聚类,得到对应的目标聚类信息。
S104、根据目标聚类结果计算目标距离数据集合,并根据目标距离数据集合构建距离数据离散分布图,以及根据距离数据离散分布图判断数据索引信息是否存在异常,得到数据异常判断结果;
具体的,服务器根据目标聚类结果计算目标距离数据集合,其中,服务器根据目标聚类结果计算两两特征数据簇之间的距离,具体的,服务器将多个特征数据簇划分为多个密度集合,并根据密度集合计算聚类效果指数,进而服务器根据该聚类效果指数分别计算多个数据点与该聚类中心的欧几里得距离,最终,得到每个数据点对应的目标距离数据,进一步的,服务器根据目标距离数据集合构建距离数据离散分布图,以及根据距离数据离散分布图判断数据索引信息是否存在异常,得到数据异常判断结果。
S105、根据数据异常判断结果确定异常索引信息,并根据异常索引信息匹配目标任务数据对应的异常索引节点;
具体的,服务器获取数据异常判断结果,对数据异常判断结果进行索引分析处理,以生成分析结果信息,响应于确定分析结果信息表征目标数据存在异常,确定预先构建的数据树中与目标数据存在关联关系的数据,作为关联数据;根据关联数据集合中的关联数据对应的索引记录信息和数据异常判断结果,确定目标数据对应的数据异常类型信息,进一步的,服务器根据该数据异常类型信息确定异常索引信息,并根据异常索引信息匹配目标任务数据对应的异常索引节点。
S106、根据数据库组织信息,对异常索引节点进行数据库异常根因分析,生成目标任务数据对应的根因分析结果。
具体的,服务器基于数据库组织信息生成拓扑,并对数据库组织信息打上数据标签,根据拓扑起点确定该目标任务数据的异常类型,进一步的,服务器根据该异常类型进行模型匹配,确定数据库根因分析模型,进而服务器根据数据库根因分析模型对数据库组织信息进行异常根因分析,得到异常拓扑起点,根据异常拓扑起点对异常索引节点和数据库组织信息进行异常根因分析,生成目标任务数据对应的根因分析结果。
本发明实施例中,根据数据查询路径查询目标任务数据的数据索引信息,对数据索引信息进行特征提取,得到特征信息集合;将特征信息集合输入聚类模型进行特征聚类,得到目标聚类结果;根据目标聚类结果构建距离数据离散分布图,根据距离数据离散分布图判断数据索引信息是否存在异常,得到数据异常判断结果;根据数据异常判断结果确定对应的异常索引节点;根据数据库组织信息,对异常索引节点进行数据库异常根因分析,生成目标任务数据对应的根因分析结果,本发明通过对数据查询过程产生的索引特征信息进行特征聚类分析,得到数据异常判断结果,实现了对目标任务数据进行根因分析,提高了数据查询的准确率,以及提高了数据索引的异常分析。
在一具体实施例中,执行步骤S102的过程可以具体包括如下步骤:
(1)对数据查询路径进行路径解析,得到路径解析结果;
(2)根据路径解析结果,从目标数据库中查询目标任务数据;
(3)提取目标任务数据的数据索引信息,并对数据索引信息进行噪声去除,得到标准索引信息;
(4)对标准索引信息进行特征提取,得到特征信息集合,其中,特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段。
具体的,服务器对数据查询路径进行路径解析,得到路径解析结果,其中,获取数据查询路径,基于数据查询路径生成数据查询路径的目标解析树,将目标解析树作为第一次查询操作的查询输入信息,重复执行查询操作直至满足预设条件,基于满足预设条件时已获取到的访问路径提示,得到数据查询路径对应的目标访问路径提示,最终得到路径解析结果。根据路径解析结果,从目标数据库中查询目标任务数据;提取目标任务数据的数据索引信息,并对数据索引信息进行噪声去除,得到标准索引信息,其中,基于预定规则将目标任务数据分割为低频数据和高频数据,根据已训练的神经网络和预先设置的滤波器对低频数据和高频数据进行校正处理,并对数据索引信息进行噪声去除,得到标准索引信息,对标准索引信息进行特征提取,得到特征信息集合,其中,特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段。
在一具体实施例中,如图2所示,执行步骤S103的过程可以具体包括如下步骤:
S201、对特征信息集合进行向量特征编码,生成特征信息向量;
S202、将特征信息集合输入预置的聚类模型;
S203、通过聚类模型,对特征信息集合进行分簇,得到多个特征数据簇;
S204、根据多个特征数据簇获取聚类中心,并根据聚类中心生成特征信息集合对应的目标聚类结果。
具体的,服务器对特征信息集合进行向量特征编码,生成特征信息向量,将特征信息集合输入预置的聚类模型,通过聚类模型,对特征信息集合进行分簇,得到多个特征数据簇,其中,计算特征信息集合的分簇个数,进而根据该分簇个数对特征信息集合进行分簇,得到多个特征数据簇,其中,服务器利用区域划分法选出聚类中心;聚类中心为簇中心,根据分簇个数以及簇中心,对特征信息集合中的待分簇节点进行划分,判断划分后的各簇内的节点个数是否在阈值范围内,若是,选取每个簇的簇头;若否,通过分裂和合并方法调整簇内节点个数,根据簇头与簇内的所有节点建立数据传输路由,完成分簇,最终,服务器根据多个特征数据簇获取聚类中心,并根据聚类中心生成特征信息集合对应的目标聚类结果。
在一具体实施例中,如图3所示,执行步骤S104的过程可以具体包括如下步骤:
S301、提取目标聚类结果中的聚类中心和多个数据点,并分别计算多个数据点和聚类中心的欧几里得距离,得到每个数据点对应的目标距离数据;
S302、根据每个数据点对应的目标距离数据构建目标距离数据集合;
S303、根据目标距离数据集合和多个数据点生成距离数据离散分布图;
S304、对距离数据离散分布图进行数据索引信息分析,得到数据异常判断结果。
具体的,服务器提取目标聚类结果中的聚类中心和多个数据点,并分别计算多个数据点和聚类中心的欧几里得距离,得到每个数据点对应的目标距离数据,根据每个数据点对应的目标距离数据构建目标距离数据集合,根据目标距离数据集合和多个数据点生成距离数据离散分布图,其中,读取目标距离数据集合并栅格化离散点平面,根据离散点生成泰森多边形并找出栅格关联的离散点,根据泰森多边形的面积权重和距离反比权重计算的关联离散点的权重,根据栅格所关联的所有离散点的权重和原始数值计算栅格预测数值,并根据该栅格预测数值以及多个数据点生成距离数据离散分布图,最终,服务器对距离数据离散分布图进行数据索引信息分析,得到数据异常判断结果。
在一具体实施例中,如图4所示,执行步骤S105的过程可以具体包括如下步骤:
S401、若数据异常判断结果为数据索引信息存在异常,则查找目标距离数据集合对应的异常数据点;
S402、获取异常数据点对应的指标数据,得到异常索引信息;
S403、根据异常索引信息匹配目标任务数据对应的异常索引节点。
具体的,服务器若数据异常判断结果为数据索引信息存在异常,则查找目标距离数据集合对应的异常数据点,其中,检查到数据索引信息存在异常信息时,获取与该数据索引信息对应的配置文件,进一步的,服务器根据与该数据索引信息对应的配置文件筛选异常数据点,最终确定该目标距离集合对应的异常数据点,进一步的,服务器获取异常数据点对应的指标数据,得到异常索引信息,最终,服务器根据异常索引信息匹配目标任务数据对应的异常索引节点。
在一具体实施例中,执行步骤S106的过程可以具体包括如下步骤:
(1)根据异常索引节点和数据库组织信息确定目标任务数据的异常类型;
(2)根据异常类型匹配数据库根因分析模型;
(3)根据数据库根因分析模型对异常索引节点和数据库组织信息进行异常根因分析,生成目标任务数据对应的根因分析结果。
具体的,根据异常索引节点和数据库组织信息确定目标任务数据的异常类型,其中,服务器根据异常索引节点获取对应于相同索引节点的待分析的数据库,按照预设的数据组合类型,将数据库中各类型的数据进行组合,获得各数据组合类型分别对应的数据库对,分别对各数据组合类型对应的数据库对进行聚类,根据聚类结果确定各数据组合类型对应的数据库组织信息的离群点;根据各离群点的异常度,确定数据库中的异常数据,最终,服务器根据该数据库中的异常数据确定目标任务数据的异常类型,进一步的,服务器根据异常类型匹配数据库根因分析模型,最终,根据数据库根因分析模型对异常索引节点和数据库组织信息进行异常根因分析,生成目标任务数据对应的根因分析结果。
在一具体实施例中,上述数据查询以及分析方法还包括如下步骤:
(1)提取数据索引信息中的疑似异常点和质心,并计算疑似异常点到质心的第一距离,以及计算第一距离和距离均值对应的差值;
(2)计算疑似异常点的数据点到质心的第二距离,并计算第二距离对应的预设倍数值,得到特征值;
(3)对比差值和特征值,若差值大于特征值,则确定数据索引信息异常,生成异常索引节点。
上面对本发明实施例中数据查询以及分析方法进行了描述,下面对本发明实施例中数据查询以及分析装置进行描述,请参阅图5,本发明实施例中数据查询以及分析装置一个实施例包括:
获取模块501,用于接收终端发送的数据查询任务并获取目标数据库的数据库组织信息,以及根据所述数据库组织信息确定所述数据查询任务的数据查询路径;
提取模块502,用于根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段;
聚类模块503,用于对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果;
构建模块504,用于根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果;
匹配模块505,用于根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点;
分析模块506,用于根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果。
通过上述各个组成部分的协同合作,根据数据查询路径查询目标任务数据的数据索引信息,对数据索引信息进行特征提取,得到特征信息集合;将特征信息集合输入聚类模型进行特征聚类,得到目标聚类结果;根据目标聚类结果构建距离数据离散分布图,根据距离数据离散分布图判断数据索引信息是否存在异常,得到数据异常判断结果;根据数据异常判断结果确定对应的异常索引节点;根据数据库组织信息,对异常索引节点进行数据库异常根因分析,生成目标任务数据对应的根因分析结果,本发明通过对数据查询过程产生的索引特征信息进行特征聚类分析,得到数据异常判断结果,实现了对目标任务数据进行根因分析,提高了数据查询的准确率,以及提高了数据索引的异常分析。
请参阅图6,本发明实施例中数据查询以及分析装置另一个实施例包括:
获取模块501,用于接收终端发送的数据查询任务并获取目标数据库的数据库组织信息,以及根据所述数据库组织信息确定所述数据查询任务的数据查询路径;
提取模块502,用于根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段;
聚类模块503,用于对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果;
构建模块504,用于根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果;
匹配模块505,用于根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点;
分析模块506,用于根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果。
可选的,所述提取模块502具体用于:
对所述数据查询路径进行路径解析,得到路径解析结果;
根据所述路径解析结果,从所述目标数据库中查询所述目标任务数据;
提取所述目标任务数据的数据索引信息,并对所述数据索引信息进行噪声去除,得到标准索引信息;
对所述标准索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段。
可选的,所述聚类模块503具体用于:
对所述特征信息集合进行向量特征编码,生成特征信息向量;
将所述特征信息集合输入预置的聚类模型;
通过所述聚类模型,对所述特征信息集合进行分簇,得到多个特征数据簇;
根据所述多个特征数据簇获取聚类中心,并根据所述聚类中心生成所述特征信息集合对应的目标聚类结果。
可选的,所述构建模块504具体用于:
提取所述目标聚类结果中的聚类中心和多个数据点,并分别计算所述多个数据点和所述聚类中心的欧几里得距离,得到每个数据点对应的目标距离数据;
根据每个数据点对应的目标距离数据构建目标距离数据集合;
根据所述目标距离数据集合和所述多个数据点生成距离数据离散分布图;
对所述距离数据离散分布图进行数据索引信息分析,得到数据异常判断结果。
可选的,所述匹配模块505具体用于:
若所述数据异常判断结果为所述数据索引信息存在异常,则查找所述目标距离数据集合对应的异常数据点;
获取所述异常数据点对应的指标数据,得到异常索引信息;
根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点。
可选的,所述分析模块506具体用于:
根据所述异常索引节点和所述数据库组织信息确定所述目标任务数据的异常类型;
根据所述异常类型匹配数据库根因分析模型;
根据所述数据库根因分析模型对所述异常索引节点和所述数据库组织信息进行异常根因分析,生成所述目标任务数据对应的根因分析结果。
可选的,所述数据查询以及分析装置还包括:
计算模块507,用于提取所述数据索引信息中的疑似异常点和质心,并计算所述疑似异常点到质心的第一距离,以及计算所述第一距离和距离均值对应的差值;计算所述疑似异常点的数据点到质心的第二距离,并计算所述第二距离对应的预设倍数值,得到特征值;对比所述差值和所述特征值,若所述差值大于所述特征值,则确定所述数据索引信息异常,生成异常索引节点。
本发明实施例中,根据数据查询路径查询目标任务数据的数据索引信息,对数据索引信息进行特征提取,得到特征信息集合;将特征信息集合输入聚类模型进行特征聚类,得到目标聚类结果;根据目标聚类结果构建距离数据离散分布图,根据距离数据离散分布图判断数据索引信息是否存在异常,得到数据异常判断结果;根据数据异常判断结果确定对应的异常索引节点;根据数据库组织信息,对异常索引节点进行数据库异常根因分析,生成目标任务数据对应的根因分析结果,本发明通过对数据查询过程产生的索引特征信息进行特征聚类分析,得到数据异常判断结果,实现了对目标任务数据进行根因分析,提高了数据查询的准确率,以及提高了数据索引的异常分析。
上面图5和图6从模块化功能实体的角度对本发明实施例中的数据查询以及分析装置进行详细描述,下面从硬件处理的角度对本发明实施例中数据查询以及分析设备进行详细描述。
图7是本发明实施例提供的一种数据查询以及分析设备的结构示意图,该数据查询以及分析设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对数据查询以及分析设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在数据查询以及分析设备600上执行存储介质630中的一系列指令操作。
数据查询以及分析设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的数据查询以及分析设备结构并不构成对数据查询以及分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种数据查询以及分析设备,所述数据查询以及分析设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述数据查询以及分析方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述数据查询以及分析方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random acceS memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种数据查询以及分析方法,其特征在于,所述数据查询以及分析方法包括:
接收终端发送的数据查询任务并获取目标数据库的数据库组织信息,以及根据所述数据库组织信息确定所述数据查询任务的数据查询路径;
根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段;
对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果;
根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果;
根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点;
根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果。
2.根据权利要求1所述的数据查询以及分析方法,其特征在于,所述根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,包括:
对所述数据查询路径进行路径解析,得到路径解析结果;
根据所述路径解析结果,从所述目标数据库中查询所述目标任务数据;
提取所述目标任务数据的数据索引信息,并对所述数据索引信息进行噪声去除,得到标准索引信息;
对所述标准索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段。
3.根据权利要求1所述的数据查询以及分析方法,其特征在于,所述对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果,包括:
对所述特征信息集合进行向量特征编码,生成特征信息向量;
将所述特征信息集合输入预置的聚类模型;
通过所述聚类模型,对所述特征信息集合进行分簇,得到多个特征数据簇;
根据所述多个特征数据簇获取聚类中心,并根据所述聚类中心生成所述特征信息集合对应的目标聚类结果。
4.根据权利要求1所述的数据查询以及分析方法,其特征在于,所述根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果,包括:
提取所述目标聚类结果中的聚类中心和多个数据点,并分别计算所述多个数据点和所述聚类中心的欧几里得距离,得到每个数据点对应的目标距离数据;
根据每个数据点对应的目标距离数据构建目标距离数据集合;
根据所述目标距离数据集合和所述多个数据点生成距离数据离散分布图;
对所述距离数据离散分布图进行数据索引信息分析,得到数据异常判断结果。
5.根据权利要求1所述的数据查询以及分析方法,其特征在于,所述根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点,包括:
若所述数据异常判断结果为所述数据索引信息存在异常,则查找所述目标距离数据集合对应的异常数据点;
获取所述异常数据点对应的指标数据,得到异常索引信息;
根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点。
6.根据权利要求1所述的数据查询以及分析方法,其特征在于,所述根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果,包括:
根据所述异常索引节点和所述数据库组织信息确定所述目标任务数据的异常类型;
根据所述异常类型匹配数据库根因分析模型;
根据所述数据库根因分析模型对所述异常索引节点和所述数据库组织信息进行异常根因分析,生成所述目标任务数据对应的根因分析结果。
7.根据权利要求1所述的数据查询以及分析方法,其特征在于,所述数据查询以及分析方法还包括:
提取所述数据索引信息中的疑似异常点和质心,并计算所述疑似异常点到质心的第一距离,以及计算所述第一距离和距离均值对应的差值;
计算所述疑似异常点的数据点到质心的第二距离,并计算所述第二距离对应的预设倍数值,得到特征值;
对比所述差值和所述特征值,若所述差值大于所述特征值,则确定所述数据索引信息异常,生成异常索引节点。
8.一种数据查询以及分析装置,其特征在于,所述数据查询以及分析装置包括:
获取模块,用于接收终端发送的数据查询任务并获取目标数据库的数据库组织信息,以及根据所述数据库组织信息确定所述数据查询任务的数据查询路径;
提取模块,用于根据所述数据查询路径查询目标任务数据,并提取所述目标任务数据的数据索引信息,以及对所述数据索引信息进行特征提取,得到特征信息集合,其中,所述特征信息集合包括:索引类型、多个索引节点、索引时长以及索引字段;
聚类模块,用于对所述特征信息集合进行向量特征编码,生成特征信息向量,并将所述特征信息向量输入预置的聚类模型,通过所述聚类模型对所述特征信息集合进行特征聚类,得到对应的目标聚类结果;
构建模块,用于根据所述目标聚类结果计算目标距离数据集合,并根据所述目标距离数据集合构建距离数据离散分布图,以及根据所述距离数据离散分布图判断所述数据索引信息是否存在异常,得到数据异常判断结果;
匹配模块,用于根据所述数据异常判断结果确定异常索引信息,并根据所述异常索引信息匹配所述目标任务数据对应的异常索引节点;
分析模块,用于根据所述数据库组织信息,对所述异常索引节点进行数据库异常根因分析,生成所述目标任务数据对应的根因分析结果。
9.一种数据查询以及分析设备,其特征在于,所述数据查询以及分析设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述数据查询以及分析设备执行如权利要求1-7中任一项所述的数据查询以及分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的数据查询以及分析方法。
CN202310218626.9A 2023-03-09 2023-03-09 一种数据查询以及分析方法、装置、设备及存储介质 Active CN115905373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310218626.9A CN115905373B (zh) 2023-03-09 2023-03-09 一种数据查询以及分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310218626.9A CN115905373B (zh) 2023-03-09 2023-03-09 一种数据查询以及分析方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115905373A true CN115905373A (zh) 2023-04-04
CN115905373B CN115905373B (zh) 2023-06-06

Family

ID=86495095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310218626.9A Active CN115905373B (zh) 2023-03-09 2023-03-09 一种数据查询以及分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115905373B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171401A (zh) * 2023-11-03 2023-12-05 之江实验室 基于分层预计算的图数据中最短路径的查询方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112019932A (zh) * 2020-08-27 2020-12-01 广州华多网络科技有限公司 网络故障根因定位方法、装置、计算机设备及存储介质
CN113051317A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种数据探查方法和系统、数据挖掘模型更新方法和系统
CN113342889A (zh) * 2021-06-03 2021-09-03 中国工商银行股份有限公司 分布式数据库的管理方法、装置、设备和介质
US20220221281A1 (en) * 2021-01-14 2022-07-14 Wejo Limited System and method for processing vehicle event data for analysis of road segments and turn ratios
CN115337026A (zh) * 2022-10-19 2022-11-15 之江实验室 一种基于卷积神经网络的eeg信号特征检索方法、装置
CN115687350A (zh) * 2022-10-31 2023-02-03 唯品会(广州)软件有限公司 索引构建方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112019932A (zh) * 2020-08-27 2020-12-01 广州华多网络科技有限公司 网络故障根因定位方法、装置、计算机设备及存储介质
US20220221281A1 (en) * 2021-01-14 2022-07-14 Wejo Limited System and method for processing vehicle event data for analysis of road segments and turn ratios
CN113051317A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种数据探查方法和系统、数据挖掘模型更新方法和系统
CN113342889A (zh) * 2021-06-03 2021-09-03 中国工商银行股份有限公司 分布式数据库的管理方法、装置、设备和介质
CN115337026A (zh) * 2022-10-19 2022-11-15 之江实验室 一种基于卷积神经网络的eeg信号特征检索方法、装置
CN115687350A (zh) * 2022-10-31 2023-02-03 唯品会(广州)软件有限公司 索引构建方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117171401A (zh) * 2023-11-03 2023-12-05 之江实验室 基于分层预计算的图数据中最短路径的查询方法和装置
CN117171401B (zh) * 2023-11-03 2024-01-26 之江实验室 基于分层预计算的图数据中最短路径的查询方法和装置

Also Published As

Publication number Publication date
CN115905373B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
US8560531B2 (en) Search tool that utilizes scientific metadata matched against user-entered parameters
US20060100969A1 (en) Learning-based method for estimating cost and statistics of complex operators in continuous queries
CN108763420B (zh) 数据对象的分类方法、装置、终端和计算机可读存储介质
US9514167B2 (en) Behavior based record linkage
JP2017512344A (ja) 迅速なデータ解析のためのシステム及び方法
CN109460386B (zh) 基于多维模糊哈希匹配的恶意文件同源性分析方法及装置
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
CN115576999B (zh) 基于云平台的任务数据处理方法、装置、设备及存储介质
CN115905373B (zh) 一种数据查询以及分析方法、装置、设备及存储介质
CN113315851A (zh) 域名检测方法、装置及存储介质
US20060117252A1 (en) Systems and methods for document analysis
JP2002183171A (ja) 文書データ・クラスタリングシステム
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
CN109800815B (zh) 基于随机森林模型的训练方法、小麦识别方法和训练系统
CN107562872B (zh) 基于sql的度量空间数据相似度查询方法及装置
CN112328464B (zh) 指标数据存储、相关性分析方法及计算机可读存储介质
CN112765118B (zh) 一种日志查询方法、装置、设备及存储介质
CN115147020A (zh) 装修数据处理方法、装置、设备及存储介质
CN112269879B (zh) 基于k-means算法的中台日志分析方法及设备
CN113946717A (zh) 一种子图指标特征获得方法、装置、设备及存储介质
CN109460423B (zh) 一种基于d-hs的低碳相似实例检索方法
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质
CN111368294B (zh) 病毒文件的识别方法和装置、存储介质、电子装置
JP2002297236A (ja) 製造実績データベース装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant