CN111079653A - 数据库自动分库方法及装置 - Google Patents
数据库自动分库方法及装置 Download PDFInfo
- Publication number
- CN111079653A CN111079653A CN201911306875.3A CN201911306875A CN111079653A CN 111079653 A CN111079653 A CN 111079653A CN 201911306875 A CN201911306875 A CN 201911306875A CN 111079653 A CN111079653 A CN 111079653A
- Authority
- CN
- China
- Prior art keywords
- database
- data sub
- clustering
- sub
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012549 training Methods 0.000 claims abstract description 131
- 239000013598 vector Substances 0.000 claims abstract description 88
- 238000012545 processing Methods 0.000 claims abstract description 28
- 238000000638 solvent extraction Methods 0.000 claims description 50
- 230000002159 abnormal effect Effects 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 13
- 230000004931 aggregating effect Effects 0.000 claims description 5
- 230000005856 abnormality Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 description 55
- 230000001815 facial effect Effects 0.000 description 21
- 238000010586 diagram Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 15
- 230000002085 persistent effect Effects 0.000 description 14
- 238000001514 detection method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 3
- 230000002688 persistence Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036316 preload Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种数据库自动分库方法及装置,方法包括:根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件;应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库;本申请能够有效适应不同业务处理规则的需求,通过自动调节不断优化技术分库的合理性,从而显著改善特征比对的效能。
Description
技术领域
本申请涉及数据库领域,具体涉及一种数据库自动分库方法及装置。
背景技术
随着人工智能和机器学习技术的快速发展和不断成熟,人脸识别技术在金融领域获得了广泛应用。在网点的要客识别场景,借助人脸识别技术,银行大堂经理得以从纷繁芜杂的人流中识别出VIP客户,实施精准营销。随着应用范围的拓展,特征库逐渐从百万级向百亿级的量级迈进,人脸识别系统在保持高识别精度的同时,又要保证高响应速度,技术上面临着巨大挑战。
人脸识别技术是采集人脸图像、提取关键特征信息,再进行特征比对得出人脸相似度的一种生物识别技术,一般分为3个处理阶段:人脸检测、特征提取、特征比对。其中,特征比对是从特征库中检索和匹配特定人脸特征,以获得人脸特征相似度结果的过程。由于特征搜索效率受特征库规模的影响较大,如何构建科学而有序的人脸特征库,已成为提升人脸识别效率的关键因素。
传统人脸特征库是将人脸特征按照业务属性(如省份、地区、网点、性别等)进行分类划分,由此形成的特征分库,即业务分库。在特征存储时,具有相同属性的特征数据被集中到同一个业务分库中,以便识别系统在进行特征比对时,能够精准定位到更小的范围。然而在实际应用中,业务分库却由于以下限制因素难以控制规模,甚至影响搜索性能:一是客户的活动范围并不受限,跨区域交易的活动较为普遍,按区域划分的分库规则无法匹配;二是人员活动的区域不平衡,人流量较大的区域其特征库的量级相应较大,甚至出现亿级分库的现象,分库的效果不明显;三是业务规则不统一,由于依赖于业务场景,难于管理和构建较为统一和明确的特征搜索体系。
同时,现有技术中其他的一些人脸识别系统采用聚类学习等方法进行技术分库,随着人脸特征的注册和新增,分库中心逐渐产生漂移,为提高分库搜索效率,通常要定期对持久化特征库进行聚类训练,以不断优化技术分库的数量和质量。然而聚类学习的处理一般通过离线实现,影响人脸识别系统对外服务效果,也不利于技术分库的动态实时调优。
为此,需要提出一种基于自学习的人脸特征自动分库的方法,自动评估技术分库的分库规模,各分库中心的合理范围,并根据检测的结果自行判断是否要进行聚类训练,以及时调整技术分库的数量和质量。通过采用上述方式,既解决了不同业务处理规则的需求,又能通过系统自身的调节不断优化技术分库的合理性,从而显著改善人脸特征比对的效能。
发明内容
针对现有技术中的问题,本申请提供一种数据库自动分库方法及装置,能够有效适应不同业务处理规则的需求,通过自动调节不断优化技术分库的合理性,从而显著改善特征比对的效能。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种数据库自动分库方法,包括:
根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件;
应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
进一步地,所述根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件,包括:
判断各数据分库的当前配置容量是否超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
若是,则判定对应的数据分库状态异常且满足聚类训练条件,否则判定该数据分库状态正常。
进一步地,所述应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,包括:
获取所述数据分库各特征向量与分库中心点的最小欧氏距离;
根据所述最小欧氏距离重新确定所述数据分库的分库中心点,并更新所述数据分库。
进一步地,在更新所述数据分库之后,还包括:
判断更新后的所述数据分库的当前配置容量是否超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
若是,则判定更新后的数据分库状态异常且再次进行聚类训练,否则判定该数据分库状态正常。
进一步地,所述根据所述聚类训练结果更新对应的数据分库,包括:
根据聚类训练得到的特征向量聚合形成更新后的数据分库,并持久化存储所述数据分库。
第二方面,本申请提供一种数据库自动分库装置,包括:
分库异常判断模块,用于根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件;
异常分库聚类模块,用于应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
进一步地,所述分库异常判断模块包括:
标准对比单元,用于判断各数据分库的当前配置容量是否超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
对比结果单元,用于若判断各数据分库的当前配置容量超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离超过预设距离阈值,则判定对应的数据分库状态异常且满足聚类训练条件,否则判定该数据分库状态正常。
进一步地,所述异常分库聚类模块包括:
欧氏距离确定单元,用于获取所述数据分库各特征向量与分库中心点的最小欧氏距离;
数据分库更新单元,用于根据所述最小欧氏距离重新确定所述数据分库的分库中心点,并更新所述数据分库。
进一步地,还包括:
更新合格判定单元,用于判断更新后的所述数据分库的当前配置容量是否超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
更新结果处理单元,用于若判断更新后的所述数据分库的当前配置容量超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离超过预设距离阈值,则判定更新后的数据分库状态异常且再次进行聚类训练,否则判定该数据分库状态正常。
进一步地,所述异常分库聚类模块包括:
特征向量聚合单元,用于根据聚类训练得到的特征向量聚合形成更新后的数据分库,并持久化存储所述数据分库。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的数据库自动分库方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的数据库自动分库方法的步骤。
由上述技术方案可知,本申请提供一种数据库自动分库方法及装置,通过对各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离进行异常评估,在评估结果满足聚类训练条件(即当前数据分库容量过大或特征向量相似度过低)时,自动应用预设聚类训练模型进行聚类训练,以对数据分库进行修正和调优,确保特征比对效率和比对精度始终处于较高的水平,从而显著改善特征比对的效能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的数据库自动分库方法的流程示意图之一;
图2为本申请实施例中的数据库自动分库方法的流程示意图之二;
图3为本申请实施例中的数据库自动分库方法的流程示意图之三;
图4为本申请实施例中的数据库自动分库方法的流程示意图之四;
图5为本申请实施例中的数据库自动分库装置的结构图之一;
图6为本申请实施例中的数据库自动分库装置的结构图之二;
图7为本申请实施例中的数据库自动分库装置的结构图之三;
图8为本申请实施例中的数据库自动分库装置的结构图之四;
图9为本申请实施例中的数据库自动分库装置的结构图之五;
图10为本申请实施例中的一种基于自学习的人脸识别处理方法流程示意图;
图11为本申请实施例中的一种自学习人脸特征自动分库系统结构图;
图12为本申请实施例中的一种自学习评估启动装置结构图;
图13为本申请实施例中的一种自学习评估装置结构图;
图14为本申请实施例中的一种人脸特征聚类装置结构图;
图15为本申请实施例中的一种人脸特征分库装置结构图;
图16为本申请实施例中的一种基于自学习人脸特征自动分库处理方法流程示意图;
图17为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到传统人脸特征库是将人脸特征按照业务属性(如省份、地区、网点、性别等)进行分类划分,由此形成的特征分库,即业务分库。在特征存储时,具有相同属性的特征数据被集中到同一个业务分库中,以便识别系统在进行特征比对时,能够精准定位到更小的范围。然而在实际应用中,业务分库却由于以下限制因素难以控制规模,甚至影响搜索性能:一是客户的活动范围并不受限,跨区域交易的活动较为普遍,按区域划分的分库规则无法匹配;二是人员活动的区域不平衡,人流量较大的区域其特征库的量级相应较大,甚至出现亿级分库的现象,分库的效果不明显;三是业务规则不统一,由于依赖于业务场景,难于管理和构建较为统一和明确的特征搜索体系,本申请提供一种数据库自动分库方法及装置,通过对各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离进行异常评估,在评估结果满足聚类训练条件(即当前数据分库容量过大或特征向量相似度过低)时,自动应用预设聚类训练模型进行聚类训练,以对数据分库进行修正和调优,确保特征比对效率和比对精度始终处于较高的水平,从而显著改善特征比对的效能。
为了能够有效适应不同业务处理规则的需求,通过自动调节不断优化技术分库的合理性,从而显著改善特征比对的效能,本申请提供一种数据库自动分库方法的实施例,参见图1,所述数据库自动分库方法具体包含有如下内容:
步骤S101:根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件。
可以理解的是,所述数据分库可以为针对某种特定类型信息进行分类后的分别存储的数据库或数据表,例如,将从人脸图像中提取的人脸特征按照某种分类规则分别存储与多个数据分库中。
可选地,现有技术中的人脸特征数据分库是将人脸特征按照业务属性(如省份、地区、网点、性别等)进行分类划分,由此形成的数据分库,即业务分库。在特征存储时,具有相同属性的特征数据被集中到同一个业务分库中,以便识别系统在进行特征比对时,能够精准定位到更小的范围。然而在实际应用中,业务分库却由于以下限制因素难以控制规模,甚至影响搜索性能:一是客户的活动范围并不受限,跨区域交易的活动较为普遍,按区域划分的分库规则无法匹配;二是人员活动的区域不平衡,人流量较大的区域其特征库的量级相应较大,甚至出现亿级分库的现象,分库的效果不明显;三是业务规则不统一,由于依赖于业务场景,难于管理和构建较为统一和明确的特征搜索体系,因此,本申请提供一种定时或实时监控各数据分库的当前配置容量的技术方案,当某一数据分库的当前配置容量超出容量阈值时,则表明该数据分库量级过大,影响系统整体运行效率,应该进行数据分库的聚类训练,即满足聚类训练条件。
可选地,现有技术中其他的一些人脸识别系统采用聚类学习等方法进行技术分库,随着人脸特征的不断注册和新增,分库中心逐渐产生漂移,降低了分库搜索效率,因此通常要定期对持久化特征库进行聚类训练,以不断优化技术分库的数量和质量,然而,现有技术中聚类学习的处理一般通过离线实现,影响人脸识别系统对外服务效果,也不利于技术分库的动态实时调优,因此,本申请提供一种定时或实现监控各数据分库中所有特征向量的平均聚类距离的技术方案,当某一数据分库超出距离阈值时,则表明该数据分库的分库中心严重漂移,特征向量相似度较低,影响系统整体运行效率,应该进行数据分库的聚类训练,即满足聚类训练条件。
步骤S102:应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
可选地,针对某一特定数据分库(例如经步骤S101判定为状态异常的数据分库)可以采用现有的聚类训练模型进行聚类训练,以重新确定数据分库的分库中心以及对应的特征向量坐标,进而对该数据分库进行调优,调整数据分库的数量的质量。
从上述描述可知,本申请实施例提供的数据库自动分库方法,能够通过对各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离进行异常评估,在评估结果满足聚类训练条件(即当前数据分库容量过大或特征向量相似度过低)时,自动应用预设聚类训练模型进行聚类训练,以对数据分库进行修正和调优,确保特征比对效率和比对精度始终处于较高的水平,从而显著改善特征比对的效能。
为了能够准确判断各数据分库的当前状态是否正常,在本申请的数据库自动分库方法的一实施例中,参见图2,还具体包含有如下内容:
步骤S201:判断各数据分库的当前配置容量是否超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值。
步骤S202:若是,则判定对应的数据分库状态异常且满足聚类训练条件,否则判定该数据分库状态正常。
可选地,所述各数据分库的当前配置容量Bs可以表示为:
Bs=ni(1≤i≤N),
式中,ni表示第i个特征分库的容量,N表示特征分库的数量;
可选地,所述各数据分库中各特征向量的聚类距离(即各特征向量与分库中心的距离)AvgAdc可以表示为:
式中,xi表示第i个人脸特征向量,yi表示第j个分库中心,k表示人脸特征向量数,N表示数据分库数。
可选地,所述预设容量阈值和所述预设距离阈值可以人为的根据实际生产环境需求进行定义,也可以从第三方系统中获取。
可以理解的是,所述聚类训练条件可以为当前配置容量超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离超过预设距离阈值,也可以为其他依据当前配置容量和平均聚类距离能够做出的判定条件。
为了能够在判定数据分库异常后对数据分库进行有效调优,在本申请的数据库自动分库方法的一实施例中,参见图3,还具体包含有如下内容:
步骤S301:获取所述数据分库各特征向量与分库中心点的最小欧氏距离。
步骤S302:根据所述最小欧氏距离重新确定所述数据分库的分库中心点,并更新所述数据分库。
可以理解的是,所述聚类训练即最小化所有的所有特征数据向量到其分类中心的欧式距离。
具体地,可以采用采用K-means聚类分析算法,并用欧式距离计算各特征向量和分库中心点的最小距离,首先选取人脸特征库的特征向量xi,计算其与特征分库yj的最小距离d,使其满足以下公式:
为保证模型获得最优解,对每一个yj求偏导,并令偏导数为0,可以求得局部最优值,具体公式为:
式中,Nj表示第j个数据分库。
这样不断地进行模型调优,直到模型稳定不再变化。最后,将每一个yj(本身即为生物特征向量数据)作为对应分库的特征中心,完成一轮数据的分库。
为了能够验证对数据分库的调优结果是否满足预期,在本申请的数据库自动分库方法的一实施例中,参见图4,还具体包含有如下内容:
步骤S401:判断更新后的所述数据分库的当前配置容量是否超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值。
步骤S402:若是,则判定更新后的数据分库状态异常且再次进行聚类训练,否则判定该数据分库状态正常。
可选地,通过判断聚类训练是否符合预期,以便发出停止或继续下一轮特征聚类训练的指令。具体地,设Bs表示分库容量,AvgAdc表示平均最小距离,其具体表达公式为:
Bs=ni(1≤i≤N),
若同时满足以下关系式,表明聚类训练符合预期:
|AvgAdc(λ)-AvgAdc(λ-1)|<E,
Bs<Φ,
其中,AvgAdc(λ)表示第λ轮迭代,E表示特征距离误差值,Φ表示分库最大容量,若Bs大于Φ,则增加分库数,再执行聚类迭代,直到上述关系式同时满足。
为了能够在对数据分库调优后更新所述数据分库,在本申请的数据库自动分库方法的一实施例中,还具体包含有如下内容:
根据聚类训练得到的特征向量聚合形成更新后的数据分库,并持久化存储所述数据分库。
可选地,在完成聚类训练后,可以将聚类训练好的特征向量与数据分库关联起来,形成特征分库表,再将特征分库表更新到持久化存储库。
为了能够有效适应不同业务处理规则的需求,通过自动调节不断优化技术分库的合理性,从而显著改善特征比对的效能,本申请提供一种用于实现所述数据库自动分库方法的全部或部分内容的数据库自动分库装置的实施例,参见图5,所述数据库自动分库装置具体包含有如下内容:
分库异常判断模块10,用于根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件。
异常分库聚类模块20,用于应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
从上述描述可知,本申请实施例提供的数据库自动分库装置,能够通过对各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离进行异常评估,在评估结果满足聚类训练条件(即当前数据分库容量过大或特征向量相似度过低)时,自动应用预设聚类训练模型进行聚类训练,以对数据分库进行修正和调优,确保特征比对效率和比对精度始终处于较高的水平,从而显著改善特征比对的效能。
为了能够准确判断各数据分库的当前状态是否正常,在本申请的数据库自动分库装置的一实施例中,参见图6,所述分库异常判断模块10包括:
标准对比单元11,用于判断各数据分库的当前配置容量是否超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值。
对比结果单元12,用于若判断各数据分库的当前配置容量超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离超过预设距离阈值,则判定对应的数据分库状态异常且满足聚类训练条件,否则判定该数据分库状态正常。
为了能够在判定数据分库异常后对数据分库进行有效调优,在本申请的数据库自动分库装置的一实施例中,参见图7,所述异常分库聚类模块20包括:
欧氏距离确定单元21,用于获取所述数据分库各特征向量与分库中心点的最小欧氏距离。
数据分库更新单元22,用于根据所述最小欧氏距离重新确定所述数据分库的分库中心点,并更新所述数据分库。
为了能够验证对数据分库的调优结果是否满足预期,在本申请的数据库自动分库装置的一实施例中,参见图8,还包括:
更新合格判定单元31,用于判断更新后的所述数据分库的当前配置容量是否超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值。
更新结果处理单元32,用于若判断更新后的所述数据分库的当前配置容量超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离超过预设距离阈值,则判定更新后的数据分库状态异常且再次进行聚类训练,否则判定该数据分库状态正常。
为了能够在对数据分库调优后更新所述数据分库,在本申请的数据库自动分库装置的一实施例中,参见图9,所述异常分库聚类模块20包括:
特征向量聚合单元23,用于根据聚类训练得到的特征向量聚合形成更新后的数据分库,并持久化存储所述数据分库。
为了更进一步说明本方案,本申请还提供一种应用上述数据库自动分库装置实现数据库自动分库方法的具体应用实例,具体包含有如下内容:
参见图10,本申请以人脸特征进行举例,提供了一种基于自学习的人脸识别处理示意图,包含人脸图像获取1、人脸特征提取2、人脸特征注册3,人脸持久化特征库4,特征数据加载5,人脸特征搜索6,人脸特征自学习分库校正7和结果输出8。共同实现自学习人脸识别处理。
具体地,人脸图像提取1负责从原始图像中定位和提取人脸,经过图像分割后,形成用于进行人脸特征提取的人脸原始图像,并上传至人脸特征提取2,人脸特征提取2经过人脸定位、图像分割、图像质检、特征提取处理后,产生人脸特征数据。人脸注册时,通过人脸特征注册3进行人脸特征信息注册,同时在人脸持久化特征库4进行持久化存储;特征搜索时,特征加载模块5将技术分库数据提前加载至缓存,人脸特征搜索6首先确定传入人脸特征的归属技术分库,然后搜索该技术分库,与技术分库(的特征)进行1:N比对,结果输出8返回相似度最好的推荐列表和评分。人脸特征自学习分库校正7定时启动自学习评估,并根据配置参数分库容量、特征距离均值判断是否进行自学习训练,训练结果更新持久化人脸特征库4。
参见图11,一种自学习人脸特征自动分库系统结构图,主要描述包含特征数据收发装置20、主控单元装置21、自学习评估启动装置22、自学习评估装置23、人脸特征聚类装置24和人脸特征分库装置25。
特征数据收发装置20接收和发送特征分库调优指令、自评估参数信息、特征分库数据等。
主控单元装置21负责流程控制及各装置间数据传输:向自学习评估启动装置22发送特征分库调优指令及自评估参数信息,接收自学习分库启动指令;向自学习评估装置23发送自学习分库启动指令,接受特征聚类启动指令;向人脸特征聚类装置24发送特征聚类启动指令,接收人脸特征聚类结果;向人脸特征分库装置25发送特征聚类结果,接收特征分库数据。
自学习评估启动装置22(详见图12)负责从主控单元接收特征分库调优指令和自评估参数。当特征分库调优指令为true时,向主控单元装置21输出自学习评估启动指令,启动特征分库调优处理。自学习评估启动装置22还支持根据自评估参数判断启动自学习评估的时机,本发明提供分库容量和特征距离均值2种评估参数。
设Bs表示分库容量,AvgAdc表示特征距离,分别表示为:
Bs=ni(1≤i≤N),
其中,ni表示第i个特征分库的容量,N表示特征分库的数量。xi表示第i个人脸特征向量,yi表示第j个分库特征中心,k表示人脸特征数,N表示分库数。
自学习评估装置23(详见图13)负责根据接收的自学习分库启动指令,确定是否启动自学习评估处理,首先加载人脸特征分库数据,然后逐库判断分库容量Bs是否超过参数设定,如判断结果为否,则进入下一判断,对逐个人脸特征向量计算特征距离,得到Adc,检查Adc超过参数设定,如果判断结果为否,则不进行自学习训练。否则,启动自学习训练处理。这个过程也称为人脸特征聚类。
人脸特征聚类装置24(详见图14)负责对预加载的人脸特征分库数据进行进行聚类处理,即最小化所有的所有特征数据向量到其分类中心的欧式距离。为保证模型获得最优解,对每一个yj求偏导,并令偏导数为0,可以求得局部最优值。
这样不断地进行模型调优,直到模型稳定不再变化。
人脸特征分库装置25(详见图15)负责根据聚类结果将人脸特征向量与分库对应起来,实现特征向量和分库的映射,并将特征分两的分库结果进行持久化存储。
参见图12,一种自学习评估启动装置结构图,包含自学习评估启动主控单元220、自学习启动检测单元221、自学习启动判断单元222。由主控单元220控制数据,并调用各处理单元,完成自学习启动检测和判断。
主控单元220:此单元负责接收特征分库调优指令及自评估参数信息,发送自学习分库启动指令。
自学习启动检测单元221:此单元用于启动自学习检查,内设定时器,根据传入的自评估参数,启动定时器,进行自学习评估检查。
自学习启动判断单元222:此单元用于判断自学习启动的条件是否满足,通过传入的自评估参数设定,检查是否立即启动自评估检查,或根据定时器的响应时间,检查是否启动自评估检查。在银行系统中,为降低自学习活动对日常人脸识别服务的资源影响,通常设置自评估检查时机为T+0,T表示每周日的0时0点0分。
各单元之间的连接关系:主控单元220调用自学习启动检测单元221发出定时器指令和自评估参数,再调用自学习启动判断单元222生成并发出自学习启动指令。
参见图13,一种自学习评估装置结构图,包括自学习评估主控单元230、特征分库预加载单元231、自学习评估判断单元232。
自学习评估主控单元230:此单元负责数据传递,各处理单元的调用。
特征分库预加载单元231:此单元负责从持久化特征库4预加载特征分库数据到内存,以便进行搜索性能检测。
自学习评估判断单元232:此单元负责对自学习状态进行判断,以确定是否符合自学习训练的条件。设Bs表示分库容量,AvgAdc表示平均最小距离。
Bs=ni(1≤i≤N),
若同时满足以下关系式,表明聚类训练符合预期:
|AvgAdc(λ)-AvgAdc(λ-1)|<E,
Bs<Φ,
其中,AvgAdc(λ)表示第λ轮迭代,E表示特征距离误差值,Φ表示分库最大容量。若Bs大于Φ,则增加分库数,再执行聚类迭代。直到上述关系式同时满足。
各单元之间的连接关系:主控单元230调用特征分库预加载单元231发出自评估参数和指令,特征分库预加载单元231完成特征分库加载后,再调用自学习评估判断单元232进行自学习评估,若符合自评估训练的条件,自学习评估判断单元232向主控单元230发出聚类训练指令。
参见图14,一种人脸特征聚类装置结构图,包括特征聚类主控单元240、特征聚类训练单元241、特征聚类检测单元242。
特征聚类主控单元240:此单元负责数据传递,各处理单元的调用。
特征聚类训练单元241:此单元用于采用K-means聚类分析算法,并用欧式距离计算特征向量和分库中心点的最小距离,首先选取人脸特征库的特征向量xi,计算其与特征分库yj的最小距离d,使其满足以下公式:
为保证模型获得最优解,对每一个yj求偏导,并令偏导数为0,可以求得局部最优值。
这样不断地进行模型调优,直到模型稳定不再变化。最后,将每一个yj(本身即为生物特征向量数据)作为对应分库的特征中心,完成一轮技术分库。
特征聚类检测单元242:此单元用于判断聚类训练是否符合预期,以便发出停止或继续下一轮特征聚类训练的指令。设Bs表示分库容量,AvgAdc表示平均最小距离。
Bs=ni(1≤i≤N),
若同时满足以下关系式,表明聚类训练符合预期:
|AvgAdc(λ)-AvgAdc(λ-1)|<E,
Bs<Φ,
其中,AvgAdc(λ)表示第λ轮迭代,E表示特征距离误差值,Φ表示分库最大容量。若Bs大于Φ,则增加分库数,再执行聚类迭代。直到上述关系式同时满足。
各单元之间的连接关系:特征聚类主控单元240传入特征数据给特征聚类训练单元241处理,经过每一轮迭代后,向特征聚类检测单元242发送特征聚类检查请求,后者经过分库容量和平均最小距离检查后,向特征数据给特征聚类训练单元241返回特征聚类检查结果。若聚类训练符合预期,特征聚类检测单元242向特征聚类主控单元240传输特征聚类完成指令。
参见图15,一种人脸特征分库装置结构图,包括特征分库主控单元250、特征分库映射单元251、特征持久化存储单元252。
特征分库主控单元250:此单元负责数据传递,各处理单元的调用。
特征分库映射单元251:此单元负责将聚类训练好的特征向量与分库关联起来,形成特征分库表。特征分库表结构如下表1所示:
表1特征分库表
特征持久化存储单元252:此单元负责将特征分库表更新到持久化存储库。
各单元之间的连接关系:特征分库主控单元250传入聚类训练数据给特征分库映射单元251处理,向特征持久化存储单元252发送特征分库表,后者将特征分库表更新到持久化存储库中。
参见图16,提供了一种基于自学习人脸特征自动分库处理方法,包含步骤如下:
步骤S600:自学习启动装置读取系统配置参数,启动自学习定时任务。定时任务的时间推荐设置为凌晨1:00-3:00。
步骤S601:自学习评估装置从持久化特征库预加载特征分库到内存。
步骤S602:遍历所有分库,检查分库容量是否过大。同时,对每一个特征向量,计算平均最小聚类距离AvgAdc。若分库容量过大,或平均最小聚类距离高于标准值Φ,转S603处理,具体步骤如下:
(1)循环遍历每一个特征分库,计算特征分库容量Bs;
(2)若Bs<Φ,则轮循下一个特征分库;否则,发出自学习评估指令,转到步骤S603。
(3)循环遍历特征分库中每一个特征向量和分库中心的距离。使得:
(4)若表示第λ轮迭代与第λ-1轮迭代的误差小于E,即:
|AvgAdc(λ)-AvgAdc(λ-1)|<E,
则结束本次自学习评估;否则,发出自学习评估指令,转到步骤S603。
步骤S603:接收步骤S602发出的自学习评估指令,启动聚类训练。
步骤S604:遍历每个特征向量,计算其与分库中心的最短距离,每一次迭代,重新定位分库中心的位置。具体步骤如下:
(1)循环遍历每一个特征向量,采用欧式距离计算特征向量与分库中心距离最小距离d,使其满足以下公式:
设当前分库为Nj,则由满足上式的特征向量相互聚合形成分库Nj。
(2)每次循环结束后,重新计算每个分库中心的位置O(x,y),为保证模型一直朝最优化调优,对于每一个yj求偏导,并令偏导数为0,可以求得局部最优值:
(3)对每个特征分库,循环依次执行步骤(1)和步骤(2)。
步骤S605:遍历所有分库,计算最小特征距离均值:
上式中,若第λ轮迭代与第λ-1轮迭代的误差小于E,即:
|AvgAdc(λ)-AvgAdc(λ-1)|<E,
则结束本次自学习评估;否则,发出自学习评估指令,转到步骤603。
步骤S606:判断聚类训练是否符合预期,以便发出停止或继续下一轮特征聚类训练的指令。设Bs表示分库容量,AvgAdc表示平均最小距离。
Bs=ni(1≤i≤N),
若同时满足以下关系式,表明聚类训练符合预期:
|AvgAdc(λ)-AvgAdc(λ-1)|<E,
Bs<Φ,
其中,E表示特征距离误差值,Φ表示分库最大容量。若Bs大于Φ,则增加分库数,再执行聚类迭代。直到上述关系式同时满足。
步骤S607:将聚类训练好的特征向量与分库关联起来,形成特征分库表。特征分库表结构如下表2所示:
表2特征分库表结构
步骤S608:建立特征向量与特征分库的映射关系,更新特征分库表。
步骤S609:更新持久化特征库中的特征分库表,并进行持久化存储。
由上述描述可知,本申请至少还可以实现如下技术效果:
1、实现人脸特征比对自我调节和校正。传统的人脸识别包括人脸检测、特征提取、特征比对3个相对封闭的处理流程。在特征比对环节,为提高分库搜索效率,通常要定期对持久化特征库进行聚类训练,不断优化技术分库的数量和质量。这项工作一般通过离线实现,不利于技术分库的动态实时调优。通过引入自学习评估和自动分库处理,有效解决了技术分库中特征向量实时优化和动态更新的问题,系统的完备性得以进一步提升,避免了离线停机的耗时,降低了敏感数据泄露的风险,为人脸识别过程自我调节和校正奠定良好基础。
2、通过聚类训练产生技术分库,保证搜索精度的同时,提高搜索速度。传统的业务分库存在客户的活动范围并不受限、是人员活动的区域不平衡、分库规则不统一的限制等问题,导致1:N搜索效率低,资源消耗大。通过引入聚类训练更新的技术分库,有效提高了特征比对的搜索范围和搜索效率,实现从百万级向百亿级的搜索跨越。
3、扩展性强,易于推广到其他特征学习和搜索场景。自学习的人脸特征自动分库系统,可以推广到其他生物特征学习如虹膜、指静脉、指纹等特征搜索和比对场景,具有推广性强,扩展性高,性能提升明显等优势。
本申请的实施例还提供能够实现上述实施例中的数据库自动分库方法中全部步骤的一种电子设备的具体实施方式,参见图17,所述电子设备具体包括如下内容:
处理器(processor)601、存储器(memory)602、通信接口(CommunicationsInterface)603和总线604;
其中,所述处理器601、存储器602、通信接口603通过所述总线604完成相互间的通信;所述通信接口603用于实现数据库自动分库装置、在线业务系统、客户端设备以及其他参与机构之间的信息传输;
所述处理器601用于调用所述存储器602中的计算机程序,所述处理器执行所述计算机程序时实现上述实施例中的数据库自动分库方法中的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件。
步骤S102:应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
从上述描述可知,本申请实施例提供的电子设备,能够通过对各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离进行异常评估,在评估结果满足聚类训练条件(即当前数据分库容量过大或特征向量相似度过低)时,自动应用预设聚类训练模型进行聚类训练,以对数据分库进行修正和调优,确保特征比对效率和比对精度始终处于较高的水平,从而显著改善特征比对的效能。
本申请的实施例还提供能够实现上述实施例中的数据库自动分库方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的数据库自动分库方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件。
步骤S102:应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够通过对各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离进行异常评估,在评估结果满足聚类训练条件(即当前数据分库容量过大或特征向量相似度过低)时,自动应用预设聚类训练模型进行聚类训练,以对数据分库进行修正和调优,确保特征比对效率和比对精度始终处于较高的水平,从而显著改善特征比对的效能。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (12)
1.一种数据库自动分库方法,其特征在于,所述方法包括:
根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件;
应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
2.根据权利要求1所述的数据库自动分库方法,其特征在于,所述根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件,包括:
判断各数据分库的当前配置容量是否超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
若是,则判定对应的数据分库状态异常且满足聚类训练条件,否则判定该数据分库状态正常。
3.根据权利要求1所述的数据库自动分库方法,其特征在于,所述应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,包括:
获取所述数据分库各特征向量与分库中心点的最小欧氏距离;
根据所述最小欧氏距离重新确定所述数据分库的分库中心点,并更新所述数据分库。
4.根据权利要求3所述的数据库自动分库方法,其特征在于,在更新所述数据分库之后,还包括:
判断更新后的所述数据分库的当前配置容量是否超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
若是,则判定更新后的数据分库状态异常且再次进行聚类训练,否则判定该数据分库状态正常。
5.根据权利要求1所述的数据库自动分库方法,其特征在于,所述根据所述聚类训练结果更新对应的数据分库,包括:
根据聚类训练得到的特征向量聚合形成更新后的数据分库,并持久化存储所述数据分库。
6.一种数据库自动分库装置,其特征在于,包括:
分库异常判断模块,用于根据各数据分库的当前配置容量和所述各数据分库中所有特征向量的平均聚类距离,确定所述各数据分库是否满足聚类训练条件;
异常分库聚类模块,用于应用预设聚类训练模型对满足所述聚类训练条件的数据分库进行聚类训练,并根据所述聚类训练结果更新对应的数据分库。
7.根据权利要求6所述的数据库自动分库装置,其特征在于,所述分库异常判断模块包括:
标准对比单元,用于判断各数据分库的当前配置容量是否超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
对比结果单元,用于若判断各数据分库的当前配置容量超过预设容量阈值和/或所述各数据分库中所有特征向量的平均聚类距离超过预设距离阈值,则判定对应的数据分库状态异常且满足聚类训练条件,否则判定该数据分库状态正常。
8.根据权利要求6所述的数据库自动分库装置,其特征在于,所述异常分库聚类模块包括:
欧氏距离确定单元,用于获取所述数据分库各特征向量与分库中心点的最小欧氏距离;
数据分库更新单元,用于根据所述最小欧氏距离重新确定所述数据分库的分库中心点,并更新所述数据分库。
9.根据权利要求8所述的数据库自动分库装置,其特征在于,还包括:
更新合格判定单元,用于判断更新后的所述数据分库的当前配置容量是否超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离是否超过预设距离阈值;
更新结果处理单元,用于若判断更新后的所述数据分库的当前配置容量超过预设容量阈值和/或所述数据分库中所有特征向量的平均聚类距离超过预设距离阈值,则判定更新后的数据分库状态异常且再次进行聚类训练,否则判定该数据分库状态正常。
10.根据权利要求6所述的数据库自动分库装置,其特征在于,所述异常分库聚类模块包括:
特征向量聚合单元,用于根据聚类训练得到的特征向量聚合形成更新后的数据分库,并持久化存储所述数据分库。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的数据库自动分库方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述的数据库自动分库方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911306875.3A CN111079653B (zh) | 2019-12-18 | 2019-12-18 | 数据库自动分库方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911306875.3A CN111079653B (zh) | 2019-12-18 | 2019-12-18 | 数据库自动分库方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111079653A true CN111079653A (zh) | 2020-04-28 |
CN111079653B CN111079653B (zh) | 2024-03-22 |
Family
ID=70315311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911306875.3A Active CN111079653B (zh) | 2019-12-18 | 2019-12-18 | 数据库自动分库方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111079653B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930741A (zh) * | 2020-07-15 | 2020-11-13 | 中国银行股份有限公司 | 数据库分库方法、装置及交易请求数据读写系统 |
WO2022193232A1 (zh) * | 2021-03-18 | 2022-09-22 | 京东方科技集团股份有限公司 | 人脸聚类方法及装置、分类存储方法、介质、电子设备 |
CN117573655A (zh) * | 2024-01-15 | 2024-02-20 | 中国标准化研究院 | 一种基于卷积神经网络的数据治理优化方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101420313A (zh) * | 2007-10-22 | 2009-04-29 | 北京搜狗科技发展有限公司 | 一种针对客户端用户群进行聚类的方法和系统 |
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN108197668A (zh) * | 2018-01-31 | 2018-06-22 | 达闼科技(北京)有限公司 | 模型数据集的建立方法及云系统 |
CN108280477A (zh) * | 2018-01-22 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 用于聚类图像的方法和装置 |
CN108509628A (zh) * | 2018-04-08 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据库配置方法、装置、计算机设备和存储介质 |
CN109101661A (zh) * | 2018-09-13 | 2018-12-28 | 东软集团股份有限公司 | 一种数据样本集合中异常点的检测方法和装置 |
CN109388727A (zh) * | 2018-09-12 | 2019-02-26 | 中国人民解放军国防科技大学 | 一种基于聚类的bgp人脸快速检索方法 |
CN109492394A (zh) * | 2018-10-25 | 2019-03-19 | 平安科技(深圳)有限公司 | 异常业务请求的识别方法及终端设备 |
CN109685092A (zh) * | 2018-08-21 | 2019-04-26 | 中国平安人寿保险股份有限公司 | 基于大数据的聚类方法、设备、存储介质及装置 |
CN109783617A (zh) * | 2018-12-11 | 2019-05-21 | 平安科技(深圳)有限公司 | 用于答复问题的模型训练方法、装置、设备及存储介质 |
CN109947965A (zh) * | 2017-09-04 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 对象识别、数据集合的更新、数据处理方法与装置 |
CN110472091A (zh) * | 2019-08-22 | 2019-11-19 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2019
- 2019-12-18 CN CN201911306875.3A patent/CN111079653B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101420313A (zh) * | 2007-10-22 | 2009-04-29 | 北京搜狗科技发展有限公司 | 一种针对客户端用户群进行聚类的方法和系统 |
CN107291847A (zh) * | 2017-06-02 | 2017-10-24 | 东北大学 | 一种基于MapReduce的大规模数据分布式聚类处理方法 |
CN109947965A (zh) * | 2017-09-04 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 对象识别、数据集合的更新、数据处理方法与装置 |
CN108280477A (zh) * | 2018-01-22 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 用于聚类图像的方法和装置 |
CN108197668A (zh) * | 2018-01-31 | 2018-06-22 | 达闼科技(北京)有限公司 | 模型数据集的建立方法及云系统 |
CN108509628A (zh) * | 2018-04-08 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 数据库配置方法、装置、计算机设备和存储介质 |
CN109685092A (zh) * | 2018-08-21 | 2019-04-26 | 中国平安人寿保险股份有限公司 | 基于大数据的聚类方法、设备、存储介质及装置 |
CN109388727A (zh) * | 2018-09-12 | 2019-02-26 | 中国人民解放军国防科技大学 | 一种基于聚类的bgp人脸快速检索方法 |
CN109101661A (zh) * | 2018-09-13 | 2018-12-28 | 东软集团股份有限公司 | 一种数据样本集合中异常点的检测方法和装置 |
CN109492394A (zh) * | 2018-10-25 | 2019-03-19 | 平安科技(深圳)有限公司 | 异常业务请求的识别方法及终端设备 |
CN109783617A (zh) * | 2018-12-11 | 2019-05-21 | 平安科技(深圳)有限公司 | 用于答复问题的模型训练方法、装置、设备及存储介质 |
CN110472091A (zh) * | 2019-08-22 | 2019-11-19 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930741A (zh) * | 2020-07-15 | 2020-11-13 | 中国银行股份有限公司 | 数据库分库方法、装置及交易请求数据读写系统 |
WO2022193232A1 (zh) * | 2021-03-18 | 2022-09-22 | 京东方科技集团股份有限公司 | 人脸聚类方法及装置、分类存储方法、介质、电子设备 |
CN117573655A (zh) * | 2024-01-15 | 2024-02-20 | 中国标准化研究院 | 一种基于卷积神经网络的数据治理优化方法及系统 |
CN117573655B (zh) * | 2024-01-15 | 2024-03-12 | 中国标准化研究院 | 一种基于卷积神经网络的数据治理优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111079653B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220382564A1 (en) | Aggregate features for machine learning | |
CN111695697B (zh) | 多方联合决策树构建方法、设备及可读存储介质 | |
CN111079653B (zh) | 数据库自动分库方法及装置 | |
CN110537175A (zh) | 利用机器学习估计mppdb中的查询资源消耗 | |
CN109272115A (zh) | 一种神经网络训练方法及装置、设备、介质 | |
CN107967361A (zh) | 一种数据库的增量处理方法和系统 | |
WO2023226259A1 (zh) | 超参数搜索方法、装置、计算机设备和存储介质 | |
US10956976B2 (en) | Recommending shared products | |
CN110647682A (zh) | 一种交易数据的关联推荐系统 | |
US11868326B2 (en) | Hyperparameter tuning in a database environment | |
CN112953920B (zh) | 一种基于云手机的监控管理方法 | |
CN116028832A (zh) | 一种样本聚类处理方法、装置、存储介质及电子设备 | |
CN114185938B (zh) | 基于数字金融及大数据溯源的项目溯源分析方法及系统 | |
WO2022062777A1 (zh) | 数据管理方法、数据管理装置及存储介质 | |
CN112199401B (zh) | 数据请求处理方法、装置、服务器、系统及存储介质 | |
CN113610225A (zh) | 质量评估模型训练方法、装置、电子设备及存储介质 | |
CN113901278A (zh) | 一种基于全局多探测和适应性终止的数据搜索方法和装置 | |
Sagaama et al. | Automatic parameter tuning for big data pipelines with deep reinforcement learning | |
CN112184417A (zh) | 一种业务的审批方法、装置、介质及电子设备 | |
CN112580915A (zh) | 一种项目里程碑确定方法、装置、存储介质及电子设备 | |
CN111382287A (zh) | 一种图片的搜索方法、装置、存储介质及电子设备 | |
CN117647932B (zh) | 冷却泵流量预测模型构建方法、系统、终端及介质 | |
US20230376820A1 (en) | Model optimization and stabilization using quantum computing | |
CN110134516B (zh) | 金融数据处理方法、装置、设备及计算机可读存储介质 | |
CN117350485B (zh) | 基于数据挖掘模型的电力市场管控方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |