CN115659167A - 多特征库合并方法及装置、设备、计算机可读存储介质 - Google Patents
多特征库合并方法及装置、设备、计算机可读存储介质 Download PDFInfo
- Publication number
- CN115659167A CN115659167A CN202211086894.1A CN202211086894A CN115659167A CN 115659167 A CN115659167 A CN 115659167A CN 202211086894 A CN202211086894 A CN 202211086894A CN 115659167 A CN115659167 A CN 115659167A
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- library
- merging
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 109
- 238000004364 calculation method Methods 0.000 claims abstract description 73
- 238000005070 sampling Methods 0.000 claims abstract description 63
- 230000008569 process Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 239000002245 particle Substances 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 239000006185 dispersion Substances 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000007499 fusion processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 230000003252 repetitive effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本申请的实施例揭示了多特征库合并方法及装置、设备、计算机可读存储介质。该方法包括:获取从多个子特征库中进行特征采样所得到的特征集;基于所述特征集确定特征融合计算指标,所述特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种;根据所述特征融合计算指标确定特征融合指标,并基于所述特征融合指标确定目标特征合并方式;按照所述目标特征合并方式对所述多个子特征库进行特征合并,以得到目标特征库。本申请的实施例通过采样少量的特征来实现对于多特征库中大量特征的把控,进而选择合适的方式来对多个子特征库进行特征合并,使得所得到的目标特征库能够避免出现特征重复程度高的问题。
Description
技术领域
本申请涉及数据安全技术领域,具体涉及一种多特征库合并方法及装置、设备、计算机可读存储介质。
背景技术
对数据资产进行识别是数据安全管理的首要步骤,构建特征库则是数据识别的基础。
特征库的构建基于对数据的汇总、识别和特征抽取等操作步骤,受制于数据汇聚难度、计算压力等因素,在实际操作中通常是先将部分数据生成多个子特征库,再将多个子特征库直接进行合并,形成最终的特征库。这种特征库合并方式虽然速度很快,但是最终所形成的特征库中存在特征重复冗余较高的问题。
发明内容
为解决上述技术问题,本申请的实施例分别提供了一种多特征库合并方法、装置、设备和计算机可读存储介质。
根据本申请实施例的一个方面,提供了一种多特征库合并方法,包括:获取从多个子特征库中进行特征采样所得到的特征集;基于所述特征集确定特征融合计算指标,所述特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种,所述特征细节值表征所述特征集中特征的细节程度,所述特征依存度表征所述特征集中特征之间的关联程度,所述特征频度表征所述特征集中特征的出现频次;根据所述特征融合计算指标确定特征融合指标,并基于所述特征融合指标确定目标特征合并方式;按照所述目标特征合并方式对所述多个子特征库进行特征合并,以得到目标特征库。
在一示例性的实施例中,所述获取从多个子特征库中进行特征采样所得到的特征集,包括:获取对数据分散进行处理所形成的多个子特征库;在对所述多个子特征库进行特征合并以形成所述目标特征库的过程中,对各个特征库中的特征数据进行特征采样,以得到所述特征集。
在一示例性的实施例中,所述对各个特征库中的特征数据进行特征采样,包括:按照预设的采样周期从各个特征库中抽取预设特征数量的特征数据;或者,根据各个子特征库中的特征数据传输至所述目标特征库的数据传输量和预设比例,计算各个子特征库中待采样的特征数量,以从各个子特征库中分别抽取对应特征数量的特征数据。
在一示例性的实施例中,所述基于所述特征集确定特征融合计算指标,包括:获取所述特征集中特征的显性维度指标、显性粒径和细节颗粒度中位数;根据所述显性维度指标、所述显性粒径和所述细节颗粒度中位数,计算得到所述特征细节值。
在一示例性的实施例中,所述基于所述特征集确定特征融合计算指标,包括:对所述特征集中的特征进行向量化处理,得到各特征在向量空间中的三维坐标;获取所述特征集中任意两特征在不同二维空间中与中心点的偏移度,并获取所述任意两特征在所述不同二维空间中的偏移度之间距离;根据所述任意两特征对应的所述偏移度和所述距离计算所述特征依存度。
在一示例性的实施例中,所述特征集是从所述多个子特征库中进行多次特征采样所得到的;所述基于所述特征集确定特征融合计算指标,包括:获取所述特征集中各特征在每次特征采样过程中的捕获频次,以及获取多次特征采样过程中的检测容量;根据所述捕获频次和所述检测容量计算所述特征频度。
在一示例性的实施例中,所述基于所述特征融合指标确定目标特征合并方式,包括:若所述特征融合指标对应的数值处于预设的第一数值范围内,则确定所述目标特征合并方式包括对所述多个子特征库中的特征进行预处理后进行特征合并,所述预处理包括特征去重或特征归一化;若所述特征融合指标对应的数值处于预设的第二数值范围内,则确定所述目标特征合并方式包括直接对所述多个子特征库中的特征进行特征合并,所述第一数值范围中的数值小于所述第二数值范围中的数值。
根据本申请实施例的一个方面,提供了一种多特征库合并装置,包括:特征采样模块,配置为获取从多个子特征库中进行特征采样所得到的特征集;计算指标确定模块,配置为基于所述特征集确定特征融合计算指标,所述特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种,所述特征细节值表征所述特征集中特征的细节程度,所述特征依存度表征所述特征集中特征之间的关联程度,所述特征频度表征所述特征集中特征的出现频次;融合指标确定模块,配置为根据所述特征融合计算指标确定特征融合指标,并基于所述特征融合指标确定目标特征合并方式;特征合并模块,配置为按照所述目标特征合并方式对所述多个子特征库进行特征合并,以得到目标特征库。
根据本申请实施例的一个方面,提供了一种多特征库合并设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述多特征库合并设备实现如前所述的多特征库合并方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行如上所述的多特征库合并方法。
根据本申请实施例的一个方面,还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上所述的多特征库合并方法。
在本申请的实施例所提供的技术方案中,通过对多个子特征库进行特征采样所得到的特征集来计算至少一个维度的特征融合计算指标,再根据这些特征融合计算指标确定出特征融合指标,进而根据特征融合指标来确定目标特征合并方式来对多个子特征库进行特征合并,相比于直接合并多个子特征库的现有方式,本申请通过采样少量的特征来实现对于多特征库中大量特征的把控,进而选择合适的方式来对多个子特征库进行特征合并,使得所得到的目标特征库能够避免出现特征重复程度高的问题。
应理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术者来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本申请的一示例性实施环境的示意图;
图2是本申请的一示例性实施例示出的多特征库合并方法的流程图;
图3是图2所示实施例中的步骤S210在一个示例性实施例中的流程图;
图4是图2所示实施例中的步骤S220在一个示例性实施例中的流程图;
图5是图2所示实施例中的步骤S220在另一个示例性实施例中的流程图;
图6是图2所示实施例中的步骤S220在另一个示例性实施例中的流程图;
图7是图2所示实施例中的步骤S230在一示例性实施例中的流程图;
图8是本申请的一示例性实施例示出的一种多特征库合并装置的框图;
图9示出了适于用来实现本申请实施例的多特征库合并设备的计算机系统的结构示意图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
首先请参阅图1,图1是本申请的一示例性实施环境的示意图,该实施环境为一示例性的多特征库合并系统。
如图1所示,该多特征库合并系统包括多个子特征库110(图1中仅示例了两个)、特征采样模块120、特征融合计算模块130、特征融合处理模块140和目标特征库150。可以理解的,特征采样模块120、特征融合计算模块130和特征融合处理模块140可以是独立的硬件模块或软件模块,也可以同一硬件模块或软件模块的组成部分,本实施例不对特征采样模块120、特征融合计算模块130和特征融合处理模块140的具体存在形式进行限制。
特征采样模块120用于对多个子特征库110进行特征采样,得到特征集。特征采样模块120的数量可以是一个,用以分别从不同的子特征库110中进行特征采样;特征采样模块120的数量也可以参照子特征库110的数量相应设置,每个特征采样模块120分别采样相应的一个子特征库110中的特征,本实施例不对特征采样模块120的具体数量进行限制。
特征融合计算模块130用于根据特征采样模块120采样得到的特征集,计算至少一个维度的特征融合计算指标,并根据特征融合计算指标计算特征融合指标。特征融合计算指标例如特征细节值、特征依存度、特征频度中的至少一种。
特征融合处理模块140用于根据特征融合计算模块130中得出的特征融合指标确定目标特征合并方式,按照该目标特征合并方式对多个子特征库进行特征合并,以得到目标特征库150。
可以看出,如上系统通过设置特征采样模块120、特征融合计算模块130和特征融合处理模块140,用以通过采样少量的特征来实现对于多特征库中大量特征的把控,进而选择合适方式来对多个子特征库110进行特征合并,使得所得到的目标特征库150能够避免出现特征重复程度高的问题。需要说明的是,如上系统所涉及的详细处理过程请参见后续实施例中的记载,本实施例不对对此进行赘述。
需简单提及的是,图1所示例的多特征库合并系统可以应用于数据分析、机器视觉等技术领域,例如在数据分析技术领域可以通过多特征库合并系统所得到的目标特征库中包含的用户特征进行用户的偏好预测,在机器视觉技术领域可以通过多特征库合并系统所得到的目标特征库中包含的高阶特征实现更加精准的图像识别、声纹识别等,具体例如目标检测、基于图像识别的自动驾驶、语音识别等应用,本实施例在此不进行限制。
图2是本申请的一示例性实施例示出的多特征库合并方法的流程图。该方法可以由服务器或者终端设备具体执行,终端设备例如是智能手机、计算机、笔记本电脑等电子设备,服务器例如可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,本实施例对该方法的具体执行主体并不进行限制。
如图2所示,在一示例性的实施例中,该方法包括步骤S210-S240,详细介绍如下:
S210,获取从多个子特征库中进行特征采样所得到的特征集。
特征采样的过程是指从各个子特征库中分别抽取一部分特征的过程,所抽取得到的特征经汇总以形成特征集。
S220,基于特征集确定特征融合计算指标,特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种。
特征融合计算指标用于预估对多个特征库中的特征进行合并后所达到的合并效果,而本申请基于特征集来确定特征融合计算指标,是旨在通过采样的少量特征来实现多个特征库中大量特征的把控。
特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种。特征细节值表征特征集中特征的细节程度,特征依存度表征特征集中特征之间的关联程度,特征频度表征特征集中特征的出现频次。特征细节值和特征依存度的数值越大,表示对多个特征库中的特征进行合并后越不容易出现重复的特征,因此对多个特征库进行特征合并的效果也越好。特征频度的数值越小,则表示对多个特征库中的特征进行合并后越不容易出现重复的特征,对多个特征库进行特征合并的效果也越好。
由此,本实施例能够从不同的维度来综合反映出对多个特征库中的特征进行合并后所达到的合并效果。需说明的是,特征细节值、特征依存度和特征频度的详细计算过程请参见后续实施例中的记载,在此不进行赘述。
S230,根据特征融合计算指标确定特征融合指标,并基于特征融合指标确定目标特征合并方式。
特征融合指标是用于衡量如何对多个子特征库中的特征进行合并处理的参考指标。由于特征融合计算指标能够预估对多个特征库中的特征进行合并后所达到的合并效果,因此可以基于特征融合计算指标来确定出特征融合指标。
示例性的,若特征融合计算指标具体包括特征细节值、特征依存度、特征频度中的至少两种,则可以对特征融合计算指标进行加权和计算,以得到特征融合计算指标。需说明的是,每种特征融合计算指标对应的权重可以根据不同的应用需求而具体设置,本实施例不对此进行限制。
本实施例根据特征融合计算指标所确定出的特征融合指标能够综合表征对多个特征库进行特征合并的合并效果,进而可以根据此特征融合指标来较为准确地确定出对多个子特征库进行特征合并的目标特征合并方式。
例如,如果特征融合指标表示出对多个特征库进行特征合并后将会出现较多的重复特征,因此可以对多个特征库中的特征进行去重或归一化等预处理后再进行合并,由此能够避免出现特征重复程度高的问题。而如果特征融合指标表示出对多个特征库进行特征合并的效果较好,则直接对多个子特征库进行特征合并即可,所得到的目标特征库中也不会存在特征重复程度高的问题。
S240,按照目标特征合并方式对多个子特征库进行特征合并,以得到目标特征库。
由上可以得出,相比于直接合并多个子特征库的现有方式,本实施例通过对多个子特征库进行特征采样所得到的特征集来计算至少一个维度的特征融合计算指标,再根据这些特征融合计算指标确定出特征融合指标,进而根据特征融合指标来确定目标特征合并方式来对多个子特征库进行特征合并,实现了通过采样少量的特征来实现对于多特征库中大量特征的把控,进而选择合适的方式来对多个子特征库进行特征合并,使得所得到的目标特征库能够避免出现特征重复程度高的问题。
图3是图2所示实施例中的步骤S210在一个示例性实施例中的流程图。如图3所示,在一示例性的实施例中,获取从多个子特征库中进行特征采样所得到的特征集的过程包括如下步骤S310-S320,详细介绍如下:
S310,获取对数据分散进行处理所形成的多个子特征库。
对数据进行分散处理是指将数据资产分散化形成多域数据,通过对各域数据进行特征提取计算,由此形成多个子特征库。也即本实施例提及的多个子特征库是通过对多域数据进行特征提取计算所得到的,因此需要对多个子特征库进行特征合并,以构建最终的目标特征库。
S320,在对多个子特征库进行特征合并以形成目标特征库的过程中,对各个特征库中的特征数据进行特征采样,以得到特征集。
为便于理解本实施例涉及的应用场景,以下将结合图1所示的实施环境进行介绍。如图1所示,多个特征库110中的特征数据一方面传输至特征融合处理模块140中进行特征合并,另一方面同时被特征采样模块120进行特征采样,经特征采样得到的特征集传输至特征融合计算模块130中计算特征融合计算指标。特征融合计算模块130根据计算出的特征融合计算指标,能够确定出目标特征合并方式,从而基于目标特征合并方式向特征融合处理模块140发出相应的控制指令,以控制特征融合处理模块140按照目标特征合并方式对多个子特征库110所传输的特征数据进行合并,从而得到最终的目标特征库150。
基于如上所示例的应用场景,本实施例是在对多个子特征库进行特征合并以形成目标特征库的过程中,通过对各个特征库中的特征数据进行特征采样,以得到特征集。
作为一种示例性的实施方式,可以按照预设的采样周期从各个特征库中抽取预设特征数量的特征数据,例如可以预设每2秒采集各个子特征库中的5MB特征数据。需说明的是,采样周期的具体形式可根据实际的应用需求进行设置,在此不进行限制。
作为另一种示例性的实施方式,可以根据各个子特征库中的特征数据传输至目标特征库的数据传输量和预设比例,来计算各个子特征库中待采样的特征数量,以从各个子特征库中分别抽取对应特征数量的特征数据。例如,可以将各个子特征库中待采样的特征数量确定为各子特征库对应的数据传输量的5%,具体比例可根据实际的应用需求进行设置,在此也不进行限制。
由上可以看出,本实施例通过采样策略的设置,可以实现在不干扰正常特征数据传输的前提下,以少量数据实现探视掌握大量数据的能力。并且通过后续流程的执行,可以实现在特征合并的过程中动态监控多个子特征库的特征合并效果,并基于监控到的特征合并效果动态调整对多个子特征库进行特征合并的方式,不仅可以避免目标特征库中存在特征重复程度高的问题,也在极大程度上提升了多特征库合并的效率。
图4是图2所示实施例中的步骤S220在一个示例性实施例中的流程图。如图4所示,基于特征集确定特征融合计算指标的过程包括如下步骤S410-S420,详细介绍如下:
S410,获取特征集中特征的显性维度指标、显性粒径和细节颗粒度中位数。
特征的显性维度通常指基本属性,若以人物特征为示例,显性维度可以为年龄、性别、职业等特征维度。相对应的,隐性维度可以为消费理念、兴趣爱好等特征维度。因此在实际的应用场景中,显性维度的类型通常是预设的,通过将特征数据与这些预设的线性维度的类型进行匹配,则可以确定各特征的显性维度指标,例如某个特征对应的显性维度指标为30维,另一特征对应的显性维度指标为50维。
显性粒径是指显性维度指标对应的最大维度值,例如在上述示例中,50维大于30维,因此显性粒径为50。
细节颗粒度中位数是指特征平均值百分比,例如某个特征对应的显性维度为30维,隐性维度为60维,那么该特征的细节颗粒度中位数为0.45。
S420,根据显性维度指标、显性粒径和细节颗粒度中位数,计算得到特征细节值。
由上可以看出,显性维度指标、显性粒径和细节颗粒度中位数均可以在一定程度上反映出特征细节,因此可根据显性维度指标、显性粒径和细节颗粒度中位数计算得到特征细节值,以作为一项特征融合计算指标。
示例性的,特征细节值可通过如下公式计算得到:
其中,Kd表示特征细节值,n表示特征集中特征的总数,i表示特征集中的第i个特征,DLYi表示第i个特征的显性维度指标,DLSi表示第i个特征的显性粒径,ai表示第i个特征的细节颗粒度中位数。
图5是图2所示实施例中的步骤S220在另一个示例性实施例中的流程图。如图5所示,基于特征集确定特征融合计算指标的过程包括如下步骤S510-S530,详细介绍如下:
S510,对特征集中的特征进行向量化处理,得到各特征在向量空间中的三维坐标。
如前所述的,特征依存度表征特征之间的关联关系是否相近,因此本实施例需针对特征集中任意两特征之间的关联程度进行计算。特征依存度是将特征进行了向量化处理,使特征在向量空间中存在一个关于(X,Y,Z)的三维坐标,因此任意的两个特征就会对应两个三维坐标。
S520,获取特征集中任意两特征在不同二维空间中与中心点的偏移度,并获取任意两特征在不同二维空间中的偏移度之间的距离。
根据特征集中任意两特征所对应的三维坐标,则可以获取任意两特征在不同的二维空间中与中心点的偏移度,进而可以获取任意两特征在不同的二维空间中的偏移度之间的距离。任意两特征在不同的二维空间中的偏移度之间的距离也可以称为特征渐进性维度指标。
应理解的是,中心点可以是指三维坐标所在坐标系对应的原点,也可以是指任意两特征所对应三维坐标点在对应的二维空间中的中心点,以基于任意两特征与中心点的偏移度来表征任意两特征之间的关联关系。
若以三维坐标表示为(X,Y,Z)为示例,不同的二维空间则相应包括XY维度空间、YZ维度空间和XZ维度空间。
S530,根据任意两特征对应的偏移度和距离计算特征依存度。
如前所述的,由于任意两特征对应的偏移度和距离可以表征任意两特征之间的关联程度,因此可以根据任意两特征对应的偏移度和距离具体计算特征依存度,以对应获得另一项特征融合计算指标。
示例性的,可通过如下公式计算特征依存度:
其中,Rd表示特征依存度,n表示特征集中特征的总数,i表示特征集中第i个特征,Td表示在XZ维度空间任意两特征与中心点的偏移度,Ts表示在YZ维度空间中任意两特征与中心点的偏移度,Cd和Sd表示在XY维度空间中任意两特征分别相对于X轴中心点的偏移度和Y轴中心点的偏移度,RQ表示对任意两特征的偏移度之间的距离,ai表示XY维度中偏移度的中位数,计算方式为(Cd+Sd)/2*100%。
图6是图2所示实施例中的步骤S220在另一个示例性实施例中的流程图。如图6所示,基于特征集确定特征融合计算指标的过程包括如下步骤S610-S620,详细介绍如下:
S610,获取特征集中各特征在每次特征采样过程中的捕获频次,以及获取多次特征采样过程中的检测容量。
本实施例中,捕获频次是指特征在每次特征采样过程中重复出现的频度,比如采样1次的特征中出现1个特征重复2次,那么捕获频次为2。检测容量是指采样N次中共出现特征的数量,比如采样10次共出现5种特征,那么检测容量为5。
如前所述,特征频度表征特征集中各特征出现的频度,因此需要获取各特征在每次特征采样过程中的捕获频次和多次特征采样过程中的检测容量,以基于捕获频次和检测容量计算特征频度。
S620,根据捕获频次和检测容量计算特征频度。
示例性的,可通过如下公式计算特征频度:
其中,Rs表示特征频度,m表示采样总次数,ai表示第i次采样放大系数,βj表示第j次采样的特征有效率,例如1次采样出现8个特征,其中重复2个,那么特征有效率为(8-1)/8*100%。
在计算获得特征细节值Kd、特征依存度Rd和特征频度Rs之后,则可基于如下公式计算特征融合指标R:
R=Kd×权重1+Rd×权重2+Rs×权重3
需要说明的是,权重1、权重2和权重3的具体数值是预设值,其大小根据在实际的应用场景中特征细节值Kd、特征依存度Rd和特征频度Rs对于特征融合指标R的重要性程度来确定,在此不对其具体数值进行限制。可见本申请的实施例通过分别计算出特征细节值、特征依存度、特征频度,再根据这些参数进一步计算出特征融合计算指标,便可以基于这些抽象指标从多个维度来较为准确的反映特征合并效果,得到较为准确的特征融合计算指标。
图7是图2所示实施例中的步骤S230在一示例性实施例中的流程图。如图7所示,基于特征融合指标确定目标特征合并方式的过程包括步骤S710-S720,详细介绍如下:
S710,若特征融合指标对应的数值处于预设的第一数值范围内,则确定目标特征合并方式包括对多个子特征库中的特征进行预处理后进行特征合并,预处理包括特征去重或特征归一化。
在本实施例中,若特征融合指标对应的数值处于预设的第一数值范围内,第一数值范围也是数值较低的范围,则表示直接对多个子特征库进行特征合并后容易产生较多的重复特征,此时所确定的目标特征合并方式则为对多个子特征库中的特征进行预处理后进行特征合并,预处理包括特征去重或特征归一化处理,以避免出现特征重复程度较高的问题。当然在一些示例性的实施例中,预处理的方式还可以包括其它可以避免特征合并后出现重复特征的方式,本实施例并不仅限于特征处理和特征归一化处理。
S710,若特征融合指标对应的数值处于预设的第二数值范围内,则确定目标特征合并方式包括直接对多个子特征库中的特征进行特征合并,第一数值范围中的数值小于第二数值范围中的数值。
若特征融合指标对应的数值处于预设的第二数值范围内,第二数值范围也是数值较高的范围,则表示直接对多个子特征库进行特征合并后不容易产生较多的重复特征,此时所确定的目标特征合并方式则为直接对多个子特征库中的特征进行特征合并。
在另一示例性实施例中,还可以将第一数值范围和第二数值范围进行评估等级的划分,如下表1所示:
特征融合指标 | 评估等级 |
85≤R | 优 |
70≤R<85 | 良 |
60≤R<70 | 中 |
R<60 | 差 |
表1
当特征融合指标R处于“中”和“差”等级时,则可确定目标特征合并方式包括对多个子特征库中的特征进行预处理后进行特征合并。当特征融合指标R处于“优”和“良”等级时,则可确定目标特征合并方式包括直接对多个子特征库中的特征进行特征合并。但无论基于哪种第一数值范围和第二数值范围的划分方式,本实施例基于特征融合指标来确定目标特征合并方式,都实现了根据预估的特征合并效果来选择适合的方式来对多个特征库中的特征进行特征合并处理,以保证最终得到高质量的目标特征库。
图8是本申请的一示例性实施例示出的一种多特征库合并装置的框图。如图8所示,该装置包括:
特征采样模块810,配置为获取从多个子特征库中进行特征采样所得到的特征集;计算指标确定模块820,配置为基于所述特征集确定特征融合计算指标,所述特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种,所述特征细节值表征所述特征集中特征的细节程度,所述特征依存度表征所述特征集中特征之间的关联程度,所述特征频度表征所述特征集中特征的出现频次;融合指标确定模块830,配置为根据所述特征融合计算指标确定特征融合指标;特征合并模块840,配置为基于所述特征融合指标确定目标特征合并方式,并按照所述目标特征合并方式对所述多个子特征库进行特征合并,以得到目标特征库。
该装置通过采样少量的特征来实现对于多特征库中大量特征的把控,进而选择合适的方式来对多个子特征库进行特征合并,使得所得到的目标特征库能够避免出现特征重复程度高的问题。
在另一示例性的实施例中,特征采样模块810包括:
特征库获取单元,配置为获取对数据分散进行处理所形成的多个子特征库;采样单元,配置为在对所述多个子特征库进行特征合并以形成所述目标特征库的过程中,对各个特征库中的特征数据进行特征采样,以得到所述特征集。
在另一示例性的实施例中,采样单元配置为按照预设的采样周期从各个特征库中抽取预设特征数量的特征数据;或者,根据各个子特征库中的特征数据传输至所述目标特征库的数据传输量和预设比例,计算各个子特征库中待采样的特征数量,以从各个子特征库中分别抽取对应特征数量的特征数据。
在另一示例性的实施例中,计算指标确定模块820包括:
特征细节值计算单元,配置为:获取所述特征集中特征的显性维度指标、显性粒径和细节颗粒度中位数,并根据所述显性维度指标、所述显性粒径和所述细节颗粒度中位数,计算得到所述特征细节值。
在另一示例性的实施例中,计算指标确定模块820包括:
特征依存度计算单元,配置为:对所述特征集中的特征进行向量化处理,得到各特征在向量空间中的三维坐标;获取所述特征集中任意两特征在不同二维空间中与中心点的偏移度,并获取所述任意两特征在所述不同二维空间中的偏移度之间距离;根据所述任意两特征对应的所述偏移度和所述距离计算所述特征依存度。
在另一示例性的实施例中,计算指标确定模块820包括:
特征频度计算单元,配置为:获取所述特征集中各特征在每次特征采样过程中的捕获频次,以及获取多次特征采样过程中的检测容量;根据所述捕获频次和所述检测容量计算所述特征频度。
在另一示例性的实施例中,特征合并模块840包括:
第一合并处理单元,配置为若所述特征融合指标对应的数值处于预设的第一数值范围内,则确定所述目标特征合并方式包括对所述多个子特征库中的特征进行预处理后进行特征合并,所述预处理包括特征去重或特征归一化;第二合并处理单元,配置为若所述特征融合指标对应的数值处于预设的第二数值范围内,则确定所述目标特征合并方式包括直接对所述多个子特征库中的特征进行特征合并,所述第一数值范围中的数值小于所述第二数值范围中的数值。
需要说明的是,上述实施例所提供的多特征库合并装置与上述实施例所提供的多特征库合并方法属于同一构思,其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。上述实施例所提供的多特征库合并装置在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能,本处也不对此进行限制。
本申请的实施例还提供了一种多特征库合并设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被所述一个或多个处理器执行时,使得多特征库合并设备实现上述各个实施例中提供的多特征库合并方法。
图9示出了适于用来实现本申请实施例的多特征库合并设备的计算机系统的结构示意图。需要说明的是,图9示出的多特征库合并设备的计算机系统900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(Central Processing Unit,CPU)901,其可以根据存储在只读存储器(Read-Only Memory,ROM)902中的程序或者从储存部分908加载到随机访问存储器(Random Access Memory,RAM)903中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM903中,还存储有系统操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(Input/Output,I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分907;包括硬盘等的储存部分908;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分906。通信部分906经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入储存部分908。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分906从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本申请的另一方面还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前所述的多特征库合并方法。该计算机可读存储介质可以是上述实施例中描述的多特征库合并设备中所包含的,也可以是单独存在,而未装配入该多特征库合并设备中。
上述内容,仅为本申请的较佳示例性实施例,并非用于限制本申请的实施方案,本领域普通技术人员根据本申请的主要构思和精神,可以十分方便地进行相应的变通或修改,故本申请的保护范围应以权利要求书所要求的保护范围为准。
Claims (10)
1.一种多特征库合并方法,其特征在于,所述方法包括:
获取从多个子特征库中进行特征采样所得到的特征集;
基于所述特征集确定特征融合计算指标,所述特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种,所述特征细节值表征所述特征集中特征的细节程度,所述特征依存度表征所述特征集中特征之间的关联程度,所述特征频度表征所述特征集中特征的出现频次;
根据所述特征融合计算指标确定特征融合指标,并基于所述特征融合指标确定目标特征合并方式;
按照所述目标特征合并方式对所述多个子特征库进行特征合并,以得到目标特征库。
2.根据权利要求1所述的方法,其特征在于,所述获取从多个子特征库中进行特征采样所得到的特征集,包括:
获取对数据分散进行处理所形成的多个子特征库;
在对所述多个子特征库进行特征合并以形成所述目标特征库的过程中,对各个特征库中的特征数据进行特征采样,以得到所述特征集。
3.根据权利要求2所述的方法,其特征在于,所述对各个特征库中的特征数据进行特征采样,包括:
按照预设的采样周期从各个特征库中抽取预设特征数量的特征数据;
或者,
根据各个子特征库中的特征数据传输至所述目标特征库的数据传输量和预设比例,计算各个子特征库中待采样的特征数量,以从各个子特征库中分别抽取对应特征数量的特征数据。
4.根据权利要求1所述的方法,其特征在于,所述基于所述特征集确定特征融合计算指标,包括:
获取所述特征集中特征的显性维度指标、显性粒径和细节颗粒度中位数;
根据所述显性维度指标、所述显性粒径和所述细节颗粒度中位数,计算得到所述特征细节值。
5.根据权利要求1所述的方法,其特征在于,所述基于所述特征集确定特征融合计算指标,包括:
对所述特征集中的特征进行向量化处理,得到各特征在向量空间中的三维坐标;
获取所述特征集中任意两特征在不同二维空间中与中心点的偏移度,并获取所述任意两特征在所述不同二维空间中的偏移度之间距离;
根据所述任意两特征对应的所述偏移度和所述距离计算所述特征依存度。
6.根据权利要求1所述的方法,其特征在于,所述特征集是从所述多个子特征库中进行多次特征采样所得到的;所述基于所述特征集确定特征融合计算指标,包括:
获取所述特征集中各特征在每次特征采样过程中的捕获频次,以及获取多次特征采样过程中的检测容量;
根据所述捕获频次和所述检测容量计算所述特征频度。
7.根据权利要求1所述的方法,其特征在于,所述基于所述特征融合指标确定目标特征合并方式,包括:
若所述特征融合指标对应的数值处于预设的第一数值范围内,则确定所述目标特征合并方式包括对所述多个子特征库中的特征进行预处理后进行特征合并,所述预处理包括特征去重或特征归一化;
若所述特征融合指标对应的数值处于预设的第二数值范围内,则确定所述目标特征合并方式包括直接对所述多个子特征库中的特征进行特征合并,所述第一数值范围中的数值小于所述第二数值范围中的数值。
8.一种多特征库合并装置,其特征在于,所述装置包括:
特征采样模块,配置为获取从多个子特征库中进行特征采样所得到的特征集;
计算指标确定模块,配置为基于所述特征集确定特征融合计算指标,所述特征融合计算指标包括特征细节值、特征依存度、特征频度中的至少一种,所述特征细节值表征所述特征集中特征的细节程度,所述特征依存度表征所述特征集中特征之间的关联程度,所述特征频度表征所述特征集中特征的出现频次;
融合指标确定模块,配置为根据所述特征融合计算指标确定特征融合指标,并基于所述特征融合指标确定目标特征合并方式;
特征合并模块,配置为按照所述目标特征合并方式对所述多个子特征库进行特征合并,以得到目标特征库。
9.一种多特征库合并设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述多特征库合并设备实现如权利要求1至7中任一项所述的多特征库合并方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7中任一项所述的多特征库合并方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086894.1A CN115659167B (zh) | 2022-09-06 | 2022-09-06 | 多特征库合并方法及装置、设备、计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086894.1A CN115659167B (zh) | 2022-09-06 | 2022-09-06 | 多特征库合并方法及装置、设备、计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115659167A true CN115659167A (zh) | 2023-01-31 |
CN115659167B CN115659167B (zh) | 2024-02-09 |
Family
ID=84983155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211086894.1A Active CN115659167B (zh) | 2022-09-06 | 2022-09-06 | 多特征库合并方法及装置、设备、计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115659167B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084186A1 (zh) * | 2015-11-18 | 2017-05-26 | 华南理工大学 | 挠性电路板制造过程自动监测和智能分析系统及方法 |
CN112100318A (zh) * | 2020-11-12 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 一种多维度信息合并方法、装置、设备及存储介质 |
US20210243383A1 (en) * | 2019-03-06 | 2021-08-05 | Tencent Technology (Shenzhen) Company Limited | Video synthesis method, model training method, device, and storage medium |
CN113869423A (zh) * | 2021-09-29 | 2021-12-31 | 天元大数据信用管理有限公司 | 一种营销响应模型构建方法、设备及介质 |
CN114090817A (zh) * | 2021-11-23 | 2022-02-25 | 华中科技大学鄂州工业技术研究院 | 一种人脸特征数据库动态构建方法、装置及存储介质 |
CN114356859A (zh) * | 2021-12-30 | 2022-04-15 | 中国电信股份有限公司 | 数据导入方法及装置、设备、计算机可读存储介质 |
CN114971325A (zh) * | 2022-06-01 | 2022-08-30 | 中国计量大学 | 一种电动工具转子关键质量特征集筛选方法 |
-
2022
- 2022-09-06 CN CN202211086894.1A patent/CN115659167B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017084186A1 (zh) * | 2015-11-18 | 2017-05-26 | 华南理工大学 | 挠性电路板制造过程自动监测和智能分析系统及方法 |
US20210243383A1 (en) * | 2019-03-06 | 2021-08-05 | Tencent Technology (Shenzhen) Company Limited | Video synthesis method, model training method, device, and storage medium |
CN112100318A (zh) * | 2020-11-12 | 2020-12-18 | 北京智慧星光信息技术有限公司 | 一种多维度信息合并方法、装置、设备及存储介质 |
CN113869423A (zh) * | 2021-09-29 | 2021-12-31 | 天元大数据信用管理有限公司 | 一种营销响应模型构建方法、设备及介质 |
CN114090817A (zh) * | 2021-11-23 | 2022-02-25 | 华中科技大学鄂州工业技术研究院 | 一种人脸特征数据库动态构建方法、装置及存储介质 |
CN114356859A (zh) * | 2021-12-30 | 2022-04-15 | 中国电信股份有限公司 | 数据导入方法及装置、设备、计算机可读存储介质 |
CN114971325A (zh) * | 2022-06-01 | 2022-08-30 | 中国计量大学 | 一种电动工具转子关键质量特征集筛选方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115659167B (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108280477B (zh) | 用于聚类图像的方法和装置 | |
CN112148987B (zh) | 基于目标对象活跃度的消息推送方法及相关设备 | |
CN108833458B (zh) | 一种应用推荐方法、装置、介质及设备 | |
CN111178380B (zh) | 数据分类方法、装置及电子设备 | |
CN109345417B (zh) | 基于身份认证的业务人员的在线考核方法及终端设备 | |
CN110941978B (zh) | 一种未识别身份人员的人脸聚类方法、装置及存储介质 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN110929799A (zh) | 用于检测异常用户的方法、电子设备和计算机可读介质 | |
CN112231592A (zh) | 基于图的网络社团发现方法、装置、设备以及存储介质 | |
CN110895706B (zh) | 一种目标聚类数的获取方法、装置及计算机系统 | |
CN110245684B (zh) | 数据处理方法、电子设备和介质 | |
CN113010493A (zh) | 一种数据质量在线分析方法、装置、机器可读介质及设备 | |
CN112163127A (zh) | 关系图谱构建方法、装置、电子设备及存储介质 | |
CN115659167B (zh) | 多特征库合并方法及装置、设备、计算机可读存储介质 | |
CN111291196B (zh) | 知识图谱的完善方法及装置、数据处理方法及装置 | |
CN114066513A (zh) | 一种用户分类的方法和装置 | |
CN114357242A (zh) | 基于召回模型的训练评估方法及装置、设备、存储介质 | |
CN109885504B (zh) | 推荐系统的测试方法、装置、介质及电子设备 | |
CN111046894B (zh) | 识别马甲账号的方法和装置 | |
CN111428767A (zh) | 数据处理方法及装置、处理器、电子设备及存储介质 | |
CN112131468A (zh) | 推荐系统中的数据处理方法、装置 | |
CN111369375A (zh) | 一种社交关系确定方法、装置、设备及存储介质 | |
CN114840686B (zh) | 基于元数据的知识图谱构建方法、装置、设备及存储介质 | |
CN114693920A (zh) | 图像处理方法及装置、电子设备、计算机可读介质 | |
CN111046307B (zh) | 用于输出信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |