CN109711250A - 特征向量二值化、相似度评价、检索方法、设备和介质 - Google Patents

特征向量二值化、相似度评价、检索方法、设备和介质 Download PDF

Info

Publication number
CN109711250A
CN109711250A CN201811347262.XA CN201811347262A CN109711250A CN 109711250 A CN109711250 A CN 109711250A CN 201811347262 A CN201811347262 A CN 201811347262A CN 109711250 A CN109711250 A CN 109711250A
Authority
CN
China
Prior art keywords
feature vector
vector
feature
value
binaryzation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811347262.XA
Other languages
English (en)
Other versions
CN109711250B (zh
Inventor
符广平
陈芳林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shenzhen Horizon Technology Co Ltd
Original Assignee
Shenzhen Shenzhen Horizon Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shenzhen Horizon Technology Co Ltd filed Critical Shenzhen Shenzhen Horizon Technology Co Ltd
Priority to CN201811347262.XA priority Critical patent/CN109711250B/zh
Publication of CN109711250A publication Critical patent/CN109711250A/zh
Application granted granted Critical
Publication of CN109711250B publication Critical patent/CN109711250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了特征向量二值化、相似度评价、检索方法、设备和介质,其中二值化方法用于根据特征向量构建二值化向量;该方法包括:将特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值;根据每一元素相应分特征向量的均值计算每一元素对应的差值元素;根据每一元素相应分特征向量的均值以及每一元素对应的差值元素判断每一元素是否满足预设的置位条件;设置二值化向量中与满足置位条件元素对应的位为第一值,二值化向量中其余的位为第二值。可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。

Description

特征向量二值化、相似度评价、检索方法、设备和介质
技术领域
本发明涉及信息处理技术,尤其涉及特征向量二值化、相似度评价、检索方法、设备和介质。
背景技术
随着信息化时代数据的大爆发以及大数据技术的应用,经常需要从很多数据中找出所需要的数据,或者对比两数据的相似程度。例如,在获取到某一待判断指纹后需要从指纹库中找出与该待判断指纹最接近的指纹,以便找到待判断指纹所关联的信息,如犯罪嫌疑人身份;又例如评价两篇文章的相似程度,实现查重;又例如在各类安防监控系统上人脸识别应用越来越多,其实用价值也越来越高,各级地市的相关部门也已经或者将要去建设基于人脸识别技术的监控系统;在人像监控系统中经常需要实现对对人像大库进行1:N或者m:N检索。
现有技术通常从相关数据,如人像、指纹、音频等提取多维的特征向量,然后通过直接比较多维特征向量判断数据的相似程度;但是当数据量达到上亿甚至几十亿时,那么对多维的特征向量进行比对时的运算量巨大,计算速度和检索速度难以满足,用户体验下降。
发明内容
本发明实施例提供一种特征向量二值化方法、相似度评价方法、检索方法、设备和介质,可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。
本发明实施例第一方面提供了一种特征向量二值化方法,所述特征向量包括若干个元素,所述特征向量二值化方法包括:
根据所述特征向量中元素的个数初始化二值化向量,所述二值化向量包括与所述若干个元素对应的若干个位;
将所述特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值;
根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素;
根据每一元素相应分特征向量的均值以及所述每一元素对应的差值元素判断所述每一元素是否满足预设的置位条件;
设置所述二值化向量中与满足所述置位条件元素对应的位为第一值,所述二值化向量中其余的位为第二值,且所述第一值与第二值不同。
在一些实施例中,所述元素满足所述置位条件,具体包括:
所述元素相应分特征向量的均值大于第一阈值,且所述元素对应的差值元素小于第二阈值;或者
所述元素相应分特征向量的均值小于第三阈值,且所述元素对应的差值元素大于第四阈值。
在一些实施例中,所述第一阈值等于所述若干个元素对应差值元素中最大值的比例乘以所述特征向量中元素的极大值;所述第三阈值等于所述若干个元素对应差值元素中最小值的比例乘以所述特征向量中元素的极小值。
在一些实施例中,所述根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素,具体包括:
根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量,所述差值向量包括与所述分特征向量中各元素一一对应的差值元素。
在一些实施例中,所述根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量之后,还包括以下步骤:
根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量;
根据所述若干个分特征向量对应的邻差向量计算所述第四阈值和第二阈值。
在一些实施例中,所述分特征向量对应的邻差向量包括与所述分特征向量中各元素一一对应的邻差元素;
所述第四阈值等于所述若干分特征向量中各元素对应的邻差元素中最大值的比例乘以所述特征向量中元素的极大值;所述第二阈值等于所述若干分特征向量中各元素对应的邻差元素中最小值的比例乘以所述特征向量中元素的极小值。
在一些实施例中,所述根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量,具体为根据下式计算:
1≤j≤s-1,NDi,j=Di,j-Di,j+1,以及若j=s,NDi,j=0;或者
若2≤j≤s,NDi,j=Di,j-Di,j-1,以及若j=1,NDi,j=0;
其中,s表示所述差值向量中差值元素的个数,Di,j表示第i个差值向量中的第j个差值元素,NDi,j表示第i个邻差向量中的第j个邻差元素。
在一些实施例中,所述第一值为1,第二值为0。
在一些实施例中,所述特征向量具体为从图片、指纹、人像、文章、段落、音频、或网页提取的特征向量。
本发明实施例第二方面提供了一种相似度评价方法,用于评价两个特征向量的相似度。
所述相似度评价方包括:
根据前述的特征向量二值化方法构建所述两个特征向量对应的两个二值化向量;
计算所述两个二值化向量的相似度。
在一些实施例中,所述计算所述两个二值化向量的相似度,具体包括:
对所述两个二值化向量进行按位与运算或按位异或运算;
计算所述按位与运算或按位异或运算所得结果中第一值的个数或比例。
本发明实施例第三方面提供了一种检索方法,用于从包含多个特征向量的特征库中检索出与待检特征相似的至少一个特征向量。
所述检索方法包括:
根据前述的相似度评价方法计算所述待检特征与所述特征库中各特征向量的相似度;
若所述特征库中的特征向量与所述待检特征的相似度不小于初选阈值,标记所述特征向量为待选特征向量;
计算所述待选特征向量与所述待检特征的特征距离;
若所述待选特征向量与所述待检特征的特征距离满足预设的检索条件,所述待选特征向量为与所述待检特征相似的特征向量。
在一些实施例中,所述检索条件包括:
所述待选特征向量与所述待检特征的特征距离不小于距离阈值;或者
所述待选特征向量与所述待检特征的特征距离大于若干除所述待选特征向量之外的待选特征向量与所述待检特征的特征距离。
本发明实施例第四方面提供了一种设备,包括存储器和处理器,所述存储器用于存储程序指令;若所述处理器执行所述程序指令,实现上述特征向量二值化方法;或者
实现上述相似度评价方法;或者
实现上述检索方法。
本发明实施例第五方面提供了一种介质,所述介质存储有计算机程序,若所述计算机程序被处理器执行,实现上述特征向量二值化方法;或者
实现上述相似度评价方法;或者
实现上述检索方法。
相比现有技术,本发明实施例的有益效果在于:通过将特征向量中的元素分为若干个分特征向量,并分别计算各若干个分特征向量中元素的均值,以及根据该均值计算各元素对应的差值元素;从而可以根据各元素相应的均值和差值元素判断各元素是否满足置位条件,若满足,则将二值化向量中该元素对应的位置为第一值,否则置为第二值;从而可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1为本发明实施例一的特征向量二值化方法的流程示意图;
图2为本发明实施例二的相似度评价方法的流程示意图;
图3为本发明实施例三的检索方法的流程示意图;
图4为本发明实施例四的设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
需要说明的是,如果不冲突,本发明实施例中的各个特征可以相互组合,均在本发明的保护范围之内。另外,虽然在装置示意图中进行了功能模块的划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置示意图中的模块划分,或流程图中的顺序执行所示出或描述的步骤。
实施例一
如图1为一种特征向量二值化方法的流程示意图,特征向量二值化方法用于根据特征向量构建二值化向量,所述特征向量包括若干个元素,所述二值化向量包括与所述若干个元素对应的若干个位。
在一些可行的实施例中,所述特征向量具体为从图片、指纹、人像、文章、段落、音频、或网页等素材提取的特征向量,特征向量包括用于描述某素材各种特征的若干个元素;各类型素材特征向量的提取可以通过现有技术,如深度神经网络等实现,在此不做赘述。示例性的,从某图片提取的特征向量包括可以体现该图片颜色、纹理、形状等特征的若干个元素。
在一些可行的实施例中,基于深度学习技术提取出的人像的特征向量,通常都包括是256个、384个乃至更高数目的元素,即特征向量可以是256维、384维乃至更高维的特征向量。
特征向量二值化方法包括以下步骤:
步骤S110、根据所述特征向量中元素的个数初始化二值化向量,所述二值化向量包括与所述若干个元素对应的若干个位。
在一些可行的实施例中,先获取特征向量,以及该特征向量的维数,即包括元素的个数;再定义、初始化一个包括相同个数二进制位的二值化向量,以便后续实现特征向量二值化方法时对该二值化向量进行赋值。
为便于说明,本发明实施例以包括九个元素的特征向量为例,构建其对应的二值化向量;最后得到的二值化向量包括九个二进制位。
步骤S120、将所述特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值。
示例性的,某特征向量F包括N个元素,可以将该特征向量F中的N个元素平均划分至m个分特征向量中,各分特征向量均包括s个元素。其中,第一个分特征向量F1中的s个元素分别为F1,1、F1,2、…、F1,s,第一个分特征向量F1中s个元素的均值为A1;第二个分特征向量F2中的s个元素分别为F2,1、F2,2、…、F2,s,第二个分特征向量F2中s个元素的均值为A2;第m个分特征向量Fm中的s个元素分别为Fm,1、Fm,2、…、Fm,s,第m个分特征向量Fm中s个元素的均值为Am。
示例性的,特征向量F={2、3、4、5、7、6、2、3、7},划分得到的第一个分特征向量F1为{2、3、4},均值A1为3;第二个分特征向量F2为{5、7、6},均值A2为6;第三个分特征向量F3为{2、3、7},均值Am为4。
步骤S130、根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素。
在一些可行的实施例中,元素Fi,j对应的差值元素Di,j等于元素Fi,j与该元素Fi,j相应分特征向量Fi的均值Ai,即Di,j=Fi,j-Ai,其中i=1、2、…、m,j=1、2、…、s。
在一些可行的实施例中,步骤S130根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素,具体包括:
步骤S131、根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量,所述差值向量包括与所述分特征向量中各元素一一对应的差值元素。
示例性的,所述分特征向量中的各元素减去所述分特征向量的均值,得到所述分特征向量的差值向量。如第一个分特征向量F1={2、3、4}对应的差值向量D1={-1、0、1},第二个分特征向量F2={5、7、6}对应的差值向量D2={-1、1、0},第三个分特征向量F3={2、3、7}对应的差值向量D3={-1、-1、3}。示例性的,其中元素F3,3对应的差值元素D3,3=3。
步骤S140、根据特征向量中每一元素相应分特征向量的均值以及所述每一元素对应的差值元素判断所述每一元素是否满足预设的置位条件。
在一些可行的实施例中,元素Fi,j满足所述预设的置位条件,具体包括元素Fi,j满足:
所述元素Fi,j相应分特征向量Fi的均值Ai大于第一阈值k1,且所述元素Fi,j对应的差值元素Di,j小于第二阈值d2;或者元素Fi,j满足:
所述元素Fi,j相应分特征向量Fi的均值Ai大小于第三阈值k2,且所述元素Fi,j对应的差值元素Di,j大于第四阈值d1。
即,若Ai>k1且Di,j<d2,或者Ai<k2且Di,j>d1,元素Fi,j满足所述预设的置位条件;否则元素Fi,j不满足所述预设的置位条件。
在一些可行的实施例中,所述第一阈值k1、第三阈值k2可以采用经验值,具体可以通过有限次试验得出与各类型特征向量匹配的第一阈值k1、第三阈值k2。
在一些可行的实施例中,所述第一阈值k1、第三阈值k2具体为根据特征向量F中各元素对应的差值元素计算出。
示例性的,将特征向量F中各元素对应的差值元素按由大到小排序,根据全部差值元素的数目,将排名为第一比例,如四分之一左右的差值元素,如D1,3对应的元素F1,3的值作为第一阈值k1,将排名为第二比例,如四分之三左右的差值元素,如D2,1对应的元素F2,1的值作为第三阈值k2;第一比例小于第二比例。
在一些可行的实施例中,所述第一阈值k1、第三阈值k2具体为根据特征向量F中元素的极大值、元素的极小值计算出。
示例性的,某特征向量F中各元素的数据类型均为有符号的8位整型,所以,特征向量F中元素的极大值为127,特征向量F中元素的极小值为-128。可以将第一阈值k1置为第三比例,如三分之一乘以127,约为42;可以将第三阈值k2置为第四比例,如三分之二乘以-128,约为-85;第三比例小于第四比例。
在一些可行的实施例中,所述第一阈值k1、第三阈值k2具体为根据特征向量F中各元素对应的差值元素,以及特征向量F中元素的极大值、元素的极小值计算出。
在一些可行的实施例中,第一阈值k1等于特征向量F中若干个元素对应差值元素中最大值的比例乘以特征向量F中元素的极大值;第三阈值k2等于特征向量F中若干个元素对应差值元素中最小值的比例乘以特征向量F中元素的极小值。
示例性的,特征向量F中包括100个元素,对应的有100个差值元素;其中有20个差值元素为最大值,有30个差值元素为最小值,其他50个差值元素小于该最大值,且大于该最小值。所以,第一阈值k1等于0.2乘以特征向量F中元素的极大值,如127;第三阈值k2等于0.3乘以特征向量F中元素的极小值,如-128。
在一些可行的实施例中,步骤S131根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量之后,还包括以下步骤:
步骤S101、根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量;所述分特征向量对应的邻差向量包括与所述分特征向量中各元素一一对应的邻差元素。
示例性的,分特征向量Fi对应的邻差向量NDi具体为根据分特征向量Fi对应的差值向量Di计算的。
在一些可行的实施例中,分特征向量对应的邻差向量为右邻差值向量。步骤S101根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量。示例性的,对于分特征向量Fi对应的差值向量Di计算分特征向量Fi对应的邻差向量NDi,具体为根据下式计算:
若1≤j≤s-1,NDi,j=Di,j-Di,j+1,以及若j=s,NDi,j=0;
其中,s表示所述差值向量Di中差值元素的个数,Di,j表示第i个差值向量Di中的第j个差值元素,NDi,j表示第i个邻差向量NDi中的第j个邻差元素。
示例性的,对于差值向量D1={-1、0、1},其相应的邻差向量ND1={-1-0、0-1、0}={-1、-1、0}。
在另一些可行的实施例中,分特征向量对应的邻差向量为左邻差值向量。步骤S101根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量,具体为根据下式计算:
若2≤j≤s,NDi,j=Di,j-Di,j-1,以及若j=1,NDi,j=0。
其中,s表示所述差值向量Di中差值元素的个数,Di,j表示第i个差值向量Di中的第j个差值元素,NDi,j表示第i个邻差向量NDi中的第j个邻差元素。
步骤S102、根据所述若干个分特征向量对应的邻差向量计算所述第四阈值d1和第二阈值d2。
在一些可行的实施例中,所述第四阈值d1和第二阈值d2可以采用经验值,具体可以通过有限次试验得出与各类型特征向量匹配的第四阈值d1和第二阈值d2。
在一些可行的实施例中,所述第四阈值d1和第二阈值d2具体为根据特征向量F中各元素对应的邻差元素计算出。
示例性的,将特征向量F中各元素对应的邻差元素按由大到小排序,根据全部邻差元素的数目,将排名为第五比例,如四分之一左右的邻差元素,如ND2,3对应的元素F2,3的值作为第四阈值d1,将排名为第六比例,如四分之三左右的邻差元素,如ND3,1对应的元素F3,1的值作为第二阈值d2;第五比例小于第六比例。
在一些可行的实施例中,所述第四阈值d1和第二阈值d2具体为根据特征向量F中各元素对应的邻差元素,以及特征向量F中元素的极大值、元素的极小值计算出。
在一些可行的实施例中,所述第四阈值d1等于所述若干分特征向量中,即特征向量F中各元素对应的邻差元素中最大值的比例乘以所述特征向量中元素的极大值;所述第二阈值d2等于所述若干分特征向量中,即特征向量F中各元素对应的邻差元素中最小值的比例乘以所述特征向量中元素的极小值。
示例性的,特征向量F中包括100个元素,对应的有100个邻差元素;其中有30个邻差元素为最大值,有20个邻差元素为最小值,其他50个邻差元素小于该最大值,且大于该最小值。所以,第四阈值d1等于0.3乘以特征向量F中元素的极大值,如127;第二阈值d2等于0.2乘以特征向量F中元素的极小值,如-128。
步骤S150、设置所述二值化向量中与满足所述置位条件元素对应的位为第一值,所述二值化向量中其余的位为第二值,且所述第一值与第二值不同。
在一些可行的实施例中,所述第一值为1,第二值为0。
示例性的,若某特征向量F包括9个元素,则对应的二值化向量包括9个二进制位;若该特征向量F中的第1个元素满足上述预设的置位条件,则将预先初始化的二值化向量中的第1位赋值为1;若该特征向量F中的第2个元素不满足上述预设的置位条件,则再将二值化向量中的第2位赋值为0,直至判断完特征向量F中最后一个元素是否满足上述预设的置位条件,以及对二值化向量中的最后一位赋值,最后得到与该特征向量F对应的二值化向量,二值化向量包括与特征向量F中若干个元素对应的若干个位。
本发明实施例提供的特征向量二值化方法,通过将特征向量中的元素分为若干个分特征向量,并分别计算各若干个分特征向量中元素的均值,以及根据该均值计算各元素对应的差值元素;从而可以根据各元素相应的均值和差值元素判断各元素是否满足置位条件,若满足,则将二值化向量中该元素对应的位置为第一值,否则置为第二值;从而可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。
实施例二
如图2所示为一种相似度评价方法的流程示意图,用于评价两个特征向量的相似度。
在一些可行的实施例中,所述特征向量具体为从图片、指纹、人像、文章、段落、音频、或网页等素材提取的特征向量,特征向量包括用于描述某素材各种特征的若干个元素;各类型素材特征向量的提取可以通过现有技术,如深度神经网络等实现,在此不做赘述。示例性的,从某图片提取的特征向量包括可以体现该图片颜色、纹理、形状等特征的若干个元素。
相似度评价方法包括以下步骤:
步骤S210、根据前述的特征向量二值化方法构建所述两个特征向量对应的两个二值化向量。
在一些可行的实施例中,两个特征向量包括相同个数的若干个元素,例如,第一个特征向量、第二个特征向量均包括8个元素;根据特征向量二值化方法构建出与第一个特征向量对应的第一个二值化向量包括8个二进制位,每一位具体为1或0;根据特征向量二值化方法构建出与第二个特征向量对应的第二个二值化向量包括8个二进制位,每一位具体为1或0。示例性的,第一个二值化向量为11100110,第二个二值化向量为01100011。
步骤S220、计算所述两个二值化向量的相似度。
在一些可行的实施例中,步骤S220计算所述两个二值化向量的相似度,具体包括:
步骤S221、对所述两个二值化向量进行按位与运算或按位异或运算。
对第一个二值化向量11100110和第二个二值化向量01100011进行按位与运算,运算结果为01100010;按位与运算的结果中,为1的位表示两个特征向量均包括该位相应元素所代表的较为关键的信息。
对第一个二值化向量11100110和第二个二值化向量01100011进行按位异或运算,运算结果为01111010;按位异或运算的结果中,为1的位表示两个特征向量均包括该位相应元素所代表的较为关键的信息或较为次要的信息。
步骤S222、计算所述按位与运算或按位异或运算所得结果中第一值的个数或比例。
示例性的,对前述两个二值化向量进行按位与运算所得结果01100010中1的个数为3,两个二值化向量的相似度为3;或者对前述两个二值化向量进行按位与运算所得结果01100010中1的比例为八分之三,两个二值化向量的相似度为八分之三。
按位与运算或按位异或运算所得结果中第一值的个数或比例越大,说明两个特征向量的相似度越高。
本发明实施例提供的相似度评价方法,通过将特征向量中的元素分为若干个分特征向量,并分别计算各若干个分特征向量中元素的均值,以及根据该均值计算各元素对应的差值元素;从而可以根据各元素相应的均值和差值元素判断各元素是否满足置位条件,若满足,则将二值化向量中该元素对应的位置为第一值,否则置为第二值;从而可以通过比较两个特征向量对应的两个二值化向量的相似度来对两个特征向量的相似度进行评价,可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。
实施例三
如图3所示为一种检索方法的流程示意图,用于从包含多个特征向量的特征库中检索出与待检特征相似的至少一个特征向量。
检索方法包括以下步骤:
步骤S310、根据前述的相似度评价方法计算所述待检特征与所述特征库中各特征向量的相似度。
在一些可行的实施例中,特征库中存储有多个特征向量,以及根据前述特征向量二值化方法构建出的各特征向量对应的二值化向量。对于某待检特征,如从某人头像提取的人脸特征向量,也根据前述特征向量二值化方法构建出与该人脸特征向量对应的二值化向量;从而可以根据前述的相似度评价方法计算待检特征与特征库中各特征向量的相似度,即该人脸特征向量对应的二值化向量与特征库中各特征向量相应二值化向量的相似度。
步骤S320、若所述特征库中的特征向量与所述待检特征的相似度不小于初选阈值,标记所述特征向量为待选特征向量。
人脸特征向量对应的二值化向量与特征库中特征向量对应的二值化向量的相似度越高,表示该人脸特征向量与该特征向量越相似。如果特征库中的特征向量与所述待检特征的相似度不小于初选阈值,则该特征向量有较高概率可以作为于该待检特征相匹配的特征向量;从而完成对特征库中特征向量的初步筛选,在保持检索准确率的情况下,减少搜索范围,从而降低检索工作的计算量。初选阈值可以通过有限次试验得到。
步骤S330、计算所述待选特征向量与所述待检特征的特征距离。
在一些可行的实施例中,待选特征向量与所述待检特征的特征距离具体为欧式距离,余弦距离,马氏距离等。
步骤S340、若所述待选特征向量与所述待检特征的特征距离满足预设的检索条件,所述待选特征向量为与所述待检特征相似的特征向量。
在一些可行的实施例中,步骤S340中的检索条件包括步骤S341和/或步骤S342。
步骤S341、所述待选特征向量与所述待检特征的特征距离不小于距离阈值。
因此待选特征向量与所述待检特征的特征距离足够小,可以认为待选特征向量对应的素材和待检特征对应的素材足够相似,该待选特征向量可以作为与该待检特征相似的特征向量。
步骤S342、所述待选特征向量与所述待检特征的特征距离大于若干除所述待选特征向量之外的待选特征向量与所述待检特征的特征距离。即在所有待选特征向量中,该待选特征向量与该待检特征的特征距离时比较大的甚至是最大的,因此该待选特征向量对应的素材和待检特征对应的素材时比较相似甚至是最相似的,该待选特征向量可以作为与该待检特征相似的特征向量。
本发明实施例提供的检索方法,通过将特征向量中的元素分为若干个分特征向量,并分别计算各若干个分特征向量中元素的均值,以及根据该均值计算各元素对应的差值元素;从而可以根据各元素相应的均值和差值元素判断各元素是否满足置位条件,若满足,则将二值化向量中该元素对应的位置为第一值,否则置为第二值;从而可以通过比较待检特征对应二值化向量与特征库中各特征向量对应二值化向量的相似度来从特征库中初步筛选出待选特征向量;可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在介质中,如ROm/RAm、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法,如:
一种介质,所述介质存储有计算机程序,若所述计算机程序被处理器执行,实现前述特征向量二值化方法、相似度评价方法、检索方法中的至少一种。
本发明可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等,如实施例四。
实施例四
如图4所示一种设备,包括存储器200和处理器300,存储器200用于存储程序指令;若处理器300执行该程序指令,实现前述特征向量二值化方法、相似度评价方法、检索方法中的至少一种。
本实施例中的设备与前述实施例中的方法是基于同一发明构思下的两个方面,在前面已经对方法实施过程作了详细的描述,所以本领域技术人员可根据前述描述清楚地了解本实施中的设备的结构及实施过程,为了说明书的简洁,在此就不再赘述。
本发明实施例提供的设备,可以通过将特征向量中的元素分为若干个分特征向量,并分别计算各若干个分特征向量中元素的均值,以及根据该均值计算各元素对应的差值元素;从而可以根据各元素相应的均值和差值元素判断各元素是否满足置位条件,若满足,则将二值化向量中该元素对应的位置为第一值,否则置为第二值;从而可以保留特征向量中较为关键的信息,而忽略较为次要的信息,以缩减特征向量的规模,从而可以在保持准确率的情况下,降低特征向量对比、检索等工作的计算量。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (15)

1.特征向量二值化方法,所述特征向量包括若干个元素,其特征在于,所述特征向量二值化方法包括:
根据所述特征向量中元素的个数初始化二值化向量,所述二值化向量包括与所述若干个元素对应的若干个位;
将所述特征向量划分为若干个分特征向量,以及分别计算每一分特征向量中所有元素的均值;
根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素;
根据每一元素相应分特征向量的均值以及所述每一元素对应的差值元素判断所述每一元素是否满足预设的置位条件;
设置所述二值化向量中与满足所述置位条件元素对应的位为第一值,所述二值化向量中其余的位为第二值,且所述第一值与第二值不同。
2.如权利要求1所述的特征向量二值化方法,其特征在于:所述元素满足所述置位条件,具体包括:
所述元素相应分特征向量的均值大于第一阈值,且所述元素对应的差值元素小于第二阈值;或者
所述元素相应分特征向量的均值小于第三阈值,且所述元素对应的差值元素大于第四阈值。
3.如权利要求2所述的特征向量二值化方法,其特征在于:所述第一阈值等于所述若干个元素对应差值元素中最大值的比例乘以所述特征向量中元素的极大值;所述第三阈值等于所述若干个元素对应差值元素中最小值的比例乘以所述特征向量中元素的极小值。
4.如权利要求3所述的特征向量二值化方法,其特征在于:所述根据每一元素相应分特征向量的均值计算所述每一元素对应的差值元素,具体包括:
根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量,所述差值向量包括与所述分特征向量中各元素一一对应的差值元素。
5.如权利要求4所述的特征向量二值化方法,其特征在于:所述根据每一分特征向量和所述分特征向量的均值计算所述分特征向量对应的差值向量之后,还包括以下步骤:
根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量;
根据所述若干个分特征向量对应的邻差向量计算所述第四阈值和第二阈值。
6.如权利要求5所述的特征向量二值化方法,其特征在于:所述分特征向量对应的邻差向量包括与所述分特征向量中各元素一一对应的邻差元素;
所述第四阈值等于所述若干分特征向量中各元素对应的邻差元素中最大值的比例乘以所述特征向量中元素的极大值;所述第二阈值等于所述若干分特征向量中各元素对应的邻差元素中最小值的比例乘以所述特征向量中元素的极小值。
7.如权利要求6所述的特征向量二值化方法,其特征在于:所述根据每一分特征向量对应的差值向量计算所述每一分特征向量对应的邻差向量,具体为根据下式计算:
1≤j≤s-1,NDi,j=Di,j-Di,j+1,以及若j=s,NDi,j=0;或者
若2≤j≤s,NDi,j=Di,j-Di,j-1,以及若j=1,NDi,j=0;
其中,s表示所述差值向量中差值元素的个数,Di,j表示第i个差值向量中的第j个差值元素,NDi,j表示第i个邻差向量中的第j个邻差元素。
8.如权利要求1-7中任一项所述的特征向量二值化方法,其特征在于:所述第一值为1,第二值为0。
9.如权利要求1-7中任一项所述的特征向量二值化方法,其特征在于:所述特征向量具体为从图片、指纹、人像、文章、段落、音频、或网页提取的特征向量。
10.相似度评价方法,用于评价两个特征向量的相似度,其特征在于,所述相似度评价方包括:
根据如权利要求1-9任一项所述的特征向量二值化方法构建所述两个特征向量对应的两个二值化向量;
计算所述两个二值化向量的相似度。
11.如权利要求10所述的相似度评价方法,其特征在于:所述计算所述两个二值化向量的相似度,具体包括:
对所述两个二值化向量进行按位与运算或按位异或运算;
计算所述按位与运算或按位异或运算所得结果中第一值的个数或比例。
12.检索方法,用于从包含多个特征向量的特征库中检索出与待检特征相似的至少一个特征向量,其特征在于,所述检索方法包括:
根据如权利要求10或11所述的相似度评价方法计算所述待检特征与所述特征库中各特征向量的相似度;
若所述特征库中的特征向量与所述待检特征的相似度不小于初选阈值,标记所述特征向量为待选特征向量;
计算所述待选特征向量与所述待检特征的特征距离;
若所述待选特征向量与所述待检特征的特征距离满足预设的检索条件,所述待选特征向量为与所述待检特征相似的特征向量。
13.如权利要求12所述的检索方法,其特征在于,所述检索条件包括:
所述待选特征向量与所述待检特征的特征距离不小于距离阈值;或者
所述待选特征向量与所述待检特征的特征距离大于若干除所述待选特征向量之外的待选特征向量与所述待检特征的特征距离。
14.设备,其特征在于:包括存储器和处理器,所述存储器用于存储程序指令;若所述处理器执行所述程序指令,实现如权利要求1-9中任一项所述的特征向量二值化方法;或者
实现如权利要求10或11所述的相似度评价方法;或者
实现如权利要求12或13所述的检索方法。
15.介质,所述介质存储有计算机程序,其特征在于:若所述计算机程序被处理器执行,实现如权利要求1-9中任一项所述的特征向量二值化方法;或者
实现如权利要求10或11所述的相似度评价方法;或者
实现如权利要求12或13所述的检索方法。
CN201811347262.XA 2018-11-13 2018-11-13 特征向量二值化、相似度评价、检索方法、设备和介质 Active CN109711250B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811347262.XA CN109711250B (zh) 2018-11-13 2018-11-13 特征向量二值化、相似度评价、检索方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811347262.XA CN109711250B (zh) 2018-11-13 2018-11-13 特征向量二值化、相似度评价、检索方法、设备和介质

Publications (2)

Publication Number Publication Date
CN109711250A true CN109711250A (zh) 2019-05-03
CN109711250B CN109711250B (zh) 2024-02-02

Family

ID=66254554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811347262.XA Active CN109711250B (zh) 2018-11-13 2018-11-13 特征向量二值化、相似度评价、检索方法、设备和介质

Country Status (1)

Country Link
CN (1) CN109711250B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177262A (zh) * 2013-02-19 2013-06-26 山东大学 基于hog和svm的行人检测系统的fpga架构及其实现方法
CN103235955A (zh) * 2013-05-03 2013-08-07 中国传媒大学 一种图像检索中视觉单词的提取方法
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN105631296A (zh) * 2015-12-30 2016-06-01 北京工业大学 一种基于cnn特征提取器的安全人脸认证系统设计方法
US20180101742A1 (en) * 2016-10-07 2018-04-12 Noblis, Inc. Face recognition and image search system using sparse feature vectors, compact binary vectors, and sub-linear search
CN108337551A (zh) * 2018-01-22 2018-07-27 深圳壹账通智能科技有限公司 一种屏幕录制方法、存储介质及终端设备
CN108664920A (zh) * 2018-05-10 2018-10-16 深圳市深网视界科技有限公司 一种实时的大规模级联人脸聚类方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177262A (zh) * 2013-02-19 2013-06-26 山东大学 基于hog和svm的行人检测系统的fpga架构及其实现方法
CN103235955A (zh) * 2013-05-03 2013-08-07 中国传媒大学 一种图像检索中视觉单词的提取方法
CN104915386A (zh) * 2015-05-25 2015-09-16 中国科学院自动化研究所 一种基于深度语义特征学习的短文本聚类方法
CN105631296A (zh) * 2015-12-30 2016-06-01 北京工业大学 一种基于cnn特征提取器的安全人脸认证系统设计方法
US20180101742A1 (en) * 2016-10-07 2018-04-12 Noblis, Inc. Face recognition and image search system using sparse feature vectors, compact binary vectors, and sub-linear search
CN108337551A (zh) * 2018-01-22 2018-07-27 深圳壹账通智能科技有限公司 一种屏幕录制方法、存储介质及终端设备
CN108664920A (zh) * 2018-05-10 2018-10-16 深圳市深网视界科技有限公司 一种实时的大规模级联人脸聚类方法和装置

Also Published As

Publication number Publication date
CN109711250B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
Kosinski et al. Mining big data to extract patterns and predict real-life outcomes.
Kim et al. Simultaneous discovery of common and discriminative topics via joint nonnegative matrix factorization
Šilić et al. Visualization of text streams: A survey
Tuma et al. Finite mixture models in market segmentation: A review and suggestions for best practices
Vijayaragavan et al. An optimal support vector machine based classification model for sentimental analysis of online product reviews
US20180018566A1 (en) Finding k extreme values in constant processing time
Montavon et al. Explaining the predictions of unsupervised learning models
CN113435202A (zh) 基于用户画像的产品推荐方法、装置、电子设备及介质
CN115688024A (zh) 基于用户内容特征和行为特征的网络异常用户预测方法
Barthel et al. Improved evaluation and generation of grid layouts using distance preservation quality and linear assignment sorting
Rathor et al. Application of machine learning for sentiment analysis of movies using imdb rating
Spichakova et al. Application of Machine Learning for Assessment of HS Code Correctness.
CN109711250A (zh) 特征向量二值化、相似度评价、检索方法、设备和介质
Lestari et al. Implementation of the C4. 5 algorithm for micro, small, and medium enterprises classification.
Hamad et al. Sentiment analysis of restaurant reviews in social media using naïve bayes
Pratama et al. Analysis of fuzzy C-Means algorithm on Indonesian translation of Hadits text
Hassani et al. DISCERN: diversity-based selection of centroids for k-estimation and rapid non-stochastic clustering
Vollset et al. Making use of external company data to improve the classification of bank transactions
Van Le et al. An efficient pretopological approach for document clustering
Siregar et al. Person’s multiple intelligence classification based on tweet post using SentiStrength and processed on the Apache Spark framework
Perwira et al. Effect of information gain on document classification using k-nearest neighbor
Nastiti et al. The Implementation of Restricted Boltzmann Machine in Choosing a Specialization for Informatics Students
Aher et al. Prediction of course selection by student using combination of data mining algorithms in E-learning
Harikumar et al. Subspace Clustering Using Matrix Factorization
Shchepina et al. Modeling the trajectories of interests and preferences of users in digital social systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant