CN113065036B - 一种度量空间支撑点性能衡量方法、装置及相关组件 - Google Patents

一种度量空间支撑点性能衡量方法、装置及相关组件 Download PDF

Info

Publication number
CN113065036B
CN113065036B CN202110400701.4A CN202110400701A CN113065036B CN 113065036 B CN113065036 B CN 113065036B CN 202110400701 A CN202110400701 A CN 202110400701A CN 113065036 B CN113065036 B CN 113065036B
Authority
CN
China
Prior art keywords
points
point
support
data
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110400701.4A
Other languages
English (en)
Other versions
CN113065036A (zh
Inventor
毛睿
陈汝斌
陆敏华
王毅
刘刚
陆克中
陈倩婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN202110400701.4A priority Critical patent/CN113065036B/zh
Priority to PCT/CN2021/102679 priority patent/WO2022217748A1/zh
Publication of CN113065036A publication Critical patent/CN113065036A/zh
Application granted granted Critical
Publication of CN113065036B publication Critical patent/CN113065036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种度量空间支撑点性能衡量方法、装置及相关组件,该方法包括:获取实验数据集,将实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在数据点中分别选取k个支撑点;针对每一支撑点选择方法选取的k个支撑点,将待查询的数据点作为查询点;基于三角不等式原则,利用预先设置的查询半径将数据点划分可排除数据点和不可排除数据点;利用位运算方法确定所述k个支撑点的距离计算次数;将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。本发明可以快速实现在多个不同的支撑点选择方法中确定性能最佳的支撑点选择方法。

Description

一种度量空间支撑点性能衡量方法、装置及相关组件
技术领域
本发明涉及计算机软件技术领域,特别涉及一种度量空间支撑点性能衡量方法、装置及相关组件。
背景技术
度量空间索引是一种适用性非常广的解决相似性搜索的通用方法。其把复杂的数据对象抽象成度量空间中的点,利用用户定义的距离函数的三角不等性来去除无关数据并减少直接距离计算的次数,以实现高速搜索。度量空间数据管理的高度通用性同时也是其弱点,例如坐标系统的缺失导致很多基于坐标系统的数学工具无法直接应用。为了对数据重建坐标,通常选择一些参考点作为支撑点,以数据到支撑点的距离作为坐标。因此支撑点选择作为度量空间数据管理的先导步骤,决定了后续步骤可以利用的信息量,这对于数据管理的性能具有决定性的影响。
现有的度量空间选择支撑点方法有很多,例如LAESA方法采用了最大分布(Maximally Separated)目标函数,使得支撑点之间距离的和最大;Traina等人提出了选取数据边缘的点作为支撑点的HF(Hull ofFoci)方法,其目标函数与最大分布很相似;KVP方法采用优先支撑点目标函数,选择离数据很近或者很远的点;Bustos等人认为好的支撑点应该使支撑点空间中点对之间距离的平均值最大,方差最小,因此采用抽样的方法选择使支撑点空间中点对之间距离的平均值最大的支撑点,他们认为好的支撑点应该是数据的周边点,而反之则未必;M-tree方法(一种搜索方法)采取随机选择的方法,而SA-tree方法(一种搜索方法)先随机选取一个点,然后选取Voronoi(泰森多边形)图上相邻单元的中心作为支撑点;Farthest-first-traversal(FFT)是一种常用于支撑点选择的k-center聚类方法,它是一种快捷方便地找出数据中的周边点的方法,FFT的目标是使聚类得到的分类的最大半径最小;Veltkamp等人认为好的支撑点应该是数据尽量分散,而parse spatialselection(SSS)方法则认为应该使支撑点互相之间尽量远离。Venkateswaran等人还提出了最大排除(Maximumpruning)方法,在搜索对象和搜索半径已知的情况下,以能排除的数据量最大作为目标函数。
由此可见,现有的支撑点选择方法之间没有一套统一的模型可以客观地对不同的选择支撑点方法选取的支撑点的优劣性进行评价,而且采用的实验数据各异,一般的支撑点性能比较实验无法客观地反映不同的选点方法的差异。同时由于不同方法采用不同的实验环境,因此在对比不同的方法时,会产生较大的对比成本。另外,每一种支撑点选择方法都需要编写专门的创建索引和范围搜索的代码,利用不同的方法评价,因而很难统一比较。
发明内容
本发明实施例提供了一种度量空间支撑点性能衡量方法、装置及相关组件,旨在快速实现对不同的支撑点选择方法的性能进行比较,以在多个不同的支撑点选择方法中确定性能最佳的支撑点选择方法。
第一方面,本发明实施例提供了一种度量空间支撑点性能衡量方法,包括:
获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;
针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;
基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;
结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述k个支撑点的距离计算次数;
将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。
第二方面,本发明实施例提供了一种度量空间支撑点性能衡量装置,包括:
支撑点选取单元,用于获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;
查询点确定单元,用于针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;
数据点划分单元,用于,基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;
距离计算次数确定单元,用于结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述k个支撑点的距离计算次数;
性能差异确定单元,用于将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的度量空间支撑点性能衡量方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权第一方面所述的度量空间支撑点性能衡量方法。
本发明实施例提供了一种度量空间支撑点性能衡量方法、装置及相关组件,该方法包括:获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述k个支撑点的距离计算次数;将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。本发明实施例通过对不同的支撑点选择方法所选取的支撑点距离计算次数进行比较,以确定各支撑点选择方法之间的性能差异,从而快速实现在多个不同的支撑点选择方法中确定性能最佳的支撑点选择方法。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种度量空间支撑点性能衡量方法的流程示意图;
图2为本发明实施例提供的一种度量空间支撑点性能衡量方法的子流程示意图;
图3为本发明实施例提供的一种度量空间支撑点性能衡量方法中的示例示意图;
图4为本发明实施例提供的一种度量空间支撑点性能衡量方法中的另一示例示意图;
图5为本发明实施例提供的一种度量空间支撑点性能衡量装置的示意性框图;
图6为本发明实施例提供的一种度量空间支撑点性能衡量装置的子示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
下面请参见图1,图1为本发明实施例提供的一种度量空间支撑点性能衡量方法的流程示意图,具体包括:步骤S101~S105。
S101、获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;
S102、针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;
S103、基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;
S104、结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述k个支撑点的距离计算次数;
S105、将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。
本实施例中,首先选择一实验数据集,该实验数据集可以是随机均匀向量、DNA、蛋白质、二维地图边界数据等等,所述实验数据集的数据维度可以是1~5维,且数据格式统一。
将实验数据集中的数据抽象转化为度量空间中数据点,并利用不同的支撑点选择方法从中各自选取k个支撑点。在进行相似性查询时,将查询对象作为查询点,并根据三角不等式原则,利用预先设置的查询半径对n个数据点进行划分判定。再结合划分的数据点,通过位运算的方式确定k个支撑点一共所需的距离计算次数。通过上述过程最终可以确定不同的支撑点选择方法各自对应的支撑点的距离计算次数,从而根据各个距离计算次数之间的差异确定各个支撑点选择方法之间的性能差异。
本实施例采用同样的实验环境、数据集对不同的支撑点选择方法进行统一衡量,以确定各支撑点选择方法之间的性能差异,减少了除支撑点选择方法不同外对索引性能的影响,提高了对于不同支撑点选择方法衡量的公平性,可以有效降低度量空间相似性索引的时间成本和实现成本。
另外,还需说明的是,各支撑点选择方法在度量空间中选择的支撑点数量不能太多,因为如果数量过多则会导致在大数据范围中增加计算的负担,而且冗余信息增多。当然,选择的支撑点数量不能太少,太少则会导致可利用的信息较少,进而导致相似性查询结果可能无法达到期望。
在一具体实施例中,根据查询点的查询结果数量对所述查询半径进行设置。具体的,首先根据查询点的期望的查询结果数量(对实验数据集进行相似度查询时的返回结果数量)设置查询半径,利用查询半径确定可返回的查询结果数量,然后根据查询结果数量对所述查询半径进行相应调整,直至返回的查询结果满足期望的查询结果数量,并将此时的查询半径作为查询点最终的查询半径。
度量空间是一种覆盖范围很广的数据类型的抽象,度量空间可以定义为一个二元组(S,d),其中S是有限非空的数据集合,而d是定义在S上的具有如下性质的距离函数:
(1)非负性:对于任意x,y S,d(x,y)≥0,并且d(x,y)=0x=y。
(2)对称性:对于任意x,yS,d(x,y)=d(y,x)。
(3)三角不等性:对于任意x、y,、zS,d(x,y)+d(y,z)≥d(x,z)。
度量空间(M,d),S={si|si∈M,i=1,2,...,m},S中选择的n个支撑点P={p1,p2,...,pn},对于
Figure BDA0003020163860000061
以其到支撑点的距离d(s,pi)作为坐标,可以定义一个从M到n维空间的映射,并用sp表示s在n维空间中的像,则有:
FP,d:M->Rn:sP≡FP,d(s)=(f1(s),f2(s),...,fn(s))=(d(s,p1),d(s,p2),...,d(s,pn))∈FP,d(M)。
那么,支撑点空间FP,d(S)就是S在Rn的像:
FP,d(s)={sP|sP=d(s,p1),d(s,p2),...,d(s,pn)),s∈S}。
假设度量空间中三个数据点s1、s2、s3,其中d(s2,s1)=12,d(s2,s3)=23,d(s1,s3)=13,当选用s1、s3两个数据点作为支撑点时,得到的支撑点空间维度即为2,同时,s1、s2、s3在支撑点空间中的像分别为s1P=(d(s1,s1),d(s1,s3))=(0,13)、s2P=(d(s2,s1),d(s2,s3))=(12,23)、s3P=(d(s3,s1),d(s3,s3))=(13,0)。
在一实施例中,所述步骤S103包括:
针对每一支撑点,构建所述查询点、支撑点和每一数据点之间的三角结构;
基于三角不等式原则,利用预先设置的查询半径将可与所述查询点、支撑点构建三角结构的数据点判定为可排除数据点并标记为0,以及将无法与所述查询点、支撑点构建三角结构的数据点判定为不可排除数据点并标记为1。
本实施例中,结合图3,图3中,Q为所述查询点,P为所述支撑点,A为任一数据点,d(Q,A)表示查询点Q与数据点A之间的距离,那么可知查询点Q和支撑点P之间的距离(即所述查询半径)d(Q,P)=7以及支撑点P和数据点A之间的距离d(P,A)=17。而所述三角不等式原则即是指三角形的两边之和大于第三边,两边之差小于第三边,继而可以确定查询点Q与数据点A之间的距离的范围为10<d(Q,A)<34,同时,所述查询半径为7,那么查询点Q与数据点A之间的距离一定是大于7的,也就是说,该数据点A不在本次查询范围内,因而可以将该数据点A排除。由此可知,凡是可以与查询点、支撑点构成三角结构的数据点,则查询点与该数据点之间的距离一定是大于查询半径的,因此可以将该数据点判定为可排除数据点。
对于无法与所述查询点、支撑点构成三角结构的数据点,并不一定可以确定该数据点处于查询半径的范围内,即所述查询点与该数据点之间的距离可能小于查询半径,也可能大于查询半径。即两边之和小于或者等于第三边以及两边之差大于或者等于第三边的情况下,数据点皆是无法与所述查询点、支撑点构成三角结构,故将这两种情况对应的数据点判定为不可排除数据点。
进一步的,结合图4,图4中,Q为所述查询点,P为所述支撑点,A为任一数据点,r为查询半径。当d(P,A)(即支撑点P和数据点A之间的距离)与d(Q,P)(即查询点Q和支撑点P之间的距离)的距离之差大于查询半径r且d(P,A)与d(Q,P)的距离之差小于d(Q,A)(即查询点Q与数据点A之间的距离)时,则可以确定d(Q,A)大于查询半径r,继而可以确定数据点A不在本次查询范围内,故可以将数据点判定为可排除数据点。当d(P,A)与d(Q,P)的距离之和小于查询半径r且d(P,A)与d(Q,P)的距离之和大于d(Q,A)时,则可以确定d(Q,A)小于查询半径r,继而可以确定数据点A在本次查询范围内,故可以将数据点判定为不可排除数据点。
另外,本实施例利用计算机存储信息的模式将数据点标记为0或1,可以加快计算进程,否则如果存储数据点的实际值,那么需要存储的空间不仅很大而且还需要“翻译”成计算机的0和1,如此便会占用过多资源以及降低效率。
在一实施例中,所述步骤S104包括:
针对每一支撑点,基于所述查询点和支撑点构建包含n个数据点的位数组,且所述位数组包含标记为0的可排除数据点和标记为1的不可排除数据点;
针对每一支撑点选择方法,将各支撑点对应的位数组进行与位运算,得到包含多个0和1的最终与位运算结果,然后将最终与位运算结果中的1的个数作为所述支撑点选择方法中的支撑点的距离计算次数。
本实施例中,对每一支撑点分别构建一个位数组,且该位数组包含n个标记为0或1的数据点,而对于查询点来说,每一支撑点选择方法均选取了k个支撑点,因此每一支撑点选择方法可以构建得到k个位数组。针对每一支撑点选择方法,将构建的k位数组进行与位运算,然后根据运算结果确定每一支撑点选择方法的支撑点的距离计算次数。
举例来说,针对某一支撑点选择方法,选取3个支撑点P1、P2、P3,3个支撑点构建的位数组分别为{001100111}、{111110110}、{011100111},那么3个支撑点进行与位运算后的结果为:001100110,其中包含4个1,因此可以确定该支撑点选择方法的支撑点的距离计算次数为4。
在一实施例中,所述度量空间支撑点衡量方法还包括:
基于所述k个支撑点的距离计算次数确定对应的支撑点选择方法的性能。
本实施例中,由于每台计算机的硬件环境不一样,所使用的计算机语言也不相同,因此唯有距离计算次数在不同的计算机中得到的结果是一样的,故本实施例可以依据各个支撑点选择方法所选取的k个支撑点的距离计算次数对各个支撑点选择方法进行衡量评价,使衡量评价得到的结果不会受到环境因素(例如计算机的硬件环境等)的干扰。
并且,本实施例通过对不同的支撑点选择方法进行衡量比较后,还可以得到实验数据集的最小距离计算次数的性能上限,即将各支撑点选择方法选取的k个支撑点的距离计算次数中的最小值作为试验数据集的最小距离计算次数的性能上限。
在一具体实施例中,所述基于所述k个支撑点的距离计算次数确定对应的支撑点选择方法的性能,包括:
将所述k个支撑点的距离计算次数小于或者等于预设次数阈值的支撑点选择方法的性能判定为强;
将所述k个支撑点的距离计算次数大于预设次数阈值的支撑点选择方法的性能判定为弱。
本实施例中,首先设置一预设次数阈值,该预设次数阈值可以基于过往n次利用不同支撑点选择方法实现度量空间索引的结果得到,然后将不同的支撑点选择方法选取的k个支撑点的距离计算次数与预设次数阈值进行比较。具体的,如果支撑点选择方法选取的k个支撑点的距离计算次数小于或者等于预设次数阈值,则可以将该支撑点选择方法的性能判定为强,同理,如果支撑点选择方法选取的k个支撑点的距离计算次数大于预设次数阈值,则可以将该支撑点选择方法的性能判定为强。
当然,更进一步的,可以设置多个预设次数阈值,并使不同的预设次数阈值对应不同的支撑点选择方法的性能等级。例如设置3个预设次数阈值,分别为10、20、30,并使3个预设次数阈值分别对应的性能等级依次为:强、较强、较弱、弱,即距离计算次数小于10对应性能等级为强、距离计算次数大于10小于20对应性能等级为较强、距离计算次数大于20小于30对应性能等级为较弱、距离计算次数小于10对应性能等级为强距离计算次数大于30对应性能等级为弱。如果一支撑点选择方法所选取的k个支撑点的距离计算次数为9(小于10),则可以将该支撑点选择方法的性能判定为强;如果一支撑点选择方法所选取的k个支撑点的距离计算次数为16(大于10且小于20),则可以将该支撑点选择方法的性能判定为较强;如果一支撑点选择方法所选取的k个支撑点的距离计算次数为24(大于20且小于20),则可以将该支撑点选择方法的性能判定为较弱;如果一支撑点选择方法所选取的k个支撑点的距离计算次数为32(大于40),则可以将该支撑点选择方法的性能判定为弱。
在一实施例中,所述步骤S105包括:
若当前支撑点选择方法对应的k个支撑点的距离计算次数小于其他支撑点选择方法对应的k个支撑点的距离计算次数,则判定当前支撑点选择方法的性能优于其他支撑点选择方法;
若当前支撑点选择方法对应的k个支撑点的距离计算次数大于其他支撑点选择方法对应的k个支撑点的距离计算次数,则判定当前支撑点选择方法的性能差于其他支撑点选择方法。
本实施例中,利用k个支撑点的距离计算次数对各支撑点选择方法之间的性能差异进行判定。具体的,如果当前的支撑点选择方法对应的k个支撑点的距离计算次数小于其他支撑点选择方法对应的k个支撑点的距离计算次数,则说明当前的支撑点选择方法可以通过更少次数的距离计算实现在度量空间中的高速搜索,因而可以判定当前支撑点选择方法的性能要优于其他支撑点选择方法。
同样的,如果当前的支撑点选择方法对应的k个支撑点的距离计算次数大于其他支撑点选择方法对应的k个支撑点的距离计算次数,则说明当前的支撑点选择方法需要通过更多次数的距离计算来实现在度量空间中的高速搜索,因而可以判定当前支撑点选择方法的性能要差于其他支撑点选择方法。
而如果当前支撑点选择方法对应的k个支撑点的距离计算次数与某一支撑点选择方法对应的k个支撑点的距离计算次数相等,则说明二者之间的性能差异较小甚至是无差异。
在一实施例中,如图2所示,所述度量空间支撑点衡量方法还包括:步骤S201~S203。
S201、将每一支撑点选择方法分别作为一个子任务;
S202、设置数量与子任务数量相同的多个线程,且每一子任务与所述多个线程一一对应,并使多个线程对多个子任务同时进行运行计算;
S203、对多个线程运行计算结果进行汇总。
本实施例中,采用多线程并行计算的方法将计算任务(即针对支撑点选择方法选取的k个支撑点的距离计算)分成多个子任务,使各线程并发运行,更进一步的减少支撑点距离计算的时间,从而快速得到各支撑点选择方法之间的性能差异结果。
图5为本发明实施例提供的一种度量空间支撑点性能衡量装置500的示意性框图,该装置500包括:
支撑点选取单元501,用于获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;
查询点确定单元502,用于针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;
数据点划分单元503,用于基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;
距离计算次数确定单元504,用于结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述k个支撑点的距离计算次数;
性能差异确定单元505,用于将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。
在一实施例中,所述数据点划分单元503包括:
三角结构构件单元,用于针对每一支撑点,构建所述查询点、支撑点和每一数据点之间的三角结构;
数据点判定单元,用于基于三角不等式原则,利用预先设置的查询半径将可与所述查询点、支撑点构建三角结构的数据点判定为可排除数据点并标记为0,以及将无法与所述查询点、支撑点构建三角结构的数据点判定为不可排除数据点并标记为1。
在一实施例中,所述距离计算次数确定单元504包括:
位数组构件单元,用于针对每一支撑点,基于所述查询点和支撑点构建包含n个数据点的位数组,且所述位数组包含标记为0的可排除数据点和标记为1的不可排除数据点;
位运算单元,用于针对每一支撑点选择方法,将各支撑点对应的位数组进行与位运算,得到包含多个0和1的最终与位运算结果,然后将最终与位运算结果中的1的个数作为所述支撑点选择方法中的支撑点的距离计算次数。
在一实施例中,所述度量空间支撑点衡量装置500还包括:
性能确定单元,用于基于所述k个支撑点的距离计算次数确定对应的支撑点选择方法的性能。
在一实施例中,所述性能确定单元包括:
第一性能判定单元,用于将所述k个支撑点的距离计算次数小于或者等于预设次数阈值的支撑点选择方法的性能判定为强;
第二性能判定单元,用于将所述k个支撑点的距离计算次数大于预设次数阈值的支撑点选择方法的性能判定为弱。
在一实施例中,所述性能差异确定单元505包括:
第三性能判定单元,用于第一若当前支撑点选择方法对应的k个支撑点的距离计算次数小于其他支撑点选择方法对应的k个支撑点的距离计算次数,则判定当前支撑点选择方法的性能优于其他支撑点选择方法;
第四性能判定单元,用于若当前支撑点选择方法对应的k个支撑点的距离计算次数大于其他支撑点选择方法对应的k个支撑点的距离计算次数,则判定当前支撑点选择方法的性能差于其他支撑点选择方法。
在一实施例中,如图6所示,所述度量空间支撑点衡量装置500还包括:
子任务设置单元601,用于将每一支撑点选择方法分别作为一个子任务;
线程设置单元602,用于设置数量与子任务数量相同的多个线程,且每一子任务与所述多个线程一一对应,并使多个线程对多个子任务同时进行运行计算;
汇总单元603,用于对多个线程运行计算结果进行汇总。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供了一种计算机设备,可以包括存储器和处理器,存储器中存有计算机程序,处理器调用存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然计算机设备还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (7)

1.一种度量空间支撑点性能衡量方法,其特征在于,包括:
获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;
针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;
根据查询点的期望的查询结果数量设置查询半径,利用查询半径确定可返回的查询结果数量,然后根据查询结果数量对所述查询半径进行相应调整,直至返回的查询结果满足期望的查询结果数量,并将此时的查询半径作为查询点最终的查询半径;
基于三角不等式,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;
所述基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点,包括:
针对每一支撑点,构建所述查询点、支撑点和每一数据点之间的三角结构;
基于三角不等式原则,利用预先设置的查询半径将可与所述查询点、支撑点构建三角结构的数据点判定为可排除数据点并标记为0,以及将无法与所述查询点、支撑点构建三角结构的数据点判定为不可排除数据点并标记为1;
结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述k个支撑点的距离计算次数;
所述结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述支撑点的距离计算次数,包括:
针对每一支撑点,基于所述查询点和支撑点构建包含n个数据点的位数组,且所述位数组包含标记为0的可排除数据点和标记为1的不可排除数据点;
针对每一支撑点选择方法,将各支撑点对应的位数组进行与位运算,得到包含多个0和1的最终与位运算结果,然后将最终与位运算结果中的1的个数作为所述支撑点选择方法中的支撑点的距离计算次数;
将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。
2.根据权利要求1所述的度量空间支撑点性能衡量方法,其特征在于,所述将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异,包括:
将所述k个支撑点的距离计算次数小于或者等于预设次数阈值的支撑点选择方法的性能判定为强;
将所述k个支撑点的距离计算次数大于预设次数阈值的支撑点选择方法的性能判定为弱。
3.根据权利要求1所述的度量空间支撑点性能衡量方法,其特征在于,所述将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异,包括:
若当前支撑点选择方法对应的k个支撑点的距离计算次数小于其他支撑点选择方法对应的k个支撑点的距离计算次数,则判定当前支撑点选择方法的性能优于其他支撑点选择方法;
若当前支撑点选择方法对应的k个支撑点的距离计算次数大于其他支撑点选择方法对应的k个支撑点的距离计算次数,则判定当前支撑点选择方法的性能差于其他支撑点选择方法。
4.根据权利要求1所述的度量空间支撑点性能衡量方法,其特征在于,还包括:
将每一支撑点选择方法分别作为一个子任务;
设置数量与子任务数量相同的多个线程,且每一子任务与所述多个线程一一对应,并使多个线程对多个子任务同时进行运行计算;
对多个线程运行计算结果进行汇总。
5.一种度量空间支撑点性能衡量装置,其特征在于,包括:
支撑点选取单元,用于获取实验数据集,将所述实验数据集中的数据抽象为度量空间中的n个数据点,然后利用不同的支撑点选择方法在所述数据点中分别选取k个支撑点;
查询点确定单元,用于针对每一支撑点选择方法选取的k个支撑点,当对所述n个数据点进行相似性查询时,将待查询的数据点作为查询点;
根据查询点的期望的查询结果数量设置查询半径,利用查询半径确定可返回的查询结果数量,然后根据查询结果数量对所述查询半径进行相应调整,直至返回的查询结果满足期望的查询结果数量,并将此时的查询半径作为查询点最终的查询半径;
数据点划分单元,用于基于三角不等式原则,利用预先设置的查询半径将所述数据点划分可排除数据点和不可排除数据点;
所述数据点划分单元包括:
三角结构构件单元,用于针对每一支撑点,构建所述查询点、支撑点和每一数据点之间的三角结构;
数据点判定单元,用于基于三角不等式原则,利用预先设置的查询半径将可与所述查询点、支撑点构建三角结构的数据点判定为可排除数据点并标记为0,以及将无法与所述查询点、支撑点构建三角结构的数据点判定为不可排除数据点并标记为1;
距离计算次数确定单元,用于结合所述可排除数据点和不可排除数据点,利用位运算方法确定所述k个支撑点的距离计算次数;
所述距离计算次数确定单元包括:
位数组构件单元,用于针对每一支撑点,基于所述查询点和支撑点构建包含n个数据点的位数组,且所述位数组包含标记为0的可排除数据点和标记为1的不可排除数据点;
位运算单元,用于针对每一支撑点选择方法,将各支撑点对应的位数组进行与位运算,得到包含多个0和1的最终与位运算结果,然后将最终与位运算结果中的1的个数作为所述支撑点选择方法中的支撑点的距离计算次数;
性能差异确定单元,用于将不同的支撑点选择方法对应的k个支撑点的距离计算次数进行比较,确定各支撑点选择方法的性能差异。
6.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的度量空间支撑点性能衡量方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的度量空间支撑点性能衡量方法。
CN202110400701.4A 2021-04-14 2021-04-14 一种度量空间支撑点性能衡量方法、装置及相关组件 Active CN113065036B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110400701.4A CN113065036B (zh) 2021-04-14 2021-04-14 一种度量空间支撑点性能衡量方法、装置及相关组件
PCT/CN2021/102679 WO2022217748A1 (zh) 2021-04-14 2021-06-28 一种度量空间支撑点性能衡量方法、装置及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110400701.4A CN113065036B (zh) 2021-04-14 2021-04-14 一种度量空间支撑点性能衡量方法、装置及相关组件

Publications (2)

Publication Number Publication Date
CN113065036A CN113065036A (zh) 2021-07-02
CN113065036B true CN113065036B (zh) 2021-11-16

Family

ID=76566883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110400701.4A Active CN113065036B (zh) 2021-04-14 2021-04-14 一种度量空间支撑点性能衡量方法、装置及相关组件

Country Status (2)

Country Link
CN (1) CN113065036B (zh)
WO (1) WO2022217748A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590889B (zh) * 2021-07-30 2023-12-22 深圳大学 度量空间索引树构建方法、装置、计算机设备及存储介质
CN115545122B (zh) * 2022-11-28 2023-04-07 中国银联股份有限公司 对象匹配方法、装置、设备、系统、介质及程序产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281652A (zh) * 2014-09-16 2015-01-14 深圳大学 度量空间中逐个支撑点数据划分方法
CN106503245A (zh) * 2016-11-08 2017-03-15 深圳大学 一种支撑点集合的选择方法及装置
CN107480258A (zh) * 2017-08-15 2017-12-15 佛山科学技术学院 一种基于多种支撑点的度量空间离群检测方法
CN108804383A (zh) * 2018-05-30 2018-11-13 深圳大学 基于度量空间的支撑点并行枚举方法及装置
CN109508349A (zh) * 2018-10-29 2019-03-22 广东奥博信息产业股份有限公司 一种度量空间离群检测方法及装置
CN110070100A (zh) * 2019-03-01 2019-07-30 广东奥博信息产业股份有限公司 一种多因子集成的农业气象离群检测方法及装置
CN111831660A (zh) * 2020-07-16 2020-10-27 深圳大学 度量空间划分方式评价方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055674B (zh) * 2016-06-03 2019-05-31 东南大学 一种分布式环境下基于度量空间的top-k支配查询方法
CN106528790B (zh) * 2016-11-08 2019-08-16 深圳大学 度量空间中支撑点的选取方法及装置
CN108304585B (zh) * 2018-03-06 2022-05-17 苏州大学 一种基于空间关键字搜索的结果数据选取方法及相关装置
WO2020102175A1 (en) * 2018-11-12 2020-05-22 F. Hoffman-La Roche Ag Medical treatment metric modelling based on machine learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281652A (zh) * 2014-09-16 2015-01-14 深圳大学 度量空间中逐个支撑点数据划分方法
CN106503245A (zh) * 2016-11-08 2017-03-15 深圳大学 一种支撑点集合的选择方法及装置
CN107480258A (zh) * 2017-08-15 2017-12-15 佛山科学技术学院 一种基于多种支撑点的度量空间离群检测方法
CN108804383A (zh) * 2018-05-30 2018-11-13 深圳大学 基于度量空间的支撑点并行枚举方法及装置
CN109508349A (zh) * 2018-10-29 2019-03-22 广东奥博信息产业股份有限公司 一种度量空间离群检测方法及装置
CN110070100A (zh) * 2019-03-01 2019-07-30 广东奥博信息产业股份有限公司 一种多因子集成的农业气象离群检测方法及装置
CN111831660A (zh) * 2020-07-16 2020-10-27 深圳大学 度量空间划分方式评价方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
度量空间索引支撑点选择问题研究;李兴亮;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180115(第1期);第一、四章 *

Also Published As

Publication number Publication date
WO2022217748A1 (zh) 2022-10-20
CN113065036A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
Harwood et al. Fanng: Fast approximate nearest neighbour graphs
US9454580B2 (en) Recommendation system with metric transformation
CN113065036B (zh) 一种度量空间支撑点性能衡量方法、装置及相关组件
CN111831660B (zh) 度量空间划分方式评价方法、装置、计算机设备及存储介质
Shah et al. An empirical evaluation of density-based clustering techniques
Connor et al. Supermetric search
CN104572785B (zh) 一种分布式创建索引的方法和装置
CN111026922A (zh) 一种分布式向量索引方法、系统、插件及电子设备
KR20110115281A (ko) 고차원 데이터의 유사도 검색을 위한 데이터 분할방법
JP6705764B2 (ja) 生成装置、生成方法、及び生成プログラム
Sinha LSH vs randomized partition trees: Which one to use for nearest neighbor search?
CN113282337B (zh) 度量空间最优完全划分索引寻找方法、装置及相关组件
CN116304227A (zh) 一种零件加工工艺复用方法、系统及电子设备
CN116610840A (zh) 一种相似数据搜索方法、系统及电子设备
Breuel A comparison of search strategies for geometric branch and bound algorithms
Di Angelo et al. An efficient algorithm for the nearest neighbourhood search for point clouds
CN114863195A (zh) 一种点云数据的处理方法、系统、存储介质和电子设备
CN110309139B (zh) 高维近邻对搜索方法和系统
Liu et al. A novel local density hierarchical clustering algorithm based on reverse nearest neighbors
Novak et al. Performance study of independent anchor spaces for similarity searching
Liu et al. An efficient algorithm for reverse furthest neighbors query with metric index
Kryszkiewicz et al. A neighborhood-based clustering by means of the triangle inequality
Sinha Fast£ 1-norm Nearest Neighbor Search Using A Simple Variant of Randomized Partition Tree
Shaw et al. Efficient approximation of spatial network queries using the m-tree with road network embedding
Lu et al. Spherical region queries on multicore architectures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant