CN110413647A - 一种高维向量不等长序列相似度快速计算系统 - Google Patents
一种高维向量不等长序列相似度快速计算系统 Download PDFInfo
- Publication number
- CN110413647A CN110413647A CN201910608151.8A CN201910608151A CN110413647A CN 110413647 A CN110413647 A CN 110413647A CN 201910608151 A CN201910608151 A CN 201910608151A CN 110413647 A CN110413647 A CN 110413647A
- Authority
- CN
- China
- Prior art keywords
- sequence
- module
- data
- similarity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种高维向量不等长序列相似度快速计算系统,包括数据库模块、高维向量序列数据集输入模块、查询向量序列输入模块、高维向量不等长序列相似度快速计算模块、计算结果输出模块。数据库模块用于存储数据,高维向量不等长序列相似度快速计算模块对原始数据进行处理生成摘要,基于全局索引和二分查找在保证计算精度的同时实现相似度的快速计算,通过计算结果输出模块生成报告。
Description
技术领域
本发明涉及计算机技术领域,为一种基于全局索引和二分查找的高维向量不等长序列相似度快速计算系统。
背景技术
随着互联网时代的到来,互联网信息数据正以极快的速度增长。随着大数据的发展,及人工智能的应用,也迫切的需要一种快速、准确对海量高维数据进行相似度计算的系统,因此高维向量不等长序列的相似度快速计算系统有着非常广泛的应用前景。传统的高维向量不等长序列的相似度计算系统主要利用神经网络算法,该算法的有点是计算精度高,但是缺点是实时性差。而传统的非神经网络算法,则存在计算精度低、计算复杂度高的问题,难以在数据量大,维度高的复杂业务场景中使用。
发明内容
有鉴于此,本发明提供一种解决或部分解决上述问题的一种高维向量不等长序列相似度快速计算系统。
为达到上述技术方案的效果,本发明的技术方案为:一种高维向量不等长序列相似度快速计算系统,其特征在于,包括数据库模块(A)、高维向量序列数据集输入模块(B)、查询向量序列输入模块(C)、高维向量不等长序列相似度快速计算模块(D)、计算结果输出模块(E);高维向量不等长序列相似度快速计算模块(D),包括数据处理模块(1)、自定义控制模块(2)、摘要生成模块 (3)、相似度快速计算模块(4);
数据库模块(A)接收高维向量序列数据集输入模块(B)传输的大量高维向量序列数据集,并转换为统一的数据格式存储至数据库模块(A),每一个高维向量序列数据集与数据库中的表名一一对应,表名是唯一值;数据库模块(A) 与高维向量不等长序列相似度快速计算模块(D)进行通信,高维向量不等长序列相似度快速计算模块(D)通过接口访问数据库模块(A)中的数据,并通过接口访问数据库模块(A)中的不同表中的数据并进行增、删、改、查操作;
高维向量序列数据集输入模块(B)为用户提供了高维数据快速导入的接口,用户根据高维向量序列数据集输入模块(B)要求的文件格式,将任意长度任意维度的高维向量序列数据集导入到高维向量序列数据集输入模块(B);导入数据集的时候,用户根据自己的需求,选择新建表名导入,即在数据库模块(A) 中创建一张新的表存储数据集,也可选择将数据集插入或部分插入数据库模块 (A)中;
查询向量序列输入模块(C)与高维向量不等长序列相似度快速计算模块(D) 进行通信,用户通过查询向量序列输入模块(C)输入其需要查询的高维向量不等长序列,查询到的高维向量不等长序列会被传输至高维向量不等长序列相似度快速计算模块(D)进行相似度计算;
高维向量不等长序列相似度快速计算模块(D),接收查询向量序列输入模块(C)输出的待查询数据,也可通过数据接口对数据库模块(A)进行数据的增、删、改、查操作,并将相似度快速计算的结果输出至计算结果输出模块(E);高维向量不等长序列相似度快速计算模块(D),包括数据处理模块(1)、自定义控制模块(2)、摘要生成模块(3)、相似度快速计算模块(4);
数据处理模块(1),定义与数据库模块(A)进行通信的数据接口,通过数据接口实现对数据库模块(A)的所有表中的所有数据的增、删、改、查操作;在进行相似度计算时,数据处理模块(1)将数据传输至摘要生成模块(3);
自定义控制模块(2)与摘要生成模块(3)进行通信,通过摘要生成模块 (3)修改向量映射的整数长度,默认长度是64位,在相似度计算精确度要求高的场景下,对长度进行调整,长度为128位或256位,长度会输出到摘要生成模块(3);
摘要生成模块(3)接收数据处理模块(1)输出的数据,对高维向量进行降维处理,具体过程为:对数据集中当前序列的所有向量分量E,找到每个向量在每个维度的中位数,由每个维度的中位数构成一个新的向量E(mean);对数据集中当前序列的所有向量分量E的每个维度进行二值化处理:当维度值小于向量E(mean)对应的维度值,则此维度值取0,否则取1;当自定义控制模块(2) 设置的长整数位数为64位时,将二值化的向量E的维度平均分配到64位长整数的64个位上,令M、N为整数,当维度N大于64位时,需要将多个维度对应到一个位上时,处理方法为:当需要将M个维度映射到一个位上时,则当[M/2] 个维度一下的值为1时,此位取0,否则取1;对于每个N维向量构成的不等长序列,将其映射为一个等长的长整数序列,每个长整数对应的权重W(k)与映射前的向量权重一样,维持不变;对长整数序列排序时,应同时调整权重排序,保证权重和长整数的映射关系不变;最后生成一个长整数序列和权重值数列,其中长整数序列已排序,对序列集的所有向量序列及待查询向量序列应预先计算一遍,生成对应的带权重长整数序列;
相似度快速计算模块(4),接收摘要生成模块(3)输出的摘要数据计算待查询序列摘要与数据集序列摘要的相似度,具体过程为:对待查询序列摘要中的每个长整数数值m,在数据集序列摘要中执行二分查找,直到找到距离最近的长整数n;对整数m和n执行异或计算,通过硬件指令计算统计值为1的位数;计算相似度值,相似度值为对待查询序列的每个整数分量的异或结果,并进行位1计数值加权累加后,除以总权重值,再除以总有效位数,得到一个介于0 (包括0)到1(包括1)间的数值,数值近似作为待查询序列与数据集序列的相似度值;计算结果输出模块(E)接收高维向量不等长序列相似度快速计算模块(D)输出的计算结果,用户通过计算结果输出模块(E)查看数据集序列及待查询序列的基本信息,相似度计算结果、相似度计算精度、与待查询序列相似度最近的前p个序列,其中p为自然数。
附图说明
图1是高维向量不等长序列相似度快速计算系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:下面将对一种高维向量不等长序列相似度快速计算系统的应用场景举例如下:
见图1,一种高维向量不等长序列相似度快速计算系统,方法包含以下步骤:
一种高维向量不等长序列相似度快速计算系统,其特征在于,包括数据库模块(A)、高维向量序列数据集输入模块(B)、查询向量序列输入模块(C)、高维向量不等长序列相似度快速计算模块(D)、计算结果输出模块(E);所述高维向量不等长序列相似度快速计算模块(D),包括数据处理模块(1)、摘要生成模块(3)、自定义控制模块(3)、相似度快速计算模块(4);
数据库模块(A)接收所述高维向量序列数据集输入模块(B)传输的大量高维数据集,并转换为统一的数据格式存储至所述数据库模块(A),每一个高维向量序列数据集与数据库中的表名一一对应,该表名是唯一值;所述数据库模块(A)也可以与高维向量不等长序列相似度快速计算模块(D)进行通信,所述高维向量不等长序列相似度快速计算模块(D)可以通过接口访问所述数据库模块(A)中的数据,并对可以通过接口访问所述数据库模块(A)中的不同表中的数据并进行增、删、改、查操作;
高维向量序列数据集输入模块(B)为用户提供了大量高维数据快速导入的接口,用户可以根据所述高维向量序列数据集输入模块(B)要求的文件格式,将任意长度任意维度的高维向量序列数据集合导入到所述高维向量序列数据集输入模块(B);导入数据集的时候,用户可以根据自己的需求,选择新建表名导入,即在所述数据库模块(A)中创建一张新的表存储该数据集,也可以选择将该数据集插入或部分插入所述数据库模块(A)中;
查询向量序列输入模块(C)与所述高维向量不等长序列相似度快速计算模块(D)进行通信,用户可以通过所述查询向量序列输入模块(C)输入其需要查询的高维向量不等长序列,该序列会被传输至所述高维向量不等长序列相似度快速计算模块(D)进行相似度计算;
高维向量不等长序列相似度快速计算模块(D),接收所述查询向量序列输入模块(C)输出的待查询数据,也可以通过数据接口对所述数据库模块(A) 进行数据的增、删、改、查操作,并将相似度快速计算的结果输出至所述计算结果输出模块(E);所述高维向量不等长序列相似度快速计算模块(D),包括数据处理模块(1)、自定义控制模块(2)、摘要生成模块(3)、相似度快速计算模块(4);
数据处理模块(1),定义了与所述数据库模块(A)进行通信的数据接口,通过该数据接口可以实现对所述数据库模块(A)的所有表中的所有数据的增、删、改、查操作;在进行相似度计算时,所述数据处理模块(1)将数据传输至所述摘要生成模块(3);
自定义控制模块(2)与所述摘要生成模块(3)进行通信,通过该模块可以修改向量映射的整数长度,默认长度是64位,在相似度计算精确度要求高的场景下,可以对该长度进行调整,如128位、256位等,该长度会输出到所述摘要生成模块(3);
摘要生成模块(3)接收所述数据处理模块(1)输出的数据,对高维向量进行降维处理,包括以下:
S1-1、对数据集中当前序列的所有向量分量E,找到每个向量在每个维度的中位数,由每个维度的中位数构成一个新的向量E(mean);
S1-2、对数据集中当前序列的所有向量分量E的每个维度进行二值化处理:当维度值小于向量E(mean)对应的维度值,则此维度值取0,否则取1;
S1-3、当所述自定义控制模块(2)设置的长整数位数为64位时,将二值化的向量E的维度平均分配到64位长整数的64个位上,当维度N大于64位时,需要将多个维度对应到一个位上,这时采用如下方法:假设需要将M个维度映射到一个位上时,则当[M/2]个维度一下的值为1时,此位取0,否则取1;
S1-4、由以上步骤,对于每个N维向量构成的不等长序列,我们将其映射为一个等长的长整数序列,每个长整数对应的权重W(k)与原向量权重一样,维持不变;
S1-5、对此长整数序列排序,排序时,应同时调整权重排序,保证权重和长整数的映射关系不变;
S1-6、最终,我们生成了一个长整数序列和权重值数列,其中长整数序列已排序,对序列集的所有向量序列及待查询向量序列应预先计算一遍,生成对应的带权重长整数序列;
相似度快速计算模块(4),接收所述所述摘要生成模块(3)输出的摘要数据计算待查询序列摘要与数据集序列摘要的相似度,如下:
S2-1、对待查询序列摘要中的每个长整数数值m,在数据集序列摘要中执行二分查找,直到找到距离最近的长整数n;
S2-2、对整数m和n执行异或计算,通过硬件指令计算统计值为1的位数;
S2-3、计算相似度值,该值为对待查询序列的每个整数分量的异或结果,进行位1计数值加权累加后,除以总权重值,再除以总有效位数,将得到一个介于0(包括)到1(包括)间的数值,此值可以近似作为待查询序列与数据集序列的相似度值。
计算结果输出模块(E)接收所述高维向量不等长序列相似度快速计算模块(D)输出的计算结果,用户可以通过该模块查看数据集序列及待查询序列的基本信息,相似度计算结果、相似度计算精度、与待查询序列相似度最近的前p 个序列;
本发明的有益成果为:本发明提供了一种高维向量不等长序列相似度快速计算系统,基于全局索引和二分查找,计算高维向量不等长序列的相似度,在保证算法精确度的前提下,降低了相似度的计算复杂度。
以上所述仅为本发明之较佳实施例,并非用以限定本发明的权利要求保护范围。同时以上说明,对于相关技术领域的技术人员应可以理解及实施,因此其他基于本发明所揭示内容所完成的等同改变,均应包含在本权利要求书的涵盖范围内。
Claims (1)
1.一种高维向量不等长序列相似度快速计算系统,其特征在于,包括数据库模块(A)、高维向量序列数据集输入模块(B)、查询向量序列输入模块(C)、高维向量不等长序列相似度快速计算模块(D)、计算结果输出模块(E);所述高维向量不等长序列相似度快速计算模块(D),包括数据处理模块(1)、自定义控制模块(2)、摘要生成模块(3)、相似度快速计算模块(4);
所述数据库模块(A)接收所述高维向量序列数据集输入模块(B)传输的大量高维向量序列数据集,并转换为统一的数据格式存储至所述数据库模块(A),每一个高维向量序列数据集与数据库中的表名一一对应,表名是唯一值;所述数据库模块(A)与高维向量不等长序列相似度快速计算模块(D)进行通信,所述高维向量不等长序列相似度快速计算模块(D)通过接口访问所述数据库模块(A)中的数据,并通过接口访问所述数据库模块(A)中的不同表中的数据并进行增、删、改、查操作;
所述高维向量序列数据集输入模块(B)为用户提供了高维数据快速导入的接口,用户根据所述高维向量序列数据集输入模块(B)要求的文件格式,将任意长度任意维度的高维向量序列数据集导入到所述高维向量序列数据集输入模块(B);导入数据集的时候,用户根据自己的需求,选择新建表名导入,即在所述数据库模块(A)中创建一张新的表存储数据集,也可选择将数据集插入或部分插入所述数据库模块(A)中;
所述查询向量序列输入模块(C)与所述高维向量不等长序列相似度快速计算模块(D)进行通信,用户通过所述查询向量序列输入模块(C)输入其需要查询的高维向量不等长序列,查询到的高维向量不等长序列会被传输至所述高维向量不等长序列相似度快速计算模块(D)进行相似度计算;
所述高维向量不等长序列相似度快速计算模块(D),接收所述查询向量序列输入模块(C)输出的待查询数据,也可通过数据接口对所述数据库模块(A)进行数据的增、删、改、查操作,并将相似度快速计算的结果输出至所述计算结果输出模块(E);所述高维向量不等长序列相似度快速计算模块(D),包括数据处理模块(1)、自定义控制模块(2)、摘要生成模块(3)、相似度快速计算模块(4);
所述数据处理模块(1),定义与所述数据库模块(A)进行通信的数据接口,通过数据接口实现对所述数据库模块(A)的所有表中的所有数据的增、删、改、查操作;在进行相似度计算时,所述数据处理模块(1)将数据传输至所述摘要生成模块(3);
所述自定义控制模块(2)与所述摘要生成模块(3)进行通信,通过所述摘要生成模块(3)修改向量映射的整数长度,默认长度是64位,在相似度计算精确度要求高的场景下,对长度进行调整,长度为128位或256位,长度会输出到所述摘要生成模块(3);
所述摘要生成模块(3)接收所述数据处理模块(1)输出的数据,对高维向量进行降维处理,具体过程为:对数据集中当前序列的所有向量分量E,找到每个向量在每个维度的中位数,由每个维度的中位数构成一个新的向量E(mean);对数据集中当前序列的所有向量分量E的每个维度进行二值化处理:当维度值小于向量E(mean)对应的维度值,则此维度值取0,否则取1;当所述自定义控制模块(2)设置的长整数位数为64位时,将二值化的向量E的维度平均分配到64位长整数的64个位上,令M、N为整数,当维度N大于64位时,需要将多个维度对应到一个位上时,处理方法为:当需要将M个维度映射到一个位上时,则当[M/2]个维度一下的值为1时,此位取0,否则取1;对于每个N维向量构成的不等长序列,将其映射为一个等长的长整数序列,每个长整数对应的权重W(k)与映射前的向量权重一样,维持不变;对长整数序列排序时,应同时调整权重排序,保证权重和长整数的映射关系不变;最后生成一个长整数序列和权重值数列,其中长整数序列已排序,对序列集的所有向量序列及待查询向量序列应预先计算一遍,生成对应的带权重长整数序列;
所述相似度快速计算模块(4),接收所述所述摘要生成模块(3)输出的摘要数据计算待查询序列摘要与数据集序列摘要的相似度,具体过程为:对待查询序列摘要中的每个长整数数值m,在数据集序列摘要中执行二分查找,直到找到距离最近的长整数n;对整数m和n执行异或计算,通过硬件指令计算统计值为1的位数;计算相似度值,相似度值为对待查询序列的每个整数分量的异或结果,并进行位1计数值加权累加后,除以总权重值,再除以总有效位数,得到一个介于0(包括0)到1(包括1)间的数值,数值近似作为待查询序列与数据集序列的相似度值;所述计算结果输出模块(E)接收所述高维向量不等长序列相似度快速计算模块(D)输出的计算结果,用户通过所述计算结果输出模块(E)查看数据集序列及待查询序列的基本信息,相似度计算结果、相似度计算精度、与待查询序列相似度最近的前p个序列,其中p为自然数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910608151.8A CN110413647B (zh) | 2019-07-08 | 2019-07-08 | 一种高维向量不等长序列相似度快速计算系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910608151.8A CN110413647B (zh) | 2019-07-08 | 2019-07-08 | 一种高维向量不等长序列相似度快速计算系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413647A true CN110413647A (zh) | 2019-11-05 |
CN110413647B CN110413647B (zh) | 2021-04-06 |
Family
ID=68360498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910608151.8A Active CN110413647B (zh) | 2019-07-08 | 2019-07-08 | 一种高维向量不等长序列相似度快速计算系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413647B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282688A (zh) * | 2022-03-02 | 2022-04-05 | 支付宝(杭州)信息技术有限公司 | 一种两方决策树训练方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521366A (zh) * | 2011-12-16 | 2012-06-27 | 华中科技大学 | 融合分类与全局索引的图像检索方法和图像检索系统 |
CN103942444A (zh) * | 2014-04-29 | 2014-07-23 | 衣晓 | 一种基于dtw的平权1-范数不等长序列相似度度量算法 |
CN103984844A (zh) * | 2014-03-19 | 2014-08-13 | 关欣 | 一种不等长序列相似度度量算法 |
US20140372457A1 (en) * | 2013-06-17 | 2014-12-18 | Tencent Technology Shenzhen Company Limited | Method and device for processing data |
-
2019
- 2019-07-08 CN CN201910608151.8A patent/CN110413647B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521366A (zh) * | 2011-12-16 | 2012-06-27 | 华中科技大学 | 融合分类与全局索引的图像检索方法和图像检索系统 |
US20140372457A1 (en) * | 2013-06-17 | 2014-12-18 | Tencent Technology Shenzhen Company Limited | Method and device for processing data |
CN103984844A (zh) * | 2014-03-19 | 2014-08-13 | 关欣 | 一种不等长序列相似度度量算法 |
CN103942444A (zh) * | 2014-04-29 | 2014-07-23 | 衣晓 | 一种基于dtw的平权1-范数不等长序列相似度度量算法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114282688A (zh) * | 2022-03-02 | 2022-04-05 | 支付宝(杭州)信息技术有限公司 | 一种两方决策树训练方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110413647B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Daubechies et al. | Sets of matrices all infinite products of which converge | |
CN104408179B (zh) | 数据表中数据处理方法和装置 | |
Sengupta et al. | Organizing large structural modelbases | |
Dobkin et al. | On the complexity of computations under varying sets of primitives | |
CN106997386A (zh) | 一种olap预计算模型、自动建模方法及自动建模系统 | |
CN109934331A (zh) | 用于执行人工神经网络正向运算的装置和方法 | |
CN107766745A (zh) | 层次数据发布中的分级隐私保护方法 | |
CN110210612A (zh) | 一种基于自适应分段线性逼近曲线的集成电路加速方法及系统 | |
CN110413647A (zh) | 一种高维向量不等长序列相似度快速计算系统 | |
van Kekem et al. | Symmetries in the Lorenz-96 model | |
Fu et al. | A discrete multi-objective rider optimization algorithm for hybrid flowshop scheduling problem considering makespan, noise and dust pollution | |
Wang et al. | 3drte: 3d rotation embedding in temporal knowledge graph | |
Rogers | Certain logical reduction and decision problems | |
CN104731889B (zh) | 一种估算查询结果大小的方法 | |
Yuri | Invariant measures for certain multi-dimensional maps | |
Wang et al. | Association rules mining in parallel conditional tree based on grid computing inspired partition algorithm | |
Li et al. | A novel differential evolution algorithm integrating opposition-based learning and adjacent two generations hybrid competition for parameter selection of SVM | |
CN109522750A (zh) | 一种新的k匿名实现方法及系统 | |
CN113987144A (zh) | 一种空间文本的查询方法及装置 | |
Vatsalan et al. | An Overview of Big Data Issues in Privacy-Preserving Record Linkage | |
CN110348732A (zh) | 基于哈希算法的企业画像数据预处理方法和系统 | |
Ni et al. | Research on a Novel Improved KMP Fuzzy Query Algorithm | |
Gold et al. | An Algorithm for Persistent Homology Computation Using Homomorphic Encryption | |
CN116737763B (zh) | 结构化查询语句执行方法、装置、计算机设备、存储介质 | |
Cucker et al. | NC algorithms for real algebraic numbers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |