CN111046092A - 一种基于cpu-gpu异构体系结构的并行相似性连接方法 - Google Patents
一种基于cpu-gpu异构体系结构的并行相似性连接方法 Download PDFInfo
- Publication number
- CN111046092A CN111046092A CN201911057101.1A CN201911057101A CN111046092A CN 111046092 A CN111046092 A CN 111046092A CN 201911057101 A CN201911057101 A CN 201911057101A CN 111046092 A CN111046092 A CN 111046092A
- Authority
- CN
- China
- Prior art keywords
- gpu
- data
- similarity
- cpu
- connection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000010276 construction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/163—Interprocessor communication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于CPU‑GPU异构体系结构的并行相似性连接方法,属于计算机数据库技术与并行计算技术领域。该方法通过对数据相似性连接方法进行分析设计,构建新的倒排索引结构,实现在GPU上并行构建倒排索引,对相似性连接方法进行分解,根据两种处理器不同的计算特性重新设计计算过程,基于GPU实现双重前缀过滤,有效减小候选集体积。本发明提供的基于CPU‑GPU异构体系结构的相似性连接方法能够将传统的数据相似性连接准确地转换到CPU‑GPU异构计算体系上,从而有效提高大规模数据集相似性连接的处理效率。
Description
技术领域
本发明涉及计算机数据库技术与并行计算技术领域,尤其涉及一种基于CPU-GPU异构体系结构的并行相似性连接方法。
背景技术
随着传统互联网的发展和移动互联网的出现,数据量迅速变大,“大数据”的概念逐渐被人们熟知。但大量的数据也对传统的数据存储和处理带来了新的挑战。为了更快的处理大数据,人们采用例如MapReduce和HDFS等分布式的策略来计算和存储大数据。传统的CPU性能提升方法已经达到瓶颈,提高主频和核心数量等方法对CPU性能的提升变得越来越困难。传统的仅由CPU负责计算的相似性连接算法的处理速度已经渐渐满足不了用户的需求。近年来,GPU的处理性能和并行处理单元集成度提升迅速,更多的算术逻辑单元使得GPU的综合计算性能远超CPU,能够极大地弥补CPU处理能力不足的问题。因此基于CPU-GPU异构体系结构的处理模式正成为未来的发展趋势。
相似性连接处理技术是对来自不同数据集的两个对象计算相似度,并以相似度是否达到指定阈值作为对象间的连接条件。目前,相似性连接技术已经被广泛的应用在搜索引擎、数据集成以及知识库构建等领域。常见的相似性连接根据计算对象间相似度的算法不同,可以分为字符串相似性连接、集合相似性连接、向量相似性连接以及图相似性连接,其中以字符串相似性连接应用最为广泛。字符串的相似性可以通过Jaccard相似度等多种相似性度量进行计算。传统的相似性连接处理技术一般使用过滤-验证框架,其中包含过滤和验证两个部分:在过滤阶段设计高效的过滤算法将大量不可能符合相似度要求的数据记录对过滤剔除,大幅减少候选对的数量;在验证阶段,计算每个候选对的相似度,将满足相似度条件的候选对添加至最后结果。
目前,对相似性连接算法的优化主要集中在过滤阶段的优化,通过对过滤算法的优化提升过滤效果,减少验证阶段的任务量。现有研究工作提出了很多的过滤算法,其中包括基于倒排索引的计数过滤算法、基于位置的过滤算法、基于长度的过滤算法以及基于前缀的过滤算法。这些算法在一定程度上都提升了过滤阶段的效率,但都是基于串行处理的设计思想,处理效率受到了极大的限制。
发明内容
针对上述现有技术的不足,本发明提供一种基于CPU-GPU异构体系结构的并行相似性连接方法。
为解决上述技术问题,本发明所采取的技术方案是:一种基于CPU-GPU异构体系结构的并行相似性连接方法,其流程如图1所示,包括如下步骤:
步骤1:使用GPU对初始数据集S并行构建SoA新型倒排索引,如图2所示为构建的基于SoA的倒排索引示意图;;
步骤1.1:给定数据集S,将其中每行数据Si切分成若干个数据集合token;
步骤1.2:为每个不同的token分配全局唯一数字类型tid;
步骤1.3:在GPU显存中使用全局映射表记录token与分配的tid之间的映射关系,并借助全局映射操作,将体积较大的字符串类型的token转换为数字类型的tid,使得原数据的体积大幅减少,从而大幅减少后续倒排索引中每个关键词的占用空间;
步骤1.4:全局映射关系构建完成后传输至GPU的global memory;
步骤1.5:使用GPU构建SoA新型倒排索引;
所述SoA新型倒排索引含有两个联系数组分别记录数据和token编号,其结构如图3所示,图3还给出了SoA新型倒排索引与传统索引结构的对比;
步骤1.5.1:GPU中每个block负责一部分原始数据的解析工作,block中的每个thread每次读取一个单词,根据权利要求2所述的全局映射表解析数据,生成<tid,sid>键值对;
步骤1.5.2:使用原子类型函数将sid和tid分别写入SoA倒排索引的数据数组中。
步骤1.6:将构建完成的索引回传给CPU内存,对tid相同的匹配对进行合并,得到通用性更好的传统倒排索引。
步骤2:根据倒排索引和前缀过滤生成候选集;
步骤2.1:对倒排索引的每行数据的前P个token检索倒排索引,记录所有这些token对应的倒排索引中出现的sid;
步骤2.2:对数据集S和所有查找得到的sid构建候选对,添加至候选集。
步骤3:基于GPU进行双重长度过滤,得到过滤集;
步骤3.1:使用GPU统计数据集信息;
合理设置GPU的grid、block和thread数目,使每个线程完成以下任务:
(a)读取权利要求2所述全局映射关系表中的部分数据,解析数据长度和token个数;
(b)根据sid值使用原子函数将统计数据分别写入长度表与token表的对应位置,所述长度表与token表的结构同SoA;
步骤3.2:基于步骤3.1中构建的长度表、token表和步骤2所述的候选集,使用GPU进行双重长度过滤;
通过相似度计算确定匹配长度范围,使用GPU多线程同时对候选集进行长度和token个数双重检验,将不满足长度和个数要求的候选对过滤。
步骤4:通过对步骤3构建的过滤集中所有候选对计算相似度,进行相似度验证;
步骤5:将过滤集中相似度大于等于给定阈值τ的候选对进行连接。
采用上述技术方案所产生的有益效果在于:
1、本发明提供的一种基于CPU-GPU异构体系结构的并行相似性连接方法,能够将传统数据相似性连接处理过程准确的转换到CPU-GPU异构体系结构之上,从而有效提高对数据集进行相似性搜索和连接的处理效率,对大规模数据集的数据相似性连接和查询的执行效率的提高由为明显,减少了连接执行时间,使得大规模数据集相似性连接和搜索的处理性能得到改善;
2、本发明具有较高的通用性:中间过程中使用GPU构建的倒排索引具有良好的通用性,同时对输入数据没有严格的格式要求;
3、本发明很好的利用了GPU的并行计算能力和CPU的逻辑调度能力,将传统的串行相似性连接方法以并行的方式执行,从而提高连接操作的效率。
附图说明
图1为本发明总体流程图;
图2为本发明构建的基于SoA的倒排索引示意图;
图3为本发明构建的基于SoA的倒排索引结构与传统索引结构的对比图;
图4为本发明实施例中已有倒排索引构建方法的加速比示意图;
图5为本发明实施例中与已有相似性连接方法的执行时间对比图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例的方法如下所述。
一种基于CPU-GPU异构体系结构的并行相似性连接方法,包括如下步骤:
步骤1:使用GPU对初始数据集S并行构建SoA新型倒排索引,如图2所示为构建的基于SoA的倒排索引示意图;
步骤1.1:本实施例给定数据集S如表1所示,包含9条用户记录的字符串,将其中每行数据Si根据字符串中的空格切分成若干个数据集合token,每条记录是由不同token组成的;
表1示例数据集S
步骤1.2:为每个不同的token分配全局唯一数字类型tid;
保证相同的token具有相同的tid。tid从1开始分配,每解析一个token就判断其是否已被标记,若为未标记的token就将tid递增之后赋值,若为已标记的token就直接跳过。
步骤1.3:在GPU显存中使用全局映射表记录token与分配的tid之间的映射关系,并借助全局映射操作,将体积较大的字符串类型的token转换为数字类型的tid,使得原数据的体积大幅减少,从而大幅减少后续倒排索引中每个关键词的占用空间;
解析表1中sid为1的字符串,得到<hello,1>,<world,2>,<in,3>,<java,4>,这期间未出现已标记token;当解析至sid为2的字符串,探测到“hello”,“world”,“in”已被标记,所以直接跳过这部分,得到<python,5>。每次赋值前都必须判断token是否已被标记来保证tid的全局唯一性,按照同样的逻辑解析所有的数据,完成数据读取和全局映射表的构建工作。本实施例解析到的全局映射表如表2所示;
表2解析表1得到的全局映射表
步骤1.4:全局映射关系构建完成后传输至GPU的global memory;
步骤1.5:使用GPU构建SoA新型倒排索引;
所述SoA新型倒排索引含有两个联系数组tid[N]和sid[N],N为数据集所含token个数。tid[N]和sid[N]分别记录token编号和字符串的序号,其值可在读取数据时得到,这样可以进一步减小索引体积,其结构如图3所示,图3还给出了SoA新型倒排索引与传统索引结构的对比;
步骤1.5.1:GPU中每个block负责一部分原始数据的解析工作,block中的每个thread每次读取一个单词,根据权利要求2所述的全局映射表解析数据,生成<tid,sid>键值对;
步骤1.5.2:使用atomicAdd原子类型函数将sid和tid分别写入SoA倒排索引的数据数组中。
步骤1.6:将构建完成的索引回传给CPU内存,对tid相同的匹配对进行合并,得到通用性更好的传统倒排索引。
本实施例得到的SoA倒排索引如表3所示;
表3SoA型倒排索引
统计本实施例数据集每行字符串S的长度和所含token个数,如表4所示:
表4S的长度和所含token个数的统计表
步骤2:根据倒排索引和前缀过滤生成候选集;
步骤2.1:对倒排索引的每行数据的前P个token检索倒排索引,记录所有这些token对应的倒排索引中出现的sid;
本实施例以Jaccard相似度为例,每行数据都根据公式(1)计算出前缀长度p,其中τ为给定的相似度阈值,|s|为每行数据所含token个数。然后将每行数据按照字典顺序进行排序,取其前p个token检索倒排索引,记录所有在这些token对应的倒排索引中出现的sid,对s和所有查找得到的sid构建候选对,添加至候选集。
以sid为1的字符串为例,设相似度阈值τ=0.6,对于每个字符串,首先根据公式1计算出前缀长度p=2,所以只检索“hello”和“world”两个token对应的倒排索引,得到sid集合(1,2),因此生成候选对<1,2>添加至候选集。
步骤2.2:对数据集S和所有查找得到的sid构建候选对,添加至候选集。
步骤3:基于GPU进行双重长度过滤,得到过滤集;
步骤3.1:使用GPU统计数据集信息;
合理设置GPU的grid、block和thread数目,使每个线程完成以下任务:
(a)读取权利要求2所述全局映射关系表中的部分数据,解析数据长度和token个数;
(b)根据sid值使用原子函数将统计数据分别写入长度表与token表的对应位置,所述长度表与token表的结构同SoA;
步骤3.2:基于步骤3.1中构建的长度表、token表和步骤2所述的候选集,使用GPU进行双重长度过滤;
通过相似度计算确定匹配长度范围,使用GPU多线程同时对候选集进行长度和token个数双重检验,将不满足长度和个数要求的候选对过滤。
本实施例以Jaccard相似度为例,按照公式(2)计算出匹配长度范围,其中τ是给定的相似度阈值,|s|是数据长度或数据所含token个数,|r|为匹配长度范围。
此外常见的相似度计算方式都可以用于计算匹配长度范围,例如:编辑距离、余弦相似度等。
本实施例以候选对<1,2>为例,使用公式(2)计算数据长度,得到范围为10≦len(r)≦26;使用公式(2)计算数据所含token个数,得到范围为3≦num(r)≦6。而sid为2的字符串同时满足这两个过滤条件,因此<1,2>不会被过滤掉。
按照同样的逻辑,使用GPU并行的验证所有的候选对是否同时满足两个过滤条件。使用双重验证可以进一步提升过滤效果,例如候选对<8,9>仅通过验证字符串长度是无法被过滤的,而通过验证token个数,可以将其过滤。
步骤4:通过对步骤3构建的过滤集中所有候选对计算相似度,进行相似度验证;
本实施例以Jaccard相似度为例,为保证最终结果的准确性,最后对过滤集中所有的候选对按照公式(3)计算相似度,其中r,s分别为待检验的数据,将相似度大于给定阈值t的候选对进行连接。
根据公式(3)计算候选对<1,2>的Jaccard相似度为0.6,不小于相似度阈值0.6,因此可以执行后续的连接操作。
步骤5:将过滤集中相似度大于等于给定阈值τ的候选对进行连接。
本实施例得到的相似性匹配对如表5所示;
表5相似匹配对
将本实施例的方法与已有倒排索引构建方法的加速比进行比对,其示意图如图4所示,将本实施例的方法与已有相似性连接方法的执行时间进行比对,对比图如图5所示,可以看出,通过引入GPU作为协处理器完成算法的部分计算任务,可以有效的提升数据相似性连接算法的执行效率,缩短执行时间。
Claims (6)
1.一种基于CPU-GPU异构体系结构的并行相似性连接方法,其特征在于包括以下步骤:
步骤1:使用GPU对初始数据集S并行构建SoA新型倒排索引;
步骤2:根据倒排索引和前缀过滤生成候选集;
步骤3:基于GPU进行双重长度过滤,得到过滤集;
步骤4:通过对步骤3构建的过滤集中所有候选对计算相似度,进行相似度验证;
步骤5:将过滤集中相似度大于等于给定阈值τ的候选对进行连接。
2.根据权利要求1所述的一种基于CPU-GPU异构体系结构的并行相似性连接方法,其特征在于所述步骤1的过程如下:
步骤1.1:给定数据集S,将其中每行数据Si切分成若干个数据集合token;
步骤1.2:为每个不同的token分配全局唯一数字类型tid;
步骤1.3:在GPU显存中使用全局映射表记录token与分配的tid之间的映射关系,并借助全局映射操作,将体积较大的字符串类型的token转换为数字类型的tid,使得原数据的体积大幅减少,从而大幅减少后续倒排索引中每个关键词的占用空间;
步骤1.4:全局映射关系构建完成后传输至GPU的global memory;
步骤1.5:使用GPU构建SoA新型倒排索引;
步骤1.6:将构建完成的索引回传给CPU内存,对tid相同的匹配对进行合并,得到通用性更好的传统倒排索引。
3.根据权利要求2所述的一种基于CPU-GPU异构体系结构的并行相似性连接方法,其特征在于所述SoA新型倒排索引含有两个联系数组分别记录数据和token编号。
4.根据权利要求2所述的一种基于CPU-GPU异构体系结构的并行相似性连接方法,其特征在于所述步骤1.5的过程如下:
步骤1.5.1:GPU中每个block负责一部分原始数据的解析工作,block中的每个thread每次读取一个单词,根据权利要求2所述的全局映射表解析数据,生成<tid,sid>键值对;
步骤1.5.2:使用原子类型函数将sid和tid分别写入SoA倒排索引的数据数组中。
5.根据权利要求1所述的一种基于CPU-GPU异构体系结构的并行相似性连接方法,其特征在于所述步骤2的过程如下:
步骤2.1:对倒排索引的每行数据的前P个token检索倒排索引,记录所有这些token对应的倒排索引中出现的sid;
步骤2.2:对数据集S和所有查找得到的sid构建候选对,添加至候选集。
6.根据权利要1或2所述的一种基于CPU-GPU异构体系结构的并行相似性连接方法,其特征在于所述步骤3的过程如下:
步骤3.1:使用GPU统计数据集信息;
合理设置GPU的grid、block和thread数目,使每个线程完成以下任务:
(a)读取权利要求2所述全局映射关系表中的部分数据,解析数据长度和token个数;
(b)根据sid值使用原子函数将统计数据分别写入长度表与token表的对应位置,所述长度表与token表的结构同SoA;
步骤3.2:基于步骤3.1中构建的长度表、token表和步骤2所述的候选集,使用GPU进行双重长度过滤;
通过相似度计算确定匹配长度范围,使用GPU多线程同时对候选集进行长度和token个数双重检验,将不满足长度和个数要求的候选对过滤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911057101.1A CN111046092B (zh) | 2019-11-01 | 2019-11-01 | 一种基于cpu-gpu异构体系结构的并行相似性连接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911057101.1A CN111046092B (zh) | 2019-11-01 | 2019-11-01 | 一种基于cpu-gpu异构体系结构的并行相似性连接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046092A true CN111046092A (zh) | 2020-04-21 |
CN111046092B CN111046092B (zh) | 2022-06-17 |
Family
ID=70231992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911057101.1A Expired - Fee Related CN111046092B (zh) | 2019-11-01 | 2019-11-01 | 一种基于cpu-gpu异构体系结构的并行相似性连接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046092B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737007A (zh) * | 2020-07-24 | 2020-10-02 | 北京一流科技有限公司 | 数据对象的分频处理系统及其方法 |
CN114201726A (zh) * | 2020-09-18 | 2022-03-18 | 深圳先进技术研究院 | 一种卷积运算优化方法、系统、终端以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11242688A (ja) * | 1997-12-12 | 1999-09-07 | Hitachi Ltd | 効率的な並列高次元類似ジョインのための構造および方法 |
US7818806B1 (en) * | 2005-11-08 | 2010-10-19 | Nvidia Corporation | Apparatus, system, and method for offloading pattern matching scanning |
CN105677757A (zh) * | 2015-12-30 | 2016-06-15 | 东北大学 | 一种基于双缀过滤的大数据相似性连接方法 |
-
2019
- 2019-11-01 CN CN201911057101.1A patent/CN111046092B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11242688A (ja) * | 1997-12-12 | 1999-09-07 | Hitachi Ltd | 効率的な並列高次元類似ジョインのための構造および方法 |
US7818806B1 (en) * | 2005-11-08 | 2010-10-19 | Nvidia Corporation | Apparatus, system, and method for offloading pattern matching scanning |
CN105677757A (zh) * | 2015-12-30 | 2016-06-15 | 东北大学 | 一种基于双缀过滤的大数据相似性连接方法 |
Non-Patent Citations (4)
Title |
---|
SIDNEY RIBEIRO-JUNIOR等: "Fast Parallel Set Similarity Joins on Many-core Architectures", 《JOURNAL OF INFORMATION AND DATA MANAGEMENT》 * |
TAKAZUMI MATSUMOTO等: "Accelerating Exact Similarity Search on CPU-GPU Systems", 《2015 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 * |
YILIN FENG等: "Fast Document Cosine Similarity Self-Join on GPUs", 《2018 IEEE 30TH INTERNATIONAL CONFERENCE ON TOOLS WITH ARTIFICIAL INTELLIGENCE (ICTAI)》 * |
周勇伟: "大规模字符串近似查询批处理算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737007A (zh) * | 2020-07-24 | 2020-10-02 | 北京一流科技有限公司 | 数据对象的分频处理系统及其方法 |
CN114201726A (zh) * | 2020-09-18 | 2022-03-18 | 深圳先进技术研究院 | 一种卷积运算优化方法、系统、终端以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111046092B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021083239A1 (zh) | 一种进行图数据查询的方法、装置、设备及存储介质 | |
CN110019218B (zh) | 数据存储与查询方法及设备 | |
CN105320679B (zh) | 一种数据表索引集合生成方法及装置 | |
CN109033303B (zh) | 一种基于约简锚点的大规模知识图谱融合方法 | |
US20120072412A1 (en) | Evaluating execution plan changes after a wakeup threshold time | |
JP2009110513A (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
CN111767476B (zh) | 一种基于hmm模型的智慧城市时空大数据空间化引擎构建方法 | |
CN111046092B (zh) | 一种基于cpu-gpu异构体系结构的并行相似性连接方法 | |
WO2021047373A1 (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN106484815B (zh) | 一种基于海量数据类sql检索场景的自动识别优化方法 | |
CN114547241B (zh) | 一种联合字符感知和句子感知的小样本实体识别方法 | |
CN106372122A (zh) | 一种基于维基语义匹配的文档分类方法及系统 | |
US20110179013A1 (en) | Search Log Online Analytic Processing | |
CN114239083A (zh) | 一种基于图神经网络的高效状态寄存器识别方法 | |
CN106844338B (zh) | 基于属性间依赖关系的网络表格的实体列的检测方法 | |
CN113505278A (zh) | 图匹配方法、装置、电子设备及存储介质 | |
CN111190896B (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN116610700A (zh) | 查询语句检测方法及装置、存储介质 | |
CN115292347A (zh) | 一种基于规则的主动式sql算法性能检查装置及方法 | |
CN118467708B (zh) | 基于协同增强的词项级查询扩展方法 | |
CN115222373B (zh) | 一种设计项目管理方法及系统 | |
CN114817299B (zh) | 一种基于udaf的数据分析方法及装置 | |
CN118153007B (zh) | 面向文本型数据的数据库水印嵌入方法、系统及存储介质 | |
Zhao et al. | Word embedding based retrieval model for similar cases recommendation | |
CN115237936B (zh) | 检测sql语句中字段的方法、装置、存储介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220617 |
|
CF01 | Termination of patent right due to non-payment of annual fee |