CN109710656A - 近似查询方法及装置 - Google Patents

近似查询方法及装置 Download PDF

Info

Publication number
CN109710656A
CN109710656A CN201811340599.8A CN201811340599A CN109710656A CN 109710656 A CN109710656 A CN 109710656A CN 201811340599 A CN201811340599 A CN 201811340599A CN 109710656 A CN109710656 A CN 109710656A
Authority
CN
China
Prior art keywords
data
sequence
sequence section
characteristic
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811340599.8A
Other languages
English (en)
Inventor
张勇
胡庆成
李秀星
邢春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811340599.8A priority Critical patent/CN109710656A/zh
Publication of CN109710656A publication Critical patent/CN109710656A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供的一种近似查询方法及装置,通过获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示,可以更好的支持内存空间进行严格限制及数据频繁更新的情况,并且可以提供高效、稳定的近似查询。

Description

近似查询方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种近似查询方法及装置。
背景技术
随着近似查询(Similarity Search),即查找符合要求的数据对象,作为计算机学科中一个重要的问题,在多个领域内均有极其广泛的应用,例如信息检索、相似图像检索、数据清洗、生物序列分析等。在信息检索中,应用近似查询进行检索,可以使检索的效率以及准确率得到极大的提升。在数据清洗中,应用近似查询技术,可以对重复记录进行检测,提供准确、一致的数据。在相似图像检索的过程中,应用近似查询算法对检索过程提供支持,可以对图像的来源进行分析,查找出高质量的图像。在生物序列分析中,应用近似查询技术,可以极大地提升查询效率。因此,提高近似查询效率至关重要。
发明内容
本发明实施例提供一种近似查询方法及装置,用于解决现有技术中查询效率低的问题。
第一方面,本发明实施例提供一种近似查询方法,包括:
获取待查询数据,对所述待查询数据进行划分获得数据序列段;
对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;
获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;
将对应于所述结果特征序列的结果数据显示。
可选地,所述预设的B+树索引结构的建立,包括:
获取样本数据,对每个样本数据进行分别划分获得数据序列段;
对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;
根据所有样本数据的特征值建立B+树索引结构。
可选地,在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。
可选地,所述根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列,包括:
根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;
根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。
第二方面,本发明实施例提供一种近似查询装置,包括:
获取模块,用于获取待查询数据,对所述待查询数据进行划分获得数据序列段;
映射模块,用于对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;
处理模块,用于获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;
显示模块,用于将对应于所述结果特征序列的结果数据显示。
可选地,还包括建立模块,用于:
获取样本数据,对每个样本数据进行分别划分获得数据序列段;
对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;
根据所有样本数据的特征值建立B+树索引结构。
可选地,还包括筛选模块,用于:在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。
可选地,所述处理模块具体用于:
根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;
根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如上述的方法。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述的方法。
由上述技术方案可知,本发明实施例提供的一种近似查询方法及装置,通过获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示,可以更好的支持内存空间进行严格限制及数据频繁更新的情况,并且可以提供高效、稳定的近似查询。
附图说明
图1为本发明一实施例提供的近似查询方法的流程示意图;
图2为本发明一实施例提供的近似查询装置的结构示意图;
图3为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1示出了本发明一实施例提供一种近似查询方法,包括:
S11、获取待查询数据,对所述待查询数据进行划分获得数据序列段;
S12、对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;
S13、获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;
S14、将对应于所述结果特征序列的结果数据显示。
针对上述步骤S11-步骤S14,需要说明的是,在本发明实施例中,用户在终端上搜索引擎的输入框内输入待查询数据,待查询数据一般为文本数据。如“我们的世界是美好的”。服务器获得待查询数据后对其进行划分,划分出数据序列段。如对“我们的世界是美好的”进行划分,划分的数据序列段可为“我们”、“们的”、“的世”、“世界”等等。另外,为了更好的进行后续查询,在对所述待查询数据进行划分获得数据序列段之后,还可将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。在这里,无效序列段为不常用字段、停用词等。如对划分的数据序列段可为“我们”、“们的”、“的世”、“世界”进行删除处理,可删除“们的”、“的世”等等。
数据序列段获取后,对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列。即待查询数据对应一个特征序列。数据映射,就是构造一个哈希函数,将不同的特征映射到哈希桶中,之后统计每个桶中特征的数量,从而形成一组向量,这样就完成了数据的映射,将长度不确定的特征集合,映射成固定维度的向量。经过特征提取,可以简化运算,提升算法的稳定性。
在本发明实施例中,可获取大量样本数据,对样本数据进行分别划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同。根据所有样本数据的特征值建立B+树索引结构。在这里,根据样本数据的特征值建立B+树索引结构属于成熟技术,在构建过程中,还可利用K-Means++算法对索引创建过程进行优化。
所述根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列,包括:
1)根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;
2)根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。
在本实施例中,需要说明的是,由于B+树索引结构是基于特征值创建而成,故将待查询数据的特征序列在B+树索引结构中进行匹配查询可获得所需的结果特征序列。根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集,多级过滤方式可依次进行长度过滤、前缀过滤以及基于数据映射的过滤方法,并且利用B+树索引结构进行减枝操作,降低计算的次数。
然后,根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。在这里,可采用Jaccard距离作为相似度度量函数,根据相似度阈值完成验证,最终获得所需的结果特征序列。
本发明实施例提供的一种近似查询方法,通过获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示,可以更好的支持内存空间进行严格限制及数据频繁更新的情况,并且可以提供高效、稳定的近似查询。
图2示出了本发明一实施例提供的一种近似查询装置,包括获取模块21、映射模块22、处理模块23和显示模块24,其中:
获取模块21,用于获取待查询数据,对所述待查询数据进行划分获得数据序列段;
映射模块22,用于对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;
处理模块23,用于获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;
显示模块24,用于将对应于所述结果特征序列的结果数据显示。
还包括建立模块,用于:
获取样本数据,对每个样本数据进行分别划分获得数据序列段;
对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;
根据所有样本数据的特征值建立B+树索引结构。
还包括筛选模块,用于:在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。
由于本发明实施例所述装置与上述实施例所述方法的原理相同,对于更加详细的解释内容在此不再赘述。
需要说明的是,本发明实施例中可以通过硬件处理器(hardware processor)来实现相关功能模块。
本发明实施例提供的一种近似查询装置,通过获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示,可以更好的支持内存空间进行严格限制及数据频繁更新的情况,并且可以提供高效、稳定的近似查询。
图3示出了本发明实施例提供一种电子设备,包括:处理器31、存储器32、总线33及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如上述的方法,例如包括:获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示。
本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如上述的方法,例如包括:获取待查询数据,对所述待查询数据进行划分获得数据序列段;对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;将对应于所述结果特征序列的结果数据显示。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本领域普通技术人员可以理解:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (10)

1.一种近似查询方法,其特征在于,包括:
获取待查询数据,对所述待查询数据进行划分获得数据序列段;
对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;
获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;
将对应于所述结果特征序列的结果数据显示。
2.根据权利要求1所述的方法,其特征在于,所述预设的B+树索引结构的建立,包括:
获取样本数据,对每个样本数据进行分别划分获得数据序列段;
对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;
根据所有样本数据的特征值建立B+树索引结构。
3.根据权利要求1所述的方法,其特征在于,在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。
4.根据权利要求1所述的方法,其特征在于,所述根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列,包括:
根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;
根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。
5.一种近似查询装置,其特征在于,包括:
获取模块,用于获取待查询数据,对所述待查询数据进行划分获得数据序列段;
映射模块,用于对每个数据序列段进行特征映射,获得各数据序列段对应特征值,根据所述特征值生成特征序列;
处理模块,用于获取相似度阈值,根据所述特征序列和相似度阈值在预设的B+树索引结构中获得对应的结果特征序列;
显示模块,用于将对应于所述结果特征序列的结果数据显示。
6.根据权利要求5所述的装置,其特征在于,还包括建立模块,用于:
获取样本数据,对每个样本数据进行分别划分获得数据序列段;
对每个数据序列段进行特征映射,获得各数据序列段对应特征值,相同数据序列段的特征值相同;
根据所有样本数据的特征值建立B+树索引结构。
7.根据权利要求5所述的装置,其特征在于,还包括筛选模块,用于:在对所述待查询数据进行划分获得数据序列段之后,还需将数据序列段与预设的无效数据库中的无效序列段进行匹配,将匹配成功的数据序列段作为无效数据库进行删除处理。
8.根据权利要求5所述的装置,其特征在于,所述处理模块具体用于:
根据预设的B+树索引结构采用多级过滤方式匹配获得候选结果特征序列集;
根据相似度阈值对候选结果特征序列集进行验证,获得所需的结果特征序列。
9.一种电子设备,其特征在于,包括:处理器、存储器、总线及存储在存储器上并可在处理器上运行的计算机程序;
其中,所述处理器,存储器通过所述总线完成相互间的通信;
所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-4中任一项所述的方法。
CN201811340599.8A 2018-11-12 2018-11-12 近似查询方法及装置 Pending CN109710656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811340599.8A CN109710656A (zh) 2018-11-12 2018-11-12 近似查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811340599.8A CN109710656A (zh) 2018-11-12 2018-11-12 近似查询方法及装置

Publications (1)

Publication Number Publication Date
CN109710656A true CN109710656A (zh) 2019-05-03

Family

ID=66254324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811340599.8A Pending CN109710656A (zh) 2018-11-12 2018-11-12 近似查询方法及装置

Country Status (1)

Country Link
CN (1) CN109710656A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914463A (zh) * 2012-12-31 2014-07-09 北京新媒传信科技有限公司 一种图片信息的相似性检索方法和装置
JP6041439B2 (ja) * 2013-09-12 2016-12-07 Kddi株式会社 画像に基づくバイナリ特徴ベクトルを用いた画像検索装置、システム、プログラム及び方法
CN106202362A (zh) * 2016-07-07 2016-12-07 Tcl集团股份有限公司 图像推荐方法和图像推荐装置
CN107784110A (zh) * 2017-11-03 2018-03-09 北京锐安科技有限公司 一种索引建立方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103914463A (zh) * 2012-12-31 2014-07-09 北京新媒传信科技有限公司 一种图片信息的相似性检索方法和装置
JP6041439B2 (ja) * 2013-09-12 2016-12-07 Kddi株式会社 画像に基づくバイナリ特徴ベクトルを用いた画像検索装置、システム、プログラム及び方法
CN106202362A (zh) * 2016-07-07 2016-12-07 Tcl集团股份有限公司 图像推荐方法和图像推荐装置
CN107784110A (zh) * 2017-11-03 2018-03-09 北京锐安科技有限公司 一种索引建立方法及装置

Similar Documents

Publication Publication Date Title
US20220284017A1 (en) Systems and methods for rapid data analysis
Carapito et al. MSDA, a proteomics software suite for in‐depth M ass S pectrometry D ata A nalysis using grid computing
CN107545023B (zh) 文本型指标的提取方法和装置
CN106033416A (zh) 一种字符串处理方法及装置
CN107291895B (zh) 一种快速的层次化文档查询方法
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN109460386B (zh) 基于多维模糊哈希匹配的恶意文件同源性分析方法及装置
CN108363686A (zh) 一种字符串分词方法、装置、终端设备及存储介质
CN110852107A (zh) 一种关系提取方法、装置、及存储介质
CN115424053B (zh) 小样本图像识别方法、装置、设备及存储介质
CN107229731A (zh) 用于分类数据的方法和装置
CN105095436A (zh) 数据源数据自动建模方法
CN110334343A (zh) 一种合同中个人隐私信息抽取的方法和系统
CN107451280B (zh) 数据打通方法、装置及电子设备
CN109241270B (zh) 循证医学文献筛选方法及装置
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN107590233B (zh) 一种文件管理方法及装置
CN112101030B (zh) 建立术语映射模型、实现标准词映射的方法、装置及设备
CN107832389B (zh) 数据管理方法及装置
CN109710656A (zh) 近似查询方法及装置
CN113806492B (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN112185572B (zh) 一种肿瘤专病数据库构建系统、方法、电子设备和介质
US11386340B2 (en) Method and apparatus for performing block retrieval on block to be processed of urine sediment image
CN115730589A (zh) 一种基于词向量的新闻传播路径生成方法以及相关装置
KR20100105080A (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190503

RJ01 Rejection of invention patent application after publication