CN105468792A - 一种基于大数据的模糊查询方法及系统 - Google Patents

一种基于大数据的模糊查询方法及系统 Download PDF

Info

Publication number
CN105468792A
CN105468792A CN201610020415.4A CN201610020415A CN105468792A CN 105468792 A CN105468792 A CN 105468792A CN 201610020415 A CN201610020415 A CN 201610020415A CN 105468792 A CN105468792 A CN 105468792A
Authority
CN
China
Prior art keywords
data
length
cutting
fuzzy query
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610020415.4A
Other languages
English (en)
Other versions
CN105468792B (zh
Inventor
高军
田立娜
王可鑫
段文良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Heetian Information Technology Co Ltd
Original Assignee
Shandong Heetian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Heetian Information Technology Co Ltd filed Critical Shandong Heetian Information Technology Co Ltd
Priority to CN201610020415.4A priority Critical patent/CN105468792B/zh
Publication of CN105468792A publication Critical patent/CN105468792A/zh
Application granted granted Critical
Publication of CN105468792B publication Critical patent/CN105468792B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的模糊查询方法及系统,设置查询数据长度的上下阈值,确定需要模糊查询的数据长度,如果数据长度小于上限阈值,则将上限阈值设置为该数据长度,从每个字符起始将需要模糊查询的数据以设置的数据长度下限阈值的长度进行切分,形成切分词组集合;按照每次数据长度下限阈值加1的长度继续对录入的数据进行切分,直到长度等于上限阈值,将所有切分后的词组放入切分词组集合;对于切分词组集合中的词组,从图数据库中查询该词对应的节点是否存在,存在,则获取出该节点,不存在,则在图数据库中新建该词对应的节点,创建图数据库中节点指向属性节点的连线;本发明可以实现对数据“精确”模糊查询,不会出现查询不到的情况。

Description

一种基于大数据的模糊查询方法及系统
技术领域
本发明涉及一种基于大数据的模糊查询方法及系统。
背景技术
随着近几年互联网的迅猛发展,互联网变得越来越普及,互联网上的内容也爆发式增长,人们从互联网上获取所需内容的门槛也越来越低,这也催生了众多的互联网“淘金者”,从互联网的海量内容中分析出潜在的、有价值的数据、情报、规律等内容。
无论是在传统的IT时代,还是在互联网时代,要开发各种各样的管理、分析系统,一般都需要模糊查询,即根据某个词去查询包含该词条的数据。在传统IT时代,由于数据量不大,我们一般使用关系数据库存储数据,要进行模糊查询,直接使用关系数据库提供sql语句中的“like”功能即可实现,如我们要查询包含“中国”这个词的数据,则直接使用“like‘%中国%’”。而在互联网时代,由于数据量距大,关系数据库无法支撑如此海量的内容,所以一般使用类hadoop软件搭建大数据平台处理数据,使用类luncen的技术进行模糊查询,而luncen并不能实现“精确”模糊查询,即输入某些字词,有时并不能查询出来。
互联网时代对数据进行模糊查询,存在以下问题:
如果采用传统关系数据库来处理数据,性能无法支撑,运行极慢,特别是模糊查询,往往需要很长时间才能返回查询结果。
采用类luncen技术进行模糊查询,由于luncen采用分词算法技术,只能分出词语,只能按照它分出的词语查询,而有时模糊查询的并不是词语,而仅仅是紧靠在一起的两个字,这时候则查询不出来。
发明内容
本发明为了解决上述问题,提出了一种基于大数据的模糊查询方法及系统,本发明通过切词算法,可以实现对数据“精确”模糊查询,不会出现查询不到的情况。
为了实现上述目的,本发明采用如下技术方案:
一种基于大数据的模糊查询方法,包括以下步骤:
(1)设置查询数据长度的上下阈值,确定需要模糊查询的数据长度,如果数据长度小于上限阈值,则将上限阈值设置为该数据长度;
(2)从每个字符起始将需要模糊查询的数据以设置的数据长度下限阈值的长度进行切分,形成切分词组集合;
(3)按照每次数据长度下限阈值加1的切分长度继续对录入的数据进行切分,直到切分长度等于上限阈值,将所有切分后的词组放入切分词组集合;
(4)将录入的词语数据作为一个数据节点,插入到图数据库中,并确定该数据节点的属性信息;
(5)对于切分词组集合中的词组,从图数据库中查询名称为该词的分词节点是否存在,存在,则获取出该分词节点,如果不存在,则在图数据库中新建该需要模糊查询的词语对应的分词节点,创建图数据库中分词节点指向该词语的数据节点的连线;
(6)进行模糊查询时,从图数据库中将查询关键字对应的分词节点所指向的所有数据节点取出。
所述步骤(1)中,查询数据长度的上限阈值大于等于下限阈值,且所述下限阈值大于等于1。
所述步骤(4)中,节点的属性信息包括创建时间、地理位置或/和规格。
所述步骤(5)中,将分词节点和数据节点都存储至图数据库中。
一种基于大数据的模糊查询系统,包括阈值模块、判断模块、切分模块、查询模块、累加模块和切分词组数据库,其中:
所述阈值模块,用于设置查询数据长度的上下阈值;
所述判断模块,用于确定需要模糊查询的数据长度,如果数据长度小于上限阈值,则将上限阈值设置为该数据长度;
所述切分模块,用于以设置的数据长度下限阈值的长度进行切分,形成切分词组集合,存储至所述切分词组数据库;
所述累加模块,用于按照每次数据长度下限阈值加1的长度不断累加;
所述切分模块,依照累加模块的长度继续对录入的数据进行切分,直到长度等于上限阈值,将所有切分后的词组放入切分词组数据库;
所述查询模块依次对切分词组数据库的词语进行查询,输出含有该词语的数据。
所述需要模糊查询的词语作为一个数据节点,插入到图数据库中,并确定该数据节点的属性信息,将其保存至属性信息数据库。
所述切分词组数据库的词组,从图数据库中查询该分词是否存在对应的数据节点,存在,则获取出该数据节点,如果不存在,则在图数据库中新建该分词对应的节点,创建图数据库中分词节点指向数据节点的连线;
所述累加模块,令初始数据等于数据长度下限阈值,依次对初始数据进行累加1。
所述切分模块,连接累加模块,读取累加模块初始数据的值,并按照该初始数据从每个字符起始将需要模糊查询的数据进行切分词组。
本发明的有益效果为:
(1)通过设置切分词组方法,可以实现对数据精确的模糊查询,不会出现查询不到的情况;
(2)可以处理海量数据,不存在传统关系数据库中性能问题。
附图说明
图1是本发明的工作流程图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
现有的方法中,因为大数据环境下,传统关系数据库性能无法处理。而专门处理大数据的平台模糊查询一般依赖分词算法,这些分词算法只能把一些常用的词或地名、人名等分出来,并不能把所有的词分出来,这就导致了分词算法分不出来的词,就无法进行模糊查询。而利用预先把所有可能的词分出来,就可以避免查不出来的情况。如“山东合天智汇信息有限公司”,分词算法可能只能分出“山东”、“信息”、“公司”、“有限”这几个词,这就导致你查询“东合”、“合天智”、“信息有”、“息有限公司”这些词时,查不出“山东合天智汇信息有限公司”这条数据,而这条数据是符合你的要求的。
本发明提供一种基于大数据的模糊查询方法及系统,通过改变分词方法,能够有效解决上述问题。
如图1所示,一种基于大数据的模糊查询方法,首先,设定系统的m,n两个参数。m,n均为正整数,m为查询时允许的最小长度,m大于等于1,n为查询时允许的最大长度,n大于等于m;
其次,录入模糊查询的数据d。当入时,判断数据d的长度l,如果l小于n,则在本次数据处理中,设定n等于l。
第三,对录入的数据按照m的长度进行切分,如m=2,数据为“齐鲁软件园”,则切分后的词为:齐鲁、鲁软、软件、件园,将切分后的词放入集合map中。
第四,对录入的数据按照m+1的长度进行切分,如m=2,数据为“齐鲁软件园”,则切分后的词为:齐鲁软、鲁软件、软件园,将切分后的词放入集合map中。
第五,按照每次m加1的方式继续对录入的数据进行切分,直到长度等于n。如查询数据为“齐鲁软件园”,则m=2,n=5,,则会对数据切分4次,最终切分出来的词分别为:齐鲁、鲁软、软件、件园、齐鲁软、鲁软件、软件园、齐鲁软件、鲁软件园、齐鲁软件园,将切分后的词放入集合map中。
第五,将录入的数据“齐鲁软件园”作为一个数据节点tnode,插入到titan图数据库中。同时将该节点的其他信息,作为该节点的属性添加到tnode上(如创建时间、地理位置、规格等)。
第六,依次将集合map中的词进行处理,以“齐鲁软件园”分出的词为例,处理过程如下:
首先,取出第一个词,“齐鲁”,从titan数据库中查询该词对应的分词节点是否存在,存在,则获取出该分词节点snode,不存在,则在titan数据库中新建该词对应的分词节点snode。
其次,创建snode节点(“齐鲁”分词节点)指向tnode节点(“齐鲁软件园”数据节点)的连线。
第三,取出第二个词“鲁软”,重复以上步骤,直到所有的分词处理完毕。
第七,如果要对某个信息进行模糊查询,如“齐鲁”,直接查询该分词节点指向的数据节点即可。配合该分词节点指向的数据节点的属性信息,还可以进行多条件联合查询。
一种基于大数据的模糊查询系统,包括阈值模块、判断模块、切分模块、查询模块、累加模块和切分词组数据库,其中:
阈值模块,用于设置查询数据长度的上下阈值;
判断模块,用于确定需要模糊查询的数据长度,如果数据长度小于上限阈值,则将上限阈值设置为该数据长度;
切分模块,用于以设置的数据长度下限阈值的长度进行切分,形成切分词组集合,存储至所述切分词组数据库;
累加模块,用于按照每次数据长度下限阈值加1的长度不断累加;
切分模块,依照累加模块的长度继续对录入的数据进行切分,直到长度等于上限阈值,将所有切分后的词组放入切分词组数据库;
查询模块依次对切分词组数据库的词语进行查询,输出含有该词语的数据。
需要模糊查询的词语作为一个数据节点,插入到图数据库中,并确定该节点的属性信息,将其保存至属性信息数据库。
切分词组数据库的词组,从图数据库中查询该分词是否存在对应的数据节点,存在,则获取出该数据节点,如果不存在,则在图数据库中新建该分词对应的节点,创建图数据库中分词节点指向数据节点的连线;
累加模块,令初始数据等于数据长度下限阈值,依次对初始数据进行累加1。
切分模块,连接累加模块,读取累加模块初始数据的值,并按照该初始数据从每个字符起始将需要模糊查询的数据进行切分词组。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种基于大数据的模糊查询方法,其特征是:包括以下步骤:
(1)设置查询数据长度的上下阈值,确定需要模糊查询的数据长度,如果数据长度小于上限阈值,则将上限阈值设置为该数据长度;
(2)从每个字符起始将需要模糊查询的数据以设置的数据长度下限阈值的长度进行切分,形成切分词组集合;
(3)按照每次数据长度下限阈值加1的切分长度继续对录入的数据进行切分,直到切分长度等于上限阈值,将所有切分后的词组放入切分词组集合;
(4)将录入的词语数据作为一个数据节点,插入到图数据库中,并确定该数据节点的属性信息;
(5)对于切分词组集合中的词组,从图数据库中查询名称为该词的分词节点是否存在,存在,则获取出该分词节点,如果不存在,则在图数据库中新建该需要模糊查询的词语对应的分词节点,创建图数据库中分词节点指向该数据节点的连线;
(6)进行模糊查询时,从图数据库中将查询关键字对应的分词节点所指向的所有数据节点取出。
2.如权利要求1所述的一种基于大数据的模糊查询方法,其特征是:所述步骤(1)中,查询数据长度的上限阈值大于等于下限阈值,且所述下限阈值大于等于1。
3.如权利要求1所述的一种基于大数据的模糊查询方法,其特征是:所述步骤(4)中,节点的属性信息包括创建时间、地理位置或/和规格。
4.如权利要求1所述的一种基于大数据的模糊查询方法,其特征是:所述步骤(5)中,将分词节点和数据节点都存储至图数据库中。
5.一种基于大数据的模糊查询系统,其特征是:包括阈值模块、判断模块、切分模块、查询模块、累加模块和切分词组数据库,其中:
所述阈值模块,用于设置查询数据长度的上下阈值;
所述判断模块,用于确定需要模糊查询的数据长度,如果数据长度小于上限阈值,则将上限阈值设置为该数据长度;
所述切分模块,用于以设置的数据长度下限阈值的长度进行切分,形成切分词组集合,存储至所述切分词组数据库;
所述累加模块,用于按照每次数据长度下限阈值加1的长度不断累加;
所述切分模块,依照累加模块的长度继续对录入的数据进行切分,直到长度等于上限阈值,将所有切分后的词组放入切分词组数据库;
所述查询模块依次对切分词组数据库的词语进行查询,输出含有该词语的数据。
6.如权利要求5所述的一种基于大数据的模糊查询系统,其特征是:所述需要模糊查询的词语作为一个数据节点,插入到图数据库中,并确定该数据节点的属性信息,将其保存至属性信息数据库。
7.如权利要求5所述的一种基于大数据的模糊查询系统,其特征是:所述切分词组数据库的词组,从图数据库中查询该分词是否存在对应的数据节点,存在,则获取出该数据节点,如果不存在,则在图数据库中新建该分词对应的节点,创建图数据库中分词节点指向数据节点的连线。
8.如权利要求5所述的一种基于大数据的模糊查询系统,其特征是:所述累加模块,令初始数据等于数据长度下限阈值,依次对初始数据进行累加1。
9.如权利要求5所述的一种基于大数据的模糊查询系统,其特征是:所述切分模块,连接累加模块,读取累加模块初始数据的值,并按照该初始数据从每个字符起始将需要模糊查询的数据进行切分词组。
CN201610020415.4A 2016-01-13 2016-01-13 一种基于大数据的模糊查询方法及系统 Active CN105468792B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610020415.4A CN105468792B (zh) 2016-01-13 2016-01-13 一种基于大数据的模糊查询方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610020415.4A CN105468792B (zh) 2016-01-13 2016-01-13 一种基于大数据的模糊查询方法及系统

Publications (2)

Publication Number Publication Date
CN105468792A true CN105468792A (zh) 2016-04-06
CN105468792B CN105468792B (zh) 2018-11-02

Family

ID=55606492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610020415.4A Active CN105468792B (zh) 2016-01-13 2016-01-13 一种基于大数据的模糊查询方法及系统

Country Status (1)

Country Link
CN (1) CN105468792B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489381A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 外接资源的识别方法及系统
CN111104418A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 文本描述的处理方法、装置和电子设备
CN111538768A (zh) * 2020-06-23 2020-08-14 平安国际智慧城市科技股份有限公司 基于n元模型的数据查询方法、装置、电子设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN104376115A (zh) * 2014-12-01 2015-02-25 北京奇虎科技有限公司 一种基于全局搜索的模糊词确定方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101458694A (zh) * 2008-10-09 2009-06-17 浙江大学 一种基于树形词库的中文分词方法
CN101706807A (zh) * 2009-11-27 2010-05-12 清华大学 一种中文网页新词自动获取方法
CN104376115A (zh) * 2014-12-01 2015-02-25 北京奇虎科技有限公司 一种基于全局搜索的模糊词确定方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489381A (zh) * 2019-07-04 2019-11-22 北京雷石天地电子技术有限公司 外接资源的识别方法及系统
CN111104418A (zh) * 2019-12-23 2020-05-05 北京百度网讯科技有限公司 文本描述的处理方法、装置和电子设备
CN111104418B (zh) * 2019-12-23 2023-08-29 北京百度网讯科技有限公司 文本描述的处理方法、装置和电子设备
CN111538768A (zh) * 2020-06-23 2020-08-14 平安国际智慧城市科技股份有限公司 基于n元模型的数据查询方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN105468792B (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
WO2020007224A1 (zh) 知识图谱构建及智能应答方法、装置、设备及存储介质
CN107168954B (zh) 文本关键词生成方法及装置和电子设备及可读存储介质
CN107992585B (zh) 通用标签挖掘方法、装置、服务器及介质
CN102411580B (zh) 可扩展标记语言文档的检索方法及装置
CN104657439A (zh) 用于自然语言精准检索的结构化查询语句生成系统及方法
CN107291914A (zh) 一种生成搜索引擎查询扩展词的方法及系统
CN112115232A (zh) 一种数据纠错方法、装置及服务器
US10747824B2 (en) Building a data query engine that leverages expert data preparation operations
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
CN105843882A (zh) 一种信息匹配方法及装置
CN105468792A (zh) 一种基于大数据的模糊查询方法及系统
CN105760361A (zh) 一种语言模型建立方法及装置
CN114090735A (zh) 一种文本匹配方法、装置、设备及存储介质
CN111428011A (zh) 词语的推荐方法、装置、设备及存储介质
CN110765276A (zh) 知识图谱中的实体对齐方法及装置
CN117171296A (zh) 信息获取方法、装置和电子设备
CN105447616A (zh) 基于多维分类和全文检索的知识管理系统
CN103810213A (zh) 一种搜索方法和系统
CN115270777A (zh) 一种合同文件信息抽取方法、装置、系统
CN114201957A (zh) 文本情感分析方法、装置及计算机可读存储介质
CN103778138A (zh) 一种连续字符串的切分方法和装置
CN114116996A (zh) 问题判定方法、装置、设备和存储介质
CN113010642A (zh) 语义关系的识别方法、装置、电子设备及可读存储介质
CN105895091A (zh) 一种eswfst构建方法
CN112749186B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant