CN115840785B - 一种分布式终端数据查询系统及方法 - Google Patents
一种分布式终端数据查询系统及方法 Download PDFInfo
- Publication number
- CN115840785B CN115840785B CN202211712717.XA CN202211712717A CN115840785B CN 115840785 B CN115840785 B CN 115840785B CN 202211712717 A CN202211712717 A CN 202211712717A CN 115840785 B CN115840785 B CN 115840785B
- Authority
- CN
- China
- Prior art keywords
- keywords
- file
- dictionary
- original data
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013507 mapping Methods 0.000 claims abstract description 52
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 230000003993 interaction Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种分布式终端数据查询系统及方法,涉及数据检索服务领域。本发明包括,存储原始数据文件;提取原始数据文件;根据原始数据文件获取文件关键词;建立文件关键词与具有文件关键词的原始数据文件的存储地址映射;获取用户输入待查询语句;将待查询语句转化为检索关键词;根据检索关键词匹配文件关键词得到重合关键词和/或非重合检索关键词;根据重合关键词以及文件关键词与具有文件关键词的原始数据文件的存储地址的映射获取待查询语句对应的原始数据文件;若存在非重合检索关键词,则直接根据非重合检索关键词检索原始数据文件,得到待查询语句对应的原始数据文件。本发明提高了分布式存储查询服务的检索效率。
Description
技术领域
本发明属于数据检索服务技术领域,特别是涉及一种分布式终端数据查询系统及方法。
背景技术
由于存储硬件限制以及用户的广泛分布,使得数据的查询终端和存储服务器都不会是位于同一位置,需要数据的存储和查询均需要分布式部署。但是受限于分布式部署的节点之间的通讯带宽有限,难以保障高并发的查询请求。不仅如此,频繁对分散部署的存储服务器进行全盘检索也容易导致存储设备过载,降低数据检索的效率。
在公开号为CN115422293A的专利中公开了一种分布式数据库及其数据检索方法,涉及数据检索技术领域,所述分布式数据库包括处理模块、聚合模块和存储模块。本发明能够对时序数据段的时间段、时间精度和时间热度进行评估,从而将时间段、时间精度和时间热度均相同的聚合文件均匀地分散在不同的数据存储节点上。上述方案需要对文件进行迁移平衡操作,部署效率较低,而且检索过程中需要对源数据文件进行检索操作,消耗大量数据读取性能。
发明内容
本发明的目的在于提供一种分布式终端数据查询系统及方法,通过对原始文件进行词频分析后创建文件关键词与原始文件存储地址的映射进行分类,提高了分布式存储查询服务的检索效率。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明提供一种分布式终端数据查询方法,包括,
提取所述原始数据文件;
根据所述原始数据文件获取文件关键词;
建立所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射;
获取用户输入的待查询语句;
将所述待查询语句转化为若干个检索关键词;
根据所述检索关键词匹配所述文件关键词得到重合关键词和/或非重合检索关键词;
根据所述重合关键词以及所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射获取所述待查询语句对应的所述原始数据文件;
若存在所述非重合检索关键词,则直接根据所述非重合检索关键词检索所述原始数据文件,得到所述待查询语句对应的所述原始数据文件;
建立所述非重合检索关键词与对应所述原始数据文件的存储地址的映射;
将所述非重合检索关键词纳入所述文件关键词。
在本发明的一个实施例中,所述根据所述原始数据文件获取文件关键词的步骤,包括,
建立文件关键词数据库和字典缓存数据库,其中所述文件关键词数据库中记录每个所述文件关键词以及对应的出现数量;
按照每个所述原始数据文件的存储地址的字符串大小顺序依次在所述原始数据文件中提取出若干个字典关键词;
对于每一个所述原始数据文件,将提取出来的所述字典关键词存入字典缓存数据库;
对所述字典缓存数据库中的所述字典关键词进行词频统计得到每个所述字典关键词的出现数量;
获取所述文件关键词数据库中已存入的所述文件关键词以及对应的出现数量;
将所述字典缓存数据库中的所述字典关键词作为所述文件关键词存入所述文件关键词数据库,并累加对应的出现数量;
根据累加后对应的出现数量对所述文件关键词数据库中的所述文件关键词进行排序。
在本发明的一个实施例中,所述对于每一个所述原始数据文件,将提取出来的所述字典关键词存入字典缓存数据库的步骤,包括,
对于每一个所述原始数据文件,获取对应所述原始数据文件的字节长度;
将所述字典缓存数据库的划分为与对应所述原始数据文件的字节长度数量的虚拟字典存储单元;
对每个所述虚拟字典存储单元进行顺序编号;
按照每一个所述原始数据文件的文本逻辑顺序提取出首个所述字典关键词存入顺序编号最大的所述虚拟字典存储单元;
将后续提取出来的所述字典关键词存入顺序编号最大的所述虚拟字典存储单元;
若后续提取出来的所述字典关键词与顺序编号最大的所述虚拟字典存储单元内存入的所述字典关键词相同则对对应的所述字典关键词的出现数量进行增加,并将出现数量增加的所述字典关键词转存入顺序编号在先的所述虚拟字典存储单元;
若将出现数量增加的所述字典关键词转存入顺序编号在先的所述虚拟字典存储单元后与转存入的所述虚拟字典存储单元内的所述字典关键词相同则对对应的所述字典关键词的出现数量进行增加,并将出现数量增加的所述字典关键词转存入顺序编号在先的所述虚拟字典存储单元;
直至按照所述字典关键词的出现数量将所述字典关键词分类至顺序编号不同的所述虚拟字典存储单元,且,将该所述原始数据文件全部所述字典关键词提取存入所述虚拟字典存储单元。
在本发明的一个实施例中,所述将所述字典缓存数据库中的所述字典关键词作为所述文件关键词存入所述文件关键词数据库,并累加对应的出现数量的步骤,包括,
按照所述虚拟字典存储单元的顺序编号由小至大逐个获取将所述字典关键词作为所述文件关键词;
将所述字典关键词转化的所述文件关键词按照所述文件关键词数据库中所述文件关键词的出现数量的顺序进行逐个对比;
将对比一致的所述文件关键词在所述字典缓存数据库中记录的出现数量累加至在所述文件关键词数据库中记录的出现数量。
在本发明的一个实施例中,所述建立所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射的步骤,包括,
根据所述文件关键词数据库中所述文件关键词的排序顺序将所述文件关键词划分为超高频文件关键词、高频文件关键词以及低频文件关键词,其中,所述高频文件关键词包括所述超高频文件关键词;
获取所述超高频文件关键词、所述高频文件关键词的存储地址以及所述低频文件关键词;
分别获取所述超高频文件关键词和所述超高频文件关键词的存储地址的映射、所述高频文件关键词和所述高频文件关键词的存储地址的映射以及所述低频文件关键词和所述低频文件关键词的存储地址的映射;
将所述超高频文件关键词和所述超高频文件关键词的存储地址的映射、所述高频文件关键词和所述高频文件关键词的存储地址的映射以及所述低频文件关键词和所述低频文件关键词的存储地址的映射分离存储。
在本发明的一个实施例中,所述将所述超高频文件关键词和所述超高频文件关键词的存储地址的映射、所述高频文件关键词和所述高频文件关键词的存储地址的映射以及所述低频文件关键词和所述低频文件关键词的存储地址的映射分离存储的步骤,包括,
分别设置客户端检索数据库、交互检索数据库以及文件存储检索数据库;
将所述超高频文件关键词和所述超高频文件关键词的存储地址的映射存储至所述客户端检索数据库;
将所述高频文件关键词和所述高频文件关键词的存储地址的映射存储至所述交互检索数据库;
将所述低频文件关键词和所述低频文件关键词的存储地址的映射存储至所述文件存储检索数据库。
在本发明的一个实施例中,所述根据所述检索关键词匹配所述文件关键词得到重合关键词和/或非重合检索关键词的步骤,包括,
将所述检索关键词与所述客户端检索数据库进行匹配检索;
若没有检索出重合检索关键词,则将所述检索关键词与所述交互检索数据库进行匹配检索;
若没有检索出重合检索关键词,则将所述检索关键词与所述文件存储检索数据库进行检索;
若没有检索出重合检索关键词,则获取所述非重合检索关键词;
若检索比对出重合检索关键词,则获取所述重合检索关键词。
在本发明的一个实施例中,所述将所述非重合检索关键词纳入所述文件关键词的步骤,包括,
将所述非重合检索关键词以及对应的所述原始数据文件的存储地址存储至所述客户端检索数据库。
本发明还公开了一种分布式终端数据查询系统,包括,
文件存储服务器阵列,用于存储原始数据文件;
文件检索服务器阵列,用于提取所述原始数据文件;
根据所述原始数据文件获取文件关键词;
建立所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射;
查询终端,用于获取用户输入的待查询语句;
交互服务器阵列,用于将所述待查询语句转化为若干个检索关键词;
根据所述检索关键词匹配所述文件关键词得到重合关键词和/或非重合检索关键词;
根据所述重合关键词以及所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射获取所述待查询语句对应的所述原始数据文件;
若存在所述非重合检索关键词,则直接根据所述非重合检索关键词检索所述原始数据文件,得到所述待查询语句对应的所述原始数据文件;
建立所述非重合检索关键词与对应所述原始数据文件的存储地址的映射;
将所述非重合检索关键词纳入所述文件关键词。
在本发明的一个实施例中,所述文件关键词划分为超高频文件关键词、高频文件关键词以及低频文件关键词,分别存储至客户端检索数据库、交互检索数据库以及文件存储检索数据库,其中,所述高频文件关键词包括所述超高频文件关键词;
所述客户端检索数据库存储于所述查询终端;
所述交互检索数据库存储于所述交互服务器阵列;
文件存储检索数据库存储于所述文件检索服务器阵列。
本发明通过对原始数据文件进行分析得到对应的文件关键词,建立文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射,在查询检索的过程中将用户的查询语句转化为检索关键词,通过检索关键词与文件关键词的检索匹配快速获取对应原始数据文件对应的存储地址。本方案将分散部署的原始数据文件通过提取文件关键词的形式进行有限度的集中化存储,提高了数据的查询效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所述一种分布式终端数据查询方法于一实施例的步骤流程示意图;
图2为本发明所述步骤S2于一实施例的步骤流程示意图;
图3为本发明所述步骤S23于一实施例的步骤流程示意图;
图4为本发明所述步骤S26于一实施例的步骤流程示意图;
图5为本发明所述步骤S3于一实施例的步骤流程示意图;
图6为本发明所述步骤S34于一实施例的步骤流程示意图;
图7为本发明所述步骤S6于一实施例的步骤流程示意图;
图8为本发明所述一种分布式终端数据查询系统于一实施例的模块结构示意图;
图9为本发明所述一种分布式终端数据查询系统于一实施例的信息流向示意图;
附图中,各标号所代表的部件列表如下:
1-文件存储服务器阵列,2-文件检索服务器阵列,3-交互服务器阵列,4-查询终端。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了提高分布式部署的数据库的查询检索速度,本发明提供以下方案。
请参阅图1和8所示,本发明提供了一种分布式终端数据查询方法和系统,可以包括文件存储服务器阵列1、文件检索服务器阵列2、交互服务器阵列3以及查询终端。由于是面对分布式部署的数据存储设备进行检索操作,如果是将待查询语句发送到每个数据存储设备执行检索操作,之后再将检索操作返回查询的设备端,不仅响应延迟较大,而且还大量消耗数据存储设备的数据读取性能。为了避免上述的问题,首先可以由文件存储服务器阵列1执行步骤S1在不执行查询操作的空闲时间提取原始数据文件。之后可以由文件检索服务器阵列2执行步骤S2根据原始数据文件获取文件关键词,可以是基于语义分析对原始数据文件中的自然语言进行分割,得到文件关键词。接下来可以执行步骤S3建立文件关键词与具有文件关键词的原始数据文件的存储地址的映射。接下来可以由查询终端3执行步骤S4获取用户输入的待查询语句,查询语句为用户自主输入的自然语言。接下来可以由交互服务器阵列4执行步骤S5将待查询语句转化为若干个检索关键词,可以是基于与获取文件关键词相同的语义分割方式的转化方法得到检索关键词。接下来可以执行步骤S6根据检索关键词匹配文件关键词得到重合关键词和/或非重合检索关键词。接下来可以执行步骤S7根据重合关键词以及文件关键词与具有文件关键词的原始数据文件的存储地址的映射获取待查询语句对应的原始数据文件。通过以上方式仅仅通过比对文件关键词和检索关键词比对即可实现快速查询得到原始数据文件。
但以上的关键词比对可能会出现无法匹配的现象,也就是出现了非重合检索关键词,则接下来可以执行步骤S8直接根据非重合检索关键词检索原始数据文件,得到待查询语句对应的原始数据文件,也就是直接对原始数据文件执行查询操作。但是为了避免相同的检索关键词导致重复检索,接下来可以执行步骤S9建立非重合检索关键词与对应原始数据文件的存储地址的映射,接下来可以执行步骤S10将非重合检索关键词纳入文件关键词,避免后续执行同样的检索关键词查询的时候还重复检索原始数据问题,进一步提高数据查询的速度。
请参阅图2所示,为了从原始数据文件中提取文件关键词,上述的步骤S2中首先可以执行步骤S21建立文件关键词数据库和字典缓存数据库,其中文件关键词数据库中记录每个文件关键词以及对应的出现数量。接下来可以执行步骤S22按照每个原始数据文件的存储地址的字符串大小顺序依次在原始数据文件中提取出若干个字典关键词。接下来可以执行步骤S23对于每一个原始数据文件,将提取出来的字典关键词存入字典缓存数据库。接下来可以执行步骤S24对字典缓存数据库中的字典关键词进行词频统计得到每个字典关键词的出现数量。接下来可以执行步骤S25获取文件关键词数据库中已存入的文件关键词以及对应的出现数量。接下来可以执行步骤S26将字典缓存数据库中的字典关键词作为文件关键词存入文件关键词数据库,并累加对应的出现数量。接下来可以执行步骤S27根据累加后对应的出现数量对文件关键词数据库中的文件关键词进行排序。通过统计文件关键词中文件关键词的词频,并且按照词频高低进行排序,通过优先检索词频高的文件关键词提高了检索的命中率,也就是提高了数据查询的效率。
请参阅图3所示,为了具体实现对文件关键词的排序,上述的步骤S23中首先可以执行步骤S231对于每一个原始数据文件,获取对应原始数据文件的字节长度。接下来可以执行步骤S232将字典缓存数据库的划分为与对应原始数据文件的字节长度数量的虚拟字典存储单元。接下来可以执行步骤S233对每个虚拟字典存储单元进行顺序编号。接下来可以执行步骤S234按照每一个原始数据文件的文本逻辑顺序提取出首个字典关键词存入顺序编号最大的虚拟字典存储单元。接下来可以执行步骤S235将后续提取出来的字典关键词存入顺序编号最大的虚拟字典存储单元。之后执行步骤S236判断后续提取出来的字典关键词与顺序编号最大的虚拟字典存储单元内存入的字典关键词相同则接下来可以执行步骤S238对对应的字典关键词的出现数量进行增加,并执行步骤S239将出现数量增加的字典关键词转存入顺序编号在先的虚拟字典存储单元;之后执行步骤S237判断将出现数量增加的字典关键词转存入顺序编号在先的虚拟字典存储单元后与转存入的虚拟字典存储单元内的字典关键词相同则接下来可以执行步骤S238对对应的字典关键词的出现数量进行增加,并执行步骤S239将出现数量增加的字典关键词转存入顺序编号在先的虚拟字典存储单元。重复以上步骤直至按照字典关键词的出现数量将字典关键词分类至顺序编号不同的虚拟字典存储单元,且将该原始数据文件全部字典关键词提取存入虚拟字典存储单元。但是需要说明的是字典缓存数据库存储在随机存储器内,每次完成一个原始数据文件的分析之后即清空一次虚拟字典存储单元。
请参阅图4所示,为了将字典缓存数据库中的字典关键词转存到文件关键词数据库,上述的步骤S26中首先可以执行步骤S261按照虚拟字典存储单元的顺序编号由小至大逐个获取将字典关键词作为文件关键词。接下来可以执行步骤S262将字典关键词转化的文件关键词按照文件关键词数据库中文件关键词的出现数量的顺序进行逐个对比。最后可以执行步骤S263将对比一致的文件关键词在字典缓存数据库中记录的出现数量累加至在文件关键词数据库中记录的出现数量。
请参阅图5所示,为了建立文件关键词与具有文件关键词的原始数据文件的存储地址的映射,上述的步骤S3在执行的过程中首先可以执行步骤S31根据文件关键词数据库中文件关键词的排序顺序将文件关键词划分为超高频文件关键词、高频文件关键词以及低频文件关键词,为了提高数据查询的容错率和可靠性,可以通过提高存储硬件成本的情况下提高数据查询的性能,具体而言及时高频文件关键词包括超高频文件关键词,通过将超高频文件关键词进行互为备份,使得多个用户可以共享同一份高频文件关键词,提高了分布式部署的查询终端的查询命中率。接下来可以执行步骤S32获取超高频文件关键词、高频文件关键词的存储地址以及低频文件关键词。接下来可以执行步骤S33分别获取超高频文件关键词和超高频文件关键词的存储地址的映射、高频文件关键词和高频文件关键词的存储地址的映射以及低频文件关键词和低频文件关键词的存储地址的映射。最后可以执行步骤S34将超高频文件关键词和超高频文件关键词的存储地址的映射、高频文件关键词和高频文件关键词的存储地址的映射以及低频文件关键词和低频文件关键词的存储地址的映射分离存储,从而实现关键词的分层对比,在系统硬件分布式部署状态下提高数据查询的速度,同时兼顾硬件成本,避免在每个硬件上都存储全部的文件关键词。
请参阅图6和9所示,对了实现对超高频文件关键词、高频文件关键词、低频文件关键词以及对应的存储地址的分类存储,上述的步骤S34中首先可以执行步骤S341分别设置客户端检索数据库、交互检索数据库以及文件存储检索数据库。接下来可以执行步骤S342将超高频文件关键词和超高频文件关键词的存储地址的映射存储至客户端检索数据库,客户端检索数据库存储在查询终端3。接下来可以执行步骤S343将高频文件关键词和高频文件关键词的存储地址的映射存储至交互检索数据库,交互检索数据库存储在交互服务器阵列4。接下来可以执行步骤S344将低频文件关键词和低频文件关键词的存储地址的映射存储至文件存储检索数据库,文件存储检索数据库存储在文件检索服务器阵列2。在系统运行中,用户接触到的是查询终端3,将客户端检索数据库存储在查询终端3能够将优先检索匹配超高频文件关键词,提高了数据查询的命中概率,从而提高了查询的效率。在实际应用中,文件存储服务器阵列的存储硬件可以是机械硬盘和磁带机,文件检索服务器阵列2可以是机械硬盘,查询终端3的存储硬件可以是机械硬盘,交互服务器阵列4的存储硬件可以是随机存储器。
请参阅图7所示,数据查询,也就是检索关键词与文件关键词的匹配的具体过程首先可以执行步骤S61将检索关键词与客户端检索数据库进行匹配检索。若没有检索出重合检索关键词,则接下来可以执行步骤S62将检索关键词与交互检索数据库进行匹配检索。若没有检索出重合检索关键词,则接下来可以执行步骤S63将检索关键词与文件存储检索数据库进行检索。若没有检索出重合检索关键词,则接下来可以执行步骤S64获取非重合检索关键词。若检索比对出重合检索关键词,则接下来可以执行步骤S65获取重合检索关键词。由于非重合关键词无法实现关键词比对,因此只能直接对原始数据文件进行检索,在检索之后可以将非重合检索关键词以及对应的原始数据文件的存储地址存储至客户端检索数据库。也就是将上一轮的非重合检索关键词纳入最先被用户接触到的客户端检索数据库,便于下一轮的检索,也能够最大程度提高以后关键词比对的命中率。
综上所述,本方案在实施的过程中,分别从原始数据文件和待查询语句中提取出文件关键词和检索关键词,之后通过比对文件关键词和检索关键词的方式降低了数据查询的硬件开销,提高了效率。不仅如此,还将文件关键词按照词频进行分类存储,增加了文件关键词和检索关键词比对的命中概率,从而进一步提高了检索的效率。
本发明所示实施例的上述描述(包括在说明书摘要中的内容)并非意在详尽列举或将本发明限制到本文所公开的精确形式。尽管在本文仅为说明的目的而描述了本发明的具体实施例和本发明的实例,但是正如本领域技术人员将认识和理解的,各种等效修改是可以在本发明的精神和范围内的。如所指出的,可以按照本发明实施例的上述描述来对本发明进行这些修改,并且这些修改将在本发明的精神和范围内。
本文已经在总体上将系统和方法描述为有助于理解本发明的细节。此外,已经给出了各种具体细节以提供本发明实施例的总体理解。然而,相关领域的技术人员将会认识到,本发明的实施例可以在没有一个或多个具体细节的情况下进行实践,或者利用其它装置、系统、配件、方法、组件、材料、部分等进行实践。在其它情况下,并未特别示出或详细描述公知结构、材料和/或操作以避免对本发明实施例的各方面造成混淆。
因而,尽管本发明在本文已参照其具体实施例进行描述,但是修改自由、各种改变和替换意在上述公开内,并且应当理解,在某些情况下,在未背离所提出发明的范围和精神的前提下,在没有对应使用其他特征的情况下将采用本发明的一些特征。因此,可以进行许多修改,以使特定环境或材料适应本发明的实质范围和精神。本发明并非意在限制到在下面权利要求书中使用的特定术语和/或作为设想用以执行本发明的最佳方式公开的具体实施例,但是本发明将包括落入所附权利要求书范围内的任何和所有实施例及等同物。因而,本发明的范围将只由所附的权利要求书进行确定。
Claims (8)
1.一种分布式终端数据查询方法,其特征在于,包括,
提取原始数据文件;
根据所述原始数据文件获取文件关键词;
建立所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射;
获取用户输入的待查询语句;
将所述待查询语句转化为若干个检索关键词;
根据所述检索关键词匹配所述文件关键词得到重合关键词和/或非重合检索关键词;
根据所述重合关键词以及所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射获取所述待查询语句对应的所述原始数据文件;
若存在所述非重合检索关键词,则直接根据所述非重合检索关键词检索所述原始数据文件,得到所述待查询语句对应的所述原始数据文件;
建立所述非重合检索关键词与对应所述原始数据文件的存储地址的映射;
将所述非重合检索关键词纳入所述文件关键词;
其中,所述根据所述原始数据文件获取文件关键词的步骤,包括,
建立文件关键词数据库和字典缓存数据库,其中所述文件关键词数据库中记录每个所述文件关键词以及对应的出现数量;
按照每个所述原始数据文件的存储地址的字符串大小顺序依次在所述原始数据文件中提取出若干个字典关键词;
对于每一个所述原始数据文件,将提取出来的所述字典关键词存入字典缓存数据库;
对所述字典缓存数据库中的所述字典关键词进行词频统计得到每个所述字典关键词的出现数量;
获取所述文件关键词数据库中已存入的所述文件关键词以及对应的出现数量;
将所述字典缓存数据库中的所述字典关键词作为所述文件关键词存入所述文件关键词数据库,并累加对应的出现数量;
根据累加后对应的出现数量对所述文件关键词数据库中的所述文件关键词进行排序;其中,
所述对于每一个所述原始数据文件,将提取出来的所述字典关键词存入字典缓存数据库的步骤,包括,
对于每一个所述原始数据文件,获取对应所述原始数据文件的字节长度;
将所述字典缓存数据库划分为与对应所述原始数据文件的字节长度数量相同的虚拟字典存储单元;
对每个所述虚拟字典存储单元进行顺序编号;
按照每一个所述原始数据文件的文本逻辑顺序提取出首个所述字典关键词存入顺序编号最大的所述虚拟字典存储单元;
将后续提取出来的所述字典关键词存入顺序编号最大的所述虚拟字典存储单元;
若后续提取出来的所述字典关键词与顺序编号最大的所述虚拟字典存储单元内存入的所述字典关键词相同则对对应的所述字典关键词的出现数量进行增加,并将出现数量增加的所述字典关键词转存入顺序编号在先的所述虚拟字典存储单元;
若将出现数量增加的所述字典关键词转存入顺序编号在先的所述虚拟字典存储单元后与转存入的所述虚拟字典存储单元内的所述字典关键词相同则对对应的所述字典关键词的出现数量进行增加,并将出现数量增加的所述字典关键词转存入顺序编号在先的所述虚拟字典存储单元;
直至按照所述字典关键词的出现数量将所述字典关键词分类至顺序编号不同的所述虚拟字典存储单元,且,将该所述原始数据文件全部所述字典关键词提取存入所述虚拟字典存储单元。
2.根据权利要求1所述的方法,其特征在于,所述将所述字典缓存数据库中的所述字典关键词作为所述文件关键词存入所述文件关键词数据库,并累加对应的出现数量的步骤,包括,
按照所述虚拟字典存储单元的顺序编号由小至大逐个获取将所述字典关键词作为所述文件关键词;
将所述字典关键词转化的所述文件关键词按照所述文件关键词数据库中所述文件关键词的出现数量的顺序进行逐个对比;
将对比一致的所述文件关键词在所述字典缓存数据库中记录的出现数量累加至在所述文件关键词数据库中记录的出现数量。
3.根据权利要求1所述的方法,其特征在于,所述建立所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射的步骤,包括,
根据所述文件关键词数据库中所述文件关键词的排序顺序将所述文件关键词划分为超高频文件关键词、高频文件关键词以及低频文件关键词,其中,所述高频文件关键词包括所述超高频文件关键词;
获取所述超高频文件关键词、所述高频文件关键词的存储地址以及所述低频文件关键词;
分别获取所述超高频文件关键词和所述超高频文件关键词的存储地址的映射、所述高频文件关键词和所述高频文件关键词的存储地址的映射以及所述低频文件关键词和所述低频文件关键词的存储地址的映射;
将所述超高频文件关键词和所述超高频文件关键词的存储地址的映射、所述高频文件关键词和所述高频文件关键词的存储地址的映射以及所述低频文件关键词和所述低频文件关键词的存储地址的映射分离存储。
4.根据权利要求3所述的方法,其特征在于,所述将所述超高频文件关键词和所述超高频文件关键词的存储地址的映射、所述高频文件关键词和所述高频文件关键词的存储地址的映射以及所述低频文件关键词和所述低频文件关键词的存储地址的映射分离存储的步骤,包括,
分别设置客户端检索数据库、交互检索数据库以及文件存储检索数据库;
将所述超高频文件关键词和所述超高频文件关键词的存储地址的映射存储至所述客户端检索数据库;
将所述高频文件关键词和所述高频文件关键词的存储地址的映射存储至所述交互检索数据库;
将所述低频文件关键词和所述低频文件关键词的存储地址的映射存储至所述文件存储检索数据库。
5.根据权利要求4所述的方法,其特征在于,所述根据所述检索关键词匹配所述文件关键词得到重合关键词和/或非重合检索关键词的步骤,包括,
将所述检索关键词与所述客户端检索数据库进行匹配检索;
若没有检索出重合检索关键词,则将所述检索关键词与所述交互检索数据库进行匹配检索;
若没有检索出重合检索关键词,则将所述检索关键词与所述文件存储检索数据库进行检索;
若没有检索出重合检索关键词,则获取所述非重合检索关键词;
若检索比对出重合检索关键词,则获取所述重合检索关键词。
6.根据权利要求4所述的方法,其特征在于,所述将所述非重合检索关键词纳入所述文件关键词的步骤,包括,
将所述非重合检索关键词以及对应的所述原始数据文件的存储地址存储至所述客户端检索数据库。
7.一种分布式终端数据查询系统,其特征在于,包括,
文件存储服务器阵列,用于存储原始数据文件;
文件检索服务器阵列,用于提取所述原始数据文件;
根据所述原始数据文件获取文件关键词;
建立所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射;
查询终端,用于获取用户输入的待查询语句;
交互服务器阵列,用于将所述待查询语句转化为若干个检索关键词;
根据所述检索关键词匹配所述文件关键词得到重合关键词和/或非重合检索关键词;
根据所述重合关键词以及所述文件关键词与具有所述文件关键词的所述原始数据文件的存储地址的映射获取所述待查询语句对应的所述原始数据文件;
若存在所述非重合检索关键词,则直接根据所述非重合检索关键词检索所述原始数据文件,得到所述待查询语句对应的所述原始数据文件;
建立所述非重合检索关键词与对应所述原始数据文件的存储地址的映射;
将所述非重合检索关键词纳入所述文件关键词;
所述根据所述原始数据文件获取文件关键词的步骤,包括,
建立文件关键词数据库和字典缓存数据库,其中所述文件关键词数据库中记录每个所述文件关键词以及对应的出现数量;
按照每个所述原始数据文件的存储地址的字符串大小顺序依次在所述原始数据文件中提取出若干个字典关键词;
对于每一个所述原始数据文件,将提取出来的所述字典关键词存入字典缓存数据库;
对所述字典缓存数据库中的所述字典关键词进行词频统计得到每个所述字典关键词的出现数量;
获取所述文件关键词数据库中已存入的所述文件关键词以及对应的出现数量;
将所述字典缓存数据库中的所述字典关键词作为所述文件关键词存入所述文件关键词数据库,并累加对应的出现数量;
根据累加后对应的出现数量对所述文件关键词数据库中的所述文件关键词进行排序;其中,
所述对于每一个所述原始数据文件,将提取出来的所述字典关键词存入字典缓存数据库的步骤按照权利要求1至6任一项所述的方法执行。
8.根据权利要求7所述的系统,其特征在于,
所述文件关键词划分为超高频文件关键词、高频文件关键词以及低频文件关键词,分别存储至客户端检索数据库、交互检索数据库以及文件存储检索数据库,其中,所述高频文件关键词包括所述超高频文件关键词;
所述客户端检索数据库存储于所述查询终端;
所述交互检索数据库存储于所述交互服务器阵列;
文件存储检索数据库存储于所述文件检索服务器阵列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712717.XA CN115840785B (zh) | 2022-12-30 | 2022-12-30 | 一种分布式终端数据查询系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712717.XA CN115840785B (zh) | 2022-12-30 | 2022-12-30 | 一种分布式终端数据查询系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115840785A CN115840785A (zh) | 2023-03-24 |
CN115840785B true CN115840785B (zh) | 2023-06-09 |
Family
ID=85577561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211712717.XA Active CN115840785B (zh) | 2022-12-30 | 2022-12-30 | 一种分布式终端数据查询系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115840785B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260354A (zh) * | 2015-08-20 | 2016-01-20 | 及时标讯网络信息技术(北京)有限公司 | 一种基于关键词字典树构造的中文ac自动机工作方法 |
CN114721582A (zh) * | 2021-01-05 | 2022-07-08 | 中国移动通信有限公司研究院 | 信息共享方法、装置及相关设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
CN108062406B (zh) * | 2017-12-28 | 2020-08-28 | 中国联合网络通信集团有限公司 | 索引文件的构建方法及装置、检索方法和服务器 |
CN109815499B (zh) * | 2019-01-25 | 2023-05-23 | 杭州凡闻科技有限公司 | 信息关联方法和系统 |
CN114298020B (zh) * | 2021-12-30 | 2024-07-02 | 南京邮电大学 | 一种基于主题语义信息的关键词向量化方法及其应用 |
-
2022
- 2022-12-30 CN CN202211712717.XA patent/CN115840785B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260354A (zh) * | 2015-08-20 | 2016-01-20 | 及时标讯网络信息技术(北京)有限公司 | 一种基于关键词字典树构造的中文ac自动机工作方法 |
CN114721582A (zh) * | 2021-01-05 | 2022-07-08 | 中国移动通信有限公司研究院 | 信息共享方法、装置及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115840785A (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7797265B2 (en) | Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters | |
US9589208B2 (en) | Retrieval of similar images to a query image | |
US6567810B1 (en) | Efficient and effective distributed information management | |
US8781817B2 (en) | Phrase based document clustering with automatic phrase extraction | |
CN102760138B (zh) | 用户网络行为的分类方法和装置及对应的搜索方法和装置 | |
US7711668B2 (en) | Online document clustering using TFIDF and predefined time windows | |
US6502091B1 (en) | Apparatus and method for discovering context groups and document categories by mining usage logs | |
US8244767B2 (en) | Composite locality sensitive hash based processing of documents | |
Dhulavvagol et al. | Performance analysis of distributed processing system using shard selection techniques on elasticsearch | |
US9262511B2 (en) | System and method for indexing streams containing unstructured text data | |
WO2012026140A1 (ja) | データベース処理方法、データベース処理システム及びデータベースサーバ | |
KR101656750B1 (ko) | 인덱스정보를 생성하는 데이터베이스의 아카이빙 방법 및 장치, 인덱스정보를 포함하는 아카이빙된 데이터베이스의 검색 방법 및 장치 | |
Cheng et al. | Supporting entity search: a large-scale prototype search engine | |
JP2019512125A (ja) | データベースのアーカイビング方法及び装置、アーカイビングされたデータベースの検索方法及び装置 | |
US8484221B2 (en) | Adaptive routing of documents to searchable indexes | |
Dhulavvagol et al. | Topic based partitioning for selective search using sharding technique | |
CN115840785B (zh) | 一种分布式终端数据查询系统及方法 | |
CN110442614B (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
CN115794861A (zh) | 基于特征摘要的离线数据查询复用方法及其应用 | |
CN114610960A (zh) | 基于item2vec和向量聚类的实时推荐方法 | |
CN114417179A (zh) | 一种面向大规模知识库群的元搜索引擎处理方法和装置 | |
CN112883143A (zh) | 一种基于Elasticsearch的数字展会搜索方法与系统 | |
Henrique et al. | A new approach for verifying url uniqueness in web crawlers | |
Ye et al. | Generalized learning of neural network based semantic similarity models and its application in movie search | |
Guo et al. | An improved image retrieval method based on spark |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |