CN113254767A - 大数据搜索方法、装置、计算机设备及存储介质 - Google Patents
大数据搜索方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113254767A CN113254767A CN202110570310.7A CN202110570310A CN113254767A CN 113254767 A CN113254767 A CN 113254767A CN 202110570310 A CN202110570310 A CN 202110570310A CN 113254767 A CN113254767 A CN 113254767A
- Authority
- CN
- China
- Prior art keywords
- data
- storage
- big data
- hash value
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000000547 structure data Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
- G06F16/137—Hash-based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
- G06F16/1824—Distributed file systems implemented using Network-attached Storage [NAS] architecture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3236—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions
- H04L9/3239—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using cryptographic hash functions involving non-keyed hash functions, e.g. modification detection codes [MDCs], MD5, SHA or RIPEMD
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/50—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols using hash chains, e.g. blockchains or hash trees
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例属于大数据领域,涉及一种大数据搜索方法、装置、计算机设备及存储介质,方法包括:通过客户端获取数据搜索指令;将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果;所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据,并返回到所述客户端;所述分布式存储服务器包括多个存储节点,所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;存储节点向存储区块链中的所有节点广播自己的身份信息;各个存储节点根据身份信息进行点对点数据交换。可以提高大数据搜索的速度。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及大数据搜索方法、装置、计算机设备及存储介质。
背景技术
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术以有效地处理大量的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。但是,现有的技术方案受带宽、容量以及安全的影响存在容易出现大数据搜索单点故障、搜索速度较慢等缺点。
发明内容
本申请实施例的目的在于提出一种大数据搜索方法、装置、计算机设备及存储介质,以提高大数据搜索的速度。
为了解决上述技术问题,本申请实施例提供一种大数据搜索方法,采用了如下所述的技术方案:
包括下述步骤:
通过客户端获取数据搜索指令;
将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果;
所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据,并返回到所述客户端;所述分布式存储服务器包括多个存储节点,所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:
存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;
存储节点向存储区块链中的所有节点广播自己的身份信息;
各个存储节点根据身份信息进行点对点数据交换。
进一步的,所述客户端包括WEB网页客户端,所述数据搜索指令包括待搜索数据特征信息和页面数据。
进一步的,所述方法还包括数据存储过程,所述数据存储过程具体包括:
通过所述WEB网页客户端获取待存储数据;
将所述WEB网页客户端的页面数据和所述待存储数据组成结构数据;
通过所述大数据处理服务器对所述结构数据进行标签化处理并存储。
进一步的,所述通过所述大数据处理服务器对所述结构数据进行标签化处理并存储,包括:
通过哈希算法对所述结构数据和所述待存储数据分别进行计算,对应得到第一哈希值和第二哈希值;
将所述第一哈希值、所述第二哈希值以及所述分布式存储服务器的地址信息绑定后存入大数据处理服务器的搜索表中,并向客户端输出存储结果,所述存储结果包括第二哈希值;
将所述第二哈希值以及所述结构数据绑定后存储到所述分布式存储服务器上。
进一步的,所述将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果,包括:
所述大数据处理服务器基于所述数据搜索指令中的待搜索数据的特征信息获取第二哈希值;
所述大数据处理服务器提取所述数据搜索指令中的页面数据生成第三哈希值。
进一步的,所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据的步骤包括:
基于所述第二哈希值和所述第三哈希值得到第一哈希值;
根据所述第一哈希值,从所述大数据处理服务器上获得分布式存储服务器的至少一个存储节点的身份信息;
基于所述第二哈希值和所述存储节点信息从对应的存储节点获取待搜索数据并返回。
为了解决上述技术问题,本申请实施例还提供一种大数据搜索装置,采用了如下所述的技术方案:
所述大数据搜索加速装置,包括:
获取模块,用于通过客户端获取数据搜索指令;
解析模块,用于将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果;
返回模块,用于所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据,并返回到所述客户端;所述分布式存储服务器包括多个存储节点,所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;存储节点向存储区块链中的所有节点广播自己的身份信息;各个存储节点根据身份信息进行点对点数据交换。
为了解决上述技术问题,本申请实施例还提供一种大数据搜索系统,采用了如下所述的技术方案:
包括用于获取用户输入数据搜索指令的WEB网页客户端、解析所述数据搜索指令的大数据处理服务器以及以区块链进行连接和通信的分布式存储服务器,所述分布式存储服务器包括多个存储节点,所述大数据处理服务器解析所述数据搜索指令并根据解析结果从所述分布式存储服务器的至少一个存储节点获取对应的数据并返回所述客户端;所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;存储节点向存储区块链中的所有节点广播自己的身份信息;各个存储节点根据身份信息进行点对点数据交换。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
所述计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中提出的任一项所述的大数据搜索方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例中提出的任一项所述的大数据搜索方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:通过网页客户端获取到数据搜索指令后,传输到大数据处理服务器进行解析,从中解析出待搜索数据的特征信息和网页数据,并分别生成对应的哈希值,然后基于哈希值到对应的分布式存储服务器的点对点通信的区块链存储节点上进行数据查找,从而可以避免大数据搜索时出现单点故障的情况,且可以提高大数据搜索的速度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请的大数据搜索方法的一个实施例的流程图;
图2是根据本申请的大数据搜索装置的一个实施例的结构示意图;
图3是根据本申请的大数据搜索系统基本结构框图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,图1示出了根据本申请的大数据搜索方法的一个实施例的流程图。所述的大数据搜索方法,包括以下步骤:
步骤101,通过客户端获取数据搜索指令。
在本实施例中,所述客户端包括WEB网页客户端,所述数据搜索指令包括待搜索数据特征信息和页面数据。获取的数据搜索指令方式可以是通过上述WEB网页客户端提供的HTML网页的方式获得,数据搜索指令可以是字符、图像信息或文本等。
需要说明的是,在进行大数据搜索之前,还需要进行大数据存储的过程,所述数据存储过程具体包括:
通过所述WEB网页客户端获取待存储数据;
将所述WEB网页客户端的页面数据和所述待存储数据组成结构数据;
通过所述大数据处理服务器对所述结构数据进行标签化处理并存储。
具体的,上述WEB网页客户端的页面数据可以是HTML文档数据,基于标准的HTTP协议报文生成,包括多个字段信息,如包括上述待存储数据的字段、客户端的地址信息字段等。
进一步的,所述通过所述大数据处理服务器对所述结构数据进行标签化处理并存储,包括:
通过哈希算法对所述结构数据和所述待存储数据分别进行计算,对应得到第一哈希值和第二哈希值;
将所述第一哈希值、所述第二哈希值以及所述分布式存储服务器的地址信息绑定后存入大数据处理服务器的搜索表中,并向客户端输出存储结果,所述存储结果包括第二哈希值;
将所述第二哈希值以及所述结构数据绑定后存储到所述分布式存储服务器上。
其中,哈希(Hash)算法是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值,简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。它可以将一个数据转换为一个标志,这个标志和源数据的每一个字节都有十分紧密的关系。Hash算法还具有一个特点,就是很难找到逆向规律。Hash算法是一个广义的算法,也可以认为是一种思想,使用Hash算法可以提高存储空间的利用率,可以提高数据的查询效率,也可以做数字签名来保障数据传递的安全性。所以Hash算法被广泛地应用在互联网应用中。
在本发明实施例中,通过哈希算法可以对上述结构数据和待存储数据分别进行计算,对应得到唯一的第一哈希值和第二哈希值,并可以以此作为上述结构数据和待存储数据的标签,与上述分布式存储服务器的地址信息进行绑定,一并存入大数据处理服务器的搜索表(哈希表)中,便于在大数据处理服务器中根据第一哈希值快速地搜索分布式存储服务器的地址,还可以将第二哈希值以及所述结构数据绑定后存储到所述分布式存储服务器上的存储节点上,便于根据第二哈希值在分布式存储服务器的存储节点找到对应的数据。
进一步的,当所述结构数据较大,一个存储节点无法完全存储时,或者出于安全考虑,可以将所述结构数据分割成多块,每一块数据都绑定对应的第二哈希值,然后再将每块数据分别存入其他存储节点。
其中,所述分布式存储服务器包括多个存储节点,所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,具体包括:
存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;
存储节点向存储区块链中的所有节点广播自己的身份信息;
各个存储节点根据身份信息进行点对点数据交换。
具体的,区块链上的每个存储节点可以运行在一个局域网络中,也可以运行在广域网中,并通过ICE NAT技术利用NAT方式打通网络,从而完成各个存储节点间的NAT连接而形成网络,并获得在区块链中的身份信息,然后存储节点向存储区块链中的所有节点广播自己的身份信息并获取其他存储节点的身份信息并存储到哈希表或数据库中,这样每个存储节点都会拥有其他存储节点的身份信息,身份信息包括网络地址和节点ID,存储节点之间通过身份信息实现点对点的通信。
步骤102,将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果。
在本发明实施例中,大数据处理服务器在接收到客户端的数据搜索指令时,可以对数据搜索指令进行相应的解析,从上述网页HTML文档数据中解析出待搜索数据的特征信息。
具体的,上述步骤102包括:
所述大数据处理服务器基于所述数据搜索指令中的待搜索数据的特征信息获取第二哈希值;
所述大数据处理服务器提取所述数据搜索指令中的页面数据生成第三哈希值。
从上述网页HTML文档数据中解析出待搜索数据的特征信息后,通过哈希算法计算对应的第二哈希值,并通过哈希算法将整个页面数据生成第三哈希值。
步骤103,所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据,并返回到所述客户端。
在本实施例中,所述分布式存储服务器的每个存储节点可以运行在一个局域网络中,也可以运行在广域网中,并通过ICE NAT技术利用NAT方式打通网络,从而完成各个存储节点间的NAT连接而形成网络,并获得在区块链中的身份信息,然后存储节点向存储区块链中的所有存储节点广播自己的身份信息并获取其他存储节点的身份信息并存储到哈希表或数据库中,这样每个存储节点都会拥有其他存储节点的身份信息,身份信息包括网络地址和节点ID,存储节点之间通过身份信息实现点对点的通信,从而形成链式的网状分布式存储服务器,便于快速通过存储节点的身份信息进行数据传输共享,例如本存储节点存储空间不够,或者出于安全考虑将数据分割成多块,则可以将多块数据传输到其他存储节点进行存储,直到完成存储。
所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据的步骤具体包括:
基于所述第二哈希值和所述第三哈希值得到第一哈希值;
根据所述第一哈希值,从所述大数据处理服务器上获得分布式存储服务器的至少一个存储节点的身份信息;
基于所述第二哈希值和所述存储节点的身份信息信息从对应的存储节点获取待搜索数据并返回。
将所述第二哈希值和所述第三哈希值进行组合,得到第一哈希值,并基于第一哈希值从所述大数据处理服务器上获得分布式存储服务器的存储节点的身份信息,然后基于所述第二哈希值和所述存储节点身份信息从对应的存储节点中获取待搜索数据并返回,如果在对应的存储节点中没有获取到待搜索数据或者只搜索到一部分数据,则在该存储节点的哈希表或者数据库中通过第二哈希值查找其他存储节点,并从其他节点获取对应所述第二哈希值的数据,然后根据身份信息进行点对点的数据传输,直到传输完成并将数据组装成待搜索数据后返回。
进一步的,在进行点对点数据传输前,需要进行身份验证,即数据发送节点在和数据获取节点交换数据前先验证数据获取节点的身份信息是否存储在本地哈希表或数据库中,具体可以通过验证节点ID是否存储在本节点来决定是否和数据获取节点建立点对点的连接;所述节点ID可以通过Kademlia等协议生成。
在本发明实施例中,通过WEB网页客户端获取到HTML格式的数据搜索指令后,传输到大数据处理服务器进行解析,从中解析出待搜索数据的特征信息和网页数据,并分别生成对应的哈希值,然后基于哈希值到对应的分布式存储服务器的点对点通信的区块链存储节点上进行数据查找,从而可以避免大数据搜索时出现单点故障的情况,且可以提高大数据搜索的速度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图2,作为对上述图1所示方法的实现,本申请提供了一种大数据搜索装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,本实施例所述的大数据搜索装置200包括:获取模块201、解析模块202、返回模块203。其中:
获取模块201,用于通过客户端获取数据搜索指令;
解析模块202,用于将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果;
返回模块203,用于所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据,并返回到所述客户端;所述分布式存储服务器包括多个存储节点,所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;存储节点向存储区块链中的所有节点广播自己的身份信息;各个存储节点根据身份信息进行点对点数据交换。
本申请实施例提供的大数据搜索装置能够实现图1的方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。
为解决上述技术问题,本申请实施例还提供一种大数据搜索系统,具体请参阅图3,图3为本实施例大数据搜索系统基本结构框图,大数据搜索系统300包括:用于获取用户输入数据搜索指令的WEB网页客户端301、解析所述数据搜索指令的大数据处理服务器302以及以区块链进行连接和通信的分布式存储服务器303,所述分布式存储服务器303包括多个存储节点,所述大数据处理服务器解析所述数据搜索指令并根据解析结果从所述分布式存储服务器的至少一个存储节点获取对应的数据并返回所述客户端;所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;存储节点向存储区块链中的所有节点广播自己的身份信息;各个存储节点根据身份信息进行点对点数据交换。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备16上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如大数据搜索方法的程序代码等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的程序代码或者处理数据,例如运行所述大数据搜索方法的程序代码。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有大数据搜索程序,所述大数据搜索程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的大数据搜索方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种大数据搜索方法,其特征在于,包括:
通过客户端获取数据搜索指令;
将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果;
所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据,并返回到所述客户端,所述分布式存储服务器包括多个存储节点;
所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:
存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;
存储节点向存储区块链中的所有节点广播自己的身份信息;
各个存储节点根据身份信息进行点对点数据交换。
2.如权利要求1所述的方法,其特征在于,所述客户端包括WEB网页客户端,所述数据搜索指令包括待搜索数据特征信息和页面数据。
3.如权利要求2所述的方法,其特征在于,所述方法还包括数据存储过程,所述数据存储过程具体包括:
通过所述WEB网页客户端获取待存储数据;
将所述WEB网页客户端的页面数据和所述待存储数据组成结构数据;
通过所述大数据处理服务器对所述结构数据进行标签化处理并存储。
4.如权利要求3所述的方法,其特征在于,所述通过所述大数据处理服务器对所述结构数据进行标签化处理并存储,包括:
通过哈希算法对所述结构数据和所述待存储数据分别进行计算,对应得到第一哈希值和第二哈希值;
将所述第一哈希值、所述第二哈希值以及所述分布式存储服务器的地址信息绑定后存入大数据处理服务器的搜索表中,并向客户端输出存储结果,所述存储结果包括第二哈希值;
将所述第二哈希值以及所述结构数据绑定后存储到所述分布式存储服务器上。
5.如权利要求4所述的方法,其特征在于,所述将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果,包括:
所述大数据处理服务器基于所述数据搜索指令中的待搜索数据的特征信息获取第二哈希值;
所述大数据处理服务器提取所述数据搜索指令中的页面数据生成第三哈希值。
6.如权利要求5所述的方法,其特征在于,所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据的步骤包括:
基于所述第二哈希值和所述第三哈希值得到第一哈希值;
根据所述第一哈希值,从所述大数据处理服务器上获得分布式存储服务器的至少一个存储节点的身份信息;
基于所述第二哈希值和所述存储节点的身份信息从对应的存储节点获取待搜索数据并返回。
7.一种大数据搜索装置,其特征在于,包括:
获取模块,用于通过客户端获取数据搜索指令;
解析模块,用于将所述数据搜索指令传输到大数据处理服务器进行解析,得到解析结果;
返回模块,用于所述大数据处理服务器基于所述解析结果,从分布式存储服务器上获取待搜索数据,并返回到所述客户端;所述分布式存储服务器包括多个存储节点,所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;存储节点向存储区块链中的所有节点广播自己的身份信息;各个存储节点根据身份信息进行点对点数据交换。
8.一种大数据搜索系统,其特征在于,包括用于获取用户输入数据搜索指令的WEB网页客户端、解析所述数据搜索指令的大数据处理服务器以及以区块链进行连接和通信的分布式存储服务器,所述分布式存储服务器包括多个存储节点,所述大数据处理服务器解析所述数据搜索指令并根据解析结果从所述分布式存储服务器的至少一个存储节点获取对应的数据并返回所述客户端;所述分布式存储服务器的各个存储节点通过区块链进行连接和通信,包括:存储节点通过网络发现加入存储区块链,并获得在存储区块链中的身份信息;存储节点向存储区块链中的所有节点广播自己的身份信息;各个存储节点根据身份信息进行点对点数据交换。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的大数据搜索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的大数据搜索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570310.7A CN113254767A (zh) | 2021-05-24 | 2021-05-24 | 大数据搜索方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110570310.7A CN113254767A (zh) | 2021-05-24 | 2021-05-24 | 大数据搜索方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113254767A true CN113254767A (zh) | 2021-08-13 |
Family
ID=77184346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110570310.7A Pending CN113254767A (zh) | 2021-05-24 | 2021-05-24 | 大数据搜索方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254767A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114301926A (zh) * | 2021-12-17 | 2022-04-08 | 苏州浪潮智能科技有限公司 | 服务器节点之间分布式数据传输方法、系统及存储介质 |
CN114785795A (zh) * | 2022-04-02 | 2022-07-22 | 北京蓝海在线科技有限公司 | 分布式存储方法、系统、设备、存储介质及信息处理终端 |
CN117453986A (zh) * | 2023-12-19 | 2024-01-26 | 荣耀终端有限公司 | 一种搜索方法、后台服务器及搜索系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273392A (zh) * | 2016-04-06 | 2017-10-20 | 百度(美国)有限责任公司 | 用于搜索图像的计算机实现方法、装置及数据处理系统 |
CN110032545A (zh) * | 2019-03-27 | 2019-07-19 | 远光软件股份有限公司 | 基于区块链的文件存储方法、系统及电子设备 |
CN110377644A (zh) * | 2019-07-26 | 2019-10-25 | 北京艾摩瑞策科技有限公司 | 涉及区块链的搜索数据共享方法及其系统 |
CN111552676A (zh) * | 2020-04-26 | 2020-08-18 | 北京众享比特科技有限公司 | 基于区块链的存证方法、装置、设备及介质 |
CN112637297A (zh) * | 2019-06-18 | 2021-04-09 | 贝富(广州)新技术有限公司 | 基于区块链的数据分布式存储以及数据获取方法、装置 |
-
2021
- 2021-05-24 CN CN202110570310.7A patent/CN113254767A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273392A (zh) * | 2016-04-06 | 2017-10-20 | 百度(美国)有限责任公司 | 用于搜索图像的计算机实现方法、装置及数据处理系统 |
CN110032545A (zh) * | 2019-03-27 | 2019-07-19 | 远光软件股份有限公司 | 基于区块链的文件存储方法、系统及电子设备 |
CN112637297A (zh) * | 2019-06-18 | 2021-04-09 | 贝富(广州)新技术有限公司 | 基于区块链的数据分布式存储以及数据获取方法、装置 |
CN110377644A (zh) * | 2019-07-26 | 2019-10-25 | 北京艾摩瑞策科技有限公司 | 涉及区块链的搜索数据共享方法及其系统 |
CN111552676A (zh) * | 2020-04-26 | 2020-08-18 | 北京众享比特科技有限公司 | 基于区块链的存证方法、装置、设备及介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114301926A (zh) * | 2021-12-17 | 2022-04-08 | 苏州浪潮智能科技有限公司 | 服务器节点之间分布式数据传输方法、系统及存储介质 |
CN114301926B (zh) * | 2021-12-17 | 2023-08-11 | 苏州浪潮智能科技有限公司 | 服务器节点之间分布式数据传输方法、系统及存储介质 |
CN114785795A (zh) * | 2022-04-02 | 2022-07-22 | 北京蓝海在线科技有限公司 | 分布式存储方法、系统、设备、存储介质及信息处理终端 |
CN117453986A (zh) * | 2023-12-19 | 2024-01-26 | 荣耀终端有限公司 | 一种搜索方法、后台服务器及搜索系统 |
CN117453986B (zh) * | 2023-12-19 | 2024-05-24 | 荣耀终端有限公司 | 一种搜索方法、后台服务器及搜索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113254767A (zh) | 大数据搜索方法、装置、计算机设备及存储介质 | |
CN113254445A (zh) | 实时数据存储方法、装置、计算机设备及存储介质 | |
CN112199442A (zh) | 分布式批量下载文件方法、装置、计算机设备及存储介质 | |
CN115564000A (zh) | 二维码生成方法、装置、计算机设备及存储介质 | |
CN112631924A (zh) | 自动化测试方法、装置、计算机设备及存储介质 | |
CN113536185A (zh) | 应用页面的加载方法、存储介质、及其相关设备 | |
CN110147507A (zh) | 一种获取短链接地址的方法、装置及服务器 | |
CN115357761A (zh) | 链路追踪方法、装置、电子设备及存储介质 | |
CN112417016A (zh) | 一种数据交换方法、系统、设备及存储介质 | |
CN111797297B (zh) | 页面数据处理方法、装置、计算机设备及存储介质 | |
CN111552663A (zh) | 文件一致性验证方法、装置、计算机设备及存储介质 | |
CN116627778A (zh) | 业务系统性能监控方法、装置、计算机设备及存储介质 | |
CN113504957A (zh) | 表格数据处理方法、装置、计算机设备及存储介质 | |
US10592388B1 (en) | Methods for facilitating more efficient network message exchange and analysis and devices thereof | |
CN111552898A (zh) | 基于Html5的流程图绘制方法、装置、计算机设备及存储介质 | |
CN110727654B (zh) | 分布式系统的数据提取方法、装置、服务器和存储介质 | |
CN115378991B (zh) | 消息的处理方法、装置、设备及计算机存储介质 | |
CN114791996B (zh) | 信息处理方法、装置、系统、电子设备及存储介质 | |
CN114969482A (zh) | 在线配置接口自动完成请求的方法、及其相关设备 | |
CN116467145A (zh) | 页面性能数据采集方法、装置、计算机设备及存储介质 | |
CN114238466A (zh) | 一种消息推送方法、装置、计算机设备及存储介质 | |
CN114996616A (zh) | 基于浏览器的信息生成方法、装置、设备及存储介质 | |
CN117687981A (zh) | 日志管理方法、装置、存储介质及电子设备 | |
CN113704485A (zh) | 图谱数据系统 | |
CN115392486A (zh) | 任务处理方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |