CN110795626A

CN110795626A - 大数据处理方法及系统

Info

Publication number: CN110795626A
Application number: CN201911028702.XA
Authority: CN
Inventors: 童欢欢
Original assignee: Nanjing Bouncing Force Information Technology Co Ltd
Current assignee: Nanjing Bouncing Force Information Technology Co Ltd
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-14

Abstract

本发明公开了一种大数据处理方法及平台，通过将搜索文件分为一个主搜索文件与多个从搜索文件；接收上述搜索请求命令，并验证上述搜索请求命令的合法性；当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。该方法能够进行快速搜索，减少搜索时间，进而减少大数据中心的工作负荷和能源消耗，并降低大数据中心的数据调度效率和速度，保护了大数据的安全，提高准确度与全面性。

Description

大数据处理方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种大数据处理方法及系统。

背景技术

随着社会工业化、信息化水平的不断提高，如今数据已取代计算成为信息计算的中心，云计算、大数据(BigData)正在成为一种趋势和潮流。目前，将不断增大的数据量称之为大数据，对其的搜索操作称之为对大数据的搜索。包括存储容量、可用性、I/O性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V：Volume(大量)，数据量持续快速增加；Velocity(高速)，数据I/O速度更快；Variety(多样)，数据类型和来源多样化；Value(价值)，其存在各方面的可用价值。另外，大数据除了表示海量的信息，同时还是人们获得新认知、创造新价值的源泉，其开启了一次重大的时代转型，随着大数据时代的到来，我们需要以全新的眼光去审视和搜索数据的潜在价值。

大数据的影响渗透到了各行业，对未来的科技和经济发展带来深远影响。然而，正可谓利弊相生。大数据带来便利的同时，越来越多的人类活动每个月都会产生PB级的数据，同时越来越多的需求也需要每天处理几十PB、几百PB甚至EB级的数据，由于其数据量极其巨大，通过搜索引擎能够搜索到的信息的数量越来越庞大，导致出现搜索效率变低，极大地影响搜索效率，增加了大数据中心的工作负荷(workload)和能源消耗。

虽然现在已经有各种各样的数据搜索方法，但是大多针对的是单个数据库或者有限数量的数据源，较少涉及针对大数据搜索的需求。针对这种情况，本发明提出了一种大数据处理方法及系统，能够有效地对现有技术进行改进，克服其不足。

发明内容

针对现有技术的不足，本发明提供了一种大数据处理方法及系统，以解决现有技术的大数据的速度、安全不足等问题，其具体方案如下：

第一方面，本发明提供了一种大数据处理方法，所述方法包括：

将搜索文件分为一个主搜索文件与多个从搜索文件，所述主搜索文件配置有与所述从搜索文件相对应的搜索地址数据与搜索请求命令；

接收所述搜索请求命令，并验证所述搜索请求命令的合法性；

当验证通过后，判断所述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据所述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

优选地，所述从搜索文件的存取，所述方法包括：

当接收到数据写入指令时，依据所述数据写入指令对所选取的从搜索文件进行数据的写入，直至所有数据已全部写入所述多个从搜索文件。

优选地，所述方法还包括：

使用与从搜索文件相应的随机种子，依次对多个所述从搜索文件的写入数据进行数据扰乱，并对扰乱的数据进行随机编码。

优选地，所述根据所述从搜索文件存储的访问地址数据访问相应的存储数据之前，所述方法还包括：

使用与从搜索文件相应的随机种子，依次对多个所述从搜索文件的读出数据进行数据解扰，并对解扰的数据进行随机解码。

优选地，所述方法还包括：

分别获取根据所述搜索文件访问得到的每个访问结果；

在所有的所述访问结果中，选择大于最大预设匹配度的存储数据作为搜索结果，并返回所述搜索结果。

优选地，所述获取根据所述搜索文件访问得到的每个访问结果，所述方法包括：

将所述从搜索文件进行分片，得到多个分片从搜索文件；

根据所述搜索请求命令，对所述多个分片从搜索文件进行并行搜索，并返回分片搜索结果。

优选地，所述方法还包括：

若在所有的所述访问结果中，不存在大于最大预设匹配度的存储数据，则选择大于次一级预设匹配度的存储数据作为搜索结果，依次循环，直至返回最终的所述搜索结果。

第二方面，本发明提供了一种大数据处理系统，所述系统包括：

文件划分模块，用于将搜索文件分为一个主搜索文件与多个从搜索文件，所述主搜索文件配置有与所述从搜索文件相对应的搜索地址数据与搜索请求命令；

命令验证模块，用于接收所述搜索请求命令，并验证所述搜索请求命令的合法性；

搜索执行模块，用于判断所述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据所述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

第三方面，本发明提供了一种大数据处理系统，所述系统包括：

通信总线，用于实现处理器与存储器间的连接通信；

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如下步骤：

第四方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法。

有益效果：本发明的大数据处理方法及平台，通过将搜索文件分为一个主搜索文件与多个从搜索文件；接收上述搜索请求命令，并验证上述搜索请求命令的合法性；当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。该方法能够进行快速搜索，减少搜索时间，进而减少大数据中心的工作负荷和能源消耗，并降低大数据中心的数据调度效率和速度，保护了大数据的安全，提高准确度与全面性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，附图中的实施例不构成对本发明的任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明大数据处理方法实施例一流程示意图。

图2是本发明大数据处理方法实施例二流程示意图。

图3是本发明大数据处理系统实施例一结构示意图。

图4是本发明大数据处理系统实施例二结构示意图。

具体实施方式

下面结合附图与实施例对本发明技术方案作进一步详细的说明，这是本发明的较佳实施例。应当理解，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例技术方案的主要思想：将搜索文件分为一个主搜索文件与多个从搜索文件，上述主搜索文件配置有与上述从搜索文件相对应的搜索地址数据与搜索请求命令；接收上述搜索请求命令，并验证上述搜索请求命令的合法性；当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

为了更好的理解上述的技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

本发明一实施例提供了一种大数据处理方法，如图1所示，该处理方法具体可以包括如下步骤：

S101，将搜索文件分为一个主搜索文件与多个从搜索文件；

为了能对大数据进行加速，避免传统的技术的低效率问题，在本发明实施例中将搜索文件分为一个主搜索文件与多个从搜索文件。其中，上述主搜索文件配置有与上述从搜索文件相对应的搜索地址数据与搜索请求命令。

S102，接收上述搜索请求命令，并验证上述搜索请求命令的合法性；

其中，认证的内容可以包括：搜索请求的安全性、授权访问大数据中心的资格、以及搜索请求内容的合法性。

在根据本发明实施例的大数据处理应用到计算机中的情况下，数据处理工作者通过键盘等的输入接口，向上述数据处理方法设置的预定区域输入搜索请求命令。

为确保数据拥有者的数据的安全性，在数据处理工作者要访问索引数据时，要求数据处理工作者输入第一验证信息，以确定该数据搜索者是否有权限访问该数据的搜索文件。例如，数据拥有者可预先设置允许访问搜索文件的合法账户。

S103，当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

当登录的账户是合法账户时，验证通过，可以进行后续步骤；当登录的账户不是合法账户时，验证未通过，数据处理方法结束。

其中，上述从搜索文件的存取方法具体可以包括：当接收到数据写入指令时，依据上述数据写入指令对所选取的从搜索文件进行数据的写入，直至所有数据已全部写入上述多个从搜索文件。

在一个可选的实施例中，使用与从搜索文件相应的随机种子，依次对多个上述从搜索文件的写入数据进行数据扰乱，并对扰乱的数据进行随机编码。相应地，使用与从搜索文件相应的随机种子，依次对多个上述从搜索文件的读出数据进行数据解扰，并对解扰的数据进行随机解码。

具体地，当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，使用与从搜索文件相应的随机种子，依次对多个上述从搜索文件的写入数据进行数据扰乱，并对扰乱的数据进行随机编码；然后，使用与从搜索文件相应的随机种子，依次对多个上述从搜索文件的读出数据进行数据解扰，并对解扰的数据进行随机解码；最后，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

需要指出的是，以上上述的验证方式仅作为示例给出，本领域技术人员完全可采用其他验证方式，其都包含在本发明的范围之内。

实施例二

本发明一实施例提供了一种大数据处理方法，如图2所示，该处理方法具体可以包括如下步骤：

S201，将搜索文件分为一个主搜索文件与多个从搜索文件；

S202，接收上述搜索请求命令，并验证上述搜索请求命令的合法性；

S203，当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

S204，分别获取根据上述搜索文件访问得到的每个访问结果，并根据预设匹配度返回相应的搜索结果。

在本实施例中，分别获取根据上述搜索文件访问得到的每个访问结果，当在所有的上述访问结果中，选择大于最大预设匹配度的存储数据作为搜索结果，并返回上述搜索结果；当在所有的上述访问结果中，不存在大于最大预设匹配度的存储数据，则选择大于次一级预设匹配度的存储数据作为搜索结果，依次循环，直至返回最终的上述搜索结果。

在一个可选的实施例中，可首先将每一个从搜索文件进行分片，得到多个分片从搜索文件；然后根据上述搜索请求命令，对上述多个分片从搜索文件进行并行搜索，并返回分片搜索结果；最后对所有根据上述搜索文件访问得到的访问结果，根据上述预设匹配度的比较法则返回相应的搜索结果。

实施例三

本发明一实施例提供了一种大数据处理系统，如图3所示，该处理系统具体可以包括如下模块：

文件划分模块，用于将搜索文件分为一个主搜索文件与多个从搜索文件；

命令验证模块，用于接收上述搜索请求命令，并验证上述搜索请求命令的合法性；

搜索执行模块，用于判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

实施例四

本发明一实施例提供了一种大数据处理系统，如图4所示，该处理系统具体可以包括如下模块：

通信总线，用于实现处理器与存储器间的连接通信；

存储器，用于存储计算机程序；存储器可能包含高速RAM存储器，也可能还包含非不稳定的存储器（non-volatilememory），例如至少一个磁盘存储器。存储器可选的可以包含至少一个存储装置。

处理器，用于执行上述计算机程序以实现如下步骤：

将搜索文件分为一个主搜索文件与多个从搜索文件；

接收上述搜索请求命令，并验证上述搜索请求命令的合法性；

当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。

分别获取根据上述搜索文件访问得到的每个访问结果，并根据预设匹配度返回相应的搜索结果。

本实施例中的处理器可能是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。上述处理器可以是微处理器或者上述处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

实施例五

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时实现上述的存储方法。

综上所述，本发明实施例提供的一种大数据处理方法及平台，通过将搜索文件分为一个主搜索文件与多个从搜索文件；接收上述搜索请求命令，并验证上述搜索请求命令的合法性；当验证通过后，判断上述搜索地址数据所对应的从搜索文件是否已被存取，若为否时，根据上述搜索请求命令及从搜索文件存储的访问地址数据搜索相应的存储数据。该方法能够进行快速搜索，减少搜索时间，进而减少大数据中心的工作负荷和能源消耗，并降低大数据中心的数据调度效率和速度，保护了大数据的安全，提高准确度与全面性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-onlymemory，ROM)、随机存取存储器(randomaccessmemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明是参照本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种大数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从搜索文件的存取，所述方法包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述从搜索文件存储的访问地址数据访问相应的存储数据之前，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述方法还包括：

分别获取根据所述搜索文件访问得到的每个访问结果；

6.根据权利要求5所述的方法，其特征在于，所述获取根据所述搜索文件访问得到的每个访问结果，所述方法包括：

将所述从搜索文件进行分片，得到多个分片从搜索文件；

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.一种大数据处理系统，其特征在于，所述系统包括：

9.一种大数据处理系统，其特征在于，所述系统包括：

通信总线，用于实现处理器与存储器间的连接通信；

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序以实现如下步骤：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的方法。