CN107766380B

CN107766380B - 一种业务数据的均衡分布及搜索方法及其装置、系统

Info

Publication number: CN107766380B
Application number: CN201610701125.6A
Authority: CN
Inventors: 王娜
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hebei Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Hebei Co Ltd
Priority date: 2016-08-22
Filing date: 2016-08-22
Publication date: 2020-06-30
Anticipated expiration: 2036-08-22
Also published as: CN107766380A

Abstract

本发明公开了一种业务数据的查询方法，包括：根据查询条件构建查询组合，利用所述查询组合中的被查询分词查询二次索引表，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词；根据所述被查询分词和所述关联分词，查询倒排索引，获取所述被查询分词和所述关联分词所对应的索引组合；根据所述索引组合对应的数据块以及所述数据块与存储地址之间的映射关系，从所述数据块所对应的存储地址中获取包含有所述被查询分词和/或所述关联分词的业务数据。同时，本发明还公开了一种业务数据的均衡分布及搜索方法及其装置、系统。

Description

一种业务数据的均衡分布及搜索方法及其装置、系统

技术领域

本发明涉及云计算技术，尤其涉及一种业务数据的均衡分布及搜索方法及其装置、系统。

背景技术

随着互联网的迅猛发展，人们已经习惯通过搜索引擎来获取所需要的数据。业务数据是运营商在业务发展中所保存的各种与业务有关的数据，包括用户和系统交互数据、客户投诉数据、业务疑问、业务知识点等。通过建立业务数据搜索引擎，以便系统使用人员通过查询历史业务知识，快速的解决用户的问题，从而提高工作效率。然而随着业务的快速发展，运营商所存储的业务数据的信息量和信息类型都呈几何式增长，特别是业务运营支撑系统(BOSS，Business&Operation Support System)办理数据、用户交互数据、客户投诉数据、业务疑问数据、业务知识数据等业务数据的规模越来越庞大。因此，现有的集中式搜索引擎从如此海量信息中快速检索出真正需要的信息变得越来越困难。为此，很多集中式搜索引擎开始被改造成为具备分布式处理能力，且能根据需要处理信息量的增长情况，不断扩展搜索引擎系统的规模以增强搜索引擎系统的处理能力，其中比较常见的是采用Hadoop系统构建分布式搜索引擎。

Hadoop系统最初是被用来处理单一的应用，且不考虑应用场景。因此，针对不同类型的应用，MapReduce并行框架存在不足而需要进行优化。针对业务数据搜索，由于这是一种和业务内容、业务产生时间等因素密切相关的数据搜索应用，为了实现能够同时处理更多的应用，提高搜索的效率和查询准确性，需要改进任务调度的过程。然而，Hadoop的MapReduce任务调度是基于一个基本假设：集群的所有节点是同构的。但是，这个假设在现实环境中几乎不能成立。一次Map或Reduce任务执行过程中，一些节点任务执行总比另一些节点慢，从而导致整个作业的响应时间增加。在现有技术中，数据读取方式一般是先读取，后过滤。例如，Hadoop在处理结构化海量数据的查询时，每个Map Task均需要首先依次扫描由MapReduce框架将原始数据分片后生成的输入分片所包含的所有数据，然后再根据查询范围过滤掉无用数据。

因此，现有的Hadoop系统由于在业务数据插入时不考虑业务数据的局部性，对于数据密集型任务而言，需要在Reduce阶段传送大量的Map任务中间结果，从而消耗大量网络带宽，使得MapReduce性能降低；并且，Hadoop分布式文件系统(HDFS，Hadoop DistributedFile System)的均衡程序对各个节点进行负载平衡时由于只考虑存储空间，然而随着集群中节点的变化，集群容易处于不平衡状态，从而大大影响运行效率。此外，现有的Hadoop系统在业务数据查询时由于Hadoop框架并未和应用紧密联系起来，内部没有和应用对应的索引机制，从而导致在处理结构化海量数据时，每个Map Task都需要对所有数据进行扫描，然后再根据查询范围进行过滤，使得Hadoop性能被浪费且数据查询结果不准确，特别是在处理海量数据的查询时，时间大部分都浪费在对无用数据的扫描和过滤上。

发明内容

为解决上述技术问题，本发明实施例期望提供一种业务数据的均衡分布及搜索方法及其装置、系统，能够实现负载均衡以及提高业务数据查找的效率和准确性。

本发明的技术方案是这样实现的：

本发明提供了一种业务数据的均衡分布方法，所述方法包括：

根据获取的业务数据中所包含的时间信息对所述业务数据进行分组，并对每个业务数据组设置时间因子；

按业务数据组对业务数据进行分词，建立业务数据组中的分词与该业务数据组中所包含的每个业务数据之间的倒排索引，并将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，而形成包含有所有业务数据组所对应的倒排索引的倒排文件；

根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序；

将所述排序后的业务数据按照数据块已定义大小划分为若干个数据块，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系。

上述方案中，所述方法还包括：根据服务器的负载大小，将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器。

上述方案中，所述倒排索引中包含分词在所有分词中的排序以及该分词在每个业务数据中的位置信息。

本发明提供了一种业务数据的查询方法，所述方法包括：

根据查询条件构建查询组合，利用所述查询组合中的被查询分词查询二次索引表，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词；

根据所述被查询分词和所述关联分词，查询倒排索引，获取所述被查询分词和所述关联分词所对应的索引组合；

根据所述索引组合对应的数据块以及所述数据块与存储地址之间的映射关系，从所述数据块所对应的存储地址中获取包含有所述被查询分词和/或所述关联分词的业务数据。

本发明提供了一种业务数据的搜索方法，所述方法包括：

将所述排序后的业务数据按照数据块已定义大小划分为若干个数据块，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系；

本发明提供了一种业务数据的均衡分布装置，所述装置包括：分组单元、处理单元、二次索引表建立单元、存储单元；其中，

所述分组单元，用于根据获取的业务数据中所包含的时间信息对所述业务数据进行分组，并对分组后每个业务数据组设置时间因子；

所述处理单元，用于按业务数据组对业务数据进行分词，建立业务数据组中的分词与该业务数据组中所包含的每个业务数据之间的倒排索引，并将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，而形成包含有所有业务数据组所对应的倒排索引的倒排文件；

所述二次索引表建立单元，用于根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序；

所述存储单元，用于将所述排序后的业务数据按照数据块已定义大小划分为若干个数据块，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系。

上述方案中，所述存储单元，还用于根据服务器的负载大小，将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器。

本发明提供了一种业务数据的查询装置，所述装置包括：第一查询单元、第二查询单元、第三查询单元；其中，

所述第一查询单元，用于根据查询条件构建查询组合，利用所述查询组合中的被查询分词查询二次索引表，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词；

所述第二查询单元，用于根据所述被查询分词和所述关联分词，查询倒排索引，获取所述被查询分词和所述关联分词所对应的索引组合；

所述第三查询单元，用于根据所述索引组合对应的数据块以及所述数据块与存储地址之间的映射关系，从所述数据块所对应的存储地址中获取包含有所述被查询分词和/或所述关联分词的业务数据。

本发明提供了一种业务数据的搜索系统，所述系统包括前述业务数据的均衡分布装置和前述业务数据的查询装置。

本发明实施例提供的业务数据均衡分布及搜索方法及其装置、系统，根据获取的业务数据中所包含的时间信息对所述业务数据进行分组，并对每个业务数据组设置时间因子；按业务数据组对业务数据进行分词，建立业务数据组中的分词与该业务数据组中所包含的每个业务数据之间的倒排索引，并将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，而形成包含有所有业务数据组所对应的倒排索引的倒排文件；根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序；将所述排序后的业务数据按照数据块已定义大小划分为若干个数据块，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系；根据查询条件构建查询组合，利用所述查询组合中的被查询分词查询二次索引表，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词；根据所述被查询分词和所述关联分词，查询倒排索引，获取所述被查询分词和所述关联分词所对应的索引组合；根据所述索引组合对应的数据块以及所述数据块与存储地址之间的映射关系，从所述数据块所对应的存储地址中获取包含有所述被查询分词和/或所述关联分词的业务数据。可见，本发明实施例通过在查询业务数据时，根据查询条件构建索引信息，使得搜索引擎在搜索过程中跳过无用的数据，从而避免对全部数据进行扫描；并且，根据时间因子对业务数据进行关联分析，提高业务数据搜索结果的效率及准确度。此外，在插入业务数据时，将业务数据与时间因子进行关联，并结合业务数据内容的相关性对业务数据进行均衡分布，避免产生业务数据不均衡分布问题。

附图说明

图1为本发明实施例一业务数据的搜索系统的组成结构示意图；

图2为本发明实施例二业务数据的均衡分布方法的实现流程示意图；

图3为本发明实施例三业务数据的查询方法的实现流程示意图；

图4为本发明实施例四业务数据的搜索方法的实现流程示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

实施例一

图1为本发明实施例一业务数据的搜索系统的组成结构示意图，该系统包括：业务数据的均衡分布装置12、业务数据的查询装置13；其中，

所述业务数据的均衡分布装置12，用于对获取的业务数据中所包含的时间信息对所述业务数据进行处理后，建立倒排文件和二次索引表，并均衡分布所述业务数据；

所述业务数据的查询装置13，用于通过所述倒排文件和二次索引表，查询并获取包含有被查询分词的业务数据。

进一步地，所述系统还可包括：源文件生成装置11，用于获取源数据并对所述获取的源数据进行预处理，将生成的包含有业务数据的源文件发送给所述业务数据的均衡分布装置12。

具体地，所述源文件生成装置11接收来自不同地方或部门的所有源数据，并对所述所有源数据进行预处理例如提取所述源数据中的特征信息等，从而生成包含有业务数据的源文件，并将所述源文件发送给所述业务数据均衡分布装置12。

这里，所述源数据包括用户投诉数据、业务申告数据、业务通知数据、系统交互数据等。

所述业务数据的均衡分布装置12包括：分组单元121、处理单元122、二次索引表建立单元123、存储单元124；其中，

所述分组单元121，用于根据获取的业务数据中所包含的时间信息对所述业务数据进行分组，并对每个业务数据组设置时间因子；

所述处理单元122，用于按业务数据组对业务数据进行分词，建立业务数据组中的分词与该业务数据组中所包含的每个业务数据之间的倒排索引，并将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，而形成包含有所有业务数据组所对应的倒排索引的倒排文件；

所述二次索引表建立单元123，用于根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序；

所述存储单元124，用于将所述排序后的业务数据按照数据块已定义大小划分为若干个数据块，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系。

其中，所述分组单元121，具体用于：接收所述源文件生成装置11发送的包含有业务数据的源文件，根据每个业务数据中所包含的不同时间信息进行逻辑分组，以使具有相同时间信息的业务数据划分为同一组；然后，对分组后生成的每个业务数据组设置一个时间因子，用于标记该业务数据与当前时间的距离。

这里，所述时间信息包括以下信息的至少一种：年、月、日、时、分，本发明实施例中以所述时间信息为年、月、日、时为例进行说明，即将具有相同年、月、日、时的业务数据划分为同一组。当然，也可单独按照年或月等时间信息对业务数据进行分组。

这里，根据用户的搜索习惯，待搜索目标数据与当前时间的距离较近的业务数据的关联度较高，而与当前时间的距离较远的业务数据的关联度较低；因此，为每个业务数据组设置一个时间因子后，则每个业务数据对应有一个时间因子；这样，在目标数据搜索过程中可优先查询与当前时间具有较大关联度的时间因子所对应的业务数据。此外，所述为每个业务数据组设置的时间因子可以是该业务数据组所包含的时间信息中的一部分或全部信息。

所述处理单元122，具体用于：选取分组后的任意一个业务数据组，对该业务数据组中所包含的每个业务数据进行分词处理，记录每个分词在该分词所对应的业务数据中的位置、出现次数等信息，从而建立一个业务数据组中所包含的分词与该业务数据组中所包含的每个业务数据之间的倒排索引；然后，将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，以将该业务数据组所对应的倒排索引与后面的业务数据组所对应的倒排索引进行时间区分；如此循环，直至分组单元121中所述分组后生成的每一个业务数据组都进行了分词处理，以形成包含有所有业务数据组所对应的倒排索引的倒排文件。

这里，所述倒排索引中包含每一个分词在所有分词中的排序以及该分词在每个业务数据中的位置、出现次数等信息。

所述二次索引表建立单元123，具体用于：根据所述处理单元122所建立的所述倒排文件，计算所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度；然后，根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序。

这里，所述二次索引表中还可包括分词之间的关联可信度；所述分词之间的关联可信度Z可根据公式Z＝aX+bY进行计算，其中X表示两个分词之间的分词关联因子，Y表示两个分词之间的时间关联因子，a表示分词关联权重，b表示时间关联权重；当两个分词之间的分词关联因子大于零时，可称为所述两个分词之间具有分词相关度；当两个分词之间的时间关联因子大于零时，可称为所述两个分词之间具有时间因子相关度；如果一个分词与另一个分词之间同时具有分词相关度和时间因子相关度，则可称该分词为所述另一个分词的关联分词；所述分词关联因子为分词之间的相关性大小，例如分词“数据搜索”和分词“搜索”之间的关联因子大于分词“数据搜索”和分词“搜”之间的关联因子；所述时间关联因子为分词所对应的时间因子之间的相关性大小，例如时间因子“1989年7月”和时间因子“1989年6月”之间的关联因子大于时间因子“1989年7月”和时间因子“1989年5月”之间的关联因子。

所述存储单元124，具体用于：按照数据块已定义大小，将所述排序后的业务数据划分为若干个数据块(block)，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个block之间的映射关系，所述数据块已定义大小通常为64M；HDFS中的名称节点NameNode记录所述排序后的业务数据由哪些block组成以及每个block与自身所对应的数据节点DataNode之间的映射关系。

进一步地，所述存储单元124，还用于根据服务器的负载大小，将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器。

具体地，所述存储单元124根据服务器的负载大小并按照数据块所对应的时间因子与当前时间距离的远近，将数据块存储至相应的服务器中，即将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器，将与当前时间具有第二最近距离的时间因子所对应的数据块存储至具有第二最小负载的服务器，并依次类推，将与当前时间具有最远距离的时间因子所对应的数据块存储至具有最大负载的服务器。

这里，所述服务器的负载大小可结合服务器当前的可用存储空间、服务器机器的中央处理器负载能力以及内存大小来判定；服务器当前的可用存储空间越大，存储同等数量的数据块，则负载越小；服务器机器的中央处理器负载能力越好，存储同等数量的数据块，则负载也越小。

这里，定期按时对业务数据进行上述处理后，还同时在服务器集群上建立业务数据的副本；NameNode同时记录每个block与存储该block的服务器之间的映射关系，即记录每个block与该block所对应的存储地址之间的映射关系。

所述业务数据的查询装置13包括：第一查询单元131、第二查询单元132、第三查询单元133；其中，

所述第一查询单元131，用于根据查询条件构建查询组合，利用所述查询组合中的被查询分词查询二次索引表，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词；

所述第二查询单元132，用于根据所述被查询分词和所述关联分词，查询倒排索引，获取所述被查询分词和所述关联分词所对应的索引组合；

所述第三查询单元133，用于根据所述索引组合对应的数据块以及所述数据块与存储地址之间的映射关系，从所述数据块所对应的存储地址中获取包含有所述被查询分词和/或所述关联分词的业务数据。

其中，所述第一查询单元131，具体用于：根据查询条件中所包含的被查询分词等信息构建查询组合，然后利用所述查询组合中的被查询分词查询二次索引表，根据所述二次索引表中所包含的且按照组成业务数据的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序后的业务数据，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词。

这里，当两个分词之间的分词关联因子大于零时，可称为所述两个分词之间具有分词相关度；当两个分词之间的时间关联因子大于零时，可称为所述两个分词之间具有时间因子相关度；如果一个分词与另一个分词之间同时具有分词相关度和时间因子相关度，则可称该分词为所述另一个分词的关联分词；所述分词关联因子为分词之间的相关性大小，例如分词“数据搜索”和分词“搜索”之间的关联因子大于分词“数据搜索”和分词“搜”之间的关联因子；所述时间关联因子为分词所对应的时间因子之间的相关性大小，例如时间因子“1989年7月”和时间因子“1989年6月”之间的关联因子大于时间因子“1989年7月”和时间因子“1989年5月”之间的关联因子。

这里，由于所述二次索引表记录着分词、该分词所对应的关联分词以及分词与该分词所对应的关联分词之间的关联可信度；通过在二次索引表中搜索任意一个分词，则可同时获得该分词、该分词所对应的关联分词以及两者之间的关联可信度。

所述第二查询单元132，具体用于：根据所述第一查询单元131所获得的被查询分词以及所述被查询分词的关联分词，分别查询倒排索引，根据倒排索引相互之间的关系，获取所述被查询分词和所述关联分词所对应的索引组合。

这里，所述索引组合中包含有所述被查询分词和所述关联分词分别所属的业务数据、在所述所属业务数据中的位置以及所述所属的业务数据对应的数据块等信息。

所述第三查询单元133，具体用于：根据所述第二查询单元132获得的所述被查询分词和所述关联分词分别所述的业务数据以及该业务数据所对应的数据块，通过NameNode获得所述数据块与存储所述数据块的存储地址之间的映射关系，即获取存储所述数据块的目标服务器所在位置；从所述目标服务器中读取出所述数据块，从而获取包含有所述被查询分词和/或所述关联分词的业务数据，以完成业务数据查询。

在实际应用中，所述分组单元121、处理单元122、二次索引表建立单元123、存储单元124、第一查询单元131、第二查询单元132、第三查询单元133均可由位于终端的中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA)等实现。

实施例二

图2为本发明实施例二业务数据的均衡分布方法的实现流程示意图，该方法包括：

步骤101：根据获取的业务数据中所包含的时间信息对所述业务数据进行分组，并对每个业务数据组设置时间因子；

具体地，根据每个业务数据中国所包含的不同时间信息进行逻辑分组，以使具有相同时间信息的业务数据划分为同一组；然后，对分组后生成的每个业务数据组设置一个时间因子，用于标记该业务数据与当前时间的距离。

步骤102：按业务数据组对业务数据进行分词，建立业务数据组中的分词与该业务数据组中所包含的每个业务数据之间的倒排索引，并将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，而形成包含有所有业务数据组所对应的倒排索引的倒排文件；

具体地，选取分组后的任意一个业务数据组，对该业务数据组中所包含的每个业务数据进行分词处理，记录每个分词在该分词所对应的业务数据中的位置、出现次数等信息，从而建立一个业务数据组中所包含的分词与该业务数据组中所包含的每个业务数据之间的倒排索引；然后，将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，以将该业务数据组所对应的倒排索引与后面的业务数据组所对应的倒排索引进行时间区分；如此循环，直至步骤101中所述分组后生成的每一个业务数据组都进行了分词处理，以形成一个包含有所有业务数据组所对应的倒排索引的倒排文件。

步骤103：根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序；

具体地，根据步骤102中所建立的所述倒排文件，计算所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度；然后，根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序。

这里，所述二次索引表记录着分词、该分词所对应的关联分词以及分词与该分词所对应的关联分词之间的关联可信度；通过在二次索引表中搜索任意一个分词，则可同时获得该分词、该分词所对应的关联分词以及两者之间的关联可信度。

步骤104：将所述排序后的业务数据按照数据块已定义大小划分为若干个数据块，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系。

具体地，按照数据块已定义大小，将所述排序后的业务数据划分为若干个数据块(block)，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系，所述数据块已定义大小通常为64M；HDFS中的名称节点NameNode记录所述排序后的业务数据由哪些block组成以及每个block与自身所对应的数据节点DataNode之间的映射关系。

进一步地，所述方法还包括：根据服务器的负载大小，将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器。

具体地，根据服务器的负载大小并按照数据块所对应的时间因子与当前时间距离的远近，将数据块存储至相应的服务器中，即将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器，将与当前时间具有第二最近距离的时间因子所对应的数据块存储至具有第二最小负载的服务器，并依次类推，将与当前时间具有最远距离的时间因子所对应的数据块存储至具有最大负载的服务器。

进一步地，在步骤101之前，所述方法还可包括：获取源数据并对所述获取的源数据进行预处理，生成包含有业务数据的源文件。

具体地，接收来自不同地方或部门的所有源数据，并对所述所有源数据进行预处理例如提取所述源数据中的特征信息等，从而生成包含有业务数据的源文件。

实施例三

图3为本发明实施例三业务数据的查询方法的实现流程示意图，本实施例业务数据的查询方法的实现是基于实施例二中业务数据的均衡分布方法，本实施例业务数据的查询方法包括：

步骤201：根据查询条件构建查询组合，利用所述查询组合中的被查询分词查询二次索引表，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词；

具体地，根据查询条件中所包含的被查询分词等信息构建查询组合，然后利用所述查询组合中的被查询分词查询二次索引表，根据所述二次索引表中所包含的且按照组成业务数据的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序后的业务数据，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词。

步骤202：根据所述被查询分词和所述关联分词，查询倒排索引，获取所述被查询分词和所述关联分词所对应的索引组合；

具体地，根据步骤201中所获得的被查询分词以及所述被查询分词的关联分词，分别查询倒排索引，根据倒排索引相互之间的关系，获取所述被查询分词和所述关联分词所对应的索引组合。

步骤203：根据所述索引组合对应的数据块以及所述数据块与存储地址之间的映射关系，从所述数据块所对应的存储地址中获取包含有所述被查询分词和/或所述关联分词的业务数据。

具体地，根据步骤202中获得的所述被查询分词和所述关联分词分别所属的业务数据以及该业务数据所对应的数据块，通过NameNode获得所述数据块与存储所述数据块的存储地址之间的映射关系，即获取存储所述数据块的目标服务器所在位置；从所述目标服务器中读取出所述数据块，从而获取包含有所述被查询分词和/或所述关联分词的业务数据，以完成业务数据查询。

实施例四

图4为本发明实施例四业务数据的搜索方法的实现流程示意图，该方法包括：

步骤301：根据获取的业务数据中所包含的时间信息对所述业务数据进行分组，并对每个业务数据组设置时间因子；

步骤302：按业务数据组对业务数据进行分词，建立业务数据组中的分词与该业务数据组中所包含的每个业务数据之间的倒排索引，并将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，而形成包含有所有业务数据组所对应的倒排索引的倒排文件；

具体地，选取分组后的任意一个业务数据组，对该业务数据组中所包含的每个业务数据进行分词处理，记录每个分词在该分词所对应的业务数据中的位置、出现次数等信息，从而建立一个业务数据组中所包含的分词与该业务数据组中所包含的每个业务数据之间的倒排索引；然后，将该业务数据组所对应的时间因子加入至该业务数据组所对应的倒排索引中，以将该业务数据组所对应的倒排索引与后面的业务数据组所对应的倒排索引进行时间区分；如此循环，直至步骤301中所述分组后生成的每一个业务数据组都进行了分词处理，以形成一个包含有所有业务数据组所对应的倒排索引的倒排文件。

步骤303：根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序；

具体地，根据步骤302中所建立的所述倒排文件，计算所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度；然后，根据所述倒排文件中所包含的分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度，建立二次索引表，以使所有业务数据组中所包含的业务数据按照所述分词相互之间的相关度以及分词所对应的时间因子相互之间的相关度进行排序。

步骤304：将所述排序后的业务数据按照数据块已定义大小划分为若干个数据块，记录所述排序后的业务数据所包含的分词以及该分词所对应的时间因子与每个数据块之间的映射关系；

步骤305：根据查询条件构建查询组合，利用所述查询组合中的被查询分词查询二次索引表，获取一组与所述被查询分词具有分词相关度和时间因子相关度的关联分词；

步骤306：根据所述被查询分词和所述关联分词，查询倒排索引，获取所述被查询分词和所述关联分词所对应的索引组合；

具体地，根据步骤305中所获得的被查询分词以及所述被查询分词的关联分词，分别查询倒排索引，根据倒排索引相互之间的关系，获取所述被查询分词和所述关联分词所对应的索引组合。

步骤307：根据所述索引组合对应的数据块以及所述数据块与存储地址之间的映射关系，从所述数据块所对应的存储地址中获取包含有所述被查询分词和/或所述关联分词的业务数据。

具体地，根据步骤306中获得的所述被查询分词和所述关联分词分别所属的业务数据以及该业务数据所对应的数据块，通过NameNode获得所述数据块与存储所述数据块的存储地址之间的映射关系，即获取存储所述数据块的目标服务器所在位置；从所述目标服务器中读取出所述数据块，从而获取包含有所述被查询分词和/或所述关联分词的业务数据，以完成业务数据查询。

进一步地，在步骤301之前，所述方法还可包括：获取源数据并对所述获取的源数据进行预处理，生成包含有业务数据的源文件。

进一步地，在步骤304之后，所述方法还可包括：根据服务器的负载大小，将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种业务数据的均衡分布方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：根据服务器的负载大小，将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器。

3.根据权利要求1所述的方法，其特征在于，所述倒排索引中包含分词在所有分词中的排序以及该分词在每个业务数据中的位置信息。

4.一种业务数据的查询方法，其特征在于，所述方法包括：

5.一种业务数据的搜索方法，其特征在于，所述方法包括：

6.一种业务数据的均衡分布装置，其特征在于，所述装置包括：分组单元、处理单元、二次索引表建立单元、存储单元；其中，

7.根据权利要求6所述的装置，其特征在于，所述存储单元，还用于根据服务器的负载大小，将与当前时间具有最近距离的时间因子所对应的数据块存储至具有最小负载的服务器。

8.根据权利要求6所述的装置，其特征在于，所述倒排索引中包含分词在所有分词中的排序以及该分词在每个业务数据中的位置信息。

9.一种业务数据的查询装置，其特征在于，所述装置包括：第一查询单元、第二查询单元、第三查询单元；其中，

10.一种业务数据的搜索系统，其特征在于，所述系统包括权利要求6至8任一项所述的业务数据的均衡分布装置和权利要求9所述的业务数据的查询装置。