CN108304487A

CN108304487A - 一种优化搜索引擎多索引的查询方法

Info

Publication number: CN108304487A
Application number: CN201810003112.0A
Authority: CN
Inventors: 吴少东; 闵早华; 张禄宇
Original assignee: Ji Qi (chengdu) Science And Technology Co Ltd
Current assignee: Ji Qi (chengdu) Science And Technology Co Ltd
Priority date: 2018-01-02
Filing date: 2018-01-02
Publication date: 2018-07-20

Abstract

本发明公开了一种优化搜索引擎多索引的查询方法，包括数据存储，数据分表，数据检索三部分，本发明能够快速的，批量的进行大范围检索,方便数据；本发明消除了调用方数据库分库分表造成的多库多表问题；本发明可以通过中间件伪装多库多表，极大的减少了调用方代码的复杂程度和出错概率；此外，本发明实现了业务调用方数据库解耦操作，通过中间件伪装，可以无缝切换底层数据存储方案。

Description

一种优化搜索引擎多索引的查询方法

技术领域

本发明涉及数据处理技术领域，具体为一种优化搜索引擎多索引的查询方法。

背景技术

现有领域中数据存储形式多为关系型数据库，当数据量超过百万时就需要进行分库分表操作。否则将造成查询堵塞，严重影响调用方使用，情况严重更会导致拖垮数据库使业务瘫痪。

发明内容

本发明的目的在于提供一种优化搜索引擎多索引的查询方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种优化搜索引擎多索引的查询方法,包括数据存储，数据分表，数据检索三部分；具体步骤为：

A、通过在流中源源不断的获取数据,并针对数据特有的结构进行分索引规则匹配.完成数据的分索引操作；

B、调用方发起检索数据请求,经过特殊处理以及规则匹配对所需数据进行分索引同时请求；

C、对请求得到的数据进行分类整合,然后返回给调用方。

优选的，所述步骤C中数据分类整合方法包括以下步骤：

A、识别数据库中每个训练样本的类别；

B、在预设样本数据库中分别选取第一训练样本集和第二训练样本集，每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本；

C、确定第一训练样本集中每一类别的训练样本的平均样本；利用预设迭代算法对所有类别的平均样本进行迭代运算得到第一训练样本集的分类字典；

D、将第二训练样本集中的每个训练样本在分类字典下分解得到一个训练稀疏系数向量；

E、将得到的所有训练稀疏系数向量级联得到训练矩阵；

F、根据第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签，并保存训练矩阵中每个列向量对应的类别标签，即完成对数据的分类整合。

与现有技术相比，本发明的有益效果是：本发明能够快速的，批量的进行大范围检索,方便数据；本发明消除了调用方数据库分库分表造成的多库多表问题；本发明可以通过中间件伪装多库多表，极大的减少了调用方代码的复杂程度和出错概率；此外，本发明实现了业务调用方数据库解耦操作，通过中间件伪装，可以无缝切换底层数据存储方案；另外，本发明采用的数据分类整合方法能够提高数据分类的整体效率。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供如下技术方案：一种优化搜索引擎多索引的查询方法,包括数据存储，数据分表，数据检索三部分；具体步骤为：

C、对请求得到的数据进行分类整合,然后返回给调用方。

本发明中，步骤C中数据分类整合方法包括以下步骤：

A、识别数据库中每个训练样本的类别；

E、将得到的所有训练稀疏系数向量级联得到训练矩阵；

实施例：当流失处理数据的结果需要落库的时候.比如,汇通天下GSP的位置信息入库,通过对位置信息进行特殊的分索引规则匹配.将数据分散在不同的索引上，可以是按照数据生成时间,或者是按照设备,或者是按照其他的规则；当应用程序需要位置信息时,将查询语句进行解析,通过要查询的索引,获取对应的分表规则,并对查询条件进行处理,找出要查询数据所在的对应的若干个索引并执行查询请求.当获取到结果之后,返回给应用程序,此次查询结束。本发明可以对外暴露一个统一的总索引,具体的分索引规则,可以不被外部感知。

本发明能够快速的，批量的进行大范围检索,方便数据；本发明消除了调用方数据库分库分表造成的多库多表问题；本发明可以通过中间件伪装多库多表，极大的减少了调用方代码的复杂程度和出错概率；此外，本发明实现了业务调用方数据库解耦操作，通过中间件伪装，可以无缝切换底层数据存储方案；另外，本发明采用的数据分类整合方法能够提高数据分类的整体效率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种优化搜索引擎多索引的查询方法,其特征在于：包括数据存储，数据分表，数据检索三部分；具体步骤为：

C、对请求得到的数据进行分类整合,然后返回给调用方。

2.根据权利要求1所述的一种优化搜索引擎多索引的查询方法,其特征在于：所述步骤C中数据分类整合方法包括以下步骤：

A、识别数据库中每个训练样本的类别；

E、将得到的所有训练稀疏系数向量级联得到训练矩阵；