CN108304487A - 一种优化搜索引擎多索引的查询方法 - Google Patents
一种优化搜索引擎多索引的查询方法 Download PDFInfo
- Publication number
- CN108304487A CN108304487A CN201810003112.0A CN201810003112A CN108304487A CN 108304487 A CN108304487 A CN 108304487A CN 201810003112 A CN201810003112 A CN 201810003112A CN 108304487 A CN108304487 A CN 108304487A
- Authority
- CN
- China
- Prior art keywords
- data
- training sample
- classification
- training
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种优化搜索引擎多索引的查询方法,包括数据存储,数据分表,数据检索三部分,本发明能够快速的,批量的进行大范围检索,方便数据;本发明消除了调用方数据库分库分表造成的多库多表问题;本发明可以通过中间件伪装多库多表,极大的减少了调用方代码的复杂程度和出错概率;此外,本发明实现了业务调用方数据库解耦操作,通过中间件伪装,可以无缝切换底层数据存储方案。
Description
技术领域
本发明涉及数据处理技术领域,具体为一种优化搜索引擎多索引的查询方法。
背景技术
现有领域中数据存储形式多为关系型数据库,当数据量超过百万时就需要进行分库分表操作。否则将造成查询堵塞,严重影响调用方使用,情况严重更会导致拖垮数据库使业务瘫痪。
发明内容
本发明的目的在于提供一种优化搜索引擎多索引的查询方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种优化搜索引擎多索引的查询方法,包括数据存储,数据分表,数据检索三部分;具体步骤为:
A、通过在流中源源不断的获取数据,并针对数据特有的结构进行分索引规则匹配.完成数据的分索引操作;
B、调用方发起检索数据请求,经过特殊处理以及规则匹配对所需数据进行分索引同时请求;
C、对请求得到的数据进行分类整合,然后返回给调用方。
优选的,所述步骤C中数据分类整合方法包括以下步骤:
A、识别数据库中每个训练样本的类别;
B、在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
C、确定第一训练样本集中每一类别的训练样本的平均样本;利用预设迭代算法对所有类别的平均样本进行迭代运算得到第一训练样本集的分类字典;
D、将第二训练样本集中的每个训练样本在分类字典下分解得到一个训练稀疏系数向量;
E、将得到的所有训练稀疏系数向量级联得到训练矩阵;
F、根据第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存训练矩阵中每个列向量对应的类别标签,即完成对数据的分类整合。
与现有技术相比,本发明的有益效果是:本发明能够快速的,批量的进行大范围检索,方便数据;本发明消除了调用方数据库分库分表造成的多库多表问题;本发明可以通过中间件伪装多库多表,极大的减少了调用方代码的复杂程度和出错概率;此外,本发明实现了业务调用方数据库解耦操作,通过中间件伪装,可以无缝切换底层数据存储方案;另外,本发明采用的数据分类整合方法能够提高数据分类的整体效率。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供如下技术方案:一种优化搜索引擎多索引的查询方法,包括数据存储,数据分表,数据检索三部分;具体步骤为:
A、通过在流中源源不断的获取数据,并针对数据特有的结构进行分索引规则匹配.完成数据的分索引操作;
B、调用方发起检索数据请求,经过特殊处理以及规则匹配对所需数据进行分索引同时请求;
C、对请求得到的数据进行分类整合,然后返回给调用方。
本发明中,步骤C中数据分类整合方法包括以下步骤:
A、识别数据库中每个训练样本的类别;
B、在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
C、确定第一训练样本集中每一类别的训练样本的平均样本;利用预设迭代算法对所有类别的平均样本进行迭代运算得到第一训练样本集的分类字典;
D、将第二训练样本集中的每个训练样本在分类字典下分解得到一个训练稀疏系数向量;
E、将得到的所有训练稀疏系数向量级联得到训练矩阵;
F、根据第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存训练矩阵中每个列向量对应的类别标签,即完成对数据的分类整合。
实施例:当流失处理数据的结果需要落库的时候.比如,汇通天下GSP的位置信息入库,通过对位置信息进行特殊的分索引规则匹配.将数据分散在不同的索引上,可以是按照数据生成时间,或者是按照设备,或者是按照其他的规则;当应用程序需要位置信息时,将查询语句进行解析,通过要查询的索引,获取对应的分表规则,并对查询条件进行处理,找出要查询数据所在的对应的若干个索引并执行查询请求.当获取到结果之后,返回给应用程序,此次查询结束。本发明可以对外暴露一个统一的总索引,具体的分索引规则,可以不被外部感知。
本发明能够快速的,批量的进行大范围检索,方便数据;本发明消除了调用方数据库分库分表造成的多库多表问题;本发明可以通过中间件伪装多库多表,极大的减少了调用方代码的复杂程度和出错概率;此外,本发明实现了业务调用方数据库解耦操作,通过中间件伪装,可以无缝切换底层数据存储方案;另外,本发明采用的数据分类整合方法能够提高数据分类的整体效率。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (2)
1.一种优化搜索引擎多索引的查询方法,其特征在于:包括数据存储,数据分表,数据检索三部分;具体步骤为:
A、通过在流中源源不断的获取数据,并针对数据特有的结构进行分索引规则匹配.完成数据的分索引操作;
B、调用方发起检索数据请求,经过特殊处理以及规则匹配对所需数据进行分索引同时请求;
C、对请求得到的数据进行分类整合,然后返回给调用方。
2.根据权利要求1所述的一种优化搜索引擎多索引的查询方法,其特征在于:所述步骤C中数据分类整合方法包括以下步骤:
A、识别数据库中每个训练样本的类别;
B、在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;
C、确定第一训练样本集中每一类别的训练样本的平均样本;利用预设迭代算法对所有类别的平均样本进行迭代运算得到第一训练样本集的分类字典;
D、将第二训练样本集中的每个训练样本在分类字典下分解得到一个训练稀疏系数向量;
E、将得到的所有训练稀疏系数向量级联得到训练矩阵;
F、根据第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存训练矩阵中每个列向量对应的类别标签,即完成对数据的分类整合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810003112.0A CN108304487A (zh) | 2018-01-02 | 2018-01-02 | 一种优化搜索引擎多索引的查询方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810003112.0A CN108304487A (zh) | 2018-01-02 | 2018-01-02 | 一种优化搜索引擎多索引的查询方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108304487A true CN108304487A (zh) | 2018-07-20 |
Family
ID=62868492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810003112.0A Pending CN108304487A (zh) | 2018-01-02 | 2018-01-02 | 一种优化搜索引擎多索引的查询方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304487A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346438A (zh) * | 2014-09-14 | 2015-02-11 | 北京航空航天大学 | 基于大数据数据管理服务系统 |
CN104572930A (zh) * | 2014-12-29 | 2015-04-29 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104616029A (zh) * | 2014-12-29 | 2015-05-13 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN105554133A (zh) * | 2015-12-21 | 2016-05-04 | 世纪龙信息网络有限责任公司 | Http远程数据访问系统和方法 |
CN105975604A (zh) * | 2016-05-12 | 2016-09-28 | 清华大学 | 一种分布迭代式数据处理程序异常检测与诊断方法 |
CN106095951A (zh) * | 2016-06-13 | 2016-11-09 | 哈尔滨工程大学 | 基于负载均衡和查询日志的数据空间多维索引方法 |
CN106649722A (zh) * | 2016-12-23 | 2017-05-10 | 郑州天迈科技股份有限公司 | 一种监控系统高频数据的存储及查询方法 |
-
2018
- 2018-01-02 CN CN201810003112.0A patent/CN108304487A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104346438A (zh) * | 2014-09-14 | 2015-02-11 | 北京航空航天大学 | 基于大数据数据管理服务系统 |
CN104572930A (zh) * | 2014-12-29 | 2015-04-29 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN104616029A (zh) * | 2014-12-29 | 2015-05-13 | 小米科技有限责任公司 | 数据分类方法及装置 |
CN105554133A (zh) * | 2015-12-21 | 2016-05-04 | 世纪龙信息网络有限责任公司 | Http远程数据访问系统和方法 |
CN105975604A (zh) * | 2016-05-12 | 2016-09-28 | 清华大学 | 一种分布迭代式数据处理程序异常检测与诊断方法 |
CN106095951A (zh) * | 2016-06-13 | 2016-11-09 | 哈尔滨工程大学 | 基于负载均衡和查询日志的数据空间多维索引方法 |
CN106649722A (zh) * | 2016-12-23 | 2017-05-10 | 郑州天迈科技股份有限公司 | 一种监控系统高频数据的存储及查询方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263141A (zh) | 一种基于bert的客服问答系统 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
US10387805B2 (en) | System and method for ranking news feeds | |
CN102693299A (zh) | 一种并行视频拷贝检测系统和方法 | |
CN112800213B (zh) | 医学文本信息显示方法、装置及电子设备 | |
CN111078837A (zh) | 智能问答信息处理方法、电子设备及计算机可读存储介质 | |
CN110674328A (zh) | 一种商标图像检索方法、系统、介质及设备 | |
CN102402615A (zh) | 一种基于结构化查询语言语句的源信息追踪方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN109977175B (zh) | 数据配置查询方法和装置 | |
US10467276B2 (en) | Systems and methods for merging electronic data collections | |
CN115757465A (zh) | 一种向量检索方法及装置 | |
CN106933919A (zh) | 数据表的连接方法及装置 | |
CN116469500A (zh) | 一种基于医疗文档后结构化的数据质量控制方法及系统 | |
CN114020593B (zh) | 一种基于轨迹聚类的异质流程日志采样方法与系统 | |
CN113222109A (zh) | 一种基于多源异构数据聚合技术的物联网边缘算法 | |
CN108304487A (zh) | 一种优化搜索引擎多索引的查询方法 | |
CN116090413A (zh) | 一种基于序列化的通用rdf数据压缩方法 | |
CN105573984A (zh) | 社会经济指标的识别方法及装置 | |
CN115953041A (zh) | 一种营商政策系统的构建方案及系统 | |
CN113569005B (zh) | 一种基于数据内容的大规模数据特征智能化提取方法 | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN113886547B (zh) | 基于人工智能的客户实时对话转接方法、装置和电子设备 | |
CN113157814B (zh) | 关系数据库下查询驱动的智能工作负载分析方法 | |
CN112800219B (zh) | 客服日志反馈回流数据库的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180720 |
|
RJ01 | Rejection of invention patent application after publication |