CN104778252B - 索引的存储方法和装置 - Google Patents

索引的存储方法和装置 Download PDF

Info

Publication number
CN104778252B
CN104778252B CN201510181883.5A CN201510181883A CN104778252B CN 104778252 B CN104778252 B CN 104778252B CN 201510181883 A CN201510181883 A CN 201510181883A CN 104778252 B CN104778252 B CN 104778252B
Authority
CN
China
Prior art keywords
index
data
fragment
server
index fragment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510181883.5A
Other languages
English (en)
Other versions
CN104778252A (zh
Inventor
杨乾磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN201510181883.5A priority Critical patent/CN104778252B/zh
Publication of CN104778252A publication Critical patent/CN104778252A/zh
Application granted granted Critical
Publication of CN104778252B publication Critical patent/CN104778252B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种索引的存储方法和装置。所述索引的存储方法,包括:索引的存储方法,包括:获取实施中的分表;查找所述分表对应的服务器的索引分片;对所述分表的数据建立索引,生成所述分表对应的索引;将所述分表对应的索引存储在所述分表对应的所述索引分片中。本发明对索引进行索引分片存储,能够减少索引文件的建立所耗费的时间。

Description

索引的存储方法和装置
技术领域
本发明涉及数据库领域,特别涉及一种索引的存储方法和装置。
背景技术
近年来,数据库得到越来越广泛的应用。现有技术中,对数据建立的索引需要进行存储。但是,随着索引文件的越来越庞大,对索引文件的建立耗费的时间也越来越多,速度越来越慢。
发明内容
本发明提供一种索引的存储方法和装置,用以提高索引建立的速度。
一方面,提供一种索引的存储方法,包括:
获取实施中的分表;
查找所述分表对应的服务器的索引分片;
对所述分表的数据建立索引,生成所述分表对应的索引;
将所述分表对应的索引存储在所述分表对应的所述索引分片中。
所述获取实施中的分表的步骤之前,所述方法还包括:
建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
所述建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系的步骤包括:
根据HASH算法,在所述分表的序号和所述索引分片的序号之间建立对应关系,从而建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
所述建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系的步骤包括:
获取所述实施中的所有分表的数据总量;
根据所述数据总量,确定所述服务器中的索引分片总量;
根据所述索引分片总量,给所述服务器中的各索引分片设置序号;
根据所述分表的序号和所述索引分片的序号,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
所述查找所述分表对应的服务器的索引分片的步骤之前,所述方法还包括:
提取所述分表中数据的资源类型标识;
当所述资源类型标识为TV数据标识或专辑数据标识时,则执行查找所述分表对应的服务器的索引分片的步骤。
所述对所述分表的数据建立索引,生成所述分表对应的索引的步骤包括:
对所述分表的数据进行分词,生成分词数据;
根据地域词典,从所述分词数据中筛选出标示地域信息的地理分词数据标识;
将所述地理分词数据标识作为搜索字段建立索引。
另一方面,提供一种索引的存储装置,包括:
获取单元,获取实施中的分表;
查找单元,查找所述分表对应的服务器的索引分片;
建立单元,对所述分表的数据建立索引,生成所述分表对应的索引;
存储单元,将所述分表对应的索引存储在所述分表对应的所述索引分片中。
所述的装置,还包括:
建立单元,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
所述建立单元具体为:
根据HASH算法,在所述分表的序号和所述索引分片的序号之间建立对应关系,从而建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
所述建立单元包括:
获取子单元,获取所述实施中的所有分表的数据总量;
确定子单元,根据所述数据总量,确定所述服务器中的索引分片总量;
设置子单元,根据所述索引分片总量,给所述服务器中的各索引分片设置序号;
建立子单元,根据所述分表的序号和所述索引分片的序号,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
本发明中,对实例的各个分表的数据建立索引,然后,将分表对应的索引存储在所述分表对应的索引分片中,可以提高建立索引的速度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种索引的存储方法的流程图;
图2为本发明实施例中一种索引的存储装置的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,为本发明所述的一种索引的存储方法,包括:
步骤11,获取实施中的分表;该步骤中,一个实例是一个类型的数据,例如可以为直播数据的信息文件,一个实例包括多个分表。
步骤12,查找所述分表对应的服务器的索引分片;该步骤中,服务器中设置有多个索引分片。
步骤13,对所述分表的数据建立索引,生成所述分表对应的索引;
步骤14,将所述分表对应的索引存储在所述分表对应的所述索引分片中。该步骤中,对实例的各个分表的数据建立索引,然后,将分表对应的索引存储在所述分表对应的索引分片中。例如,数据分表1对应索引分片1,则将数据分表1的索引存储到索引分片1中。
本发明中,对实例的各个分表的数据建立索引,然后,将分表对应的索引存储在所述分表对应的索引分片中,可以提高建立索引的速度。同时,同一个实例下配置多个索引分片,有利于各索引分片的索引的快速建立。另外,由于将一个实例数据划分为多个索引分片进行索引建立,从而降低了系统的IO(输入输出)开销,增强了系统对外的性能及稳定性。
可选的,步骤11之前,所述方法还包括:
步骤10,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
在一个实施例中,步骤10包括:根据HASH算法,在所述分表的序号和所述索引分片的序号之间建立对应关系,从而建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
在另一个实施例中,步骤10包括:
步骤101,获取所述实施中的所有分表的数据总量;
步骤102,根据所述数据总量,确定所述服务器中的索引分片总量;当数据总量大时,可以设置较大的索引分片总量,当数据总量小时,可以设置较小的索引分片总量
步骤103,根据所述索引分片总量,给所述服务器中的各索引分片设置序号;
步骤104,根据所述分表的序号和所述索引分片的序号,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
可选的,步骤12之前,所述方法还包括:
步骤12A,提取所述分表中数据的资源类型标识;
步骤12B,当所述资源类型标识为TV数据标识或专辑数据标识时,则继续后续步骤,否则,可以结束处理。也就是说,对于不同实例,后续处理时,根据hash算法,计算该分表对应的索引分片编号(序号),生成不同实例下的索引数据。
在一个实施例中,步骤13包括:
步骤131,对所述分表的数据进行分词,生成分词数据;所述分表的数据为:类型为标题、摘要或者内容的数据。
步骤132,根据地域词典,从所述分词数据中筛选出标示地域信息的地理分词数据标识;
步骤133,将所述地理分词数据标识作为搜索字段建立索引。
如图2所示,为本发明所述的一种索引的存储装置,包括:
获取单元21,获取实施中的分表;
查找单元22,查找所述分表对应的服务器中的索引分片;
第一建立单元23,对所述分表的数据建立索引,生成所述分表对应的索引;
存储单元24,将所述分表对应的索引存储在所述分表对应的所述索引分片中。
可选的,所述存储装置还包括:
第二建立单元25,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
在一个实施例中,第二建立单元25具体为:根据HASH算法,在所述分表的序号和所述索引分片的序号之间建立对应关系,从而建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
在另一个实施例中,第二建立单元25包括:
获取子单元,获取所述实施中的所有分表的数据总量;
确定子单元,根据所述数据总量,确定所述服务器中的索引分片总量;
设置子单元,根据所述索引分片总量,给所述服务器中的各索引分片设置序号;
建立子单元,根据所述分表的序号和所述索引分片的序号,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
可选的,所述存储装置还包括:
提取单元26,提取所述分表中数据的资源类型标识;
判断单元27,判断所述资源类型标识为TV数据标识或专辑数据标识时,则启动查找单元22。
在一个实施例中,第一建立单元23包括:
分词子单元,对所述分表的数据进行分词,生成分词数据;所述分表的数据为:类型为标题、摘要或者内容的数据。
筛选子单元,根据地域词典,从所述分词数据中筛选出标示地域信息的地理分词数据标识;
建立子单元,将所述地理分词数据标识作为搜索字段建立索引。
以下描述本发明的应用场景。
本应用场景中,一个实例是一个类型的数据,例如,在直播实例中,可以为直播数据的信息文件,一个实例包括多个分表。服务器上设置多个索引分片,用于存储不同分表的索引数据。概括来说,对实例的各个分表的数据建立索引,然后,将分表对应的索引数据存储在所述分表对应的索引分片中。
具体的:当获取到实例的数据资源时,首先,判断数据资源类型是否是TV数据或专辑数据等(可以为系统已配置的多个实例);如果是,则建立索引。然后,索引分片存储每个实例的数据索引,这样索引分片存储后,将一个实例下的索引数据,分散到多个索引分片下进行索引,可以提高索引的建立和维护速度,建立索引过程中还可以减小系统IO开销。其中,索引分片数量可以配置,具体的,可以根据实例的数据量来设定索引分片数。
建立索引时,可以针对视频资源的标题、摘要、内容等,进行分词。并按地域词典,筛选出地域信息ID;将地域信息ID存放在地域字段里,作为搜索字段,这样,后续处理时,可以根据数据资源快速查到资源所属相关地域名称。
当有多个索引实例时,每个索引都会有一个全文索引配置文件。其中记录有:主机标识、索引数据文件的索引分片数量以及数据分表数值。
建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系时,可以通过hash算法,根据主机序列号、实例索引的索引分片总数以及实例下数据分表数量计算而得。从而,可以平均将该实例的全部数据,分到相应主机下的每个索引分片下分别进行索引。
比如:一个实例对应有16个索引分片,每个索引分片下配置了数据分表编号:1024,2048,3072,4096,5120,6144,7168,8192。
对于非增量数据(重建索引、合并),根据索引分片序列总数、全部数据分表编号,hash计算出每个索引分片下对应哪几个表的编号。
对于增量,可以分配索引分片编号0,全部数据分表编号1024,2048,3072,4096,5120,6144,7168,8192,从而将这些分表下的增量数据到索引分片0。
以下为hash脚本:
本发明实施例提供的播放视频的装置采用加密串的方式向服务器发送视频的播放请求,使得客户端从服务器获取视频的门槛更高,并不是仅仅获取到视频地址就能从服务器直接获取视频的,因此极大地增加了视频的安全性,实现防盗链的目的,同时减少非正常访问给服务器带来的压力,从而增加客户端正常访问服务器时的访问效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种索引的存储方法,其特征在于,包括:
获取实施中的分表;
查找所述分表对应的服务器中的索引分片;
对所述分表的数据建立索引,生成所述分表对应的索引;
将所述分表对应的索引存储在所述分表对应的所述索引分片中;
所述查找所述分表对应的服务器的索引分片的步骤之前,所述方法还包括:
提取所述分表中数据的资源类型标识;
当所述资源类型标识为TV数据标识或专辑数据标识时,则执行查找所述分表对应的服务器的索引分片的步骤。
2.根据权利要求1所述的方法,其特征在于,所述获取实施中的分表的步骤之前,所述方法还包括:
建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系的步骤包括:
根据HASH算法,在所述分表的序号和所述索引分片的序号之间建立对应关系,从而建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
4.根据权利要求2所述的方法,其特征在于,所述建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系的步骤包括:
获取所述实施中的所有分表的数据总量;
根据所述数据总量,确定所述服务器中的索引分片总量;
根据所述索引分片总量,给所述服务器中的各索引分片设置序号;
根据所述分表的序号和所述索引分片的序号,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
5.根据权利要求1所述的方法,其特征在于,所述对所述分表的数据建立索引,生成所述分表对应的索引的步骤包括:
对所述分表的数据进行分词,生成分词数据;
根据地域词典,从所述分词数据中筛选出标示地域信息的地理分词数据标识;
将所述地理分词数据标识作为搜索字段建立索引。
6.一种索引的存储装置,其特征在于,包括:
获取单元,获取实施中的分表;
查找单元,查找所述分表对应的服务器的索引分片;
建立单元,对所述分表的数据建立索引,生成所述分表对应的索引;
存储单元,将所述分表对应的索引存储在所述分表对应的所述索引分片中;
所述查找单元,还用于提取所述分表中数据的资源类型标识;当所述资源类型标识为TV数据标识或专辑数据标识时,则执行查找所述分表对应的服务器的索引分片的步骤。
7.根据权利要求6所述的装置,其特征在于,还包括:
建立单元,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
8.根据权利要求7所述的装置,其特征在于,所述建立单元具体为:
根据HASH算法,在所述分表的序号和所述索引分片的序号之间建立对应关系,从而建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
9.根据权利要求7所述的装置,其特征在于,所述建立单元包括:
获取子单元,获取所述实施中的所有分表的数据总量;
确定子单元,根据所述数据总量,确定所述服务器中的索引分片总量;
设置子单元,根据所述索引分片总量,给所述服务器中的各索引分片设置序号;
建立子单元,根据所述分表的序号和所述索引分片的序号,建立所述实施中的各分表与所述服务器中的各索引分片之间的对应关系。
CN201510181883.5A 2015-04-16 2015-04-16 索引的存储方法和装置 Expired - Fee Related CN104778252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510181883.5A CN104778252B (zh) 2015-04-16 2015-04-16 索引的存储方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510181883.5A CN104778252B (zh) 2015-04-16 2015-04-16 索引的存储方法和装置

Publications (2)

Publication Number Publication Date
CN104778252A CN104778252A (zh) 2015-07-15
CN104778252B true CN104778252B (zh) 2018-12-21

Family

ID=53619716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510181883.5A Expired - Fee Related CN104778252B (zh) 2015-04-16 2015-04-16 索引的存储方法和装置

Country Status (1)

Country Link
CN (1) CN104778252B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105005624B (zh) * 2015-07-31 2018-05-08 天脉聚源(北京)传媒科技有限公司 一种生成索引文档id的方法及装置
CN110019436B (zh) * 2017-07-14 2021-04-09 北京国双科技有限公司 数据导入\导出方法和装置、数据表处理方法和装置
CN110019200B (zh) * 2017-09-30 2023-05-09 阿里巴巴集团控股有限公司 一种索引的建立、使用方法及装置
CN108197296B (zh) * 2018-01-23 2020-09-29 马上消费金融股份有限公司 基于Elasticsearch索引的数据存储方法
CN108829790A (zh) * 2018-06-01 2018-11-16 阿里巴巴集团控股有限公司 一种数据批处理方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004046960A1 (en) * 2002-11-16 2004-06-03 International Business Machines Corporation System and method for conducting adaptive search using a peer-to-peer network
CN101727460A (zh) * 2008-10-31 2010-06-09 中兴通讯股份有限公司 一种内容分片定位方法和系统
CN102890651A (zh) * 2011-07-19 2013-01-23 阿里巴巴集团控股有限公司 一种场景数据的测试方法和装置
CN103310023A (zh) * 2013-07-05 2013-09-18 深圳中兴网信科技有限公司 分布式搜索系统和分布式搜索方法
CN103984745A (zh) * 2014-05-23 2014-08-13 何震宇 分布式视频垂直搜索方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004046960A1 (en) * 2002-11-16 2004-06-03 International Business Machines Corporation System and method for conducting adaptive search using a peer-to-peer network
CN101727460A (zh) * 2008-10-31 2010-06-09 中兴通讯股份有限公司 一种内容分片定位方法和系统
CN102890651A (zh) * 2011-07-19 2013-01-23 阿里巴巴集团控股有限公司 一种场景数据的测试方法和装置
CN103310023A (zh) * 2013-07-05 2013-09-18 深圳中兴网信科技有限公司 分布式搜索系统和分布式搜索方法
CN103984745A (zh) * 2014-05-23 2014-08-13 何震宇 分布式视频垂直搜索方法及系统

Also Published As

Publication number Publication date
CN104778252A (zh) 2015-07-15

Similar Documents

Publication Publication Date Title
CN104778252B (zh) 索引的存储方法和装置
CN105025319B (zh) 一种视频推送方法和装置
CN106202235B (zh) 一种数据处理方法及装置
CN110943961B (zh) 数据处理方法、设备以及存储介质
CN103678293B (zh) 一种数据存储方法及装置
US10402427B2 (en) System and method for analyzing result of clustering massive data
CN107515878B (zh) 一种数据索引的管理方法及装置
CN105049287A (zh) 日志处理方法及装置
CN108184170B (zh) 一种数据处理方法及装置
US11100073B2 (en) Method and system for data assignment in a distributed system
WO2017028394A1 (zh) 一种基于实例的分布式数据恢复方法和装置
KR102018445B1 (ko) 캐스캐이딩 스타일 시트 파일들의 압축
CN107832440B (zh) 一种数据挖掘方法、装置、服务器及计算机可读存储介质
US20170339252A1 (en) Generating a response to a client device in an internet of things domain
CN105005624A (zh) 一种生成索引文档id的方法及装置
CN111966631A (zh) 一种可快速分发的镜像文件生成方法、系统、设备和介质
CN107451204B (zh) 一种数据查询方法、装置及设备
CN106570060B (zh) 一种信息流中数据的随机抽取方法及装置
CN112579623A (zh) 存储数据的方法、装置、存储介质及设备
CN108153777B (zh) 数据访问信息的获取方法及装置
JP2014164499A (ja) 画像分類装置及び画像分類プログラム
CN107515916B (zh) 数据查询的性能优化方法及装置
CN104935647B (zh) 一种文件分享方法及装置
CN104185032B (zh) 一种视频识别方法及系统
CN106557564A (zh) 一种对象数据分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Storage method and device of index

Effective date of registration: 20210104

Granted publication date: 20181221

Pledgee: Inner Mongolia Huipu Energy Co.,Ltd.

Pledgor: TVMINING (BEIJING) MEDIA TECHNOLOGY Co.,Ltd.

Registration number: Y2020990001527

PE01 Entry into force of the registration of the contract for pledge of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181221

Termination date: 20210416

CF01 Termination of patent right due to non-payment of annual fee