CN104077379A - 一种索引更新的方法 - Google Patents
一种索引更新的方法 Download PDFInfo
- Publication number
- CN104077379A CN104077379A CN201410295061.5A CN201410295061A CN104077379A CN 104077379 A CN104077379 A CN 104077379A CN 201410295061 A CN201410295061 A CN 201410295061A CN 104077379 A CN104077379 A CN 104077379A
- Authority
- CN
- China
- Prior art keywords
- weights
- index
- increment
- basic
- basic index
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种索引更新的方法,包括步骤:A、根据规则为实时创建的普通索引增加记载权值的索引权值标签,作为增量索引放入增量索引池缓存;B、判断符合基础索引的更新条件时,根据更新规则将增量索引池中的增量索引根据索引权值标签记载的权值大小排序,并依次更新至基础索引中。由上,根据所述更新条件、更新规则可以实现新增量索引灵活的动态更新。
Description
技术领域
本发明涉及一种数据处理技术,特别是指一种索引更新的方法。
背景技术
全文检索引擎不能时时更新增量索引,只能在规定的时间去解析新增的文件,提取文件中的文本,然后将文本转为索引,再追加到全文检索引擎,这个过程是个循环,文件越多,耗费的时间越多。每次做索引更新时,应用都无法使用索引,所以时间越长,应用无法使用索引的时间也就越长,导致效率降低。
为了优化索引更新,中国专利申请号CN201010554536提供了一种云环境中的文本索引在线更新方法,其要更新的各个节点分批次执行索引更新,逐个节点进行更新,来替代由于整体更新时带来的节点不可访问的问题,从整体上解决了在更新增量索引时无法使用索引的问题。
但是对于某个节点进行更新时,对于该节点,其全文检索更新仍是独占模式。其要更新所要的新增索引量数据量大时,该节点仍无法被访问,如何能够实现新增量索引更新的更加灵活,是所要解决的技术问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种索引更新的方法,以实现新增量索引灵活的动态更新。
本发明提供的索引更新的方法,包括步骤:
A、根据规则为实时创建的普通索引增加记载权值的索引权值标签,作为增量索引放入增量索引池缓存;
B、判断符合基础索引的更新条件时,根据更新规则将增量索引池中的增量索引根据索引权值标签记载的权值大小排序,并依次更新至基础索引中。
由上,将增量索引根据一定规则设定不同的权值,从而具有不同的优先级,当增量索引追加到基础索引时,根据增量索引的各个权值的优先级来决定各增量索引更新的时间、范围等,以实现新增量索引灵活的动态更新。
较佳的,步骤A所述权值包括不同类型的权值;步骤B所述更新规则包括指定类型的权值或由不同类型的权值计算的综合权值;相应的,步骤B所述根据索引权值标签记载的权值大小排序是根据所述指定类型的权值大小排序,或根据计算出的所述综合权值大小排序。
由上,将增量索引根据一定规则设定不同的权值,从而具有不同的优先级,当增量索引追加到基础索引时,根据增量索引的各个权值的优先级来决定各增量索引更新的时间、范围等,以实现新增量索引灵活的动态更新。
可选的,所述索引权值标签记载有下述至少之一的类型的权值:用于体现同一文件出现频率的出现频率权值、用于体现文件内容字节的长度的长度权值、用于体现文件对应业务类型的业务规则权值、文件格式权值。
由上,通过不同权重对应其不同的修改权限,可以间接体现出文件重要性。
可选的,所述综合权值的计算步骤包括: 其中,x综合指要计算的综合权值,xi表示每类权值,ai表示每类权值的系数。
由上,当一个索引数据被设置有不同类型的多个权值时,可以根据上述规则计算综合权值,从而实现将各增量索引根据所其权值标签大小进行排序。
可选的,步骤B所述判断符合基础索引的更新条件包括以下之一或任意组合:
判断是否到达设定时间确定是否符合基础索引的更新条件;
判断与基础索引前次更新的时间间隔是否到达设定时长确定是否符合基础索引的更新条件;
判断某权值以上的索引量是否达到某预定值确定是否符合基础索引的更新条件;
判断新增的增量索引权值是否大于设定权值确定是否符合基础索引的更新条件;
判断增量索引池内缓存的索引是否到达到一定容量确定是否符合基础索引的更新条件;
可选的,基础索引更新过程所限定的更新时长。
由上,将上述各个更新条件单一使用或结合使用,当满足所设定的更新条件即可进行更新,不必向现有的更新方法那样,每天只做固定几次更新,实现新增量索引灵活的动态更新。
可选的,步骤B所述更新规则包括对应的以下之一或任意组合:
更新过程所限定的更新时长;相应的,步骤B所述依次更新至基础索引中是在所述更新时长内执行;
更新过程所限定的权值;相应的,步骤B所述依次更新至基础索引中是将符合所述权值的增量索引更新至基础索引;
不同时刻所对应的更新过程所限定的不同权值;相应的,步骤B所述依次更新至基础索引中是将所述时刻符合所述权值的增量索引更新至基础索引。
由上可以看出,本发明对索引库提供了多种动态更新方法,不必向现有的更新方法那样,每天只做固定几次更新,而且更新时应用系统不能使用索引(因为一次要更新很多,耗费较长的时间)。
附图说明
图1为本申请示意图;
图2为本发明流程图。
具体实施方式
本发明的原理是将增量索引根据一定规则设定不同的权值,从而具有不同的优先级,当增量索引追加到基础索引时,根据增量索引的各个权值的优先级来决定各增量索引更新的时间、范围等。下面参见附图,以某节点进行全文检索引擎更新为例,对本发明进行详细说明。
如图1所示,本发明的索引更新方法包括以下步骤:
步骤10:根据规则为实时创建的普通索引增加权值。
新增的普通索引数据根据预设规则增加权值标签,形成带权值标签的索引。其中,权值标签中的权值类型的设置可以根据使用现场具体要求进行配置。并且,一个索引数据可以被设置有不同类型的多个权值,比如:
索引权值标签为:出现的频率权值,体现了同一文件出现的频率;
索引权值标签为:长度权值,体现了文件内容字节的长度;
索引权值标签为:业务规则权值,体现了文件对应的业务类型:例如公文类、通知类、决定类,通过不同权重表示不同的重要性;
索引权值标签为:文件格式权值,体现了文件对应的格式:例如不可修改的pdf格式、可修改的doc格式,通过不同权重对应其不同的修改权限,从而间接体现出文件重要性。
并且,出现多个权值时,当在使用这些权值时,可根据需要选取所需的权值,或者生成综合权值,其中不同的索引权值可根据配置文件确定权值的大小,具体可参见后文步骤420。
步骤20:将配置有权值标签的索引数据放入增量索引池缓存。
步骤30:判断是否符合基础索引的更新条件,若是,则执行下一步,否则返回步骤10。
其中,所述更新条件和相应的判断方法可以包括以下几种:
A1、更新条件为到达设定的时间,例如凌晨4:00;此种情况下通过判断是否到达该时刻确定是否符合基础索引的更新条件;
A2、更新条件为与上次更新的时间差到达设定的时长;此种情况下通过判断是否到达所述时长确定是否符合基础索引的更新条件;
A3、更新条件还可以包括更新过程所限定的时长、例如限定每次更新时长为30分钟。该更新条件不进行单用;
B1、更新条件为增量索引池内某设定权值以上的索引达到某预定范围时,如第三权值或综合权值以上的索引量达200条,或达增量索引池20%容量;此种情况下通过判断所述设定权值以上的索引是否达到某预定范围,从而确定是否符合基础索引的更新条件;这里说的综合权值是对各个权值进行计算获得,可具体参见步骤420中的描述。
B2、更新条件为增量索引的权值大于设定权值(即高优先级);此种情况下通过判断新增的增量索引权值大小确定是否符合基础索引的更新条件;
B3、更新条件为增量索引池内缓存的索引达到一定容量,例如超过增量索引池70%容量;此种情况下通过判断增量索引池内缓存的索引是否到达到一定容量确定是否符合基础索引的更新条件;
所述各个更新条件可以结合使用,结合使用时各更新条件可以是或的逻辑关系,也可以是和的逻辑关系,甚至上述条件还可以设置不同的优先级。上述各类条件可以以配置文件,如“条件配置表”中进行组合配置,根据索引更新需求调用“条件配置表”中对应的条件。
步骤40:根据更新条件创建更新规则,更新权值匹配该规则的增量索引至基础索引库。其具体包括下述子步骤:
步骤410:根据步骤10中所选的索引更新条件,创建对应的当前的更新规则。
首先,创建的更新规则中至少包括:根据权值大小构成的排序作为不同的优先级,从权值大的到权值小的进行依次更新的规则。
另外,其他的更新规则可以与上述步骤30内的基础索引更新条件有关:
例如,当更新条件含有A3,则将上述A3作为更新规则之一;
又如,更新规则与B1、B2有关,则将相应的权值过滤作为更新规则之一。
进一步的还可以设置不同的时刻所述要过滤的权值大小不同。例如数据访问量大时,则仅更新权值最大增量索引至基础索引库的,而数据访问量一般时,更新前两级权值的增量索引至基础索引库,而数量访问量少时,则可更新全部增量索引至基础索引库。
步骤420:各增量索引根据所其权值标签大小进行排序,所述排序即对应为优先级。
对应上述步骤10中所述的多种权值,可以提取所述规则中的某一权值。例如,规则是参考索引出现的频率权值,则仅提取各个索引的该出现的频率权值,对索引进行排序。
可以根据所述规则计算综合权值。其中,对于一个增量索引的各类索引权值,还可设置系数,系数用来标示该增量索引更偏重是哪类权值,当某增量索引具有n类权值时,其综合权值如下计算:
其中,x综合指要计算的综合权值,xi表示每类权值,ai表示每类权值的系数。各个增量索引可以以该综合权值进行排序。
步骤430:按照所述排序,在所创建的更新规则下,将匹配的增量索引更新至基础索引库。
当更新规则是某权值以上的增量索引的更新,则选择对应权值以上的增量索引,由权值排序依次更新至基础索引中。
又如,当更新规则是限定某时长内进行增量索引的更新,则由权值排序依次更新至基础索引中,直到所述时长结束,无论是否增量索引全部更新完毕都结束本次的更新。
其中,具体更新的步骤包括:通知获取基础索引开关,并关闭该开关,使应用程序暂时无法通过开关获取基础索引;根据上述更新规则将带有优先级权值的索引追加到基础索引上;再次打开应用系统获取基础索引的开关。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种索引更新的方法,其特征在于,包括步骤:
A、根据规则为实时创建的普通索引增加记载权值的索引权值标签,作为增量索引放入增量索引池缓存;
B、判断符合基础索引的更新条件时,根据更新规则将增量索引池中的增量索引根据索引权值标签记载的权值大小排序,并依次更新至基础索引中。
2.根据权利要求1所述的方法,其特征在于,
步骤A所述权值包括不同类型的权值;
步骤B所述更新规则包括指定类型的权值或由不同类型的权值计算的综合权值;
相应的,步骤B所述根据索引权值标签记载的权值大小排序是根据所述指定类型的权值大小排序,或根据计算出的所述综合权值大小排序。
3.根据权利要求2所述的方法,其特征在于,所述索引权值标签记载有下述至少之一的类型的权值:
用于体现同一文件出现频率的出现频率权值、用于体现文件内容字节的长度的长度权值、用于体现文件对应业务类型的业务规则权值、文件格式权值。
4.根据权利要求2所述的方法,其特征在于,所述综合权值的计算步骤包括:
其中,x综合指要计算的综合权值,xi表示每类权值,ai表示每类权值的系数。
5.根据权利要求2所述的方法,其特征在于,步骤B所述判断符合基础索引的更新条件包括以下之一或任意组合:
判断是否到达设定时间确定是否符合基础索引的更新条件;
判断与基础索引前次更新的时间间隔是否到达设定时长确定是 否符合基础索引的更新条件;
判断某权值以上的索引量是否达到某预定值确定是否符合基础索引的更新条件;
判断新增的增量索引权值是否大于设定权值确定是否符合基础索引的更新条件;
判断增量索引池内缓存的索引是否到达到一定容量确定是否符合基础索引的更新条件。
6.根据权利要求5所述的方法,其特征在于,还包括:
基础索引更新过程所限定的更新时长。
7.根据权利要求1所述的方法,其特征在于,步骤B所述更新规则包括对应的以下之一或任意组合:
更新过程所限定的更新时长;相应的,步骤B所述依次更新至基础索引中是在所述更新时长内执行;
更新过程所限定的权值;相应的,步骤B所述依次更新至基础索引中是将符合所述权值的增量索引更新至基础索引;
不同时刻所对应的更新过程所限定的不同权值;相应的,步骤B所述依次更新至基础索引中是将所述时刻符合所述权值的增量索引更新至基础索引。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410295061.5A CN104077379A (zh) | 2014-06-25 | 2014-06-25 | 一种索引更新的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410295061.5A CN104077379A (zh) | 2014-06-25 | 2014-06-25 | 一种索引更新的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104077379A true CN104077379A (zh) | 2014-10-01 |
Family
ID=51598633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410295061.5A Pending CN104077379A (zh) | 2014-06-25 | 2014-06-25 | 一种索引更新的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077379A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291768A (zh) * | 2016-04-11 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种索引建立的方法及装置 |
CN109101599A (zh) * | 2018-08-01 | 2018-12-28 | 北京奇艺世纪科技有限公司 | 一种增量索引更新方法及系统 |
CN111309846A (zh) * | 2018-12-12 | 2020-06-19 | 中国移动通信集团四川有限公司 | 索引处理方法、装置、设备及介质 |
CN113934911A (zh) * | 2021-10-20 | 2022-01-14 | 国网江苏省电力有限公司镇江供电分公司 | 一种文件爬取与搜索方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136016A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种全文检索系统的索引在线更新方法 |
US20100318519A1 (en) * | 2009-06-10 | 2010-12-16 | At&T Intellectual Property I, L.P. | Incremental Maintenance of Inverted Indexes for Approximate String Matching |
CN102004778A (zh) * | 2010-11-19 | 2011-04-06 | 清华大学 | 一种云环境中的文本索引在线更新方法 |
CN103198108A (zh) * | 2013-03-27 | 2013-07-10 | 新浪网技术(中国)有限公司 | 一种索引数据更新方法、检索服务器及系统 |
-
2014
- 2014-06-25 CN CN201410295061.5A patent/CN104077379A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136016A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种全文检索系统的索引在线更新方法 |
US20100318519A1 (en) * | 2009-06-10 | 2010-12-16 | At&T Intellectual Property I, L.P. | Incremental Maintenance of Inverted Indexes for Approximate String Matching |
CN102004778A (zh) * | 2010-11-19 | 2011-04-06 | 清华大学 | 一种云环境中的文本索引在线更新方法 |
CN103198108A (zh) * | 2013-03-27 | 2013-07-10 | 新浪网技术(中国)有限公司 | 一种索引数据更新方法、检索服务器及系统 |
Non-Patent Citations (1)
Title |
---|
ATSUSHI KEYAKI 等: ""Fast Incremental Indexing with Effective and Efficient Searching in XML Element Retrieval"", 《INTERNATIONAL JOURNAL OF WEB INFORMATION SYSTEMS》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291768A (zh) * | 2016-04-11 | 2017-10-24 | 阿里巴巴集团控股有限公司 | 一种索引建立的方法及装置 |
CN107291768B (zh) * | 2016-04-11 | 2021-03-05 | 创新先进技术有限公司 | 一种索引建立的方法及装置 |
CN109101599A (zh) * | 2018-08-01 | 2018-12-28 | 北京奇艺世纪科技有限公司 | 一种增量索引更新方法及系统 |
CN111309846A (zh) * | 2018-12-12 | 2020-06-19 | 中国移动通信集团四川有限公司 | 索引处理方法、装置、设备及介质 |
CN111309846B (zh) * | 2018-12-12 | 2023-09-05 | 中国移动通信集团四川有限公司 | 索引处理方法、装置、设备及介质 |
CN113934911A (zh) * | 2021-10-20 | 2022-01-14 | 国网江苏省电力有限公司镇江供电分公司 | 一种文件爬取与搜索方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8095547B2 (en) | Method and apparatus for detecting spam user created content | |
Pedrosa et al. | Angular momentum evolution for galaxies in a Λ-CDM scenario | |
CN104065565B (zh) | 推送消息的方法、服务器、客户端装置和系统 | |
CN100495400C (zh) | 一种全文检索系统的索引在线更新方法 | |
CN103778148B (zh) | Hadoop分布式文件系统数据文件的生命周期管理方法和设备 | |
CN109948121A (zh) | 文章相似度挖掘方法、系统、设备及存储介质 | |
CN107704503A (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
CN107844425A (zh) | 一种数据库语句检查方法和装置 | |
CN103617213B (zh) | 识别新闻网页属性特征的方法和系统 | |
CN104077379A (zh) | 一种索引更新的方法 | |
CN110033206A (zh) | 物料清单自动校核方法及装置 | |
CN104516910A (zh) | 在客户端服务器环境中推荐内容 | |
CN112650923A (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN103605776A (zh) | 信息数据库的数据处理方法和装置 | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
CN110032650B (zh) | 一种训练样本数据的生成方法、装置及电子设备 | |
CN102662966A (zh) | 一种面向主题的获取动态页面内容的方法及系统 | |
CN108536745A (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN103559313B (zh) | 搜索方法及装置 | |
CN102402563A (zh) | 网络信息筛选方法和装置 | |
CN105786910B (zh) | 词条权重计算方法和装置 | |
CN105426128A (zh) | 一种索引的维护方法及装置 | |
CN105824892A (zh) | 一种数据池对数据同步和处理的方法 | |
CN110019763A (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN110215703B (zh) | 游戏应用的选择方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100094, Beijing, Haidian District, West Road, No. 8, Zhongguancun Software Park, building 9, international software building E, one floor, two layers Applicant after: BEIJING HAITAI FANGYUAN HIGH TECHNOLOGY CO., LTD. Address before: 100094, Beijing, Haidian District, West Road, No. 8, Zhongguancun Software Park, building 9, international software building E, one floor, two layers Applicant before: Beijing Haitai Fangyuan High Technology Co., Ltd. |
|
COR | Change of bibliographic data | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141001 |
|
RJ01 | Rejection of invention patent application after publication |