CN102945286A - 数据索引装置和数据索引方法 - Google Patents

数据索引装置和数据索引方法 Download PDF

Info

Publication number
CN102945286A
CN102945286A CN2012104910242A CN201210491024A CN102945286A CN 102945286 A CN102945286 A CN 102945286A CN 2012104910242 A CN2012104910242 A CN 2012104910242A CN 201210491024 A CN201210491024 A CN 201210491024A CN 102945286 A CN102945286 A CN 102945286A
Authority
CN
China
Prior art keywords
field
index
data
label
semi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012104910242A
Other languages
English (en)
Inventor
赵兴成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN2012104910242A priority Critical patent/CN102945286A/zh
Publication of CN102945286A publication Critical patent/CN102945286A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种数据索引装置,包括:读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。相应地,本发明还提供了一种数据索引方法。通过本发明的技术方案,在读取半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有了更大的提升。

Description

数据索引装置和数据索引方法
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据索引装置和数据索引方法。
背景技术
随着网络技术的发展,特别是互联网和企业内部网技术的飞快发展,使得半结构化数据的数量日趋增大。目前,对半结构化数据的处理主要是做结构化处理,进行结构化处理耗时较长,随着数据结构越来越来越复杂,结构化处理将越来越不适合产品应用。
因此,需要一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理。
有鉴于此,本发明提出了一种数据索引装置,包括:读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,而不必再对数据进行结构化处理,从而方便搜索引擎建立索引,使得搜索引擎的实时性有了更大的提升。
在上述技术方案中,优选地,还包括:转存单元,在所述读取单元读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速地为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
根据本发明的又一方面,还提供了一种数据索引方法,包括:步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
在上述技术方案中,优选地,所述步骤206还包括:在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
通过以上技术方案,将半结构化数据中与索引字段符合的字段加入标签,搜索引擎根据标签建立索引,这样对半结构化数据做了预处理,不必再对数据进行结构化处理,从而提高了索引的速度。
附图说明
图1示出了根据本发明的实施例的数据索引装置的框图;
图2示出了根据本发明的实施例的数据索引方法的流程图;
图3示出了根据本发明的实施例的数据索引方法的具体流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的数据索引装置的框图。
如图1所示,本发明的实施例的数据索引装置100包括:读取单元102,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元104,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元106,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
在上述技术方案中,优选地,还包括:转存单元108,在所述读取单元102读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
图2示出了根据本发明的实施例的数据索引方法的流程图。
如图2所示,本发明的实施例的数据索引方法,包括:步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
在上述技术方案中,优选地,所述步骤206还包括:在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上,除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
图3示出了根据本发明的实施例的数据索引方法的具体流程图。
如图3所示,本发明的实施例的数据索引方法的具体流程如下:
步骤302,开始对半结构化数据的原始数据进行读取。
步骤304,读取一行数据加入到内存中。
步骤306,判断读取的数据中是否有与索引字段相匹配的字符串。
步骤308,如果判断结果为否,则不对读取的数据做处理,也不将其加入索引库。
步骤310,如果读取的一行数据中有与索引字段相匹配的字符串,则将该字段打标签。标签中除了包含标签标识外,还包括字段位置和字段信息,具体地,字段位置可以包括字段的偏移量,字段信息可以包括字段名称,这样搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
步骤312,打标签的数据放入内存中。
步骤314,在读取完所有的半结构化数据以后,将内存中所有已打标签的数据存入索引目录。这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
下面列举一个标签的例子来详细说明本发明的技术方案。
根据本发明的实施例的数据索引方法,在数据收集过程中,对符合字段打标签,标注此字段位置及字段信息,搜索引擎建立索引时匹配标签即可,不必再对数据进行结构化。下面为标签样例:
GET/flower_store/category.screen?category_id=GIFTS HTTP/1.1″<lable>response,3</lable>20010567
样例中<lable>为标签标识,response为字段名称,3为字段偏移值。搜索引擎根据字段名称和字段偏移量取出需要索引的字段,添加到索引当中。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据索引装置,其特征在于,包括:
读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;
标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;
索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
2.根据权利要求1所述的数据索引装置,其特征在于,还包括:
转存单元,在所述读取单元读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
3.根据权利要求2所述的数据索引装置,其特征在于,所述标签包括标签标识、字段位置及字段信息。
4.根据权利要求3所述的数据索引装置,其特征在于,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
5.根据权利要求1至4中任一项所述的数据索引装置,其特征在于,所述索引目录中包括多种数据源格式的数据。
6.一种数据索引方法,其特征在于,包括:
步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;
步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;
步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
7.根据权利要求6所述的数据索引方法,其特征在于,所述步骤206还包括:
在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
8.根据权利要求7所述的数据索引方法,其特征在于,所述标签包括标签标识、字段位置及字段信息。
9.根据权利要求8所述的数据索引方法,其特征在于,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
10.根据权利要求6至9中任一项所述的数据索引方法,其特征在于,所述索引目录中包括多种数据源格式的数据。
CN2012104910242A 2012-11-27 2012-11-27 数据索引装置和数据索引方法 Pending CN102945286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012104910242A CN102945286A (zh) 2012-11-27 2012-11-27 数据索引装置和数据索引方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012104910242A CN102945286A (zh) 2012-11-27 2012-11-27 数据索引装置和数据索引方法

Publications (1)

Publication Number Publication Date
CN102945286A true CN102945286A (zh) 2013-02-27

Family

ID=47728230

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012104910242A Pending CN102945286A (zh) 2012-11-27 2012-11-27 数据索引装置和数据索引方法

Country Status (1)

Country Link
CN (1) CN102945286A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963205A (en) * 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963205A (en) * 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138637A (zh) * 2015-08-24 2015-12-09 浪潮软件股份有限公司 一种数据处理的方法及装置

Similar Documents

Publication Publication Date Title
US8983926B2 (en) Method and system for tagging original data generated by things in the internet of things
CN104376063B (zh) 基于分类管理的多线程网络爬虫方法和信息实时更新系统
CN101908071B (zh) 一种提高搜索引擎搜索效率的方法及其系统
CN102929890B (zh) 一种基于目录的书签标记方法及装置
CN101727498A (zh) 一种基于web结构的网页信息自动提取方法
CN102129428B (zh) 一种实现从网页中订阅信息的方法及装置
CN101963966A (zh) 一种为搜索结果添加标签的搜索结果分类方法
CN110674310A (zh) 一种基于知识图谱的工业物联标识方法
CN102982117B (zh) 信息搜索方法和装置
CN101676907A (zh) 一种互联网资源定向获取方法及系统
WO2008045229A3 (en) Method and system for sharing bookmarks
CN103577490A (zh) 一种网页浏览历史展现方法及装置
CN102411617B (zh) 一种对海量url进行存储和查询方法
CN102110109A (zh) 一种数字报专题的制作方法及系统
CN106126646A (zh) 建立物联网智能设备的倒排索引的方法及装置
CN104424213A (zh) 基于移动终端的用户衣橱服饰管理方法
CN103440249A (zh) 一种非结构化数据快速检索的系统及方法
US20140337357A1 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN104598604A (zh) 一种网址导航应用于各种浏览器中的浏览方法
US20120150857A1 (en) Bookmark extracting apparatus, method and computer program
EP2933731A1 (en) Method for configuring browser bookmarks, device and terminal thereof
CN104281619A (zh) 搜索结果排序系统及方法
US9251136B2 (en) Document tagging and retrieval using entity specifiers
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN103853770B (zh) 一种抽取论坛网页中帖子内容的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130227