CN102945286A - 数据索引装置和数据索引方法 - Google Patents
数据索引装置和数据索引方法 Download PDFInfo
- Publication number
- CN102945286A CN102945286A CN2012104910242A CN201210491024A CN102945286A CN 102945286 A CN102945286 A CN 102945286A CN 2012104910242 A CN2012104910242 A CN 2012104910242A CN 201210491024 A CN201210491024 A CN 201210491024A CN 102945286 A CN102945286 A CN 102945286A
- Authority
- CN
- China
- Prior art keywords
- field
- index
- data
- label
- semi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种数据索引装置,包括:读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。相应地,本发明还提供了一种数据索引方法。通过本发明的技术方案,在读取半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有了更大的提升。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据索引装置和数据索引方法。
背景技术
随着网络技术的发展,特别是互联网和企业内部网技术的飞快发展,使得半结构化数据的数量日趋增大。目前,对半结构化数据的处理主要是做结构化处理,进行结构化处理耗时较长,随着数据结构越来越来越复杂,结构化处理将越来越不适合产品应用。
因此,需要一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理。
发明内容
本发明正是基于上述问题,提出了一种新的技术方案,可以使得在处理半结构化数据时,避免对其进行结构化处理时产生的耗时长等问题,而可以采取更好的方法对半结构化数据进行处理。
有鉴于此,本发明提出了一种数据索引装置,包括:读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,而不必再对数据进行结构化处理,从而方便搜索引擎建立索引,使得搜索引擎的实时性有了更大的提升。
在上述技术方案中,优选地,还包括:转存单元,在所述读取单元读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速地为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
根据本发明的又一方面,还提供了一种数据索引方法,包括:步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
在上述技术方案中,优选地,所述步骤206还包括:在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
通过以上技术方案,将半结构化数据中与索引字段符合的字段加入标签,搜索引擎根据标签建立索引,这样对半结构化数据做了预处理,不必再对数据进行结构化处理,从而提高了索引的速度。
附图说明
图1示出了根据本发明的实施例的数据索引装置的框图;
图2示出了根据本发明的实施例的数据索引方法的流程图;
图3示出了根据本发明的实施例的数据索引方法的具体流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明的实施例的数据索引装置的框图。
如图1所示,本发明的实施例的数据索引装置100包括:读取单元102,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;标记单元104,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;索引建立单元106,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
在上述技术方案中,优选地,还包括:转存单元108,在所述读取单元102读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
图2示出了根据本发明的实施例的数据索引方法的流程图。
如图2所示,本发明的实施例的数据索引方法,包括:步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
在该技术方案中,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
在上述技术方案中,优选地,所述步骤206还包括:在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
在该技术方案中,在对半结构化数据进行遍历以后,将所有已加标签的数据都存到索引目录,这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
在上述技术方案中,优选地,所述标签包括标签标识、字段位置及字段信息。
在该技术方案中,加入到符合字段的标签上,除了包含标签标识外,还包括字段位置和字段信息,搜索引擎在建立索引时,根据标签位置及标签信息即可找到与其搜索内容匹配的标签。
在上述技术方案中,优选地,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
在该技术方案中,具体地,字段位置包括字段的偏移量,字段信息包括字段名称,搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
在上述技术方案中,优选地,所述索引目录中包括多种数据源格式的数据。
本发明的技术方案可以适用于多种数据源格式。
图3示出了根据本发明的实施例的数据索引方法的具体流程图。
如图3所示,本发明的实施例的数据索引方法的具体流程如下:
步骤302,开始对半结构化数据的原始数据进行读取。
步骤304,读取一行数据加入到内存中。
步骤306,判断读取的数据中是否有与索引字段相匹配的字符串。
步骤308,如果判断结果为否,则不对读取的数据做处理,也不将其加入索引库。
步骤310,如果读取的一行数据中有与索引字段相匹配的字符串,则将该字段打标签。标签中除了包含标签标识外,还包括字段位置和字段信息,具体地,字段位置可以包括字段的偏移量,字段信息可以包括字段名称,这样搜索引擎在建立索引时,根据索引内容找到与其匹配的字段名称,再根据标签中字段名称对应的字段偏移量,找到字段,从而建立索引。
步骤312,打标签的数据放入内存中。
步骤314,在读取完所有的半结构化数据以后,将内存中所有已打标签的数据存入索引目录。这样搜索引擎在建立索引时,只从索引目录中查找与其搜索内容匹配的标签即可,而不必在所有半结构化数据中进行查找匹配,从而缩短了查找时间,能够更快速的为搜索引擎提供数据源。
下面列举一个标签的例子来详细说明本发明的技术方案。
根据本发明的实施例的数据索引方法,在数据收集过程中,对符合字段打标签,标注此字段位置及字段信息,搜索引擎建立索引时匹配标签即可,不必再对数据进行结构化。下面为标签样例:
GET/flower_store/category.screen?category_id=GIFTS HTTP/1.1″<lable>response,3</lable>20010567
样例中<lable>为标签标识,response为字段名称,3为字段偏移值。搜索引擎根据字段名称和字段偏移量取出需要索引的字段,添加到索引当中。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,在处理半结构化数据时,将半结构化数据中与索引字段匹配的字段加上标签,在搜索引擎建立索引时,找到与需要索引的字段相匹配的标签即可,不必再对数据进行结构化,从而方便搜索引擎建立索引,使得搜索引擎的实时性有更大的提升。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据索引装置,其特征在于,包括:
读取单元,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;
标记单元,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;
索引建立单元,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
2.根据权利要求1所述的数据索引装置,其特征在于,还包括:
转存单元,在所述读取单元读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
3.根据权利要求2所述的数据索引装置,其特征在于,所述标签包括标签标识、字段位置及字段信息。
4.根据权利要求3所述的数据索引装置,其特征在于,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
5.根据权利要求1至4中任一项所述的数据索引装置,其特征在于,所述索引目录中包括多种数据源格式的数据。
6.一种数据索引方法,其特征在于,包括:
步骤202,读取半结构化数据,判断所述半结构化数据中是否有与索引字段相匹配的字符串;
步骤204,将所述字符串与索引字段相匹配的字段标记为符合字段,并在所述符合字段加入标签;
步骤206,搜索引擎根据所述标签查找到需要索引的字段,并建立索引。
7.根据权利要求6所述的数据索引方法,其特征在于,所述步骤206还包括:
在读取完所述半结构化数据以后,将所有已加入标签的数据转存到索引目录中。
8.根据权利要求7所述的数据索引方法,其特征在于,所述标签包括标签标识、字段位置及字段信息。
9.根据权利要求8所述的数据索引方法,其特征在于,所述字段位置包括字段偏移量,所述字段信息包括字段名称。
10.根据权利要求6至9中任一项所述的数据索引方法,其特征在于,所述索引目录中包括多种数据源格式的数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012104910242A CN102945286A (zh) | 2012-11-27 | 2012-11-27 | 数据索引装置和数据索引方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012104910242A CN102945286A (zh) | 2012-11-27 | 2012-11-27 | 数据索引装置和数据索引方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102945286A true CN102945286A (zh) | 2013-02-27 |
Family
ID=47728230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012104910242A Pending CN102945286A (zh) | 2012-11-27 | 2012-11-27 | 数据索引装置和数据索引方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102945286A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138637A (zh) * | 2015-08-24 | 2015-12-09 | 浪潮软件股份有限公司 | 一种数据处理的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963205A (en) * | 1995-05-26 | 1999-10-05 | Iconovex Corporation | Automatic index creation for a word processor |
CN101534306A (zh) * | 2009-04-14 | 2009-09-16 | 深圳市腾讯计算机系统有限公司 | 一种钓鱼网站的检测方法及装置 |
-
2012
- 2012-11-27 CN CN2012104910242A patent/CN102945286A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963205A (en) * | 1995-05-26 | 1999-10-05 | Iconovex Corporation | Automatic index creation for a word processor |
CN101534306A (zh) * | 2009-04-14 | 2009-09-16 | 深圳市腾讯计算机系统有限公司 | 一种钓鱼网站的检测方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138637A (zh) * | 2015-08-24 | 2015-12-09 | 浪潮软件股份有限公司 | 一种数据处理的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8983926B2 (en) | Method and system for tagging original data generated by things in the internet of things | |
CN104376063B (zh) | 基于分类管理的多线程网络爬虫方法和信息实时更新系统 | |
CN101908071B (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
CN102929890B (zh) | 一种基于目录的书签标记方法及装置 | |
CN101727498A (zh) | 一种基于web结构的网页信息自动提取方法 | |
CN102129428B (zh) | 一种实现从网页中订阅信息的方法及装置 | |
CN101963966A (zh) | 一种为搜索结果添加标签的搜索结果分类方法 | |
CN110674310A (zh) | 一种基于知识图谱的工业物联标识方法 | |
CN102982117B (zh) | 信息搜索方法和装置 | |
CN101676907A (zh) | 一种互联网资源定向获取方法及系统 | |
WO2008045229A3 (en) | Method and system for sharing bookmarks | |
CN103577490A (zh) | 一种网页浏览历史展现方法及装置 | |
CN102411617B (zh) | 一种对海量url进行存储和查询方法 | |
CN102110109A (zh) | 一种数字报专题的制作方法及系统 | |
CN106126646A (zh) | 建立物联网智能设备的倒排索引的方法及装置 | |
CN104424213A (zh) | 基于移动终端的用户衣橱服饰管理方法 | |
CN103440249A (zh) | 一种非结构化数据快速检索的系统及方法 | |
US20140337357A1 (en) | Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries | |
CN104598604A (zh) | 一种网址导航应用于各种浏览器中的浏览方法 | |
US20120150857A1 (en) | Bookmark extracting apparatus, method and computer program | |
EP2933731A1 (en) | Method for configuring browser bookmarks, device and terminal thereof | |
CN104281619A (zh) | 搜索结果排序系统及方法 | |
US9251136B2 (en) | Document tagging and retrieval using entity specifiers | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
CN103853770B (zh) | 一种抽取论坛网页中帖子内容的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130227 |