CN104715068A - 一种生成文档索引的方法和装置以及一种搜索方法和装置 - Google Patents

一种生成文档索引的方法和装置以及一种搜索方法和装置 Download PDF

Info

Publication number
CN104715068A
CN104715068A CN201510150540.2A CN201510150540A CN104715068A CN 104715068 A CN104715068 A CN 104715068A CN 201510150540 A CN201510150540 A CN 201510150540A CN 104715068 A CN104715068 A CN 104715068A
Authority
CN
China
Prior art keywords
document
information relevant
concordance list
record
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510150540.2A
Other languages
English (en)
Other versions
CN104715068B (zh
Inventor
陈进平
董毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuan Yuan Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510150540.2A priority Critical patent/CN104715068B/zh
Publication of CN104715068A publication Critical patent/CN104715068A/zh
Priority to PCT/CN2015/099579 priority patent/WO2016155385A1/zh
Application granted granted Critical
Publication of CN104715068B publication Critical patent/CN104715068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor

Abstract

本发明公开了一种生成文档索引的方法和装置以及一种搜索方法和装置。所述方法包括:生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置,生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息,其中,只有文档中的一个位置具有需要记录的与该位置相关信息时,才在所述第二索引表中进行记录。本发明的技术方案,将位置以及与位置相关的信息分离存储,使得在索引中扩展与位置相关的信息更加方便灵活,且只有实际存在的与位置相关的信息才占用存储空间,避免了存储资源的浪费。

Description

一种生成文档索引的方法和装置以及一种搜索方法和装置
技术领域
本发明涉及互联网搜索技术领域,具体涉及一种生成文档索引的方法和装置以及一种搜索方法和装置。
背景技术
在搜索引擎系统中,倒排索引被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
即倒排索引会记录每个词在文档里出现的位置(也称为偏移)。为了更好地提升搜索效果,有时需要记录与这些位置相关的信息,包括但不限于:
1.这个位置包括在书名号里;例如,《资治通鉴》中的‘通鉴’的出现就是在书名号里;
2.这个位置包括在引号里;
3.这个位置是在html标签<H3>里。
倒排索引用16个bit来记录每个词的每次出现位置,为了记录与位置相关的信息,一般的实现方式是将16bit扩充为32bit,低16位存储位置,高16bit存储与位置相关的信息。当时这种方法带来如下问题:一方面,索引增长太多,由于倒排索引的主要内容为每个词的出现位置,如果将这个值从16bit扩充到32bit,整个倒排索引会增长一倍。另一方面,大多数的位置并具备有价值的与该位置相关的信息,因此实际上大多数存储资源都被浪费了。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种生成文档索引的方法和装置以及一种搜索方法和装置。
依据本发明的一个方面,提供了一种生成文档索引的方法,其中,该方法包括:
生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置;
生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息;
其中,只有文档中的一个位置具有需要记录的与该位置相关信息时,才在所述第二索引表中进行记录。
可选地,所述生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息包括:
在第二索引表中,以三元组的形式记录与位置相关的信息;
所述三元组由以下三元构成:与位置相关的信息的开始位置;与位置相关的信息的长度;与位置相关的信息的类型。
可选地,所述每个位置由16比特位来记录;
所述与位置相关的信息的开始位置由16比特位来记录;
所述与位置相关的信息的长度由8比特位来记录;
所述与位置相关的信息的类型由8比特位来记录。
依据本发明的另一个方面,提供了一种搜索方法,其中,该方法包括:
接收搜索请求方发来的搜索词;
根据第一索引表找到搜索词在文档中的位置;其中,第一索引表用于记录词以及该词在文档中的位置;
根据第二索引表找到与搜索词在文档中的位置相关的信息;其中,第二索引表用于记录位置以及与位置相关的信息;
基于所述搜索词对应的文档中的位置和与位置相关的信息,将所述文档作为搜索结果返回给搜索请求方。
依据本发明的一个方面,提供了一种生成文档索引的装置,其中,该装置包括:
第一索引表生成单元,适于生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置;
第二索引表生成单元,适于生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息;其中,只有文档中的一个位置具有需要记录的相关信息时,才在所述第二索引表中进行记录。
可选地,第二索引表生成单元,适于在第二索引表中,以三元组的形式记录与位置相关的信息;
其中,所述三元组由以下三元构成:与位置相关的信息的开始位置,与位置相关的信息的长度;与位置相关的信息的类型。
可选地,
所述第一索引表生成单元,适于将每个位置用16比特位来记录;
所述第二索引表生成单元,适于将与位置相关的信息的开始位置用16比特位来记录,将与位置相关的信息的长度用8比特位来记录,适于与将位置相关的信息的类型用8比特位来记录。
依据本发明的另一个方面,提供了一种搜索装置,其中,该装置包括:
接收单元,适于接收搜索请求方发来的搜索词;
搜索单元,适于根据第一索引表找到搜索词在文档中的位置,以及根据第二索引表找到与搜索词在文档中的位置相关的信息;其中,第一索引表用于记录词以及该词在文档中的位置,第二索引表用于记录位置以及与位置相关的信息;
发送单元,适于基于所述搜索词对应的文档中的位置和与位置相关的信息,将所述文档作为搜索结果返回给搜索请求方。
根据本发明的这种生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置,生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息,其中,只有文档中的一个位置具有需要记录的与该位置相关信息时,才在所述第二索引表中进行记录的技术方案,将位置以及与位置相关的信息分离存储,使得在索引中扩展与位置相关的信息更加方便灵活,且只有实际存在的与位置相关的信息才占用存储空间,避免了存储资源的浪费。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种生成文档索引的方法的流程图;
图2示出了根据本发明一个实施例的一种搜索方法的流程图;
图3示出了根据本发明一个实施例的一种生成文档索引的装置的结构图;
图4示出了根据本发明一个实施例的一种搜索装置的结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的一种生成文档索引的方法的流程图。如图1所示,该方法包括:
步骤S110,生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置;
步骤S120,生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息;其中,只有文档中的一个位置具有需要记录的与该位置相关信息时,才在所述第二索引表中进行记录。
图1所示的方法,将位置以及与位置相关的信息分离存储,使得在索引中扩展与位置相关的信息更加方便灵活,且只有实际存在的与位置相关的信息才占用存储空间,避免了存储资源的浪费。
在本发明的一个实施例中,图1所示方法的步骤S120所述生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息包括:在第二索引表中,以三元组的形式记录与位置相关的信息;
所述三元组由以下三元构成:与位置相关的信息的开始位置,用start表示;与位置相关的信息的长度,用len表示;与位置相关的信息的类型,用rype。
三元组具体可表示为<start,len,type>。
Start表示与位置相关的信息的开始位置,如书名号的起始位置;
len表示与位置相关的信息的长度,如书名号的长度;
type表示与位置相关的信息的类型,如该相关的信息为书名号。
在本发明的一个实施例中每个位置由16比特位(即16bit)来记录;通过位置到三元组列表(即所述的第二索引表)里检索与位置相关的信息。所述与位置相关的信息的开始位置start由16比特位来记录;所述与位置相关的信息的长度len由8比特位来记录;所述与位置相关的信息的类型type由8比特位来记录。
同时,只有当文档包括特征的与位置相关的信息时才在第二索引表中存储,不存在浪费。因此相对于传统的实现方式,能够节约至少40%的索引空间。
并且与位置相关的信息在存储上与位置分离,实际上使得位置相关信息的扩展更加灵活方便。
图2示出了根据本发明一个实施例的一种搜索方法的流程图。如图2所示该方法包括:
步骤S210,接收搜索请求方发来的搜索词;
步骤S220,根据第一索引表找到搜索词在文档中的位置;其中,第一索引表用于记录词以及该词在文档中的位置;
步骤S230,根据第二索引表找到与搜索词在文档中的位置相关的信息;其中,第二索引表用于记录位置以及与位置相关的信息;
步骤S240,基于所述搜索词对应的文档中的位置和与位置相关的信息,将所述文档作为搜索结果返回给搜索请求方。
图2所示的方法能够给搜索请求方返回基于位置和与位置相关的信息的搜索结果,并且与位置相关的信息与位置分离存储,位置相关信息的扩展更加灵活,且大大节省了索引空间。
图3示出了根据本发明一个实施例的一种生成文档索引的装置的结构图。如图3所示,该生成文档索引的装置300包括:
第一索引表生成单元310,适于生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置;
第二索引表生成单元320,适于生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息;其中,只有文档中的一个位置具有需要记录的相关信息时,才在所述第二索引表中进行记录。
图3所示的装置,将位置以及与位置相关的信息分离存储,使得在索引中扩展与位置相关的信息更加方便灵活,且只有实际存在的与位置相关的信息才占用存储空间,避免了存储资源的浪费。
在本发明的一个实施例中,第二索引表生成单元320,适于在第二索引表中,以三元组的形式记录与位置相关的信息;
其中,所述三元组由以下三元构成:与位置相关的信息的开始位置,与位置相关的信息的长度;与位置相关的信息的类型。
三元组具体可表示为<start,len,type>。
Start表示与位置相关的信息的开始位置,如书名号的起始位置;
len表示与位置相关的信息的长度,如书名号的长度;
type表示与位置相关的信息的类型,如该相关的信息为书名号。
在本发明的一个实施例中,所述第一索引表生成单元310,适于将每个位置用16比特位来记录;所述第二索引表生成单元320,适于将与位置相关的信息的开始位置用16比特位来记录,将与位置相关的信息的长度用8比特位来记录,适于与将位置相关的信息的类型用8比特位来记录。
同时,只有当文档包括特征的与位置相关的信息时才在第二索引表中存储,不存在浪费。因此相对于传统的实现方式,能够节约至少40%的索引空间。并且与位置相关的信息在存储上与位置分离,实际上使得位置相关信息的扩展更加灵活方便。
图4示出了根据本发明一个实施例的一种搜索装置的结构图。如图4所示,该搜索装置400包括:
接收单元410,适于接收搜索请求方发来的搜索词;
搜索单元420,,适于根据第一索引表找到搜索词在文档中的位置,以及根据第二索引表找到与搜索词在文档中的位置相关的信息;其中,第一索引表用于记录词以及该词在文档中的位置,第二索引表用于记录位置以及与位置相关的信息;
发送单元430,适于基于所述搜索词对应的文档中的位置和与位置相关的信息,将所述文档作为搜索结果返回给搜索请求方。
图4所示的装置能够给搜索请求方返回给基于置和与位置相关的信息的搜索结果,并且与位置相关的信息与位置分离存储,位置相关信息的扩展更加灵活,且大大节省了索引空间。
综上所述,根据本发明的这种生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置,生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息,其中,只有文档中的一个位置具有需要记录的与该位置相关信息时,才在所述第二索引表中进行记录的技术方案,将位置以及与位置相关的信息分离存储,使得在索引中扩展与位置相关的信息更加方便灵活,且只有实际存在的与位置相关的信息才占用存储空间,避免了存储资源的浪费。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的生成文档索引的装置和搜索装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (8)

1.一种生成文档索引的方法,其中,该方法包括:
生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置;
生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息;
其中,只有文档中的一个位置具有需要记录的与该位置相关信息时,才在所述第二索引表中进行记录。
2.如权利要求1所述的方法,其中,所述生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息包括:
在第二索引表中,以三元组的形式记录与位置相关的信息;
所述三元组由以下三元构成:与位置相关的信息的开始位置;与位置相关的信息的长度;与位置相关的信息的类型。
3.如权利要求2所述的方法,其中,
所述每个位置由16比特位来记录;
所述与位置相关的信息的开始位置由16比特位来记录;
所述与位置相关的信息的长度由8比特位来记录;
所述与位置相关的信息的类型由8比特位来记录。
4.一种搜索方法,其中,该方法包括:
接收搜索请求方发来的搜索词;
根据第一索引表找到搜索词在文档中的位置;其中,第一索引表用于记录词以及该词在文档中的位置;
根据第二索引表找到与搜索词在文档中的位置相关的信息;其中,第二索引表用于记录位置以及与位置相关的信息;
基于所述搜索词对应的文档中的位置和与位置相关的信息,将所述文档作为搜索结果返回给搜索请求方。
5.一种生成文档索引的装置,其中,该装置包括:
第一索引表生成单元,适于生成以文档中的词为索引的第一索引表,用于记录词以及该词在文档中的位置;
第二索引表生成单元,适于生成以文档中的位置为索引的第二索引表,用于记录位置以及与位置相关的信息;其中,只有文档中的一个位置具有需要记录的相关信息时,才在所述第二索引表中进行记录。
6.如权利要求5所述的装置,其中
第二索引表生成单元,适于在第二索引表中,以三元组的形式记录与位置相关的信息;
其中,所述三元组由以下三元构成:与位置相关的信息的开始位置,与位置相关的信息的长度;与位置相关的信息的类型。
7.如权利要求6所述的装置,其中,
所述第一索引表生成单元,适于将每个位置用16比特位来记录;
所述第二索引表生成单元,适于将与位置相关的信息的开始位置用16比特位来记录,将与位置相关的信息的长度用8比特位来记录,适于与将位置相关的信息的类型用8比特位来记录。
8.一种搜索装置,其中,该装置包括:
接收单元,适于接收搜索请求方发来的搜索词;
搜索单元,适于根据第一索引表找到搜索词在文档中的位置,以及根据第二索引表找到与搜索词在文档中的位置相关的信息;其中,第一索引表用于记录词以及该词在文档中的位置,第二索引表用于记录位置以及与位置相关的信息;
发送单元,适于基于所述搜索词对应的文档中的位置和与位置相关的信息,将所述文档作为搜索结果返回给搜索请求方。
CN201510150540.2A 2015-03-31 2015-03-31 一种生成文档索引的方法和装置以及一种搜索方法和装置 Active CN104715068B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510150540.2A CN104715068B (zh) 2015-03-31 2015-03-31 一种生成文档索引的方法和装置以及一种搜索方法和装置
PCT/CN2015/099579 WO2016155385A1 (zh) 2015-03-31 2015-12-29 一种生成文档索引的方法和装置以及一种搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510150540.2A CN104715068B (zh) 2015-03-31 2015-03-31 一种生成文档索引的方法和装置以及一种搜索方法和装置

Publications (2)

Publication Number Publication Date
CN104715068A true CN104715068A (zh) 2015-06-17
CN104715068B CN104715068B (zh) 2017-04-12

Family

ID=53414394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510150540.2A Active CN104715068B (zh) 2015-03-31 2015-03-31 一种生成文档索引的方法和装置以及一种搜索方法和装置

Country Status (2)

Country Link
CN (1) CN104715068B (zh)
WO (1) WO2016155385A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155385A1 (zh) * 2015-03-31 2016-10-06 北京奇虎科技有限公司 一种生成文档索引的方法和装置以及一种搜索方法和装置
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1873643A (zh) * 2005-05-10 2006-12-06 国际商业机器公司 使用词汇关联增强搜索引擎查询性能的方法和系统
CN101131704A (zh) * 2006-08-23 2008-02-27 国际商业机器公司 用于内容的位置表示的装置和方法
CN102023989A (zh) * 2009-09-23 2011-04-20 阿里巴巴集团控股有限公司 一种信息检索方法及其系统
CN102033954A (zh) * 2010-12-24 2011-04-27 东北大学 关系数据库中可扩展标记语言文档全文检索查询索引方法
CN102110123A (zh) * 2009-12-29 2011-06-29 中国人民解放军国防科学技术大学 倒排索引建立方法
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662926B (zh) * 2012-03-29 2015-09-30 常州华文文字技术有限公司 字库的存储与访问方法
CN104715068B (zh) * 2015-03-31 2017-04-12 北京奇元科技有限公司 一种生成文档索引的方法和装置以及一种搜索方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1873643A (zh) * 2005-05-10 2006-12-06 国际商业机器公司 使用词汇关联增强搜索引擎查询性能的方法和系统
CN101131704A (zh) * 2006-08-23 2008-02-27 国际商业机器公司 用于内容的位置表示的装置和方法
CN102023989A (zh) * 2009-09-23 2011-04-20 阿里巴巴集团控股有限公司 一种信息检索方法及其系统
CN102110123A (zh) * 2009-12-29 2011-06-29 中国人民解放军国防科学技术大学 倒排索引建立方法
CN102033954A (zh) * 2010-12-24 2011-04-27 东北大学 关系数据库中可扩展标记语言文档全文检索查询索引方法
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016155385A1 (zh) * 2015-03-31 2016-10-06 北京奇虎科技有限公司 一种生成文档索引的方法和装置以及一种搜索方法和装置
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备
CN110096478B (zh) * 2019-05-09 2021-06-29 中国联合网络通信集团有限公司 文档索引生成方法及设备

Also Published As

Publication number Publication date
CN104715068B (zh) 2017-04-12
WO2016155385A1 (zh) 2016-10-06

Similar Documents

Publication Publication Date Title
CN101276361B (zh) 一种显示相关关键词的方法及系统
CN107153647B (zh) 进行数据压缩的方法、装置、系统和计算机程序产品
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
JP6720626B2 (ja) キュレートされたコンテンツ内の古くなったアイテムの除去
CN104077391A (zh) 提供专题新闻搜索的方法、服务器、客户端和系统
CN104462517A (zh) 数据同步方法及装置
CN102725759A (zh) 用于搜索结果的语义目录
US20110258202A1 (en) Concept extraction using title and emphasized text
CN105447166A (zh) 一种基于关键字查找信息的方法及系统
CN103838881A (zh) 自定义搜索结果页的方法及装置
CN114489839B (zh) 针对页面加载配置数据的方法及装置、服务器
CN104281275A (zh) 一种英文的输入方法和装置
CN105138649A (zh) 数据的搜索方法、装置及终端
CN104715068A (zh) 一种生成文档索引的方法和装置以及一种搜索方法和装置
US20130151517A1 (en) File search apparatus and method using tag graph
CN104715067A (zh) 在网页上标注关键词的方法、装置、系统和浏览器客户端
CN109656947A (zh) 数据查询方法、装置、计算机设备和存储介质
CN110110184B (zh) 信息查询方法、系统、计算机系统及存储介质
CN105069175A (zh) 一种基于版本控制系统的信息检索方法及服务器
CN104021193A (zh) 搜索切换方法及搜索切换装置
CN103778181B (zh) 浏览器收藏夹中图标的导入方法及装置
US8805820B1 (en) Systems and methods for facilitating searches involving multiple indexes
US20090299962A1 (en) Dynamic update of a web index
CN111666278A (zh) 数据存储、检索方法、电子设备及存储介质
CN105279247A (zh) 表情库的生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170310

Address after: 100016 Chaoyang District Road, Jiuxianqiao, No. 10, building No. 3, floor 15, floor 17, 1701-15B,

Applicant after: Beijing Yuan Yuan Technology Co., Ltd.

Address before: 100088 Beijing city Xicheng District xinjiekouwai Street 28, block D room 112 (Desheng Park)

Applicant before: Beijing Qihu Technology Co., Ltd.

Applicant before: Qizhi Software (Beijing) Co., Ltd.

GR01 Patent grant
GR01 Patent grant