CN102270201B - 用于网络文件的多维索引的方法和设备 - Google Patents
用于网络文件的多维索引的方法和设备 Download PDFInfo
- Publication number
- CN102270201B CN102270201B CN 201010192559 CN201010192559A CN102270201B CN 102270201 B CN102270201 B CN 102270201B CN 201010192559 CN201010192559 CN 201010192559 CN 201010192559 A CN201010192559 A CN 201010192559A CN 102270201 B CN102270201 B CN 102270201B
- Authority
- CN
- China
- Prior art keywords
- dimension
- index
- feature
- document
- additional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于网络文件的多维索引的方法和设备,其中为文档建立索引的方法包括:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中,其中,针对主维度的特征和次维度的特征建立扩展的倒排索引包括:针对所述主维度的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征。
Description
技术领域
本发明涉及文档检索技术领域,特别涉及一种用于网络文件的多维索引的方法和设备。
背景技术
网络文档不像纯文本一样结构单一,丰富的应用赋予了其更多的特征,如标题、正文、作者、时间、站点、类型、附加评测值、地点、语言类型、编码等,对这些特征的多条件高效率检索是网络文档检索的一个重要要求。常规的方法都是对各个特征分别检索,然后把得到的检索子集进行合并。这种方法在文档维度和文档规模不断增大时效率会不断降低。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于现有技术的上述情形,本发明的目的是提供一种用于网络文件的多维索引的方法和设备,其能够克服上述现有技术的缺点和不足,以提高检索的效率。
为了实现上述目的,根据本发明的一方面,提供了一种为文档建立索引的方法,其包括如下步骤:识别构成所述文档的特征;将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;针对所述附加维度的特征建立倒排索引;将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及将所述复合索引存储到索引储存库中,其中,针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引包括:针对所述主维度的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征。
根据本发明的另一方面,还提供了一种对文档进行检索的方法,其包括如下步骤:将用户所输入的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;根据识别的所述维度将用户所输入的特征构造为具有复合索引的特征检索结构;以及在执行根据本发明的为文档建立索引的方法而得到的索引储存库中进行检索,以检索出具有所述特征检索结构的文档。
根据本发明的另一方面,还提供了一种为文档建立索引的设备,其包括:识别装置,用于识别构成所述文档的特征;分类装置,用于将所述识别装置所识别的特征中的每一个的维度分类为主维度、次维度和附加维度中之一;主维度与次维度索引装置,用于针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;附加维度索引装置,用于针对所述附加维度的特征建立倒排索引;复合索引装置,用于将通过所述主维度与次维度索引装置针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与通过所述附加维度索引装置针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及索引储存库,用于存储通过所述复合索引装置得到的复合索引,其中,所述主维度与次维度索引装置针对所述主维度中的每一个的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征,以获得所述扩展的倒排索引。
根据本发明的另一方面,还提供了一种对文档进行检索的设备,其包括:输入装置,用于接收用户所输入的特征;识别装置,用于将所述输入装置接收的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;构造装置,用于根据识别的所述维度将所述输入装置接收的特征构造为具有复合索引的特征检索结构;以及检索装置,用于在根据本发明的为文档建立索引的设备中的索引储存库中进行检索,以检索出具有所述构造装置构造的特征检索结构的文档。
根据本发明的另一方面,还提供了用于实现上述为文档建立索引和对文档进行检索的方法的计算机程序产品。
根据本发明的另一方面,还提供了计算机可读介质,其上记录有用于实现上述为文档建立索引和对文档进行检索的方法的计算机程序代码。
在本发明的上述技术方案中,同时利用多个属性作为检索条件,以减少一次检索读取索引数据的范围,因此可以提高检索的效率;用复合索引策略和结构平衡了索引的时间和空间效率;并且由于附属维度的存在,使维度空间有良好的扩展性。
附图说明
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中:
图1是示出根据本发明实施例的为文档建立索引的方法的流程图;
图2是示出作为根据本发明实施例的具体例子的正文索引的B树组织方式的示图;
图3是示出作为根据本发明实施例的具体例子的多维索引库的示图;
图4是示出根据本发明实施例的对文档进行检索的方法的流程图;
图5是示出根据本发明实施例的为文档建立索引的设备的框图;以及
图6是示出根据本发明实施例的对文档进行检索的设备的框图。
本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的,而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以便有助于提高对本发明实施例的理解。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。
本发明设计了一种在文档维度和文档规模不断增大的条件下的文档表示和索引方法。多条件检索在网络文档检索中的应用日益增多,为提高多条件检索的效率,本发明将多维空间引入文档表示,使构成文档的某一属性本身也具有多维特征,并在此基础上将文档的构成划分为主维度、次维度和附加维度,分别构造传统索引和多维索引,它们之间以布尔方式结合,以此在提高多维检索效率的同时平衡了多维索引的空间开销。
为了进一步描述本发明的优选实施例,在下文中首先描述定义文档的表示和索引的实现。
文档D是一个多维向量D=<θ1,θ1,...θn>。在传统的信息检索中,θi,(1≤i≤n)表示文档中出现的词。在根据本发明的模型中,文档是多个特征的线性组合:D=<w1θ1,w2θ2,...wnθn>,其中wi,(1≤i≤n)表示特征θi,(1≤i≤n)在文档中的权重,θi,(1≤i≤n)是文档的一个特征。该特征θi,(1≤i≤n)本身又可以具有多维特征,它可以表示为一个多维线性函数θi=<w1T1,w2T2,...wkTk>,其中wj,(1≤j≤k)表示特征Tj,(1≤j≤k)在θi,(1≤i≤n)中的权重,Tj,(1≤j≤k)是θi,(1≤i≤n)的一个特征。也就是说,文档D是一个包含n个特征的多维对象,其中的每一维仍然可以是一个多维对象。在这个文档表示定义中引入了多维空间的特征,该空间中的每一维仍可以是一个多维空间。
查询Q是一个特殊的文档,一个包含q个查询条件的查询可以表示为Q=<w1θ1,w2θ2,...wqθq>,其中符号的含义和文档表示公式中的相同。
传统的文档索引通常都在一维空间中实现,因此为了保证索引的规模一般使用b树或其变种来构造索引。多媒体信息检索中的多维索引一般使用R树或其变种来构造索引,但这种多维结构中的每一维特征都是多维空间中的一个点,而不能像本发明的文档表示中描述的那样,每一维特征仍可以是一个多维对象。
因此,本发明扩展了R树的概念。R树中的每一个节点是一个最小外接矩阵(minimum bounding rectangles)。对于n维空间,这个最小外接矩阵可以用n个n维空间中的点来表示。这n个点是表示这个节点的最小外接矩阵的n个顶点,即MBRi=<P1,P2,...Pn>。对于本发明的多维索引,本发明定义MBRi=<V1,V2,...VN>,其中的任一维特征Vi仍可以是s维向量,即Vi=<p1,p2,...ps>。
但一个问题是使用这种结构建立索引会导致索引项增加,因为这里的索引项不再是传统文档索引中的词,而是一个词对象。词对象不仅包含词本身,还包含一些属性,如该词所在文档的时间、类型等信息。比如以下3个文档:
DOC1(2009-12-1):the development of information retrieval technologyDOC2(2009-12-10):volume of information grows rapidly
DOC3(2010-1-1):information as a concept has many meanings
其中的information在3个文档中都出现了,在建立索引的过程中information这个索引项的信息为:
information:<DOC1,DOC2,DOC3>
但由于这3个文档有不同的时间属性,本发明的索引中把时间作为一个特征,因此和information相关的索引项有3个:
[information,(2009-12-1)]:DOC1
[information,(2009-12-10)]:DOC2
[information,(2009-1-1)]:DOC3
这种索引项的膨胀会增加索引的层次,因此本发明对索引中文档的各个维度进行区分,然后建立一种混合结构的索引。
根据本发明,构成文档的各个维度被划分为主维度、次维度和附加维度;这三种维度根据索引配置文件定义,确定的依据是:主维度是检索的基本选项,如文档的正文;次维度是检索的常用选项,如实时检索中,时间是一个主要限定条件,出于索引的空间效率考虑,本发明只维护很少的次维度,通常是1个;对于附加维度而言,剩余的其他属性都作为附加维度来处理。
对于主维度而言,本发明建立以词为索引项的倒排索引,同时修改索引结构使次维度附加到主维度的索引数据中以快速响应。附加维度为文档级属性,建立以词对象为索引项的倒排索引。
因此主维度的索引结构为t→<Dt1,Dt2,...,Dtm>,其中Dti,(1≤i≤m)是文档对象,不仅包含文档标识,还附加了次维度特征。可以看到,次维度特征在索引数据里,如果次维度特征过多会导致索引的空间开销过大,因此这里通常只引入一个次维度特征,并在索引过程中对其进行压缩。
这样,本发明建立了两类结构的索引:以词为索引项的传统索引,和以词对象为索引项的改进的多维索引。这两类索引之间以布尔运算的方式进行结合。
附加维度对于不同文档的差异性不应该太大。如时间不应该放在附加维度中,因为这样对每一个时间点都会有一个索引项对象,导致索引项的数量过大,不利于检索。作者等本身是一个取值空间很大的多维向量的域也不应该放在附加维度中,同样会造成索引项过多。而站点、语言类型、编码等取值空间有限,并且每一个值都有相当数量的文档,同时经常会作为组合条件查询的域,因此适合放在附加维度中。
下面参照附图详细描述根据本发明实施例的为文档建立索引的方法。
图1是示出根据本发明实施例的为文档建立索引的方法的流程图。
首先,在步骤S110中,识别构成文档的特征。
接下来,在步骤S120中,将特征中的每一个的维度分类为主维度、次维度和附加维度中之一。
接下来,在步骤S130中,针对主维度的特征和次维度的特征建立扩展的倒排索引,扩展的倒排索引中包含次维度的特征。
根据本发明的实施例,针对主维度的特征和次维度的特征建立扩展的倒排索引包括:针对主维度的特征建立一维索引,并且在该一维索引中附加次维度的特征。
接下来,在步骤S140中,针对附加维度的特征建立倒排索引。
根据本发明的实施例,针对附加维度的特征建立的倒排索引为多维索引。
接下来,在步骤S150中,将针对主维度的特征和次维度的特征建立的扩展的倒排索引与针对附加维度的特征建立的倒排索引相结合,得到复合索引。
最后,在步骤S160中,将复合索引存储到索引储存库中。
在本发明的优选实施例中,首先分析文档的各个域并确定主维度、次维度和附加维度:主维度是检索的基本域,如文档的正文,包括一个或多个域;次维度是检索的常用选项,如实时检索中,时间是一个主要限定条件,出于索引的空间效率考虑,本发明只维护很少的次维度,通常是1个;附加维度:剩余的其他属性都作为附加维度来处理。
其次,根据本发明的优选实施例,对主维度建立以词为索引项的倒排索引,同时把次维度附加到索引数据中,本发明称这部分索引为主索引。主索引中索引项的组织可以是顺序结构或多级索引,多级索引一般以B树或其变种来组织。B树的结构为本领域技术人员所公知,为了简洁起见在此不再描述。
然后,根据本发明的优选实施例,对附加维度中的数据建立多维索引。多维索引项的结构可以是多维顺序结构,或R树或其变种。R树的结构为本领域技术人员所公知,为了简洁起见在此不再描述。
最后,根据本发明的优选实施例,融合主索引和多维索引以形成多维索引库。
在下文中,为了具体地说明本发明的为文档建立索引的方法,以表1所示的6个示例文档为例来说明索引的构建。
表1
Id | 标题 | 正文 | 时间 | 站点 | 类型 |
1 | 信息 | 信息技术的发展 | 20100101 | 新浪 | 新闻 |
2 | 技术 | 多维索引技术 | 20100103 | 新浪 | 博客 |
3 | 索引 | 建立倒排索引 | 20100305 | 搜狐 | 新闻 |
4 | 文档格式 | 信息的组织方式 | 20100501 | 搜狐 | 博客 |
5 | 组织方式 | 建立并管理文本索引 | 20100203 | 新浪 | 博客 |
6 | 文档管理 | 索引文本信息 | 20100406 | 搜狐 | 新闻 |
对标题和正文分词之后的结果如表2所示,分词结果以空格分隔。本发明对于分词技术本身没有任何限制,可以使用任何一种分词技术或按单字分词(即每个字作为一个词)。
表2
Id | 标题 | 正文 | 时间 | 站点 | 类型 |
1 | 信息 | 信息技术的发展 | 20100101 | 新浪 | 新闻 |
2 | 技术 | 多维索引技术 | 20100103 | 新浪 | 博客 |
3 | 索引 | 建立倒排索引 | 20100305 | 搜狐 | 新闻 |
4 | 文档格式 | 信息的组织方式 | 20100501 | 搜狐 | 博客 |
5 | 组织方式 | 建立并管理文本索引 | 20100203 | 新浪 | 博客 |
6 | 文档管理 | 索引文本信息 | 20100406 | 搜狐 | 新闻 |
本发明的例子文档包含5个域:标题、正文、时间、站点和类型,同时为了标识每一个文档,给每一个文档分配一个唯一标识(Id)。根据本发明的优选实施例,将这些域分为如下3个部分:
主维度:标题和正文
次维度:时间
附加维度:站点,类型
对主维度(标题和正文)建立以词为索引项的倒排索引,索引主要分为两个部分,索引项和索引数据。索引项包括所有可供检索的关键词,索引数据是含有索引项所包括的关键词的文档的Id。参见下述表3和表4。
表3标题的索引
索引项 | 索引数据 |
信息 | 1 |
技术 | 2 |
索引 | 3 |
文档 | 4,6 |
格式 | 4 |
组织 | 5 |
方式 | 5 |
管理 | 6 |
正文中包含“的”和“并”,它们作为停用词不计入索引项。
表4正文的索引
索引项 | 索引数据 |
信息 | 1,4,6 |
技术 | 1,2 |
发展 | 1 |
多维 | 2 |
索引 | 2,3,5,6 |
建立 | 3,5 |
倒排 | 3 |
组织 | 4 |
方式 | 4 |
管理 | 5 |
文本 | 5,6 |
在标题和正文的索引数据中加入时间信息,构成改进的索引;并对索引项排序(这里以拼音顺序为例)。参见下述表5和表6。
表5标题的改进索引
索引项 | 索引数据 |
方式 | (5:20100203) |
格式 | (4:20100501) |
管理 | (6:20100406) |
技术 | (2:20100103) |
索引 | (3:20100305) |
文档 | (4:20100501),(6:20100406) |
信息 | (1:20100101) |
组织 | (5:20100203) |
表6正文的改进索引
索引项 | 索引数据 |
倒排 | (3:20100305) |
多维 | (2:20100103) |
发展 | (1:20100101) |
方式 | (4:20100501) |
管理 | (5:20100203) |
技术 | (1:20100101),(2:20100103) |
建立 | (3:20100305),(5:20100203) |
索引 | (2:20100103),(3:20100305),(5:20100203),(6:20100406) |
文本 | (5:20100203),(6:20100406) |
信息 | (1:20100101),(4:20100501),(6:20100406) |
组织 | (4:20100501) |
以上索引项的组织可以是如表所示的顺序方式,也可以是现有其它的索引组织方式,如B树,其中正文索引的B树(以每个节点包含3个索引项为例)组织方式如图2所示,检索时从树根逐级向下查找。
对附加维度建立以词对象为索引项的多维索引,此例是二维索引,一个索引项包含两个维度。参见下述表7。
表7
二维索引项 | 索引数据 |
(新浪,博客) | 2,5 |
(新浪,新闻) | 1 |
(搜狐,博客) | 4 |
(搜狐,新闻) | 3,6 |
以上二维索引项按第一维优先,第二维其次的优先级排序,对每一维的排序以拼音顺序为例,排序结果即如表7所示;以上索引项的组织可以是如表所示的顺序方式,也可以是R树等索引技术。
将以上索引通过索引库描述文件计入多维索引库,索引库描述文件记录索引库中的索引结构和各个索引文件的入口地址。多维索引库如图3所示。
至此,就完成了根据本发明的优选实施例的为文档建立索引的过程。
下面参照附图详细描述根据本发明实施例的对文档进行检索的方法。
图4是示出根据本发明实施例的对文档进行检索的方法的流程图。
首先,在步骤S410中,将用户所输入的特征中的每一个的维度识别为主维度、次维度和附加维度中之一。
接下来,在步骤S420中,根据识别的维度将用户所输入的特征构造为具有复合索引的特征检索结构。
最后,在步骤S430中,在执行根据上述为文档建立索引的方法而得到的索引储存库中进行检索,以检索出具有所述特征检索结构的文档。
下面,以上文中给出的特定例子为例,来具体地说明根据本发明的优选实施例的对文档进行检索的方法。
本发明以下面的检索条件为例:
标题包含“技术”并且
正文包含“索引”并且
时间范围在20100101到20100301之间并且
站点是“新浪”并且
类型是“博客”。
根据索引库分为主索引和多维索引,本发明把以上查询分为两个子查询。
子查询1是:
标题包含“技术”并且
正文包含“索引”并且
时间范围在20100101到20100301之间。
子查询1在主索引中执行。
子查询2是:
站点是“新浪”并且
类型是“博客”。
子查询1和子查询2之间是“并且”的关系。
在主索引上执行子查询1。
该子查询1被解析为2个子查询:
子查询1_1:标题包含“技术”并且时间范围在20100101到20100301之间;
子查询1_2:正文包含“索引”并且时间范围在20100101到20100301之间。
这2个子查询之间的关系是“并且”。
在标题的一维索引中执行子查询1_1:在标题的一维索引项中查找“技术”。如果标题的索引项是顺序组织,可以以任何一种顺序查找算法(如二分查找等)查找。如果标题的索引项是B树等形式组织的多级索引,可以使用相应的B树查找算法进行查找。找到后取出其对应的索引数据(2:20100103),并验证该索引数据中的每一项是否在范围20100101到20100301之间,得到文档2。
在正文的一维索引中执行子查询1_2:在正文的一维索引项中查找“索引”。如果正文的索引项是顺序组织,可以以任何一种顺序查找算法(如二分查找等)查找。如果正文的索引项是B树等形式组织的多级索引,可以使用相应的B树查找算法进行查找。找到后取出其对应的索引数据(2:20100103),(3:20100305),(5:20100203),(6:20100406),并验证该索引数据中的每一项是否在范围20100101到20100301之间,得到文档2,5。
由于子查询1_1和子查询1_2是“并且”的关系,所以对子查询1_1和子查询1_2得到的结果进行“与”操作,得到文档2。
在附加多维索引上执行子查询2。子查询2被解析为一个二维查询,该二维查询的第一维是站点,第二维是类型:
(新浪,博客)
在站点和类型的多维索引项中查找索引项(新浪,博客)。
多维索引项是多维顺序组织的,可以以顺序查找算法查找第一维值为“搜狐”的索引项子集,得到{(新浪,博客),(新浪,新闻)}。然后在这个子集中以顺序查找算法查找第二维值为“博客”的索引项,找到索引项(新浪,博客)。取出其对应的索引数据:文档2,5。如果多维索引项是以R树等多维索引方法组织的,可以以相应的R树查找算法进行查找。
由于查询1和查询2之间是“并且”的关系,所以对以上得到的结果进行“与”操作,得到最终的检索结果:文档2。
至此,就完成了根据本发明的优选实施例的对文档进行检索的过程。
下面参照附图详细描述根据本发明实施例的为文档建立索引的设备。
图5是示出根据本发明实施例的为文档建立索引的设备500的框图。
如图5所示,根据本发明的实施例的设备500包括识别装置510、分类装置520、主维度与次维度索引装置530、附加维度索引装置540、复合索引装置550和索引储存库560。
识别装置510用于识别构成文档的特征。
分类装置520用于将识别装置510所识别的特征中的每一个的维度分类为主维度、次维度和附加维度中之一。
主维度与次维度索引装置530用于针对主维度的特征和次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含次维度的特征。
根据本发明的实施例,主维度与次维度索引装置530针对主维度中的每一个的特征建立一维索引,并且在所述一维索引中附加次维度的特征,以获得扩展的倒排索引。
附加维度索引装置540用于针对附加维度的特征建立倒排索引。
根据本发明的实施例,附加维度索引装置540针对附加维度的特征建立的倒排索引为多维索引。
复合索引装置550用于将通过主维度与次维度索引装置530针对主维度的特征和次维度的特征建立的扩展的倒排索引与通过附加维度索引装置540针对附加维度的特征建立的倒排索引相结合,得到复合索引。
索引储存库560用于存储通过复合索引装置550得到的复合索引。
该设备500中的上述各个装置的各种具体实施方式前面已经作过详细描述,在此不再重复说明。
下面参照附图详细描述根据本发明实施例的对文档进行检索的设备。
图6是示出根据本发明实施例的对文档进行检索的设备600的框图。
如图6所示,根据本发明的实施例的设备600包括输入装置610、识别装置620、构造装置630和检索装置640。
输入装置610用于接收用户所输入的特征。
识别装置620用于将输入装置610接收的特征中的每一个的维度识别为主维度、次维度和附加维度中之一。
构造装置630用于根据识别的维度将输入装置610接收的特征构造为具有复合索引的特征检索结构。
检索装置640用于在根据本发明的为文档建立索引的设备500中的索引储存库560中进行检索,以检索出具有构造装置630构造的特征检索结构的文档。
该设备600中的上述各个装置的各种具体实施方式前面已经作过详细描述,在此不再重复说明。
显然,根据本发明的上述方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
在本发明的设备和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
通过上面对本发明的实施例的描述可知,本发明涵盖的技术方案包括但不限于如下的内容:
附记1.一种为文档建立索引的方法,包括:
识别构成所述文档的特征;
将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;
针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;
针对所述附加维度的特征建立倒排索引;
将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及
将所述复合索引存储到索引储存库中。
附记2.根据附记1所述的方法,其中,针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引包括:针对所述主维度的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征。
附记3.根据附记1所述的方法,其中,针对所述附加维度的特征建立的倒排索引为多维索引。
附记4.一种对文档进行检索的方法,包括:
将用户所输入的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;
根据识别的所述维度将用户所输入的特征构造为具有复合索引的特征检索结构;以及
在执行根据附记1-3中任何一项所述的方法而得到的索引储存库中进行检索,以检索出具有所述特征检索结构的文档。
附记5.一种为文档建立索引的设备,包括:
识别装置,用于识别构成所述文档的特征;
分类装置,用于将所述识别装置所识别的特征中的每一个的维度分类为主维度、次维度和附加维度中之一;
主维度与次维度索引装置,用于针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;
附加维度索引装置,用于针对所述附加维度的特征建立倒排索引;
复合索引装置,用于将通过所述主维度与次维度索引装置针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与通过所述附加维度索引装置针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及
索引储存库,用于存储通过所述复合索引装置得到的复合索引。
附记6.根据附记5所述的设备,其中,所述主维度与次维度索引装置针对所述主维度中的每一个的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征,以获得所述扩展的倒排索引。
附记7.根据附记5所述的设备,其中,所述附加维度索引装置针对所述附加维度的特征建立的倒排索引为多维索引。
附记8.一种对文档进行检索的设备,包括:
输入装置,用于接收用户所输入的特征;
识别装置,用于将所述输入装置接收的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;
构造装置,用于根据识别的所述维度将所述输入装置接收的特征构造为具有复合索引的特征检索结构;以及
检索装置,用于在根据附记5-7中任何一项所述的设备中的索引储存库中进行检索,以检索出具有所述构造装置构造的特征检索结构的文档。
附记9.一种程序产品,包括存储在其中的机器可读指令代码,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记1-4中任何一项所述的方法。
附记10.一种机器可读存储介质,其上携带有根据附记9所述的程序产品。
Claims (6)
1.一种为文档建立索引的方法,包括:
识别构成所述文档的特征;
将所述特征中的每一个的维度分类为主维度、次维度和附加维度中之一;
针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;
针对所述附加维度的特征建立倒排索引;
将针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及
将所述复合索引存储到索引储存库中,
其中,针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引包括:针对所述主维度的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征。
2.根据权利要求1所述的方法,其中,针对所述附加维度的特征建立的倒排索引为多维索引。
3.一种对文档进行检索的方法,包括:
将用户所输入的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;
根据识别的所述维度将用户所输入的特征构造为具有复合索引的特征检索结构;以及
在执行根据权利要求1或2所述的方法而得到的索引储存库中进行检索,以检索出具有所述特征检索结构的文档。
4.一种为文档建立索引的设备,包括:
识别装置,用于识别构成所述文档的特征;
分类装置,用于将所述识别装置所识别的特征中的每一个的维度分类为主维度、次维度和附加维度中之一;
主维度与次维度索引装置,用于针对所述主维度的特征和所述次维度的特征建立扩展的倒排索引,所述扩展的倒排索引中包含所述次维度的特征;
附加维度索引装置,用于针对所述附加维度的特征建立倒排索引;
复合索引装置,用于将通过所述主维度与次维度索引装置针对所述主维度的特征和所述次维度的特征建立的扩展的倒排索引与通过所述附加维度索引装置针对所述附加维度的特征建立的倒排索引相结合,得到复合索引;以及
索引储存库,用于存储通过所述复合索引装置得到的复合索引,
其中,所述主维度与次维度索引装置针对所述主维度中的每一个的特征建立一维索引,并且在所述一维索引中附加所述次维度的特征,以获得所述扩展的倒排索引。
5.根据权利要求4所述的设备,其中,所述附加维度索引装置针对所述附加维度的特征建立的倒排索引为多维索引。
6.一种对文档进行检索的设备,包括:
输入装置,用于接收用户所输入的特征;
识别装置,用于将所述输入装置接收的特征中的每一个的维度识别为主维度、次维度和附加维度中之一;
构造装置,用于根据识别的所述维度将所述输入装置接收的特征构造为具有复合索引的特征检索结构;以及
检索装置,用于在根据权利要求4或5所述的设备中的索引储存库中进行检索,以检索出具有所述构造装置构造的特征检索结构的文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010192559 CN102270201B (zh) | 2010-06-01 | 2010-06-01 | 用于网络文件的多维索引的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010192559 CN102270201B (zh) | 2010-06-01 | 2010-06-01 | 用于网络文件的多维索引的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102270201A CN102270201A (zh) | 2011-12-07 |
CN102270201B true CN102270201B (zh) | 2013-07-17 |
Family
ID=45052508
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010192559 Expired - Fee Related CN102270201B (zh) | 2010-06-01 | 2010-06-01 | 用于网络文件的多维索引的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102270201B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389169A (zh) * | 2015-11-14 | 2016-03-09 | 深圳市参数领航科技有限公司 | 一种技术树建立的方法及系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102750393B (zh) * | 2012-07-13 | 2014-07-16 | 携程计算机技术(上海)有限公司 | 复合索引结构以及基于该复合索引结构的搜索方法 |
CN105005619A (zh) * | 2015-07-22 | 2015-10-28 | 国家计算机网络与信息安全管理中心 | 一种海量网站基础信息的快速检索方法和系统 |
CN107239571B (zh) * | 2017-06-28 | 2021-04-09 | 浪潮金融信息技术有限公司 | 基于多维化数据空间技术的索引构建方法 |
CN107562844A (zh) * | 2017-08-25 | 2018-01-09 | 苏州市千尺浪信息技术服务有限公司 | 一种大数据的存储系统 |
CN109977778B (zh) * | 2019-02-26 | 2022-01-25 | 河北泊松信息科技有限公司 | 物体三维数据传输存储展示过程中的安全保护方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536509A (zh) * | 2003-04-11 | 2004-10-13 | �Ҵ���˾ | 倒排索引存储方法、倒排索引机制以及在线更新的方法 |
CN101075252A (zh) * | 2007-06-21 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 一种网络搜索方法及系统 |
CN101136016A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种全文检索系统的索引在线更新方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100725664B1 (ko) * | 2005-08-26 | 2007-06-08 | 한국과학기술원 | 2단계 n-gram 역색인 구조 및 그 구성 방법과 질의처리 방법 및 그 색인 도출 방법 |
US7822752B2 (en) * | 2007-05-18 | 2010-10-26 | Microsoft Corporation | Efficient retrieval algorithm by query term discrimination |
-
2010
- 2010-06-01 CN CN 201010192559 patent/CN102270201B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1536509A (zh) * | 2003-04-11 | 2004-10-13 | �Ҵ���˾ | 倒排索引存储方法、倒排索引机制以及在线更新的方法 |
CN101136016A (zh) * | 2006-09-01 | 2008-03-05 | 北大方正集团有限公司 | 一种全文检索系统的索引在线更新方法 |
CN101075252A (zh) * | 2007-06-21 | 2007-11-21 | 腾讯科技(深圳)有限公司 | 一种网络搜索方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389169A (zh) * | 2015-11-14 | 2016-03-09 | 深圳市参数领航科技有限公司 | 一种技术树建立的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102270201A (zh) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8156125B2 (en) | Method and apparatus for query and analysis | |
US7562088B2 (en) | Structure extraction from unstructured documents | |
US8086592B2 (en) | Apparatus and method for associating unstructured text with structured data | |
US20120246154A1 (en) | Aggregating search results based on associating data instances with knowledge base entities | |
US8725781B2 (en) | Sentiment cube | |
CN104794242B (zh) | 一种搜索方法 | |
US20080162455A1 (en) | Determination of document similarity | |
CN102270201B (zh) | 用于网络文件的多维索引的方法和设备 | |
CA2901486C (en) | Systems and methods for generating issue libraries within a document corpus | |
US10747759B2 (en) | System and method for conducting a textual data search | |
CA2805878C (en) | Methods for semantics-based citation-pairing information | |
CN101364239A (zh) | 一种分类目录自动构建方法及相关系统 | |
US8577865B2 (en) | Document searching system | |
JP2004030221A (ja) | 変更対象テーブル自動検出方法 | |
AU2023204364A1 (en) | Computer-generated content based on text classification, semantic relevance, and activation of deep learning large language models | |
Boden et al. | FactCrawl: A Fact Retrieval Framework for Full-Text Indices. | |
US8745035B1 (en) | Multistage pipeline for feeding joined tables to a search system | |
Huang et al. | Rough-set-based approach to manufacturing process document retrieval | |
US20240220528A1 (en) | System and method for generating ontologies for enhanced search | |
Chioti et al. | Bloom Filters for Efficient Coupling Between Tables of a Database | |
EP1643379B1 (en) | Document searching system | |
Isah | Text Retrieval Using Wavelet Tree | |
Löser | Beyond search: business analytics on text data | |
Termehchy et al. | Cost Effective Conceptual Design for Semantic Annotation (Extended Version) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130717 Termination date: 20180601 |