CN105808615A - 一种基于分词权重的文档索引生成方法和装置 - Google Patents

一种基于分词权重的文档索引生成方法和装置 Download PDF

Info

Publication number
CN105808615A
CN105808615A CN201410855877.9A CN201410855877A CN105808615A CN 105808615 A CN105808615 A CN 105808615A CN 201410855877 A CN201410855877 A CN 201410855877A CN 105808615 A CN105808615 A CN 105808615A
Authority
CN
China
Prior art keywords
participle
document
weight
anchor text
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410855877.9A
Other languages
English (en)
Inventor
董毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410855877.9A priority Critical patent/CN105808615A/zh
Publication of CN105808615A publication Critical patent/CN105808615A/zh
Pending legal-status Critical Current

Links

Abstract

本发明实施例提供了一种基于分词权重的文档索引生成方法和装置,所述方法包括:设置文档对应的锚文本权重;按照所述锚文本权重对锚文本包含的分词配置特征权重;基于所述特征权重确定所述分词相对于所述文档的分词权重;根据所述分词和相对于所述文档分词权重生成文档索引。本发明实施例提高与用户搜索相关的搜索结果项的展示几率,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。

Description

一种基于分词权重的文档索引生成方法和装置
技术领域
本发明涉及搜索技术领域,特别是涉及一种基于分词权重的文档索引生成方法和一种基于分词权重的文档索引生成装置。
背景技术
随着网络的迅速发展,网络上的信息急剧增加。用户为了在海量的信息中寻找所需的信息,通常使用搜索引擎进行搜索。
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。
搜索引擎通常预先建立文档索引,比如倒排索引,这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。
搜索引擎中的文档索引一般是一个数据库索引表,基于该数据库索引表进行搜索获得的结果往往并非用户所需,准确率低。用户在未搜索到所需的信息时,通常在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,操作麻烦,搜索引擎和本地系统的资源消耗大,带宽消耗大,搜索效率低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于分词权重的文档索引生成方法和相应的一种基于分词权重的文档索引生成装置。
依据本发明的一个方面,提供了一种基于分词权重的文档索引生成方法,包括:
设置文档对应的锚文本权重;
按照所述锚文本权重对锚文本包含的分词配置特征权重;
基于所述特征权重确定所述分词相对于所述文档的分词权重;
根据所述分词和相对于所述文档分词权重生成文档索引。
可选地,所述方法还包括:
从抓取到的文档中提取分词。
可选地,所述分词包括一元分词,所述从抓取到的文档中提取分词的步骤包括:
对抓取到的文档进行分词处理,获得一元分词。
可选地,所述分词还包括二元分词,所述从抓取到的文档中提取分词的步骤还包括:
将两两相邻的一元分词进行组合,获得二元分词。
可选地,所述设置文档对应的锚文本权重的步骤包括:
获取文档对应的锚文本;
对所述锚文本设置对于所述文档的锚文本权重。
可选地,所述按照所述锚文本权重对锚文本包含的分词配置特征权重的步骤包括:
当所述锚文本包含一个分词时,将所述锚文本权重配置给所述分词。
可选地,所述按照所述锚文本权重对锚文本包含的分词配置特征权重的步骤包括:
当所述锚文本包含多个分词时,将所述锚文本权重平均配置给每个分词。
可选地,所述基于所述特征权重确定所述分词相对于所述页面的分词权重的步骤包括:
计算在所述文档中相同分词的特征权重之和,获得所述分词相对于所述文档的分词权重。
可选地,所述文档具有编号信息,所述根据所述分词和相对于所述文档的分词权重生成文档索引的步骤包括:
在一个或多个索引表中,将所述分词设置为键;
将所述文档的编号信息、所述分词权重以及所述分词在所述页面的位置信息设置为所述键对应的值,获得一个或多个文档索引。
可选地,所述采用所述特征分词和所述分词权重生成文档索引的步骤还包括:
合并所述一个或多个文档索引。
可选地,所述方法还包括:
将所述文档索引存储至数据库中。
可选地,所述将所述文档索引存储至数据库中的步骤包括:
将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中;
所述目标编码信息为访问频率超过预设第一频率阈值的编码信息、所述目标分词权重为访问频率超过预设第二频率阈值的分词权重、所述目标位置信息为访问频率低于预设第三频率阈值的位置信息。
可选地,所述将所述文档索引存储至数据库中的步骤包括:
将一个或多个文档组合成一个或多个数据块;
在每个数据块中,分别对归属所述数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理。
根据本发明的另一方面,提供了一种基于分词权重的文档索引生成装置,包括:
设置模块,适于设置文档对应的锚文本权重;
配置模块,适于按照所述锚文本权重对锚文本包含的分词配置特征权重;
确定模块,适于基于所述特征权重确定所述分词相对于所述文档的分词权重;
生成模块,适于根据所述分词和相对于所述文档分词权重生成文档索引。
可选地,所述装置还包括:
提取模块,适于从抓取到的文档中提取分词。
可选地,所述分词包括一元分词,所述提取模块还适于:
对抓取到的文档进行分词处理,获得一元分词。
可选地,所述分词还包括二元分词,所述提取模块还适于:
将两两相邻的一元分词进行组合,获得二元分词。
可选地,所设置模块还适于:
获取文档对应的锚文本;
对所述锚文本设置对于所述文档的锚文本权重。
可选地,所述配置模块还适于:
当所述锚文本包含一个分词时,将所述锚文本权重配置给所述分词。
可选地,所述配置模块还适于:
当所述锚文本包含多个分词时,将所述锚文本权重平均配置给每个分词。
可选地,所述确定模块还适于:
计算在所述文档中相同分词的特征权重之和,获得所述分词相对于所述文档的分词权重。
可选地,所述文档具有编号信息,所述生成模块还适于:
在一个或多个索引表中,将所述分词设置为键;
将所述文档的编号信息、所述分词权重以及所述分词在所述页面的位置信息设置为所述键对应的值,获得一个或多个文档索引。
可选地,所述生成模块还适于:
合并所述一个或多个文档索引。
可选地,所述装置还包括:
存储模块,适于将所述文档索引存储至数据库中。
可选地,所述存储模块还适于:
将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中;
所述目标编码信息为访问频率超过预设第一频率阈值的编码信息、所述目标分词权重为访问频率超过预设第二频率阈值的分词权重、所述目标位置信息为访问频率低于预设第三频率阈值的位置信息。
可选地,所述存储模块还适于:
将一个或多个文档组合成一个或多个数据块;
在每个数据块中,分别对归属所述数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理。
本发明实施例设置文档对应的锚文本权重,对锚文本包含的分词配置特征权重,计算分词相对于文档的分词权重,并根据分词和相对于文档分词权重生成文档索引,通过在文档索引中标记分词相对于文档的分词权重,以支持后续其他用户在搜索时,按照分词权重对搜索结果项进行排序展示,提高与用户搜索相关的搜索结果项的展示几率,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。
本发明实施例将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中,将一个或多个文档组合成一个或多个数据块,在每个数据块中,分别对归属数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理,一方面节省了存储的空间,另一方面,保证了在检索时的性能,保证搜索效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种基于分词权重的文档索引生成方法实施例1的步骤流程图;
图2示出了根据本发明一个实施例的一种基于分词权重的文档索引生成方法实施例2的步骤流程图;以及
图3示出了根据本发明一个实施例的一种基于分词权重的文档索引生成装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种基于分词权重的文档索引生成方法实施例1的步骤流程图,具体可以包括如下步骤:
步骤101,设置文档对应的锚文本权重;
需要说明的是,锚文本权重可以为锚文本的权重。
锚文本(anchortext),可以做为锚文本所在的文档的内容的评估,实质上可以是链接文本。
正常来讲,文档中增加的链接和文档本身的内容有一定的关系。某个行业的站点会增加一些同行网站的链接或者一些做比较知名的链接;另一方面,锚文本能做为对所指向页面的评估。锚文本能精确的描述所指向页面的内容,个人网站上增加ABC的链接,锚文本为“搜索引擎”。这样通过锚文本本身就能知道,ABC是搜索引擎。
页面添加的链接一般来说都应该跟页面又直接相关的联系,搜索引擎可以根据指向某一个网页的链接的锚文本描述来判断该网页的内容属性,当这种链接锚文章达到一定层次的时候,对于该关键词的排名有很大的帮助。
锚文本对搜索引擎起的作用还表现为可以收集一些搜索引擎不能索引的文件。例如,网站上增加了一张XXX的照片,格式为jpg文件,搜索引擎目前很难索引(一般只处理文本)。若这张照片链接的锚文本为“XXX的照片”,那么搜索引擎就能识别这张图片是XXX的照片,以后用户搜索“XXX”的时候,这张图片就能被搜索到。
在本发明实施例的一种可选示例中,步骤101可以包括如下子步骤:
子步骤S11,获取文档对应的锚文本;
子步骤S12,对所述锚文本设置对于所述文档的锚文本权重。
锚文本主要有两种方式:外部链接与内部链接,外部链接是指链接到其他网站上的文件(由别人制作)。而内部链接则指链接到自己网站上的文件(由自己制作)。
在实际应用中,可以为每个文档对应的每条锚文本分配了一个权重,这个权重可以由本领域技术人员根据实际情况通过离线计算得到。
例如,影星小明和歌星小红在近期结婚,则关于小明和小红结婚的锚文本可以设置得较高的锚文本权重,小明和小红结婚一段时间之后,关于小明和小红结婚的锚文本可以设置得较低的锚文本权重。
通常情况下,与文档相关度高的锚文本的锚文本权重高,反之,与文档相关度低的锚文本的锚文本权重低。
步骤102,按照所述锚文本权重对锚文本包含的分词配置特征权重;
需要说明的是,该分词可以为归属于锚文本对应的文档。
在本发明实施例中,可以按照锚文本权重对锚文本包含的分词配置特征权重,以计算该分词相对于文档的分词权重。
在本发明的一种可选实施例中,步骤102可以包括如下子步骤:
子步骤S21,当所述锚文本包含一个分词时,将所述锚文本权重配置给所述分词。
在本发明实施例中,若锚文本包含一个分词,则可以将该锚文本的锚文本权重配置给该分词,以获得该分词的特征权重。
例如,锚文本“天安门广场”的锚文本权重为80,则分词“天安门广场”可以分配到80的特征权重。
在本发明的一种可选实施例中,步骤102可以包括如下子步骤:
子步骤S22,当所述锚文本包含多个分词时,将所述锚文本权重平均配置给每个分词。
在本发明实施例中,若锚文本包含多个分词(即至少两个),则可以将该锚文本的锚文本权重平均配置给每个分词,以获得每个分词的特征权重。
例如,锚文本“天安门广场”的锚文本权重为80,则分词“天安门”和“广场”可以各分配到40的特征权重。
当然,上述权重配置方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他权重配置方法,本发明实施例对此不加以限制。另外,除了上述权重配置方法外,本领域技术人员还可以根据实际需要采用其它权重配置方法,本发明实施例对此也不加以限制。
步骤103,基于所述特征权重确定所述分词相对于所述文档的分词权重;
在具体实现中,每个分词针对每个文档可以具有一个分词权重。
在本发明的一种可选实施例中,步骤103可以包括如下子步骤:
子步骤S31,计算在所述文档中相同分词的特征权重之和,获得所述分词相对于所述文档的分词权重。
在本发明实施例中,同一个文档中,同一个分词从不同的位置得到特征权重进行累加,可以计算这个分词对应这个文档的分词权重。
若分词对于文档的分词权重越高,则可以表明该和该文档的关联越强;反之,若分词对于文档的分词权重越低,则可以表明该和该文档的关联越弱。
例如,分词“天安门广场”的特征权重为80,在某个文档的出现频次为30,则“天安门广场”相对于该文档的分词权重为2400;若“天安门”的特征权重为40,在某个文档的出现频次为50,则“天安门”相对于该文档的分词权重为2000。
步骤104,根据所述分词和相对于所述文档分词权重生成文档索引。
在具体实现中,文档索引可以包括倒排索引、正排索引等等,而文档索引可以由索引表和主文件两部分构成。
索引表可以是一张指示逻辑记录和物理记录之间对应关系的表。索引表中的每项称作索引项。索引项是按键(或逻辑记录号)顺序排列。
在本发明的一种可选实施例中,所述文档可以具有编号信息(DocID),则在本发明实施例中,步骤104可以包括如下子步骤:
子步骤S41,在一个或多个索引表中,将所述分词设置为键;
子步骤S42,将所述文档的编号信息、所述分词权重以及所述分词在所述页面的位置信息设置为所述键对应的值,获得一个或多个文档索引。
在本发明实施例中,输入数据可以为已经编号信息(DocID)的、编号信息(DocID)连续的文档。
输出数据可以为对应这批文档的倒排索引。
具体而言,可以通过分词设置为键(key)进行检索,分词经过排序,每个分词对应的内容为包含这个分词的文档的编号信息(DocID,有序),以及这个分词在每个文档上对应的分词权重、出现的次数、出现的位置信息等等。
在生成倒排索引时,可以使用一个哈希(hash)表作为索引表,在从正排中提取得到分词后,以分词为键(key),将当前文档的编号信息(DocID),分词权重,位置信息等更新到哈希(hash)表中,作为该键(key)对应的值(value)。完成后,再将哈希(hash)表中的内容整理后输出,则可得到倒排索引。
在本发明的一种可选实施例中,步骤104还可以包括如下子步骤:
子步骤S43,合并所述一个或多个文档索引。
实现上,由于索引量巨大,一个数据库有多大几千万的文档,内存中一般无法存储下这么大的一个哈希(hash)表。
本发明实施例中,可以将一个数据库的所有网页分为若干个编号信息(DocID)连续的集合,每个集合足够小,可以在内存中放下,为每个集合单独生成一个倒排索引,然后再将这些小的倒排索引合并(merge)到一起,得到一个完整的倒排索引。
本发明实施例设置文档对应的锚文本权重,对锚文本包含的分词配置特征权重,计算分词相对于文档的分词权重,并根据分词和相对于文档分词权重生成文档索引,通过在文档索引中标记分词相对于文档的分词权重,以支持后续其他用户在搜索时,按照分词权重对搜索结果项进行排序展示,提高与用户搜索相关的搜索结果项的展示几率,提高了搜索的准确率,进而减少在搜索结果中翻页查找、重新输入搜索关键词等方式进行搜索,提高了操作的简便性,减少了搜索引擎和本地系统的资源的消耗,减少带宽消耗,提高了搜索效率。
参照图2,示出了根据本发明一个实施例的一种基于分词权重的文档索引生成方法实施例2的步骤流程图,具体可以包括如下步骤:
步骤201,从抓取到的文档中提取分词。
在实际应用中,搜索引擎可以通过网络爬虫从网络上自动抓取到大量的文档。
网络爬虫又称为网络蜘蛛,即WebSpider,网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
目前的网络爬虫可以分为通用爬虫和聚焦爬虫。通用爬虫是基于广度优先搜索的思想,从一个或若干个初始网页的URL(UniformResourceLocator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。而聚焦爬虫是一个自动下载网页的程序,用于定向抓取相关页面资源。它根据既定的抓取目标,有选择地访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫不同,聚焦爬虫并不追求大的覆盖,而是将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
爬虫抓取的文档可以保存在数据库中形成大量的搜索资源,则在本发明实施例中,可以在数据库中从抓取到的文档中提取分词。
不同性质和类别的网站,其网页的文档的内容安排一般是不同的。但是一般的网页的基本内容包括标题(title)、页眉、页脚、主体内容(content)、功能区、导航区广告栏等。
本发明实施例中,可以根据配置,将指定的字段进行分词,建成文档索引,供快速访问和检索使用。该字段通常可以包含标题(title),主体内容(content),site,锚文本(anchortext)等字段。
在本发明的一种可选实施例中,所述分词可以包括一元分词(uni-Gram);则在本发明实施例中,步骤201可以包括如下子步骤:
子步骤S51,对抓取到的文档进行分词处理,获得一元分词。
在本发明实施例中,N-Gram模型假设当前词的出现概率只同它前面的N-1个词有关,或者说它是用前N-1个词的出现概率去预测当前词的出现概率(MarkovChain)。
常用的N-Gram模型有uni-Gram(N=1、一元组)、bi-Gram(N=2、二元组)。
分词得到的基本词可以作为uni-Gram,例如,对文本信息“中华人民共和国”,进行分词处理,可以得到“中华”、“人民”、“共和”、“国”这4个一元分词(uni-Gram)。
下面介绍一些常用的分词处理方法:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法对语料中的字组频度进行统计,不需要切分词典。
在本发明的一种可选实施例中,所述分词还可以包括二元分词(bi-Gram);则在本发明实施例中,步骤201还可以包括如下子步骤:
子步骤S52,将两两相邻的一元分词进行组合,获得二元分词。
在本发明实施例中,针对分词处理得到的指导结合词,可以将指导结合词中相邻的两个一元词(uni-Gram)结合在一起,得到二元分词(bi-Gram)。
对文本信息“中华人民共和国”,进行分词处理,可以得到“中华”、“人民”、“共和”、“国”这4个一元分词(uni-Gram),将这4个一元分词(uni-Gram)两两组合,可以获得“中华人民”、“人民共和”、“共和国”这3个二元分词(bi-Gram)。
除了从指导结合中提取二元分词(bi-Gram)外,还可以从相邻的非指导结合词中生成二元分词(bi-Gram),本发明实施例对此不加以限制。
当然,上述分词的提取方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他分词的提取方法,例如使用三元分词tri-Gram(N=3、三元组),本发明实施例对此不加以限制。另外,除了上述分词的提取方法外,本领域技术人员还可以根据实际需要采用其它分词的提取方法,本发明实施例对此也不加以限制。
步骤202,设置文档对应的锚文本权重;
步骤203,按照所述锚文本权重对锚文本包含的分词配置特征权重;
步骤204,基于所述特征权重确定所述分词相对于所述文档的分词权重;
步骤205,根据所述分词和相对于所述文档分词权重生成文档索引。
步骤206,将所述文档索引存储至数据库中。
在本发明实施例中,若文档索引的数据生成完成,则可以对其数据进行一定的组织,写入磁盘的数据库中。
在本发明的一种可选实施例中,步骤206可以包括如下子步骤:
子步骤S61,将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中;
其中,所述目标编码信息可以为访问频率超过预设第一频率阈值的编码信息、所述目标分词权重可以为访问频率超过预设第二频率阈值的分词权重、所述目标位置信息可以为访问频率低于预设第三频率阈值的位置信息。
子步骤S62,将一个或多个文档组合成一个或多个数据块;
子步骤S63,在每个数据块中,分别对归属所述数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理。
在文档索引中的数据可以包含:编号信息(DocID)、分词权重、位置信息等。
在存储时,考虑的因素可以包括:
a、节省空间,可以压缩相关数据;
b、检索时的性能,检索某个分词时,为了读取的I/O量尽可能小,经常访问的数据可以存放在一起,经常访问和不经常访问的数据可以分开存储,压缩的数据解压缩应该尽可能快等。
在本发明实施例中,可以采用以下方式进行存储:
1、将经常访问的编号信息(DocID)和分词权重与不经常访问的位置信息分开存储到不同的文件中;
2、数据分块存储;n(n为正整数)个文档(Doc)为单位组成一个数据块(block);
3、每个数据块(block)内部,针对编号信息(DocID)、分词权重、位置信息等数据通过pForDelta算法等方式进行压缩。
本发明实施例将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中,将一个或多个文档组合成一个或多个数据块,在每个数据块中,分别对归属数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理,一方面节省了存储的空间,另一方面,保证了在检索时的性能,保证搜索效率。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了根据本发明一个实施例的一种基于分词权重的文档索引生成装置实施例的结构框图,具体可以包括如下模块:
设置模块301,适于设置文档对应的锚文本权重;
配置模块302,适于按照所述锚文本权重对锚文本包含的分词配置特征权重;
确定模块303,适于基于所述特征权重确定所述分词相对于所述文档的分词权重;
生成模块304,适于根据所述分词和相对于所述文档分词权重生成文档索引。
在本发明的一种可选实施例中,所述装置还可以包括如下模块:
提取模块,适于从抓取到的文档中提取分词。
在本发明的一种可选实施例中,所述分词可以包括一元分词,所述提取模块还可以适于:
对抓取到的文档进行分词处理,获得一元分词。
在本发明的一种可选实施例中,所述分词还可以包括二元分词,所述提取模块还可以适于:
将两两相邻的一元分词进行组合,获得二元分词。
在本发明的一种可选实施例中,所设置模块301还可以适于:
获取文档对应的锚文本;
对所述锚文本设置对于所述文档的锚文本权重。
在本发明的一种可选实施例中,所述配置模块302还可以适于:
当所述锚文本包含一个分词时,将所述锚文本权重配置给所述分词。
在本发明的一种可选实施例中,所述配置模块302还可以适于:
当所述锚文本包含多个分词时,将所述锚文本权重平均配置给每个分词。
在本发明的一种可选实施例中,所述确定模块303还可以适于:
计算在所述文档中相同分词的特征权重之和,获得所述分词相对于所述文档的分词权重。
在本发明的一种可选实施例中,所述文档可以具有编号信息,所述生成模块304还可以适于:
在一个或多个索引表中,将所述分词设置为键;
将所述文档的编号信息、所述分词权重以及所述分词在所述页面的位置信息设置为所述键对应的值,获得一个或多个文档索引。
在本发明的一种可选实施例中,所述生成模块304还可以适于:
合并所述一个或多个文档索引。
在本发明的一种可选实施例中,所述装置还可以包括如下模块:
存储模块,适于将所述文档索引存储至数据库中。
在本发明的一种可选实施例中,所述存储模块还可以适于:
将目标编号信息和目标分词权重,与,目标位置信息独立存储在不同的文件中;
所述目标编码信息为访问频率超过预设第一频率阈值的编码信息、所述目标分词权重为访问频率超过预设第二频率阈值的分词权重、所述目标位置信息为访问频率低于预设第三频率阈值的位置信息。
在本发明的一种可选实施例中,所述存储模块还可以适于:
将一个或多个文档组合成一个或多个数据块;
在每个数据块中,分别对归属所述数据块的编号信息、分词权重以及位置信息中的至少一个进行压缩处理。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于分词权重的文档索引生成设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种基于分词权重的文档索引生成方法,包括:
设置文档对应的锚文本权重;
按照所述锚文本权重对锚文本包含的分词配置特征权重;
基于所述特征权重确定所述分词相对于所述文档的分词权重;
根据所述分词和相对于所述文档分词权重生成文档索引。
2.如权利要求1所述的方法,其特征在于,还包括:
从抓取到的文档中提取分词。
3.如权利要求1-2任一项所述的方法,其特征在于,所述分词包括一元分词,所述从抓取到的文档中提取分词的步骤包括:
对抓取到的文档进行分词处理,获得一元分词。
4.如权利要求1-3任一项所述的方法,其特征在于,所述分词还包括二元分词,所述从抓取到的文档中提取分词的步骤还包括:
将两两相邻的一元分词进行组合,获得二元分词。
5.如权利要求1或2或3或4所述的方法,其特征在于,所述设置文档对应的锚文本权重的步骤包括:
获取文档对应的锚文本;
对所述锚文本设置对于所述文档的锚文本权重。
6.一种基于分词权重的文档索引生成装置,包括:
设置模块,适于设置文档对应的锚文本权重;
配置模块,适于按照所述锚文本权重对锚文本包含的分词配置特征权重;
确定模块,适于基于所述特征权重确定所述分词相对于所述文档的分词权重;
生成模块,适于根据所述分词和相对于所述文档分词权重生成文档索引。
7.如权利要求6所述的装置,其特征在于,还包括:
提取模块,适于从抓取到的文档中提取分词。
8.如权利要求6-7任一项所述的装置,其特征在于,所述分词包括一元分词,所述提取模块还适于:
对抓取到的文档进行分词处理,获得一元分词。
9.如权利要求6-8任一项所述的装置,其特征在于,所述分词还包括二元分词,所述提取模块还适于:
将两两相邻的一元分词进行组合,获得二元分词。
10.如权利要求6-9所述的装置,其特征在于,所设置模块还适于:
获取文档对应的锚文本;
对所述锚文本设置对于所述文档的锚文本权重。
CN201410855877.9A 2014-12-31 2014-12-31 一种基于分词权重的文档索引生成方法和装置 Pending CN105808615A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410855877.9A CN105808615A (zh) 2014-12-31 2014-12-31 一种基于分词权重的文档索引生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410855877.9A CN105808615A (zh) 2014-12-31 2014-12-31 一种基于分词权重的文档索引生成方法和装置

Publications (1)

Publication Number Publication Date
CN105808615A true CN105808615A (zh) 2016-07-27

Family

ID=56465074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410855877.9A Pending CN105808615A (zh) 2014-12-31 2014-12-31 一种基于分词权重的文档索引生成方法和装置

Country Status (1)

Country Link
CN (1) CN105808615A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491440A (zh) * 2017-09-19 2017-12-19 马上消费金融股份有限公司 自然语言分词构造方法及系统、自然语言分类方法及系统
CN107679680A (zh) * 2017-11-21 2018-02-09 北京锐安科技有限公司 一种金融走势预测方法、装置、设备及存储介质
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备
CN111026910A (zh) * 2018-10-09 2020-04-17 北京奇虎科技有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质
CN111382258A (zh) * 2018-12-27 2020-07-07 阿里巴巴集团控股有限公司 电子阅读对象章节的确定方法及其装置
CN112417812A (zh) * 2020-11-26 2021-02-26 新智认知数据服务有限公司 地址标准化方法、系统及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及系统
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103593460A (zh) * 2013-11-25 2014-02-19 方正国际软件有限公司 数据分级存储系统和数据分级存储方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916905A (zh) * 2006-09-04 2007-02-21 北京航空航天大学 基于倒排表进行检索提示的方法
CN102135967A (zh) * 2010-01-27 2011-07-27 华为技术有限公司 网页关键词提取方法、装置及系统
CN103294681A (zh) * 2012-02-23 2013-09-11 北京百度网讯科技有限公司 一种搜索结果的生成方法和装置
CN103593460A (zh) * 2013-11-25 2014-02-19 方正国际软件有限公司 数据分级存储系统和数据分级存储方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107491440A (zh) * 2017-09-19 2017-12-19 马上消费金融股份有限公司 自然语言分词构造方法及系统、自然语言分类方法及系统
CN107679680A (zh) * 2017-11-21 2018-02-09 北京锐安科技有限公司 一种金融走势预测方法、装置、设备及存储介质
CN111026910A (zh) * 2018-10-09 2020-04-17 北京奇虎科技有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质
CN111026910B (zh) * 2018-10-09 2024-04-05 三六零科技集团有限公司 视频推荐方法、装置、电子设备及计算机可读存储介质
CN111382258A (zh) * 2018-12-27 2020-07-07 阿里巴巴集团控股有限公司 电子阅读对象章节的确定方法及其装置
CN110096478A (zh) * 2019-05-09 2019-08-06 中国联合网络通信集团有限公司 文档索引生成方法及设备
CN112417812A (zh) * 2020-11-26 2021-02-26 新智认知数据服务有限公司 地址标准化方法、系统及电子设备

Similar Documents

Publication Publication Date Title
US9864808B2 (en) Knowledge-based entity detection and disambiguation
US9069857B2 (en) Per-document index for semantic searching
KR101443475B1 (ko) 검색 제안 클러스터링 및 프리젠테이션
EP2181405B1 (en) Automatic expanded language search
JP5459958B2 (ja) 表意文字と表音文字とを有する言語のための自動補完方法およびシステム
US8316007B2 (en) Automatically finding acronyms and synonyms in a corpus
US8051080B2 (en) Contextual ranking of keywords using click data
US7676745B2 (en) Document segmentation based on visual gaps
US8510314B1 (en) Book content item search
US8762326B1 (en) Personalized hot topics
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN105808615A (zh) 一种基于分词权重的文档索引生成方法和装置
US8316032B1 (en) Book content item search
US20130339840A1 (en) System and method for logical chunking and restructuring websites
WO2010014082A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
KR100913733B1 (ko) 템플릿을 이용한 검색결과 제공방법
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
Soulemane et al. Crawling the hidden web: An approach to dynamic web indexing
US20140172901A1 (en) Query expansion using add-on terms with assigned classifications
CN105808607A (zh) 一种文档索引的生成方法和装置
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
Vidya et al. Web Page Ranking Using Multilingual Information Search Algorithm-A Novel Approach
Tabarcea et al. Framework for location-aware search engine

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160727