CN103870519A - 计算文档质量值的方法和装置 - Google Patents
计算文档质量值的方法和装置 Download PDFInfo
- Publication number
- CN103870519A CN103870519A CN201210570591.7A CN201210570591A CN103870519A CN 103870519 A CN103870519 A CN 103870519A CN 201210570591 A CN201210570591 A CN 201210570591A CN 103870519 A CN103870519 A CN 103870519A
- Authority
- CN
- China
- Prior art keywords
- document
- scope
- mass value
- schedule time
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的各实施方式提供了一种计算文档质量值的方法和装置。所述方法包括:确定产生新文档;在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。本发明的方法提升了系统的运算速度,实现了检索的实时性和精确性的平衡。
Description
技术领域
本发明的各实施方式涉及搜索领域,并且更具体地,涉及一种计算文档质量值的方法和装置。
背景技术
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。
搜索引擎的工作原理主要包括:一、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库;二、预处理:对抓取来的页面数据进行文字提取、中文分词、索引、涉及相关性的文档质量值等处理,以备排名程序调用;三、排名:用户输入词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
由此,在预处理阶段对抓取的文档进行质量值计算成为相关性计算的重要步骤。在现有的搜索系统中,预处理阶段的文档质量值常常是将抓取的文档代入全网文档,然后迭代多次计算得出,由于已有的文档浩如烟海,数量可能达到数百亿计,计算的过程可能需要花费数小时或甚至是几天的时间,这样的速度对于非实时系统而言,可能不成为问题。然而对于实时系统,例如SNS类的网站而言,它的应用数据更新特别频繁,用户总是希望在系统中能够即时快速地搜到刚刚更新的文档,常规的、缓慢的文档质量值计算将不可避免地影响搜索引擎的响应时间,这是实时系统所不愿意见到。
因此,现在需要一种能够优化文档质量值计算的、优化检索策略的方法和装置。
发明内容
鉴于上述现状,本发明的至少一个目的在于提供一种计算文档质量值的方法和装置。根据本发明的方法和装置,其提升了系统的运算速度,保证了实时检索更新文档成为可能,极大的增强了用户的体验。根据本发明的方法和装置,还兼顾了检索的实时性和精确性。
根据本发明的一个方面,提供了一种计算文档质量值的方法,包括:确定产生新文档;在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。
根据本发明优选的实施例,在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围。
根据本发明优选的实施例,所述第一预定时间包括半个小时、一个小时。
根据本发明优选的实施例,所述第二预定时间为每天的预定时刻。
根据本发明优选的实施例,所述第二文档范围等于全网文档范围。
根据本发明优选的实施例,在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。
根据本发明优选的实施例,所述方法适用于对SNS网站产生的文档执行质量值计算。
根据本发明的一个方面,提供了一种计算文档质量值的装置,包括:确定装置,用于确定产生新文档;计算装置,用于在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。
根据本发明优选的实施例,所述计算装置进一步包括:在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围。
根据本发明优选的实施例,所述第一预定时间包括半个小时、一个小时。
根据本发明优选的实施例,所述第二预定时间为每天的预定时刻。
根据本发明优选的实施例,所述第二文档范围等于全网文档范围。
根据本发明优选的实施例,在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。
根据本发明优选的实施例,所述装置适用于对SNS网站产生的文档执行质量值计算。
附图说明
当结合附图阅读下文对示范性实施方式的详细描述时,这些以及其他目的、特征和优点将变得显而易见,在附图中:
图1示出了搜索引擎工作原理的示意图;
图2示出了根据本发明一个实施方式的计算文档质量值的方法流程示意图;以及
图3示出了根据本发明一个实施方式的计算文档质量值的装置的方框图;
具体实施方式
附图中的流程图和框图,图示了按照本发明各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
现在将仅通过示例性方式来详细地描述本发明的各种实施方式。
图1示出了搜索引擎工作原理的示意图。本领域技术人员知晓,图1仅是搜索引擎工作原理的简单示例,不意图对本发明构成任何的限制。例如图1中的各Web页面产生各种数据,搜索软件搜索这些数据并且对这些数据进行预处理,预处理例如包括由索引软件对产生的数据执行索引,产生各种文档并将这些文档存储于数据库内以备检索;然后,检索软件响应于用户的检索输入执行对上述文档的检索;最后将检索结果呈现在浏览器界面中。虽然图1没有明确示出,但在预处理阶段,通常还将包括对数据库内的文档执行质量值计算的步骤,该质量值将用于后续的相关性计算。故质量值的计算对于后续相关性计算的影响是不言而喻的。下面本发明的各实施例将示出如何优化文档质量值的计算,从而提升系统的运算速度及实现实时性和精确性之间的平衡。
图2示出了根据本发明一个实施方式的计算文档质量值的方法流程示意图。根据本发明的方法,可以适用于实时系统或非实时系统。优选地,本发明的方法适用于实时系统。在下面的描述中,应用于实时系统更能提升整个系统的性能。该方法流程开始于步骤S200。
步骤S210,确定产生新文档;
根据本发明的各实施例,可以实时地监视上述系统,以确定是否产生新文档。如前所述,特别是对于在线实时系统而言,应用数据更新特别频繁,每分钟甚至是每秒钟都可能产生大量的应用数据,可以对这些新应用数据执行预处理从而产生新文档。预处理例如可以包括文字提取、分词、去重、去停止词、去除噪音、索引、特殊文件处理等。根据本发明的各实施例,在确定产生新文档时,执行下一步骤S220。
步骤S220,在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围;
本发明的所述新文档的质量值有些类似于google的PageRank分值。根据本发明的实施例,文档质量值例如可以包括基于该文档在一定数量的文档范围内与其他文档之间的关系(例如包括引用关系、链接关系等)而计算的分值。文档质量值的计算将涉及各种复杂的算法。根据本发明的各实施例,所述算法将适用本领域各种公知的算法,对此,本申请并不加以限制。
如步骤S220所述,本发明的构思在于第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成。具体而言,例如当确定产生的新文档数量较大时,由所述新文档构成所述第一文档范围;而当确定产生的新文档数量较小时,可以基于所述新文档和之前第一预定时间内产生的文档构成所述第一文档范围。这样做的目的在于构建合适的第一文档范围以实现快速的文档质量值计算。如本领域技术人员所知的,存在文档质量值即意味着用户可以在系统中实现对该文档的检索。由于根据本发明的构思,所述第一文档范围小于全网文档范围,相比于常规的在全网文档范围内计算质量值,本发明的这一构思将显而易见地优化了系统运算的速度、提升了系统实时搜索的性能。
进一步地,本领域技术人员可以根据需要设置所述第一预定时间,从而合理地优化第一文档范围,比如所述第一预定时间可以选择为半个小时、1个小时、甚至1天等。根据本发明更优选的实施例,所述第一文档范围远小于全网文档范围,从而实现更快的文档质量值计算。
虽然上面示出了第一文档范围,但根据本发明进一步优选的实施例,还可以包括第二文档范围,在第二预定时间,计算第二文档范围内每篇新文档的质量值。所述第二预定时间优选为每天的预定时刻,例如可以选择产生新文档数量最少的时间段,比如每天的凌晨5点。本领域技术人员可以理解,第二预定时间也可以是根据需要设置为其他的时间。所述第二文档范围大于且包括第一文档范围,并且可以优选为当天产生的所有新文档范围或者全网文档范围。
根据本发明进一步优选的实施例,还可以包括第三文档范围,在第三预定时间,计算第三文档范围内每篇新文档的质量值。所述第三预定时间优选为每周的预定时刻,所述第三文档范围大于且包括第二文档范围,并且可以优选为每周产生的所有新文档范围或者全网文档范围。
根据本发明进一步优选的实施例,还可以包括第N文档范围,在第N’预定时间,计算第N文档范围内的质量值。其中,第N文档范围大于且包括第N-1文档范围(N≥2,且为整数),优选为全网文档范围,所述第N’预定时间优选为比第N’-1时间更长的时间间隔(N’≥3,且为整数),例如每个月的预定时刻。
通过上面的描述,本领域技术人员可以理解,从第一文档范围直至全网文档范围递进式的质量值的计算,所述质量值将不断逼近精确值。
另外,上述的第一文档范围、......第N文档范围,直至全网文档范围的文档质量值的计算均可以通过后台的离线、定期并分段的计算方式,不停的更新到在线系统中,并通过zookeeper监听机制通知searcher加载。因此,用户在在线系统中可以实时地检索到更新的文档,从而避免了利用现有方式可能检索不到新文档、或检索速度过于缓慢的情况,这极大地提升了系统的检索性能,提升了用户的体验。而且,根据本发明进一步优选的第二范围直至第N范围的逼近式质量值计算方法,优化了质量值的精确性,从而实现检索的精确性和实时性的平衡和兼顾。
步骤S230,结束。
根据本发明的方法,优选地适用于SNS类的网站,但本领域技术人员可以理解,也可以适用于其他类型的实时系统和非实时系统。
图3示出了根据本发明的一个实施例的计算文档质量值的装置的示意图。所述装置300包括确定装置310和计算装置320。
确定装置310,用于确定产生新文档;
计算装置320,用于在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。
由于本发明的方法和装置互相对应,根据本发明的任一方法步骤均可以由对应的装置或模块实现。因此,为避免重复,下面仅作详细的概述。
所述计算装置320在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围。
根据本发明优选的实施例,所述第一预定时间包括半个小时、一个小时;所述第二预定时间为每天的预定时刻。
根据本发明优选的实施例,所述第二文档范围等于全网文档范围;
根据本发明优选的实施例,所述计算装置进一步包括:在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。
根据本发明优选的实施例,所述装置适用于对SNS网站产生的文档执行质量值计算。
上述描述的各种方面可以单独使用或者在各种组合中使用。本申请的教导可以通过硬件和软件的组合实现,但是也可以以硬件或软件实现。本申请的教导还可以具体化为计算机可读介质上的计算机程序产品,其可以是任何材料介质,诸如软盘、CD-ROM、DVD、硬盘驱动器乃至网络介质等。
已经出于示出和描述的目的给出了本发明的说明书,但是其并不意在是穷举的或者限制于所公开形式的发明。本领域技术人员可以想到很多修改和变体。本领域技术人员应当理解,本发明实施方式中的方法和装置可以以软件、硬件、固件或其组合实现。
因此,实施方式是为了更好地说明本发明的原理、实际应用以及使本领域技术人员中的其他人员能够理解以下内容而选择和描述的,即,在不脱离本发明精神的前提下,做出的所有修改和替换都将落入所附权利要求定义的本发明保护范围内。
Claims (14)
1.一种计算文档质量值的方法,包括:
确定产生新文档;
在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。
2.根据权利要求1所述的方法,其中:
在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围。
3.根据权利要求1所述的方法,其中:
所述第一预定时间包括半个小时、一个小时。
4.根据权利要求2所述的方法,其中:
所述第二预定时间为每天的预定时刻。
5.根据权利要求2所述的方法,其中:
所述第二文档范围等于全网文档范围。
6.根据权利要求2所述的方法,包括:
在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。
7.根据权利要求1-6任一所述的方法,其中:所述方法适用于对SNS网站产生的文档执行质量值计算。
8.一种计算文档质量值的装置,包括:
确定装置,用于确定产生新文档;
计算装置,用于在第一文档范围内计算每篇所述新文档的质量值,所述第一文档范围由所述新文档、或者所述新文档和之前第一预定时间内产生的文档构成,所述第一文档范围小于全网文档范围。
9.根据权利要求8所述的装置,所述计算装置进一步包括:
在第二预定时间,在第二文档范围内重新计算所述新文档的质量值,所述第二文档范围大于且包括所述第一文档范围。
10.根据权利要求8所述的装置,其中:
所述第一预定时间包括半个小时、一个小时。
11.根据权利要求9所述的装置,其中:
所述第二预定时间为每天的预定时刻。
12.根据权利要求9所述的装置,其中:
所述第二文档范围等于全网文档范围。
13.根据权利要求9所述的装置,所述计算装置包括:
在第三预定时间,在第三文档范围内重新计算所述新文档的质量值,所述第三文档范围大于且包括第二文档范围。
14.根据权利要求1-6任一所述的装置,其中:所述装置适用于对SNS网站产生的文档执行质量值计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210570591.7A CN103870519B (zh) | 2012-12-17 | 2012-12-17 | 计算文档质量值的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210570591.7A CN103870519B (zh) | 2012-12-17 | 2012-12-17 | 计算文档质量值的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103870519A true CN103870519A (zh) | 2014-06-18 |
CN103870519B CN103870519B (zh) | 2019-03-12 |
Family
ID=50909060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210570591.7A Active CN103870519B (zh) | 2012-12-17 | 2012-12-17 | 计算文档质量值的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103870519B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092064A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | 検索装置及び検索方法、検索プログラム |
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN101501630A (zh) * | 2006-01-31 | 2009-08-05 | 王啸云 | 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法 |
CN102236655A (zh) * | 2010-04-26 | 2011-11-09 | 北京大学 | 一种Web新网页推荐方法 |
-
2012
- 2012-12-17 CN CN201210570591.7A patent/CN103870519B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006092064A (ja) * | 2004-09-22 | 2006-04-06 | Fuji Xerox Co Ltd | 検索装置及び検索方法、検索プログラム |
CN101501630A (zh) * | 2006-01-31 | 2009-08-05 | 王啸云 | 基于相关性对搜索结果列表中的电子文件进行排名和排序的方法 |
CN1996299A (zh) * | 2006-12-12 | 2007-07-11 | 孙斌 | 对网页和网站评级的方法 |
CN101477556A (zh) * | 2009-01-22 | 2009-07-08 | 苏州智讯科技有限公司 | 一种从互联网海量信息中发现热点的方法 |
CN102236655A (zh) * | 2010-04-26 | 2011-11-09 | 北京大学 | 一种Web新网页推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103870519B (zh) | 2019-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10664757B2 (en) | Cognitive operations based on empirically constructed knowledge graphs | |
WO2020164276A1 (zh) | 网页数据爬取方法、装置、系统及计算机可读存储介质 | |
US9070046B2 (en) | Learning-based image webpage index selection | |
US9576251B2 (en) | Method and system for processing web activity data | |
US9703860B2 (en) | Returning related previously answered questions based on question affinity | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
US20190155918A1 (en) | Real-time classification of evolving dictionaries | |
EP2407897A1 (en) | Device for determining internet activity | |
CN105389349A (zh) | 词典更新方法及装置 | |
US20160098444A1 (en) | Corpus Management Based on Question Affinity | |
US20110246486A1 (en) | Methods and Systems for Extracting Domain Phrases | |
CN102737021B (zh) | 搜索引擎及其实现方法 | |
CN105528416B (zh) | 一种网站更新内容的监测方法及系统 | |
CN107908616B (zh) | 预测趋势词的方法和装置 | |
CN102591965A (zh) | 一种黑链检测的方法及装置 | |
US20170185653A1 (en) | Predicting Knowledge Types In A Search Query Using Word Co-Occurrence And Semi/Unstructured Free Text | |
CN102436563A (zh) | 一种检测页面篡改的方法及装置 | |
CN110825941A (zh) | 一种内容管理系统识别方法、装置和存储介质 | |
JP6230725B2 (ja) | 因果関係分析装置、及び因果関係分析方法 | |
CN103744889A (zh) | 一种用于对问题进行聚类处理的方法与装置 | |
CN108520007A (zh) | 万维网网页信息提取方法、存储介质及计算机设备 | |
CN103324641B (zh) | 信息记录推荐方法和装置 | |
JP2007140603A (ja) | アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム | |
US11108802B2 (en) | Method of and system for identifying abnormal site visits | |
CN105095400A (zh) | 个人主页的查找方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |