CN103678601A - 一种范文检索请求的处理方法和装置 - Google Patents

一种范文检索请求的处理方法和装置 Download PDF

Info

Publication number
CN103678601A
CN103678601A CN201310685293.7A CN201310685293A CN103678601A CN 103678601 A CN103678601 A CN 103678601A CN 201310685293 A CN201310685293 A CN 201310685293A CN 103678601 A CN103678601 A CN 103678601A
Authority
CN
China
Prior art keywords
model essay
essay
model
words
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310685293.7A
Other languages
English (en)
Inventor
侯小虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201310685293.7A priority Critical patent/CN103678601A/zh
Publication of CN103678601A publication Critical patent/CN103678601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明提供了一种范文检索请求的处理方法,包括:获取用户的检索请求;根据请求内容的关键词,判断所述检索请求是否是范文检索请求;如果是,根据请求内容的关键词,在范文网页数据库进行检索;提取检索到的与所述关键词匹配的范文网页数据项的关键项信息;将所述关键项信息以应用框结构嵌入检索结果页中。根据本发明提供的方法,使得真正与用户所要求的范文字数相同、相近的范文网页出现在搜索结果页中,并且在搜索结果排序时排在搜索结果页的前面,提高了范文搜索的质量。本发明提供了一种相应的处理装置。

Description

一种范文检索请求的处理方法和装置
技术领域
本发明涉及互联网搜索领域,特别是涉及一种范文检索请求的处理方法和装置。
背景技术
范文搜索是网页搜索中一种很重要的需求,被搜索的范文类型众多,包括但不限于各类公文、文秘书信、工作计划、总结报告、心得体会、演讲致辞、作文作业、各种论文等等。在例如学生非放假期间、年底工作总结期间的高峰期,每天可以占到总网页搜索量的1%左右。实际中,大多数范文需求对于字数都有固定要求,因而很多用户都会在进行范文搜索时输入字数,如“读后感400字”、“奖学金申请书800字”等。即使在搜索时没有明确将字数输入,也会存在有对于该范文字数的潜在要求;例如,论文类的范文一般不低于8000字;入党申请书类的范文一般要求有3000~5000字,等等。
对于范文搜索,目前存在的问题主要有两个:一是当前检索机制只能通过标题、网页内容匹配来命中字数的需求,对于没有相关字数的网页排序不公平;由于找不到相应的字数的字段,也使得召回率不足;二是在目前检索结果的标题摘要下,用户只能通过相应字段飘红来判定是否是自己想要的信息,对于很多有欺骗性质的页面、字数是否满足要求等都是没有预期的。
图1示出了当前范文搜索的搜索结果页示意图,用户输入的范文搜索请求是“以家为题的作文350字”;在搜索结果页中,除了第一条结果的标题摘要直接命中350字外,其它结果都不知道有多少字数,只能将“350字”这个关键词丢弃来进行排序,对于一些潜在与350字非常接近的结果来说就显得非常不公平;用户也不知道什么结果是好结果,只能逐个点击查看,效率比较低下。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的范文检索请求的处理方法和相应的装置。
依据本发明的一个方面,提供了一种范文检索请求的处理方法,包括:
获取用户的检索请求;
根据请求内容的关键词,判断所述检索请求是否是范文检索请求;
如果是,根据请求内容的关键词,在范文网页数据库进行检索;
提取检索到的与所述关键词匹配的范文网页数据项的关键项信息;
将所述关键项信息以应用框结构嵌入检索结果页中。
可选地,所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL,且所述范文数据包括范文标题,范文正文和范文字数;所述请求内容包括主题关键词和字数关键词;其中,检索步骤包括,在范文类型和/或范文标题和/或范文正文中匹配主题关键词,并将字数关键词与范文字数进行匹配;且所述提取的关键项信息至少包括范文标题和范文字数。
可选地,一范文网页数据项包括多个范文数据;其中,检索步骤包括,在该范文网页数据项的多个范文数据中分别进行关键词匹配;且提取步骤包括,对于检索到的与所述关键词匹配的多个范文数据,提取匹配的多个范文数据中的范文标题和范文字数。
可选地,所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL;且所述范文数据包括范文标题,和范文文档或范文文档的下载链接;所述请求内容包括主题关键词和字数关键词;其中,检索步骤包括,在范文类型和/或范文标题中匹配主题关键词;且所述提取的关键项信息至少包括范文标题。
可选地,检索步骤还包括,根据请求内容的关键词,在基础网页库进行检索;其中所述基础网页库包括由网络爬虫下载存储到服务器侧的网页;并且所述方法还包括,在检索结果页中合并在范文网页数据库检索到的范文网页和在基础网页库检索到的范文网页,且前者在检索结果页的排序高于后者。
可选地,对于检索结果页中在范文网页数据库检索到的范文网页,根据其范文字数与字数关键词的匹配度由高到低进行排序。
依据本发明的另一方面,还提供一种范文检索请求的处理装置,包括:
请求获取单元,适于获取用户的检索请求;
请求判断单元,适于根据请求内容的关键词,判断所述检索请求是否是范文检索请求;
检索单元,适于根据请求内容的关键词,在范文网页数据库进行检索;
关键项提取单元,适于提取检索到的与所述关键词匹配的范文网页数据项的关键项信息;
信息嵌入单元,适于将所述关键项信息以应用框结构嵌入检索结果页中。
可选地,所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL,且所述范文数据包括范文标题,范文正文和范文字数;所述请求内容包括主题关键词和字数关键词;其中,检索单元适于,在范文类型和/或范文标题和/或范文正文中匹配主题关键词,并将字数关键词与范文字数进行匹配;且所述提取的关键项信息至少包括范文标题和范文字数。
可选地,一范文网页数据项包括多个范文数据;其中检索单元适于,在该范文网页数据项的多个范文数据中分别进行关键词匹配;且关键项提取单元适于,对于检索到的与所述关键词匹配的多个范文数据,提取匹配的多个范文数据中的范文标题和范文字数。
可选地,所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL;且所述范文数据包括范文标题,和范文文档或范文文档的下载链接;所述请求内容包括主题关键词和字数关键词;其中,检索单元适于,在范文类型和/或范文标题中匹配主题关键词;且所述提取的关键项信息至少包括范文标题。
可选地,检索单元还适于,根据请求内容的关键词,在基础网页库进行检索;其中所述基础网页库包括由网络爬虫下载存储到服务器侧的网页;并且所述装置还包括合并排序单元,其适于在检索结果页中合并在范文网页数据库检索到的范文网页和在基础网页库检索到的范文网页,且前者在检索结果页的排序高于后者。
可选地,所述合并排序单元还适于对于检索结果页中在范文网页数据库检索到的范文网页,根据其范文字数与字数关键词的匹配度由高到低进行排序。
根据本发明的范文检索请求的处理方法和装置,用户发出范文搜索请求时,在网页爬虫抓取的基础网页库进行常规搜索的同时,还在范文网页数据库中进行搜索。由于范文网页数据库中包含了各种范文网页的范文标题、正文以及字数,使得真正与用户所要求的范文字数相同、相近的范文网页出现在搜索结果页中,并且能在搜索结果排序时能排在前面,提高了范文搜索的质量;进一步还能在搜索结果页中将范文标题和范文字数显示给用户,以使得用户在不点击查看检索结果内容的情况下就能知道检索到的范文网页的字数,能更快速地决定哪些结果需要查看,提高了整体效率和用户体验。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是现有技术的范文搜索的搜索结果页示意图;
图2是根据本发明一实施例的范文检索请求的处理方法的流程图;
图3是根据本发明一实施例中使用的范文网页数据库的数据结构示意图;
图4是根据本发明一实施例中使用的范文网页数据库的一范文网页数据项的示意图;
图5是根据本发明一实施例的范文搜索的搜索结果页示意图;
图6是根据本发明另一实施例的范文搜索请求的处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
本实施例提供一种范文检索请求的处理方法。当用户向搜索引擎发起范文搜索请求时,所述处理方法在搜索引擎的服务器侧执行。
图2示出了根据本实施例的范文检索请求的处理方法,包括步骤S201-S207,其中:
步骤S201:获取用户的检索请求;
步骤S202:判断所述检索请求是否是范文检索请求;
步骤S203:在范文网页数据库进行检索;
步骤S204:提取检索到的范文网页数据项的关键项信息;
步骤S205:将关键项信息嵌入检索结果页中。
本实施例方法从步骤S201开始,搜索引擎的服务器获取用户的检索请求,例如“入党申请书2000字”,此请求表示用户希望搜索到字数在2000字左右的入党申请书范文;“以家为主题的作文350字”,表示用户希望搜索以家主题的作文范文,并且字数应该在350字左右;等等。
服务器接收到检索请求后,会对检索请求的内容进行分析,获取其中的检索项,即此时进入步骤S202。对于检索请求“入党申请书2000字”,其检索项为“入党申请书”和“2000字”;对于检索请求“以家为主题的作文350字”,其检索项为“家”、“作文”和“350字”。根据检索项“入党申请书”或“作文”,步骤S202判断其为范文检索请求。关于对检索请求进行分析获取检索项,有多种成熟的技术能够实现,在此不再赘述。
当步骤S202判断用户的检索请求是范文检索请求时,进入步骤S203,根据检索请求携带的关键词,在范文数据库中进行检索。
对于检索请求携带的关键词,对应于步骤S202中确定的检索项,包括主题关键词和字数关键词。例如,检索请求“入党申请书2000字”,其主题关键词为“入党申请书”,字数关键词为“2000”;检索请求“以家为主题的作文350字”,主题关键词为“家”和“作文”,字数关键词为“350”。
对于范文网页数据库,其包括多个范文网页数据项,每一范文网页数据项对应一范文网页,具体包括该范文网页的范文类型、范文网页的范文数据和范文网页对应的URL。典型地,范文网页的范文数据包括范文标题、范文正文和范文字数。图3示意性地示出了本发明所述范文网页数据库的数据结构示意图。
范文网页数据库应在范文检索前在搜索引擎的服务器端建立。首先,通过网络爬虫对互联网上范文资源网站的范文网页进行抓取;网络爬虫是一个技术成熟的、能自动提取互联网上网页的程序,它根据既定的规则为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。所有被网络爬虫抓取的网页将会被存贮在服务器侧;同时可进行一定的分析、过滤,建立索引,生成供用户检索使用的基础检索库(或索引数据库);网络爬虫可以在全网络范围内进行范文网页的抓取,也可以在指定的多个范文资源网站的范围内进行网页抓取,所述指定的范文资源网站可以由搜索服务提供商和/或用户不断进行添加和更新。然后,针对存储在服务器侧的、已被抓取到的范文网页,根据与所要提取的范文类型相对应的关键词,提取该类型范文网页的范文数据。具体地,首先需要将关键词与范文网页的内容进行匹配;如匹配,则从范文网页的内容中提取范文数据。发明人发现,互联网上的范文资源网站主要包括三大类:问答社区网站,文字网站和文库资源网站。优选地,针对不同类型的范文资源网站,使用相应的范文数据提取规则,能够更准确地提供范文数据。特别地,对于某些范文网页,例如问答社区网站的一个范文网页,其有可能包括了多篇范文,相应地该范文网页对应的范文网页数据项将包括多条范文数据,如图4所示,其中每条范文数据与范文网页中的一篇范文内容对应。最后,基于已提取的范文网页的范文数据,建立范文网页数据库。
在步骤S203的检索过程中,可先将主题关键词与范文类型进行匹配,然后根据二者匹配情况,进一步将主题关键词在相应的范文标题和/或范文正文中进行匹配。示例性地,对于检索请求“入党申请书2000字”,步骤S203先在范文类型中对主题关键词“入党申请书”进行匹配,若匹配成功,即判断主题关键词检索命中;对于检索请求“以家为主题的作文350字”,先在范文类型中对主题关键词“作文”进行匹配;若匹配成功,进一步将主题关键词“家”在相应的范文标题和/或范文正文中进行匹配;若继续匹配成功,则判断主题关键词检索命中。
在主题关键词检索命中之后,在命中的范文网页数据项中,进一步将字数关键词与范文网页数据项的范文字数进行匹配,并建立二者的匹配度。示例性地,对于检索请求“以家为主题的作文350字”,若一范文网页数据项的范文字数为350字,则匹配度为100%;另一数据项的范文字数为385字,则匹配度为91%。优选地,若字数匹配度低于某一阈值,例如匹配度低于30%,可在检索结果中舍弃此范文网页数据项对应的范文网页。
特别地,对于一条范文网页数据项包括多条范文数据的情况,在主题关键词与范文类型匹配成功后,应对每条范文数据进行主题关键词和/或字数关键词匹配。
在检索步骤S203之后,进入步骤S204,提取检索到的与所述关键词匹配的范文网页数据项的关键项信息;和步骤S205,将所述关键项信息以应用框结构嵌入检索结果页中,从而提供给用户。根据本实施例,被提取的关键项信息包括范文标题和范文字数,范文标题可以让用户初步了解范文的具体主题,范文字数则能够让用户直观了解该范文字数是否满足自己的需求。优选地,被提取的关键项信息还可包括部分范文正文,以使得用户能够在不点击打开范文网页的情况下就知晓范文的部分内容。
对于检索请求“以家为主题的作文350字”,图5示出了根据本实施例在范文网页数据库中进行范文搜索的搜索结果页示意图。在搜索结果页中,根据范文字数与字数关键词的匹配度由高到低对在范文网页数据库中检索到的范文网页进行排序;如图5所示,字数完全匹配的作为“我的家乡”排在第一位,排在第二位的范文网页包括了两篇范文,367字的“我的爸爸妈妈”和385字的“我的家乡”。与图1所示的现有技术中的范文搜索,搜索结果更加在准确,呈现内容更加丰富,极大程度上提高了用户体验。
另一方面,优选地,在步骤S202之后,本实施例所述方法还进入步骤S206,根据请求内容的关键词,在基础网页库进行检索。如上所述,基础网页库,即搜索引擎的索引数据库,包括由网络爬虫下载存储到服务器侧的网页;在基础网页库的检索是互联网搜索领域的一项成熟技术,在此不再赘述。
最后,进入步骤S207,在检索结果页中合并在范文网页数据库检索到的范文网页和在基础网页库检索到的范文网页。具体地,在检索结果页中,在范文网页数据库检索到的范文网页排在基础网页库检索到的范文网页的前面;一方面,优先向用户提供在范文网页数据库中检索到的、更准确的检索结果,另一方面将普通搜索的搜索结果同时呈现给用户,使得检索结果更全面。
实施例二
在本实施例中,对于互联网中为用户提供各种文章、论文的下载服务的文库资源网站(例如万方数据网等等),其网页中包括范文文档的URL资源链接和描述该范文文档的文字内容;范文网页数据库中这类文库资源网页的范文网页数据项,其范文数据包括:范文标题,其对应于描述该范文文档的文字内容;和范文正文,其对应于已下载的范文文档或范文文档的下载链接;
相对于实施例一所述方法,本实施例所述方法具有如下区别:在关键词检索步骤中,仅在范文类型和/或范文标题中匹配主题关键词;而且,在提取步骤中,所提取的关键项信息包括范文标题。
实施例三
在本实施例中,提供了一种范文搜索请求的处理装置,其设置在搜索引擎的服务器侧。图6示出了所述处理装置的结构示意图,所述处理装置至少包括单元601-单元605。
当用户向搜索引擎发出检索请求时,请求获取单元601获取用户的检索请求;然后请求判断单元602根据请求内容的关键词,判断所述检索请求是否是范文检索请求。例如,对于检索请求“以家为主题的作文350字”,其包含了检索项“家”、“作文”和“350字”,请求判断单元602根据其中检索项“作文”判断其为范文检索请求。
接下来,检索单元603根据请求内容中与上述检索项相对应的主题关键词“家”和“作文”以及字数关键词“350”,在范文网页数据库进行检索,其中范文网页数据库参见实施例一和二中的描述。在检索过程中,可先将主题关键词与范文类型进行匹配,然后根据二者匹配情况,再进一步将主题关键词在相应的范文标题和/或范文正文中进行匹配。在主题关键词检索命中之后,在命中的范文网页数据项中,进一步将字数关键词与范文网页数据项中的范文字数进行匹配,并建立二者的匹配度。特别地,对于一条范文网页数据项包括多条范文数据的情况,在主题关键词与范文类型匹配成功后,应对每条范文数据进行主题关键词和/或字数关键词匹配。
检索到范文网页数据项后,关键项提取单元604提取所述范文网页数据项的关键项信息,然后由信息嵌入单元605将所述关键项信息以应用框结构嵌入检索结果页中。根据本实施例,被提取的关键项信息包括范文标题和范文字数,范文标题可以让用户初步了解范文的具体主题,范文字数则能够让用户直观了解该范文字数是否满足自己的需求。优选地,被提取的关键项信息还可包括部分范文正文,以使得用户能够在不点击打开范文网页的情况下就知晓范文的部分内容。
进一步地,本实施例所述装置的检索单元603还同时根据请求内容的关键词在基础网页库进行检索;其中所述基础网页库包括由网络爬虫下载存储到服务器侧的网页。并且,本实施例所述装置还包括合并排序单元,其适于在检索结果页中合并在范文网页数据库检索到的范文网页和在基础网页库检索到的范文网页,且前者在检索结果页的排序高于后者。一方面,优先向用户提供在范文网页数据库中检索到的、更准确的检索结果,另一方面将普通搜索的搜索结果同时呈现给用户,使得检索结果更全面。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种范文检索请求的处理方法,包括:
获取用户的检索请求;
根据请求内容的关键词,判断所述检索请求是否是范文检索请求;
如果是,根据请求内容的关键词,在范文网页数据库进行检索;
提取检索到的与所述关键词匹配的范文网页数据项的关键项信息;
将所述关键项信息以应用框结构嵌入检索结果页中。
2.根据权利要求1所述的方法,其中所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL,且所述范文数据包括范文标题,范文正文和范文字数;所述请求内容包括主题关键词和字数关键词;其中,
检索步骤包括,在范文类型和/或范文标题和/或范文正文中匹配主题关键词,并将字数关键词与范文字数进行匹配;且
所述提取的关键项信息至少包括范文标题和范文字数。
3.根据权利要求1或2所述的方法,其中一范文网页数据项包括多个范文数据;其中,
检索步骤包括,在该范文网页数据项的多个范文数据中分别进行关键词匹配;且
提取步骤包括,对于检索到的与所述关键词匹配的多个范文数据,提取匹配的多个范文数据中的范文标题和范文字数。
4.根据权利要求1-3任一项所述的方法,其中所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL;且所述范文数据包括范文标题,和范文文档或范文文档的下载链接;所述请求内容包括主题关键词和字数关键词;其中,
检索步骤包括,在范文类型和/或范文标题中匹配主题关键词;且
所述提取的关键项信息至少包括范文标题。
5.根据权利要求1-4之任一所述的方法,其中
检索步骤还包括,根据请求内容的关键词,在基础网页库进行检索;其中所述基础网页库包括由网络爬虫下载存储到服务器侧的网页;并且
所述方法还包括,在检索结果页中合并在范文网页数据库检索到的范文网页和在基础网页库检索到的范文网页,且前者在检索结果页的排序高于后者。
6.根据权利要求1-5任一项所述的方法,其中对于检索结果页中在范文网页数据库检索到的范文网页,根据其范文字数与字数关键词的匹配度由高到低进行排序。
7.一种范文检索请求的处理装置,包括:
请求获取单元,适于获取用户的检索请求;
请求判断单元,适于根据请求内容的关键词,判断所述检索请求是否是范文检索请求;
检索单元,适于根据请求内容的关键词,在范文网页数据库进行检索;
关键项提取单元,适于提取检索到的与所述关键词匹配的范文网页数据项的关键项信息;
信息嵌入单元,适于将所述关键项信息以应用框结构嵌入检索结果页中。
8.根据权利要求7所述的装置,其中所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL,且所述范文数据包括范文标题,范文正文和范文字数;所述请求内容包括主题关键词和字数关键词;其中,
检索单元适于,在范文类型和/或范文标题和/或范文正文中匹配主题关键词,并将字数关键词与范文字数进行匹配;且
所述提取的关键项信息至少包括范文标题和范文字数。
9.根据权利要求7或8所述的装置,其中一范文网页数据项包括多个范文数据;其中
检索单元适于,在该范文网页数据项的多个范文数据中分别进行关键词匹配;且
关键项提取单元适于,对于检索到的与所述关键词匹配的多个范文数据,提取匹配的多个范文数据中的范文标题和范文字数。
10.根据权利要求7-9任一项所述的装置,其中所述范文网页数据库包括多个范文网页数据项,一范文网页数据项包括一范文网页的范文类型、范文数据和URL;且所述范文数据包括范文标题,和范文文档或范文文档的下载链接;所述请求内容包括主题关键词和字数关键词;其中,
检索单元适于,在范文类型和/或范文标题中匹配主题关键词;且
所述提取的关键项信息至少包括范文标题。
CN201310685293.7A 2013-12-13 2013-12-13 一种范文检索请求的处理方法和装置 Pending CN103678601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310685293.7A CN103678601A (zh) 2013-12-13 2013-12-13 一种范文检索请求的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310685293.7A CN103678601A (zh) 2013-12-13 2013-12-13 一种范文检索请求的处理方法和装置

Publications (1)

Publication Number Publication Date
CN103678601A true CN103678601A (zh) 2014-03-26

Family

ID=50316146

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310685293.7A Pending CN103678601A (zh) 2013-12-13 2013-12-13 一种范文检索请求的处理方法和装置

Country Status (1)

Country Link
CN (1) CN103678601A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955473A (zh) * 2014-03-31 2014-07-30 北京奇虎科技有限公司 一种进行搜索的方法和装置
WO2015131480A1 (zh) * 2014-06-24 2015-09-11 中兴通讯股份有限公司 一种素材信息输出方法、系统及计算机存储介质
CN111045836A (zh) * 2019-11-25 2020-04-21 三角兽(北京)科技有限公司 搜索方法、装置、电子设备及计算机可读存储介质
CN111581951A (zh) * 2020-05-08 2020-08-25 耿广建 一种基于多写作维度变化的作文学练方法、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955473A (zh) * 2014-03-31 2014-07-30 北京奇虎科技有限公司 一种进行搜索的方法和装置
WO2015131480A1 (zh) * 2014-06-24 2015-09-11 中兴通讯股份有限公司 一种素材信息输出方法、系统及计算机存储介质
CN105243065A (zh) * 2014-06-24 2016-01-13 中兴通讯股份有限公司 一种素材信息输出方法和系统
CN111045836A (zh) * 2019-11-25 2020-04-21 三角兽(北京)科技有限公司 搜索方法、装置、电子设备及计算机可读存储介质
CN111581951A (zh) * 2020-05-08 2020-08-25 耿广建 一种基于多写作维度变化的作文学练方法、设备及介质
CN111581951B (zh) * 2020-05-08 2023-04-25 耿广建 一种基于多写作维度变化的作文学练方法、设备及介质

Similar Documents

Publication Publication Date Title
CN104715064B (zh) 一种实现在网页上标注关键词的方法和服务器
Patil Swati et al. Search engine optimization: A study
CN104077388A (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN104063476A (zh) 基于社交网络的内容推荐方法和系统
CN103530364A (zh) 提供下载链接的方法及系统
CN104050286A (zh) 一种提供搜索结果整合的方法和装置
Desai et al. Web Crawler: Review of Different Types of Web Crawler, Its Issues, Applications and Research Opportunities.
CN103577566A (zh) 一种网页阅读内容加载方法和装置
CN106021418A (zh) 新闻事件的聚类方法及装置
CN105653701A (zh) 模型生成方法及装置、词语赋权方法及装置
CN105630937A (zh) 一种搜索试题答案的方法以及装置
CN103678601A (zh) 一种范文检索请求的处理方法和装置
CN107678968A (zh) 源码函数的样本提取方法、装置、计算设备及存储介质
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN103530389A (zh) 一种提高停用词搜索有效性的方法和装置
CN103530337A (zh) 识别统一资源定位符url中无效参数的设备及方法
CN102902790A (zh) 网页分类系统及方法
CN102902794A (zh) 网页分类系统及方法
CN102902792B (zh) 列表页识别系统及方法
CN102902784A (zh) 网页分类存储系统及方法
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN104965902A (zh) 一种富集化url的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140326