CN103902579B - 获取信息的方法和装置 - Google Patents

获取信息的方法和装置 Download PDF

Info

Publication number
CN103902579B
CN103902579B CN201210579273.7A CN201210579273A CN103902579B CN 103902579 B CN103902579 B CN 103902579B CN 201210579273 A CN201210579273 A CN 201210579273A CN 103902579 B CN103902579 B CN 103902579B
Authority
CN
China
Prior art keywords
webpage
search term
template
information
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210579273.7A
Other languages
English (en)
Other versions
CN103902579A (zh
Inventor
胡熠
刘磊
赵耀
程佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210579273.7A priority Critical patent/CN103902579B/zh
Priority to PCT/CN2013/088920 priority patent/WO2014101650A1/zh
Publication of CN103902579A publication Critical patent/CN103902579A/zh
Priority to US14/750,980 priority patent/US20150294005A1/en
Application granted granted Critical
Publication of CN103902579B publication Critical patent/CN103902579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种获取信息的方法和装置,属于通信技术领域。所述方法包括:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。本发明不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。

Description

获取信息的方法和装置
技术领域
本发明涉及通信技术领域,特别涉及一种获取信息的方法和装置。
背景技术
随着互联网的发展,各种网站层出不穷,用户可以在网站上搜索所需信息。面对众多网站的竞争,怎样才能够为用户提供更能够满足用户需求的搜索结果是所有网站需要解决的问题。
现有技术中提供的一种通用开放平台,并将该平台的接口开放给特定信息数据的拥有者,如天气信息,股票信息,地图信息等这些数据的拥有者,如天气信息,股票信息,地图信息等这些数据的拥有者,在获取到搜索词时,搜索引擎除了提供一般性的搜索结果外,如果该搜索用户为特定用户,则搜索引擎还可以通过通用开放平台的接口输出特定信息供用户查看,从而满足了特定用户对特定信息的需求。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有技术中,需要外部提供高质量数据给搜索引擎,这些外部的高质量数据局限于天气、股票或是微博等数据,搜索引擎只能被动接受外部提供的高质量数据,无法满足用户的各类需求,不能通过互联网中的海量数据为用户提供高质量的搜索。
发明内容
为了提高搜索质量,本发明实施例提供了一种获取信息的方法和装置。所述技术方案如下:
一方面,提供了一种获取信息的方法,所述方法包括:
获取网页上的搜索词;
当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页;
根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
在所述模板上输出所述相应的关键信息。
另一方面,提供了一种获取信息的装置,所述装置包括:
接入模块,用于获取网页上的搜索词;
获取模块,用于当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
筛选模块,用于对所述第一网页集进行筛选,得到符合筛选条件的选定网页;
挖掘模块,用于根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
输出模块,用于在所述模板上输出所述相应的关键信息;
所述筛选模块,包括:
第一筛选单元,用于根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
第二筛选单元,用于根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页。
本发明实施例提供的技术方案带来的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中提供的一种获取信息的方法流程图;
图2是本发明实施例二中提供的一种获取信息的法流程图;
图3是本发明实施例三中提供的一种获取信息的装置结构示意图;
图4是本发明实施例三中提供的另一种获取信息的装置结构示意图;
图5是本发明实施例三中提供的另一种获取信息的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本实施例中,搜索引擎的内容增值服务,涉及的背景技术包括搜索引擎的基本组成部分:网络爬虫,网页信息索引,搜索词检索;以及人工智能技术:数据挖掘,自然语言处理等。
搜索引擎中的网络爬虫是按照一定的规则自动抓取互联网网页的一种程序或脚本。网络爬虫首先选取一部分种子URL(Uniform/Universal Resource Locator,统一资源定位符),将这些URL放入待抓取URL队列;从待抓取URL队列中取出待抓取的URL,DNS(Domain Name System,域名系统)解析得到对应IP,然后将其对应的网页下载到已下载网页库中。将这些URL放进已抓取URL队列,并抽取其中的其他URL,将抽取出来的URL放入待抓取URL队列。进入下一个抓取循环,直到满足系统的一定停止条件。经过这种的循环抓取过程,爬虫为搜索引擎积累的大量的网页数据。
搜索引擎把网络爬虫爬取的网页进一步建立索引,得到网页信息索引。具体的,搜索引擎保存搜集的网页,并将它们按照一定的格式进行了压缩编排,形成倒排索引的数据结构。这样,搜索引擎就可以支持快速应对搜索词的检索行为。
搜索引擎接受到用户的搜索词后在倒排索引中检索,由于预先对网页进行了编排,搜索引擎在极短时间内就能够找到用户需要的网页。这些初步命中用户搜索词的网页,还要在进一步判断和搜索词的相关程度,按照相关程度排序这些网页,并返回给用户查看。
数据挖掘是从大量的、有噪声的、模糊的实际应用数据中,提取隐含在其中的具有潜在价值的信息和知识的过程。发现的知识可以被用于信息管理,决策支持和过程控制等。数据挖掘把对搜索引擎数据的应用从低层次的简单搜索,提升到从数据中挖掘知识。
自然语言处理是使用计算机实现对自然语言的理解和生成的过程。现有网页中绝大部分信息是中文文本。从语言学的角度可以把中文文本看作由字组成词,由词组成词组,由词组组成句子,由句子在进一步组成段、节、章、篇,上述的各种层次存在着歧义和多义现象。为了消解歧义,需要大量的背景知识和推理手段,其中的过程就是自然语言处理过程。
实施例一
参见图1,本实施例中提供了一种获取信息的方法,包括:
101、获取网页上的搜索词;
102、当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
103、对所述第一网页集进行筛选,得到符合筛选条件的选定网页;
104、根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
105、在所述模板上输出所述相应的关键信息。
本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
实施例二
本发明实施例中提供了一种获取信息的方法,网页为了用户提供内容增值服务,该服务的目的是结合搜索引擎高效的检索机制以及相关排序,找到一批和搜索词相关度较高的文档,再从中筛选特定来源的网页数据,按网页内容本身的质量高低,进一步筛选出质量高,可从中挖掘增值内容的网页集合,按搜索词命中模板的要求,生成特定的结构化的信息,给提交搜索词的用户提供高附加值的增值内容,使用户能够根据附加的增值内容进一步进行决策。具体实施过程中,用户预先购买某个搜索词的内容增值服务的使用权,用户在网页上输入该搜索词进行搜索时,如果用户触发内容增值服务的选项,搜索引擎除了对该搜索词进行常规检索外,还要启动内容增值服务,以为用户提供更有价值的信息。
参见图2,方法流程具体包括:
201、获取网页上的搜索词,当触发网页上的内容增值服务时,判断触发网页上的内容增值服务的操作是否是在预设时间内进行的,如果是,则执行步骤202,否则,执行步骤203。
其中,搜索词可以是企业用户购买的产品名,如某个手机品牌,也可以扩展为用自然语言表述的搜索词,该搜索词中包括企业用户购买的产品名,如“某个手机怎么样”。
本实施例中,网页为用户提供内容增值服务,其中可以在网页的页面上设置内容增值服务选项,或是在某个功能菜单下设置内容增值服务选项,内容增值服务的选项具体以何种方式出现对此本实施例不作具体限定。
具体实施过程中,可选地,当用户启动内容增值服务时,先判断本次触发内容增值服务的操作是否在预设时间内,即是否在本次启动内容增值服务之前用户已经启动过该服务,且上次操作时间距离本次操作的时间在预设时间之内,其中,预设时间可以是1天、两天、10天、15天、30天等,对此本实施例不做具体限定。如果是在预设时间内,且网页的服务器上都保存了上次服务获取的信息,当用户在预设时间内再次启动内容增值服务时,可以在网页上直接输出本地保存的信息。
202、在与所述搜索词相关的模板上输出本地保存的第一关键信息。
本实施例中,为了提高网页的服务质量,根据搜索词的分类和用户的需求,预先设置多个与搜索词对应的模板,其中用户可以是不同行业的用户,如政府部门、汽车行业、影视业等,对此本实施例不做具体限定。根据不同的用户需求和搜索词,预先设置能够满足不同用户需求的模板,例如,搜索词与汽车有关,根据用户的需求在该搜索词对应的模板上设置:汽车品牌、外观、评价和建议等这样的标题,在模板的每个标题下面输出对应的信息。本步骤中,如果判断出所述触发所述网页上的内容增值服务的操作是否是在预设时间内进行的,则在与所述搜索词相关的模板上输出本地保存的第一关键信息。其中,第一关键信息包括模板中每个标题对应的信息。
本步骤中,在与所述搜索词相关的模板上输出本地保存的第一关键信息后则完成了本次的内容增值服务,不需要继续执行以下步骤。
203、启动预算管理服务,判断本次操作是否超出剩余预算,如果是,则执行步骤204,如果否,则执行步骤205。
本实施例中,可选地,可以对用户的内容增值服务进行收费,当用户启动内容增值服务后,如果本次启动内容增值服务的操作不是在预设时间之内,则启动预算管理服务,通过预算管理服务对用户预充的费用进行管理。预算管理服务启动后,获取用户的剩余金额,确认剩余金额是否能够支付本次操作,如果是,则继续为用户提供内容增值服务,执行步骤205,否则执行步骤204。
值得说明的是,如果对用户的内容增值服务进行收费,则在步骤202中,当触发所述网页上的内容增值服务的操作是在预设时间内进行的时,则不需要对本次服务进行收费。
204、输出余额不足的提示界面。
本实施例中,可选地,当确认用户的剩余金额不够支付本次的内容增值服务时,输出余额不足的提示界面,并拒绝向用户提供内容增值服务,使用户能够及时充值,以恢复内容增值服务的使用。当然可选地,也可以在输出余额不足的提示界面后,继续为用户提供本次的内容增值服务,但是如果用户不及时充值,则下次用户再次启动内容增值服务时,则拒绝为用户提供该服务。具体实施过程中,是否选择继续为用户提供内容增值服务本实施例不做具体限定。
205、根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板。
本实施例中,服务器中包括多个搜索引擎,并预先将搜索引擎进行分类,每个搜索引擎负责对某一类或某几类的搜索词进行搜索。当获取到搜索词时,根据搜索词的分类,将搜索词分发给相应的搜索引擎,搜索引擎根据搜索词在倒排索引中进行检索,以便快速的得到互联网中与搜索词相关的第一网页集。
206、对所述第一网页集进行筛选,得到符合筛选条件的选定网页。
本步骤中,对所述第一网页集进行筛选,得到符合筛选条件的选定网页,包括:
1)根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
在得到与搜索词相关的第一网页集后,对第一网页集进一步进行筛选,以得到更有价值的数据。其中,搜索词的分类信息包括:政府类、汽车类、影视类等。每个搜索词的分类信息都对应有相应的站点,可以根据搜索词的分类信息和网页的域名进行筛选。
2)根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的选定网页。
本实施例中,根据网页的域名对网页进行筛选后,再根据网页中的信息量,对第二网页集中的网页进行筛选,其中网页中的信息量,包括网页内容的长度,用词特征等。在进行第二次筛选时,按照长度,用词特征等,过滤掉信息不足,恶意的网页。如网页中的很多评价并没有给出合理的描述和建议,而是很粗略的表达对产品的观点,挖掘价值不高,则在第二次筛选中过滤掉这种价值不高的网页。
在获取到第一网页集的同时,根据搜索词在预设的多个模板中找到与该搜索词相关的模块。
207、根据所述模板的需求在所述选定网页中挖掘相应的关键信息,并在所述模板上输出所述相应的关键信息。
本步骤中,获取模板中的标题的关键词,根据关键词对选定网页中的数据进行进一步的数据挖掘,如,搜索词包括“汽车”,与该搜索词相关的模板中的标题包括:手机品牌、外观、评价和建议等关键词,则在选定网页中找到关于这些关键词的信息。具体的,在网页中找到搜索词时,在搜索词的上下文中检索是否有关于关键词的信息,例如,文中是否有关于手机品牌的信息,或手机评价的信息等,如果有,则获取关于该关键词的关键信息。
在搜索引擎已经抓取的数以百亿计的网页中,其中有一部分高质量的,有参考价值的网页会对一个产品有所评价,表达对产品的观点。评价的焦点以这款产品为核心,对产品多个属性做评论和建议。比如某个手机品牌就有其特定的产品属性,如显示屏,大小,电池续航,厚度,通话质量,操作系统等多个方面。在这样的评价性网页中,产品上下文包含着对这个产品的情感倾向性,如对手机的外观喜欢还是不喜欢,优缺点是什么。在进行数据挖掘时,首先从这种有价值的网页中进行挖掘,以达到竞争力分析、市场分析、舆论探测、风险管理等目的。
在获取到模板中关键词的关键信息后,将相应的关键信息进行自然语言处理,得到语句通畅,语义清楚的文本信息,并将每个关键词对应的关键信息插入到该关键词对应的标题下输出,从而为用户提供内容增值服务的信息。
值得说明的是,在所述模板上输出所述相应的关键信息之后,在预设时间内保存该搜索词对应的模板和模板上的信息,当用户在预设时间内再次启动该增值服务时,可以直接将本地保存的信息输出给用户参考。当然也可以不对本次服务获取的信息进行保存,对此本实施例不走具体限定。
本实施例中,用户提交的搜索词,也会因为互联网网页数据的不断补入而有所变化,也就是说整个增值服务系统有自适应的功能,用户在不同的时间点能看到不端更新的评价结果。
208、扣除本次内容增值服务操作的服务费用。
本步骤中,在完成对用户的内容增值服务后,在用户的剩余金额中扣除本次服务的费用。
当然,本实施例中,采用了一种预付费的方法,对用户使用内容增值服务进行管理,可选地,也可以对采用后付费的方法对用户使用内容增值服务进行管理,即记录用户使用的内容增值服务,在用户使用内容增值服务一定周期后,要求用户对该服务进行付费,具体实施过程中采用哪种方法本实施例不做具体限定。
本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页,包括:根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
实施例三
参见图3,本发明实施例中提供了一种获取信息的装置,该装置包括:接入模块301、获取模块302、筛选模块303、挖掘模块304和输出模块305。
接入模块301,用于获取网页上的搜索词;
获取模块302,用于当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
筛选模块303,用于对所述第一网页集进行筛选,得到符合筛选条件的选定网页;
挖掘模块304,用于根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
输出模块305,用于在所述模板上输出所述相应的关键信息。
参见图4,进一步地,所述筛选模块303,包括:
第一筛选单元303a,用于根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
第二筛选单元303b,用于根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页。
其中,所述挖掘模块303具体用于:
获取所述模板中标题的关键词,在所述选定网页中找到所述搜索词,并在所述搜索词的上下文中检索关于所述关键词的信息,得到关键信息。
参见图4,可选地,所述装置还包括:
判断模块306,用于在所述获取模块302根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板之前,判断所述触发所述网页上的内容增值服务的操作是否是在预设时间内进行的,如果是,则在与所述搜索词相关的模板上输出本地保存的第一关键信息。
参见图4,可选地,所述装置还包括:
预算管理模块307,用于如果所述判断模块306判断出触发所述网页上的内容增值服务的操作不是在预设时间内进行的,则启动预算管理服务,判断本次操作是否超出剩余预算,如果否,则继续执行所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板的操作。
参见图4,相应地,所述装置还包括:
计费模块308,用于在所述输出模块304在所述模板上输出所述相应的关键信息之后,扣除本次内容增值服务操作的服务费用。
本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的选定网页和与所述搜索词相关的模板;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
需要说明的是:上述实施例中提供的获取信息的装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。例如,如图5所示,提供了一种在具体实施过程中获取产品评价信息的装置,包括:接入模块、缓存模块、缓存数据中心、预算服务模块、结果分发模块、搜索引擎、数据来源筛选、优质数据筛选模块、评价数据筛选模块和需求信息挖掘模块。
接入模块:用于获取用户输入的搜索词,并访问缓存模块,如果用户已经搜索过相关搜索词,并且处于指定时间窗口内,即上次访问与本次访问的时间差在预设时间内,则直接返回缓存的该用户需要的增值内容,不计费;否则,则先访问预算服务模块,查看该用户是否有剩余预算支持此次检索,有则正常启动内容增值服务,没有则通知用户充值;
缓存模块:用于缓存以用户名和搜索词为key的搜索词增值内容服务结果;
缓存数据中心:用于保存缓存数据,并在系统加载时,提供预充Cache的数据;
预算服务模块:用于计算该用户在搜索当前搜索词时,如果触发内容增值服务,启动该用户的预算管理,如果超出了剩余预算,则反馈给用户,提示用户需要充值,如果没有超出预算,则继续后续流程,在增值内容成功提交给用户后,计费模块扣除此次的服务费用;
结果分发模块:用于传递搜索词给搜索引擎,得到搜索引擎的搜索结果,同时根据搜索词,选择适用的模板,带着模板号进一步访问数据来源筛选模块,其中,其中模板是按用户需求设计的结构化数据框架。如汽车评价类需求,是<汽车品牌,外观,评价,建议>这样的多元组集合,模板号是模板库里面各个模板对应的编号,以区分不同的模板;
搜索引擎:用于根据搜索引擎的海量数据以及相关性的初步筛选,得到和用户搜索词相关的网页,作为进一步增值内容挖掘的数据集;
数据来源筛选:用于根据搜索词的分类信息,以及类别对应的域名列表,进一步从搜索引擎的相关网页,按域名筛选网页。如汽车评价,可以从“http://club.autohome.com.cn/”(汽车之家论坛)这样的网站筛选网页;
优质数据筛选模块:用于根据网页中的信息量进行进一步筛选,例如按照长度,用词等特征,过滤掉信息不足,恶意的网页。如评价内容增值中,很多评价并没有给出合理的描述和建议,而是很粗略的表达对产品的观点,挖掘的价值不高,在此次筛选中将这种网页过滤掉;
评价数据筛选模块:用于识别网页内容在搜索词附近,是否形成了对搜索词表示产品的评价,其中搜索词附近是指在搜索词上下文中;
需求信息挖掘模块:用于按模板需要,从网页数据中挖掘对应的信息。如汽车评论信息中对汽车各个属性的情感倾向性,建议等;
可选地,还可以设置日志中心和监控中心;
日志中心:用于负责收集系统在运行过程产生的日志,并存储到日志库;
监控中心:用于监控增值服务系统在运行过程中的健康程度,并按时间存储到监控数据库。
上述在具体实施过程中的获取评价信息的装置虽然与本实施例中获取信息的装置的划分不同,但是其要完成的功能是类似的。
另外,上述实施例提供的获取信息的装置与获取信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
实施例四
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,本实施例中提供了一种存储介质,所述存储介质中存储指定的程序,所述指定的程序用于执行以下步骤:
1)获取网页上的搜索词;
2)当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
3)对所述第一网页集进行筛选,得到符合筛选条件的选定网页;
4)根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
5)在所述模板上输出所述相应的关键信息。
其中,所述对所述第一网页集进行筛选,得到符合筛选条件的选定网页,包括:
根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页。
本实施例中,所述根据所述模板的需求在所述选定网页中挖掘相应的关键信息,包括:
获取所述模板中标题的关键词,在所述选定网页中找到所述搜索词,并在所述搜索词的上下文中检索关于所述关键词的信息,得到关键信息。
可选地,所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板之前,还包括:
判断所述触发所述网页上的内容增值服务的操作是否是在预设时间内进行的,如果是,则在与所述搜索词相关的模板上输出本地保存的第一关键信息。
可选地,如果所述触发所述网页上的内容增值服务的操作不是在预设时间内进行的,则启动预算管理服务,判断本次操作是否超出剩余预算,如果否,则继续执行所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板的操作。
可选地,所述在所述模板上输出所述相应的关键信息之后,还包括:
扣除本次内容增值服务操作的服务费用。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
实施例五
本实施例中提供了一种计算机实现的方法,所述方法包括:
1)获取网页上的搜索词;
2)当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
3)对所述第一网页集进行筛选,得到符合筛选条件的选定网页;
4)根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
5)在所述模板上输出所述相应的关键信息。
其中,所述对所述第一网页集进行筛选,得到符合筛选条件的选定网页,包括:
根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页。
本实施例中,所述根据所述模板的需求在所述选定网页中挖掘相应的关键信息,包括:
获取所述模板中标题的关键词,在所述选定网页中找到所述搜索词,并在所述搜索词的上下文中检索关于所述关键词的信息,得到关键信息。
可选地,所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板之前,还包括:
判断所述触发所述网页上的内容增值服务的操作是否是在预设时间内进行的,如果是,则在与所述搜索词相关的模板上输出本地保存的第一关键信息。
可选地,如果所述触发所述网页上的内容增值服务的操作不是在预设时间内进行的,则启动预算管理服务,判断本次操作是否超出剩余预算,如果否,则继续执行所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板的操作。
可选地,所述在所述模板上输出所述相应的关键信息之后,还包括:
扣除本次内容增值服务操作的服务费用。
本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
实施例六
本实施例中提供了一种计算机装置,所述计算机装置包括:处理器和存储介质,所述存储介质中存储有指定的程序,所述指定的程序用于指令所述处理器执行以下步骤:
1)获取网页上的搜索词;
2)当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
3)对所述第一网页集进行筛选,得到符合筛选条件的选定网页;
4)根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
5)在所述模板上输出所述相应的关键信息。
其中,所述对所述第一网页集进行筛选,得到符合筛选条件的选定网页,包括:
根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页。
本实施例中,所述根据所述模板的需求在所述选定网页中挖掘相应的关键信息,包括:
获取所述模板中标题的关键词,在所述选定网页中找到所述搜索词,并在所述搜索词的上下文中检索关于所述关键词的信息,得到关键信息。
可选地,所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板之前,还包括:
判断所述触发所述网页上的内容增值服务的操作是否是在预设时间内进行的,如果是,则在与所述搜索词相关的模板上输出本地保存的第一关键信息。
可选地,如果所述触发所述网页上的内容增值服务的操作不是在预设时间内进行的,则启动预算管理服务,判断本次操作是否超出剩余预算,如果否,则继续执行所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板的操作。
可选地,所述在所述模板上输出所述相应的关键信息之后,还包括:
扣除本次内容增值服务操作的服务费用。
本实施例的有益效果是:获取网页上的搜索词;当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;对所述第一网页集进行筛选,得到符合筛选条件的选定网页;根据所述模板的需求在所述选定网页中挖掘相应的关键信息;在所述模板上输出所述相应的关键信息。不需要外接数据,搜索引擎主动搜索互联网中的数据,且根据预设的模板信息从海量的数据中挖掘出关键信息,从而满足用户的各种需求,提高了搜索引擎的服务质量和效率。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种获取信息的方法,其特征在于,所述方法包括:
获取网页上的搜索词;
当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页;
根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
在所述模板上输出所述相应的关键信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述模板的需求在所述选定网页中挖掘相应的关键信息,包括:
获取所述模板中标题的关键词,在所述选定网页中找到所述搜索词,并在所述搜索词的上下文中检索关于所述关键词的信息,得到关键信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板之前,还包括:
判断所述触发所述网页上的内容增值服务的操作是否是在预设时间内进行的,如果是,则在与所述搜索词相关的模板上输出本地保存的第一关键信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
如果所述触发所述网页上的内容增值服务的操作不是在预设时间内进行的,则启动预算管理服务,判断本次操作是否超出剩余预算,如果否,则继续执行所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板的操作。
5.根据权利要求4所述的方法,其特征在于,所述在所述模板上输出所述相应的关键信息之后,还包括:
扣除本次内容增值服务操作的服务费用。
6.一种获取信息的装置,其特征在于,所述装置包括:
接入模块,用于获取网页上的搜索词;
获取模块,用于当触发所述网页上的内容增值服务时,根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板;
筛选模块,用于对所述第一网页集进行筛选,得到符合筛选条件的选定网页;
挖掘模块,用于根据所述模板的需求在所述选定网页中挖掘相应的关键信息;
输出模块,用于在所述模板上输出所述相应的关键信息;
所述筛选模块,包括:
第一筛选单元,用于根据所述搜索词的分类信息和所述第一网页集中每个网页的域名,对所述第一网页集进行筛选,得到第二网页集;
第二筛选单元,用于根据所述第二网页集中每个网页中的信息量,对所述第二网页集进行筛选,过滤掉所述第二网页集中信息量低于预设条件的网页,得到与所述搜索词相关的符合筛选条件的选定网页。
7.根据权利要求6所述的装置,其特征在于,所述挖掘模块用于:
获取所述模板中标题的关键词,在所述选定网页中找到所述搜索词,并在所述搜索词的上下文中检索关于所述关键词的信息,得到关键信息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
判断模块,用于在所述获取模块根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板之前,判断所述触发所述网页上的内容增值服务的操作是否是在预设时间内进行的,如果是,则在与所述搜索词相关的模板上输出本地保存的第一关键信息。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
预算管理模块,用于如果所述判断模块判断出触发所述网页上的内容增值服务的操作不是在预设时间内进行的,则启动预算管理服务,判断本次操作是否超出剩余预算,如果否,则继续执行所述根据所述搜索词获取与所述搜索词相关的第一网页集和与所述搜索词相关的模板的操作。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
计费模块,用于在所述输出模块在所述模板上输出所述相应的关键信息之后,扣除本次内容增值服务操作的服务费用。
CN201210579273.7A 2012-12-27 2012-12-27 获取信息的方法和装置 Active CN103902579B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210579273.7A CN103902579B (zh) 2012-12-27 2012-12-27 获取信息的方法和装置
PCT/CN2013/088920 WO2014101650A1 (zh) 2012-12-27 2013-12-10 获取信息的方法和装置
US14/750,980 US20150294005A1 (en) 2012-12-27 2015-06-25 Method and device for acquiring information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210579273.7A CN103902579B (zh) 2012-12-27 2012-12-27 获取信息的方法和装置

Publications (2)

Publication Number Publication Date
CN103902579A CN103902579A (zh) 2014-07-02
CN103902579B true CN103902579B (zh) 2018-02-23

Family

ID=50993907

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210579273.7A Active CN103902579B (zh) 2012-12-27 2012-12-27 获取信息的方法和装置

Country Status (3)

Country Link
US (1) US20150294005A1 (zh)
CN (1) CN103902579B (zh)
WO (1) WO2014101650A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893390B (zh) * 2015-01-26 2021-06-22 北京搜狗科技发展有限公司 一种应用程序的处理方法及电子设备
CN104965907A (zh) * 2015-06-30 2015-10-07 小米科技有限责任公司 结构化对象的生成方法及装置
CN105183818B (zh) * 2015-08-27 2020-02-04 百度在线网络技术(北京)有限公司 一种搜索结果的显示方法及装置
WO2018031062A1 (en) * 2016-08-12 2018-02-15 Level 3 Communications, Llc Malware detection and prevention system
CN106682202B (zh) 2016-12-29 2020-01-10 北京奇艺世纪科技有限公司 一种搜索缓存更新方法及装置
CN110020046B (zh) * 2017-10-20 2021-06-15 中移(苏州)软件技术有限公司 一种数据抓取方法及装置
CN107610006A (zh) * 2017-11-09 2018-01-19 安徽律正科技信息服务有限公司 一种知识产权服务管理系统
CN109064067B (zh) * 2018-09-17 2021-09-28 杭州安恒信息技术股份有限公司 基于互联网的金融风险运营主体判定方法及装置
CN110780970B (zh) * 2019-10-30 2024-06-14 深圳前海微众银行股份有限公司 数据筛选方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1921534A (zh) * 2005-08-23 2007-02-28 华为技术有限公司 预付费业务中实现透支的方法及装置
US7801815B2 (en) * 2005-08-31 2010-09-21 Accenture Global Services Gmbh Reverse rating system for determining duration of a usage transaction
CN102246167A (zh) * 2008-10-20 2011-11-16 谷歌公司 提供搜索结果
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8856325B2 (en) * 2012-04-17 2014-10-07 Robert Hansen Network element failure detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1921534A (zh) * 2005-08-23 2007-02-28 华为技术有限公司 预付费业务中实现透支的方法及装置
US7801815B2 (en) * 2005-08-31 2010-09-21 Accenture Global Services Gmbh Reverse rating system for determining duration of a usage transaction
CN102246167A (zh) * 2008-10-20 2011-11-16 谷歌公司 提供搜索结果
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备

Also Published As

Publication number Publication date
WO2014101650A1 (zh) 2014-07-03
US20150294005A1 (en) 2015-10-15
CN103902579A (zh) 2014-07-02

Similar Documents

Publication Publication Date Title
CN103902579B (zh) 获取信息的方法和装置
CN103778548B (zh) 商品信息与关键词匹配方法、商品信息投放方法及装置
US8200617B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
CN102831248B (zh) 网络热点挖掘方法及装置
US20220147584A1 (en) Automatically separating claim into elements/limitations and automatically finding art for each element/limitation
CN103177090B (zh) 一种基于大数据的话题检测方法及装置
CN109902216A (zh) 一种基于社交网络的数据采集与分析方法
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN101853300B (zh) 一种视频下载服务网站的识别、评估方法及系统
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
CN102930059A (zh) 一种聚焦爬虫的设计方法
CN105468744A (zh) 一种实现税务舆情分析和全文检索的大数据平台
CN106445963A (zh) App平台的广告索引关键词自动生成方法和装置
CN110532480B (zh) 一种用于人读威胁情报推荐的知识图谱构建方法及威胁情报推荐方法
CN103235827B (zh) 一种科技信息自动分类筛选的方法
CN107341399A (zh) 评估代码文件安全性的方法及装置
CN103365904A (zh) 一种广告信息搜索方法和系统
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN106339382A (zh) 一种业务对象的推送方法和装置
CN103914534B (zh) 基于专家系统url分类知识库的文本内容分类方法
CN107665220A (zh) 一种用于搜索业务的处理方法及系统
Dalvi et al. SpyDark: surface and dark web crawler
CN103729374B (zh) 一种信息搜索方法及搜索引擎
CN104572719A (zh) 信息收集方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant