CN102054008A - 网络信息获取方法和装置 - Google Patents

网络信息获取方法和装置 Download PDF

Info

Publication number
CN102054008A
CN102054008A CN2009102372385A CN200910237238A CN102054008A CN 102054008 A CN102054008 A CN 102054008A CN 2009102372385 A CN2009102372385 A CN 2009102372385A CN 200910237238 A CN200910237238 A CN 200910237238A CN 102054008 A CN102054008 A CN 102054008A
Authority
CN
China
Prior art keywords
network information
scoring
search
information
searches
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102372385A
Other languages
English (en)
Inventor
陈文斌
汪洋
徐瑞峰
罗丽俊
杜宇程
曹晓航
程鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Navinfo Co Ltd
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN2009102372385A priority Critical patent/CN102054008A/zh
Publication of CN102054008A publication Critical patent/CN102054008A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络信息获取方法和装置,其中,该方法包括:通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。通过使用本发明,能够避免人工编写新的搜索引擎,借助已有的引擎搜索到更加全面的信息,明显提升网络信息获取的效率,有效提高搜索的灵活性,最大程度上保证搜索结果的准确性。

Description

网络信息获取方法和装置
技术领域
本发明涉及通信领域,尤其涉及一种网络信息获取方法和装置。
背景技术
随着网络的不断发展和普及,互联网正在为人们的日常工作和生活提供越来越多的信息。
利用网络的搜索引擎进行搜索是从网络获取信息的一个重要途径。目前,网络上的搜索引擎会根据用户输入的关键字进行搜索,并将搜索到的与关键字匹配的条目呈献给用户。由于网路搜索引擎的功能很强,因此能够搜索到的条目非常多,但是,在这些搜索到的条目中,有很多条目仅仅是包含用户提供的关键词,但是其主要内容与用户期望搜索的内容并不匹配,并且,对于一些实时变换的信息,很可能会有已经过期的旧内容被搜索到,因此,如果用户要得到其期望的内容,就需要根据自己的判断对这些搜索条目进行逐条筛选,从而增加用户的工作量。
例如,在现阶段的导航电子地图数据生产过程中,基本上都是通过人工来进行情报数据的获取和更新,由于路况信息的更新比较快,这种人工获取数据的方式已经很难满足大规模地理信息数据生产的需求,并且难以适应信息的更新。
针对这种人工筛选搜索条目工作量很大的问题,很多设计者都提出了通过编写软件在网上搜索并过滤条目的搜索技术,但是这些技术大多需要自行编写搜索引擎以及索引库,并且需要配置复杂的过滤模板才能够进行搜索条目的过滤,如果需要更改搜索的条件就需要重新配置搜索模板,灵活性较差;并且,不论是搜索引擎的编写还是模板的配置都会产生很大的工作量,不能够有效提高搜索的效率,且配置的搜索引擎很可能不能够全面搜集数据,导致信息的遗漏。
针对相关技术中网络信息获取人工操作量大、灵活性差的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中网络信息获取人工操作量大、灵活性差的问题,本发明提出一种网络信息获取方案,能够使网络信息的获取具有更好的灵活性,并且减少人工操作。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种网络信息获取方法。
根据本发明的网络信息获取方法包括:通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。
其中,在搜索到与关键词相关的网络信息之后、进行价值评分之前,该方法可进一步包括:将统一资源定位符相同的网络信息合并,并统一搜索到的网络信息的编码;对统一编码后的网络信息进行参数提取,得到结构化的网络信息。
另外,在对搜索到的网络信息进行价值评分之前,该方法可进一步包括:根据预设的时间过滤规则对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网络信息删除。
此外,在对搜索到的网络信息进行价值评分之前,该方法可进一步包括:根据预设的标题过滤规则对搜索到的网络信息的标题进行过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除。
可选地,保存价值评分达到第一分数阈值的网络信息的处理具体可以包括:对于价值评分达到第一分数阈值的网络信息,根据该网络信息的价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并保存。
根据本发明的另一方面,提供了一种网络信息获取装置。
根据本发明的网络信息获取装置包括:搜索模块,用于通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;分析模块,用于根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分;存储模块,用于存储价值评分达到第一分数阈值的网络信息。
其中,搜索模块可以进一步包括:第一处理子模块,用于将统一资源定位符相同的网络信息合并,并统一搜索到的网络信息的编码;第二处理子模块,用于对统一编码后的网络信息进行参数提取,得到结构化的网络信息。
并且,分析模块可以进一步包括:第一分析子模块,用于根据预设的时间过滤规则对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网络信息删除;第二分析子模块,根据预设的标题过滤规则对第一分析子模块过滤后剩余的网络信息的标题进行匹配并给出过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除;第三分析子模块,用于根据模糊过滤规则第二分析子模块过滤后剩余的网络信息进行价值评分。
此外,分析模块还可用于根据价值评分达到第一分数阈值的网络信息的价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并提供给存储模块进行保存。
本发明通过元搜索引擎并结合关键词进行搜索,能够避免人工编写新的搜索引擎,能够借助已有的引擎搜索到更加全面的信息,明显提升网络信息获取的效率;并且,由于搜索基于关键词进行,所以能够有效提高搜索的灵活性,如果用户希望变更搜索条件仅需要修改关键词即可,而无需更换预先配置的整个搜索模板或索引库;此外,由于采用了模糊过滤规则并基于搜索结果的相关性进行过滤,从而能够最大程度上保证搜索结果的准确性,并且能够避免将有用的搜索结果过滤掉。
附图说明
图1是根据本发明方法实施例的网络信息获取方法的流程图;
图2是根据本发明装置实施例的网络信息获取装置的框图;
图3是根据本发明装置实施例的网络信息获取装置可应用的系统的框图;
图4是根据本发明装置实施例的网络信息获取装置进行网络信息获取的原理示意图。
具体实施方式
针对相关技术中网络信息获取人工操作量大、灵活性差的问题,本发明提出首先通过人工或程序在Web数据管理系统中产生关键词和规则,基于“元搜索”的方式(即,结合各大搜索引擎查询结果),获取数据,通过规则和机器学习算法(也可称为自适应学习)的方式,来对数据进行过滤,并计算出一个价值分数,通过常用的内容相似度计算方法来对新旧数据进行查重处理,避免出现重复数据,最终得到与搜索条件相匹配的情报数据,从而能够以简单的方式对网络上抓取的信息进行筛选,如果需要变更搜索的条件或搜索结果的匹配程度、时间等要求,仅仅改变关键词和过滤规则即可,因此,能够提高搜索的灵活性,并且能够有效减少操作人员的工作量,能够快速地实现可用网络信息的获取。
下面将结合附图详细描述本发明的实施例。
方法实施例
图1是根据本实施例的网络信息获取方法的流程图。
如图1所示,根据本实施例的网络信息获取方法包括:
步骤S102,通过执行预设的搜索任务来利用元搜索引擎(元搜索引擎是指通常所使用的谷歌(Google)、百度(Baidu)、雅虎(Yahoo)等多种搜索引擎,本发明不仅可以使用其中的一种搜索引擎,还可以同时采用多种搜索引擎)搜索与预先输入的关键词(例如,包括事件、时间、地点等条件)相关的网络信息;
步骤S104,根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。
在上述处理中,通过元搜索引擎并结合关键词进行搜索,能够避免人工编写新的搜索引擎,能够借助已有的引擎搜索到更加全面的信息,明显提升网络信息获取的效率;并且,由于是基于关键词进行搜索,能够有效提高搜索的灵活性,如果用户希望变更搜索条件仅需要修改关键词即可,而无需更换预先配置的整个搜索模板或索引库;此外,由于上述处理采用模糊过滤规则并基于搜索结果的相关性进行过滤,因此,能够最大程度上保证搜索结果的准确性,并且能够避免将有用的搜索结果过滤掉。
下面将详细描述根据本实施例的网络信息获取方法的各个步骤。
在步骤S102中,在搜索与关键词向匹配的网络信息时,可以基于较为简单的信息抓取规则,得到关键词能够匹配的网络信息,即,可以将该过程理解为网络信息的抓取处理,在实际应用中,为了减小分析时的处理量,可以仅保留预定数量的信息以供后续过滤,对于采用多个搜索引擎的搜索方式,可以对每个搜索引擎分别保留一定数量的搜索信息;并且,所采用的信息抓取规则可以包括关键词的匹配方式,该抓取规则的具体配置方式是本领域技术人员所公知的,本文不再详述。
在执行了步骤S102之后、对搜索到的网络信息进行价值评分之前,可以将统一资源定位符(Uniform Resource Locator,简称为URL)相同的网络信息合并,并统一搜索到的网络信息的编码;对统一编码后的网络信息进行参数提取,得到结构化的网络信息。
由于URL相同的网络信息的内容是相同的,所以将这些内容合并后能够有效避免之后对这些相同内容进行不必要的重复分析;并且,由于所采用的搜索引擎以及网络信息来源等因素,可能使搜索到的网络信息的编码方式不统一,将这些信息的编码方式统一为后续分析时能够识别的编码方式后,能够方便信息的分析。
在步骤S104中所采用的模糊过滤规则实际上是一种机器学习算法(也可称为自适应学习算法),借助该规则可以判断出搜索到的网络信息的具体内容是否有用,该规则中可以包括多种判断条件,例如,对关键词出现次数、频率等的要求、对关键词之间像个字符数的要求等,最终可以得到较为相关的网络信息,将相关性较低的网路信息则可以过滤掉。其中,对于每个采用模糊过滤规则分析后的网络信息,可以给出给出一个评分,例如,对极为相关的甚至完全相同的网络信息,其相关值可以近似等于100%,相应的价值评分也会非常高,例如,可以将100(满分)作为其分数;对较为相关的网络信息,可以根据其相关性得到相应的相关值,并得到相应的价值评分,例如,对于相关值为50%的网络信息,可以将50作为其分数,之后就可以根据预设的价值评分阈值对网络信息进行过滤。例如,假设该分数为70,则上述价值评分为50的网络信息将被过滤掉。
可选地,在对搜索到的网络信息进行价值评分之前,还可以根据预设的时间过滤规则对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网络信息删除。
时间过滤规则可以配置为将发布时间早于某个时间点的网络信息删除。或者将发布时间晚于某个时间点的网络信息删除,也可以时将某个时间段以内或以外的网络信息删除,从而能够使最终得到的网络信息满足用户对时间的要求,方便用户得到对时间要求很严格的网络信息,避免了用户手动查看发布时间所带来的不便。
可选地,在对搜索到的网络信息进行价值评分之前,还可以根据预设的标题过滤规则对搜索到的网络信息的标题进行过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除。
通过标题过滤处理,能够对搜索到的网络信息进行预先筛选,将标题明线不符合要求的网络信息删除,避免后续模糊过滤时对这些明显不符合要求的网络信息进行判断和分析。
并且,可以将时间过滤和标题过滤中的任一个或两个一起与模糊过滤组合使用,减小模糊过滤的处理量,能够以最快的速度得到满足要求的网络信息。
此外,由于在进行标题过滤时会得到具有过滤评分的网络信息,因此在最终保存获取的网络信息时,可以将过滤评分与价值评分一并考虑,例如,可以根据价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并保存。
综合评分的获得方法有很多,例如,可以对价值评分和过滤评分分别乘以各自对应的权值,得到加权后的综合评分,也可以通过其他方式将这两个评分进行组合或简单合并,本文不再一一列举。
在保存了所有满足要求的网络信息后,就可以将这些信息提供给用户,由用户进行后续筛选和审核。并且,机器学习算法(自适应学习算法)可以根据最终用户筛选后的结果进行学习,从而通过自适应学习不断更新模糊过滤规则,使模糊过滤的结果与人工过滤的结果更加接近,提高模糊过滤的智能化程度,进一步减少人工操作。
根据本实施例的网络信息获取方法可以用于获取元搜索引擎所能够搜索到的所有信息,并且能够在指定数据库中进行网络信息的定向抓取。例如,在设计电子地图时,需要搜索大量地理信息,用户可输入关键词:“XX道路”、“竣工”、以及日期要求,就能够从网络上获取近期有关该道路的信息,这些信息可能包括道路部门发布的信息、其他电子地图网站发出的关于该道路的信息,也可能包括网民发表的评论,从而能够采用关键词和规则以及机器学习的方法,为地图数据生产商提供道路当前的具体状态,及时更新电子地图。
此外,对于商业信息的获取,同样可以采用上述处理来实现,例如,用户可以输入关键词“产品”、“XX厂商”、以及时间等要求,就能够获取到满足时间要求的XX厂商关于产品的相关信息以及评论,有助于用户及时获取厂商的动态。
如果用户需要搜索其他方面或类型的信息,仅需要更换关键词即可。对于其他信息的获取,其方式与上述方式类似,本文不再详细描述。
通过上述处理,能够避免人工编写新的搜索引擎、配置索引库,借助已有的引擎搜索到更加全面的信息,使得信息的获取具有很好的灵活性和准确性,明显提升网络信息获取的效率。
装置实施例
在本实施例中,提供了一种网络信息获取装置。
如图2所示,根据本实施例的网络信息获取装置包括:搜索模块、分析模块、和存储模块。
搜索模块,用于通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;
分析模块,连接至搜索模块,用于根据预设的模糊过滤规则以及搜索到的网络信息的内容的相关性对网络信息进行价值评分;
存储模块,连接至分析模块,用于存储价值评分达到第一分数阈值的网络信息。
通过上述装置,能够避免人工编写新的搜索引擎、配置索引库,借助已有的引擎搜索到更加全面的信息,使得信息的获取具有很好的灵活性和准确性。
如图2所示,搜索模块可以进一步包括:
第一处理子模块,用于将统一资源定位符相同的网络信息合并,并统一搜索到的网络信息的编码;第二处理子模块,连接至第一处理子模块,用于对统一编码后的网络信息进行参数提取,得到结构化的网络信息。
分析模块可以进一步包括:
第一分析子模块,用于根据预设的时间过滤规则对搜索到的网络信息进行时间过滤,将发布时间不符合时间过滤规则的网络信息删除。
第二分析子模块,连接至第一分析子模块,根据预设的标题过滤规则对第一分析子模块过滤后剩余的网络信息的标题进行匹配并给出过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除;
第三分析子模块,连接至第二分析子模块,用于根据模糊过滤规则第二分析子模块过滤后剩余的网络信息进行价值评分。
分析模块还用于根据价值评分达到第一分数阈值的网络信息的价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并提供给存储模块进行保存。
下面将结合图3和图4,详细描述上述装置的配置方式和处理过程。其中,图2所示的装置可以设置于图3所示的系统中,并结合图4所示的流程进行网络信息的获取。
图3所示的系统主要由两部分组成,分别是:情报抓取和分析引擎、以及Web数据管理系统,这两部分既互相独立,又互相联系。图2所示的网络信息获取装置的功能可以相当于情报抓取和分析引擎与动态数据库的结合。
在Web数据管理系统中,用户可以对搜索任务的采集以及采集的日志进行管理,并且能够管理采集任务、Web数据管理系统中保存的信息、以及用户的注册情况。
作业人员通过Web数据管理系统制定抓取任务指令,该指令包括:搜索关键词和规则等内容,具体地,可以定期自动发送任务指令的方式,将任务指令发送到情报抓取和分析引擎,接收到任务指令后,图2所示的网络信息获取装置即可调用执行该任务,从通过元搜索引擎从网络上抓取数据并进行分析;之后,系统就可以抽取分析后的数据,插入保存到数据库中,以便“Web数据管理系统”能将这些数据展示给作业人员,供以后进行人工审核。
图2所示的装置在图3所示的系统中的工作过程如下:
系统首先通过Web数据管理系统,来进行任务的添加、编辑和发送执行,任务的添加可以由程序自动产生,人工修改、审核相结合。
Web数据管理系统对编辑好的任务指令,进行定期自动发送到情报抓取和分析引擎。
情报抓取和分析引擎接收来自Web数据管理系统的任务,调用“情报抓取和分析引擎”执行该任务指令。
情报抓取和分析引擎分为情报抓取子模块(对应于图2中所示的搜索模块)和情报分析子模块(对应于图2中所示的分析模块)。情报抓取子模块主要负责数据的抓取和抽取,情报分析子模块负责情报数据的分析。
情报抓取的过程可分为“关键词抓取”和“定向抓取”,下面将以关键词抓取为例进行描述,具体过程如下:
首先通过设定一系列关键词(包括:事件、时间、地点等)和任务包含的相应抽取规则,到各大元搜索引擎(例如,Google、Baidu等)进行查询,将所有查询结果各取一定条数,提取搜索列表,并综合作简单的初步过滤和分析,提取搜索到的信息的正文,将标题、正文和发生时间、地点、事件进行抽取,结果整合、优化,得到最优的查询结果列表,即,得到结构化的数据,以供后续分析和过滤。
情报分析模块可以对情报抓取模块抽取到的结构化情报数据,进行分析。看是否是有用的信息,并根据一定的算法,计算情报价值分数,最后将所有该关键词和规则抽取出来的情报,插入保存到动态数据库,以供Web数据管理系统进行后续处理。
情报分析模块执行的具体分析步骤如下:
情报分析模块首先对情报抓取模块传入的情报数据进行时间过滤,对于满足设置时间内的信息进行提取(可以由第一分析子模块执行);
之后,对标题进行规则过滤,在基于关键词进行抓取前,可以预先设置好相应标题过滤规则,通过该规则,即可进行过滤。而该规则可以是程序自动推到和学习,也可以是人工制定。“规则过滤”中,由事先定义的规则,对标题进行规则判断以后,根据阀值(即,上述的第二分数阈值),对情报信息进行筛选,并对未过滤掉的信息得到相应的规则过滤分数值(即,对应于上述的过滤评分)(该处理可以由第二分析子模块执行)。
结合机器学习算法(自适应学习算法),由事先生成的机器学习模型文件进行智能分析,自动判断情报内容的相关性,如果经过“模糊过滤”后的机器学习价值分数较高,则表示相关性很高;如果价值分数较低且低于某一个阀值(即,上述的第一分数阈值),该内容将被过滤掉(该处理可以由第三分析子模块执行)。
之后,可以结合“规则过滤”和“模糊过滤”的价值分数,对整个情报信息进行综合评分,例如,可以通过加权算法。
最后,可以将剩余的每条信息及其相关属性(包括综合评分)插入保存到动态数据库,以供人工进行重复过滤,将最后得到的重复过滤结果存储至结果库中,根据结果库中存储的过滤结果以及动态数据库中存储的过滤结果,机器学习算法(自适应学习算法)可以进行学习,更新模糊过滤规则(例如,可以更新模型文件),从而使模糊过滤规则更加接近人工判断的结果,提高模糊过滤的智能化程度。
与之前所描述的方法实施例类似,时间过滤和/或标题过滤可以与模糊过滤组合使用,也可以仅采用模糊过滤,具体是否选择时间过滤和标题过滤可以根据实际情况而定,本文不再详述。
在过滤和分析完成之后,Web数据管理系统可以从数据库中读取数据,以表格列表的形式展现给作业人员,作业人员进行审核及后续工作处理,将人工筛选后的网络信息存储至结果库中,以供第三分析子模块学习,提高模糊过滤的智能化;或者通过系统对接的方式,将数据发送到其他系统,以供进一步处理。
通过上述装置,能够借助元搜索引擎从互联网实时抽取有用网络信息(例如,实时抽取到地理信息变化数据),从而达到快速更新数据,有效提高数据质量和增加数据总量的目的,并且,整个系统自动化作业流程,能够尽量避免人工的干预。
综上所述,借助于本发明的上述技术方案,通过元搜索引擎并结合关键词进行搜索,能够避免人工编写新的搜索引擎,能够借助已有的引擎搜索到更加全面的信息,明显提升网络信息获取的效率;并且,由于是基于关键词进行搜索,能够有效提高搜索的灵活性,如果用户希望变更搜索条件仅需要修改关键词即可,而无需更换预先配置的整个搜索模板或索引库;此外,由于上述处理采用模糊过滤规则并基于搜索结果的相关性进行过滤,因此,能够最大程度上保证搜索结果的准确性,并且能够避免将有用的搜索结果过滤掉。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络信息获取方法,其特征在于,所述方法包括:
通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;
根据预设的模糊过滤规则以及搜索到的所述网络信息的内容的相关性对所述网络信息进行价值评分,并保存价值评分达到第一分数阈值的网络信息。
2.根据权利要求1所述的方法,其特征在于,在搜索到与所述关键词相关的网络信息之后、进行价值评分之前,所述方法进一步包括:
将统一资源定位符相同的网络信息合并,并统一搜索到的所述网络信息的编码;
对统一编码后的所述网络信息进行参数提取,得到结构化的网络信息,其中,之后进行价值评分的所述网络信息是指所述结构化的网络信息。
3.根据权利要求1所述的方法,其特征在于,在对搜索到的所述网络信息进行价值评分之前,所述方法进一步包括:
根据预设的时间过滤规则对搜索到的所述网络信息进行时间过滤,将发布时间不符合所述时间过滤规则的网络信息删除,将剩余的网络信息作为后续进行价值评分的网络信息。
4.根据权利要求1所述的方法,其特征在于,在对搜索到的所述网络信息进行价值评分之前,所述方法进一步包括:
根据预设的标题过滤规则对搜索到的所述网络信息的标题进行过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除,将剩余的网络信息作为后续进行价值评分的网络信息。
5.根据权利要求4所述的方法,其特征在于,保存价值评分达到所述第一分数阈值的网络信息的处理具体包括:
对于价值评分达到所述第一分数阈值的网络信息,根据该网络信息的价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并保存。
6.根据权利要求1所述的方法,其特征在于,在保存价值评分达到所述第一分数阈值的网络信息之后,所述方法进一步包括:
将所述价值评分达到所述第一分数阈值的网络信息呈献给用户,并在用户对呈现的网络信息进行筛选后得到剩余的网络信息;
根据剩余的所述网络信息与呈现的所述网络信息进行自适应学习,并对所述模糊过滤规则进行更新。
7.一种网络信息获取装置,其特征在于,所述装置包括:
搜索模块,用于通过执行预设的搜索任务来利用元搜索引擎搜索与预先输入的关键词相关的网络信息;
分析模块,用于根据预设的模糊过滤规则以及搜索到的所述网络信息的内容的相关性对所述网络信息进行价值评分;
存储模块,用于存储价值评分达到第一分数阈值的网络信息。
8.根据权利要求7所述的装置,其特征在于,所述搜索模块进一步包括:
第一处理子模块,用于将统一资源定位符相同的网络信息合并,并统一搜索到的所述网络信息的编码;
第二处理子模块,用于对统一编码后的所述网络信息进行参数提取,得到结构化的网络信息,以供后续进行价值评分。
9.根据权利要求7所述的装置,其特征在于,所述分析模块进一步包括:
第一分析子模块,用于根据预设的时间过滤规则对搜索到的所述网络信息进行时间过滤,将发布时间不符合所述时间过滤规则的网络信息删除;
第二分析子模块,根据预设的标题过滤规则对所述第一分析子模块过滤后剩余的网络信息的标题进行匹配并给出过滤评分,并将过滤评分未达到第二分数阈值的标题所对应的网络信息删除;
第三分析子模块,用于根据所述模糊过滤规则所述第二分析子模块过滤后剩余的网络信息进行价值评分。
10.根据权利要求9所述的装置,其特征在于,所述分析模块还用于根据价值评分达到所述第一分数阈值的网络信息的价值评分和过滤评分得到综合评分,并将得到的综合评分与相应的网络信息一并提供给所述存储模块进行保存。
CN2009102372385A 2009-11-05 2009-11-05 网络信息获取方法和装置 Pending CN102054008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102372385A CN102054008A (zh) 2009-11-05 2009-11-05 网络信息获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102372385A CN102054008A (zh) 2009-11-05 2009-11-05 网络信息获取方法和装置

Publications (1)

Publication Number Publication Date
CN102054008A true CN102054008A (zh) 2011-05-11

Family

ID=43958342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102372385A Pending CN102054008A (zh) 2009-11-05 2009-11-05 网络信息获取方法和装置

Country Status (1)

Country Link
CN (1) CN102054008A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103608832A (zh) * 2011-06-22 2014-02-26 乐天株式会社 信息处理装置、信息处理方法、信息处理程序以及记录有信息处理程序的记录介质
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
CN104657515A (zh) * 2015-03-24 2015-05-27 深圳中兴网信科技有限公司 数据实时分析方法及系统
CN109376278A (zh) * 2018-08-27 2019-02-22 中国电子科技集团公司电子科学研究院 人车全息档案研判搜索系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103608832A (zh) * 2011-06-22 2014-02-26 乐天株式会社 信息处理装置、信息处理方法、信息处理程序以及记录有信息处理程序的记录介质
CN103608832B (zh) * 2011-06-22 2018-03-20 乐天株式会社 信息处理装置、信息处理方法、信息处理程序以及记录有信息处理程序的记录介质
CN103678365A (zh) * 2012-09-13 2014-03-26 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
CN103678365B (zh) * 2012-09-13 2017-07-18 阿里巴巴集团控股有限公司 数据的动态获取方法、装置及系统
CN104657515A (zh) * 2015-03-24 2015-05-27 深圳中兴网信科技有限公司 数据实时分析方法及系统
CN109376278A (zh) * 2018-08-27 2019-02-22 中国电子科技集团公司电子科学研究院 人车全息档案研判搜索系统
CN109376278B (zh) * 2018-08-27 2024-04-16 中国电子科技集团公司电子科学研究院 人车全息档案研判搜索系统

Similar Documents

Publication Publication Date Title
CN100419755C (zh) 用于文件数据分析的方法及系统
CN101706807B (zh) 一种中文网页新词自动获取方法
CN103942210A (zh) 海量日志信息的处理方法、装置与系统
CN104090889A (zh) 数据处理方法及系统
CN102141990A (zh) 一种搜索方法和装置
WO2003098479A3 (en) Managing search expressions in a database system
CN103164449A (zh) 一种搜索结果的展现方法与装置
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN103714149A (zh) 一种自适应增量式的深层网络数据源发现方法
CN102710795A (zh) 热点聚合方法及装置
CN109376121A (zh) 一种基于ElasticSearch全文检索的文件索引系统及方法
CN106484815B (zh) 一种基于海量数据类sql检索场景的自动识别优化方法
CN102054008A (zh) 网络信息获取方法和装置
CN116361487A (zh) 一种多源异构政策知识图谱构建和存储方法及系统
CN103714120A (zh) 一种从用户url访问记录中提取用户兴趣话题的系统
CN101216836A (zh) 一种网页锚文本去噪系统及方法
CN102214214B (zh) 数据关系的处理方法、装置及移动通讯终端
KR20180077830A (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
CN103324640B (zh) 一种确定搜索结果文档的方法、装置和设备
CN105630983A (zh) 一种资源获取优化装置和方法
CN115858865A (zh) 一种面向mbse的需求模型快速查询及可视化方法
CN112559850B (zh) 关键词挖掘系统及挖掘方法
CN109948015A (zh) 一种元搜索列表结果抽取方法及系统
CN102890715A (zh) 一种特定领域信息自动化组织的装置及其方法
CN108197136A (zh) 一种竞争情报收集系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20110511