CN104715016A - 一种搜悦采集方法 - Google Patents

一种搜悦采集方法 Download PDF

Info

Publication number
CN104715016A
CN104715016A CN201510056887.0A CN201510056887A CN104715016A CN 104715016 A CN104715016 A CN 104715016A CN 201510056887 A CN201510056887 A CN 201510056887A CN 104715016 A CN104715016 A CN 104715016A
Authority
CN
China
Prior art keywords
data
picture
happy
search
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510056887.0A
Other languages
English (en)
Other versions
CN104715016B (zh
Inventor
赵金杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wyatt Network Technology Co ltd
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201510056887.0A priority Critical patent/CN104715016B/zh
Publication of CN104715016A publication Critical patent/CN104715016A/zh
Application granted granted Critical
Publication of CN104715016B publication Critical patent/CN104715016B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种搜悦采集方法,所述方法包括以下步骤:监听数据,并对数据进行处理,得到URL数据;对增量待处理数据进行下载、转码和抽取,将完整的数据按照需求提供使用。本发明提供一种搜悦采集方法,能够高效、准确采集数据,数据来源准确,处理快速、结果更精准,避免了普通的采集资讯中大量噪音数据影响的不足。

Description

一种搜悦采集方法
技术领域
本发明涉及一种采集方法,具体涉及一种搜悦采集方法。
背景技术
随着信息技技术与网络的发展,互联网已经成为人们生活密不可分的一部分。基于Internet的网络系统拥有者巨大的信息资源。但是这些资源大都形式分散,分布广,给用户查看信息带来了很大的难度。
搜索引擎则根据用户的需求,各种各样是搜索应用,使得用户可以快捷的查看的自己想要的数据。互联网中的资源信息,就像列表以不同的格式分散在成千上万的网页中,很好的采集这些数据以备使用就尤为重要。信息采集是一个重要的领域,它是以系统代替人工实现对网页的数据的采集、整理等处理,提高工作效率,节省劳动力。
但目前人们希望在手机端也可以随时查看相关信息,手机端APP随之产生。搜悦则在这样的背景下产生的,作为移动个人门户的入口,可以让用户感受到更好的新闻阅读体验。搜悦采集系统架构完成信息的采集、整理等工作,存储到搜悦检索库中,以备搜悦使用。搜悦采集系统的关键在于信息采集,缺点是网络中资讯信息噪音多,来源广泛且杂。
发明内容
为了克服上述现有技术的不足,本发明提供一种搜悦采集方法,能够高效、准确采集数据,数据来源准确,处理快速、结果更精准,避免了普通的采集资讯中大量噪音数据影响的不足。
为了实现上述发明目的,本发明采取如下技术方案:
本发明提供一种搜悦采集方法,所述方法包括以下步骤:
步骤1:监听数据,并对数据进行处理,得到待处理URL数据;
步骤2:对待处理URL数据进行下载、转码和抽取。
所述步骤1中,监听的数据来源包括以下三种:
(1)统一资源定位器发送的Missing数据;
(2)资讯排重系统发送的ADD数据;
(3)重新处理已入库的数据,而发起的Refresh数据。
所述步骤1具体包括以下步骤:
步骤1-1:监听数据,校验后保存数据到数据文件;
步骤1-2:处理监听得到的数据文件。
所述步骤1-1中,监听端口接收数据后解析并校验得到URL数据,并将得到的URL数据根据各自的来源写入相应的数据文件,Missing数据、ADD数据和Refresh数据的处理优先级从左往右依次递减。
所述步骤1-2中,按照以上数据文件的处理优先级依次取得URL数据,将URL数据由黑名单过滤,且排重后得到URL数据增量,推入待下载任务队列;推入待下任务队列时依然按照Missing数据、ADD数据至Refresh数据的处理优先级,在待下载任务队列中排序,优先级高的数据放在队列头,以确保后续处理的优先级。
所述步骤2包括以下步骤:
步骤2-1:将待下载任务队列的URL数据推送到下载器,由下载器下载URL数据;
步骤2-2:从下载器得到下载结果,并校验处理,区分下载结果为图片或详情页;
步骤2-3:对图片的下载结果和详情页的下载结果分别进行处理,得到URL数据信息;
步骤2-4:分析URL数据信息。
所述步骤2-2中,针对图片的下载结果,首先分析图片信息,并处理图片尺寸,根据实践经验得到最小经验值,小于最小经验值尺寸的图片视为垃圾图片,则丢弃,根据需求,小于需求尺寸则无须压缩处理,而大于需求尺寸的图片则压缩到需求的尺寸;然后将符合要求的图片信息上传图片服务器,得到图片ID及图片地址,并将下载结果中原文的图片链接替换成处理后的图片地址。
所述步骤2-3中,针对详情页的下载结果,分析下载结果,并对下载结果进行转码,成功转码后,对其进行自动抽取,在下载结果中抽取出所需要的信息。任何一步失败则丢弃当前详情页,均直接执行步骤2-4。
所述步骤2-3中,在对图片的下载结果和详情页的下载结果分别进行处理的过程中,任何一步失败则丢弃当前图片或当前详情页,均直接执行步骤2-4。
所述步骤2-4中,首先查看URL数据信息是否有待处理的图片链接;然后查看URL数据信息是否有待处理的翻页链接;
如有待处理的图片链接或者翻页链接,则将URL数据信息推入待下载队列继续处理,重复以上各步骤;如无任何待处理的图片链接或者翻页链接,且URL数据信息完整,则写入发送文件,当前URL数据信息采集完成。
与现有技术相比,本发明的有益效果在于:
本发明中数据来源主要依赖资讯排重系统,资讯排重系统的数据经过前面的处理,信息更准确,质量更好,避免内容重复;从而采集过程中不需要担心劣质数据的混淆,减少噪音数据干扰。客户端的Missing数据的优先处理,即快速而又准确的补充了用户关心的部分漏缺数据。同时,该方法简单,速度快。
附图说明
图1是本发明实施例中搜悦采集方法流程图;
图2是本发明实施例中数据监听流程图;
图3是本发明实施例中数据采集流程图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
如图1,本发明提供一种搜悦采集方法,所述方法包括以下步骤:
步骤1:监听数据,并对数据进行处理,得到待处理URL数据;
步骤2:对待处理URL数据进行下载、转码和抽取。
所述步骤1中,监听的数据来源包括以下三种:
(1)统一资源定位器发送的Missing数据;
(2)资讯排重系统发送的ADD数据;
(3)重新处理已入库的数据,而发起的Refresh数据。
如图2,所述步骤1具体包括以下步骤:
步骤1-1:监听数据,校验后保存数据到数据文件;
步骤1-2:处理监听得到的数据文件。
所述步骤1-1中,监听端口接收数据后解析并校验得到URL数据,并将得到的URL数据根据各自的来源写入相应的数据文件,Missing数据、ADD数据和Refresh数据的处理优先级从左往右依次递减。
所述步骤1-2中,按照以上数据文件的处理优先级依次取得URL数据,将URL数据由黑名单过滤,且排重后得到URL数据增量,推入待下载任务队列;推入待下任务队列时依然按照Missing数据、ADD数据至Refresh数据的处理优先级,在待下载任务队列中排序,优先级高的数据放在队列头,以确保后续处理的优先级。
如图3,所述步骤2包括以下步骤:
步骤2-1:将待下载任务队列的URL数据推送到下载器,由下载器下载URL数据;
步骤2-2:从下载器得到下载结果,并校验处理,区分下载结果为图片或详情页;
步骤2-3:对图片的下载结果和详情页的下载结果分别进行处理,得到URL数据信息;
步骤2-4:分析URL数据信息。
所述步骤2-2中,针对图片的下载结果,首先分析图片信息,并处理图片尺寸,根据实践经验得到最小经验值,小于最小经验值尺寸的图片视为垃圾图片,则丢弃,根据需求,小于需求尺寸则无须压缩处理,而大于需求尺寸的图片则压缩到需求的尺寸;然后将符合要求的图片信息上传图片服务器,得到图片ID及图片地址,并将下载结果中原文的图片链接替换成处理后的图片地址。
所述步骤2-3中,针对详情页的下载结果,分析下载结果,并对下载结果进行转码,成功转码后,对其进行自动抽取,在下载结果中抽取出所需要的信息。任何一步失败则丢弃当前详情页,均直接执行步骤2-4。
所述步骤2-3中,在对图片的下载结果和详情页的下载结果分别进行处理的过程中,任何一步失败则丢弃当前图片或当前详情页,均直接执行步骤2-4。
所述步骤2-4中,首先查看URL数据信息是否有待处理的图片链接;然后查看URL数据信息是否有待处理的翻页链接;
如有待处理的图片链接或者翻页链接,则将URL数据信息推入待下载队列继续处理,重复以上各步骤;如无任何待处理的图片链接或者翻页链接,且URL数据信息完整,则写入发送文件,当前URL数据信息采集完成。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,所属领域的普通技术人员参照上述实施例依然可以对本发明的具体实施方式进行修改或者等同替换,这些未脱离本发明精神和范围的任何修改或者等同替换,均在申请待批的本发明的权利要求保护范围之内。

Claims (10)

1.一种搜悦采集方法,其特征在于:所述方法包括以下步骤:
步骤1:监听数据,并对数据进行处理,得到待处理URL数据;
步骤2:对待处理URL数据进行下载、转码和抽取。
2.根据权利要求1所述的搜悦采集方法,其特征在于:所述步骤1中,监听的数据来源包括以下三种:
(1)统一资源定位器发送的Missing数据;
(2)资讯排重系统发送的ADD数据;
(3)重新处理已入库的数据,而发起的Refresh数据。
3.根据权利要求1所述的搜悦采集方法,其特征在于:所述步骤1具体包括以下步骤:
步骤1-1:监听数据,校验后保存数据到数据文件;
步骤1-2:处理监听得到的数据文件。
4.根据权利要求3所述的搜悦采集方法,其特征在于:所述步骤1-1中,监听端口接收数据后解析并校验得到URL数据,并将得到的URL数据根据各自的来源写入相应的数据文件,Missing数据、ADD数据和Refresh数据的处理优先级从左往右依次递减。
5.根据权利要求3所述的搜悦采集方法,其特征在于:所述步骤1-2中,按照以上数据文件的处理优先级依次取得URL数据,将URL数据由黑名单过滤,且排重后得到URL数据增量,推入待下载任务队列;推入待下任务队列时依然按照Missing数据、ADD数据至Refresh数据的处理优先级,在待下载任务队列中排序,优先级高的数据放在队列头,以确保后续处理的优先级。
6.根据权利要求1所述的搜悦采集方法,其特征在于:所述步骤2包括以下步骤:
步骤2-1:将待下载任务队列的URL数据推送到下载器,由下载器下载URL数据;
步骤2-2:从下载器得到下载结果,并校验处理,区分下载结果为图片或详情页;
步骤2-3:对图片的下载结果和详情页的下载结果分别进行处理,得到URL数据信息;
步骤2-4:分析URL数据信息。
7.根据权利要求6所述的搜悦采集方法,其特征在于:所述步骤2-2中,针对图片的下载结果,首先分析图片信息,并处理图片尺寸,根据实践经验得到最小经验值,小于最小经验值尺寸的图片视为垃圾图片,则丢弃,根据需求,小于需求尺寸则无须压缩处理,而大于需求尺寸的图片则压缩到需求的尺寸;然后将符合要求的图片信息上传图片服务器,得到图片ID及图片地址,并将下载结果中原文的图片链接替换成处理后的图片地址。
8.根据权利要求6所述的搜悦采集方法,其特征在于:所述步骤2-3中,针对详情页的下载结果,分析下载结果,并对下载结果进行转码,成功转码后,对其进行自动抽取,在下载结果中抽取出所需要的信息。任何一步失败则丢弃当前详情页,均直接执行步骤2-4。
9.根据权利要求6所述的搜悦采集方法,其特征在于:所述步骤2-3中,在对图片的下载结果和详情页的下载结果分别进行处理的过程中,任何一步失败则丢弃当前图片或当前详情页,均直接执行步骤2-4。
10.根据权利要求1所述的搜悦采集方法,其特征在于:所述步骤2-4中,首先查看URL数据信息是否有待处理的图片链接;然后查看URL数据信息是否有待处理的翻页链接;
如有待处理的图片链接或者翻页链接,则将URL数据信息推入待下载队列继续处理,重复以上各步骤;如无任何待处理的图片链接或者翻页链接,且URL数据信息完整,则写入发送文件,当前URL数据信息采集完成。
CN201510056887.0A 2015-02-04 2015-02-04 一种搜悦采集方法 Expired - Fee Related CN104715016B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510056887.0A CN104715016B (zh) 2015-02-04 2015-02-04 一种搜悦采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510056887.0A CN104715016B (zh) 2015-02-04 2015-02-04 一种搜悦采集方法

Publications (2)

Publication Number Publication Date
CN104715016A true CN104715016A (zh) 2015-06-17
CN104715016B CN104715016B (zh) 2018-02-16

Family

ID=53414343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510056887.0A Expired - Fee Related CN104715016B (zh) 2015-02-04 2015-02-04 一种搜悦采集方法

Country Status (1)

Country Link
CN (1) CN104715016B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235729A (ja) * 2005-02-22 2006-09-07 Mitsubishi Electric Corp 選択的Web情報収集装置
CN102117275A (zh) * 2009-12-31 2011-07-06 北大方正集团有限公司 一种基于互联网定向站点网页数据采集的方法及装置
CN102118400A (zh) * 2009-12-31 2011-07-06 北京四维图新科技股份有限公司 数据采集方法和数据采集系统
CN103823841A (zh) * 2013-12-31 2014-05-28 浙江宇天科技股份有限公司 提高移动终端客户端浏览速度的方法及其装置
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235729A (ja) * 2005-02-22 2006-09-07 Mitsubishi Electric Corp 選択的Web情報収集装置
CN102117275A (zh) * 2009-12-31 2011-07-06 北大方正集团有限公司 一种基于互联网定向站点网页数据采集的方法及装置
CN102118400A (zh) * 2009-12-31 2011-07-06 北京四维图新科技股份有限公司 数据采集方法和数据采集系统
CN103823841A (zh) * 2013-12-31 2014-05-28 浙江宇天科技股份有限公司 提高移动终端客户端浏览速度的方法及其装置
CN103927370A (zh) * 2014-04-23 2014-07-16 焦点科技股份有限公司 一种组合文字和图片信息的网络资讯批量采集方法

Also Published As

Publication number Publication date
CN104715016B (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
Kollanyi et al. Bots and automation over Twitter during the first US presidential debate
Nguyen et al. Automatic image filtering on social networks using deep learning and perceptual hashing during crises
CN110362544B (zh) 日志处理系统、日志处理方法、终端及存储介质
CN106982150B (zh) 一种基于Hadoop的移动互联网用户行为分析方法
CN104333531B (zh) 网络资源的分享及获取方法、装置、终端
US11816172B2 (en) Data processing method, server, and computer storage medium
Smura et al. A framework for analysing the usage of mobile services
CN109669795B (zh) 崩溃信息处理方法及装置
CN108667770B (zh) 一种网站的漏洞测试方法、服务器及系统
CN111740923A (zh) 应用识别规则的生成方法、装置、电子设备和存储介质
CN102938789B (zh) 一种移动互联网手机应用下载组合分析方法和装置
CN105577528B (zh) 一种基于虚拟机的微信公众号数据采集方法及装置
CN105515836A (zh) 日志处理方法、装置及服务器
CN102789470A (zh) 加载网页中的图片的方法和装置
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
CN103209087A (zh) 分布式日志统计处理方法和系统
CN103440243A (zh) 一种教学资源推荐方法及其装置
CN113038153B (zh) 金融直播违规检测方法、装置、设备及可读存储介质
US20170337208A1 (en) Collecting test results in different formats for storage
CN105630662A (zh) 内存检测方法和装置
CN112733057A (zh) 网络内容安全检测方法、电子装置和存储介质
CN102333114A (zh) 一种基于云服务的数据处理方案
Riadi et al. Examination of digital evidence on android-based line messenger
CN107862016B (zh) 一种专题页面的配置方法
Riadi et al. Comparative analysis of forensic software on android-based michat using acpo and dfrws framework

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160412

Address after: 100086, No. 2, building 43, No. 5 West Third Ring Road, Haidian District, Beijing, 01-03A

Applicant after: Beijing Wyatt Network Technology Co.,Ltd.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: BEIJING ZHONGSOU NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180216

Termination date: 20220204