CN101420356A - 一种网络内容分类处理方法和装置 - Google Patents

一种网络内容分类处理方法和装置 Download PDF

Info

Publication number
CN101420356A
CN101420356A CNA2008100974821A CN200810097482A CN101420356A CN 101420356 A CN101420356 A CN 101420356A CN A2008100974821 A CNA2008100974821 A CN A2008100974821A CN 200810097482 A CN200810097482 A CN 200810097482A CN 101420356 A CN101420356 A CN 101420356A
Authority
CN
China
Prior art keywords
content
classified
internet resources
network
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100974821A
Other languages
English (en)
Inventor
马腾
纪向利
潘智鹏
李剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING TIANTENGSHIKONG INFORMATION TECHNOLOGY Co Ltd
Original Assignee
BEIJING TIANTENGSHIKONG INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING TIANTENGSHIKONG INFORMATION TECHNOLOGY Co Ltd filed Critical BEIJING TIANTENGSHIKONG INFORMATION TECHNOLOGY Co Ltd
Priority to CNA2008100974821A priority Critical patent/CN101420356A/zh
Publication of CN101420356A publication Critical patent/CN101420356A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种网络内容分类处理方法和装置,所述方法包括以下步骤:获取网络资源;提取所述网络资源中的内容,并对所述内容进行分类;将所述分类后的网络资源中的内容进行输出。通过应用本发明,可以实现对不同的网络内容进行提取、解析、并按照所定义的分类重新整合,从而进行分类传输,便于其他系统对数据作进一步的处理。

Description

一种网络内容分类处理方法和装置
技术领域
本发明涉及通信技术领域,特别是涉及一种网络内容分类处理方法和装置。
背景技术
RSS(聚合内容,Really Simple Syndication)最早是由NetScape定义的一套新闻频道标准,从RSS的历史发展来看,RSS是一种信息沟通标准,RSS借助XML技术形式,完成互联网站点间信息的自动传送。
RSS作为站点间的信息沟通标准,有两个特点,一是网站间自动完成,不需要人工介入;二是传送的内容是一个分类的索引信息。从自动完成这一点看,将对互联网信息传送的速度和广度产生影响;从RSS的内容是分类的索引信息这一点看,具有语义的含义,互联网信息的定义将从纯粹的文本符号上升到有语义联系的层面。
由此可见,看起来十分简单的RSS技术实际上承载着格式化互联网信息,并赋予互联网语义的重任。不过,RSS只是一个索引信息,并没有完整的解决信息沟通的问题。
RSS是在线共享内容的一种简易方式。通常在时效性比较强的内容上使用RSS订阅能更快速获取信息,RSS传送的内容是一个分类的索引信息,如图1所示,广泛用于网上新闻频道,blog和wiki。
一方面,RSS可以实现对目标内容摘要性的内容输出,输出的是不完整的内容,例如图1中不完整的摘要内容,且未提供对诸如文本、图片、音频、视频、下载附件、评论等细分输出。
另一方面,RSS可以对内容按数据的文件类型属性作分类输出,如:文字、图片、3gp视频、mpeg视频、mp3音频、wma音频。但不能根据内容类型属性进行输出,如,3gp视频、mpeg视频均可以作为广告的内容文件进行发布,但RSS并不能将上述两种文件统一按照“广告”的类型属性进行输出,为具体应用中的分类传输功能实现设置了局限。
因此,需要一种可以按照内容类型属性而不是文件类型属性作分类输出的方法,以便于网络或中断惊醒相应的处理,改善用户的应用体验。
发明内容
本发明实施例要解决的问题是提供一种网络内容分类处理方法,用于实现对不同的网络内容进行提取、解析、并按照所定义的分类重新整合,从而进行分类传输的效果。
为达到上述目的,本发明实施例一方面提出一种网络内容分类处理方法,包括以下步骤:
获取网络资源;
提取所述网络资源中的内容,并对所述内容进行分类;
将所述分类后的网络资源中的内容进行输出。
另一方面,本发明实施例还提出一种网络内容分类处理装置,包括:
获取模块,用于获取网络资源;
分类模块,用于提取所述获取模块获取的网络资源中的内容,并对所述内容进行分类;
输出模块,用于将所述分类模块分类后的网络资源中的内容进行输出。
本发明实施例的技术方案具有以下优点,因为采用了对不同的网络内容进行提取、解析、并按照所定义的分类重新整合,并对整合结果进行分类传输的技术,从而,实现了对网络内容分类和重新整合,并对相应的内容进行分类传输,便于其他系统对数据作进一步的处理。
附图说明
图1为现有技术中RSS技术的传输效果示意图;
图2为本发明实施例一中一种网络内容分类处理方法的流程示意图;
图3为本发明实施例一中网络资源结构示意图;
图4为本发明实施例一中网络内容分类示意图;
图5为本发明实施例二中一种提供分类数据传输的网络示意图;
图6为本发明实施例三中一种由服务器进行网络内容分类的示意图;
图7为本发明实施例四中一种有终端进行网络内容分类的示意图;
图8为本发明实施例五中一种网络内容分类处理装置的结构示意图。
具体实施方式
本发明实施例现有RSS技术只能实现对目标内容按照文件类型属性输出,而不能按照内容属性进行输出,使目标内容的分类处理存在局限,本发明针对这种情况,实现了将文本、图片、音频、视频、下载附件、评论等任意内容逐一进行提取、解析、以实现将内容按照所定义的分类,并可以进一步对所分类的内容重新进行整合。
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
如图2所示,为本发明实施例一,一种网络内容分类处理方法的流程示意图,包括以下步骤:
步骤S201、获取网络资源。
本步骤所提及的获取网络资源的方法,可以是网络服务器直接获得上传的网络资源,或中转服务器有网络获得网络资源,或终端通过服务器获得网络资源,以上三种情况将通过后续的本发明实施例二、三、四进行详细描述,本实施例不再另行详述。
需要进一步指出的是,上述情况的差别并不影响本发明的保护范围。
步骤S202、提取网络资源中的内容。
网络资源中含有大量的内容,且内容种类繁多,通过提取,将网络资源中众多的内容逐一分离,以便为后续步骤的实现提供内容基础。具体的,将文本、图片、音频、视频、下载附件、评论等多种内容分别进行提取。
如图3所示,该网络资源中的内容包括图片,文字,多个由超链接组成的精彩专题,由图片或其他多媒体文件组成的广告,多个视频文件组成的精彩视频。
步骤S203、解析内容中的标识。
对步骤S202中提取的内容进行解析,识别各内容中的标识。
标识具体指内容中包含的标记语言相关标签、内容关键词、类型信息、文件大小和识别码中的一种或几种。
如,在图3中,根据结合类型信息、文件大小和内容关键词等可以识别广告。
步骤S204、根据标识,对内容进行分类。
根据预设的内容分类标准进行内容的分类。
如图4所示,可以将相应的内容划分为文字、图片、精彩专题、视频等多个种类。
内容分类的标准可以是与用户或服务商预设的,根据具体应用情况的变化,分类的标准可以相应的做出调整。
步骤S205、判断输出模式。
如果判断输出模式的结果是分类输出,则转入步骤S206;
如果判断输出模式的结果是整体输出,则转入步骤S207。
步骤S206、对分类后的内容按照类别分别输出。
根据分类结果,将每个种类的内容分别进行传输。
步骤S207、将分类后的内容进行处理后,一并输出,由内容的接收方做分类处理。
根据分类结果,对每个种类的内容进行相应的处理,为每个种类的内容添加相应的内容种类标识。标识添加完成后,将所有种类的内容一起向内容接收方进行发送,接收方将上述各分类的内容整体接收后,根据各分类内容的种类标识区分该内容的种类,并进行相应的处理和操作。
下面结合本发明实施例一的技术方案,进一步的根据具体实施主体的差别提出以下三个实施例。
如图5所示,为本发明实施例二,一种提供分类数据传输的网络示意图,包括以下步骤:
步骤S501、网络侧内部对网络资源进行分类。
网络根据分类标准将网络资源进行分类。
步骤S502、将分类后的网络内容发送给终端。
需要指出的是,本步骤可以是将分类后的内容分别发送给终端,也可以是将分类后的内容处理,如添加内容分类标识后,将所有添加内容分类标识的内容一起发送给终端,再由终端进行相应的操作。这样的差别并不影响本发明的保护范围。
如图6所示,为本发明实施例三,一种由服务器进行网络内容分类的示意图,包括以下步骤:
步骤S601、服务器从互联网信息源直接获得网络资源。
步骤S602、服务器根据分类标准对网络资源进行提取和分类。
服务器从网络资源中提取内容,并根据内容中的标识对该内容进行分类,分类的标准预先设定。
步骤S603、服务器将分类后的内容分类发送给终端。
需要指出的是,本步骤可以是将分类后的内容分别发送给终端,也可以是将分类后的内容处理,如添加内容分类标识后,将所有添加内容分类标识的内容一起发送给终端,再由终端进行相应的操作。这样的差别并不影响本发明的保护范围。
如图7所示,为本发明实施例四,一种由终端进行网络内容分类的示意图,包括以下步骤:
步骤S701、网络向终端传送网络资源。
该网络资源未经分类,只是统一的作为整体发送给终端。
步骤S702、终端对接收到的网络资源进行分类。
终端从接收到的网络资源中提取内容,并根据内容中的标识对该内容进行分类,分类的标准预先设定。
步骤S703、对分类后的内容进行相应操作。
终端进行操作的种类包括:将各分类内容分类存储、根据分类内容对终端接收的网络内容量进行分类统计、对各分类内容分类展现等。
如图8所示,为本发明实施例五、一种网络内容分类处理装置的结构示意图,包括:
获取模块1,用于获取网络资源;
分类模块2,用于提取获取模块1获取的网络资源中的内容,并对内容进行分类,进一步包括:
提取子模块21,用于提取网络资源中的内容;
解析子模块22,用于解析提取子模块21所提取的内容中的标识
分类子模块23,用于根据解析子模块22所解析的标识,对提取子模块21所提取的内容进行分类。
输出模块3,用于将分类模块2分类后的网络资源中的内容进行输出,进一步包括:
标识子模块31,用于对分类模块分类后的内容添加识别标识。
本发明实施例的技术方案具有以下优点,因为采用了对不同的网络内容进行提取、解析、并按照所定义的分类重新整合,并对整合结果进行分类传输的技术,从而,实现了对网络内容分类和重新整合,并对相应的内容进行分类传输,便于其他系统对数据作进一步的处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (9)

1、一种网络内容分类处理方法,其特征在于,包括以下步骤:
获取网络资源;
提取所述网络资源中的内容,并对所述内容进行分类;
将所述分类后的网络资源中的内容进行输出。
2、如权利要求1所述网络内容分类处理方法,其特征在于,所述提取并解析所述网络资源中的内容,具体为:
提取所述网络资源中的内容;
解析所述内容中的标识;
根据所述标识,对所述内容进行分类。
3、如权利要求2所述网络内容分类处理方法,其特征在于,所述标识,具体包括:
所述内容中包含的标记语言相关标签、内容关键词、类型信息、文件大小和识别码中的一种或几种。
4、如权利要求2所述网络内容分类处理方法,其特征在于,所述对内容进行分类,具体为:
根据预设的内容分类标准进行所述内容的分类。
5、如权利要求1所述网络内容分类处理方法,其特征在于,所述将分类后的网络资源中的内容进行输出,具体为:
对所述分类后的内容按照类别分别输出;或,
将所述分类后的内容进行处理后,一并输出,由所述内容的接收方做分类处理。
6、如权利要求5所述网络内容分类处理方法,其特征在于,所述将分类后的内容进行处理,具体包括:
对所述分类后的内容添加识别标识。
7、一种网络内容分类处理装置,其特征在于,包括:
获取模块,用于获取网络资源;
分类模块,用于提取所述获取模块获取的网络资源中的内容,并对所述内容进行分类;
输出模块,用于将所述分类模块分类后的网络资源中的内容进行输出。
8、如权利要求7所述网络内容分类处理装置,其特征在于,所述分类模块,包括:
提取子模块,用于提取所述网络资源中的内容;
解析子模块,用于解析所述提取子模块所提取的内容中的标识
分类子模块,用于根据所述解析子模块所解析的标识,对所述提取子模块所提取的内容进行分类。
9、如权利要求7所述网络内容分类处理装置,其特征在于,所述输出模块,包括:
标识子模块,用于对所述分类模块分类后的内容添加识别标识。
CNA2008100974821A 2008-05-30 2008-05-30 一种网络内容分类处理方法和装置 Pending CN101420356A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100974821A CN101420356A (zh) 2008-05-30 2008-05-30 一种网络内容分类处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100974821A CN101420356A (zh) 2008-05-30 2008-05-30 一种网络内容分类处理方法和装置

Publications (1)

Publication Number Publication Date
CN101420356A true CN101420356A (zh) 2009-04-29

Family

ID=40630974

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100974821A Pending CN101420356A (zh) 2008-05-30 2008-05-30 一种网络内容分类处理方法和装置

Country Status (1)

Country Link
CN (1) CN101420356A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750184A (zh) * 2012-06-25 2012-10-24 广东轩辕网络科技股份有限公司 云资源分类与标识系统及方法
CN101702763B (zh) * 2009-10-28 2012-12-12 深圳市龙视传媒有限公司 一种生成数字机顶盒单机网站的方法及系统和设备
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN103188368A (zh) * 2011-12-27 2013-07-03 宇龙计算机通信科技(深圳)有限公司 数据传输的方法及其通信终端
CN105450677A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 数据的处理方法、装置及系统
CN106649680A (zh) * 2016-12-15 2017-05-10 天脉聚源(北京)传媒科技有限公司 一种新闻处理方法及装置
CN113094523A (zh) * 2021-03-19 2021-07-09 北京达佳互联信息技术有限公司 资源信息的获取方法、装置、电子设备和存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101702763B (zh) * 2009-10-28 2012-12-12 深圳市龙视传媒有限公司 一种生成数字机顶盒单机网站的方法及系统和设备
CN103188368A (zh) * 2011-12-27 2013-07-03 宇龙计算机通信科技(深圳)有限公司 数据传输的方法及其通信终端
CN103188368B (zh) * 2011-12-27 2017-01-18 宇龙计算机通信科技(深圳)有限公司 数据传输的方法及其通信终端
CN102750184A (zh) * 2012-06-25 2012-10-24 广东轩辕网络科技股份有限公司 云资源分类与标识系统及方法
CN102831248A (zh) * 2012-09-18 2012-12-19 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN102831248B (zh) * 2012-09-18 2016-05-11 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN105912670A (zh) * 2012-09-18 2016-08-31 北京奇虎科技有限公司 网络热点挖掘方法及装置
CN105450677A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 数据的处理方法、装置及系统
CN106649680A (zh) * 2016-12-15 2017-05-10 天脉聚源(北京)传媒科技有限公司 一种新闻处理方法及装置
CN113094523A (zh) * 2021-03-19 2021-07-09 北京达佳互联信息技术有限公司 资源信息的获取方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US9336202B2 (en) Method and system relating to salient content extraction for electronic content
CN101420356A (zh) 一种网络内容分类处理方法和装置
Xiang et al. Linguistic steganalysis using the features derived from synonym frequency
CN107797982B (zh) 用于识别文本类型的方法、装置和设备
US8990097B2 (en) Discovering and ranking trending links about topics
US9940972B2 (en) Video to data
US8806000B1 (en) Identifying viral videos
US10839013B1 (en) Generating a graphical representation of relationships among a set of articles and information associated with the set of articles
CN104408157A (zh) 一种网络舆情漏斗式数据采集分析推送系统及方法
CN103686207A (zh) 转码任务的调度方法和系统
EP2823644A1 (en) Enhancing live broadcast viewing through display of filtered internet information streams
CN102163187A (zh) 文档标记方法和装置
CN103617266A (zh) 个性化扩展搜索方法及装置、系统
CN102752388A (zh) 基于浏览器的交互系统、方法、浏览器和云端服务器
CN100527132C (zh) 分类样本集的优化方法和内容相关广告服务器
CN105991722B (zh) 一种下载器推荐方法、应用服务器、终端及系统
Tsai et al. Introduction to mobile information retrieval
CN103488741A (zh) 一种基于url的中文多语义名词的在线语义挖掘系统
CN102819613A (zh) Rss信息分页抓取系统及方法
KR20170136679A (ko) 빅 데이터 기반 지식 콘텐츠 추천 방법 및 시스템
CN101808296B (zh) 一种编辑并群发彩信的自动实现方法及自动实现系统
Drulă Media convergence and mobile technology
CN103377215A (zh) 信息推广方法及系统
CN110147488B (zh) 页面内容的处理方法、处理装置、计算设备及存储介质
CN104978338A (zh) 一种针对视频格式的网络爬虫提取url并索引及与关键帧映射的框架

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent for invention or patent application
CB02 Change of applicant information

Address after: 100020, building 3, building 3, No. 4332, West well road, Badachu hi tech park, Beijing, Shijingshan District

Applicant after: Beijing big head wireless Mdt InfoTech Ltd

Address before: 100020 Beijing City, Chaoyang District Hing building 14, room 605, 603 floor part

Applicant before: Beijing Tiantengshikong Information Technology Co., Ltd.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: BEIJING TIANTENGSHIKONG INFORMATION TECHNOLOGY CO., LTD. TO: BEIJING DATOU WIRELESS INFORMATION TECHNOLOGY CO., LTD.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20090429