CN102750299B - 一种网上信息汇聚的方法 - Google Patents

一种网上信息汇聚的方法 Download PDF

Info

Publication number
CN102750299B
CN102750299B CN201110390958.2A CN201110390958A CN102750299B CN 102750299 B CN102750299 B CN 102750299B CN 201110390958 A CN201110390958 A CN 201110390958A CN 102750299 B CN102750299 B CN 102750299B
Authority
CN
China
Prior art keywords
information
content
clue
subject
eventses
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110390958.2A
Other languages
English (en)
Other versions
CN102750299A (zh
Inventor
张峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Digital Video Beijing Ltd
Original Assignee
China Digital Video Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Digital Video Beijing Ltd filed Critical China Digital Video Beijing Ltd
Priority to CN201110390958.2A priority Critical patent/CN102750299B/zh
Publication of CN102750299A publication Critical patent/CN102750299A/zh
Application granted granted Critical
Publication of CN102750299B publication Critical patent/CN102750299B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本申请公开了一种网上信息汇聚的方法,通过接收资讯线索采集条件;根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;对所述媒体内容进行聚合分析,得到当前热门主题;根据所述当前热门主题创建主题事件;检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。

Description

一种网上信息汇聚的方法
技术领域
本发明主要涉及媒体制作领域,尤其涉及一种网上信息汇聚的方法。
背景技术
随着互联网的普及,网络上的信息越来越丰富。有文本信息、图片信息、视音频信息等。现在媒体制作系统的制作过程中,大量的制作素材需要从网络上获取。传统的方式是在外网上网下载,再通过人工拷贝或通过高安全区拷贝到内网使用。
这种靠人工的方式,手续繁琐严重影响了节目的制作效率。
发明内容
本申请提供一种网上信息汇聚的方法,通过资讯线索自动采集资讯信息,并与主题事件相关联,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。
为了达到上述目的,本实施例提供一种网上信息汇聚的方法,包括以下步骤:
接收资讯线索采集条件;
根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;
将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;
对所述媒体内容进行聚合分析,得到当前热门主题;
根据所述当前热门主题创建主题事件;
检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;
将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;
将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接。
本实施例通过接收资讯线索采集条件;根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;对所述媒体内容进行聚合分析,得到当前热门主题;根据所述当前热门主题创建主题事件;检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。
附图说明
为了更清楚地说明本申请或现有技术的技术方案,下面将对本申请或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一种网上信息汇聚的方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开一种网上信息汇聚的方法,如图1所示,包括以下步骤:
步骤101,接收资讯线索采集条件;
资讯线索采集条件,具体包括:
所述资讯线索的类别;
采集所述资讯线索的目标地址;
所述资讯线索的最低采集标准,至少包括:发布时间、展示次数、点击率以及回复次数。
网上信息汇聚实质对网络新媒体数据的采集、搜索、线索发现、新媒体信息发布等。
基于网络新媒体数据的不同特点,分为非微博类资讯汇聚和微博类资讯汇聚。非微博类主要是包括:新闻网站、论坛、博客等非结构化的网络新媒体数据的采集和分析;而微博类主要是包括新浪、腾讯、网易、搜狐、twitter等半结构化的媒体数据的采集和分析、发布等功能。
步骤102,根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;
非微博类资讯线索汇聚
采用语义分析算法,进一步提高分类分析的质量;
采用全文分词和聚类算法,自动发现热门关键词和热点事件
微博类资讯线索汇聚
将话题、博文、用户三者信息实现关联;
对于转发的微博和原文实现关联;
微博信息的分词、搜索、热点发现,数据分析等功能。
信息提取
一般网页的信息提取办法相对简单,网络爬虫是最常用的手段。
对于娱乐网站的资讯信息,可能是考虑到这类的信息受众的特点,很少有网站提供RSS,这和IT类资讯形成了鲜明的对比,几乎所有主流IT类网站或板块都提供了RSS服务。
博客
目前主流博客都提供RSS形式的访问接口,通过定期轮询,可以方便获取博主最新的言论。
微博
对微博的提取可以使用微博网站都对外公布的SDK。
论坛
系统自动抓取时,可以通过一些策略忽略掉一些帖子,比如大于一天且回复数量比较少的,可以不抓取,如果已经抓取了,可以自动删除。
非微博类资讯汇聚
(1)能对网站、论坛、博客等非微博类网站的指定频道进行采集,并能对采集的非结构化内容的标题、正文、发布时间、作者、点击率、回复次数进行分离并存在结构化数据库,以便进行搜索和分析。
(2)对采集的内容进行分词索引,以便高效的搜索。
(3)通过核心的搜索算法,能按照自己的要求自定义各种搜索算法,实现搜索的完全个性化。
(4)能对搜索的结果进行二次搜索。
(5)通过对点击率、回复次数、词汇权重等要素,自动形成热点信息。
(6)通过对词汇的感情色彩的分类(正面、负面)和词汇质量的分类(正常、垃圾),根据特点的算法从而计算出文章的感情色彩和质量。
(7)根据时间段、关键词等统计要素形成趋势图、各种分布统计图。
(8)能形成WORD文档报告等功能。
微博类资讯线索汇集管理系统
(1)新浪、腾讯两种微博的两条线的采集:一条线是话题为起点的采集。自动采集最新的话题;通过话题,自动采集该话题下最新的博文。第二条线:根据指定的用户,采集该用户下的博文。
(2)实现了三种微博的对指定用户的微博的发布。对于未授权用户,自动提示授权信息。提供授权小软件,实现对未授权用户的授权认证。并实现了和文档系统的对接。
(3)注入功能:能把采集到微博按条件进行搜索,并将符合要求的线索注入到文档系统的线索库。
步骤103,将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;
步骤104,对所述媒体内容进行聚类分析,得到当前热门主题;
网上信息汇聚需要对网页、博客、微博、论坛等进行信息提取。信息提取完成后进行信息分类。信息分类的目的是要将这些海量的资讯信息进行归纳加工整理,在分类的同时为其建立各种关联关系。信息分类的核心技术就是:聚类分析,也就是各种基于文本的自动的分类系统。
步骤105,根据所述当前热门主题创建主题事件;
在本实施例中,提供一个主题事件管理模块,用以创建主题事件,其功能具体如下:
创建主题事件
通过检索资讯线索库、媒体资产库中的内容,将找到的和该主题事件有关的内容记录下来,建立关联关系
提供快捷链接,跳转到微博、博客的关注申请页面
支持创建标题,支持启动文稿和视频的制作子流程,派发制作工单
支持围绕该主题事件的一些策划脚本的编写和版本的维护
支持通过手机短消息、电子邮件等手段进行日常工作的通知
提供基于主题事件的BBS形式的信息公开和节目组内部沟通协调机制
支持节目制作子流程进度、状态的显示
支持直接发布博客、微博信息
步骤106,检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;
步骤107,将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;
步骤108,将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接。
具体包括:将所述网上信息汇聚数据的标题、正文、发布时间、作者、点击率和回复次数进行分离并存储在结构化数据库;
将所述主题事件根据标题和/或正文内容进行分词索引;
将所述索引发送到所述电视台制播网,实现挂接。
网络信息汇聚它可以与电视台的制播网实现挂接,实现信息的互通。还可以将制播网的一些讯息发布到网络上,如:微博等形式,更加方便电视台节目受众者便捷获取节目信息,并能实现与电视节目讯息的互动。
上述步骤101-步骤108定期进行,所以,结构化数据库中总是存储最新的资讯线索和资讯内容,资讯线索和资讯内容实时更新。
本实施例通过接收资讯线索采集条件;根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;对所述媒体内容进行聚合分析,得到当前热门主题;根据所述当前热门主题创建主题事件;检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接,实现了自动搜索资讯内容,不再依靠人工进行,提高了节目制作的效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本申请的几个具体实施例,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (2)

1.一种网上信息汇聚的方法,其特征在于,包括以下步骤:
接收资讯线索采集条件;
根据所述资讯线索采集条件采集相应的资讯线索和资讯内容;
将所述相应的资讯线索和资讯内容分类存储到结构化数据库,所述结构化数据库包括资讯线索库和媒体资产库;
对所述媒体内容进行聚类分析,得到当前热门主题;
根据所述当前热门主题创建主题事件;
检索所述资讯线索库和媒体资产库中的内容,得到与所述主题事件相关的内容;
将所述与主题事件相关的内容进行记录并与所述主题事件建立关联关系;
将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接;
所述将所述主题事件进行分类存储并进行分词索引,并与电视台制播网相挂接具体包括:
将所述网上信息汇聚数据的标题、正文、发布时间、作者、点击率和回复次数进行分离并存储在结构化数据库;
将所述主题事件根据标题和/或正文内容进行分词索引;
将所述索引发送到所述电视台制播网,实现挂接;
所述资讯线索采集条件,具体包括:
所述资讯线索的类别;
采集所述资讯线索的目标地址;
所述资讯线索的最低采集标准,至少包括:发布时间、展示次数、点击率以及回复次数。
2.如权利要求1所述方法,其特征在于,所述根据所述资讯线索采集条件采集相应的资讯线索和资讯内容定期进行,所述资讯线索和资讯内容实时更新。
CN201110390958.2A 2011-11-30 2011-11-30 一种网上信息汇聚的方法 Active CN102750299B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110390958.2A CN102750299B (zh) 2011-11-30 2011-11-30 一种网上信息汇聚的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110390958.2A CN102750299B (zh) 2011-11-30 2011-11-30 一种网上信息汇聚的方法

Publications (2)

Publication Number Publication Date
CN102750299A CN102750299A (zh) 2012-10-24
CN102750299B true CN102750299B (zh) 2018-03-16

Family

ID=47030491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110390958.2A Active CN102750299B (zh) 2011-11-30 2011-11-30 一种网上信息汇聚的方法

Country Status (1)

Country Link
CN (1) CN102750299B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853787B (zh) * 2012-12-06 2017-06-16 北大方正集团有限公司 一种追踪相似稿件和图片的方法及系统
CN104077391A (zh) * 2014-06-30 2014-10-01 北京奇虎科技有限公司 提供专题新闻搜索的方法、服务器、客户端和系统
WO2015196902A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 提供专题新闻搜索的方法、服务器、客户端和系统
CN106033414A (zh) * 2015-03-09 2016-10-19 北大方正集团有限公司 一种热点信息处理方法和系统
CN105677824B (zh) * 2016-01-04 2017-06-20 河北秀朗投资有限公司 内容流生成及发布系统及其抓取方法
TWI602430B (zh) * 2016-08-08 2017-10-11 Chunghwa Telecom Co Ltd Multimedia content classification system and method
CN106777207A (zh) * 2016-12-23 2017-05-31 北京奇虎科技有限公司 在搜索结果页中聚合餐饮类资讯信息的方法及装置
CN110020035B (zh) * 2017-09-06 2023-05-12 腾讯科技(北京)有限公司 数据识别方法和装置、存储介质及电子装置
CN109388640A (zh) * 2018-10-10 2019-02-26 上海找油信息科技有限公司 一种资讯管理系统
CN110188237B (zh) * 2019-06-04 2023-07-25 成都索贝数码科技股份有限公司 一种用于赛事智能制作的数据汇聚系统及方法
CN111324753B (zh) * 2020-01-22 2021-09-03 天窗智库文化传播(苏州)有限公司 一种媒体资讯发布管理方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1760900A (zh) * 2004-10-15 2006-04-19 中央电视台 广播电视媒体资产管理系统及其调控方法
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101588455A (zh) * 2008-05-23 2009-11-25 新奥特(北京)视频技术有限公司 一种媒体素材的主题化收录系统
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229958B2 (en) * 2008-10-10 2012-07-24 Decernis, Llc System and method for indexing, searching and presenting technical concepts

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1760900A (zh) * 2004-10-15 2006-04-19 中央电视台 广播电视媒体资产管理系统及其调控方法
CN101174273A (zh) * 2007-12-04 2008-05-07 清华大学 基于元数据分析的新闻事件检测方法
CN101588455A (zh) * 2008-05-23 2009-11-25 新奥特(北京)视频技术有限公司 一种媒体素材的主题化收录系统
CN101620608A (zh) * 2008-07-04 2010-01-06 全国组织机构代码管理中心 信息采集方法及系统
CN101676907A (zh) * 2008-09-16 2010-03-24 北京雷速科技有限公司 一种互联网资源定向获取方法及系统

Also Published As

Publication number Publication date
CN102750299A (zh) 2012-10-24

Similar Documents

Publication Publication Date Title
CN102750299B (zh) 一种网上信息汇聚的方法
Schifferes et al. Identifying and verifying news through social media: Developing a user-centred tool for professional journalists
Xu et al. Discovering user interest on twitter with a modified author-topic model
Xu et al. Modeling user posting behavior on social media
US8688791B2 (en) Methods and systems for analysis of real-time user-generated text messages
CN103888837B (zh) 一种视频信息推送方法及装置
US20180013846A1 (en) Event information push method, event information push apparatus, and storage medium
US8793312B2 (en) Bridging social silos for knowledge discovery and sharing
US8527450B2 (en) Apparatus and methods for analyzing and using short messages from commercial accounts
CN104077341B (zh) 即时通讯中生成关键词自动回复映射关系的方法和装置
CN105677824B (zh) 内容流生成及发布系统及其抓取方法
US9418117B1 (en) Displaying relevant messages of a conversation graph
US20150334068A1 (en) Message processing method and apparatus
CN102591475B (zh) 一种在线编辑器的内容输入方法及系统
CN106651470A (zh) 一种基于用户行为预测分析的广告定向推广系统
CN104969254A (zh) 内容的个性化概要
CN103186600A (zh) 互联网舆情的专题分析方法和装置
CN101566995A (zh) 一种互联网信息整合发布的方法和系统
CN102098549A (zh) 一种提供社会性网络服务的epg系统
CN105407359A (zh) 基于分类标签体系的智能电视节目检索和推荐系统
CN104462096B (zh) 舆情监测分析方法和装置
CN101980529A (zh) 支持三网融合的视频服务系统
CN103064880A (zh) 一种基于搜索信息向用户提供网站选择的方法、装置和系统
CN109033441A (zh) 一种基于大数据分析的推送方法及装置
CN108470057B (zh) 整合资讯的生成、推送方法、装置、终端、服务器及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant