CN107231570A - 新闻数据内容特征获取系统及应用系统 - Google Patents

新闻数据内容特征获取系统及应用系统 Download PDF

Info

Publication number
CN107231570A
CN107231570A CN201710444315.9A CN201710444315A CN107231570A CN 107231570 A CN107231570 A CN 107231570A CN 201710444315 A CN201710444315 A CN 201710444315A CN 107231570 A CN107231570 A CN 107231570A
Authority
CN
China
Prior art keywords
news
information
data
program
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710444315.9A
Other languages
English (en)
Inventor
刘杉
柴剑平
董瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Communication University of China
Original Assignee
Communication University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Communication University of China filed Critical Communication University of China
Priority to CN201710444315.9A priority Critical patent/CN107231570A/zh
Publication of CN107231570A publication Critical patent/CN107231570A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/462Content or additional data management, e.g. creating a master electronic program guide from data received from the Internet and a Head-end, controlling the complexity of a video stream by scaling the resolution or bit-rate based on the client capabilities
    • H04N21/4622Retrieving content or additional data from different sources, e.g. from a broadcast channel and the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Abstract

本发明公开了新闻数据内容特征获取系统及应用系统,将新闻数据分为电视新闻节目和互联网门户网站新闻信息两大类,共分为7个级别,包括新闻节目基本信息、节目制作信息、节目类型信息、互联网新闻基本信息、新闻题材信息、互联网用户信息、用户来源门户网站信息,共涉及采集指标200余个。为实现新闻内容数据的存储和分析,开发应用系统实现对新闻数据的存储和应用;通过对新闻数据内容特征的定义和获取,帮助新闻工作者全面获取素材并且敏锐地捕捉到新闻热点与焦点,提高电视台与网站的生产效率与管理效率,提升对用户的推荐准确率,解决信息过载问题,帮助政府准确把握百姓舆情、有效传播国家政策的主导思想。

Description

新闻数据内容特征获取系统及应用系统
技术领域
本发明涉及技术新闻数据内容特征提取领域,具体地,涉及新闻数据内容特征获取系统及应用系统。
背景技术
随着融合媒体时代的到来,广播电视事业也在朝着数字化、网络化、智能化方向不断发展,新闻媒体的生产模式和内容的表现形式也变得多种多样。新闻节目采编、制作、播出等环节对节目资料的检索查询和再利用的需求越来越高,传统新闻的组织管理模式已无法适应目前的信息增长速度,媒资管理系统的信息维护也变得更加困难,系统的可扩展能力差已成为是传统新闻节目丞待解决的问题。同时,传统的电视台新闻节目受到了互联网各大新闻门户网站的冲激,观众流失现象严重,使收视率及政府的舆论引导都相应受到一定的影响,传统新闻的组织模式已不适应多样化的新闻阅读形式和个性化的阅读推荐。互联网新闻媒体受到越来越多的关注,逐渐成为用户获取新闻的主要方式,但大部分门户新闻网站也缺乏统一的新闻存储管理标准,资讯内容大爆炸引来的信息过载问题越来越严重。
新闻内容的数据蕴含着大量的信息,既包括新闻生产制作过程的采编播信息,又涉及传播过程的用户行为反馈信息,有效利用新闻大数据,通过对新闻内容数据的全面分析,对传统新闻与互联网新闻实现高效生产、有效管理、资源共享及精准传播等都有着十分重要的意义和作用。
发明内容
本发明的目的在于,针对上述问题,提出一种新闻数据内容特征获取系统及包括该系统的应用系统,帮助采编工作者全面获取素材并且敏锐地捕捉到新闻热点与焦点,提高电视台与网站的管理效率,帮助政府准确把握百姓舆情、有效传播国家政策的主导思想,分析和提升新闻的推荐准确性,解决信息过载问题
为实现上述目的,本发明采用的技术方案是:一种新闻数据内容特征获取系统,主要包括:
标签管理系统和媒资管理管理系统通过网络接口连接,所述标签管理系统包括数据获取模块和标签提取模块,所述数据获取模块获取电影内容信息,所述标签提取模块新闻视频、音频和文本标签,而后进行中文分词,标签清洗,最后标签入库,得到标签库;
所述提取新闻标签具体为,首先将电影内容数据按照电视新闻节目内容和互联网新闻节目内容进行类别划分;而后按照各类别进行级别划分,对级别划分的数据内容进行详细的数据采集,形成数据采集标签;
所述电视新闻节目内容包括节目基本信息、节目制作信息和节目类型信息三个级别,所述互联网新闻节目内容包括互联网新闻基本信息、互联网新闻题材信息、互联网用户信息和互联网用户来源信息四个级别。
进一步地,电视新闻节目中的节目基本信息用于对新闻节目进行全面客观分析,了解新闻节目的市场情况与发展状况,发掘热点话题;
按照节目基本信息数据进行详细的数据采集,具体包括采集节目名称信息、节目曾用名、播出频道信息、节目类型信息、节目题材信息、节目摘要信息、节目关键词信息、节目内容、节目图片、节目视频、节目视频、节目时长、节目播出时间、节目频次、节目收视率、节目在线播放平台、节目弹幕、用户评论信息、合作伙伴信息、鸣谢信息、特别鸣谢信息、播出状态信息、发行时间信息和获奖记录信息,最终形成相应的数据采集标签。
进一步地,所述节目制作信息给新闻节目的策划、制作和播出提供指导数据;
按照节目制作信息数据进行详细数据采集,具体包括采编组信息、编辑组信息、播音组信息、嘉宾组信息、制片组信息、导播组信息、灯光组信息、服装造型组信息、后期制作组信息、声音制作组信息和策划监制组信息;
对采编组信息的采集包括采集节目通讯员信息、特约撰稿人、文字记者、出镜记者、摄像记者、摄影记者和录音记者数据信息形成7个数据信息采集标签;
对编辑组信息的采集包括采集主编、执行主编、选题编辑、策划编辑、约稿编辑和责任编辑数据信息,形成6个数据采集标签。
对播音组信息的采集包括采集固定主持、代班主持、外景主持、解说播音员数据信息,形成4个数据采集标签;
对嘉宾组信息的采集包括采集现场邀请嘉宾、电话连续嘉宾、外景采访嘉宾数据信息,形成相应数据采集标签;
对制片组信息的采集包括采集总制片、制片、执行制片数据信息,形成相应的数据采集标签;
对导播组信息的采集包括采集编辑部导播、制作部导播、导播助理数据信息,形成相应地数据采集标签;
对灯光组信息的采集包括采集灯光指导、灯光师、灯光助理、灯光编程和灯光维修员数据信息,形成相应地数据采集标签;
对服装造型组信息的采集包括采集化妆师、化妆助理、造型师和服装师数据信息,形成相应地数据采集标签;
对后期制作组信息的采集包括采集后期剪辑、美术编辑、美工、动画特效、视觉包装、字幕制作和技术审定数据信息,并形成相应的数据采集标签;
对声音制作组信息的采集包括采集录音师、录音指导、录音助理、音频编辑、同期声处理、配音指导、背景音乐制作数据信息,形成相应的数据采集标签;
对策划监制组信息的采集包括采集总策划、策划、联合策划、总监制、监制、执行监制、监制助理、联合监制和行政监制数据信息,形成对应的数据采集标签。
进一步地,通过节目类型信息深入了解各类新闻节目之间的联系与区别,为新闻节目的策划服务;
按照节目类型信息数据进行详细的数据采集,包括采集新闻资讯类数据、专题报道类数据、连续报道类数据、新闻评论类数据、访谈类数据、脱口秀类数据和国际新闻类数据;
所述采集专题报道类数据具体包括,采集调查式专题数据信息、专访式专题数据信息、综述式专题数据信息和深度专题数据信息,最终形成相应的数据采集标签;
所述采集连续报道类数据具体包括,采集重大事件连续报道数据信息和系列报道数据信息,最终形成相应的数据采集标签;
所述采集新闻评论类数据信息具体包括,采集新闻述评数据信息、电视辩论信息、深度分析信息和主持人评论信息,最终形成相应的数据采集标签;
所述采集访谈类数据信息具体包括,采集人物专访信息和谈话节目信息,最终形成相应的数据采集标签,最终形成相应的数据采集标签;
所述采集国际新闻类数据信息具体包括,采集国际新闻节目信息和对外新闻节目信息,最终形成相应的数据采集标签。
进一步地,通过对新闻基本信息数据的分析,建立资源之间的关联,生成新闻话题;
对互联网新闻基本信息进行采集,具体包括采集,时间、标题、来源网站、被转载量、题材、内容提要、关键字、新闻内容、背景链接、相关新闻或延伸阅读信息、采编记者信息、摄影记者信息、主编信息、文字编辑信息、图表编辑信息、管理编辑信息、责任编辑信息、图片、视频、浏览量、点赞数、转发量、评论量和新闻评论数据信息,最终形成相应的数据采集标签。
进一步地,通过将互联网新闻题材信息与新闻基本信息相关联,为网络新闻资源的管理、索引及推荐提供帮助;
所述对互联网新闻题材信息的采集包括,采集政治题材信息、军事题材信息、经济、法制、社会民主、体育、娱乐、农业、科技、教育、安全、医疗卫生、健康、旅游、文化艺术和历史地理题材信息,形成相应的数据采集标签。
进一步地,通过采集互联网用户数据,分析用户的行为,挖掘用户需求以及用户与资源之间的关联,实现个性化推荐;
对互联网用户信息采集包括用户名、用户来源、用户性别、用户年龄、用户职业、用户所在地区、用户学历、用户偏好、关注量、粉丝量、在线时长、浏览记录和发表言论信息;
通过采集互联网用户来源信息以用户为纽带,实现互联网知识共享,同时综合了解网络用户在各大网站的分布情况,分析网络新闻门户网站的发展;
对互联网用户来源信息包括各个新闻门户网站信息。
基于所述获取系统的应用系统,还包括后台管理模块和新闻数据内容标签分析应用模块,所述后台管理模块对用户、消息、内容和标签进行管理;所述新闻数据内容标签分析应用模块包括新闻素材筛选模块、新闻编排模块、新闻播出形式模块、新闻花絮生成模块和舆情分析模块;
所述新闻素材分筛选模块,对搜集的大量新闻素材进行初步筛选,对具体事实有宏观观照,在全局形势下做出准确判断;同时,以数据分析内容,用数据采集标签准确定位,挖掘新闻选题抢占独家报道或寻找新闻佐证以拓展报道深度;发挥库存资料的作用,编辑配发背景新闻,增加报道深度;
所述新闻编排模块,将体现同一主题的相关新闻集合编排,丰富新闻的信息量,使内容更加饱满,主题更加深化;同时,从新闻主题出发,贴近当地生活,编排能够凸显地域风情和文化内涵的新闻内容,发挥“异质”的竞争优势;
所述播出形式模块包括滚动式播出模块和多重播式播出模块,具体为,所述播出形式模块以大数据分析用户收视习惯的服务,调整新闻播出形式;同时为满足不同收视习惯的用户需求,达到新闻传播宣传的最大化效果,实行滚动式多次播放的方式;对于突发事件和持续追踪事件,重播时滚动编排记者采回来的和互联网最新发布的最新消息,及时插入播出;
所述花絮生成模块,对每日的节目内容进行分时段收视分析,提取收视高峰时段的内容标签,生成摘要,花絮;
所述用户舆情分析模块,对节目播后的用户评论反馈,进行情感标签分析,评论热点分析,了解民众需求;挖掘预测舆论的热点话题,对百姓关心的标识性热点事件进行深度报道,为老百姓释疑解惑。
一种标签库,将新闻数据采集标签内容进行存储,具体包括,
新闻内数据分类表,对各级分类名进行存储,并以分类ID作为主键;
新闻节目基本信息表,存储节目基本信息,并以节目ID作为主键;
互联网新闻信息表,存储互联网新闻基本信息,并以新闻ID作为主键;
新闻节目类型信息表,存储节目类型信息,并以类型ID作为主键;
新闻题材信息表,存储新闻题材信息,并以题材ID作为主键
互联网用户基本信息表,存储用户信息,并以用户ID作为主键
互联网用户来源信息表,存储用户来源门户网站信息,以网站ID作为主键。
本发明,通过对新闻数据内容特征的定义和获取,帮助新闻工作者全面获取素材并且敏锐地捕捉到新闻热点与焦点,提高电视台与网站的生产效率与管理效率,提升对用户的推荐准确率,解决信息过载问题,帮助政府准确把握百姓舆情、有效传播国家政策的主导思想。
同时。本发明是一个新闻数据内容特征获取及应用系统,将新闻数据分为电视新闻节目和互联网门户网站新闻信息两大类,共分为7个级别,包括新闻节目基本信息、节目制作信息、节目类型信息、互联网新闻基本信息、新闻题材信息、互联网用户信息、用户来源门户网站信息,共涉及采集指标200余个。为实现新闻内容数据的存储和分析,设计了适用于新闻数据录入和存储的数据库结构,开发应用系统实现对新闻数据的存储和应用。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明的新闻内容数据分类方法图;
图2是本发明的新闻节目基本信息内容特征图;
图3是本发明的新闻节目制作信息内容特征图;
图4是本发明的新闻节目类型信息内容特征图;
图5是本发明的互联网新闻基本信息内容特征图;
图6是本发明的新闻题材信息内容特征图;
图7是本发明的用户基本信息内容特征图;
图8是本发明的网络用户来源网站信息内容特征图;
图9是本发明的新闻节目基本信息E-R图;
图10是本发明的互联网新闻基本信息E-R图;
图11是本发明的用户基本信息E-R图;
图12是本发明的新闻内容数据分类表;
图13是本发明的新闻节目基本信息表;
图14是本发明的互联网新闻基本信息表;
图15是本发明的新闻节目类型信息表;
图16是本发明的新闻题材信息表;
图17是本发明的用户基本信息表;
图18是本发明的用户来源信息表;
图19是本发明新闻数据内容特征获取及应用系统整体架构图;
图20是本发明的系统实际应用流程图;
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明是一个新闻数据内容特征获取及应用系统,将新闻数据分为电视新闻节目和互联网门户网站新闻信息两大类,共分为7个级别,包括新闻节目基本信息、节目制作信息、节目类型信息、互联网新闻基本信息、新闻题材信息、互联网用户信息、用户来源门户网站信息,共涉及采集指标200余个。为实现新闻内容数据的存储和分析,设计了适用于新闻数据录入和存储的数据库结构,开发应用系统实现对新闻数据的存储和应用。
本发明是一个新闻数据内容特征获取及应用系统。形成统一的数据存储标准,实现新闻数据的内容特征获取及应用,分别提供面向广播电视、互联网、移动网络客户端的跨平台、跨媒体的开放数据接口,使其嵌入到相应的媒资管理系统中得以应用,实现新闻的存储、管理、生产、传播。将新闻数据按照电视新闻节目与互联网新闻分为两大类别,共7个组别,包括新闻节目基本信息、节目制作信息、节目类型信息、互联网新闻基本信息、新闻题材信息、互联网用户信息、用户来源门户网站信息,共涉及采集指标200余个。针对新闻数据内容的研究,采用人工和自动爬取相结合的方式,主要采集各大电视台的典型新闻节目及各大新闻门户网站的新闻信息。目前已人工录入2016年度湖南新闻联播内容数据及自动爬取新浪、搜狐、网易、中国新闻网、央视网、千龙网、新华网、人民网等十余个主要门户网站的近500条新闻数据的提取和分析。对帮助提高新闻生产效率,提升新闻质量、实现新闻有效管理、推荐,有助政府掌控和引导社会舆情等都有着至关重要的作用。
新闻数据内容特征的获取可以帮助采编工作者全面获取素材并且敏锐地捕捉到新闻热点与焦点,提高电视台与网站的管理效率,帮助政府准确把握百姓舆情、有效传播国家政策的主导思想,分析和提升新闻的推荐准确性,解决信息过载问题。为了全面的描述新闻的内容特征,其特征是:将数据分为两大类别,共分为七个级别,每个级别下细分新闻数据组别,定义和统计的指标共有200余个。
实现新闻数据的存储和分析,设计了适用于新闻数据指标录入和存储的数据库结构,并依据数据库搭建应用系统。
一、新闻数据内容特征获取
结合附图1的新闻数据分类方法图,对采集的新闻内容数据具体介绍如下:
1.电视新闻节目类
(1)节目基本信息
新闻节目基本信息包括节目类型、节目内容、节目时长、节目收视率等近20个指标,其中数据定义的具体信息如图2所示。通过新闻基本信息的获取,可以对新闻节目进行全面客观分析,了解新闻节目的市场情况与发展状况,发掘热点话题。
(2)节目制作信息
对新闻节目制作流程中的各个环节信息进行获取和分析,从节目制作端出发,将新闻节目按生产流程分为11个组别,包括采编、编辑、播音、嘉宾、制片、导播、灯光、服装造型、后期制作、声音制作、策划监制,近60个指标,如图3所示。可以对一档新闻节目的策划、制作、播出提供技术性指导。
(3)节目类型信息
节目类型信息包括新闻资讯类、专题报道类、连续报道类、新闻评论类、访谈类、脱口秀7大类型,近15个细化类型,具体如图4所示。对不同的新闻节目细化,将其与具体的节目信息将关联,有助于深入了解各类新闻节目之间的联系与区别,可以为新闻节目的策划服务。
2.互联网新闻类
(1)新闻基本信息
新闻基本信息包括新闻内容、关键词、题材、记者、责编、图片、视频、转载量等近30个指标,如图5所示,通过对新闻基本信息数据的分析,可以建立资源之间的关联,生成新闻话题等。
(2)新闻题材信息
新闻题材包括军事、政治、经济等13个类型,如图6所示,将其与新闻基本信息相关联,为网络新闻资源的管理、索引及推荐都可以提供一定帮助。
(3)用户基本信息
用户基本信息包括用户年龄、性别、偏好、浏览历史、发表言论等13个指标,通过采集用户数据,分析用户的行为,挖掘用户需求以及用户与资源之间的关联,实现个性化推荐。
(4)用户来源信息
用户来源信息包括新浪、网易、腾讯、新华网、央视网、千龙网等16个新闻门户网站,可以以用户为纽带,实现互联网知识共享,同时综合了解网络用户在各大网站的分布情况,分析网络新闻门户网站的发展。
为能对本发明的数据内容进行存储和分析,对新闻内容数据库的逻辑结构设计情况如下:
图9是本发明的新闻节目基本信息E-R图,显示了新闻节目和其他实体间的联系。
图10是本发明的互联网新闻基本信息E-R图,显示了门户网站新闻资源和其他实体间的联系。
图11是本发明的用户基本信息E-R图,显示了用户和其他实体间的联系。
图12为本发明的新闻内容数据分类表,对各级分类名进行存储,以分类ID作为主键。
图13是本发明的新闻节目基本信息表,用来存储节目基本信息,以节目ID作为主键。
图14是本发明的互联网新闻信息表,用来存储互联网新闻基本信息,以新闻ID 作为主键。
图15是本发明的新闻节目类型信息表,用来存储节目类型信息,以类型ID作为主键。
图16是本发明的新闻题材信息表,用来存储新闻题材信息,以题材ID作为主键。
图17是本发明的用户基本信息表,用来存储用户信息,以用户ID作为主键。
图18是本发明的用户来源信息表,用来存储用户来源门户网站信息,以网站ID 作为主键。
应用系统的整体架构如图19所示,该系统按照新闻数据内容特征获取标准,将新闻数据统一存储管理,对数据进行挖掘分析,可进一步实现新闻素材筛选、新闻集合编排、新闻节目播出形式调整、花絮片段生成及用户舆情分析等实际应用,系统的实际操作流程图如图20所示。
1.新闻素材筛选(针对采集记者服务)
对搜集的大量新闻素材进行初步筛选,对具体事实有宏观观照,在全局形势下做出准确判断。
以数据分析内容,用标签准确定位,挖掘新闻选题抢占独家报道或寻找新闻佐证以拓展报道深度。
发挥库存资料的作用,编辑配发背景新闻,增加报道深度。
2.新闻集合编排(针对编辑服务)
将体现同一主题的相关新闻集合编排,丰富新闻的信息量,使内容更加饱满,主题更加深化。
从新闻主题出发,贴近当地生活,编排能够凸显地域风情和文化内涵的新闻内容,发挥“异质”的竞争优势。
3.新闻播出形式——滚动式、多重播
提供以大数据分析用户收视习惯的服务,调整新闻播出形式
为满足不同收视习惯的用户需求,达到新闻传播宣传的最大化效果,可以实行滚动式多次播放的方式。
对于突发事件和持续追踪事件,重播时可以滚动编排记者采回来的和互联网最新发布的最新消息,及时插入播出。
4.花絮片段生成
对每日的节目内容进行分时段收视分析,提取收视高峰时段的内容标签,生成摘要,花絮。
5.用户舆情分析
对节目播后的用户评论反馈,进行情感标签分析,评论热点分析,了解民众需求。
挖掘预测舆论的热点话题,对百姓关心的标识性热点事件进行深度报道,为老百姓释疑解惑。
至少可以达到以下有益效果:
新闻数据内容特征获取及应用系统是一个具有良好扩展性、稳定性和高效率的新闻数据管理与应用平台,同时从新闻的制作及用户角度考虑,以多维的指标获取新闻内容的特征,提供一种新的更加有效的资源整合方式,实现有效管理新闻数据资源,促进融合媒体的发展。信息资源管理全面自动化,提高媒体行业节目制作过程的工作效率,使信息维护和发布更容易,减少二次开发成本,带来明显的经济效益和社会效益,提高传统广电应对信息变化的能力,同时使互联网发布信息的有效性、规范性等质量要求得到了有力保障,使三网在业务上的融合得到技术突破,顺应现今的信息资源传播规律和新兴媒体发展规律,强化互联网思维,坚持传统媒体和新兴媒体优势互补、一体发展,推动传统媒体和新兴媒体在内容、渠道、平台、经营、管理等方面的深度融合,打造一批形态多样、手段先进、具有竞争力的新型主流媒体,提升传播力和综合竞争力。
实现新闻素材的自动筛选,节约人力物力,避免重复采拍,减少选择新闻的工作量,同时有效避免有价值的新闻事件被遗漏,从而选取编辑出既结合当地实际,又面向全国收视用户的有指导性、借鉴意义的新闻。
实现新闻集合编排,制作适宜当地的节目编排,最大限度地贴近生活,从主题出发,对地方热点政策资讯和解析,地方文化艺术,地方事件深度报道,精准目标受众定位,建立认同感,体现原创性和接近性,推动当地经济、政治、文化等全面发展的同时,以小见大,引起全国关注,打造自己的品牌化新闻观点和报道模式。
实现新闻播出形式的有效调整,使更多的用户同时接收到最新的新闻信息,提高新闻传播的影响力和穿透力。
实现新闻花絮片段生存,提高新闻优势,增加关注度,更加深入了解收视观众的关注点集中部分,可以对一些受关注的特定事件提供后续报道,甚至开展专题报道,对今后的新闻内容选择有一定的参考价值,更好地体现新闻的价值,形成良性循环
实现用户舆情分析,增加用户粘度性,使收视率和节目影响力同时得到提升,更重要的是通过对关系民心向背的热点事件的报道分析,引导舆论导向,推动中国民风建设和法制建设。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.新闻数据内容特征获取系统,标签管理系统和媒资管理管理系统通过网络接口连接,其特征在于,所述标签管理系统包括数据获取模块和标签提取模块,所述数据获取模块获取电影内容信息,所述标签提取模块新闻视频、音频和文本标签,而后进行中文分词,标签清洗,最后标签入库,得到标签库;
提取新闻标签具体为,首先将电影内容数据按照电视新闻节目内容和互联网新闻节目内容进行类别划分;而后按照各类别进行级别划分,对级别划分的数据内容进行详细的数据采集,形成数据采集标签;
所述电视新闻节目内容包括节目基本信息、节目制作信息和节目类型信息三个级别,所述互联网新闻节目内容包括互联网新闻基本信息、互联网新闻题材信息、互联网用户信息和互联网用户来源信息四个级别。
2.根据权利要求1所述的新闻数据内容特征获取系统,其特征在于,电视新闻节目中的节目基本信息用于对新闻节目进行全面客观分析,了解新闻节目的市场情况与发展状况,发掘热点话题;
按照节目基本信息数据进行详细的数据采集,具体包括采集节目名称信息、节目曾用名、播出频道信息、节目类型信息、节目题材信息、节目摘要信息、节目关键词信息、节目内容、节目图片、节目视频、节目视频、节目时长、节目播出时间、节目频次、节目收视率、节目在线播放平台、节目弹幕、用户评论信息、合作伙伴信息、鸣谢信息、特别鸣谢信息、播出状态信息、发行时间信息和获奖记录信息,最终形成相应的数据采集标签。
3.根据权利要求2所述的新闻数据内容特征获取系统,其特征在于,所述节目制作信息给新闻节目的策划、制作和播出提供指导数据;
按照节目制作信息数据进行详细数据采集,具体包括采编组信息、编辑组信息、播音组信息、嘉宾组信息、制片组信息、导播组信息、灯光组信息、服装造型组信息、后期制作组信息、声音制作组信息和策划监制组信息;
对采编组信息的采集包括采集节目通讯员信息、特约撰稿人、文字记者、出镜记者、摄像记者、摄影记者和录音记者数据信息形成7个数据信息采集标签;
对编辑组信息的采集包括采集主编、执行主编、选题编辑、策划编辑、约稿编辑和责任编辑数据信息,形成6个数据采集标签;
对播音组信息的采集包括采集固定主持、代班主持、外景主持、解说播音员数据信息,形成4个数据采集标签;
对嘉宾组信息的采集包括采集现场邀请嘉宾、电话连续嘉宾、外景采访嘉宾数据信息,形成相应数据采集标签;
对制片组信息的采集包括采集总制片、制片、执行制片数据信息,形成相应的数据采集标签;
对导播组信息的采集包括采集编辑部导播、制作部导播、导播助理数据信息,形成相应地数据采集标签;
对灯光组信息的采集包括采集灯光指导、灯光师、灯光助理、灯光编程和灯光维修员数据信息,形成相应地数据采集标签;
对服装造型组信息的采集包括采集化妆师、化妆助理、造型师和服装师数据信息,形成相应地数据采集标签;
对后期制作组信息的采集包括采集后期剪辑、美术编辑、美工、动画特效、视觉包装、字幕制作和技术审定数据信息,并形成相应的数据采集标签;
对声音制作组信息的采集包括采集录音师、录音指导、录音助理、音频编辑、同期声处理、配音指导、背景音乐制作数据信息,形成相应的数据采集标签;
对策划监制组信息的采集包括采集总策划、策划、联合策划、总监制、监制、执行监制、监制助理、联合监制和行政监制数据信息,形成对应的数据采集标签。
4.根据权利要求3所述的新闻数据内容特征获取系统,其特征在于,通过节目类型信息深入了解各类新闻节目之间的联系与区别,为新闻节目的策划服务;
按照节目类型信息数据进行详细的数据采集,包括采集新闻资讯类数据、专题报道类数据、连续报道类数据、新闻评论类数据、访谈类数据、脱口秀类数据和国际新闻类数据;
所述采集专题报道类数据具体包括,采集调查式专题数据信息、专访式专题数据信息、综述式专题数据信息和深度专题数据信息,最终形成相应的数据采集标签;
所述采集连续报道类数据具体包括,采集重大事件连续报道数据信息和系列报道数据信息,最终形成相应的数据采集标签;
所述采集新闻评论类数据信息具体包括,采集新闻述评数据信息、电视辩论信息、深度分析信息和主持人评论信息,最终形成相应的数据采集标签;
所述采集访谈类数据信息具体包括,采集人物专访信息和谈话节目信息,最终形成相应的数据采集标签,最终形成相应的数据采集标签;
所述采集国际新闻类数据信息具体包括,采集国际新闻节目信息和对外新闻节目信息,最终形成相应的数据采集标签。
5.根据权利要求4所述的新闻数据内容特征获取系统,其特征在于,通过对新闻基本信息数据的分析,建立资源之间的关联,生成新闻话题;
对互联网新闻基本信息进行采集,具体包括采集,时间、标题、来源网站、被转载量、题材、内容提要、关键字、新闻内容、背景链接、相关新闻或延伸阅读信息、采编记者信息、摄影记者信息、主编信息、文字编辑信息、图表编辑信息、管理编辑信息、责任编辑信息、图片、视频、浏览量、点赞数、转发量、评论量和新闻评论数据信息,最终形成相应的数据采集标签。
6.根据权利要求5所述的新闻数据内容特征获取系统,其特征在于,通过将互联网新闻题材信息与新闻基本信息相关联,为网络新闻资源的管理、索引及推荐提供帮助;
所述对互联网新闻题材信息的采集包括,采集政治题材信息、军事题材信息、经济、法制、社会民主、体育、娱乐、农业、科技、教育、安全、医疗卫生、健康、旅游、文化艺术和历史地理题材信息,形成相应的数据采集标签。
7.根据权利要求5所述的新闻数据内容特征获取系统,其特征在于,通过采集互联网用户数据,分析用户的行为,挖掘用户需求以及用户与资源之间的关联,实现个性化推荐;
对互联网用户信息采集包括用户名、用户来源、用户性别、用户年龄、用户职业、用户所在地区、用户学历、用户偏好、关注量、粉丝量、在线时长、浏览记录和发表言论信息;
通过采集互联网用户来源信息以用户为纽带,实现互联网知识共享,同时综合了解网络用户在各大网站的分布情况,分析网络新闻门户网站的发展;
对互联网用户来源信息包括各个新闻门户网站信息。
8.包括权利要求1-7任一项所述获取系统的应用系统,其特征在于,还包括后台管理模块和新闻数据内容标签分析应用模块,所述后台管理模块对用户、消息、内容和标签进行管理;所述新闻数据内容标签分析应用模块包括新闻素材筛选模块、新闻编排模块、新闻播出形式模块、新闻花絮生成模块和舆情分析模块;
所述新闻素材分筛选模块,对搜集的大量新闻素材进行初步筛选,对具体事实有宏观观照,在全局形势下做出准确判断;同时,以数据分析内容,用数据采集标签准确定位,挖掘新闻选题抢占独家报道或寻找新闻佐证以拓展报道深度;发挥库存资料的作用,编辑配发背景新闻,增加报道深度;
所述新闻编排模块,将体现同一主题的相关新闻集合编排,丰富新闻的信息量,使内容更加饱满,主题更加深化;同时,从新闻主题出发,贴近当地生活,编排能够凸显地域风情和文化内涵的新闻内容,发挥“异质”的竞争优势;
所述播出形式模块包括滚动式播出模块和多重播式播出模块,具体为,所述播出形式模块以大数据分析用户收视习惯的服务,调整新闻播出形式;同时为满足不同收视习惯的用户需求,达到新闻传播宣传的最大化效果,实行滚动式多次播放的方式;对于突发事件和持续追踪事件,重播时滚动编排记者采回来的和互联网最新发布的最新消息,及时插入播出;
所述花絮生成模块,对每日的节目内容进行分时段收视分析,提取收视高峰时段的内容标签,生成摘要,花絮;
所述用户舆情分析模块,对节目播后的用户评论反馈,进行情感标签分析,评论热点分析,了解民众需求;挖掘预测舆论的热点话题,对百姓关心的标识性热点事件进行深度报道,为百姓释疑解惑。
9.一种权利要求1-8任一项所述获取的系统中的标签库,其特征在于,将新闻数据采集标签内容进行存储,具体包括,
新闻内数据分类表,对各级分类名进行存储,并以分类ID作为主键;
新闻节目基本信息表,存储节目基本信息,并以节目ID作为主键;
互联网新闻信息表,存储互联网新闻基本信息,并以新闻ID作为主键;
新闻节目类型信息表,存储节目类型信息,并以类型ID作为主键;
新闻题材信息表,存储新闻题材信息,并以题材ID作为主键
互联网用户基本信息表,存储用户信息,并以用户ID作为主键
互联网用户来源信息表,存储用户来源门户网站信息,以网站ID作为主键。
CN201710444315.9A 2017-06-13 2017-06-13 新闻数据内容特征获取系统及应用系统 Pending CN107231570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710444315.9A CN107231570A (zh) 2017-06-13 2017-06-13 新闻数据内容特征获取系统及应用系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710444315.9A CN107231570A (zh) 2017-06-13 2017-06-13 新闻数据内容特征获取系统及应用系统

Publications (1)

Publication Number Publication Date
CN107231570A true CN107231570A (zh) 2017-10-03

Family

ID=59935598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710444315.9A Pending CN107231570A (zh) 2017-06-13 2017-06-13 新闻数据内容特征获取系统及应用系统

Country Status (1)

Country Link
CN (1) CN107231570A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536673A (zh) * 2018-03-16 2018-09-14 数库(上海)科技有限公司 新闻事件抽取方法及装置
CN109582945A (zh) * 2018-12-17 2019-04-05 北京百度网讯科技有限公司 文章生成方法、装置及存储介质
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109740130A (zh) * 2018-11-22 2019-05-10 厦门市美亚柏科信息股份有限公司 用于生成文件的方法和装置
CN111078905A (zh) * 2018-10-22 2020-04-28 北京国双科技有限公司 一种数据处理方法、装置、介质以及设备
CN111291176A (zh) * 2018-12-06 2020-06-16 北京国双科技有限公司 一种热门事件的挖掘方法及装置
CN111507087A (zh) * 2018-05-31 2020-08-07 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置
CN113554762A (zh) * 2021-06-25 2021-10-26 广东技术师范大学 基于深度学习的短视频风格图像生成方法、装置及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1479227A (zh) * 2002-08-30 2004-03-03 黄庆祥 新闻自动服务系统及其方法
CN101159818A (zh) * 2007-10-29 2008-04-09 上海文广新闻传媒集团 一种基于二层结构的媒资系统
CN101980529A (zh) * 2010-09-21 2011-02-23 天栢宽带网络科技(上海)有限公司 支持三网融合的视频服务系统
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US20140366052A1 (en) * 2013-06-05 2014-12-11 David J. Ives System for Social Media Tag Extraction
CN105550277A (zh) * 2015-12-10 2016-05-04 中国传媒大学 基于标签热度的智能电影排名和评价系统
CN106250513A (zh) * 2016-08-02 2016-12-21 西南石油大学 一种基于事件建模的事件个性化分类方法及系统
CN106354857A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种新闻标签管理系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1479227A (zh) * 2002-08-30 2004-03-03 黄庆祥 新闻自动服务系统及其方法
CN101159818A (zh) * 2007-10-29 2008-04-09 上海文广新闻传媒集团 一种基于二层结构的媒资系统
CN101980529A (zh) * 2010-09-21 2011-02-23 天栢宽带网络科技(上海)有限公司 支持三网融合的视频服务系统
US20140366052A1 (en) * 2013-06-05 2014-12-11 David J. Ives System for Social Media Tag Extraction
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN105550277A (zh) * 2015-12-10 2016-05-04 中国传媒大学 基于标签热度的智能电影排名和评价系统
CN106250513A (zh) * 2016-08-02 2016-12-21 西南石油大学 一种基于事件建模的事件个性化分类方法及系统
CN106354857A (zh) * 2016-09-06 2017-01-25 中国传媒大学 一种新闻标签管理系统

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536673A (zh) * 2018-03-16 2018-09-14 数库(上海)科技有限公司 新闻事件抽取方法及装置
CN111507087A (zh) * 2018-05-31 2020-08-07 腾讯科技(深圳)有限公司 消息摘要的生成方法和装置
CN111078905A (zh) * 2018-10-22 2020-04-28 北京国双科技有限公司 一种数据处理方法、装置、介质以及设备
CN109740130A (zh) * 2018-11-22 2019-05-10 厦门市美亚柏科信息股份有限公司 用于生成文件的方法和装置
CN109740130B (zh) * 2018-11-22 2022-12-09 厦门市美亚柏科信息股份有限公司 用于生成文件的方法和装置
CN111291176A (zh) * 2018-12-06 2020-06-16 北京国双科技有限公司 一种热门事件的挖掘方法及装置
CN109635171A (zh) * 2018-12-13 2019-04-16 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109635171B (zh) * 2018-12-13 2022-11-29 成都索贝数码科技股份有限公司 一种新闻节目智能标签的融合推理系统和方法
CN109582945A (zh) * 2018-12-17 2019-04-05 北京百度网讯科技有限公司 文章生成方法、装置及存储介质
CN113554762A (zh) * 2021-06-25 2021-10-26 广东技术师范大学 基于深度学习的短视频风格图像生成方法、装置及系统
CN113554762B (zh) * 2021-06-25 2023-12-29 广州市粤拍粤精广告有限公司 基于深度学习的短视频风格图像生成方法、装置及系统

Similar Documents

Publication Publication Date Title
CN107231570A (zh) 新闻数据内容特征获取系统及应用系统
Sheffer et al. Paradigm shift or passing fad? Twitter and sports journalism
US20090089327A1 (en) System and method for social programming of media sources
CN102404612B (zh) 基于深度节目信息的epg系统及其实现方法
DE102008044635A1 (de) Vorrichtung und Verfahren zum Bereitstellen einer Fernsehsequenz
CN101296322A (zh) 体育赛事场记系统
CN101141607A (zh) 可用于iptv的互动关联方法及其实现系统
CN102890950B (zh) 媒体自动剪辑装置、方法、媒体播送方法与其播送系统
CN111325516A (zh) 一种多媒体资讯大数据管理平台
CN113841418A (zh) 动态视频精彩场面
CN105230035A (zh) 用于选择的时移多媒体内容的社交媒体的处理
Ridout et al. Politics as usual? When and why traditional actors often dominate YouTube campaigning
CN101521742A (zh) 一种电影卡拉ok制作方法及其vod点播系统制作
CN107404671A (zh) 电影内容特征获取系统及应用系统
CN206136100U (zh) 字幕协同编辑设备和字幕协同编辑系统
CN102214227A (zh) 基于互联网层次结构存储的自动舆情监控方法
CN109272286B (zh) 一种面向SaaS多租户以剧本为核心的云端影视项目管理方法与系统
KR20090099439A (ko) 멀티미디어 콘텐츠 정보에 포함된 메타 정보 기반 키워드광고 서비스 방법 및 그 서비스를 위한 시스템
Miyamori et al. Webified video: media conversion from tv programs to web content for cross-media information integration
CN201256430Y (zh) 电影卡拉ok片源制作装置
DE102021127417A1 (de) Füllen zeitlicher lücken unter verwendung personalisierter einspielbarer medien
CN107368529A (zh) 专题片数据内容特征获取系统及标签库
DE112020000120T5 (de) Systeme und verfahren zur reduzierung der bestätigungsanfragen in rundfunkübertragungsnetzen
Kaneko et al. AI-driven smart production
JP6621691B2 (ja) コンテンツ表示制御装置、コンテンツ表示制御装置の制御方法、トピック管理システム、制御プログラム、および記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171003

RJ01 Rejection of invention patent application after publication