CN113918790A

CN113918790A - 自动生成新闻频道信息的方法、装置、设备及存储介质

Info

Publication number: CN113918790A
Application number: CN202111273108.4A
Authority: CN
Inventors: 叶正; 胡志博; 覃俊; 刘晶; 葛君
Original assignee: South Central University for Nationalities
Current assignee: South Central Minzu University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-11

Abstract

本发明公开了一种自动生成新闻频道信息的方法、装置、设备、及存储介质，所述方法包括获取目标新闻主题的源新闻标题，按各源新闻标题的时间顺序分别爬取相应的内容，将数据库中不存在的网络地址对应的源新闻标题作为目标源新闻标题，针对各目标源新闻标题从已爬取的内容中确定新闻基本信息，并选择若干句子来生成目标新闻主题的新闻摘要；将新闻摘要的文本内容转化为语音信息；通过各目标源新闻标题的网络地址来爬取所述目标新闻主题相关的新闻事件图片；根据新闻摘要的文本内容、语音信息、以及新闻事件图片合成目标新闻主题视频；本方法能够自动对当前正在被讨论的热点新闻进行整合，并能自动加工成音视频，显著的减轻了新闻行业的人工劳动量。

Description

自动生成新闻频道信息的方法、装置、设备及存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种自动生成新闻频道信息的方法、装置、设备、及存储介质。

背景技术

随着技术的发展，人们获取新闻信息的渠道和方式也逐渐在改变，从传统的报纸书刊、广播电视，到互联网兴起时的门户网站以及目前社交平台上的新闻播报。每一次的改变，对先有的技术都是一次提升和改进。

目前这些渠道的新闻更多地是报道当下事件的进展和状况，很少追溯事件的前因，让听众对事件有整体的了解。虽然在社交平台上新闻播报有所改善，尽可对相关事件进行挖掘，但是通常依靠人工查找资料，进行关键信息提取，并汇总成新的文字，因此需要投入较多的人力，效率较低。高投入低回报的特点导致不会有人专门去做这些工作。如果读者只想要简单了解和当天新闻有关的资料，通常情况下只能自己去搜索相关内容。由于现在的搜索引擎不一定是按照精准匹配进行推送，读者还需要自己筛选哪些是有关的，哪些是无关的，浪费精力和时间。

发明内容

本发明的主要目的在于提供一种自动生成新闻频道信息的方法、装置、设备、及存储介质，用以解决上述技术问题。

第一方面，本发明提供一种自动生成新闻频道信息的方法，所述方法包括以下步骤：

步骤S1：确定目标新闻主题；分别获取所述目标新闻主题对应的不同的源新闻标题，按各源新闻标题的时间顺序分别爬取相应的内容；判断各源新闻标题的网络地址是否已经存在数据库中；

步骤S2：将所述数据库中不存在的网络地址对应的源新闻标题作为目标源新闻标题，针对各目标源新闻标题，从已爬取的内容中确定新闻基本信息，并从已爬取的内容中选择若干句子来生成所述目标新闻主题的新闻摘要，并将所述新闻基本信息和所述新闻摘要存储到所述数据库中；

步骤S3：将所述新闻摘要的文本内容转化为语音信息，并将所述语言信息保存；

步骤S4：通过各目标源新闻标题的网络地址来爬取所述目标新闻主题相关的新闻事件图片，将爬取的新闻事件图片保存在所述数据库中；

步骤S5：根据所述新闻摘要的文本内容、所述语音信息、以及所述新闻事件图片合成目标新闻主题视频；

步骤S6：将生成的所述目标新闻主题视频插入到当前新闻，标明所述目标新闻主题的标题以及相应时间，生成所述目标新闻主题相关的的专属频道信息。

优选地，如权利要求1一种新闻频道信息自动生成的方法，其特征在于，在所述步骤S1中采用增量式爬虫的方式爬取源新闻标题的新闻内容，具体包括：

使用预设网络爬虫工具，所述预设网络爬虫工具从启动到关闭期间设立一个网络地址集合，将所述预设网络爬虫工具运行期间爬取过的网络地址放入所述网络地址集合，每次对待处理网络地址发起请求时，将待处理的网络地址与所述网络地址集合中已有的网络地址进行比对，并过滤掉爬取过的重复网络地址。

优选地，所述步骤S2中生成所述目标新闻主题的新闻摘要的步骤为：

摘要采用提取式的算法，计算出各句子的权重，根据各句子的权重选择若干句子拼接成段作为此新闻的摘要，其中，各句子权重的通过以下公式计算获得：

其中，d为阻尼系数，S₀为源新闻标题中的词和句子中的词重复的个数，S_i为第i个句子中的词数，In(V_i)和Out(V_j)分别为指向节点V_i的节点集合和从节点V_i出发边指向的节点集合，WS(V_i)表示节点V_i的rank值，WS(V_j)表示节点V_j的rank值，w_ji表示V_j到V_i的权值即句子之间的相似度，W_jk表示V_j到V_k的权值；通过S₀和S_i的比例实现新闻标题对句子权重的影响。

优选地，所述步骤S4还包括：

在每次爬取所述目标新闻主题相关的当前新闻事件图片时，将对应的网络地址中的预设字段进行去除并缓存，得到待比对网络地址；

在爬取所述目标新闻主题相关的下一新闻事件图片时，比较两待比对网络地址之间的差异：

若比较结果为无差异，则跳过当前步骤并继续爬取下一新闻事件图片；若

比较结果为存在差异，则执行将爬取的新闻事件图片保存在所述数据库中的步骤。

优选地，在所述步骤S5中，以所述新闻摘要的文本内容作为所述目标新闻主题的字幕，以所述语言信息作为所述目标新闻主题的音频，以新闻事件图片作为所述目标新闻主题视频的背景。

可选地，所述步骤S5之前，还包括：

响应用户输入的查询请求，从所述数据库中查找相应的新闻主题视频，并对查找到的已合成目标新闻主题视频进行展示；

在接收到用户对视频的选定操作之后，执行所述步骤S6的步骤。

第二方面，本发明还提出一种自动生成新闻频道信息的装置，所述装置包括：

爬虫模块：用于确定目标新闻主题；分别获取所述目标新闻主题对应的不同的源新闻标题，按各源新闻标题的时间顺序分别爬取相应的内容；判断各源新闻标题的网络地址是否已经存在数据库中；

自动摘要模块：若确定所述数据库中不存在的网络地址对应的目标源新闻标题，则针对各目标源新闻标题，从已爬取的内容中确定新闻基本信息，并从已爬取的内容中选择若干句子来生成所述目标新闻主题的新闻摘要，并将所述新闻基本信息和所述新闻摘要存储到所述数据库中；

合成视频模块：将所述新闻摘要的文本内容转化为语音信息，并将所述语言信息保存；通过各目标源新闻标题的网络地址爬取所述目标新闻主题相关的新闻事件图片，将爬取的新闻事件图片保存在所述数据库中；根据所述新闻摘要的文本内容、所述语音信息、以及所述新闻事件图片合成目标新闻主题视频；

视频发布模块，用于响应用户输入的查询请求，从所述数据库中查找相应的新闻主题视频，并对查找到的已合成目标新闻主题视频进行展示；在接收到用户对视频的选定操作之后，将生成的所述目标新闻主题视频插入到当前新闻，标明所述目标新闻主题的标题以及相应时间，生成所述目标新闻主题相关的的专属频道信息。

第三方面，本发明还提出一种自动生成新闻频道信息的设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自动生成新闻频道信息的程序，所述程序配置为实现如上任一项所述的自动生成新闻频道信息方法的步骤。

第三方面，本发明还提出一种存储介质，所述存储介质上存储有自动生成新闻频道信息的程序，所述程序被处理器执行时实现如上所述的自动生成新闻频道信息方法的步骤。

本发明提供一种可以自动整合以往的新闻内容摘要并且可以自动以音视频播报的方法，能够对当前正在被讨论的热点新闻进行整合，且能够找到过往有关的信息，整理总结成简要的文字，并加工成音视频，更符合当下快餐式获取信息的方式。在当下热点新闻的基础上找到过往的新闻，将它们转为新闻摘要，并且生产出新的音视频。通过对这种方法的实现，来提高获取信息的效率，显著的减轻了新闻行业的人工劳动量。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图；

图2为本发明自动生成新闻频道信息方法第一实施例的流程示意图；

图3为本发明实施例中数据库的实体联系图；

图4为本发明自动生成新闻频道信息方法实施例的又一流程示意图；

图5为本发明自动生成新闻频道信息装置第一实施例的功能模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示，该自动生成新闻频道信息设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005；其中，通信总线1002用于实现这些组件之间的连接通信；用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口；网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)；存储器1005可以是高速RAM存储器，也可以是稳定的存储器(Non-Volatile Memory)，例如磁盘存储器；存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对该设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在具体实现中，所述自动生成新闻频道信息设备可以为ESP控制器，也可以为车载电脑，还可以为实现自动生成新闻频道信息功能的其他设备或终端，例如中控单元或远端服务器，本实施例对此不加以限制。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及自动生成新闻频道信息程序。

本发明设备通过处理器1001调用存储器1005中存储的自动生成新闻频道信息程序，并执行所述自动生成新闻频道信息方法的操作步骤。

基于上述硬件结构，提出本发明自动生成新闻频道信息方法实施例。

参照图2，图2为本发明自动生成新闻频道信息方法第一实施例的流程示意图。

在执行本发明自动生成新闻频道信息方法之前，会建立一个关系型数据库，关系型数据库的E-R图如图3所示：

创建新闻事件数据库：News_event；创建新闻图片库：News_picture；创建新闻音频库：News_audio。这里以网易新闻为例，用想要生成新闻频道的热点新闻的标题在网易新闻中搜索有关此新闻的文章，搜索的结果是爬取的目标数据。由源新闻标题爬取的新闻数据在存储到News_event的时候加入label字段，label字段的内容为源新闻标题，用来标记同频道的内容。

此外，新闻页面有好几种结构，这就需要编写不同的xpath表达式解析不同的页面，并且在程序中判断应用哪一个xpath表达式。采用xpath提取出新闻文本，拼接成一整段字符串，并且部分新闻最后的参考文献严重影响自动摘要效果，用rsplit方法去除。下面是一个返回数据的示例：

新闻列表接口返回数据

进一步的，在本发明自动生成新闻频道信息方法的第一实施例中，所述自动生成新闻频道信息方法包括以下步骤：

可理解的，本实施例的执行主体为上述自动生成新闻频道信息的设备，首先根据不同的源新闻标题，按时间顺序爬取有关的内容，判断是否当前url(网络地址)是否已经存在新闻事件数据库中；

具体地，本实施例采用增量式爬虫的方式爬取源新闻标题的新闻内容：

使用预设网络爬虫工具Scrapy，Scrapy从启动到关闭期间会设立一个url网络地址集合set，将Scrapy运行期间爬取过的url网络地址放入所述网络地址集合set中，每次对某个待处理的网络地址url发起请求时，将待处理的网络地址与所述网络地址集合set中已有的网络地址进行比对，并过滤掉爬取过的重复网络地址。也就是说，Scrapy从启动到关闭会维护一个集合，将运行期间爬取过的url放入集合，每次对某个url发起请求都要在set集合中比对。启动爬虫时，将数据库中爬取的url存入集合，过滤掉爬取过的url。

步骤S2、将所述数据库中不存在的网络地址对应的源新闻标题作为目标源新闻标题，则针对各目标源新闻标题，从已爬取的内容中确定新闻基本信息，并从已爬取的内容中选择若干句子来生成所述目标新闻主题的新闻摘要，并将所述新闻基本信息和所述新闻摘要存储到所述数据库中；

可理解的是，若S1判断数据库中没有当前url，则选择若干句子生成新闻摘要，将摘要和新闻基本信息存储到数据库中；

本实施例摘要采用提取式的算法，计算出各句子的权重，选择最重要的若干句子拼接成段作为此新闻的摘要。此步骤中获取的摘要数量可以根据实际情况进行改动。

本实施例在具体实现中，进行自动摘要之前首先判断文章的总长度是否小于200字，如果文章长度小于200字，则整篇作为新闻摘要。如果文章长度大于200字，则将200字作为最大的摘要长度，选取5个权值最高的句子作为摘要，若总字数大于其规定摘要长度，则去掉权值较小的一句，直到满足字数要求，如果只剩下最后一句，长度还是超出要求，那么就使用这一句作为新闻的摘要。

需要说明的是，在本实施例的TextRank算法中，计算句子权重的同时加入对新闻标题的考虑，按照和标题的相关度适当增加句子的权重，可以使自动摘要的结果更加合理。其中，各句子权重的通过以下公式计算获得：

考察句子相似度的公式如下：

公式中，S_i和S_j分别表示两个句子词的总数，w_k表示句子中的词，分子部分的意思是同时出现在两个句子中的同一个词的个数，分母是对句子中词的个数求对数之和。分母的设计可以遏制较长句子在相似度计算上的优势。根据以上相似度公式循环计算任意两个节点之间的相似度，根据阈值去掉两个节点之间相似度较低的边连接，构建出节点连接图，然后计算TextRank值，最后对所有TextRank值排序，选出TextRank值最高的5个节点对应的句子作为摘要。

自动摘要后的数据存储在新闻事件数据库News_event对应新闻的abstract字段中。

本步骤通过计算文章中各个句子的权值，选取较高权值的句子，来实现对新闻文本的自动摘要，通过对TextRank算法的改进，使新闻自动摘要有更好的效果。

步骤S3、将所述新闻摘要的文本内容转化为语音信息，并将所述语言信息保存；

具体地，将摘要的文本内容通过语音合成技术转化为语音并以MP3格式进行保存。本步骤可以使用已经成熟的预言转化工具，本实施例在此不予赘述。

步骤S4、通过各目标源新闻标题的网络地址爬取所述目标新闻主题相关的新闻事件图片，将爬取的新闻事件图片保存在所述数据库中；可参考附图4；

可理解的，本步骤以百度图为例，本步骤可以将title字段作为关键字请求百度图片，获取到百度图片返回的json数据后，解析出图片url后逐个下载保存，爬取到30张即可结束流程。

需要说明的是，部分图片url虽然不同，但是图片内容有可能会相同，导致有较高的重复率。解决办法：将url中“？sec＝”直到结尾处的部分切去然后缓存，爬取下一个图片时对比一下，若一致则跳过，除此之外，每个url有20％的概率直接跳过。这种方式可以有效降低图片内容的重复率；

具体地，本步骤在每次爬取所述目标新闻主题相关的当前新闻事件图片时，将对应的网络地址中的预设字段进行去除并缓存，得到待比对网络地址；在爬取所述目标新闻主题相关的下一新闻事件图片时，比较两待比对网络地址之间的差异：若比较结果为无差异，则跳过当前步骤并继续爬取下一新闻事件图片；若比较结果为存在差异，则执行将爬取的新闻事件图片保存在所述数据库中的步骤。

假设因为最终生成的视频尺寸为540x1080，所以要将图片等比例放大或缩小到宽度为540像素保存到News_picture中，路径为create_time字段类型序列化为字符串，然后与根路径拼接。

具体的，以所述新闻摘要的文本内容作为所述目标新闻主题的字幕，以所述语言信息作为所述目标新闻主题的音频，以新闻事件图片作为所述目标新闻主题视频的背景。

在具体实现中，将新闻对应的音频时长作为整个视频的时长，使用大小为540x1080像素、RGB值为(88,88,88)作为视频背景，将标题添加到视频下方合适位置，将字幕拆分为一段一段动态添加到视频上方合适位置，在对应create_time的News_picture中取出图片素材，最后随机选取一个特效添加到视频中。

在视频合成过程中，多张图片的切换可以随机采用上下变速移位、淡入淡出、旋转、左右匀速平移、剪切等退场入场的方式进行处理。

可理解的，目前绝大部分类似的方法和系统在自动生成视频之前需要人工挑选模板，而本实施例方法使用依据新闻标题中的关键词爬取的图片作为背景，加上转场动画的随机处理，可以省去人工制作短视频的时间，包括挑选模板的过程，更显著的减轻了新闻行业的人工劳动量。

具体地，将生成的新视频按照时间倒序插入到当前新闻的末尾，标明当时新闻的标题以及时间，生成相关新闻的专属频道。

本实施例提供一个可以自动整合以往的新闻内容摘要并且可以自动以音视频播报的方法，能够对当前正在被讨论的热点新闻进行整合，且能够找到过往有关的信息，整理总结成简要的文字，并加工成音视频，更符合当下快餐式获取信息的方式。在当下热点新闻的基础上找到过往的新闻，将它们转为新闻摘要，并且生产出新的音视频。通过对这种方法的实现，来提高获取信息的效率，显著的减轻了新闻行业的人工劳动量。

进一步地，基于本发明自动生成新闻频道信息方法第一实施例，提出本发明自动生成新闻频道信息方法第二实施例，在本实施例中，所述步骤S10具体包括以下步骤：

所述步骤S5之前，还包括：响应用户输入的查询请求，从所述数据库中查找相应的新闻主题视频，并对查找到的已合成目标新闻主题视频进行展示；在接收到用户对视频的选定操作之后，执行所述步骤S6的步骤。

需要说明的是，本发明的第二方法实施例属于一个后台管理功能，用于管理新闻数据，管理员(即用户)登录后可以实现对当日新闻及新闻资料的爬取，获取到的内容可以根据关键词进行模糊查询，设定时间段的筛选条件可以查看不同时间段的数据。可以对生成的视频和频道进行预览，确认视频的完整性之后可以选择发布。

本实施例中，当用户直接通过url访问后台管理时，会被拦截并且跳转到登录界面，直到用户登录后才能正常访问其他页面。

所有的数据以表格的形式在管理员页面中居中显示，表头依次为ID、title、abstract、create_time、label、function。表格上方有查询功能，可以通过title关键词进行模糊查询，同时可以添加时间段筛选条件。勾选“频道”之后只显示有频道的源新闻数据，查询后的数据可以点击“发布”按钮，实现新闻频道的一键发布。在function一栏中，所有的数据都有“预览视频”按钮，可以预览自动生成的视频。在字段title和label一致的数据中，function中多了一个“预览频道”的按钮，可以预览生成的新闻频道。

相应地，本发明还提供一种自动生成新闻频道信息的装置第一实施例，对应上述自动生成新闻频道信息方法第一实施例，

如图5所示，所述装置包括：

合成视频模块：将所述新闻摘要的文本内容转化为语音信息，并将所述语言信息保存；通过各目标源新闻标题的网络地址爬取所述目标新闻主题相关的新闻事件图片，将爬取的新闻事件图片保存在所述数据库中；根据所述新闻摘要的文本内容、所述语音信息、以及所述新闻事件图片合成目标新闻主题视频。

进一步地，基于上述自动生成新闻频道信息的装置第一实施例，提出本发明装置第二实施例，对应上述方法第二实施例：

本实施例中，所述装置还包括：

本实施例的这个装置可以对当前正在被讨论的热点新闻进行整合，最主要的是可以找到过往有关的信息，整理总结成简要的文字，并加工成音视频，更符合当下快餐式获取信息的方式。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种自动生成新闻频道信息的方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1一种新闻频道信息自动生成的方法，其特征在于，在所述步骤S1中采用增量式爬虫的方式爬取源新闻标题的新闻内容，具体包括：

3.如权利要求1一种新闻频道信息自动生成的方法，其特征在于，所述步骤S2中生成所述目标新闻主题的新闻摘要的步骤为：

4.如权利要求1一种新闻频道自动生成的方法，其特征在于，所述步骤S4还包括：

5.如权利要求1一种新闻频道自动生成的方法，其特征在于，在所述步骤S5中，以所述新闻摘要的文本内容作为所述目标新闻主题的字幕，以所述语言信息作为所述目标新闻主题的音频，以新闻事件图片作为所述目标新闻主题视频的背景。

6.如权利要求1一种新闻频道自动生成的方法，其特征在于，所述步骤S5之前，还包括：

7.一种自动生成新闻频道信息的装置，其特征在于，所述装置包括：

8.如权利要求7所述装置，其特征在于，所述装置还包括：

9.一种自动生成新闻频道信息的设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的自动生成新闻频道信息的程序，所述程序配置为实现如权利要求1至6中任一项所述的自动生成新闻频道信息方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有自动生成新闻频道信息的程序，所述程序被处理器执行时实现如权利要求1至6中任一项所述的自动生成新闻频道信息方法的步骤。