CN111538896B

CN111538896B - 基于深度学习的新闻视频细粒度标签智能提取方法

Info

Publication number: CN111538896B
Application number: CN202010171157.6A
Authority: CN
Inventors: 柴焱; 黄正兵; 李玥; 陈利涛; 钟忆
Original assignee: Chengdu Yunfan Shulian Technology Co ltd
Current assignee: Chengdu Yunfan Shulian Technology Co ltd
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2021-04-27
Anticipated expiration: 2040-03-12
Also published as: CN111538896A

Abstract

本发明涉及一种基于深度学习的新闻视频细粒度标签智能提取方法，利用新闻视频多动态特征进行细粒度的关键帧图片标签提取然后到视频标签汇总提取的方法。目的在于通过人工智能技术与机器训练的方法，对非结构化的视频数据进行结构化的分析，根据视音频的镜头信息、场景信息、语音信息及文字信息，智能生成的视频内容摘要提取，通过算法解析从而实现了自动的对新闻节目的视频标签生成，解决了新闻视音频的快速视频标签提取，极大的提高了新闻视频的二次加工以及传播效率。

Description

基于深度学习的新闻视频细粒度标签智能提取方法

技术领域

本发明涉及新闻视频提取，具体涉及一种基于深度学习的新闻视频细粒度标签智能提取方法。

背景技术

随着广播电视、互联网视听节目、短视频等视频网站的发展，视频节目播出的数量也逐年激增，节目视频资料种类繁多、包罗万象。政治、经济、任务、新闻、文艺、体育、教育、健康、法制、科技、青少等等，触及社会各个领域。由于存储的容量和编目不规整的限制，面临视频库的容量爆炸及热点事件查找不易的问题。目前对视频的管理大多采用人工编目标注的方式，由大量的人工进行视频标签的抽取，人力对海量的视频处理，无法从节目层精确到镜头层，也造成了人力资源的浪费，花费成倍的时间来完成编目的制作，也无法有效的对海量的视频进行有效的再次利用和加工。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习的新闻视频细粒度标签智能提取方法，利用新闻视频多动态特征进行细粒度的关键帧图片标签提取然后到视频标签汇总提取的方法。目的在于通过人工智能技术与机器训练的方法，对非结构化的视频数据进行结构化的分析，根据视音频的镜头信息、场景信息、语音信息及文字信息，智能生成的视频内容摘要提取，通过算法解析从而实现了自动的对新闻节目的视频标签生成，解决了新闻视音频的快速视频标签提取，极大的提高了新闻视频的二次加工以及传播效率。

本发明的目的是通过以下技术方案来实现的：

一种基于深度学习的新闻视频细粒度标签智能提取方法，该方法包括：

S1：从视频中提取固定数量的关键帧；

S2：通过与训练好的图片标签模型库对关键帧生成相应的文本描述，提取文本特征得到该关键帧的初步关键帧短词；

S3：将得到的初步关键帧短词使用THULAC算法进行中文切词，根据预定义的不同词性划分成不同的词组分类；

S4：基于词语分类熵过滤的TF-IDF算法对S3中的词组数据计算词频，得出相应标签出现的热度次数，根据词语的分类熵设置不同的权重系数来修正TF-IDF值，得到该关键帧标签的热度信息；

S5：将各标签按照热度值排序，将热度值较高的前N个标签作为该关键帧的标签输出；

S6：重复S2-S5完成各关键帧图像的标签输出，得到视频的多维细粒度标签集合。

进一步的，所述关键帧提取是通过人脸、语音、服装、场景、ocr提取并形成的视频关键帧图像信息集合。

进一步的，所述固定数量取值以10分钟时长的新闻视频为例固定数量取值在200~600个区间，初始阈值按照1~3秒一个间隔进行计算（阈值可调整）。

进一步的，所述S2-S5是根据视频时间顺序对关键帧依次进行分析处理。

进一步的，所述S5中各标签按热度值由高到低排序，取前N个标签作为该关键帧的标签输出。

进一步的，所述多维细粒度标签集合中的每个标签都具有时码信息。

本发明的有益效果是：本发明利用训练好的图像标签模型库对提取的关键帧进行自动识别，从而生成该关键帧的关键词描述，即关键帧标签，通过多维关键帧的分析，得到新闻视频的多维细颗粒度标签，能实现的海量新闻类视频的自动标签提取，极大的提高了新闻的二次加工以及传播效率。

附图说明

图1 为本发明的流程结构示意图。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

基于深度学习新闻多动态特征的智能视频细粒度标签提取的方法,其原理是通过对视频数据进行动态特征提取、内容理解和结构分析并采用视频分割技术将连续的视频信息划分和标注为具有特定语义的视频片段，针对每一个片段信息基于规则引擎以及深度学习的引擎与行业知识库和案例库进行匹配和清洗，最大限度的提高识别的准确性，通过分析推理形成视频的标签信息。

步骤1：先从视频中提取固定数量的关键帧，视频初始化后通过人脸、语音、场景、ocr等信息提取并形成视频的关键帧图像信息集合。

步骤2：从视频关键帧图像进行分析形成初步关键帧短词，通过与训练好的图片标签模型库对关键帧图像生成描述，然后将文本描述组合起来，提取文本特征并用分类方法进行分类，得到初步关键帧结果。

步骤3：把形成的关键帧短词使用THULAC算法进行中文切词，根据预定义的不同词性划分成一个个不同的词组分类里。

步骤4、基于词语分类熵过滤的TF-IDF算法对视频多维词组集合的数据进行计算词频，计算标签出现的热度次数，根据词语的分类熵设置不同的权重系数来修正TF-IDF值，提高热度描述计算的准确性，形成视频关键信息的热度词语既关键帧标签的热度信息。其中TF的计算方式是：

，即该词（w）在文档（d）出现的次数除以文档的总次数，IDF的计算方式

，即文档数（n）除以出现该词的文档数（docs(w,D)），求对数，TF*IDF既为TFIDF的结果，然后加上其他的分类特征权重，如词性，是否为英文或者数字等特征，综合加权计算每个词的评分，从而调整关键词的权重。

步骤5、按照热度排序，将关键帧图片的最多前N个标签，输出作为视频标签。

步骤6、重复以上步骤完成视频所有关键帧的短词生成和分类并形成针对视频的多维细粒度的标签集合。

基于以上原理和主要方法步骤，并结合递进式自我学习训练的规则获取和生成视频标签,实现对视频标签的自动生成。

实例演示：

以一段15分钟的《焦点访谈》万众一心共同战“疫”的新闻视频为例，举例说明视频标签的提取过程和结果：

步骤A：根据视频转场识别技术等方式从原视频中提取若干要处理的关键帧，通过对视频分析获取结合人脸、视频中的音频、场景、ocr等信息，通过算法处理形成300多个关键帧图片的信息集合。

步骤B：从300多个关键帧图片集合中，按时间顺序选取一个进行该关键帧的图片分析，比如抽取的这个关键帧图片，通过步骤2的方法得到这个图片的若干关键词结果；

[把人民群众生命安全和身体健康放在第一位、CCTV13、新闻、主持人、侯丰、焦点访谈、xxx亲自指挥亲自部署（来自该图片所在时间序列的音频信息）、西服、领带、背景墙等]。

步骤C：根据步骤3进行关键词的分类和切分，将上面的关键词进行分词和归类，比如“把人民群众生命安全和身体健康放在第一位”这句分成了把人民、群众、人民群众、生命、安全、生命安全、身体、健康、体健康、第一位等，并且进行词语词性的归类。

步骤D：根据步骤4进行词频和热度次数统计计算，并且将结果进行标记，如人民群众热度是x、生命安全热度为y 依次内推进行标记。

步骤E：根据热度排序通过调整我们的阈值N（N可以根据不同类型视频类型进行设定调整）来设定该关键帧图片信息输出的标签信息为：焦点访谈、侯丰、人民群众、生命安全、身体健康、放在第一位、xxx亲自指挥亲自部署等；

步骤F：重复以上步骤，完成对所有关键帧的分析、通过综合匹配、交叉比对等方式处理，最终形成视频分类：[国际新闻] 视频标签：[疫情防控工作、新型冠状病毒、肺炎等等]，并且每个关键词都具有时码信息，能通过标签查看关键词在视频中的出现的位置等信息。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于深度学习的新闻视频细粒度标签智能提取方法，其特征在于，该方法包括：

S1：从视频中提取固定数量的关键帧；

S2：通过与训练好的图片标签模型库对关键帧生成相应的文本描述，提取文本特征得到所述关键帧的初步关键帧短词；

S4：基于词语分类熵过滤的TF-IDF算法对S3中的词组数据计算词频，得出相应标签出现的热度次数，根据词语的分类熵设置不同的权重系数来修正TF-IDF值，得到所述关键帧标签的热度信息；具体为：

其中TF的计算方式是：

，即所述词语w在文档d出现的次数除以文档的总次数，IDF的计算方式

，即文档数n除以出现所述词语的文档数docs(w,D)，求对数，TF*IDF既为TFIDF的结果，然后加上分类特征权重，综合加权计算每个词的评分，从而调整关键词的权重；

S5：将各标签按照热度值排序，将热度值高的前N个标签作为所述关键帧的标签输出；

2.根据权利要求1所述的基于深度学习的新闻视频细粒度标签智能提取方法，其特征在于，所述关键帧提取是通过人脸、语音、服装、场景、ocr提取并形成的视频关键帧图像信息集合。

3.根据权利要求2所述的基于深度学习的新闻视频细粒度标签智能提取方法，其特征在于，所述固定数量取值与新闻视频时长相关，初始阈值按照1~3秒一个间隔进行计算，以10分钟时长的新闻视频为例固定数量取值在200~600个区间。

4.根据权利要求1所述的基于深度学习的新闻视频细粒度标签智能提取方法，其特征在于，所述S2-S5是根据视频时间顺序关键帧依次进行分析处理。

5.根据权利要求1所述的基于深度学习的新闻视频细粒度标签智能提取方法，其特征在于，所述S5中各标签按热度值由高到低排序，取前N个标签作为该关键帧的标签输出。

6.根据权利要求1所述的基于深度学习的新闻视频细粒度标签智能提取方法，其特征在于，所述多维细粒度标签集合中的每个标签都具有时码信息。