CN113434727A - 一种新闻类长视频描述数据集构建方法 - Google Patents

一种新闻类长视频描述数据集构建方法 Download PDF

Info

Publication number
CN113434727A
CN113434727A CN202110852417.0A CN202110852417A CN113434727A CN 113434727 A CN113434727 A CN 113434727A CN 202110852417 A CN202110852417 A CN 202110852417A CN 113434727 A CN113434727 A CN 113434727A
Authority
CN
China
Prior art keywords
video
news
long video
data set
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110852417.0A
Other languages
English (en)
Inventor
伍家松
闻婷
孔佑勇
杨淳沨
杨冠羽
姜龙玉
陈阳
舒华忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Publication of CN113434727A publication Critical patent/CN113434727A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种新闻类长视频描述数据集的构建方法,该方法的主要特征在于把新闻类长视频构建成包含视频、视频标题、音频、中英文文本的数据集;该方法基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,使用FFmpeg完成音频的提取,并基于Python和selenium制作了一个语音识别工具来自动识别音频中包含的有效文本信息,最后通过脚本自动将视频片段、视频标题、音频、中英文文本信息组合形成一个新闻类长视频描述数据集,为长视频描述网络的研究以及长视频描述在为视频拟定标题方面的应用提供了支持。

Description

一种新闻类长视频描述数据集构建方法
技术领域
本发明涉及一种新闻类长视频描述数据集构建方法,属于数字图像处理、深度学习领域。
背景技术
长视频描述,即对单个视频长度在30秒至2分钟之间的视频进行高效合理的分析和理解,从而生成高层语义上的描述语句,是当前计算机视觉和自然语言处理领域的一个新兴研究方向。长视频描述技术广泛应用于实际生活场景中,最常见的应用是直接对一段长视频生成描述,比如对电影中的部分片段生成描述语句。随着语音合成的技术越来越成熟,将其与长视频描述相结合,可帮助视障人士读出电影描述。此外,长视频描述技术还为其他智能应用领域及产品提供了支撑,如视频检索、人机交互和交通安防等应用场景。
由于计算机和网络基础设施的最新发展以及数字视频技术的广泛应用,图像、视频等多媒体信息广泛流传于网络。科研工作者可以组织利用互联网上现有的大量视频信息提出更加健壮的模型和算法,实现长视频描述的功能。目前用于视频描述的数据集大多来源于国外社交网站,语言种类为英语,且单个视频时长较短,单个视频的时长在10秒至20秒之间,例如MSR-VTT、YouTube2Text、TVSum和SumMe等。现有的中文版本长视频描述数据集极少,且暂无新闻类的长视频描述数据集。
另外,长视频描述工作需要大量经过人工标注的视频文件、音频文件、以及文本形式的描述文件,这些文件要经过模型和算法来进行有效信息的提取并生成高层语义上的描述语句,因此对数据集的格式规范要求较高。而人工标注不仅费时费力,且面临巨大的格式错误风险,为了使得数据集规范有序且提高数据集构建的效率,因此自动化且高效的长视频描述数据集构建方法是十分必要的。
发明内容
本发明的目的正是针对现有技术中存在的问题,提出了一种新闻类长视频描述数据集的构建方法,能够批量自动化地实现对新闻类长视频描述数据集的构建,以解决现有技术中需要大量人工标注数据集的问题,规避了人工标注带来的错误风险,同时弥补了中英文新闻类长视频描述数据集的稀缺的问题。此方法可以批量自动化对原始新闻视频进行视频、音频、文本信息多模态角度的处理,极大地提高了构建新闻类长视频描述数据集的效率。
为实现上述目的,本发明的技术方案如下:
本发明提供一种新闻类长视频描述数据集构建方法,具体步骤如下:
步骤1)收集长视频片段以及中文新闻标题;
具体如下:
1.1)在某电视台官网下载新闻类长视频片段;
1.2)筛选时长在30秒至2分钟之间的长视频片段并保存;
1.3)自动提取出下载后长视频片段的视频标题并保存。
步骤2)利用OpenCV和FFmpeg全自动剪裁长视频文件;
步骤3)利用FFmpeg提取长视频文件中的音频并构建语音识别工具对音频中的有效文本信息进行识别;
步骤4)利用Baidu翻译将文本信息以及中文新闻标题进行翻译;
步骤5)整合所有信息,构造长视频描述数据集。
作为本发明的进一步优化方案,所述步骤1.1中所下载的视频均为已公开的新闻节目片段。
作为本发明的进一步优化方案,所述步骤2)中基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,得到剪裁视频。
作为本发明的进一步优化方案,所述步骤3)中利用FFmpeg提取长视频文件中的音频,使用seleniumhe和python制作了一个自动语音识别工具,利用webdriver模块实现对迅捷语音云服务的调用,从而实现对长音频文件的语音识别。
作为本发明的进一步优化方案,所述步骤4)利用Baidu翻译将文本信息以及中文新闻标题进行翻译,具体如下:首先申请百度翻译API接口的接入权限,再基于Python编写工具调用API接口,实现对中文文本批量自动化翻译成英文文本,将翻译得到的文本和标题以“@highlight”进行分隔,即按照CNN/DM数据集的格式进行保存。
作为本发明的进一步优化方案,所述基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,具体如下:首先使用FFmpeg提取视频中的音频,使用OpenCV进行视频的帧提取,将相邻帧图片转化为浮点型表示的灰度图,最后基于感知哈希算法计算相邻帧对应的灰度图之间的相似度,通过对比像素变化的数量判断相邻帧是否为同一剪辑片段,然后使用OpenCV保存所要剪辑的视频片段,并使用FFmpeg合并音频和视频,得到剪裁视频。
作为本发明的进一步优化方案,所述步骤5)中整合视频片段、中英文视频标题、音频、中英文文本信息组合形成一个新闻类长视频描述数据集。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明能够批量自动化地实现对新闻类长视频描述数据集的构建,极大地提高了构建新闻类长视频描述数据集的效率,解决了现有技术中需要大量人工标注数据集的问题,规避了人工标注带来的错误风险,同时弥补了中英文新闻类长视频描述数据集的稀缺的问题。
附图说明
图1为一种新闻类长视频描述数据集构建方法的示意图;
图2为从视频中获取到的文本信息,包含中文文本信息和英文文本信息以及视频对应的中英文新闻标题。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明实施例中的技术方案做进一步详细的说明。
本发明所提出的一种新闻类长视频描述数据集构建方法的示意图如图1所示。如该图所示,数据集的构造包含视频,音频,文本处理等多个环节。
实施例:一种新闻类长视频描述数据集构建方法,具体步骤如下:
步骤1)收集长视频片段以及中文新闻标题;
1.1)在某电视台官网下载新闻类长视频片段;
1.2)筛选时长在30秒至2分钟之间的长视频片段并保存;
1.3)自动提取出下载后长视频片段的视频标题并保存。
步骤2)利用OpenCV和FFmpeg全自动剪裁长视频文件;
步骤3)利用FFmpeg提取长视频文件中的音频并构建语音识别工具对音频中的有效文本信息进行识别;
步骤4)利用Baidu翻译将文本信息以及中文新闻标题进行翻译;
步骤5)整合所有信息,构造长视频描述数据集。
所述步骤1.1中所下载的视频均为已公开的新闻节目片段。
所述步骤2)中基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,得到剪裁视频。
所述步骤3)中利用FFmpeg提取长视频文件中的音频,使用seleniumhe和python制作了一个自动语音识别工具,利用webdriver模块实现对迅捷语音云服务的调用,从而实现对长音频文件的语音识别。
所述步骤4)利用Baidu翻译将文本信息以及中文新闻标题进行翻译,具体如下:首先申请百度翻译API接口的接入权限,再基于Python编写工具调用API接口,实现对中文文本批量自动化翻译成英文文本,将翻译得到的文本和标题以“@highlight”进行分隔,即按照CNN/DM数据集的格式进行保存。
所述基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,具体如下:首先使用FFmpeg提取视频中的音频,使用OpenCV进行视频的帧提取,将相邻帧图片转化为浮点型表示的灰度图,最后基于感知哈希算法计算相邻帧对应的灰度图之间的相似度,通过对比像素变化的数量判断相邻帧是否为同一剪辑片段,然后使用OpenCV保存所要剪辑的视频片段,并使用FFmpeg合并音频和视频,得到剪裁视频。
所述步骤5)中整合视频片段、中英文视频标题、音频、中英文文本信息组合形成一个新闻类长视频描述数据集。
具体实施例:图2为搜集的新闻类视频示例。下面以某电视台某一天的每日精彩片段的视频为实施例,详细说明本发明的步骤。
实验环境:电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取存储器(RAM),Windows10 64位操作系统。软件环境为FFmpeg和安装Opencv开发包的Python3.6。
所述方法包含以下步骤:
步骤1)收集长视频片段以及中文新闻标题;
1.1)下载某电视台官网新闻类长视频片段;每日精彩片段,本次实验下载了2018年3月至2019年9月间的所有每日精彩片段;
1.2)筛选适合长视频描述的视频片段并保存;
1.3)自动提取出下载后长视频片段的视频标题并保存。
其中,所述步骤1.1中所下载的视频均为已公开的新闻节目片段。
所述步骤1.2中筛选适合长视频的视频片段需要遵循一些原则,具体如下:选取单个视频时长在30秒至2分钟之间的视频,去除单个视频时长在30秒以内和2分钟以上的视频;"检查视频文件格式是否以“.mp4”为后缀,去除不符合条件的视频;检查是否包含同名文件,多个同名文件保留一个即可;去除标题中包含非汉字或乱码的文件,筛选完成后,给视频重新进行编号,编号以“video_”为前缀,编号记录了从”video_00001.mp4”至”video_10920.mp4”共计10920条长视频。
所述步骤1.3中的视频标题随某电视台下载的每日精彩片段视频一同下载,通过Python编写的脚本提取后保存在对应的“video_00001.txt”至“video_10920.txt”文本文件中,共计10920条新闻标题记录。
步骤2)利用OpenCV和FFmpeg全自动剪裁长视频文件;
所述步骤2中利用OpenCV和FFmpeg全自动剪裁长视频文件基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割。具体如下:首先使用FFmpeg提取视频中的音轨,使用OpenCV进行视频的帧提取,将相邻帧图片转化为浮点型表示的灰度图,最后基于感知哈希算法计算相邻帧对应的灰度图之间的相似度,通过对比像素变化的数量判断相邻帧是否为同一剪辑片段,然后使用OpenCV保存所要剪辑的视频片段,并使用FFmpeg合并音频和视频,得到剪裁视频。此次实验对10920条长视频进行了分割,每条长视频都对其中的分割点进行了记录并保存到xlsx文件,剪裁后得到共计102101个视频片段。
步骤3)利用FFmpeg提取长视频文件中的音频并构建语音识别工具对音频中的有效文本信息进行识别;
为了实现对迅捷语音云服务的调用,需要构建语音识别工具以完成对音频文件的识别。具体如下:首先对识别页面进行解析,确定需要使用到的一些页面标签,通过Python的webdriver模块定位页面按钮或标签实现自动化控制,等待识别完成,将语音识别得到的文本内容下载下来,整个过程都通过所构建的语音识别工具完成,无需人工干预。
步骤4)利用Baidu翻译将文本信息以及中文新闻标题进行翻译;
根据步骤1.3中保存的长视频片段的视频标题和步骤3获得的语音识别到的中文文本内容,二者形成一一对应的关系,构成一个新闻类中文文本摘要数据集,也构成新闻类长视频描述数据集的文本部分,为了使数据集构建方法具有更好的泛化性,扩展到新闻类英文长视频描述数据集的构建方法上,选择了Baidu翻译将中文文本内容翻译成英文。具体如下:首先申请百度翻译API接口的接入权限,再基于Python编写工具调用API接口,实现对中文文本批量自动化翻译成英文文本,得到共计中英文分别10920条新闻标题和文本内容。翻译所得新闻标题和文本内容以“@highlight”进行分隔,即按照CNN/DM数据集的格式进行保存。
步骤5)整合所有信息,构造新闻类长视频描述数据集,共计10920条数据,该数据集由视频片段文件、中英文视频标题文本文件、音频文件、中英文文本信息文件四部分组成。
以上所述是本实验优选实施方式,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换也应视为本发明的保护范围。

Claims (8)

1.一种新闻类长视频描述数据集构建方法,其特征在于,具体步骤如下:
步骤1)收集长视频片段以及中文新闻标题;
步骤2)利用OpenCV和FFmpeg全自动剪裁长视频文件;
步骤3)利用FFmpeg提取长视频文件中的音频并构建语音识别工具对音频中的有效文本信息进行识别;
步骤4)利用Baidu翻译将文本信息以及中文新闻标题进行翻译;
步骤5)整合所有信息,构造长视频描述数据集。
2.如权利要求1所述的一种新闻类长视频描述数据集构建方法,其特征在于:所述步骤1)收集长视频片段以及中文新闻标题,具体如下:
1.1)在某电视台官网下载新闻类长视频片段;
1.2)筛选时长在30秒至2分钟之间的长视频片段并保存;
1.3)自动提取出下载后长视频片段的视频标题并保存。
3.如权利要求1所述的一种新闻类长视频描述数据集构建方法,其特征在于:所述步骤1.1中所下载的视频均为已公开的新闻节目片段。
4.如权利要求1所述的一种新闻类长视频描述数据集构建方法,其特征在于:所述步骤2)中基于现有的感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,得到剪裁视频。
5.如权利要求1所述的一种新闻类长视频描述数据集构建方法,其特征在于:所述步骤3)中利用FFmpeg提取长视频文件中的音频,使用seleniumhe和python制作了一个自动语音识别工具,利用webdriver模块实现对迅捷语音云服务的调用,从而实现对长音频文件的语音识别。
6.如权利要求1所述的一种新闻类长视频描述数据集构建方法,其特征在于,所述步骤4)利用Baidu翻译将文本信息以及中文新闻标题进行翻译,具体如下:首先申请百度翻译API接口的接入权限,再基于Python编写工具调用API接口,实现对中文文本批量自动化翻译成英文文本,并保存。
7.如权利要求4所述的一种新闻类长视频描述数据集构建方法,其特征在于:所述基于感知哈希算法计算相邻帧对应的灰度图之间的相似度来进行长视频的自动分割,具体如下:首先使用FFmpeg提取视频中的音频,使用OpenCV进行视频的帧提取,将相邻帧图片转化为浮点型表示的灰度图,最后基于感知哈希算法计算相邻帧对应的灰度图之间的相似度,通过对比像素变化的数量判断相邻帧是否为同一剪辑片段,然后使用OpenCV保存所要剪辑的视频片段并使用FFmpeg合并音频和视频,得到剪裁视频。
8.如权利要求1所述的一种新闻类长视频描述数据集构建方法,其特征在于:所述步骤5)中整合视频片段文件、中英文视频标题文本文件、音频文件、中英文文本信息文件组合形成一个新闻类长视频描述数据集。
CN202110852417.0A 2021-01-25 2021-07-27 一种新闻类长视频描述数据集构建方法 Pending CN113434727A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021101001143 2021-01-25
CN202110100114 2021-01-25

Publications (1)

Publication Number Publication Date
CN113434727A true CN113434727A (zh) 2021-09-24

Family

ID=77762048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110852417.0A Pending CN113434727A (zh) 2021-01-25 2021-07-27 一种新闻类长视频描述数据集构建方法

Country Status (1)

Country Link
CN (1) CN113434727A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953779A (zh) * 2023-03-03 2023-04-11 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320197A1 (en) * 2010-06-23 2011-12-29 Telefonica S.A. Method for indexing multimedia information
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、系统、存储介质
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320197A1 (en) * 2010-06-23 2011-12-29 Telefonica S.A. Method for indexing multimedia information
CN108924583A (zh) * 2018-07-19 2018-11-30 腾讯科技(深圳)有限公司 视频文件生成方法及其设备、系统、存储介质
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953779A (zh) * 2023-03-03 2023-04-11 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法
CN115953779B (zh) * 2023-03-03 2023-06-16 中国科学技术大学 基于文本对抗生成网络的无监督图像描述生成方法

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN101334774B (zh) 一种字符输入的方法和输入法系统
US20180322115A1 (en) Method and device for determining comment, server and storage medium
WO2017113645A1 (zh) 信息提取方法和装置
CN1838113A (zh) 翻译处理方法、文档翻译装置和程序
CN106446072B (zh) 网页内容的处理方法和装置
CN105912717A (zh) 基于图像的信息搜索方法及装置
CN109670477B (zh) 面向pdf表格的自动识别系统和方法
CN105095466A (zh) 一种web文本信息抽取方法
CN102402432A (zh) 用于产生多国语言网页的方法
CN111324768B (zh) 一种视频搜索系统和方法
CN111414735A (zh) 文本数据的生成方法和装置
EP4273737A1 (en) Language labeling method and apparatus, and computer device and storage medium
CN113434727A (zh) 一种新闻类长视频描述数据集构建方法
CN111368504A (zh) 语音数据标注方法、装置、电子设备及介质
US10261987B1 (en) Pre-processing E-book in scanned format
US20130024765A1 (en) Processing rich text data for storing as legacy data records in a data storage system
CN111414908B (zh) 一种视频中字幕字符的识别方法及装置
CN116486812A (zh) 基于语料关系的多领域唇语识别样本自动生成方法及系统
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
CN112199954A (zh) 基于语音语义的疾病实体匹配方法、装置及计算机设备
CN102209279A (zh) 基于xml的多语言支持方法
CN114118068B (zh) 训练文本数据的扩增方法、装置及电子设备
CN116089601A (zh) 对话摘要生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination