CN110909207B - 一种包含手语的新闻类视频描述数据集构建方法 - Google Patents

一种包含手语的新闻类视频描述数据集构建方法 Download PDF

Info

Publication number
CN110909207B
CN110909207B CN201910845200.XA CN201910845200A CN110909207B CN 110909207 B CN110909207 B CN 110909207B CN 201910845200 A CN201910845200 A CN 201910845200A CN 110909207 B CN110909207 B CN 110909207B
Authority
CN
China
Prior art keywords
video
information
sign language
description
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910845200.XA
Other languages
English (en)
Other versions
CN110909207A (zh
Inventor
伍家松
李晓燕
孔佑勇
杨淳沨
杨冠羽
姜龙玉
陈阳
舒华忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201910845200.XA priority Critical patent/CN110909207B/zh
Publication of CN110909207A publication Critical patent/CN110909207A/zh
Application granted granted Critical
Publication of CN110909207B publication Critical patent/CN110909207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/743Browsing; Visualisation therefor a collection of video files or sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种包含手语的新闻类视频描述数据集构建方法,该方法把新闻类视频构建成包含音频、视频、手语、语言描述的数据集;该方法利用色差直方图算法进行视频的自动分割,并使用ffmpeg完成视频信息的自动提取,最后构建图形用户界面并根据用户输入信息自动生成视频描述与视频信息json文件。本发明通过利用新闻视频数据与手语信息构建数据集,为视频描述网络的研究以及视频描述技术在残疾人士服务中的应用提供了支持。

Description

一种包含手语的新闻类视频描述数据集构建方法
技术领域
本发明涉及一种包含手语的新闻类视频描述数据集构建方法,属于深度学习、数字图像处理技术领域。
背景技术
视频描述,即将视频内容自动地翻译成完整自然的句子,在检索视频信息,人机交互,辅助视觉障碍人士等方面有着重要的作用。各大社交平台,媒体网站中充斥着大量的视频信息,科研工作者可组织利用现有的视频信息提出更加健壮的模型和算法,实现视频描述功能。目前用于视频描述的数据集大多来源于国外社交网站,语言种类为英语,例如MSR-VTT数据集以及YouTube2Text数据集等。现有的中文版本视频描述数据集极少,且暂无手语新闻类视频数据集。手语在聋哑人正常生活的信息交互中起着至关重要的作用,包含着巨大的信息;同时,新闻播报是人们获取信息的重要来源,包含手语信息的新闻视频数据集可用于新闻分类,事件检索,残障人士服务等众多领域。
另外,视频描述需要大量人工标注的视频信息与视频描述文件,这些文件要经视频描述网络提取信息,因此具有高度标准格式的要求。人工撰写描述文件面临巨大的格式错误风险。一旦发生信息格式错误,后期的信息整理将会是极为复杂的工作。为了使数据集的json文件信息规范有序,并且使描述人员能够更加方便准确的进行描述,图形用户界面的设计是十分必要的。
发明内容
本发明正是针对现有技术中存在的问题,提供一种包含手语的新闻类视频描述数据集构建方法,以解决背景技术中所介绍的现有视频描述数据集种类较少,包含手语的新闻类视频描述数据集稀缺问题,同时提高构建数据集的效率,提出利用图形用户界面获取信息自动生成描述文件的系统。
为了实现上述目的,本发明的技术方案如下,一种包含手语的新闻类视频描述数据集构建方法,所述方法包括以下步骤:
步骤1)收集视频片段:
1.1)下载互联网公开的包含手语信息的新闻视频,自动裁剪为视频片段;
1.2)筛选适合描述的视频片段并保存,筛选后的片段称为clips;
该方案可以利用《共同关注》节目公开视频进行处理,《共同关注》为中国中央电视台新闻频道的一档手语式新闻资讯类日播节目。每期时长约为一个小时,2011年10月22
日起增设手语主播,手语主播同步用手语将节目内容翻译给聋哑残障人士。央视网中每期节目不仅有完整的视频,还有约25个精彩片段。整期视频有大量重复的镜头,如片头片尾等,为了数据集的内容丰富性,选择精彩片段进行处理。
步骤2)利用ffmpeg与Opencv提取视频手语信息以及音频;
步骤3)构建图形用户界面;
步骤4)利用用户输入的描述信息与视频信息,自动生成json文件;
步骤5)整合所有信息,构造视频描述数据集。
作为本发明的一种改进,所述步骤1.1中所选择的视频均为已公布的包含手语画面信息的新闻播报节目。
作为本发明的一种改进,所述步骤1.2中采用色差直方图方法,得到裁剪视频。
作为本发明的一种改进,所述步骤3中使用PyQt来创建GUI,GUI中包含视频导入、视频选择、视频类别选择、视频描述语句输入等模块。该方案中,根据实际需求,首先有一个视频播放窗口,描述者可以导入视频并按顺序进行播放,可选择上一个或者下一个标号临近视频进行播放。观看视频后针对视频内容对其进行一句话的描述。同时描述者需对视频的类别进行判断并标注,每个类型都有其对应的数字编码。此外,因为每段视频需要不同的人工描述语句,描述者还需输入自己的代号,最终生成CSV文件。
作为本发明的一种改进,所述步骤4中利用用户输入信息的CSV文件,自动生成包含视频信息、中文版本与英文版本视频描述语句的json文件,生成描述信息;利用步骤4中获取的CSV文件,构造键值对自动生成视频信息、中文描述、以及英文描述json文件。其中视频信息文件包含视频网址、视频起止时间、视频类别、视频编号;描述文件包含视频编号、中英文描述、描述语句编号等信息。
作为本发明的一种改进,所述色差直方图的视频自动分割算法,具体如下:从红色(R),绿色(G)和蓝色(B)值中去除亮度信息,利用两个色差(即RG和GB)来为每个未压缩视频帧产生二维色差直方图(CDH),通过以下公式评估色差:
Figure GDA0004167455490000021
Figure GDA0004167455490000022
其中,RI(x,y),GI(x,y),BI(x,y)分别表示像素点(x,y)的红色、绿色、蓝色强度值;rgI(x,y)表示图像I中像素点(x,y)的红绿色差,gbI(x,y)表示图像I中像素点(x,y)的绿蓝色差;Q为常数量化因子;利用CDH,可将获取的视频分割成较短的视频段,为数据集后期的处理提供了便捷。筛选视频时所有选择的帧都包含手语表达图像,去除主持人讲话视频,去除大部分开会以及发布会的视频,主要关注有事件内容的画面(比如洪灾,军演,熊猫等)。以此来保证视频内容的多样性。
相对于现有技术,本发明具有如下优点:首先,本发明创新性地利用手语信息构建新闻类视频描述数据集,目前现有公开可用的大规模数据集中文版本较少,稀缺手语新闻类视频数据集。手语在聋哑人正常生活的信息交互中起着至关重要的作用,利用手语信息构建数据集,为视频描述数据集增加了一个全新的模态,提供了更加丰富的信息;另外,该方案利用自制的图形用户界面收集信息自动生成描述文件,能够通过规范描述人员的行为来提高数据集中视频描述信息的质量,同时促进数据集构建工作的高效性;最后,所构建的包含手语的新闻类视频描述数据集可以帮助科研工作者提出更加健壮的模型和算法,进一步推动视频描述网络的研究,实现残疾人士信息交互的功能。特别是对于视觉障碍人士与聋哑人士,可以使其方便快捷自主地掌握新闻及其他视频信息的主要内容,为其生活中的信息交互提供便利。
附图说明
图1为一种包含手语的新闻类视频描述数据集的构建系统结构图;
图2为json信息文件格式。
具体实施方式:
为了加深对本发明的理解,下面结合附图对本实施例做详细的说明。
实施例1:参见图1、图2,一种包含手语的新闻类视频描述数据集构建方法,所述方法包括以下步骤:
步骤1)收集视频片段;
1.1)下载互联网公开的包含手语信息的新闻视频,自动裁剪为视频片段;
1.2)筛选适合描述的视频片段并保存,筛选后的片段称为clips;
该方案可以利用《共同关注》节目公开视频进行处理,《共同关注》为中国中央电视台新闻频道的一档手语式新闻资讯类日播节目。每期时长约为一个小时,2011年10月22
日起增设手语主播,手语主播同步用手语将节目内容翻译给聋哑残障人士。央视网中每期节目不仅有完整的视频,还有约25个精彩片段。整期视频有大量重复的镜头,如片头片尾等,为了数据集的内容丰富性,选择精彩片段进行处理。
步骤2)利用ffmpeg与Opencv提取视频手语信息以及音频;
步骤3)构建图形用户界面;
步骤4)利用用户输入的描述信息与视频信息,自动生成json文件;
步骤5)整合所有信息,构造视频描述数据集。
其中,所述步骤1.1中所选择的视频均为已公布的包含手语画面信息的新闻播报节目。
所述步骤1.2中采用色差直方图方法,得到裁剪视频。
所述步骤3中使用PyQt来创建GUI,GUI中包含视频导入、视频选择、视频类别选择、视频描述语句输入等模块。该方案中,根据实际需求,首先有一个视频播放窗口,描述者可以导入视频并按顺序进行播放,可选择上一个或者下一个标号临近视频进行播放。观看视频后针对视频内容对其进行一句话的描述。同时描述者需对视频的类别进行判断并标注,每个类型都有其对应的数字编码。此外,因为每段视频需要不同的人工描述语句,描述者还需输入自己的代号,最终生成CSV文件。
所述步骤4中利用用户输入信息的CSV文件,自动生成包含视频信息、中文版本与英文版本视频描述语句的json文件,生成描述信息。利用步骤4中获取的CSV文件,构造键值对自动生成视频信息、中文描述、以及英文描述json文件。其中视频信息文件包含视频网址、视频起止时间、视频类别、视频编号;描述文件包含视频编号、中英文描述、描述语句编号等信息。
所述色差直方图的视频自动分割算法,具体如下:从红色(R),绿色(G)和蓝色(B)值中去除亮度信息,利用两个色差(即RG和GB)来为每个未压缩视频帧产生二维色差直方图(CDH),通过以下公式评估色差:
Figure GDA0004167455490000041
Figure GDA0004167455490000042
其中,RI(x,y),GI(x,y),BI(x,y)分别表示像素点(x,y)的红色、绿色、蓝色强度值;rgI(x,y)表示图像I中像素点(x,y)的红绿色差,gbI(x,y)表示图像I中像素点(x,y)的绿蓝色差;Q为常数量化因子;利用CDH,可将获取的视频分割成较短的视频段,为数据集后期的处理提供了便捷。筛选视频时所有选择的帧都包含手语表达图像,去除主持人讲话视频,去除大部分开会以及发布会的视频,主要关注有事件内容的画面(比如洪灾,军演,熊猫等)。以此来保证视频内容的多样性。
应用实施例:本发明所提出的一种包含手语的新闻类视频描述数据集的系统构建结构如图1所示。从图1中可以看到该方法的关键步骤有三个,分别是将原始视频切割为视频片段、从视频片段中提取音频及手语信息、生成json信息文件。整个过程中的关键步骤均由该系统自动完成,不需要任何人工干预。
技术方案1中搜集的手语视频中,在主持人播报新闻时左下角会有一位手语主持人的半身画面,实时将新闻内容翻译为手语进行播报。下面以2018年12月《共同关注》视频为实施例,详细说明本发明的步骤。
实验环境:电脑配置为Intel(R)处理器(3.2GHz)和8GB随机存取存储器(RAM),Windows1064位操作系统。软件环境为FFmpeg和安装Opencv开发包的Python3.6以及PyQt55.10版本。
实验步骤:
步骤1)从央视网下载视频2018年12月《共同关注》节目每期精彩片段约800个;
1)利用色差直方图方法自动分割精彩片段,分割时自动保存视频地址以及起止时间信息。分割后的视频片段约为4000个,人工筛选适合描述的片段最后得到500条左右clips;步骤2)利用ffmpeg与Opencv提取视频手语信息以及音频;
步骤3)构建图形用户界面,本发明制作的图形用户界面由PyQt进行创建。界面的布局功能如下所述:正中间为视频播放窗口,描述者首先点击ID按钮输入标号,接下来选择文件夹导入视频,前一个后一个按钮可供用户选择相应的视频进行播放;在观看视频后点击描述视频,针对视频内容对其进行一句话的描述;下一步根据视频内容对视频类别进行判定并标注。右上角为描述者已经填入的信息,描述者可根据实际情况进行修改。用户完成信息填写后点击保存按钮,生成CSV信息文件。每个视频由10个不同的描述者进行标注,获得约5000条CSV信息,包括视频编号、视频描述、视频类别、描述语句编号。
步骤4)根据步骤4获得的CSV信息,结合步骤2中视频地址。通过构造键值对自动生成数据集中的json文件,并调用有道词典将中文描述翻译为英文描述生成两个版本的json描述文件。Json文件格式如图2所示,信息文件中包含:“category”:类别;“url”:视频网址;“video_id”:视频编号;“start_time”:在原视频中的开始时间;“end_time”:在原视频中的结束时间;“split”:所属集合(训练集、验证集、测试集);“id”:编号。描述文件中包含:“caption”:描述语句,包括中英文两个版本;“video_id”:视频编号;“sen_id”:句子编号。
步骤5)整合所有信息,获得了一个小批量的包含手语的视频描述数据集。该数据集由新闻视频片段、对应的音频、新闻视频相应的手语信息以及json信息文件四部分组成。
需要说明的是上述实施例,并非用来限定本发明的保护范围,在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims (1)

1.一种包含手语的新闻类视频描述数据集构建方法,其特征在于:所述方法包括以下步骤:步骤1)收集视频片段;
步骤2)利用ffmpeg与Opencv提取视频手语信息以及音频;
步骤3)构建图形用户界面;
步骤4)利用用户输入的描述信息与视频信息,自动生成json文件;
步骤5)整合所有信息,构造视频描述数据集;
所述步骤1)收集视频片段;具体如下:
1.1)下载互联网公开的包含手语信息的新闻视频,自动裁剪为视频片段;
1.2)筛选适合描述的视频片段并保存,筛选后的片段称为clips;
所述步骤1.1中所选择的视频均为已公布的包含手语画面信息的新闻播报节目;
所述步骤1.2中采用色差直方图方法,得到裁剪视频,
所述步骤3中使用PyQt来创建GUI,GUI中包含视频导入、视频选择、视频类别选择、视频描述语句输入模块,
所述步骤4中利用用户输入信息的CSV文件,自动生成包含视频信息、中文版本与英文版本视频描述语句的json文件;
所述色差直方图的视频自动分割算法,具体如下:从红色(R),绿色(G)和蓝色(B)值中去除亮度信息,利用两个色差RG和GB来为每个未压缩视频帧产生二维色差直方图(CDH),通过以下公式评估色差:
Figure FDA0004167455480000011
Figure FDA0004167455480000012
其中,RI(x,y),GI(x,y),BI(x,y)分别表示像素点(x,y)的红色、绿色、蓝色强度值;rgI(x,y)表示图像I中像素点(x,y)的红绿色差,gbI(x,y)表示图像I中像素点(x,y)的绿蓝色差;Q为常数量化因子,利用CDH,可将获取的视频分割成较短的视频段,为数据集后期的处理提供了便捷。
CN201910845200.XA 2019-09-08 2019-09-08 一种包含手语的新闻类视频描述数据集构建方法 Active CN110909207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910845200.XA CN110909207B (zh) 2019-09-08 2019-09-08 一种包含手语的新闻类视频描述数据集构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910845200.XA CN110909207B (zh) 2019-09-08 2019-09-08 一种包含手语的新闻类视频描述数据集构建方法

Publications (2)

Publication Number Publication Date
CN110909207A CN110909207A (zh) 2020-03-24
CN110909207B true CN110909207B (zh) 2023-06-02

Family

ID=69814567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910845200.XA Active CN110909207B (zh) 2019-09-08 2019-09-08 一种包含手语的新闻类视频描述数据集构建方法

Country Status (1)

Country Link
CN (1) CN110909207B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191262B (zh) * 2021-04-29 2022-08-19 桂林电子科技大学 一种视频描述数据处理方法、装置及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
CN109271901A (zh) * 2018-08-31 2019-01-25 武汉大学 一种基于多源信息融合的手语识别方法
CN109753882A (zh) * 2018-12-13 2019-05-14 金陵科技学院 基于深度置信网络和多模式特征的手语识别方法
CN109871781A (zh) * 2019-01-28 2019-06-11 山东大学 基于多模态3d卷积神经网络的动态手势识别方法及系统
WO2019143843A1 (en) * 2018-01-17 2019-07-25 Twentieth Century Fox Film Corporation Sign language video encoding for digital cinema
AU2019100545A4 (en) * 2019-05-21 2019-08-22 Daria Sancha Anna Gomez Gane SUSAN: Sign [languages] Universal - Sign [languages] Auslang New [translating - including "SUSANita" and "REPLICAnte" - and teaching tools]

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
WO2019143843A1 (en) * 2018-01-17 2019-07-25 Twentieth Century Fox Film Corporation Sign language video encoding for digital cinema
CN109271901A (zh) * 2018-08-31 2019-01-25 武汉大学 一种基于多源信息融合的手语识别方法
CN109753882A (zh) * 2018-12-13 2019-05-14 金陵科技学院 基于深度置信网络和多模式特征的手语识别方法
CN109871781A (zh) * 2019-01-28 2019-06-11 山东大学 基于多模态3d卷积神经网络的动态手势识别方法及系统
AU2019100545A4 (en) * 2019-05-21 2019-08-22 Daria Sancha Anna Gomez Gane SUSAN: Sign [languages] Universal - Sign [languages] Auslang New [translating - including "SUSANita" and "REPLICAnte" - and teaching tools]

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于细胞神经网络的快速手语视频分割方法;张爱华等;《计算机应用》;20130201(第02期);全文 *

Also Published As

Publication number Publication date
CN110909207A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN103050025B (zh) 一种移动终端的学习方法及其学习系统
CN109803180B (zh) 视频预览图生成方法、装置、计算机设备及存储介质
US10824327B2 (en) Screen capturing method and system for electronic device, and electronic device
CN105069412A (zh) 一种数字化阅卷方法
CN111107422B (zh) 图像处理方法及装置、电子设备和计算机可读存储介质
US9984728B2 (en) Video content alignment
JP6601944B2 (ja) コンテンツ生成装置およびプログラム
CN103729457A (zh) 基于互联网的数字化图书辅助阅读系统及其方法
WO2023138590A1 (zh) 无参考的视频质量确定方法、装置、设备和存储介质
CN110909207B (zh) 一种包含手语的新闻类视频描述数据集构建方法
US8913869B2 (en) Video playback apparatus and video playback method
Tayyab et al. A multi-faceted OCR framework for artificial Urdu news ticker text recognition
KR101315951B1 (ko) 마커 인식과 영역 추적을 통한 영상 관리장치
KR101749420B1 (ko) 자막 정보를 이용한 영상 콘텐츠의 대표 이미지 추출 장치 및 방법
CN115063800A (zh) 文本识别方法和电子设备
JP2006157687A (ja) 視聴者間コミュニケーション方法及び装置及びプログラム
CN110321535B (zh) 儿童读物处理方法及装置
CN111399788B (zh) 媒体文件播放方法和媒体文件播放装置
KR20220111602A (ko) 컨텐츠를 분류 후 사용자에게 추천하는 방법 및 시스템
US20200388076A1 (en) Method and system for generating augmented reality interactive content
US20170188104A1 (en) Information Pushing Method, Terminal and System for Electronic Program Guide Interface
US20230146648A1 (en) Immersive learning application framework for video with web content overlay control
US20180053432A1 (en) Information processing apparatus, information processing system, and non-transitory computer readable medium
JP2013229734A (ja) 映像分割装置、映像分割方法及び映像分割用プログラム
CN113254704B (zh) 结合弹幕理解和视频内容理解的精彩片段提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant