CN108235115B - 一种歌曲视频中人声区域定位的方法及终端 - Google Patents

一种歌曲视频中人声区域定位的方法及终端 Download PDF

Info

Publication number
CN108235115B
CN108235115B CN201711328085.6A CN201711328085A CN108235115B CN 108235115 B CN108235115 B CN 108235115B CN 201711328085 A CN201711328085 A CN 201711328085A CN 108235115 B CN108235115 B CN 108235115B
Authority
CN
China
Prior art keywords
subtitle
image
area
caption
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711328085.6A
Other languages
English (en)
Other versions
CN108235115A (zh
Inventor
王子亮
蔡智力
陈彪
邹应双
徐继芸
林哲明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Net Communication Co Ltd
Original Assignee
Fuzhou Starnet Evideo Information System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou Starnet Evideo Information System Co ltd filed Critical Fuzhou Starnet Evideo Information System Co ltd
Priority to CN201711328085.6A priority Critical patent/CN108235115B/zh
Publication of CN108235115A publication Critical patent/CN108235115A/zh
Application granted granted Critical
Publication of CN108235115B publication Critical patent/CN108235115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Studio Circuits (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

本发明提供了一种歌曲视频中人声区域定位的方法及终端,获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;在所述字幕区域识别字幕前进的位置;根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域;通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域,不会受到伴奏的干扰,准确度高,并且能够实现自动识别,使得K歌系统中自动教唱成为可能,并且效果好。

Description

一种歌曲视频中人声区域定位的方法及终端
技术领域
本发明涉及视听控制技术领域,尤其涉及一种歌曲视频中人声区域定位的方法及终端。
背景技术
为了引导不擅长唱歌的用户学唱歌,K歌系统需要一套自动教唱的方法,在进行自动教唱时,首要问题是如何自动识别出歌曲视频中人声演唱的区域,继而播放原唱或伴奏,以便用户跟唱。为了识别出歌曲视频中演唱的区域,现有技术采用的是音频人声识别的方法,即通过识别人声来判断是否是属于演唱的区域,但是音频人声识别的方法容易受到歌曲中伴奏的干扰,无法准确地定位出歌曲视频中人声演唱的区域。
发明内容
本发明所要解决的技术问题是:提出一种歌曲视频中人声区域定位的方法及终端,能够准确地定位出歌曲视频中演唱的区域。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种歌曲视频中人声区域定位的方法,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种歌曲视频中人声区域定位的终端,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种歌曲视频中人声区域定位的方法,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种歌曲视频中人声区域定位的终端,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。
本发明的有益效果在于:确定与歌曲视频对应的视频帧图像中的字幕区域,识别字幕区域中字幕前进的位置,通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域,不会受到伴奏的干扰,准确度高,并且能够实现自动识别,使得K歌系统中自动教唱成为可能,并且效果好。
附图说明
图1为本发明实施例中的一种歌曲视频中人声区域定位的方法流程图;
图2为本发明实施例中的一种歌曲视频中人声区域定位方法中各个阶段得到的图片效果图;
图3为本发明实施例中的一种歌曲视频中人声区域定位的终端的结构示意图;
标号说明:
1、一种歌曲视频中人声区域定位的终端;2、存储器;3、处理器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:确定与歌曲视频对应的视频帧图像中的字幕区域,识别字幕区域中字幕前进的位置,通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域。
请参照图1,一种歌曲视频中人声区域定位的方法,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。
由上述描述可知,本发明的有益效果在于:确定与歌曲视频对应的视频帧图像中的字幕区域,识别字幕区域中字幕前进的位置,通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域,不会受到伴奏的干扰,准确度高,并且能够实现自动识别,使得K歌系统中自动教唱成为可能,并且效果好。
进一步的,所述步骤S1中确定所述视频帧图像的字幕区域具体包括:
使用Robert算子提取所述视频帧图像边缘,对提取的图像边缘进行细化及二值化;
分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数;
判断是否存在第一像素块,在所述第一像素块中,每一行的像素总数大于第一预设值,并且所述第一像素块的高度大于第一预设高度;
判断是否存在第二像素块,在所述第二像素块中,每一列的像素总数大于第二预设值,并且所述第二像素块的宽度大于第一预设宽度;
若第一像素块和第二像素块均存在,则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域。
由上述描述可知,通过对视频帧图像边缘的提取,并根据每行和每列的像素总数,准确地确定视频帧图像的字幕区域。
进一步的,所述步骤S2具体包括:
去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。
由上述描述可知,通过对字幕区域所在图像背景的去除并去除噪点,以及字幕的过滤,然后将经过上述处理后的字幕图像进行二值化处理,将二值化处理后的图像中最右端的非0像素的坐标确定为字幕前进的位置,能够实现自动化而又准确的对字幕前进位置的确定。
进一步的,所述去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像具体包括:
将所述字幕区域所在的图像转换成灰度图;
对所述灰度图进行二值化;
对二值化后的图像做闭运算得到掩膜;
将所述掩膜与所述字幕区域所在的彩色图做与运算,得到去除背景后的字幕图像。
由上述描述可知,通过获得字幕区域所在的图像的掩膜,并将所述掩膜与字幕区域所在的彩色图做与运算,即能够得到去除背景后的字幕图像,方便快捷。
进一步的,所述将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色具体为:
在所述HSV空间中,分别统计红、蓝、绿三种颜色下的像素数目,将所述像素数目最大值对应的颜色确定为字幕颜色。
由上述描述可知,通过红蓝绿三种颜色的像素数目的比较,能够准确地确定出字幕颜色。
进一步的,所述步骤S3具体包括:
如果字幕前进位置与字幕区域左边框的距离小于第三预设值,则将所述字幕前进位置标记为歌词行的首字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间;
如果字幕前进位置与字幕区域右边框的距离小于第四预设值,则将所述字幕前进位置标记为歌词行的尾字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间。
由上述描述可知,在歌曲视频中,当出现歌声时,字幕中会有相应的标示,并且随着歌声的进行,字幕位置也相应的前进,基于这个前提,通过字幕前进位置与字幕区域边框的距离能够准确地知道歌词行的开始和结束,只要字幕前进位置与字幕区域左边框的距离小于一预设值,则说明所述字幕前进位置是歌词行的首字,而字幕前进位置与字幕区域右边框的距离小于一预设值,则说明所述字幕前进位置是歌词行的尾字,由于每一视频帧具有对应的时间点,因此,歌词行的首字的字幕前进位置所在的视频帧的时间点即为对应所述歌词行的开始时间;歌词行的尾字的字幕前进位置所在的视频帧的时间点即为对应所述歌词行的结束时间,通过上述方式定位出的歌曲视频中的人声区域误差小,与音频人声识别算法相比,不会受到伴奏的影响,精确度高。
一种歌曲视频中人声区域定位的方法,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。
由上述描述可知,本发明还可以实现对歌词行所有字时间点的检测,极大地节省人力成本,为唱歌评分、教唱等功能打下坚实的基础。
请参照图3,一种歌曲视频中人声区域定位的终端,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域。
由上述描述可知,本发明的有益效果在于:确定与歌曲视频对应的视频帧图像中的字幕区域,识别字幕区域中字幕前进的位置,通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域,不会受到伴奏的干扰,准确度高,并且能够实现自动识别,使得K歌系统中自动教唱成为可能,并且效果好。
进一步的,所述步骤S1中确定所述视频帧图像的字幕区域具体包括:
使用Robert算子提取所述视频帧图像边缘,对提取的图像边缘进行细化及二值化;
分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数;
判断是否存在第一像素块,在所述第一像素块中,每一行的像素总数大于第一预设值,并且所述第一像素块的高度大于第一预设高度;
判断是否存在第二像素块,在所述第二像素块中,每一列的像素总数大于第二预设值,并且所述第二像素块的宽度大于第一预设宽度;
若第一像素块和第二像素块均存在,则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域。
由上述描述可知,通过对视频帧图像边缘的提取,并根据每行和每列的像素总数,准确地确定视频帧图像的字幕区域。
进一步的,所述步骤S2具体包括:
去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。
由上述描述可知,通过对字幕区域所在图像背景的去除并去除噪点,以及字幕的过滤,然后将经过上述处理后的字幕图像进行二值化处理,将二值化处理后的图像中最右端的非0像素的坐标确定为字幕前进的位置,能够实现自动化而又准确的对字幕前进位置的确定。
进一步的,所述去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像具体包括:
将所述字幕区域所在的图像转换成灰度图;
对所述灰度图进行二值化;
对二值化后的图像做闭运算得到掩膜;
将所述掩膜与所述字幕区域所在的彩色图做与运算,得到去除背景后的字幕图像。
由上述描述可知,通过获得字幕区域所在的图像的掩膜,并将所述掩膜与字幕区域所在的彩色图做与运算,即能够得到去除背景后的字幕图像,方便快捷。
进一步的,所述将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色具体为:
在所述HSV空间中,分别统计红、蓝、绿三种颜色下的像素数目,将所述像素数目最大值对应的颜色确定为字幕颜色。
由上述描述可知,通过红蓝绿三种颜色的像素数目的比较,能够准确地确定出字幕颜色。
进一步的,所述步骤S3具体包括:
如果字幕前进位置与字幕区域左边框的距离小于第三预设值,则将所述字幕前进位置标记为歌词行的首字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间;
如果字幕前进位置与字幕区域右边框的距离小于第四预设值,则将所述字幕前进位置标记为歌词行的尾字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间。
由上述描述可知,在歌曲视频中,当出现歌声时,字幕中会有相应的标示,并且随着歌声的进行,字幕位置也相应的前进,基于这个前提,通过字幕前进位置与字幕区域边框的距离能够准确地知道歌词行的开始和结束,只要字幕前进位置与字幕区域左边框的距离小于一预设值,则说明所述字幕前进位置是歌词行的首字,而字幕前进位置与字幕区域右边框的距离小于一预设值,则说明所述字幕前进位置是歌词行的尾字,由于每一视频帧具有对应的时间点,因此,歌词行的首字的字幕前进位置所在的视频帧的时间点即为对应所述歌词行的开始时间;歌词行的尾字的字幕前进位置所在的视频帧的时间点即为对应所述歌词行的结束时间,通过上述方式定位出的歌曲视频中的人声区域误差小,与音频人声识别算法相比,不会受到伴奏的影响,精确度高。
请参照图3,一种歌曲视频中人声区域定位的终端,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域。
由上述描述可知,本发明还可以实现对歌词行所有字时间点的检测,极大地节省人力成本,为唱歌评分、教唱等功能打下坚实的基础。
实施例一
请参照图1及图2,一种歌曲视频中人声区域定位的方法,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
其中,使用Robert算子提取所述视频帧图像边缘,对提取的图像边缘进行细化及二值化;
分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数;
判断是否存在第一像素块,在所述第一像素块中,每一行的像素总数大于第一预设值,并且所述第一像素块的高度大于第一预设高度;
判断是否存在第二像素块,在所述第二像素块中,每一列的像素总数大于第二预设值,并且所述第二像素块的宽度大于第一预设宽度;
可以通过对行、列进行遍历的方式来确定是否存在满足上述要求的第一像素块和第二像素块,第一预设高度可以设定为预设的字幕高度,第一预设宽度可以设定为预设的字幕宽度;
若第一像素块和第二像素块均存在,则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域;
在所述字幕区域中,最小行索引对应字幕的上边界,最大行索引对应字幕的下边界,最小列索引对应字幕的左边界,最大列索引对应字幕的右边界;
图2(a)为已确定出字幕区域的视频帧图片,其中黑线圈出来的边框即为所确定出的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
其中,将所述字幕区域所在的图像转换成灰度图,图2(b)为转灰度图后的字幕区域所在的图片;
对所述灰度图进行二值化,所述二值化算法可以是最大类间方差(OTSU)算法,图2(c)为OTSU分割后的图片;
对二值化后的图像做闭运算得到掩膜,图2(d)为闭运算后的图片;
将所述掩膜与所述字幕区域所在的彩色图做与运算,得到去除背景后的字幕图像,图2(e)为去背景后的图片;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色,具体的,在所述HSV空间中,分别统计红、蓝、绿三种颜色下的像素数目,将所述像素数目最大值对应的颜色确定为字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像,图2(f)为过滤出有字幕颜色的部分的二值化图片;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置,图2(g)中黑竖线所在位置即为字幕前进的位置;S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
具体的,如果字幕前进位置与字幕区域左边框的距离小于第三预设值,则将所述字幕前进位置标记为歌词行的首字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间;
如果字幕前进位置与字幕区域右边框的距离小于第四预设值,则将所述字幕前进位置标记为歌词行的尾字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间;
一个歌曲视频中有很多帧的视频帧图像,可以将获取到的对应所述歌曲视频的视频帧图像存入一个集合中,然后依次提取集合中的视频帧图像,执行上述步骤S1-S3直至得到所述歌曲视频中所有歌词行的开始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域;
通过每个歌词行的起始时间和结束时间,能够准确地获知歌曲视频中人声区域所在的时间段;
如图2(h)所示,检测到歌词行的首字,对应的视频帧时间为34.120s,如图2(i)所示,检测到歌词行的尾字,对应的视频帧的时间为39.423s,则该歌词行的起止时间段为34.120-39.423s,该时间范围对应于该行歌词的人声区域;
通过效果图可以看出,本发明的字幕检测算法可以避开背景颜色的干扰,准确度高,鲁棒性强,从而提高人声区域定位的准确度。
实施例二
本实施例与实施例一的不同在于:
所述步骤S2为:
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
所述步骤S3为:
根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
所述步骤S4为:
根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域;
本实施例实现了对歌词行所有字时间点的检测,字幕时间信息的自动获取可以极大地节省人力成本,为唱歌评分、教唱等功能打下坚实基础。
实施例三
请参照图3,一种歌曲视频中人声区域定位的终端1,包括存储器2、处理器3以及存储在所述存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例一中的步骤。
实施例四
请参照图3,一种歌曲视频中人声区域定位的终端1,包括存储器2、处理器3以及存储在所述存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例二中的步骤。
综上所述,本发明提供的一种歌曲视频中人声区域定位的方法及终端,在歌曲视频中,当出现歌声时,字幕中会有相应的标示,并且随着歌声的进行,字幕位置也相应的前进,基于这个前提,确定与歌曲视频对应的视频帧图像中的字幕区域,识别字幕区域中字幕前进的位置,通过歌曲视频中字幕前进的位置来定位歌曲视频中的人声区域,所述算法不会受到伴奏的干扰,并且可以避开背景颜色的干扰,准确度高,鲁棒性强,并且能够实现自动识别,使得K歌系统中自动教唱成为可能,并且效果好,同时也能够实现对歌词行所有字时间点的检测,极大地节省人力成本,为唱歌评分、教唱等功能打下坚实基础。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (12)

1.一种歌曲视频中人声区域定位的方法,其特征在于,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域;
所述步骤S2具体包括:
去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。
2.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述步骤S1中确定所述视频帧图像的字幕区域具体包括:
使用Robert算子提取所述视频帧图像边缘,对提取的图像边缘进行细化及二值化;
分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数;
判断是否存在第一像素块,在所述第一像素块中,每一行的像素总数大于第一预设值,并且所述第一像素块的高度大于第一预设高度;
判断是否存在第二像素块,在所述第二像素块中,每一列的像素总数大于第二预设值,并且所述第二像素块的宽度大于第一预设宽度;
若第一像素块和第二像素块均存在,则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域。
3.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像具体包括:
将所述字幕区域所在的图像转换成灰度图;
对所述灰度图进行二值化;
对二值化后的图像做闭运算得到掩膜;
将所述掩膜与所述字幕区域所在的彩色图做与运算,得到去除背景后的字幕图像。
4.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色具体为:
在所述HSV空间中,分别统计红、蓝、绿三种颜色下的像素数目,将所述像素数目最大值对应的颜色确定为字幕颜色。
5.根据权利要求1所述的歌曲视频中人声区域定位的方法,其特征在于,
所述步骤S3具体包括:
如果字幕前进位置与字幕区域左边框的距离小于第三预设值,则将所述字幕前进位置标记为歌词行的首字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间;
如果字幕前进位置与字幕区域右边框的距离小于第四预设值,则将所述字幕前进位置标记为歌词行的尾字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间。
6.一种歌曲视频中人声区域定位的方法,其特征在于,包括步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域;
所述在所述字幕区域识别字幕前进的位置具体包括:
去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。
7.一种歌曲视频中人声区域定位的终端,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、在所述字幕区域识别字幕前进的位置;
S3、根据所述字幕前进的位置与所述字幕区域的边框的距离确定所述歌曲视频中歌词行的起始时间和结束时间;
S4、根据所述歌曲视频中歌词行的起始时间和结束时间定位歌曲视频中的人声区域;
所述步骤S2具体包括:
去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。
8.根据权利要求7所述的歌曲视频中人声区域定位的终端,其特征在于,
所述步骤S1中确定所述视频帧图像的字幕区域具体包括:
使用Robert算子提取所述视频帧图像边缘,对提取的图像边缘进行细化及二值化;
分别统计细化及二值化后的图像边缘每行的像素总数以及每列的像素总数;
判断是否存在第一像素块,在所述第一像素块中,每一行的像素总数大于第一预设值,并且所述第一像素块的高度大于第一预设高度;
判断是否存在第二像素块,在所述第二像素块中,每一列的像素总数大于第二预设值,并且所述第二像素块的宽度大于第一预设宽度;
若第一像素块和第二像素块均存在,则将第一像素块和第二像素块重合的区域确定为所述视频帧图像的字幕区域。
9.根据权利要求7所述的歌曲视频中人声区域定位的终端,其特征在于,
所述去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像具体包括:
将所述字幕区域所在的图像转换成灰度图;
对所述灰度图进行二值化;
对二值化后的图像做闭运算得到掩膜;
将所述掩膜与所述字幕区域所在的彩色图做与运算,得到去除背景后的字幕图像。
10.根据权利要求7所述的歌曲视频中人声区域定位的终端,其特征在于,
所述将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色具体为:
在所述HSV空间中,分别统计红、蓝、绿三种颜色下的像素数目,将所述像素数目最大值对应的颜色确定为字幕颜色。
11.根据权利要求7所述的歌曲视频中人声区域定位的终端,其特征在于,
所述步骤S3具体包括:
如果字幕前进位置与字幕区域左边框的距离小于第三预设值,则将所述字幕前进位置标记为歌词行的首字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的开始时间;
如果字幕前进位置与字幕区域右边框的距离小于第四预设值,则将所述字幕前进位置标记为歌词行的尾字,将所述字幕前进位置所在的视频帧的时间点确定为所述歌曲视频中歌词行的结束时间。
12.一种歌曲视频中人声区域定位的终端,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、获取与所述歌曲视频对应的视频帧图像,确定所述视频帧图像的字幕区域;
S2、并行或先后执行如下步骤S21和S22:
S21、在所述字幕区域识别字幕前进的位置;
S22、分割出所述字幕区域中所有字的边界,记录每个字的左边界与右边界的位置,所述左边界与右边界的位置构成每个字的字区域;
利用OCR技术识别每个字的字区域对应的字;
S3、根据所述字幕前进的位置与每个字的字区域确定每个字的起始时间和结束时间;
S4、根据每个字的起始时间和结束时间定位歌曲视频中每个字的人声区域;
所述在所述字幕区域识别字幕前进的位置具体包括:
去除所述字幕区域所在的图像的背景,得到去除背景后的字幕图像;
对所述字幕图像作腐蚀处理,去除噪点;
将所述去除噪点后的字幕图像转换成HSV空间,并检测字幕颜色;
根据字幕颜色在所述HSV空间中过滤出含有字幕颜色的部分,并进行二值化,去除面积小于一预设阈值的区域,得到二值化图像;
将所述二值化图像中最右端的非0像素的坐标确定为所述视频帧图像中字幕前进的位置。
CN201711328085.6A 2017-12-13 2017-12-13 一种歌曲视频中人声区域定位的方法及终端 Active CN108235115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711328085.6A CN108235115B (zh) 2017-12-13 2017-12-13 一种歌曲视频中人声区域定位的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711328085.6A CN108235115B (zh) 2017-12-13 2017-12-13 一种歌曲视频中人声区域定位的方法及终端

Publications (2)

Publication Number Publication Date
CN108235115A CN108235115A (zh) 2018-06-29
CN108235115B true CN108235115B (zh) 2020-06-05

Family

ID=62652037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711328085.6A Active CN108235115B (zh) 2017-12-13 2017-12-13 一种歌曲视频中人声区域定位的方法及终端

Country Status (1)

Country Link
CN (1) CN108235115B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410968B (zh) * 2018-11-15 2022-12-09 电子科技大学 一种高效的歌曲中人声起始位置检测方法
CN109545191B (zh) * 2018-11-15 2022-11-25 电子科技大学 一种歌曲中人声起始位置的实时检测方法
CN109756684B (zh) * 2019-01-30 2021-08-13 北京雷石天地电子技术有限公司 一种字幕移植方法及装置
CN114071184A (zh) * 2021-11-11 2022-02-18 腾讯音乐娱乐科技(深圳)有限公司 一种字幕定位方法、电子设备及介质
CN114615520B (zh) * 2022-03-08 2024-01-02 北京达佳互联信息技术有限公司 字幕定位方法、装置、计算机设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021903A (zh) * 2006-10-10 2007-08-22 鲍东山 视频字幕内容分析系统
CN101448100A (zh) * 2008-12-26 2009-06-03 西安交通大学 一种快速准确的视频字幕提取方法
CN101567184A (zh) * 2009-03-24 2009-10-28 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
CN101650958A (zh) * 2009-07-23 2010-02-17 中国科学院声学研究所 对电影类视频进行场景片段抽取方法及其建立索引的方法
JP2015065556A (ja) * 2013-09-25 2015-04-09 住友電工ネットワークス株式会社 映像出力装置、映像出力方法および映像出力プログラム
CN107027067A (zh) * 2015-06-23 2017-08-08 讯飞智元信息科技有限公司 获取mv视频资源中字幕信息的方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021903A (zh) * 2006-10-10 2007-08-22 鲍东山 视频字幕内容分析系统
CN101448100A (zh) * 2008-12-26 2009-06-03 西安交通大学 一种快速准确的视频字幕提取方法
CN101567184A (zh) * 2009-03-24 2009-10-28 广州酷狗计算机科技有限公司 一种卡拉ok动感歌词的制作方法
CN101650958A (zh) * 2009-07-23 2010-02-17 中国科学院声学研究所 对电影类视频进行场景片段抽取方法及其建立索引的方法
JP2015065556A (ja) * 2013-09-25 2015-04-09 住友電工ネットワークス株式会社 映像出力装置、映像出力方法および映像出力プログラム
CN107027067A (zh) * 2015-06-23 2017-08-08 讯飞智元信息科技有限公司 获取mv视频资源中字幕信息的方法及系统

Also Published As

Publication number Publication date
CN108235115A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108235115B (zh) 一种歌曲视频中人声区域定位的方法及终端
CN108364010B (zh) 一种车牌识别方法、装置、设备及计算机可读存储介质
CN102750540B (zh) 基于形态滤波增强的最稳定极值区视频文本检测方法
CN103020650B (zh) 一种台标识别方法及装置
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN111191611B (zh) 基于深度学习的交通标志标号识别方法
CN106980857B (zh) 一种基于碑帖的毛笔字分割识别方法
WO2017016448A1 (zh) 一种qr码特征检测方法及系统
CN105184955A (zh) 一种纸币的识别方法和装置
JP2014153820A (ja) 文字切り出し装置及び文字切り出し方法
CN110135225B (zh) 样本标注方法及计算机存储介质
CN112446262A (zh) 文本分析方法、装置、终端和计算机可读存储介质
CN103852034B (zh) 一种电梯导轨垂直度检测方法
JP2016004553A (ja) 文字検出装置、方法およびプログラム
CN111814576A (zh) 一种基于深度学习的购物小票图片识别方法
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN104598907A (zh) 一种基于笔画宽度图的图像中文字数据提取方法
KR20190056457A (ko) 보행자 의상 특징 추출을 통한 보행자 추적 방법
CN110569774A (zh) 基于图像处理与模式识别的折线图图像自动数字化方法
KR101793184B1 (ko) 촬영된 음악 악보 영상의 자동연주를 위한 가사 영역 추출장치 및 방법
CN114187253A (zh) 一种电路板零件安装检测方法
CN109815100B (zh) 一种利用图像对比分析对叫号宝软件的行为监控方法
CN111783737B (zh) 一种数学公式的识别方法和识别装置
KR101849933B1 (ko) 공분산 기술자와 퍼지 모델을 이용한 심볼 인식장치
CN116091503B (zh) 一种面板异物缺陷的判别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 350002 4 / F, 20, xingwangruijie science and Technology Park, juyuanzhou, 618 Jinshan Avenue, Cangshan District, Fuzhou City, Fujian Province

Patentee after: FUJIAN STAR-NET COMMUNICATION Co.,Ltd.

Address before: 350002 4 / F, 20, xingwangruijie science and Technology Park, juyuanzhou, 618 Jinshan Avenue, Cangshan District, Fuzhou City, Fujian Province

Patentee before: FUZHOU STARNET EVIDEO INFORMATION SYSTEM Co.,Ltd.