CN109525890B

CN109525890B - 一种基于字幕识别的mv字幕移植方法及装置

Info

Publication number: CN109525890B
Application number: CN201811124313.2A
Authority: CN
Inventors: 马哲
Original assignee: Beijing Thunderstone Technology Co ltd
Current assignee: Beijing Thunderstone Technology Co ltd
Priority date: 2018-09-26
Filing date: 2018-09-26
Publication date: 2021-07-13
Anticipated expiration: 2038-09-26
Also published as: CN109525890A

Abstract

本发明实施例提供一种基于字幕识别的MV字幕移植方法及装置，所述方法包括：分别迭代原MV视频以及需要移植的MV中的每一帧；利用光学字符识别OCR识别是否有字幕返回：如果没有字幕返回，则迭代原MV视频以及需要移植的MV中的下一帧；如果有字幕返回，则利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标；根据所述据字幕坐标，截取符合字幕特征的字幕矩形，并保存截取的字幕矩形的矩形坐标；根据截取的字幕矩形的矩形坐标，将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。上述技术方案具有如下有益效果：在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中，可以方便的进行无逐字歌词MV的更新和转换。

Description

一种基于字幕识别的MV字幕移植方法及装置

技术领域

本发明涉及歌曲MV领域，特别是涉及一种基于字幕识别的MV字幕移植方法及装置。

背景技术

现有技术歌曲MV字幕添加或者字幕迁移都是基于逐字并标注时间歌词文本文件lrc(歌词)或者krc(歌词文件)，如果没有这种逐字歌词文件的话，字幕将不能正确的添加或者移植。

发明内容

本发明实施例提供一种基于字幕识别的MV字幕移植方法及装置，以在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中，可以方便的进行无逐字歌词MV的更新和转换。

一方面，本发明实施例提供了一种基于字幕识别的MV字幕移植方法，所述方法包括：

分别迭代原MV视频以及需要移植的MV中的每一帧；

利用光学字符识别OCR识别是否有字幕返回：如果没有字幕返回，则迭代原MV视频以及需要移植的MV中的下一帧；如果有字幕返回，则利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标；

根据所述字幕坐标，截取符合字幕特征的字幕矩形，并保存截取的字幕矩形的矩形坐标；

根据截取的字幕矩形的矩形坐标，将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。

另一方面，本发明实施例提供了一种基于字幕识别的MV字幕移植装置，所述装置包括：

迭代单元，用于分别迭代原MV视频以及需要移植的MV中的每一帧；

OCR单元，用于利用光学字符识别OCR识别是否有字幕返回：如果没有字幕返回，则所述迭代单元迭代原MV视频以及需要移植的MV中的下一帧；

OpenCV单元，用于如果有字幕返回，则利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标；

截取单元，用于根据所述字幕坐标，截取符合字幕特征的字幕矩形，并保存截取的字幕矩形的矩形坐标；

移植单元，用于根据截取的字幕矩形的矩形坐标，将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。

上述技术方案具有如下有益效果：在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中，可以方便的进行无逐字歌词MV的更新和转换。该技术方案利用开源视觉库框架进行MV中逐字歌词的字幕提取并移植到其他视频中，可解决MV花屏移植或者原版MV体积过大需要移植到其他体积较小的视频中等需要迁移字幕的技术场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于字幕识别的MV字幕移植方法流程图；

图2为本发明实施例一种基于字幕识别的MV字幕移植装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，为本发明实施例一种基于字幕识别的MV字幕移植方法流程图，所述方法包括：

101、分别迭代原MV视频以及需要移植的MV中的每一帧；

102、利用光学字符识别OCR识别是否有字幕返回：如果没有字幕返回，则迭代原MV视频以及需要移植的MV中的下一帧；如果有字幕返回，则利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标；

103、根据所述字幕坐标，截取符合字幕特征的字幕矩形，并保存截取的字幕矩形的矩形坐标；

104、根据截取的字幕矩形的矩形坐标，将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。

优选地，分别迭代截取的原MV视频中的字幕范围以及需要移植的MV中的每一帧。

优选地，截取的原MV视频中的字幕范围的两点坐标为(0，宽/1.45)和(长，宽-20px)。

优选地，利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标，具体包括：首先将图片灰度，进行图片二值化并膨胀，之后查找图片所有轮廓，并迭代所有查找到的轮廓，获取符合字幕特征的轮廓的四顶点坐标并计算出所述四顶点坐标的最小矩形，作为符合字幕特征的字幕轮廓并计算字幕坐标。

优选地，将不符合字幕特征的轮廓抛弃，即将所述轮廓的参数宽大于参数长的1.2倍并且计算此轮廓的面积小于预设阈值的轮廓抛弃。

对应于上述方法实施例，如图2所示，为本发明实施例一种基于字幕识别的MV字幕移植装置结构示意图，所述装置包括：

迭代单元21，用于分别迭代原MV视频以及需要移植的MV中的每一帧；

OCR单元22，用于利用光学字符识别OCR识别是否有字幕返回：如果没有字幕返回，则所述迭代单元迭代原MV视频以及需要移植的MV中的下一帧；

OpenCV单元23，用于如果有字幕返回，则利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标；

截取单元24，用于根据所述字幕坐标，截取符合字幕特征的字幕矩形，并保存截取的字幕矩形的矩形坐标；

移植单元25，用于根据截取的字幕矩形的矩形坐标，将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。

优选地，所述迭代单元21，具体用于分别迭代截取的原MV视频中的字幕范围以及需要移植的MV中的每一帧。

优选地，所述OpenCV单元23，用于利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标，具体包括：首先将图片灰度，进行图片二值化并膨胀，之后查找图片所有轮廓，并迭代所有查找到的轮廓，获取符合字幕特征的轮廓的四顶点坐标并计算出所述四顶点坐标的最小矩形，作为符合字幕特征的字幕轮廓并计算字幕坐标。

优选地，所述OpenCV单元23，进一步用于将不符合字幕特征的轮廓抛弃，即将所述轮廓的参数宽大于参数长的1.2倍并且计算此轮廓的面积小于预设阈值的轮廓抛弃。

迭代原MV视频以及需要移植的MV中的每一帧，因各个MV字幕位置基本固定，所以截取原MV字幕范围来减小识别的误差，截取图片两点坐标为(0,宽/1.45)(长,宽-20px)得到基本只有字幕的部分，利用OCR识别是否有字幕返回，如果没有字幕迭代下一帧。如果有字幕返回就利用OpenCV进行图片处理，首先将图片灰度，进行图片二值化并膨胀使得轮廓更突出，之后查找图片所有轮廓，并迭代所有查找到的轮廓，当如果高大于宽的1.2倍(太细的矩形)并且计算此轮廓的面积小于某阈值则将其轮廓丢弃,最后计算符合要求的轮廓的四顶点坐标A并计算出四点坐标的最小矩形，并将其矩形在原图中进行截取。保存截取的字幕矩形的坐标B将截取的字幕直接合并在需要移植的MV视频帧图的坐标B的位置，并保证原MV识别的每块字幕区域都贴在固定的移植MV中。

现有技术MV字幕添加或者字幕迁移都是基于逐字并标注时间歌词文本文件lrc或者krc，如果没有这种逐字歌词文件的话字幕将不能正确的添加或者移植，此方法在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中，可以方便的进行无逐字歌词MV的更新和转换。

本发明实施例提供一种在无歌词文本的情况下根据MV中的字幕歌词提取来快速将此MV歌词移植到其他MV或者视频中，该发明实施例利用开源视觉库框架进行MV中逐字歌词的字幕提取并移植到其他视频中可解决MV花屏移植或者原版MV体积过大需要移植到其他体积较小的视频中等需要迁移字幕的技术场景。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于字幕识别的MV字幕移植方法，其特征在于，所述方法包括：

分别迭代原MV视频以及需要移植的MV中的每一帧；

根据截取的字幕矩形的矩形坐标，将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置；

其中，利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标，具体包括：

首先将图片灰度，进行图片二值化并膨胀，之后查找图片所有轮廓，并迭代所有查找到的轮廓，获取符合字幕特征的轮廓的四顶点坐标并计算出所述四顶点坐标的最小矩形，作为符合字幕特征的字幕轮廓并计算字幕坐标。

2.如权利要求1所述基于字幕识别的MV字幕移植方法，其特征在于，

分别迭代截取的原MV视频中的字幕范围以及需要移植的MV中的每一帧。

3.如权利要求2所述基于字幕识别的MV字幕移植方法，其特征在于，

截取的原MV视频中的字幕范围的两点坐标为(0，宽/1.45)和(长，宽-20px)。

4.如权利要求1所述基于字幕识别的MV字幕移植方法，其特征在于，

将不符合字幕特征的轮廓抛弃，即将所述轮廓的参数宽大于参数长的1.2倍并且计算此轮廓的面积小于预设阈值的轮廓抛弃。

5.一种基于字幕识别的MV字幕移植装置，其特征在于，所述装置包括：

所述OpenCV单元用于利用OpenCV进行图片处理，筛选出符合字幕特征的字幕轮廓并计算字幕坐标，具体包括：

首先将图片灰度，进行图片二值化并膨胀，之后查找图片所有轮廓，并迭代所有查找到的轮廓，获取符合字幕特征的轮廓的四顶点坐标并计算出所述四顶点坐标的最小矩形，作为符合字幕特征的字幕轮廓并计算字幕坐标；

6.如权利要求5所述基于字幕识别的MV字幕移植装置，其特征在于，

所述迭代单元具体用于分别迭代截取的原MV视频中的字幕范围以及需要移植的MV中的每一帧。

7.如权利要求6所述基于字幕识别的MV字幕移植装置，其特征在于，

8.如权利要求5所述基于字幕识别的MV字幕移植装置，其特征在于，

所述OpenCV单元进一步用于将不符合字幕特征的轮廓抛弃，即将所述轮廓的参数宽大于参数长的1.2倍并且计算此轮廓的面积小于预设阈值的轮廓抛弃。