CN113329258B

CN113329258B - 一种歌曲视频合成的方法及播放器

Info

Publication number: CN113329258B
Application number: CN202110646341.6A
Authority: CN
Inventors: 王之华
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2023-02-17
Anticipated expiration: 2041-06-10
Also published as: CN113329258A

Abstract

本发明涉及一种歌曲视频合成的方法及播放器，通过对歌曲和歌曲视频进行多种分类，通过AI人工智能曲库的点播，能够根据用户的点播指令，实时清晰的判断用户所点曲目的曲风、节奏、歌曲类型、歌曲中心思想、地区属性、歌手属性、画风类型等多种信息，并将结果反馈至歌曲视频素材中心，实现将多层影音素材叠加在同一平面进行播放完整K歌的过程。通过人工智能实现将不同风格的歌曲，智能适配相应的视频情景素材作为唱歌背景，还能够实现在播放中随着音乐节奏调整情景素材的实时剪辑速度，让音乐与画面更加协调，让用户在演唱歌曲的时候更具有代入感。

Description

一种歌曲视频合成的方法及播放器

技术领域

本发明涉及多媒体技术领域，特别涉及一种歌曲视频的合成方法及播放器。

背景技术

伴随着人们文化生活水平的提高，去KTV唱歌或者使用家庭娱乐系统或者手机APP已经越来越成为人们的一种娱乐方式。但是目前，无论是公共场所的KTV或者私人家庭娱乐系统以及手机APP所使用的MTV或者歌曲，都是将字幕，歌曲，视频，以及公司商标等压缩合成后的固定图像和声音格式，是一个不可分割的整体，每个都是独立的成品。也就是说，无论任何演唱者每次打开演唱同一首MTV或者歌曲，其所呈现的背景视频画面都是一样的，或者说无论用户在何种心情或者场合下，所演唱的都是同一个MTV音乐成品，用户体验并不够友好。另外，由于版权使用方面的原因，所有的KTV或者私人家庭娱乐系统以及手机APP所使用的MTV或者歌曲都需要相应的授权，否则就面临法律风险。而有些拿不到授权的经营者，会随意将不同风格的背景视频和歌曲合成，往往造成歌曲的曲风和视频画面的风格极不相配，并且现有的作品都是制作合成后的固定成品，并不能够每次演唱都呈现不一样的视频背景，不能够达到个性化的效果。此外，目前市场上还有部分产品，只是在现有视频基础上加入合成了照片或图片等，视频还是之前的视频，是一个单独的整体，例如在直播界面上，是已经在播放歌曲的同时，把媒体文件视频或图片等，经过尺寸的选择调整，覆盖在已经播放的歌曲画面上，这只是一种机械的合成覆盖，现有的音乐视频依然是独立的整体，只是在其画面上覆盖了用户所提供或所喜欢的照片或视频，并没有改变原唱视频本身的性质，而且目前的歌曲视频存在定义粗犷、存储占用容量大、字幕实时渲染占用较多的设备和系统资源，以及段落间会出现帧以上级的闪屏黑屏，非常影响用户的体验。

发明内容

本发明的目的在于解决上述问题，本发明提供了一种可以根据音乐的曲风实时合成音乐、相匹配的画面、原唱、伴唱、预渲染的字幕视频、词曲作者信息、公司商标等歌曲视频合成的方法，以及能够实现上述功能并播放该歌曲视频的播放器。本发明既沿用目前一首歌曲视频包含视频、字幕、原唱音轨、伴唱音轨的规范，又避免和改善目前的技术空白和缺陷，该播放器不止能播放本发明合成的歌曲视频，而且能兼容市面上所有的视频。本发明主要解决的是视频本身的问题，是将碎片化的视频合成为一个整体，与现有技术有着本质的不同。

为了解决上述问题，本发明所采用的技术方案为：

一种歌曲视频合成的方法，其特征在于，包括以下步骤：

分类模块，采用人工或者AI智能技术对歌曲进行分类；

视频模块，该模块具有上千种不同风格的视频素材镜头组，可以根据歌曲的风格对视频素材镜头组进行任意组合；

解析模块，对歌曲的内容进行分析，并根据分析的结果从视频模块自动选择适配的视频素材镜头组；

字幕预渲染模块，对歌曲的演唱伴唱字幕根据每个字的演唱时间节点，预先进行渲染导唱走字的视频，渲染后的视频是一个有卡拉OK走字效果的字幕，并且背景是透明的独立高清视频文件；

合成模块，对上述分类模块，视频模块、解析模块、字幕预渲染模块的内容实时进行合成；

播放器模块，用于对合成模块合成后的歌曲视频内容实时进行处理，该播放器模块的合成采用本地服务器和网络云端相结合的方式，显示在播放终端上。

进一步的，所述对歌曲进行分类，是指每一首歌曲，都包含了二十多种标签，所述对歌曲进行分类可以是人工分类或者AI自动分类，所述对歌曲进行分类，在具体的分类规则上，可以根据单位时间内的歌词字数，判断节奏的快慢，可以根据歌词的提示，判定所处于的时段，可以根据提取到的人声频谱，分析演唱的人数、年龄、男女比例。

进一步的，根据对歌曲分类的结果，制作了相应的视频素材镜头组，所述视频素材镜头组至少符合1080P像素标准，每个完整的视频，由10个至200个视频素材镜头组组成，并且由于对歌曲重新进行了属性细分、采用视频素材镜头组模式，能保证最终播放质量的前提下，存储所占用的总容量只是现有成品歌曲直接存放模式的1/3或者更小。

进一步的，所述视频素材镜头组资源，都可以存放在本地，云端仅需要做算法和更新类下发，从而占用云存储、网络基础带宽和下载资源少，提高对终端的并发数，所述视频素材镜头组都已经优化处理并达到播放要求，对于字幕部分都已经预渲染，该预渲染字幕的格式通常为MOV文件，显示特效及其分辨率参数符合输出要求。

进一步的，根据播放终端上报的点播列表歌曲ID，网络云端的主程序，会根据算法自动精确计算，包括：素材属性选择、数量匹配、自动时长计算、自动调整单个镜头组和歌曲倍速，并将这些要求指令传输到播放器处理。

进一步的，所述播放器为无缝合成，避免了合成过程中，出现黑屏、闪屏现象，精确度可以达到帧，而且能够实现整体视频中的镜头组完全支持乱序排列，播放后的画面依然是无缝衔接，播放器边合成、边播放，实时解码，大大降低缓存区所需要的空间，并且兼容目前主要格式流媒体文件及其要求。

本发明还提供一种播放器，该播放器能够根据全新的几十种歌曲属性标签，实现AI自动匹配，能够实现一个字幕MOV文件、原唱字幕，伴唱字幕、两个音轨文件、视频文件组，通过AI计算相关参数，然后对上述文件实时读取，能够实现边合成边播放，字幕，音轨和整体视频是平行的，播放器也兼容目前主要格式流媒体文件。

进一步的，所述的字幕MOV文件包含多种语言文字，并且上述字幕都已经预渲染，所述伴唱字幕由AI人工智能判断男女歌手并给予不同颜色唱词与主歌引入点，实现智能导唱。

进一步的，所述合成的过程是对4层至20层的信息进行合成，是将每层单独的信息合成输出为整体视频文件，在对视频文件组合成时，在视频前后分别具有淡入淡出的效果。

进一步的，所述播放器支持本地服务器和网络云端播放，所述本地服务器具有预先设定好的数据包，本地服务器和网络云端播放具有实时切换功能，所述播放器能够根据歌曲自动匹配视频文件镜头组，并支持乱序排列播放，还能够自动计算视频素材、歌曲音频、字幕的时长，具有自动拉伸或者裁减功能，以达到预制时长。

附图说明

图1是本发明的预渲染字幕的示意图

图2是本发明的功能模块示意图

图3是本发明的多层合成示意图

图4是本发明的播放器播放示意图

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例中的所述移动终端可以为手机、平板电脑等智能设备，而包厢终端则可以为数字视听场所(公共演唱场所或家庭演唱场所)的点唱机、个人电脑、智能电视机等具备Wi-Fi、蓝牙等接入功能的音视频播放终端设备，本实施例以在公共演唱场所中的KTV场所为例

图1是预渲染的字幕。卡拉OK字幕样式为两层字幕，第一层也就是底层为走字前歌词预览，通常为白字黑描边；第二层也就是上层为歌词导唱层，通常为蓝字白描边，如果是合唱或多人演唱歌曲，则会通过包括蓝色在内等多种颜色来区分歌手所演唱的歌词。目前导唱的走字形式，主要是根据原唱的实时演唱时间，逐字通过彩色导唱字幕，实时覆盖底层黑白的形式预览字幕，从黑白字幕逐字过渡到蓝白的字幕，其过渡的呈现是无任何效果的平移。而本发明所呈现的是，AI人工智能判断男女歌手并给予不同颜色唱词与主歌引入点，从而实现智能导唱功能，用户点播曲目后，AI软件通过曲库大数据给予正确无误的判断，这首被点曲目有多少歌手及歌手唱词分句，并从黑白字幕逐字过渡到蓝白字幕，如果是合唱歌曲则除了蓝色还有其他颜色，演唱者越多，颜色越多，从而起到导唱作用。在逐字染色过程中加入渐变效果，从而在视觉上达到字幕走字更加顺畅，并且更直观，让用户眼睛跟走字不再跟不上节奏，得到更优的用户体验。

此外，AI人工智能还能够提示男声女声谁先发声。在演唱卡拉歌曲的时候，很多需要双人合唱或多人合唱的曲目，这类曲目一般会在正式进入演唱前先出现即将要演唱的卡拉OK预览歌词字幕，但很多时候不会有提示，到底是男生先唱或者女声先唱，而AI人工智能点播软件很好的为用户解决了此问题。AI通过对歌曲的分析及大数据的比对，通过主歌引入点的颜色来告诉用户到底男声女声是谁先唱，以带有颜色的3到6个图形逐渐消失或其他图形缩短来提醒哪一方演唱者即将进入演唱，例如男生唱首句主歌引入点为4颗蓝色圆点，通过逐渐消失的方式来告诉用户到演唱点了，女生唱首句则用红色圆点提示。

图2为本发明的功能模块示意图。

首先对歌曲进行全新的分类，每一首歌曲都包含20多种标签，采用人工分类和AI自动分类的形式，例如根据单位时间内的歌词字数，判断节奏的快慢；根据歌词的提示，判断所处于的时段，例如清晨、傍晚、深夜等；根据提取到的人声频谱，分析演唱的人数、年龄、男女比例等，这是对歌曲的一种全新的分类，是本领域的技术人员目前所没有实现的。

同时把歌曲视频，分解成若干镜头组，并做成跟歌曲相同的分类，建立影音素材文件层数据库。AI人工智能曲库的点播，能够根据用户的点播指令，实时清晰的判断用户所点曲目的曲风、节奏、歌曲类型、歌曲中心思想、地区属性、歌手属性、画风类型等多种信息，并将结果反馈至歌曲视频素材模块，通过叠加多影音层实现卡拉OK的画面呈现，实现将多层影音素材叠加在同一平面进行播放完整K歌的过程。也就是AI智能通过歌曲深度分析，匹配关联的音频文件并将信息属性相匹配的多层，例如2层至20层，相同或不同分辨率的视频文件及其他素材进行画面等比拉升或缩放，最终叠加合成在一个固定分辨率的平面上进行同步播放，从而呈现卡拉OK歌曲的样式。通过人工智能实现将不同风格，智能适配相应的情景素材作为K歌背景，还能够实现在播放中随着音乐节奏调整情景素材的实时剪辑速度，让音乐与画面更加协调同步，让用户在演唱歌曲的时候更具有代入感，该方法能够用于各个领域的卡拉OK点唱实现解决方案。

下面结合图3进一步说明。AI智能软件通过用户指令迅速在庞大的音频库中，匹配关联字幕文本生成的视频字幕文件，将带有逐字时间戳的文本文件通过设定字体、呈现大小、行距、字距等参数后，渲染出能适配各种参数的影音画面的字幕视频文件，或者直接使用AI智能分析字幕文本文件，通过内部音频大数据判断歌曲所有属性，包括歌手性别、歌曲长度、歌曲原唱场地属性等，用不同的颜色字幕区分男女及演唱先后，通过系统直接将文本文件渲染成字幕层，以叠加的方式形成走字呈现于画面最上层。也就是通过人工智能，对比旋律、歌词，识别曲风，而后配套视频层，将所有影音层叠加2层至20层合成后展现歌曲视频从而实现K歌。

本发明的另一特点是具有分段式情景视频素材资料库，情景视频素材资料库中具有各种不同风格的镜头组，每个镜头组中的单镜头文件数量少则两个，多则上千个，具有大量丰富的镜头组数据，并且每个镜头组及每个单镜头都会在数据库中具有独立的标签及属性；这样用户所点的每首歌，经过AI软件深度分析后，将会根据每首歌曲不同的属性，自动匹配情景素材资料库中，符合被点曲目的属性标签的镜头组或单镜头文件，也就是结合歌曲和镜头组，根据点播列表，自动匹配组合，并且所有镜头组支持乱序排列，而目前可知的合成器素材都必须是顺序排列，本发明的乱序排列并不影响合成效果，播放出来也不会有错乱的感觉。

为了实现上述效果，本发明制作了专门的合成播放器，合成播放器工作时，能自动计算视频、音频、字幕的时长，具有自动拉伸或者裁减功能，以达到预制时长。并且该合成播放器，支持边合成边即时播放，也兼容目前主要格式流媒体文件，所以该合成播放器可以在任何场合使用，并不会增加用户的使用成本。

根据图4所示，具体使用时，所有公共场所的KTV或者私人家庭娱乐系统，安装了本播放器后，既可以播放现有的歌曲视频文件，也可以通过该播放器点播本发明的作品。为了进一步保证用户体验，本发明设置有本地服务器和云端服务器，支持本地和云端无缝衔接播放，支持现在所有的网络格式，例如WIFI，数据网络，以及5G、6G通讯等。

需要进一步说明的是，本发明是对MTV演唱视频本身的合成，也就是说，每个视频文件，都是独立的碎片，必须经过本发明的算法，以及适用于本发明的独立开发的播放器，该播放器具有合成功能，处理之后才是成品，是将多个线程在各自边播放的同时，边合为一个成品的，同时还具有播放特效，增加淡入淡出的效果，上述特征的实现都是实时加载的。本发明解决的就是现有MTV播放歌曲视频固定一致的问题，本发明能够根据不同歌的曲风，通过专用播放器根据算法实时合成视频背景，所述算法由云端根据上报的参数计算后下发到终端，从而实现每一首歌在演唱的时候，所展示的视频背景都是实时合成加载的，能够实现在每次播放时，演唱者所展示的视频背景画面都不一样，同一个演唱者在不同的时刻演唱同一首歌曲，所展示的视频背景画面也不一样。

本文已经公开的示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明精神和原则之内，所做的任何修改，等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种歌曲视频合成的方法，其特征在于，包括以下步骤：

对歌曲进行分类，所述对歌曲进行分类是AI自动分类，是指每一首歌曲，都包含了二十多种标签，在具体的分类规则上，可以根据单位时间内的歌词字数，判断节奏的快慢；可以根据歌词的提示，判定所处于的时段；可以根据提取到的人声频谱，分析演唱的人数、年龄、男女比例；

具有多种不同风格的视频素材镜头组，通过对歌曲的内容进行智能分析，并根据分析的结果自动选择适配的视频素材镜头组，形成配套视频层，选中的视频素材镜头组任意顺序组合；

对歌曲的演唱伴唱字幕根据每个字的演唱时间节点，预先进行渲染导唱走字的视频，通过系统直接将文本文件渲染成字幕层，以叠加的方式形成走字呈现于画面最上层，渲染后的视频是一个有卡拉OK走字效果的字幕，并且背景是透明的独立文件；

对包括字幕层、视频层的多层影音层实时进行合成，所述合成的过程是对2层至20层的信息进行合成，是将每层单独的信息合成输出为整体视频文件，相同或不同分辨率的视频文件及其他素材进行画面等比拉升或缩放，最终叠加合成在一个固定分辨率的平面上进行同步播放，在对视频文件组合成时，在视频前后分别具有淡入淡出的效果，播放器对合成后的歌曲视频内容实时进行处理，该合成采用本地服务器和网络云端相结合的方式；

根据播放终端上报的点播列表歌曲ID，所述网络云端的主程序，会根据算法自动精确计算，包括：素材属性选择、数量匹配、视频时长自动计算、自动调整单个镜头组和歌曲倍速，并将这些要求指令传输到播放器处理；

所述播放器的合成过程为无缝合成，精确度可以达到帧，而且能够实现整体视频中的镜头组完全支持乱序排列，播放后的画面依然是无缝衔接，播放器边合成、边播放，实时解码，通过叠加多影音层实现卡拉OK的画面呈现，实现将多层影音素材叠加在同一平面进行播放完整K歌的过程。

2.根据权利要求1所述的方法，其特征在于，根据对歌曲分类的结果，制作了相应的视频素材镜头组，所述视频素材镜头组至少符合1080P像素标准，每个完整的视频，由10个至200个视频素材镜头组组成，兼容目前主要格式流媒体文件及其要求，并能保证最终播放质量。

3.根据权利要求1所述的方法，其特征在于，所述视频素材镜头组资源，都可以存放在本地，云端仅需要做算法和更新类下发，从而占用云存储、网络基础带宽和下载资源少，提高对终端的并发数，所述视频素材镜头组都已经优化处理并达到播放要求，对于字幕部分都已经预渲染，显示特效及其分辨率参数符合输出要求，所展示的视频背景都是实时合成加载的，能够实现在每次播放时，演唱者所展示的视频背景画面都不一样，同一个演唱者在不同的时刻演唱同一首歌曲，所展示的视频背景画面也不一样。

4.一种播放器，其特征在于，包括：

分类模块，对歌曲进行分类，所述对歌曲进行分类是AI自动分类，是指每一首歌曲，都包含了二十多种标签，在具体的分类规则上，可以根据单位时间内的歌词字数，判断节奏的快慢；可以根据歌词的提示，判定所处于的时段；可以根据提取到的人声频谱，分析演唱的人数、年龄、男女比例；

视频解析模块，具有多种不同风格的视频素材镜头组，通过对歌曲的内容进行智能分析，并根据分析的结果自动选择适配的视频素材镜头组，形成配套视频层，选中的视频素材镜头组任意顺序组合；

字幕预渲染模块，对歌曲的演唱伴唱字幕根据每个字的演唱时间节点，预先进行渲染导唱走字的视频，通过系统直接将文本文件渲染成字幕层，以叠加的方式形成走字呈现于画面最上层，渲染后的视频是一个有卡拉OK走字效果的字幕，并且背景是透明的独立文件；

合成模块，对包括字幕层、视频层的多层影音层实时进行合成，所述合成的过程是对2层至20层的信息进行合成，是将每层单独的信息合成输出为整体视频文件，相同或不同分辨率的视频文件及其他素材进行画面等比拉升或缩放，最终叠加合成在一个固定分辨率的平面上进行同步播放，在对视频文件组合成时，在视频前后分别具有淡入淡出的效果，

播放器模块，用于对合成后的歌曲视频内容实时进行处理，该合成采用本地服务器和网络云端相结合的方式；

播放器能够实现AI自动匹配多种歌曲属性标签，并且能够实现将一个字幕文件、原唱字幕，伴唱字幕、两个音轨文件、视频素材镜头组等文件，通过AI计算相关参数，然后对上述文件实时读取，能够实现边合成边播放，字幕，音轨和整体视频是平行的，播放器也兼容目前主要格式流媒体文件；

所述播放器为无缝合成，精确度可以达到帧，而且能够实现整体视频中的镜头组完全支持乱序排列，播放后的画面依然是无缝衔接，播放器边合成、边播放，实时解码，通过叠加多影音层实现卡拉OK的画面呈现。

5.根据权利要求4所述的播放器，其特征在于，所述的字幕文件包含多种语言文字，并且上述字幕都已经预渲染，伴唱字幕由AI人工智能判断男女歌手并给予不同颜色唱词与主歌引入点，实现智能导唱。

6.根据权利要求5所述的播放器，其特征在于，所述播放器支持本地服务器和网络云端播放，所述本地服务器具有预先设定好的数据包，本地服务器和网络云端播放具有实时切换功能，所述播放器能够根据歌曲自动匹配视频文件镜头组，并支持乱序排列播放，还能够自动计算视频素材、歌曲音频、字幕的时长，具有自动拉伸或者裁减功能，以达到预制时长。