CN114638232A

CN114638232A - 一种文本转换成视频的方法、装置、电子设备及存储介质

Info

Publication number: CN114638232A
Application number: CN202210283627.7A
Authority: CN
Inventors: 王殿臣
Original assignee: Beijing Meitong Interactive Digital Technology Co ltd
Current assignee: Beijing Meitong Interactive Digital Technology Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-17

Abstract

本申请公开了一种文本转换成视频的方法、装置、电子设备及存储介质。该方法包括首先获取待转换的目标文本内容；通过NLP算法进行关键词提取和分类得到目标文本内容的关键词和类型，在资源库中获取与预设通用规则相匹配的目标视频模板；然后将目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性，并与目标视频模板进行对应得到带有音轨的特定规则集合；将带有音轨的特定规则集合导入3D转换引擎，3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画，本申请将静态内容进行动态演示，同时解决大量资源投入才可完成的工作，让不方便阅读的人可以完整的明确内容。

Description

一种文本转换成视频的方法、装置、电子设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种文本转换成视频的方法、装置、电子设备及存储介质。

背景技术

随着信息时代的不断发展，人们能从手机获取海量的文本类信息，而文本类的新闻、资讯、文章或者剧本都无法生动的表述出效果，为了更生动易理解文本内容，可以将文章转换成视频，通过视频来降低用户获取信息的难度。

现有技术中，通常是将文本内容做成视频脚本通过人工的方式将文本内容想表达的意思进行演绎生成视频。

然而，这种方法通常需要大量的人力物力支持，并且处理需要很长的时间，且需要有专业技术人员参与才可完成。

发明内容

基于此，本申请实施例提供了一种文本转换成视频的方法、装置、电子设备及存储介质，可以将静态内容进行动态演示，解决了大量资源投入才可完成的工作，让不方便阅读的人可以完整的明确内容。

第一方面，提供了一种文本转换成视频的方法，该方法包括：

获取待转换的目标文本内容；

通过NLP算法对所述目标文本内容进行关键词提取和分类得到所述目标文本内容的关键词和类型；基于所述目标文本内容的关键词和类型在资源库中获取与预设通用规则相匹配的目标视频模板，所述资源库中包括至少一种视频模板，所述视频模板中至少包括人物模型、场景模型、视频播放样式；

将所述目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性；

将所述目标视频模板与带有时间轴的音频、字幕以及节点属性进行对应得到带有音轨的特定规则集合；

将所述带有音轨的特定规则集合导入3D转换引擎，3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画。

可选地，所述方法还包括：

在3D转换引擎渲染完成后自动导出生成高清视频文件；

并将生成的高清视频文件进行加密传播。

可选地，所述3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画，还包括：

3D转换引擎通过识别特定规则集合，形成场景及人物的图片、视频等素材及符合规则的播放器的导入，3D转换引擎依据特定规则集合中的时间轨迹上的特定动作，自动渲染3D动画。

可选地，将所述目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性中，所述节点属性至少包括：

图片出现时附加的图片类型与URL、视频出现时附加的视频类型与URL、音频播放出现时附加的视频类型与URL以及感情词出现时附加的感情词匹配规则。

可选地，所述获取待转换的目标文本内容，包括：

利用爬虫技术对网站进行正文提取，提取目标文本内容；

还包括，用户直接上传编辑后的目标文本内容。

可选地，在获取待转换的目标文本内容之前，所述方法还包括：

设置通用规则，包括建立关键词和类型与人物模型、场景模型以及动作模型之间的对应关系。

可选地，所述3D转换引擎包括虚幻引擎或unity3d引擎。

第二方面，提供了一种文本转换成视频的装置，该装置包括：

获取模块，用于获取待转换的目标文本内容；

视频转换模块，用于通过NLP算法对所述目标文本内容进行关键词提取和分类得到所述目标文本内容的关键词和类型；基于所述目标文本内容的关键词和类型在资源库中获取与预设通用规则相匹配的目标视频模板，所述资源库中包括至少一种视频模板，所述视频模板中至少包括人物模型、场景模型、视频播放样式；

音轨转换模块，用于将所述目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性；

对应模块，用于将所述目标视频模板与带有时间轴的音频、字幕以及节点属性进行对应得到带有音轨的特定规则集合；

转换模块，用于将所述带有音轨的特定规则集合导入3D转换引擎，3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画。

第三方面，提供了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的文本转换成视频的方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的文本转换成视频的方法。

本申请实施例提供的技术方案中，首先获取待转换的目标文本内容；通过NLP算法对目标文本内容进行关键词提取和分类得到目标文本内容的关键词和类型；基于目标文本内容的关键词和类型在资源库中获取与预设通用规则相匹配的目标视频模板，资源库中包括至少一种视频模板，视频模板中至少包括人物模型、场景模型、视频播放样式；将目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性；将目标视频模板与带有时间轴的音频、字幕以及节点属性进行对应得到带有音轨的特定规则集合；最后将带有音轨的特定规则集合导入3D转换引擎，3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画。

本申请实施例提供的技术方案带来的有益效果至少包括：

(1)本发明在文章转换成视频的过程中节省大量的人力和时间成本；

(2)原本需要多个专业技能部门和长时间剪辑合成，利用本发明成果可以在分钟级别内即可实现，且无专业技能要求，人人都可上手，为企业解决实际成本问题；

(3)让不方便阅读文字的人可以轻松实现“阅读”。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本申请实施例提供的一种文本转换成视频的方法的步骤流程图；

图2为本申请实施例提供的文本转换成视频的整体流程图；

图3为本申请实施例提供的一种文本转换成视频的装置的框图；

图4为本申请实施例提供的一种电子设备的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明涉及使用tts文语转换技术，语义分析技术，检索技术，3D技术，区块链技术等。

文本类的新闻、资讯、文章或者剧本都无法生动的表述出效果，为了更生动易理解更加的沉寂式阅读内容，所以提出了该发明方案。

目前都是靠手工来完成，需要大量的人力物力支持，并且处理需要很长的时间，且需要有专业技术人员参与才可完成。

本发明的目的一是将静态内容进行动态演示，二是解决大量资源投入才可完成的工作，让不方便阅读的人可以完整的明确内容。为便于对本实施例进行理解，首先对本申请实施例所公开的一种文本转换成视频的方法进行详细介绍。

请参考图1，其示出了本申请实施例提供的一种文本转换成视频的方法的流程图，该方法可以包括以下步骤：

步骤101，获取待转换的目标文本内容。

在本申请实施例中，获取待转换的目标文本内容可以是网络媒体的新闻稿、小说、评测等静态内容，也可以是通过后台自写的内容，网络资源可以抓取到后使用正文提取技术抽取正文内容，可通过后台再次进行编辑。使用的技术手段有爬虫技术，内容方通过我方提供的数据接口进行主动推送，我方开发的管理后台进行自主编辑的。

在本申请一个可选的实施例中，在获取待转换的目标文本内容之前，还包括了设置管理后台：

其功能不限于基本的账户、权限管理等，还可以编辑内容、配置动作词、配置节点属性、配置知识库(包含感情词、行业类别、细分属性等)、资源库管理等。其中资源库是不断完善扩充的，包含图片、视频、人物模型、场景模型等。

步骤102，通过NLP算法对目标文本内容进行关键词提取和分类得到目标文本内容的关键词和类型；基于目标文本内容的关键词和类型在资源库中获取与预设通用规则相匹配的目标视频模板。

其中，资源库中包括至少一种视频模板，视频模板中至少包括人物模型、场景模型、视频播放样式。

在本申请实施例中，通过程序对内容进行关键词提取和分类，用来标注内容是什么类型的、关键词有哪些等，其中，程序可以是如NLP算法等自行研发的算法。

根据得到的关键词与标注内容类型可以确定物模型、场景模型、视频播放样式等，遇到什么样的关键词更换什么样的场景等智能规则。

例如，通过设置管理后台，有一个模块菜单用来配置规则，界面上先选择类型(比如科技、女人、汽车等等，通过NLP算法标注的类型列表)，选择类型后，界面会出现人物模型选择配置、场景模型选择等，意思就是这篇内容是讲科技的，那么在这里配置最终生成视频中使用的主讲人物模型使用哪一个，场景模型使用哪一个，遇到一些词要不要更换一下模型或者触发一些动作等。

步骤103，将目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性。

在本申请实施例中，将步骤101中的内容转换为视频中的音频与字幕，其中该步骤生成的音频与字幕的同时会附加节点属性，节点属性可以通过后台进行扩充，初始状态有：图片出现(附加图片类型、URL等基础属性)、视频出现(附加视频类型、URL等基础属性)、音频播放(附加视频类型、URL等基础属性)、感情词出现(附加感情词匹配规则)。

步骤104，将目标视频模板与带有时间轴的音频、字幕以及节点属性进行对应得到带有音轨的特定规则集合。

正常的视频包含视频、字幕、音频、时间且是四个一一对应，本步骤将步骤103生成的还包含节点数据和属性与步骤102生成的对应规则(视频模板)进行一一对应，最终形成一个带有音轨的特定规则集合。音轨规则转换是一系列的动作组合而形成的包含各种属性结果的数据集合，这个集合相当于整个视频的导演，视频多长、用什么人物、播放什么图片、说什么话等等都在该数据集合中。

步骤105，将带有音轨的特定规则集合导入3D转换引擎，3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画。

其中，3D转换引擎是自行开发的特定引擎，具备模型素材的自定义更换及灵活人物控制特点，将步骤104中形成的特定规则集合导入该引擎。利用unreal虚幻引擎或unity开发的3d引擎，转换引擎与正常的unreal或unity开发的3d引擎区别主要在于，自行研发的特定引擎是必须要识别音轨规则的，并且3d播放的过程是依据音轨规则执行的，是数字驱动的。

让引擎通过识别特定规则集合，形成场景、及人物和过程中图片、视频等素材及符合规则的播放器(依据规则集合使用不通样式、位置、格式的播放器)的导入，引擎依据特定规则集合中的时间轨迹上的特定动作，自动渲染3D动画。特定规则集合如步骤104中的解释，相当于导演的角色，包含了视频多长的信息字段、人物模型id等等，引擎通过识别这些数据字段信息进行渲染。

在步骤105之后，方法还包括：

步骤106，在3D转换引擎渲染完成后自动导出生成高清视频文件。

引擎渲染完成后自动导出生成高清视频文件，就是将渲染数据流保存成视频文件。

将步骤106生产的视频文件直接进行加密传播，将步骤106生产的视频嵌入特定播放器进行加密播放，服务器端渲染的过程中同时将渲染数据传输到用户端实现实时观看，比如使用rtp协议等等。即本申请步骤106中3d渲染后一方面可以生产视频文件，另一方面可实时渲染播放。

综上可以看出，本发明的重点在于：

本发明的内容：内容不管是抓取来的还是主动推送过来的，都是经过正文抽取的，正文抽取的算法可以是基于行块分布函数的通用网页正文抽取算法，也可以是不断完善升级的自定义算法，后续的所有动作都依赖于该内容。

本发明的数据集合：数据集合是依赖于内容经过一系列算法动作之后形成的符合引擎识别的数据集合，根据内容进行音轨生产的过程中，同时需要对内容经过NLP算法的分词、关键词提取、词性标注和命名实体识别，然后结合后台知识库进行动作、感情、素材标注，最后将音轨、时间轴、节点属性进行合并算法生成数据集合。

本发明的引擎：输入的是一系列的由内容生成的特定数据集合，特定数据集合包含了时间轴(针对校准字幕、音轨及人物动作感情和素材的播放)，动作(针对于人物的肢体动作和其他场景变换，如临时出现一个其他模型展示或临时切换一下场景素材等)，感情(针对于人物模型的表情)，音轨，字幕，素材(场景模型，人物模型，播放的图片、视频等)，引擎解析数据集合自动加载对应的材料形成一个完整的动画展示。

本发明的视频：通常我们见到的程序合成的动效基本就是游戏，通过按键或传感器出发模型和场景的切换，而我们生成的视频是由程序根据内容智能触发而不再经由按键或其他传感器，内容中的词语即是我们的传感指令。

如图2，给出了通过本申请方法进行文本转换成视频的整体流程图，即实现上述各个实施例的完整流程。

请参考图3，其示出了本申请实施例提供的一种文本转换成视频的装置200的框图。如图3所示，该装置200可以包括：获取模块201、视频转换模块202、音轨转换模块203、对应模块204以及转换模块205。

获取模块201，用于获取待转换的目标文本内容；

视频转换模块202，用于通过NLP算法对目标文本内容进行关键词提取和分类得到目标文本内容的关键词和类型；基于目标文本内容的关键词和类型在资源库中获取与预设通用规则相匹配的目标视频模板，资源库中包括至少一种视频模板，视频模板中至少包括人物模型、场景模型、视频播放样式；

音轨转换模块203，用于将目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性；

对应模块204，用于将目标视频模板与带有时间轴的音频、字幕以及节点属性进行对应得到带有音轨的特定规则集合；

转换模块205，用于将带有音轨的特定规则集合导入3D转换引擎，3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画。

关于文本转换成视频的装置的具体限定可以参见上文中对于文本转换成视频的方法的限定，在此不再赘述。上述文本转换成视频的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是计算机，其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于文本转换成视频的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本转换成视频的方法。

本领域技术人员可以理解，如图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述文本转换成视频的方法的步骤。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以M种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本转换成视频的方法,其特征在于，所述方法包括：

获取待转换的目标文本内容；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在3D转换引擎渲染完成后自动导出生成高清视频文件；

并将生成的高清视频文件进行加密传播。

3.根据权利要求1所述的方法，其特征在于，所述3D转换引擎依据特定规则集合中的时间轴上的特定动作，渲染3D动画，还包括：

3D转换引擎通过识别特定规则集合，形成场景及人物的图片、视频素材及符合规则的播放器的导入，3D转换引擎依据特定规则集合中的时间轨迹上的特定动作，自动渲染3D动画。

4.根据权利要求1所述的方法，其特征在于，将所述目标文本内容进行音轨转换得到带有时间轴的音频、字幕以及节点属性中，所述节点属性至少包括：

5.根据权利要求1所述的方法，其特征在于，所述获取待转换的目标文本内容，包括：

利用爬虫技术对网站进行正文提取，提取目标文本内容；

还包括，用户直接上传编辑后的目标文本内容。

6.根据权利要求1所述的方法，其特征在于，在获取待转换的目标文本内容之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述3D转换引擎包括虚幻引擎或unity3d引擎。

8.一种文本转换成视频的装置，其特征在于，所述装置包括：

获取模块，用于获取待转换的目标文本内容；

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一所述的文本转换成视频的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述的文本转换成视频的方法。