CN111259196B

CN111259196B - 一种基于视频大数据的文章转视频的方法

Info

Publication number: CN111259196B
Application number: CN202010025398.XA
Authority: CN
Inventors: 康洪文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2024-02-06
Anticipated expiration: 2040-01-10
Also published as: CN111259196A

Abstract

本发明公开了一种基于视频大数据的文章转视频的方法，具体步骤为：用户输入一篇自然语言表述的文章；利用人工智能自然语言处理技术，对文章的文本信息进行关键字识别与提取；根据视频内容，利用深度学习技术对已有的视频大数据集打标签；根据提取到的关键字，在学习到的视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据；将输入的文章信息生成为视频字幕；利用语音合成技术对输入的文章信息进行语音合成；将视频、字幕、语音合并渲染，生成推荐视频；本发明能够极大地减少人工合成视频的时间成本，提高内容创作效率。

Description

一种基于视频大数据的文章转视频的方法

技术领域

本发明涉及媒资管理技术领域，具体涉及一种基于视频大数据的文章转视频的方法。

背景技术

对于内容生产者来说，音频信息由于其语音特性，无法向用户提供直观的画面信息，不利于用户对于信息内容的理解接受，而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据，再从中选出一些跟音频信息相匹配的片段来，耗费了巨大的时间与精力。

发明内容

本发明的目的在于针对现有技术的缺陷和不足，提供一种基于视频大数据的文章转视频的方法，可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音频快速转换为相应的视频内容，给用户更强的视觉冲击力和听觉体验，将作者表示的信息以更生动、丰满、直观的形象传达给用户。

为实现上述目的，本发明采用的技术方案是：它包含如下步骤：

一、用户输入一篇自然语言表述的文章；

二、利用人工智能自然语言处理技术，对输入的文章信息进行关键字识别与提取；

三、利用深度学习技术，基于视频理解，对视频大数据集自动打标签；

四、在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据；

五、将输入的文章生成为字幕信息；

六、利用语音合成技术将输入的文章信息合成为语音；

七、将视频、字幕、音频合并渲染，生成推荐视频。

进一步地，步骤二的具体方法是：通过embedding层技术得到字或者词向量，输入双向LSTM，经由SoftMax隐藏层计算得到一个BIO标注体系的无监督概率序列，再经过CRF监督层，提取出关键字序列；

进一步地，步骤三的具体方法是：使用深度3D卷积神经网络提取视频的时空信息，进行场景识别、动作捕捉、情感分析，提取出视频的场景信息、对象信息、人物表情、运动信息，作为视频的标签内容；

进一步地，步骤四的具体方法是：将步骤二中提取出的关键字序列特征值，与步骤三中建立的视频标签库中的标签特征值，进行相似度计算，相似度超过0.85即视为匹配成功；

进一步地，步骤六的具体方法是：先将输入文章的文字序列转换成语音波形，送入不同人物的声纹特征学习到的深度神经网络中，将其合成为具有不同性别、音色、语速、语调的高质量语音流。

采用上述方案后，本发明有益效果为：本发明所述的一种基于视频大数据的文章转视频的方法，基于人工智能自然语言处理技术及深度学习技术构建的视频大数据标签匹配系统进行的视频合成方法，能够将用户输入的音频转化成相应的视频内容，极大地减少人工合成视频的时间成本，提高内容创作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的流程图。

实施方式

下面结合附图，对本发明作进一步的说明。

参看图1所示，本具体实施方式采用的技术方案是：它包含如下步骤：

一、用户输入一篇自然语言表述的文章；

二、利用人工智能自然语言处理技术，对输入的文章信息进行关键字识别与提取，具体是通过embedding层技术得到字或者词向量，输入双向LSTM，经由SoftMax隐藏层计算得到一个BIO标注体系的无监督概率序列，再经过CRF监督层，提取出关键字序列；

三、利用深度学习技术，基于视频理解，对视频大数据集自动打标签，具体是：使用深度3D卷积神经网络提取视频的时空信息，进行场景识别、动作捕捉、情感分析等，提取出视频的场景信息、对象信息、人物表情、运动信息等，作为视频的标签内容；

四、在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据，具体是：将步骤二中提取出的关键字序列特征值，与步骤三中建立的视频标签库中的标签特征值，进行相似度计算，相似度超过0.85即视为匹配成功；

五、将输入的文章生成为字幕信息；

六、利用语音合成技术将输入的文章信息合成为语音，具体是：先将输入文章的文字序列转换成语音波形，送入不同人物的声纹特征学习到的深度神经网络中，将其合成为具有不同性别、音色、语速、语调的高质量语音流；

七、将视频、字幕、音频合并渲染，生成推荐视频。

本发明所述的一种基于视频大数据的文章转视频的方法，可以从海量的已有视频数据中，自动匹配选取合适的视频片段，将音频快速转换为相应的视频内容，给用户更强的视觉冲击力和听觉体验，将作者表示的信息以更生动、丰满、直观的形象传达给用户。

以上所述，仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于视频大数据的文章转视频的方法，其特征在于它包含如下步骤：

一、用户输入一篇自然语言表述的文章；

二、利用人工智能自然语言处理技术，获取字或者词向量，并基于所述字或者词向量确定无监督概率序列，再基于无监督概率序列提取出关键字序列；

三、使用深度3D卷积神经网络提取视频的时空信息，进行场景识别、动作捕捉、情感分析，提取出视频的场景信息、对象信息、人物表情、运动信息，作为视频的标签内容；

四、在视频大数据集标签系统中，进行标签检索匹配，输出匹配度高的视频数据；其中，步骤四的具体方法是：将步骤二中提取出的关键字序列特征值，与步骤三中建立的视频标签库中的标签特征值，进行相似度计算，相似度超过0.85即视为匹配成功；

五、将输入的文章生成为字幕信息；

六、利用语音合成技术将输入的文章信息合成为语音；

七、将视频、字幕、音频合并渲染，生成推荐视频。

2.根据权利要求1所述的一种基于视频大数据的文章转视频的方法，其特征在于步骤二的具体方法是：通过embedding层技术得到所述字或者词向量，输入双向LSTM，经由SoftMax隐藏层计算得到一个BIO标注体系的所述无监督概率序列，再经过CRF监督层，提取出所述关键字序列。

3.根据权利要求1所述的一种基于视频大数据的文章转视频的方法，其特征在于步骤六的具体方法是：先将输入文章的文字序列转换成语音波形，送入不同人物的声纹特征学习到的深度神经网络中，将其合成为具有不同性别、音色、语速、语调的高质量语音流。