CN114598933A

CN114598933A - 一种视频内容处理方法、系统、终端及存储介质

Info

Publication number: CN114598933A
Application number: CN202210259504.XA
Authority: CN
Inventors: 潘芸倩; 叶静娴; 奚悦; 包小溪; 陈又新
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-07
Anticipated expiration: 2042-03-16
Also published as: WO2023173539A1; CN114598933B

Abstract

本发明公开了一种视频内容处理方法、系统、终端及存储介质。所述方法包括：提取待处理视频中的音频信号以及文本信息；提取所述待处理视频中的视频图像，对所述视频图像进行图像分析，判断所述待处理视频的视频类型；所述视频类型包括PPT视频、单人视频以及多人视频；基于所述音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息，生成所述待处理视频的短视频剪辑结果。本发明可以一键生成多个精剪短视频，大大提升了剪辑效率，缩短视频制作周期。

Description

一种视频内容处理方法、系统、终端及存储介质

技术领域

本发明涉及视频处理技术领域，特别是涉及一种视频内容处理方法、系统、终端及存储介质。

背景技术

目前以视频为代表的富媒体信息成为主流，其中短视频是中国消费者接触内容最多的形式，小屏幕、短视频、快节奏成为视频行业的发展趋势。

视频行业高速发展的同时也对视频处理效率和质量提出了更高的要求。目前的视频内容处理主要依靠人工作业为主，内容处理工具操作门槛高、人才培育成本高，且视频的人工精剪耗时较长，在一定程度上阻碍了视频领域的发展。

发明内容

本发明提供了一种视频内容处理方法、系统、终端及存储介质，旨在解决现有的视频内容处理依靠人工作业存在的操作门槛高、人才培育成本高以及视频精剪耗时较长等技术问题。

为解决上述技术问题，本发明采用的技术方案为：

一种视频内容处理方法，包括：

提取待处理视频中的音频信号以及文本信息；

提取所述待处理视频中的视频图像，对所述视频图像进行图像分析，判断所述待处理视频的视频类型；所述视频类型包括PPT视频、单人视频以及多人视频；

基于所述音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息，生成所述待处理视频的短视频剪辑结果。

本发明实施例采取的技术方案还包括：所述提取待处理视频中的音频信号以及文本信息包括：

将所述待处理视频输入开源框架，通过所述开源框架输出待处理视频的音频信号；

对所述音频信号进行语音转文字处理，生成待处理视频的文本信息。

本发明实施例采取的技术方案还包括：所述对音频信号进行语音转文字处理具体为：

对所述音频信号进行语音特征提取，将所述语音特征输入训练好的声学模型，通过所述声学模型输出对应的概率得分；

基于所述声学模型的输出结果，根据搜索和匹配策略从训练好的语言模型中搜索出与所述音频信号相匹配的文本，输出所述待处理视频的文本信息识别结果。

本发明实施例采取的技术方案还包括：所述判断所述待处理视频的视频类型具体为：

将提取的视频图像输入开源框架，通过所述开源框架抽取所述视频图像的帧画面；

对每一幅帧画面进行分类，得到所述待处理视频的视频类型。

本发明实施例采取的技术方案还包括：当所述待处理视频为PPT视频时，所述基于所述音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息具体为：

提取所述PPT视频中的PPT文字信息；

基于所述文本信息和PPT文字信息，利用多模态视频处理模型计算相邻两页PPT页面的相似度，并筛选出相似度大于第一相似度阈值的PPT页面；同时，计算每一页PPT页面与设定的全局关键词的相似度，将相似度小于设定的第二相似度阈值的PPT页面丢弃；

对筛选后的PPT页面进行拼接，得到所述PPT视频的精华片段以及所述精华片段在PPT视频中的时间戳；

将所述文本信息输入深度神经网络模型，生成所述精华片段的标题以及摘要的第一个字，再将生成的第一个字和文本信息一起输入深度神经网络模型，生成精华片段的标题以及摘要的第二个字；重复上述过程，得到所述精华片段对应的标题、摘要信息；

将所述文本信息和标题一起输入深度神经网络模型，通过所述深度神经网络模型计算文本信息和标题中每个词语的权重，并计算所述每个词语与所述PPT视频主题的相关性，得到所述精华片段对应的标签信息。

本发明实施例采取的技术方案还包括：当所述待处理视频为单人视频时，所述基于音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息具体为：

根据所述文本信息，利用多模态视频处理模型计算相邻两帧图像的相似度，并筛选出相似度大于第一相似度阈值的图像；同时，计算每一帧图像与全局关键词的相似度，将相似度小于第二相似度阈值的图像丢弃；

对筛选后的图像进行拼接，得到所述单人视频的精华片段以及所述精华片段在单人视频中的时间戳；

将所述文本信息输入深度神经网络模型，生成所述精华片段的标题以及摘要的第一个字，将生成的第一个字和文本信息一起输入深度神经网络模型，生成所述精华片段的标题以及摘要的第二个字，重复上述过程，得到所述单人视频的精华片段对应的标题和摘要信息；

将所述文本信息和标题一起输入深度神经网络模型，通过所述深度神经网络模型计算文本信息和标题中每个词语的权重，并计算每个词语与所述单人视频主题的相关性，得到所述精华片段的标签信息。

本发明实施例采取的技术方案还包括：所述当所述待处理视频为多人视频时，所述基于音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息具体为：

对所述多人视频的音频信息进行声纹识别处理，得到所述多人视频中每个发声人的声纹识别匹配结果；

基于所述视频图像和文本信息，利用多模态视频处理模型计算相邻两帧图像的相似度，筛选出相似度大于第一相似度阈值的图像；同时，计算每一帧图像与全局关键词的相似度，将相似度小于第二相似度阈值的图像丢弃；

对筛选后的图像进行拼接，得到所述多人视频的精华片段以及精华片段在多人视频中的时间戳；

将所述文本信息输入深度神经网络模型，生成所述精华片段的标题以及摘要的第一个字，再将生成的第一个字和文本信息一起输入深度神经网络模型，生成所述精华片段的标题以及摘要的第二个字，重复上述过程，得到所述多人视频的精华片段对应的标题和摘要信息；

将所述文本信息和标题一起输入深度神经网络模型，通过所述深度神经网络模型计算文本信息和标题中每个词语的权重，并计算每个词语与当前视频主题的相关性，得到所述多人视频的精华片段的标签信息。

本发明实施例采取的另一技术方案为：一种视频内容处理系统，包括：

多模态信息提取模块：用于提取待处理视频中的音频信号以及文本信息；

视频类型判断模块：用于提取所述待处理视频中的视频图像，对视频图像进行图像分析，判断所述待处理视频的视频类型；所述视频类型包括PPT视频、单人视频以及多人视频；

视频剪辑模块：用于基于所述音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取不同类型的待处理视频的精华片段对应的标题、摘要以及标签信息，生成待处理视频的短视频剪辑结果。

本发明实施例采取的又一技术方案为：一种终端，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现上述的视频内容处理方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以执行所述视频内容处理操作。

本发明实施例采取的又一技术方案为：一种存储介质，存储有处理器可运行的程序指令，所述程序指令用于执行上述的视频内容处理方法。

本发明实施例的视频内容处理方法、系统、终端及存储介质采用多模态视频内容处理技术，通过提取待处理视频中的音频信号以及文本信息，基于音频信号以及文本信息，利用多模态视频处理模型以及深度学习神经网络模型获取待处理视频中的精华片段以及精华片段对应的标题、摘要以及标签信息。本发明采用全AI处理流程，可以一键生成多个精剪短视频，大大提升了剪辑效率，缩短视频制作周期。

附图说明

图1是本发明第一实施例的视频内容处理方法的流程示意图；

图2是本发明第二实施例的视频内容处理方法的流程示意图；

图3是本发明实施例视频内容处理系统的结构示意图；

图4是本发明实施例的终端结构示意图；

图5是本发明实施例的存储介质结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

请参阅图1，是本发明第一实施例的视频内容处理方法的流程示意图。本发明第一实施例的视频内容处理方法包括以下步骤：

S10：提取待处理视频中的音频信号以及文本信息；

S11：提取待处理视频中的视频图像，对视频图像进行图像分析，判断待处理视频的视频类型；视频类型包括PPT视频、单人视频以及多人视频；

S12：基于音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取不同类型的待处理视频的精华片段对应的标题、摘要以及标签信息，生成待处理视频的短视频剪辑结果。

请参阅图2，是本发明第二实施例的视频内容处理方法的流程示意图。本发明第二实施例的视频内容处理方法包括以下步骤：

S20：提取待处理视频中的音频信号；

本步骤中，音频信号提取过程具体为：将待处理视频输入开源框架(FFmpeg)，通过开源框架输出待处理视频的音频信号。

S21：对提取的音频信号进行语音转文字处理，生成待处理视频的文本信息；

本步骤中，文本信息即待处理视频的视频字幕。文本信息的生成方式具体为：对音频信号进行语音特征提取，将提取的语音特征输入训练好的声学模型，通过声学模型输出对应的概率得分。基于声学模型输出结果，根据一定的搜索和匹配策略从语言模型中搜索出与音频信号相匹配的文本，输出待处理视频的文本信息识别结果。

S22：提取待处理视频中的视频图像，对视频图像进行分析，获取待处理视频的视频类型；

本步骤中，视频类型包括PPT视频、单人视频或多人视频。视频图像的分析过程具体为：将提取的视频图像输入开源框架，通过开源框架抽取视频图像的帧画面，对每一幅帧画面进行分类，得到待处理视频的视频类型。

S23：判断待处理视频属于PPT视频、单人视频还是多人视频，如果属于PPT视频，执行S24；如果属于单人视频，执行S25；如果属于多人视频，执行S26；

S24：基于音频信号以及文本信息，利用多模态视频处理模型提取PPT视频中的精华片段，并采用深度学习神经网络模型输出精华片段对应的标题、摘要以及标签信息，生成PPT视频的短视频剪辑结果；

本步骤中，PPT视频的处理过程具体为：

首先，提取PPT视频中的PPT文字信息；PPT文字信息提取过程包括：对PPT视频进行预处理后，识别PPT视频中的字符信息，并对识别的字符信息进行校正后，得到PPT视频的PPT文字信息。

其次，根据文本信息和PPT文字信息，利用多模态视频处理模型计算相邻两页PPT页面的相似度，根据设定的第一相似度阈值对PPT页面进行筛选，得到所有相似度大于第一相似度阈值的PPT页面；同时，计算每一页PPT页面与全局关键词的相似度，根据设定的第二相似度阈值对PPT页面进行筛选，将所有相似度小于第二相似度阈值的PPT页面丢弃。最后，对筛选出的PPT页面进行拼接，得到PPT视频的精华片段以及精华片段在PPT视频中的时间戳。其中，通过计算文本信息和PPT文字信息中每个词语的权重以及每个词语与当前视频主题的相关性得到全局关键词；第一相似度阈值和第二相似度阈值可根据实际应用场景进行设置。

然后，将文本信息输入深度神经网络模型，生成精华片段的标题以及摘要的第一个字，再将生成的第一个字和文本信息一起输入深度神经网络模型，生成精华片段的标题以及摘要的第二个字，如此反复，直到深度神经网络模型输出结束符，得出精华片段所对应的标题、摘要等文本信息。

最后，将文本信息和标题一起输入深度神经网络模型，通过深度神经网络模型计算文本信息和标题中每个词语的权重，并计算每个词语与当前视频主题的相关性，得到精华片段所对应的标签信息。

S25：基于音频信号以及文本信息，利用多模态视频处理模型提取单人视频中的精华片段，并采用深度学习神经网络模型输出精华片段对应的标题、摘要以及标签信息，生成单人视频的短视频剪辑结果；

本步骤中，单人视频的处理过程具体为：

首先，根据文本信息，利用多模态视频处理模型计算相邻两帧图像的相似度，并通过设定的第一相似度阈值对图像进行筛选，输出所有相似度大于第一相似度阈值的图像；同时，计算每一帧图像与全局关键词的相似度，根据设定的第二相似度阈值对所有图像进行筛选，将所有相似度小于第二相似度阈值的图像丢弃。最后，对筛选的图像进行拼接，得到单人视频的精华片段以及精华片段在单人视频中的时间戳。其中，全局关键词是通过计算文本信息中每个词语的权重以及每个词语与当前视频主题的相关性得到；第一相似度阈值和第二相似度阈值可根据实际应用场景进行设置。

然后，将文本信息输入深度神经网络模型，生成精华片段的标题以及摘要的第一个字，再将生成的第一个字和文本信息一起输入深度神经网络模型，生成精华片段的标题以及摘要的第二个字，如此反复，直到深度神经网络模型输出结束符，得出单人视频的精华片段所对应的标题、摘要等文本信息。

S26：基于音频信号以及文本信息，利用多模态视频处理模型提取多人视频中的精华片段，并采用深度学习神经网络模型输出精华片段对应的标题、摘要以及标签信息，生成多人视频的短视频剪辑结果；

本步骤中，多人视频的处理过程具体为：

首先，对多人视频的音频信息进行声纹识别处理，得到多人视频中每个发声人的声纹识别匹配结果；其中，声纹识别过程为：利用噪声抑制算法提取音频信息中的有效语音，对提取的有效语音进行声纹特征提取，根据提取的声纹特征进行发声人声音建模，并输出每个发声人的声纹识别匹配结果。

其次，根据视频图像和文本信息，利用多模态视频处理模型计算相邻两帧图像的相似度，并通过设定的第一相似度阈值对所有图像进行筛选，输出相似度大于第一相似度阈值的图像；同时，计算每一帧图像与全局关键词的相似度，根据第二相似度阈值对所有图像进行筛选，将所有相似度小于第二相似度阈值的图像丢弃。最后，对筛选后的图像进行拼接，得到多人视频的精华片段以及精华片段在多人视频中的时间戳。其中，全局关键词是通过计算文本信息中每个词语的权重以及每个词语与当前视频主题的相关性得到；第一相似度阈值和第二相似度阈值可根据实际应用场景进行设置。

然后，将文本信息输入深度神经网络模型，生成精华片段的标题以及摘要的第一个字，再将生成的第一个字和文本信息一起输入深度神经网络模型，生成精华片段的标题以及摘要的第二个字，如此反复，直到深度神经网络模型输出结束符，得出多人视频的精华片段所对应的标题、摘要等文本信息。

最后，将文本信息和标题一起输入深度神经网络模型，通过深度神经网络模型计算文本信息和标题中每个词语的权重，并计算每个词语与当前视频主题的相关性，得出多人视频的精华片段所对应的标签信息。

基于上述，本发明实施例的视频内容处理方法采用多模态视频内容处理技术，通过提取待处理视频中的音频信号以及文本信息，基于音频信号以及文本信息，利用多模态视频处理模型以及深度学习神经网络模型获取待处理视频中的精华片段以及精华片段对应的标题、摘要以及标签信息。本发明采用全AI(Artificial Intelligence，人工智能)处理流程，可以一键生成多个精剪短视频，大大提升了剪辑效率，缩短视频制作周期。本发明可支持智能关键词精准生成，保证画质清晰、剪辑节奏流畅、内容紧跟亮点等，具有高拓展性，应用范围广，可赋能社会生活中互联网泛娱乐、在线教育、协同办公等各个场景。

在一个可选的实施方式中，还可以：将所述的视频内容处理方法的结果上传至区块链中。

具体地，基于所述的视频内容处理方法的结果得到对应的摘要信息，具体来说，摘要信息由所述的视频内容处理方法的结果进行散列处理得到，比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息，以便查证所述的视频内容处理方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参阅图3，是本发明实施例视频内容处理系统的结构示意图。本发明实施例视频内容处理系统40包括：

多模态信息提取模块41：用于提取待处理视频中的音频信号以及文本信息；

视频类型判断模块42：用于提取待处理视频中的视频图像，对视频图像进行图像分析，判断待处理视频的视频类型；视频类型包括PPT视频、单人视频以及多人视频；

视频剪辑模块43：用于基于音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取不同类型的待处理视频的精华片段对应的标题、摘要以及标签信息，生成待处理视频的短视频剪辑结果。

请参阅图4，为本发明实施例的终端结构示意图。该终端50包括处理器51、与处理器51耦接的存储器52。

存储器52存储有用于实现上述视频内容处理方法的程序指令。

处理器51用于执行存储器52存储的程序指令以执行视频内容处理操作。

其中，处理器51还可以称为CPU(Central Processing Unit，中央处理单元)。处理器51可能是一种集成电路芯片，具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

请参阅图5，图5为本发明实施例的存储介质的结构示意图。本发明实施例的存储介质存储有能够实现上述所有方法的程序文件61，其中，该程序文件61可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频内容处理方法，其特征在于，包括：

提取待处理视频中的音频信号以及文本信息；

2.根据权利要求1所述的视频内容处理方法，其特征在于，所述提取待处理视频中的音频信号以及文本信息包括：

3.根据权利要求2所述的视频内容处理方法，其特征在于，所述对音频信号进行语音转文字处理具体为：

4.根据权利要求1所述的视频内容处理方法，其特征在于，所述判断所述待处理视频的视频类型具体为：

5.根据权利要求1至4任一项所述的视频内容处理方法，其特征在于，当所述待处理视频为PPT视频时，所述基于所述音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息具体为：

提取所述PPT视频中的PPT文字信息；

6.根据权利要求5所述的视频内容处理方法，其特征在于，当所述待处理视频为单人视频时，所述基于音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息具体为：

7.根据权利要求6所述的视频内容处理方法，其特征在于，所述当所述待处理视频为多人视频时，所述基于音频信号以及文本信息，利用多模态视频处理模型提取不同类型的待处理视频中的精华片段，并采用深度神经网络模型提取所述精华片段对应的标题、摘要以及标签信息具体为：

8.一种视频内容处理系统，其特征在于，包括：

9.一种终端，其特征在于，所述终端包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现权利要求1至7任一项所述的视频内容处理方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以执行所述视频内容处理方法。

10.一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行权利要求1至7任一项所述的视频内容处理方法。