CN113992940A

CN113992940A - Web端文字视频编辑方法、系统、电子设备及存储介质

Info

Publication number: CN113992940A
Application number: CN202111607922.5A
Authority: CN
Inventors: 曾腾; 何山; 黄裔; 刘铁华
Original assignee: Beijing Meishe Network Technology Co ltd
Current assignee: Beijing Meishe Network Technology Co ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-01-28
Anticipated expiration: 2041-12-27
Also published as: CN113992940B

Abstract

本发明提供Web端文字视频编辑方法、系统、电子设备及存储介质，包括：接收通过Web端上传的视频数据，将视频数据进行转码获得音频数据；调用预设第三方语音转文字软件工具，获得音频数据对应的文字信息；采用预设分词算法获取文字信息的短句文字分词集合，基于文字信息和短句文字分词集合，获取视频片段集合；在视频片段集合中确定待处理视频片段，对待处理视频片段进行预处理，调用合成服务获得合成成片。本发明提出的基于文字编辑实现Web端视频编辑方法，相对于现有视频编辑软件中侧重于将视频及对应文字信息与时间线进行对齐，操作繁琐，对操作人员专业性要求过高，更侧重于文字应用场景，具有操作简单，易于上手，输出效果好等特点。

Description

Web端文字视频编辑方法、系统、电子设备及存储介质

技术领域

本发明涉及音视频处理技术领域，尤其涉及Web端文字视频编辑方法、系统、电子设备及存储介质。

背景技术

在日常生活中，音视频编辑已逐渐成为普遍的需求。在Web端的音视频编辑软件中，传统模式是直接在时间线上编辑音频或视频，然后再制作对应的字幕，通过拍唱词等形式将对应字幕进行添加，最后输出成片。

但上述操作模式对于一些更加注重文字应用的场景，就会显得比较繁琐，首先无法清晰直观的看到文字信息，由于时间线操作的严格性，对视频编辑操作的专业性要求较高，一般操作者很难较好地操作文字和视频之间的对齐调整以及联动性调整。此外，普通的音视频编辑软件一般侧重于影音娱乐等场景，对于文字相关场景，例如教学视频制作，还没有针对性的解决方案。

因此，如何针对文字应用需求的音视频进行编辑，成为亟待解决的问题。

发明内容

本发明提供Web端文字视频编辑方法、系统、电子设备及存储介质，用以解决现有技术中针对文字应用需求音视频还没有系统的编辑方法的缺陷。

第一方面，本发明提供Web端文字视频编辑方法，包括：

接收通过Web端上传的视频数据，将所述视频数据进行转码获得音频数据；

调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息；

采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合；

在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片。

根据本发明提供的Web端文字视频编辑方法，所述调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息，之前包括：

对所述音频数据进行降噪预处理。

根据本发明提供的Web端文字视频编辑方法，所述调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息，之前还包括：

若判断所述视频数据是通过多机位获取，则基于预设音频对比算法对所述音频数据进行多机位对齐。

根据本发明提供的Web端文字视频编辑方法，所述采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合，具体包括：

对所述文字信息进行智能语义判断，将所述文字信息拆分为若干个短句文字分词，获得所述短句文字分词集合；

提取所述文字信息中的时间信息，将所述若干个短句文字分词按照所述时间信息，与所述视频数据进行对应匹配切分，得到所述视频片段集合。

根据本发明提供的Web端文字视频编辑方法，所述在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片，具体包括：

基于文字选择需求，在所述视频片段集合中确定所述待处理视频片段；

对所述待处理视频片段进行预设编辑和预设优化，得到待输出视频片段；

调用所述合成服务将所述待输出视频片段进行合成，输出所述合成成片。

根据本发明提供的一种Web端文字视频编辑方法，所述若判断所述视频数据是通过多机位获取，则基于预设音频对比算法对所述音频数据进行多机位对齐，具体包括：

从任一机位拍摄视频对应的音频数据中任一位置开始采样若干个具有预设时长的音频数据作为对比样本集合；

基于所述对比样本集合，与其余机位拍摄视频对应的音频数据进行比对，获取若干组比对结果集合；

计算每组对比结果集合的相关性，获取最大相关性数值以及所述最大相关性数值对应的音频数据位置；

若判断所述最大相关性数值超过预设阈值，则返回对齐失败结果，否则返回对齐成功结果以及多机位偏移量结果。

第二方面，本发明还提供Web端文字视频编辑系统，包括：

第一转换模块，用于接收通过Web端上传的视频数据，将所述视频数据进行转码获得音频数据；

第二转换模块，用于调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息；

匹配模块，用于采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合；

合成模块，用于在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述Web端文字视频编辑方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述Web端文字视频编辑方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述Web端文字视频编辑方法的步骤。

本发明提供的Web端文字视频编辑方法、系统、电子设备及存储介质，通过语音转文字的方式生成对应的文字，界面上通过文字找到对应的视频进行编辑操作，具有操作简单，易于上手，输出效果好等特点。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的Web端文字视频编辑方法的流程示意图；

图2是本发明提供的Web端文字视频编辑方法的整体框架图；

图3是本发明提供的视频处理服务机制的框架原理图；

图4是本发明提供的多机位对齐的音频对比算法流程示意图；

图5是本发明提供的Web端文字视频编辑系统的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为弥补现有技术中还没有较为系统地针对文字需求的音视频编辑方法，本发明提出一种Web端文字视频编辑方法，图1是本发明提供的Web端文字视频编辑方法的流程示意图，如图1所示，包括：

步骤S1，接收通过Web端上传的视频数据，将所述视频数据进行转码获得音频数据；

步骤S2，调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息；

步骤S3，采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合；

步骤S4，在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片。

需要说明的是，本发明采用WebAssembly技术，WebAssembly技术是一种可以使用非 JavaScript 编程语言编写代码并且能在浏览器上运行的技术方案，对应输出wasm文件，采用C++语言实现视音频的流媒体处理和视频图像特效渲染，编译出的wasm相关文件带有JavaScript接口，Web端可以直接使用。将wasm文件部署在网站发布服务器中，Web段在使用时只需下载wasm文件并编译文件即可，再通过初始化流媒体处理模块，即可使用相应的JavaScript接口创建流媒体上下文、创建时间线、添加音视频轨道、添加音视频片段、添加各种特效，所有特效渲染都在Web端完成，因此无论是播放还是定位都能实时看到渲染后的图像效果。

本发明提出的方案整体框架图如图2所示，通过Web端上传待编辑的视频数据，该视频数据可以是单机位拍摄获得，也可以是多机位拍摄获得，将待编辑的视频数据进行转码得到音频数据。

进一步地，通过第三方提供的语音转文字软件工具，将音频数据转换输出文字信息，这里通常采用调用第三方的语音转文字的Web端接口，如科大讯飞、腾讯和百度等提供的智能AI语音识别系统进行转换，得到正确率较高的文字信息，该文字信息包括文字本身和对应的时间信息，还可包括是否为多机位拍摄等信息。

接下来对整体文字信息进行拆分处理，由于语音转文字直接转换得到的结果都是较长的句子，而在编辑时对长句子编辑是比较困难的，需要对长句子进行智能拆分，这里就要用到常用的分词算法，例如jieba分词、SnowNLP和NLPIR等算法，通过自然语言处理的方式，得到多个短句文字分词，集合形成短句文字分词集合。

然后是本发明的核心要点，将多个短句文字分词和原始的视频数据进行一一对应匹配，得到多个视频片段，即视频片段集合，此处实现了由文字反向定位视频的效果，和传统的音视频编辑不同，需要依赖完整的时间线信息，将视频每一帧的时间点和时间线进行严格对应，在此基础上添加文字，而本发明则是将获得的文字信息，包括但不限于文字本身，文字时间信息等，通过内容、时间的信息对原始视频进行定位匹配，特别适用于对文字输出要求高的场景，例如教学视频的制作，使用者通常看教学内容时，还需要对授课者的讲课内容做文字提炼，方便进行学习总结。

最后，根据使用者的需要，选择需要编辑的待处理视频片段，例如总共有50个视频小片段，而使用者仅需要对其中5个视频小片段进行编辑，选择对应的目标视频片段，调用合成服务，即可输出合成成片。

本发明通过语音转文字的方式生成对应的文字，界面上通过文字找到对应的视频进行编辑操作，具有操作简单，易于上手，输出效果好等特点。

基于上述实施例，所述调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息，之前包括：

对所述音频数据进行降噪预处理。

可选地，对于转换文字的处理，本发明采用通过语音转文字的方式，通过第三方的语音转文字Web端接口调用，返回对应音频的文字及时间信息。而在调用语音转换文字接口之前，通常视频由于拍摄环境的影响存在各种噪声，为了避免视频里面的噪音对人声产生比较大的影响，本发明还进行了音频的降噪预处理，通过降低非人声频段的音频，将噪声影响降低，提升识别准确度，如图3中所示的音频降噪服务，进行音频降噪预处理后，得到降噪后的音频数据。

在实现软件中，通过在“音频”参数设置界面，打开“音频降噪”开关，该开关默认为打开状态，并可通过拖动下方的频率设置范围，对降噪效果进行选择，根据背景噪音大小进行灵活调整。

本发明通过在语音转文字之前，对音频数据进行降噪预处理，避免噪音对音频的干扰，提高语音转文字的正确率。

基于上述任一实施例，所述调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息，之前还包括：

可选地，如图2所示，若视频处理服务判断由Web端上传的视频数据为多机位拍摄，则需调用如图3所示的多机位视频对齐服务，对多机位的视频进行对齐，以便于在后续的编辑过程中切换机位找到对应的视频片段。视频对齐的功能，首先是要在上传视频给服务器进行转码的过程中生成完整的音频数据，然后调用音频对比的服务，通过音频数据的区间采样对比得出两个不同机位视频的起始时间差，然后Web端根据这个时间差将这两个不同机位的视频到对应的轨道上。

具体判断流程如图4所示：

假定第一机位拍摄获取转换得到的为第一段音频数据，第二机位拍摄获取转换得到的为第二段音频数据，以第一段音频数据为基准，从第二段音频数据的某一个位置开始采样预设时长，如1秒时长的音频数据作为对比样本，从第一段音频数据开始对比样本，将若干个对比结果作为一组，例如每200个数据一组，得到若干组这样的比对结果集合，再计算每组对比结果集合的相关性，获取其中具有最大相关性的样本数据，以及该样本数据对应的音频数据位置。判断每组数据中最大相关性是否超过预先设置的阈值，若超过则返回对齐失败结果，否则，如果不超过阈值，则返回对齐成功结果，以及两段音频数据偏移量结果，作为对齐依据。

本发明通过多机位视频进行自动对齐预处理操作，针对多机位拍摄视频实现多机位自由切换功能，较好地兼容现有的针对多机位拍摄的处理需求。

基于上述任一实施例，所述采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合，具体包括：

具体地，如图3中所示的分词服务，针对语音转文字服务中转换出来的文字一般为较长的句子，一方面针对长句编辑比较困难，另一方面直接用长句去识别匹配视频准确率较低，因此在编辑时尽量避免处理长句子，本发明对识别出的文字进行智能拆分，采用常用的分词算法，对文字信息进行智能语义判断，拆分为多个短句文字分词，得到短句文字分词集合。

然后，根据语音转文字功能返回的文字时间信息将每一句文字添加到时间线上，并将对应的视频切分成与每一句文字对应的片段，每一句文字和对应的片段在数据结构上关联起来，这种一一对应的关系保证在操作文字的时候可以快速准确的找到对应的视频进行处理，例如在对应的文字位置进行编辑，比如分段、修改文字、删除文字、添加滤镜和贴纸等操作。

本发明通过文字操作编辑视频以及添加特效模式，实现了以文字为输入驱动，对目标视频进行定位获取，并能实现后期各种编辑功能，具有操作简单，功能强大等特点。

基于上述任一实施例，所述在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片，具体包括：

具体地，由使用者根据输出的文字信息，选择所需要编辑的文字部分，即在软件的主界面选择需要的文字片段信息，则对应的时间信息也会对应进行显示，从而能识别出对应时间的待处理视频片段；

为得到理想的输出结果，通常需要对上述选定的待处理视频片段做进一步处理，在软件的参数界面，可设置视频输出的音量大小、整体的视觉效果（包括颜色、明暗、曝光度、阴影、色调、色温等参数的调节），得到理想的目标视频；

在对多段视频进行分别处理后，调用合成服务，将多个视频片段进行合并输出，得到最终的合成成片。

本发明不仅实现了通过语音转文字的方式生成对应的文字，界面上通过文字找到对应的视频进行编辑操作，还兼容了常用的视频后期制作的功能，确保输出质量较高的目标视频文件。

下面对本发明提供的Web端文字视频编辑系统进行描述，下文描述的Web端文字视频编辑系统与上文描述的Web端文字视频编辑方法可相互对应参照。

图5是本发明提供的Web端文字视频编辑系统的结构示意图，如图5所示，包括：第一转换模块51、第二转换模块52、匹配模块53和合成模块54，其中：

第一转换模块51用于接收通过Web端上传的视频数据，将所述视频数据进行转码获得音频数据；第二转换模块52用于调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息；匹配模块53用于采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合；合成模块54用于在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片。

图6示例了一种电子设备的实体结构示意图，如图6所示，该电子设备可以包括：处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行Web端文字视频编辑方法，该方法包括：接收通过Web端上传的视频数据，将所述视频数据进行转码获得音频数据；调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息；采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合；在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片。

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的Web端文字视频编辑方法，该方法包括：接收通过Web端上传的视频数据，将所述视频数据进行转码获得音频数据；调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息；采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合；在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的Web端文字视频编辑方法，该方法包括：接收通过Web端上传的视频数据，将所述视频数据进行转码获得音频数据；调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息；采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合；在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种Web端文字视频编辑方法，其特征在于，包括：

2.根据权利要求1所述的Web端文字视频编辑方法，其特征在于，所述调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息，之前包括：

对所述音频数据进行降噪预处理。

3.根据权利要求2所述的Web端文字视频编辑方法，其特征在于，所述调用预设第三方语音转文字软件工具，获得所述音频数据对应的文字信息，之前还包括：

4.根据权利要求1所述的Web端文字视频编辑方法，其特征在于，所述采用预设分词算法获取所述文字信息的短句文字分词集合，基于所述文字信息和所述短句文字分词集合，获取视频片段集合，具体包括：

5.根据权利要求1所述的Web端文字视频编辑方法，其特征在于，所述在所述视频片段集合中确定待处理视频片段，对所述待处理视频片段进行预处理，调用合成服务获得合成成片，具体包括：

6.根据权利要求3所述的Web端文字视频编辑方法，其特征在于，所述若判断所述视频数据是通过多机位获取，则基于预设音频对比算法对所述音频数据进行多机位对齐，具体包括：

7.一种Web端文字视频编辑系统，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述Web端文字视频编辑方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述Web端文字视频编辑方法的步骤。