CN112929758A

CN112929758A - 一种多媒体内容字幕生成方法、设备以及存储介质

Info

Publication number: CN112929758A
Application number: CN202011634984.0A
Authority: CN
Inventors: 邓嘉俊; 罗益峰
Original assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Current assignee: Guangzhou Lango Electronic Science and Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-06-08

Abstract

本发明涉及视频加工技术领域，尤其涉及一种多媒体内容字幕生成方法、设备以及存储介质，所述多媒体内容字幕生成方法包括以下步骤：步骤S10：在可视化编辑器调整配置元素以制作出组合多媒体播放内容，其内容至少包括字幕生成服务、音频流采集服务、文字识别服务；步骤S20：获取字幕生成的触发指令，调用字幕生成服务；步骤S30：调用音频流采集服务，以采集并传入音频流至文字识别服务；步骤S40：文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务。本发明提供的技术方案，能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。

Description

一种多媒体内容字幕生成方法、设备以及存储介质

技术领域

本发明涉及视频加工技术领域，尤其涉及一种多媒体内容字幕生成方法、设备以及存储介质。

背景技术

目前制作组合播放内容(一个播放屏幕内容里面可能有视频/音乐/图片/ 文字/网页/软件之类的组合)，用视频编辑软件实现，技术要求比较高；如果是可视化多媒体播放内容编辑器的软件，要制作复杂组合多媒体播放内容 (一个播放屏幕内容里面可能有视频/音乐/图片/文字/网页/软件之类的组合)，一般都不支持导入字幕功能，或者手动用一句句文字来模拟做字幕，手动设置时间，让字幕和里面的某个视频或音频对准时间。

因此，亟需一种能够快速生成字幕的多媒体内容字幕生成方法、设备以及存储介质。

发明内容

本发明的主要目的在于提供一种能够快速生成字幕的多媒体内容字幕生成方法、设备以及存储介质，从而能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。

为实现上述目的，本发明第一方面提供了一种多媒体内容字幕生成方法，所述多媒体内容字幕生成方法包括以下步骤：

步骤S10：在可视化编辑器调整配置元素以制作出组合多媒体播放内容，其内容至少包括字幕生成服务、音频流采集服务、文字识别服务；

步骤S20：获取字幕生成的触发指令，调用字幕生成服务；

步骤S30：调用音频流采集服务，以采集并传入音频流至文字识别服务；

步骤S40：文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务；

步骤S50：字幕生成服务将字幕文件转化为字幕元素返回可视化编辑器生成字幕。

优选地，所述多媒体内容字幕生成方法还包括：

步骤S60：接收多媒体用户制作者的字幕属性设置指令，根据字幕属性设置指令设置字幕样式并调整字幕字符。

优选地，所述多媒体内容字幕生成方法还包括：

步骤S70：接收保存指令将所述组合多媒体播放内容保存到组合做媒体内容库；

步骤S80：将所述组合多媒体播放内容发送至软件以使软件播放所述组合多媒体播放内容。

优选地，所述调用音频流采集服务，以采集并传入音频流至文字识别服务的步骤，具体包括：

步骤S31：字幕生成服务接收音频采集服务发送的音频流；

步骤S32：字幕生成服务将所述音频流发送给文字识别服务。

优选地，所述文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务的步骤，具体包括：

步骤S41：对所述音频流进行预处理；

步骤S42：对经过预处理的音频流进行端点检测以生成有效音频流；其中，所述有效音频流包含有连续语音的音频；

步骤S43：对有效音频流进行识别以生成与所述有效音频流对应的词条；

步骤S44：将所述词条和与所述词条对应的有效音频流出现的时间信息组合形成字幕文件。

优选地，对所述音频流进行预处理的步骤，具体包括：

步骤S411：对所述音频流进行预滤波处理以获得对高频部分进行提升的音频流；

步骤S412：对进行预滤波处理后的音频流在进行预加重处理以获得具有高频分辨率的预滤波处理后的音频流；

步骤S413：对所述具有高频分辨率的预滤波处理后的音频流进行采样生成模拟量值；

步骤S414：对所述模拟量值进行量化，分为多个区段，并根据所述多个分段对每一模拟量值进行归类，且生成量化值；

步骤S415：对所述模拟量值进行加窗。

优选地，所述对经过预处理的音频流进行端点检测以生成有效音频流的步骤，具体包括：

步骤S421：根据预设阈值与所述模拟量值的对比，找出最开始大于预设阈值的模拟量值并确定为端点；

步骤S422：通过若干个端点确定音频流的起始点和结束点，形成有效的音频流。

优选地，所述对有效音频流进行识别以生成与所述有效音频流对应的词条的步骤，具体包括：

步骤S431：对有效音频流进行特征提取生成提取结果；其中，所述提取结果包括特征参数、基音检测以及共振峰；

步骤S432：对有效音频流进行训练以形成测试模板；

步骤S433：对所述提取结果进行识别，选取匹配分数最高的参考模板词条作为识别结果。

本发明第二方面公开了一种多媒体内容字幕生成设备，所述多媒体内容字幕生成设备包括：

配置服务模块：用于在可视化编辑器调整配置元素以制作出组合多媒体播放内容，其内容至少包括字幕生成服务、音频流采集服务、文字识别服务；

字幕生成模块：用于获取字幕生成的触发指令，调用字幕生成服务；

音频流采集模块：用于调用音频流采集服务，以采集并传入音频流至文字识别服务；

文字识别模块：用于文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务；

字幕生成模块：还用于将字幕文件转化为字幕元素返回可视化编辑器生成字幕。

本发明第三方面公开了一种存储介质，所述存储介质存储有可执行程序，所述可执行程序被执行时，实现上述多媒体内容字幕生成方法。

本发明提供的技术方案，具有以下优点：

通过调用音频流采集服务，以采集并传入音频流至文字识别服务；文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务；字幕生成服务将字幕文件转化为字幕元素返回可视化编辑器生成字幕；能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。

附图说明

图1为本申请另一实施例提供的服务器的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一方面提供了一种多媒体内容字幕生成方法，方法包括：

步骤S10：在可视化编辑器调整配置元素以制作出组合多媒体播放内容，其内容至少包括字幕生成服务、音频流采集服务、文字识别服务。

应当理解，配置元素包括但不限于字幕生成服务、音频流采集服务、文字识别服务。

步骤S20：获取字幕生成的触发指令，调用字幕生成服务。

示例性地，字幕生成的触发指令可以由字幕制作者操控可视化编辑器的字母生成图标指令而产生。

步骤S30：调用音频流采集服务，以采集并传入音频流至文字识别服务。

示例性地，步骤S30具体包括：

步骤S31：字幕生成服务接收音频采集服务发送的音频流。

示例性地，音频流控制“数据流”同步类型音频的输出质量。

步骤S32：字幕生成服务将所述音频流发送给文字识别服务。

步骤S40：文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务。

所述步骤S40具体包括：

步骤S41：对所述音频流进行预处理；

如果直接对音频流进行处理，会因为声门、口唇、噪音等影响，增加处理难度，处理结果也差强人意，因此有作预处理的必要性。

步骤S41具体包括：

应当理解，对高频进行提升，去除声门和口唇的影响。

应当理解，去除口唇辐射的影响，增加语音的高频分辨率。

应当理解，采样就是按一定的频率，测得模拟信号的模拟量值。

应当理解，通过采样时测的的模拟电压值，进行分级量化，按整个电压变化的最大幅度划分成几个区段，把落在某区段的采样到的样品值归成一类，并给出相应的量化值。

步骤S415：对所述模拟量值进行加窗。

应当理解，通过加窗减少帧起始和结束的地方信号的不连续性问题。

因为音频流中的包括静音的部分，避免文字识别服务的工作的加重，从而进行端点检测。

步骤S42具体包括：

模拟量值有高有低，预设阈值就是噪音和有效音频流的分界线，最开始大于预设阈值的模拟量值也就是有效音频流的起点，并确定为端点。

第一个端点为起始点，第二个端点为结束点，第三个端点为新的起始点，第四个端点为新的结束点……

步骤S43：对有效音频流进行识别以生成与所述有效音频流对应的词条。

具体地，步骤S43包括：

步骤S432：对有效音频流进行训练以形成测试模板。

示例性地，为词条特征参数建立一个模型，保存为模板库以形成测试模板。

步骤S70：接收保存指令将所述组合多媒体播放内容保存到组合做媒体内容库。

本发明另一方面还公开了一种多媒体内容字幕生成设备，所述多媒体内容字幕生成设备包括：

请参阅图1，本申请还提供一种服务器30，服务器30包括存储器301以及处理器302，其中，存储器301与所述处理器302通过总线303电连接。

其中，存储器301至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器301在一些实施例中可以是服务器30的内部存储单元，例如该服务器30的硬盘。存储器301在另一些实施例中也可以是服务器30的外部存储设备，例如服务器30上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。存储器301不仅可以用于存储安装于车载设备的应用软件及各类数据，例如计算机可读程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据，也即该第一存储器可以作为存储介质，存储介质存储有计算机可执行的车辆出行预约程序。

处理器302在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，处理器302可调用存储器301中存储的车辆出行预约程序，以实现如下步骤：

步骤S20：获取字幕生成的触发指令，调用字幕生成服务。

示例性地，步骤S30具体包括：

步骤S31：字幕生成服务接收音频采集服务发送的音频流。

步骤S32：字幕生成服务将所述音频流发送给文字识别服务。

处理器302还用于实现如下步骤：

步骤S41：对所述音频流进行预处理；

处理器302还用于实现如下步骤：

应当理解，对高频进行提升，去除声门和口唇的影响。

应当理解，去除口唇辐射的影响，增加语音的高频分辨率。

步骤S415：对所述模拟量值进行加窗。

处理器302还用于实现如下步骤：

步骤S432：对有效音频流进行训练以形成测试模板。

将所述词条根据所述音频流的时间节点进行分解形成断句，并记录与所述断句对应的所述音频流的时间戳；将所述断句和与所述断句对应的音频流的时间戳存储为字幕文件；能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体内容字幕生成方法，其特征在于，所述多媒体内容字幕生成方法包括以下步骤：

步骤S20：获取字幕生成的触发指令，调用字幕生成服务；

2.如权利要求1所述的多媒体内容字幕生成方法，其特征在于，所述多媒体内容字幕生成方法还包括：

3.如权利要求2所述的多媒体内容字幕生成方法，其特征在于，所述多媒体内容字幕生成方法还包括：

4.如权利要求1所述的多媒体内容字幕生成方法，其特征在于，所述调用音频流采集服务，以采集并传入音频流至文字识别服务的步骤，具体包括：

步骤S31：字幕生成服务接收音频采集服务发送的音频流；

步骤S32：字幕生成服务将所述音频流发送给文字识别服务。

5.如权利要求1所述的多媒体内容字幕生成方法，其特征在于，所述文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务的步骤，具体包括：

步骤S41：对所述音频流进行预处理；

6.如权利要求5所述的多媒体内容字幕生成方法，其特征在于，对所述音频流进行预处理的步骤，具体包括：

步骤S414：对所述模拟量值进行量化，分为多个区段，并根据所述多个区段对每一模拟量值进行归类，且生成量化值；

步骤S415：对所述模拟量值进行加窗。

7.如权利要求5所述的多媒体内容字幕生成方法，其特征在于，所述对经过预处理的音频流进行端点检测以生成有效音频流的步骤，具体包括：

8.如权利要求5所述的多媒体内容字幕生成方法，其特征在于，所述对有效音频流进行识别以生成与所述有效音频流对应的词条的步骤，具体包括：

步骤S432：对有效音频流进行训练以形成测试模板；

9.一种多媒体内容字幕生成设备，其特征在于，所述多媒体内容字幕生成设备包括：

10.一种存储介质，其特征在于，所述存储介质存储有可执行程序，所述可执行程序被执行时，实现如权利要求1-8任一项所述的多媒体内容字幕生成方法。