CN112929758A - 一种多媒体内容字幕生成方法、设备以及存储介质 - Google Patents
一种多媒体内容字幕生成方法、设备以及存储介质 Download PDFInfo
- Publication number
- CN112929758A CN112929758A CN202011634984.0A CN202011634984A CN112929758A CN 112929758 A CN112929758 A CN 112929758A CN 202011634984 A CN202011634984 A CN 202011634984A CN 112929758 A CN112929758 A CN 112929758A
- Authority
- CN
- China
- Prior art keywords
- audio stream
- subtitle
- service
- generating
- multimedia
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000000007 visual effect Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000001514 detection method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 4
- 210000004704 glottis Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
Abstract
本发明涉及视频加工技术领域,尤其涉及一种多媒体内容字幕生成方法、设备以及存储介质,所述多媒体内容字幕生成方法包括以下步骤:步骤S10:在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务;步骤S20:获取字幕生成的触发指令,调用字幕生成服务;步骤S30:调用音频流采集服务,以采集并传入音频流至文字识别服务;步骤S40:文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务。本发明提供的技术方案,能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。
Description
技术领域
本发明涉及视频加工技术领域,尤其涉及一种多媒体内容字幕生成方法、设备以及存储介质。
背景技术
目前制作组合播放内容(一个播放屏幕内容里面可能有视频/音乐/图片/ 文字/网页/软件之类的组合),用视频编辑软件实现,技术要求比较高;如果是可视化多媒体播放内容编辑器的软件,要制作复杂组合多媒体播放内容 (一个播放屏幕内容里面可能有视频/音乐/图片/文字/网页/软件之类的组合),一般都不支持导入字幕功能,或者手动用一句句文字来模拟做字幕,手动设置时间,让字幕和里面的某个视频或音频对准时间。
因此,亟需一种能够快速生成字幕的多媒体内容字幕生成方法、设备以及存储介质。
发明内容
本发明的主要目的在于提供一种能够快速生成字幕的多媒体内容字幕生成方法、设备以及存储介质,从而能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。
为实现上述目的,本发明第一方面提供了一种多媒体内容字幕生成方法,所述多媒体内容字幕生成方法包括以下步骤:
步骤S10:在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务;
步骤S20:获取字幕生成的触发指令,调用字幕生成服务;
步骤S30:调用音频流采集服务,以采集并传入音频流至文字识别服务;
步骤S40:文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务;
步骤S50:字幕生成服务将字幕文件转化为字幕元素返回可视化编辑器生成字幕。
优选地,所述多媒体内容字幕生成方法还包括:
步骤S60:接收多媒体用户制作者的字幕属性设置指令,根据字幕属性设置指令设置字幕样式并调整字幕字符。
优选地,所述多媒体内容字幕生成方法还包括:
步骤S70:接收保存指令将所述组合多媒体播放内容保存到组合做媒体内容库;
步骤S80:将所述组合多媒体播放内容发送至软件以使软件播放所述组合多媒体播放内容。
优选地,所述调用音频流采集服务,以采集并传入音频流至文字识别服务的步骤,具体包括:
步骤S31:字幕生成服务接收音频采集服务发送的音频流;
步骤S32:字幕生成服务将所述音频流发送给文字识别服务。
优选地,所述文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务的步骤,具体包括:
步骤S41:对所述音频流进行预处理;
步骤S42:对经过预处理的音频流进行端点检测以生成有效音频流;其中,所述有效音频流包含有连续语音的音频;
步骤S43:对有效音频流进行识别以生成与所述有效音频流对应的词条;
步骤S44:将所述词条和与所述词条对应的有效音频流出现的时间信息组合形成字幕文件。
优选地,对所述音频流进行预处理的步骤,具体包括:
步骤S411:对所述音频流进行预滤波处理以获得对高频部分进行提升的音频流;
步骤S412:对进行预滤波处理后的音频流在进行预加重处理以获得具有高频分辨率的预滤波处理后的音频流;
步骤S413:对所述具有高频分辨率的预滤波处理后的音频流进行采样生成模拟量值;
步骤S414:对所述模拟量值进行量化,分为多个区段,并根据所述多个分段对每一模拟量值进行归类,且生成量化值;
步骤S415:对所述模拟量值进行加窗。
优选地,所述对经过预处理的音频流进行端点检测以生成有效音频流的步骤,具体包括:
步骤S421:根据预设阈值与所述模拟量值的对比,找出最开始大于预设阈值的模拟量值并确定为端点;
步骤S422:通过若干个端点确定音频流的起始点和结束点,形成有效的音频流。
优选地,所述对有效音频流进行识别以生成与所述有效音频流对应的词条的步骤,具体包括:
步骤S431:对有效音频流进行特征提取生成提取结果;其中,所述提取结果包括特征参数、基音检测以及共振峰;
步骤S432:对有效音频流进行训练以形成测试模板;
步骤S433:对所述提取结果进行识别,选取匹配分数最高的参考模板词条作为识别结果。
本发明第二方面公开了一种多媒体内容字幕生成设备,所述多媒体内容字幕生成设备包括:
配置服务模块:用于在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务;
字幕生成模块:用于获取字幕生成的触发指令,调用字幕生成服务;
音频流采集模块:用于调用音频流采集服务,以采集并传入音频流至文字识别服务;
文字识别模块:用于文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务;
字幕生成模块:还用于将字幕文件转化为字幕元素返回可视化编辑器生成字幕。
本发明第三方面公开了一种存储介质,所述存储介质存储有可执行程序,所述可执行程序被执行时,实现上述多媒体内容字幕生成方法。
本发明提供的技术方案,具有以下优点:
通过调用音频流采集服务,以采集并传入音频流至文字识别服务;文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务;字幕生成服务将字幕文件转化为字幕元素返回可视化编辑器生成字幕;能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。
附图说明
图1为本申请另一实施例提供的服务器的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的一方面提供了一种多媒体内容字幕生成方法,方法包括:
步骤S10:在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务。
应当理解,配置元素包括但不限于字幕生成服务、音频流采集服务、文字识别服务。
步骤S20:获取字幕生成的触发指令,调用字幕生成服务。
示例性地,字幕生成的触发指令可以由字幕制作者操控可视化编辑器的字母生成图标指令而产生。
步骤S30:调用音频流采集服务,以采集并传入音频流至文字识别服务。
示例性地,步骤S30具体包括:
步骤S31:字幕生成服务接收音频采集服务发送的音频流。
示例性地,音频流控制“数据流”同步类型音频的输出质量。
步骤S32:字幕生成服务将所述音频流发送给文字识别服务。
步骤S40:文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务。
所述步骤S40具体包括:
步骤S41:对所述音频流进行预处理;
如果直接对音频流进行处理,会因为声门、口唇、噪音等影响,增加处理难度,处理结果也差强人意,因此有作预处理的必要性。
步骤S41具体包括:
步骤S411:对所述音频流进行预滤波处理以获得对高频部分进行提升的音频流;
应当理解,对高频进行提升,去除声门和口唇的影响。
步骤S412:对进行预滤波处理后的音频流在进行预加重处理以获得具有高频分辨率的预滤波处理后的音频流;
应当理解,去除口唇辐射的影响,增加语音的高频分辨率。
步骤S413:对所述具有高频分辨率的预滤波处理后的音频流进行采样生成模拟量值;
应当理解,采样就是按一定的频率,测得模拟信号的模拟量值。
步骤S414:对所述模拟量值进行量化,分为多个区段,并根据所述多个分段对每一模拟量值进行归类,且生成量化值;
应当理解,通过采样时测的的模拟电压值,进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。
步骤S415:对所述模拟量值进行加窗。
应当理解,通过加窗减少帧起始和结束的地方信号的不连续性问题。
步骤S42:对经过预处理的音频流进行端点检测以生成有效音频流;其中,所述有效音频流包含有连续语音的音频;
因为音频流中的包括静音的部分,避免文字识别服务的工作的加重,从而进行端点检测。
步骤S42具体包括:
步骤S421:根据预设阈值与所述模拟量值的对比,找出最开始大于预设阈值的模拟量值并确定为端点;
模拟量值有高有低,预设阈值就是噪音和有效音频流的分界线,最开始大于预设阈值的模拟量值也就是有效音频流的起点,并确定为端点。
步骤S422:通过若干个端点确定音频流的起始点和结束点,形成有效的音频流。
第一个端点为起始点,第二个端点为结束点,第三个端点为新的起始点,第四个端点为新的结束点……
步骤S43:对有效音频流进行识别以生成与所述有效音频流对应的词条。
具体地,步骤S43包括:
步骤S431:对有效音频流进行特征提取生成提取结果;其中,所述提取结果包括特征参数、基音检测以及共振峰;
步骤S432:对有效音频流进行训练以形成测试模板。
示例性地,为词条特征参数建立一个模型,保存为模板库以形成测试模板。
步骤S433:对所述提取结果进行识别,选取匹配分数最高的参考模板词条作为识别结果。
步骤S44:将所述词条和与所述词条对应的有效音频流出现的时间信息组合形成字幕文件。
步骤S50:字幕生成服务将字幕文件转化为字幕元素返回可视化编辑器生成字幕。
步骤S60:接收多媒体用户制作者的字幕属性设置指令,根据字幕属性设置指令设置字幕样式并调整字幕字符。
步骤S70:接收保存指令将所述组合多媒体播放内容保存到组合做媒体内容库。
步骤S80:将所述组合多媒体播放内容发送至软件以使软件播放所述组合多媒体播放内容。
本发明另一方面还公开了一种多媒体内容字幕生成设备,所述多媒体内容字幕生成设备包括:
配置服务模块:用于在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务;
字幕生成模块:用于获取字幕生成的触发指令,调用字幕生成服务;
音频流采集模块:用于调用音频流采集服务,以采集并传入音频流至文字识别服务;
文字识别模块:用于文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务;
字幕生成模块:还用于将字幕文件转化为字幕元素返回可视化编辑器生成字幕。
请参阅图1,本申请还提供一种服务器30,服务器30包括存储器301以及处理器302,其中,存储器301与所述处理器302通过总线303电连接。
其中,存储器301至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器301在一些实施例中可以是服务器30的内部存储单元,例如该服务器30的硬盘。存储器301在另一些实施例中也可以是服务器30的外部存储设备,例如服务器30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器301不仅可以用于存储安装于车载设备的应用软件及各类数据,例如计算机可读程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据,也即该第一存储器可以作为存储介质,存储介质存储有计算机可执行的车辆出行预约程序。
处理器302在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,处理器302可调用存储器301中存储的车辆出行预约程序,以实现如下步骤:
步骤S10:在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务。
应当理解,配置元素包括但不限于字幕生成服务、音频流采集服务、文字识别服务。
步骤S20:获取字幕生成的触发指令,调用字幕生成服务。
示例性地,字幕生成的触发指令可以由字幕制作者操控可视化编辑器的字母生成图标指令而产生。
步骤S30:调用音频流采集服务,以采集并传入音频流至文字识别服务。
示例性地,步骤S30具体包括:
步骤S31:字幕生成服务接收音频采集服务发送的音频流。
示例性地,音频流控制“数据流”同步类型音频的输出质量。
步骤S32:字幕生成服务将所述音频流发送给文字识别服务。
步骤S40:文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务。
处理器302还用于实现如下步骤:
步骤S41:对所述音频流进行预处理;
如果直接对音频流进行处理,会因为声门、口唇、噪音等影响,增加处理难度,处理结果也差强人意,因此有作预处理的必要性。
处理器302还用于实现如下步骤:
步骤S411:对所述音频流进行预滤波处理以获得对高频部分进行提升的音频流;
应当理解,对高频进行提升,去除声门和口唇的影响。
步骤S412:对进行预滤波处理后的音频流在进行预加重处理以获得具有高频分辨率的预滤波处理后的音频流;
应当理解,去除口唇辐射的影响,增加语音的高频分辨率。
步骤S413:对所述具有高频分辨率的预滤波处理后的音频流进行采样生成模拟量值;
应当理解,采样就是按一定的频率,测得模拟信号的模拟量值。
步骤S414:对所述模拟量值进行量化,分为多个区段,并根据所述多个分段对每一模拟量值进行归类,且生成量化值;
应当理解,通过采样时测的的模拟电压值,进行分级量化,按整个电压变化的最大幅度划分成几个区段,把落在某区段的采样到的样品值归成一类,并给出相应的量化值。
步骤S415:对所述模拟量值进行加窗。
应当理解,通过加窗减少帧起始和结束的地方信号的不连续性问题。
步骤S42:对经过预处理的音频流进行端点检测以生成有效音频流;其中,所述有效音频流包含有连续语音的音频;
因为音频流中的包括静音的部分,避免文字识别服务的工作的加重,从而进行端点检测。
处理器302还用于实现如下步骤:
步骤S421:根据预设阈值与所述模拟量值的对比,找出最开始大于预设阈值的模拟量值并确定为端点;
模拟量值有高有低,预设阈值就是噪音和有效音频流的分界线,最开始大于预设阈值的模拟量值也就是有效音频流的起点,并确定为端点。
步骤S422:通过若干个端点确定音频流的起始点和结束点,形成有效的音频流。
步骤S43:对有效音频流进行识别以生成与所述有效音频流对应的词条。
处理器302还用于实现如下步骤:
步骤S431:对有效音频流进行特征提取生成提取结果;其中,所述提取结果包括特征参数、基音检测以及共振峰;
步骤S432:对有效音频流进行训练以形成测试模板。
步骤S433:对所述提取结果进行识别,选取匹配分数最高的参考模板词条作为识别结果。
步骤S44:将所述词条和与所述词条对应的有效音频流出现的时间信息组合形成字幕文件。
步骤S50:字幕生成服务将字幕文件转化为字幕元素返回可视化编辑器生成字幕。
步骤S60:接收多媒体用户制作者的字幕属性设置指令,根据字幕属性设置指令设置字幕样式并调整字幕字符。
步骤S70:接收保存指令将所述组合多媒体播放内容保存到组合做媒体内容库。
步骤S80:将所述组合多媒体播放内容发送至软件以使软件播放所述组合多媒体播放内容。
将所述词条根据所述音频流的时间节点进行分解形成断句,并记录与所述断句对应的所述音频流的时间戳;将所述断句和与所述断句对应的音频流的时间戳存储为字幕文件;能够通过可视化多媒体播放内容编辑器的软件快速生成字幕。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多媒体内容字幕生成方法,其特征在于,所述多媒体内容字幕生成方法包括以下步骤:
步骤S10:在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务;
步骤S20:获取字幕生成的触发指令,调用字幕生成服务;
步骤S30:调用音频流采集服务,以采集并传入音频流至文字识别服务;
步骤S40:文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务;
步骤S50:字幕生成服务将字幕文件转化为字幕元素返回可视化编辑器生成字幕。
2.如权利要求1所述的多媒体内容字幕生成方法,其特征在于,所述多媒体内容字幕生成方法还包括:
步骤S60:接收多媒体用户制作者的字幕属性设置指令,根据字幕属性设置指令设置字幕样式并调整字幕字符。
3.如权利要求2所述的多媒体内容字幕生成方法,其特征在于,所述多媒体内容字幕生成方法还包括:
步骤S70:接收保存指令将所述组合多媒体播放内容保存到组合做媒体内容库;
步骤S80:将所述组合多媒体播放内容发送至软件以使软件播放所述组合多媒体播放内容。
4.如权利要求1所述的多媒体内容字幕生成方法,其特征在于,所述调用音频流采集服务,以采集并传入音频流至文字识别服务的步骤,具体包括:
步骤S31:字幕生成服务接收音频采集服务发送的音频流;
步骤S32:字幕生成服务将所述音频流发送给文字识别服务。
5.如权利要求1所述的多媒体内容字幕生成方法,其特征在于,所述文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务的步骤,具体包括:
步骤S41:对所述音频流进行预处理;
步骤S42:对经过预处理的音频流进行端点检测以生成有效音频流;其中,所述有效音频流包含有连续语音的音频;
步骤S43:对有效音频流进行识别以生成与所述有效音频流对应的词条;
步骤S44:将所述词条和与所述词条对应的有效音频流出现的时间信息组合形成字幕文件。
6.如权利要求5所述的多媒体内容字幕生成方法,其特征在于,对所述音频流进行预处理的步骤,具体包括:
步骤S411:对所述音频流进行预滤波处理以获得对高频部分进行提升的音频流;
步骤S412:对进行预滤波处理后的音频流在进行预加重处理以获得具有高频分辨率的预滤波处理后的音频流;
步骤S413:对所述具有高频分辨率的预滤波处理后的音频流进行采样生成模拟量值;
步骤S414:对所述模拟量值进行量化,分为多个区段,并根据所述多个区段对每一模拟量值进行归类,且生成量化值;
步骤S415:对所述模拟量值进行加窗。
7.如权利要求5所述的多媒体内容字幕生成方法,其特征在于,所述对经过预处理的音频流进行端点检测以生成有效音频流的步骤,具体包括:
步骤S421:根据预设阈值与所述模拟量值的对比,找出最开始大于预设阈值的模拟量值并确定为端点;
步骤S422:通过若干个端点确定音频流的起始点和结束点,形成有效的音频流。
8.如权利要求5所述的多媒体内容字幕生成方法,其特征在于,所述对有效音频流进行识别以生成与所述有效音频流对应的词条的步骤,具体包括:
步骤S431:对有效音频流进行特征提取生成提取结果;其中,所述提取结果包括特征参数、基音检测以及共振峰;
步骤S432:对有效音频流进行训练以形成测试模板;
步骤S433:对所述提取结果进行识别,选取匹配分数最高的参考模板词条作为识别结果。
9.一种多媒体内容字幕生成设备,其特征在于,所述多媒体内容字幕生成设备包括:
配置服务模块:用于在可视化编辑器调整配置元素以制作出组合多媒体播放内容,其内容至少包括字幕生成服务、音频流采集服务、文字识别服务;
字幕生成模块:用于获取字幕生成的触发指令,调用字幕生成服务;
音频流采集模块:用于调用音频流采集服务,以采集并传入音频流至文字识别服务;
文字识别模块:用于文字识别服务将音频流中音频信息转化为字幕文件并将之返回字幕生成服务;
字幕生成模块:还用于将字幕文件转化为字幕元素返回可视化编辑器生成字幕。
10.一种存储介质,其特征在于,所述存储介质存储有可执行程序,所述可执行程序被执行时,实现如权利要求1-8任一项所述的多媒体内容字幕生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011634984.0A CN112929758A (zh) | 2020-12-31 | 2020-12-31 | 一种多媒体内容字幕生成方法、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011634984.0A CN112929758A (zh) | 2020-12-31 | 2020-12-31 | 一种多媒体内容字幕生成方法、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112929758A true CN112929758A (zh) | 2021-06-08 |
Family
ID=76163124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011634984.0A Pending CN112929758A (zh) | 2020-12-31 | 2020-12-31 | 一种多媒体内容字幕生成方法、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112929758A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN105635782A (zh) * | 2015-12-28 | 2016-06-01 | 魅族科技(中国)有限公司 | 一种字幕输出方法及装置 |
CN105721796A (zh) * | 2016-03-23 | 2016-06-29 | 中国农业大学 | 一种视频字幕自动生成装置和方法 |
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
CN106792097A (zh) * | 2016-12-27 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 音频信号字幕匹配方法及装置 |
CN107277646A (zh) * | 2017-08-08 | 2017-10-20 | 四川长虹电器股份有限公司 | 一种音视频资源的字幕配置系统 |
CN109246472A (zh) * | 2018-08-01 | 2019-01-18 | 平安科技(深圳)有限公司 | 视频播放方法、装置、终端设备及存储介质 |
CN109495792A (zh) * | 2018-11-30 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 一种视频的字幕添加方法、装置、电子设备及可读介质 |
CN110035326A (zh) * | 2019-04-04 | 2019-07-19 | 北京字节跳动网络技术有限公司 | 字幕生成、基于字幕的视频检索方法、装置和电子设备 |
-
2020
- 2020-12-31 CN CN202011634984.0A patent/CN112929758A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103561217A (zh) * | 2013-10-14 | 2014-02-05 | 深圳创维数字技术股份有限公司 | 一种生成字幕的方法及终端 |
CN105635782A (zh) * | 2015-12-28 | 2016-06-01 | 魅族科技(中国)有限公司 | 一种字幕输出方法及装置 |
CN105721796A (zh) * | 2016-03-23 | 2016-06-29 | 中国农业大学 | 一种视频字幕自动生成装置和方法 |
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
CN106792097A (zh) * | 2016-12-27 | 2017-05-31 | 深圳Tcl数字技术有限公司 | 音频信号字幕匹配方法及装置 |
CN107277646A (zh) * | 2017-08-08 | 2017-10-20 | 四川长虹电器股份有限公司 | 一种音视频资源的字幕配置系统 |
CN109246472A (zh) * | 2018-08-01 | 2019-01-18 | 平安科技(深圳)有限公司 | 视频播放方法、装置、终端设备及存储介质 |
CN109495792A (zh) * | 2018-11-30 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 一种视频的字幕添加方法、装置、电子设备及可读介质 |
CN110035326A (zh) * | 2019-04-04 | 2019-07-19 | 北京字节跳动网络技术有限公司 | 字幕生成、基于字幕的视频检索方法、装置和电子设备 |
Non-Patent Citations (1)
Title |
---|
孙婷婷: "基于非特定人的语音识别前端处理技术的研究", 《中国优秀硕士学位论文全文数据库》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106960051B (zh) | 基于电子书的音频播放方法、装置和终端设备 | |
CN105245917A (zh) | 一种多媒体语音字幕生成的系统和方法 | |
CN105704538A (zh) | 一种音视频字幕生成方法及系统 | |
US10978077B1 (en) | Knowledge point mark generation system and method thereof | |
JPWO2005069171A1 (ja) | 文書対応付け装置、および文書対応付け方法 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
CN109710949B (zh) | 一种翻译方法及翻译机 | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
US20190171760A1 (en) | System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
CN111402892A (zh) | 一种基于语音识别的会议记录模板生成方法 | |
CN113035199A (zh) | 音频处理方法、装置、设备及可读存储介质 | |
US20180342245A1 (en) | Analysis of content written on a board | |
CN106303695A (zh) | 音频翻译多语言文字处理方法和系统 | |
CN114996506A (zh) | 语料生成方法、装置、电子设备和计算机可读存储介质 | |
JP4140745B2 (ja) | 字幕へのタイミング情報付与方法 | |
CN113365109A (zh) | 一种生成视频字幕的方法、装置、电子设备和存储介质 | |
US11798558B2 (en) | Recording medium recording program, information processing apparatus, and information processing method for transcription | |
CN112929758A (zh) | 一种多媒体内容字幕生成方法、设备以及存储介质 | |
CN116017088A (zh) | 视频字幕处理方法、装置、电子设备和存储介质 | |
KR20210058063A (ko) | 컴퓨터로 읽을 수 있는 저장 매체에 기록된 뮤직 애플리케이션 | |
KR102185183B1 (ko) | 방송 자막 제작 시스템 | |
CN113938723A (zh) | 弹幕的播放方法、装置及设备 | |
CN111276126A (zh) | 一种时政要闻语音合成的方法及其终端 | |
CN113823300B (zh) | 语音处理方法及装置、存储介质、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 238, room 406, 1 Yichuang street, Huangpu District, Guangzhou, Guangdong 510700 Applicant after: Guangzhou langguo Electronic Technology Co.,Ltd. Address before: Room 238, room 406, 1 Yichuang street, Huangpu District, Guangzhou, Guangdong 510700 Applicant before: GUANGZHOU LANGO ELECTRONIC SCIENCE & TECHNOLOGY Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |