CN111107284B - 一种视频字幕实时生成系统及生成方法 - Google Patents

一种视频字幕实时生成系统及生成方法 Download PDF

Info

Publication number
CN111107284B
CN111107284B CN201911422039.1A CN201911422039A CN111107284B CN 111107284 B CN111107284 B CN 111107284B CN 201911422039 A CN201911422039 A CN 201911422039A CN 111107284 B CN111107284 B CN 111107284B
Authority
CN
China
Prior art keywords
sound
video
electrical signal
silence
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911422039.1A
Other languages
English (en)
Other versions
CN111107284A (zh
Inventor
宁乐飞
陈天萍
陈文杰
蔡佳良
阚小优
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luoyang Lexiang Network Technology Co ltd
Original Assignee
Luoyang Lexiang Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luoyang Lexiang Network Technology Co ltd filed Critical Luoyang Lexiang Network Technology Co ltd
Priority to CN201911422039.1A priority Critical patent/CN111107284B/zh
Publication of CN111107284A publication Critical patent/CN111107284A/zh
Application granted granted Critical
Publication of CN111107284B publication Critical patent/CN111107284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种视频字幕实时生成系统,包括:声音静默采集装置,与视频播放设备电性连接,用于从视频播放设备获取声音原始电信号;前端处理装置,与所述声音静默采集装置和视频播放设备均电性连接,用于对声音原始电信号进行处理生成声音压缩电信号;远端服务器,与所述前端处理装置电性连接,用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备。本发明提供一种视频字幕实时生成系统及生成方法,能够快速生成字幕并且实时显示。

Description

一种视频字幕实时生成系统及生成方法
技术领域
本发明涉及视频播放技术领域,具体的说是一种视频字幕实时生成系统及生成方法。
背景技术
听障人面临语音信息获取障碍和传递障碍,因此在信息接收和传输过程中存在困难。作为信息传递的重要媒介,视频在人们生活中具有很重要的地位,但是视频中重要信息也多是语音传达,在这样的情况下听障人很难获取有效视频信息,而听障人呼吁的视频添加字幕,由于各种各样的原因一直没能在视频中直接添加。
随着语音识别技术的快速发展,利用语音识别技术实时生成字幕成为了可能。遗憾的是,语音识别技术虽然可以让语音快速转换为文字,但是语音识别技术只针对说话的语音进行转换,且语音要求原始的16000HZ,16bit的PCM格式或者特定的语音格式,通常使用时一般现场录音现场识别或者是录音后对音频文件解码进行识别。这种处理技术只涉及语音音频或者音频流。而视频播放时都是一种编码形成的格式流,是视频格式的码流和音频的码流聚合而成的新流,这种视频格式的流需要解码才能使用。
在这样的情况下,要想在对视频进行字幕输出,需要对视频进行解码处理,然后再分离出音频流,然后再对音频流进行语音前后端处理,处理后才能语音转文字,生成字幕,流程非常多,也非直接对视频中音频流进行处理。
发明内容
为了解决现有技术中的不足,本发明提供一种视频字幕实时生成系统及生成方法,能够快速生成字幕并且实时显示。
为了实现上述目的,本发明采用的具体方案为:一种视频字幕实时生成系统,包括:声音静默采集装置,与视频播放设备电性连接,用于从视频播放设备获取声音原始电信号;前端处理装置,与所述声音静默采集装置和视频播放设备均电性连接,用于对声音原始电信号进行处理生成声音压缩电信号;远端服务器,与所述前端处理装置电性连接,用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备。
作为一种优选方案,所述前端处理装置包括电性连接的核心处理器和通信模块,其中核心处理器与所述声音静默采集装置电性连接,通信模块与所述远端服务器电性连接。
一种视频字幕实时生成系统的生成方法,包括如下步骤:
S1、判断所述声音静默采集装置的状态,若声音静默采集装置就绪,则执行S2,否则结束;
S2、启动视频播放设备并且播放视频;
S3、声音静默采集装置从视频播放设备获取声音原始电信号,并且将声音原始电信号发送给所述前端处理装置;
S4、前端处理装置依次对声音原始电信号进行抽样、前处理和重采样得到声音压缩电信号,并且将声音压缩电信号发送给所述远端服务器;
S5、远端服务器对声音压缩电信号进行识别得到字幕数据,并且将字幕数据发送给前端处理装置;
S6、前端处理装置将字幕数据发送给视频播放设备;
S7、视频播放设备在视频字幕区显示字幕数据。
作为一种优选方案,S1的具体方法为:
S1.1、检测所述声音静默采集装置与视频播放设备的连接状态,若连接正常则执行S1.2,否则直接结束;
S1.2、检测声音静默采集装置的运行状况,若运行正常则执行S2,否则直接结束。
作为一种优选方案,S3中,所述声音静默采集装置每经过40ms向所述前端处理装置发送一次声音原始电信号并且清空缓存。
作为一种优选方案,S4中,抽样的具体方法为:
S4.11、将声音原始电信号分解为若干个连续的数据元,每N个数据元组成一组,每组数据元中抽取一个作为样本集;
S4.12,将样本集转化为时域连续信号,每N个信号为一组,每组信号中抽取一个作为初始样本D;
S4.13、计算除了初始样本D之外其余(N-1)个信号的绝对值之和SUM,并且计算D=SUM/(N-1);
S4.14、若|D|≥D,则用|D|替换其余(N-1)个信号,否则用D替换其余(N-1)个信号;
S4.15、重复执行S4.11至S4.14直到将声音原始电信号处理完毕得到声音一次电信号。
作为一种优选方案,S4中,在执行S4.11之前对声音原始电信号进行抗混叠滤波处理。
作为一种优选方案,S4中,前处理的具体方法为:
S4.21、按照20ms为一帧的方式将声音一次电信号分解为若干帧数据;
S4.22、利用汉明窗或者汉宁窗对每帧数据进行平滑处理;
S4.23、利用低通滤波算法对平滑处理后的数据进行抗混叠滤波处理。
S4中,重采样后的频率为16000HZ、量化位数为16bit。
有益效果:
1、本发明无需进行复杂的视频解码算法,极大加速视频字幕的实时生成速度,能够快速生成字幕,从而保障听障人视频观看时实时同屏得到视频字幕信息;
2、本发明采用静默采集的方式,能够适用于任意视频格式和播放器,适用范围更广;
3、本发明无需视频声音外放,可以减少对外界环境的干扰。
附图说明
图1是生成系统的结构框图;
图2是前端处理装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1和2,一种视频字幕实时生成系统,包括声音静默采集装置、前端处理装置和远端服务器。
声音静默采集装置,与视频播放设备电性连接,用于从视频播放设备获取声音原始电信号。
前端处理装置,与声音静默采集装置和视频播放设备均电性连接,用于对声音原始电信号进行处理生成声音压缩电信号。
远端服务器,与前端处理装置电性连接,用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备。
前端处理装置包括电性连接的核心处理器和通信模块,其中核心处理器与声音静默采集装置电性连接,通信模块与远端服务器电性连接。
本系统在使用时,利用声音静默采集装置获取声音原始电信号,然后通过前端处理装置处理后发送给远端服务器,远端服务器借助于自身的高性能进行语音识别得到字幕数据,然后将字幕数据发送给前端控制装置,前端控制装置再通过视频播放设备播放字幕数据,实现实时为视频添加字幕的目的,以方便听障人观看视频,从视频中获取信息。
需要说明的是,在本发明中,声音静默采集装置是指不需要通过录音就能够采集声音信息的装置,即并不需要视频声音外放即可顺利采集,因此成为静默采集。对于不同的视频播放设备来说,声音静默采集装置可以有不同的选择,例如对于普通计算机来说,声音静默采集装置可以采用全双工声卡,利用全双工声卡所具有的内录功能实现,当然也可以采用外置声卡的方式;前端处理装置则可以直接利用计算机的处理器;最终显示字幕的方法可以采用音乐播放器常采用的桌面歌词的方式。均是本领域的现有技术,在此不在赘述。
因为本发明采用了静默采集的方式,所以采集到的声音信息是没有经过编码的原始电信号,避开了复杂的视频解码过程,从而大幅度地提高了本发明的字幕数据生成速度,进而提升了使用体验。
基于上述系统,本发明还提供一种视频字幕实时生成系统的生成方法,包括S1至S7。
S1、判断声音静默采集装置的状态,若声音静默采集装置就绪,则执行S2,否则结束。S1的具体方法为S1.1至S1.2。
S1.1、检测声音静默采集装置与视频播放设备的连接状态,若连接正常则执行S1.2,否则直接结束。
S1.2、检测声音静默采集装置的运行状况,若运行正常则执行S2,否则直接结束。
因为声音静默采集装置是本发明的核心装置,若声音静默采集装置无法工作则完全无法运行,因此首先需要确定声音静默采集装置的状态。
S2、启动视频播放设备并且播放视频。
S3、声音静默采集装置从视频播放设备获取声音原始电信号,并且将声音原始电信号发送给前端处理装置。S3中,声音静默采集装置每经过40ms向前端处理装置发送一次声音原始电信号并且清空缓存。
S4、前端处理装置依次对声音原始电信号进行抽样、前处理和重采样得到声音压缩电信号,并且将声音压缩电信号发送给远端服务器。
S4中,抽样的具体方法为S4.11至S4.15。
S4.11、将声音原始电信号分解为若干个连续的数据元,每N个数据元组成一组,每组数据元中抽取一个作为样本集。
S4.12,将样本集转化为时域连续信号,每N个信号为一组,每组信号中抽取一个作为初始样本D。
S4.13、计算除了初始样本D之外其余(N-1)个信号的绝对值之和SUM,并且计算D=SUM/(N-1)。
S4.14、若|D|≥D,则用|D|替换其余(N-1)个信号,否则用D替换其余(N-1)个信号。
S4.15、重复执行S4.11至S4.14直到将声音原始电信号处理完毕得到声音一次电信号。
如果对采集到的数据进行完整处理的话数据量过大,会大幅延长字幕生成耗时,因此需要进行抽样以降低数据量,在本实施例中采用优化的内插值抽样算法,因为普通的插值抽样算法选择在声音数据的边界点进行抽样,造成波形失真严重,语音识别准确率下降,不宜直接使用,因此本发明进行了优化,增加了样本数量并且通过求取均值的方法保证了失真情况在可控范围内,同时又降低了算法复杂度和字幕生成耗时。
进一步的,S4中,在执行S4.11之前对声音原始电信号进行抗混叠滤波处理,进一步降低波形失真,提升语音识别正确率。抗混叠滤波处理可以采用通用低通滤波器实现,也可以由前端处理装置通过低通滤波算法实现。
S4中,前处理的具体方法为S4.21至S4.23。
S4.21、按照20ms为一帧的方式将声音一次电信号分解为若干帧数据。
S4.22、利用汉明窗或者汉宁窗对每帧数据进行平滑处理。
S4.23、利用低通滤波算法对平滑处理后的数据进行抗混叠滤波处理。
前处理过程可以利用基于汉明或者汉宁窗函数的FIR低通滤波器实现,
S4中,重采样后的频率为16000HZ、量化位数为16bit。重采样算法可以利用现有技术中的算法,例如基于频域快速傅里叶变换FFT的音频重采样算法、基于SPEEX重采样算法或者基于FFTW的重采样算法等等。
S5、远端服务器对声音压缩电信号进行识别得到字幕数据,并且将字幕数据发送给前端处理装置。具体的识别方法可以利用现有的第三方识别软件实现,例如讯飞语音识别软件。
S6、前端处理装置将字幕数据发送给视频播放设备。
S7、视频播放设备在视频字幕区显示字幕数据。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种视频字幕实时生成方法,基于一种视频字幕实时生成系统,系统包括:
声音静默采集装置,与视频播放设备电性连接,用于从视频播放设备获取声音原始电信号;
前端处理装置,与所述声音静默采集装置和视频播放设备均电性连接,用于对声音原始电信号进行处理生成声音压缩电信号;
远端服务器,与所述前端处理装置电性连接,用于根据声音压缩电信号生成字幕数据并且通过前端处理装置将字幕数据发送给视频播放设备;
其特征在于,所述方法包括如下步骤:
S1、判断所述声音静默采集装置的状态,若声音静默采集装置就绪,则执行S2,否则结束;
S2、启动视频播放设备并且播放视频;
S3、声音静默采集装置通过内录方式从视频播放设备获取声音原始电信号,并且将声音原始电信号发送给所述前端处理装置;
S4、前端处理装置依次对声音原始电信号进行抽样、前处理和重采样得到声音压缩电信号,并且将声音压缩电信号发送给所述远端服务器;
S4中,抽样的具体方法为:
S4.11、将声音原始电信号分解为若干个连续的数据元,每N个数据元组成一组,每组数据元中抽取一个作为样本集;
S4.12,将样本集转化为时域信号,每N个信号为一组,每组信号中抽取一个作为初始样本D;
S4.13、计算除了初始样本D之外其余(N-1)个信号的绝对值之和SUM,并且计算D=SUM/(N-1);
S4.14、若|D|≥D,则用|D|替换其余(N-1)个信号,否则用D替换其余(N-1)个信号;
S4.15、重复执行S4.11至S4.14直到将声音原始电信号处理完毕得到声音一次电信号;
S5、远端服务器对声音压缩电信号进行识别得到字幕数据,并且将字幕数据发送给前端处理装置;
S6、前端处理装置将字幕数据发送给视频播放设备;
S7、视频播放设备在视频字幕区显示字幕数据。
2.如权利要求1所述的方法,其特征在于,所述前端处理装置包括电性连接的核心处理器和通信模块,其中核心处理器与所述声音静默采集装置电性连接,通信模块与所述远端服务器电性连接。
3.如权利要求1所述方法,其特征在于,S1的具体方法为:
S1.1、检测所述声音静默采集装置与视频播放设备的连接状态,若连接正常则执行S1.2,否则直接结束;
S1.2、检测声音静默采集装置的运行状况,若运行正常则执行S2,否则直接结束。
4.如权利要求1所述方法,其特征在于,S3中,所述声音静默采集装置每经过40ms向所述前端处理装置发送一次声音原始电信号并且清空缓存。
5.如权利要求4所述方法,其特征在于,S4中,在执行S4.11之前对声音原始电信号进行抗混叠滤波处理。
6.如权利要求4所述方法,其特征在于,S4中,前处理的具体方法为:
S4.21、按照20ms为一帧的方式将声音一次电信号分解为若干帧数据;
S4.22、利用汉明窗或者汉宁窗对每帧数据进行平滑处理;
S4.23、利用低通滤波算法对平滑处理后的数据进行抗混叠滤波处理。
7.如权利要求1所述方法,其特征在于,S4中,重采样后的频率为16000HZ、量化位数为16bit。
CN201911422039.1A 2019-12-31 2019-12-31 一种视频字幕实时生成系统及生成方法 Active CN111107284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911422039.1A CN111107284B (zh) 2019-12-31 2019-12-31 一种视频字幕实时生成系统及生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911422039.1A CN111107284B (zh) 2019-12-31 2019-12-31 一种视频字幕实时生成系统及生成方法

Publications (2)

Publication Number Publication Date
CN111107284A CN111107284A (zh) 2020-05-05
CN111107284B true CN111107284B (zh) 2022-09-06

Family

ID=70426636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911422039.1A Active CN111107284B (zh) 2019-12-31 2019-12-31 一种视频字幕实时生成系统及生成方法

Country Status (1)

Country Link
CN (1) CN111107284B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113556491A (zh) * 2021-07-08 2021-10-26 上海松鼠课堂人工智能科技有限公司 线上教学录屏方法与系统
CN113709558A (zh) * 2021-10-09 2021-11-26 立讯电子科技(昆山)有限公司 多媒体处理方法及多媒体交互系统
CN116417015B (zh) * 2023-04-03 2023-09-12 广州市迪士普音响科技有限公司 一种压缩音频的静默检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5075880A (en) * 1988-11-08 1991-12-24 Wadia Digital Corporation Method and apparatus for time domain interpolation of digital audio signals
WO2010099470A1 (en) * 2009-02-26 2010-09-02 Tko Enterprises, Inc. Image processing sensor systems

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001050459A1 (en) * 1999-12-31 2001-07-12 Octiv, Inc. Techniques for improving audio clarity and intelligibility at reduced bit rates over a digital network
US7970147B2 (en) * 2004-04-07 2011-06-28 Sony Computer Entertainment Inc. Video game controller with noise canceling logic
US8126578B2 (en) * 2007-09-26 2012-02-28 University Of Washington Clipped-waveform repair in acoustic signals using generalized linear prediction
CN101599285B (zh) * 2009-07-02 2013-04-03 深圳市万兴软件有限公司 一种音频录制方法和系统
CN106504754B (zh) * 2016-09-29 2019-10-18 浙江大学 一种根据音频输出的实时字幕生成方法
CN107733876A (zh) * 2017-09-26 2018-02-23 惠州Tcl移动通信有限公司 一种流媒体字幕显示方法、移动终端及存储装置
CN108012173B (zh) * 2017-11-16 2021-01-22 百度在线网络技术(北京)有限公司 一种内容识别方法、装置、设备和计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5075880A (en) * 1988-11-08 1991-12-24 Wadia Digital Corporation Method and apparatus for time domain interpolation of digital audio signals
WO2010099470A1 (en) * 2009-02-26 2010-09-02 Tko Enterprises, Inc. Image processing sensor systems

Also Published As

Publication number Publication date
CN111107284A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111107284B (zh) 一种视频字幕实时生成系统及生成方法
CN108833722B (zh) 语音识别方法、装置、计算机设备及存储介质
CN111508498B (zh) 对话式语音识别方法、系统、电子设备和存储介质
JP3636460B2 (ja) 音響信号中の過渡状態を検出し生成する方法とシステム
CN106098078B (zh) 一种可过滤扬声器噪音的语音识别方法及其系统
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN113488063B (zh) 一种基于混合特征及编码解码的音频分离方法
CN113436609B (zh) 语音转换模型及其训练方法、语音转换方法及系统
CN112116903A (zh) 语音合成模型的生成方法、装置、存储介质及电子设备
EP4207195A1 (en) Speech separation method, electronic device, chip and computer-readable storage medium
CN112767955B (zh) 音频编码方法及装置、存储介质、电子设备
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
CN111429916B (zh) 一种声音信号记录系统
CN112750426A (zh) 移动终端语音分析系统
CN111108553A (zh) 一种声音采集对象声纹检测方法、装置和设备
CN116189651A (zh) 一种用于远程视频会议的多说话人声源定位方法及系统
CN114283493A (zh) 基于人工智能的识别系统
CN115472153A (zh) 语音增强系统、方法、装置及设备
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
CN117594035A (zh) 多模态语音分离识别方法、装置、冰箱及存储介质
CN111081264B (zh) 一种语音信号处理方法、装置、设备及存储介质
WO2022068675A1 (zh) 发声者语音抽取方法、装置、存储介质及电子设备
CN113345446B (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
CN113112993B (zh) 一种音频信息处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant