CN114025236A - 一种视频内容理解方法、装置、电子设备和存储介质 - Google Patents
一种视频内容理解方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114025236A CN114025236A CN202111355801.6A CN202111355801A CN114025236A CN 114025236 A CN114025236 A CN 114025236A CN 202111355801 A CN202111355801 A CN 202111355801A CN 114025236 A CN114025236 A CN 114025236A
- Authority
- CN
- China
- Prior art keywords
- voice
- duration
- display
- speed
- subtitles
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/441—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card
- H04N21/4415—Acquiring end-user identification, e.g. using personal code sent by the remote control or by inserting a card using biometric characteristics of the user, e.g. by voice recognition or fingerprint scanning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Abstract
本发明公开了一种视频内容理解方法、装置、电子设备和存储介质,听取原视频中的第一语音;对所述第一语音进行识别、翻译,得到第二语音;确定第二语音的语速,确定第二语音地听取时长,获取第二语音的音量变化,获取第二语音的各个字节之间的间隔;根据所述目标字幕的显示速度生成所述第二语音对应的识别字幕;根据第一语音的长度和所述识别字幕的默认显示速度,确定所述识别字幕的默认显示时长。该视频内容理解方法、装置、电子设备和存储介质,设置有字幕添加功能,通过字幕对视频内容的音频展示进行补充,增加原视频内容的传播方式,使原视频的内容更加容易被理解,也能够防止对原视频内容的误解,提高信息传输的正确性。
Description
技术领域
本发明涉及信息技术领域,具体为一种视频内容理解方法、装置、电子设备和存储介质。
背景技术
信息技术使用计算机来存储、检索、传输和操作数据或信息,通常用在商业或其他企业环境中。信息技术被认为是信息和通信技术的一个子集。一个信息技术系统通常是一个信息系统、通信系统,或者更具体地说是一个由有限用户群体操作的计算机系统,它包括所有硬件、软件和外围设备,其中视频内容就是信息技术运用的一种体现,通过对一些视频信息的采集、传播、观看,达到快速交流的目的,而现有的一些视频内容,进行具备音频显示功能,声音的理解范围很广,容易导致人民对视频内容的理解产生偏差,导致信息传输错误。
所以我们提出了一种视频内容理解方法、装置、电子设备和存储介质,以便于解决上述中提出的问题。
发明内容
本发明的目的在于提供一种视频内容理解方法、装置、电子设备和存储介质,以解决上述背景技术提出的目前市场上现有的一些视频内容,进行具备音频显示功能,声音的理解范围很广,容易导致人民对视频内容的理解产生偏差,导致信息传输错误的问题。
为实现上述目的,本发明提供如下技术方案:一种视频内容理解方法,其特征在于:所述理解方法包括:
(1)听取原视频中的第一语音;
(2)对所述第一语音进行识别、翻译,得到第二语音;
(3)确定第二语音的语速,确定第二语音地听取时长,获取第二语音的音量变化,获取第二语音的各个字节之间的间隔;
(4)根据所述目标字幕的显示速度生成所述第二语音对应的识别字幕;
(5)根据第一语音的长度和所述识别字幕的默认显示速度,确定所述识别字幕的默认显示时长;
(6)判断所述任意一段字幕的实际显示时长与默认显示时长的大小;
若所述任意一段字幕显示时长大于或等于所述默认时长,则判断所述第二语音的长度是否在预设的范围内;
若所述第二语音的长度在所述预设范围内,则增加识别字幕的显示速度,或者提高第二语音的时长,使得所述第二语音的长度与所述识别字幕的显示时长相对应,使第二语音的长度与识别字幕的显示时长之间的第一差异值小于或等于第一限定值;
若所述任意一段字幕的显示时长小于所述默认时长,且所述任意一段字幕的显示时长和所述默认时长之间的第二差异小于或等于第二限定值,则所述第二语音的显示时长为所述任意一段字幕对应的时间,所述识别字幕的显示速度为所述默认显示速度;
(7)将所述识别字幕与第二语音之间识别配对,得到第三语音;
(8)将所述原视频中的所述第一语音替换为所述第三语音,得到目标视频,并在所述目标视频中与所述识别字幕的显示时长对应的片段中显示所述识别字幕。
优选的,所述增加识别字幕的显示速度,或者提高第二语音的时长,包括:在所述识别字幕的默认显示速度的基准上,逐渐增加识别字幕的显示速度;
若所述识别字幕的显示速度达到显示速度的最大极限值,且所述第一差异大于第一限定值,则在第二语音的播放时长在识别字幕显示时长的基础上,逐渐降低第二语音的语速,增加第二语音的播放时长,直到第一差异小于第一限定值。
优选的,所述增加识别字幕的显示速度,或者提高第二语音的时长,包括:在所述第二语音的默认时长的基础上,逐渐增加第二语音的播放时长;
若第二语音的播放时长达到最大值,且所述第一差异大于第一限定值,则在所述识别弹幕的默认显示速度的基准上,逐渐增加识别弹幕的显示速度,直到第一差异小于第一限定值。
优选的,所述增加识别字幕的显示速度,或者提高第二语音的时长,包括:在所述识别字幕的默认显示速度的基准上,逐渐增加识别字幕的显示速度,同时在所述第二语音的默认时长的基础上,逐渐增加第二语音的播放时长,直到所述第一差异大于第一限定值。
优选的,所述增加第二语音的播放时长,通过降低任意一段视频的播放速度来完成,所述增加识别字幕的显示速度,通过加速字幕替换速度来完成。
优选的,所述任一段识别字幕的时长小于所述默认时长,且所述任一段识别字幕的时长和所述默认时长之间的第二差异大于第二限定值,则确定所述第二语音的长度是否在预设范围内;若所述第二语音的长度在所述预设范围内,则增加所述识别字幕的显示时长,或降低所述第二语音的时长,使得所述识别字幕的显示时长与所述第二语音的播放时长之间相对应。
优选的,所述增加所述目标字幕的显示时长,或降低所述第二语音的时长,包括:在所述识别字幕的默认显示速度之上,逐渐降低显示速度,若显示速度已到达最低值,且所述第一差异大于第一限定值,则在所述第二语音的默认播放速度的基准上,逐渐增加第二语音的播放速度,直到第一差异小于第一限定值;在所述第二语音的默认播放速度的基准上,逐渐增加第二语音的播放速度,若播放速度已到达最大值,第一差异大于第一限定值,在所述识别字幕的默认显示速度之上,逐渐降低显示速度直到第一差异小于第一限定值;在所述识别字幕的默认显示速度之上和在所述第二语音的默认播放速度的基准上,同时降低显示速度和增加第二语音的播放速度,直到第一差异小于第一限定值。
一种视频处理装置,包括:
提取模块,用于获取原视频中的第一语音;
转换模块,用于对所述语音进行识别、翻译,得到第二语音;
判断模块,用于获取第二语音的音量变化,获取第二语音的各个字节之间的间隔;
处理模块,用于确定字幕的目标显示速度;
字幕模块,用于根据所述字幕的目标显示速度生成所述第二语音对应的识别字幕。
一种视频用电子设备和存储介质,所述电子设备包括:一个处理器,用于运行一个或多个程序,使一个或者多个程序按照权利要求1所述的方法来处理视频;所述存储介质,为一种计算机可读存储设备,用于执行程序和视频数据的存储。
与现有技术相比,本发明的有益效果是:该视频内容理解方法、装置、电子设备和存储介质,设置有字幕添加功能,通过字幕对视频内容的音频展示进行补充,增加原视频内容的传播方式,使原视频的内容更加容易被理解,也能够防止对原视频内容的误解,提高信息传输的正确性。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种视频内容理解方法,所述理解方法包括:
(1)听取原视频中的第一语音,该第一语音为视频中一整段话的语音,第一语音具有完成的语句意思;
(2)对所述第一语音进行识别、翻译,得到第二语音,对第一语音的每一个字进行识别,并将第一语音的语句翻译成通用性语句,在不改变第一语音语句意思的前提下进行翻译;
(3)确定第二语音的语速,确定第二语音地听取时长,获取第二语音的音量变化,获取第二语音的各个字节之间的间隔,根据正常默认语速来确定第二语音的语速,根据第二语音的语速来确定第二语音的时长,然后根据语句的意思来确定第二语音的音量高低和语速快慢的调整,使第二语音的语句含义更符合交流习惯;
(4)根据所述目标字幕的显示速度生成所述第二语音对应的识别字幕,将第二语音中的字逐个翻译成词,并将词组合成一个完成的字幕,使用默认显示速度逐词显示;
(5)根据第一语音的长度和所述识别字幕的默认显示速度,确定所述识别字幕的默认显示时长,使识别字幕的默认显示速度与时间的乘积等于第一语音的时长,即为识别字幕的默认显示时长;
(6)判断所述任意一段字幕的实际显示时长与默认显示时长的大小;
当一段字幕显示时长大于或等于所述默认时长时,若第二语音的长度在预设的范围内,可一通过增加识别字幕的显示速度,或者提高第二语音的时长,使得所述第二语音的长度与所述识别字幕的显示时长相对应,使第二语音的长度与识别字幕的显示时长之间的第一差异值小于或等于第一限定值,可单独进行增加识别字幕的显示速度或者单独进行提高第二语音的时长操作,也可在增加识别字幕的显示速度的同时进行提高第二语音的时长操作,进而达到第一差异值小于第一限定值,即不影响正常播放效果的限定值;
当任意一段字幕的显示时长小于默认时长时,且所述任意一段字幕的显示时长和所述默认时长之间的第二差异小于或等于第二限定值,则所述第二语音的显示时长为所述任意一段字幕对应的时间,所述识别字幕的显示速度为所述默认显示速度,当识别字幕以默认显示速度进行显示时,使一段字幕的显示时长要比默认的时长小,但他们之间的第二差异在正常的范围内时,是可以按照默认显示速度进行字幕播放的;
(7)将所述识别字幕与第二语音之间识别配对,得到第三语音,将确定好的字幕按照字幕播放速度进行播放,然后使字幕与第二语音合并到一起;
(8)将所述原视频中的所述第一语音替换为所述第三语音,得到目标视频,并在所述目标视频中与所述识别字幕的显示时长对应的片段中显示所述识别字幕,将第三语音替换掉原视频中的第一语音,形成一个新的视频,便于理解和学习的视频。
一种视频处理装置,包括:
提取模块,用于获取原视频中的第一语音;
转换模块,用于对所述语音进行识别、翻译,得到第二语音;
判断模块,用于获取第二语音的音量变化,获取第二语音的各个字节之间的间隔;
处理模块,用于确定字幕的目标显示速度;
字幕模块,用于根据所述字幕的目标显示速度生成所述第二语音对应的识别字幕。
一种视频用电子设备和存储介质,所述电子设备包括:一个处理器,用于运行一个或多个程序,使一个或者多个程序按照方法来处理视频;所述存储介质,为一种计算机可读存储设备,用于执行程序和视频数据的存储。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种视频内容理解方法,其特征在于:所述理解方法包括:
(1)听取原视频中的第一语音;
(2)对所述第一语音进行识别、翻译,得到第二语音;
(3)确定第二语音的语速,确定第二语音地听取时长,获取第二语音的音量变化,获取第二语音的各个字节之间的间隔;
(4)根据所述目标字幕的显示速度生成所述第二语音对应的识别字幕;
(5)根据第一语音的长度和所述识别字幕的默认显示速度,确定所述识别字幕的默认显示时长;
(6)判断所述任意一段字幕的实际显示时长与默认显示时长的大小;
若所述任意一段字幕显示时长大于或等于所述默认时长,则判断所述第二语音的长度是否在预设的范围内;
若所述第二语音的长度在所述预设范围内,则增加识别字幕的显示速度,或者提高第二语音的时长,使得所述第二语音的长度与所述识别字幕的显示时长相对应,使第二语音的长度与识别字幕的显示时长之间的第一差异值小于或等于第一限定值;
若所述任意一段字幕的显示时长小于所述默认时长,且所述任意一段字幕的显示时长和所述默认时长之间的第二差异小于或等于第二限定值,则所述第二语音的显示时长为所述任意一段字幕对应的时间,所述识别字幕的显示速度为所述默认显示速度;
(7)将所述识别字幕与第二语音之间识别配对,得到第三语音;
(8)将所述原视频中的所述第一语音替换为所述第三语音,得到目标视频,并在所述目标视频中与所述识别字幕的显示时长对应的片段中显示所述识别字幕。
2.根据权利要求1所述的一种视频内容理解方法,其特征在于:所述增加识别字幕的显示速度,或者提高第二语音的时长,包括:在所述识别字幕的默认显示速度的基准上,逐渐增加识别字幕的显示速度;
若所述识别字幕的显示速度达到显示速度的最大极限值,且所述第一差异大于第一限定值,则在第二语音的播放时长在识别字幕显示时长的基础上,逐渐降低第二语音的语速,增加第二语音的播放时长,直到第一差异小于第一限定值。
3.根据权利要求1所述的一种视频内容理解方法,其特征在于:所述增加识别字幕的显示速度,或者提高第二语音的时长,包括:在所述第二语音的默认时长的基础上,逐渐增加第二语音的播放时长;
若第二语音的播放时长达到最大值,且所述第一差异大于第一限定值,则在所述识别弹幕的默认显示速度的基准上,逐渐增加识别弹幕的显示速度,直到第一差异小于第一限定值。
4.根据权利要求1所述的一种视频内容理解方法,其特征在于:所述增加识别字幕的显示速度,或者提高第二语音的时长,包括:在所述识别字幕的默认显示速度的基准上,逐渐增加识别字幕的显示速度,同时在所述第二语音的默认时长的基础上,逐渐增加第二语音的播放时长,直到所述第一差异大于第一限定值。
5.根据权利要求1所述的一种视频内容理解方法,其特征在于:所述增加第二语音的播放时长,通过降低任意一段视频的播放速度来完成,所述增加识别字幕的显示速度,通过加速字幕替换速度来完成。
6.根据权利要求1所述的一种视频内容理解方法,其特征在于:所述任一段识别字幕的时长小于所述默认时长,且所述任一段识别字幕的时长和所述默认时长之间的第二差异大于第二限定值,则确定所述第二语音的长度是否在预设范围内;若所述第二语音的长度在所述预设范围内,则增加所述识别字幕的显示时长,或降低所述第二语音的时长,使得所述识别字幕的显示时长与所述第二语音的播放时长之间相对应。
7.根据权利要求6所述的一种视频内容理解方法,其特征在于:所述增加所述目标字幕的显示时长,或降低所述第二语音的时长,包括:在所述识别字幕的默认显示速度之上,逐渐降低显示速度,若显示速度已到达最低值,且所述第一差异大于第一限定值,则在所述第二语音的默认播放速度的基准上,逐渐增加第二语音的播放速度,直到第一差异小于第一限定值;在所述第二语音的默认播放速度的基准上,逐渐增加第二语音的播放速度,若播放速度已到达最大值,第一差异大于第一限定值,在所述识别字幕的默认显示速度之上,逐渐降低显示速度直到第一差异小于第一限定值;在所述识别字幕的默认显示速度之上和在所述第二语音的默认播放速度的基准上,同时降低显示速度和增加第二语音的播放速度,直到第一差异小于第一限定值。
8.一种视频处理装置,其特征在于:包括:
提取模块,用于获取原视频中的第一语音;
转换模块,用于对所述语音进行识别、翻译,得到第二语音;
判断模块,用于获取第二语音的音量变化,获取第二语音的各个字节之间的间隔;
处理模块,用于确定字幕的目标显示速度;
字幕模块,用于根据所述字幕的目标显示速度生成所述第二语音对应的识别字幕。
9.一种视频用电子设备和存储介质,其特征在于:所述电子设备包括:一个处理器,用于运行一个或多个程序,使一个或者多个程序方法来处理视频;所述存储介质,为一种计算机可读存储设备,用于执行程序和视频数据的存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111355801.6A CN114025236A (zh) | 2021-11-16 | 2021-11-16 | 一种视频内容理解方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111355801.6A CN114025236A (zh) | 2021-11-16 | 2021-11-16 | 一种视频内容理解方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114025236A true CN114025236A (zh) | 2022-02-08 |
Family
ID=80064543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111355801.6A Pending CN114025236A (zh) | 2021-11-16 | 2021-11-16 | 一种视频内容理解方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114025236A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013201606A (ja) * | 2012-03-26 | 2013-10-03 | Nippon Hoso Kyokai <Nhk> | 字幕同期再生装置およびそのプログラム |
CN108289244A (zh) * | 2017-12-28 | 2018-07-17 | 努比亚技术有限公司 | 视频字幕处理方法、移动终端及计算机可读存储介质 |
CN109119063A (zh) * | 2018-08-31 | 2019-01-01 | 腾讯科技(深圳)有限公司 | 视频配音生成方法、装置、设备及存储介质 |
CN113207044A (zh) * | 2021-04-29 | 2021-08-03 | 北京有竹居网络技术有限公司 | 视频处理方法、装置、电子设备和存储介质 |
-
2021
- 2021-11-16 CN CN202111355801.6A patent/CN114025236A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013201606A (ja) * | 2012-03-26 | 2013-10-03 | Nippon Hoso Kyokai <Nhk> | 字幕同期再生装置およびそのプログラム |
CN108289244A (zh) * | 2017-12-28 | 2018-07-17 | 努比亚技术有限公司 | 视频字幕处理方法、移动终端及计算机可读存储介质 |
CN109119063A (zh) * | 2018-08-31 | 2019-01-01 | 腾讯科技(深圳)有限公司 | 视频配音生成方法、装置、设备及存储介质 |
CN113207044A (zh) * | 2021-04-29 | 2021-08-03 | 北京有竹居网络技术有限公司 | 视频处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7676373B2 (en) | Displaying text of speech in synchronization with the speech | |
CN108259971A (zh) | 字幕添加方法、装置、服务器及存储介质 | |
CN109257659A (zh) | 字幕添加方法、装置、电子设备及计算机可读存储介质 | |
US20060004871A1 (en) | Multimedia data reproducing apparatus and multimedia data reproducing method and computer-readable medium therefor | |
EP4099709A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
US11900925B2 (en) | Output method and electronic device | |
CN111986656B (zh) | 教学视频自动字幕处理方法与系统 | |
CN110503944B (zh) | 语音唤醒模型的训练和使用方法及装置 | |
CN109995939B (zh) | 信息处理方法和电子设备 | |
CN111885416B (zh) | 一种音视频的修正方法、装置、介质及计算设备 | |
CN111107442A (zh) | 音视频文件的获取方法、装置、服务器及存储介质 | |
EP1611570A1 (en) | System for correction of speech recognition results with confidence level indication | |
CN113099256B (zh) | 一种智慧课堂回放视频增加语音笔记的方法及系统 | |
CN111312281A (zh) | 一种触感振动实现方法 | |
US20230289622A1 (en) | Volume recommendation method and apparatus, device and storage medium | |
CN112599130B (zh) | 一种基于智慧屏的智能会议系统 | |
CN113992972A (zh) | 一种字幕显示方法、装置、电子设备和可读存储介质 | |
CN111966839B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN114025236A (zh) | 一种视频内容理解方法、装置、电子设备和存储介质 | |
US11488604B2 (en) | Transcription of audio | |
US10546011B1 (en) | Time code to byte indexer for partial object retrieval | |
CN110602528B (zh) | 视频处理方法、终端、服务器及存储介质 | |
US20220215839A1 (en) | Method for determining voice response speed, related device and computer program product | |
CN113630620A (zh) | 多媒体文件播放系统、相关方法、装置及设备 | |
CN113038259B (zh) | 互联网教育的上课质量反馈方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |