CN111683266A - 一种视频同声翻译配置字幕方法及终端 - Google Patents

一种视频同声翻译配置字幕方法及终端 Download PDF

Info

Publication number
CN111683266A
CN111683266A CN202010372865.6A CN202010372865A CN111683266A CN 111683266 A CN111683266 A CN 111683266A CN 202010372865 A CN202010372865 A CN 202010372865A CN 111683266 A CN111683266 A CN 111683266A
Authority
CN
China
Prior art keywords
target
user
image signal
subtitles
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010372865.6A
Other languages
English (en)
Inventor
郭铭煌
周春林
蔡权权
黄智全
颜林明
刘奕成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Intretech Inc
Original Assignee
Xiamen Intretech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Intretech Inc filed Critical Xiamen Intretech Inc
Priority to CN202010372865.6A priority Critical patent/CN111683266A/zh
Publication of CN111683266A publication Critical patent/CN111683266A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/04Generating or distributing clock signals or signals derived directly therefrom
    • G06F1/12Synchronisation of different clock signals provided by a plurality of clock generators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • H04N21/2355Processing of additional data, e.g. scrambling of additional data or processing content descriptors involving reformatting operations of additional data, e.g. HTML pages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/239Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests
    • H04N21/2393Interfacing the upstream path of the transmission network, e.g. prioritizing client content requests involving handling client requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/242Synchronization processes, e.g. processing of PCR [Program Clock References]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • H04N21/4316Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for displaying supplemental content in a region of the screen, e.g. an advertisement in a separate window
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Studio Circuits (AREA)

Abstract

本发明提出了一种视频同声翻译配置字幕方法和终端,所述方法包括:接收用户选择的目标语言操作指令,提取视频文件中的图像信号和音频信号;将所述目标语言和音频信号发送至云端服务器或第三方语音转文字翻译软件进行同步翻译后,回传以所述目标语言的文字形式显示的目标字幕;基于时间同步信息,将所述目标字幕与图像信号进行实时匹配;当出现所述图像信号或音频信号与目标字幕不同步时,接收用户选择的音画延迟操作指令,以延迟所述图像信号或音频信号的输出时间;所述终端,通过实施上述方法,解决了视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕与视频图像同步,提高了用户观看视频过程中的用户体验。

Description

一种视频同声翻译配置字幕方法及终端
技术领域
本发明涉及多媒体技术领域,尤其涉及一种视频同声翻译配置字幕方法及终端。
背景技术
随着互联网和智能终端的发展,人们越来越多地使用诸如移动终端、平板电脑、台式电脑和智能电视等智能终端观看电影和视频,但是部分国外影视作品或视频会存在没有字幕,或者字幕不是用户熟悉的语言的情况,用户在观看的过程中会存在较差的观影体验。
因此,现有技术还有待改进和发展。
发明内容
鉴于上述状况,实有必要提供一种视频同声翻译配置字幕方法和终端,以解决上述问题。
本发明提供了一种视频同声翻译配置字幕方法,所述方法包括:
接收用户选择的目标语言操作指令,提取视频文件中的图像信号和音频信号;
将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件;
所述云端服务器或第三方语音转文字翻译软件对提取的所述音频信号进行同步翻译后,回传以所述目标语言的文字形式显示的目标字幕;
基于时间同步信息,将所述目标字幕与所述图像信号进行实时匹配,在显示界面上同步显示所述目标字幕;
当播放过程中出现所述图像信号或所述音频信号与所述目标字幕不同步时,接收用户选择的音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,使得所述图像信号、所述音频信号与所述目标字幕同步匹配。
进一步地,将所述目标字幕与所述图像信号进行实时匹配,具体包括:
获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;
获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;
基于所述音频数据帧的时间戳,将所述音频数据帧所对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。
进一步地,接收用户选择的所述目标语言操作指令,提取所述图像信号和所述音频信号,具体包括:
在所述显示界面中设定悬浮按钮;
接收用户对所述悬浮按钮的点击选择所述目标语言操作指令;
基于选择的所述目标语言,提取所述图像信号和所述音频信号。
进一步地,在所述显示界面上同步显示所述目标字幕,具体包括:
所述悬浮按钮转变为悬浮窗口,所述悬浮窗口用于在所述显示界面上显示所述目标字幕;
通过点击操作所述悬浮窗口,选择字幕样式操作指令或音画延迟操作指令或音量调节操作指令,所述字幕样式包括字幕颜色、字幕透明度以及字体大小。
进一步地,所述悬浮窗口可通过手势操作,移动所述悬浮窗口在所述显示界面上的显示位置,或缩放所述悬浮窗口的显示比例。
进一步地,本发明还提供了一种终端,所述终端包括:
存储模块,用于存储视频播放程序和视频同声翻译配置字幕程序;
配置模块,用于接收用户选择的目标语言操作指令,接收用户选择的音画延迟操作指令,并显示配置后的字幕;
提取模块,用于提取视频文件中的图像信号和音频信号;
发送模块,用于将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件进行翻译,并接收所述云端服务器或第三方语音转文字翻译软件回传以所述目标语言的文字形式显示的目标字幕;
同步模块,用于基于时间同步信息,将所述图像信号与所述目标字幕进行实时匹配;
视听模块,用于显示所述图像信号和播放所述音频信号。
进一步地,所述同步模块还用于:
获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;
获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;
基于所述音频数据帧的时间戳,将所述音频数据帧对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。
进一步地,所述配置模块还包括:
悬浮按钮模块,用于接收用户选择的所述目标语言操作指令;
悬浮窗口模块,用于显示所述目标字幕。
进一步地,所述悬浮窗口模块还用于:
接收用户选择的字幕样式操作指令或音画延迟操作指令或音量调节操作指令,所述字幕样式包括字幕颜色、字幕透明度以及字体大小。
进一步地,所述悬浮窗口模块还用于:
接收用户的手势操作指令,移动所述悬浮窗口在显示界面上的显示位置,或缩放所述悬浮窗口的显示比例。
本发明提供的一种视频同声翻译配置字幕方法和终端,通过在视频播放过程中,根据用户对语种的需求,将提取到的所述音频信号发送至所述云端服务器或所述第三方语音转文字翻译软件,转化成用户所需语种形式的所述目标字幕,并与视频图像同步显示,当出现所述图像信号与所述目标字幕不同步时,根据用户选择的所述音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,从而使得所述目标字幕、所述图像信号和所述音频信号同步播放,解决了现有技术方案中视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕、所述图像信号与所述音频信号的同步率,提高了用户观看视频过程中的用户体验。
附图说明
图1是本发明的一个实施例中的视频同声翻译配置字幕方法的流程图。
图2是本发明的一个实施例中的设定悬浮按钮的显示界面示意图。
图3是本发明的一个实施例中的点击悬浮按钮后的显示界面示意图。
图4是本发明的一个实施例中的悬浮按钮转变为悬浮窗口的显示界面示意图。
图5是本发明的一个实施例中的点击悬浮窗口后的显示界面示意图。
图6是本发明的一个实施例中的通过手势操作变更悬浮窗口显示位置后的显示界面示意图。
图7是本发明的一个实施例中的通过手势操作缩放悬浮窗口显示比例后的显示界面示意图。
图8是本发明的一个实施例中的视频同声翻译配置字幕方法中步骤S40的流程图。
图9是本发明的一个实施例中的终端的模块示意图。
主要元件符号说明
11 显示界面
12 悬浮按钮
13 悬浮窗口
100 终端
110 存储模块
120 配置模块
121 悬浮按钮模块
122 悬浮窗口模块
130 提取模块
140 发送模块
150 同步模块
160 视听模块
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
请参阅图1,本发明提供了一种视频同声翻译配置字幕方法,所述视频同声翻译配置字幕方法包括以下步骤:
步骤S10、接收用户选择的目标语言操作指令,提取视频文件中的图像信号和音频信号。
在本实施例中,接收用户选择的所述目标语言操作指令,提取所述图像信号和所述音频信号,具体包括:
如图2-3所示,以诸如手机等的移动终端为例,在所述显示界面11中设定悬浮按钮12;点击所述悬浮按钮12,所述悬浮按钮12展开显示多个待选择的所述目标语言类型,接收用户对所述悬浮按钮12的点击选择所述目标语言操作指令;基于选择的所述目标语言,提取所述图像信号和所述音频信号。
进一步地,所述悬浮按钮12可以设置为播放或不播放视频文件均始终显示于所述显示界面11上,也可以设置为仅当播放视频文件时显示于所述显示界面11上。
进一步地,所述视频文件可以是实时拍摄的视频,也可以是本地所存储的视频,还可以是视频播放器在线播放的视频。提取所述音频信号可以是将下载完成或缓存完成的视频文件中的所有音频信号预先全部提取并进行翻译,从而实现先译后播功能,或者是视频文件边缓存播放边提取所述音频信号进行翻译,从而实现边译边播功能。所述目标语言可以是汉语、英语、法语、德语、日语、韩语等中的任一种语言。
步骤S20、将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件。
步骤S30、所述云端服务器或第三方语音转文字翻译软件对提取的所述音频信号进行同步翻译后,回传以所述目标语言的文字形式显示的目标字幕。
在本实施例中,将所述目标语言和所述音频信号发送至云端服务器,以及所述云端服务器回传所述目标字幕的通信方式可以是通过蓝牙、WIFI、5G、移动通信网路中的任一种方式。所述第三方语音转文字翻译软件可以使预先下载安装好的第三方翻译软件,也可以是预先下载的离线语音转文字翻译包。
步骤S40、基于时间同步信息,将所述目标字幕与所述图像信号进行实时匹配,在显示界面上同步显示所述目标字幕。
在本实施例中,在所述显示界面上同步显示所述目标字幕,具体包括:
如图4-7所示,在所述显示界面11上,所述悬浮按钮12转变为悬浮窗口13,所述悬浮窗口13用于在所述显示界面11上显示所述目标字幕。通过点击所述悬浮窗口13,所述悬浮窗口13展开显示多个待选择的更多操作指令,例如:选择字幕样式操作指令或音画延迟操作指令或音量调节操作指令。所述目标字幕的字幕样式包括字幕颜色、字幕透明度以及字体大小,例如用户选择最后输出的所述目标字幕的颜色为红色,所述字幕透明度可根据用户的需要进行选择,字体大小也可以根据用户的需求进行选择或直接手势操作缩放,还可以选择其他的字幕参数或者相关设置。
进一步地,所述悬浮窗口13可通过手势操作,移动所述悬浮窗口13在所述显示界面11上的显示位置,或缩放所述悬浮窗口13的显示比例,例如通过手势操作拖拽所述悬浮窗口13在所述显示界面11上的显示位置,通过缩放所述悬浮窗口13的显示比例调节所述目标字幕的长度或字体大小等。
进一步地,将所述目标字幕与所述图像信号进行实时匹配,具体包括如图8所示的步骤:
S41、获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;
S42、获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;
S43、基于所述音频数据帧的时间戳,将所述音频数据帧所对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。
在本实施例中,所述音频数据帧的时间戳通常可以包括开始时间和结束时间。对于每一个所述音频数据帧,确定所述音频数据帧的开始时间点和结束时间点,并确定与所述音频数据帧的开始时间点和结束时间点分别对应的图像数据帧,最后基于所述开始时间点和所述结束时间点将与所述音频数据帧对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配,从而实现在播放过程中,所述目标字幕与所述图像信号同步播放。
步骤S50、当播放过程中出现所述图像信号或所述音频信号与所述目标字幕不同步时,接收用户选择的音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,使得所述图像信号、所述音频信号与所述目标字幕同步匹配。
在本实施例中,当播放过程中出现所述图像信号或所述音频信号与所述目标字幕不同步时,用户点击所述悬浮窗口13选择所述音画延迟操作指令,所述音画延迟操作指令可以提供选择延迟时间,例如提供1S、5S、10S等具体可供选择的所述延迟时间,并显示于所述悬浮窗口13上,接收用户选择的所述延迟时间后,所述图像信号或所述音频信号依照用户选择的所述延迟时间进行延迟播放。所述音画延迟操作指令也可以提供选择提前时间,例如提供1S、5S、10S等具体可供选择的所述提前时间,并显示于所述悬浮窗口13上,接收用户选择的所述提前时间后,所述图像信号或所述音频信号依照用户选择的所述提前时间进行提前播放。当用户选择具体所述延迟时间后,所述目标字幕播放早于所述图像信号,接收用户选择的所述提前时间,用户可以反复交替选择所述延迟时间及/或所述提前时间,直至所述目标字幕、所述图像信号和所述音频信号同步播放。
本发明提供的一种视频同声翻译配置字幕方法,通过在视频播放过程中,根据用户对语种的需求,将提取到的所述音频信号发送至所述云端服务器或所述第三方语音转文字翻译软件,转化成用户所需语种形式的所述目标字幕,并与视频图像同步显示,当出现所述图像信号与所述目标字幕不同步时,根据用户选择的所述音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,从而使得所述目标字幕、所述图像信号和所述音频信号同步播放,解决了现有技术方案中视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕、所述图像信号与所述音频信号的同步率,提高了用户观看视频过程中的用户体验。
请参阅图9,作为对上述各图示所示的方法的实现,本发明提供一种终端100,所述终端100包括存储模块110、配置模块120、提取模块130、发送模块140、同步模块150和视听模块160。图3仅示出了所述终端100的部分模块,但是应理解的是,并不要求实施所有示出的模块,可以替代的实施更多或者更少的模块。
在本实施例中,所述终端100可以以各种形式来实施,例如手机、平板电脑、笔记本电脑、掌上电脑等移动终端,以及诸如数字电视、台式计算机等固定终端。
所述存储模块110,用于存储视频播放程序和视频同声翻译配置字幕程序。
在本实施例中,所述存储模块110可以是所述终端100的内部存储单元,例如手机的硬盘或内存,也可以是所述终端的外部存储设备,例如插接式硬盘、智能存储卡、安全数字卡、闪存卡等,还可以是既包括所述内部存储单元还包括所述外部存储设备。
所述配置模块120,用于接收用户选择的目标语言操作指令,接收用户选择的音画延迟操作指令,并显示配置后的字幕。
在本实施例中,所述配置模块120还包括悬浮按钮模块121和悬浮窗口模块122,所述悬浮按钮模块121和所述悬浮窗口模块122分别以悬浮按钮12和悬浮窗口13形式显示于所述视听模块160的显示界面11上。其中:
所述悬浮按钮模块121,用于接收用户选择的所述目标语言操作指令;
所诉悬浮窗口模块122,用于显示所述目标字幕。
在本实施例中,所述悬浮窗口模块122,还用于接收用户选择的所述字幕样式操作指令或音画延迟操作指令或音量调节操作指令。所述字幕样式包括字幕颜色、字幕透明度以及字体大小,例如用户选择最后输出的所述目标字幕的颜色为红色,所述字幕透明度可根据用户的需要进行选择,字体大小也可以根据用户的需求进行选择或直接手势操作缩放,还可以选择其他的字幕参数或者相关设置。
进一步地,所述悬浮窗口模块122,还用于接收用户的手势操作,移动所述悬浮窗口13的在所述显示界面11上的显示位置,或缩放所述悬浮窗口13的显示比例,例如通过手势操作拖拽所述悬浮窗口13在所述显示界面11上的显示位置,通过缩放所述悬浮窗口13的显示比例调节所述目标字幕的长度或字体大小等。
所述提取模块130,用于提取视频文件中的图像信号和音频信号。
所述发送模块140,用于将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件进行翻译,并接收所述云端服务器或第三方语音转文字翻译软件回传以所述目标语言的文字形式显示的目标字幕。
在本实施例中,所述发送模块140与所述云端服务器的通信方式可以是通过蓝牙、WIFI、5G、移动通信网路中的任一种方式。
所述同步模块150,用于基于时间同步信息,将所述图像信号与所述目标字幕进行实时匹配。
在本实施例中,所述同步模块150,还用于获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;基于所述音频数据帧的时间戳,将所述音频数据帧对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。
进一步地,当播放过程中出现所述图像信号与所述目标字幕不同步时,所述悬浮窗口模块122选择用户选择的所述音画延迟操作指令,所述音画延迟操作指令可以提供选择延迟时间,例如提供1S、5S、10S等具体可供选择的所述延迟时间,接收用户选择的所述延迟时间后,所述图像信号或所述音频信号依照用户选择的所述延迟时间进行延迟播放。所述音画延迟操作指令也可以提供选择提前时间,例如提供1S、5S、10S等具体可供选择的所述提前时间,接收用户选择的所述提前时间后,所述图像信号或所述音频信号依照用户选择的所述提前时间进行提前播放。当用户选择具体所述延迟时间后,所述目标字幕播放早于所述图像信号,接收用户选择的所述提前时间,用户可以反复交替选择所述延迟时间及/或所述提前时间,直至所述目标字幕、所述图像信号和所述音频信号同步播放。
所述视听模块160,用于显示所述图像信号和播放所述音频信号。
本发明提供的一种终端,通过在视频播放过程中,根据用户对语种的需求,将提取到的所述音频信号发送至所述云端服务器或所述第三方语音转文字翻译软件,转化成用户所需语种形式的所述目标字幕,并与视频图像同步显示,当出现所述图像信号与所述目标字幕不同步时,根据用户选择的所述音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,从而使得所述目标字幕、所述图像信号和所述音频信号同步播放,解决了现有技术方案中视频文件没有字幕或者字幕不是用户所熟悉的语言的问题,保证了翻译后的所述目标字幕、所述图像信号与所述音频信号的同步率,提高了用户观看视频过程中的用户体验。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神。

Claims (10)

1.一种视频同声翻译配置字幕方法,其特征在于,所述方法包括:
接收用户选择的目标语言操作指令,提取视频文件中的图像信号和音频信号;
将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件;
所述云端服务器或第三方语音转文字翻译软件对提取的所述音频信号进行同步翻译后,回传以所述目标语言的文字形式显示的目标字幕;
基于时间同步信息,将所述目标字幕与所述图像信号进行实时匹配,在显示界面上同步显示所述目标字幕;
当播放过程中出现所述图像信号或所述音频信号与所述目标字幕不同步时,接收用户选择的音画延迟操作指令,以延迟所述图像信号或所述音频信号的输出时间,使得所述图像信号、所述音频信号与所述目标字幕同步匹配。
2.如权利要求1所述的视频同声翻译配置字幕方法,其特征在于,将所述目标字幕与所述图像信号进行实时匹配,具体包括:
获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;
获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;
基于所述音频数据帧的时间戳,将所述音频数据帧所对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。
3.如权利要求1所述的视频同声翻译配置字幕方法,其特征在于,接收用户选择的所述目标语言操作指令,提取所述图像信号和所述音频信号,具体包括:
在所述显示界面中设定悬浮按钮;
接收用户对所述悬浮按钮的点击选择所述目标语言操作指令;
基于选择的所述目标语言,提取所述图像信号和所述音频信号。
4.如权利要求3所述的视频同声翻译配置字幕方法,其特征在于,在所述显示界面上同步显示所述目标字幕,具体包括:
所述悬浮按钮转变为悬浮窗口,所述悬浮窗口用于在所述显示界面上显示所述目标字幕;
通过点击操作所述悬浮窗口,选择字幕样式操作指令或音画延迟操作指令或音量调节操作指令,所述字幕样式包括字幕颜色、字幕透明度以及字体大小。
5.如权利要求4所述的视频同声翻译配置字幕方法,其特征在于,所述悬浮窗口可通过手势操作,移动所述悬浮窗口在所述显示界面上的显示位置,或缩放所述悬浮窗口的显示比例。
6.一种终端,其特征在于,所述终端包括:
存储模块,用于存储视频播放程序和视频同声翻译配置字幕程序;
配置模块,用于接收用户选择的目标语言操作指令,接收用户选择的音画延迟操作指令,并显示配置后的字幕;
提取模块,用于提取视频文件中的图像信号和音频信号;
发送模块,用于将所述目标语言和所述音频信号发送至云端服务器或第三方语音转文字翻译软件进行翻译,并接收所述云端服务器或第三方语音转文字翻译软件回传以所述目标语言的文字形式显示的目标字幕;
同步模块,用于基于时间同步信息,将所述图像信号与所述目标字幕进行实时匹配;
视听模块,用于显示所述图像信号和播放所述音频信号。
7.如权利要求6所述的终端,其特征在于,所述同步模块还用于:
获取所述音频信号包括的至少一个音频数据帧,并确定所述音频数据帧的时间戳;
获取所述音频数据帧的时间戳所对应的所述图像信号,及所述图像信号包括的图像数据帧;
基于所述音频数据帧的时间戳,将所述音频数据帧对应的所述目标字幕与所述图像数据帧相结合并进行实时匹配。
8.如权利要求6所述的终端,其特征在于,所述配置模块还包括:
悬浮按钮模块,用于接收用户选择的所述目标语言操作指令;
悬浮窗口模块,用于显示所述目标字幕。
9.如权利要求8所述的终端,其特征在于,所述悬浮窗口模块还用于:
接收用户选择的字幕样式操作指令或音画延迟操作指令或音量调节操作指令,所述字幕样式包括字幕颜色、字幕透明度以及字体大小。
10.如权利要求9所述的终端,其特征在于,所述悬浮窗口模块还用于:
接收用户的手势操作指令,移动所述悬浮窗口在显示界面上的显示位置,或缩放所述悬浮窗口的显示比例。
CN202010372865.6A 2020-05-06 2020-05-06 一种视频同声翻译配置字幕方法及终端 Pending CN111683266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010372865.6A CN111683266A (zh) 2020-05-06 2020-05-06 一种视频同声翻译配置字幕方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010372865.6A CN111683266A (zh) 2020-05-06 2020-05-06 一种视频同声翻译配置字幕方法及终端

Publications (1)

Publication Number Publication Date
CN111683266A true CN111683266A (zh) 2020-09-18

Family

ID=72452349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010372865.6A Pending CN111683266A (zh) 2020-05-06 2020-05-06 一种视频同声翻译配置字幕方法及终端

Country Status (1)

Country Link
CN (1) CN111683266A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112584209A (zh) * 2020-12-04 2021-03-30 深圳创维-Rgb电子有限公司 一种显示方法、装置、存储介质及智能电视
CN112601102A (zh) * 2020-12-11 2021-04-02 北京有竹居网络技术有限公司 同声传译字幕的确定方法、装置、电子设备及存储介质
CN113138703A (zh) * 2021-05-20 2021-07-20 东方观丰(北京)科技有限公司 一种智能终端字典快速查询系统及智能终端
CN114007116A (zh) * 2022-01-05 2022-02-01 凯新创达(深圳)科技发展有限公司 一种视频处理方法、视频处理装置
CN114745585A (zh) * 2022-04-06 2022-07-12 Oppo广东移动通信有限公司 字幕显示方法、装置、终端和存储介质
WO2022228179A1 (zh) * 2021-04-29 2022-11-03 北京有竹居网络技术有限公司 视频处理方法、装置、电子设备和存储介质
CN115442667A (zh) * 2021-06-01 2022-12-06 脸萌有限公司 视频处理方法和设备
CN116017011A (zh) * 2021-10-22 2023-04-25 成都极米科技股份有限公司 一种音视频的字幕同步方法、播放设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
CN103226947A (zh) * 2013-03-27 2013-07-31 广东欧珀移动通信有限公司 一种基于移动终端的音频处理方法及装置
CN109348306A (zh) * 2018-11-05 2019-02-15 努比亚技术有限公司 视频播放方法、终端及计算机可读存储介质
CN110035326A (zh) * 2019-04-04 2019-07-19 北京字节跳动网络技术有限公司 字幕生成、基于字幕的视频检索方法、装置和电子设备
CN110769265A (zh) * 2019-10-08 2020-02-07 深圳创维-Rgb电子有限公司 一种同声字幕翻译方法、智能电视及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065503A1 (en) * 2001-09-28 2003-04-03 Philips Electronics North America Corp. Multi-lingual transcription system
CN103226947A (zh) * 2013-03-27 2013-07-31 广东欧珀移动通信有限公司 一种基于移动终端的音频处理方法及装置
CN109348306A (zh) * 2018-11-05 2019-02-15 努比亚技术有限公司 视频播放方法、终端及计算机可读存储介质
CN110035326A (zh) * 2019-04-04 2019-07-19 北京字节跳动网络技术有限公司 字幕生成、基于字幕的视频检索方法、装置和电子设备
CN110769265A (zh) * 2019-10-08 2020-02-07 深圳创维-Rgb电子有限公司 一种同声字幕翻译方法、智能电视及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
百度经验: "剪映字幕怎么调整大小,如何设置字幕的位置", 《HTTPS://JINGYAN.BAIDU.COM/ARTICLE/CA00D56C93B6DFA89EEBCFFD.HTML》 *
百度经验: "视频声音和画面字幕不同步怎么办", 《HTTPS://JINGYAN.BAIDU.COM/ARTICLE/20095761F8639DCB0721B49B.HTML》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112584209A (zh) * 2020-12-04 2021-03-30 深圳创维-Rgb电子有限公司 一种显示方法、装置、存储介质及智能电视
CN112601102A (zh) * 2020-12-11 2021-04-02 北京有竹居网络技术有限公司 同声传译字幕的确定方法、装置、电子设备及存储介质
WO2022228179A1 (zh) * 2021-04-29 2022-11-03 北京有竹居网络技术有限公司 视频处理方法、装置、电子设备和存储介质
CN113138703A (zh) * 2021-05-20 2021-07-20 东方观丰(北京)科技有限公司 一种智能终端字典快速查询系统及智能终端
CN115442667A (zh) * 2021-06-01 2022-12-06 脸萌有限公司 视频处理方法和设备
CN115442667B (zh) * 2021-06-01 2023-10-20 脸萌有限公司 视频处理方法和设备
CN116017011A (zh) * 2021-10-22 2023-04-25 成都极米科技股份有限公司 一种音视频的字幕同步方法、播放设备及可读存储介质
CN116017011B (zh) * 2021-10-22 2024-04-23 成都极米科技股份有限公司 一种音视频的字幕同步方法、播放设备及可读存储介质
CN114007116A (zh) * 2022-01-05 2022-02-01 凯新创达(深圳)科技发展有限公司 一种视频处理方法、视频处理装置
CN114745585A (zh) * 2022-04-06 2022-07-12 Oppo广东移动通信有限公司 字幕显示方法、装置、终端和存储介质

Similar Documents

Publication Publication Date Title
CN111683266A (zh) 一种视频同声翻译配置字幕方法及终端
US11463779B2 (en) Video stream processing method and apparatus, computer device, and storage medium
CN108600773B (zh) 字幕数据推送方法、字幕展示方法、装置、设备及介质
US11252444B2 (en) Video stream processing method, computer device, and storage medium
US10616624B2 (en) Multi-angle video synchronization and multi-angle video interface
WO2020015334A1 (zh) 视频处理方法、装置、终端设备及存储介质
CN111541930B (zh) 直播画面的显示方法、装置、终端及存储介质
CN112601101B (zh) 一种字幕显示方法、装置、电子设备及存储介质
WO2019105467A1 (zh) 信息的分享方法和装置、存储介质、电子装置
CN112616062B (zh) 一种字幕显示方法、装置、电子设备及存储介质
CN102106145A (zh) 用于显示再现图像的放大的目标区域的装置和方法
CA3001480C (en) Video-production system with dve feature
CN113141524B (zh) 资源传输方法、装置、终端及存储介质
CN108810580B (zh) 媒体内容推送方法及装置
CN113992926B (zh) 界面显示方法、装置、电子设备和存储介质
CN109286760B (zh) 一种娱乐视频制作方法及其终端
CN112055245B (zh) 一种彩色字幕实现方法及显示设备
CN113852756A (zh) 图像获取方法、装置、设备和存储介质
US10225611B2 (en) Point-to-point content navigation using an auxiliary device
CN116095388A (zh) 视频生成方法、视频播放方法及相关设备
CN113852757B (zh) 视频处理方法、装置、设备和存储介质
CN113411532B (zh) 记录内容的方法、装置、终端及存储介质
CN113891108A (zh) 字幕优化方法、装置、电子设备和存储介质
CN113766342B (zh) 字幕合成方法及相关装置、电子设备、存储介质
CN113009963B (zh) 一种浏览器语音提醒方法及显示设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200918