CN112437337B - 一种直播实时字幕的实现方法、系统及设备 - Google Patents
一种直播实时字幕的实现方法、系统及设备 Download PDFInfo
- Publication number
- CN112437337B CN112437337B CN202010089709.9A CN202010089709A CN112437337B CN 112437337 B CN112437337 B CN 112437337B CN 202010089709 A CN202010089709 A CN 202010089709A CN 112437337 B CN112437337 B CN 112437337B
- Authority
- CN
- China
- Prior art keywords
- signal
- proofreading
- subtitles
- delay signal
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000001915 proofreading effect Effects 0.000 claims abstract description 51
- 238000012937 correction Methods 0.000 claims abstract description 35
- 238000013519 translation Methods 0.000 claims abstract description 33
- 230000003111 delayed effect Effects 0.000 claims abstract description 31
- 238000012546 transfer Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 20
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 8
- 238000003786 synthesis reaction Methods 0.000 claims description 8
- 230000001360 synchronised effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009191 jumping Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/218—Source of audio or video content, e.g. local disk arrays
- H04N21/2187—Live feed
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/21—Server components or server architectures
- H04N21/222—Secondary servers, e.g. proxy server, cable television Head-end
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/242—Synchronization processes, e.g. processing of PCR [Program Clock References]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/262—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists
- H04N21/2625—Content or additional data distribution scheduling, e.g. sending additional data at off-peak times, updating software modules, calculating the carousel transmission frequency, delaying a video stream transmission, generating play-lists for delaying content or additional data distribution, e.g. because of an extended sport event
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4886—Data services, e.g. news ticker for displaying a ticker, e.g. scrolling banner for news, stock exchange, weather data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Studio Devices (AREA)
Abstract
本申请的目的是提供一种直播实时字幕的实现方法、系统及设备,本申请通过获取直播中的源信号及同传信号,对所述同传信号进行延迟作为第一延迟信号,对所述源信号进行延迟作为第二延迟信号;对未进行延迟的同传信号进行语音听写得到翻译文字;获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果;根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。从而能在少量人力参与的情况下,为直播内容提供无延迟、近似电影字幕的观看体验。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种直播实时字幕的实现方法、系统及设备。
背景技术
视频新闻直播一般通过流媒体服务器向用户在线直播新闻,用户通过客户端观看视频新闻,但是,由于新闻视频直播是同步播出的,无法预先进行翻译,不同国家的用户因为语言问题无法快速理解新闻的内容,限制了新闻直播的地域性。若直接采用人工进行翻译,则会受到翻译人员翻译水平限制,会很大程度影响直播的实时性。
发明内容
本申请的一个目的是提供一种直播实时字幕的实现方法、系统及设备,解决现有技术中直播实时字幕有延迟、不灵活、受地域性影响较大的问题。
根据本申请的一个方面,提供了一种直播实时字幕的实现方法,该方法包括:
获取直播中的源信号及同传信号,对所述同传信号进行延迟作为第一延迟信号,对所述源信号进行延迟作为第二延迟信号;
对未进行延迟的同传信号进行语音听写得到翻译文字;
获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果;
根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。
进一步地,所述对所述同传信号进行延迟作为第一延迟信号,包括:
根据语音听写所需时间对所述同传信号进行延迟,延迟后的信号作为第一延迟信号。
进一步地,所述对所述源信号进行延迟作为第二延迟信号,包括:
根据所述第一延迟信号及所述校对人员所需校对时间对所述源信号进行延迟,确定第二延迟信号。
进一步地,所述方法包括:
将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中,并每条字幕对应展示在校对界面的输入框内。
进一步地,每条字幕对应展示在校对界面的输入框内之后,包括:
根据所述未进行延迟的同传信号及所述第二延迟信号确定每条字幕的编辑倒计时,并将所述编辑倒计时在所述校对界面中进行展示。
进一步地,所述方法包括:
在所述编辑倒计时存在剩余时间内获取用户对所述输入框内的字幕的校对结果或修改操作,根据所述校对结果或修改操作更新所述输入框内的字幕。
进一步地,所述方法包括:
将所有条字幕按照时间顺序在所述校对界面中以列方式展示,当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时,将该列内的所有条字幕从所述校对界面中清除。
根据本申请又一个方面,还提供了一种直播实时字幕的实现的系统,该系统包括:中转服务器、播放器、语音识别服务模块、校对模块及信号合成模块,
所述中转服务器包括第一路中转和第二路中转,所述第一路中转用于获取直播中的同传信号,对所述同传信号进行延迟作为第一延迟信号;所述第二路中转用于获取直播中的源信号,对所述源信号进行延迟作为第二延迟信号;
所述语音识别服务模块用于接收所述第一路中转发送的未进行延迟的同传信号,对所述未进行延迟的同传信号进行语音听写得到翻译文字;
所述校对模块用于获取校对人员通过所述播放器对所述第一延迟信号以及对所述翻译文字的校对结果;
所述信号合成模块用于根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。
根据本申请另一个方面,还提供了一种直播实时字幕的实现的设备,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。
根据本申请再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述所述的方法。
与现有技术相比,本申请通过获取直播中的源信号及同传信号,对所述同传信号进行延迟作为第一延迟信号,对所述源信号进行延迟作为第二延迟信号;对未进行延迟的同传信号进行语音听写得到翻译文字;获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果;根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。从而能在少量人力参与的情况下,为直播内容提供无延迟、近似电影字幕的观看体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面提供的一种直播实时字幕的实现的系统的结构示意图;
图2示出本申请一具体实施例中的直播实时字幕的实现架构示意图;
图3示出根据本申请的又一个方面提供的一种直播实时字幕的实现方法的流程示意图;
图4示出本申请一实施例中校对界面的示意图;
图5示出本申请又一个方面提供的一种直播实时字幕的实现的设备的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(例如中央处理器(Central Processing Unit,CPU))、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RandomAccess Memory,RAM)和/或非易失性内存等形式,如只读存储器(Read Only Memory,ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(Phase-Change RAM,PRAM)、静态随机存取存储器(StaticRandom Access Memory,SRAM)、动态随机存取存储器(DynamicRandomAccess Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-OnlyMemory,CD-ROM)、数字多功能光盘(Digital Versatile Disk,DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出根据本申请一个方面提供的一种直播实时字幕的实现的系统的结构示意图,该系统包括:中转服务器100、播放器200、语音识别服务模块300、校对模块400及信号合成模块500,所述中转服务器100包括第一路中转101和第二路中转102,所述第一路中转101用于获取直播中的同传信号,对所述同传信号进行延迟作为第一延迟信号;所述第二路中转102用于获取直播中的源信号,对所述源信号进行延迟作为第二延迟信号;所述语音识别服务模块300用于接收所述第一路中101转发送的未进行延迟的同传信号,对所述未进行延迟的同传信号进行语音听写得到翻译文字;所述校对模块400用于获取校对人员通过所述播放器200对所述第一延迟信号以及对所述翻译文字的校对结果;所述信号合成模块500用于根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。在此,外部流媒体服务器将直播中的源信号及同传信号传输至中转服务器中,该中转服务器为代理服务器,用于将客户端与服务端进行非直接的连接,进行数据的中转;源信号包括直播中的视频信息以及进行发言人的语音信息,同传信号包括对直播中发言人的语音进行翻译的信号。中转服务器包括两路中转,第一路中转将同传信号进行延迟,延迟为第一延迟信号,第二路中转对源信号进行延迟,延迟为第二延迟信号,以满足后续与校对后的同传信号的同步。第一路中转将第一延迟信号传输至流媒体播放器,并将未进行延迟的同传信号(实时信号)传输至语音识别听写服务模块中以进行语音听写得到对应的翻译文字。校对模块对实时信号进行语音听写得到的翻译文字进行校对,校对人员对第一延迟信号进行收看以及听写后进行校对,校对人员还可对校对软件校对的翻译文字进行再次的校对,获取校对人员对该第一延迟信号的校对以及对翻译文字的校对后综合校对结果。随后,信号合成模块根据最终的校对结果确定校对后的字幕,校对后的字幕为需要展示在直播中的字幕,将源信号进行延迟得到的第二延迟信号与校对后的字幕进行同时投放至直播显示界面中,实现实时同步;其中,信号合成模块可为OBS软件,在校对人员通过校对软件对语音识别听写服务的听写结果进行人工修正之后,适时地提供给OBS软件,将字幕嵌入到直播画面中。需要说明的是,OBS(Open Broadcaster Software)为一种自由开源的跨平台流媒体和录影程序。
在本申请一具体实施例中,如图2所示,外部流媒体服务器将同传信号以及源信号传输至代理服务器,在代理服务器中,对同传信号进行延迟半分钟,得到半分钟前信号2,该信号2为校对人员看到画面、听到声音的延迟幅度,将未进行延迟的同传信号作为实时信号1,代理服务器对源信号进行延迟一分钟,得到一分钟前信号3,该信号3的延迟幅度大于校对人员看到画面、听到声音的延迟幅度;代理服务器将实时信号1传输至外部语音识别听写服务中以翻译为文字,将翻译得到的文字通过校对软件进行校对;将半分钟前信号2传输至流媒体播放器中以使得校对人员进行收看、收听,完成校对工作。根据对翻译的文字的校对以及半分钟前信号2的校对确定校对后字幕,将校对后字幕与上述的一分钟前信号3提供给OBS直播软件,以将字幕嵌入至直播画面中。其中,实时信号与半分钟前信号2之间的差值为外部语音识别听写服务的工作时间,半分钟前信号2与一分钟前信号3之间的差值为校对人员的工作时间。本申请实施例中的校对软件可以实时将指定的流媒体信号中的音频部分提取出来,通过接入的在线语音识别服务进行听写,并将听写得到的字幕文本显示在字幕上,允许校对人员进行人工校对和修改,并能显示每一条字幕用于修改的时间还剩余多少。校对软件获取当前OBS播放的内容的时间以根据获得的时间完成校对工作,而当前OBS播放的内容的时间可以利用OBS补丁进行提供,OBS补丁可以在OBS播放流媒体时对外提供一个接口,能获取到播放中的流媒体当前播放进度的时间戳,同时可以加强OBS的文字更新功能,使其反应速度能满足作为字幕的需要。本申请实施例中使用的代理服务器可以使得无论何时连接上获得的均为解码器可解码的最新实时直播数据以及为客户端以近似实时速度提供指定时间段之前的直播数据。
图3示出根据本申请的又一个方面提供的一种直播实时字幕的实现方法的流程示意图,该方法包括:步骤S11~步骤S14,
在步骤S11中,获取直播中的源信号及同传信号,对所述同传信号进行延迟作为第一延迟信号,对所述源信号进行延迟作为第二延迟信号;在此,获取用于直播的流媒体服务器中的源信号及同传信号,源信号包括直播中的视频信息以及进行发言人的语音信息,同传信号包括对直播中发言人的语音进行翻译的信号。对获得的直播中的同传信号进行延迟,作为第一延迟信号,以进行后续对第一延迟信号的校对等处理,同时对源信号也进行延迟,作为第二延迟信号,以满足后续与校对后的同传信号的同步。需要说明的是,流媒体是指将一连串的多媒体数据压缩后,经过互联网分段发送数据,在互联网上即时传输影音以供观赏的一种技术与过程,本申请获得的源信号及同传信号从流媒体服务器中获得,使得源信号及同传信号的数据包得以以数据流形式发送,便于后续的延迟、校对处理。
在步骤S12中,对未进行延迟的同传信号进行语音听写得到翻译文字;在此,将获得的同传信号分两路处理,一路进行延迟为第一延迟信号后传输至流媒体播放器,一路作为实时信号传输至语音识别听写服务器中以进行语音听写得到对应的翻译文字。
在步骤S13中,获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果;在此,对实时信号进行语音听写得到的翻译文字进行校对,校对人员对第一延迟信号进行收看以及听写后进行校对,校对人员还可对校对软件校对的翻译文字进行再次的校对,获取校对人员对该第一延迟信号的校对以及对翻译文字的校对后综合校对结果。随后,在步骤S14中,根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。在此,根据最终的校对结果确定校对后的字幕,校对后的字幕为需要展示在直播中的字幕,将源信号进行延迟得到的第二延迟信号与校对后的字幕进行同时投放至直播显示界面中,实现实时同步;其中,进行投放时通过OBS软件实现,在校对人员通过校对软件对语音识别听写服务的听写结果进行人工修正之后,适时地提供给OBS软件,将字幕嵌入到直播画面中。需要说明的是,OBS(Open BroadcasterSoftware)为一种自由开源的跨平台流媒体和录影程序。
通过本申请所述的直播字幕的实现方法,可以在少量人力参与的情况下,为直播内容提供无延迟、近似于电影字幕的观看体验,优化用户的观感。
在本申请一实施例中,在步骤S11中,根据语音听写所需时间对所述同传信号进行延迟,延迟后的信号作为第一延迟信号。在此,对同传信号进行延迟时,延迟时间根据语音听写所需时间来确定,即同传信号的实时信号与第一延迟信号的时间差是留给外部语音识别听写服务的工作时间。
接上述实施例,在步骤S11中,根据所述第一延迟信号及所述校对人员所需校对时间对所述源信号进行延迟,确定第二延迟信号。在此,对源信号进行延迟时,需要根据第一延迟信号以及校对人员所需校对时间确定,即第一延迟信号与第二延迟信号的时间差为校对人员的工作时间,该时间差可以根据具体使用场景进行随时调整。
在本申请一实施例中,所述方法包括:步骤S15,将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中,并每条字幕对应展示在校对界面的输入框内。在此,对第一延迟信号以及语言识别听写服务得到的翻译文字的校对时,在校对界面中将需要校对的字幕展示在输入框内,一条字幕展示在一个输入框内,校对界面可包括已经输出并展示给用户的历史字幕以及语言识别听写得到的字幕,将听写和断句的结果显示在校对界面上,对于每一条字幕,都有一个对应的输入框来显示字幕内容,可以由用户进行修改。
进一步地,每条字幕对应展示在校对界面的输入框内之后,可以根据所述未进行延迟的同传信号及所述第二延迟信号确定每条字幕的编辑倒计时,并将所述编辑倒计时在所述校对界面中进行展示。在此,对校对界面中的每一条字幕,可以有一个倒计时用来表示还有多少时间可用于校对,该倒计时根据未进行延迟的同传信号(实时信号)及第二延迟信号进行确定,语音听写服务耗时与校对可用时间的累加等于实时信号与第二延迟信号的差值,实时信号与第二延迟信号的差值由配置的延迟幅度进行控制,倒计时的初始状态可设置为:实时信号-第二延迟信号-语音听写服务耗时。
在本申请一实施例中,可以在所述编辑倒计时存在剩余时间内获取用户对所述输入框内的字幕的校对结果或修改操作,根据所述校对结果或修改操作更新所述输入框内的字幕。在此,对于校对界面中的每一条字幕,在倒计时内可以对输入框内的字幕进行校对以及允许用户对字幕进行修改。根据校对人员对输入框内字幕的校对结果更新输入框中的字幕,根据用户的修改操作更新字幕。当倒计时走完时,不允许用户进行编辑操作。
在本申请一实施例中,可以将所有条字幕按照时间顺序在所述校对界面中以列方式展示,当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时,将该列内的所有条字幕从所述校对界面中清除。在此,如图4所示,在校对界面中将所有条字幕以列方式展示,每条字幕都有对应的剩余可用校对时间(编辑倒计时),如第一条的编辑倒计时已为0,不允许用户编辑;对于每一列字幕,仅当列内所有字幕倒计时都走完时,才会从校对界面移除一整列,防止界面跳到太快影响对校对人员的工作。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述一种直播实时字幕的实现方法。
与上文所述的方法相对应的,本申请还提供一种终端,其包括能够执行上述图3或图4或各个实施例所述的方法步骤的模块或单元,这些模块或单元可以通过硬件、软件或软硬结合的方式来实现,本申请并不限定。例如,在本申请一实施例中,还提供了一种直播实时字幕的实现的设备,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述所述一种直播实时字幕的实现方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:
获取直播中的源信号及同传信号,对所述同传信号进行延迟作为第一延迟信号,对所述源信号进行延迟作为第二延迟信号;
对未进行延迟的同传信号进行语音听写得到翻译文字;
获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果;
根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。
图5示出本申请又一个方面提供的一种直播实时字幕的实现的设备的结构示意图,所述设备包括:获取装置11、听写装置12、校对装置13及直播装置14,其中,获取装置11用于获取直播中的源信号及同传信号,对所述同传信号进行延迟作为第一延迟信号,对所述源信号进行延迟作为第二延迟信号;听写装置12用于对未进行延迟的同传信号进行语音听写得到翻译文字;校对装置13用于获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果;直播装置14用于根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。
需要说明的是,获取装置11、听写装置12、校对装置13及直播装置14执行的内容分别与上述步骤S11、S12、S13和S14中的内容相同或相应相同,为简明起见,在此不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (8)
1.一种直播实时字幕的实现方法,其中,所述方法包括:
获取直播中的源信号及同传信号,对所述同传信号进行延迟作为第一延迟信号,对所述源信号进行延迟作为第二延迟信号,其中,所述同传信号包括对直播中发言人的语音进行翻译的信号,所述源信号包括直播中的视频信息以及进行发言人的语音信息,所述第一延迟信号与所述第二延迟信号的时间差为校对人员的工作时间;
对未进行延迟的同传信号进行语音听写得到翻译文字;
将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中,并每条字幕对应展示在校对界面的输入框内;获取校对人员对所述第一延迟信号以及所述翻译文字的校对结果;根据所述校对结果更新所述输入框中的字幕,且所有条字幕按照时间顺序在所述校对界面中以列方式展示,当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时,将该列内的所有条字幕从所述校对界面中清除;
根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。
2.根据权利要求1所述的方法,其中,所述对所述同传信号进行延迟作为第一延迟信号,包括:
根据语音听写所需时间对所述同传信号进行延迟,延迟后的信号作为第一延迟信号。
3.根据权利要求1所述的方法,其中,所述对所述源信号进行延迟作为第二延迟信号,包括:
根据所述第一延迟信号及所述校对人员所需校对时间对所述源信号进行延迟,确定第二延迟信号。
4.根据权利要求1所述的方法,其中,每条字幕对应展示在校对界面的输入框内之后,包括:
根据所述未进行延迟的同传信号及所述第二延迟信号确定每条字幕的编辑倒计时,并将所述编辑倒计时在所述校对界面中进行展示。
5.根据权利要求4所述的方法,其中,所述方法包括:
在所述编辑倒计时存在剩余时间内获取用户对所述输入框内的字幕的校对结果或修改操作,根据所述校对结果或修改操作更新所述输入框内的字幕。
6.一种直播实时字幕的实现的系统,其中,所述系统包括:中转服务器、播放器、语音识别服务模块、校对模块及信号合成模块,
所述中转服务器包括第一路中转和第二路中转,所述第一路中转用于获取直播中的同传信号,对所述同传信号进行延迟作为第一延迟信号;所述第二路中转用于获取直播中的源信号,对所述源信号进行延迟作为第二延迟信号,其中,所述同传信号包括对直播中发言人的语音进行翻译的信号,所述源信号包括直播中的视频信息以及进行发言人的语音信息,所述第一延迟信号与所述第二延迟信号的时间差为校对人员的工作时间;
所述语音识别服务模块用于接收所述第一路中转发送的未进行延迟的同传信号,对所述未进行延迟的同传信号进行语音听写得到翻译文字;
所述校对模块用于将所述第一延迟信号和/或所述翻译文字作为字幕发送至校对界面中,并每条字幕对应展示在校对界面的输入框内;获取校对人员通过所述播放器对所述第一延迟信号以及对所述翻译文字的校对结果;根据所述校对结果更新所述输入框中的字幕,且所有条字幕按照时间顺序在所述校对界面中以列方式展示,当存在一列中的所有条字幕的编辑倒计时均未有剩余时间时,将该列内的所有条字幕从所述校对界面中清除;
所述信号合成模块用于根据所述校对结果确定校对后的字幕,将所述校对后的字幕及所述第二延迟信号发送至直播显示界面中。
7. 一种直播实时字幕的实现的设备,其中,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至5中任一项所述方法的操作。
8.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至5中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089709.9A CN112437337B (zh) | 2020-02-12 | 2020-02-12 | 一种直播实时字幕的实现方法、系统及设备 |
US17/168,506 US11595731B2 (en) | 2020-02-12 | 2021-02-05 | Implementation method and system of real-time subtitle in live broadcast and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089709.9A CN112437337B (zh) | 2020-02-12 | 2020-02-12 | 一种直播实时字幕的实现方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112437337A CN112437337A (zh) | 2021-03-02 |
CN112437337B true CN112437337B (zh) | 2023-07-07 |
Family
ID=74690491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089709.9A Active CN112437337B (zh) | 2020-02-12 | 2020-02-12 | 一种直播实时字幕的实现方法、系统及设备 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11595731B2 (zh) |
CN (1) | CN112437337B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115086691A (zh) * | 2021-03-16 | 2022-09-20 | 北京有竹居网络技术有限公司 | 字幕优化方法、装置、电子设备和存储介质 |
CN113992926B (zh) * | 2021-10-19 | 2023-09-12 | 北京有竹居网络技术有限公司 | 界面显示方法、装置、电子设备和存储介质 |
CN116017011B (zh) * | 2021-10-22 | 2024-04-23 | 成都极米科技股份有限公司 | 一种音视频的字幕同步方法、播放设备及可读存储介质 |
CN114143592B (zh) * | 2021-11-30 | 2023-10-27 | 抖音视界有限公司 | 视频处理方法、视频处理装置和计算机可读存储介质 |
CN116205216A (zh) * | 2021-11-30 | 2023-06-02 | 华为技术有限公司 | 字幕控制方法、电子设备及计算机可读存储介质 |
CN114268829B (zh) * | 2021-12-22 | 2024-01-16 | 中电金信软件有限公司 | 视频处理方法、装置、电子设备及计算机可读存储介质 |
CN117319738B (zh) * | 2023-12-01 | 2024-03-08 | 飞狐信息技术(天津)有限公司 | 一种字幕延迟方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008199117A (ja) * | 2007-02-08 | 2008-08-28 | Sharp Corp | デジタル放送受信機 |
US8149330B2 (en) * | 2008-01-19 | 2012-04-03 | At&T Intellectual Property I, L. P. | Methods, systems, and products for automated correction of closed captioning data |
JP2012105234A (ja) * | 2010-11-15 | 2012-05-31 | Kddi Corp | 字幕生成配信システム、字幕生成配信方法およびプログラム |
US20170060531A1 (en) * | 2015-08-27 | 2017-03-02 | Fred E. Abbo | Devices and related methods for simplified proofreading of text entries from voice-to-text dictation |
CN107480146A (zh) * | 2017-08-07 | 2017-12-15 | 中译语通科技(青岛)有限公司 | 一种识别语种语音的会议纪要快速翻译方法 |
CN108063970A (zh) * | 2017-11-22 | 2018-05-22 | 北京奇艺世纪科技有限公司 | 一种处理直播流的方法和装置 |
US11109111B2 (en) * | 2017-12-20 | 2021-08-31 | Flickray, Inc. | Event-driven streaming media interactivity |
CN110111768A (zh) * | 2019-04-25 | 2019-08-09 | 数译(成都)信息技术有限公司 | 音频同传方法、系统及计算机设备、计算机可读存储介质 |
CN110401671A (zh) * | 2019-08-06 | 2019-11-01 | 董玉霞 | 一种同传翻译系统及同传翻译终端 |
US11848000B2 (en) * | 2019-09-06 | 2023-12-19 | Microsoft Technology Licensing, Llc | Transcription revision interface for speech recognition system |
-
2020
- 2020-02-12 CN CN202010089709.9A patent/CN112437337B/zh active Active
-
2021
- 2021-02-05 US US17/168,506 patent/US11595731B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106340294A (zh) * | 2016-09-29 | 2017-01-18 | 安徽声讯信息技术有限公司 | 基于同步翻译的新闻直播字幕在线制作系统 |
Also Published As
Publication number | Publication date |
---|---|
US11595731B2 (en) | 2023-02-28 |
US20210250660A1 (en) | 2021-08-12 |
CN112437337A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112437337B (zh) | 一种直播实时字幕的实现方法、系统及设备 | |
US20200336796A1 (en) | Video stream processing method and apparatus, computer device, and storage medium | |
WO2018121001A1 (zh) | 数字电视节目同声翻译输出方法、系统及智能终端 | |
US8620139B2 (en) | Utilizing subtitles in multiple languages to facilitate second-language learning | |
US9552807B2 (en) | Method, apparatus and system for regenerating voice intonation in automatically dubbed videos | |
US9959872B2 (en) | Multimodal speech recognition for real-time video audio-based display indicia application | |
EP1891622A1 (en) | A method and a device for performing an automatic dubbing on a multimedia signal | |
US20010025241A1 (en) | Method and system for providing automated captioning for AV signals | |
CN109963092B (zh) | 一种字幕的处理方法、装置及终端 | |
CN114040255A (zh) | 直播字幕生成方法、系统、设备及存储介质 | |
US20190215577A1 (en) | Verbal queries relative to video content | |
TW583881B (en) | Output information control device and output information control method | |
KR102160117B1 (ko) | 장애인을 위한 실시간 방송 컨텐츠 제작 시스템 | |
CN113630620A (zh) | 多媒体文件播放系统、相关方法、装置及设备 | |
CN116233411A (zh) | 音视频同步测试的方法、装置、设备及计算机存储介质 | |
FR2571196A1 (fr) | Procede de television pour programmes multilingues | |
CN114079797A (zh) | 直播字幕生成方法及装置和服务端、直播客户端及直播系统 | |
US11342002B1 (en) | Caption timestamp predictor | |
CN114582348A (zh) | 语音播放系统、方法、装置及设备 | |
CN111556372A (zh) | 为视音频节目实时添加字幕的方法和装置 | |
Mocanu et al. | Automatic subtitle synchronization and positioning system dedicated to deaf and hearing impaired people | |
CN113840152A (zh) | 直播关键点处理方法和装置 | |
CN115484477A (zh) | 字幕生成方法及装置 | |
FR3137520A1 (fr) | Procédé de génération dynamique d’une transcription textuelle d’un flux audio diffusé en continu. | |
KR20170052084A (ko) | 외국어 말하기 학습 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |