CN113099292A - 一种基于视频的多语种字幕生成方法及装置 - Google Patents

一种基于视频的多语种字幕生成方法及装置 Download PDF

Info

Publication number
CN113099292A
CN113099292A CN202110429463.XA CN202110429463A CN113099292A CN 113099292 A CN113099292 A CN 113099292A CN 202110429463 A CN202110429463 A CN 202110429463A CN 113099292 A CN113099292 A CN 113099292A
Authority
CN
China
Prior art keywords
file
subtitle
video
video file
corresponding relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110429463.XA
Other languages
English (en)
Inventor
肖中渠
周红丽
李东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Original Assignee
Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Happly Sunshine Interactive Entertainment Media Co Ltd filed Critical Hunan Happly Sunshine Interactive Entertainment Media Co Ltd
Priority to CN202110429463.XA priority Critical patent/CN113099292A/zh
Publication of CN113099292A publication Critical patent/CN113099292A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47205End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for manipulating displayed content, e.g. interacting with MPEG-4 objects, editing locally
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于视频的多语种字幕生成方法及装置,对待处理视频文件进行转码,得到音频文件。对音频文件进行解析,得到第一对应关系,第一对应关系包括话语与时间戳的对应关系。对话语进行语义识别,得到第二对应关系,第二对应关系包括话语和文本信息的对应关系。基于第一对应关系和第二对应关系,生成字幕文件。对字幕文件进行翻译,得到与预设语种对应的字幕文件,对外发布与预设语种对应的字幕文件。相较于现有技术,本申请所述方案无需用户使用任何专业软件进行字幕制作,便能够按照用户需求,生成与预设语种对应的字幕文件,有效减少多语种字幕制作过程所耗费的时间,显著提高多语种字幕制作过程的效率。

Description

一种基于视频的多语种字幕生成方法及装置
技术领域
本申请涉及多媒体技术领域,尤其涉及一种基于视频的多语种字幕生成方法及装置。
背景技术
在视频网站中,国际化是重要的一个业务版图。随着视频网站国际化的推进,字幕需要支持多语种,以满足不同地区用户的需求。用户可以选择切换不同的字幕。在现实情况下,视频网站支持多语种字幕,满足不同地区用户需求,增加平台粘性。但在技术实现上,通常需要专业人员制作字幕文件,然后上传一种或多种语言字幕到视频网站中,以便用户随时观看,此过程耗时较长,对人员专业素质要求高,且工作繁琐、量大,很难在短时间内将字幕文件推送给视频的阅览者。
在目前主流视频网站中,主要通过人人译视界等字幕工具制作字幕,然而,针对多语种字幕的制作过程,现有技术所示的字幕制作过程效率较低,难以满足视频上线的时效性。
发明内容
本申请提供了一种基于视频的多语种字幕生成方法及装置,目的在于提高多语种字幕制作过程的效率。
为了实现上述目的,本申请提供了以下技术方案:
一种基于视频的多语种字幕生成方法,包括:
对待处理视频文件进行转码,得到音频文件;
对所述音频文件进行解析,得到第一对应关系;所述第一对应关系包括话语与时间戳的对应关系;
对所述话语进行语义识别,得到第二对应关系;所述第二对应关系包括所述话语和文本信息的对应关系;
基于所述第一对应关系和所述第二对应关系,生成字幕文件;
对所述字幕文件进行翻译,得到与预设语种对应的字幕文件;
对外发布所述与预设语种对应的字幕文件。
可选的,所述基于所述第一对应关系和所述第二对应关系,生成字幕文件之后,还包括:
将所述字幕文件加载至所述待处理视频文件中,得到第一视频文件,并向所述用户展示所述第一视频文件。
可选的,还包括:
在接收到所述用户基于所述第一视频文件发送的第二操作指令的情况下,对所述字幕文件进行修正;
所述对所述字幕文件进行翻译,得到与预设语种对应的字幕文件,包括:
使用预设的字幕翻译工具,对修正后的所述字幕文件进行翻译,得到与预设语种对应的字幕文件。
可选的,所述对所述字幕文件进行翻译,得到与预设语种对应的字幕文件之后,还包括:
将所述与预设语种对应的字幕文件加载至所述待处理视频文件中,得到第二视频文件,并向所述用户展示所述第二视频文件。
可选的,还包括:
在接收到所述用户基于所述第二视频文件发送的第三操作指令的情况下,对所述与预设语种对应的字幕文件进行修正,得到目标字幕文件;
所述对外发布所述与预设语种对应的字幕文件,包括:
对外发布所述目标字幕文件。
可选的,所述对待处理视频文件进行转码,得到音频文件之前,还包括:
在接收到用户发送的第一操作指令的情况下,从数据库中获取所述第一操作指令所指示的视频文件,并将所述视频文件作为待处理视频文件。
一种基于视频的多语种字幕生成装置,包括:
转码单元,用于对待处理视频文件进行转码,得到音频文件;
解析单元,用于对所述音频文件进行解析,得到第一对应关系;所述第一对应关系包括话语与时间戳的对应关系;
识别单元,用于对所述话语进行语义识别,得到第二对应关系;所述第二对应关系包括所述话语和文本信息的对应关系;
生成单元,用于基于所述第一对应关系和所述第二对应关系,生成字幕文件;
翻译单元,用于对所述字幕文件进行翻译,得到与预设语种对应的字幕文件;
发布单元,用于对外发布所述与预设语种对应的字幕文件。
可选的,还包括:
获取单元,用于在接收到用户发送的第一操作指令的情况下,从数据库中获取所述第一操作指令所指示的视频文件,并将所述视频文件作为待处理视频文件。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的基于视频的多语种字幕生成方法。
一种基于视频的多语种字幕生成设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的基于视频的多语种字幕生成方法。
本申请提供的技术方案,对待处理视频文件进行转码,得到音频文件。对音频文件进行解析,得到第一对应关系,第一对应关系包括话语与时间戳的对应关系。对话语进行语义识别,得到第二对应关系,第二对应关系包括话语和文本信息的对应关系。基于第一对应关系和第二对应关系,生成字幕文件。对字幕文件进行翻译,得到与预设语种对应的字幕文件,对外发布与预设语种对应的字幕文件。相较于现有技术,本申请所述方案无需用户使用任何专业软件进行字幕制作,便能够按照用户需求,生成与预设语种对应的字幕文件,有效减少多语种字幕制作过程所耗费的时间,显著提高多语种字幕制作过程的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于视频的多语种字幕生成方法的示意图;
图2为本申请实施例提供的另一种基于视频的多语种字幕生成方法的示意图;
图3为本申请实施例提供的一种基于视频的多语种字幕生成装置的架构示意图;
图4为本申请实施例提供的一种基于视频的多语种字幕生成设备的架构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本申请实施例提供的一种基于视频的多语种字幕生成方法的示意图,包括如下步骤:
S101:在接收到用户发送的第一操作指令的情况下,从数据库中获取第一操作指令所指示的视频文件,并将视频文件作为待处理视频文件。
其中,所谓的数据库包括但不限于为媒资管理后台(Media Asset Management,MAN),用户可以通过互联网浏览器登录媒资管理后台,并从媒资管理后台中查找所需的视频文件。
S102:使用预设的视频转码工具,对待处理视频文件进行转码,得到音频文件。
其中,所谓的转码,即将视频文件从一种格式转换为另一种格式,属于本领域技术人员所熟悉的公知常识。
S103:对音频文件进行解析,得到话语与时间戳的对应关系。
S104:对话语进行语义识别,得到对应的文本信息。
其中,语义识别所识别得到的文本信息的语种,可由技术人员根据实际情况进行设置,例如,可以将语种设置为中文。
S105:基于话语和时间戳的对应关系、以及话语与文本信息的对应关系,生成字幕文件。
S106:将字幕文件加载至待处理视频文件中,得到第一视频文件,并向用户展示第一视频文件。
其中,用户可以通过互联网浏览器查看第一视频文件。
S107:在接收到用户基于第一视频文件发送的第二操作指令的情况下,对字幕文件进行修正。
其中,对字幕文件进行修正的具体实现过程,为本领域技术人员所熟悉的公知常识,包括但不限于:调整文本信息与时间戳的对应关系,以及调整文本信息等。
S108:使用预设的字幕翻译工具,对修正后的字幕文件进行翻译,得到与预设语种对应的字幕文件。
S109:将与预设语种对应的字幕文件加载至待处理视频文件中,得到第二视频文件,并向用户展示第二视频文件。
其中,用户可以通过互联网浏览器查看第二视频文件。
S110:在接收到用户基于第二视频文件发送的第三操作指令的情况下,对与预设语种对应的字幕文件进行修正,得到目标字幕文件。
其中,对与预设语种对应的字幕文件进行修正的具体实现过程,为本领域技术人员所熟悉的公知常识,包括但不限于调整文本信息。
S111:对外发布目标字幕文件。
其中,可以将目标字幕文件上传至内容分发网络(Content Delivery Network,CDN)中,经由CDN将目标字幕文件分发给视频的阅览者。也可以直接将目标字幕文件上传至视频网站中。
在本申请实施例中,用户可以通过互联网浏览器发送第一操作指令、第二操作指令、以及第三操作指令,是基于B/S架构(一种现有的网络架构模式)实现的,既可无需安装任何插件,还能够实现跨平台,从而在MAC平台、Linux平台、以及Windows平台上实现多语种字幕制作的可分布式部署,字幕制作过程安全可控,且还可实现字幕文件的回溯编辑修改。
具体的,基于B/S架构,用户可以通过互联网浏览器在线观看视频文件,并对字幕文件进行编辑修正,待处理完后点击保存按钮将数据提交到服务器处理,该操作实时保存用户数据,用户可以随时切换到其他电脑上登录后进行处理,也可以关闭互联网浏览器后进行其他工作后再处理。
需要说明的是,上述具体实现过程仅仅用于举例说明。
综上所述,相较于现有技术,本实施例所述方案无需用户使用任何专业软件进行字幕制作,便能够按照用户需求,生成与预设语种对应的字幕文件,有效减少多语种字幕制作过程所耗费的时间,显著提高多语种字幕制作过程的效率。
需要说明的是,上述实施例提及的S101,为本申请所述基于视频的多语种字幕生成方法的一种可选的实现方式。此外,上述实施例提及的S110,也为本申请所述基于视频的多语种字幕生成方法的一种可选的实现方式。为此,上述实施例提及的流程,可以概括为图2所示的方法。
如图2所示,为本申请实施例提供的另一种基于视频的多语种字幕生成方法的示意图,包括如下步骤:
S201:对待处理视频文件进行转码,得到音频文件。
S202:对音频文件进行解析,得到第一对应关系。
其中,第一对应关系包括话语与时间戳的对应关系。
S203:对话语进行语义识别,得到第二对应关系。
其中,第二对应关系包括话语和文本信息的对应关系。
S204:基于第一对应关系和第二对应关系,生成字幕文件。
S205:对字幕文件进行翻译,得到与预设语种对应的字幕文件。
S206:对外发布与预设语种对应的字幕文件。
综上所述,相较于现有技术,本实施例所述方案无需用户使用任何专业软件进行字幕制作,便能够按照用户需求,生成与预设语种对应的字幕文件,有效减少多语种字幕制作过程所耗费的时间,显著提高多语种字幕制作过程的效率。
与上述本申请所述基于视频的多语种字幕生成方法相对应,本申请还提供了一种基于视频的多语种字幕生成装置。
如图3所示,为本申请实施例提供的一种基于视频的多语种字幕生成装置的架构示意图,包括:
获取单元100,用于在接收到用户发送的第一操作指令的情况下,从数据库中获取第一操作指令所指示的视频文件,并将视频文件作为待处理视频文件。
转码单元200,用于对待处理视频文件进行转码,得到音频文件。
第一展示单元300,用于将字幕文件加载至待处理视频文件中,得到第一视频文件,并向用户展示第一视频文件。
第一修正单元400,用于在接收到用户基于第一视频文件发送的第二操作指令的情况下,对字幕文件进行修正。
解析单元500,用于对音频文件进行解析,得到第一对应关系。第一对应关系包括话语与时间戳的对应关系。
识别单元600,用于对话语进行语义识别,得到第二对应关系。第二对应关系包括话语和文本信息的对应关系。
生成单元700,用于基于第一对应关系和第二对应关系,生成字幕文件。
翻译单元800,用于对字幕文件进行翻译,得到与预设语种对应的字幕文件。
其中,翻译单元800具体用于:使用预设的字幕翻译工具,对修正后的字幕文件进行翻译,得到与预设语种对应的字幕文件。
第二展示单元900,用于将与预设语种对应的字幕文件加载至待处理视频文件中,得到第二视频文件,并向用户展示第二视频文件。
第二修正单元1000,用于在接收到用户基于第二视频文件发送的第三操作指令的情况下,对与预设语种对应的字幕文件进行修正,得到目标字幕文件。
发布单元1100,用于对外发布与预设语种对应的字幕文件。
其中,发布单元1100具体用于:对外发布目标字幕文件。
综上所述,相较于现有技术,本实施例所述方案无需用户使用任何专业软件进行字幕制作,便能够按照用户需求,生成与预设语种对应的字幕文件,有效减少多语种字幕制作过程所耗费的时间,显著提高多语种字幕制作过程的效率。
本申请还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本申请提供的基于视频的多语种字幕生成方法。
本申请还提供了一种基于视频的多语种字幕生成设备,如图4所示,包括:处理器401、存储器402和总线403。处理器401与存储器402通过总线403连接,存储器402用于存储程序,处理器401用于运行程序,其中,程序运行时执行上述本申请提供的基于视频的多语种字幕生成方法,包括如下步骤:
对待处理视频文件进行转码,得到音频文件;
对所述音频文件进行解析,得到第一对应关系;所述第一对应关系包括话语与时间戳的对应关系;
对所述话语进行语义识别,得到第二对应关系;所述第二对应关系包括所述话语和文本信息的对应关系;
基于所述第一对应关系和所述第二对应关系,生成字幕文件;
对所述字幕文件进行翻译,得到与预设语种对应的字幕文件;
对外发布所述与预设语种对应的字幕文件。
可选的,所述基于所述第一对应关系和所述第二对应关系,生成字幕文件之后,还包括:
将所述字幕文件加载至所述待处理视频文件中,得到第一视频文件,并向所述用户展示所述第一视频文件。
可选的,还包括:
在接收到所述用户基于所述第一视频文件发送的第二操作指令的情况下,对所述字幕文件进行修正;
所述对所述字幕文件进行翻译,得到与预设语种对应的字幕文件,包括:
使用预设的字幕翻译工具,对修正后的所述字幕文件进行翻译,得到与预设语种对应的字幕文件。
可选的,所述对所述字幕文件进行翻译,得到与预设语种对应的字幕文件之后,还包括:
将所述与预设语种对应的字幕文件加载至所述待处理视频文件中,得到第二视频文件,并向所述用户展示所述第二视频文件。
可选的,还包括:
在接收到所述用户基于所述第二视频文件发送的第三操作指令的情况下,对所述与预设语种对应的字幕文件进行修正,得到目标字幕文件;
所述对外发布所述与预设语种对应的字幕文件,包括:
对外发布所述目标字幕文件。
可选的,所述对待处理视频文件进行转码,得到音频文件之前,还包括:
在接收到用户发送的第一操作指令的情况下,从数据库中获取所述第一操作指令所指示的视频文件,并将所述视频文件作为待处理视频文件。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于视频的多语种字幕生成方法,其特征在于,包括:
对待处理视频文件进行转码,得到音频文件;
对所述音频文件进行解析,得到第一对应关系;所述第一对应关系包括话语与时间戳的对应关系;
对所述话语进行语义识别,得到第二对应关系;所述第二对应关系包括所述话语和文本信息的对应关系;
基于所述第一对应关系和所述第二对应关系,生成字幕文件;
对所述字幕文件进行翻译,得到与预设语种对应的字幕文件;
对外发布所述与预设语种对应的字幕文件。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一对应关系和所述第二对应关系,生成字幕文件之后,还包括:
将所述字幕文件加载至所述待处理视频文件中,得到第一视频文件,并向所述用户展示所述第一视频文件。
3.根据权利要求2所述的方法,其特征在于,还包括:
在接收到所述用户基于所述第一视频文件发送的第二操作指令的情况下,对所述字幕文件进行修正;
所述对所述字幕文件进行翻译,得到与预设语种对应的字幕文件,包括:
使用预设的字幕翻译工具,对修正后的所述字幕文件进行翻译,得到与预设语种对应的字幕文件。
4.根据权利要求1所述的方法,其特征在于,所述对所述字幕文件进行翻译,得到与预设语种对应的字幕文件之后,还包括:
将所述与预设语种对应的字幕文件加载至所述待处理视频文件中,得到第二视频文件,并向所述用户展示所述第二视频文件。
5.根据权利要求4所述的方法,其特征在于,还包括:
在接收到所述用户基于所述第二视频文件发送的第三操作指令的情况下,对所述与预设语种对应的字幕文件进行修正,得到目标字幕文件;
所述对外发布所述与预设语种对应的字幕文件,包括:
对外发布所述目标字幕文件。
6.根据权利要求1所述的方法,其特征在于,所述对待处理视频文件进行转码,得到音频文件之前,还包括:
在接收到用户发送的第一操作指令的情况下,从数据库中获取所述第一操作指令所指示的视频文件,并将所述视频文件作为待处理视频文件。
7.一种基于视频的多语种字幕生成装置,其特征在于,包括:
转码单元,用于对待处理视频文件进行转码,得到音频文件;
解析单元,用于对所述音频文件进行解析,得到第一对应关系;所述第一对应关系包括话语与时间戳的对应关系;
识别单元,用于对所述话语进行语义识别,得到第二对应关系;所述第二对应关系包括所述话语和文本信息的对应关系;
生成单元,用于基于所述第一对应关系和所述第二对应关系,生成字幕文件;
翻译单元,用于对所述字幕文件进行翻译,得到与预设语种对应的字幕文件;
发布单元,用于对外发布所述与预设语种对应的字幕文件。
8.根据权利要求7所述的装置,其特征在于,还包括:
获取单元,用于在接收到用户发送的第一操作指令的情况下,从数据库中获取所述第一操作指令所指示的视频文件,并将所述视频文件作为待处理视频文件。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1-6任一所述的基于视频的多语种字幕生成方法。
10.一种基于视频的多语种字幕生成设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-6任一所述的基于视频的多语种字幕生成方法。
CN202110429463.XA 2021-04-21 2021-04-21 一种基于视频的多语种字幕生成方法及装置 Pending CN113099292A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110429463.XA CN113099292A (zh) 2021-04-21 2021-04-21 一种基于视频的多语种字幕生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110429463.XA CN113099292A (zh) 2021-04-21 2021-04-21 一种基于视频的多语种字幕生成方法及装置

Publications (1)

Publication Number Publication Date
CN113099292A true CN113099292A (zh) 2021-07-09

Family

ID=76679812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110429463.XA Pending CN113099292A (zh) 2021-04-21 2021-04-21 一种基于视频的多语种字幕生成方法及装置

Country Status (1)

Country Link
CN (1) CN113099292A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160066055A1 (en) * 2013-03-24 2016-03-03 Igal NIR Method and system for automatically adding subtitles to streaming media content
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及系统
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN108401192A (zh) * 2018-04-25 2018-08-14 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN109379641A (zh) * 2018-11-14 2019-02-22 腾讯科技(深圳)有限公司 一种字幕生成方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160066055A1 (en) * 2013-03-24 2016-03-03 Igal NIR Method and system for automatically adding subtitles to streaming media content
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及系统
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN108401192A (zh) * 2018-04-25 2018-08-14 腾讯科技(深圳)有限公司 视频流处理方法、装置、计算机设备及存储介质
CN109379641A (zh) * 2018-11-14 2019-02-22 腾讯科技(深圳)有限公司 一种字幕生成方法和装置

Similar Documents

Publication Publication Date Title
US20010029442A1 (en) Translation system, translation processing method and computer readable recording medium
US11392791B2 (en) Generating training data for natural language processing
CN106547511B (zh) 一种语音播读网页信息的方法、浏览器客户端及服务器
KR101916874B1 (ko) 자동으로 동영상 하이라이트 영상의 제목을 생성하는 방법, 장치 및 컴퓨터 판독가능 기록 매체
CN102402432A (zh) 用于产生多国语言网页的方法
US20100204977A1 (en) Real-time translation system that automatically distinguishes multiple languages and the method thereof
CN109963092B (zh) 一种字幕的处理方法、装置及终端
CN107656933B (zh) 一种语音播报方法及装置
US9547645B2 (en) Machine translation apparatus, translation method, and translation system
CN116468009A (zh) 文章生成方法、装置、电子设备和存储介质
JPH08329105A (ja) 文書処理方法及びその装置
CN110866408A (zh) 数据库制作装置以及检索系统
CN113099292A (zh) 一种基于视频的多语种字幕生成方法及装置
CN106856450B (zh) 基于社交网络的社交信息生成方法和装置
CN110111793B (zh) 音频信息的处理方法、装置、存储介质及电子装置
CN116089601A (zh) 对话摘要生成方法、装置、设备及介质
CN114298060A (zh) 一种字幕翻译质量检测方法、装置、设备及介质
CN114925656A (zh) 富文本显示方法、装置、设备和存储介质
CN112988300A (zh) 页面中文本的显示方法及装置、存储介质、电子设备
CN111859148A (zh) 主题的提取方法、装置、设备及计算机可读存储介质
CN106533799A (zh) 基于多平台的客户端的更新方法及系统
CN113596494A (zh) 信息处理方法、装置、电子设备、存储介质及程序产品
CN108595470B (zh) 音频段落收藏方法、装置、系统及计算机设备
JP2008090523A (ja) コンテンツ作成装置及びコンテンツ作成方法
CN116320622B (zh) 一种广播电视新闻视频转图文稿制作系统和制作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210709