CN111787267A - 会议视频字幕合成系统和方法 - Google Patents

会议视频字幕合成系统和方法 Download PDF

Info

Publication number
CN111787267A
CN111787267A CN202010621997.8A CN202010621997A CN111787267A CN 111787267 A CN111787267 A CN 111787267A CN 202010621997 A CN202010621997 A CN 202010621997A CN 111787267 A CN111787267 A CN 111787267A
Authority
CN
China
Prior art keywords
video
recording
time
screen
subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010621997.8A
Other languages
English (en)
Inventor
田渭霞
张军
肖康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ketianshichang Information Technology Co ltd
Original Assignee
Guangzhou Ketianshichang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ketianshichang Information Technology Co ltd filed Critical Guangzhou Ketianshichang Information Technology Co ltd
Priority to CN202010621997.8A priority Critical patent/CN111787267A/zh
Publication of CN111787267A publication Critical patent/CN111787267A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/265Mixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例公开了一种会议视频字幕合成系统和方法。此系统包括目标视频录制模块,字幕翻译控制模块,字幕生成模块和字幕合成模块;目标视频录制模块用于录制目标视频,记录目标视频的时间同步信息;字幕翻译控制模块用于开启字幕翻译功能和关闭字幕翻译功能;字幕生成模块用于确定字幕翻译功能开启,对目标视频进行语音识别,生成字幕数据,记录字幕数据的时间信息;字幕合成模块用于根据时间信息和时间同步信息,融合目标视频和字幕数据,形成共享字幕视频,避免用户因语言不通等问题,造成对会议内容的误解。

Description

会议视频字幕合成系统和方法
技术领域
本发明涉及移动通信技术领域,具体涉及一种会议视频字幕合成系统和方法。
背景技术
随着科技的进步和人们生活方式的改变,利用网络而不聚集在同一地点举行会议已经成为人们的工作和生活需求,因此各个网络会议系统应运而生,网络会议系统是个以网络为媒介的多媒体会议平台,使用者可突破时间地域的限制通过互联网共享文档、演示及协作,实现面对面般的交流效果,使人们在工作或生活中可以更加方便快捷的育人交流和合作,在对现有技术的研究和实践过程中,本发明的发明人发现,现有的网络会议提供商无法对网络会议视频添加字幕,容易导致用户因语言不通等问题,造成对会议内容的误解。
发明内容
本发明实施例提供一种会议视频字幕合成系统和方法,利用此系统可以生成网络会议过程中任意时段的字幕数据,并将此字幕数据对应添加至录制的目标视频中,避免用户因语言不通等问题,造成对会议内容的误解。
本发明实施例提供一种会议视频字幕合成系统,包括:
目标视频录制模块,字幕翻译控制模块,字幕生成模块和字幕合成模块;
所述目标视频录制模块用于录制目标视频,记录所述目标视频的时间同步信息;
所述字幕翻译控制模块用于开启字幕翻译功能和关闭字幕翻译功能;
所述字幕生成模块用于确定所述字幕翻译功能开启,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息;
所述字幕合成模块用于根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
可选的,在本发明的一些实施例中,所述目标录制模块,包括:
屏幕共享视频录制模块,用于录制屏幕共享视频,记录所述屏幕共享视频的第一时间同步信息;
无屏幕共享视频录制模块,用于录制无屏幕共享视频,记录所述无屏幕共享视频的第二时间同步信息。
可选的,在本发明的一些实施例中,包括:
分辨率调整模块,用于将所述屏幕共享视频的分辨率和所述无屏幕共享视频的分辨率调整为一致;
视频拼接模块,用于根据所述屏幕共享视频和所述无屏幕共享视频录制时间的先后次序,拼接所述屏幕共享视频和所述无屏幕共享视频,形成共享视频。
可选的,在本发明的一些实施例中,包括:
会议视频录制模块,用于录制包括会议现场环境的会议视频;
视频融合模块,用于根据所述第一时间同步信息和所述第二时间同步信息,将所述会议视频融合至所述共享视频的右上角,形成全视角共享视频。
可选的,在本发明的一些实施例中,包括:
会议视频录制模块,用于录制包括会议现场环境的会议视频;
视频融合模块,用于根据所述时间同步信息,将所述会议视频融合至所述共享字幕视频的右上角,形成全视角共享字幕视频。
可选的,在本发明的一些实施例中,所述时间同步信息包括开始录制时间、结束录制时间、视频包含的数据帧的开始时间和结束时间,所述时间信息包括开始翻译时间和结束翻译时间。
可选的,在本发明的一些实施例中,所述字幕数据包括第一字幕数据和至少一第二字幕数据,所述第一字幕数据的语言类型与所述目标视频的语言类型一致,所述第二字幕数据与所述第一字幕数据的语言类型不同。
相应的,本发明实施例还提供一种会议视频字幕合成方法,包括:
录制目标视频,记录所述目标视频的时间同步信息;
开启字幕翻译功能,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息;
根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
可选的,在本发明的一些实施例中,所述录制目标视频,记录所述目标视频的时间同步信息,包括:
录制屏幕共享视频,记录所述屏幕共享视频的第一时间同步信息;
录制无屏幕共享视频,记录所述无屏幕共享视频的第二时间同步信息;
将所述屏幕共享视频和所述无屏幕共享视频的分辨率调整为一致;
根据所述屏幕共享视频和所述无屏幕共享视频录制时间的先后次序,拼接所述屏幕共享视频和所述无屏幕共享视频,形成共享视频。
可选的,在本发明的一些实施例中,所述根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,包括:
根据所述时间同步信息,获取所述目标视频包括的数据帧的开始时间和结束时间;
根据所述时间信息,获取所述字幕数据的开始翻译时间和结束翻译时间;
对应所述开始翻译时间和所述开始时间,对应所述结束翻译时间与所述结束时间,结合相应的所述字幕数据和所述数据帧。
本发明实施例提供了一种会议视频字幕合成系统,此系统包括目标视频录制模块,字幕翻译控制模块,字幕生成模块和字幕合成模块,利用目标视频录制模块录制目标视频,记录目标视频的时间同步信息,根据实际需求选择性的利用字幕翻译控制模块开启字幕翻译功能,然后利用字幕生成模块对目标视频进行语音识别,生成字幕数据,并记录字幕数据的时间信息,利用字幕合成模块根据目标视频的时间同步信息,获取目标视频包括的数据帧的开始时间和结束时间,再根据字幕数据的时间信息,获取字幕数据的开始翻译时间和结束翻译时间,对应开始翻译时间和开始时间,对应结束翻译时间与结束时间,结合相应的字幕数据和数据帧,形成共享字幕视频,分享给需要的用户,从而避免用户因语言不通等问题,造成对会议内容的误解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的会议视频字幕合成的场景示意图;
图2是本发明实施例提供的会议视频字幕合成系统的结构示意图;
图3是本发明实施例提供的会议视频字幕合成系统的另一结构示意图;
图4是本发明实施例提供的会议视频字幕合成方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种会议视频字幕合成系统。其中该装置可以集成在终端中,该终端可以是手机、平板电脑、笔记本电脑、智能手表等设备。
例如,如图1所示,用户利用终端加入网络会议,会议开始,当会议条件完善之后,开启摄像头,开始录制包括会议现场环境的会议视频,在视频录制的过程中,会议中用户会进行屏幕共享,用户开始屏幕共享时,录制用户进行屏幕共享的视频,记录屏幕共享视频录制过程中的第一时间同步信息,包括屏幕共享视频的开始录制时间,结束录制时间和屏幕共享视频的每一个数据帧的开始时间和结束时间,在任一个用户结束屏幕共享时,也结束此用户对应的屏幕共享视频的录制,当下一个用户进行屏幕共享时,再开始录制此用户对应的屏幕共享视频,并记录此屏幕共享视频的第一时间同步信息,当用户在会议过程中,出现重要并且具有分享意义的发言内容时,用户可以开启字幕翻译功能,系统会语音识别此过程中用户的发言,产生对应的字幕数据,并记录字幕数据的开始翻译时间和结束翻译时间,当用户结束重要并且具有分享意义的发言内容时,关闭字幕翻译功能,同时此字幕数据完成,当用户再次出现重要并且具有分享意义的发言内容时,可以再次开启字幕翻译功能,同时产生对应的字幕数据,直到字幕翻译功能关闭,此字幕数据完成,直至会议视频录制结束,系统会产生一条会议视频,至少一条屏幕共享视频,至少一条无屏幕共享视频以及至少一个字幕数据,技术人员将至少一屏幕共享视频和至少一无屏幕共享视频调整至同一分辨率,按照录制开始时间和结束时间的先后次序,拼接成一条完整的共享视频,然后基于共享视频的每个数据帧的开始时间和结束时间,对应每个字幕数据的开始翻译时间和结束翻译时间,将所有字幕数据融合至拼接形成的共享视频中,在共享视频中没有对应字幕的片段,则添加相同的自定义字幕,例如,无屏幕共享等字幕,形成共享字幕视频。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从会议视频字幕合成系统的角度进行描述,该会议视频字幕合成系统具体可以集成在终端设备中,该终端设备可以包括笔记本电脑、平板电脑、智能手机以及智能手表等。
例如,如图2所示,该会议视频字幕合成系统包括目标视频录制模块201,字幕翻译控制模块202,字幕生成模块203和字幕合成模块204,所述目标视频录制模块201用于录制目标视频,记录所述目标视频的时间同步信息;所述字幕翻译控制模块202用于开启字幕翻译功能和关闭字幕翻译功能;所述字幕生成模块203用于确定所述字幕翻译功能开启,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息;所述字幕合成模块204用于根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
(1)目标视频录制模块201
目标视频录制模块201用于录制目标视频,记录所述目标视频的时间同步信息,目标视频包括屏幕共享视频和无屏幕共享视频。
例如,在会议视频录制的过程中,用户A打开系统中的屏幕共享功能,向加入会议中的其他用户共同展示自己的终端屏幕,此时系统会利用目标视频录制模块201录制用户A的屏幕共享视频,即会录制用户A在系统中展示的终端屏幕的具体内容,直至用户A完成向其他用户展示的内容,关闭屏幕共享功能,则用户A对应的屏幕共享视频录制结束,在录制该屏幕共享视频的过程中,目标视频录制模块201会记录此屏幕共享视频的第一时间同步信息,当用户A没有打开屏幕共享功能之前和用户A关闭屏幕共享功能之后,目标视频录制模块201会录制没有进行屏幕共享时系统的默认状态视频,称为无屏幕共享视频,并记录无屏幕共享视频的第二时间同步信息。
其中,屏幕共享视频的第一时间同步信息包括屏幕共享视频的开始录制时间、结束录制时间和屏幕共享视频包含的每一个数据帧的开始时间和结束时间,无屏幕共享视频的第二时间同步信息包括无屏幕共享视频的开始录制时间、结束录制时间和无屏幕共享视频包含的每一个数据帧的开始时间和结束时间。
(2)字幕翻译控制模块202
字幕翻译控制模块202用于开启字幕翻译功能和关闭字幕翻译功能。
例如,在会议视频录制的过程中,当发言人P说翻译内容时,发言人P可以利用字幕翻译控制模块202打开系统中的字幕翻译功能,进行语音识别。
其中,翻译内容为在会议中发言人说出的重要并且具有分享意义的发言内容。字幕数据的时间信息包括字幕数据的开始翻译时间和结束翻译时间。
(3)字幕生成模块203
字幕生成模块203用于确定所述字幕翻译功能开启,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息。
在会议视频录制的过程中,当发言人P说翻译内容时,发言人P可以利用字幕翻译控制模块202打开系统中的字幕翻译功能,在发言人P说出翻译内容的同时,字幕生成模块203语音识别发言人P此时说出的翻译内容,生成文字数据,直至发言人P说完翻译内容,利用字幕翻译控制模块202关闭系统中的字幕翻译功能,同时字幕生成模块203结束对发言人P的语音识别,文字数据生成结束,最终形成发言人P对应的字幕数据,称为第一字幕数据,然后根据第一字幕数据生成对应的至少一个第二字幕数据,第二字幕数据的语言类型和第一字幕数据的语言类型不同,在发言人P对应的字幕数据生成的过程中,字幕生成模块203记录发言人P对应的字幕数据的时间信息,在会议持续进行时,发言人P结束发言之后,发言人Q开始进行发言,当发言人Q说翻译内容时,发言人Q再次利用字幕翻译控制模块202打开系统中的字幕翻译功能,在发言人Q说出翻译内容的同时,字幕生成模块203再一次语音识别发言人Q说出的翻译内容,生成对应的文字数据,直至发言人Q结束翻译内容,字幕翻译控制模块202关闭系统中的字幕翻译功能,同时字幕生成模块203结束对发言人Q的语音识别,对应的文字数据也结束生成,从而形成发言人Q对应的字幕数据,在发言人Q对应的字幕数据生成的过程中,字幕生成模块203记录发言人Q对应的字幕数据的时间信息,同理,在其他的发言人说出翻译内容时,字幕生成模块203也会生成对应的字幕数据。
其中,第二字幕数据的语言类型包括汉语、英语、日语、法语、韩语等,第一字幕数据的语言类型是第二字幕数据的语言类型中的任意一种。
(4)字幕合成模块204
字幕合成模块204用于根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
例如,根据所述时间同步信息,获取所述目标视频包括的数据帧的开始时间和结束时间;根据所述时间信息,获取所述字幕数据的开始翻译时间和结束翻译时间;对应所述开始翻译时间和所述开始时间,对应所述结束翻译时间与所述结束时间,结合相应的所述字幕数据和所述数据帧,形成共享字幕视频。
根据以上会议视频字幕合成系统,以下将作进一步说明,如图3所述,图3为会议视频字幕合成系统的另一结构示意图。
(1)会议视频录制模块301
会议视频录制模块301用于录制会议视频,记录所述会议视频的时间同步信息。
例如,用户利用终端加入网络会议,会议开始,当会议设备、人员、资料等必备条件完善之后,开启系统提供的摄像头,会议视频录制模块301开始录制会议视频,会议视频以会议过程中的环境和用户为视角,拍摄各个用户利用终端进入该网络会议的状态以及呈现在摄像头里的环境,同时记录会议视频录制过程中的时间同步信息,直至关闭摄像头,结束会议视频录制。
其中,会议视频的时间同步信息包括会议视频的开始录制时间,结束录制时间和会议视频包含的每一个数据帧的开始时间和结束时间。
(2)屏幕共享视频录制模块302
屏幕共享视频录制模块302用于录制屏幕共享视频,记录所述屏幕共享视频的第一时间同步信息。
例如,在会议视频录制的过程中,用户打开系统中的屏幕共享功能,此时系统会利用屏幕共享视频录制模块302录制用户的屏幕共享视频,关闭屏幕共享功能,则用户对应的屏幕共享视频录制结束,在录制该屏幕共享视频的过程中,目标视频录制模块302会记录此屏幕共享视频的第一时间同步信息,
(3)无屏幕共享视频录制模块303
无屏幕共享视频录制模块303用于录制无屏幕共享视频,记录所述无屏幕共享视频的第二时间同步信息。
例如,在会议视频录制的过程中,当用户没有打开屏幕共享功能之前和关闭屏幕共享功能之后,无屏幕共享视频录制模块303会录制没有进行屏幕共享时系统的默认状态视频,称为无屏幕共享视频,并记录无屏幕共享视频的第二时间同步信息。
(4)字幕翻译控制模块304
字幕翻译控制模块304用于开启字幕翻译功能和关闭字幕翻译功能。
例如,在会议视频录制的过程中,当发言人P说翻译内容时,发言人P可以利用字幕翻译控制模块304打开系统中的字幕翻译功能,进行语音识别,直至发言人P说完翻译内容,利用字幕翻译控制模块304关闭系统中的字幕翻译功能。
其中,翻译内容为在会议中发言人说出的重要并且具有分享意义的发言内容。字幕数据的时间信息包括字幕数据的开始翻译时间和结束翻译时间。
(5)字幕生成模块305
字幕生成模块305用于确定所述字幕翻译功能开启,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息。
在会议视频录制的过程中,当发言人P说翻译内容时,发言人P可以利用字幕翻译控制模块304打开系统中的字幕翻译功能,在发言人P说出翻译内容的同时,字幕生成模块305语音识别发言人P此时说出的翻译内容,生成文字数据,直至发言人P说完翻译内容,利用字幕翻译控制模块304关闭系统中的字幕翻译功能,同时字幕生成模块305结束对发言人P的语音识别,文字数据生成结束,最终形成发言人P对应的字幕数据,称为第一字幕数据,然后根据第一字幕数据生成对应的至少一个第二字幕数据,第二字幕数据的语言类型和第一字幕数据的语言类型不同,同理,在其他的发言人说出翻译内容时,字幕生成模块305也会生成对应的字幕数据。
其中,第二字幕数据的语言类型包括汉语、英语、日语、法语、韩语等,第一字幕数据的语言类型是第二字幕数据的语言类型中的任意一种。
(6)分辨率调整模块306
分辨率调整模块306用于将所述屏幕共享视频的分辨率和所述无屏幕共享视频的分辨率调整为一致。
(7)视频拼接模块307
视频拼接模块307用于根据所述时间同步信息拼接所述屏幕共享视频和所述无屏幕共享视频,形成共享视频。
例如,在会议结束之后,技术人员将用户对应的屏幕共享视频和无屏幕共享视频利用分辨率调整模块306调整为同一分辨率,然后视频拼接模块307按照各个视频的录制时间的先后次序,将屏幕共享视频和无屏幕共享视频拼接成一条连贯的共享视频。
(8)字幕合成模块308
字幕合成模块308用于根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
例如,字幕合成模块308基于屏幕共享视频和无屏幕共享视频的时间同步信息以及字幕数据的时间信息,即字幕合成模块308获取共享视频包含的至少一数据帧的开始时间和结束时间,将字幕数据的开始翻译时间和数据帧的开始时间对应,结束翻译时间和数据帧的结束时间对应,从而将每一个字幕数据融合至共享视频对应的时间段内中,并在共享视频中没有对应字幕的片段添加自定义字幕和背景,例如,无字幕,形成共享字幕视频,自定义字幕和背景可以根据实际需要灵活设置。
(9)视频融合模块309
视频融合模块309用于根据所述时间同步信息,将所述会议视频融合至所述共享字幕视频的右上角,形成所述全视角共享字幕视频;
或用于根据所述第一时间同步信息和所述第二时间同步信息,将所述会议视频融合至所述共享视频的右上角,形成全视角共享视频。
例如,视频融合模块309将会议视频融合至字幕共享视频的右上角区域,形成全视角共享字幕视频,从而分享给需要的用户。
可选的,视频融合模块309将会议视频融合至共享视频的右上角区域,形成全视角共享视频,再字幕合成模块308将字幕数据融合至全视角共享视频的右上角区域,形成全视角共享字幕视频。
本发明实施例将从会议视频字幕合成方法的角度进行描述,一种会议视频字幕合成方法,包括:录制目标视频,记录所述目标视频的时间同步信息;开启字幕翻译功能,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息;根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
如图4所示,会议视频字幕合成方法的具体流程如下:
步骤401、录制目标视频,记录所述目标视频的时间同步信息。
例如,用户利用终端加入网络会议,会议开始,当会议设备、人员、资料等必备条件完善之后,开启系统提供的摄像头,开始录制会议视频,会议视频以会议过程中的环境和用户为视角,拍摄各个用户利用终端进入该网络会议的状态以及呈现在摄像头里的环境,同时记录会议视频录制过程中的时间同步信息,并且录制目标视频,目标视频包括屏幕共享视频和无屏幕共享视频,直至关闭摄像头,结束会议视频录制。
其中,时间同步信息包括会议视频的开始录制时间,结束录制时间和会议视频包含的每一个数据帧的开始时间和结束时间。
可选的,在会议视频录制的过程中,用户A打开系统中的屏幕共享功能,向加入会议中的其他用户共同展示自己的终端屏幕,此时系统会录制用户A的屏幕共享视频,即会录制用户A在系统中展示的终端屏幕的具体内容,直至用户A完成向其他用户展示的内容,关闭屏幕共享功能,则用户A对应的屏幕共享视频录制结束,在录制该屏幕共享视频的过程中,记录此屏幕共享视频的第一时间同步信息,用户A结束屏幕共享视频之后,用户B开始屏幕共享,用户B打开系统中的屏幕共享功能,向加入会议中的其他用户共同展示自己的终端屏幕,此时系统会录制用户B的屏幕共享视频,即会录制用户B在系统中展示的终端屏幕的具体内容,直至用户B完成向其他用户展示的内容,关闭屏幕共享功能,则用户B对应的屏幕共享视频录制结束,之后,用户C打开屏幕共享功能后,系统也会对应录制用户C对应的屏幕共享视频,当各个用户没有进行屏幕共享的间隙,系统会录制没有进行屏幕共享时系统的默认状态视频,称为无屏幕共享视频,并记录无屏幕共享视频的第二时间同步信息。
其中,屏幕共享视频的第一时间同步信息包括屏幕共享视频的开始录制时间,结束录制时间和屏幕共享视频包含的每一个数据帧的开始时间和结束时间,无屏幕共享视频的第二时间同步信息包括无屏幕共享视频的开始录制时间,结束录制时间和无屏幕共享视频包含的每一个数据帧的开始时间和结束时间。
步骤402、开启字幕翻译功能,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息。
例如,在会议视频录制的过程中,当发言人P说翻译内容时,发言人P可以打开系统中的字幕翻译功能,在发言人P说出翻译内容的同时,系统会语音识别发言人P此时说出的翻译内容,生成文字数据,直至发言人P说完翻译内容,关闭系统中的字幕翻译功能,同时结束对发言人P的语音识别,文字数据生成结束,最终形成发言人P对应的字幕数据,称为第一字幕数据,然后根据第一字幕数据生成对应的至少一个第二字幕数据,第二字幕数据的语言类型和第一字幕数据的语言类型不同,在发言人P对应的字幕数据生成的过程中,记录发言人P对应的字幕数据的时间信息,在会议持续进行时,发言人P结束发言之后,发言人Q开始进行发言,当发言人Q说翻译内容时,发言人Q再次打开系统中的字幕翻译功能,在发言人Q说出翻译内容的同时,系统再一次语音识别发言人Q说出的翻译内容,生成对应的文字数据,直至发言人Q结束翻译内容,关闭系统中的字幕翻译功能,同时结束对发言人Q的语音识别,对应的文字数据也结束生成,从而形成发言人Q对应的字幕数据,称为第一字幕数据,然后根据第一字幕数据生成对应的至少一个第二字幕数据,第二字幕数据的语言类型和第一字幕数据的语言类型不同,在发言人Q对应的字幕数据生成的过程中,记录发言人Q对应的字幕数据的时间信息,同理,在其他的发言人说出翻译内容时,也会生成对应的字幕数据。
其中,翻译内容为在会议中发言人说出的重要并且具有分享意义的发言内容。字幕数据的时间信息包括字幕数据的开始翻译时间和结束翻译时间。
其中,第二字幕数据的语言类型包括汉语、英语、日语、法语、韩语等,第一字幕数据的语言类型是第二字幕数据的语言类型中的任意一种。
步骤403、根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
可选的,在会议结束之后,技术人员得到一条完整的会议视频,各个用户对应的至少一条屏幕共享视频,多条无屏幕共享视频以及至少一个发言人对应的字幕数据,技术人员将至少一条屏幕共享视频和多条无屏幕共享视频调整为同一分辨率,再按照各个视频的录制时间的先后次序,将至少一条屏幕共享视频和多条无屏幕共享视频拼接成一条连贯的共享视频,基于屏幕共享视频和无屏幕共享视频的时间同步信息以及字幕数据的时间信息,即获取共享视频包含的至少一数据帧的开始时间和结束时间,将字幕数据的开始翻译时间和数据帧的开始时间对应,结束翻译时间和数据帧的结束时间对应,从而将每一个字幕数据融合至共享视频对应的时间段内中,并在共享视频中没有对应字幕的片段添加自定义字幕,例如,无字幕,形成共享字幕视频,再将会议视频融合至字幕共享视频的右上角区域,形成全视角共享字幕视频,从而分享给需要的用户,自定义字幕可以根据实际需要灵活设置。
可选的,在会议结束之后,技术人员得到一条完整的会议视频,各个用户对应的至少一条屏幕共享视频,多条无屏幕共享视频以及至少一个发言人对应的字幕数据,技术人员将至少一条屏幕共享视频和多条无屏幕共享视频调整为同一分辨率,再按照各个视频的录制时间的先后次序,将至少一条屏幕共享视频和多条无屏幕共享视频拼接成一条连贯的共享视频,再将会议视频融合至共享视频的右上角区域,形成全视角共享视频,基于第一时间同步信息、第二时间同步信息以及字幕数据的时间信息,即获取共享视频包含的至少一数据帧的开始时间和结束时间,将字幕数据的开始翻译时间和数据帧的开始时间对应,结束翻译时间和数据帧的结束时间对应,从而将每一个字幕数据融合至全视角共享视频对应的时间段内中,并在全视角共享视频中没有对应字幕的片段添加自定义字幕,例如,无字幕,形成全视角共享字幕视频,从而分享给需要的用户,自定义字幕可以根据实际需要灵活设置。
可选的,在会议结束之后,技术人员得到一条完整的会议视频,各个用户对应的至少一条屏幕共享视频,多条无屏幕共享视频,至少一个发言人对应的字幕数据,技术人员基于屏幕共享视频和无屏幕共享视频的时间同步信息以及字幕数据的时间信息,即获取共享视频包含的至少一数据帧的开始时间和结束时间,将字幕数据的开始翻译时间和数据帧的开始时间对应,结束翻译时间和数据帧的结束时间对应,从而将字幕数据融合至屏幕共享视频或无屏幕共享视频对应的时间段内中,然后技术人员按照屏幕共享视频和无屏幕共享视频的录制时间的先后次序,将添加了字幕的屏幕共享视频和添加了字幕的无屏幕共享视频拼接成一条连贯的共享视频,再将剩下的字幕数据按照时间信息融合至拼接的共享视频中,并在共享视频中没有对应字幕的片段添加自定义字幕,例如,无字幕,形成共享字幕视频,再将会议视频融合至字幕共享视频的右上角区域,形成全视角共享字幕视频,从而分享给需要的用户,自定义字幕可以根据实际需要灵活设置。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本发明实施例所提供的一种会议视频字幕合成系统和方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想;本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

Claims (10)

1.一种会议视频字幕合成系统,其特征在于,包括:
目标视频录制模块,字幕翻译控制模块,字幕生成模块和字幕合成模块;
所述目标视频录制模块用于录制目标视频,记录所述目标视频的时间同步信息;
所述字幕翻译控制模块用于开启字幕翻译功能和关闭字幕翻译功能;
所述字幕生成模块用于确定所述字幕翻译功能开启,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息;
所述字幕合成模块用于根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
2.根据权利要求1所述的系统,其特征在于,所述目标视频录制模块,包括:
屏幕共享视频录制模块,用于录制屏幕共享视频,记录所述屏幕共享视频的第一时间同步信息;
无屏幕共享视频录制模块,用于录制无屏幕共享视频,记录所述无屏幕共享视频的第二时间同步信息。
3.根据权利要求2所述的系统,其特征在于,包括:
分辨率调整模块,用于将所述屏幕共享视频的分辨率和所述无屏幕共享视频的分辨率调整为一致;
视频拼接模块,用于根据所述屏幕共享视频和所述无屏幕共享视频录制时间的先后次序,拼接所述屏幕共享视频和所述无屏幕共享视频,形成共享视频。
4.根据权利要求3所述的系统,其特征在于,包括:
会议视频录制模块,用于录制包括会议现场环境的会议视频;
视频融合模块,用于根据所述第一时间同步信息和所述第二时间同步信息,将所述会议视频融合至所述共享视频的右上角,形成全视角共享视频。
5.根据权利要求1所述的系统,其特征在于,包括:
会议视频录制模块,用于录制包括会议现场环境的会议视频;
视频融合模块,用于根据所述时间同步信息,将所述会议视频融合至所述共享字幕视频的右上角,形成全视角共享字幕视频。
6.根据权利要求1所述的系统,其特征在于,所述时间同步信息包括开始录制时间、结束录制时间、视频包含的数据帧的开始时间和结束时间,所述时间信息包括开始翻译时间和结束翻译时间。
7.根据权利要求1所述的系统,其特征在于,所述字幕数据包括第一字幕数据和至少一第二字幕数据,所述第一字幕数据的语言类型与所述目标视频的语言类型一致,所述第二字幕数据与所述第一字幕数据的语言类型不同。
8.一种会议视频字幕合成方法,其特征在于,包括:
录制目标视频,记录所述目标视频的时间同步信息;
开启字幕翻译功能,对所述目标视频进行语音识别,生成字幕数据,记录所述字幕数据的时间信息;
根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,形成共享字幕视频。
9.根据权利要求8所述的方法,其特征在于,所述录制目标视频,记录所述目标视频的时间同步信息,包括:
录制屏幕共享视频,记录所述屏幕共享视频的第一时间同步信息;
录制无屏幕共享视频,记录所述无屏幕共享视频的第二时间同步信息;
将所述屏幕共享视频和所述无屏幕共享视频的分辨率调整为一致;
根据所述屏幕共享视频和所述无屏幕共享视频录制时间的先后次序,拼接所述屏幕共享视频和所述无屏幕共享视频,形成共享视频。
10.根据权利要求8所述的方法,其特征在于,所述根据所述时间信息和所述时间同步信息,融合所述目标视频和所述字幕数据,包括:
根据所述时间同步信息,获取所述目标视频包括的数据帧的开始时间和结束时间;
根据所述时间信息,获取所述字幕数据的开始翻译时间和结束翻译时间;
对应所述开始翻译时间和所述开始时间,对应所述结束翻译时间与所述结束时间,结合相应的所述字幕数据和所述数据帧。
CN202010621997.8A 2020-07-01 2020-07-01 会议视频字幕合成系统和方法 Pending CN111787267A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010621997.8A CN111787267A (zh) 2020-07-01 2020-07-01 会议视频字幕合成系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010621997.8A CN111787267A (zh) 2020-07-01 2020-07-01 会议视频字幕合成系统和方法

Publications (1)

Publication Number Publication Date
CN111787267A true CN111787267A (zh) 2020-10-16

Family

ID=72760419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010621997.8A Pending CN111787267A (zh) 2020-07-01 2020-07-01 会议视频字幕合成系统和方法

Country Status (1)

Country Link
CN (1) CN111787267A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112672099A (zh) * 2020-12-31 2021-04-16 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质
CN113010704A (zh) * 2020-11-18 2021-06-22 北京字跳网络技术有限公司 一种会议纪要的交互方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820524A (zh) * 2010-03-22 2010-09-01 中兴通讯股份有限公司 用于电视会议的视频播放方法
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
CN102368816A (zh) * 2011-12-01 2012-03-07 中科芯集成电路股份有限公司 一种视频会议智能前端系统
KR20120073795A (ko) * 2010-12-27 2012-07-05 엘지에릭슨 주식회사 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법
US20130147900A1 (en) * 2011-12-07 2013-06-13 Reginald Weiser Systems and methods for providing video conferencing services via an ethernet adapter
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
US20190166330A1 (en) * 2017-11-27 2019-05-30 Blue Jeans Network, Inc. User interface with a hierarchical presentation of selection options for selecting a sharing mode of a video conference

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101820524A (zh) * 2010-03-22 2010-09-01 中兴通讯股份有限公司 用于电视会议的视频播放方法
CN102209227A (zh) * 2010-03-30 2011-10-05 宝利通公司 在视频会议中增加翻译的方法和系统
KR20120073795A (ko) * 2010-12-27 2012-07-05 엘지에릭슨 주식회사 수화-자막 변환 기능을 이용한 화상회의 시스템 및 방법
CN102368816A (zh) * 2011-12-01 2012-03-07 中科芯集成电路股份有限公司 一种视频会议智能前端系统
US20130147900A1 (en) * 2011-12-07 2013-06-13 Reginald Weiser Systems and methods for providing video conferencing services via an ethernet adapter
US20190166330A1 (en) * 2017-11-27 2019-05-30 Blue Jeans Network, Inc. User interface with a hierarchical presentation of selection options for selecting a sharing mode of a video conference
CN108600773A (zh) * 2018-04-25 2018-09-28 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010704A (zh) * 2020-11-18 2021-06-22 北京字跳网络技术有限公司 一种会议纪要的交互方法、装置、设备及介质
CN112672099A (zh) * 2020-12-31 2021-04-16 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质
CN112672099B (zh) * 2020-12-31 2023-11-17 深圳市潮流网络技术有限公司 字幕数据生成和呈现方法、装置、计算设备、存储介质

Similar Documents

Publication Publication Date Title
US9298704B2 (en) Language translation of visual and audio input
CN108540845B (zh) 弹幕信息显示方法及装置
CN112822542A (zh) 视频合成方法、装置、计算机设备和存储介质
CN111654715B (zh) 直播的视频处理方法、装置、电子设备及存储介质
CN110035326A (zh) 字幕生成、基于字幕的视频检索方法、装置和电子设备
JP2014123818A (ja) 視聴者映像表示制御装置、視聴者映像表示制御方法、および視聴者映像表示制御プログラム
CN105828101A (zh) 生成字幕文件的方法及装置
CN111787267A (zh) 会议视频字幕合成系统和方法
CN113542624A (zh) 生成商品对象讲解视频的方法及装置
KR20190083532A (ko) 학습자가 선택한 동영상을 학습 콘텐츠로 활용하는 외국어 학습시스템 및 이의 학습 콘텐츠 생성방법
JP2018078402A (ja) コンテンツ制作装置、及び音声付コンテンツ制作システム
WO2021057957A1 (zh) 视频通话方法、装置、计算机设备和存储介质
US11792468B1 (en) Sign language interpreter view within a communication session
KR101789221B1 (ko) 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
JP2016091057A (ja) 電子機器
US20140194152A1 (en) Mixed media communication
WO2023241377A1 (zh) 视频数据的处理方法、装置、设备、系统及存储介质
CN113411532B (zh) 记录内容的方法、装置、终端及存储介质
CN112764549B (zh) 翻译方法、装置、介质和近眼显示设备
KR101619150B1 (ko) 스마트 기기를 이용한 외국인의 타국어로 제작된 영화관 상영 디지털 영상 콘텐츠 간편 시청 시스템 및 그 방법
Green et al. The interview box: Notes on a prototype system for video-recording remote interviews
KR101609755B1 (ko) 스마트 기기를 이용한 시각 또는 청각 장애인의 영화관 상영 디지털 영상 콘텐츠 간편 시청 시스템 및 그 방법
CN115086747A (zh) 信息处理方法、装置、电子设备和可读存储介质
White Cinema solidarity: The documentary practice of Kim Longinotto
CN113780013A (zh) 一种翻译方法、设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201016