CN111787267A

CN111787267A - 会议视频字幕合成系统和方法

Info

Publication number: CN111787267A
Application number: CN202010621997.8A
Authority: CN
Inventors: 田渭霞; 张军; 肖康
Original assignee: Guangzhou Ketianshichang Information Technology Co ltd
Current assignee: Guangzhou Ketianshichang Information Technology Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-16

Abstract

本发明实施例公开了一种会议视频字幕合成系统和方法。此系统包括目标视频录制模块，字幕翻译控制模块，字幕生成模块和字幕合成模块；目标视频录制模块用于录制目标视频，记录目标视频的时间同步信息；字幕翻译控制模块用于开启字幕翻译功能和关闭字幕翻译功能；字幕生成模块用于确定字幕翻译功能开启，对目标视频进行语音识别，生成字幕数据，记录字幕数据的时间信息；字幕合成模块用于根据时间信息和时间同步信息，融合目标视频和字幕数据，形成共享字幕视频，避免用户因语言不通等问题，造成对会议内容的误解。

Description

会议视频字幕合成系统和方法

技术领域

本发明涉及移动通信技术领域，具体涉及一种会议视频字幕合成系统和方法。

背景技术

随着科技的进步和人们生活方式的改变，利用网络而不聚集在同一地点举行会议已经成为人们的工作和生活需求，因此各个网络会议系统应运而生，网络会议系统是个以网络为媒介的多媒体会议平台，使用者可突破时间地域的限制通过互联网共享文档、演示及协作，实现面对面般的交流效果，使人们在工作或生活中可以更加方便快捷的育人交流和合作，在对现有技术的研究和实践过程中，本发明的发明人发现，现有的网络会议提供商无法对网络会议视频添加字幕，容易导致用户因语言不通等问题，造成对会议内容的误解。

发明内容

本发明实施例提供一种会议视频字幕合成系统和方法，利用此系统可以生成网络会议过程中任意时段的字幕数据，并将此字幕数据对应添加至录制的目标视频中，避免用户因语言不通等问题，造成对会议内容的误解。

本发明实施例提供一种会议视频字幕合成系统，包括：

目标视频录制模块，字幕翻译控制模块，字幕生成模块和字幕合成模块；

所述目标视频录制模块用于录制目标视频，记录所述目标视频的时间同步信息；

所述字幕翻译控制模块用于开启字幕翻译功能和关闭字幕翻译功能；

所述字幕生成模块用于确定所述字幕翻译功能开启，对所述目标视频进行语音识别，生成字幕数据，记录所述字幕数据的时间信息；

所述字幕合成模块用于根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，形成共享字幕视频。

可选的，在本发明的一些实施例中，所述目标录制模块，包括：

屏幕共享视频录制模块，用于录制屏幕共享视频，记录所述屏幕共享视频的第一时间同步信息；

无屏幕共享视频录制模块，用于录制无屏幕共享视频，记录所述无屏幕共享视频的第二时间同步信息。

可选的，在本发明的一些实施例中，包括：

分辨率调整模块，用于将所述屏幕共享视频的分辨率和所述无屏幕共享视频的分辨率调整为一致；

视频拼接模块，用于根据所述屏幕共享视频和所述无屏幕共享视频录制时间的先后次序，拼接所述屏幕共享视频和所述无屏幕共享视频，形成共享视频。

可选的，在本发明的一些实施例中，包括：

会议视频录制模块，用于录制包括会议现场环境的会议视频；

视频融合模块，用于根据所述第一时间同步信息和所述第二时间同步信息，将所述会议视频融合至所述共享视频的右上角，形成全视角共享视频。

可选的，在本发明的一些实施例中，包括：

视频融合模块，用于根据所述时间同步信息，将所述会议视频融合至所述共享字幕视频的右上角，形成全视角共享字幕视频。

可选的，在本发明的一些实施例中，所述时间同步信息包括开始录制时间、结束录制时间、视频包含的数据帧的开始时间和结束时间，所述时间信息包括开始翻译时间和结束翻译时间。

可选的，在本发明的一些实施例中，所述字幕数据包括第一字幕数据和至少一第二字幕数据，所述第一字幕数据的语言类型与所述目标视频的语言类型一致，所述第二字幕数据与所述第一字幕数据的语言类型不同。

相应的，本发明实施例还提供一种会议视频字幕合成方法，包括：

录制目标视频，记录所述目标视频的时间同步信息；

开启字幕翻译功能，对所述目标视频进行语音识别，生成字幕数据，记录所述字幕数据的时间信息；

根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，形成共享字幕视频。

可选的，在本发明的一些实施例中，所述录制目标视频，记录所述目标视频的时间同步信息，包括：

录制屏幕共享视频，记录所述屏幕共享视频的第一时间同步信息；

录制无屏幕共享视频，记录所述无屏幕共享视频的第二时间同步信息；

将所述屏幕共享视频和所述无屏幕共享视频的分辨率调整为一致；

根据所述屏幕共享视频和所述无屏幕共享视频录制时间的先后次序，拼接所述屏幕共享视频和所述无屏幕共享视频，形成共享视频。

可选的，在本发明的一些实施例中，所述根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，包括：

根据所述时间同步信息，获取所述目标视频包括的数据帧的开始时间和结束时间；

根据所述时间信息，获取所述字幕数据的开始翻译时间和结束翻译时间；

对应所述开始翻译时间和所述开始时间，对应所述结束翻译时间与所述结束时间，结合相应的所述字幕数据和所述数据帧。

本发明实施例提供了一种会议视频字幕合成系统，此系统包括目标视频录制模块，字幕翻译控制模块，字幕生成模块和字幕合成模块，利用目标视频录制模块录制目标视频，记录目标视频的时间同步信息，根据实际需求选择性的利用字幕翻译控制模块开启字幕翻译功能，然后利用字幕生成模块对目标视频进行语音识别，生成字幕数据，并记录字幕数据的时间信息，利用字幕合成模块根据目标视频的时间同步信息，获取目标视频包括的数据帧的开始时间和结束时间，再根据字幕数据的时间信息，获取字幕数据的开始翻译时间和结束翻译时间，对应开始翻译时间和开始时间，对应结束翻译时间与结束时间，结合相应的字幕数据和数据帧，形成共享字幕视频，分享给需要的用户，从而避免用户因语言不通等问题，造成对会议内容的误解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的会议视频字幕合成的场景示意图；

图2是本发明实施例提供的会议视频字幕合成系统的结构示意图；

图3是本发明实施例提供的会议视频字幕合成系统的另一结构示意图；

图4是本发明实施例提供的会议视频字幕合成方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种会议视频字幕合成系统。其中该装置可以集成在终端中，该终端可以是手机、平板电脑、笔记本电脑、智能手表等设备。

例如，如图1所示，用户利用终端加入网络会议，会议开始，当会议条件完善之后，开启摄像头，开始录制包括会议现场环境的会议视频，在视频录制的过程中，会议中用户会进行屏幕共享，用户开始屏幕共享时，录制用户进行屏幕共享的视频，记录屏幕共享视频录制过程中的第一时间同步信息，包括屏幕共享视频的开始录制时间，结束录制时间和屏幕共享视频的每一个数据帧的开始时间和结束时间，在任一个用户结束屏幕共享时，也结束此用户对应的屏幕共享视频的录制，当下一个用户进行屏幕共享时，再开始录制此用户对应的屏幕共享视频，并记录此屏幕共享视频的第一时间同步信息，当用户在会议过程中，出现重要并且具有分享意义的发言内容时，用户可以开启字幕翻译功能，系统会语音识别此过程中用户的发言，产生对应的字幕数据，并记录字幕数据的开始翻译时间和结束翻译时间，当用户结束重要并且具有分享意义的发言内容时，关闭字幕翻译功能，同时此字幕数据完成，当用户再次出现重要并且具有分享意义的发言内容时，可以再次开启字幕翻译功能，同时产生对应的字幕数据，直到字幕翻译功能关闭，此字幕数据完成，直至会议视频录制结束，系统会产生一条会议视频，至少一条屏幕共享视频，至少一条无屏幕共享视频以及至少一个字幕数据，技术人员将至少一屏幕共享视频和至少一无屏幕共享视频调整至同一分辨率，按照录制开始时间和结束时间的先后次序，拼接成一条完整的共享视频，然后基于共享视频的每个数据帧的开始时间和结束时间，对应每个字幕数据的开始翻译时间和结束翻译时间，将所有字幕数据融合至拼接形成的共享视频中，在共享视频中没有对应字幕的片段，则添加相同的自定义字幕，例如，无屏幕共享等字幕，形成共享字幕视频。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从会议视频字幕合成系统的角度进行描述，该会议视频字幕合成系统具体可以集成在终端设备中，该终端设备可以包括笔记本电脑、平板电脑、智能手机以及智能手表等。

例如，如图2所示，该会议视频字幕合成系统包括目标视频录制模块201，字幕翻译控制模块202，字幕生成模块203和字幕合成模块204，所述目标视频录制模块201用于录制目标视频，记录所述目标视频的时间同步信息；所述字幕翻译控制模块202用于开启字幕翻译功能和关闭字幕翻译功能；所述字幕生成模块203用于确定所述字幕翻译功能开启，对所述目标视频进行语音识别，生成字幕数据，记录所述字幕数据的时间信息；所述字幕合成模块204用于根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，形成共享字幕视频。

(1)目标视频录制模块201

目标视频录制模块201用于录制目标视频，记录所述目标视频的时间同步信息，目标视频包括屏幕共享视频和无屏幕共享视频。

例如，在会议视频录制的过程中，用户A打开系统中的屏幕共享功能，向加入会议中的其他用户共同展示自己的终端屏幕，此时系统会利用目标视频录制模块201录制用户A的屏幕共享视频，即会录制用户A在系统中展示的终端屏幕的具体内容，直至用户A完成向其他用户展示的内容，关闭屏幕共享功能，则用户A对应的屏幕共享视频录制结束，在录制该屏幕共享视频的过程中，目标视频录制模块201会记录此屏幕共享视频的第一时间同步信息，当用户A没有打开屏幕共享功能之前和用户A关闭屏幕共享功能之后，目标视频录制模块201会录制没有进行屏幕共享时系统的默认状态视频，称为无屏幕共享视频，并记录无屏幕共享视频的第二时间同步信息。

其中，屏幕共享视频的第一时间同步信息包括屏幕共享视频的开始录制时间、结束录制时间和屏幕共享视频包含的每一个数据帧的开始时间和结束时间，无屏幕共享视频的第二时间同步信息包括无屏幕共享视频的开始录制时间、结束录制时间和无屏幕共享视频包含的每一个数据帧的开始时间和结束时间。

(2)字幕翻译控制模块202

字幕翻译控制模块202用于开启字幕翻译功能和关闭字幕翻译功能。

例如，在会议视频录制的过程中，当发言人P说翻译内容时，发言人P可以利用字幕翻译控制模块202打开系统中的字幕翻译功能，进行语音识别。

其中，翻译内容为在会议中发言人说出的重要并且具有分享意义的发言内容。字幕数据的时间信息包括字幕数据的开始翻译时间和结束翻译时间。

(3)字幕生成模块203

字幕生成模块203用于确定所述字幕翻译功能开启，对所述目标视频进行语音识别，生成字幕数据，记录所述字幕数据的时间信息。

在会议视频录制的过程中，当发言人P说翻译内容时，发言人P可以利用字幕翻译控制模块202打开系统中的字幕翻译功能，在发言人P说出翻译内容的同时，字幕生成模块203语音识别发言人P此时说出的翻译内容，生成文字数据，直至发言人P说完翻译内容，利用字幕翻译控制模块202关闭系统中的字幕翻译功能，同时字幕生成模块203结束对发言人P的语音识别，文字数据生成结束，最终形成发言人P对应的字幕数据，称为第一字幕数据，然后根据第一字幕数据生成对应的至少一个第二字幕数据，第二字幕数据的语言类型和第一字幕数据的语言类型不同，在发言人P对应的字幕数据生成的过程中，字幕生成模块203记录发言人P对应的字幕数据的时间信息，在会议持续进行时，发言人P结束发言之后，发言人Q开始进行发言，当发言人Q说翻译内容时，发言人Q再次利用字幕翻译控制模块202打开系统中的字幕翻译功能，在发言人Q说出翻译内容的同时，字幕生成模块203再一次语音识别发言人Q说出的翻译内容，生成对应的文字数据，直至发言人Q结束翻译内容，字幕翻译控制模块202关闭系统中的字幕翻译功能，同时字幕生成模块203结束对发言人Q的语音识别，对应的文字数据也结束生成，从而形成发言人Q对应的字幕数据，在发言人Q对应的字幕数据生成的过程中，字幕生成模块203记录发言人Q对应的字幕数据的时间信息，同理，在其他的发言人说出翻译内容时，字幕生成模块203也会生成对应的字幕数据。

其中，第二字幕数据的语言类型包括汉语、英语、日语、法语、韩语等，第一字幕数据的语言类型是第二字幕数据的语言类型中的任意一种。

(4)字幕合成模块204

字幕合成模块204用于根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，形成共享字幕视频。

例如，根据所述时间同步信息，获取所述目标视频包括的数据帧的开始时间和结束时间；根据所述时间信息，获取所述字幕数据的开始翻译时间和结束翻译时间；对应所述开始翻译时间和所述开始时间，对应所述结束翻译时间与所述结束时间，结合相应的所述字幕数据和所述数据帧，形成共享字幕视频。

根据以上会议视频字幕合成系统，以下将作进一步说明，如图3所述，图3为会议视频字幕合成系统的另一结构示意图。

(1)会议视频录制模块301

会议视频录制模块301用于录制会议视频，记录所述会议视频的时间同步信息。

例如，用户利用终端加入网络会议，会议开始，当会议设备、人员、资料等必备条件完善之后，开启系统提供的摄像头，会议视频录制模块301开始录制会议视频，会议视频以会议过程中的环境和用户为视角，拍摄各个用户利用终端进入该网络会议的状态以及呈现在摄像头里的环境，同时记录会议视频录制过程中的时间同步信息，直至关闭摄像头，结束会议视频录制。

其中，会议视频的时间同步信息包括会议视频的开始录制时间，结束录制时间和会议视频包含的每一个数据帧的开始时间和结束时间。

(2)屏幕共享视频录制模块302

屏幕共享视频录制模块302用于录制屏幕共享视频，记录所述屏幕共享视频的第一时间同步信息。

例如，在会议视频录制的过程中，用户打开系统中的屏幕共享功能，此时系统会利用屏幕共享视频录制模块302录制用户的屏幕共享视频，关闭屏幕共享功能，则用户对应的屏幕共享视频录制结束，在录制该屏幕共享视频的过程中，目标视频录制模块302会记录此屏幕共享视频的第一时间同步信息，

(3)无屏幕共享视频录制模块303

无屏幕共享视频录制模块303用于录制无屏幕共享视频，记录所述无屏幕共享视频的第二时间同步信息。

例如，在会议视频录制的过程中，当用户没有打开屏幕共享功能之前和关闭屏幕共享功能之后，无屏幕共享视频录制模块303会录制没有进行屏幕共享时系统的默认状态视频，称为无屏幕共享视频，并记录无屏幕共享视频的第二时间同步信息。

(4)字幕翻译控制模块304

字幕翻译控制模块304用于开启字幕翻译功能和关闭字幕翻译功能。

例如，在会议视频录制的过程中，当发言人P说翻译内容时，发言人P可以利用字幕翻译控制模块304打开系统中的字幕翻译功能，进行语音识别，直至发言人P说完翻译内容，利用字幕翻译控制模块304关闭系统中的字幕翻译功能。

(5)字幕生成模块305

字幕生成模块305用于确定所述字幕翻译功能开启，对所述目标视频进行语音识别，生成字幕数据，记录所述字幕数据的时间信息。

在会议视频录制的过程中，当发言人P说翻译内容时，发言人P可以利用字幕翻译控制模块304打开系统中的字幕翻译功能，在发言人P说出翻译内容的同时，字幕生成模块305语音识别发言人P此时说出的翻译内容，生成文字数据，直至发言人P说完翻译内容，利用字幕翻译控制模块304关闭系统中的字幕翻译功能，同时字幕生成模块305结束对发言人P的语音识别，文字数据生成结束，最终形成发言人P对应的字幕数据，称为第一字幕数据，然后根据第一字幕数据生成对应的至少一个第二字幕数据，第二字幕数据的语言类型和第一字幕数据的语言类型不同，同理，在其他的发言人说出翻译内容时，字幕生成模块305也会生成对应的字幕数据。

(6)分辨率调整模块306

分辨率调整模块306用于将所述屏幕共享视频的分辨率和所述无屏幕共享视频的分辨率调整为一致。

(7)视频拼接模块307

视频拼接模块307用于根据所述时间同步信息拼接所述屏幕共享视频和所述无屏幕共享视频，形成共享视频。

例如，在会议结束之后，技术人员将用户对应的屏幕共享视频和无屏幕共享视频利用分辨率调整模块306调整为同一分辨率，然后视频拼接模块307按照各个视频的录制时间的先后次序，将屏幕共享视频和无屏幕共享视频拼接成一条连贯的共享视频。

(8)字幕合成模块308

字幕合成模块308用于根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，形成共享字幕视频。

例如，字幕合成模块308基于屏幕共享视频和无屏幕共享视频的时间同步信息以及字幕数据的时间信息，即字幕合成模块308获取共享视频包含的至少一数据帧的开始时间和结束时间，将字幕数据的开始翻译时间和数据帧的开始时间对应，结束翻译时间和数据帧的结束时间对应，从而将每一个字幕数据融合至共享视频对应的时间段内中，并在共享视频中没有对应字幕的片段添加自定义字幕和背景，例如，无字幕，形成共享字幕视频，自定义字幕和背景可以根据实际需要灵活设置。

(9)视频融合模块309

视频融合模块309用于根据所述时间同步信息，将所述会议视频融合至所述共享字幕视频的右上角，形成所述全视角共享字幕视频；

或用于根据所述第一时间同步信息和所述第二时间同步信息，将所述会议视频融合至所述共享视频的右上角，形成全视角共享视频。

例如，视频融合模块309将会议视频融合至字幕共享视频的右上角区域，形成全视角共享字幕视频，从而分享给需要的用户。

可选的，视频融合模块309将会议视频融合至共享视频的右上角区域，形成全视角共享视频，再字幕合成模块308将字幕数据融合至全视角共享视频的右上角区域，形成全视角共享字幕视频。

本发明实施例将从会议视频字幕合成方法的角度进行描述，一种会议视频字幕合成方法，包括：录制目标视频，记录所述目标视频的时间同步信息；开启字幕翻译功能，对所述目标视频进行语音识别，生成字幕数据，记录所述字幕数据的时间信息；根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，形成共享字幕视频。

如图4所示，会议视频字幕合成方法的具体流程如下：

步骤401、录制目标视频，记录所述目标视频的时间同步信息。

例如，用户利用终端加入网络会议，会议开始，当会议设备、人员、资料等必备条件完善之后，开启系统提供的摄像头，开始录制会议视频，会议视频以会议过程中的环境和用户为视角，拍摄各个用户利用终端进入该网络会议的状态以及呈现在摄像头里的环境，同时记录会议视频录制过程中的时间同步信息，并且录制目标视频，目标视频包括屏幕共享视频和无屏幕共享视频，直至关闭摄像头，结束会议视频录制。

其中，时间同步信息包括会议视频的开始录制时间，结束录制时间和会议视频包含的每一个数据帧的开始时间和结束时间。

可选的，在会议视频录制的过程中，用户A打开系统中的屏幕共享功能，向加入会议中的其他用户共同展示自己的终端屏幕，此时系统会录制用户A的屏幕共享视频，即会录制用户A在系统中展示的终端屏幕的具体内容，直至用户A完成向其他用户展示的内容，关闭屏幕共享功能，则用户A对应的屏幕共享视频录制结束，在录制该屏幕共享视频的过程中，记录此屏幕共享视频的第一时间同步信息，用户A结束屏幕共享视频之后，用户B开始屏幕共享，用户B打开系统中的屏幕共享功能，向加入会议中的其他用户共同展示自己的终端屏幕，此时系统会录制用户B的屏幕共享视频，即会录制用户B在系统中展示的终端屏幕的具体内容，直至用户B完成向其他用户展示的内容，关闭屏幕共享功能，则用户B对应的屏幕共享视频录制结束，之后，用户C打开屏幕共享功能后，系统也会对应录制用户C对应的屏幕共享视频，当各个用户没有进行屏幕共享的间隙，系统会录制没有进行屏幕共享时系统的默认状态视频，称为无屏幕共享视频，并记录无屏幕共享视频的第二时间同步信息。

其中，屏幕共享视频的第一时间同步信息包括屏幕共享视频的开始录制时间，结束录制时间和屏幕共享视频包含的每一个数据帧的开始时间和结束时间，无屏幕共享视频的第二时间同步信息包括无屏幕共享视频的开始录制时间，结束录制时间和无屏幕共享视频包含的每一个数据帧的开始时间和结束时间。

步骤402、开启字幕翻译功能，对所述目标视频进行语音识别，生成字幕数据，记录所述字幕数据的时间信息。

例如，在会议视频录制的过程中，当发言人P说翻译内容时，发言人P可以打开系统中的字幕翻译功能，在发言人P说出翻译内容的同时，系统会语音识别发言人P此时说出的翻译内容，生成文字数据，直至发言人P说完翻译内容，关闭系统中的字幕翻译功能，同时结束对发言人P的语音识别，文字数据生成结束，最终形成发言人P对应的字幕数据，称为第一字幕数据，然后根据第一字幕数据生成对应的至少一个第二字幕数据，第二字幕数据的语言类型和第一字幕数据的语言类型不同，在发言人P对应的字幕数据生成的过程中，记录发言人P对应的字幕数据的时间信息，在会议持续进行时，发言人P结束发言之后，发言人Q开始进行发言，当发言人Q说翻译内容时，发言人Q再次打开系统中的字幕翻译功能，在发言人Q说出翻译内容的同时，系统再一次语音识别发言人Q说出的翻译内容，生成对应的文字数据，直至发言人Q结束翻译内容，关闭系统中的字幕翻译功能，同时结束对发言人Q的语音识别，对应的文字数据也结束生成，从而形成发言人Q对应的字幕数据，称为第一字幕数据，然后根据第一字幕数据生成对应的至少一个第二字幕数据，第二字幕数据的语言类型和第一字幕数据的语言类型不同，在发言人Q对应的字幕数据生成的过程中，记录发言人Q对应的字幕数据的时间信息，同理，在其他的发言人说出翻译内容时，也会生成对应的字幕数据。

步骤403、根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，形成共享字幕视频。

可选的，在会议结束之后，技术人员得到一条完整的会议视频，各个用户对应的至少一条屏幕共享视频，多条无屏幕共享视频以及至少一个发言人对应的字幕数据，技术人员将至少一条屏幕共享视频和多条无屏幕共享视频调整为同一分辨率，再按照各个视频的录制时间的先后次序，将至少一条屏幕共享视频和多条无屏幕共享视频拼接成一条连贯的共享视频，基于屏幕共享视频和无屏幕共享视频的时间同步信息以及字幕数据的时间信息，即获取共享视频包含的至少一数据帧的开始时间和结束时间，将字幕数据的开始翻译时间和数据帧的开始时间对应，结束翻译时间和数据帧的结束时间对应，从而将每一个字幕数据融合至共享视频对应的时间段内中，并在共享视频中没有对应字幕的片段添加自定义字幕，例如，无字幕，形成共享字幕视频，再将会议视频融合至字幕共享视频的右上角区域，形成全视角共享字幕视频，从而分享给需要的用户，自定义字幕可以根据实际需要灵活设置。

可选的，在会议结束之后，技术人员得到一条完整的会议视频，各个用户对应的至少一条屏幕共享视频，多条无屏幕共享视频以及至少一个发言人对应的字幕数据，技术人员将至少一条屏幕共享视频和多条无屏幕共享视频调整为同一分辨率，再按照各个视频的录制时间的先后次序，将至少一条屏幕共享视频和多条无屏幕共享视频拼接成一条连贯的共享视频，再将会议视频融合至共享视频的右上角区域，形成全视角共享视频，基于第一时间同步信息、第二时间同步信息以及字幕数据的时间信息，即获取共享视频包含的至少一数据帧的开始时间和结束时间，将字幕数据的开始翻译时间和数据帧的开始时间对应，结束翻译时间和数据帧的结束时间对应，从而将每一个字幕数据融合至全视角共享视频对应的时间段内中，并在全视角共享视频中没有对应字幕的片段添加自定义字幕，例如，无字幕，形成全视角共享字幕视频，从而分享给需要的用户，自定义字幕可以根据实际需要灵活设置。

可选的，在会议结束之后，技术人员得到一条完整的会议视频，各个用户对应的至少一条屏幕共享视频，多条无屏幕共享视频，至少一个发言人对应的字幕数据，技术人员基于屏幕共享视频和无屏幕共享视频的时间同步信息以及字幕数据的时间信息，即获取共享视频包含的至少一数据帧的开始时间和结束时间，将字幕数据的开始翻译时间和数据帧的开始时间对应，结束翻译时间和数据帧的结束时间对应，从而将字幕数据融合至屏幕共享视频或无屏幕共享视频对应的时间段内中，然后技术人员按照屏幕共享视频和无屏幕共享视频的录制时间的先后次序，将添加了字幕的屏幕共享视频和添加了字幕的无屏幕共享视频拼接成一条连贯的共享视频，再将剩下的字幕数据按照时间信息融合至拼接的共享视频中，并在共享视频中没有对应字幕的片段添加自定义字幕，例如，无字幕，形成共享字幕视频，再将会议视频融合至字幕共享视频的右上角区域，形成全视角共享字幕视频，从而分享给需要的用户，自定义字幕可以根据实际需要灵活设置。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上对本发明实施例所提供的一种会议视频字幕合成系统和方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例的技术方案的范围。

Claims

1.一种会议视频字幕合成系统，其特征在于，包括：

2.根据权利要求1所述的系统，其特征在于，所述目标视频录制模块，包括：

3.根据权利要求2所述的系统，其特征在于，包括：

4.根据权利要求3所述的系统，其特征在于，包括：

5.根据权利要求1所述的系统，其特征在于，包括：

6.根据权利要求1所述的系统，其特征在于，所述时间同步信息包括开始录制时间、结束录制时间、视频包含的数据帧的开始时间和结束时间，所述时间信息包括开始翻译时间和结束翻译时间。

7.根据权利要求1所述的系统，其特征在于，所述字幕数据包括第一字幕数据和至少一第二字幕数据，所述第一字幕数据的语言类型与所述目标视频的语言类型一致，所述第二字幕数据与所述第一字幕数据的语言类型不同。

8.一种会议视频字幕合成方法，其特征在于，包括：

录制目标视频，记录所述目标视频的时间同步信息；

9.根据权利要求8所述的方法，其特征在于，所述录制目标视频，记录所述目标视频的时间同步信息，包括：

10.根据权利要求8所述的方法，其特征在于，所述根据所述时间信息和所述时间同步信息，融合所述目标视频和所述字幕数据，包括：