CN114239610A

CN114239610A - 多国语言语音辨识及翻译方法与相关的系统

Info

Publication number: CN114239610A
Application number: CN202110980746.3A
Authority: CN
Inventors: 吴岳桐; 李竣颖
Original assignee: Pegatron Corp
Current assignee: Pegatron Corp
Priority date: 2020-09-07
Filing date: 2021-08-25
Publication date: 2022-03-25
Also published as: US11881224B2; TWI769520B; TW202211077A; US20220076679A1

Abstract

本发明提供一种用于会议中的多国语言语音辨识与翻译方法与相关的系统。该会议包含至少一参与人，并且该方法包含：于一服务器端接收至少一终端装置所产生的至少一音频数据与至少一视频数据；辨识该至少一视频数据，产生关于该至少一参与人的数目、该至少一参与人的种族、至少一参与人于说话时的肢体动作及脸部动作的影像辨识结果；根据该影像辨识结果以及至少一音频数据产生至少一语系辨识结果以及据此得到对应该至少一参与人的多个音频区段；对所述音频区段进行语音辨识以及翻译；以及将该翻译结果显示于至少一终端装置上。

Description

多国语言语音辨识及翻译方法与相关的系统

技术领域

本发明涉及到语音辨识与翻译技术，尤指一种参考视频数据进行多国语言语音辨识与翻译的方法以及相关系统。

背景技术

在涉及多国语言的会议中，语音辨识与翻译系统被用来针对不同发语者的谈话内容，进行即时的语音辨识以及翻译，从而让会议更流畅地进行。这种系统同时整合了自动化的语系辨识、语音辨识以及语言翻译等技术。

现有的多国语言语音辨识与翻译技术，大多是通过语音辨识技术把语音转成文字，再针对文字进行翻译。因此，语音辨识的准确度便会影响翻译结果的正确性。

发明内容

有鉴于以上的问题，本发明提出一种创新的多国语言即时语音辨识与翻译方法及系统，可有效地解决现有技术无法妥善处理的同音词以及多语者环境等情况。其中，本发明利用会议现场的视频数据，对会议参与人进行多种状态的判断，以结合同音词以及多语者环境的辨识模型，在语音辨识的阶段中，厘清同音词以及多语者环境，提升语音辨识的准确度。

本发明的一实施例提供一种用于会议中的多国语言语音辨识与翻译方法。该会议包含至少一参与人，并且该方法包含：于一服务器端接收至少一终端装置所产生的至少一音频数据与至少一视频数据；辨识该至少一视频数据，以产生一第一影像辨识结果以及一第二影像辨识结果，该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作；基于该第一影像辨识结果以及该至少一音频数据，产生至少一语系辨识结果；基于该第一影像辨识结果及该第二影像辨识结果，切割该至少一音频数据，从而产生对应该至少一参与人的多个音频区段；根据该至少一语系辨识结果，语音辨识所述音频区段，将所述音频区段转换成一文字内容；根据该至少一语系辨识结果，翻译该文字内容；以及显示该已翻译的文字内容于该至少一终端装置上。

本发明提供一种用于一会议中的服务器端。该会议包含至少一参与人。该服务器端包含：一视频预处理模块、一语音辨识模块以及一翻译模块。该视频预处理模块用于根据至少一终端装置所传送的至少一视频数据产生一第一影像辨识结果与一第二影像辨识结果。其中该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族，以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作。该语音辨识模块用以基于该第一影像辨识结果以及该至少一音频数据，产生至少一语系辨识结果；并且还用以基于该第一影像辨识结果及该第二影像辨识结果，切割该至少一音频数据，从而产生对应该至少一参与人的多个音频区段。并且，该语音辨识模块中的一发语者分群子模块，用以根据该至少一语系辨识结果，语音辨识所述音频区段，以将所述音频区段转换成一文字内容。该翻译模块包含一平行式多国语言翻译子模块，其中，该平行式多国语言翻译子模块用以根据该至少一语系辨识结果，翻译该文字内容，使已翻译的文字内容显示于该至少一终端装置。

附图说明

图1为本发明实施例的多国语言语音辨识与翻译系统的简化架构图。

图2A～图2H绘示了本发明多国语言语音辨识与翻译系统中的各个模块的详细实施架构图。

图3绘示了本发明实施例的多国语言语音辨识与翻译方法的简化流程图。

其中，附图标记说明如下：

10 多国语言语音辨识与翻译系统

20 终端装置

30 服务器端

100 前端硬件

110 前端软件管理模块

120 音频预处理模块

130 视频预处理模块

140 云端数据库服务模块

150 语音辨识模块

160 辨识校正模块

170 翻译模块

101 麦克风

102 摄影机

103 视窗屏幕

111 麦克风控制子模块

112 摄影机控制子模块

113 云端数据库连线子模块

114 操作界面管理子模块

121 原始信号处理子模块

122 语音特征撷取子模块

123 语系辨识子模块

131 人数检测子模块

132 距离检测子模块

133 活动辨识子模块

134 唇形辨识子模块

135 人种辨识子模块

136 人脸辨识子模块

137 个人词汇撷取子模块

141 个人专用字词库

142 语音辨识与翻译数据库

143 终端装置媒体缓存子模块

151 音频与视觉数据匹配子模块

152 发语者分群子模块

153 即时语音辨识子模块

161 字词辨识修正子模块

162 第一更新控制子模块

171 平行式多国语言翻译子模块

172 第二更新控制子模块

310～370 步骤

具体实施方式

针对前述所提到的同音词与多语者环境的情况，本方法的处理机制如下。针对同音词问题，本发明会在语音辨识阶段开始前，对每个字词进行语系辨识，从而缩小字词的辨识范围。如此一来，可减少不同语系之间的同音词问题，提升语音辨识的效率与精确度。再者，针对多语者环境，本发明会进行多语者语音特征自动分段标记。其中，在进行连续语音辨识的过程中，本发明会通过摄影机检测发语者的数量，藉此对音频内容进行语音特征分群，并且在分群完成之后再进行辨识，从而提高辨识结果的可读性。

请参考图1，该图为本发明实施例的多国语言语音辨识与翻译系统10的简化架构图。如图所示，本发明的多国语言语音辨识与翻译系统10包含：一终端装置20以及一服务器端30。终端装置20包含一前端硬件100与一前端软件管理模块110，而服务器端30包含一音频预处理模块120、一视频预处理模块130、一云端数据库服务模块140、一语音辨识模块150、一辨识校正模块160以及一翻译模块170。终端装置20与服务器端30可通过一个或多个有线/无线网线进行连接。

图2A～图2H则是进一步地绘示了构成前端硬件100、前端软件管理模块110、音频预处理模块120、视频预处理模块130、云端数据库服务模块140、语音辨识模块150、辨识校正模块160、翻译模块170中组成每一个模块的主要单元。

终端装置20的前端软硬件100包含：一个或多个麦克风101、一个或多个摄影机102以及一个或多个视窗屏幕103。其中，前端软硬件100可能为会议中不同参与人所使用的电子装置(，如：个人电脑、笔记本电脑、平板电脑、智能手机或嵌入式系统等)的集合。举例来说，麦克风101可以是内嵌或是外接于上述电子装置的收音装置，摄影机102可以是内嵌或是外接于上述电子装置的网络摄影机(webcam)，而视窗屏幕103则是包含上述电子装置的屏幕与输入装置(如鼠标、触控板、键盘等)。在本发明部分实施例中，可能只有某些参与人的电子装置具备麦克风101与摄影机102。然而，由于语音辨识与翻译结果需要呈现给会议中的每个参与人，因此，在本发明的优选实施例中，会议的所有参与人的电子装置上都具备了视窗屏幕103，能即时看到会议画面与参与人的语音内容。

前端软件管理模块110用来管理在相同或者是不同电子装置中的前端硬件100设置。举例来说，设置在电子装置A上的前端软件管理模块110，可以通过无线或有线连线，分享麦克风101声音或摄影机102画面给电子装置B。再者，前端软件管理模块110包含：一麦克风控制子模块111、一摄影机控制子模块112、一云端数据库连线子模块113以及一操作界面管理子模块114。麦克风控制子模块111的作用在于启动前端硬件100中的一个或多个麦克风101的录音功能，并且根据当前场景(如，参与人的人数)决定最适当的录音参数(如，取样率等)，从而使一个或多个麦克风101进行音频撷取，以产生音频数据。摄影机控制子模块112的作用在于启动前端硬件100中的一个或多个摄影机102的录影功能，并且根据当前场景决定最适当的录影参数，使一个或多个摄影机102进行视频撷取，进而产生视频数据。云端数据库连线子模块113的目的在于将前端硬件100中的一个或多个麦克风101所搜集到的音频数据、以及一个或多个摄影机102所搜集到的视频数据上传至云端数据库服务模块140(例如，以串流的形式)。请注意，以上说明中，并未具体指定被启动的麦克风101、摄影机102以及视窗屏幕103的数量，这是因为这与会议的形式有关。举例来说，在一个远端会议中，设置于不同地点的麦克风101、摄影机102以及视窗屏幕103可能都需要被使用，用来搜集身处于不同地点的会议参与人的音频与视频数据，并且提供翻译结果给每一个会议参与人，如此才能确保本发明的多国语言语音辨识与翻译系统能正常运作。然而，当会议仅在一个地点进行，则仅需启动较少的麦克风101、摄影机102以及视窗屏幕103，便可让本发明的多国语言语音辨识与翻译系统得以正常运作。

服务器端30的音频预处理模块120用于接收终端装置20所产生的音频数据。详细地来说，音频预处理模块120包含：一原始信号处理子模块121、一语音特征撷取子模块122以及一语系辨识子模块123。原始信号处理子模块121用于处理从一个或多个麦克风101所搜集到的原始音频信号(raw audio signal)，从而输出音频信号。语音特征撷取子模块122用以从音频信号中撷取出语音特征数据。语系辨识子模块123用以将撷取出的语音特征数据与已知的一语系辨识模型进行比对，从而对语音所属的语系做出初步判断。在一实施例中，语系辨识模型可通过对不同语系的语音进行深度学习(deep learning)方式习得。

视频预处理模块130用于接收终端装置20所产生的视频数据，并具有发语者行为检测功能以及发语者身份辨识功能。发语者行为检测功能通过以下的子模块进行：一人数检测子模块131、一距离检测子模块132、一活动辨识子模块133以及一唇形辨识子模块134。人数检测子模块131用以根据一个或多个摄影机102所搜集到的视频数据，辨识出会议参与人的数目。距离检测子模块132用以根据视频数据，判断会议参与人与一个或多个麦克风101之间的距离。活动辨识子模块133用以根据一个或多个摄影机102所搜集到的视频数据，与已知的人体活动模型进行比对，从而辨识出会议参与人的活动(动作)。唇形辨识子模块134用以根据一个或多个摄影机102所搜集到的视频数据，辨识出发语者的唇部动作。

再者，发语者身份辨识功能主要通过以下的子模块进行：一人种辨识子模块135、一人脸辨识子模块136以及一个人词汇撷取子模块137。人种辨识子模块135用以根据一个或多个摄影机102所搜集到视频数据，与已知的人种模型进行比对，从而辨识出每一个会议参与人的种族，其中，人种辨识子模块135可能根据会议参与人的肤色，以及脸型轮廓来判断参与人的种族。人脸辨识子模块136根据一个或多个摄影机102所搜集到的视频数据，与已知的一人脸模型进行比对，从而辨识出会议参与人的身份，其中，若是人脸辨识子模块136辨识出会议参与人的身份(即，身份辨识成功)，那么就可以直接确定该参与人所使用的语言，或者是取得该参与人最常使用的几种的语言，并且略过本发明的部份辨识流程，而直接根据该会议参与人所使用或常用的语系来进行语音辨识以及翻译。再者，个人词汇撷取子模块137根据人脸辨识子模块136辨识出的会议参与人身份，从云端数据库服务模块140撷取个人的专属字词库(若存在于云端数据库服务模块140中)。若是人脸辨识子模块136无法辨识出会议参与人的身份(即，身份辨识失败)，云端数据库服务模块140则为该会议参与人建立一新的个人专属用字词库。

因此，通过人数检测子模块131所辨识出的会议参与人的数目，以及通过人种辨识子模块135所辨识出的会议参与人的种族，视频预处理模块130可以产生第一影像辨识结果。

再者，通过距离检测子模块132所辨识出的会议参与人与麦克风之间的距离、活动辨识子模块133所辨识出的会议参与人的肢体动作以及唇形辨识子模块134所辨识出的会议参与人的脸部动作，可以得到第二影像辨识结果。需注意的是，在本发明不同实施例中，第一影像辨识结果以及第二影像结果可在辨识视频数据时同时产生，或不同时产生，这些时间顺序的变化并非本发明的限制。

语音辨识模块包含150：一音频与视觉数据匹配子模块151、一发语者分群子模块152以及即时语音辨识子模块153。音频与视觉数据匹配子模块151用以将语系辨识子模块123所产生的初步语系辨识结果，与视频预处理模块130中的子模块所产生的辨识结果(例如，第一影像辨识结果)进行匹配，从而产生正确的语系辨识结果。其中，音频与视觉数据匹配子模块151根据人种辨识子模块135所辨识出的会议参与人的人种信息，与初步语系辨识结果进行匹配，从而产生正确的语系辨识结果。若该初步判断结果以及第一影像辨识结果不符时，则依据初步判断结果判断。举例来说，影像辨识结果判断其中一参与人的种族为亚洲人种，但是音频数据的初步判断结果为英语，则语系辨识结果会依初步判断结果为主。再者，发语者分群子模块152用以产生对应于音频数据的一分群结果，该分群结果将音频数据分作为多个音频区段。其中，发语者分群子模块152根据前述的第一影像辨识结果以及第二影像辨识结果，将音频数据的语音部分进行分段，得到对应于每个会议参与人的音频区段。即时语音辨识子模块153则是根据语系辨识结果将所述音频区段转换成文字内容(亦即将语音转换为具体文字)。

详细来说，本发明综合参考距离检测子模块132所辨识出的会议参与人与麦克风之间的距离、活动辨识子模块133所辨识出的会议参与人的肢体动作、以及唇形辨识子模块134所辨识出的会议参与人的脸部动作，判断会议的某个参与人是否进行发言，并且与音频数据中的语音进行匹配，以及确认每个参与人每次发言的起始点以及结束点。如此一来，便可将音频数据分割为多个音频区段。之后，根据该语系辨识结果，便可将每一个音频区段转换成对应于该语系辨识结果所指出的语言的文字内容。

在本发明实施例中，云端数据库服务模块140包含：一个人专用字词库141、一语音辨识与翻译数据库142以及一终端装置媒体缓存子模块143。个人专用字词库141用以存储各使用者的个人专属字词。需注意的是，此处的使用者不一定等同于会议的参与人。语音辨识与翻译数据库142用以保存经由深度学习所产生的翻译模型。终端装置媒体缓存子模块143用以缓存由云端数据库连线子模块113所上传的音频数据与视频数据，并且将音频数据与视频数据提供给音频预处理模块120、视频预处理模块130以及云端数据库服务模块140中的子模块进行相关处理。

在本发明实施例中，辨识校正模块160包含：一字词辨识修正子模块161以及一第一更新控制子模块162。字词辨识修正子模块161可针对即时语音辨识子模块153所得到的文字内容，根据一参考字词库(未绘示于图中)判断并且修正文字内容中的不合理字词。第一更新控制子模块162用以根据字词辨识修正子模块161的修正内容，要求个人专用字词库141更新其内容。

在本发明实施例中，翻译模块170包含：一平行式多国语言翻译子模块171以及一第二更新控制子模块172。平行式多国语言翻译子模块171根据语音辨识与翻译数据库142中所存储的翻译模型，对经过字词辨识修正子模块161所修正的文字内容，进行多国语言翻译。第二更新控制子模块172则可用以控制语音辨识与翻译数据库142，要求针对已翻译的文字内容，进行学习，并更新翻译模型，如此一来便可以通过反复的学习过程，提高翻译的准确性。另外，第二更新控制子模块172亦可基于使用者所反馈的内容，要求语音辨识与翻译数据库142修正其翻译模型。

针对上述多国语言语音辨识与翻译系统10的操作可归纳成一多国语言语音辨识与翻译方法。第3图绘示了本发明实施例的多国语言语音辨识与翻译方法的简化流程图。其中，该流程至少包含有以下步骤：

步骤310：于服务器端接收至少一终端装置所产生的至少一音频数据与至少一视频数据。

步骤320：辨识至少一视频数据，以产生第一影像辨识结果以及第二影像辨识结果，第一影像辨识结果包含至少一参与人的数目及至少一参与人的种族，第二影像辨识结果包含至少一参与人于说话时的肢体动作及脸部动作。

步骤330：基于第一影像辨识结果及音频数据，产生至少一语系辨识结果。

步骤340：基于第一影像辨识结果及第二影像辨识结果，切割至少一音频数据，从而产生对应至少一参与人的多个音频区段。

步骤350：根据至少一语系辨识结果，语音辨识多个音频区段，以将多个音频区段转换成文字内容。

步骤360：根据至少一语系辨识结果，翻译文字内容。

步骤370：传送已翻译的文字内容使其显示于至少一终端装置。

请注意，在其他实施例中，本发明的多国语言语音辨识与翻译方法的流程并不仅限定于以上所述的步骤以及顺序。根据先前段落中，针对本发明的多国语言语音辨识与翻译系统的说明内容可知，本发明的多国语言语音辨识与翻译方法可能还包含更多的步骤，用来提升语音辨识与翻译的效果。然为求说明书的简洁，此处仅列出与本案核心精神相关，且与解决先前技术所面临的技术问题有直接关联的步骤。本发明所属领域的技术人士，应可在深度理解本说明书的公开内容后，对于本发明的多国语言语音辨识与翻译方法的流程有更充分的理解与应用。

总结来说，本发明通过分析会议参与人的脸部特征，从而辨识出会议参与人的种族信息及其所用的语言，进而得到更准确的语系辨识结果，从而解决同音词的问题。另一方面，本发明也分析会议参与人的活动信息，例如与麦克风的距离，肢体活动，以及唇部动作，从而判断出发语者的数量以及每位发语者发言的时机，并且结合对声音特征的分析，进而判断出每一段语音是由哪一位会议参与人所发出，以精确地对发语者特征进行分群，从而解决多语者环境的问题。通过以上的技巧，本发明有效地提升了高语音辨识的准确度。由于改善了语音辨识的准确度，连带地提高了翻译的准确度。如此一来，本发明的多国语言语音辨识与翻译系统以及方法便可在涉及多国语言的会议中，提供高效率与高品质的语音辨识与翻译功能。

本发明的实施例可使用硬件、软件、固件以及其相关结合来完成。通过适当的一指令执行系统，可使用存储于一存储器中的软件或固件来实作本发明的实施例。就硬件而言，则是可应用下列任一技术或其相关结合来完成：具有可根据数据信号执行逻辑功能的逻辑闸的一个别运算逻辑、具有合适的组合逻辑闸的一特定应用集成电路(applicationspecific integrated circuit,ASIC)、可编程闸阵列(programmable gate array,PGA)或一现场可编程闸阵列(field programmable gate array,FPGA)等。

说明书内的流程图中的流程和方框示出了基于本发明的各种实施例的系统、方法和电脑软件产品所能实现的架构，功能和操作。在这方面，流程图或功能方框图中的每个方框可以代表程序码的模块，区段或者是部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。另外，功能方框图以及/或流程图中的每个方框，以及方框的组合，基本上可以由执行指定功能或动作的专用硬件系统来实现，或专用硬件和电脑程序指令的组合来实现。这些电脑程序指令还可以存储在电脑可读媒体中，该媒体可以使电脑或其他可编程数据处理装置以特定方式工作，使得存储在电脑可读媒体中的指令，实现流程图以及/或功能方框图中的方框所指定的功能/动作。

以上所述仅为本发明的优选实施例，凡依本发明权利要求所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种用于会议中的多国语言语音辨识与翻译的方法，该会议包含至少一参与人，其特征在于，该方法包含：

于一服务器端接收至少一终端装置于该会议中撷取的该至少一参与人的至少一音频数据与至少一视频数据；

辨识该至少一视频数据，以产生一第一影像辨识结果以及一第二影像辨识结果，该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族，以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作；

基于该第一影像辨识结果以及该至少一音频数据，产生至少一语系辨识结果；

基于该第一影像辨识结果及该第二影像辨识结果，切割该至少一音频数据，从而产生对应该至少一参与人的多个音频区段；

根据该至少一语系辨识结果，语音辨识所述音频区段，将所述音频区段转换成一文字内容；

根据该至少一语系辨识结果，翻译该文字内容；以及

传送已翻译的该文字内容使其显示于该至少一终端装置。

2.如权利要求1所述的方法，其特征在于，还包含：

从该至少一音频数据中撷取出语音特征数据；以及

根据该撷取出的语音特征数据与一语系辨识模型进行比对，产生一初步判断结果。

3.如权利要求2所述的方法，其特征在于，基于该第一影像辨识结果以及该音频数据产生该至少一语系辨识结果的步骤包含：

根据该初步判断结果以及该第一影像辨识结果，判断该至少一音频数据中包含的至少一语系，若该初步判断结果以及该第一影像辨识结果不符时，依据该初步判断结果判断。

4.如权利要求1所述的方法，其特征在于，切割该至少一音频数据，从而产生对应该至少一参与人的所述音频区段的步骤包含：

根据该第二影像辨识结果中该至少一参与人于说话时的脸部动作，决定该至少一参与人每次发言的一时间起始点以及一时间结束点，从而得到所述音频区段。

5.如权利要求1所述的方法，其特征在于，还包含：

根据该视频数据，对该至少一参与人进行身份辨识；

当身份辨识成功时，从一云端数据库服务模块中存取该至少一参与人相关的一个人专属用字词库，以及根据该个人专用字词库，提高与改善该至少一参与人的语音辨识结果与翻译结果；以及

当身份辨识失败时，为该至少一参与人建立一新个人专属用字词库。

6.如权利要求5所述的方法，另包含：

根据该至少一参与人的一使用者反馈，修改该个人专属用字词库。

7.如权利要求1所述的方法，其特征在于，还包含：

根据该至少一视频数据中该至少一参与人与一麦克风的距离，判断至少一发语者的数量以及各该发语者发言的时间，以产生该第二影像辨识结果；以及

根据该第二影像辨识结果，从而得到该多个音频区段。

8.如权利要求1所述的方法，其特征在于，还包含：

根据一参考字词库，校正该文字内容。

9.一种用于一会议中的服务器端，该会议包含至少一参与人，其特征在于，该服务器端包含：

一音频预处理模块，用于接收至少一终端装置所产生的至少一音频数据；

一视频预处理模块，用于接收该至少一终端装置所产生的至少一视频数据，根据终端装置该至少一视频数据产生一第一影像辨识结果与一第二影像辨识结果，该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族，以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作，该音频预处理模块基于该第一影像辨识结果以及该至少一音频数据，产生至少一语系辨识结果；

一语音辨识模块，用以切割该至少一音频数据，从而产生对应该至少一参与人的多个音频区段，该语音辨识模块包含一即时语音辨识子模块，其用以根据该至少一语系辨识结果，语音辨识所述音频区段，将所述音频区段转换成一文字内容；以及

一翻译模块，包含一平行式多国语言翻译子模块，该平行式多国语言翻译子模块用以根据该至少一语系辨识结果，翻译该文字内容，传送已翻译的文字内容，使其显示于该至少一终端装置。

10.如权利要求9所述的服务器端，其特征在于，该音频预处理模块还包含：

一语音特征撷取子模块，用以从该至少一音频数据中撷取出语音特征数据；以及一语系辨识子模块，用以根据该撷取出的语音特征数据与一语系辨识模型进行比对，产生一初步判断结果。

11.如权利要求10所述的服务器端，其特征在于，该视频预处理模块还包含一人数检测子模块以及一人种辨识子模块，该人数检测子模块用以根据该视频数据辨识该至少一参与人的数目，以及该人种辨识子模块用以根据该视频数据辨识该至少一参与人的种族；以及该语音辨识模块另包含一音频与视觉数据匹配子模块，用以根据该初步判断结果以及该第一影像辨识结果判断该至少一音频数据中包含的至少一语系。

12.如权利要求9所述的服务器端，其特征在于，该视频预处理模块还包含：

一人脸辨识组模块，用以根据该视频数据，对参与人进行身份辨识；

该语音辨识模块另包含一个人词汇撷取子模块，用以当身份辨识成功时存取该至少一参与人相关的一个人专属字词库，以及该平行式多国语言翻译子模块根据该个人专属字词库，产生翻译结果。

13.如权利要求12所述的服务器端，其特征在于，还包含一云端数据库服务模块，用以建立该至少一参与人相关的该个人专属字词库，当身份辨识失败时，该云端数据库服务模块为该至少一参与人建立一新个人专属用字词库。

14.如权利要求12所述的服务器端，其特征在于，该服务器端包含一更新控制子模块，用以根据该至少一参与人的使用者反馈，修改该个人专属用字词库。

15.如权利要求9所述的服务器端，其特征在于，该视频预处理模块包含：

一活动辨识子模块，用以根据该视频数据，辨识该至少一参与人的肢体动作；以及

一唇形辨识子模块，用以根据该视频数据，辨识该至少一参与人的脸部动作。

16.如权利要求15所述的服务器端，其特征在于，该视频预处理模块包含：

一距离检测子模块，用以根据该至少一视频数据中该至少一参与人与麦克风的距离，判断至少一发语者的数量以及各该发语者发言的时间，以产生该第二影像辨识结果以及该发语者分群子模块还根据该第二影像辨识结果，从而得到该多个音频区段。

17.如权利要求9所述的服务器端，其特征在于，该语音辨识模块还包含一发语者分群子模块，用以根据该至少一参与人与麦克风的距离、该第二影像辨识结果中该至少一参与人于说话时的脸部动作、该至少一音频数据，决定该至少一参与人每次发言的一时间起始点以及一时间结束点，从而得到所述音频区段。

18.如权利要求9所述的服务器端，其特征在于，还包含：

一字词辨识修正子模块，用以根据一参考字词库，校正该文字内容。