CN110324723B

CN110324723B - 字幕生成方法及终端

Info

Publication number: CN110324723B
Application number: CN201810274629.3A
Authority: CN
Inventors: 马鹏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2022-03-08
Anticipated expiration: 2038-03-29
Also published as: WO2019184650A1; CN110324723A

Abstract

本申请实施例公开了一种字幕生成方法及终端，方法包括：第一终端获取麦克风的标识信息，并通过摄像头采集处于麦克风第一距离内的人脸图像信息；第一终端根据预先建立的人脸身份信息表，确定人脸图像信息对应的用户识别信息为麦克风对应的用户识别信息；当第一终端接收到麦克风发送的第一语音数据时，第一终端获取第一语音数据对应的字幕信息，字幕信息包括语音数据对应的文本信息以及麦克风对应的用户识别信息。第一终端通过第一屏幕显示第一语音数据对应的字幕信息。采用本发明，第一终端通过建立麦克风与用户识别信息的对应关系，能够准确匹配使用该麦克风的发言人的用户识别信息，并生成字幕显示，以使参会人员能够将发言人与字幕对应起来。

Description

字幕生成方法及终端

技术领域

本申请涉及电子技术领域，尤其涉及一种字幕生成方法及终端。

背景技术

远程会议指位于两个或多个地点的人们，通过通信设备和网络，进行实时交谈的会议。由于该场景的声源场景比较复杂(涉及的参会人数多、口音不一)，且语音数据可能因在传播过程中有损而不够清晰。因此，远程会议中仅有声音或者画面是不能满足沟通准确性的需求的。目前，根据会议人员的发言生成相应的字幕并显示，成为远程会议的必需之一。

但是，现有的字幕仅仅将发言人发出的语音数据转换成了文本信息呈现给参会人员，仍然存在的问题就是，无法将发言人与字幕对应起来，也就是说，参会人员虽然能够通过字幕了解发言所表达的信息，但是并不知道到底是谁说的，甚至无法区分字幕显示的到底是同一个人的发言还是不同人的发言，因此，现有的字幕生成方案仍然不能满足远程会议对于沟通准确性和便利性的要求。

发明内容

本申请实施例提供一种字幕生成方法及终端，以期满足远程会议对沟通准确性和便利性的要求。

第一方面，本申请实施例提供了一种字幕生成方法，包括：

第一终端获取麦克风的标识信息，并通过摄像头采集处于麦克风第一距离内的人脸图像信息；

第一终端根据预先建立的人脸身份信息表，确定人脸图像信息对应的用户识别信息为麦克风对应的用户识别信息；

当第一终端接收到麦克风发送的第一语音数据时，第一终端获取第一语音数据对应的字幕信息，字幕信息包括第一语音数据对应的文本信息以及麦克风对应的用户识别信息；

第一终端通过第一屏幕显示第一语音数据对应的字幕信息。

在该技术方案中，第一终端通过建立麦克风与其第一距离内的人脸图像信息对应的用户识别信息的对应关系，能够在第一终端接收到麦克风发送的第一语音数据时，准确地匹配出使用该麦克风发言的发言人的用户识别信息，从而可以结合语音数据对应的文本信息以及麦克风对应的用户识别信息生成字幕显示给参会人员，以使参会人员能够将发言人与字幕对应起来，从而满足远程会议对于沟通准确性和便利性的要求。

在一种设计中，第一终端获取第一语音数据对应的字幕信息包括：

第一终端对第一语音数据进行语音识别得到第一语音数据对应的文本信息。

在一种设计中，该方法还包括：

第一终端向第二终端发送第一语音数据对应的字幕信息，第一语音数据对应的字幕信息被第二终端通过第二屏幕显示，第二终端为与第一终端进行语音交互的终端。

在该技术方案中，第一终端将自身采集的第一语音数据生成的对应的字幕信息发送给第二终端，以使与第一终端进行远程会议的各个会场的参会人员，也可以通过第二屏幕呈现第一终端所在会场的发言人讲话的字幕信息。

在一种设计中，该方法还包括：

第一终端接收第二终端发送的第二终端采集的第二语音数据对应的字幕信息；

第一终端通过第一屏幕显示第二语音数据对应的字幕信息。

在该技术方案中，第二终端将自身采集的第二语音数据生成的对应的字幕信息发送给第一终端，以使与第二终端进行远程会议的第一终端所在会场的参会人员，也可以通过第一屏幕呈现第二终端所在会场的发言人讲话的字幕信息。

在一种设计中，第一终端还接收第二终端发送的第二语音数据的采集时刻；

第一终端通过第一屏幕显示第二语音数据对应的字幕信息包括：

第一终端按照第一语音数据的采集时刻以及第二语音数据的采集时刻的先后顺序，通过第一屏幕显示第一语音数据对应的字幕信息和第二语音数据对应的字幕信息。

在该技术方案中，第一终端可以根据多个语音数据的采集时刻进行排序后，有序地显示对应的字幕信息，这样可以使字幕信息呈现的更清晰准确有条理。

第一终端向多点控制单元发送语音数据信息，语音数据信息包括第一语音数据以及麦克风对应的用户识别信息；

第一终端接收多点控制单元发送的第一语音数据对应的字幕信息，字幕信息为多点控制单元基于语音识别得到的第一语音数据对应的文本信息以及麦克风对应的用户识别信息生成的。

在一种设计中，第一终端接收多点控制单元发送的第一语音数据对应的字幕信息包括：

第一终端接收多点控制单元发送的第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息，第二终端为与第一终端进行语音交互的终端；

第一终端还通过第一屏幕显示第二语音数据对应的字幕信息。

在一种设计中，语音数据信息还包括第一语音数据的采集时刻；第一语音数据的采集时刻被多点控制单元用于按照第一语音数据的采集时刻以及第二终端采集的第二语音数据的采集时刻的先后顺序，对第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息进行排序。

在该技术方案中，多点控制单元根据语音数据的采集时刻的先后顺序对多个语音数据对应的字幕信息的先后顺序进行整理后再依次发送，从而使参会人员看到的字幕信息的逻辑更清楚。

在一种设计中，麦克风为多个，当第一终端接收到多个麦克风在同一时间段发送的多个第一语音数据时，第一终端获取第一语音数据对应的字幕信息之前，还包括：

第一终端从多个第一语音数据中获取语音音量从大到小排序后排名前N个的第一语音数据，并确定发送N个第一语音数据的N个麦克风，N为大于等于1的正整数；

第一终端获取第一语音数据对应的字幕信息包括：

第一终端获取N个第一语音数据对应的字幕信息，字幕信息包括N个第一语音数据对应的文本信息以及N个麦克风对应的用户识别信息。

在该技术方案中，在会场有其他人员小声讨论或有其他声源时，第一终端可以仅选取针对音量较大的前N个第一语音数据生成字幕信息，避免将非正式发言的或者与会议无关的言论生成字幕进行显示。

在一种设计中，用户身份信息包括职位信息；

麦克风为多个，当第一终端接收到多个麦克风在同一时间段发送的多个第一语音数据时，第一终端获取第一语音数据对应的字幕信息之前，还包括：

第一终端获取多个麦克风对应的职位信息；

第一终端从多个麦克风对应的职位信息中获取职位信息从高到低排序后排名前M个的职位信息，并确定M个职位信息对应的M个麦克风，M为大于等于1的正整数；

第一终端获取第一语音数据对应的字幕信息包括：

第一终端获取M个麦克风发送的M个第一语音数据对应的字幕信息，字幕信息包括M个第一语音对应的文本信息以及M个麦克风对应的用户识别信息。

在该技术方案中，多人同时进行发言时往往信息较多且凌乱，根据职位信息筛选职位较高的发言人的语音数据生成字幕呈现给参会人员，有利于参会人员捕捉重要信息。

在一种设计中，用户识别信息包括用户人脸信息或用户身份信息。

在一种设计中，第一终端根据预先建立的人脸身份信息表，确定人脸图像信息对应的用户识别信息为麦克风对应的用户识别信息包括：

第一终端获取与人脸图像信息匹配的用户人脸信息；

第一终端确定与人脸图像信息匹配的用户人脸信息对应的用户身份信息为麦克风对应的用户识别信息。

在一种设计中，用户识别信息包括用户人脸信息；方法还包括：

当第一终端接收到麦克风发送的第一语音数据时，第一终端获取麦克风对应的用户人脸信息；

第一终端根据麦克风对应的用户人脸信息对摄像头当前采集到的至少一个人脸图像信息进行识别，获取至少一个人脸图像信息中与麦克风对应的用户人脸信息匹配的目标人脸图像信息；

第一终端拍摄目标人脸图像信息对应的目标人物的画面并通过第一屏幕显示。

在该技术方案中，第一终端可以基于用户人脸信息与麦克风建立的对应关系，定位会场中正在使用该麦克风进行发言的目标人物，并该目标人物进行拍摄并显示拍摄的画面。

本申请第二方面提供了一种终端，包括处理模块和收发模块。该终端通过上述模块实现上述第一方面或第一方面的任意一种可能的实现方式。

本申请第三方面提供了另一种终端。包括处理器、收发器以及存储器。处理器可以连接到通信接口和存储器，例如处理器可以通过总线连接到收发器和存储器。收发器用于与其他设备进行通信，例如麦克风、摄像头、屏幕、其他终端或多点控制单元等。存储器用于存储程序代码、人脸身份信息表、语音数据或字幕信息等。所述处理器用于实现第二方面中的处理模块，而所述收发器用于实现第二方面中的收发模块。该终端通过处理器和收发器执行上述第一方面或第一方面的任意一种可能的实现方式。

第四方面，本申请提供了一种计算机程序产品，计算机程序产品包括：计算机程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述第一方面中任意可能的实现方式中的方法。

第五方面，本申请提供了一种计算机可读介质，计算机可读介质存储有程序代码，当计算机程序代码在计算机上运行时，使得计算机执行上述第一方面中任意一种可能的实现方式中的方法。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1是本申请实施例提供的一种会议系统的结构示意图；

图2是本申请实施例提供的一种字幕生成方法的流程示意图；

图3是本申请实施例提供的另一种字幕生成方法的流程示意图；

图4是本申请实施例提供的一种字幕信息显示示例图；

图5是本申请实施例提供的一种终端的结构示意图；

图6是本申请实施例提供的另一种终端的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

请参见图1，图1是本申请实施例提供的一种会议系统的结构示意图，本申请实施例中的字幕生成方法就应用于该会议系统中，该会议系统可以包括至少一个会议子系统(例如图1中的子系统10、子系统20以及子系统30)，每个会议子系统中可以包括终端、屏幕以及至少一个麦克风(例如，子系统10包括终端101、屏幕102、麦克风1031、麦克风1032，子系统20包括终端201、屏幕202、麦克风2031、麦克风2032，子系统30包括终端301、屏幕302、麦克风3031、麦克风3032)，终端和至少一个麦克风之间采用无线连接方式(wifi或蓝牙等)。其中，终端可以内置摄像头，也可以连接外置摄像头，还可以具备人脸识别功能、语音识别功能以及数据存储功能。

进一步的，该会议系统还可以包括语音识别服务器40、人脸识别服务器50或身份信息数据库60，会议系统中的各会议子系统中的终端(终端101、终端201、终端301)可以与上述语音识别服务器、人脸识别服务器或身份信息数据库进行通信，以借助语音识别服务器40、人脸识别服务器50以及身份信息数据库60分别完成人脸识别功能、语音识别功能以及数据存储功能的功能。需要说明的是，上述语音识别服务器40、人脸识别服务器50或身份信息数据库60可以是三个独立的设备，也可以是集成在一个设备上的三个功能模块，这里不作具体限定。

在一种实施场景中，各会议子系统的终端之间直接进行字幕信息的交互，例如，终端101生成字幕信息后，直接发送给终端201和终端301，终端201和终端301将该字幕信息显示在屏幕上。在另一种实施场景中，该会议系统还可以包括多点控制单元70(MultipointControl Unit，MCU)，各会议子系统的终端之间通过多点控制单元70进行字幕信息的交互，也即各会议子系统中的终端(终端101、终端201、终端301)采集的语音数据发送给多点控制单元70，由多点控制单元70将语音数据转换成的文本信息进行整理后生成字幕信息发给各个终端。可选的，在该实施场景中，多点控制单元70还可以具备语音识别功能，也可以借助语音识别服务器40实现语音识别功能。

需要说明的是，下文中所提到的第一终端，指的是会议子系统中的任一终端，第二终端则指的是与第一终端进行语音交互的终端，也即除第一终端以外的其他会议子系统中的终端。

请参见图2，图2是本申请实施例提供的一种字幕生成方法的流程示意图，该实施例适用于第一终端与其他第二终端之间直接进行字幕信息的交互的实施场景，该方法包括但不限于如下步骤：

S201，第一终端获取麦克风的标识信息，并通过摄像头采集处于麦克风第一距离内的人脸图像信息。

麦克风的标识信息可以唯一的代表该麦克风，例如可以是MAC(Media AccessControl或者Medium Access Control)地址或者产品序列号(Serial Number)。第一终端与其所在的会场中的麦克风可以建立无线连接，从而第一终端可以获取到该会场内的麦克风的标识信息。第一终端通过内置或者外置的摄像头，可以采集处于麦克风第一距离内的人脸图像信息。一种可选的方式可以是摄像头通过图像识别确定麦克风的中心，通过人脸识别确定人脸的中心距离麦克风的中心第一距离内的人脸图像信息。本申请实施例中的第一距离是根据用户在使用麦克风时麦克风与人脸距离的经验值设定的，例如可以为0.25m，也就是说摄像头可以采集处于麦克风0.25m内的人脸图像信息。需要说明的是，会场中可以包括至少一个麦克风，第一终端获取每个麦克风第一距离内的人脸图像信息。

进一步地，麦克风可以携带二维码，二维码携带该麦克风的标识信息，第一终端通过摄像头扫描麦克风的二维码即可获取麦克风标识，从而确定当前摄像头采集到的是哪一个麦克风的第一距离内的人脸图像信息。

可选的，本申请实施例所采用的麦克风可以是低灵敏度的麦克风，佩戴低灵敏度的麦克风的好处是，将同一个会场中不同位置上的人在三维物理空间上唯一区分出来，定位精度高于一维或者二维阵列麦克风；不同麦克风采集的语音与语音之间相互独立互不干扰，抗混响和其它声源干扰能力强于开放式的阵列麦克风；支持0.25m以内的拾音且麦克风可移动，拾取的语音信号信噪比高于阵列麦克风，且能克服阵列麦克风远距离拾音问题，这对语音识别准确率会带来显著的提升。

S202，第一终端根据预先建立的人脸身份信息表，确定人脸图像信息对应的用户识别信息为麦克风对应的用户识别信息。

人脸身份信息表是包括预先收集的至少一个用户人脸信息以及各用户人脸信息对应的用户识别信息的映射关系表，用户可以自己通过应用程序上传自己的用户人脸信息以及对应的用户识别信息，也可以是预先通过其他途径采集到的，这里不作具体限定。其中，用户识别信息包括用户人脸信息或/和用户身份信息，用户人脸信息可以包括用户的人脸图像信息以及人脸识别号，用户身份信息具体可以包括姓名、工号、部门、职位、电话、地址等信息。

在一种可能的实施方式中，第一终端自身具有人脸识别功能，并存储有人脸识别信息表，则第一终端可以通过人脸识别功能，获取与采集到的人脸图像信息匹配的用户人脸信息；并根据人脸身份信息表，获取与人脸图像信息匹配的用户人脸信息对应的用户身份信息。

在另一种可能的实施方式中，人脸识别服务器中存储有预先收集的至少一个用户人脸信息，身份信息数据库中存储有人脸身份信息表，则第一终端可以通过人脸识别服务器进行人脸识别，从而获取与采集到的人脸图像信息匹配的用户人脸信息，再从身份信息数据库中获取与人脸图像信息匹配的用户人脸信息对应的用户身份信息。

至此，第一终端就建立了麦克风的标识信息以及人脸图像信息对应的用户识别信息之间的对应关系。

S203，当第一终端接收到麦克风发送的第一语音数据时，第一终端获取第一语音数据对应的字幕信息，所述字幕信息包括第一语音数据对应的文本信息以及麦克风对应的用户识别信息。

在本申请的实施场景中，当第一终端接收到麦克风发送的第一语音数据时，也即用户通过麦克风发言时，第一终端可以对第一语音数据进行语音识别得到第一语音数据对应的文本信息，也可以将第一语音数据发送给语音识别服务器，语音识别服务器进行语音识别后将语音数据对应的文本信息发送给第一终端。接下来，第一终端获取根据发送第一语音数据的麦克风的标识信息，确定该麦克风对应的用户识别信息，从而第一终端根据第一语音数据对应的文本信息以及该麦克风对应的用户识别信息生成字幕信息。例如，当用户识别信息包括用户人脸信息和姓名时，第一终端生成的字幕信息可以如图4所示。需要说明的是，这里的第一语音数据可以认为是第一终端对应的子会议系统中的麦克风所接收到的语音数据，用于与下文中第二终端采集的第二语音数据进行区分。

可选的，麦克风为多个，当第一终端接收到多个麦克风在同一时间段发送的多个第一语音数据时，第一终端可以对先多个第一语音数据进行筛选，然后获取筛选后的第一语音数据对应的字幕信息。

在一种可能的实施场景中，第一终端从多个第一语音数据中获取语音音量从大到小排序后排名前N个的第一语音数据，并确定发送这N个第一语音数据的N个麦克风；然后，第一终端获取N个第一语音数据对应的字幕信息，字幕信息包括N个第一语音对应的文本信息以及N个麦克风对应的用户识别信息。其中，N为大于等于1的正整数。也就是说，第一终端根据多个第一语音数据的语音音量进行排序，筛选出排名前N个的第一语音数据，也即声音较大的N个第一语音数据，并且确定发送这N个第一语音数据的N个麦克风，从而仅针对对这N个音量较大的第一语音数据生成字幕信息。可选的，第一语音数据的语音音量可以是对第一语音数据经过处理之后的纯语音检测得到的语音音量，排除噪声等其他因素影响。具体来说，可以将第一语音数据通过语音活动检测(Voice Activity Detection，VAD)以确定是语音还是噪声。这样的好处在于，在会场有其他人员小声讨论或有其他声源时，第一终端可以仅选取针对音量较大的前N个第一语音数据生成字幕信息，避免将非正式发言的或者与会议无关的言论生成字幕进行显示。

在另一种可能的实施场景中，用户身份信息包括职位信息；第一终端获取多个麦克风对应的职位信息，从多个麦克风对应的职位信息中获取职位信息从高到低排序后排名前M个的职位信息，并确定M个职位信息对应的M个麦克风；然后，第一终端获取这M个麦克风发送的M个第一语音数据对应的字幕信息，字幕信息包括M个第一语音数据对应的文本信息以及M个麦克风对应的用户识别信息。其中，M为大于等于1的正整数。也就是说，第一终端根据多个麦克风对应的用户身份信息中的职位信息进行排序，筛选出排名前M个的职位信息对应的M个麦克风，并获取这M个麦克风发送的M个第一语音数据对应的字幕信息，也即确定职位较高的M个发言人发出的语音数据，从而仅针对这M个职位较高的发言人发出的语音数据生成字幕信息。这样的好处在于，多人同时进行发言时往往信息较多且凌乱，根据职位信息筛选职位较高的发言人的语音数据生成字幕呈现给参会人员，有利于参会人员捕捉重要信息。

在又一种可能的实施场景中，第一终端可以将上述两种实施场景进行结合，即先筛选出语音音量排名前N个的第一语音数据，再从这N个语音数据中选择对应的职位信息排名前M个的第一语音数据，最后针对这个M个第一语音数据生成字幕信息。这样既避免将非正式发言的或者与会议无关的言论生成字幕进行显示，又能够有利于参会人员捕捉重要信息。

进一步地，用户识别信息包括用户人脸信息；则当第一终端接收到麦克风发送的第一语音数据时，第一终端可以获取麦克风对应的用户人脸信息，然后根据麦克风对应的用户人脸信息对摄像头当前采集到的至少一个人脸图像信息进行识别，获取至少一个人脸图像信息中与麦克风对应的用户人脸信息匹配的目标人脸图像信息；第一终端拍摄目标人脸图像信息对应的目标人物的画面并通过屏幕显示。这样，第一终端可以基于用户人脸信息与麦克风建立的对应关系，定位会场中正在使用该麦克风进行发言的目标人物，并该目标人物进行拍摄并显示拍摄的画面。

S204，第一终端通过第一屏幕显示第一语音数据对应的字幕信息。

第一屏幕为第一终端对应的会议子系统中的屏幕。

这样，第一终端通过建立麦克风与其第一距离内的人脸图像信息对应的用户识别信息的对应关系，能够在第一终端接收到麦克风发送的第一语音数据时，准确地匹配出使用该麦克风发言的发言人的用户识别信息，从而可以结合语音数据对应的文本信息以及麦克风对应的用户识别信息生成字幕显示给参会人员，以使参会人员能够将发言人与字幕对应起来，从而满足远程会议对于沟通准确性和便利性的要求。

S205，第一终端向第二终端发送第一语音数据对应的字幕信息。

S206，第二终端通过第二屏幕显示语音数据对应的字幕信息。

第一终端将自身采集的第一语音数据生成的对应的字幕信息发送给第二终端，以使与第一终端进行远程会议的各个会场的参会人员，也可以通过第二屏幕呈现第一终端所在会场的发言人讲话的字幕信息。其中，第二屏幕为第二终端对应的子系统中的屏幕。

进一步地，第二终端所在会场采集到第二语音数据并生成对应的字幕信息时也可以发送给第一终端，此时该实施还包括S207-S208：

S207，第二终端向第一终端发送第二终端采集的第二语音数据对应的字幕信息。

S208，第一终端通过第一屏幕显示第二终端采集的第二语音数据对应的字幕信息。

第二终端将自身采集的第二语音数据生成的对应的字幕信息发送给第一终端，以使与第二终端进行远程会议的第一终端所在会场的参会人员，也可以通过第一屏幕呈现第二终端所在会场的发言人讲话的字幕信息。

可选的，第二终端向第一终端发送第二终端采集的第二语音数据对应的字幕信息的同时，还可以发送第二终端采集的第二语音数据的采集时刻。进而，在该可选实施场景中，第一终端可以按照第一语音数据的采集时刻以及第二终端采集的第二语音数据的采集时刻的先后顺序，通过屏幕显示第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息。也就是说，第一终端可以根据多个语音数据的采集时刻进行排序后，有序地显示对应的字幕信息，这样可以使字幕信息呈现的更清晰准确有条理。

本申请实施例中，第一终端通过建立麦克风与其第一距离内的人脸图像信息对应的用户识别信息的对应关系，能够在第一终端接收到麦克风发送的第一语音数据时，准确地匹配出使用该麦克风发言的发言人的用户识别信息，从而可以结合第一语音数据对应的文本信息以及麦克风对应的用户识别信息生成字幕显示给参会人员，以使参会人员能够将发言人与字幕对应起来，从而满足远程会议对于沟通准确性和便利性的要求。进一步地，第一终端与第二终端之间直接进行字幕信息交互，使各个会场都能更快速地看到其他会场发言人的字幕信息。

请参见图3，图3是本申请实施例提供的另一种字幕生成方法的流程示意图，该实施例适用于第一终端与其他第二终端之间通过多点控制单元进行字幕信息的交互的实施场景，该方法包括但不限于如下步骤：

S301，第一终端获取麦克风的标识信息，并通过摄像头采集处于麦克风第一距离内的人脸图像信息。

S302，第一终端根据预先建立的人脸身份信息表，确定人脸图像信息对应的用户识别信息为麦克风对应的用户识别信息。

S301-S302的具体实现方式可以参考S201-S202，此处不再赘述。

S303，当第一终端接收到麦克风发送的第一语音数据时，第一终端获取第一语音数据对应的字幕信息，所述字幕信息包括第一语音数据对应的文本信息以及麦克风对应的用户识别信息。

在该实施例中的实施场景中，S303具体可以包括S3031-S3033：

S3031，当第一终端接收到麦克风发送的第一语音数据时，第一终端向多点控制单元发送语音数据信息。

语音数据信息可以包括第一语音数据以及麦克风对应的用户识别信息。

可选的，麦克风为多个，当第一终端接收到多个麦克风在同一时间段发送的多个第一语音数据时，第一终端可以对先多个第一语音数据进行筛选，然后获取筛选后的第一语音数据对应的文本信息。具体的两种筛选方法可以参考S203中的相关描述，此处不再赘述。

S3032，多点控制单元根据语音数据信息生成第一语音数据对应的字幕信息。

字幕信息包括第一语音数据对应的文本信息以及麦克风对应的用户识别信息。多点控制器自身或者通过语音识别服务器可以对第一语音数据进行语音识别得到第一语音数据对应的文本信息，从而根据第一语音数据对应的文本信息以及麦克风对应的用户识别信息生成字幕信息。

S3033，多点控制单元向第一终端以及第二终端发送第一语音数据对应的字幕信息。

多点控制器将第一终端所在会场的第一语音数据对应的字幕信息一起发送给第一终端和第二终端，使得各个会场的参会人员都同时看到第一终端所在会场得到发言人讲话的字幕信息。

进一步地，若在第一终端发送语音数据信息的同一时间段内，第二终端也在向多点控制单元发送第二终端采集的语音数据信息，则S3033具体可以为：多点控制单元可以向第一终端以及第二终端发送第一终端采集的第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息。也即多点控制器将第一终端与第二终端分别采集的多个语音数据对应的字幕信息一起发送给第一终端以及第二终端，以实现字幕的同步。

进一步可选的，所述语音数据信息还可以包括第一语音数据的采集时刻；则S3033之前，多点控制单元还可以按照第一终端采集的第一语音数据的采集时刻以及第二终端采集的第二语音数据的采集时刻的先后顺序，对第一终端采集的第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息进行排序。多点控制单元按照排序的先后顺序向第一终端和第二终端发送第一终端采集的第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息。也就是说，多点控制单元根据语音数据的采集时刻的先后顺序对多个语音数据对应的字幕信息的先后顺序进行整理后再依次发送，从而使参会人员看到的字幕信息的逻辑更清楚。

S304，第一终端通过第一屏幕显示第一语音数据对应的字幕信息。

S305，第二终端通过第二屏幕显示第一语音数据对应的字幕信息。

可选的，若多点控制单元向第一终端还发送了第二终端采集的第二语音数据对应的字幕信息，则第一终端通过第一屏幕显示第一终端采集的第二语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息。进一步可选的，若多点控制单元按照先后顺序发送第一终端采集的第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息，则第一终端也按照该顺序通过屏幕显示上述第一终端采集的第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息。

进一步可选的，本实施例还可以包括：

S306，多点控制单元根据接收到的多个语音数据信息，生成会议纪要文件。

会议纪要文件可以包括多个语音数据对应的文本信息、时间长度、用户识别信息。进一步地，会议纪要文件可以根据多个语音数据的采集时刻、时间长度、对应的用户识别信息中的职位信息、工号、地址等等信息进行排序后整理生成，具体的排序规则可以根据需要进行设定，这里不作具体限定。这样，可以避免人工对会议纪要进行整理，且会议纪要文件的形式可以灵活设定。

本申请实施例中，第一终端通过建立麦克风与其第一距离内的人脸图像信息对应的用户识别信息的对应关系，能够在第一终端接收到麦克风发送的第一语音数据时，准确地匹配出使用该麦克风发言的发言人的用户识别信息，从而使得多点控制单元可以结合第一语音数据对应的文本信息以及麦克风对应的用户识别信息生成字幕显示给参会人员，以使参会人员能够将发言人与字幕对应起来，从而满足远程会议对于沟通准确性和便利性的要求。进一步地，第一终端与第二终端之间通过多点控制单元进行字幕信息交互，使各个会场都能更快速地看到其他会场发言人的字幕信息，并且还能够实现对多个会场的字幕信息进行排序。

上文主要从不同网元之间交互的角度对本申请实施例提供的方案进行了介绍。可以理解的是，终端为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本申请中所公开的实施例描述的各示例的单元及算法步骤，本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的技术方案的范围。

本申请实施例可以根据上述方法示例对终端进行功能模块或功能单元的划分，例如，可以对应各个功能划分各个功能模块或功能单元，也可以将两个或两个以上的功能集成在一个处理模块或处理单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块或单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。请参见以下具体介绍。

请参阅图5，图5是本申请实施例提供的一种终端的结构示意图。该装置可以用于实现上述图2或图3所示的实施例中的第一终端。如图5所示，该终端包括：

处理模块501，用于获取麦克风的标识信息，并通过摄像头采集处于所述麦克风第一距离内的人脸图像信息；

所述处理模块501还用于：根据预先建立的人脸身份信息表，确定所述人脸图像信息对应的用户识别信息为所述麦克风对应的用户识别信息；

收发模块502，用于接收所述麦克风发送的第一语音数据；

所述处理模块501还用于：获取所述第一语音数据对应的字幕信息，所述字幕信息包括所述第一语音数据对应的文本信息以及所述麦克风对应的用户识别信息；

所述处理模块501还用于：通过第一屏幕显示所述第一语音数据对应的字幕信息。

可选的，所述处理模块501用于：

对所述第一语音数据进行语音识别得到所述第一语音数据对应的文本信息。

可选的，所述收发模块502还用于：

向第二终端发送所述第一语音数据对应的字幕信息，所述第一语音数据对应的字幕信息被所述第二终端通过第二屏幕显示，所述第二终端为与所述终端进行语音交互的终端。

可选的，所述收发模块502还用于：接收第二终端发送的所述第二终端采集的第二语音数据对应的字幕信息；

所述处理模块501还用于：通过所述第一屏幕显示所述第二语音数据对应的字幕信息。

可选的，所述收发模块502还用于：接收所述第二终端发送的所述第二语音数据的采集时刻；

所述处理模块501用于：按照所述第一语音数据的采集时刻以及所述第二语音数据的采集时刻的先后顺序，通过所述第一屏幕显示所述第一语音数据对应的字幕信息和所述第二语音数据对应的字幕信息。

可选的，所述收发模块502还用于：

向多点控制单元发送语音数据信息，所述语音数据信息包括所述第一语音数据以及所述麦克风对应的用户识别信息；

接收所述多点控制单元发送的所述第一语音数据对应的字幕信息，所述字幕信息为所述多点控制单元基于语音识别得到的所述第一语音数据对应的文本信息以及所述麦克风对应的用户识别信息生成的。

可选的，所述收发模块502用于：

接收所述多点控制单元发送的所述第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息，所述第二终端为与所述第一终端进行语音交互的终端；

可选的，所述语音数据信息还包括所述第一语音数据的采集时刻；所述第一语音数据的采集时刻被所述多点控制单元用于按照所述第一语音数据的采集时刻以及所述第二终端采集的第二语音数据的采集时刻的先后顺序，对所述第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息进行排序。

可选的，所述麦克风为多个，当所述第一终端接收到所述多个麦克风在同一时间段发送的多个第一语音数据时，所述处理模块501还用于：

从所述多个第一语音数据中获取语音音量从大到小排序后排名前N个的第一语音数据，并确定发送所述N个第一语音数据的N个麦克风，N为大于等于1的正整数；

获取所述第一语音数据对应的字幕信息包括：

获取所述N个第一语音数据对应的字幕信息，所述字幕信息包括所述N个第一语音数据对应的文本信息以及所述N个麦克风对应的用户识别信息。

可选的，所述用户身份信息包括职位信息；

所述麦克风为多个，当所述第一终端接收到所述多个麦克风在同一时间段发送的多个第一语音数据时，所述处理模块501还用于：

获取所述多个麦克风对应的职位信息；

从所述多个麦克风对应的职位信息中获取职位信息从高到低排序后排名前M个的职位信息，并确定所述M个职位信息对应的M个麦克风，M为大于等于1的正整数；

获取所述第一语音数据对应的字幕信息包括：

获取所述M个麦克风发送的M个第一语音数据对应的字幕信息，所述字幕信息包括所述M个第一语音对应的文本信息以及所述M个麦克风对应的用户识别信息。

可选的，所述用户识别信息包括用户人脸信息或用户身份信息。

可选的，所述处理模块501用于：

获取与所述人脸图像信息匹配的用户人脸信息；

确定与所述人脸图像信息匹配的用户人脸信息对应的用户身份信息为所述麦克风对应的用户识别信息。

可选的，所述用户识别信息包括用户人脸信息；所述处理模块501还用于：

当接收到所述麦克风发送的第一语音数据时，获取所述麦克风对应的用户人脸信息；

根据所述麦克风对应的用户人脸信息对所述摄像头当前采集到的至少一个人脸图像信息进行识别，获取所述至少一个人脸图像信息中与所述麦克风对应的用户人脸信息匹配的目标人脸图像信息；

拍摄所述目标人脸图像信息对应的目标人物的画面并通过所述第一屏幕显示。

上述图5所示实施例中的终端可以以图6所示的终端600实现。如图6所示，为本申请实施例提供了另一种终端的结构示意图，图6所示的终端600包括处理器601，处理器601用于实现图5中处理模块501所执行的动作。所述终端600还包括收发器603，收发器603用于实现图5中收发模块502所执行的动作。处理器601和收发器603通信连接，例如通过总线相连。所述终端600还可以包括存储器602。存储器602用于存储供终端600执行的程序代码和数据，处理器601用于执行存储器602中存储的应用程序代码，以实现图2-图3所示实施例提供的终端的动作。收发器603用于支持终端600与其他终端设备之间的信息传输。

需要说明的是，实际应用中终端600可以包括一个或者多个处理器，该终端600的结构并不构成对本发明实施例的限定。

处理器601可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic,GAL)或其任意组合。

存储器602可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)；存储器602也可以包括非易失性存储器(non-volatilememory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器602还可以包括上述种类的存储器的组合。

在本申请实施例中还提供了一种计算机存储介质，可以用于存储图2-图3所示实施例中终端所用的计算机软件指令，其包含用于执行上述实施例中为终端所设计的程序。该存储介质包括但不限于快闪存储器、硬盘、固态硬盘。

在本申请实施例中还提供了一种计算机程序产品，该计算机产品被计算设备运行时，可以执行上述图2-图3实施例中为终端所设计的字幕生成方法。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选的还包括没有列出的步骤或单元，或可选的还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本领域普通技术人员可以理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种字幕生成方法，其特征在于，包括：

第一终端获取麦克风的标识信息，并通过摄像头采集处于所述麦克风第一距离内的人脸图像信息；

所述第一终端根据预先建立的人脸身份信息表，确定所述人脸图像信息对应的用户识别信息为所述麦克风对应的用户识别信息；

当所述第一终端接收到所述麦克风发送的第一语音数据时，所述第一终端获取所述第一语音数据对应的字幕信息，所述字幕信息包括所述第一语音数据对应的文本信息以及所述麦克风对应的用户识别信息；

所述第一终端通过第一屏幕显示所述第一语音数据对应的字幕信息；

当所述第一终端接收到多个麦克风在同一时间段发送的多个第一语音数据时，所述第一终端获取所述第一语音数据对应的字幕信息之前，还包括：

所述第一终端从所述多个第一语音数据中先筛选出语音音量排名前N个的第一语音数据，再从这N个语音数据中选择对应的职位信息排名前M个的第一语音数据，最后针对所述M个第一语音数据生成字幕信息。

2.如权利要求1所述的方法，其特征在于，所述第一终端获取所述第一语音数据对应的字幕信息包括：

所述第一终端对所述第一语音数据进行语音识别得到所述第一语音数据对应的文本信息。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

所述第一终端向第二终端发送所述第一语音数据对应的字幕信息，所述第一语音数据对应的字幕信息被所述第二终端通过第二屏幕显示，所述第二终端为与所述第一终端进行语音交互的终端。

4.如权利要求2所述的方法，其特征在于，所述方法还包括：

所述第一终端接收第二终端发送的所述第二终端采集的第二语音数据对应的字幕信息；

所述第一终端通过所述第一屏幕显示所述第二语音数据对应的字幕信息。

5.如权利要求4所述的方法，其特征在于，

所述第一终端还接收所述第二终端发送的所述第二语音数据的采集时刻；

所述第一终端通过所述第一屏幕显示所述第二语音数据对应的字幕信息包括：

所述第一终端按照所述第一语音数据的采集时刻以及所述第二语音数据的采集时刻的先后顺序，通过所述第一屏幕显示所述第一语音数据对应的字幕信息和所述第二语音数据对应的字幕信息。

6.如权利要求1所述的方法，其特征在于，所述第一终端获取所述第一语音数据对应的字幕信息包括：

所述第一终端向多点控制单元发送语音数据信息，所述语音数据信息包括所述第一语音数据以及所述麦克风对应的用户识别信息；

所述第一终端接收所述多点控制单元发送的所述第一语音数据对应的字幕信息，所述字幕信息为所述多点控制单元基于语音识别得到的所述第一语音数据对应的文本信息以及所述麦克风对应的用户识别信息生成的。

7.如权利要求6所述的方法，其特征在于，所述第一终端接收所述多点控制单元发送的所述第一语音数据对应的字幕信息包括：

所述第一终端接收所述多点控制单元发送的所述第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息，所述第二终端为与所述第一终端进行语音交互的终端；

所述第一终端还通过所述第一屏幕显示所述第二语音数据对应的字幕信息。

8.如权利要求7所述的方法，其特征在于，所述语音数据信息还包括所述第一语音数据的采集时刻；所述第一语音数据的采集时刻被所述多点控制单元用于按照所述第一语音数据的采集时刻以及所述第二终端采集的第二语音数据的采集时刻的先后顺序，对所述第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息进行排序。

9.如权利要求1-8任一项所述的方法，其特征在于，所述用户识别信息包括用户人脸信息或用户身份信息。

10.如权利要求9所述的方法，其特征在于，所述第一终端根据预先建立的人脸身份信息表，确定所述人脸图像信息对应的用户识别信息为所述麦克风对应的用户识别信息包括：

所述第一终端获取与所述人脸图像信息匹配的用户人脸信息；

所述第一终端确定与所述人脸图像信息匹配的用户人脸信息对应的用户身份信息为所述麦克风对应的用户识别信息。

11.如权利要求9所述的方法，其特征在于，所述用户识别信息包括用户人脸信息；所述方法还包括：

当所述第一终端接收到所述麦克风发送的第一语音数据时，所述第一终端获取所述麦克风对应的用户人脸信息；

所述第一终端根据所述麦克风对应的用户人脸信息对所述摄像头当前采集到的至少一个人脸图像信息进行识别，获取所述至少一个人脸图像信息中与所述麦克风对应的用户人脸信息匹配的目标人脸图像信息；

所述第一终端拍摄所述目标人脸图像信息对应的目标人物的画面并通过所述第一屏幕显示。

12.一种终端，其特征在于，包括：

处理模块，用于获取麦克风的标识信息，并通过摄像头采集处于所述麦克风第一距离内的人脸图像信息；

所述处理模块还用于：根据预先建立的人脸身份信息表，确定所述人脸图像信息对应的用户识别信息为所述麦克风对应的用户识别信息；

收发模块，用于接收所述麦克风发送的第一语音数据；

所述处理模块还用于：获取所述第一语音数据对应的字幕信息，所述字幕信息包括所述第一语音数据对应的文本信息以及所述麦克风对应的用户识别信息；

所述处理模块还用于：通过第一屏幕显示所述第一语音数据对应的字幕信息；

当所述收发模块接收到多个麦克风在同一时间段发送的多个第一语音数据时，所述处理模块还用于：从所述多个第一语音数据中先筛选出语音音量排名前N个的第一语音数据，再从这N个语音数据中选择对应的职位信息排名前M个的第一语音数据，最后针对所述M个第一语音数据生成字幕信息。

13.如权利要求12所述的终端，其特征在于，所述处理模块用于：

14.如权利要求13所述的终端，其特征在于，所述收发模块还用于：

15.如权利要求13所述的终端，其特征在于，

所述收发模块还用于：接收第二终端发送的所述第二终端采集的第二语音数据对应的字幕信息；

所述处理模块还用于：通过所述第一屏幕显示所述第二语音数据对应的字幕信息。

16.如权利要求15所述的终端，其特征在于，

所述收发模块还用于：接收所述第二终端发送的所述第二语音数据的采集时刻；

所述处理模块用于：按照所述第一语音数据的采集时刻以及所述第二语音数据的采集时刻的先后顺序，通过所述第一屏幕显示所述第一语音数据对应的字幕信息和所述第二语音数据对应的字幕信息。

17.如权利要求12所述的终端，其特征在于，所述收发模块还用于：

18.权利要求17所述的终端，其特征在于，所述收发模块用于：

19.如权利要求18所述的终端，其特征在于，所述语音数据信息还包括所述第一语音数据的采集时刻；所述第一语音数据的采集时刻被所述多点控制单元用于按照所述第一语音数据的采集时刻以及所述第二终端采集的第二语音数据的采集时刻的先后顺序，对所述第一语音数据对应的字幕信息和第二终端采集的第二语音数据对应的字幕信息进行排序。

20.如权利要求12-19任一项所述的终端，其特征在于，所述用户识别信息包括用户人脸信息或用户身份信息。

21.如权利要求20所述的终端，其特征在于，所述处理模块用于：

获取与所述人脸图像信息匹配的用户人脸信息；

22.如权利要求20所述的终端，其特征在于，所述用户识别信息包括用户人脸信息；所述处理模块还用于：

23.一种终端，其特征在于，包括：

存储器，用于存储程序；

处理器，用于执行所述存储器存储的所述程序，当所述程序被执行时，所述处理器用于执行如权利要求1-11中任一项所述的方法。

24.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-11任意一项所述的方法。