CN112040119B

CN112040119B - 会议发言人追踪方法、装置、计算机设备和存储介质

Info

Publication number: CN112040119B
Application number: CN202010805074.8A
Authority: CN
Inventors: 郑颖龙; 赖蔚蔚; 周昉昉; 林嘉鑫; 刘佳木; 谢彬瑜; 叶杭; 吴广财; 郑杰生
Original assignee: Guangdong Electric Power Information Technology Co Ltd
Current assignee: Guangdong Electric Power Information Technology Co Ltd
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-08-26
Anticipated expiration: 2040-08-12
Also published as: CN112040119A

Abstract

本申请涉及一种会议发言人追踪方法、装置、计算机设备和存储介质。该方法包括：通过麦克风单元获取会场中的语音信号，并将语音信号传输至控制单元；通过控制单元根据语音信号确定当前发言人所对应的麦克风和相应的位置信息，并将当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元；通过声纹识别单元识别传输至的语音信号，确定当前发言人的身份信息，并查找与身份信息匹配的人脸信息，将人脸信息和位置信息传输至人脸识别单元；通过人脸识别单元，在会场中位置信息所对应的位置处，识别匹配的当前发言人的人脸后，控制拍摄单元对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。采用本方法能够提高追踪会议发言人的效率。

Description

会议发言人追踪方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种会议发言人追踪方法、装置、计算机设备和存储介质。

背景技术

在工作和生活中，人们常常需要在较大的会议室举行多人会议或者在多个不同地点举行会议，由于参会人员较多或者地点分散，难以看到发言人的发言状态。因此，对会议中的发言人进行追踪拍摄，并将拍摄到的发言人发言时的视频画面分享至会场大屏幕或各分会议室非常重要。

传统方法中，一般需要工作人员在后台控制拍摄单元对发言人进行拍摄，然而，这种通过人为操作来追踪拍摄发言人的方式，操作起来非常麻烦，降低了追踪会议发言人的效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高追踪效率的会议发言人追踪方法、系统、装置、计算机设备和存储介质。

一种会议发言人追踪方法，所述方法包括：

通过麦克风单元获取会场中的语音信号，并将所述语音信号传输至控制单元；所述麦克风单元包括设置在所述会场中多个预设位置处的麦克风；

通过所述控制单元，根据所述语音信号，确定当前发言人所对应的麦克风和相应的位置信息，并将所述当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元；

通过所述声纹识别单元识别传输至的所述语音信号，确定所述当前发言人的身份信息，并查找与所述身份信息匹配的人脸信息，将所述人脸信息和所述位置信息传输至人脸识别单元；

通过所述人脸识别单元，在所述会场中所述位置信息所对应的位置处，识别与所述人脸信息匹配的所述当前发言人的人脸后，控制拍摄单元对准所述当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

在其中一个实施例中，在所述通过所述控制单元，根据所述语音信号，确定当前发言人所对应的麦克风和相应的位置信息之后，所述方法还包括：

通过所述控制单元，关闭所述会场中除所述当前发言人所对应的麦克风之外的麦克风；

所述将所述当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元包括：

通过所述当前发言人所对应的麦克风采集所述当前发言人的语音信号，并将采集到的语音信号传输至声纹识别单元。

在其中一个实施例中，所述方法还包括：

通过所述麦克风单元将所述当前发言人的语音信号传输至语音识别单元；

通过所述语音识别单元识别所述当前发言人的语音信号中包含的下一个发言人的人名信息，并将所述人名信息传输至所述控制单元；

通过所述控制单元，根据所述人名信息，确定所述下一个发言人的身份信息，并将所述下一个发言人的身份信息所对应的人脸信息传输至所述人脸识别单元；

通过所述人脸识别单元，识别所述会场中与所述下一个发言人的人脸信息匹配的人脸；

在所述当前发言人发言结束后，控制拍摄单元对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

在其中一个实施例中，所述通过所述人脸识别单元，识别所述会场中与所述下一个发言人的人脸信息匹配的人脸包括：

通过所述人脸识别单元，识别所述会场中与所述下一个发言人的人脸信息匹配的人脸，并确定所述下一个发言人的位置信息；

在所述确定所述下一个发言人的位置信息之后，所述方法还包括：

通过所述人脸识别单元，将所述下一个发言人的位置信息传输至所述控制单元；

通过所述控制单元，根据所述下一个发言人的位置信息，确定所述下一个发言人所对应的麦克风；

在当前发言人发言结束后，通过所述控制单元关闭所述当前发言人所对应的麦克风，并开启所述下一个发言人所对应的麦克风。

在其中一个实施例中，在所述通过所述控制单元关闭所述当前发言人所对应的麦克风，并开启所述下一个发言人所对应的麦克风之后，所述方法还包括：

通过所述下一个发言人所对应的麦克风接收语音信号，并传输至所述声纹识别单元；

通过所述声纹识别单元识别传输至的语音信号，确定传输至的语音信号所对应的身份信息；

当确定的所述身份信息与所述下一个发言人的的身份信息一致时，执行所述控制拍摄单元对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

在其中一个实施例中，所述方法还包括：

当确定的所述身份信息与所述下一个发言人的的身份信息不一致时，开启所述麦克风单元中关闭的各麦克风；

执行所述通过麦克风单元获取会场中的语音信号，并将所述语音信号传输至控制单元及后续步骤。

在其中一个实施例中，所述通过所述控制单元，根据所述语音信号，确定当前发言人所对应的麦克风的位置信息包括：

通过所述控制单元，根据各所述麦克风所采集的语音信号的能量强度，确定能量强度最强的语音信号所对应的麦克风的编号；

根据所述麦克风的编号，确定当前发言人所对应的麦克风的位置信息。

在其中一个实施例中，每个麦克风所采集的所述语音信号为语音信号集合；所述通过所述控制单元，根据所述语音信号，确定当前发言人所对应的麦克风和相应的位置信息包括：

将所述下一个发言人的身份信息，作为新的当前发言人的身份信息；

通过所述控制单元，对每个麦克风所采集的语音信号集合进行分解，得到每个所述语音信号集合中包含的不同的参会人员分别对应的语音信号；

通过所述控制单元，将所述当前发言人的身份信息所对应的声纹信息与每个所述语音信号集合中包含的各语音信号的声纹信息进行比对，确定所述当前发言人对应的各语音信号集合；所述当前发言人对应的各语音信号集合，为包含所述当前发言人的身份信息所对应的声纹信息的各语音信号集合；

根据所述当前发言人对应的各语音信号集合中所述当前发言人的语音信号的能量强度，将所述当前发言人的语音信号的能量强度最强的语音信号集合对应的麦克风，确定为所述当前发言人所对应的麦克风；

根据所述当前发言人所对应的麦克风，确定所述当前发言人所对应的麦克风的位置信息。

一种会议发言人追踪系统，所述系统包括麦克风单元、控制单元、声纹识别单元、人脸识别单元和拍摄单元，其中：

所述麦克风单元，用于获取会场中的语音信号，并将所述语音信号传输至所述控制单元；

所述控制单元，用于根据所述语音信号，确定当前发言人所对应的麦克风和相应的位置信息，并将所述当前发言人所对应的麦克风采集的语音信号传输至所述声纹识别单元；

所述声纹识别单元，用于识别传输至的所述语音信号，确定所述当前发言人的身份信息，并查找与所述身份信息匹配的人脸信息，将所述人脸信息和所述位置信息传输至所述人脸识别单元；

所述人脸识别单元，用于在所述会场中所述位置信息所对应的位置处，识别与所述人脸信息匹配的所述当前发言人的人脸后，控制拍摄单元对准所述当前发言人进行拍摄；

所述拍摄单元，用于对准所述当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

一种会议发言人追踪装置，所述装置包括：

语音信号获取单元，用于接收麦克风单元获取的会场中的语音信号，并将所述语音信号传输至位置信息确定单元；所述麦克风单元包括设置在所述会场中多个预设位置处用于采集语音信号的麦克风；

位置信息确定单元，用于根据所述语音信号，确定当前发言人所对应的麦克风和相应的位置信息，并将所述当前发言人所对应的麦克风采集的语音信号传输至身份确定单元；

身份信息确定单元，用于接收所述语音信号并识别所述语音信号的声纹信息以确定当前发言人的身份信息，并查找与所述身份信息匹配的人脸信息，将所述人脸信息和所述位置信息传输至追踪单元；

追踪单元，用于根据所述人脸信息和位置信息，在所述会场中所述位置信息所对应的位置处，识别与所述人脸信息匹配的所述当前发言人的人脸，并对准所述当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行本申请各实施例所述的会议发言人追踪方法中的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行本申请各实施例所述的会议发言人追踪方法中的步骤。

上述会议发言人追踪方法、系统、装置、计算机设备和存储介质，通过设置在会场中多个预设位置处的麦克风获取会场中的语音信号，然后通过控制单元根据语音信号确定当前发言人所对应的麦克风的位置信息，并将在位置信息对应位置处采集的语音信号传输至声纹识别单元，通过声纹识别单元识别传输至的语音信号，确定当前发言人的身份信息，并查找与身份信息匹配的人脸信息，这样能够自动地确定发言人的位置信息和人脸信息，然后通过人脸识别单元在会场中位置信息所对应的位置处，自动地识别与人脸信息匹配的当前发言人的人脸后，控制拍摄单元对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。从而实现了全自动地追踪会议发言人，向参会人员共享拍摄到的发言人的视频信息，无需人工操作来追踪发言人，能够提高对会议发言人的追踪效率。

附图说明

图1为一个实施例中会议发言人追踪方法的应用环境图；

图2为一个实施例中会议发言人追踪方法的流程示意图；

图3为一个实施例中会议发言人追踪装置的结构框图；

图4为另一个实施例中会议发言人追踪装置的结构框图；

图5为一个实施例中会议发言人追踪系统的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的会议发言人追踪方法，可以应用于如图1所示的应用环境中。其中，麦克风单元102获取会场中的语音信号，并将语音信号传输至控制单元104，控制单元104根据语音信号确定当前发言人的麦克风的位置信息，并将在该位置信息对应位置处采集的语音信号传输至声纹识别单元106，声纹识别单元106识别语音信号确定当前发言人的身份信息，并确定相应的人脸信息，声纹识别单元106将人脸信息传输至人脸识别单元108，人脸识别单元108在会场中位置信息所对应的位置处识别与人脸信息匹配的当前发言人的人脸，并控制拍摄单元110对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。其中，麦克风单元102包括设置在会场中多个预设位置处的麦克风。控制单元104和声纹识别单元106可以设置于同一或不同的终端或服务器中。人脸识别单元108和拍摄单元110可以为集成在一起的摄像机，比如：双目摄像机。人脸识别单元108和拍摄单元110也可以为各自独立的摄像机。

在一个实施例中，如图2所示，提供了一种会议发言人追踪方法，包括以下步骤：

S202，通过麦克风单元获取会场中的语音信号，并将语音信号传输至控制单元；麦克风单元包括设置在会场中多个预设位置处的麦克风。

其中，会场为用于举行会议的场地。

在一个实施例中，会场可以为一个或多个。即，既可以是在一个会场中举行会议，又可以是在多个会场中同时举行同一场会议。

在一个实施例中，可以在会场中每个座位的前方分别设置一个麦克风。在另一个实施例中，可以在会场中每隔预设数量个座位的前方设置一个麦克风。比如：在会场中每5个相邻座位的前方设置一个麦克风。

S204，通过控制单元，根据语音信号，确定当前发言人所对应的麦克风和相应的位置信息，并将当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元。

其中，当前发言人，是当前正在发言的参会人员。

在一个实施例中，麦克风的位置信息，可以为麦克风在会场中的位置坐标。

可以理解，当前发言人所对应的麦克风，为距当前发言人最近的麦克风。在一个实施例中，控制单元可以根据各麦克风所分别传输至的语音信号的能量强度，确定当前发言人所对应的麦克风是哪一个麦克风，然后根据预先录入的麦克风和位置信息之间的对应关系，确定当前发言人所对应的麦克风的位置信息。

在一个实施例中，控制单元可以将除当前发言人所对应的麦克风之外的麦克风关闭，只将当前发言人所对应的麦克风保持开启状态，并将当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元。在另一个实施例中，控制单元可以不关闭麦克风，只将当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元。

S206，通过声纹识别单元识别传输至的语音信号，确定当前发言人的身份信息，并查找与身份信息匹配的人脸信息，将人脸信息和位置信息传输至人脸识别单元。

在一个实施例中，可以预先录入各个参会人员的身份信息，可以理解，也可以仅录入需要发言的参会人员的身份信息而不录入其他不需要发言的参会人员的身份信息。在一个实施例中，身份信息至少需包括人名信息、人脸信息和声纹信息。比如：其中一个参会人员的身份信息包括：小王、人脸信息A和声纹信息A。可以理解，在其他实施方式中，所述身份信息也可以包括性别信息或其他用于识别身份的信息。

在一个实施例中，声纹识别单元可以对控制单元传输至的当前发言人的语音信号进行声纹识别，根据预先录入的各参会人员的身份信息中的声纹信息，确定当前发言人的身份信息，然后将预先录入的该身份信息中的人脸信息作为当前发言人的人脸信息。比如：声纹识别单元识别到当前发言人的语音信号中的声纹信息与预先录入的小王的声纹信息相匹配，则确定当前发言人为小王，然后将预先录入的小王的人脸信息作为当前发言人的人脸信息。

S208，通过人脸识别单元，在会场中位置信息所对应的位置处，识别与人脸信息匹配的当前发言人的人脸后，控制拍摄单元对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

在一个实施例中，人脸识别单元在接收到位置信息和人脸信息后，可以在会场中位置信息所对应的位置处的预设范围内，识别与人脸信息匹配的人脸，并将匹配的人脸所对应的参会人员确定为当前发言人。拍摄单元可以调整至对准人脸识别单元所确定的当前发言人的角度，对当前发言人进行拍摄。

在一个实施例中，可以将拍摄单元拍摄到的视频信息展示于会场的大屏幕、会场中的终端显示屏和参会人员的移动终端显示屏等中的至少一种。

上述会议发言人追踪方法中，通过设置在会场中多个预设位置处的麦克风获取会场中的语音信号，然后通过控制单元根据语音信号确定当前发言人所对应的麦克风的位置信息，并将在位置信息对应位置处采集的语音信号传输至声纹识别单元，通过声纹识别单元识别传输至的语音信号，确定当前发言人的身份信息，并查找与身份信息匹配的人脸信息，这样能够自动地确定发言人的位置信息和人脸信息，然后通过人脸识别单元在会场中位置信息所对应的位置处，自动地识别与人脸信息匹配的当前发言人的人脸后，控制拍摄单元对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。从而实现了全自动地追踪会议发言人，向参会人员共享拍摄到的发言人的视频信息，无需人工操作来追踪发言人，能够提高对会议发言人的追踪效率。在一个实施例中，在通过控制单元，根据语音信号，确定当前发言人所对应的麦克风和相应的位置信息的步骤之后，该方法还包括：通过控制单元，关闭会场中除当前发言人所对应的麦克风之外的麦克风。将当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元的步骤，具体包括如下步骤：通过当前发言人所对应的麦克风采集当前发言人的语音信号，并将采集到的语音信号传输至声纹识别单元。

具体地，在确定当前发言人所对应的麦克风和当前发言人所对应的麦克风的位置信息之后，控制单元可以关闭会场中除当前发言人所对应的麦克风之外的麦克风，将当前发言人所对应的麦克风保持开启状态。控制单元可以将当前发言人所对应的麦克风采集到的当前发言人的语音信号传输至声纹识别单元。

本实施例中，在确定当前发言人所对应的麦克风之后，控制单元可以自动关闭会场中除当前发言人所对应的麦克风之外的麦克风，从而能够全自动地控制会场中的麦克风，无需人工进行控制，提高了对会议发言人的追踪效率。

在一个实施例中，该方法还包括如下步骤：通过麦克风单元将当前发言人的语音信号传输至语音识别单元；通过语音识别单元识别当前发言人的语音信号中包含的下一个发言人的人名信息，并将人名信息传输至控制单元；通过控制单元，根据人名信息，确定下一个发言人的身份信息，并将下一个发言人的身份信息所对应的人脸信息传输至人脸识别单元；通过人脸识别单元，识别会场中与下一个发言人的人脸信息匹配的人脸；在当前发言人发言结束后，控制拍摄单元对准下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

其中，语音识别单元，用于识别语音信号中的文字内容。下一个发言人，是在当前发言人之后的下一个将要发言的参会人员。

在一个实施例中，声纹识别单元、控制单元和语音识别单元可以设置于同一或不同的终端或服务器中。

具体地，当前发言人所对应的麦克风可以采集当前发言人的语音信号，并将当前发言人的语音信号传输至语音识别单元。语音识别单元可以对当前发言人的语音信号进行语音识别，将识别出的语音信号中包含的文字内容与预先录入的参会人员的人名信息进行比对，确定当前发言人的语音信号中包含的下一个发言人的人名信息，并将下一个发言人的人名信息传输至控制单元。

在一个实施例中，当识别出的文字内容中包括多个参会人员的人名信息时，可以根据各人名信息出现的时间信息，将最后一个出现的人名信息确定为下一个发言人的人名信息。比如：预先录入的参会人员的人名信息包括小王、小张和小李，当识别出的文字内容中先后分别出现小王和小李时，则将后出现的小李确定为下一个发言人的人名信息。

在另一个实施例中，当识别出的文字内容中只包括一个参会人员的人名信息时，可以将该人名信息确定为下一个发言人的人名信息。比如：预先录入的参会人员的人名信息包括小王、小张和小李，当识别出的文字内容中只出现了小王时，则将小王确定为下一个发言人的人名信息。

可以理解，一般在进行会议时，当前发言人在发言完毕前，会指定下一个发言人进行发言，从而保证会议流程的顺利进行，而且一般是在上一发言人即将结束发言时指定下一发言人进行发言，因此在上一发言人的发言内容中最后出现的人名信息则最有可能成为下一发言人。

在一个实施例中，可以预先录入各参会人员的身份信息。在一个实施例中，身份信息可以包括人名信息、人脸信息和声纹信息等中的至少一种。在一个实施例中，控制单元可以根据下一个发言人的人名信息，确定下一个发言人的身份信息，然后将预先录入的该身份信息中的人脸信息确定为下一个发言人的人脸信息，并将所确定的下一个发言人的人脸信息传输至人脸识别单元。比如：下一个发言人的人名信息为小王，预先录入的小王的身份信息包括小王、声纹信息A和人脸信息A，则可以根据预先录入的小王的身份信息确定下一个发言人的人脸信息为人脸信息A。

在一个实施例中，人脸识别单元在接收到下一个发言人的人脸信息后，可以在会场中识别与下一个发言人的人脸信息匹配的人脸，并将识别到的匹配的人脸所对应的参会人员确定为下一个发言人。在当前发言人发言结束后，拍摄单元可以调整至对准所确定的下一个发言人的角度，对下一个发言人进行拍摄。

在一个实施例中，当麦克风在预设时间内未接收到当前发言人的语音信号时，则可以确定当前发言人发言结束。

本实施例中，语音识别单元可以识别当前发言人的语音信号，确定下一个发言人的人名信息，控制单元可以根据人名信息确定下一个发言人的人脸信息，人脸识别单元可以在会场中识别与人脸信息匹配的人脸，从而能够在当前发言人发言结束后，自动追踪到下一个发言人，并将视频切换至下一个发言人，无需人工进行操作，提高了对会议发言人的追踪效率。

在一个实施例中，通过人脸识别单元，识别会场中与下一个发言人的人脸信息匹配的人脸包括：通过人脸识别单元，识别会场中与下一个发言人的人脸信息匹配的人脸，并确定下一个发言人的位置信息。在确定下一个发言人的位置信息的步骤之后，该方法还包括如下步骤：通过人脸识别单元，将下一个发言人的位置信息传输至控制单元；通过控制单元，根据下一个发言人的位置信息，确定下一个发言人所对应的麦克风；在当前发言人发言结束后，通过控制单元关闭当前发言人所对应的麦克风，并开启下一个发言人所对应的麦克风。

具体地，人脸识别单元在接收到下一个发言人的人脸信息后，可以在会场中识别与下一个发言人的人脸信息匹配的人脸，并确定下一个发言人的位置信息，将下一个发言人的位置信息传输至控制单元。控制单元可以根据下一个发言人的位置信息、以及预先录入的麦克风和位置信息之间的对应关系，确定下一个发言人所对应的麦克风。在当前发言人发言结束后，控制单元可以关闭当前发言人所对应的麦克风，并开启下一个发言人所对应的麦克风。

本实施例中，在当前发言人发言结束后，控制单元可以自动关闭当前发言人所对应的麦克风，并开启下一个发言人所对应的麦克风，从而能够全自动地切换会场中的麦克风，对会议发言人进行追踪，无需人工进行操作，提高了对会议发言人的追踪效率。

在一个实施例中，在通过控制单元关闭当前发言人所对应的麦克风，并开启下一个发言人所对应的麦克风的步骤之后，该方法还包括如下步骤：通过下一个发言人所对应的麦克风接收语音信号，并传输至声纹识别单元；通过声纹识别单元识别传输至的语音信号，确定传输至的语音信号所对应的身份信息；当确定的身份信息与下一个发言人的身份信息一致时，执行控制拍摄单元对准下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

具体地，在关闭当前发言人所对应的麦克风，并开启下一个发言人所对应的麦克风之后，下一个发言人所对应的麦克风可以采集语音信号，并将采集的语音信号传输至声纹识别单元。声纹识别单元可以对传输至的语音信号进行声纹识别，将识别到的声纹信息与预先录入的参会人员的声纹信息进行比对，确定传输至的语音信号所对应的身份信息。当确定的身份信息与当前发言人的语音信号中包含的下一个发言人的人名信息所对应的身份信息一致时，执行控制拍摄单元对准下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息的步骤。

例如：通过声纹识别单元识别到的声纹信息与预先录入的小张的声纹信息一致，则确定传输至的语音信号对应的身份信息为小张的身份信息。在当前发言人的语音信号中包含的下一个发言人的人名信息也为小张时，则表明人脸识别单元所匹配到的下一个发言人的人脸是正确的，则执行控制拍摄单元对准下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息的步骤。

本实施例中，可以根据人脸识别单元所匹配到的人脸对应的位置信息处的麦克风采集语音信号，并根据采集到的语音信号确定人脸识别单元所匹配到的人脸是否准确，从而提高了对会议发言人进行追踪的准确性。

在一个实施例中，该方法还包括如下步骤：当确定的身份信息与下一个发言人的身份信息不一致时，开启麦克风单元中关闭的各麦克风；执行通过麦克风单元获取会场中的语音信号，并将语音信号传输至控制单元及后续步骤。

可以理解，当确定的身份信息与下一个发言人的人名信息所对应的身份信息不一致时，则有可能是由于所述人脸识别单元识别到的下一发言人的身份信息错误，此时则需要重新控制麦克风采集声纹信息并确定所述下一发言人的位置，并控制所述人脸识别单元在所述下一发言人的位置再次进行人脸识别，从而确定正确的下一发言人并进行追踪。

具体地，当确定的身份信息与当前发言人的语音信号中包含的下一个发言人的人名信息所对应的身份信息不一致时，则可以开启麦克风单元中关闭的各麦克风，执行通过麦克风单元获取会场中的语音信号，并将语音信号传输至控制单元及后续步骤，以重新确定当前发言人。

本实施例中，可以根据人脸识别单元所匹配到的人脸对应的位置信息处的麦克风采集语音信号，并根据采集到的语音信号确定人脸识别单元所匹配到的人脸是否准确，如果不准确，则可以开启全部麦克风，重新确定当前发言人，从而提高了对会议发言人进行追踪的准确性。

在一个实施例中，通过控制单元，根据语音信号，确定当前发言人所对应的麦克风和相应的位置信息的步骤包括：通过控制单元，根据各麦克风所采集的语音信号的能量强度，确定能量强度最强的语音信号所对应的麦克风的编号；根据麦克风的编号，确定当前发言人所对应的麦克风的位置信息。

具体地，可以预先录入麦克风的编号和麦克风的位置信息之间的对应关系。控制单元可以根据各麦克风所采集的语音信号的能量强度，将能量强度最强的语音信号所对应的麦克风确定为当前发言人所对应的麦克风，并根据该麦克风的编号、以及麦克风的编号和麦克风的位置信息之间的对应关系，确定当前发言人所对应的麦克风的位置信息。

本实施例中，控制单元可以根据各麦克风所采集的语音信号的能量强度，自动地确定当前发言人所对应的麦克风的位置信息，无需人工操作，从而能够提高对会议发言人的追踪效率。

在一个实施例中，每个麦克风所采集的所述语音信号为语音信号集合。通过控制单元，根据语音信号，确定当前发言人所对应的麦克风的位置信息的步骤，具体包括如下步骤：将下一个发言人的身份信息，作为新的当前发言人的身份信息；通过控制单元，对每个麦克风所采集的语音信号集合进行分解，得到每个语音信号集合中包含的不同的参会人员分别对应的语音信号；通过所述声纹识别单元，将当前发言人的身份信息所对应的声纹信息与每个语音信号集合中包含的各语音信号的声纹信息进行比对，确定当前发言人对应的各语音信号集合；当前发言人对应的各语音信号集合，为包含当前发言人的身份信息所对应的声纹信息的各语音信号集合；通过所述控制单元，根据当前发言人对应的各语音信号集合中当前发言人的语音信号的能量强度，将当前发言人的语音信号的能量强度最强的语音信号集合对应的麦克风，确定为当前发言人所对应的麦克风；根据当前发言人所对应的麦克风，确定当前发言人所对应的麦克风的位置信息。

可以理解，当会场中声音较为嘈杂时，每个麦克风所采集的语音信号集合中可能包含多个参会人员的语音信号，仅根据各麦克风接收到的语音信号能量，来确定当前发言人所对应的麦克风和相应的位置信息，可能不够准确。

具体地，当确定的身份信息与当前发言人的语音信号中包含的下一个发言人的人名信息所对应的身份信息不一致时，则可以开启麦克风单元中关闭的各麦克风，在通过麦克风单元获取会场中的语音信号并将语音信号传输至控制单元后，可以通过控制单元，对每个麦克风采集到的语音信号集合进行分解，从而得到每个麦克风采集到的语音信号集合中不同说话人对应的不同的语音信号，具体地，可根据声纹特征不同区分出所述每个麦克风采集到的语音信号集合中不同说话人对应的语音信号。再将下一个发言人的身份信息作为当前发言人的身份信息，然后将当前发言人的身份信息对应的声纹信息与每个麦克风采集到的语音信号集合进行比对，以确定包含所述与当前发言人的身份信息对应的声纹信息的语音信号集合；随后再比较所确定的所述语音信号集合中与当前发言人的身份信息对应的声纹信息相匹配的语音信号的强度，从而得出所述语音信号强度最高的语音信号集合为所述当前发言人对应的麦克风采集到的语音信号集合，亦即所述麦克风为所述当前发言人对应的麦克风。然后控制单元可以根据当前发言人所对应的麦克风的编号、以及预先录入的麦克风的编号与麦克风的位置信息之间的对应关系，确定当前发言人所对应的麦克风的位置信息。

例如：其中一个麦克风采集的语音信号集合可以分解为参会人员A所对应的语音信号A、参会人员B所对应的语音信号B和参会人员C所对应的语音信号C。假设当前发言人的身份信息为B，则可以将身份信息B对应的声纹信息与各语音信号集合所分解出的语音信号的声纹信息进行比对，然后将所有可以分解出语音信号B的各语音信号集合中的语音信号B的能量强度进行比较，将所包含的语音信号B的能量强度最高的语音信号集合对应的麦克风确定为当前发言人所对应的麦克风。

本实施例中，对每个麦克风所采集的语音信号集合进行分解，将包含当前发言人的身份信息对应的声纹信息的各语音信号集合进行比对，将当前发言人的语音信号能量最强的语音信号集合所对应的麦克风确定为当前发言人所对应的麦克风，从而能够解决当会场中声音较为嘈杂时，每个麦克风所采集的语音信号集合中可能包含多个参会人员的语音信号，仅根据各麦克风接收到的语音信号能量，来确定当前发言人所对应的麦克风和相应的位置信息，可能不够准确的问题，提高了追踪当前发言人的准确性。

应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种会议发言人追踪装置300，所述装置包括：语音信号获取单元302、位置信息确定单元304、身份信息确定单元306和追踪单元308，其中：

语音信号获取单元302，用于接收麦克风单元获取的会场中的语音信号，并将所述语音信号传输至位置信息确定单元304；所述麦克风单元包括设置在所述会场中多个预设位置处用于采集语音信号的麦克风。

位置信息确定单元304，用于根据所述语音信号，确定当前发言人所对应的麦克风和相应的位置信息，并将所述当前发言人所对应的麦克风采集的语音信号传输至身份确定单元306。

身份信息确定单元306，用于接收所述语音信号并识别所述语音信号的声纹信息以确定当前发言人的身份信息，并查找与所述身份信息匹配的人脸信息，将所述人脸信息和所述位置信息传输至追踪单元308。

追踪单元308，用于根据所述人脸信息和位置信息，在所述会场中所述位置信息所对应的位置处，识别与所述人脸信息匹配的所述当前发言人的人脸，并对准所述当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

可以理解，本申请各实施例中所述的装置为包含多个硬件单元的硬件设备。

在一个实施例中，位置信息确定单元304还用于关闭所述会场中除所述当前发言人所对应的麦克风之外的麦克风。语音信号获取单元302还用于接收所述当前发言人所对应的麦克风采集所述当前发言人的语音信号，并将采集到的语音信号传输至身份信息确定单元306。

在一个实施例中，如图4所示，会议发言人追踪装置300还包括：

语音识别单元310，用于接收语音信号获取单元302传输至的当前发言人的语音信号；识别所述当前发言人的语音信号中包含的下一个发言人的人名信息，并将所述人名信息传输至身份信息确定单元306；身份信息确定单元306还用于根据所述人名信息，确定所述下一个发言人的身份信息，并将所述下一个发言人的身份信息所对应的人脸信息传输至所述追踪单元308；追踪单元308还用于识别所述会场中与所述下一个发言人的人脸信息匹配的人脸；在所述当前发言人发言结束后，对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

在一个实施例中，追踪单元308还用于识别所述会场中与所述下一个发言人的人脸信息匹配的人脸，并确定所述下一个发言人的位置信息；将所述下一个发言人的位置信息传输至所述控制单元；位置信息确定单元304还用于根据所述下一个发言人的位置信息，确定所述下一个发言人所对应的麦克风；在当前发言人发言结束后，关闭所述当前发言人所对应的麦克风，并开启所述下一个发言人所对应的麦克风。

在一个实施例中，语音信号获取单元302还用于接收所述下一个发言人所对应的麦克风采集的语音信号，并传输至所述身份信息确定单元306。身份信息确定单元306还用于识别传输至的语音信号，确定传输至的语音信号所对应的身份信息。当确定的所述身份信息与所述下一个发言人的身份信息一致时，追踪单元308还用于对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

在一个实施例中，位置信息确定单元304还用于当确定的所述身份信息与所述下一个发言人的身份信息不一致时，开启所述麦克风单元中关闭的各麦克风；并通知其他单元执行所述通过麦克风单元获取会场中的语音信号，并将所述语音信号传输至控制单元及后续步骤。

在一个实施例中，位置信息确定单元304还用于根据各所述麦克风所采集的语音信号的能量强度，确定能量强度最强的语音信号所对应的麦克风的编号；根据所述麦克风的编号，确定当前发言人所对应的麦克风的位置信息。

在一个实施例中，每个麦克风所采集的所述语音信号为语音信号集合。将所述下一个发言人的身份信息，作为新的当前发言人的身份信息；身份信息确定单元306还用于对每个麦克风所采集的语音信号集合进行分解，得到每个所述语音信号集合中包含的不同的参会人员分别对应的语音信号；将所述当前发言人的身份信息所对应的声纹信息与每个所述语音信号集合中包含的各语音信号的声纹信息进行比对，确定所述当前发言人对应的各语音信号集合；所述当前发言人对应的各语音信号集合，为包含所述当前发言人的身份信息所对应的声纹信息的各语音信号集合；位置信息确定单元304还用于根据所述当前发言人对应的各语音信号集合中所述当前发言人的语音信号的能量强度，将所述当前发言人的语音信号的能量强度最强的语音信号集合对应的麦克风，确定为所述当前发言人所对应的麦克风；根据所述当前发言人所对应的麦克风，确定所述当前发言人所对应的麦克风的位置信息。

上述会议发言人追踪装置中，通过设置在会场中多个预设位置处的麦克风获取会场中的语音信号，然后通过控制单元根据语音信号确定当前发言人所对应的麦克风的位置信息，并将在位置信息对应位置处采集的语音信号传输至声纹识别单元，通过声纹识别单元识别传输至的语音信号，确定当前发言人的身份信息，并查找与身份信息匹配的人脸信息，这样能够自动地确定发言人的位置信息和人脸信息，然后通过人脸识别单元在会场中位置信息所对应的位置处，自动地识别与人脸信息匹配的当前发言人的人脸后，控制拍摄单元对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。从而实现了全自动地追踪会议发言人，向参会人员共享拍摄到的发言人的视频信息，无需人工操作来追踪发言人，能够提高对会议发言人的追踪效率。

关于会议发言人追踪装置的具体限定可以参见上文中对于会议发言人追踪方法的限定，在此不再赘述。上述会议发言人追踪装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图5所示，提供了一种会议发言人追踪系统500，该系统包括麦克风单元502、控制单元504、声纹识别单元506、人脸识别单元508和拍摄单元510，其中：

麦克风单元502，用于获取会场中的语音信号，并将语音信号传输至控制单元。

控制单元504，用于根据语音信号，确定当前发言人所对应的麦克风和相应的位置信息，并将当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元。

声纹识别单元506，用于识别传输至的语音信号，确定当前发言人的身份信息，并查找与身份信息匹配的人脸信息，将人脸信息和位置信息传输至人脸识别单元。

人脸识别单元508，用于在会场中位置信息所对应的位置处，识别与人脸信息匹配的当前发言人的人脸后，控制拍摄单元对准当前发言人进行拍摄。

拍摄单元510，用于对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

上述会议发言人追踪系统中，通过设置在会场中多个预设位置处的麦克风获取会场中的语音信号，然后通过控制单元根据语音信号确定当前发言人所对应的麦克风的位置信息，并将在位置信息对应位置处采集的语音信号传输至声纹识别单元，通过声纹识别单元识别传输至的语音信号，确定当前发言人的身份信息，并查找与身份信息匹配的人脸信息，这样能够自动地确定发言人的位置信息和人脸信息，然后通过人脸识别单元在会场中位置信息所对应的位置处，自动地识别与人脸信息匹配的当前发言人的人脸后，控制拍摄单元对准当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息。从而实现了全自动地追踪会议发言人，向参会人员共享拍摄到的发言人的视频信息，无需人工操作来追踪发言人，能够提高对会议发言人的追踪效率。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种会议发言人追踪方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种会议发言人追踪方法，其特征在于，所述方法包括：

通过麦克风单元获取会场中的语音信号，并将所述语音信号传输至控制单元；所述麦克风单元包括设置在所述会场中多个预设位置处的麦克风；所述麦克风用于获取当前发言人的所述语音信号；

通过所述控制单元，根据所述语音信号的能量强度，确定所述当前发言人所对应的麦克风和相应的位置信息，并将所述当前发言人所对应的麦克风采集的语音信号传输至声纹识别单元；

通过所述声纹识别单元识别传输至的所述语音信号，确定所述当前发言人的身份信息，并查找与所述身份信息匹配的预先录入的人脸信息，将所述人脸信息和所述位置信息传输至人脸识别单元；

通过所述人脸识别单元，在所述会场中所述位置信息所对应的位置处，识别与所述人脸信息匹配的所述当前发言人的人脸后，控制拍摄单元对准所述当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息；所述人脸识别单元和所述拍摄单元是集成摄像机或分别独立的摄像机；

通过所述麦克风单元将所述当前发言人的语音信号传输至语音识别单元；通过所述语音识别单元识别所述当前发言人的语音信号中包含的下一个发言人的人名信息，并将所述人名信息传输至所述控制单元；通过所述控制单元，根据所述人名信息，确定所述下一个发言人的身份信息，并将所述下一个发言人的身份信息所对应的人脸信息传输至所述人脸识别单元；通过所述人脸识别单元，识别所述会场中与所述下一个发言人的人脸信息匹配的人脸；在所述当前发言人发言结束后，控制拍摄单元对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

2.根据权利要求1所述的方法，其特征在于，在所述通过所述控制单元，根据所述语音信号，确定当前发言人所对应的麦克风和相应的位置信息之后，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述当前发言人的语音信号中包含多个人名信息时，根据各所述人名信息出现的时间信息，将最后一个出现的人名信息确定为所述下一个发言人的人名信息。

4.根据权利要求1所述的方法，其特征在于，所述通过所述人脸识别单元，识别所述会场中与所述下一个发言人的人脸信息匹配的人脸包括：

在所述当前发言人发言结束后，通过所述控制单元关闭所述当前发言人所对应的麦克风，并开启所述下一个发言人所对应的麦克风。

5.根据权利要求4所述的方法，其特征在于，在所述通过所述控制单元关闭所述当前发言人所对应的麦克风，并开启所述下一个发言人所对应的麦克风之后，所述方法还包括：

当确定的所述身份信息与所述下一个发言人的身份信息一致时，执行所述控制拍摄单元对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当确定的所述身份信息与所述下一个发言人的身份信息不一致时，开启所述麦克风单元中关闭的各麦克风；

7.根据权利要求1所述的方法，其特征在于，所述通过所述控制单元，根据所述语音信号的能量强度，确定所述当前发言人所对应的麦克风和相应的位置信息包括：

根据所述麦克风的编号，确定所述当前发言人所对应的麦克风的位置信息。

8.根据权利要求6所述的方法，其特征在于，每个麦克风所采集的所述语音信号为语音信号集合；所述通过所述控制单元，根据所述语音信号的能量强度，确定所述当前发言人所对应的麦克风和相应的位置信息包括：

将所述下一个发言人的身份信息，作为新的所述当前发言人的身份信息；

通过所述声纹识别单元，将所述当前发言人的身份信息所对应的声纹信息与每个所述语音信号集合中包含的各语音信号的声纹信息进行比对，确定所述当前发言人对应的各语音信号集合；所述当前发言人对应的各语音信号集合，为包含所述当前发言人的身份信息所对应的声纹信息的各语音信号集合；

通过所述控制单元，根据所述当前发言人对应的各语音信号集合中所述当前发言人的语音信号的能量强度，将所述当前发言人的语音信号的能量强度最强的语音信号集合对应的麦克风，确定为所述当前发言人所对应的麦克风；

9.一种会议发言人追踪系统，其特征在于，所述系统包括麦克风单元、控制单元、声纹识别单元、人脸识别单元和拍摄单元，其中：

所述控制单元，用于根据所述语音信号的能量强度，确定当前发言人所对应的麦克风和相应的位置信息，并将所述当前发言人所对应的麦克风采集的语音信号传输至所述声纹识别单元；

所述声纹识别单元，用于识别传输至的所述语音信号，确定所述当前发言人的身份信息，并查找与所述身份信息匹配的预先录入的人脸信息，将所述人脸信息和所述位置信息传输至所述人脸识别单元；

所述拍摄单元，用于对准所述当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息；所述人脸识别单元和所述拍摄单元是集成摄像机或分别独立的摄像机；

所述麦克风单元，还用于将所述当前发言人的语音信号传输至语音识别单元；

所述语音识别单元，还用于识别所述当前发言人的语音信号中包含的下一个发言人的人名信息，并将所述人名信息传输至所述控制单元；

所述控制单元，还用于根据所述人名信息，确定所述下一个发言人的身份信息，并将所述下一个发言人的身份信息所对应的人脸信息传输至所述人脸识别单元；

所述人脸识别单元，还用于识别所述会场中与所述下一个发言人的人脸信息匹配的人脸；在所述当前发言人发言结束后，控制拍摄单元对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

10.一种会议发言人追踪装置，其特征在于，所述装置包括：

语音信号获取单元，用于接收麦克风单元获取的会场中的语音信号，并将所述语音信号传输至位置信息确定单元；所述麦克风单元包括设置在所述会场中多个预设位置处用于采集语音信号的麦克风；所述麦克风用于获取当前发言人的所述语音信号；

位置信息确定单元，用于根据所述语音信号的能量强度，确定所述当前发言人所对应的麦克风和相应的位置信息，并将所述当前发言人所对应的麦克风采集的语音信号传输至身份确定单元；

身份信息确定单元，用于接收所述语音信号并识别所述语音信号的声纹信息以确定当前发言人的身份信息，并查找与所述身份信息匹配的预先录入的人脸信息，将所述人脸信息和所述位置信息传输至追踪单元；

追踪单元，用于根据所述人脸信息和位置信息，在所述会场中所述位置信息所对应的位置处，识别与所述人脸信息匹配的所述当前发言人的人脸，并对准所述当前发言人进行拍摄，并向参会人员共享拍摄到的视频信息；所述人脸识别单元和所述拍摄单元是集成摄像机或分别独立的摄像机；

语音识别单元，用于接收所述语音信号获取单元传输至的所述当前发言人的语音信号；识别所述当前发言人的语音信号中包含的下一个发言人的人名信息，并将所述人名信息传输至所述身份信息确定单元；所述身份信息确定单元还用于根据所述人名信息，确定所述下一个发言人的身份信息，并将所述下一个发言人的身份信息所对应的人脸信息传输至所述追踪单元；所述追踪单元还用于识别所述会场中与所述下一个发言人的人脸信息匹配的人脸；在所述当前发言人发言结束后，对准所述下一个发言人进行拍摄，并向参会人员共享拍摄到的视频信息。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。