CN113099158B

CN113099158B - 拍摄现场的拾音装置控制方法、装置、设备及存储介质

Info

Publication number: CN113099158B
Application number: CN202110291715.7A
Authority: CN
Inventors: 关本立; 欧俊文
Original assignee: Ava Electronic Technology Co Ltd
Current assignee: Ava Electronic Technology Co Ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2024-04-26
Anticipated expiration: 2041-03-18
Also published as: CN113099158A

Abstract

本发明公开了一种拍摄现场的拾音装置控制方法、装置、设备及存储介质。本发明的拍摄现场布置有多个拾音装置，本发明的方法包括步骤：获取拍摄现场的视频；对所述视频中的人物执行动作识别，得到动作识别结果；在所述动作识别结果触发第一预设动作时，获取触发第一预设动作的人物的位置信息和人脸朝向；根据所述位置信息和所述人脸朝向，改变至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。本发明通过动作识别与触发能够准确地判断出现场声音采集的需要，再通过人物的位置信息和人脸朝向，精准地确定相对应的拾音装置并改变该对应拾音装置的权重，提高了拾音装置拾音准确度与清晰度，适应了远程教学或会议的拾音要求。

Description

拍摄现场的拾音装置控制方法、装置、设备及存储介质

技术领域

本发明涉及影像处理技术领域，更具体地，涉及一种拍摄现场的拾音装置控制方法、装置、设备及存储介质。

背景技术

随着科技的不断进步，越来越多的教学或会议通过远程的形式进行进行，远程教学或会议具有不受地域限制、与会灵活性高等优点。

一般地，在远程教学或会议的场景中，学生或非主讲人通常都不是主要的发言人，他们人数比较多、分布范围比较广，为了能够保证随意一名学生或非主讲人发言时都能清晰地采集发言人的发言语音，会在拍摄现场的不同位置设置多个拾音装置，以避免拾音器与发言人之间的距离过远。

目前，通常通过语音激励的方式来确定发言人的位置，再通过发言人的位置来确定其中某个拾音装置的开关。但实际上，教学或会议的过程中，并非全过程都十分安静的，总有人交头接耳发出各种杂音。通过语音激励的方式来控制拾音装置的话，会把各种杂音也采集了，拾音效果极差。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种拍摄现场的拾音装置控制方法、装置、设备及存储介质。本发明采用的技术方案如下。

第一方面，本发明提供一种拍摄现场的拾音装置控制方法，所述拍摄现场布置有多个拾音装置；

所述拍摄现场的拾音装置控制方法包括步骤：

获取拍摄现场的视频；

对所述视频中的人物执行动作识别，得到动作识别结果；

在所述动作识别结果触发第一预设动作时，获取触发第一预设动作的人物的位置信息和人脸朝向；

根据所述位置信息和所述人脸朝向，改变至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

在一种实施方式中，拾音装置被预设有相对应的拾音区域；

所述根据所述位置信息和所述人脸朝向，改变至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括步骤：

根据所述位置信息和所述人脸朝向，得出进行拾音的拾音区域，改变进行拾音的所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

在一种实施方式中，所述改变进行拾音的所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括步骤：

在所述第一预设动作是站立动作时，提高所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

在一种实施方式中，所述多个拾音装置用于对听讲区域拾音；

所述在所述第一预设动作是站立动作时，提高所述拾音区域对应的拾音装

置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，还包括步骤：

提高所述多个拾音装置形成的音量输出的总音量。

在一种实施方式中，还包括步骤：在触发第一预设动作的人物触发第二预设动作时，将所述至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重恢复为默认权重。

在一种实施方式中，所述拾音装置是指向性麦克风。

第三方面，本发明提供一种拍摄现场的拾音装置的控制装置，所述拍摄现场布置有多个拾音装置；

所述拍摄现场的拾音装置的控制装置包括：

视频获取模块，用于获取拍摄现场的视频；

动作识别模块，用于对所述视频中的人物执行动作识别，得到动作识别结果；

信息获取模块，用于在所述动作识别结果触发第一预设动作时，获取触发第一预设动作的人物的位置信息和人脸朝向；

音量调节模块，用于根据所述位置信息和所述人脸朝向，改变至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

在一种实施方式中，所述音量调节模块还用于在触发第一预设动作的人物触发第二预设动作时，将所述至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重恢复为默认权重。

第三方面，本发明提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施方式的方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现上述任一实施方式的方法。

本发明通过动作识别确定是否有人物触发预设动作，采用动作的触发能够准确地判断出现场声音采集的需要，再通过触发预设动作人物的位置信息和人脸朝向，精准地确定与之相对应的拾音装置，继而改变该对应拾音装置的权重，使得既能在需要采集拍摄现场声音时能够获取清晰的语音，又能在现场有杂音时去除现场的杂音，提高了拾音装置拾音准确度与清晰度，很好地适应了远程教学或会议的拾音要求。

附图说明

图1是本发明的教室的整体结构示意图。

图2是本发明实施例一的流程示意图。

图3是本发明实施例一中的拾音区域示意图。

图4是本发明实施例二的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被

这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是，本发明实施例所涉及的术语“第一\第二\……”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\……”

在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\……”

区分的对象在适当情况下可以互换，以使这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

实施例一

请参见图2，图2为本发明实施例一提供的一种视频人物添加信息的方法的流程示意图，该方法包括步骤S110、步骤S120、步骤S130和步骤S140。需要注意的是，步骤S110、步骤S120、步骤S130和步骤S140仅为附图标记，用于清晰解释实施例与附图2的对应关系，不代表对本实施例中的方法的各方法步骤的顺序限定。

本发明适用于远程教学或会议等场景中，为了方便说明，本实施例中以远程教学的场景进行阐述。如图1所示，在主讲端或听讲端(统称为客户端)的教室中，布置有学生全景摄像机1和多个学生拾音装置2。图1中示例性的展示学生拾音装置2是指向性麦克风，本领域技术人员可以根据实际情况，选择其他类型的拾音装置。

步骤S110，获取拍摄现场的视频。

学生全景摄像机1拍摄到现场的视频画面，获取该学生全景摄像机1拍摄的拍摄现场的视频。

步骤S120，对所述视频中的人物执行动作识别，得到动作识别结果。

一般来说，在教室中，学生要正式发言时，都会有特定的动作，例如站起来或举手，通过识别这些特定的动作可以判断学生是否在发言，所以本发明对拍摄现场的视频中的人物执行动作识别，得到动作识别结果，以确定学生是否在发言。

步骤S130，在所述动作识别结果触发第一预设动作时，获取触发第一预设动作的人物的位置信息和人脸朝向。

当其中的学生触发了特定的动作时，如学生站起来了，可以认为该学生正在发言。此时，获取这名学生的位置信息。该位置信息是为了确定学生的位置在哪几个拾音装置的最佳拾音范围内，从而选取这些拾音装置进行拾音。确定学生触发特定动作的具体实施方式也是多种多样的，例如采用机器视觉图像感知技术，基于海量数据的深度学习的动作检测算法，通过AI人工智能深度学习技术，实现对特定动作的分析识别，在机器视觉图像景中，通过动作识别算法建立图像模型，完成对特定动作的分析识别。

需要指出的是，获得该站立学生的位置信息的方法是多种多样的，例如可以通过图像识别、红外识别或学生手上的穿戴设备获取位置信息。另外，这里的位置信息可以是学生在教室内的具体坐标信息，也可以是其他类型的位置信息，例如可以利用教室中桌椅摆放比较整齐的特点，采用第N行第M列作为位置信息。

有时候，发言学生虽然离某个拾音装置非常接近，但他并不是正对这个拾音装置发言，相反他的朝向正好是朝着另外一个拾音装置说话，这时候可能该另外一个拾音装置的拾音效果会更好。基于此，本发明还进一步获取触发预设动作的人物的人脸朝向，以更准确地确定在哪个或哪几个拾音装置的最佳拾音范围内，从而选取合适的拾音装置进行拾音。

这里必须指出的是，人脸朝向可以通过人脸朝向识别算法得到，至于进行人脸朝向识别算法的时机是在触发预设动作之前还是之后，本发明不作限定，只有是能够获取到人脸朝向的方法，都在本发明的保护范围内。该人脸朝向识别算法可以是基于LVQ、BP、SVM神经网络算法的人脸朝向识别算法。

步骤S140，根据所述位置信息和所述人脸朝向，改变至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

当获取到位置信息和人脸朝向后，可以明确处于最佳拾音范围内的拾音装置，此时可以对这些拾音装置进行操作。

例如，当发言学生仅在一个拾音装置的最佳拾音范围内，可以提高这个拾音装置的音量输出，此时这个拾音装置的音量输出占多个拾音装置形成的音量输出中的权重就会提高。又或者，在提高这个拾音装置的音量输出的同时，降低其他拾音装置的音量输出，此时这个拾音装置的音量输出占多个拾音装置形成的音量输出中的权重也会提高。

又例如，当发言学生在多个拾音装置的最佳拾音范围内，可以同时提高这多个拾音装置的音量输出，从而使权重提高。对于这多个拾音装置的提高后的权重，可以每个拾音装置都相同，也可以根据位置信息和人脸朝向，分别设置不同的权重。

提高权重，是为了更加彰显发言者在拍摄现场声音，至于多个拾音装置形成的音量输出是否提高，可以根据实际情况确定。

当然，本方法除了在学生发言的时候，提高相应拾音装置的权重外，还能够在其他场景下，降低相应拾音装置的权重。例如，有学生在教室大吵大闹，可以通过动作识别确定出大吵大闹的学生，根据该学生的位置信息和人脸朝向，降低相应的拾音装置的权重，以降低大吵大闹学生的声音对课堂教学的影响。

与现有技术中的单独打开或关闭某个或某几个麦克风相比，本发明通过改变其中的拾音装置的音量输出权重，能够使输出的声音更接近于现场听到的声

音，声音更加柔和舒适。另外，也能够实现长期打开现场的拾音装置，长期对现场环境进行收音，以更真实地还原拍摄现场的环境。

本方法通过动作识别确定是否有人物触发预设动作，采用动作的触发能够准确地判断出现场声音采集的需要，再通过触发预设动作人物的位置信息和人脸朝向，精准地确定与之相对应的拾音装置，继而改变该对应拾音装置的权重，使得既能在需要采集拍摄现场声音时能够获取清晰的语音，又能在现场有杂音时去除现场的杂音，提高了拾音装置拾音准确度与清晰度，很好地适应了远程教学或会议的拾音要求。

在一种实施方式中，拾音装置被预设有相对应的拾音区域；步骤S140包括步骤S1401。

步骤S1401，根据所述位置信息和所述人脸朝向，得出进行拾音的拾音区域，改变进行拾音的所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

如图1所示，每个拾音装置2都有各自对应的拾音区域，具体地，如图3所示，预设好各拾音装置相对应的拾音区域，如①号麦克风对应的拾音区域是A，②号麦克风对应的拾音区域是B……。通过位置信息和人脸朝向，得出需要对哪几个拾音区域进行拾音，然后调整这几个拾音区域所对应的拾音装置的权重。例如，在图3中，确定需要进行拾音的是拾音区域E、F，拾音区域E、F所对应的麦克风是⑤⑥号麦克风，此时改变⑤⑥号麦克风的权重。

对于各个拾音装置，预先调好安装的位置和角度，并通过试验得出其的最佳拾音范围，这样做可以充分地保证只要在其拾音范围内，都能获得最佳的效果，而且输出的结果比较稳定。使用非固定式的拾音装置，例如能够转动的麦克风，由于每次操作都可能存在误差，所以输出的结果不如本方法的预设好拾音区域的拾音装置好。

本实施方式中，先预设好各拾音装置所对应的拾音区域，通过位置信息和人脸朝向，确定具体哪个拾音区域需要进行拾音，继而调整相对应的拾音装置。这样做的好处在于，比较简单快捷地把发言人和相应的拾音装置联系起来，更快捷准确地对拍摄现场进行拾音。

在一种实施方式中，步骤S1401的改变进行拾音的所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括步骤：

在远程教学或会议中，一般都会站立发言，所以把第一预设动作确定为站立动作。当触发第一预设动作时，表示有人在发言，则需要提高对应的拾音装置的权重。

所述在所述第一预设动作是站立动作时，提高所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，还包括步骤：

提高所述多个拾音装置形成的音量输出的总音量。

一般来说，多个拾音装置用于对听讲区域拾音，例如在图1中，对各个区域进行了预设和划分，学生所在的区域就是听讲区域，相对的，老师所在的区域就是主讲区域。在听讲区域中，如果学生或非主讲人不发言，通常会把拍摄现场的多个拾音装置形成的音量输出的总音量调低，以避免影响主讲人的音量输出。因此，当触发第一预设动作，确定有人发言时，要相应地提高听讲区域的总音量，使得其他客户端能够更清晰地听到发言人的语音。

在一种实施方式中，本发明的拍摄现场的拾音装置控制方法还包括步骤S150。

步骤S150，在触发第一预设动作的人物触发第二预设动作时，将所述至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重恢复为默认权重。

发言人发言完毕后，需要将拾音装置的权重恢复原状。此时，可以预设另外一个表示发言结束的第二预设动作，例如坐下表示发言结束。当触发该第二预设动作时，将拾音装置的权重恢复原状。

例如，发言人站立后又坐下，此时可以将坐下动作作为第二预设动作，当触发坐下动作时，认为发言人发言结束，此时可以将为其发言服务的拾音装置的权重恢复到默认权重。

在一种实施方式中，所述拾音装置是指向性麦克风。

指向性麦克风对于获取清晰的语音，效果更佳。

实施例二

与实施例一的方法相对应，如图4所示，本发明还提供一种拍摄现场的拾音装置的控制装置2，其中拍摄现场布置有多个拾音装置，拍摄现场的拾音装置的控制装置2包括：视频获取模块201、动作识别模块202、信息获取模块203和音量调节模块204。

视频获取模块201，用于获取拍摄现场的视频；

动作识别模块202，用于对所述视频中的人物执行动作识别，得到动作识别结果；

信息获取模块203，用于在所述动作识别结果触发第一预设动作时，获取触发第一预设动作的人物的位置信息和人脸朝向；

音量调节模块204，用于根据所述位置信息和所述人脸朝向，改变至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

在一种实施方式中，音量调节模块204还用于在触发第一预设动作的人物触发第二预设动作时，将所述至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重恢复为默认权重。

在一种实施方式中，拾音装置被预设有相对应的拾音区域；

音量调节模块204根据所述位置信息和所述人脸朝向，改变至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括步骤：

在一种实施方式中，音量调节模块204改变进行拾音的所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括步骤：

音量调节模块204在所述第一预设动作是站立动作时，提高所述拾音区域对应的拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过

程，还包括步骤：

提高所述多个拾音装置形成的音量输出的总音量。

在一种实施方式中，所述拾音装置是指向性麦克风。

本装置通过动作识别确定是否有人物触发预设动作，采用动作的触发能够准确地判断出现场声音采集的需要，再通过触发预设动作人物的位置信息和人脸朝向，精准地确定与之相对应的拾音装置，继而改变该对应拾音装置的权重，使得既能在需要采集拍摄现场声音时能够获取清晰的语音，又能在现场有杂音时去除现场的杂音，提高了拾音装置拾音准确度与清晰度，很好地适应了远程教学或会议的拾音要求。

实施例三

本发明实施例还提供了一种存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述任一实施例的拍摄现场的拾音装置控制方法。

本领域的技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、终端、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

与上述的计算机存储介质对应的是，在一个实施例中还提供一种计算机设备，该计算机设备包括存储器、编码器及存储在存储器上并可在编码器上运行的计算机程序，其中，编码器执行程序时实现如上述各实施例中的任意一种拍摄现场的拾音装置控制方法。

上述计算机设备，通过动作识别确定是否有人物触发预设动作，采用动作的触发能够准确地判断出现场声音采集的需要，再通过触发预设动作人物的位置信息和人脸朝向，精准地确定与之相对应的拾音装置，继而改变该对应拾音装置的权重，使得既能在需要采集拍摄现场声音时能够获取清晰的语音，又能在现场有杂音时去除现场的杂音，提高了拾音装置拾音准确度与清晰度，很好地适应了远程教学或会议的拾音要求

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种拍摄现场的拾音装置控制方法，其特征在于，所述拍摄现场布置有多个拾音装置，其中，各个拾音装置均被预先固定好安装的位置和角度；

所述拍摄现场的拾音装置控制方法包括步骤：

获取拍摄现场的视频；

对所述视频中的人物执行动作识别，得到动作识别结果；

根据所述位置信息和所述人脸朝向，选定至少一个拾音装置为目标拾音装置；

根据被触发的第一预设动作，改变所述目标拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重；

其中，所述根据被触发的第一预设动作，改变所述目标拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括：

根据被触发的第一预设动作，降低所述目标拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

2.根据权利要求1所述的拍摄现场的拾音装置控制方法，其特征在于，各拾音装置均预设有相对应的拾音区域；

所述根据所述位置信息和所述人脸朝向，选定至少一个拾音装置为目标拾音装置的过程，包括步骤：

根据所述位置信息和所述人脸朝向，得出进行拾音的拾音区域；

根据各拾音装置预设的拾音区域和所述进行拾音的拾音区域，选定至少一个拾音装置为目标拾音装置。

3.根据权利要求1所述的拍摄现场的拾音装置控制方法，其特征在于，所述根据被触发的第一预设动作，降低所述目标拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括步骤：

在所述第一预设动作是吵闹动作时，降低所述目标拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重。

4.根据权利要求1-3任一项所述的拍摄现场的拾音装置控制方法，其特征在于，还包括步骤：

在触发第一预设动作的人物触发第二预设动作时，将所述至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重恢复为默认权重。

5.根据权利要求1-3任一项所述的拍摄现场的拾音装置控制方法，其特征在于，所述拾音装置是指向性麦克风。

6.一种拍摄现场的拾音装置的控制装置，其特征在于，所述拍摄现场布置有多个拾音装置，其中，各个拾音装置均被预先固定好安装的位置和角度；

所述拍摄现场的拾音装置的控制装置包括：

视频获取模块，用于获取拍摄现场的视频；

音量调节模块，用于根据所述位置信息和所述人脸朝向，选定至少一个拾音装置为目标拾音装置，根据被触发的第一预设动作，改变所述目标拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重；

其中，所述音量调节模块执行所述根据被触发的第一预设动作，改变所述目标拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重的过程，包括：

7.根据权利要求6所述的拍摄现场的拾音装置的控制装置，其特征在于，

所述音量调节模块还用于在触发第一预设动作的人物触发第二预设动作时，将所述至少一个拾音装置的音量输出占所述多个拾音装置形成的音量输出中的权重恢复为默认权重。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-5中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一项所述的方法。