CN107197404B

CN107197404B - 一种音效自动调节方法、装置和一种录播系统

Info

Publication number: CN107197404B
Application number: CN201710307719.3A
Authority: CN
Inventors: 叶荣华; 刘志聪; 孙石平; 林大妹
Original assignee: Guangzhou Ncast Electronics Co ltd
Current assignee: Guangzhou Ncast Electronics Co ltd
Priority date: 2017-05-05
Filing date: 2017-05-05
Publication date: 2020-05-12
Anticipated expiration: 2037-05-05
Also published as: CN107197404A

Abstract

本发明实施例公开了一种音效自动调节方法，用于解决现有录播系统的音效调节操作繁琐的问题。本发明实施例方法包括：获取拾音设备采集的声音信号；根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；根据所述目标音效模式对所述声音信号进行音效调节；输出调节后的所述声音信号。本发明实施例还提供一种音效自动调节装置和一种录播系统。

Description

一种音效自动调节方法、装置和一种录播系统

技术领域

本发明涉及视频处理技术领域，尤其涉及一种音效自动调节方法、装置和一种录播系统。

背景技术

通常录播教室的建设包括录播系统、摄像系统和音频系统三个部分。如图4所示，录播教室会使用隔音材料进行装修以达到最好的声音反射效果，音频系统主要用于采集上课过程中的教学声音，然后经过录播系统处理得到最终输出。在教学课程的录制过程中，重点是将教师声音完整而且清晰的采集下来，所以很多时候音频方案会采用手持麦克风或者领夹麦克风针对教师声音进行单独获取，然后将采集的声音输入录播系统和摄像系统的视频画面进行资源整合最终输出到教室同时录制下来。

实际上课时，每位教师的声音均有不同的音效，包括不同的音调和不同的响度。为了让教师的声音具有较佳的输出效果，目前一般在录播之前，通过手动调节的方式进行音效调整。然而，在大多数应用场景下，一个录播教室通常会提供给多位教师使用，每次不同的教师进行录播之前，均需要手动调节音频系统的音效，不仅操作繁琐，而且大多数要求音频系统的相关专业人员才能快速完成音频的调节，间接提高了录播系统的使用条件和成本。

发明内容

本发明实施例提供了一种音效自动调节方法、装置和一种录播系统，能够提高录播系统操作的简便性，降低录播系统的使用限制和成本。

本发明实施例提供的一种音效自动调节方法，包括：

获取拾音设备采集的声音信号；

根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；

根据所述目标音效模式对所述声音信号进行音效调节；

输出调节后的所述声音信号。

可选地，在根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式之前，还包括：

对所述声音信号进行声音特征提取，得到第一声纹特征；

获取摄像设备采集的用户图像；

对所述用户图像进行人脸识别，得到第一人脸特征；

根据所述第一声纹特征和所述第一人脸特征从预设的音效模式库中查询对应的音效模式，所述音效模式库记录有声纹特征、人脸特征与音效模式之间的对应关系；

若查询到所述对应的音效模式，则将查询到的音效模式确定为目标音效模式；

若未查询到所述对应的音效模式，则执行根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式的步骤。

可选地，在根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式之后，还包括：

将所述第一声纹特征、所述第一人脸特征与所述目标音效模式之间的对应关系记录至所述音效模式库。

可选地，所述根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式包括：

根据所述声音信号确定输出时所需的增益调节幅度；

根据所述环境信息确定所述声音信号输出时所需的音量大小；

根据确定的所述增益调节幅度和所述音量大小从预设的音效模式集合中选取一个匹配的音效模式作为所述目标音效模式。

可选地，还包括：

在获取拾音设备采集的声音信号之后，对所述声音信号进行干扰过滤处理。

本发明实施例提供的一种音效自动调节装置，包括：

声音信号获取模块，用于获取拾音设备采集的声音信号；

音效模式确定模块，用于根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；

音效调节模块，用于根据所述目标音效模式对所述声音信号进行音效调节；

声音输出模块，用于输出调节后的所述声音信号。

可选地，所述音效自动调节装置还包括：

声音特征提取模块，用于对所述声音信号进行声音特征提取，得到第一声纹特征；

用户图像获取模块，用于获取摄像设备采集的用户图像；

人脸识别模块，用于对所述用户图像进行人脸识别，得到第一人脸特征；

音效模式查询模块，用于根据所述第一声纹特征和所述第一人脸特征从预设的音效模式库中查询对应的音效模式，所述音效模式库记录有声纹特征、人脸特征与音效模式之间的对应关系；

目标模式确定模块，用于若所述音效模式查询模块查询到所述对应的音效模式，则将查询到的音效模式确定为目标音效模式；

触发模块，用于若所述音效模式查询模块未查询到所述对应的音效模式，则触发所述音效模式确定模块。

可选地，所述音效自动调节装置还包括：

记录模块，用于将所述第一声纹特征、所述第一人脸特征与所述目标音效模式之间的对应关系记录至所述音效模式库。

可选地，所述音效模式确定模块包括：

增益确定单元，用于根据所述声音信号确定输出时所需的增益调节幅度；

音量确定单元，用于根据所述环境信息确定所述声音信号输出时所需的音量大小；

音效模式选取单元，用于根据确定的所述增益调节幅度和所述音量大小从预设的音效模式集合中选取一个匹配的音效模式作为所述目标音效模式。

本发明实施例提供的一种录播系统，包括上述的音效自动调节装置。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，首先，获取拾音设备采集的声音信号；然后，根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；再之，根据所述目标音效模式对所述声音信号进行音效调节；最后，输出调节后的所述声音信号。这样可以综合考虑采集的用户声音信号和周围环境的环境信息自动确定音效模式，从而对声音信号进行音效调节，无需手动调节音频系统的音效，可以大大提高录播系统操作的简便性，降低了录播系统的使用限制和成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种音效自动调节方法第一个实施例流程图；

图2为本发明实施例中一种音效自动调节方法步骤102在一个应用场景下的流程示意图；

图3为本发明实施例中一种音效自动调节方法第二个实施例流程图；

图4为一个应用场景下录播系统安装在录播教室内的示意图；

图5为本发明实施例中一种音效自动调节装置一个实施例结构图。

具体实施方式

本发明实施例提供了一种音效自动调节方法、装置和一种录播系统，用于解决现有录播系统的音效调节操作繁琐的问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种音效自动调节方法第一个实施例包括：

101、获取拾音设备采集的声音信号；

本实施例中，在录播环境中设置有拾音设备，该拾音设备用于采集用户说话的声音。例如，在录播教室的讲台上设置麦克风，或者在教室的衣服上设置领夹麦克风。从而，当教室讲话时，拾音设备可以采集到教师的声音信号，通过音频系统的接口将这些声音信号输出给录播系统，录播系统获取到该声音信号。

进一步地，在获取拾音设备采集的声音信号之后，录播系统可以对所述声音信号进行干扰过滤处理。可以理解的是，一般来说，拾音设备采集的声音信号包含有外界信息的干扰信号，例如包括环境噪音、用户讲话呼吸气流和电流干扰。因此，为了使得声音信号仅保留后续步骤所需的部分信号，也即用户讲话的声音信号，可以对该声音信号进行滤波、采用、量化、分帧、加窗等处理，得到300Hz-4KHz频率范围的声音信号。

102、根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；

本实施例中，在确定音效模式时，需要考虑用户声音和周围环境两个因素。用户声音即为上述的声音信号，而周围环境的因素则可以包括拾音设备当前所处环境的环境信息，包括环境的面积大小、装修情况、环境噪音等。系统可以预先设置多个音效模式，每个音效模式均分别对应不同的声音信号和环境信息。例如，音效模式一，适用于1KHz-2KHz的声音信号，应用在面积大小为10平方米、噪音分贝在15～20之间的环境下；音效模式二，适用于2KHz-3KHz的声音信号，应用在面积大小为20平方米、噪音分贝在20～40之间的环境下，等等。从而，在得知声音信号和环境信息之后，可以确定出使用的目标音效模式。

需要说明的是，拾音设备所处环境的环境信息可以预先设定。可以理解的是，对于一个录播系统来说，其使用的环境一般是固定的，至少在短时间内是固定不变的。因此，拾音设备所处的环境的环境信息可以在安装录播系统时由工作人员预先设定。

进一步地，如图2所示，上述步骤102可以包括：

201、根据所述声音信号确定输出时所需的增益调节幅度；

202、根据所述环境信息确定所述声音信号输出时所需的音量大小；

203、根据确定的所述增益调节幅度和所述音量大小从预设的音效模式集合中选取一个匹配的音效模式作为所述目标音效模式。

对于步骤201，可以根据声音信号的输入情况，确定音效调节时所需的增益调节幅度，并可以将该增益调节幅度对应的音频编码字段保存起来。例如，若声音信号的信号强度较弱，则输出时需要较大的增益，从而可以确定一个较大的增益调节幅度；反之，则增益调节幅度可以偏小，甚至为0。

对于步骤202，输出时的音量大小是调整整体声音大小的。因此，当环境信号中环境噪声较大时，一般确定较小的音量；反之，当环境信号中环境噪声较小，而声音信号的音量较小时，则确定输出时所需较大的音量，以便提高声音信号中人声的清晰度。另外，在确定出该音量大小之后，还可以将该音量大小对应音量变化的音频编码字段保存起来。

其中，步骤202可以在步骤201之前执行，也可以在步骤201之后执行，还可以与步骤201同时执行。

对于步骤203，本实施例中，可以预先为音效模式集合中的各个音效模式设置对应的增益调节幅度和音量大小。从而，在步骤201和202确定出该增益调节幅度和音量大小之后，可以从中选取出匹配的一个音效模式作为目标音效模式。

103、根据所述目标音效模式对所述声音信号进行音效调节；

可以理解的是，在确定出目标音效模式之后，可以根据该音效模式中规定的音效对该声音信号进行调节，例如可以包括对该声音信号的增益和音量分别进行调节。

104、输出调节后的所述声音信号。

在音效调节完成之后，则可以输出该声音信号。此处所说的“输出”不一定是通过音响设备输出声音，还可以指将音效调节后的声音信号输出至录播系统的录制模块，由录制模块将该声音信号和对应的视频画面进行资源整合、处理，完成视频的录制。

本实施例中，首先，获取拾音设备采集的声音信号；然后，根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；再之，根据所述目标音效模式对所述声音信号进行音效调节；最后，输出调节后的所述声音信号。这样可以综合考虑采集的用户声音信号和周围环境的环境信息自动确定音效模式，从而对声音信号进行音效调节，无需手动调节音频系统的音效，可以大大提高录播系统操作的简便性，降低了录播系统的使用限制和成本。

为便于理解，下面将从另一方面对本发明中的音效自动调节方法进行更加详细的描述。请参阅图3，本发明实施例中一种音效自动调节方法第二个实施例包括：

301、获取拾音设备采集的声音信号；

步骤301与第一个实施例中步骤101的内容相似，此处不再赘述。

302、对所述声音信号进行声音特征提取，得到第一声纹特征；

可以理解的是，不同人的发出的声音各不相同，各自具有其独特的声纹特征。在获取到当前用户的声音信号之后，可以对该声音信号进行声音特征提取，获取到这个用户的声纹特征，即第一声纹特征，为后续步骤中识别用户的身份做准备。

303、获取摄像设备采集的用户图像；

304、对所述用户图像进行人脸识别，得到第一人脸特征；

对于步骤303和304，为了更准确地进行用户身份的识别，若仅仅采用图像识别或者声纹识别，均存在误判的可能性。本实施例中铜鼓声纹特征和人脸特征相结合，共同结合来识别当前用户的身份，减少用户身份误判的可能性。

如图4所示，在录播过程中，摄像设备采集用户的图像/视频，且在采集用户图像时，必然会将用户的脸部纳入采集区域中，例如拍摄用户的上半身或者全身，因此在步骤304中，可以对用户图像进行人脸识别，得到该用户的第一人脸特征。

其中，步骤303和304可以在步骤301和302之前执行，也可以在步骤301和302之后执行，还可以与步骤301和302同时执行。

305、根据所述第一声纹特征和所述第一人脸特征从预设的音效模式库中查询对应的音效模式，所述音效模式库记录有声纹特征、人脸特征与音效模式之间的对应关系；

本实施例中，预先建立有音效模式库，该音效模式库中记录有声纹特征、人脸特征与音效模式之间的对应关系，可以是一个唯一的声纹特征和一个唯一的人脸特征对应一个唯一的音效模式。可以理解的是，在音效模式库中，一个唯一的声纹特征和一个唯一的人脸特征共同代表一个用户身份。特别地，还可以根据一个唯一的声纹特征和一个唯一的人脸特征确定并获取到该用户的身份数据，这些身份数据可以存储在录播系统上，也可以存储在于录播系统对接的其它系统或数据库上。在一个应用场景下，某位教师开始授课时，录播系统获取其声音和图像之后，即可根据其声纹特征和人脸特征确定这位教师的身份，并将其身份信息显示在显示设备上，或者在录播系统录制的视频中写入该教师的身份信息。例如，在录制好的授课视频的开头，显示本次授课的教师的身份信息。

306、若查询到所述对应的音效模式，则将查询到的音效模式确定为目标音效模式；

若步骤305中查询到了该第一声纹特征和第一人脸特征对应的音效模式，则代表该第一声纹特征和第一人脸特征对应的用户已经使用过该录播系统，或者在该录播系统中预先登记了身份信息，因此直接可以确定其对应的音效模式为本次音效调节所需的目标音效模式。

307、若未查询到所述对应的音效模式，则根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；

若步骤305中未查询到该第一声纹特征和第一人脸特征对应的音效模式，则代表该用户未使用过录播系统，也没有在该录播系统上预先登记过身份信息，该用户的身份对录播系统来说是未知的，因此也不存在对应的音效模式。从而，需要根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式。

其中，“根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式”的步骤与第一个实施例中步骤102类似，此处不再赘述。

进一步地，在步骤307之后，还可以将所述第一声纹特征、所述第一人脸特征与所述目标音效模式之间的对应关系记录至所述音效模式库，从而相当于将该用户身份信息(声纹特征、人脸特征)记录至录播系统中，当该用户再次使用录播系统时，便可识别出该用户的身份，也可以查询到其对应的音效模式。

308、根据所述目标音效模式对所述声音信号进行音效调节；

309、输出调节后的所述声音信号。

上述步骤308和步骤309分别与第一个实施例中步骤103和步骤104类似，此处不再赘述。

由上述内容可知，本发明中，可以利用录播系统中的摄像系统和音频系统采集用户的图像和声音信息，通过人脸特征和声纹特征相结合的方式识别用户的身份，提高用户识别的正确性和准确性；另外，本发明的音效自动调节方法可以应用在录播教室场景下，自适应上课教室的环境，根据用户识别匹配后的数据，得到每个教师的目标音效模式，自动调节上课音效。针对不同教师的声音情况设置有调整后的目标音效模式，当教师上课时，识别该教师后录播系统将会自动实时确定出对应的音效模式并作出音效调整，无需手动调节，教师正常上课既可以，使得录播系统操作更加简便。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

上面主要描述了一种音效自动调节方法，下面将对一种音效自动调节装置进行详细描述。

图5示出了本发明实施例中一种音效自动调节装置一个实施例结构图。

本实施例中，一种音效自动调节装置包括：

声音信号获取模块501，用于获取拾音设备采集的声音信号；

音效模式确定模块502，用于根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式；

音效调节模块503，用于根据所述目标音效模式对所述声音信号进行音效调节；

声音输出模块504，用于输出调节后的所述声音信号。

进一步地，所述音效自动调节装置还可以包括：

用户图像获取模块，用于获取摄像设备采集的用户图像；

进一步地，所述音效自动调节装置还可以包括：

进一步地，所述音效模式确定模块可以包括：

进一步地，所述音效自动调节装置还包括：

干扰过滤模块，用于在获取拾音设备采集的声音信号之后，对所述声音信号进行干扰过滤处理。

本发明还提供了一种录播系统，其包括图5对应实施例中描述的任意一种音效自动调节装置。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音效自动调节方法，其特征在于，包括：

获取拾音设备采集的声音信号；

根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式，所述环境信息包括所述拾音设备所处环境的面积大小和噪音分贝；

根据所述目标音效模式对所述声音信号进行音效调节；

输出调节后的所述声音信号；

在根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式之前，还包括：

对所述声音信号进行声音特征提取，得到第一声纹特征；

获取摄像设备采集的用户图像；

对所述用户图像进行人脸识别，得到第一人脸特征；

2.根据权利要求1所述的音效自动调节方法，其特征在于，在根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式之后，还包括：

3.根据权利要求1所述的音效自动调节方法，其特征在于，所述根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式包括：

根据所述声音信号确定输出时所需的增益调节幅度；

4.根据权利要求1至3中任一项所述的音效自动调节方法，其特征在于，还包括：

5.一种音效自动调节装置，其特征在于，包括：

声音信号获取模块，用于获取拾音设备采集的声音信号；

音效模式确定模块，用于根据所述声音信号和所述拾音设备所处环境的环境信息确定目标音效模式，所述环境信息包括所述拾音设备所处环境的面积大小和噪音分贝；

声音输出模块，用于输出调节后的所述声音信号；

所述音效自动调节装置还包括：

用户图像获取模块，用于获取摄像设备采集的用户图像；

6.根据权利要求5所述的音效自动调节装置，其特征在于，所述音效自动调节装置还包括：

7.根据权利要求5至6中任一项所述的音效自动调节装置，其特征在于，所述音效模式确定模块包括：

8.一种录播系统，其特征在于，包括如权利要求5至7中任一项所述的音效自动调节装置。