CN116156327A

CN116156327A - 一种提高网络摄像机视频对讲效果的方法、网络摄像机

Info

Publication number: CN116156327A
Application number: CN202310109838.3A
Authority: CN
Inventors: 余彩明; 龚鹏鹏
Original assignee: Hangzhou Ezviz Software Co Ltd
Current assignee: Hangzhou Ezviz Software Co Ltd
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-05-23

Abstract

本申请公开了一种提高网络摄像机视频对讲效果的方法，该方法包括：在网络摄像机侧进行视频对讲过程中，检测图像数据中的被拍摄目标，在被拍摄目标图像尺寸不符合期望的情形下，调整光学变焦的变焦信息，使得被拍摄目标图像尺寸符合期望，基于调整后的变焦信息获取当前图像数据，并获取当前音频数据，将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，基于变焦倍数，对当前音频数据进行音频变焦处理，使得当前音频数据中定向声音按照变焦倍数被增强，未定向声音被抑制。本申请解决了视频对讲过程中因被拍摄目标的位置变化而导致被拍摄目标画面、及其声音的波动，提高了用户体验。

Description

一种提高网络摄像机视频对讲效果的方法、网络摄像机

技术领域

本发明涉及网络摄像机领域，特别地，涉及一种提高网络摄像机视频对讲效果的方法。

背景技术

当前网络摄像机(IPC)在视频对讲过程中，均不会根据被拍摄目标在画面中的大小、以及清晰度自动/被动地进行光学变焦以及音频变焦，导致在视频通话时如果被拍摄目标距离IPC设备太远的情况下，既在画面中太小无法看清被拍摄目标的细节，同时也无法听清被拍摄目标的声音。如果被拍摄目标距离IPC太近则导致视频画面中无法完整地展示被拍摄目标，并且在视频通话过程中如果存在走动的情况，那么被拍摄目标在画面中的大小、位置和声音也会随着被拍摄目标的位置变化而忽大忽小，这导致视频对讲过程中用户的体验感不佳。

发明内容

本发明提供了一种提高网络摄像机视频对讲效果的方法，以解决视频对讲过程中因被拍摄目标的位置变化而导致被拍摄目标画面、及其声音的波动。

本申请实施例第一方面提供一种提高网络摄像机视频对讲效果的方法，该方法包括：在网络摄像机侧进行视频对讲过程中，

检测图像数据中的被拍摄目标，

在被拍摄目标图像尺寸不符合期望的情形下，调整光学变焦的变焦信息，使得被拍摄目标图像尺寸符合期望，

基于调整后的变焦信息获取当前图像数据，并获取当前音频数据，

将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，

基于变焦倍数，对当前音频数据进行音频变焦处理，使得当前音频数据中定向声音按照变焦倍数被增强，未定向声音被抑制。

较佳地，所述检测图像数据中的被拍摄目标，包括：

利用智能检测算法，对所述图像数据进行检测，得到被拍摄目标的目标框及其像素坐标信息，

根据目标框的像素坐标信息，确定目标框所包括的像素数量，

根据图像分辨率，确定画面所包括的像素数量，

根据目标框所包括的像素数量与画面所包括的像素数量的比值，确定被拍摄目标在画面中的占比信息，

将占比信息与预设的占比阈值进行比较，根据比较结果确定被拍摄目标图像的尺寸。

较佳地，所述在被拍摄目标图像尺寸不符合期望的情形下，调整光学变焦的变焦信息，使得被拍摄目标图像尺寸符合期望，包括：

若占比信息小于设定的第一占比阈值或大于设定的第二占比阈值，则判定在被拍摄目标在画面中的占比不符合期望，根据占比信息以及设定的期望占比阈值，计算所述变焦信息，且

在占比信息小于设定的第一占比阈值的情形下，按照变焦信息拉近镜头焦距，在占比信息大于设定的第二占比阈值的情形下，按照变焦信息拉远镜头焦距；

其中，第一占比阈值小于等于第二占比阈值。

较佳地，该方法进一步包括：

根据目标框的像素坐标信息，确定被拍摄目标在画面中的位置信息，

根据位置信息，判断被拍摄目标在画面中的位置是否中心位置，

在被拍摄目标在画面中的位置处于非中心位置的情形下，调整云台的位姿，使得被拍摄目标位于画面的中心。

较佳地，所述基于变焦倍数，对当前音频数据进行音频变焦处理，使得当前音频数据中定向声音被增强，未定向声音被抑制，包括：

在变焦倍数大于设定倍数阈值的情形下，

对来自网络摄像机正前方的声音予以增强，对其他的声音予以削弱，

按照变焦倍数，对增强声音的音量增益进行调节，且

镜头焦距拉远的情形下，增大所述音量增益，镜头焦距拉近的情形下，减小所述音量增益。

较佳地，所述将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，包括：

基于预先建立的光学变焦的变焦信息与用于音频变焦处理的变焦倍数的对应关系，查询调整后的变焦信息所对应用于音频变焦处理的变焦倍数；

或者，

按照如下方式映射用于音频变焦处理的变焦倍数：

计算当前整个画面的宽度与画面中被拍摄目标的宽度的比值，或者，计算整个画面的高度与画面中被拍摄目标的高度的比值，

计算该比值与被拍摄目标在画面中的期望占比的乘积，得到调整后的变焦信息，

将调整后的变焦信息转换为分贝数，得到用于音频变焦处理的变焦倍数。

较佳地，该方法进一步包括：

将所述音频变焦处理后的音频数据进行音频编码，得到音频编码数据，

将所述当前图像数据进行视频编码，得到视频编码数据，

将音频编码数据和视频编码数据按照时间信息进行同步，

将同步后的音频编码数据和视频编码数据封装为数据包。

本申请实施例第二方面提供一种网络摄像机，包括：图像采集模块、音频采集模块、音频输出模块、以及网络模块，所述网络摄像机还包括：

目标检测模块，用于检测图像数据中的被拍摄目标，

光学变焦模块，在被拍摄目标的图像尺寸不符合期望的情形下，调整光学变焦的变焦信息，使得被拍摄目标的图像尺寸符合期望，并使得图像采集模块基于调整后的变焦信息获取当前图像数据，使得音频采集模块获取当前音频数据，将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，

音频变焦模块，用于基于变焦倍数，对来自音频采集模块的当前音频数据进行音频变焦处理，使得当前音频数据中定向声音按照变焦倍数被增强，未定向声音被抑制。

较佳地，所述网络摄像机还包括：

云台模块，用于在被拍摄目标在画面中的位置处于非中心位置的情形下，调整云台位姿，使得被拍摄目标位于画面的中心；

所述音频采集模块用于采集一路以上不同方向的音频数据。

本申请实施例第三方面提供一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现任一所述提高网络摄像机视频对讲效果的方法的步骤。

本申请实施例具有如下有益效果：

本申请实施例通过检测被拍摄目标图像在画面中的大小来触发光学变焦处理，从而使得被拍摄目标图像太小时通过光学变倍拉大焦距，被拍摄目标图像太小时通过光学变倍缩小焦距，从而确保被拍摄目标以合适的大小显示在画面中，在光学变倍的过程中同步设置音频变焦参数，以解决被拍摄目标距离IPC太远而无法获取清晰声音的问题。通过云台位姿来确保被拍摄目标始终处于画面中心。通过以上优化可以大大提升视频对讲功能的人性化、科技感以及用户体验，使得在视频通话过程中IPC视频中的被拍摄目标无论在哪里都可以以合适的大小、清晰度显示在视频画面中，并且能够清晰的听到被拍摄人的声音。

附图说明

图1为本申请实施例一种提高网络摄像机视频对讲效果的方法。

图2为本申请实施例提高网络摄像机视频对讲效果的方法的一种流程示意图。

图3为音频变焦处理的一种示意图。

图4为音频变焦处理的另一种示意图。

图5为本申请另一实施例提高网络摄像机视频对讲效果的方法的一种流程示意图。

图6为本申请实施例光学变焦处理的一种流程示意图。

图7为本申请实施例音频变焦处理的一种流程示意图。

图8为本申请实施例网络摄像机的一种示意图。

图9为本申请实施例IPC的另一种示意图。

具体实施方式

为了使本申请的目的、技术手段和优点更加清楚明白，以下结合附图对本申请做进一步详细说明。

本申请实施例将光学变焦技术、音频变焦技术相结合地应用于基于网络摄像机，利用光学变焦获得清晰的图像，通过光学变焦所对应的变焦信息所映射的用于音频变焦处理的变焦倍数处理音频数据，并利用音频变焦来使得定向声音按照变焦倍数被增强，未定向声音被抑制，从而使得网络摄像机视频对讲过程中因被拍摄目标图像及其声音不因其位置变化而波动。

参见图1所示，图1为本申请实施例一种提高网络摄像机视频对讲效果的方法，该方法包括：在网络摄像机侧进行视频对讲过程中，

步骤101，检测图像数据中的被拍摄目标，

所应理解的是，所检测的被拍摄目标可以是基于图像按照约束特征条件检测识别的目标，例如，面部特征、体态特征等，也可以是响应于用户输入的感兴趣目标，

步骤102，在被拍摄目标图像尺寸不符合期望的情形下，调整光学变焦的变焦信息，使得被拍摄目标图像尺寸符合期望，

作为一种示例，为有利于网络摄像机光学变焦的自动性，若被拍摄目标在画面中的占比不符合期望，调整光学变焦的变焦信息，使得被拍摄目标在画面中的占比符合期望。

进一步地，作为另一种示例，若被拍摄目标在画面中的位置不符合期望，则通过调整云台位姿，使得被拍摄目标在画面中的位置符合期望。

步骤103，基于调整后的变焦信息获取当前图像数据，并获取当前音频数据，

步骤104，将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，

作为一种示例，预先建立光学变焦的变焦信息与用于音频变焦处理的变焦倍数的对应关系，通过对应关系来进行映射。

作为另一种示例，可以按照如下方式来进行映射：

计算光学变焦的变焦信息，例如，计算整个画面的宽度与被拍摄目标的宽度的比值，或者，计算整个画面的高度与被拍摄目标的高度的比值，计算该比值与被拍摄目标在画面中的期望占比的乘积，得到光学变焦的变焦倍数，即调整后的光学变焦的变焦信息，用数学式表达为：

rate＝T*W₁/W₀

映射光学变焦倍数到音频变焦，例如，将光学变焦的变焦倍数转化为分贝数，得到用于音频变焦的变焦倍数，用数学式表达为：

dB＝20*log₁₀(rate)

其中，

W₀:被拍摄目标的宽度或高度；

W₁:整个画面的宽度或高度

T:被拍摄目标在画面中的期望占比

rate：光学变焦的变焦信息，

dB：用于音频变焦的变焦倍数。

步骤105，基于变焦倍数，对当前音频数据进行音频变焦处理，使得当前音频数据中定向声音按照变焦倍数被增强，未定向声音被抑制。

作为一种示例，利用被拍摄目标在画面中的位置信息，基于相机模型，可获取被拍摄目标空间位置信息，从而可确定定向声音，例如，被拍摄目标在画面中的位置为画面中心，定向声音则为网络摄像机的正前方。

本申请实施例提供的适用于IPC设备的提高视频对讲效果的方法，在视频通话过程中，通过检测被拍摄目标在视频画面中的尺寸、以及位置，通过光学变焦处理使视频对讲过程中IPC画面中的被拍摄目标始终以合适的大小展示在画面中，此外，通过云台确保被拍摄目标始终位于画面中心位置，这样，即使视频对讲过程中被拍摄目标处于运动状态，也始终保持被拍摄人在画面中心，通过音频变焦处理从嘈杂的环境或远处提取清晰的声音，给用户一种身临奇境的感觉，提高视频对讲的效果以及用户体验。

为便于理解本申请实施例及其可能实施方式，以下予以具体说明，所应理解的是，本申请实施例不限于如下可能的实施方式，任何本领域技术人员的改进、变化的实施方式也可适用。

参见图2所示，图2为本申请实施例提高网络摄像机视频对讲效果的方法的一种流程示意图。在视频对讲功能被触发后，用于图像采集控制的第一进程执行如下步骤：

步骤201，触发图像采集模块采集当前图像，利用智能检测算法分析来自图像采集模块的图像数据(例如YUV数据)中的目标信息，获取被拍摄目标在画面中像素坐标信息，

作为一种示例，智能检测算法可采用目标检测方法来识别图像数据中的被拍摄目标的目标框，基于目标框获得被拍摄目标在画面中的像素坐标信息；

步骤202，根据目标框的像素坐标信息和图像分辨率来计算被拍摄目标在画面中的占比信息，

作为一种示例，根据像素坐标信息确定目标框所包括的像素数量，根据图像分辨率确定画面所包括的像素数量，根据目标框所包括的像素数量与画面所包括的像素数量的比值，可得到占比信息；

如果占比小于设定的占比阈值，则说明被拍摄目标图像太小，如果占比大于设定的阈值，则说明被拍摄目标图像太大，这样，可根据占比信息来计算用于光学变焦的变焦倍数，以便按照该变焦倍数控制光学变焦镜头进行变焦，以使得被拍摄目标清晰，并使得目标框的尺寸大小符合期望，该变焦倍数也就是调整后的光学变焦的变焦信息。

进一步地，还可根据像素坐标信息确定目标框在画面中的位置信息，根据位置信息判断目标框是否在画面的中心位置，这样，可根据位置信息调整图像采集方位，即云台的位姿，以便跟随被拍摄目标并使其图像位于画面中心；

作为另一种示例，第一进程响应于用户输入的感兴趣目标，例如，用户在初始画面中指定感兴趣目标，根据感兴趣目标确定光学变焦的倍数、以及云台的位姿；

步骤203，根据当前光学变焦的变焦信息，确定音频变焦的倍数，

光学变焦完成后，将光学变焦的变焦信息映射为音频变焦的变倍信息。

作为一种示例，如果音频变焦的变倍倍数大于设定的倍数阈值，则通知用于音频采集控制的第二进程，以进行音频变焦，

如果音频变焦的变倍倍数小于设定的倍数阈值，则不进行音频变焦操作。

比如：

通过智能检测算法检测到A在画面中的占比大小为10％，但是期望的占比是30％，假设现在的焦距是10mm，那么就需要将焦距调整到3*10(30mm，3倍)，焦距的调整通过用于光学变焦的焦距(zoom)电机来实现，zoom电机的步数可以使用以下公式计算：(目标焦距–当前焦距)/zoom电机步进。光学变焦焦距拉大了3倍，映射到音频变焦中则需要将音频声音放大3*6db(光学变焦和音频变焦的映射关系)，18db大于音频变焦设定的倍数阈值，将该映射值同步更新到第二进程中。该过程为放大流程，缩小流程则与放大相反。

作为另一种示例，将所确定的音频变焦的变焦倍数进行存储，以便第二进程在需要进行音频变焦处理的情形下，读取所确定的音频变焦的变焦倍数。

步骤204，第一进程根据光学变焦的变焦信息、以及云台位姿信息，控制图像采集模块进行图像采集，并触发第二进程以控制音频采集模块采集多路音频数据；

作为一种示例，基于目标框的像素坐标信息，按照相机模型，获取图像采集模块的位姿信息，根据位姿信息，通过控制云台使得图像采集模块位于期望的采集方位，例如，使得目标框位于画面的中心，并根据光学变焦的变焦信息，控制图像采集模块按照变焦信息进行图像采集。

步骤205，将所采集的当前图像进行视频编码，以便封装为数据包。

作为一种示例，将当前图像按照设定的视频编码标准进行编码，例如，按照H.264、或H.265进行编码。

在视频对讲功能被触发后，用于音频采集控制的第二进程执行如下步骤：

步骤201’，控制音频采集模块采集当前音频数据，

作为一种示例，控制多个麦克风和/或多通道麦克风采集多路当前音频数据，

步骤202’，对所采集的当前音频数据进行音频变焦处理，

作为一种示例，利用音频变焦算法，处理所采集的当前音频数据。

音频变焦是通过采集多个麦克风和/或多通道麦克风的音频数据，然后通过音频变焦算法进行处理，这样，可以将远处听上去的嘈杂的声音变得清晰，给予面对面说话的感觉。

如图3所示，当被拍摄目标在C位置时无音频变焦处理的普通IPC能够较清晰的听到位置C处的声音，但当被拍摄目标走到A位置时，普通IPC设备采集到的声音可能听上去很轻或者直接是嘈杂的声音，但是如果声音采集后经过音频变焦处理就可以清晰地听到被拍摄目标的声音，虽然被拍摄目标的位置从位置C移动到位姿A，但是听到的声音感觉并没有变化。

在一种示例中，第二进程接收到来自第一进程进行音频变焦处理的通知，获取所映射的用于音频变焦的变焦倍数，根据变焦倍数对所采集的多路音频数据进行音频变焦处理；

在另一示例中，第二进程获取所映射的用于音频变焦的变焦倍数，判断变焦倍数是否大于设定的倍数阈值，如果是，则根据变焦倍数对所采集的多路音频数据进行音频变焦处理，否则，不进行音频变焦处理。

比如，如图4所示，当IPC采集被拍摄目标A、B、C时，IPC采集的声音很嘈杂，包含被拍摄目标A、B、C的声音，假设IPC对被拍摄目标B的采集进行了光学变焦处理，并触发了音频变焦处理，则IPC会削减被拍摄目标A、C的声音，这样就可以听到清晰的B的声音，同理，如果期望获得被拍摄目标A或C的声音，只要控制图像采集模块采集被拍摄目标A或C即可。如此一来，可利用所采集的目标图像来锁定音频数据的来源方向。

步骤203’，将音频变焦处理后的音频数据进行编码，

作为一种示例，按照音频编码标准，对音频变焦处理后的音频数据进行编码，例如，按照G711、或AAC、或OPUS编码标准进行编码。

作为一种示例，第一进程或第二进程执行如下步骤：

步骤206，将编码后的图像数据和编码后的音频数据进行同步，然后封装为数据包以便进行网络传输、存储、预览中的至少之一。

作为一种示例，编码后的图像数据和编码后的音频数据按照时间信息例如时间戳进行同步，同步后封装为数据包。

参见图5所示，图5为本申请另一实施例提高网络摄像机视频对讲效果的方法的一种流程示意图。在该实施例中，通过用于图像采集控制、以及用于音频采集控制的第三进程来提高网络摄像机视频对讲效果。具体地，在视频对讲功能被触发后，第三进程执行如下步骤：

步骤501，采集当前图像数据和当前音频数据，并检测当前图像和当前音频数据是否满足期望，

如果满足，则将当前图像数据和当前音频数据分别进行编码，将音频编码数据和视频编码数据按照时间戳进行同步后封装为数据包。

否则，响应于用户输入的感兴趣目标，根据感兴趣目标确定光学变焦的倍数、以及图像采集方位(云台位姿信息)，并进行图像采集，

步骤502，利用智能检测算法，对当前图像数据进行检测，获取被拍摄目标的像素坐标信息；

作为一种示例，如果画面中存在多个被拍摄目标，则由用户指定一个感兴趣的目标，或者通过智能算法计算出一个默认的感兴趣目标。

步骤503，根据被拍摄目标的像素坐标信息检测被拍摄目标在画面中的占比、位置是否符合期望，

如果是，则将当前图像数据和当前音频数据分别进行编码，将音频编码数据和视频编码数据按照时间戳进行同步后封装为数据包；

否则，执行步骤504，

步骤504，根据被拍摄目标的像素坐标信息确定光学变焦的变焦信息、以及云台的位姿信息，以便图像采集模块以位姿信息所确定的位姿、按照变焦信息进行图像数据采集；

作为一种示例，通过控制云台位姿，使得图像采集模块可位于所需的图像采集方位。反复执行步骤503～504，直至被拍摄目标在画面中的占比、位置符合期望，

步骤505，将光学变焦的当前变焦信息映射为用于音频变焦的变焦倍数，

步骤506，判断用于音频变焦的变焦倍数是否大于设定的倍数阈值，如果是，则按照当前变焦倍数对当前采集的音频数据进行音频变焦处理，否则，不进行音频变焦处理，将当前音频数据、以及当前图像数据分别进行编码，将音频编码数据和视频编码数据按照时间戳进行同步后封装为数据包。

步骤507，将音频变焦处理后的音频数据、以及当前图像数据分别进行编码，将音频编码数据和视频编码数据按照时间戳进行同步后封装为数据包。

参见图6所示，图6为本申请实施例光学变焦处理的一种流程示意图。该光学变焦处理包括：

步骤601，检测被拍摄目标在画面中的占比是否符合期望，

如果是，则执行步骤602，

否则，将当前占比与占比阈值进行比较，根据比较结果确定是否进行光学变焦，使得被拍摄目标在画面中的占比符合期望，

若当前占比小于第一占比阈值，则控制变焦减少，即，控制镜头拉近焦距，然后确定当前光学变焦的变焦信息，否则，基于当前图像确定当前变焦信息，

若当前占比大于第二占比阈值，则控制变焦增加，即，控制镜头拉远焦距，然后确定当前光学变焦的变焦信息，否则，基于当前图像确定当前变焦信息，

其中，第一占比阈值小于等于第二占比阈值。

步骤602，判断被拍摄目标是否在画面的中心位置，

如果是，则结束本次光学变焦处理，

否则，则控制云台位姿，使得被拍摄目标位于画面中心，

反复执行步骤601、602，直至被拍摄目标达到期望。

所应理解的是，上述步骤601、602也可以是调转的，或者是并行的，可以无严格的先后次序。

鉴于音频变焦原理是定向增强、增益调节，其中，定向增强用的是声波的干涉原理，在需增强的方向声波是同相相加的，幅值变大，在其他方向声波反相相加，幅值抵消，这样，定向增强便能放大某个方向的声音；增益调节通过距离来自动调节音量的大小，如果距离远则增大增益，如果距离近则减小增益。

参见图7所示，图7为该音频变焦处理包括：

步骤701，对麦克风所采集的多路音频数据进行定向增强处理，例如，当被拍摄目标位于画面的中心位置的情形下，可增强IPC正前方的声音，削弱其他方向的声音；

步骤702，根据所映射的变焦倍数，对定向增强后的音频数据进行音量增益调节，镜头焦距拉远的情形下，增大所述音量增益，镜头焦距拉近的情形下，减小所述音量增益；

作为一种示例，

若焦距大于设定的焦距阈值，则音量增益增大，以增加声音音量；

若焦距小于设定的焦距阈值，则音量增益减少，以降低声音音量；

步骤703，输出音量增益调节后的音频数据。

在本申请实施例中，光学变焦通过控制镜头来改变焦距，从而改变被拍摄目标在画面中的大小，通过控制云台位姿来跟踪被拍摄目标从而确保被拍摄目标处于画面正中心位置，音频变焦只要将画面对焦到想听的音源，目标声音大小就会随视频焦距增加而变大，其它方向干扰则有所抑制。当音源较远而听不清楚时，调节焦距拉近画面，声音也同步地拉近，就好像面对面一样；当目标音源被周遭喧嚣淹没时，同样只需拉近画面，想听的那个声音就会变的清晰。如果画面中存在多个目标，则IPC可选择目标，或者通过手机APP客户选择目标。

参见图8所示，图8为本申请实施例网络摄像机的一种示意图。该网络摄像机包括图像采集模块、音频采集模块、音频输出模块、网络模块，所述网络摄像机还包括：

目标检测模块，用于检测图像数据中的被拍摄目标，

光学变焦模块，用于在被拍摄目标的图像尺寸不符合期望的情形下，调整光学变焦的变焦信息，使得被拍摄目标的图像尺寸符合期望，并使得图像采集模块基于调整后的变焦信息获取当前图像数据，使得音频采集模块获取当前音频数据，将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，

网络摄像机还包括：云台模块，用于在被拍摄目标在画面中的位置处于非中心位置的情形下，调整网络摄像机的位姿，使得被拍摄目标位于画面的中心；

其中，音频采集模块可以包括多个麦克风和/或多通道麦克风，以便采集多路不同方向的音频数据。

作为一种示例，网络摄像机还可包括：用于对视频数据进行编码的视频编码模块、用于对音频数据进行编码的音频编码模块、以及用于将视频编码数据、音频编码数据进行同步后进行封装的封装模块。

参见图9所示，图9为本申请实施例IPC的另一种示意图。IPC包括：

音频输出组件，图像传感器组件、光学变焦组件、电源组件、云台组件、网络组件、包括多个麦克风和/或多通道麦克风的音频采集组件、存储器、处理器，其中，音频输出组件，图像传感器组件、电源组件、云台组件、网络组件、多个麦克风和/或多通道麦克风组件、存储器分别与处理器相连接，光学变焦组件用于在处理器的控制下变焦，所述存储器存储有计算机程序，所述处理器执行所述计算机程序以实现本申请实施例中的步骤。

存储器可以包括随机存取存储器(Random Ac cess Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储模块。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例提高网络摄像机视频对讲效果的方法的步骤。

对于模块/网络侧设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种提高网络摄像机视频对讲效果的方法，其特征在于，该方法包括：在网络摄像机侧进行视频对讲过程中，

检测图像数据中的被拍摄目标，

将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，

2.如权利要求1所述的方法，其特征在于，所述检测图像数据中的被拍摄目标，包括：

根据图像分辨率，确定画面所包括的像素数量，

3.如权利要求2所述的方法，其特征在于，所述在被拍摄目标图像尺寸不符合期望的情形下，调整光学变焦的变焦信息，使得被拍摄目标图像尺寸符合期望，包括：

其中，第一占比阈值小于等于第二占比阈值。

4.如权利要求3所述的方法，其特征在于，该方法进一步包括：

5.如权利要求4所述的方法，其特征在于，所述基于变焦倍数，对当前音频数据进行音频变焦处理，使得当前音频数据中定向声音被增强，未定向声音被抑制，包括：

在变焦倍数大于设定倍数阈值的情形下，

按照变焦倍数，对增强声音的音量增益进行调节，且

6.如权利要求1所述的方法，其特征在于，所述将调整后的变焦信息映射为用于音频变焦处理的变焦倍数，包括：

或者，

按照如下方式映射用于音频变焦处理的变焦倍数：

7.如权利要求1所述的方法，其特征在于，该方法进一步包括：

将所述当前图像数据进行视频编码，得到视频编码数据，

将音频编码数据和视频编码数据按照时间信息进行同步，

将同步后的音频编码数据和视频编码数据封装为数据包。

8.一种网络摄像机，包括：图像采集模块、音频采集模块、音频输出模块、以及网络模块，其特征在于，所述网络摄像机还包括：

目标检测模块，用于检测图像数据中的被拍摄目标，

9.如权利要求8所述的网络摄像机，其特征在于，所述网络摄像机还包括：

所述音频采集模块用于采集一路以上不同方向的音频数据。

10.一种计算机可读存储介质，其特征在于，所述存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一所述提高网络摄像机视频对讲效果的方法的步骤。