CN106028114A

CN106028114A - 一种实时采集音视频证据的证人保护方法及装置

Info

Publication number: CN106028114A
Application number: CN201610338179.0A
Authority: CN
Inventors: 蔡龙之; 田奎; 张世龙
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2016-10-12
Anticipated expiration: 2036-05-19

Abstract

本发明实施例公开了一种实时采集音视频证据的证人保护方法及装置。该方法包括：对实时采集到的证人作证的原始视频的视频图像进行人脸检测；若检测到人脸，根据人脸区域的位置和大小对视频图像中的人脸区域进行马赛克处理，并对马赛克处理后的视频图像编码；否则，对原始视频的视频图像编码；对实时采集到的证人作证的原始音频进行变声处理；对变声处理后的音频编码；将编码后的视频图像与编码后的音频同步合成音视频；将音视频发送至非证据采集现场设备播放，以响应接收到的非证据采集现场设备的证据采集请求信息。该方案中，提高了证据采集的效率，并且，避免了在证人相对镜头发生移动时，因手动设置马赛克区域不及时导致证人的身份泄露。

Description

一种实时采集音视频证据的证人保护方法及装置

技术领域

本发明涉及证据采集技术领域，尤其涉及一种实时采集音视频证据的证人保护方法及装置。

背景技术

在法庭的庭审现场，常常需要有证人作证，但是有些证人不便直接出庭作证，例如污点证人，污点证人是较为特殊的一种证人，是犯罪活动的参与者，有犯罪污点，但是可以为国家公诉机关作证，指证其他犯罪人犯罪事实，出于对证人的人身安全的考虑，目前通常采用的证人作证的方式如下：

方式一、预先录制一段证人作证的音视频(包括同步的音频和视频)，然后对视频图像进行处理，即对人脸的部分打上马赛克，对音频做变声处理，避免证人的身份泄露。法庭庭审的时候，将处理后的音视频进行现场播放。这种方式中，证人作证的音视频是预先录制好的，虽然可以通过对视频图像及音频做处理以保护证人，但是法官在现场无法直接和证人进行交流，降低庭审的效率。

方式二、在庭审现场设置庭审设备，在证人室内设置证人作证的证据采集装置，庭审设备与证据采集装置可远程进行通信；在证据采集装置侧，对采集的证人的视频图像进行处理，需要手动设置固定的马赛克处理区域以实现遮挡，对音频做变声处理，避免证人的身份泄露；证据采集装置将处理后的音视频实时发送给庭审设备，由庭审设备在庭审现场播放。这种方式中，马赛克处理区域是手动设置且固定的，在庭审过程中，如果证人相对镜头发生移动，造成证人的身份泄露。

发明内容

本发明实施例的目的是提供一种实时采集音视频证据的证人保护方法及装置，用于避免证人的身份泄露。

本发明实施例的目的是通过以下技术方案实现的：

一种实时采集音视频证据的证人保护方法，包括：

对实时采集到的证人作证的原始视频的视频图像进行人脸检测；

若检测到人脸，根据人脸区域的位置和大小对视频图像中的人脸区域进行马赛克处理，并对马赛克处理后的视频图像编码；否则，对原始视频的视频图像编码；

对实时采集到的证人作证的原始音频进行变声处理；

对变声处理后的音频编码；

将编码后的视频图像与编码后的音频同步合成音视频；

将所述音视频发送至非证据采集现场设备播放，以实时响应接收到的所述非证据采集现场设备的证据采集请求信息。

较佳地，根据人脸区域的位置和大小对人脸区域进行马赛克处理之前，该方法还包括：

获取所述人脸区域的位置和大小；

根据人脸区域的位置和大小对人脸区域进行马赛克处理，包括：

根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分；

在各个所述宏块中，根据所述宏块中的任意一个像素点的像素值，对所述宏块修改各个像素点的像素值。

较佳地，该方法还包括：确定基准人脸区域的大小，及所述基准人脸区域的大小对应的基准宏块的大小；

根据所述人脸区域的位置坐标和大小，对所述人脸区域进行宏块的划分，包括：

计算所述人脸区域的大小与所述基准人脸区域的大小的比值，计算该比值与所述基准宏块的大小的乘积，将大于该乘积的最小整数确定为宏块的大小；

根据所述人脸区域的位置和确定的宏块的大小，对所述人脸区域进行宏块的划分。

较佳地，根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分，包括：

计算所述人脸区域的大小在所述视频图像中所占的比例；

根据人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系，以及计算得到的所述人脸区域的大小在所述视频图像中所占的比例，确定所述宏块的大小；

较佳地，人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系中，人脸区域的大小在视频图像中所占的比例越大，对应的宏块的大小越大。

较佳地，该方法还包括：存储所述音视频；

该方法还包括：将所有采集到的证人作证的原始视频的视频图像和原始音频进行同步合成得到原始音视频；存储所述原始音视频。

一种实时采集音视频证据的证人保护装置，包括：

人脸检测模块，用于：对采集到的证人作证的原始视频的视频图像进行人脸检测；

马赛克处理模块，用于：若人脸检测模块检测到人脸，根据人脸区域的位置和大小对人脸区域进行马赛克处理；

视频编码模块，用于：若人脸检测模块检测到人脸，且马赛克处理模块对人脸区域进行马赛克处理后，对马赛克处理后的视频图像编码；否则，对原始视频的视频图像编码；

音频处理模块，用于：对采集到的证人作证的原始音频进行变声处理；

音频编码模块，用于：对变声处理后的音频编码；

音视频合成模块，用于：将编码后的视频图像与编码后的音频同步合成音视频；

发送模块，用于：将所述音视频发送至非证据采集现场设备播放，以实时响应接收到的非证据采集现场设备的证据采集请求信息。

较佳地，根据人脸区域的位置和大小对视频图像中的人脸区域进行马赛克处理之前，所述人脸检测模块还用于：获取所述人脸区域的位置和大小；

马赛克处理模块具体用于：根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分；在各个所述宏块中，根据所述宏块中的任意一个像素点的像素值，对所述宏块修改各个像素点的像素值。

较佳地，马赛克处理模块还用于：确定基准人脸区域的大小，及所述基准人脸区域的大小对应的基准宏块的大小；

根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分时，马赛克处理模块具体用于：计算所述人脸区域的大小与所述基准人脸区域的大小的比值，计算该比值与所述基准宏块的大小的乘积，将大于该乘积的最小整数确定为宏块的大小；根据所述人脸区域的位置和确定的宏块的大小，对所述人脸区域进行宏块的划分。

较佳地，根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分时时，所述马赛克处理模块具体用于：

计算所述人脸区域的大小在所述视频图像中所占的比例；

较佳地，该装置还包括存储模块，用于：存储所述音视频；

所述音视频合成模块还用于：将所有采集到的证人作证的原始视频的视频图像和原始音频进行同步合成得到原始音视频；

所述存储模块还用于：存储所述原始音视频。

本发明实施例的有益效果如下：

本发明实施例提供的一种实时采集音视频证据的证人保护方法及装置中，与上述现有技术中预先录制音视频的方式相比，证人作证的音频、视频是实时采集并处理的，并且得到的音视频被实时发送至非证据采集现场设备播放，可实时响应接收到的非证据采集现场设备的证据采集请求信息，提高了证据采集的效率。并且，与上述现有技术中手动设置马赛克区域的方式相比，在对视频图像进行处理的过程中，无需手动设置马赛克区域，而是对视频图像自动检测人脸，根据人脸区域的位置和大小对检测到的人脸区域进行马赛克处理，即实现了人脸追踪的动态马赛克处理，避免了在证人相对镜头发生移动时，因手动设置马赛克区域不及时导致证人的身份泄露。

附图说明

图1为本发明实施例提供的一种实时采集音视频证据的证人保护方法流程图；

图2为本发明实施例提供的一种实时采集音视频证据的证人保护装置示意图；

图3为本发明实施例提供的另一种实时采集音视频证据的证人保护方法示意图。

具体实施方式

下面结合附图和实施例对本发明提供的一种实时采集音视频证据的证人保护方法及装置进行更详细地说明。

如图1所示，本发明实施例提供一种实时采集音视频证据的证人保护方法，其具体实现方式如下：

步骤110、对实时采集到的证人作证的原始视频的视频图像进行人脸检测。

步骤120、若检测到人脸，根据人脸区域的位置和大小对视频图像中的人脸区域进行马赛克处理，并对马赛克处理后的视频图像编码；否则，对原始视频的视频图像编码。

其中，人脸区域可以通过框住检测到的人脸轮廓的最小矩形框所框住的图像区域表示。

步骤130、对实时采集到的证人作证的原始音频进行变声处理。

步骤140、对变声处理后的音频编码。

步骤150、将编码后的视频图像与编码后的音频同步合成音视频。

步骤160、将音视频发送至非证据采集现场设备播放，以实时响应接收到的非证据采集现场设备的证据采集请求信息。

其中，证人所处的现场即为证据采集现场，为了保护该证人的身份不被泄露，将音视频发送至非证据采集现场播放。

本发明实施例中，与上述现有技术中预先录制音视频的方式相比，证人作证的音频、视频是实时采集并处理的，并且得到的音视频被实时发送至非证据采集现场设备播放，可实时响应接收到的非证据采集现场设备的证据采集请求信息，提高了证据采集的效率。并且，与上述现有技术中手动设置马赛克区域的方式相比，在对视频图像进行处理的过程中，无需手动设置马赛克区域，而是对视频图像自动检测人脸，根据人脸区域的位置和大小对检测到的人脸区域进行马赛克处理，即实现了人脸追踪的动态马赛克处理，避免了在证人相对镜头发生移动时，因手动设置马赛克区域不及时导致证人的身份泄露。

上述实施例中，步骤110～步骤120，与步骤130～步骤140之间的时序不作具体限定。

需要说明的是，本发明实施例的方案，可以但不限于应用于法庭庭审的场景中。在法庭庭审的场景中，实时采集证人作证的证据时，证人在证人室内(即证据采集现场)，庭审现场设置庭审设备，该庭审设备即上述非证据采集现场设备，相应的，证据采集请求信息是由庭审设备实时采集到的庭审现场的音视频信息，包括法官对证人提出问题的音视频等等。这样，在法官审理案件的过程中，可直接对证人提出问题，并且快速得到证人的答复，实现了直接沟通交流，提高了审讯的效率。

较佳地，上述步骤120中，根据人脸区域的位置和大小对人脸区域进行马赛克处理之前，还需要获取人脸区域的位置和大小；那么，步骤120中，对人脸区域进行马赛克处理，具体的：

根据人脸区域的位置和大小，对人脸区域进行宏块的划分；在各个宏块中，根据宏块中的任意一个像素点的像素值，对宏块修改各个像素点的像素值。

例如，以视频图像的左上角的像素点为原点，人脸区域的位置可以通过人脸区域左上角的像素点的位置坐标来表示，人脸区域的大小通过该区域的行像素点数和列像素点数来表示。如果将人脸区域划分成4个宏块，在每个宏块中，将该宏块中的各个像素点的像素值均修改为该宏块中左上角的像素点的像素值。

在实现本发明的过程中，发明人发现划分的宏块越大，遮挡效果越好，但被遮挡目标的轮廓越模糊，划分的宏块越小，被遮挡目标的轮廓越清晰，遮挡效果越差，为了解决这一问题，发明人为检测到的人脸区域确定大小合适的宏块。

较佳地，根据人脸区域的位置和大小，对人脸区域进行宏块的划分的方式有多种，下面列举其中两种。

一种实现方式中：还需要确定基准人脸区域的大小，及基准人脸区域的大小对应的基准宏块的大小；根据人脸区域的位置和大小，对人脸区域进行宏块的划分，具体的：

计算人脸区域的大小与基准人脸区域的大小的比值，计算该比值与基准宏块的大小的乘积，将大于该乘积的最小整数确定为宏块的大小；根据人脸区域的位置和确定的宏块的大小，对人脸区域进行宏块的划分。

假设通过经验统计可知基准人脸区域的大小为200*200，基准宏块的大小为4*4的宏块。假设我们检测出人脸区域大小为400*400，则宏块的大小为：4*4*(400*400)/(200*200)＝64。因此，可以选用8*8的宏块。假设我们检测出人脸区域的大小为100*100，则宏块的大小为：4*4*(100*100)/(200*200)＝4。因此，可以选用2*2的宏块。

另一种实现方式中：根据人脸区域的位置和大小，对人脸区域进行宏块的划分，具体的：

计算人脸区域的大小在视频图像中所占的比例；根据人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系，以及计算得到的人脸区域的大小在视频图像中所占的比例，确定宏块的大小；根据人脸区域的位置和确定的宏块的大小，对人脸区域进行宏块的划分。

其中，人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系中，人脸区域的大小在视频图像中所占的比例越大，对应的宏块的大小越大。

从上述相关实施例中可以看出，对人脸区域划分的宏块的大小都不是固定的，而是根据实际的人脸区域的大小来确定的，遮挡效果更好。

以上相关实施例中，较佳地，根据人脸区域的位置和确定的宏块的大小，对人脸区域进行宏块的划分的过程中，若出现小于确定的宏块的大小的区域，将该区域也作为一个宏块。

较佳地，本发明实施例中提供的实时采集音视频证据的证人保护方法中，还包括：存储上述音视频。将所有采集到的证人作证的原始视频的视频图像和原始音频进行同步合成得到原始音视频；存储该原始音视频。该方案中，存储一份未经处理的原始音视频，一份经过处理的音视频，这样，便于存档备案以待日后查证。

基于同样的发明构思，如图2所示，本发明实施例还提供一种实时采集音视频证据的证人保护装置，包括人脸检测模块201、马赛克处理模块202、视频编码模块203、音频处理模块204、音频编码模块205、音视频合成模块206、发送模块207。

人脸检测模块201，用于：对实时采集到的证人的原始视频的视频图像进行人脸检测；

马赛克处理模块202，用于：若人脸检测模块检测到人脸，根据人脸区域的位置和大小对人脸区域进行马赛克处理；

视频编码模块203，用于：若人脸检测模块检测到人脸，且马赛克处理模块对人脸区域进行马赛克处理后，对马赛克处理后的视频图像编码；否则，对原始视频的视频图像编码；

音频处理模块204，用于：对实时采集到的证人的原始音频进行变声处理；

音频编码模块205，用于：对变声处理后的音频编码；

音视频合成模块206，用于：将编码后的视频图像与编码后的音频同步合成音视频；

发送模块207，用于：将音视频发送至非证据采集现场设备播放，以实时响应接收到的非证据采集现场设备的证据采集请求信息。

较佳地，根据人脸区域的位置和大小对视频图像中的人脸区域进行马赛克处理之前，人脸检测模块201还用于：获取人脸区域的位置和大小；

马赛克处理模块202具体用于：根据获取的人脸区域的位置和大小，对人脸区域进行宏块的划分；在各个宏块中，将宏块中的任意一个像素点的像素值确定为宏块的像素值。

较佳地，马赛克处理模块202还用于：确定基准人脸区域的大小，及基准人脸区域的大小对应的基准宏块的大小；

根据人脸区域的位置和大小，对人脸区域进行宏块的划分时，马赛克处理模块202具体用于：计算人脸区域的大小与基准人脸区域的大小的比值，计算该比值与基准宏块的大小的乘积，将大于该乘积的最小整数确定为宏块的大小；根据人脸区域的位置和确定的宏块的大小，对人脸区域进行宏块的划分。

较佳地，根据人脸区域的位置和大小，将人脸区域划分成N个宏块时，马赛克处理模块202具体用于：

计算人脸区域的大小在视频图像中所占的比例；

根据人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系，以及计算得到的人脸区域的大小在视频图像中所占的比例，确定宏块的大小；

根据确定的宏块的大小，对人脸区域进行宏块的划分。

较佳地，人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系中，根据人脸区域的位置和确定的人脸区域的大小在视频图像中所占的比例越大，对应的宏块的大小越大。

较佳地，该装置还包括存储模块，用于：存储所述音视频；

音视频合成模块还用于：将所有采集到的证人作证的原始视频的视频图像和原始音频进行同步合成得到原始音视频；

存储模块还用于：存储原始音视频。

下面以法庭庭审的场景为例，对本发明实施例提供的一种实时采集音视频证据的证人保护方法及装置进行更加详细地说明。

本实施例中，除上述实施例中的人脸检测模块、马赛克处理模块、视频编码模块、音频处理模块、音频编码模块、音视频合成模块、显示模块以外，实时采集音视频证据的证人保护装置还包括视频采集模块、音频采集模块、存储模块。

其中，视频采集模块用于采集证人室内证人作证的原始视频。例如，可以采用利用高清摄像头采集证人室内的证人的面部图像，由AD芯片将模拟信号转换成高清数字信号，并通过BT1120接口传送至视频输出端口，即可获取到原始的YUV格式的裸数据，即采集到证人作证的原始视频。

其中，音频采集模块用于采集证人作证的原始音频。例如，可以采用拾音器以及音频AD芯片，其中，拾音器作为音频源，该拾音器采集到声音后，经过原始滤波降噪处理后送至AD芯片，由AD芯片将模拟音频转为数字音频，即采集到证人作证的原始音频。

其中，存储模块，用于将音视频码流进行实时存储记录，便于日后查证。可以采用硬盘或者蓝光刻录机等存储方式，且存储两份码流数据，一份是未经处理的原始音频、原始视频合成的原始音视频码流，另一份为处理后音视频码流，便于存档备案。

在接收到庭审现场的庭审设备(即上述非证据采集现场设备)传送的法官对证人提出问题的音视频后，本实施例的实时采集音视频证据的证人保护方法，如图3所示，其具体流程如下：

步骤310、视频采集模块采集证人作证的原始视频，并且步骤320、音频采集模块同步采集证人作证的原始音频。

步骤330、人脸检测模块对实时采集到的证人作证的原始视频的视频图像进行人脸检测，若检测到人脸，执行步骤340，否则执行步骤370。

步骤340、人脸检测模块获取人脸区域的位置坐标和大小，执行步骤350。

步骤350、马赛克处理模块根据获取的人脸区域的位置坐标和大小，对人脸区域进行宏块的划分；在各个宏块中，根据宏块中的任意一个像素点的像素值，对宏块修改各个像素点的像素值，执行步骤360。

其中，人脸区域的位置坐标是左上角像素点的位置坐标。

例如，根据每个宏块内左上角的像素点的像素值，对宏块修改各个像素点的像素值，宏块对应了马赛克处理的最小颗粒单元。假设马赛克处理区域(即人脸区域)为9*9共81个像素点：P00～P08，P10～P18，P20～P28，P30～P38，P40～P48，P50～P58，P60～P68，P70～P78，P80～P88，各像素点排列下表1所示：

表1未经马赛克处理的人脸区域

P00

P01

P02

P03

P04

P05

P06

P07

P08

P10

P11

P12

P13

P14

P15

P16

P17

P18

P20

P21

P22

P23

P24

P25

P26

P27

P28

P30

P31

P32

P33

P34

P35

P36

P37

P38

P40

P41

P42

P43

P44

P45

P46

P47

P48

P50

P51

P52

P53

P54

P55

P56

P57

P58

P60

P61

P62

P63

P64

P65

P66

P67

P68

P70

P71

P72

P73

P74

P75

P76

P77

P78

P80

P81

P82

P83

P84

P85

P86

P87

P88

由于人坐的位置距离镜头的远近，会直观的体现在人脸在图像中所占的比例，不同的比例需配置不同的宏块的大小。系统可以根据检测出的人脸区域的大小，动态的调整宏块的大小，最大化的隐藏证人面部的特征。其中，根据人脸区域的位置坐标和大小，对人脸区域进行宏块的划分时，采用上述实施例提供的第二种实现方式，若确定的宏块大小为3*3，则经马赛克处理之后，人脸区域的像素点的像素值分布如表2所示。

表2经马赛克处理的人脸区域

P00

P03

P06

P00

P03

P06

P00

P03

P06

P30

P33

P36

P30

P33

P36

P30

P33

P36

P60

P63

P66

P60

P63

P66

P60

P63

P66

从上述表2中，我们可以看出水平方向上，第2、3行复制第1行的信息，第5、6行复制第4行的信息；垂直方向上，第2、3列复制第1列的信息，第5、6列复制第4列的信息。以此类推，逐步扩大，实现了马赛克处理。

步骤360、视频编码模块对经马赛克处理后的视频图像进行编码。

步骤370、视频编码模块对原始视频的视频图像进行编码，执行步骤3100。

步骤380、音频处理模块对实时采集到的证人作证的原始音频进行变声处理，执行步骤390。

该步骤中，利用开源的SoundTouch音频处理技术对采集到的数字音频进行变声处理，在不改变语速的情况之下实现了变调处理。通过上下变调参数的调节，实现男女声的转换。

步骤390、音频编码模块对变声处理后的音频编码，执行步骤3100。

其中，常用的编码格式有：G711A，AAC，ADPCM等，可以根据实际需要进行选择。

上述步骤380～步骤390，与步骤330～步骤370可以并行处理。

步骤3100、音视频合成模块采用帧时间戳同步技术将编码后的视频图像与编码后的音频同步合成音视频，并将原始视频的视频图像和原始音频同步合成原始音视频，执行步骤3110。

步骤3110、存储模块将音视频和原始音视频进行实时存储记录，执行步骤3120。

步骤3120、发送模块将音视频发送至庭审设备播放，以响应接收到的庭审设备传送的法官对证人提出问题的音视频。

庭审设备接收到音视频后，会在法庭现场进行播放。例如，通过VGA或者HDMI显示器在现场进行播放及证据展示。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种实时采集音视频证据的证人保护方法，其特征在于，该方法包括：

对实时采集到的证人作证的原始音频进行变声处理；

对变声处理后的音频编码；

将编码后的视频图像与编码后的音频同步合成音视频；

2.根据权利要求1所述的方法，其特征在于，根据人脸区域的位置和大小对人脸区域进行马赛克处理之前，该方法还包括：

获取所述人脸区域的位置和大小；

根据人脸区域的位置和大小对视频图像中的人脸区域进行马赛克处理，包括：

3.根据权利要求2所述的方法，其特征在于，该方法还包括：确定基准人脸区域的大小，及所述基准人脸区域的大小对应的基准宏块的大小；

根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分，包括：

4.根据权利要求2所述的方法，其特征在于，根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分，包括：

计算所述人脸区域的大小在所述视频图像中所占的比例；

5.根据权利要求4所述的方法，其特征在于，人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系中，人脸区域的大小在视频图像中所占的比例越大，对应的宏块的大小越大。

6.根据权利要求1～5任一项所述的方法，其特征在于，该方法还包括：存储所述音视频；

7.一种实时采集音视频证据的证人保护装置，其特征在于，该装置包括：

人脸检测模块，用于：对实时采集到的证人作证的原始视频的视频图像进行人脸检测；

音频处理模块，用于：对实时采集到的证人作证的原始音频进行变声处理；

音频编码模块，用于：对变声处理后的音频编码；

8.根据权利要求7所述的装置，其特征在于，根据人脸区域的位置和大小对视频图像中的人脸区域进行马赛克处理之前，所述人脸检测模块还用于：获取所述人脸区域的位置和大小；

9.根据权利要求8所述的装置，其特征在于，马赛克处理模块还用于：确定基准人脸区域的大小，及所述基准人脸区域的大小对应的基准宏块的大小；

10.根据权利要求8所述的装置，其特征在于，根据所述人脸区域的位置和大小，对所述人脸区域进行宏块的划分时，所述马赛克处理模块具体用于：

计算所述人脸区域的大小在所述视频图像中所占的比例；

11.根据权利要求10所述的装置，其特征在于，人脸区域的大小在视频图像中所占的比例与宏块的大小的对应关系中，人脸区域的大小在视频图像中所占的比例越大，对应的宏块的大小越大。

12.根据权利要求10所述的装置，其特征在于，该装置还包括存储模块，用于：存储所述音视频；

所述存储模块还用于：存储所述原始音视频。