CN111091844A

CN111091844A - 一种视频处理方法和系统

Info

Publication number: CN111091844A
Application number: CN201811236383.7A
Authority: CN
Inventors: 朱成金; 王一前; 骆建祥; 吴更新
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2020-05-01

Abstract

本发明公开了一种视频处理方法及系统。所述方法包括：获取第一视频信息，其中，所述第一视频信息通过视频采集装置采集获得；识别出所述第一视频信息中乘客的脸部区域；对所述乘客的脸部区域进行模糊处理得到第二视频信息。本发明提供的方法能够为相关部门的取证需求提供便利，同时可以达到保护乘客隐私的目的。

Description

一种视频处理方法和系统

【技术领域】

本申请涉及数字图像处理领域，特别地涉及一种视频处理方法和系统。

【背景技术】

随着现代交通的发展，具有记录功能的行车记录仪必将成为越来越多司机的必备装备。行车记录仪可以记录行车过程中车内、车外的情况，在记录路况的同时，也可以对车内的司机或乘客起到保护作用，尤其是在行车中遇到突发状况，记录仪可以为当事人于第一时间还原事发全过程。但是行车记录仪在使用过程中往往也涉及私密性的问题。

【发明内容】

针对行车记录仪使用中涉及的私密性问题和后续取证问题，本发明提供一种视频处理方法和系统，不仅可以保证乘客隐私，也能为后续可能的取证服务提供保障。

第一方面，本发明披露了一种视频处理方法。该方法包括：获取第一视频信息，其中，所述第一视频信息通过视频采集装置采集获得；识别出所述第一视频信息中乘客的脸部区域；对所述乘客的脸部区域进行模糊处理得到第二视频信息。

在一些实施例中，所述方法包括对所述第一视频信息进行加密处理。

在一些实施例中，所述方法包括：对所述第一视频信息中的声音进行声纹识别，识别出乘客的声音；对所述乘客的声音进行掩盖处理。

在一些实施例中，所述方法包括：对所述第二视频信息中的声音进行声纹识别，识别出乘客的声音；对所述乘客的声音进行掩盖处理得到第三视频信息。

在一些实施例中，所述方法以视频帧或视频段为单位对乘客的脸部区域进行模糊处理或对乘客的声音进行掩盖处理。

在一些实施例中，所述对所述乘客的声音进行掩盖处理包括：对乘客的声音进行掺杂或变频处理。

第二方面，本发明披露了一种视频处理系统。该系统包括：获取模块，用于获取第一视频信息，所述第一视频信息是通过视频采集装置采集获得；人脸识别模块，用于识别出所述第一视频信息中乘客的人脸区域；掩盖模块，用于基于识别出的乘客的脸部区域对所述区域进行模糊处理，以得到第二视频信息。

在一些实施例中，所述系统进一步包括：加密模块，用于对所述第一视频信息进行加密处理。

在一些实施例中，所述系统进一步包括：声纹识别模块，用于对所述第一视频信息中的声音进行声纹识别，识别出乘客的声音；掩盖模块，用于对所述乘客的声音进行掩盖处理。

在一些实施例中，所述声纹识别模块可以用于对所述第二视频信息中的声音进行声纹识别，识别出乘客的声音；所述掩盖模块可以用于对所述乘客的声音进行掩盖处理得到第三视频信息。

在一些实施例中，所述系统以视频帧或视频段为单位对乘客的脸部区域进行模糊处理或声音掩盖处理。

第三方面，本发明披露了一种计算机可读存储介质。所述存储介质存储计算机指令，所述计算机指令运行时执行所述视频处理方法。

第四方面，本发明披露了一种视频处理装置。该视频处理装置包括处理器，所述处理器用于执行所述视频处理方法。

【附图说明】

图1是根据本发明一些实施例所示的一种示例性的按需服务系统的配置示意图；

图2是用于实现本发明技术方案的系统的示例性计算设备的框图；

图3是用于实现本发明技术方案的系统的示例性移动设备的框图；

图4是用于实现本发明技术方案的一种示例性视频处理方法的流程图；

图5是根据本发明一些实施例所示的一种示例性的视频处理方法的框图；以及

图6是根据本发明一些实施例所示的一种示例性的司机和乘客车内场景的示意图。

【具体实施方式】

为了更清楚地说明本申请的实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

虽然本申请对根据本申请的实施例的系统中的某些模块或单元做出了各种引用，然而，任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的，并且所述系统和方法的不同方面可以使用不同模块。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本申请的实施例可以应用于不同的运输系统，不同的运输系统包括但不限于陆地、海洋、航空、航天等中的一种或几种的组合。例如，出租车、专车、顺风车、巴士、代驾、火车、动车、高铁、船舶、飞机、热气球、无人驾驶的交通工具、收/送快递等应用了管理和/或分配的运输系统。本申请的不同实施例应用场景包括但不限于网页、浏览器插件、客户端、定制系统、企业内部分析系统、人工智能机器人等中的一种或几种的组合。应当理解的是，本申请的系统及方法的应用场景仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。例如，其他类似的视频处理系统。

本申请描述的“司机”、“提供者”、“供应者”、“服务提供者”、“服务者”、“服务方”等也是可以互换的，是指提供服务或者协助提供服务的个人、工具或者其他实体等。另外，本申请描述的“用户”可以是需要或者订购服务的一方，也可以是提供服务或者协助提供服务的一方。

图1是根据本发明一些实施例所示的一种示例性的按需服务系统的配置示意图。示例性按需服务系统100可以包括视频处理装置110、网络120、用户终端130和存储器140。为描述方便，视频处理装置110也可以称为视频处理系统110。在一些实施例中，视频处理装置110可以用于对收集的信息进行分析加工以生成分析结果的系统。视频处理装置110可以是一个服务器，也可以是一个服务器群组。一个服务器群组可以是集中式的，例如数据中心。一个服务器群组也可以是分布式的，例如一个分布式系统。视频处理装置110可以是本地的，也可以是远程的。视频处理装置110可以包括用于执行视频处理装置110的指令(程序代码)的处理引擎112。用户终端130是指接受服务订单或服务请求的个人、工具或者其他实体。

在一些实施例中，用户终端130可以为接受乘客发出服务请求的司机端用户。在一些实施例中，用户终端130包括但不限于台式电脑130-1、笔记本电脑130-2、机动车的内置设备130-3、移动设备130-4等中的一种或几种的组合。

所述机动车的内置设备130-3可以包括视频采集装置。在一些实施例中，所述视频采集装置可以包括摄像头、行车记录仪、硬盘录像机等。优选地，所述视频采集装置为行车记录仪。所述行车记录仪可以包括镜头模组、微处理器、声音采集模组(例如，麦克风)等。所述行车记录仪可以记录车辆行驶过程途中的影像和声音等相关资料。例如，在网约车场景下，所述行车记录仪可以记录司机和乘客在车辆中的影像和声音，一旦发生纠纷，所述影像和声音可以作为相关部门调查取证的资料。

视频处理装置110可以直接访问存取储存在存储器140的数据信息，也可以直接通过网络120访问存取用户终端130的信息。

在一些实施例中，存储器140可以泛指具有存储功能的设备。存储器140主要用于存储从用户终端130收集的数据和视频处理装置110工作中产生的各种数据。存储器140可以是本地的，也可以是远程的。系统数据库与系统其他模块间的连接或通信可以是有线的，也可以是无线的。

网络120可以提供信息交换的渠道。网络120可以是单一网络，也可以是多种网络组合的。网络120可以包括但不限于局域网、广域网、公用网络、专用网络、无线局域网、虚拟网络、都市城域网、公用开关电话网络等中的一种或几种的组合。网络120可以包括多种网络接入点，如有线或无线接入点、基站(如120-1，120-2)或网络交换点，通过以上接入点使数据源连接网络120并通过网络发送信息。

图2是用于实现本发明技术方案的系统的示例性计算设备的框图。如图2所示，计算设备200可以包括处理器210、存储器220、输入/输出接口230和通信端口240。

处理器210可以执行计算指令(程序代码)并执行本发明描述的按需服务系统100的功能。所述计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(所述功能指本发明中描述的特定功能)。例如，处理器210可以处理从按需服务系统100的其他任何组件获得的图像或文本数据。在一些实施例中，处理器210可以包括微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等，或其任意组合。仅为了说明，图2中的计算设备200只描述了一个处理器，但需要注意的是本发明中的计算设备200还可以包括多个处理器。

存储器220可以存储从按需服务系统100的任何其他组件获得的数据/信息。在一些实施例中，存储器220可以包括大容量存储器、可移动存储器、易失性读取和写入存储器和只读存储器(ROM)等，或其任意组合。示例性大容量存储器可以包括磁盘、光盘和固态驱动器等。可移动存储器可以包括闪存驱动器、软盘、光盘、存储卡、压缩盘和磁带等。易失性读取和写入存储器可以包括随机存取存储器(RAM)。RAM可以包括动态RAM(DRAM)、双倍速率同步动态RAM(DDR SDRAM)、静态RAM(SRAM)、晶闸管RAM(T-RAM)和零电容(Z-RAM)等。ROM可以包括掩模ROM(MROM)、可编程ROM(PROM)、可擦除可编程ROM(PEROM)、电可擦除可编程ROM(EEPROM)、光盘ROM(CD-ROM)和数字通用盘ROM等。

输入/输出接口230可以用于输入或输出信号、数据或信息。在一些实施例中，输入/输出接口230可以使用户与按需服务系统100进行联系。在一些实施例中，输入/输出接口230可以包括输入装置和输出装置。示例性输入装置可以包括键盘、鼠标、触摸屏和麦克风等，或其任意组合。示例性输出设备可以包括显示设备、扬声器、打印机、投影仪等，或其任意组合。示例性显示装置可以包括液晶显示器(LCD)、基于发光二极管(LED)的显示器、平板显示器、曲面显示器、电视设备、阴极射线管(CRT)等，或其任意组合。通信端口240可以连接到网络以便数据通信。所述连接可以是有线连接、无线连接或两者的组合。有线连接可以包括电缆、光缆或电话线等，或其任意组合。无线连接可以包括蓝牙、Wi-Fi、WiMax、WLAN、ZigBee、移动网络(例如，3G、4G或5G等)等，或其任意组合。在一些实施例中，通信端口240可以是标准化端口，如RS232、RS485等。在一些实施例中，通信端口240可以是专门设计的端口。例如，通信端口240可以根据数字成像和医学通信协议(DICOM)进行设计。

图3是用于实现本发明技术方案的系统的示例性移动设备的框图。如图3所示，所述移动设备300可以包括通信平台310、显示器320、图形处理器(GPU)330、中央处理器(CPU)340、输入/输出接口350、内存360、存储器370等。在一些实施例中，操作系统361(如，iOS，Android，Windows Phone等)和应用程序362可以从存储器370加载到内存360中，以便由CPU340执行。应用程序362可以包括浏览器或用于从按需服务系统100接收成像、图形处理、音频或其他相关信息的应用程序。

为了实现在本发明中描述的各种模块、单元及其功能，计算设备或移动设备可以用作本发明所描述的一个或多个组件的硬件平台。这些计算机或移动设备的硬件元件、操作系统和编程语言本质上是常规的，并且本领域技术人员熟悉这些技术后可将这些技术适应于本发明所描述的车险预警系统。具有用户界面元件的计算机可以用于实现个人计算机(PC)或其他类型的工作站或终端设备，如果适当地编程，计算机也可以充当服务器。

图4所示的是用于实现本发明技术方案的一种示例性视频处理方法的流程图。所述视频处理方法可以包括以下步骤：

步骤410，获取第一视频信息。

具体地，所述第一视频信息是通过视频采集装置获得的。例如，所述第一视频信息可以通过行车记录仪获得。

进一步地，视频处理装置110也可以通过网络120获取所述第一视频信息。所述第一视频信息可以包括司机和/或乘客的影像和声音信息。

步骤420，识别出所述第一视频信息中乘客的脸部区域。

具体地，视频处理装置110可以识别出所述第一视频信息中的人脸区域；其中，所述人脸区域包括乘客的脸部区域和司机的脸部区域。例如，视频处理装置110可以通过人脸识别方法识别出所述第一视频信息中的人脸区域。

示例性的人脸识别方法包括基于主元分析的人脸识别方法、基于奇异值分解的人脸识别方法、基于几何结构特征与灰度特征融合的人脸识别方法、非线性建模人脸识别方法、基于隐马尔可夫模型的人脸识别方法、基于图像识别和图像重建的人脸识别方法等。

进一步地，视频处理装置110可以确定出乘客的脸部区域。

在一些实施例中，视频采集装置一般固定安装在车辆的前排车顶。视频处理装置110可以确定出视频中右下角的人脸为司机人脸。如图6所示，视频采集装置630安装在车辆前排右上方车顶。司机610坐在驾驶位，乘客620坐在后面右侧座位。在视频采集装置630采集的视频画面中，司机610位于视频画面的右下方。由于司机座位是固定的，处于视频画面中的右下方为司机脸部区域，则其他识别出的脸部区域为至少一个乘客的脸部区域。应当理解的是，图6所示的场景仅为示例性的，在此不加以限制。例如，视频采集装置630可以安装在车辆前排车顶中间。

步骤430，对所述第一视频信息中乘客的脸部区域进行模糊处理得到第二视频信息。

具体地，视频处理装置110可以对识别出的乘客的脸部区域以视频帧或视频段为单位进行模糊处理。视频处理装置110可以将所述乘客的脸部区域用马赛克代替。在一些实施例中，视频处理装置110可以将所述乘客的脸部区域的灰度信号代替该区域内所有像素点的色度信号，或者划分为多个小的区域，在每个小的区域内做此处理。在一些实施例中，视频处理装置110也可以使用某些图片将所述乘客的脸部区域进行遮挡。

步骤440，对所述第二视频信息中的声音进行声纹识别，识别出乘客的声音。

具体地，视频处理装置110可以通过声纹识别的方法将所述第二视频信息中的至少两个声音进行分离。通过提取视频中的所有音频的时域特征矢量和变换域矢量，采用识别模型将多个声音分离出来。示例性的识别模型包括矢量量化模型、高斯混合模型等。进一步地，在网约车环境下，约车平台系统可以预存司机的声音特征。视频处理装置110可以对第二视频信息中已经分离出的声音与预存的司机声音的声纹特征进行比对，从而识别出司机的声音。更进一步地，视频处理装置110可以将司机声音的音频标记出来，剩余的音频即为至少一个乘客的声音。

步骤450，对所述第二视频信息中乘客的声音进行掩盖处理得到第三视频信息。

具体地，视频处理装置110可以对识别出的乘客的声音以视频帧或视频段为单位进行掩盖处理。所述掩盖处理包括对乘客的声音进行掺杂或变频处理。

在一些实施例中，可以对第二视频信息中的影像和音频进行分离，通过对分离出的音频掺入杂音或变频，以掩盖乘客的声音得到第三视频信息。

通过上述视频处理方法对乘客的脸部进行模糊处理和/或对乘客的声音进行掩盖处理，当接收到来自服务器或其他相关终端的视频读取请求时，将处理后的视频发送给请求方可以使乘客的隐私得到保护。

需要注意的是，以上关于视频处理流程的描述，仅为理解申请方便，并不能把本申请限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解本申请的基本原理后，可以在不背离这一原理的情况下，对视频处理流程作出改变。图4中的步骤可以改变执行次序，可以省咯某些步骤，可以添加某些步骤，可以将多个步骤合并成一个步骤，和/或将一个步骤分解为多个步骤。

在一些实施例中，所述对乘客的脸部区域进行模糊处理和对乘客的声音进行掩盖处理的执行顺序没有限制。例如，在步骤410获取第一视频信息后，可以先执行步骤440和步骤450，对乘客的声音进行掩盖处理；再执行步骤420和步骤430，对乘客的脸部区域进行模糊处理。

在一些实施例中，可以省略对乘客的声音进行掩盖处理，即可以省略步骤440和步骤450。在一些实施例中，可以省略对乘客的脸部区域进行模糊处理，即在步骤410获取第一视频信息后，省略步骤420和步骤430，直接基于第一视频信息对乘客的声音进行掩盖处理。

在一些实施例中，在步骤420前还可以包括对第一视频信息进行加密处理，并将加密处理后的视频信息备份至存储器140。在步骤410获得第一视频信息后，将第一视频信息发送至处理引擎112，通过处理引擎112中预设的加密算法对所述第一视频进行加密处理。示例性的加密算法可以包括

加密算法、Selective加密算法、Zig-Zag置乱算法、改变Huffman码表算法、基于统计规律的视频加密算法、纯置乱算法等。在一些实施例中，与处理引擎112中预设的加密算法相对应的存储有解密方式。当接收到相关安全部门的视频调取指令时，将加密的视频和解密方式发送给相关安全部门，为安全部门的取证提供保障。

图5是根据本发明一些实施例所示的一种示例性的视频处理装置的框图。视频处理装置110(视频处理系统110)可以包括获取模块510、人脸识别模块520、声纹识别模块530、掩盖模块540和加密模块550。

所述获取模块510可以用于获取第一视频信息。所述第一视频信息是通过视频采集装置获得的。所述第一视频信息可以包括司机和/或乘客的影像和声音信息。

所述人脸识别模块520可以用于识别出所述第一视频信息中乘客的脸部区域。在一些实施例中，人脸识别模块520可以通过人脸识别方法识别出所述第一视频信息中的人脸区域。进一步地，识别出视频中的脸部区域之后，由于司机座位是固定的，处于视频画面中右下方的为司机脸部区域，则其他识别出的脸部区域为至少一个乘客的脸部区域。

所述声纹识别模块530可以用于对所述第一视频信息或第二视频信息中的声音进行声纹识别，识别出乘客的声音。声纹识别模块530可以通过声纹识别的方法将所述第二视频信息中的至少两个声音进行分离。通过提取视频中的所有音频的时域特征矢量和变换域矢量，采用识别模型将多个声音分离出来。进一步地，声纹识别模块530可以对第二视频信息中已经分离出的声音与预存的司机声音的声纹特征进行比对，从而识别出司机的声音。更进一步地，视频处理装置110可以将司机声音的音频标记出来，剩余的音频即为至少一个乘客的声音。

所述掩盖模块540可以用于对所述第一视频信息中的乘客的脸部区域进行模糊处理。掩盖模块540可以对识别出的乘客的脸部区域以视频帧或视频段为单位进行模糊处理。在一些实施例中，掩盖模块540可以将所述乘客的脸部区域用马赛克代替。在一些实施例中，掩盖模块540也可以使用某些图片将所述乘客的脸部区域进行遮挡。所述掩盖模块540还可以对所述第一视频或第二视频信息中乘客的声音进行掩盖处理。所述掩盖模块540可以对识别出的乘客的声音以视频帧或视频段为单位进行掩盖处理。所述掩盖处理包括对乘客的声音进行掺杂或变频处理。

所述加密模块550可以用于对第一视频信息进行加密处理，并将加密处理后的视频信息备份至存储器140。

上文所描述的各个模块和单元并不是必须的，对于本领域的专业人员来说，在了解本申请内容和原理后，都可能在不背离本技术原理、结构的情况下，对该系统进行形式和细节上的各种修正和改变，各个模块可以任意组合，或者构成子系统与其它模块连接，而这些修正和改变仍在本申请的权利要求保护范围之内。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述为本申请的基本构思，仅以实施例形式呈现，显而易见地，本领域的技术人员依据本申请作出相应变化、改进或修正。这些变化、改进和修正已被本申请所暗示或间接提出，均包含在本申请实施例的精神或范围之内。

对于描述本申请的术语，例如“一个实施例”、“一些实施例”或“某些实施例”，表示与它们相关的至少一个特征、结构或特点是包含在本申请的实施例之中的。

另外，对于本领域的技术人员来说，本申请中的实施例可能涉及到一些新的流程、方法、机器、产品或者与它们相关的改进。因此，本申请的实施例可以在纯硬件或纯软件中实施，其中软件包括但不限于操作系统、常驻软件或微代码等；也可以在同时包含硬件和软件的“系统”、“模块”、“子模块”、“单元”等中实施。另外，本申请的实施例可以以计算机程序的形式存在，它们可以承载在计算机可读取的媒介中。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取第一视频信息，所述第一视频信息通过视频采集装置采集获得；

识别出所述第一视频信息中乘客的脸部区域；以及

对所述乘客的脸部区域进行模糊处理得到第二视频信息。

2.如权利要求1所述的视频处理方法，所述方法进一步包括：

对所述第一视频信息进行加密处理。

3.如权利要求1所述的视频处理方法，其特征在于，所述方法进一步包括：

对所述第一视频信息中的声音进行声纹识别，识别出乘客的声音；以及

对所述乘客的声音进行掩盖处理。

4.如权利要求1所述的视频处理方法，其特征在于，所述方法进一步包括：

对所述第二视频信息中的声音进行声纹识别，识别出乘客的声音；

对所述乘客的声音进行掩盖处理得到第三视频信息。

5.如权利要求3所述的视频处理方法，其特征在于，以视频帧或视频段为单位对乘客的声音进行掩盖处理。

6.如权利要求4所述的视频处理方法，其特征在于，以视频帧或视频段为单位对乘客的脸部区域进行模糊处理或声音进行掩盖处理。

7.如权利要求3所述的视频处理方法，其特征在于，所述掩盖处理包括对乘客的声音进行掺杂或变频处理。

8.一种视频处理系统，其特征在于，所述系统包括：获取模块、人脸识别模块和掩盖模块；

所述获取模块用于获取第一视频信息，所述第一视频信息是通过视频采集装置采集获得；

所述人脸识别模块用于识别出所述第一视频信息中乘客的人脸区域；以及所述掩盖模块用于基于识别出的乘客的人脸区域对所述区域进行模糊处理，以得到第二视频信息。

9.如权利要求8所述的视频处理系统，其特征在于，所述系统进一步包括加密模块；

所述加密模块用于对所述第一视频信息进行加密处理。

10.如权利要求8所述的视频处理系统，其特征在于，所述系统进一步包括声纹识别模块：

所述声纹识别模块用于对所述第一视频信息中的声音进行声纹识别，识别出乘客的声音；以及

所述掩盖模块用于对所述乘客的声音进行掩盖处理。

11.如权利要求8所述的视频处理系统，其特征在于，所述系统进一步包括声纹识别模块；

所述声纹识别模块用于对所述第二视频信息中的声音进行声纹识别，识别出乘客的声音；以及

所述掩盖模块用于对所述乘客的声音进行掩盖处理得到第三视频信息。

12.如权利要求10或11所述的视频处理系统，其特征在于，以视频帧或视频段为单位对乘客的脸部区域进行模糊处理或声音掩盖处理。

13.如权利要求10或11所述的视频处理系统，其特征在于，所述掩盖处理包括对乘客的声音进行掺杂或变频处理。

14.一种计算机可读存储介质，其特征在于，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机运行如权利要求1-7任一所述的方法。

15.一种视频处理装置，其特征在于，所述装置包括视频处理程序，所述视频处理程序执行如权利要求1-7任一所述的方法。