CN105224925A

CN105224925A - 视频处理装置、方法及移动终端

Info

Publication number: CN105224925A
Application number: CN201510642735.9A
Authority: CN
Inventors: 张冠群; 沈闯
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2016-01-06

Abstract

本发明公开了一种视频处理装置、方法及移动终端，所述视频处理装置包括：获取模块，用于获取拍摄到的视频文件；提取模块，用于对所述视频文件进行特征识别，并提取出含有所述视频文件中人物标识的视频片段；播放模块，用于确定待播放人物标识，将含有待播放人物标识的视频片段和音频片段重新组合并播放。本发明实现了在对特定人物从多个不同的角度进行播放，根据用户的选择自动筛选相关人物的视频片段进行播放，可以更好的展现用户关注的视频内容，提高了用户体验。

Description

视频处理装置、方法及移动终端

技术领域

本发明涉及通信技术领域，更具体地说，涉及一种视频处理装置、方法及移动终端。

背景技术

当前，在视频播放中，已经存在通过人脸识别在视频中只看某一个人，或者根据人脸识别和其他信息实现视频的智能快进。但是在显示生活中不同的人对视频内容的关注点是不同的，例如，在电影的拍摄中，往往只有官方放出来的一个版本，但是很多观众关注的只是他们心目中的那个人，对他们来说，相对于整个视频，他们更愿意观看以他们心目中的那个人为视角播放出来的视频。在日常生活中，某一个重要时刻，如婚礼，众多亲朋好友纷纷拿起手机拍摄新郎新娘，镜头在转换的时候不可避免的涉及到其他亲朋好友，该亲朋好友一般也很有意愿去关注自己在婚礼上的举动，但把所有视频都看完不仅费事也很费力。综上，现有的视频拍摄播放没能在众多视频中把用户关心的内容给展现出来。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于解决现有的视频处理方法无法从众多视频拍摄播放设备中自动筛选出相关人物的视频片段进行播放，以节省用户的时间成本，提高用户体验的问题。

为实现上述目的，本发明提供的一种视频处理装置，所述视频处理装置包括：

获取模块，用于获取关联终端的视频文件；

提取模块，用于对所述视频文件进行特征识别，并提取出含有所述视频文件中人物标识的视频片段和音频片段；

可选地，所述提取模块包括：图像提取单元，用于从所述视频文件中提取所述视频文件的图像帧；人脸识别单元，用于对所述视频文件的图像帧进行人脸识别，获取含有人脸图像的图像帧。组合单元，用于将所述含有人脸图像的图像帧组合为含有人物标识的视频片段。

可选地，所述提取模块还包括：音频提取单元，用于从所述视频文件中提取所述视频的音频文件；声纹识别单元，用于对所述音频文件进行声纹识别，提取出含有人物标识对应的声纹特征的音频片段；组合单元，用于组合出所述含有人物标识声纹特征的音频片段。

播放模块，用于确定待播放人物标识，将待播放人物标识对应的视频片段和音频片段合成新的视频文件后并播。

可选地，所述播放模块包括：显示单元，用于显示待播放人物标识列表和/或照片选择界面和/或录音界面；确认单元，用于确认选择的待播放人物标识或与照片人脸图像识别匹配的人物标识或与声纹识别匹配的人物标识；组合单元，用于将所述待播放人物标识对应的视频片段、音频片段组合为待播放人物标识的视频文件；

进一步地，本发明还提供了一种视频处理方法，所述视频处理方法包括：

获取关联终端的视频文件；

对获取的所述视频文件进行特征识别，并提取含有人物标识的视频片段和音频片段；

可选地，所述提取方法包括，从所述获取关联终端的视频文件中提取所述视频文件的图像帧；对所述图像帧进行人脸识别，获取含有与所述人脸识别结果匹配的人脸图像的图像帧并组合为含有人物标识的视频片段。

可选地，所述提取方法还包括，从所述获取关联终端的视频文件中提取所述视频文件的音频文件；对所述音频文件进行声纹识别，提取出含有所述待播放人物对应的声纹特征的音频片段。

确定待播放人物标识，组合待播放人物标识对应的视频片段和音频片段，并播放。

可选地，所述确定待播放人物标识的步骤包括：提供选择界面显示的所述视频中出现的人物标识；在接收到基于所述选择界面触发的待播放人物选择完毕指令时，确定所述待播放人物对应的人物标识；

可选地，所述确定待播放人物标识的步骤还包括：提供照片选择界面和/或声音录入界面，获取选择的照片和/或录入的音频文件；对所述选择的照片进行人脸图像识别和/或对录入的音频文件进行声纹识别；选择与所述照片人脸图像识别匹配的人物标识和/或选择与所述声纹识别匹配的人物标识。

为实现上述目的，本发明还提供了如上述方法所述的移动终端

本发明公开了一种视频处理装置、方法及移动终端，所述视频处理装置包括：获取模块，用于获取拍摄到的视频片段；提取模块，对所述视频片段进行特征识别，并提取出含有所述视频片段中人物标识的图像帧；播放模块，用于在接收到播放指令时，确定待播放人物；还用于将所有相关联的移动终端中提取的视频片段进行重新组合并播放。本发明实现了在对特定人物从多个不同的角度进行播放，根据用户的选择自动筛选相关人物的视频片段进行播放，可以更好的展现用户关注的视频内容，提高了用户体验。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为实现本发明各个实施例的移动终端的硬件结构示意；

图2为如图1所示的移动终端的无线通信系统示意图；

图3为本发明第一实施例提供的视频处理装置功能模块示意图；

图4为本发明第二实施例提供的获取模块细化功能模块示意图；

图5为本发明第三实施例提供的提取模块细化功能模块示意图；

图6为本发明第四实施例提供的播放模块细化功能模块示意图；

图7为本发明第五实施例提供的视频处理方法流程示意图；

图8为本发明第六实施例提供的提取模块具体步骤流程示意图；

图9为本发明第七实施例提供的播放模块具体流程示意图；

图10为本发明第七实施例提供的视频播放界面人物标识列表示意图；

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例的移动终端的硬件结构示意。

移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且，广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供，并且在该情况下，广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在，例如，其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地，广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H)，前向链路媒体(MediaFLO)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。

移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风1220，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示模块151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机1210。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据)，并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示模块151上时，可以形成触摸屏。

感测单元140检测移动终端100的当前状态，(例如，移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即，触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等，并且生成用于控制移动终端100的操作的命令或信号。例如，当移动终端100实施为滑动型移动电话时，感测单元140可以感测该滑动型电话是打开还是关闭。另外，感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器1410将在下面结合触摸屏来对此进行描述。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外，具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式，因此，识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

另外，当移动终端100与外部底座连接时，接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如，音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示模块151、音频输出模块152、警报模块153等等。

显示模块151可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示模块151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示模块151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示模块151和触摸板以层的形式彼此叠加以形成触摸屏时，显示模块151可以用作输入装置和输出装置。显示模块151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示模块(或其它显示装置)，例如，移动终端可以包括外部显示模块(未示出)和内部显示模块(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

警报模块153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外，警报模块153可以以不同的方式提供输出以通知事件的发生。例如，警报模块153可以以振动的形式提供输出，当接收到呼叫、消息或一些其它进入通信(incomingcommunication)时，警报模块153可以提供触觉输出(即，振动)以将其通知给用户。通过提供这样的触觉输出，即使在用户的移动电话处于用户的口袋中时，用户也能够识别出各种事件的发生。警报模块153也可以经由显示模块151或音频输出模块152提供通知事件的发生的输出。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块1810，多媒体模块1810可以构造在控制器180内，或者可以构造为与控制器180分离。控制器180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器180中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器160中并且由控制器180执行。

至此，己经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。

这样的通信系统可以使用不同的空中接口和/或物理层。例如，由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地，长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例，下面的描述涉及CDMA通信系统，但是这样的教导同样适用于其它类型的系统。

参考图2，CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造，所述接口包括例如E1/T1、ATM，IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是，如图2中所示的系统可以包括多个BSC2750。

每个BS270可以服务一个或多个分区(或区域)，由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者，每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配，并且每个频率分配具有特定频谱(例如，1.25MHz,5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下，术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者，特定BS270的各分区可以被称为多个蜂窝站。

如图2中所示，广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中，示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。

在图2中，描绘了多个卫星300，但是理解的是，可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外，可以使用可以跟踪移动终端的位置的其它技术。另外，至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。

作为无线通信系统的一个典型操作，BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280，其提供用于与PSTN290形成接口的额外的路由服务。类似地，PSTN290与MSC280形成接口，MSC与BSC275形成接口，并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。

基于上述移动终端硬件结构以及通信系统，提出本发明的网络接入方法各个实施例。本发明的网络接入方法，在获取了无线网络信号和移动网络信号后，并行接入无线网络和移动网络，即同时使用无线网络和移动网络进行上网。其中，无线网络如WIFI网络，移动网络如2G/3G/4G网络。

相对于现有技术中同一时刻要么使用无线网络上网要么使用移动网络上网的方式，本发明同时使用无线网络和移动网络上网的方式，使得上网方式更加灵活，并能满足用户多样化的上网需求，拓宽网络带宽，提升用户的上网体验。

以下通过具体实施例进行详细说明。

实施例一

参照图3，图3为本发明提供的的第一实施例的功能模块示意图。

在本实施例中，所述视频处理装置包括：获取模块10、提取模块20及播放模块30；

所述获取模块10，用于获取关联终端的视频文件；

本实施例中，所述获取模块10用于获取关联终端的视频文件，需要说明的是所述视频文件既包含其所在终端的视频文件也包含所述与其关联终端的视频文件。

所述提取模块20，用于对所述视频文件进行特征识别，并提取出含有所述视频文件中人物标识的视频片段和音频片段；

用于对所述视频文件进行特征识别，并提取出含有所述视频文件中人物标识的视频片段和音频片段。所述人物标识，可以是所述视频人物的人脸特征或者所述视频人物的声纹特征。

对所述视频进行特征识别的过程。可以是对所述视频的图像帧进行人脸识别，并根据人物标识的人脸图像特征，识别出视频中含有所述人物标识的图像帧；或者，也可以是对所述视频的音频文件进行声纹识别，并根据人物标识的声纹特征，识别出视频中含有所述人物标识对应的声纹特征的音频片段，并根据音频文件与所述视频的对应关系，提取出含有所述人物标识的图像帧；或者，也可以先对所述视频的图像帧进行人脸识别，并根据人物标识的人脸图像特征，识别出视频中含有所述人物标识的第一视频片段，再对所述视频的音频文件进行声纹识别，并根据所述人物标识的声纹特征，识别出视频中含有所述待播放人物对应的声纹特征的音频片段，并根据音频文件与所述视频的对应关系，提取出含有所述待播放人物的第二视频片段，根据所述第一视频片段及所述第二视频片段整理出含有所述人物标识的视频片段。

所述播放模块30，用于确定待播放人物标识，将待播放人物标识对应的图像帧和音频片段合成新的视频文件后并播放。

将所提取的视频片段和音频片段根据时间顺序重新组合并进行播放。若根据人脸识别提取出含有所述人物标识的第一视频片段，根据声纹识别提取出含有所述待播放人物的第二视频片段，则删除所述第一视频片段及所述第二视频片段中相同重复的部分，将剩下的视频片段按时间顺序重新输出播放。

本实施例提供了一种视频处理装置，所述视频处理装置包括：获取模块，用于获取关联终端的视频文件；提取模块，用于对所述视频文件进行特征识别，并提取出含有所述视频文件中人物标识的图像帧和音频片段；播放模块，用于确定待播放人物标识，将待播放人物标识对应的图像帧和音频片段合成新的视频文件后并播。通过以上方案实现从不同角度对某一个特定的人物进行播放，提高了用户体验。。

实施例二

参照图4，图4为本发明第二实施例提供的获取模块的细分功能模块示意图。基于上述第一实施例，所述获取模块10包括：发送单元11，接收单元12，处理单元13；

所述发送单元11，用于向其他终端发送关联请求和/或关联确认信息，还用于用于将视频文件发送给关联终端；

所述接收单元12，用于接收关联终端的关联请求和/或关联确认信息，还用于接收关联终端发送的视频频片段；

所述处理单元13，用于关联其他终端，处理与关联终端之间的交互信息；

本实施例中，不同的终端需要建立一个信道进行信息交互，所述信道包括wifi、蓝牙、Internet等网络。例如：所述处理单元13通过所述发送单元11和所述接收单元12实现其所在终端与关联终端之间的交互信息，其所在的终端与关联终端之间的关联由其所在的终端建立wifi热点或无线局域网，通过发送单元11借助通讯录或其他社交软件来向其他终端发起关联邀请，所述被邀请终端的接收单元12接收到关联请求后，由发送单元11发送关联确认信息即可成功关联。终端关联后，关联终端的处理单元控制关联终端之间的视频共享及关联终端的角色分配。所述关联终端的角色分配包括视频拍摄阶段的角色分配也包括视频播放阶段的角色分配，例如，在视频拍摄阶段，处理单元13通过对其所在终端视频画面进行人脸识别，得出另一个较好的拍摄角度，此时处理单元13通过发送单元11给其他终端发送拍摄角度推荐信息。

本实施例通过对视频处理装置的获取模块的发送单元11和接收单元12及处理单元13实现与其他终端的关联，并通过关联终端之间的交互实现协作，，实现了在视频拍摄时多角度更好的拍摄视频，在播放时更广泛的选取视频内容，使用户可以在更短时间内从各个角度观看关注的人物，提高了用户体验。

实施例三

参照图5，图5为本发明第一实施例提供的提取模块的细分功能模块示意图。基于上述第一实施例，所述提取模块20包括图像提取单元21、人脸识别单元22及组合单元23，音频提取单元24及声纹识别单元25；

所述图像提取单元21，用于从所述视频中提取所述视频的图像帧；

所述人脸识别单元22，用于对所述视频文件的图像帧进行人脸识别，获取含有人脸图像的图像帧；

所述音频提取单元24，用于从所述视频中提取所述视频的音频文件；

所述声纹识别单元25，用于对所述音频文件进行声纹识别，提取出含有所述待播放人物对应的声纹特征的音频片段；

所述组合单元23，用于将所述含有人脸图像的图像帧组合为含有人物标识的视频片段，还用合出所述含有人物标识声纹特征的音频片段；

从所述视频中提取所述视频的图像帧；对所述图像帧进行人脸识别，确定所述视频中含有人物标识对应的人脸图像的图像帧；将含有所述人物标识对应的人脸图像的图像帧组合为视频片段。

进行人脸识别的过程可以通过诸如基于人脸特征点的识别算法(Feature-basedrecognitionalgorithms)、基于整幅人脸图像的识别算法(Appearance-basedrecognitionalgorithms)、基于模板的识别算法(Template-basedrecognitionalgorithms)和利用神经网络进行识别的算法(Recognitionalgorithmsusingneuralnetwork)等等人脸识别算法中的一种或多种进行人脸识别。

进行人脸识别的过程中，可以对视频中的场景进行识别，以提高同一场景下人脸识别的效率，例如，可以通过获取间隔帧的两张图像的整体直方图的差异，将间隔帧的两张图像的整体直方图的差异与预设的差异阈值进行比较，当间隔帧的两张图像的整体直方图的差异超过预设的差异阈值时，确定视频场景发生变化，视频场景不是同样视频场景；当间隔帧的两张图像的整体直方图的差异未超过预设的差异阈值时，确定视频场景未发生变化，视频场景为同样视频场景。

从所述视频中提取所述视频的音频文件；对所述音频文件进行声纹识别，提取出含有所述待播放人物对应的声纹特征的音频片段；从所述视频中提取出所述音频片段对应的视频片段。

对所述音频文件进行声纹识别的过程，可以通过把每个待识别的说话人的语音看作一个信号源，用一个码本来表征；从待识别的语音中提取一组矢量，并依次对这组矢量进行矢量量化处理，得到说话人的特征矢量序列，使得声纹识别效率和精度与说话人的语言和文本长度无关；为不同的说话人的特征矢量序列建立独立的矢量模型，使每一说话人的语音特征在特征空间中都形成其特定的特征聚类中心；将具有相似声纹特征的音频片段归类标记，并从中提取出含有所述待播放人物对应的声纹特征的音频片段。

本实施例通过对所述获取模块获取到的视频文件的图像帧进行人脸识别，提取出含有人物标识的视频片段，并通过对待播放视频的图像帧进行声纹识别，提取出用户选择的待播放人物标识相关的视频片段，进而选择播放用户指定的人物标识相关的视频片段，实现了在视频播发时，根据用户的选择自动筛选相关的视频片段进行播放，节省了用户的时间成本，提高了用户体验。

实施例四

参照图6，图6为本发明提供的的第四实施例的播放模块细分功能模块示意图。基于上述第一至第三实施例，所述播放模块30包括显示单元31、确认单元32、组合单元33

所述显示单元31，用于显示待播放人物标识列表和/或照片选择界面和/或录音界面；

所述确认单元32，用于确认选择的待播放人物标识或与照片人脸图像识别匹配的人物标识或与声纹识别匹配的人物标识；

所述组合单元33，组合单元，用于将所述待播放人物标识对应的视频片段、音频片段组合为待播放人物标识的视频文件；

提供选择界面显示所述视频中出现的视频人物标识，供用户基于所述选择界面选择待播放人物标识；在接收到用户基于所述选择界面触发的待播放人物标识选择完毕指令时，确定待播放人物标识。可以提供选择界面显示所述视频中出现的视频人物的人脸图像，供用户基于所显示的人脸图像选择待播放人物。所述待播放人物为所述获取模块10获取的视频内出现的视频人物。所述待播放人物可以所述待播放视频中出现的一个或者多个视频人物，即可以根据用户的播放指令，播放所述待播放视频中出现的一个视频人物相关的视频片段；也可以根据用户的播放指令，同时播放所述获取的视频文件中出现的多个视频人物相关的视频片段。

所述确认单元32，用于确认选择的待播放人物标识或与照片人脸图像识别匹配的人物标识或与声纹识别匹配的人物标识，确定人物标识；

对所述选择的照片进行人脸识别，确定与所述视频中匹配的人物标识；进行人脸识别的过程可以通过诸如基于人脸特征点的识别算法(Feature-basedrecognitionalgorithms)、基于整幅人脸图像的识别算法(Appearance-basedrecognitionalgorithms)、基于模板的识别算法(Template-basedrecognitionalgorithms)和利用神经网络进行识别的算法(Recognitionalgorithmsusingneuralnetwork)等等人脸识别算法中的一种或多种进行人脸识别。

对所述录入的音频文件进行声纹识别，确定与所述视频片段中匹配的人物标识。对所述音频文件进行声纹识别的过程，可以通过把每个待识别的说话人的语音看作一个信号源，用一个码本来表征；从待识别的语音中提取一组矢量，并依次对这组矢量进行矢量量化处理，得到说话人的特征矢量序列，使得声纹识别效率和精度与说话人的语言和文本长度无关；为不同的说话人的特征矢量序列建立独立的矢量模型，使每一说话人的语音特征在特征空间中都形成其特定的特征聚类中心；将具有相似声纹特征的音频片段归类标记，并从中提取出含有所述待播放人物对应的声纹特征的音频片段。

本实施例中，通过对视频进行特征识别，将所述视频中出现的人物标识提供给用户，供用户选择待播放的视频人物，并根据用户的播放指令，选择性的播放用户指定的人物标识相关的视频片段。也可以通过自动选择与用户提供的照片或声音匹配的人物标识，来选择待播放的人物标识。实现了根据用户的选择自动筛选相关的视频片段进行播放，节省了用户的时间成本，提高了用户体验。

实施例五

本发明进一步提供一种视频处理方法。

参照图7，图7为本发发明第五实施例提供的视频处理方法流程示意图。

在本实施例中，所述视频处理方法包括以下步骤：

步骤S10，获取关联终端的视频文件；

步骤S20，对获取的所述视频文件进行特征识别，并提取含有人物标识的图像帧和音频片段；

对所述视频进行人物特征识别，从所述视频内提取出含有所述待播放人物对应的人物标识的视频片段，以提取出用户选择的待播放人物相关的视频片段。所述人物标识，可以是所述视频人物的人脸特征或者所述视频人物的声纹特征。

对所述视频进行特征识别的过程。可以是对所述视频的图像帧进行人脸识别，并根据待播放人物的人脸图像特征，识别出视频中含有所述待播放人物的视频片段；或者，也可以是对所述视频的音频文件进行声纹识别，并根据待播放人物的声纹特征，识别出视频中含有所述待播放人物对应的声纹特征的音频片段，并根据音频文件与所述视频的对应关系，提取出含有所述待播放人物的视频片段；或者，也可以先对所述视频的图像帧进行人脸识别，并根据待播放人物的人脸图像特征，识别出视频中含有所述待播放人物的第一视频片段，再对所述视频的音频文件进行声纹识别，并根据待播放人物的声纹特征，识别出视频中含有所述待播放人物对应的声纹特征的音频片段，并根据音频文件与所述视频的对应关系，提取出含有所述待播放人物的第二视频片段，根据所述第一视频片段及所述第二视频片段整理出含有所述待播放人物的视频片段。

步骤S30，确定待播放人物标识，组合待播放人物标识对应的图像帧和音频片段，并播放；

在接收到用户的视频播放指令时，确定所述播放指令对应的视频及对应的待播放的视频人物。以根据用户的播放指令播放对应的视频人物相关的视频片段。

可以通过提供视频播放界面，并通过显示的视频播放列表供用户基于所述视频播放界面触发所述播放指令；或者，也可以通过提供的用于播放视频的物理按键，供用户基于所述物理按键触发所述播放指令；或者，也可以通过提供用于播放视频的快捷图标，供用户基于所述快捷图标触发所述播放指令。

所述待播放人物为所述待播放视频内出现的视频人物。可以通过提供选择界面显示所述视频内出现的视频人物，供用户基于所述选择界面选择待播放人物，在接收到用户基于所述选择界面触发的待播放人物选择完毕指令时，确定待播放人物。优选的，可以通过提供选择界面显示所述视频内出现的视频人物对应的人脸图像，供用户基于所显示的人脸图像选择待播放人物，在接收到用户基于所述选择界面触发的待播放人物选择完毕指令时，确定待播放人物。

所述待播放人物可以所述待播放视频中出现的一个或者多个视频人物，即可以根据用户的播放指令，播放所述待播放视频中出现的一个视频人物相关的视频片段；也可以根据用户的播放指令，同时播放所述待播放视频中出现的多个视频人物相关的视频片段。

将所提取的视频片段根据时间顺序重新组合并进行播放。若根据人脸识别提取出含有所述待播放人物的第一视频片段，根据声纹识别提取出含有所述待播放人物的第二视频片段，则删除所述第一视频片段及所述第二视频片段中相同重复的部分，将剩下的视频片段按时间顺序重新输出播放。

本实施例根据用户的播放指令，通过对视频进行特征识别，进而选择性的播放用户指定的视频人物相关的视频片段，实现了在视频播发时，根据用户的选择自动筛选相关的视频片段进行播放，节省了用户的时间成本，提高了用户体验。

实施例六

参照图8，图8为本发明视提供的的第六实施例的流程示意图。基于上述第五实施例，所述人物标识为人脸图像，所述步骤S20还包括：

步骤S211，从所述获取关联终端的视频文件中提取所述视频文件的图像帧；

步骤S212，对所述图像帧进行人脸识别，获取含有与所述人脸识别结果匹配的人脸图像的图像帧并组合为含有人物标识的视频片段；

步骤S221，从所述获取关联终端的视频文件中提取所述视频文件的音频文件；

步骤S222，对所述音频文件进行声纹识别，组合出所述含有人物标识声纹特征的音频片段；

步骤S23，将所述含有人脸图像的图像帧组合为含有人物标识的视频片段，还用合出所述含有人物标识声纹特征的音频片段；

从所述视频中提取所述视频的图像帧；对所述图像帧进行人脸识别，确定所述视频中含有所述待播放人物对应的人脸图像的图像帧；将含有所述待播放人物对应的人脸图像的图像帧组合为视频片段。

进行人脸识别的过程可以通过诸如基于人脸特征点的识别算法(Feature-basedrecognitionalgorithms)、基于整幅人脸图像的识别算法(Appearance-basedrecognitionalgorithms)、基于模板的识别算法(Template-basedrecognitionalgorithms)和利用神经网络进行识别的算法(Recognitionalgorithmsusingneuralnetwork)等等人脸识别算法中的一种或多种进行人脸识别。进行人脸识别的过程中，可以对视频中的场景进行识别，以提高同一场景下人脸识别的效率，例如，可以通过获取间隔帧的两张图像的整体直方图的差异，将间隔帧的两张图像的整体直方图的差异与预设的差异阈值进行比较，当间隔帧的两张图像的整体直方图的差异超过预设的差异阈值时，确定视频场景发生变化，视频场景不是同样视频场景；当间隔帧的两张图像的整体直方图的差异未超过预设的差异阈值时，确定视频场景未发生变化，视频场景为同样视频场景。

从所述视频中提取所述视频的音频文件；对所述音频文件进行声纹识别，提取出含有所述待播放人物对应的声纹特征的音频片段；从所述视频中提取出所述音频片段对应的视频片段。对所述音频文件进行声纹识别的过程，可以通过把每个待识别的说话人的语音看作一个信号源，用一个码本来表征；从待识别的语音中提取一组矢量，并依次对这组矢量进行矢量量化处理，得到说话人的特征矢量序列，使得声纹识别效率和精度与说话人的语言和文本长度无关；为不同的说话人的特征矢量序列建立独立的矢量模型，使每一说话人的语音特征在特征空间中都形成其特定的特征聚类中心；将具有相似声纹特征的音频片段归类标记，并从中提取出含有所述待播放人物对应的声纹特征的音频片段。

本实施例通过对待播放视频的图像帧进行人脸识别和声纹识别，提取出了用户选择的待播放人物相关的视频片段，进而选择性的播放用户指定的视频人物相关的视频片段，实现了在视频播发时，根据用户的选择自动筛选相关的视频片段进行播放，节省了用户的时间成本，提高了用户体验。

实施例七

参照图9，图9为本发明第八实施例提供的视频处理方法的播放流程示意图。基于上述第五实施例，所述步骤S30还包括：

步骤S31，提供人物标识选择界面和/或拍照和/或录音入口；

步骤S32，接收人物标识选择指令，对所述选择的照片进行人脸图像识别，对录入的声音进行声纹识别，确定待播放人物标识；

步骤S33，选择与所述照片人脸图像识别匹配的人物标识和/或与所述声纹识别匹配的人物标识；

参照图10，图10为本发明第八实施例提供的人物标识选择界面示意图；所述人物标识来源于所述从关联终端获取的视频文件。人物标识可以按照相应的视频片段的时长来进行排序。

所述步骤S32，提供选择界面显示所述视频中出现的视频人物，供用户基于所述选择界面选择待播放人物；对所述视频进行特征识别，确定所述视频中出现的人物标识；将所确定的人物标识与保存的人物数据库进行匹配，确定所述人物标识对应的视频人物。优选的，可以对所述视频进行人脸识别，确定所述视频中出现的人脸图像，将所确定的人脸图像与保存的人物数据库进行匹配，确定所述人脸图像对应的视频人物；或者，也可以将所确定的人脸图像与互联网获取的人物数据进行匹配，确定所述人脸图像对应的视频人物。

所述步骤S32，对所述选择的照片进行人脸图像识别，确定人物标识；

所述步骤S32，对所述录入的声音进行声纹识别，确定人物标识；

本实施例通过对视频进行特征识别，并根据保存的人物数据库确定视频中出现的视频人物，将所述视频中出现的视频人物提供给用户，供用户选择待播放的视频人物；并可以根据用户的选择，选择与照片或者声音匹配的人物标识来确定待播放人物标识，实现了在视频播发时，根据用户的选择自动筛选相关的视频片段进行播放，节省了用户的时间成本，提高了用户体验。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种视频处理装置，其特征在于，所述视频处理装置包括：

获取模块，用于获取关联终端的视频文件；

2.如权利要求1所述的视频处理装置，其特征在于，所述提取模块包括图像提取单元、人脸识别单元、组合单元；

所述图像提取单元，用于从所述获取关联终端的视频文件中提取所述视频文件的图像帧；

所述人脸识别单元，用于对所述视频文件的图像帧进行人脸识别，获取含有人脸图像的图像帧；

所述组合单元，用于将所述含有人脸图像的图像帧组合为含有人物标识的视频片段。

3.如权利要求1所述的视频处理装置，其特征在于，所述提取模块还包括音频提取单元、声纹识别单元、组合单元；

所述音频提取单元，用于从所述获取关联终端的视频文件中提取所述视频文件的音频文件；

所述声纹识别单元，用于对所述音频文件进行声纹识别，提取出含有人物标识对应的声纹特征的音频片段；

所述组合单元，用于组合出所述含有人物标识声纹特征的音频片段。

4.如权利要求1所述的视频处理装置，其特征在于，所述播放模块包括：

显示单元，用于显示待播放人物标识列表和/或照片选择界面和/或录音界面；

确认单元，用于确认选择的待播放人物标识或与照片人脸图像识别匹配的人物标识或与声纹识别匹配的人物标识；

组合单元，用于将所述待播放人物标识对应的视频片段、音频片段组合为待播放人物标识的视频文件。

5.一种视频处理方法，其特征在于，所述视频处理方法包括：

获取关联终端的视频文件；

6.如权利要求5所述的视频处理方法，其特征在于，所述人物标识为人脸图像，所述对所述视频文件进行特征识别，并提取含有人物标识的视频片段的步骤包括：

从所述获取关联终端的视频文件中提取所述视频文件的图像帧；

对所述图像帧进行人脸识别，获取含有与所述人脸识别结果匹配的人脸图像的图像帧并组合为含有人物标识的视频片段。

7.如权利要求5所述的视频处理方法，其特征在于，所述人物标识为声纹特征，所述对所述视频文件进行特征识别，并提取含有人物标识的音频片段的步骤包括：

从所述获取关联终端的视频文件中提取所述视频文件的音频文件；

对所述音频文件进行声纹识别，组合出所述含有人物标识声纹特征的音频片段。

8.如权利要求5至7任一项所述的视频处理方法，其特征在于，所述确定待播放人物标识的步骤包括：

显示待播放人物标识列表；

在接收到基于所述选择界面触发的待播放人物选择完毕指令时，确定所述待播放人物对应的人物标识。

9.如权利要求5至7任一项所述的视频处理方法，其特征在于，所述确定待播放人物标识的步骤包括：

提供照片选择界面和/或声音录入界面，获取选择的照片和/或录入的音频文件；

对所述选择的照片进行人脸图像识别和/或对录入的音频文件进行声纹识别；

选择与所述照片人脸图像识别匹配的人物标识和/或选择与所述声纹识别匹配的人物标识；

10.一种移动终端，其特征在于，所述移动终端包括如权利要求1至4所述的视频处理装置。