CN104092957A

CN104092957A - 一种融合人像和语音的屏幕视频生成方法

Info

Publication number: CN104092957A
Application number: CN201410337865.7A
Authority: CN
Inventors: 陆成刚; 洪榛; 田茂利; 杜焕强; 俞珊珊; 黄蒙
Original assignee: Zhejiang Aerospace Changfeng Science & Technology Development Co Ltd
Current assignee: Zhejiang Aerospace Changfeng Science & Technology Development Co Ltd
Priority date: 2014-07-16
Filing date: 2014-07-16
Publication date: 2014-10-08
Anticipated expiration: 2034-07-16
Also published as: CN104092957B

Abstract

本发明公开一种融合人像和语音的屏幕视频生成方法，属于计算机多媒体技术领域，包括开启图像抓取线程步骤，启动一个录音线程步骤、音视频同步步骤、启动人脸抓取线程步骤、将人脸图像加入到屏幕图像的具体位置，通过替换法或者叠加法将人脸图像数据加入到当前帧屏幕图像中，生成融合了人像和语音的屏幕视频步骤，上述融合人像和语音的屏幕视频生成方法，音视频同步方法通过使用图像帧数目转化到时间，使得总的音频时间、视频时间保持一致，进而有效保证音视频数据的严格同步，在音视频同步的基础上，再通过摄像头抓取用户的人像，进而将用户的人脸(即表情)与语音相结合，给视频观看者更直观的体验，提高对屏幕视频内容的理解。

Description

一种融合人像和语音的屏幕视频生成方法

技术领域

本发明涉及一种融合人像和语音的屏幕视频生成方法，属于计算机多媒体技术领域。

背景技术

当前国内外屏幕截取软件应用比较普遍，主要使用在教育教学、或用于电脑的屏幕监控上。有名的软件或系统有EZvid、BlueBerry、Screenr和CamStudio，以及屏幕录像专家、网络监控软件“第三只眼”等等。这些软件都能将计算机屏幕动态图像录制为视频文件，同时包含同步录制的环境声音。无论是录制教学录像、还是作为监控使用，现有的软件或系统都存在一种不足：就是缺少电脑用户的人像录制、以及将录制的人像编辑进入屏幕视频文件中。而这个实际上是一个很重要的功能，这是因为无论是教学还是监控，当电脑用户说话的声音录入后，通常由于环境噪声不一定较小，所以辨听用户的语音有时会有困难。这时候如果有人脸说话表情的录入就会起到帮助理解的作用。而现在由于笔记本电脑、上网本、平板电脑、以及智能手机的使用的普遍性，为实现这样的融入人像的屏幕视频提供了可能。众所周知这类设备的显示屏上方均配有摄像头，它可以供在录制屏幕的同时抓取用户的人脸。

有鉴于此，本发明人对此进行研究，专门开发出一种融合人像和语音的屏幕视频生成方法，本案由此产生。

发明内容

本发明的目的是提供一种融合人像和语音的屏幕视频生成方法，在音视频同步的基础上，再通过摄像头抓取用户的人像，进而将用户的人脸(即表情)与语音相结合，给视频观看者更直观的体验，提高对屏幕视频内容的理解。

为了实现上述目的，本发明的解决方案是：

一种融合人像和语音的屏幕视频生成方法，包括如下步骤：

1)开启图像抓取线程：按照预定帧率时间间隔捕获屏幕图像，然后通过视频编解码库进行编码，最后把视频码流存入视频文件；

2)在开启图像抓取线程的同时启动一个录音线程：抓取音频数据，然后通过音频编解码库进行编码，最后把音频码流写入视频文件；

3)音视频同步以音频为基准，录音线程每向视频文件写入一块音频数据的码流时，根据音频采样频率以及音频数据块录音块长度计算得到该视频文件的绝对时间T，所述绝对时间T即为视频文件播放时从文件开始到当前音频数据段的累计播放时间；

4)基于视频文件的绝对时间T，根据预设的视频帧率参数，计算得到截止到当前时刻的图像帧的数目a，a即为保持同步的帧数的理想值；然后从图像抓取线程里查询得到该线程到目前为止往视频文件写入的图像帧数目b，倘若a<b，则表示目前写入文件的图像帧过多，应在图像抓取线程中暂停往视频文件里写一次图像；倘若a≥b，则图像抓取线程正常执行往视频文中件写入一帧图像码流，实现音频和视频的同步，步骤3)和4)所述的处理过程伴随图像抓取线程和录音线程这两个线程的生命期全程。

5)启动人脸抓取线程：开启摄像头并捕获屏幕正前方的环境图像，对该图像调用人脸检测函数得到用户人脸的包围盒，提取出包围盒内的人脸图像数据；

6)确定步骤5)提取的人脸图像加入到屏幕图像的具体位置，通过替换法或者叠加法将人脸图像数据加入到当前帧屏幕图像中，生成融合了人像和语音的屏幕视频。

上述步骤3)所述的绝对时间T(秒)是通过音频采集来计算的：

T＝BlkNum*BlkLen/SR

其中，BlkLen是每一次抓取的录音数据块的长度(即样本数)，是系统设计时预先定义的，BlkNum是迄今为止抓取录音数据块的次数(即音频线程被调用的次数)，SR是音频采样率(即样本数/秒)，也是系统设计时预定义的。

上述步骤4)所述的图像帧的数目a＝T/fps，

其中，fps是帧率(frames per second)，是系统预设参数。

作为优选，为了避免人脸对屏幕的长时间遮挡，也为了免除不说话状态下的人脸表情对理解屏幕的无助性，步骤5)人脸抓取的时机应该选择在有语音活动的时段，这个机制称为语音驱动的人脸检测，在步骤2)开启录音线程后，需同时启动语音活动检测(Voice ActivityDetection,语音活动检测，简称VAD)，具体过程为：通过语音活动检测对录音线程中的录音进行检查，当检测到有语音时，则先向人脸抓取线程发出人脸抓取通知，再进行音频编码，如果没有检测到有语音，则直接进行音频编码。

作为优选，上述步骤6)通过固定位置法确定人脸图像加入到屏幕图像的具体位置，选用屏幕的左上、右上、左下、右下四个位置中的其中一个地方加入人脸图像。

作为优选，上述步骤6)通过距离鼠标位置最远法确定人脸图像加入到屏幕图像的具体位置，距离鼠标位置最远法即：在屏幕上取到当前帧鼠标位置最远的点加入人脸图像。采用该方法的理由是鼠标位置往往是用户在屏幕上的注意力的聚焦处，采用该方法必须事先知道当前鼠标的位置，对于平板电脑、触摸屏智能手机则需要知道历史上距离当前最近时刻的指触点位置，为此，在图像抓取线程、录音线程和人脸抓取线程启动的同时，鼠标位置查询线程也随之开启，捕获鼠标或指触点的位置，并把位置实时通知给视频编辑模块。

作为优选，上述步骤6)所述的替换法是用人脸数据取代在屏幕图像对应位置的像素值；叠加法采用加权系数对给定的位置上一对人脸和屏幕数据进行加权求和，用和值替换该位置上的屏幕图像的数据，加权系数通常被称为阿尔法透明系数。

上述融合人像和语音的屏幕视频生成方法，步骤1)-步骤4)音视频同步方法通过使用图像帧数目转化到时间，使得总的音频时间、视频时间保持一致，进而有效保证音视频数据的严格同步，在音视频同步的基础上，再通过摄像头抓取用户的人像，进而将用户的人脸(即表情)与语音相结合，给视频观看者更直观的体验，提高对屏幕视频内容的理解。

以下结合附图及具体实施例对本发明做进一步详细描述。

附图说明

图1为实施例1的融合人像和语音的屏幕视频生成方法流程图；

图2为实施例2的融合人像和语音的屏幕视频生成方法流程图。

具体实施方式

本实施例中提到的视频帧率定义为：每一秒图像帧数目；

音频采样率定义为：音频模数转换时每一秒采样的样本数目；

音频数据块录音长度定义为：录音线程每一次从声卡录音缓冲里读取的数据长度或样本数目，该长度用采样率可以换算成代表时间长度。

实施例1

一种融合人像和语音的屏幕视频生成方法，如图1所示，包括如下步骤：

步骤101、首先开启图像抓取线程：按照预设的视频帧率时间间隔捕获屏幕图像，然后调用设备上预装的视频编解码库进行编码，最后把视频码流存入视频文件；

步骤201、在开启图像抓取线程的同时启动一个录音线程：抓取音频数据，然后调用设备上预装的音频编解码库进行编码，最后把音频码流写入视频文件；

步骤301、音视频同步以音频为基准，录音线程每向视频文件写入一块音频数据的码流时，根据音频采样频率以及音频数据录音块长度的累积值计算得到该视频文件的绝对时间T，所述绝对时间T即为视频文件播放时从文件开始到当前音频数据段的累积播放时间；

上述绝对时间T(秒)是通过音频采集来计算的：

T＝BlkNum*BlkLen/SR，

BlkLen是每一次抓取的录音数据块的长度(即样本数)，BlkNum是迄今为止抓取录音数据块的次数(即音频线程被调用的次数)，SR是音频采样率(即样本数/秒)。

步骤401、基于视频文件的绝对时间，根据预设的视频帧率参数，计算得到截止到当前时刻的图像帧的数目a，a即为保持同步的帧数的理想值；然后从图像抓取线程里查询得到该线程到目前为止往视频文件写入的图像帧数目b，倘若a<b，则表示目前写入文件的图像帧过多，应在图像抓取线程中暂停往视频文件里写一次图像；倘若a≥b，则图像抓取线程正常执行往视频文中件写入一帧图像码流，实现音视频同步，步骤3)和4)所述的处理过程伴随图像抓取线程和录音线程这两个线程的生命期全程。

上述步骤4)所述的图像帧的数目a＝T/fps，

fps是帧率(frames per second)，是系统预设参数。

步骤501、启动人脸抓取线程：开启摄像头并捕获屏幕正前方的环境图像，对该图像调用人脸检测函数得到用户人脸的包围盒，提取出包围盒内的人脸图像数据；为了避免人脸对屏幕的长时间遮挡，也为了免除不说话状态下的人脸表情对理解屏幕的无助性，步骤501人脸抓取的时机应该选择在有语音活动的时段，这个机制称为语音驱动的人脸检测，在步骤201开启录音线程后，需同时启动语音活动检测(Voice Activity Detection,语音活动检测，简称VAD)，具体过程为：通过语音活动检测对录音线程中的录音进行检查，当检测到有语音时，则先向人脸抓取线程发出人脸抓取通知，再进行音频编码，如果没有检测到有语音，则直接进行音频编码。

步骤601、确定步骤501提取的人脸图像通过固定位置法确定人脸图像加入到屏幕图像的具体位置，再通过替换法将人脸图像数据加入到当前帧屏幕图像中，生成融合了人像和语音的屏幕视频。所述固定位置法为：选用屏幕的左上、右上、左下、右下四个位置中的其中一个地方加入人脸图像。所述替换法是用人脸数据取代在屏幕图像对应位置的像素值。

现有音视频录制方式主要基于各类硬件设备(比如DV)进行工作，音视频的同步由图像和音频采集电路芯片的内置驱动软件完成，主要通过硬件时钟控制音频视频电路进行数据采集，由于硬件相比于软件的良好的实时性使得两路信号同步很容易得到保证。而屏幕录制由于操作系统的多线程、多任务机制必须要令两个工作线程同步才能使得获取的数据同步，本实施例所述的步骤101-步骤401音视频同步方法通过使用图像帧数目转化到时间，使得总的音频时间、视频时间保持一致，进而有效保证音视频数据的严格同步。上述融合人像和语音的屏幕视频生成方法，在音视频同步的基础上，通过摄像头抓取用户的人像，进而将用户的人脸(即表情)与语音相结合，给视频观看者更直观的体验，提高对屏幕视频内容的理解。

实施例2

实施例2所述的一种融合人像和语音的屏幕视频生成方法，其步骤101-步骤501同实施例1，其与实施例1的主要区别在于，所述步骤601通过距离鼠标位置最远法确定人脸图像加入到屏幕图像的具体位置，再通过叠加法将人脸图像数据加入到当前帧屏幕图像中，生成融合了人像和语音的屏幕视频，其中，所述距离鼠标位置最远法即：在屏幕上取到当前帧鼠标位置最远的点加入人脸图像。采用该方法的理由是鼠标位置往往是用户在屏幕上的注意力的聚焦处，采用该方法必须事先知道当前鼠标的位置，对于平板电脑、触摸屏智能手机则需要知道历史上距离当前最近时刻的指触点位置，为此，在图像抓取线程、录音线程和人脸抓取线程启动的同时，步骤701鼠标位置查询线程也随之开启，捕获鼠标或指触点的位置，并把位置实时通知给视频编辑模块。所述叠加法采用加权系数对给定的位置上一对人脸和屏幕数据进行加权求和，用和值替换该位置上的屏幕图像的数据，加权系数通常被称为阿尔法透明系数。

上述实施例和图式并非限定本发明的产品形态和式样，任何所属技术领域的普通技术人员对其所做的适当变化或修饰，皆应视为不脱离本发明的专利范畴。

Claims

1.一种融合人像和语音的屏幕视频生成方法，其特征在于包括如下步骤：

2.如权利要求1所述的一种融合人像和语音的屏幕视频生成方法，其特征在于：上述步骤3)

所述的绝对时间T(秒)是通过音频采集来计算的：

T＝BlkNum*BlkLen/SR，

其中，BlkLen是每一次抓取的录音数据块的长度，BlkNum是迄今为止抓取录音数据块的次数，SR是音频采样率。

3.如权利要求2所述的一种融合人像和语音的屏幕视频生成方法，其特征在于：上述步骤4)

所述的图像帧的数目a＝T/fps，

其中，fps是帧率。

4.如权利要求1所述的一种融合人像和语音的屏幕视频生成方法，其特征在于：步骤5)人脸抓取的时机应该选择在有语音活动的时段，这个机制称为语音驱动的人脸检测，在步骤2)开启录音线程后，同时启动语音活动检测，具体过程为：通过语音活动检测对录音线程中的录音进行检查，当检测到有语音时，则先向人脸抓取线程发出人脸抓取通知，再进行音频编码，如果没有检测到有语音，则直接进行音频编码。

5.如权利要求1所述的一种融合人像和语音的屏幕视频生成方法，其特征在于：上述步骤6)通过固定位置法确定人脸图像加入到屏幕图像的具体位置：选用屏幕的左上、右上、左下、右下四个位置中的其中一个地方加入人脸图像。

6.如权利要求1所述的一种融合人像和语音的屏幕视频生成方法，其特征在于：上述步骤6)通过距离鼠标位置最远法确定人脸图像加入到屏幕图像的具体位置，距离鼠标位置最远法即：在屏幕上取到当前帧鼠标位置最远的点加入人脸图像，在图像抓取线程、录音线程和人脸抓取线程启动的同时，鼠标位置查询线程也随之开启，捕获鼠标或指触点的位置，并把位置实时通知给视频编辑模块。

7.如权利要求1所述的一种融合人像和语音的屏幕视频生成方法，其特征在于：上述步骤6)所述的替换法是用人脸数据取代在屏幕图像对应位置的像素值；叠加法采用加权系数对给定的位置上一对人脸和屏幕数据进行加权求和，用和值替换该位置上的屏幕图像的数据，加权系数通常被称为阿尔法透明系数。