CN102222227B

CN102222227B - 基于视频识别与提取影片图像的系统

Info

Publication number: CN102222227B
Application number: CN 201110104465
Authority: CN
Inventors: 李亚欧; 吕齐; 李金国
Original assignee: HUALU ENTERTAINMENT Co; China Hualu Group Co Ltd
Current assignee: HUALU ENTERTAINMENT Co; China Hualu Group Co Ltd
Priority date: 2011-04-25
Filing date: 2011-04-25
Publication date: 2013-07-31
Anticipated expiration: 2031-04-25
Also published as: CN102222227A

Abstract

本发明公开了一种基于视频识别与提取影片图像的系统，其特征在于包括如下步骤：1)预处理服务器将视频和音频转化为标准的待识别语音；2)预处理服务器将视频转化为标准的待识别图像；3)预处理服务器将视频字幕转化为标准的待识别的二值化图像；4)对待识别语音和图片样本库中的图片以及二值化图像进行特征提取，5)索引服务器对被识别的视频文件进行语音、图像或文字进行特征提取，然后索引服务器将获取的语音、图像或文字的特征同步骤4得的特征数据库中的特征值进行相似度的比较，最终获取匹配结果用于用户调用。该系统具有抓取图像精准，使识别与提取影片图像的功能完全不影响网页原本的流览速度等特点。

Description

基于视频识别与提取影片图像的系统

技术领域

本发明涉及一种基于视频识别与提取影片图像的系统。

背景技术

随着网络信息的发展，音频、图像和视频等多媒体内容目前在互联网中占据了很重要的位置，各行业对音视频的使用越来越广泛，如何从海量的音视频信息中获取有用的信息，即音视频信息资源的识别和提取显得日益重要，音视频已成为网络用户最频繁使用观看的资源之一。目前的主流视频播放器已经较好的解决了观看视频，但在音视频识别与提取方面，这些播放器系统仍然没有开发出这个功能，这使得音视频资源自身的内容没有被很好的识别，一些有用的资源被忽略，解决这个问题的途径之一，就是利用识别技术从音视频资源里分析出可用的信息，再通过提取技术去索引这些资源，以达到提取有用信息的目的。

鉴于以上内容，有必要提供一种基于视频识别与提取影片图像的系统，通过图像识别技术对视频中出现的人物形象、道具、品牌标识、场景、天气状况等视频特征进行分析，并将分析数据整理存储，并通过文字、图片、视频段等关键信息进行视频检索，针对静态图像及动态视频图像序列，完成图像检测、跟踪及进行分离的系统。

发明内容

本发明针对以上问题的提出，而研制一种基于视频识别与提取影片图像的系统。本发明采用的技术手段如下：

一种基于视频识别与提取影片图像的系统，其特征在于包括如下步骤：

步骤1预处理服务器将预处理视频中的音频部分转化为标准的待识别语音；

步骤2预处理服务器将预处理视频转化为标准的待识别图片：即预处理服务器先将视频分割成独立的镜头，然后通过选取每个镜头的关键帧来表示该镜头，从输入的视频中利用关键帧提取视频文件中的多组图片，并保持分离出来的图片与原来的关键帧时间点一致，然后对图片数据进行数字降噪处理，并将非标准像素点转化为标准像素点后，输出标准的待识别图片，以此获取图片样本库；

步骤3预处理服务器将预处理视频中的视频字幕转化为标准的待识别二值化图像；将视频文字尺寸、长宽、笔画类型和笔画密度提取，然后将视频中的文本看作具有特征的特殊符号，综合视频的时域特征信息，进而转化成待识别的二值化图像；

步骤4对待识别语音和图片样本库以及二值化图像进行特征提取，即进行声音的语调和波长特征提取，图像的颜色、纹理和形状特征提取，文字的尺寸、笔画密度、对象信息和空间关系特征提取；最后输出标准的特征值，以此获得特征数据库；

步骤5索引服务器对被识别的视频文件进行语音、图像或文字进行特征提取，然后索引服务器将获取的语音、图像或文字的特征同步骤4得的特征数据库中的特征值进行相似度的比较，如果比较的结果满足相似度80％以上，这个被识别的视频文件中的语音、图像或文字被识别，然后将被识别的语音、图像或文字对应的图像进行提取，并存储在本地服务器上，用于用户调用；如果比较的结果不满足相似度80％，返回到上述相似度的比较操作，再进行相似性匹配，直到满足于匹配条件。

所述步骤1中音频部分转化为标准的待识别语音的过程如下：通过检测音频部分的声音信号中是否有连续稳定的基音频率或基波周期存在，在提取出音频部分的数据，并保持了提取出来的音频和原有的视频在时间轴方向的一致，对原始语言进行处理，滤除掉背景噪声，而后进行语音信号的预加重、语音分帧、端点检测处理，音频数据经过数字降噪技术处理后形成标准的待识别语音。

所述步骤3还包括如下步骤：将预处理视频分割为独立的镜头，根据上述特性在镜头段内利用字幕的出现与消失所引起的相继两帧的差别，定位出字幕区域，得到了原始图像中出现文字的一系列矩形区域，将这些矩形区域分离出来，就得到了原图像的一系列子图像，从以上的文字块中将背景去除，得到只含文字信息的二值图像。

同现有技术相比本发明具有如下有益效果：

1、提供广告、服务等附加价值：促进经济的发展识别与提取影片图像系统从某一方面来说，提高了网页的积极性，吸引更多的用户参与，在用户互动的过程中，传递产品信息，增加产品的曝光度，提高产品的信息度，提升网站的流量，并占领产品的宣传领地。使用识别与提取影片图像系统进行网站推广、网络品牌、信息发布、顾客关系，顾客服务、销售渠道、销售促进等行为。从根本上说，视频网站使用识别与提取影片图像系统是为了提高企业知名度，树立企业品牌，也促进了经济的增长。

2、丰富网络资源，促进网络发展：识别与提取影片图像系统作为互联网技术和内容创新的产物，以期参与、互动和个性化的特征深受用户喜爱，为活跃网络氛围、丰富网络信息资源发挥着重要作用。近年来，随着网络的普及度越来越高，真实世界中的社会关系越来越多的进入网络世界，识别与提取影片图像系统是处于快速发展和快速演变中的互联网新应用，它作为一种新的表达方式，传播的不仅是情绪，还包括大量的智慧、意见和思想。某种意义上说，它也是一种新的文化现象，识别与提取影片图像系统的出现和繁荣，真正凸现网络的知识价值，标志着互联网发展开始步入更高的阶段。

3、提高用户在浏览互联网信息时的主动性，带动网络音视频周边产业发展：传播大学麦克汉说：“媒介是神会发展的基本动力，也是区分不同社会形态的标志，每一种新媒介的产生与运用，宣告我们进入了一个新时代。”识别与提取影片图像系统的问世，预示着一个媒介新时代的即将来临。识别与提取影片图像系统这种新的信息传播形态，既不同于传统媒体的线性传播，也不同于网络媒体的网状传播，它是一种裂变传播，这种传播形态的传播速度之迅捷、传播密度之深密，传播方式之便利，远非以往的媒介所能比拟。这种信息传播形态带来的影响，假以时日，必将渗透到社会的每一个角落。它通过优化你我的沟通，促进个性的行动，进而改变世界。

另外，通过此技术使系统对图片的识别能力更强，并加强识别精度的同时对浏览器的浏览速度不影响。

附图说明

图1为本发明所述系统的流程图；

图2为本发明所述系统实现结构框图；

图3为本发明所述系统实际流程的示意图。

具体实施方式

如图1所示基于视频识别与提取影片图像的系统，包括如下步骤：

步骤1预处理服务器将预处理视频中的音频部分转化为标准的待识别语音；视频流中的音频信号是一种多种声音信号(语音、音乐以及环境音等等)交织在一起的复杂的混合体，当从一种类型的音频信号转换到另一种类型的音频信号时，某些听觉特征会发生变化，前后差别较大，如同图像序列中的视觉特征一样，在连续音频信号流中，当一类音频信号转换到另一类音频信号时，这两类音频信号在某些相应的音频特征上会发现明显变化，所以只需找到音频特征发生急剧变化的地方，即通过信号的声学分析并查找声音的变化点，就可以实现音频场景的分割，因此，我们把连续、同一个类型的音频片归为一个音频场景，一个音频场景一般表达了一个内容，对于只包含了一类音频信息文件来说，可以利用音频文件整体上的信息来提取音频特征，进行归类，而对于较长的，则还要将它们进行分割。音频变化点是度量特征突然改变的地方，变化点是定义信号的区段-音频场景，从而将连续音频信号分割成长短不一的音频场景，在进行后续处理。视频流中的音频信号有不同的类型，而相同类型的音频片一般持续时间从几秒到几分钟，通过检测声音信号中是否有连续稳定的基音频率(或基波周期)存在，可以区分声音信号是否合谐，在利用音频分离技术提取出音频部分的数据，并保持了分离出来的音频和原有的视频在时间轴方向的一致，并对原始语言进行处理，滤除掉其中的不重要的信息以及背景噪声，并进行语音信号的预加重、语音分帧、端点检测等处理。音频数据经过数字降噪技术处理，能量过低的部分和包含杂音信号的语音段被处理成静音，转化后，音频须输出为标准的待识别语音。

步骤2预处理服务器将预处理视频转化为标准的待识别图片：即预处理服务器先将视频分割成独立的镜头，然后通过选取每个镜头的关键帧来表示该镜头，从输入的视频中利用关键帧提取视频文件中的多组图片，并保持分离出来的图片与原来的关键帧时间点一致，分离出来的图像格式为RGB彩色图像，需要先将其转换为8位256级的灰度图像。转化后的图片数据经过数字降噪技术处理(比如图像的曝光度、解析度、对比度、色调等)，非标准像素点转化为标准像素点，输出标准的待识别图片，以此获取图片样本库。然后对图片数据进行数字降噪处理，并将非标准像素点转化为标准像素点后，输出标准的待识别图片，以此获取图片样本库。

步骤3预处理服务器将预处理视频中的视频字幕转化为标准的待识别二值化图像；视频文件中字幕是人工文字的一个重要表现形式，视频中的字幕一般都具有时空特性：比如字幕的存在跨越若干帧，甚至若干个镜头；字幕存在时，尽管不同帧之间的变化可能很大，但是字幕所在的区域的亮度或颜色变化不大；字幕的出现与消失都会使字幕对应区域在相邻视频帧之间出现很大的亮度或颜色的变化，所以先将视频分割为独立的镜头，根据上述特性在镜头段内利用字幕的出现与消失所引起的相继两帧的差别(包括帧差图像的亮度分布与边缘方向分布)定位出字幕区域，从而大大减少了需要检测的帧的数量，也回避了相继两帧中未改变的背景区域。根据所检测到的文字区域，以对当前所检测的文字区域进行优化。如前所述，通过文字检测，得到了原始图像中出现文字的一系列矩形区域，将这些矩形区域分离出来，就得到了原图像的一系列子图像，我们称之为文字块，从图像或视频中检测到的文字块，通常具有很复杂的背景，需要将从以上的文字块中将背景去除，得到只含文字信息的二值图像；将视频文字尺寸、长宽、笔画类型和笔画密度提取，然后将视频中的文本看作具有特征的特殊符号，综合视频的时域特征信息，进而转化成待识别的二值化图像；

步骤4对待识别语音和图片样本库中的图片以及二值化图像进行特征提取，即进行声音的语调和波长特征提取，图像的颜色、纹理和形状特征提取，文字的尺寸、笔画密度、对象信息和空间关系特征(是提取文字特征值的一部份，因为提取文字时，也需要把周围的图像以及文字区域一起获取，所以需要用到对象信息和空间关系特征。)提取；最后输出标准的特征值，以此获得特征数据库(利用特征信息检测器检测提取，人为的输出。以此获取特征，从而建立特征数据库。)；

特征提取包括关键帧中的视觉特征和镜头的运动特征的提取，其中对关键帧中的视觉特征的提取主要采用基于颜色特征、基于纹理特征、基于形状特征等提取方法，特征信息检测器被配置从数据库中检测与指定语音和图像文字等的特征信息，包括图像的颜色、纹理、形状；声音的特征、语调、波长；文字的尺寸、笔画密度、对象信息和空间关系等。经过特征提取模块得到语音特征和图像特征，在设定的相似度内搜索出所有符合条件的图像，而边缘是图像最基本的特征，是图像灰度变化最剧烈的地方，图像边缘和图像内容的物理特性之间存在着直接的联系，因此，图像的边缘包含了图像大部分的信息，提取出来的关键帧图像特征也着重在边缘体现。最后输出标准的特征值，以此获得特征数据库。

步骤5索引服务器(它是通用数据库定义的数据类型，表、视图和索引)对需要被识别的视频文件(由于进行的是视频的识别与提取，所以通常需要被识别的视频文件的内容与预处理视频文件中的内容存在着共同点：比如两部不同内容的影片，但是主演却由同一人饰演，或者有同一款跑车，抑或相同的场景等)进行语音、图像或文字的特征提取，然后索引服务器将获取的语音、图像或文字的特征同步骤4得的特征数据库中的特征值进行相似度的比较，如果比较的结果满足相似度80％以上，这个被识别的视频文件中的语音、图像或文字被识别，然后将被识别的语音、图像或文字对应的图像进行提取，并存储在本地服务器上，用于用户调用；如果比较的结果不满足相似度80％，返回到上述相似度的比较操作，再进行相似性匹配，直到满足于匹配条件。

索引服务器(它是通用数据库定义的数据类型，表、视图和索引)将需要被识别的视频文件分割成独立的镜头形成一个镜头片段，每个镜头有个对应播放时间点的图片序列，令数据库中每个序列依次作为未知序列进行识别，在任何视频的图像序列中，幅值和重心高度都在周期性变化，因此，我们使用这两种标准得到关键帧，数据库中，按照提取方法从指定语音或者图像提取的运动特征信息与表示语音和图像的内容信息相关联。运动特征它反映了视频的时域变化，也是用视频例子进行检索的重要内容。得到描述视频序列的特征量以后，可以通过对特征进行全局或局部的相似性匹配，利用图像特征值与图片样本库中的图像进行相似性匹配，得出用户需要的图像结果；从二值化图像中抽取出来的“特征值”作为原型，拿它来检验所要识别的图像，通过匹配原则，进而识别出文字；两图像块之间的特征值的相关性决定，当两图像块完全相同时，它们的相关性最大，对于互相独立的两图像块，它们的相关性最小，衡量两图像块间特征值的相关性的准则是相似度是否达到80％，如果达到，这个图像也就被识别了，以此来判断出该图是人物、背景、还是物品设备等，如果在同一场景里有两人说话，只需对经过预处理的信号进行特征提取，将语音的特征值和需要被识别的视频文件提取出来的特征值相匹配，还可自动分析确认谁在说，以及判断对话声调及气氛，因此，特征值匹配的好坏直接影响了匹配的精度。如果能找到一个相似的原型，最后进行判决分类，得到识别结果；该结果可保存在本地服务器上，用于用户随时调用输出。

如图2所示该系统包括：图像输入模块，用于将视频内的单张图片存储在计算机内。图像解码模块，模块用于识别人脸，形状或纹理特征然后将图像自动分类，同时通过图像类别，显著语义特征压缩编码，以达到图像解码的作用。识别模块，用于对解码好的图像进行识别，判断出是人物，景物还是物品等。分离模块，是指在一幅图像或视频流的一帧中检测出图像并将图像从背景中分离出来，并自动地将其保存。图像存储模块，用于将图片存储在计算机内，以方便用户的随时调用。

图像解码模块：是指一个能够对视频进行压缩或者解压缩的程序，是对专用数据接收来自控制主机的控制码进行解码，放大输出，该模块用于区分人脸，形状或纹理特征然后将图像自动分类，同时通过图像类别，显著语义特征压缩编码，以达到图像解码的作用。

识别模块：图形刺激作用于感觉器官，人们辨认出它是经验过的某一图形的过程，也叫图像再认。在图像识别中，既要有当时进入感官的信息，也要有记忆中存储的信息。只有通过存储的信息与当前的信息进行比较的加工过程，才能实现对图像的再认。

分离模块：在识别与提取影片图像的识别模块将JavaScript代码接口与分离模块建立连接，视频中视频文件是一种特殊的视频数据，它遵循帧-镜头-场景单元的结构化组织规则。对文件的结构化存储、编辑以及实时查询属于多媒体识别领域的工作范畴。在一幅图像或视频流的一帧中检测出图像并将图像从背景中分离出来，并自动地将其保存。

图像存储模块：该模块用于将分离好的图像存储在本地服务器上，以便做好图像识别的准备，方便于用户的随时调用。

JavaScript代码接口：该接口用于实现识别与提取影片图像系统与用户观看影片的客户端之间的交互。识别与提取影片图像系统将该接口编制成为一行代码。当视频文件被用户在客户端打开的时候，该接口将代码传送到识别与提取影片图像系统，再从识别与提取影片图像系统回传视频文件信息给网页，就此实现系统识别与提取图片影像的功能。

如何对视频文件进行解码：

1、合理抓取并分析图像

2、如何对分析好的图像进行识别，判断是人物、背景及物品等。

3、自动识别过程中不影响影片的流览速度

通过以下几个基本步骤的技术创新，视频识别与提取影片图像系统的技术很好地解决了上述难题。

利用代码编制，编写出一个解码器的解决方案。首先，系统实现通过代码制作图像解码模块，一种通过编码系统的动态图像编码数据的图像解码设备，该编码系统用于将一个帧划分成无数个块而进行的运动补偿编码，该模块用于视频流中识别图像(其中包括字幕、人物、物品、设备、语气)形状或纹理特征然后将图像自动分类同时通过图像类别，显著语义特征压缩编码，以达到图像解码的作用。

利用解码好图像的设置，抓取精准图像，经过解码后的图像会被归类于后台，系统程序会自动识别出哪些图像经过解码，而哪些是没有经过解码的，进而作出选择。对解码好的图像进行分析。判断出该图是人物、背景、还是物品设备等。如果在同一场景里有两人说话，还可自动分析确认谁在说，以及判断对话声调及气氛。

通过对分析好的图像进行识别，确定好图像的定位，进行识别系统输入一般是一张或者一系列含有未确定身份的图像，以及数据库中的若干已知身份的人脸图象或者相应的编码，而其输出则是一系列相似度得分，表明待识别的人脸的身份。比如把一个识别系统看做是一个原型匹配模型，在记忆中存储的并不是所要识别的无数个模板，而是图像的某些“相似性”。从图像中抽象出来的“相似性”就可作为原型，拿它来检验所要识别的图像。如果能找到一个相似的原型，这个图像也就被识别了。

利用系统自动运行的原理，使识别与提取影片图像的功能完全不影响网页原本的流览速度，系统是嵌套在视频系统中的，它所针对的所有活动是指视频文件，该系统并不在网页被用户打开时而立即执行，而是等待内容加载完成后对该文件内容的分析，此时用户也开始正常的网页操作流程，因而并不影响网页的流览速度。图像输入模块该模块用于网站视频流中，根据一定的图像输入大小规则。系统实际工作流程如图3所示。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于视频识别与提取影片图像的系统，其特征在于包括如下步骤：

步骤3预处理服务器将预处理视频中的视频字幕转化为标准的待识别二值化图像；将视频文字尺寸、长宽、笔画类型和笔画密度提取，然后将视频中的文本看作具有特征的特殊符号，综合视频的时域特征信息，进而转化成待识别的二值化图像；将预处理视频分割为独立的镜头，在镜头段内利用字幕的出现与消失所引起的相继两帧的差别，定位出字幕区域，得到了原始图像中出现文字的一系列矩形区域，将这些矩形区域分离出来，就得到了原图像的一系列子图像，从文字块中将背景去除，得到只含文字信息的二值图像；

步骤4对待识别语音和图片样本库中的图片以及二值化图像进行特征提取，即进行声音的语调和波长特征提取，图像的颜色、纹理和形状特征提取，文字的尺寸、笔画密度、对象信息和空间关系特征提取；最后输出标准的特征值，以此获得特征数据库；

步骤5索引服务器对被识别的视频文件进行语音、图像或文字进行特征提取，然后索引服务器将获取的语音、图像或文字的特征同步骤4得的特征数据库中的特征值进行相似度的比较，如果比较的结果满足相似度80%以上，这个被识别的视频文件中的语音、图像或文字被识别，然后将被识别的语音、图像或文字对应的图像进行提取，并存储在本地服务器上，用于用户调用；如果比较的结果不满足相似度80%，返回到上述相似度的比较操作，再进行相似性匹配，直到满足于匹配条件；所述步骤1中音频部分转化为标准的待识别语音的过程如下：通过检测音频部分的声音信号中是否有连续稳定的基音频率或基波周期存在，在提取出音频部分的数据，并保持了提取出来的音频和原有的视频在时间轴方向的一致，对原始语言进行处理，滤除掉背景噪声，而后进行语音信号的预加重、语音分帧、端点检测处理，音频数据经过数字降噪技术处理后形成标准的待识别语音。