CN102110399B

CN102110399B - 一种辅助解说的方法、装置及其系统

Info

Publication number: CN102110399B
Application number: CN201110047643.8A
Authority: CN
Inventors: 王俊艳; 黄英
Original assignee: Vimicro Corp
Current assignee: Shanxi Zhongtianxin Technology Co ltd; Zhongxing Intelligent System Technology Co ltd
Priority date: 2011-02-28
Filing date: 2011-02-28
Publication date: 2016-08-24
Anticipated expiration: 2031-02-28
Also published as: CN102110399A

Abstract

本发明提供了一种辅助解说的方法、装置及其系统，所述方法包括：对视频流图像进行人脸检测，获取人脸图像；通过对所述人脸图像进行人脸识别，从预置人物信息数据库中获取匹配的预置人脸图；其中，所述预置人物信息数据库存储有：预置人脸图及其对应的身份信息；从所述预置人物信息数据库中提取与所述预置人脸图相对应的身份信息，生成解说文字信息。通过本发明，可以提供及时、匹配的解说信息。

Description

一种辅助解说的方法、装置及其系统

技术领域

本发明涉及视频和语音处理技术领域，特别是涉及一种辅助解说的方法、装置及其系统。

背景技术

为了能够给观众或听众提供更全面、更丰富的信息内容，在有些节目中，通常会由解说员对节目场景进行解说。对于某些节目，通常是事先将解说词编辑出来，在节目播放过程中，依据节目的进程，由解说人员按照提前编辑好的解说词进行现场解说播报。

在一些具有突发性或者实时性的现场直播类的节目中，如体育比赛、颁奖晚会等节目，解说员可以是场地旁边的记者，也可以是只看到现场视频图像的节目主持人，一般的，解说员需要对场景中的情况进行解说，尤其是需要进行人物身份的介绍。对于此类的节目，人们通常对节目的进程不可预知，即无法知道哪一时刻需要播放哪些人的镜头，则依据提前编辑好的解说词进行解说也就不能适用。在这种情况下，如果解说员不熟悉场景中的人物，就会造成解说错误或无话可说的冷场现象。特别是对于一些实时性较强的直播类的节目，解说员通常不可能有时间和机会向其他人询问、或者通过查阅资料获知节目场景中的人物的情况。此时的解说就变得较为困难，给解说员带来了很多不便。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够提供一种辅助解说的技术方案，能够提供及时的、匹配的解说信息。

发明内容

本发明所要解决的技术问题是提供一种辅助解说的方法、装置及其系统，能够提供及时的、匹配的解说信息。

为了解决上述问题，本发明公开了一种辅助解说的方法，包括：

对视频流图像进行人脸检测，获取人脸图像；

通过对所述人脸图像进行人脸识别，从预置人物信息数据库中获取匹配的预置人脸图；其中，所述预置人物信息数据库存储有：预置人脸图及其对应的身份信息；

从所述预置人物信息数据库中提取与所述预置人脸图相对应的身份信息，生成解说文字信息。

优选的，每隔n帧进行一次人脸检测，获取当前帧图像中的人脸图像；其中，n为大于1的正整数。

优选的，所述方法还包括：对所述人脸图像进行人脸跟踪，当判断前一帧中的人脸图像出现在当前帧图像中时，则针对所述人脸图像跳过人脸识别步骤，不再生成解说文字信息；其中，如果连续m帧未跟踪到所述人脸图像，则结束对所述人脸图像的跟踪。

优选的，所述方法还包括：从当前帧图像中获取人脸图像所对应的人物的位置信息；则依据提取的身份信息和相应的位置信息，生成解说文字信息。

优选的，当从预置人物信息数据库没有获取到匹配的预置人脸图时，所述方法还包括：将获取的人脸图像输入网络检索系统中，从网络检索系统中检索并获取相匹配的检索图像及其对应的检索信息；则依据所述检索信息生成解说文字信息。

优选的，所述方法还包括：

从当前帧图像中获取场景信息，并依据场景信息提取关键词；

根据所述关键词在获取的检索信息中进行二次检索，获得二次检索信息；

则依据所述二次检索信息生成解说文字信息。

优选的，所述方法还包括：将生成的解说文字信息转换为语音信息，进行自动语音播报。

优选的，所述方法还包括：采用无线的方式将所述解说文字信息发送至解说接收方。

相应的，本发明还提供了一种辅助解说的装置，包括：

人脸检测模块，用于对视频流图像进行人脸检测，获取人脸图像；

预置人物信息数据库，用于存储预置人脸图及其对应的身份信息；

人脸识别模块，用于通过对所述人脸图像进行人脸识别，从预置人物信息数据库中获取匹配的预置人脸图；

解说生成模块，用于提取与所述预置人脸图相对应的身份信息，生成解说文字信息。

优选的，所述人脸检测模块每隔n帧进行一次人脸检测，获取当前帧图像中的人脸图像；其中，n为大于1的正整数。

优选的，所述装置还包括：

人脸跟踪模块，用于对所述人脸图像进行人脸跟踪，当判断前一帧中的人脸图像出现在当前帧图像中时，则针对所述人脸图像跳过人脸识别步骤，不再生成解说文字信息；

其中，如果连续m帧未跟踪到所述人脸图像，则结束对所述人脸图像的跟踪。

优选的，所述装置还包括：

位置信息获取模块，用于从当前帧图像中获取人脸图像所对应的人物的位置信息；

则所述解说生成模块依据提取的身份信息和相应的位置信息，生成解说文字信息。

优选的，所述装置还包括：

网络检索模块，用于人脸识别模块从预置人物信息数据库没有获取到匹配的预置人脸图时，将获取的人脸图像输入网络检索系统中，从网络检索系统中检索并获取相匹配的检索图像及其对应的检索信息；

则所述解说生成模块依据所述检索信息生成解说文字信息。

优选的，所述装置还包括：

关键词提取模块，用于从当前帧图像中获取场景信息，并依据场景信息提取关键词；

二次检索模块，用于根据所述关键词在获取的检索信息中进行二次检索，获得二次检索信息；

则所述解说生成模块依据所述二次检索信息生成解说文字信息。

优选的，所述装置还包括：

语音转换模块，用于将生成的解说文字信息转换为语音信息，进行自动语音播报。

优选的，所述装置还包括：

无线发送模块，用于采用无线的方式将所述解说文字信息发送至解说接收方。

此外，本发明还公开了一种辅助解说的系统，包括具有上述的辅助解说的装置；所述辅助解说的装置包括：

无线发送模块，用于采用无线的方式将所述解说文字信息发送至解说接收方；

所述辅助解说的系统还包括：

无线接收装置，用于采用无线的方式接收无线发送模块发送的所述解说文字信息。

与现有技术相比，本发明具有以下优点：

本发明通过人脸检测和人脸识别从预置人物信息数据库中获取匹配的预置人脸图，然后提取与所述预置人脸图相对应的身份信息，生成解说文字信息。由于通过人脸识别在预置人物信息数据库中对检测得到的人脸图像进行匹配，因此，获取的身份信息与图像中的人物能够相互对应，相互匹配。并且，直接从预置人物信息数据库提取身份信息，保证了信息获取的及时性和准确性。

进一步，本发明可以对连续多帧图像进行人脸跟踪，避免对每一帧中的人脸图像都进行人脸识别，避免重复获取身份信息。同时，可以在解说的文字信息中增加了位置信息，利用人物的位置关系将每个人物的身份信息与实际的人物对应起来，防止发生解说错误；同时，使得辅助解说的内容更加全面、更加丰富。

此外，在预置人物信息数据库中没有与人脸图像相匹配的人脸图时，可以利用网络检索系统获取相匹配的检索图像及其对应的检索信息，由检索信息生成解说文字信息，辅助解说的方式更加灵活、多样。

附图说明

图1是本发明一种辅助解说的方法实施例一的流程图；

图2是本发明一种辅助解说的方法实施例二的流程图；

图3是本发明一种辅助解说的方法实施例三的流程图；

图4是本发明一种辅助解说的装置实施例一的结构图；

图5是本发明一种辅助解说的装置实施例二的结构图；

图6是本发明一种辅助解说的系统实施例的结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明一种辅助解说的方法实施例一的流程图，包括：

步骤101，对视频流图像进行人脸检测，获取人脸图像；

本发明可应用于摄像头或者摄像机拍摄场面的视频图像，对于视频中的各个帧，首先通过人脸检测获取每一帧图像中的人脸。人脸检测可以采用基于Adaboost的方法，Adaboost算法是一种迭代算法，其核心思想是针对同一个训练集训练不同的弱分类器，然后把这些弱分类器集合起来，构成一个更强的最终分类器。通过大量人脸和非人脸图像训练人脸的分类器，进一步，通过人脸的分类器即可从图像中识别出人脸。通过人脸检测的目的就是判断图像中是否有人脸，并获取人脸区域(即人脸图像)、人脸个数。此外，还可以采用其它的人脸检测算法获取人脸图像，本发明在此不做限定。

步骤102，通过对所述人脸图像进行人脸识别，从预置人物信息数据库中获取匹配的预置人脸图；其中，所述预置人物信息数据库存储有：预置人脸图及其对应的身份信息；

通过人脸检测得到了图像场景中的人脸个数和人脸图像(区域)，进一步，分别对每个人脸图像进行身份识别并获取相关的信息。在本发明实施例中，通过利用事先建立的预置人物信息数据库，获取人脸图像对应的人物信息。在所述预置人物信息数据库中，存储有大量的预置人脸图，每一幅预置人脸图对应有一份该人物的身份信息。

也就是说，在预置人物信息数据库的建立过程中，要为每个人物存储其人脸图像、身份信息，所述身份信息可以包括姓名、性别、年龄、行业信息或者其它相关信息，用户可随意配置。预置人物信息数据库中的数据信息是确定的，数据库建立后，为了防止信息过时，提高查找的准确性，可以不断进行数据信息补充和更新，以便得到最新最有效的识别结果。

人脸识别技术特指利用分析比较人脸视觉特征信息进行身份鉴别的计算机技术，它属于生物特征识别技术。现有技术中存在有多种人脸识别的基本方法，包括：几何特征的人脸识别方法，所述几何特征可以是眼、鼻、嘴等的形状和它们之间的几何关系(如相互之间的距离)；线段Hausdorff距离(LHD)的人脸识别方法，该方法基于从人脸灰度图像中提取出来的线段图进行识别；此外，还有弹性图匹配的人脸识别方法等等。人脸识别属于现有技术的范畴，本发明在此不再赘述，任何一种人脸识别技术均可应用到本发明。则通过人脸识别技术，即可在预置人物信息数据库查找到与通过人脸检测所获取的人脸图像相匹配的预置人脸图。可以理解的是，从预置人物信息数据库一般会获取多个相匹配的预置人脸图，将匹配度最高的预置人脸图作为识别结果。

步骤103，从所述预置人物信息数据库中提取与所述预置人脸图相对应的身份信息，生成解说文字信息。

由于在预置人物信息数据库中，每一幅预置人脸图对应有一份该人物的身份信息，通过查找数据库信息，提取与步骤102所得到预置人脸图相对应的身份信息，生成解说文字信息，以提供给解说员，解说员可以依据所述解说文字信息对图像中出现的人物进行身份介绍，从而实现了辅助解说。由于通过人脸识别在预置人物信息数据库中对检测得到的人脸图像进行匹配，因此，获取的身份信息与图像中的人物能够相互对应，相互匹配。并且，直接从预置人物信息数据库提取身份信息，保证了信息获取的及时性。

在本发明的一个优选实施例中每隔n帧进行一次人脸检测，获取当前帧图像中的人脸图像；其中，n为大于1的正整数。

进一步，在本发明的另一个优选实施例中，所述方法还包括：对所述人脸图像进行人脸跟踪，当判断前一帧中的人脸图像出现在当前帧图像中时，则针对所述人脸图像跳过人脸识别步骤，不再生成解说文字信息；其中，如果连续m帧未跟踪到所述人脸图像，则结束对所述人脸图像的跟踪。

人脸跟踪用于视频中跟踪同一人脸。如果跟踪算法的性能良好，那么某一帧图像中检测到的人脸在下一帧不消失，则所述人脸就会被跟踪上；如果前后几帧的人脸没有跟踪上，可以认为视频中的人脸不再是同一个人脸。

人脸跟踪是针对连续多帧图像的，对于跟踪上的人脸，即所获取的人脸图像在前一帧图像中出现，则停止获取预置人脸图，沿用前一帧的识别结果，也就是说针对当前帧不再重新获取身份信息，而在下一帧到来时，继续进行人脸跟踪，并依次执行各个步骤。如果没有跟踪上人脸，即前一帧所获取的人脸图像在当前帧图像中没有出现，说明前一帧所获取的人脸图像在当前帧消失，则记录相关信息，若连续m帧未跟踪到此人脸，则认为此人脸消失，清除此人脸的相关信息。

具体的，人脸跟踪可以有多种方法实现。例如，采用基于Mean Shift算法、基于统计模型的方法等。Mean Shift算法一般是指一个迭代的步骤，即先算出当前点的偏移均值，移动该点到其偏移均值，然后以此为新的起始点，继续移动，直到满足一定的条件结束。人脸跟踪属于现有技术的范畴，本发明在此不再赘述，任何一种人脸跟踪技术均可应用到本发明。

在本发明优选实施例中，增加了连续多帧图像的人脸跟踪，避免对每一帧中的人脸图像都进行人脸识别，避免重复获取身份信息。

参照图2，示出了本发明一种辅助解说的方法实施例二的流程图，包括：

步骤201，对视频流图像进行人脸检测和人脸跟踪，获取人脸图像；

步骤202，通过对所述人脸图像进行人脸识别，从预置人物信息数据库中获取匹配的预置人脸图；

所述预置人物信息数据库存储有：预置人脸图及其对应的身份信息。

步骤203，从所述预置人物信息数据库中提取与所述预置人脸图相对应的身份信息；

步骤204，从当前帧图像中获取人脸图像所对应的人物的位置信息；

当场景中存在不只一个人物时，需要在解说词中加入不同人的特征信息，以更清楚的对人物进行区分。通常的，可以通过性别、服饰等对场景中不同的人物进行区分，但是场景中的人物可能是性别相同、服饰相同、甚至发型相同等等，此时，利用上述特征无法进一步区分。

本发明创造性的提出，利用场景中人物的位置信息在解说时加以区分。其中，人物左右的位置关系可以很容易的直接在图像中提取出来，人物前后的位置关系可以采用两种方法获取。一种是采用深度分析的方法确定人物的前后位置信息，所谓深度就是指目标距离摄像机的距离。通常解说的视频是利用记者手中或者肩上的摄像装置获得的，因此拍摄的角度多为平拍或近似平拍，拍摄的距离通常不会很近，在这种角度下，假设人物身高差不多，通常离摄像装置越近的人脸图像越位于图像的下方。也就是说，当前帧图像中越靠下的人脸在场景中的位置离拍摄位置越近，即位于图像下方的人脸对应的人物位置在前，位于图像上方的人脸对应的人物位置在后。另一种方法还可以利用人物的相互遮挡确定人物的前后位置信息。即，分析人脸和人体的完整性，根据边缘等的连续性确定人物之间的遮挡关系，被遮挡的人物位置在后，没有被遮挡的人物位置在前。

此外，还可以通过对场景进行分析，进一步限定的位置信息。可以分析环境的位置关系，例如，获取位置信息为舞台的左边或右边等；还可以分析人物的行进方向，例如，红地毯的前面或后面等等。

步骤205，依据提取的身份信息和相应的位置信息，生成解说文字信息。

结合人物的身份信息，可以生成有关位置关系的解说文字信息，如“走在最前边的**”、“站在左边的**”等。此外，还可以生成一个人物位置关系图像，在图中描绘人物的位置关系在俯视图中的情况，这都有助于为解说员提供更详尽的辅助解说信息。

需要说明的是，本发明对步骤205的执行顺序不做具体限定，可以在步骤203人脸识别或步骤204身份信息的提取之前，也可以与步骤203或步骤204并行执行。

在本发明实施例二中，相比于实施例一，在解说的文字信息中增加了位置信息，利用人物的位置关系将每个人物的身份信息与实际的人物对应起来，防止发生解说错误；同时，使得辅助解说的内容更加全面、更加丰富。

参照图3，示出了本发明一种辅助解说的方法实施例三的流程图，包括：

步骤301，对视频流图像进行人脸检测和人脸跟踪，获取人脸图像；

步骤302，通过对所述人脸图像进行人脸识别，判断是否从预置人物信息数据库中获取匹配的预置人脸图；若是，则执行步骤303；若否，则执行步骤304；

其中，所述预置人物信息数据库存储有：预置人脸图及其对应的身份信息；

步骤303，从预置人物信息数据库中提取与所述预置人脸图相对应的身份信息，生成解说文字信息；

步骤304，将获取的人脸图像输入网络检索系统中，从网络检索系统中检索并获取相匹配的检索图像及其对应的检索信息；

步骤305，依据所述检索信息生成解说文字信息。

在本发明实施例三中，如果预置人物信息数据库中没有与人脸图像相匹配的人脸图，则可以利用网络搜索得到此人物的相关信息。具体的，将人脸图像输入到网络检索系统中，通过网络检索系统的图像匹配方法，从网络上找出与当前人脸图像匹配度较高的检索图像和相关的检索信息。

由于网络上面的信息量非常大，通常检索到的信息会非常多，会获取多份相似度较高的检索图像及其检索信息。在本发明的一个优选实施例中，在步骤304之后还包括：从当前帧图像中获取场景信息，并依据场景信息提取关键词；根据所述关键词在获取的检索信息中进行二次检索，获得二次检索信息；则在步骤305中，依据所述二次检索信息生成解说文字信息。

在二次检索时，需要获取图像中的场景信息，从场景信息中提取关键词。例如，通过分析图像获取的场景信息为舞台，则提取的关键词可以是“歌手”“演员”等关键词；犹如，获取的场景信息为足球场地，则提取的关键词可以是“运动员”“足球”等关键词。依据上述关键词进行二次筛选，找出最相关的检索信息。

进一步，还可以在二次检索的基础上根据点击率排名对搜索出来的信息进行排序，将点击率最高的信息作为最终的检索信息。可以理解的是，通过网络获取检索信息的过程由连到网上的计算机自动完成。

在本发明的一个优选实施例中，所述方法还包括：采用无线的方式将所述解说文字信息发送至解说接收方。通过无线发射装置将获取的解说文字信息发射出去，可以根据接收距离和现场状况确定采用红外、卫星等无线方式。可以将解说文字信息接收到一个比较小的手持设备上，解说员可以通过观看手持设备获取需要的解说信息。采用无线的发送和接收方法，具有隐蔽、有效的特点，不会对其他人造成干扰，不会影响解说的效果。如果解说员是面对电脑进行解说的，可以直接将解说文字信息输出到电脑的显示屏幕上。可以理解的是，如果人物图像在预置人物信息数据库和网络检索系统中均无法获取到相匹配的图像和信息，则可以将匹配失败消息发送至解说接收方，通知解说员无法获得该人脸图像所对应的人物的相关信息。

在本发明的另一个优选实施例中，所述方法还包括：将生成的解说文字信息转换为语音信息，进行自动语音播报。具体的，可以通过TTS(Text tospeech，由文本生生成语言)技术实现自动语音播报。

TTS技术就是根据文本自动生成语音，目前属于比较成熟的技术，可以理解成由计算机读文本。TTS技术主要包括以下几部分：1、文本分析。对输入文本进行语言学分析，逐句进行词汇的、语法的和语义的分析，以确定句子的低层结构和每个字的音素的组成，包括文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理等。2、语音合成。把处理好的文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形。3、韵律处理。合成音质(Qualityof Synthetic Speech)是指语音合成系统所输出的语音的质量，一般从清晰度(或可懂度)、自然度和连贯性等方面进行主观评价。

文本转语音的技术属于现有技术的范畴，本发明在此不再赘述。则通过将生成的解说文字信息转换为语音信息，在没有解说员的情况下，进行自动语音播报，可以实现视频的无人解说。

参照图4，示出了本发明一种辅助解说的装置实施例一的结构图，包括：

人脸检测模块401，用于对视频流图像进行人脸检测，获取人脸图像；

预置人物信息数据库402，用于存储预置人脸图及其对应的身份信息；

人脸识别模块403，用于通过对所述人脸图像进行人脸识别，从预置人物信息数据库中获取匹配的预置人脸图；

解说生成模块404，用于提取与所述预置人脸图相对应的身份信息，生成解说文字信息。

在本发明的一个优选实施例中，所述装置还包括：人脸跟踪模块405，用于对所述人脸图像进行人脸跟踪，当判断前一帧中的人脸图像出现在当前帧图像中时，则针对所述人脸图像跳过人脸识别步骤，不再生成解说文字信息；其中，如果连续m帧未跟踪到所述人脸图像，则结束对所述人脸图像的跟踪。

在本发明的另一个优选实施例中，所述装置还包括：

位置信息获取模块406，用于从当前帧图像中获取人脸图像所对应的人物的位置信息；

则所述解说生成模块404依据提取的身份信息和相应的位置信息，生成解说文字信息。

参照图5，示出了本发明一种辅助解说的装置实施例二的结构图，包括：人脸检测模块501、预置人物信息数据库502、人脸识别模块503、解说生成模块504、人脸跟踪模块505。此外，还包括：

网络检索模块506，用于人脸识别模块从预置人物信息数据库没有获取到匹配的预置人脸图时，将获取的人脸图像输入网络检索系统中，从网络检索系统中检索并获取相匹配的检索图像及其对应的检索信息；则所述解说生成模块504依据所述检索信息生成解说文字信息。

在本发明的一个优选实施例中，所述装置还包括：

关键词提取模块507，用于从当前帧图像中获取场景信息，并依据场景信息提取关键词；

二次检索模块508，用于根据所述关键词在获取的检索信息中进行二次检索，获得二次检索信息；

则所述解说生成模块504依据所述二次检索信息生成解说文字信息。

在本发明的另一个优选实施例中，所述装置还包括：语音转换模块，用于将生成的解说文字信息转换为语音信息，进行自动语音播报。

在本发明的另一个优选实施例中，所述装置还包括：无线发送模块，用于采用无线的方式将所述解说文字信息发送至解说接收方。

参照图6，示出了本发明一种辅助解说的系统实施例的结构图，包括如上述装置实施例一、实施例二所述的辅助解说的装置60；所述辅助解说的装置60包括：人脸检测模块601，用于对当前帧图像进行人脸检测，获取人脸图像；

预置人物信息数据库602，用于存储预置人脸图及其对应的身份信息；

人脸识别模块603，用于通过对所述人脸图像进行人脸识别，从预置人物信息数据库中获取匹配的预置人脸图；

解说生成模块604，用于提取与所述预置人脸图相对应的身份信息，生成解说文字信息；

无线发送模块605，用于采用无线的方式将所述解说文字信息发送至解说接收方；

所述辅助解说的系统还包括：

无线接收装置61，用于采用无线的方式接收无线发送模块发送的所述解说文字信息。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置和系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种辅助解说的方法、装置及其系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种辅助解说的方法，其特征在于，包括：

每隔n帧对视频流图像进行一次人脸检测，获取当前帧图像中的人脸图像；其中，n为大于1的正整数；对所述人脸图像进行人脸跟踪，当判断前一帧中的人脸图像出现在当前帧图像中时，则针对所述人脸图像跳过人脸识别步骤，不再生成解说文字信息；其中，如果连续m帧未跟踪到所述人脸图像，则结束对所述人脸图像的跟踪；

从所述预置人物信息数据库中提取与所述预置人脸图相对应的身份信息；

从当前帧图像中获取人脸图像所对应的人物的位置信息；其中，所述人物的位置信息包括：人物的前后位置信息；其中，在从当前帧图像中获取人脸图像所对应人物的前后位置信息时包括：采用深度分析的方法确定人物的前后位置信息，和/或，利用人物的相互遮挡确定人物的前后位置信息；其中，所述深度分析具体包括：位于图像下方的人脸对应的人物位置在前，位于图像上方的人脸对应的人物位置在后；所述利用人物的相互遮挡确定人物的前后位置信息具体包括：根据边缘连续性确定人物之间的遮挡关系，被遮挡的人物位置在后，没有被遮挡的人物位置在前；

依据提取的身份信息和相应的位置信息，生成解说文字信息。

2.如权利要求1所述的方法，其特征在于，还包括：

将生成的解说文字信息转换为语音信息，进行自动语音播报。

3.如权利要求1或2所述的方法，其特征在于，还包括：

采用无线的方式将所述解说文字信息发送至解说接收方。

4.一种辅助解说的装置，其特征在于，包括：

人脸检测模块，用于每隔n帧对视频流图像进行一次人脸检测，获取当前帧图像中的人脸图像；其中，n为大于1的正整数；

人脸跟踪模块，用于对所述人脸图像进行人脸跟踪，当判断前一帧中的人脸图像出现在当前帧图像中时，则针对所述人脸图像跳过人脸识别步骤，不再生成解说文字信息；其中，如果连续m帧未跟踪到所述人脸图像，则结束对所述人脸图像的跟踪；

位置信息获取模块，用于从当前帧图像中获取人脸图像所对应的人物的位置信息；其中，所述人物的位置信息包括：人物的前后位置信息；其中，在从当前帧图像中获取人脸图像所对应人物的前后位置信息时包括：采用深度分析的方法确定人物的前后位置信息，和/或，利用人物的相互遮挡确定人物的前后位置信息；其中，所述深度分析具体包括：位于图像下方的人脸对应的人物位置在前，位于图像上方的人脸对应的人物位置在后；所述利用人物的相互遮挡确定人物的前后位置信息具体包括：根据边缘连续性确定人物之间的遮挡关系，被遮挡的人物位置在后，没有被遮挡的人物位置在前；

解说生成模块，用于提取与所述预置人脸图相对应的身份信息，依据提取的身份信息和相应的位置信息，生成解说文字信息。

5.如权利要求4所述的装置，其特征在于，还包括：

6.如权利要求5所述的装置，其特征在于，还包括：

7.一种辅助解说的系统，其特征在于，包括具有上述权利要求4-6任一权利要求所述的辅助解说的装置；

所述辅助解说的系统还包括：