CN109784196A

CN109784196A - 视觉信息判识方法、装置、设备及存储介质

Info

Publication number: CN109784196A
Application number: CN201811564967.7A
Authority: CN
Inventors: 徐勇
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-21

Abstract

本发明揭示了一种视觉信息判识方法、装置、设备及存储介质，其方法包括：接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；根据判识结果对视觉信息进行描述信息标注。本发明的一种视觉信息判识方法、装置、设备及介质的有益效果为：通过对视觉信息的多级别判识能更精确的判识出该视觉信息的内容，提高了判识精度，通过接收用户对描述信息的评价对判识所使用的判识模型进行相应的判识训练使判识模型能够不断进行修正及进化，使其的判识结果更接近人工判识的结果，更人性化。

Description

视觉信息判识方法、装置、设备及存储介质

技术领域

本发明涉及到视觉信息判别领域，特别是涉及到一种视觉信息判识方法、装置、设备及介质。

背景技术

近年来，google人工智能团队在对人工智能技术进行分析时大胆的指出，现在制约人工智能发展的主要原因已经不在于算法本身的局限性，而是在于数据的局限性。因此，google进行了ImageNet大规模图像标注项目，建立了具有数百万标注图片的大规模数据库。ImageNet数据库的建立，也直接开启了深度学习的飞速发展。

然而，在当今的互联网社会，信息极度丰富，且新信息不断涌现。同时，人们对信息的分析与处理的需求由简到繁，不仅仅满足于简单图片分类等基础任务，而是希望能对图片及视频数据进行更为细致深入的分析。其中物体的判识、图像、视频及其场景或事件的解读是最重要的需求之一，均为计算机视觉与人工智能的核心任务，也是检索、搜索以及智能化电商及其自动导流的基础技术。现今，各种新产品、新事物不断出现，对其进行深度的分析，细致的解读已经成为智能分析与处理的必需技术。这些技术主要以深度学习为基础，但是要依托更为复杂的大规模标注数据。

现有的视觉信息判识中，对图像或视频一般以关键词的形式进行分类，无法满足复杂程度较高或精度要求较高的搜索，人们往往需要将想要搜索的视觉信息通过个人的理解得出对该信息的关键词，但是每个人的对事物的认知与理解不同使得理解出的关键词亦不同，往往加大了搜索难度，而针对前面的问题，现有的搜索引擎一般是通过后台人员根据用户的实用情况对前数据库进行调整，但是仍然会出现由于理解的差异带来的调整差异，导致浪费不必要的时间和人员成本。

发明内容

本发明的主要目的为提供一种视觉信息判识方法、装置、设备及介质，以解决背景技术中所提出的至少一个技术问题。

本发明提出一种视觉信息判识方法，包括：接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；根据判识结果对视觉信息进行描述信息标注。

进一步地，在上述的视觉信息判识方法中，在接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识的步骤之前，还包括建立判识模型，其中，建立步骤包括：获取历史视觉信息集，并通过初始判识模型对上述历史视觉信息集内的历史视觉信息进行描述信息标注；获取用户对上述历史视觉信息对应的描述信息的评价，其中，上述评价包括描述信息的正确性以及描述信息的评语；判断上述初始判识模型生成的描述信息的正确率是否超过指定值；若否且当用户评价数量大于第一指定阈值时，则根据描述信息的正确性以及描述信息的评语对上述初始判识模型进行判识训练；若是，则输出上述初始判识模型设定为判识模型。

进一步地，在上述的视觉信息判识方法中，根据描述信息的正确性以及描述信息的评语对上述初始判识模型进行判识训练的步骤，包括：通过预设词库获取描述信息评语中的特征语段，并对上述特征语段进行内容翻译；根据上述描述信息的正确率以及上述特征语段的内容翻译对上述初始判识模型进行判识训练。

进一步地，在上述的视觉信息判识方法中，在根据判识结果对视觉信息进行描述信息标注的步骤之后，还包括：接收用户对上述描述信息的评价，其中，上述评价包括描述信息的正确性以及描述信息的评语；判断用户评价数量是否大于第二指定阈值；若是，则计算每个上述描述信息的正确率；通过预设词库获取描述信息评语中的特征语段，并对上述特征语段进行内容翻译；根据上述描述信息的正确率以及上述特征语段的内容翻译对上述判识模型进行判识训练。

进一步地，在上述的视觉信息判识方法中，上述初级视觉判识的步骤，包括：视觉信息分类、目标检测和目标分割，

其中，上述视觉信息分类包括步骤：通过深度卷积网络对视觉信息进行特征提取，获得上述视觉信息的低维度特征向量；通过全连接网络对上述低维度特征向量进行特征优化，获得优化特征向量；通过Softmax分类器对上述优化特征向量进行最终的分类；

其中，上述目标检测包括步骤：通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征图片；通过RPN子网络在上述特征图片上生成若干个候选窗口，并筛选出含有目标物体的上述特征候选窗口，其中，上述候选窗口的尺寸由若干个面积选项和若干个指定比例选项相互组合得出；将上述特征目标窗口在上述特征图片上进行映射，并对映射后的上述特征图片进行ROI池化，对池化后的上述特征图片中的上述特征候选窗口中的目标物体进行分类；

其中，上述目标分割包括步骤：通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的上述特征图片；对上述特征图片的进行特征元素分类，并将上述特征图片根据上述元素分类结果进行分割，其中，上述元素分类包括目标元素和背景元素。

进一步地，在上述的视觉信息判识方法中，上述中级视觉判识的步骤，包括：视觉信息细分类和行为检测，

其中，上述视觉信息细分类包括步骤：通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征向量和特征图片；使用RNN神经网络模型获取上述特征图片中各像素间的关联特征向量；将关联特征向量和特征向量进行融合，并通过softmax分类器进行分类；

其中，上述行为检测包括步骤：通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征图片和上述视觉信息的下采样的特征向量；将上述特征图片和特征向量进行融合得到融合特征图片，并使用RNN神经网络模型获取融合特征图片中各图像元素间的关系向量，并根据上述关系向量分类行为类型。

进一步地，在上述的视觉信息判识方法中，上述中级视觉判识的步骤，还包括：前景分割，其中，上述前景分割包括步骤：获取上述视觉信息中的第一帧图像作为初始背景模型；使用上述第N+1帧图像对第N背景模型进行更新，形成第N+1背景模型；对比各相邻背景模型的差别特征，得出各背景模型之间的前景。

进一步地，在上述的视觉信息判识方法中，上述高级视觉判识的步骤，包括：图片解释或视频分析，

当上述视觉信息为图片时进行图片解释，其中，上述图片解释包括步骤：

通过深度卷积网络对视觉信息进行特征提取，获得上述视觉信息的特征图片；对上述特征图片进行目标检测，定位目标物体在上述视觉信息中的位置；将上述特征图片的所有像素作为时序序列输入上述LSTM神经网络模型，获取各目标之间的作用关系类型，根据上述关系类型对上述视觉信息进行分析解释；

当上述视觉信息为视频时进行视频分析，其中，上述视频分析包括步骤：

获取上述视觉信息中每一帧图像的图片解释结果和中级视觉判识中的前景分割结果；利用前景分割结果对上述时序序列进行前景提取，再根据上述图片解释结果对视频进行分析解释。

本发明提出一种视觉信息判识装置，包括：判识模块，用于接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；标注模块，用于根据判识结果对视觉信息进行描述信息标注。

本发明提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，上述处理器执行上述程序时实现如上述实施例中任意一项所描述的方法。

本发明提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中任意一项所描述的方法。

本发明的一种视觉信息判识方法、装置、设备及介质的有益效果为：通过对视觉信息的多级别判识能更精确的判识出该视觉信息的内容，提高了判识精度，通过接收用户对描述信息的评价对判识所使用的判识模型进行相应的判识训练使判识模型能够不断进行修正及进化，使其的判识结果更接近人工判识的结果，更人性化。

附图说明

图1是本发明一实施例中视觉信息判识方法的流程示意图；

图2是本发明一实施例中视觉信息判识方法的流程示意图；

图3是本发明一实施例中视觉信息判识方法的流程示意图；

图4是本发明一实施例中视觉信息判识方法的流程示意图；

图5是本发明一实施例中视觉信息分类的流程示意图；

图6是本发明一实施例中目标检测的流程示意图；

图7是本发明一实施例中RPN子网络生成的候选窗口的示意图；

图8是本发明一实施例中目标分割的流程示意图；

图9是本发明一实施例中视觉信息细分类的流程示意图；

图10是本发明一实施例中行为检测的流程示意图；

图11是本发明一实施例中前景分割的流程示意图；

图12是本发明一实施例中图片解释的流程示意图；

图13是本发明一实施例中视频分析的流程示意图；

图14是本发明一实施例中视觉信息判识装置的模块结构示意图；

图15为本发明一实施例的一种计算机设备的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本申请实施例中，视觉信息指的是通使用者通过视觉能够获得信息内容的信息，这些信息包括动态视觉信息和静态视觉信息。

本实施例中获取该视觉信息的终端设备为满足生成视觉信息硬件条件的的终端设备，包括智能移动终端如智能手机、平板电脑能、数码相机或录像机，也可以是具有绘画硬件的智能画板、个人计算机等设备。该终端设备可以采用各种智能操作系统，如IOS、Android、云OS等。

参照图1，本发明提供了一种视觉信息判识方法，包括：S1.接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；S2.根据判识结果对视觉信息进行描述信息标注。

如上述步骤S1所述，接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识，需要说明的是，上述视觉信息包括动态视觉信息和静态视觉信息，其中，动态视觉信息包括视频、动态图片、Flash动画、三维动画；静态视觉信息包括照片或图片，需要说明的是，在进行上述初级视觉判识、中级视觉判识和高级视觉判识前，一般对上述视觉信息进行特征提取，该提取特征一般通过基础深度卷积网络(Deep NeuralNetworks，简称DNN)进行，该基础深度卷积网络在用作提取特征前通过Inception结构进行网络推深，一般以残差网络和Inception的结合为基础网络，当网络推深至101层后，需要通过训练结果的效果再对网络深度进行适当的调整，以保证网络深度达到最优层数进行特征提取，其中，该深度卷积网络优选使用残差网络与Inception结构的结合获得，使用Inception结构将残差网络逐步推深，其中，各Inception结构之间通过恒等连接相连，深度卷积网络，一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。DNN可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被用来训练DNN。DNN是感知器的推广，克服了感知器无法实现对线性不可分数据识别的缺点。需要说明的是，上述初级视觉判识一般包括图像分类、目标检测以及目标分割。需要说明的是，上述中级视觉判识一般包括视觉信息细分类，行为检测，前景分割。需要说明的是，上述高级视觉判识一般包括图片解释，视频分析。

如上述步骤S2所述，根据判识结果对视觉信息进行描述信息标注，需要说明的是，在描述信息标注后，一般会根据用户的反馈信息将上述描述信息进行修正，其中，一般在每次执行修正时，需要反馈信息达到指定数量后再执行，该指定数量一般为5000-10000，一般根据数据库大小或指定时间段内的访问流量设定，需要说明的是，上述反馈信息数量为数据库中任意视觉信息的评价，上述修正方式优选为增值训练。需要说明的是，标注描述信息可根据初级视觉判识、中级视觉判识和高级视觉判识中任意一个或若干个结合的判识结果进行描述信息标注，其中，标注内容可以为任意语种的词语、短句或句子；还可以为多语种结合后的词语、短句或句子。

参照图2，在本实施例中，在上述的视觉信息判识方法中，在接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识的步骤之前，还包括建立判识模型，其中，建立步骤包括：S31.获取历史视觉信息集，并通过初始判识模型对上述历史视觉信息集内的历史视觉信息进行描述信息标注；S32.获取用户对上述历史视觉信息对应的描述信息的评价，其中，上述评价包括描述信息的正确性以及描述信息的评语；S33.判断上述初始判识模型生成的描述信息的正确率是否超过指定值；S34.若否且当用户评价数量大于第一指定阈值时，则根据描述信息的正确性以及描述信息的评语对上述初始判识模型进行判识训练；S35.若是，则输出上述初始判识模型设定为判识模型。

如上述步骤S31所述，获取历史视觉信息集，并通过初始判识模型对上述历史视觉信息集内的历史视觉信息进行描述信息标注，需要说明的是，通过上述初始判识模型标注的步骤一般与步骤S1-S2相似，均是通过对历史视觉信息进行初中高级的视觉判识，并根据判识结果对历史视觉信息进行标注，而需要说明的是，上述历史视觉信息为生成时间大于指定时长后的历史视觉信息，上述指定时长一般为10-15天，需要说明的是，在通过判识结果对历史视觉信息进行标注的同时还获取云服务器中用户对该历史视觉信息进行标注的描述信息，并将这些描述信息作为标注部分。

如上述步骤S32所述，获取用户对上述历史视觉信息对应的描述信息的评价，其中，上述评价包括描述信息的正确性以及描述信息的评语，需要说明的是，上述评价中的正确性评价为单项选择，用户仅能在“正确”或“错误”中选择一个结果，其中，上述选项可为与“正确”或“错误”意思相近的词语或短句，需要说明的是，当选择错误时，会显示出用户选择的界面让用户进行选择错其觉得是错误的标注，需要说明的是，上述评语一般包括任意语种的词语、短句或句子；还可以为多语种结合后的词语、短句或句子。

如上述步骤S33所述，判断上述初始判识模型生成的描述信息的正确率是否超过指定值，需要说明的是，上述历史视觉信息中的每条描述信息均单独计算正确率，描述信息正确率的计算方式为该描述信息被选择为错误的次数除以用户评价该描述信息所对应的历史视觉信息的总数。需要说明的是，在执行上述步骤S33之前一般先行判断用户评价总数是否大于第一指定阈值，其中，用户评价总数为用户评价历史视觉信息集所有历史视觉信息的次数的总和，其中，上述第一指定阈值一般为5000-10000。

如上述步骤S34和S35所述，若否且当用户评价数量大于第一指定阈值时，则根据描述信息的正确性以及描述信息的评语对上述初始判识模型进行判识训练；若是，则输出上述初始判识模型设定为判识模型，上述判识训练一般为增值训练，通过描述信息的正确率调整初始判识模型的判识判识权重，使初始判识模型的判识结果更接近人工判识，当经过多次训练后获得判识结果接近人工判识(即描述信息的正确率均大于指定值)的初始判识模型后将该初始判识模型输出为用于判识用户新获取或新生成历史视觉信息的判识模型。

参照图3，在本实施例中，在上述的视觉信息判识方法中，根据描述信息的正确性以及描述信息的评语对上述初始判识模型进行判识训练的步骤，包括：S341.通过预设词库获取描述信息评语中的特征语段，并对上述特征语段进行内容翻译；S342.根据上述描述信息的正确率以及上述特征语段的内容翻译对上述初始判识模型进行判识训练。

如上述步骤S341所述，通过预设词库获取描述信息评语中的特征语段，并对上述特征语段进行内容翻译，需要说明的是，上述翻译一般包括以下步骤：判断评语是否为对现有描述信息的评价，需要说明的是，一般包括两步，1.通过前述步骤中获取用户对描述信息的正确性评述，判断是否存在被选择为错误的现有描述信息，2.通过判断评语中是否有出现与现有描述信息意思相近的特征语句，通过以上两步的结合结果得出该评语是否为对现有描述信息的评述，需要说明的是，一般包含3个不同的结果：结果一：当1.的判断为是时无论2.的判断为何种结果过，直接判定该评语为对享有描述信息的评述，结果二：当1.判断结果为否，2.的判断结果为是时，判定该评语为对享有描述信息的评述，结果三：当1.和2.的判断结果同时为否时，则判定该评语不是对享有描述信息的评述；若是，则判断该评语的正负面性，需要说明的是，若前述步骤的判定结果为结果一或结果二，即执行本步骤，通过云数据库对评语的内容进行判定，根据云数据库中用于对该评语相似语句的反馈结合现有对应语种的词典解释，从而得出该评语的内容的正负面性，需要注意的是，本实施例中评语的“正负面性”，仅用于表示该描述信息是否与对应的历史视觉信息匹配；需要说明的是，当一描述信息的正确率超过指定值时，删除该描述信息；为防止出现错误描述信息删除遗漏，当一描述信息的正确率超过指定值，但描述信息的负面评语比例超过指定百分比，删除该描述信息，而需要注意的是本步骤为S341的子步骤而且S341位S34步骤中的子步骤，因此，触发步骤S34需要具备的条件均为本步骤触发的必要条件，由于在上述步骤S34的解释描述中已公开和解释，因此本段不做重复解释。若否，则判断该评语能否作为新增描述信息，通过云数据库对评语的内容进行判定，根据云数据库中用于对该评语相似语句的反馈结合现有对应语种的词典解释，从而得出该评语的内容是否包含有可作为新增描述信息的内容，若包含，则提取评语中相关的评述内容作为新增描述信息，若不包含，则判定该评语为无效评语，仅在评价总次数中记入该次评价作为总次数的计量次数。

如上述步骤S342所述，根据上述描述信息的正确率以及上述特征语段的内容翻译对上述初始判识模型进行判识训练，需要说明的是，上述判识训练为增值训练，需要注意的是，在本步骤作为判识训练条件的描述信息的正确率以及特征语段的内容翻译均为有效描述信息，不包括在步骤S341被删除的描述信息，因此，在判识训练前一般将被删除的描述信息从训练模型中剔除。

参照图4，在本实施例中，在上述的视觉信息判识方法中，在根据判识结果对视觉信息进行描述信息标注的步骤之后，还包括：S4.接收用户对上述描述信息的评价，其中，上述评价包括描述信息的正确性以及描述信息的评语；S5.判断用户评价数量是否大于第二指定阈值；S6.若是，则计算每个上述描述信息的正确率；S7.通过预设词库获取描述信息评语中的特征语段，并对上述特征语段进行内容翻译；S8.根据上述描述信息的正确率以及上述特征语段的内容翻译对上述判识模型进行判识训练。

如上述步骤S4所述，接收用户对上述描述信息的评价，其中，上述评价包括描述信息的正确性以及描述信息的评语，需要说明的是，上述评价中的正确性评价为单项选择，用户仅能在“正确”或“错误”中选择一个结果，其中，上述选项可为与“正确”或“错误”意思相近的词语或短句，需要说明的是，当选择错误时，会显示出用户选择的界面让用户进行选择错其觉得是错误的标注，需要说明的是，上述评语一般包括任意语种的词语、短句或句子；还可以为多语种结合后的词语、短句或句子。

如上述步骤S5所述，判断用户评价数量是否大于第二指定阈值需，要说明的是，用户评价总数为用户评价视觉信息集所有视觉信息的次数的总和，其中，上述第一指定阈值一般为5000-10000。

如上述步骤S6所述，若是，则计算每个上述描述信息的正确率，需要说明的是，若上述步骤S5的判断结果为否，则不执行步骤S6继续累积用户的评价数据，需要说明的是，上述视觉信息中的每条描述信息均单独计算正确率，描述信息正确率的计算方式为该描述信息被选择为错误的次数除以用户评价该描述信息所对应的视觉信息的总数；

如上述步骤S7所述，通过预设词库获取描述信息评语中的特征语段，并对上述特征语段进行内容翻译，需要说明的是，上述翻译一般包括以下步骤：断评语是否为对现有描述信息的评价，需要说明的是，一般包括两步，a.通过前述步骤中获取用户对描述信息的正确性评述，判断是否存在被选择为错误的现有描述信息，b.通过判断评语中是否有出现与现有描述信息意思相近的特征语句，通过以上两步的结合结果得出该评语是否为对现有描述信息的评述，需要说明的是，一般包含3个不同的结果：结果一：当a.的判断为是时无论b.的判断为何种结果过，直接判定该评语为对享有描述信息的评述，结果二：当a.判断结果为否，b.的判断结果为是时，判定该评语为对享有描述信息的评述，结果三：当a.和b.的判断结果同时为否时，则判定该评语不是对享有描述信息的评述；若是，则判断该评语的正负面性，需要说明的是，若前述步骤的判定结果为结果一或结果二，即执行本步骤，通过云数据库对评语的内容进行判定，根据云数据库中用于对该评语相似语句的反馈结合现有对应语种的词典解释，从而得出该评语的内容的正负面性，需要注意的是，本实施例中评语的“正负面性”，仅用于表示该描述信息是否与对应的历史视觉信息匹配；需要说明的是，当一描述信息的正确率超过指定值时，删除该描述信息；为防止出现错误描述信息删除遗漏，当一描述信息的正确率超过指定值，但描述信息的负面评语比例超过指定百分比，删除该描述信息，而需要注意的是本步骤为S7的子步骤，因此，触发步骤S7需要具备的条件均为本步骤触发的必要条件。若否，则判断该评语能否作为新增描述信息，通过云数据库对评语的内容进行判定，根据云数据库中用于对该评语相似语句的反馈结合现有对应语种的词典解释，从而得出该评语的内容是否包含有可作为新增描述信息的内容，若包含，则提取评语中相关的评述内容作为新增描述信息，若不包含，则判定该评语为无效评语，仅在评价总次数中记入该次评价作为总次数的计量次数。

如上述步骤S8所述，根据上述描述信息的正确率以及上述特征语段的内容翻译对上述判识模型进行判识训练，需要说明的是，上述判识训练为增值训练，需要注意的是，在本步骤作为判识训练条件的描述信息的正确率以及特征语段的内容翻译均为有效描述信息，不包括在步骤S7被删除的描述信息，因此，在判识训练前一般将被删除的描述信息从训练模型中剔除，通过描述信息的正确率调整初始判识模型的判识判识权重，使判识模型的判识结果更接近人工判识。

参照图5-8，在本实施例中，在上述的视觉信息判识方法中，上述初级视觉判识的步骤，包括：S11.视觉信息分类、S12.目标检测和S13.目标分割，

其中，上述S11.视觉信息分类包括步骤：S111.通过深度卷积网络对视觉信息进行特征提取，获得上述视觉信息的低维度特征向量；S112.通过全连接网络对上述低维度特征向量进行特征优化，获得优化特征向量；S113.通过Softmax分类器对上述优化特征向量进行最终的分类；

其中，上述S12.目标检测包括步骤：S121.通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征图片；S122.通过RPN子网络在上述特征图片上生成若干个候选窗口，并筛选出含有目标物体的上述特征候选窗口，其中，上述候选窗口的尺寸由若干个面积选项和若干个指定比例选项相互组合得出；S123.将上述特征目标窗口在上述特征图片上进行映射，并对映射后的上述特征图片进行ROI池化，对池化后的上述特征图片中的上述特征候选窗口中的目标物体进行分类；

其中，上述S13.目标分割包括步骤：S131.通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的上述特征图片；S132.对上述特征图片的进行特征元素分类，其中，上述元素分类包括目标元素和背景元素；S133.将上述特征图片根据上述元素分类结果进行分割。

如上述步骤S11所述，视觉信息分类，需要说明的是，该分类为粗分类过程，其具体步骤优选包含S111-S113，

其中，如上述步骤S111所述，通过深度卷积网络对视觉信息进行特征提取，获得上述视觉信息的低维度特征向量，需要说明的是，当上述视觉信息为视频时，则需要提取视频中指定帧数或所有帧数的图像，再将该图像输入深度卷积网络进行特征提取，若上述视觉信息为图片，则直接将该图片输入深度卷积网络进行特征提取，需要说明的是，以图片为例：在提取过程中，深度卷积网络会对图片的所有像素进行卷积操作并不断向前传递，在传递过程中还包含池化采样。

其中，如上述步骤S112所述，通过全连接网络对上述低维度特征向量进行特征优化，获得优化特征向量，上述全连接网络一般为将所有的输入与输出连接起来的单个交换机，其直径是1个链路，度数为N，若交换机失效将使整个网络失效；而单一条链路的失效只会使网络丢失一个节点。如：一个简单的总线网络，其可用作描述这种全连接网络的基本特征的参考点。该种网络具有成本随规模的扩展按0(N)上升的特性，但是总线上同时只发生一次数据传输，所以整个带宽是O(1)，对分带宽也是如此。事实上，由于随着端口的增加，RC延迟使得总线的时钟频率下降，带宽的扩展低于O(1)。(以太网实际上是位串行分布式总线；它在足够低的频率下工作，以允许大量的物理连接。)另一种全连接的网络是交叉开关，其提供O(N)的带宽，但是互连的成本和交叉点的数量成正比，或者说为0(N²)。

其中，如上述步骤S113所述，通过Softmax分类器对上述优化特征向量进行最终的分类，需要说明的是，上述Softmax分类器可使用若干个logistic分类器结合替换，当替换时，logistic分类器的数量根据上述数据库中的分类数量调整，但在区分区别较小的样本时，如：区分汽车和卡车这类区别较小的样本时，Softmax分类器会找到一个权重值，以尽可能放大样本之间的差异。

如上述步骤S12所述，目标检测，需要说明的是，其具体步骤优选包含S121-S123，

其中，如上述步骤S121所述，通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征图片，需要说明的是，当上述视觉信息为视频时，则需要提取视频中指定帧数或所有帧数的图像，再将该图像输入深度卷积网络进行特征提取，以获取指定帧数或所有帧数图像的特征图片，若上述视觉信息为图片，则直接将该图片输入深度卷积网络进行特征提取，获取该图片的特征图片，需要说明的是，以图片为例：在提取过程中，深度卷积网络会对图片的所有像素进行卷积操作并不断向前传递，在传递过程中还包含池化采样。

其中，如上述步骤S122所述，通过RPN子网络在上述特征图片上生成若干个候选窗口，并筛选出含有目标物体的上述特征候选窗口，其中，上述候选窗口的尺寸由若干个面积选项和若干个指定比例选项相互组合得出，需要说明的是，RPN子网络会对特征图片的每个位置的元素预测n个不同尺度的窗口，如：假设特征图片为一个尺度51*39的256通道图像，对于该图像的每一个位置，考虑9个可能的候选窗口：三种面积三种比例，如图7所示。

其中，如上述步骤S123所述，将上述特征目标窗口在上述特征图片上进行映射，并对映射后的上述特征图片进行ROI池化，对池化后的上述特征图片中的上述特征候选窗口中的目标物体进行分类，需要说明的是，在映射后通过ROI池化将ROI的大小转成指定大小。

如上述步骤S13所述，目标分割，需要说明的是，其具体步骤优选包含S131-S132，

其中，如上述步骤S131所述，通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的上述特征图片，需要说明的是，当上述视觉信息为视频时，则需要提取视频中指定帧数或所有帧数的图像，再将该图像输入深度卷积网络进行特征提取，以获取指定帧数或所有帧数图像的特征图片，若上述视觉信息为图片，则直接将该图片输入深度卷积网络进行特征提取，获取该图片的特征图片，需要说明的是，上述放缩处理一般通过空洞卷积实现，以增大增大生成的特征图片每个元素的感受野，需要说明的是，以图片为例：在提取过程中，深度卷积网络会对图片的所有像素进行卷积操作并不断向前传递，在传递过程中还包含池化采样。

其中，如上述步骤S132所述，对上述特征图片的进行特征元素分类，并将上述特征图片根据上述元素分类结果进行分割，其中，上述元素分类包括目标元素和背景元素，需要说明的是，目标元素即为在目标区域范围内的所有视觉元素，相对的，在目标区域以外的视觉元素则为背景元素，其中，该目标区域为在上述特征图片中目标物体所覆盖的区域。如：当要对图片中的“行人”进行分割时，该图片中“行人”所覆盖的区域中的所有视觉元素即为目标元素，包括服饰、肤色、区域中的光暗强度、饰品、动作和长相等，而区域以外的其余元素为背景元素。

参照图9-10，在本实施例中，在上述的视觉信息判识方法中，上述中级视觉判识的步骤，包括：S14.视觉信息细分类和S15.行为检测，

其中，上述视觉信息细分类包括步骤：S141.通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征图片和上述视觉信息的下采样的特征向量；S142.使用RNN神经网络模型获取上述特征图片中各像素间的关联特征向量；S143.将关联特征向量和特征向量进行融合，并通过softmax分类器进行分类；

其中，上述行为检测包括步骤：

S151.通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征向量和特征图片；S152.将上述特征图片和特征向量进行融合得到融合特征图片，并使用RNN神经网络模型获取融合特征图片中各图像元素间的关系向量，并根据上述关系向量分类行为类型。

如上述步骤S14所述，视觉信息细分类，需要说明的是，其具体步骤优选包含S141-S143，

其中，如上述步骤S141所述，通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征图片和上述视觉信息的下采样的特征向量，需要说明的是，上述特征提取为对上述视觉信息进行下采样化处理，获取上述视觉信息的下采样，并将上述下采样进行卷积操作，从而获得特征向量。

其中，如上述步骤S142所述，使用RNN神经网络模型获取上述特征图片中各像素间的关联特征向量，需要说明的是，由于视觉信息细分类需要考虑视觉信息中目标物体更多的局部信息以及目标物体不同部位间的关联信息，因此需要获取图片中各像素之间的关联特征向量，其中，RNN神经网络模型(循环神经网络，Recurrent Neural Network)是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列。

其中，如上述步骤S143所述，将关联特征向量和特征向量进行融合，并通过Softmax分类器进行分类，将上述步骤S142得到的关联特征向量与上述步骤S143得到的特征向量融合归一化，并对其通过Softmax分类器进行分类，，需要说明的是，上述Softmax分类器可使用若干个logistic分类器结合替换，当替换时，logistic分类器的数量根据上述数据库中的分类数量调整，但在区分区别较小的样本时，如：区分汽车和卡车这类区别较小的样本时，Softmax分类器会找到一个权重值，以尽可能放大样本之间的差异。

如上述步骤S15所述，行为检测，需要说明的是，其具体步骤优选包含S151-S152，

其中，如上述步骤S151所述，通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得上述视觉信息的特征向量和特征图片需要说明的是，当上述视觉信息为视频时，则需要提取视频中指定帧数或所有帧数的图像，再将该图像输入深度卷积网络进行特征提取，以获取指定帧数或所有帧数图像的特征图片及特征向量，若上述视觉信息为图片，则直接将该图片输入深度卷积网络进行特征提取，获取该图片的特征图片及特征向量，需要说明的是，以图片为例：在提取过程中，深度卷积网络会对图片的所有像素进行卷积操作并不断向前传递，在传递过程中还包含池化采样。

其中，如上述步骤S152所述，将上述特征图片和特征向量进行融合得到融合特征图片，并使用RNN神经网络模型获取融合特征图片中各图像元素间的关系向量，并根据上述关系向量分类行为类型，将上述步骤S151得到的特征图片和特征向量融合归一化得到融合特征图片，通过RNN神经网络模型获取融合特征图片中各图像元素间的关系向量，并根据关系向量和上述融合特征图片对视觉信息中的行为类型进行分类。

参照图11，在本实施例中，在上述的视觉信息判识方法中，上述中级视觉判识的步骤，还包括：S16.前景分割，

其中，上述前景分割包括步骤：S161.获取上述视觉信息中的第一帧图像作为初始背景模型；S162.使用上述第N+1帧图像对第N背景模型进行更新，形成第N+1背景模型；S163.对比各相邻背景模型的差别特征，得出各背景模型之间的前景。

如上述步骤S16所述，前景分割，需要说明的是，前景分割为仅应用于视频类视觉信息的步骤，其为利用视频不同帧图片之间的差异性，构建背景模型其具体步骤优选包含S161-S163，

其中，如上述步骤S161所述，获取上述视觉信息中的第一帧图像作为初始背景模型，上述初始背景模型作为后续步骤更新背景模型的基础。

其中，如上述步骤S162所述，使用上述第N+1帧图像对第N背景模型进行更新，形成第N+1背景模型，具体为，第一帧图像后续的一帧图片对初始背景模型进行更新得到第二背景模型，再使用第三帧图片对第二背景模型进行更新得到第三背景模型，以此类推执行，直至最后获得最后一帧图片更新后的最终背景模型，需要说明的是，上述对背景模型的更新实质为将后一帧的图片的像素对背景中的每个像素值进行更新。

其中，如上述步骤S163所述，对比各相邻背景模型的差别特征，得出各背景模型之间的前景，获取每次更新后的像素值差别从而得到各背景模型间的前景，从而完成前景分割。

参照图12-13，在本实施例中，在上述的视觉信息判识方法中，上述高级视觉判识的步骤，包括：S17.图片解释或S18.视频分析，

S171.通过深度卷积网络对视觉信息进行特征提取，获得上述视觉信息的特征图片；S172.对上述特征图片进行目标检测，定位目标物体在上述视觉信息中的位置。S173.将上述特征图片的所有像素作为时序序列输入上述LSTM神经网络模型，获取各目标之间的作用关系类型，根据上述关系类型对上述视觉信息进行分析解释；

S181.获取上述视觉信息中每一帧图像的图片解释结果和中级视觉判识中的前景分割结果；S182..根据上述图片解释结果和前景分割结果对视频进行分析解释。

如上述步骤S17所述，图片解释，需要说明的是，图片解释为仅应用于图片类视觉信息的步骤，其为对图片内容的详细解释及标注，构建背景模型其具体步骤优选包含S171-S173，

其中，如上述步骤S171所述，通过深度卷积网络对视觉信息进行特征提取，获得上述视觉信息的特征图片，需要说明的是，上述视觉信息为图片，直接将该图片输入深度卷积网络进行特征提取，需要说明的是，在提取过程中，深度卷积网络会对图片的所有像素进行卷积操作并不断向前传递，在传递过程中还包含池化采样。

其中，如上述步骤S172所述，对上述特征图片进行目标检测，定位目标物体在上述视觉信息中的位置，将上述特征图片进行步骤S122-S123以将目标物体在图片中的位置确定，其中，上述步骤S171-S172可采用上述实施例中的步骤S121-S123代替。

其中，如上述步骤S173所述，将上述特征图片的所有像素作为时序序列输入上述LSTM神经网络模型，获取各目标之间的作用关系类型，根据上述关系类型对上述视觉信息进行分析解释，在上述步骤S172完整执行或上述替换步骤S123完整执行后，使用LSTM神经网络模型对特征图片进行分析，将特征图片的所有像素作为该图片的时序序列输入LSTM神经网络模型中，获取各目标之间的作用关系类型，其中该获取过程为分类过程，根据得到的关系类型进而对图片进行分析解释标注。

LSTM神经网络(Long Short-Term Memory)长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

LSTM神经网络已经在科技领域有了多种应用。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别图像识别、手写识别、控制聊天机器人、预测疾病、点击率和股票、合成音乐等等任务。

如上述步骤S18所述，视频分析，需要说明的是，视频分析为仅应用于视频类视觉信息的步骤，其为对视频内容的详细分析及标注，构建背景模型其具体步骤优选包含S181-S182，

其中，如上述步骤S181所述，获取上述视觉信息中每一帧图像的图片解释结果和中级视觉判识中的前景分割结果，将视频中的每一帧图像分别单独进行图片解释步骤，即上述步骤S171-S173，获得视频中所有帧数图像的图片解释结果，再获取所述步骤S161-S163对视频的前景分割结果，作为视频分析的基础数据。

其中，如上述步骤S182所述，根据上述图片解释结果和前景分割结果对视频进行分析解释，将对弈的图片解释与对应的前景进行匹配对应，将各帧图片的解释排列整合，形成视频的分析。

需要说明的是，不同级别的视觉任务之间并非相互独立，低级别的视觉分析任务与高级别的视觉分析任务存在密切的关联。这种关联主要体现在两个部分：特征层次的关联以及结果层次的关联。

特征层次的关联表示低级别视觉任务提取到的图片或视频特征可以与高级别视觉任务提取到的特征相融合以此来达到特征增强的目的。如：对于视觉信息分类和视觉信息细分类两种视觉任务来说，视觉信息分类提取到的特征可以是粗糙的整体特征，而视觉信息细分类提取到的特征则可看作是局部的细节特征(因为视觉信息细分类需要对同一大类的物体进行更为细致的划分。)两种特征的融合无疑使得特征具有更强的判别性。具体地，特征融合的方法如公式(1)所示：

式中，o_i表示第i级别的视觉任务融合后的特征，f_i第i级别视觉任务的特征，w_i表示对应的权重参数，⊙表示点乘。

结果层次的关联主要是说高级别层次的视觉任务可以利用低级别视觉任务的结果，再进行更为细致的分析。如：图片解释视觉任务会利用到目标检测的结果，利用这个结果可以使得图片解释的分析过程更为简化和高效。本发明在对此深度卷积网络模型的训练上采用多任务损失函函数，具体的如公式(2)所示：

式中，L₁表示基础视觉任务的损失，L₂表示中级视觉任务的损失，L₃表示高级视觉任务的损失，l_ij表示第i级别的视觉任务第j个子任务的损失，w_ij表示其对应的权重，具体的根据不同子任务训练数据的数量，来确定损失权重的大小，训练数据越少，则要对应的增大该任务损失的权重，以此来达到更为高效的训练目的。

对以上所述的模型初步训练完成后则开始用于与用户的交互，利用交互信息不断的对初始数据库进行扩增。

需要说明的是，在前述任一实施例中，由于接受用户的评价对描述信息进行更正时，数据库中可能出现如下情况：A.同一类别或事件名字不一致的情况。例如，桌球、撞球、斯洛克都是指台球。B.新增类别或者子类别的情况。例如，假如初始系统中有“水果”这个类别，后面通过用户的输入和更正信息，增加了“苹果”、“梨”等具体水果等标签，则系统需要明确这些具体的水果名属于“水果”这一类别的子类别。再如，“游泳”、“打乒乓球”都是“体育运动”的子类别。

鉴于上述情况，为了避免系统的存储和检索出现问题，本发明还包括有以物体或事件类别分析为核心的知识融合方法。方法如下：首先，构建一个常用物体或事件命名与类别的知识库，库中实现同一物体与事件的指代一致性，并给出同一物体或事件的所有命名集合(不同的学名、俗名、别名等)。此外，在接受的用户输入的类别名没有包括在知识库中时，不间断地通过网络查找相关内容，并利用文字分析技术判断该类别名为新增类别或子类别，确保分类的正确与各类别名的准确，然后加进知识库中。同时，对于上述情况，需要对深度卷积网络进行进一步的调整，对于情况A可以通多知识融合方法对类别的ID进行统一。对于情况B，则需要对网络的结构进行微调。例如：在有新增类别时，分类子结构的输出数量会增加，参数数量会变化，基于这种情况，系统首先会不同子任务对新增类别进行存储积累，当新增类别到达临界数量后，需要对网络结构进行调整并做新增训练，其中，该临界数量在本实施例中优选为500。具体地不需要对网络整体结构进行调整，而只需要对不同子任务的子结构进行相应的调整。需要注意的是，当做新增训练时，不仅需要新增的数据，还要在原来数据中选取与新增数据等量的数据对网络进行训练，以保证深度卷积网络的平衡性。

参照图14，本发明提出本发明提出一种视觉信息判识装置，包括：

判识模块1，用于接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；

标注模块2，用于根据判识结果对视觉信息进行描述信息标注。

上述判识模块1，一般用于接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识，需要说明的是，上述视觉信息包括动态视觉信息和静态视觉信息，其中，动态视觉信息包括视频、动态图片、Flash动画、三维动画；静态视觉信息包括照片或图片，需要说明的是，在进行上述初级视觉判识、中级视觉判识和高级视觉判识前，一般对上述视觉信息进行特征提取，该提取特征一般通过基础深度卷积网络进行，该基础深度卷积网络在用作提取特征前通过Inception结构进行网络推深，当上述基础深度卷积网络的深度达到指定层数后，进行特征提取，需要说明的是，所述基础深度网路一般以残差网络和Inception网络的结合作为基础网络，当网络推深至101层后，需要通过训练结果的效果再对网络深度进行适当的调整，以保证网络深度达到最优层数，在本实施例中该指定层数即为最优层数。深度卷积网络，一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。DNN可以被看做是一个有向图，由多个节点层组成，每一层全连接到下一层。除了输入节点，每个节点都是一个带有非线性激活函数的神经元(或称处理单元)。一种被称为反向传播算法的监督学习方法常被用来训练DNN。DNN是感知器的推广，克服了感知器无法实现对线性不可分数据识别的缺点。需要说明的是，上述初级视觉判识一般包括图像分类、目标检测以及目标分割。需要说明的是，上述中级视觉判识一般包括视觉信息细分类，行为检测，前景分割。需要说明的是，上述高级视觉判识一般包括图片解释，视频分析。

上述标注模块2，一般用于根据判识结果对视觉信息进行描述信息标注，需要说明的是在描述信息标注后，一般会根据用户的反馈信息将上述描述信息进行修正，其中，一般在每次执行修正时，需要反馈信息达到指定数量后再执行，该指定数量一般为5000-10000，一般根据数据库大小或指定时间段内的访问流量设定。需要说明的是，标注描述信息可根据初级视觉判识、中级视觉判识和高级视觉判识中任意一个或若干个结合的判识结果进行描述信息标注，其中，标注内容可以为任意语种的词语、短句或句子；还可以为多语种结合后的词语、短句或句子。

在一具体实施例中，还包括利用该系统与用户进行交互从而达到的商业模式，对此判识系统初步训练完成后则开始用于与用户的交互，利用交互信息不断的对初始数据库进行扩增。具体地，当用户通过移动或非移动控制终端输入视觉信息数据(一般为图像或视频)后，在系统实时给出分析结果(对图像中的物体的检测结果以及各物体的类别或视频中事件分析结果等)后，系统提示用户对分析结果给出具体的评价(图片分类以及图片细分类的结果是否正确，目标检测窗口位置大小是否正确以及对图片的描述解释和对视频的描述解释是否正确)并给予奖励(用户积分或礼品等)，若用户评判为错误时，系统会进一步的提示用户根据不同的子任务给出正确的标注结果并给予奖励，同时，允许用户对传入的图像或视频添加类别属性或更新旧的类别描述”。若用户对系统的分析结果的评价为“正确”时，为了满足系统对更为复杂任务的要求，系统将提示用户对数据进行更为细致的标注并给予奖励，如：对物体的局部信息进行标注，具体如：人的手、脚、头或花的花瓣、花蕊等，该更为细致的标注工作会对后续更为复杂的分析需求有决定性的帮助作用。进一步地，系统还可以将从互联网获取的视觉信息数据的处理结果定期推送给用户进行有偿的评判处理，进一步的对数据库进行扩增。对于新增的数据，会做如下处理：一、系统读取用户输入的视觉信息更新信息(图像中物体的类别或视频中事件的类型)，并将其作为输入数据的标签与输入数据一起放入数据库，用户的其他的补充描述也送入数据库(如果用户没有补充描述，则数据仓库中相应字段的数据为空白)，以上信息都称为新增数据。二、数据仓库中的新增数据达到一定数量标准(例如5000或10000条)时，系统启动对深度卷积网络的增量训练，即在之前的网络参数的基础上，利用新增数据和训练程序对深度卷积网络的参数进行调整；满足终止规则后，增量训练结束，在启动下一次增量训练之前，网络均按照当前的参数运行。需要说明的是，网络的新增训练需要针对不同的子任务调整训练策略，对不同子任务的新增训练可以看作是对深度卷积网络的微调，并不需要对所有的深度卷积网络参数进行调整，但需要对子任务分支子网络的所有参数进行调整。同时也需要对基础网络的最后若干层进行调整。

注册用户，系统均允许其依据文本输入或图像、视频输入的方式对系统中的数据进行检索，即查找和比对。对注册用户，系统允许其通过如下两种方式对检索结果进行下载：(一)、通过积分换取下载权限。积分根据用户传入的次数、内容的多少、是否为系统急需补充的内容等进行累计。(二)、用户积分不够时，可通过付费的方式换取下载权限。对注册用户，允许其查找物品的生产商与销售方等信息，并提供相应的网络销售网址、电话等信息，满足其潜在的购买需求。需要说明的是，由于接受用户对系统分析结果的更正信息，系统的数据仓库中可能出现如下情况：①.同一类别或事件名字不一致的情况。例如，桌球、撞球、斯洛克都是指台球。②.新增类别或者子类别的情况。如：假如初始系统中有“水果”这个类别，后面通过用户的输入和更正信息，增加了“苹果”、“梨”等具体水果等标签，则系统需要明确这些具体的水果名属于“水果”这一类别的子类别。再如：“游泳”和“打乒乓球”都是“体育运动”的子类别。

鉴于上述情况，为了避免系统的存储和检索出现问题，本发明还公开了以物体或事件类别分析为核心的知识融合方法。方法首先构建一个常用物体或事件命名与类别的知识库，库中实现同一物体与事件的指代一致性，并给出同一物体或事件的所有命名集合(不同的学名、俗名、别名等)。此外，在接受的用户输入的类别名没有包括在知识库中时，通过互联网查找相关内容，并通过文字分析判别该类别名为新增类别或现有类别的新增子类别，然后加进知识库中，确保分类的正确与各类别名的准确。

同时对于上述情况，需要对深度卷积网络进行进一步的调整，对于①通多知识融合方法对类别的ID进行统一。对于②则需要对网络的结构进行微调。例如：当有新增类别时，分类子结构的输出数量会增加，参数数量会变化。基于这种情况，系统首先对不同子任务对新增类别进行存储积累；当新增类别到达一定数量后，需要对网络结构进行调整并做新增训练。具体地，新增类别较少时不需要对网络整体结构进行调整，而只需要对不同子任务的子结构进行适当的调整。当新增类别到达一定数量后，再进行新增训练，此时不仅需要新增的数据，还要在原来数据中选取与新增数据等量的数据对网络进行训练，以保证深度网络系统的平衡性。

参照图15，在本发明实施例中，本发明还提供一种计算机设备，上述计算机设备12以通用计算设备的形式表现，计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线18结构中的一种或多种，包括存储器总线18或者存储器控制器，外围总线18，图形加速端口，处理器或者使用多种总线18结构中的任意总线18结构的局域总线18。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线18，微通道体系结构(MAC)总线18，增强型ISA总线18、音视频电子标准协会(VESA)局域总线18以及外围组件互连(PCI)总线18。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图15中未示出，可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD～ROM，DVD～ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块42，这些程序模块42被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器中，这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)界面22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN))，广域网(WAN)和/或公共网络(例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白，尽管图15中未示出，可以结合计算机设备12使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的视觉信息判识方法。

也即，上述处理单元16执行上述程序时实现：接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；根据判识结果对视觉信息进行描述信息标注。

在本发明实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请所有实施例提供的视觉信息判识方法：

也即，给程序被处理器执行时实现：接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；根据判识结果对视觉信息进行描述信息标注。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机克顿信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPOM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD～ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，改计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视觉信息判识方法，其特征在于，包括：

接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；

根据判识结果对视觉信息进行描述信息标注。

2.根据权利要求1所述的视觉信息判识方法，其特征在于，在接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识的步骤之前，还包括建立判识模型，其中，建立步骤包括：

获取历史视觉信息集，并通过初始判识模型对所述历史视觉信息集内的历史视觉信息进行描述信息标注；

获取用户对所述历史视觉信息对应的描述信息的评价，其中，所述评价包括描述信息的正确性以及描述信息的评语；

判断所述初始判识模型生成的描述信息的正确率是否超过指定值；

若否且当用户评价数量大于第一指定阈值时，则根据描述信息的正确性以及描述信息的评语对所述初始判识模型进行判识训练；若是，则输出所述初始判识模型设定为判识模型。

3.根据权利要求1所述的视觉信息判识方法，其特征在于，根据描述信息的正确性以及描述信息的评语对所述初始判识模型进行判识训练的步骤，包括：

通过预设词库获取描述信息评语中的特征语段，并对所述特征语段进行内容翻译；

根据所述描述信息的正确率以及所述特征语段的内容翻译对所述初始判识模型进行判识训练。

4.根据权利要求1所述的视觉信息判识方法，其特征在于，在根据判识结果对视觉信息进行描述信息标注的步骤之后，还包括：

接收用户对所述描述信息的评价，其中，所述评价包括描述信息的正确性以及描述信息的评语；

判断用户评价数量是否大于第二指定阈值；

若是，则计算每个所述描述信息的正确率；

根据所述描述信息的正确率以及所述特征语段的内容翻译对所述判识模型进行判识训练。

5.根据权利要求1所述的视觉信息判识方法，其特征在于，所述初级视觉判识的步骤，包括：视觉信息分类、目标检测和目标分割，

其中，所述视觉信息分类包括步骤：

通过深度卷积网络对视觉信息进行特征提取，获得所述视觉信息的低维度特征向量；

通过全连接网络对所述低维度特征向量进行特征优化，获得优化特征向量；

通过Softmax分类器对所述优化特征向量进行最终的分类；

其中，所述目标检测包括步骤：

通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得所述视觉信息的特征图片；

通过RPN子网络在所述特征图片上生成若干个候选窗口，并筛选出含有目标物体的所述特征候选窗口，其中，所述候选窗口的尺寸由若干个面积选项和若干个指定比例选项相互组合得出；

将所述特征目标窗口在所述特征图片上进行映射，并对映射后的所述特征图片进行ROI池化，对池化后的所述特征图片中的所述特征候选窗口中的目标物体进行分类；

其中，所述目标分割包括步骤：

通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得所述视觉信息的所述特征图片；

对所述特征图片的进行特征元素分类，并将所述特征图片根据所述元素分类结果进行分割，其中，所述元素分类包括目标元素和背景元素。

6.根据权利要求1所述的视觉信息判识方法，其特征在于，所述中级视觉判识的步骤，包括：视觉信息细分类和行为检测，

其中，所述视觉信息细分类包括步骤：

通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得所述视觉信息的特征图片和所述视觉信息的下采样的特征向量；

使用RNN神经网络模型获取所述特征图片中各像素间的关联特征向量；

将关联特征向量和特征向量进行融合，并通过softmax分类器进行分类；

其中，所述行为检测包括步骤：

通过深度卷积网络对视觉信息进行特征提取及放缩处理，获得所述视觉信息的特征向量和特征图片；

将所述特征图片和特征向量进行融合得到融合特征图片，并使用RNN神经网络模型获取融合特征图片中各图像元素间的关系向量，并根据所述关系向量分类行为类型。

7.根据权利要求6所述的视觉信息判识方法，其特征在于，所述中级视觉判识的步骤，还包括：前景分割，

其中，所述前景分割包括步骤：

获取所述视觉信息中的第一帧图像作为初始背景模型；

使用所述第N+1帧图像对第N背景模型进行更新，形成第N+1背景模型；

对比各相邻背景模型的差别特征，得出各背景模型之间的前景。

8.一种视觉信息判识装置，其特征在于，包括：

判识模块，用于接收视觉信息，并分别对视觉信息进行初级视觉判识、中级视觉判识和高级视觉判识；

标注模块，用于根据判识结果对视觉信息进行描述信息标注。

9.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1～7中任意一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7中任意一项所述的方法。