CN116188460B

CN116188460B - 基于运动矢量的图像识别方法、装置和计算机设备

Info

Publication number: CN116188460B
Application number: CN202310442766.4A
Authority: CN
Inventors: 冯健; 邵学军; 邵宏亭
Original assignee: Qingdao Medcare Digital Engineering Co ltd
Current assignee: Qingdao Medcare Digital Engineering Co ltd
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-08-25
Anticipated expiration: 2043-04-24
Also published as: CN116188460A

Abstract

本发明涉及图像处理技术领域，提供了一种基于运动矢量的图像识别方法、装置和计算机设备，所述方法包括：基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果；根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；并基于预设的视频片段有效性识别网络模型对视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，得到视频片段的有效性识别结果。本发明对各个视频片段的有效性进行识别，对单个图像帧的部位识别结果进行验证，进一步提高了图像识别的准确率。

Description

基于运动矢量的图像识别方法、装置和计算机设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种基于运动矢量的图像识别方法、装置和计算机设备。

背景技术

胃镜检查是指经口导入内镜依次观察咽喉、食管、胃、十二指肠病变的一种检查方法。随着深度学习人工智能技术的发展，医疗和人工智能相结合的诊疗方式逐步完善，通过人工智能对胃镜检查过程进行识别和统计，以此辅助大夫完成更全面的检查，既提升了内镜医师手术操作质量，又增强了病变识别率，大大提升了医师的诊断水平，同时也有利于自动收集有效图像信息用于分析和复诊。但单一的人工智能模型存在一定的误识别率，在复杂内径环境下其参考价值大打折扣。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题的一种基于运动矢量的图像识别方法、装置和计算机设备。

本发明的一个方面，提供了一种基于运动矢量的图像识别方法，所述方法包括：

基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果，所述视频片段为内镜检查过程的视频片段；

根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；

基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，得到所述视频片段的有效性识别结果。

进一步地，所述根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征包括：

提取各个目标图像帧的目标特征点；

将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对；

在同一坐标系下用有向线段连接每一目标特征点对中的两个目标特征点得到对应的目标特征点的运动矢量；

统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征。

进一步地，所述提取各个目标图像帧的目标特征点包括：

在目标图像帧中选取特征丰富的像素点作为所述目标图像帧的检测子；

为各个检测子生成相对应的描述子，所述描述子为描述对应检测子的特征的数学表示；

基于所述目标图像帧各个检测子的描述子对各个检测子进行评分，按照评分由高到低的顺序依次选取出预设的第一数量的检测子作为目标特征点。

进一步地，所述在目标图像帧中选取特征丰富的像素点作为所述目标图像帧的检测子包括：

提取所述目标图像帧的有效区域图像；

对所述有效区域图像进行缩放处理；

在所述缩放处理后的有效区域图像中选取特征丰富的像素点作为所述目标图像帧的检测子。

进一步地，所述将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对包括：

选取目标图像帧和相邻的前一图像帧中特征相同的目标特征点进行特征点匹配形成特征点对；

对各个特征点对的匹配程度进行评分，按照评分由高到低的顺序依次选取出预设的第二数量的特征点对作为目标特征点对。

进一步地，在将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对之后，所述方法还包括：

获取各个目标特征点对之间的像素距离；

将像素距离超过预设的距离阈值的目标特征点对剔除或进行无效标记。

进一步地，所述统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征包括：

在目标图像帧中各个所述目标特征点的运动矢量中随机抽取包括一个目标特征点的运动矢量的抽样样本；

根据所述抽样样本与运动矢量坐标系中X轴的夹角，确定所述抽样样本所属的横向运动类别，所述横向运动类别为所述抽样样本属于不同横向运动方向区间的类别；

计算属于各个横向运动类别的抽样样本的数量与抽样样本总数的比值，得到各个横向运动类别的样本占比，将所述各个横向运动类别的样本占比作为所述目标图像帧的检查路径运动矢量特征的第一子特征。

在目标图像帧中各个所述目标特征点的运动矢量中随机抽取包括两个目标特征点的运动矢量的抽样样本对；

计算各组抽样样本对的矢量交点；

根据各组抽样样本对的矢量交点与抽样样本对对应运动矢量的位置关系确定当前抽样样本对所属的纵向运动类别，所述纵向运动类别包括发散运动和收缩运动；

计算属于各个纵向运动类别的抽样样本对的数量与抽样样本对总数的比值，得到各个纵向运动类别的样本对占比，将所述各个纵向运动类别的抽样样本对占比作为所述目标图像帧的检查路径运动矢量特征的第二子特征。

进一步地，所述基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果，包括：

将内镜检查过程中获取的视频图像划分为多个待识别的视频片段，对所述待识别的视频片段进行采样，得到视频片段中的目标图像帧；或，对内镜检查过程中获取的视频图像进行采样，当采集到的图像帧的数量达到预设的第三数量时，将采集的第三数量的图像帧作为当前采样的待识别的视频片段的目标图像帧；

基于所述部位识别网络模型对各个目标图像帧进行识别，得到各个目标图像帧被识别为不同检查部位的概率值。

进一步地，在得到所述视频片段的有效性识别结果之后，所述方法还包括：

若所述视频片段的有效性识别结果为有效视频片段，则保留所述有效视频片段；若所述视频片段的有效性识别结果为无效视频片段，则放弃所述无效视频片段；

对内径检查过程中获得的视频图像中的所有有效视频片段进行统计，获得所述视频图像的部位识别结果。

进一步地，所述方法还包括：

预先构建对视频片段识别结果有效性进行判断的循环神经网络模型；

从预设的视频图像样本中截取视频片段样本作为训练样本；

基于预设的部位识别网络模型对视频片段样本中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果；

根据各个目标图像帧的检查部位识别结果对所述训练样本进行标记，当所述视频片段样本中各个目标图像帧的检查部位识别结果全部正确时标记为正样本，所述视频片段样本为有效视频片段；当所述视频片段样本中任一目标图像帧的检查部位识别结果存在错误时标记为负样本，所述视频片段样本为无效视频片段；

将视频片段样本中的各个目标图像帧的检查部位识别结果和检查路径运动矢量特征输入所述循环神经网络模型的输入层，经过训练得到视频片段有效性识别网络模型。

本发明的另一个方面，提供了一种基于运动矢量的图像识别装置，所述装置包括：

第一图像识别模块，用于基于预设的部位识别网络模型对从待识别的视频片段中获取的各个图像帧进行识别，得到各个图像帧的检查部位识别结果；

统计模块，用于根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；

第二图像识别模块，用于基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，得到所述视频片段的有效性识别结果。

本发明的另一个方面，提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时，实现如上任一项所述的基于运动矢量的图像识别方法的步骤。

本申请实施例提供的一种基于运动矢量的图像识别方法、装置和计算机设备，所述方法包括：基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果，所述视频片段为内镜检查过程的视频片段；根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；并基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，得到所述视频片段的有效性识别结果。本发明基于图像帧对应的检查路径运动矢量特征对各个视频片段的有效性进行识别，对单个图像帧的部位识别结果进行验证，进一步提高了图像识别的准确率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。在附图中：

图1为本发明实施例的一种基于运动矢量的图像识别方法的流程图；

图2为本发明实施例的目标特征点的运动矢量的示意图；

图3为本发明实施例的一种基于运动矢量的图像识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

实施例一

本发明实施例提供了一种基于运动矢量的图像识别方法，如图1所示，该基于运动矢量的图像识别方法，包括以下步骤：

S1、基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果，所述视频片段为内镜检查过程的视频片段；

S2、根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；

S3、基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，得到所述视频片段的有效性识别结果。

在本发明实施例中，待识别对象为人体胃腔镜检查时，如咽喉、食管、胃、十二指肠等不同部位组成，且随着图像采集装置前进路径不同，其能到达的部位也不相同。可以理解的，本发明实施例的待识别对象不限于人体胃肠镜，也可以包括其他有不同部位串联组成的检测或监测对象。

在步骤S1中，基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果具体包括：将内镜检查过程中获取的视频图像划分为多个待识别的视频片段，对所述待识别的视频片段进行采样，得到视频片段中的目标图像帧；或，对内镜检查过程中获取的视频图像进行采样，当采集到的图像帧的数量达到预设的第三数量时，将采集的第三数量的图像帧作为当前采样的待识别的视频片段的目标图像帧；基于所述部位识别网络模型对各个目标图像帧进行识别，得到各个目标图像帧被识别为不同检查部位的概率值。

通常视频是由图像帧组成，一般情况下一定时间段内采集到的视频所包含的图像帧也是一定的，如基于视频采集卡以每秒10帧的间隔均匀采样。因此本发明实施例以一定时长的视频片段，或包含有一定数量的图像帧作为一个待识别的视频片段。对于视频片段的时长或一个视频片段内图像帧的数量，根据具体情况设置，本发明不做具体限定。

在本发明实施例中，在基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别之前，需要先搭建用于图像部位的深度学习模型，该深度学习模块采用经典分类模型即可，将采集到的大量标注有部位结果的图像帧样本输入用于图像部位的深度学习模型的输入端，经过训练得到部位识别网络模型。其中图像帧的输入为3通道彩色图，输出为经过softmax归一化后所属各部位的概率值。即本发明实施例的图像帧识别结果为识别为待识别对象的各个部位的概率值。现有技术中应用部位识别网络模型对图像帧的部位进行识别，而本发明实施例中在获得图像帧的部位识别结果之后，需要根据一个视频片段中各个目标图像帧对应的检查路径运动矢量特征进一步判定视频片段的有效性，因此本发明实施例对采集到内镜视频通过进一步验证提高了图像识别的准确率。

此外，需要说明的是，在本发明实施例中，在得到所述视频片段的有效性识别结果之后，所述方法还包括：若所述视频片段的有效性识别结果为有效视频片段，则保留所述有效视频片段；若所述视频片段的有效性识别结果为无效视频片段，则放弃所述无效视频片段；对内径检查过程中获得的视频图像中的所有有效视频片段进行统计，获得所述视频图像的部位识别结果。本发明通过对视频片段的有效性进行识别，提高了图像识别的识别效率和准确率，进一步提高的基于深度学习图像识别网络的智能化程度。

在步骤S2中，根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征具体包括附图中未示出的如下步骤：

S21、提取各个目标图像帧的目标特征点；

在本发明实施例中，提取各个目标图像帧的目标特征点包括：在目标图像帧中选取特征丰富的像素点作为所述目标图像帧的检测子；为各个检测子生成相对应的描述子，所述描述子为描述对应检测子的特征的数学表示；基于所述目标图像帧各个检测子的描述子对各个检测子进行评分，按照评分由高到低的顺序依次选取出预设的第一数量的检测子作为目标特征点。其中，所述在目标图像帧中选取特征丰富的像素点作为所述目标图像帧的检测子包括：提取所述目标图像帧的有效区域图像；对所述有效区域图像进行缩放处理；在所述缩放处理后的有效区域图像中选取特征丰富的像素点作为所述目标图像帧的检测子。

在本发明实施例中，通过轮廓提取和边界矩形计算获得图像帧去除黑边后有效视觉区域的坐标位置；根据所述有效视觉区域的坐标位置对所述图像帧进行裁剪，获得所述图像帧的有效区域。此外，对有效区域进行缩放处理具体可以为将有效区域缩放至500*500的图像。

进一步地，特征丰富的像素点具体为最容易识别的像素点（角点），比如纹理丰富的物体边缘点等。描述子具体为用一些数学上的特征对其进行描述，如梯度直方图，局部随机二值特征等。在本发明的一个具体实施例中，选取根据评分高低选取1000个特征点作为目标特征点，即第一数量的取值为1000。

S22、将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对；

在本发明实施例中，将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对包括：选取目标图像帧和相邻的前一图像帧中特征相同的目标特征点进行特征点匹配形成特征点对；对各个特征点对的匹配程度进行评分，按照评分由高到低的顺序依次选取出预设的第二数量的特征点对作为目标特征点对。

在本发明的一个具体实施例中，在获取到1000个目标特征点之后，根据各个目标特征点的描述子确定目标图像帧和相邻的前一图像帧具有相同或相近描述子的特征点进行特征点匹配，获得特征点对。为了避免特征点匹配存在误差的问题，本发明实施例对各个特征点对进行评分，并选取500个特征点对作为目标特征点对，即第二数量为500。

进一步地，由于在实际应用中，相邻两个图像帧之间的运动幅度不会太大，因此在获得特征点对之后通过坐标计算每一组匹配点之间的像素距离，过滤掉一部分超过一定距离的特征点对，这样可以有效的避免一些本身存在误差的特征向量引入到后续的实施步骤中。因此，本发明实施例在将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对之后，所述方法还包括：获取各个目标特征点对之间的像素距离；将像素距离超过预设的距离阈值的目标特征点对剔除或进行无效标记。其中，距离阈值为根据内镜的运动速度和待识别对象的特征，或者根据当前图像帧的所有特征点对的像素距离计算得来的，对此本发明不做限定。

S23、在同一坐标系下用有向线段连接每一目标特征点对中的两个目标特征点得到对应的目标特征点的运动矢量；

图2示意性的示出了本发明实施例中目标特征点的运动矢量的示意图，图2展示的是在胃肠镜检查时肠道内部的景象。其中，特征点对通过有向箭头连接之后，箭头的方向即为运动矢量的方向，箭头的大小即为运动矢量的大小。需要说明的是，本发明实施例中目标特征点的运动矢量和目标特征点的数量并不相同，由于在特征点匹配过程中，需要剔除部分目标特征点；并在匹配之后剔除掉像素距离超过预设距离的目标特征点对。上述操作均能够进一步保证图像识别的准确率。

S24、统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征。

在本发明实施例中，统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征具体包括目标图像帧的检查路径运动矢量特征的第一子特征和目标图像帧的检查路径运动矢量特征的第二子特征。其中，第一子特征具体表示为目标图像帧中各个目标特征点的运动矢量的横向分布特征，第二子特征表示为目标图像帧中各个目标特征点的运动矢量的纵向分布特征。

具体的，目标图像帧的检查路径运动矢量特征的第一子特征具体统计方法包括附图中未示出的如下步骤：

S2411、在目标图像帧中各个所述目标特征点的运动矢量中随机抽取包括一个目标特征点的运动矢量的抽样样本；

S2412、根据所述抽样样本与运动矢量坐标系中X轴的夹角，确定所述抽样样本所属的横向运动类别，所述横向运动类别为所述抽样样本属于不同横向运动方向区间的类别；

在本发明的一个具体实施例中，横向运动方向区间可以表示为上下左右四个方向，也可以包括左上，左下等细分方向，本发明一个具体实施例以包括上下左右四个方向进行具体说明。其中各条运动矢量相对于运动矢量坐标系中X轴的夹角确定所述运动矢量的横向运动方向具体为右：0°≤夹角＜45°，315°≤夹角＜360°；上：45°≤夹角＜135°；左：135°≤夹角＜225°；下：225°≤夹角＜315°。

S2413、计算属于各个横向运动类别的抽样样本的数量与抽样样本总数的比值，得到各个横向运动类别的样本占比，将所述各个横向运动类别的样本占比作为所述目标图像帧的检查路径运动矢量特征的第一子特征。

在本发明的一个具体实施例中，在横向运动方向区间划分之后，统计属于上、下、左、右四个横向运动类别的样本数量m1，m2，m3，m4。其中总的抽样样本数表示为M。各个横向运动类别的抽样样本的数量与抽样样本总数的比值，得到各个横向运动类别的样本占比为m1/M，m2/M，m3/M，m4/M。则目标图像帧的检查路径运动矢量特征的第一子特征为属于横向运动类别为上的占比为m1/M，......属于横向运动类别为右的占比为m4/M。

进一步地，目标图像帧的检查路径运动矢量特征的第二子特征具体统计方法包括附图中未示出的如下步骤：

S2421、在目标图像帧中各个所述目标特征点的运动矢量中随机抽取包括两个目标特征点的运动矢量的抽样样本对；

S2422、计算各组抽样样本对的矢量交点；

在本发明实施例中，计算各组抽样样本对的矢量交点具体为对抽样样本对中的两个目标特征点的运动矢量进行矢量方向和反矢量方向的延长，以获得矢量交点。

S2423、根据各组抽样样本对的矢量交点与抽样样本对对应运动矢量的位置关系确定当前抽样样本对所属的纵向运动类别，所述纵向运动类别包括发散运动和收缩运动；

在本发明实施例中，根据各组抽样样本对的矢量交点与抽样样本对对应运动矢量的位置关系确定当前抽样样本对所属的纵向运动类别具体为，当纵向运动类别为发散运动时，交点在运动矢量方向的反方向，此时同组两条运动矢量的前端距交点坐标长度减末端距交点坐标长度等于矢量长度（大小）。当纵向运动类别为收缩运动时，交点在运动矢量方向的正方向，此时同组两条运动矢量的前端距交点坐标长度减末端距交点坐标长度等于负的矢量长度（大小）。

S2424、计算属于各个纵向运动类别的抽样样本对的数量与抽样样本对总数的比值，得到各个纵向运动类别的样本对占比，将所述各个纵向运动类别的抽样样本对占比作为所述目标图像帧的检查路径运动矢量特征的第二子特征。

在本发明实施例中，发散运动类别的占比表示为n1/N，收缩类别的占比表示为n2/N，其中，N为抽样样本对的总数。其中需要说明的是，由于运动矢量组还可能存在其他情况N不一定为n1和n2。则目标图像帧的检查路径运动矢量特征的第二子特征为属于纵向运动类别为发散运动类别的占比n1/N，收缩类别的占比n2/N。

综上所述，视频片段有效性识别网络模型的输入层包括的视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征具体如表1所示：

表1：循环神经网络模型的样本输入

本发明提出了独有的检查路径运动矢量特征的统计方法，能够根据内镜检查中的图像采集装置移动的过程中，分析镜头运动对采集到的图像带来的变化特征，并根据这些变化特征验证对所检查的部位进行进一步验证，因此能够提高图像识别的准确性。

进一步地，本发明实施例的基于运动矢量的图像识别方法还包括视频片段有效性识别网络模型的训练方法，具体的训练方法包括附图中未示出的如下步骤：

S01、预先构建对视频片段识别结果有效性进行判断的循环神经网络模型；

S02、从预设的视频图像样本中截取视频片段样本作为训练样本；

S03、基于预设的部位识别网络模型对视频片段样本中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果；

S04、根据各个目标图像帧的检查部位识别结果对所述训练样本进行标记，当所述视频片段样本中各个目标图像帧的检查部位识别结果全部正确时标记为正样本，所述视频片段样本为有效视频片段；当所述视频片段样本中任一目标图像帧的检查部位识别结果存在错误时标记为负样本，所述视频片段样本为无效视频片段；

S05、根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；

S06、将视频片段样本中的各个目标图像帧的检查部位识别结果和检查路径运动矢量特征输入所述循环神经网络模型的输入层，经过训练得到视频片段有效性识别网络模型。

需要说明的是，本发明实施例的循环神经网络模型为RNN深度学习模型采用输入输出多对一的方式进行训练。其循环输入为某一视频片段步骤中每一帧图像的统计数据（第一帧除外）、该统计数据包括每一帧图像的部位识别结果和检查路径运动矢量特征，其输出为该视频片段识别的有效与否。在本发明实施例中，当整个视频片段所有图像帧的部位识别均正确，则当前视频片段有效可以用于后续的特征分析。当存在识别错误的图像帧时，当前视频片段无效，剔除掉当前视频片段之后再进行后续的特征分析。这样既能提高识别效率，也能提高识别的准确率。视频片段有效性识别网络模型在训练过程中输入的各个目标图像帧的检查部位识别结果和检查路径运动矢量特征在前述实施例中已经详细说明，对此本发明不再赘述。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例二

图3示意性的示出了本发明实施例提供一种基于运动矢量的图像识别装置的结构示意图，参照图3，本发明实施例的一种基于运动矢量的图像识别装置具体包括第一图像识别模块301、统计模块302和第二图像识别模块303，其中：

第一图像识别模块301，用于基于预设的部位识别网络模型对从待识别的视频片段中获取的各个图像帧进行识别，得到各个图像帧的检查部位识别结果；

统计模块302，用于根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；

第二图像识别模块303，用于基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，得到所述视频片段的有效性识别结果。

进一步地，所述第一图像识别模块301包括：

第一采集单元，用于将内镜检查过程中获取的视频图像划分为多个待识别的视频片段，对所述待识别的视频片段进行采样，得到视频片段中的目标图像帧；或，对内镜检查过程中获取的视频图像进行采样，当采集到的图像帧的数量达到预设的第三数量时，将采集的第三数量的图像帧作为当前采样的待识别的视频片段的目标图像帧；

第一图像识别单元，用于基于所述部位识别网络模型对各个目标图像帧进行识别，得到各个目标图像帧被识别为不同检查部位的概率值。

进一步地，本发明实施例的基于运动矢量的图像识别装置还包括：

视频片段筛选模块，用于若所述视频片段的有效性识别结果为有效视频片段，则保留所述有效视频片段；若所述视频片段的有效性识别结果为无效视频片段，则放弃所述无效视频片段；

部位识别结果确定模块，用于对内径检查过程中获得的视频图像中的所有有效视频片段进行统计，获得所述视频图像的部位识别结果。

进一步地，所述统计模块302包括：

特征点提取单元：用于提取各个目标图像帧的目标特征点；

特征点匹配单元，用于将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对；

运动矢量生成单元，用于在同一坐标系下用有向线段连接每一目标特征点对中的两个目标特征点得到对应的目标特征点的运动矢量；

统计单元，用于统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征。

进一步地，所述特征点提取单元包括：

检测子提取子单元，用于在目标图像帧中选取特征丰富的像素点作为所述目标图像帧的检测子；

描述子计算子单元，用于为各个检测子生成相对应的描述子，所述描述子为描述对应检测子的特征的数学表示；

第一筛选子单元，用于基于所述目标图像帧各个检测子的描述子对各个检测子进行评分，按照评分由高到低的顺序依次选取出预设的第二数量的检测子作为目标特征点。

所述检测子提取子单元，具体用于提取所述目标图像帧的有效区域图像；对所述有效区域图像进行缩放处理；在所述缩放处理后的有效区域图像中选取特征丰富的像素点作为所述目标图像帧的检测子。

进一步地，所述特征点匹配单元包括：

特征匹配子单元，用于选取目标图像帧和相邻的前一图像帧中特征相同的目标特征点进行特征点匹配形成特征点对；

第二筛选子单元，用于对各个特征点对的匹配程度进行评分，按照评分由高到低的顺序依次选取出预设的第三数量的特征点对作为目标特征点对。

进一步地，本发明实施例的基于运动矢量的图像识别装置还包括无效特征点对剔除单元，用于获取各个目标特征点对之间的像素距离；将像素距离超过预设的距离阈值的目标特征点对剔除或进行无效标记。

进一步地，本发明实施例的统计单元包括：

第一抽样子单元，用于在目标图像帧中各个所述目标特征点的运动矢量中随机抽取包括一个目标特征点的运动矢量的抽样样本；

横向特征确定子单元，用于根据所述抽样样本与运动矢量坐标系中X轴的夹角，确定所述抽样样本所属的横向运动类别，所述横向运动类别为所述抽样样本属于不同横向运动方向区间的类别；

第一子特征统计子单元，用于计算属于各个横向运动类别的抽样样本的数量与抽样样本总数的比值，得到各个横向运动类别的样本占比，将所述各个横向运动类别的样本占比作为所述目标图像帧的检查路径运动矢量特征的第一子特征。

进一步地，本发明实施例的统计单元还包括：

第二抽样子单元，用于在目标图像帧中各个所述目标特征点的运动矢量中随机抽取包括两个目标特征点的运动矢量的抽样样本对；

交点计算子单元，用于计算各组抽样样本对的矢量交点；

纵向特征确定子单元，用于根据各组抽样样本对的矢量交点与抽样样本对对应运动矢量的位置关系确定当前抽样样本对所属的纵向运动类别，所述纵向运动类别包括发散运动和收缩运动；

第二子特征统计子单元，用于计算属于各个纵向运动类别的抽样样本对的数量与抽样样本对总数的比值，得到各个纵向运动类别的样本对占比，将所述各个纵向运动类别的抽样样本对占比作为所述目标图像帧的检查路径运动矢量特征的第二子特征。

本申请实施例提供的一种基于运动矢量的图像识别方法、装置，所述方法包括：基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果，所述视频片段为内镜检查过程的视频片段；根据各个目标图像帧相对于相邻的前一图像帧的图像变化信息确定内镜检查过程中各个目标图像帧对应的检查路径运动矢量特征；并基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，得到所述视频片段的有效性识别结果。本发明基于图像帧对应的检查路径运动矢量特征对各个视频片段的有效性进行识别，对单个图像帧的部位识别结果进行验证，进一步提高了图像识别的准确率。

实施例三

本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个基于运动矢量的图像识别方法实施例中的步骤，例如图1所示的步骤S1-S3。或者，所述处理器执行所述计算机程序时实现上述各基于运动矢量的图像识别装置或网关系统实施例中各模块/单元的功能，例如图3所示的第一图像识别模块301、统计模块302和第二图像识别模块303。

Claims

1.一种基于运动矢量的图像识别方法，其特征在于，所述方法包括：

基于所述目标图像帧各个检测子的描述子对各个检测子进行评分，按照评分由高到低的顺序依次选取出预设的第一数量的检测子作为目标特征点；

统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征；

基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，以判定所述视频片段的有效性，得到所述视频片段的有效性识别结果。

2.根据权利要求1所述的方法，其特征在于，所述在目标图像帧中选取特征丰富的像素点作为所述目标图像帧的检测子包括：

提取所述目标图像帧的有效区域图像；

对所述有效区域图像进行缩放处理；

3.根据权利要求1所述的方法，其特征在于，所述将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，在将目标图像帧的目标特征点与相邻的前一图像帧的目标特征点进行匹配形成目标特征点对之后，所述方法还包括：

获取各个目标特征点对之间的像素距离；

5.根据权利要求1所述的方法，其特征在于，所述统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征包括：

6.根据权利要求1或5所述的方法，其特征在于，所述统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征包括：

计算各组抽样样本对的矢量交点；

7.根据权利要求1所述的方法，其特征在于，所述基于预设的部位识别网络模型对从待识别的视频片段中获取的各个目标图像帧进行识别，得到各个目标图像帧的检查部位识别结果，包括：

8.根据权利要求7所述的方法，其特征在于，在得到所述视频片段的有效性识别结果之后，所述方法还包括：

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从预设的视频图像样本中截取视频片段样本作为训练样本；

10.一种基于运动矢量的图像识别装置，其特征在于，所述装置包括：

第一筛选子单元，用于基于所述目标图像帧各个检测子的描述子对各个检测子进行评分，按照评分由高到低的顺序依次选取出预设的第二数量的检测子作为目标特征点；

统计单元，用于统计所述目标图像帧中各个目标特征点的运动矢量的运动分布特征，根据所述运动分布特征生成所述目标图像帧的检查路径运动矢量特征；

第二图像识别模块，用于基于预设的视频片段有效性识别网络模型对所述视频片段中各个目标图像帧的检查部位识别结果和检查路径运动矢量特征进行学习识别，以判定所述视频片段的有效性，得到所述视频片段的有效性识别结果。

11.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；

所述计算机程序被所述处理器执行时，实现如权利要求1-9中任一项所述的基于运动矢量的图像识别方法。