CN116030272A

CN116030272A - 一种基于信息抽取的目标检测方法、系统和装置

Info

Publication number: CN116030272A
Application number: CN202310323818.6A
Authority: CN
Inventors: 叶汇贤; 王军; 徐晓刚; 何鹏飞; 徐凯
Original assignee: Zhejiang Gongshang University; Zhejiang Lab
Current assignee: Zhejiang Gongshang University; Zhejiang Lab
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-04-28
Anticipated expiration: 2043-03-30
Also published as: CN116030272B

Abstract

本发明属于人工智能算法技术领域，涉及一种基于信息抽取的目标检测方法、系统和装置，该方法包括：步骤一，对原始输入图片进行序列化处理，得到图片序列，即将图片按行或列转换成两组序列：行序列和列序列；步骤二，对行序列和列序列进行标签标注，得到对应序列的真实标签；步骤三，利用所述真实标签，输入所述的图片序列，训练一个基于循环神经网络的信息抽取模型，对行序列和列序列分别进行目标信息的抽取，得到行序列和列序列的预测标签；步骤四，根据行序列和列序列的预测标签，确定目标在图片中的位置。本发明利用序列信息抽取的方法来进行目标检测，能够提取原始图片的全局信息进行目标检测，同时不需要生成侯选框，提高算法的精度和效率。

Description

一种基于信息抽取的目标检测方法、系统和装置

技术领域

本发明属于人工智能算法技术领域，涉及一种基于信息抽取的目标检测方法、系统和装置。

背景技术

目标检测是计算机视觉领域热点研究方向之一。目标检测算法通常需要用卷积神经网络提取特征、生成侯选框、侯选框回归等步骤来确认目标的位置。卷积神经网络局限于局部特征提取，很难在浅层网路获取图像的全局信息，不利于目标识别。侯选框生成阶段通常会产生成千上万个侯选框，并分别进行回归确认，大大增加了计算量，降低了算法效率。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于信息抽取的目标检测方法、系统和装置，其具体技术方案如下：

一种基于信息抽取的目标检测方法，包括以下步骤：

步骤一，对原始的输入图片进行序列化处理，得到图片序列，即将图片按行或列转换成两组序列：行序列和列序列；

步骤二，对行序列和列序列进行标签标注，得到对应序列的真实标签；

步骤三，利用所述真实标签，输入所述的图片序列，训练一个基于循环神经网络的信息抽取模型，对行序列和列序列分别进行目标信息的抽取，得到行序列和列序列的预测标签；

步骤四，根据行序列和列序列的预测标签，确定目标在图片中的位置。

进一步的，所述步骤一，具体为：设原始的输入图片大小为W×H，行数为H，列数为W；对图片按行进行序列化处理：将图片的每一列看作序列的一个时刻输入特征，即每一列中所有的行属于同一时刻中的特征，则序列长度为W，特征维度为H；对图片按列进行序列化处理：将图片的每一行看作序列的一个时刻输入特征，即每一行中所有的行属于同一时刻中的特征，那么序列长度为H，特征维度为W。

进一步的，所述步骤二，具体为：对图片中的目标以方框标注，该方框采用xy坐标轴坐标的形式表示，即对目标的标注框的左上角和右下角顶点，表示为（x1,y1,x2,y2），其中x为水平方向坐标，y为垂直方向坐标，则对应目标框的行序列的真实标签为：x1~x2处的取值设置为一个相同的值，用来表示目标所属的类别，记作C，剩余位置设置为其它取值，记作O；对应目标框的列序列的真实标签为：y1~y2处的取值设置为一个相同的值，这个值用来表示目标所属的类别，记作C，剩余位置设置为其它取值，记作O。

进一步的，所述步骤三，具体为：利用所述的真实标签，输入所述的图片序列来训练一个基于循环神经网络的信息抽取模型，对所述行序列和列序列分别进行目标信息的抽取，信息抽取模型在进行训练迭代时，通过减小模型输出的行序列和列序列的预测标签与真实标签之间的差异，逐步使预测标签趋近于真实标签；其中，在所述循环神经网络中，每一时刻的输出均与其它任意时刻产生联系，且图片序列被输入循环神经网络，模型同时考虑到了图片序列中的所有时刻，也就是在目标信息抽取过程中充分考虑到图片全部像素的信息，即全局信息。

进一步的，所述步骤四，具体为：据行序列预测标签结果，得到目标在水平方向上的起始位置和终止位置；根据列序列预测标签结果，得到目标在垂直方向上的起始位置和终止位置；最后基于水平方向和垂直方向上坐标的预测，得到目标的最终位置。

一种基于信息抽取的目标检测系统，包括：

图片序列化模块，用于将输入图片做序列化处理，得到图片序列，即将图片按行或列转换成两组序列：行序列和列序列；

标注转换模块，用于对行序列和列序列进行标签标注，得到对应序列的真实标签；

信息抽取模块，用于对行序列和列序列分别进行目标信息抽取，得到行序列和列序列的预测标签结果，即目标在对应序列中的位置；

预测结果模块，用于将行序列和列序列的信息抽取结果进行整合得到目标在图片序列中的位置，从而确定目标在图片中的位置。

一种基于信息抽取的目标检测装置，包括一个或多个处理器，用于实现所述的一种基于信息抽取的目标检测方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的一种基于信息抽取的目标检测方法。

有益效果

本发明利用序列信息抽取的方法来进行目标检测，能够提取原始图片的全局信息进行目标检测，同时不需要生成侯选框，提高算法的精度和效率。

附图说明

图1是本发明的一种基于信息抽取的目标检测方法流程示意图；

图2是本发明的图片序列化流程示意图；

图3是本发明的对序列进行标签标注示意图；

图4是本发明的信息抽取模型的训练过程示意图；

图5是本发明的通过预测标签结果得到目标位置的示意图；

图6是本发明实施例的一种基于信息抽取的目标检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的一种基于信息抽取的目标检测方法，包括以下步骤：

步骤一，对原始的输入图片进行序列化处理，按行或列转换成两组序列：行序列和列序列。

具体的，假设原始的输入图片大小为W×H，行数为H，列数为W。所述输入图片按行转换，即按行进行序列化处理，具体为：将图片的每一列看作序列的一个时刻输入特征，即每一列中所有的行属于同一时刻中的特征，则序列长度为W，特征维度为H。所述输入图片按列转换，即按列进行序列化处理，具体为：将图片的每一行看作序列的一个时刻输入特征，即每一行中所有的行属于同一时刻中的特征，那么序列长度为H，特征维度为W。

如图2所示，假设输入图片的尺寸大小为W×H，图中W为8、H为6。原始的输入图片中每个像素的取值以xij形式表示，x表示坐标轴的x轴，i表示行坐标，i∈[1,2,…,H]；j表示列坐标，j∈[1,2,…,W]。按行进行序列化时，需要将图片的每一列看作成一个特征向量。按行序列化会得到一个长度为W的序列，序列中的每个特征是一个长度为H的特征向量，表示为Wn=[x1n,x2n,…,xHn]。按列进行序列化时，需要将图片的每一行看作成一个特征向量。按列序列化会得到一个长度为H的序列，序列中的每个特征是一个长度为W的特征向量，表示为Wn=[xn1,xn2,…,xnW]。

步骤二，对行序列和列序列进行标签标注，得到对应序列的真实标签。

具体的，把原本针对于图片的标注转换为针对于序列的标注。在深度学习目标检测模型训练过程中，图片的真实标注信息（真实标签）需要提供。目标检测的标注方法通常是以坐标的形式呈现，比如中心点坐标、顶点坐标、目标尺寸等。假设目标标注的是标注框的左上角和右下角顶点，表示为（x1,y1,x2,y2），其中x为水平方向坐标，y为垂直方向坐标，那么对应行序列化特征序列的真实标签为：x1~x2处的取值设置为一个相同的值，这个值用来表示目标所属的类别，记作C，剩余位置设置为其它取值，记作O。对应列序列化特征序列的真实标签为：y1~y2处的取值设置为一个相同的值，这个值用来表示目标所属的类别，记作C，剩余位置设置为其它取值，记作O。除左上角和右下角顶点的标注方法之外，其他标注方法也要转换成行列序列化后的真实标签。

其中，标注标签仅在深度学习目标检测模型进行训练时候需要用到，在推理过程中则不需要进行标注。

如图3所示，假设输入图片的尺寸大小为W×H，其中W为8，H为6。图片中的方框表示的目标位置，坐标为（x1,y1,x2,y2）。以图片左上角为坐标原点，向右和向下为坐标正方向，得到x1=2,y1=1,x2=6,y2=5。进行行序列化时，标签需要在x轴方向上进行转化，标签的长度为W=8。本实施例中，将目标所属类别表示为1，非目标表示为0，则在行序列化时得到的标签为[0,0,1,1,1,1,0,0]。同样，在列序列化时，转换后的标签为[0,1,1,1,1,0]。

步骤三，利用所述真实标签，输入所述的图片序列，训练一个基于循环神经网络的信息抽取模型，对行序列和列序列分别进行目标信息的抽取，得到行序列和列序列的预测标签。

如图4所示，利用所述的真实标签，输入所述的图片序列来训练一个基于循环神经网络的信息抽取模型，对所述行序列和列序列分别进行目标信息的抽取，信息抽取模型在进行训练迭代时，通过减小模型输出的行序列和列序列的预测标签与真实标签之间的差异，逐步使预测标签趋近于真实标签。在循环神经网络中，每一时刻的输出均与其它任意时刻产生联系。由于原始图片转换成了序列，并且序列输入循环神经网络，所以模型同时考虑到了序列中的所有时刻，也就是在目标信息抽取过程中能够充分考虑到图片全部像素的信息，即全局信息。然后利用训练好的信息抽取模型，直接输出行序列和列序列的预测标签。

具体的，如图5所示，根据行序列预测标签结果，得到目标在水平方向上的起始位置和终止位置；根据列序列预测标签结果，得到目标在垂直方向上的起始位置和终止位置；最后基于所述水平方向和垂直方向上坐标的预测，得到目标的最终位置，表示为（x1,y1,x2,y2）。

与传统目标检测方法不同，本发明的方法不需要生成侯选框，而是直接从水平和垂直两个方向上进行目标位置预测，从而得到目标检测结果，效率更高。

基于本发明方法的一种基于信息抽取的目标检测系统，包括：

预测结果模块是根据信息抽取模块计算得到的行序列和列序列预测标签结果来确定目标在图片中的位置。预测结果模块可以看作是标注转换模块的逆过程。

与前述一种基于信息抽取的目标检测方法的实施例相对应，本发明还提供了一种基于信息抽取的目标检测装置的实施例。

参见图6，本发明实施例提供的一种基于信息抽取的目标检测装置，包括一个或多个处理器，用于实现上述实施例中的一种基于信息抽取的目标检测方法。

本发明一种基于信息抽取的目标检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种基于信息抽取的目标检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于信息抽取的目标检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于信息抽取的目标检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于信息抽取的目标检测方法，其特征在于，所述步骤一，具体为：设原始的输入图片大小为W×H，行数为H，列数为W；对图片按行进行序列化处理：将图片的每一列看作序列的一个时刻输入特征，即每一列中所有的行属于同一时刻中的特征，则序列长度为W，特征维度为H；对图片按列进行序列化处理：将图片的每一行看作序列的一个时刻输入特征，即每一行中所有的行属于同一时刻中的特征，那么序列长度为H，特征维度为W。

3.如权利要求2所述的一种基于信息抽取的目标检测方法，其特征在于，所述步骤二，具体为：对图片中的目标以方框标注，该方框采用xy坐标轴坐标的形式表示，即对目标的标注框的左上角和右下角顶点，表示为（x1,y1,x2,y2），其中x为水平方向坐标，y为垂直方向坐标，则对应目标框的行序列的真实标签为：x1~x2处的取值设置为一个相同的值，用来表示目标所属的类别，记作C，剩余位置设置为其它取值，记作O；对应目标框的列序列的真实标签为：y1~y2处的取值设置为一个相同的值，这个值用来表示目标所属的类别，记作C，剩余位置设置为其它取值，记作O。

4.如权利要求3所述的一种基于信息抽取的目标检测方法，其特征在于，所述步骤三，具体为：利用所述的真实标签，输入所述的图片序列来训练一个基于循环神经网络的信息抽取模型，对所述行序列和列序列分别进行目标信息的抽取，信息抽取模型在进行训练迭代时，通过减小模型输出的行序列和列序列的预测标签与真实标签之间的差异，逐步使预测标签趋近于真实标签；其中，在所述循环神经网络中，每一时刻的输出均与其它任意时刻产生联系，且图片序列被输入循环神经网络，模型同时考虑到了图片序列中的所有时刻，也就是在目标信息抽取过程中充分考虑到图片全部像素的信息，即全局信息。

5.如权利要求4所述的一种基于信息抽取的目标检测方法，其特征在于，所述步骤四，具体为：据行序列预测标签结果，得到目标在水平方向上的起始位置和终止位置；根据列序列预测标签结果，得到目标在垂直方向上的起始位置和终止位置；最后基于水平方向和垂直方向上坐标的预测，得到目标的最终位置。

6.一种采用权利要求1~5任意一项所述的基于信息抽取的目标检测方法的目标检测系统，其特征在于，包括：

7.一种基于信息抽取的目标检测装置，其特征在于，包括一个或多个处理器，用于实现权利要求1至5中任一项所述的一种基于信息抽取的目标检测方法。

8.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1至5中任一项所述的一种基于信息抽取的目标检测方法。