CN113723337A

CN113723337A - 基于ddt深度神经模型结构的监控图像地点信息识别方法

Info

Publication number: CN113723337A
Application number: CN202111047096.3A
Authority: CN
Inventors: 聂晖; 杨小波; 李军
Original assignee: Wuhan Eastwit Technology Co ltd
Current assignee: Wuhan Eastwit Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-11-30
Anticipated expiration: 2041-09-07
Also published as: CN113723337B

Abstract

本发明涉及计算机视觉技术领域，特别是涉及一种基于DDT深度神经模型结构的监控图像地点信息识别方法，包括步骤：对图像进行预处理；将预处理后的图像应用Deep‑Feature子结构得到图像的特征矩阵；生成与特征矩阵等尺寸的位置矩阵，生成由隶属度向量构成的概率矩阵及其位置矩阵；将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入；得到字符集合中每个字符预测的概率，输出每个隶属度向量中概率值最高的索引值，将索引值替换为字符，作为地点信息识别结果输出。本发明能更好的提取图像的特征，并减少了对字符位置编码的需求。本发明更好利用了图像特征，同时识别与原图像中等长的地点信息，大大增加了识别精度。

Description

基于DDT深度神经模型结构的监控图像地点信息识别方法

技术领域

本说明书涉及计算机视觉领域，特别是涉及一种基于深度学习的视频图像中叠加地点信息文字的识别方法。

背景技术

视频监控在平安城市、智能交通、智慧城市等重点行业基础设施和公共服务的持续建设带动了安防监控行业的高速发展。根据公安部发布的《GA/T 751-2008视频图像文字标注规范》，监控图像中的辖区地点信息，必须按照“视频图像设备基础信息”——简称“一机一档”，进行人工的正确标注。这不仅是贯彻落实公安部《关于加强公安大数据智能化建设应用的指导意见》的工作内容要求，也是“全国公安视频图像数据治理专项”任务的基础保障。

全国由公安部组织建设的视频监控规模已经达到1000万量级，采用人工方式对监控图像中的标注信息进行核查是极其低效、且不可持续的，所以通过一种AI算法自动识别监控图像中的地点信息，对当前公安部专项任务推进工作具有重要的现实意义。

常见基于深度学习的文字信息识别采用的是循环神经网络结构，或者使用纯基于注意力机制的Transformer结构对文本数据进行识别。这两种结构识别地点信息都有很大的弊端，前者当字符过长时，模型只能保存部分提取到的特征；对图像提取的特征向量并非以单个字符为单元；最后导致不能保证稳定识别出整个文字行。后者使用注意力机制对图像进行特征提取缺少丰富性；需要配合增加位置编码信息，也会在一定程度上降低识别结果精度。

发明内容

为解决上述问题，本文提出一种基于DDT深度模型结构的监控图像地点信息识别的方法。

所述DDT深度模型为Deep feature-Decoder Transformer深度神经模型。该模型的Deep feature子结构对输入的监控图像进行特征提取，并对提取到的特征进行降维，使其序列化。之后将特征序列并行输入Decoder子结构，在Decoder子结构中，采用多头注意力机制对特征进行循环解码，将解码的结果与汉字库进行映射，选指定长度的字符作为地点识别的结果。并使用基于先验概率的交叉熵函数计算识别结果的损失，并将该损失反馈给网络模型，优化网络参数。

本发明提出的基于DDT深度模型结构的监控图像地点信息识别的方法，包括如下步骤：

步骤I：对输入的监控图像进行预处理，调整图像尺寸等于深度神经网络的输入维度；

步骤II：将预处理之后的图像送入所述的Deep-Feature子结构中，得到监控图像的特征矩阵；

步骤III：从标准正态分布N(0,1)中随机取值，生成与步骤II中特征矩阵等尺寸的位置矩阵，该位置矩阵代表特征矩阵的位置信息；

步骤IV：从标准正态分布N(0，1)中随机取值，生成由隶属度向量构成的概率矩阵；以相同的取值方法，生成与概率矩阵等尺寸的位置矩阵，该位置矩阵代表概率矩阵的位置信息；

步骤V：载入深度神经网络模型，将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入，对特征矩阵进行循环解码，计算识别结果的概率矩阵；

步骤VI：使用线性映射矩阵将步骤V的结果映射至t维，其中t等于字符集合S＝{s₁，s₂，.......s_t，}的大小，得到模型对字符集合中每个字符预测的概率。输出每个隶属度向量中概率值最高的索引值，根据字符集合中索引值与字符映射关系，将索引值替换为字符，作为地点信息识别结果输出。

优选地，步骤VI之后还设有步骤VII：使用所述的先验概率交叉熵公式计算识别结果与地点字符的损失，并将损失值反馈给网络模型使其更新参数，优化网络模型。

优选的，所述步骤II的具体步骤如下：

步骤II-1：将经过预处理之后的监控图像，使用深度特征提取网络进行图像特征提取，从高到低得到C₁，C₂，C₃三个深度特征图；

步骤II-2：使用卷积操作将特征图C₁，C₂，C₃的通道维度统一，并使用如下公式形成融合特征P₁，P₂，P₃；

P₁＝C₁

P₂＝0.5C₂+0.5Up_×2(P₁)

P₃＝0.5C₃+0.5Up_×2(P₂)

其中Up_×2(P)代表使用双线性插值函数对特征图P进行2倍上采样操作，之后采用等权相加融合高层与低层特征；

步骤II-3：使用如下公式对融合特征P₃进行维度变换，得到监控图像的特征矩阵A：

A_c×hw＝f(P_c×h×w)

函数f(P_c×h×w)表示对尺寸为c×h×w的张量P进行维度变换得到尺寸为c×hw的矩阵A。

优选的，所述步骤V的具体步骤如下：

步骤V-1：记特征矩阵为A，其位置矩阵记为A_loc，将矩阵A与A_loc进行矩阵相加得到矩阵A′，记概率矩阵为B，其位置矩阵记为B_loc，将B与B_loc进行矩阵相加得到矩阵B′；

步骤V_2：使用所述公式计算矩阵B′与矩阵B′的正负相关协方差矩阵，将该正负相关协方差矩阵与初始B′进行矩阵相加，并对相加的结果进行归一化得到矩阵B_ln；

步骤V-3：使用所述公式计算矩阵A′与矩阵B_ln的正负相关协方差矩阵，将该正负相关协方差矩阵与矩阵B_ln进行矩阵相加；

步骤V-4：将步骤V-3的结果与线性映射矩阵L₁相乘，然后对相乘结果归一化；

步骤V-5：将隶属度向量进行升维，之后使用激活函数对升维的向量进行激活，最后降维至初始维度，得到新一轮字符隶属度向量构成的矩阵B₁；

步骤V-6：将A、A_loc、B₁、B_loc作为新一轮Decoder子结构的输入，重复上述步骤，对特征矩阵A循环解码。

优选的，所述步骤V-2，V-3计算正负相关协方差矩阵P公式如下：

Q_i，K_i，V_i＝f_splite(Q，K，V)

P＝f_concat(f_att(Q₁，K₁，V₁)，f_att(Q₂，K₂，V₃)，...，f_att(Q_n’K_n，V_n))

其中Q，K，V表示输入特征的线性映射矩阵；

f_splite(Q，K，V)表示分别将尺寸为h×w的线性映射矩阵Q，K，V进行维度变换，形成n个尺寸为

的子映射矩阵；

f_att(Q_i，K_i，V_i)表示计算Q_i，K_i，V_i的正负相关协方差矩阵；

f_concat(f_att(Q₁，K₁，V₁)，f_att(Q₂，K₂，V₃)，...，f_att(Q_n，K_n，V_n))表示将n个尺寸为

的子正负相关协方差矩阵进行维度变换，形成尺寸为h×w的正负相关协方差矩阵。

优选的，所述步骤VII具体计算方式如下：

其中，w_i代表模型预测第i字符的权重；t_i代表第i字符标签对应的索引值，索引值格式采用one-hot编码的形式；y_i代表模型预测第i字符的概率，n代表地点信息字符串的长度。

本发明的有益效果包括：

(1)相比使用注意力机制，DDT模型的Deep feature子结构采用卷积特征网络进行特征提取，使用卷积的方式能更好的提取图像的特征，并减少了对字符位置编码的需求。

(2)在Decoder子结构中，采用注意力机制对图像特征进行解码。相比使用循环神经网络进行字符识别，使用注意力机制解决了对特征向量长度依赖的这一问题，对输入的全局特征进行解码，更好利用了图像特征，同时识别与原图像中等长的地点信息，大大增加了识别精度。

附图说明

图1是基于DDT深度神经模型图像地点信息识别方法的流程示意图。

图2是DDT深度神经模型结构图。

具体实施方法

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

结合图1、图2所示，基于DDT深度模型结构的监控图像地点信息识别的方法，包括如下步骤：

步骤I：对输入的监控图像进行预处理，调整图像尺寸等于深度神经网络的输入尺寸。

本实施例中，输入神经网络的监控图像尺寸为96×32像素。

步骤II：将预处理之后的图像送入所述的Deep-Feature子结构中，得到监控图像的特征矩阵。

II-1、将经过预处理之后的监控图像，使用深度特征提取网络进行图像特征提取，从高到低得到C₁，C₂，C₃三个深度特征图。

II-2、使用卷积操作将特征图C₁，C₂，C₃的通道维度统一，并使用如下公式形成融合特征P₁，P₂，P₃。

P₁＝C₁

P₂＝0.5C₂+0.5Up_×2(P₁)

P₃＝0.5C₃+0.5Up_×2(P₂)

本实施例中，特征图C1，C2，C3的通道统一设置为768维。

Up_×2(P)代表使用双线性插值函数对特征图P进行2倍上采样操作，之后采用等权相加融合高层与低层特征。

II-3、使用如下公式对融合特征P₃进行维度变换，得到监控图像的特征矩阵A：

A_c×hw＝f(P_c×h×w)

本实施例中，c＝768，设置h＝4，w＝24，经过维度变换后得到96个768维的特征向量构成的特征矩阵，表示为：A_96×768＝{a₁，a₂，...，a₉₆}^T。

步骤III：从标准正态分布N(0，1)中随机取值，生成与步骤II中特征矩阵等尺寸的位置矩阵，该位置矩阵代表特征矩阵的位置信息。

这里位置矩阵记为A_loc。

步骤IV：从标准正态分布N(0，1)中随机取值，生成由隶属度向量构成的概率矩阵。以相同的取值方法，生成与概率矩阵等尺寸的位置矩阵，该位置矩阵代表概率矩阵的位置信息。

假设监控图像中待识别地点信息的字符串最大长度为n，生成n个768维隶属度向量构成的概率矩阵。

在本实施例中，设置字符串最大长度为10，概率矩阵可表示为：B_10×768＝{b₁，b₂，...，b₁₀}^T，其对应的位置矩阵记为B_loc

步骤V：载入深度神经网络模型，将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入，对特征矩阵进行循环解码，计算识别结果的概率矩阵。

V-1、记特征矩阵为A，其位置矩阵记为A_loc。将矩阵A与A_loc进行矩阵相加得到矩阵A′。记概率矩阵为B，其位置矩阵记为B_loc。将B与B_loc进行矩阵相加得到矩阵B′。

其中，矩阵A′的尺寸为96×768，B′的尺寸为10×768。

V-2、使用所述公式计算矩阵B′与矩阵B′的正负相关协方差矩阵，将该正负相关协方差矩阵与初始B′进行矩阵相加，并对相加的结果进行归一化得到矩阵B_ln。

V-3、使用所述公式计算矩阵A′与矩阵B_ln的正负相关协方差矩阵，将该正负相关协方差矩阵与矩阵B_ln进行矩阵相加。

计算正负相关协方差矩阵P公式如下：

Q_i，K_i，V_i＝f_splite(Q，K，V)

其中Q，K，V表示输入特征的线性映射矩阵。

的子映射矩阵。

f_att(Q_i，K_i，V_i)表示计算Q_i，K_i，V_i的正负相关协方差矩阵。

其中，h和w等于输入矩阵的尺寸。

在本实例中，h＝10，w＝768，并设置n＝12。

V-4：将步骤V-3的结果与线性映射矩阵L₁相乘，然后对相乘结果归一化。

在本实例中，线性映射矩阵L₁的尺寸为768×768。

V-5：将隶属度向量进行升维，之后使用激活函数对升维的向量进行激活，最后降维至初始维度，得到新一轮字符隶属度向量构成的矩阵B₁。

在本实例中，使用尺寸为768×2048矩阵与步骤V-4的结果相乘，将隶属度向量进行升维至2048，使用relu激活函数对升维的向量进行激活，最后降维至768，得到新一轮字符隶属度向量构成的矩阵B₁。

V-6：将A、A_loc、B₁、B_loc作为新一轮Decoder子结构的输入，重复上述步骤，对特征矩阵A循环解码。

在本实施例中，t的值(参照汉字二级字库)应在6000以上。

优选地，步骤VII：使用如下先验概率交叉熵公式计算识别结果与地点字符的损失，并将损失值反馈给网络模型使其更新参数，优化网络模型。

在本实施例中，与步骤IV相同，设置n＝10。

本发明，在4000例样本下——即从监控图像中随机选择4000行地点信息字符串(不含英文、数字、罗马字符、标点符号)，识别精度指标如下：

全匹配率91.8％，平均编辑距离百分比2.81％。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于DDT深度模型结构的监控图像地点信息识别的方法，其特征在于，包括如下步骤：

步骤IV：从标准正态分布N(0,1)中随机取值，生成由隶属度向量构成的概率矩阵；以相同的取值方法，生成与概率矩阵等尺寸的位置矩阵，该位置矩阵代表概率矩阵的位置信息；

步骤VI：使用线性映射矩阵将步骤V的结果映射至t维，其中t等于字符集合S＝{s₁,s₂,.......s_t,}的大小，得到模型对字符集合中每个字符预测的概率；输出每个隶属度向量中概率值最高的索引值，根据字符集合中索引值与字符映射关系，将索引值替换为字符，作为地点信息识别结果输出。

2.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法，其特征在于，所述步骤VI之后还设有

步骤VII：使用所述的先验概率交叉熵公式计算识别结果与地点字符的损失，并将损失值反馈给网络模型使其更新参数，优化网络模型。

3.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法，其特征在于，所述步骤II的具体步骤如下：

P₁＝C₁

P₂＝0.5C₂+0.5Up_×2(P₁)

P₃＝0.5C₃+0.5Up_×2(P₂)

A_c×hw＝f(P_c×h×w)

4.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法，其特征在于，所述步骤V的具体步骤如下：

步骤V-1：记特征矩阵为A，其位置矩阵记为A_loc，将矩阵A与A_loc进行矩阵相加得到矩阵A′，记概率矩阵为B,其位置矩阵记为B_loc，将B与B_loc进行矩阵相加得到矩阵B′；

步骤V-2：使用所述公式计算矩阵B′与矩阵B′的正负相关协方差矩阵，将该正负相关协方差矩阵与初始B′进行矩阵相加，并对相加的结果进行归一化得到矩阵B_ln；

5.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法，其特征在于，所述步骤V-2，V-3计算正负相关协方差矩阵P公式如下：

Q_i,K_i,V_i＝f_splite(Q,K,V)

P＝f_concat(f_att(Q₁,K₁,V₁),f_att(Q₂,K₂,V₃),...,f_att(Q_n,K_n,V_n))

其中Q,K,V表示输入特征的线性映射矩阵；

f_splite(Q,K,V)表示分别将尺寸为h×w的线性映射矩阵Q,K,V进行维度变换，形成n个尺寸为

的子映射矩阵；

f_att(Q_i,K_i,V_i)表示计算Q_i,K_i,V_i的正负相关协方差矩阵；

f_concat(f_att(Q₁,K₁,V₁),f_att(Q₂,K₂,V₃),...,f_att(Q_n,K_n,V_n))表示将n个尺寸为

6.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法，其特征在于，所述步骤VII具体计算方式如下：