CN113723337A - 基于ddt深度神经模型结构的监控图像地点信息识别方法 - Google Patents
基于ddt深度神经模型结构的监控图像地点信息识别方法 Download PDFInfo
- Publication number
- CN113723337A CN113723337A CN202111047096.3A CN202111047096A CN113723337A CN 113723337 A CN113723337 A CN 113723337A CN 202111047096 A CN202111047096 A CN 202111047096A CN 113723337 A CN113723337 A CN 113723337A
- Authority
- CN
- China
- Prior art keywords
- matrix
- character
- probability
- image
- location information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000001537 neural effect Effects 0.000 title abstract description 5
- 230000005540 biological transmission Effects 0.000 title abstract description 3
- 239000011159 matrix material Substances 0.000 claims abstract description 136
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000013507 mapping Methods 0.000 claims description 21
- 230000009466 transformation Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 8
- 230000007246 mechanism Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,特别是涉及一种基于DDT深度神经模型结构的监控图像地点信息识别方法,包括步骤:对图像进行预处理;将预处理后的图像应用Deep‑Feature子结构得到图像的特征矩阵;生成与特征矩阵等尺寸的位置矩阵,生成由隶属度向量构成的概率矩阵及其位置矩阵;将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入;得到字符集合中每个字符预测的概率,输出每个隶属度向量中概率值最高的索引值,将索引值替换为字符,作为地点信息识别结果输出。本发明能更好的提取图像的特征,并减少了对字符位置编码的需求。本发明更好利用了图像特征,同时识别与原图像中等长的地点信息,大大增加了识别精度。
Description
技术领域
本说明书涉及计算机视觉领域,特别是涉及一种基于深度学习的视频图像中叠加地点信息文字的识别方法。
背景技术
视频监控在平安城市、智能交通、智慧城市等重点行业基础设施和公共服务的持续建设带动了安防监控行业的高速发展。根据公安部发布的《GA/T 751-2008视频图像文字标注规范》,监控图像中的辖区地点信息,必须按照“视频图像设备基础信息”——简称“一机一档”,进行人工的正确标注。这不仅是贯彻落实公安部《关于加强公安大数据智能化建设应用的指导意见》的工作内容要求,也是“全国公安视频图像数据治理专项”任务的基础保障。
全国由公安部组织建设的视频监控规模已经达到1000万量级,采用人工方式对监控图像中的标注信息进行核查是极其低效、且不可持续的,所以通过一种AI算法自动识别监控图像中的地点信息,对当前公安部专项任务推进工作具有重要的现实意义。
常见基于深度学习的文字信息识别采用的是循环神经网络结构,或者使用纯基于注意力机制的Transformer结构对文本数据进行识别。这两种结构识别地点信息都有很大的弊端,前者当字符过长时,模型只能保存部分提取到的特征;对图像提取的特征向量并非以单个字符为单元;最后导致不能保证稳定识别出整个文字行。后者使用注意力机制对图像进行特征提取缺少丰富性;需要配合增加位置编码信息,也会在一定程度上降低识别结果精度。
发明内容
为解决上述问题,本文提出一种基于DDT深度模型结构的监控图像地点信息识别的方法。
所述DDT深度模型为Deep feature-Decoder Transformer深度神经模型。该模型的Deep feature子结构对输入的监控图像进行特征提取,并对提取到的特征进行降维,使其序列化。之后将特征序列并行输入Decoder子结构,在Decoder子结构中,采用多头注意力机制对特征进行循环解码,将解码的结果与汉字库进行映射,选指定长度的字符作为地点识别的结果。并使用基于先验概率的交叉熵函数计算识别结果的损失,并将该损失反馈给网络模型,优化网络参数。
本发明提出的基于DDT深度模型结构的监控图像地点信息识别的方法,包括如下步骤:
步骤I:对输入的监控图像进行预处理,调整图像尺寸等于深度神经网络的输入维度;
步骤II:将预处理之后的图像送入所述的Deep-Feature子结构中,得到监控图像的特征矩阵;
步骤III:从标准正态分布N(0,1)中随机取值,生成与步骤II中特征矩阵等尺寸的位置矩阵,该位置矩阵代表特征矩阵的位置信息;
步骤IV:从标准正态分布N(0,1)中随机取值,生成由隶属度向量构成的概率矩阵;以相同的取值方法,生成与概率矩阵等尺寸的位置矩阵,该位置矩阵代表概率矩阵的位置信息;
步骤V:载入深度神经网络模型,将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入,对特征矩阵进行循环解码,计算识别结果的概率矩阵;
步骤VI:使用线性映射矩阵将步骤V的结果映射至t维,其中t等于字符集合S={s1,s2,.......st,}的大小,得到模型对字符集合中每个字符预测的概率。输出每个隶属度向量中概率值最高的索引值,根据字符集合中索引值与字符映射关系,将索引值替换为字符,作为地点信息识别结果输出。
优选地,步骤VI之后还设有步骤VII:使用所述的先验概率交叉熵公式计算识别结果与地点字符的损失,并将损失值反馈给网络模型使其更新参数,优化网络模型。
优选的,所述步骤II的具体步骤如下:
步骤II-1:将经过预处理之后的监控图像,使用深度特征提取网络进行图像特征提取,从高到低得到C1,C2,C3三个深度特征图;
步骤II-2:使用卷积操作将特征图C1,C2,C3的通道维度统一,并使用如下公式形成融合特征P1,P2,P3;
P1=C1
P2=0.5C2+0.5Up×2(P1)
P3=0.5C3+0.5Up×2(P2)
其中Up×2(P)代表使用双线性插值函数对特征图P进行2倍上采样操作,之后采用等权相加融合高层与低层特征;
步骤II-3:使用如下公式对融合特征P3进行维度变换,得到监控图像的特征矩阵A:
Ac×hw=f(Pc×h×w)
函数f(Pc×h×w)表示对尺寸为c×h×w的张量P进行维度变换得到尺寸为c×hw的矩阵A。
优选的,所述步骤V的具体步骤如下:
步骤V-1:记特征矩阵为A,其位置矩阵记为Aloc,将矩阵A与Aloc进行矩阵相加得到矩阵A′,记概率矩阵为B,其位置矩阵记为Bloc,将B与Bloc进行矩阵相加得到矩阵B′;
步骤V_2:使用所述公式计算矩阵B′与矩阵B′的正负相关协方差矩阵,将该正负相关协方差矩阵与初始B′进行矩阵相加,并对相加的结果进行归一化得到矩阵Bln;
步骤V-3:使用所述公式计算矩阵A′与矩阵Bln的正负相关协方差矩阵,将该正负相关协方差矩阵与矩阵Bln进行矩阵相加;
步骤V-4:将步骤V-3的结果与线性映射矩阵L1相乘,然后对相乘结果归一化;
步骤V-5:将隶属度向量进行升维,之后使用激活函数对升维的向量进行激活,最后降维至初始维度,得到新一轮字符隶属度向量构成的矩阵B1;
步骤V-6:将A、Aloc、B1、Bloc作为新一轮Decoder子结构的输入,重复上述步骤,对特征矩阵A循环解码。
优选的,所述步骤V-2,V-3计算正负相关协方差矩阵P公式如下:
Qi,Ki,Vi=fsplite(Q,K,V)
P=fconcat(fatt(Q1,K1,V1),fatt(Q2,K2,V3),...,fatt(Qn’Kn,Vn))
其中Q,K,V表示输入特征的线性映射矩阵;
fatt(Qi,Ki,Vi)表示计算Qi,Ki,Vi的正负相关协方差矩阵;
fconcat(fatt(Q1,K1,V1),fatt(Q2,K2,V3),...,fatt(Qn,Kn,Vn))表示将n个尺寸为的子正负相关协方差矩阵进行维度变换,形成尺寸为h×w的正负相关协方差矩阵。
优选的,所述步骤VII具体计算方式如下:
其中,wi代表模型预测第i字符的权重;ti代表第i字符标签对应的索引值,索引值格式采用one-hot编码的形式;yi代表模型预测第i字符的概率,n代表地点信息字符串的长度。
本发明的有益效果包括:
(1)相比使用注意力机制,DDT模型的Deep feature子结构采用卷积特征网络进行特征提取,使用卷积的方式能更好的提取图像的特征,并减少了对字符位置编码的需求。
(2)在Decoder子结构中,采用注意力机制对图像特征进行解码。相比使用循环神经网络进行字符识别,使用注意力机制解决了对特征向量长度依赖的这一问题,对输入的全局特征进行解码,更好利用了图像特征,同时识别与原图像中等长的地点信息,大大增加了识别精度。
附图说明
图1是基于DDT深度神经模型图像地点信息识别方法的流程示意图。
图2是DDT深度神经模型结构图。
具体实施方法
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
结合图1、图2所示,基于DDT深度模型结构的监控图像地点信息识别的方法,包括如下步骤:
步骤I:对输入的监控图像进行预处理,调整图像尺寸等于深度神经网络的输入尺寸。
本实施例中,输入神经网络的监控图像尺寸为96×32像素。
步骤II:将预处理之后的图像送入所述的Deep-Feature子结构中,得到监控图像的特征矩阵。
II-1、将经过预处理之后的监控图像,使用深度特征提取网络进行图像特征提取,从高到低得到C1,C2,C3三个深度特征图。
II-2、使用卷积操作将特征图C1,C2,C3的通道维度统一,并使用如下公式形成融合特征P1,P2,P3。
P1=C1
P2=0.5C2+0.5Up×2(P1)
P3=0.5C3+0.5Up×2(P2)
本实施例中,特征图C1,C2,C3的通道统一设置为768维。
Up×2(P)代表使用双线性插值函数对特征图P进行2倍上采样操作,之后采用等权相加融合高层与低层特征。
II-3、使用如下公式对融合特征P3进行维度变换,得到监控图像的特征矩阵A:
Ac×hw=f(Pc×h×w)
函数f(Pc×h×w)表示对尺寸为c×h×w的张量P进行维度变换得到尺寸为c×hw的矩阵A。
本实施例中,c=768,设置h=4,w=24,经过维度变换后得到96个768维的特征向量构成的特征矩阵,表示为:A96×768={a1,a2,...,a96}T。
步骤III:从标准正态分布N(0,1)中随机取值,生成与步骤II中特征矩阵等尺寸的位置矩阵,该位置矩阵代表特征矩阵的位置信息。
这里位置矩阵记为Aloc。
步骤IV:从标准正态分布N(0,1)中随机取值,生成由隶属度向量构成的概率矩阵。以相同的取值方法,生成与概率矩阵等尺寸的位置矩阵,该位置矩阵代表概率矩阵的位置信息。
假设监控图像中待识别地点信息的字符串最大长度为n,生成n个768维隶属度向量构成的概率矩阵。
在本实施例中,设置字符串最大长度为10,概率矩阵可表示为:B10×768={b1,b2,...,b10}T,其对应的位置矩阵记为Bloc
步骤V:载入深度神经网络模型,将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入,对特征矩阵进行循环解码,计算识别结果的概率矩阵。
V-1、记特征矩阵为A,其位置矩阵记为Aloc。将矩阵A与Aloc进行矩阵相加得到矩阵A′。记概率矩阵为B,其位置矩阵记为Bloc。将B与Bloc进行矩阵相加得到矩阵B′。
其中,矩阵A′的尺寸为96×768,B′的尺寸为10×768。
V-2、使用所述公式计算矩阵B′与矩阵B′的正负相关协方差矩阵,将该正负相关协方差矩阵与初始B′进行矩阵相加,并对相加的结果进行归一化得到矩阵Bln。
V-3、使用所述公式计算矩阵A′与矩阵Bln的正负相关协方差矩阵,将该正负相关协方差矩阵与矩阵Bln进行矩阵相加。
计算正负相关协方差矩阵P公式如下:
Qi,Ki,Vi=fsplite(Q,K,V)
P=fconcat(fatt(Q1,K1,V1),fatt(Q2,K2,V3),...,fatt(Qn’Kn,vn))
其中Q,K,V表示输入特征的线性映射矩阵。
fatt(Qi,Ki,Vi)表示计算Qi,Ki,Vi的正负相关协方差矩阵。
fconcat(fatt(Q1,K1,V1),fatt(Q2,K2,V3),...,fatt(Qn,Kn,Vn))表示将n个尺寸为的子正负相关协方差矩阵进行维度变换,形成尺寸为h×w的正负相关协方差矩阵。
其中,h和w等于输入矩阵的尺寸。
在本实例中,h=10,w=768,并设置n=12。
V-4:将步骤V-3的结果与线性映射矩阵L1相乘,然后对相乘结果归一化。
在本实例中,线性映射矩阵L1的尺寸为768×768。
V-5:将隶属度向量进行升维,之后使用激活函数对升维的向量进行激活,最后降维至初始维度,得到新一轮字符隶属度向量构成的矩阵B1。
在本实例中,使用尺寸为768×2048矩阵与步骤V-4的结果相乘,将隶属度向量进行升维至2048,使用relu激活函数对升维的向量进行激活,最后降维至768,得到新一轮字符隶属度向量构成的矩阵B1。
V-6:将A、Aloc、B1、Bloc作为新一轮Decoder子结构的输入,重复上述步骤,对特征矩阵A循环解码。
步骤VI:使用线性映射矩阵将步骤V的结果映射至t维,其中t等于字符集合S={s1,s2,.......st,}的大小,得到模型对字符集合中每个字符预测的概率。输出每个隶属度向量中概率值最高的索引值,根据字符集合中索引值与字符映射关系,将索引值替换为字符,作为地点信息识别结果输出。
在本实施例中,t的值(参照汉字二级字库)应在6000以上。
优选地,步骤VII:使用如下先验概率交叉熵公式计算识别结果与地点字符的损失,并将损失值反馈给网络模型使其更新参数,优化网络模型。
其中,wi代表模型预测第i字符的权重;ti代表第i字符标签对应的索引值,索引值格式采用one-hot编码的形式;yi代表模型预测第i字符的概率,n代表地点信息字符串的长度。
在本实施例中,与步骤IV相同,设置n=10。
本发明,在4000例样本下——即从监控图像中随机选择4000行地点信息字符串(不含英文、数字、罗马字符、标点符号),识别精度指标如下:
全匹配率91.8%,平均编辑距离百分比2.81%。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,包括如下步骤:
步骤I:对输入的监控图像进行预处理,调整图像尺寸等于深度神经网络的输入维度;
步骤II:将预处理之后的图像送入所述的Deep-Feature子结构中,得到监控图像的特征矩阵;
步骤III:从标准正态分布N(0,1)中随机取值,生成与步骤II中特征矩阵等尺寸的位置矩阵,该位置矩阵代表特征矩阵的位置信息;
步骤IV:从标准正态分布N(0,1)中随机取值,生成由隶属度向量构成的概率矩阵;以相同的取值方法,生成与概率矩阵等尺寸的位置矩阵,该位置矩阵代表概率矩阵的位置信息;
步骤V:载入深度神经网络模型,将特征矩阵及其位置矩阵、概率矩阵及其位置矩阵作为Decoder子结构的输入,对特征矩阵进行循环解码,计算识别结果的概率矩阵;
步骤VI:使用线性映射矩阵将步骤V的结果映射至t维,其中t等于字符集合S={s1,s2,.......st,}的大小,得到模型对字符集合中每个字符预测的概率;输出每个隶属度向量中概率值最高的索引值,根据字符集合中索引值与字符映射关系,将索引值替换为字符,作为地点信息识别结果输出。
2.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,所述步骤VI之后还设有
步骤VII:使用所述的先验概率交叉熵公式计算识别结果与地点字符的损失,并将损失值反馈给网络模型使其更新参数,优化网络模型。
3.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,所述步骤II的具体步骤如下:
步骤II-1:将经过预处理之后的监控图像,使用深度特征提取网络进行图像特征提取,从高到低得到C1,C2,C3三个深度特征图;
步骤II-2:使用卷积操作将特征图C1,C2,C3的通道维度统一,并使用如下公式形成融合特征P1,P2,P3;
P1=C1
P2=0.5C2+0.5Up×2(P1)
P3=0.5C3+0.5Up×2(P2)
其中Up×2(P)代表使用双线性插值函数对特征图P进行2倍上采样操作,之后采用等权相加融合高层与低层特征;
步骤II-3:使用如下公式对融合特征P3进行维度变换,得到监控图像的特征矩阵A:
Ac×hw=f(Pc×h×w)
函数f(Pc×h×w)表示对尺寸为c×h×w的张量P进行维度变换得到尺寸为c×hw的矩阵A。
4.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,所述步骤V的具体步骤如下:
步骤V-1:记特征矩阵为A,其位置矩阵记为Aloc,将矩阵A与Aloc进行矩阵相加得到矩阵A′,记概率矩阵为B,其位置矩阵记为Bloc,将B与Bloc进行矩阵相加得到矩阵B′;
步骤V-2:使用所述公式计算矩阵B′与矩阵B′的正负相关协方差矩阵,将该正负相关协方差矩阵与初始B′进行矩阵相加,并对相加的结果进行归一化得到矩阵Bln;
步骤V-3:使用所述公式计算矩阵A′与矩阵Bln的正负相关协方差矩阵,将该正负相关协方差矩阵与矩阵Bln进行矩阵相加;
步骤V-4:将步骤V-3的结果与线性映射矩阵L1相乘,然后对相乘结果归一化;
步骤V-5:将隶属度向量进行升维,之后使用激活函数对升维的向量进行激活,最后降维至初始维度,得到新一轮字符隶属度向量构成的矩阵B1;
步骤V-6:将A、Aloc、B1、Bloc作为新一轮Decoder子结构的输入,重复上述步骤,对特征矩阵A循环解码。
5.根据权利要求1所述的基于DDT深度模型结构的监控图像地点信息识别的方法,其特征在于,所述步骤V-2,V-3计算正负相关协方差矩阵P公式如下:
Qi,Ki,Vi=fsplite(Q,K,V)
P=fconcat(fatt(Q1,K1,V1),fatt(Q2,K2,V3),...,fatt(Qn,Kn,Vn))
其中Q,K,V表示输入特征的线性映射矩阵;
fatt(Qi,Ki,Vi)表示计算Qi,Ki,Vi的正负相关协方差矩阵;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047096.3A CN113723337B (zh) | 2021-09-07 | 2021-09-07 | 基于ddt深度神经模型结构的监控图像地点信息识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111047096.3A CN113723337B (zh) | 2021-09-07 | 2021-09-07 | 基于ddt深度神经模型结构的监控图像地点信息识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723337A true CN113723337A (zh) | 2021-11-30 |
CN113723337B CN113723337B (zh) | 2024-09-24 |
Family
ID=78682380
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111047096.3A Active CN113723337B (zh) | 2021-09-07 | 2021-09-07 | 基于ddt深度神经模型结构的监控图像地点信息识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723337B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012034398A1 (zh) * | 2010-09-15 | 2012-03-22 | 中兴通讯股份有限公司 | 维特比解码实现方法及装置 |
CN106447763A (zh) * | 2016-07-27 | 2017-02-22 | 扬州大学 | 一种融合稀疏形变模型与主成分回归算法的颜面照片三维重建方法 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN110781674A (zh) * | 2019-09-19 | 2020-02-11 | 北京小米智能科技有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
US20200302297A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Artificial Intelligence-Based Base Calling |
US20200349722A1 (en) * | 2016-12-02 | 2020-11-05 | Google Llc | Determining structure and motion in images using neural networks |
CN111898606A (zh) * | 2020-05-19 | 2020-11-06 | 武汉东智科技股份有限公司 | 一种视频图像中叠加透明时间字符的夜间成像识别方法 |
CN112183486A (zh) * | 2020-11-02 | 2021-01-05 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN113239174A (zh) * | 2021-06-09 | 2021-08-10 | 华南师范大学 | 一种基于双层解码的层次化多轮对话生成方法及装置 |
-
2021
- 2021-09-07 CN CN202111047096.3A patent/CN113723337B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012034398A1 (zh) * | 2010-09-15 | 2012-03-22 | 中兴通讯股份有限公司 | 维特比解码实现方法及装置 |
CN106447763A (zh) * | 2016-07-27 | 2017-02-22 | 扬州大学 | 一种融合稀疏形变模型与主成分回归算法的颜面照片三维重建方法 |
US20200349722A1 (en) * | 2016-12-02 | 2020-11-05 | Google Llc | Determining structure and motion in images using neural networks |
US20200302297A1 (en) * | 2019-03-21 | 2020-09-24 | Illumina, Inc. | Artificial Intelligence-Based Base Calling |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN110781674A (zh) * | 2019-09-19 | 2020-02-11 | 北京小米智能科技有限公司 | 一种信息处理方法、装置、计算机设备及存储介质 |
CN111898606A (zh) * | 2020-05-19 | 2020-11-06 | 武汉东智科技股份有限公司 | 一种视频图像中叠加透明时间字符的夜间成像识别方法 |
CN112183486A (zh) * | 2020-11-02 | 2021-01-05 | 中山大学 | 基于深度网络快速识别单分子纳米孔测序碱基方法 |
CN113239174A (zh) * | 2021-06-09 | 2021-08-10 | 华南师范大学 | 一种基于双层解码的层次化多轮对话生成方法及装置 |
Non-Patent Citations (5)
Title |
---|
ASHISH VASWANI等: "Attention Is All You Need", 《ARXIV:1706.03762V5》, 6 December 2017 (2017-12-06), pages 1 - 15, XP002796972 * |
XITAO MA等: "PIEED: Position information enhanced encoder-decoder framework for scene text recognition", 《APPLIED INTELLIGENCE》, vol. 51, 10 February 2021 (2021-02-10), pages 6698 - 6707, XP037556041, DOI: 10.1007/s10489-021-02219-3 * |
史家瑞: "基于深度学习的跨域推荐技术研究", 《中国优秀硕士学位论文全文数据库_信息科技辑》, 15 June 2021 (2021-06-15), pages 138 - 781 * |
张飚: "神经机器翻译网络结构建模研究", 《中国优秀硕士学位论文全文数据库_哲学与人文科学辑》, 15 July 2019 (2019-07-15), pages 084 - 20 * |
罗晨光等: "基于最优直线段边缘方向的视频清晰度评估", 《计算机工程与设计》, vol. 39, no. 02, 16 February 2018 (2018-02-16), pages 474 - 478 * |
Also Published As
Publication number | Publication date |
---|---|
CN113723337B (zh) | 2024-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN111897908A (zh) | 融合依存信息和预训练语言模型的事件抽取方法及系统 | |
CN115146488B (zh) | 基于大数据的可变业务流程智能建模系统及其方法 | |
CN111460807A (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN110378334A (zh) | 一种基于二维特征注意力机制的自然场景文本识别方法 | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
CN110362823A (zh) | 描述文本生成模型的训练方法和装置 | |
CN110377902A (zh) | 描述文本生成模型的训练方法和装置 | |
Kekre et al. | Improved CBIR using multileveled block truncation coding | |
US11599727B2 (en) | Intelligent text cleaning method and apparatus, and computer-readable storage medium | |
CN109711465A (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
CN110046356B (zh) | 标签嵌入的微博文本情绪多标签分类方法 | |
CN116702091B (zh) | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 | |
CN114861601B (zh) | 基于旋转式编码的事件联合抽取方法及存储介质 | |
CN115186673A (zh) | 科技信息管理系统及其管理方法 | |
CN114743630A (zh) | 一种基于跨模态对比学习的医学报告生成方法 | |
CN114154016A (zh) | 基于目标空间语义对齐的视频描述方法 | |
US20210271705A1 (en) | Generating accurate and natural captions for figures | |
CN114169447A (zh) | 基于自注意力卷积双向门控循环单元网络的事件检测方法 | |
CN113836315A (zh) | 一种电力标准知识抽取系统 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN113723337A (zh) | 基于ddt深度神经模型结构的监控图像地点信息识别方法 | |
CN116453514A (zh) | 一种基于多视角的语音关键词检测与定位方法及装置 | |
CN106095811A (zh) | 一种基于最优编码的监督离散哈希的图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |