CN112418225B - 一种面向地址场景识别的离线文字识别方法 - Google Patents
一种面向地址场景识别的离线文字识别方法 Download PDFInfo
- Publication number
- CN112418225B CN112418225B CN202011110108.8A CN202011110108A CN112418225B CN 112418225 B CN112418225 B CN 112418225B CN 202011110108 A CN202011110108 A CN 202011110108A CN 112418225 B CN112418225 B CN 112418225B
- Authority
- CN
- China
- Prior art keywords
- text
- address
- image
- recognition
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供一种面向地址场景识别的离线文字识别方法,该方法对数据集进行预处理:去除数据集标注文本中无法识别的生僻字,以及该标注文本对应的图像,其中,数据集包括图像和图像对应的标注文本;使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练;训练卷积循环神经网络CRNN模型;输入预处理后的图像,使用CTPN定位图像中所有文本的位置,并使用矩形框将文本框出,提供矩形的顶点坐标以及宽高;将输出的文本框坐标输入CRNN,对文本框中的文本进行识别,输出预测文本,提高了地址识别的准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,更具体地,涉及一种面向地址场景识别的离线文字识别方法。
背景技术
近年来,文本识别技术已经应用到生活中的许多情境,包括聊天软件中的图片文本识别、拍照文本识别等。然而,由于训练使用的数据集组成不一、照片或图片的质量难以保证,现有的自然场景文本识别仍难以达到较高的准确率。在以往的OCR(OpticalCharacterRecognition,光学字符识别)方法中,识别过程分一般为两步:单字切割和分类。一般会将一连串文字的文本图片利用投影法等传统图像处理方法切割出单个字体,再送入CNN(ConvolutionalNeuralNetwork,卷积神经网络)里进行文字分类。此方法虽然思路直观易理解,但受字符检测错误的影响较大。随着卷积神经网络技术的兴起,CRNN被使用到了情景文本识别中,情景文本识别开始演变为基于深度学习的端到端的过程,即不需显式加入文字切割这个环节,而是将文字识别转化为序列学习问题。在生活中,地址文本存在于各种表单、履历和邮政面单上,是常见的自然场景文本识别情境。然而,针对地址识别,以往的方法还存在着一些问题:1)由于地址文本中和其他情境下的语料内容有较大的不同(比如地址文本缺乏完整的语法,并且常有生僻字),以往方法训练的模型难以直接运用至地址识别中,以往的数据集也难以训练模型得到最好的识别准确率;2)由于存在一些提供地址检索接口的软件存在,地址文本识别在识别流程后还可以通过检索和匹配,使识别准确度进一步提高。
申请号为201910441222.X的专利说明书中公开了一种具有文字识别的照片直播系统及其方法,本申请实现了海量照片的即时上传、浏览,并解决了高并发、高访问、高下载导致的问题,以及实现照片的文字识别和人脸识别,从而实现照片直播。然而,该专利无法实现使用了CTPN和CRNN作为基础的场景文本识别方法,同时加入了地图地址检索接口的部分来适应地址识别的需求,从而针对性地提高了地址识别的准确率。
发明内容
本发明提供一种识别准确率较高的面向地址场景识别的离线文字识别方法。
为了达到上述技术效果,本发明的技术方案如下:
一种面向地址场景识别的离线文字识别方法,包括以下步骤:
网络训练阶段:
S1:对数据集进行预处理,其中数据集包括图像和图像对应的标注文本:去除数据集标注文本中无法识别的生僻字,以及该标注文本对应的图像;
S2:使用ICDAR2017RCTW数据集对CTPN进行训练;
S3:训练CRNN模型;
步骤S3的具体过程是:S31:CRNN模型的训练过程基于最小化CTCloss(ConnectionistTemporalClassification,连接时序分类)进行。
由于传统的RNN(RecurrentNeuralNetwork,循环神经网络)存在梯度消失的问题,且不能储存长期记忆,我们的算法的CRNN中使用的是LSTM(LongShortTermMemory,长短期记忆),更具体地,使用的是双向LSTM,即BiLSTM(Bi-LongShortTermMemory,双向长短期记忆)。相较LSTM,BLSTM可以根据文本的前后向信息作出推测。
设特征图的大小为m×T(如本方法中为512*16),其中m为特征图的通道数,T为时间步的数量。
则输出的得分序列为:
X=(x1,x2,…,xT)
其中的每个元素对应输入的单个时间步;
设对于上述的X,预测识别的文本序列为:
Y=(y1,y2,…,yU)
对于一对(X,Y),建立条件概率如下:
P(Y|X)=∑Align∈AlignX,Y(∏Tt=1pt(at|X))
其中,使用最小化负对数损失代替最大似然估计,因此,对于N个样本(X1,Y1),(X2,Y2),…(XN,YN)损失函数为:
基于此损失函数来进行前向传播,训练CRNN模型;
S32:由于地址文本的语法与自然语言有一定的差距,此处先使用ICDAR2017RCTW数据集训练得到预训练模型,之后使用1200张标注过的地址图像进行迁移学习训练。
预测阶段:
S4:输入待识别的图像,使用CTPN定位图像中所有文本的位置,并使用矩形框将文本框出,提供矩形的顶点坐标以及宽高;
S5:将S4中输出的文本框坐标输入CRNN,对文本框中的文本进行识别,输出预测文本;
S6:将预测文本输入地图检索接口,对地址进行模糊匹配,得到更加准确的地址文本。
所述步骤S4的具体过程是:
S41:进行图像预处理,将图片调整至CTPN输入需要的尺寸;
S42:使用VGG16卷积神经网络提取图像的特征,获得特征图;
S43:在特征图上使用滑动窗口,即图像中的每个点都结合周围区域特征获得特征向量,此时的特征只包含了CNN学习到的空间特征;
S44:将特征向量输入BiLSTM,学习每一行的序列特征,最后输出的特征既包含了CNN学习到的空间特征,也包含BLSTM学习到的序列特征;
S45:将序列特征输入全连接卷积层;
S46:将全连接层的输出输入RPN(RegionProposalNetwork,区域生成网络),输出预选文本框。
进一步地,所述步骤S5的具体过程是:
S51:对S4中输出的文本框,使用CNN提取其特征图。
S52:将CNN提取出的特征转换为特征向量,特征向量的数量等于特征图的通道数,这些特征向量每一个关联一个感受野,整体构成一个特征序列;
S53:将特征序列中的向量作为一个个时间步输入RNN中,RNN输出序列的得分矩阵;
S54:使用CTC-loss处理文本序列对齐问题。场景文本由于拍照环境、印刷瑕疵等问题,字体大小可能不统一,且文本可能不完全水平,因此需要处理序列的对齐问题;同时因为框的大小固定,而文字的大小不一,每个文字可能被多个框框中,从而有多个得分,需要将分数整合,去掉重复的文本框。
为了去除重复的文本框,CTC使用的方法是引入空白字符“∈”,将空白字符放置于重复的字符间,识别时先去除连续的重复字符,再移除空白字符,即可得到识别结果。
进一步地,所述步骤S6的具体过程是:
S61:对于S5中输出的预测文本,将文本按照高德地图要求的格式加入请求URL(UniformResourceLocator,统一资源定位符)中发出GET请求;
S62:获取返回的建议地址结果;
S63:将结果与识别的地址文本比对,文本重合度超过90%时将建议地址结果作为最终的地址文本结果。
与现有技术相比,本发明技术方案的有益效果是:
本发明对数据集进行预处理:去除数据集标注文本中无法识别的生僻字,以及该标注文本对应的图像,其中,数据集包括图像和图像对应的标注文本;使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练;训练卷积循环神经网络CRNN模型;输入预处理后的图像,使用CTPN定位图像中所有文本的位置,并使用矩形框将文本框出,提供矩形的顶点坐标以及宽高;将输出的文本框坐标输入CRNN,对文本框中的文本进行识别,输出预测文本;本申请使用了CTPN和CRNN作为基础的场景文本识别方法,同时加入了地图地址检索接口的部分来适应地址识别的需求,从而针对性地提高了地址识别的准确率。
附图说明
图1为本发明方法流程图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
如图1所示,一种面向地址场景识别的离线文字识别方法,其特征在于,包括以下步骤:
S1:对数据集进行预处理:去除数据集标注文本中无法识别的生僻字,以及该标注文本对应的图像,其中,数据集包括图像和图像对应的标注文本;
S2:使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练;
S3:训练卷积循环神经网络CRNN模型;
S4:输入预处理后的图像,使用CTPN定位图像中所有文本的位置,并使用矩形框将文本框出,提供矩形的顶点坐标以及宽高;
S5:将步骤S4中输出的文本框坐标输入CRNN,对文本框中的文本进行识别,输出预测文本。
将预测文本输入地图检索接口,对地址进行模糊匹配,得到准确的地址文本。
步骤S3的具体过程是:
S31:卷积循环神经网络CRNN模型的训练过程基于最小化CTCloss进行:
设特征图的大小为m×T,其中m为特征图的通道数,T为时间步的数量,则输出的得分序列为:
X=(x1,x2,…,xT)
其中的每个元素对应输入的单个时间步;
设对于上述的X,预测识别的文本序列为:
Y=(y1,y2,…,yU)
对于一对(X,Y),建立条件概率如下:
P(Y|X)=∑Align∈AlignX,Y(∏Tt=1pt(at|X)
其中,使用最小化负对数损失代替最大似然估计,因此,对于N个样本(X1,Y1),(X2,Y2),…(XN,YN)损失函数为:
基于此lossfunction来进行前向传播,训练CRNN模型;
S32:由于地址文本的语法与自然语言有一定的差距,此处先使用ICDAR2017RCTW数据集训练得到预训练模型,之后使用1200张标注过的地址图像进行迁移学习训练。
步骤S4的具体过程是:
S41:将图片调整至CTPN输入需要的尺寸;
S42:使用VGG16卷积神经网络提取图像的特征,获得特征图;
S43:在特征图上使用滑动窗口,即图像中的每个点都结合周围区域特征获得特征向量,此时的特征只包含了CNN学习到的空间特征;
S44:将特征向量输入BiLSTM,学习每一行的序列特征,最后输出的特征既包含了CNN学习到的空间特征,也包含BLSTM学习到的序列特征;
S45:将序列特征输入全连接卷积层;
S46:将全连接层的输出输入RPN输出预选文本框。
步骤S5的具体过程是:
S51:对步骤S4中输出的文本框,使用CNN提取其特征图;
S52:将CNN提取出的特征转换为特征向量,特征向量的数量等于特征图的通道数,这些特征向量每一个关联一个感受野,整体构成一个特征序列;
S53:将特征序列中的向量作为一个个时间步输入RNN中,RNN输出序列的得分矩阵;
S54:使用CTC-loss处理文本序列对齐问题,场景文本由于拍照环境、印刷瑕疵等问题,字体大小可能不统一,且文本可能不完全水平,因此需要处理序列的对齐问题;同时因为框的大小固定,而文字的大小不一,每个文字可能被多个框框中,从而有多个得分,需要将分数整合,去掉重复的文本框;为了去除重复的文本框,CTC使用的方法是引入空白字符“∈”,将空白字符放置于重复的字符间,识别时先去除连续的重复字符,再移除空白字符,即可得到识别结果。
步骤S6的具体过程是:
S61:对于S5中输出的预测文本,将文本按照高德地图要求的格式加入请求URL中发出GET请求;
S62:获取返回的建议地址结果;
S63:将结果与识别的地址文本比对,文本重合度超过90%时将建议地址结果作为最终的地址文本结果。
图像尺寸调整标准为:宽高比例不变,高h=720。
步骤S42中,使用基础的卷积神经网络提取图像的特征图,网络层包括13个卷积层,13个ReLU层,和4个池化层。其中所有的卷积层卷积核为3×3,填充为1,步长为1;所有的池化层卷积核尺寸为2×2,填充为0,步长为2,在网络中,卷积层和ReLU层没有改变输入图像的尺寸,只有在池化层中图像的尺寸变为输入的1/2。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (8)
1.一种面向地址场景识别的离线文字识别方法,其特征在于,包括以下步骤:
S1:对数据集进行预处理:去除数据集标注文本中无法识别的生僻字,以及该标注文本对应的图像,其中,数据集包括图像和图像对应的标注文本;
S2:使用ICDAR2017RCTW数据集对连接预选框网络CTPN进行训练;
S3:训练卷积循环神经网络CRNN模型;
S4:输入预处理后的图像,使用CTPN定位图像中所有文本的位置,并使用矩形框将文本框出,提供矩形的顶点坐标以及宽高;
S5:将步骤S4中输出的文本框坐标输入CRNN,对文本框中的文本进行识别,输出预测文本;
所述步骤S5的具体过程是:
S51:对步骤S4中输出的文本框,使用CNN提取其特征图;
S52:将CNN提取出的特征转换为特征向量,特征向量的数量等于特征图的通道数,这些特征向量每一个关联一个感受野,整体构成一个特征序列;
S53:将特征序列中的向量作为一个个时间步输入RNN中,RNN输出序列的得分矩阵;
S54:使用CTC-loss处理文本序列对齐问题,场景文本由于拍照环境、印刷瑕疵问题,字体大小可能不统一,且文本可能不完全水平,因此需要处理序列的对齐问题;同时因为框的大小固定,而文字的大小不一,每个文字可能被多个框框中,从而有多个得分,需要将分数整合,去掉重复的文本框;
还包括S6的具体过程是:
S61:对于S5中输出的预测文本,将文本按照高德地图要求的格式加入请求URL中发出GET请求;
S62:获取返回的建议地址结果;
S63:将结果与识别的地址文本比对,文本重合度超过阈值时将建议地址结果作为最终的地址文本结果。
2.根据权利要求1所述的面向地址场景识别的离线文字识别方法,其特征在于,将预测文本输入地图检索接口,对地址进行模糊匹配,得到准确的地址文本。
3.根据权利要求2所述的面向地址场景识别的离线文字识别方法,其特征在于,所述步骤S3的具体过程是:
S31:卷积循环神经网络CRNN模型的训练过程基于最小化CTCloss进行:
设特征图的大小为m×T,其中m为特征图的通道数,T为时间步的数量,则输出的得分序列为:
X=(x1,x2,…,xT)
其中的每个元素对应输入的单个时间步;
设对于上述的X,预测识别的文本序列为:
Y=(y1,y2,…,yU)
对于一对(X,Y),建立条件概率如下:
P(Y|X)=∑Align∈AlignX,Y(∏Tt=1pt(at|X)
其中,使用最小化负对数损失代替最大似然估计,因此,对于N个样本(X1,Y1),(X2,Y2),…(XN,YN)损失函数为:
基于此lossfunction来进行前向传播,训练CRNN模型;
S32:由于地址文本的语法与自然语言有一定的差距,此处先使用ICDAR2017RCTW数据集训练得到预训练模型,之后使用1200张标注过的地址图像进行迁移学习训练。
4.根据权利要求3所述的面向地址场景识别的离线文字识别方法,其特征在于,所述步骤S4的具体过程是:
S41:将图片调整至CTPN输入需要的尺寸;
S42:使用VGG16卷积神经网络提取图像的特征,获得特征图;
S43:在特征图上使用滑动窗口,即图像中的每个点都结合周围区域特征获得特征向量,此时的特征只包含了CNN学习到的空间特征;
S44:将特征向量输入BiLSTM,学习每一行的序列特征,最后输出的特征既包含了CNN学习到的空间特征,也包含BLSTM学习到的序列特征;
S45:将序列特征输入全连接卷积层;
S46:将全连接层的输出输入RPN输出预选文本框。
5.根据权利要求1所述的面向地址场景识别的离线文字识别方法,其特征在于,为了去除重复的文本框,CTC使用的方法是引入空白字符“∈”,将空白字符放置于重复的字符间,识别时先去除连续的重复字符,再移除空白字符,即可得到识别结果。
6.根据权利要求1所述的面向地址场景识别的离线文字识别方法,其特征在于,步骤S41中,图像尺寸调整标准为:宽高比例不变,高h=720。
7.根据权利要求6所述的面向地址场景识别的离线文字识别方法,其特征在于,步骤S42中,使用基础的卷积神经网络提取图像的特征图,网络层包括13个卷积层,13个ReLU层,和4个池化层;其中所有的卷积层卷积核为3×3,填充为1,步长为1;所有的池化层卷积核尺寸为2×2,填充为0,步长为2,在网络中,卷积层和ReLU层没有改变输入图像的尺寸,只有在池化层中图像的尺寸变为输入的1/2。
8.根据权利要求7所述的面向地址场景识别的离线文字识别方法,其特征在于,文本重合度超过阈值是90%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011110108.8A CN112418225B (zh) | 2020-10-16 | 2020-10-16 | 一种面向地址场景识别的离线文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011110108.8A CN112418225B (zh) | 2020-10-16 | 2020-10-16 | 一种面向地址场景识别的离线文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418225A CN112418225A (zh) | 2021-02-26 |
CN112418225B true CN112418225B (zh) | 2023-07-21 |
Family
ID=74854989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011110108.8A Active CN112418225B (zh) | 2020-10-16 | 2020-10-16 | 一种面向地址场景识别的离线文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418225B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378812A (zh) * | 2021-05-21 | 2021-09-10 | 郑州大学 | 一种基于Mask R-CNN和CRNN的数字表盘识别方法 |
CN116630755B (zh) * | 2023-04-10 | 2024-04-02 | 雄安创新研究院 | 一种检测场景图像中的文本位置的方法、系统和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109993164A (zh) * | 2019-03-20 | 2019-07-09 | 上海电力学院 | 一种基于rcrnn神经网络的自然场景文字识别方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN111401371A (zh) * | 2020-06-03 | 2020-07-10 | 中邮消费金融有限公司 | 一种文本检测识别方法、系统及计算机设备 |
-
2020
- 2020-10-16 CN CN202011110108.8A patent/CN112418225B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109993164A (zh) * | 2019-03-20 | 2019-07-09 | 上海电力学院 | 一种基于rcrnn神经网络的自然场景文字识别方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN111401371A (zh) * | 2020-06-03 | 2020-07-10 | 中邮消费金融有限公司 | 一种文本检测识别方法、系统及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112418225A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239801B (zh) | 视频属性表示学习方法及视频文字描述自动生成方法 | |
US5373566A (en) | Neural network-based diacritical marker recognition system and method | |
CN107330127B (zh) | 一种基于文本图片检索的相似文本检测方法 | |
CN112418225B (zh) | 一种面向地址场景识别的离线文字识别方法 | |
CN110147788B (zh) | 一种基于特征增强crnn的金属板带产品标签文字识别方法 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN109800756B (zh) | 一种用于中文历史文献密集文本的文字检测识别方法 | |
CN111027562A (zh) | 基于多尺度cnn和结合注意力机制的rnn的光学字符识别方法 | |
CN112818951A (zh) | 一种票证识别的方法 | |
TWI765469B (zh) | 車牌辨識系統與方法及提取車牌中複數個字元段的方法 | |
CN112070114B (zh) | 基于高斯约束注意力机制网络的场景文字识别方法及系统 | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN111666937A (zh) | 一种图像中的文本识别方法及系统 | |
CN114550158A (zh) | 一种场景文字识别方法及系统 | |
CN111428750A (zh) | 一种文本识别模型训练及文本识别方法、装置及介质 | |
CN114187595A (zh) | 基于视觉特征和语义特征融合的文档布局识别方法及系统 | |
Hoxha et al. | Remote sensing image captioning with SVM-based decoding | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN110717068B (zh) | 一种基于深度学习的视频检索方法 | |
CN115545009B (zh) | 一种获取目标文本的数据处理系统 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN115984842A (zh) | 一种基于多模态的视频开放标签提取方法 | |
CN114882212A (zh) | 一种基于先验结构的语义分割方法及装置 | |
CN114357165A (zh) | 一种基于深度学习网络的短文本分类方法 | |
CN115410131A (zh) | 一种用于短视频智能分类的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |