CN109902622A - 一种用于登机牌信息验证的文字检测识别方法 - Google Patents
一种用于登机牌信息验证的文字检测识别方法 Download PDFInfo
- Publication number
- CN109902622A CN109902622A CN201910143301.2A CN201910143301A CN109902622A CN 109902622 A CN109902622 A CN 109902622A CN 201910143301 A CN201910143301 A CN 201910143301A CN 109902622 A CN109902622 A CN 109902622A
- Authority
- CN
- China
- Prior art keywords
- text
- sequence
- output
- recognition methods
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明涉及一种用于登机牌信息验证的文字检测识别方法,属于计算机视觉领域。该方法包括以下步骤:S1:读取登机牌图像,获取登机牌测试图像和训练图像;S2:通过基于模糊区域的多任务全卷积神经网络模型的文本行检测方法,定位到每个文本块;S3:通过基于CTC和自注意力机制的文本识别模型学习,实现文本行即定位到的文本块的识别;S4:建立登机牌常用文字库,以此学习n‑gram语言模型,辅助优化文本行识别结果。本发明采用自动检测识别登机牌文字信息,实现中英文混合的文本行识别,获得更全面的个人信息。
Description
技术领域
本发明属于计算机视觉领域,涉及一种用于登机牌信息验证的文字检测识别方法。
背景技术
现有的文字检测和文字识别技术在登机牌文字识别上效果不佳,由于登机牌文字排列不整齐,且会出现文本叠加的情况,目前的文字检测技术未对这种问题提出有效的解决方案。
另外,通用的文字识别算法多基于英文文字进行研究,而中文文字种类过多,在六七千类左右,现有的深度学习网络不适用于中文识别这种类别数量过多的情况。目前登机牌验证通关,是通过扫条形码的方式,条形码中只包含部分信息(如航班号、座位号、始发地、日期等),而旅客姓名、到达地、登机时间、登机口、及其他旅客信息都没有记录。而条形码的信息存储量有限,因此通过文字识别进行登机牌信息验证非常有必要。
文本行检测是文本行识别的基础。近年来,得益于丰富的数据集和计算能力的提高,深度学习技术也取得了很大的进展。深度学习技术也被广泛运用于计算机视觉领域,文本行检测作为计算机视觉的一个子领域也取得一些进展。但是也存在许多计算机视觉领域广泛存在的问题,例如光照、形变、角度和遮挡等变化,给检测性能带来很大的影响。所以很难做出一个能适用于各个场景的检测技术,且目前的文本行检测算法无法解决这种文本叠加情况。
传统的基于文本行识别的深度学习算法,均是基于lstm(Long Short-TermMemory,长短期记忆网络)网络进行模型训练和测试,由于lstm具有较好的上下文记忆功能,在传统的英文识别领域应用广泛,但在文字类别数过大时,lstm的效率较低,而中文文字类别远远大于英文字母的类别。
发明内容
有鉴于此,本发明的目的在于提供一种用于登机牌信息验证的文字检测识别方法,通过对登机牌的文字信息进行有效的检测和识别,获得旅客相关的个人信息及乘机信息,有助于民航工作人员对旅客信息进行准确判断,在民航安保领域有很高的应用价值。
为达到上述目的,本发明提供如下技术方案:
一种用于登机牌信息验证的文字检测识别方法,具体包括以下步骤:
S1:读取登机牌图像,获取登机牌测试图像和训练图像;
S2:通过基于模糊区域的多任务全卷积神经网络模型(FCN模型)的文本行检测方法,定位到每个文本块;
S3:通过基于CTC(Connectionist Temporal Classification)和自注意力机制(self-attention)的文本识别模型学习,实现文本行即定位到的文本块的识别;
S4:建立登机牌常用文字库,以此学习n-gram语言模型,辅助优化文本行识别结果。
进一步,所述步骤S2中,所述文本行检测方法具体包括以下步骤:
S21:将登机牌图像输入到所述多任务全卷积神经网络模型中;
S22:所述多任务全卷积神经网络模型得出中文/英文/非文本预测输出、连接预测输出和模糊区域预测输出;
S23:将连接预测输出进行实例分割,输出文本定位框和中英文标记。
进一步,所述多任务全卷积神经网络模型可采用Densenet、resnet或alexnet等任意网络作为特征提取模型,其中全链接层转换为卷积层。
进一步,所述多任务全卷积神经网络模型中的输出层分为三个部分,均采用softmax层连接,具体为:
(1)中文/英文/非文本预测输出的是文本的类型,分为中文、英文或非文本三种;
(2)连接预测输出的是每一个像素与它8邻域的连接情况,以此判断是否属于同一文本框,其中每一个相邻像素给出是否为正连接,是否为正连接是二分类问题,输出维度为2*8;相邻两像素若属于同一文本类型,即为正链接,有重叠的区域另作处理;
(2)模糊区域即有重叠区域预测输出:判断文本块间是否有重叠,先将有重叠的区域与其他区域的像素定义为负连接,待实例分割后再与相邻分割区域分别合并,是否有重叠是二分类问题,输出维度为2。
进一步,所述步骤S23具体包括:通过是否为正连接来组合相同类别的像素,达到实例分割的目的,计算出包含每个分割区域且面积最小的矩形框,作为最终的检测框,检测框记录为五元向量r=(x,y,width,height,angle),其中(x,y)、width、height、angle分别表示矩形框的坐标、长、宽和旋转角度;并对检测框进行几何信息过滤,其中几何信息包括高度、宽度、面积和长宽比。
实例分割的过程不可避免会产生一些噪声,所以需要后处理来过滤。最直接的方法就是对对例分割过程中产生的检测框进行几何信息(高度、宽度、面积、长宽比)过滤,比如过滤掉边长小于10个像素或面积小于100个像素的检测框。
进一步,所述步骤S3中,所述的基于CTC和自注意力机制(self-attention)的文本识别模型是采用基于隐式切分(attention的实质是实现原始特征的隐式切分)的文本行识别方法,结合CTC解码,完成中英文混合的文本行识别,具体步骤为:先用卷积神经网络(CNN)提取图片的卷积特征(卷积层数不宜过多,3层以内即可,因为需要控制感受野的大小以获取更细粒度的图像信息),将卷积特征切分为特征序列,并加入位置信息(即原始图像中每个字符所在的位置坐标),送入attention模块,attention机制是模拟人眼的注意力机制,针对不同的位置信息及输入输出序列的相关性,计算输入特征序列每个区域分配的权重,即预测当前字符时,只需关注输入特征序列中权重较高的部分,实现序列的隐式分割;解码端使用CTC序列标注算法输出字符序列,再经过语言模型的修正,输出最后的预测文本序列。
进一步,所述卷积特征切分后的序列表示为x(x1,x2,x3,…,xn),经过attention模块映射后的序列表示为z(z1,z2,z3,…,zn),经过CTC序列标注算法输出的字符序列表示为y(y1,y2,…,ym),其中,x为文本块提取的特征序列,z为经过attention模块映射后的特征序列,n为特征的维数,y为经过ctc算法解码后的输出结果序列,m为经过文字识别后得到的结果序列的字符长度,由于字符长度是可变的,所以此处m不一定等于n,由ctc算法自适应产生。
本发明的有益效果在于:
(1)与传统登机牌信息验证的区别:传统验证通过条形码扫描,信息不全;本发明采用的自动检测识别登机牌文字信息的方法可以获得更全面的个人信息。
(2)与传统基于深度学习的文本行检测的区别:本发明考虑了文本叠加对文本行检测的影响,将模糊区域的判断作为多任务文本行检测中的一个任务,能准确定位及划分开叠加在一起的文本块儿。在文本检测过程中,得到的结果若出现文本叠加情况,能进行相应的区别处理。
(3)与传统基于深度学习的文本行识别的区别:本发明加入对模糊区域的考虑,将CTC与self-attention相结合的机制应用在登机牌文本行识别领域,去除了传统文本行识别需要的LSTM(长短期记忆)网络,并且借助登机牌特定语料库建立特定的语言模型,辅助优化文本行识别结果,实现中英文混合的文本行识别。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为登机牌文本检测识别流程图;
图2为文字检测算法流程图;
图3为FCN模型结构示例图;
图4为文本块识别流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
如图1所示,本发明所述的一种用于登机牌信息验证的文字检测识别方法,具体包括以下步骤:
S1:读取登机牌图像,获取登机牌测试图像和训练图像;
S2:通过基于模糊区域的多任务全卷积神经网络模型(FCN模型)的文本行检测方法,定位到每个文本块;
如图2所示,基于全卷积神经网络模型(FCN模型)的学习过程,通过已标记好模糊区域的图像数据进行模型训练获得,所述文本行检测方法具体包括以下步骤:
S21:将登机牌图像输入到所述多任务全卷积神经网络模型中;
S22:所述多任务全卷积神经网络模型得出中文/英文/非文本预测输出、连接预测输出和模糊区域预测输出。如图3所示,多任务全卷积神经网络模型可采用Densenet、resnet或alexnet等任意网络作为特征提取模型,其中全链接层转换为卷积层。以Densenet网络为例,特征提取模型采用三个DenseBlock相连接,卷积层6通过上采样恢复至与卷积层4一样大小,融合后再通过上采样与卷积层3融合,如此通过多尺度特征图的融合恢复至原图大小,这种结合不同尺度特征图的跳级结构,同时确保鲁棒性和精确度。
多任务全卷积神经网络模型中的输出层分为三个部分,均采用softmax层连接,具体为:
(1)中文/英文/非文本预测输出的是文本的类型,分为中文、英文或非文本三种;
(2)连接预测输出的是每一个像素与它8邻域的连接情况,以此判断是否属于同一文本框,其中每一个相邻像素给出是否为正连接,是否为正连接是二分类问题,输出维度为2*8;相邻两像素若属于同一文本类型,即为正链接,有重叠的区域另作处理;
(3)模糊区域即有重叠区域预测输出:判断文本块间是否有重叠,先将有重叠的区域与其他区域的像素定义为负连接,待实例分割后再与相邻分割区域分别合并,是否有重叠是二分类问题,输出维度为2。
S23:将连接预测输出进行实例分割,输出文本定位框和中英文标记。具体包括:通过是否为正连接来组合相同类别的像素,达到实例分割的目的,计算出包含每个分割区域且面积最小的矩形框,作为最终的检测框,检测框记录为五元向量r=(x,y,width,height,angle),其中(x,y)、width、height、angle分别表示矩形框的坐标、长、宽和旋转角度;并对检测框进行几何信息过滤,其中几何信息包括高度、宽度、面积和长宽比。
实例分割的过程不可避免会产生一些噪声,所以需要后处理来过滤。最直接的方法就是对对例分割过程中产生的检测框进行几何信息(高度、宽度、面积、长宽比)过滤,比如过滤掉边长小于10个像素或面积小于100个像素的检测框。
S3:通过基于CTC(Connectionist Temporal Classification)和自注意力机制(self-attention)的文本识别模型学习,实现文本行即定位到的文本块的识别。
如图4所示,基于CTC和自注意力机制(self-attention)的文本识别模型是采用基于隐式切分(attention的实质是实现原始特征的隐式切分)的文本行识别方法,结合CTC解码,完成中英文混合的文本行识别,具体步骤为:先用卷积神经网络(CNN)提取图片的卷积特征(卷积层数不宜过多,3层以内即可,因为需要控制感受野的大小以获取更细粒度的图像信息),将卷积特征切分为特征序列,并加入位置信息(即原始图像中每个字符所在的位置坐标),送入attention模块,attention机制是模拟人眼的注意力机制,针对不同的位置信息及输入输出序列的相关性,计算输入特征序列每个区域分配的权重,即预测当前字符时,只需关注输入特征序列中权重较高的部分,实现序列的隐式分割;解码端使用CTC序列标注算法输出字符序列,再经过语言模型的修正,输出最后的预测文本序列。卷积特征切分后的序列表示为x(x1,x2,x3,…,xn),经过attention模块映射后的序列表示为z(z1,z2,z3,…,zn),经过CTC序列标注算法输出的字符序列表示为y(y1,y2,…,ym),其中,x为文本块提取的特征序列,z为经过attention模块映射后的特征序列,n为特征的维数,y为经过ctc算法解码后的输出结果序列,m为经过文字识别后得到的结果序列的字符长度,由于字符长度是可变的,所以此处m不一定等于n,由ctc算法自适应产生。
S4:建立登机牌常用文字库,以此学习n-gram语言模型,辅助优化文本行识别结果。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (7)
1.一种用于登机牌信息验证的文字检测识别方法,其特征在于,该方法具体包括以下步骤:
S1:读取登机牌图像,获取登机牌测试图像和训练图像;
S2:通过基于模糊区域的多任务全卷积神经网络模型的文本行检测方法,定位到每个文本块;
S3:通过基于CTC和自注意力机制的文本识别模型学习,实现文本行即定位到的文本块的识别;
S4:建立登机牌常用文字库,以此学习n-gram语言模型,辅助优化文本行识别结果。
2.根据权利要求1所述的一种用于登机牌信息验证的文字检测识别方法,其特征在于,所述步骤S2中,所述文本行检测方法具体包括以下步骤:
S21:将登机牌图像输入到所述多任务全卷积神经网络模型中;
S22:所述多任务全卷积神经网络模型得出中文/英文/非文本预测输出、连接预测输出和模糊区域预测输出;
S23:将连接预测输出进行实例分割,输出文本定位框和中英文标记。
3.根据权利要求2所述的一种用于登机牌信息验证的文字检测识别方法,其特征在于,所述多任务全卷积神经网络模型采用Densenet、resnet或alexnet网络等作为特征提取模型,其中全链接层转换为卷积层。
4.根据权利要求2所述的一种用于登机牌信息验证的文字检测识别方法,其特征在于,所述多任务全卷积神经网络模型中的输出层分为三个部分,均采用softmax层连接,具体为:
(1)中文/英文/非文本预测输出的是文本的类型,分为中文、英文或非文本三种;
(2)连接预测输出的是每一个像素与它8邻域的连接情况,以此判断是否属于同一文本框,其中每一个相邻像素给出是否为正连接,是否为正连接是二分类问题,输出维度为2*8;相邻两像素若属于同一文本类型,即为正链接,有重叠的区域另作处理;
(2)模糊区域即有重叠区域预测输出:判断文本块间是否有重叠,先将有重叠的区域与其他区域的像素定义为负连接,待实例分割后再与相邻分割区域分别合并,是否有重叠是二分类问题,输出维度为2。
5.根据权利要求4所述的一种用于登机牌信息验证的文字检测识别方法,其特征在于,所述步骤S23具体包括:通过是否为正连接来组合相同类别的像素,达到实例分割的目的,计算出包含每个分割区域且面积最小的矩形框,作为最终的检测框,检测框记录为五元向量r=(x,y,width,height,angle),其中(x,y)、width、height、angle分别表示矩形框的坐标、长、宽和旋转角度;并对检测框进行几何信息过滤,其中几何信息包括高度、宽度、面积和长宽比。
6.根据权利要求1所述的一种用于登机牌信息验证的文字检测识别方法,其特征在于,所述步骤S3中,所述的基于CTC和自注意力机制的文本识别模型是采用基于隐式切分的文本行识别方法,结合CTC解码,完成中英文混合的文本行识别,具体步骤为:先用卷积神经网络提取图片的卷积特征,将卷积特征切分为特征序列,并加入位置信息,送入attention模块,计算输入特征序列每个区域分配的权重,即预测当前字符时,只需关注输入特征序列中权重较高的部分,实现序列的隐式分割;解码端使用CTC序列标注算法输出字符序列,再经过语言模型的修正,输出最后的预测文本序列。
7.根据权利要求6所述的一种用于登机牌信息验证的文字检测识别方法,其特征在于,所述卷积特征切分后的序列表示为x(x1,x2,x3,…,xn),经过attention模块映射后的序列表示为z(z1,z2,z3,…,zn),经过CTC序列标注算法输出的字符序列表示为y(y1,y2,…,ym),其中,x为文本块提取的特征序列,z为经过attention模块映射后的特征序列,n为特征的维数,y为经过ctc算法解码后的输出结果序列,m为经过文字识别后得到的结果序列的字符长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143301.2A CN109902622B (zh) | 2019-02-26 | 2019-02-26 | 一种用于登机牌信息验证的文字检测识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910143301.2A CN109902622B (zh) | 2019-02-26 | 2019-02-26 | 一种用于登机牌信息验证的文字检测识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109902622A true CN109902622A (zh) | 2019-06-18 |
CN109902622B CN109902622B (zh) | 2020-06-09 |
Family
ID=66945636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910143301.2A Active CN109902622B (zh) | 2019-02-26 | 2019-02-26 | 一种用于登机牌信息验证的文字检测识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109902622B (zh) |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276351A (zh) * | 2019-06-28 | 2019-09-24 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN110348339A (zh) * | 2019-06-26 | 2019-10-18 | 西安理工大学 | 一种基于实例分割的手写文档文本行的提取方法 |
CN110378400A (zh) * | 2019-07-08 | 2019-10-25 | 北京三快在线科技有限公司 | 一种用于图像识别的模型训练方法及装置 |
CN110428809A (zh) * | 2019-06-28 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110619326A (zh) * | 2019-07-02 | 2019-12-27 | 安徽七天教育科技有限公司 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
CN110674811A (zh) * | 2019-09-04 | 2020-01-10 | 广东浪潮大数据研究有限公司 | 图像识别的方法及装置 |
CN110674777A (zh) * | 2019-09-30 | 2020-01-10 | 电子科技大学 | 一种专利文本场景下的光学字符识别方法 |
CN110766020A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向多语种自然场景文本检测与识别的系统及方法 |
CN110909728A (zh) * | 2019-12-03 | 2020-03-24 | 中国太平洋保险(集团)股份有限公司 | 一种多语种保单自动识别的控制算法及装置 |
CN110956088A (zh) * | 2019-10-31 | 2020-04-03 | 北京易道博识科技有限公司 | 基于深度学习的交叠文本行定位分割方法及系统 |
CN110969129A (zh) * | 2019-12-03 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种端到端税务票据文本检测与识别方法 |
CN111259773A (zh) * | 2020-01-13 | 2020-06-09 | 中国科学院重庆绿色智能技术研究院 | 一种基于双向解码的不规则文本行识别方法及系统 |
CN111310757A (zh) * | 2020-02-07 | 2020-06-19 | 北方工业大学 | 视频弹幕检测识别方法及装置 |
CN111476210A (zh) * | 2020-05-11 | 2020-07-31 | 上海西井信息科技有限公司 | 基于图像的文本识别方法、系统、设备及存储介质 |
CN111598082A (zh) * | 2020-04-24 | 2020-08-28 | 云南电网有限责任公司电力科学研究院 | 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法 |
CN111723789A (zh) * | 2020-02-19 | 2020-09-29 | 王春宝 | 一种基于深度学习的图像文本坐标定位方法 |
CN111914838A (zh) * | 2020-07-28 | 2020-11-10 | 同济大学 | 一种基于文本行识别的车牌识别方法 |
CN112101385A (zh) * | 2020-09-21 | 2020-12-18 | 西南大学 | 一种弱监督文本检测方法 |
CN112149663A (zh) * | 2020-08-28 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的图像文字的提取方法、装置及电子设备 |
CN112784841A (zh) * | 2021-02-26 | 2021-05-11 | 北京市商汤科技开发有限公司 | 文本识别方法及装置 |
CN112990220A (zh) * | 2021-04-19 | 2021-06-18 | 烟台中科网络技术研究所 | 一种图像中目标文本智能识别方法及系统 |
CN113128496A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 一种从图像中提取结构化数据的方法、装置和设备 |
WO2021185098A1 (zh) * | 2020-03-18 | 2021-09-23 | 华为技术有限公司 | 基于字符识别的字符选择方法、装置和终端设备 |
CN113505625A (zh) * | 2021-01-12 | 2021-10-15 | 湖南师范大学 | 一种专家知识引导机制下的交通文本检测方法与系统 |
CN113657376A (zh) * | 2020-08-10 | 2021-11-16 | 广东电网有限责任公司 | 电力专业的设备标识牌识别算法 |
CN114140803A (zh) * | 2022-01-30 | 2022-03-04 | 杭州实在智能科技有限公司 | 基于深度学习的文档单字坐标检测和修正方法及系统 |
US11823471B2 (en) | 2020-02-14 | 2023-11-21 | Microsoft Technology Licensing, Llc | Text recognition in image |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN108549871A (zh) * | 2018-04-17 | 2018-09-18 | 北京华捷艾米科技有限公司 | 一种基于区域生长和机器学习的手部分割方法 |
WO2018207390A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Corporation | Speech recognition system and method for speech recognition |
-
2019
- 2019-02-26 CN CN201910143301.2A patent/CN109902622B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106570456A (zh) * | 2016-10-13 | 2017-04-19 | 华南理工大学 | 基于全卷积递归网络的手写汉字文本识别方法 |
WO2018207390A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Corporation | Speech recognition system and method for speech recognition |
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108509881A (zh) * | 2018-03-22 | 2018-09-07 | 五邑大学 | 一种无切分的脱机手写汉字文本识别方法 |
CN108549871A (zh) * | 2018-04-17 | 2018-09-18 | 北京华捷艾米科技有限公司 | 一种基于区域生长和机器学习的手部分割方法 |
Non-Patent Citations (1)
Title |
---|
张平: "基于深度学习的自然场景文本定位与识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348339A (zh) * | 2019-06-26 | 2019-10-18 | 西安理工大学 | 一种基于实例分割的手写文档文本行的提取方法 |
CN110473518B (zh) * | 2019-06-28 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110428809A (zh) * | 2019-06-28 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110473518A (zh) * | 2019-06-28 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110534092A (zh) * | 2019-06-28 | 2019-12-03 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110534092B (zh) * | 2019-06-28 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110276351A (zh) * | 2019-06-28 | 2019-09-24 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN110428809B (zh) * | 2019-06-28 | 2022-04-26 | 腾讯科技(深圳)有限公司 | 语音音素识别方法和装置、存储介质及电子装置 |
CN110276351B (zh) * | 2019-06-28 | 2022-09-06 | 中国科学技术大学 | 多语言场景文本检测与识别方法 |
CN110619326A (zh) * | 2019-07-02 | 2019-12-27 | 安徽七天教育科技有限公司 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
CN110619326B (zh) * | 2019-07-02 | 2023-04-18 | 安徽七天网络科技有限公司 | 一种基于扫描的英语试卷作文检测识别系统及方法 |
CN110378400A (zh) * | 2019-07-08 | 2019-10-25 | 北京三快在线科技有限公司 | 一种用于图像识别的模型训练方法及装置 |
CN110674811A (zh) * | 2019-09-04 | 2020-01-10 | 广东浪潮大数据研究有限公司 | 图像识别的方法及装置 |
CN110674777A (zh) * | 2019-09-30 | 2020-01-10 | 电子科技大学 | 一种专利文本场景下的光学字符识别方法 |
CN110766020A (zh) * | 2019-10-30 | 2020-02-07 | 哈尔滨工业大学 | 一种面向多语种自然场景文本检测与识别的系统及方法 |
CN110956088B (zh) * | 2019-10-31 | 2023-06-30 | 北京易道博识科技有限公司 | 基于深度学习的交叠文本行定位分割方法及系统 |
CN110956088A (zh) * | 2019-10-31 | 2020-04-03 | 北京易道博识科技有限公司 | 基于深度学习的交叠文本行定位分割方法及系统 |
CN110909728A (zh) * | 2019-12-03 | 2020-03-24 | 中国太平洋保险(集团)股份有限公司 | 一种多语种保单自动识别的控制算法及装置 |
CN110969129A (zh) * | 2019-12-03 | 2020-04-07 | 山东浪潮人工智能研究院有限公司 | 一种端到端税务票据文本检测与识别方法 |
CN110969129B (zh) * | 2019-12-03 | 2023-09-01 | 山东浪潮科学研究院有限公司 | 一种端到端税务票据文本检测与识别方法 |
CN113128496A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 一种从图像中提取结构化数据的方法、装置和设备 |
CN113128496B (zh) * | 2019-12-31 | 2023-12-12 | 华为云计算技术有限公司 | 一种从图像中提取结构化数据的方法、装置和设备 |
CN111259773A (zh) * | 2020-01-13 | 2020-06-09 | 中国科学院重庆绿色智能技术研究院 | 一种基于双向解码的不规则文本行识别方法及系统 |
CN111310757A (zh) * | 2020-02-07 | 2020-06-19 | 北方工业大学 | 视频弹幕检测识别方法及装置 |
CN111310757B (zh) * | 2020-02-07 | 2023-08-11 | 北方工业大学 | 视频弹幕检测识别方法及装置 |
US11823471B2 (en) | 2020-02-14 | 2023-11-21 | Microsoft Technology Licensing, Llc | Text recognition in image |
CN111723789A (zh) * | 2020-02-19 | 2020-09-29 | 王春宝 | 一种基于深度学习的图像文本坐标定位方法 |
WO2021185098A1 (zh) * | 2020-03-18 | 2021-09-23 | 华为技术有限公司 | 基于字符识别的字符选择方法、装置和终端设备 |
CN111598082B (zh) * | 2020-04-24 | 2023-10-17 | 云南电网有限责任公司电力科学研究院 | 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法 |
CN111598082A (zh) * | 2020-04-24 | 2020-08-28 | 云南电网有限责任公司电力科学研究院 | 一种基于全卷积网络与实例分割网络的电力铭牌文本检测方法 |
CN111476210B (zh) * | 2020-05-11 | 2021-03-30 | 上海西井信息科技有限公司 | 基于图像的文本识别方法、系统、设备及存储介质 |
CN111476210A (zh) * | 2020-05-11 | 2020-07-31 | 上海西井信息科技有限公司 | 基于图像的文本识别方法、系统、设备及存储介质 |
CN111914838A (zh) * | 2020-07-28 | 2020-11-10 | 同济大学 | 一种基于文本行识别的车牌识别方法 |
CN113657376A (zh) * | 2020-08-10 | 2021-11-16 | 广东电网有限责任公司 | 电力专业的设备标识牌识别算法 |
CN112149663A (zh) * | 2020-08-28 | 2020-12-29 | 北京来也网络科技有限公司 | 结合rpa和ai的图像文字的提取方法、装置及电子设备 |
CN112101385B (zh) * | 2020-09-21 | 2022-06-10 | 西南大学 | 一种弱监督文本检测方法 |
CN112101385A (zh) * | 2020-09-21 | 2020-12-18 | 西南大学 | 一种弱监督文本检测方法 |
CN113505625A (zh) * | 2021-01-12 | 2021-10-15 | 湖南师范大学 | 一种专家知识引导机制下的交通文本检测方法与系统 |
CN112784841A (zh) * | 2021-02-26 | 2021-05-11 | 北京市商汤科技开发有限公司 | 文本识别方法及装置 |
CN112990220A (zh) * | 2021-04-19 | 2021-06-18 | 烟台中科网络技术研究所 | 一种图像中目标文本智能识别方法及系统 |
CN114140803B (zh) * | 2022-01-30 | 2022-06-17 | 杭州实在智能科技有限公司 | 基于深度学习的文档单字坐标检测和修正方法及系统 |
CN114140803A (zh) * | 2022-01-30 | 2022-03-04 | 杭州实在智能科技有限公司 | 基于深度学习的文档单字坐标检测和修正方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109902622B (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902622A (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN110276316B (zh) | 一种基于深度学习的人体关键点检测方法 | |
WO2023056889A1 (zh) | 模型训练和场景识别方法、装置、设备及介质 | |
CN110009679B (zh) | 一种基于多尺度特征卷积神经网络的目标定位方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN103049763B (zh) | 一种基于上下文约束的目标识别方法 | |
CN109543667A (zh) | 一种基于注意力机制的文本识别方法 | |
CN109426805B (zh) | 用于对象检测的方法、设备和计算机程序产品 | |
CN109919122A (zh) | 一种基于3d人体关键点的时序行为检测方法 | |
CN110287960A (zh) | 自然场景图像中曲线文字的检测识别方法 | |
CN111797791A (zh) | 人体姿态识别方法及装置 | |
CN107391709A (zh) | 一种基于新型注意模型进行图像字幕生成的方法 | |
CN109492630A (zh) | 一种基于深度学习的金融行业图像中的文字区域检测定位的方法 | |
JP7246104B2 (ja) | テキスト行識別に基づくナンバープレート識別方法 | |
CN109800629A (zh) | 一种基于卷积神经网络的遥感图像目标检测方法 | |
CN112633220B (zh) | 一种基于双向序列化建模的人体姿态估计方法 | |
CN110705566B (zh) | 一种基于空间金字塔池的多模态融合显著性检测方法 | |
CN110502655B (zh) | 一种嵌入场景文字信息的图像自然描述语句生成方法 | |
CN110516541A (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN106650798B (zh) | 一种结合深度学习与稀疏表示的室内场景识别方法 | |
CN108776777A (zh) | 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法 | |
CN110490189A (zh) | 一种基于双向消息链路卷积网络的显著性物体的检测方法 | |
Hao | Multimedia English teaching analysis based on deep learning speech enhancement algorithm and robust expression positioning | |
CN110490232A (zh) | 训练文字行方向预测模型的方法、装置、设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |