CN108090400A - 一种图像文本识别的方法和装置 - Google Patents

一种图像文本识别的方法和装置 Download PDF

Info

Publication number
CN108090400A
CN108090400A CN201611036897.9A CN201611036897A CN108090400A CN 108090400 A CN108090400 A CN 108090400A CN 201611036897 A CN201611036897 A CN 201611036897A CN 108090400 A CN108090400 A CN 108090400A
Authority
CN
China
Prior art keywords
single file
text
file text
image
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611036897.9A
Other languages
English (en)
Other versions
CN108090400B (zh
Inventor
程耀
宋刘汉
宋刘一汉
杜安安
许宝亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201611036897.9A priority Critical patent/CN108090400B/zh
Publication of CN108090400A publication Critical patent/CN108090400A/zh
Application granted granted Critical
Publication of CN108090400B publication Critical patent/CN108090400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种图像文本识别的方法,所述方法包括:构建单行文本图像训练集;利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。如此,实现了对自然场景单行文本信息的有效识别,降低了人工分割的成本。本发明实施例还公开了一种图像文本识别的装置。

Description

一种图像文本识别的方法和装置
技术领域
本发明涉及图像识别领域,尤其涉及一种图像文本识别的方法和装置。
背景技术
随着科技的发展和社会的进步,越来越多的科技成果正在应用于人们的日常生活中,并且改变着人们的生活其中,图像文本识别技术的应用更是越来越广泛。但随着信息井喷式增长,以及人们对图像中文本识别精度的要求不断提升,传统的图像文本识别技术已经无法满足时代的需求,对于传统的图像文本识别技术主要存在以下的问题。
第一,对于传统的光字符识别技术(Optical Character Recognition,OCR)在图像文本识别中主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐,在符合要求的情况下能够达到很高的识别水平。与文档图像文字识别不同,自然随机的场景中的文字识别则面临着图像背景复杂、分辨率低、字体多样、分布随意等挑战,传统OCR在此类情况下几乎无法被应用。
第二,应用神经网络算法进行图像文本识别,此方法需要输入大量的单个字符图像作为神经网络的训练集,这种训练集需要人工从大量图片中进行分割得到,分割时必然会引入误差信息,导致识别准确度下降;分割过程耗时耗力人工成本大,且得到的训练集有限无法满足大数据时代人们对于海量信息的需求。
发明内容
为解决上述技术问题,本发明实施例期望提供一种图像文本识别的方法和装置,实现了对自然场景单行文本信息的有效识别,既解决了对海量图像进行人工分割标注时耗时耗力的问题,又大幅提高了识别单行文本图像的准确率,避免了由于对图像中文本分割造成的误差。
本发明的技术方案是这样实现的:
本发明实施例提供了一种图像文本识别的方法,包括:
构建单行文本图像训练集;
利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;
利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
上述方案中,所述构建单行文本图像训练集包括:获取至少一种字符组合,利用获取的至少一种字符组合建立字符集,将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像,利用所述生成的单行文本图像构建单行文本图像训练集。
上述方案中,所述预设的构建方式包括:随机改变字符的形状,或随机的改变字符组合的背景或前景。
上述方案中,在生成对应的单行文本图像之后,所述方法还包括:对所述单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。
上述方案中,利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型,包括:利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征,利用所述文本序列特征训练递归神经网络(Long Short-TermMemory,LSTM)识别模型,得到单行文本识别模型。
本发明实施例还提供了一种图像文本识别的装置,其特征在于,所述装置包括:构建模块、训练模块和识别模块;其中,
构建模块,用于构建单行文本图像训练集;
处理模块,用于利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;
识别模块,用于利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
上述方案中,所述构建模块,具体用于获取至少一种字符组合,利用获取的至少一种字符组合建立字符集,将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像,利用所述生成的单行文本图像构建单行文本图像训练集。
上述方案中,所述预设的构建方式包括:随机改变字符的形状,或随机的改变字符组合的背景或前景。
上述方案中,所述构建模块,还用于在生成对应的单行文本图像之后,对所述单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。
上述方案中,所述处理模块,具体用于利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征,利用所述文本序列特征训练递归神经网络LSTM识别模型,得到单行文本识别模型。
本发明实施例中,构建单行文本图像训练集;利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。如此,实现了对自然场景单行文本信息的有效识别,既解决了对海量图像进行人工分割标注时耗时耗力的问题,又大幅提高了识别单行文本图像的准确率,避免了由于对图像中文本的单独分割造成的误差。
附图说明
图1为本发明图像文本识别的方法的第一实施例的流程图;
图2为本发明图像文本识别的方法的第二实施例的流程图;
图3为本发明实施例中单行文本图像示意图;
图4为本发明实施例图像文本识别的装置的组成结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明图像文本识别的方法的第一实施例的流程图,如图1所示,该方法包括:
步骤100:构建单行文本图像训练集。
示例性的,构建单行文本图像训练集可以包括:获取至少一种字符组合,利用获取的至少一种字符组合建立字符集,将字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像,利用生成的单行文本图像构建单行文本图像训练集。
这里的字符组合可以是由汉字组成的词语,也可以是由罗马字母组成的英文单词,阿拉伯数组和特殊字符组成的字符串,还可以是汉字、字母和特殊字符的组合。
在实际实施时,建立字符集可以是,从现代汉语常用词语库、现代英语常用词语库、热门应用程序语料库等资源中,获取常用的和最新的汉语、英语和其他字符资源,组成字符集合。这里,也可以根据使用国家的不同,建立使用国常用有语言文字字符集合,例如,印度语、西班牙语、阿拉伯语、葡萄牙语等。
进一步地,在获得字符集后,依据预设的构建方式生成对应的单行文本图像可以是,模拟自然场景的特点,将字符集中每一种字符组合扩展成具有不同形状及背景的单行文本图像。
优选地,预设的构建方式可以包括:随机改变字符的形状,或随机的改变字符组合的背景或前景;这里,随机改变字符的形状可以是:改变字符的字体、对字符进行字体仿真变换等,例如,将字符集中的每一中字符可以作以下至少一种扩展:1、设置不同字体,包括:宋体、黑体、仿宋、微软雅黑、新罗马体Times New Roman、西文正文Calibri等;2、字体仿真变换,包括:旋转、偏移、间隔、模糊处理、锐化处理等。
随机的改变字符组合的背景或前景可以是:将模拟的自然场景增加到字符组合的背景或前景中。
本步骤中,在生成对应的单行文本图像之后,还可以包括:对单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。
需要说明的是,对字符集合进行扩展生成单行文本图像后,得到的单行文本图像的尺寸不同,因此为了方便下一步对神经网络模型的训练,需要将获得的单行文本图像的宽度调整到相同尺寸。在实际应用中,可以对单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。由于字符集合中的每一种字符组合的长度不可能相同,因此不对单行文本图像的长度做限制。
示例性的,单行文本图像的宽度可以定为32个像素,对生成的单行文本图像在宽度方向上进行扩大或缩小,或者对单行文本图像的尺寸进行整体的缩放,使宽度最终调整为32个像素。
本步骤中,通过构建的海量单行文本图像训练集可有效模拟真实场景数据,解决海量标注数据难以获取的难题。
步骤101:利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型。
本步骤中,利用卷积神经网络提取单行文本图像训练集中每一个单行文本图像对应的文本序列特征,利用文本序列特征训练递归神经网络(Long Short-Term Memory,LSTM)识别模型,得到单行文本识别模型。
优选地,单行文本图像对应的文本序列特征,可以是利用去掉全连接层的卷积神经网络提取对应的文本序列特征。
在训练LSTM时,可以将文本序列特征输入到LSTM递归神经网络,并通过双向传播方法逐层修正神经网络中各结点的权值来迭代优化单行文本识别模型。
本步骤中,利用卷积神经网络提取单行文本图像中的文本序列特征,替代传统的人工选取序列特征的方法,并利用LSTM递归神经网络实现对单行文本识别模型的训练。与现有技术相比,该发明实施例对自然场景的单行文本图像识别过程具有较强鲁棒性。
步骤102:利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
本步骤中,在进行随机场景图像文本识别时,首先需将一副随机场景的图像进行单行文本切割;然后将切割后的单行文本图像作为初始值,输入到上述得到的单行文本识别模型中,并实时输出与单行文本图像包含的文字信息相对应的识别结果。
需要说明的是,在对随机场景的图像进行切割后还可以包括:对切割后的单行文本图像进行缩放处理,使得切割后的单行文本图像的宽度变为预设的固定的像素,便于单行文本识别模型的识别处理。例如,对切割后的单行文本图像在宽度方向上进行扩大或缩小,或者对切割后的单行文本图像的尺寸进行整体的缩放,使宽度最终调整为32个像素。
本发明实施例中,构建单行文本图像训练集;利用单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;利用单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。这样,通过构建的海量单行文本图像训练集可有效模拟真实场景数据,即解决海量标注数据难以获取的难题,也解决了对海量图像进行人工分割标注时耗时耗力的问题,大幅提高了识别单行文本图像的准确率,避免了由于对图像中文本的单独分割造成的误差;利用卷积神经网络提取单行文本图像中的文本序列特征,替代传统的人工选取序列特征的方法,对自然场景的单行文本图像识别过程具有较强鲁棒性。
第二实施例
为了能更加体现本发明的目的,在本发明第一实施例的基础上,以汉字识别为例进行进一步的举例说明。
图2为本发明图像文本识别的方法的第二实施例的流程图,该方法包括:
步骤200:从常用语料库中获取常用的和最新的词语,组成词语集。
在实际实施时,可以从现代汉语常用词语库、热门应用程序语料库等资源中,获取常用的和最新的词语资源。例如,共获得最常用和最新的词语共202639个,其中包含6699个不同的汉字。
步骤201:模拟自然场景的特点,将词语集中每一个词语扩展成具有不同形状及背景的单行文本图像,并构建单行文本图像训练集。
具体的,对词语集中每一个词语的扩展方式可以是:随机改变词语的字体,随机对词语做仿真变换,或随机增加词语的背景或前景。
优选地,将词语集中的每一个词语可以作如下扩展:1、5种字体,包括:宋体、黑体、新宋体、仿宋和微软雅黑;2、2种仿真变换,包括:旋转或偏移;3、3种随机处理,包括:随机增加下划线、随机增加模糊处理、随机增加锐化处理;4、2种自然场景增加方式,随机的将模拟的自然场景增加到字符组合的背景或前景中。
在实际实施时,将获得的所有202639个词语分别扩展成50种不同的单行文本图像后,将所有图像的尺寸经过缩小或放大变化,使所有图像的宽度都固定在32个像素,图像的长度不受限制。最后将得到10131950张单行文本图像,作为单行文本图像训练集,该训练集共包含6699个汉字。
图3为本发明实施例中单行文本图像示意图,如图3所示,首先对获得的词语“深层神经网络”进行扩展,获得不同类型的单行文本图像;例如,字体设置为微软雅黑,词语文本作逆时针旋转15°,增加下划线,增加25%的锐化处理,背景中随机叠加部分噪声。其次,统一单行文本图像尺寸,例如,可以将获得的单行文本图像在宽度方向上进行扩大或缩小,或者对图像的尺寸进行整体的缩放,使宽度最终调整为32个像素。
步骤202:将每一个单行文本图像数据转换文件格式。
优选地,将步骤201中得到的单行文本图像训练集中的每一个单行文本图像数据进行格式转换,得到可用于深层神经网络训练使用的lmdb文件,其中包含可用于深层神经网络torch工具使用的二进制文件,以及每一个汉字对应的文本标签信息,文本标签信息是用于指示每一个汉字的标识信息。
示例性的,图2中每一个汉字都有对应的文本标签信息可以是,“深”对应标签为00A;“层”对应标签为00B;“神”对应标签为00C;“经”对应标签为00D;“网”对应标签为00E;“络”对应标签为00F。每一个汉字都有唯一的标签信息。
步骤203:使用卷积神经网络提取单行文本序列特征。
在实际实施时,将单行文本图像训练集中的每一个单行文本图像对应的lmdb文件输入到深层神经网络torch工具,设置关键参数maps 64-128-256-256-512-512-512,将最后一层卷积层得到的map映射作为序列特征。这里,单行文本图像中包含的每一个汉字会得到对应的序列特征。
步骤204:利用文本图像序列特征训练递归神经网络LSTM识别模型,得到单行文本识别模型。
优选地,利用文本图像序列特征训练双向递归神经网络,使用ADADELTA优化方法,利用连接时序分类(Connectionist Temporal Classification,CTC)方法将序列特征与文本标签消息联系,通过时间的后向迭代传播深层神经网络中各层结点之间的关联,优化深层神经网络中各层结点的权值,得到单行文本识别模型。
需要说明的是,本步骤可以通过离线操作实现。
步骤205:使用单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
在实际实施时,先将一副随机场景的图像进行单行文本切割,将切割后的单行文本图像作为初始值,输入到基于深层神经网络的单行文本识别模型中,并实时输出与单行文本图像包含的文字信息相对应的识别结果。
需要说明的是,本步骤可以通过在线操作实现。
第三实施例
针对本发明实施例的方法,本发明实施例还提供了一种图像文本识别的装置。图4为本发明实施例图像文本识别的装置的组成结构示意图,如图4所示,该装置包括:构建模块400、处理模块401和识别模块402;其中,
构建模块400,用于构建单行文本图像训练集。
处理模块401,用于利用单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型。
识别模块402,用于利用单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
构建模块400,具体用于获取至少一种字符组合,利用获取的至少一种字符组合建立字符集,将字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像,利用生成的单行文本图像构建单行文本图像训练集。
优选地,预设的构建方式可以包括:随机改变字符的形状,或随机的改变字符组合的背景或前景。
构建模块400,还用于在生成对应的单行文本图像之后,对单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。
处理模块401,具体用于利用卷积神经网络提取单行文本图像训练集中每一个单行文本图像对应的文本序列特征,利用文本序列特征训练递归神经网络LSTM识别模型,得到单行文本识别模型。
在实际应用中,构建模块400、处理模块401和识别模块402均可由位于终端设备中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)、或现场可编程门阵列(FieldProgrammable Gate Array,FPGA)等实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种图像文本识别的方法,其特征在于,所述方法包括:
构建单行文本图像训练集;
利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;
利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述构建单行文本图像训练集包括:获取至少一种字符组合,利用获取的至少一种字符组合建立字符集,将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像,利用所述生成的单行文本图像构建单行文本图像训练集。
3.根据权利要求2所述的方法,其特征在于,所述预设的构建方式包括:随机改变字符的形状,或随机的改变字符组合的背景或前景。
4.根据权利要求2所述的方法,其特征在于,在生成对应的单行文本图像之后,所述方法还包括:对所述单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。
5.根据权利要求1所述的方法,其特征在于,利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型,包括:利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征,利用所述文本序列特征训练递归神经网络LSTM识别模型,得到单行文本识别模型。
6.一种图像文本识别的装置,其特征在于,所述装置包括:构建模块、训练模块和识别模块;其中,
构建模块,用于构建单行文本图像训练集;
处理模块,用于利用所述单行文本图像训练集训练预设的神经网络模型,得到单行文本识别模型;
识别模块,用于利用所述单行文本识别模型识别随机场景的单行文本图像,得到识别后的文本信息。
7.根据权利要求6所述的装置,其特征在于,所述构建模块,具体用于获取至少一种字符组合,利用获取的至少一种字符组合建立字符集,将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像,利用所述生成的单行文本图像构建单行文本图像训练集。
8.根据权利要求7所述的装置,其特征在于,所述预设的构建方式包括:随机改变字符的形状,或随机的改变字符组合的背景或前景。
9.根据权利要求7所述的装置,其特征在于,所述构建模块,还用于在生成对应的单行文本图像之后,对所述单行文本图像进行缩放处理,使得缩放处理后的单行文本图像的宽度为预设的固定的像素。
10.根据权利要求6所述的装置,其特征在于,所述处理模块,具体用于利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征,利用所述文本序列特征训练递归神经网络LSTM识别模型,得到单行文本识别模型。
CN201611036897.9A 2016-11-23 2016-11-23 一种图像文本识别的方法和装置 Active CN108090400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611036897.9A CN108090400B (zh) 2016-11-23 2016-11-23 一种图像文本识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611036897.9A CN108090400B (zh) 2016-11-23 2016-11-23 一种图像文本识别的方法和装置

Publications (2)

Publication Number Publication Date
CN108090400A true CN108090400A (zh) 2018-05-29
CN108090400B CN108090400B (zh) 2021-08-24

Family

ID=62168179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611036897.9A Active CN108090400B (zh) 2016-11-23 2016-11-23 一种图像文本识别的方法和装置

Country Status (1)

Country Link
CN (1) CN108090400B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109272043A (zh) * 2018-09-21 2019-01-25 北京京东金融科技控股有限公司 用于光学字符识别的训练数据生成方法、系统和电子设备
CN109325215A (zh) * 2018-12-04 2019-02-12 万兴科技股份有限公司 Word文本的输出方法及装置
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109670502A (zh) * 2018-12-18 2019-04-23 成都三零凯天通信实业有限公司 一种基于维语文字识别的训练数据生成系统及方法
CN109726715A (zh) * 2018-12-27 2019-05-07 信雅达系统工程股份有限公司 一种文字图像序列化识别、结构化数据输出方法
CN109753968A (zh) * 2019-01-11 2019-05-14 北京字节跳动网络技术有限公司 字符识别模型的生成方法、装置、设备及介质
CN109977729A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种文本检测方法及装置
CN109978044A (zh) * 2019-03-20 2019-07-05 广州云测信息技术有限公司 训练数据生成方法和装置、以及模型的训练方法和装置
CN110533079A (zh) * 2019-08-05 2019-12-03 贝壳技术有限公司 形成图像样本的方法、装置、介质以及电子设备
CN111209783A (zh) * 2018-11-22 2020-05-29 台达电子工业股份有限公司 使用模拟物件影像的物件识别系统及其方法
CN111222589A (zh) * 2018-11-27 2020-06-02 中国移动通信集团辽宁有限公司 图像文本识别方法、装置、设备及计算机存储介质
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质
CN111695385A (zh) * 2019-03-15 2020-09-22 杭州海康威视数字技术股份有限公司 文本识别方法、装置及设备
CN112334908A (zh) * 2018-06-26 2021-02-05 伟摩有限责任公司 用于自主车辆的短语识别模型
CN112840398A (zh) * 2018-10-19 2021-05-25 微软技术许可有限责任公司 将音频内容变换为图像
CN114118075A (zh) * 2022-01-28 2022-03-01 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679208A (zh) * 2013-11-27 2014-03-26 北京中科模识科技有限公司 基于广电字幕识别的训练数据自动生成和深度学习方法
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN103679208A (zh) * 2013-11-27 2014-03-26 北京中科模识科技有限公司 基于广电字幕识别的训练数据自动生成和深度学习方法
CN105740909A (zh) * 2016-02-02 2016-07-06 华中科技大学 一种基于空间变换的自然场景下文本识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RONALDO MESSINA 等: "Segmentation-free handwritten Chinese text recognition with LSTM-RNN", 《2015 13TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977729A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种文本检测方法及装置
CN112334908B (zh) * 2018-06-26 2024-05-10 伟摩有限责任公司 用于自主车辆的短语识别模型
CN112334908A (zh) * 2018-06-26 2021-02-05 伟摩有限责任公司 用于自主车辆的短语识别模型
CN109272043A (zh) * 2018-09-21 2019-01-25 北京京东金融科技控股有限公司 用于光学字符识别的训练数据生成方法、系统和电子设备
CN109272043B (zh) * 2018-09-21 2021-03-30 京东数字科技控股有限公司 用于光学字符识别的训练数据生成方法、系统和电子设备
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN112840398A (zh) * 2018-10-19 2021-05-25 微软技术许可有限责任公司 将音频内容变换为图像
CN111209783A (zh) * 2018-11-22 2020-05-29 台达电子工业股份有限公司 使用模拟物件影像的物件识别系统及其方法
CN111222589A (zh) * 2018-11-27 2020-06-02 中国移动通信集团辽宁有限公司 图像文本识别方法、装置、设备及计算机存储介质
CN111222589B (zh) * 2018-11-27 2023-07-18 中国移动通信集团辽宁有限公司 图像文本识别方法、装置、设备及计算机存储介质
CN109325215A (zh) * 2018-12-04 2019-02-12 万兴科技股份有限公司 Word文本的输出方法及装置
CN109325215B (zh) * 2018-12-04 2023-02-10 万兴科技股份有限公司 Word文本的输出方法及装置
CN109670502A (zh) * 2018-12-18 2019-04-23 成都三零凯天通信实业有限公司 一种基于维语文字识别的训练数据生成系统及方法
CN109726715A (zh) * 2018-12-27 2019-05-07 信雅达系统工程股份有限公司 一种文字图像序列化识别、结构化数据输出方法
CN109753968A (zh) * 2019-01-11 2019-05-14 北京字节跳动网络技术有限公司 字符识别模型的生成方法、装置、设备及介质
CN111695385A (zh) * 2019-03-15 2020-09-22 杭州海康威视数字技术股份有限公司 文本识别方法、装置及设备
CN111695385B (zh) * 2019-03-15 2023-09-26 杭州海康威视数字技术股份有限公司 文本识别方法、装置及设备
CN109978044B (zh) * 2019-03-20 2021-03-19 广州云测信息技术有限公司 训练数据生成方法和装置、以及模型的训练方法和装置
CN109978044A (zh) * 2019-03-20 2019-07-05 广州云测信息技术有限公司 训练数据生成方法和装置、以及模型的训练方法和装置
CN110533079A (zh) * 2019-08-05 2019-12-03 贝壳技术有限公司 形成图像样本的方法、装置、介质以及电子设备
CN110533079B (zh) * 2019-08-05 2022-05-24 贝壳技术有限公司 形成图像样本的方法、装置、介质以及电子设备
CN111539424A (zh) * 2020-04-21 2020-08-14 北京云从科技有限公司 一种基于ocr的图像处理方法、系统、设备及介质
CN114118075A (zh) * 2022-01-28 2022-03-01 北京易真学思教育科技有限公司 文本识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN108090400B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN108090400A (zh) 一种图像文本识别的方法和装置
CN110750959B (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN107391609B (zh) 一种双向多模态递归网络的图像描述方法
CN111046946B (zh) 基于crnn的缅甸语图像文本识别方法
CN111582241A (zh) 视频字幕识别方法、装置、设备及存储介质
CN110414519A (zh) 一种图片文字的识别方法及其识别装置
CN107239801A (zh) 视频属性表示学习方法及视频文字描述自动生成方法
CN105654135A (zh) 一种基于递归神经网络的图像文字序列识别系统
CN109800298A (zh) 一种基于神经网络的中文分词模型的训练方法
CN109948149A (zh) 一种文本分类方法及装置
CN109710916A (zh) 一种标签提取方法、装置、电子设备及存储介质
CN108664474A (zh) 一种基于深度学习的简历解析方法
CN114596566B (zh) 文本识别方法及相关装置
CN110969681A (zh) 一种基于gan网络的手写体书法文字生成方法
CN108829823A (zh) 一种文本分类方法
CN112307773B (zh) 机器阅读理解系统的自定义问题数据自动生成方法
CN107480688A (zh) 基于零样本学习的细粒度图像识别方法
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN112417873B (zh) 基于bbwc模型和mcmc的自动漫画生成方法和系统
CN106610937A (zh) 一种基于信息论的中文自动分词算法
CN113946661A (zh) 一种融合字形的多视角情感分析方法
CN109948518A (zh) 一种基于神经网络的pdf文档内容文本段落聚合的方法
Yu et al. Mask-guided GAN for robust text editing in the scene
CN113988063A (zh) 一种文本纠错方法、装置、设备及计算机可读存储介质
CN108268430A (zh) 人工智能辅助识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 310012 building A01, 1600 yuhangtang Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant after: CHINA MOBILE (HANGZHOU) INFORMATION TECHNOLOGY Co.,Ltd.

Applicant after: China Mobile Communications Corp.

Address before: 310012, No. 14, building three, Chang Torch Hotel, No. 259, Wensanlu Road, Xihu District, Zhejiang, Hangzhou

Applicant before: CHINA MOBILE (HANGZHOU) INFORMATION TECHNOLOGY Co.,Ltd.

Applicant before: China Mobile Communications Corp.

GR01 Patent grant
GR01 Patent grant