CN112348007A - 一种基于神经网络的光学字符识别方法 - Google Patents

一种基于神经网络的光学字符识别方法 Download PDF

Info

Publication number
CN112348007A
CN112348007A CN202011135516.9A CN202011135516A CN112348007A CN 112348007 A CN112348007 A CN 112348007A CN 202011135516 A CN202011135516 A CN 202011135516A CN 112348007 A CN112348007 A CN 112348007A
Authority
CN
China
Prior art keywords
network
image
morphological
layer
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011135516.9A
Other languages
English (en)
Other versions
CN112348007B (zh
Inventor
袁浩
刘复昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Normal University
Original Assignee
Hangzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Normal University filed Critical Hangzhou Normal University
Priority to CN202011135516.9A priority Critical patent/CN112348007B/zh
Publication of CN112348007A publication Critical patent/CN112348007A/zh
Application granted granted Critical
Publication of CN112348007B publication Critical patent/CN112348007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于神经网络的光学字符识别方法。本发明具体实现步骤如下:步骤1、文本区域分割阶段:利用基于形态学网络对输入图像进行预处理,精确文本区域掩膜图像。步骤2、文本识别阶段:利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。本发明提出的方法可以快速提取出体验报告中的医疗文本,大大节省人工提取文本信息的时间,模块化型强,并且可使用小样本的数据集进行较快、有效地分割提取医疗文本信息,能够很好泛化到很多应用场景中。

Description

一种基于神经网络的光学字符识别方法
技术领域
本发明涉及文字识别领域,具体公开一种基于形态学网络(MorphNN)的文本分割技术和基于CRNN++文本识别技术。提供一种基于神经网络的光学字符识别方法。
背景技术
随着物质生活水平的不断提高,人们对自身的健康越来越重视。据国家统计局的相关数据显示,2018年我国大城市的工薪阶层中,有大概百分之七十的人身体处于亚健康状态。而我国的人口老龄化问题也是非常突出,截至2018年底,我国六十岁以上老年人口约为2.5亿。人们对健康的需求日益增长,但与此同时,我国医疗资源面临很多问题,包括资源短缺、分布不均等问题。随着AI技术的飞速发展,人工智能作为辅助医疗已是大势所趋。
健康体检是以健康为中心的身体检查,是通过医学手段了解受检者的健康状况,早期发现疾病和健康隐患的诊疗行为。因此健康体检对老龄化、亚健康人群至关重要。体检机构拥有受检者的电子报告,而交到用户手中的是纸质版。纸质版的体检报告不易保存且易丢失,而且不同的机构的体检报告数据不通,体检又是长期的行为,个人及医院无法对不同机构的体检信息进行追踪和有效信息的挖掘。考虑到体检报告中有大量难懂的词汇,人们无法及时获取正确的健康干预。我国的健康体检市场规模在不断地增长,但庞大的市场下却没有合理地打通各个体检机构的数据。因此开发一款能够识别体检报告文字并提取关键词进行展示,告知用户哪里是应该健康干预的地方,并存储数据从中挖掘有效信息用于指导个人健康的系统,具有很好的应用场景。
光学字符识别(Optical Character Recognition,OCR)指的是利用电子设备将图像中的字符,通过图像处理与字符识别方法翻译成计算机文字的技术,被广泛应用于车牌识别、身份证识别、于写文字识别等现实生活中。当前OCR技术分为基于传统算法和基于深度学习的OCR技术。传统的OCR是基于图像处理和统计机器学习(比如SVM),其框架主要分为5个步骤:文字区域定位、文字图像矫正、行列分割、分类器识别和后处理。基于深度学习的文字识别技术分为文本区域检测和文字识别。文本区域检测和一般的目标检测不同,它作为一个序列,而非独立检测的目标。CTPN是当下主流的场景文本区域检测模型,采用BLSTM(双向LSTM)来提取文本字符在图像中的上下文信息,其网络使用VGG16,结构简单,方便迁移学习,训练得到的效果也很不错。Faster RCNN将文本视为一个Object,提取特征之后送入RPN做候选框以取,然后用分类器对候选框中的物体进行分类,但是效果不是很好。EAST实现了端到端的文本检测网络,借助了FCN的架构做特征提取和学习,网络分为特征提取层、特征融合层、输出层二个部分。市场上的OCR产品和现有的OCR方法的识别准确率都不高。
综上所述,现有技术存在的问题是:针对当下针对体检报告场景OCR文本分割与识别准确率不理想,后续处理较多,无法满足实际应用需求。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于神经网络的光学字符识别方法。
本发明解决其技术问题所采用的技术方案包括如下两个阶段:
步骤1、文本区域分割阶段:
利用基于形态学网络(MorphNN)对输入图像进行预处理,精确文本区域掩膜图像。
步骤2、文本识别阶段:
利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。
进一步的,步骤1所述的文本区域分割步骤如下:
2-1.将扫描得到的电于体检报告格式转化为图像格式,并对转换后的图像进一步转换成灰度图像;
2-2.将灰度图像输入给可训练的形态学网络(MorphNN),利用形态学网络对灰度图像进行模拟基于数学的形态学处理,膨胀腐蚀二值化图像,粗提取出文本区域图像;
进一步的,步骤2-2所述的形态学网络处理如下:
3-1.形态学网络由多个形态学网络单元组成,形态学网络单元包括腐蚀和膨胀网络单元,灰度图像输入给形态学网络处理,即作为腐蚀和膨胀网络单元的输入,经过形态学处理后得到消除噪声后的文本区域,如公式(1)和(2)所示
Figure BDA0002734678300000031
Figure BDA0002734678300000032
其中I是输入的灰度图像,WD是腐蚀结构化窗口,WE是膨胀结构化窗口,即WD与WE也是网络权重,通过不断反向传播优化计算WD与WE,WD与WE结果比较好时,即腐蚀与膨胀结构化窗口大小最优时;
3-2.形态学网络包括多层多条支路的单一形态学网络单元操作,每条支路权重都是独立的,即每条支路对应一种权重的形态学操作,多条支路可以合并;
3-3.网络架构中前两条支路实现如下:图像输入网络后,经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图,最后通过一个全连接层输出1个膨胀特征图Ip1,得到第一支路的权重WO;同样图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图,最后通过一个全连接层输出1个的8*8的腐蚀特征图Ip2,并得到第一支路的另一个权重Wp,这样再经过公式(3)可得到输出图像Ioutput
Figure BDA0002734678300000033
3-4.网络总损失函数为:
Losstotal=DSSIM(Ioutput,Igt)+λMAE(Ioutput,Igt) (4)
其中,总损失为Losstotal,DSSIM(·)为基于SSIM(·)得出的一个距离度量指标,MAE(·)均方误差损失函数,Ioutput为预测输出图像,Igt为真实图像,λ为比例参数。
3-5.网络超参数设置为学习率为0.001,激活函数为Sigmoid函数,优化器使用Adam方法,冲量为0.83,批量大小设置为16,迭代次数设置为20000次;
进一步的,所述的文本识别阶段具体实现如下:
4-1.将形态学网络处理得到的精确文本区域输入到文本识别网络模型CRNN++;
4-2.CRNN++的处理过程如下:
CRNN++网络首先将输入的灰度图像按比例缩小到32xW;图像输入到网络后,首先经过卷积层提取特征,然后根据Map-to-Sequence将提取的特征向量化。最后利用CNN特征提取之后用RNN对序列进行预测,最后通过一个CTC翻译层得到最终结果。
4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层二部分组成。卷积层由四组双卷积操作,批标准化,最大池化组成.第一组的卷积核为3x3,步长为1,策略为valid和same,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略都为some,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第三组的卷积核为3x3,步长为1,策略为都为some,随后BN操作,最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3,步长为1,策略为valid和same,随后BN操作,最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列,将特征向量化,随后送入RNN进行训练。循环层使用的是两层各256单元的双向LSTM网络。转录层采用CTC。
4.4.CRNN++的总损失函数:
Figure BDA0002734678300000051
其中,yi代表循环层产生的概率预测序列,li代表输入图片,Ii代表真实标签序列。
4-5.CRNN++的超参数设置初始学习率为0.0001,激活函数为ReLU函数,优化器使用Adam方法,批大小设置为32,迭代次数设置为100次。
本发明有益效果如下:
本发明针对当下体检报告场景OCR文本分割与识别准确率比较理想;且能够满足实际应用需求。
本发明提出的方法可以快速提取出体验报告中的医疗文本,大大节省人工提取文本信息的时间,模块化型强,并且可使用小样本的数据集进行较快、有效地分割提取医疗文本信息,能够很好泛化到很多应用场景中。
附图说明
图1是本发明提出的CRNN++模型处理结构图;
图2是本发明提出的基于形态学网络的分割效果图;
图3是待处理的原图;
图4是本发明提出的基于形态学网络模型处理后掩膜效果图;
图5是本发明提出的基于形态学网络模型处理后的文本区域分割图;
图6是本发明提出的CRNN++模型文字识别效果图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1-6所示,一种基于神经网络的光学字符识别方法,具体实现如下:
步骤1、文本区域分割阶段:
利用基于形态学网络(MorphNN)对输入图像进行预处理,精确文本区域掩膜图像。
步骤2、文本识别阶段:
利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。
进一步的,步骤1所述的文本区域分割步骤如下:
2-1.将扫描得到的电了体检报告格式转化为图像格式,并对转换后的图像进一步转换成灰度图像;
2-2.将灰度图像输入给可训练的形态学网络(MorphNN),利用形态学网络对灰度图像进行模拟基于数学的形态学处理,膨胀腐蚀二值化图像,粗提取出文本区域图像;
进一步的,步骤2-2所述的形态学网络处理如下:
3-1.形态学网络由多个形态学网络单元组成,形态学网络单元包括腐蚀和膨胀网络单元,灰度图像输入给形态学网络处理,即作为腐蚀和膨胀网络单元的输入,经过形态学处理后得到消除噪声后的文本区域,如公式(1)和(2)所示
Figure BDA0002734678300000061
Figure BDA0002734678300000062
其中I是输入的灰度图像,WD是腐蚀结构化窗口,WE是膨胀结构化窗口,即WD与WE也是网络权重,通过不断反向传播优化计算WD与WE,WD与WE结果比较好时,即腐蚀与膨胀结构化窗口大小最优时;
3-2.形态学网络包括多层多条支路的单一形态学网络单元操作,每条支路权重都是独立的,即每条支路对应一种权重的形态学操作,多条支路可以合并;
3-3.网络架构中前两条支路实现如下:图像输入网络后,经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图,最后通过一个全连接层输出1个膨胀特征图Ip1,得到第一支路的权重Wo;同样图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图,最后通过一个全连接层输出1个的8*8的腐蚀特征图Ip2,并得到第一支路的另一个权重Wp,这样再经过公式(3)可得到输出图像Ioutput
Figure BDA0002734678300000071
3-4.网络总损失函数为:
Losstotal=DSSIM(Ioutput,Igt)+λMAE(Ioutput,Igt) (4)
其中,总损失为Losstotal,DSSIM(·)为基于SSIM(·)得出的一个距离度量指标,MAE(·)均方误差损失函数,Ioutput为预测输出图像,Igt为真实图像,λ为比例参数。
3-5.网络超参数设置为学习率为0.001,激活函数为Signoid函数,优化器使用Adam方法,冲量为0.83,批量大小设置为16,迭代次数设置为20000次;
进一步的,所述的文本识别阶段具体实现如下:
4-1.将形态学网络处理得到的精确文本区域输入到文本识别网络模型CRNN++;
4-2.CRNN++的处理过程如下:
CRNN++网络首先将输入的灰度图像按比例缩小到32xW;图像输入到网络后,首先经过卷积层提取特征,然后根据Map-to-Sequence将提取的特征向量化。最后利用CNN特征提取之后用RNN对序列进行预测,最后通过一个CTC翻译层得到最终结果。
4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层三部分组成。卷积层由四组双卷积操作,批标准化,最大池化组成.第一组的卷积核为3x3,步长为1,策略为valid和same,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略都为some,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第三组的卷积核为3x3,步长为1,策略为都为some,随后BN操作,最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3,步长为1,策略为valid和same,随后BN操作,最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列,将特征向量化,随后送入RNN进行训练。循环层使用的是两层各256单元的双向LSTM网络。转录层采用CTC。
4.4.CRNN++的总损失函数:
Figure BDA0002734678300000081
其中,yi代表循环层产生的概率预测序列,li代表输入图片,Ii代表真实标签序列。
4-5.CRNN++的超参数设置初始学习率为0.0001,激活函数为ReLU函数,优化器使用Adam方法,批大小设置为32,迭代次数设置为100次。

Claims (4)

1.一种基于神经网络的光学字符识别方法,其特征在于包括如下步骤:
步骤1、文本区域分割阶段:
利用基于形态学网络对输入图像进行预处理,精确文本区域掩膜图像;
步骤2、文本识别阶段:
利用基于CRNN++文本识别模型提取文本区域掩膜图像中的具体文体内容。
2.根据权利要求1所述的一种基于神经网络的光学字符识别方法,其特征在于步骤1所述的文本区域分割步骤如下:
2-1.将扫描得到的电了体检报告格式转化为图像格式,并对转换后的图像进一步转换成灰度图像;
2-2.将灰度图像输入给可训练的形态学网络(MorphNN),利用形态学网络对灰度图像进行模拟基于数学的形态学处理,膨胀腐蚀二值化图像,粗提取出文本区域图像。
3.根据权利要求2所述的一种基于神经网络的光学字符识别方法,其特征在于步骤2-2所述的形态学网络处理如下:
3-1.形态学网络由多个形态学网络单元组成,形态学网络单元包括腐蚀和膨胀网络单元,灰度图像输入给形态学网络处理,即作为腐蚀和膨胀网络单元的输入,经过形态学处理后得到消除噪声后的文本区域,如公式(1)和(2)所示
Figure FDA0002734678290000011
Figure FDA0002734678290000012
其中I是输入的灰度图像,WD是腐蚀结构化窗口,WE是膨胀结构化窗口,即WD与WE也是网络权重,通过不断反向传播优化计算WD与WE,WD与WE结果比较好时,即腐蚀与膨胀结构化窗口大小最优时;
3-2.形态学网络包括多层多条支路的单一形态学网络单元操作,每条支路权重部是独立的,即每条支路对应一种权重的形态学操作,多条支路可以台并;
3-3.网络架构中前两条支路实现如下:图像输入网络后,经过第一条支路包括4个8*8的腐蚀特征图、4个8*8的腐蚀特征图、4的8*8的膨胀特征图、4个8*8的膨胀特征图,最后通过一个全连接层输出1个膨胀特征图Ip1,得到第一支路的权重Wo;同杆图像也会输入到第二个独立的支路包括4个8*8的膨胀特征图、4个8*8的膨胀特征图、4个8*8的腐蚀特征图、4个8*8的腐蚀特征图,最后通过一个全连接层输出1个的8*8的腐蚀特征图Ip2,并得到第一支路的另一个权重Wp,这样再经过公式(3)可得到输出图像Ioutput
Figure FDA0002734678290000021
3-4.网络总损失函数为:
Losstotal=DSSIM(Ioutput,Igt)+λMAE(Ioutput,Igt) (4)
其中,总损失为Losstotal,DSSIM(·)为基于SSIM(·)得出的一个距离度量指标,MAE(·)均方误差损失函数,Ioutput为预测输出图像,Igt为真实图像,λ为比例参数;
3-5.网络超参数设置为学习率为0.001,激活函数为Sigmoid函数,优化器使用Adam方法,冲量为0.83,批量大小设置为16,迭代次数设置为20000次。
4.根据权利要求3所述的一种基于神经网络的光学字符识别方法,其特征在于所述的文本识别阶段具体实现如下:
4-1.将形态学网络处理得到的精确文本区域输入到文本识别网络模型CRNN++;
4-2.CRNN++的处理过程如下:
CRNN++网络首先将输入的灰度图像按比例缩小到32xW;图像输入到网络后,首先经过卷积层提取特征,然后根据Map-to-Sequence将提取的特征向量化;最后利用CNN特征提取之后用RNN对序列进行预测,最后通过个CTC翻译层得到最终结果;
4-3.CRNN++的网络层/网络架构CRNN++网络由卷积层、循环层和转录层二部分组成;卷积层由四组双卷积操作,批标准化,最大池化组成.第一组的卷积核为3x3,步长为1,策略为valid和same,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略都为some,随后批标准化操作,最后的最大池化层窗口尺寸为2x2.第二组的卷积核为3x3,步长为1,策略为部为some,随后BN操作,最后的最大池化层窗口尺寸为2x2.第四组的卷积核为3x3,步长为1,策略为valid和same,随后BN操作,最后的最大池化层窗口尺寸为3x1.CNN得到的特征图根据特征图映射到序列,将特征向量化,随后送入RNN进行训练;循环层使用的是两层各256单元的双向LSTM网络;转录层采用CTC;
4.4.CRNN++的总损失函数:
Figure FDA0002734678290000031
其中,yi代表循环层产生的概率预测序列,li代表输入图片,Ii代表真实标签序列;
4-5.CRNN++的超参数设置初始学习率为0.0001,激活函数为ReLU函数,优化器使用Adam方法,批大小设置为32,迭代次数设置为100次。
CN202011135516.9A 2020-10-21 2020-10-21 一种基于神经网络的光学字符识别方法 Active CN112348007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135516.9A CN112348007B (zh) 2020-10-21 2020-10-21 一种基于神经网络的光学字符识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135516.9A CN112348007B (zh) 2020-10-21 2020-10-21 一种基于神经网络的光学字符识别方法

Publications (2)

Publication Number Publication Date
CN112348007A true CN112348007A (zh) 2021-02-09
CN112348007B CN112348007B (zh) 2023-12-19

Family

ID=74359608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135516.9A Active CN112348007B (zh) 2020-10-21 2020-10-21 一种基于神经网络的光学字符识别方法

Country Status (1)

Country Link
CN (1) CN112348007B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113647920A (zh) * 2021-10-21 2021-11-16 青岛美迪康数字工程有限公司 读取监护设备中生命体征数据的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096821A (zh) * 2010-04-15 2011-06-15 西安理工大学 基于复杂网络理论的强干扰环境下的车牌识别方法
CN103678598A (zh) * 2013-12-12 2014-03-26 成都术有科技有限公司 基于Gerber文档内建建标的电路板精准检测方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109447080A (zh) * 2018-11-12 2019-03-08 北京奇艺世纪科技有限公司 一种字符识别方法及装置
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法
CN111428718A (zh) * 2020-03-30 2020-07-17 南京大学 一种基于图像增强的自然场景文本识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096821A (zh) * 2010-04-15 2011-06-15 西安理工大学 基于复杂网络理论的强干扰环境下的车牌识别方法
CN103678598A (zh) * 2013-12-12 2014-03-26 成都术有科技有限公司 基于Gerber文档内建建标的电路板精准检测方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109447080A (zh) * 2018-11-12 2019-03-08 北京奇艺世纪科技有限公司 一种字符识别方法及装置
CN110674777A (zh) * 2019-09-30 2020-01-10 电子科技大学 一种专利文本场景下的光学字符识别方法
CN111428718A (zh) * 2020-03-30 2020-07-17 南京大学 一种基于图像增强的自然场景文本识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113647920A (zh) * 2021-10-21 2021-11-16 青岛美迪康数字工程有限公司 读取监护设备中生命体征数据的方法及装置

Also Published As

Publication number Publication date
CN112348007B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN110334705B (zh) 一种结合全局和局部信息的场景文本图像的语种识别方法
CN111832546B (zh) 一种轻量级自然场景文本识别方法
Zhu et al. Image captioning with triple-attention and stack parallel LSTM
CN109977199B (zh) 一种基于注意力池化机制的阅读理解方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN111414461A (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110321805B (zh) 一种基于时序关系推理的动态表情识别方法
CN111401156B (zh) 基于Gabor卷积神经网络的图像识别方法
CN112232053A (zh) 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN113011243A (zh) 基于胶囊网络的面部表情分析方法
CN112100212A (zh) 一种基于机器学习和规则匹配的案件情节抽取方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN110136113B (zh) 一种基于卷积神经网络的阴道病理图像分类方法
CN112348007A (zh) 一种基于神经网络的光学字符识别方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN115937590A (zh) 一种并联融合CNN和Transformer的皮肤病图像分类方法
CN116047418A (zh) 基于小样本的多模态雷达有源欺骗干扰识别方法
CN114997331A (zh) 基于度量学习的小样本关系分类方法及系统
CN114020917A (zh) 基于自注意力机制与卷积神经网络的新闻文本分类方法
CN113851148A (zh) 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法
CN113139464A (zh) 一种电网故障检测方法
CN113821571A (zh) 基于bert和改进pcnn的食品安全关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant