CN112434686A - 针对ocr图片的端到端含错文本分类识别仪 - Google Patents

针对ocr图片的端到端含错文本分类识别仪 Download PDF

Info

Publication number
CN112434686A
CN112434686A CN202011280156.1A CN202011280156A CN112434686A CN 112434686 A CN112434686 A CN 112434686A CN 202011280156 A CN202011280156 A CN 202011280156A CN 112434686 A CN112434686 A CN 112434686A
Authority
CN
China
Prior art keywords
module
error
text
classification
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011280156.1A
Other languages
English (en)
Other versions
CN112434686B (zh
Inventor
刘兴高
陈欣杰
王文海
张泽银
张志猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011280156.1A priority Critical patent/CN112434686B/zh
Publication of CN112434686A publication Critical patent/CN112434686A/zh
Application granted granted Critical
Publication of CN112434686B publication Critical patent/CN112434686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了针对OCR图片的端到端含错文本分类识别仪,用于对OCR图片中存在文字识别错误的信息实现端到端的纠错并分类,包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块。本发明为了克服已有的OCR图片识别文字和含错文本分类系统相互独立、需要多阶段分步识别纠错并推理类别的缺点,通过结合高效、高精度且可学习的信息蒸馏模块,以及可以充分利用大量历史数据、可拓展性强的文本纠错模块和文本分类模块,建立了针对OCR图片含错文本分类问题的兼具精度和效率的端到端分类系统,能够很好地利用OCR信息实现具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。

Description

针对OCR图片的端到端含错文本分类识别仪
技术领域
本发明涉及OCR图片转文字、文本纠错与文本识别领域,具体是针对OCR图片的端到端含错文本分类识别仪。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术,将图片、照片、电子传真等图像上的文字内容识别提取转换为可编辑文本,通过扫描仪、照相机、电子传真机等设备获取并保存图像文件,然后通过OCR软件读取、分析图像文件并通过字符识别提取字符串。
当前研究中,对OCR图片转化为可识别文本与将可识别文本进行纠错和分类,几乎是相互独立的。尽管国外在文本分类识别方面已有一定进展,并且对含错文本纠正也提出了一些方法,但仍然没有形成专门针对从OCR识别获得的含错文本中识别分类文字的成熟技术体系。同时,在文本分类问题本身,也有文本数据总量巨大、复杂多变、种类繁多、无效信息多等特点;当前主流的OCR识别方法识别输出成功率并不理想,难以广泛应用于实际业务生产环境中,且OCR提取文字的方法与与文本分类任务过于割裂,不具有任何泛化性。当前国内外并无直接针对OCR图片的含错文本分类相关研究,而是需要将OCR获取的文字输入额外的模型来进一步实现文本分类。
发明内容
为了克服目前针对OCR图片的含错文本分类步骤繁琐、识别精度低、系统冗余的不足,本发明的目的在于提供一种端到端的针对含错文本的分类识别仪,其精度高、推理速度快、一旦训练完成后系统极为轻量,且还能够基于新的数据实现在线校正,是具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。
本发明解决其技术问题所采用的技术方案是:针对OCR图片的端到端含错文本分类识别仪,包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块,其中:
OCR信息提取模块,利用传统OCR技术,通过图像处理和统计机器学习方法从图像中提取文本信息,包括二值化、噪声滤波、相关域分析、AdaBoost。传统的OCR技术根据处理方法可分为三个阶段:图像准备、文本识别和后处理:
(1)在图像准备预处理阶段,利用连通区域分析方法实现文字区域定位;在此基础上,通过非线性以及线性变换实现文字矫正,矫正完成后可获得相比初始时更易于读取的字符段;进一步的,通过Canny、Sobel以及Laplace滤波方法实现噪声的过滤,获取对应文字。
(2)在文字识别阶段,利用相关向量机分类器实现识别分类,在相关向量机中,假设y符合高斯分布,将高斯核函数
Figure BDA0002780507340000021
应用到y(x),其中yc为y的估计值,κ为函数的宽度参数,可以得到似然估计函数:
Figure BDA0002780507340000022
其中t=(t1,t2...tN)T,w=(w1,w2...wTN),w表示权重系数,t表示分类类别共N类,P表示概率结果、x为输入数据、y为输出数据,下标i表示第i个数据,上标T表示矩阵的转置;
在相关向量机中,权值w可以通过极大似然估计来确定,但是为了防止过拟合,通过高斯先验概率分布来约束参数:
Figure BDA0002780507340000023
其中,α是N+1维超参数,该值的引入导致了系统的稀疏性;wi表示当前维度的权值,
Figure BDA0002780507340000024
表示第i维度的超参数的倒数;
根据先验概率和贝叶斯定理,应用拉普拉斯原理计算出近似的后验概率:
(2.1)由于p(w|t,α)∝p(t|w)p(w|α),对当前固定的α值求出最大可能的权值wMP,采用二阶牛顿法求得wMP
Figure BDA0002780507340000025
其中,yn=σ{y(xn;w)},A=diag(α01,...αN);tn表示对应维度n的权重系数;
(2.2)利用拉普拉斯方法,将对数后验概率进行二次逼近,将上式进行两次求导得到:
Figure BDA0002780507340000026
其中,Φ=[φ(x1),φ(x2)...φ(xN)]T是由多个核函数构成的一个N×(N+1)维度的结构矩阵,并且φ(xi)=[1,K(xi,x1),K(xi,x2),...,K(xi,xN)]T。B=diag(β12,..βN)是一个对角矩阵,并且βi=σ{y(xi)}[1-σ(xi)]。对上式右边取负号再求逆矩阵,即可得到协方差矩阵Σ。
(2.3)利用wMP和∑,对超参数α进行更新,更新公式如下:
Figure BDA0002780507340000027
其中,γi≡1-αiii
最终,可以得到后验协方差为:
∑=(ΦTBΦ+A)-1
wMP=∑ΦTBt (7)
其中∑是后验协方差;
相关向量机通过引入贝叶斯框架使得系统更加具有稀疏性;该系统的泛化性能较好,推理时间极短,能够很好的对文字进行识别分类。
(3)在后处理阶段,针对对应场景下的图片,根据场景特点建立规则并利用语言模型实现一定程度的修正;
含错文本纠错模块:输入由信息提取模块抽取的文字序列,基于错误检测、候选召回、候选排序三步实现文本纠错,具体如下:
(1)利用基于深度学习的序列标注模型,在错误检测时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子(对齐语料)实现有监督学习该序列标注模型;
(2)进一步的,在候选召回部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;
(3)候选排序则是利用上下文神经网络特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列;
文本分类模块:基于TextRnn模型的文本分类模块;
(1)输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量,单句词数设置为500,单个词语嵌入维度为100。针对不同长度的文本,通过补齐与截断实现每句等长;
(2)Bi-LSTM层中,令输出维度为128维向量,即最后一个词语的隐状态作为最终使用的隐向量,可以看做是包含了前面所有词语的信息。
(3)全连接层使用softmax作为激活函数进行输出文本分类结果;
所述信息蒸馏模块:输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片。主体部分采用CNN模型:其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:
软标签交叉熵算法:
Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)
每个样本对应类别j的软标签值:
output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]*log(input[i1,i2,...,ik,j]) (9)
其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的列表,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表。通过该损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别。
本发明的技术构思为:通过跨模态知识蒸馏的方法,将传统方法中相互独立的OCR识别模块与文本纠错分类模块融合,并通过具有视觉特征和能表征高维语义特征的CNN网络进行知识蒸馏,建立起针对OCR图片的端到端含错文本分类识别仪。其能够实现OCR图片中的文字端到端分类,增强系统集成性的同时保持轻量与快速,满足各个场景下的部署要求。
本发明的有益效果主要表现在:克服了现有OCR识别文字和文本纠错分类任务过于割裂独立的不足,本发明新颖的识别仪实现了端到端的快速、轻量且集成度高的OCR含错文本分类目标,使得基于该分类识别仪的OCR图片分类场景能够快速精准的识别OCR图片的类别,且训练完成后模型轻量,方便各个场景部署。
附图说明
图1是针对OCR图片的端到端含错文本分类识别仪的流程图;
图2是含错文本纠错模块流程图。
具体实施方式
下面根据附图具体说明本发明。
参照图1,针对OCR图片的端到端含错文本分类识别仪,包括信息提取模块1,含错文本纠错模块2,文本分类模块3,信息蒸馏模块4。所述各部分按序号依次连接。
所述信息提取模块1:包括:利用传统OCR技术,通过图像处理和统计机器学习方法从图像中提取文本信息,包括二值化、噪声滤波、相关域分析、AdaBoost。传统的OCR技术根据处理方法可分为三个阶段:图像准备、文本识别和后处理:
(1)在图像准备预处理阶段,利用连通区域分析方法实现文字区域定位;在此基础上,通过非线性以及线性变换实现文字矫正,矫正完成后可获得相比初始时更易于读取的字符段;进一步的,通过Canny、Sobel以及Laplace滤波方法实现噪声的过滤,获取对应文字。
(2)在文字识别阶段,利用相关向量机分类器实现识别分类,在相关向量机中,假设y符合高斯分布,将高斯核函数
Figure BDA0002780507340000041
应用到y(x),其中yc为y的估计值,κ为函数的宽度参数,可以得到似然估计函数:
Figure BDA0002780507340000042
其中t=(t1,t2...tN)T,w=(w1,w2...wTN),w表示权重系数,t表示分类类别共N类,P表示概率结果、x为输入数据、y为输出数据,下标i表示第i个数据,上标T表示矩阵的转置;
在相关向量机中,权值w可以通过极大似然估计来确定,但是为了防止过拟合,通过高斯先验概率分布来约束参数:
Figure BDA0002780507340000051
其中,α是N+1维超参数,该值的引入导致了系统的稀疏性;wi表示当前维度的权值,
Figure BDA0002780507340000052
表示第i维度的超参数的倒数。
根据先验概率和贝叶斯定理,应用拉普拉斯原理计算出近似的后验概率:
(2.1)由于p(w|t,α)∝p(t|w)p(w|α),对当前固定的α值求出最大可能的权值wMP,采用二阶牛顿法求得wMP
Figure BDA0002780507340000053
其中,yn=σ{y(xn;w)},A=diag(α01,...αN);tn表示对应维度n的权重系数;
(2.2)利用拉普拉斯方法,将对数后验概率进行二次逼近,将上式进行两次求导得到:
Figure BDA0002780507340000054
其中,Φ=[φ(x1),φ(x2)...φ(xN)]T是由多个核函数构成的一个N×(N+1)维度的结构矩阵,并且φ(xi)=[1,K(xi,x1),K(xi,x2),...,K(xi,xN)]T。B=diag(β12,..βN)是一个对角矩阵,并且βi=σ{y(xi)}[1-σ(xi)]。对上式右边取负号再求逆矩阵,即可得到协方差矩阵Σ。
(2.3)利用wMP和∑,对超参数α进行更新,更新公式如下:
Figure BDA0002780507340000055
其中,γi≡1-αiii
最终,可以得到后验协方差为:
∑=(ΦTBΦ+A)-1
wMP=∑ΦTBt (7)
其中∑是后验协方差。
相关向量机通过引入贝叶斯框架使得系统更加具有稀疏性;该系统的泛化性能较好,推理时间极短,能够很好的对文字进行识别分类。
(3)在后处理阶段,针对对应场景下的图片,根据场景特点建立规则并利用语言模型实现一定程度的修正。
所述含错文本纠错模块2实现步骤如下:
(1)利用基于深度学习的序列标注模型,在错误检测5时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子(对齐语料)实现有监督学习该序列标注模型;
(2)进一步的,在候选召回6部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;
(3)候选排序7则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列;
所述文本分类模块基于TextRnn模型,其具体实现步骤如下:
(1)输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量,单句词数设置为500,单个词语嵌入维度为100。针对不同长度的文本,通过补齐与截断实现每句等长;
(2)Bi-LSTM层中,令输出维度为128维向量,即最后一个词语的隐状态作为最终使用的隐向量,可以看做是包含了前面所有词语的信息。
(3)全连接层使用softmax作为激活函数进行输出文本分类结果。
所述信息蒸馏模块1:
(1)输入文本分类模块3softmax层输出的的软分类结果以及含有文字的待分类图片。
(2)主体部分的CNN模型其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:
软标签交叉熵算法:
Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)
每个样本对应类别j的软标签值:
output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]×log(input[i1,i2,...,ik,j]) (9)
其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的损失向量,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表。
(3)通过软标签交叉熵损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别。
参照图2,其错误检测5、候选召回6、候选排序7依次连接,构成含错文本纠错模块2。
训练阶段:当带有标签的OCR图片输入到本含错文本分类识别仪时,先经过信息提取模块1、含错文本纠错模块2、文本分类模块3后输出对应软标签向量,将软标签向量与带有标签的OCR图片输入到信息蒸馏模块中,其中OCR图片为输入,软标签向量为标签。推理阶段:当待分类的OCR图片输入到本含错文本分类识别仪时,信息蒸馏模块4输出OCR图片分类结果。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (5)

1.一种针对OCR图片的端到端含错文本分类识别仪,其特征在于:包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块。所述OCR信息提取模块、含错文本纠错模块、文本分类模块依次连接,所述信息蒸馏模块与文本分类模块相连接;所述的信息提取模块将OCR图片信息数据作为输入,输出文本信息,并通过含错文本纠错模块输出经过纠正的文本信息,后通过所述文本分类模块输出文本高维特征和分类概率分布,计算出当前分类结果的同时将文本高维特征和分类概率分布输入信息蒸馏模块;所述信息蒸馏模块通过输入的OCR图片与分类软标签向量进行训练,最终实现端到端的推理。
2.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪,其特征在于:所述OCR信息提取模块利用传统OCR技术,通过图像处理和统计机器学习方法从图像中提取文本信息,分为三个阶段:图像准备、文本识别和后处理。在图像准备预处理阶段,利用连通区域分析方法实现文字区域定位;在此基础上,通过非线性以及线性变换实现文字矫正,矫正完成后可获得相比初始时更易于读取的字符段;在文字识别阶段,利用相关向量机分类器实现识别分类,在相关向量机中,采用高斯核函数
Figure FDA0002780507330000011
其中yc为y的估计值,κ为高斯核函数的宽度参数,可以得到似然估计函数:
Figure FDA0002780507330000012
其中t=(t1,t2...tN)T,w=(w1,w2...wTN),w表示权重系数,t表示分类类别共N类,P表示概率结果、x为输入数据、y为输出数据,下标i表示第i个数据,上标T表示矩阵的转置;
在相关向量机中,权值w可以通过极大似然估计来确定,但是为了防止过拟合,通过高斯先验概率分布来约束参数:
Figure FDA0002780507330000013
其中,α是N+1维超参数,该值的引入导致了系统的稀疏性;wi表示当前维度的权值,
Figure FDA0002780507330000014
表示第i维度的超参数的倒数;
根据先验概率和贝叶斯定理,应用拉普拉斯原理计算出近似的后验概率:
(1)由于p(w|t,α)∝p(t|w)p(w|α),对当前固定的α值求出最大可能的权值wMP,采用二阶牛顿法求得wMP
Figure FDA0002780507330000015
其中,yn=σ{y(xn;w)},A=diag(α01,...αN);tn表示对应维度n的权重系数;
(2)利用拉普拉斯方法,将对数后验概率进行二次逼近,将上式进行两次求导得到:
Figure FDA0002780507330000021
其中,Φ=[φ(x1),φ(x2)...φ(xN)]T是由多个核函数构成的一个N×(N+1)维度的结构矩阵,并且φ(xi)=[1,K(xi,x1),K(xi,x2),...,K(xi,xN)]T。B=diag(β12,..βN)是一个对角矩阵,并且βi=σ{y(xi)}[1-σ(xi)]。对上式右边取负号再求逆矩阵,即可得到协方差矩阵Σ。
(3)利用wMP和∑,对超参数α进行更新,更新公式如下:
Figure FDA0002780507330000022
其中,γi≡1-αiii
最终,可以得到后验协方差为:
∑=(ΦTBΦ+A)-1
wMP=∑ΦTBt (7)
其中∑是后验协方差。
3.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪,其特征在于:所述含错文本纠错模块:输入由信息提取模块抽取的文字序列,基于错误检测、候选召回、候选排序三步实现文本纠错,具体如下:
利用基于深度学习的序列标注模型,在错误检测时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子,即对齐语料,实现有监督学习该序列标注模型;
在候选召回部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;
而候选排序则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列。
4.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪,其特征在于:所述文本分类模块:输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量,单句词数设置为500,单个词语嵌入维度为100。针对不同长度的文本,通过补齐与截断实现每句等长;Bi-LSTM层中,令输出维度为128维向量,即最后一个词语的隐状态作为最终使用的隐向量,可以看做是包含了前面所有词语的信息;最后全连接层使用softmax作为激活函数进行输出文本分类结果。
5.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪,其特征在于:所述信息蒸馏模块,输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片。主体部分采用CNN模型:其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:
软标签交叉熵算法:
Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)
每个样本对应类别j的软标签值:
output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]*log(input[i1,i2,...,ik,j]) (9)
其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的列表,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表。通过该损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别;
所述信息蒸馏模块在推理阶段:输入为待分类的含文字图片,通过信息蒸馏模块中训练好的CNN模型后,即可输出对应含文字图片的分类类别。
CN202011280156.1A 2020-11-16 2020-11-16 针对ocr图片的端到端含错文本分类识别仪 Active CN112434686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011280156.1A CN112434686B (zh) 2020-11-16 2020-11-16 针对ocr图片的端到端含错文本分类识别仪

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011280156.1A CN112434686B (zh) 2020-11-16 2020-11-16 针对ocr图片的端到端含错文本分类识别仪

Publications (2)

Publication Number Publication Date
CN112434686A true CN112434686A (zh) 2021-03-02
CN112434686B CN112434686B (zh) 2023-05-23

Family

ID=74700087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011280156.1A Active CN112434686B (zh) 2020-11-16 2020-11-16 针对ocr图片的端到端含错文本分类识别仪

Country Status (1)

Country Link
CN (1) CN112434686B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457557A (zh) * 2022-09-21 2022-12-09 深圳市学之友科技有限公司 一种扫描式翻译笔控制方法及装置
CN117033642A (zh) * 2023-10-08 2023-11-10 北京中关村科金技术有限公司 一种文档解析方法及装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909694A (zh) * 2017-03-13 2017-06-30 杭州普玄科技有限公司 分类标签数据获取方法以及装置
US20180053108A1 (en) * 2016-08-16 2018-02-22 Toyota Jidosha Kabushiki Kaisha Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network
CN108536107A (zh) * 2018-05-14 2018-09-14 浙江大学 基于混合型优化参数的群智能寻优故障诊断系统
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN110245557A (zh) * 2019-05-07 2019-09-17 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
CN110969012A (zh) * 2019-11-29 2020-04-07 北京字节跳动网络技术有限公司 文本纠错方法、装置、存储介质及电子设备
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111680547A (zh) * 2020-04-27 2020-09-18 北京百度网讯科技有限公司 交通倒计时牌的识别方法、装置、电子设备以及存储介质
CN111861731A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 基于ocr的贷后检查系统及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180053108A1 (en) * 2016-08-16 2018-02-22 Toyota Jidosha Kabushiki Kaisha Efficient Driver Action Prediction System Based on Temporal Fusion of Sensor Data Using Deep (Bidirectional) Recurrent Neural Network
CN106909694A (zh) * 2017-03-13 2017-06-30 杭州普玄科技有限公司 分类标签数据获取方法以及装置
US20180268292A1 (en) * 2017-03-17 2018-09-20 Nec Laboratories America, Inc. Learning efficient object detection models with knowledge distillation
CN108536107A (zh) * 2018-05-14 2018-09-14 浙江大学 基于混合型优化参数的群智能寻优故障诊断系统
CN110245557A (zh) * 2019-05-07 2019-09-17 平安科技(深圳)有限公司 图片处理方法、装置、计算机设备及存储介质
CN110765996A (zh) * 2019-10-21 2020-02-07 北京百度网讯科技有限公司 文本信息处理方法及装置
CN110969012A (zh) * 2019-11-29 2020-04-07 北京字节跳动网络技术有限公司 文本纠错方法、装置、存储介质及电子设备
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111680547A (zh) * 2020-04-27 2020-09-18 北京百度网讯科技有限公司 交通倒计时牌的识别方法、装置、电子设备以及存储介质
CN111861731A (zh) * 2020-07-31 2020-10-30 重庆富民银行股份有限公司 基于ocr的贷后检查系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAOHUA ZHANG.ET AL: ""Spelling Error Correction with Soft-Masked BERT"", 《ARXIV:2005.07421V1》 *
梁先森-在技术的路上奔跑: ""ddle硬标签交叉熵算法和软标签交叉熵算法"", 《CSDN》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457557A (zh) * 2022-09-21 2022-12-09 深圳市学之友科技有限公司 一种扫描式翻译笔控制方法及装置
CN115457557B (zh) * 2022-09-21 2024-03-05 惠州市学之友电子有限公司 一种扫描式翻译笔控制方法及装置
CN117033642A (zh) * 2023-10-08 2023-11-10 北京中关村科金技术有限公司 一种文档解析方法及装置

Also Published As

Publication number Publication date
CN112434686B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN111401061A (zh) 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN114298158A (zh) 一种基于图文线性组合的多模态预训练方法
CN110188781B (zh) 一种基于深度学习的古诗文自动识别方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111738003A (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN111552803A (zh) 一种基于图小波网络模型的文本分类方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
CN110276069A (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113361278B (zh) 一种基于数据增强与主动学习的小样本命名实体识别方法
CN112434686B (zh) 针对ocr图片的端到端含错文本分类识别仪
CN111680684B (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN114048314A (zh) 一种自然语言隐写分析方法
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN115422362B (zh) 一种基于人工智能的文本匹配方法
CN112231476A (zh) 一种改进的图神经网络科技文献大数据分类方法
CN114881038B (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN116110047A (zh) 基于ocr-ner的结构化电子病历构建方法和系统
CN112651242B (zh) 一种基于内外注意力机制和可变尺度卷积的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant