CN112434686B - 针对ocr图片的端到端含错文本分类识别仪 - Google Patents
针对ocr图片的端到端含错文本分类识别仪 Download PDFInfo
- Publication number
- CN112434686B CN112434686B CN202011280156.1A CN202011280156A CN112434686B CN 112434686 B CN112434686 B CN 112434686B CN 202011280156 A CN202011280156 A CN 202011280156A CN 112434686 B CN112434686 B CN 112434686B
- Authority
- CN
- China
- Prior art keywords
- text
- module
- ocr
- classification
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了针对OCR图片的端到端含错文本分类识别仪,用于对OCR图片中存在文字识别错误的信息实现端到端的纠错并分类,包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块。本发明为了克服已有的OCR图片识别文字和含错文本分类系统相互独立、需要多阶段分步识别纠错并推理类别的缺点,通过结合高效、高精度且可学习的信息蒸馏模块,以及可以充分利用大量历史数据、可拓展性强的文本纠错模块和文本分类模块,建立了针对OCR图片含错文本分类问题的兼具精度和效率的端到端分类系统,能够很好地利用OCR信息实现具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。
Description
技术领域
本发明涉及OCR图片转文字、文本纠错与文本识别领域,具体是针对OCR图片的端到端含错文本分类识别仪。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术,将图片、照片、电子传真等图像上的文字内容识别提取转换为可编辑文本,通过扫描仪、照相机、电子传真机等设备获取并保存图像文件,然后通过OCR软件读取、分析图像文件并通过字符识别提取字符串。
当前研究中,对OCR图片转化为可识别文本与将可识别文本进行纠错和分类,几乎是相互独立的。尽管国外在文本分类识别方面已有一定进展,并且对含错文本纠正也提出了一些方法,但仍然没有形成专门针对从OCR识别获得的含错文本中识别分类文字的成熟技术体系。同时,在文本分类问题本身,也有文本数据总量巨大、复杂多变、种类繁多、无效信息多等特点;当前主流的OCR识别方法识别输出成功率并不理想,难以广泛应用于实际业务生产环境中,且OCR提取文字的方法与与文本分类任务过于割裂,不具有任何泛化性。当前国内外并无直接针对OCR图片的含错文本分类相关研究,而是需要将OCR获取的文字输入额外的模型来进一步实现文本分类。
发明内容
为了克服目前针对OCR图片的含错文本分类步骤繁琐、识别精度低、系统冗余的不足,本发明的目的在于提供一种端到端的针对含错文本的分类识别仪,其精度高、推理速度快、一旦训练完成后系统极为轻量,且还能够基于新的数据实现在线校正,是具有高鲁棒性高适应性高敏捷性的含错文本分类识别仪。
本发明解决其技术问题所采用的技术方案是:针对OCR图片的端到端含错文本分类识别仪,包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块,其中:
OCR信息提取模块,利用传统OCR技术,通过图像处理和统计机器学习方法从图像中提取文本信息,包括二值化、噪声滤波、相关域分析、AdaBoost。传统的OCR技术根据处理方法可分为三个阶段:图像准备、文本识别和后处理:
(1)在图像准备预处理阶段,利用连通区域分析方法实现文字区域定位;在此基础上,通过非线性以及线性变换实现文字矫正,矫正完成后可获得相比初始时更易于读取的字符段;进一步的,通过Canny、Sobel以及Laplace滤波方法实现噪声的过滤,获取对应文字。
其中t=(t1,t2...tN)T,w=(w1,w2...wTN),w表示权重系数,t表示分类类别共N类,P表示概率结果、x为输入数据、y为输出数据,下标i表示第i个数据,上标T表示矩阵的转置;
在相关向量机中,权值w可以通过极大似然估计来确定,但是为了防止过拟合,通过高斯先验概率分布来约束参数:
根据先验概率和贝叶斯定理,应用拉普拉斯原理计算出近似的后验概率:
(2.1)由于p(w|t,α)∝p(t|w)p(w|α),对当前固定的α值求出最大可能的权值wMP,采用二阶牛顿法求得wMP;
其中,yn=σ{y(xn;w)},A=diag(α0,α1,...αN);tn表示对应维度n的权重系数;
(2.2)利用拉普拉斯方法,将对数后验概率进行二次逼近,将上式进行两次求导得到:
其中,Φ=[φ(x1),φ(x2)...φ(xN)]T是由多个核函数构成的一个N×(N+1)维度的结构矩阵,并且φ(xi)=[1,K(xi,x1),K(xi,x2),...,K(xi,xN)]T。B=diag(β1,β2,..βN)是一个对角矩阵,并且βi=σ{y(xi)}[1-σ(xi)]。对上式右边取负号再求逆矩阵,即可得到协方差矩阵Σ。
(2.3)利用wMP和∑,对超参数α进行更新,更新公式如下:
其中,γi≡1-αi∑ii;
最终,可以得到后验协方差为:
∑=(ΦTBΦ+A)-1
wMP=∑ΦTBt (7)
其中∑是后验协方差;
相关向量机通过引入贝叶斯框架使得系统更加具有稀疏性;该系统的泛化性能较好,推理时间极短,能够很好的对文字进行识别分类。
(3)在后处理阶段,针对对应场景下的图片,根据场景特点建立规则并利用语言模型实现一定程度的修正;
含错文本纠错模块:输入由信息提取模块抽取的文字序列,基于错误检测、候选召回、候选排序三步实现文本纠错,具体如下:
(1)利用基于深度学习的序列标注模型,在错误检测时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子(对齐语料)实现有监督学习该序列标注模型;
(2)进一步的,在候选召回部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;
(3)候选排序则是利用上下文神经网络特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列;
文本分类模块:基于TextRnn模型的文本分类模块;
(1)输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量,单句词数设置为500,单个词语嵌入维度为100。针对不同长度的文本,通过补齐与截断实现每句等长;
(2)Bi-LSTM层中,令输出维度为128维向量,即最后一个词语的隐状态作为最终使用的隐向量,可以看做是包含了前面所有词语的信息。
(3)全连接层使用softmax作为激活函数进行输出文本分类结果;
所述信息蒸馏模块:输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片。主体部分采用CNN模型:其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:
软标签交叉熵算法:
Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)
每个样本对应类别j的软标签值:
output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]*log(input[i1,i2,...,ik,j]) (9)
其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的列表,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表。通过该损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别。
本发明的技术构思为:通过跨模态知识蒸馏的方法,将传统方法中相互独立的OCR识别模块与文本纠错分类模块融合,并通过具有视觉特征和能表征高维语义特征的CNN网络进行知识蒸馏,建立起针对OCR图片的端到端含错文本分类识别仪。其能够实现OCR图片中的文字端到端分类,增强系统集成性的同时保持轻量与快速,满足各个场景下的部署要求。
本发明的有益效果主要表现在:克服了现有OCR识别文字和文本纠错分类任务过于割裂独立的不足,本发明新颖的识别仪实现了端到端的快速、轻量且集成度高的OCR含错文本分类目标,使得基于该分类识别仪的OCR图片分类场景能够快速精准的识别OCR图片的类别,且训练完成后模型轻量,方便各个场景部署。
附图说明
图1是针对OCR图片的端到端含错文本分类识别仪的流程图;
图2是含错文本纠错模块流程图。
具体实施方式
下面根据附图具体说明本发明。
参照图1,针对OCR图片的端到端含错文本分类识别仪,包括信息提取模块1,含错文本纠错模块2,文本分类模块3,信息蒸馏模块4。所述各部分按序号依次连接。
所述信息提取模块1:包括:利用传统OCR技术,通过图像处理和统计机器学习方法从图像中提取文本信息,包括二值化、噪声滤波、相关域分析、AdaBoost。传统的OCR技术根据处理方法可分为三个阶段:图像准备、文本识别和后处理:
(1)在图像准备预处理阶段,利用连通区域分析方法实现文字区域定位;在此基础上,通过非线性以及线性变换实现文字矫正,矫正完成后可获得相比初始时更易于读取的字符段;进一步的,通过Canny、Sobel以及Laplace滤波方法实现噪声的过滤,获取对应文字。
其中t=(t1,t2...tN)T,w=(w1,w2...wTN),w表示权重系数,t表示分类类别共N类,P表示概率结果、x为输入数据、y为输出数据,下标i表示第i个数据,上标T表示矩阵的转置;
在相关向量机中,权值w可以通过极大似然估计来确定,但是为了防止过拟合,通过高斯先验概率分布来约束参数:
根据先验概率和贝叶斯定理,应用拉普拉斯原理计算出近似的后验概率:
(2.1)由于p(w|t,α)∝p(t|w)p(w|α),对当前固定的α值求出最大可能的权值wMP,采用二阶牛顿法求得wMP;
其中,yn=σ{y(xn;w)},A=diag(α0,α1,...αN);tn表示对应维度n的权重系数;
(2.2)利用拉普拉斯方法,将对数后验概率进行二次逼近,将上式进行两次求导得到:
其中,Φ=[φ(x1),φ(x2)...φ(xN)]T是由多个核函数构成的一个N×(N+1)维度的结构矩阵,并且φ(xi)=[1,K(xi,x1),K(xi,x2),...,K(xi,xN)]T。B=diag(β1,β2,..βN)是一个对角矩阵,并且βi=σ{y(xi)}[1-σ(xi)]。对上式右边取负号再求逆矩阵,即可得到协方差矩阵Σ。
(2.3)利用wMP和∑,对超参数α进行更新,更新公式如下:
其中,γi≡1-αi∑ii;
最终,可以得到后验协方差为:
∑=(ΦTBΦ+A)-1
wMP=∑ΦTBt (7)
其中∑是后验协方差。
相关向量机通过引入贝叶斯框架使得系统更加具有稀疏性;该系统的泛化性能较好,推理时间极短,能够很好的对文字进行识别分类。
(3)在后处理阶段,针对对应场景下的图片,根据场景特点建立规则并利用语言模型实现一定程度的修正。
所述含错文本纠错模块2实现步骤如下:
(1)利用基于深度学习的序列标注模型,在错误检测5时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子(对齐语料)实现有监督学习该序列标注模型;
(2)进一步的,在候选召回6部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;
(3)候选排序7则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列;
所述文本分类模块基于TextRnn模型,其具体实现步骤如下:
(1)输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量,单句词数设置为500,单个词语嵌入维度为100。针对不同长度的文本,通过补齐与截断实现每句等长;
(2)Bi-LSTM层中,令输出维度为128维向量,即最后一个词语的隐状态作为最终使用的隐向量,可以看做是包含了前面所有词语的信息。
(3)全连接层使用softmax作为激活函数进行输出文本分类结果。
所述信息蒸馏模块1:
(1)输入文本分类模块3softmax层输出的的软分类结果以及含有文字的待分类图片。
(2)主体部分的CNN模型其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:
软标签交叉熵算法:
Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j] (8)
每个样本对应类别j的软标签值:
output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]×log(input[i1,i2,...,ik,j]) (9)
其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的损失向量,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表。
(3)通过软标签交叉熵损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别。
参照图2,其错误检测5、候选召回6、候选排序7依次连接,构成含错文本纠错模块2。
训练阶段:当带有标签的OCR图片输入到本含错文本分类识别仪时,先经过信息提取模块1、含错文本纠错模块2、文本分类模块3后输出对应软标签向量,将软标签向量与带有标签的OCR图片输入到信息蒸馏模块中,其中OCR图片为输入,软标签向量为标签。推理阶段:当待分类的OCR图片输入到本含错文本分类识别仪时,信息蒸馏模块4输出OCR图片分类结果。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (3)
1.一种针对OCR图片的端到端含错文本分类识别仪,其特征在于:包括OCR信息提取模块、含错文本纠错模块、文本分类模块以及信息蒸馏模块;所述OCR信息提取模块、含错文本纠错模块、文本分类模块依次连接,所述信息蒸馏模块与文本分类模块相连接;所述的信息提取模块将OCR图片信息数据作为输入,输出文本信息,并通过含错文本纠错模块输出经过纠正的文本信息,后通过所述文本分类模块输出文本高维特征和分类概率分布,计算出当前分类结果的同时将文本高维特征和分类概率分布输入信息蒸馏模块;所述信息蒸馏模块通过输入的OCR图片与分类软标签向量进行训练,最终实现端到端的推理;
所述含错文本纠错模块:输入由信息提取模块抽取的文字序列,基于错误检测、候选召回、候选排序三步实现文本纠错,具体如下:
利用基于深度学习的序列标注模型,在错误检测时,充分利用大量的无监督预料所构建的预训练语言模型,再通过由错误句子到正确句子,即对齐语料,实现有监督学习该序列标注模型;
在候选召回部分,利用对齐语料和对齐模型构建字级别、词级别、音级别的混淆字典,先利用字、音混淆字典初步召回候选,然后再利用词级别混淆字典和语言模型二次筛选候选,从而形成最终候选;
而候选排序则是利用上下文DNN特征和人工提取的形音、词法、语义特征一起训练排序模型,最终输出纠错后的文字序列;
所述信息蒸馏模块,输入为文本分类模块softmax层输出的的软分类结果以及含有文字的待分类图片;主体部分采用CNN模型:其输入为含有文字的待分类图片,标签为文本分类模块softmax层输出的的软分类结果,损失函数设计如下:
软标签交叉熵算法:
Loss=output[i1,i2,...,ik,j]×output[i1,i2,...,ik,j](8)
每个样本对应类别j的软标签值:
output[i1,i2,...,ik]=-∑jlabel[i1,i2,...,ik,j]*log(input[i1,i2,...,ik,j]) (9)
其中参数k为类别数,j为当前类别,ik为对应类别所产生的损失,output为所有类别输出的列表,label为文本分类模块标签输出的标签列表,input为CNN模型softmax层输出的软标签列表;通过该损失函数实现对信息蒸馏模块的优化,其通过识别含文字图片,输出为含文字图片中文字对应的类别;
所述信息蒸馏模块在推理阶段:输入为待分类的含文字图片,通过信息蒸馏模块中训练好的CNN模型后,即可输出对应含文字图片的分类类别。
2.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪,其特征在于:所述OCR信息提取模块利用传统OCR技术,通过图像处理和统计机器学习方法从图像中提取文本信息,分为三个阶段:图像准备、文本识别和后处理;在图像准备预处理阶段,利用连通区域分析方法实现文字区域定位;在此基础上,通过非线性以及线性变换实现文字矫正,矫正完成后可获得相比初始时更易于读取的字符段;在文字识别阶段,利用相关向量机分类器实现识别分类,在相关向量机中,采用高斯核函数其中yc为y的估计值,κ为高斯核函数的宽度参数,可以得到似然估计函数:/>
其中t=(t1,t2...tN)T,w=(w1,w2...wTN),w表示权重系数,t表示分类类别共N类,P表示概率结果、x为输入数据、y为输出数据,下标i表示第i个数据,上标T表示矩阵的转置;
在相关向量机中,权值w可以通过极大似然估计来确定,但是为了防止过拟合,通过高斯先验概率分布来约束参数:
根据先验概率和贝叶斯定理,应用拉普拉斯原理计算出近似的后验概率:
(1)由于p(w|t,α)∝p(t|w)p(w|α),对当前固定的α值求出最大可能的权值wMP,采用二阶牛顿法求得wMP;
其中,yn=σ{y(xn;w)},A=diag(α0,α1,...αN);tn表示对应维度n的权重系数;
(2)利用拉普拉斯方法,将对数后验概率进行二次逼近,将上式进行两次求导得到:
其中,Φ=[φ(x1),φ(x2)...φ(xN)]T是由多个核函数构成的一个N×(N+1)维度的结构矩阵,并且φ(xi)=[1,K(xi,x1),K(xi,x2),...,K(xi,xN)]T;B=diag(β1,β2,..βN)是一个对角矩阵,并且βi=σ{y(xi)}[1-σ(xi)];对上式右边取负号再求逆矩阵,即可得到协方差矩阵Σ;
(3)利用wMP和∑,对超参数α进行更新,更新公式如下:
其中,γi≡1-αi∑ii;
最终,可以得到后验协方差为:
∑=(ΦTBΦ+A)-1
wMP=ΣΦTBt (7)
其中Σ是后验协方差。
3.根据权利要求1所述针对OCR图片的端到端含错文本分类识别仪,其特征在于:所述文本分类模块:输入层将每个词在词库中的onehot向量嵌入转换为稠密词向量,单句词数设置为500,单个词语嵌入维度为100;针对不同长度的文本,通过补齐与截断实现每句等长;Bi-LSTM层中,令输出维度为128维向量,即最后一个词语的隐状态作为最终使用的隐向量,可以看做是包含了前面所有词语的信息;最后全连接层使用softmax作为激活函数进行输出文本分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280156.1A CN112434686B (zh) | 2020-11-16 | 2020-11-16 | 针对ocr图片的端到端含错文本分类识别仪 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011280156.1A CN112434686B (zh) | 2020-11-16 | 2020-11-16 | 针对ocr图片的端到端含错文本分类识别仪 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112434686A CN112434686A (zh) | 2021-03-02 |
CN112434686B true CN112434686B (zh) | 2023-05-23 |
Family
ID=74700087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011280156.1A Active CN112434686B (zh) | 2020-11-16 | 2020-11-16 | 针对ocr图片的端到端含错文本分类识别仪 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112434686B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114153971B (zh) * | 2021-11-09 | 2024-06-14 | 浙江大学 | 一种含错中文文本纠错识别分类设备 |
CN115457557B (zh) * | 2022-09-21 | 2024-03-05 | 惠州市学之友电子有限公司 | 一种扫描式翻译笔控制方法及装置 |
CN117033642A (zh) * | 2023-10-08 | 2023-11-10 | 北京中关村科金技术有限公司 | 一种文档解析方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120353B2 (en) * | 2016-08-16 | 2021-09-14 | Toyota Jidosha Kabushiki Kaisha | Efficient driver action prediction system based on temporal fusion of sensor data using deep (bidirectional) recurrent neural network |
CN106909694B (zh) * | 2017-03-13 | 2020-01-17 | 杭州普玄科技有限公司 | 分类标签数据获取方法以及装置 |
US20180268292A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc. | Learning efficient object detection models with knowledge distillation |
CN108536107A (zh) * | 2018-05-14 | 2018-09-14 | 浙江大学 | 基于混合型优化参数的群智能寻优故障诊断系统 |
CN110245557B (zh) * | 2019-05-07 | 2023-12-22 | 平安科技(深圳)有限公司 | 图片处理方法、装置、计算机设备及存储介质 |
CN110765996B (zh) * | 2019-10-21 | 2022-07-29 | 北京百度网讯科技有限公司 | 文本信息处理方法及装置 |
CN110969012B (zh) * | 2019-11-29 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 文本纠错方法、装置、存储介质及电子设备 |
CN111339910B (zh) * | 2020-02-24 | 2023-11-28 | 支付宝实验室(新加坡)有限公司 | 文本的处理、文本分类模型的训练方法及装置 |
CN111680547B (zh) * | 2020-04-27 | 2024-01-12 | 阿波罗智能技术(北京)有限公司 | 交通倒计时牌的识别方法、装置、电子设备以及存储介质 |
-
2020
- 2020-11-16 CN CN202011280156.1A patent/CN112434686B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861731A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 基于ocr的贷后检查系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112434686A (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN108984530B (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN110110585B (zh) | 基于深度学习的智能阅卷实现方法及系统、计算机程序 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN114298158A (zh) | 一种基于图文线性组合的多模态预训练方法 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN112733866A (zh) | 一种提高可控图像文本描述正确性的网络构建方法 | |
CN111552803A (zh) | 一种基于图小波网络模型的文本分类方法 | |
CN110598022B (zh) | 一种基于鲁棒深度哈希网络的图像检索系统与方法 | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN117557886A (zh) | 融合偏标签和消极学习的含噪声标签图像识别方法及系统 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN115422362B (zh) | 一种基于人工智能的文本匹配方法 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 | |
CN116110047A (zh) | 基于ocr-ner的结构化电子病历构建方法和系统 | |
CN114580421A (zh) | 一种基于改进神经网络的页岩气实体识别方法 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
Purba et al. | Document level emotion detection from bangla text using machine learning techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |