CN113033240B - 多行文本识别方法、模型训练方法、装置、设备及介质 - Google Patents

多行文本识别方法、模型训练方法、装置、设备及介质 Download PDF

Info

Publication number
CN113033240B
CN113033240B CN201911250249.7A CN201911250249A CN113033240B CN 113033240 B CN113033240 B CN 113033240B CN 201911250249 A CN201911250249 A CN 201911250249A CN 113033240 B CN113033240 B CN 113033240B
Authority
CN
China
Prior art keywords
sample
character
probability
sample image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911250249.7A
Other languages
English (en)
Other versions
CN113033240A (zh
Inventor
程战战
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Goldway Intelligent Transportation System Co Ltd
Original Assignee
Shanghai Goldway Intelligent Transportation System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Goldway Intelligent Transportation System Co Ltd filed Critical Shanghai Goldway Intelligent Transportation System Co Ltd
Priority to CN201911250249.7A priority Critical patent/CN113033240B/zh
Publication of CN113033240A publication Critical patent/CN113033240A/zh
Application granted granted Critical
Publication of CN113033240B publication Critical patent/CN113033240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明实施例提供了一种行文本识别方法、模型训练方法、装置、电子设备及存储介质,获取包含有多行文本内容的目标图像;将目标图像输入预先训练完成的神经网络模型,以使神经网络模型基于识别总数量对目标图像进行卷积处理,得到与目标图像对应的目标特征图,并基于目标特征图,计算获得目标图像特征概率图,并基于目标图像特征概率图,输出目标图像中的多行文本内容。本发明实施例中,模型训练过程中仅需进行一次样本标注,基于标注好的样本,也仅需对神经网络模型进行训练,即:本发明实施例中仅需一次样本标注和一次模型训练,因此,降低了模型训练的复杂度。

Description

多行文本识别方法、模型训练方法、装置、设备及介质
技术领域
本发明涉及文本识别技术领域,特别是涉及一种多行文本识别方法、模型训练方法、装置、电子设备及存储介质。
背景技术
随着图像处理技术的不断发展,目前,已经可以利用计算机对图片中的文字进行自动识别。日常生活中,常需要对包含有多行文本的图片进行识别,从而得到图片中的多行文本内容,例如,在身份证识别场景下,需要对身份证图片进行识别,以获取其中包含的姓名、出生日期及身份证号码等多行身份信息。
通常,在进行多行文本识别时,需要先将待识别的目标图像输入预先训练好的位置检测模型,得到图像中各行文本的位置信息,然后再将位置信息输入预先训练好的内容识别模型,从而得到图像中各行文本的文本内容作为最终的识别结果。
上述方法中,需要使用两个模型才能完成多行文本识别,因此,在进行多行文本识别之前,需要针对每个模型分别进行一次样本标注,并基于标注好的样本,对每个模型分别进行训练,即:上述训练过程中需要进行两次样本标注和两次模型训练,因此,模型的训练过程较为复杂。
发明内容
本发明实施例的目的在于提供一种多行文本识别方法、模型训练方法、装置、电子设备及存储介质,以降低模型训练的复杂度。具体技术方案如下:
第一方面,本发明实施例提供了一种多行文本识别方法,包括:
获取包含有多行文本内容的目标图像;
将所述目标图像输入预先训练完成的神经网络模型,以使所述神经网络模型基于识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并基于所述目标特征图,计算获得目标图像特征概率图,并基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容;
其中,所述识别总数量为所述神经网络模型能够识别的字符类别的总数量;所述目标图像特征概率图,用于表示所述目标特征图中每个特征点属于各个字符的概率;所述神经网络模型能够识别的字符类别中包括空字符。
进一步的,所述神经网络模型包含:卷积层,归一化层及输出层;
所述将所述目标图像输入预先训练完成的神经网络模型的步骤,包括:
将所述目标图像输入预先训练完成的神经网络模型中的卷积层;
所述卷积层,用于基于所述识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并将所述目标特征图输入所述归一化层;
所述归一化层,用于使用预设的归一化函数,计算所述目标特征图中每个特征点属于各个字符的概率值,将每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成目标特征概率图;并将所述目标特征概率图输入所述输出层;
所述输出层,用于基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容。
进一步的,所述输出层,具体用于:
针对所述目标图像特征概率图中的各特征点,分别将最大概率值所在通道对应的字符确定为所述各特征点对应的字符,得到所述目标图像对应的多行字符串;所述多行字符串的行数与所述目标图像特征概率图中特征点的行数相同;
将所述多行字符串中连续相同的字符合并为一个字符,并去除空字符,得到所述目标图像中的多行文本内容;
输出所述多行文本内容。
进一步的,所述神经网络模型,采用如下方法训练获得:
获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure BDA0002308816460000031
判断所述损失函数是否小于预设阈值;
若是,则结束训练,得到训练完成的神经网络模型;
若否,调整所述卷积层的网络参数,继续下一次训练;
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值。
进一步的,所述计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率的步骤,包括:
通过第二预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率,所述第二预设公式为:
Figure BDA0002308816460000032
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
进一步的,通过第三预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第三预设公式为:
Figure BDA0002308816460000041
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure BDA0002308816460000042
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure BDA0002308816460000043
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
进一步的,通过第四预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000051
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
进一步的,通过第五预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000061
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
第二方面,本发明实施例提供了一种用于多行文本识别的神经网络模型训练方法,所述方法包括:
获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure BDA0002308816460000071
判断所述损失函数是否小于预设阈值;
若是,则结束训练,得到训练完成的神经网络模型;
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值。
进一步的,所述计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率的步骤,包括:
通过第二预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率,所述第二预设公式为:
Figure BDA0002308816460000072
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
进一步的,通过第三预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第三预设公式为:
Figure BDA0002308816460000081
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure BDA0002308816460000082
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure BDA0002308816460000083
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
进一步的,通过第四预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000091
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
进一步的,通过第五预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000101
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
第三方面,本发明实施例提供了一种多行文本识别装置,包括:
目标图像获取模块,用于获取包含有多行文本内容的目标图像;
多行文本内容输出模块,用于将所述目标图像输入预先训练完成的神经网络模型,以使所述神经网络模型基于识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并基于所述目标特征图,计算获得目标图像特征概率图,并基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容;
其中,所述识别总数量为所述神经网络模型能够识别的字符类别的总数量;所述目标图像特征概率图,用于表示所述目标特征图中每个特征点属于各个字符的概率;所述神经网络模型能够识别的字符类别中包括空字符。
进一步的,所述神经网络模型包含:卷积层,归一化层及输出层;
所述多行文本内容输出模块在执行所述将所述目标图像输入预先训练完成的神经网络模型的步骤时,具体用于将所述目标图像输入预先训练完成的神经网络模型中的卷积层;
所述卷积层,用于基于所述识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并将所述目标特征图输入所述归一化层;
所述归一化层,用于使用预设的归一化函数,计算所述目标特征图中每个特征点属于各个字符的概率值,将每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成目标特征概率图;并将所述目标特征概率图输入所述输出层;
所述输出层,用于基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容。
进一步的,所述输出层,具体用于:
针对所述目标图像特征概率图中的各特征点,分别将最大概率值所在通道对应的字符确定为所述各特征点对应的字符,得到所述目标图像对应的多行字符串;所述多行字符串的行数与所述目标图像特征概率图中特征点的行数相同;
将所述多行字符串中连续相同的字符合并为一个字符,并去除空字符,得到所述目标图像中的多行文本内容;
输出所述多行文本内容。
进一步的,装置还包括:
样本图像和样本真值获取模块,用于获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
样本图像特征概率图获取模块,用于将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
条件概率计算模块,用于计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
损失函数计算模块,用于根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure BDA0002308816460000121
其中,O为所述损失函数;p(Z/X0)为所述条件概率;R为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值;
判断模块,用于判断所述损失函数是否小于预设阈值;若是,训练结束,得到训练完成的神经网络模型;若否,触发参数调整模块;
所述参数调整模块,用于调整所述卷积层的网络参数,并触发所述样本图像特征概率图获取模块。
进一步的,所述条件概率计算模块具体用于:
通过第二预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率,所述第二预设公式为:
Figure BDA0002308816460000131
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
进一步的,所述条件概率计算模块通过第三预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第三预设公式为:
Figure BDA0002308816460000132
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure BDA0002308816460000133
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure BDA0002308816460000134
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
进一步的,所述条件概率计算模块通过第四预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000151
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
进一步的,所述条件概率计算模块通过第五预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000152
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
第四方面,本发明实施例提供了一种用于多行文本识别的神经网络模型训练装置,所述神经网络模型包括:卷积层,归一化层及输出层,所述装置包括:
样本图像和样本真值获取模块,用于获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
样本图像特征概率图获取模块,用于将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
条件概率计算模块,用于计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
损失函数计算模块,用于根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure BDA0002308816460000161
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值;
判断模块,用于判断所述损失函数是否小于预设阈值;若是,训练结束,得到训练完成的神经网络模型;
所述参数调整模块,用于调整所述卷积层的网络参数,并触发所述样本图像特征概率图获取模块。
进一步的,所述条件概率计算模块具体用于:
通过第二预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率,所述第二预设公式为:
Figure BDA0002308816460000171
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
进一步的,所述条件概率计算模块通过第三预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第三预设公式为:
Figure BDA0002308816460000172
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure BDA0002308816460000173
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure BDA0002308816460000174
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
进一步的,所述条件概率计算模块通过第四预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000191
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
进一步的,所述条件概率计算模块通过第五预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
对于任意1≤b≤H0',1≤c≤W0',0≤S≤l'-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000201
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
第五方面,本发明实施例提供了一种电子设备,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一多行文本识别方法。
第六方面,本发明实施例提供了另一种电子设备,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现上述任一用于多行文本识别的神经网络模型训练方法。
第七方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述任一多行文本识别方法。
第八方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行上述任一用于多行文本识别的神经网络模型训练方法。
本发明实施例提供的多行文本识别方法、模型训练方法、装置、电子设备及存储介质,获取包含有多行文本内容的目标图像;将所述目标图像输入预先训练完成的神经网络模型,以使所述神经网络模型基于识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并基于所述目标特征图,计算获得目标图像特征概率图,并基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容;其中,所述识别总数量为所述神经网络模型能够识别的字符类别的总数量;所述目标图像特征概率图,用于表示所述目标特征图中每个特征点属于各个字符的概率;所述神经网络模型能够识别的字符类别中包括空字符。本发明实施例中,使用一个神经网络模型进行多行文本识别,因此,模型训练过程中仅需进行一次样本标注,基于标注好的样本,也仅需对神经网络模型进行训练,即:本发明实施例中仅需一次样本标注和一次模型训练,因此,降低了模型训练的复杂度。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的多行文本识别方法的一种流程示意图;
图2为本发明实施例提供的多行文本识别方法的另一种流程示意图;
图3为输出层得到的目标图像对应的多行字符串的示意图;
图4为本发明实施例提供的用于多行文本识别的神经网络模型训练方法的一种流程示意图;
图5为本发明实施例提供的多行文本识别装置的结构示意图;
图6为本发明实施例提供的用于多行文本识别的神经网络模型训练装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图;
图8为本发明实施例提供的另一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了降低用于多行文本识别的模型的训练复杂度,本发明实施例提供了一种多行文本识别方法、模型训练方法、装置、电子设备及存储介质。
参见图1,图1为本发明实施例提供的多行文本识别方法的一种流程示意图,具体包括如下步骤:
步骤101,获取包含有多行文本内容的目标图像。
步骤102,将目标图像输入预先训练完成的神经网络模型,以使神经网络模型基于识别总数量对目标图像进行卷积处理,得到与目标图像对应的目标特征图,并基于目标特征图,计算获得目标图像特征概率图,并基于目标图像特征概率图,输出目标图像中的多行文本内容。
其中,识别总数量为神经网络模型能够识别的字符类别的总数量;目标图像特征概率图,用于表示目标特征图中每个特征点属于各个字符的概率;神经网络模型能够识别的字符类别中包括空字符。
具体的,下面通过举例的方式对步骤102的内容进行解释:
例如,目标图像是大小为W×H×3的RGB格式的图像,将该图像输入预先训练完成的神经网络模型之后,神经网络模型对该图像进行卷积处理,得到大小为W'×H'×C的目标特征图,其中,C即为识别总数量,也就是神经网络模型能够识别的字符类别总数量(若神经网络模型能够识别0,1,…,9共10个阿拉伯数字,那么加上空字符,则C=11),W'为目标特征图中特征点的列数,H'为目标特征图中特征点的行数,W'和H'的大小均与神经网络模型中的网络参数相关;在得到目标特征图后,对该目标特征图进行归一化处理,可以得到目标图像特征概率图,目标图像特征概率图的尺寸与目标特征图的尺寸相同,均为W′×H′×C,目标图像特征概率图中有C个通道,相应地,目标图像特征概率图中每个特征点均有C个概率值,分别表示该特征点属于各个字符的概率;神经网络模型基于计算得到的目标图像特征概率图中各特征点的概率值,输出目标图像中的多行文本内容。
由上述的实施例可见,在本发明实施例中,使用一个神经网络模型进行多行文本识别,因此,模型训练过程中仅需进行一次样本标注,基于标注好的样本,也仅需对神经网络模型进行训练,即:本发明实施例中仅需一次样本标注和一次模型训练,因此,降低了模型训练的复杂度。
参见图2,图2为本发明实施例提供的多行文本识别方法的另一种流程示意图,该方法中所使用的神经网络模型包含:卷积层,归一化层及输出层,该方法的具体步骤包括:
步骤201,获取包含有多行文本内容的目标图像。
步骤202,将目标图像输入预先训练完成的神经网络模型中的卷积层,以使卷积层基于识别总数量对目标图像进行卷积处理,得到与目标图像对应的目标特征图,并将目标特征图输入归一化层;以使归一化层使用预设的归一化函数,计算目标特征图中每个特征点属于各个字符的概率值,将每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成目标特征概率图;并将目标特征概率图输入输出层;以使输出层基于目标图像特征概率图,输出目标图像中的多行文本内容。
其中,以目标特征概率图中的(1,1)位置处的特征点为例,预设的归一化函数可以为:
Figure BDA0002308816460000231
其中,xi 11为目标特征概率图中(1,1)位置处的特征点在i通道的通道值;
Figure BDA0002308816460000232
为目标特征图中(1,1)位置处的特征点在i通道的通道值;
Figure BDA0002308816460000233
为目标特征图中(1,1)位置处的特征点在c通道的通道值。因此,目标特征概率图中(1,1)位置处的特征点的概率值是一个C维数组:x11={x1 11,x2 11,…xC 11}。
对目标特征概率图中的所有特征点均按照上述公式进行计算,即可得到目标图像特征概率图X,其中,H'为所述目标图像特征概率图中特征点的行数;W'为所述目标图像特征概率图中特征点的列数:
Figure BDA0002308816460000234
进一步的,输出层可以通过如下步骤输出目标图像中的多行文本内容:
针对目标图像特征概率图中的各特征点,分别将最大概率值所在通道对应的字符确定为各特征点对应的字符,得到目标图像对应的多行字符串;多行字符串的行数与目标图像特征概率图中特征点的行数相同;
将多行字符串中连续相同的字符合并为一个字符,并去除空字符,得到目标图像中的多行文本内容;
输出多行文本内容。
例如,图3所示,图3为输出层得到的目标图像对应的多行字符串的示意图,假设目标图像特征概率图X中特征点的行数为4,列数为7,且根据X中各特征点的概率值,将最大概率值所在通道对应的字符确定为各特征点对应的字符,得到:特征点(1,1)对应的字符为空字符,特征点(1,2)对应的字符为“1”,特征点(1,3)对应的字符也为“1”,…,特征点(4,6)对应的字符为“9”,特征点(4,7)对应的字符为空字符,此时,可以得到4行字符串,分别为:_11__2_、_______、_5_7_9_、以及___7_9_;将上述4行字符串中,连续相同的字符合并为一个字符,并去除空字符,即可得到目标图像中的2行文本内容:12、579;输出得到的12、579。
参见图4,图4为本发明实施例提供的用于多行文本识别的神经网络模型训练方法的一种流程示意图,具体包括如下步骤:
步骤401,获取包含多行文本内容的样本图像和样本真值,样本真值为样本图像中实际包含的多行文本内容。
步骤402,将样本图像输入神经网络模型中的卷积层,以使卷积层对样本图像进行卷积处理,得到与样本图像对应的样本特征图;并将样本特征图输入神经网络模型中的归一化层,以使归一化层使用预设的归一化函数,计算样本特征图中每个特征点属于各个字符的概率值,将样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与样本图像对应的样本图像特征概率图。
步骤403,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值的条件概率。
进一步的,可以通过第二预设公式计算上述条件概率:
Figure BDA0002308816460000251
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
进一步的,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率时,可以采用如下三种方式:
第一种方式为:采用第三预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,第三预设公式为:
Figure BDA0002308816460000252
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure BDA0002308816460000253
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure BDA0002308816460000254
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
例如,若li为字符串“ABC”,则li'为字符串“_A_B_C_”,|li'|则为7,α1,1(0)则表示X0中特征点(1,1)对应的字符为字符串“_A_B_C_”中第0个字符(即“_”)的概率;α1,1(1)则表示X0中特征点(1,1)对应的字符为字符串“_A_B_C_”中第1个字符(即“A”)的概率。
具体的,由于公式αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)和g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2),因此,对于上述第三预设公式,最终可以将P(li/X0)表示为α1,1(S)的函数,而α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率,这样,在进行模型训练时,可以根据步骤402中得到的样本图像特征概率图X0,查找α1,1(S)的值,进而计算出P(li/X0)。
第二种方式为:采用第四预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000271
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
例如,若li为字符串“ABC”,则li'为字符串“_A_B_C_”,|li'|则为7,
Figure BDA0002308816460000272
则表示X0中特征点(H0',W0')对应的字符为字符串“_A_B_C_”中第0个字符(即“_”)的概率;
Figure BDA0002308816460000273
则表示X0中特征点(H0',W0')对应的字符为字符串“_A_B_C_”中第1个字符(即“A”)的概率。
具体的,由于公式βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)和g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2),因此,对于上述第四预设公式,最终可以将P(li/X0)表示为
Figure BDA0002308816460000274
的函数,而
Figure BDA0002308816460000275
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率,这样,在进行模型训练时,可以根据步骤402中得到的样本图像特征概率图X0,查找
Figure BDA0002308816460000276
的值,进而计算出P(li/X0)。
第三种方式为:采用第五预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且与第一种方式相同,对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
与第二种方式相同,对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000281
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
与第一种方式和第二种方式同理,对于上述第五预设公式,最终可以将P(li/X0)表示为
Figure BDA0002308816460000282
和α1,1(Y)的函数,其中,X和Y均为大于等于1,小于等于|l'|-1的整数,而
Figure BDA0002308816460000291
为X0中特征点(H0',W0')对应的字符为li'中第X个字符的概率,α1,1(Y)为X0中特征点(1,1)对应的字符为li'中第Y个字符的概率,这样,在进行模型训练时,可以根据步骤402中得到的样本图像特征概率图X0,查找
Figure BDA0002308816460000292
和α1,1(Y)的值,进而计算出P(li/X0)。
步骤404,根据条件概率,通过第一预设公式,计算损失函数。
其中,第一预设公式为:
Figure BDA0002308816460000293
其中,O为损失函数;p(Z/X0)为条件概率;E为样本图像集,样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为样本图像特征概率图;Z为样本图像的样本真值。
步骤405,判断损失函数是否小于预设阈值;若是,则结束训练,得到训练完成的神经网络模型;若否,则执行步骤406。
步骤406,调整卷积层的网络参数。之后,返回执行步骤402。
在步骤402中,从样本图像集E中选择一个未被选择过的样本图像,将其输入神经网络模型中的卷积层,得到样本图像特征概率图,之后,经过步骤403和步骤404,当在步骤405中判读出损失函数不小于预设阈值时,可以对神经网络模型中的卷积层的参数进行调整,然后,再从样本图像集E中重新选择一个未被选择过的图像样本,再次执行步骤402-步骤405,以进行下一次训练过程,直至损失函数小于预设阈值,则结束训练,得到训练完成的神经网络模型。
现有技术中,由于需要使用两个模型-位置检测模型和内容识别模型,而位置检测模型在训练过程中需要计算多个损失函数才能判断该模型是否收敛,内容识别模型在训练过程中也需要计算一个损失函数才能判断该模型是否收敛,因此,现有技术中模型训练复杂度高,而在图4所示模型训练过程中,仅需计算一个损失函数即可判断模型是否收敛,因此,模型训练的复杂度较低。
基于同一发明构思,根据本发明上述实施例提供的多行文本识别方法,相应地,本发明实施例还提供了一种多行文本识别装置,该装置的结构示意图如图5所示,包括:
目标图像获取模块501,用于获取包含有多行文本内容的目标图像;
多行文本内容输出模块502,用于将目标图像输入预先训练完成的神经网络模型,以使神经网络模型基于识别总数量对目标图像进行卷积处理,得到与目标图像对应的目标特征图,并基于目标特征图,计算获得目标图像特征概率图,并基于目标图像特征概率图,输出目标图像中的多行文本内容;
其中,识别总数量为神经网络模型能够识别的字符类别的总数量;目标图像特征概率图,用于表示目标特征图中每个特征点属于各个字符的概率;神经网络模型能够识别的字符类别中包括空字符。
进一步的,神经网络模型包含:卷积层,归一化层及输出层;
多行文本内容输出模块在执行将目标图像输入预先训练完成的神经网络模型的步骤时,具体用于将目标图像输入预先训练完成的神经网络模型中的卷积层;
卷积层,用于基于识别总数量对目标图像进行卷积处理,得到与目标图像对应的目标特征图,并将目标特征图输入归一化层;
归一化层,用于使用预设的归一化函数,计算目标特征图中每个特征点属于各个字符的概率值,将每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成目标特征概率图;并将目标特征概率图输入输出层;
输出层,用于基于目标图像特征概率图,输出目标图像中的多行文本内容。
进一步的,输出层,具体用于:
针对目标图像特征概率图中的各特征点,分别将最大概率值所在通道对应的字符确定为各特征点对应的字符,得到目标图像对应的多行字符串;多行字符串的行数与目标图像特征概率图中特征点的行数相同;
将多行字符串中连续相同的字符合并为一个字符,并去除空字符,得到目标图像中的多行文本内容;
输出多行文本内容。
进一步的,装置还包括:
样本图像和样本真值获取模块,用于获取包含多行文本内容的样本图像和样本真值,样本真值为样本图像中实际包含的多行文本内容;
样本图像特征概率图获取模块,用于将样本图像输入神经网络模型中的卷积层,以使卷积层对样本图像进行卷积处理,得到与样本图像对应的样本特征图;并将样本特征图输入神经网络模型中的归一化层,以使归一化层使用预设的归一化函数,计算样本特征图中每个特征点属于各个字符的概率值,将样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与样本图像对应的样本图像特征概率图;
条件概率计算模块,用于计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值的条件概率;
损失函数计算模块,用于根据条件概率,通过第一预设公式,计算损失函数,第一预设公式为:
Figure BDA0002308816460000311
其中,O为所述损失函数;p(Z/X0)为所述条件概率;R为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值;
判断模块,用于判断损失函数是否小于预设阈值;若是,训练结束,得到训练完成的神经网络模型;若否,触发参数调整模块;
参数调整模块,用于调整卷积层的网络参数,并触发样本图像特征概率图获取模块。
进一步的,条件概率计算模块具体用于:
通过第二预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值的条件概率,第二预设公式为:
Figure BDA0002308816460000312
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
进一步的,条件概率计算模块通过第三预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值中第i行文本内容的概率,所述第三预设公式为:
Figure BDA0002308816460000321
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure BDA0002308816460000322
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure BDA0002308816460000323
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
进一步的,条件概率计算模块通过第四预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值中第i行文本内容的概率,所述第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000331
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
进一步的,条件概率计算模块通过第五预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值中第i行文本内容的概率,所述第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000341
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
在本发明图5所示实施例中,使用一个神经网络模型进行多行文本识别,因此,模型训练过程中仅需进行一次样本标注,基于标注好的样本,也仅需对神经网络模型进行训练,即:本发明实施例中仅需一次样本标注和一次模型训练,因此,降低了模型训练的复杂度。
基于同一发明构思,根据本发明上述实施例提供的用于多行文本识别的神经网络模型训练方法,相应地,本发明实施例还提供了一种用于多行文本识别的神经网络模型训练装置,其中,用于多行文本识别的神经网络模型包括:卷积层,归一化层及输出层,该装置的结构示意图如图6所示,包括:
样本图像和样本真值获取模块601,用于获取包含多行文本内容的样本图像和样本真值,样本真值为样本图像中实际包含的多行文本内容;
样本图像特征概率图获取模块602,用于将样本图像输入神经网络模型中的卷积层,以使卷积层对样本图像进行卷积处理,得到与样本图像对应的样本特征图;并将样本特征图输入神经网络模型中的归一化层,以使归一化层使用预设的归一化函数,计算样本特征图中每个特征点属于各个字符的概率值,将样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与样本图像对应的样本图像特征概率图;
条件概率计算模块603,用于计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值的条件概率;
损失函数计算模块604,用于根据条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure BDA0002308816460000351
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值;
判断模块605,用于判断损失函数是否小于预设阈值;若是,训练结束,得到训练完成的神经网络模型;若否,触发参数调整模块;
参数调整模块606,用于调整卷积层的网络参数,并触发样本图像特征概率图获取模块602。
进一步的,条件概率计算模块603具体用于:
通过第二预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值的条件概率,所述第二预设公式为:
Figure BDA0002308816460000361
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
进一步的,条件概率计算模块603通过第三预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值中第i行文本内容的概率,所述第三预设公式为:
Figure BDA0002308816460000362
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure BDA0002308816460000363
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure BDA0002308816460000364
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
进一步的,条件概率计算模块603通过第四预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值中第i行文本内容的概率,所述第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000381
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
进一步的,条件概率计算模块603通过第五预设公式,计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值中第i行文本内容的概率,所述第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure BDA0002308816460000391
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
在本发明图6所示实施例中,在得到X0之后,可通过公式直接计算出损失函数,进而根据损失函数的大小判断模型是否收敛,而无需在得到X0之后,再将其输入输出层,经过输出层的计算得到识别结果,然后基于识别结果与真值的差异,判断模型是否收敛,因此,降低了模型训练的复杂性,提高了模型训练的效率。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获取包含有多行文本内容的目标图像;
将目标图像输入预先训练完成的神经网络模型,以使神经网络模型基于识别总数量对目标图像进行卷积处理,得到与目标图像对应的目标特征图,并基于目标特征图,计算获得目标图像特征概率图,并基于目标图像特征概率图,输出目标图像中的多行文本内容;
其中,识别总数量为神经网络模型能够识别的字符类别的总数量;目标图像特征概率图,用于表示目标特征图中每个特征点属于各个字符的概率;神经网络模型能够识别的字符类别中包括空字符。
进一步的,还可以包括本发明实施例提供的上述多行文本识别方法中的其他处理流程,在此不再进行详细描述。
本发明实施例还提供了另一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
获取包含多行文本内容的样本图像和样本真值,样本真值为样本图像中实际包含的多行文本内容;
将样本图像输入神经网络模型中的卷积层,以使卷积层对样本图像进行卷积处理,得到与样本图像对应的样本特征图;并将样本特征图输入神经网络模型中的归一化层,以使归一化层使用预设的归一化函数,计算样本特征图中每个特征点属于各个字符的概率值,将样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与样本图像对应的样本图像特征概率图;
计算在将样本图像特征概率图输入神经网络模型中输出层的条件下,输出样本图像的样本真值的条件概率;
根据条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure BDA0002308816460000401
判断损失函数是否小于预设阈值;
若是,则结束训练,得到训练完成的神经网络模型;
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值。
进一步的,还可以包括本发明实施例提供的上述用于多行文本识别的神经网络模型训练方法中的其他处理流程,在此不再进行详细描述。
上述被电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的多行文本识别方法。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用于多行文本识别的神经网络模型训练方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的多行文本识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的用于多行文本识别的神经网络模型训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备及存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (13)

1.一种多行文本识别方法,其特征在于,包括:
获取包含有多行文本内容的目标图像;
将所述目标图像输入预先训练完成的神经网络模型,以使所述神经网络模型基于识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并基于所述目标特征图,计算获得目标图像特征概率图,并基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容;
其中,所述识别总数量为所述神经网络模型能够识别的字符类别的总数量;所述目标图像特征概率图,用于表示所述目标特征图中每个特征点属于各个字符的概率;所述神经网络模型能够识别的字符类别中包括空字符;
所述神经网络模型包含:卷积层,归一化层及输出层;
所述将所述目标图像输入预先训练完成的神经网络模型的步骤,包括:
将所述目标图像输入预先训练完成的神经网络模型中的卷积层;
所述卷积层,用于基于所述识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并将所述目标特征图输入所述归一化层;
所述归一化层,用于使用预设的归一化函数,计算所述目标特征图中每个特征点属于各个字符的概率值,将每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成目标特征概率图;并将所述目标特征概率图输入所述输出层;
所述输出层,用于基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容;
所述神经网络模型,采用如下方法训练获得:
获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure FDA0004097671690000021
判断所述损失函数是否小于预设阈值;
若是,则结束训练,得到训练完成的神经网络模型;
若否,调整所述卷积层的网络参数,继续下一次训练;
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值。
2.根据权利要求1所述的方法,其特征在于,所述输出层,具体用于:
针对所述目标图像特征概率图中的各特征点,分别将最大概率值所在通道对应的字符确定为所述各特征点对应的字符,得到所述目标图像对应的多行字符串;所述多行字符串的行数与所述目标图像特征概率图中特征点的行数相同;
将所述多行字符串中连续相同的字符合并为一个字符,并去除空字符,得到所述目标图像中的多行文本内容;
输出所述多行文本内容。
3.根据权利要求1所述的方法,其特征在于,所述计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率的步骤,包括:
通过第二预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率,所述第二预设公式为:
Figure FDA0004097671690000031
其中,P(Z/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;N表示所述样本图像的样本真值中多行文本内容的总行数;X0表示所述样本图像特征概率图。
4.根据权利要求3所述的方法,其特征在于,通过第三预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第三预设公式为:
Figure FDA0004097671690000032
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
Figure FDA0004097671690000033
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;
Figure FDA0004097671690000034
为在将所述样本图像特征概率图输入所述输出层的条件下,得到最后一个字符为li中最后一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
其中,所述g(αm,n,S)为一个以αm,n,S为自变量的函数,λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率。
5.根据权利要求3所述的方法,其特征在于,通过第四预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第四预设公式为:
P(li/X0)=β1,1(0)+β1,1(1)
其中,P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;β1,1(0)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为空字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;β1,1(1)为在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出第一个字符为li中第一个字符,且经后处理过程之后转换为所述样本真值的多行字符串的概率;所述后处理过程是指将多行字符串中连续相同的字符合并为一个字符,并去除空字符;
且对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure FDA0004097671690000051
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
6.根据权利要求3所述的方法,其特征在于,通过第五预设公式,计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率,所述第五预设公式为:
P(li/X0)=αe,f(Q)*βe,f(Q+1)
其中,e为大于或等于1,且小于或等于H0'的任意整数,f为大于或等于1,且小于或等于W0'的任意整数,Q为大于或等于1,且小于或等于|l'|-1的任意整数;P(li/X0)表示在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值中第i行文本内容的概率;li为所述样本真值中第i行的文本内容;li'为对li的头部、尾部以及各字符中间增加空字符之后得到的标准化文本内容;|li'|为所述标准化文本内容中包含空字符在内的所有字符的总数量;H0'为所述样本图像特征概率图中特征点的行数;W0'为所述样本图像特征概率图中特征点的列数;
且对于任意1≤m≤H0',1≤n≤W0',0≤S≤|l'|-1:
αm,n(s)=λ1g(αm,n-1,s)+λ2g(αm-1,n,s)
g(αm,n,s)=αm,n(s)+αm,n(s-1)+ηαm,n(s-2)
λ1和λ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S-2个字符为同一字符时,η=0,否则,η=1;初始值α1,1(S)为X0中特征点(1,1)对应的字符为li'中第S个字符的概率;
对于任意1≤b≤H0',1≤c≤W0',0≤S≤|l'|-1:
βb,c(s)=γ1g(βb,c+1,s)+γ2g(βb+1,c,s)
g(βb,c,s)=βb,c(s)+βb,c(s+1)+φβb,c(s+2)
γ1和γ2为预设超参数;当li'中第S个字符为空字符,或者当li'中第S个字符与第S+2个字符为同一字符时,φ=0,否则,φ=1;初始值
Figure FDA0004097671690000052
为X0中特征点(H0',W0')对应的字符为li'中第S个字符的概率。
7.一种用于多行文本识别的神经网络模型训练方法,其特征在于,所述神经网络模型包括:卷积层,归一化层及输出层,所述方法包括:
获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure FDA0004097671690000061
判断所述损失函数是否小于预设阈值;
若是,则结束训练,得到训练完成的神经网络模型;
若否,则调整所述卷积层的网络参数,继续下一次训练;
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值。
8.一种多行文本识别装置,其特征在于,包括:
目标图像获取模块,用于获取包含有多行文本内容的目标图像;
多行文本内容输出模块,用于将所述目标图像输入预先训练完成的神经网络模型,以使所述神经网络模型基于识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并基于所述目标特征图,计算获得目标图像特征概率图,并基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容;
其中,所述识别总数量为所述神经网络模型能够识别的字符类别的总数量;所述目标图像特征概率图,用于表示所述目标特征图中每个特征点属于各个字符的概率;所述神经网络模型能够识别的字符类别中包括空字符;
所述神经网络模型包含:卷积层,归一化层及输出层;
所述将所述目标图像输入预先训练完成的神经网络模型的步骤,包括:
将所述目标图像输入预先训练完成的神经网络模型中的卷积层;
所述卷积层,用于基于所述识别总数量对所述目标图像进行卷积处理,得到与所述目标图像对应的目标特征图,并将所述目标特征图输入所述归一化层;
所述归一化层,用于使用预设的归一化函数,计算所述目标特征图中每个特征点属于各个字符的概率值,将每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成目标特征概率图;并将所述目标特征概率图输入所述输出层;
所述输出层,用于基于所述目标图像特征概率图,输出所述目标图像中的多行文本内容;
所述神经网络模型,采用如下方法训练获得:
获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为
Figure FDA0004097671690000081
判断所述损失函数是否小于预设阈值;
若是,则结束训练,得到训练完成的神经网络模型;
若否,调整所述卷积层的网络参数,继续下一次训练;
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值。
9.一种用于多行文本识别的神经网络模型训练装置,其特征在于,所述神经网络模型包括:卷积层,归一化层及输出层,所述装置包括:
样本图像和样本真值获取模块,用于获取包含多行文本内容的样本图像和样本真值,所述样本真值为所述样本图像中实际包含的多行文本内容;
样本图像特征概率图获取模块,用于将所述样本图像输入所述神经网络模型中的卷积层,以使所述卷积层对所述样本图像进行卷积处理,得到与所述样本图像对应的样本特征图;并将所述样本特征图输入所述神经网络模型中的归一化层,以使所述归一化层使用预设的归一化函数,计算所述样本特征图中每个特征点属于各个字符的概率值,将所述样本特征图中每个特征点属于各个字符的概率值作为每个特征点在各个通道的通道值,形成与所述样本图像对应的样本图像特征概率图;
条件概率计算模块,用于计算在将所述样本图像特征概率图输入所述神经网络模型中输出层的条件下,输出所述样本图像的样本真值的条件概率;
损失函数计算模块,用于根据所述条件概率,通过第一预设公式,计算损失函数,所述第一预设公式为:
Figure FDA0004097671690000091
其中,O为所述损失函数;p(Z/X0)为所述条件概率;E为样本图像集,所述样本图像集中包括多个样本图像及与各样本图像分别对应的样本真值;X0为所述样本图像特征概率图;Z为所述样本图像的样本真值;
判断模块,用于判断所述损失函数是否小于预设阈值;若是,训练结束,得到训练完成的神经网络模型;若否,触发参数调整模块,调整所述卷积层的网络参数,继续下一次训练;
所述参数调整模块,用于调整所述卷积层的网络参数,并触发所述样本图像特征概率图获取模块。
10.一种电子设备,其特征在于,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
11.一种电子设备,其特征在于,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求7所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求7所述的方法步骤。
CN201911250249.7A 2019-12-09 2019-12-09 多行文本识别方法、模型训练方法、装置、设备及介质 Active CN113033240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911250249.7A CN113033240B (zh) 2019-12-09 2019-12-09 多行文本识别方法、模型训练方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911250249.7A CN113033240B (zh) 2019-12-09 2019-12-09 多行文本识别方法、模型训练方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113033240A CN113033240A (zh) 2021-06-25
CN113033240B true CN113033240B (zh) 2023-05-02

Family

ID=76451150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911250249.7A Active CN113033240B (zh) 2019-12-09 2019-12-09 多行文本识别方法、模型训练方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113033240B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599900A (zh) * 2015-10-20 2017-04-26 华中科技大学 一种识别图像中的字符串的方法和装置
CN109583367A (zh) * 2018-11-28 2019-04-05 网易(杭州)网络有限公司 图像文本行检测方法及装置、存储介质和电子设备
CN110222693A (zh) * 2019-06-03 2019-09-10 第四范式(北京)技术有限公司 构建字符识别模型与识别字符的方法和装置
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599900A (zh) * 2015-10-20 2017-04-26 华中科技大学 一种识别图像中的字符串的方法和装置
WO2017067456A1 (zh) * 2015-10-20 2017-04-27 华中科技大学 一种识别图像中的字符串的方法和装置
WO2019174130A1 (zh) * 2018-03-14 2019-09-19 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN109583367A (zh) * 2018-11-28 2019-04-05 网易(杭州)网络有限公司 图像文本行检测方法及装置、存储介质和电子设备
CN110222693A (zh) * 2019-06-03 2019-09-10 第四范式(北京)技术有限公司 构建字符识别模型与识别字符的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Towards Pure End-to-End Learning for Recognizing Multiple Text Sequences from an Image;Zhenlong Xu et al;《arXiv:1907.12791v1》;20190730;摘要、第1-5节 *
文本检测算法的发展与挑战;李翌昕 等;《信号处理》;20170430;全文 *

Also Published As

Publication number Publication date
CN113033240A (zh) 2021-06-25

Similar Documents

Publication Publication Date Title
CN110222791B (zh) 样本标注信息的审核方法及装置
CN111476256A (zh) 基于半监督学习的模型训练方法、装置及电子设备
CN110321845B (zh) 一种从视频中提取表情包的方法、装置及电子设备
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN111967459B (zh) 模型训练方法、图像识别方法、装置、设备及存储介质
CN110909663A (zh) 一种人体关键点识别方法、装置及电子设备
CN110706312A (zh) 一种表情包的文案确定方法、装置及电子设备
CN110909784A (zh) 一种图像识别模型的训练方法、装置及电子设备
CN112163480B (zh) 一种行为识别方法及装置
CN111178364A (zh) 一种图像识别方法和装置
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN112528703B (zh) 一种识别表格结构的方法、装置及电子设备
CN115797735A (zh) 目标检测方法、装置、设备和存储介质
CN111357015A (zh) 语音合成方法、装置、计算机设备和计算机可读存储介质
CN117057443B (zh) 视觉语言模型的提示学习方法及电子设备
CN111597937B (zh) 鱼姿势识别方法、装置、设备及存储介质
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN113033240B (zh) 多行文本识别方法、模型训练方法、装置、设备及介质
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN116258873A (zh) 一种位置信息确定方法、对象识别模型的训练方法及装置
US11875554B2 (en) Method for generating image label, and device
CN111222558A (zh) 图像处理方法及存储介质
CN111738248B (zh) 字符识别方法、字符译码模型的训练方法及电子设备
CN111460096B (zh) 一种碎片文本的处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant