CN113205160B - 模型训练、文本识别方法、装置、电子设备和介质 - Google Patents
模型训练、文本识别方法、装置、电子设备和介质 Download PDFInfo
- Publication number
- CN113205160B CN113205160B CN202110754737.2A CN202110754737A CN113205160B CN 113205160 B CN113205160 B CN 113205160B CN 202110754737 A CN202110754737 A CN 202110754737A CN 113205160 B CN113205160 B CN 113205160B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- character
- text
- recognition model
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本公开涉及一种模型训练、文本识别方法、装置、电子设备和介质;其中,该方法包括:获取训练样本,训练样本包括文本图像;将训练样本输入初始识别模型,根据初始识别模型的输出结果确定训练样本中每个字符与预先构建的多级字典的匹配值;根据每个字符与预先构建的多级字典的匹配值,确定目标文本;基于预设损失函数,根据目标文本对初始识别模型进行训练,得到训练后的文本识别模型。本公开实施例能够有效提高文本识别的准确性。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种模型训练、文本识别方法、装置、电子设备和介质。
背景技术
自然场景文字识别是从带文字的图片中识别出字符序列的过程(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母);识别过程中,除了图片背景复杂以及光照变化等因素外,识别输出空间的复杂性也是一大困难,由于文字由数量是由不固定的字母组成,因此,自然场景文字识别需要从图片中识别长度不固定的序列。
目前文字识别的主要方法是通过整体分析策略实现,即先将待识别文本图像编码,再进行序列解码直接得出整个字符串;但在具体应用过程中,其会出现识别结果多识别或漏识别字符的问题,导致文本识别准确度较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种模型训练、文本识别方法、装置、电子设备和介质。
第一方面,本公开提供了一种文本识别模型训练方法,包括:
获取训练样本,所述训练样本包括文本图像;
将所述训练样本输入初始识别模型,根据所述初始识别模型的输出结果确定所述训练样本中每个字符与预先构建的多级字典的匹配值;
根据所述每个字符与预先构建的多级字典的匹配值,确定目标文本;
基于预设损失函数,根据所述目标文本对所述初始识别模型进行训练,得到训练后的文本识别模型。
第二方面,本公开提供了一种文本识别方法,包括:
获取待识别的文本图像;
将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;
其中,所述文本识别模型基于如第一方面所述的文本识别模型训练方法训练得到。
第三方面,本公开提供了一种文本识别模型训练装置,包括:
获取模块,用于获取训练样本,所述训练样本包括文本图像;
确定模块,用于将所述训练样本输入初始识别模型,根据所述初始识别模型的输出结果确定所述训练样本中每个字符与预先构建的多级字典的匹配值;
确定模块,还用于根据所述每个字符与预先构建的多级字典的匹配值,确定目标文本;
训练模块,用于基于预设损失函数,根据所述目标文本对所述初始识别模型进行训练,得到训练后的文本识别模型。
第四方面,本公开提供了一种文本识别装置,包括:
获取模块,用于获取待识别的文本图像;
确定模块,用于将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;
其中,所述文本识别模型基于如第一方面所述的文本识别模型训练方法训练得到。
第五方面,本公开还提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其特征在于,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器实现本实施例中的任一种所述的文本识别模型训练方法,或者实现本实施例中的任一种所述的文本识别方法。
第六方面,本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行时实现本实施例中的任一种所述的文本识别模型训练方法,或者实现本实施例中的任一种所述的文本识别方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:能够根据文本识别模型识别出多级所属字典,并依据多级字典间的所属关系准确定位出待识别的文本图像的具体字符,从而有效提高文本识别准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的一种文本识别模型训练方法的流程示意图;
图2是本公开实施例提供的另一种文本识别模型训练方法的流程示意图;
图3是本公开实施例提供的一种文本识别方法的流程示意图;
图4是本公开实施例提供的一种文本识别模型训练装置的结构示意图;
图5是本公开实施例提供的一种文本识别装置的结构示意图;
图6是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
增量推理是为卷积神经网络中常用的一种加速方式,它主要是用于对变换很小的连续图像做推理,图像数量多,但每张图像之间的变换很小;增量推理就是每次只对变化的部分做前向计算,这样既可以极大减少计算量,也能降低前向推断时间。因此,本实施例中采用卷积循环神经网络(Convolutional Recurrent Neural Networks,CRNN)模型为基础,基于概率矩阵来表征文本字符,训练得到文本识别模型,从而解决CRNN模型文本识别过程中漏识或者多识的问题。
其中,CRNN从下至上,由卷积神经网络、循环神经网络和翻译层三部分组成;卷积神经网络负责从带文字的图片中提取特征,循环神经网络负责用卷积神经网络提取的特征进行序列预测,翻译层将循环神经网络得到的序列翻译为字母序列,目标函数选择“联结时序分类”(CTC)损失函数;CRNN可以针对不同类型的网络结构,将其进行端到端的训练。
图1是本公开实施例提供的一种文本识别模型训练方法的流程示意图。本实施例可适用于对训练文本识别模型的情况。本实施例方法可由文本识别模型训练装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。可实现本申请任意实施例所述的文本识别模型训练方法。如图1所示,该方法具体包括如下:
S110、获取训练样本,训练样本包括文本图像。
在本实施例中,文本图像为自然场景中拍摄或者采集得到的图像;由于拍摄设备或者采集装置的硬件条件受限,因此,获得的文本图像可能会存在图像受损或者变形等情况,文本图像可包括具有弯曲和扭曲的图像;例如,医学图像,或者视频中连续的图像帧等。
S120、将训练样本输入初始识别模型,根据初始识别模型的输出结果确定训练样本中每个字符与预先构建的多级字典的匹配值。
在本实施例中,多级字典包括一级字典、二级字典和三级字典。根据初始识别模型的输出结果确定训练样本中每个字符与预先构建的多级字典的匹配值,则会得到训练样本中每个字符与一级字典的匹配值、训练样本中每个字符与二级字典的匹配值和训练样本中每个字符与三级字典的匹配值,进而得到每个字符与预先构建的多级字典的匹配值。
S130、根据每个字符与预先构建的多级字典的匹配值,确定目标文本。
其中,目标文本为用于模型训练的文本图像,且该文本图像中的每个字符均对应匹配一个多级字典中的具体字符。
S140、基于预设损失函数,根据目标文本对初始识别模型进行训练,得到训练后的文本识别模型。
在本实施例中,预设损失函数为文本识别模型是否训练合格的衡量标准,从而,有效保证训练得到的文本识别模型具有较高精度的识别结果。
其中,可将目标文本分训练集和验证集,利用训练集对初始分类模型和初始识别模型进行训练,得到文本识别模型,再用验证集对得到的文本识别模型进行验证,若验证合格,则得到训练后的文本识别模型。
本公开实施例能够根据文本识别模型识别出多级所属字典,并依据多级字典间的所属关系准确定位出待识别的文本图像的具体字符,从而有效提高文本识别准确性。
在本实施例中,可选的,基于预设损失函数,根据目标文本对初始识别模型进行训练,得到训练后的文本识别模型,包括:
基于预设损失函数,根据目标文本和训练样本的字符标签,确定损失值;
根据损失值调整模型参数直至模型收敛,得到文本识别模型。
本实施例中,预设损失函数可使用多分类交叉熵损失函数;通过预设损失函数计算目标文本与训练样本的字符标签的相似性,来验证文本识别模型的识别精度,以训练出稳定度高的文本识别模型。
其中,损失值为目标文本与训练样本的字符标签的误差值,其可有效反映出文本识别模型的训练精度。
在本实施例中,可选的,多级字典的构建过程包括:
获取历史文本图像,历史文本图像中包括单个字符;
对历史文本图像进行转录,得到历史文本图像的转录内容;
基于字符的相似性,根据转录内容构建多级字典。
本实施例中,可预先收集大量的历史文本图像,对进行字符标定,并依据字符间的相似度进行不同级别的字典划分。
本实施例通过采集大量历史识别文本图像,对其进行字符识别划分得到多级字典,大量的文本图像能够有效保证文字中字符的完整性,从而增加多级字典的字符完整度。
在本实施例中,可选的,多级字典包括一级字典、二级字典和三级字典;
基于字符的相似性,根据转录内容构建多级字典,包括:
基于字符的相似性,对转录内容进行划分,得到至少两个一级字典;
针对每个一级字典进行二次划分,得到每个一级字典对应的至少两个二级字典;
针对每个二级字典进行三次划分,得到每个二级字典对应的至少两个三级字典。
本实施例中,对于目标转录内容中得到的多个单字符,可按照外型的相似程度首先将多个单字符划分为多个一级字典,再在每个一级字典的基础上,按照字符的相似程度将多个一级字典中的每个一级字典进行二次划分,得到一个一级字典下对应的多个二级字典,在二级字典的基础上,对多个二级字典中的每个二级字典进行字符细化,得到一个二级字典下对应的多个三级字典,每个三级字典中对应一个单字符;从而能够得出包含全字符且不同层级下的多层字典,以实现多个单字符的逐级分类。
其中,二级字典是继承在一级字典下的,即二级字典是基于一级字典进一步的细分字典。三级字典是继承在二级字典下的,即三级字典是基于二级字典进一步的细分字典。
示例性的,对得到多个目标转录内容中包含的单字符,计算每个字符间的相似度,将相似度超过相似度阈值的字符划分为M个集合,作为一级字典;对每个一级字典进行二级划分,将每个一个字典划分为Q个二级字典;对每个二级字典进行三次划分,将每个二级字典划分为P个三级字典。
需要说明的是,本实施例中所指的二次划分和三次划分的含义为每一级字典的划分表示,其并不表示对划分字典的划分次数。
在本实施例中,可选的,对历史文本图像进行转录,得到历史文本图像的转录内容,包括:
对历史文本图像进行转录,得到初始转录内容;
响应初始转录内容的字符串长度小于预设的第一长度值,将预设的占位符号添加至初始转录内容的末尾位置,得到标准长度的转录内容。
本实施例中,转录内容为对文本图像进行转录后得到文本图像中包含的每个单字符,其可通过转录人员对该文本图像中包含的每一字符串进行人工识别标注,以得出该文本图像的转录内容。具体的,也可通过文字识别软件(例如ocr识别软件)扫描文本图像,并对文字识别软件的输出的文字信息进行语义检验,得出文本图像的转录内容。
其中,预设的第一长度值为所有文本图像的转录内容中包含的最长字符串的长度值,一张文本图像对应于一个字符串长度值。占位符号为字符串中一个特殊符号,其不表示任何字符,仅是为了使得所有转录内容中的字符串长度一致,占位符号可设定为“¥”,该字符一般为不常用字符,以避免其与字符内容产生歧义而设置。
需要说明的是,本实施例中标准长度的转录内容包括文本图像的转录内容,或者,文本图像的转录内容加一定数量的占位符号。
本实施例通过占位符号统一各文本图像的转录内容的字符串长度值,以使得各文本图像的转录内容的字符段长度值相等,实现转录内容的字符长度统一。
图2是本公开实施例提供的另一种文本识别模型训练方法的流程示意图。本实施例是在上述实施例的基础上,其中,S120的一种可能的实现方式如下:
S1201、利用初始识别模型提取训练样本中每个字符的多个字符特征图像,其中,多个字符特征图像的大小不同。
在本实施例中,初始识别模型中可包括多个block块,如四个block块,每一个block块中包含多个卷积层,经由每一block块会输出一个字符特征图像,且初始识别模型中的四个block输出的一个字符特征图像的尺寸不同。
在本实施例中,可选的,利用初始识别模型提取训练样本中每个字符的多个字符特征图像,包括:
利用初始识别模型中串联的四个块对训练样本中的文本图像进行处理,生成每个字符对应的四个大小不同的字符特征图像。
本实施例中,将训练样本中的文本图像输入初始识别模型中,初始识别模型中包含的每个block块会输出大小不同的字符特征图像。
示例性的,第一个block块输出的字符特征图像的大小可为输入的文本图像的1/4;第二个block块输出的字符特征图像大小可为输入的文本图像的1/8,第三个block块输出的字符特征图像大小可为输入的文本图像的1/16,第四个block块输出的字符特征图像大小可为输入的文本图像的1/32,每个block块输出的特征映射数量都为128。
从而,通过设置初始识别模型输出不同的字符特征图像大小,以确保每一图像特征信息的完整提取。
S1202、利用初始识别模型的多个分类子网络基于字符特征图像以及各个分类子网络对应的多级字典,获取字符属于各个一级字典的第一概率值、字符属于各个二级字典的第二概率值以及字符属于各个三级字典中的预测字符的第三概率值。
在本实施例中,第一概率值为初始识别模型中分类子网络下的字符特征图像,与分类子网络对应的多级字典中的每个一级字典的匹配概率。第二概率值为初始识别模型中分类子网络下的字符特征图像,与分类子网络对应的多级字典中的每个二级字典的匹配概率。第三概率值为初始识别模型中分类子网络下的字符特征图像,与分类子网络对应的多级字典中的每个三级字典的匹配概率。
在本实施例中,可选的,利用初始识别模型的多个分类子网络基于字符特征图像以及各个分类子网络对应的多级字典,获取字符属于各个一级字典的第一概率值、字符属于各个二级字典的第二概率值以及字符属于各个三级字典中的预测字符的第三概率值,包括:
利用初始识别模型的第一分类子网络,基于第一个块和第二个块生成的字符特征图像,以及一级字典获得字符属于各个一级字典的第一概率值;
利用初始识别模型的第二分类子网络,基于第一个块、第二个块以及第三个块生成的字符特征图像,以及二级字典获得字符属于各个二级字典的第二概率值,其中,各个二级字典为隶属于概率值最大的第一概率值对应的一级字典下的多个二级字典;
利用初始识别模型的第三分类子网络,基于四个块生成的字符特征图像以及三级字典获得字符属于各个三级字典的第三概率值,其中,各个三级字典为隶属于概率值最大的第二概率值对应的二级字典下的多个三级字典。
本实施例中,利用初始识别模型的第一分类子网络,基于第一个块和第二个块生成的字符特征图像,以及一级字典获得字符属于各个一级字典的第一概率值,包括:对第一个块和第二个块生成的字符特征图像进行插值处理,得到图像大小相同的两个特征图像,将这两个特征图像进行串联叠加,对叠加后的特征图像进行(如3次所示的)卷次操作,得到1*L*N的特征图,得到字符属于各个一级字典的第一概率值。其中,N为通道数,每个通道用于指示隶属于的一级字典。
其中,利用初始识别模型的第二分类子网络,基于第一个块、第二个块以及第三个块生成的字符特征图像,以及二级字典获得字符属于各个二级字典的第二概率值,包括:对第一个块、第二个块和第三个块生成的字符特征图像进行插值处理,得到图像大小相同的三个特征图像,将这三个特征图像进行串联叠加,对叠加后的特征图像进行(如3次所示的)卷次操作,得到1*L*N的特征图,得到字符属于各个二级字典的第二概率值。其中,N为通道数,每个通道用于指示隶属于的二级字典。
需要说明的是,二级字典为隶属于概率值最大第一概率值对应的一级字典下的各个二级字典中,概率值最大的第二概率值对应的那个二级字典。
示例性的,概率值最大第一概率值对应的一级字典下有四个二级字典,分别为A、B、C和D,A对应的第二概率值为0.5、B对应的第二概率值为0.7、C对应的第二概率值为0.2、D对应的第二概率值为0.8,则上述所指的二级字典即为D。
其中,利用初始识别模型的第三分类子网络,基于四个块生成的字符特征图像以及三级字典获得字符属于各个三级字典的第三概率值,包括:对第一个块、第二个块、第三个块和第四个块生成的字符特征图像进行插值处理,得到图像大小相同的四个特征图像,将这四个特征图像进行串联叠加,对叠加后的特征图像进行(如3次所示的)卷次操作,得到1*L*N的特征图,得到字符属于各个三级字典的第三概率值。其中,N为通道数,每个通道用于指示隶属于的三级字典。
在本实施例中,通过设置多级分类子网络,并将多级字典作为不同级别分类子网络输出的比对标准,以提高文本识别过程中字符的定位效率。
S1303、基于第一概率值、第二概率值和第三概率值,确定训练样本中每个字符与预先构建的多级字典的匹配值。
在本实施例中,可利用第一概率值、第二概率值和第三概率值之和确定训练样本中每个字符与预先构建的多级字典的匹配值。或者,为分类子网络分配权重系数,根据每个权重系数与对应的概率值的乘积之和,即第一概率值与第一权值系数的乘积、第二概率值与第二权值系数的乘积和第三概率值与第三权值系数的乘积之和,确定出训练样本中每个字符与预先构建的多级字典的匹配值。
本公开实施例通过在初始识别模型中设置多级分类子网络,以对输入文本识别模型的文本图像进行字符搜索比对,简化了字符搜索的复杂度,并基于多级字典的分配依次查找出对应字符,从而有效提高文本信息的查找效率。
图3是本公开实施例提供的一种文本识别方法的流程示意图。本实施例可适用于利用训练出的文本识别模型对文本图像进行识别的情况。本实施例方法可由文本识别装置来执行,该装置可采用硬件/或软件的方式来实现,并可配置于电子设备中。可实现本申请任意实施例所述的文本识别方法。如图3所示,该方法具体包括如下:
S310、获取待识别的文本图像。
在本实施例中,待识别的文本图像为需要进行文本信息识别的文本图像。获取待识别的文本图像可包括:响应于文本图像检测请求中携带的图像,得到待识别的文本图像;或者,从待识别的文本图像库中依据识别时间或者图像优先级选择一张或者多张图像作为待识别的文本图像。
S320、将待识别的文本图像输入文本识别模型中,并根据文本识别模型的输出结果确定待识别的文本图像的文本信息。
其中,文本识别模型基于如图1实施例或图2实施例的方法训练得到。
在本实施例中,文本识别模型由第一分类子网络、第二分类子网络和第三分类子网络构成;第一分类子网络、第二分类子网络和第三分类子网络的输出对应于不同的多级字典,即第一分类子网络对应一级字典,第二分类子网络对应该一级字典中的某一个二级字典,第三分类子网络对应该一级字典中的某一个二级字典中的某一个三级字典中的具体单字符。
具体的,一级字典和二级字典为数量依次递减的多个单字符集合,三级字典为一个具体的单字符;即,三级字典中的字符是在二级字典中划分出的,二级字典中的字符是在一级字典中划分出的,一级字典可根据采集到的多字符依据字符相似度划分得出。
其中,文本识别模型可对待识别的文本图像中的每一字符进行多级字典的比对,得到一级字典、隶属于该一级字典的二级字典和隶属于该二级字典下的三级字典中的单个字符。
本实施例中,能够根据预先训练得到的文本识别模型对待识别的文本图像进行识别,从而,准确有效的识别出待识别的文本图像中包含的全部单字符。
图4是本公开实施例提供的一种文本识别模型训练装置的结构示意图;该装置配置于电子设备中,可实现本申请任意实施例所述的文本识别模型训练方法。该装置具体包括如下:
获取模块410,用于获取训练样本,所述训练样本包括文本图像;
确定模块420,用于将所述训练样本输入初始识别模型,根据所述初始识别模型的输出结果确定所述训练样本中每个字符与预先构建的多级字典的匹配值;
确定模块420,还用于根据所述每个字符与预先构建的多级字典的匹配值,确定目标文本;
训练模块430,用于基于预设损失函数,根据所述目标文本对所述初始识别模型进行训练,得到训练后的文本识别模型。
在本实施例中,可选的,本实施例装置还包括:字典构建模块;字典构建模块,包括:获取单元、转录单元和构建单元;
获取单元,用于获取历史文本图像,所述历史文本图像中包括单个字符;
转录单元,用于对所述历史文本图像进行转录,得到所述历史文本图像的转录内容;
构建单元,用于基于字符的相似性,根据所述转录内容构建多级字典。
在本实施例中,可选的,所述多级字典包括一级字典、二级字典和三级字典;
构建单元,具体用于:
基于字符的相似性,对所述转录内容进行划分,得到至少两个一级字典;
针对每个所述一级字典进行二次划分,得到每个一级字典对应的至少两个二级字典;
针对每个所述二级字典进行三次划分,得到每个二级字典对应的至少两个三级字典。
在本实施例中,可选的,确定模块420,包括:提取单元和确定单元;
提取单元,用于利用所述初始识别模型提取所述训练样本中每个字符的多个字符特征图像,其中,所述多个字符特征图像的大小不同;
获取单元,还用于利用所述初始识别模型的多个分类子网络基于所述字符特征图像以及各个分类子网络对应的多级字典,获取字符属于各个一级字典的第一概率值、字符属于各个二级字典的第二概率值以及字符属于各个三级字典中的预测字符的第三概率值;
确定单元,用于基于所述第一概率值、第二概率值和所述第三概率值,确定所述训练样本中每个字符与预先构建的多级字典的匹配值。
在本实施例中,可选的,提取单元,具体用于:
利用初始识别模型中串联的四个块对所述训练样本中的文本图像进行处理,生成每个字符对应的四个大小不同的字符特征图像;
所述利用所述初始识别模型的多个分类子网络基于所述字符特征图像以及各个分类子网络对应的多级字典,获取字符属于各个一级字典的第一概率值、字符属于各个二级字典的第二概率值以及字符属于各个三级字典中的预测字符的第三概率值,包括:
利用所述初始识别模型的第一分类子网络,基于第一个块和第二个块生成的字符特征图像,以及一级字典获得字符属于各个一级字典的第一概率值;
利用所述初始识别模型的第二分类子网络,基于第一个块、第二个块以及第三个块生成的字符特征图像,以及二级字典获得字符属于各个二级字典的第二概率值,其中,所述各个二级字典为隶属于概率值最大的第一概率值对应的一级字典下的多个二级字典;
利用所述初始识别模型的第三分类子网络,基于四个块生成的字符特征图像以及三级字典获得字符属于各个三级字典的第三概率值,其中,所述各个三级字典为隶属于概率值最大的第二概率值对应的二级字典下的多个三级字典。
在本实施例中,可选的,转录单元,具体用于:
对所述历史文本图像进行转录,得到初始转录内容;
响应所述初始转录内容的字符串长度小于预设的第一长度值,将预设的占位符号添加至所述初始转录内容的末尾位置,得到标准长度的转录内容。
在本实施例中,可选的,训练模块430,具体用于:
基于预设损失函数,根据所述目标文本和所述训练样本的字符标签,确定损失值;
根据所述损失值调整模型参数直至模型收敛,得到文本识别模型。
通过本发明实施例的文本识别模型训练装置,能够根据文本识别模型识别出多级所属字典,并依据多级字典间的所属关系准确定位出待识别的文本图像的具体字符,从而有效提高文本识别准确性。
本发明实施例所提供的文本识别模型训练装置可执行本发明任意实施例所提供的文本识别模型训练方法,具备执行方法相应的功能模块和有益效果。
图5是本公开实施例提供的一种文本识别装置的结构示意图;该装置配置于电子设备中,可实现本申请任意实施例所述的文本识别方法。该装置具体包括如下:
获取模块510,用于获取待识别的文本图像;
确定模块520,用于将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;
其中,所述文本识别模型基于如图1实施例或图2实施例的方法训练得到。
通过本发明实施例的文本识别装置,能够根据预先训练得到的文本识别模型对待识别的文本图像进行识别,从而,准确有效的识别出待识别的文本图像中包含的全部单字符。
本发明实施例所提供的文本识别装置可执行本发明任意实施例所提供的文本识别方法,具备执行方法相应的功能模块和有益效果。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图6,现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向电子设备600输入信息的任何类型的设备,输入单元606可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元607可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元604可以包括但不限于磁盘、光盘。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理。例如,在一些实施例中,文本识别模型训练方法或者文本识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。在一些实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法文本识别模型训练方法或者文本识别方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (12)
1.一种文本识别模型训练方法,其特征在于,所述方法包括:
获取训练样本,所述训练样本包括文本图像;
将所述训练样本输入初始识别模型,根据所述初始识别模型的输出结果确定所述训练样本中每个字符与预先构建的多级字典的匹配值;其中,所述多级字典包括一级字典、二级字典和三级字典,所述二级字典是基于所述一级字典进一步的细分字典,所述三级字典是基于所述二级字典进一步的细分字典;所述匹配值包括:每个字符与所述一级字典的匹配值、每个字符与所述二级字典的匹配值和每个字符与所述三级字典的匹配值;
根据所述每个字符与预先构建的多级字典的匹配值,确定目标文本;
基于预设损失函数,根据所述目标文本对所述初始识别模型进行训练,得到训练后的文本识别模型。
2.根据权利要求1所述的方法,其特征在于,所述多级字典的构建过程包括:
获取历史文本图像,所述历史文本图像中包括单个字符;
对所述历史文本图像进行转录,得到所述历史文本图像的转录内容;
基于字符的相似性,根据所述转录内容构建多级字典。
3.根据权利要求2所述的方法,其特征在于,所述基于字符的相似性,根据所述转录内容构建多级字典,包括:
基于字符的相似性,对所述转录内容进行划分,得到至少两个一级字典;
针对每个所述一级字典进行二次划分,得到每个一级字典对应的至少两个二级字典;
针对每个所述二级字典进行三次划分,得到每个二级字典对应的至少两个三级字典。
4.根据权利要求1所述的方法,其特征在于,所述根据所述初始识别模型的输出结果确定所述训练样本中每个字符与预先构建的多级字典的匹配值,包括:
利用所述初始识别模型提取所述训练样本中每个字符的多个字符特征图像,其中,所述多个字符特征图像的大小不同;
利用所述初始识别模型的多个分类子网络基于所述字符特征图像以及各个分类子网络对应的多级字典,获取字符属于各个一级字典的第一概率值、字符属于各个二级字典的第二概率值以及字符属于各个三级字典中的预测字符的第三概率值;
基于所述第一概率值、所述第二概率值和所述第三概率值,确定所述训练样本中每个字符与预先构建的多级字典的匹配值。
5.根据权利要求4所述的方法,其特征在于,所述利用所述初始识别模型提取所述训练样本中每个字符的多个字符特征图像,包括:
利用初始识别模型中串联的四个块对所述训练样本中的文本图像进行处理,生成每个字符对应的四个大小不同的字符特征图像;
所述利用所述初始识别模型的多个分类子网络基于所述字符特征图像以及各个分类子网络对应的多级字典,获取字符属于各个一级字典的第一概率值、字符属于各个二级字典的第二概率值以及字符属于各个三级字典中的预测字符的第三概率值,包括:
利用所述初始识别模型的第一分类子网络,基于第一个块和第二个块生成的字符特征图像,以及一级字典获得字符属于各个一级字典的第一概率值;
利用所述初始识别模型的第二分类子网络,基于第一个块、第二个块以及第三个块生成的字符特征图像,以及二级字典获得字符属于各个二级字典的第二概率值,其中,所述各个二级字典为隶属于概率值最大的第一概率值对应的一级字典下的多个二级字典;
利用所述初始识别模型的第三分类子网络,基于四个块生成的字符特征图像以及三级字典获得字符属于各个三级字典的第三概率值,其中,所述各个三级字典为隶属于概率值最大的第二概率值对应的二级字典下的多个三级字典。
6.根据权利要求2所述的方法,其特征在于,所述对所述历史文本图像进行转录,得到所述历史文本图像的转录内容,包括:
对所述历史文本图像进行转录,得到初始转录内容;
响应所述初始转录内容的字符串长度小于预设的第一长度值,将预设的占位符号添加至所述初始转录内容的末尾位置,得到标准长度的转录内容。
7.根据权利要求1所述的方法,其特征在于,所述基于预设损失函数,根据所述目标文本对所述初始识别模型进行训练,得到训练后的文本识别模型,包括:
基于预设损失函数,根据所述目标文本和所述训练样本的字符标签,确定损失值;
根据所述损失值调整模型参数直至模型收敛,得到文本识别模型。
8.一种文本识别方法,其特征在于,所述方法包括:
获取待识别的文本图像;
将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;
其中,所述文本识别模型基于如权利要求1至7任一项所述的方法训练得到。
9.一种文本识别模型训练装置,其特征在于,所述装置包括:
获取模块,用于获取训练样本,所述训练样本包括文本图像;
确定模块,用于将所述训练样本输入初始识别模型,根据所述初始识别模型的输出结果确定所述训练样本中每个字符与预先构建的多级字典的匹配值;其中,所述多级字典包括一级字典、二级字典和三级字典,所述二级字典是基于所述一级字典进一步的细分字典,所述三级字典是基于所述二级字典进一步的细分字典;所述匹配值包括:每个字符与所述一级字典的匹配值、每个字符与所述二级字典的匹配值和每个字符与所述三级字典的匹配值;
确定模块,还用于根据所述每个字符与预先构建的多级字典的匹配值,确定目标文本;
训练模块,用于基于预设损失函数,根据所述目标文本对所述初始识别模型进行训练,得到训练后的文本识别模型。
10.一种文本识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的文本图像;
确定模块,用于将所述待识别的文本图像输入文本识别模型中,并根据所述文本识别模型的输出结果确定所述待识别的文本图像的文本信息;
其中,所述文本识别模型基于如权利要求1至7任一项所述的方法训练得到。
11.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其特征在于,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-7中任一项所述的文本识别模型训练方法,或者执行根据权利要求8中所述的文本识别方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的文本识别模型训练方法,或者执行根据权利要求8中所述的文本识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110754737.2A CN113205160B (zh) | 2021-07-05 | 2021-07-05 | 模型训练、文本识别方法、装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110754737.2A CN113205160B (zh) | 2021-07-05 | 2021-07-05 | 模型训练、文本识别方法、装置、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113205160A CN113205160A (zh) | 2021-08-03 |
CN113205160B true CN113205160B (zh) | 2022-03-04 |
Family
ID=77022696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110754737.2A Active CN113205160B (zh) | 2021-07-05 | 2021-07-05 | 模型训练、文本识别方法、装置、电子设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205160B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792129B (zh) * | 2021-09-16 | 2024-06-14 | 联通在线信息科技有限公司 | 一种智能会话方法、装置、计算机设备及介质 |
CN114022882B (zh) * | 2022-01-04 | 2022-04-12 | 北京世纪好未来教育科技有限公司 | 文本识别模型训练、文本识别方法、装置、设备及介质 |
CN115578226A (zh) * | 2022-11-04 | 2023-01-06 | 广州宏途数字科技有限公司 | 一种基于大数据的学情分析方法及系统 |
CN116798052B (zh) * | 2023-08-28 | 2023-12-08 | 腾讯科技(深圳)有限公司 | 文本识别模型的训练方法和装置、存储介质及电子设备 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078B (zh) * | 2018-10-23 | 2020-11-06 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110110715A (zh) * | 2019-04-30 | 2019-08-09 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN112651402A (zh) * | 2019-10-11 | 2021-04-13 | 中国电信股份有限公司 | 字符识别方法和装置 |
CN110795938B (zh) * | 2019-11-11 | 2023-11-10 | 北京小米智能科技有限公司 | 文本序列分词方法、装置及存储介质 |
CN111079405A (zh) * | 2019-11-29 | 2020-04-28 | 微民保险代理有限公司 | 文本信息识别方法、装置、存储介质和计算机设备 |
CN112434024B (zh) * | 2020-10-23 | 2024-04-02 | 杭州未名信科科技有限公司 | 面向关系型数据库的数据字典生成方法、装置、设备及介质 |
CN112686243A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 智能识别图片文字的方法、装置、计算机设备及存储介质 |
-
2021
- 2021-07-05 CN CN202110754737.2A patent/CN113205160B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113205160A (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113205160B (zh) | 模型训练、文本识别方法、装置、电子设备和介质 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
CN114022882B (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
CN113313022A (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN112131920A (zh) | 用于扫描图像中的表格信息的数据结构生成 | |
CN112528637A (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN114022887B (zh) | 文本识别模型训练及文本识别方法、装置、电子设备 | |
CN113343958B (zh) | 一种文本识别方法、装置、设备及介质 | |
CN115578735B (zh) | 文本检测方法和文本检测模型的训练方法、装置 | |
EP4390725A1 (en) | Video retrieval method and apparatus, device, and storage medium | |
CN114639096B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN115100659B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN112669215A (zh) | 一种训练文本图像生成模型、文本图像生成的方法和装置 | |
CN114973229A (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
CN113688955B (zh) | 文本识别方法、装置、设备及介质 | |
CN114581926A (zh) | 多行文本识别方法、装置、设备及介质 | |
CN114758330A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN114611625A (zh) | 语言模型训练、数据处理方法、装置、设备、介质及产品 | |
CN113360683A (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
CN115294581A (zh) | 错误字符的识别方法、装置、电子设备及存储介质 | |
CN115035351B (zh) | 基于图像的信息提取方法、模型训练方法、装置、设备及存储介质 | |
CN111291754A (zh) | 一种文本级联检测方法、装置及存储介质 | |
CN113723367B (zh) | 一种答案确定方法、判题方法及装置和电子设备 | |
CN116798044A (zh) | 文本识别方法、装置,以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |