CN114445813A - 一种字符识别方法、装置、设备及介质 - Google Patents

一种字符识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN114445813A
CN114445813A CN202210114346.9A CN202210114346A CN114445813A CN 114445813 A CN114445813 A CN 114445813A CN 202210114346 A CN202210114346 A CN 202210114346A CN 114445813 A CN114445813 A CN 114445813A
Authority
CN
China
Prior art keywords
feature vector
vector set
character recognition
result
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210114346.9A
Other languages
English (en)
Inventor
毛晓飞
黄灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202210114346.9A priority Critical patent/CN114445813A/zh
Publication of CN114445813A publication Critical patent/CN114445813A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种字符识别方法,在进行字符识别时,利用的是预先训练的字符识别模型实现的,该字符识别模型是利用样本图像对应的特征向量集以及处理后的特征向量集训练生成的。其中,处理后的特征向量集是指对特征向量集中的部分特征向量进行掩码处理后的特征向量集。也就是,本申请在训练字符识别模型时,无需对样本图像进行人工标注,而是通过对齐原始的特征向量集和处理后的特征向量集的方式来训练字符识别网络模型,降低标注成本,提高训练效率。在实际使用时,将待处理文本图像输入字符识别网络模型,以使得字符识别模型能够完整的提取待处理文本图像中待识别文字的特征,并根据所提取的特征进行识别,获得识别结果。

Description

一种字符识别方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,具体涉及一种字符识别方法、装置、设备及介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指对包含文本资料的图像文件进行分析识别处理,获取文字的技术,是自动识别技术研究和应用领域中的一个重要方面。
通常情况下,OCR识别网络模型通过有监督训练方法来生成,在该训练过程中,需要采集已进行人工标注的样本数据,进而利用该样本数据进行训练。为提高OCR识别网络模型的识别精度,则采集大量的样本数据时,需要耗费较大的人力进行标注,增加训练成本。
发明内容
有鉴于此,本申请实施例提供一种字符识别方法、装置、设备及介质,以实现利用无标注的样本数据进行模型进行训练,降低训练成本,进而利用训练后的字符识别模型进行文字识别。
为实现上述目的,本申请实施例提供的技术方案如下:
在本申请第一方面,提供了一种字符识别方法,所述方法包括:
获取待处理文本图像,所述待处理文本图像包括待识别文本;
将所述待处理文本图像输入字符识别网络模型中,获得识别结果,所述识别结果包括所述待识别文本;
其中,所述字符识别网络模型是利用样本图像训练生成的,训练时将利用所述样本图像对应的特征向量集以及处理后的特征向量集进行训练,所述处理后的特征向量集是指对所述特征向量集中的部分特征向量进行掩码处理后的特征向量集,所述样本图像包括文本信息。
在本申请第二方面,提供了一种字符识别装置,所述装置包括:
第一获取单元,用于获取待处理文本图像,所述待处理文本图像包括待识别文本;
第二获取单元,用于将所述待处理文本图像输入字符识别网络模型中,获得识别结果,所述识别结果包括所述待识别文本;
其中,所述字符识别网络模型是利用样本图像训练生成的,训练时将利用所述样本图像对应的特征向量集以及处理后的特征向量集进行训练,所述处理后的特征向量集是指对所述特征向量集中的部分特征向量进行掩码处理后的特征向量集,所述样本图像包括文本信息。
在本申请第三方面,提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行本申请第一方面所述的字符识别方法。
在本申请第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行本申请第一方面所述的字符识别方法。
在本申请第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行第一方面所述的字符识别方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例在进行字符识别时,利用的是预先训练的字符识别模型实现的,该字符识别模型是利用样本图像对应的特征向量集以及处理后的特征向量集训练生成的。其中,处理后的特征向量集是指对特征向量集中的部分特征向量进行掩码处理后的特征向量集。也就是,本申请在训练字符识别模型时,无需对样本图像进行人工标注,而是通过对齐原始的特征向量集和处理后的特征向量集的方式来训练字符识别网络模型,降低标注成本,提高训练效率。在实际使用时,将待处理文本图像输入字符识别网络模型,以使得字符识别模型能够完整的提取待处理文本图像中待识别文字的特征,并根据所提取的特征进行识别,获得识别结果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种字符识别网络模型训练方法流程图;
图2为本申请实施例提供的一种字符识别方法流程示意图;
图3为本申请实施例提供的一种字符识别装置示意图;
图4为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于理解本申请实施例提供的技术方案,下面将先对本申请涉及的技术术语进行说明。
OCR识别网络模型在处理流程上主要包括两步:文本检测和文本识别。文本检测用于定位图像中的文本区域,即将图像输入到文本检测算法中得到一个个的文本框;文本识别用于对文本区域中文字进行识别,将每个文本框分别送入到文本识别算法中得到识别结果。其中,文本区域的定位精度直接影响后续识别结果。通常情况下,OCR识别网络模型的结构中包括卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN),并利用连接主义时序分类(Connectionist TemporalClassification,CTC)算法实现文字识别。
在实际应用中,OCR识别网络模型的训练需要大量的数据,通常需要的数据量是字符集的1000倍,例如要训练一个能识别5000字的模型,至少需要500万条数据才能训练,如果对每条数据进行标注的话,将耗费大量的时间,造成训练成本较高。
基于此,本申请实施例提供了一种字符识别方法,该字符识别方法中所使用的字符识别网络模型是利用样本图像对应的特征向量集以及经过掩码处理后的特征向量集训练生成的,通过利用处理前后特征向量集之间的自监督学习训练生成字符识别网络模型,无需对样本图像进行标注,降低训练成本。
为便于理解本申请提供的训练方法,下面将结合附图进行说明。
参见图1,该图为本申请实施例提供的一种字符识别网络模型训练方法流程图,该训练方法可以由字符识别设备执行。字符识别设备可以为电子设备,还可以为其他设备,在此不作限制。其中,电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有通信功能的设备,也可以是虚拟机或者模拟器模拟的设备。如图1所示,该方法可以包括如下步骤:
S101:获取样本图像。
本实施例中,为训练出识别精度较高的字符识别网络模型,可以获取大量的样本图像,该样本图像中包括文本信息。其中,在针对不同的应用场景进行训练时,获取该场景下所对应的样本图像,从而保证训练生成的字符识别网络模型可以识别该场景下所采集的图像中的文本信息。其中,文本信息可以包括汉字、英文、数字等字符。
S102:将样本图像输入初始网络模型的编码器中获得特征向量集。
在获取到样本图像后,将该样本图像输入初始网络模型的编码器中,以通过编码器的编码操作获得特征向量集,该特征向量集中的特征向量为文本信息的特征向量。具体地,将样本图像输入img2vec模块中,以通img2vec模块对图像进行下采样处理,获得预设长度的序列,再将预设长度的序列输入编码器中获得特征向量集。
S103:对特征向量集进行解码,获得第一解码结果。
在获取特征向量集后,对该特征向量集进行解码处理,以获得该特征向量集对应的第一解码结果,该第一解码结果中包括文本信息。该文本信息包括样本图像中所包括的各类字符,如汉字、英文单词、数字等。也就是,通过对特征向量集的初次解码,获取识别结果。
可选的,可以利用预先配置的解码算法对特征向量集进行解码,获得第一解码结果。其中,预先配置的解码算法可以为CTC算法、注意力算法(Attention)以及ACE算法。
S104:对第一解码结果进行细粒度划分,获得划分结果,并在划分结果中确定掩码对象。
在获得第一解码结果后,对第一解码结果进行细粒度划分,以获得划分结果,并在划分结果中确定掩码对象。其中,对第一解码结果进行细粒度划分是指根据不同的划分粒度对第一解码结果进行划分,以获得该划分粒度下的划分结果。
其中,划分粒度包括词粒度、字母粒度和实体粒度,词粒度是指将第一解码结果中文本信息按照单个词的粒度进行划分,例如第一解码结果为“今年的flag是成为一名教师…”,则按照词粒度划分的结果为“今”、“年”、“的”、“flag”、“是”等。字母粒度是按照单个字母的粒度进行划分,主要是指对英文单词的划分,而对于汉字的来讲仍以单个自为粒度进行划分,例如按照字母粒度的结果为“今”、“年”、“的”、“f”、“l”、“a”、“g”、“是”等。实体粒度是按照预设配置的实体名称进行划分,常见的识别包括公司名称、职业名称等。
可选的,基于不同的划分粒度对第一解码结果进行划分,获得各划分粒度下的划分结果;确定目标划分粒度,获得该目标划分粒度对应的划分结果。也就是,对第一解码结果进行不同划分粒度的划分,获得每一种划分粒度的划分结果,然后再选择其中一种划分粒度作为目标划分粒度,将该目标划分粒度所对应的划分结果确定为最终的划分结果。例如,对第一解码结果分别进行词粒度、字母粒度以及实体粒度的划分,获得三种划分结果,随机选择目标划分粒度为词粒度,则将词粒度对应的划分结果作为最终的划分结果。
可选的,基于选择的目标划分粒度对第一解码结果进行划分,获得划分结果。也就是,首先从多种划分粒度中确定目标划分粒度,再根据该目标划分粒度对第一解码结果进行划分,直接获得划分结果。例如,从词粒度、字母粒度以及实体粒度三中划分粒度中确定实体粒度为目标划分粒度,则按照实体粒度对第一解码结果进行划分,获得划分结果。
在确定出划分结果后,在该划分结果中确定掩码对象,该掩码对象是指需要进行掩码处理的对象。具体地,可以根据预设掩码比例在划分结果中确定掩码对象。其中,预设掩码比例位于5%-25%。进一步地,按照预设掩码比例以及随机选择函数确定掩码对象。例如,划分结果中包括100个对象,预设掩码比例为5%,则掩码对象的数量为5,则从划分结果中随机选择5个对象作为掩码对象。
S105:确定掩码对象在特征向量集中所对应的特征向量,并对该特征向量进行掩码处理,获得处理后的特征向量集。
在从划分结果中确定掩码对象后,确定该掩码对象在特征向量集中所对应的特征向量,并对该特征向量进行掩码处理,获得处理后的特征向量集。其中,掩码处理可以包括将掩码对象对应的特征向量参数置为0。
可选的,确定掩码对象在特征向量集中所对应的特征向量,包括:根据掩码对象在文本信息中的位置确定掩码对象在特征向量集中的特征位置;将位于特征位置处的特征向量确定为掩码对象在特征向量集中所对应的特征向量。其中,掩码对象在文本信息中的位置与掩码对象在特征向量集中的特征位置之间存在映射关系,在确定了掩码对象在文本信息中的位置信息后,可以根据上述映射关系确定掩码对象在特征向量集中的特征位置,进而确定该掩码对象在特征向量集中所对应的特征向量。
S106:将处理后的特征向量集输入初始网络模型的解码器中获得第二解码结果。
S107:根据第一解码结果和第二解码结果对初始网络模型的参数进行调整,重新执行将样本图像输入初始网络模型的编码器以及后续操作,直至满足预设条件,生成字符识别模型。
在获得处理后的特征向量集后,将该处理后的特征向量集输入初始网络模型的解码器中获得第二解码结果。即,初始网络模型的解码器利用掩码后的特征向量集进行解码识别,获得第二解码结果。在获得第二解码结果后,由于第二解码结果是根据掩码处理后的特征向量集确定的,而第一解码结果是根据完整的特征向量集确定的,第一解码结果与第二解码结果之间存在差异,为提高初始网络模型的解码器的预测能力,根据第一解码结果和第二解码结果对初始网络模型的参数(包括对编码器和解码器的参数)进行调整。在调整完初始网络模型的参数后,继续执行上述S102-S107的训练操作,直至第一解码结果与第二解码结果之间的损失量小于预设阈值,则满足预设条件,获得字符识别模型。
可见,本实施例中字符识别网络模型是利用样本图像对应的特征向量集以及经过掩码处理后的特征向量集训练生成的,通过利用处理前后特征向量集之间的自监督学习训练生成字符识别网络模型,无需对样本图像进行标注,降低训练成本。
基于上述方法实施例,本申请实施例提供了一种字符识别方法,下面将结合附图进行说明。
参见图2,该图为本申请实施例提供的一种字符识别方法,该方法可以由字符识别设备执行。字符识别设备可以为电子设备,还可以为其他设备,在此不作限制。其中,电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有通信功能的设备,也可以是虚拟机或者模拟器模拟的设备。如图2所示,该方法可以包括如下步骤:
S201:获取待处理文本图像,该待处理文本图像包括待识别文本。
S202:将待处理文本图像输入字符识别网络模型中,获得识别结果,该识别结果中包括待识别文本。
本实施例中,在通过图1所述的实施例训练生成字符识别网络模型后,可以直接利用该字符识别网络模型对待处理文本图像中的文本进行识别。
其中,字符识别网络模型是利用样本图像训练生成的,训练时将利用样本图像对应的特征向量集以及处理后的特征向量集进行训练。其中,处理后的特征向量集是指对特征向量集中的部分特征向量进行掩码处理后的特征向量集,样本图像包括文本信息。关于字符识别网络模型的具体训练过程可以参见图1所示的实施例,本实施例在此不再赘述。
通过上述可知,在进行字符识别时,利用的是预先训练的字符识别模型实现的,该字符识别模型是利用样本图像对应的特征向量集以及处理后的特征向量集训练生成的。其中,处理后的特征向量集是指对特征向量集中的部分特征向量进行掩码处理后的特征向量集。也就是,本申请在训练字符识别模型时,无需对样本图像进行人工标注,而是通过对齐原始的特征向量集和处理后的特征向量集的方式来训练字符识别网络模型,降低标注成本,提高训练效率。在实际使用时,将待处理的文本图像输入字符识别网络模型,以使得字符识别模型能够完整的提取图片中待识别文字的特征,并根据所提取的特征进行识别,获得识别结果。
基于上述方法实施例,本申请实施例提供了一种字符识别装置和电子设备,下面将结合附图进行说明。
参见图3,该图为本申请实施例提供的一种字符识别装置结构图,如图3所示,该装置可以包括:第一获取单元301和第二获取单元302。
第一获取单元301,用于获取待处理文本图像,所述待处理文本图像包括待识别文本;
第二获取单元302,用于将所述待处理文本图像输入字符识别网络模型中,获得识别结果,所述识别结果包括所述待识别文本;
其中,所述字符识别网络模型是利用样本图像训练生成的,训练时将利用所述样本图像对应的特征向量集以及处理后的特征向量集进行训练,所述处理后的特征向量集是指对所述特征向量集中的部分特征向量进行掩码处理后的特征向量集,所述样本图像包括文本信息。
在一种具体的实现方式中,所述装置还包括:训练单元;
所述训练单元,具体用于将所述样本图像输入初始网络模型的编码器中获得特征向量集,所述特征向量集中的特征向量为所述文本信息的特征向量;对所述特征向量集进行解码,获得第一解码结果,所述第一解码结果包括所述文本信息;对所述第一解码结果进行细粒度划分,获得划分结果,并在所述划分结果中确定掩码对象,所述掩码对象为所述划分结果中的一个或多个对象;确定所述掩码对象在所述特征向量集中所对应的特征向量,并对所述特征向量进行掩码处理,获得处理后的特征向量集;将所述处理后的特征向量集输入初始网络模型的解码器中获得第二解码结果;根据所述第一解码结果和所述第二解码结果对所述初始网络模型的参数进行调整,重新执行将所述样本图像输入初始网络模型的编码器以及后续操作,直至满足预设条件,生成所述字符识别模型。
在一种具体的实现方式中,所述训练单元,具体用于基于选择的目标划分粒度对所述第一解码结果进行划分,获得划分结果,所述目标划分粒度为词粒度、字母粒度、实体粒度中的一种;和/或,基于不同的划分粒度对所述第一解码结果进行划分,获得各划分粒度下的划分结果,所述划分粒度包括词粒度、字母粒度和实体粒度;确定目标划分粒度,并获得所述目标划分粒度对应的划分结果。
在一种具体的实现方式中,所述训练单元,具体用于根据预设掩码比例在所述划分结果中确定掩码对象,所述预设掩码比例大于等于5%且小于等于25%。
在一种具体的实现方式中,所述训练单元,具体用于根据所述掩码对象在所述文本信息中的位置确定所述掩码对象在所述特征向量集中的特征位置;将位于所述特征位置的特征向量确定为所述掩码对象在所述特征向量集中所对应的特征向量。
在一种具体的实现方式中,所述训练单元,具体用于利用预设的解码算法对所述特征向量集进行解码,获得第一解码结果。
在一种具体的实现方式中,所述预设的解码算法包括连接主义时序分类CTC解码算法。
需要说明的是,本实施例中各个单元的实现可以参见上述方法实施例中的相关描述。
参见图4,其示出了适于用来实现本申请实施例的电子设备400的结构示意图。本申请实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(Personal Digital Assistant,个人数字助理)、PAD(portable android device,平板电脑)、PMP(Portable Media Player,便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV(television,电视机)、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,电子设备400可以包括处理装置(例如中央处理器、图形处理器等)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储装置408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM403中,还存储有电子设备400操作所需的各种程序和数据。处理装置401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。
通常,以下装置可以连接至I/O接口405:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置406;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置407;包括例如磁带、硬盘等的存储装置408;以及通信装置409。通信装置409可以允许电子设备400与其他设备进行无线或有线通信以交换数据。虽然图4示出了具有各种装置的电子设备400,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置409从网络上被下载和安装,或者从存储装置408被安装,或者从ROM402被安装。在该计算机程序被处理装置401执行时,执行本申请实施例的方法中限定的上述功能。
本申请实施例提供的电子设备与上述实施例提供的方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例与上述实施例具有相同的有益效果。
本申请实施例提供一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述任一实施例所述的方法。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述字符识别方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元/模块的名称在某种情况下并不构成对该单元本身的限定,例如,语音数据采集模块还可以被描述为“数据采集模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本申请的一个或多个实施例,提供了一种字符识别方法,该方法可以包括:
获取待处理文本图像,所述待处理文本图像包括待识别文本;
将所述待处理文本图像输入字符识别网络模型中,获得识别结果,所述识别结果包括所述待识别文本;
其中,所述字符识别网络模型是利用样本图像训练生成的,训练时将利用所述样本图像对应的特征向量集以及处理后的特征向量集进行训练,所述处理后的特征向量集是指对所述特征向量集中的部分特征向量进行掩码处理后的特征向量集,所述样本图像包括文本信息。
根据本申请的一个或多个实施例,所述字符识别网络模型的训练过程包括:
将所述样本图像输入初始网络模型的编码器中获得特征向量集,所述特征向量集中的特征向量为所述文本信息的特征向量;
对所述特征向量集进行解码,获得第一解码结果,所述第一解码结果包括所述文本信息;
对所述第一解码结果进行细粒度划分,获得划分结果,并在所述划分结果中确定掩码对象,所述掩码对象为所述划分结果中的一个或多个对象;
确定所述掩码对象在所述特征向量集中所对应的特征向量,并对所述特征向量进行掩码处理,获得处理后的特征向量集;
将所述处理后的特征向量集输入初始网络模型的解码器中获得第二解码结果;
根据所述第一解码结果和所述第二解码结果对所述初始网络模型的参数进行调整,重新执行将所述样本图像输入初始网络模型的编码器以及后续操作,直至满足预设条件,生成所述字符识别模型。
根据本申请的一个或多个实施例,所述对所述第一解码结果进行划分,获得划分结果,包括:
基于选择的目标划分粒度对所述第一解码结果进行划分,获得划分结果,所述目标划分粒度为词粒度、字母粒度、实体粒度中的一种;和/或,
基于不同的划分粒度对所述第一解码结果进行划分,获得各划分粒度下的划分结果,所述划分粒度包括词粒度、字母粒度和实体粒度;
确定目标划分粒度,并获得所述目标划分粒度对应的划分结果。
根据本申请的一个或多个实施例,所述在所述划分结果中确定掩码对象,包括:
根据预设掩码比例在所述划分结果中确定掩码对象,所述预设掩码比例大于等于5%且小于等于25%。
根据本申请的一个或多个实施例,所述确定所述掩码对象在所述特征向量即中所对应的特征向量,包括:
根据所述掩码对象在所述文本信息中的位置确定所述掩码对象在所述特征向量集中的特征位置;
将位于所述特征位置的特征向量确定为所述掩码对象在所述特征向量集中所对应的特征向量。
根据本申请的一个或多个实施例,所述对所述特征向量集进行解码,获得第一解码结果,包括:
利用预设的解码算法对所述特征向量集进行解码,获得第一解码结果。
根据本申请的一个或多个实施例,所述预设的解码算法包括连接主义时序分类CTC解码算法。
根据本申请的一个或多个实施例,提供了一种字符识别装置,所述装置包括:
第一获取单元,用于获取待处理文本图像,所述待处理文本图像包括待识别文本;
第二获取单元,用于将所述待处理文本图像输入字符识别网络模型中,获得识别结果,所述识别结果包括所述待识别文本;
其中,所述字符识别网络模型是利用样本图像训练生成的,训练时将利用所述样本图像对应的特征向量集以及处理后的特征向量集进行训练,所述处理后的特征向量集是指对所述特征向量集中的部分特征向量进行掩码处理后的特征向量集,所述样本图像包括文本信息。
根据本申请的一个或多个实施例,所述装置还包括:训练单元;
所述训练单元,具体用于将所述样本图像输入初始网络模型的编码器中获得特征向量集,所述特征向量集中的特征向量为所述文本信息的特征向量;对所述特征向量集进行解码,获得第一解码结果,所述第一解码结果包括所述文本信息;对所述第一解码结果进行细粒度划分,获得划分结果,并在所述划分结果中确定掩码对象,所述掩码对象为所述划分结果中的一个或多个对象;确定所述掩码对象在所述特征向量集中所对应的特征向量,并对所述特征向量进行掩码处理,获得处理后的特征向量集;将所述处理后的特征向量集输入初始网络模型的解码器中获得第二解码结果;根据所述第一解码结果和所述第二解码结果对所述初始网络模型的参数进行调整,重新执行将所述样本图像输入初始网络模型的编码器以及后续操作,直至满足预设条件,生成所述字符识别模型。
根据本申请的一个或多个实施例,所述训练单元,具体用于基于选择的目标划分粒度对所述第一解码结果进行划分,获得划分结果,所述目标划分粒度为词粒度、字母粒度、实体粒度中的一种;和/或,基于不同的划分粒度对所述第一解码结果进行划分,获得各划分粒度下的划分结果,所述划分粒度包括词粒度、字母粒度和实体粒度;确定目标划分粒度,并获得所述目标划分粒度对应的划分结果。
根据本申请的一个或多个实施例,所述训练单元,具体用于根据预设掩码比例在所述划分结果中确定掩码对象,所述预设掩码比例大于等于5%且小于等于25%。
根据本申请的一个或多个实施例,所述训练单元,具体用于根据所述掩码对象在所述文本信息中的位置确定所述掩码对象在所述特征向量集中的特征位置;将位于所述特征位置的特征向量确定为所述掩码对象在所述特征向量集中所对应的特征向量。
根据本申请的一个或多个实施例,所述训练单元,具体用于利用预设的解码算法对所述特征向量集进行解码,获得第一解码结果。
根据本申请的一个或多个实施例,所述预设的解码算法包括连接主义时序分类CTC解码算法。
根据本申请的一个或多个实施例,提供了一种电子设备,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行上述的字符识别方法。
根据本申请的一个或多个实施例,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行上述的字符识别方法。
根据本申请的一个或多个实施例,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行上述的字符识别方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种字符识别方法,其特征在于,所述方法包括:
获取待处理文本图像,所述待处理文本图像包括待识别文本;
将所述待处理文本图像输入字符识别网络模型中,获得识别结果,所述识别结果包括所述待识别文本;
其中,所述字符识别网络模型是利用样本图像训练生成的,训练时将利用所述样本图像对应的特征向量集以及处理后的特征向量集进行训练,所述处理后的特征向量集是指对所述特征向量集中的部分特征向量进行掩码处理后的特征向量集,所述样本图像包括文本信息。
2.根据权利要求1所述的方法,其特征在于,所述字符识别网络模型的训练过程包括:
将所述样本图像输入初始网络模型的编码器中获得特征向量集,所述特征向量集中的特征向量为所述文本信息的特征向量;
对所述特征向量集进行解码,获得第一解码结果,所述第一解码结果包括所述文本信息;
对所述第一解码结果进行细粒度划分,获得划分结果,并在所述划分结果中确定掩码对象,所述掩码对象为所述划分结果中的一个或多个对象;
确定所述掩码对象在所述特征向量集中所对应的特征向量,并对所述特征向量进行掩码处理,获得处理后的特征向量集;
将所述处理后的特征向量集输入初始网络模型的解码器中获得第二解码结果;
根据所述第一解码结果和所述第二解码结果对所述初始网络模型的参数进行调整,重新执行将所述样本图像输入初始网络模型的编码器以及后续操作,直至满足预设条件,生成所述字符识别模型。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一解码结果进行划分,获得划分结果,包括:
基于选择的目标划分粒度对所述第一解码结果进行划分,获得划分结果,所述目标划分粒度为词粒度、字母粒度、实体粒度中的一种;和/或,
基于不同的划分粒度对所述第一解码结果进行划分,获得各划分粒度下的划分结果,所述划分粒度包括词粒度、字母粒度和实体粒度;
确定目标划分粒度,并获得所述目标划分粒度对应的划分结果。
4.根据权利要求2或3所述的方法,其特征在于,所述在所述划分结果中确定掩码对象,包括:
根据预设掩码比例在所述划分结果中确定掩码对象,所述预设掩码比例大于等于5%且小于等于25%。
5.根据权利要求2所述的方法,其特征在于,所述确定所述掩码对象在所述特征向量即中所对应的特征向量,包括:
根据所述掩码对象在所述文本信息中的位置确定所述掩码对象在所述特征向量集中的特征位置;
将位于所述特征位置的特征向量确定为所述掩码对象在所述特征向量集中所对应的特征向量。
6.根据权利要求2所述的方法,其特征在于,所述对所述特征向量集进行解码,获得第一解码结果,包括:
利用预设的解码算法对所述特征向量集进行解码,获得第一解码结果。
7.根据权利要求6所述的方法,其特征在于,所述预设的解码算法包括连接主义时序分类CTC解码算法。
8.一种字符识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取待处理文本图像,所述待处理文本图像包括待识别文本;
第二获取单元,用于将所述待处理文本图像输入字符识别网络模型中,获得识别结果,所述识别结果包括所述待识别文本;
其中,所述字符识别网络模型是利用样本图像训练生成的,训练时将利用所述样本图像对应的特征向量集以及处理后的特征向量集进行训练,所述处理后的特征向量集是指对所述特征向量集中的部分特征向量进行掩码处理后的特征向量集,所述样本图像包括文本信息。
9.一种电子设备,其特征在于,所述设备包括:处理器和存储器;
所述存储器,用于存储指令或计算机程序;
所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行权利要求1-7任一项所述的字符识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在设备上运行时,使得所述设备执行权利要求1-7任一项所述的字符识别方法。
CN202210114346.9A 2022-01-30 2022-01-30 一种字符识别方法、装置、设备及介质 Pending CN114445813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210114346.9A CN114445813A (zh) 2022-01-30 2022-01-30 一种字符识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210114346.9A CN114445813A (zh) 2022-01-30 2022-01-30 一种字符识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN114445813A true CN114445813A (zh) 2022-05-06

Family

ID=81371510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210114346.9A Pending CN114445813A (zh) 2022-01-30 2022-01-30 一种字符识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN114445813A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690793A (zh) * 2023-01-03 2023-02-03 北京百度网讯科技有限公司 文字识别模型及其识别方法、装置、设备和介质
CN116189198A (zh) * 2023-01-06 2023-05-30 北京百度网讯科技有限公司 文本识别模型训练方法、文本识别方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115690793A (zh) * 2023-01-03 2023-02-03 北京百度网讯科技有限公司 文字识别模型及其识别方法、装置、设备和介质
CN116189198A (zh) * 2023-01-06 2023-05-30 北京百度网讯科技有限公司 文本识别模型训练方法、文本识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN110298413B (zh) 图像特征提取方法、装置、存储介质及电子设备
CN110826567B (zh) 光学字符识别方法、装置、设备及存储介质
CN113313064A (zh) 字符识别方法、装置、可读介质及电子设备
CN112883968B (zh) 图像字符识别方法、装置、介质及电子设备
CN112883967B (zh) 图像字符识别方法、装置、介质及电子设备
CN112364829B (zh) 一种人脸识别方法、装置、设备及存储介质
CN109934142B (zh) 用于生成视频的特征向量的方法和装置
CN115294501A (zh) 视频识别方法、视频识别模型训练方法、介质及电子设备
CN114049632A (zh) 图像字符识别模型训练方法、图像字符识别方法及装置
CN115205305A (zh) 一种实例分割模型训练方法、实例分割方法及装置
CN114444508A (zh) 日期识别方法、装置、可读介质及电子设备
CN113140012B (zh) 图像处理方法、装置、介质及电子设备
CN110634050A (zh) 一种鉴别房源类型的方法、装置、电子设备及存储介质
CN114445813A (zh) 一种字符识别方法、装置、设备及介质
CN114067327A (zh) 文本识别方法、装置、可读介质及电子设备
CN110674813B (zh) 汉字识别方法、装置、计算机可读介质及电子设备
CN114625876B (zh) 作者特征模型的生成方法、作者信息处理方法和装置
CN114445812A (zh) 一种字符识别方法、装置、设备及介质
CN114511744A (zh) 图像分类方法、装置、可读介质和电子设备
CN115269978A (zh) 一种视频标签生成方法、装置、设备及介质
CN114495081A (zh) 文本识别的方法、装置、可读介质和电子设备
CN114495080A (zh) 字体识别方法、装置、可读介质及电子设备
CN114429629A (zh) 图像处理方法、装置、可读存储介质及电子设备
CN112488204A (zh) 训练样本生成方法、图像分割方法、装置、设备和介质
CN113177176A (zh) 特征构建方法、内容显示方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination