CN114937267B - 文本识别模型的训练方法、装置和电子设备 - Google Patents
文本识别模型的训练方法、装置和电子设备 Download PDFInfo
- Publication number
- CN114937267B CN114937267B CN202210415275.6A CN202210415275A CN114937267B CN 114937267 B CN114937267 B CN 114937267B CN 202210415275 A CN202210415275 A CN 202210415275A CN 114937267 B CN114937267 B CN 114937267B
- Authority
- CN
- China
- Prior art keywords
- character
- domain data
- character feature
- target
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 62
- 230000006870 function Effects 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 30
- 230000006978 adaptation Effects 0.000 claims description 21
- 239000011159 matrix material Substances 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 230000003287 optical effect Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 235000019800 disodium phosphate Nutrition 0.000 description 2
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 241000132092 Aster Species 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本公开提供了文本识别模型的训练方法、装置和电子设备,涉及图像处理技术领域,用于解决现有技术在对模糊的文本图像进行文本识别时,会出现无法准确识别该模糊的文本图像中包含的文本,导致文本识别的准确率较低的问题。该方法包括:将源域数据和目标域数据输入至预设识别模型中进行识别,确定源域数据的第一识别结果、目标域数据的第二识别结果、源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合;根据源域数据、目标域数据、第一字符特征集合和第二字符特征集合,对预设识别模型进行监督训练,直到预设识别模型收敛,得到文本识别模型。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及文本识别模型的训练方法、装置和电子设备。
背景技术
在文本识别场景中,需要对文本图像中包含的文本(如字母、阿拉伯数字)进行识别,如对包含手写体的文本图像进行识别,或者对包含车牌的文本图像进行识别。相关技术中,文本图像由于相机焦距、目标移动以及拍摄者的微运动等因素,导致实际拍摄的文本图像出现模糊的情况。如此,在对模糊的文本图像进行文本识别时,会出现无法准确识别该模糊的文本图像中包含的文本内容,导致文本识别的准确率较低的情况,用户的体验较差。
发明内容
有鉴于此,本公开提供了文本识别模型的训练方法、装置和电子设备,用于解决现有技术在对模糊的文本图像进行文本识别时,会出现无法准确识别该模糊的文本图像中包含的文本,导致文本识别的准确率较低的问题。
为了实现上述目的,本公开提供技术方案如下:
第一方面,本公开提供一种文本识别模型的训练方法,包括:将源域数据和目标域数据输入至预设识别模型中进行识别,确定源域数据的第一识别结果、目标域数据的第二识别结果、源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合;其中,源域数据和目标域数据包括相同的文本内容,源域数据的分辨率大于目标域数据的分辨率;对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应,确定最大均值差异损失值;对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度;根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练,直到预设识别模型收敛,得到文本识别模型。
在一些可实现的方式中,根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练,直到预设识别模型收敛,得到文本识别模型,包括:根据第一识别结果和第二识别结果,确定预设识别模型的识别损失值;根据识别损失值、最大均值差异损失值和相对熵散度,确定预设识别模型的实际损失值;在实际损失值大于或等于损失阈值的情况下,返回执行将源域数据和目标域数据输入至预设识别模型中进行识别,得到实际损失值,直到实际损失值小于损失阈值的情况下,确定预设识别模型收敛,得到文本识别模型。
在一些可实现的方式中,一类字符特征包括一个或者多个字符特征;对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应,确定最大均值差异损失值,包括:根据第一字符特征集合,确定第一字符特征集合中每一类字符特征对应的目标质心;根据第二字符特征集合,确定第二字符特征集合中每一类字符特征对应的目标质心;根据第一字符特征集合中每一类字符特征对应的目标质心和第二字符特征集合中每一类字符特征对应的目标质心,确定最大均值差异损失值。
在一些可实现的方式中,针对同一类字符特征,确定同一类字符特征的目标质心的步骤如下:获取同一类字符特征中每一个字符特征对应的字符矩阵;根据同一类字符特征中每一个字符特征对应的字符矩阵,确定同一类字符特征的目标质心。
在一些可实现的方式中,本公开提供的文本识别模型的训练方法还包括:获取同一类字符特征在上一训练周期的目标质心,以及同一类字符特征在当前训练周期的候选质心;根据同一类字符特征在上一训练周期的目标质心和同一类字符特征在当前训练周期的候选质心,确定同一类字符特征在当前训练周期目标质心。
在一些可实现的方式中,对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度,包括:针对同一类字符特征,均执行如下操作:根据同一类字符特征对应的目标质心,确定同一类字符特征中每个字符特征与同一类字符特征对应的目标质心的第一距离,以及同一类字符特征中每个字符特征与除同一类字符特征对应的目标质心以外的每个目标质心的第二距离;根据目标激活函数、第一距离和第二距离,确定同一类字符特征中每个字符特征的得分;根据每一类第一字符特征中每个第一字符特征的得分和每一类第二字符特征中每个第二字符特征的得分,确定相对熵散度。
在一些可实现的方式中,将源域数据和目标域数据输入至预设识别模型中进行识别之前,本公开提供的文本识别模型的训练方法还包括:获取源域数据;对源域数据进行目标操作,得到目标域数据;其中,目标操作包括高斯模糊和下采样中的一项或者多项。
第二方面,本公开提供一种文本识别方法,包括:获取待识别的文本图像;其中,文本图像的分辨率小于或等于预设阈值;将文本图像输入至预先配置的文本识别模型中,确定文本图像包含的文本内容;其中,文本识别模型通过第一方面提供的任一项方法训练得到。
第三方面,本公开提供一种文本识别模型的训练装置,包括:处理单元,用于将源域数据和目标域数据输入至预设识别模型中进行识别,确定源域数据的第一识别结果、目标域数据的第二识别结果、源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合;其中,源域数据和目标域数据包括相同的文本内容,源域数据的分辨率大于目标域数据的分辨率;处理单元,还用于对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应,确定最大均值差异损失值;处理单元,还用于对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度;处理单元,还用于根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练,直到预设识别模型收敛,得到文本识别模型。
在一些可实现的方式中,处理单元,具体用于根据第一识别结果和第二识别结果,确定预设识别模型的识别损失值;处理单元,具体用于根据识别损失值、最大均值差异损失值和相对熵散度,确定预设识别模型的实际损失值;处理单元,具体用于在实际损失值大于或等于损失阈值的情况下,返回执行将源域数据和目标域数据输入至预设识别模型中进行识别,得到实际损失值,直到实际损失值小于损失阈值的情况下,确定预设识别模型收敛,得到文本识别模型。
在一些可实现的方式中,一类字符特征包括一个或者多个字符特征;处理单元,具体用于根据第一字符特征集合,确定第一字符特征集合中每一类字符特征对应的目标质心;处理单元,具体用于根据第二字符特征集合,确定第二字符特征集合中每一类字符特征对应的目标质心;处理单元,具体用于根据第一字符特征集合中每一类字符特征对应的目标质心和第二字符特征集合中每一类字符特征对应的目标质心,确定最大均值差异损失值。
在一些可实现的方式中,文本识别模型的训练装置还包括获取单元;针对同一类字符特征,确定同一类字符特征的目标质心的步骤如下:获取单元,用于获取同一类字符特征中每一个字符特征对应的字符矩阵;处理单元,还用于根据获取单元获取的同一类字符特征中每一个字符特征对应的字符矩阵,确定同一类字符特征的目标质心。
在一些可实现的方式中,文本识别模型的训练装置还包括获取单元;获取单元,用于获取同一类字符特征在上一训练周期的目标质心,以及同一类字符特征在当前训练周期的候选质心;处理单元,还用于根据获取单元获取的同一类字符特征在上一训练周期的目标质心和获取单元获取的同一类字符特征在当前训练周期的候选质心,确定同一类字符特征在当前训练周期目标质心。
在一些可实现的方式中,处理单元,具体用于针对同一类字符特征,均执行如下操作:根据同一类字符特征对应的目标质心,确定同一类字符特征中每个字符特征与同一类字符特征对应的目标质心的第一距离,以及同一类字符特征中每个字符特征与除同一类字符特征对应的目标质心以外的每个目标质心的第二距离;根据目标激活函数、第一距离和第二距离,确定同一类字符特征中每个字符特征的得分;处理单元,还用于根据每一类第一字符特征中每个第一字符特征的得分和每一类第二字符特征中每个第二字符特征的得分,确定相对熵散度。
在一些可实现的方式中,文本识别模型的训练装置还包括获取单元;获取单元,用于获取源域数据;处理单元,用于对获取单元获取的源域数据进行目标操作,得到目标域数据;其中,目标操作包括高斯模糊和下采样中的一项或者多项。
第四方面,本公开提供一种文本识别装置,包括:获取单元,用于获取待识别的文本图像;其中,文本图像的分辨率小于或等于预设阈值;处理单元,用于将获取单元获取的文本图像输入至预先配置的文本识别模型中,确定文本图像包含的文本内容;其中,文本识别模型通过第一方面提供的任一项方法训练得到。
第五方面、本公开提供一种电子设备,包括:通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接。当电子设备运行时,处理器执行存储器存储的计算机执行指令,以使电子设备执行如上述第一方面提供的文本识别模型的训练方法。
第六方面,本公开提供一种计算机可读存储介质,包括指令。当指令在计算机上运行时,使得计算机执行如上述第一方面提供的文本识别模型的训练方法。
第七方面,本公开提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第一方面的设计方式的文本识别模型的训练方法。
第八方面、本公开提供一种电子设备,包括:通信接口、处理器、存储器、总线;存储器用于存储计算机执行指令,处理器与存储器通过总线连接。当电子设备运行时,处理器执行存储器存储的计算机执行指令,以使电子设备执行如上述第二方面提供的文本识别方法。
第九方面,本公开提供一种计算机可读存储介质,包括指令。当指令在计算机上运行时,使得计算机执行如上述第二方面提供的文本识别方法。
第十方面,本公开提供一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行如第二方面的设计方式的文本识别方法。
需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中,第一计算机可读存储介质可以与电子设备的处理器封装在一起的,也可以与电子设备的处理器单独封装,本公开对此不作限定。
本公开中第三方面、第五方面、第六方面以及第七方面的描述,可以参考第一方面的详细描述;并且,第三方面、第五方面、第六方面以及第七方面的描述的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
本公开中第四方面、第八方面、第九方面以及第十方面的描述,可以参考第一方面的详细描述;并且,第四方面、第八方面、第九方面以及第十方面的描述的有益效果,可以参考第二方面的有益效果分析,此处不再赘述。
在本公开中,上述文本识别模型的训练装置,以及文本识别装置二者的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本公开类似,属于本公开权利要求及其等同技术的范围之内。
本公开的这些方面或其他方面在以下的描述中会更加简明易懂。
本公开提供的技术方案与现有技术相比具有如下优点:
本公开提供的文本识别模型的训练方法,采用不同分辨率的源域数据和目标域数据让预设识别模型进行识别,从而可以确定源域数据的第一识别结果、目标域数据的第二识别结果、源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合。之后,通过对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应,从而使得该预设识别模型可以捕获模糊不变性特征。进一步地,通过对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,从而可以减少样本层级的域偏移。这样在根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练时,可以提高预设识别模型对不同分辨率的文本图像中文本内容的识别准确率。解决了现有技术在对模糊的文本图像进行文本识别时,会出现无法准确识别该模糊的文本图像中包含的文本,导致文本识别的准确率较低的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的文本识别模型的训练方法的流程示意图之一;
图2为本公开实施例提供的文本识别模型的训练方法中预设识别模型的结构示意图;
图3为本公开实施例提供的文本识别模型的训练方法的流程示意图之二;
图4为本公开实施例提供的文本识别模型的训练方法中计算目标质心的示意图;
图5为本公开实施例提供的文本识别模型的训练方法中计算得分的示意图;
图6为本公开实施例提供的文本识别方法的流程示意图;
图7为本公开实施例提供的服务器的结构示意图之一;
图8为本公开实施例提供的服务器的结构示意图之二;
图9为本公开实施例提供的一种文本识别模型的训练方法的计算机程序产品的结构示意图;
图10为本公开实施例提供的服务器的结构示意图之三;
图11为本公开实施例提供的服务器的结构示意图之四;
图12为本公开实施例提供的一种文本识别方法的计算机程序产品的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本公开实施例中的SynthText数据集,由包含单词的自然场景图像组成,其主要运用于自然场景中的文本检测,该数据集由 80 万个图像组成,大约有 800 万个合成单词实例。每个文本实例均使用文本字符串、字级和字符级边界框进行注释。该SynthText 数据集由牛津大学工程科学系视觉几何组的 Gupta, A. and Vedaldi, A. and Zisserman, A.于 2016 年在计算机视觉和模式识别会议(IEEE Conference on Computer Vision andPattern Recognition ,CVPR) 上发布。
本公开实施例中的LSTM是指长短期记忆网络(Long-Short Term Memory),是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。
文本识别的目标是文档中的文本内容(如字母、阿拉伯数字)。文本识别技术可以广泛应用于需要应用之中,例如手写体识别、车牌识别等方面。真实场景中的文本图像会由于相机焦距、目标移动以及拍摄者的微运动而导致文本图像的模糊。如此,在对模糊的文本图像进行文本识别时,会出现无法准确识别该模糊的文本图像中包含的文本内容,导致文本识别的准确率较低的情况,用户的体验较差。
下面介绍文本识别模型的训练过程:
如图1所示,本公开实施例示出的一种文本识别模型的训练方法的流程图,该方法包括以下S10和S13。
S10、服务器将源域数据和目标域数据输入至预设识别模型中进行识别,确定源域数据的第一识别结果、目标域数据的第二识别结果、源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合。其中,源域数据和目标域数据包括相同的文本内容,源域数据的分辨率大于目标域数据的分辨率。
在一些示例中,预设识别模型可以为用于文本识别的识别器,如Aster(Attentional Scene TExt Recognizer with Flexible Rectification)识别器。如图2所示,Aster 识别器包括特征提取(Feature Extraction)模块和包含注意力(attention)机制的编码(Encoder)-解码(Decoder)模块。其中,特征提取模块和编码-解码模块的网络配置如表1、表2和表3所示。
表1
表2
表3
这样,在将源域数据和目标域数据输入至Aster识别器中进行识别时,Aster识别器中的特征提取模块需要对源域数据和目标域数据分别进行特征提取,并将提取特征后的源域数据和目标域数据发送至编码-解码模块。编码-解码模块在拿到取特征后的源域数据和目标域数据时,通过LSTM对取特征后的源域数据和目标域数据进行编码,从而提高字符识别的准确率。之后,编码-解码模块通过注意力机制提取将编码后的源域数据中每个字符特征的字符矩阵。同时,编码-解码模块通过注意力机制提取将编码后的目标域数据中每个字符特征的字符矩阵。之后,编码-解码模块通过LSTM对源域数据中每个字符特征的字符矩阵和目标域数据中每个字符特征的字符矩阵进行解码,从而得到源域数据的第一识别结果(也可以称为soft label)、目标域数据的第二识别结果(也可以称为result)、源域数据对应的第一字符特征集合(也可以称为标签(label)),和目标域数据对应的第二字符特征集合。为了保证该Aster识别器能够准确地识别出文本图像中的文本内容,需要对该Aster识别器进行训练。在对Aster识别器进训练时,需要根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练,直到预设识别模型收敛,得到文本识别模型,具体的实现过程如下述S11-S13。
具体的,每个字符特征集合中包含多个类的字符特征,一个类的字符特征对应一个标签,同一类的字符特征中包含一个或者多个字符特征。如图2所示,源域数据中包含的文本内容为Meet,将源域数据输入到预设识别模型中进行识别后,可以确定第一字符特征集合中包含3类的字符特征,分别为标签为M的字符特征、标签为e的字符特征和标签为t的字符特征。其中,标签为M的字符特征中仅包含1个字符特征M,标签为e的字符特征中包含2个字符特征e,标签为t的字符特征中包含1个字符特征t。
S11、服务器对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应,确定最大均值差异损失值。
在一些示例中,为了保证预设识别模型可以捕获模糊不变性特征,从而达到识别不同分辨率的文本图像中包含的文本内容。本公开实施例提供的文本识别模型的训练方法通过不断迭代该预设识别模型,使得源域数据中同一类的字符特征的目标质心与目标域数据中同一类的字符特征的目标质心不断靠近,从而完成源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应。在源域数据中同一类的字符特征的目标质心与目标域数据中同一类的字符特征的目标质心重叠时,完成了对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征的特征域适应。
S12、服务器对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度。
在一些示例中,由于源域数据和目标域数据包括相同的文本内容,因此同一文本内容对应两种字符特征,分别为源域数据中的字符特征和目标域数据中的字符特征。通常源域数据中的字符特征和目标域数据中的字符特征并不是重叠的,这样就会导致出现样本层级的域偏移。为了减少样本层级的域偏移本公开实施例提供的文本识别模型的训练方法通过不断迭代该预设识别模型,使得同一类字符特征中每个字符特征与同一类字符特征对应的目标质心的第一距离,和同一类字符特征中每个字符特征与除同一类字符特征对应的目标质心以外的每个目标质心的第二距离逐渐靠近,从而完成对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应。在第一距离和第二距离相同时,从而完成了对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应。
S13、服务器根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练,直到预设识别模型收敛,得到文本识别模型。
由上述可知,本公开实施例提供的文本识别模型的训练方法,服务器采用不同分辨率的源域数据和目标域数据让预设识别模型进行识别,从而可以确定源域数据的第一识别结果、目标域数据的第二识别结果、源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合。之后,服务器通过对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应,从而使得该预设识别模型可以捕获模糊不变性特征。进一步地,服务器通过对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,从而可以减少样本层级的域偏移。这样在服务器根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练时,可以提高预设识别模型对不同分辨率的文本图像中文本内容的识别准确率。解决了现有技术在对模糊的文本图像进行文本识别时,会出现无法准确识别该模糊的文本图像中包含的文本,导致文本识别的准确率较低的问题。
在一些可实现的方式中,结合图1,如图3所示,上述S13具体可以通过下述S130-S132实现。
S130、服务器根据第一识别结果和第二识别结果,确定预设识别模型的识别损失值。
在一些示例中,服务器可以预先配置的公式计算识别损失值。其中,预先配置的公式包括:
。
其中,Lrec表示识别损失值,T表示字符特征的总数,yt表示当前字符特征的标签,Psrc_t表示第一识别结果,Ptgt_t表示第二识别结果,t∈[0,T],t和T均为整数。
示例性的,如图2所示,源域数据和目标域数据中包含相同的文本内容为Meet,通过预设识别模型对Meet识别后,可以确定Meet中包含4个字符特征,分别为1个字符特征M,2个字符特征e,和1个字符特征t。因此,可以确定T等于4,第一识别结果为预设识别模型对源域数据中的Meet进行识别的识别结果,第二识别结果为预设识别模型对目标域数据中的Meet进行识别的识别结果。假设将字符特征划分为0-9,a-z共36个标签。为了便于计算,可以将该分类结果以预定的格式进行转换,并以向量的方式表示。如:t=1时,yt表示M,此时yt=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0]。t=2时,yt表示e,此时
yt=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。t=3时,yt表示e,此时
yt=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。t=4时,yt表示t,此时
yt=[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0]。可以看出,采用此种方式表示当前字符特征的标签时,仅当前字符特征所处位置为1,其他的位置均为0,如此可以准确地表示出当前字符特征。
S131、服务器根据识别损失值、最大均值差异损失值和相对熵散度,确定预设识别模型的实际损失值。
在一些示例中,实际损失值满足下述公式:
。
其中,Ltotal表示识别损失值、Lclass_level表示最大均值差异损失值,Lsample_level表示相对熵散度,a和b为常数。
示例性的,a和b相同,且a和b均等于0.1。
S132、服务器在实际损失值大于或等于损失阈值的情况下,返回执行将源域数据和目标域数据输入至预设识别模型中进行识别,得到实际损失值,直到实际损失值小于损失阈值的情况下,确定预设识别模型收敛,得到文本识别模型。
在一些可实现的方式中,一类字符特征包括一个或者多个字符特征;结合图1,如图3所示,上述S11具体可以通过下述S110-S112实现。
S110、服务器根据第一字符特征集合,确定第一字符特征集合中每一类字符特征对应的目标质心。
S111、服务器根据第二字符特征集合,确定第二字符特征集合中每一类字符特征对应的目标质心。
在一些可实现的方式中,针对同一类字符特征,确定同一类字符特征的目标质心的步骤如下:获取同一类字符特征中每一个字符特征对应的字符矩阵。根据同一类字符特征中每一个字符特征对应的字符矩阵,确定同一类字符特征的目标质心。
其中,目标质心满足如下公式:
。
其中,uc表示目标质心,sc表示源域数据,或者目标域数据在当前迭代周期中包含第i个字符特征的总数,xi表示源域数据,或者目标域数据中第i个字符特征。
示例性的,结合图2可知,源域数据中包含的文本内容为Meet,则第i个字符特征可以是M、第i个字符特征也可以是e,第i个字符特征还可以是t。目标域数据中包含的文本内容为Meet,则第i个字符特征可以是M、第i个字符特征也可以是e,第i个字符特征还可以是t。
具体的,相同的字符特征表示一类字符特征。
在一些可实现的方式中,本公开实施例提供的文本识别模型的训练方法还包括:
获取同一类字符特征在上一训练周期的目标质心,以及同一类字符特征在当前训练周期的候选质心。
根据同一类字符特征在上一训练周期的目标质心和同一类字符特征在当前训练周期的候选质心,确定同一类字符特征在当前训练周期目标质心。
其中,目标质心满足下述公式:
。
其中,uc表示目标质心,m表示大于或等于0,且小于或等于1的常数,u'c表示上一训练周期的目标质心,(1-m)uc_batch表示根据计算的当前训练周期的目标质心(也称为候选质心)。
可以看出,采用计算目标质心时,仅根据当前训练周期中第一字符特征集合中的字符特征的分布,或者根据当前训练周期中第二字符特征集合中的字符特征的分布计算目标质心,这样会出现计算的目标质心存在较大的偏差。为解决该问题,本公开实施例提供的文本识别模型的训练方法,还通过采用滑动平均的思想对目标质心进行更新(如:根据同一类字符特征在上一训练周期的目标质心和同一类字符特征在当前训练周期的候选质心,确定同一类字符特征在当前训练周期目标质心),这样可以更加准确地出目标质心,保证文本识别模型的识别准确率。
示例性的,如图4所示,假设第一字符特征集合中包含5个字符特征m(分别为m1-m5),和4个字符特征t(分别为t1-t4),第二字符特征集合中包含5个字符特征m'(分别为m'1-m'5),和4个字符特征t'(分别为t'1-t'4)。可以看出,对于第一字符特征集合中标签为m的字符特征,需要根据字符特征m1-字符特征m5中每个字符特征对应的字符矩阵,确定目标质心m0。其中,
,
表示第一字符特征集合中标签为m的第n个字符特征的字符矩阵(如:n等于1时,表示第一字符特征集合中标签为m的字符特征m1的字符矩阵),B表示第一字符特征集合中标签为m的字符特征包含的字符特征的总数,b∈[0,B],n和N均为整数。同理,对于第一字符特征集合中标签为t的字符特征,需要根据字符特征t1-字符特征t4中每个字符特征对应的字符矩阵,确定目标质心t0。其中,/>。
需要说明的是,第二特征集合中标签为m'的字符特征计算目标质心的过程与第一特征集合中标签为m的字符特征计算目标质心的过程相同,此处不再赘述。
第二特征集合中标签为t'的字符特征计算目标质心的过程与第一特征集合中标签为t的字符特征计算目标质心的过程相同,此处不再赘述。
S112、服务器根据第一字符特征集合中每一类字符特征对应的目标质心和第二字符特征集合中每一类字符特征对应的目标质心,确定最大均值差异损失值。
在一些示例中,本公开实施例提供的文本识别模型的训练方法,通过最大均值差异损失(maximum mean discrepancy loss,MMD Loss)对源域数据中同一类的字符特征的目标质心与目标域数据中同一类的字符特征的目标质心进行对齐,使得源域数据中同一类的字符特征的目标质心与目标域数据中同一类的字符特征的目标质心不断靠近。
具体的,源域数据中同一类的字符特征的目标质心与目标域数据中同一类的字符特征的目标质心在重构希尔伯特空间(Hilbert space)中的最大均值差异损失值满足下述公式:
。
其中,Lclass_level表示最大均值差异损失值,C表示划分的标签的总数,表示源域数据中第c个标签(如:该标签为字符特征M时,此时表示源域数据中所有字符特征M对应的目标质心)对应的字符特征的目标质心,/>表示目标域数据中第c个标签对应的字符特征的目标质心,H表示重构希尔伯特空间,c∈[0,C],且C和c均为整数。
示例性的,本公开实施例提供的文本识别模型的训练方法,将字符特征划分为0-9,a-z共36个标签,此时C等于36。
在一些可实现的方式中,结合图1,如图3所示,上述S12具体可以通过下述S120和S121实现。
S120、服务器针对同一类字符特征,均执行如下操作:根据同一类字符特征对应的目标质心,确定同一类字符特征中每个字符特征与同一类字符特征对应的目标质心的第一距离,以及同一类字符特征中每个字符特征与除同一类字符特征对应的目标质心以外的每个目标质心的第二距离;根据目标激活函数、第一距离和第二距离,确定同一类字符特征中每个字符特征的得分。
在一些示例中,目标激活函数可以为计算得分分布的函数,如softmax逻辑回归(Softmax logical regression)激活函数。其中,softmax激活函数满足如下公式:
。
。
其中,Ps ic表示第i个字符特征对应的源域数据的得分,Pt ic表示第i个字符特征对应的目标域数据的得分,xi表示第i个字符特征,us c表示第一字符特征集合中第i个字符特征归属的同一类的字符特征的目标质心,ut c表示第二字符特征集合中第i个字符特征归属的同一类的字符特征的目标质心,us c'表示第一字符特征集合中除us c以外第n个目标质心,表示第二字符特征集合中除ut c以外第m个目标质心,D表示第一字符特征集合中第i个字符特征第i个字符特征与第i个字符特征归属的同一类的字符特征的目标质心之间的距离,N表示第一字符特征集合中除us c以外的目标质心的总数,M表示第二字符特征集合中除ut c以外的目标质心的总数,n∈[0,N],m∈[0,M],n、m、n和M四者均为整数。
示例性的,如图5所示,结合上述S111给出的示例,以计算字符特征m1与标签为m的字符特征对应的目标质心的第一距离,以及字符特征m1与除标签为m的字符特征对应的目标质心以外的每个目标质心的第二距离为例进行说明,具体的实现过程如下:
由上述可知,标签为m的字符特征对应的目标质心为m0,第一特征集合中除m0以外的目标质心包括t0,第二特征集合中除m0以外的目标质心包括m'0和t'0。因此,需要确定字符特征m1与目标质心m0的第一距离、字符特征m1与目标质心t0的第二距离、字符特征m1与目标质心m'0的第二距离以及字符特征m1与目标质心t'0的第二距离。
之后,根据softmax激活函数、字符特征m1与目标质心m0的第一距离和字符特征m1与目标质心t0的第二距离,确定出字符特征m1对应的源域数据的得分。根据softmax激活函数、字符特征m1与目标质心m'0的第二距离以及字符特征m1与目标质心t'0的第二距离,确定出字符特征m1对应的目标域数据的得分。
需要说明的,当前训练周期中其他的字符特征(如:字符特征m2-字符特征m5、字符特征t1-字符特征t4、字符特征m'1-字符特征m'5、字符特征t'1-字符特征t'4)计算得分的过程,与字符特征m1计算得分的过程类似,此处不再赘述。
S121、服务器根据每一类第一字符特征中每个第一字符特征的得分和每一类第二字符特征中每个第二字符特征的得分,确定相对熵散度。
在一些示例中,服务器根据每一类第一字符特征中每个第一字符特征的得分和每一类第二字符特征中每个第二字符特征的得分的相对熵(Kullback-Leibler,KL)散度,使得同一类字符特征中每个字符特征与同一类字符特征对应的目标质心的第一距离,和同一类字符特征中每个字符特征与除同一类字符特征对应的目标质心以外的每个目标质心的第二距离逐渐靠近。具体的,相对熵散度满足下述公式:
。
。
其中,Ps i表示第i个字符特征i对应的源域数据的得分,Pt i表示第i个字符特征对应的目标域数据的得分,DKL表示相对熵散度,表示当前训练周期中源域数据和目标域数据中包含的字符特征的总数。
在一些可实现的方式中,结合图1,如图3所示,本公开实施例提供的文本识别模型的训练方法还包括S14和S15。
S14、服务器获取源域数据。
在一些示例中,本公开实施例提供的文本识别模型的训练方法中,使用场景文本识别中通用的训练数据作为源域数据,如:将Synth90k数据集和SynthText数据集中的数据作为源域数据。
S15、服务器对源域数据进行目标操作,得到目标域数据。其中,目标操作包括高斯模糊和下采样中的一项或者多项。
在一些示例中,本公开实施例提供的文本识别模型的训练方法,通过对源域数据进行目标操作,从而可以得到目标域数据。由于目标域数据的分辨率低于源域数据的分辨率,因此可以模拟真实场景中模糊的文本图像。如:服务器对源域数据进行高斯模糊处理,得到目标域数据。或者,服务器对源域数据进行下采样处理,得到目标域数据。或者,服务器对源域数据进行高斯模糊处理,得到高斯模糊的数据。之后,服务器对高斯模糊的数据进行下采样处理,得到目标域数据。
下面介绍文本识别方法的处理过程:
如图6所示,本公开实施例示出的一种文本识别方法的流程图,该方法包括以下S20和S21。
S20、服务器获取待识别的文本图像。其中,文本图像的分辨率小于或等于预设阈值。
在一些示例中,本公开实施例提供的文本识别方法,通过源域数据和目标域数据对预设识别模型进行训练,从而得到文本识别模型。这样文本识别模型就可以对不同分辨率的文本图像进行识别,保证用户的体验。
S21、服务器将文本图像输入至预先配置的文本识别模型中,确定文本图像包含的文本内容。其中,文本识别模型通过上述示例中的文本识别模型的训练方法训练得到。
具体的,文本内容包括阿拉伯数字和字母。
上述主要从方法的角度对本发明实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例可以根据上述方法示例对服务器进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图7所示,本发明的实施例提供一种服务器10的结构示意图。服务器10包括处理单元101。
处理单元101,用于将源域数据和目标域数据输入至预设识别模型中进行识别,确定源域数据的第一识别结果、目标域数据的第二识别结果、源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合;其中,源域数据和目标域数据包括相同的文本内容,源域数据的分辨率大于目标域数据的分辨率;处理单元101,还用于对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中同一类的字符特征进行特征域适应,确定最大均值差异损失值;处理单元101,还用于对源域数据对应的第一字符特征集合,和目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度;处理单元101,还用于根据第一识别结果、第二识别结果、最大均值差异损失值和相对熵散度,对预设识别模型进行监督训练,直到预设识别模型收敛,得到文本识别模型。
在一些可实现的方式中,处理单元101,具体用于根据第一识别结果和第二识别结果,确定预设识别模型的识别损失值;处理单元101,具体用于根据识别损失值、最大均值差异损失值和相对熵散度,确定预设识别模型的实际损失值;处理单元101,具体用于在实际损失值大于或等于损失阈值的情况下,返回执行将源域数据和目标域数据输入至预设识别模型中进行识别,得到实际损失值,直到实际损失值小于损失阈值的情况下,确定预设识别模型收敛,得到文本识别模型。
在一些可实现的方式中,一类字符特征包括一个或者多个字符特征;处理单元101,具体用于根据第一字符特征集合,确定第一字符特征集合中每一类字符特征对应的目标质心;处理单元101,具体用于根据第二字符特征集合,确定第二字符特征集合中每一类字符特征对应的目标质心;处理单元101,具体用于根据第一字符特征集合中每一类字符特征对应的目标质心和第二字符特征集合中每一类字符特征对应的目标质心,确定最大均值差异损失值。
在一些可实现的方式中,文本识别模型的训练装置还包括获取单元102;针对同一类字符特征,确定同一类字符特征的目标质心的步骤如下:获取单元102,用于获取同一类字符特征中每一个字符特征对应的字符矩阵;处理单元101,还用于根据获取单元102获取的同一类字符特征中每一个字符特征对应的字符矩阵,确定同一类字符特征的目标质心。
在一些可实现的方式中,文本识别模型的训练装置还包括获取单元102;获取单元102,用于获取同一类字符特征在上一训练周期的目标质心,以及同一类字符特征在当前训练周期的候选质心;处理单元101,还用于根据获取单元102获取的同一类字符特征在上一训练周期的目标质心和获取单元102获取的同一类字符特征在当前训练周期的候选质心,确定同一类字符特征在当前训练周期目标质心。
在一些可实现的方式中,处理单元101,具体用于针对同一类字符特征,均执行如下操作:根据同一类字符特征对应的目标质心,确定同一类字符特征中每个字符特征与同一类字符特征对应的目标质心的第一距离,以及同一类字符特征中每个字符特征与除同一类字符特征对应的目标质心以外的每个目标质心的第二距离;根据目标激活函数、第一距离和第二距离,确定同一类字符特征中每个字符特征的得分;处理单元101,还用于根据每一类第一字符特征中每个第一字符特征的得分和每一类第二字符特征中每个第二字符特征的得分,确定相对熵散度。
在一些可实现的方式中,文本识别模型的训练装置还包括获取单元102;获取单元102,用于获取源域数据;处理单元101,用于对获取单元102获取的源域数据进行目标操作,得到目标域数据;其中,目标操作包括高斯模糊和下采样中的一项或者多项。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
当然,本发明实施例提供的服务器10包括但不限于上述模块,例如服务器10还可以包括存储单元103。存储单元103可以用于存储该写服务器10的程序代码,还可以用于存储写服务器10在运行过程中生成的数据,如写请求中的数据等。
图8为本发明实施例提供的一种服务器10的结构示意图,如图8所示,该服务器10可以包括:至少一个处理器51、存储器52、通信接口53和通信总线54。
下面结合图8对服务器10的各个构成部件进行具体的介绍:
其中,处理器51是服务器10的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器51是一个中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个DSP,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
在具体的实现中,作为一种实施例,处理器51可以包括一个或多个CPU,例如图8中所示的CPU0和CPU1。且,作为一种实施例,服务器10可以包括多个处理器,例如图8中所示的处理器51和处理器56。这些处理器中的每一个可以是一个单核处理器(Single-CPU),也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器52可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器52可以是独立存在,通过通信总线54与处理器51相连接。存储器52也可以和处理器51集成在一起。
在具体的实现中,存储器52,用于存储本发明中的数据和执行本发明的软件程序。处理器51可以通过运行或执行存储在存储器52内的软件程序,以及调用存储在存储器52内的数据,执行空调器的各种功能。
通信接口53,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如无线接入网(Radio Access Network,RAN),无线局域网(Wireless Local Area Networks,WLAN)、终端、云端等。通信接口53可以包括获取单元102,以实现获取功能。
通信总线54,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
作为一个示例,结合图7,服务器10中的获取单元102实现的功能与图8中的通信接口53的功能相同,处理单元101实现的功能与图8中的处理器51的功能相同,存储单元103实现的功能与图8中的存储器52的功能相同。
本发明另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述方法实施例所示的方法。
在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。
图9示意性地示出本发明实施例提供的计算机程序产品的概念性局部视图,所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
在一个实施例中,计算机程序产品是使用信号承载介质410来提供的。所述信号承载介质410可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图1描述的功能或者部分功能。因此,例如,参考图1中所示的实施例,S10-S13的一个或多个特征可以由与信号承载介质410相关联的一个或多个指令来承担。此外,图9中的程序指令也描述示例指令。
在一些示例中,信号承载介质410可以包含计算机可读介质411,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等等。
在一些实施方式中,信号承载介质410可以包含计算机可记录介质412,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。
在一些实施方式中,信号承载介质410可以包含通信介质413,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。
信号承载介质410可以由无线形式的通信介质413(例如,遵守IEEE 802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。
在一些示例中,诸如针对图1描述的写数据装置可以被配置为,响应于通过计算机可读介质411、计算机可记录介质412、和/或通信介质413中的一个或多个程序指令,提供各种操作、功能、或者动作。
如图10所示,本发明的实施例提供一种服务器20的结构示意图。服务器20包括获取单元201和处理单元202。
获取单元201,用于获取待识别的文本图像;其中,文本图像的分辨率小于或等于预设阈值;处理单元202,用于将获取单元201获取的文本图像输入至预先配置的文本识别模型中,确定文本图像包含的文本内容;其中,文本识别模型通过上述文本识别模型的训练方法训练得到。
其中,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,其作用在此不再赘述。
当然,本发明实施例提供的服务器20包括但不限于上述模块,例如服务器20还可以包括存储单元203。存储单元203可以用于存储该写服务器20的程序代码,还可以用于存储写服务器20在运行过程中生成的数据,如写请求中的数据等。
图11为本发明实施例提供的一种服务器20的结构示意图,如图11所示,该服务器20可以包括:至少一个处理器61、存储器62、通信接口63和通信总线64。
下面结合图11对服务器20的各个构成部件进行具体的介绍:
其中,处理器61是服务器20的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器61是一个中央处理器(Central Processing Unit,CPU),也可以是特定集成电路(Application Specific Integrated Circuit,ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路,例如:一个或多个DSP,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,FPGA)。
在具体的实现中,作为一种实施例,处理器61可以包括一个或多个CPU,例如图11中所示的CPU0和CPU1。且,作为一种实施例,服务器20可以包括多个处理器,例如图11中所示的处理器61和处理器66。这些处理器中的每一个可以是一个单核处理器(Single-CPU),也可以是一个多核处理器(Multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
存储器62可以是只读存储器(Read-Only Memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(Random Access Memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(ElectricallyErasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器62可以是独立存在,通过通信总线64与处理器61相连接。存储器62也可以和处理器61集成在一起。
在具体的实现中,存储器62,用于存储本发明中的数据和执行本发明的软件程序。处理器61可以通过运行或执行存储在存储器62内的软件程序,以及调用存储在存储器62内的数据,执行空调器的各种功能。
通信接口63,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如无线接入网(Radio Access Network,RAN),无线局域网(Wireless Local Area Networks,WLAN)、终端、云端等。通信接口63可以包括获取单元201,以实现获取功能。
通信总线64,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
作为一个示例,结合图10,服务器20中的获取单元201实现的功能与图11中的通信接口63的功能相同,处理单元202实现的功能与图11中的处理器61的功能相同,存储单元203实现的功能与图11中的存储器62的功能相同。
本发明另一实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述方法实施例所示的方法。
在一些实施例中,所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。
图12示意性地示出本发明实施例提供的计算机程序产品的概念性局部视图,所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
在一个实施例中,计算机程序产品是使用信号承载介质510来提供的。所述信号承载介质510可以包括一个或多个程序指令,其当被一个或多个处理器运行时可以提供以上针对图6描述的功能或者部分功能。因此,例如,参考图6中所示的实施例,S20和S21的一个或多个特征可以由与信号承载介质510相关联的一个或多个指令来承担。此外,图12中的程序指令也描述示例指令。
在一些示例中,信号承载介质510可以包含计算机可读介质511,诸如但不限于,硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体(read-only memory,ROM)或随机存储记忆体(random access memory,RAM)等等。
在一些实施方式中,信号承载介质510可以包含计算机可记录介质512,诸如但不限于,存储器、读/写(R/W)CD、R/W DVD、等等。
在一些实施方式中,信号承载介质510可以包含通信介质513,诸如但不限于,数字和/或模拟通信介质(例如,光纤电缆、波导、有线通信链路、无线通信链路、等等)。
信号承载介质510可以由无线形式的通信介质513(例如,遵守IEEE 802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是,例如,计算机可执行指令或者逻辑实施指令。
在一些示例中,诸如针对图6描述的写数据装置可以被配置为,响应于通过计算机可读介质511、计算机可记录介质512、和/或通信介质513中的一个或多个程序指令,提供各种操作、功能、或者动作。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种文本识别模型的训练方法,其特征在于,包括:
将源域数据和目标域数据输入至预设识别模型中进行识别,确定所述源域数据的第一识别结果、所述目标域数据的第二识别结果、所述源域数据对应的第一字符特征集合,和所述目标域数据对应的第二字符特征集合;其中,所述源域数据和所述目标域数据包括相同的文本内容,所述源域数据的分辨率大于所述目标域数据的分辨率,一类字符特征包括一个或者多个字符特征;
根据所述第一字符特征集合,确定所述第一字符特征集合中每一类字符特征对应的目标质心;
根据所述第二字符特征集合,确定所述第二字符特征集合中每一类字符特征对应的目标质心;
根据所述第一字符特征集合中每一类字符特征对应的目标质心和所述第二字符特征集合中每一类字符特征对应的目标质心,确定最大均值差异损失值;其中,所述目标质心基于所述同一类字符特征中每一个字符特征对应的字符矩阵确定的;
对所述源域数据对应的第一字符特征集合,和所述目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度;
根据所述第一识别结果、所述第二识别结果、所述最大均值差异损失值和所述相对熵散度,对所述预设识别模型进行监督训练,直到所述预设识别模型收敛,得到所述文本识别模型。
2.根据权利要求1所述的文本识别模型的训练方法,其特征在于,所述根据所述第一识别结果、所述第二识别结果、所述最大均值差异损失值和所述相对熵散度,对所述预设识别模型进行监督训练,直到所述预设识别模型收敛,得到所述文本识别模型,包括:
根据所述第一识别结果和所述第二识别结果,确定所述预设识别模型的识别损失值;
根据所述识别损失值、所述最大均值差异损失值和所述相对熵散度,确定所述预设识别模型的实际损失值;
在所述实际损失值大于或等于损失阈值的情况下,返回执行将源域数据和目标域数据输入至预设识别模型中进行识别,得到实际损失值,直到所述实际损失值小于所述损失阈值的情况下,确定所述预设识别模型收敛,得到所述文本识别模型。
3.根据权利要求1所述的文本识别模型的训练方法,其特征在于,针对同一类字符特征,确定所述同一类字符特征的目标质心的步骤如下:
获取所述同一类字符特征中每一个字符特征对应的字符矩阵;根据所述同一类字符特征中每一个字符特征对应的字符矩阵,确定所述同一类字符特征的目标质心。
4.根据权利要求3所述的文本识别模型的训练方法,其特征在于,所述方法还包括:
获取所述同一类字符特征在上一训练周期的目标质心,以及所述同一类字符特征在当前训练周期的候选质心;
根据所述同一类字符特征在上一训练周期的目标质心和所述同一类字符特征在当前训练周期的候选质心,确定所述同一类字符特征在当前训练周期目标质心。
5.根据权利要求1所述的文本识别模型的训练方法,其特征在于,所述对所述源域数据对应的第一字符特征集合,和所述目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度,包括:
针对同一类字符特征,均执行如下操作:根据所述同一类字符特征对应的目标质心,确定所述同一类字符特征中每个字符特征与所述同一类字符特征对应的目标质心的第一距离,以及所述同一类字符特征中每个字符特征与除所述同一类字符特征对应的目标质心以外的每个目标质心的第二距离;根据目标激活函数、所述第一距离和所述第二距离,确定所述同一类字符特征中每个字符特征的得分;
根据每一类所述第一字符特征中每个第一字符特征的得分和每一类所述第二字符特征中每个第二字符特征的得分,确定相对熵散度。
6.根据权利要求1所述的文本识别模型的训练方法,其特征在于,所述将源域数据和目标域数据输入至预设识别模型中进行识别之前,还包括:
获取源域数据;
对所述源域数据进行目标操作,得到所述目标域数据;其中,所述目标操作包括高斯模糊和下采样中的一项或者多项。
7.一种文本识别方法,其特征在于,包括:
获取待识别的文本图像;其中,所述文本图像的分辨率小于或等于预设阈值;
将所述文本图像输入至预先配置的文本识别模型中,确定所述文本图像包含的文本内容;其中,所述文本识别模型通过权利要求1-6任一项所述的方法训练得到。
8.一种文本识别模型的训练装置,其特征在于,包括:
处理单元,用于将源域数据和目标域数据输入至预设识别模型中进行识别,确定所述源域数据的第一识别结果、所述目标域数据的第二识别结果、所述源域数据对应的第一字符特征集合,和所述目标域数据对应的第二字符特征集合;其中,所述源域数据和所述目标域数据包括相同的文本内容,所述源域数据的分辨率大于所述目标域数据的分辨率,一类字符特征包括一个或者多个字符特征;
所述处理单元,还用于根据所述第一字符特征集合,确定所述第一字符特征集合中每一类字符特征对应的目标质心;
所述处理单元,还用于根据所述第二字符特征集合,确定所述第二字符特征集合中每一类字符特征对应的目标质心;
所述处理单元,还用于根据所述第一字符特征集合中每一类字符特征对应的目标质心和所述第二字符特征集合中每一类字符特征对应的目标质心,确定最大均值差异损失值;其中,所述目标质心基于所述同一类字符特征中每一个字符特征对应的字符矩阵确定的;
所述处理单元,还用于对所述源域数据对应的第一字符特征集合,和所述目标域数据对应的第二字符特征集合中每个字符特征进行字符特征适应,确定相对熵散度;
所述处理单元,还用于根据所述第一识别结果、所述第二识别结果、所述最大均值差异损失值和所述相对熵散度,对所述预设识别模型进行监督训练,直到所述预设识别模型收敛,得到所述文本识别模型。
9.一种文本识别装置,其特征在于,包括:
获取单元,用于获取待识别的文本图像;其中,所述文本图像的分辨率小于或等于预设阈值;
处理单元,用于将所述获取单元获取的所述文本图像输入至预先配置的文本识别模型中,确定所述文本图像包含的文本内容;其中,所述文本识别模型通过权利要求1-6任一项所述的方法训练得到。
10.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法的步骤,或者,实现权利要求7所述的方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法的步骤,或者,实现权利要求7所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210415275.6A CN114937267B (zh) | 2022-04-20 | 2022-04-20 | 文本识别模型的训练方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210415275.6A CN114937267B (zh) | 2022-04-20 | 2022-04-20 | 文本识别模型的训练方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114937267A CN114937267A (zh) | 2022-08-23 |
CN114937267B true CN114937267B (zh) | 2024-04-02 |
Family
ID=82862498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210415275.6A Active CN114937267B (zh) | 2022-04-20 | 2022-04-20 | 文本识别模型的训练方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937267B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667066A (zh) * | 2020-04-23 | 2020-09-15 | 北京旷视科技有限公司 | 网络模型的训练、文字识别方法、装置和电子设备 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN113283427A (zh) * | 2021-07-20 | 2021-08-20 | 北京世纪好未来教育科技有限公司 | 文本识别方法、装置、设备及介质 |
CN113807353A (zh) * | 2021-09-29 | 2021-12-17 | 中国平安人寿保险股份有限公司 | 图像转换模型训练方法、装置、设备及存储介质 |
CN113887535A (zh) * | 2021-12-03 | 2022-01-04 | 北京世纪好未来教育科技有限公司 | 模型训练方法、文本识别方法、装置、设备和介质 |
-
2022
- 2022-04-20 CN CN202210415275.6A patent/CN114937267B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN111667066A (zh) * | 2020-04-23 | 2020-09-15 | 北京旷视科技有限公司 | 网络模型的训练、文字识别方法、装置和电子设备 |
CN113283427A (zh) * | 2021-07-20 | 2021-08-20 | 北京世纪好未来教育科技有限公司 | 文本识别方法、装置、设备及介质 |
CN113807353A (zh) * | 2021-09-29 | 2021-12-17 | 中国平安人寿保险股份有限公司 | 图像转换模型训练方法、装置、设备及存储介质 |
CN113887535A (zh) * | 2021-12-03 | 2022-01-04 | 北京世纪好未来教育科技有限公司 | 模型训练方法、文本识别方法、装置、设备和介质 |
Non-Patent Citations (1)
Title |
---|
基于主动学习的半监督领域自适应方法研究;姚明海;黄展聪;;高技术通讯;20200815(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114937267A (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797893B (zh) | 一种神经网络的训练方法、图像分类系统及相关设备 | |
CN109145766B (zh) | 模型训练方法、装置、识别方法、电子设备及存储介质 | |
CN109284675B (zh) | 一种用户的识别方法、装置及设备 | |
US20090228510A1 (en) | Generating congruous metadata for multimedia | |
US20180276499A1 (en) | One shot color calibrated metric learning for object re-identification | |
Sagayam et al. | A probabilistic model for state sequence analysis in hidden Markov model for hand gesture recognition | |
CN111753863A (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN111985458A (zh) | 一种检测多目标的方法、电子设备及存储介质 | |
US20170161549A1 (en) | Processing Device and Method for Face Detection | |
CN112364916A (zh) | 基于迁移学习的图像分类方法、相关设备及存储介质 | |
Rehman et al. | Efficient coarser‐to‐fine holistic traffic sign detection for occlusion handling | |
JP2019220014A (ja) | 画像解析装置、画像解析方法及びプログラム | |
CN110991542A (zh) | 一种图像相似度确定方法、装置、设备及可读存储介质 | |
US9858293B2 (en) | Image processing apparatus and image processing method | |
US11354936B1 (en) | Incremental clustering for face recognition systems | |
CN114937267B (zh) | 文本识别模型的训练方法、装置和电子设备 | |
CN111753583A (zh) | 一种识别方法及装置 | |
CN113705643B (zh) | 一种目标物检测方法、装置以及电子设备 | |
Promsuk et al. | Numerical Reader System for Digital Measurement Instruments Embedded Industrial Internet of Things. | |
Seidenari et al. | Real-time demographic profiling from face imagery with Fisher vectors | |
CN115004245A (zh) | 目标检测方法、装置、电子设备和计算机存储介质 | |
Alhamazani et al. | [Retracted] Using Depth Cameras for Recognition and Segmentation of Hand Gestures | |
CN113139540A (zh) | 背板检测方法及设备 | |
CN113378707A (zh) | 对象识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |