CN113627262A - 文字识别方法、装置及设备 - Google Patents
文字识别方法、装置及设备 Download PDFInfo
- Publication number
- CN113627262A CN113627262A CN202110788604.7A CN202110788604A CN113627262A CN 113627262 A CN113627262 A CN 113627262A CN 202110788604 A CN202110788604 A CN 202110788604A CN 113627262 A CN113627262 A CN 113627262A
- Authority
- CN
- China
- Prior art keywords
- loss
- similarity
- character
- recognition model
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000002689 soil Substances 0.000 description 2
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
Abstract
一种文字识别方法、装置及设备,通过获取待识别的单个文字的图片;将图片输入至预先训练好的目标识别模型中,得到待识别的单个文字与文字库中的各个文字的相似度,在对目标识别模型进行训练时,采用相似度损失和分类损失确定目标识别模型是否收敛,相似度损失根据第一字形相似度信息和第二字形相似度信息确定,第一字形相似度信息通过目标识别模型得到,第二字形相似度信息通过预设算法得到,分类损失通过预设分类损失函数得到;将待识别的单个文字确定为最大相似度所对应的文字。由于上述损失函数由通过分类损失和判定两个字之间相似度的相似度损失得到,而相似度损失可以使目标识别模型关注文字的整体结构,从而提高了文字识别的准确度。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种文字识别方法、装置及设备。
背景技术
文字识别,是利用计算机自动识别字符的技术,是人工智能的一个重要领域。人们在生产和生活中,要处理大量的文字。通过文字识别技术,可以减轻人们的劳动,提高处理效率。
目前的文字识别算法一般直接根据文字图片,经过卷积神经网络等模型进行分类,并且卷积神经网络等模型一般采用分类的损失函数。如果仅含有分类的损失函数,卷积神经网络等模型容易关注文字的局部信息,在训练样本较少的时候容易出现过拟合的问题,从而导致文字识别的准确度较低。
发明内容
本发明实施例提供一种文字识别方法、装置及设备,用以提高文字识别的准确度。
根据第一方面,一种实施例中提供一种文字识别方法,所述方法包括:
获取待识别的单个文字的图片;
将所述图片输入至预先训练好的目标识别模型中,得到所述待识别的单个文字与文字库中的各个文字的相似度;
将所述待识别的单个文字确定为最大相似度所对应的文字;
其中,训练所述目标识别模型,包括:
获取多个样本图片,其中,每个样本图片包括单个文字;
将所述每个样本图片输入至初始识别模型中,得到所述每个样本图片包括的单个文字的第一特征向量;
通过余弦距离公式,根据所述第一特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第一字形相似度信息;
通过预设算法得到第二字形相似度信息,并根据所述第一字形相似度信息和所述第二字形相似度信息,得到相似度损失;
根据所述相似度损失和分类损失,确定组合损失,其中,所述分类损失通过预设分类损失函数得到;
根据所述组合损失,对所述初始识别模型的参数进行调整,以得到更新的识别模型;
针对所述更新的识别模型,迭代上述训练过程,直至所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数,并将所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数所对应的识别模型作为所述目标识别模型。
可选的,所述通过预设算法得到第二字形相似度信息,包括:
分别将任意两个样本图片缩放至预设尺寸;
分别对缩放后的样本图片进行划分,得到每个样本图片包括的单个文字的第二特征向量;
通过余弦距离公式,根据所述第二特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第二字形相似度信息。
可选的,在所述分别将任意两个样本图片缩放至预设尺寸之前,所述方法还包括:
分别对任一样本图片进行裁切,以使所述单个文字与裁切后的样本图片边框的距离小于第二预设阈值。
可选的,所述相似度损失通过下述公式得到:
其中,N为样本图片的数量,Loss_Sim为所述相似度损失,Simgt为所述第二字形相似度信息,Sim_pd为所述第一字形相似度信息。
可选的,所述组合损失通过下述公式得到:
其中,Loss为所述组合损失,Loss_Cls为所述分类损失。
可选的,所述预设分类损失函数为交叉熵损失函数。
根据第二方面,一种实施例中提供一种文字识别装置,所述装置包括:
第一获取模块,用于获取待识别的单个文字的图片;
第二获取模块,用于将所述图片输入至预先训练好的目标识别模型中,得到所述待识别的单个文字与文字库中的各个文字的相似度;
确定模块,用于将所述待识别的单个文字确定为最大相似度所对应的文字;
训练模块,用于获取多个样本图片,其中,每个样本图片包括单个文字;将所述每个样本图片输入至初始识别模型中,得到所述每个样本图片包括的单个文字的第一特征向量;通过余弦距离公式,根据所述第一特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第一字形相似度信息;通过预设算法得到第二字形相似度信息,并根据所述第一字形相似度信息和所述第二字形相似度信息,得到相似度损失;根据所述相似度损失和分类损失,确定组合损失,其中,所述分类损失通过预设分类损失函数得到;根据所述组合损失,对所述初始识别模型的参数进行调整,以得到更新的识别模型;针对所述更新的识别模型,迭代上述训练过程,直至所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数,并将所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数所对应的识别模型作为所述目标识别模型。
可选的,所述训练模块,具体用于分别将任意两个样本图片缩放至预设尺寸;分别对缩放后的样本图片进行划分,得到每个样本图片包括的单个文字的第二特征向量;通过余弦距离公式,根据所述第二特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第二字形相似度信息。
可选的,所述训练模块,还用于分别对任一样本图片进行裁切,以使所述单个文字与裁切后的样本图片边框的距离小于第二预设阈值。
可选的,所述相似度损失通过下述公式得到:
其中,N为样本图片的数量,Loss_Sim为所述相似度损失,Simgt为所述第二字形相似度信息,Sim_pd为所述第一字形相似度信息。
可选的,所述组合损失通过下述公式得到:
其中,Loss为所述组合损失,Loss_Cls为所述分类损失。
可选的,所述预设分类损失函数为交叉熵损失函数。
根据第三方面,一种实施例中提供一种电子设备,包括:存储器,用于存储程序;处理器,用于通过执行所述存储器存储的程序以实现上述第一方面中任一项所述的文字识别方法。
根据第四方面,一种实施例中提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现上述第一方面中任一项所述的文字识别方法。
本发明实施例提供一种文字识别方法、装置及设备,通过获取待识别的单个文字的图片;将图片输入至预先训练好的目标识别模型中,得到待识别的单个文字与文字库中的各个文字的相似度,其中,在对目标识别模型进行训练时,采用相似度损失和分类损失确定目标识别模型是否收敛,相似度损失根据第一字形相似度信息和第二字形相似度信息确定,第一字形相似度信息通过目标识别模型得到,第二字形相似度信息通过预设算法得到,分类损失通过预设分类损失函数得到;将待识别的单个文字确定为最大相似度所对应的文字。由于本发明的损失函数由两部分构成,一部分为通过预设分类损失函数得到的分类损失,另一部分为判定两个字之间相似度的相似度损失,而相似度损失可以使目标识别模型关注文字的整体结构,从而提高了文字识别的准确度。
附图说明
图1为本发明实施例提供的一种目标识别模型的训练方法的流程示意图;
图2为本发明实施例提供的一种文字识别方法的流程示意图;
图3为本发明实施例提供的一种得到第二字形相似度信息的流程示意图;
图4为本发明实施例提供的一种划分后的文字图片的示意图;
图5为本发明实施例提供的一种文字识别装置的结构示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
由于目前的文字识别算法一般直接根据文字图片,经过卷积神经网络等模型进行分类,并且卷积神经网络等模型一般采用分类的损失函数,如果仅含有分类的损失函数,卷积神经网络等模型容易关注文字的局部信息,在训练样本较少的时候容易出现过拟合的问题,从而导致文字识别的准确度较低。为了提高文字识别的准确度,本发明实施例提供了一种文字识别方法、装置及设备,以下分别进行详细说明。并且,下述各方法的执行主体可以为任意具有处理能力的设备。
在介绍本发明实施例提供的文字识别方法之前,先对目标识别模型的训练方法进行说明。图1为本发明实施例提供的一种目标识别模型的训练方法的流程示意图,如图1所示,本发明实施例的方法可以包括:
S101,获取多个样本图片。
其中,每个样本图片仅包括单个文字。
S102,将每个样本图片输入至初始识别模型中,得到每个样本图片包括的单个文字的第一特征向量。
在每一次的模型训练中,识别模型的最后一个隐藏层的输出向量即为第一特征向量。
S103,通过余弦距离公式,根据第一特征向量,计算任意两个单个文字的相似度,并对得到的多个相似度进行求和运算,得到第一字形相似度信息。
此时,已经通过识别模型得到了所有样本图片对应的单个文字的第一特征向量,并且,两两经过余弦距离公式计算字形相似度,并进行求和运算,得到第一字形相似度信息。
S104,通过预设算法得到第二字形相似度信息,并根据第一字形相似度信息和第二字形相似度信息,得到相似度损失。
具体的,相似度损失可以通过下述公式(1)得到:
其中,N为样本图片的数量,Loss_Sim为相似度损失,Sim_gt为第二字形相似度信息,Sim_pd为第一字形相似度信息。
S105,根据相似度损失和分类损失,确定组合损失。
具体的,分类损失可以通过预设分类损失函数得到,例如,预设分类损失函数可以为交叉熵损失函数。那么,分类损失可以通过下述公式(2)得到:
具体的,组合损失即为上述提到的损失函数,组合损失可以通过下述公式(3)得到:
其中,Loss为组合损失。
S106,根据组合损失,对初始识别模型的参数进行调整,以得到更新的识别模型。
S107,针对更新的识别模型,迭代上述训练过程,直至组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数,并将组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数所对应的识别模型作为目标识别模型。
本发明实施例提供的目标识别模型的训练方法,由于本发明的组合损失由两部分构成,一部分为通过预设分类损失函数得到的分类损失,另一部分为判定两个字之间相似度的相似度损失,而相似度损失可以使目标识别模型关注文字的整体结构,从而提高了目标识别模型识别文字的准确度。
图2为本发明实施例提供的一种文字识别方法的流程示意图,如图2所示,本实施例提供的文字识别方法可以包括:
S201,获取待识别的单个文字的图片。
可选的,可以利用字体文件,生成预设格式的仅包括单个字的图片,其中,预设格式需要可以明显区分图片中的背景和文字,例如预设格式可以为“白底黑字”。
可选的,针对现有的通过手写或者拍摄得到的文字图片,也可以提取该类文字图片的图片背景,并将图片背景设置为可以与文字明显区分的格式,例如,当前文字为黑色,那么可以将背景设置为白色。
S202,将图片输入至预先训练好的目标识别模型中,得到待识别的单个文字与文字库中的各个文字的相似度,其中,在对目标识别模型进行训练时,采用相似度损失和分类损失确定损失函数。
具体的,通过上述图1所示的模型训练方法就可以得到本实施例的目标识别模型。该目标识别模型的输出层可以输出待识别的单个文字与文字库中的各个文字的相似度。
S203,将待识别的单个文字确定为最大相似度所对应的文字。
例如,假设文字库中包括20000个文字,当前待识别的单个文字与文字库中的文字“土”的相似度最大,那么可以确定当前待识别的单个文字为“土”。
本发明实施例提供的文字识别方法,通过获取待识别的单个文字的图片;将图片输入至预先训练好的目标识别模型中,得到待识别的单个文字与文字库中的各个文字的相似度,其中,在对目标识别模型进行训练时,采用相似度损失和分类损失确定目标识别模型是否收敛,相似度损失根据第一字形相似度信息和第二字形相似度信息确定,第一字形相似度信息通过目标识别模型得到,第二字形相似度信息通过预设算法得到,分类损失通过预设分类损失函数得到;将待识别的单个文字确定为最大相似度所对应的文字。由于本发明的损失函数由两部分构成,一部分为通过预设分类损失函数得到的分类损失,另一部分为判定两个字之间相似度的相似度损失,而相似度损失可以使目标识别模型关注文字的整体结构,从而提高了文字识别的准确度。
图3为本发明实施例提供的一种得到第二字形相似度信息的流程示意图,如图3所示,包括:
S301,分别将同一个训练批次内的任意两个样本图片缩放至预设尺寸。
上述同一个训练批次指的是在每一次模型训练的过程中,图1对应的实施例的样本图片与本实施的样本图片是相同的。即,在每一次模型训练的过程中,可以通过识别模型,对同一训练批次的样本图片进行处理,得到第一字形相似度信息;同时,也可以通过预设算法,对同一训练批次的样本图片进行处理,得到第二字形相似度信息。
由于获取到的各个样本图片的像素可能是不同的,因此需要将矩形文字图片缩放为a乘b像素的文字图片。其中,a、b可根据实际情况设置,需保证通过缩放后的图片可以识别该文字,比如a、b都取100。
S302,分别对缩放后的样本图片进行划分,得到每个样本图片包括的单个文字的第二特征向量。
具体实现时,可以将文字图片划分为c乘d的格子。其中,可以根据需要识别的精度来设置c和d。c和d设置越大,相似度计算越精确,但是计算所需时间越多,因此可以根据实际情况调整,比如c,d都取10,从而将文字图片划分为100个格子。并且,若格子内包含非白色的像素,则该格子为“1”,否则为“0”,从而生成了文字对应的向量。如图4所示,图4为划分后的“大”、“太”和“士”分别对应的文字图片的示意图。通过上述划分,可以得到“大”字对应的第二特征向量为:0000110000000011000000001100111111111111000011000000001110000001111000000110110000100001111100000011;“太”字对应的第二特征向量为:0000110000000011000000001100111111111111000011100000001110000001101100000111111000101101111100000011;“士”字对应的第二特征向量为:0000110000000011000000001100000000110011111111111100001100000000110000000011000000001101100111111111。
S303,通过余弦距离公式,根据第二特征向量,计算任意两个单个文字的相似度,并对得到的多个相似度进行求和运算,得到第二字形相似度信息。
此时,已经通过上述预设算法得到了所有样本图片对应的单个文字的第二特征向量,并且,两两经过余弦距离公式计算字形相似度,并进行求和运算,得到第二字形相似度信息。例如,将文字图片划分为100个格子后生成了文字对应的100维度的第二特征向量,通过余弦距离公式计算两个字x和y的相似度,如下述公式(4)所示:
例如,通过上述公式(4)可以得到:“大”和“太”的相似度为0.917;“大”和“士”的相似度为0.564。
可选的,在上述S301之前,上述文字识别方法还可以包括:分别对任一样本图片进行裁切,以使单个文字与裁切后的样本图片边框的距离小于第二预设阈值。例如,假设样本图片为白底黑字的图片,可以对图片四周的白边进行裁切,从而有助于去除图片中多余的背景元素。
图5为本发明实施例提供的一种文字识别装置的结构示意图,如图5所示,该文字识别装置50可以包括:
第一获取模块510,可以用于获取待识别的单个文字的图片。
第二获取模块520,可以用于将图片输入至预先训练好的目标识别模型中,得到待识别的单个文字与文字库中的各个文字的相似度。
确定模块530,可以用于将待识别的单个文字确定为最大相似度所对应的文字。
训练模块540,可以用于获取多个样本图片,其中,每个样本图片包括单个文字;将每个样本图片输入至初始识别模型中,得到每个样本图片包括的单个文字的第一特征向量;通过余弦距离公式,根据第一特征向量,计算任意两个单个文字的相似度,并对得到的多个相似度进行求和运算,得到第一字形相似度信息;通过预设算法得到第二字形相似度信息,并根据第一字形相似度信息和第二字形相似度信息,得到相似度损失;根据相似度损失和分类损失,确定组合损失,其中,分类损失通过预设分类损失函数得到;根据组合损失,对初始识别模型的参数进行调整,以得到更新的识别模型;针对更新的识别模型,迭代上述训练过程,直至组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数,并将组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数所对应的识别模型作为目标识别模型。
本发明实施例提供的文字识别装置,通过第一获取模块,获取待识别的单个文字的图片;通过训练模块,得到训练好的目标识别模型,其中,在对目标识别模型进行训练时,采用相似度损失和分类损失确定目标识别模型是否收敛,相似度损失根据第一字形相似度信息和第二字形相似度信息确定,第一字形相似度信息通过目标识别模型得到,第二字形相似度信息通过预设算法得到,分类损失通过预设分类损失函数得到;通过第二获取模块,将图片输入至预先训练好的目标识别模型中,得到待识别的单个文字与文字库中的各个文字的相似度;通过确定模块,将待识别的单个文字确定为最大相似度所对应的文字。由于本发明的损失函数由两部分构成,一部分为通过预设分类损失函数得到的分类损失,另一部分为判定两个字之间相似度的相似度损失,而相似度损失可以使目标识别模型关注文字的整体结构,从而提高了文字识别的准确度。
可选的,上述训练模块540,可以具体用于分别将任意两个样本图片缩放至预设尺寸;分别对缩放后的样本图片进行划分,得到每个样本图片包括的单个文字的第二特征向量;通过余弦距离公式,根据第二特征向量,计算任意两个单个文字的相似度,并对得到的多个相似度进行求和运算,得到第二字形相似度信息。
可选的,上述训练模块540,还可以用于分别对任一样本图片进行裁切,以使单个文字与裁切后的样本图片边框的距离小于第二预设阈值。
可选的,预设分类损失函数可以为交叉熵损失函数。
另外,相应于上述实施例所提供的文字识别方法,本发明实施例还提供了一种电子设备,该电子设备可以包括:存储器,用于存储程序;处理器,用于通过执行存储器存储的程序以实现本发明实施例提供的文字识别方法的所有步骤。
另外,相应于上述实施例所提供的文字识别方法,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时实现本发明实施例的文字识别方法的所有步骤。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (10)
1.一种文字识别方法,其特征在于,所述方法包括:
获取待识别的单个文字的图片;
将所述图片输入至预先训练好的目标识别模型中,得到所述待识别的单个文字与文字库中的各个文字的相似度;
将所述待识别的单个文字确定为最大相似度所对应的文字;
其中,训练所述目标识别模型,包括:
获取多个样本图片,其中,每个样本图片包括单个文字;
将所述每个样本图片输入至初始识别模型中,得到所述每个样本图片包括的单个文字的第一特征向量;
通过余弦距离公式,根据所述第一特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第一字形相似度信息;
通过预设算法得到第二字形相似度信息,并根据所述第一字形相似度信息和所述第二字形相似度信息,得到相似度损失;
根据所述相似度损失和分类损失,确定组合损失,其中,所述分类损失通过预设分类损失函数得到;
根据所述组合损失,对所述初始识别模型的参数进行调整,以得到更新的识别模型;
针对所述更新的识别模型,迭代上述训练过程,直至所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数,并将所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数所对应的识别模型作为所述目标识别模型。
2.如权利要求1所述的方法,其特征在于,所述通过预设算法得到第二字形相似度信息,包括:
分别将任意两个样本图片缩放至预设尺寸;
分别对缩放后的样本图片进行划分,得到每个样本图片包括的单个文字的第二特征向量;
通过余弦距离公式,根据所述第二特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第二字形相似度信息。
3.如权利要求2所述的方法,其特征在于,在所述分别将任意两个样本图片缩放至预设尺寸之前,所述方法还包括:
分别对任一样本图片进行裁切,以使所述单个文字与裁切后的样本图片边框的距离小于第二预设阈值。
6.如权利要求1所述的方法,其特征在于,所述预设分类损失函数为交叉熵损失函数。
7.一种文字识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别的单个文字的图片;
第二获取模块,用于将所述图片输入至预先训练好的目标识别模型中,得到所述待识别的单个文字与文字库中的各个文字的相似度;
确定模块,用于将所述待识别的单个文字确定为最大相似度所对应的文字;
训练模块,用于获取多个样本图片,其中,每个样本图片包括单个文字;将所述每个样本图片输入至初始识别模型中,得到所述每个样本图片包括的单个文字的第一特征向量;通过余弦距离公式,根据所述第一特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第一字形相似度信息;通过预设算法得到第二字形相似度信息,并根据所述第一字形相似度信息和所述第二字形相似度信息,得到相似度损失;根据所述相似度损失和分类损失,确定组合损失,其中,所述分类损失通过预设分类损失函数得到;根据所述组合损失,对所述初始识别模型的参数进行调整,以得到更新的识别模型;针对所述更新的识别模型,迭代上述训练过程,直至所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数,并将所述组合损失小于第一预设阈值或者迭代次数大于预设训练迭代次数所对应的识别模型作为所述目标识别模型。
8.如权利要求7所述的装置,其特征在于,所述训练模块,具体用于分别将任意两个样本图片缩放至预设尺寸;分别对缩放后的样本图片进行划分,得到每个样本图片包括的单个文字的第二特征向量;通过余弦距离公式,根据所述第二特征向量,计算任意两个所述单个文字的相似度,并对得到的多个相似度进行求和运算,得到第二字形相似度信息。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1-6中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110788604.7A CN113627262A (zh) | 2021-07-13 | 2021-07-13 | 文字识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110788604.7A CN113627262A (zh) | 2021-07-13 | 2021-07-13 | 文字识别方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113627262A true CN113627262A (zh) | 2021-11-09 |
Family
ID=78379606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110788604.7A Pending CN113627262A (zh) | 2021-07-13 | 2021-07-13 | 文字识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113627262A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092940A (zh) * | 2021-11-24 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 识别图像中字符的方法及装置 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010016660A (ja) * | 2008-07-04 | 2010-01-21 | Sony Corp | シーンチェンジ検出装置、シーンチェンジ検出方法およびプログラム |
KR101491832B1 (ko) * | 2014-05-23 | 2015-02-12 | 동국대학교 산학협력단 | 영상 선택 장치 및 방법 |
JP2017027363A (ja) * | 2015-07-22 | 2017-02-02 | 株式会社リコー | 映像処理装置、映像処理方法、及びプログラム |
KR20180125905A (ko) * | 2017-05-16 | 2018-11-26 | 삼성전자주식회사 | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 |
CN109241985A (zh) * | 2017-07-11 | 2019-01-18 | 普天信息技术有限公司 | 一种图像识别方法及装置 |
CN109753608A (zh) * | 2019-01-11 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 确定用户标签的方法、自编码网络的训练方法及装置 |
CN110059157A (zh) * | 2019-03-18 | 2019-07-26 | 华南师范大学 | 一种图文跨模态检索方法、系统、装置和存储介质 |
CN110503054A (zh) * | 2019-08-27 | 2019-11-26 | 广东工业大学 | 文本图像的处理方法及装置 |
EP3582150A1 (en) * | 2018-06-13 | 2019-12-18 | Fujitsu Limited | Method of knowledge transferring, information processing apparatus and storage medium |
KR20200000824A (ko) * | 2018-06-25 | 2020-01-03 | 한국과학기술원 | 중심 분산 손실 함수를 활용한 딥 러닝 모델 기반의 얼굴 표정 인식 방법 |
CN111444907A (zh) * | 2020-03-24 | 2020-07-24 | 上海东普信息科技有限公司 | 文字识别的方法、装置、设备及存储介质 |
CN111881764A (zh) * | 2020-07-01 | 2020-11-03 | 深圳力维智联技术有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
CN112241626A (zh) * | 2020-10-14 | 2021-01-19 | 网易(杭州)网络有限公司 | 一种语义匹配、语义相似度模型训练方法及装置 |
CN112288018A (zh) * | 2020-10-30 | 2021-01-29 | 北京市商汤科技开发有限公司 | 文字识别网络的训练方法、文字识别方法和装置 |
CN112686243A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 智能识别图片文字的方法、装置、计算机设备及存储介质 |
CN112862024A (zh) * | 2021-04-28 | 2021-05-28 | 明品云(北京)数据科技有限公司 | 一种文本识别方法及系统 |
-
2021
- 2021-07-13 CN CN202110788604.7A patent/CN113627262A/zh active Pending
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010016660A (ja) * | 2008-07-04 | 2010-01-21 | Sony Corp | シーンチェンジ検出装置、シーンチェンジ検出方法およびプログラム |
KR101491832B1 (ko) * | 2014-05-23 | 2015-02-12 | 동국대학교 산학협력단 | 영상 선택 장치 및 방법 |
JP2017027363A (ja) * | 2015-07-22 | 2017-02-02 | 株式会社リコー | 映像処理装置、映像処理方法、及びプログラム |
KR20180125905A (ko) * | 2017-05-16 | 2018-11-26 | 삼성전자주식회사 | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 |
CN109241985A (zh) * | 2017-07-11 | 2019-01-18 | 普天信息技术有限公司 | 一种图像识别方法及装置 |
EP3582150A1 (en) * | 2018-06-13 | 2019-12-18 | Fujitsu Limited | Method of knowledge transferring, information processing apparatus and storage medium |
KR20200000824A (ko) * | 2018-06-25 | 2020-01-03 | 한국과학기술원 | 중심 분산 손실 함수를 활용한 딥 러닝 모델 기반의 얼굴 표정 인식 방법 |
CN109753608A (zh) * | 2019-01-11 | 2019-05-14 | 腾讯科技(深圳)有限公司 | 确定用户标签的方法、自编码网络的训练方法及装置 |
CN110059157A (zh) * | 2019-03-18 | 2019-07-26 | 华南师范大学 | 一种图文跨模态检索方法、系统、装置和存储介质 |
CN110503054A (zh) * | 2019-08-27 | 2019-11-26 | 广东工业大学 | 文本图像的处理方法及装置 |
CN111444907A (zh) * | 2020-03-24 | 2020-07-24 | 上海东普信息科技有限公司 | 文字识别的方法、装置、设备及存储介质 |
CN111881764A (zh) * | 2020-07-01 | 2020-11-03 | 深圳力维智联技术有限公司 | 一种目标检测方法、装置、电子设备及存储介质 |
CN112241626A (zh) * | 2020-10-14 | 2021-01-19 | 网易(杭州)网络有限公司 | 一种语义匹配、语义相似度模型训练方法及装置 |
CN112288018A (zh) * | 2020-10-30 | 2021-01-29 | 北京市商汤科技开发有限公司 | 文字识别网络的训练方法、文字识别方法和装置 |
CN112686243A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 智能识别图片文字的方法、装置、计算机设备及存储介质 |
CN112862024A (zh) * | 2021-04-28 | 2021-05-28 | 明品云(北京)数据科技有限公司 | 一种文本识别方法及系统 |
Non-Patent Citations (5)
Title |
---|
TAEHO JO: "Using K Nearest Neighbors for text segmentation with feature similarity", 《 2017 INTERNATIONAL CONFERENCE ON COMMUNICATION, CONTROL, COMPUTING AND ELECTRONICS ENGINEERING (ICCCCEE)》, 31 January 2017 (2017-01-31), pages 1 - 5, XP033071800, DOI: 10.1109/ICCCCEE.2017.7866706 * |
李进: "基于深度学习的文本识别算法的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2021, 15 May 2021 (2021-05-15), pages 138 - 1676 * |
汤艳君 等: "利用Doc2Vec及改进K-means聚类实现文本取证分析", 《中国刑警学院学报》, no. 04, 20 August 2020 (2020-08-20), pages 115 - 121 * |
贾建忠: "偏旁部首和笔画特征混合的离线中文笔迹鉴别", 《信息技术》, vol. 44, no. 08, 19 August 2020 (2020-08-19), pages 60 - 64 * |
马永成 等: "基于内容的文档图像检索的特征抽取研究", 《江西师范大学学报(自然科学版)》, no. 02, 15 April 2008 (2008-04-15), pages 138 - 141 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092940A (zh) * | 2021-11-24 | 2022-02-25 | 支付宝(杭州)信息技术有限公司 | 识别图像中字符的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633745B (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
CN110163234B (zh) | 一种模型训练方法、装置和存储介质 | |
EP3979200A1 (en) | Video target tracking method and apparatus, computer device and storage medium | |
US20190279014A1 (en) | Method and apparatus for detecting object keypoint, and electronic device | |
US20140193077A1 (en) | Image retrieval apparatus, image retrieval method, query image providing apparatus, query image providing method, and program | |
CN110032998B (zh) | 自然场景图片的文字检测方法、系统、装置和存储介质 | |
CN111814902A (zh) | 目标检测模型训练方法、目标识别方法、装置和介质 | |
CN108491794B (zh) | 面部识别的方法和装置 | |
EP2701098A2 (en) | Region refocusing for data-driven object localization | |
US10565713B2 (en) | Image processing apparatus and method | |
CN112163120A (zh) | 一种分类方法、终端及计算机存储介质 | |
CN113111716B (zh) | 一种基于深度学习的遥感影像半自动标注方法和装置 | |
US8750604B2 (en) | Image recognition information attaching apparatus, image recognition information attaching method, and non-transitory computer readable medium | |
CN111553182A (zh) | 一种船只检索方法、装置及电子设备 | |
CN115731422A (zh) | 多标签分类模型的训练方法、分类方法及装置 | |
KR101752742B1 (ko) | 가우시안 스케일 공간 생성 단순화를 기반으로 한 특징점 추출 방법 및 장치 | |
CN112884147A (zh) | 神经网络训练方法、图像处理方法、装置及电子设备 | |
CN116089648A (zh) | 基于人工智能的档案管理系统及方法 | |
CN113627262A (zh) | 文字识别方法、装置及设备 | |
CN111149101A (zh) | 一种目标图案查找方法及计算机可读存储介质 | |
CN112241736A (zh) | 一种文本检测的方法及装置 | |
CN112560856A (zh) | 车牌检测识别方法、装置、设备及存储介质 | |
CN111461239A (zh) | Ctc场景文字识别模型的白盒攻击方法 | |
CN115984671A (zh) | 模型在线更新方法、装置、电子设备及可读存储介质 | |
US11948391B2 (en) | Model training method and apparatus, electronic device and readable storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |