CN113673544A - 一种相似字体的确定方法、装置、电子设备及存储介质 - Google Patents
一种相似字体的确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113673544A CN113673544A CN202010400808.4A CN202010400808A CN113673544A CN 113673544 A CN113673544 A CN 113673544A CN 202010400808 A CN202010400808 A CN 202010400808A CN 113673544 A CN113673544 A CN 113673544A
- Authority
- CN
- China
- Prior art keywords
- image
- target
- font
- character
- rectangular frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims description 62
- 238000012545 processing Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明实施例提供了一种相似字体的确定方法、装置、电子设备及存储介质,所述方法包括:获取目标图像,其中,目标图像中包括目标字符;确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征;对目标图像进行字符识别,得到目标图像中包括的目标字符;从预先建立的字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征,其中,字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;基于目标特征与每个候选特征的相似度,确定目标字符的相似字体。应用本发明实施例,可以使应用相似字体的字符的外观与目标字符的外观更加接近。
Description
技术领域
本发明涉及图像处理技术领域,特别是涉及一种相似字体的确定方法、装置、电子设备及存储介质。
背景技术
用户在文档撰写、图像编辑等过程中,可能会存在使用与目标字体相同或相似字体的需求,例如,用户在看到一张图像中字符A后,可能想要使用与字符A的字体相同或相似的字体。当由于字体版权等原因导致用户无法使用与目标字体相同的字体时,为了满足用户的需求,需要确定与目标字体相似的字体,进而将该相似的字体推荐给用户使用。
目前的相似字体的确定方式是基于字体分类实现的。具体来说,电子设备首先获取包含目标字符的待处理图像,然后将待处理图像输入字体分类模型,根据待处理图像的图像特征进行字体分类,确定待处理图像中的目标字符的字体类别,进而将该字体类别中包括的字体中的一种字体确定为目标字体的相似字体。其中,同一字体类别包括的各种字体为相似的字体。
在上述相似字体的确定方式中,同一字体类别包括的相似字体为预先设置的。但是,对于不同的字符,在应用同一字体类别包括的字体时其外观可能会出现较大差异,例如,宋体与仿宋体属于同一字体类别,但是对于不同字符,应用宋体时的外观和应用仿宋体时的外观差异可能较大,例如,宋体的“我”字与仿宋体的“我”字外观差异较大,反而宋体的“我”字与楷体的“我”字外观差异较小,但宋体与楷体并不属于同一字体类别。在这种情况下,上述相似字体确定方式所确定的相似字体,应用于字符后,该字符的外观很可能与目标字符的外观差异较大。
发明内容
本发明实施例的目的在于提供一种相似字体的确定方法、装置、电子设备及存储介质,以使应用相似字体的字符的外观与目标字符的外观更加接近。具体技术方案如下:
第一方面,本发明实施例提供了一种相似字体的确定方法,所述方法包括:
获取目标图像,其中,所述目标图像中包括目标字符;
确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征;
对所述目标图像进行字符识别,得到所述目标图像中包括的目标字符;
从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征,其中,所述字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;
基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体。
可选的,所述确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征的步骤,包括:
对所述目标图像进行二值化处理,得到二值化图像;
根据所述二值化图像中像素点的像素值,确定所述二值化图像中所述目标字符的外接矩形框区域;
基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征。
可选的,所述字体特征数据库的建立方式包括:
获取多个图像样本,其中,所述图像样本为各种字体的各字符的图像;
对每个所述图像样本进行二值化处理,得到二值化图像样本;
根据每个所述二值化图像样本中像素点的像素值,确定每个所述二值化图像样本包括的字符的外接矩形框区域;
基于每个所述外接矩形框区域中每行或每列像素点的像素值,确定每个所述外接矩形框区域的图像特征,作为每个所述图像样本对应的字体图像特征;
将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到所述字体特征数据库。
可选的,所述将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到字体特征数据库的步骤,包括:
按照预设的字体顺序,将包含相同字符的所述图像样本对应的字体图像特征作为元素,组成包含相同字符的所述图像样本对应的行向量或列向量;
按照预设的字符顺序,将所述行向量或所述列向量组成字体图像特征矩阵,得到所述字体特征数据库;
所述从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征的步骤,包括:
从所述字体图像特征矩阵中查找所述目标字符对应的向量,作为候选特征。
可选的,在所述基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征的步骤之前,所述方法还包括:
通过下采样或插值的方式将所述外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量;
在所述基于每个所述外接矩形框区域样本中每行或每列像素点的像素值,确定每个所述外接矩形框区域样本的图像特征,作为每个所述图像样本对应的字体图像特征的步骤之前,所述方法还包括:
通过下采样或插值的方式将所述外接矩形框区域样本中像素点的行及列数量分别调整至对应的预设数量。
可选的,所述目标图像为用户提供的图像;
在所述基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体的步骤之后,所述方法还包括:
向所述用户推荐所述相似字体。
第二方面,本发明实施例提供了一种相似字体的确定装置,所述装置包括:
图像获取模块,用于获取目标图像,其中,所述目标图像中包括目标字符;
目标特征确定模块,用于确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征;
字符识别模块,用于对所述目标图像进行字符识别,得到所述目标图像中包括的目标字符;
候选特征确定模块,用于从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征,其中,所述字体特征数据库为通过数据库建立模块建立的,包括各个字符与各种字体的该字符的图像的图像特征的对应关系;
相似字体确定模块,用于基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体。
可选的,所述目标特征确定模块包括:
第一二值化处理子模块,用于对所述目标图像进行二值化处理,得到二值化图像;
第一矩形框区域确定子模块,用于根据所述二值化图像中像素点的像素值,确定所述二值化图像中所述目标字符的外接矩形框区域;
目标特征确定子模块,用于基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征。
可选的,所述数据库建立模块包括:
图像样本获取子模块,用于获取多个图像样本,其中,所述图像样本为各种字体的各字符的图像;
第二二值化处理子模块,用于对每个所述图像样本进行二值化处理,得到二值化图像样本;
第二矩形框区域确定子模块,用于根据每个所述二值化图像样本中像素点的像素值,确定每个所述二值化图像样本包括的字符的外接矩形框区域;
字体图像特征确定子模块,用于基于每个所述外接矩形框区域中每行或每列像素点的像素值,确定每个所述外接矩形框区域的图像特征,作为每个所述图像样本对应的字体图像特征;
数据库建立子模块,用于将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到所述字体特征数据库。
可选的,所述数据库建立子模块包括:
向量确定单元,用于按照预设的字体顺序,将包含相同字符的所述图像样本对应的字体图像特征作为元素,组成包含相同字符的所述图像样本对应的行向量或列向量;
数据库建立单元,用于按照预设的字符顺序,将所述行向量或所述列向量组成字体图像特征矩阵,得到所述字体特征数据库;
所述候选特征确定模块包括:
候选特征确定子模块,用于从所述字体图像特征矩阵中查找所述目标字符对应的向量,作为候选特征。
可选的,所述目标特征确定模块还包括:
第一矩形框区域调整子模块,用于在基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征之前,通过下采样或插值的方式将所述外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量;
所述数据库建立模块还包括:
第二矩形框区域调整子模块,用于在基于每个所述外接矩形框区域样本中每行或每列像素点的像素值,确定每个所述外接矩形框区域样本的图像特征,作为每个所述图像样本对应的字体图像特征之前,通过下采样或插值的方式将所述外接矩形框区域样本中像素点的行及列数量分别调整至对应的预设数量。
可选的,所述目标图像为用户提供的图像;
所述装置还包括:
字体推荐模块,用于在基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体之后,向所述用户推荐所述相似字体。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的相似字体的确定方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的相似字体的确定方法步骤。
本发明实施例提供的方案中,电子设备可以获取目标图像,其中,目标图像中包括目标字符;确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征;对目标图像进行字符识别,得到目标图像中包括的目标字符;从预先建立的字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征,其中,字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;基于目标特征与每个候选特征的相似度,确定目标字符的相似字体。目标特征可以准确的表征目标字符的字体图像特征,根据目标特征与候选特征的相似度确定目标字符的相似字体,这样,应用该相似字体的字符的外观与目标字符的外观就更加接近,可以满足用户的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种相似字体的确定方法的流程图;
图2为图1所示实施例中步骤S102的一种具体流程图;
图3为基于图1所示实施例的字体特征数据库的建立方式的一种流程图;
图4为本发明实施例所提供的一种相似字体的确定装置的结构示意图;
图5为图4所示实施例中目标特征确定模块402的一种具体结构示意图;
图6为图4所示实施例中数据库建立模块的一种具体结构示意图;
图7为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了使应用相似字体的字符的外观与目标字符的外观更加接近,本发明实施例提供了一种相似字体的确定方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
下面首先对本发明实施例所提供的一种相似字体的确定方法进行介绍。本发明实施例所提供的一种相似字体的确定方法可以应用于任意需要确定目标字符的相似字体的电子设备,例如,可以为电脑、手机、服务器等,在此不做具体限定。为了描述方便,后续称为电子设备。
如图1所示,一种相似字体的确定方法,所述方法包括:
S101,获取目标图像;
其中,所述目标图像中包括目标字符。
S102,确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征;
S103,对所述目标图像进行字符识别,得到所述目标图像中包括的目标字符;
S104,从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征;
其中,所述字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系。
S105,基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体。
可见,本发明实施例所提供的方案中,电子设备可以获取目标图像,其中,目标图像中包括目标字符;确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征;对目标图像进行字符识别,得到目标图像中包括的目标字符;从预先建立的字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征,其中,字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;基于目标特征与每个候选特征的相似度,确定目标字符的相似字体。目标特征可以准确的表征目标字符的字体图像特征,根据目标特征与候选特征的相似度确定目标字符的相似字体,这样,应用该相似字体的字符的外观与目标字符的外观就更加接近,可以满足用户的需求。
用户在查看到某个字符时,可能有使用该字符的字体的需求,由于字体版权等原因可能导致用户无法使用与该字符的字体,此时,为了满足用户的需求,在上述步骤S101中,电子设备可以获取包括该字符的图像,作为目标图像,以确定与该字符的字体相似的字体。其中,该字符即为上述目标字符,也就是需要确定其相似字体的字符。
如果电子设备具有图像采集功能,上述目标图像可以为电子设备采集的图像,例如,用户在查看到目标字符时,可以通过电子设备采集包含目标字符的目标图像;目标图像也可以为电子设备本地存储的图像,例如,用户查看到电子设备本地存储的包括目标字符的图像时,该图像便可以作为目标图像;目标图像还可以为从网络中下载的图像,例如,用户在网络中查看到包括目标字符的目标图像时,可以将该目标图像保存在电子设备中,这时目标图像即为从网络中下载的图像。可以理解的是,上述目标图像中可以包括多个目标字符,也可以包括一个目标字符。
在获取目标图像后,电子设备可以确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征。图像中属于字符区域的像素点的像素值与不属于字符区域的像素点的像素值存在较大差异,因此,电子设备可以根据目标图像中像素点的像素值的差异确定目标图像中目标字符的边缘像素点,然后可以根据目标图像中边缘像素点的位置确定目标字符的外接矩形框区域,进而,电子设备可以提取外接矩形框区域的图像特征,作为目标特征。
在一种实施方式中,电子设备可以提取外接矩形框区域中每行或者每列像素点的像素值,作为目标特征。在另一种实施方式中,电子设备可以计算外接矩形框区域包括的像素点的像素值对应的哈希值,作为目标特征。在另一种实施方式中,电子设备可以将外接矩形框区域输入卷积神经网络,对外接矩形框区域中像素点的像素值进行卷积处理,得到目标特征,这都是合理的。
为了确定目标图像中的目标字符,电子设备可以执行上述步骤S103,根据目标图像中目标字符的图像特征对目标图像进行字符识别,得到目标图像中包括的目标字符,其中,目标图像中目标字符的图像特征可以为上述目标特征。
在一种实施方式中,电子设备可以将目标图像输入预先训练完成的OCR(OpticalCharacter Recognition,光学字符识别)模型,根据目标图像的图像特征对目标图像进行字符识别,得到目标图像中包括的目标字符。其中,上述OCR模型是基于预先获取的包含字符的图像样本训练得到的,包括图像特征与字符的对应关系。
为了便于确定目标字符的相似字体,电子设备可以预先获取各种字体的各字符的图像样本。例如,字体的种类数量为20,字符的数量为2000,那么电子设备可以获取2000个字符包括的每个字符对应的20种字体的图像样本,那么图像样本的数量即为2000×20=40000。
然后,电子设备可以确定每个图像样本包括的字符的外接矩形框区域,确定每个图像样本对应的矩形框区域的图像特征,进而将每个图像样本包括的字符与每个图像样本对应的矩形框区域的图像特征对应保存,得到字体特征数据库。
这样,字体特征数据库中也就包括各个字符与各种字体的该字符的图像的图像特征的对应关系。其中,图像样本对应的矩形框区域的图像特征的确定方式与上述目标特征的确定方式相同,在此不再赘述。
上述步骤S102与步骤S103的执行顺序并没有先后限制,电子设备可以先执行步骤S102再执行步骤S103,也可以先执行步骤S103再执行步骤S102,还可以同时执行步骤S102及步骤S103,这都是合理的。
在确定目标图像中包括的目标字符之后,电子设备便可以执行上述步骤S104,即从字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征。
在确定候选特征之后,电子设备可以计算目标特征与每个候选特征的相似度。如果目标特征与候选特征的相似度越高,说明目标图像中目标字符的外观与目标字符应用该候选特征对应的字体时的外观越相似;如果目标特征与候选特征的相似度越低,说明目标图像中目标字符的外观与目标字符应用该候选特征对应的字体时的外观越不相似。
其中,上述相似度可以为欧式距离、余弦相似度、皮尔逊相关系数、汉明距离、曼哈顿距离等,在此不做具体限定及说明。
这样,电子设备便可以基于目标特征与候选特征的相似度确定目标字符的相似字体,这样,应用该相似字体的目标字符的外观与目标图像中目标字符的外观就会相似。其中,相似字体的数量可以为一个,也可以为多个,这都是合理的。
在一种实施方式中,电子设备可以将对应的相似度最高的候选特征对应的字体确定为目标字符的相似字体,进而展示该相似字体供用户使用。
在另一种实施方式中,电子设备可以将相似度不低于预设的相似度阈值的候选特征对应的字体确定为目标字符的相似字体。
例如,电子设备确定目标特征M1与候选特征H1的相似度为0.75、目标特征M1与候选特征H2的相似度为0.51、目标特征与M1与候选特征H3的相似度为0.63、目标特征与M1与候选特征H4的相似度为0.80,候选特征与字体的对应关系如下表所示:
候选特征 | 字体 |
候选特征H1 | Z1 |
候选特征H2 | Z2 |
候选特征H3 | Z3 |
候选特征H4 | Z4 |
当预设的相似度阈值为0.65时,电子设备便可以确定候选特征H1对应的字体Z1及候选特征H4对应的字体Z4确定为相似字体。进而,电子设备便可以展示字体Z1及字体Z4,用户在查看到字体Z1及字体Z4后可以在字体Z1及字体Z4中选择想要使用的字体。
在另一种实施方式中,电子设备在确定每个候选特征对应的相似度之后,可以按照对应的相似度由高到低的顺序对候选特征进行排序,然后根据排序结果确定相似字体。例如,电子设备可以将排序结果中排在第一位的候选特征对应的字体确定为目标字符的相似字体,电子设备还可以将排序结果中前5个、10个等数量的候选特征对应的字体确定为目标字符的相似字体,然后展示相似字体供用户选择,这都是合理的。
作为本发明实施例的一种实施方式,如图2所示,上述确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征的步骤,可以包括:
S201,对所述目标图像进行二值化处理,得到二值化图像;
由于目标图像中字符区域以及非字符区域的颜色为不同的颜色,所以为了方便确定目标图像中属于字符区域的像素点,电子设备可以对目标图像进行二值化处理,得到目标图像对应的二值化图像。
具体来说,电子设备可以将目标图像中像素值小于预设像素值的像素点的像素值调整为0,将像素值不小于预设像素值的像素点的像素值调整为255,得到目标图像对应的二值化图像。二值化图像中像素点的像素值为0或255,其中,像素值为0的像素点为黑色,像素值为255的像素点为白色。
其中,上述预设像素值为电子设备根据阈值选取算法确定的,上述阈值选取算法可以为双峰法、p参数法、迭代法等算法,在此不做具体限定及说明。
S202,根据所述二值化图像中像素点的像素值,确定所述二值化图像中所述目标字符的外接矩形框区域;
由于电子设备确定的目标特征仅需表征目标图像中包含字符的区域的图像特征,所以,在得到二值化图像之后电子设备可以根据二值化图像中像素点的像素值,确定二值化图像中目标字符的外接矩形框区域。
具体来说,二值化图像中像素点的像素值为0或者255,在二值化图像中属于字符区域的像素点的像素值与不属于字符区域的像素点的像素值之间的差异极大,例如,当二值化图像中属于字符区域的像素点的像素值为0时,该二值化图像中不属于字符区域的像素点的像素值为255;当二值化图像中属于字符区域的像素点的像素值为255时,该二值化图像中不属于字符区域的像素点的像素值为0。
这样,电子设备便可以根据二值化图像中属于字符区域的像素点的像素值与不属于字符区域的像素点的像素值之间的差异,确定二值化图像中目标字符的外接矩形框区域。
例如,电子设备可以确定二值化图像中属于字符区域的像素点为目标像素点,进而可以确定目标像素点在图像坐标系中横坐标及纵坐标的最大值及最小值,然后可以将图像坐标系中横、纵坐标分别为横坐标最小值及纵坐标最小值的像素点作为第一顶点,将图像坐标系中横、纵坐标分别为横坐标最大值及纵坐标最大值的像素点作为第二顶点,进而,将以第一顶点和第二顶点为对角线顶点的矩形区域,确定为二值化图像中目标字符的外接矩形框区域。
S203,基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征。
在确定二值化图像中目标字符的外接矩形框区域之后,电子设备便可以基于外接矩形框区域中每行或者每列像素点的像素值,确定外接矩形框区域的图像特征作为目标特征。
例如,电子设备可以将外接矩形框区域中每行或者每列像素点的像素值按照预设顺序串联起来得到外接矩形框区域的图像特征,作为目标特征。
可见,本发明实施例所提供的方案中,电子设备可以对目标图像进行二值化处理,得到二值化图像,根据二值化图像中像素点的像素值,确定二值化图像中目标字符的外接矩形框区域,基于外接矩形框区域中每行或每列像素点的像素值,确定外接矩形框区域的图像特征,作为目标特征。这样,电子设备可以准确地确定目标图像对应的目标特征。
作为本发明实施例的一种实施方式,如图3所示,上述字体特征数据库的建立方式可以包括:
S301,获取多个图像样本;
为了建立字体特征数据库,电子设备可以预先获取多个图像样本,其中,图像样本为各种字体的各字符的图像。
S302,对每个所述图像样本进行二值化处理,得到二值化图像样本;
在获取多个图像样本之后,为了方便确定图像样本中属于字符区域的像素点,电子设备可以对每个图像样本进行二值化处理,得到每个图像样本对应的二值化图像样本。
具体来说,电子设备可以将图像样本中像素值小于预设像素值的像素点的像素值调整为0,将像素值不小于预设像素值的像素点的像素值调整为255,得到图像样本对应的二值化图像样本。其中,上述预设像素值为电子设备根据阈值选取算法确定的,阈值选取算法与目标图像二值化处理时采用的阈值选取算法相同,在此不再赘述。
S303,根据每个所述二值化图像样本中像素点的像素值,确定每个所述二值化图像样本包括的字符的外接矩形框区域;
由于电子设备仅需确定二值化图像样本中包含字符的区域的图像特征,所以,在得到二值化图像样本之后电子设备可以根据二值化图像样本中像素点的像素值,确定二值化图像样本包括的字符的外接矩形框区域。
电子设备可以根据二值化图像样本中属于字符区域的像素点的像素值与不属于字符区域的像素点的像素值之间的差异,确定二值化图像样本包括的字符的外接矩形框区域,其中,二值化图像样本包括的字符的外接矩形框区域的确定方式与目标图像对应的二值化图像中目标字符的外接矩形框区域的确定方式相同,在此不再赘述。
S304,基于每个所述外接矩形框区域中每行或每列像素点的像素值,确定每个所述外接矩形框区域的图像特征,作为每个所述图像样本对应的字体图像特征;
在确定二值化图像样本包括的字符的外接矩形框区域之后,电子设备便可以基于外接矩形框区域中每行或者每列像素点的像素值,确定外接矩形框区域的图像特征,作为图像样本对应的字体图像特征。其中,字体图像特征的确定方式与上述目标特征的确定方式相同,在此不再赘述。
S305,将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到所述字体特征数据库。
在得到每个图像样本对应的字体图像特征之后,电子设备便可以将每个图像样本对应的字体图像特征及每个图像样本包括的字符对应保存,得到字体特征数据库,这样,电子设备建立的字体特征数据库中也就包括各个字符与各种字体的该字符的图像的图像特征的对应关系。
可见,本发明实施例所提供的方案中,电子设备可以获取多个图像样本,对每个图像样本进行二值化处理,得到二值化图像样本,然后可以根据每个二值化图像样本中像素点的像素值,确定每个二值化图像样本包括的字符的外接矩形框区域,进而可以基于每个外接矩形框区域中每行或每列像素点的像素值,确定每个外接矩形框区域的图像特征,作为每个图像样本对应的字体图像特征,将每个图像样本对应的字体图像特征与每个图像样本包括的字符对应保存,得到字体特征数据库。这样,电子设备可以建立字体特征数据库,以便在确定目标字符的相似字体时,能够准确确定目标字符对应的候选特征。
作为本发明实施例的一种实施方式,上述将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到字体特征数据库的步骤,可以包括:
按照预设的字体顺序,将包含相同字符的所述图像样本对应的字体图像特征作为元素,组成包含相同字符的图像样本对应的行向量或列向量;按照预设的字符顺序,将行向量或列向量组成字体图像特征矩阵,得到字体特征数据库。
为了方便确定目标字符对应的候选特征,在一种实施方式中,电子设备可以按照预设的字体顺序,以包含相同字符的图像样本对应的字体图像特征为元素组成包含相同字符的图像样本对应的行向量或者列向量,这样,可以得到行向量或者列向量与各个字符之间的对应关系。
例如,电子设备确定包含相同字符的图像样本T1、T2、T3及T4,其中图像样本T1对应的字体为字体Z*1、字体图像特征为zt1,图像样本T2对应的字体为字体Z*2、字体图像特征为zt2,图像样本T3对应的字体为字体Z*3、字体图像特征为zt3,图像样本T4对应的字体为字体Z*4、字体图像特征为zt4,当预设的字体顺序为“Z*1,Z*3,Z*4,Z*2”时,电子设备可以将字体图像特征zt1、zt2、zt3、及zt4作为元素,组成图像样本T1、T2、T3及T4对应的行向量(zt1,zt3,zt4,zt2)或列向量(zt1,zt3,zt4,zt2)T。
在得到包含相同字符的图像样本对应的行向量或者列向量之后,电子设备可以按照预设的字符顺序,将行向量或列向量组成字体图像特征矩阵,得到字体特征数据库,这样,字体特征数据库也就包括了行向量或者列向量与各个字符之间的对应关系。
例如,包含相同字符Zf1的图像样本对应的行向量为(a1,a3,a4,a2)、包含相同字符Zf2的图像样本对应的行向量为(b1,b3,b4,b2)、包含相同字符Zf3的图像样本对应的行向量为(c1,c3,c4,c2)、包含相同字符Zf4的图像样本对应的行向量为(d1,d3,d4,d2),当预设的字符顺序为“Zf1,Zf2,Zf4,Zf3”时,电子设备可以确定如下所示的字体图像特征矩阵J1:
相应的,上述从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征的步骤,可以包括:
从字体图像特征矩阵中查找目标字符对应的向量,作为候选特征。
当电子设备确定了目标图像中包括的目标字符之后,可以根据字体特征数据库包括的行向量或者列向量与各个字符之间的对应关系,从字体图像特征矩阵中确定目标字符对应的行向量或者列向量,作为候选特征。这样,电子设备可以准确快速地确定目标字符对应的候选特征。
例如,字体图像特征矩阵为上述矩阵J1,当目标字符为字符Zf2时,电子设备可以从字体图像特征矩阵J1中确定字符Zf2对应的行向量(b1,b3,b4,b2),作为候选特征。
可见,本发明实施例所提供的方案中,电子设备可以按照预设的字体顺序,将包含相同字符的所述图像样本对应的字体图像特征作为元素,组成包含相同字符的图像样本对应的行向量或列向量;按照预设的字符顺序,将行向量或列向量组成字体图像特征矩阵,得到字体特征数据库;电子设备还可以从字体图像特征矩阵中查找目标字符对应的向量,作为候选特征。这样,电子设备可以根据字体特征数据库包括的向量与各个字符之间的对应关系,准确快速地确定目标字符对应的候选特征。
作为本发明实施例的一种实施方式,在上述基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征的步骤之前,所述方法还可以包括:
通过下采样或插值的方式将外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量。
不同的目标图像的分辨率往往也是不同的,因此,不同的目标图像中目标字符的外接矩形框区域包括的像素点的数量往往也是不同的。为了准确确定目标图像对应的目标特征,电子设备可以将目标图像中目标字符的外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量,以统一图像的分辨率,准确确定目标图像对应的目标特征。其中,预设数量可以根据图像特征的准确度等因素进行设置,像素点的行数量及列数量对应的预设数量可以为同一数量,也可以为不同数量。
具体来说,当外接矩形框区域中像素点的行数量或者列数量大于对应的预设数量时,电子设备可以通过下采样的方式将行数量或者列数量减少至对应的预设数量;当外接矩形框区域中像素点的行数量或者列数量小于对应的预设数量时,电子设备可以通过插值的方式将行数量或者列数量增加至对应的预设数量;当外接矩形框区域中像素点的行数量或者列数量等于对应的预设数量时,电子设备也就无需对行数量或者列数量进行调整。
相应的,在上述基于每个所述外接矩形框区域样本中每行或每列像素点的像素值,确定每个所述外接矩形框区域样本的图像特征,作为每个所述图像样本对应的字体图像特征的步骤之前,所述方法还包括:
通过下采样或插值的方式将外接矩形框区域样本中像素点的行及列数量分别调整至对应的预设数量。
不同的图像样本的分辨率往往也是不同的,因此,不同的图像样本包括的字符的外接矩形框区域中像素点的数量往往也是不同的。为了准确确定图像样本对应的字体图像特征,电子设备可以通过下采样或插值的方式,将图像样本包括的字符的外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量,以统一图像的分辨率,准确确定图像样本对应的字体图像特征。其中,预设数量与上述调整目标图像的外接矩形框区域时的预设数量相同。
可见,本发明实施例所提供的方案中,在基于外接矩形框区域中每行或每列像素点的像素值,确定外接矩形框区域的图像特征,作为目标特征之前,电子设备可以通过下采样或插值的方式将外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量;在基于每个外接矩形框区域样本中每行或每列像素点的像素值,确定每个外接矩形框区域样本的图像特征,作为每个图像样本对应的字体图像特征之前,电子设备还可以通过下采样或插值的方式将外接矩形框区域样本中像素点的行及列数量分别调整至对应的预设数量。这样,可以方便电子设备确定目标图像对应的目标特征以及图像样本对应的字体图像特征。
作为本发明实施例的一种实施方式,上述目标图像可以为用户提供的图像。
当用户查看到包含目标字符的目标图像时,可能有使用目标字符的相似字体的需求,这种情况下用户可以将目标图像提供给电子设备以确定目标字符的相似字体。
针对这种情况,在上述基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体的步骤之后,所述方法还可以包括:
向用户推荐相似字体。
由于用户可能存在使用目标字符的相似字体的需求,所以,电子设备在确定目标字符的相似字体之后,可以向用户推荐相似字体。例如,电子设备可以展示相似字体供用户查看,当相似字体为多个时,电子设备可以显示该多个相似字体供用户选择。用户在得到该相似字体之后,便可以使用该相似字体进行文字编辑等。
可见,本发明实施例所提供的方案中,在基于目标特征与每个候选特征的相似度,确定目标字符的相似字体之后,电子设备可以向用户推荐相似字体。这样,可以使用户使用该相似字体进行文字编辑时,能够得到与目标字符的外观相似的字符,可以满足用户的需求。
相应于上述相似字体的确定方法,本发明实施例还提供了一种相似字体的确定装置。下面对本发明实施例所提供的一种相似字体的确定装置进行介绍。
如图4所示,一种相似字体的确定装置,所述装置包括:
图像获取模块401,用于获取目标图像;
其中,所述目标图像中包括目标字符。
目标特征确定模块402,用于确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征;
字符识别模块403,用于对所述目标图像进行字符识别,得到所述目标图像中包括的目标字符;
候选特征确定模块404,用于从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征;
其中,所述字体特征数据库为通过数据库建立模块(图4中未示出)建立的,包括各个字符与各种字体的该字符的图像的图像特征的对应关系。
相似字体确定模块405,用于基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体。
可见,本发明实施例所提供的方案中,电子设备可以获取目标图像,其中,目标图像中包括目标字符;确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征;对目标图像进行字符识别,得到目标图像中包括的目标字符;从预先建立的字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征,其中,字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;基于目标特征与每个候选特征的相似度,确定目标字符的相似字体。目标特征可以准确的表征目标字符的字体图像特征,根据目标特征与候选特征的相似度确定目标字符的相似字体,这样,应用该相似字体的字符的外观与目标字符的外观就更加接近,可以满足用户的需求。
作为本发明实施例的一种实施方式,如图5所示,上述目标特征确定模块402可以包括:
第一二值化处理子模块501,用于对所述目标图像进行二值化处理,得到二值化图像;
第一矩形框区域确定子模块502,用于根据所述二值化图像中像素点的像素值,确定所述二值化图像中所述目标字符的外接矩形框区域;
目标特征确定子模块503,用于基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征。
作为本发明实施例的一种实施方式,如图6所示,上述数据库建立模块可以包括:
图像样本获取子模块601,用于获取多个图像样本;
其中,所述图像样本为各种字体的各字符的图像。
第二二值化处理子模块602,用于对每个所述图像样本进行二值化处理,得到二值化图像样本;
第二矩形框区域确定子模块603,用于根据每个所述二值化图像样本中像素点的像素值,确定每个所述二值化图像样本包括的字符的外接矩形框区域;
字体图像特征确定子模块604,用于基于每个所述外接矩形框区域中每行或每列像素点的像素值,确定每个所述外接矩形框区域的图像特征,作为每个所述图像样本对应的字体图像特征;
数据库建立子模块605,用于将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到所述字体特征数据库。
作为本发明实施例的一种实施方式,上述数据库建立子模块605可以包括:
向量确定单元(图6中未示出),用于按照预设的字体顺序,将包含相同字符的所述图像样本对应的字体图像特征作为元素,组成包含相同字符的所述图像样本对应的行向量或列向量;
数据库建立单元(图6中未示出),用于按照预设的字符顺序,将所述行向量或所述列向量组成字体图像特征矩阵,得到所述字体特征数据库;
上述候选特征确定模块404可以包括:
候选特征确定子模块(图4中未示出),用于从所述字体图像特征矩阵中查找所述目标字符对应的向量,作为候选特征。
作为本发明实施例的一种实施方式,上述目标特征确定模块402还可以包括:
第一矩形框区域调整子模块(图4中未示出),用于在基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征之前,通过下采样或插值的方式将所述外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量;
所述数据库建立模块可以还包括:
第二矩形框区域调整子模块(图4中未示出),用于在基于每个所述外接矩形框区域样本中每行或每列像素点的像素值,确定每个所述外接矩形框区域样本的图像特征,作为每个所述图像样本对应的字体图像特征之前,通过下采样或插值的方式将所述外接矩形框区域样本中像素点的行及列数量分别调整至对应的预设数量。
作为本发明实施例的一种实施方式,上述目标图像可以为用户提供的图像;
上述装置还可以包括:
字体推荐模块(图4中未示出),用于在基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体之后,向所述用户推荐所述相似字体。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现上述任一实施例所述的相似字体的确定方法步骤。
可见,本发明实施例所提供的方案中,电子设备可以获取目标图像,其中,目标图像中包括目标字符;确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征;对目标图像进行字符识别,得到目标图像中包括的目标字符;从预先建立的字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征,其中,字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;基于目标特征与每个候选特征的相似度,确定目标字符的相似字体。目标特征可以准确的表征目标字符的字体图像特征,根据目标特征与候选特征的相似度确定目标字符的相似字体,这样,应用该相似字体的字符的外观与目标字符的外观就更加接近,可以满足用户的需求。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一相似字体的确定方法步骤。
可见,本发明实施例所提供的方案中,计算机可读存储介质内存储的计算机程序被处理器执行时,可以获取目标图像,其中,目标图像中包括目标字符;确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征;对目标图像进行字符识别,得到目标图像中包括的目标字符;从预先建立的字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征,其中,字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;基于目标特征与每个候选特征的相似度,确定目标字符的相似字体。目标特征可以准确的表征目标字符的字体图像特征,根据目标特征与候选特征的相似度确定目标字符的相似字体,这样,应用该相似字体的字符的外观与目标字符的外观就更加接近,可以满足用户的需求。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一相似字体的确定方法步骤。
可见,本发明实施例所提供的方案中,计算机程序产品在计算机上运行时,可以获取目标图像,其中,目标图像中包括目标字符;确定目标图像中目标字符的外接矩形框区域的图像特征,作为目标特征;对目标图像进行字符识别,得到目标图像中包括的目标字符;从预先建立的字体特征数据库中查找目标字符对应的字体图像特征,作为候选特征,其中,字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;基于目标特征与每个候选特征的相似度,确定目标字符的相似字体。目标特征可以准确的表征目标字符的字体图像特征,根据目标特征与候选特征的相似度确定目标字符的相似字体,这样,应用该相似字体的字符的外观与目标字符的外观就更加接近,可以满足用户的需求。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (14)
1.一种相似字体的确定方法,其特征在于,所述方法包括:
获取目标图像,其中,所述目标图像中包括目标字符;
确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征;
对所述目标图像进行字符识别,得到所述目标图像中包括的目标字符;
从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征,其中,所述字体特征数据库包括各个字符与各种字体的该字符的图像的图像特征的对应关系;
基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征的步骤,包括:
对所述目标图像进行二值化处理,得到二值化图像;
根据所述二值化图像中像素点的像素值,确定所述二值化图像中所述目标字符的外接矩形框区域;
基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征。
3.根据权利要求2所述的方法,其特征在于,所述字体特征数据库的建立方式包括:
获取多个图像样本,其中,所述图像样本为各种字体的各字符的图像;
对每个所述图像样本进行二值化处理,得到二值化图像样本;
根据每个所述二值化图像样本中像素点的像素值,确定每个所述二值化图像样本包括的字符的外接矩形框区域;
基于每个所述外接矩形框区域中每行或每列像素点的像素值,确定每个所述外接矩形框区域的图像特征,作为每个所述图像样本对应的字体图像特征;
将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到所述字体特征数据库。
4.根据权利要求3所述的方法,其特征在于,所述将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到字体特征数据库的步骤,包括:
按照预设的字体顺序,将包含相同字符的所述图像样本对应的字体图像特征作为元素,组成包含相同字符的所述图像样本对应的行向量或列向量;
按照预设的字符顺序,将所述行向量或所述列向量组成字体图像特征矩阵,得到所述字体特征数据库;
所述从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征的步骤,包括:
从所述字体图像特征矩阵中查找所述目标字符对应的向量,作为候选特征。
5.根据权利要求2所述的方法,其特征在于,在所述基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征的步骤之前,所述方法还包括:
通过下采样或插值的方式将所述外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量;
在所述基于每个所述外接矩形框区域样本中每行或每列像素点的像素值,确定每个所述外接矩形框区域样本的图像特征,作为每个所述图像样本对应的字体图像特征的步骤之前,所述方法还包括:
通过下采样或插值的方式将所述外接矩形框区域样本中像素点的行及列数量分别调整至对应的预设数量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述目标图像为用户提供的图像;
在所述基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体的步骤之后,所述方法还包括:
向所述用户推荐所述相似字体。
7.一种相似字体的确定装置,其特征在于,所述装置包括:
图像获取模块,用于获取目标图像,其中,所述目标图像中包括目标字符;
目标特征确定模块,用于确定所述目标图像中所述目标字符的外接矩形框区域的图像特征,作为目标特征;
字符识别模块,用于对所述目标图像进行字符识别,得到所述目标图像中包括的目标字符;
候选特征确定模块,用于从预先建立的字体特征数据库中查找所述目标字符对应的字体图像特征,作为候选特征,其中,所述字体特征数据库为通过数据库建立模块建立的,包括各个字符与各种字体的该字符的图像的图像特征的对应关系;
相似字体确定模块,用于基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体。
8.根据权利要求7所述的装置,其特征在于,所述目标特征确定模块包括:
第一二值化处理子模块,用于对所述目标图像进行二值化处理,得到二值化图像;
第一矩形框区域确定子模块,用于根据所述二值化图像中像素点的像素值,确定所述二值化图像中所述目标字符的外接矩形框区域;
目标特征确定子模块,用于基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征。
9.根据权利要求8所述的装置,其特征在于,所述数据库建立模块包括:
图像样本获取子模块,用于获取多个图像样本,其中,所述图像样本为各种字体的各字符的图像;
第二二值化处理子模块,用于对每个所述图像样本进行二值化处理,得到二值化图像样本;
第二矩形框区域确定子模块,用于根据每个所述二值化图像样本中像素点的像素值,确定每个所述二值化图像样本包括的字符的外接矩形框区域;
字体图像特征确定子模块,用于基于每个所述外接矩形框区域中每行或每列像素点的像素值,确定每个所述外接矩形框区域的图像特征,作为每个所述图像样本对应的字体图像特征;
数据库建立子模块,用于将每个所述图像样本对应的字体图像特征与每个所述图像样本包括的字符对应保存,得到所述字体特征数据库。
10.根据权利要求9所述的装置,其特征在于,所述数据库建立子模块包括:
向量确定单元,用于按照预设的字体顺序,将包含相同字符的所述图像样本对应的字体图像特征作为元素,组成包含相同字符的所述图像样本对应的行向量或列向量;
数据库建立单元,用于按照预设的字符顺序,将所述行向量或所述列向量组成字体图像特征矩阵,得到所述字体特征数据库;
所述候选特征确定模块包括:
候选特征确定子模块,用于从所述字体图像特征矩阵中查找所述目标字符对应的向量,作为候选特征。
11.根据权利要求8所述的装置,其特征在于,所述目标特征确定模块还包括:
第一矩形框区域调整子模块,用于在基于所述外接矩形框区域中每行或每列像素点的像素值,确定所述外接矩形框区域的图像特征,作为目标特征之前,通过下采样或插值的方式将所述外接矩形框区域中像素点的行数量及列数量分别调整至对应的预设数量;
所述数据库建立模块还包括:
第二矩形框区域调整子模块,用于在基于每个所述外接矩形框区域样本中每行或每列像素点的像素值,确定每个所述外接矩形框区域样本的图像特征,作为每个所述图像样本对应的字体图像特征之前,通过下采样或插值的方式将所述外接矩形框区域样本中像素点的行及列数量分别调整至对应的预设数量。
12.根据权利要求7-11任一项所述的装置,其特征在于,所述目标图像为用户提供的图像;
所述装置还包括:
字体推荐模块,用于在基于所述目标特征与每个所述候选特征的相似度,确定所述目标字符的相似字体之后,向所述用户推荐所述相似字体。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010400808.4A CN113673544A (zh) | 2020-05-13 | 2020-05-13 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010400808.4A CN113673544A (zh) | 2020-05-13 | 2020-05-13 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673544A true CN113673544A (zh) | 2021-11-19 |
Family
ID=78536768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010400808.4A Pending CN113673544A (zh) | 2020-05-13 | 2020-05-13 | 一种相似字体的确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673544A (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123905A (ja) * | 1994-10-28 | 1996-05-17 | Canon Inc | 文字認識装置及び方法 |
US20080181505A1 (en) * | 2007-01-15 | 2008-07-31 | Bo Wu | Image document processing device, image document processing method, program, and storage medium |
WO2013004012A1 (en) * | 2011-07-06 | 2013-01-10 | Harman International (Shanghai) Management Co., Ltd. | Apparatus and method for re-sampling and processing digital images |
US20130343652A1 (en) * | 2011-03-04 | 2013-12-26 | Glory Ltd. | Character string extraction method and character string extraction device |
CN104361312A (zh) * | 2014-10-16 | 2015-02-18 | 北京捷通华声语音技术有限公司 | 一种对图像进行字符识别的方法和装置 |
JP2016157155A (ja) * | 2015-02-23 | 2016-09-01 | 日本放送協会 | 文字領域抽出装置及びプログラム |
US20180082156A1 (en) * | 2016-09-19 | 2018-03-22 | Adobe Systems Incorporated | Font Replacement Based on Visual Similarity |
CN109710907A (zh) * | 2018-12-20 | 2019-05-03 | 平安科技(深圳)有限公司 | 一种电子文档的生成方法及设备 |
CN110197238A (zh) * | 2019-04-15 | 2019-09-03 | 广州企图腾科技有限公司 | 一种字体类别的识别方法、系统及终端设备 |
CN110334722A (zh) * | 2019-03-29 | 2019-10-15 | 上海联影智能医疗科技有限公司 | 图像分类方法、装置、计算机设备和存储介质 |
WO2020009292A1 (ko) * | 2018-07-06 | 2020-01-09 | 주식회사 메디웨일 | 안저 이미지 관리 장치 및 안저 이미지의 품질 판단 방법 |
KR20200020305A (ko) * | 2018-08-17 | 2020-02-26 | 에스케이플래닛 주식회사 | 문자 인식을 위한 방법 및 장치 |
CN111144191A (zh) * | 2019-08-14 | 2020-05-12 | 广东小天才科技有限公司 | 字体识别方法、装置、电子设备及存储介质 |
-
2020
- 2020-05-13 CN CN202010400808.4A patent/CN113673544A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08123905A (ja) * | 1994-10-28 | 1996-05-17 | Canon Inc | 文字認識装置及び方法 |
US20080181505A1 (en) * | 2007-01-15 | 2008-07-31 | Bo Wu | Image document processing device, image document processing method, program, and storage medium |
US20130343652A1 (en) * | 2011-03-04 | 2013-12-26 | Glory Ltd. | Character string extraction method and character string extraction device |
WO2013004012A1 (en) * | 2011-07-06 | 2013-01-10 | Harman International (Shanghai) Management Co., Ltd. | Apparatus and method for re-sampling and processing digital images |
CN104361312A (zh) * | 2014-10-16 | 2015-02-18 | 北京捷通华声语音技术有限公司 | 一种对图像进行字符识别的方法和装置 |
JP2016157155A (ja) * | 2015-02-23 | 2016-09-01 | 日本放送協会 | 文字領域抽出装置及びプログラム |
US20180082156A1 (en) * | 2016-09-19 | 2018-03-22 | Adobe Systems Incorporated | Font Replacement Based on Visual Similarity |
WO2020009292A1 (ko) * | 2018-07-06 | 2020-01-09 | 주식회사 메디웨일 | 안저 이미지 관리 장치 및 안저 이미지의 품질 판단 방법 |
KR20200020305A (ko) * | 2018-08-17 | 2020-02-26 | 에스케이플래닛 주식회사 | 문자 인식을 위한 방법 및 장치 |
CN109710907A (zh) * | 2018-12-20 | 2019-05-03 | 平安科技(深圳)有限公司 | 一种电子文档的生成方法及设备 |
CN110334722A (zh) * | 2019-03-29 | 2019-10-15 | 上海联影智能医疗科技有限公司 | 图像分类方法、装置、计算机设备和存储介质 |
CN110197238A (zh) * | 2019-04-15 | 2019-09-03 | 广州企图腾科技有限公司 | 一种字体类别的识别方法、系统及终端设备 |
CN111144191A (zh) * | 2019-08-14 | 2020-05-12 | 广东小天才科技有限公司 | 字体识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
陈亚军: "字体匹配技术分析及标准化建议", 《信息技术与标准化》, no. 9, pages 26 - 29 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368893B (zh) | 图像识别方法、装置、电子设备及存储介质 | |
US10521567B2 (en) | Digital image processing for element removal and/or replacement | |
CN110909663B (zh) | 一种人体关键点识别方法、装置及电子设备 | |
CN108898549B (zh) | 图片处理方法、图片处理装置及终端设备 | |
US20180286023A1 (en) | Digital Image Processing through use of an Image Repository | |
CN109117854B (zh) | 关键点匹配方法、装置、电子设备以及存储介质 | |
CN111428457A (zh) | 数据表的自动格式化 | |
CN108334805A (zh) | 检测文档阅读顺序的方法和装置 | |
US10217224B2 (en) | Method and system for sharing-oriented personalized route planning via a customizable multimedia approach | |
CN110807110B (zh) | 结合局部和全局特征的图片搜索方法、装置及电子设备 | |
CN110120059B (zh) | 一种图标生成方法及装置 | |
CN108182457B (zh) | 用于生成信息的方法和装置 | |
CN112329660B (zh) | 一种场景识别方法、装置、智能设备及存储介质 | |
CN110909665A (zh) | 一种多任务的图像处理方法、装置、电子设备及存储介质 | |
CN111091572A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN113657273A (zh) | 确定商品信息的方法、装置、电子设备及介质 | |
CN110992371B (zh) | 一种基于先验信息的人像分割方法、装置及电子设备 | |
CN110210572B (zh) | 图像分类方法、装置、存储介质及设备 | |
CN115797291B (zh) | 回路端子的识别方法、装置、计算机设备和存储介质 | |
CN113673544A (zh) | 一种相似字体的确定方法、装置、电子设备及存储介质 | |
CN116258873A (zh) | 一种位置信息确定方法、对象识别模型的训练方法及装置 | |
CN113222167A (zh) | 一种图像处理方法及其装置 | |
CN115730217A (zh) | 模型的训练方法、物料的召回方法及装置 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN111079771B (zh) | 点读图像的特征提取方法、系统、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |