CN109145879A - 一种打印字体识别的方法、设备及存储介质 - Google Patents

一种打印字体识别的方法、设备及存储介质 Download PDF

Info

Publication number
CN109145879A
CN109145879A CN201811162596.XA CN201811162596A CN109145879A CN 109145879 A CN109145879 A CN 109145879A CN 201811162596 A CN201811162596 A CN 201811162596A CN 109145879 A CN109145879 A CN 109145879A
Authority
CN
China
Prior art keywords
font
block structure
target
reference numeral
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811162596.XA
Other languages
English (en)
Other versions
CN109145879B (zh
Inventor
许文江
刘力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kingdee Software China Co Ltd
Original Assignee
Kingdee Software China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kingdee Software China Co Ltd filed Critical Kingdee Software China Co Ltd
Priority to CN201811162596.XA priority Critical patent/CN109145879B/zh
Publication of CN109145879A publication Critical patent/CN109145879A/zh
Application granted granted Critical
Publication of CN109145879B publication Critical patent/CN109145879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明公开了一种打印字体识别的方法、设备及存储介质,包括:扫描待识别的打印件;将待识别的打印件转化为电子图片;在电子图片中确定目标文本;按照预先设置的尺寸将目标文本进行切割并得到多个目标字体;将多个目标字体与参考字体进行多维化解析并得到解析结果;输出解析结果。本申请实施例还提供相应的设备及存储介质。本申请实施例提供的方法能够显著提高打印字体的识别率。

Description

一种打印字体识别的方法、设备及存储介质
技术领域
本发明涉及文字图像识别领域,具体涉及一种打印字体识别的方法、设备及存储介质。
背景技术
在生产和生活中,人们需要将大量图片、报表上打印的文字转化文本。为了减轻人们的劳动,提高处理效率,打印字体识别技术被广泛的使用。
在识别打印字体时,通过图像预处理,根据特定的偏旁部首等特征提取出打印字体,再从标准库中选取类似的目标字体,比较目标字体与打印字体,最终输出识别结果。
目前使用的通用性的文字识别技术对于形状复杂的中文字体没有针对性的支持,在比较目标字体与打印字体时,对于形状相似的偏旁或部首往往很难区分,所以比较的结果可能不准确。打印字体的识别率比较低。
发明内容
本申请实施例提供了一种打印字体识别的方法、设备及存储介质,用于提高打印字体识别率。
有鉴于此,本申请第一方面提供一种打印字体识别的方法,该方法可以包括:扫描待识别的打印件;将待识别的打印件转化为电子图片;在电子图片中确定目标文本;按照预先设置的尺寸将目标文本进行切割并得到多个目标字体;将多个目标字体与参考字体进行多维化解析并得到解析结果,参考字体是从预设的参考字库中选择的,多维化解析包括从预设维度中选择的至少一个维度进行解析,解析结果包含至少一个参考字体;输出解析结果。由上述第一方面可知,将目标文本切割成多个目标字体,再针对性地对目标字体进行解析,可以显著提高打印字体的识别率。
可选的,结合上述第一方面,在第一方面的第一种可能的实现方式中,将多个目标字体与参考字体进行多维化解析并得到解析结果,可以包括:将预置的参考字库中的参考字体和多个目标字体中的每个目标字体划分为多个结构块,多个结构块之间的相对位置是固定的;将参考字体的多个结构块和每个目标字体的多个结构块按照相同的规则进行编号,得到多组对应编号的结构块;将多组对应编号的结构块进行二值化处理;将多组对应编号的结构块根据从预设维度中选择的至少一个维度进行对比,并得到多组对应编号的结构块中每一组的相似度数值;根据多组对应编号的结构块中每一组的相似度数值确定目标字体与参考字体的相似度数值;根据目标字体与参考字体的相似度数值确定解析结果。该第一方面的第一种可能的实现方式中,将多个目标字体中的每个目标字体划分为多个结构块,再对结构块进行处理和对比。通过这样的方式能够提高识别结果的准确性。
可选的,结合上述第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,将多组对应编号的结构块进行二值化处理,可以包括:过滤出多组对应编号的结构块中灰度数值超过预设灰度阈值的像素点;确定灰度数值超过预设灰度阈值的像素点有打印内容。该第一方面的第二种可能的实现方式中,可以清晰地从像素点上判断出是否有打印内容。
可选的,结合上述第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,过滤出多组对应编号的结构块中灰度数值超过预设灰度阈值的像素点,可以包括:将多组对应编号的结构块中每个像素点的灰度数值与预设灰度阈值进行比较;若像素点的灰度数值大于或等于预设灰度阈值,则提取像素点。该第一方面的第三种可能的实现方式中,以结构块中像素点的灰度数值作为参考标准,确保了过滤出的像素点准确性。
可选的,结合上述第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式中,预设维度,可以包括:像素位置、结构位置、灰度值或延续性。
本申请第二方面提供一种设备,该设备具有实现上述第一方面或第一方面任意一种可能实现方式的方法的功能。该功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。
本申请第三方面提供一种设备,包括:处理器和存储器;该存储器用于存储计算机执行指令,当该设备运行时,该处理器执行该存储器存储的该计算机执行指令,以使设备执行如上述第一方面或第一方面任意一种可能实现的方法。
本申请第四方面提供一种可读存储介质,该可读存储介质中存储有指令,当其运行时,使得该设备可以执行上述第一方面或第一方面任意一种可能实现的方法。
本申请第五方面提供一种包含指令的计算机程序产品,当其运行时,使得该设备可以执行上述第一方面或第一方面任意一种可能实现的方法。
本申请第六方面提供一种芯片系统,该芯片系统包括处理器,用于支持该设备实现上述第一方面或第一方面任意一种可能的实现方式中所涉及的功能。在一种可能的设计中,芯片系统还包括存储器,存储器,用于保存转接板必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包含芯片和其他分立器件。
其中,第二方面、第三方面、第四方面、第五方面、第六方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果,此处不再赘述。
本申请实施例提供了一种打印字体识别的方法及设备,用于提高打印字体识别率。扫描待识别的打印件;将待识别的打印件转化为电子图片;在电子图片中确定目标文本;按照预先设置的尺寸将目标文本进行切割并得到多个目标字体;将多个目标字体与参考字体进行多维化解析并得到解析结果;输出解析结果。本方案将目标文本切割成多个目标字体,再针对性地对目标字体进行解析,可以显著提高打印字体的识别率。
附图说明
图1是现有方案的一个实施例示意图;
图2是本申请实施例中打印字体识别的方法的一个实施例示意图;
图3是本申请实施例中打印字体识别的方法的另一个实施例示意图;
图4是本申请实施例中打印字体识别的设备的一个实施例示意图。
具体实施方式
本申请实施例提供了一种打印字体识别的方法及设备,用于提高打印字体识别率。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块。
如图1所示,实施例一为现有技术中打印字体的识别,实施例一包含如下步骤:
101、图像预处理。
在本实施例中,图像预处理是指将打印件扫描,然后转化成电子图片。
102、提取出打印字体。
在本实施例中,步骤101中将打印件扫描转化为电子图片之后,从电子图片中提取出打印字体。
103、从标准库中选取类似的目标字体。
在本实施例中,步骤102从电子图片提取出打印字体之后,根据提取出的打印字体在标准库中选取和打印字体类似的目标字体。
104、比较目标字体与打印字体。
在本实施例中,将步骤103中选取的目标字体与打印字体相比较。
105、输出识别结果。
在本实施例中,输出步骤104中比较的结果。
在本实施例中,在步骤104中,在比较目标字体与打印字体时,目前使用的通用性的文字识别技术对于形状复杂的中文字体没有针对性的支持,对于形状相似的偏旁或部首往往很难区分,所以比较的结果可能不准确,打印字体的识别率比较低。
本申请实施例提供了一种打印字体识别的方法及设备,用于提高打印字体识别率。为了便于理解,下面对本申请实施例中的具体流程进行描述,请参阅图2,实施例二包括:
201、扫描待识别的打印件。
在本申请实施例中,需要先准备好待识别的打印件,然后设备将待识别的打印件扫描,将打印件扫描是为了后续步骤中将打印件转化为电子图片。
202、将待识别的打印件转化为电子图片。
在本申请实施例中,根据步骤201的扫描结果,将打印件转化为电子图片。因为后续步骤中对于文字图像的处理都建立在电子图片上,所以必须要将打印件转化为电子图片。
203、在电子图片中确定目标文本。
在本申请实施例中,根据步骤202中转化来的电子图片确定图片中的目标文本。该图片中有文字的部分是目标文本。
204、对目标文本切割并得到多个目标字体。
在本申请实施例中,对步骤203中确定的目标文本进行切割,切割的时候按照预先设置的尺寸进行切割,得到多个目标字体。
205、将多个目标字体与参考字体进行多维化解析并得到解析结果。
在本申请实施例中,将步骤204中得到的多个目标字体中的每个目标字体进行解析,包括选择出至少一个与目标字体相似的参考字体,在预设维度中选择至少一个维度,将目标字体与参考字体进行对比解析,得到与每个目标字体的相似程度超过预设阈值的至少一个参考字体,该解析结果为至少包含一个参考字体的结果集合。
206、输出解析结果。
在本申请实施例中,将步骤205中得到的解析结果输出。
上面对本申请实施例中打印字体识别的方法进行了描述,本申请实施例将目标文本切割成多个目标字体,再针对性地对目标字体进行解析,可以显著提高打印字体的识别率。下面对实施例二中步骤205,将多个目标字体进行解析并得到解析结果进行详细描述,请参阅图3,实施例三包括如下步骤:
301、将参考字体和多个目标字体中的每个目标字体划分为多个结构块。
在本申请实施例中,参考字体是从预先设置的参考字库中挑选出来的与目标字体类似的字体。将参考字体和多个目标字体中的每个目标字体划分为多个结构块,该结构块的大小是预先设置的,比如32*32个像素点。在参考字体和多个目标字体中,被划分成的多个结构块之间的相对位置都是固定的。本申请实施例以32*32个像素点为例,该结构块的大小也可以是别为别的尺寸,此处不做限制。
302、将参考字体的多个结构块和每个目标字体的多个结构块按照相同的规则进行编号。
在本申请实施例中,将参考字体的多个结构块和每个目标字体的多个结构块按照从左到右、从上到下的顺序依次编号,将编号对应的参考字体的结构块与每个目标字体的结构块分为一组,从而得到多组对应编号的结构块。参考字体与多个目标字体中的每个目标字体的编号规则是相同的,在本申请实施例中,都从一开始,每次加一。当然也可以从任意正整数开始,每次增加任意正整数,此处不做限制。本申请实施例按照从左到右、从上到下的顺序依次编号,也可以按照其他次序进行编号,此处不做限制,只要求参考字体的多个结构块和每个目标字体的多个结构块按照相同的规则进行编号。
303、将多组对应编号的结构块进行二值化处理。
在本申请实施例中,将步骤302中得到的多组对应编号的结构块进行二值化处理。二值化处理的方式为,将多个结构块中所有的像素点的灰度数值与预设的灰度阈值进行比较,如果像素点的灰度数值大于预设灰度阈值,就提取出该像素点,确定该像素点有打印内容。在固定尺寸的打印字体中,每一个固定的像素点的灰度值是否应该超过预设灰度阈值是确定的。在延续性上,相邻的结构块之间的像素点灰度会呈现出连续的规律。
304、将多组对应编号的结构块根据从预设维度中选择的至少一个维度进行对比。
在本申请实施例中,将多组对应编号的结构块根据从预设维度中选择的至少一个维度进行对比,该预设维度包括:像素位置、结构位置、灰度值或延续性,可以预先从这几个维度中选择出至少一个维度,设置为后续对比的维度。
在打印字体中每一个像素点的位置是固定的,在哪个像素点上应该有打印内容哪些应该没有都是确定的,哪些位置的像素点的灰度要超过阈值,哪些位置的像素点的灰度要低于阈值都是固定的。结构块与结构块之间的相对位置也是固定的,而且相邻的结构块之间的灰度会呈现出连续的规律。
将一组对应编号的参考字体的结构块和目标字体的结构块在像素位置上对比包括:从目标字体的结构块中选取一个有打印内容的像素点,在参考字体的结构块对应像素点位置上判断该像素点是否有打印内容,如果有,则在像素位置维度上判断参考字体的结构块上对应的像素点满足要求。将目标字体的结构块上所有有打印内容的像素点进行上述操作,然后将参考字体的结构块上满足要求的像素点统计起来,计算出参考字体的结构块中满足要求的像素点占目标字体的结构块中有打印内容的像素点的比率,得到该组对应编号的结构块在像素位置上的相似度。
将一组对应编号的参考字体的结构块和目标字体的结构块在结构位置上对比包括:从目标字体的结构块中选取一个结构块的边缘部分有打印内容的像素点,在对应的参考字体的结构块中选取相同位置的像素点,判断参考字体的结构块中相同位置的像素点上是否有打印内容,如果有,则在结构位置这个维度上判断参考字体的结构块中上对应的像素点满足要求。将目标字体的结构块中边缘部分所有有打印内容的像素点进行上述操作,然后将参考字体的结构块中满足要求的像素点统计起来,计算出参考字体的结构块中满足要求的像素点占目标字体的结构块中边缘部分有打印内容的像素点的比率,得到该组对应编号的结构块在结构位置上的相似度。
将一组对应编号的参考字体的结构块与目标字体的结构块在灰度值上对比包括:从目标字体的结构块中选取一个有打印内容的像素点并识别出该像素点的灰度值,在参考字体的结构块对应像素点位置上判断该像素点是否有打印内容,如果有,则识别出参考字体的结构块上对应像素点的灰度值。将目标字体的结构块上像素点的灰度值与参考字体的结构块上对应像素点的灰度值进行比较,如果相同,则在灰度值这个维度上判断这个像素点满足要求。将目标字体的结构块与参考字体的结构块的所有像素点进行上述对比,统计出参考字体的结构块上满足要求的像素点。计算出参考字体的结构块中满足要求的像素点占目标字体结构块中有打印内容的像素点的比率,得到该组对应编号的结构块在灰度值上的相似度。
将一组对应编号的参考字体的结构块与目标字体的结构块在延续性上对比包括:从目标字体的结构块中选取一个结构块的边缘部分有打印内容的像素点并识别出该像素点的灰度值,在参考字体的结构块对应的像素点位置上判断该点是否有打印内容,如果有,则识别出参考字体的结构块上对应像素点的灰度值。将目标字体的结构块上选取的像素点的灰度值与参考字体的结构块上对应像素点的灰度值进行比较,如果相同,则在延续性这个维度判断这个像素点满足要求。将目标字体的结构块与参考字体的结构块中所有边缘部分的像素点进行上述对比,统计出参考字体的结构块上满足要求的像素点。计算出参考字体的结构块中边缘部分像素点满足要求的占所有目标字体结构块中边缘部分有打印内容像素点的比率,得到该组对应编号的结构块在延续性上的相似度。
从预设维度中选择至少一个维度,当只选择了一个维度时,一组对应编号的结构块的相似度数值即为该组对应编号的结构块在该维度上的相似度数值,例如,预先设置的维度只有像素位置,那么该组对应编号的结构块通过像素位置维度对比得到的像素位置维度的相似度数值即为最终该组对应编号的结构块的相似度数值;此处以选择一个维度为例,但不限制于只能选择一个维度。
当选择了多个维度时,一组对应编号的结构块的相似度数值为该组对应编号的结构块在多个维度上相似度数值的平均值,例如,预先设置的维度为像素位置、结构位置和灰度值。通过多维化对比得到了该组对应编号的结构块在像素位置维度的相似度数值、结构位置维度的相似度数值和灰度值维度的相似度数值。取得到的三个维度的相似度数值的平均值,该平均值即为该组对应编号的结构块的相似度数值。此处以选择三个维度为例,但不限制于只能选择三个维度。
305、根据多组对应编号的结构块中每一组的相似度数值确定目标字体与参考字体的相似度数值。
在本申请实施例中,根据步骤304中得到的每一组结构块的相似度数值确定目标字体与参考字体的相似度数值。将一个参考字体中包含的所有结构块的相似度数值取平均值,得到参考字体与目标字体的相似度数值。例如,步骤301中,将目标字体与参考字体都划分成四个结构块,步骤302中,将目标字体与参考字体对应地编号,得到四组对应编号的结构块,步骤303确定四组对应编号的结构块中每一组对应编号的结构块的相似度数值。在本步骤中取四组对应编号的结构块的相似度数值的平均值,将该平均值作为目标字体与参考字体的相似度数值。此处以每个参考字体划分为四个结构块为例,但不限制只能划分为四个结构块。
306、根据目标字体与参考字体的相似度数值确定解析结果。
参考字体是从参考字库中选择出来的,可能有一个或多个,当有多个参考字体时,对于每个参考字体都进行步骤301至305的操作。在本申请实施例中,将预设的相似度阈值与步骤305中确定出的目标字体与参考字体的相似度数值进行比较,确定解析结果。比如预设的相似度阈值为80%,则将相似度数值超过80%的参考字体作为一个解析结果集合输出。如果所有参考字体的相似度数值都没有超过80%则将相似度数值最高的参考字体输出。本申请实施例以相似度阈值80%为例,而不局限于只能是80%,具体相似度阈值可以人为设置,此处不做限制。
本申请实施例对于形状复杂程度很高的中文字体给出了针对性的解析,有效提高了打印字体的识别效率。
以上实施例对打印字体识别的方法进行了描述,下面对本申请实施例中打印字体识别的设备进行描述,请参阅图4,实施例四包括:
扫描单元401,用于扫描待识别的打印件;
第一处理单元402,用于将待识别的打印件转化为电子图片;
第二处理单元403,用于在电子图片中确定目标文本;
第三处理单元404,用于按照预先设置的尺寸将目标文本进行切割并得到多个目标字体;
第四处理单元405,用于将多个目标字体与参考字体进行多维化解析并得到解析结果,参考字体是从预设的参考字库中选择的,多维化解析包括从预设维度中选择的至少一个维度进行解析,解析结果包含至少一个参考字体;
输出单元406,用于输出解析结果。
其中第四处理单元405可以进一步包括:
第一处理子单元4051,用于将预置的参考字库中的参考字体和多个目标字体中的每个目标字体划分为多个结构块,多个结构块之间的相对位置是固定的;
第二处理子单元4052,用于将参考字体的多个结构块和每个目标字体的多个结构块按照相同的规则进行编号,得到多组对应编号的结构块;
第三处理子单元4053,用于将多组对应编号的结构块进行二值化处理;
第四处理子单元4054,用于将多组对应编号的结构块根据从预设维度中选择的至少一个维度进行对比,并得到多组对应编号的结构块中每一组的相似度数值;
第五处理子单元4055,用于根据多组对应编号的结构块中每一组的相似度数值确定目标字体与参考字体的相似度数值;
第六处理子单元4056,用于根据目标字体与参考字体的相似度数值确定解析结果。
其中,第三处理子单元4053还可以进一步包括:
第一处理模块40531,用于过滤出多组对应编号的结构块中灰度数值超过预设灰度阈值的像素点;
第二处理模块40532,用于确定灰度数值超过预设灰度阈值的像素点有打印内容。
本实施例所示的设备用于执行实施例二以及实施例三所示的方法,具体执行过程,请详见实施例二以及实施例三所示,所取得的有益效果,也请参见实施例二以及实施例三所示,具体不做赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请中出现的对步骤进行的命名或者编号,并不意味着必须按照命名或者编号所指示的时间/逻辑先后顺序执行方法流程中的步骤,已经命名或者编号的流程步骤可以根据要实现的技术目的变更执行次序,只要能达到相同或者相类似的技术效果即可。本申请中所出现的模块的划分,是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请方案的目的。
以上对本发明实施例所提供的打印字体识别的方法、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种打印字体识别的方法,其特征在于,包括:
扫描待识别的打印件;
将所述待识别的打印件转化为电子图片;
在所述电子图片中确定目标文本;
按照预先设置的尺寸将所述目标文本进行切割并得到多个目标字体;
将所述多个目标字体与参考字体进行多维化解析并得到解析结果,所述参考字体是从预设的参考字库中选择的,所述多维化解析包括从预设维度中选择的至少一个维度进行解析,所述解析结果包含至少一个所述参考字体;
输出所述解析结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个目标字体与参考字体进行多维化解析并得到解析结果,包括:
将所述参考字体和所述多个目标字体中的每个目标字体划分为多个结构块,所述多个结构块之间的相对位置是固定的;
将所述参考字体的多个结构块和所述每个目标字体的多个结构块按照相同的规则进行编号,得到多组对应编号的结构块;
将所述多组对应编号的结构块进行二值化处理;
将所述多组对应编号的结构块根据所述从预设维度中选择的至少一个维度进行对比,并得到所述多组对应编号的结构块中每一组的相似度数值;
根据所述多组对应编号的结构块中每一组的相似度数值确定所述目标字体与所述参考字体的相似度数值;
根据所述目标字体与所述参考字体的相似度数值确定所述解析结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述多组对应编号的结构块进行二值化处理,包括:
过滤出所述多组对应编号的结构块中灰度数值超过预设灰度阈值的像素点;
确定所述灰度数值超过预设灰度阈值的像素点有打印内容。
4.根据权利要求3所述的方法,其特征在于,所述过滤出所述多组对应编号的结构块中灰度数值超过预设灰度阈值的像素点,包括:
将所述多组对应编号的结构块中每个像素点的灰度数值与所述预设灰度阈值进行比较;
若所述像素点的灰度数值大于或等于所述预设灰度阈值,则提取所述像素点。
5.根据权利要求1-4所述的方法,其特征在于,所述预设维度包括:
像素位置、结构位置、灰度值或延续性。
6.一种打印字体识别的设备,其特征在于,包括:
扫描单元,用于扫描待识别的打印件;
第一处理单元,用于将所述待识别的打印件转化为电子图片;
第二处理单元,用于在所述电子图片中确定目标文本;
第三处理单元,用于按照预先设置的尺寸将所述目标文本进行切割并得到多个目标字体;
第四处理单元,用于将所述多个目标字体与参考字体进行多维化解析并得到解析结果,所述参考字体是从预设的参考字库中选择的,所述多维化解析包括从预设维度中选择的至少一个维度进行解析,所述解析结果包含至少一个所述参考字体;
输出单元,用于输出所述解析结果。
7.根据权利要求6所述的设备,其特征在于,第四处理单元包括:
第一处理子单元,用于将所述参考字体和所述多个目标字体中的每个目标字体划分为多个结构块,所述多个结构块之间的相对位置是固定的;
第二处理子单元,用于将所述参考字体的多个结构块和所述每个目标字体的多个结构块按照相同的规则进行编号,得到多组对应编号的结构块;
第三处理子单元,用于将所述多组对应编号的结构块进行二值化处理;
第四处理子单元,用于将所述多组对应编号的结构块根据所述从预设维度中选择的至少一个维度进行对比,并得到所述多组对应编号的结构块中每一组的相似度数值;
第五处理子单元,用于根据所述多组对应编号的结构块中每一组的相似度数值确定所述目标字体与所述参考字体的相似度数值;
第六处理子单元,用于根据所述目标字体与所述参考字体的相似度数值确定所述解析结果。
8.根据权利要求7所述的设备,其特征在于,第三处理子单元包括:
第一处理模块,用于过滤出所述多组对应编号的结构块中灰度数值超过预设灰度阈值的像素点;
第二处理模块,用于确定所述灰度数值超过预设灰度阈值的像素点有打印内容。
9.一种打印字体识别的设备,其特征在于,所述设备包括:
处理器和存储器,所述存储器中存储有程序指令;所述处理器用于执行存储器中存储的程序指令,执行如权利要求1-5任一所述的方法。
10.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机设备上运行时,使得所述计算机设备执行如权利要求1-5任一所述的方法。
CN201811162596.XA 2018-09-30 2018-09-30 一种打印字体识别的方法、设备及存储介质 Active CN109145879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811162596.XA CN109145879B (zh) 2018-09-30 2018-09-30 一种打印字体识别的方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811162596.XA CN109145879B (zh) 2018-09-30 2018-09-30 一种打印字体识别的方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109145879A true CN109145879A (zh) 2019-01-04
CN109145879B CN109145879B (zh) 2021-01-12

Family

ID=64810460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811162596.XA Active CN109145879B (zh) 2018-09-30 2018-09-30 一种打印字体识别的方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109145879B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978078A (zh) * 2019-04-10 2019-07-05 厦门元印信息科技有限公司 字体版权检测方法、介质、计算机设备及装置
CN110126484A (zh) * 2019-05-30 2019-08-16 深圳龙图腾创新设计有限公司 一种打印设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741035A (zh) * 2005-09-23 2006-03-01 清华大学 印刷体阿拉伯字符集文本切分方法
CN104463195A (zh) * 2014-11-08 2015-03-25 沈阳工业大学 基于模板匹配的印刷体数字识别方法
CN105160343A (zh) * 2015-08-12 2015-12-16 蓝网科技股份有限公司 应用于胶片按需打印系统的信息识别方法和装置
CN106875546A (zh) * 2017-02-10 2017-06-20 大连海事大学 一种增值税发票的识别方法
CN106991422A (zh) * 2017-05-02 2017-07-28 北京京东金融科技控股有限公司 字符切割方法、装置及计算机可读存储介质和电子设备
CN107169496A (zh) * 2017-04-19 2017-09-15 北京三快在线科技有限公司 一种文字识别方法和装置
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1741035A (zh) * 2005-09-23 2006-03-01 清华大学 印刷体阿拉伯字符集文本切分方法
CN104463195A (zh) * 2014-11-08 2015-03-25 沈阳工业大学 基于模板匹配的印刷体数字识别方法
CN105160343A (zh) * 2015-08-12 2015-12-16 蓝网科技股份有限公司 应用于胶片按需打印系统的信息识别方法和装置
CN106875546A (zh) * 2017-02-10 2017-06-20 大连海事大学 一种增值税发票的识别方法
CN107169496A (zh) * 2017-04-19 2017-09-15 北京三快在线科技有限公司 一种文字识别方法和装置
CN106991422A (zh) * 2017-05-02 2017-07-28 北京京东金融科技控股有限公司 字符切割方法、装置及计算机可读存储介质和电子设备
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978078A (zh) * 2019-04-10 2019-07-05 厦门元印信息科技有限公司 字体版权检测方法、介质、计算机设备及装置
CN109978078B (zh) * 2019-04-10 2022-03-18 厦门元印信息科技有限公司 字体版权检测方法、介质、计算机设备及装置
CN110126484A (zh) * 2019-05-30 2019-08-16 深圳龙图腾创新设计有限公司 一种打印设备

Also Published As

Publication number Publication date
CN109145879B (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
US20190188528A1 (en) Text detection method and apparatus, and storage medium
CN108470021A (zh) Pdf文档中表格的定位方法及装置
CN110363102A (zh) 一种pdf文件的对象识别处理方法及装置
CN108280051B (zh) 一种文本数据中错误字符的检测方法、装置和设备
KR20170137170A (ko) 텍스트 이미지 처리 방법 및 장치
EP3703010B1 (en) Object detection and candidate filtering system
CN111368511A (zh) Pdf文档解析方法及装置
CN109145879A (zh) 一种打印字体识别的方法、设备及存储介质
CN104966109B (zh) 医疗化验单图像分类方法及装置
CN113780276A (zh) 一种结合文本分类的文本检测和识别方法及系统
CN110389840B (zh) 负载消耗预警方法、装置、计算机设备和存储介质
CN111178530A (zh) 一种基于数据标注的质检方法和装置
CN113408323B (zh) 表格信息的提取方法、装置、设备及存储介质
CN105069450A (zh) 一种快速的多文字识别方法
JP4967045B2 (ja) 背景判別装置、方法及びプログラム
CN111369489B (zh) 一种图像识别方法、装置及终端设备
CN110163028A (zh) 一种精准图像识别系统及图像识别方法
CN111797922B (zh) 文本图像分类方法及装置
CN113850265A (zh) Pdf文档的解析方法、装置、电子设备及存储介质
CN109034166A (zh) 易混淆字符识别模型训练方法和装置
CN108509487B (zh) 基于脉冲发放皮层模型的图像检索方法、设备及存储介质
CN112435151A (zh) 一种基于关联分析的政务信息数据处理方法及系统
CN112084092A (zh) 一种诊断规则的确定方法、装置、设备及存储介质
CN109344836A (zh) 一种文字识别方法和设备
CN111124151B (zh) 一种智能文本框输入方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant