CN112966688A - 一种字体检测方法 - Google Patents

一种字体检测方法 Download PDF

Info

Publication number
CN112966688A
CN112966688A CN202110165025.7A CN202110165025A CN112966688A CN 112966688 A CN112966688 A CN 112966688A CN 202110165025 A CN202110165025 A CN 202110165025A CN 112966688 A CN112966688 A CN 112966688A
Authority
CN
China
Prior art keywords
font
character
generating
fingerprint
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110165025.7A
Other languages
English (en)
Inventor
林俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Daodou Network Technology Co ltd
Original Assignee
Hangzhou Daodou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Daodou Network Technology Co ltd filed Critical Hangzhou Daodou Network Technology Co ltd
Priority to CN202110165025.7A priority Critical patent/CN112966688A/zh
Publication of CN112966688A publication Critical patent/CN112966688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • G06T5/70
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种字体检测方法其包括以下步骤:(1)创建字体库,读取大量字体文件,根据文件内包含的字符数据,生成各字符对应图案,所有字体组合成为字体库;(2)将字符对应的图案生成对比字符指纹;(3)将需检测的图片文字生成检测字符指纹;(4)将检测字符指纹与字体库中的对比字符指纹进行比对,得到最接近的字体。本发明通过引入字体指纹,将图片中的文字转化成字体指纹与字体库中的字体指纹比对,快速找出需检测的字体类型,准确率高,且效率快。

Description

一种字体检测方法
技术领域
本发明属于字体检测技术领域,具体涉及一种字体检测方法。
背景技术
目前,一张图片中的字体主要是通过人工识别出为何种字体,需要通过多种字体相互对比才能判别出来,而且准确率低,效率慢;字体检测技术是根据所给出的文字图案,在字体库中查找到相对应的字体,主要应用于设计师等职业人群,为了快速识别图片中文字使用何种字体,急需提出一种字体识别技术。
发明内容
有鉴于此,本发明提出一种字体检测方法,能够快速识别图片中的字体,而且准确率高。
为了达到目的,本发明提供的技术方案为:
本发明涉及一种字体检测方法其包括以下步骤:
(1)创建字体库,读取大量字体文件,根据文件内包含的字符数据,生成各字符对应图案,所有字体组合成为字体库;
(2)将字符对应的图案生成对比字符指纹;
(3)将需检测的图片文字生成检测字符指纹;
(4)将检测字符指纹与字体库中的对比字符指纹进行比对,得到最接近的字体。
优选地,所述的字体文件为ttf或otf格式文件
优选地,所述生成对比字符指纹的具体步骤包括:
(2.1)将带有字体的图案M转换为灰度图G;
(2.2)通过计算全图像素值均值将灰度图G进行二值化处理,生成二维数组A;大于等于均值的像素点置为1,小于均值的像素点置为0,最终成为只有0和1的二值化二维数组;
(2.3)将二维数组扩展为一维向量,得到对比字符指纹V。
通过特定软件包(如Python可使用Pillow模块)可以将字体文件中的数据以图案显示,输入法根据用户输入的文字+字体文件在计算机上显示文字图案。生成对比字符指纹可节约存储成本,并且便于计算。一般图案数据都是KB级别,生成指纹后为B级别,降低了3个数量级。
优选地,所述生成检测字符指纹的具体步骤包括:
(3.1)圈选出需检测的图片M2中文字部分;
(3.2)将文字部分转换为灰度图Mwg;
(3.3)将灰度图通过OTSU算法进行二值化,得到二维数组A2;
(3.4)根据二维数组A2边缘像素值生成文字部分的二维数组A3;
(3.5)将二维数组A3扩展为一维向量,得到检测字符指纹V2。
通过观测A2边缘像素值(边缘一般为背景而非文字部分),可确定二值化的A2数组中0、1的值是否设置正确。如果边缘像素值为0,则认为背景部分已被置0,文字部分已被置1如果边缘像素值为1,则认为OTSU算法设置错误,需要将A2中的所有0置为1,所有1置为0。二维数组A3是边缘像素值为1的数组。
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
1、本发明通过引入字体指纹,将图片中的文字转化成字体指纹与字体库中的字体指纹比对,快速找出需检测的字体类型,准确率高,且效率快。
2、本发明采用灰度图+OTSU算法+二值化的步骤对图片文字进行去背景噪声,正确提取字符本体,提高字体检测的正确率。
3、本发明通过处理图片,将KB级别的图案数据,降维成B级别的一维向量,比对更加方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法的流程框图;
图2为步骤二的流程框图;
图3为步骤三的流程框图。
具体实施方式
为进一步了解本发明的内容,结合实施例对本发明作详细描述,以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例涉及一种字体检测方法其包括以下步骤:
(1)创建字体库,读取大量ttf或otf格式的字体文件,根据文件内包含的字符数据,生成各字符对应图案,所有字体组合成为字体库;
(2)将字符对应的图案生成对比字符指纹;
(3)将需检测的图片文字生成检测字符指纹;
(4)将检测字符指纹与字体库中的对比字符指纹进行比对,得到最接近的字体。
参照图2,所述生成对比字符指纹的具体步骤包括:
(2.1)将带有字体的图案M转换为灰度图G,缩放灰度图G到合适大小;
(2.2)通过计算全图像素值均值将灰度图G进行二值化处理,生成二维数组A;大于等于均值的像素点置为1,小于均值的像素点置为0,最终成为只有0和1的二值化二维数组;
(2.3)将二维数组扩展为一维向量,得到对比字符指纹V。
通过特定软件包(如Python可使用Pillow模块)可以将字体文件中的数据以图案显示,输入法根据用户输入的文字+字体文件在计算机上显示文字图案。生成对比字符指纹可节约存储成本,并且便于计算。一般图案数据都是KB级别,生成指纹后为B级别,降低了3个数量级。
参照图3,所述生成检测字符指纹的具体步骤包括:
(3.1)圈选出需检测的图片M2中文字部分Mw;
(3.2)将文字部分Mw转换为灰度图Mwg;
(3.3)将灰度图通过OTSU算法进行二值化,得到二维数组A2;
(3.4)根据二维数组A2边缘像素值生成文字部分的二维数组A3;
(3.5)将二维数组A3扩展为一维向量,得到检测字符指纹V2。
通过观测A2边缘像素值(边缘一般为背景而非文字部分),可确定二值化的A2数组中0、1的值是否设置正确。如果边缘像素值为0,则认为背景部分已被置0,文字部分已被置1如果边缘像素值为1,则认为OTSU算法设置错误,需要将A2中的所有0置为1,所有1置为0。二维数组A3是边缘像素值为1的数组。
在进行比对过程中,通过计算两个一维向量的汉明距离(2个向量进行异或运算,统计结果为1的数量),距离越小的表示向量越接近。
本实施例基于3755个字体搭建字体库进行测试,发现给出的第1个结果就是正确答案的概率为76%,前五个结果中有正确答案的概率为89%,前十个结果中有正确答案的概率为97%。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方案,实际的结构并不局限于此。所以本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (4)

1.一种字体检测方法,其特征在于,其包括以下步骤:
(1)创建字体库,读取大量字体文件,根据文件内包含的字符数据,生成各字符对应图案,所有字体组合成为字体库;
(2)将字符对应的图案生成对比字符指纹;
(3)将需检测的图片文字生成检测字符指纹;
(4)将检测字符指纹与字体库中的对比字符指纹进行比对,得到最接近的字体。
2.根据权利要求1所述的字体检测方法,其特征在于,所述的字体文件为ttf或otf格式文件。
3.根据权利要求1所述的字体检测方法,其特征在于,所述生成对比字符指纹的具体步骤包括:
(2.1)将带有字体的图案M转换为灰度图G;
(2.2)通过计算全图像素值均值将灰度图G进行二值化处理,生成二维数组A;
(2.3)将二维数组扩展为一维向量,得到对比字符指纹V。
4.根据权利要求1所述的字体检测方法,其特征在于,所述生成检测字符指纹的具体步骤包括:
(3.1)圈选出需检测的图片M2中文字部分Mw;
(3.2)将文字部分Mw转换为灰度图Mwg;
(3.3)将灰度图通过OTSU算法进行二值化,得到二维数组A2;
(3.4)根据二维数组A2边缘像素值生成文字部分的二维数组A3;
(3.5)将二维数组A3扩展为一维向量,得到检测字符指纹V2。
CN202110165025.7A 2021-02-06 2021-02-06 一种字体检测方法 Pending CN112966688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110165025.7A CN112966688A (zh) 2021-02-06 2021-02-06 一种字体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110165025.7A CN112966688A (zh) 2021-02-06 2021-02-06 一种字体检测方法

Publications (1)

Publication Number Publication Date
CN112966688A true CN112966688A (zh) 2021-06-15

Family

ID=76274801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110165025.7A Pending CN112966688A (zh) 2021-02-06 2021-02-06 一种字体检测方法

Country Status (1)

Country Link
CN (1) CN112966688A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298702A (ja) * 1999-04-15 2000-10-24 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US6496600B1 (en) * 1996-06-17 2002-12-17 Canon Kabushiki Kaisha Font type identification
US20170237723A1 (en) * 2016-02-17 2017-08-17 Adobe Systems Incorporated Utilizing a customized digital font to identify a computing device
CN109409373A (zh) * 2018-09-06 2019-03-01 昆明理工大学 一种基于图像处理的字体识别方法
CN110197238A (zh) * 2019-04-15 2019-09-03 广州企图腾科技有限公司 一种字体类别的识别方法、系统及终端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496600B1 (en) * 1996-06-17 2002-12-17 Canon Kabushiki Kaisha Font type identification
JP2000298702A (ja) * 1999-04-15 2000-10-24 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US20170237723A1 (en) * 2016-02-17 2017-08-17 Adobe Systems Incorporated Utilizing a customized digital font to identify a computing device
CN109409373A (zh) * 2018-09-06 2019-03-01 昆明理工大学 一种基于图像处理的字体识别方法
CN110197238A (zh) * 2019-04-15 2019-09-03 广州企图腾科技有限公司 一种字体类别的识别方法、系统及终端设备

Similar Documents

Publication Publication Date Title
US5410611A (en) Method for identifying word bounding boxes in text
US7653244B2 (en) Intelligent importation of information from foreign applications user interface
US20060018544A1 (en) Method and apparatus for detecting an orientation of characters in a document image
RU2621601C1 (ru) Устранение искривлений изображения документа
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US10025976B1 (en) Data normalization for handwriting recognition
CN110866529A (zh) 字符识别方法、装置、电子设备及存储介质
Zoizou et al. A new hybrid method for Arabic multi-font text segmentation, and a reference corpus construction
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
EP0877335B1 (en) Character recognition method, character recognition apparatus
CN107240185B (zh) 一种冠字号识别方法、装置、设备及存储介质
Memon et al. Glyph identification and character recognition for Sindhi OCR
CN112966688A (zh) 一种字体检测方法
CN113128496B (zh) 一种从图像中提取结构化数据的方法、装置和设备
CN110414496B (zh) 相似字识别方法、装置、计算机设备及存储介质
CN112434700A (zh) 车牌识别方法、装置、设备及存储介质
CN113255674A (zh) 字符识别方法、装置、电子设备及计算机可读存储介质
CN111488870A (zh) 文字识别方法和文字识别装置
CN113435331B (zh) 图像文字识别方法、系统、电子设备及存储介质
JP3209197B2 (ja) 文字認識装置及び文字認識プログラムを記録した記録媒体
CN113434491B (zh) 面向深度学习ocr识别的字模数据清洗方法、系统及介质
Ham et al. Automated analysis of mixed documents consisting of printed Korean/alphanumeric texts and graphic images
Deshpande et al. Handwritten devnagari character recognition using connected segments and minimum edit distance
CN115100672A (zh) 文字检测识别方法、装置、设备与计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210615