CN115063808A

CN115063808A - 一种基于聚类特征提取的ocr字体识别方法及系统

Info

Publication number: CN115063808A
Application number: CN202210989512.XA
Authority: CN
Inventors: 刘真; 李思伟; 申鑫; 池沐霖; 纪绿彬
Original assignee: Excellence Information Technology Co ltd
Current assignee: Excellence Information Technology Co ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-09-16
Anticipated expiration: 2042-08-18
Also published as: CN115063808B

Abstract

本发明公开了一种基于像素在稳定方向上连通性的OCR表格识别方法及系统，该方法在同一OCR风格识别模型内设置了图像分割层、第一聚类层和第二聚类层，并以此对待识别文字进行笔划图形切割、笔划聚类和书法风格聚类，以获得该文字中各笔划所对应的书法风格，最后由局部书法风格确定整个文字的书法风格。本发明实施例通过OCR技术与聚类算法的结合，能够实现一个识别模型的多种书法风格的识别，提高识别准确率和模型的实用性。

Description

一种基于聚类特征提取的OCR字体识别方法及系统

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于聚类特征提取的OCR字体识别方法及系统。

背景技术

OCR(Optical Character Recognition)，中文叫做光学字符识别，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。而OCR对于字体的识别也逐渐应用在书法领域，例如通过OCR技术对书法练习的识别、纠错和评分（专利号202110545810.5）。

但是，现有技术并没有通过OCR技术对字体的风格进行识别的相关技术方案，因为OCR技术在进行特征提取时，为保证识别准确率，会将书法风格中的笔划勾勒识别为噪音或无效特征。即使通过大量的训练样本对OCR识别模型进行风格识别的训练，也只能针对单一书法风格，无法实现单一识别模型的多书法风格的准确识别，训练成本高且适用性差。

发明内容

本发明实施例提供一种基于聚类特征提取的OCR字体识别方法及系统，实现一个识别模型的多种书法风格的识别，提高识别准确率和模型的实用性。

第一方面，本发明实施例提供了一种基于聚类特征提取的OCR字体识别方法，包括：

获取待识别文字；

将所述待识别文字输入至OCR风格识别模型，以使所述OCR风格识别模型通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，并通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，继而通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，再根据每个笔划图形的连通区域面积和各书法风格，计算各笔划的书法风格所对应的权重，从而确定并输出所述待识别文字的书法风格；

其中，所述OCR风格识别模型内设置有所述图像分割层、所述第一聚类层和所述第二聚类层。

本发明实施例在同一OCR风格识别模型内设置了图像分割层、第一聚类层和第二聚类层，并以此对待识别文字进行笔划图形切割、笔划聚类和书法风格聚类，以获得该文字中各笔划所对应的书法风格，最后由局部书法风格确定整个文字的书法风格。相比于现有技术并没有OCR识别文字风格的技术方案，本发明实施例通过OCR技术与聚类算法的结合，能够实现一个识别模型的多种书法风格的识别，提高识别准确率和模型的实用性。此外，本发明实施例在进行聚类运算时，先对文字笔划进行一次聚类，再对书法风格进行二次聚类，与其他无OCR技术的风格识别方案相比，本发明实施例不是直接对文字本身进行整体识别，而是通过局部到整体的方式实现书法风格识别，减少误差的同时提高识别的准确性。

作为本实施例的优选，所述通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，具体为：

通过所述图形分割层将所述待识别文字进行灰度二值化处理，获得待分割字符，并对所述待分割字符进行特征提取，结合预设的特征权重，将提取的特征进行划分，再根据划分后的字符形成若干个笔划图形；

其中，所述图形分割层是根据多个样品文字以及各样品文字对应的笔划分割结果而训练而成。

作为本实施例的优选，所述通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，具体为：

所述第一聚类层根据第一聚类中心和k-means算法，分别确定各笔划图形所属的各第一类别；

所述第一聚类层根据第一类别内各第一聚类子中心和KNN算法，分别确定各笔划图形在所述第一类别中的第一子类别，以确定的第一子类别作为笔划所对应的笔划类别；

其中，所述第一类别包括：单笔划类和组合笔划类；所述单笔划类的第一子类别包括：点类、横类、竖类、撇类、捺类和提类；所述组合笔划类的第一子类别包括：横折类、横撇类、横钩类、横折提类、横折弯类、横折折类、横斜钩类、横折弯钩类、横撇弯钩类、横折折撇类、横折折折类、横折折折钩类、竖提类、竖折类、竖钩类、竖弯类、竖弯钩类、竖折撇类、竖折折类、竖折折钩类、撇点类、撇折类、斜钩类、弯钩类和卧钩类。

本优选例子通过k-means算法确定笔划图形所属的第一类别，再通过KNN算法确定笔划图形在第一类别中的子类别，通过先粗聚类后细聚类的方式，能够将笔划准确划分到各子类别，从而提高识别的准确性。

作为本实施例的优选，所述通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，具体为：

通过所述第二聚类层将确定笔划类别的笔划图形划分至相应的第二聚类子单元；其中，各第二聚类子单元分别一一对应一个笔划类别，并用于对所属笔划类别内笔划图形进行风格聚类；

根据各第二聚类子单元输出的聚类结果，确定每个笔划所对应的书法风格；

其中，所述书法风格包括：篆书、隶书、楷书、行书和草书。

本优选例子针对不同笔划类型设置对应的第二聚类子单元，并对同一笔划类型的笔划进行风格聚类，不同于直接用文字进行风格识别，相同笔划类型下的风格聚类能够进一步将注意力放在风格上的差异，无需考虑笔划差异而带来的误差，进一步提高识别的准确性。

作为本实施例的优选，所述根据每个笔划图形的连通区域面积和各书法风格，计算各笔划的书法风格所对应的权重，从而确定并输出所述待识别文字的书法风格，具体为：

计算每个笔划图形的连通区域面积，并根据每个连通区域面积与整个待识别文字的所有连通区域面积之间的比例，确定每个笔划的占比；

根据每个笔划的占比和每个笔划对应的书法风格，计算各书法风格所对应的权重，选择权重最大的书法风格作为所述待识别文字的书法风格。

本优选例子通过笔划与文字之间的占比，筛选出权重最大的书法风格作为待识别文字的书法风格，识别出的书法风格更具有文字特性，进一步提高识别的准确性。

作为本实施例的优选，所述OCR风格识别模型内还设置有第三聚类层；

所述第三聚类层用于在确定所述待识别文字的书法风格后，将待识别文字发送至对应的第三聚类子单元；其中，所述所述第三聚类层内设置有多个第三聚类子单元，各所述第三聚类子单元分别一一对应一个书法风格，并用于对所属书法风格内的文字进行艺术风格聚类；

根据第三聚类子单元输出的聚类结果，确定所述待识别文字所属的艺术风格。

本优选例子，OCR风格识别模型内还设置有第三聚类层，用于对文字的艺术风格进行聚类，确定待识别文字的艺术风格。相比于现有技术无法识别文字的艺术风格，本发明实施例在确定了书法风格后再去进行艺术风格的识别，使得识别更具有针对性，进一步提高识别的准确性，而且扩大了本发明的适用性。

第二方面，本发明实施例提供了基于聚类特征提取的OCR字体识别系统，包括：获取模块和识别模块；

所述获取模块用于获取待识别文字；

所述识别模块用于将所述待识别文字输入至OCR风格识别模型，以使所述OCR风格识别模型通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，并通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，继而通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，再根据每个笔划图形的连通区域面积和各书法风格，计算各笔划的书法风格所对应的权重，从而确定并输出所述待识别文字的书法风格；

作为本实施例的优选，所述通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，包括：

附图说明

图1是本发明提供的基于聚类特征提取的OCR字体识别方法的一种实施例的流程示意图；

图2是本发明提供的基于聚类特征提取的OCR字体识别系统的一种实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明提供的基于聚类特征提取的OCR字体识别方法的一种实施例的流程示意图，包括步骤101至步骤102，各步骤具体如下：

步骤101：获取待识别文字。

在本实施例中，待识别文字为汉字，可以但不限于通过摄像设备拍摄或采集的，也可以是通过终端设备进行实时输入。

步骤102：将所述待识别文字输入至OCR风格识别模型，以使所述OCR风格识别模型通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，并通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，继而通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，再根据每个笔划图形的连通区域面积和各书法风格，计算各笔划的书法风格所对应的权重，从而确定并输出所述待识别文字的书法风格。

在本实施例中，OCR风格识别模型内设置有所述图像分割层、第一聚类层和第二聚类层。模型内的各层可以用同一训练样本或不同的训练样本进行训练。训练样本为带标注的图片，标注可以但不限于由人工标注或由其他现有技术进行自动标注。训练样本包括若干个样本文字、每个样本文字对应的各笔划图形、各笔划图形所属的笔划类别和各样本文字所属的书法风格。进一步的，训练样本还可以包括各样本文字的艺术风格。

在本实施例中，通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，具体为：通过所述图形分割层将所述待识别文字进行灰度二值化处理，获得待分割字符，并对所述待分割字符进行特征提取，结合预设的特征权重，将提取的特征进行划分，再根据划分后的字符形成若干个笔划图形。

在本实施例中，图形分割层是根据多个样品文字以及各样品文字对应的笔划分割结果而训练而成。笔划分割结果可以由训练样本中每个样本文字对应的各笔划图形而获得。

在本实施例中，图形分割层的训练以及利用OCR技术对待识别文字进行二值化处理、特征提取、字符分割等技术为现有技术，在此不再赘述。

在本实施例中，通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，具体为：所述第一聚类层根据第一聚类中心和k-means算法，分别确定各笔划图形所属的各第一类别；所述第一聚类层根据第一类别内各第一聚类子中心和KNN算法，分别确定各笔划图形在所述第一类别中的第一子类别，以确定的第一子类别作为笔划所对应的笔划类别。

在本实施例中，第一聚类层的训练是根据训练样本进行的，可以针对k-means算法和KNN算法进行适应性调整。

k-means算法具体包括：

步骤1：将x样本划分到簇内；

步骤2：计算x样本与各均值向量之间的距离；

步骤3：根据均值最近的向量确定簇标记。

步骤4：将样本划分到相应的簇。

步骤5：确定新的均值向量。

KNN算法具体包括：

算距离：给定待分类样本，计算它与分类样本中的每个样本的距离；

找邻居：圈定与待分类样本距离最近的K个已分类样本，作为待分类的近邻；

做分类：根据这个K个近邻的大部分样本所属的类别来决定待分类样本该属于哪个分类。

在本实施例中，第一聚类层为笔划聚类层，并将笔划类别划分为单笔划类和组合笔划类，再进一步在大类写进行小类别分类，通过先粗聚类后细聚类的方式，能够将笔划准确划分到各子类别，从而提高识别的准确性。

进一步的，k-means算法和KNN算法为现有技术，在此不再赘述。

在本实施例中，通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，具体为：通过所述第二聚类层将确定笔划类别的笔划图形划分至相应的第二聚类子单元；其中，各第二聚类子单元分别一一对应一个笔划类别，并用于对所属笔划类别内笔划图形进行风格聚类；根据各第二聚类子单元输出的聚类结果，确定每个笔划所对应的书法风格。

在本实施例中，书法风格包括：篆书、隶书、楷书、行书和草书。

在本实施例中，由于将笔划类别划分了多个小类，因此同一个字的书法风格可以延伸出各笔划类别对应的书法风格，因此只需小量样本即可完成训练，提高训练的效率。训练时可以选择不同作者的同一书法风格，以提高模型的抗干扰性。

在本实施例中，根据每个笔划图形的连通区域面积和各书法风格，计算各笔划的书法风格所对应的权重，从而确定并输出所述待识别文字的书法风格，具体为：

计算每个笔划图形的连通区域面积，并根据每个连通区域面积与整个待识别文字的所有连通区域面积之间的比例，确定每个笔划的占比；根据每个笔划的占比和每个笔划对应的书法风格，计算各书法风格所对应的权重，选择权重最大的书法风格作为所述待识别文字的书法风格。

本实施例在进行笔划分割时即可得到每个笔划的连通区域面积，并根据笔划与文字之间的比例，确定笔划的占比，以此作为书法风格的基本权重，统计所有笔划的基本权重，即可得到各书法风格所对应的权重。

作为本实施例的一种举例，OCR风格识别模型内还设置有第三聚类层；

所述第三聚类层用于在确定所述待识别文字的书法风格后，将待识别文字发送至对应的第三聚类子单元；其中，所述所述第三聚类层内设置有多个第三聚类子单元，各所述第三聚类子单元分别一一对应一个书法风格，并用于对所属书法风格内的文字进行艺术风格聚类；根据第三聚类子单元输出的聚类结果，确定所述待识别文字所属的艺术风格。

在本举例中，不仅能够对文字的书法风格进行识别，还能识别文字所属的艺术风格，而且在书法风格上进行艺术风格的聚类，能缩小聚类范围，减少误差，提高艺术风格的识别准确性。

在本举例中，艺术风格包括：工巧、天真、自然、方正、圆熟、丰润、瘦硬、紧结、宽博、雄浑、刚健、秀逸、古朴、潇洒、文静、清雅、端庄、沉着、爽利、老辣、醇和、险劲、犷野、怪奇和狞厉。

其中，工巧是一种精工巧饰的风格。它相涵、相当或相似于工细、工致、精巧、雕饰、华饰，与“自然”、“古朴”、“犷野”风格等相对应。天真是一种毫无矫揉造作之态、亦无雕虫斧凿之痕的风格。它是书者不拘于成法、不泥于世俗，心地单纯、性情率放、独表性灵、信手而为的结果。自然是一种近于天然或宛若天成的风格。它是书者在长期实践基础之上豁然贯通、于自然形象触发“顿悟”而为书的结果。方正是一种字形结体外满、整齐、端方、正直的风格。它给人以严正、密满、静穆和敦厚之感。圆熟是一种书法技巧纯熟而演化形成的风格。书者因平时对古法帖名家揣摩至深，技巧已烂熟于心，信手拈出皆成法，融会后的技巧当然有质量上的保证。丰润是一种外不露锋芒、内藏肃穆之气，丰肌附骨，作品无论是肌肤还是气度在整体上都有一种滋润感的风格。丰润的极端是“腴”，丰腴未必肥，“丰”要能“润”，不可留下“墨猪”之态。瘦硬是一种与“丰润”相对应，画瘦而质硬的风格。紧结是一种字心攒集，给人以装束紧严、结构缜密之感的风格。宽博是一种与“紧结”风格相对应，表现为外满内疏特别是中宫虚疏的风格。雄浑是一种似丰碑巨额之大、商鼎周器之重的风格。它给人以深沉博大、一言九鼎、雄强有力、阳刚之气的感受。刚健是一种有“雄浑”的阳刚之气，但更加突出“键”即力感的风格。刚健之美在于发“力”，这个力不是物理之力，而是通过对比、弹性、逆势等一系列辅助手段呈现出来的，生硬的刻凿是难以为继的。秀逸是一种与“雄浑”风格形成鲜明对比的风格。它可以是娟秀、雅逸、恬静、轻松、妩媚、柔婉、清丽等，体现出成熟、理性的特征。古朴是一种脱去巧饰、见出自然与真性情的风格。古朴的内容包括“质”与“拙” 这两个方面，它不拘于小处的微妙处理，立足大气氛的把握，是一种宏大的审美气度，因而从古朴之美中可以引伸出磅礴大气、取象恢宏、深厚沉稳等偏于壮美的内容。潇洒是一种挥洒自如和逸笔草草、轻松而幽雅自如的风格。是具有一种偏于外表的、柔性基调的、翩翩风度的美。潇洒风格是书法技艺的熟练升华到风格层次的显现，鉴赏此类作品可以观照到书者娴熟的技艺。文静是一种内力含蓄、形式内敛、以静取胜的风格。它是典型的满腹珠玑、锦衣绣口、饱学聪颖的士大夫格调。文静绝非完全不重书法的运动感，只是动感不以强烈的动态表现出来，是将运动感从表面的形式表露引向深层、内含不露，在呼应揖让之间以欲擒故纵的方式完成的。清雅是一种与“文静”风格同类，但重在韵致的提取而非偏于形式内敛的风格。“清”是秀美而不是壮美，“雅”是格调高深、不落世俗。端庄是一种有庙堂重臣之威严、动辄有据之稳重，似“正人君子”的风格。此种书作间架结构是平凡的横平竖直而不作欹斜取巧貌，线条是沉实而过，即使有微弱的顿挫笔但不故为夸张佛达以见稳健之旨，章法则是一反错落而纵横相安，作品整体气氛上呈现出堂正之气。沉着是一种近似于“端庄”风格，其用笔不轻浮、不薄弱、不纤巧，线条浑厚饱满、行中有留，压得住纸、留得住笔的风格。爽利是一种在技巧上求“显”弃“隐”、用笔干脆利落、进退分明，不屑含糊而尚清晰、不求苍老而重精警的风格。老辣是一种“人书俱老”、很有个性且不矫饰的风格。它往往表现为笔力苍劲、筋骨壮健、格调古朴、体势雄峻，大体上属于阳刚之美。“人老”绝非仅指年岁大，内含书者个性天成、风格成熟之意，“书老”即书法功力深厚且自然流露。老辣是积累工夫的产物，是一种有血有肉的功夫的艺术表现。醇和是一种炉火纯青、意境深远而形式恬淡、技巧貌不惊人却千锤百炼，给人以平和、坦然、超脱，特具回味悠长之感的风格。它平淡而绝非浅薄，并不一般地反对冲突与对比，而是在冲突前提之下的和谐，具有自身的厚度和深度，是陈酿老酒所具有的持久悠然的醇香。险劲是一种脱出平整与秩序而求变化的风格。它与“文静”风格相对应。反常求变谓之“险”，险体现于字的线条组织具有一种明显的张力，给人以显然的不稳定、紧张、收缩与扩散的感觉。犷野是一种与整饬背道，给人以生疏、幼稚、贫乏、笨拙之感，留下乱头粗服印象，几乎让人感到不愉快和不满足的风格。它解散成法，纵任无方，往往既不注重线条本身的圆润周到，也不考虑结体必须平衡稳定，信手刷去，无论优劣，简直是一种完全反理性的狂放追求，是书者复杂的个性的反映。怪奇是一种不同书体或不同用笔畸形交杂、融为一体，给人以常情惊诧的风格。如唐朝颜真卿的《裴将军诗》就具有怪奇风格。狞厉是一种“蔑视”固有技法传统，几乎不体现既定的书写规范，线条方折生硬、圭角横生得令人吃惊，章法处理错落与穿插不显示理性思考的任何痕迹的风格。

在本举例中，各个艺术风格都拥有相对应的代表作品，而且同一代表作品可以拥有多个艺术风格，在训练前将各风格的代表作品进行标注，使的第三聚类层能够将主观性强的艺术风格，通过客观特征的提取和聚类进行识别，相比于现有技术无法识别文字的艺术风格，本发明实施例在确定了书法风格后再去进行艺术风格的识别，使得识别更具有针对性，进一步提高识别的准确性，而且扩大了本发明的适用性。

相应地，参见图2，图2是本发明提供的基于聚类特征提取的OCR字体识别系统，包括：获取模块201和识别模块202。

获取模块用201于获取待识别文字；

识别模块202用于将所述待识别文字输入至OCR风格识别模型，以使所述OCR风格识别模型通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，并通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，继而通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，再根据每个笔划图形的连通区域面积和各书法风格，计算各笔划的书法风格所对应的权重，从而确定并输出所述待识别文字的书法风格；

本系统更详细的工作原理与流程可以但不限于参见上文的相关描述。

由上可见，本实施例具有以下有益效果：

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于聚类特征提取的OCR字体识别方法，其特征在于，包括：

获取待识别文字；

2.根据权利要求1所述的基于聚类特征提取的OCR字体识别方法，其特征在于，所述通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，具体为：

3.根据权利要求1所述的基于聚类特征提取的OCR字体识别方法，其特征在于，所述通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，具体为：

4.根据权利要求3所述的基于聚类特征提取的OCR字体识别方法，其特征在于，所述通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，具体为：

5.根据权利要求4所述的基于聚类特征提取的OCR字体识别方法，其特征在于，所述根据每个笔划图形的连通区域面积和各书法风格，计算各笔划的书法风格所对应的权重，从而确定并输出所述待识别文字的书法风格，具体为：

6.根据权利要求4所述的基于聚类特征提取的OCR字体识别方法，其特征在于，所述OCR风格识别模型内还设置有第三聚类层；

7.一种基于聚类特征提取的OCR字体识别系统，其特征在于，包括：获取模块和识别模块；

所述获取模块用于获取待识别文字；

8.根据权利要求7所述的基于聚类特征提取的OCR字体识别系统，其特征在于，所述通过图形分割层对所述待识别文字进行笔划图形切割，获得若干个笔划图形，具体为：

9.根据权利要求7所述的基于聚类特征提取的OCR字体识别系统，其特征在于，所述通过第一聚类层对各笔划图形进行第一聚类计算，获得每个笔划所对应的笔划类别，具体为：

10.根据权利要求9所述的基于聚类特征提取的OCR字体识别系统，其特征在于，所述通过第二聚类层将确定笔划类别的笔划图形进行第二次聚类计算，获得每个笔划所对应的书法风格，包括：