CN107330430B - 藏文字符识别装置与方法 - Google Patents

藏文字符识别装置与方法 Download PDF

Info

Publication number
CN107330430B
CN107330430B CN201710501850.3A CN201710501850A CN107330430B CN 107330430 B CN107330430 B CN 107330430B CN 201710501850 A CN201710501850 A CN 201710501850A CN 107330430 B CN107330430 B CN 107330430B
Authority
CN
China
Prior art keywords
tibetan
character
suspected
characters
outer frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710501850.3A
Other languages
English (en)
Other versions
CN107330430A (zh
Inventor
马兆远
梁冬雪
李蕊
郝欣童
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ganzhou Langshun Digital Technology Co.,Ltd.
Original Assignee
Bmi Beijing Intelligent System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bmi Beijing Intelligent System Co ltd filed Critical Bmi Beijing Intelligent System Co ltd
Priority to CN201710501850.3A priority Critical patent/CN107330430B/zh
Publication of CN107330430A publication Critical patent/CN107330430A/zh
Application granted granted Critical
Publication of CN107330430B publication Critical patent/CN107330430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/293Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of characters other than Kanji, Hiragana or Katakana

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种藏文字符识别装置与方法,涉及字符识别领域。该藏文字符识别装置与方法通过接收一高拍仪发送的拍摄得到的藏文字符文档图像,依据藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围;若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并,从而针对藏文的特殊结构与特殊的字节形状,排除了对藏文字符误识别的情况,提高了对藏文字符识别的准确率度。

Description

藏文字符识别装置与方法
技术领域
本发明涉及字符识别领域,具体而言,涉及一种藏文字符识别装置与方法。
背景技术
藏族传统文化是中国灿烂文化摇篮中的一员,藏文的历史悠久,文字的造型优美,用藏文记载的文献古籍和译作数不胜数,而为了将这些传统的优秀的文化长久地留存下去,文字的信息化便显得非常重要,在现有的信息科技大时代下,对文字的信息化的实例已经屡见不鲜,英文,汉字的识别技术也已经很成熟。
现有的字符识别技术,主要以特征提取为主,送入特征分类器,输出最后识别的字符;而英语、汉字的字型固定,在预处理上相对容易,但藏文的结构变化比较多,字节也有很多形状,以现有的字符识别技术难以提高识别率,对藏文字符识别的准确率低。
发明内容
有鉴于此,本发明实施例的目的在于提供一种藏文字符识别装置与方法。
第一方面,本发明实施例提供了一种藏文字符识别装置,所述藏文字符识别装置包括:
信息接收单元,用于接收一高拍仪发送的拍摄得到的藏文字符文档图像,其中,所述藏文字符文档图像为被所述高拍仪自带的图像与处理功能的进行倾斜校准以及降噪二值化后得到的藏文字符文档图像;
字符初步分割单元,用于将藏文字符文档图像包含的候选文本区域中的整齐排列的藏文字符识别为多个行区域,再利用每个行区域内的疑似藏文字符外的最小矩形外框将每个疑似藏文字符逐个独立分割出;
文本属性识别单元,用于识别出藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积;
自适应阈值范围生成单元,用于依据所述藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围;
疑似字符处理单元,用于若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并或删除。
第二方面,本发明实施例还提供了一种藏文字符识别方法,所述藏文字符识别方法包括:
接收一高拍仪发送的拍摄得到的藏文字符文档图像,其中,所述藏文字符文档图像为被所述高拍仪自带的图像与处理功能的进行倾斜校准以及降噪二值化后得到的藏文字符文档图像;
将藏文字符文档图像包含的候选文本区域中的整齐排列的藏文字符识别为多个行区域,再利用每个行区域内的疑似藏文字符外的最小矩形外框将每个疑似藏文字符逐个独立分割出;
识别出藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积;
依据所述藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围;
若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并。
与现有技术相比,本发明提供的藏文字符识别装置与方法,通过依据藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围;若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并,从而针对藏文的特殊结构与特殊的字节形状,排除了对藏文字符误识别的情况,提高了对藏文字符识别的准确率度。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的服务器的结构框图;
图2为本发明实施例提供的藏文字符识别装置的功能框图;
图3为本发明实施例提供的藏文字符文档图像被划分为多个行区域的示意图;
图4为本发明实施例提供的藏文字符识别方法的流程图。
图标:100-服务器;200-藏文字符识别装置;101-存储器;102-存储控制器;103-处理器;104-外设接口;201-信息接收单元;202-候选文本区域圈定单元;203-字符初步分割单元;204-文本属性识别单元;205-自适应阈值范围生成单元;206-判断单元;207-疑似字符处理单元;208-字符识别单元;209-校准单元;210-结果输出单元。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,是本发明实施例提供的藏文字符识别装置200的功能模块示意图。安装有该藏文字符识别装置200的服务器100包括存储器101、存储控制器102、处理器103、外设接口104。于本发明实施例中,该服务器100可以是,但不限于,网络服务器、数据库服务器,云端服务器等等。
所述存储器101、存储控制器102、处理器103、外设接口104各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述藏文字符识别装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述服务器100设备的操作系统(operating system,OS)中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块,例如所述藏文字符识别装置200包括的软件功能模块或计算机程序。
其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器101用于存储程序,所述处理器103在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的服务器所执行的方法可以应用于处理器103中,或者由处理器103实现。
处理器103可能是一种集成电路芯片,具有信号的处理能力。上述的处理器103可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。
所述外设接口104将各种输入/输入装置耦合至处理器103以及存储器101。在一些实施例中,外设接口104,处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
以理解,图1所示的结构仅为示意,服务器200还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
请参阅图2,本发明实施例提供的一种藏文字符识别装置200,应用服务器100,所述藏文字符识别装置200包括信息接收单元201、候选文本区域圈定单元202、字符初步分割单元203、文本属性识别单元204、自适应阈值范围生成单元205、判断单元206、疑似字符处理单元207、字符识别单元208、校准单元209以及结果输出单元210。
信息接收单元201用于接收一高拍仪发送的被倾斜校准以及降噪二值化后的藏文字符文档图像。
高拍仪可能完成一秒钟高速扫描,并且具有图像处理功能,可将对拍摄得到的藏文字符文档图像进行倾斜校准以及降噪二值化处理。本实施例中,通过高拍仪预先对藏文字符文档图像进行倾斜校准以及降噪二值化,可降低服务器100的计算复杂度,提高了字符识别的效率。当然地,本实施例中,对藏文字符文档图像的倾斜校准以及降噪二值化也可以在服务器100执行,在此不做限制。
候选文本区域圈定单元202用于对倾斜校准以及降噪二值化后的藏文字符文档图像中的非字符区域进行删除,从而圈定候选文本区域。
考虑到有的藏文字符文档图像中包含插图与表格等非字符元素,因此在对字符进行识别之前需要对藏文字符文档图像中的非字符区域进行删除。本实施例中,利用形态学处理算法对藏文字符文档图像中的非字符区域进行删除。具体地,利用粗到精的多次水平和竖直投影来定位文本区域,从而选出非字符区域,并完成对非字符区域的删除。
字符初步分割单元203用于将候选文本区域中的整齐排列的藏文字符识别为多个行区域,再利用每个行区域内的疑似藏文字符外的最小矩形外框将每个疑似藏文字符逐个独立分割出。
沿藏文字符文档图像的表面建立坐标系,通过对藏文字符文档图像在x轴方向上的每行藏文字符朝向Y轴进行像素和累加投影,在藏文字符文档图像的每行藏文字符之间有明显的空白区域。如图3所示,由于有藏文字符的一行区域相对于空白区域在Y轴的像素和的值较高,因此可以利用像素和的值较高的区域的在Y轴的位置,来确定每行藏文字符的起始坐标和结束坐标,并在每行藏文字符的起始坐标与结束坐标出形成与X轴平行的多条线条,依据多条平行线可将整个页面分割分割为多个包含字符的行区域。接下来,将每个行区域的一个连通区域作为一个独立的识别单位,从左至右按照连通域方法进行切分,从而获得一个个的疑似字符。
文本属性识别单元204用于识别出藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积。
自适应阈值范围生成单元205用于依据所述藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围。
其中,本实施例中,实时生成的自适应阈值范围包括但不限于藏文字符外的最小矩形框的高度自适应阈值范围、疑似藏文字符外的最小矩形框的宽度自适应阈值范围、疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积自适应阈值范围。
判断单元206用于判断每个藏文字符外的最小矩形外框的属性特征是否在实时生成的自适应阈值范围内。
疑似字符处理单元207用于若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并或删除。
具体地,疑似字符处理单元207对疑似字符的精确处理包括但不限于以下三种方式:
第一种:所述藏文字符的特征关联的自适应阈值范围包括藏文字符外的最小矩形框的高度自适应阈值范围,所述疑似字符处理单元207包括:
藏文字符特征识别子单元用于识别出疑似藏文字符的结构特征;
判断子单元用于若疑似藏文字符的结构特征为上下结构关系时,判断该疑似藏文字符外的最小矩形外框的高度是否小于最小矩形框的高度自适应阈值范围。
字符划分子单元用于若该疑似藏文字符外的最小矩形外框的高度大于最小矩形框的高度自适应阈值范围时,对处于该最小矩形外框内外的疑似藏文字符的上下结构进行分割。
如果该疑似藏文字符外的最小矩形外框的高度大于最小矩形框的高度自适应阈值范围,说明可能是属于上下位置关系的两个藏文字符被误识别为一个字符,因此需要对该疑似藏文字符的上下结构进行分割,生成两个独立的藏文字符,从而最终精确对对藏文字符进行分割。
第二种:所述藏文字符的特征关联的自适应阈值范围包括疑似藏文字符外的最小矩形框的宽度自适应阈值范围,所述疑似字符处理单元207包括:
藏文字符特征识别子单元,用于识别出疑似藏文字符的结构特征;
判断子单元,用于若疑似藏文字符的结构特征为左右结构关系时,判断该疑似藏文字符外的最小矩形外框的宽度是否小于最小矩形框的宽度自适应阈值范围;
字符划分子单元,用于若该疑似藏文字符外的最小矩形外框的宽度大于最小矩形框的宽度自适应阈值范围时,对处于该最小矩形外框内的疑似藏文字符的左右结构进行分割。
如果该疑似藏文字符外的最小矩形外框的宽度大于最小矩形框的宽度自适应阈值范围时,说明可能是属于左右位置关系的两个藏文字符被误识别为一个字符,因此需要对该疑似藏文字符的左右结构进行分割,生成两个独立的藏文字符,从而最终精确的对藏文字符进行分割。
第三种:所述藏文字符的特征关联的自适应阈值范围包括疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积自适应阈值范围,所述疑似字符处理单元207包括:
字符结构识别子单元,用于识别出疑似藏文字符的结构特征;
判断子单元,用于若疑似藏文字符的结构特征为重叠关系时,判断该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积是否小于所述重叠面积自适应阈值范围;
字符划分子单元,用于若该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积大于所述重叠面积自适应阈值范围,则将两个字符结构合并为一个藏文字符;若该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积小于所述重叠面积自适应阈值范围时,则将两个字符结构分割为两个藏文字符。
考虑带藏文书写可能有两个字符重叠在一起的情况(即重叠结构),因此有可能将两个相邻的藏文字符误识别为一个重叠结构的字符,也有可能将一个重叠结构的字符,误识别为两个相邻的藏文字符,因此可通过疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积对藏文字符进行精确的识别。
字符识别单元208用于利用预先训练的自适应分类器对藏文字符进行识别。
具体的识别方式可以为:利用多边形逼近藏文字符,将每条边分割成长度相等的短边,即可移除长度特征,然后对多个短边的特征从预存储的中进行匹配,以提高分类器对于破碎字符识别的鲁棒性。进一步地,自适应分类器将一行藏文字符的基线(baseline)高度归一化。对藏文字符高度归一化后,不仅可以区分字母大小写还可以区分噪声;从而可以去除去除高宽比(aspect ratio)和字体笔画宽度(stroke width)对藏文字符识别的影响,同时使得藏文字符的上标、下标的区分简单。
校准单元209用于对识别完毕的藏文字符进行校准。
具体地校准方式可以为:由于藏文字符的构成具有一定的规则,比如在构成一个藏文字符时,某个藏文字符的前面只能是规定好的某几个藏文字符中的一个,即书写藏文字符时,相邻的几个藏文字符之间具有关联性,利用相邻的几个藏文字符之间具有关联性的特性,对识别后的每个藏文字进行检查,对那些不符合规范的藏文字符按照进行修正。
结果输出单元210用于将校准完毕的藏文字符输出。
具体地,结果输出单元210可将识别完毕的藏文字符按照顺序写入电子文档中或者输出到显示屏进行显示。
请参阅图4,本发明实施例还提供了一种藏文字符识别方法,需要说明的是,本实施例所提供的藏文字符识别方法,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本发明实施例部分未提及之处,可参考上述的实施例中相应内容。所述藏文字符识别方法包括:
步骤S401:接收一高拍仪发送的倾斜校准以及降噪二值化后的藏文字符文档图像。
可以理解地,通过信息接收单元201可以执行步骤S401。
步骤S402:对倾斜校准以及降噪二值化后的藏文字符文档图像中的非字符区域进行删除,从而圈定候选文本区域。
可以理解地,通过候选文本区域圈定单元202可以执行步骤S402。
步骤S403:将候选文本区域中的整齐排列的藏文字符识别为多个行区域,再利用每个行区域内的疑似藏文字符外的最小矩形外框将每个疑似藏文字符逐个独立分割出。
可以理解地,通过字符初步分割单元203可以执行步骤S403。
步骤S404:识别出藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积。
可以理解地,通过文本属性识别单元204可以执行步骤S404。
步骤S405:依据所述藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围。
可以理解地,通过自适应阈值范围生成单元205可以执行步骤S405。
步骤S406:判断每个藏文字符外的最小矩形外框的属性特征是否在实时生成的自适应阈值范围内,如果是,则执行步骤S407。
可以理解地,通过判断单元可以执行步骤S406。
步骤S407:对处于该最小矩形外框内的藏文字符进行分割或合并或删除。
可以理解地,通过疑似字符处理单元207可以执行步骤S407。
具体地,步骤S406、步骤S407包括但不限于以下三种方式:
第一种:
步骤S4061:识别疑似藏文字符的结构特征。
步骤S4062:若疑似藏文字符的结构特征为上下结构关系时,判断该疑似藏文字符外的最小矩形外框的高度是否小于最小矩形框的高度自适应阈值范围,如果是,则执行步骤S1071。
步骤S1071:对处于该最小矩形外框内外的疑似藏文字符的上下结构进行分割。
第二种:
步骤S4063:识别出疑似藏文字符的结构特征。
步骤S4064:若疑似藏文字符的结构特征为左右结构关系时,判断该疑似藏文字符外的最小矩形外框的宽度是否小于最小矩形框的宽度自适应阈值范围,如果是,则执行步骤S1072。
步骤S1072:对处于该最小矩形外框内的疑似藏文字符的左右结构进行分割。
第三种:
步骤S4064:识别出疑似藏文字符的结构特征。
步骤S4065:若疑似藏文字符的结构特征为重叠关系时,判断该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积是否大于所述重叠面积自适应阈值范围,如果是,则执行步骤S4073,如果否,则执行步骤S4074。
步骤S4073:将两个字符结构合并为一个藏文字符。
步骤S4074:将两个字符结构分割为两个藏文字符。
步骤S408:利用预先训练的自适应分类器对藏文字符进行识别。
可以理解地,通过字符识别单元208可以执行步骤S408。
步骤S409:对识别完毕的藏文字符进行校准。
可以理解地,通过校准单元209可以执行步骤S409。
步骤S410:将校准完毕的藏文字符输出。
可以理解地,通过结果输出单元210可以执行步骤S410。
综上所述,本发明提供的藏文字符识别装置与方法,通过依据藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围;若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并,从而针对藏文的特殊结构与特殊的字节形状,排除了对藏文字符误识别的情况,提高了对藏文字符识别的准确率度。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (8)

1.一种藏文字符识别装置,其特征在于,所述藏文字符识别装置包括:
信息接收单元,用于接收一高拍仪发送的拍摄得到的藏文字符文档图像,其中,所述藏文字符文档图像为被所述高拍仪自带的图像与处理功能的进行倾斜校准以及降噪二值化后得到的藏文字符文档图像;
候选文本区域圈定单元,用于对倾斜校准以及降噪二值化后的藏文字符文档图像中的非字符区域进行删除,圈定候选文本区域;
字符初步分割单元,用于将藏文字符文档图像包含的所述候选文本区域中的整齐排列的藏文字符识别为多个行区域,再利用每个行区域内的疑似藏文字符外的最小矩形外框将每个疑似藏文字符逐个独立分割出;
文本属性识别单元,用于识别出藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积;
自适应阈值范围生成单元,用于依据所述藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围;
疑似字符处理单元,用于若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并或删除;
所述藏文字符的特征关联的自适应阈值范围包括疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积自适应阈值范围,所述疑似字符处理单元包括:
字符结构识别子单元,用于识别出疑似藏文字符的结构特征;
判断子单元,用于若疑似藏文字符的结构特征为重叠关系时,判断该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积是否小于所述重叠面积自适应阈值范围;
字符划分子单元,用于若该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积大于所述重叠面积自适应阈值范围,则将两个字符结构合并为一个藏文字符;若该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积是否小于所述重叠面积自适应阈值范围时,则将两个字符结构分割为两个藏文字符。
2.根据权利要求1所述的藏文字符识别装置,其特征在于,所述藏文字符的特征关联的自适应阈值范围包括藏文字符外的最小矩形框的高度自适应阈值范围,所述疑似字符处理单元包括:
藏文字符特征识别子单元,用于识别出疑似藏文字符的结构特征;
判断子单元,用于若疑似藏文字符的结构特征为上下结构关系时,判断该疑似藏文字符外的最小矩形外框的高度是否小于最小矩形框的高度自适应阈值范围;
字符划分子单元,用于若该疑似藏文字符外的最小矩形外框的高度大于最小矩形框的高度自适应阈值范围时,对处于该最小矩形外框内外的疑似藏文字符的上下结构进行分割。
3.根据权利要求1所述的藏文字符识别装置,其特征在于,所述藏文字符的特征关联的自适应阈值范围包括疑似藏文字符外的最小矩形框的宽度自适应阈值范围,所述疑似字符处理单元包括:
藏文字符特征识别子单元,用于识别出疑似藏文字符的结构特征;
判断子单元,用于若疑似藏文字符的结构特征为左右结构关系时,判断该疑似藏文字符外的最小矩形外框的宽度是否小于最小矩形框的宽度自适应阈值范围;
字符划分子单元,用于若该疑似藏文字符外的最小矩形外框的宽度大于最小矩形框的宽度自适应阈值范围时,对处于该最小矩形外框内的疑似藏文字符的左右结构进行分割。
4.根据权利要求1所述的藏文字符识别装置,其特征在于,所述藏文字符识别装置包括:
候选文本区域圈定单元,用于对一倾斜校准以及降噪二值化后的藏文字符文档图像中的非字符区域进行删除,从而圈定候选文本区域。
5.根据权利要求1所述的藏文字符识别装置,其特征在于,所述藏文字符识别装置还包括:
字符识别单元,用于利用预先训练的自适应分类器对藏文字符进行识别;
结果输出单元,用于将识别完毕的藏文字符输出。
6.一种藏文字符识别方法,其特征在于,所述藏文字符识别方法包括:
接收一高拍仪发送的拍摄得到的藏文字符文档图像,其中,所述藏文字符文档图像为被所述高拍仪自带的图像与处理功能的进行倾斜校准以及降噪二值化后得到的藏文字符文档图像;
删除所述藏文字符文档图像中的非字符区域,圈定候选文本区域;
将藏文字符文档图像包含的所述候选文本区域中的整齐排列的藏文字符识别为多个行区域,再利用每个行区域内的疑似藏文字符外的最小矩形外框将每个疑似藏文字符逐个独立分割出;
识别出藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积;
依据所述藏文字符文档图像的尺寸、每个行区域的行间距、每个疑似藏文字符在预建立的坐标系的坐标以及每个疑似藏文字符的最小矩形外框的面积实时生成与藏文字符的特征关联的自适应阈值范围;
若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并或删除;
所述藏文字符的特征关联的自适应阈值范围包括疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积自适应阈值范围,在所述对处于该最小矩形外框内的藏文字符进行分割或合并的步骤之前,所述藏文字符识别方法还包括:
识别出疑似藏文字符的结构特征;
若疑似藏文字符的结构特征为重叠关系时,判断该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积是否小于所述重叠面积自适应阈值范围;
所述若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并的步骤包括:若该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积大于所述重叠面积自适应阈值范围,则将两个字符结构合并为一个藏文字符;若该疑似藏文字符包含的两个字符结构外的两个最小矩形框的重叠面积是否小于所述重叠面积自适应阈值范围时,则将两个字符结构分割为两个藏文字符。
7.根据权利要求6所述的藏文字符识别方法,其特征在于,所述藏文字符的特征关联的自适应阈值范围包括藏文字符外的最小矩形框的高度自适应阈值范围,在所述对处于该最小矩形外框内的藏文字符进行分割或合并的步骤之前,所述藏文字符识别方法还包括:
识别出疑似藏文字符的结构特征;
若疑似藏文字符的结构特征为上下结构关系时,判断该疑似藏文字符外的最小矩形外框的高度是否小于最小矩形框的高度自适应阈值范围;
所述若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并的步骤包括:若该疑似藏文字符外的最小矩形外框的高度大于最小矩形框的高度自适应阈值范围时,对处于该最小矩形外框内外的疑似藏文字符的上下结构进行分割。
8.根据权利要求6所述的藏文字符识别方法,其特征在于,所述藏文字符的特征关联的自适应阈值范围包括疑似藏文字符外的最小矩形框的宽度自适应阈值范围,在所述对处于该最小矩形外框内的藏文字符进行分割或合并的步骤之前,所述藏文字符识别方法还包括:
识别出疑似藏文字符的结构特征;
若疑似藏文字符的结构特征为左右结构关系时,判断该疑似藏文字符外的最小矩形外框的宽度是否小于最小矩形框的宽度自适应阈值范围;
所述若每个藏文字符外的最小矩形外框的属性特征不在实时生成的自适应阈值范围内时,对处于该最小矩形外框内的藏文字符进行分割或合并的步骤包括:若该疑似藏文字符外的最小矩形外框的宽度大于最小矩形框的宽度自适应阈值范围时,对处于该最小矩形外框内的疑似藏文字符的左右结构进行分割。
CN201710501850.3A 2017-06-27 2017-06-27 藏文字符识别装置与方法 Active CN107330430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710501850.3A CN107330430B (zh) 2017-06-27 2017-06-27 藏文字符识别装置与方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710501850.3A CN107330430B (zh) 2017-06-27 2017-06-27 藏文字符识别装置与方法

Publications (2)

Publication Number Publication Date
CN107330430A CN107330430A (zh) 2017-11-07
CN107330430B true CN107330430B (zh) 2020-12-04

Family

ID=60197860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710501850.3A Active CN107330430B (zh) 2017-06-27 2017-06-27 藏文字符识别装置与方法

Country Status (1)

Country Link
CN (1) CN107330430B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299718B (zh) * 2018-09-21 2021-09-24 新华三信息安全技术有限公司 一种字符识别方法及装置
CN110163203B (zh) * 2019-04-09 2021-08-24 浙江口碑网络技术有限公司 字符识别方法、装置、存储介质及计算机设备
CN112613512B (zh) * 2020-12-29 2022-08-12 西北民族大学 基于结构属性的乌金体藏文古籍字符切分方法及系统
CN113554033B (zh) * 2021-09-18 2021-12-10 深圳市一号互联科技有限公司 智能文本机器人的文本识别方法、装置及系统
CN114842487B (zh) * 2021-12-09 2023-11-03 上海鹑火信息技术有限公司 一种婆罗米系文字的识别方法及系统
CN116912835A (zh) * 2023-05-13 2023-10-20 西藏大学 一种面向社交媒体领域的藏文图文多字体识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011425A (ja) * 1996-06-26 1998-01-16 Hokkaido Nippon Denki Software Kk 文書作成装置における矩形領域作成方法
CN103455528A (zh) * 2012-05-28 2013-12-18 株式会社东芝 手写文字检索装置、方法以及记录介质
CN103577843A (zh) * 2013-11-22 2014-02-12 中国科学院自动化研究所 一种空中手写字符串识别方法
CN106407981A (zh) * 2016-11-24 2017-02-15 北京文安智能技术股份有限公司 一种车牌识别方法、装置及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251892B (zh) * 2008-03-07 2010-06-09 北大方正集团有限公司 一种字符切分方法和装置
CN101299236B (zh) * 2008-06-25 2010-06-09 华南理工大学 一种中文手写词组识别方法
CN102135956B (zh) * 2011-05-06 2015-09-30 中国科学院软件研究所 一种基于词位标注的藏文分词方法
CN105023029B (zh) * 2015-06-29 2018-09-14 中国科学院软件研究所 一种联机手写藏文音节识别方法及装置
CN106056055B (zh) * 2016-05-24 2019-05-03 西北民族大学 基于部件组合的梵音藏文联机手写样本生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011425A (ja) * 1996-06-26 1998-01-16 Hokkaido Nippon Denki Software Kk 文書作成装置における矩形領域作成方法
CN103455528A (zh) * 2012-05-28 2013-12-18 株式会社东芝 手写文字检索装置、方法以及记录介质
CN103577843A (zh) * 2013-11-22 2014-02-12 中国科学院自动化研究所 一种空中手写字符串识别方法
CN106407981A (zh) * 2016-11-24 2017-02-15 北京文安智能技术股份有限公司 一种车牌识别方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Technique for Segmentation of Gurmukhi Text;G. S. Lehal 等;《CAIP2001》;20010830;全文 *

Also Published As

Publication number Publication date
CN107330430A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
CN107330430B (zh) 藏文字符识别装置与方法
US10943105B2 (en) Document field detection and parsing
US20230020743A1 (en) Determining functional and descriptive elements of application images for intelligent screen automation
Roy et al. HMM-based Indic handwritten word recognition using zone segmentation
US8965127B2 (en) Method for segmenting text words in document images
KR102208683B1 (ko) 문자 인식 방법 및 그 장치
WO2019174405A1 (zh) 车牌辨识方法以及其系统
KR20160132842A (ko) 플로우 문서를 생성하기 위한 이미지 문서 컴포넌트 검출 및 추출 기법
JP3943638B2 (ja) Ocrを利用しない文書画像中のドロップワードの自動認識方法
US11227153B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
US20160092745A1 (en) Image processing apparatus and image processing method
US20150095769A1 (en) Layout Analysis Method And System
US9959475B2 (en) Table data recovering in case of image distortion
CN109697414B (zh) 一种文本定位方法及装置
US11017260B2 (en) Text region positioning method and device, and computer readable storage medium
US11210507B2 (en) Automated systems and methods for identifying fields and regions of interest within a document image
US11475688B2 (en) Information processing apparatus and information processing method for extracting information from document image
JP7244223B2 (ja) 電子文書における強調テキストの識別
Ayesh et al. A robust line segmentation algorithm for Arabic printed text with diacritics
US20180121720A1 (en) Identifying document forms using digital fingerprints
CN111563505A (zh) 一种基于像素分割合并的文字检测方法及装置
CN110399877B (zh) 连接字符的光学字符识别
JP6628336B2 (ja) 情報処理システム
JP6578858B2 (ja) 情報処理装置及びプログラム
CN115909356A (zh) 数字文档的段落确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230328

Address after: 341003 Building D1, Huachang Science and Technology Park, Ganzhou Economic and Technological Development Zone, Ganzhou City, Jiangxi Province

Patentee after: Ganzhou Langshun Digital Technology Co.,Ltd.

Address before: 100089 Beijing, Haidian District, Shanghai 26 Road, 10 floor, 1019 room.

Patentee before: BMI (BEIJING) INTELLIGENT SYSTEM CO.,LTD.

TR01 Transfer of patent right