CN102456136A - 一种图文切分方法及系统 - Google Patents

一种图文切分方法及系统 Download PDF

Info

Publication number
CN102456136A
CN102456136A CN2010105306301A CN201010530630A CN102456136A CN 102456136 A CN102456136 A CN 102456136A CN 2010105306301 A CN2010105306301 A CN 2010105306301A CN 201010530630 A CN201010530630 A CN 201010530630A CN 102456136 A CN102456136 A CN 102456136A
Authority
CN
China
Prior art keywords
cutting
picture
slip
segmentation lines
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010105306301A
Other languages
English (en)
Other versions
CN102456136B (zh
Inventor
吴建宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Co Ltd
Founder International Beijing Co Ltd
Original Assignee
Founder International Co Ltd
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd, Founder International Beijing Co Ltd filed Critical Founder International Co Ltd
Priority to CN 201010530630 priority Critical patent/CN102456136B/zh
Publication of CN102456136A publication Critical patent/CN102456136A/zh
Application granted granted Critical
Publication of CN102456136B publication Critical patent/CN102456136B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及一种图文切分方法及系统,属于图像切分技术领域。本发明首先建立图片的绝对坐标系;然后依据识别的字符排版方向,先将图片按照该方向切为若干图片条,每个图片条包含一行或一列字符;再将每个图片条按照与该方向垂直的方向切分成若干一定长度的子图片;最后记录每个子图片的位置编码。通过本发明能够精确的实现切分图片与原始图片的字符定位以及字符关联,能够很好的适用于对切分图片内字符识别后拼接原始图片的全文。

Description

一种图文切分方法及系统
技术领域
本发明属于图像切分技术领域,具体涉及一种仅包含字符的图片切分方法及系统。
背景技术
随着信息化时代的到来,作为公共信息和教育服务体系重要组成部分的数字图书馆受到越来越多国家的重视。所谓“数字图书馆”就是将现有图书馆中的各种文献转换成数字信息并通过网络发布和传输,同时采集、加工各种公共信息为全社会提供优质的信息服务和决策咨询。在我国,数字图书馆建设目前的主要工作还是对现有文献的数字化。
建设数字图书馆时,主要的工作是将纸质图书转化为电子版的数字图书。通常采用的方法是先将纸质图书扫描成图片格式的扫描件,然后利用OCR(Optical Character Recognition,光学字符识别)技术从扫描件中识别出字符及版面信息等内容,从而将纸质图书转化成了数字图书。OCR技术通过与高速扫描仪的有机集成,有效地解决了数字图书馆的海量录入问题。但是,对于目前图书馆中存在的大量古籍文献,采用OCR技术识别的准确率较低,无法满足图书数字化处理的要求。另外,针对大规模的图书数字化处理,如果仅由单个工作站进行处理操作,则需要耗费大量的时间成本,而且工作效率也相对较低。如果将图书文字部分的扫描件切分成若干个子图片,由多个工作站协同配合,共同识别,无疑会提高字符识别的效率,目前广大的互联网用户为这种协同配合的工作模式提供了解决的思路。
但是,现有的图文切分方法字符切分的准确率不高,容易将一个字符切分在两个子图片中,从而造成字符识别时的错误,影响图书数字化的质量。
发明内容
针对现有技术中存在的缺陷,本发明要解决的技术问题是提供一种图文切分方法及系统,该方法及系统能够较准确地将字符完整的切分在子图片中。
为解决上述技术问题,本发明采用的技术方案如下:
一种图文切分方法,包括以下步骤:
(1)建立图片的绝对坐标系,所述图片是指仅包含字符内容的矩形图片;
(2)依据识别的字符排版方向,先将图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照与字符排版方向垂直方向切分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,先记录所述起点的绝对坐标,然后按照切分方向查找设定长度的预切分线;如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条;下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切分图片条中字符的排版方向;
(3)记录每个子图片的位置。
如上所述的图文切分方法,步骤(2)中在对图片条进行切分后,对该图片条还进行如下切分操作:
在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置;否则,以将预切分线位置作为切分位置切分图片条。
如上所述的图文切分方法,步骤(2)中所述设定长度为待切分图片条中2个字符的平均长度。如果待切分行或列的长度不能被整切分,则最后一个子图片的长度可以小于设定长度。
如上所述的图文切分方法,其中,阈值M为2。
如上所述的图文切分方法,步骤(3)中所述每个子图片的位置信息中包括该子图片的归属编码、绝对坐标和相对坐标;所述归属编码是指该子图片所属图片的定位编码,所述绝对坐标是指该子图片所属图片条的起点相对于坐标原点的坐标,所述相对坐标是指该子图片相对于其所属图片条的起点位置。
如上所述的图文切分方法,步骤(3)中将每个子图片的位置信息作为该子图片的文件名。
如上所述的图文切分方法,其中,初次切分的子图片的相对坐标为从小到大排列的奇数。再次切分的子图片的相对坐标为从小到大排列的偶数。
一种图文切分系统,包括
建立装置,用于建立图片的绝对坐标系,所述图片是指仅包含字符内容的矩形图片;
切分装置I,用于依据识别的字符排版方向,先将图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照与字符排版方向垂直方向切分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,先记录所述起点的绝对坐标,然后按照切分方向查找设定长度的预切分线;如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条;下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切分图片条中字符的排版方向;
记录装置,用于记录每个子图片的位置。
如上所述的图文切分系统,还包括切分装置II,用于在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置。否则,以将预切分线位置作为切分位置切分图片条。
本发明所述的方法及系统,通过先确定预切分位置,再根据预切分位置寻找实际切分位置的方式,大大提高了将字符完整的切分在一个子图片中的准确率。而且,通过再次切分的方式,能够对左右结构或上下结构的字符切分在一个子图片中,从而进一步提高了将字符完整的切分在一个子图片中的准确率。
附图说明
图1是具体实施方式中图文切分系统的结构框图;
图2是具体实施方式中图文切分方法的流程图;
图3是具体实施方式中图片条的切分方法流程图;
图4是具体实施方式中字符横排的图片示意图;
图5是具体实施方式中字符竖排的图片示意图;
图6是具体实施方式中初次切分图片条的示意图;
图7A是具体实施方式中初次切分图片条的结果示意图,图7B是再次切分图片条的示意图;
图8是具体实施方式中子图片的相对坐标示意图。
具体实施方式
下面结合具体实施方式和附图对本发明进行详细描述。
图1示出了本实施方式中图文切分系统的结构。如图1所示,该系统包括建立装置11,与建立装置11连接的切分装置I 12,与切分装置I 12连接的切分装置II 14,与切分装置II 14连接的记录装置13。
建立装置11用于建立图片的绝对坐标系。所述图片是指仅包含字符内容的矩形图片,如图4所示。
切分装置I 12用于依据识别的字符排版方向,先将图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照与字符排版方向垂直的方向切分成若干设定长度的子图片。切分图片条的过程如下:
从待切分图片条的起点开始,先记录所述起点的绝对坐标,然后按照切分方向查找设定长度的预切分线。如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置切分图片条。否则,直接将预切分线位置作为切分位置切分图片条。下一次切分操作从上一个切分位置开始计算设定长度。其中,切分方向为待切分图片条中字符的排版方向。
切分装置II 14用于在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置。
记录装置13用于记录每个子图片的位置。
图2示出了采用图1所示系统切分图文的方法流程。如图2所示,该方法包括以下步骤:
(1)建立装置11建立图片的绝对坐标系。
如图4所示的图片,图片中字符的排列顺序为从左到右、从上到下。绝对坐标的原点41设在图片的左上角,竖直向下为y轴正方向,水平向右为x轴正方向。
如图5所示的图片,图片中字符的排列顺序为从上到下、从右到左。绝对坐标的原点51设在图片的右上角,竖直向下为x轴正方向,水平向左为y轴正方向。
(2)切分装置I 12依据识别的字符排版方向,先将图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照与字符排版方向垂直的方向切分成若干设定长度的子图片。
如图4所示,字符行的方向为从上到下,先将图片按照字符行切分成若干横向图片条43。图片条43的高度可稍大于图片中字符的高度。
如图5所示,字符列的方向为从右到左,先将图片按照字符列切分成若干纵向图片条53。图片条53的宽度可稍大于图片中字符的宽度。
切分图片条的过程如图3所示,包括以下步骤:
(i)从待切分图片条的起点开始。
如果图片条中字符的排列方向为从左到右,如图4所示,则图片条43的起点42为该图片条的左上角点。
如果图片条中字符的排列方向为从上到下,如图5所示,则图片条53的起点52为该图片条的右上角点。
(ii)记录所述起点的绝对坐标。
(iii)按照切分方向查找设定长度的预切分线。
如图6所示,两条竖直箭头之间的距离为设定长度。优选的,设定长度为待切分图片条中2个字符的平均长度。图6中的虚线为预切分线61。
(iv)判断预切分线上黑像素个数是否超过阈值M。如果超过,则沿着切分方向(即为待切分图片条中字符的排列方向)每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置切分图片条,如图6中的实线62。如果预切分线上黑像素个数不超过阈值M,则直接将预切分线位置作为切分位置切分图片条。
如图6所示,由于预切分线的位置是根据起点位置和设定长度确定,而设定长度为图片条中2个字符的平均长度,因此可以存在预切分线位置在字符的中间,而不是在字符之间的空隙。图6中的预切分线便落在了字符“国”上。对于这种情况,则以像素为步长移动预切分线,查找到预切分线上黑像素个数不大于阈值的位置,作为切分位置。这样,可以避免将一个字符切分到两个子图片中。由于图片中可能存在噪点,因此设置阈值是必要的,这样可以尽量避免将噪点当成字符的情况发生。本实施方式中,阈值M的值设定为2。当然,可以根据图片的具体质量情况改变阈值M的大小。
(v)判断该图片条是否切分完毕。如图切分完毕,则结束该图片条的切分。否则,从上一个子图片的实际切分位置开始,转至步骤(iii)。如图6所示,从实际切分位置62开始,切分下一个子图片。
判断图片条是否切分完毕,可以通过比较该图片条的剩余长度与设定长度确定。如果剩余长度不大于设定长度,则切分结束。如果待切分行或列的长度不能被整切分,则最后一个子图片的长度可以小于设定长度。
采用上述方法对图片条进行切分后,虽然可以提高切分的准确性,但是由于图片质量的影响,可能存在将左右结构(切分横排字符时)或上下结构(切分竖排字符时)的字符切分在两个子图片中的情况。例如,对图7A所示的图片条,可能将字符“国的月”切分在一个子图片内。这样,在字符识别时便会出现错误。因此,本实施方式中,在对图片条进行切分后,切分装置II 14再次对该图片条进行如下切分:
在图片条初次切分时的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置切分图片条。否则,以将预切分线作为实际切分线切分图片条。
如图7B所示,虚线71为初次切分时的实际切分线,以该线为参照,向左1/2设定长度处为左侧预切分线的位置,即虚线72为左侧预切分线;向右1/2设定长度处为右侧预切分线的位置,即虚线73为右侧预切分线。虚线72和虚线73之间的距离为设定长度。由于左右两侧的预切分线位置均落在了字符当中(可以根据预切分线上黑像素个数判断出来),因此对于左侧预切分线72以像素为步长向左移动,找到实际切分线74,对于右侧预切分线73以像素为步长向右移动,找到实际切分线75。最终以切分线74和75位置切分图片条。
对图片条进行再次切分,可以保证将一个完整的字符切分在一个子图片中,从而进一步提高切分的准确性,进而提高字符识别时的准确性。
如果图片条中字符的排列方向是从上到下,如图5所示,其切分方法可参照上述方法,此处不在赘述。
(3)记录装置13记录每个子图片的位置。
每个子图片的位置信息中包括该子图片的归属编码、绝对坐标和相对坐标。优选的,为了便于记录子图片位置,将每个子图片的位置信息作为该子图片的文件名。
子图片的位置信息中的归属编码是指该子图片所属图片的定位编码。例如,如果该子图片所属图片是编码为P201的书籍的第32页,则归属编码可以为“P2010032”,其中页码设置为4位,则表示为“0032”,不足长度的字符位置使用“0”填充。
子图片的位置信息中的绝对坐标是指该子图片所属图片条的起点在绝对坐标系中的坐标。假设使用像素点作为坐标单位,当前图片条的左上原点相对图片的左上原点的像素为X方向为89像素,Y方向为232像素,则该图片条的坐标表示为(89,232)。绝对坐标一个方向上的字符长度为4位,不足长度的字符位置使用“0”填充。坐标(89,232)表示成字符串为“00890232”。
子图片的位置信息中的相对坐标是指该子图片所属图片条按照切分方向切分时的位置序号。例如,如图8所示,假设某图片条初次按照切分方向依次被切分成图8上面5个子图片,以从小到大排列的奇数表示每个子图片的相对坐标,分别为1、3、5、7、9。该图片条再次按照切分方向依次被切分成图8下面4个子图片,以从小到大排列的偶数表示每个子图片的相对坐标,分别为2、4、6、8。这样,还可以根据相对坐标判断出该子图片是初次切分的子图片还是再次切分的子图片。
一个完整的子图片位置信息的例子如下:P2010032008902320001。第1~4位数字表示该子图片所属书籍的编码,第5~8位表示所属页码,第9~16位表示绝对坐标,第17~20位表示相对坐标。上述每段编码的位数可根据实际情况改变,并可以依据应用要求按照相同方式附加其他信息。
上述编码为P2010032008902320001的子图片的编码信息表示:该子图片是编码为201的书籍第32页起点坐标为(89,232)的行切分出的第1个子图片。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (11)

1.一种图文切分方法,包括以下步骤:
(1)建立图片的绝对坐标系,所述图片是指仅包含字符内容的矩形图片;
(2)依据识别的字符排版方向,先将图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照与字符排版方向垂直的方向切分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,先记录所述起点的绝对坐标,然后按照切分方向查找设定长度的预切分线;如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条;下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切分图片条中字符的排版方向;
(3)记录每个子图片的位置。
2.如权利要求1所述的图文切分方法,其特征在于:步骤(2)中在对图片条进行切分后,对该图片条还进行如下切分操作:
在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置;否则,以将预切分线位置作为切分位置切分图片条。
3.如权利要求1或2所述的图文切分方法,其特征在于:步骤(2)中所述设定长度为待切分图片条中2个字符的平均长度。
4.如权利要求3所述的图文切分方法,其特征在于:如果待切分行或列的长度不能被整切分,则最后一个子图片的长度可以小于设定长度。
5.如权利要求1或2所述的图文切分方法,其特征在于:所述阈值M为2。
6.如权利要求1或2所述的图文切分方法,其特征在于:步骤(3)中所述每个子图片的位置信息中包括该子图片的归属编码、绝对坐标和相对坐标;所述归属编码是指该子图片所属图片的定位编码,所述绝对坐标是指该子图片所属图片条的起点相对于坐标原点的坐标,所述相对坐标是指该子图片相对于其所属图片条的起点位置。
7.如权利要求6所述的图文切分方法,其特征在于:步骤(3)中将每个子图片的位置信息编码作为该子图片的文件名,所述位置信息编码至少包含以数字和字符表示的如下信息:对应图片的编码、子图片相对图片的绝对坐标、子图片在子图片集合中的相对坐标;其中上述信息段为定长字符串,数值不够指定长度的,使用指定字符填充。
8.如权利要求6所述的图文切分方法,其特征在于:初次切分的子图片的相对坐标为从小到大排列的奇数。
9.如权利要求6所述的图文切分方法,其特征在于:再次切分的每个子图片的相对坐标为从小到大排列的偶数。
10.一种图文切分系统,包括
建立装置(11),用于建立图片的绝对坐标系,所述图片是指仅包含字符内容的矩形图片;
切分装置I(12),用于依据识别的字符排版方向,先将图片按照字符排版方向切分为若干图片条,每个图片条包含一行或一列字符;然后再将每个图片条按照与字符排版方向垂直方向切分成若干设定长度的子图片,切分图片条的过程如下:
从待切分图片条的起点开始,先记录所述起点的绝对坐标,然后按照切分方向查找设定长度的预切分线;如果预切分线上黑像素个数超过阈值M,则沿着切分方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置切分图片条;否则,直接将预切分线位置作为切分位置切分图片条;下一次切分操作从上一个切分位置开始计算设定长度;所述切分方向为待切分图片条中字符的排版方向;
记录装置(13),用于记录每个子图片的位置。
11.如权利要求10所述的图文切分系统,其特征在于:所述系统还包括切分装置II(14),用于在图片条的每一个切分位置处,根据设定长度的1/2向左右或上下查找预切分线;如果预切分线上黑像素个数超过阈值M,则从预切分线处沿着预切分线查找方向每像素步长移动预切分线,查找预切分线上黑像素个数不大于阈值的位置,将该位置作为切分位置。否则,以将预切分线位置作为切分位置切分图片条。
CN 201010530630 2010-10-29 2010-10-29 一种图文切分方法及系统 Expired - Fee Related CN102456136B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010530630 CN102456136B (zh) 2010-10-29 2010-10-29 一种图文切分方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010530630 CN102456136B (zh) 2010-10-29 2010-10-29 一种图文切分方法及系统

Publications (2)

Publication Number Publication Date
CN102456136A true CN102456136A (zh) 2012-05-16
CN102456136B CN102456136B (zh) 2013-06-05

Family

ID=46039310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010530630 Expired - Fee Related CN102456136B (zh) 2010-10-29 2010-10-29 一种图文切分方法及系统

Country Status (1)

Country Link
CN (1) CN102456136B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577818A (zh) * 2012-08-07 2014-02-12 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
CN104376317A (zh) * 2013-08-12 2015-02-25 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN105160342A (zh) * 2015-08-11 2015-12-16 成都数联铭品科技有限公司 一种基于hmm-gmm的自动文字图片切分方法及系统
CN106127202A (zh) * 2016-06-21 2016-11-16 福建富士通信息软件有限公司 一种图片中字符识别的方法以及装置
CN106529521A (zh) * 2016-10-31 2017-03-22 江苏文心古籍数字产业有限公司 一种古籍文字数字化录入方法
CN106548175A (zh) * 2016-10-13 2017-03-29 江苏奥博洋信息技术有限公司 一种新型的文字图像数字化处理方法
CN106940799A (zh) * 2016-01-05 2017-07-11 腾讯科技(深圳)有限公司 文本图像处理方法和装置
WO2017211190A1 (zh) * 2016-06-06 2017-12-14 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN108228553A (zh) * 2017-12-28 2018-06-29 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108304836A (zh) * 2018-02-01 2018-07-20 上海海事大学 一种基于图像的图书排序检测方法
CN110888881A (zh) * 2019-11-21 2020-03-17 望海康信(北京)科技股份公司 图片关联方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030086610A1 (en) * 2001-09-27 2003-05-08 Zhaohai Luo Method and means for dividing an image into character image lines, and method and apparatus for character image recognition
CN1549192A (zh) * 2003-05-16 2004-11-24 中国地质大学(武汉) 手写字体的计算机识别与自动输入方法
CN1734466A (zh) * 2004-08-10 2006-02-15 富士通株式会社 用于识别图像中的字符的字符识别装置和字符识别方法
JP2006106906A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 文字読取装置
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030086610A1 (en) * 2001-09-27 2003-05-08 Zhaohai Luo Method and means for dividing an image into character image lines, and method and apparatus for character image recognition
CN1549192A (zh) * 2003-05-16 2004-11-24 中国地质大学(武汉) 手写字体的计算机识别与自动输入方法
CN1734466A (zh) * 2004-08-10 2006-02-15 富士通株式会社 用于识别图像中的字符的字符识别装置和字符识别方法
JP2006106906A (ja) * 2004-09-30 2006-04-20 Toshiba Corp 文字読取装置
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103577818A (zh) * 2012-08-07 2014-02-12 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
CN103577818B (zh) * 2012-08-07 2018-09-04 北京百度网讯科技有限公司 一种图像文字识别的方法和装置
CN104376317A (zh) * 2013-08-12 2015-02-25 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN104376317B (zh) * 2013-08-12 2018-12-14 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
CN105160342A (zh) * 2015-08-11 2015-12-16 成都数联铭品科技有限公司 一种基于hmm-gmm的自动文字图片切分方法及系统
CN106940799B (zh) * 2016-01-05 2020-07-24 腾讯科技(深圳)有限公司 文本图像处理方法和装置
US10572728B2 (en) 2016-01-05 2020-02-25 Tencent Technology (Shenzhen) Company Limited Text image processing method and apparatus
CN106940799A (zh) * 2016-01-05 2017-07-11 腾讯科技(深圳)有限公司 文本图像处理方法和装置
US11232169B2 (en) 2016-06-06 2022-01-25 Advanced New Technologies Co., Ltd. Processing image data of a webpage
US11250095B2 (en) 2016-06-06 2022-02-15 Advanced New Technologies Co., Ltd. Processing image data of a webpage
WO2017211190A1 (zh) * 2016-06-06 2017-12-14 阿里巴巴集团控股有限公司 一种数据处理方法及装置
CN106127202A (zh) * 2016-06-21 2016-11-16 福建富士通信息软件有限公司 一种图片中字符识别的方法以及装置
CN106548175A (zh) * 2016-10-13 2017-03-29 江苏奥博洋信息技术有限公司 一种新型的文字图像数字化处理方法
CN106529521A (zh) * 2016-10-31 2017-03-22 江苏文心古籍数字产业有限公司 一种古籍文字数字化录入方法
CN108228553A (zh) * 2017-12-28 2018-06-29 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN108304836A (zh) * 2018-02-01 2018-07-20 上海海事大学 一种基于图像的图书排序检测方法
CN110888881A (zh) * 2019-11-21 2020-03-17 望海康信(北京)科技股份公司 图片关联方法、装置、计算机设备及存储介质
CN110888881B (zh) * 2019-11-21 2023-03-10 望海康信(北京)科技股份公司 图片关联方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN102456136B (zh) 2013-06-05

Similar Documents

Publication Publication Date Title
CN102456136B (zh) 一种图文切分方法及系统
CN1229757C (zh) 从白板扫描的记录的索引和检索系统及方法
CN101689203B (zh) 图像处理设备和图像处理方法
CA2863522C (en) Formula detection engine
CN100351839C (zh) 文档检索·阅览方法以及文档检索·阅览装置
CN1859541B (zh) 图像处理设备及其控制方法
CN1501239A (zh) 电子墨水的输入和编辑
CN1260526A (zh) 具有文字分割用户接口的手写信息处理系统
JP4785655B2 (ja) 文書処理装置及び文書処理方法
CN102063611A (zh) 一种文字输入方法和系统
CN106294304B (zh) 版式文档注脚的自动识别及转换为流式文档注释的方法
CN103268340A (zh) 基于层次式索引的版式可回流文件建立和绘制方法
US20100202015A1 (en) Image processing apparatus, image processing method, program, and storage medium
US20180032485A1 (en) Image forming apparatus for digitizing document based on revised and corrected original document by hand writing, method and recording medium
CN110688825A (zh) 一种版式文档中的含线表格信息提取方法
CN102841941A (zh) 基于索引的版式可回流文件建立和绘制方法
CN104376317B (zh) 一种将纸质文件转换为电子文件的方法
JP2004246577A (ja) 画像処理方法
CN1877564A (zh) 一种混合编辑文件并自动添加页码信息的处理方法
CN102479326A (zh) 一种图文识别人工校对辅助方法及系统
CN102883085B (zh) 图像处理装置和图像处理方法
CN1147807C (zh) 名片自动识别方法与系统
CN1426017A (zh) 一种校对多个电子文件的方法及其系统
JP4143245B2 (ja) 画像処理方法および装置並びに記憶媒体
JP5476884B2 (ja) 画像処理装置及び画像処理プログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130605

Termination date: 20141029

EXPY Termination of patent right or utility model