发明内容
本发明的目的是提供一种运算量小、受光照影响小的文本图像的倾斜角矫正方法和版面分析方法,以及一种能够将整个版面的字符按排序进行语音阅读的助视装置和助视系统。
为了实现上述目的,本发明提供一种文本图像的倾斜角矫正方法,该方法包括:对所述文本图像进行边缘检测,得到边缘图像;对所述文本图像进行连通域检测,得到所述文本图像的连通域的外接矩形的中心点;对所述边缘图像进行连通域检测,得到所述边缘图像的连通域的外接矩形的中心点;对所得到的所述文本图像的连通域的外接矩形的中心点和所述边缘图像的连通域的外接矩形的中心点的集合应用霍夫变换法进行倾斜角检测,得到所述文本图像的倾斜角;以及在所述倾斜角大于或等于预设的第一倾斜角阈值的情况下,对所述文本图像进行倾斜角矫正。
本发明还提供一种文本图像的版面分析方法。该版面分析方法包括:根据上述文本图像的倾斜角矫正方法对所述文本图像进行倾斜角矫正;对矫正后的文本图像进行连通域检测,根据所述矫正后的文本图像的连通域的位置关系将所述矫正后的文本图像的连通域进行合并,得到文本行;根据训练好的字符数据库来识别所述文本行中的字符;以及将所述文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一文本行中的字符按照从左到右的顺序进行排序。
优选地,合并所述连通域的步骤包括:在两个连通域的外接矩形相互重叠的情况下,将这两个连通域合并成新的连通域;以及在两个连通域的外接矩形不相互重叠的情况下,如果这两个连通域的外接矩形的水平间距小于或等于第一自适应阈值,将这两个连通域合并成新的连通域,其中,所述第一自适应阈值根据预设的第一基本阈值、外接矩形不相互重叠的两个连通域的外接矩形水平方向投影的重叠部分高度与这两个连通域中外接矩形的高度较小的连通域的外接矩形的高度的比值、以及这两个连通域中外接矩形的高度较小的连通域和高度较大的连通域的外接矩形的高度的比值来确定。
优选地,通过以下方式确定所述第一自适应阈值:其中,Q1为所述第一自适应阈值;Q10为所述第一基本阈值;a为外接矩形不相互重叠的两个连通域的外接矩形水平方向投影的重叠部分高度;b为外接矩形不相互重叠的两个连通域中外接矩形的高度较小的连通域的外接矩形的高度;c为外接矩形的高度较小的连通域的外接矩形的高度;以及d为外接矩形的高度较大的连通域的外接矩形的高度。
优选地,该版面分析方法还包括:在得到文本行的步骤之后,并在根据训练好的字符数据库来识别所述文本行中的字符的步骤之前,根据投影方法得到所述文本行的每一像素行在水平方向投影中黑色像素点的统计值;以及根据所述每一像素行的所述黑色像素点的统计值,判断所述文本行的水平方向投影中是否存在有空白区间,并且所述空白区间是否将所述文本行分隔成至少两部分,其中,所述空白区间中的所有像素行的黑色像素点的统计值总和小于或等于一预设的统计值阈值;以及在存在有所述空白区间、并且所述空白区间将所述文本行分隔成至少两部分的情况下,根据所述空白区间的位置对所述文本行进行分割,得到新的文本行。
优选地,该版面分析方法还包括:在得到文本行的步骤之后,并在根据训练好的字符数据库来识别所述文本行中的字符的步骤之前,分别对每一文本行应用霍夫变换法进行倾斜角检测,得到每一文本行的倾斜角;将倾斜角大于预设的第二倾斜角阈值的文本行剔除;以及对倾斜角不大于所述第二倾斜角阈值的文本行进行倾斜角矫正。
优选地,该版面分析方法还包括:在根据训练好的字符数据库来识别所述文本行中的字符的步骤之后,将外接矩形竖直方向的间距小于第二自适应阈值的两个文本行合并,得到文本块;将外接矩形竖直方向的间距小于所述第二自适应阈值的所述文本块和所述文本行合并,得到新的文本块;将外接矩形相互重叠的所述文本块和所述文本行合并,得到新的文本块;以及没有进行合并的所述文本行独自成为新的文本块,其中所述第二自适应阈值由预设的第二基本阈值、两个合并单元竖直方向投影的重叠部分的长度与所述两个合并单元中长度较小的合并单元的长度的比值、以及平均行高较小的合并单元和平均行高较大的合并单元的平均行高的比值来确定,其中,所述合并单元为所述文本行或所述文本块,所述平均行高为所述合并单元中全部文本行的行高的平均值。将所述文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一文本行中的字符按照从左到右的顺序进行排序的步骤为:根据所述文本块外接矩形的左上角的坐标与所述文本图像外接矩形的左上角的坐标的距离和所述文本块之间的间距对所述文本块进行排序;以及将每一文本块中的文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一文本行中的字符按照从左到右的顺序进行排序。
优选地,通过以下方式确定所述第二自适应阈值:其中,Q2为所述第二自适应阈值;Q20为所述第二基本阈值;e为两个合并单元竖直方向投影的重叠部分的长度;f为两个合并单元中长度较小的合并单元的长度;g1为平均行高较小的合并单元的平均行高;以及g2为平均行高较大的合并单元的平均行高。
优选地,根据所述文本块外接矩形的左上角的坐标与所述文本图像外接矩形的左上角的坐标的距离和所述文本块之间的间距对所述文本块进行排序的步骤为:将外接矩形左上角的坐标与所述文本图像的外接矩形左上角的坐标的距离最短的文本块设置为排序第一;查找下一排序的文本块时,在剩余文本块中,将与上一排序的文本块的水平或竖直间距小于一预设的间距阈值的文本块中,其外接矩形的左边最靠左的文本块作为下一排序,以及在没有找到与上一排序的文本块的水平或竖直间距小于所述间距阈值的文本块的情况下,在剩余文本块中,将外接矩形的左上角的坐标与所述文本图像外接矩形的左上角的坐标的距离最小的文本块作为下一排序。
本发明还提供一种助视装置,该助视装置包括:摄像头,用于采集一预设区域的文本图像,并将所述文本图像传输到处理器;所述处理器,与所述摄像头连接,用于:根据上述版面分析方法来对所述文本图像中的字符进行识别和排序;以及生成与排序后的字符对应的语音信息,并将所述语音信息传输到语音播放器;以及所述语音播放器,用于将所述语音信息进行播放。
本发明还提供一种助视系统,该助视系统包括:上述助视装置;以及服务器,与所述助视装置通信,用于与所述助视装置远程交互。
在本发明提供的文本图像的倾斜角矫正方法中,不需要对文本图像的每一个像素点作霍夫变换,而是只对文本图像的连通域的外接矩形的中心点和边缘图像的连通域的外接矩形的中心点的集合作霍夫变换,所以运算量小,处理速度快。并且,在不均匀光照条件下采集的文本图像中,通过边缘检测也可以将字符的轮廓勾画出来,因此,该方法得到的检测结果受光照的影响较小。另外,连通域外接矩形的中心点更能反映每个字的具体位置,因此该方法检测倾斜角的准确度较高。本发明提供的助视装置能够将整版文本图像中的字符进行识别和排序,生成与排序后的字符对应的语音信息,并将该语音信息进行语音播放。因此,该助视装置能够使盲人自主地“阅读”普通纸质书籍,并且使视力正常的人也能通过“听书”来缓解阅读疲劳,享受多途径的阅读体验。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
在本发明中,在未作相反说明的情况下,使用的方位词“水平”、“竖直”“左”、“右”、“高度”和“长度”通常是指在正常情况下阅读文本图像时的方向。
图1是本发明的实施方式提供的文本图像的倾斜角矫正方法的流程图。如图1所示,文本图像的倾斜角矫正方法可以包括以下步骤:
步骤S101,对文本图像进行边缘检测,得到边缘图像。例如,可以应用sobel边缘检测算法对文本图像进行边缘检测。由此得到的边缘图像中,每个像素点代表的是这个点与周围点的梯度关系。
步骤S102(可以与步骤S101同步进行),对文本图像进行连通域检测,得到文本图像的连通域的外接矩形的中心点。该连通域检测可以包括对文本图像进行去噪和二值化。2014年吉林大学王霏的硕士论文《基于视频的运动目标检测算法研究》中详细描述了连通域检测算法,其全部内容在此被合并引用。
然后,步骤S103,对边缘图像进行连通域检测,得到边缘图像的连通域的外接矩形的中心点。该连通域检测可以包括对边缘图像进行去噪和二值化。
接下来,步骤S104,对所得到的文本图像的连通域的外接矩形的中心点和边缘图像的连通域的外接矩形的中心点的集合应用hough变换法进行倾斜角检测,得到文本图像的倾斜角。具体地,将文本图像中所有连通域外接矩形的中心点和边缘图像中所有连通域外接矩形的中心点集合到一张图中,将全部中心点作为hough变换的点,进行倾斜角检测。其中,通过hough变换中点线对偶的关系,每个中心点可以对应hough平面域的一条线,若干中心点对应若干条线,在同一平面上交点最多的线,可以对应出原平面域的一个角度,从而得到文本图像的倾斜角。2007年第7期《计算机应用》中周冠玮等的《基于改进Hough变换的文本图像倾斜校正方法》中描述了用hough变换法得到文本图像的倾斜角的方法,其全部内容在此被合并引用。
最后,步骤S105,在倾斜角大于或等于预设的第一倾斜角阈值的情况下,对文本图像进行倾斜角矫正。例如可以通过根据所述倾斜角进行图像旋转,来进行倾斜角矫正。
本发明的文本图像的倾斜角矫正方法中,由于只对文本图像的连通域的外接矩形的中心点和边缘图像的连通域的外接矩形的中心点的集合作hough变换,而不需要对文本图像的每一个像素点作hough变换,所以运算量小,处理速度快。并且,在不均匀光照条件下采集的文本图像中,通过边缘检测也可以将字符的轮廓勾画出来,因此,该方法得到的检测结果受光照的影响较小。另外,连通域外接矩形的中心点更能反映每个字的具体位置,因此该方法检测倾斜角的准确度较高。
本发明还提供一种文本图像的版面分析方法。图2是本发明的实施方式提供的文本图像的版面分析方法的流程图。如图2所示,该方法可以包括:
步骤S201,根据上述文本图像的倾斜角矫正方法对文本图像进行倾斜角矫正。
接着,步骤S202,对矫正后的文本图像进行连通域检测,根据矫正后的文本图像的连通域的位置关系将矫正后的文本图像的连通域进行合并,得到文本行。其中,自底向上合并可以为:将检测到的连通域进行合并,合并以后的连通域仍然可以继续合并,最后合并成文本行。该文本行可以是直接可以进行字符匹配的一行文字。1999年第4期《中文信息学报》中,田学东等的《基于组合特征的中文版面分析方法》中详细描述了根据文本结构的组合特征将连通域自底向上合并的方法,其全部内容在此被合并引用。
其中,优选情况下,该步骤S202中,合并连通域的步骤可以包括:
1)在两个连通域的外接矩形相互重叠的情况下,将这两个连通域合并成新的连通域。
图3是本发明的实施方式提供的连通域合并的示意图。如图3所示,以一文本行中包括“人”、“来”、“明”和“元”四个字为例进行说明。每个连通域的外部都标注有该连通域的外接矩形。
其中,“人”字可以检测为一个连通域。
“来”字可以检测为包括两个连通域,外接矩形较小的连通域全部包含在外接矩形较大的连通域中,它们具有相互重叠的部分,因此,“来”字可以合并成一个连通域。
“明”字也可以检测为包括两个连通域,两个连通域的外接矩形有部分相互重叠,因此,“明”字可以合并成一个连通域。
“元”字也可以检测为包括两个连通域,这两个连通域的外接矩形并没有相互重叠的部分,因此在该步骤中,“元”字所包括的两个连通域不能合并。
2)在两个连通域的外接矩形不相互重叠的情况下,如果这两个连通域的外接矩形的水平间距小于或等于第一自适应阈值,将这两个连通域合并成新的连通域。其中,第一自适应阈值Q1可以根据预设的第一基本阈值Q10、外接矩形不相互重叠的两个连通域的外接矩形水平方向投影的重叠部分高度a与这两个连通域中外接矩形的高度较小的连通域的外接矩形的高度b的比值、以及这两个连通域中外接矩形的高度较小的连通域和高度较大的连通域的外接矩形的高度c和d的比值来确定。
例如,可以通过以下方式确定第一自适应阈值:
其中,所述第一基本阈值可以根据经验来设定。例如,该第一基本阈值可以被设定为10。下面以“元”字的上半部分与“明”字这两个连通域的合并为例进行说明。由于这两个连通域的外接矩形水平方向投影的重叠部分高度也就是高度较小的连通域的外接矩形的高度,所以,为100%。而两个连通域外接矩形的高度相差较大,因此,小于100%。取 如果“元”字的上面的连通域与左面“明”字这两个连通域外接矩形水平方向的间距为7(小于10),则可以合并。
当“明”字与“元”字的上面的连通域合并成一个新的连通域时,该新的连通域与“元”字的下面的连通域其外接矩形又相互重叠,这样,“元”和“明”两个字合并为一个连通域。这样,经过连通域自底向上的层层合并,得到文本行。
由上述连通域合并方法得到文本行,由于纸面污染或其他原因,可能会出现将两个或两个以上的字符行合并为一个文本行的情况。优选情况下,可以对这种过合并的文本行进行拆分。具体地,根据投影方法得到文本行的每一像素行在水平方向投影中黑色像素点的统计值;以及根据每一像素行的黑色像素点的统计值,判断文本行的水平方向投影中是否存在有空白区间,并且空白区间是否将文本行分隔成至少两部分,其中,空白区间中的所有像素行的黑色像素点的统计值总和小于或等于一预设的统计值阈值;以及在存在有空白区间、并且空白区间将文本行分隔成至少两部分的情况下,根据空白区间的位置对文本行进行分割,得到新的文本行。
例如,图4a和图4b是本发明的实施方式提供的将文本行进行分割的示意图。如图4a所示,由于中间黑色像素点的连通,两个字符行在步骤202中合并成了一个文本行。那么,在该优选实施方式中,先根据投影方法得到该过合并的文本行的每一像素行在水平方向投影中黑色像素点的统计值,图4a的坐标轴中,X轴为该过合并的文本行水平方向投影的位置,Y轴为黑色像素点的统计值。在该坐标轴中的统计值(柱状图)中,[x1,x2]区间内的所有像素行的黑色像素点的统计值总和小于或等于一预设的统计值阈值,则可以将文本行中的该区间认为是空白区间。并且,该空白区间将文本行分割成上下两部分(字符行)。此时,可以将该过合并的文本行分割成如图4b所示的两个新的文本行。通过这种拆分方法,能够将步骤S202中过合并的文本行进行分割,使得分成的文本行更加准确。
另外,由于桌面不平整或打印的原因,文本行可能会有一定的倾斜。为了纠正该倾斜,更准确地识别字符,优选情况下,在步骤S202(得到文本行)之后,可以对倾斜的文本行进行矫正。具体地,可以分别对每一文本行应用霍夫变换法进行倾斜角检测,得到每一文本行的倾斜角。对于倾斜角大于预设的第二倾斜角阈值(例如,3°)的文本行,可以认为是非字符行(例如,图片)而剔除。对于倾斜角不大于该第二倾斜角阈值的文本行,可以进行倾斜角矫正。通过以上检测每一文本行的倾斜角,不仅能够对倾斜的文本行(例如,用图像旋转)进行矫正,而且可以将图片等非字符行剔除,不进行字符匹配,从而减小了待匹配的信息,加快了识别速度。
接着,步骤S203,根据训练好的字符数据库来识别所述文本行中的字符。该识别字符的过程属于本领域的公知技术,故于此不再赘述。
最后,步骤S204,将文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一文本行中的字符按照从左到右的顺序进行排序。这样,对整个版面上的所有字符都进行了排序,该排序符合我们平时的阅读习惯(从上到下阅读每一个文本行,文本行内又是从左到右地阅读每个字符)。
本发明的版面分析方法中,应用了上述文本图像的倾斜角矫正方法,使得该版面分析方法运算量小,受光照影响小,准确度高。并且以上提供的优选实施方式能够使字符识别更加准确。
以上字符的排序方法是针对版面中只有一“块”文本的情况,有时候,像报纸、杂志一类的阅读材料,其版面被分成了几个部分,也就是由一块一块的文字或图片构成。因此,优选情况下,可以在本发明的版面分析方法中,先将版面分成若干文本块,然后再将所分成的文本块进行排序。具体地,可以在步骤S203(对字符进行识别)之后实施以下步骤:
1)将外接矩形竖直方向的间距小于第二自适应阈值的两个文本行合并,得到文本块。其中,第二自适应阈值Q2可以由预设的第二基本阈值Q20、两个合并单元竖直方向投影的重叠部分的长度e与两个合并单元中长度较小的合并单元的长度f的比值、以及平均行高较小的合并单元和平均行高较大的合并单元的平均行高g1和g2的比值来确定。其中,合并单元为文本行,文本行的行高即为平均行高。
例如,可以通过以下方式确定第二自适应阈值:
图5a和图5b是本发明的实施方式提供的将文本行合并成文本块的示意图。如图5a所示,预设第二基本阈值Q20=10。两个文本行数值方向投影的重叠部分的长度e=|x2-x1|,两个文本行中长度较小的文本行(上面的文本行)的长度f=|x2-x1|,因此,为100%。而两个文本行的(平均)行高不相等,因此,小于100%。取 如果两个文本行外接矩形竖直方向的间距|y3-y2|=7(小于10),则这两个文本行可以合并。
2)将外接矩形竖直方向的间距小于第二自适应阈值的文本块和文本行合并,得到新的文本块。其中,第二自适应阈值可以根据上述等式(2)来确定,合并单元可以为文本行或文本块,平均行高为合并单元中全部文本行的行高的平均值。当合并单元为文本行时,平均行高为该文本行的行高,当合并单元为文本块时,平均行高为该文本块中所包含的全部文本行的行高的平均值。具体地,该平均行高可以通过多种方法得到。例如,可以对合并单元进行水平方向投影,得到该合并单元的每一像素行在水平方向投影中黑色像素点的统计值,根据该统计值和一预设的统计值阈值可以划分出该合并单元中各个文本行的区间和空白区间,然后对全部文本行的区间的高求平均值,得到该文本块的平均行高。
3)将外接矩形相互重叠的文本块和文本行合并,得到新的文本块。如图5b所示的例子中,文本行1和文本行2合并的文本块其外接矩形覆盖了文本行3的外接矩形,因此,可以将该文本块(文本行1和文本行2组成)和文本行3合并成新的文本块。
4)没有进行合并的文本行可以独自成为新的文本块。
由1)—4)的以上步骤,将版面中的一些文本行合并成文本块以后,文本图像可以由一个或多个文本块构成,接下来可以先将文本块进行排序,再对每一文本块中的文本行排序,来构成整个版面字符的整体排序。也就是,在该版面分析方法的合并文本块的优选实施方式中,步骤S204可以为:
1)根据文本块外接矩形的左上角的坐标与文本图像外接矩形的左上角的坐标的距离和文本块之间的间距对文本块进行排序。
优选情况下,可以按照以下步骤将一个版面的文本块进行排序:
a、将外接矩形左上角的坐标与文本图像的外接矩形左上角的坐标的距离最短的文本块设置为排序第一;
b、查找下一排序的文本块时,在剩余文本块中,将与上一排序的文本块的水平或竖直间距小于一预设的间距阈值的文本块中,其外接矩形的左边最靠左的文本块作为下一排序;以及
c、在没有找到与上一排序的文本块的水平或竖直间距小于间距阈值的文本块的情况下,在剩余文本块中,将外接矩形的左上角的坐标与文本图像外接矩形的左上角的坐标的距离最小的文本块作为下一排序。
2)将每一文本块中的文本行按照从上到下、同一水平位置中从左到右的顺序进行排序,并且将每一文本行中的字符按照从左到右的顺序进行排序。
这样,在合并文本块的优选实施方式中,将整个版面按照方法进行整体的排序,得到更加准确的字符排序。
本发明还提供一种助视装置。图6是本发明的实施方式提供的助视装置的结构框图。如图6所示,该助视装置600可以包括摄像头601、处理器602和语音播放器603。其中,摄像头601可以用于采集一预设区域的文本图像,并将该文本图像传输到处理器602。处理器602可以与摄像头601连接,用于:根据上述版面分析方法来对文本图像中的字符进行识别和排序,生成与排序后的字符对应的语音信息,并将语音信息传输到语音播放器603。语音播放器603可以用于将语音信息进行播放。
在本发明的助视装置中,能够将整版文本图像进行识别和排序,将识别的字符按照排序生成语音信息,并进行语音播放。因此,该助视装置能够使盲人自主地“阅读”普通纸质书籍,并且使视力正常的人也能通过“听书”来缓解阅读疲劳,享受多途径的阅读体会。
本发明还提供一种助视系统。该助视系统可以包括上述助视装置和服务器。其中,服务器可以与助视装置通信,用于与助视装置远程交互。通过该助视系统,每个助视装置的用户可以通过服务器与其它助视装置的用户建立社交网络,彼此交换存储的信息,交流心得体会。
在本发明提供的文本图像的倾斜角矫正方法中,不需要对文本图像的每一个像素点作霍夫变换,而是只对文本图像的连通域的外接矩形的中心点和边缘图像的连通域的外接矩形的中心点的集合作霍夫变换,所以运算量小,处理速度快。并且,在不均匀光照条件下采集的文本图像中,通过边缘检测也可以将字符的轮廓勾画出来,因此,该方法得到的检测结果受光照的影响较小。另外,连通域外接矩形的中心点更能反映每个字的具体位置,因此该方法检测倾斜角的准确度较高。本发明提供的助视装置能够将整版文本图像中的字符进行识别和排序,生成与排序后的字符对应的语音信息,并将该语音信息进行语音播放。因此,该助视装置能够使盲人自主地“阅读”普通纸质书籍,并且使视力正常的人也能通过“听书”来缓解阅读疲劳,享受多途径的阅读体验。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。