发明内容
本发明提供一种文字识别方法及用户终端,能够实现用户终端只对标记区域内的标记内容进行识别,进而提高了用户体验。
本发明实施例的第一方面提供了文字识别方法,包括:用户终端对文本进行拍照并生成图像,所述文本上带有用户所做的标记;
所述用户终端对所述图像进行识别,并确定所述用户所做的标记在所述图像上对应的标记区域;
所述用户终端对所述标记区域中的标记内容进行光学字符识别。
结合本发明实施例的第一方面,在本发明实施例的第一方面的第一种实施方式中,包括:所述用户所做的标记为直线、或曲线、或椭圆形、或矩形、或圆形。
结合本发明实施例的第一方面,或第一方面的第一种实施方式,在本发明实施例的第一方面的第二种实施方式中,包括:所述用户终端对所述图像进行识别的技术为霍夫变换、或链码技术、或不变距技术、或傅里叶描述子技术、或自回归模式技术。
结合本发明实施例的第一方面,或第一方面的第一种实施方式,在本发明实施例的第一方面的第三种实施方式中,所述用户终端对所述图像进行识别,并确定所述用户所做的标记在所述图像上对应的标记区域的具体步骤包括:所述用户终端通过霍夫变换对所述图像中所述用户所做的标记进行检测及定位;
所述用户终端根据检测及定位的结果确定所述标记区域。
结合本发明实施例的第一方面的第三种实施方式,在本发明实施例的第一方面的第四种实施方式中,所述用户所做的标记为直线时,所述用户终端通过霍夫变换对所述图像中的标记进行检测及定位的具体步骤包括:所述用户终端将直线对应的公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,其中x,y空间中的点对应在极坐标参数空间中的正弦曲线;
所述用户终端选取的x,y坐标系下N个点,将ρ离散化为Nρ个参数空间,将θ离散化为Nθ个参数空间,并依据选取的N个点,算出N个ρ值及与ρ值对应的N个θ值;
所述用户终端通过累加计数的方式在算出N个ρ值及与ρ值对应的N个θ值中获取峰值点(ρ0,θ0);
所述用户终端依据所述峰值点(ρ0,θ0)检测及定位对应x,y坐标系下的直线,所述直线为所述用户所做的标记。
结合本发明实施例的第一方面的第四种实施方式,在本发明实施例的第一方面的第五种实施方式中,所述用户终端根据检测及定位的结果确定所述标记区域的具体步骤包括:所述用户终端依据检测及定位到的所述直线来确定所述直线上方的文字区域为标记区域。
结合本发明实施例的第一方面的第三种实施方式,在本发明实施例的第一方面的第六种实施方式中,当所述用户所做的标记为矩形时,所述用户终端通过霍夫变换对所述图像中的标记进行检测及定位的具体步骤包括:所述用户终端将所述矩形的边对应的公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,所述矩形包括四条边,每条边对应的x,y坐标空间对应一个极坐标参数空间,其中x,y坐标空间中的点对应在极坐标参数空间中的正弦曲线;
所述用户终端在每条边对应的x,y坐标系下分别选取M个点,将ρ离散化为Mρ个参数空间,将θ离散化为Mθ个参数空间,并依据在每条边对应的x,y坐标系下选取的M个点,计算ρ值及与ρ值对应的θ值,所述矩形的一条边对应算出一组M个ρ值及与ρ值对应的M个θ值;
所述用户终端将算出的四组M个ρ值及与ρ值对应的M个θ值作为四个累加数组,通过累加计数的方式在每一个累加数组中获取到一个峰值点,所述一个峰值点对应x,y坐标系中的一条直线,所述四条直线为所述矩形的四条边;
所述用户终端依据矩形的特征从所述累加数组中查找所述矩形四个顶点,其中所述矩形的特征为矩形的相邻两边夹角为90°和矩形的对边等长;
所述用户终端依据所述矩形的四个边及四个顶点检测及定位所述矩形,所述矩形为所述用户所做的标记。
结合本发明实施例的第一方面的第六种实施方式,在本发明实施例的第一方面的第七种实施方式中,所述用户终端根据检测及定位的结果确定所述标记区域的具体步骤包括:所述用户终端依据检测及定位到所述矩形来确定所述矩形内的文字区域为标记区域。
结合本发明实施例的第一方面,或第一方面的第一种实施方式,在本发明实施例的第一方面的第八种实施方式中,所述用户终端对所述标记区域中的标记内容进行光学字符识别之后还包括:所述用户终端将光学字符识别得到的标记内容进行摘取;
所述用户终端将摘取到的所述标记内容进行重新排版,并保存及显示排版后的所述标记内容。
本发明实施例的第二方面提供了一种用户终端,所述用户终端包括:摄像单元,用于对文本进行拍照并生成图像,所述文本上带有用户所做的标记;
图像识别单元,用于对所述图像进行识别,并确定所述用户所做的标记在所述图像上对应的标记区域;
光学字符识别单元,用于对所述标记区域中的标记内容进行光学字符识别。
结合本发明实施例的第二方面,在本发明实施例的第二方面的第一种实施方式中,包括:所述用户所做的标记为直线、或曲线、或椭圆形、或矩形、或圆形。
结合本发明实施例的第二方面,或第二方面的第一种实施方式,在本发明实施例的第二方面的第二种实施方式中,包括:所述用户终端对所述图像进行识别的技术为霍夫变换、或链码技术、或不变距技术、或傅里叶描述子技术、或自回归模式技术。
结合本发明实施例的第二方面,或第二方面的第一种实施方式,在本发明实施例的第二方面的第三种实施方式中,所述图像识别单元包括:
检测模块,用于通过霍夫变换对所述图像中的所述用户所做的标记进行检测及定位;
确定模块,用于根据检测及定位的结果确定所述标记区域。
结合本发明实施例的第二方面的第三种实施方式,在本发明实施例的第二方面的第四种实施方式中,当所述用户所做的标记为直线时,所述检测模块包括:
第一转换模块,用于将直线对应的公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,其中x,y空间中的点对应在极坐标参数空间中的正弦曲线;
第一计算模块,用于选取x,y坐标系下N个点,将ρ离散化为Nρ个参数空间,将θ离散化为Nθ个参数空间,并依据选取的N个点,算出N个ρ值及与ρ值对应的N个θ值;
第一累加计数模块,用于通过累加计数的方式在算出N个ρ值及与ρ值对应的N个θ值中获取峰值点(ρ0,θ0);
第一检测模块,依据所述峰值点(ρ0,θ0)检测及定位对应x,y坐标系下的直线,所述直线为所述用户所做的标记。
结合本发明实施例的第二方面的第四种实施方式,在本发明实施例的第二方面的第五种实施方式中,所述确定模块包括:
第一确定模块,用于依据检测及定位到的所述直线来确定直线上方的文字区域为标记区域。
结合本发明实施例的第二方面的第三种实施方式,在本发明实施例的第二方面的第六种实施方式中,所述用户所做的标记为矩形时,所述检测模块包括:
第二转换模块,用于将所述矩形的边对应的公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,所述矩形包括四条边,每条边对应的x,y坐标空间对应一个极坐标参数空间,其中x,y坐标空间中的点对应在极坐标参数空间中的正弦曲线;
第二计算模块,用于在每条边对应的x,y坐标系下分别选取M个点,将ρ离散化为Mρ个参数空间,将θ离散化为Mθ个参数空间,并依据在每条边对应的x,y坐标系下选取的M个点,计算ρ值及与ρ值对应的θ值,所述矩形的一条边对应算出一组M个ρ值及与ρ值对应的M个θ值;
第二累加计数模块,用于将算出的四组M个ρ值及与ρ值对应的M个θ值作为四个累加数组,通过累加计数的方式在每一个累加数组中获取到一个峰值点,所述一个峰值点对应x,y坐标系中的一条直线,所述四条直线为所述矩形的四条边;
查找模块,用于依据矩形的特征从所述累加数组中查找所述矩形四个顶点,其中所述矩形的特征为矩形的相邻两边夹角为90°和矩形的对边等长;
第二检测模块,用于依据所述矩形的四个边及四个顶点检测及定位所述矩形,所述矩形为所述用户所做的标记。
结合本发明实施例的第二方面的第六种实施方式,在本发明实施例的第二方面的第七种实施方式中,所述确定模块包括:
第二确定模块,用于依据检测及定位到的所述矩形来确定矩形内的文字区域为标记区域。
结合本发明实施例的第二方面,或第二方面的第一种实施方式,在本发明实施例的第二方面的第八种实施方式中,所述用户终端还包括:
摘取单元,用于将光学字符识别得到的所述标记内容进行摘取;
显示单元,用于对摘取到的所述标记内容进行排版,并保存及显示排版后的所述标记内容。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,用户终端对文本进行拍照并生成图像,文本上带有用户所做的标记,然后对图像进行识别,并确定用户所做的标记在图像上对应的标记区域,对标记区域中的标记内容进行光学字符识别,从而实现了用户终端只对标记区域内的标记内容进行识别,进而提高了用户体验。
具体实施方式
本发明实施例提供一种文字识别方法及用户终端,能够对用户标记的内容进行识别,进而增加用户体验。
请参照图1,本发明实施例中文字识别方法一个实施例包括:
101、用户终端对文本进行拍照并生成图像;
本实施例中,文本上带有用户所做的标记,以标记出用户感兴趣的文字内容,然后用户终端对带有用户所做标记的文本进行拍照,并生产图像。
需要说明的是,用户可以用铅笔在文本上做标记,也可以用钢笔在文本上做标记,还可以用油笔在文本上做标记,此处不做限定。
102、用户终端对图像进行识别,并确定用户所做的标记在图像上对应的标记区域;
本实施例中,用户终端对带有用户所做标记的图像进行识别,然后确定用户所做标记在图像上对应的标记区域。
103、用户终端对标记区域中的标记内容进行光学字符识别。
本实施例中,用户终端通过OCR只对标记区域中的标记内容进行识别。OCR技术是通过检查纸上打印的字符,并检测暗、亮的模式确定字符的形状,然后用字符识别方法将形状翻译成计算机文字的技术,OCR具体的实现方式为公知技术,此处不做详述。
本实施例中,用户终端对文本进行拍照并生成图像,文本上带有用户所做的标记,然后对图像进行识别,并确定用户所做的标记在图像上对应的标记区域,对标记区域中的标记内容进行光学字符识别,从而实现了用户终端只对标记区域内的标记内容进行识别,进而提高了用户体验。
为了便于理解,下面以一具体实例对本发明实施例中的文字识别方法进行描述,请参阅图2,本发明实施例中文字识别方法另一实施例包括:
201、用户终端对文本进行拍照并生成图像;
本实施例中,文本上带有用户所做的标记,用户可以用铅笔在文本上做标记,也可以用钢笔在文本上做标记,还可以用油笔在文本上做标记,此处不做限定。
用户所做的标记可以为直线,可以为曲线,可以为矩形,也可以为圆形,还可以为椭圆形,此处不做限定,用户可以根据自己的习惯在文本上标记自己感兴趣的文字内容,如在感兴趣文字内容的下方画直线或用矩形圈出感兴趣文字内容,然后用户终端对带有用户标记的文本进行拍照并且生成图像。
202、用户终端通过霍夫变换对图像中用户所做的标记进行检测及定位;
本实施例中,用户终端对图像进行识别技术此处不做限定,在实际应用中可以为霍夫变换,可以为链码技术,可以为不变距技术,也可以为傅里叶描述子技术,还可以为自回归模式技术等,此处仅以霍夫变换为例进行说明,用户终端通过霍夫变换检测到用户所做的标记,并且定位检测到的用户所做的标记。
203、用户终端根据检测及定位的结果确定标记区域;
本实施例中,用户终端根据步骤202中检测及定位的结果来确定标记区域,如检测及定位的结果为圆形,那么标记区域为圆形内的区域。
204、用户终端对标记区域中的标记内容进行光学字符识别;
本实施例中,用户终端通过OCR只对标记区域中的标记内容进行识别。OCR技术是通过检查纸上打印的字符,并检测暗、亮的模式确定字符的形状,然后用字符识别方法将形状翻译成计算机文字的技术,OCR具体的实现方式为公知技术,此处不做详述。
205、用户终端将光学字符识别得到的标记内容进行摘取;
206、用户终端将摘取到的标记内容进行重新排版,并保存及显示排版后的标记内容。
本实施例中,用户终端对步骤204中得到的标记内容进行摘取,然后重新排版摘取到的标记内容,将重新排版后的标记内容进行保存并向用户进行显示。
本实施例中,用户终端对文本进行拍照并生成图像,文本上带有用户所做的标记,然后通过霍夫变换对图像中用户所做的标记进行检测及定位,并根据检测及定位的结果确定标记区域,对标记区域中的标记内容进行光学字符识别,并将光学字符识别得到的标记内容进行摘取及重新排版,并保存及显示排版后的标记内容,从而实现了用户终端只对标记区域内的标记内容进行识别,用户可以更直观的看到标记内容,而且通过将标记内容保存至用户终端可以随时分享给他人,进一步的提高了用户体验。
为了便于理解,下面的具体实施例为当用户所做的标记为直线时,对本发明实施例中的文字识别方法进行描述,请参阅图3,本发明实施例中文字识别方法另一实施例包括:
301、用户终端对文本进行拍照并生成图像;
本实施例中,文本上带有用户所做的标记,用户可以用铅笔在文本上做标记,也可以用钢笔在文本上做标记,还可以用油笔在文本上做标记,此处不做限定。
用户所做的标记可以为直线,可以为曲线,可以为矩形,也可以为圆形,还可以为椭圆形,此处不做限定,用户可以根据自己的习惯在文本上标记自己感兴趣的文字内容,如在感兴趣文字内容的下方画直线或用矩形圈出感兴趣文字内容,然后用户终端对带有用户标记的文本进行拍照并且生成图像,此处以直线为例进行说明。
302、用户终端将直线对应的公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ;
本实施例中,当用户所做的标记为直线时,建立x,y坐标空间,并将直线对应的x,y坐标公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,x,y坐标空间中的点对应在极坐标参数空间中的正弦曲线。
303、用户终端选取的x,y坐标系下N个点,将ρ离散化为Nρ个参数空间,将θ离散化为Nθ个参数空间,并依据选取的N个点,算出N个ρ值及与ρ值对应的N个θ值;
本实施例中,用户终端选取x,y坐标系下的N个点,然后对ρ和θ进行离散化分别得到Nρ个参数空间和Nθ个参数空间,并根据选取的N个点计算出N个ρ值及与ρ值对应的N个θ值,其中N个点中的每个点对应一个ρ值和θ值。
304、用户终端通过累加计数的方式在算出N个ρ值及与ρ值对应的N个θ值中获取峰值点(ρ0,θ0);
本实施例中,通过累加计数的方式获取峰值点是本领域技术人员惯用的技术手段,此处不做详述。
305、用户终端依据峰值点(ρ0,θ0)检测及定位对应x,y坐标系下的直线。
本实施例中,由于在x,y空间中的点对应在极坐标参数空间中的正弦曲线,所以极坐标参数空间中的点对应x,y空间中的直线,在步骤304获取的峰值点(ρ0,θ0)为x,y坐标系下的直线,该直线为用户所做的标记。
306、用户终端依据检测及定位到的直线来确定直线上方的文字区域为标记区域。
本实施例中,当用户终端检测及定位图像中有直线时,根据检测及定位到的直线确定直线上方的文字内容。
307、用户终端对标记区域中的标记内容进行光学字符识别;
在本实施例中,用户终端将直线上方的文字区域中的文字作为标记内容,对然后对标记内容进行光学字符识别,以识别出直线上方的文字,OCR具体的实现方式为公知技术,此处不做详述。
308、用户终端将光学字符识别得到的标记内容进行摘取;
309、用户终端将摘取到的标记内容进行重新排版,并保存及显示排版后的标记内容。
本实施例中,用户终端对标记内容进行摘取,然后重新排版摘取到的标记内容,将重新排版后的标记内容进行保存并向用户进行显示。
本实施例中,用户终端对文本进行拍照并生成图像,文本上带有用户所做的标记,当用户所做的标记为直线时,用户终端通过霍夫变换对图像中直线进行检测及定位,依据检测及定位到的直线来确定直线上方的文字区域为标记区域,然后对标记区域中的标记内容进行光学字符识别将光学字符识别得到的标记内容进行摘取,将摘取到的标记内容进行重新排版,并保存及显示排版后的标记内容,从而实现了用户终端只对标记区域内的标记内容进行识别,用户可以更直观的看到标记内容,同时通过标记内容保存至用户终端可以随时分享给他人,进一步的提高了用户体验。
为了便于理解,下面的具体实施例为当用户所做的标记为矩形时,对本发明实施例中的文字识别方法进行描述,请参阅图3,本发明实施例中文字识别方法另一实施例包括:
401、用户终端对文本进行拍照并生成图像;
本实施例中,文本上带有用户所做的标记,用户可以用铅笔在文本上做标记,也可以用钢笔在文本上做标记,还可以用油笔在文本上做标记,此处不做限定。
用户所做的标记可以为直线,可以为曲线,可以为矩形,也可以为圆形,还可以为椭圆形,此处不做限定,用户可以根据自己的习惯在文本上标记自己感兴趣的文字内容,如在感兴趣文字内容的下方画直线或用矩形圈出感兴趣文字内容,然后用户终端对带有用户标记的文本进行拍照并且生成图像,此处以矩形为例进行说明。
402、用户终端将矩形的边对应的公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ;
本实施例中,当用户所做的标记为矩形时,建立x,y坐标空间,矩形包括四条边且每条边对应一条直线,则每条直线对应的公式为y=ax+b,将公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,其中x,y坐标空间中的点对应在极坐标参数空间中的正弦曲线,每条边对应的x,y坐标空间对应一个极坐标参数空间。
403、用户终端在每条边对应的x,y坐标系下分别选取M个点,将ρ离散化为Mρ个参数空间,将θ离散化为Mθ个参数空间,并依据在每条边对应的x,y坐标系下选取的M个点,计算ρ值及与ρ值对应的θ值;
本实施例中,用户终端在每条边对应的x,y坐标系下分别选取M个点,该矩形包括四条边,则选取四组且每一组包括M个点,然后对ρ和θ进行离散化分别得到Mρ个参数空间和Mθ个参数空间,依据每一组的M个点分别对应算出一组M个ρ值及与ρ值对应的M个θ值,矩形的一条边对应算出一组M个ρ值及与ρ值对应的M个θ值。
404、用户终端将算出的四组M个ρ值及与ρ值对应的M个θ值作为四个累加数组,通过累加计数的方式在每一个累加数组中获取到一个峰值点;
本实施例中,一个峰值点对应x,y坐标系中的一条直线,用户终端通过四组累加数组获取到四条直线,其中四条直线为矩形的四条边。
405、用户终端依据矩形的特征从累加数组中查找矩形顶点;
本实施例中,矩形的特征为矩形的固有几何特征,包括相邻两边夹角为90°和对边等长,用户终端依据矩形的特征可以从累加数组中查找出矩形的四个顶点,此处通过矩形特征查找矩形的顶点为本领域技术人员在霍夫变换中的惯用技术手段,此处不赘述。
405、用户终端依据矩形的四个边及四个顶点检测及定位矩形;
本实施例中,当用户终端检测到矩形的四个边和四个顶点时,就可以检测和定位到完整的矩形,该矩形为用户所做的标记。
406、用户终端依据检测及定位到矩形来确定矩形内的文字区域为标记区域;
本实施例中,当用户终端检测及定位图像中的矩形,则该矩形内的文字区域为标记区域。
407、用户终端对标记区域中的标记内容进行光学字符识别;
在本实施例中,用户终端将矩形内的文字区域中的文字作为标记内容,对然后对标记内容进行光学字符识别,以识别出矩形内的文字内容,OCR具体的实现方式为公知技术,此处不做详述。
408、用户终端将光学字符识别得到的标记内容进行摘取;
409、用户终端将摘取到的标记内容进行重新排版,并保存及显示排版后的标记内容。
本实施例中,用户终端对标记内容进行摘取,然后重新排版摘取到的标记内容,将重新排版后的标记内容进行保存并向用户进行显示。
本实施例中,用户终端对文本进行拍照并生成图像,文本上带有用户所做的标记,当用户所做的标记为矩形时,用户终端通过霍夫变换对图像中矩形进行检测及定位,依据检测及定位到的矩形来确定矩形内的文字区域为标记区域,然后对标记区域中的标记内容进行光学字符识别,将光学字符识别得到的标记内容进行摘取,将摘取到的标记内容进行重新排版,并保存及显示排版后的标记内容,从而实现了用户终端只对标记区域内的标记内容进行识别,用户可以更直观的看到标记内容,同时通过标记内容保存至用户终端可以随时分享给他人,进一步的提高了用户体验。
下面对用于执行上述文字识别方法的本发明实施例的用户终端进行说明,其基本逻辑结构参考图5,本发明实施例中用户终端一个实施例包括:
摄像单元501、图像识别单元502、光学字符识别单元503;
摄像单元501,用于对文本进行拍照并生成图像,文本上带有用户所做的标记;
图像识别单元502,用于对图像进行识别,并确定用户所做的标记在图像上对应的标记区域;
光学字符识别单元503,用于对标记区域中的标记内容进行光学字符识别。
本实施例中,摄像单元501对文本进行拍照并生成图像,文本上带有用户所做的标记,然后图像识别单元502对图像进行识别,并确定用户所做的标记在图像上对应的标记区域,再通过光学字符识别单元503对标记区域中的标记内容进行光学字符识别,从而实现了用户终端只对标记区域内的标记内容进行识别,进而提高了用户体验。
为了便于理解,下面以一具体实例对本发明实施例中的用户终端进行描述,请参阅图6,本发明实施例中用户终端的另一实施例包括:
摄像单元601、检测模块602、确定模块603、光学字符识别单元604、摘取单元605及显示单元606;
摄像单元601,用于对文本进行拍照并生成图像,文本上带有用户所做的标记;
检测模块602,用于通过霍夫变换对图像中的用户所做的标记进行检测及定位;
确定模块603,用于根据检测及定位的结果确定标记区域;
光学字符识别单元604,用于对标记区域中的标记内容进行光学字符识别;
摘取单元605,用于将光学字符识别得到的标记内容进行摘取;
显示单元606,用于对摘取到的标记内容进行排版,并保存及显示排版后的标记内容。
本实施例中,摄像单元601对文本进行拍照并生成图像,文本上带有用户所做的标记,然后检测模块602通过霍夫变换对图像中用户所做的标记进行检测及定位,确定模块603根据检测及定位的结果确定标记区域,光学字符识别单元604对标记区域中的标记内容进行光学字符识别,摘取单元605将光学字符识别得到的标记内容进行摘取及重新排版,显示单元606保存及显示排版后的标记内容,从而实现了只对标记区域内的标记内容进行识别,用户可以更直观的看到标记内容,同时通过标记内容进行保存可以随时分享给他人,进一步的提高了用户体验。
为了更好的理解上述的实施例,下面为当用户所做标记为直线时,用户终端中包括的各个模块及单元间的交互对用户终端中的数据交互方式进行说明,请进一步参阅图7,包括:
摄像单元701、第一转换模块702、第一计算模块703、第一累加计数模块704、第一检测模块705、第一确定模块706、光学字符识别单元707、摘取单元708、显示单元709;
摄像单元701对文本进行拍照并生成图像,文本上带有用户所做的标记,然后将带有用户所做的标记的图像发送给第一转换模块702;
第一转换模块702接收到带有用户所做的标记的图像后,当用户所做的标记为直线时,将直线对应的x,y坐标公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,并将转换完成消息发送至第一计算模块703,其中x,y坐标空间中的点对应在极坐标参数空间中的正弦曲线;
第一计算模块703在接收到转换完成消息之后,在x,y坐标系下选取N个点,并将ρ离散化为Nρ个参数空间,将θ离散化为Nθ个参数空间,然后依据选取的N个点,算出N个ρ值及与ρ值对应的N个θ值,并将N个ρ值及与ρ值对应的N个θ值发送至第一累加计数模块704;
第一累加计数模块704通过累加计数的方式从算出N个ρ值及与ρ值对应的N个θ值中获取峰值点(ρ0,θ0),并将峰值点(ρ0,θ0)发送至第一检测模块705;
第一检测模块705依据峰值点(ρ0,θ0)检测及定位对应x,y坐标系下的直线,并将包含检测及定位到直线的消息发送至第一确定模块,其中该直线为用户所做的标记;
第一确定模块706根据第一检测模块705检测及定位到的直线确定直线上方的文字区域为标记区域,并将该标记区域发送至光学字符识别单元707;
光学字符识别单元707根据接收到的标记区域将直线上方的文字区域中的文字作为标记内容,然后对标记内容进行光学字符识别,并将该识别出的标记内容发送至摘取单元708;
摘取单元708对接收到的标记内容进行摘取,并将摘取后的标记内容发送至显示单元709;
显示单元709对接收到的标记内容重新排版,将重新排版后的标记内容向进行保存并向用户进行显示。
本实施例中,摄像单元701对文本进行拍照并生成图像,文本上带有用户所做的标记,当用户所做的标记为直线时,通过第一转换模块702、第一计算模块703、第一累加计数模块704和第一检测模块705利用霍夫变换对图像中直线进行检测及定位,然后第一确定模块706依据检测及定位到的直线来确定直线上方的文字区域为标记区域,光学字符识别单元707对标记区域中的标记内容进行光学字符识别,摘取单元708将摘取到的标记内容进行重新排版,显示单元709保存及显示排版后的标记内容,从而实现了用户终端只对标记区域内的标记内容进行识别,用户可以更直观的看到标记内容,同时通过标记内容进行保存可以随时分享给他人,进一步的提高了用户体验。
为了更好的理解上述的实施例,下面为当用户所做标记为矩形时,用户终端中包括的各个模块及单元间的交互对用户终端中的数据交互方式进行说明,请进一步参阅图8,包括:
摄像单元801、第二转换模块802、第二计算模块803、第二累加计数模块804、查找模块805、第二检测模块806、第二确定模块807、光学字符识别单元808、摘取单元809、显示单元810;
摄像单元801对文本进行拍照并生成图像,文本上带有用户所做的标记,然后将带有用户所做的标记的图像发送给第二转换模块802;
第二转换模块802接收到带有用户所做的标记的图像后,当用户所做的标记为矩形时,并将矩形的边对应的x,y坐标公式y=ax+b转换成极坐标公式ρ=xcosθ+ysinθ,其中矩形包括四条边,每条边对应一条直线,则每条直线对应的公式为y=ax+b,将转换完成消息发送至第二计算模块803,其中x,y坐标空间中的点对应在极坐标参数空间中的正弦曲线;
第二计算模块803在接收到转换完成消息之后,在每条边对应的x,y坐标系下分别选取M个点,将ρ离散化为Mρ个参数空间,将θ离散化为Mθ个参数空间,并依据在每条边对应的x,y坐标系下分别选取的M个点,计算ρ值及与ρ值对应的θ值,矩形的一条边对应算出一组M个ρ值及与ρ值对应的M个θ值,并将每一组M个ρ值及与ρ值对应的M个θ值发送至第二累加计数模块804;
第二累加计数模块804将算出的四组M个ρ值及与ρ值对应的M个θ值作为四个累加数组,通过累加计数的方式在每一个累加数组中获取到一个峰值点,一个峰值点对应x,y坐标系中的一条直线,四组累加数组获取到四条直线,其中四条直线为矩形的四条边,将四个累加数组及包含矩形四条边的消息发送至查找模块805;
查找模块805依据矩形的特征从累加数组中查找矩形四个顶点,其中,矩形的特征为矩形的相邻两边夹角为90°和矩形的对边等长,将包含矩形的四个顶点及矩形的四个边的消息发送至第二检测模块806;
第二检测模块806根据矩形的四个边及四个顶点检测及定位矩形,该矩形为用户所做的标记,并将包含检测及定位到的矩形的消息发送至第二确定模块807;
第二确定模块807根据第二检测模块806检测及定位到的矩形确定矩形内的文字区域为标记区域,并将该标记区域发送至光学字符识别单元808;
光学字符识别单元808根据接收到的标记区域将矩形内的文字区域中的文字作为标记内容,对然后对标记内容进行光学字符识别,并将该识别出的标记内容发送至摘取单元809;
摘取单元809对接收到的标记内容进行摘取,并将摘取后的标记内容发送至显示单元810;
显示单元810对接收到的标记内容重新排版,将重新排版后的标记内容向进行保存并向用户进行显示。
本实施例中,摄像单元801对文本进行拍照并生成图像,文本上带有用户所做的标记,当用户所做的标记为矩形时,通过第二转换模块802、第二计算模块803、第二累加计数模块804、查找模块805和第二检测模块806利用霍夫变换对图像中矩形进行检测及定位,然后第二确定模块807依据检测及定位到的矩形来确定矩形内的文字区域为标记区域,光学字符识别单元808对标记区域中的标记内容进行光学字符识别,摘取单元809将摘取到的标记内容进行重新排版,显示单元810保存及显示排版后的标记内容,从而实现了用户终端只对标记区域内的标记内容进行识别,用户可以更直观的看到标记内容,同时通过标记内容进行保存可以随时分享给他人,进一步的提高了用户体验。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。