CN117079282B - 一种基于图像处理的智能词典笔 - Google Patents
一种基于图像处理的智能词典笔 Download PDFInfo
- Publication number
- CN117079282B CN117079282B CN202311029778.0A CN202311029778A CN117079282B CN 117079282 B CN117079282 B CN 117079282B CN 202311029778 A CN202311029778 A CN 202311029778A CN 117079282 B CN117079282 B CN 117079282B
- Authority
- CN
- China
- Prior art keywords
- character
- row
- outline
- line
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000012216 screening Methods 0.000 claims description 39
- 238000000034 method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明涉及电子设备技术领域,尤其涉及一种基于图像处理的智能词典笔,本发明通过设置笔体、采集模块、处理模块以及显示器,通过特征判定单元判定文字布局类型,确定文字轮廓的行间距,通过文字切割单元在文字布局类型为多行布局类型下判定是否需要对文字轮廓进行筛选,并确定筛选方式,提取筛选出的文字轮廓,以及在文字布局类型为单行布局类型下提取全部的文字轮廓,通过信息匹配单元将文字轮廓与样本数据库中的样本文字轮廓进行比对,将确定的文字内容显示在显示器上,进而,避免了在文字轮廓密度大造成识别到多行内容的问题,实现了根据扫描文字轮廓的不同确定不同的内容筛选方式,提高了词典笔的工作效率以及扫描识别准确率。
Description
技术领域
本发明涉及电子设备技术领域,尤其涉及一种基于图像处理的智能词典笔。
背景技术
随着人们工作学习的需求,各种应用于人们工作学习场景的电子设备应运而生,在文字翻译以及文字搜索等工作中,需要快速对需要翻译以及搜索的内容进行录入,词典笔通过扫描取词替代了传统的按键输入,而且,词典笔体积小,便于携带,由于词典笔的功能性以及便捷性,受到越来越多学生以及上班族的喜爱,市场规模迅速扩大,采用各种新技术的词典笔层出不穷。
中国专利公开号:CN114625262A,公开了一种扫描词典笔,其包括笔体、扫描头、控制器及第一摄像头,扫描头设置在笔体的第一端,第一摄像头可转动地安装于笔体的第二端,控制器安装在所述笔体内,控制器根据笔体的姿态控制第一摄像头运动,使第一摄像头自动跟踪扫描头的移动获取文字轮廓图像或者自动获取整个扫描介质表面的文字轮廓图像。
可见,现有技术中还存在以下问题;
现有技术未考虑扫描多行文字轮廓中的一行内容时,由于文字轮廓密度大造成识别到多行内容的问题,且,不能根据扫描文字轮廓的不同确定不同的内容筛选方式,影响了词典笔的工作效率以及扫描识别准确率。
发明内容
为解决现有技术中由于文字轮廓密度大造成识别到多行内容,且,不能根据扫描文字轮廓的不同确定不同的内容筛选方式,容易造成词典笔的工作效率低以及扫描识别准确率低的问题,本发明提供一种基于图像处理的智能词典笔,其包括:
笔体,用于手持;
采集模块,用以采集文字图像,其包括设置在所述笔体顶端的用以采集扫描区域全景图像的第一图像采集单元以及设置在笔体末端的用以采集扫描区域局部图像的第二图像采集单元;
处理模块,其与所述采集模块连接,包括相互连接的特征判定单元、文字切割单元以及信息匹配单元,所述特征判定单元用以基于所述第一图像采集单元获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,并确定扫描区域全景图像中文字轮廓的行间距,所述文字布局类型包括单行布局类型以及多行布局类型;
所述文字切割单元用以在所述特征判定单元判定待扫描区域的文字布局类型为多行布局类型下,获取所述第二图像采集单元所采集的扫描区域局部图像,并基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,在筛选时基于文字轮廓的分布参数确定筛选方式,提取筛选出的文字轮廓,所述分布参数包括各行文字轮廓的行高以及行中心纵坐标;
以及,用以在所述特征判定单元判定待扫描区域的文字布局类型为单行布局类型下,获取所述第二图像采集单元所采集的扫描区域局部图像,并提取所述局部图像中全部的文字轮廓。
所述信息匹配单元与所述文字切割单元连接,用以接收所述文字切割单元所提取出的文字轮廓,并将所述文字轮廓与样本数据库中的样本文字轮廓进行比对,基于比对结果确定各文字轮廓所表示的文字内容。
进一步地,所述特征判定单元基于所述第一图像采集单元获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,其中,
所述特征判定单元还用以识别同行文字轮廓;
若存在多行文字轮廓,则所述特征判定单元判定所述文字布局类型为多行布局类型;
若仅存在单行文字轮廓,则所述特征判定单元判定所述文字布局类型为单行布局类型。
进一步地,所述特征判定单元还用以识别同行文字轮廓,其中,
所述特征判定单元以所述扫描区域全景图像的中心为原点建立直角坐标系,将所述扫描区域全景图像中的各文字轮廓的中心纵坐标进行对比,识别出同行文字轮廓,所述同行文字轮廓为中心纵坐标间的差值小于等于预设差值阈值的文字轮廓。
进一步地,所述特征判定单元确定扫描区域全景图像中文字轮廓的行间距,其中,
所述特征判定单元按公式(1)计算同一行的各文字轮廓的中心纵坐标平均值,
公式(1)中,Y为同一行的各文字轮廓的中心纵坐标平均值,yi为同一行的第i个文字轮廓的中心纵坐标值,n为同行文字轮廓的个数;
所述特征判定单元计算相邻两行的文字轮廓的中心纵坐标平均值的差值,将所述差值确定为扫描区域全景图像中文字轮廓的行间距。
进一步地,所述文字切割单元基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,其中,
所述文字切割单元将所述行间距与预设的行间距阈值进行对比;
在第一间距对比结果下,所述文字切割单元判定不需要对扫描区域局部图像中的文字轮廓进行筛选;
在第二间距对比结果下,所述文字切割单元判定需要对扫描区域局部图像中的文字轮廓进行筛选;
所述第一间距对比结果为所述行间距大于所述行间距阈值,所述第二间距对比结果为所述行间距小于等于所述行间距阈值。
进一步地,所述文字切割单元在筛选时基于文字轮廓的分布参数确定筛选方式,其中,
第一筛选方式为筛选出第一类同行文字轮廓
第二筛选方式为筛选出第二类同行文字轮廓;
第一类同行文字轮廓为行高最大的同行文字轮廓,第二类同行文字轮廓为中心纵坐标处于中心扫描区间内的同行文字轮廓,所述中心扫描区间基于所述扫描区域局部图像的宽度所确定。
进一步地,所述第一筛选方式需满足存在单个同行文字轮廓的行高与剩余各同行文字轮廓的行高的比值大于预设差异比值,所述第二筛选方式需满足存在多个同行文字轮廓的行高与剩余任一同行文字轮廓的行高的比值大于预设差异比值或各所述同行文字轮廓的行高之间的比值均小于预设差异比值。
进一步地,所述文字切割单元获取扫描区域局部图像中各文字轮廓,基于各文字轮廓的最大纵坐标以及最小纵坐标的差值确定各文字轮廓的高度,并按公式(2)计算同行文字轮廓的行高;
公式(2)中,H为同行文字轮廓的行高,hi为同行第i个文字轮廓的高度,n为同一行文字轮廓的个数。
进一步地,所述信息匹配单元还与设置在所述笔体上的显示器连接,用以显示所述信息匹配单元确定的文字内容。
进一步地,所述处理模块还与设置于笔体上的语音单元连接,以使所述语音单元基于所述处理模块发出的信息播报对应内容。
与现有技术相比,本发明通过设置笔体、采集模块、处理模块以及显示器,通过特征判定单元基于第一图像采集单元获取的扫描区域全景图像判定扫描区域周围的文字布局类型,确定文字轮廓的行间距,通过文字切割单元基于文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,并确定筛选方式,提取筛选出的文字轮廓,以及在文字布局类型为单行布局类型下提取局部图像中全部的文字轮廓,通过信息匹配单元将文字切割单元所提取出的文字轮廓与样本数据库中的样本文字轮廓进行比对,将确定的文字内容显示在显示器上,进而,避免了在文字轮廓密度大造成识别到多行内容的问题,实现了根据扫描文字轮廓的不同确定不同的内容筛选方式,提高了词典笔的工作效率以及扫描识别准确率。
尤其,本发明通过设置特征判定单元基于所述第一图像采集单元获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,在实际情况中,我们需要扫描的内容可能是单行的,也可能是在多行内容中的一部分,本发明通过特征判定单元识别出的文字轮廓所在的行,确定扫描区域全景图像中的文字轮廓行数,进而,实现了对所述扫描区域周围的文字布局类型的判定。
尤其,本发明通过设置文字切割单元在特征判定单元判定待扫描区域的文字布局类型为多行布局类型下,基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,在实际情况中,在扫描的内容在多行布局类型的情况下,需要进一步根据行间距判断是否需要对识别的内容进行筛选,在行间距小于等于预设的行间距阈值时,判定文字轮廓的多行布局密度太大,易造成识别到多行的扫描内容,尤其是中间行的文字识别完整,但是上下行的文字为残缺文字,会影响文字识别的精度,所以需要对扫描的内容进行筛选,在行间距大于预设的行间距阈值时,判定文字轮廓的多行布局密度较小,不会造成扫描到多行内容的情况,所以不需要对扫描的内容进行筛选,进而,实现了根据扫描文字轮廓的不同确定不同的内容筛选方式,提高了词典笔的工作效率以及扫描识别准确率。
尤其,本发明通过设置文字切割单元在筛选时基于文字轮廓的分布参数确定筛选方式,在实际情况中,文字识别是需先对文字轮廓进行切割,提取后与样本文字轮廓进行对比,而实际使用过程中若文字行间距过小,或文字本身较小则可能出现中间文字轮廓为完整,剩余文字轮廓为残余的情况,通常,残余的文字轮廓也会纳入文字内容识别判定,影响文字识别的精度,因此,本发明通过第一筛选方式筛选第一类同行文字轮廓,即略去了中间行两侧的残余文字轮廓,进而提高扫描精度,减少误判,通过第二筛选方式筛选出第二类同行文字轮廓,在同时识别多行完整文字轮廓的前提下,提取中间的文字轮廓,进而减少误识别的概率,提高了词典笔的工作效率以及扫描识别准确率
尤其,本发明通过设置文字切割单元基于扫描区域周围不同的文字布局类型,确定不同的工作方式,在实际情况中,对于扫描的内容为单行的布局类型,不需要做任何逻辑上的判断,直接提取全部扫描到的文字轮廓,对于扫描的内容为多行的布局类型,需要进一步去判断扫描到的内容是否需要筛选,在提高文字识别精度的前提下减少运算逻辑,避免由于文字轮廓内容密度大造成识别到多行的内容,进而,实现了根据扫描文字轮廓的不同确定不同的内容筛选方式,提高了词典笔的工作效率以及扫描识别准确率。
附图说明
图1为发明实施例的基于图像处理的智能词典笔的结构示意图;
图2为发明实施例的基于图像处理的智能词典笔的结构框图;
图3为发明实施例的采集模块的结构框图;
图4为发明实施例的处理模块的结构框图;
图中,1:第一图像采集单元,2:第二图像采集单元,3:显示器。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1至图4所示,图1为发明实施例的基于图像处理的智能词典笔的结构示意图,图2为发明实施例的基于图像处理的智能词典笔的结构框图,图3为发明实施例的采集模块的结构框图,图4为发明实施例的处理模块的结构框图,本发明的基于图像处理的智能词典笔,包括:
笔体,用于手持;
采集模块,用以采集文字图像,其包括设置在所述笔体顶端的用以采集扫描区域全景图像的第一图像采集单元1以及设置在笔体末端的用以采集扫描区域局部图像的第二图像采集单元2;
处理模块,其与所述采集模块连接,包括相互连接的特征判定单元、文字切割单元以及信息匹配单元,所述特征判定单元用以基于所述第一图像采集单元1获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,并确定扫描区域全景图像中文字轮廓的行间距,所述文字布局类型包括单行布局类型以及多行布局类型;
所述文字切割单元用以在所述特征判定单元判定待扫描区域的文字布局类型为多行布局类型下,获取所述第二图像采集单元2所采集的扫描区域局部图像,并基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,在筛选时基于文字轮廓的分布参数确定筛选方式,提取筛选出的文字轮廓,所述分布参数包括各行文字轮廓的行高以及行中心纵坐标;
以及,用以在所述特征判定单元判定待扫描区域的文字布局类型为单行布局类型下,获取所述第二图像采集单元2所采集的扫描区域局部图像,并提取所述局部图像中全部的文字轮廓。
所述信息匹配单元与所述文字切割单元连接,用以接收所述文字切割单元所提取出的文字轮廓,并将所述文字轮廓与样本数据库中的样本文字轮廓进行比对,基于比对结果确定各文字轮廓所表示的文字内容。
具体而言,本发明对采集模块的具体结构不作限定,只需能满足对应的图像采集要求即可,在本实施例中第一图像采集单元1可以为一个广角摄像头,并且设置时可凸出笔体更易于采集全景图像,采集扫描区域全景图像,第二图像采集单元2可以为一个高精度摄像头采集扫描区域局部图像,以完成对扫描内容的高精度采集,其为现有技术此处不再赘述。
并且,在需要对全文进行扫描时,本发明可通过第一图像采集单元1拍摄文本的全景图像,基于全景图像识别全文内容,此处不再赘述。
具体而言,本发明对处理模块的具体结构不作限定,其本身或其中的各单元可使用逻辑部件构成,逻辑部件可以为现场可编程逻辑部件、微处理器、计算机中使用的处理器等,此处不再赘述。
具体而言,本发明对信息匹配将所述文字轮廓与样本数据库中的样本文字轮廓进行比对,基于比对结果确定各文字轮廓所表示的文字内容的具体过程不做限定,将文字轮廓与样本文字轮廓进行比对确定文字内容已经为成熟现有技术,可以选用阈值判定的方式,当样本文字轮廓与文字轮廓的重合度大于预定的重合度阈值时判定文字轮廓与样本文字轮廓所表示的文字内容相同,此为现有技术,不再赘述。
具体而言,本发明对文字切割单元获取文字轮廓的方式不做限定,可采用现有的OCR模型实现,获取文字轮廓的方式可以是切分图像获取,此为现有技术,不再赘述。
具体而言,所述特征判定单元基于所述第一图像采集单元1获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,其中,
所述特征判定单元还用以识别同行文字轮廓;
若存在多行文字轮廓,则所述特征判定单元判定所述文字布局类型为多行布局类型;
若仅存在单行文字轮廓,则所述特征判定单元判定所述文字布局类型为单行布局类型。
具体而言,所述特征判定单元还用以识别同行文字轮廓,其中,
所述特征判定单元以所述扫描区域全景图像的中心为原点建立直角坐标系,将所述扫描区域全景图像中的各文字轮廓的中心纵坐标进行对比,识别出同行文字轮廓,所述同行文字轮廓为中心纵坐标间的差值小于等于预设差值阈值的文字轮廓。
具体而言,本领域技术人员应当明白,上述判定过程中,通过预设差值阈值S0与实际计算的差值比较,目的在于区分扫描的文字轮廓是否处在同一行,同行文字轮廓的中心纵坐标平均值的差值一定不能太大,应当小于0.5cm,因此,作为具体可实施的方式,优选的,本实施例中预设的差值阈值S0=0.2cm,本领域技术人员可以根据这一设定逻辑预设差值阈值S0。
具体而言,本发明通过设置特征判定单元基于所述第一图像采集单元1获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,在实际情况中,我们需要扫描的内容可能是单行的,也可能是在多行内容中的一部分,本发明通过特征判定单元识别出的文字轮廓所在的行,确定扫描区域全景图像中的文字轮廓行数,进而,实现了对所述扫描区域周围的文字布局类型的判定。
具体而言,所述特征判定单元确定扫描区域全景图像中文字轮廓的行间距,其中,
所述特征判定单元按公式(1)计算同一行的各文字轮廓的中心纵坐标平均值,
公式(1)中,Y为同一行的各文字轮廓的中心纵坐标平均值,yi为同一行的第i个文字轮廓的中心纵坐标值,n为同行文字轮廓的个数。
所述特征判定单元计算相邻两行的文字轮廓的中心纵坐标平均值的差值,将所述差值确定为扫描区域全景图像中文字轮廓的行间距。
具体而言,所述文字切割单元基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,其中,
所述文字切割单元将所述行间距L与预设的行间距阈值L0进行对比;
在第一间距对比结果下,所述文字切割单元判定不需要对扫描区域局部图像中的文字轮廓进行筛选;
在第二间距对比结果下,所述文字切割单元判定需要对扫描区域局部图像中的文字轮廓进行筛选;
所述第一间距对比结果为所述行间距L大于所述行间距阈值L0,所述第二间距对比结果为所述行间距L小于等于所述行间距阈值L0。
具体而言,本领域技术人员应当明白,上述判定过程中,行间距能够表征文字轮廓的密度,预设行间距阈值L0的目的在于区别文字轮廓的密度,进而,根据不同的文字轮廓密度确定不同的工作方式,可以基于第二图像采集单元2的图像采集宽度设定,因此,作为具体可实施的方式,优选的,在本实施例中第二图像采集单元2的图像采集宽度设定为1.5cm,本实施例中预设的行间距阈值L0=1.5cm。
具体而言,本发明通过设置文字切割单元在特征判定单元判定待扫描区域的文字布局类型为多行布局类型下,基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,在实际情况中,在扫描的内容在多行布局类型的情况下,需要进一步根据行间距判断是否需要对识别的内容进行筛选,在行间距小于等于预设的行间距阈值时,判定文字轮廓的多行布局密度太大,易造成识别到多行的扫描内容,尤其是中间行的文字识别完整,但是上下行的文字为残缺文字,会影响文字识别的精度,所以需要对扫描的内容进行筛选,在行间距大于预设的行间距阈值时,判定文字轮廓的多行布局密度较小,不会造成扫描到多行内容的情况,所以不需要对扫描的内容进行筛选,进而,实现了根据扫描文字轮廓的不同确定不同的内容筛选方式,提高了词典笔的工作效率以及扫描识别准确率
具体而言,所述文字切割单元在筛选时基于文字轮廓的分布参数确定筛选方式,其中,
第一筛选方式为筛选出第一类同行文字轮廓
第二筛选方式为筛选出第二类同行文字轮廓;
第一类同行文字轮廓为行高最大的同行文字轮廓,第二类同行文字轮廓为中心纵坐标处于中心扫描区间内的同行文字轮廓,所述中心扫描区间基于所述扫描区域局部图像的宽度所确定,在本实施例中,扫描区域局部图像的宽度为1.5,设定中心扫描区间的区间宽度为0.75,区间中点为0。
具体而言,所述第一筛选方式需满足存在单个同行文字轮廓的行高与剩余各同行文字轮廓的行高的比值大于预设差异比值,所述第二筛选方式需满足存在多个同行文字轮廓的行高与剩余任一同行文字轮廓的行高的比值大于预设差异比值或各所述同行文字轮廓的行高之间的比值均小于预设差异比值,在本实施例中预设差异比值的设定范围为1.5~4,优选的,在本实施例中设定为2。
具体而言,所述文字切割单元获取扫描区域局部图像中各文字轮廓,基于各文字轮廓的最大纵坐标以及最小纵坐标的差值确定各文字轮廓的高度,并按公式(2)计算同行文字轮廓的行高;
公式(2)中,H为同行文字轮廓的行高,hi为同行第i个文字轮廓的高度,n为同一行文字轮廓的个数。
具体而言,本发明通过设置文字切割单元在筛选时基于文字轮廓的分布参数确定筛选方式,在实际情况中,由于扫描的内容文字轮廓密度大,所以,扫描到的内容可能是需要搜索的内容所在的行和相邻行的一部分,此时,由于需要搜索的内容所在的行是完整的,所以行高最高,相邻行的一部分不是完整的行,所以行高不及完整行的行高,此时,根据行高筛选出需要搜索的内容所在的行;扫描到的内容还可能是需要搜索的内容所在的行和相邻若干行,此时,先根据行高筛选出行高为完整行高的若干行,再根据完整行高的若干行所在的位置去筛选出需要搜索的内容所在的行,正常使用时,需要搜索的内容所在的行靠近扫描中心线的位置,所以只要筛选各行文字轮廓中心的纵坐标值的绝对值最小值对应的行即可,进而,实现了根据扫描文字轮廓的不同确定不同的内容筛选方式,提高了词典笔的工作效率以及扫描识别准确率。
具体而言,本发明通过设置文字切割单元基于扫描区域周围不同的文字布局类型,确定不同的工作方式,在实际情况中,对于扫描的内容为单行的布局类型,不需要做任何逻辑上的判断,直接提取全部扫描到的文字轮廓,对于扫描的内容为多行的布局类型,需要进一步去判断扫描到的内容是否需要筛选,以避免由于文字轮廓内容密度大造成识别到多行的内容,进而,实现了根据扫描文字轮廓的不同确定不同的内容筛选方式,提高了词典笔的工作效率以及扫描识别准确率。
所述处理模块还与设置于笔体上的语音单元连接,以使所述语音单元基于所述处理模块发出的信息播报对应内容。
具体而言,所述信息匹配单元还与设置在所述笔体上的显示器3连接,用以显示所述信息匹配单元确定的文字内容。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (7)
1.一种基于图像处理的智能词典笔,其特征在于,包括:
笔体,用于手持;
采集模块,用以采集文字图像,其包括设置在所述笔体顶端的用以采集扫描区域全景图像的第一图像采集单元以及设置在笔体末端的用以采集扫描区域局部图像的第二图像采集单元;
处理模块,其与所述采集模块连接,包括相互连接的特征判定单元、文字切割单元以及信息匹配单元,所述特征判定单元用以基于所述第一图像采集单元获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,并确定扫描区域全景图像中文字轮廓的行间距,所述文字布局类型包括单行布局类型以及多行布局类型;
所述文字切割单元用以在所述特征判定单元判定待扫描区域的文字布局类型为多行布局类型下,获取所述第二图像采集单元所采集的扫描区域局部图像,并基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,在筛选时基于文字轮廓的分布参数确定筛选方式,提取筛选出的文字轮廓,所述分布参数包括各行文字轮廓的行高以及行中心纵坐标;
以及,用以在所述特征判定单元判定待扫描区域的文字布局类型为单行布局类型下,获取所述第二图像采集单元所采集的扫描区域局部图像,并提取所述局部图像中全部的文字轮廓;
所述文字切割单元在筛选时基于文字轮廓的分布参数确定筛选方式,其中,
第一筛选方式为筛选出第一类同行文字轮廓;
第二筛选方式为筛选出第二类同行文字轮廓;
第一类同行文字轮廓为行高最大的同行文字轮廓,第二类同行文字轮廓为中心纵坐标处于中心扫描区间内的同行文字轮廓,所述中心扫描区间基于所述扫描区域局部图像的宽度所确定;
所述第一筛选方式需满足存在单个同行文字轮廓的行高与剩余各同行文字轮廓的行高的比值大于预设差异比值,所述第二筛选方式需满足存在多个同行文字轮廓的行高与剩余任一同行文字轮廓的行高的比值大于预设差异比值或各所述同行文字轮廓的行高之间的比值均小于预设差异比值;
所述文字切割单元获取扫描区域局部图像中各文字轮廓,基于各文字轮廓的最大纵坐标以及最小纵坐标的差值确定各文字轮廓的高度,并按公式(2)计算同行文字轮廓的行高;
;
公式(2)中,H为同行文字轮廓的行高,hi为同行第i个文字轮廓的高度,m为同一行文字轮廓的个数;
所述信息匹配单元与所述文字切割单元连接,用以接收所述文字切割单元所提取出的文字轮廓,并将所述文字轮廓与样本数据库中的样本文字轮廓进行比对,基于比对结果确定各文字轮廓所表示的文字内容。
2.根据权利要求1所述的基于图像处理的智能词典笔,其特征在于,所述特征判定单元基于所述第一图像采集单元获取的扫描区域全景图像判定所述扫描区域周围的文字布局类型,其中,
所述特征判定单元还用以识别同行文字轮廓;
若存在多行文字轮廓,则所述特征判定单元判定所述文字布局类型为多行布局类型;
若仅存在单行文字轮廓,则所述特征判定单元判定所述文字布局类型为单行布局类型。
3.根据权利要求2所述的基于图像处理的智能词典笔,其特征在于,所述特征判定单元还用以识别同行文字轮廓,其中,
所述特征判定单元以所述扫描区域全景图像的中心为原点建立直角坐标系,将所述扫描区域全景图像中的各文字轮廓的中心纵坐标进行对比,识别出同行文字轮廓,所述同行文字轮廓为中心纵坐标间的差值小于等于预设差值阈值的文字轮廓。
4.根据权利要求3所述的基于图像处理的智能词典笔,其特征在于,所述特征判定单元确定扫描区域全景图像中文字轮廓的行间距,其中,
所述特征判定单元按公式(1)计算同一行的各文字轮廓的中心纵坐标平均值,
;
公式(1)中,Y为同一行的各文字轮廓的中心纵坐标平均值,yi为同一行的第i个文字轮廓的中心纵坐标值,n为同行文字轮廓的个数;
所述特征判定单元计算相邻两行的文字轮廓的中心纵坐标平均值的差值,将所述差值确定为扫描区域全景图像中文字轮廓的行间距。
5.根据权利要求4所述的基于图像处理的智能词典笔,其特征在于,所述文字切割单元基于所述文字轮廓的行间距判定是否需要对扫描区域局部图像中的文字轮廓进行筛选,其中,
所述文字切割单元将所述行间距与预设的行间距阈值进行对比;
在第一间距对比结果下,所述文字切割单元判定不需要对扫描区域局部图像中的文字轮廓进行筛选;
在第二间距对比结果下,所述文字切割单元判定需要对扫描区域局部图像中的文字轮廓进行筛选;
所述第一间距对比结果为所述行间距大于所述行间距阈值,所述第二间距对比结果为所述行间距小于等于所述行间距阈值。
6.根据权利要求1所述的基于图像处理的智能词典笔,其特征在于,所述信息匹配单元还与设置在所述笔体上的显示器连接,用以显示所述信息匹配单元确定的文字内容。
7.根据权利要求1所述的基于图像处理的智能词典笔,其特征在于,所述处理模块还与设置于笔体上的语音单元连接,以使所述语音单元基于所述处理模块发出的信息播报对应内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311029778.0A CN117079282B (zh) | 2023-08-16 | 2023-08-16 | 一种基于图像处理的智能词典笔 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311029778.0A CN117079282B (zh) | 2023-08-16 | 2023-08-16 | 一种基于图像处理的智能词典笔 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117079282A CN117079282A (zh) | 2023-11-17 |
CN117079282B true CN117079282B (zh) | 2024-06-25 |
Family
ID=88710869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311029778.0A Active CN117079282B (zh) | 2023-08-16 | 2023-08-16 | 一种基于图像处理的智能词典笔 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117079282B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04344585A (ja) * | 1991-05-21 | 1992-12-01 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0713994A (ja) * | 1993-02-19 | 1995-01-17 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
US20030096264A1 (en) * | 2001-06-18 | 2003-05-22 | Psychiatric Genomics, Inc. | Multi-parameter high throughput screening assays (MPHTS) |
JP4070486B2 (ja) * | 2002-03-15 | 2008-04-02 | 株式会社リコー | 画像処理装置、画像処理方法及び同方法の実行に用いるプログラム |
JP4162195B2 (ja) * | 2002-08-29 | 2008-10-08 | 株式会社リコー | 画像処理装置、及び画像処理プログラム |
JP3790736B2 (ja) * | 2002-10-15 | 2006-06-28 | 松下電器産業株式会社 | 文字認識用辞書作成装置及び文字認識装置 |
CN102360427A (zh) * | 2011-09-30 | 2012-02-22 | 汉王科技股份有限公司 | 可调节扫描模式的文字采集方法和扫描装置 |
CN103729638B (zh) * | 2012-10-12 | 2016-12-21 | 阿里巴巴集团控股有限公司 | 一种文字区域识别中的文字行排列分析方法和装置 |
CN107016387B (zh) * | 2016-01-28 | 2020-02-28 | 苏宁云计算有限公司 | 一种识别标签的方法及装置 |
CN105701490B (zh) * | 2016-02-24 | 2018-11-30 | 上海海事大学 | 一种基于图像熵的集装箱箱号自适应定位方法 |
CN109961063B (zh) * | 2017-12-26 | 2021-12-14 | 杭州海康机器人技术有限公司 | 文本检测方法及装置、计算机设备和存储介质 |
CN111832551A (zh) * | 2020-07-15 | 2020-10-27 | 网易有道信息技术(北京)有限公司 | 文本图像处理方法、装置、电子扫描设备和存储介质 |
CN112308057A (zh) * | 2020-10-13 | 2021-02-02 | 山东国赢大数据产业有限公司 | 一种基于文字位置信息的ocr优化方法及系统 |
CN112101323B (zh) * | 2020-11-18 | 2021-02-02 | 北京智慧星光信息技术有限公司 | 标题列表的识别方法、系统、电子设备及存储介质 |
CN116363656A (zh) * | 2021-12-27 | 2023-06-30 | 顺丰科技有限公司 | 包含多行文本的图像识别方法、装置及计算机设备 |
CN114359910A (zh) * | 2021-12-30 | 2022-04-15 | 科大讯飞股份有限公司 | 文本点读方法、计算机设备及存储介质 |
CN114419622A (zh) * | 2022-01-24 | 2022-04-29 | 北京光年无限科技有限公司 | 扫描笔的扫描模式判断方法、判断系统、电子设备及可读存储介质 |
CN115984853A (zh) * | 2023-01-06 | 2023-04-18 | 中国工商银行股份有限公司 | 文字识别方法及装置 |
CN116030472A (zh) * | 2023-02-02 | 2023-04-28 | 恒生电子股份有限公司 | 文字坐标确定方法及装置 |
CN116580402B (zh) * | 2023-05-26 | 2024-06-25 | 读书郎教育科技有限公司 | 一种词典笔的文本识别方法及装置 |
-
2023
- 2023-08-16 CN CN202311029778.0A patent/CN117079282B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04344585A (ja) * | 1991-05-21 | 1992-12-01 | Oki Electric Ind Co Ltd | 光学式文字読取装置 |
Non-Patent Citations (1)
Title |
---|
脱机手写体汉字识别系统;史涛;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20090630;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117079282A (zh) | 2023-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4998285A (en) | Character recognition apparatus | |
EP1052593B1 (en) | Form search apparatus and method | |
Yanikoglu et al. | Segmentation of off-line cursive handwriting using linear programming | |
Saabni et al. | Language-independent text lines extraction using seam carving | |
KR100658119B1 (ko) | 문자 인식 장치 및 방법 | |
Fan et al. | Classification of machine-printed and handwritten texts using character block layout variance | |
US7454063B1 (en) | Method of optical character recognition using feature recognition and baseline estimation | |
US5668892A (en) | Table recognition apparatus | |
CN107622271B (zh) | 手写文本行提取方法及系统 | |
CN1226696C (zh) | 用于检索草体手写注释的方法 | |
CN109800746A (zh) | 一种基于cnn的手写英文文档识别方法 | |
CN112651323B (zh) | 一种基于文本行检测的中文手写体识别方法及系统 | |
CN107122775A (zh) | 一种基于特征匹配的安卓手机身份证字符识别方法 | |
CN106778717A (zh) | 一种基于图像识别和k近邻的测评表识别方法 | |
RU2259592C2 (ru) | Способ распознавания графических объектов с использованием принципа целостности | |
CN115082942A (zh) | 一种基于YOLO v5的文档图像流程图识别方法、设备及介质 | |
CN117079282B (zh) | 一种基于图像处理的智能词典笔 | |
US7072514B1 (en) | Method of distinguishing handwritten and machine-printed images | |
CN116049461B (zh) | 一种基于大数据云平台的题目转化系统 | |
CN113408532A (zh) | 一种基于多特征提取的药品标签数字识别方法 | |
KR100457928B1 (ko) | 소그룹 기반 분류에 의한 수신호 인식 방법 및 이를기록한 기록매체 | |
CN102262614A (zh) | 纵向校对方法和装置 | |
EP3966730A2 (en) | Computer implemented method for segmenting a binarized document | |
JPH06187489A (ja) | 文字認識装置 | |
JPH09259222A (ja) | フォーマット認識装置及び文字読取り装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |