CN113392847B

CN113392847B - 一种藏汉英三语ocr手持扫描翻译装置及翻译方法

Info

Publication number: CN113392847B
Application number: CN202110674119.7A
Authority: CN
Inventors: 罗布央培; 索朗秋吉尼玛
Original assignee: Lhasa Naruo Culture And Art Industry Development Co ltd
Current assignee: Lhasa Naruo Culture And Art Industry Development Co ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2023-12-05
Anticipated expiration: 2041-06-17
Also published as: CN113392847A

Abstract

本发明涉及手持翻译设备技术领域，具体涉及是一种藏汉英三语OCR手持扫描翻译装置及翻译方法，解决了现有OCR手持扫描仪只能识别汉字、英文的问题，实现了可同时识别藏、汉、英、表、图混排文本的功能。解决了现有藏文OCR软件必须在特殊环境下如电脑、微信连网安装使用，携带、使用不便的问题，本产品的识别软件内嵌在手持扫描仪内置的芯片中，便于携带，可随时随地进行书本的扫描识别。

Description

一种藏汉英三语OCR手持扫描翻译装置及翻译方法

技术领域

本发明涉及手持翻译设备技术领域，具体涉及是一种藏汉英三语OCR手持扫描翻译装置及翻译方法。

背景技术

光学字符识别OCR是将纸上的文字和字符，通过一系列的处理，转变为计算机文字编码的过程。目前中文OCR可以识别十多种字体，识别率在99%左右，并且鲁棒性较高，手写识别也达到了实用的水准。由于起步较晚，藏文OCR技术还比较落后，在软件层面上：一是综合性的研究较少，大多数研究的重点都是藏文OCR识别的某个单一过程，以藏文字符识别居多，并且研究的总体水平较低，现在还没有一项成熟的技术可以实现藏文OCR识别的图像扫描输入、图像预处理、版面分析、字符切割、字符识别、版面恢复、结果校正的全过程并能达到较高的识别率和识别速度；二是虽然近几年出现了许多理论成果，但这些成果基本上都未转化为产品，未达到技术的实用化。

发明内容

本发明针对以上问题，提供一种藏汉英三语OCR手持扫描翻译装置及翻译方法。

采用的技术方案是，一种藏汉英三语OCR手持扫描翻译装置包括光学传感器、存储器、数据处理器、传输接口、电源和显示器；光学传感器感应待扫描翻译涉及藏语图片和/或汉语图片和/或英语图片的信息，并将信息传递至数据处理器；数据处理器对光学传感器发送来的信息进行处理，并分别输送至存储器和显示器；显示器对数据处理器处理的结果进行显示；存储器对数据处理器处理的结果进行存储；传输接口与存储器信号连接；电源对光学传感器、存储器、数据处理器、传输接口和显示器供电。

可选的，数据处理器中包括藏汉英字符特征库、图片配准模块、字符切割模块、版面恢复模块、图片预处理模块、字符识别模块、版面分析模块和结果校正模块。

进一步的，光学传感器传输至数据处理器的信息包括采集到的图片帧序列。

可选的，图片配准模块基于相位图片配准算法进行帧序列图片的拼接，并将拼接好的完整图片输出至图片预处理模块；图片预处理模块通过Hough变换法对输入图片进行倾斜校正，通过局部自适应二值化算法对倾斜校正过的图片进行二值化，通过中值滤波算法对之前处理的图片进行去噪，并将处理后的图片输出至版面分析模块；版面分析模块通过连通域法，切割出待识别图片中的文字、图片、表格子区域，然后通过对边缘像素的递归判断，划分出表格的单元格，并将单元格坐标进行存储，然后通过Y轴投影映射法，对文本子区域进行行切割，并将行坐标进行存储，然后在行分割的基础上，通过边缘像素点的坐标分析，得出文本子区域的空格、换行等版面特征值，并将特征坐标进行存储；字符切割模块，使用版面分析模块中存储的行坐标数据，在每一行的基础上，通过连通域法进行字符的切割，将切割好的字符图片输出至字符识别模块；字符识别模块采用训练好的识别库对输出的字符图片进行识别，并将识别结果输出至结果校正模块；结果校正模块，通过藏文、汉文和英文拼写规则检查、内置接续关系库、内置藏文词库、汉文词库和英文词库对藏文、汉文和英文结果进行自动校正，将校正后的结果输出至版面恢复模块；版面恢复模块通过版面分析模块存储下来的版面特征数据，对输出结果进行排版恢复，将最终结果输出至显示器。

本申请还提供了一种基于藏汉英三语OCR手持扫描翻译装置的翻译方法，包括以下步骤：

S1，图片数据输入；

S2，图片数据处理：

S3，翻译结果显示。

可选的，S1中，使用者通过装置本体1上的调节键，通过装置本体1顶部的光学镜头获取图片帧序列。

进一步的，S2中，图片数据处理包括图片预处理和图片识别翻译。

进一步的，图片预处理通过Hough变换法对输入图片进行倾斜校正，通过局部自适应二值化算法对倾斜校正过的图片进行二值化，通过中值滤波算法对之前处理的图片进行去噪。

可选的，图片识别翻译通过连通域法，切割出待识别图片中的文字、图片、表格子区域，然后通过对边缘像素的递归判断，划分出表格的单元格，并将单元格坐标进行存储，然后通过Y轴投影映射法，对文本子区域进行行切割，并将行坐标进行存储，然后在行分割的基础上，通过边缘像素点的坐标分析，得出文本子区域的空格、换行等版面特征值，并将特征坐标进行存储，使用版面分析模块中存储的行坐标数据，在每一行的基础上，通过连通域法进行字符的切割，将切割好的字符图片输出至字符识别模块，同时字符识别模块采用训练好的识别库对输出的字符图片进行识别，并将识别结果输出至结果校正模块；结果校正模块，通过藏文、汉文和英文拼写规则检查、内置接续关系库、内置藏文词库、汉文词库和英文词库对藏文、汉文和英文结果进行自动校正。

进一步的，翻译结果显示通过版面分析模块存储下来的版面特征数据，对输出结果进行排版恢复，将最终结果输出显示。

本发明的有益效果至少包括以下之一；

1、在训练特征库时，不是单单只生成一种文字的特征库，而是同时生成藏文、汉字、英文三种文字的特征库，识别时，可同时识别三种文字。

2、同时藏文字符识别模块中，先通过特征库进行识别，在此基础上，结合藏文字符的长宽比、面积等几何形态学规则，做进一步处理，实现了三语识别。

3、解决了现有OCR手持扫描仪只能识别汉字、英文的问题，实现了可同时识别藏、汉、英、表、图混排文本的功能。解决了现有藏文OCR软件必须在特殊环境下如电脑、微信连网安装使用，携带、使用不便的问题，本产品的识别软件内嵌在手持扫描仪内置的芯片中，便于携带，可随时随地进行书本的扫描识别。

附图说明

图1为一种藏汉英三语OCR手持扫描翻译装置软硬件框图；

图2为一种藏汉英三语OCR手持扫描翻译装置流程图：

图3为一种藏汉英三语OCR手持扫描翻译装置结构示意图；

图4为另一种藏汉英三语OCR手持扫描翻译装置结构示意图；

图5为一种藏汉英三语OCR手持扫描翻译装置顶部结构示意图；

图6为另一种藏汉英三语OCR手持扫描翻译装置顶部结构示意图；

图7为第三种藏汉英三语OCR手持扫描翻译装置结构示意图；

图8为聚光套结构示意图；

图中标记为： 1为装置本体、2为显示屏、3为识别模块、4为第一调节键、5为第二调节键、6为指示灯、7为保护套、8为聚光套体、9为光学镜头、10为第一保护套、11为第一聚光套体、12为第二保护套、13为第二聚光套体、14为第一光学镜头、15为第二光学镜头、16为遮光板、17为紧固螺栓、18为聚光套座、19为固定孔。

具体实施方式

为了使本发明的目的、技术方案及优点能够更加清晰明白，以下结合附图和实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明保护内容。

在本发明的描述中，需要说明的是，术语 “上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制；术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性，此外，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

如图1和图2所示，一种藏汉英三语OCR手持扫描翻译装置包括光学传感器、存储器、数据处理器、传输接口、电源和显示器；光学传感器感应待扫描翻译涉及藏语图片和/或汉语图片和/或英语图片的信息，并将信息传递至数据处理器；数据处理器对光学传感器发送来的信息进行处理，并分别输送至存储器和显示器；显示器对数据处理器处理的结果进行显示；存储器对数据处理器处理的结果进行存储；传输接口与存储器信号连接；电源对光学传感器、存储器、数据处理器、传输接口和显示器供电。其中数据处理器中包括藏汉英字符特征库、图片配准模块、字符切割模块、版面恢复模块、图片预处理模块、字符识别模块、版面分析模块和结果校正模块，光学传感器传输至数据处理器的信息包括采集到的图片帧序列，图片配准模块基于相位图片配准算法进行帧序列图片的拼接，并将拼接好的完整图片输出至图片预处理模块；图片预处理模块通过Hough变换法对输入图片进行倾斜校正，通过局部自适应二值化算法对倾斜校正过的图片进行二值化，通过中值滤波算法对之前处理的图片进行去噪，并将处理后的图片输出至版面分析模块；版面分析模块通过连通域法，切割出待识别图片中的文字、图片、表格子区域，然后通过对边缘像素的递归判断，划分出表格的单元格，并将单元格坐标进行存储，然后通过Y轴投影映射法，对文本子区域进行行切割，并将行坐标进行存储，然后在行分割的基础上，通过边缘像素点的坐标分析，得出文本子区域的空格、换行等版面特征值，并将特征坐标进行存储；字符切割模块，使用版面分析模块中存储的行坐标数据，在每一行的基础上，通过连通域法进行字符的切割，将切割好的字符图片输出至字符识别模块；字符识别模块采用训练好的识别库对输出的字符图片进行识别，并将识别结果输出至结果校正模块；结果校正模块，通过藏文、汉文和英文拼写规则检查、内置接续关系库、内置藏文词库、汉文词库和英文词库对藏文、汉文和英文结果进行自动校正，将校正后的结果输出至版面恢复模块；版面恢复模块通过版面分析模块存储下来的版面特征数据，对输出结果进行排版恢复，将最终结果输出至显示器。

同时，本实施例中，还提供了一种基于藏汉英三语OCR手持扫描翻译装置的翻译方法，包括以下步骤：

S1，图片数据输入，其中使用者通过装置本体1上的调节键，通过装置本体1顶部的光学镜头获取图片帧序列；

S2，图片数据处理，其中图片数据处理包括图片预处理和图片识别翻译，图片预处理通过Hough变换法对输入图片进行倾斜校正，通过局部自适应二值化算法对倾斜校正过的图片进行二值化，通过中值滤波算法对之前处理的图片进行去噪，图片识别翻译通过连通域法，切割出待识别图片中的文字、图片、表格子区域，然后通过对边缘像素的递归判断，划分出表格的单元格，并将单元格坐标进行存储，然后通过Y轴投影映射法，对文本子区域进行行切割，并将行坐标进行存储，然后在行分割的基础上，通过边缘像素点的坐标分析，得出文本子区域的空格、换行等版面特征值，并将特征坐标进行存储，使用版面分析模块中存储的行坐标数据，在每一行的基础上，通过连通域法进行字符的切割，将切割好的字符图片输出至字符识别模块，同时字符识别模块采用训练好的识别库对输出的字符图片进行识别，并将识别结果输出至结果校正模块；结果校正模块，通过藏文、汉文和英文拼写规则检查、内置接续关系库、内置藏文词库、汉文词库和英文词库对藏文、汉文和英文结果进行自动校正：

S3，翻译结果显示，翻译结果显示通过版面分析模块存储下来的版面特征数据，对输出结果进行排版恢复，将最终结果输出显示。

这样设计的目的在于，在训练特征库时，不是单单只生成一种文字的特征库，而是同时生成藏文、汉字、英文三种文字的特征库，识别时，可同时识别三种文字。同时藏文字符识别模块中，先通过特征库进行识别，在此基础上，结合藏文字符的长宽比、面积等几何形态学规则，做进一步处理，实现了三语识别。解决了现有OCR手持扫描仪只能识别汉字、英文的问题，实现了可同时识别藏、汉、英、表、图混排文本的功能。解决了现有藏文OCR软件必须在特殊环境下如电脑、微信连网安装使用，携带、使用不便的问题，本产品的识别软件内嵌在手持扫描仪内置的芯片中，便于携带，可随时随地进行书本的扫描识别，解决了现有藏文OCR软件无法识别书本页面上一行或一段文字的问题，使用该产品，通过按下“开始/结束”键，可自由控制扫描的开始和结束，由此可控制扫描的区域，这样就可扫描某一行或某一段文字。

同时，在藏文自动校对的时候，输入: 藏文文本内容;

输出: 校对结果文本;

1 藏文音节拼写检查, 若拼写正确, 转到 3, 否则,

转到 2;

2 梵音转写藏文错误检查, 若正确, 转到 5, 否则做

标记错误, 并转到 5;

3 藏文的接续关系检查, 若接续关系正确转到 4,

否则做标记错误, 并转到 5;

4 藏文分词, 匹配词典, 若匹配成功转到 5, 否则标

记错误标记, 并转到 5;

5 输出校对结果。

如图3、图5和图8所示，基于藏汉英三语OCR手持扫描翻译装置的硬件和软件结构，提供一种藏汉英三语OCR手持扫描翻译装置包括装置本体1，装置本体1顶部设置有光学传感器组，装置本体1正面设置有显示屏2和识别模块3，其中光学传感器组包括保护套7和光学镜头9，保护套7设于光学镜头9的外周，且保护套7上套有聚光套，聚光套包括聚光套座18和聚光套体8，聚光套座18套在保护套7上，聚光套体8呈圆台状，且聚光套体8的小头端与聚光套座18连接。

这样设计的目的在于，通过设置的聚光套将光学镜头感应的区域进行限定，从而能够有效降低因单一时间内感应较多竖直方向的拼音文字出现的识别错误。解决了现有藏文手持扫描装置，在硬件上由于藏文与中文字形差异较大，中文字体多呈方块状，而藏文是一种拼音文字，属辅音字母文字型，分辅音字母、元音符号2个部分，因此在进行字符识别时采用广域的光学镜头易发生错行，增加翻译设备识别难度的问题。

在实际使用中，通过光学镜头识别感应区域的拼音文字，然后将图片信息传递至装置本体内的数据处理模块，数据处理模块对图片信息进行识别后在显示屏上进行显示，同时为了确保整个设备的安全性，通常还带有识别模块通过指纹识别等方式实现身份验证和快速亮屏等功能，而设置在装置本体两侧的第一调节键4和第二调节键5能够实现显示屏内容选择和音量调节等功能。

需要指出的是，以上所说的身份验证、快速亮屏、显示屏内容选择、音量调节等功能均为现有元器件在本领域技术人员根据现有技术进行组装后能够实现的功能，同时本实施例的重点也并不是针对以上内容进行优化和改进，而是提供一种优化的方向。

同时，需要指出的是，本实施例中光学传感器设于光学镜头内，同时本实施例中所指的“开始/结束”键通常为第一调节键4和第二调节键5。

同时如图7所示，聚光套座18上设置有固定孔19，且固定孔19上穿过有紧固螺栓17，紧固螺栓17一端与保护套7接触，聚光套体8的开口端设置有一组遮光板16，且遮光板16对称设置，光学镜头9的感光区域能从遮光板16间穿过。

这样设计的目的在于，通过设置的遮光板对对光学镜头的感光区域进行进一步的限制，在实际使用中对称设置的遮光板间的间隙通常与装置本体的短边平行，同时根据语句手持扫描翻译装置水平移动完成识别和翻译，同时每一个装置本体能够搭配多个聚光套体，每一个聚光套体上的遮光板间距存在差异，用于调整不同使用场景中需要使用的感光区域。

在通常情况下，光学镜头的感光区域呈圆形，通过设置的遮光板将其上部和下部区域进行遮挡，避免位于藏文上方和下方的拼音文字进行干扰，根据需要扫描翻译的场景不同，如上下藏文间隔较大则选用遮光板间距大的聚光套体，如上下藏文间隔较小则选用遮光板间距小的聚光套体，即通过遮光板从物理层面对进入光学镜头的内容进行一定的优化。

本实施例中，如图4和图6所示，装置本体1顶部设置有一对光学传感器组，且两个光学传感器组并排设置，光学传感器组包括第一保护套10、第一光学镜头14、第二保护套12和第二光学镜头15，第一保护套10上套有第一聚光套体11，第二保护套12上套有第二聚光套体13。

这样设计的目的在于，通过设置并排的光学传感器组，能够在一次扫描识别时输入两个光学镜头识别的文字进行反应，使用者能够通过显示屏得到两个翻译结果，根据两个结果对翻译的情况进行人工判断，降低因扫描过快或者一个光学镜头存在损坏出现的翻译偶然误差发生频率。

最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种藏汉英三语OCR手持扫描翻译装置，其特征在于：包括光学传感器、存储器、数据处理器、传输接口、电源和显示器；所述光学传感器感应待扫描翻译涉及藏语图片和/或汉语图片和/或英语图片的信息，并将信息传递至数据处理器；所述数据处理器对光学传感器发送来的信息进行处理，并分别输送至存储器和显示器；所述显示器对数据处理器处理的结果进行显示；所述存储器对数据处理器处理的结果进行存储；所述传输接口与存储器信号连接；所述电源对光学传感器、存储器、数据处理器、传输接口和显示器供电，所述数据处理器中包括藏汉英字符特征库、图片配准模块、字符切割模块、版面恢复模块、图片预处理模块、字符识别模块、版面分析模块和结果校正模块，所述光学传感器传输至数据处理器的信息包括采集到的图片帧序列，所述图片配准模块基于相位图片配准算法进行帧序列图片的拼接，并将拼接好的完整图片输出至图片预处理模块；所述图片预处理模块通过Hough变换法对输入图片进行倾斜校正，通过局部自适应二值化算法对倾斜校正过的图片进行二值化，通过中值滤波算法对之前处理的图片进行去噪，并将处理后的图片输出至版面分析模块；所述版面分析模块通过连通域法，切割出待识别图片中的文字、图片、表格子区域，然后通过对边缘像素的递归判断，划分出表格的单元格，并将单元格坐标进行存储，然后通过Y轴投影映射法，对文本子区域进行行切割，并将行坐标进行存储，然后在行切割的基础上，通过边缘像素点的坐标分析，得出文本子区域的空格、换行的版面特征数据，并将特征坐标进行存储；所述字符切割模块，使用版面分析模块中存储的行坐标数据，在每一行的基础上，通过连通域法进行字符的切割，将切割好的字符图片输出至字符识别模块；所述字符识别模块采用训练好的识别库对输出的字符图片进行识别，并将识别结果输出至结果校正模块；所述结果校正模块，通过藏文、汉文和英文拼写规则检查、内置接续关系库、内置藏文词库、汉文词库和英文词库对藏文、汉文和英文结果进行自动校正，将校正后的结果输出至版面恢复模块；所述版面恢复模块通过版面分析模块存储下来的版面特征数据，对输出结果进行排版恢复，将最终结果输出至显示器。

2.根据权利要求1所述的一种基于藏汉英三语OCR手持扫描翻译装置的翻译方法，其特征在于：包括以下步骤：

S1，图片数据输入；

S2，图片数据处理：

S3，翻译结果显示，

所述S1中，使用者通过装置本体（1）上的调节键，通过装置本体（1）顶部的光学镜头获取图片帧序列；

所述S2中，图片数据处理包括图片预处理和图片识别翻译；

所述图片预处理通过Hough变换法对输入图片进行倾斜校正，通过局部自适应二值化算法对倾斜校正过的图片进行二值化，通过中值滤波算法对之前处理的图片进行去噪；

所述图片识别翻译通过连通域法，切割出待识别图片中的文字、图片、表格子区域，然后通过对边缘像素的递归判断，划分出表格的单元格，并将单元格坐标进行存储，然后通过Y轴投影映射法，对文本子区域进行行切割，并将行坐标进行存储，然后在行切割的基础上，通过边缘像素点的坐标分析，得出文本子区域的空格、换行的版面特征数据，并将特征坐标进行存储，使用版面分析模块中存储的行坐标数据，在每一行的基础上，通过连通域法进行字符的切割，将切割好的字符图片输出至字符识别模块，同时字符识别模块采用训练好的识别库对输出的字符图片进行识别，并将识别结果输出至结果校正模块；所述结果校正模块，通过藏文、汉文和英文拼写规则检查、内置接续关系库、内置藏文词库、汉文词库和英文词库对藏文、汉文和英文结果进行自动校正；

所述S3中，翻译结果显示通过版面分析模块存储下来的版面特征数据，对输出结果进行排版恢复，将最终结果输出显示。