CN113989485A - 基于ocr识别的文本字符分割方法及系统 - Google Patents
基于ocr识别的文本字符分割方法及系统 Download PDFInfo
- Publication number
- CN113989485A CN113989485A CN202111429302.7A CN202111429302A CN113989485A CN 113989485 A CN113989485 A CN 113989485A CN 202111429302 A CN202111429302 A CN 202111429302A CN 113989485 A CN113989485 A CN 113989485A
- Authority
- CN
- China
- Prior art keywords
- character
- information
- text
- segmentation
- characters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
Abstract
本发明特别涉及一种基于OCR识别的文本字符分割方法,包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;S200、对任一文本检测行,进行漏识别字符添加并确定所有字符索引位置;S300、对上述索引位置进行处理得到每个字符的位置信息;S400、对内容为符号的字符位置信息进行偏移调整;S500、根据相邻的两个位置信息计算分割位置;S600、根据分割位置对字符进行分割和切边得到每个字符的边框信息;S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。这里根据已有成熟算法的输出结果进行一系列处理,从而实现对文本中字符的准确分割,分割时不会遗漏字符且分割位置非常精准。
Description
技术领域
本发明涉及文本处理技术领域,特别涉及一种基于OCR识别的文本字符分割方法及系统。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
OCR技术非常的成熟,比如论文Detecting Text in Natural Image withConnectionist Text Proposal Network(Zhi Tian, Weilin Huang, Tong He, Pan He,Yu Qiao,ECCV (8) 2016:56-72)中就公开了一种经典的文本检查算法,其在进行文本字符识别时,对任一文本检测行,其会分成多个一定宽度的小框,并对每个小框中的内容进行模板匹配,识别过程中会输出每个小框的索引、内容及置信度信息,然后根据这些信息识别文本并输出。并且,更多的人在此基础上进行改进,提供了更多可靠且有效的算法,使得文本字符的识别技术更加成熟。
针对文本的隐形水印技术,近些年开始逐渐成熟起来,其基本的原理就是通过对字符进行轻微变形,这种变形在肉眼上很难分辨出来,但是通过计算机就可以准确的提取出其中的变形信息,字符中的变形信息可以用于信息隐藏、版权追踪、泄密溯源等多个场景。为了准确的提取字符的变形信息,对文本中字符进行准确的分割至关重要,目前已有的文本字符分割方法实际分割效果都不是很理想,这也直接影响后续对隐藏信息提取的准确性。
发明内容
本发明的目的在于提供一种基于OCR识别的文本字符分割方法及系统,能够非常迅速和精准的对文本中的字符进行分割。
为实现以上目的,本发明采用的技术方案为:一种基于OCR识别的文本字符分割方法,包括如下步骤:S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置;S300、对上述索引位置进行处理得到每个字符的位置信息;S400、根据字符内容对内容为符号的字符位置信息进行偏移调整,调整后的位置信息为;S500、根据位置信息和计算分割位置,其中;S600、根据行首位置、行尾位置以及步骤S400计算得到的分割位置对该行中的字符进行分割和切边得到每个字符的边框信息;S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。
与现有技术相比,本发明存在以下技术效果:现有技术中的OCR算法非常成熟,但是其只能输出识别出的字符内容,这里根据已有成熟算法的输出结果进行一系列处理,从而实现对文本中字符的准确分割,分割时不会遗漏字符且分割位置非常精准。
附图说明
图1是OCR识别后的输出信息示意图;
图2是本发明的流程示意图;
图3是分割位置计算示意图;
图4是本发明的系统框图;
图5是现有技术中对字符进行分割后的效果图;
图6是本发明中对字符进行分割后的效果图。
具体实施方式
下面结合图1至图6,对本发明做进一步详细叙述。
参阅图1和图2,一种基于OCR识别的文本字符分割方法,包括如下步骤:
S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;图1中所示的即为OCR算法对文本进行识别后输出的信息,其中,索引自行首从0开始,逐渐增加,内容即该索引对应小框中识别出的具体字符,一般来说,OCR算法中将汉字编码成0-3000左右的数字,每个字符对应一个数字,一般输出的内容是数字,也即汉字的标签值,对于我们来说,标签值和字符是一一对应的,所以本发明中并不对标签值和字符作区分,可认为他们表示的是同一个信息。置信度即识别字符与模板的匹配度,对于OCR模板库中没有的一些生僻字,其一般会识别为空且置信度较低。需要说明的是,本发明中的图1和图3只是便于大家理解的示意图,实际处理时,真实的汉字像素大小与小框、权重位置并非如图所示的比例。
S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置。漏识别的字符我们也需要进行分割,因此需要先将漏识别字符添加进来,一般是选择置信度持续较低的一些区域,比如若连续出现a个置信度均低于设定阈值的索引位置,则判定其为漏识别字符。对漏识别字符进行添加以后,所有非空内容即为字符区域,针对任一字符,记录该字符对应的多个置信度中置信度最大处的索引位置,每个字符的位置就相当于被标记出来了。
S300、对上述索引位置进行处理得到每个字符的位置信息,因为我们是对一行文本进行检测的,这里的位置信息对应的是横坐标;OCR算法进行文本中字符识别时,输出的是索引位置,我们在进行分割是,一般是根据坐标信息进行分割的,因为我们需要将索引位置换算成具体的位置信息。每个索引对应的实际位置坐标,可以根据OCR算法在进行识别时每个小框的像素宽度来进行换算得到。具体地,所述的步骤S300中,根据神经网络LSTM时间长度以及文本检测行尺寸信息进行特征逆计算,将索引位置放大与文本检测行图像变换后的矫正图的尺寸信息形成映射关系,并根据该映射关系将索引位置处理成字符位置信息,这里的图像变换可以是透视变换或仿射变换。
S400、根据字符内容对内容为符号的字符位置信息进行偏移调整,调整后的位置信息为;由于很多汉字字体中,符号一般偏左下角位置,导致该字符的位置与前一个字距离较近、与后一个字距离较远,我们后续进行分割时时需要取两个分割位置中间左右的位置,字符的存在会导致中间左右的位置会有所偏移,因此需要对字符的位置进行校正。对于正常的字符,则不需要调整。
参阅图3,S500、根据位置信息和计算分割位置,其中;通过每个字符所在的位置,我们就能方便的计算出字符之间的分割位置。具体地,所述的步骤S500中,包括如下步骤:S510、根据位置信息和计算中心位置;S520、记朝向一侧偏移的位置分别为,朝向一侧偏移的位置分别为;S530、计算所有位置处一列像素中空白位置像素的占比,其中;S540、取最大值时所对应的位置即为分割位置。一般来说,两个相邻字符的分割位置位于两个字符之间的位置,为了更准确的挑出中间位置,这里对中间位置以及向中间两侧偏移的多个位置进行像素点计算,如果某一列空白像素点最多,则可认为其是准确的分割位置。
进一步地,为了使得分割更加准确,这里引入了权重,就不再仅根据比值来确定分割位置了,所述的步骤S540替换为如下步骤:S550、为每个位置设定权重,权重由中间向两侧逐渐减小,并将每个位置处的与权重相乘;S560、乘积取最大值时所对应的位置即为分割位置。引入权重后,可以更佳精准的找到最佳分割位置。权重在设置的时候,可以根据需要来进行设置,一般是中间权重大,两边权重逐渐减小,因此可以将中心位置的权重设置为100%。
进一步地,所述的步骤S520中,各偏移位置等间隔设置,该间隔最小值为1pix、最大值为和之间像素宽度的5%。1pix即1像素,设置最大值是保证能够在两个相邻字符之间选择足够多的分割位置来筛选出最佳分割位置。
S600、根据行首位置、行尾位置以及步骤S400计算得到的分割位置对该行中的字符进行分割和切边得到每个字符的边框信息;有了分割位置,我们自然也能方便的获取到字符的边框信息,这个边框就是能框柱字符的最小外接矩形且该矩形的四条边是垂直和水平布置的。
具体地,所述的步骤S600中,包括如下步骤:S610、对第j个字符,将其左侧的分割位置向右移动,并判断每次移动时所在位置那一列像素中的黑色像素点数量是否大于设定阈值,若大于则记录当前位置为;S620、将第j个字符右侧的分割位置向左移动,并判断每次移动时所在位置那一列像素中的黑色像素点数量是否大于设定阈值,若大于则记录当前位置为;S630、同理,对第j个字符上侧和下侧的分割位置分别向下和向上移动,得到位置和;S640、根据上述四个位置、、以及即可得到第j个字符的边框信息;令分别执行上述步骤即可得到该行中所有字符的边框信息。和对应的横坐标,和对应的是纵坐标,最后得到的边框信息可以是边框左上角和右下角的坐标位置。
S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符,由于大部分情况下需要对拍摄的文本照片进行字符分割的,图片在拍摄和处理时,常有噪点出现,边框小且置信度低的对象都是噪点,需要剔除掉。现有技术中的OCR算法非常成熟,但是其只能输出识别出的字符内容,这里根据已有成熟算法的输出结果进行一系列处理,从而实现对文本中字符的准确分割,分割时不会遗漏字符且分割位置非常精准。
参阅图4,本发明中还公开了一种基于OCR识别的文本字符分割系统,包括OCR识别模块,用于对文本进行识别得到索引、内容和置信度信息;漏识别字符检测模块,根据索引的内容和置信度信息对漏识别字符进行添加;第一调整模块,用于获取每个字符偏中间处的索引位置;转化模块,用于将每个字符的索引信息转化成位置信息;第二调整模块,用于调整符号的位置信息;分割模块,根据调整后的位置信息对字符进行分割和切边得到每个字符的边框信息;去噪模块,根据每个字符的置信度和边框信息剔除噪点。通过设置这些模块,可以方便的实现文本文件中字符的分割。
图5所示的是现有技术中对字符进行分割后的效果图,可以看出,其中有一些地方分割的不是很理想,图6是采用本发明中的分割方法进行字符分割后的效果图,可以看出,分割效果好了很多。需要说明的是,图6所示的效果图中,执行步骤S600时,对于第j个字符,、最多搜寻到即停止,所以符号的右侧搜索到中间位置就停止了。
进一步地,本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的方法。本发明公开了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-8中任一项所述的方法。
本发明中,对拍照得到的文本照片进行字符分割之前,一般都会对图片进行二值化处理,以突出文字部分和背景部分。进一步地,本发明所述的步骤S100之前,对文本按如下步骤进行二值化处理:A、将图像转换成灰度图;B、遍历所有像素点,并对每个像素点执行步骤C和步骤D后得到二值化的图像;C、根据该像素点及其周围一定区域内的其他像素点的灰度值确定阈值;D、将该像素点的灰度值与步骤C得到的阈值进行比较,若该像素点灰度值小于等于阈值,则将该像素点设置为黑色,否则设置为白色。这个二值化处理的更详细步骤在之前已提交过专利申请,这里不再详细赘述。
Claims (10)
1.一种基于OCR识别的文本字符分割方法,其特征在于:包括如下步骤:
S100、使用OCR算法对文本进行识别得到索引、内容和置信度信息;
S200、对任一文本检测行,根据索引的内容及置信度信息对漏识别字符进行添加后再记录非空内容置信度最大处的索引位置;
S700、根据每个字符的置信度信息以及边框大小剔除噪点,余下的即为正确分割的字符。
2.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S200中:若连续出现a个置信度均低于设定阈值的索引位置,则判定其为漏识别字符;针对任一字符,记录该字符对应的多个置信度中置信度最大处的索引位置。
3.如权利要求1所述的基于OCR识别的文本字符分割方法,其特征在于:所述的步骤S300中,根据神经网络LSTM时间长度以及文本检测行尺寸信息进行特征逆计算,将索引位置放大与文本检测行图像变换后的矫正图的尺寸信息形成映射关系,并根据该映射关系将索引位置处理成字符位置信息。
9.一种基于OCR识别的文本字符分割系统,其特征在于:包括
OCR识别模块,用于对文本进行识别得到索引、内容和置信度信息;
漏识别字符检测模块,根据索引的内容和置信度信息对漏识别字符进行添加;
第一调整模块,用于获取每个字符偏中间处的索引位置;
转化模块,用于将每个字符的索引信息转化成位置信息;
第二调整模块,用于调整符号的位置信息;
分割模块,根据调整后的位置信息对字符进行分割和切边得到每个字符的边框信息;
去噪模块,根据每个字符的置信度和边框信息剔除噪点。
10.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111429302.7A CN113989485A (zh) | 2021-11-29 | 2021-11-29 | 基于ocr识别的文本字符分割方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111429302.7A CN113989485A (zh) | 2021-11-29 | 2021-11-29 | 基于ocr识别的文本字符分割方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113989485A true CN113989485A (zh) | 2022-01-28 |
Family
ID=79732324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111429302.7A Pending CN113989485A (zh) | 2021-11-29 | 2021-11-29 | 基于ocr识别的文本字符分割方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113989485A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326458A (zh) * | 2021-05-31 | 2021-08-31 | 山东云缦智能科技有限公司 | 基于Javascript的多行文本截断显示的处理方法 |
-
2021
- 2021-11-29 CN CN202111429302.7A patent/CN113989485A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326458A (zh) * | 2021-05-31 | 2021-08-31 | 山东云缦智能科技有限公司 | 基于Javascript的多行文本截断显示的处理方法 |
CN113326458B (zh) * | 2021-05-31 | 2022-06-21 | 山东浪潮超高清视频产业有限公司 | 基于Javascript的多行文本截断显示的处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
JP6080259B2 (ja) | 文字切り出し装置及び文字切り出し方法 | |
US8587685B2 (en) | Method and apparatus for retrieving label | |
LeBourgeois | Robust multifont OCR system from gray level images | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
JP2012243307A (ja) | 入力画像における歪を検出する方法、入力画像における歪を検出する装置およびコンピューター読み取り可能な媒体 | |
CN111783757A (zh) | 一种基于ocr技术的复杂场景下身份证识别方法 | |
CN114332865B (zh) | 一种证件ocr识别方法及系统 | |
CN112364862B (zh) | 一种基于直方图相似度的扰动变形汉字图片匹配的方法 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
CN113591831A (zh) | 一种基于深度学习的字体识别方法、系统及存储介质 | |
CN115880566A (zh) | 一种基于视觉分析的智能阅卷系统 | |
CN113989485A (zh) | 基于ocr识别的文本字符分割方法及系统 | |
CN113657377B (zh) | 一种机打票据图像结构化识别方法 | |
CN114694161A (zh) | 一种特定版式证件的文本识别方法、设备及存储介质 | |
CN113971805A (zh) | 一种结合机器视觉和语义分析的智能阅卷评分方法 | |
CN116704523B (zh) | 一种用于出版印刷设备的文字排版图像识别系统 | |
CN111967457A (zh) | 一种基于深度学习的ocr检测方法 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN115171133A (zh) | 用于不规则表格图像拉平的表格结构检测方法 | |
CN111914847B (zh) | 一种基于模板匹配的ocr识别方法及其系统 | |
CN114581901A (zh) | 一种古建墙壁受污题记文字图像边缘提取方法 | |
CN115995080B (zh) | 基于ocr识别的档案智能管理系统 | |
JP3223878B2 (ja) | 文字列照合装置、方法及び記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 230088 21 / F, building A1, phase I, Zhongan chuanggu Science Park, No. 900, Wangjiang West Road, high tech Zone, Hefei, Anhui Applicant after: HEFEI HIGH DIMENSIONAL DATA TECHNOLOGY Co.,Ltd. Address before: 230088 Block C, building J2, innovation industrial park, 2800 innovation Avenue, high tech Zone, Hefei City, Anhui Province Applicant before: HEFEI HIGH DIMENSIONAL DATA TECHNOLOGY Co.,Ltd. |