CN116071763A - 基于文字识别的教辅图书智能校编系统 - Google Patents

基于文字识别的教辅图书智能校编系统 Download PDF

Info

Publication number
CN116071763A
CN116071763A CN202310201970.7A CN202310201970A CN116071763A CN 116071763 A CN116071763 A CN 116071763A CN 202310201970 A CN202310201970 A CN 202310201970A CN 116071763 A CN116071763 A CN 116071763A
Authority
CN
China
Prior art keywords
text
gray
pixel point
image
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310201970.7A
Other languages
English (en)
Other versions
CN116071763B (zh
Inventor
许传峰
秦海燕
许刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Xinghuo Book Co ltd
Original Assignee
Shandong Xinghuo Book Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Xinghuo Book Co ltd filed Critical Shandong Xinghuo Book Co ltd
Priority to CN202310201970.7A priority Critical patent/CN116071763B/zh
Publication of CN116071763A publication Critical patent/CN116071763A/zh
Application granted granted Critical
Publication of CN116071763B publication Critical patent/CN116071763B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明涉及图像数据处理技术领域,具体涉及基于文字识别的教辅图书智能校编系统,该系统包括:图像数据预处理模块,用于获取文本灰度图像的文本二值图像,根据文本二值图像中预设笔画方向上的灰度值分布获得获取文字的标准宽度;文字主体区域获取模块,用于获取每个像素点所需的结构元素长度,根据结构元素长度进行形态学膨胀获取的膨胀文本灰度图像中灰度值获取文字主体区域;文字区域识别模块,用于获得像素点为文字像素点的概率,进而获得像素点的去噪灰度值,筛选出真实文字像素点,确定文字区域;智能校编模块,用于对文字区域进行文字识别,实现对教辅图书的智能教编。本发明能够提高对教辅图书进行文字识别的准确性。

Description

基于文字识别的教辅图书智能校编系统
技术领域
本发明涉及图像数据处理技术领域,具体涉及基于文字识别的教辅图书智能校编系统。
背景技术
图书智能校编系统是通过机器帮助甚至替代出版从业人员完成复杂的图书编辑、校对和排版工作,即计算机与图书制作方面的融合。在电子图书方面,智能校编系统会对图书电子稿进行详细的归类和完整保存,在纸质图书方面,智能校编系统会对电子稿丢失的纸质图书进行重新扫描,进而重新策划和出版,为数字出版推广和发展提供有力保障。
教辅书是教材学习的辅助用书,在教辅图书智能校编过程中,首先需要进行文字识别,对于电子稿可直接利用OCR技术进行文字识别,但对于前期资料采集中的纸质稿和后期图书出版印刷质量检测时都需要对采集的文本图像进行文字提取,再利用OCR技术进行文字识别。而受纸张质量、印刷质量和光照等因素的影响,文本图像上会不可避免的引入噪声,其会导致图像的某些特征细节淹没在图像噪声中不能被辨识,给后续的文字识别工作带来不利影响,因此需要先对文本图像进行去噪处理,进而准确的提取文本图像内的文字区域。
现有技术获取文本图像,使用MSER算法获得多个极值区域,利用SWT算法获取极值区域中每个像素的笔画宽度值,获取极值区域的笔画宽度直方图,选取像素数量最多的三个笔画宽度作为主笔画宽度,并获取对应的像素集合,通过边缘梯度差角特征选取像素集合中种子像素,基于种子像素迭代进行字符内、字符间两个层次的生长过程,获取最终的文本像素连通区域,进一步基于多种文本区域特征对生长后获得最终的文本像素连通区域进行过滤以去除非文本区域,并将过滤后的文本区域作为最终文字提取结果。该方法以整个文本区域作为对象进行分析,没有精确分析文本图像内每个像素点,难以保证判断每个文字内的像素点均属于文字像素点,进而导致教辅图书内文字识别出现偏差。
发明内容
为了解决文本图像内像素点分析不精确,导致教辅图书内文字识别出现偏差的技术问题,本发明的目的在于提供一种基于文字识别的教辅图书智能校编系统,所采用的技术方案具体如下:
本发明提出基于文字识别的教辅图书智能校编系统,该系统包括:
图像数据预处理模块,用于获得文本灰度图像,提取所述文本灰度图像中的文字信息,获得文本二值图像;根据所述文本二值图像中预设笔画方向上的灰度值分布获得获取每个预设笔画方向上所述文本灰度图像内文字的标准宽度;所述预设笔画方向至少设置四个不同的方向;
文字主体区域获取模块,用于结合所述文本灰度图像内每个像素点邻域内灰度值分布与所述标准宽度获取对应像素点在每个所述预设笔画方向上所需的结构元素长度;根据所述文本灰度图像内每个像素点的所述结构元素长度进行形态学膨胀操作,获得膨胀文本灰度图像;根据所述膨胀文本灰度图像中像素点的灰度值获取所述文本灰度图像中的文字主体区域;
文字区域识别模块,用于根据文本灰度图像中每个像素点与所述文字主体区域的相对位置、以及所述文字主体区域内像素点的灰度值,获取对应像素点为文字像素点的概率;依据文本灰度图像中每个像素点为所述文字像素点的概率、预设窗口内像素点的灰度值获取对应像素点的去噪灰度值;根据文本灰度图像内像素点的去噪灰度值筛选出真实文字像素点,获得文字区域;
智能校编模块,用于对所述文字区域进行文字识别,实现对教辅图书的智能教编。
进一步地,所述图像数据预处理模块中文字的标准宽度的获取方法,包括:
将连续的初始文字像素点的数量作为笔画宽度,在所述文本二值图像内统计每个预设笔画方向下各笔画宽度,每个预设笔画方向均得到一个笔画宽度集合;
分别使用聚类算法获取每个笔画宽度集合的第一分割点和第二分割点,使第一分割点小于第二分割点,分别计算每个笔画宽度集合中大于第一分割点且小于第二分割点的各笔画宽度的均值作为笔画宽度均值,每个笔画宽度集合均可获取一个笔画宽度均值,将各笔画宽度均值的平均值作为文本灰度图像内文字的标准宽度。
进一步地,所述文字主体区域获取模块中结构元素长度的获取方法,包括:
根据结构元素长度公式获得所述结构元素长度,所述结构元素长度的计算公式为:
式中,为文本灰度图像第个像素点所需的结构元素长度,为文本灰度图像内第j个像素点与其八邻域像素点的灰度值之间最小的差值绝对值,为文本灰度图像内第j个像素点与其八邻域像素点的灰度值之间最大的差值绝对值,为文本灰度图像内第j个像素点与其八邻域像素点中灰度级的数量,表示文本灰度图像内第个预设笔画方向上文字的标准宽度,m为文本灰度图像内的像素点数量;e为自然常数;为向下取整函数。
进一步地,所述文字主体区域获取模块中文字主体区域的获取方法,包括:
根据文本灰度图像中每个预设笔画方向下各像素点所需的结构元素长度对文本灰度图像分别进行形态学膨胀操作,获取对应预设笔画方向的膨胀文本灰度图像,计算所有膨胀文本灰度图像中相同坐标位置上各像素点的灰度值均值,获取加权文本灰度图像;计算加权文本灰度图像中各像素点的灰度值均值,由加权文本灰度图像中灰度值小于灰度均值的像素点构成加权文本灰度图像的文字主体区域;根据加权文本灰度图像的文字主体区域内各像素点的位置坐标获取文本灰度图像的文字主体区域。
进一步地,所述文字区域识别模块中用于根据文本灰度图像中每个像素点的坐标位置与所述文字主体区域内像素点的灰度值获取对应像素点为文字像素点的概率的方法,包括:
计算文本灰度图像的文字主体区域内各像素点的灰度值均值作为文字标准灰度值;
计算文本灰度图像中每个像素点的灰度值与文字标准灰度值的差值绝对值,将文本灰度图像中每个像素点距离文字主体区域的最短距离与对应像素点的差值绝对值的乘积进行负相关映射并归一化,获取对应像素点为文字像素点的概率。
进一步地,所述文字区域识别模块中去噪灰度值的获取方法,包括:
以每个像素点对应的所有结构元素长度的平均值作为窗口尺寸;以文本灰度图像中每个像素点为中心、以及对应像素点的窗口尺寸构建分析窗口;将文本灰度图像中每个像素点的分析窗口内灰度值小于等于对应像素点的灰度值的像素点作为第一像素点;将文本灰度图像中每个像素点的预设窗口内灰度值大于对应像素点的灰度值的像素点作为第二像素点;
将文本灰度图像中每个像素点为文字像素点的概率与对应像素点的分析窗口内各第一像素点的灰度值均值的乘积作为第一加权灰度值,将整数1和文本灰度图像中每个像素点为文字像素点的概率的差值、以及对应像素点的分析窗口内各第二像素点的灰度值均值的乘积作为第二加权灰度值,将文本灰度图像中每个像素点的第一加权灰度值与第二加权灰度值相加得到对应像素点的去噪灰度值。
进一步地,所述文字区域识别模块中文字区域的获取方法,包括:
利用大津算法根据文本灰度图像中各像素点的加权灰度值获取最佳分割阈值,将文本灰度图像中去噪灰度值小于最佳分割阈值的像素点作为真实文字像素点,由文本灰度图像中的真实文字像素点构成文字区域。
进一步地,所述图像数据预处理模块中文本二值图像的获取方法,包括:
计算文本灰度图像中像素点的灰度值均值作为分割阈值,将文本灰度图像中灰度值小于分割阈值的像素点作为初始文字像素点,并标记为1;将文本灰度图像中灰度值大于等于分割阈值的像素点作为背景像素点,并标记为0,获取文本二值图像。
本发明具有如下有益效果:
本发明实施例中,因纸张质量和光照因素等会导致文本灰度图像中出现噪声点,且噪声点可能导致文字结构被破坏,为了便于统计文本图像中文字的笔画宽度,获取文本灰度图像的文本二值图像,为了简化文字宽度的分析,在文本二值图像中设置不同的预设笔画方向,并根据文本二值图像中预设笔画方向上的灰度值分布获取文本灰度图像内文字的标准宽度;当使用不合适的结构元素进行形态学膨胀时,则导致多个噪声点相邻,进而使得文字笔画不连续,结合文本灰度图像内每个像素点邻域内灰度值分布与标准宽度获取对应像素点所需的结构元素长度;由于文本灰度图像中噪声点的存在,可能导致文字笔画出现断裂情况,为保证提取的文字笔画主体骨架的连续性和准确性,根据文本灰度图像内每个像素点的结构元素长度进行形态学膨胀操作,以获取膨胀文本灰度图像,根据膨胀文本灰度图像中像素点的灰度值获取文本灰度图像中的文字主体区域;文本灰度图像中像素点距离文字主体区域的距离越近,则该像素点为文字像素点的概率就越高,为准确获取文字区域,根据文本灰度图像中每个像素点与文字主体区域的相对位置、以及文字主体区域内像素点的灰度值,获取对应像素点为文字像素点的概率,为保证文字区域像素点的灰度值分布均匀清晰,以该概率为自适应加权值进行均值滤波处理,获取文本灰度图像中每个像素点的去噪灰度值,文本灰度图像中文字的像素点与背景的像素点的灰度值差异明显,根据文本灰度图像内像素点的去噪灰度值筛选出真实文字像素点,获得精确完整的文字区域,并基于文字区域进行文字识别以实现对图书的智能教编,通过对文本灰度图像中各像素点的结构元素长度进行分析,可以有效提高去噪效果和保护图像细节,进而获取准确完整的文字区域,提高对教辅图像中文字识别的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种基于文字识别的教辅图书智能校编系统的系统框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于文字识别的教辅图书智能校编系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
本发明所针对的具体场景:在教辅图书智能校编过程中,首先需要进行文字识别,对于电子稿可直接利用OCR技术进行文字识别,但对于前期资料采集中的纸质稿和后期图书出版印刷质量检测时都需要对采集的文本图像进行文字提取,再利用OCR技术进行文字识别。而受纸张质量、印刷质量和光照等因素的影响,文本图像上会不可避免的引入噪声,其会导致图像的某些特征细节淹没在图像噪声中不能被辨识,给后续的文字识别工作带来不利影响,因此需要先对文本图像进行去噪处理,进而准确的提取文本图像内的文字区域。
下面结合附图具体的说明本发明所提供的一种基于文字识别的教辅图书智能校编系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于文字识别的教辅图书智能校编系统的系统框图,该系统包括:图像数据预处理模块,文字主体区域获取模块,文字区域识别模块,智能校编模块。
图像数据预处理模块101,用于获得文本灰度图像,提取所述文本灰度图像中的文字信息,获得文本二值图像;根据所述文本二值图像中预设笔画方向上的灰度值分布获得获取每个预设笔画方向上所述文本灰度图像内文字的标准宽度;所述预设笔画方向至少设置四个不同的方向。
使用扫描仪或数码相机采集教辅图书的文本图像,对文本图像进行灰度化处理,获取文本图像对应的文本灰度图像,统计文本灰度图像的灰度直方图,其中,文本图像为RGB图像。由于教辅图书内文字一般为黑色字体,背景通常设置为白色,所以文本灰度图像的初始文字区域和背景区域内各像素点的灰度值差异较大,且初始文字区域内各像素点的灰度值较小。
计算文本灰度图像中像素点的灰度值均值作为分割阈值,将文本灰度图像中灰度值小于分割阈值的像素点作为初始文字像素点,并标记为1;将文本灰度图像中灰度值大于等于分割阈值的像素点作为背景像素点,并标记为0,获取文本二值图像。
受纸张质量、印刷质量和光照等因素的影响,文本灰度图像上不可避免地会出现噪声点,由于受噪声点的影响,文本二值图像的获取存在一定误差。即文本灰度图像内的噪声像素点可能导致文字提取时造成笔画断裂、丢失的现象,导致文字结构被破坏,但是文字的精准识别需要连续的笔画主体骨架,已知文字的笔画主要为横竖撇捺,以横竖撇捺作为笔画主体骨架。本发明实施例分别设置横笔画方向、竖笔画方向、撇笔画方向、捺笔画方向四个预设笔画方向,以四个预设笔画方向的宽度为单像素点的线形结构元素。其中,为文本灰度图像的横轴向右方向,对应横笔画方向;为文本灰度图像的横轴向右方向逆时针旋转,对应撇笔画方向;为文本灰度图像的横轴向右方向逆时针旋转,对应竖笔画方向;为文本灰度图像的横轴向右方向逆时针旋转,对应捺笔画方向。
同一文本图像内大部分文字的大小相似,一般情况下文字笔画的宽度大于噪声的宽度,根据每个预设笔画方向的每种笔画的宽度获取文字的标准宽度。文字的标准宽度的获取方法为:将连续的初始文字像素点的数量作为笔画宽度,在所述文本二值图像内统计每个预设笔画方向下各笔画宽度,每个预设笔画方向均得到一个笔画宽度集合;分别使用聚类算法获取每个笔画宽度集合的第一分割点和第二分割点,使第一分割点小于第二分割点,分别计算每个笔画宽度集合中大于第一分割点且小于第二分割点的各笔画宽度的均值作为笔画宽度均值,每个笔画宽度集合均可获取一个笔画宽度均值,将各笔画宽度均值的平均值作为文本灰度图像内文字的标准宽度。
作为一个示例,将文本二值图像中连续的初始文字像素点的数量作为笔画宽度,以为例,在文本二值图像内逐行统计横笔画方向下横笔画宽度,即在文本二值图像内统计横笔画方向下连续像素值为1的像素点的数量,进而获得横笔画的笔画宽度集合。其中,为横笔画的笔画宽度集合中的第1个横笔画宽度,为横笔画的笔画宽度集合中的第2个横笔画宽度,为横笔画的笔画宽度集合中的第个横笔画宽度。为了去除过长的横笔画宽度和过短的横笔画宽度的噪声宽度的干扰,使用K均值聚类算法对横笔画的笔画宽度集合中的各横笔画宽度进行聚类,其中K=3,即横笔画的笔画宽度集合中的横笔画宽度被划分为3个聚类簇,获取两个分割点,分别为第一分割点和第二分割点,使第一分割点小于第二分割点。计算横笔画的笔画宽度集合中大于第一分割点且小于第二分割点的横笔画宽度的均值作为横笔画的笔画宽度均值。利用K均值聚类算法分类是为了去除了过长的横笔画宽度和过短的横笔画宽度的噪声宽度的干扰,保证横笔画的笔画宽度均值的准确性。根据上述方法分别获取文本二值图像中这3个预设笔画方向对应的笔画宽度均值,将这4个预设笔画方向对应的笔画宽度均值的平均值作为文本灰度图像内文字的标准宽度。
需要说明的是,本发明实施例中选K均值聚类算法对笔画宽度集合中的笔画宽度进行聚类,具体方法在此不做介绍,均为本领域技术人员熟知的技术手段。
文字主体区域获取模块102,用于结合所述文本灰度图像内每个像素点邻域内灰度值分布与所述标准宽度获取对应像素点在每个所述预设笔画方向上所需的结构元素长度;根据所述文本灰度图像内每个像素点的所述结构元素长度进行形态学膨胀操作,获得膨胀文本灰度图像;根据所述膨胀文本灰度图像中像素点的灰度值获取所述文本灰度图像中的文字主体区域。
形态学膨胀能够使因噪声点导致文字笔画断裂的部分复原,使用形态学膨胀需要选取合适的结构元素长度,当结构元素长度选取过大时,易造成笔画断裂或丢失,当结构元素长度选取较小时,难以完全去除重度污染噪声,即局部存在多个噪声点相邻,呈块状。因此需要对文本灰度图像内的各像素点自适应选取结构元素长度,保证形态学膨胀后文字笔画的连续性。
以一个预设笔画方向为例,根据结构元素长度公式获得所述结构元素长度,所述结构元素长度的计算公式为:
式中,为文本灰度图像第个像素点所需的结构元素长度,为文本灰度图像内第j个像素点与其八邻域像素点的灰度值之间最小的差值绝对值,为文本灰度图像内第j个像素点与其八邻域像素点的灰度值之间最大的差值绝对值,为文本灰度图像内第j个像素点与其八邻域像素点中灰度级的数量,表示文本灰度图像内第个预设笔画方向上文字的标准宽度,m为文本灰度图像内的像素点数量;e为自然常数;为向下取整函数。
需要说明的是,由于文本图像中文字一般为黑色,背景通常为白色,所以文本灰度图像中灰度级数量少,初始文字区域与背景区域内各像素点的邻域内灰度值往往唯一,但是文本灰度图像中噪声像素点与其邻域内灰度值存在差异,所以当越大时,则说明文本灰度图像第个像素点为噪声像素点的概率较大;由于噪声像素点的灰度值具有随机性,所以噪声像素点与其邻域内灰度级的数量越多,且各灰度值之间的差异越大,当越大,即当越大时,说明该像素点为噪声的概率较大;因此越大,该像素点为噪声像素点的概率越大,则说明该像素点在进行形态学膨胀时需要的结构元素长度较大,以提高噪声像素点的去除效果;以文本灰度图像内文字的标准宽度为最大结构元素长度,防止形态学膨胀时造成文字笔画断裂。
文本图像内的噪声像素点可能导致文字提取时造成笔画断裂、丢失的现象,令文字结构被破坏,利用自适应结构元素长度的形态学膨胀方法,获取文本灰度图像的文字主体区域,并滤除文本灰度图像内的低频噪声,保证提取的文字笔画主体骨架的连续性和准确性。
根据文本灰度图像中每个预设笔画方向下各像素点所需的结构元素长度对文本灰度图像分别进行形态学膨胀操作,获取对应预设笔画方向的膨胀文本灰度图像,计算所有膨胀文本灰度图像中相同坐标位置上各像素点的灰度值均值,获取加权文本灰度图像;计算加权文本灰度图像中各像素点的灰度值均值,由加权文本灰度图像中灰度值小于灰度均值的像素点构成加权文本灰度图像的文字主体区域;根据加权文本灰度图像的文字主体区域内各像素点的位置坐标获取文本灰度图像的文字主体区域。
作为一个示例,依次使用四个预设笔画方向上的单像素点宽度的线形结构元素,将每个预设笔画方向的结构元素长度分别对文本灰度图像进行形态学膨胀操作,即根据每个预设笔画方向的结构元素长度对文本灰度图像分别进行横笔画方向形态学膨胀、竖笔画方向形态学膨胀、撇笔画方向形态学膨胀、捺笔画方向形态学膨胀,形态学膨胀后共获取四个膨胀文本灰度图像,每个预设笔画方向均得到一个对应的膨胀文本灰度图像。这四个膨胀文本灰度图像分别对文字的横、竖、撇、捺文字笔画的主体区域提取效果较好,即横笔画方向形态学膨胀后得到膨胀文本灰度图像对横文字笔画的主体区域提取效果较好,但是对其他三个文字笔画的主体区域提取效果较差;其他三个膨胀文本灰度图像对文字笔画的主体区域的提取结果与上述结果类似。为了有效提高文字识别的准确性,计算四个膨胀文本灰度图像中相同坐标位置上各像素点的灰度值均值,每个位置坐标均获取对应的灰度值均值,获取加权文本灰度图像。计算加权文本灰度图像中各像素点的灰度值均值,由于文本图像中文字一般为黑色,背景通常为白色,导致文字内包含的像素点的灰度值较小,为识别文字部分,将加权文本灰度图像中灰度值小于灰度均值的像素点构成加权文本灰度图像的文字主体区域,根据加权文本灰度图像的文字主体区域内各像素点的位置坐标在文本灰度图像中找出各像素点对应的像素点,由这些像素点组成文本灰度图像的文字主体区域。
文字区域识别模块103,用于根据文本灰度图像中每个像素点与所述文字主体区域的相对位置、以及所述文字主体区域内像素点的灰度值,获取对应像素点为文字像素点的概率;依据文本灰度图像中每个像素点为所述文字像素点的概率、预设窗口内像素点的灰度值获取对应像素点的去噪灰度值;根据文本灰度图像内像素点的去噪灰度值筛选出真实文字像素点,获得文字区域。
传统的均值滤波会造成图像模糊,导致文字提取时造成笔画断裂、丢失,因此根据文字主体区域获取模块102获取的文本灰度图像内准确且连续的文字主体区域,取文字主体区域的特征参数为依据,进行自适应加权均值滤波去噪,保证文字主体区域内像素点的灰度值分布均匀清晰,进而获取准确完整的文字区域。
基于文本灰度图像中各像素点与文字主体区域的距离、以及像素点的灰度值获取文本灰度图像中对应像素点为文字像素点的概率。判断文本灰度图像中像素点为文字像素点的概率的方法为:计算文本灰度图像的文字主体区域内各像素点的灰度值均值作为文字标准灰度值;计算文本灰度图像中每个像素点的灰度值与文字标准灰度值的差值绝对值,将文本灰度图像中每个像素点距离文字主体区域的最短距离与对应像素点的差值绝对值的乘积进行负相关映射并归一化,获取对应像素点为文字像素点的概率。
根据文字像素点的概率公式获得文本灰度图像内各像素点为文字像素点的概率,文本灰度图像内各像素点为文字像素点的概率的计算公式为:
式中,为文本灰度图像内第个像素点为文字像素点的概率,为文本灰度图像内第个像素点距离文字主体区域的最短距离,当第个像素点位于文字主体区域内,则取0,为文本灰度图像内第个像素点的灰度值,为文字标准灰度值,为文本灰度图像内的像素点数量;为自然常数;为绝对值函数。
需要说明的是,由于文本灰度图像内距离文字主体区域越近的像素点越有可能为文字像素点,且该像素点的灰度值越接近文字标准灰度值,当文本灰度图像内第个像素点与文字主体区域的最短距离越小,且该像素点的灰度值与文字标准灰度值越相似,即越小,则越小,则该像素点为文字像素点的概率越大。
文本灰度图像内文字主体区域和背景区域的像素点的灰度值差异较大,文字主体区域的像素点的灰度值较小,直接进行均值滤波会导致图像模糊。为保证文本灰度图像中文字区域内各像素点的灰度值分布均匀清晰,将每个像素点为文字像素点的概率作为对应像素点的自适应权值,对文本灰度图像进行自适应加权均值滤波处理。
为了提高文本灰度图像内各像素点的去噪效果,获取每个像素点的分析窗口,并根据分析窗口内各像素点的灰度值差异将像素点划分为不同种类像素点,对分析窗口内像素点的划分方法为:以每个像素点对应的所有结构元素长度的平均值作为窗口尺寸;以文本灰度图像中每个像素点为中心、以及对应像素点的窗口尺寸构建分析窗口;将文本灰度图像中每个像素点的分析窗口内灰度值小于等于对应像素点的灰度值的像素点作为第一像素点;将文本灰度图像中每个像素点的预设窗口内灰度值大于对应像素点的灰度值的像素点作为第二像素点。
将文本灰度图像中每个像素点为文字像素点的概率与对应像素点的分析窗口内各第一像素点的灰度值均值的乘积作为第一加权灰度值,将整数1和文本灰度图像中每个像素点为文字像素点的概率的差值、以及对应像素点的分析窗口内各第二像素点的灰度值均值的乘积作为第二加权灰度值,将文本灰度图像中每个像素点的第一加权灰度值与第二加权灰度值相加得到对应像素点的去噪灰度值。
对文本灰度图像进行自适应加权均值滤波处理,获取去噪后的各像素点的去噪灰度值,去噪灰度值的计算公式为:
式中,为本灰度图像内第个像素点的去噪灰度值,为文本灰度图像内第个像素点为文字像素点的概率,为文本灰度图像中第个像素点的分析窗口内各第一像素点的灰度值均值,为文本灰度图像中第个像素点的分析窗口内各第二像素点的灰度值均值,为文本灰度图像内的像素点数量。
需要说明的是,文本灰度图像内文字部分和背景部分内像素点的灰度值差异较大,直接进行均值滤波会导致图像模糊,因此将分析窗口内的像素点分为灰度值较小的第一像素点和灰度值较大的第二像素点,对分析窗口内的第一像素点和第二像素点分别进行分析,以提高分析窗口对应像素点的灰度值的准确性;以为自适应权值,当越大时,说明该像素点为文字像素点的概率越大,则赋予分析窗口内第一像素点的灰度值均值较大的权重为;当越小时,说明该像素点为背景像素点的概率越大,则赋予分析窗口内第二像素点的灰度值均值较大的权重为,使得经过自适应加权均值滤波处理后像素点的灰度值较为准确,达到文字区域像素点的灰度值分布均匀清晰。
通过上述自适应加权均值滤波去噪处理方法获取文本灰度图像中每个像素点的加权灰度值,利用大津算法根据文本灰度图像中各像素点的加权灰度值获取最佳分割阈值,将文本灰度图像中去噪灰度值小于最佳分割阈值的像素点作为真实文字像素点,由文本灰度图像中的真实文字像素点构成文字区域。
智能校编模块104,用于对所述文字区域进行文字识别,实现对教辅图书的智能教编。
本发明实施例利用OCR技术对文字区域进行文字识别,但OCR文字识别技术存在一定的拒识率和误识率,当扫描获取的文字质量较差时,即扫描获取的文字存在断裂、文字获取不全和文字获取存在噪声等情况时,会增加文字识别的拒识率、误识率,影响后续的智能校编。
OCR技术是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
本发明实施例通过图像数据预处理模块、文字主体区域获取模块和文字区域识别模块完成纸质稿的文字提取,使得获取的文字准确完整,且去除噪声影响,再利用OCR技术进行文字识别,提高文字识别的准确率,为后续的智能校编提供准确的信息,防止因拒识或误识导致智能校编的工作量加大,而对于电子稿直接利用OCR技术识别文字,由此完成教辅图书智能校编系统的文稿中的文字识别,进而对文字识别后的文稿进行三审加工、排版、作者清样、编辑校对等工作,完成教辅图书的智能校编。
其中,OCR技术为公知技术,具体方法在此不做介绍。
综上所述,在本发明实施例中,图像数据预处理模块,用于获取文本灰度图像的文本二值图像,根据文本二值图像中预设笔画方向上的灰度值分布获得获取文字的标准宽度;文字主体区域获取模块,用于获取每个像素点所需的结构元素长度,根据结构元素长度进行形态学膨胀获取的膨胀文本灰度图像中灰度值获取文字主体区域;文字区域识别模块,用于获得像素点为文字像素点的概率,进而获得像素点的去噪灰度值,根据文本灰度图像内像素点的去噪灰度值筛选出真实文字像素点,确定文字区域;智能校编模块,用于对文字区域进行文字识别,实现对教辅图书的智能教编。本发明能够提高对教辅图书进行文字识别的准确性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.基于文字识别的教辅图书智能校编系统,其特征在于,该系统包括:
图像数据预处理模块,用于获得文本灰度图像,提取所述文本灰度图像中的文字信息,获得文本二值图像;根据所述文本二值图像中预设笔画方向上的灰度值分布获得获取每个预设笔画方向上所述文本灰度图像内文字的标准宽度;所述预设笔画方向至少设置四个不同的方向;
文字主体区域获取模块,用于结合所述文本灰度图像内每个像素点邻域内灰度值分布与所述标准宽度获取对应像素点在每个所述预设笔画方向上所需的结构元素长度;根据所述文本灰度图像内每个像素点的所述结构元素长度进行形态学膨胀操作,获得膨胀文本灰度图像;根据所述膨胀文本灰度图像中像素点的灰度值获取所述文本灰度图像中的文字主体区域;
文字区域识别模块,用于根据文本灰度图像中每个像素点与所述文字主体区域的相对位置、以及所述文字主体区域内像素点的灰度值,获取对应像素点为文字像素点的概率;依据文本灰度图像中每个像素点为所述文字像素点的概率、预设窗口内像素点的灰度值获取对应像素点的去噪灰度值;根据文本灰度图像内像素点的去噪灰度值筛选出真实文字像素点,获得文字区域;
智能校编模块,用于对所述文字区域进行文字识别,实现对教辅图书的智能教编。
2.根据权利要求1所述的基于文字识别的教辅图书智能校编系统,其特征在于,所述图像数据预处理模块中文字的标准宽度的获取方法,包括:
将连续的初始文字像素点的数量作为笔画宽度,在所述文本二值图像内统计每个预设笔画方向下各笔画宽度,每个预设笔画方向均得到一个笔画宽度集合;
分别使用聚类算法获取每个笔画宽度集合的第一分割点和第二分割点,使第一分割点小于第二分割点,分别计算每个笔画宽度集合中大于第一分割点且小于第二分割点的各笔画宽度的均值作为笔画宽度均值,每个笔画宽度集合均可获取一个笔画宽度均值,将各笔画宽度均值的平均值作为文本灰度图像内文字的标准宽度。
3.根据权利要求1所述的基于文字识别的教辅图书智能校编系统,其特征在于,所述文字主体区域获取模块中结构元素长度的获取方法,包括:
根据结构元素长度公式获得所述结构元素长度,所述结构元素长度的计算公式为:
式中,为文本灰度图像第个像素点所需的结构元素长度,为文本灰度图像内第j个像素点与其八邻域像素点的灰度值之间最小的差值绝对值,为文本灰度图像内第j个像素点与其八邻域像素点的灰度值之间最大的差值绝对值,为文本灰度图像内第j个像素点与其八邻域像素点中灰度级的数量,表示文本灰度图像内第个预设笔画方向上文字的标准宽度,m为文本灰度图像内的像素点数量;e为自然常数;为向下取整函数。
4.根据权利要求2所述的基于文字识别的教辅图书智能校编系统,其特征在于,所述文字主体区域获取模块中文字主体区域的获取方法,包括:
根据文本灰度图像中每个预设笔画方向下各像素点所需的结构元素长度对文本灰度图像分别进行形态学膨胀操作,获取对应预设笔画方向的膨胀文本灰度图像,计算所有膨胀文本灰度图像中相同坐标位置上各像素点的灰度值均值,获取加权文本灰度图像;计算加权文本灰度图像中各像素点的灰度值均值,由加权文本灰度图像中灰度值小于灰度均值的像素点构成加权文本灰度图像的文字主体区域;根据加权文本灰度图像的文字主体区域内各像素点的位置坐标获取文本灰度图像的文字主体区域。
5.根据权利要求1所述的基于文字识别的教辅图书智能校编系统,其特征在于,所述文字区域识别模块中用于根据文本灰度图像中每个像素点的坐标位置与所述文字主体区域内像素点的灰度值获取对应像素点为文字像素点的概率的方法,包括:
计算文本灰度图像的文字主体区域内各像素点的灰度值均值作为文字标准灰度值;
计算文本灰度图像中每个像素点的灰度值与文字标准灰度值的差值绝对值,将文本灰度图像中每个像素点距离文字主体区域的最短距离与对应像素点的差值绝对值的乘积进行负相关映射并归一化,获取对应像素点为文字像素点的概率。
6.根据权利要求1所述的基于文字识别的教辅图书智能校编系统,其特征在于,所述文字区域识别模块中去噪灰度值的获取方法,包括:
以每个像素点对应的所有结构元素长度的平均值作为窗口尺寸;以文本灰度图像中每个像素点为中心、以及对应像素点的窗口尺寸构建分析窗口;将文本灰度图像中每个像素点的分析窗口内灰度值小于等于对应像素点的灰度值的像素点作为第一像素点;将文本灰度图像中每个像素点的预设窗口内灰度值大于对应像素点的灰度值的像素点作为第二像素点;
将文本灰度图像中每个像素点为文字像素点的概率与对应像素点的分析窗口内各第一像素点的灰度值均值的乘积作为第一加权灰度值,将整数1和文本灰度图像中每个像素点为文字像素点的概率的差值、以及对应像素点的分析窗口内各第二像素点的灰度值均值的乘积作为第二加权灰度值,将文本灰度图像中每个像素点的第一加权灰度值与第二加权灰度值相加得到对应像素点的去噪灰度值。
7.根据权利要求1所述的基于文字识别的教辅图书智能校编系统,其特征在于,所述文字区域识别模块中文字区域的获取方法,包括:
利用大津算法根据文本灰度图像中各像素点的加权灰度值获取最佳分割阈值,将文本灰度图像中去噪灰度值小于最佳分割阈值的像素点作为真实文字像素点,由文本灰度图像中的真实文字像素点构成文字区域。
8.根据权利要求1所述的基于文字识别的教辅图书智能校编系统,其特征在于,所述图像数据预处理模块中文本二值图像的获取方法,包括:
计算文本灰度图像中像素点的灰度值均值作为分割阈值,将文本灰度图像中灰度值小于分割阈值的像素点作为初始文字像素点,并标记为1;将文本灰度图像中灰度值大于等于分割阈值的像素点作为背景像素点,并标记为0,获取文本二值图像。
CN202310201970.7A 2023-03-06 2023-03-06 基于文字识别的教辅图书智能校编系统 Active CN116071763B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310201970.7A CN116071763B (zh) 2023-03-06 2023-03-06 基于文字识别的教辅图书智能校编系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310201970.7A CN116071763B (zh) 2023-03-06 2023-03-06 基于文字识别的教辅图书智能校编系统

Publications (2)

Publication Number Publication Date
CN116071763A true CN116071763A (zh) 2023-05-05
CN116071763B CN116071763B (zh) 2023-06-16

Family

ID=86182139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310201970.7A Active CN116071763B (zh) 2023-03-06 2023-03-06 基于文字识别的教辅图书智能校编系统

Country Status (1)

Country Link
CN (1) CN116071763B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363668A (zh) * 2023-05-31 2023-06-30 山东一品文化传媒有限公司 一种图书智能校对方法及系统
CN116468640A (zh) * 2023-06-20 2023-07-21 山东正禾大教育科技有限公司 一种用于互联网教学的视频图像增强方法
CN116664453A (zh) * 2023-07-31 2023-08-29 山东中泳电子股份有限公司 一种用于游泳触摸板的pet板检测方法
CN117037159A (zh) * 2023-10-09 2023-11-10 网思科技股份有限公司 基于卷积神经网络的油画真伪鉴别方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100067793A1 (en) * 2008-09-18 2010-03-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
US20110222768A1 (en) * 2010-03-10 2011-09-15 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
CN102270340A (zh) * 2011-09-05 2011-12-07 上海果壳电子有限公司 基于笔画算子的文本图像增强方法及系统
CN107798286A (zh) * 2017-07-13 2018-03-13 西安电子科技大学 基于标记样本位置的高光谱图像进化分类方法
CN112287933A (zh) * 2019-12-20 2021-01-29 中北大学 一种汽车轮毂x射线图像文字干扰的去除方法及系统
US20220248880A1 (en) * 2020-04-28 2022-08-11 Boe Technology Group Co., Ltd. Intelligent vase system, flower recognition and presentation method and electronic apparatus
CN114926839A (zh) * 2022-07-22 2022-08-19 富璟科技(深圳)有限公司 基于rpa和ai的图像识别方法及电子设备
CN115497109A (zh) * 2022-11-17 2022-12-20 山东思玛特教育科技有限公司 基于智能翻译的文字图像预处理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100067793A1 (en) * 2008-09-18 2010-03-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
US20110222768A1 (en) * 2010-03-10 2011-09-15 Microsoft Corporation Text enhancement of a textual image undergoing optical character recognition
CN102270340A (zh) * 2011-09-05 2011-12-07 上海果壳电子有限公司 基于笔画算子的文本图像增强方法及系统
CN107798286A (zh) * 2017-07-13 2018-03-13 西安电子科技大学 基于标记样本位置的高光谱图像进化分类方法
CN112287933A (zh) * 2019-12-20 2021-01-29 中北大学 一种汽车轮毂x射线图像文字干扰的去除方法及系统
US20220248880A1 (en) * 2020-04-28 2022-08-11 Boe Technology Group Co., Ltd. Intelligent vase system, flower recognition and presentation method and electronic apparatus
CN114926839A (zh) * 2022-07-22 2022-08-19 富璟科技(深圳)有限公司 基于rpa和ai的图像识别方法及电子设备
CN115497109A (zh) * 2022-11-17 2022-12-20 山东思玛特教育科技有限公司 基于智能翻译的文字图像预处理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHUNG-HSING CHEN 等: "English Characters Recognition by Stroke Features and Lightweight Artificial Intelligence", RESEARCH SQUARE, pages 1 - 23 *
唐思源 等: "视频帧中改进的字幕检测定位方法", 科技传播, pages 237 - 238 *
鄢煜尘 等: "形态学重度污染文本图像去噪处理", 武汉大学学报(信息科学版), pages 96 - 99 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363668A (zh) * 2023-05-31 2023-06-30 山东一品文化传媒有限公司 一种图书智能校对方法及系统
CN116363668B (zh) * 2023-05-31 2023-08-29 山东一品文化传媒有限公司 一种图书智能校对方法及系统
CN116468640A (zh) * 2023-06-20 2023-07-21 山东正禾大教育科技有限公司 一种用于互联网教学的视频图像增强方法
CN116468640B (zh) * 2023-06-20 2023-08-29 山东正禾大教育科技有限公司 一种用于互联网教学的视频图像增强方法
CN116664453A (zh) * 2023-07-31 2023-08-29 山东中泳电子股份有限公司 一种用于游泳触摸板的pet板检测方法
CN116664453B (zh) * 2023-07-31 2023-10-20 山东中泳电子股份有限公司 一种用于游泳触摸板的pet板检测方法
CN117037159A (zh) * 2023-10-09 2023-11-10 网思科技股份有限公司 基于卷积神经网络的油画真伪鉴别方法、装置及存储介质
CN117037159B (zh) * 2023-10-09 2024-03-19 网思科技股份有限公司 基于卷积神经网络的油画真伪鉴别方法、装置及存储介质

Also Published As

Publication number Publication date
CN116071763B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN116071763B (zh) 基于文字识别的教辅图书智能校编系统
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
US8750619B2 (en) Character recognition
CN107491730A (zh) 一种基于图像处理的化验单识别方法
CN108647681A (zh) 一种带有文本方向校正的英文文本检测方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112307919B (zh) 一种基于改进YOLOv3的单证图像中数字信息区域识别方法
CN107195069A (zh) 一种人民币冠字号自动识别方法
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
Mohsin et al. Developing an Arabic handwritten recognition system by means of artificial neural network
Herwanto et al. Zoning feature extraction for handwritten Javanese character recognition
CN114005127A (zh) 一种基于深度学习的图像光学文字识别方法,存储装置及服务器
CN107609482B (zh) 一种基于汉字笔画特征的中文文本图像倒置判别方法
Rodrigues et al. Cursive character recognition–a character segmentation method using projection profile-based technique
CN113139535A (zh) 一种ocr文档识别方法
CN105721738B (zh) 一种彩色扫描文档图像预处理方法
Kaur et al. Page segmentation in OCR system-a review
CN110298350B (zh) 一种高效的印刷体维吾尔文单词分割算法
Chendage et al. Study on Ancient Marathi Script Improvement using Digital Image Processing Techniques
Mehta et al. A review of handwritten character recognition
Jambekar A Review of Optical Character Recognition System for Recognition of Printed Text
CN111797838A (zh) 一种图片类文档盲去噪系统、方法及装置
Humied Segmentation accuracy for offline Arabic handwritten recognition based on bounding box algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Intelligent proofreading and editing system for teaching auxiliary books based on text recognition

Effective date of registration: 20231026

Granted publication date: 20230616

Pledgee: Liangshan County sub branch of Postal Savings Bank of China Ltd.

Pledgor: Shandong Xinghuo Book Co.,Ltd.

Registration number: Y2023980062950