CN116468640B - 一种用于互联网教学的视频图像增强方法 - Google Patents
一种用于互联网教学的视频图像增强方法 Download PDFInfo
- Publication number
- CN116468640B CN116468640B CN202310729939.0A CN202310729939A CN116468640B CN 116468640 B CN116468640 B CN 116468640B CN 202310729939 A CN202310729939 A CN 202310729939A CN 116468640 B CN116468640 B CN 116468640B
- Authority
- CN
- China
- Prior art keywords
- sliding window
- image
- pixel
- calculating
- center
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims description 23
- 230000009466 transformation Effects 0.000 claims description 15
- 238000005516 engineering process Methods 0.000 claims description 12
- 238000003708 edge detection Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 230000002146 bilateral effect Effects 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 20
- 238000012545 processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004438 eyesight Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/94—Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像处理技术领域,具体为一种用于互联网教学的视频图像增强方法,能够结合互联网教学视频图像中知识点区域的文字和字母的复杂性、文字边缘方向的复杂度以及知识点区域边缘上的相近程度,改进传统SSR算法中尺度参数的取值,进而对互联网教学视频的灰度图像进行不同区域给予不同效果的图像增强。同时,能够对互联网教学视频图像中知识点局部区域增强的程度较大、背景区域增强的程度相对较小,从而便于学生直观地学习知识点。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种用于互联网教学的视频图像增强方法。
背景技术
随着互联网技术的发展,基于互联网平台的智能教学系统取得了巨大的进步。但是,发展过程中伴随着一些其他方面的问题。例如线上网课,虽然线上网课的形式使得教育资源更加丰富,但是对于贫困山区、偏远地区以及网络不好的学生来说,线上网课经常会出现不清晰的现象,这极大影响学生的学习以及眼睛的使用程度。
网课中出现不清晰的现象,一方面影响学习,另一方面伤害眼睛。随着图像处理技术的快速发展,利用图像增强技术对图像进行增强成为了主流,例如传统的图像增强(SSR)算法,但是传统的SSR算法中一幅图像只有一个尺度参数,无法针对不同的区域得到不同的图像增强效果。
发明内容
本发明要解决的技术问题在于,现有的图像增强技术无法针对不同的区域得到不同的图像增强效果。针对现有技术中的缺陷,提供一种用于互联网教学的视频图像增强方法。
为了解决上述技术问题,本发明提供了一种用于互联网教学的视频图像增强方法。
本发明实施例的一种用于互联网教学的视频图像增强方法包括:
采集互联网教学视频图像的灰度图像,提取所述灰度图像中的文本内容;
分别以所述灰度图像中的每个像素点为中心建立滑动窗口;
根据所述文本内容计算每个所述滑动窗口的文本信息丰富度;
基于所述文本信息丰富度计算每个所述滑动窗口的笔画走势复杂指数;
从每个所述滑动窗口中检测出边缘像素点,计算所述边缘像素点之间的空间距离,基于所述文本信息丰富度和所述空间距离计算每个像素点的笔画相近指数;
根据所述笔画走势复杂指数和所述笔画相近指数计算每个所述像素点的高斯环绕尺度参数;
根据每个所述像素点的所述高斯环绕尺度参数利用SSR算法对所述灰度图像进行图像增强。
可选地,采集互联网教学视频图像的灰度图像,包括:
利用CMOS相机采集互联网教学视频图像的RGB图像;
采用双边滤波对所述RGB图像进行去噪处理;
将去噪后的所述RGB图像转化为灰度图像。
可选地,提取所述灰度图像中的文本内容,包括:
利用透视变换技术对所述灰度图像进行校正修改,得到标准灰度图像;
利用OCR文本识别算法提取所述标准灰度图像中的文本内容。
可选地,分别以所述灰度图像中的每个像素点为中心建立滑动窗口,包括:
分别以所述标准灰度图像中的每个像素点为中心建立15×15的滑动窗口。
可选地,利用下述公式计算所述文本信息丰富度:
式中,为归一化函数;为像素点作为中心的所述滑动窗口内字符的种
类数;为像素点作为中心的所述滑动窗口内第个种类字符的数量。
可选地,基于所述文本信息丰富度计算每个所述滑动窗口的笔画走势复杂指数,包括:
根据每个所述滑动窗口的边缘二值图像利用霍夫变换获取所述滑动窗口内的直线,并统计每个所述滑动窗口内直线的个数;
利用点斜式求取每条直线的斜率;
基于直线的个数、每条直线的斜率和所述文本信息丰富度计算每个像素点作为中心的所述滑动窗口的笔画走势复杂指数。
可选地,利用下述公式计算笔画走势复杂指数:
式中,为向上取整函数;为像素点作为中心的所述滑动窗口的所述文
本信息丰富度;为像素点作为中心的所述滑动窗口内直线的数目;和分别为第
和第条直线的斜率;为一种判断准则,当第和第条直线为同一直线时取值为0,
当第和第条直线不是同一直线时取值为1。
可选地,从每个所述滑动窗口中检测出边缘像素点,计算所述边缘像素点之间的空间距离,基于所述文本信息丰富度和所述空间距离计算每个像素点的笔画相近指数,包括:
利用canny算子边缘检测算法从每个所述滑动窗口中检测出边缘像素点,并将所述边缘像素点加入边缘集合;
计算所述边缘像素点之间的欧式距离;
基于所述欧式距离和所述文本信息丰富度计算每个像素点的笔画相近指数。
可选地,利用下述公式计算每个像素点的笔画相近指数:
式中,为像素点作为中心的所述滑动窗口内像素点的数目;为
像素点与其作为中心的所述滑动窗口内第个像素点之间的欧式距离函数;为像素
点作为中心的所述滑动窗口的所述文本信息丰富度;为像素点作为中心的所述
滑动窗口内第个像素点的所述文本信息丰富度;为一种判断准则,当像素点时取值为1,当像素点时取值为0。
可选地,利用下述公式计算每个像素点的高斯环绕尺度参数:
式中,为归一化函数;为像素点作为中心的所述滑动窗口的所述笔
画走势复杂指数;为像素点作为中心的所述滑动窗口的所述笔画相近指数;为
尺度参数的最小值、取值为80;为尺度参数变化范围、取值为20。
实施本发明的一种用于互联网教学的视频图像增强方法,具有以下有益效果:能够结合互联网教学视频图像中知识点区域的文字和字母的复杂性、文字边缘方向的复杂度以及知识点区域边缘上的相近程度,改进传统SSR算法中尺度参数的取值,进而对互联网教学视频的灰度图像进行不同区域给予不同效果的图像增强。同时,能够对互联网教学视频图像中知识点局部区域增强的程度较大、背景区域增强的程度相对较小,从而便于学生直观地学习知识点。
附图说明
图1是本发明实施例的一种用于互联网教学的视频图像增强方法的主要步骤的示意图;
图2是本发明一个可参考实施例的一种用于互联网教学的视频图像增强方法的主要部分的示意图;
图3是本发明一个可参考实施例的计算每个像素点的高斯环绕尺度参数的主要流程示意图;
图4是本发明一个可参考实施例的一种用于互联网教学的视频图像增强方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于互联网平台的网课教学,线上网课图像(即互联网教学视频图像)的一般场景中会有教师以及黑板区域,由于线上网课教学中经常出现网络不佳,而网课视频一般会自动调节清晰度,所以会导致线上网课视频不清晰。为减弱线上网课图像中出现不清晰的现象,需要通过图像增强技术,增强图像的清晰度。同时,希望线上网课图像中知识点局部区域增强的程度较大,背景区域增强的程度相对较小,从而便于学生直观地学习知识点。
本发明实施例基于SSR算法,根据尺度参数大小的增强效果,对不同区域自适应不同的尺度参数,以便得到更好的图像增强效果。具体地,结合线上网课图像中知识点区域的文字和字母的复杂性、文字边缘方向的复杂度以及知识点区域边缘上的相近程度,改进传统SSR算法中尺度参数的取值,进而对线上网课灰度图像进行不同区域给予不同效果的图像增强。
如图1所示,本发明实施例提供的一种用于互联网教学的视频图像增强方法主要包括如下步骤:
步骤S101、采集互联网教学视频图像的灰度图像,提取灰度图像中的文本内容。
本发明实施例需要识别互联网教学视频图像的细节区域,进而对不同区域进行不同效果的图像增强。因此,先从互联网教学视频图像的灰度图像提取文本内容。
在本发明实施例中,采集互联网教学视频图像的灰度图像可以采用以下方式实现:利用CMOS相机采集互联网教学视频图像的RGB图像;采用双边滤波对RGB图像进行去噪处理;将去噪后的RGB图像转化为灰度图像。
利用CMOS相机采集互联网教学视频图像,得到RGB图像。对获得的RGB图像进行预处理,消除部分噪声以及外部干扰造成的影响,增强后续分析的准确性。为了在保留边缘信息的前提下去除噪声,本发明实施例采用双边滤波对RGB图像进行去噪处理,然后将RGB图像转化为灰度图像。此处的去噪处理还可以采取其他的去噪方法。
其中,CMOS相机是一种使用互补金属氧化物半导体(CMOS传感器)将光学影像转化为数字信号进行传输的相机。RGB图像是工业界的一种基于红绿蓝色彩模式的图像,是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的,RGB即是代表红、绿、蓝三个通道的颜色,这个色彩模式几乎包括了人类视力所能感知的所有颜色,是目前运用最广的颜色系统之一。此外,双边滤波是一种非线性的滤波方法,其具体实现过程可以参考现有的技术方案或利用已有计算机程序实现,本发明实施例不再赘述。
在本发明实施例中,提取灰度图像中的文本内容可以采用以下方式实现:利用透视变换技术对灰度图像进行校正修改,得到标准灰度图像;利用OCR文本识别算法提取标准灰度图像中的文本内容。
基于互联网教学视频图像的灰度图像的灰度属性,由于拍摄角度以及光照的因素影响,互联网教学视频图像中文字会存在一定程度上的偏移,可以利用透视变换技术对灰度图像进行校正修改,得到标准灰度图像。
OCR文本识别算法即字符识别算法,是专门针对字符识别和检测的一种有效的图像处理算法,其具体实现过程可以参考现有的技术方案或利用已有计算机程序实现,本发明实施例不再赘述。透视变换技术是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。透视变换技术的具体实现过程可以参考现有的技术方案或利用已有计算机程序实现,本发明实施例不再赘述。
步骤S102、分别以灰度图像中的每个像素点为中心建立滑动窗口。
本发明实施例通过滑动窗口分析每个像素点处的细节特征。优选地,滑动窗口为边长15个像素的正方形。
在本发明实施例,步骤S102可以采用以下方式实现:分别以标准灰度图像中的每个像素点为中心建立15×15的滑动窗口。
步骤S103、根据文本内容计算每个滑动窗口的文本信息丰富度。
一般情况下,互联网教学视频图像中黑板占比较大,没有知识点的区域属于黑板背景区域,局部灰度较为均匀;而有知识点的区域为目标区域,局部灰度较为混乱。另外,一般情况下,选择的黑板颜色较深,而选用的粉笔常用白色,即教师一般会用白粉笔书写知识点,所以知识点区域的文字、字母以及图形等包含的知识点。
为了得到互联网教学视频图像中的文本信息的具体特征,本发明实施例利用OCR文本识别算法,得到互联网教学视频图像中所包含的文字、数字以及符号等文本内容。当一个区域包含较多的文本内容时,由于网络的质量问题,很容易导致模糊现象的产生。因此,对文本内容较多的区域进行分析,当区域内的局部文本信息较多时,即文本信息的种类较多且文本内容较多,比如包含文字、字母以及符号等字符种类,则认为区域的文本信息越丰富。对于文本信息丰富度较大的区域,应该进行更加有效的图像增强。
在本发明实施例,可以利用下述公式计算文本信息丰富度:
式中,为归一化函数;为像素点作为中心的滑动窗口内字符的种类数;为像素点作为中心的滑动窗口内第个种类字符的数量。
当滑动窗口内文本信息的种类较多且文本内容较多时,认为该滑动窗口对应区域
的文本信息越丰富,即文本信息的种类越多、且每个种类的字符越多,则作为该滑动
窗口的中心的像素点所对应的文本信息丰富度越大,即此区域越有必要进行更加有
效的增强效果。
由此,通过局部文本信息得到每个像素点所代表的文本信息丰富度,文本信息丰富度一定程度上反映了知识点区域的复杂程度。而互联网教学视频图像中还包含的还有教师,本发明实施例希望教师区域的得到较弱的增强效果,从而使增强后的图像突出知识区域的细节特征。
步骤S104、基于文本信息丰富度计算每个滑动窗口的笔画走势复杂指数。
通常,教师讲课时很可能会遮挡住知识点,对教师区域的边缘来说,若教师边缘区域有较多的文本信息,也需要得到较优的图像增强效果,而没有文本信息的教师边缘,希望得到较弱的增强效果。
由于知识点区域组成成分的特殊性,即文字、字母以及符号组成,边缘方向发生改变的频率较大。基于知识点区域内的边缘方向发生改变的频率较大的特点,根据每个滑动窗口内的边缘二值图像,利用霍夫变换得到窗口内所有直线的集合。霍夫变换获取直线集合为公知技术,在此不做多余赘述。统计每个滑动窗口内直线的个数,由于一般写的大多数是文字,而文字由一笔一划构成,所以窗口内的直线数量一定程度上代表汉字区域的复杂性。同时根据窗口内的每一条直线,利用点斜式求取每条直线的斜率,直线斜率的分布情况可以决定图像增强的效果。如,“目”和“十”字,“目”有较多的相同斜率的笔画,当不清晰时很容易产生重影,使文字不好区分,而“十”字会向不同的方向产生重影,相对来说较容易区分。为了减轻重影导致的问题,需要对窗口笔画走势复杂程度进行分析。
在本发明实施例中,步骤S104可以采用以下方式实现:根据每个滑动窗口的边缘二值图像利用霍夫变换获取滑动窗口内的直线,并统计每个滑动窗口内直线的个数;利用点斜式求取每条直线的斜率;基于直线的个数、每条直线的斜率和文本信息丰富度计算每个像素点作为中心的滑动窗口的笔画走势复杂指数。
其中,边缘二值图像是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果,其具体实现过程可以参考现有的技术方案或利用已有计算机程序实现,本发明实施例不再赘述。霍夫变换是一种特征提取技术,被广泛应用于图像分析、计算机视觉以及数位影像处理,用来辨别找出物件中的特征,例如线条,其具体实现过程可以参考现有的技术方案或利用已有计算机程序实现,本发明实施例不再赘述。
作为一种优选的实施方式,可以利用下述公式计算笔画走势复杂指数:
式中,为向上取整函数;为像素点作为中心的滑动窗口的文本信息丰
富度;为像素点作为中心的滑动窗口内直线的数目;和分别为第和第条直线
的斜率;为一种判断准则,当第和第条直线为同一直线时取值为0,当第和第条
直线不是同一直线时取值为1。
文本信息丰富度越大,说明像素点作为中心的滑动窗口对应的区域内文字
等文本信息越复杂,则笔画走势复杂指数越大,即越能说明像素点作为中心的滑动
窗口内的汉字越复杂。滑动窗口的直线数量越大,由于知识点区域中汉字有较多的直线
笔画,则笔画走势复杂指数越大,即越能说明像素点作为中心的滑动窗口内的汉字
越复杂。不同直线的斜率绝对值越小,产生重影时越模糊,则笔画走势复杂指数越大,即越能说明像素点作为中心的滑动窗口内的汉字越复杂,并且越需要得到更
加有效的图像增强。
步骤S105、从每个滑动窗口中检测出边缘像素点,计算边缘像素点之间的空间距离,基于文本信息丰富度和空间距离计算每个像素点的笔画相近指数。
为了更加精确地提取知识点区域的细节特征,由于不同的文本信息类型,产生的边缘复杂程度不同。一般情况下,文本信息会包含较多的文字,而文字由每一笔画构成,笔画越多,文字越复杂,产生模糊时越看不清楚。因此,需要对图像笔画边缘之间的联系进行分析。本发明实施例对每个滑动窗口利用canny算子边缘检测算法,检测出窗口的所有边缘像素点。此外,本发明实施例以边缘像素点之间的空间距离表示区域边缘之间的空间邻近性,该空间距离可以是欧式距离。进一步地,基于区域边缘之间的空间邻近性以及文本信息丰富度相似性较强的特征,通过滑动窗口内边缘笔画的结构特征,可以计算每个像素点的笔画相近指数。
在本发明实施例中,步骤S105可以采用以下方式实现:利用canny算子边缘检测算法从每个滑动窗口中检测出边缘像素点,并将边缘像素点加入边缘集合;计算边缘像素点之间的欧式距离;基于欧式距离和文本信息丰富度计算每个像素点的笔画相近指数。
笔画相近指数主要是针对的边缘像素点的一个指标,笔画相近指数反映了边缘像素点与窗口内其他的边缘像素点的相似程度,一定程度上反映局部结构的复杂度。
其中,canny算子边缘检测算法是John F. Canny于1986年提出的一种边缘检测算子,是目前理论上相对最完善的一种边缘检测算法,其具体实现过程可以参考现有的技术方案或利用已有计算机程序实现,本发明实施例不再赘述。欧式距离一般指欧几里得度量,在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离,其具体计算过程可以参考现有的技术方案或利用已有计算机程序实现,本发明实施例不再赘述。
作为一种优选的实施方式,可以利用下述公式计算每个像素点的笔画相近指数:
式中,为像素点作为中心的滑动窗口内像素点的数目;为像素
点与其作为中心的滑动窗口内第个像素点之间的欧式距离函数;为像素点作为
中心的滑动窗口的文本信息丰富度;为像素点作为中心的滑动窗口内第个像素
点的文本信息丰富度;为一种判断准则,当像素点时取值为1,当像
素点时取值为0。
对不属于边缘的像素点,笔画相近指数为0。对属于边缘的像素点来说,边缘
像素点之间的欧式距离越小,边缘像素点之间的文本信息丰富度越小,说明边缘像素点之间的文本信息越相似,同时滑动窗口内包含的
边缘像素点越多,则笔画相近指数越大,即越可能为知识点细节区域,并且该区域越
需要得到更加有效的图像增强。
通过度量笔画相近指数的大小,可以区分教师区域和知识点区域。因为在互联网教学视频图像中,当像素点为教师区域的边缘像素点时,一是窗口内的边缘像素点较小,导致笔画相近指数较小;二是边缘像素点的空间距离以及知识丰富度差异相对较大,导致笔画相近指数相对较小。而知识点细节区域的笔画相近指数较大,由此可以区分知识点边缘细节区域和教师边缘区域。
步骤S106、根据笔画走势复杂指数和笔画相近指数计算每个像素点的高斯环绕尺度参数。
传统的SSR算法的核心在于:
式中,表示被观察到的图像;表示图像的反射分量;表示中心
环绕高斯函数。
中心环绕高斯函数中高斯环绕尺度参数的取值决定图像增强的程度,的取值
范围一般为。当设置较小时,能较好的控制图像边缘的增强效果;当设置较大
时,得到增强后的图像中低照度区域图像的增强效果更佳。传统的SSR算法,一幅图像确定
一个的取值,某些局部区域的图像增强效果较差。SSR算法的具体实现可以参考现有的技
术方案或计算机程序,此处不再赘述。
本发明实施例为了增强互联网教学视频图像的清晰度,使不同的区域得到不同的增强效果,根据每个像素点的笔画走势复杂指数以及笔画相近指数,计算每个像素点的高斯环绕尺度参数。
作为一种优选的实施方式,可以利用下述公式计算每个像素点的高斯环绕尺度参数:
式中,为归一化函数;为像素点作为中心的滑动窗口的笔画走势复
杂指数;为像素点作为中心的滑动窗口的笔画相近指数;为尺度参数的最小
值、取值为80;为尺度参数变化范围、取值为20。
高斯环绕尺度参数的一般取值范围为,像素点的笔画走势复杂指数越大、笔画相近指数越大,当前位置越有可能为知识点细节特征区域,则的
取值就越接近80,即当前位置上边缘细节的增强效果就越好;反之,像素点的笔画走势复杂
指数越小、笔画相近指数越小,当前位置越有可能是线上网课图像的背景区域,
则的取值就越接近100,即当前位置上的低照度像素的恒常性保持的越好。
步骤S107、根据每个像素点的高斯环绕尺度参数利用SSR算法对灰度图像进行图像增强。
根据每个像素点的高斯环绕尺度参数的取值,利用改进的SSR算法,对步骤S101采集的原始的灰度图像进行图像增强。由此,完成对线上网课灰度图像的增强。
根据本发明实施例的一种用于互联网教学的视频图像增强方法可以看出,结合互联网教学视频图像中知识点区域的文字和字母的复杂性、文字边缘方向的复杂度以及知识点区域边缘上的相近程度,改进传统SSR算法中尺度参数的取值,进而对互联网教学视频的灰度图像进行不同区域给予不同效果的图像增强。同时,对互联网教学视频图像中知识点局部区域增强的程度较大、背景区域增强的程度相对较小,从而便于学生直观地学习知识点。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
如图2所示,以线上网课的场景为例,本发明实施例的一种用于互联网教学的视频图像增强方法,可以划分为以下三部分:
第一部分、使用CMOS相机对电脑上的线上网课进行拍摄,对采集到的图像进行预处理。
本发明实施例需要识别线上网课图像(即互联网教学视频图像)的细节区域,进而对不同区域进行不同效果的图像增强。用CMOS相机采集线上网课图像,得到RGB空间的RGB图像。对获得到的RGB图像进行预处理,消除部分噪声以及外部干扰造成的影响,增强后续分析的准确性。为了在保留边缘信息的前提下去除噪声,本发明采用双边滤波对RGB图像进行处理,并将获得的线上网课的RGB图像转化为灰度图像。
第二部分、结合文字和字母的复杂性、文字边缘方向的复杂度以及知识点区域边缘上的相近程度,计算每个像素点的高斯环绕尺度参数。
根据线上网课图像中知识点局部区域的灰度特征,计算每个像素点的知识点丰富度,然后根据知识点区域边缘方向的复杂度,以及边缘之间的空间邻近性和知识点丰富度相似性,计算边缘方向递变规律系数及笔画相近指数,进而对每个像素点自适应高斯环绕尺度参数。
第三部分、根据得到的每个像素点的高斯环绕尺度参数,利用SSR算法完成对线上网课灰度图像的增强。
根据每个像素点的高斯环绕尺度参数的取值,利用传统的SSR算法,对原始灰度图像进行图像增强。由此,完成对线上网课的图像增强。
如图3所示,同样以线上网课的场景为例,本发明实施例的一种用于互联网教学的视频图像增强方法中,计算每个像素点的高斯环绕尺度参数可以参考以下流程:
1、利用透视变换技术对线上网课的灰度图像进行校正修改,得到标准灰度图像;
基于线上网课图像的灰度属性,由于拍摄角度以及光照的因素影响,线上网课图像中文字会存在一定程度上的偏移。
2、利用OCR文本识别算法,得到线上网课图像中所包含的文字、数字以及符号等文本内容。
3、以像素点为中心像素点,设置15×15的滑动窗口。
4、通过局部文本信息得到每个像素点所代表的文本信息丰富度:
具体通过以上公式进行计算,式中,为归一化函数,为像素点作为中心
的滑动窗口内字符的种类数,为像素点作为中心的滑动窗口内第个种类字符的数量。
5、对每个滑动窗口利用canny算子边缘检测算法,检测出滑动窗口内的边缘像素点,并所有边缘像素点的集合记为P。
6、根据每个滑动窗口的边缘二值图像利用霍夫变换得到窗口内所有直线的集合;
统计每个滑动窗口内直线的个数,利用点斜式求取每条直线的斜率。
7、结合所有直线的集合和文本信息丰富度,计算每个滑动窗口内的笔画走势复杂指数:
具体通过以上公式进行计算,式中,为向上取整函数,为像素点作为中
心的滑动窗口的文本信息丰富度,为像素点作为中心的滑动窗口内直线的数目,和分别为第和第条直线的斜率;为一种判断准则,当第和第条直线为同一直
线时取值为0;当第和第条直线不是同一直线时取值为1。
8、基于区域边缘之间的空间邻近性以及文本信息丰富度相似性较强的特征,通过滑动窗口内边缘笔画内的结构特征,计算每个像素点的笔画相近指数:
具体通过以上公式进行计算,式中,为像素点作为中心的滑动窗口内像素点的
数目,为像素点与其作为中心的滑动窗口内第个像素点之间的欧式距离
函数,为像素点作为中心的滑动窗口的文本信息丰富度,为像素点作为中
心的滑动窗口内第个像素点的文本信息丰富度,为一种判断准则,当像素点时取值为1,当像素点时取值为0。
9、根据每个像素点的笔画走势复杂指数以及笔画相近指数,计算每个像素点的高斯环绕尺度参数。
如图4所示,在应用本发明实施例的一种用于互联网教学的视频图像增强方法时,可以参考以下流程:
步骤401、利用CMOS相机采集互联网教学视频图像的RGB图像;
步骤402、采用双边滤波对RGB图像进行去噪处理;
步骤403、将去噪后的RGB图像转化为灰度图像;
步骤404、利用透视变换技术对灰度图像进行校正修改,得到标准灰度图像;
步骤405、利用OCR文本识别算法提取标准灰度图像中的文本内容;
步骤406、分别以标准灰度图像中的每个像素点为中心建立15×15的滑动窗口;
步骤407、根据文本内容计算每个滑动窗口的文本信息丰富度;
步骤408、根据每个滑动窗口的边缘二值图像利用霍夫变换获取滑动窗口内的直线,并统计每个滑动窗口内直线的个数;
步骤409、利用点斜式求取每条直线的斜率;
步骤410、基于直线的个数、每条直线的斜率和文本信息丰富度计算每个像素点作为中心的滑动窗口的笔画走势复杂指数;
步骤411、利用canny算子边缘检测算法从每个滑动窗口中检测出边缘像素点,并将边缘像素点加入边缘集合;
步骤412、计算边缘像素点之间的欧式距离;
步骤413、基于欧式距离和文本信息丰富度计算每个像素点的笔画相近指数;
步骤414、根据笔画走势复杂指数和笔画相近指数计算每个像素点的高斯环绕尺度参数;
步骤415、根据每个像素点的高斯环绕尺度参数利用SSR算法对灰度图像进行图像增强。
需要说明的是,上述步骤的具体实现可以参考前述步骤S101-S107,本发明实施例不再赘述。
根据本发明实施例的技术方案,本发明实施例的一种用于互联网教学的视频图像增强方法,能够结合互联网教学视频图像中知识点区域的文字和字母的复杂性、文字边缘方向的复杂度以及知识点区域边缘上的相近程度,改进传统SSR算法中尺度参数的取值,进而对互联网教学视频的灰度图像进行不同区域给予不同效果的图像增强。同时,能够对互联网教学视频图像中知识点局部区域增强的程度较大、背景区域增强的程度相对较小,从而便于学生直观地学习知识点。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种用于互联网教学的视频图像增强方法,其特征在于,包括:
采集互联网教学视频图像的灰度图像,提取所述灰度图像中的文本内容;
分别以所述灰度图像中的每个像素点为中心建立滑动窗口;
根据所述文本内容计算每个所述滑动窗口的文本信息丰富度;
基于所述文本信息丰富度计算每个所述滑动窗口的笔画走势复杂指数;
从每个所述滑动窗口中检测出边缘像素点,计算所述边缘像素点之间的空间距离,基于所述文本信息丰富度和所述空间距离计算每个像素点的笔画相近指数;
根据所述笔画走势复杂指数和所述笔画相近指数计算每个所述像素点的高斯环绕尺度参数;
根据每个所述像素点的所述高斯环绕尺度参数利用SSR算法对所述灰度图像进行图像增强;
利用下述公式计算所述文本信息丰富度:
式中,为归一化函数;/>为像素点/>作为中心的所述滑动窗口内字符的种类数;为像素点/>作为中心的所述滑动窗口内第/>个种类字符的数量;
基于所述文本信息丰富度计算每个所述滑动窗口的笔画走势复杂指数,包括:
根据每个所述滑动窗口的边缘二值图像利用霍夫变换获取所述滑动窗口内的直线,并统计每个所述滑动窗口内直线的个数;
利用点斜式求取每条直线的斜率;
基于直线的个数、每条直线的斜率和所述文本信息丰富度计算每个像素点作为中心的所述滑动窗口的笔画走势复杂指数;
利用下述公式计算笔画走势复杂指数:
式中,为向上取整函数;/>为像素点/>作为中心的所述滑动窗口的所述文本信息丰富度;/>为像素点/>作为中心的所述滑动窗口内直线的数目;/>和/>分别为第/>和第条直线的斜率;/>为一种判断准则,当第/>和第/>条直线为同一直线时取值为0,当第和第/>条直线不是同一直线时取值为1;
从每个所述滑动窗口中检测出边缘像素点,计算所述边缘像素点之间的空间距离,基于所述文本信息丰富度和所述空间距离计算每个像素点的笔画相近指数,包括:
利用canny算子边缘检测算法从每个所述滑动窗口中检测出边缘像素点,并将所述边缘像素点加入边缘集合;
计算所述边缘像素点之间的欧式距离;
基于所述欧式距离和所述文本信息丰富度计算每个像素点的笔画相近指数;
利用下述公式计算每个像素点的笔画相近指数:
式中,为像素点/>作为中心的所述滑动窗口内像素点的数目;/>为像素点/>与其作为中心的所述滑动窗口内第/>个像素点之间的欧式距离函数;/>为像素点/>作为中心的所述滑动窗口的所述文本信息丰富度;/>为像素点/>作为中心的所述滑动窗口内第/>个像素点的所述文本信息丰富度;/>为一种判断准则,当像素点时取值为1,当像素点/>时取值为0;
利用下述公式计算每个像素点的高斯环绕尺度参数:
式中,为归一化函数;/>为像素点/>作为中心的所述滑动窗口的所述笔画走势复杂指数;/> 为像素点/>作为中心的所述滑动窗口的所述笔画相近指数;/>为尺度参数/>的最小值、取值为80;/>为尺度参数/>变化范围、取值为20。
2.根据权利要求1所述的用于互联网教学的视频图像增强方法,其特征在于,采集互联网教学视频图像的灰度图像,包括:
利用CMOS相机采集互联网教学视频图像的RGB图像;
采用双边滤波对所述RGB图像进行去噪处理;
将去噪后的所述RGB图像转化为灰度图像。
3.根据权利要求1所述的用于互联网教学的视频图像增强方法,其特征在于,提取所述灰度图像中的文本内容,包括:
利用透视变换技术对所述灰度图像进行校正修改,得到标准灰度图像;
利用OCR文本识别算法提取所述标准灰度图像中的文本内容。
4.根据权利要求3所述的用于互联网教学的视频图像增强方法,其特征在于,分别以所述灰度图像中的每个像素点为中心建立滑动窗口,包括:
分别以所述标准灰度图像中的每个像素点为中心建立15×15的滑动窗口。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310729939.0A CN116468640B (zh) | 2023-06-20 | 2023-06-20 | 一种用于互联网教学的视频图像增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310729939.0A CN116468640B (zh) | 2023-06-20 | 2023-06-20 | 一种用于互联网教学的视频图像增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116468640A CN116468640A (zh) | 2023-07-21 |
CN116468640B true CN116468640B (zh) | 2023-08-29 |
Family
ID=87179291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310729939.0A Active CN116468640B (zh) | 2023-06-20 | 2023-06-20 | 一种用于互联网教学的视频图像增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116468640B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704516B (zh) * | 2023-08-07 | 2023-10-24 | 山东禾之源现代农业发展有限公司 | 一种用于水溶肥料包装的视觉检测方法 |
CN116777918B (zh) * | 2023-08-25 | 2023-10-31 | 苏州科尔珀恩机械科技有限公司 | 一种视觉辅助窑炉表面缺陷快速检测方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5325447A (en) * | 1991-10-02 | 1994-06-28 | Environmental Research Institute Of Michigan | Handwritten digit normalization method |
US6671395B1 (en) * | 1999-10-15 | 2003-12-30 | D. Michael Ott | Document image processing with stroke preservation and background suppression |
US7043080B1 (en) * | 2000-11-21 | 2006-05-09 | Sharp Laboratories Of America, Inc. | Methods and systems for text detection in mixed-context documents using local geometric signatures |
CN102270340A (zh) * | 2011-09-05 | 2011-12-07 | 上海果壳电子有限公司 | 基于笔画算子的文本图像增强方法及系统 |
JP2013004094A (ja) * | 2011-06-16 | 2013-01-07 | Fujitsu Ltd | テキスト強調方法及び装置、並びにテキスト抽出方法及び装置 |
CN106156691A (zh) * | 2015-03-25 | 2016-11-23 | 中测高科(北京)测绘工程技术有限责任公司 | 复杂背景图像的处理方法及其装置 |
CN110853116A (zh) * | 2019-10-30 | 2020-02-28 | 天津大学 | 一种显著性增强的线条画自动生成方法 |
CN111507344A (zh) * | 2019-01-30 | 2020-08-07 | 北京奇虎科技有限公司 | 从图像中识别出文字的方法和装置 |
CN116071763A (zh) * | 2023-03-06 | 2023-05-05 | 山东薪火书业有限公司 | 基于文字识别的教辅图书智能校编系统 |
CN116071271A (zh) * | 2023-03-07 | 2023-05-05 | 深圳市熠华智能科技有限公司 | 一种用于平板电脑的图像捕获的分析方法 |
WO2023097931A1 (zh) * | 2021-12-03 | 2023-06-08 | 江苏航天大为科技股份有限公司 | 一种基于霍夫变换的车牌倾斜校正方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1459761B (zh) * | 2002-05-24 | 2010-04-21 | 清华大学 | 基于Gabor滤波器组的字符识别技术 |
-
2023
- 2023-06-20 CN CN202310729939.0A patent/CN116468640B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5325447A (en) * | 1991-10-02 | 1994-06-28 | Environmental Research Institute Of Michigan | Handwritten digit normalization method |
US6671395B1 (en) * | 1999-10-15 | 2003-12-30 | D. Michael Ott | Document image processing with stroke preservation and background suppression |
US7043080B1 (en) * | 2000-11-21 | 2006-05-09 | Sharp Laboratories Of America, Inc. | Methods and systems for text detection in mixed-context documents using local geometric signatures |
JP2013004094A (ja) * | 2011-06-16 | 2013-01-07 | Fujitsu Ltd | テキスト強調方法及び装置、並びにテキスト抽出方法及び装置 |
CN102270340A (zh) * | 2011-09-05 | 2011-12-07 | 上海果壳电子有限公司 | 基于笔画算子的文本图像增强方法及系统 |
CN106156691A (zh) * | 2015-03-25 | 2016-11-23 | 中测高科(北京)测绘工程技术有限责任公司 | 复杂背景图像的处理方法及其装置 |
CN111507344A (zh) * | 2019-01-30 | 2020-08-07 | 北京奇虎科技有限公司 | 从图像中识别出文字的方法和装置 |
CN110853116A (zh) * | 2019-10-30 | 2020-02-28 | 天津大学 | 一种显著性增强的线条画自动生成方法 |
WO2023097931A1 (zh) * | 2021-12-03 | 2023-06-08 | 江苏航天大为科技股份有限公司 | 一种基于霍夫变换的车牌倾斜校正方法 |
CN116071763A (zh) * | 2023-03-06 | 2023-05-05 | 山东薪火书业有限公司 | 基于文字识别的教辅图书智能校编系统 |
CN116071271A (zh) * | 2023-03-07 | 2023-05-05 | 深圳市熠华智能科技有限公司 | 一种用于平板电脑的图像捕获的分析方法 |
Non-Patent Citations (1)
Title |
---|
Adaptive Binarization for Degraded Document Image via Contrast Enhancement;Xueting Hu 等;《2019 14th IEEE Conference on Industrial Electronics and Applications (ICIEA)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116468640A (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116468640B (zh) | 一种用于互联网教学的视频图像增强方法 | |
EP3309703B1 (en) | Method and system for decoding qr code based on weighted average grey method | |
CN111915704A (zh) | 一种基于深度学习的苹果分级识别方法 | |
CN109657612B (zh) | 一种基于人脸图像特征的质量排序系统及其使用方法 | |
CN107680054A (zh) | 雾霾环境下多源图像融合方法 | |
CN104568986A (zh) | 基于surf算法的遥控器面板印刷缺陷自动检测方法 | |
CN107784669A (zh) | 一种光斑提取及其质心确定的方法 | |
CN106650770A (zh) | 一种基于样本学习和人眼视觉特性的mura缺陷检测方法 | |
CN109803172B (zh) | 一种直播视频的处理方法、装置及电子设备 | |
CN107256539B (zh) | 一种基于局部对比度的图像锐化方法 | |
CN109978854A (zh) | 一种基于边缘与结构特征的屏幕内容图像质量评估方法 | |
CN112861654B (zh) | 一种基于机器视觉的名优茶采摘点位置信息获取方法 | |
CN110020692A (zh) | 一种基于印刷体模板的手写体分离与定位方法 | |
CN111325688B (zh) | 融合形态学聚类优化大气光的无人机图像去雾方法 | |
CN114863492B (zh) | 一种低质量指纹图像的修复方法及修复装置 | |
CN108711160B (zh) | 一种基于hsi增强性模型的目标分割方法 | |
CN115880566A (zh) | 一种基于视觉分析的智能阅卷系统 | |
CN112288726A (zh) | 一种井下带式输送机带面异物检测方法 | |
CN111274863A (zh) | 一种基于文本山峰概率密度的文本预测方法 | |
CN113409254A (zh) | 一种针对模糊成像环境的印刷品缺陷检测方法 | |
CN105721738B (zh) | 一种彩色扫描文档图像预处理方法 | |
CN117197064A (zh) | 一种无接触眼红程度自动分析方法 | |
CN111445402A (zh) | 一种图像去噪方法及装置 | |
CN110619331A (zh) | 一种基于颜色距离的彩色影像字段定位方法 | |
CN113643216B (zh) | 一种基于计算机视觉的焊接图像增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Video Image Enhancement Method for Internet Teaching Effective date of registration: 20231107 Granted publication date: 20230829 Pledgee: Shandong Liangshan Rural Commercial Bank Co.,Ltd. Pledgor: Shandong zhengheda Education Technology Co.,Ltd. Registration number: Y2023980064516 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |