CN104835128A - 一种用于模糊视频文本信息增强的多光谱融合方法 - Google Patents
一种用于模糊视频文本信息增强的多光谱融合方法 Download PDFInfo
- Publication number
- CN104835128A CN104835128A CN201510186012.2A CN201510186012A CN104835128A CN 104835128 A CN104835128 A CN 104835128A CN 201510186012 A CN201510186012 A CN 201510186012A CN 104835128 A CN104835128 A CN 104835128A
- Authority
- CN
- China
- Prior art keywords
- value
- max
- sigma
- gray
- exp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 101100129500 Caenorhabditis elegans max-2 gene Proteins 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000002708 enhancing effect Effects 0.000 claims description 24
- 238000003064 k means clustering Methods 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种用于模糊视频文本信息增强的多光谱融合方法,包括以下步骤:步骤1,输入一个待增强文字信息的模糊视频帧;步骤2,将输入视频帧分别转化为灰度图、R值图、G值图和B值图,并分别进行简单的增强操作;步骤3,将灰度图、R值图、G值图和B值图的增强图按照最小值、最大值、和值、均值、中值操作融合成五幅图;步骤4,将五幅融合图分别进行k等于2的k-means操作,得到五幅二值图;步骤5,将五幅二值图按照中值操作融合成增强图,完成增强工作。
Description
技术领域
本发明涉及一种文本信息的增强方法,特别是一种用于模糊视频文本信息增强的多光谱融合方法。
背景技术
在图像处理、模式识别和视频文档分析领域,视频文本检测和识别是当前研究工作中的一项新兴分支。这对于一些实时应用是很有用的,比如:基于语义的事件检索、突出事件提取、盲人协助、安全驾驶、导航和监测。典型的算法有,鲁棒的二值化方法,超分辨率方法和提取降级不变特征等。
在视频文本检测和识别任务中,多种因素会影响检测和识别的结果,比如:光照、遮挡和退化等。因此,一个鲁棒的文本信息增强算法对于退化的视频文本检测和识别工作是很有必要的。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种用于模糊视频文本信息增强的多光谱融合方法,从而使模糊视频帧中的文本信息得到增强。
为了解决上述技术问题,本发明公开了一种用于模糊视频文本信息增强的多光谱融合方法,包括以下步骤:
步骤1,输入一个待增强文字信息的模糊视频帧作为目标视频帧,所述待增强文字信息的模糊视频帧由模糊的文字和非文字构成;
步骤2,将输入视频帧分别转化为四个通道图,分别是灰度图、R值图、G值图和B值图,分别计算各幅图的局部最小值和局部最大值,通过局部最大值和局部最小值计算得到四个通道图的简单增强图;
步骤3,将灰度图、R值图、G值图和B值图的简单增强图按照最小值、最大值、和值、均值、中值操作融合成五幅图;
步骤4,将五幅融合图分别进行k=2的k-means操作,得到五幅二值图;
步骤5,将五幅二值图按照中值操作融合成增强图,完成增强工作。
本发明步骤2中包括如下步骤:
将输入视频帧转化为灰度图、R值图、G值图、B值图,分别记为Igray(x,y),IR(x,y),IG(x,y)和IB(x,y),这里(x,y)代表图的像素点;
对于灰度图Igray(x,y),计算其局部最小值和局部最大值,分别记为Imin(x,y)和 Imax(x,y),计算公式为:
Imin(x,y)=min({I(xk,yk):(xk,yk)∈W}),
Imax(x,y)=max({I(xk,yk):(xk,yk)∈W}),
其中W表示以像素点(x,y)为圆心,两个像素为半径的圆形窗口,k表示窗口W内像素位置;
计算灰度图Igray(x,y)的增强图,公式为:
其中,μmin和μmax分别表示局部最小值图Imin(x,y)和局部最大值图Imax(x,y)的平均像素值,σmin和σmax分别表示局部最小值图Imin(x,y)和局部最大值图Imax(x,y)的像素值的标准差;
同样的方法求得IR(x,y),IG(x,y)和IB(x,y)的增强图,分别为ER(x,y),EG(x,y)和EB(x,y):
本发明步骤3中,所述最小值操作的计算方法如下:
fsMin(x,y)=min({Ej(xj,yj):j=1,2,3,4}),
其中Ej(xj,yj)按照j取值从1到4分别表示灰度增强图、R值增强图、G值增强图、B值增强图;
最大值操作的计算方法如下:
fsMax(x,y)=max({Ej(xj,yh):j=1,2,3,4}),
其中Ej(xj,yj)按照j取值从1到4分别表示灰度增强图、R值增强图、G值增强图、B值增强图;
和值操作的计算方法如下:
其中Ej(xj,yj)按照j取值从1到4分别表示灰度增强图、R值增强图、G值增强图、B值增强图;
均值操作的计算方法如下:
中值操作的计算方法如下:
fsMed=median({Ej(xj,yj):j=1,2,3,4}),
其中,median操作即取集合中元素的中位数;
本发明步骤5中,所述中值操作的计算方法如下:
F(x,y)=median({Br(xr,yr):r=1,2,3,4,5}),
其中Br(xr,yr)按照r取值从1到5分别表示最小值融合图、最大值融合图、和值融合图、均值融合图和中值融合图。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和或其他方面的优点将会变得更加清楚。
图1为本发明流程图。
图2为含有模糊文本信息的视频帧。
图3为最后的增强图。
具体实施方式:
本发明所述的一种用于模糊视频文本信息增强的多光谱融合方法的基本出发点是通过对模糊视频帧的多个通道分别进行增强,按照一定融合规则将几个通道的结果进行融合,对不同规则下的融合结果分别进行聚类操作,并再次进行融合,得到最终的图像增强结果。
下面结合附图对本发明做更加详细的解释:
如图1所示,步骤1,输入一个待增强文字信息的模糊视频帧作为目标视频帧,记为目标视频帧I。
步骤2,将目标视频帧分别转化为四个通道图,分别是灰度图、R值图、G值图、 B值图,分别记为Igray(x,y),IR(x,y),IG(x,y)和IB(x,y),这里(x,y)代表图的像素点。
步骤3,分别将灰度图、R值图、G值图和B值图做简单增强。对于灰度图Igray(x,y),计算其局部最小值和局部最大值,分别记为Imin(x,y)和Imax(x,y),计算公式为:
Imin(x,y)=min({I(xk,yk):(xk,yk)∈W}),
Imax(x,y)=max({I(xk,yk):(xk,yk)∈W}),
其中W表示以像素点(x,y)为圆心,两个像素为半径的圆形窗口;
计算灰度图Igray(x,y)的增强图,公式为:
其中,μmin和μmax分别表示局部最小值图Imin(x,y)和局部最大值图Imax(x,y)的平均像素值,σmin和σmax分别表示局部最小值图Imin(x,y)和局部最大值图Imax(x,y)的像素值的标准差;
同样的方法求得IR(x,y),IG(x,y)和IB(x,y)的增强图,分别为ER(x,y),EG(x,y)和EB(x,y):
步骤4,将灰度图、R值图、G值图和B值图的简单增强图按照最小值、最大值、和值、均值、中值操作融合成五幅融合图,分别记为fsMin(x,y),fsMax(x,y),fsSum(x,y),fsAvg(x,y)和fsMed(x,y)。
最小值操作的计算方法如下:
fsMin(x,y)=min({Ej(xj,yj):j=1,2,3,4}),
其中Ej(xj,yj)按照j取值从1到4分别表示灰度增强图、R值增强图、G值增强图、B值增强图;
最大值操作的计算方法如下:
fsMax(x,y)=max({Ej(xj,yj):j=1,2,3,4}),
和值操作的计算方法如下:
均值操作的计算方法如下:
中值操作的计算方法如下:
fsMed(x,y)=median({Ej(xj,yj):j=1,2,3,4}),
其中,median操作即取集合中元素的中位数;
步骤5,将五幅融合图分别进行k=2的k-means操作,得到五幅二值图;
步骤6,将五幅二值图按照中值操作融合成增强图。中值操作的计算方法如下
F(x,y)=median({Br(xr,yr):r=1,2,3,4,5}),
其中Br(xr,yr)按照r取值从1到5分别表示最小值融合图、最大值融合图、和值融合图、均值融合图和中值融合图。
步骤7,输出增强图。
实施例:
本实施例包括以下部分:
1.输入视频帧
本实例的数据集来自于ICDAR数据集以及通过相机采集的一些含有模糊文本信息的视频,总共包含200个视频帧。图2就是其中的一个视频帧。
2.多通道增强
将图2(由于本发明的特殊性不可避免的使用灰度照片)所示的目标视频帧分别转化为四个通道图,分别是灰度图、R值图、G值图、B值图,分别记为Igray(x,y),IR(x,y),IG(x,y)和IB(x,y)。然后将四个通道图分别进行简单的增强操作,这里对灰度图作说明。
对于灰度图Igray(x,y),计算其局部最小值和局部最大值,分别记为Imin(x,y)和 Imax(x,y),计算公式为:
Imin(x,y)=min({I(xk,yk):(xk,yk)∈W}),
Imax(x,y)=max({I(xk,yk):(xk,yk)∈W});
计算灰度图Igray(x,y)的增强图,公式为:
同样的方法求得IR(x,y),IG(x,y)和IB(x,y)的增强图,分别为ER(x,y),EG(x,y)和EB(x,y):
3.第一次融合
将灰度图、R值图、G值图和B值图的简单增强图按照最小值、最大值、和值、均值、中值操作融合成五幅融合图,分别记为fsMin(x,y),fsMax(x,y),fsSum(x,y),fsAvg(x,y)和fsMed(x,y)。
最小值操作的计算方法如下:
fsMin(x,y)=min({Ej(xj,yj):j=1,2,3,4}),
最大值操作的计算方法如下:
fsMax(x,y)=max({Ej(xj,yj):j=1,2,3,4}),
和值操作的计算方法如下:
均值操作的计算方法如下:
中值操作的计算方法如下:
fsMed(x,y)=median({Ej(xj,yj):j=1,2,3,4})。
4.聚类与第二次融合
将五幅融合图分别进行k=2的k-means操作,得到五幅二值图。然后将五幅二值图按照中值操作融合成最终的增强图。中值操作的计算方法如下:
F(x,y)=median({Br(xr,yr):r=1,2,3,4,5}),
如此得到最后的增强图,如图3所示。
本发明提供了一种用于模糊视频文本信息增强的多光谱融合方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (4)
1.一种用于模糊视频文本信息增强的多光谱融合方法,其特征在于,包括以下步骤:
步骤1,输入一个待增强文字信息的模糊视频帧作为目标视频帧,所述待增强文字信息的模糊视频帧包含有模糊的文字;
步骤2,将目标视频帧分别转化为四个通道图,分别是灰度图、R值图、G值图和B值图,分别计算各个通道图的局部最小值和局部最大值,通过局部最大值和局部最小值计算得到四个通道图的简单增强图;
步骤3,将灰度图、R值图、G值图和B值图的简单增强图按照最小值、最大值、和值、均值、中值操作融合成五幅图;
步骤4,将五幅融合图分别进行k=2的k-means聚类处理,得到五幅二值图;
步骤5,将五幅二值图按照中值操作融合成增强图,完成增强工作。
2.根据权利要求1所述的一种用于模糊视频文本信息增强的多光谱融合方法,其特征在于,步骤2中包括如下步骤:
将输入的目标视频帧转化为灰度图、R值图、G值图、B值图,分别记为Igray(x,y),IR(x,y),IG(x,y)和IB(x,y),其中(x,y)代表目标视频帧的像素点;
对于灰度图Igray(x,y),计算其局部最小值和局部最大值,分别记为Imin(x,y)和Imax(x,y),计算公式为:
Imin(x,y)=min({I(xk,yk):(xk,yk)∈W}),
Imax(x,y)=max({I(xk,yk):(xk,yk)∈W}),
其中W表示以像素点(x,y)为圆心,两个像素为半径的圆形窗口,k表示窗口W内像素位置;
计算灰度图Igray(x,y)的增强图Egray(x,y),公式为:
其中,μmin和μmax分别表示局部最小值图Imin(x,y)的平均像素值和局部最大值图Imax(x,y)的平均像素值,σmin和σmax分别表示局部最小值图Imin(x,y)的像素值的标准差和局部最大值图Imax(x,y)的像素值的标准差;
计算R值图IR(x,y),G值图IG(x,y)和B值图IB(x,y)的增强图,分别为ER(x,y),EG(x,y)和EB(x,y):
3.根据权利要求2所述的一种用于模糊视频文本信息增强的多光谱融合方法,其特征在于,步骤3中,所述最小值fsMin(x,y)操作的计算方法如下:
fsMin(x,y)=min({Ej(xj,yj):j=1,2,3,4}),
其中Ej(xj,yj)按照j取值从1到4分别表示灰度增强图、R值增强图、G值增强图、B值增强图;
最大值fsMax(x,y)操作的计算方法如下:
fsMax(x,y)=max({Ej(xj,yj):j=1,2,3,4}),
和值fsSum(x,y)操作的计算方法如下:
均值fsAvg(x,y)操作的计算方法如下:
中值fsMed(x,y)操作的计算方法如下:
fsMed(x,y)=median({Ej(xj,yj):j=1,2,3,4})。
4.根据权利要求3所述的一种用于模糊视频文本信息增强的多光谱融合方法,其特征在于,步骤5中,所述中值F(x,y)操作的计算方法如下:
F(x,y)=median({Br(xr,yr):r=1,2,3,4,5}),
其中Br(xr,yr)按照r取值从1到5分别表示最小值融合图、最大值融合图、和值融合图、均值融合图和中值融合图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510186012.2A CN104835128B (zh) | 2015-04-17 | 2015-04-17 | 一种用于模糊视频文本信息增强的多光谱融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510186012.2A CN104835128B (zh) | 2015-04-17 | 2015-04-17 | 一种用于模糊视频文本信息增强的多光谱融合方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104835128A true CN104835128A (zh) | 2015-08-12 |
CN104835128B CN104835128B (zh) | 2017-05-24 |
Family
ID=53812998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510186012.2A Expired - Fee Related CN104835128B (zh) | 2015-04-17 | 2015-04-17 | 一种用于模糊视频文本信息增强的多光谱融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104835128B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107424137A (zh) * | 2017-08-01 | 2017-12-01 | 深信服科技股份有限公司 | 一种文本增强方法及装置、计算机装置、可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101453575A (zh) * | 2007-12-05 | 2009-06-10 | 中国科学院计算技术研究所 | 一种视频字幕信息提取方法 |
CN101951523A (zh) * | 2010-09-21 | 2011-01-19 | 北京工业大学 | 一种自适应彩色图像处理方法及系统 |
CN103106644A (zh) * | 2013-02-02 | 2013-05-15 | 南京理工大学 | 克服彩色图像非均匀光照的自适应画质增强方法 |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
-
2015
- 2015-04-17 CN CN201510186012.2A patent/CN104835128B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101453575A (zh) * | 2007-12-05 | 2009-06-10 | 中国科学院计算技术研究所 | 一种视频字幕信息提取方法 |
CN101951523A (zh) * | 2010-09-21 | 2011-01-19 | 北京工业大学 | 一种自适应彩色图像处理方法及系统 |
CN103106644A (zh) * | 2013-02-02 | 2013-05-15 | 南京理工大学 | 克服彩色图像非均匀光照的自适应画质增强方法 |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
Non-Patent Citations (2)
Title |
---|
MARCAL RUSINOL ET AL: "Combining Focus Measure Operators to Predict OCR Accuracy in Mobile一Captured Document Images", 《2014 11TH IAPR INTERNATIONAL WORKSHOP ON DOCUMENT ANALYSIS SYSTEMS》 * |
SAJID SALEEM,ROBERT SABLATNIG: "A Robust SIFT Descriptor for Multispectral Images", 《IEEE SIGNAL PROCESSING LETTERS》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107424137A (zh) * | 2017-08-01 | 2017-12-01 | 深信服科技股份有限公司 | 一种文本增强方法及装置、计算机装置、可读存储介质 |
CN107424137B (zh) * | 2017-08-01 | 2020-06-19 | 深信服科技股份有限公司 | 一种文本增强方法及装置、计算机装置、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104835128B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Muthalagu et al. | Lane detection technique based on perspective transformation and histogram analysis for self-driving cars | |
Patel et al. | Optical character recognition by open source OCR tool tesseract: A case study | |
CN102208023B (zh) | 基于边缘信息和分布熵的视频字幕识别设计方法 | |
Karwal et al. | Vehicle number plate detection system for indian vehicles | |
CN104299009B (zh) | 基于多特征融合的车牌字符识别方法 | |
EP2645305A2 (en) | A system and method for processing image for identifying alphanumeric characters present in a series | |
Al Faqheri et al. | A real-time Malaysian automatic license plate recognition (M-ALPR) using hybrid fuzzy | |
Abdellatif et al. | A low cost IoT-based Arabic license plate recognition model for smart parking systems | |
Hatolkar et al. | A survey on road traffic sign recognition system using convolution neural network | |
Rehman et al. | An efficient approach for vehicle number plate recognition in Pakistan | |
Devadethan et al. | Face detection and facial feature extraction based on a fusion of knowledge based method and morphological image processing | |
CN105551044A (zh) | 一种图片对比方法和装置 | |
CN107977648A (zh) | 一种基于人脸识别的身份证清晰度的判别方法和系统 | |
CN102521582A (zh) | 一种适用于低对比度视频的人体上半身检测及分割的方法 | |
Salahshoor et al. | Application of intelligent systems for iranian license plate recognition | |
Mahatme et al. | Detection and recognition of traffic signs based on RGB to red conversion | |
Arsenovic et al. | Deep learning driven plates recognition system | |
CN104835128A (zh) | 一种用于模糊视频文本信息增强的多光谱融合方法 | |
Ahmed et al. | Developing an algorithm for sequential sorting of discrete and connected characters using image processing of multi-line license plates | |
Jalil et al. | The utilization of template matching method for license plate recognition: A case study in Malaysia | |
Hashem et al. | Comparative study of different binarization methods through their effects in characters localization in scene images | |
Wibirama et al. | Long distance Automatic Number Plate Recognition under perspective distortion using zonal density and Support Vector Machine | |
Chandra et al. | An automated system to detect and recognize vehicle license plates of Bangladesh | |
Revathi et al. | Indian sign board recognition using image processing techniques | |
Swathika et al. | Emergency exit sign detection system for visually impaired people |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170524 |