CN111310757A - 视频弹幕检测识别方法及装置 - Google Patents
视频弹幕检测识别方法及装置 Download PDFInfo
- Publication number
- CN111310757A CN111310757A CN202010082625.2A CN202010082625A CN111310757A CN 111310757 A CN111310757 A CN 111310757A CN 202010082625 A CN202010082625 A CN 202010082625A CN 111310757 A CN111310757 A CN 111310757A
- Authority
- CN
- China
- Prior art keywords
- bullet screen
- image
- network
- characters
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000000306 recurrent effect Effects 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013434 data augmentation Methods 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 11
- 230000003416 augmentation Effects 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 7
- 230000001629 suppression Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 10
- 238000012360 testing method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004630 mental health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例提供一种视频弹幕检测识别方法及装置,所述方法包括:将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;本发明实施例采用层次化的双层设计,分别利用TextBoxes++检测网络和CRNN网络实现视频弹幕文本检测和视频弹幕文本识别,从而使得本发明实施例既能满足视频弹幕文本检测的速度,又能满足视频弹幕文本识别的精度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种视频弹幕检测识别方法及装置。
背景技术
生活在互联网时代,网络与人们的生活越来越密不可分。网络给人们带来便利的同时,也埋藏着一些安全隐患,净化网络环境,维护网络安全势在必行。网络安全产业与人工智能等新技术的融合趋势正日趋明显。随着各种视频软件的普及,人们开始热衷于在观影时分享自己的感受,“弹幕”也成为各视频运营商吸引用户的一种有利手段,但与此同时,也不乏一些危害人民身心健康的言论的传播。截止到现在,人们对于视频弹幕净化的需求更加的急切,因为弹幕可以方便人们对于视频观影感受的实时分享,创造一个文明的视频弹幕环境有赖于新技术的发展。然而与一般文字检测识别相比,视频弹幕检测技术的难点在于场景中的文字方向多变、多种比例、字小。
随着现在图像处理技术的进步和相关领域(人工智能和模式识别技术)慢慢发展,还有高速的数字信号处理器的开发,让自动识别成为了可能。但是在复杂背景下视频弹幕文字检测识别方面,还没有形成一个比较成熟的理论和方法,所以现在急需发明一种针对复杂背景下视频弹幕文字的检测识别方法。
发明内容
针对现有技术中的问题,本发明实施例提供一种视频弹幕检测识别方法及装置。
具体地,本发明实施例提供了以下技术方案:
第一方面,本发明实施例提供了一种视频弹幕检测识别方法,包括:
将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;
基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;
其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
进一步地,所述将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息,具体包括:
修改TextBoxes++网络的长宽比约束条件,使得修改后的TextBoxes++网络适用检测各种长宽比条件下的文本信息;
利用预先准备的带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像对修改后的TextBoxes++网络进行训练,得到训练好的TextBoxes++网络;
将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,得到弹幕文字检测框,并获取所述弹幕文字检测框中弹幕文字的坐标信息。
进一步地,所述修改TextBoxes++网络的长宽比约束条件,具体包括:
将TextBoxes++网络的aspect ratio修改为{2,5,7,9,10}。
进一步地,所述将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,具体包括:
将待测图像使用滑窗方式切分成多个图像块,将多个图像块依次输入至训练好的TextBoxes++网络进行弹幕文字的检测。
进一步地,在得到弹幕文字检测框之后,所述方法还包括:
设置检测框置信度评分阈值,将得到的弹幕文字检测框利用非极大值抑制的算法,过滤掉重叠度不满足所述置信度评分阈值约束条件的弹幕文字检测框,以保留满足约束条件的弹幕文字检测框。
进一步地,在获取所述弹幕文字的文本识别结果之后,所述方法还包括:
将所述弹幕文字的文本识别结果与预设不文明字库进行匹配,当匹配成功时,发出警示信息,记录并存储所述弹幕文字出现的时间信息、坐标信息和文本识别结果信息。
进一步地,所述方法还包括:
对带有弹幕的视频进行单帧截图操作,以形成原始数据集;
对所述原始数据集中的图像,进行弹幕文字位置和弹幕文字内容进行标注;
对完成标注的图像进行数据增广;
将进行数据增广后的图像作为所述视频弹幕样本图像;
其中,对完成标注的图像进行数据增广,具体包括:
对完成标注的图像按照第一关系模型进行亮度增广和对比度增广;所述第一关系模型为g(x,y)=a*f(x,y)+b;
其中,f(x,y)表示源图像x行、y列的像素;g(x,y)表示输出图像x行、y列的像素;a表示增益,用来控制图像的对比度;b表示偏置,用来控制图像的亮度。
第二方面,本发明实施例还提供了一种视频弹幕检测识别装置,包括:
检测模块,用于将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;
识别模块,用于基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;
其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述视频弹幕检测识别方法的步骤。
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所述视频弹幕检测识别方法的步骤。
由上面技术方案可知,本发明实施例提供的视频弹幕检测识别方法及装置为一种基于双层深度结构的视频弹幕检测识别技术,第一层采用TextBoxes++网络进行视频弹幕中文字检测,第二层采用CRNN网络进行文字识别。本发明实施例采用层次化的双层设计,将检测和识别进行分离,分别利用TextBoxes++检测网络和CRNN网络实现视频弹幕文本检测和视频弹幕文本识别,从而使得本发明实施例既能满足视频弹幕文本检测的速度,又能满足视频弹幕文本识别的精度。本发明实施例尤其对于背景复杂、文字占比小的视频图像,既能够有效控制计算量又能够提高文字识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的视频弹幕检测识别方法的流程图;
图2为本发明一实施例提供的视频弹幕检测识别方法的总流程图;
图3为本发明一实施例提供的视频弹幕检测识别装置的结构示意图;
图4为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,传统方法中,如基于连接组建的CC的方法,尤其是基于最大稳定极值区(MSER),这些方法通产采用自下而上的策略,并且通常需要几个步骤来检测文本,由于每个步骤都可能导致错误分类,因此这些传统的文本检测方法的性能很差;深度学习方法中,单一网络无法同时满足检测速度和识别精度。本发明实施例针对以上缺点采用层次化的双层设计:第一层采用TextBoxes++网络进行视频弹幕中文字条的检测,再将待识别图像切片送入第二层识别网络,第二层采用CRNN网络进行文字识别。本发明实施例尤其对于背景复杂、文字占比小的视频单帧图像,既能有效的控制计算量又能提高文字的识别精准度。下面将通过具体实施例对本发明提供的视频弹幕检测识别方法及装置进行解释说明。
图1示出了本发明实施例提供的视频弹幕检测识别方法的流程图。如图1所示,本发明实施例提供的视频弹幕检测识别方法包括如下步骤:
步骤101:将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;
步骤102:基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;
其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
在本实施例中,基于层次化的双层设计,第一层采用TextBoxes++检测网络进行文本检测,此网络较SSD网络而言,TextBoxes++采用了全卷积结构,因此可以适应不同尺度目标,为了适应不同尺度目标,采用了多尺度训练,同时,TextBoxes++可以采用3x5的卷积核,以更好的适应长宽比更大的文字,这种方形的感受野带来的噪声信号也可以被避免;较OCR文字识别而言,TextBoxes++不需要对文字区域进行分割,拆分成不同的字符再进行检测,而可以直接检测较长的文本。针对包含较长文字条的图像,此网络能够较为精准的进行文字检测。
在本实施例中,基于层次化的双层设计,第二层采用卷积循环神经网络CRNN识别网络进行文字识别,CRNN网络可以直接从序列标签学习,有着不需要详细进行标注的特点,选用CRNN网络进行复杂背景中文字条的识别,这个系统与现有系统相比,在复杂背景文本识别中获得了更好、更加具有竞争力的表现,能够较为精准的进行文字识别。此外,CRNN网络是一种端对端直接识别的网络,它不需要进行字符分割和水平缩放操作,只需要垂直方向缩放到固定长度即可,同时可以识别任意长度的序列。与传统识别网络相比,它不需要对文字进行分割,一个字一个字的识别,而可以直接识别一定长度序列的文字。
由上面技术方案可知,本发明实施例提供的视频弹幕检测识别方法为一种基于双层深度结构的视频弹幕检测识别技术,第一层采用TextBoxes++网络进行视频弹幕中文字检测,第二层采用CRNN网络进行文字识别。本发明实施例采用层次化的双层设计,将检测和识别进行分离,分别利用TextBoxes++检测网络和CRNN网络实现视频弹幕文本检测和视频弹幕文本识别,从而使得本发明实施例既能满足视频弹幕文本检测的速度,又能满足视频弹幕文本识别的精度。本发明实施例尤其对于背景复杂、文字占比小的视频图像,既能够有效控制计算量又能够提高文字识别的精度。
基于上述实施例的内容,在本实施例中,所述步骤101将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息,具体包括:
修改TextBoxes++网络的长宽比约束条件,使得修改后的TextBoxes++网络适用检测各种长宽比条件下的文本信息;
利用预先准备的带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像对修改后的TextBoxes++网络进行训练,得到训练好的TextBoxes++网络;
将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,得到弹幕文字检测框,并获取所述弹幕文字检测框中弹幕文字的坐标信息。
在本实施例中,修改TextBoxes++网络的长宽比约束条件,使得修改后的TextBoxes++网络适用检测各种长宽比条件下的文本信息,从而使得可以检测到较长的文字条。例如,TextBoxes++网络的初始长宽比约束条件为{1,2,3,5,1/2,1/3,1/5},在本实施例中,可以将TextBoxes++网络的长宽比约束条件aspect ratio修改为{2,5,7,9,10},从而使得修改后的TextBoxes++网络能够检测较长的文字条。
在本实施例中,第一层检测深度网络使用TextBoxes++网络,将网络的aspectratio修改为{2,5,7,9,10},即修改bounding boxes的长宽比,以便检测较长的文字条。这个网络使用了很密集的默认框来更好的检测到文本,并且根据这个文本区域的特点,使用了长卷积核来更好的提取文本的特征。
基于上述实施例的内容,在本实施例中,所述将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,具体包括:
将待测图像使用滑窗方式切分成多个图像块,将多个图像块依次输入至训练好的TextBoxes++网络进行弹幕文字的检测。
在本实施例中,由于待测图像为视频图像,其分辨率一般较高,而所用的TextBoxes++网络的输入较小,为解决该问题,本实施例将原始图像使用滑窗方式切分成多个图像块,例如可以切分成四个图像块,每个图像块大小设置为原始图像的四分之一,滑动起始点即图像的左上角;滑动步长与窗口边长相等,然后依次将各图像块送入已训练好的TextBoxes++网络,依次对每个图像块进行弹幕文字检测,得到一个包含目标框坐标信息的文档。
基于上述实施例的内容,在本实施例中,在得到弹幕文字检测框之后,所述方法还包括:
设置检测框置信度评分阈值,将得到的弹幕文字检测框利用非极大值抑制的算法,过滤掉重叠度不满足所述置信度评分阈值约束条件的弹幕文字检测框,以保留满足约束条件的弹幕文字检测框。
在本实施例中,设置检测框置信度评分阈值,将得到的弹幕文字检测框利用非极大值抑制的算法,过滤掉重叠度较大的预测框,保留最佳弹幕文字检测框,从而可以提高检测的准确度。
基于上述实施例的内容,在本实施例中,在获取所述弹幕文字的文本识别结果之后,所述方法还包括:
将所述弹幕文字的文本识别结果与预设不文明字库进行匹配,当匹配成功时,发出警示信息,记录并存储所述弹幕文字出现的时间信息、坐标信息和文本识别结果信息。
在本实施例中,将所述弹幕文字的文本识别结果与预设不文明字库进行匹配,当识别到有类似弹幕出现时,发出警示:记录这些不文明弹幕的相关信息,并将这些不文明弹幕出现的时间、位置坐标和文本识别结果存放在一个新文档中,用于后续统计和对于不文明弹幕的处理使用。
基于上述实施例的内容,在本实施例中,所述方法还包括:
对带有弹幕的视频进行单帧截图操作,以形成原始数据集;
对所述原始数据集中的图像,进行弹幕文字位置和弹幕文字内容进行标注;
对完成标注的图像进行数据增广;
将进行数据增广后的图像作为所述视频弹幕样本图像;
其中,对完成标注的图像进行数据增广,具体包括:
对完成标注的图像按照第一关系模型进行亮度增广和对比度增广;所述第一关系模型为g(x,y)=a*f(x,y)+b;
其中,f(x,y)表示源图像x行、y列的像素;g(x,y)表示输出图像x行、y列的像素;a表示增益,用来控制图像的对比度;b表示偏置,用来控制图像的亮度。
在本实施例中,由于没有关于视频弹幕的公开的数据集,本实施例制备了一种针对视频弹幕检测识别的数据集,首先对复杂背景下使用中的视频进行单帧截图操作,构成原始数据集。然后使用labelme对图像中的弹幕文字位置和内容进行标注。由于视频弹幕中的文字一般都是正的,所以在此仅对图像进行亮度增广。对图像对比度和亮度的调整的第一关系模型为g(x,y)=a*f(x,y)+b;其中,f(x,y)表示源图像x行、y列的像素;g(x,y)表示输出图像x行、y列的像素;a表示增益,用来控制图像的对比度;b表示偏置,用来控制图像的亮度。
在本实施例中,需要说明的是,对图像进行亮度和对比度的增强或减弱处理,除扩充样本集数量外,多角度、多方向、多层次的训练样本也可以让训练所得的模型有更强的适应性。
此外,对所有的图像完成文字标注和数据增广后,可以将数据集按照9:1的比例随机分成训练集和测试集,然后利用训练集合测试集对TextBoxes++网络和CRNN网络进行训练。
由此可见,在本实施例中,由于不存在关于视频弹幕的公开的数据集,本实施例设法制作了一种针对视频弹幕检测识别的数据集,首先对使用中的视频进行单帧截图操作,并用四边形框对截取的图片进行弹幕文字位置及文本的标注,然后进行了数据增广,并将数据集按比例随机分成训练集和测试集两个子集,从而形成了用于模型训练用的样本数据。
下面对本实施例提供的视频弹幕检测识别方法的实现过程进行介绍:
S1、按照上面实施例介绍的方式制备视频弹幕数据集,并将数据集分为训练集和测试集;
S2、修改TextBoxes++网络的长宽比约束条件,使得修改后的TextBoxes++网络适用检测各种长宽比条件下的文本信息;
S3、利用所述训练集对修改后的TextBoxes++网络进行训练,并利用所述测试集对训练后的TextBoxes++网络进行测试,直至训练成功,得到训练好的TextBoxes++网络;
S4、将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,得到弹幕文字的坐标信息;
S5、利用所述训练集对卷积循环神经网络CRNN网络进行训练,并利用所述测试集对训练后的CRNN网络进行测试,直至训练成功,得到训练好的CRNN网络;
S6、基于所述弹幕文字的坐标信息对包含弹幕文字的图片进行切片处理,并将切片输入至训练好的CRNN网络中进行对弹幕文字的识别,得到弹幕文字的文本识别结果。
图2示出了本实施例提供的视频弹幕检测识别方法的更为详细的总流程图。如图2所示,本实施例提供的视频弹幕检测识别方法共包括以下三大部分,分别为:数据集的制备、基于TextBoxes++深度网络的文本检测和基于CRNN深度网络的识别警示。下面结合图2对本实施例提供的视频弹幕检测识别方法的实现过程进行详细说明。
第1步:数据集的制备
第1.1步数据标注
由于网上没有关于视频弹幕的公开的数据集,本专利制作了一种针对视频弹幕检测识别的数据集。首先对复杂背景下使用中的视频进行单帧截图操作,构成原始数据集。然后使用labelme对图像中的弹幕文字位置和内容进行标注。
第1.2步数据增广
由于视频弹幕中的文字一般都是正的,所以在此仅对图像进行亮度增广。对图像对比度和亮度的调整的计算公式为:
g(x,y)=a*f(x,y)+b
其中f(x,y)表示源图像x行、y列的像素;g(x,y)表示输出图像x行、y列的像素;a表示增益,用来控制图像的对比度;b表示偏置,用来控制图像的亮度。
对图像进行亮度增强或减弱处理,除扩充样本集数量外,多角度、多方向、多层次的训练样本也可以让训练所得的模型有更强的适应性。
第1.3步数据集划分
对所有的图像完成文字标注和增广后,将数据集按照9:1的比例随机分成训练集和测试集。
第2步:基于TextBoxes++深度网络的文本检测
第2.1步对TextBoxes++网络进行修改并训练
为检测更长的弹幕,将aspect ratio修改为{2,5,7,9,10},即修改boundingboxes的长宽比,并用1.3步所得的训练集对TextBoxes++网络进行训练,得到训练好的TextBoxes++网络。
第2.2步检测文本
由于视频图像的分辨率较高,而所用网络的输入较小,将原始图像使用滑窗方式切分成四个图像块。每个图像块大小设置为原始图像的四分之一;滑动起始点即图像的左上角;滑动步长与窗口边长相等。
再依次将图像块送入已训练好的TextBoxes++网络,依次对每个图像块进行弹幕文字检测,得到一个包含目标框坐标信息的文档。
第2.3步基于非极大值抑制的合并筛选
设置检测框置信度评分阈值,将2.2步得到的预测框利用非极大值抑制的算法,过滤掉重叠度较大的预测框,保留最佳预测边框。
第3步:基于CRNN深度网络的识别警示
第3.1步网络训练
用1.3步所得的训练集对CRNN网络进行训练,得到训练好的CRNN网络。
第3.2步待识别图片切片截取并识别
读取经检测网络得到的坐标信息文件,基于这些坐标对图片进行切片处理。
将切片送入已经训练好的CRNN网络,对弹幕文字条切片进行识别,得到一个包含文本信息的文档。
第3.3步文本警示
将3.2步得到的文本信息文档与预先准备的不文明字库中词语进行匹配,当识别到有类似弹幕出现时,发出警示:记录这些不文明弹幕的相关信息,并将这些不文明弹幕出现的时间、位置坐标和文本信息存放在一个新文档中。
本实施例提供的方法与现有检测方法相比具有以下优点:
1、传统方法中,如基于连接组建的CC的方法,尤其是基于最大稳定极值区(MSER),这些方法通产采用自下而上的策略,并且通常需要几个步骤来检测文本,由于每个步骤都可能导致错误分类,因此这些传统的文本检测方法的性能很差;深度学习方法中,单一网络无法同时满足检测速度和识别精度。本实施例针对以上缺点采用层次化的双层设计:第一层采用TextBoxes++网络进行视频弹幕中文字条的检测,再将待识别图像切片送入第二层识别网络,第二层采用CRNN网络进行文字识别。本实施例对于背景复杂、文字占比小的视频单帧图像,既能有效的控制计算量又能提高文字的识别精准度。
2、基于层次化的双层设计,第一层采用TextBoxes++检测网络进行文本检测,此网络较SSD网络而言,TextBoxes++采用了全卷积结构,因此可以适应不同尺度目标,为了适应不同尺度目标,采用了多尺度训练,同时,TextBoxes++采用了3x5的卷积核,可以更好的适应长宽比更大的文字,这种方形的感受野带来的噪声信号也可以被避免;较OCR文字识别而言,TextBoxes++不需要对文字区域进行分割,拆分成不同的字符再进行检测,而可以直接检测较长的文本。针对包含较长文字条的图像,此网络能够较为精准的进行文字检测。此外,利用深度学习方法对图像进行检测和识别具有不需要花大量时间去设计字符特征的优势。
3、基于层次化的双层设计,第二层采用CRNN识别网络进行文字识别,这个系统可以直接从序列标签学习,有着不需要详细进行标注的特点,选用CRNN网络进行复杂背景中文字条的识别,这个系统与现有系统相比,在复杂背景文本识别中获得了更好、更加具有竞争力的表现,能够较为精准的进行文字识别。
图3示出了本发明实施例提供的视频弹幕检测识别装置的结构示意图。如图3所示,本发明实施例提供的视频弹幕检测识别装置包括:检测模块21和识别模块22,其中:
检测模块21,用于将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;
识别模块22,用于基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;
其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
由于本发明实施例提供的视频弹幕检测识别装置,可以用于执行上述实施例所述的视频弹幕检测识别方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
基于相同的发明构思,本发明又一实施例提供了一种电子设备,参见图4,所述电子设备具体包括如下内容:处理器301、存储器302、通信接口303和通信总线304;
其中,所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信;
所述处理器301用于调用所述存储器302中的计算机程序,所述处理器执行所述计算机程序时实现上述视频弹幕检测识别方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
基于相同的发明构思,本发明又一实施例提供了一种非暂态计算机可读存储介质,该非暂态计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述视频弹幕检测识别方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述过程:将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
可以理解的是,所述计算机程序可以执行的细化功能和扩展功能可参照上面实施例的描述。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的视频弹幕检测识别方法。
此外,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
此外,在本发明中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种视频弹幕检测识别方法,其特征在于,包括:
将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;
基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;
其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
2.根据权利要求1所述的视频弹幕检测识别方法,其特征在于,所述将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息,具体包括:
修改TextBoxes++网络的长宽比约束条件,使得修改后的TextBoxes++网络适用检测各种长宽比条件下的文本信息;
利用预先准备的带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像对修改后的TextBoxes++网络进行训练,得到训练好的TextBoxes++网络;
将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,得到弹幕文字检测框,并获取所述弹幕文字检测框中弹幕文字的坐标信息。
3.根据权利要求2所述的视频弹幕检测识别方法,其特征在于,所述修改TextBoxes++网络的长宽比约束条件,具体包括:
将TextBoxes++网络的aspect ratio修改为{2,5,7,9,10}。
4.根据权利要求2所述的视频弹幕检测识别方法,其特征在于,所述将待测图像输入至训练好的TextBoxes++网络进行弹幕文字的检测,具体包括:
将待测图像使用滑窗方式切分成多个图像块,将多个图像块依次输入至训练好的TextBoxes++网络进行弹幕文字的检测。
5.根据权利要求2或4所述的视频弹幕检测识别方法,其特征在于,在得到弹幕文字检测框之后,所述方法还包括:
设置检测框置信度评分阈值,将得到的弹幕文字检测框利用非极大值抑制的算法,过滤掉重叠度不满足所述置信度评分阈值约束条件的弹幕文字检测框,以保留满足约束条件的弹幕文字检测框。
6.根据权利要求1所述的视频弹幕检测识别方法,其特征在于,在获取所述弹幕文字的文本识别结果之后,所述方法还包括:
将所述弹幕文字的文本识别结果与预设不文明字库进行匹配,当匹配成功时,发出警示信息,记录并存储所述弹幕文字出现的时间信息、坐标信息和文本识别结果信息。
7.根据权利要求1所述的视频弹幕检测识别方法,其特征在于,所述方法还包括:
对带有弹幕的视频进行单帧截图操作,以形成原始数据集;
对所述原始数据集中的图像,进行弹幕文字位置和弹幕文字内容进行标注;
对完成标注的图像进行数据增广;
将进行数据增广后的图像作为所述视频弹幕样本图像;
其中,对完成标注的图像进行数据增广,具体包括:
对完成标注的图像按照第一关系模型进行亮度增广和对比度增广;所述第一关系模型为g(x,y)=a*f(x,y)+b;
其中,f(x,y)表示源图像x行、y列的像素;g(x,y)表示输出图像x行、y列的像素;a表示增益,用来控制图像的对比度;b表示偏置,用来控制图像的亮度。
8.一种视频弹幕检测识别装置,其特征在于,包括:
检测模块,用于将待测图像输入至预先训练好的TextBoxes++网络中进行弹幕文字的检测,获取所述待测图像中弹幕文字的坐标信息;
识别模块,用于基于所述弹幕文字的坐标信息对包含弹幕文字的图像区域进行切片处理,并将切片图像输入至预先训练好的卷积循环神经网络CRNN网络中进行对弹幕文字的识别,获取所述弹幕文字的文本识别结果;
其中,所述预先训练好的TextBoxes++网络和预先训练好的CRNN网络为预先采用带有弹幕文字位置和弹幕文字内容标注信息的视频弹幕样本图像进行训练后得到的。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述视频弹幕检测识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述视频弹幕检测识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082625.2A CN111310757B (zh) | 2020-02-07 | 2020-02-07 | 视频弹幕检测识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010082625.2A CN111310757B (zh) | 2020-02-07 | 2020-02-07 | 视频弹幕检测识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310757A true CN111310757A (zh) | 2020-06-19 |
CN111310757B CN111310757B (zh) | 2023-08-11 |
Family
ID=71161757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010082625.2A Active CN111310757B (zh) | 2020-02-07 | 2020-02-07 | 视频弹幕检测识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310757B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836693A (zh) * | 2021-02-04 | 2021-05-25 | 北京秒针人工智能科技有限公司 | 一种光学字符识别重复检测方法和系统 |
CN113449728A (zh) * | 2021-07-21 | 2021-09-28 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN115190369A (zh) * | 2022-09-09 | 2022-10-14 | 北京达佳互联信息技术有限公司 | 视频生成方法、视频生成装置、电子设备、介质及产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109902622A (zh) * | 2019-02-26 | 2019-06-18 | 中国科学院重庆绿色智能技术研究院 | 一种用于登机牌信息验证的文字检测识别方法 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
-
2020
- 2020-02-07 CN CN202010082625.2A patent/CN111310757B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109165697A (zh) * | 2018-10-12 | 2019-01-08 | 福州大学 | 一种基于注意力机制卷积神经网络的自然场景文字检测方法 |
CN109902622A (zh) * | 2019-02-26 | 2019-06-18 | 中国科学院重庆绿色智能技术研究院 | 一种用于登机牌信息验证的文字检测识别方法 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
Non-Patent Citations (2)
Title |
---|
周铂焱等: "基于神经网络的自然场景方向文本检测器" * |
李伟冲: "基于改进TextBoxes++的多方向场景文字识别算法的研究" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836693A (zh) * | 2021-02-04 | 2021-05-25 | 北京秒针人工智能科技有限公司 | 一种光学字符识别重复检测方法和系统 |
CN113449728A (zh) * | 2021-07-21 | 2021-09-28 | 北京有竹居网络技术有限公司 | 一种文字识别方法及其相关设备 |
CN115190369A (zh) * | 2022-09-09 | 2022-10-14 | 北京达佳互联信息技术有限公司 | 视频生成方法、视频生成装置、电子设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN111310757B (zh) | 2023-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6831480B2 (ja) | テキスト検出分析方法、装置及びデバイス | |
CN110738207B (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN108121986B (zh) | 目标检测方法及装置、计算机装置和计算机可读存储介质 | |
CN108764085B (zh) | 基于生成对抗网络的人群计数方法 | |
CN105868758B (zh) | 图像中文本区域检测方法、装置及电子设备 | |
DE102018008161A1 (de) | Detektieren von Objekten unter Nutzung eines schwach überwachten Modells | |
CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
CN111310757B (zh) | 视频弹幕检测识别方法及装置 | |
CN108108731B (zh) | 基于合成数据的文本检测方法及装置 | |
CN110310264A (zh) | 一种基于dcnn的大尺度目标检测方法、装置 | |
CN113158808A (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN111383244B (zh) | 一种目标检测跟踪方法 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN112464797A (zh) | 一种吸烟行为检测方法、装置、存储介质及电子设备 | |
CN110599453A (zh) | 一种基于图像融合的面板缺陷检测方法、装置及设备终端 | |
CN114330234A (zh) | 版面结构分析方法、装置、电子设备和存储介质 | |
Harding et al. | Visual saliency from image features with application to compression | |
CN113850178A (zh) | 一种视频词云的生成方法及装置、存储介质及电子设备 | |
CN111652144B (zh) | 基于目标区域融合的题目分割方法、装置、设备和介质 | |
CN116994049A (zh) | 全自动针织横机及其方法 | |
CN108171144B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN116188906A (zh) | 一种识别弹窗图像中关闭标识的方法、装置、设备及介质 | |
CN116246161A (zh) | 领域知识引导下的遥感图像目标精细类型识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |