CN111401368A - 一种基于深度学习的新闻视频标题提取方法 - Google Patents
一种基于深度学习的新闻视频标题提取方法 Download PDFInfo
- Publication number
- CN111401368A CN111401368A CN202010211414.4A CN202010211414A CN111401368A CN 111401368 A CN111401368 A CN 111401368A CN 202010211414 A CN202010211414 A CN 202010211414A CN 111401368 A CN111401368 A CN 111401368A
- Authority
- CN
- China
- Prior art keywords
- frame
- key frame
- news video
- key
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/43—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of news video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的新闻视频标题提取方法,包括关键帧提取、关键帧文字检测、关键帧文字特征提取和特征聚类。在关键帧提取过程中,使用帧间差分法,将与前一帧内容变化较大的帧作为关键帧;在关键帧文字检测过程中,使用EAST网络确定关键帧的文字区域;在关键帧文字特征提取过程中,使用卷积神经网络(CNN)提取关键帧的特征,再将特征依次输入循环神经网络(RNN),得到文字区域的特征向量;在特征聚类过程中,使用欧氏距离得到相邻关键帧之间的相似度,根据相似度对关键帧的文字进行聚类,得到新闻视频标题图像。本发明利用深度学习技术,依据关键帧的文字特征和新闻视频字幕特征产生新闻视频标题,具有提取准确、运算快的优点。
Description
技术领域
本发明属于人工智能技术领域,涉及一种新闻视频标题提取方法,具体涉及一种基于深度学习的新闻视频标题提取方法。
技术背景
新闻视频具有形象直观、信息量大的特点,是人们获取信息的重要来源,新闻视频分析及处理正成为智能媒体领域的研究热点。作为新闻视频的一个重要特征,标题条字幕是获取新闻视频高层语义内容的重要线索,表达了新闻故事的中心意思,在新闻视频拆分、内容描述、检索和智能推荐中具有重要应用。
新闻视频标题字幕的获取主要依靠标题条检测,标题条检测主要包括五类方法。第一类,基于边缘检测的方法,该类虽然可以快速检测到文字区域,但鲁棒性较差。第二类,基于纹理特征的方法,该方法能够适用于具有复杂特征的图片,但算法的效率较低。第三类,基于区域特征的方法,该方法对图片对比度以及分辨率要求较高。第四类,基于标题条形状特征快速检测的方法,该方法利用标题条是固定矩形的特点,降低了复杂度,提高了检测速度。第五类,基于机器学习的检测方法,将图片分割为若干个子块,送入已训练好的分类器中,得到子块有字幕或无字幕的分类结果,该方法正确率较高,但大量数据集导致模型训练的复杂度过高。
现有的新闻视频标题字幕提取方法不仅速度慢、鲁棒性较差,并且提取效果还严重依赖于字幕区域特定的位置和形状。为此,有必要发展新的基于深度学习的新闻视频标题提取方法。
发明内容
为了解决上述技术问题,本发明利用深度学习检测关键帧的文字和提取文字特征,通过聚类得到新闻视频标题。对于关键帧文字检测,采用EAST网络;对于文字特征提取,采用CNN和RNN。本发明方法比传统方法更快、更准确,也不依赖于字幕的形状和位置。
本发明所采用的技术方案是:一种基于深度学习的新闻视频标题提取方法,其特征在于,包括以下步骤:
步骤1:利用帧间差分方法提取关键帧;
步骤2:使用EAST网络得到关键帧文字区域;
步骤3:使用CNN和RNN先后提取关键帧文字区域的特征向量;
步骤4:根据得到的特征向量进行关键帧的相似性比较,然后进行聚类得到新闻视频标题字幕图像。
相对于现有技术,本发明方法具有如下积极效果:
1)本发明中涉及的方法不依赖于字幕的位置、形状等特征,而是基于关键帧上所有文字内容判定是否为标题字幕,因而算法的普适性好。
2)本发明利用深度学习对关键帧文字进行检测,并提取其特征,相对于传统方法而言,更加快速、准确,鲁棒性更好。
附图说明
图1:本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于深度学习的新闻视频标题提取方法,包括以下步骤:
步骤1:使用帧间差分的方法实现关键帧提取;
其原理在于将相邻两帧图像进行差分,用得到的图像的平均像素强度来衡量两帧图像的变化大小。每当视频中的某一帧与前一帧画面的内容变化较大时,便认为是关键帧,并将其提取出来。算法流程简述如下:
步骤1.1:利用OpenCV库读取视频,依次计算帧间差分,得到平均帧间差分强度D(x,y),其中
式中,fk(x,y)和fk+1(x,y)分别为第k帧和k+1帧图像,w和h为图像的长和宽,x和y为图像的坐标;
步骤1.2:基于步骤1.1得到的平均帧间差分强度,选择平均帧间差分强度为局部最大值的帧作为视频关键帧,并将其保存。
步骤2:利用EAST网络检测关键帧的文字位置;
EAST网络主要由全卷积网络(FCN)和NMS组成,FCN能很好地提取图像的浅层和深层特征,并将其融合,以达到将图像每个像素都精确分类的效果,最后输出文字框;NMS只留下FCN输出文字框中的的局部得分最大的框,其表示为最终的文字定位结果。步骤如下:
步骤2.1:将关键帧进行减均值和缩放等图像预处理。
步骤2.2:将预处理后的关键帧输入四个阶段的卷积层,得到四个不同规模的特征图f1、f2、f3、f4,其相对于输入图片分别缩小了1/4、1/8、1/16、1/32。
步骤2.3:将f4上采样后,得到特征图h1,h1与f3串联,然后经过1×1和3×3的卷积后,可以得到融合特征图h2;将h2上采样后,与f2串联,然后经过1×1和3×3的卷积后,可以得到融合特征图h3;将h3上采样后,与f1串联,然后经过1×1和3×3的卷积后,可以得到融合特征图h4;最后经过3×3的卷积后输出最后的特征图。
步骤2.4:将最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积,得到一张得分图Fs。Fs的大小为原图的1/4,通道数为1,每个像素表示对应于原图中像素为文字的概率值。
步骤2.5:将最后得到的特征图与大小为1×1通道数为4的卷积核进行卷积,得到四个通道的Text boxes,四个通道分别表示该像素点到文本框的四条边的距离;将最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积,得到一个通道的Text rotationangle,表示该像素所在框的倾斜角度;这里Text boxes和Text rotation angle合起来称为Geometry map,用Fg表示。
步骤2.6:将得到的边框用非极大值抑制(NMS)进行整合,输出最后的关键帧文字区域。
步骤3:利用CNN和RNN提取文字特征向量;
CNN是一种很好的提取图像特征的网络,但是CNN并不能结合相邻像素的特征,对像素特征进行预测,所以我们需要结合双向RNN更好地对每个文字像素进行预测。步骤如下:
步骤3.1:将步骤1所得到的关键帧文字区域输入VGG结构的网络中,为了能将CNN提取的特征输入致LSTM中,此网络将VGG的第三、四层的池化层的核尺度由2×2变成了1×2;为了能加速网络模型训练,在第五、六层后面加上BN层。因为输入图像不定宽,所以最后输出N个1×512的特征。
步骤3.2:将CNN得到的特征按顺序输入RNN中,为了防止训练时梯度的消失,所以采用了LSTM神经单元作为RNN的单元;因为序列的前向信息和后向信息都有助于序列的预测,所以采用了双向RNN网络。最后得到关键帧文字区域的特征向量。
步骤4:利用相邻关键帧的特征相似度,对关键帧进行聚类。
根据步骤3得到的特征向量可以得到相邻关键帧的相似度,因为有些相同字幕的相似度比较小而导致聚类效果不好,所以本发明将相似度相减以后再进行聚类。步骤如下:
步骤4.1:使用欧式距离计算相邻关键帧的文字相似度,得到一个相似度向量P,欧式距离的公式为:
其中,n表示图像的像素点数,xi和yi分别表示两张图片的第i个像素点;
步骤4.2:将相似度向量的两个相邻元素相减,即P[i+1]-P[i],如果相邻元素相减之和的绝对值在0.5的范围内,且连续有三个值都在0.5范围内,则认为含有标题,输出其帧号。
步骤4.3:为了防止相同标题字幕之间因为有说话字幕将其判定为两个标题字幕,将步骤4.2产生的含有标题的帧再次执行步骤4.2,最后将相似度绝对值在0.5以内的新闻视频标题字幕图像输出。
本发明利用深度学习对关键帧文字区域进行检测,通过比较相邻帧的相似度判定其是否为标题字幕,比较而言,本发明方法更加快速、准确,鲁棒性更好。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (5)
1.一种基于深度学习的新闻视频标题提取方法,其特征在于,包括以下步骤:
步骤1:利用帧间差分方法提取关键帧;
步骤2:使用EAST网络得到关键帧文字区域;
步骤3:使用CNN和RNN先后提取关键帧文字区域的特征向量;
步骤4:根据得到的特征向量进行关键帧的相似性比较,然后进行聚类得到新闻视频标题字幕图像。
3.根据权利要求1所述的基于深度学习的新闻视频标题提取方法,其特征在于,步骤2的具体实现包括以下步骤:
步骤2.1:将关键帧进行图像预处理,包括减均值和缩放处理;
步骤2.2:将预处理后的关键帧输入四个阶段的卷积层,得到四个不同规模的特征图f1、f2、f3、f4,其相对于输入图片分别缩小了1/4、1/8、1/16、1/32;
步骤2.3:将f4上采样后,得到特征图h1,h1与f3串联,然后经过1×1和3×3的卷积后,得到融合特征图h2;将h2上采样后,与f2串联,然后经过1×1和3×3的卷积后,得到融合特征图h3;将h3上采样后,与f1串联,然后经过1×1和3×3的卷积后,得到融合特征图h4;最后经过3×3的卷积后输出最后的特征图;
步骤2.4:将步骤2.3最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积,得到一张得分图Fs;Fs的大小为原图的1/4,通道数为1,每个像素表示对应于原图中像素为文字的概率值;
步骤2.5:将最后得到的特征图与大小为1×1通道数为4的卷积核进行卷积,得到四个通道的Text boxes,四个通道分别表示该像素点到文本框的四条边的距离;将最后得到的特征图与大小为1×1通道数为1的卷积核进行卷积,得到一个通道的Text rotationangle,表示该像素所在框的倾斜角度;这里Text boxes和Text rotation angle合起来称为Geometry map,用Fg表示;
步骤2.6:将步骤2.5得到的文本框用非极大值抑制NMS进行整合,输出最后的关键帧文字区域。
4.根据权利要求1所述的基于深度学习的新闻视频标题提取方法,其特征在于,步骤3的具体实现包括以下步骤:
步骤3.1:将步骤2所得到的关键帧文字区域输入VGG结构的网络中,为了能将VGG提取的特征输入致LSTM中,将VGG的第三、四层的池化层的核尺度由2×2变成了1×2;为了能加速网络模型训练,在VGG的第五、六层后面加上BN层;因为输入图像不定宽,所以最后输出N个1×512的特征;
步骤3.2:将CNN得到的特征按顺序输入RNN中,为了防止训练时梯度的消失,采用LSTM神经单元作为RNN的单元;因为序列的前向信息和后向信息都有助于序列的预测,所以采用双向RNN网络;最后得到关键帧文字区域的特征向量。
5.根据权利要求1所述的基于深度学习的新闻视频标题提取方法,其特征在于,步骤4的具体实现包括以下步骤:
步骤4.1:使用欧式距离计算相邻关键帧的文字相似度,得到一个相似度向量P,欧式距离的公式为:
其中,n表示图像的像素点数,xi和yi分别表示两张图片的第i个像素点;
步骤4.2:将相似度向量的两个相邻元素相减,即P[i+1]-P[i],如果相邻元素相减之和的绝对值在0.5的范围内,且连续有三个值都在0.5范围内,则认为含有标题,输出其帧号;
步骤4.3:为了防止相同标题字幕之间因为有说话字幕将其判定为两个标题字幕,将步骤4.2产生的含有标题的帧再次执行步骤4.2,最后将相似度绝对值在0.5以内的新闻视频标题字幕图像输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010211414.4A CN111401368B (zh) | 2020-03-24 | 2020-03-24 | 一种基于深度学习的新闻视频标题提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010211414.4A CN111401368B (zh) | 2020-03-24 | 2020-03-24 | 一种基于深度学习的新闻视频标题提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111401368A true CN111401368A (zh) | 2020-07-10 |
CN111401368B CN111401368B (zh) | 2023-04-18 |
Family
ID=71432881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010211414.4A Active CN111401368B (zh) | 2020-03-24 | 2020-03-24 | 一种基于深度学习的新闻视频标题提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111401368B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112004111A (zh) * | 2020-09-01 | 2020-11-27 | 南京烽火星空通信发展有限公司 | 一种全域深度学习的新闻视频信息抽提方法 |
CN113408563A (zh) * | 2020-09-01 | 2021-09-17 | 武汉大学 | 一种微博舆情动态时空关联下浒苔灾害空间分布推估方法 |
CN113807085A (zh) * | 2021-11-19 | 2021-12-17 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的标题字幕提取方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102331990A (zh) * | 2010-12-22 | 2012-01-25 | 四川大学 | 一种基于字幕提取的新闻视频检索方法 |
US20120245922A1 (en) * | 2010-01-14 | 2012-09-27 | Elvira Kozlova | Insertion of Translation in Displayed Text |
CN104915655A (zh) * | 2015-06-15 | 2015-09-16 | 西安电子科技大学 | 一种多路监控视频的管理方法与设备 |
CN106162330A (zh) * | 2016-07-27 | 2016-11-23 | 成都索贝数码科技股份有限公司 | 一种在视频画面中提取字幕区域的方法 |
CN106845390A (zh) * | 2017-01-18 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 视频标题生成方法及装置 |
CN107844779A (zh) * | 2017-11-21 | 2018-03-27 | 重庆邮电大学 | 一种视频关键帧提取方法 |
CN108347643A (zh) * | 2018-03-05 | 2018-07-31 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的字幕叠加截图的实现方法 |
CN110019817A (zh) * | 2018-12-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种视频中文字信息的检测方法、装置及电子设备 |
CN110390308A (zh) * | 2019-07-26 | 2019-10-29 | 华侨大学 | 一种基于时空对抗生成网络的视频行为识别方法 |
US10552968B1 (en) * | 2016-09-23 | 2020-02-04 | Snap Inc. | Dense feature scale detection for image matching |
-
2020
- 2020-03-24 CN CN202010211414.4A patent/CN111401368B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120245922A1 (en) * | 2010-01-14 | 2012-09-27 | Elvira Kozlova | Insertion of Translation in Displayed Text |
CN102331990A (zh) * | 2010-12-22 | 2012-01-25 | 四川大学 | 一种基于字幕提取的新闻视频检索方法 |
CN104915655A (zh) * | 2015-06-15 | 2015-09-16 | 西安电子科技大学 | 一种多路监控视频的管理方法与设备 |
CN106162330A (zh) * | 2016-07-27 | 2016-11-23 | 成都索贝数码科技股份有限公司 | 一种在视频画面中提取字幕区域的方法 |
US10552968B1 (en) * | 2016-09-23 | 2020-02-04 | Snap Inc. | Dense feature scale detection for image matching |
CN106845390A (zh) * | 2017-01-18 | 2017-06-13 | 腾讯科技(深圳)有限公司 | 视频标题生成方法及装置 |
CN107844779A (zh) * | 2017-11-21 | 2018-03-27 | 重庆邮电大学 | 一种视频关键帧提取方法 |
CN108347643A (zh) * | 2018-03-05 | 2018-07-31 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的字幕叠加截图的实现方法 |
CN110019817A (zh) * | 2018-12-04 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种视频中文字信息的检测方法、装置及电子设备 |
CN110390308A (zh) * | 2019-07-26 | 2019-10-29 | 华侨大学 | 一种基于时空对抗生成网络的视频行为识别方法 |
Non-Patent Citations (1)
Title |
---|
赵星驰: "基于深度学习的视频文字检测技术" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112004111A (zh) * | 2020-09-01 | 2020-11-27 | 南京烽火星空通信发展有限公司 | 一种全域深度学习的新闻视频信息抽提方法 |
CN113408563A (zh) * | 2020-09-01 | 2021-09-17 | 武汉大学 | 一种微博舆情动态时空关联下浒苔灾害空间分布推估方法 |
CN113408563B (zh) * | 2020-09-01 | 2022-08-16 | 武汉大学 | 一种微博舆情动态时空关联下浒苔灾害空间分布推估方法 |
CN113807085A (zh) * | 2021-11-19 | 2021-12-17 | 成都索贝数码科技股份有限公司 | 一种针对新闻场景的标题字幕提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111401368B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299274B (zh) | 一种基于全卷积神经网络的自然场景文本检测方法 | |
CN111401368B (zh) | 一种基于深度学习的新闻视频标题提取方法 | |
JP5067310B2 (ja) | 字幕領域抽出装置、字幕領域抽出方法および字幕領域抽出プログラム | |
WO2023083280A1 (zh) | 一种场景文本识别方法和装置 | |
CN113449727A (zh) | 一种基于深度神经网络的伪装目标检测识别方法 | |
CN109948721B (zh) | 一种基于视频描述的视频场景分类方法 | |
Zhang et al. | General and domain-specific techniques for detecting and recognizing superimposed text in video | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN112153483A (zh) | 信息植入区域的检测方法、装置及电子设备 | |
CN100593792C (zh) | 一种视频中的文本跟踪和多帧增强方法 | |
CN113435438B (zh) | 一种图像和字幕融合的视频报幕板提取及视频切分方法 | |
CN113591831A (zh) | 一种基于深度学习的字体识别方法、系统及存储介质 | |
Song et al. | Prnet++: Learning towards generalized occluded pedestrian detection via progressive refinement network | |
CN116129291A (zh) | 一种面向无人机畜牧的图像目标识别方法及其装置 | |
CN116246059A (zh) | 一种基于改进的yolo多尺度检测的车辆目标识别方法 | |
Ke et al. | Vehicle logo recognition with small sample problem in complex scene based on data augmentation | |
Yang et al. | Caption detection and text recognition in news video | |
CN111881914A (zh) | 一种基于自学习阈值的车牌字符分割方法及系统 | |
CN111767919A (zh) | 一种多层双向特征提取与融合的目标检测方法 | |
CN113011315B (zh) | 一种基于超快速结构感知深度网络的地铁轨道识别方法 | |
CN105023001B (zh) | 一种基于选择性区域的多行人检测方法及系统 | |
Low et al. | Frame Based Object Detection--An Application for Traffic Monitoring | |
CN114581722A (zh) | 一种基于孪生残差网络的二阶段多分类工业图像缺陷检测方法 | |
CN111931689A (zh) | 一种在线提取视频卫星数据鉴别特征的方法 | |
Pan et al. | TV logo classification based on convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |