CN108347643B - 一种基于深度学习的字幕叠加截图的实现方法 - Google Patents
一种基于深度学习的字幕叠加截图的实现方法 Download PDFInfo
- Publication number
- CN108347643B CN108347643B CN201810181581.1A CN201810181581A CN108347643B CN 108347643 B CN108347643 B CN 108347643B CN 201810181581 A CN201810181581 A CN 201810181581A CN 108347643 B CN108347643 B CN 108347643B
- Authority
- CN
- China
- Prior art keywords
- frame
- caption
- subtitle
- screenshot
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
- H04N21/4314—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations for fitting data in a restricted space on the screen, e.g. EPG data in a rectangular grid
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
- H04N21/4355—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
Abstract
本发明公开了一种基于深度学习的字幕叠加截图的实现方法,属于媒体技术领域,本发明包括以下步骤:在视频上选择字幕叠加截图的视频区间;在所述视频区间的每一帧图像上定位并剪裁出字幕;对所有字幕进行分段并抽取每段字幕中的关键帧;对所述关键帧进行相似度计算,利用计算结果进行对比去重,得到最终字幕;将视频区间的首帧画面与最终字幕依次进行拼接,得到字幕叠加截图,采用该方法出错率低、处理效率高,自动化程度高。
Description
技术领域
本发明涉及媒体技术领域,具体涉及一种基于深度学习的字幕叠加截图的实现方法。
背景技术
二十一世纪以来,互联网获取信息便捷高效、信息传播范围广的优点使得互联网如雨后春笋般遍及中国的各个角落。同时,手机行业的高速发展也使其进入了千家万户,目前人们使用移动终端进行网上冲浪已成为生活的新常态,因此广电媒体行业占领互联网这个舆论阵地的需求十分强烈。
当前互联网中新闻讯息的展现方式高度多元化,包括GIF动图、短视频及字幕叠加截图等,其中字幕叠加截图正为时下热门:它将多幅画面的字幕部分拼接到同一画面中,因此仅使用一张图片就可分享视频片段的精髓,而不再需要分享视频链接,等待缓存。将这种新型便捷的字幕叠加截图应用在互联网(包括微信、微博、新闻客户端以及门户网站)新闻稿件上,用一张图片将一整段的新闻解释清楚,方便用户快速获得新闻关键内容,满足了新闻媒体行业的诉求,也迎合了当前人们快节奏的生活方式。
现有技术中常用的字幕叠加截图的方法主要分为以下三种:
1、利用photoshop、关图秀秀等软件手动生成字幕叠加截图,需用户自行截取多张字幕不同的视频截图再自行裁剪和拼接形成。这种方式有以下几种不足:操作复杂性高,整个流程都是手动操作,步骤复杂,并且需要有一定的photoshop等软件的使用基础;不便管理,中间过程产生的素材多,而实际需要的仅为最后的字幕叠加图;效率低,制作一张截图所花费的时间依软件熟练度而定,但总体偏高。这种方式操作复杂性高,中间过程产生的素材多,不便管理,效率也比较低。
2、利用拼接软件半自动生成字幕叠加截图,其中需要用户自行截取多张字幕不同的视频截图,选定字幕位置,拼接软件根据字幕位置,自动化去除多余画面生成字幕叠加截图。这种方法有以下几种缺陷:自动化程度低,用户仍需在视频中手动截取画面和选定字幕位置,手动处理的痛点依然存在;处理时间长,尽管裁剪和拼接步骤都交给了软件,但最终总处理时间仍然较长;这种方式的复杂度有所降低,但手动截取字幕图像仍无法满足行业需求。
3、利用图像识别和语音识别方法自动生成字幕叠加图,此方法利用提供的视频的入点出点信息以及人声特征音色,判断字幕叠加图的起始位置和终点位置,获取画面中出现的多个字幕自动生成字幕叠加截图。该方法相比于上述两种方法已经有所改进,但仍存在以下的不足:正确率难保证,人声音色特征的识别易受背景音的影响,可能造成过早结束和漏帧缺帧的现象;成品图效果不佳,字幕片段的选取区域不稳定容易大小不一,且字幕段数目不确定,难以保证最终的叠加截图美观性。
发明内容
本发明的目的在于:提供一种基于深度学习的字幕叠加截图的实现方法,解决了目前生成字幕叠加截图自动化程度低、正确率低的技术问题。
本发明采用的技术方案如下:
一种基于深度学习的字幕叠加截图的实现方法,包括以下步骤:
步骤1:在视频上选择字幕叠加截图的视频区间;
步骤2:在所述视频区间的每一帧图像上定位并剪裁出字幕;
步骤3:对所有字幕进行分段并抽取每段字幕中的关键帧;
步骤4:对所述关键帧进行相似度计算,利用计算结果进行对比去重,得到最终字幕;
步骤5:将视频区间的首帧画面与最终字幕依次进行拼接,得到字幕叠加截图。
进一步的,所述步骤1具体为:在视频上选择入点作为所述视频区间的起始帧,选择出点作为所述视频区间的结束帧。
进一步的,所述步骤2具体为:
S21:构建卷积神经网络并利用所述视频区间的每一帧图像进行训练,得到所述视频区间所有帧图像上字幕最顶端和最低端的坐标参数;
S22:利用所述坐标参数得到字幕的最优坐标参数;
S23:利用所述最优坐标参数剪裁出视频区间每一帧图像上的字幕。
进一步的,所述步骤3具体为:
S31:利用转场技术对所有字幕依次进行转场识别,标注转场帧位置;
S32:利用转场帧对字幕进行初分段;
S33:从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。
进一步的,所述步骤4具体为:
S41:对相邻关键帧进行相似度计算,得到第一相似度;
S42:利用k-means算法对相邻关键帧进行对比,得到第二相似度;
S43:利用第一相似度和第二相似度判断相邻关键帧是否相似,若相似,则进行去重操作,只保留相邻关键帧中的其中一帧;反之,两帧均保留。
进一步的,所述步骤S42具体为:
S421:将亮度等级按相邻原则分为k个色组,利用k-means算法对关键帧进行聚类,得到每个关键帧中k个色组的像素点数目,其中关键帧中数目最接近的色组为主色组;
S422:依次提取每个关键帧中主色组的像素点形成集合,该集合即为纯净度较高的字幕;
S423:利用相邻帧的像素点集合进行比对,得到第二相似度。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.字幕区域统一规划,使用卷积神经网络算法,综合所有帧信息计算得到字幕区域在整个帧画面中的最佳位置;采用此方法一方面让后续帧相似度分析算法聚焦于此字幕区域,提高相似度分析的准确性;另一方面给最终的字幕拼接动作提供整齐划分的字幕帧画面,提升了最终的图像拼接效果。
2.关键字幕帧精准选取,利用转场帧所在位置将整个字幕视频划分成多个字幕段,再从字幕段中提取字幕帧,使用相似度分析办法处理相邻的字幕帧;采用此方法处理次序清晰,层次结构分明,大大减少了字幕帧遗漏、重复等问题的出现,能够准确地得到所有需要的画面,准确率高。
3.处理操作简单便捷,本方法对非技术人员是操作友好的,操作人员无需学习算法内部的任何原理和过程,算法的运算中间过程对外不可见。本方法仅需在流程初始阶段由操作者输入视频文件以及其入点、出点的初始位置,一键便可得到最终所需的字幕叠加截图。这样的操作方式降低了制作字幕叠加截图的门槛,使人们可以随心所欲地制作字幕叠加图,极大提升了人们的体验度,自动化程度高。
4.处理方式智能高效,传统制作字幕叠加截图的方法针对多种不同分辨率的视频处理方式没有区分,步骤比较固定;而本方法利用了深度学习算法等多种技术方法的优势,能够自动地根据分辨率调整字幕区域的大小位置,能够识别关键字幕帧的细微差别,自行进行字幕帧的拼接操作,出错率低、处理效率高,很好地解决了原有方法在精确性、处理效率上的不足。
附图说明
本发明将通过实施例并参照附图的方式说明,其中:
图1是本发明的整体流程图;
图2是本发明中定位字幕时的示意图;
图3是本发明中抽取关键帧的流程示意图;
图4是本发明中相似度计算及对比去重得到最终字幕的流程示意图;
图5是本发明生成的字幕叠加截图的示意图。
具体实施方式
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
下面结合图附图对本发明作详细说明。
一种基于深度学习的字幕叠加截图的实现方法,包括以下步骤:
步骤1:在视频上选择字幕叠加截图的视频区间,即在视频上选择入点作为所述视频区间的起始帧,选择出点作为所述视频区间的结束帧。
步骤2:在所述视频区间的每一帧图像上定位并剪裁出字幕;
S21:构建卷积神经网络并利用所述视频区间的每一帧图像进行训练,得到所述视频区间所有帧图像上字幕最顶端和最低端的坐标参数;
S22:利用所述坐标参数得到字幕的最优坐标参数;
S23:利用所述最优坐标参数剪裁出视频区间每一帧图像上的字幕。
步骤3:对所有字幕进行分段并抽取每段字幕中的关键帧;
S31:利用转场技术对所有字幕依次进行转场识别,标注转场帧位置;
S32:利用转场帧对字幕进行初分段;
S33:从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。
步骤4:对所述关键帧进行相似度计算,利用计算结果进行对比去重,得到最终字幕;
S41:对相邻关键帧进行相似度计算,得到第一相似度;
S42:利用k-means算法对相邻关键帧进行对比,得到第二相似度;
S421:将亮度等级按相邻原则分为k个色组,利用k-means算法对关键帧进行聚类,得到每个关键帧中k个色组的像素点数目,其中关键帧中数目最接近的色组为主色组;
S422:依次提取每个关键帧中主色组的像素点形成集合,该集合即为纯净度较高的字幕;
S423:利用相邻帧的像素点集合进行比对,得到第二相似度。
S43:利用第一相似度和第二相似度判断相邻关键帧是否相似,若相似,则进行去重操作,只保留相邻关键帧中的其中一帧;反之,两帧均保留。
步骤5:将视频区间的首帧画面与最终字幕依次进行拼接,得到字幕叠加截图。
具体实施例
步骤1:在视频上选择字幕叠加截图的视频区间,即在视频上选择入点作为所述视频区间的起始帧,选择出点作为所述视频区间的结束帧;并框定一个略大于常规字幕位置的区域作为字幕的初始区域,可以减少画面对后续处理的干扰,提高后续处理效率。
步骤2:在所述视频区间的每一帧图像上定位并剪裁出字幕(如图2所示);
S21:利用视频中字幕图案的规则性和字幕位置的稳定性,构建卷积神经网络,并利用所述视频区间每一帧图像上框定的字幕初始区域进行训练,得到所述视频区间所有帧图像上字幕最顶端(Top)和最低端(Down)的坐标参数;
S22:综合所有帧图像的最顶端(Top)和最低端(Down)的坐标参数,得到字幕的最优坐标参数;
S23:利用最顶端(Top)和最低端(Down)的最优坐标参数剪裁出视频区间每一帧图像上的字幕。
步骤3:对所有字幕进行分段并抽取每段字幕中的关键帧(如图3所示);
S31:设定第一阈值,利用转场技术对所有字幕依次进行转场识别,标注转场帧位置,即可按转场帧的位置初步划分为不同的字幕段,不同的字幕段的相邻帧之间的差异较大,给差异(可以是对应像素点灰度值的差值)设置第一阀值,若超过此阀值即可认为是前后帧属于不同字幕段。转场技术为常用的技术,具体来说是镜头边界检测算法;其中基于像素域的边界检测算法包括:像素差异法,直方图方法,块匹配法,边缘变化率法。
S32:利用转场帧对字幕进行初分段,分段个数为N(N≥2),两个相邻转场帧之间或起始帧/结束帧与相邻转场帧之间的所有字幕为同一个字幕;
S33:从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。
步骤4:对所述关键帧进行相似度计算,利用计算结果进行对比去重,得到最终字幕(如图4所示);
S41:对相邻关键帧进行相似度计算,计算方法可采用梯度处理、二值化计算或其他相似度计算方法中的一种或几种,得到第一相似度;
S42:利用k-means算法对相邻关键帧进行对比,得到第二相似度;
S421:将256个亮度等级按相邻原则分为k个色组,利用k-means算法对关键帧进行聚类,得到每个关键帧中k个色组的像素点数目,按照色组组别统计所有关键帧中像素点的分布情况,依次比较特定色组内的不同关键帧像素点的数目,由于字幕像素点所在色组的像素点数目相对稳定,因此像素点数目最接近的色组为主色组;
S422:依次提取每个关键帧中主色组的像素点形成集合,该集合即为纯净度较高的字幕;
S423:利用相邻帧的像素点集合进行比对,得到第二相似度。
S43:利用第一相似度和第二相似度判断相邻关键帧是否相似,若相似,则进行去重操作,只保留相邻关键帧中的其中一帧;反之,两帧均保留。
步骤5:将视频区间的首帧画面与最终字幕依次进行拼接,得到字幕叠加截图(如图5所示)。
Claims (4)
1.一种基于深度学习的字幕叠加截图的实现方法,其特征在于:包括以下步骤:
步骤1:在视频上选择字幕叠加截图的视频区间;
步骤2:在所述视频区间的每一帧图像上定位并剪裁出字幕;
步骤3:对所有字幕进行分段并抽取每段字幕中的关键帧;
步骤4:对所述关键帧进行相似度计算,利用计算结果进行对比去重,得到最终字幕;
步骤5:将视频区间的首帧画面与最终字幕依次进行拼接,得到字幕叠加截图;
所述步骤4具体为:
S41:对相邻关键帧进行相似度计算,得到第一相似度;
S42:利用k-means算法对相邻关键帧进行对比,得到第二相似度;
S43:利用第一相似度和第二相似度判断相邻关键帧是否相似,若相似,则进行去重操作,只保留相邻关键帧中的其中一帧;反之,两帧均保留;
所述步骤S42具体为:
S421:将亮度等级按相邻原则分为k个色组,利用k-means算法对关键帧进行聚类,得到每个关键帧中k个色组的像素点数目,其中关键帧中数目最接近的色组为主色组;
S422:依次提取每个关键帧中主色组的像素点形成集合,该集合即为纯净度较高的字幕;
S423:利用相邻帧的像素点集合进行比对,得到第二相似度。
2.根据权利要求1所述的一种基于深度学习的字幕叠加截图的实现方法,其特征在于:所述步骤1具体为:在视频上选择入点作为所述视频区间的起始帧,选择出点作为所述视频区间的结束帧。
3.根据权利要求1所述的一种基于深度学习的字幕叠加截图的实现方法,其特征在于:所述步骤2具体为:
S21:构建卷积神经网络并利用所述视频区间的每一帧图像进行训练,得到所述视频区间所有帧图像上字幕最顶端和最低端的坐标参数;
S22:利用所述坐标参数得到字幕的最优坐标参数;
S23:利用所述最优坐标参数剪裁出视频区间每一帧图像上的字幕。
4.根据权利要求1所述的一种基于深度学习的字幕叠加截图的实现方法,其特征在于:所述步骤3具体为:
S31:利用转场技术对所有字幕依次进行转场识别,标注转场帧位置;
S32:利用转场帧对字幕进行初分段;
S33:从每一段字幕中抽取一帧字幕作为该段字幕的关键帧。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810181581.1A CN108347643B (zh) | 2018-03-05 | 2018-03-05 | 一种基于深度学习的字幕叠加截图的实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810181581.1A CN108347643B (zh) | 2018-03-05 | 2018-03-05 | 一种基于深度学习的字幕叠加截图的实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108347643A CN108347643A (zh) | 2018-07-31 |
CN108347643B true CN108347643B (zh) | 2020-09-15 |
Family
ID=62957816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810181581.1A Active CN108347643B (zh) | 2018-03-05 | 2018-03-05 | 一种基于深度学习的字幕叠加截图的实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108347643B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11984140B2 (en) | 2019-09-06 | 2024-05-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Matching method, terminal and readable storage medium |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108924626B (zh) * | 2018-08-17 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 图片生成方法、装置、设备及存储介质 |
CN109040825A (zh) * | 2018-10-29 | 2018-12-18 | 北京奇艺世纪科技有限公司 | 一种字幕截取方法及装置 |
CN112929745B (zh) * | 2018-12-18 | 2022-04-08 | 腾讯科技(深圳)有限公司 | 视频数据处理方法、装置、计算机可读存储介质和设备 |
CN109803180B (zh) * | 2019-03-08 | 2022-05-20 | 腾讯科技(深圳)有限公司 | 视频预览图生成方法、装置、计算机设备及存储介质 |
CN109819346A (zh) * | 2019-03-13 | 2019-05-28 | 联想(北京)有限公司 | 视频文件处理方法及装置、计算机系统和可读存储介质 |
CN110602566B (zh) * | 2019-09-06 | 2021-10-01 | Oppo广东移动通信有限公司 | 匹配方法、终端和可读存储介质 |
US10963702B1 (en) * | 2019-09-10 | 2021-03-30 | Huawei Technologies Co., Ltd. | Method and system for video segmentation |
CN110968391A (zh) * | 2019-11-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 一种截图方法、装置、终端设备及存储介质 |
CN111401368B (zh) * | 2020-03-24 | 2023-04-18 | 武汉大学 | 一种基于深度学习的新闻视频标题提取方法 |
CN113766149A (zh) * | 2020-08-28 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 字幕拼接图片的拼接方法、装置、电子设备和存储介质 |
CN112699787B (zh) * | 2020-12-30 | 2024-02-20 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种广告插入时间点的检测方法及装置 |
CN113805993B (zh) * | 2021-09-03 | 2023-06-06 | 四川新网银行股份有限公司 | 一种快速连续截图的方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1585458A (zh) * | 2004-05-27 | 2005-02-23 | 上海交通大学 | 利用支持向量机进行视频字幕定位和提取的方法 |
CN101515325A (zh) * | 2009-04-08 | 2009-08-26 | 北京邮电大学 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
JP2012235526A (ja) * | 2012-08-02 | 2012-11-29 | Toshiba Corp | 情報処理装置および動画像データの送信方法 |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
CN103268481A (zh) * | 2013-05-29 | 2013-08-28 | 焦点科技股份有限公司 | 一种复杂背景图像中的文本提取方法 |
CN104680167A (zh) * | 2015-03-09 | 2015-06-03 | 西安电子科技大学 | 基于深度学习的极光卵位置确定方法 |
CN105956608A (zh) * | 2016-04-21 | 2016-09-21 | 恩泊泰(天津)科技有限公司 | 一种基于深度学习的目标定位、分类算法 |
CN106454151A (zh) * | 2016-10-18 | 2017-02-22 | 珠海市魅族科技有限公司 | 视频画面拼接方法及装置 |
CN106909901A (zh) * | 2017-02-28 | 2017-06-30 | 北京京东尚科信息技术有限公司 | 从图像中检测物体的方法及装置 |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
-
2018
- 2018-03-05 CN CN201810181581.1A patent/CN108347643B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1585458A (zh) * | 2004-05-27 | 2005-02-23 | 上海交通大学 | 利用支持向量机进行视频字幕定位和提取的方法 |
CN101515325A (zh) * | 2009-04-08 | 2009-08-26 | 北京邮电大学 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
CN102833638A (zh) * | 2012-07-26 | 2012-12-19 | 北京数视宇通技术有限公司 | 基于字幕信息的视频自动切分及标注方法及系统 |
JP2012235526A (ja) * | 2012-08-02 | 2012-11-29 | Toshiba Corp | 情報処理装置および動画像データの送信方法 |
CN103268481A (zh) * | 2013-05-29 | 2013-08-28 | 焦点科技股份有限公司 | 一种复杂背景图像中的文本提取方法 |
CN104680167A (zh) * | 2015-03-09 | 2015-06-03 | 西安电子科技大学 | 基于深度学习的极光卵位置确定方法 |
CN105956608A (zh) * | 2016-04-21 | 2016-09-21 | 恩泊泰(天津)科技有限公司 | 一种基于深度学习的目标定位、分类算法 |
CN106454151A (zh) * | 2016-10-18 | 2017-02-22 | 珠海市魅族科技有限公司 | 视频画面拼接方法及装置 |
CN106909901A (zh) * | 2017-02-28 | 2017-06-30 | 北京京东尚科信息技术有限公司 | 从图像中检测物体的方法及装置 |
CN107038448A (zh) * | 2017-03-01 | 2017-08-11 | 中国科学院自动化研究所 | 目标检测模型构建方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11984140B2 (en) | 2019-09-06 | 2024-05-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Matching method, terminal and readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN108347643A (zh) | 2018-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108347643B (zh) | 一种基于深度学习的字幕叠加截图的实现方法 | |
CN107862315B (zh) | 字幕提取方法、视频搜索方法、字幕分享方法及装置 | |
CN109903223B (zh) | 一种基于稠密连接网络与生成式对抗网络的图像超分辨率方法 | |
CN100393106C (zh) | 检测和/或追踪图像或图像序列中颜色区域的方法和装置 | |
CN110414519A (zh) | 一种图片文字的识别方法及其识别装置 | |
CN108010041A (zh) | 基于深度学习神经网络级联模型的人体心脏冠脉提取方法 | |
CN110267061B (zh) | 一种新闻拆条方法及系统 | |
CN1601531A (zh) | 用于为视听演示内容制作摘要和索引的方法与设备 | |
CN109214999A (zh) | 一种视频字幕的消除方法及装置 | |
CN105704559A (zh) | 一种海报生成方法及装置 | |
CN109657612A (zh) | 一种基于人脸图像特征的质量排序系统及其使用方法 | |
CN105718885B (zh) | 一种人脸特征点跟踪方法 | |
CN110276279B (zh) | 一种基于图像分割的任意形状场景文本探测方法 | |
CN109064525A (zh) | 一种图片格式转换方法、装置、设备和存储介质 | |
CN107835397A (zh) | 一种多镜头视频同步的方法 | |
CN111768469A (zh) | 一种基于图像聚类的数据可视化配色的提取方法 | |
CN107194870B (zh) | 一种基于显著性物体检测的图像场景重构方法 | |
CN114596259A (zh) | 无参考的视频质量确定方法、装置、设备和存储介质 | |
CN113191216A (zh) | 基于姿态识别和c3d网络的多人实时动作识别方法和系统 | |
CN114897742A (zh) | 一种纹理和结构特征两次融合的图像修复方法 | |
WO2018151043A1 (ja) | 画像処理方法、及びコンピュータプログラム | |
CN110991440B (zh) | 一种像素驱动的手机操作界面文本检测方法 | |
CN109493361B (zh) | 一种火灾烟雾图像分割方法 | |
CN111563515A (zh) | 一种基于改进的Faster-RCNN的车牌识别方法 | |
CN110135274B (zh) | 一种基于人脸识别的人流量统计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |