CN112418215A - 一种视频分类识别方法、装置、存储介质和设备 - Google Patents

一种视频分类识别方法、装置、存储介质和设备 Download PDF

Info

Publication number
CN112418215A
CN112418215A CN202011288589.1A CN202011288589A CN112418215A CN 112418215 A CN112418215 A CN 112418215A CN 202011288589 A CN202011288589 A CN 202011288589A CN 112418215 A CN112418215 A CN 112418215A
Authority
CN
China
Prior art keywords
video
image
information
title
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011288589.1A
Other languages
English (en)
Inventor
张晖
曹山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fengmi Beijing Technology Co ltd
Original Assignee
Fengmi Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fengmi Beijing Technology Co ltd filed Critical Fengmi Beijing Technology Co ltd
Priority to CN202011288589.1A priority Critical patent/CN112418215A/zh
Publication of CN112418215A publication Critical patent/CN112418215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/73Deblurring; Sharpening
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种视频分类识别方法,包括当获取到用户的播放请求后,截取视频播放界面的图像信息;根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息;将所述标题信息发送至媒资库,得到所述视频播放界面播放视频的类别信息。本发明通过对图片的智能识别,运算量小,对设备的性能要求不高,且不需要终端生产商有自己的内容源,可以适配各种第三方视频应用,同时,对视频应用UI界面的抓取不受DRM技术的限制。因为能直接获取到节目标题文本,且后台媒资库可以不断更新完善,所以内容分类识别结果的准确性更高。本发明还涉及一种视频分类识别装置、存储介质和设备。

Description

一种视频分类识别方法、装置、存储介质和设备
技术领域
本发明涉及图像识别领域,尤其涉及一种视频分类识别方法、装置、存储介质和设备。
背景技术
用户可以在智能大屏设备上安装各种各样的视频应用,如果能够识别出用户在各类视频应用中所观看视频节目内容的分类,就可以为用户提供更多的个性化服务,如个性化推荐、智能图像、音效模式匹配等。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种视频分类识别方法、装置、存储介质和设备。
本发明解决上述技术问题的技术方案如下:
一种视频分类识别方法,包括:
当获取到用户的播放请求后,截取视频播放界面的图像信息;
根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息;
将所述标题信息发送至媒资库,得到所述视频播放界面播放视频的类别信息。
本方法发明的有益效果是:提供了一种视频分类识别方法,当获取到用户的播放请求后,截取视频播放界面的图像信息;根据图像信息和已训练好的标题识别模型,得到视频播放界面中播放的视频节目的标题信息,将标题信息发送至媒资库,得到视频播放界面播放视频的类别信息。本发明中对通过对图片的智能识别,因此运算量很小,对性能要求不高,且不需要终端生产商有自己的内容源,可以适配各种第三方视频应用,同时,对视频应用UI界面的抓取不受DRM技术的限制。因为能直接获取到节目标题文本,且后台媒资库可以不断更新完善,所以内容分类识别结果的准确性更高。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,所述根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息,具体包括:
将所述图像信息进行预处理,得到待识别的图像;
对所述待识别的图像进行裁剪,得到待识别文字区域;
将所述待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果;
将所述OCR结果输入所述标题识别模型,得到所述视频节目的标题信息。
采用上述进一步方案的有益效果是:通过将图像信息进行预处理,得到待识别的图像,对待识别的图像进行裁剪,得到待识别文字区域,将待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果,将OCR结果输入所述标题识别模型,得到当前播放视频节目的标题信息,可提高对从当前播放视频的图像信息中识别标题信息的效率。
进一步地,所述对所述待识别的图像进行裁剪,得到待识别文字区域,具体包括:
基于预设的识别区域定位模板,对所述待识别的图像进行剪裁,得到多个所述待识别文件区域。
进一步地,所述将所述待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果,具体包括:
对所述待识别文字区域中的字段进行字段信息识别提取,同时将识别提取出的字段信息进行结构化数据输出,得到所述OCR识别结果。
采用上述进一步方案的有益效果是:通过对待识别文字区域中的字段进行字段信息识别提取,同时将识别提取出的字段信息进行结构化数据输出,得到OCR识别结果,提升了分类识别结果的准确性。
进一步地,所述将所述图像信息进行预处理,获取待识别的图像,具体包括:
对所述图像信息进行灰度化处理,获取灰度图像;
对所述灰度图像进行透视变换处理,获取矫正图像;
对所述矫正图像进行锐化处理,获取锐化图像;
对所述锐化图像进行二值化处理,获取所述待识别的图像。
进一步地,所述方法还包括:
获取训练数据和测试数据,其中,所述训练数据包括的第一预设数量的第一图像信息,所述测试数据包括第二预设数量的第二图像信息;
将所述训练数据和所述测试数据输入机器学习模型中进行训练,得到所述标题识别模型
本发明解决上述技术问题的另一种技术方案如下:一种视频分类识别装置,包括:
采集模块,用于当获取到用户的播放请求后,截取视频播放界面的原始图像信息;
识别模块,用于根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息;
分类模块,用于将所述标题信息发送至媒资库,得到所述视频播放界面播放视频的类别信息。
本装置发明的有益效果是:提供了一种视频分类识别装置,当获取到用户的播放请求后,截取视频播放界面的图像信息;根据图像信息和已训练好的标题识别模型,得到视频播放界面中播放的视频节目的标题信息,将标题信息发送至媒资库,得到视频播放界面播放视频的类别信息。本发明中对通过对图片的智能识别,因此运算量很小,对性能要求不高,且不需要终端生产商有自己的内容源,可以适配各种第三方视频应用,同时,对视频应用UI界面的抓取不受DRM技术的限制。因为能直接获取到节目标题文本,且后台媒资库可以不断更新完善,所以内容分类识别结果的准确性更高。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步地,所述识别模块,具体用于将所述图像信息进行预处理,得到待识别的图像;
对所述待识别的图像进行裁剪,得到待识别文字区域;
将所述待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果;
将所述OCR结果输入所述标题识别模型,得到所述视频节目的标题信息。
本申请还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使所述计算机执行上述技术方案中任一项所述的视频分类识别方法的步骤。
此外,本申请还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述技术方案中任一项所述的视频分类识别方法的步骤。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频分类识别方法的流程示意图;
图2为本发明另一实施例提供的一种视频分类识别装置的模块示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
如图1本发明实施例提供的一种视频分类识别方法的流程示意图所示,一种视频分类识别方法包括以下步骤:
110、当获取到用户的播放请求后,截取视频播放界面的图像信息。
120、根据图像信息和已训练好的标题识别模型,得到视频播放界面中播放的视频节目的标题信息。
130、将标题信息发送至媒资库,得到视频播放界面播放视频的类别信息。
应理解,通常获取到用户的播放请求后,通过智能大屏设备端截取智能大屏设备视频播放界面的图像信息。截取的工具可以是设备自带的摄像头或其他的方式,本实施例中不再赘叙。
目前,实现智能设备上的视频内容分类识别方法分为两类,一种是提前在多媒体码流中加入内容分类元数据,在终端播放时通过读取元数据来得到分类信息。另一种是在终端直接读取音视频多媒体数据并进行像素域的分析来识别分类。而第一种方式的缺点在于要求终端生产商同时有自己的内容源,否则当用户播放第三方内容源时,因为没有提前在码流生产过程中加入元数据而无法获得分类信息。第二种方式的问题在于音视频多媒体的数据量非常大,进行像素域分析对性能要求很高,会占用大量计算资源。随着数字版权管理(DRM)技术的广泛使用,很多视频应用都加入了禁止屏幕录制的功能,此时在终端上也无法直接读取多媒体数据了,要得到准确的内容分类结果,需要将整部影片的全部多媒体数据分析完毕才可以实现。
根据截取到的图像和标题识别模型,得到当前播放视频的标题信息,其中标题识别模型是事先抓取多个UI截图训练人工智能模型得到的。
媒资库可以设置与单独的服务器端,也可以同智能设备设置在一起,可根据实际需要进行设备。媒资库中主要存储了大量的媒体节目资源的图像信息,通过媒资库,可以快速确定当前智能设备中正在播放的界面类型。其中,媒资库中包括存储包含节目标题与内容分类对应关系的媒体资源数据,同时也可以接收智能标题识别模块发来的标题文本,在数据库中检索得到对应的节目内容分类结果,将内容分类识别结果发送给内容分类响应模块,定期更新、扩充节目标题与内容分类对应关系数据库。
应理解,当从截取到的图像信息中未能获取到当前播放节目的标题信息时,再一次截取当前播放的图像信息,对新截取到的图像信息进行识别,当截取次数达到预设次数时,通知服务器无法获取当前播放图像的标题信息,并将截取的图像信息发送至服务器中,服务器将图像信息进行保存,对图像信息进行分析,例如通过人工进行分析确定图像信息的节目信息,并将图像信息与节目信息保存到数据库中,当后续再出现无法识别的图像信息时,将无法识别的图像信息与数据库中的图像信息进行比对后,确定图像信息的节目信息。
应理解,当识别到视频播放界面中播放视频的类别信息后,可接收后台服务端返回的内容分类识别结果,并做出各类响应,例如自动切换为与内容分类相匹配的图像、音效模式,或自动为用户推荐相关的节目。
基于上述实施例提供的一种视频分类识别方法,当获取到用户的播放请求后,截取视频播放界面的图像信息;根据图像信息和已训练好的标题识别模型,得到视频播放界面中播放的视频节目的标题信息,将标题信息发送至媒资库,得到视频播放界面播放视频的类别信息。本发明中对通过对图片的智能识别,因此运算量很小,对性能要求不高,且不需要终端生产商有自己的内容源,可以适配各种第三方视频应用,同时,对视频应用UI界面的抓取不受DRM技术的限制。因为能直接获取到节目标题文本,且后台媒资库可以不断更新完善,所以内容分类识别结果的准确性更高。
基于上述实施例,进一步地,步骤120中具体包括以下步骤:
121、将图像信息进行预处理,得到待识别的图像。
应理解,对图像信息进行预处理包括以下步骤:对图像信息进行灰度化处理,获取灰度图像,对灰度图像进行透视变换处理,获取矫正图像;对矫正图像进行锐化处理,获取锐化图像,对锐化图像进行二值化处理,获取待识别的图像。
122、对待识别的图像进行裁剪,得到待识别文字区域。
应理解,预先设置多个识别区域定位模板,识别区域定位模板是通过采集大量节目的界面图像信息,对图像信息进行处理后,得到识别区域的定位模板。通过这些识别区域的定位模板,对待识别的图像进行剪裁,提高了图像识别的效率。
123、将待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果。
应理解,OCR(Optical Character Recognition,光学字符识别)是模式识别领域中重要的研究方向。近年来,随着移动设备的快速更新迭代,以及移动互联网的快速发展,使得OCR有更为广泛的应用场景,从以往的扫描文件的字符识别,到现在应用到自然场景中图片文字的识别,如识别身份证、银行卡、门牌、票据及各类网络图片中的文字。
124、将OCR结果输入标题识别模型,得到视频节目的标题信息。
应理解,对待识别文字区域中的字段进行字段信息识别提取,同时将识别提取出的字段信息进行结构化数据输出,得到OCR识别结果。
进一步地,将待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果,具体包括:
对待识别文字区域中的字段进行字段信息识别提取,同时将识别提取出的字段信息进行结构化数据输出,得到OCR识别结果。
进一步地,将原始图像信息进行预处理,获取待识别的图像,具体包括:
对原始图像信息进行灰度化处理,获取灰度图像;
对灰度图像进行透视变换处理,获取矫正图像;
对矫正图像进行锐化处理,获取锐化图像;
对锐化图像进行二值化处理,获取待识别的图像。
进一步地,将图像信息进行预处理,获取待识别的图像,具体包括以下步骤:
对图像信息进行灰度化处理,获取灰度图像;
对灰度图像进行透视变换处理,获取矫正图像;
对矫正图像进行锐化处理,获取锐化图像;
对锐化图像进行二值化处理,获取待识别的图像。
进一步地,获取标题识别模型的方法可以通过以下方式:
获取训练数据和测试数据,其中,训练数据包括的第一预设数量的第一图像信息,测试数据包括第二预设数量的第二图像信息;
将训练数据和测试数据输入机器学习模型中进行训练,得到标题识别模型。
应理解,例如,可以截取各类视频应用的各个UI界面的截图,对截图进行OCR识别得到截图中所有文字的位置关系与大小,作为训练集和测试集,进行训练后获得标题识别模型。
如图2本发明实施例提供的一种视频分类识别装置的结构示意图所示,包括以下模块:
采集模块,用于当获取到用户的播放请求后,截取视频播放界面的原始图像信息;
识别模块,用于根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息;
分类模块,用于将所述标题信息发送至媒资库,得到所述视频播放界面播放视频的类别信息。
基于上述实施例提供了一种视频分类识别装置,当获取到用户的播放请求后,截取视频播放界面的图像信息;根据图像信息和已训练好的标题识别模型,得到视频播放界面中播放的视频节目的标题信息,将标题信息发送至媒资库,得到视频播放界面播放视频的类别信息。本发明中对通过对图片的智能识别,因此运算量很小,对性能要求不高,且不需要终端生产商有自己的内容源,可以适配各种第三方视频应用,同时,对视频应用UI界面的抓取不受DRM技术的限制。因为能直接获取到节目标题文本,且后台媒资库可以不断更新完善,所以内容分类识别结果的准确性更高。
进一步地,所述识别模块,具体用于将图像信息进行预处理,得到待识别的图像;
对待识别的图像进行裁剪,得到待识别文字区域;
将待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果;
将所述OCR结果输入标题识别模型,得到视频节目的标题信息。
进一步地,基于预设的识别区域定位模板,对待识别的图像进行剪裁,得到多个待识别文件区域。
进一步地,对待识别文字区域中的字段进行字段信息识别提取,同时将识别提取出的字段信息进行结构化数据输出,得到OCR识别结果。
进一步地,对图像信息进行灰度化处理,获取灰度图像;
对所述灰度图像进行透视变换处理,获取矫正图像;
对所述矫正图像进行锐化处理,获取锐化图像;
对所述锐化图像进行二值化处理,获取所述待识别的图像。
进一步地,获取训练数据和测试数据,其中,所述训练数据包括的第一预设数量的第一图像信息,所述测试数据包括第二预设数量的第二图像信息;
将所述训练数据和所述测试数据输入机器学习模型中进行训练,得到所述标题识别模型。
此外,本发明还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使所述计算机执行上述实施例中任一项所述的视频分类识别方法的步骤。
本发明还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例中任一项所述的视频分类识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种视频分类识别方法,其特征在于,包括:
当获取到用户的播放请求后,截取视频播放界面的图像信息;
根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息;
将所述标题信息发送至媒资库,得到所述视频播放界面播放视频的类别信息。
2.根据权利要求1所述的视频分类识别方法,其特征在于,所述根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息,具体包括:
将所述图像信息进行预处理,得到待识别的图像;
对所述待识别的图像进行裁剪,得到待识别文字区域;
将所述待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果;
将所述OCR结果输入所述标题识别模型,得到所述视频节目的标题信息。
3.根据权利要求2所述的视频分类识别方法,其特征在于,所述对所述待识别的图像进行裁剪,得到待识别文字区域,具体包括:
基于预设的识别区域定位模板,对所述待识别的图像进行剪裁,得到多个所述待识别文件区域。
4.根据权利要求2所述的视频分类识别方法,其特征在于,所述将所述待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果,具体包括:
对所述待识别文字区域中的字段进行字段信息识别提取,同时将识别提取出的字段信息进行结构化数据输出,得到所述OCR识别结果。
5.根据权利要求2所述的视频分类识别方法,其特征在于,所述将所述图像信息进行预处理,获取待识别的图像,具体包括:
对所述图像信息进行灰度化处理,获取灰度图像;
对所述灰度图像进行透视变换处理,获取矫正图像;
对所述矫正图像进行锐化处理,获取锐化图像;
对所述锐化图像进行二值化处理,获取所述待识别的图像。
6.根据权利要求1所述的视频分类识别方法,其特征在于,所述方法还包括:
获取训练数据和测试数据,其中,所述训练数据包括的第一预设数量的第一图像信息,所述测试数据包括第二预设数量的第二图像信息;
将所述训练数据和所述测试数据输入机器学习模型中进行训练,得到所述标题识别模型。
7.一种视频分类识别装置,其特征在于,包括:
采集模块,用于当获取到用户的播放请求后,截取视频播放界面的图像信息;
识别模块,用于根据所述图像信息和已训练好的标题识别模型,得到所述视频播放界面中播放的视频节目的标题信息;
分类模块,用于将所述标题信息发送至媒资库,得到所述视频播放界面播放视频的类别信息。
8.根据权利要求7所述的视频分类识别装置,其特征在于,
所述识别模块,具体用于将所述图像信息进行预处理,得到待识别的图像;
对所述待识别的图像进行裁剪,得到待识别文字区域;
将所述待识别文字区域输入光学字符识别OCR中进行识别,得到OCR识别结果;
将所述OCR结果输入所述标题识别模型,得到所述视频节目的标题信息。
9.一种计算机可读存储介质,包括指令,其特征在于,当所述指令在计算机上运行时,使所述计算机执行根据权利要求1-6中任一项所述的视频分类识别方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在所述存储器上的并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的视频分类识别方法的步骤。
CN202011288589.1A 2020-11-17 2020-11-17 一种视频分类识别方法、装置、存储介质和设备 Pending CN112418215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011288589.1A CN112418215A (zh) 2020-11-17 2020-11-17 一种视频分类识别方法、装置、存储介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011288589.1A CN112418215A (zh) 2020-11-17 2020-11-17 一种视频分类识别方法、装置、存储介质和设备

Publications (1)

Publication Number Publication Date
CN112418215A true CN112418215A (zh) 2021-02-26

Family

ID=74831983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011288589.1A Pending CN112418215A (zh) 2020-11-17 2020-11-17 一种视频分类识别方法、装置、存储介质和设备

Country Status (1)

Country Link
CN (1) CN112418215A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116032963A (zh) * 2022-12-27 2023-04-28 昆岳互联环境技术(江苏)有限公司 一种工业云平台采集工业生产设备数据的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN105930836A (zh) * 2016-04-19 2016-09-07 北京奇艺世纪科技有限公司 一种视频文字的识别方法和装置
CN108495185A (zh) * 2018-03-14 2018-09-04 北京奇艺世纪科技有限公司 一种视频标题生成方法和装置
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN110008944A (zh) * 2019-02-20 2019-07-12 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN110222234A (zh) * 2019-06-14 2019-09-10 北京奇艺世纪科技有限公司 一种视频分类方法和装置
CN110232340A (zh) * 2019-05-30 2019-09-13 北京百度网讯科技有限公司 建立视频分类模型以及视频分类的方法、装置
CN111414908A (zh) * 2020-03-16 2020-07-14 湖南快乐阳光互动娱乐传媒有限公司 一种视频中字幕字符的识别方法及装置
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
CN105930836A (zh) * 2016-04-19 2016-09-07 北京奇艺世纪科技有限公司 一种视频文字的识别方法和装置
CN108495185A (zh) * 2018-03-14 2018-09-04 北京奇艺世纪科技有限公司 一种视频标题生成方法和装置
CN109359636A (zh) * 2018-12-14 2019-02-19 腾讯科技(深圳)有限公司 视频分类方法、装置及服务器
CN110008944A (zh) * 2019-02-20 2019-07-12 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN111914120A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 视频分类方法、装置、电子设备以及计算机可读存储介质
CN110232340A (zh) * 2019-05-30 2019-09-13 北京百度网讯科技有限公司 建立视频分类模型以及视频分类的方法、装置
CN110222234A (zh) * 2019-06-14 2019-09-10 北京奇艺世纪科技有限公司 一种视频分类方法和装置
CN111414908A (zh) * 2020-03-16 2020-07-14 湖南快乐阳光互动娱乐传媒有限公司 一种视频中字幕字符的识别方法及装置
CN111931775A (zh) * 2020-09-28 2020-11-13 成都索贝数码科技股份有限公司 自动获取新闻标题方法、系统、计算机设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116032963A (zh) * 2022-12-27 2023-04-28 昆岳互联环境技术(江苏)有限公司 一种工业云平台采集工业生产设备数据的方法

Similar Documents

Publication Publication Date Title
US11321583B2 (en) Image annotating method and electronic device
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
CN112153483B (zh) 信息植入区域的检测方法、装置及电子设备
US20190080177A1 (en) Video detection method, server and storage medium
CN109325148A (zh) 生成信息的方法和装置
CN111651636A (zh) 视频相似片段搜索方法及装置
US10769247B2 (en) System and method for interacting with information posted in the media
CN107943811A (zh) 内容的发布方法和装置
CN112084812A (zh) 图像处理方法、装置、计算机设备及存储介质
CN102694950A (zh) 一种文件拍摄与存储的方法及系统
CN111178455B (zh) 图像聚类方法、系统、设备及介质
US11348254B2 (en) Visual search method, computer device, and storage medium
CN111291666A (zh) 游戏直播视频识别方法、装置、电子设备及存储介质
CN111062377A (zh) 一种题号检测方法、系统、存储介质及电子设备
CN110751004A (zh) 二维码检测方法、装置、设备及存储介质
CN112418215A (zh) 一种视频分类识别方法、装置、存储介质和设备
CN112907206A (zh) 一种基于视频对象识别的业务审核方法、装置及设备
CN116261009B (zh) 智能转化影视受众的视频检测方法、装置、设备及介质
CN110853115A (zh) 一种开发流程页面的创建方法及设备
Selvaperumal et al. Haar wavelet transform based text extraction from complex videos
TW201435627A (zh) 搜索優化系統及方法
CN115565181A (zh) 字符识别的方法、电子设备及计算机可读存储介质
CN117009577A (zh) 一种视频数据处理方法、装置、设备及可读存储介质
CN114023333A (zh) 声纹识别的测试方法、装置、存储介质及电子设备
CN111818364A (zh) 视频融合方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226