CN110557678A - 视频处理方法、装置及设备 - Google Patents

视频处理方法、装置及设备 Download PDF

Info

Publication number
CN110557678A
CN110557678A CN201810556777.4A CN201810556777A CN110557678A CN 110557678 A CN110557678 A CN 110557678A CN 201810556777 A CN201810556777 A CN 201810556777A CN 110557678 A CN110557678 A CN 110557678A
Authority
CN
China
Prior art keywords
frame
image
video
area
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810556777.4A
Other languages
English (en)
Other versions
CN110557678B (zh
Inventor
陈思姣
蒋帅
刁世亮
梁海金
罗雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810556777.4A priority Critical patent/CN110557678B/zh
Priority to EP19162925.2A priority patent/EP3499900A3/en
Priority to EP21215540.2A priority patent/EP3993434A1/en
Priority to US16/362,580 priority patent/US10929683B2/en
Publication of CN110557678A publication Critical patent/CN110557678A/zh
Application granted granted Critical
Publication of CN110557678B publication Critical patent/CN110557678B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Systems (AREA)

Abstract

本发明实施例提供一种视频处理方法、装置及设备。该方法包括:获取待处理的视频;对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果;对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果;根据所述第一处理结果和所述第二处理结果,确定所述视频中的实体;根据所述实体的索引信息,获得所述实体的关联信息;根据所述每帧图像对应的第二处理结果和所述实体的关联信息,生成用于描述所述每帧图像的第一文本信息;根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。本发明实施例提高了视频转换为目标文章的效率。

Description

视频处理方法、装置及设备
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种视频处理方法、装置及设备。
背景技术
随着视频行业的发展,互联网中的视频资源越来越丰富,用户可通过终端设备从互联网中下载视频或上传视频,并在该终端设备上播放并观看该视频。
目前,移动终端已经成为用户不可或缺的通信工具,另外,用户还可以通过移动终端从互联网获取视频、播放并观看该视频。但是,用户有时候所处的环境可能不适合该移动终端进行视频播放,例如,用户所处的环境比较安静,如果该移动终端进行视频播放,则会造成一定的影响。
现有技术通过人工编辑的方式,将视频转换为文本文章,以适合用户在不同环境下的需求,但是,人工处理的效率较低。
发明内容
本发明实施例提供一种视频处理方法、装置及设备,以提高视频转换为目标文章的效率。
第一方面,本发明实施例提供一种视频处理方法,包括:
获取待处理的视频;
对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果;
对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果;
根据所述第一处理结果和所述第二处理结果,确定所述视频中的实体;
根据所述实体的索引信息,获得所述实体的关联信息;
根据所述每帧图像对应的第二处理结果和所述实体的关联信息,生成用于描述所述每帧图像的第一文本信息;
根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
第二方面,本发明实施例提供一种视频处理装置,包括:
获取模块,用于获取待处理的视频;
音频处理模块,用于对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果;
图像处理模块,用于对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果;
确定模块,用于根据所述第一处理结果和所述第二处理结果,确定所述视频中的实体;
所述获取模块还用于:根据所述实体的索引信息,获得所述实体的关联信息;
生成模块,用于根据所述每帧图像对应的第二处理结果和所述实体的关联信息,生成用于描述所述每帧图像的第一文本信息;根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
第三方面,本发明实施例提供一种视频处理设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本发明实施例提供的视频处理方法、装置及设备,通过对视频中的音频和图像分别进行处理,根据处理结果确定出该视频中的实体,进一步根据该实体的索引信息获得该实体的关联信息,根据处理结果和该实体的关联信息生成每帧图像的文本描述信息,根据该视频中的图像和每帧图像的文本描述信息可生成图文并茂的目标文章,相比于人工方式将视频转换为文本文章,提高了视频转换为目标文章的效率。
附图说明
图1为本发明实施例提供的一种应用场景的示意图;
图2为本发明实施例提供的视频处理方法流程图;
图3为本发明另一实施例提供的视频处理方法流程图;
图4为本发明另一实施例提供的视频处理方法流程图;
图5为本发明实施例提供的视频中图像的示意图;
图6为本发明实施例提供的视频处理装置的结构示意图;
图7为本发明实施例提供的视频处理设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本发明提供的视频处理方法,可以适用于图1所示的通信系统。如图1所示,该通信系统包括:接入网设备11、终端设备12以及服务器13。其中,接入网设备11可以是基站、中继站或接入点等设备,终端设备12可以是移动终端例如智能手机、个人计算机或平板电脑等。服务器13具体位于网络侧。终端设备12可通过接入网设备11从服务器13下载视频,或者,服务器13通过接入网设备11接收由终端设备12上传的视频。
本发明提供的视频处理方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
图2为本发明实施例提供的视频处理方法流程图。本发明实施例针对现有技术的如上技术问题,提供了视频处理方法,该方法具体步骤如下:
步骤201、获取待处理的视频。
在本实施例中,视频可以是如图1所示的终端设备12通过接入网设备11从服务器13下载的视频,或者是服务器13通过接入网设备11接收的由终端设备12上传的视频。终端设备12或服务器13可根据本实施例所述的视频处理方法对该视频进行处理。下面以服务器13对该视频进行处理为例,该视频可以是该服务器13中预先存储的视频,或者,该服务器13还可以从与其关联的数据库中获取该视频。
步骤202、对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果。
可以理解,视频由音频和图像构成。可选的,该视频包括多帧音频和多帧图像。例如,服务器13获取到终端设备12上传的视频后,对该视频中的多帧音频进行音频处理得到每帧音频对应的第一处理结果。可选的,所述每帧音频对应的第一处理结果包括如下至少一种:所述每帧音频对应的声纹信息、所述每帧音频对应的文本信息、所述每帧音频在所述视频中的时间信息。
此处,为了和后续步骤中出现的用于描述所述每帧图像的文本信息加以区分,将用于描述所述每帧图像的文本信息记为第一文本信息,将所述每帧音频对应的文本信息记为第二文本信息。
例如,服务器13可分析出每帧音频中的声纹信息,可以理解,每个人的声纹信息有所不同,通过声纹信息可识别出相应的音频对应的是谁说的话。另外,服务器13还可以将该视频中的音频转换为文本信息,以及确定出该音频在该视频中出现的时间,例如,该视频的总时长为180秒,与该声纹信息匹配的人物在该180秒的第3秒到第6秒之间说了一句话,则服务器13可根据音频的特征,从该视频中分析出该音频出现的时间。
步骤203、对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果。
可选的,服务器13以秒为单元截取该视频中的一帧图像,并对该图像进行图像处理得到每帧图像对应的第二处理结果。可选的,所述每帧图像对应的第二处理结果包括如下至少一种:所述每帧图像中的字幕信息、人物信息、背景信息。其中,所述人物信息包括如下至少一种:人物动作信息、人物表情信息、人物名字。
例如,服务器13通过机器学习方法识别出每帧图像中有字符的区域,并根据有字符的区域确定出字幕信息。根据显著性识别算法可识别出图像中的人物区域和背景区域。另外,服务器13通过识别图像中人物的躯体部分可确定出人物动作信息,通过识别图像中人物的脸部可确定出人物表情信息。可以理解,并不是每帧图像中都包括人物。
另外,通过人物的脸部特征还可确定出人物名字,例如,服务器13或与服务器13关联的数据库中存储有大量的人物图像和该人物的属性信息例如名字,服务器13根据该视频对应的图像中人物的脸部特征,从服务器13或该数据库中查询获取与该脸部特征匹配的人物图像,进一步确定出与该脸部特征匹配的人物名字。
步骤204、根据所述第一处理结果和所述第二处理结果,确定所述视频中的实体。
服务器13根据上述第一处理结果和第二处理结果,确定该视频中的实体,该实体具体可以是该视频的名称例如电视剧名称,另外,该实体还可以是该视频中出现的人物。例如,该视频是某电视剧的一个片段,通过对该视频中每帧图像进行人脸识别,可确定出该视频中出现的人物。进一步,根据不同人物出镜的次数可确定出不同人物在该视频中的出镜比例,从而根据该出镜比例确定出该视频中的主角人物。此外,该视频的某几帧图像中还可能显示有该电视剧的名称,服务器13通过上述的图像处理可获取到该电视剧的名称。
步骤205、根据所述实体的索引信息,获得所述实体的关联信息。
例如,服务器13识别出该电视剧的名称为“隋唐演义”,该视频中频繁出现的人物为“王宝强”,则服务器13可将“隋唐演义”和“王宝强”作为索引信息,查询数据库获得该电视剧的相关历史背景和相关描述,以及“王宝强”在该电视剧中扮演的角色例如“李元霸”,进一步,服务器13还可以将“李元霸”作为索引信息,获得关于“李元霸”的介绍信息。
步骤206、根据所述每帧图像对应的第二处理结果和所述实体的关联信息,生成用于描述所述每帧图像的第一文本信息。
例如,该视频中的某一帧图像中包括人物“王宝强”,以及“王宝强”说的台词对应的字幕信息,服务器13根据“王宝强”可确定出“王宝强”扮演的角色为“李元霸”,进一步对该帧图像进行图像处理以确定“王宝强”在该帧图像中的动作和表情,从而生成对该帧图像进行描述的文本信息,该文本信息例如为“李元霸听罢笑着说:你的锤比我的锤大”。该视频中其他图像对应的描述信息的生成方法与此类似,此处不再赘述。
步骤207、根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
在本实施例中,目标文章的类型包括但不限于如下几种:视频片段描述类型、明星精彩剧照类型、视频转写类型。可选的,本实施例将视频片段描述类型记为第一类型,将视频转写类型记为第二类型,将明星精彩剧照类型记为第三类型。
当服务器13生成该视频中每帧图像的描述信息即第一文本信息后,可根据该视频中的多帧图像和每帧图像的描述信息,生成视频片段描述类型的目标文章,该视频片段描述类型的目标文章适用于人物之间对话的视频。
一种可能的方式中,根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
可以理解,该视频包括多帧图像,但是每帧图像的信息增益可能是不同的,根据每帧图像的信息增益,可从该多帧图像中筛选出至少一帧信息增益大于阈值的目标图像,例如,该视频一共包括180帧图像,去除分辨率较低的图像以及和目标文章主题不符的图像,可能只有10帧图像的信息增益大于阈值,因此,可将该10帧图像和每帧图像的描述信息构成视频片段描述类型的目标文章。例如,服务器13中预先存储有文章模板,该文章模板包括图像的放置区域,以及描述信息的放置区域,服务器13将该10帧图像和每帧图像的描述信息放置到该文章模板的相应区域,即可得到视频片段描述类型的目标文章,可以理解,该目标文章是图文并茂的文章。进一步,服务器13可以将该视频片段描述类型的目标文章推送给其他终端设备,使得其他终端设备在接收到该目标文章后,用户通过阅读该目标文章即可了解该视频的内容。此外,服务器13还可以将该视频和该视频对应的目标文章一起推送给其他终端设备,使得用户可以自由选择观看该视频,或阅读该视频对应的目标文章。
另外,在本实施例的基础上,还可以根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
可以理解,视频的类型有很多,其中包括解说类的视频,例如,演示做菜的解说类视频、知识讲座的解说类视频等。对于这类视频,服务器13识别出每帧图像中的字幕信息后,根据该视频中的多帧图像和每帧图像中的字幕信息可生成视频转写类型的目标文章。如果该视频没有字幕信息,服务器13还可以将该视频中的音频转换为文本信息,并根据多帧图像和由该音频转换成的文本信息生成视频转写类型的目标文章。
一种可能的方式中,根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
同理于视频片段描述类型的目标文章的生成方法,服务器13需要从该视频的多帧图像中筛选出至少一帧信息增益大于阈值的目标图像,具体方法及过程与上述内容一致,此处不再赘述。对于演示做菜的解说类视频,该目标图像可以是做菜过程中关键步骤的图像。
服务器13根据该至少一帧信息增益大于阈值的目标图像和每帧图像中的字幕信息可生成视频转写类型的目标文章;或者,服务器13根据该至少一帧信息增益大于阈值的目标图像和由该音频转换成的文本信息生成视频转写类型的目标文章。进一步,服务器13将该视频转写类型的目标文章推送给其他终端设备,或者,将该解说类视频和该解说类视频对应的目标文章一起推送给其他终端设备。
可以理解的,本实施例以服务器执行该视频处理方法为例,本实施例还可以适用终端设备执行该视频处理方法的场景,当终端设备对视频进行处理得到该视频对应的目标文章后,可以将该目标文章上传到服务器上,再由服务器将该目标文章推送给其他终端设备。
此外,服务器13还可以获取视频中的明星精彩剧照,并结合该视频中每帧图像的描述信息生成明星精彩剧照类型的目标文章,类似于该视频片段描述类型的目标文章,此处不再赘述。
或者,服务器13还可以查询某位明星出演过的各部电视剧,并从各部电视剧中获取该明星精彩剧照,并结合每部电视剧的描述信息生成明星精彩剧照类型的目标文章。
本发明实施例通过对视频中的音频和图像分别进行处理,根据处理结果确定出该视频中的实体,进一步根据该实体的索引信息获得该实体的关联信息,根据处理结果和该实体的关联信息生成每帧图像的文本描述信息,根据该视频中的图像和每帧图像的文本描述信息可生成图文并茂的目标文章,相比于人工方式将视频转换为文本文章,提高了视频转换为目标文章的效率。
图3为本发明另一实施例提供的视频处理方法流程图。在上述实施例的基础上,对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果的方法具体包括如下步骤:
步骤301、对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域。
在本实施例中,视频的每帧图像包括字幕区域,该字幕区域具体有如下几方面的特征:
空间特征:字幕区域在图像中的位置相对固定,通常字幕区域有如下三种对齐方式:左对齐、右对齐、居中对齐。
时间特征:字幕区域可容纳的字符个数是有限的,当该字幕区域中的文字信息越长时,该文字信息在视频中停留的时间越长,以便用户可以有足够的时间阅读完该文字信息。例如,该文字信息包括10个字符,该文字信息会持续出现在相邻的4帧图像中,若该文字信息包括3个字符,该文字信息可能只会出现在1帧图像中,此处只是示意性说明,并不限定文字信息的长度和该文字信息停留的时间长度的关系。
由于字幕区域具有以上特征,服务器13可根据该字幕区域的特征,确定出每帧图像的字幕区域。
步骤302、从所述每帧图像的字幕区域中确定所述每帧图像中的字幕信息。
由于字幕区域在每帧图像中的位置是相对固定的,则当服务器13确定出每帧图像的字幕区域后,可从每帧图像的字幕区域中获取该帧图像中的字幕信息。
作为对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域的一种可行的实现方式包括如图4所示的如下步骤:
步骤401、对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像包括字符的字符区域。
可以理解,该视频的图像中不仅包括字幕区域,可能还有新闻、广告的显示区域、或该视频名称的显示区域,由于新闻、广告、视频名称由文字形式展现,而新闻、广告、视频名称可能分布在图像的不同区域,如图5所示,50表示该视频的某帧图像,其中,该视频名称位于区域51、字幕区域对应于区域52,新闻、广告等滚动信息位于区域53。
服务器13对图像50进行图像处理时,可确定出图像50中包括字符的字符区域,例如区域51、区域52和区域53,服务器13需要进一步确定区域51、区域52和区域53中的哪个区域是字幕区域即显示台词的区域。此处只是示意性说明,并不限定区域51、区域52和区域53在图像中的布局。
步骤402、对所述每帧图像中同一位置的字符区域进行叠加,得到所述位置的字符区域对应的叠加区域。
可选的,区域51、区域52和区域53在该每帧图像中的位置相对固定,服务器13可以对该视频中的多帧图像进行叠加,该多帧图像可以是该视频包括的所有图像,也可以是和图像50相邻的多帧图像。可以理解,对多帧图像进行叠加后,相当于对每帧图像中的区域51进行了叠加、对每帧图像中的区域52进行了叠加、以及对每帧图像中的区域53进行了叠加,从而得到区域51对应的叠加区域、区域52对应的叠加区域、以及区域53对应的叠加区域。
步骤403、根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域。
可以理解,区域51中显示的该视频名称例如电视剧名称长度是固定的;区域52中显示的字幕长度是变化的,例如部分图像显示的字幕长、部分图像显示的字幕短;区域53中显示的新闻、广告等滚动信息的长度也是变化的,但是由于大部分图像中显示的滚动信息可以填满区域53,少数图像中显示的滚动信息不足以填满区域53。因此,区域51对应的叠加区域的亮度是均匀分布的,区域52对应的叠加区域的亮度会有渐变,区域53对应的叠加区域的亮度不会有明显的渐变。因此,根据区域51、区域52和区域53分别对应的叠加区域的亮度分布可确定出字幕区域。
可选的,根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域,包括如下几种可行的实现方式:
一种可行的实现方式是:若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的左侧向右侧衰减,则确定所述位置的字符区域为字幕区域。
例如,字幕区域以左对齐方式对齐,则字幕区域的左侧总会有字符显示,但是字幕区域的中部或右侧有时会有字符显示、有时没有字符显示,则字幕区域对应的叠加区域的亮度从该叠加区域的左侧开始向右侧衰减。因此,如果区域52对应的叠加区域满足亮度从该叠加区域的左侧开始向右侧衰减的条件,且区域51对应的叠加区域和区域53对应的叠加区域都不满足该条件,则确定区域52为字幕区域。
另一种可行的实现方式是:若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的右侧向左侧衰减,则确定所述位置的字符区域为字幕区域。
例如,字幕区域以右对齐方式对齐,同理于左对齐方式,该字幕区域对应的叠加区域的亮度将从该叠加区域的右侧开始向左侧衰减。因此,如果区域52对应的叠加区域满足亮度从该叠加区域的右侧开始向左侧衰减的条件,且区域51对应的叠加区域和区域53对应的叠加区域都不满足该条件,则确定区域52为字幕区域。
再一种可行的实现方式是:若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减,则确定所述位置的字符区域为字幕区域。
例如,字幕区域以居中对齐方式对齐,则字幕区域的中间位置总会有字符显示,但是字幕区域的左右两侧有时会有字符显示、有时没有字符显示,则字幕区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减。因此,如果区域52对应的叠加区域满足亮度从该叠加区域的中间向左右两侧衰减的条件,且区域51对应的叠加区域和区域53对应的叠加区域都不满足该条件,则确定区域52为字幕区域。
作为另一种可能的方式,本实施例还可以根据字幕区域的时间特征,从区域51、区域52和区域53中确定出字幕区域。
由于字幕区域中的文字信息越长,该文字信息在视频中停留的时间越长,例如,该视频的第3秒到第6秒之间的音频对应人物所说的一句话,该音频对应的字幕将停留在第3秒到第6秒之间的每帧图像上,即第3秒到第6秒之间每帧图像显示的字幕是相同的。但是,对于新闻、广告等滚动信息,连续数帧图像显示的新闻、广告等对应的文字是不同的。
可选的,服务器13将每帧图像中区域51显示的文字记为第一字符串,将区域52显示的文字记为第二字符串,将区域53显示的文字记为第三字符串。服务器13统计同一个第一字符串在该视频连续的几帧图像中出现,统计同一个第二字符串在该视频连续的几帧图像中出现,以及统计同一个第三字符串在该视频连续的几帧图像中出现。可以理解,如果区域51中显示的是视频名称,则该视频名称将出现在该视频的每帧图像中。如果区域52为字幕区域,则该区域52中同一个字幕可能会出现在连续的3到5帧图像中出现。如果区域53显示新闻、广告等滚动信息,则在连续数帧图像中区域53显示的字符串是不同的。
本发明实施例通过将视频转换为带有文字的文章,使得用户可以通过不同的方式获取视频内容,增加了用户获取视频内容的灵活性,另外,对于写作文章的用户而言,不需要逐字逐句的撰写文章,可以将选好的视频直接转换为文章,并上传到服务器,提高了用户撰写文章的效率。
图6为本发明实施例提供的视频处理装置的结构示意图。本发明实施例提供的视频处理装置可以执行视频处理方法实施例提供的处理流程,如图6所示,视频处理装置60包括:获取模块61、音频处理模块62、图像处理模块63、确定模块64、生成模块65;其中,获取模块61用于获取待处理的视频;音频处理模块62用于对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果;图像处理模块63用于对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果;确定模块64用于根据所述第一处理结果和所述第二处理结果,确定所述视频中的实体;获取模块61还用于:根据所述实体的索引信息,获得所述实体的关联信息;生成模块65用于根据所述每帧图像对应的第二处理结果和所述实体的关联信息,生成用于描述所述每帧图像的第一文本信息;根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
可选的,所述每帧音频对应的第一处理结果包括如下至少一种:所述每帧音频对应的声纹信息、所述每帧音频对应的第二文本信息、所述每帧音频在所述视频中的时间信息。
可选的,所述每帧图像对应的第二处理结果包括如下至少一种:所述每帧图像中的字幕信息、人物信息、背景信息。
可选的,所述人物信息包括如下至少一种:人物动作信息、人物表情信息、人物名字。
可选的,生成模块65包括:选择单元651和生成单元652;所述选择单元651用于根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;所述生成单元652用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
可选的,生成模块65还用于:根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
可选的,生成模块65包括:选择单元651和生成单元652;所述选择单元651用于根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;所述生成单元652用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
可选的,图像处理模块63对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果时,具体用于:对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域;从所述每帧图像的字幕区域中确定所述每帧图像中的字幕信息。
可选的,图像处理模块63对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域时,具体用于:对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像包括字符的字符区域;对所述每帧图像中同一位置的字符区域进行叠加,得到所述位置的字符区域对应的叠加区域;根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域。
可选的,图像处理模块63根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域时,具体用于:若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的左侧向右侧衰减,则确定所述位置的字符区域为字幕区域。
可选的,图像处理模块63根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域时,具体用于:若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的右侧向左侧衰减,则确定所述位置的字符区域为字幕区域。
可选的,图像处理模块63根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域时,具体用于:若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减,则确定所述位置的字符区域为字幕区域。
图6所示实施例的视频处理装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明实施例提供的视频处理设备的结构示意图。本发明实施例提供的视频处理设备可以执行视频处理方法实施例提供的处理流程,如
图7所示,视频处理设备70包括存储器71、处理器72、计算机程序和通讯接口73;其中,计算机程序存储在存储器71中,并被配置为由处理器72执行以上实施例所述的视频处理方法。
图7所示实施例的视频处理设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的视频处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (26)

1.一种视频处理方法,其特征在于,包括:
获取待处理的视频;
对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果;
对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果;
根据所述第一处理结果和所述第二处理结果,确定所述视频中的实体;
根据所述实体的索引信息,获得所述实体的关联信息;
根据所述每帧图像对应的第二处理结果和所述实体的关联信息,生成用于描述所述每帧图像的第一文本信息;
根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
2.根据权利要求1所述的方法,其特征在于,所述每帧音频对应的第一处理结果包括如下至少一种:
所述每帧音频对应的声纹信息、所述每帧音频对应的第二文本信息、所述每帧音频在所述视频中的时间信息。
3.根据权利要求1所述的方法,其特征在于,所述每帧图像对应的第二处理结果包括如下至少一种:
所述每帧图像中的字幕信息、人物信息、背景信息。
4.根据权利要求3所述的方法,其特征在于,所述人物信息包括如下至少一种:
人物动作信息、人物表情信息、人物名字。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章,包括:
根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;
根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章,包括:
根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;
根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果,包括:
对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域;
从所述每帧图像的字幕区域中确定所述每帧图像中的字幕信息。
9.根据权利要求8所述的方法,其特征在于,所述对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域,包括:
对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像包括字符的字符区域;
对所述每帧图像中同一位置的字符区域进行叠加,得到所述位置的字符区域对应的叠加区域;
根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域。
10.根据权利要求9所述的方法,其特征在于,所述根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域,包括;
若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的左侧向右侧衰减,则确定所述位置的字符区域为字幕区域。
11.根据权利要求9所述的方法,其特征在于,所述根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域,包括;
若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的右侧向左侧衰减,则确定所述位置的字符区域为字幕区域。
12.根据权利要求9所述的方法,其特征在于,所述根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域,包括;
若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减,则确定所述位置的字符区域为字幕区域。
13.一种视频处理装置,其特征在于,包括:
获取模块,用于获取待处理的视频;
音频处理模块,用于对所述视频中多帧音频进行音频处理得到每帧音频对应的第一处理结果;
图像处理模块,用于对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果;
确定模块,用于根据所述第一处理结果和所述第二处理结果,确定所述视频中的实体;
所述获取模块还用于:根据所述实体的索引信息,获得所述实体的关联信息;
生成模块,用于根据所述每帧图像对应的第二处理结果和所述实体的关联信息,生成用于描述所述每帧图像的第一文本信息;根据所述多帧图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
14.根据权利要求13所述的视频处理装置,其特征在于,所述每帧音频对应的第一处理结果包括如下至少一种:
所述每帧音频对应的声纹信息、所述每帧音频对应的第二文本信息、所述每帧音频在所述视频中的时间信息。
15.根据权利要求13所述的视频处理装置,其特征在于,所述每帧图像对应的第二处理结果包括如下至少一种:
所述每帧图像中的字幕信息、人物信息、背景信息。
16.根据权利要求15所述的视频处理装置,其特征在于,所述人物信息包括如下至少一种:
人物动作信息、人物表情信息、人物名字。
17.根据权利要求13-16任一项所述的视频处理装置,其特征在于,所述生成模块包括:选择单元和生成单元;
所述选择单元用于根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;
所述生成单元用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像的第一文本信息生成第一类型的目标文章。
18.根据权利要求13-16任一项所述的视频处理装置,其特征在于,所述生成模块还用于:
根据所述多帧图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
19.根据权利要求18所述的视频处理装置,其特征在于,所述生成模块包括:选择单元和生成单元;
所述选择单元用于根据所述多帧图像中每帧图像的信息增益,从所述多帧图像中选择至少一帧信息增益大于阈值的目标图像;
所述生成单元用于根据所述至少一帧信息增益大于阈值的目标图像和所述每帧图像对应的第二处理结果生成第二类型的目标文章。
20.根据权利要求13-16任一项所述的视频处理装置,其特征在于,所述图像处理模块对所述视频中多帧图像进行图像处理得到每帧图像对应的第二处理结果时,具体用于:
对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域;
从所述每帧图像的字幕区域中确定所述每帧图像中的字幕信息。
21.根据权利要求20所述的视频处理装置,其特征在于,所述图像处理模块对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像的字幕区域时,具体用于:
对所述视频中多帧图像进行图像处理,确定所述多帧图像中每帧图像包括字符的字符区域;
对所述每帧图像中同一位置的字符区域进行叠加,得到所述位置的字符区域对应的叠加区域;
根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域。
22.根据权利要求21所述的视频处理装置,其特征在于,所述图像处理模块根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域时,具体用于:
若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的左侧向右侧衰减,则确定所述位置的字符区域为字幕区域。
23.根据权利要求21所述的视频处理装置,其特征在于,所述图像处理模块根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域时,具体用于:
若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的右侧向左侧衰减,则确定所述位置的字符区域为字幕区域。
24.根据权利要求21所述的视频处理装置,其特征在于,所述图像处理模块根据不同位置的字符区域对应的叠加区域的亮度变化,从所述不同位置的字符区域中确定出字幕区域时,具体用于:
若所述位置的字符区域对应的叠加区域的亮度从所述叠加区域的中间向左右两侧衰减,则确定所述位置的字符区域为字幕区域。
25.一种视频处理设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-12任一项所述的方法。
26.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-12任一项所述的方法。
CN201810556777.4A 2018-05-31 2018-05-31 视频处理方法、装置及设备 Active CN110557678B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810556777.4A CN110557678B (zh) 2018-05-31 2018-05-31 视频处理方法、装置及设备
EP19162925.2A EP3499900A3 (en) 2018-05-31 2019-03-14 Video processing method, apparatus and device
EP21215540.2A EP3993434A1 (en) 2018-05-31 2019-03-14 Video processing method, apparatus and device
US16/362,580 US10929683B2 (en) 2018-05-31 2019-03-22 Video processing method, apparatus and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810556777.4A CN110557678B (zh) 2018-05-31 2018-05-31 视频处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110557678A true CN110557678A (zh) 2019-12-10
CN110557678B CN110557678B (zh) 2022-05-03

Family

ID=65817803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810556777.4A Active CN110557678B (zh) 2018-05-31 2018-05-31 视频处理方法、装置及设备

Country Status (3)

Country Link
US (1) US10929683B2 (zh)
EP (2) EP3499900A3 (zh)
CN (1) CN110557678B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444823A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 处理视频数据的方法、装置、计算机设备和存储介质
CN113033662A (zh) * 2021-03-25 2021-06-25 北京华宇信息技术有限公司 多视频关联方法及装置
CN115460433A (zh) * 2021-06-08 2022-12-09 京东方科技集团股份有限公司 一种视频处理方法、装置、电子设备及存储介质

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948627B (zh) * 2019-12-11 2023-02-03 杭州海康威视数字技术股份有限公司 一种报警视频生成方法、显示方法和装置
CN111445902B (zh) * 2020-03-27 2023-05-30 北京字节跳动网络技术有限公司 数据收集方法、装置、存储介质及电子设备
CN111741326B (zh) * 2020-06-30 2023-08-18 腾讯科技(深圳)有限公司 视频合成方法、装置、设备及存储介质
CN113515649B (zh) * 2020-11-19 2024-03-01 阿里巴巴集团控股有限公司 数据的结构化方法、系统、装置、设备和存储介质
CN112818984B (zh) * 2021-01-27 2023-10-24 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质
CN113395569B (zh) * 2021-05-29 2022-12-09 北京优幕科技有限责任公司 视频生成方法及装置
CN113361462B (zh) * 2021-06-30 2022-11-08 北京百度网讯科技有限公司 视频处理和字幕检测模型的方法及装置
CN114170553A (zh) * 2021-12-09 2022-03-11 北京字节跳动网络技术有限公司 图像处理方法、装置和电子设备
CN116708899B (zh) * 2022-06-30 2024-01-23 北京生数科技有限公司 应用于合成虚拟形象的视频处理方法、装置及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835578B2 (en) * 2006-04-19 2010-11-16 Sarnoff Corporation Automated video-to-text system
CN102916951A (zh) * 2012-10-11 2013-02-06 北京百度网讯科技有限公司 多媒体信息转换的方法、系统和装置
TW201410028A (zh) * 2012-08-31 2014-03-01 Fluiditech Ip Ltd 影音文字紀錄系統
CN104794104A (zh) * 2015-04-30 2015-07-22 努比亚技术有限公司 多媒体文档的生成方法及装置
CN105302906A (zh) * 2015-10-29 2016-02-03 小米科技有限责任公司 信息标注方法及装置
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6925197B2 (en) * 2001-12-27 2005-08-02 Koninklijke Philips Electronics N.V. Method and system for name-face/voice-role association
US20080059522A1 (en) * 2006-08-29 2008-03-06 International Business Machines Corporation System and method for automatically creating personal profiles for video characters
CN102685574A (zh) * 2011-03-09 2012-09-19 须泽中 从数字电视节目中自动抽取图像的系统及其应用
CN105224925A (zh) * 2015-09-30 2016-01-06 努比亚技术有限公司 视频处理装置、方法及移动终端

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835578B2 (en) * 2006-04-19 2010-11-16 Sarnoff Corporation Automated video-to-text system
TW201410028A (zh) * 2012-08-31 2014-03-01 Fluiditech Ip Ltd 影音文字紀錄系統
CN102916951A (zh) * 2012-10-11 2013-02-06 北京百度网讯科技有限公司 多媒体信息转换的方法、系统和装置
CN104794104A (zh) * 2015-04-30 2015-07-22 努比亚技术有限公司 多媒体文档的生成方法及装置
CN105302906A (zh) * 2015-10-29 2016-02-03 小米科技有限责任公司 信息标注方法及装置
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN107241616A (zh) * 2017-06-09 2017-10-10 腾讯科技(深圳)有限公司 视频台词提取方法、装置及存储介质
CN107818785A (zh) * 2017-09-26 2018-03-20 平安普惠企业管理有限公司 一种从多媒体文件中提取信息的方法及终端设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444823A (zh) * 2020-03-25 2020-07-24 北京奇艺世纪科技有限公司 处理视频数据的方法、装置、计算机设备和存储介质
CN113033662A (zh) * 2021-03-25 2021-06-25 北京华宇信息技术有限公司 多视频关联方法及装置
CN115460433A (zh) * 2021-06-08 2022-12-09 京东方科技集团股份有限公司 一种视频处理方法、装置、电子设备及存储介质
CN115460433B (zh) * 2021-06-08 2024-05-28 京东方科技集团股份有限公司 一种视频处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
EP3499900A3 (en) 2019-10-02
US20190370557A1 (en) 2019-12-05
EP3993434A1 (en) 2022-05-04
US10929683B2 (en) 2021-02-23
CN110557678B (zh) 2022-05-03
EP3499900A2 (en) 2019-06-19

Similar Documents

Publication Publication Date Title
CN110557678B (zh) 视频处理方法、装置及设备
CN110968736B (zh) 视频生成方法、装置、电子设备及存储介质
CN109729420B (zh) 图片处理方法及装置、移动终端及计算机可读存储介质
CN103686344B (zh) 增强视频系统及方法
CN109218629B (zh) 视频生成方法、存储介质和装置
CN105872442A (zh) 一种基于人脸识别的即时弹幕礼物赠送方法及系统
CN105847735A (zh) 一种基于人脸识别的即时弹幕视频通信方法及系统
JP6202815B2 (ja) 文字認識装置および文字認識方法並びに文字認識プログラム
CN113536172B (zh) 一种百科信息展示的方法、装置及计算机存储介质
CN112601120B (zh) 字幕显示方法及装置
CN111401238A (zh) 一种视频中人物特写片段的检测方法及装置
CN113132780A (zh) 一种视频合成的方法、装置、电子设备及可读存储介质
CN113542833A (zh) 基于人脸识别的视频播放方法、装置、设备及存储介质
CN108182249A (zh) 文字查询方法、装置及计算机可读存储介质
JP6506427B1 (ja) 情報処理装置、動画検索方法、生成方法及びプログラム
CN112866577B (zh) 图像的处理方法、装置、计算机可读介质及电子设备
CN104485122A (zh) 通信信息导出方法、装置,以及终端设备
CN114564952A (zh) 一种文本标题生成方法、装置、设备及介质
CN113269855A (zh) 一种文字语义转场景动画的方法、设备及存储介质
CN112188116A (zh) 基于对象的视频合成方法、客户端及系统
CN111160051A (zh) 数据处理方法、装置、电子设备及存储介质
CN109905766A (zh) 一种动态视频海报生成方法、系统、装置及存储介质
WO2023103597A1 (zh) 多媒体内容的分享方法、装置、设备、介质及程序产品
JP2019144817A (ja) 映像出力装置、映像出力方法および映像出力プログラム
CN105898182A (zh) 一种基于人脸识别的弹幕点歌方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant