CN117528142A - 图像生成方法、装置、电子设备、存储介质和程序产品 - Google Patents

图像生成方法、装置、电子设备、存储介质和程序产品 Download PDF

Info

Publication number
CN117528142A
CN117528142A CN202311483259.1A CN202311483259A CN117528142A CN 117528142 A CN117528142 A CN 117528142A CN 202311483259 A CN202311483259 A CN 202311483259A CN 117528142 A CN117528142 A CN 117528142A
Authority
CN
China
Prior art keywords
target
text
target object
video
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311483259.1A
Other languages
English (en)
Inventor
陈姿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311483259.1A priority Critical patent/CN117528142A/zh
Publication of CN117528142A publication Critical patent/CN117528142A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • G06V10/16Image acquisition using multiple overlapping images; Image stitching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/86Arrangements for image or video recognition or understanding using pattern recognition or machine learning using syntactic or structural representations of the image or video pattern, e.g. symbolic string recognition; using graph matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种图像生成方法、装置、电子设备、存储介质和程序产品,可以应用于计算机视觉、自然语言处理等人工智能领域,也可以应用于预训练模型等大模型领域;本申请获取待处理视频;从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本;创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系;根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧;由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像。在本申请中,通过提取视频中目标对象对应的纲要信息和内容文本,以提升基于视频生成文本拼接图像的效率性。

Description

图像生成方法、装置、电子设备、存储介质和程序产品
技术领域
本申请涉及计算机技术领域,具体涉及一种图像生成方法、装置、电子设备、存储介质和程序产品。
背景技术
随着计算机技术的进步,对视频画面的拼图应用越来越广泛。用户可以使用视频平台自带的拼图功能或第三方拼图应用从视频中截取多张视频帧,将视频帧中的内容进行拼接,生成拼接图像。
然而,视频由多个连续的图像帧组成,每一帧包含了丰富的内容。在制作拼接图像时,通常用户需要一一查找其感兴趣的内容对应的视频帧,在对查找到的视频帧进行拼接,过程繁琐且耗时长。尤其是对于内容丰富或时长较长的视频,例如访谈类或对话较多的视频,这类视频的时长可能几十分钟或者1个小时,用户难以在大量、话题内容复杂的视频帧中,准确查找到想要的信息。
发明内容
本申请实施例提供一种图像生成方法、装置、电子设备、存储介质和程序产品,可以通过提取视频中目标对象对应的纲要信息和内容文本,以快速生成该目标对象相关的文本拼接图像,以提升基于视频生成文本拼接图像的效率性。
本申请实施例提供一种图像生成方法,包括:获取待处理视频,所述待处理视频包括多个视频帧,所述待处理视频中显示有至少一个目标对象;从所述多个视频帧中,提取所述目标对象对应的纲要信息以及所述目标对象对应的内容文本;创建所述目标对象对应的纲要信息、相应的所述内容文本以及相应的视频帧的映射关系;根据指向目标纲要信息的内容拼接请求,从所述映射关系中查找所述目标纲要信息对应的目标内容文本以及目标视频帧;由所述目标纲要信息、所述目标内容文本以及所述目标视频帧,生成文本拼接图像。
本申请实施例还提供一种图像生成装置,包括:获取单元,用于获取待处理视频,所述待处理视频包括多个视频帧,所述待处理视频中显示有至少一个目标对象;提取单元,用于从所述多个视频帧中,提取所述目标对象对应的纲要信息以及所述目标对象对应的内容文本;映射单元,用于创建所述目标对象对应的纲要信息、相应的所述内容文本以及相应的视频帧的映射关系;查找单元,用于根据指向目标纲要信息的内容拼接请求,从所述映射关系中查找所述目标纲要信息对应的目标内容文本以及目标视频帧;拼接单元,用于由所述目标纲要信息、所述目标内容文本以及所述目标视频帧,生成文本拼接图像。
在一些实施方式中,所述获取单元包括第一获取子单元以及第二获取子单元,包括:所述第一获取子单元,用于根据对原始视频的任一播放时间点的选择操作,确定所述任一播放时间点对应的目标时间段;所述第二获取子单元,用于从所述原始视频中,获取所述目标时间段内的待处理视频。
在一些实施方式中,所述图像生成装置还包括预览单元,包括:所述预览单元,用于根据对所述原始视频的任一播放时间点的预览操作,显示所述任一播放时间点对应的预览用文本拼接图像。
在一些实施方式中,提取单元包括第一提取子单元、第二提取子单元以及第三提取子单元,包括:所述第一提取子单元,用于从所述多个视频帧中,确定所述目标对象对应的候选帧;所述第二提取子单元,用于从所述目标对象对应的候选帧中,提取所述目标对象的对象特征以及所述目标对象对应的内容文本;所述第三提取子单元,用于根据所述对象特征,确定所述目标对象对应的纲要信息。
在一些实施方式中,所述第一提取子单元包括匹配子单元、候选帧确定子单元,包括:所述匹配子单元,用于对所述视频帧与预设的表情模板进行匹配;所述候选帧确定子单元,用于将与所述预设的表情模板匹配的所述视频帧确定为候选帧。
在一些实施方式中,所述对象特征包括所述目标对象的表情特征,所述纲要信息包括所述目标对象的表情信息,所述第三提取子单元包括特征提取子单元以及表情类型确定子单元,包括:所述特征提取子单元,用于从所述候选帧中,提取所述目标对象的表情特征;所述表情类型确定子单元,用于对所述表情特征进行分类处理,确定所述目标对象的表情类型。
在一些实施方式中,所述纲要信息还包括所述目标对象对应的内容关键词,所述第三提取子单元还包括语义理解子单元以及关键词确定子单元,包括:所述语义理解子单元,用于对所述目标对象对应的内容文本进行语义理解,得到语义表示;所述关键词确定子单元,用于根据所述语义表示,确定所述目标对象对应的内容关键词。
在一些实施方式中,提取单元还包括文本提取子单元以及文本拼接子单元,包括:所述文本提取子单元,用于从所述候选帧中的指定区域提取显示文本,所述指定区域与所述显示文本的文本类型相关;所述文本拼接子单元,用于对任一所述目标对象对应的所述显示文本进行拼接,得到所述任一所述目标对象对应的内容文本。
在一些实施方式中,所述文本拼接子单元包括第一文本拼接子单元以及第二文本拼接子单元,包括:所述第一文本拼接子单元,用于基于所述显示文本的上下文关系,从任一所述目标对象对应的所述显示文本中查找属于同一段落的所述显示文本;所述第二文本拼接子单元,用于在所述任一所述目标对象对应的所述显示文本中,将属于同一段落的所述显示文本进行拼接,得到所述任一所述目标对象对应的内容文本。
在一些实施方式中,所述映射单元包括第一映射子单元以及第二映射子单元,包括:所述第一映射子单元,用于将所述目标对象对应的纲要信息作为索引标题;所述第二映射子单元,用于将所述目标对象对应的内容文本以及所述目标对象对应的目标视频帧作为索引内容,创建所述目标对象的索引。
在一些实施方式中,所述索引的所述索引标题存储在索引目录中,所述查找单元包括第一查找子单元以及第二查找子单元,包括:所述第一查找子单元,用于根据所述指向所述目标纲要信息的内容拼接请求,从所述索引目录中查找与所述内容拼接请求匹配的目标索引标题;所述第二查找子单元,用于从所述目标索引标题对应的索引中,获取目标索引内容,所述目标索引内容包括所述目标纲要信息对应的目标内容文本以及目标视频帧。
在一些实施方式中,所述目标对象对应的内容文本包括多个段落,所述拼接单元包括第一拼接子单元、第二拼接子单元以及第三拼接子单元,包括:所述第一拼接子单元,用于将所述段落分别添加在目标图像中,得到多个待拼接图像,所述目标图像为与所述目标视频帧相关的图像;所述第二拼接子单元,用于根据所述多个段落的语序,将所述多个待拼接图像进行拼接,得到初始文本拼接图像;所述第三拼接子单元,用于将所述目标纲要信息添加在所述初始文本拼接图像中,得到所述文本拼接图像。
本申请实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行本申请实施例所提供的任一种图像生成方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例所提供的任一种图像生成方法中的步骤。
本申请实施例还提供一种计算机程序产品,包括多条指令,所述指令被处理器执行时实现本申请实施例所提供的任一种图像生成方法中的步骤。
本申请实施例可以获取待处理视频,所述待处理视频包括多个视频帧,所述待处理视频中显示有至少一个目标对象;从所述多个视频帧中,提取所述目标对象对应的纲要信息以及所述目标对象对应的内容文本;创建所述目标对象对应的纲要信息、相应的所述内容文本以及相应的视频帧的映射关系;根据指向目标纲要信息的内容拼接请求,从所述映射关系中查找所述目标纲要信息对应的目标内容文本以及目标视频帧;由所述目标纲要信息、所述目标内容文本以及所述目标视频帧,生成文本拼接图像。
在本申请中,通过提取视频中目标对象对应的纲要信息和内容文本,以从视频中找到各目标对象对应的关键信息,尤其是对于内容丰富或时长较长的视频,能快速确定视频中与目标对象关联的关键信息。以此,能够基于提取到的纲要信息以及内容文本快速生成该目标对象相关的文本拼接图像,以提升基于视频生成文本拼接图像的效率性。此外,本申请通过映射关系存储提取的目标对象的纲要信息、相应内容文本以及相应的视频帧,以在生成文本拼接图像,快速查找到所需的内容文本和视频帧,以进一步提升基于视频生成文本拼接图像的效率性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的图像生成方法的场景示意图;
图1b是本申请实施例提供的图像生成方法的流程示意图;
图1c是本申请实施例提供的对播放时间点的选择操作的显示界面示意图;
图1d是本申请实施例提供的对播放时间点的预览操作的显示界面示意图;
图1e是本申请实施例提供的预览用文本拼接图像的显示界面示意图;
图1f是本申请实施例提供的目标对象对应标识的显示界面示意图;
图1g是本申请实施例提供的文本拼接图像的示意图;
图1h是本申请实施例提供的另一文本拼接图像的示意图;
图2a是本申请实施例提供的图像生成方法的流程示意图;
图2b是本申请实施例提供的图像生成方法的时序图;
图2c是本申请实施例提供的图像生成方法的时序图;
图3是本申请实施例提供的目标对象的属性信息的提取流程图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种图像生成方法、装置、电子设备、存储介质和程序产品。
可以理解的是,在本申请的具体实施方式中,涉及到待处理视频、目标对象、纲要信息、内容文本、对象特征、表情信息、表情类型、内容关键词、索引、待拼接图像、文本拼接图像以及台词等与用户相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
其中,该电子设备可以为终端、服务器等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、台式电脑、智能电视、车载设备等;服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群或云服务器。
该图像生成方法可以由电子设备实现。该电子设备可以获取待处理视频,待处理视频包括多个视频帧,待处理视频中显示有至少一个目标对象;从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本;创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系;根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧;由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像。例如,参考图1a,在一些实施方式中,该电子设备可以为服务器,该服务器可以通过网络从终端获取内容拼接请求,以实现该图像生成方法。该服务器还可以将生成的文本拼接图像通过网络发送至终端。
以下分别进行详细说明。需说明的是,以下实施例的顺序不作为对实施例优选顺序的限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革,swin-transformer,ViT,V-MOE,MAE等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言,即人们日常使用的语言,与语言学研究密切;同时涉及计算机科学和数学。人工智能领域模型训练的重要技术,预训练模型,即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调,大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果,融合了以上技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
预训练模型(Pre-training model),也称基石模型、大模型,指具有大参量的深度神经网络(Deep neural network,DNN),在海量未标记的数据上对其进行训练,利用大参量DNN的函数近似能力使PTM在数据上提取共性特征,经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术,适用于下游任务。因此,预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。PTM按照处理的数据模态可以分为语言模型(ELMO,BERT,GPT)、视觉模型(swin-transformer,ViT,V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT,CLIP,Flamingo,Gato)等,其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具,也可以作为连接多个具体任务模型的通用接口。
自适应计算:指根据不同的输入数据,自动调整模型的计算量和精度,以达到在保持模型精度的同时提高模型计算效率的目的。自适应计算能够在不同的输入数据上灵活地调整模型的计算量和精度,从而更好地平衡模型的计算效率和精度。
在本实施例中,提供了一种涉及人工智能的图像生成方法,该图像生成方法可以由电子设备执行,如图1b所示,该图像生成方法的具体流程可以如下:
110、获取待处理视频,待处理视频包括多个视频帧,待处理视频中显示有至少一个目标对象。
其中,待处理视频是指用于生成文本拼接图像的视频。待处理视频各种类型的视频,例如,根据应用场景的不同,待处理视频可以为如访谈、教学、新闻、影视、娱乐、营销、宠物等类型视频。
其中,目标对象是指待处理视频中需要被识别的对象,如人物、动物、物体等。目标对象可以与待处理视频的视频类型、热度等因素相关,例如,教学、新闻、影视、娱乐等类视频中目标对象可以为人物,营销类视频中的目标对象可以为商品,宠物类视频中的目标对象可以为动物。再如,热度可以包括待处理视频的话题类型的热度,如用户对待处理视频讨论的话题类型为人物,则该待处理视频中的目标对象可以为人物。可以理解的是,视频帧中可以有一个或多个目标对象,例如访谈类视频中可以有多个人物。
本申请实施例提供的图像生成方法可以由图像生成应用实现,该应用可以为独立的应用程序,也可以为集成在视频平台的应用程序或工具,如视频平台内置的拼接工具。例如,可以通过视频平台内置的拼接工具实现该图像生成方法为例,该视频平台可以运行在终端,用户在视频平台观看视频时,可以点击终端的显示界面中的拼接功能。在得到用户许可或同意的情况下,可以响应于该点击操作,通过视频平台的后台调用相应的拼接工具。该拼接工具可以从后台获取用户观看的视频或该视频的部分视频片段作为待处理视频。其中,视频平台以及其终端分别运行在终端和服务器。
在一些实施方式中,可以根据用户选择的播放时间点,从原始视频中获取相应的待处理视频,以聚焦用户感兴趣的视频内容,提升生成文本拼接图像与兴趣点的关联度,以提升用户体验。同时,用户可以自由选择要生成文本拼接图像的视频内容,以此可以生成个性化、定制化以及精确化的文本拼图图像。具体地,获取待处理视频,包括:
根据对原始视频的任一播放时间点的选择操作,确定任一播放时间点对应的目标时间段;
从原始视频中,获取目标时间段内的待处理视频。
其中,原始视频是指终端播放的视频文件。例如,原始视频可以为视频平台播放的视频文件,如视频平台当前播放的一集访谈视频。
其中,播放时间点是指视频中的时间位置,也即时间码或时间戳。播放时间点可以表示视频中某一帧的起始时间。
其中,选择操作是指用于选择原始视频中任一播放时间点的操作。例如,该选择操作可以包括在拖动/点击播放进度条、点击快进/快退按钮、输入任一播放时间点以及通过特定的触摸手势选择任一播放时间点中的一种或多种。
其中,目标时间段是指与播放时间点对应的时间范围。例如,目标时间段可以为从视频开始时间点至选择的播放时间点的时间范围,或者目标时间段可以为根据选择的播放时间点前后延伸的时间范围,该延伸的时间范围可以根据应用场景或实际需求设置。
例如,如图1c所示的对播放时间点的选择操作的显示界面,该显示界面为终端的图形用户界面,用户在视频平台观看视频时,可以点击图中显示的访谈视频(即原始视频)下方的播放进度条的任意位置。在得到用户许可或同意的情况下,响应于该点击操作,可以确定该点击操作对应的时间码即相应的播放时间点如“23:45”,以及将该播放时间段对应的时间范围如视频开始时间点至该播放时间点的时间范围如“00:00~23:45”作为目标时间段,并从原始视频中获取时间戳位于该目标时间段“00:00~23:45”内视频帧构成的视频段作为待处理视频。
在一些实施方式中,目标时间段可以为根据选择的播放时间点前后延伸的时间范围。具体地,可以根据应用场景或实际需求,预设前溯时间段和后溯时间段。可以根据对原始视频的任一播放时间点的选择操作,根据该任一播放时间点、前溯时间段和后溯时间段,确定该任一播放时间点对应的目标时间段。例如,在用户点击终端的显示界面中显示的访谈视频(即原始视频)下方的播放进度条的任意位置后,在得到用户许可或同意的情况下,响应于该点击操作,可以确定该点击操作对应的时间码(下称目标播放时间点)如“23:45”。可以使用该目标播放时间点减去前溯时间段得到目标时间段的起始时间,如“23:45减15s(秒)”,其中前溯时间段为15s,使用目标播放时间点加上后溯时间段得到目标时间段的终止时间,如“23:45加10”,其中后溯时间段为10s,以此,目标时间段为“23:30~23:55”。
在一些实施方式中,可以通过预览操作,显示相应的预览用文本拼接图像,以提示该播放时间点可能生成的文本拼接图像的相关信息,以便于用户根据预览的图像确定是否在该播放时间点生成文本拼接图像,以提升用户体验。具体地,该图像生成方法,还包括:
根据对原始视频的任一播放时间点的预览操作,显示任一播放时间点对应的预览用文本拼接图像。
其中,预览操作是指用于预览任一播放时间点对应的文本拼接图像的操作,该用于预览的文本拼接图像即为预览用文本拼接图像。
例如,如图1d所示的对播放时间点的预览操作的显示界面,该显示界面为终端的图形用户界面,用户在视频平台观看视频时,用户可以点击图中显示的访谈视频(即原始视频下方的预览控件,以触发对原始视频的拼图功能,用户可以控制鼠标悬停在访谈视频(即原始视频)下方的播放进度条的任意位置即聚焦的播放时间点,以执行聚焦操作。在得到用户许可或同意的情况下,可以根据该聚焦操作从视频平台的后台获取该聚焦的播放时间点对应的预览用文本拼接图像。如图1e所示预览用文本拼接图像的显示界面,该显示界面为终端的图形用户界面,该预览用文本拼接图像可以以小图形式显示在播放进度条中聚焦操作位置附近,以提示该播放时间点可能生成的文本拼接图像的相关信息,以便于用户根据预览的图像确定是否在该播放时间点生成文本拼接图像。可以理解的是,在预览过程中,生成的预览用文本拼接图像是与预览操作对应任一播放时间点(下称预览时间点)对应的视频帧(下称预览帧)强相关的图像,也即预览用文本拼接图像是由从包含预览帧的待处理视频中提取的目标对象对应的纲要信息、目标对象对应的内容文本以及预览帧生成的预览用文本拼接图像。其中,包含预览帧的待处理视频可以为在原始视频中、根据预览操作对应的任一播放时间点确定的目标时间段所对应的视频。
在一些实施方式中,可以预先将原始视频切分为多段待处理视频,并根据原始视频对应的话题对各段待处理视频分别生成相应的候选预览用文本拼接图像,当对原始视频的任一播放时间点的预览操作,将预览时间点所在的待处理视频所对应的候选预览用文本拼接图像作为预览用文本拼接图像进行显示,以提升预览的即时性。其中,话题可以包括但不限于目标对象的属性信息、目标对象的描述信息以及其他能用于确定目标对象的信息,以此,可以根据话题确定要预览的目标对象,并从各段待处理视频获取要预览的目标对象的纲要信息以及要预览的目标对应的内容文本。
例如,可以基于视频平台的运营人员发起的请求或其他指令预先生成候选预览用文本拼接图像。需说明的是,预览用文本拼接图像与本申请实施例文本拼接图像生成的原理相同,因此预览用文本拼接图像的具体生成方法和原理可以参见本申请实施例的相应内容,在此不再赘述。
在一些实施方式中,为了避免遮挡原始视频的画面,可以以缩略图形式显示预览用文本拼接图像。
120、从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本。
其中,纲要信息是指对视频帧中目标对象相关的内容进行概括的信息。例如,纲要信息可以包括但不限于目标对象的属性信息如标识、类型等、目标对象的描述信息如外观、以及其他与目标对象相关的概括信息等中的一种或多种。
其中,内容文本是指视频帧中与目标对象相关的文本。例如,内容文本可以包括但不限于视频标题、视频帧中显示的字幕、内容提示文字等中的一种或多种。
例如,可以通过目标检测技术识别视频帧中的目标对象,并根据目标对象的特征,从视频帧中提取目标对象的纲要信息,以及提取目标对象对应的文本内容。
由于待处理视频包含的多个视频帧并不是每一帧都显示有目标对象。因此,在一些实施方式中,可以先从待处理视频的视频帧中筛选目标对象对应的视频帧,再从目标对象对应的视频帧中提取目标对象对应的纲要信息以及目标对象对应的内容文本,以在增加纲要信息和内容文本与相应目标对象的关联性,以及提升纲要信息和内容文本的准确性的同时,减少提取过程中要处理的视频帧的数量,提升提取效率。具体地,从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本,包括:
从多个视频帧中,确定目标对象对应的候选帧;
从目标对象对应的候选帧中,提取目标对象的对象特征以及目标对象对应的内容文本;
根据对象特征,确定目标对象对应的纲要信息。
其中,候选帧是指目标对象对应的视频帧。例如,候选帧可以为显示有目标对象的视频帧。
其中,对象特征是指包含目标对象相关信息的特征。例如,对象特征可以表示为数值或向量形式的特征。
例如,在得到用户许可或同意的情况下,可以通过目标检测技术识别多个视频帧中的目标对象,以从多个视频帧中确定每个目标对象对应的视频帧即候选帧,其中,目标检测技术可以包括但不限于基于区域的卷积神经网络的目标检测方法(RCNN)或基于单阶段检测器的目标检测方法(YOLO)等。可以从各目标对象对应的候选帧中,提取该目标对象对应的纲要信息以及该目标对象对应的内容文本。如以目标对象A为例,通过目标检测技术对多个视频帧检测出目标对象A出现在多个视频帧中的视频帧1~视频帧m以及视频帧n~视频帧q,其中m<n<q,m、n、q均为正整数,以此视频帧1~视频帧m以及视频帧n~视频帧q为目标对象A对应的候选帧,可以从视频帧1~视频帧m以及视频帧n~视频帧q中提取目标对象A的对象特征,并根据目标对象A的对象特征确定目标对象A的属性信息、或描述信息、或其他与目标对象相关的概括信息,以作为目标对象A对应的纲要信息,以及从视频帧1~视频帧m以及视频帧n~视频帧q中提取这些帧中显示的与目标对象A相关的视频标题、或视频帧中显示的字幕、或内容提示文字等作为目标对象A对应的内容文本。
在一些实施方式中,目标对象为待处理视频中的人物。例如,可以通过目标检测技术从待处理视频中检测其中的人物,并将显示有人物的视频帧作为候选帧。
在一些实施方式中,可以通过与预设的表情模板匹配确定包含有特定表情的候选帧,通常这些候选帧中不仅包含丰富的表情信息,往往还可能包含丰富的文本信息以及其他信息,也更能表达视频所传达的内容。以此,从这些候选帧中能够提取到丰富、准确的纲要信息和内容文本。具体地,从多个视频帧中,确定目标对象对应的候选帧,包括:
对视频帧与预设的表情模板进行匹配;
将与预设的表情模板匹配的视频帧确定为候选帧。
其中,预设的表情模板是指预先设置的、包含特定表情的图像模板。例如,可以根据应用场景或实际需求设置多个不同表情对应的预设的表情模板,如设置包含基础表情如笑、哭、愁、怒的多个表情模板,以及设置包含特定场景下出现的特殊表情如厌恶、害怕、悲哀、惊讶、快乐等多个表情模板。
例如,可以预设一组包含各种表情的表情模板。通过调用OpenCV或Matlab等图像处理工具中的模板匹配算法,将各预设的表情模板与待处理视频中的各视频帧一一进行匹配。如,可以调用OpenCV中的cv2.matchTemplate()函数将任一预设的表情模板与任一视频帧进行目标匹配,该函数可以返回匹配结果的相关性系数,通常相关性系数越高表示匹配度越高。以此可以预设一个相关性阈值,将与任一预设的表情目标的相关性系数高于该相关性阈值的视频帧作为候选帧。
在一些实施方式中,目标对象为待处理视频中的人物时,纲要信息中对目标对象的描述信息可以为人物的表情类型。可以通过提取候选帧中的人物的表情特征,以根据表情特征分类确定其具体的表情类型。将目标对象的表现类型作为纲要信息的一种,也可以传达待处理视频中人物的表情信息,以向文本拼接图像的观看者传达更丰富的信息。具体地,对象特征包括目标对象的表情特征,纲要信息包括目标对象的表情信息,根据对象特征,确定目标对象对应的纲要信息,包括:
从候选帧中,提取目标对象的表情特征;
对表情特征进行分类处理,确定目标对象的表情类型。
其中,表情特征是指包含表情信息的特征。例如,表情特征可以表示为数值或向量形式的特征。
其中,分类处理是指根据表情特征划分为相应的类型的处理过程。表情特征通过分类处理划分的类型即为表情类型,例如,表情类型可以包括但不限于难过、开心、调侃、高甜、高冷、嬉笑、惊叹等中的一种或多种。
例如,在得到用户许可或同意的情况下,可以通过预训练的特征提取网络,对候选帧提取得到向量形式的表情特征。其中,预训练的特征提取网络可以包括但不限于卷积神经网络(CNN)、残差网络(ResNet)以及循环神经网络(RNN)等中的一种或多种的组合。再通过分类器、回归等算法对表情特征进行分类处理,以得到相应的表情类型。
需说明的是,模板匹配算法的算法较为简单可以提供快速、有效地匹配结果,但其容易收到多种因素如图像噪声等的影响,导致鲁棒性和准确性较差。因此可以利用模板匹配算法对待处理视频中的视频帧初筛得到可能存在特定表情的候选帧,再通过特征提取以及分类处理等手段,精确识别候选帧中的表情类型,以能够在减少表情类型确定过程中计算量的同时确保识别的表情类型的准确性。
由于待处理视频中,目标对象可能有多个不同的表情如时而嬉笑、时而惊讶,此时,根据目标对象对应的候选帧可以识别出目标对象的多个表情类型(下称候选表情类型),如候选帧1~n中目标对象A的候选表情类型为嬉笑,候选帧m~l中目标对象A的候选表情类型为惊讶,m≥n,此时可以将识别的目标对象A的多个候选表情类型均作为目标对象A的表情类型。
在一些实施方式中,为了使纲要信息更紧凑和简洁,以清楚地表达待处理视频的核心信息。具体地,针对任一目标对象,可以根据候选表情类型对应的候选帧中的内容文本确定候选表情类型的权重,以将候选表情类型中权重最高的一个候选表情类型作为该任一目标对象的表情类型。
例如,对于各目标对象,可以获取其不同候选表情类型对应的候选帧中提取的内容文本,根据内容文本的重要程度,确定各候选表情类型的权重,通常内容文本的重要程度越高,其对应的候选表情类型的权重越大,内容文本的重要程度可以与内容文本的长度、内容文本与候选帧的相关性等因素相关。如,候选帧1~n中提取的内容文本的重要程度为a,候选帧m~l中提取的内容文本的重要程度为b,可以将重要程度直接作为视频帧对应的候选表情类型的权重,由于惊讶表情的权重b大于嬉笑表情的权重a,因此,可以确定目标对象A的表情类型为惊讶。
在一些实施方式中,为了使纲要信息更紧凑和简洁,并能清楚地表示用户选择操作所要传达的信息。具体地,针对任一目标对象,可以根据选择操作对应的播放时间点确定该任一目标对象的表情类型。例如,对于目标对象A,可以将候选帧1~n以及候选帧m~l中,时间戳与选中操作对应的播放时间点最近的一个候选帧对应的候选表情类型作为目标对象A的表情类型。再如,可以将候选帧1~n以及候选帧m~l与选择操作对应的播放时间点所对应的视频帧进行相似度计算,将与该视频帧相似度最高的一个候选帧对应的候选表情类型作为目标对象A的表情类型。
在一些实施方式中,在从候选帧中提取目标对象的表情特征之前,可以对候选帧进行预处理,以从预处理后的视频帧中提取目标对象的表情特征。具体地,预处理可以包括但不限于图像去噪、图像裁剪、图像缩放、图像灰度化以及图像增强中的一种或多种。通过对候选帧的预处理,可以改善图像质量,减少不必要的计算并降低噪声干扰,提升提取的表情特征的准确性和可靠性,以增加确定的表情类型的准确性。
可以理解的是,本申请实施例在确定候选帧时,若使用目标检测技术,由于目标检测技术能够实现对多帧图像中同一对象的检测和识别,因此,确定的可以为各目标对象对应的视频帧。然后,若使用预设的表情目标匹配确定候选帧,不能区分候选视频中的目标对象,因此,确定的为所有目标对象对应的视频帧。因此,在一些实施方式中,在使用预设的表情目标匹配确定候选帧后,可以通过目标检测技术或人脸检测技术识别候选帧中的各目标对象,以确定各目标对象对应的视频帧。其中,目标检测技术可以包括但不限于基于区域的卷积神经网络的目标检测方法(RCNN)或基于单阶段检测器的目标检测方法(YOLO)等。人脸检测技术可以包括但不限于人脸网络(FaceNet)以及人脸识别模型(VGG Face)等。
在一些实施方式中,可以通过提取候选帧中的目标对象的基础特征,以确定其具体的属性信息。将目标对象的属性信息作为纲要信息的一种,也可以传达待处理视频中目标对象的属性信息,以向文本拼接图像的观看者传达多维度、更丰富的信息。具体地,对象特征还包括目标对象的基础特征,纲要信息还包括目标对象的属性信息,根据对象特征,确定目标对象对应的纲要信息,还包括:
根据目标对象的基础特征,确定目标对象的属性信息。
其中,基础特征是指包含目标对象属性信息的特征。例如,基础特征可以表示为数值或向量形式的特征。属性信息是指描述目标对象基础属性的信息,如标识、类型等,标识可以包括名称、ID等。
例如,在得到用户许可或同意的情况下,可以提取候选帧中的目标对象所在区域的图像特征作为其基础特征,并通过目标检测技术或人脸检测技术识别提取的图像特征中的各目标对象的名称、或ID、或类型等属性信息。
在一些实施方式中,可以通过与已标记对象进行匹配,确定目标对象的属性信息,以增加确定的属性信息的准确性。具体地,可以将目标对象的基础特征与预存储的已标记对象的基础特征进行比对,以将与目标对象匹配的已标记对象的标记确定目标对象的属性信息,其中已标记对象的标记为已标记对象的属性信息。例如,在目标对象为人物时,可以将目标对象的基础特征与预存储的已标记人物图像的图像特征进行匹配,若一致,则将该人物图像标记的人物名称作为目标对象的属性信息。
在一些实施方式中,若纲要信息同时包括目标对象的表情类型以及目标对象的属性信息,由于目标对象的属性信息如名称、ID等通常可以用于区分不同的目标对象,因此可以基于目标对象的属性信息,确定各目标对象对应的待视频帧。例如,在根据任一候选帧如视频帧1提取的基础信息,确定属性信息为名称为A时,则可以确定该视频帧1是目标对象A对应的候选帧。
在一些实施方式中,可以通过提取目标对象对应的内容文本中的关键字或理解关键内容,以确定其对应的内容关键字。将目标对象对应内容关键词作为纲要信息的一种,也可以传达待处理视频中与目标对象关联的重要文字信息,以向文本拼接图像的观看者传达多维度、更丰富的信息。具体地,纲要信息还包括目标对象对应的内容关键词,根据对象特征,确定目标对象对应的纲要信息,还包括:
对目标对象对应的内容文本进行语义理解,得到语义表示;
根据语义表示,确定目标对象对应的内容关键词。
例如,在得到用户许可或同意的情况下,可以通过预训练的语义表示模型如双向编码器表征转换器(BERT)、从语言模型中得到的词向量(ELMo)、生成式预训练转换器(GPT)等,将目标对象对应的内容文本转换为语义向量表示,并通过计算语义向量表示的相似度或关联性来确定关键词即内容关键词,该内容关键词可以表征目标对象对应的候选帧所传达的关键内容。如,目标对象A对应的候选帧中的内容文本主要是目标对象A对XX爱情观的吐槽,因此从内容文本中提取的内容关键词可以为“吐槽XX的爱情观”。
在一些实施方式中,可以在候选帧的指定区域获取响应的显示文本,以避免对候选帧进行全局检测和识别,从而减少无关信息的干扰,以更精准地获取显示文本,提升处理效率。通过对显示文本进行拼接,将分散的文本信息整合为完整的文本信息,增加内容文本的可读性,提升内容文本传递信息的准确性。具体地,目标对象对应的内容文本通过如下步骤得到:
从候选帧中的指定区域提取显示文本,指定区域与显示文本的文本类型相关;
将任一目标对象对应的显示文本进行拼接,得到任一目标对象对应的内容文本。
其中,显示文本是指内容文本是指候选帧中显示的与目标对象相关的文本。指定区域是指与候选帧中的显示文本的文本类型相关的区域,可以理解的是,待处理帧中不同类型显示文本通常都显示在较为固定的区域。例如,当显示文本为视频帧中显示的字幕时,该指定区域通常为视频帧中位于上方或下方的区域。当显示文本为视频标题时,该指定区域通常为视频帧中位于左下角或右下角的区域。当显示文本为内容提示文字时,该指定区域通常为视频帧中位于中部的区域。
例如,以目标对象为人物为例,显示文本为视频帧中显示的字幕即台词,可以从各目标对象对应的候选帧的底部区域,分别提取各目标对象对应的台词。再将各目标对象对应的台词分别进行拼接,以得到各目标对象对应的内容文本。如,目标对象A提取的显示文本包括“我是A”、“今天天气很好”、“我也很开心”,可以根据显示文本对应的候选帧的时间戳,按照时间戳从前之后的顺序拼接得到“我是A。今天天气很好。我也很开心”。
在一些实施方式中,可以在候选帧中截取指定区域内的图像,并通过图像分割、边缘检测、区域检测等,在截图的图像中定位可能包含文字的区域,并生成文字的边界框。再通过字符识别,将每个文字区域中的字符点阵图像转换为文字,所有文字组合即可以得到指定区域内的显示文本。
在一些实施方式中,在从候选帧中提取显示文字之前,可以对候选帧进行预处理操作,以提升识别文字的准确性。其中,预处理操作可以包括图像平滑、版面分析以及倾斜度校正等中的一种或多种。
在一些实施方式中,可以基于上下文关系,对属于同一段落的显示文本进行拼接,以将分散的句子或短语连接在一起,使内容文本提供完整、连贯的信息,增加内容文本的可读性,提升内容文本传递信息的准确性。具体地,对任一目标对象对应的显示文本进行拼接,得到任一目标对象对应的内容文本,包括:
基于显示文本的上下文关系,从任一目标对象对应的显示文本中查找属于同一段落的显示文本;
在任一目标对象对应的显示文本中,将属于同一段落的显示文本进行拼接,得到任一目标对象对应的内容文本。
其中,段落是指一段有关联的句子或短语。一个段落可以表达一个中心思想或一个论点。
例如,以目标对象为人物为例,由于有些台词过长,可能分散显示在两个或更多的候选帧中,例如,原始台词“在我心里你永远是我最亲爱的人,XXX,我永远都会陪在你身边”,由于视频帧的显示限制,该台词可能分散显示在多个候选帧中,如候选帧1~候选帧m显示有“在我心里你永远是我最亲爱的人,XXX”、候选帧m+1~候选帧n显示有“我永远都会陪在你身边”,也即原始台词被分散为两个台词进行显示,一个分散的台词即为一个显示文本。
对此,为了合并分散的台词,可以根据台词的上下文关系对各目标对象对应的所有台词中分散的台词进行合并。例如,针对任一目标对象对应的所有台词,可以获取每个台词如“用我全部的爱,接受”相关的上下文即该台词前后的一段台词即“我XXX,”“你XXX作为我自己的妻子”和,比较该台词与位于其前的台词(下称第一显示文本)即“我XXX,”的上下文关联性(下称第一关联性),以及比较该台词与位于其后的台词(下称第二显示文本)即“你XXX作为我自己的妻子”的上下文关联性(下称第二关联性),其中可以通过余弦相似度或者杰卡德相似度等对两个台词计算相似度即上下文关联性。可以通过预训练的语言模型如双向编码器表征转换器(BERT)、生成式预训练转换器(GPT)等对两个台词计算上下文关联性。可以将关联性高于预设关联性阈值的台词拼接为一个段落,如第一关联性和第二关联性均高于预设关联性阈值,因此可以将该台词以及其对应的第一显示文本和第二显示文本,拼接为“我XXX,用我全部的爱,接受你XXX作为我自己的妻子”。最后,在对各目标对象对应的台词拼接处理后,各目标对象对应的内容文本可以显示为多个段落集合形成的内容文本。例如,目标对象A对应的内容文本可以为{段落1;段落2;…;段落m},每个段落对应一段完整的原始台词。
在一些实施方式中,目标对象对应的纲要信息包括目标对象的属性信息、表情类型以及内容关键词的一种或多种。在纲要信息包括属性信息、表情类型以及内容关键词中的多种信息时,可以根据多种信息之间的语法关系如主谓关系、动宾关系等,将该多种信息拼接为完整的句子。具体地,根据对象特征,确定目标对象对应的纲要信息,还包括:
获取预设的纲要模板,预设的纲要模板包括预设的语法结构对应的待填充位置;
根据预设的语法结构,将目标对象对应的待填充信息填充在待填充位置,得到目标对象对应的纲要信息,待填充信息包括目标对象的属性信息、表情类型以及内容关键词的一种或多种。
例如,目标对象对应的纲要信息包括目标对象的属性信息、表情类型以及内容关键词。在得到用户许可或同意的情况下,对于每个目标对象,可以根据预设的语法结构如比如主谓结构、动宾结构、主谓宾结构、主系表结构等,构建用于生成纲要信息的预设的纲要模板,如主系表结构的预设的纲要模板“[主语][形容词][宾语]”,其中[主语]、[形容词]、[宾语]表示预占位符即待填充位置。可以将目标对象的属性信息、表情类型以及内容关键词中,将该预设的语法结构匹配的信息填充在相应的待填充位置,以得到该目标对象对应的纲要信息。如,对于目标对象A,其属性信息、表情类型以及内容关键词分别为“A”、“犀利”、“吐槽XX的爱情观”,其分别与预设的纲要模板中的[主语]、[形容词]、[宾语]相匹配,也即可以将目标对象A,其属性信息、表情类型以及内容关键词依序填充在“[主语][形容词][宾语]”中,组成目标对象A对应的纲要信息“A犀利吐槽XX的爱情观”。
在待处理视频中的目标对象有多个表情时,可以将多个表情对应的表情类型填充在同一待填充位置中,如都填充在预设的纲要模板的[形容词]中。在一些实施方式中,在待处理视频中的目标对象有多个表情,可以针对不同表情分别生成子纲要信息,再由目标对象对应的所有子纲要信息组成目标对象对应的纲要信息,避免纲要信息中多个表情类型的混淆,以生成全面、准确的纲要信息。具体地,根据预设的语法结构,将目标对象对应的待填充信息填充在待填充位置,得到目标对象对应的纲要信息,包括:
根据预设的语法结构,将目标对象的任一表情类型对应的待填充信息填充在待填充位置,得到目标对象对应的子纲要信息;
根据目标对象的子纲要信息,得到目标对象对应的纲要信息。
例如,在得到用户许可或同意的情况下,针对任一目标对象如目标对象A,目标对象对应候选帧1~n以及帧m~l分别对应嬉笑表情和惊讶表情,可以获取其对应的候选帧1~n中提取的属性信息、表情类型1以及内容文本1作为该表情类型2对应的待填充信息,将这些提取到的属性信息、表情类型1以及内容文本1分别填充在预设的纲要模板中的[主语]、[形容词]、[宾语]中,即得到该表情类型2对应的子纲要信息1。以此,对目标对象A对应的候选帧m~l,可以提取表情类型2以及内容文本2,将提取的表情类型2、内容文本2以及属性信息作为该表情类型2对应的待填充信息,并填充在预设的纲要模板中,得到该表情类型2对应的子纲要信息2。由子纲要信息1以及子纲要信息2拼接得到纲要信息“子纲要信息1;子纲要信息2”。在多个子纲要信息中,可以删除首个子纲要信息之后的子纲要信息中的属性信息,以简化纲要信息。
130、创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系。
其中,映射关系是指两个或多个不同对象之间的对应关系。例如,可以通过键值对(Key-Value)或索引(Index)等方式建立目标对象对应的纲要信息、相应的内容文本以及相应的视频帧之间的映射关系,以便于快速查找、访问或获取相关数据。
其中,相应的内容文本是指目标对象对应的内容文本。相应的视频帧是指目标对象对应的视频帧,例如,相应的视频帧可以包括显示有目标对象的一个或多个视频帧。
例如,可以对每个目标对象分别创建映射关系。以目标对象A对应的纲要信息为键,以目标对象A对应的内容文本以及目标对象A对应的视频帧为值,建立目标对象A对应的键值对,以纲要信息作为键进行查找,可以快速获取目标对象A对应的内容文本以及目标对象A对应的视频帧。如,目标对象A对应的键值对可以标识为target_A={"纲要信息":"目标对象A的纲要信息","内容文本":"目标对象A的内容文本","视频帧":"目标对象A的视频帧"}。
在一些实施方式中,可以根据选择操作对应的播放时间点,确定目标对象对应的视频帧即该相应的视频帧,以增加映射关系中存储的视频帧与用户选择操作的关联性,使映射关系中存储的视频帧的准确性。例如,可以显示有目标对象的待处理帧或候选帧中与选择操作所选择的任一播放时间点最接近一帧作为该相应的视频帧。如,用户选择的播放时间点为“23:45”,目标时间段为“23:30~23:55”。若通过目标检测技术在“23:30~23:55”内的候选帧中识别了n个目标对象。对于n个目标对象中的每个目标对象如目标对象A,可以将“23:30~23:55”内的候选帧中,时间戳与播放时间点“23:45”最接近的一个候选帧如候选帧1作为目标对象A对应的候选帧,以此可以创建目标对象A对应的纲要信息、相应的内容文本以及视频帧1的映射关系。
在一些实施方式中,可以根据视频帧与预设的表情模板进行匹配的结果,从目标对象对应的候选帧中,选择表情夸张度最大的一帧或多帧作为目标对象对应的视频帧即该相应的视频帧。其中,表情夸张度可以以视频帧与预设的表情模板的相关性系数表示,相关性系数越高,表情夸张度越大。例如,可以从根据视频帧与预设的表情模板进行匹配的结果中,获取候选帧与预设的表情模板的相关性系数,将相关性系数最高的一个候选帧作为目标对象对应的视频帧即该相应的视频帧。当目标对象对应的表情类型有多种时,也可以仅将相关性系数最高的一个候选帧作为目标对象对应的视频帧即该相应的视频帧。
在一些实施方式中,可以根据待处理视频中视频帧的热度,确定目标对象对应的视频帧即该相应的视频帧。其中,热度与对视频帧的截图、点击、评论或观看等的操作数据的数量相关,通常这些操作数据的数量越多,热度越高。例如,可以根据待处理视频中候选帧的热度,选择热度最高的一个或多个候选帧作为目标对象对应的视频帧即该相应的视频帧。
在一些实施方式中,可以以索引形式存储目标对象对应的纲要信息和内容文本,以通过索引可以快速查找到目标对象对应的数据,无需逐一查找或者遍历所有映射关系,以提高查找目标对象对应的纲要信息和内容文本的效率。具体地,创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系,包括:
将目标对象对应的纲要信息作为索引标题;
将目标对象对应的内容文本以及目标对象对应的目标视频帧作为索引内容,创建目标对象的索引。
其中,索引标题是指索引的标识,本申请实施例中索引标题是以纲要信息表示的描述性文本。以纲要信息作为索引标题能够明确表示索引所指向数据的内容。索引内容是指索引标题指向的具体内容。
例如,可以对每个目标对象分别建立其对应的索引。如,任一目标对象A的索引可以表示为“title="目标对象A的纲要信息",content_text="":"目标对象A的内容文本",目标对象A的视频帧"}”,其中title表示索引标题,content_text表示索引内容。若在待处理视频中识别出了n个目标对象,在建立各目标对象对应的索引后,可以将n个目标对象的索引中的索引标题等信息以索引对象形式添加在列表形式的索引目录中,索引目录是指用于存储索引元数据如索引标题的目录,索引目录中的每个条目即标识一个索引对象,以使用索引目录管理多个待处理视频中所有目标对象的索引。
在一些实施方式中,可以记录目标对象对应的内容文本的开始时间点,并根据各目标对象对应的开始时间点的先后顺序,在索引目录中存储多个目标对象对应的所有标题,以及存储多个目标对象对应的索引内容。例如,若目标对象A对应的开始时间点早于目标对象B对应的开始时间点,那么在索引中,将目标对象A将排在目标对象B之前。
140、根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧。
其中,目标纲要信息是指内容拼接请求指向的纲要信息。目标内容文本以及目标视频帧分别为与目标纲要信息存在映射关系的内容文本以及视频帧。
其中,内容拼接请求是指用于请求生成目标纲要信息对应的文本拼接图像的请求。该内容拼接请求可以携带有与目标纲要信息关联的查询参数,该查询参数可以由生成请求的关键词生成,该关键字可以包括但不限于目标对象的属性信息、目标对象的描述信息以及其他与目标对象相关的概括信息等中的一种或多种。
例如,在得到用户许可或同意的情况下,视频平台可以根据用户在终端输入或选择的信息中的关键字如目标对象A的标识“A”,生成用于生成目标对象A对应的内容拼接请求,如,如图1f所示的目标对象对应标识的显示界面示意图,该显示界面为终端的图形用户界面,终端显示有在待处理识别视频中识别的目标对象A~目标对象D的标识A~标识D对应的控件,用户可以点击标识A对应的控件,以生成目标对象A对应的内容拼接请求。视频平台可以将该内容拼接请求发送至视频平台的后台。后台的拼接工具解析该内容拼接请求,并根据解析的查询参数中的“A”,确定包含“A”的目标纲要信息。并以目标纲要信息为键,从后台存储的映射关系中,查找相应的键值对,获取查找到的键值对中的内容文本以及视频帧,即查找并获取目标内容文本以及目标视频帧。
在一些实施方式中,可以通过内容拼接请求在索引目录中查找相应的目标索引标题,以此仅需先在索引目录中查找索引标题,再在相应的一个索引中获取相应的目标索引内容,无需逐一查找或者遍历所有索引,以提高查找目标对象对应的纲要信息和内容文本的效率。具体地,索引的索引标题存储在索引目录中,根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧,包括:
根据指向目标纲要信息的内容拼接请求,从索引目录中查找与内容拼接请求匹配的目标索引标题;
从目标索引标题对应的索引中,获取目标索引内容,目标索引内容包括目标纲要信息对应的目标内容文本以及目标视频帧。
例如,后台的拼接工具在对目标对象A对应的内容拼接请求进行解析后,可以将解析得到目标对象A的标识“A”与索引目录中各条目中存储的索引标题进行匹配,并将包含“A”的索引标题“A犀利吐槽XX的爱情观”作为目标索引标题,并从该目标索引标题对应的索引中查找其指向的索引内容即目标索引内容,该目标索引内容中的内容文本以及视频帧即为目标对象A对应的内容文本和视频帧。
150、由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像。
其中,文本拼接图像是指将目标内容文本、目标纲要信息以及目标视频帧拼接在一起,生成包含文本信息的图像,该文本信息包括目标内容文本以及目标纲要信息。
例如,可以将目标纲要信息以及目标内容文本添加在目标视频帧中,以在目标视频中显示该目标纲要信息以及目标内容文本,也即生成文本拼接图像。用户可以通过终端下载或分享该文本拼接图像。
在一些实施方式中,可以根据段落的语序拼接得到文本拼接图像,并在其中添加目标纲要信息,以使文本拼接图像在能表达待处理视频的核心信息的同时,能通过连贯、有序的段落提供待处理视频的详细信息,以向文本拼接图像的观看者准确传达多维度、更丰富的信息。具体地,目标对象对应的内容文本包括多个段落,由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像,包括:
将段落分别添加在目标图像中,得到多个待拼接图像,目标图像为与目标视频帧相关的图像;
根据多个段落的语序,将多个待拼接图像进行拼接,得到初始文本拼接图像;
将目标纲要信息添加在初始文本拼接图像中,得到文本拼接图像。
其中,目标图像可以为目标视频帧或从目标视频帧截取的部分图像。在一些实施方式中,从目标视频帧截取的部分图像可以为与目标视频帧中的显示文本对应的指定区域相关的图像。
其中,多个段落的语序可以为多个段落对应的显示文本在待处理视频中出现的顺序。
例如,可以将各段落分别添加在一个目标图像中,以得到显示有不同段落的多个待拼接图像,可以根据段落对应的显示文本先后顺序,将多个待拼接图像拼接为一个依序显示有多个段落的初始文本拼接图像。同时,可以将目标纲要信息添加在拼接得到的初始文本拼接图像中,以得到显示有目标纲要信息以及多个段落的内容文本的文本拼接图像。需说明的是,若目标图像中显示有显示文本,可以采用段落中的文本覆盖或替换该显示文本。
在一些实施方式中,目标视频帧为一帧,可以从该帧中截取多个段落对应的目标图像,以避免在文本拼接图像中显示冗余的画面内容。例如,可以将目标视频帧作为内容文本中首个段落对应的首个目标图像,并从目标视频帧截取显示文本所对应的指定区域的图像作为目标图像,如当显示文本为视频帧中显示的字幕时,可以截取目标视频帧中的底部区域的图像作为除首个段落以外的其他段落对应的目标图像,通常一个段落对应的一个目标图像。如,以内容拼接请求确定的目标内容文本为{段落1、段落2、段落3、段落4},可以截取目标视频帧底部区域的图像,并将段落1添加原始目标视频帧中的底部区域,以及将段落2、段落3、段落4分别添加在三个截取图像中,将添加段落1~段落4后的待拼接图像1~待拼接图像4依序拼接后,可以得到初始文本拼接图像,再将目标纲要信息添加在初始文本拼接图像的待拼接图像1中的右上角,即得到如图1g所示的文本拼接图像。
在一些实施方式中,目标视频帧为多帧,可以对多个段落确定不同的视频画面,以提供与多个段落适配的多个画面,增加文本拼接图像显示画面的丰富度。具体地,目标图像为目标视频帧中段落对应的视频帧。
例如,在建立目标对象对应的映射关系时,可以根据目标对象对应的内容文本中的多个段落,确定存储在映射关系中的视频帧,一个段落对应目标对象对应的映射关系中的一个视频帧。如,目标对象A对应的内容文本有四个段落{段落1、段落2、段落3、段落4},以此可以这四个段落中,显示各段落的候选帧中,最早的一帧或表情夸张度最大的一帧作为该段落对应的视频帧。以此,在生成文本拼接图像时,可以从目标视频帧中确定每个段落对应的视频帧,以作为该段落对应的目标图像,并在目标图像中将该段落添加在显示文本所对应的指定区域,以得到该段落对应的待拼接图像。如,以内容拼接请求确定的目标内容文本为{段落1、段落2、段落3、段落4},可以将段落1~段落4分别添加在目标视频帧1~目标视频帧4的底部区域,将添加段落1~段落4后的待拼接图像1~待拼接图像4依序拼接后,可以得到初始文本拼接图像,再将目标纲要信息添加在初始文本拼接图像的待拼接图像1中的右上角,得到如图1h所示的文本拼接图像。
本申请实施例提供的图像生成方案可以应用在各种图像生成场景中。比如,以访谈视频为例,获取待处理视频,待处理视频包括多个视频帧,待处理视频中显示有至少一个目标对象;从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本;创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系;根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧;由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像。
由上可知,本申请实施例通过提取视频中目标对象对应的纲要信息和内容文本,以从视频中找到各目标对象对应的关键信息,尤其是对于内容丰富或时长较长的视频,能快速确定视频中与目标对象关联的关键信息。以此,能够基于提取到的纲要信息以及内容文本快速生成该目标对象相关的文本拼接图像,以提升基于视频生成文本拼接图像的效率性。此外,本申请实施例通过映射关系存储提取的目标对象的纲要信息、相应内容文本以及相应的视频帧,以在生成文本拼接图像,快速查找到所需的内容文本和视频帧,以进一步提升基于视频生成文本拼接图像的效率性。
根据上述实施例所描述的方法,以下将作进一步详细说明。
在本实施例中,将以生成台词拼图为例,对本申请实施例的方法进行详细说明。
如图2a所示,一种图像生成方法,该方法可以由电子设备执行,具体流程如下:
210、在终端的图形用户界面中显示原始视频。
例如,用户可以通过终端运行的客户端程序观看视频如访谈视频A(即原始视频)。具体地,在终端的图形用户界面中显示该访谈视频A,以及在该访谈视频A的下方显示有播放进度条以及索引控件(即预览控件)。客户端程序对应的服务器可以预存储有预设的表情模板、已标记人物图像等,以用于识别视频中的人物以及用于提取纲要信息和内容文本。
220、终端根据对原始视频的任一播放时间点的预览操作,显示任一播放时间点对应的预览用文本拼接图像。
例如,在得到用户许可或同意的情况下,用户可以点击终端显示的索引控件,触发对显示的访谈视频A的索引功能。为了提升预览的即时性,如图2b所示的时序图,服务器可以预先将访谈视频A切分为多段待处理视频,并根据访谈视频A对应的话题对各段待处理视频分别生成相应的候选预览用文本拼接图像。响应于用户对索引控件的点击操作,终端生成索引请求,并将该索引请求发送至服务器。服务器可以根据接收到的索引请求,将访谈视频A的所有候选预览用文本拼接图像发送给终端。响应于用户对访谈视频A的任一播放时间点的预览操作,终端将预览操作对应的播放时间点所在的待处理视频所对应的候选预览用文本拼接图像作为预览用文本拼接图像,并显示预览用文本拼接图像。
在索引功能下,当用户控制鼠标悬停在访谈视频A的播放进度条的任意位置(即任一播放时间点)时,即为终端检测到用户执行了对访谈视频A的任一播放时间点的预览操作。响应于用户对访谈视频A的预览操作,终端可以在播放进度条中鼠标悬停的位置上方,显示预览用文本拼接图像的缩略图。
可以理解的是,若用户未点击终端显示的索引控件,即未触发对显示的访谈视频A的索引功能,当用户控制鼠标悬停在访谈视频A的播放进度条的任意位置时,终端不会检测其为用户执行了对访谈视频A的预览操作。
230、终端根据对原始视频的任一播放时间点的选择操作,确定任一播放时间点对应的目标时间段。
例如,在得到用户许可或同意的情况下,在索引功能下,用户可以点击终端显示的播放进度条的任意位置,即终端可以检测到用户执行了对访谈视频A的任一播放时间点的选择操作。终端响应于该选择操作,根据该选择操作对应的播放时间点如“23:45”,由播放时间点加上前溯时间段10s以及后溯时间段10s,得到目标时间段“23:30~23:55”。
可以理解的是,若未触发索引功能,当用户可以点击终端显示的播放进度条的任意位置时,终端不会检测其为用户执行了对访谈视频A的任一播放时间点的选择操作。
240、服务器从原始视频中,获取目标时间段内的待处理视频。
250、服务器从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本。
260、服务器创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系。
例如,如图2b所示的时序图,终端响应于对访谈视频A的任一播放时间点的选择操作,生成携带目标时间段的初始拼接请求,并将该目标时间段的初始拼接请求发送至服务器。服务器可以根据终端发来的携带目标时间段的初始拼接请求,从访谈视频A中获取目标时间段“23:30~23:55”内的一段视频作为待处理视频。在得到用户许可或同意的情况下,服务器可以通过目标检测技术识别待处理视频中的人物(即目标对象),并根据识别出的每个人物的特征,从视频帧中提取每个人物对应的纲要信息、内容文本以及视频帧。并对每个人物,分别建立其对应的索引(即映射关系),索引标题为每个人物对应的纲要信息,索引内容包括每个人物对应的内容文本以及视频帧。
具体地,服务器将原始视频加载到表情提取系统,表情提取系统可以将视频帧与数据库中各种标准的表情模板进行匹配,哪种匹配读就与哪种表情越接近。数据库中这些表情分类如厌恶、害怕、悲哀、惊讶、快乐大多比较夸张,所以当匹配度较高时说明该视频帧中的表情也比较夸张,因此可以将匹配度高的视频帧作为候选帧。
如图2c所示的目标对象的属性信息的提取流程,服务器可以获取候选帧,并通过图像去噪、图像裁剪、图像缩放、图像灰度化以及图像增强等方法对候选帧进行预处理,在使用目标检测技术从候选帧中提取视频人物特征(即目标对象的基础特征),并将其与预存储的已标记人物的人物特征进行特征比对,若一致,则将已标记人物对应的信息作为该人物(即目标对象)的属性信息。
服务器还可以通过人物表情提取调性特征如难过、开心、调侃、高甜、高冷等表情类型作为标签(即纲要信息中的表情类型),以得到人物的表情类型。服务器可以将视频信息+目标对象的标识+表情类型作为存储关键字存储在服务器,以便后续调用,其中,视频信息可以包括视频ID、时长等信息。
服务器还从候选帧提取人物对应说的台词。如,服务器可以通过服务器端的文字识别模块识别视频里的图像文字,再通过视频理解找到每个具体的人物对应所说的台词,通过对台词的文本的理解,将视频分以角色完整的句子作为片段进行分类保存。具体地,服务器的文字识别模块可以通过文字检测区域模块,找出指定区域中的文字所在的区域或文字行,并通过将该指定区域内的字符点阵图像转化为文本文字,以进行字符识别。根据上下文利用语言句法约束关系,对识别结果进行后处理。再将文字部分每张图片的文字以及对应时间点存储,通过语义理解将同类文字拼接成同一段落,记录每个段落开始时间点。以文字识别段落对图像识别的段落进行时间修正。
服务器在对台词分段保存后,可以调用前述步骤存储的人物属性信息、人物表情信息的人物标签(即表情类型),以及对该段话的理解提取内容关键字,通过模版“人物+动作+内容关键字”生成索引标题(即纲要信息),以生成索引。例如,以人物+动作+内容关键字作为索引标题,其中人物为识别的人物标识,动作为视频理解确定的该人物说该这段话的态度比如吐槽、调侃、控诉或者视频动作声泪俱下、大笑等,内容关键字为人物台词主要内容的关键字。
在得到用户许可或同意的情况下,服务器可以将从待处理视频中识别的人物信息发送至终端。例如,可以将从待处理视频中识别的人物1~人物3的标识发送至终端。或者可以将待处理视频中识别的人物1~人物3的纲要信息发送至终端,以在终端展示纲要信息1~纲要信息3,用户可以点击终端展示的任一纲要信息如纲要信息2,以生成携带该纲要信息2的内容拼接请求。即如图2b所示的时序图,终端响应于对任一人物信息的选择操作,生成携带相应的纲要信息的内容拼接请求,并将该内容拼接请求发送至服务器。
270、服务器根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧。
280、服务器由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像。
290、服务器将文本拼接图像发送至终端,以便在终端的图形用户界面中显示文本拼接图像。
例如,如图2b所示的时序图,在得到用户许可或同意的情况下,服务器可以根据内容拼接请求携带的纲要信息2,在索引目录中查找与之匹配的索引标题(即目标纲要信息),并从该目标索引标题对应的索引中查找其指向的索引内容即目标索引内容,目标索引内容包括目标内容文本以及目标视频帧。服务器可以将目标纲要信息以及目标内容文本添加在目标视频帧中,以在目标视频中显示该目标纲要信息以及目标内容文本,也即生成文本拼接图像。用户可以点击文本拼接图像的右下角的分享控件,将该文本拼接图像分享给客户端程序或其他第三方应用的用户。
对于访谈类或者纪录片类型的节目,其视频时长通常为几十分钟或者1,2个小时。因为这种类视频谈话的内容画面变化不大,不像电影或者电视剧画面变化比较明显可以根据快速预览画面来索引,对于用户来说,如果要定位到自己感兴趣的话题部分或者重温某个部分的内容就需要观看整个视频内容,并一帧帧地查看相关的话题。
本申请实施例中,当用户想要分享视频中的内容时,用户可以拖动进度条任一播放时间点,客户端程序根据该播放时间点对应的时间段生成一张文本拼接图像,该图像包含时间端内相关的话题(即纲要信息)以及该话题索引内容(即内容文本和视频帧)。以此,本申请实施例通过理解内容生成话题索引节省用户的查找时间,以一键生成文本拼接图像,方便用户分享视频相关的热门话题。
为了更好地实施以上方法,本申请实施例还提供一种图像生成装置。
如图3所示,该图像生成装置可以包括获取单元310、提取单元320、映射单元330、查找单元340以及拼接单元350,如下:
(一)获取单元310
用于获取待处理视频,待处理视频包括多个视频帧,待处理视频中显示有至少一个目标对象。
在一些实施方式中,获取单元包括第一获取子单元以及第二获取子单元,包括:
第一获取子单元,用于根据对原始视频的任一播放时间点的选择操作,确定任一播放时间点对应的目标时间段;
第二获取子单元,用于从原始视频中,获取目标时间段内的待处理视频。
在一些实施方式中,该图像生成装置还包括预览单元,包括:
预览单元,用于根据对原始视频的任一播放时间点的预览操作,显示任一播放时间点对应的预览用文本拼接图像。
(二)提取单元320
用于从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本。
在一些实施方式中,提取单元包括第一提取子单元、第二提取子单元以及第三提取子单元,包括:
第一提取子单元,用于从多个视频帧中,确定目标对象对应的候选帧;
第二提取子单元,用于从目标对象对应的候选帧中,提取目标对象的对象特征以及目标对象对应的内容文本;
第三提取子单元,用于根据对象特征,确定目标对象对应的纲要信息。
在一些实施方式中,第一提取子单元包括匹配子单元、候选帧确定子单元,包括:
匹配子单元,用于对视频帧与预设的表情模板进行匹配;
候选帧确定子单元,用于将与预设的表情模板匹配的视频帧确定为候选帧。
在一些实施方式中,对象特征包括目标对象的表情特征,纲要信息包括目标对象的表情信息,第三提取子单元包括特征提取子单元以及表情类型确定子单元,包括:
特征提取子单元,用于从候选帧中,提取目标对象的表情特征;
表情类型确定子单元,用于对表情特征进行分类处理,确定目标对象的表情类型。
在一些实施方式中,纲要信息还包括目标对象对应的内容关键词,第三提取子单元还包括语义理解子单元以及关键词确定子单元,包括:
语义理解子单元,用于对目标对象对应的内容文本进行语义理解,得到语义表示;
关键词确定子单元,用于根据语义表示,确定目标对象对应的内容关键词。
在一些实施方式中,提取单元还包括文本提取子单元以及文本拼接子单元,包括:
文本提取子单元,用于从候选帧中的指定区域提取显示文本,指定区域与显示文本的文本类型相关;
文本拼接子单元,用于对任一目标对象对应的显示文本进行拼接,得到任一目标对象对应的内容文本。
在一些实施方式中,文本拼接子单元包括第一文本拼接子单元以及第二文本拼接子单元,包括:
第一文本拼接子单元,用于基于显示文本的上下文关系,从任一目标对象对应的显示文本中查找属于同一段落的显示文本;
第二文本拼接子单元,用于在任一目标对象对应的显示文本中,将属于同一段落的显示文本进行拼接,得到任一目标对象对应的内容文本。
(三)映射单元330
用于创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系。
在一些实施方式中,映射单元包括第一映射子单元以及第二映射子单元,包括:
第一映射子单元,用于将目标对象对应的纲要信息作为索引标题;
第二映射子单元,用于将目标对象对应的内容文本以及目标对象对应的目标视频帧作为索引内容,创建目标对象的索引。
(四)查找单元340
用于根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧。
在一些实施方式中,索引的索引标题存储在索引目录中,查找单元包括第一查找子单元以及第二查找子单元,包括:
第一查找子单元,用于根据指向目标纲要信息的内容拼接请求,从索引目录中查找与内容拼接请求匹配的目标索引标题;
第二查找子单元,用于从目标索引标题对应的索引中,获取目标索引内容,目标索引内容包括目标纲要信息对应的目标内容文本以及目标视频帧。
(五)拼接单元350
用于由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像。
在一些实施方式中,目标对象对应的内容文本包括多个段落,拼接单元包括第一拼接子单元、第二拼接子单元以及第三拼接子单元,包括:
第一拼接子单元,用于将段落分别添加在目标图像中,得到多个待拼接图像,目标图像为与目标视频帧相关的图像;
第二拼接子单元,用于根据多个段落的语序,将多个待拼接图像进行拼接,得到初始文本拼接图像;
第三拼接子单元,用于将目标纲要信息添加在初始文本拼接图像中,得到文本拼接图像。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的图像生成装置包括获取单元、提取单元、映射单元、查找单元以及拼接单元。其中,获取单元,用于获取待处理视频,待处理视频包括多个视频帧,待处理视频中显示有至少一个目标对象;提取单元,用于从多个视频帧中,提取目标对象对应的纲要信息以及目标对象对应的内容文本;映射单元,用于创建目标对象对应的纲要信息、相应的内容文本以及相应的视频帧的映射关系;查找单元,用于根据指向目标纲要信息的内容拼接请求,从映射关系中查找目标纲要信息对应的目标内容文本以及目标视频帧;拼接单元,用于由目标纲要信息、目标内容文本以及目标视频帧,生成文本拼接图像。
由此,本申请实施例可以通过提取视频中目标对象对应的纲要信息和内容文本,以从视频中找到各目标对象对应的关键信息,尤其是对于内容丰富或时长较长的视频,能快速确定视频中与目标对象关联的关键信息。以此,能够基于提取到的纲要信息以及内容文本快速生成该目标对象相关的文本拼接图像,以提升基于视频生成文本拼接图像的效率性。此外,本申请实施例通过映射关系存储提取的目标对象的纲要信息、相应内容文本以及相应的视频帧,以在生成文本拼接图像,快速查找到所需的内容文本和视频帧,以进一步提升基于视频生成文本拼接图像的效率性。
本申请实施例还提供一种电子设备,该电子设备可以为终端、服务器等设备。
在本实施例中,将以电子设备是服务器为例进行详细描述,比如,如图4所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器410、一个或一个以上计算机可读存储介质的存储器420、电源430、输入模块440以及通信模块450等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器410是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器420内的软件程序和/或模块,以及调用存储在存储器420内的数据,执行服务器的各种功能和处理数据。在一些实施例中,处理器410可包括一个或多个处理核心;在一些实施例中,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
存储器420可用于存储软件程序以及模块,处理器410通过运行存储在存储器420的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器420还可以包括存储器控制器,以提供处理器410对存储器420的访问。
服务器还包括给各个部件供电的电源430,在一些实施例中,电源430可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源430还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入模块440,该输入模块440可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括通信模块450,在一些实施例中通信模块450可以包括无线模块,服务器可以通过该通信模块450的无线模块进行短距离无线传输,从而为用户提供了无线的宽带互联网访问。比如,该通信模块450可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器410会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器420中,并由处理器410来运行存储在存储器420中的应用程序,从而实现本申请各实施例方法中的步骤。
由上可知,本申请实施例通过提取视频中目标对象对应的纲要信息和内容文本,以从视频中找到各目标对象对应的关键信息,尤其是对于内容丰富或时长较长的视频,能快速确定视频中与目标对象关联的关键信息。以此,能够基于提取到的纲要信息以及内容文本快速生成该目标对象相关的文本拼接图像,以提升基于视频生成文本拼接图像的效率性。此外,本申请实施例通过映射关系存储提取的目标对象的纲要信息、相应内容文本以及相应的视频帧,以在生成文本拼接图像,快速查找到所需的内容文本和视频帧,以进一步提升基于视频生成文本拼接图像的效率性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种图像生成方法中的步骤。例如,该指令可以执行本申请各实施例方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括多条指令,该指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该指令,处理器执行该指令,使得该电子设备执行上述实施例中提供的各种可选实现方式中提供的方法。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种图像生成方法、装置、电子设备、存储介质和程序产品进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (16)

1.一种图像生成方法,其特征在于,包括:
获取待处理视频,所述待处理视频包括多个视频帧,所述待处理视频中显示有至少一个目标对象;
从所述多个视频帧中,提取所述目标对象对应的纲要信息以及所述目标对象对应的内容文本;
创建所述目标对象对应的纲要信息、相应的所述内容文本以及相应的视频帧的映射关系;
根据指向目标纲要信息的内容拼接请求,从所述映射关系中查找所述目标纲要信息对应的目标内容文本以及目标视频帧;
由所述目标纲要信息、所述目标内容文本以及所述目标视频帧,生成文本拼接图像。
2.如权利要求1所述的图像生成方法,其特征在于,所述从所述多个视频帧中,提取所述目标对象对应的纲要信息以及所述目标对象对应的内容文本,包括:
从所述多个视频帧中,确定所述目标对象对应的候选帧;
从所述目标对象对应的候选帧中,提取所述目标对象的对象特征以及所述目标对象对应的内容文本;
根据所述对象特征,确定所述目标对象对应的纲要信息。
3.如权利要求2所述的图像生成方法,其特征在于,所述从所述多个视频帧中,确定所述目标对象对应的候选帧,包括:
对所述视频帧与预设的表情模板进行匹配;
将与所述预设的表情模板匹配的所述视频帧确定为候选帧。
4.如权利要求2所述的图像生成方法,其特征在于,所述对象特征包括所述目标对象的表情特征,所述纲要信息包括所述目标对象的表情信息,所述根据所述对象特征,确定所述目标对象对应的纲要信息,包括:
从所述候选帧中,提取所述目标对象的表情特征;
对所述表情特征进行分类处理,确定所述目标对象的表情类型。
5.如权利要求4所述的图像生成方法,其特征在于,所述纲要信息还包括所述目标对象对应的内容关键词,所述根据所述对象特征,确定所述目标对象对应的纲要信息,还包括:
对所述目标对象对应的内容文本进行语义理解,得到语义表示;
根据所述语义表示,确定所述目标对象对应的内容关键词。
6.如权利要求2所述的图像生成方法,其特征在于,所述目标对象对应的内容文本通过如下步骤得到:
从所述候选帧中的指定区域提取显示文本,所述指定区域与所述显示文本的文本类型相关;
对任一所述目标对象对应的所述显示文本进行拼接,得到所述任一所述目标对象对应的内容文本。
7.如权利要求6所述的图像生成方法,其特征在于,所述对任一所述目标对象对应的所述显示文本进行拼接,得到所述任一所述目标对象对应的内容文本,包括:
基于所述显示文本的上下文关系,从任一所述目标对象对应的所述显示文本中查找属于同一段落的所述显示文本;
在所述任一所述目标对象对应的所述显示文本中,将属于同一段落的所述显示文本进行拼接,得到所述任一所述目标对象对应的内容文本。
8.如权利要求1所述的图像生成方法,其特征在于,所述获取待处理视频,包括:
根据对原始视频的任一播放时间点的选择操作,确定所述任一播放时间点对应的目标时间段;
从所述原始视频中,获取所述目标时间段内的待处理视频。
9.如权利要求8所述的图像生成方法,其特征在于,所述方法,还包括:
根据对所述原始视频的任一播放时间点的预览操作,显示所述任一播放时间点对应的预览用文本拼接图像。
10.如权利要求1所述的图像生成方法,其特征在于,所述创建所述目标对象对应的纲要信息、相应的所述内容文本以及相应的视频帧的映射关系,包括:
将所述目标对象对应的纲要信息作为索引标题;
将所述目标对象对应的内容文本以及所述目标对象对应的目标视频帧作为索引内容,创建所述目标对象的索引。
11.如权利要求10所述的图像生成方法,其特征在于,所述索引的所述索引标题存储在索引目录中,所述根据指向目标纲要信息的内容拼接请求,从所述映射关系中查找所述目标纲要信息对应的目标内容文本以及目标视频帧,包括:
根据所述指向所述目标纲要信息的内容拼接请求,从所述索引目录中查找与所述内容拼接请求匹配的目标索引标题;
从所述目标索引标题对应的索引中,获取目标索引内容,所述目标索引内容包括所述目标纲要信息对应的目标内容文本以及目标视频帧。
12.如权利要求1~11任一项所述的图像生成方法,其特征在于,所述目标对象对应的内容文本包括多个段落,所述由所述目标纲要信息、所述目标内容文本以及所述目标视频帧,生成文本拼接图像,包括:
将所述段落分别添加在目标图像中,得到多个待拼接图像,所述目标图像为与所述目标视频帧相关的图像;
根据所述多个段落的语序,将所述多个待拼接图像进行拼接,得到初始文本拼接图像;
将所述目标纲要信息添加在所述初始文本拼接图像中,得到所述文本拼接图像。
13.一种图像生成装置,其特征在于,包括:
获取单元,用于获取待处理视频,所述待处理视频包括多个视频帧,所述待处理视频中显示有至少一个目标对象;
提取单元,用于从所述多个视频帧中,提取所述目标对象对应的纲要信息以及所述目标对象对应的内容文本;
映射单元,用于创建所述目标对象对应的纲要信息、相应的所述内容文本以及相应的视频帧的映射关系;
查找单元,用于根据指向目标纲要信息的内容拼接请求,从所述映射关系中查找所述目标纲要信息对应的目标内容文本以及目标视频帧;
拼接单元,用于由所述目标纲要信息、所述目标内容文本以及所述目标视频帧,生成文本拼接图像。
14.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令;所述处理器从所述存储器中加载指令,以执行如权利要求1~12任一项所述图像生成方法中的步骤。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~12任一项所述的图像生成方法中的步骤。
16.一种计算机程序产品,包括多条指令,其特征在于,所述指令被处理器执行时实现权利要求1~12任一项所述的图像生成方法中的步骤。
CN202311483259.1A 2023-11-08 2023-11-08 图像生成方法、装置、电子设备、存储介质和程序产品 Pending CN117528142A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311483259.1A CN117528142A (zh) 2023-11-08 2023-11-08 图像生成方法、装置、电子设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311483259.1A CN117528142A (zh) 2023-11-08 2023-11-08 图像生成方法、装置、电子设备、存储介质和程序产品

Publications (1)

Publication Number Publication Date
CN117528142A true CN117528142A (zh) 2024-02-06

Family

ID=89761921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311483259.1A Pending CN117528142A (zh) 2023-11-08 2023-11-08 图像生成方法、装置、电子设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN117528142A (zh)

Similar Documents

Publication Publication Date Title
Yang et al. Image-text multimodal emotion classification via multi-view attentional network
CN111143610B (zh) 一种内容推荐方法、装置、电子设备和存储介质
Zhao et al. Affective image content analysis: Two decades review and new perspectives
Zhao et al. Predicting personalized image emotion perceptions in social networks
US8886589B2 (en) Providing knowledge content to users
US7853582B2 (en) Method and system for providing information services related to multimodal inputs
US20160014482A1 (en) Systems and Methods for Generating Video Summary Sequences From One or More Video Segments
US20150293928A1 (en) Systems and Methods for Generating Personalized Video Playlists
US20210365749A1 (en) Image data processing method and apparatus, electronic device, and storage medium
CN110740389B (zh) 视频定位方法、装置、计算机可读介质及电子设备
US20140255003A1 (en) Surfacing information about items mentioned or presented in a film in association with viewing the film
US20140040273A1 (en) Hypervideo browsing using links generated based on user-specified content features
CN112163122A (zh) 确定目标视频的标签的方法、装置、计算设备及存储介质
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
Ortis et al. An Overview on Image Sentiment Analysis: Methods, Datasets and Current Challenges.
US11126682B1 (en) Hyperlink based multimedia processing
US9639633B2 (en) Providing information services related to multimodal inputs
Ma et al. Sketch-based annotation and visualization in video authoring
CN113806588B (zh) 搜索视频的方法和装置
CN112738556A (zh) 视频处理方法及装置
CN111586469A (zh) 弹幕显示方法、装置及电子设备
CN116034401A (zh) 用于使用自然语言描述检索视频的系统和方法
Ivanov et al. Object-based tag propagation for semi-automatic annotation of images
CN113407775B (zh) 视频搜索方法、装置及电子设备
Abdulmunem et al. Semantic based video retrieval system: survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication