CN113132752B - 视频处理方法及装置 - Google Patents
视频处理方法及装置 Download PDFInfo
- Publication number
- CN113132752B CN113132752B CN201911395439.8A CN201911395439A CN113132752B CN 113132752 B CN113132752 B CN 113132752B CN 201911395439 A CN201911395439 A CN 201911395439A CN 113132752 B CN113132752 B CN 113132752B
- Authority
- CN
- China
- Prior art keywords
- video
- target
- label
- processed
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 93
- 238000012545 processing Methods 0.000 claims abstract description 133
- 238000000034 method Methods 0.000 claims description 61
- 238000012216 screening Methods 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 24
- 230000000875 corresponding effect Effects 0.000 description 403
- 230000009471 action Effects 0.000 description 59
- 230000008569 process Effects 0.000 description 34
- 238000010586 diagram Methods 0.000 description 20
- 230000033001 locomotion Effects 0.000 description 16
- 239000012634 fragment Substances 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 7
- 230000002829 reductive effect Effects 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000001413 cellular effect Effects 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 239000004984 smart glass Substances 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/40—Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
- G06V20/47—Detecting features for summarising video content
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/06—Cutting and rejoining; Notching, or perforating record carriers otherwise than by recording styli
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/475—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data
- H04N21/4756—End-user interface for inputting end-user data, e.g. personal identification number [PIN], preference data for rating content, e.g. scoring a recommended movie
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请提供视频处理方法及装置,其中,所述视频处理方法包括:获取视频库中至少一个视频作为待处理视频;在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
Description
技术领域
本申请涉及视频处理技术领域,特别涉及视频处理方法及装置。
背景技术
随着网络技术和多媒体技术的迅速发展,网络上涌现出各种各样的视频,这些视频在丰富用户生活的同时,但也使用户在网络上浏览视频的时候面临选择困难,在面临各类视频的时候很难快速定位和找到想要的视频,这就使得视频理解技术和视频处理技术应用而生,通过视频理解技术对网络上传播的视频的内容进行理解分析,通过分析出视频中包含的关键信息来提取出视频中关键片段组成视频集锦。
发明内容
有鉴于此,本申请提供了四种视频处理方法、四种视频处理装置、四种计算设备以及四种计算机可读存储介质。
本申请提供第一种视频处理方法,包括:
获取视频库中至少一个视频作为待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
可选的,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
可选的,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合,包括:
分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;
判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;
若是,基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合。
可选的,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合步骤执行之后,且所述根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段步骤执行之前,包括:
根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
按照标签组合评分从高到底的展示顺序,向所述用户展示筛选出的候选标签组合。
可选的,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,对所述多个时间段进行时间去重,获得至少一个去重时间段;
提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段步骤执行之后,包括:
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到底的顺序,向所述用户输出筛选出的目标视频片段。
可选的,所述获取视频库中至少一个视频作为待处理视频步骤执行之前,包括:
接收所述用户上传的所述视频库的地址信息;
基于所述地址信息导入所述视频库中的视频。
本申请提供一种视频处理装置,包括:
待处理视频获取模块,被配置为获取视频库中至少一个视频作为待处理视频;
语义识别模块,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
候选标签组合生成模块,被配置为基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
视频片段确定模块,被配置为根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本申请提供第二种视频处理方法,包括:
获取用户提交的待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
根据所述视频标签数据和所述用户的输入生成目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
可选的,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
可选的,所述根据所述视频标签数据和所述用户的输入生成目标标签组合,包括:
获取所述用户输入的视频检索关键词;
确定所述视频检索关键词对应的所述一个或者多个视频标签数据中包含的一个或者多个视频标签;
基于所述视频检索关键词对应的一个或者多个视频标签生成至少一个所述目标标签组合。
可选的,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,将存在时间连续的多个时间段合并为至少一个连续时间段;
提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
按照所述至少一个帧序列的时序,基于所述至少一个帧序列生成所述目标视频片段。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段步骤执行之后,包括:
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到底的顺序,向所述用户输出筛选出的目标视频片段。
本申请提供第二种视频处理装置,包括:
待处理视频获取模块,被配置为获取用户提交的待处理视频;
语义识别模块,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
目标标签组合生成模块,被配置为根据所述视频标签数据和所述用户的输入生成目标标签组合;
视频片段确定模块,被配置为确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本申请提供第三种视频处理方法,包括:
获取待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
接收所述客户端提交的目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
向所述客户端下发所述至少一个目标视频片段。
可选的,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
可选的,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合,包括:
分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;
判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;
若是,基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合。
可选的,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合步骤执行之后,且所述向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合步骤执行之前,包括:
根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
基于标签组合评分从高到底的顺序确定所述至少一个候选标签组合的展示优先级;
相应的,所述向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合,包括:
向所述客户端下发携带有所述展示优先级的至少一个候选标签组合。
可选的,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,对所述多个时间段进行时间去重,获得至少一个去重时间段;
提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段;
或者,
判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,将存在时间连续的多个时间段合并为至少一个连续时间段;
提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
按照所述至少一个连续时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段。
可选的,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段步骤执行之后,且所述向所述客户端下发所述至少一个目标视频片段步骤执行之前,包括:
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
相应的,所述向所述客户端下发所述至少一个目标视频片段,包括:
向所述客户端下发筛选出的至少一个目标视频片段;所述至少一个目标视频片段分别携带有各自对应的视频片段评分。
本申请提供第三种视频处理装置,包括:
待处理视频获取模块,被配置为获取待处理视频;
语义识别模块,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
候选标签组合生成模块,被配置为基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
候选标签组合下发模块,被配置为向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
目标标签组合接收模块,被配置为接收所述客户端提交的目标标签组合;
视频片段确定模块,被配置为确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
目标视频片段下发模块,被配置为向所述客户端下发所述至少一个目标视频片段。
本申请提供第四种视频处理方法,包括:
接收服务端下发的至少一个候选标签组合;
向用户展示所述至少一个候选标签组合;
接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
向所述服务端提交所述目标标签组合;
接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段。
可选的,所述服务端下发的至少一个候选标签组合中携带有至少一个候选标签组合的展示优先级;相应的,所述向用户展示所述至少一个候选标签组合,包括:
按照所述展示优先级向所述用户展示所述至少一个候选标签组合。
可选的,所述服务端返回的所述目标标签组合对应的至少一个目标视频片段,分别携带有各自对应的视频片段评分;相应的,所述接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段步骤执行之后,还包括:
按照视频片段评分从高到底的顺序,向所述用户展示所述至少一个目标视频片段。
本申请提供第四种视频处理装置,包括:
候选标签组合接收模块,被配置为接收服务端下发的至少一个候选标签组合;
候选标签组合展示模块,被配置为向用户展示所述至少一个候选标签组合;
目标标签组合接收模块,被配置为接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
目标标签组合提交模块,被配置为向所述服务端提交所述目标标签组合;
目标视频片段接收模块,被配置为接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段。
本申请提供一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取视频库中至少一个视频作为待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本申请提供第二种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取用户提交的待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
根据所述用户针对所述视频标签数据的输入生成目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本申请提供第三种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
接收所述客户端提交的目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
向所述客户端下发所述至少一个目标视频片段。
本申请提供第四种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
接收服务端下发的至少一个候选标签组合;
向用户展示所述至少一个候选标签组合;
接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
向所述服务端提交所述目标标签组合;
接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段。
本申请提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述一种视频处理方法的步骤。
本申请提供第二种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述第二种视频处理方法的步骤。
本申请提供第三种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述第二种视频处理方法的步骤。
本申请提供第四种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述第二种视频处理方法的步骤。
本申请提供的一种视频处理方法,通过在一个或者多个语义识别维度对视频内容提供方提供的待处理视频进行语义识别,从语义识别获得的多个的视频标签数据出发,根据用户对基于视频标签数据生成的候选标签组合的选择,生成与用户的选择相对应的目标视频片段,以此对待处理视频进行更加精准和全面的识别理解,提升了目标视频片段内容表达的精准程度和全面程度,同时也提升了视频内容提供方的视频处理效率。
本申请提供的第二种视频处理方法,通过在多个语义识别维度对视频提供用户提供的待处理视频进行语义识别,从语义识别获得的多个的视频标签数据出发,根据用户的输入生成相应的目标视频片段,以此对待处理视频进行更加精准和全面的识别理解,提升了目标视频片段内容表达的精准程度和全面程度,同时也提升了视频提供用户的视频处理效率。
附图说明
图1是本申请实施例提供的一种视频处理方法处理流程图;
图2是本申请实施例提供的一种视频处理场景示意图;
图3是本申请实施例提供的一种足球比赛视频处理场景示意图;
图4是本申请实施例提供的一种足球比赛视频处理页面示意图;
图5是本申请实施例提供的一种视频处理装置的示意图;
图6是本申请实施例提供的第二种视频处理方法处理流程图;
图7是本申请实施例提供的第二种视频处理装置的示意图;
图8是本申请实施例提供的第三种视频处理方法处理流程图;
图9是本申请实施例提供的第三种视频处理装置的示意图;
图10是本申请实施例提供的第四种视频处理方法处理流程图;
图11是本申请实施例提供的第四种视频处理装置的示意图;
图12是本申请实施例提供的第一种计算设备的结构框图;
图13是本申请实施例提供的第二种计算设备的结构框图;
图14是本申请实施例提供的第三种计算设备的结构框图;
图15是本申请实施例提供的第四种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本申请提供四种视频处理方法、四种视频处理装置、四种计算设备以及四种计算机可读存储介质。以下分别结合本说明书提供的实施例的附图逐一进行详细说明,并且对方法的各个步骤进行说明。
本申请提供的一种视频处理方法实施例如下:
参照附图1,其示出了本实施例提供的一种视频处理方法处理流程图,参见附图2,其示出了本实施例提供的一种视频处理场景示意图,图3是本实施例提供的一种足球比赛视频处理场景示意图,图4是本实施例提供的一种足球比赛视频处理页面示意图。
步骤S102,获取视频库中至少一个视频作为待处理视频。
实际应用中,视频平台或者视频网站面向观看用户提供视频浏览访问的过程中,为使观看用户获得更加高效、快捷的视频浏览体验,通过对视频进行编辑处理的方式,提取视频中的关键内容以视频集锦的方式提供给观看用户,尤其体现在体育类视频和时政新闻类视频领域,观看用户聚焦的更多是体育视频中的精彩片段或者时政新闻视频中的关键内容。从观看用户的角度而言,更希望在有限的时间内获取更多或者更加有价值的信息,同时也不会因错过视频中的精彩内容而影响观看体验;从提供视频内容提供方(比如视频网站、视频平台或者视频生产方)的角度而言,关键在于如何在视频中进行更加准确和全面的内容提取,通过视频集锦片段对视频进行更加全面和精准的视频表达,以此来吸引更多的观看用户。
本申请提供的视频处理方法,如附图2所示,通过在多个语义识别维度对视频内容提供方提供的待处理视频进行语义识别,从语义识别获得的多个的视频标签数据出发,根据用户对基于视频标签数据生成的候选标签组合的选择,生成与用户的选择相对应的目标视频片段,以此对待处理视频进行更加精准和全面的识别理解,从而来提升目标视频片段内容表达的精准程度和全面程度,同时也提升视频内容提供方的视频处理效率。
需要说明的是,除了在多个语义识别维度对待处理视频进行语义识别之外,还可以在一个语义识别维度对待处理视频进行语义识别,并在语义识别的基础上生成相应的目标视频片段,本实施例以多个语义识别维度的视频处理为例进行说明,一个语义识别维度的视频处理具体实现参照本实施例提供的多个语义识别维度的视频处理的实现方式即可,本实施例在此不在赘述。
具体实施时,在面向视频内容提供方这一场景的视频处理过程中,用户是指视频内容提供方的视频编辑人员等负责视频管理或者视频维护的视频处理工作人员,为便于视频处理工作人员上传待处理的视频,本实施例提供的一种可选实施方式中,在接收所述用户上传的所述视频库的地址信息之后,基于所述地址信息导入所述视频库中的视频。基于此,在对所述视频库中的视频进行处理过程中,根据所述用户的选择,获取所述视频库中的至少一个视频作为所述待处理视频。
步骤S104,在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据。
本申请实施例中,为了增强对所述待处理视频进行语义识别的准确性,从具体的语义识别维度出发对所述待处理视频进行语义识别,获得所述待处理视频在相应语义识别维度的视频标签数据;基于此,为了进一步增强对所述待处理视频进行语义识别的全面性,提升进行语义识别获得的视频标签数据对所述待处理视频内容表达的全面性,还可在多个语义识别维度对所述待处理视频进行相应语义识别维度的语义识别,获得相应的多个视频标签数据。所述视频标签数据中,记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
例如,视频网站的视频处理工作人员在视频网站的视频库中选择足球比赛视频作为待处理视频,在对足球比赛视频进行处理的过程中,具体在生成该足球比赛视频的集锦片段的过程中,如附图3所示,在裁判行为识别维度、进球识别维度和球星识别维度这3个语义识别维度对足球比赛视频进行语义识别,识别结果具体如下:
(1)裁判行为识别维度对应的视频标签数据包括:
红牌1对应的红牌标签Label a1,该红牌标签Label a1在足球比赛视频中对应的时间段为T_a1_start~T_a1_end;红牌2对应的红牌标签Label a2,该红牌标签Label a2在足球比赛视频中对应的时间段为T_a2_start~T_a2_end;
(2)进球动作识别维度对应的视频标签数据包括:
进球庆祝1对应的进球庆祝动作标签Label b1,该进球庆祝动作标签Label b1在足球比赛视频中对应的时间段为T_b1_start~T_b1_end;进球庆祝2对应的进球庆祝动作标签Label b2,该进球庆祝动作标签Label b2在足球比赛视频中对应的时间段为T_b2_start~T_b2_end;进球庆祝3对应的进球庆祝动作标签Label b3,该进球庆祝动作标签Label b3在足球比赛视频中对应的时间段为T_b3_start~T_b3_end;
(3)球星识别维度对应的视频标签数据包括:
球星A对应的球星动作标签Label c1,该球星动作标签Label c1在足球比赛视频中对应的时间段为T_c1_start~T_c1_end、T_c2_start~T_c2_end、T_c3_start~T_c3_end、T_c4_start~T_c4_end以及T_c5_start~T_c5_end;球星B对应的球星动作标签Labelc2,该球星动作标签Label c2在足球比赛视频中对应的时间段为T_c1_start~T_c1_end以及T_c4_start~T_c4_end。
具体实施时,在所述一个或者多个语义识别维度对所述待处理视频进行语义识别的过程中,可采用语义识别模型实现,具体的,语义识别模型可针对不同语义识别维度分别训练获得,通过将所述待处理视频输入训练获得的各个语义识别维度的语义识别模型,将各个语义识别维度的语义识别模型输出的视频标签数据作为所述待处理视频在各个语义识别维度的视频标签数据。此外,还可以训练对多个语义识别维度进行语义识别的语义识别模型,通过将所述待处理视频输入训练获得的语义识别模型,由语义识别模型在多个语义识别维度分别对所述待处理视频进行语义识别,将语义识别模型输出的多个语义识别维度的视频标签数据作为所述待处理视频在多个语义识别维度的视频标签数据。
步骤S106,基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合。
具体实施时,若上述在一个语义识别维度对所述待处理视频进行语义识别,则根据在该语义识别维度对所述待处理视频进行语义识别获得的视频标签数据的基础上,基于获得的所述视频标签数据生成所述候选标签组合即可;若上述在多个语义识别维度对所述待处理视频进行语义识别,则在生成的所述待处理视频在多个语义识别维度的视频标签的基础上,根据所述多个语义识别维度的视频标签中至少一者生成至少一个候选标签组合。
如附图3所示,根据裁判行为识别维度对应的视频标签数据中包含的红牌标签Label a1和红牌标签Label a2,进球动作识别维度对应的视频标签数据中包含的进球庆祝动作标签Label b1、进球庆祝动作标签Label b2和进球庆祝动作标签Label b3,以及球星识别维度对应的视频标签数据中包含的球星动作标签Label c1和球星动作标签Label c2,生成的候选标签组合有:
Label a1-Label b1,Label a1-Label b2,Label a1-Label b3;Label a1-Labelc1,Label a1-Label c2;Label a2-Label b1,Label a2-Label b2,Label a2-Label b3;Label a2-Label c1,Label a2-Label c2;Label b1-Label c1,Label b1-Label c2;Labelb2-Label c1,Label b2-Label c2;Label b3-Label c1,Label b3-Label c2;
Label a1-Label b1-Label c1,Label a1-Label b1-Label c2,Label a1-Labelb2-Label c1,Label a1-Label b2-Label c2,Label a1-Label b3-Label c1,Label a1-Label b3-Label c2;Label a2-Label b1-Label c1,Label a2-Label b1-Label c2,Labela2-Label b2-Label c1,Label a2-Label b2-Label c2,Label a2-Label b3-Label c1,Label a2-Label b3-Label c2;
Label a1-Label b1-Label c1-Label c2,Label a1-Label b2-Label c1-Labelc2,Label a1-Label b3-Label c1-Label c2;Label a2-Label b1-Label c1-Label c2,Label a2-Label b2-Label c1-Label c2,Label a2-Label b3-Label c1-Label c2。
具体的,若上述在多个语义识别维度对所述待处理视频进行语义识别,则生成所述待处理视频在多个语义识别维度的视频标签对应的时间段当中,可能会有部分视频标签对应的时间段是重合的,也可能会存在部分视频标签对应的时间段不具有重合关系,而对于对应的时间段不具有重合关系的视频标签,即使将这些视频标签组合为视频标签组合,基于该视频标签组合在所述待处理视频中确定的时间片段也有可能为空,因此,为了提升视频处理的有效性,同时也为了避免无效的视频处理造成的计算资源浪费,本实施例提供的一种可选实施方式中,采用如下方式生成所述至少一个候选标签组合:
首先,分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;然后,判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;若是,基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合;若否,不作处理即可。
实际应用中,在所述待处理视频的时长较长或者包含的内容较为繁杂的情况下,从多个语义识别维度出发在所述待处理视频中识别出的视频标签数据的数目较多,相应的,所述视频标签数据中包含的视频标签的数目也较多,在这种情况下,基于所述视频标签生成所述候选标签组合的过程中,生成的候选标签组合的数目也更多,而对于作为所述用户的视频内容提供方的视频处理工作人员,在面临数目众多的候选标签组合时,很难快速做出选择。本实施例提供的一种可选实施方式中,为降低视频处理工作人员的选择难度,提升视频处理工作人员在视频处理过程中的交互体验,采用如下方式对所述候选标签组合的展示:
根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
按照标签组合评分从高到底的展示顺序,向所述用户展示筛选出的候选标签组合。
需要说明的是,所述视频标签的标签权重可预先设置,也可由视频内容提供方根据业务需求来设置,视频内容提供方可在收集用户的视频偏好的基础上,增大一个或者多个语义识别维度的视频标签的标签权重,或者降低一个或者多个语义识别维度的视频标签的标签权重,如附图4所示,在对足球比赛视频进行处理过程中,通过提升进球动作识别维度的优先级来增大进球动作识别维度的视频标签的标签权重,通过提升球星识别维度的优先级来增大球星识别维度的视频标签的标签权重,通过降低裁判行为识别维度的优先级对裁判行为识别维度的视频标签的标签权重予以降低,而镜头回放识别维度和精彩传射识别维度未选择,则无需对这两个语义识别维度的视频标签的标签权重进行增大或者降低。
具体的,视频标签的标签权重的增大或者降低,最终会反应在向所述用户展示的候选标签组合上,若视频标签的标签权重被增大,则包含该标签权重对应的视频标签的候选标签组合的展示优先级会相应提升;反之,若视频标签的标签权重被降低,则包含该标签权重对应的视频标签的候选标签组合的展示优先级会相应降低。
所述视频标签的标签评分可根据所述视频标签在所述待处理视频中出现的频次来确定,且所述视频标签的标签评分应当与所述视频标签在所述待处理视频中出现的频次正相关;除此之外,所述标签评分同样可以由视频内容提供方根据业务需求来设置,对此不做限定。
步骤S108,根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段。
在上述步骤生成的所述至少一个候选标签组合的基础上,在此,根据所述用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段,为后续步骤生成所述目标视频片段做准备。
具体的,针对所述视频标签在所述待处理视频中对应的任意一个视频片段,该视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧,所述视频片段即为所述待处理视频中所述起始帧至所述终止帧之间的图像帧序列构成的视频片段。
沿用上例,以足球比赛视频处理场景为例,视频网站的视频处理工作人员在上述候选标签组合中选择的目标标签组合为:Label b2-Label c1,即:选择球星A的进球庆祝动作对应的视频标签作为目标标签组合;
其中,进球庆祝动作标签Label b2在足球比赛视频中对应的视频片段为:足球比赛视频中T_b2_start对应的起始图像帧与T_b2_end对应的终止图像帧二者之间的图像帧序列构成的视频片段;
球星A对应的球星动作标签Label c1在足球比赛视频中对应的视频片段有5个,分别为:足球比赛视频中T_c1_start对应的起始图像帧与T_c1_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c2_start对应的起始图像帧与T_c2_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c3_start对应的起始图像帧与T_c3_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c4_start对应的起始图像帧与T_c4_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c5_start对应的起始图像帧与T_c5_end对应的终止图像帧二者之间的图像帧序列构成的视频片段。
步骤S110,基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本实施例提供的一种可选实施方式中,采用如下方式生成所述目标标签组合对应的至少一个目标视频片段:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
仍以上述足球比赛视频处理场景为例,用户选择目标标签组合Label b2-Labelc1,该目标标签组合Label b2-Label c1中包含的2个视频标签在足球比赛视频中对应的视频片段总共有6个,在足球比赛视频中对应的时间段也有6个,这6个时间段中仅T_b2_start~T_b2_end与T_c2_start~T_c2_end为同一时间段,可见,足球比赛视频中满足球星A的进球庆祝动作对应的视频标签组成的目标标签组合的视频片段只有一个,即T_b2_start~T_b2_end(T_c2_start~T_c2_end)这一时间段对应的视频片段,则从足球比赛视频中提取该视频片段作为目标视频片段(视频集锦片段)。
上述实现方式仅从所述待处理视频中满足所述目标标签组合中包含的所有视频标签的视频片段生成所述目标视频片段,但这种实现方式在用户选择的目标标签组合中包含的视频标签的数目较多的情况下,最终生成的所述目标视频片段的时长较短,甚至可能会出现所述待处理视频中不存在满足所述目标标签组合中包含的所有视频标签的目标视频片段,为了避免这种情况的发生,提升用户对最终生成的目标视频片段的满意度,本实施例提供的另一种可选实施方式中,采用如下方式生成所述目标标签组合对应的至少一个目标视频片段:
判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,对所述多个时间段进行时间去重,获得至少一个去重时间段;
提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段;
若不存在,提取所述待处理视频中所述多个时间段对应的多个时帧序列;
按照所述多个时帧序列的时序,将所述多个帧序列拼接为所述目标视频片段。
需要说明的是,除上述提供的两种生成所述目标视频片段的实现方式之外,还可以采用与之类似的实现方式生成所述目标视频片段,本实施例对此不做限定。在此基础上,为了进一步提升视频内容提供方对生成的所述目标视频片段的满意度,在生成所述目标视频片段的过程中,可采用多种实现方式分别生成多个不同的目标视频片段向视频内容提供方输出,并且在对目标视频进行打分排序的基础上向视频内容提供方输出,以此来提升视频内容提供方的体验,本实施例提供的一种可选实施方式中,采用如下方式对所述目标视频片段进行打分排序并输出:
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到底的顺序,向所述用户输出筛选出的目标视频片段。
下述以本实施例提供的视频处理方法在庭审视频处理场景中的应用为例,对本实施例提供的视频处理方法进行进一步说明。具体的,应用于庭审视频处理场景的视频处理方法具体包括如下步骤:
(1)法院的庭审记录很多情况下都采用视频录制的方式进行录制并存储在庭审视频数据库中,如果需要对某次庭审的庭审记录视频进行内容摘要,则从庭审视频数据库中获取该次庭审的庭审记录视频进行摘要处理。
(2)在判决语义识别维度和律师辩论语义识别维度分别对庭审记录视频进行语义识别,获得庭审记录视频中视频片段在判决语义识别维度的判决标签,以及庭审记录视频中视频片段在律师辩论语义识别维度的辩论标签。
(3)根据庭审记录视频中视频片段的判决标签、庭审记录视频中视频片段的辩论标签,生成多个候选标签组合。
(4)法院的书记员或者其他工作人员根据需要在多个候选标签组合中选择一个或者多个候选标签组合,则将选择的一个或者多个候选标签组合作为目标标签组合,并进一步确定目标标签组合中包含的判决标签和/或辩论标签在庭审记录视频中对应的视频片段。
(5)根据判决标签和/或辩论标签在庭审记录视频中对应的视频片段,生成多个表示庭审记录视频摘要的视频摘要片段。
下述以本实施例提供的视频处理方法在会议视频处理场景中的应用为例,对本实施例提供的视频处理方法进行进一步说明。具体的,应用于会议视频处理场景的视频处理方法具体包括如下步骤:
(1)随着视频会议的使用越来越频繁,很多时候需要对视频会议的内容进行审核分析,如果需要对某次会议的会议视频进行摘要或者分析,则从会议视频数据库中获取该次会议的会议视频进行审核处理。
(2)在发言语义识别维度和参会人员讨论语义识别维度分别对会议视频进行语义识别,获得会议视频中视频片段在发言语义识别维度的发言标签,以及会议视频中视频片段在参会人员讨论语义识别维度的参会人员讨论标签。
(3)根据会议视频中视频片段的发言标签、会议视频中视频片段的参会人员讨论标签,生成多个候选标签组合。
(4)会议的记录员或者其他工作人员根据需要在多个候选标签组合中选择一个或者多个候选标签组合,则将选择的一个或者多个候选标签组合作为目标标签组合,并进一步确定目标标签组合中包含的发言标签和/或参会人员讨论标签在会议视频中对应的视频片段。
(5)根据发言标签和/或参会人员讨论标签在会议视频中对应的视频片段,生成多个内容摘要片段,后续可以在生成的内容摘要片段的基础上更快速、更有效率的对会议视频进行内容审核。
下述以本实施例提供的视频处理方法在直播视频处理场景中的应用为例,对本实施例提供的视频处理方法进行进一步说明。具体的,应用于直播视频处理场景的视频处理方法具体包括如下步骤:
(1)随着视频直播的应用范围越来越广,视频直播的过程中也往往伴随着弹幕,在对直播视频进行分析处理的过程中,除了对直播视频本身表达的内容进行分析处理之外,还可以结合直播视频的弹幕内容进行分析处理,具体的,在对直播视频进行分析处理的过程中,从视频数据库中获取某次直播过程中录制的直播视频进行分析处理。
(2)在视频内容语义识别维度和弹幕语义识别维度分别对直播视频进行语义识别,获得直播视频中视频片段在视频内容语义识别维度的内容标签,以及直播视频中视频片段在弹幕语义识别维度的弹幕标签。
(3)根据直播视频中视频片段的内容标签、直播视频中视频片段的弹幕标签,生成多个候选标签组合。
(4)直播视频的内容维护人员根据需要在多个候选标签组合中选择一个或者多个候选标签组合,则将选择的一个或者多个候选标签组合作为目标标签组合,并进一步确定目标标签组合中包含的内容标签和/或弹幕标签在直播视频中对应的视频片段。
(5)根据内容标签和/或弹幕标签在直播视频中对应的视频片段,生成多个直播视频集锦片段。
下述以本实施例提供的视频处理方法在影视剧视频处理场景中的应用为例,对本实施例提供的视频处理方法进行进一步说明。具体的,应用于影视剧视频处理场景的视频处理方法具体包括如下步骤:
(1)从视频网站的影视剧视频库中获取一部影视剧的分集视频进行处理。
(2)在角色语义识别维度、动作语义识别维度和对象语义识别维度分别对分集视频进行语义识别,获得分集视频中视频片段在角色语义识别维度的角色标签,分集视频中视频片段在动作语义识别维度的动作标签,以及分集视频中视频片段在对象语义识别维度的对象标签。
(3)分集视频中视频片段的角色标签,分集视频中视频片段的动作标签,以及分集视频中视频片段的对象标签,生成多个候选标签组合。
(4)视频网站的内容维护人员根据需要在多个候选标签组合中选择一个或者多个候选标签组合,则将选择的一个或者多个候选标签组合作为目标标签组合,并进一步确定目标标签组合中包含的角色标签、动作标签和/或对象标签在分集视频中对应的视频片段。
实际应用中,影视剧的观看用户除了关注影视剧本身表达的内容之外,很对情况下还会对影视剧中人物的服装、道具进行关注,基于此,在识别出分集视频中的对象标签的基础上,通过确定对象标签在分集视频中对应的对象,从交易平台获取该对象的购买链接,然后建立对象标签所属对象与购买链接的对应关系,该对应关系的建立以使观看用户在观看分集视频过程中,如果想要购买分集视频中出现的某个对象,则通过点击对应的购买链接即可跳转到相应的购买页面。
(5)根据角色标签、动作标签和/或对象标签在分集视频中对应的视频片段,生成多个集锦片段。
相应的,如果观看用户在浏览集锦片段的过程中,如果触发集锦片段中对象标签所属对象的购买链接,则会跳转至该被触发对象的购买页面。
综上所述,所述视频处理方法,通过在多个语义识别维度对视频内容提供方提供的待处理视频进行语义识别,从语义识别获得的多个的视频标签数据出发,根据用户对基于视频标签数据生成的候选标签组合的选择,生成与用户的选择相对应的目标视频片段,以此对待处理视频进行更加精准和全面的识别理解,提升了目标视频片段内容表达的精准程度和全面程度,同时也提升了视频内容提供方的视频处理效率。
本申请提供的一种视频处理装置实施例如下:
在上述的实施例中,提供了一种视频处理方法,与之相对应的,还提供了一种视频处理装置,下面结合附图进行说明。
参照附图5,其示出了本实施例提供的一种视频处理装置的示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供一种视频处理装置,包括:
待处理视频获取模块502,被配置为获取视频库中至少一个视频作为待处理视频;
语义识别模块504,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
候选标签组合生成模块506,被配置为基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
视频片段确定模块508,被配置为根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块510,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
可选的,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
可选的,所述候选标签组合生成模块506,包括:
提取子模块,被配置为分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;
判断子模块,被配置为判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;
若是,运行生成子模块;所述生成子模块,被配置为基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合。
可选的,所述视频处理装置,还包括:
标签组合评分计算模块,被配置为根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
候选标签组合筛选模块,被配置为从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
候选标签组合展示模块,被配置为按照标签组合评分从高到底的展示顺序,向所述用户展示筛选出的候选标签组合。
可选的,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
可选的,所述目标视频片段生成模块510,包括:
帧序列提取子模块,被配置为按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
目标视频片段生成子模块,被配置为按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
可选的,所述目标视频片段生成模块510,包括:
时间段判断子模块,被配置为判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,运行时间段去重子模块、帧序列提取子模块和帧序列拼接子模块;
所述时间段去重子模块,被配置为对所述多个时间段进行时间去重,获得至少一个去重时间段;
所述帧序列提取子模块,被配置为提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
所述帧序列拼接子模块,被配置为按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段。
可选的,所述视频处理装置,包括:
视频标签确定模块,被配置为在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
视频片段评分计算模块,被配置为根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
筛选目标视频片段模块,被配置为从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
目标视频片段输出模块,被配置为按照视频片段评分从高到底的顺序,向所述用户输出筛选出的目标视频片段。
可选的,所述视频处理装置,包括:
地址信息接收模块,被配置为接收所述用户上传的所述视频库的地址信息;
视频导入模块,被配置为基于所述地址信息导入所述视频库中的视频。
本申请提供的第二种视频处理方法实施例如下:
参照附图6,其示出了本实施例提供的第二种视频处理方法处理流程图,参见附图2,其示出了本实施例提供的一种视频处理场景示意图,图3是本实施例提供的一种足球比赛视频处理场景示意图,图4是本实施例提供的一种足球比赛视频处理页面示意图。
本实施例提供第二种视频处理方法,包括:
步骤S602,获取用户提交的待处理视频。
实际应用中,提供视频的个人用户(视频提供用户)通过视频平台或者视频网站向观看用户提供视频浏览访问的过程中,为使观看用户获得更加高效、快捷的视频浏览体验,通过对视频进行编辑处理的方式,提取视频中的关键内容以视频集锦的方式提供给观看用户,尤其体现在体育类视频和时政新闻类视频领域,观看用户聚焦的更多是体育视频中的精彩片段或者时政新闻视频中的关键内容。从观看用户的角度而言,更希望在有限的时间内获取更多或者更加有价值的信息,同时也不会因错过视频中的精彩内容而影响观看体验;从视频提供用户角度而言,关键在于如何在视频中进行更加准确和全面的内容提取,通过视频集锦片段对视频进行更加全面和精准的视频表达,以此吸引更多的观看用户加入观看。
本申请提供的视频处理方法,如附图2所示,通过在多个语义识别维度对视频提供用户提供的待处理视频进行语义识别,从语义识别获得的多个的视频标签数据出发,根据用户的输入生成目标视频片段,以此对待处理视频进行更加精准和全面的识别理解,从而来提升目标视频片段内容表达的精准程度和全面程度,同时也提升视频提供用户的视频处理效率。
需要说明的是,除了在多个语义识别维度对待处理视频进行语义识别之外,还可以在一个语义识别维度对待处理视频进行语义识别,并在语义识别的基础上生成相应的目标视频片段,本实施例以多个语义识别维度的视频处理为例进行说明,一个语义识别维度的视频处理具体实现参照本实施例提供的多个语义识别维度的视频处理的实现方式即可,本实施例在此不在赘述。
具体实施时,在面向视频内容用户这一场景的视频处理过程中,根据视频内容用户上传的视频,将视频内容用户上传的视频作为待处理视频。
步骤S604,在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据。
本申请实施例中,为了增强对所述待处理视频进行语义识别的准确性,从具体的语义识别维度出发对所述待处理视频进行语义识别,获得所述待处理视频在相应语义识别维度的视频标签数据;基于此,为了进一步增强对所述待处理视频进行语义识别的全面性,提升进行语义识别获得的视频标签数据对所述待处理视频内容表达的全面性,还可在多个语义识别维度对所述待处理视频进行相应语义识别维度的语义识别,获得所述待处理视频在多个语义识别维度对应的多个视频标签数据。所述视频标签数据中,记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
例如,视频提供用户上传足球比赛视频作为待处理视频,在对足球比赛视频进行处理的过程中,具体是生成该足球比赛视频的集锦片段的过程中,如附图3所示,在裁判行为识别维度、进球识别维度和球星识别维度这3个语义识别维度对足球比赛视频进行语义识别,识别结果具体如下:
(1)裁判行为识别维度对应的视频标签数据包括:
红牌1对应的红牌标签Label a1,该红牌标签Label a1在足球比赛视频中对应的时间段为T_a1_start~T_a1_end;红牌2对应的红牌标签Label a2,该红牌标签Label a2在足球比赛视频中对应的时间段为T_a2_start~T_a2_end;
(2)进球动作识别维度对应的视频标签数据包括:
进球庆祝1对应的进球庆祝动作标签Label b1,该进球庆祝动作标签Label b1在足球比赛视频中对应的时间段为T_b1_start~T_b1_end;进球庆祝2对应的进球庆祝动作标签Label b2,该进球庆祝动作标签Label b2在足球比赛视频中对应的时间段为T_b2_start~T_b2_end;进球庆祝3对应的进球庆祝动作标签Label b3,该进球庆祝动作标签Label b3在足球比赛视频中对应的时间段为T_b3_start~T_b3_end;
(3)球星识别维度对应的视频标签数据包括:
球星A对应的球星动作标签Label c1,该球星动作标签Label c1在足球比赛视频中对应的时间段为T_c1_start~T_c1_end、T_c2_start~T_c2_end、T_c3_start~T_c3_end、T_c4_start~T_c4_end以及T_c5_start~T_c5_end;球星B对应的球星动作标签Labelc2,该球星动作标签Label c2在足球比赛视频中对应的时间段为T_c1_start~T_c1_end以及T_c4_start~T_c4_end。
具体实施时,在所述一个或者多个语义识别维度对所述待处理视频进行语义识别的过程中,可采用语义识别模型实现,具体的,语义识别模型既可以针对不同语义识别维度分别训练获得,通过将所述待处理视频输入训练获得的各个语义识别维度的语义识别模型,将各个语义识别维度的语义识别模型输出的视频标签数据作为所述待处理视频在各个语义识别维度的视频标签数据。此外,还可以训练用于对多个语义识别维度进行语义识别的语义识别模型,通过将所述待处理视频输入训练获得的语义识别模型,由语义识别模型在多个语义识别维度分别对所述待处理视频进行语义识别,将语义识别模型输出的多个语义识别维度的视频标签数据作为所述待处理视频在多个语义识别维度的视频标签数据。
步骤S606,根据所述视频标签数据和所述用户的输入生成目标标签组合。
实际应用中,在面向视频提供用户这一场景进行视频处理的过程中,为了提升视频提供用户的视频处理体验,在生成的所述视频标签数据的基础上,向视频提供用户开始视频处理交互接口,通过视频处理交互接口为视频提供用户提供深度参与视频处理和编辑的渠道,本实施例提供的一种可选实施方式中,采用如下方式生成所述目标标签组合:
获取所述用户输入的视频检索关键词;
确定所述视频检索关键词对应的所述一个或者多个视频标签数据中包含的一个或者多个视频标签;
基于所述视频检索关键词对应的一个或者多个视频标签生成至少一个所述目标标签组合。
需要说明的是,视频提供用户在通过视频处理交互接口进行检索关键词的输入过程中,还可以通过视频处理交互接口输入视频处理的偏好,如附图4所示,在对足球比赛视频进行处理过程中,通过提升进球动作识别维度的优先级来增大进球动作识别维度的视频标签的标签权重,通过提升球星识别维度的优先级来增大球星识别维度的视频标签的标签权重,通过降低裁判行为识别维度的优先级对裁判行为识别维度的视频标签的标签权重予以降低,而镜头回放识别维度和精彩传射识别维度未选择,则无需对这两个语义识别维度的视频标签的标签权重进行增大或者降低。
具体的,视频标签的标签权重的增大或者降低,会反应在最终生成的目标视频片段中,若视频标签的标签权重被增大,则最终生成的目标视频片段中该视频标签对应的视频片段内容出现频次较高;
反之,若视频标签的标签权重被降低,则最终生成的目标视频片段中该视频标签对应的视频片段内容出现频次较低。
步骤S608,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段。
在上述步骤生成的所述目标标签组合的基础上,在此,根据生成的所述目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段,为后续步骤生成所述目标视频片段做准备。
具体的,针对所述视频标签在所述待处理视频中对应的任意一个视频片段,该视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧,所述视频片段即为所述待处理视频中所述起始帧至所述终止帧之间的图像帧序列构成的视频片段。
沿用上例,以足球比赛视频处理场景为例,足球比赛视频的视频提供用户输出的视频检索关键词为“球星”和“进球”,确定视频检索关键词“球星”对应的视频标签为球星A对应的球星动作标签Label c1,视频检索关键词“进球”对应的视频标签为进球庆祝动作标签Label b2,据此生成的目标标签组合为:Label b2-Label c1,即:选择球星A的进球庆祝动作对应的视频标签作为目标标签组合;
其中,进球庆祝动作标签Label b2在足球比赛视频中对应的视频片段为:足球比赛视频中T_b2_start对应的起始图像帧与T_b2_end对应的终止图像帧二者之间的图像帧序列构成的视频片段;
球星A对应的球星动作标签Label c1在足球比赛视频中对应的视频片段有5个,分别为:足球比赛视频中T_c1_start对应的起始图像帧与T_c1_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c2_start对应的起始图像帧与T_c2_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c3_start对应的起始图像帧与T_c3_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c4_start对应的起始图像帧与T_c4_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c5_start对应的起始图像帧与T_c5_end对应的终止图像帧二者之间的图像帧序列构成的视频片段。
步骤S610,基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本实施例提供的一种可选实施方式中,采用如下方式生成所述目标标签组合对应的至少一个目标视频片段:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
仍以上述足球比赛视频处理场景为例,用户选择目标标签组合Label b2-Labelc1,该目标标签组合Label b2-Label c1中包含的2个视频标签在足球比赛视频中对应的视频片段总共有6个,在足球比赛视频中对应的时间段也有6个,这6个时间段中仅T_b2_start~T_b2_end与T_c2_start~T_c2_end为同一时间段,可见,足球比赛视频中满足球星A的进球庆祝动作对应的视频标签组成的目标标签组合的视频片段只有一个,即T_b2_start~T_b2_end(T_c2_start~T_c2_end)这一时间段对应的视频片段,则从足球比赛视频中提取该视频片段作为目标视频片段(视频集锦片段)。
上述实现方式仅从所述待处理视频中满足所述目标标签组合中包含的所有视频标签的视频片段生成所述目标视频片段,但这种实现方式在用户选择的目标标签组合中包含的视频标签对应的时间段较为分散的情况下,最终生成的目标视频片段的内容连续性较差,比如存在较多时长为5s甚至更短的时间片段,观看用户在观看时的体验较差,为了避免这种情况的发生,提升用户对最终生成的目标视频片段的满意度,本实施例提供的另一种可选实施方式中,采用如下方式生成所述目标标签组合对应的至少一个目标视频片段:
判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,将存在时间连续的多个时间段合并为至少一个连续时间段;
提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
按照所述至少一个帧序列的时序,基于所述至少一个帧序列生成所述目标视频片段;
若不存在,不作处理即可。
需要说明的是,除上述提供的两种生成所述目标视频片段的实现方式之外,还可以采用与之类似的实现方式生成所述目标视频片段,本实施例对此不做限定。在此基础上,为了进一步提升视频提供用户对生成的所述目标视频片段的满意度,在生成所述目标视频片段的过程中,可采用多种实现方式分别生成多个不同的目标视频片段向视频提供用户输出,并且在对目标视频进行打分排序的基础上向视频提供用户输出,以此来提升视频提供用户的体验,本实施例提供的一种可选实施方式中,采用如下方式对所述目标视频片段进行打分排序并输出:
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到底的顺序,向所述用户输出筛选出的目标视频片段。
需要说明的是,所述视频标签的标签权重可预先设置,也可由视频提供用户根据业务需求来设置,视频提供用户可在收集用户的视频偏好的基础上,增大一个或者多个语义识别维度的视频标签的标签权重,或者降低一个或者多个语义识别维度的视频标签的标签权重。
所述视频标签的标签评分可根据所述视频标签在所述待处理视频中出现的频次来确定,且所述视频标签的标签评分应当与所述视频标签在所述待处理视频中出现的频次正相关;除此之外,所述标签评分同样可以由视频提供用户根据业务需求来设置,对此不做限定。
综上所述,所述视频处理方法,通过在多个语义识别维度对视频提供用户提供的待处理视频进行语义识别,从语义识别获得的多个的视频标签数据出发,根据用户的输入生成相应的目标视频片段,以此对待处理视频进行更加精准和全面的识别理解,提升了目标视频片段内容表达的精准程度和全面程度,同时也提升了视频提供用户的视频处理效率。
本申请提供的第二种视频处理装置实施例如下:
在上述的实施例中,提供了第二种视频处理方法,与之相对应的,还提供了第二种视频处理装置,下面结合附图进行说明。
参照附图7,其示出了本实施例提供的第二种视频处理装置的示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供第二种视频处理装置,包括:
待处理视频获取模块702,被配置为获取用户提交的待处理视频;
语义识别模块704,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
目标标签组合生成模块706,被配置为根据所述视频标签数据和所述用户的输入生成目标标签组合;
视频片段确定模块708,被配置为确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块710,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
可选的,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
可选的,所述目标标签组合生成模块706,包括:
视频检索关键词获取子模块,被配置为获取所述用户输入的视频检索关键词;
视频标签确定子模块,被配置为确定所述视频检索关键词对应的所述一个或者多个视频标签数据中包含的一个或者多个视频标签;
目标标签组合生成子模块,被配置为基于所述视频检索关键词对应的一个或者多个视频标签生成至少一个所述目标标签组合。
可选的,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
可选的,所述目标视频片段生成模块710,包括:
帧序列提取子模块,被配置为按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
目标视频片段生成子模块,被配置为按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
可选的,所述目标视频片段生成模块710,包括:
时间段判断子模块,被配置为判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,运行时间段合并子模块、帧序列提取子模块和目标视频片段生成子模块;
所述时间段合并子模块,被配置为将存在时间连续的多个时间段合并为至少一个连续时间段;
所述帧序列提取子模块,被配置为提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
所述目标视频片段生成子模块,被配置为按照所述至少一个帧序列的时序,基于所述至少一个帧序列生成所述目标视频片段。
可选的,所述视频处理装置,包括:
视频标签确定模块,被配置为在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
视频片段评分计算模块,被配置为根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
目标视频片段筛选模块,被配置为从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
目标视频片段输出模块,被配置为按照视频片段评分从高到底的顺序,向所述用户输出筛选出的目标视频片段。
本申请提供的第三种视频处理方法实施例如下:
本实施例提供的第三种视频处理方法的执行主体为服务端,与下述提供的基于客户端执行的第四种视频处理方法在执行过程中相互配合,共同实现视频处理。
参照附图8,其示出了本实施例提供的第三种视频处理方法处理流程图,所述方法,包括:
步骤S802,获取待处理视频。
本实施例所述待处理视频,可以是视频提供用户通过客户端上传的视频;还可以是视频内容提供方(比如视频网站、视频平台或者视频生产方)上传的视频库的地址信息之后,基于所述地址信息导入所述视频库中的视频。
步骤S804,在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据。
本申请实施例中,为了增强对所述待处理视频进行语义识别的准确性,从具体的语义识别维度出发对所述待处理视频进行语义识别,获得所述待处理视频在相应语义识别维度的视频标签数据;基于此,为了进一步增强对所述待处理视频进行语义识别的全面性,提升进行语义识别获得的视频标签数据对所述待处理视频内容表达的全面性,还可在多个语义识别维度对所述待处理视频进行相应语义识别维度的语义识别,获得所述待处理视频在多个语义识别维度对应的多个视频标签数据。所述视频标签数据中,记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
例如,视频网站的视频处理工作人员在视频网站的视频库中选择足球比赛视频作为待处理视频,或者视频提供用户上传足球比赛视频作为待处理视频,在对足球比赛视频进行处理的过程中,具体是生成该足球比赛视频的集锦片段的过程中,如附图3所示,在裁判行为识别维度、进球识别维度和球星识别维度这3个语义识别维度对足球比赛视频进行语义识别,识别结果具体如下:
(1)裁判行为识别维度对应的视频标签数据包括:
红牌1对应的红牌标签Label a1,该红牌标签Label a1在足球比赛视频中对应的时间段为T_a1_start~T_a1_end;红牌2对应的红牌标签Label a2,该红牌标签Label a2在足球比赛视频中对应的时间段为T_a2_start~T_a2_end;
(2)进球动作识别维度对应的视频标签数据包括:
进球庆祝1对应的进球庆祝动作标签Label b1,该进球庆祝动作标签Label b1在足球比赛视频中对应的时间段为T_b1_start~T_b1_end;进球庆祝2对应的进球庆祝动作标签Label b2,该进球庆祝动作标签Label b2在足球比赛视频中对应的时间段为T_b2_start~T_b2_end;进球庆祝3对应的进球庆祝动作标签Label b3,该进球庆祝动作标签Label b3在足球比赛视频中对应的时间段为T_b3_start~T_b3_end;
(3)球星识别维度对应的视频标签数据包括:
球星A对应的球星动作标签Label c1,该球星动作标签Label c1在足球比赛视频中对应的时间段为T_c1_start~T_c1_end、T_c2_start~T_c2_end、T_c3_start~T_c3_end、T_c4_start~T_c4_end以及T_c5_start~T_c5_end;球星B对应的球星动作标签Labelc2,该球星动作标签Label c2在足球比赛视频中对应的时间段为T_c1_start~T_c1_end以及T_c4_start~T_c4_end。
具体实施时,在所述一个或者多个语义识别维度对所述待处理视频进行语义识别的过程中,可采用语义识别模型实现,具体的,语义识别模型既可以针对不同语义识别维度分别训练获得,通过将所述待处理视频输入训练获得的各个语义识别维度的语义识别模型,将各个语义识别维度的语义识别模型输出的视频标签数据作为所述待处理视频在各个语义识别维度的视频标签数据。此外,还可以训练用于对多个语义识别维度进行语义识别的语义识别模型,通过将所述待处理视频输入训练获得的语义识别模型,由语义识别模型在多个语义识别维度分别对所述待处理视频进行语义识别,将语义识别模型输出的多个语义识别维度的视频标签数据作为所述待处理视频在多个语义识别维度的视频标签数据。
步骤S806,基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合。
具体实施时,若上述在一个语义识别维度对所述待处理视频进行语义识别,则根据在该语义识别维度对所述待处理视频进行语义识别获得的视频标签数据的基础上,基于获得的所述视频标签数据生成所述候选标签组合即可;若上述在多个语义识别维度对所述待处理视频进行语义识别,则在生成的所述待处理视频在多个语义识别维度的视频标签的基础上,根据所述多个语义识别维度的视频标签中至少一者生成至少一个候选标签组合。
如附图3所示,根据裁判行为识别维度对应的视频标签数据中包含的红牌标签Label a1和红牌标签Label a2,进球动作识别维度对应的视频标签数据中包含的进球庆祝动作标签Label b1、进球庆祝动作标签Label b2和进球庆祝动作标签Label b3,以及球星识别维度对应的视频标签数据中包含的球星动作标签Label c1和球星动作标签Label c2,生成的候选标签组合有:
Label a1-Label b1,Label a1-Label b2,Label a1-Label b3;Label a1-Labelc1,Label a1-Label c2;Label a2-Label b1,Label a2-Label b2,Label a2-Label b3;Label a2-Label c1,Label a2-Label c2;Label b1-Label c1,Label b1-Label c2;Labelb2-Label c1,Label b2-Label c2;Label b3-Label c1,Label b3-Label c2;
Label a1-Label b1-Label c1,Label a1-Label b1-Label c2,Label a1-Labelb2-Label c1,Label a1-Label b2-Label c2,Label a1-Label b3-Label c1,Label a1-Label b3-Label c2;Label a2-Label b1-Label c1,Label a2-Label b1-Label c2,Labela2-Label b2-Label c1,Label a2-Label b2-Label c2,Label a2-Label b3-Label c1,Label a2-Label b3-Label c2;
Label a1-Label b1-Label c1-Label c2,Label a1-Label b2-Label c1-Labelc2,Label a1-Label b3-Label c1-Label c2;Label a2-Label b1-Label c1-Label c2,Label a2-Label b2-Label c1-Label c2,Label a2-Label b3-Label c1-Label c2。
具体的,若上述在多个语义识别维度对所述待处理视频进行语义识别,则生成所述待处理视频在多个语义识别维度的视频标签对应的时间段当中,可能会有部分视频标签对应的时间段是重合的,也可能会存在部分视频标签对应的时间段不具有重合关系,而对于对应的时间段不具有重合关系的视频标签,即使将这些视频标签组合为视频标签组合,基于该视频标签组合在所述待处理视频中确定的时间片段也有可能为空,因此,为了提升视频处理的有效性,同时也为了避免无效的视频处理造成的计算资源浪费,本实施例提供的一种可选实施方式中,采用如下方式生成所述至少一个候选标签组合:
首先,分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;然后,判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;若是,基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合;若否,不作处理即可。
实际应用中,在所述待处理视频的时长较长或者包含的内容较为繁杂的情况下,从多个语义识别维度出发在所述待处理视频中识别出的视频标签数据的数目较多,相应的,所述视频标签数据中包含的视频标签的数目也较多,在这种情况下,基于所述视频标签生成所述候选标签组合的过程中,生成的候选标签组合的数目也更多,而对于视频内容提供方的视频处理工作人员或者视频提供用户,在面临数目众多的候选标签组合时,很难快速做出选择。本实施例提供的一种可选实施方式中,为降低视频处理工作人员或者视频提供用户的选择难度,提升视频处理工作人员或者视频提供用户在视频处理过程中的交互体验,采用如下方式对所述候选标签组合进行排序:
根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
基于标签组合评分从高到底的顺序确定所述至少一个候选标签组合的展示优先级。
相应的,后续步骤在向所述客户端下发所述至少一个候选标签组合的过程中,向所述客户端下发携带有所述展示优先级的至少一个候选标签组合。
需要说明的是,所述视频标签的标签权重可预先设置,也可由视频内容提供方或者视频提供用户根据业务需求来设置,视频内容提供方或者视频提供用户可在收集用户的视频偏好的基础上,增大一个或者多个语义识别维度的视频标签的标签权重,或者降低一个或者多个语义识别维度的视频标签的标签权重,如附图4所示,在对足球比赛视频进行处理过程中,通过提升进球动作识别维度的优先级来增大进球动作识别维度的视频标签的标签权重,通过提升球星识别维度的优先级来增大球星识别维度的视频标签的标签权重,通过降低裁判行为识别维度的优先级对裁判行为识别维度的视频标签的标签权重予以降低,而镜头回放识别维度和精彩传射识别维度未选择,则无需对这两个语义识别维度的视频标签的标签权重进行增大或者降低。
具体的,视频标签的标签权重的增大或者降低,最终会反应在向所述用户展示的候选标签组合上,若视频标签的标签权重被增大,则包含该标签权重对应的视频标签的候选标签组合的展示优先级会相应提升;反之,若视频标签的标签权重被降低,则包含该标签权重对应的视频标签的候选标签组合的展示优先级会相应降低。
所述视频标签的标签评分可根据所述视频标签在所述待处理视频中出现的频次来确定,且所述视频标签的标签评分应当与所述视频标签在所述待处理视频中出现的频次正相关;除此之外,所述标签评分同样可以由视频内容提供方或者视频提供用户根据业务需求来设置,对此不做限定。
步骤S808,向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合。
步骤S810,接收所述客户端提交的目标标签组合。
步骤S812,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段。
在上述步骤接收的所述目标标签组合的基础上,在此,根确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段,为后续步骤生成所述目标视频片段做准备。
具体的,针对所述视频标签在所述待处理视频中对应的任意一个视频片段,该视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧,所述视频片段即为所述待处理视频中所述起始帧至所述终止帧之间的图像帧序列构成的视频片段。
沿用上例,以足球比赛视频处理场景为例,接收到客户端提交的目标标签组合为Label b2-Label c1,即:选择球星A的进球庆祝动作对应的视频标签作为目标标签组合;
其中,进球庆祝动作标签Label b2在足球比赛视频中对应的视频片段为:足球比赛视频中T_b2_start对应的起始图像帧与T_b2_end对应的终止图像帧二者之间的图像帧序列构成的视频片段;
球星A对应的球星动作标签Label c1在足球比赛视频中对应的视频片段有5个,分别为:足球比赛视频中T_c1_start对应的起始图像帧与T_c1_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c2_start对应的起始图像帧与T_c2_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c3_start对应的起始图像帧与T_c3_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c4_start对应的起始图像帧与T_c4_end对应的终止图像帧二者之间的图像帧序列构成的视频片段,足球比赛视频中T_c5_start对应的起始图像帧与T_c5_end对应的终止图像帧二者之间的图像帧序列构成的视频片段。
步骤S814,基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本实施例提供的一种可选实施方式中,采用如下方式生成所述目标标签组合对应的至少一个目标视频片段:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
仍以上述足球比赛视频处理场景为例,用户选择目标标签组合Label b2-Labelc1,该目标标签组合Label b2-Label c1中包含的2个视频标签在足球比赛视频中对应的视频片段总共有6个,在足球比赛视频中对应的时间段也有6个,这6个时间段中仅T_b2_start~T_b2_end与T_c2_start~T_c2_end为同一时间段,可见,足球比赛视频中满足球星A的进球庆祝动作对应的视频标签组成的目标标签组合的视频片段只有一个,即T_b2_start~T_b2_end(T_c2_start~T_c2_end)这一时间段对应的视频片段,则从足球比赛视频中提取该视频片段作为目标视频片段(视频集锦片段)。
上述实现方式仅从所述待处理视频中满足所述目标标签组合中包含的所有视频标签的视频片段生成所述目标视频片段,但这种实现方式在用户选择的目标标签组合中包含的视频标签的数目较多的情况下,最终生成的所述目标视频片段的时长较短,甚至可能会出现所述待处理视频中不存在满足所述目标标签组合中包含的所有视频标签的目标视频片段,为了避免这种情况的发生,提升用户对最终生成的目标视频片段的满意度,本实施例提供的另一种可选实施方式中,采用如下方式生成所述目标标签组合对应的至少一个目标视频片段:
判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,对所述多个时间段进行时间去重,获得至少一个去重时间段;
提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段;
若不存在,提取所述待处理视频中所述多个时间段对应的多个时帧序列;
按照所述多个时帧序列的时序,将所述多个帧序列拼接为所述目标视频片段。
此外,在用户选择的目标标签组合中包含的视频标签对应的时间段较为分散的情况下,最终生成的目标视频片段的内容连续性较差,比如存在较多时长为5s甚至更短的时间片段,观看用户在观看时的体验较差,为了避免这种情况的发生,提升用户对最终生成的目标视频片段的满意度,本实施例提供的另一种可选实施方式中,采用如下方式生成所述目标标签组合对应的至少一个目标视频片段:
判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,将存在时间连续的多个时间段合并为至少一个连续时间段;
提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
按照所述至少一个帧序列的时序,基于所述至少一个帧序列生成所述目标视频片段;
若不存在,不作处理即可。
需要说明的是,除上述提供的三种生成所述目标视频片段的实现方式之外,还可以采用与之类似的实现方式生成所述目标视频片段,本实施例对此不做限定。在此基础上,为了进一步提升视频内容提供方或者视频提供用户对生成的所述目标视频片段的满意度,在生成所述目标视频片段的过程中,可采用多种实现方式分别生成多个不同的目标视频片段向视频内容提供方或者视频提供用户,并且在对目标视频进行打分排序的基础上向视频内容提供方或者视频提供用户输出,以此来提升视频内容提供方或者视频提供用户的体验,本实施例提供的一种可选实施方式中,采用如下方式对所述目标视频片段进行打分排序:
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段。
相应的,后续步骤在向所述客户端下发所述至少一个目标视频片段时,向所述客户端下发筛选出的至少一个目标视频片段;所述至少一个目标视频片段分别携带有各自对应的视频片段评分。
步骤S816,向所述客户端下发所述至少一个目标视频片段。
综上所述,本申请提供的视频处理方法,通过在一个或者多个语义识别维度对视频内容提供方提供的待处理视频进行语义识别,从语义识别获得的多个的视频标签数据出发,根据客户端对基于视频标签数据生成的候选标签组合的选择,生成与客户端的选择相对应的目标视频片段,以此对待处理视频进行更加精准和全面的识别理解,提升了目标视频片段内容表达的精准程度和全面程度,同时也提升了视频内容提供方的视频处理效率。
本申请提供的第三种视频处理装置实施例如下:
在上述的实施例中,提供了第三种视频处理方法,与之相对应的,还提供了第三种视频处理装置,下面结合附图进行说明。
参照附图9,其示出了本实施例提供的第三种视频处理装置的示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供第三种视频处理装置,包括:
待处理视频获取模块902,被配置为获取待处理视频;
语义识别模块904,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
候选标签组合生成模块906,被配置为基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
候选标签组合下发模块908,被配置为向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
目标标签组合接收模块910,被配置为接收所述客户端提交的目标标签组合;
视频片段确定模块912,被配置为确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块914,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
目标视频片段下发模块916,被配置为向所述客户端下发所述至少一个目标视频片段。
可选的,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
可选的,所述候选标签组合生成模块906,包括:
提取子模块,被配置为分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;
判断子模块,被配置为判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;
若是,运行生成子模块;所述生成子模块,被配置为基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合。
可选的,所述视频处理装置,包括:
标签组合评分计算模块,被配置为根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
候选标签组合筛选模块,被配置为从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
展示优先级确定模块,被配置为基于标签组合评分从高到底的顺序确定所述至少一个候选标签组合的展示优先级;
相应的,所述候选标签组合下发模块908,具体被配置为向所述客户端下发携带有所述展示优先级的至少一个候选标签组合。
可选的,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
可选的,所述目标视频片段生成模块914,包括:
帧序列提取子模块,被配置为按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
目标视频片段生成子模块,被配置为按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
可选的,所述目标视频片段生成模块914,包括:
第一时间段判断子模块,被配置为判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,运行时间段去重子模块、第一时间段提取子模块和第一帧序列拼接子模块;
所述时间段去重子模块,被配置为对所述多个时间段进行时间去重,获得至少一个去重时间段;
所述第一时间段提取子模块,被配置为提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
所述第一帧序列拼接子模块,被配置为按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段;
第二时间段判断子模块,被配置为判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,运行时间段合并子模块、提取帧序列子模块和第二帧序列拼接子模块;
所述时间段合并子模块,被配置为将存在时间连续的多个时间段合并为至少一个连续时间段;
所述提取帧序列子模块,被配置为提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
所述第二帧序列拼接子模块,被配置为按照所述至少一个连续时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段。
可选的,所述视频处理装置,包括:
视频标签确定模块,被配置为在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
视频片段评分计算模块,被配置为根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
目标视频片段筛选模块,被配置为从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
相应的,所述目标视频片段下发模块916,具体被配置为向所述客户端下发筛选出的至少一个目标视频片段;所述至少一个目标视频片段分别携带有各自对应的视频片段评分。
本申请提供的第四种视频处理方法实施例如下:
参照附图10,其示出了本实施例提供的第四种视频处理方法处理流程图,所述方法,包括:
步骤S1002,接收服务端下发的至少一个候选标签组合。
步骤S1004,向用户展示所述至少一个候选标签组合。
步骤S1006,接收所述用户基于所述至少一个候选标签组合提交的目标标签组合。
步骤S1008,向所述服务端提交所述目标标签组合。
步骤S1010,接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段。
可选的,所述服务端下发的至少一个候选标签组合中携带有至少一个候选标签组合的展示优先级;相应的,所述向用户展示所述至少一个候选标签组合,包括:
按照所述展示优先级向所述用户展示所述至少一个候选标签组合。
可选的,所述服务端返回的所述目标标签组合对应的至少一个目标视频片段,分别携带有各自对应的视频片段评分;相应的,所述接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段步骤执行之后,还包括:
按照视频片段评分从高到底的顺序,向所述用户展示所述至少一个目标视频片段。
综上所述,本申请提供的视频处理方法,在接收到服务端下发的至少一个候选标签组合时,根据用户在至少一个候选标签组合中选择的目标标签组合,接收服务端基于用户选择的目标标签组合返回的至少一个目标视频片段,提升了用户在视频处理过程中的交互体验。
本申请提供的第四种视频处理装置实施例如下:
在上述的实施例中,提供了第四种视频处理方法,与之相对应的,还提供了第四种视频处理装置,下面结合附图进行说明。
参照附图11,其示出了本实施例提供的第四种视频处理装置的示意图。
由于装置实施例对应于方法实施例,所以描述得比较简单,相关的部分请参见上述提供的方法实施例的对应说明即可。下述描述的装置实施例仅仅是示意性的。
本实施例提供第四种视频处理装置,包括:
候选标签组合接收模块1102,被配置为接收服务端下发的至少一个候选标签组合;
候选标签组合展示模块1104,被配置为向用户展示所述至少一个候选标签组合;
目标标签组合接收模块1106,被配置为接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
目标标签组合提交模块1108,被配置为向所述服务端提交所述目标标签组合;
目标视频片段接收模块1110,被配置为接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段。
可选的,所述服务端下发的至少一个候选标签组合中携带有至少一个候选标签组合的展示优先级;相应的,所述候选标签组合展示模块1104,具体被配置为按照所述展示优先级向所述用户展示所述至少一个候选标签组合。
可选的,所述服务端返回的所述目标标签组合对应的至少一个目标视频片段,分别携带有各自对应的视频片段评分;相应的,所述视频处理装置,还包括:
目标视频片段展示模块,被配置为按照视频片段评分从高到底的顺序,向所述用户展示所述至少一个目标视频片段。
本说明书提供的一种计算设备实施例如下:
图12是示出了根据本说明书一个实施例提供的计算设备1200的结构框图。该计算设备1200的部件包括但不限于存储器1210和处理器1220。处理器1220与存储器1210通过总线1230相连接,数据库1250用于保存数据。
计算设备1200还包括接入设备1240,接入设备1240使得计算设备1200能够经由一个或多个网络1260通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1240可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1200的上述部件以及图12中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图12所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1200可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1200还可以是移动式或静止式的服务器。
本说明书提供一种计算设备,包括存储器1210、处理器1220及存储在存储器上并可在处理器上运行的计算机指令,所述处理器1220用于执行如下计算机可执行指令:
获取视频库中至少一个视频作为待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本说明书提供的第二种计算设备实施例如下:
图13是示出了根据本说明书一个实施例提供的计算设备1300的结构框图。该计算设备1300的部件包括但不限于存储器1310和处理器1320。处理器1320与存储器1310通过总线1330相连接,数据库1350用于保存数据。
计算设备1300还包括接入设备1340,接入设备1340使得计算设备1300能够经由一个或多个网络1360通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1340可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1300的上述部件以及图13中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图13所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1300可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1300还可以是移动式或静止式的服务器。
本说明书提供一种计算设备,包括存储器1310、处理器1320及存储在存储器上并可在处理器上运行的计算机指令,所述处理器1320用于执行如下计算机可执行指令:
获取用户提交的待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
根据所述视频标签数据和所述用户的输入生成目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段。
本说明书提供的第三种计算设备实施例如下:
图14是示出了根据本说明书一个实施例提供的计算设备1400的结构框图。该计算设备1400的部件包括但不限于存储器1410和处理器1420。处理器1420与存储器1410通过总线1430相连接,数据库1450用于保存数据。
计算设备1400还包括接入设备1440,接入设备1440使得计算设备1400能够经由一个或多个网络1460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1400的上述部件以及图14中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图14所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1400还可以是移动式或静止式的服务器。
本说明书提供一种计算设备,包括存储器1410、处理器1420及存储在存储器上并可在处理器上运行的计算机指令,所述处理器1420用于执行如下计算机可执行指令:
获取待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
接收所述客户端提交的目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
向所述客户端下发所述至少一个目标视频片段。
本说明书提供的第四种计算设备实施例如下:
图15是示出了根据本说明书一个实施例提供的计算设备1500的结构框图。该计算设备1500的部件包括但不限于存储器1510和处理器1520。处理器1520与存储器1510通过总线1530相连接,数据库1550用于保存数据。
计算设备1500还包括接入设备1540,接入设备1540使得计算设备1500能够经由一个或多个网络1560通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备1500的上述部件以及图15中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图15所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1500还可以是移动式或静止式的服务器。
本说明书提供一种计算设备,包括存储器1510、处理器1520及存储在存储器上并可在处理器上运行的计算机指令,所述处理器1520用于执行如下计算机可执行指令:
接收服务端下发的至少一个候选标签组合;
向用户展示所述至少一个候选标签组合;
接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
向所述服务端提交所述目标标签组合;
接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段。
本说明书提供的一种计算机可读存储介质实施例如下:
本说明书一个实施例提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述一种视频处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述提供的一种视频处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述一种视频处理方法的技术方案的描述。
本说明书提供的第二种计算机可读存储介质实施例如下:
本说明书一个实施例提供第二种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述第二种视频处理方法的步骤。
上述为本实施例的第二种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述提供的第二种视频处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述第二种视频处理方法的技术方案的描述。
本说明书提供的第三种计算机可读存储介质实施例如下:
本说明书一个实施例提供第三种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述第三种视频处理方法的步骤。
上述为本实施例的第三种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述提供的第三种视频处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述第三种视频处理方法的技术方案的描述。
本说明书提供的第四种计算机可读存储介质实施例如下:
本说明书一个实施例提供第四种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述第四种视频处理方法的步骤。
上述为本实施例的第四种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述提供的第四种视频处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述第四种视频处理方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (35)
1.一种视频处理方法,包括:
获取视频库中至少一个视频作为待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到低的顺序,向所述用户输出筛选出的目标视频片段。
2.根据权利要求1所述的视频处理方法,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
3.根据权利要求2所述的视频处理方法,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合,包括:
分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;
判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;
若是,基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合。
4.根据权利要求3所述的视频处理方法,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合步骤执行之后,且所述根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段步骤执行之前,包括:
根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
按照标签组合评分从高到低的展示顺序,向所述用户展示筛选出的候选标签组合。
5.根据权利要求2至4任意一项所述的视频处理方法,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
6.根据权利要求5所述的视频处理方法,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
7.根据权利要求5所述的视频处理方法,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,对所述多个时间段进行时间去重,获得至少一个去重时间段;
提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段。
8.根据权利要求1所述的视频处理方法,所述获取视频库中至少一个视频作为待处理视频步骤执行之前,包括:
接收所述用户上传的所述视频库的地址信息;
基于所述地址信息导入所述视频库中的视频。
9.一种视频处理装置,包括:
待处理视频获取模块,被配置为获取视频库中至少一个视频作为待处理视频;
语义识别模块,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
候选标签组合生成模块,被配置为基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
视频片段确定模块,被配置为根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
视频标签确定模块,被配置为在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
视频片段评分计算模块,被配置为根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
筛选目标视频片段模块,被配置为从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
目标视频片段输出模块,被配置为按照视频片段评分从高到低的顺序,向所述用户输出筛选出的目标视频片段。
10.一种视频处理方法,包括:
获取用户提交的待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
根据所述视频标签数据和所述用户的输入生成目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到低的顺序,向所述用户输出筛选出的目标视频片段。
11.根据权利要求10所述的视频处理方法,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
12.根据权利要求11所述的视频处理方法,所述根据所述视频标签数据和所述用户的输入生成目标标签组合,包括:
获取所述用户输入的视频检索关键词;
确定所述视频检索关键词对应的所述一个或者多个视频标签数据中包含的一个或者多个视频标签;
基于所述视频检索关键词对应的一个或者多个视频标签生成至少一个所述目标标签组合。
13.根据权利要求11所述的视频处理方法,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
14.根据权利要求13所述的视频处理方法,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
15.根据权利要求13所述的视频处理方法,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,将存在时间连续的多个时间段合并为至少一个连续时间段;
提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
按照所述至少一个帧序列的时序,基于所述至少一个帧序列生成所述目标视频片段。
16.一种视频处理装置,包括:
待处理视频获取模块,被配置为获取用户提交的待处理视频;
语义识别模块,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
目标标签组合生成模块,被配置为根据所述视频标签数据和所述用户的输入生成目标标签组合;
视频片段确定模块,被配置为确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
视频标签确定模块,被配置为在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
视频片段评分计算模块,被配置为根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
目标视频片段筛选模块,被配置为从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
目标视频片段输出模块,被配置为按照视频片段评分从高到低的顺序,向所述用户输出筛选出的目标视频片段。
17.一种视频处理方法,应用于服务端,包括:
获取待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
接收所述客户端提交的目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
向所述客户端下发筛选出的至少一个目标视频片段;所述至少一个目标视频片段分别携带有各自对应的视频片段评分。
18.根据权利要求17所述的视频处理方法,所述视频标签数据中记录有所述语义识别维度的视频标签,以及所述视频标签在所述待处理视频中对应的时间段。
19.根据权利要求18所述的视频处理方法,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合,包括:
分别提取所述多个语义识别维度中至少两个语义识别维度对应的视频标签数据中包含的视频标签以及在所述待处理视频中对应的时间段;
判断所述至少两个语义识别维度对应的视频标签对应的时间段是否存在时间重合;
若是,基于所述至少两个语义识别维度对应的视频标签生成标签组合作为所述候选标签组合。
20.根据权利要求19所述的视频处理方法,所述基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合步骤执行之后,且所述向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合步骤执行之前,包括:
根据所述视频标签数据中视频标签的标签权重和标签评分,分别计算各候选标签组合对应的标签组合评分;
从所述至少一个候选标签组合中筛选标签组合评分满足预设评分阈值区间的候选标签组合;
基于标签组合评分从高到低的顺序确定所述至少一个候选标签组合的展示优先级;
相应的,所述向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合,包括:
向所述客户端下发携带有所述展示优先级的至少一个候选标签组合。
21.根据权利要求18至20任意一项所述的视频处理方法,所述视频标签在所述待处理视频中对应的一个或者多个视频片段,所述视频片段的起始帧为所述时间段的起始时间点在所述待处理视频中对应的图像帧,终止帧为所述时间段的终止时间点在所述待处理视频中对应的图像帧。
22.根据权利要求21所述的视频处理方法,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
按照所述一个或者多个视频片段对应的一个或者多个时间段,从所述待处理视频中提取所述一个或者多个视频片段对应的一个或者多个帧序列;
按照提取获得的一个或者多个帧序列对应时间段的时序,基于所述一个或者多个帧序列生成所述目标视频片段。
23.根据权利要求21所述的视频处理方法,所述基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段,包括:
判断所述多个视频片段对应的多个时间段是否存在时间重合;
若存在,对所述多个时间段进行时间去重,获得至少一个去重时间段;
提取所述待处理视频中所述至少一个去重时间段对应的至少一个帧序列;
按照所述至少一个去重时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段;
或者,
判断所述多个视频片段对应的多个时间段是否存在时间连续;
若存在,将存在时间连续的多个时间段合并为至少一个连续时间段;
提取所述待处理视频中所述至少一个连续时间段对应的至少一个帧序列;
按照所述至少一个连续时间段的时序,将所述至少一个帧序列拼接为所述目标视频片段。
24.一种视频处理装置,包括:
待处理视频获取模块,被配置为获取待处理视频;
语义识别模块,被配置为在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
候选标签组合生成模块,被配置为基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
候选标签组合下发模块,被配置为向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
目标标签组合接收模块,被配置为接收所述客户端提交的目标标签组合;
视频片段确定模块,被配置为确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
目标视频片段生成模块,被配置为基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
视频标签确定模块,被配置为在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
视频片段评分计算模块,被配置为根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
目标视频片段筛选模块,被配置为从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
目标视频片段下发模块,被配置为向所述客户端下发所述至少一个目标视频片段;所述至少一个目标视频片段分别携带有各自对应的视频片段评分。
25.一种视频处理方法,应用于客户端,包括:
接收服务端下发的至少一个候选标签组合;
向用户展示所述至少一个候选标签组合;
接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
向所述服务端提交所述目标标签组合;
接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段;所述目标视频片段分别携带有各自对应的视频片段评分;
按照视频片段评分从高到低的顺序,向所述用户展示所述至少一个目标视频片段。
26.根据权利要求25所述的视频处理方法,所述服务端下发的至少一个候选标签组合中携带有至少一个候选标签组合的展示优先级;相应的,所述向用户展示所述至少一个候选标签组合,包括:
按照所述展示优先级向所述用户展示所述至少一个候选标签组合。
27.一种视频处理装置,包括:
候选标签组合接收模块,被配置为接收服务端下发的至少一个候选标签组合;
候选标签组合展示模块,被配置为向用户展示所述至少一个候选标签组合;
目标标签组合接收模块,被配置为接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
目标标签组合提交模块,被配置为向所述服务端提交所述目标标签组合;
目标视频片段接收模块,被配置为接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段,所述目标视频片段分别携带有各自对应的视频片段评分;
目标视频片段展示模块,被配置为按照视频片段评分从高到低的顺序,向所述用户展示所述至少一个目标视频片段。
28.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取视频库中至少一个视频作为待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
根据用户在所述至少一个候选标签组合中选择的目标标签组合,确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到低的顺序,向所述用户输出筛选出的目标视频片段。
29.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取用户提交的待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
根据所述用户针对所述视频标签数据的输入生成目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
按照视频片段评分从高到低的顺序,向所述用户输出筛选出的目标视频片段。
30.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
获取待处理视频;
在一个或者多个语义识别维度对所述待处理视频进行语义识别,获得所述待处理视频在所述一个或者多个语义识别维度对应的一个或者多个视频标签数据;
基于所述一个或者多个视频标签数据中至少一者生成至少一个候选标签组合;
向所述待处理视频所属用户对应的客户端下发所述至少一个候选标签组合;
接收所述客户端提交的目标标签组合;
确定所述目标标签组合包含的至少一个视频标签在所述待处理视频中对应的一个或者多个视频片段;
基于所述一个或者多个视频片段中至少一者生成所述目标标签组合对应的至少一个目标视频片段;
在生成的所述目标视频片段的数目为多个的情况下,分别确定各个目标视频片段对应的目标标签组合中包含的视频标签;
根据确定的视频标签的标签权重和标签评分,分别计算各个目标视频片段的视频片段评分;
从所述多个目标视频片段中筛选视频片段评分满足预设片段评分阈值区间的目标视频片段;
向所述客户端下发所述至少一个目标视频片段;所述至少一个目标视频片段分别携带有各自对应的视频片段评分。
31.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:
接收服务端下发的至少一个候选标签组合;
向用户展示所述至少一个候选标签组合;
接收所述用户基于所述至少一个候选标签组合提交的目标标签组合;
向所述服务端提交所述目标标签组合;
接收所述服务端返回的所述目标标签组合对应的至少一个目标视频片段;所述目标视频片段分别携带有各自对应的视频片段评分;
按照视频片段评分从高到低的顺序,向所述用户展示所述至少一个目标视频片段。
32.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至8任意一项所述视频处理方法的步骤。
33.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求10至15任意一项所述视频处理方法的步骤。
34.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求17至23任意一项所述视频处理方法的步骤。
35.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求25至26任意一项所述视频处理方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395439.8A CN113132752B (zh) | 2019-12-30 | 2019-12-30 | 视频处理方法及装置 |
US17/115,185 US11436831B2 (en) | 2019-12-30 | 2020-12-08 | Method and apparatus for video processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911395439.8A CN113132752B (zh) | 2019-12-30 | 2019-12-30 | 视频处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113132752A CN113132752A (zh) | 2021-07-16 |
CN113132752B true CN113132752B (zh) | 2023-02-24 |
Family
ID=76547395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911395439.8A Active CN113132752B (zh) | 2019-12-30 | 2019-12-30 | 视频处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11436831B2 (zh) |
CN (1) | CN113132752B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645505B2 (en) * | 2020-01-17 | 2023-05-09 | Servicenow Canada Inc. | Method and system for generating a vector representation of an image |
CN111831854A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 视频标签的生成方法、装置、电子设备和存储介质 |
CN114363694A (zh) * | 2021-09-08 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 一种视频处理方法、装置、计算机设备及存储介质 |
CN114329063B (zh) * | 2021-10-29 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 视频片段检测方法、装置以及设备 |
CN114302253B (zh) * | 2021-11-25 | 2024-03-12 | 北京达佳互联信息技术有限公司 | 媒体数据处理方法、装置、设备及存储介质 |
CN114143575A (zh) * | 2021-12-31 | 2022-03-04 | 上海爱奇艺新媒体科技有限公司 | 视频剪辑方法、装置、计算设备及存储介质 |
CN114390366B (zh) * | 2022-01-19 | 2024-02-06 | 北京百度网讯科技有限公司 | 视频处理方法和装置 |
CN114430491A (zh) * | 2022-01-21 | 2022-05-03 | 北京有竹居网络技术有限公司 | 一种基于直播的数据处理方法及装置 |
CN114598940A (zh) * | 2022-03-25 | 2022-06-07 | 稿定(厦门)科技有限公司 | 针对视频的处理方法及处理装置 |
CN115278274B (zh) * | 2022-06-15 | 2024-10-18 | 阿里巴巴(中国)有限公司 | 直播流处理方法、装置、设备及存储介质 |
CN115086783B (zh) * | 2022-06-28 | 2023-10-27 | 北京奇艺世纪科技有限公司 | 一种视频生成方法、装置及电子设备 |
CN115412765B (zh) * | 2022-08-31 | 2024-03-26 | 北京奇艺世纪科技有限公司 | 视频精彩片段确定方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193946A (zh) * | 2010-03-18 | 2011-09-21 | 株式会社理光 | 为媒体文件添加标签方法和使用该方法的系统 |
CN105657537A (zh) * | 2015-12-23 | 2016-06-08 | 小米科技有限责任公司 | 视频剪辑方法及装置 |
CN107077595A (zh) * | 2014-09-08 | 2017-08-18 | 谷歌公司 | 选择和呈现代表性帧以用于视频预览 |
CN108769733A (zh) * | 2018-06-22 | 2018-11-06 | 三星电子(中国)研发中心 | 视频剪辑方法和视频剪辑装置 |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5982951A (en) | 1996-05-28 | 1999-11-09 | Canon Kabushiki Kaisha | Apparatus and method for combining a plurality of images |
US7263671B2 (en) | 1998-09-09 | 2007-08-28 | Ricoh Company, Ltd. | Techniques for annotating multimedia information |
US7555718B2 (en) | 2004-11-12 | 2009-06-30 | Fuji Xerox Co., Ltd. | System and method for presenting video search results |
US20100169786A1 (en) * | 2006-03-29 | 2010-07-01 | O'brien Christopher J | system, method, and apparatus for visual browsing, deep tagging, and synchronized commenting |
US8875023B2 (en) | 2007-12-27 | 2014-10-28 | Microsoft Corporation | Thumbnail navigation bar for video |
US8239359B2 (en) | 2008-09-23 | 2012-08-07 | Disney Enterprises, Inc. | System and method for visual search in a video media player |
US8498978B2 (en) | 2008-12-30 | 2013-07-30 | Yahoo! Inc. | Slideshow video file detection |
US8380866B2 (en) | 2009-03-20 | 2013-02-19 | Ricoh Company, Ltd. | Techniques for facilitating annotations |
US8131786B1 (en) | 2009-11-23 | 2012-03-06 | Google Inc. | Training scoring models optimized for highly-ranked results |
US9508011B2 (en) | 2010-05-10 | 2016-11-29 | Videosurf, Inc. | Video visual and audio query |
US8892572B2 (en) | 2011-12-30 | 2014-11-18 | Cellco Partnership | Video search system and method of use |
US9645724B2 (en) | 2012-02-01 | 2017-05-09 | Facebook, Inc. | Timeline based content organization |
US9467558B2 (en) | 2013-06-14 | 2016-10-11 | Lg Electronics Inc. | Mobile terminal and controlling method thereof |
CA2924764C (en) | 2013-10-21 | 2020-03-10 | Microsoft Technology Licensing, Llc | Mobile video search |
CN105677735B (zh) * | 2015-12-30 | 2020-04-21 | 腾讯科技(深圳)有限公司 | 一种视频搜索方法及装置 |
US10743053B2 (en) * | 2016-07-09 | 2020-08-11 | N. Dilip Venkatraman | Method and system for real time, dynamic, adaptive and non-sequential stitching of clips of videos |
US11335093B2 (en) * | 2018-06-13 | 2022-05-17 | Google Llc | Visual tracking by colorization |
US11263751B2 (en) * | 2018-10-26 | 2022-03-01 | Samsung Electronics Co., Ltd. | Method and apparatus for image segmentation using an event sensor |
US11462000B2 (en) * | 2019-08-26 | 2022-10-04 | Apple Inc. | Image-based detection of surfaces that provide specular reflections and reflection modification |
US11500927B2 (en) * | 2019-10-03 | 2022-11-15 | Adobe Inc. | Adaptive search results for multimedia search queries |
US11398036B2 (en) * | 2019-11-19 | 2022-07-26 | Snap Inc. | World-space segmentation |
-
2019
- 2019-12-30 CN CN201911395439.8A patent/CN113132752B/zh active Active
-
2020
- 2020-12-08 US US17/115,185 patent/US11436831B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193946A (zh) * | 2010-03-18 | 2011-09-21 | 株式会社理光 | 为媒体文件添加标签方法和使用该方法的系统 |
CN107077595A (zh) * | 2014-09-08 | 2017-08-18 | 谷歌公司 | 选择和呈现代表性帧以用于视频预览 |
CN105657537A (zh) * | 2015-12-23 | 2016-06-08 | 小米科技有限责任公司 | 视频剪辑方法及装置 |
CN108769733A (zh) * | 2018-06-22 | 2018-11-06 | 三星电子(中国)研发中心 | 视频剪辑方法和视频剪辑装置 |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113132752A (zh) | 2021-07-16 |
US20210201038A1 (en) | 2021-07-01 |
US11436831B2 (en) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113132752B (zh) | 视频处理方法及装置 | |
CN111143610B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN112565825B (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
WO2017096877A1 (zh) | 一种推荐方法和装置 | |
WO2019228267A1 (zh) | 短视频的合成方法、装置、设备及存储介质 | |
US20170199936A1 (en) | Methods and systems for search engines selection & optimization | |
US20170065888A1 (en) | Identifying And Extracting Video Game Highlights | |
CN111368141B (zh) | 视频标签的扩展方法、装置、计算机设备和存储介质 | |
CN113709561A (zh) | 视频剪辑方法、装置、设备及存储介质 | |
CN102207954A (zh) | 电子设备、内容推荐方法及其程序 | |
CN109408672B (zh) | 一种文章生成方法、装置、服务器及存储介质 | |
CN113784155B (zh) | 基于直播间的数据处理方法及装置 | |
CN108536414A (zh) | 语音处理方法、装置和系统、移动终端 | |
CN113079417A (zh) | 生成弹幕的方法、装置、设备和存储介质 | |
CN113709527B (zh) | 多主播场景中关注主播的方法及装置 | |
CN110163673B (zh) | 一种基于机器学习的热度预测方法、装置、设备及存储介质 | |
CN110166811A (zh) | 弹幕信息的处理方法、装置及设备 | |
CN114125490A (zh) | 直播播放方法及装置 | |
Chen et al. | Livesense: Contextual advertising in live streaming videos | |
Chen et al. | Fine-grained video attractiveness prediction using multimodal deep learning on a large real-world dataset | |
CN111581435A (zh) | 一种视频封面图像生成方法、装置、电子设备及存储介质 | |
CN106021319A (zh) | 语音交互方法、装置及系统 | |
Husa et al. | HOST-ATS: automatic thumbnail selection with dashboard-controlled ML pipeline and dynamic user survey | |
CN114707502A (zh) | 虚拟空间处理方法、装置、电子设备及计算机存储介质 | |
CN113407772A (zh) | 视频推荐模型的生成方法、视频推荐方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231116 Address after: Room 2801, 28th Floor, Building 9, Zone 4, Wangjing Dongyuan, Chaoyang District, Beijing Patentee after: Alibaba Damo Academy (Beijing) Technology Co.,Ltd. Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK Patentee before: ALIBABA GROUP HOLDING Ltd. |
|
TR01 | Transfer of patent right |