CN111556254B - 利用视频内容进行视频切割的方法、系统、介质及智能设备 - Google Patents

利用视频内容进行视频切割的方法、系统、介质及智能设备 Download PDF

Info

Publication number
CN111556254B
CN111556254B CN202010281326.1A CN202010281326A CN111556254B CN 111556254 B CN111556254 B CN 111556254B CN 202010281326 A CN202010281326 A CN 202010281326A CN 111556254 B CN111556254 B CN 111556254B
Authority
CN
China
Prior art keywords
video
audio
voice
segment
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010281326.1A
Other languages
English (en)
Other versions
CN111556254A (zh
Inventor
林倩雅
夏天
何雷米一阳
谢榛逦
陈品霖
刘荣潺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Good Morning Technology Guangzhou Co ltd
Original Assignee
Good Morning Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Good Morning Technology Guangzhou Co ltd filed Critical Good Morning Technology Guangzhou Co ltd
Priority to CN202010281326.1A priority Critical patent/CN111556254B/zh
Priority to US16/935,222 priority patent/US11227638B2/en
Publication of CN111556254A publication Critical patent/CN111556254A/zh
Application granted granted Critical
Publication of CN111556254B publication Critical patent/CN111556254B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/06Cutting and rejoining; Notching, or perforating record carriers otherwise than by recording styli
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/036Insert-editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Social Psychology (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种利用视频内容进行视频切割的方法及系统,所述方法包括:获取用户进行录像操作所产生的录像视频;对所述录像视频中的录像音频进行特征提取,并判断所述录像音频是否受损;若否,则提取所述录像音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示;若是,则提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将所述图像特征数据与过滤去背景音的人声数据进行拟合,并将拟合度最高的视频片段作为剪辑视频进行展示。本发明能够通过提高视频剪辑的效率及质量,以进一步提升用户进行视频剪辑体验的满意度,满足了实际应用需求。

Description

利用视频内容进行视频切割的方法、系统、介质及智能设备
技术领域
本发明涉及人工智能技术领域,特别是涉及一种利用视频内容进行视频切割的方法、系统、介质及智能设备。
背景技术
AI剪辑视频技术是运用图像识别或语音识别技术,对视频内容进行智能识别处理,从而实现对视频内容的智能剪辑,极大提高了视频剪辑效率,节省剪辑成本,因此AI剪辑视频技术成为了视频剪辑领域重要组成部分。
图像识别自动裁剪视频技作为AI剪辑视频技术中常见的剪辑技术,能够通过人工智能去识别视频画面内容的指定对象,提取包含此对象的视频画面段,实现在一段或多段较长的视频中快速识别并剪辑出指定图像对应的片段的技术。
然而,现有的图像识别自动剪辑视频技术只是获取相似图像的片段,对音频不做处理,吵杂的背景音或不带人声的视频片段也会被保留下来,从而大大降低了用户进行视频剪辑体验的满意度。
发明内容
为了解决上述问题,本发明的目的是提供一种能够解决现有视频剪辑效率低、视频质量差,提高用户视频剪辑体验满意度的利用视频内容进行视频切割的方法、系统、介质及智能设备。
一种利用视频内容进行视频切割的方法,所述方法包括:
获取用户进行录像操作所产生的录像视频;
对所述录像视频中的录像音频进行特征提取,并判断所述录像音频是否受损;
若否,则提取所述录像音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示;
若是,则提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将所述图像特征数据与过滤去背景音的人声数据进行拟合,并将拟合度最高的视频片段作为剪辑视频进行展示。
根据本发明提供的利用视频内容进行视频切割的方法,通过对用户进行录像操作所产生的录像视频中的录像音频进行特征提取,以判断该录像音频是否受损,当该录像视频受损则提取所述录像音频中过滤去背景音的人声数据,并截取含有有效人声所对应的视频片段,以去除吵杂的背景音,并保留带有人声的视频片段,即使在吵杂的环境下拍摄的视频也能够清楚听到说话者的声音;通过在录像音频受损后,提取对录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将该图像特征数据与人声数据进行拟合,以输出拟合度较高的视频片段,实现了在录像音频受损后仍能进行根据录像视频中的图像信息及已有的有效人声片段的语义进行还原,同时减少了录像音频中的无效内容,使视频中说话这的声音更加突出,且可根据视频内容进行贴纸及音效等素材的添加与合成,解决了现有视频剪辑效率低、视频质量差,用户剪辑体验满意度低的问题,满足了实际应用需求。
另外,根据本发明上述的利用视频内容进行视频切割的方法,还可以具有如下附加的技术特征:
进一步地,提取所述音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示的方法包括:
通过AI模型对录像视频中的人声视频片段进行识别,提取所述人声视频片段中的有效人声数据,过滤去背景音,并记录下该有效人声数据所对应的第一时间范围;
将过滤去背景音的有效人声数据转换为文字,并记录该文字对应的第二时间范围,根据所述第二时间范围对所述第一时间范围进行调整;
根据所述有效人声数据、有效人声数据对应的文字、调整后的时间范围调及录像视频中的视频画面对含有有效人声数据的视频片段进行剪辑与合成,并将得到的剪辑视频进行效果展示。
进一步地,提取所述人声视频片段中的有效人声数据,过滤去背景音,并记录下该有效人声数据所对应的的方法包括:
将所述人声数据切割成多个声音子片段,通过快速傅里叶变换提取各声音子片段的频率信息,通过基于CNN VAD算法的AI模型及各声音子片段的频率信息对各声音子片段中的噪声进行滤除后合并成具有连续声音的声音片段,并记录该声音片段所对应的时间段以作为第一时间范围。
进一步地,提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据的方法包括:
获取所述录像视频中包含人物说话的图像帧,对该图像帧中的人物口型及人体动作进行图像识别及分析,以得到人物口型的唇部信息及人体动作的动作信息;
对所述人物口型的唇部信息及人体动作的动作信息进行特征提取,从而得到对应的图像特征数据。
进一步地,所述方法还包括:
将有效人声数据所对应的文本进行语意分割,以得到多个分割语意;
在素材库中搜索与所述分割语义相匹配的音频及视频贴纸,将与所述分割语义相匹配的视频贴纸放置于相应的位置,将与所述分割语义相匹配的音频添加至视频片段的对应位置。
进一步地,将与所述分割语义相匹配的视频贴纸放置于相应的位置,将与所述分割语义相匹配的音频添加至视频片段的对应位置的方法包括:
根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置,并根据贴纸放置的有效位置的调整该视频壁纸的大小;
根据所述有效人声数据所对应的文本及视频画面出现的时间调整所需添加的音频的时间区域及音轨信息。
进一步地,所述方法还包括:
根据所述视频贴纸与音频所对应的关键词视频音轨中出现的时间,计算该视频贴纸与音频在视频录像中出现的时间。
本发明的另一实施例提出一种利用视频内容进行视频切割的系统,解决现有的图像识别自动剪辑视频技术只是获取相似图像的片段,对音频不做处理,吵杂的背景音或不带人声的视频片段也会被保留下来,从而大大降低了用户进行视频剪辑体验的满意度的问题。
根据本发明实施例的利用视频内容进行视频切割的系统,包括:
获取模块,用于获取用户进行录像操作所产生的录像视频;
判断模块,用于对所述录像视频中的录像音频进行特征提取,并判断所述录像音频是否受损;
截取模块,用于提取所述录像音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示;
拟合模块,用于提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将所述图像特征数据与过滤去背景音的人声数据进行拟合,并将拟合度最高的视频片段作为剪辑视频进行展示。
本发明的另一个实施例还提出一种介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明的另一个实施例还提出一种智能设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1是本发明第一实施例提出的利用视频内容进行视频切割的方法的流程图;
图2是图1中步骤S101的具体流程图;
图3是图1中步骤S102的具体流程图;
图4是本发明第二实施例提出的利用视频内容进行视频切割的系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提出的一种利用视频内容进行视频切割的方法,其中,包括步骤S101~S104:
步骤S101,获取用户进行录像操作所产生的录像视频。
步骤S102,对所述录像视频中的录像音频进行特征提取,并判断所述录像音频是否受损。
如上所述,通过在用户进行录像操作时,获取用户进行录像操作所产生的录像视频,该录像视频通常为包含人物图像及声音数据的视频录像,可以理解的该录像视频也可为不包含人物的录像视频;通过对所述录像视频中的录像音频进行特征提取,以便于根据提取的所述录像音频的特征信息确定该录像音频是否受损,以避免由于录像音频受损而影响视频剪辑的完整性与可靠性,同时为后续根据录像视频的人物图像信息进行视频补偿与剪辑提供必要条件。
具体的,当用户打开相机进行人物视频录制时,通过相机检测目标范围内的有效人声数据及图像信息,以形成录像视频,即该录像视频包含图像及声音信号,然后对所述录像视频的视频内容进行视频预处理,如亮度/饱和度/对比度及色彩的调节、连续化处理、解块/解环滤波处理、边界检测、解交织处理、帧率转换处理、噪声滤波处理、色彩空间转换处理中的一种或多种,将进行视频预处理后的录像视频分离成语音流及是视频流,然后提取语音流中的录像音频,对所述录像音频音频的音频信息进行特征提取对所述录像视频中的录像音频进行特征提取,并根据提取的音频特征判断所述录像音频是否受损。可以理解的,通过对录像音频的完整性进行判断,为后续根据录像视频的人物图像信息进行视频补偿与剪辑提供必要条件,满足了实际应用需求。
步骤S103,若否,则提取所述录像音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示。
如上所述,当所述录像音频未受损时,则表明该录像音频为完整的录像音频,且该音频是与视频画面所对应的,因此只需对过滤去背景音的人声数据所对应的视频片段进行截取,并将截取后的视频片段进行视频合成以得到剪辑视频,然后将该剪辑视频进行展示。其中,对含有有效人声的视频片段进行合成的方法包括:根据各有效视频片段的图像矢量信息和图像帧以及有效人声的矢量信息和音频帧,进行视频画面与人声音频的匹配,图像矢量信息及人声矢量信息分别用于表征下一刻图像内容及声音内容方向。
请参阅图2,提取所述音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段的方法包括如下步骤:
步骤S1031,通过AI模型对录像视频中的人声视频片段进行识别,提取所述人声视频片段中的有效人声数据,过滤去背景音,并记录下该有效人声数据所对应的第一时间范围。
步骤S1032,将过滤去背景音的有效人声数据转换为文字,并记录该文字对应的第二时间范围,根据所述第二时间范围对所述第一时间范围进行调整。
步骤S1033,根据所述有效人声数据、有效人声数据对应的文字、调整后的时间范围调及录像视频中的视频画面对含有有效人声数据的视频片段进行剪辑与合成,并将得到的剪辑视频进行效果展示。
具体的,将所述人声数据切割成多个声音子片段,通过快速傅里叶变换提取各声音子片段的频率信息,通过基于CNN VAD算法的AI模型对各声音子片段的噪声进行滤除后合并成具有连续声音的声音片段,并记录该声音片段所对应的时间段,以作为第一时间范围;通过基于DFCNN算法的AI模型及各过滤去背景音的有效人声数据的声音子片段的时间范围,将语音转换成文字并确定该文字对应的时间范围,并将该事件范围作为第二时间范围,然后根据第二时间范围对有效人声数据所对应的第一时间范围进一步调整,以使剪辑视频的音频、文字与画面相对应。
步骤S104,若是,则提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将所述图像特征数据与过滤去背景音的人声数据进行拟合,并将拟合度最高的视频片段作为剪辑视频进行展示。
如上所述,当所述录像音频受损时,则表明该录像音频并非完整的录像音频,且该音频并不与视频画面所对应,因此需根据录像视频的视频画面对受损的音频进行音频补偿,并将进行音频补偿后的录像音频与视频画面进行拟合,以输出拟合度较高的视频片段,从而能够实现在录像音频受损时,尽可能的根据视频画面信息及未受损的有效人声片段的语义信息对视频内容进行还原与剪切,且剪辑的内容为具有人声片段的视频内容,从而提高了用户视频剪辑的满意度。可以理解的,在本发明其他实施例中,还可以根据用户在视频剪辑界面的配置信息,以及用户进行视频剪辑的历史数据,对所需剪辑的录像视频进行有针对性的剪辑,减少用户进行视频剪辑的操作步骤,提高用户剪辑的满意度,其中配置信息可以为剪辑的特征剪辑、人物剪辑、画面剪辑中的一种或多种,发明人可根据实际应用需求进行调整,在此不做限制。
请参阅图3,提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据的方法包括如下步骤:
步骤S1041,获取所述录像视频中包含人物说话的图像帧,对该图像帧中的人物口型及人体动作进行图像识别及分析,以得到人物口型的唇部信息及人体动作的动作信息。
步骤S1042,对所述人物口型的唇部信息及人体动作的动作信息进行特征提取,从而得到对应的图像特征数据。
如上所述,通过将录像视频分成若干帧的图像,对各帧图像中的人物口型及人体动作进行图像识别与分析,根据人物口型的唇部信息、人体动作的动作信息进行特征提取,从而得到对应的图像特征数据,以便于根据图像特征数据、各帧图像间人物口型和人体动作的变化率,以及有效人声数据所对应的文本的语义对视频内容进行还原与剪切,以使剪辑的内容为具有人声片段的视频内容。
在此还需要说明的是,所述方法还包括:将有效人声数据所对应的文本进行语意分割,以得到多个分割语意;在素材库中搜索与所述分割语义相匹配的音频及视频贴纸,将与所述分割语义相匹配的视频贴纸放置于相应的位置,将与所述分割语义相匹配的音频添加至视频片段的对应位置。
进一步地,将与所述分割语义相匹配的视频贴纸放置于相应的位置,将与所述分割语义相匹配的音频添加至视频片段的对应位置的方法包括:根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置,并根据贴纸放置的有效位置的调整该视频壁纸的大小;根据所述有效人声数据所对应的文本及视频画面出现的时间调整所需添加的音频的时间区域及音轨信息;根据所述视频贴纸与音频所对应的关键词视频音轨中出现的时间,计算该视频贴纸与音频在视频录像中出现的时间。
具体的,将有效人生数据所对应的文本从前向后进行语义分割,得到多个分割语义,该分割语义可以为地址、名称、词语或句子中的一种或多种;在素材库中搜索与所述分割语义相匹配的音频及视频贴纸,如该当前视频画面的人脸矩形数据宽度大于显示屏幕宽度的30%,则将矩形宽度加宽40%,矩形上半部分加高60%,矩形下半部分加高30%,确保整个矩形宽度不少于显示屏幕宽度的65%,之后画出该矩形的内切椭圆,椭圆上的点为贴纸出现备用点(等分为8-10个),在屏幕外的点为不可用点,计算时会在每个点放一个默认视频贴纸大小(该贴纸宽度为人脸扩大矩形宽度的45%),若该放置此处的视频贴纸面积超出屏幕20%,则判定此点为无效点。排除掉不可用点和无效点之后的点为有效可用,最终视频贴纸出现位置为随机出现在有效可用点,且下一视频贴纸出现点需避开上一视频贴纸的出现点。最终呈现效果为视频贴纸围绕人脸出现,但不遮挡人脸;若最终判断有效可用点少于3个,则居中一个width=80%playerWidth,height=70%(playerHeight-安全区域的矩形,此时判断矩形的中心点上偏/下偏程度是否大于屏幕高度的5%,若是则只采用反方向的点;若该视频画面无人脸或者人脸小于屏幕宽度的30%,则在屏幕居中放一300*380的默认矩形,内切椭圆上的点为默认的有效可用点,视频贴纸会出现于这些点,此时视频贴纸尺寸为矩形宽度的60%。其中所有的视频贴纸出现在屏幕左边的偏角为顺时针0-45度,出现在屏幕右边的偏角为逆时针0-45度。视频贴纸出现时间为该贴纸所匹配文字在视频音轨的出现时间;如当前画面的有效人声数据的文本的出现时间为20秒,则对从素材库中获取的与当前文本语义/语境相符的音频片段进行剪贴与音轨信息调整,使该音频出现时间为该音频所匹配文字在视频音轨的出现时间,且该音频的音量为有效人生数据的43~60%。
根据本发明提供的利用视频内容进行视频切割的方法,通过对用户进行录像操作所产生的录像视频中的录像音频进行特征提取,以判断该录像音频是否受损,当该录像视频受损则提取所述录像音频中过滤去背景音的人声数据,并截取含有有效人声所对应的视频片段,以去除吵杂的背景音,并保留带有人声的视频片段,即使在吵杂的环境下拍摄的视频也能够清楚听到说话者的声音;通过在录像音频受损后,提取对录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将该图像特征数据与人声数据进行拟合,以输出拟合度较高的视频片段,实现了在录像音频受损后仍能进行根据录像视频中的图像信息及已有的有效人声片段的语义进行还原,同时减少了录像音频中的无效内容,使视频中说话这的声音更加突出,且可根据视频内容进行贴纸及音效等素材的添加与合成,解决了现有视频剪辑效率低、视频质量差,用户剪辑体验满意度低的问题,满足了实际应用需求。
请参阅图4,基于同一发明构思,本发明第二实施例提供的利用视频内容进行视频切割的系统,包括:
获取模块10,用于获取用户进行录像操作所产生的录像视频。
判断模块20,用于对所述录像视频中的录像音频进行特征提取,并判断所述录像音频是否受损。
截取模块30,用于提取所述录像音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示。
进一步地,所述截取模块30包括:
记录单元,用于通过AI模型对录像视频中的人声视频片段进行识别,提取所述人声视频片段中的有效人声数据,过滤去背景音,并记录下该有效人声数据所对应的第一时间范围。
具体的,将所述人声数据切割成多个声音子片段,通过快速傅里叶变换提取各声音子片段的频率信息,通过基于CNN VAD算法的AI模型及各声音子片段的频率信息对各声音子片段中的噪声进行滤除后合并成具有连续声音的声音片段,并记录该声音片段所对应的时间段以作为第一时间范围。
调整单元,用于将过滤去背景音的有效人声数据转换为文字,并记录该文字对应的第二时间范围,根据所述第二时间范围对所述第一时间范围进行调整。
合成单元,用于根据所述有效人声数据、有效人声数据对应的文字、调整后的时间范围调及录像视频中的视频画面对含有有效人声数据的视频片段进行剪辑与合成,并将得到的剪辑视频进行效果展示。
拟合模块40,用于提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将所述图像特征数据与过滤去背景音的人声数据进行拟合,并将拟合度最高的视频片段作为剪辑视频进行展示。
进一步地,所述拟合模块40包括:
识别单元,用于获取所述录像视频中包含人物说话的图像帧,对该图像帧中的人物口型及人体动作进行图像识别及分析,以得到人物口型的唇部信息及人体动作的动作信息。
提取单元,用于对所述人物口型的唇部信息及人体动作的动作信息进行特征提取,从而得到对应的图像特征数据。
进一步地,所述拟合单元还包括:
分割单元,用于将有效人声数据所对应的文本进行语意分割,以得到多个分割语意。
具体的,根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置,并根据贴纸放置的有效位置的调整该视频壁纸的大小;根据所述有效人声数据所对应的文本及视频画面出现的时间调整所需添加的音频的时间区域及音轨信息。
添加单元,用于在素材库中搜索与所述分割语义相匹配的音频及视频贴纸,将与所述分割语义相匹配的视频贴纸放置于相应的位置,将与所述分割语义相匹配的音频添加至视频片段的对应位置;根据所述视频贴纸与音频所对应的关键词视频音轨中出现的时间,计算该视频贴纸与音频在视频录像中出现的时间。
根据本发明提供的利用视频内容进行视频切割的系统,通过对用户进行录像操作所产生的录像视频中的录像音频进行特征提取,以判断该录像音频是否受损,当该录像视频受损则提取所述录像音频中过滤去背景音的人声数据,并截取含有有效人声所对应的视频片段,以去除吵杂的背景音,并保留带有人声的视频片段,即使在吵杂的环境下拍摄的视频也能够清楚听到说话者的声音;通过在录像音频受损后,提取对录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将该图像特征数据与人声数据进行拟合,以输出拟合度较高的视频片段,实现了在录像音频受损后仍能进行根据录像视频中的图像信息及已有的有效人声片段的语义进行还原,同时减少了录像音频中的无效内容,使视频中说话这的声音更加突出,且可根据视频内容进行贴纸及音效等素材的添加与合成,解决了现有视频剪辑效率低、视频质量差,用户剪辑体验满意度低的问题,满足了实际应用需求。
本发明实施例提出的利用视频内容进行视频切割的系统的技术特征和技术效果与本发明实施例提出的方法相同,在此不予赘述。
此外,本发明的实施例还提出一种介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
此外,本发明的实施例还提出一种智能设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种利用视频内容进行视频切割的方法,其特征在于,所述方法包括如下步骤:
获取用户进行录像操作所产生的录像视频;
对所述录像视频中的录像音频进行特征提取,并判断所述录像音频是否受损;
若否,则提取所述录像音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示;
若是,则提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将所述图像特征数据与过滤去背景音的人声数据进行拟合,并将拟合度最高的视频片段作为剪辑视频进行展示。
2.根据权利要求1所述的利用视频内容进行视频切割的方法,其特征在于,提取所述音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示的方法包括:
通过AI模型对录像视频中的人声视频片段进行识别,提取所述人声视频片段中的有效人声数据,过滤去背景音,并记录下该有效人声数据所对应的第一时间范围;
将过滤去背景音的有效人声数据转换为文字,并记录该文字对应的第二时间范围,根据所述第二时间范围对所述第一时间范围进行调整;
根据所述有效人声数据、有效人声数据对应的文字、调整后的时间范围调及录像视频中的视频画面对含有有效人声数据的视频片段进行剪辑与合成,并将得到的剪辑视频进行效果展示。
3.根据权利要求2所述的利用视频内容进行视频切割的方法,其特征在于,提取所述人声视频片段中的有效人声数据,过滤去背景音,并记录下该有效人声数据所对应的第一时间范围的方法包括:
将所述人声数据切割成多个声音子片段,通过快速傅里叶变换提取各声音子片段的频率信息,通过基于CNN VAD算法的AI模型及各声音子片段的频率信息对各声音子片段中的噪声进行滤除后合并成具有连续声音的声音片段,并记录该声音片段所对应的时间段以作为第一时间范围。
4.根据权利要求1所述的利用视频内容进行视频切割的方法,其特征在于,提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据的方法包括:
获取所述录像视频中包含人物说话的图像帧,对该图像帧中的人物口型及人体动作进行图像识别及分析,以得到人物口型的唇部信息及人体动作的动作信息;
对所述人物口型的唇部信息及人体动作的动作信息进行特征提取,从而得到对应的图像特征数据。
5.根据权利要求1所述的利用视频内容进行视频切割的方法,其特征在于,所述方法还包括:
将有效人声数据所对应的文本进行语义分割,以得到多个分割语义;
在素材库中搜索与所述分割语义相匹配的音频及视频贴纸,将与所述分割语义相匹配的视频贴纸放置于相应的位置,将与所述分割语义相匹配的音频添加至视频片段的对应位置。
6.根据权利要求5所述的利用视频内容进行视频切割的方法,其特征在于,将与所述分割语义相匹配的视频贴纸放置于相应的位置,将与所述分割语义相匹配的音频添加至视频片段的对应位置的方法包括:
根据所需放置视频贴纸的视频画面信息计算贴纸放置的多个有效位置,并根据贴纸放置的有效位置的调整该视频贴纸的大小;
根据所述有效人声数据所对应的文本及视频画面出现的时间调整所需添加的音频的时间区域及音轨信息。
7.根据权利要求5所述的利用视频内容进行视频切割的方法,其特征在于,所述方法还包括:
根据所述视频贴纸与音频所对应的关键词视频音轨中出现的时间,计算该视频贴纸与音频在视频录像中出现的时间。
8.一种利用视频内容进行视频切割的系统,其特征在于,所述系统包括:
获取模块,用于获取用户进行录像操作所产生的录像视频;
判断模块,用于对所述录像视频中的录像音频进行特征提取,并判断所述录像音频是否受损;
截取模块,用于提取所述录像音频中过滤去背景音的人声数据,截取含有有效人声所对应的视频片段,并将该视频片段作为剪辑视频进行展示;
拟合模块,用于提取对所述录像视频进行图像处理后的人物口型及人体动作的图像特征数据,将所述图像特征数据与过滤去背景音的人声数据进行拟合,并将拟合度最高的视频片段作为剪辑视频进行展示。
9.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7任意一项所述的方法。
10.一种智能设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
CN202010281326.1A 2020-04-10 2020-04-10 利用视频内容进行视频切割的方法、系统、介质及智能设备 Expired - Fee Related CN111556254B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010281326.1A CN111556254B (zh) 2020-04-10 2020-04-10 利用视频内容进行视频切割的方法、系统、介质及智能设备
US16/935,222 US11227638B2 (en) 2020-04-10 2020-07-22 Method, system, medium, and smart device for cutting video using video content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010281326.1A CN111556254B (zh) 2020-04-10 2020-04-10 利用视频内容进行视频切割的方法、系统、介质及智能设备

Publications (2)

Publication Number Publication Date
CN111556254A CN111556254A (zh) 2020-08-18
CN111556254B true CN111556254B (zh) 2021-04-02

Family

ID=72007314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010281326.1A Expired - Fee Related CN111556254B (zh) 2020-04-10 2020-04-10 利用视频内容进行视频切割的方法、系统、介质及智能设备

Country Status (2)

Country Link
US (1) US11227638B2 (zh)
CN (1) CN111556254B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210344798A1 (en) * 2020-05-01 2021-11-04 Walla Technologies Llc Insurance information systems
CN112565885B (zh) * 2020-11-30 2023-01-06 清华珠三角研究院 一种视频分割方法、系统、设备及存储介质
CN112637632B (zh) * 2020-12-17 2023-04-07 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质
CN112770185B (zh) * 2020-12-25 2023-01-20 北京达佳互联信息技术有限公司 雪碧图的处理方法、装置、电子设备和存储介质
CN113194333B (zh) * 2021-03-01 2023-05-16 招商银行股份有限公司 视频剪辑方法、装置、设备及计算机可读存储介质
CN113077470B (zh) * 2021-03-26 2022-01-18 天翼爱音乐文化科技有限公司 一种横竖屏转换画面的裁剪方法、系统、装置及介质
CN114697761B (zh) * 2022-04-07 2024-02-13 脸萌有限公司 一种处理方法、装置、终端设备及介质
CN115150660B (zh) * 2022-06-09 2024-05-10 深圳市闪剪智能科技有限公司 一种基于字幕的视频编辑方法和相关设备
CN115209121B (zh) * 2022-07-14 2024-03-15 江苏龙威中科技术有限公司 一种具有智能集成功能的全范围仿真系统及方法
CN115061770B (zh) * 2022-08-10 2023-01-13 荣耀终端有限公司 显示动态壁纸的方法和电子设备
CN116916089A (zh) * 2023-06-14 2023-10-20 西南交通大学 一种融合人声特征与人脸特征的智能视频剪辑方法
CN117240349B (zh) * 2023-11-10 2024-02-06 北京中昱光通科技有限公司 基于在线otdr监测的双主路光纤自动切换保护方法及系统
CN117478929B (zh) * 2023-12-28 2024-03-08 昆明中经网络有限公司 一种基于ai大模型的新媒体精品影像处理系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101616264A (zh) * 2008-06-27 2009-12-30 中国科学院自动化研究所 新闻视频编目方法及系统
US8065604B2 (en) * 2004-12-30 2011-11-22 Massachusetts Institute Of Technology Techniques for relating arbitrary metadata to media files
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及系统
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN105933635A (zh) * 2016-05-04 2016-09-07 王磊 一种对音频或视频内容附加标签的方法
CN107483843A (zh) * 2017-08-16 2017-12-15 成都品果科技有限公司 音视频匹配剪辑方法及装置
CN109120992A (zh) * 2018-09-13 2019-01-01 北京金山安全软件有限公司 视频生成方法及其装置、电子设备、存储介质
CN109274900A (zh) * 2018-09-05 2019-01-25 浙江工业大学 一种视频配音方法
CN109887515A (zh) * 2019-01-29 2019-06-14 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
CN110121103A (zh) * 2019-05-06 2019-08-13 郭凌含 视频自动剪辑合成的方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6336093B2 (en) * 1998-01-16 2002-01-01 Avid Technology, Inc. Apparatus and method using speech recognition and scripts to capture author and playback synchronized audio and video
WO2006080149A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音復元装置および音復元方法
US7787975B2 (en) * 2005-05-26 2010-08-31 Berkley Integrated Audio Software, Inc. Restoring audio signals
US8983836B2 (en) * 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
US10460732B2 (en) * 2016-03-31 2019-10-29 Tata Consultancy Services Limited System and method to insert visual subtitles in videos
US11568864B2 (en) * 2018-08-13 2023-01-31 Carnegie Mellon University Processing speech signals of a user to generate a visual representation of the user
US10931976B1 (en) * 2019-10-14 2021-02-23 Microsoft Technology Licensing, Llc Face-speech bridging by cycle video/audio reconstruction

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065604B2 (en) * 2004-12-30 2011-11-22 Massachusetts Institute Of Technology Techniques for relating arbitrary metadata to media files
CN101616264A (zh) * 2008-06-27 2009-12-30 中国科学院自动化研究所 新闻视频编目方法及系统
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及系统
CN105512348A (zh) * 2016-01-28 2016-04-20 北京旷视科技有限公司 用于处理视频和相关音频的方法和装置及检索方法和装置
CN105933635A (zh) * 2016-05-04 2016-09-07 王磊 一种对音频或视频内容附加标签的方法
CN107483843A (zh) * 2017-08-16 2017-12-15 成都品果科技有限公司 音视频匹配剪辑方法及装置
CN109274900A (zh) * 2018-09-05 2019-01-25 浙江工业大学 一种视频配音方法
CN109120992A (zh) * 2018-09-13 2019-01-01 北京金山安全软件有限公司 视频生成方法及其装置、电子设备、存储介质
CN109887515A (zh) * 2019-01-29 2019-06-14 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
CN110121103A (zh) * 2019-05-06 2019-08-13 郭凌含 视频自动剪辑合成的方法及装置

Also Published As

Publication number Publication date
CN111556254A (zh) 2020-08-18
US11227638B2 (en) 2022-01-18
US20210319809A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
CN111556254B (zh) 利用视频内容进行视频切割的方法、系统、介质及智能设备
US10460732B2 (en) System and method to insert visual subtitles in videos
US10657972B2 (en) Method of translating and synthesizing a foreign language
US9628837B2 (en) Systems and methods for providing synchronized content
US11600008B2 (en) Human-tracking methods, systems, and storage media
CN110706150A (zh) 图像处理方法、装置、电子设备及存储介质
US11070891B1 (en) Optimization of subtitles for video content
Gurbuz et al. Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition
CN110458591A (zh) 广告信息检测方法、装置及计算机设备
TW201220216A (en) System and method for detecting human emotion and appeasing human emotion
WO2018233637A1 (zh) 视频处理方法、装置、电子设备及存储介质
US7257538B2 (en) Generating animation from visual and audio input
CN113840158B (zh) 虚拟形象的生成方法、装置、服务器及存储介质
CN113709545A (zh) 视频的处理方法、装置、计算机设备和存储介质
CN115512417A (zh) 面部参数确定方法、装置、电子设备及存储介质
CN112330579B (zh) 视频背景更换方法、装置、计算机设备及计算机可读介质
WO2012153744A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
CN114554268B (zh) 音视频数据的处理方法及装置、电子设备、存储介质
CN111507142A (zh) 人脸表情图像处理方法、装置和电子设备
Kunka et al. Multimodal English corpus for automatic speech recognition
CN113052067A (zh) 实时翻译方法、装置、存储介质及终端设备
KR20220036210A (ko) 영상의 음질을 향상시키는 디바이스 및 방법
CN112185413A (zh) 一种语音处理方法、装置和用于语音处理的装置
TWI385646B (zh) 影音編輯系統、方法及具有該影音編輯系統的電子設備
CN116934930A (zh) 基于虚拟2d数字人的多语种唇语数据生成方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210402