CN108307250B - 一种生成视频摘要的方法及装置 - Google Patents

一种生成视频摘要的方法及装置 Download PDF

Info

Publication number
CN108307250B
CN108307250B CN201810065769.XA CN201810065769A CN108307250B CN 108307250 B CN108307250 B CN 108307250B CN 201810065769 A CN201810065769 A CN 201810065769A CN 108307250 B CN108307250 B CN 108307250B
Authority
CN
China
Prior art keywords
audio
video
frames
determining
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810065769.XA
Other languages
English (en)
Other versions
CN108307250A (zh
Inventor
李威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN201810065769.XA priority Critical patent/CN108307250B/zh
Publication of CN108307250A publication Critical patent/CN108307250A/zh
Priority to EP18902882.2A priority patent/EP3725088A4/en
Priority to PCT/CN2018/123774 priority patent/WO2019144752A1/en
Priority to US16/932,900 priority patent/US11270737B2/en
Application granted granted Critical
Publication of CN108307250B publication Critical patent/CN108307250B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种生成视频摘要的方法及装置,用以利用音频识别技术快速生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。所述生成视频摘要的方法包括:将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;当确定多个音频帧的特征信息与目标音频的特征信息匹配时,确定多个音频帧的发生时间段;根据发生时间段,确定与发生时间段相同的、连续多个视频帧;根据上述步骤确定完音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。

Description

一种生成视频摘要的方法及装置
技术领域
本发明涉及视频快速检索领域,尤其涉及一种生成视频摘要的方法及装置。
背景技术
现有的技术方案中,生成视频摘要的方法基本都是利用智能图像分析算法,从视频中提取物体目标信息,再根据目标出现时间等信息融合在一起生成视频摘要的方法,最后用于存储和视频播放。
目前的产品视频摘要的技术方案都要借助智能视频分析技术,有如下缺点:1)视频分析计算量大,难度高;2)视频数据量大,生成摘要速度慢;3)无法感知音频信息。
发明内容
本发明提供一种生成视频摘要的方法及装置,用以利用音频识别技术快速生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。
本发明实施例提供了一种生成视频摘要的方法,该方法包括:
将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;
当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;
当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;
根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;
根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述方法中,将确定的多个所述连续多个视频帧生成视频摘要,还包括:
将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述方法中,所述目标音频的特征信息可以通过如下方式确定:
获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,
建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。
在一种可能的实施方式中,本发明实施例提供的上述方法中,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息,包括:
根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;
根据语音识别方法,确定所述多个音频帧的特征信息。
在一种可能的实施方式中,本发明实施例提供的上述方法中,确定所述多个音频帧的特征信息与目标音频的特征信息匹配,包括:
当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定所述多个音频帧的特征信息与目标音频的特征信息匹配。
在一种可能的实施方式中,本发明实施例提供的上述方法中,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:
将所述连续多个视频帧进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述连续多个视频帧进行融合并生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述方法中,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:
将所述发生时间段进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述方法中,确定所述多个音频帧的发生时间段时,还包括:
确定所述多个音频帧所对应的通道来源或音频分类;
生成视频摘要之后,该方法还包括:
将所述视频摘要按照所述通道来源或音频分类进行保存。
在一种可能的实施方式中,本发明实施例提供的上述方法中,将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,该方法还包括:
将所述音频帧进行解码处理。
相应地,本发明实施例还提供了一种生成视频摘要的装置,该装置包括:
分离模块,用于将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;
特征信息确定模块,用于当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;
发生时间段确定模块,用于当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;
视频帧确定模块,用于根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;
生成视频摘要模块,用于确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述装置中,生成视频摘要模块将确定的多个所述连续多个视频帧生成视频摘要,还用于:
将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述装置中,所述目标音频的特征信息可以通过如下方式确定:
获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,
建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。
在一种可能的实施方式中,本发明实施例提供的上述装置中,所述特征信息确定模块具体用于:
根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;
根据语音识别方法,确定所述多个音频帧的特征信息。
在一种可能的实施方式中,本发明实施例提供的上述装置中,所述发生时间段确定模块确定所述多个音频帧的特征信息与目标音频的特征信息匹配,具体用于:
当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定所述多个音频帧的特征信息与目标音频的特征信息匹配。
在一种可能的实施方式中,本发明实施例提供的上述装置中,所述生成视频摘要模块,还用于:
将所述连续多个视频帧进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述连续多个视频帧进行融合并生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述装置中,所述生成视频摘要模块,还用于:
将所述发生时间段进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。
在一种可能的实施方式中,本发明实施例提供的上述装置中,所述发生时间段确定模块确定所述多个音频帧的发生时间段时,还用于:
确定所述多个音频帧所对应的通道来源或音频分类;
所述生成视频摘要模块,还用于:
生成视频摘要之后,将所述视频摘要按照所述通道来源或音频分类进行保存。
在一种可能的实施方式中,本发明实施例提供的上述装置中,所述装置还包括:
解码模块,用于将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,将所述音频帧进行解码处理。
本发明有益效果如下:
本发明实施例提供的生成视频摘要的方法中,首先将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。因此,本发明中通过将音视频文件按照帧的顺序分为对应的音频帧,然后根据多个音频帧的特征信息确定出包括目标音频的发生时间段,最后根据发生时间段查找发生目标音频的多个视频帧,并将该多个视频帧生成视频摘要。可见,本发明中根据连续多个音频帧查找对应的视频帧来生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。
附图说明
图1为本发明实施例提供的一种生成视频摘要的方法的流程示意图;
图2为本发明实施例提供的生成视频摘要的方法的详细步骤示意图;
图3为本发明实施例提供的一种生成视频摘要的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供一种生成视频摘要的方法及装置,用以利用音频识别技术快速生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。
参见图1,本发明实施例提供的一种生成视频摘要的方法,包括:
步骤101、将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;
本发明实施例中的音视频文件可以为从硬盘或者网络中读取的音视频及数字信号经过MPEG-2编码器进行数据压缩后形成的基本码流,或者,从视频通道中获取的视频录像文件或者实时预览的音视频文件。其中,音视频文件包括多帧视频,每一帧视频中包括对应的音频帧和视频帧。
步骤102、当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;
由于声音是一个连续发生的过程,且声音的发生一般连续发生在多帧时间段内,而且一个目标音频的特征信息包括的数据较大,而一个音频帧的特征信息种包括的数据很小,为了进一步保证当前音频帧中包括目标音频的声音时,将该音频帧所对应的特征信息与目标音频的特征信息匹配,需要将包括该音频帧在内的连续多帧时间内的音频帧的特征信息与目标音频的特征信息匹配,从而提高了匹配的成功率。其中,本发明中,声音类型可以包括典型的说话声、爆炸声、警报声或者尖叫声等。因此,目标音频包括的声音类型可以为报警声或爆炸声等,在此不做具体限定。由于同一声音类型还可以包括很多类别。如,当声音类型为报警声时,报警声的类别有很多,如120报警或火警报警等,为了进一步区别音频帧中的报警声是否为目标音频的报警声,还需要通过音频帧的特征信息进行判断。
其中,预设时长可以等于目标音频的时长,或者大于目标音频的时长。
步骤103、当确定多个音频帧的特征信息与目标音频的特征信息匹配时,确定多个音频帧的发生时间段;
其中,特征信息至少包括声音的类别、音调和音色。声音的类别是指声音为哪个类别,如声音为报警声,报警声的类别还包括火警报警声、120报警声等。声音的音调是指声音的高低,如,物体振动的快,发出声音的音调就高;物体振动的慢,发出声音的音调就低。音色指音的感觉特性,频率的高低决定声音的音调,振幅的大小决定声音的响度但不同的物体发出的声音我们还是可以通过音色分辨不同发生体的材料、结构不同,发出声音的音色也就不同。
步骤104、根据发生时间段,确定与发生时间段相同的、连续多个视频帧;
其中,根据发生时间段确定连续多个视频帧时,由于视频帧最近的一个IDR帧被保存着,因此在定位视频帧时,均需要从视频帧的第I帧开始。
步骤105、根据上述步骤101-步骤104的方式确定完音视频文件中包括的、多个连续多个视频帧后,将确定的多个连续多个视频帧生成视频摘要。
需要说明的是,步骤101-步骤104是一个不断循环的过程,直到确定完音视频文件中的包括目标音频的声音的所有视频帧;其中,步骤101中对音视频文件的分离可以按照帧的顺序一帧一帧分离,当分离完当前帧所对应音频帧后,则进行步骤102,或者,按照帧的顺序分离预设时长的音频帧后,再执行步骤102。
因此,本发明中通过将音视频文件按照帧的顺序分为对应的音频帧和视频帧,然后根据多个音频帧的特征信息确定出包括目标音频的发生时间段,最后根据发生时间段查找与该发生时间段相同的视频帧,不断循环上述步骤,直到将音视频文件中包括目标音频的所有多个音频帧确定完之后,将该多个视频帧生成视频摘要。可见,本发明中根据连续多个音频帧查找对应的视频帧来生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。
在具体实施例中,本发明实施例提供的上述方法中,在将多个连续多个视频帧生成视频摘要时也可以将对应的音频帧融合进去,从而生成具有声音的视频摘要。因此,本发明中,步骤105中将确定的多个连续多个视频帧生成视频摘要,还包括:将确定的多个连续多个视频帧和发生时间段所对应的多个音频帧进行融合,生成视频摘要。
具体地,本发明中在形成视频摘要,且需要具有音频的视频摘要时,还可以通过下述方式形成:当确定发生时间段后,确定与该发生时间段所对应的音视频片段,当确定完所有音视频文件中包括的、多个音视频片段后,将该多个音视频片段进行融合生成具有声音的视频摘要。从而进一步简化了音频帧和视频帧融合的过程。
在具体实施例中,本发明实施例提供的上述方法中,目标音频的特征信息可以通过如下方式确定:
方式一、获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;
具体地,首先输入一段包括目标声音的目标音频;然后根据语音识别算法对该目标音频进行识别,确定该目标音频中目标声音的内容,并提取该目标音频的声音的类别、音调及音色等特征信息,即,该目标音频的声音的类别、音调及音色等信息作为目标音频的特征信息。其中,语音识别算法采用现有技术中的算法即可实现,在此不做详细介绍。
方式二、建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。
具体地,方式二主要是采用建立目标声音的模型数据,然后将模型数据中的声音的类别、音调及音色提取出来并进行标注,作为目标音频的特征信息。其中模型数据中还包括目标声音的内容,因此根据模型数据也可以确定目标声音的内容。
在具体实施例中,本发明实施例提供的上述方法中,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息,包括:根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;根据语音识别方法,确定多个音频帧的特征信息。
具体地,若目标音频的声音为报警声,且该报警声为火警报警。本发明中声音的内容仅是指当前音频帧中是否包括报警声,根据语音识别方法,首先确定当前音频帧中是否包括报警声,若是,则进一步确定该当前帧预设时长内的特征信息,通过特征信息进一步判断当前音频帧的声音是否为火警报警声;否则,直接放弃该当前音频帧。其中,由于声音为一个延续的过程,为了便于辨识更完整的火警报警声,确定的是包括当前音频帧在内的预设时长的音频帧的特征信息。其中,包括当前音频帧在内的预设时长的音频帧,可以包括当前帧前后多帧的音频帧,或者包括当前帧之后的多帧的音频帧。
在具体实施例中,本发明实施例提供的上述方法中,确定多个音频帧的特征信息与目标音频的特征信息匹配,包括:当多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定多个音频帧的特征信息与目标音频的特征信息匹配。具体地,音频帧的特征信息至少包括声音的类别、音调及音色,还可以包括声音的大小等其他特征。多个音频帧的特征信息不仅包括声音的类别、音调及音色,且由于声音是一个由于振动而发出的,因此,当声音的内容和类别相同时,目标音频的特征信息中声音的音调与音频帧中声音的音调可能不会完全相同,但是若目标音频的特征信息中声音的音调与音频帧中声音的音调之差在一定范围内时,也可以确定该多个音频帧中包括目标声音;或者,当声音的内容和类别相同时,目标音频的特征信息中声音的音色与音频帧中声音的音色可能不会完全相同,但是若目标音频的特征信息中声音的音色与音频帧中声音的音色之差在一定范围内时,也可以确定该多个音频帧中包括目标声音。因而,本发明中可以预先设置一个阈值范围,使得多个音频帧的特征信息与目标音频的特征信息之间的匹配度在预设阈值范围内时,该多个音频帧包括目标声音。其中,多个音频帧的特征信息与目标音频的特征信息之间的匹配度是指,多个音频帧的特征信息与目标音频的特征信息的相似度,即声音类型和类别相同的情况下,对声音的音调及音色进行一个范围的设定,从而避免遗漏部分声音类型相同的音频帧。
在具体实施例中,本发明实施例提供的上述方法中,根据发生时间段,确定与发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:将连续多个视频帧进行存储;当确定完音视频文件中包括的、多个连续多个视频帧后,将存储的多个连续多个视频帧进行融合并生成视频摘要。
具体地,由于音视频文件中包括的音频帧的个数非常多,且当确定连续多个音频帧中包括目标音频后,将与该多个音频帧的发生时间段相同的连续多个视频帧进行存储,从而方便后续确定完整个音视频文件中包括的多个、连续多个视频帧后,直接将存储空间中存储的多个连续多个视频帧进行融合生成视频摘要。
在具体实施例中,本发明实施例提供的上述方法中,根据发生时间段,确定与发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:将发生时间段进行存储;当确定完音视频文件中包括的、多个连续多个视频帧后,将存储的多个发生时间段所对应的多个视频帧生成视频摘要。
进一步地,为了减少多个视频帧占用的存储空间,可以将可以生成视频摘要中的多个视频帧的发生时间段存储在存储空间,在生成视频摘要时,直接将多个发生时间段对应的多个连续多个视频帧进行融合,生成视频摘要。
在具体实施例中,本发明实施例提供的上述方法中,确定多个音频帧的发生时间段时,还包括:确定多个音频帧所对应的通道来源或音频分类;生成视频摘要之后,该方法还包括:将视频摘要按照通道来源或音频分类进行保存。
具体地,为了方便在生成视频摘要时,避免同一发生时间段内存在多个不同音视频文件中的音频帧,本发明中在确定发生时间段时,还可以进一步确定该多个音频帧所对应的通道来源或音频分类,从而方便根据发生时间段查找到同一通道来源下的视频帧,或音频分类相同的视频帧。进一步地,为了在生成视频摘要后,方便分类存储,可以按照音视频文件的通道来源进行存储,或按照音视频文件中音频的类别进行存储,从而使得用户在后续进行搜索时,可以根据通道来源或音频的类别进行搜索查找。
在具体实施例中,本发明实施例提供的上述方法中,将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,该方法还包括:将音频帧进行解码处理。具体地,经过音视频文件分离后的音频帧,一般需要经过解码处理,得到原始脉冲编码调制(PCM)数据。
下面通过具体实施例详细描述本发明的生成视频摘要的方法。其中,以方式一确定目标音频的特征信息为例。
如图2所示,步骤201、输入一段包括目标声音的音频数据;
步骤202、将该音频数据进行解码;
步骤203、根据语音识别算法,将解码后的音频数据中的特征信息进行提取,作为目标音频的特征信息;
步骤204、将经过通道N获取的M时间段内的音视频文件进行分离得到音频帧和视频帧;
步骤205、判断当前帧分离的数据是否为音频帧,若是则执行步骤206、否则,执行步骤2013;
步骤206、将音频帧的数据进行解码;
步骤207、根据语音识别算法,将解码后的音频帧进行语音识别,确定当前音频帧的声音类型;
步骤208、判断当前音频帧的声音类型是否与目标声音类型相同,若是则执行步骤209;否则,执行步骤2013;
步骤209、根据步骤205-步骤208确定的音频帧,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧,并提取该多个音频帧的特征信息;
步骤2010、判断多个音频帧的特征信息与目标音频的特征信息是否匹配,若是,则执行步骤2011,否则执行步骤2013;
步骤2011、根据发生时间段,确定与发生时间段相同的、连续多个视频帧,并将该多个视频帧进行存储;
步骤2012、判断当前帧是否为最后一帧,若是,则执行步骤2013,否则返回步骤205;
步骤2013、将存储的多个视频帧进行融合,生成视频摘要;
步骤2014、丢弃。
基于同一发明思想,参见图3,本发明实施例还提供了一种生成视频摘要的装置,该装置包括:
分离模块31,用于将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;
特征信息确定模块32,用于当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;
发生时间段确定模块33,用于当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;
视频帧确定模块34,用于根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;
生成视频摘要模块35,用于确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。
可选地,生成视频摘要模块将确定的多个所述连续多个视频帧生成视频摘要,还用于:
将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。
可选地,目标音频的特征信息可以通过如下方式确定:
获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,
建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。
可选地,特征信息确定模块32具体用于:
根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;
根据语音识别方法,确定所述多个音频帧的特征信息。
可选地,发生时间段确定模块33确定多个音频帧的特征信息与目标音频的特征信息匹配,具体用于:
当多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定多个音频帧的特征信息与目标音频的特征信息匹配。
可选地,生成视频摘要模块35,还用于:
将连续多个视频帧进行存储;
当确定完音视频文件中包括的、多个连续多个视频帧后,将存储的多个连续多个视频帧进行融合并生成视频摘要。
可选地,生成视频摘要模块35,还用于:
将发生时间段进行存储;
当确定完音视频文件中包括的、多个连续多个视频帧后,将存储的多个发生时间段所对应的多个视频帧生成视频摘要。
可选地,发生时间段确定模块确定多个音频帧的发生时间段时,还用于:
确定多个音频帧所对应的通道来源或音频分类;
生成视频摘要模块35,还用于:
生成视频摘要之后,将视频摘要按照所述通道来源或音频分类进行保存。
可选地,该装置还包括:
解码模块,用于将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,将音频帧进行解码处理。
综上所述,本发明实施例提供的生成视频摘要的方法中,首先将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要。因此,本发明中通过将音视频文件按照帧的顺序分为对应的音频帧,然后根据多个音频帧的特征信息确定出包括目标音频的发生时间段,最后根据发生时间段查找发生目标音频的多个视频帧,并将该多个视频帧生成视频摘要。可见,本发明中根据连续多个音频帧查找对应的视频帧来生成视频摘要,无需对视频内容进行智能分析,提高了生成视频摘要的效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种生成视频摘要的方法,其特征在于,该方法包括:
将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;
当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;
当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;
根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;
根据上述步骤确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要;
确定所述多个音频帧的发生时间段时,还包括:
确定所述多个音频帧所对应的通道来源或音频分类;
生成视频摘要之后,该方法还包括:
将所述视频摘要按照所述通道来源或音频分类进行保存;
当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息,包括:
根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;
根据语音识别方法,确定所述多个音频帧的特征信息。
2.根据权利要求1所述的方法,其特征在于,将确定的多个所述连续多个视频帧生成视频摘要,还包括:
将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。
3.根据权利要求1所述的方法,其特征在于,所述目标音频的特征信息可以通过如下方式确定:
获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,
建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。
4.根据权利要求1或3所述的方法,其特征在于,确定所述多个音频帧的特征信息与目标音频的特征信息匹配,包括:
当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定所述多个音频帧的特征信息与目标音频的特征信息匹配。
5.根据权利要求1所述的方法,其特征在于,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:
将所述连续多个视频帧进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述连续多个视频帧进行融合并生成视频摘要。
6.根据权利要求1所述的方法,其特征在于,根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧之后,且在生成视频摘要前,该方法还包括:
将所述发生时间段进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。
7.根据权利要求1所述的方法,其特征在于,将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,该方法还包括:
将所述音频帧进行解码处理。
8.一种生成视频摘要的装置,其特征在于,该装置包括:
分离模块,用于将音视频文件按照帧的顺序依次分离出对应的音频帧和视频帧;
特征信息确定模块,用于当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括所述当前音频帧在内的、预设时长内的、连续多个音频帧的特征信息;
发生时间段确定模块,用于当确定所述多个音频帧的特征信息与目标音频的特征信息匹配时,确定所述多个音频帧的发生时间段;
视频帧确定模块,用于根据所述发生时间段,确定与所述发生时间段相同的、连续多个视频帧;
生成视频摘要模块,用于确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将确定的多个所述连续多个视频帧生成视频摘要;
所述发生时间段确定模块确定所述多个音频帧的发生时间段时,还用于:
确定所述多个音频帧所对应的通道来源或音频分类;
所述生成视频摘要模块,还用于:
生成视频摘要之后,将所述视频摘要按照所述通道来源或音频分类进行保存;
所述特征信息确定模块具体用于:
根据语音识别方法,确定当前音频帧中包括的声音的内容,当确定当前音频帧的声音类型与目标音频的声音类型相同时,确定包括当前音频帧在内的、预设时长内的、连续多个音频帧;
根据语音识别方法,确定所述多个音频帧的特征信息。
9.根据权利要求8所述的装置,其特征在于,生成视频摘要模块将确定的多个所述连续多个视频帧生成视频摘要,还用于:
将确定的多个所述连续多个视频帧和所述发生时间段所对应的多个音频帧进行融合,生成视频摘要。
10.根据权利要求8所述的装置,其特征在于,所述目标音频的特征信息可以通过如下方式确定:
获取包括目标声音的目标音频,根据语音识别算法,确定目标音频中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息;或者,
建立包括目标声音的模型数据,根据语音识别算法,确定所述模型数据中包括的声音的类别、音调及音色,将该声音的类别、音调及音色作为目标音频的特征信息。
11.根据权利要求8或10所述的装置,其特征在于,所述发生时间段确定模块确定所述多个音频帧的特征信息与目标音频的特征信息匹配,具体用于:
当所述多个音频帧的特征信息与目标音频的特征信息之间的相似度在预设范围内时,确定所述多个音频帧的特征信息与目标音频的特征信息匹配。
12.根据权利要求8所述的装置,其特征在于,所述生成视频摘要模块,还用于:
将所述连续多个视频帧进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述连续多个视频帧进行融合并生成视频摘要。
13.根据权利要求8所述的装置,其特征在于,所述生成视频摘要模块,还用于:
将所述发生时间段进行存储;
当确定完所述音视频文件中包括的、多个所述连续多个视频帧后,将存储的多个所述发生时间段所对应的多个视频帧生成视频摘要。
14.根据权利要求8所述的装置,其特征在于,所述装置还包括:
解码模块,用于将音视频文件按照帧的顺序依次分离出对应的音频帧之后,且确定当前音频帧的声音类型与目标音频的声音类型相同之前,将所述音频帧进行解码处理。
CN201810065769.XA 2018-01-23 2018-01-23 一种生成视频摘要的方法及装置 Active CN108307250B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201810065769.XA CN108307250B (zh) 2018-01-23 2018-01-23 一种生成视频摘要的方法及装置
EP18902882.2A EP3725088A4 (en) 2018-01-23 2018-12-26 SYSTEMS AND METHODS FOR PROCESSING A VIDEO
PCT/CN2018/123774 WO2019144752A1 (en) 2018-01-23 2018-12-26 Systems and methods for editing a video
US16/932,900 US11270737B2 (en) 2018-01-23 2020-07-20 Systems and methods for editing a video

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810065769.XA CN108307250B (zh) 2018-01-23 2018-01-23 一种生成视频摘要的方法及装置

Publications (2)

Publication Number Publication Date
CN108307250A CN108307250A (zh) 2018-07-20
CN108307250B true CN108307250B (zh) 2020-10-30

Family

ID=62866163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810065769.XA Active CN108307250B (zh) 2018-01-23 2018-01-23 一种生成视频摘要的方法及装置

Country Status (4)

Country Link
US (1) US11270737B2 (zh)
EP (1) EP3725088A4 (zh)
CN (1) CN108307250B (zh)
WO (1) WO2019144752A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108307250B (zh) * 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
CN110222225B (zh) * 2019-06-11 2021-05-28 思必驰科技股份有限公司 Gru编解码器训练方法、音频的摘要生成方法及装置
CN111182347B (zh) * 2020-01-07 2021-03-23 腾讯科技(深圳)有限公司 视频片段剪切方法、装置、计算机设备和存储介质
CN111739536A (zh) * 2020-05-09 2020-10-02 北京捷通华声科技股份有限公司 一种音频处理的方法和装置
CN113778595A (zh) * 2021-08-25 2021-12-10 维沃移动通信有限公司 文档生成方法、装置和电子设备
CN113992973B (zh) * 2021-09-22 2024-06-11 阿里巴巴达摩院(杭州)科技有限公司 视频摘要生成方法、装置、电子设备和存储介质
CN114339392B (zh) * 2021-11-12 2023-09-12 腾讯科技(深圳)有限公司 视频剪辑方法、装置、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431689A (zh) * 2007-11-05 2009-05-13 华为技术有限公司 生成视频摘要的方法及装置
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN105611382A (zh) * 2014-11-14 2016-05-25 三星电子株式会社 产生概要内容的电子设备及其方法
CN106134216A (zh) * 2014-04-11 2016-11-16 三星电子株式会社 用于摘要内容服务的广播接收装置及方法
US9674562B1 (en) * 2008-12-18 2017-06-06 Vmware, Inc. Quality evaluation of multimedia delivery in cloud environments
CN106878676A (zh) * 2017-01-13 2017-06-20 吉林工商学院 一种用于智能监控视频数据的存储方法
US9838731B1 (en) * 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing with audio mixing option
CN107529098A (zh) * 2014-09-04 2017-12-29 英特尔公司 实时视频摘要

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7028325B1 (en) * 1999-09-13 2006-04-11 Microsoft Corporation Annotating programs for automatic summary generation
TW434524B (en) * 1999-12-16 2001-05-16 Mustek Systems Inc Correlative real-time sound teaching method
KR20060116335A (ko) * 2005-05-09 2006-11-15 삼성전자주식회사 이벤트를 이용한 동영상 요약 장치 및 방법과 그 장치를제어하는 컴퓨터 프로그램을 저장하는 컴퓨터로 읽을 수있는 기록 매체
CN1941880A (zh) * 2005-09-28 2007-04-04 三洋电机株式会社 视频记录再生装置及视频再生装置
KR100650407B1 (ko) * 2005-11-15 2006-11-29 삼성전자주식회사 멀티 모달 기반의 고속 비디오 요약 생성 방법 및 그 장치
US7558809B2 (en) * 2006-01-06 2009-07-07 Mitsubishi Electric Research Laboratories, Inc. Task specific audio classification for identifying video highlights
CN101539925A (zh) * 2008-03-20 2009-09-23 中国科学院计算技术研究所 一种基于关注度分析的音视频文件摘要方法
CN101650722B (zh) * 2009-06-01 2011-10-26 南京理工大学 基于音视频融合的足球视频精彩事件检测方法
US9609395B2 (en) * 2012-03-26 2017-03-28 Max Abecassis Second screen subtitles function
US9667937B2 (en) * 2013-03-14 2017-05-30 Centurylink Intellectual Property Llc Auto-summarizing video content system and method
CN103200463A (zh) * 2013-03-27 2013-07-10 天脉聚源(北京)传媒科技有限公司 一种视频摘要生成方法和装置
US10282469B2 (en) * 2014-03-25 2019-05-07 Oath Inc. System and method for summarizing a multimedia content item
KR101994291B1 (ko) 2014-10-14 2019-06-28 한화테크윈 주식회사 통합써머리를 제공하는 영상재생장치 및 방법
KR101849365B1 (ko) * 2014-11-05 2018-04-16 한화테크윈 주식회사 영상 처리 장치 및 방법
CN104463139B (zh) * 2014-12-23 2017-09-15 福州大学 一种音频情感驱动下的体育视频精彩事件提取方法
US10129608B2 (en) * 2015-02-24 2018-11-13 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
CN107154264A (zh) * 2017-05-18 2017-09-12 北京大生在线科技有限公司 在线教学精彩片段提取的方法
CN107493442A (zh) * 2017-07-21 2017-12-19 北京奇虎科技有限公司 一种编辑视频的方法和装置
CN108307250B (zh) * 2018-01-23 2020-10-30 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101431689A (zh) * 2007-11-05 2009-05-13 华为技术有限公司 生成视频摘要的方法及装置
US9674562B1 (en) * 2008-12-18 2017-06-06 Vmware, Inc. Quality evaluation of multimedia delivery in cloud environments
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的系统及方法
CN106134216A (zh) * 2014-04-11 2016-11-16 三星电子株式会社 用于摘要内容服务的广播接收装置及方法
CN107529098A (zh) * 2014-09-04 2017-12-29 英特尔公司 实时视频摘要
CN105611382A (zh) * 2014-11-14 2016-05-25 三星电子株式会社 产生概要内容的电子设备及其方法
US9838731B1 (en) * 2016-04-07 2017-12-05 Gopro, Inc. Systems and methods for audio track selection in video editing with audio mixing option
CN106878676A (zh) * 2017-01-13 2017-06-20 吉林工商学院 一种用于智能监控视频数据的存储方法

Also Published As

Publication number Publication date
CN108307250A (zh) 2018-07-20
EP3725088A1 (en) 2020-10-21
US20200349974A1 (en) 2020-11-05
EP3725088A4 (en) 2020-10-21
WO2019144752A1 (en) 2019-08-01
US11270737B2 (en) 2022-03-08

Similar Documents

Publication Publication Date Title
CN108307250B (zh) 一种生成视频摘要的方法及装置
CN110557589B (zh) 用于整合记录的内容的系统和方法
JP4600828B2 (ja) 文書対応付け装置、および文書対応付け方法
JP4484252B2 (ja) ストーリーセグメンテーション機能を有するマルチメディアコンピュータシステム及びその動作プログラム
US20140161263A1 (en) Facilitating recognition of real-time content
US20180144194A1 (en) Method and apparatus for classifying videos based on audio signals
JP2004229283A (ja) ニュースビデオにおいてニュース司会者の遷移を識別する方法
EP3255633B1 (en) Audio content recognition method and device
JP2005532578A (ja) ストリームに埋め込まれた反復オブジェクトに対するユーザ制御を提供するシステムおよび方法
JP2002251197A (ja) オーディオビジュアルサマリ作成方法
TW200402654A (en) A system and method for providing user control over repeating objects embedded in a stream
CN114598933B (zh) 一种视频内容处理方法、系统、终端及存储介质
WO2014096832A1 (en) Audio analysis system and method using audio segment characterisation
CN112632326A (zh) 一种基于视频脚本语义识别的视频生产方法及装置
CN111046226B (zh) 一种音乐的调音方法及装置
JP2005532763A (ja) 圧縮ビデオをセグメント化する方法
US7680654B2 (en) Apparatus and method for segmentation of audio data into meta patterns
CN110992984B (zh) 音频处理方法及装置、存储介质
CN117319765A (zh) 视频处理方法、装置、计算设备及计算机存储介质
JP3607450B2 (ja) オーディオ情報分類装置
CN116017088A (zh) 视频字幕处理方法、装置、电子设备和存储介质
CN111243618A (zh) 用于确定音频中的特定人声片段的方法、装置和电子设备
KR102101410B1 (ko) 배경음악 정보 제공을 위한 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20160163354A1 (en) Programme Control
CN104978403B (zh) 一种视频专辑名称的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant