CN110611841B - 整合方法、终端和可读存储介质 - Google Patents

整合方法、终端和可读存储介质 Download PDF

Info

Publication number
CN110611841B
CN110611841B CN201910844584.3A CN201910844584A CN110611841B CN 110611841 B CN110611841 B CN 110611841B CN 201910844584 A CN201910844584 A CN 201910844584A CN 110611841 B CN110611841 B CN 110611841B
Authority
CN
China
Prior art keywords
integrated
video
initial
repeated
clips
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910844584.3A
Other languages
English (en)
Other versions
CN110611841A (zh
Inventor
吴恒刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910844584.3A priority Critical patent/CN110611841B/zh
Publication of CN110611841A publication Critical patent/CN110611841A/zh
Application granted granted Critical
Publication of CN110611841B publication Critical patent/CN110611841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请提供了一种整合方法、终端和非易失性计算机可读存储介质。整合方法包括识别所有初始视频片段中的重复部分;确定具有相同的重复部分的多个待整合视频片段,以多个待整合视频片段中的任意一个的重复部分作为待整合部分;及将待整合部分和多个待整合视频片段的非重合部分整合成同一整合视频片段,非重合部分为待整合视频片段中去除对应的重复部分的部分。整合方法、终端和存储介质中,最终得到的整合视频片段仅包括一个重复部分,重复部分仅需上传和识别一次,相较于上传所有初始视频片段,并识别所有初始视频片段的多个重复部分而言,识别速度较快,流量消耗较少,且不会造成语音识别资源的浪费。

Description

整合方法、终端和可读存储介质
技术领域
本申请涉及消费性电子技术领域,特别涉及一种整合方法、终端和非易失性计算机可读存储介质。
背景技术
目前,在进行语音识别时,需要将需要识别的视频片段全部上传,然后云端对视频片段中的音频信号进行语音识别,由于需要上传全部的视频片段,识别速度较慢,耗费流量较多,且云端会对多个视频片段中存在的重复部分多次进行识别,导致较多的语音识别资源的被浪费。
发明内容
本申请的实施例提供了一种整合方法、终端和非易失性计算机可读存储介质。
本申请实施方式的整合方法包括识别所有初始视频片段中的重复部分;确定具有相同的所述重复部分的多个待整合视频片段,以多个所述待整合视频片段中的任意一个的所述重复部分作为待整合部分;及将所述待整合部分和多个所述待整合视频片段的非重合部分整合成同一整合视频片段,所述非重合部分为所述待整合视频片段中去除对应的所述重复部分的部分。
本申请实施方式的终端包括处理器,所述处理器用于识别所有初始视频片段中的重复部分;确定具有相同的所述重复部分的多个待整合视频片段,以多个所述待整合视频片段中的任意一个的所述重复部分作为待整合部分;及将所述待整合部分和多个所述待整合视频片段的非重合部分整合成同一整合视频片段,所述非重合部分为所述待整合视频片段中去除对应的所述重复部分的部分。
本申请的一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行上述实施方式的整合方法。
本申请的整合方法、终端和非易失性计算机可读存储介质中,首先会识别所有初始视频片段的多个重复部分,并确定具有相同的重复部分的多个待整合视频片段,将多个待整合视频片段中的任意一个的重复部分作为待整合部分,然后将待整合部分和多个待整合视频片段的非重合部分整合成同一整合视频片段,整合视频片段仅包括一个重复部分,重复部分仅需上传和识别一次,相较于上传所有初始视频片段,并识别所有初始视频片段的多个重复部分而言,识别速度较快,流量消耗较少,且不会造成语音识别资源的浪费。另外,相较于每个具有相同的重复部分的初始视频片段均向云端请求一次,需要多次请求云端而言,本申请中具有相同的重复部分的视频片段被整合成同一视频片段,因此,多个具有相同的重复部分的视频片段只需请求一次即可,可节省云端资源。
本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请某些实施方式的整合方法的流程示意图;
图2是本申请某些实施方式的终端和云端的连接示意图;
图3至图5是本申请某些实施方式整合方法的原理示意图;
图6和图7是本申请某些实施方式的整合方法的流程示意图;
图8是本申请某些实施方式的整合方法的原理示意图;
图9是本申请某些实施方式的整合方法的流程示意图;
图10至图13是本申请某些实施方式的整合方法的原理示意图;
图14和图15是本申请某些实施方式的整合方法的流程示意图;
图16是本申请某些实施方式的整合方法的原理示意图;
图17是本申请某些实施方式的整合方法的流程示意图;
图18是本申请某些实施方式的整合方法的原理示意图;和
图19是本申请某些实施方式的处理器和计算机可读存储介质的连接示意图。
具体实施方式
以下结合附图对本申请的实施方式作进一步说明。附图中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。另外,下面结合附图描述的本申请的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的限制。
请参阅图1和图2,本申请实施方式的整合方法包括:
011:识别所有初始视频片段中的重复部分;
012:确定具有相同的重复部分的多个待整合视频片段,以多个待整合视频片段中的任意一个的重复部分作为待整合部分;及
013:将待整合部分和多个待整合视频片段的非重合部分整合成同一整合视频片段,非重合部分为待整合视频片段中去除对应的重复部分的部分。
本申请实施方式的终端100包括处理器10。处理器10用于识别所有初始视频片段中的重复部分;确定具有相同的重复部分的多个待整合视频片段,以多个待整合视频片段中的任意一个的重复部分作为待整合部分;及将待整合部分和多个待整合视频片段的非重合部分整合成同一整合视频片段,非重合部分为待整合视频片段中去除对应的重复部分的部分。也即是说,步骤011、步骤012、和步骤013可以由处理器10实现。
具体地,终端100包括壳体20和处理器10。处理器10安装在壳体内。具体地,终端100可以是手机、平板电脑、显示器、笔记本电脑、柜员机、闸机、智能手表、头显设备、游戏机等。本申请实施方式以终端100是手机为例进行说明,可以理解,终端100的具体形式并不限于手机。壳体20还可用于安装终端100的成像装置、供电装置、通信装置等功能模块,以使壳体20为功能模块提供防尘、防摔、防水等保护。
在用户日常使用手机拍摄视频时,处理器10会自动对拍摄的视频进行分类,其中,拍摄视频可以是即时视频,例如在聊天软件中临时拍摄视频发送给对方,该种视频无需保存到系统相册;或者拍摄视频也可以是已保存的视频,例如被用户使用系统相机拍摄得到的视频,或者用户手动从网络下载保存到系统相册内的视频。例如处理器10可将拍摄视频分为自拍、风景、宠物、萌娃、聚会等多种类别,其中,自拍类型的拍摄视频定义为拍摄视频中自拍图像的帧数占整个拍摄视频的帧数的比例是否大于第一预定比例(例如第一预定比例大于1/2),自拍图像为人脸占据当前图像的比例大于第二预定比例(如第二预定比例为1/2)的图像;风景类型的拍摄视频定义为拍摄视频中风景图像占整个拍摄视频的帧数的比例是否大于第三预定比例(例如第三预定比例大于2/3),风景图像为不包括人物图像的图像;宠物类型的拍摄视频定义为拍摄视频中宠物图像占整个拍摄视频的帧数的比例是否大于第四预定比例(例如第四预定比例大于2/3),宠物图像为宠物的图像占当前图像的比例大于第五比例(例如第五预定比例大于1/3)的图像;聚会类型的拍摄视频定义为拍摄视频中聚会图像占整个拍摄视频的帧数的比例是否大于第六预定比例(例如第六预定比例大于3/4),聚会图像为包含多个人物的图像。如此,可通过图像识别快速确定拍摄视频的类型。需要指出的是,上述第一预定比例至第六预定比例的数值仅为举例说明,并不能作为对本申请的限制。
在对拍摄视频确定好类型后,终端100会将多个同类型的拍摄视频关联起来形成一个临时的推荐视频推荐给用户,推荐视频可从多个拍摄视频(下称源视频)中选取的一个或多个初始视频片段,一个或多个初始视频片段可以是同一拍摄视频的一部分(例如,在同一拍摄视频中选取3个初始视频片段),多个初始视频片段可以是多个拍摄视频的其中一部分(例如,在3个拍摄视频中分别选取1个、2个和3个初始视频片段)。在用户对临时的推荐视频满意时,可手动选择保存,而在用户对临时的推荐视频不满意,或者在一定时间内没有对临时的推荐视频进行操作,则删除该推荐视频。
为了增加推荐视频的表现力和冲击力,终端100可为推荐视频配乐,并根据配乐来剪辑推荐视频的各个初始视频片段。例如,在配乐的节奏点处切换到下一个初始视频片段,并将前一个初始视频片段中未播放的部分剪辑掉,使得视频播放和配乐的节奏点相匹配,推荐视频的表现力和冲击力更强。
而为了增加推荐视频的可读性,终端100还可为推荐视频配字幕。终端100可集成语音识别模块,终端100可先提取剪辑好的多个初始视频片段中的音频片段,然后将音频片段发送给语音识别模块进行语音识别以得到对应的字幕。如此,无需耗费流量,在本地即可快速进行语音识别。或者,终端100可直接将初始视频片段上传至具备语音识别服务的云端200(例如云端200为服务器),然后由云端200对初始视频片段进行语音识别后将字幕数据返回给终端100。如此,终端100无需集成语音识别模块,可减小终端100的处理压力,节省终端100的系统资源。或者,终端100可提取初始视频片段中的音频片段,仅将音频片段上传至具备语音识别服务的云端200,然后由云端200对音频片段进行语音识别后将字幕数据返回给终端100。如此,终端100可预先提取初始视频片段中的音频片段,可减小云端200的处理压力,并节省流量。
本申请以终端100直接将视频片段上传至具备语音识别服务的云端200进行语音识别为例进行说明。
可以理解,选取自同一拍摄视频的多个初始视频片段可能存在重复部分,其中,重复部分为多个初始视频片段中视频内容相同的部分。如图3所示,终端100选取的初始视频片段A(选自图4的源视频O第1秒(S)到第5S的部分)、初始视频片段B(选自源视频O第4S到第9S的部分)、和初始视频片段C(选自源视频O第7S到第13S的部分)均为源视频O的一部分,初始视频片段A的“1”部分和初始视频片段B的“2”部分均为源视频O中第4S到第5S的初始视频片段,为重复部分;初始视频片段B的“2”部分和初始视频片段C的“3”部分均为源视频S中第7S到第9S的初始视频片段,也为重复部分。
在进行语音识别时,由于选取自同一拍摄视频的多个初始视频片段可能存在重复部分,多个重复部分均上传云端200,导致识别速度较慢且耗费流量较多,且云端200在对多个初始视频片段进行语音识别时,会对多个初始视频片段的多个重复部分都进行识别,导致语音识别资源被浪费。
针对上述问题,本申请在进行语音识别前,处理器10会首先识别多个初始视频片段是否存在重复部分,然后将具有相同的重复部分的多个初始视频片段确定为待整合视频片段。由于不同源视频O的拍摄内容一般会存在较大差异,选取的初始视频片段存在重复部分的几率较小,因此,处理器10无需将源路径不同(即,选取自不同的源视频O)的初始视频片段进行比对,只需对源路径相同(即,选取自同一源视频O)的多个初始视频片段进行比对以确定多个初始视频片段是否存在重复部分即可。
在选取自同一源视频O的多个初始视频片段存在相同的重复部分时,即该多个初始视频片段为待整合视频片段(如图3中,初始视频片段A、B和C均为待整合视频片段,其中,初始视频片段A和B具有相同的重复部分(“1”部分和“2”部分相同),初始视频片段B和C具有相同的重复部分(“3”部分和“4”部分相同))。
处理器10将多个待整合视频片段中任意一个的重复部分作为待整合部分(例如,以图3中的“1”部分作为待整合视频片段A和待整合视频片段B的待整合部分,以“3”部分作为待整合视频片段B和待整合视频片段C的待整合部分)。
然后,处理器10将待整合部分和多个待整合视频片段的非重合部分整合成同一整合视频片段,其中,非重合部分为待整合视频片段中去除对应的重复部分的部分。例如,处理器10将“1”部分、待整合视频片段A中去除“1”部分的部分、及待整合视频片段A中去除“2”部分的部分拼接在一起以整合成同一整合视频片段(如图5所示的整合视频片段D1)。
若整合视频片段和另一初始视频片段存在相同的重复部分,则将整合视频片段重新作为初始视频片段,再次进行整合。如图3,整合视频片段D1包含初始视频片段B,初始视频片段B和初始视频片段C具有相同的重合部分,故整合视频片段D1和初始视频片段C具有相同的重复部分(分别为“3”部分和“4”部分)。处理器10可将整合视频片段D1重新作为一个初始视频片段D1来和初始视频片段C进行整合。处理器10将待整合部分(即,“3”部分)、初始视频片段D1中去除“3”部分的部分、及初始视频片段C中去除“4”部分的部分拼接在一起整合为同一整合视频片段D2。可以看到,初始视频片段D2即为源视频O中第1S到第13S的部分。如此,具有相同重复部分的初始视频片段被整合成同一整合视频片段。在进行语音识别时,处理器10只需上传整合后的整合视频片段到云端200进行语音识别即可,重复部分仅需上传和识别一次,识别速度相对较快且流量消耗较少,整合后的初始视频片段不存在多个相同的重复部分需要识别,其所有部分均需要进行语音识别,云端200的语音识别资源得以充分利用。
本申请的整合方法中,首先会识别所有初始视频片段的多个重复部分,并确定具有相同的重复部分的多个待整合视频片段,将多个待整合视频片段中的任意一个的重复部分作为待整合部分,然后将待整合部分和多个待整合视频片段的非重合部分整合成同一整合视频片段,整合视频片段仅包括一个重复部分,重复部分仅需上传和识别一次,相较于上传所有初始视频片段,并识别所有初始视频片段的多个重复部分而言,识别速度较快,流量消耗较少,且不会造成语音识别资源的浪费。另外,相较于每个具有相同的重复部分的初始视频片段均向云端200请求一次,需要多次请求云端200而言,本申请中具有相同的重复部分的视频片段被整合成同一视频片段,因此,多个具有相同的重复部分的视频片段只需请求一次即可,可节省云端200资源。
请参阅图2和图6,在某些实施方式中,步骤011包括以下步骤:
0111:获取所有初始视频片段的源路径和初始视频片段在源视频中的开始时间和结束时间;及
0112:根据初始视频片段的源路径、开始时间及结束时间,确定重复部分。
在某些实施方式中,处理器10还用于获取所有初始视频片段的源路径和初始视频片段在源视频中的开始时间和结束时间;及根据初始视频片段的源路径、开始时间及结束时间,确定重复部分。也即是说,步骤0111和步骤0112可以由处理器10实现。
具体地,处理器10在比对多个初始视频片段是否存在相同的重复部分时,可首先获取该初始视频片段的源路径,根据源路径可找到每个初始视频片段对应的源视频,多个初始视频片段的源路径相同即表示多个初始视频片段选取自同一个源视频,前述已经提到,选取自不同源视频的初始视频片段一般不存在重复部分,因此,本实施方式中,处理器10仅比对选取自同一源视频的多个初始视频片段以识别重复部分。可以理解,在选取初始视频片段时处理器10就可获取到每个初始视频片段在源视频中的开始时间和结束时间。因此,处理器10在获取到每个初始视频片段在源视频中的开始时间和结束时间后,可判断两个初始视频片段的开始时间和结束时间是否存在交叉,若两个初始视频片段的开始时间和结束时间存在交叉,则表示该两个初始视频片段存在重复部分。例如图3中,初始视频片段A选自图4的源视频O第1秒(S)到第5S的部分(即开始时间为第1S,结束时间为第5S),初始视频片段B选自源视频O第4S到第9S的部分(即开始时间为第4S,结束时间为第9S),初始视频片段C选自源视频O第7S到第13S的部分(即开始时间为第7S,结束时间为第13S)。初始视频片段A的“1”部分和初始视频片段B的“2”部分交叉,均为源视频O中第4S到第5S的初始视频片段,为重复部分;初始视频片段B的“3”部分和初始视频片段C的“4”部分交叉,均为源视频S中第7S到第9S的初始视频片段,也为重复部分。如此,无需进行图像识别来比对每个初始视频片段的视频内容,即可快速确定重复部分。
在某些实施方式中,在确定重复部分后,处理器10可根据多个待整合视频片段在源视频的开始时间和结束时间,确定整合视频片段的开始时间和结束时间,从而直接从源视频中选取与整合视频片段的开始时间和结束时间对应的部分,以作为整合视频片段。
如此,无需进行视频拼接,只需确定整合视频片段的开始时间和结束时间就可以快速得到整合视频片段。
请参阅图2和图7,在某些实施方式中,整合方法还包括以下步骤:
014:根据初始视频片段的源路径、开始时间及结束时间,确定任意两个初始视频片段之间的时间间隔;及
015:若两个初始视频片段的源路径相同且时间间隔小于预定策略值,则整合为同一初始视频片段。
在某些实施方式中,处理器10还用于根据初始视频片段的源路径、开始时间及结束时间,确定任意两个初始视频片段之间的时间间隔;及在两个初始视频片段的源路径相同且时间间隔小于预定策略值时,则整合为同一初始视频片段。也即是说,步骤014和步骤015可以由处理器10实现。
具体地,当多个初始视频片段均选自同一源视频(即,源路径相同)时,多个初始视频片段相互之间可能没有重复部分,但选取时,相邻两个初始视频片段的时间间隔太短(即前一个初始视频片段的结束时间和后一个初始视频片段的开始时间的时间间隔较小),例如,图8所示的初始视频片段E的结束时间和初始视频片段F的开始时间的时间间隔为t1,t1小于预定策略值(如预定策略值可以是2S、5S、10S等),因此,初始视频片段E的结束时间和初始视频片段F的视频内容基本可视为连续的,此时,为了减少进行语音识别时的上传次数,提高云端200的语音识别效率,可将时间间隔较短的相邻两个初始视频片段整合为同一初始视频片段,而相邻两个初始视频片段的时间间隔若较大(如图8中的初始视频片段F和初始视频片段G的时间间隔t2大于预定策略值)时,说明两个初始视频片段的视频内容的连贯性较差,故不进行整合。
请参阅图2和图9,在某些实施方式中,整合方法还包括以下步骤:
016:识别整合视频片段中的静音位置;及
017:根据静音位置对整合视频片段进行裁剪。
在某些实施方式中,处理器10还用于识别整合视频片段中的静音位置;及根据静音位置对整合视频片段进行裁剪。也即是说,步骤016和步骤017可以由处理器10实现。
具体地,由于提供语音识别服务的云端200(如第三方服务商的服务器)一般对上传的视频的格式以及大小有限制,因此,处理器10在获取到云端200对上传的视频片段的格式以及大小的要求后,首先将整合视频片段的格式转换成符合要求的格式,然后会对整合视频片段进行裁剪,以使得裁剪后的裁剪视频片段的大小符合要求。例如,云端200要求的视频格式为MP4格式,要求的视频限制大小为[α千字节(kb),βkb],(假设αkb和βkb的MP4格式的整合视频片段的分别对应最小时长t3和最大时长t4),处理器10首先将整合视频片段转换成MP4格式,然后根据视频限制大小来对进行整合视频片段进行裁剪,如图10所示,处理器10将每个整合视频片段中超过最大时长t4的部分进行裁剪以分成多个整合视频片段,如图11所示,处理器10对整合视频片段H中的最大时长t4对应的位置P5进行裁剪,以分别得到裁剪视频片段H1和裁剪视频片段H2。最后将裁剪后的裁剪视频片段(即裁剪视频片段H1和裁剪视频片段H2)上传到云端200进行语音识别。
可以理解,上述处理方式中,由于仅根据视频限制大小来对整合视频片段进行裁剪,有可能导致被裁剪的整合视频片段中一句完整的语句刚好被分到两个不同的裁剪视频片段中,云端200在识别不完整的语句时,识别错误的几率较大。为了避免完整的语句被分到两个不同的裁剪视频片段中,处理器10可先识别整合视频片段的静音位置,其中,静音位置指的是以初始位置开始,在预设时长内的整合视频片段中识别不到人声,则该初始位置即为静音位置,可以理解,当识别到静音位置时,说明视频中的人物的一句话已经说完了,此时处理器10以该静音位置进行裁剪时,就不会出现一个完整的语句被分到两个不同的裁剪视频片段中的问题。如图12和图13,整合视频片段H的静音位置为t5时长对应的位置P3,在以静音位置P3进行裁剪后可得到裁剪视频片段H3和裁剪视频片段H4,整合视频片段H中同一完整的语句不会被分割到裁剪视频片段H3和裁剪视频片段H4中。如此,可避免完整的语句被分到两个不同的裁剪视频片段中,从而降低云端200的识别错误率,提高识别准确性。
请参阅图2和图14,在某些实施方式中,步骤016包括以下步骤:
0161:在以初始位置为起点的预设时长内,若整合视频片段的音频信号的强度均小于预定值,则确定初始位置为静音位置。
在某些实施方式中,处理器10还用于在以初始位置为起点的预设时长内,若整合视频片段的音频信号的强度均小于预定值,则确定初始位置为静音位置。也即是说,步骤0161可以由处理器10实现。
具体地,在拍摄视频时,用户的语音信息同时会被麦克风等录音装置获取到,以生成对应的音频信息,处理器10在判断整合视频片段中是否识别到人声时,可通过判断整合视频片段对应的音频信号的强度来判断是否有人说话,可以理解,在录制语音信息时,当有人说话时,音频信号的强度相对于仅录制背景噪音而言,会更大,因此,处理器10可通过判断音频信号的强度是否大于预定值(例如预定值对应的分贝数为90分贝)来确定是否有人说话,当然,为了保证静音位置确定的准确性,防止将一句完整的语句之间的停顿位置(如犹豫、口吃、呼吸等)也作为静音位置,而导致完整的语句被拆分到不同裁剪视频片段中,处理器10可判断以初始位置为起点的预设时长(例如预设时长为2S)内的音频信号强度是否均小于预定值,在预设时长内的音频信号强度均小于预定值时,说明在2S内都没有人说话,此时说明用户一句话已经说完,从而防止误判,提高确定的静音位置的准确性。
请参阅图2和15,在某些实施方式中,整合方法还包括以下步骤:
018:若整合视频片段在预定时长范围之内存在静音位置,则以离整合视频片段的开始时刻位置最远的静音位置对整合视频片段进行裁剪,以得到两个裁剪视频片段;及
019:若整合视频片段在预定时长范围之内不存在静音位置,则以预定时长范围的最大时刻位置对整合视频片段进行裁剪,以得到两个裁剪视频片段。
在某些实施方式中,处理器10还用于在整合视频片段在预定时长范围之内存在静音位置时,则以离整合视频片段的开始时刻位置最远的静音位置对整合视频片段进行裁剪,以得到两个裁剪视频片段;及在整合视频片段在预定时长范围之内不存在静音位置时,则以预定时长范围的最大时刻位置对整合视频片段进行裁剪,以得到两个裁剪视频片段。也即是说,步骤018和步骤019可以由处理器10实现。
具体地,根据云端200对视频大小的要求,处理器10可确定预设时长范围,每个整合视频片段的时长均应该处于预设时长范围内,例如要求的视频限制大小为[α千字节(kb),βkb],则可确定对应的预设时长范围(如图16中处于最小时长t3和最大时长t4之间的t6时长范围内)。处理器10判断预定时长范围t6内是否存在静音位置,静音位置可以是一个或多个,在预定时长范围t6内存在一个或多个静音位置时,以距离整合视频片段的开始时刻位置最远的静音位置对整合视频片段进行裁剪,其中,开始时刻位置为当前整合视频片段的开始时间对应的位置(即P1位置)。如图16所示,整合视频片段H由初始视频片段E和初始视频片段F整合而成,处理器10识别在预设时长范围内的静音位置分别为t7时长对应的位置P2和t5时长对应的位置P3,其中,离整合视频片段H的开始时刻位置P1最远的静音位置为P3,则以P3位置对整合视频片段H进行裁剪分别得到如图13所示的裁剪视频片段H3和裁剪视频片段H4。如此,以离开始时刻位置最远的静音位置对整合视频片段进行裁剪,可保证裁剪后的裁剪视频片段的较大,最为接近视频限制大小,从而减少裁剪后的裁剪视频片段的数量,提高语音识别的效率。
如图11所示,若处理器10判断整合视频片段在预定时长范围之内不存在静音位置,为了保证整合视频片段能够被云端200进行识别,处理器10以预定时长范围t6的最大时刻位置对整合视频片段进行裁剪以得到两个初始视频片段,其中,最大时刻位置为预定时长范围t3的最大时长t4对应的位置P5。
请参阅图2和图17,在某些实施方式中,整合方法还包括以下步骤:
020:若裁剪视频片段的时长小于最小预定时长,则以预定时长范围的最小时刻位置对整合视频片段进行裁剪,以得到两个裁剪视频片段。
在某些实施方式中,处理器10还用于在裁剪视频片段的时长小于最小预定时长时,则以预定时长范围的最小时刻位置对整合视频片段进行裁剪,以得到两个裁剪视频片段。也即是说,步骤020可以由处理器10实现。
具体地,当处理器10以静音位置或最大时刻位置(如图16的最大时长t4对应的位置中P5)对整合视频片段进行裁剪时,可能由于整合视频片段本身时长较短,导致裁剪后的其中一个裁剪视频片段的时长过短,小于最小预定时长(如图16中的最小时长t3),而小于最小预定时长的整合视频片段无法被云端200识别。因此,此时处理器10需要以预定时长范围t6的最小时刻位置(如图16中最小时长t3对应的位置P6)对整合视频片段再次进行裁剪以得到时长均大于最小预定时长的两个裁剪视频片段。例如,如图11所示,对于整合视频片段H以最大时刻位置P5进行裁剪后,得到的裁剪视频片段H2的时长过短,小于最小预定时长t3,此时处理器10以最小时刻位置P6再次对整合视频片段H进行裁剪,如图18所示,以得到时长大于最小预定时长的裁剪视频片段H5和裁剪视频片段H6。从而保证裁剪后的初始视频片段均能够被云端200语音识别。
请参阅图2和图19,本申请实施方式的一个或多个包含计算机可执行指令302的非易失性计算机可读存储介质300,当计算机可执行指令302被一个或多个处理器10执行时,使得处理器10可执行上述任一实施方式的整合方法。
例如,当计算机可执行指令302被一个或多个处理器10执行时,使得处理器10执行以下步骤:
011:识别所有初始视频片段中的重复部分;
012:确定具有相同的重复部分的多个待整合视频片段,以多个待整合视频片段中的任意一个的重复部分作为待整合部分;及
013:将待整合部分和多个待整合视频片段的非重合部分整合成同一整合视频片段,非重合部分为待整合视频片段中去除对应的重复部分的部分。
再例如,当计算机可执行指令302被一个或多个处理器10执行时,处理器10还可以执行以下步骤:
0111:获取所有初始视频片段的源路径、及初始视频片段在源视频中的开始时间和结束时间;及
0112:根据初始视频片段的源路径、开始时间及结束时间,确定重复部分。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型,本申请的范围由权利要求及其等同物限定。

Claims (11)

1.一种整合方法,其特征在于,整合方法包括:
识别所有初始视频片段中的重复部分;
确定具有相同的所述重复部分的多个待整合视频片段,以多个所述待整合视频片段中的任意一个的所述重复部分作为待整合部分;及
将所述待整合部分和多个所述待整合视频片段的非重合部分整合成同一整合视频片段,所述非重合部分为所述待整合视频片段中去除对应的所述重复部分的部分;
识别所述整合视频片段中的静音位置;
根据所述静音位置对所述整合视频片段进行裁剪;
若所述整合视频片段在预定时长范围之内存在所述静音位置,则以离所述整合视频片段的开始时刻位置最远的所述静音位置对所述整合视频片段进行裁剪,以得到两个裁剪视频片段;及
若所述整合视频片段在所述预定时长范围之内不存在所述静音位置,则以所述预定时长范围的最大时刻位置对所述整合视频片段进行裁剪,以得到两个所述裁剪视频片段。
2.根据权利要求1所述的整合方法,其特征在于,所述识别所有初始视频片段中的重复部分,包括:
获取所有所述初始视频片段的源路径和所述初始视频片段在源视频中的开始时间和结束时间;及
根据所述初始视频片段的源路径、开始时间及结束时间,确定所述重复部分。
3.根据权利要求2所述的整合方法,其特征在于,所述整合方法还包括:
根据所述初始视频片段的源路径、开始时间及结束时间,确定任意两个所述初始视频片段之间的时间间隔;及
若两个所述初始视频片段的所述源路径相同且所述时间间隔小于预定策略值,则整合为同一所述初始视频片段。
4.根据权利要求1所述的整合方法,其特征在于,所述识别所述整合视频片段中的静音位置,包括:
在以初始位置为起点的预设时长内,若所述整合视频片段的音频信号的强度均小于预定值,则确定所述初始位置为所述静音位置。
5.根据权利要求1所述的整合方法,其特征在于,所述整合方法还包括:
若所述裁剪视频片段的时长小于最小预定时长,则以所述预定时长范围的最小时刻位置对所述整合视频片段进行裁剪,以得到两个所述裁剪视频片段。
6.一种终端,其特征在于,所述终端包括处理器,所述处理器用于:
识别所有初始视频片段中的重复部分;
确定具有相同的所述重复部分的多个待整合视频片段,以多个所述待整合视频片段中的任意一个的所述重复部分作为待整合部分;及
将所述待整合部分和多个所述待整合视频片段的非重合部分整合成同一整合视频片段,所述非重合部分为所述待整合视频片段中去除对应的所述重复部分的部分;
所述处理器还用于:
识别所述整合视频片段中的静音位置;及
根据所述静音位置对所述整合视频片段进行裁剪;
所述处理器还用于:
在所述整合视频片段在预定时长范围之内存在所述静音位置时,则以离所述整合视频片段的开始时刻位置最远的所述静音位置对所述整合视频片段进行裁剪,以得到两个裁剪视频片段;及
在所述整合视频片段在所述预定时长范围之内不存在所述静音位置时,则以所述预定时长范围的最大时刻位置对所述整合视频片段进行裁剪,以得到两个所述裁剪视频片段。
7.根据权利要求6所述的终端,其特征在于,所述处理器还用于:
获取所有所述初始视频片段的源路径和所述初始视频片段在源视频中的开始时间和结束时间;及
根据所述初始视频片段的源路径、开始时间及结束时间,确定所述重复部分。
8.根据权利要求7所述的终端,其特征在于,所述处理器还用于:
根据所述初始视频片段的源路径、开始时间及结束时间,确定任意两个所述初始视频片段之间的时间间隔;及
在两个所述初始视频片段的所述源路径相同且所述时间间隔小于预定策略值时,则整合为同一所述初始视频片段。
9.根据权利要求6所述的终端,其特征在于,所述处理器还用于:
在以初始位置为起点的预设时长内,若所述整合视频片段的音频信号的强度均小于预定值,则确定所述初始位置为所述静音位置。
10.根据权利要求9所述的终端,其特征在于,所述处理器还用于:
在所述裁剪视频片段的时长小于最小预定时长时,则以所述预定时长范围的最小时刻位置对所述整合视频片段进行裁剪,以得到两个所述裁剪视频片段。
11.一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行如权利要求1至5中任一项所述的整合方法。
CN201910844584.3A 2019-09-06 2019-09-06 整合方法、终端和可读存储介质 Active CN110611841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910844584.3A CN110611841B (zh) 2019-09-06 2019-09-06 整合方法、终端和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910844584.3A CN110611841B (zh) 2019-09-06 2019-09-06 整合方法、终端和可读存储介质

Publications (2)

Publication Number Publication Date
CN110611841A CN110611841A (zh) 2019-12-24
CN110611841B true CN110611841B (zh) 2021-07-30

Family

ID=68892321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910844584.3A Active CN110611841B (zh) 2019-09-06 2019-09-06 整合方法、终端和可读存储介质

Country Status (1)

Country Link
CN (1) CN110611841B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111918146B (zh) * 2020-07-28 2021-06-01 广州筷子信息科技有限公司 一种视频合成方法和系统
CN112929696B (zh) * 2021-01-26 2023-05-02 广州欢网科技有限责任公司 多剧集影视的拼接方法、装置、存储介质及电子设备
CN113507630B (zh) * 2021-07-08 2023-06-20 北京百度网讯科技有限公司 比赛视频的拆条方法和装置
CN114615548B (zh) * 2022-03-29 2023-12-26 湖南国科微电子股份有限公司 一种视频数据的处理方法、装置及计算机设备
CN115174826A (zh) * 2022-07-07 2022-10-11 云知声智能科技股份有限公司 一种音视频合成方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697564B1 (en) * 2000-03-03 2004-02-24 Siemens Corporate Research, Inc. Method and system for video browsing and editing by employing audio
JP2004326926A (ja) * 2003-04-24 2004-11-18 Toshiba Corp 編集記録方法及び編集記録装置
CN101951504A (zh) * 2010-09-07 2011-01-19 中国科学院深圳先进技术研究院 基于重叠边界的多媒体切片转码方法和系统
CN104159151A (zh) * 2014-08-06 2014-11-19 哈尔滨工业大学深圳研究生院 一种在ott盒子上进行视频截取并处理的装置及方法
CN108419145A (zh) * 2018-05-04 2018-08-17 腾讯科技(深圳)有限公司 一种视频摘要的生成方法和装置以及计算机可读存储介质
CN109547859A (zh) * 2017-09-21 2019-03-29 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN109889919A (zh) * 2019-03-27 2019-06-14 深圳市网心科技有限公司 一种视频转码方法、装置、系统及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009073634A1 (en) * 2007-11-30 2009-06-11 Emsense Corporation Correlating media instance information with physiological responses from participating subjects
CN107623860A (zh) * 2017-08-09 2018-01-23 北京奇艺世纪科技有限公司 多媒体数据分割方法和装置
CN109640145B (zh) * 2018-12-24 2021-08-06 郑州畅想高科股份有限公司 一种用于轨道列车的行车演练方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697564B1 (en) * 2000-03-03 2004-02-24 Siemens Corporate Research, Inc. Method and system for video browsing and editing by employing audio
JP2004326926A (ja) * 2003-04-24 2004-11-18 Toshiba Corp 編集記録方法及び編集記録装置
CN101951504A (zh) * 2010-09-07 2011-01-19 中国科学院深圳先进技术研究院 基于重叠边界的多媒体切片转码方法和系统
CN104159151A (zh) * 2014-08-06 2014-11-19 哈尔滨工业大学深圳研究生院 一种在ott盒子上进行视频截取并处理的装置及方法
CN109547859A (zh) * 2017-09-21 2019-03-29 腾讯科技(深圳)有限公司 视频片段的确定方法和装置
CN108419145A (zh) * 2018-05-04 2018-08-17 腾讯科技(深圳)有限公司 一种视频摘要的生成方法和装置以及计算机可读存储介质
CN109889919A (zh) * 2019-03-27 2019-06-14 深圳市网心科技有限公司 一种视频转码方法、装置、系统及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《A General Framework for Edited Video and Raw Video Summarization》;Xuelong Li;Bin Zhao;Xiaoqiang Lu;《IEEE Transactions on Image Processing》;20170419;全文 *
《数字音视频码流的分割及合并技术研究》;翁超;《中国优秀硕士学位论文全文数据库》;20110615;全文 *
《长视频序列拼接》;郭李云;《计算机工程与应用》;20110511;全文 *

Also Published As

Publication number Publication date
CN110611841A (zh) 2019-12-24

Similar Documents

Publication Publication Date Title
CN110611841B (zh) 整合方法、终端和可读存储介质
CN110602566B (zh) 匹配方法、终端和可读存储介质
US10917577B2 (en) Method and device for controlling camera shooting, smart device, and storage medium
US10320876B2 (en) Media production system with location-based feature
US9940944B2 (en) Smart mute for a communication device
CN113163272B (zh) 视频剪辑方法、计算机设备及存储介质
CN110992993B (zh) 视频编辑方法、视频编辑装置、终端和可读存储介质
US20150310863A1 (en) Method and apparatus for speaker diarization
CN111050201B (zh) 数据处理方法、装置、电子设备及存储介质
JP2021071733A (ja) オーディオ透かしによるキーフレーズ検出
CN110691204B (zh) 一种音视频处理方法、装置、电子设备及存储介质
CN111369990B (zh) 音频播放方法、装置、终端、服务器及存储介质
US10026417B2 (en) Audio driven accelerated binge watch
CN114679607B (zh) 一种视频帧率控制方法、装置、电子设备及存储介质
CN113779208A (zh) 用于人机对话的方法和装置
CN112911332A (zh) 用于从直播视频流剪辑视频的方法、装置、设备和存储介质
US8615153B2 (en) Multi-media data editing system, method and electronic device using same
CN112133296A (zh) 全双工语音控制方法、装置、存储介质及语音设备
CN114341866A (zh) 同声传译方法、装置、服务器和存储介质
CN115604539A (zh) 视频分割方法、电子设备以及存储介质
CN114827454A (zh) 视频的获取方法及装置
CN115460436B (zh) 视频处理方法、存储介质及电子设备
CN110007982B (zh) 通信方法及装置
CN114845066A (zh) 一种行车记录方法、装置、设备及存储介质
CN115731500A (zh) 视频高光检测方法、装置、介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant