CN110602566B

CN110602566B - 匹配方法、终端和可读存储介质

Info

Publication number: CN110602566B
Application number: CN201910843913.2A
Authority: CN
Inventors: 吴恒刚
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-10-01
Anticipated expiration: 2039-09-06
Also published as: US20220180899A1; WO2021042926A1; EP4021004A4; EP4021004A1; CN110602566A

Abstract

本申请提供了一种匹配方法、终端和非易失性计算机可读存储介质。匹配方法包括提取整合后的所有视频片段对应的音频片段；上传所述音频片段以获取所述音频片段的识别结果，所述识别结果包括字幕数据、所述字幕数据对应的开始时间和结束时间；及匹配所述识别结果和一个或多个整合前的视频片段，以将与整合前的所述视频片段的开始时间和结束时间相匹配所述字幕数据载入到整合前的所述视频片段中。本申请实施方式的匹配方法、终端和存储介质中，通过提取整合后的视频片段中的音频片段，仅将音频片段上传到云端以进行语音识别从而得到包含字幕的识别结果，然后将字幕和整合前的视频片段进行匹配以将字幕载入整合前的视频片段中，相较于上传音频片段对应的视频片段而言，耗费的流量较少。

Description

匹配方法、终端和可读存储介质

技术领域

本申请涉及消费性电子技术领域，特别涉及一种匹配方法、终端和非易失性计算机可读存储介质。

背景技术

目前，在进行视频字幕的匹配时，需要将待识别的视频片段全部上传，然后云端先提取视频片段中的音频信号，然后进行语音识别以返回识别结果，由于云端需要识别视频片段中的音频信号，然后再识别音频信号以得到识别结果，识别速度较慢且耗费的流量较多。

发明内容

本申请的实施例提供了一种匹配方法、终端和非易失性计算机可读存储介质。

本申请实施方式的匹配方法包括提取整合后的所有视频片段对应的音频片段；上传所述音频片段以获取所述音频片段的识别结果，所述识别结果包括字幕数据、所述字幕数据对应的开始时间和结束时间；及匹配所述识别结果和一个或多个整合前的视频片段，以将与整合前的所述视频片段的开始时间和结束时间相匹配所述字幕数据载入到整合前的所述视频片段中。

本申请实施方式的终端包括处理器，所述处理器用于提取整合后的所有视频片段对应的音频片段；上传所述音频片段以获取所述音频片段的识别结果，所述识别结果包括字幕数据、所述字幕数据对应的开始时间和结束时间；及匹配所述识别结果和一个或多个整合前的视频片段，以将与整合前的所述视频片段的开始时间和结束时间相匹配所述字幕数据载入到整合前的所述视频片段中。

本申请的一种包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行上述任一实施方式所述的匹配方法。

本申请的匹配方法、终端和非易失性计算机可读存储介质中，通过提取整合后的视频片段中的音频片段，仅将音频片段上传到云端以进行语音识别从而得到包含字幕的识别结果，然后将字幕和整合前的视频片段进行匹配以将字幕载入整合前的视频片段中，相较于上传音频片段对应的视频片段而言，耗费的流量较少。且云端可直接识别音频片段，相较于先识别视频片段中的音频片段，再对音频片段进行识别而言，识别速度较快。

本申请的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请某些实施方式的匹配方法的流程示意图；

图2是本申请某些实施方式的终端和云端的连接示意图；

图3至图4是本申请某些实施方式匹配方法的原理示意图；

图5是本申请某些实施方式的匹配方法的流程示意图；

图6和图7是本申请某些实施方式的匹配方法的原理示意图；

图8是本申请某些实施方式的匹配方法的流程示意图；

图9和图10是本申请某些实施方式的匹配方法的原理示意图；

图11是本申请某些实施方式的匹配方法的流程示意图；

图12和图13是本申请某些实施方式的匹配方法的原理示意图；

图14是本申请某些实施方式的匹配方法的流程示意图；

图15是本申请某些实施方式的语音识别模块的结构示意图；和

图16是本申请某些实施方式的处理器和计算机可读存储介质的连接示意图。

具体实施方式

以下结合附图对本申请的实施方式作进一步说明。附图中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。另外，下面结合附图描述的本申请的实施方式是示例性的，仅用于解释本申请的实施方式，而不能理解为对本申请的限制。

请参阅图1和图2，本申请实施方式的匹配方法包括以下步骤：

011：提取整合后的所有视频片段对应的音频片段；

012：上传音频片段以获取音频片段的识别结果，识别结果包括字幕数据、字幕数据对应的开始时间和结束时间；及

013：匹配识别结果和一个或多个整合前的视频片段，以将与整合前的视频片段的开始时间和结束时间相匹配字幕数据载入到整合前的视频片段中。

在某些实施方式中，终端100还包括处理器10，处理器10用于提取整合后的所有视频片段对应的音频片段；上传音频片段以获取音频片段的识别结果，识别结果包括字幕数据、字幕数据对应的开始时间和结束时间；及匹配识别结果和一个或多个整合前的视频片段，以将与整合前的视频片段的开始时间和结束时间相匹配字幕数据载入到整合前的视频片段中。也即是说，步骤011和、步骤012和步骤013可以由处理器10实现。

具体地，终端100包括壳体20和处理器10。处理器10安装在壳体内。具体地，终端100可以是手机、平板电脑、显示器、笔记本电脑、柜员机、闸机、智能手表、头显设备、游戏机等。本申请实施方式以终端100是手机为例进行说明，可以理解，终端100的具体形式并不限于手机。壳体20还可用于安装终端100的成像装置、供电装置、通信装置等功能模块，以使壳体20为功能模块提供防尘、防摔、防水等保护。

在用户日常使用手机拍摄视频时，处理器10会自动对拍摄的视频进行分类，其中，拍摄视频可以是即时视频，例如在聊天软件中临时拍摄视频发送给对方，该种视频无需保存到系统相册；或者拍摄视频也可以是已保存的视频，例如被用户使用系统相机拍摄得到的视频，或者用户手动从网络下载保存到系统相册内的视频。例如，处理器10将拍摄视频分为自拍、风景、宠物、萌娃、聚会等多种类别，其中，自拍类型的拍摄视频定义为拍摄视频中自拍图像的帧数占整个拍摄视频的帧数的比例是否大于第一预定比例(例如第一预定比例大于1/2)，自拍图像为人脸占据当前图像的比例大于第二预定比例(如第二预定比例为1/2)的图像；风景类型的拍摄视频定义为拍摄视频中风景图像占整个拍摄视频的帧数的比例是否大于第三预定比例(例如第三预定比例大于2/3)，风景图像为不包括人物图像的图像；宠物类型的拍摄视频定义为拍摄视频中宠物图像占整个拍摄视频的帧数的比例是否大于第四预定比例(例如第四预定比例大于2/3)，宠物图像为宠物的图像占当前图像的比例大于第五比例(例如第五预定比例大于1/3)的图像；聚会类型的拍摄视频定义为拍摄视频中聚会图像占整个拍摄视频的帧数的比例是否大于第六预定比例(例如第六预定比例大于3/4)，聚会图像为包含多个人物的图像。如此，可通过图像识别快速确定拍摄视频的类型。需要指出的是，上述第一预定比例至第六预定比例的数值仅为举例说明，并不能作为对本申请的限制。

在对拍摄视频确定好类型后，终端100会将多个同类型的拍摄视频关联起来形成一个临时的推荐视频推荐给用户，推荐视频可从多个拍摄视频中选取的一个或多个视频片段，一个或多个视频片段可以是同一拍摄视频的一部分(例如，在同一拍摄视频中选取3个视频片段)，多个视频片段可以是多个拍摄视频的其中一部分(例如，在3个拍摄视频中分别选取1个、2个和3个视频片段)。在用户对临时的推荐视频满意时，可手动选择保存，而在用户对临时的推荐视频不满意，或者在一定时间内没有对临时的推荐视频进行操作，则删除该推荐视频。

为了增加推荐视频的表现力和冲击力，终端100可为推荐视频配乐，并根据配乐来剪辑推荐视频的各个视频片段。例如，在配乐的节奏点处切换到下一个视频片段，并将前一个视频片段中未播放的部分剪辑掉，使得视频播放和配乐的节奏点相匹配，推荐视频的表现力和冲击力更强。

推荐视频由多个视频片段集合而成，选取自同一源视频的多个视频片段可能存在重复部分，多个相同的重复部分在上传至云端200进行语音识别时会被识别多次，造成语音识别资源的浪费，因此，处理器10可将具有相同重复部分的视频片段进行整合，以使得多个相同的重复部分中仅其中保留一个在整合后的视频片段中。

终端100还可为推荐视频配字幕以增加推荐视频的可读性。终端100可提取整合后的视频片段对应的音频片段，然后仅将音频片段上传至具备语音识别服务的云端200(如第三方语音服务商的服务器等)，然后由云端200对音频片段进行语音识别后将识别结果返回给终端100，识别结果包括字幕数据、字幕数据对应的开始时间和结束时间。如此，终端100可预先提取视频片段中的音频片段，云端200仅需识别音频片段，可减小云端200的处理压力，节省流量。

由于推荐视频在播放时是以整合前的一个个视频片段进行播放的，因此，处理器10在获取到识别结果后，需要将识别结果和一个或多个整合前的视频片段进行匹配，其中，识别结果、音频片段及提取出该音频片段的整合后的视频片段是一一对应的，而整合后的视频片段和一个或多个整合前的视频片段也是对应的，因此，只需匹配识别结果和一个或多个整合前的视频片段即可。更具体地，将识别结果中的字幕数据的开始时间和结束时间和每个整合前的视频片段进行匹配，其中，字幕数据的开始时间和结束时间(下称第一开始时间和第一结束时间)指的是字幕数据对应的音频片段在对应的源视频中的时长范围的开始时刻和结束时刻，每个整合前的视频片段的开始时间和结束时间(下称第二开始时间和第二结束时间)也指的是该视频片段在源视频中的时长范围的开始时刻和结束时刻。处理器10可将与整合前的视频片段的第二开始时间和第二结束时间对应的字幕数据载入到整合前的视频片段中，以完成字幕的匹配。

例如，如图3所示，终端100选取的视频片段A(选自图4的源视频O第1秒(S)到第5S的部分)、视频片段B(选自源视频O第4S到第9S的部分)、和视频片段C(选自源视频O第7S到第13S的部分)均为源视频O的一部分，视频片段A的“1”部分和视频片段B的“2”部分均为源视频O中第4S到第5S的视频片段，为重复部分；视频片段B的“2”部分和视频片段C的“3”部分均为源视频S中第7S到第9S的视频片段，也为重复部分。因此，视频片段A、B和C整合以去掉多余的重复部分后可得到的图4所示的整合后的视频片段D，视频片段D即为源视频O中第1S到第13S的部分，视频片段D对应的音频片段也为源视频中第1S到第13S的部分对应的音频片段，因此，该音频片段的字幕数据的第一开始时间为第1S，第一结束时间为第13S。视频片段A选自源视频O第1S到第5S的部分，即视频片段A的第二开始时间和第二结束时间分别为第1S和第5S；视频片段B选自源视频O第4S到第9S的部分，即视频片段B的第二开始时间和第二结束时间分别为第4S和第9S；视频片段C选自源视频O第7S到第13S的部分，即视频片段C的第二开始时间和第二结束时间分别为第7S和第13S。因此，处理器10只需将字幕数据中第1S到第5S的部分载入到视频片段A，将第4S到第9S的部分载入到视频片段B，将第7S和第13S的部分载入到视频片段C即可。如此，即可准确的完整字幕的匹配。

请参阅图2和图5，在某些实施方式中，步骤011包括以下步骤：

0111：识别所有整合前的视频片段中的重复部分；

0112：确定具有相同的重复部分的多个整合前的视频片段中的任意一个的重复部分为待整合部分；及

0113：根据待整合部分和具有相同的重复部分的整合前的视频片段中去除重复部分的部分，以生成整合后的视频片段。

在某些实施方式中，处理器10用于识别所有整合前的视频片段中的重复部分；确定具有相同的重复部分的多个整合前的视频片段中的任意一个的重复部分为待整合部分；及根据待整合部分和具有相同的重复部分的整合前的视频片段中去除重复部分的部分，以生成整合后的视频片段。也即是说，步骤0111、步骤0112和步骤0113可以由处理器10实现。

具体地，请参阅图3和图4，本申请在进行语音识别前，处理器10会首先识别多个视频片段是否存在重复部分，由于不同源视频O的拍摄内容一般会存在较大差异，选取的视频片段存在重复部分的几率较小，因此，处理器10无需将源路径不同(即，选取自不同的源视频O)的视频片段进行比对，只需对源路径相同(即，选取自同一源视频O)的多个视频片段进行比对以确定多个视频片段是否存在重复部分即可，在选取自同一源视频O的多个视频片段存在重复部分时，可直接确定多个视频片段中任意一个的重复部分作为待整合部分(例如，以图3中的“1”部分作为视频片段A和视频片段B的待整合部分，以“3”部分作为视频片段B和视频片段C的待整合部分)，将待整合部分(如图3中的“1”部分)和具有相同的重复部分的视频片段(如图3中的视频片段A和视频片段B)中分别去除“1”部分和“2”部分的剩余部分拼接在一起以形成图6所示的视频片段D1，视频片段D1包含视频片段B，故视频片段D1和视频片段C具有相同的重复部分(分别为“3”部分和“4”部分)，将待整合部分(即，“3”部分)和具有相同的重复部分的视频片段(即，视频片段D1和视频片段C)中分别去除“3”部分和“4”部分的剩余部分拼接在一起以形成视频片段D2。如此，具有相同重复部分的视频片段被整合成同一视频片段。在进行语音识别时，处理器10只需上传整合后的视频片段到云端200(图2示)进行语音识别即可，重复部分仅需上传和识别一次，识别速度相对较快且流量消耗较少，整合后的视频片段不存在多个相同的重复部分需要识别，其所有部分均需要进行语音识别，云端200的语音识别资源得以充分利用。另外，相较于每个具有相同的重复部分的视频片段均向云端200请求一次，需要多次请求云端200而言，本实施方式中由于具有相同的重复部分的视频片段被整合成同一视频片段，因此，多个具有相同的重复部分的视频片段只需请求一次即可，可节省云端200资源。

请参阅图2，在某些实施方式中，处理器10还用于获取所有视频片段的源路径及视频片段在源视频中的开始时间和结束时间；及根据视频片段的源路径、开始时间及结束时间确定重复部分。

具体地，处理器10在比对多个视频片段是否存在相同的重复部分时，可首先获取该视频片段的源路径，根据源路径可找到每个视频片段对应的源视频，多个视频片段的源路径相同即表示多个视频片段选取自同一个源视频，前述已经提到，不同源视频的视频片段一般不存在重复部分，因此，本实施方式中，处理器10仅比对选取自同一源视频的多个视频片段以识别重复部分。可以理解，在选取视频片段时处理器10就可获取到每个视频片段在源视频中的开始时间和结束时间。处理器10在获取到每个视频片段在源视频中的开始时间和结束时间后，可判断两个视频片段的开始时间和结束时间是否存在交叉，若两个视频片段的开始时间和结束时间存在交叉，则表示该两个视频片段存在重复部分。例如图3中，视频片段A选自图4的源视频O第1秒(S)到第5S的部分(即开始时间为第1S，结束时间为第5S)，视频片段B选自源视频O第4S到第9S的部分(即开始时间为第4S，结束时间为第9S)，视频片段C选自源视频O第7S到第13S的部分(即开始时间为第7S，结束时间为第13S)。视频片段A的“1”部分和视频片段B的“2”部分交叉，均为源视频O中第4S到第5S的视频片段，为重复部分；视频片段B的“3”部分和视频片段C的“4”部分交叉，均为源视频S中第7S到第9S的视频片段，也为重复部分。如此，无需进行图像识别来比对每个视频片段的视频内容，即可快速确定重复部分。

请参阅图2，在某些实施方式中，处理器10还用于根据视频片段的源路径、开始时间及结束时间确定两个视频片段之间的时间间隔；及将时间间隔小于预定策略值的两个视频片段整合为同一视频片段。

具体地，当多个视频片段均选自同一源视频时，多个视频片段相互之间可能没有重复部分，但选取时，相邻两个视频片段的时间间隔太短(即前一个视频片段的结束时间和后一个视频片段的开始时间的时间间隔较小)，例如，图7所示的视频片段E的结束时间和视频片段F的开始时间的时间间隔为t1，t1小于预定策略值(如预定策略值可以是2S、5S、10S等)，因此，视频片段E的结束时间和视频片段F的视频内容基本可视为连续的，此时，为了减少进行语音识别时的上传次数，提高云端200的语音识别效率，可将时间间隔较短的相邻两个视频片段整合为同一视频片段，而相邻两个视频片段的时间间隔若较大(如图7中的视频片段F和视频片段G的时间间隔t2大于预定策略值)时，说明两个视频片段的视频内容的连贯性较差，故不进行整合。

请参阅图2和图8，步骤011还包括以下步骤：

0114：提取整合后的视频片段对应的初始音频片段；及

0115：根据限制时长对初始音频片段进行裁剪以生成音频片段。

在某些实施方式中，处理器10还用于提取整合后的视频片段对应的初始音频片段；及根据限制时长对初始音频片段进行裁剪以生成音频片段。也即是说，步骤0114和步骤0115可以由处理器10实现。

具体地，在处理器10从整合后的视频片段中提取出初始音频片段后，由于提供语音识别服务的云端200(如第三方语音识别服务商的服务器)一般对上传的音频的格式、大小等有限制，即存在限制格式、限制时长等要求，因此，处理器10在获取到云端200的限制格式和限制时长后，首先将初始音频片段的格式转换成符合要求的格式，然后按照限制时长对初始音频片段进行裁剪，以使得裁剪后得到的音频片段的大小符合要求，限制时长可以是一个定值，裁剪得到的音频片段的大小需小于或等于限制时长，限制时长还可以是一个范围，裁剪得到的音频片段的大小需处于限制时长的对应的范围内。例如，如图9所示，云端200的限制格式为MP3格式，限制时长的范围为[t3，t4]，即裁剪得到的音频片段的大小需要在最小时长t3和最大时长t4之间，其中，最长时长t4对应的位置为P1，最小时长t3对应的位置为P2。处理器10首先将音频片段转换成MP3格式，然后根据限制时长来对进行初始音频片段进行裁剪，如图10所示，处理器10将每个初始音频片段中超过最大时长t4的部分进行裁剪以分成多个音频片段，处理器10对初始音频片段H中的最大时长t4对应的位置P1进行裁剪，以分别得到音频片段H1和音频片段H2。最后将裁剪得到的音频片段(即音频片段H1和音频片段H2)上传到云端200进行语音识别。

请参阅图2和图11，在某些实施方式中，步骤0115包括以下步骤：

01151：识别初始音频片段中的静音位置；及

01152：根据静音位置及限制时长对初始音频片段进行裁剪以生成音频片段。

在某些实施方式中，处理器10还用于识别初始音频片段中的静音位置；及根据静音位置及限制时长对初始音频片段进行裁剪以生成音频片段。也即是说，步骤01151和步骤01152可以由处理器10实现。

具体地，可以理解，上述实施方式对初始音频片段进行裁剪时，由于仅根据限制时长来对初始音频片段进行裁剪，有可能导致被裁剪的初始音频片段中一句完整的语句刚好被分到两个不同的音频片段中，云端200在识别不完整的语句时，识别错误的几率较大。为了避免完整的语句被分到两个不同的音频片段中，处理器10可先识别音频片段的静音位置，其中，静音位置指的是以初始位置开始，在预设时长内的音频片段中没有人说话，则该初始位置即为静音位置，可以理解，当识别到静音位置时，说明音频中的人物的一句话已经说完了，此时处理器10以该静音位置进行裁剪时，就不会出现一个完整的语句被分到两个不同的音频片段中的问题。如图12和图13，初始音频片段H的静音位置为t5时长对应的位置P3，在以静音位置P3进行裁剪后可得到音频片段H3和音频片段H4，初始音频片段H中同一完整的语句不会被分到两个音频片段H3和音频片段H4中。如此，可避免完整的语句被分到两个不同的音频片段中，从而降低云端200的识别错误率，提高识别准确性。

请参阅图2，在某些实施方式中，处理器10还用于在音频片段在以初始位置为起点的预设时长内的音频信号的强度均小于预定值时，则确定初始位置为静音位置。

具体地，处理器10在判断音频片段中是否有人说话时，可通过判断音频片段对应的音频信号的强度来判断是否有人说话，可以理解，在录制语音信息时，当有人说话时，音频信号的强度相对于仅录制背景噪音而言，会更大。因此，处理器10可通过判断音频信号的强度是否大于预定值(例如预定值对应的分贝数为90分贝)来确定是否有人说话，当然，为了保证静音位置确定的准确性，防止将一句完整的语句之间的停顿位置(如犹豫、口吃、呼吸等)也作为静音位置，而导致完整的语句被拆分到不同音频片段中，处理器10可判断以初始位置为起点的预设时长(例如预设时长为2S)内的音频信号强度是否均小于预定值，在预设时长内的音频信号强度均小于预定值时，说明在2S内都没有人说话，此时说明用户一句话已经说完，从而防止误判，提高确定的静音位置的准确性。

请参阅图2、图14和图15，在某些实施方式中，步骤012包括以下步骤：

0121：调用文件上传接口32以将音频片段上传到云端200；

0122：接收云端200处理后返回的识别结果；及

0123：将识别结果保存在临时队列中。

在某些实施方式中，终端100还包括存储器40，处理器10还用于调用文件上传接口32以将音频片段上传到云端200；接收云端200处理后返回的识别结果；及将识别结果保存在存储器40的临时队列中。也即是说，步骤0121、步骤0122和步骤0123可以由处理器10实现。

具体地，不同的语音识别服务商对语音识别上传的文件的要求是不同的，例如上传的音频片段的格式、大小等的要求各不相同，因此，本申请的终端100根据不同的语音识别服务商的不同要求分别编写了不同的语音识别模块30，例如使用服务商C1的语音识别服务时，调用语音识别模块C1，使用服务商C2的语音识别服务时，调用语音识别模块C2，使用服务商C3的语音识别服务时，调用语音识别模块C3等。语音识别模块C1、语音识别模块C2、和语音识别模块C3分别根据服务商C1、服务商C2和服务商C3的要求进行编写，使得上传的音频片段的格式和大小等属性满足对应的语音识别服务商的要求，准确的进行语音识别。

语音识别模块30包括音频处理类31、文件上传接口32和识别结果处理类33。在上传音频片段时，先调用音频处理类31对整合后的视频片段进行处理，以得到符合对应的服务商要求的音频片段，具体处理过程请参阅前述实施方式中对音频片段的处理过程。然后调用文件上传接口32将音频片段上传至对应的语音识别服务商的服务器(即，云端200)。然后云端200对音频片段进行语音识别后得到识别结果，并将识别结果返回到终端100。终端100接收到返回的识别结果后，将识别结果暂时保存在存储器40中的临时队列中。然后处理器10判断是否还有音频片段需要识别，若还有需要识别的音频片段，则重复上述过程直至所有音频片段均已识别完成。最后，所有音频片段的识别结果均保存在临时队列中。处理器10可调用识别结果处理类33对临时队列中的识别结果进行处理，以使得识别结果转换为能够被终端100处理的数据类型。例如，云端200返回的字幕数据的格式为格式A，而终端100所需的字幕数据的格式为格式B，此时，处理器10需要调用识别结果处理类33将字幕数据的格式从格式A转换为格式B，以使的终端100能够正常的处理字幕数据。如此，本申请的终端100不仅可以适配不同的语音识别服务商，且将语音识别能力封装到语音识别模块30中后，处理器10只需将需要识别的音频片段传给语音识别模块30，语音识别模块30即可返回处理器10所需的识别结果，可降低外部处理逻辑的复杂度。

请参阅图2和图16，本申请实施方式的一个或多个包含计算机可执行指令302的非易失性计算机可读存储介质300，当计算机可执行指令302被一个或多个处理器10执行时，使得处理器10可执行上述任一实施方式的匹配方法。

例如，当计算机可执行指令302被一个或多个处理器10执行时，使得处理器10执行以下步骤：

011：提取整合后的所有视频片段对应的音频片段；

再例如，当计算机可执行指令302被一个或多个处理器10执行时，处理器10还可以执行以下步骤：

0111：识别所有整合前的视频片段中的重复部分；

尽管上面已经示出和描述了本申请的实施方式，可以理解的是，上述实施方式是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型，本申请的范围由权利要求及其等同物限定。

Claims

1.一种匹配方法，其特征在于，所述匹配方法包括：

提取整合后的所有视频片段对应的音频片段，其中，具有重复部分的整合前的所述视频片段去掉重复部分而整合成同一整合后的所述视频片段；

上传所述音频片段以获取所述音频片段的识别结果，所述识别结果包括字幕数据、所述字幕数据对应的开始时间和结束时间；及

匹配所述识别结果和一个或多个整合前的所述视频片段，以将与整合前的所述视频片段的开始时间和结束时间相匹配所述字幕数据载入到整合前的所述视频片段中。

2.根据权利要求1所述的匹配方法，其特征在于，所述提取整合后的所有视频片段对应的音频片段，包括

识别所有整合前的所述视频片段中的重复部分；

确定具有相同的所述重复部分的多个整合前的所述视频片段中的任意一个的所述重复部分为待整合部分；及

根据所述待整合部分和具有相同的所述重复部分的整合前的所述视频片段中去除所述重复部分的部分，以生成整合后的所述视频片段。

3.根据权利要求2所述的匹配方法，其特征在于，所述提取整合后的所有视频片段对应的音频片段，还包括：

提取整合后的所述视频片段对应的初始音频片段；及

根据限制时长对所述初始音频片段进行裁剪以生成所述音频片段。

4.根据权利要求3所述的匹配方法，其特征在于，所述根据限制时长对所述初始音频片段进行裁剪以生成所述音频片段，包括：

识别所述初始音频片段中的静音位置；及

根据所述静音位置及所述限制时长对所述初始音频片段进行裁剪以生成所述音频片段。

5.根据权利要求1所述的匹配方法，其特征在于，所述上传所述音频片段以获取所有所述音频片段的识别结果，包括：

调用文件上传接口以将所述音频片段上传到云端；

接收云端处理后返回的所述识别结果；及

将所述识别结果保存在临时队列中。

6.一种终端，其特征在于，所述终端包括处理器，所述处理器用于：

7.根据权利要求6所述的终端，其特征在于，所述处理器还用于：

识别所有整合前的所述视频片段中的重复部分；

8.根据权利要求7所述的终端，其特征在于，所述处理器还用于：

提取整合后的所述视频片段对应的初始音频片段；及

9.根据权利要求8所述的终端，其特征在于，所述处理器还用于：

识别所述初始音频片段中的静音位置；及

10.根据权利要求6所述的终端，其特征在于，所述终端还包括存储器，所述处理器还用于：

调用文件上传接口以将所述音频片段上传到云端；

接收云端处理后返回的所述识别结果；及

将所述识别结果保存在所述存储器的临时队列中。

11.一种包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行如权利要求1至5中任一项所述的匹配方法。