CN112235632A

CN112235632A - 视频处理方法、装置及服务器

Info

Publication number: CN112235632A
Application number: CN202010943377.6A
Authority: CN
Inventors: 万朝阳
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-09-09
Filing date: 2020-09-09
Publication date: 2021-01-15

Abstract

本公开关于一种视频处理方法、装置及服务器，属于计算机应用技术领域。其中，该处理方法包括：获取待上传的视频；对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段；对所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段；以及若所述视频中存在所述音频片段和/或所述视频片段，生成针对所述目标对象的删除提醒消息。由此，根据这种视频处理方法，能够自动识别出待上传视频中是否存在目标对象的宣传信息，并通知相关用户，在有效避免宣传目标对象的同时，也改善了视频的观看感受，相较于相关技术中依靠人工审核视频以及通知用户，具有效率高、节省人工成本的优点。

Description

视频处理方法、装置及服务器

技术领域

本公开涉及计算机应用技术领域，尤其涉及一种视频处理方法、装置及服务器。

背景技术

目前，用户通过网页、APP等平台上传视频时，视频中可能会携带属于其他商家(播放平台以外的)的一些宣传文案、图标、语音等信息，若不对这些信息进行删减，则会达到宣传其他商家的效果，而且也会影响视频的观看感受，相关技术中为了解决这一问题，大多采用人工审核的方式，相关工作人员需要自行观看用户上传的视频，若发现视频中存在需要删减的其他商家的宣传文案、图标、语音等信息，则通知相关用户，该方法存在人工成本较高、审核效率低的缺点。

发明内容

本公开提供一种视频处理方法、装置、服务器、存储介质、计算机程序产品，以至少解决相关技术中，视频处理方法人工成本较高、审核效率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，包括：获取待上传的视频；对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段；对所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段；以及若所述视频中存在所述音频片段和/或所述视频片段，生成针对所述目标对象的删除提醒消息。

在本公开的一个实施例中，所述对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段，包括：从所述视频中提取音频数据；对所述音频数据进行语音识别，以获取所述音频数据对应的识别文本；以及根据所述识别文本和预先构建的文本库，判断所述视频中是否存在所述音频片段，其中，所述文本库包括至少一个目标对象的标准文本。

在本公开的一个实施例中，所述根据所述识别文本和预先构建的文本库，判断所述视频中是否存在所述音频片段，包括：将所述识别文本与所述标准文本进行相似度比较，以获取所述识别文本与所述标准文本之间的第一相似度；以及若所述第一相似度大于或者等于第一相似度阈值，则判定所述视频中存在所述音频片段，其中，所述第一相似度大于或者等于所述第一相似度阈值的所述标准文本为所述音频片段中携带的所述文本信息。

在本公开的一个实施例中，所述判定所述视频中存在所述音频片段之后，还包括：以所述识别文本中首字对应的第一音频时刻为所述音频片段的起点，以所述识别文本的尾字对应的第二音频时刻为所述音频片段的终点。

在本公开的一个实施例中，所述判定所述视频中存在所述音频片段之后，还包括：根据所述音频片段的起点和所述音频片段的终点，确定所述视频中的候选视频片段，将所述候选视频片段作为所述视频片段。

在本公开的一个实施例中，所述对所述所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段，包括：从所述视频中提取帧图像；以及根据所述帧图像和预先构建的图标库，判断所述视频中是否存在所述视频片段，其中，所述图标库包括至少一个目标对象的标准图标。

在本公开的一个实施例中，所述根据所述帧图像和预先构建的图标库，判断所述视频中是否存在所述视频片段，包括：将所述帧图像与所述标准图标进行相似度比较，以获取所述帧图像与所述标准图标之间的第二相似度；以及若所述第二相似度大于或者等于第二相似度阈值，则判定所述视频中存在所述视频片段，其中，所述第二相似度大于或者等于所述第一相似度阈值的所述标准图标为所述视频片段中携带的所述图标。

在本公开的一个实施例中，所述判定所述视频中存在所述视频片段之后，还包括：获取连续携带所述标准图标的多帧图像，以其中的第一帧图像和最后一帧图像分别作为所述视频片段的起点和终点。

在本公开的一个实施例中，所述从所述视频中提取帧图像，包括：获取所述视频的设定提取位置，从所述设定提取位置中提取所述帧图像。

在本公开的一个实施例中，所述生成针对所述目标对象的删除提醒消息，包括：获取所述音频片段的起始时刻和/或所述视频片段的起始时刻；以及根据所述音频片段的起始时刻和/或所述视频片段的起始时刻，生成所述删除提醒消息。

根据本公开实施例的第二方面，提供一种视频处理装置，包括：视频获取模块，被配置为执行获取待上传的视频；语音识别模块，被配置为执行对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段；图像识别模块，被配置为执行对所述所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段；以及消息生成模块，被配置为执行若所述视频中存在所述音频片段和/或所述视频片段，生成针对所述目标对象的删除提醒消息。

在本公开的一个实施例中，所述语音识别模块，包括：音频提取单元，被配置为执行从所述视频中提取音频数据；语音识别单元，被配置为执行对所述音频数据进行语音识别，以获取所述音频数据对应的识别文本；以及第一判断单元，被配置为执行根据所述识别文本和预先构建的文本库，判断所述视频中是否存在所述音频片段，其中，所述文本库包括至少一个目标对象的标准文本。

在本公开的一个实施例中，所述第一判断单元，包括：第一比较子单元，被配置为执行将所述识别文本与所述标准文本进行相似度比较，以获取所述识别文本与所述标准文本之间的第一相似度；以及第一判定子单元，被配置为执行若所述第一相似度大于或者等于第一相似度阈值，则判定所述视频中存在所述音频片段，其中，所述第一相似度大于或者等于所述第一相似度阈值的所述标准文本为所述音频片段中携带的所述文本信息。

在本公开的一个实施例中，所述第一判定子单元，被配置为执行：所述判定所述视频中存在所述音频片段之后，以所述识别文本中首字对应的第一音频时刻为所述音频片段的起点，以所述识别文本的尾字对应的第二音频时刻为所述音频片段的终点。

在本公开的一个实施例中，所述第一判定子单元，被配置为执行：所述判定所述视频中存在所述音频片段之后，根据所述音频片段的起点和所述音频片段的终点，确定所述视频中的候选视频片段，将所述候选视频片段作为所述视频片段。

在本公开的一个实施例中，所述图像识别模块，包括：图像提取单元，被配置为执行从所述视频中提取帧图像；以及第二判断单元，被配置为执行根据所述帧图像和预先构建的图标库，判断所述视频中是否存在所述视频片段，其中，所述图标库包括至少一个目标对象的标准图标。

在本公开的一个实施例中，所述第二判断单元，包括：第二比较子单元，被配置为执行将所述帧图像与所述标准图标进行相似度比较，以获取所述帧图像与所述标准图标之间的第二相似度；以及第二判定子单元，被配置为执行若所述第二相似度大于或者等于第二相似度阈值，则判定所述视频中存在所述视频片段，其中，所述第二相似度大于或者等于所述第一相似度阈值的所述标准图标为所述视频片段中携带的所述图标。

在本公开的一个实施例中，所述第二判定子单元，被配置为执行：所述判定所述视频中存在所述视频片段之后，获取连续携带所述标准图标的多帧图像，以其中的第一帧图像和最后一帧图像分别作为所述视频片段的起点和终点。

在本公开的一个实施例中，所述图像提取单元，被配置为执行：获取所述视频的设定提取位置，从所述设定提取位置中提取所述帧图像。

在本公开的一个实施例中，所述消息生成模块，包括：获取单元，被配置为执行获取所述音频片段的起始时刻和/或所述视频片段的起始时刻；以及消息生成单元，被配置为执行根据所述音频片段的起始时刻和/或所述视频片段的起始时刻，生成所述删除提醒消息。

根据本公开实施例的第三方面，提供一种服务器，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如前所述的视频处理方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如前所述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，该计算机程序由服务器的处理器执行时，使得服务器能够执行如前所述的页面加载方法。

本公开的实施例提供的技术方案至少带来以下有益效果：可对待上传视频进行语音识别和图像识别，以分别判断视频中是否存在携带目标对象的文本信息的音频片段、是否存在携带目标对象的图标的视频片段，若视频中存在音频片段和/或视频片段，则可生成针对目标对象的删除提醒消息，即能够自动识别出待上传视频中是否存在目标对象的宣传信息，并通知相关用户，在有效避免宣传目标对象的同时，也改善了视频的观看感受，相较于相关技术中依靠人工审核视频以及通知用户，具有效率高、节省人工成本的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的流程图。

图2是根据一示例性实施例示出的一种视频处理方法中对视频进行语音识别，判断视频中是否存在音频片段的流程图。

图3是根据一示例性实施例示出的一种视频处理方法中根据识别文本和预先构建的文本库，判断视频中是否存在音频片段的流程图。

图4是根据一示例性实施例示出的一种视频处理方法中对视频进行图像识别，判断视频中是否存在视频片段的流程图。

图5是根据一示例性实施例示出的一种视频处理方法中根据帧图像和预先构建的图标库，判断视频中是否存在视频片段的流程图。

图6是根据一示例性实施例示出的一种视频处理方法中生成针对目标对象的删除提醒消息的流程图。

图7是根据一示例性实施例示出的一种视频处理方法的场景示意图。

图8是根据一示例性实施例示出的一种视频处理装置框图。

图9是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种视频处理方法的流程图，如图1所示，该视频处理方法用于服务器中，包括以下步骤。

在步骤S101中，获取待上传的视频。

需要说明的是，本公开的视频处理方法的执行主体为服务器。本公开实施例的视频处理方法可以由本公开实施例的视频处理装置执行，本公开实施例的视频处理装置可以配置在任意服务器中，以执行本公开实施例的视频处理方法。

本公开的实施例中，待上传的视频包括但不限于用户已经提交至视频播放平台，且未上传成功的视频。其中，视频播放平台包括但不限于应用程序(Application，应用程序)、网页等。

在步骤S102中，对视频进行语音识别，以判断视频中是否存在携带目标对象的文本信息的音频片段。

在具体实施中，对视频进行语音识别，可包括采用语音识别算法对视频进行语音识别，语音识别算法可根据实际情况进行标定，并预先设置在服务器的存储空间中。

本公开的实施例中，目标对象一般为上述视频播放平台的竞品，可根据实际情况进行标定，例如，目标对象包括但不限于服务器对应的视频播放平台以外的其他视频播放平台，以及服务器对应的视频播放平台以外的其他音频播放平台，以及服务器对应的视频播放平台以外的其他直播平台，这里不做过多限定。

在具体实施中，文本信息包括但不限于目标对象的名称、宣传文案等信息。例如，若对视频进行语音识别，识别结果表明视频中存在携带目标对象的名称和/或宣传文案的音频片段，则可判断视频中存在携带目标对象的文本信息的音频片段。

在步骤S103中，对视频进行图像识别，以判断视频中是否存在携带目标对象的图标的视频片段。

在具体实施中，对视频进行图像识别，可包括采用图像识别算法对视频进行图像识别，图像识别算法可根据实际情况进行标定，并预先设置在服务器的存储空间中。

在具体实施中，图标(logo)包括但不限于目标对象的商标、宣传图片等。例如，若对视频进行图像识别，识别结果表明视频中存在携带目标对象的图标和/或宣传图片的视频片段，则可判断视频中存在携带目标对象的图标的视频片段。

作为另一种可能的实施方式，还可对视频进行图像识别，以判断视频中是否存在携带目标对象的文本信息的视频片段。例如，若对视频进行图像识别，识别结果表明视频中存在携带目标对象的名称和/或宣传文案的视频片段，则可判断视频中存在携带目标对象的文本信息的视频片段。

在步骤S104中，若视频中存在音频片段和/或视频片段，生成针对目标对象的删除提醒消息。

本公开的实施例中，若待上传视频中存在携带目标对象的文本信息的音频片段，和/或存在携带目标对象的图标的视频片段，表明视频中携带目标对象的宣传信息，若不对视频中上述音频片段和/或视频片段进行删除，则会带来宣传目标对象的效果，而且过多的宣传信息也会影响视频的观看感受，则可生成针对目标对象的删除提醒消息，以提醒待上传视频的用户对视频中存在的音频片段和/或视频片段进行删除处理。

作为另一种可能的实施方式，若视频中存在携带目标对象的图标的视频片段，还可生成针对目标对象的遮挡提醒消息，以提醒待上传视频的用户对视频中存在的视频片段进行遮挡处理。例如，可对视频片段中的目标对象的图标采用文字或者图片的形式进行遮挡处理。

在具体实施中，生成针对目标对象的删除提醒消息之后，可直接通过视频播放平台向待上传视频的用户发送提醒消息，也可通过与视频播放平台绑定的终端设备，向待上传视频的用户发送提醒消息。其中，终端设备可包括手机、平板电脑等。

本公开的实施例提供的视频处理方法，可对待上传视频进行语音识别和图像识别，以分别判断视频中是否存在携带目标对象的文本信息的音频片段、是否存在携带目标对象的图标的视频片段，若视频中存在音频片段和/或视频片段，则可生成针对目标对象的删除提醒消息，即能够自动识别出待上传视频中是否存在目标对象的宣传信息，并通知相关用户，在有效避免宣传目标对象的同时，也改善了视频的观看感受，相较于相关技术中依靠人工审核视频以及通知用户，具有效率高、节省人工成本的优点。

在上述实施例的基础上，步骤S102中对视频进行语音识别，以判断视频中是否存在携带目标对象的文本信息的音频片段，如图2所示，可包括：

在步骤S201中，从视频中提取音频数据。

在具体实施中，可将待上传视频导入到音频提取软件中，通过音频提取软件将视频中所包含的音频数据从视频中提取出来。

在步骤S202中，对音频数据进行语音识别，以获取音频数据对应的识别文本。

在具体实施中，可采用语音识别算法对音频数据进行语音识别，以获取音频数据对应的识别文本。

在步骤S203中，根据识别文本和预先构建的文本库，判断视频中是否存在音频片段，其中，文本库包括至少一个目标对象的标准文本。

本公开的实施例中，可在服务器中预先构建文本库，且文本库中包括至少一个目标对象的标准文本，标准文本包括但不限于目标对象的名称、宣传文案等信息。

由此，该方法可根据视频中的音频数据的识别文本和预先构建的文本库，判断视频中是否存在携带目标对象的文本信息的音频片段。

在上述实施例的基础上，步骤S203中根据识别文本和预先构建的文本库，判断视频中是否存在音频片段，如图3所示，可包括：

在步骤S301中，将识别文本与标准文本进行相似度比较，以获取识别文本与标准文本之间的第一相似度。

在具体实施中，可将识别文本与标准文本输入至相似度模型中，以获取识别文本与标准文本之间的第一相似度。其中，相似度模型可根据实际情况进行标定，并预先设置在服务器的存储空间中。

在步骤S302中，若第一相似度大于或者等于第一相似度阈值，则判定视频中存在音频片段，其中，第一相似度大于或者等于第一相似度阈值的标准文本为音频片段中携带的文本信息。

本公开的实施例中，若第一相似度大于或者等于第一相似度阈值，表明音频数据对应的识别文本与目标对象的标准文本的相似度较高，可判定视频中存在携带目标对象的文本信息的音频片段。其中，第一相似度阈值可根据实际情况进行标定，例如，可标定为70％，并可预先设置在服务器的存储空间中。

在具体实施中，目标对象可为多个，同一目标对象的标准文本也可为多个，则可将识别文本与多个标准文本分别进行相似度比较，以获取识别文本与任一标准文本之间的第一相似度。假设识别文本与标准文本B的第一相似度大于或者等于第一相似度阈值，标准文本B属于目标对象A，则表明识别文本与标准文本B的相似度较高，则可判定视频中存在携带目标对象A的文本信息的音频片段，且音频片段中携带的文本信息为标准文本B。

由此，该方法可在识别文本和标准文本之间的第一相似度大于或者等于第一相似度阈值时，判定视频中存在携带目标对象的文本信息的音频片段。

可选的，步骤S302中判定视频中存在音频片段之后，还包括以识别文本中首字对应的第一音频时刻为音频片段的起点，以识别文本的尾字对应的第二音频时刻为音频片段的终点。

在具体实施中，音频具有播放时间轴，音频按照时间轴进行播放，相应的识别文本中每个字都会对应音频时间轴上的音频时刻，该音频时刻实质上为该字对应的音频的播放时刻。本公开的实施例中，可以先获取识别文本中首字的第一音频时刻，然后再获取到尾字的第二音频时刻，然后将处于第一音频时刻和第二音频时间之间的音频片段作为识别文本对应的音频片段。

由此，该方法可根据识别文本中首字对应的第一音频时刻、尾字对应的第二音频时刻，准确定位视频中存在携带目标对象的文本信息的音频片段的起点和终点，进而便于用户对音频片段进行删除操作。

在上述任一实施例的基础上，步骤S302中判定视频中存在音频片段之后，还可根据音频片段的起点和音频片段的终点，确定视频中的候选视频片段，将候选视频片段作为视频片段。

可以理解的是，在携带目标对象的文本信息的音频片段所对应的视频片段内及其前后预设时长的视频片段内，有较大概率会携带目标对象的图标。也就是说，视频中存在音频片段时，视频中有较大概率存在视频片段，且视频片段可包括音频片段所在的视频片段和音频片段前后预设时长的视频片段。

可选的，根据音频片段的起点和音频片段的终点，确定视频中的候选视频片段，可包括将音频片段的起点之前预设第一时长的时刻作为候选视频片段的起点，将音频片段的终点之后预设第二时长的时刻作为候选视频片段的终点。其中，预设第一时长、预设第二时长均可根据实际情况进行标定，并预先设置在服务器的存储空间中。

由此，该方法在判定视频中存在音频片段之后，还可判定视频中存在视频片段，且可根据音频片段的起点和终点确定视频片段。

在上述任一实施例的基础上，步骤S103中对视频进行图像识别，以判断视频中是否存在携带目标对象的图标的视频片段，如图4所示，可包括：

在步骤S401中，从视频中提取帧图像。

在具体实施中，可采用图像识别算法从视频中提取帧图像。在步骤S402中，根据帧图像和预先构建的图标库，判断视频中是否存在视频片段，其中，图标库包括至少一个目标对象的标准图标。

本公开的实施例中，可在服务器中预先构建图标库，且图标库中包括至少一个目标对象的标准图标，标准图标包括但不限于目标对象的商标、宣传图片等信息。

由此，该方法可根据视频中的帧图像和预先构建的图标库，判断视频中是否存在携带目标对象的图标的视频片段。

在上述任一实施例的基础上，步骤S401中从视频中提取帧图像，可包括获取视频的设定提取位置，从设定提取位置中提取帧图像。

可选的，用户可自行设置设定提取位置。

本公开的实施例中，获取视频的设定提取位置，从设定提取位置中提取帧图像，可包括如下两种可能的实施方式：

方式1、设定提取位置为视频的某个显示区域。

可以理解的是，目标对象的图标有较大概率显示在视频的某些特定显示区域上，例如，目标对象的图标往往显示在视频左上角或右上角的显示区域上。

在具体实施中，用户可自行设置设定提取的某个显示区域，例如，用户可将视频划分成多个显示区域，从多个显示区域中选取一个或者多个显示区域，作为设定提取的显示区域。

在具体实施中，服务器可自动获取预设的默认设定提取的某个显示区域，例如，默认设定提取的某个显示区域可为视频右上角且面积为m的显示区域。其中，m可根据实际情况进行标定，例如，m可标定为5％的视频的总显示区域的面积。

由此，该方法可在视频的某个显示区域中提取帧图像，有效降低了服务器的运算量。

方式2、设定提取位置为视频的某个视频片段。

可以理解的是，目标对象的图标有较大概率显示在视频的某些视频片段上，例如，目标对象的图标往往显示在视频的开头片段或者结尾片段。

在具体实施中，用户可自行设置设定提取的某个视频片段的起点和/或终点，例如，用户可采用点击或者拖动视频对应的进度条的方式，确定设定提取的某个视频片段的起点和/或终点。

在具体实施中，服务器可自动获取预设的默认设定提取的某个视频片段，例如，默认设定提取的某个视频片段可为视频最后n时长对应的视频片段。其中，n可根据实际情况进行标定，例如，n可标定为20％的视频总时长。

由此，该方法可在视频的某个视频片段中提取帧图像，有效降低了服务器的运算量。

在上述实施例的基础上，步骤S402中根据帧图像和预先构建的图标库，判断视频中是否存在视频片段，如图5所示，可包括：

在步骤S501中，将帧图像与标准图标进行相似度比较，以获取帧图像与标准图标之间的第二相似度。

在具体实施中，可将帧图像与标准图标输入至相似度模型中，以获取帧图像与标准图标之间的第二相似度，或者可采用直方图(Histogram)方法、余弦相似度方法、互信息(Mutual Information)方法中的其中一个来获取帧图像与标准图标之间的第二相似度。

在步骤S502中，若第二相似度大于或者等于第二相似度阈值，则判定视频中存在视频片段，其中，第二相似度大于或者等于第一相似度阈值的标准图标为视频片段中携带的图标。

本公开的实施例中，若第二相似度大于或者等于第二相似度阈值，表明视频对应的帧图像与目标对象的标准图标的相似度较高，可判定视频中存在携带目标对象的图标的视频片段。其中，第二相似度阈值可根据实际情况进行标定，例如，可标定为80％，并可预先设置在服务器的存储空间中。

在具体实施中，目标对象可为多个，同一目标对象的标准图标也可为多个，则可将帧图像与多个标准图标分别进行相似度比较，以获取帧图像与任一标准图标之间的第二相似度。假设帧图像与标准图标D的第二相似度大于或者等于第二相似度阈值，标准图标D属于目标对象C，则表明帧图像与标准图标D的相似度较高，则可判定视频中存在携带目标对象C的图标的视频片段，且视频片段中携带的图标为标准图标D。

由此，该方法可在帧图像和标准图标之间的第二相似度大于或者等于第二相似度阈值时，判定视频中存在携带目标对象的图标的视频片段。

可选的，步骤S502中判定视频中存在视频片段之后，还包括获取连续携带标准图标的多帧图像，以其中的第一帧图像和最后一帧图像分别作为视频片段的起点和终点。

在具体实施中，连续携带标准图标的多帧图像中的第一帧图像、最后一帧图像均可通过图像识别算法来获取。

由此，该方法可根据连续携带标准图标的多帧图像中的第一帧图像、最后一帧图像，准确定位视频中存在携带目标对象的图标的视频片段的起点和终点，进而便于用户对视频片段进行删除操作。

在上述任一实施例的基础上，步骤S104中生成针对目标对象的删除提醒消息，如图6所示，可包括：

在步骤S601中，获取音频片段的起始时刻和/或视频片段的起始时刻。

在具体实施中，可获取识别文本中首字对应的第一音频时刻，将其作为音频片段的起始时刻，还可获取连续携带标准图标的多帧图像中的第一帧图像对应的时刻，将其作为视频片段的起始时刻。

在步骤S602中，根据音频片段的起始时刻和/或视频片段的起始时刻，生成删除提醒消息。

本公开的实施例中，根据音频片段的起始时刻和/或视频片段的起始时刻，生成删除提醒消息，可包括如下三种可能的实施方式。

方式1、若音频片段和视频片段存在重合片段，则可获取重合片段的起始时刻和结束时刻，并根据重合片段的起始时刻和结束时刻，生成删除提醒消息。

本公开的实施例中，音频片段和视频片段存在重合片段，可包括音频片段的起始时刻处于视频片段的起始时刻和结束时刻之间的时刻的情况，或者视频片段的起始时刻处于音频片段的起始时刻和结束时刻之间的时刻的情况。其中，可获取识别文本中尾字对应的第二音频时刻，将其作为音频片段的结束时刻，还可获取连续携带标准图标的多帧图像中的最后一帧图像对应的时刻，将其作为视频片段的结束时刻。

由此，该方法在音频片段和视频片段存在重合片段时，可根据重合片段的起始时刻和结束时刻，生成删除提醒消息，以提醒待上传视频的用户对视频中存在的重合片段进行删除处理。

方式2、若音频片段和视频片段存在重合片段，则可获取音频片段的起始时刻和结束时刻，以及视频片段的起始时刻和结束时刻之中的最小值和最大值，并根据时刻的最小值和最大值，生成删除提醒消息。

由此，该方法在音频片段和视频片段存在重合片段时，可根据音频片段的起始时刻和结束时刻，以及视频片段的起始时刻和结束时刻之中的最小值和最大值，生成删除提醒消息，以提醒待上传视频的用户对视频中存在的音频片段和视频片段均进行删除处理。

方式3、若音频片段和视频片段不存在重合片段，则可获取音频片段的起始时刻和结束时刻，生成第一删除提醒消息，还可获取视频片段的起始时刻和结束时刻，生成第二删除提醒消息。

由此，该方法在音频片段和视频片段不存在重合片段时，可分别根据音频片段的起始时刻和结束时刻、视频片段的起始时刻和结束时刻，生成删除提醒消息，以提醒待上传视频的用户对视频中存在的音频片段和视频片段均进行删除处理。

本公开的实施例中，如图7所示，用户可将待上传视频通过终端设备发送到视频播放平台对应的服务器上，服务器可对视频进行语音识别和图像识别，还可通过数据库中的文本库和图标库，来获取目标对象的标准文本和标准图标，之后可根据视频的语音识别结果和标准文本，判断视频中是否存在携带目标对象的文本信息的音频片段，还可根据视频的图像识别结果和标准图标，判断视频中是否存在携带目标对象的图标的视频片段，若视频中存在上述音频片段和/或视频片段，则生成针对目标对象的删除提醒消息，并将删除提醒消息反馈给终端设备，以提醒用户对视频中存在的音频片段和/或视频片段进行删除处理。

图8是根据一示例性实施例示出的一种视频处理装置框图。参照图8，该装置700包括视频获取模块71、语音识别模块72、图像识别模块73和消息生成模块74。

视频获取模块71被配置为执行获取待上传的视频。

语音识别模块72被配置为执行对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段。

图像识别模块73被配置为执行对所述所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段。

消息生成模块74被配置为执行若所述视频中存在所述音频片段和/或所述视频片段，生成针对所述目标对象的删除提醒消息。

在本公开的一个实施例中，所述语音识别模块72包括音频提取单元，被配置为执行从所述视频中提取音频数据；语音识别单元，被配置为执行对所述音频数据进行语音识别，以获取所述音频数据对应的识别文本；以及第一判断单元，被配置为执行根据所述识别文本和预先构建的文本库，判断所述视频中是否存在所述音频片段，其中，所述文本库包括至少一个目标对象的标准文本。

在本公开的一个实施例中，所述第一判断单元包括第一比较子单元，被配置为执行将所述识别文本与所述标准文本进行相似度比较，以获取所述识别文本与所述标准文本之间的第一相似度；以及第一判定子单元，被配置为执行若所述第一相似度大于或者等于第一相似度阈值，则判定所述视频中存在所述音频片段，其中，所述第一相似度大于或者等于所述第一相似度阈值的所述标准文本为所述音频片段中携带的所述文本信息。

在本公开的一个实施例中，所述第一判定子单元被配置为执行所述判定所述视频中存在所述音频片段之后，以所述识别文本中首字对应的第一音频时刻为所述音频片段的起点，以所述识别文本的尾字对应的第二音频时刻为所述音频片段的终点。

在本公开的一个实施例中，所述第一判定子单元被配置为执行所述判定所述视频中存在所述音频片段之后，根据所述音频片段的起点和所述音频片段的终点，确定所述视频中的候选视频片段，将所述候选视频片段作为所述视频片段。

在本公开的一个实施例中，所述图像识别模块73包括图像提取单元，被配置为执行从所述视频中提取帧图像；以及第二判断单元，被配置为执行根据所述帧图像和预先构建的图标库，判断所述视频中是否存在所述视频片段，其中，所述图标库包括至少一个目标对象的标准图标。

在本公开的一个实施例中，所述第二判断单元包括第二比较子单元，被配置为执行将所述帧图像与所述标准图标进行相似度比较，以获取所述帧图像与所述标准图标之间的第二相似度；以及第二判定子单元，被配置为执行若所述第二相似度大于或者等于第二相似度阈值，则判定所述视频中存在所述视频片段，其中，所述第二相似度大于或者等于所述第一相似度阈值的所述标准图标为所述视频片段中携带的所述图标。

在本公开的一个实施例中，所述第二判定子单元被配置为执行所述判定所述视频中存在所述视频片段之后，获取连续携带所述标准图标的多帧图像，以其中的第一帧图像和最后一帧图像分别作为所述视频片段的起点和终点。

在本公开的一个实施例中，所述图像提取单元被配置为执行获取所述视频的设定提取位置，从所述设定提取位置中提取所述帧图像。

在本公开的一个实施例中，所述消息生成模块74包括获取单元，被配置为执行获取所述音频片段的起始时刻和/或所述视频片段的起始时刻；以及消息生成单元，被配置为执行根据所述音频片段的起始时刻和/或所述视频片段的起始时刻，生成所述删除提醒消息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开的实施例提供的视频处理装置，可对待上传视频进行语音识别和图像识别，以分别判断视频中是否存在携带目标对象的文本信息的音频片段、是否存在携带目标对象的图标的视频片段，若视频中存在音频片段和/或视频片段，则可生成针对目标对象的删除提醒消息，即能够自动识别出待上传视频中是否存在目标对象的宣传信息，并通知相关用户，在有效避免宣传目标对象的同时，也改善了视频的观看感受，相较于相关技术中依靠人工审核视频以及通知用户，具有效率高、节省人工成本的优点。

图9是根据一示例性实施例示出的一种用于视频处理的服务器800的框图。

如图9所示，上述服务器800包括：

存储器810及处理器820，连接不同组件(包括存储器810和处理器820)的总线830，存储器810存储有计算机程序，当处理器820执行所述程序时实现本公开实施例所述的视频处理方法。

总线830表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器800典型地包括多种电子设备可读介质。这些介质可以是任何能够被服务器800访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器810还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)840和/或高速缓存存储器850。服务器800可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统860可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线830相连。存储器810可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块870的程序/实用工具880，可以存储在例如存储器810中，这样的程序模块870包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块870通常执行本公开所描述的实施例中的功能和/或方法。

服务器800也可以与一个或多个外部设备890(例如键盘、指向设备、显示器891等)通信，还可与一个或者多个使得用户能与该服务器800交互的设备通信，和/或与使得该服务器800能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口892进行。并且，服务器800还可以通过网络适配器893与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图9所示，网络适配器893通过总线830与服务器800的其它模块通信。应当明白，尽管图中未示出，可以结合服务器800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器820通过运行存储在存储器810中的程序，从而执行各种功能应用以及数据处理。

需要说明的是，本实施例的服务器的实施过程和技术原理参见前述对本公开实施例的视频处理方法的解释说明，此处不再赘述。

本公开实施例提供的服务器，可以执行如前所述的视频处理方法，可对待上传视频进行语音识别和图像识别，以分别判断视频中是否存在携带目标对象的文本信息的音频片段、是否存在携带目标对象的图标的视频片段，若视频中存在音频片段和/或视频片段，则可生成针对目标对象的删除提醒消息，即能够自动识别出待上传视频中是否存在目标对象的宣传信息，并通知相关用户，在有效避免宣传目标对象的同时，也改善了视频的观看感受，相较于相关技术中依靠人工审核视频以及通知用户，具有效率高、节省人工成本的优点。

为了实现上述实施例，本公开还提出一种存储介质。

其中，该存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如前所述的视频处理方法。

为了实现上述实施例，本公开还提供一种计算机程序产品，该计算机程序由服务器的处理器执行时，使得服务器能够执行如前所述的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取待上传的视频；

对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段；

对所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段；以及

若所述视频中存在所述音频片段和/或所述视频片段，生成针对所述目标对象的删除提醒消息。

2.根据权利要求1所述的视频处理方法，其特征在于，所述对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段，包括：

从所述视频中提取音频数据；

对所述音频数据进行语音识别，以获取所述音频数据对应的识别文本；以及

根据所述识别文本和预先构建的文本库，判断所述视频中是否存在所述音频片段，其中，所述文本库包括至少一个目标对象的标准文本。

3.根据权利要求2所述的视频处理方法，其特征在于，所述根据所述识别文本和预先构建的文本库，判断所述视频中是否存在所述音频片段，包括：

将所述识别文本与所述标准文本进行相似度比较，以获取所述识别文本与所述标准文本之间的第一相似度；以及

若所述第一相似度大于或者等于第一相似度阈值，则判定所述视频中存在所述音频片段，其中，所述第一相似度大于或者等于所述第一相似度阈值的所述标准文本为所述音频片段中携带的所述文本信息。

4.根据权利要求3所示的视频处理方法，其特征在于，所述判定所述视频中存在所述音频片段之后，还包括：

以所述识别文本中首字对应的第一音频时刻为所述音频片段的起点，以所述识别文本的尾字对应的第二音频时刻为所述音频片段的终点。

5.根据权利要求3或4所述的视频处理方法，其特征在于，所述判定所述视频中存在所述音频片段之后，还包括：

根据所述音频片段的起点和所述音频片段的终点，确定所述视频中的候选视频片段，将所述候选视频片段作为所述视频片段。

6.根据权利要求1-4任一项所述的视频处理方法，其特征在于，所述对所述所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段，包括：

从所述视频中提取帧图像；以及

根据所述帧图像和预先构建的图标库，判断所述视频中是否存在所述视频片段，其中，所述图标库包括至少一个目标对象的标准图标。

7.一种视频处理装置，其特征在于，包括：

视频获取模块，被配置为执行获取待上传的视频；

语音识别模块，被配置为执行对所述视频进行语音识别，以判断所述视频中是否存在携带目标对象的文本信息的音频片段；

图像识别模块，被配置为执行对所述所述视频进行图像识别，以判断所述视频中是否存在携带目标对象的图标的视频片段；以及

消息生成模块，被配置为执行若所述视频中存在所述音频片段和/或所述视频片段，生成针对所述目标对象的删除提醒消息。

8.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的视频处理方法。

9.一种存储介质，当所述存储介质中的指令服务器的处理器执行时，使得服务器能够执行如权利要求1至6中任一项所述的视频处理方法。

10.一种计算机程序产品，该计算机程序由服务器的处理器执行时，使得服务器能够执行如权利要求1至6中任一项所述的视频处理方法。