CN110990632B

CN110990632B - 一种视频处理方法及装置

Info

Publication number: CN110990632B
Application number: CN201911315628.XA
Authority: CN
Inventors: 李振阳; 李超; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-05-02
Anticipated expiration: 2039-12-19
Also published as: CN110990632A

Abstract

本申请实施例提供了一种视频处理方法及装置，在该视频处理方法中，首先分别获取视频文本内容对应的第一拼音和视频标题对应的第二拼音；然后使用训练后的第一神经网络模型，分别得到第一拼音对应的第一拼音词向量、以及第二拼音对应的第二拼音词向量；接着使用训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果；最后根据第一拼音词向量与第二拼音词向量的相关性结果，输出视频是否铺垫过长的处理结果。该方法通过将视频的文本内容和标题转换为拼音，利用拼音对应的词向量进行后续视频是否铺垫过长的识别，弥补了语音转换为汉字时出现同音不同字，音节断句不当的缺陷，提高了视频是否铺垫过长识别的准确性。

Description

一种视频处理方法及装置

技术领域

本申请涉及通讯技术领域，具体涉及一种视频处理方法及装置。

背景技术

视频作为当下信息流的主要产品线之一，成为用户获取信息、娱乐等重要方式之一。而视频铺垫过长会影响用户体验，能否有效识别视频是否为铺垫过长，能够帮助更好的制定推荐策略。

识别视频铺垫过长的关键点是判断视频前部分的内容的语音讲述是否和标题内容相关，现有的技术方案主要是将语音转换为对应的汉字表示，然后通过文本匹配技术对铺垫是否过长进行判断。

然而，在语音识别任务中会出现同音不同字，音节断句不当，导致语音转汉字出的文本可读性较差的情况，无法准确地获得文本上下文之间的语义信息，造成视频是否铺垫过长的判断失误。

发明内容

有鉴于此，本申请实施例提供了一种视频处理方法及装置，以缓解当前判断视频是否铺垫过长技术中存在判断失误的技术问题。

本申请实施例提供一种视频处理方法，其包括：

获取视频文本内容对应的第一拼音；

获取视频标题对应的第二拼音；

使用训练后的第一神经网络模型，分别得到第一拼音对应的第一拼音词向量、以及第二拼音对应的第二拼音词向量；

使用训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果；

根据第一拼音词向量与第二拼音词向量的相关性结果，输出视频是否铺垫过长的处理结果。

本申请实施例提供一种视频处理装置，其包括：

第一获取模块，用于获取视频文本内容对应的第一拼音；

第二获取模块，用于获取视频标题对应的第二拼音；

第一处理模块，包括训练后的第一神经网络模型，第一神经网络模型用于将第一拼音转换为对应的第一拼音词向量，将第二拼音转换为对应的第二拼音向量；

第二处理模块，包括训练后的第二神经网络模型，第二神经网络模型用于判定第一拼音向量和第二拼音向量的相关性；

输出模块，用于根据第一拼音向量和第二拼音向量的相关性结果，输出视频是否铺垫过长的处理结果。

本申请实施例提供一种服务器，其包括处理器和存储器，存储器存储有多条指令，指令适于处理器进行加载，以执行上述视频处理方法中的步骤。

本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行上述视频处理方法中的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频处理方法的系统架构示意图。

图2是本申请实施例提供的视频处理方法的流程图。

图3是本申请实施例提供的视频处理方法的第一种流程示意图。

图4是本申请实施例提供的视频处理方法的第二种流程示意图。

图5是本申请实施例提供的视频处理方法的第三种流程示意图。

图6是本申请实施例提供的视频处理方法的第四种流程示意图。

图7是本申请实施例提供的视频处理方法的第五种流程示意图。

图8是本申请实施例提供的视频处理方法的第六种流程示意图。

图9是本申请实施例提供的视频处理方法的第七种流程示意图。

图10是本申请实施例提供的视频处理装置的结构框图。

图11是本申请实施例提供的视频处理方法的第八种流程示意图。

图12是本申请实施例提供的视频处理方法的第九种流程示意图。

图13是本申请实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先对本申请实施例中所涉及的相关术语做以下解释说明：

视频：本申请所述的视频为时长在5分钟之内的短视频。

视频的文本内容：本申请所述的视频的文本内容，是指视频的内容中包含的文字内容或由视频的音频内容转换来的文字内容。

容忍度：对于一个视频，用户可以接受的该视频的铺垫时长。

爽点：视频中能引起用户兴趣的内容。

时长节点：本申请中的时长节点特指截取文本内容时的截点。

拼音：本申请中所述的拼音为声母和韵母组成的拼音结构，不包括声调。

拼音词向量：本申请中所述的拼音词向量为本申请中拼音对应的向量表示。

视频库：指存储在视频数据的存储结构，在视频库内存储有视频对应的所有音频、画面等各种数据信息。

训练样本：本申请所述的训练样本指用于训练本申请的神经网络模型的样本集群。

神经网络模型：是由大量的、简单的处理单元互相连接形成的复杂网络系统，神经网络模型通过模拟人脑神经网络形成以处理单元构成的数学模型，具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，适用于需要考虑多种因素和条件的、不精确和模糊的信息处理问题，且在神经网络模型的形成过程中，会对神经网络模型进行训练，在训练过程中对神经网络模型中的数据或者参数进行调整，使得神经网络模型在进行工作时，较为准确的得到结果。

CBOW(Continuous Bag-of-Words，连续词袋)模型：通过输入特征词周围词的词向量，最终输出该特征词的词向量。在本申请中，训练后的CBOW可用于获取第一拼音词向量和第二拼音词向量。

TextCNN(Convolutional Neural Networks for Sentence Classification，文本卷积神经网络)模型：卷积神经网络是一种特殊的深层的神经网络模型，包括多个层，每层由多个二维平面组成，而每个平面由多个独立神经元组成。神经元间的连接是非全连接，同一层中某些神经元之间的连接的权重是共享的，神经元的非全连接和权值共享的网络结构使之更类似于生物神经网络。TextCNN是一种文本分类模型，通过训练可以实现本申请所述的第一拼音向量和第二拼音向量的相关性鉴定。

参照图1，其示出了本申请实施例提供的视频处理方法的系统架构示意图，该系统包括若干终端110和服务器120，终端110和服务器120通过有线或无线网络建立通信连接。

终端110可以是任何一种能够实现智能输入输出的电子设备，包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑等；用户可以通过终端110上传视频内容，也可以通过终端110获取视频内容。

服务器120是对终端110进行管理的服务设备，可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。服务器120用于对终端110上传的视频内容进行铺垫是否过长的识别，得到视频是否铺垫过长的处理结果后，再将处理结果发送给终端110。

当用户通过终端110上传视频内容时，服务器120获取相关视频内容，并对该视频进行是否铺垫过长的识别，做出该视频是否铺垫过长的处理结果，然后将该处理结果存储在该视频的数据库内；当用户通过终端110请求获取该视频内容时，服务器120向该用户所在的终端110发送视频内容、以及该视频是否铺垫过长的处理结果。

当用户通过终端110请求获取视频内容时，服务器120从数据库内提取该视频的相关数据，并对该视频进行铺垫是否过长的识别，做出该视频是否铺垫过长的处理结果，然后向该用户所在的终端110发送该视频内容、以及该视频是否铺垫过长的处理结果。

需要说明，对于上述系统架构的组成，并不局限于上文给出的组成部分，根据需要，还可以包括数据存储设备等，本申请在此不再一一详述。

参照图2，图2为本申请实施例提供的视频处理方法的流程图。由图2可知，用户通过视频的标题来确认该视频是否具有自己感兴趣的点(爽点)，之后进入视频内容，寻找自己的爽点，如果视频铺垫过长，用户需要花费较长的时间才能找到自己的爽点，爽点之前的铺垫时间会消耗用户的耐心，容易引起用户的厌烦；如果视频未铺垫过长，则用户只用等待较短的时间就可以找到自己的爽点，这种无需长久等待就能找到爽点的体验会让用户很容易接受。

用户在使用视频产品时，因其性格不同、所在环境不同、使用的视频产品种类不同等，对于视频的铺垫长短容忍度各不相同。能否有效识别视频是否为铺垫过长，能够帮助更好的制定视频推荐策略。本申请提供一种视频处理方法，该视频处理方法可以更准确的识别视频是否铺垫过长，从而为视频添加一个关于视频是否铺垫过长的有效的标签，为用户使用视频做出更好的推荐。

本申请提供一种视频处理方法，以进行上述流程中的寻找爽点，识别视频是否铺垫过长。下面结合附图，对本申请的一些实施方式作详细说明。

请参阅图3，图3为本申请实施例提供的视频处理方法的第一种流程示意图。该视频处理方法具体包括步骤S310至步骤S350：

S310、获取视频文本内容对应的第一拼音。

S320、获取视频标题对应的第二拼音；

S330、使用训练后的第一神经网络模型，分别得到第一拼音对应的第一拼音词向量、以及第二拼音对应的第二拼音词向量；

S340、使用训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果；

S350、根据第一拼音词向量与第二拼音词向量的相关性结果，输出视频是否铺垫过长的处理结果。

请参照图4，步骤S310获取视频文本内容对应的第一拼音的步骤包括：

S311、获取视频的文本内容；

S312、将文本内容转换为对应的第一拼音。

其中，对视频文本内容的获取，可以是对视频文本内容的部分获取，也可以是对视频文本内容的整体获取，可以根据视频是否铺垫过长的具体识别方法，进行具体的获取操作。

在一种实施例中，请参阅图5，步骤S311获取视频文本内容的步骤包括：

S3111、根据视频文本内容的整体时长，确定需要获取的视频时长。

在一方面，用户在使用视频产品时，由于其性格、所处的环境等的不同，对于视频铺垫长短的容忍度各不相同。对于不同时长的视频，同一用户对其铺垫过长的容忍度是不同的，比如对于时长为3分钟的视频，铺垫时长为1分钟时，用户就会感觉该视频铺垫过长；而对于时长为5分钟的视频，当铺垫时长为1分钟时，用户不会感觉该视频铺垫过长，但当铺垫时长为2分钟时，用户就会感觉该视频铺垫过长。对于同一视频，不同的用户对其铺垫过长的容忍度也是不同的，比如对于时长为5分钟的视频，当铺垫时长为2分钟时，一部分用户就会感觉该视频铺垫过长，而另一部分用户不会感觉该视频铺垫过长。

在另一方面，视频的种类和性质不同，也会影响用户对该视频铺垫长短的容忍度。比如，对于搞笑类视频，用户对其期待为尽快找到自己的爽点，获取笑料，因此对于该类视频，用户对其视频铺垫过长的容忍度较低；例如一段时长为5分钟的搞笑视频，10秒钟后还未进入搞笑阶段，用户的就会感受到该视频铺垫过长。而对于教育类、科普类视频，用户对其期待为完整详尽地讲述知识点和科学内容，因此对于该类视频，用户对其视频铺垫过长的容忍度较高；例如一段时长为5分钟的教育类视频，前4分钟均在讲述基础知识点，后1分钟才由该基础知识点引导出核心知识点，用户也不会感受到该视频铺垫过长。因此，在确定需要获取的视频时长时，需要根据用户对于视频铺垫时长的容忍度，把握好所获取的视频时长。

在一种实施方案中，无论视频内容的整体时长为多少，统一视频整体时长的固定百分比为需要获取的视频时长。该固定百分比可以根据具体的用户的容忍度进行确定，比如，用户对于视频铺垫过长的平均容忍度为，铺垫时长不超过整个视频时长的30％，则该固定百分比为30％。又比如，当该视频服务的主要用户群体为时间充裕的退休老人时，该用户群体对于视频铺垫过长的容忍度较高，则可以将该固定百分比设置的相对较大，如40％；当该视频服务的主要用户群体为时间紧凑的办公人员时，该用户群体对于视频铺垫过长的容忍度较低，则应当将该固定百分比设置的相对较小，如10％。再比如，当使用该视频的用户的性格为急躁型时，该用户对于视频铺垫过长的容忍度较低，应当将该固定百分比设置的相对较小，如10％；当使用该视频的用户的性格为温和缓慢型时，该用户对于视频铺垫过长的容忍度较高，可以将该固定百分比设置的相对较大，如40％。还比如，当该视频为搞笑类视频时，用户对于该类视频铺垫过长的容忍度较低，应当将该固定百分比设置的相对较小，如10％；当该视频为教育类视频时，用户对于该类视频铺垫过长的容忍度较高，可以将该固定百分比设置的相对较大，如40％。还可以根据其他具体情况对该固定百分比进行具体设置，不限于上述几种情况，上述固定百分比也只是用于举例说明，不作为限定。

在另一种实施方案中，根据视频内容的整体时长，确定视频的定值时长为需要获取的视频时长。比如，对于整体时长在1分钟以内的视频，其定值时长设置为10秒，即短视频前10秒的视频时长为需要获取的视频时长；对于整体时长为1-3分钟的视频，其定值时长设置为30秒，即视频前30秒的视频时长为需要获取的时长；对于整体时长为3-5分钟的视频，其定值时长设置为1分钟，即视频前1分钟的视频时长为需要获取的视频时长。上述设定均为举例说明，不是限定，定值时长的具体确定，可以根据视频文本内容的具体时长进行设置，也可以如上述实施方案，结合该视频的用户群体、使用环境、用户性格、以及视频种类等，进行综合设置。

比如，对于时长为5分钟的同一视频，当该视频服务的主要用户群体为时间充裕的退休老人时，该用户群体对于视频铺垫过长的容忍度较高，则可以将该定值时长设置的相对较大，如将其设置为2分钟；当该视频服务的主要用户群体为时间紧凑的办公人员时，该用户群体对于视频铺垫过长的容忍度较低，则应当将该定值时长设置的相对较小，如将其设置为30秒。又比如，对于时长为5分钟的同一视频，当使用该视频的用户的性格为急躁型时，该用户对于视频铺垫过长的容忍度较低，应当将该定值时长设置的相对较小，如将其设置为30秒；当使用该视频的用户的性格为温和缓慢型时，该用户对于视频铺垫过长的容忍度较高，可以将该定值时长设置的相对较大，如将其设置为2分钟。还比如，对于时长均为5分钟的视频，当该视频为搞笑类视频时，用户对于该类视频铺垫过长的容忍度较低，应当将该定值时长设置的相对较小，如将其设置为30秒；当该视频为教育类视频时，用户对于该类视频铺垫过长的容忍度较高，可以将该定值时长设置的相对较大，如将其设置为2分钟。

至此，完成了步骤S3111根据视频文本内容的整体时长，确定需要获取的视频时长的步骤，接下来进行后续步骤S3112的处理操作。

S3112、根据需要获取的视频时长，截取从视频开头开始、所述视频时长内的视频文本内容。

在一种实施例中，当视频内容包括字幕时，根据需要获取的视频时长，截取对应时长的视频文本内容具体为，截取对应时长的视频，直接获取该时长视频的字幕，并将字幕作为文本内容；或者为，直接获取整个视频的字幕，截取该对应时长视频的字幕，并将截取的字幕作为文本内容。

在另一种实施例中，当视频内容不包括字幕时，根据需要获取的视频时长，截取对应时长的视频文本内容的步骤为：获取视频的音频内容，将音频内容转换为相对应的文本内容。具体的，截取对应时长的视频，获取该对应时长视频的音频内容，并将该音频内容转换为文本内容；或者获取整个视频的音频内容，并将该音频内容转换为文本内容，再截取对应时长视频内的文本内容。

需要注意的是，由于分词断句的影响，对整个视频的字幕或转换来的文本内容进行截取时，对应时长节点位置处的文本内容一般并不完整，比如整个视频的文本内容为“……。服务器的作用是进行数据处理，……”，步骤S3111确定的需要获取的视频时长对应的节点位置为“作”，即需要获取的视频文本内容为“……。服务器的作”，节点位置处的强制截断，使得获取的视频文本内容中，位于该节点位置处的文字出现信息失联的问题，即该处的“作”与上下文信息均不相关联，无法与“服务器的”结合起来表述出确定的含义，极可能成为无效文本。为了避免上述强制截断的影响，在获取对应时长的视频文本内容时，根据位置节点处的上下文信息，对节点位置进行适当的调整。

在一种实施例中，根据词组的完整性表述，对节点位置进行适当的调整。即将节点位置向前或向后移动，使得节点位置的文本与位于该文本之前的文本组合成完整的词语。如在上述举例中，根据节点位置文本“作”的上文信息“……。服务器的”、以及下文信息“用是进行数据处理，……”，考虑词组的完整性表述，“作”和下文中的“用”组成完成的词组“作用”，因此可以将节点位置向后移动一个文字，即将节点位置设置在“用”，调整后的节点位置的文本“用”与上文中的文本“作”组成完整的词语“作用”，“作用”具有完整的表述含义，且与上文中的“服务器的”相关联，表达为“服务器的作用”这一确定含义，避免了强制截断，节点位置文本无效的问题。

在另一种实施例中，根据句子的完整性表述，对节点位置进行适当的调整。即将节点位置向前或向后移动，使得节点位置刚好位于句子的标点符号处，该标点符号可以是句号、问好、逗号、冒号、分号等标点符号中的任意一种或多种。如在上述举例中，根据节点位置文本“作”的上文信息“……。服务器的”、以及下文信息“用是进行数据处理，……”，考虑句子的完整性表述，可以将节点位置向前移至句号处，也可以将节点位置后移至逗号处，进行节点位置调整后的待获取视频文本内容，节点位置处的文本为句末文本，节点位置的文本及其之前的文本语义表述完整，同样避免了强制截断，节点位置文本无效的问题。

至此，完成了本实施例提供的步骤S311获取视频文本内容的步骤，接下来进行后续步骤S312的处理操作。

在另一种实施例中，步骤S311获取视频文本内容的步骤包括：

获取整个视频的文本内容；当视频内容包括字幕时，直接获取整个视频的字幕，并将字幕作为文本内容；当视频内容不包括字幕时，获取视频的音频内容，将音频内容转换为相对应的文本内容。

定位每一文本内容在视频中的时间位置。

在一种实施例中，步骤S312将文本内容转换为对应的第一拼音，具体为通过汉字译拼音的方式，将步骤S311中获取的文本内容转换为相对应的第一拼音。在本发明实施例中，第一拼音仅由声母和韵母构成，不包括音调。

请参阅图6，步骤S320获取视频标题对应的第二拼音的步骤包括：

S321、获取视频的标题；

S322、将标题转换为对应的第二拼音。

在一种实施例中，当视频有标题时，步骤S321获取视频的标题为直接获取。

在另一种实施例中，当视频没有标题时，步骤S321获取视频的标题为，提取视频文本内容的关键词或关键句，将该关键词或关键句作为视频的标题。

视频文本内容关键词或关键句的提取具体包括：获取整个视频的文本内容；对该文本内容进行关键词或关键句的提取。

在一种实施例中，当视频内容包括字幕时，获取整个视频的文本内容为，直接获取整个视频的字幕。

在另一种实施例中，当视频内容不包括字幕时，获取整个视频的文本内容的步骤包括：获取整个视频的音频内容；将音频内容转换为相对应的文本内容。

在一种实施例中，对文本内容进行关键词的提取的步骤包括：对文本内容进行分词处理，得到多个候选词；将多个候选词依次输入关键词提取模型，得到各个候选词相对于各个字符的注意力权重，注意力权重用于表征每个候选词分别与各个字符的语义关联程度；对于每个选择出的候选词，根据该候选词相对于各个字符的注意力权重，确定该候选词对应的权重；根据各个选择出的候选词对应的权重，确定出关键词的提取条件；根据关键词的提取条件，从各个候选词中确定出文本内容的关键词。

在另一种实施例中，对文本内容进行关键句的提取的步骤包括：对文本内容进行分句处理，得到按序排列的分句；从按序排列的分句中选择分句作为候选句；根据上下文信息提取条件，从按序排列的分句中选择分句作为候选句对应的上下文信息；使用关键句提取模型对候选句以及候选句对应的上下文信息进行特征提取，得到候选句的特征信息，候选句的特征信息指能表达候选句的内容的特定信息，可以是候选句中的某几个关键词，也可以是对候选句的概括，或者是对候选句中的信息的整合等；根据候选句的特征信息以及关键句的提取条件，从候选句中确定文本内容的关键句，关键句的提取条件可以是候选句中关键词出现的频率，也可以是候选句的类别特征等。

至此，完成了步骤S321获取视频的标题的步骤，接下来进行后续步骤S322的处理操作。

在一种实施例中，S322将视频的标题转换为相对应的第二拼音的步骤为，通过汉字译拼音的方式，将步骤S321中获取的视频标题转换为相对应的第二拼音。在本实施例中，第二拼音仅由声母和韵母构成，不包括音调。

至此，完成了步骤S320获取视频标题对应的第二拼音的步骤，接下来进行后续步骤S330的处理操作。

请参阅图7，在步骤S330之前，本申请实施例提供的第一神经网络模型包括拼音词向量模型，视频处理方法还包括：

S701、从视频库中获取训练样本；训练样本包括视频文本内容对应的拼音。

训练样本包括视频文本内容对应的拼音、以及视频文本内容对应的音频，其中视频文本内容对应的拼音可以由视频的文本内容转换而来，其具体转换方式、以及视频文本内容的获取，与上文实施例中所述的相关步骤相同，在此不再赘述。

S702、采用训练样本，使用连续词袋模型处理训练样本，得到拼音对应的拼音词向量。

连续词袋(Continuous Bag-of-Words，CBOW)模型作为一种神经网络模型，包括输入层、隐藏层和输出层。CBOW模型的特点是其输入为与某一个特征词的上下文相关的词对应的词向量，而输出的是这个特定词的词向量；在连续的词袋模型中，上下文由给定特征词的多个词表示，训练的目标是期望训练样本特定词对应的输出概率最大。比如对于拼音“……hao hao xue xi ying yu ke……”对于特征词“xi”，其上下文大小取值为3，则其上下文对应的词有六个，前后各三个，这六个词就是模型的输入，最终的输出即为特征词“xi”对应的词向量。由于CBOW模型为词袋模型，因此上述上下文对应的六个词都是平等的，即不需要考虑他们和特征词之间的距离大小，只要在上下文之内即可，这样可以保证同一语义、顺序排列不同的拼音输入，最终输出的词向量都是目标词向量。

S703、将拼音作为拼音词向量模型的输入，拼音对应的拼音词向量作为拼音词向量模型的输出，对拼音词向量模型进行训练，得到训练后的第一神经网络模型。

每输入一个训练样本对待训练的拼音词向量模型进行训练，得到训练后的拼音词向量模型后，对当前待训的拼音词向量模型进行更新，再输入下一个训练样本对更新后的拼音词向量模型进行训练并更新，直至最后一个训练样本输入完毕，最终得到训练后的第一神经网络模型。对拼音词向量模型进行训练包括对视频文本内容对应的拼音、以及视频文本内容对应的音频的同时训练，即在视频文本内容对应的拼音训练时，还需要训练拼音所在的音频环境，以使得训练后的第一神经网络模型，更加满足后续识别视频铺垫是否过长的需要。

训练后的第一神经网络模型内存储有大量拼音以及拼音对应的拼音词向量，这些拼音以及拼音词向量构成了拼音词向量表。将视频文本内容对应的第一拼音输入训练后的第一神经网络模型，第一神经网络模型通过访问拼音词向量表格，找到第一拼音对应的第一拼音词向量，并输出；同样的，将待识别的视频标题对应的第二拼音输入训练后的第一神经网络模型，第一神经网络模型通过访问拼音词向量表格，找到第二拼音对应的第二拼音词向量，并输出。

请参阅图8，步在步骤S340之前，本申请实施例提供的视频处理方法还包括训练第二神经网络模型，其步骤包括：

S801、获取拼音词向量训练样本。训练样本包括第一词向量训练样本和第二词向量训练样本，训练目的是得到能准确输出第一词向量训练样本和第二词向量训练样本相关性结果的第二神经网络模型。

S802、采用拼音词向量训练样本，对待训练的第二神经网络模型进行训练，得到训练后的第二神经网络模型。

具体的，每进行一次训练后得到训练后的第二神经网络模型，并使用训练后的第二神经网络模型对当前待训的第二练神经网络模型进行更新，再进行下一次训练，直至所有的训练样本训练完，最终得到训练后的第二神经网络模型。

对第二神经网络模型的训练，可以结合实际需要采用适当的训练模型。在一种实施例中，可以采用TextCNN(Convolutional Neural Networks for SentenceClassification，文本卷积神经网络)模型作为待训练的第二神经网络模型，TextCNN模型包括嵌入层、卷积层、池化层和输出层。嵌入层通过加载预训练的第一神经网络模型，将视频文本内容的第一拼音映射为对应的第一拼音词向量，将视频标题的第二拼音映射为对应的第二拼音词向量；卷积层通过卷积运算，输出第一拼音词向量和第二拼音词向量对应的特征图谱；池化层选取特征图谱中的最大值元素作为特征表示，并将特征表示传送至输出层；输出层输出第一样本和第二样本相关性的最终判定结果。TextCNN模型具有参数数目少，计算量少，训练速度快等优点。

在一种实施例中，第一拼音词向量对应于截取的部分视频文本内容，步骤S350根据第一拼音词向量与第二拼音词向量的相关性结果，输出视频是否铺垫过长的处理结果的步骤包括：

若第一拼音词向量与第二拼音词向量相关，则输出视频未铺垫过长的处理结果。

若第一拼音词向量与第二拼音词向量不相关，则输出视频铺垫过长的处理结果。

上述视频未铺垫过长的处理结果可以是在视频中添加视频未铺垫过长的标签，如在视频的标题、简介、画面内容或是其他视频位置，添加“未铺垫过长”的字样，或是添加特定的表示视频未铺垫过长的标志等。同样的，视频铺垫过长的处理结果可以是在视频中添加视频铺垫过长的标签，如在视频的标题、简介、画面内容或是其他视频位置，添加“铺垫过长”的字样，或是添加特定的表示视频铺垫过长的标志。

在另一种实施例中，第一拼音词向量对应于整个视频的文本内容，请参阅图9，步骤S350根据第一拼音词向量与第二拼音词向量的相关性结果，输出视频是否铺垫过长的处理结果的步骤包括：

S351、根据第一拼音词向量与第二拼音词向量的相关性结果，筛选出与第二拼音词向量相关的第一拼音词向量，为目标第一拼音词向量。

S352、根据目标第一拼音词向量在视频中的时间位置，判断视频是否铺垫过长。

如果视频未铺垫过长的判断标准为，在视频开始的固定时长内出现爽点，即位于该固定时长内的文本内容对应的第一拼音词向量中，存在与视频标题对应的第二拼音词向量相关的目标第一拼音词向量。那么则有，当存在目标第一拼音词向量在视频中的时间位置，位于该固定时长内时，判定该视频未铺垫过长；当不存在目标第一拼音词向量在视频中的时间位置，位于该固定时长内时，判定该视频铺垫过长。

如果视频未铺垫过长的判断标准为，在视频开始固定百分时长内出现爽点，即存在与视频标题对应的第二拼音词向量相关的目标第一拼音词向量的时间位置，位于该固定百分比时长内。那么则有，当存在目标第一拼音词向量的时间位置，位于该固定百分比时长内时，判定该视频未铺垫过长；当目标第一拼音词向量的时间位置位于该固定百分比时长内时，判定该视频铺垫过长。

或者说，视频未铺垫过长的判断标准为，在视频开始固定百分时长内出现爽点，即存在与视频标题对应的第二拼音词向量相关的目标第一拼音词向量的时间位置，位于整个视频时长的百分比，小于或等于该固定百分比。那么，当目标第一拼音词向量的时间位置位于整个视频时长的百分比，小于或等于该固定百分比时，判定该视频未铺垫过长；当目标第一拼音词向量的时间位置位于整个视频时长的百分比，大于该固定百分比时，判定该视频铺垫过长。

S353、若视频未铺垫过长，则输出视频未铺垫过长的处理结果。

视频未铺垫过长的处理结果可以是在视频中添加视频未铺垫过长的标签，如在视频的标题、简介、画面内容或是其他视频位置，添加“未铺垫过长”的字样，或是添加特定的表示视频未铺垫过长的标志等。

S354、若视频铺垫过长，则输出视频铺垫过长的处理结果。

相对应的，视频铺垫过长的处理结果可以是在视频中添加视频铺垫过长的标签，如在视频的标题、简介、画面内容或是其他视频位置，添加“铺垫过长”的字样，或是添加特定的表示视频铺垫过长的标志。

至此，完成了整个视频处理方法的步骤。本申请实施例提供的视频处理方法，首先分别获取视频文本内容对应的第一拼音和视频标题对应的第二拼音；然后使用训练后的第一神经网络模型，分别得到第一拼音对应的第一拼音词向量、以及第二拼音对应的第二拼音词向量；接着使用训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果；最后根据第一拼音词向量与第二拼音词向量的相关性结果，输出视频是否铺垫过长的处理结果。该方法通过将视频的文本内容和标题转换为拼音，利用拼音对应的词向量进行后续视频是否铺垫过长的识别，弥补了语音转换为汉字时出现同音不同字，音节断句不当的缺陷，提高了视频是否铺垫过长识别的准确性。

同时，本申请还提供一种视频处理装置，用于实施上述视频处理方法。请参照图10，图10为本申请实施例提供的视频处理装置的结构示意图，由图10可知，该视频处理装置包括：

第一获取模块1010，用于获取视频文本内容对应的第一拼音；

第二获取模块1020，用于获取视频标题对应的第二拼音；

第一处理模块1030，包括训练后的第一神经网络模型，第一神经网络模型用于将第一拼音转换为对应的第一拼音词向量，将第二拼音转换为对应的第二拼音向量；

第二处理模块1040，包括训练后的第二神经网络模型，第二神经网络模型用于判定第一拼音向量和第二拼音向量的相关性；

输出模块1050，用于根据第一拼音向量和第二拼音向量的相关性结果，输出视频是否铺垫过长的处理结果。

其中，第一获取模块1010包括第一获取子模块、语译汉子模块、以及汉译音子模块。第一获取子模块还包括音频获取子模块和第一文本获取子模块，当视频的内容信息包括字幕时，采用第一文本获取子模块来获取视频内容的字幕文字数据；当视频的内容信息不包括字幕时，采用音频获取子模块来获取视频内容的音频信息。当视频的内容信息不包括字幕时，语译汉子模块用于将音频获取子模块获取的音频数据转换为文字数据。汉译音子模块用于将第一文本获取子模块获取的字幕文字数据转换为拼音数据，或者将语译汉子模块转换后的文字数据转换为拼音数据；汉译音子模块转换后的拼音数据即为视频文本内容对应的第一拼音。

第二获取模块1020包括第二获取子模块、语译汉子模块、汉译音子模块、以及关键词提取子模块、关键句提取子模块。第二获取子模块还包括音频获取子模块和第二文本获取子模块，当视频内容包括标题时，采用第二文本获取子模块来获取视频标题的文字数据；当视频内容不包括标题时，采用音频获取子模块来获取视频内容的音频信息。当视频内容不包括标题时，语译汉子模块用于将音频获取子模块获取的音频数据转换为文字数据；关键词提取子模块用于对语译汉子模块转换后的文字数据进行关键词提取，获得关键词对应的文字数据；关键句提取子模块用于对语译汉子模块转换后的文字数据进行关键句提取，获得关键句对应的文字数据。汉译音子模块用于将第二文本获取子模块获取的标题文字数据转换为对应的拼音数据，或者将关键词提取子模块提取出来的关键词文字数据转换为对应的拼音数据，或者将关键句提取子模块提取出来的关键句文字数据转换为对应的拼音数据；汉译音子模块转换后的拼音数据即为视频标题对应的第二拼音。

在一种实施例中，视频处理装置还包括第一神经网络模型训练模块，第一神经网络模型训练模块包括待训练的第一神经网络模型、第一训练样品获取模块。第一训练样品获取模块用于从视频库内获取第一训练样本，第一训练样品获取模块包括拼音获取子模块和音频获取子模块；拼音获取子模块用于获取视频内容对应的拼音数据，音频获取子模块用于获取拼音数据对应的音频数据；拼音获取子模块包括音频获取子模块、文字获取子模块、语译汉子模块、汉译音子模块，文字获取子模块用于获取视频内容的文字数据，音频获取子模块用于获取视频内容的音频信息，语译汉子模块用于将音频获取子模块获取的音频数据转换为文字数据，汉译音子模块用于将文字获取子模块获取的文字数据转换为拼音数据，或者将语译汉子模块转换后的文字数据转换为拼音数据。待训练的第一神经网络模型可以是拼音词向量模型。

在一种实施例中，视频处理装置还包括第二神经网络训练模块，第二神经网络训练模块包括待训练的第二神经网络模型和第二训练样品获取模块。第二训练样品获取模块用于获取第二训练样本，第二训练样本为拼音对应的拼音词向量。待训练的第二神经网络模型可以是TextCNN模型。

输出模块1050包括分析判断子模块和输出子模块，分析判断子模块用于对第一拼音向量和第二拼音向量的相关性结果记性分析判断，并输出分子判断结果，输出子模块用于输出分析判断结果对应的视频是否铺垫过长的处理结果。

下面将结合具体的应用场景，对本申请实施例提供的视频处理方法做进一步的详细介绍。

在第一种应用场景中，待识别铺垫是否过长的第一视频的特征是：视频的时长为5分钟，视频无标题，视频的文本内容有字幕，字幕内容为“诗歌散文动听声音优雅音乐绝美画面让你享受“四重”美好感觉一首优美的情诗一曲优雅动听的妙乐一段唯美感人的动画展示今天向大家展示诗人戴望舒的《雨巷》撑着油纸伞独自彷徨在悠长悠长又寂寥的雨巷我希望逢着一个丁香一样地结着愁怨的姑娘她是有丁香一样的颜色丁香一样的芬芳丁香一样的忧愁在雨中哀怨哀怨又彷徨她彷徨在这寂寥的雨巷撑着油纸伞像我一样像我一样地默默行着寒漠凄清又惆怅她默默地走近走近又投出太息一般的眼光她飘过像梦一般地像梦一般地凄婉迷茫像梦中飘过一枝丁香地我身旁飘过这女郎她静默地远了远了到了颓圮的篱墙走尽这雨巷在雨的哀曲里消了她的颜色散了她的芬芳消散了甚至她的太息般的眼光丁香般的惆怅撑着油纸伞独自彷徨在悠长悠长又寂寥的雨巷我希望飘过一个丁香一样地结着愁怨的姑娘”。该视频未铺垫过长的判定标准为：爽点出现在视频开始的1分钟内。视频1分钟位置处对应的文本内容为“撑着油纸伞”中的“油”。

针对于上述待识别的第一视频，视频未铺垫过长的判定标准为，爽点出现在视频开始的1分钟内，可以采取第一种视频处理方法对该视频是否铺垫过长进行识别，如图11所示，第一种视频处理方法的步骤包括：

S1111、获取字幕内容，直接截取视频固定时长1分钟内的字幕，作为第一视频的文本内容。

得到文本内容“诗歌散文动听声音优雅音乐绝美画面让你享受“四重”美好感觉一首优美的情诗一曲优雅动听的妙乐一段唯美感人的动画展示今天向大家展示诗人戴望舒的《雨巷》撑着油”，又由于固定时长1分钟节点位置处的文本为“油”，既无法与位于“油”之前的文本组成完整的句子，也无法与位于“油”之前的文字组成完整的词语，结合文字“油”的上文信息“……撑着油”和下文信息“纸伞……”，将节点位置相后移两个文字，即调整后的节点位置处的文本为“伞”，最后截取字幕“诗歌散文……戴望舒的《雨巷》撑着油”为第一视频的文本内容。

S1112、采用汉字译拼音的方法，将第一视频的文本内容转换为第一拼音。

第一拼音仅由声母和韵母构成，不包括音调。得到的第一拼音为“shi ge sanwen……dai wang shu de yu xiang cheng zhe you zhi san”。

S1113、提取字幕的关键词，作为第一视频的标题。

由于该视频没有标题，需要从第一视频的文本内容中提取出视频的标题，在本处理方法中，采用提取视频文本内容的关键词作为视频的标题。首先将第一视频的字幕进行分词处理，同时去除介词、助动词、叹词、代词、助词、副词、拟声词，保留名词、动词、形容词、量词、数词，将保留下来的词语作为候选词；将这些候选词依次输入到关键词提取模型中，得到各个候选词相对于各个字符的注意力权重，注意力权重用于表征每个候选词分别与各个字符的语义关联程度；对于每个候选词，根据该候选词相对于各个字符的注意力权重，确定该候选词对应的权重；选取候选词对应的权重最大的候选词，为第一视频的字幕的关键词，该关键词为“雨巷”，“雨巷”即为第一视频的标题。

S1114、采用汉字译拼音的方法，将第一视频的标题转换为第二拼音。

第二拼音仅由声母和韵母构成，不包括音调。得到的第二拼音为“yu xiang”。

S1121、预先训练第一神经网络模型。

从视频库内获取包括视频文本内容对应的拼音、以及视频文本内容对应的音频的训练样本；采用所述训练样本，使用连续词袋模型处理训练样本，得到拼音对应的拼音词向量；将拼音作为所述拼音词向量模型的输入，拼音对应的拼音词向量作为拼音词向量模型的输出，对拼音词向量模型进行训练，得到训练后的第一神经网络模型。

S1115、通过训练后的第一神经网络模型，得到第一拼音对应的第一拼音词向量，和第二拼音对应的第二拼音词向量。

具体的，将上述第一拼音“shi ge san wen……dai wang shu de yu xiangcheng zhe you zhi san”，和第二拼音“yu xiang”输入训练后的第一神经网络模型，得到第一拼音对应的第一拼音词向量，和第二拼音对应的第二拼音词向量。

S1122、预先训练第二神经网络模型。

获取拼音词向量训练样本，用该训练样本对TextCNN模型进行训练，得到训练后的第二神经网络模型。

S1116、通过训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果。

将得到的第一拼音词向量，和第二拼音词向量输入训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果。

S1117、根据第一拼音词向量与第二拼音词向量相关的相关性结果，输出视频未铺垫过长的处理结果。

如果得到第一拼音词向量与第二拼音词向量的相关性结果为相关，则判定第一视频未铺垫过长，输出视频未铺垫过长的处理结果；如果得到第一拼音词向量与第二拼音词向量的相关性结果为不相关，则判定第一视频铺垫过长，输出视频铺垫过长的处理结果。

视频未铺垫过长的处理结果可以是在第一视频中添加视频未铺垫过长的标签，如在第一视频的标题、简介、画面内容或是其他视频位置，添加“未铺垫过长”的字样，或是添加特定的表示视频未铺垫过长的标志等。相对应的，视频铺垫过长的处理结果可以是在第一视频中添加视频铺垫过长的标签，如在第一视频的标题、简介、画面内容或是其他视频位置，添加“铺垫过长”的字样，或是添加特定的表示视频铺垫过长的标志。

以上第一种应用场景中，采用第一种视频处理方法对第一视频进行铺垫是否过长的识别，该处理方法主要是在已知视频是否铺垫过长的判定标准下，根据该判定标准，截取固定时长的视频文本内容，将该视频文本内容转换为对应的第一拼音词向量，同时将视频标题转换为对应的第二拼音词向量，将第一拼音词向量与第二拼音词向量进行相关性处理，最后根据第一拼音词向量与第二拼音词向量是否相关来判定视频是否要铺垫过长。

在第二种应用场景中，待识别铺垫是否过长的第二视频，其视频内容与上述第一使用事例中的第一视频相同，第二视频与上述第一视频的区别在于：第二视频有标题，标题为“雨巷”，第二视频的文本内容无字幕，第二视频未铺垫过长的判定标准为：爽点出现在视频前10％的时间范围内。

针对于上述待识别的第二视频，视频未铺垫过长的判定标准为，爽点出现在视频前10％的时间范围内，可以采取第二种视频处理方法对该视频是否铺垫过长进行识别，如图12所示，第二种视频处理方法的步骤包括：

S1211、获取第二视频的音频内容，同时获取每一个音频在视频中所处的时间位置。

S1212、采用音频译文字的方法，将音频内容转换为文本内容。

该文本内容与上述第一视频的字幕内容相等同，再此不做详细说明。

S1213、获取整个第二视频的所有文本内容。

S1214、采用汉字译拼音的方法，将文本内容转换为第一声音。

第一拼音仅由声母和韵母构成，不包括音调。得到第一拼音的内容为“shi ge sanwen……jie zhe chou yuan de gu niang”。

S1215、获取第二视频的标题“雨巷”。

S1216、采用汉字译拼音的方法，将第二视频的标题转换为第二声音。

第二拼音仅由声母和韵母构成，不包括音调。得到第二拼音为“yu xiang”。

S1221、预先训练第一神经网络模型。

从视频库内获取包括视频文本内容对应的拼音、以及视频文本内容对应的音频的训练样本；采用训练样本，使用连续词袋模型处理训练样本，得到拼音对应的拼音词向量；将拼音作为拼音词向量模型的输入，拼音对应的拼音词向量作为拼音词向量模型的输出，对拼音词向量模型进行训练，得到训练后的第一神经网络模型。

S1217、通过训练后的第一神经网络模型，得到第一拼音对应的第一拼音词向量，和第二拼音对应的第二拼音词向量。

具体的，将上述第一拼音“shi ge san wen……jie zhe chou yuan de guniang”，和第二拼音“yu xiang”输入训练后的第一神经网络模型，得到第一拼音对应的第一拼音词向量，和第二拼音对应的第二拼音词向量。

S1222、预先训练第二神经网络模型。

S1218、通过训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果，并判定第二视频是否铺垫过长。

将得到的第一拼音词向量，和第二拼音词向量输入训练后的第二神经网络模型，得到第一拼音词向量与第二拼音词向量的相关性结果；第一拼音词向量与第二拼音词向量的相关性结果，判定第二视频是否铺垫过长。

根据第一拼音词向量与第二拼音词向量的相关性结果，确定与第二拼音词向量相关的第一拼音词向量为目标第一拼音词向量；获取目标第一词向量在视频中所处的时间位置，并判断该时间位置在整个视频时间中的位置百分比；取其中的最小百分比与10％进行比较。如果最小百分比小于或等于10％，则认为爽点出现在第二视频前10％的时间范围内，判定第二视频未铺垫过长；如果最小百分比大于10％，则认为爽点未出现在第二视频前10％的时间范围内，判定第二该视频铺垫过长。

S1219、根据第二视频是否铺垫过长的判定结果，输出视频是否铺垫过长的处理结果。

如果判定结果为第二视频未铺垫过长，输出视频未铺垫过长的处理结果；视频未铺垫过长的处理结果可以是在第二视频中添加视频未铺垫过长的标签，如在第二视频的标题、简介、画面内容或是其他视频位置，添加“未铺垫过长”的字样，或是添加特定的表示视频未铺垫过长的标志等。

如果判定结果为第二视频铺垫过长，输出视频铺垫过长的处理结果；相对应的，视频铺垫过长的处理结果可以是在第二视频中添加视频铺垫过长的标签，如在第二视频的标题、简介、画面内容或是其他视频位置，添加“铺垫过长”的字样，或是添加特定的表示视频铺垫过长的标志。

以上第二种应用场景中，采用第二种视频处理方法对第二视频进行铺垫是否过长的识别，该处理方法主要是获取整个视频的文本内容，将视频文本内容转换为对应的第一拼音词向量，同时将视频标题转换为对应的第二拼音词向量，将第一拼音词向量与第二拼音词向量进行相关性处理，最后以与第一拼音词向量相关的第一拼音词向量在视频中所处的位置来判定视频是否要铺垫过长。

相应的，本申请实施例还提供一种服务器，如图13所示，该服务器可以包括射频(RF，Radio Frequency)电路1301、包括有一个或一个以上计算机可读存储介质的存储器1302、输入单元1303、显示单元1304、传感器1305、音频电路1306、无线保真(WiFi，WirelessFidelity)模块1307、包括有一个或者一个以上处理核心的处理器1308、以及电源1309等部件。本领域技术人员可以理解，图13中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1301可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1308处理；另外，将涉及上行的数据发送给基站。存储器1302可用于存储软件程序以及模块，处理器1308通过运行存储在存储器1302的软件程序以及模块，从而执行各种功能应用以及数据处理。输入单元1303可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

显示单元1304可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

终端还可包括至少一种传感器1305，比如光传感器、运动传感器以及其他传感器。音频电路1306包括扬声器，传声器可提供用户与终端之间的音频接口。

WiFi属于短距离无线传输技术，终端通过WiFi模块1307可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1307，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变申请的本质的范围内而省略。

处理器1308是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1302内的软件程序和/或模块，以及调用存储在存储器1302内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。

终端还包括给各个部件供电的电源1309(比如电池)，优选的，电源可以通过电源管理系统与处理器1308逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器1308会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器1302中，并由处理器1308来运行存储在存储器1302中的应用程序，从而实现上述实施例中所提供的方法中的各种功能。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频处理方法中的步骤。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的任一种方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频处理方法及装置、服务器、计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频处理方法，其特征在于，包括：

获取视频文本内容对应的第一拼音；

获取视频标题对应的第二拼音；

使用训练后的第一神经网络模型，分别得到所述第一拼音对应的第一拼音词向量、以及所述第二拼音对应的第二拼音词向量；

使用训练后的第二神经网络模型，得到所述第一拼音词向量与所述第二拼音词向量的相关性结果；

根据所述第一拼音词向量与所述第二拼音词向量的相关性结果，输出所述视频是否铺垫过长的处理结果；

所述获取视频文本内容对应的第一拼音的步骤包括：

根据视频的整体时长，确定需要获取的视频时长；

根据需要获取的视频时长，截取从视频开头开始、所述视频时长内的视频文本内容；

将所述文本内容转换为对应的第一拼音。

2.如权利要求1所述的视频处理方法，其特征在于，所述根据所述第一拼音词向量与所述第二拼音词向量的相关性结果，输出所述视频是否铺垫过长的处理结果的步骤包括：

若所述第一拼音词向量与所述第二拼音词向量相关，则输出所述视频未铺垫过长的处理结果；

若所述第一拼音词向量与所述第二拼音词向量不相关，则输出所述视频铺垫过长的处理结果。

3.如权利要求1所述的视频处理方法，其特征在于，所述获取视频文本内容对应的第一拼音的步骤还包括：

获取整个视频的文本内容；

定位每一文本内容在所述视频中的时间位置；

将所述文本内容转换为对应的第一拼音。

4.如权利要求3所述的视频处理方法，其特征在于，所述根据所述第一拼音词向量与所述第二拼音词向量的相关性结果，输出所述视频是否铺垫过长的处理结果的步骤包括：

根据所述第一拼音词向量与所述第二拼音词向量的相关性结果，筛选出与所述第二拼音词向量相关的所述第一拼音词向量，为目标第一拼音词向量；

根据所述目标第一拼音词向量在所述视频中的时间位置，判断所述视频是否铺垫过长；

若所述视频未铺垫过长，则输出所述视频未铺垫过长的处理结果；

若所述视频铺垫过长，则输出所述视频铺垫过长的处理结果。

5.如权利要求4所述的视频处理方法，其特征在于，所述根据所述目标第一拼音词向量在所述视频中的时间位置，判断所述视频是否铺垫过长的步骤包括：

若存在所述目标第一拼音词向量，使得所述目标第一拼音词向量在所述视频中的时间位置，落入所述视频未铺垫过长的判定标准内，则判定所述视频未铺垫过长；

若不存在所述目标第一拼音词向量，使得所述目标第一拼音词向量在所述视频中的时间位置，落入所述视频未铺垫过长的判定标准内，则判定所述视频铺垫过长。

6.如权利要求1至5任一所述的视频处理方法，其特征在于，所述获取视频的文本内容的步骤包括：

直接获取视频的字幕，并将所述字幕作为所述文本内容。

7.如权利要求1至5任一所述的视频处理方法，其特征在于，所述获取视频的文本内容的步骤包括：

获取所述视频的音频内容；

将所述音频内容转换为相对应的文本内容。

8.如权利要求1所述的视频处理方法，其特征在于，所述第一神经网络模型包括拼音词向量模型；所述视频处理方法还包括：

从视频库中获取训练样本；所述训练样本包括视频文本内容对应的拼音；

采用所述训练样本，使用连续词袋模型处理所述训练样本，得到所述拼音对应的拼音词向量；

将所述拼音作为所述拼音词向量模型的输入，所述拼音对应的拼音词向量作为所述拼音词向量模型的输出，对所述拼音词向量模型进行训练，得到训练后的第一神经网络模型。

9.一种视频处理装置，其特征在于，包括：

第一获取模块，用于获取视频文本内容对应的第一拼音；

第二获取模块，用于获取视频标题对应的第二拼音；

第一处理模块，包括训练后的第一神经网络模型，所述第一神经网络模型用于将所述第一拼音转换为对应的第一拼音词向量，将所述第二拼音转换为对应的第二拼音向量；

第二处理模块，包括训练后的第二神经网络模型，所述第二神经网络模型用于判定所述第一拼音向量和所述第二拼音向量的相关性；

输出模块，用于根据所述第一拼音向量和所述第二拼音向量的相关性结果，输出视频是否铺垫过长的处理结果；

所述获取视频文本内容对应的第一拼音的步骤包括：

根据视频的整体时长，确定需要获取的视频时长；

将所述文本内容转换为对应的第一拼音。