CN108833971A

CN108833971A - 一种视频处理方法及装置

Info

Publication number: CN108833971A
Application number: CN201810575114.7A
Authority: CN
Inventors: 段效晨; 赫振军; 柯文磊; 易帆
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2018-06-06
Filing date: 2018-06-06
Publication date: 2018-11-16

Abstract

本发明实施例提供了一种视频处理方法及装置，方法包括：获取源视频的语音内容；根据语音内容，确定文本内容，及，文本内容的字对应在语音内容的时间标识；对文本内容进行分词操作，得到源视频关键词；其中，源视频关键词的时间标识包括：源视频关键词所包含字的时间标识；确定与源视频关键词的相关度满足预设条件的插入对象；根据源视频关键词对应的时间标识，将插入对象设置在源视频的对应时刻，得到目标视频；以使当目标视频播放至对应时刻时，显示对应时刻的插入对象。本发明实施例当用户观看目标视频时，可以在设置插入对象的时刻，观看到与目标视频内容相关的插入对象，用户对插入对象的接受度就会提高，有利于该插入对象的推广。

Description

一种视频处理方法及装置

技术领域

本发明涉及视频技术领域，特别是涉及一种视频处理方法及装置。

背景技术

随着视频技术的发展，视频平台提供越来越多的视频，用户也越来越习惯通过观看视频获取信息，在视频中插入广告等内容，能够达到较好的推广效果。

现有技术中，在视频中插入广告时，往往只是通过广告推送商的要求，在视频的固定时刻插入固定内容的广告。

然而，本领域技术人员在研究上述技术方案的过程中发现，上述技术方案存在如下缺陷：由于各视频的具体内容多种多样，然而各视频中插入的广告却是固定内容，经常会出现视频内容与广告内容相关度较低的情况，用户在看到广告时会觉得突兀，导致该广告的用户点击量较少，广告转化率较低。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频处理方法及装置。

根据本发明的第一方面，提供了一种视频处理方法，所述方法包括：

获取源视频的语音内容；

根据所述语音内容，确定文本内容，及，所述文本内容的字对应在所述语音内容的时间标识；对所述文本内容进行分词操作，得到源视频关键词；其中，所述源视频关键词的时间标识包括：所述源视频关键词所包含字的时间标识；

确定与所述源视频关键词的相关度满足预设条件的插入对象；

根据所述源视频关键词的时间标识，将所述插入对象设置在源视频的对应时刻，得到目标视频；以使当所述目标视频播放至所述对应时刻时，显示所述对应时刻的插入对象。

根据本发明的第二方面，提供了一种视频处理装置，所述装置包括：

语音内容获取模块，用于获取源视频的语音内容；

文本内容确定模块，用于根据所述语音内容，确定文本内容，及，所述文本内容的字对应在所述语音内容的时间标识；

源视频关键词确定模块，用于对所述文本内容进行分词操作，得到源视频关键词；其中，所述源视频关键词的时间标识包括：所述源视频关键词所包含字的时间标识；

插入对象确定模块，用于确定与所述源视频关键词的相关度满足预设条件的插入对象；

目标视频确定模块，用于根据所述源视频关键词的时间标识，将所述插入对象设置在源视频的对应时刻，得到目标视频；以使当所述目标视频播放至所述对应时刻时，显示所述对应时刻的插入对象。

本发明实施例包括以下优点：本发明实施例首先获取源视频的语音内容，根据语音内容确定出源视频的文本内容，及文本内容的字对应在语音内容的时间标识，则根据时间标识，可以精确确定出文本内容的字在源视频中以语音形式出现的具体时刻，对文本内容进行分词操作后，得到源视频关键词，源视频关键词的时间标识包括了源视频关键词所包含字的时间标识，分别确定出与源视频关键词的相关度满足预设条件的插入对象后，再根据源视频关键词的时间标识，将源视频关键词对应的插入对象设置在源视频的对应时刻，得到目标视频，即根据源视频的内容确定出与源视频相关的插入对象后，将插入对象设置在源视频的对应时刻，因此，当用户观看目标视频时，可以在设置插入对象的时刻，观看到与目标视频内容相关的插入对象，用户对插入对象的接受度就会提高，有利于该插入对象的推广。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种视频处理方法的流程图；

图2是本发明实施例提供的一种视频处理方法的具体流程图；

图3是本发明实施例提供的一种视频处理装置的框图；

图4是本发明实施例提供的一种视频处理装置的具体框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

应当理解，此处所描述的具体实施例仅用以解释本发明，仅仅是本发明一部分实施例，而不是全部的实施例，并不用于限定本发明。

实施例一

参照图1，示出了一种视频处理方法的流程图。

可以理解，本发明实施例可以应用于服务器端，该服务器端可以是WEB(WorldWide Web，万维网)服务器，也可以是其他形式的服务器，本发明实施例对此不做具体限制。

具体应用中，服务器可以在夜间用户访问量较少的情况下，对源视频进行处理，以提升处理效率并降低服务器白天运行时的负载；服务器也可以在检测到用户上传源视频后，实时对该上传的源视频进行处理，得到包含插入对象的目标视频，本发明实施例对进行本发明的视频处理方法的具体实施时机不作限制。

该方法具体可以包括如下步骤：

步骤101：获取源视频的语音内容。

本发明实施例中，源视频是与目标视频具有对应关系的视频，具体来说，对于需要进行本发明实施例所采用的视频处理方法进行处理的视频，都可以称为源视频，经过本发明实施例所采用的视频处理方法进行处理后的视频可以称为目标视频。

具体应用中，源视频可以是用户随意拍摄的短视频，需要说明的是，随着各种社交平台、视频管理平台的增多，越来越多的用户将自己拍摄或制作的短视频发布到互联网，短视频在整体视频内容中占据很高的比重。短视频由于通常没有专业的制作团队，经常没有设置字幕，也没有针对该短视频的文字简介，在其中插入相关的插入对象比较困难，本发明实施例尤其适用于此类没有字幕、没有文字简介的短视频。

本发明实施中，语音内容可以包括源视频的具体语音，例如：源视频中人物说出的话、动物发出的声音等；语音内容还可以包括该具体语音在源视频中出现的时刻，使得通过语音内容可以确定该语音内容对应的文本内容，以及文本内容中的字对应在源视频中的时刻。

本发明实施例中，在得到源视频后，可以获取源视频中的语音内容。具体应用中，可以一次性获取源视频的全部语音内容后，执行步骤102至步骤105；也可以每获取一句语音内容，就执行一次步骤102至步骤105，直到完成所有语音内容的处理，本发明实施例对此不作具体限制。

步骤102：根据所述语音内容，确定文本内容，及，所述文本内容的字对应在所述语音内容的时间标识。

本发明实施例中，在获取到语音内容后，可以调用语音处理模型，将语音内容转换为文本内容，并记录文本内容的字在语音内容中出现的时刻，确定出文本内容的字对应在语音内容的时间标识。可以理解，如果源视频本身具有字幕等，也可以获取源视频的字幕后，将字幕对应的文字作为文本内容，并根据语音内容，将语音内容中的具体文字与字幕中的字进行匹配，确定出文本内容的字对应在语音内容的时间标识。本发明实施例对根据语音内容，确定文本内容，及，文本内容的字对应在语音内容的时间标识的具体方法不做限定。具体应用中，文本内容的字在语音内容中通常会存在一定的持续时间，因此，文本内容的字对应在语音内容的时间标识具体可以是：该字在语音内容中出现的起始时刻，或者该字在语音内容中出现的终止时刻，或者处于该起始时刻与该终止时刻之间的任意时刻，本发明实施例对文本内容的字对应在语音内容的时间标识不做具体限定。

举例来说，从语音内容中确定出，文本内容的字包括了“水”，“水”字在语音内容中出现的时间段是：10分10秒——10分12秒，则可以将“10分10秒”至“10分12秒”间的任意时刻作为“水”的时间标识。

步骤103：对所述文本内容进行分词操作，得到源视频关键词；其中，所述源视频关键词的时间标识包括：所述源视频关键词所包含字的时间标识。

本发明实施例中，在确定出文本内容后，可以适用分词工具对文本内容进行分词操作，例如，通过NLP(Neuro-Linguistic Programming，神经语言程序)分词服务对文本内容进行分词，本发明实施例对分词工具的具体形式不做限定。

具体应用中，假设得到的文本内容为“我渴了”，那么，可以通过分词工具，将其分为主语名词“我”、谓语动词“渴”，介词“了”三个源视频关键词，由于在步骤203中已经确定出文本内容的字对应在语音内容中的时间标识，因此，可以将视频关键词所包含字的时间标识作为视频关键词的时间标识。

具体应用中，如果源视频关键词中包含的字不止一个，可以将源视频关键词包含的字中，任意一个字的时间标识确定为源视频关键词的时间标识；也可以只将源视频关键词包含的字中，第一个字的时间标识确定为源视频关键词的时间标识；也可以只将源视频关键词包含的字中，最后一个字的时间标识确定为源视频关键词的时间标识；也可以将源视频关键词包含的字中，部分或全部字的时间标识确定为源视频关键词的时间标识；本领域技术人员可以根据实际的应用场景进行设定，本发明实施例对此不作具体限定。

步骤104：确定与所述源视频关键词的相关度满足预设条件的插入对象。

本发明实施例中，预设有一个或多个插入对象，插入对象可以是图片、文字、广告等，插入对象是需要向用户推广的对象，用户通过观看、点击插入对象，可以了解插入对象中所推广内容的活动时间、地点等等，会参与或购买插入对象中推广的内容。

在确定了源视频关键词后，需要确定与该源视频关键词相关度满足预设条件的插入对象，具体应用中，满足预设条件的插入对象可以是所有预设插入对象中，与源视频关键词相关度最高的一个或几个插入对象。举例来说，源视频关键词为“渴”，预设插入对象中有饮料广告、服装广告、化妆品广告，那么，可以确定与“渴”相关性高的插入对象为饮料广告，可以将饮料广告作为该源视频关键词“渴”插入对象。可以理解，如果存在很多的具体饮料广告，则可以根据广告供应商的重要程度，选择一个或多个具体的饮料广告作为插入对象；也可以收集用户的兴趣爱好，选择用户爱好的一个或多个具体的饮料广告作为插入对象，本发明实施例对此不作限定。

具体应用中，源视频关键词可以为多个，在多个源视频关键词中，如果存在不能确定出相关度满足预设条件插入对象的部分源视频关键词，则可以不确定该部分源视频关键词的插入对象，也可以在预设插入对象中任意选择一个或多个作为该部分源视频关键词的插入对象，由本领域技术人员根据实际情况确定，本发明实施例对此不作具体限制。

步骤105：根据所述源视频关键词的时间标识，将所述插入对象设置在源视频的对应时刻，得到目标视频；以使当所述目标视频播放至所述对应时刻时，显示所述对应时刻的插入对象。

本发明实施例中，对应时刻指的是源视频中的某个时刻，可以是源视频关键词的时间标识对应的时刻，也可以在邻近源视频关键词对应的时间标识的前面时刻或后面时刻，本发明实施例对此不作限定。

具体应用中，在确定出源视频关键词对应的插入对象后，根据该源视频关键词在源视频中对应的时间标识，可以将插入对象插入到该源视频关键词对应的时间标识处，也可以将插入对象插入到该源视频关键词对应的时间标识的前面时刻或后面时刻，本领域技术人员可以根据实际应用场景进行设定。

本发明实施例中，将插入对象插入到源视频后，得到目标视频。即在目标视频中，一个或多个对应时刻设置了插入对象，当目标视频播放至各对应时刻时，会触发显示该对应时刻的插入对象，使得观看目标视频的用户可以在该对应时刻观看到插入对象，达到了向用户推送与源视频内容相关的插入对象的效果。

综上所述，本发明实施例首先获取源视频的语音内容，根据语音内容确定出源视频的文本内容，及文本内容的字对应在语音内容的时间标识，则根据时间标识，可以精确确定出文本内容的字在源视频中以语音形式出现的具体时刻，对文本内容进行分词操作后，得到源视频关键词，源视频关键词的时间标识包括了源视频关键词所包含字的时间标识，分别确定出与源视频关键词的相关度满足预设条件的插入对象后，再根据源视频关键词的时间标识，将源视频关键词对应的插入对象设置在源视频的对应时刻，得到目标视频，即根据源视频的内容确定出与源视频相关的插入对象后，将插入对象设置在源视频的对应时刻，因此，当用户观看目标视频时，可以在设置插入对象的时刻，观看到与目标视频内容相关的插入对象，用户对插入对象的接受度就会提高，有利于该插入对象的推广。

实施例二

参照图2，示出了一种视频处理方法的具体流程图，具体可以包括如下步骤：

步骤201：获取源视频的语音内容。

步骤202：根据所述语音内容，确定文本内容，及，所述文本内容的字对应在所述语音内容的时间标识。

本发明实施例中，在获取到语音内容后，服务器可以通过语音识别把语音内容转换为文本内容，并根据语音内容在源视频中出现的时刻，记录该文本内容在源视频中出现的时刻。

步骤203：对所述文本内容进行分词操作，得到源视频关键词；其中，所述源视频关键词的时间标识包括：所述源视频关键词所包含字的时间标识。

步骤204：通过所述源视频关键词与词向量词典的匹配情况，确定所述源视频关键词的词向量；其中，所述词向量词典包括：词与词向量的映射关系。

本发明实施例中，可以预先通过词向量间距Word2Vec算法，基于大量文字样本进行训练，得到词向量词典；在词向量词典中记录有词与词向量的映射关系，即每个词投射到向量空间是的词向量。通过计算一个词向量移动到另一个词向量的距离，可以判定两个词向量的相关性，具体来说，距离越近，两个词向量的相关性越高，距离越远，两个词向量的相关性越低。

具体应用中，当确定出源视频关键词后，将源视频关键词与词向量词典进行匹配，在词向量词典中找到该源视频关键词的词向量。

步骤205：通过至少一个预设插入对象的预设插入对象关键词与词向量词典的匹配情况，确定各所述预设插入对象关键词的词向量。

本发明实施例中，各预设插入对象也具有预设插入对象关键词，例如插入对象是广告，则预设插入对象关键词可以有：饮料、服装、化妆品等，将各预设插入对象关键词与词向量词典进行匹配，在词向量词典中找到该预设插入对象关键词的词向量。

步骤206：分别确定所述源视频关键词的词向量，与，各所述预设插入对象关键词的词向量的距离。

具体应用中，可以分别确定源视频关键词的词向量，与每个预设插入关键词的词向量的距离，以进一步确定源视频关键词与各预设插入关键词的相关性。

步骤207：根据用户对各所述预设插入对象的历史选择记录，确定用户所偏好的插入对象。

本发明实施例中，考虑到每个用户的喜好不同，且用户喜好可以通过用户的历史操作记录预测，因此，可以根据各用户的用户标识，具体可以是用户注册的账号、用户所使用的终端的设备标识等等，得到用户对各预设插入对象的历史选择记录，例如，在饮料广告中，用户点击“雪碧”的次数大于点击“可乐”的次数，那么可以确定用户偏好的广告插入对象是雪碧。此时可以将雪碧广告确定为用户所偏好的插入对象。

步骤208：将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，和/或，用户所偏好的插入对象，确定为各所述源视频关键词对应的插入对象。

具体应用中，预设阈值可以由本领域技术人员根据实际情况确定，如果希望插入与源视频内容相关度很高的插入对象，可以将预设阈值设置为比较小的值，如果希望插入与源视频内容相关度一般的插入对象，可以将预设阈值设置为比较大的值，本发明实施例对此不作具体限制。

本发明实施例中，在确定出距离小于预设阈值的预设插入对象关键词对应的第一类插入对象，和/或，用户所偏好的第二类插入对象后，可以将第一类插入对象直接作为该源视频关键词对应的插入对象，则该第一类插入对象与源视频内容有较高的相关性，能提升用户对插入对象的点击率；也可以将用户偏好的第二类插入对象部分的作为该源视频关键词对应的插入对象，则该第二类插入对象与用户爱好有较高的相关性，能提升用户对插入对象的点击率；还可以将第一类插入对象和第二类插入对象中重合的部分作为该源视频关键词对应的插入对象，则该插入对象既与源视频内容相关，又是用户爱好的插入对象，能大大提升用户对插入对象的点击率和接受度；还可以将一类插入对象和第二类插入对象都作为该源视频关键词对应的插入对象，可以理解，插入对象的数量可以由本领域技术人根据实际应用场景进行确定，本发明实施例对此不作具体限定。

步骤209：根据所述源视频关键词的时间标识，将所述插入对象设置在源视频的对应时刻，得到目标视频；以使当所述目标视频播放至所述对应时刻时，显示所述对应时刻的插入对象。

作为本发明实施例的一种优选方案，所述显示所述对应时刻的插入对象的步骤，包括：

在所述目标视频的预设位置显示所述对应时刻的插入对象；其中，所述预设位置所占据的显示区域小于所述目标视频的播放区域。

本发明实施例中，是在预设位置显示插入对象，预设位置可以以弹窗、气泡等呈现，也可以直接是目标视频播放区域的某一块区域，不管预设位置以哪种方式呈现，预设位置所占据的显示区域小于目标视频的播放区域。则用户在观看目标视频时，不会被插入对象，比如贴片广告等占据了整个播放区域，避免对用户观看目标视频的过多影响，提升用户观看目标视频时的观看体验。

作为本发明实施例的一种优选方案，所述根据所述源视频关键词对应的时间标识，将所述插入对象设置在源视频的对应时刻的步骤，包括：

根据所述源视频关键词对应的时间标识，在所述源视频中确定比所述时间标识延迟预设时间段的对应时刻；

将所述插入对象设置所述对应时刻。

本发明实施例中，将插入对象所要设置的对应时刻，确定为比源视频关键词对应的时间标识延迟预设时间段的对应时刻，该预设时间段可以是1秒、2秒等，则当用户观看目标视频时，在听到视频中播放出源视频关键字对应的语音内容后，稍微延迟一段时间可以看到插入对象，相当于给用户一段反应的时间，让用户理解了目标视频的内容后，在看到相关的插入对象，更加符合人们的观看习惯，进一步提升用户对插入对象的认可度。

本发明实施例首先获取源视频的语音内容，根据语音内容确定出源视频的文本内容，及文本内容的字对应在语音内容的时间标识，则根据时间标识，可以精确确定出文本内容的字在源视频中以语音形式出现的具体时刻，对文本内容进行分词操作后，得到源视频关键词，源视频关键词的时间标识包括了源视频关键词所包含字的时间标识，分别确定出与源视频关键词的相关度满足预设条件的插入对象后，再根据源视频关键词的时间标识，将源视频关键词对应的插入对象设置在源视频的对应时刻，得到目标视频，即根据源视频的内容确定出与源视频相关的插入对象后，将插入对象设置在源视频的对应时刻，因此，当用户观看目标视频时，可以在设置插入对象的时刻，观看到与目标视频内容相关的插入对象，用户对插入对象的接受度就会提高，有利于该插入对象的推广。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

参照图3，示出了一种视频处理装置的框图，该装置具体可以包括：

语音内容获取模块310，用于获取源视频的语音内容。

文本内容确定模块320，用于根据所述语音内容，确定文本内容，及，所述文本内容的字对应在所述语音内容的时间标识。

源视频关键词确定模块330，用于对所述文本内容进行分词操作，得到源视频关键词；其中，所述源视频关键词的时间标识包括：所述源视频关键词所包含字的时间标识。

插入对象确定模块340，用于确定与所述源视频关键词的相关度满足预设条件的插入对象。

目标视频确定模块350，用于根据所述源视频关键词的时间标识，将所述插入对象设置在源视频的对应时刻，得到目标视频；以使当所述目标视频播放至所述对应时刻时，显示所述对应时刻的插入对象。

优选地，参照图4，在图3的基础上，

所述插入对象确定模块340包括：

源视频关键词词向量确定子模块3401，用于通过所述源视频关键词与词向量词典的匹配情况，确定所述源视频关键词的词向量；其中，所述词向量词典包括：词与词向量的映射关系；

预设插入对象关键词词向量确定子模块3402，用于通过至少一个预设插入对象的预设插入对象关键词与词向量词典的匹配情况，确定各所述预设插入对象关键词的词向量；

距离确定子模块3403，用于分别确定所述源视频关键词的词向量，与，各所述预设插入对象关键词的词向量的距离；

插入对象确定子模块3405，用于将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，确定为各所述源视频关键词对应的插入对象。

优选地，所述插入对象确定模块340还包括：

用户所偏好插入对象确定模块3404，用于根据用户对各所述预设插入对象的历史选择记录，确定用户所偏好的插入对象；

所述插入对象确定子模块3405包括：

插入对象确定单元34051，用于将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，和/或，用户所偏好的插入对象，确定为各所述源视频关键词对应的插入对象。

优选地，所述目标视频确定模块350包括：

显示子模块，用于在所述目标视频的预设位置显示所述对应时刻的插入对象；其中，所述预设位置所占据的显示区域小于所述目标视频的播放区域。

所述目标视频确定模块350包括：

对应时刻确定子模块，用于根据所述源视频关键词的时间标识，在所述源视频中确定比所述时间标识延迟预设时间段的对应时刻；

目标视频确定子模块，用于将所述插入对象设置所述对应时刻。

本发明实施例首先通过源视频获取模块310获取源视频的语音内容，通过文本内容确定模块320根据语音内容确定出源视频的文本内容，及文本内容的字对应在语音内容的时间标识，则根据时间标识，可以精确确定出文本内容的字在源视频中以语音形式出现的具体时刻，源视频关键词确定模块330对文本内容进行分词操作后，得到源视频关键词，源视频关键词的时间标识包括了源视频关键词所包含字的时间标识，插入对象确定模块340确定出与源视频关键词的相关度满足预设条件的插入对象后，目标视频确定模块350再根据源视频关键词的时间标识，将源视频关键词对应的插入对象设置在源视频的对应时刻，得到目标视频，即根据源视频的内容确定出与源视频相关的插入对象后，将插入对象设置在源视频的对应时刻，因此，当用户观看目标视频时，可以在设置插入对象的时刻，观看到与目标视频内容相关的插入对象，用户对插入对象的接受度就会提高，有利于该插入对象的推广。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

在一个典型的配置中，所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非持续性的电脑可读媒体(transitory media)，如调制的数据信号和载波。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程视频处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程视频处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程视频处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程视频处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种视频处理方法和一种视频处理装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

获取源视频的语音内容；

根据所述语音内容，确定文本内容，及，所述文本内容的字对应在所述语音内容的时间标识；

对所述文本内容进行分词操作，得到源视频关键词；其中，所述源视频关键词的时间标识包括：所述源视频关键词所包含字的时间标识；

2.根据权利要求1所述的方法，其特征在于，所述确定与所述源视频关键词的相关度满足预设条件的插入对象的步骤，包括：

通过所述源视频关键词与词向量词典的匹配情况，确定所述源视频关键词的词向量；其中，所述词向量词典包括：词与词向量的映射关系；

通过至少一个预设插入对象的预设插入对象关键词与词向量词典的匹配情况，确定各所述预设插入对象关键词的词向量；

分别确定所述源视频关键词的词向量，与，各所述预设插入对象关键词的词向量的距离；

将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，确定为各所述源视频关键词对应的插入对象。

3.根据权利要求2所述的方法，其特征在于，所述将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，确定为各所述源视频关键词对应的插入对象的步骤之前，还包括：

根据用户对各所述预设插入对象的历史选择记录，确定用户所偏好的插入对象；

所述将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，确定为各所述源视频关键词对应的插入对象的步骤，包括：

将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，和/或，用户所偏好的插入对象，确定为各所述源视频关键词对应的插入对象。

4.根据权利要求1所述的方法，其特征在于，所述显示所述对应时刻的插入对象的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述源视频关键词的时间标识，将所述插入对象设置在源视频的对应时刻的步骤，包括：

将所述插入对象设置所述对应时刻。

6.一种视频处理装置，其特征在于，所述装置包括：

语音内容获取模块，用于获取源视频的语音内容；

目标视频确定模块，用于根据所述源视频关键词对应的时间标识，将所述插入对象设置在源视频的对应时刻，得到目标视频；以使当所述目标视频播放至所述对应时刻时，显示所述对应时刻的插入对象。

7.根据权利要求6所述的装置，其特征在于，所述插入对象确定模块包括：

源视频关键词词向量确定子模块，用于通过所述源视频关键词与词向量词典的匹配情况，确定所述源视频关键词的词向量；其中，所述词向量词典包括：词与词向量的映射关系；

预设插入对象关键词词向量确定子模块，用于通过至少一个预设插入对象的预设插入对象关键词与词向量词典的匹配情况，确定各所述预设插入对象关键词的词向量；

距离确定子模块，用于分别确定所述源视频关键词的词向量，与，各所述预设插入对象关键词的词向量的距离；

插入对象确定子模块，用于将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，确定为各所述源视频关键词对应的插入对象。

8.根据权利要求7所述的装置，其特征在于，所述插入对象确定模块还包括：

用户所偏好插入对象确定模块，用于根据用户对各所述预设插入对象的历史选择记录，确定用户所偏好的插入对象；

所述插入对象确定子模块包括：

插入对象确定单元，用于将所述距离小于预设阈值的预设插入对象关键词对应的插入对象，和/或，用户所偏好的插入对象，确定为各所述源视频关键词对应的插入对象。

9.根据权利要求6所述的装置，其特征在于，所述目标视频确定模块包括：

10.根据权利要求6所述的装置，其特征在于，所述目标视频确定模块包括：