CN113891133B

CN113891133B - 多媒体信息的播放方法、装置、设备及存储介质

Info

Publication number: CN113891133B
Application number: CN202111479174.7A
Authority: CN
Inventors: 蒲黎明; 陆勤; 赵中州; 张佶
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Hangzhou Alibaba Cloud Feitian Information Technology Co ltd
Priority date: 2021-12-06
Filing date: 2021-12-06
Publication date: 2022-04-22
Anticipated expiration: 2041-12-06
Also published as: CN113891133A

Abstract

本公开涉及一种多媒体信息的播放方法、装置、设备及存储介质。本公开通过获取包括目标对象的视频信息，并将所述视频信息切分为多个子视频，根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频，从而可以在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。使得用户在听主播讲解该目标对象的同时可以观看到与当前的讲解内容匹配的画面，从而极大地丰富了直播间的视觉呈现力。

Description

多媒体信息的播放方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种多媒体信息的播放方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，网上购物的方式极大的提高了人们生活的便利性。并且随着直播技术的发展，越来越多的用户通过观看直播视频进行购物。例如，用户在观看直播视频时，一方面可以听主播讲解商品的相关信息，另一方面可以直观的看到直播视频所呈现的商品。

通常情况下，直播视频中的主播可以是真实人物，也可以是虚拟人物。但是，当虚拟人物在播报商品的相关信息时，直播视频中呈现的画面是商品的几张图片，从而导致直播视频的视觉呈现力较差，用户体验不好。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种多媒体信息的播放方法、装置、设备及存储介质，极大地丰富了直播间的视觉呈现力。

第一方面，本公开实施例提供一种多媒体信息的播放方法，包括：

获取包括目标对象的视频信息；

将所述视频信息切分为多个子视频；

根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频；

在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。

第二方面，本公开实施例提供一种多媒体信息的播放装置，包括：

获取模块，用于获取包括目标对象的视频信息；

切分模块，用于将所述视频信息切分为多个子视频；

确定模块，用于根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频；

播放模块，用于在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的多媒体信息的播放方法、装置、设备及存储介质，通过获取包括目标对象的视频信息，并将所述视频信息切分为多个子视频，根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频，从而可以在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。使得用户在听主播讲解该目标对象的同时可以观看到与当前的讲解内容匹配的画面，从而极大地丰富了直播间的视觉呈现力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的多媒体信息的播放方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开另一实施例提供的多媒体信息的播放方法流程图；

图4为本公开实施例提供的用户界面示意图；

图5为本公开另一实施例提供的用户界面示意图；

图6为本公开另一实施例提供的多媒体信息的播放方法流程图；

图7为本公开另一实施例提供的多媒体信息的播放方法流程图；

图8为本公开另一实施例提供的多媒体信息的播放方法流程图；

图9为本公开另一实施例提供的多媒体信息的播放方法流程图；

图10为本公开实施例提供的多媒体信息的播放装置的结构示意图；

图11为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

随着直播的发展，越来越多的用户通过观看直播来进行购物。用户在观看直播时，一方面是听主播讲解商品功能、卖点和优惠等内容，另一方面，是从视觉上更加直接地看到商品的模样。从一定程度上讲，视觉冲击力是促成用户购买商品的重要因素。通常情况下，直播视频中的主播可以是真实人物，或者可以是虚拟人物。该虚拟人物可以是三维（3-dimensional，3D）虚拟人，以3D虚拟人形象存在于直播间进行直播的人工智能主播称为虚拟主播。其中，在虚拟主播的场景中，虚拟主播通过剧本播报商品的相关信息，同时需要通过一定的视觉呈现来表达商品及其特点，从而像真人直播一样给用户带来视觉冲击力。

但是，当虚拟人物在播报商品的相关信息时，直播视频中呈现的画面是商品的几张图片，从而导致直播视频的视觉呈现力较差，用户体验不好。针对该问题，本公开实施例提供了一种多媒体信息的播放方法，该方法不仅可以应用于电商直播，还可以应用在其他场景，例如教育、旅游、娱乐等。为了方便理解，下面实施例以电商直播为例进行示意性说明。下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的多媒体信息的播放方法流程图。具体的，该方法可以由终端、服务器等设备来执行。例如终端，具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。服务器具体可以是云平台服务器。例如该方法可以适用于如图2所示的应用场景，其中，终端21可用于向服务器22提供商品的视频信息，服务器22可以将视频信息切分为多个子视频，并将多个子视频和用于描述该商品的剧本中的句子对齐，从而得到直播视频。进一步，终端21或终端23可以从服务器22获取直播视频，并播放该直播视频。如图1所示，该方法具体步骤如下：

S101、获取包括目标对象的视频信息。

如图2所示，终端21可用于拍摄商品主图视频，商品主图视频是商品主图位置的视频，这类视频一般由商家精心拍摄，从各个方面展现出商品的特点。在本实施例中，可以将该商品记为目标对象，该商品主图视频记为包括目标对象的视频信息。进一步，终端21可以将该商品主图视频发送给服务器22，从而使得服务器22可以获取到该商品主图视频。

S102、将所述视频信息切分为多个子视频。

通常情况下，该商品主图视频是一段完整的长视频，具有顺序性和多个内容片段。因此，当服务器22接收到该商品主图视频后，可以对视频信息进行切分，例如，把一段长视频根据语义信息切分为多个片段的子视频。

具体的，本公开实施例可以通过如下几种可行的实现方式，将所述视频信息切分为多个子视频。

在一种可行的实现方式中，将所述视频信息切分为多个子视频，包括：按照预设的时间间隔，将所述视频信息切分为多个子视频。

例如，服务器22可以按照预设的时间间隔，将该商品主图视频切分为多个子视频。每个子视频可以是5-6秒的片段。

在另一种可行的实现方式中，将所述视频信息切分为多个子视频，包括：根据所述视频信息中相邻两帧图像之间的差异度，将所述视频信息切分为多个子视频，同一子视频内相邻两帧图像之间的差异度小于或等于预设阈值。

例如，服务器22可以根据该商品主图视频中相邻两帧图像之间的差异度，将该商品主图视频切分为多个子视频。其中，相邻两帧图像之间的差异度可以是相邻两帧图像之间颜色的差异度。例如，该商品主图视频是商品在多个场景下拍摄的，当该商品主图视频中相邻两帧图像之间颜色的差异度小于或等于预设阈值时，说明该商品在同一场景下。当该商品主图视频中相邻两帧图像之间颜色的差异度大于预设阈值时，说明该商品所处的拍摄场景发生了变化。通过这种方式，可以将视频信息切分为该商品在每个场景下的多个子视频，也就是说，在同一子视频内，该商品所处的拍摄场景没有变化。不同子视频中，该商品所处的拍摄场景不同。同一子视频内相邻两帧图像之间的差异度小于或等于预设阈值。

S103、根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频。

例如，当服务器22将视频信息切分为多个子视频后，服务器22可以将该多个子视频和用于描述该商品的剧本中的每个句子进行对齐处理。具体的，用于描述该商品的剧本可以是虚拟主播针对该商品进行讲解时的文本文案即预设文本。在对齐处理过程中，服务器22可以根据多个子视频中每个子视频的相关信息和该剧本中每个句子的相关信息，确定与每个句子匹配的子视频。

S104、在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。

例如，商品主图视频被切分为100个子视频，剧本中包括50个句子。根据上述步骤S103可以从100个子视频中确定出与每个句子匹配的子视频。可以理解的是，针对某个句子，与该句子匹配的子视频可以是一个或多个。进一步，服务器22可以将每个句子分别转换为音频信息，以及将每个句子转换为字幕，并将每个句子对应的字幕融合到与该句子匹配的子视频中。可以理解的是，在其他一些实施例中，可以不将每个句子对应的字幕融合到与该句子匹配的子视频中。进一步，将每个句子对应的音频信息进行编码得到音频流，将与每个句子匹配的子视频进行编码得到视频流。当服务器22将同一个句子对应的音频流和视频流发送到终端23时，终端23可以对音频流和视频流分别进行解码，得到该句子对应的音频信息和子视频，从而使得终端23在播放该句子对应的音频信息时可以同步播放与该句子匹配的子视频。

可以理解的是，本公开实施例提供的多媒体信息的播放方法不仅可以适用于图2所示的应用场景，另外，还可以适用于其他的应用场景。例如，终端可以拍摄获得商品主图视频，并将该商品主图视频切分为多个子视频。进一步，该终端可以确定出与剧本中每个句子匹配的子视频，并在播放某个句子对应的音频信息时，同步播放与该句子匹配的子视频。

或者在另外一些应用场景中，终端拍摄获得商品主图视频，并将该商品主图视频切分为多个子视频。另外，终端可以接收服务器推送的直播视频流和直播音频流，终端对直播视频流和直播音频流分别进行解码后得到直播视频和直播音频，该直播视频可以是虚拟人物的直播视频，该直播音频可以是用于描述该商品的剧本所对应的音频。终端可以将该音频转换为文本，并根据该文本中的每个句子，确定出与该句子匹配的子视频。进一步，当该终端播放该句子对应的音频时，同步播放与该句子匹配的子视频。

本公开实施例通过获取包括目标对象的视频信息，并将所述视频信息切分为多个子视频，根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频，从而可以在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。使得用户在听主播讲解该目标对象的同时可以观看到与当前的讲解内容匹配的画面，从而极大地丰富了直播间的视觉呈现力。

在本公开实施例中，直播视频中的主播可以是真实人物，或者可以是虚拟人物。下面以虚拟人物为例进行介绍。

具体的，在虚拟人物播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频，包括如图3所示的如下几个步骤：

S301、播放直播视频，所述直播视频包括虚拟人物。

例如，如图2所示的服务器22可以向终端23发送直播视频流、每个句子对应的音频流和子视频流。其中，子视频流可以融合在直播视频流中，或者直播视频流和子视频流可以是两条独立的数据流。

例如，直播视频流和子视频流是两条数据流。当终端23接收到直播视频流、每个句子对应的音频流和子视频流时，可以对直播视频流、每个句子对应的音频流和子视频流分别进行解码，得到直播视频、每个句子对应的音频信息和子视频，其中，直播视频包括虚拟人物。终端23可以播放该直播视频，使得终端23的用户界面中可以显示如图4所示的虚拟人物。

S302、在所述虚拟人物播报所述句子对应的音频信息时，获取与所述音频信息对应的子视频。

当虚拟人物播报某个句子对应的音频信息时，终端23可以获取与该音频信息对应的子视频。

S303、播放与所述音频信息对应的子视频。

例如图4所示，终端23可以在用户界面的第一区域41中播放直播视频即显示虚拟人物。当虚拟人物播报某个句子对应的音频信息时，终端23可以获取与该音频信息对应的子视频，并在该用户界面的第二区域42中播放与该音频信息对应的子视频。其中，如图4所示的第一区域和第二区域只是示意性说明，并不具体限定两者之间的相对位置关系。

在其他实施例中，子视频流可以融合在直播视频流中，在这种情况下，所述直播视频包括所述子视频和所述虚拟人物，其中，所述虚拟人物和所述虚拟人物关联的背景画面位于所述直播视频的主画面中。

例如，子视频的画面是直播视频画面的一部分。该直播视频的主画面包含虚拟人物和该虚拟人物关联的背景画面。例如图5所示，当虚拟人物播报的句子“xxxxxxxxxxx”没有匹配的子视频时，终端23的用户界面可以显示该虚拟人物和该虚拟人物关联的背景画面，并且该虚拟人物和该虚拟人物关联的背景画面显示在主画面51中。当虚拟人物后续播报的句子“yyyyyy”对应有匹配的子视频时，可以将虚拟人物显示在第一区域41中，并在第二区域42中播放与“yyyyyy”匹配的子视频。

本实施例中，由于商家制作的商品主图视频的内容更加丰富、不同帧数多、视频镜头多、连续性更强，因此，从商品主图视频中提取到的与剧本中每个句子匹配的子视频的视觉呈现力更强。当虚拟人物播报某个句子对应的音频信息时，通过获取与该音频信息对应的子视频，可使得用户在听虚拟人物播报该音频信息的同时可以观看到与该音频信息对应的子视频，从而能够更加吸引用户观看虚拟人物的直播视频。

在其他一些实施例中，将所述视频信息切分为多个子视频之后，还可以针对每个子视频进行如下至少一种处理：根据所述子视频的视频特性，确定所述子视频的标签信息，所述视频特性包括声音、画面变化、画面内容中的至少一个；对所述子视频进行编码，得到所述子视频的特征向量。

如图6所示，对商品主图视频进行视频切分得到子视频1、子视频2、…、子视频N后，一种方式可以进一步识别子视频的标签信息，另一种方式可以进一步对子视频进行编码，再一种方式可以同时识别子视频的标签信息和对子视频进行编码。

其中，识别子视频的标签信息可以有多种实现方式，一种实现方式是根据每个子视频的视频特性，确定该子视频的标签信息。该视频特性可以包括声音、画面变化、画面内容中的至少一个。另一种实现方式是对切分后得到的子视频1、子视频2、…、子视频N进行分类，从而识别出每个子视频的类别标签。具体可以通过多模态模型识别出每个子视频的类别标签，该多模态模型是能处理视频和文本两个模态的深度学习模型，通常可以用来判断视频和文本是否匹配、抽取视频向量做下游任务等。另外，该多模态模型还可以用于判断剧本句子的标签信息和子视频的标签信息是否匹配。

如图6所示，对子视频进行编码是为了得到子视频的特征向量，子视频的特征向量也可以记为子视频的向量。具体的，可以通过多模态模型对子视频进行编码。

因此，每个子视频的相关信息可以是每个子视频的标签信息和/或特征向量。每个句子的相关信息可以是每个句子的标签信息和/或向量。

相应的，根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频，包括：根据所述多个子视频中每个子视频的标签信息和所述用于描述所述目标对象的预设文本中每个句子的标签信息，确定与每个所述句子匹配的子视频；和/或根据所述多个子视频中每个子视频的特征向量和所述用于描述所述目标对象的预设文本中每个句子的向量，确定与每个所述句子匹配的子视频。

例如图6所示，在一种可能的方式中，在确定出每个子视频的标签信息之后，判断剧本句子的标签信息和子视频的标签信息是否匹配，以便从子视频1、子视频2…子视频N中确定出与剧本句子匹配的子视频。

在另一种可能的方式中，在确定出每个子视频的特征向量之后，判断剧本句子的向量和子视频的向量是否匹配，以便从子视频1、子视频2…子视频N中确定出与剧本句子匹配的子视频。

在又一种可能的方式中，如图6所示的“识别子视频的标签信息”和“对子视频编码”同时执行，“判断剧本句子的标签信息和子视频的标签信息是否匹配”和“判断剧本句子的向量和子视频的向量是否匹配”同时执行。例如，根据标签信息确定出子视频1是与剧本句子匹配的子视频，根据特征向量确定出子视频2是与剧本句子匹配的子视频，因此，与剧本句子匹配的子视频包括子视频1和子视频2。或者，根据标签信息和特征向量分别确定出的与剧本句子匹配的子视频可能是相同。

在再一种可能的方式中，如图6所示的“识别子视频的标签信息”可以先于“对子视频编码”执行，“判断剧本句子的标签信息和子视频的标签信息是否匹配”先于“判断剧本句子的向量和子视频的向量是否匹配”执行。同理，根据标签信息和特征向量分别确定出的与剧本句子匹配的子视频可能相同，也可能不同。

本实施例通过将商家制作的商品主图视频切分为多个子视频，并确定出与剧本中每个句子匹配的子视频，从而使得子视频和句子可以相互对应、相互匹配。同时，可以过滤掉与剧本内容不相关的子视频，从而避免播放与剧本内容不相关的子视频或者不适合播放的子视频。另外，本实施例可以通过两种方式确定与剧本句子匹配的子视频，一种方式是通过标签信息确定与剧本句子匹配的子视频，另一种方式是通过特征向量确定与剧本句子匹配的子视频，这两种方式之间可以互相补充，从而能够有效应对无标签信息或无特征向量导致的匹配失败的问题，增大了剧本句子与商品主图视频之间匹配结果的覆盖度。

在一些情况下，商家录制的商品主图视频中可能同时包括音频信息和画面，从而使得商品主图视频被切分后得到的子视频中也包括音频信息。因此，可以对子视频中的音频信息或商品主图视频中的音频信息进行处理，从而避免该子视频中的音频信息和虚拟人物播报的音频信息相冲突。下面结合具体的实施例对几种可能的处理方式进行详细说明。

图7为本公开另一实施例提供的多媒体信息的播放方法流程图。该方法包括如下几个步骤：

S701、获取包括目标对象的视频信息。

如图6所示，获取商家录制的商品主图视频。

S702、将所述视频信息切分为多个子视频。

例如，对商品主图视频进行视频切分得到子视频1、子视频2、…、子视频N。

S703、根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频。

例如，根据多个子视频中每个子视频的标签信息和剧本中每个句子的标签信息，确定与每个句子匹配的子视频。或者根据多个子视频中每个子视频的特征向量和剧本中每个句子的向量，确定与每个句子匹配的子视频。具体过程可以参照上述实施例所述的相关内容，此处不赘述。

S704、去除与每个所述句子匹配的子视频中的音频信息。

如图6所示，在选择出与剧本句子匹配的子视频之后，还可以对选择出的与剧本句子匹配的子视频进行后处理，从而得到与剧本句子匹配的子视频列表。此处的后处理包括去音轨、格式转换等。所谓的去音轨例如可以是去除子视频中原有的音频信息。

S705、在播放所述句子对应的音频信息时，同步播放与所述句子匹配的被去除掉音频信息的子视频。

例如，剧本中的第一个句子与子视频1相匹配，因此，可以去除子视频1中的音频信息，使得子视频1只保留有画面。当虚拟人物播报第一个句子对应的音频信息时，同步播放去除掉音频信息的子视频1，即播放子视频1的画面。从而可以避免子视频1中原有的音频信息对虚拟人物播报的音频信息造成影响。

本公开实施例通过将商品主图视频切分为多个子视频，计算每个子视频的标签信息和/或特征向量，并根据每个子视频的标签信息和/或特征向量，确定出与剧本中每个句子匹配的子视频后，去除掉匹配到的子视频中的音频信息。从而使得每个子视频的画面、音频等信息可以参与到标签信息和/或特征向量的计算过程中，从而使得计算出的标签信息和/或特征向量的准确度更高。

另外，在一些实施例中，将商品主图视频切分为多个子视频之后，可以先去除每个子视频中的音频信息，进一步，计算每个子视频的标签信息和/或特征向量。例如图8所示的另一实施例提供的多媒体信息的播放方法流程图。该方法包括如下几个步骤：

S801、获取包括目标对象的视频信息。

S802、将所述视频信息切分为多个子视频。

S803、去除所述多个子视频中每个子视频中的音频信息。

S804、根据被去除掉音频信息的子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的被去除掉音频信息的子视频。

S805、在播放所述句子对应的音频信息时，同步播放与所述句子匹配的被去除掉音频信息的子视频。

具体的，S801-S805中的每个步骤的具体实现过程可以参照上述实施例中所述的相关内容，此处不再赘述。与上述实施例有所不同的时，去除子视频中的音频信息是在将所述视频信息切分为多个子视频之后执行的，这种方式可以避免重复去除同一个子视频中的音频信息。例如，句子A与子视频1相匹配，句子B也与子视频1相匹配，如果在确定与每个句子匹配的子视频之后，再去除匹配到的子视频中的音频信息，那么需要对子视频1进行两次去除音频信息的操作。如果在确定与每个句子匹配的子视频之前，去除每个子视频中的音频信息，那么同一个子视频中的音频信息只需去除一次即可。

通常情况下，商家录制的商品主图视频可以是长视频，在其他一些实施例中，在获取到商家录制的商品主图视频之后，可以去掉该商品主图视频中的音频信息，进一步，对去掉音频信息的商品主图视频进行切分得到多个子视频，如此可以保证每个子视频中没有音频信息。

图9为本公开另一实施例提供的多媒体信息的播放方法流程图。该方法包括如下几个步骤：

S901、获取包括目标对象的视频信息。

S902、去除所述视频信息中的音频信息。

S903、将去除掉音频信息的所述视频信息切分为多个子视频。

S904、根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频。

S905、在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。

具体的，S901-S905中的每个步骤的具体实现过程可以参照上述实施例中所述的相关内容，此处不再赘述。与上述实施例有所不同的时，在获取到商家录制的商品主图视频之后，去掉该商品主图视频中的音频信息，进一步，对去掉音频信息的商品主图视频进行切分得到多个子视频。

本实施例通过在播放所述句子对应的音频信息时，同步播放与所述句子匹配的被去除掉音频信息的子视频，增强了直播间商品的视觉呈现力，使得直播间视频可以与剧本内容联动播放，用户在观看虚拟主播时可以有更好的体验。此外，本公开实施例不仅可以应用于剧本句子和商品主图视频之间的对齐处理，同时还可以应用于剧本句子和短视频或直播视频之间的对齐处理，具有一定的通用性和灵活性。

图10为本公开实施例提供的多媒体信息的播放装置的结构示意图。本公开实施例提供的多媒体信息的播放装置可以执行多媒体信息的播放方法实施例提供的处理流程，如图10所示，多媒体信息的播放装置100包括：

获取模块101，用于获取包括目标对象的视频信息；

切分模块102，用于将所述视频信息切分为多个子视频；

确定模块103，用于根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频；

播放模块104，用于在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。

可选的，所述播放模块104还可用于：播放直播视频，所述直播视频包括虚拟人物；在所述虚拟人物播报所述句子对应的音频信息时，获取与所述音频信息对应的子视频；播放与所述音频信息对应的子视频。

可选的，所述直播视频包括所述子视频和所述虚拟人物，其中，所述虚拟人物和所述虚拟人物关联的背景画面位于所述直播视频的主画面中。

可选的，切分模块102具体用于：按照预设的时间间隔，将所述视频信息切分为多个子视频。

可选的，切分模块102具体用于：根据所述视频信息中相邻两帧图像之间的差异度，将所述视频信息切分为多个子视频，同一子视频内相邻两帧图像之间的差异度小于或等于预设阈值。

可选的，所述装置还包括：处理模块105，用于在切分模块将所述视频信息切分为多个子视频之后，针对每个子视频进行如下至少一种处理：根据所述子视频的视频特性，确定所述子视频的标签信息，所述视频特性包括声音、画面变化、画面内容中的至少一个；对所述子视频进行编码，得到所述子视频的特征向量。

可选的，确定模块103具体用于：根据所述多个子视频中每个子视频的标签信息和所述用于描述所述目标对象的预设文本中每个句子的标签信息，确定与每个所述句子匹配的子视频；和/或根据所述多个子视频中每个子视频的特征向量和所述用于描述所述目标对象的预设文本中每个句子的向量，确定与每个所述句子匹配的子视频。

可选的，所述装置还包括去除模块106，去除模块106用于去除与每个所述句子匹配的子视频中的音频信息；相应的，播放模块104具体用于：在播放所述句子对应的音频信息时，同步播放与所述句子匹配的被去除掉音频信息的子视频。

可选的，确定模块103具体用于：根据被去除掉音频信息的子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的被去除掉音频信息的子视频。

可选的，去除模块106还用于：在获取模块101获取目标对象的视频信息之后，去除所述视频信息中的音频信息；相应的，切分模块102具体用于：将去除掉音频信息的所述视频信息切分为多个子视频。

图10所示实施例的多媒体信息的播放装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了多媒体信息的播放装置的内部功能和结构，该装置可实现为一种电子设备。图11为本公开实施例提供的电子设备实施例的结构示意图。如图11所示，该电子设备包括存储器111和处理器112。

存储器111用于存储程序。除上述程序之外，存储器111还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器111可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器112与存储器111耦合，执行存储器111所存储的程序，以用于：获取包括目标对象的视频信息；将所述视频信息切分为多个子视频；根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频；在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频。

进一步，如图11所示，电子设备还可以包括：通信组件113、电源组件114、音频组件115、显示器116等其它组件。图11中仅示意性给出部分组件，并不意味着电子设备只包括图11所示组件。

通信组件113被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件113经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件113还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件114，为电子设备的各种组件提供电力。电源组件114可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件115被配置为输出和/或输入音频信号。例如，音频组件115包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器111或经由通信组件113发送。在一些实施例中，音频组件115还包括一个扬声器，用于输出音频信号。

显示器116包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的多媒体信息的播放方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多媒体信息的播放方法，其中，所述方法包括：

获取包括目标对象的视频信息；

将所述视频信息切分为多个子视频；

在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频；

在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频，包括：

播放直播视频，所述直播视频包括虚拟人物；

在所述虚拟人物播报所述句子对应的音频信息时，获取与所述音频信息对应的子视频；

播放与所述音频信息对应的子视频。

2.根据权利要求1所述的方法，其中，所述直播视频包括所述子视频和所述虚拟人物，所述虚拟人物和所述虚拟人物关联的背景画面位于所述直播视频的主画面中。

3.根据权利要求1所述的方法，其中，将所述视频信息切分为多个子视频，包括：

按照预设的时间间隔，将所述视频信息切分为多个子视频；或者

根据所述视频信息中相邻两帧图像之间的差异度，将所述视频信息切分为多个子视频，同一子视频内相邻两帧图像之间的差异度小于或等于预设阈值。

4.根据权利要求1-3任一项所述的方法，其中，将所述视频信息切分为多个子视频之后，针对每个子视频进行如下至少一种处理：

根据所述子视频的视频特性，确定所述子视频的标签信息，所述视频特性包括声音、画面变化、画面内容中的至少一个；

对所述子视频进行编码，得到所述子视频的特征向量。

5.根据权利要求4所述的方法，其中，根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频，包括：

根据所述多个子视频中每个子视频的标签信息和所述用于描述所述目标对象的预设文本中每个句子的标签信息，确定与每个所述句子匹配的子视频；和/或

根据所述多个子视频中每个子视频的特征向量和所述用于描述所述目标对象的预设文本中每个句子的向量，确定与每个所述句子匹配的子视频。

6.根据权利要求1所述的方法，其中，所述方法还包括：

去除与每个所述句子匹配的子视频中的音频信息；

相应的，在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频，包括：

在播放所述句子对应的音频信息时，同步播放与所述句子匹配的被去除掉音频信息的子视频。

7.根据权利要求6所述的方法，其中，根据所述多个子视频中每个子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的子视频，包括：

根据被去除掉音频信息的子视频的相关信息和用于描述所述目标对象的预设文本中每个句子的相关信息，确定与每个所述句子匹配的被去除掉音频信息的子视频。

8.根据权利要求1所述的方法，其中，获取目标对象的视频信息之后，所述方法还包括：

去除所述视频信息中的音频信息；

相应的，将所述视频信息切分为多个子视频，包括：

将去除掉音频信息的所述视频信息切分为多个子视频。

9.一种多媒体信息的播放装置，其中，包括：

获取模块，用于获取包括目标对象的视频信息；

切分模块，用于将所述视频信息切分为多个子视频；

播放模块，用于在播放所述句子对应的音频信息时，同步播放与所述句子匹配的子视频；

所述播放模块还用于：

播放直播视频，所述直播视频包括虚拟人物；

播放与所述音频信息对应的子视频。

10.根据权利要求9所述的装置，其中，所述直播视频包括所述子视频和所述虚拟人物，所述虚拟人物和所述虚拟人物关联的背景画面位于所述直播视频的主画面中。

11.根据权利要求9-10任一项所述的装置，其中，所述装置还包括：处理模块，用于在切分模块将所述视频信息切分为多个子视频之后，针对每个子视频进行如下至少一种处理：

对所述子视频进行编码，得到所述子视频的特征向量。

12.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的方法。