CN113392273A

CN113392273A - 视频播放方法、装置、计算机设备及存储介质

Info

Publication number: CN113392273A
Application number: CN202011629499.4A
Authority: CN
Inventors: 熊章俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-09-14

Abstract

本申请关于一种视频播放方法、装置、计算机设备及存储介质，涉及视频技术领域。该方法包括：获取第一视频在目标终端中的视频播放进度；响应于视频播放进度指示第一视频播放到第一视频片段，获取第二视频片段；该第二视频片段与第一视频片段具有相同的情境特征；该第二视频片段是对应情境特征的语言学习素材；推送第二视频片段，以便目标终端响应于接收到基于第二视频片段的视频播放操作，播放第二视频片段；通过上述方案，在用户观看视频的过程中，能够实现基于用户观看的视频片段，自动向用户推送具有相同的情境特征的语言学习素材，从而满足用户对指定情境下的语言学习的需求，提高对语言学习素材的推送效率。

Description

视频播放方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及视频技术领域，特别涉及一种视频播放方法、装置、计算机设备及存储介质。

背景技术

在语言学习的过程中，为了增加学习过程的趣味性，出现了以视频播放的形式进行语言教学的方式。

在相关技术中，用户在具有语言学习需求时，需要通过专业的学习软件，预先在服务器中设置若干视频形式的语言学习素材，以使得用户根据自身需求选择相应的语言学习素材进行点击播放，达到语言学习的目的。

然而，在上述方案中，用户在进行语言学习时，需要通过用户基于自身需求主动搜索学习素材进行播放，导致用户操作繁琐，影响语言学习素材的选择效率。

发明内容

本申请实施例提供了一种视频播放方法、装置、计算机设备及存储介质，可以满足用户对指定情境下的语言学习的需求，提高对语言学习素材的推送效率，该技术方案如下：

一方面，提供了一种视频播放方法，所述方法包括：

获取第一视频在目标终端中的视频播放进度；

响应于所述视频播放进度指示所述第一视频播放到第一视频片段，获取第二视频片段；所述第二视频片段与所述第一视频片段具有相同的情境特征；所述第二视频片段是对应所述情境特征的语言学习素材；

推送所述第二视频片段，以便所述目标终端响应于接收到基于所述第二视频片段的视频播放操作，播放所述第二视频片段。

另一方面，提供了一种视频播放方法，所述方法包括：

播放第一视频；

响应于播放到所述第一视频中的第一视频片段，展示语言学习控件；

响应于接收到对所述语言学习控件的触发操作，播放第二视频片段；所述第二视频片段与所述第一视频片段具有相同的情境特征；所述第二视频片段是对应所述情境特征的语言学习素材。

另一方面，提供了一种视频播放装置，所述装置包括：

播放进度获取模块，用于获取第一视频在目标终端中的视频播放进度；

第二视频片段获取模块，用于响应于所述视频播放进度指示所述第一视频播放到第一视频片段，获取第二视频片段；所述第二视频片段与所述第一视频片段具有相同的情境特征；所述第二视频片段是对应所述情境特征的语言学习素材；

第二视频片段推送模块，推送所述第二视频片段，以便所述目标终端响应于接收到基于所述第二视频片段的视频播放操作，播放所述第二视频片段。

在一种可能的实现方式中，在所述播放进度获取模块获取第一视频在目标终端中的视频播放进度之前，所述装置还包括：

情境特征获取模块，用于获取目标视频片段的情境特征，所述目标视频片段包括所述第一视频片段和所述第二视频片段；

情境特征标签添加模块，用于基于所述目标视频片段的情境特征，为所述目标视频片段添加对应的情境特征标签；

关联关系建立模块，用于响应于所述第一视频片段的情境特征标签与所述第二视频片段的情境特征标签满足指定条件，建立所述第一视频片段与所述第二视频片段之间的关联关系；

所述第二视频片段获取模块，用于响应于所述视频播放进度指示所述第一视频播放到第一视频片段，基于所述第一视频片段与所述第二视频片段之间的关联关系，获取所述第二视频片段。

在一种可能的实现方式中，所述情境特征获取模块，包括：

文本信息获取子模块，用于获取所述目标视频片段对应的文本信息；

情境特征获取子模块，用于基于所述目标视频片段对应的文本信息，获取所述目标视频片段的情境特征。

在一种可能的实现方式中，文本信息获取子模块，用于响应于所述目标视频片段具有字幕信息，将所述字幕信息确定为所述目标视频片段对应的文本信息；

响应于所述目标视频片段具有音频信息，对所述音频信息进行语音识别，获得所述目标视频片段对应的文本信息。

在一种可能的实现方式中，所述情境特征获取子模块，用于对所述目标视频片段对应的文本信息进行自然语言处理，获得所述目标视频片段的所述情境特征。

在一种可能的实现方式中，所述目标视频片段是目标视频中指定时间区间内的视频片段，所述装置还包括：

时间线获取模块，用于获取所述目标视频片段的时间线，所述时间线用以指示所述目标视频片段在所述目标视频中的起止位置；

时间线标签添加模块，用于基于所述目标视频片段的时间线，为所述目标视频片段添加对应的时间线标签；

所述第二视频片段获取模块，包括：

时间线标签获取子模块，用于响应于所述视频播放进度指示所述第一视频播放到第一视频片段，基于所述第一视频片段与所述第二视频片段之间的关联关系，获取所述第二视频片段的所述时间线标签；

第二视频片段获取子模块，用于基于所述第二视频片段的所述时间线标签从所述第二视频中获取所述第二视频片段。

在一种可能的实现方式中，所述情境特征获取模块，用于实时提取所述第一视频片段的情境特征；所述第一视频片段是所述第一视频中正在播放的视频片段；

所述第二视频片段获取模块，用于基于所述第一视频片段的情境特征，从各个语言学习素材中获取所述第二视频片段。

在一种可能的实现方式中，播放进度获取模块在获取第一视频在目标终端中的视频播放进度之前，所述装置还包括：

第二视频片段生成模块，用于响应于所述第二视频片段对应的原始视频片段的语言为非目标语言，基于所述原始视频片段生成对应目标语言的所述第二视频片段。

在一种可能的实现方式中，所述第二视频片段生成模块，包括：

原始文本信息获取子模块，用于获取所述原始视频片段对应的原始文本信息；

翻译文本信息获取子模块，用于对所述原始文本信息进行翻译，获得翻译文本信息，所述翻译文本信息是对应所述目标语言的文本信息；

音频信息获取子模块，用于基于所述翻译文本信息进行文本转语音处理，获得所述翻译文本信息对应的音频信息；

所述第二视频片段获取子模块，用于将所述原始视频片段的音频信息替换为所述翻译文本信息对应的音频信息，获得所述第二视频片段。

在一种可能的实现方式中，在所述第二视频片段生成模块响应于所述第二视频片段对应的原始视频片段的语言为非目标语言，基于所述原始视频片段生成对应目标语言的所述第二视频片段之前，所述装置还包括：

用户画像获取模块，用于获取所述目标终端对应的用户账号的用户画像；

目标语言确定模块，用于基于所述用户画像确定所述目标语言；

所述第二视频片段获取子模块，用于基于所述目标语言，获取所述第二视频片段。

另一方面，提供一种视频播放装置，所述装置包括：

视频播放模块，用于播放第一视频；

语言学习控件展示模块，用于响应于播放到所述第一视频中的第一视频片段，展示语言学习控件；

所述视频播放模块，用于响应于接收到对所述语言学习控件的触发操作，播放第二视频片段；所述第二视频片段与所述第一视频片段具有相同的情境特征；所述第二视频片段是对应所述情境特征的语言学习素材。

另一方面，提供了一种计算机设备，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述各种可选实现方式中提供的视频播放方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序；所述计算机程序由处理器加载并执行以实现如上所述各种可选实现方式中提供的视频播放方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的视频播放方法。

本申请提供的技术方案可以包括以下有益效果：

通过在第一视频的播放过程中，获取与第一视频片段具有相同情境特征的第二视频片段作为语言学习素材，并向目标终端推送该第二视频片段，从而使得目标终端在接收到基于该第二视频片段的播放操作后，播放第二视频片段；通过上述方案，在用户观看视频的过程中，能够实现基于用户观看的视频片段，自动向用户推送具有相同的情境特征的语言学习素材，从而满足用户对指定情境下的语言学习的需求，提高对语言学习素材的推送效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一示例性实施例提供的视频播放系统的示意图；

图2示出了本申请一个示例性实施例提供的终端的结构示意图；

图3示出了本申请一示例性示出的视频播放方法的流程图；

图4示出了本申请一示例性实施例示出的目标终端推送第二视频片段的示意图；

图5示出了本申请一示例性实施例示出的目标终端推送第二视频片段的示意图；

图6示出了本申请一示例性示出的视频播放方法的流程图；

图7示出了本申请一示例性示出的视频播放方法的流程图；

图8示出了本申请一示例性实施例示出的视频播放方法的示意图；

图9示出了本申请一示例性实施例示出的视频播放装置的方框图；

图10示出了本申请一示例性示出的视频播放装置的方框图；

图11是根据一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提出了一种视频播放方法，该可以满足用户对指定情境下的语言学习的需求，提高对语言学习素材的推送效率。为了便于理解，下面对本申请涉及的名词进行解释。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习等方向。

2)语音技术(Speech Technology)

语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

3)自然语言处理(Nature Language Processing，NLP)

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

通过NLP及其组件，可以组织大量的文本数据，执行大量的自动化任务，并解决各种问题，比如自动摘要，机器翻译，命名实体识别，关系提取，情感分析，语音识别和主题分割等。

由于文本是所有数据中最非结构化的形式，所以存在各种类型的噪声，并且在不进行任何预处理的情况下，不容易分析。因此需要对文本进行预处理，获得干净和标准化文本，使其无噪声和准备分析的过程称为文本预处理。

文本预处理的过程主要分为：去噪声，词汇归一化，目标标准化。文本预处理的结果关系自然语言处理的结果。

其中，去噪声是指，将与输出没有关系的文本(即噪声)去除，比如，语言的停用词(is，am，the，of等)，URL(Uniform Resource Locator，统一资源定位符)，社交媒体示意，标点符号和行业特定词等都可以视为是噪声因子。噪声去除的一般方法是编写嘈杂实体的字典，并用过迭代文本对象消除噪声字典中存在的标记。

词汇归一化是指将高维特征(N个不同特征)转化成低维特征(一个特征)的过程，比如：“play”，“player”，“played”，“plays”和“playing”是“play”的多种表示形式，虽然他们的含义不一样，但是在上下文中是相似的，词汇归一化就是将各种形式的单词归一化。

常用的归一化方式包括：1)词干(Steamming)：词干是消除后缀的一个基本的基于规则的过程，其中后缀包括“ing”，“ly”，“es”等等；2)词元化(Lemmatization)：词元化是一个有组织性的，逐步地获得词根的过程，利用词汇(单词的词典重要性)和词法分析(词法结构和词法关系)。

目标标准化是指通过正则表达式和手工编写的数据字典的方式固定不存在于任何标准词汇词典中的词或短语。由于文本数据通常包含不存在于任何标准词汇词典中的词或者短语，这些片段无法被搜索引擎和模型所识别，比如：首字母缩略词，带有附加词的标签和口语俚语等，使用字典查找的方法，或者正则表达式表示的方法可以会将这类词汇固定。

请参考图1，其示出了本申请一示例性实施例提供的视频播放系统的示意图，如图1所示，该视频播放系统100包括服务器110和终端120。

其中，该服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端120中安装有对应视频播放的应用程序，各个用户可通过终端120来访问应用程序的服务器，该终端可以是具有网络连接功能以及界面展示功能的终端设备，比如，终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。其中，本申请对视频播放系统中的终端和服务器的数量不进行限制。

请参考图2，其示出了本申请一个示例性的实施例提供的终端的结构示意图。如图2所示，该终端包括主板131、外部输出/输入设备132、存储器133、外部接口134、电容触控系统135以及电源136。

其中，主板131中集成有处理器和控制器等处理元件。

外部输出/输入设备132可以包括显示组件(比如显示屏)、声音播放组件(比如扬声器)、声音采集组件(比如麦克风)以及各类按键等。

存储器133中存储有程序代码和数据。

外部接口134可以包括耳机接口、充电接口以及数据接口等。

电容触控系统135可以集成在外部输出/输入设备132的显示组件或者按键中，电容触控系统135用于检测用户在显示组件或者按键上执行的触控操作。

电源136用于对终端中的其它各个部件进行供电。

终端120与服务器110之间通过通信网络相连。可选的，该通信网络是有线网络或无线网络。

可选的，该系统还可以包括管理设备(图1未示出)，该管理设备与服务器110之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

图3示出了本申请一示例性示出的视频播放方法的流程图，该方法可以由终端执行，也可以由服务器执行，也可以由终端和服务器交互执行，其中，上述终端和服务器可以实现为如图1所示的视频播放系统中的终端120和服务器110，如图3所示，该视频播放方法包括：

步骤310，获取第一视频在目标终端中的视频播放进度。

在一种可能的实现方式中，计算机设备(终端/或服务器)通过获取第一视频的播放时长来获取第一视频在目标终端中的视频播放进度，该播放时长是指当前播放时长在该第一视频总时长中的位置，比如，第一视频的总时长为40分钟，当前播放到该第一视频的第10分钟，那么，第一视频的播放时长即为10分钟，第一视频的视频播放进度也为第一视频的第10分钟；若此时，由于用户的操作，对第一视频进行快进，直接将第一视频跳转到第30分钟播放，那么，第一视频的播放时长即为30分钟，第一视频的视频播放进度变为第一视频的第30分钟。

在一种可能的实现方式中，第一视频是包含多个情境的视频片段，即在同一个视频中存在情境的转换，比如，从单人情境转换为多人情境，从面试情境转换为入职情境等等。

步骤320，响应于视频播放进度指示第一视频播放到第一视频片段，获取第二视频片段；该第二视频片段与第一视频片段具有相同的情境特征；该第二视频片段是对应情境特征的语言学习素材。

在一种可能的实现方式中，该第二视频片段可以是与第一视频片段属于同一视频的视频片段，即第二视频片段也属于第一视频；和/或，第二视频片段是与第一视频片段属于不同视频的视频片段，即计算机设备根据第一视频片段的情境特征，获取具有对应情境特征的第二视频片段。

在一种可能的实现方式中，该第二视频片段的数量至少为一个，不同的第二视频片段可以来源于不同的视频。

步骤330，推送第二视频片段，以便目标终端响应于接收到基于第二视频片段的视频播放操作，播放第二视频片段。

在一种可能的实现方式中，计算机设备可以在获取到第二视频片段之后将该第二视频片段推送给播放第一视频的目标终端。

在一种可能的实现方式中，目标终端可以在获取到第二视频片段之后，实时将该第二视频片段推送给用户，或者，目标终端也可以在检测到第一视频片段播放完成之后，将第二视频片段推送给用户。

在一种可能的实现方式中，目标终端以在第一视频的播放区域内显示悬浮窗的形式，向用户推送该第二视频片段。

对于悬浮窗中所能显示的第二视频片段的预览信息的数量，本申请不做限制，即在悬浮窗中，可以同时显示多个第二视频片段的预览信息，或者，在悬浮窗中，同一时间只显示一个第二视频片段的预览信息。

以悬浮窗中同一时间只显示一个第二视频片段的预览信息为例，在一种可能的实现方式中，响应于第二视频片段的数量大于1，为防止悬浮窗对第一视频播放区域的过多覆盖，计算机设备可以在该悬浮窗中以滚动显示的方式轮流显示第二视频片段，或者，以切换显示的方式轮流显示第二视频片段。以计算机设备在悬浮窗中以切换显示的方式轮流显示第二视频片段为例，图4示出了本申请一示例性实施例示出的目标终端推送第二视频片段的示意图，如图4所示，以目标终端在获取到第二视频片段之后即刻将该第二视频片段推送给用户为例，在第一视频的播放区域410上，叠加显示悬浮窗420，该悬浮窗420中显示有第二视频片段1的预览信息，计算机设备预先设置有各个第二视频片段的预览信息的显示时长阈值，当第二视频片段1的预览信息的显示时长达到显示时长阈值时，在悬浮窗420中显示第二视频片段2的预览信息。

在一种可能的实现方式中，目标终端可以设置有第二视频片段预览信息显示区域。

在一种可能的实现方式中，响应于视频播放进度指示第一视频播放到第一视频片段，目标终端显示该第二视频片段预览信息显示区域，在该第二视频片段预览信息显示区域显示至少一个该第二视频片段预览信息，图5示出了本申请一示例性实施例示出的目标终端推送第二视频片段的示意图，如图5所示，终端通过设置第二视频片段预览信息显示区域510，该第二视频片段预览信息显示区域510在为播放第一视频片段之前处于隐藏状态，响应于第一视频播放到第一视频片段，显示第二视频片段预览信息显示区域510，该区域内显示有至少一个第二视频片段预览信息520。

综上所述，本申请实施例提供的视频播放方法，通过在第一视频的播放过程中，获取与第一视频片段具有相同情境特征的第二视频片段作为语言学习素材，并向目标终端推送该第二视频片段，从而使得目标终端在接收到基于该第二视频片段的播放操作后，播放第二视频片段；通过上述方案，在用户观看视频的过程中，能够实现基于用户观看的视频片段，自动向用户推送具有相同的情境特征的语言学习素材，从而满足用户对指定情境下的语言学习的需求，提高对语言学习素材的推送效率。

用户在进行视频观看时，往往会有对特定情境的视频的观看需求，比如用户在观看第一视频中的某一片段时，受到该视频片段的启发，具有观看该情境下的其他视频的需求，在相关技术中，用户需要关闭当前播放的第一视频，重新进行相关情境视频的搜索，之后进行视频播放，在用户需要返回到对第一视频进行播放时，需要进行重新搜索，进度条拖动等一系列操作，才能返回到第一视频的视频播放进度。

本申请实施例所提供的视频播放方法，在用户进行视频观看时，增加语言学习功能，实现在视频观看的同时基于指定情境进行语言学习，比如，当用户在进行视频观看的过程中，从该视频的某一视频片段的内容中所表现的情境中接收到了入职会面的信息，使用户产生了该场景下的外文表达学习需求，由于该入职会面信息为中文形式，无法满足用户学习入职会面场景下的外文表达方法的需求，此时，计算机设备通过本申请提供的视频播放方法，获取到的与当前视频的情境特征相同或相似的其他语言的视频片段，并向用户终端发送其他语言的视频片段，由用户终端在当前视频片段的对应节点向用户进行推送，使得用户可以从用户终端推送的视频片段中学习到符合当前情境，同时具有外语表达的内容。

在一种可能的实现方式中，计算机设备根据第一视频与第二视频之间的关联关系，在第一视频播放到第一视频片段时，获取第二视频。其中，该关联关系是计算机设备基于对第一视频片段的情境特征与第二视频片段的情境特征进行分析生成的。

在一种可能的实现方式中，对第一视频片段的情境特征与第二视频片段的情境特征进行分析，建立第一视频片段与第二视频片段之间的关联关系的过程，可以预先进行，即预先生成第一视频片段与第二视频片段之间的关联关系。

或者，在另一种可能的实现方式中，对第一视频片段的情境特征与第二视频片段的情境特征进行分析，建立第一视频片段与第二视频片段之间的关联关系的过程，可以实时进行，即在第一视频片段的播放过程中，实时获取第一视频片段的情境特征，建立第一视频片段与第二视频片段之间的关联关系。

或者，在另一种可能的实现方式中，可以将上述两种方式结合使用，即对于预先建立有关联关系的第一视频片段，根据第一视频片段与第二视频片段之间的关联关系获取第二视频片段；对于未预先建立有关联关系的第一视频片段，响应于接收到第二视频获取指令，根据实时获取的第一视频片段的情境特征，建立第一视频片段与第二片段之间的关联关系，实时获取第二视频片段。

以第一视频片段与第二视频片段之间的关联关系，是由计算机设备基于第一视频片段的情境特征和第二视频片段的情境特征进行预先分析生成的，且该计算机设备为服务器为例，图6示出了本申请一示例性示出的视频播放方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为如图1所示的视频播放系统中的服务器，如图6所示，该视频播放方法包括：

步骤610，获取目标视频片段的情境特征，该目标视频片段包括第一视频片段和第二视频片段。

在一种可能的实现方式中，计算机设备会对视频库中的视频进行预先处理，其中，视频库中的各个视频是包含至少一个视频片段，每个视频片段对应一个情境，在进行预先处理的过程中，分别获取各个视频中的各个视频片段的情境特征。

在一种可能的实现方式中，计算机设备基于目标视频片段中的文本信息获取目标视频片段的情境特征，表现为：

获取目标视频片段对应的文本信息；

基于目标视频片段对应的文本信息，获取目标视频片段的情境特征。

在视频中，主要有三种信息表示信息，视频信息、音频信息以及文字信息(字幕信息)，其中，音频信息可以转换为文本信息，且音频信息和文字信息可以体现大部分的视频情境。响应于目标视频片段具有字幕信息，将该字幕信息确定为目标视频片段对应的文本信息；

响应于目标视频片段具有音频信息，对该音频信息进行语音识别，获得目标视频片段对应的文本信息。

在一种可能的实现方式中，在目标视频片段中不具有字幕信息时，对目标视频片段的音频信息进行语音识别，获取目标视频片段对应的文本信息，也就是说，当目标视频片段中具有字幕信息时，即可直接将目标视频片段中的字幕信息确定为目标视频片段对应的文本信息，当目标视频片段中不具有字幕信息时，则需要基于目标视频片段中的音频信息获取目标视频片段对应的文本信息。

然而，由于影视作品的丰富性，目标视频片段中的音频信息往往不限于互动音频信息，还包括背景音乐，环境音效等其他音频信息，这些其他音频信息可以视为是对于情境特征提取的干扰信息，因此，计算机设备需要从目标视频片段的音频信息中提取出互动音频信息，并将其转换为互动文本信息，该互动音频信息表现为目标视频片段中的对话信息。

因此，上述基于目标视频片段中的音频信息，获取目标视频片段的文本信息的过程实现为：

获取目标视频片段的互动音频信息，该互动音频信息是指具有语言交流的音频信息；

对该互动音频视频进行语音识别，将互动音频信息转化为互动文本信息；

将互动文本信息获取为目标视频片段对应的文本信息。

在一种可能的实现方式中，计算机设备通过ASR(Automatic SpeechRecognition，自动语音识别技术)将互动音频信息转换为互动文本信息。

在一种可能的实现方式中，计算机设备对目标视频片段对应的文本信息进行自然语言处理，获得目标视频片段的情境特征。

在一种可能的实现方式中，计算机设备用过自然语言处理完成对目标视频片段对应的文本信息的去噪、归一、分词、实体识别、文本分类、相似度处理、情感倾向分析等等，获得目标视频片段对应情境特征，同时，确定该情境在整个视频中的片段起止，即确定目标视频片段的时间线。

在一种可能的实现方式中，计算机设备通过自然语言处理模型对目标视频片段对应的文本信息进行自然语言处理，获取目标视频片段的情境特征。该自然语言模型是采用多组训练样本数据对神经网络训练得到的。多组训练样本数据中的每组训练样本数据包括样本文本信息，以及样本文本信息对应的情境特征。样本文本信息的情境特征可以通过人工方式进行标注，同一个样本文本信息可以对应于多个情境特征。

神经网络可以是卷积神经网络(Convolutional Neural Network，CNN)、人工神经网络(Artificial Neural Network，ANN)、深度神经网络(Deep Neural Networks，DNN)等，本申请实施例对此不作限定。

自然语言处理模型是采用的机器学习算法可以是反向传播算法(Back-Propagation，BP)、更快的区域卷积神经网络(faster Regions with ConvolutionalNeural Network，faster RCNN)算法等，本申请实施例对此不作限定。

在一种可能的实现方式中，自然语言处理模型的训练过程可以是：获取初始自然语言处理模型，将样本训练数据中的样本文本信息输入至上述初始自然语言处理模型，由初始自然语言处理模型输出该样本文本信息对应的实际情境特征，将该实际情境特征与该样本文本信息对应的情境特征进行对比，得到计算损失，之后根据计算损失对初始自然语言处理模型中的各项参数进行调整，重复上述过程，直至自然语言处理模型收敛。

在一种可能的实现方式中，由于不同的自然语言处理模型的组成结构不同，基于同一目标视频片段对应的文本信息，不同的语言处理模型获得的目标视频片段的情境特征也可能存在差异，因此，为了保证通过自然语言处理获取目标视频片段的情境特征的准确性，需要对基于语言处理模型获取的目标视频片段的情境特征进行特征校正，在一种可能的实现方式中，该特征校正的过程可以实现为，通过不同的自然语言处理模型对目标视频片段的文本信息进行处理，获得多个候选情境特征，基于多个候选情境特征，获取目标视频片段的情境特征。

在一种可能的实现方式中，对各个自然语言处理模型的处理结果进行统计，基于多个候选情境特征，获取目标视频片段的情境特征的过程可以实现为：获取各个自然语言处理模型的处理结果之间的第一重合率大于第一重合率阈值的处理结果为目标视频片段的情境特征，比如，通过三种自然语言处理模型对目标视频片段的文本信息进行处理，经过自然语言处理模型1的处理获得情境特征1，情境特征2；经过自然语言处理模型1的处理获得情境特征1，情境特征2，情境特征3；经过自然语言处理模型3的处理获得情境特征2，情境特征3；其中，情境特征1的第一重合率为66.7％，情境特征2的第一重合率为100％，情境特征3的第一重合率为66.7％，若设定的第一重合率阈值为80％，那么，情境特征2的第一重合率大于重合率阈值，则将情境特征2获取为目标视频的情境特征；若设定的第一重合率阈值为50％，那么，情境特征1、情境特征2、情境特征3的第一重合率均大于第一重合率阈值，则将情境特征1、情境特征2、情境特征3均获取为目标视频的情境特征。

需要说明的是，上述对于获取目标视频的情境特征的方法中的第一重合率阈值的设定可以根据实际情况进行设定，本申请对此不进行限定。

步骤620，基于目标视频片段的情境特征，为目标视频片段添加对应的情境特征标签。

示意性的，对于包含新人入职情境内容的目标视频片段，基于对目标视频片段的情境特征的提取，生成对应与该目标视频片段的情境特征的标签：“新人”、“职场”、“会面”等。

在一种可能的实现方式中，目标视频片段可以是短视频，也可以是长视频中的一个视频片段，响应于目标视频片段是目标视频中指定时间区间内容片段，该方法还包括：

获取目标视频片段的时间线，该时间线用以指示目标视频片段在目标视频中的起止位置；

基于目标视频片段的时间线，为目标视频片段添加对应的时间线标签。

比如，目标视频片段位于目标视频的第10分钟30秒到11分钟20秒，那么第10分钟30秒到11分钟20秒即为该目标视频片段的时间线，基于该时间线来生成目标视频片段的时间线标签，以在获取该目标视频片段时，实现在目标视频中对该目标视频片段的定位。

步骤630，响应于第一视频片段的情境特征标签与第二视频片段的情境特征标签满足指定条件，建立第一视频片段与第二视频片段之间的关联关系。

在一种可能的实现方式中，该指定条件可以是指第一视频片段的情境特征与第二视频片段的情境特征的第二重合率大于第二重合率阈值，其中，第二重合率越大，第一视频片段的情境特征与第二视频片段的情境特征越相似，第二重合率越小，第一视频片段的情境特征与第二视频片段的情境特征差别越大。第二重合率阈值的值越大，对第一视频片段的情境特征与第二视频片段的情境特征之间的相似度的要求越高，建立的关联关系越精确；第二重合率阈值的值越小，对第一视频片段的情境特征与第二视频片段的情境特征之间的相似度的要求越低，建立的关联关系越模糊。

在一种可能的实现方式中，响应于第二视频片段对应的原始视频片段的语言为非目标语言，基于原始视频片段生成对应目标语言的第二视频片段。

其中，目标语言是指用户在进行视频观看过程中，具有语言学习需求的语言，比如，用户期望在语言学习过程中学习英语，那么英语即为目标语言，若第二视频片段对应的原始视频片段为英语，则可直接将原始视频片段获取为第二视频片段，若第二视频片段对应的原始视频片段为中文，则需要基于中文的原始视频片段生成英文的视频片段之后，将生成的英文的视频片段获取为第二视频片段。

在一种可能的实现方式中，上述基于原始视频片段生成对应目标语言的第二视频片段的过程实现为：

获取原始视频片段对应的原始文本信息；

对原始文本信息进行翻译，获得翻译文本信息，该翻译文本信息是对应目标语言的文本信息；

基于翻译文本信息进行文本转语音处理，获得翻译文本信息对应的音频信息；

将原始视频片段的音频信息替换为翻译文本信息对应的音频信息，获得第二视频片段。

在一种可能的实现方式中，通过神经机器翻译(Neural Machine Translation，NMT)的方法，将原始视频片段对应的原始文本信息翻译为翻译文本信息，以提高文本翻译的准确性。

在一种可能的实现方式中，为了便于用户从多个途径进行语言学习，在将原始视频片段的音频信息替换为翻译文本信息对应的音频信息的同时，响应于该原始视频片段具有字幕信息，将原始视频片段的字幕信息替换为翻译文本信息，或者在不具有字幕信息的原始视频片段中添加翻译文本信息。

示意性的，某个视频的第10分钟30秒到11分钟20秒，是一个关于新人入职的情境，建立从视频内容出发到情境的关联；

某个视频的第10分钟30秒到11分钟20秒，经过分析得到了本语/他语学习素材，建立视频内容到学习素材的关联；

视频片段获得情境特征，可以根据情境特征去关联到具有相同/类似特征的相关学习素材，可以是其他视频分析得到的本语/他语学习素材，也可以是专业学习素材，建立间接的视频内容到学习素材的扩展关联。

步骤640，获取第一视频在目标终端中的视频播放进度。

本申请实施例以目标视频片段是目标视频中指定时间区间内的视频片段为例对本申请提供的视频播放方法进行说明，通过获取第一视频的视频播放进度，确定当前第一视频播放到哪一个视频片段。

步骤650，响应于视频播放进度指示第一视频播放到第一视频片段，基于第一视频片段与第二视频片段之间的关联关系，获取第二视频片段。

由于第一视频片段与第二视频片段之间已经基于情境特征建立了关联关系，在一种可能的实现方式中，可以基于两者之间的关联关系，直接对应到与第一视频相关的第二视频片段。

在一种可能的实现方式中，响应于视频播放进度指示第一视频播放到第一视频片段，基于第一视频片段与第二视频片段之间的关联关系，获取第二视频片段的时间线标签；

基于该第二视频片段的时间线标签，从第二视频中获取第二视频片段。

也就是说，对于处于第二视频中指定时间区域内的第二视频片段，计算机设备可以通过其具有的时间线标签，获取第二视频片段在第二视频中的起止位置，从而获取到该第二视频片段。

在一种可能的实现方式中，计算机设备可以通过实时获取第一视频片段的情境特征，基于第一视频片段的情境特征，获取第二视频片，即：

实时提取第一视频片段的情境特征；该第一视频片段是第一视频中正在播放的视频片段；

基于第一视频片段的情境特征，从各个语言学习素材中获取第二视频片段。

在一种可能的实现方式中，计算机设备可以基于用户的实时需求，比如，接收到相关视频搜索操作，实时获取第一视频片段的情境特征，从而根据该第一视频片段的情境特征，从各个语言学习素材中获取第二视频片段，以满足用户的实时需求。比如用户在进行视频观看的过程中，期望基于当前视频片段的情境进行相关情境的语言学习，但该视频片段预先并未建立与其他视频片段的关联关系，即终端并未向用户推送第二视频片段，此时，用户即可通过进行相关视频搜索操作，发送相关视频搜索指令，计算机设备基于该搜索指令，实时提取当前视频片段中的情境特征，并基于该情境特征在各个语言学习素材中进行搜索，获得相关视频片段，即第二视频片段。

在一种可能的实现方式中，各个语言学习素材可以分为影视语言学习素材和专业语言学习素材，其中，影视语言学习素材可以包括本语语言学习素材，他语语言学习素材。其中专业语言学习素材是指包括采用音频、视频、演示文稿等多媒体载体的教学素材，专业性较强，娱乐性较低，多用于培训机构、私教课程、在线教学平台等场合；影视语言学习素材则是以电视剧、电影等形式呈现交互场景的视频素材，娱乐性较强，专业性较低，普适性强；其中，本语语言学习素材与他语语言学习素材中的本语与他语是相对于获取到的原始语言学习素材而言的，本语语言学习素材是指不对获取到的原始影视语言学习素材的音频、文字内容进行修改的学习素材，他语学习素材是指对获取到的原始影视语言学习素材的音频、文字内容进行翻译替换后所得的语言学习素材。

在一种可能的实现方式中，由于专业语言学习素材的针对性较强，往往是针对特定的场景模拟的对话交流，因此，可以直接通过人工的方式，给专业语言学习素材添加对应的情境特征标签，从而使得计算机设备基于该情境特征标签建立第一视频片段与专业语言学习素材之间的关联关系，或者，基于实时提取的第一视频片段的情境特征，搜索相对应的专业语言学习素材。

由于语言的种类丰富多样，不同的用户具有不同的语言学习需求，因此，在一种可能的实现方式中，计算机设备可以获取目标终端对应的用户账号的用户画像；

基于用户画像确定目标语言。

在一种可能的实现方式中，还可以基于用户画像确定第二视频片段的类型；基于第二视频片段的类型，获取第二视频片段。

其中，该用户画像包括用户的观影记录，用户的学习记录等信息；其中，用户的观影记录用以表示用户的观影偏好，比如，用户偏于观看侦探悬疑类，或是惊悚类，或者都市情感类等等；用户的学习记录用以表示用户的学习偏好，比如用户在视频观看过程中打开某一学习素材的频率，近期学习的语言种类，以及学习时长等。

基于用户画像获取到更加适应于当前用户的语言学习素材(第二视频片段)，可以提高视频片段的推荐效果。

步骤660，向目标终端推送第二视频片段，以便目标终端响应于接收到基于第二视频片段的视频播放操作，播放第二视频片段。

图7示出了本申请一示例性示出的视频播放方法的流程图，该方法可以由目标终端执行，该目标终端可以实现为如图1或图2所示的终端，如图7所示，该视频播放方法包括：

步骤710，播放第一视频。

在一种可能的实现方式中，目标终端中设置有视频推荐控件，响应于用户打开该视频推荐控件，则执行下述步骤720以及步骤730的内容；响应于用户关闭该视频推荐控件，则维持目标终端显示该第一视频，不进行第二视频片段的推送。

步骤720，响应于播放到第一视频中的第一视频片段，展示语言学习控件。

在一种可能的实现方式中，终端可以通过多种形式展示语言学习控件，比如，通过在第一视频播放界面上叠加显示悬浮窗，该悬浮窗中包含语言学习控件；或者，在播放第一视频的界面的指定区域(比如下方或者侧方的显示区域)中设置预览信息显示区域，该预览信息显示区域中包含语言学习控件。

步骤730，响应于接收到对语言学习控件的触发操作，播放第二视频片段；该第二视频片段与第一视频片段具有相同的情境特征；该第二视频片段是对应情境特征的语言学习素材。

在一种可能的实现方式中，响应于接收到对语言学习控件的触发操作，中断对第一视频的播放，播放第二视频片段；

响应于第二视频片段播放结束，在第一视频播放中断处恢复对第一视频的播放。

在一种可能的实现方式中，在第一视频播放区域内播放第二视频片段；响应于第二视频片段播放结束，在第一视频播放区域内，获取对第一视频的播放。

也就是说，在进行第二视频片段的播放时，终端会主动停止对第一视频的播放，以避免两者之间的相互干扰，同时，避免用户由于对第二视频片段的播放，错过第一视频的视频内容。

在一种可能的实现方式中，响应于指定时长内未接收到对语言学习控件的触发操作，停止对语言学习控件的展示，以减少对用户观影体验的影响。

图8示出了本申请一示例性实施例示出的视频播放方法的示意图，该视频播放方法分为语言学习素材生成阶段和视频推送播放阶段，该方法由服务器和终端交替执行。如图8所示，语言学习素材生成阶段810中，服务器通过对媒体资源库中的视频资源进行处理，当视频资源中的目标视频片段中包含字幕信息时，将该字幕信息确定为该目标视频片段的文本信息，当目标视频片段中不含字幕信息时，通过对目标视频片段中的音频信息进行语音识别，获取目标视频片段的文本信息；对目标视频片段的文本信息进行自然语言处理，获得目标视频片段的情境特征，在该过程中，可以通过多个自然语言处理模型对目标视频片段的文本信息进行处理，分别获得对应的处理结果，记为初步情境特征，计算机设备综合各个自然语言处理模型的处理结果(初步情境特征)进行情境特征校正，从而获得目标视频片段的情境特征，生成对应的情境特征标签；与此同时，从视频资源中获取目标视频片段的时间线信息，生成时间线标签；将时间线标签与情境特征标签添加到目标视频片段上，获得对应于该目标视频片段的本语语言学习素材；将时间线标签与情境特征标签添加到翻译处理后的目标视频片段上，获得对应于该目标视频片段的他语语言学习素材，其中，目标视频片段的翻译处理是指，对目标视频片段的文本信息进行神经机器翻译，获得翻译文本信息，之后使用TTS(Text To Speech，语音合成)技术，将翻译后的文本信息转换为对应的音频信息后，对目标视频片段中的音频信息和/或文本信息进行替换，获得翻译处理后的目标视频片段；为专业语言学习内容添加对应的情境特征标签，生成专业语言学习素材；基于各个视频片段的情境特征标签建立两两之间的关联关系。

在视频推送播放阶段820中，终端播放第一视频，服务器实时获取第一视频的视频播放进度，当获取到第一视频播放到第一视频片段时，基于视频片段之间的关联关系，视频片段的时间线标签，从各个语言学习素材提取与第一视频片段具有相同情境特征的候选第二视频片段，并基于用户画像，对候选第二视频片段进行筛选，获取其中更符合当前用户的第二视频片段，向终端进行推送。终端在获取到服务器推送的第二视频片段之后，在终端的指定区域以指定形式显示语言学习控件，在接收到用户对语言学习控件的触发操作后，播放第二视频片段。

在一种可能的实现方式中，基于本申请所提出的基于视频内的情境特征获取与视频相关的视频进行视频推荐和播放的方法，本申请实施例所提供的视频播放方法还可以应用于生活学习场景，比如厨艺学习场景，当用户在进行视频观看的过程中，从该视频的某一视频片段的内容中所表现的情境中学习到了某道菜肴的做法，引起了用户对做菜的兴趣，希望获取更多的美食制作视频，具有学习美食制作的学习需求。此时，计算机设备通过本申请提供的视频播放方法，获取到与当前视频的情境特征相同或相似的涉及其他菜品制作的视频片段，并向用户终端发送涉及其他菜品制作的视频片段，由用户终端在当前视频的节点向用户进行推送，用户可以从用户终端推送的视频片段中学习到更多美食制作的内容。

在一种可能的实现方式中，本申请实施例所提供的视频播放方法还可以应用于运动观看场景中，比如，当用户在进行视频观看的过程中，播放到该视频的某一片段，且该视频片段中正在播放一场乒乓球赛，使得用户具有对乒乓球赛事视频的观看需求。此时，计算机设备通过本申请提供的视频播放方法，获取到其他乒乓球赛事的视频片段，并向终端发送其他乒乓球赛事的视频片段，由用户终端在当前视频的节点向用户进行推送，用户可以从用户终端推送的视频片段中观看到更多与乒乓球相关的内容。

需要说明的是，由于视频中的情境是多种多样的，通过人工智能的技能对视频内容进行分析可以获得多种多样的情境特征，本申请实施例中所涉及的视频播放方法，可以基于用户对指定情境的需求，获取相关的视频进行推送，本申请对视频播放方法的应用场景不进行限制。

图9示出了本申请一示例性实施例示出的视频播放装置的方框图，如图9所示，该视频播放装置包括：

播放进度获取模块910，用于获取第一视频在目标终端中的视频播放进度；

第二视频片段获取模块920，用于响应于视频播放进度指示第一视频播放到第一视频片段，获取第二视频片段；该第二视频片段与第一视频片段具有相同的情境特征；该第二视频片段是对应情境特征的语言学习素材；

第二视频片段推送模块930，用于推送第二视频片段，以便目标终端响应于接收到基于第二视频片段的视频播放操作，播放第二视频片段。

在一种可能的实现方式中，在播放进度获取模块910获取第一视频在目标终端中的视频播放进度之前，该装置还包括：

情境特征获取模块，用于获取目标视频片段的情境特征，该目标视频片段包括第一视频片段和第二视频片段；

情境特征标签添加模块，用于基于目标视频片段的情境特征，为目标视频片段添加对应的情境特征标签；

关联关系建立模块，用于响应于第一视频片段的情境特征标签与第二视频片段的情境特征标签满足指定条件，建立第一视频片段与第二视频片段之间的关联关系；

该第二视频片段获取模块920，用于响应于视频播放进度指示第一视频播放到第一视频片段，基于第一视频片段与第二视频片段之间的关联关系，获取第二视频片段。

在一种可能的实现方式中，该情境特征获取模块，包括：

文本信息获取子模块，用于获取目标视频片段对应的文本信息；

情境特征获取子模块，用于基于目标视频片段对应的文本信息，获取目标视频片段的情境特征。

在一种可能的实现方式中，文本信息获取子模块，用于响应于目标视频片段具有字幕信息，将字幕信息确定为目标视频片段对应的文本信息；

响应于目标视频片段具有音频信息，对音频信息进行语音识别，获得目标视频片段对应的文本信息。

在一种可能的实现方式中，该情境特征获取子模块，用于对目标视频片段对应的文本信息进行自然语言处理，获得目标视频片段的情境特征。

在一种可能的实现方式中，该目标视频片段是目标视频中指定时间区间内的视频片段，该装置还包括：

时间线获取模块，用于获取目标视频片段的时间线，该时间线用以指示目标视频片段在目标视频中的起止位置；

时间线标签添加模块，用于基于目标视频片段的时间线，为目标视频片段添加对应的时间线标签；

该第二视频片段获取模块920，包括：

时间线标签获取子模块，用于响应于视频播放进度指示第一视频播放到第一视频片段，基于第一视频片段与第二视频片段之间的关联关系，获取第二视频片段的时间线标签；

第二视频片段获取子模块，用于基于第二视频片段的时间线标签从第二视频中获取第二视频片段。

在一种可能的实现方式中，该情境特征获取模块，用于实时提取第一视频片段的情境特征；该第一视频片段是第一视频中正在播放的视频片段；

该第二视频片段获取模块920，用于基于第一视频片段的情境特征，从各个语言学习素材中获取第二视频片段。

在一种可能的实现方式中，播放进度获取模块910在获取第一视频在目标终端中的视频播放进度之前，该装置还包括：

第二视频片段生成模块，用于响应于第二视频片段对应的原始视频片段的语言为非目标语言，基于原始视频片段生成对应目标语言的第二视频片段。

在一种可能的实现方式中，该第二视频片段生成模块，包括：

原始文本信息获取子模块，用于获取原始视频片段对应的原始文本信息；

翻译文本信息获取子模块，用于对原始文本信息进行翻译，获得翻译文本信息，该翻译文本信息是对应目标语言的文本信息；

音频信息获取子模块，用于基于翻译文本信息进行文本转语音处理，获得翻译文本信息对应的音频信息；

该第二视频片段获取子模块，用于将原始视频片段的音频信息替换为翻译文本信息对应的音频信息，获得第二视频片段。

在一种可能的实现方式中，在该第二视频片段生成模块响应于第二视频片段对应的原始视频片段的语言为非目标语言，基于原始视频片段生成对应目标语言的第二视频片段之前，该装置还包括：

用户画像获取模块，用于获取目标终端对应的用户账号的用户画像；

目标语言确定模块，用于基于用户画像确定目标语言。

综上所述，本申请实施例提供的视频播放装置，应用于计算机设备中，通过在第一视频的播放过程中，获取与第一视频片段具有相同情境特征的第二视频片段作为语言学习素材，并向目标终端推送该第二视频片段，从而使得目标终端在接收到基于该第二视频片段的播放操作后，播放第二视频片段；通过上述方案，在用户观看视频的过程中，能够实现基于用户观看的视频片段，自动向用户推送具有相同的情境特征的语言学习素材，从而满足用户对指定情境下的语言学习的需求，提高对语言学习素材的推送效率。

图10示出了本申请一示例性示出的视频播放装置的方框图，如图10所示，该视频播放装置包括：

视频播放模块1010，用于播放第一视频；

语言学习控件展示模块1020，用于响应于播放到第一视频中的第一视频片段，展示语言学习控件；

该视频播放模块1010，用于响应于接收到对语言学习控件的触发操作，播放第二视频片段；该第二视频片段与第一视频片段具有相同的情境特征；该第二视频片段是对应情境特征的语言学习素材。

综上所述，本申请实施例提供的视频播放在，应用于终端中，通过在第一视频的播放过程中，获取与第一视频片段具有相同情境特征的第二视频片段作为语言学习素材，并向目标终端推送该第二视频片段，从而使得目标终端在接收到基于该第二视频片段的播放操作后，播放第二视频片段；通过上述方案，在用户观看视频的过程中，能够实现基于用户观看的视频片段，自动向用户推送具有相同的情境特征的语言学习素材，从而满足用户对指定情境下的语言学习的需求，提高对语言学习素材的推送效率。

图11示出了本申请一示例性实施例示出的计算机设备1100的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read-Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括用于存储操作系统1109、应用程序1110和其他程序模块1111的大容量存储设备1106。

所述大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1106及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1106可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1107连接到网络1108，或者说，也可以使用网络接口单元1107来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，中央处理器1101通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的视频播放方法中的全部或者部分步骤。

在一示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括至少一条指令、至少一段程序、代码集或指令集的存储器，上述至少一条指令、至少一段程序、代码集或指令集可由处理器执行以完成上述图3、图6或图7任一实施例所示的方法的全部或者部分步骤。例如，非临时性计算机可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图3、图6或图7任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其他实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种视频播放方法，其特征在于，所述方法包括：

获取第一视频在目标终端中的视频播放进度；

2.根据权利要求1所述的方法，其特征在于，在所述获取第一视频在目标终端中的视频播放进度之前，所述方法还包括：

获取目标视频片段的情境特征，所述目标视频片段包括所述第一视频片段和所述第二视频片段；

基于所述目标视频片段的情境特征，为所述目标视频片段添加对应的情境特征标签；

响应于所述第一视频片段的情境特征标签与所述第二视频片段的情境特征标签满足指定条件，建立所述第一视频片段与所述第二视频片段之间的关联关系；

所述响应于所述视频播放进度指示所述第一视频播放到第一视频片段，获取第二视频片段，包括：

响应于所述视频播放进度指示所述第一视频播放到第一视频片段，基于所述第一视频片段与所述第二视频片段之间的关联关系，获取所述第二视频片段。

3.根据权利要求2所述的方法，其特征在于，所述获取目标视频片段的情境特征，包括：

获取所述目标视频片段对应的文本信息；

基于所述目标视频片段对应的文本信息，获取所述目标视频片段的情境特征。

4.根据权利要求3所述的方法，其特征在于，所述获取所述目标视频片段对应的文本信息，包括：

响应于所述目标视频片段具有字幕信息，将所述字幕信息确定为所述目标视频片段对应的文本信息；

5.根据权利要求3所述的方法，其特征在于，所述基于所述目标视频片段对应的文本信息，获取所述目标视频片段的情境特征，包括：

对所述目标视频片段对应的文本信息进行自然语言处理，获得所述目标视频片段的所述情境特征。

6.根据权利要求2所述的方法，其特征在于，所述目标视频片段是目标视频中指定时间区间内的视频片段，所述方法还包括：

获取所述目标视频片段的时间线，所述时间线用以指示所述目标视频片段在所述目标视频中的起止位置；

基于所述目标视频片段的时间线，为所述目标视频片段添加对应的时间线标签；

所述响应于所述视频播放进度指示所述第一视频播放到第一视频片段，基于所述第一视频片段与所述第二视频片段之间的关联关系，获取第二视频片段，包括：

响应于所述视频播放进度指示所述第一视频播放到第一视频片段，基于所述第一视频片段与所述第二视频片段之间的关联关系，获取所述第二视频片段的所述时间线标签；

基于所述第二视频片段的所述时间线标签从所述第二视频中获取所述第二视频片段。

7.根据权利要求1所述的方法，其特征在于，所述响应于所述视频播放进度指示所述第一视频播放到第一视频片段，获取第二视频片段，包括：

实时提取所述第一视频片段的情境特征；所述第一视频片段是所述第一视频中正在播放的视频片段；

基于所述第一视频片段的情境特征，从各个语言学习素材中获取所述第二视频片段。

8.根据权利要求1所述的方法，其特征在于，在所述获取第一视频在目标终端中的视频播放进度之前，所述方法还包括：

响应于所述第二视频片段对应的原始视频片段的语言为非目标语言，基于所述原始视频片段生成对应目标语言的所述第二视频片段。

9.根据权利要求8所述的方法，其特征在于，所述基于所述原始视频片段生成对应目标语言的所述第二视频片段，包括：

获取所述原始视频片段对应的原始文本信息；

对所述原始文本信息进行翻译，获得翻译文本信息，所述翻译文本信息是对应所述目标语言的文本信息；

基于所述翻译文本信息进行文本转语音处理，获得所述翻译文本信息对应的音频信息；

将所述原始视频片段的音频信息替换为所述翻译文本信息对应的音频信息，获得所述第二视频片段。

10.根据权利要求8所述的方法，其特征在于，所述响应于所述第二视频片段对应的原始视频片段的语言为非目标语言，基于所述原始视频片段生成对应目标语言的所述第二视频片段之前，所述方法还包括：

获取所述目标终端对应的用户账号的用户画像；

基于所述用户画像确定所述目标语言。

11.一种视频播放方法，其特征在于，所述方法包括：

播放第一视频；

12.一种视频播放装置，其特征在于，所述装置包括：

第二视频片段推送模块，用于推送所述第二视频片段，以便所述目标终端响应于接收到基于所述第二视频片段的视频播放操作，播放所述第二视频片段。

13.一种视频播放装置，其特征在于，所述装置包括：

视频播放模块，用于播放第一视频；

14.一种计算机设备，其特征在于，所述计算机设备包含处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集；所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的视频播放方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序；所述计算机程序由处理器加载并执行以实现如权利要求1至11任一所述的视频播放方法。