CN115221354A

CN115221354A - 一种视频播放方法、装置、设备以及介质

Info

Publication number: CN115221354A
Application number: CN202110411850.0A
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-16
Filing date: 2021-04-16
Publication date: 2022-10-21

Abstract

本申请实施例提供了一种视频播放方法、装置、设备以及介质，该方法涉及多媒体、人工智能等领域，方法包括：输出与目标视频相关联的视频显示界面；响应于针对视频显示界面的第一触发操作，显示与目标视频相关联的评论展示区域；评论展示区域用于展示与目标视频相关联的第一评论信息以及第一评论信息对应的第一视频定位控件；第一视频定位控件用于定位与第一评论信息关联的第一目标视频片段；第一目标视频片段为目标视频中的视频片段；响应于针对第一视频定位控件的第二触发操作，播放第一目标视频片段。采用本申请，可以快速播放与第一评论信息关联的第一目标视频片段，提升了用户体验。

Description

一种视频播放方法、装置、设备以及介质

技术领域

本申请涉及多媒体、人工智能等领域，尤其涉及一种视频播放方法、装置、设备以及介质。

背景技术

随着多媒体技术的发展，视频已成为人们日常生活中获取信息与享受娱乐的主要载体。可以理解的是，用户(例如，用户Y)在浏览与视频(例如，目标视频)相关联的评论信息的过程中，在看到感兴趣(即产生共鸣或者反对等)的评论信息(例如，评论P)时，会想要去观看与该评论P相关联的视频片段。

目前，若上述用户Y想要观看与上述评论P相关联的视频片段，则需要根据评论P的评论内容手动调整目标视频的视频进度条，即在当前浏览的目标视频中手动寻找与评论P相关联的视频片段。基于此，在使用现有的手动调整方式调整视频进度条时，需要用户Y多次对视频进度条进行调整或用户Y自己寻找与评论P相关的视频片段，给用户带来不便。

发明内容

本申请实施例提供一种视频播放方法、装置、设备以及介质，可以快速播放与评论相关的视频片段，有效提升用户体验。

本申请实施例一方面提供了一种视频播放方法，包括：

输出与目标视频相关联的视频显示界面；

响应于针对视频显示界面的第一触发操作，显示与目标视频相关联的评论展示区域；评论展示区域用于展示与目标视频相关联的第一评论信息以及第一评论信息对应的第一视频定位控件；第一视频定位控件用于定位与第一评论信息关联的第一目标视频片段；第一目标视频片段为目标视频中的视频片段；

响应于针对第一视频定位控件的第二触发操作，播放第一目标视频片段。

本申请实施例一方面提供了一种视频播放装置，包括：

界面输出模块，用于输出与目标视频相关联的视频显示界面；

第一响应模块，用于响应于针对视频显示界面的第一触发操作，显示与目标视频相关联的评论展示区域；评论展示区域用于展示与目标视频相关联的第一评论信息以及第一评论信息对应的第一视频定位控件；第一视频定位控件用于定位与第一评论信息关联的第一目标视频片段；第一目标视频片段为目标视频中的视频片段；

第二响应模块，用于响应于针对第一视频定位控件的第二触发操作，播放第一目标视频片段。

其中，装置还包括：

评论获取模块，用于获取与目标视频相关联的评论信息集合；

评论显示模块，用于基于评论信息的评论辅助参数，从评论信息集合中确定至少一个目标评论信息进行展示，其中，目标评论信息包括第一评论信息。

其中，评论辅助参数包括以下至少一个参数：评论时间、评论文本长度、评论互动热度以及评论回复量。

其中，评论展示区域中包括用于录入第一评论信息的评论录入控件；

装置还包括：

第三响应模块，用于响应于针对评论录入控件的第三触发操作，显示用于录入第一评论信息的评论录入区域；

第四响应模块，用于响应于针对评论录入区域的信息录入操作，将信息录入操作所对应的数据信息作为第一评论信息；

第五响应模块，用于响应于针对第一评论信息的信息发布操作，在评论展示区域显示第一评论信息，以及第一评论信息对应的第一视频定位控件。

其中，视频显示界面中包含用于播放目标视频的视频播放区域；目标视频在视频播放区域中的播放进度为第一播放进度；

第二响应模块包括：

第一触发单元，用于响应于针对第一视频定位控件的第二触发操作，确定第一目标视频片段对应目标视频的第二播放进度；

第一播放单元，用于在视频播放区域中将目标视频的播放进度由第一播放进度切换至第二播放进度，播放目标视频中的第一目标视频片段。

其中，第二响应模块还包括：

第二触发单元，用于响应于针对第一视频定位控件的第二触发操作，显示独立于视频显示界面的片段播放子界面，确定第一目标视频片段对应目标视频的第二播放进度；

第二播放单元，用于在片段播放子界面中基于第二播放进度播放第一目标视频片段。

其中，第二响应模块还包括：

第三触发单元，用于响应于针对第一视频定位控件的第二触发操作，显示与第一评论信息相关联的片段播放区域，确定第一目标视频片段对应目标视频的第二播放进度；

第三播放单元，用于在片段播放区域中基于第二播放进度播放第一目标视频片段。

本申请实施例一方面提供了一种视频播放方法，包括：

接收应用客户端发送的与目标视频相关联的第一评论信息；

获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息，K为正整数；

基于每个视频片段的辅助文本信息和第一评论信息，确定每个视频片段与第一评论信息之间的内容相关度；一个视频片段对应一个内容相关度；

基于确定的内容相关度，将与第一评论信息具有最高内容相关度的视频片段作为与第一评论信息关联的第一目标视频片段，将第一目标视频片段在目标视频中的定位信息返回给应用客户端，以使应用客户端在响应于针对第一评论信息对应的第一视频定位控件的第二触发操作时，基于定位信息获取第一目标视频片段并进行播放。

本申请实施例一方面提供了一种视频播放装置，包括：

评论接收模块，用于接收应用客户端发送的与目标视频相关联的第一评论信息；

信息确定模块，用于获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息，K为正整数；

相关度确定模块，用于基于每个视频片段的辅助文本信息和第一评论信息，确定每个视频片段与第一评论信息之间的内容相关度；一个视频片段对应一个内容相关度；

片段确定模块，用于基于确定的内容相关度，将与第一评论信息具有最高内容相关度的视频片段作为与第一评论信息关联的第一目标视频片段，将第一目标视频片段在目标视频中的定位信息返回给应用客户端，以使应用客户端在响应于针对第一评论信息对应的第一视频定位控件的第二触发操作时，基于定位信息获取第一目标视频片段并进行播放。

其中，信息确定模块包括：

模型获取单元，用于基于第一评论信息所携带的数据信息，得到第一评论信息对应的关键文本信息，获取与第一评论信息相关联的目标网络模型；目标网络模型包括用于对关键文本信息进行情节判定的目标情节判定网络；

第一处理单元，用于对关键文本信息进行分词处理，得到关键文本信息的第一分词文本，将第一分词文本进行词向量编码，得到第一分词文本对应的第一分词向量；

第一编码单元，用于在第一评论信息中确定第一分词文本的分词文本位置，对分词文本位置进行位置编码，得到分词文本位置对应的分词位置向量；

第一融合单元，用于基于分词文本位置将第一分词向量和分词位置向量进行第一特征融合，得到第一分词文本的第一文本向量，将第一文本向量输入至目标情节判定网络，由目标情节判定网络对第一文本向量进行特征提取，得到第一分词文本对应的第一特征向量，基于第一分词文本对应的第一特征向量，得到第一评论信息对应的评论特征向量；

第一确定单元，用于通过目标情节判定网络中的分类器，确定评论特征向量与目标情节判定网络的分类器中的样本情节向量之间的第一文本匹配度，以及与目标情节判定网络的分类器中的多个情节类型向量之间的第二文本匹配度；

片段获取单元，用于若基于第一文本匹配度和第二文本匹配度，确定第一评论信息满足目标情节判定网络对应的片段获取条件，则获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息。

其中，样本情节向量所指示的样本情节标签是与多个情节类型向量所指示的情节类型标签相关联的；

片段获取单元包括：

条件获取子单元，用于获取目标情节判定网络对应的片段获取条件；片段获取条件中包含与样本情节标签相关联的第一阈值以及与每个情节类型标签相关联的第二阈值；

阈值比较子单元，用于若第一文本匹配度达到第一阈值，则确定第一评论信息具备样本情节标签所指示的情节内容，在第二文本匹配度中将具有最大值的第二文本匹配度作为目标匹配度，若目标匹配度达到第二阈值，则确定第一评论信息满足目标情节判定网络对应的片段获取条件，且获取与目标视频相关联的K个视频片段；

信息确定子单元，用于获取K个视频片段中的每个视频片段的语音文本信息、每个视频片段的字幕文本信息、每个视频片段的弹幕文本信息或者每个视频片段所包含的对象文本信息，基于获取到的语音文本信息、获取到的字幕文本信息、获取到的弹幕文本信息或者获取到的对象文本信息，确定每个视频片段的辅助文本信息。

其中，目标网络模型是对初始网络模型进行迭代训练所得到的；初始网络模型包含用于对参与训练的样本评论信息进行情节判定的初始情节判定网络；

信息确定模块还包括：

样本获取单元，用于获取用于训练初始情节判定网络的样本评论信息，将样本评论信息的情节看点作为样本情节标签，且将样本评论信息的情节类型作为情节类型标签；

第二处理单元，用于对所样本评论信息进行分词处理，得到样本评论信息的第二分词文本，将第二分词文本进行词向量编码，得到第二分词文本对应的第二分词向量；

第二编码单元，用于在样本评论信息中确定第二分词文本的样本文本位置，对样本文本位置进行位置编码，得到样本文本位置对应的样本位置向量；

第二融合单元，用于基于样本文本位置将第二分词向量和样本位置向量进行第一特征融合，得到第二分词文本的第二文本向量，将第二文本向量输入至初始情节判定网络，由初始情节判定网络对第二文本向量进行特征提取，得到第二分词文本对应的第二特征向量，基于第二分词文本对应的第二特征向量，得到样本评论信息对应的样本特征向量；

第一训练单元，用于基于样本评论信息对应的样本特征向量、样本情节标签、情节类型标签和初始情节判定网络中的分类器，对初始情节判定网络进行迭代训练，将迭代训练后的初始情节判定网络作为目标情节判定网络。

其中，相关度确定模块包括：

特征提取单元，用于基于目标情节判定网络提取每个视频片段的辅助文本信息的文本特征，将提取到的文本特征作为每个视频片段的辅助文本信息对应的辅助特征向量；

第二确定单元，用于通过目标情节判定网络中的分类器，确定每个视频片段的辅助特征向量与目标情节判定网络的分类器中的多个情节类型向量之间的辅助匹配度；

合并处理单元，用于在与每个视频片段相关联的辅助匹配度和与第一评论信息相关联的第二文本匹配度中，对相同情节类型标签所对应的匹配度进行合并处理，得到每个视频片段与第一评论信息之间的类型相符概率；

第一相关单元，用于根据类型相符概率，得到每个视频片段与第一评论信息之间的内容相关度。

其中，相关度确定模块还包括：

文本匹配单元，用于对每个视频片段的辅助文本信息和第一评论信息进行文本匹配，得到每个视频片段的辅助文本信息和第一评论信息的匹配文本信息；

第一匹配单元，用于基于匹配文本信息和第一评论信息，得到每个视频片段与第一评论信息之间的规则匹配度；

第二相关单元，用于根据规则匹配度，得到每个视频片段与第一评论信息之间的内容匹配度，根据内容匹配度，得到每个视频片段与第一评论信息之间的内容相关度。

其中，相关度确定模块还包括：

第一提取单元，用于从目标网络模型中获取目标内容匹配网络，基于目标内容匹配网络提取与每个视频片段的辅助文本信息相关联的第一匹配向量、以及与第一评论信息相关联的第二匹配向量；目标内容匹配网络用于对每个视频片段的辅助文本信息和第一评论信息进行内容匹配；

第二匹配单元，用于将第一匹配向量和第二匹配向量进行第二特征融合，得到第一交互表示向量，基于第一交互表示向量和目标内容匹配网络中的分类器，得到每个视频片段和第一评论信息之间的模型匹配度；

第三相关单元，用于根据模型匹配度，得到每个视频片段与第一评论信息之间的内容匹配度，根据内容匹配度，得到每个视频片段与第一评论信息之间的内容相关度。

其中，目标网络模型是对初始网络模型进行迭代训练所得到的；初始网络模型包含用于对参与训练的视频评论信息和样本辅助信息进行内容匹配的初始内容匹配网络；

相关度确定模块还包括：

视频获取单元，用于获取用于训练初始内容匹配网络的样本短视频，获取样本短视频的视频评论信息、样本辅助信息和样本匹配标签；样本匹配标签用于指示视频评论信息和样本辅助信息之间的匹配关系；

第二提取单元，用于基于初始内容匹配网络提取与视频评论信息相关联的第一视频向量、以及与样本辅助信息相关联的第二视频向量；

第二训练单元，用于将第一视频向量和第二视频向量进行第二特征融合，得到第二交互表示向量，基于第一视频向量、第二视频向量、样本匹配标签和初始内容匹配网络中的分类器，对初始内容匹配网络进行迭代训练，将迭代训练后的初始内容匹配网络作为目标内容匹配网络。

其中，相关度确定模块还包括：

内容确定单元，用于基于每个视频片段的辅助文本信息和第一评论信息，得到每个视频片段和第一评论信息之间的类型相符概率、规则匹配度和模型匹配度；

第三匹配单元，用于对规则匹配度和模型匹配度进行第一运算处理，得到每个视频片段和第一评论信息之间的内容匹配度；

第四相关单元，用于对内容匹配度和类型相符概率进行第二运算处理，得到每个视频片段和第一评论信息之间的内容相关度。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

处理器与存储器相连，其中，存储器用于存储计算机程序，计算机程序被处理器执行时，使得该计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有该处理器的计算机设备执行本申请实施例提供的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例提供的方法。

在本申请实施例中，计算机设备在获取到与应用客户端中的某个视频(例如，目标用户所请求播放的目标视频)相关联的第一评论信息时，可以获取与目标视频相关联的K个视频片段，进而在K个视频片段中获取与第一评论信息关联的第一目标视频片段。其中，这里的K可以为正整数。基于此，计算机设备可以将第一目标视频片段在目标视频中的定位信息返回给应用客户端，以使应用客户端在响应于针对第一评论信息对应的第一视频定位控件的第二触发操作时，在应用客户端中播放第一目标视频片段。由此可见，本申请实施例通过确定第一评论信息和K个视频片段的关系，在K个视频片段中确定与第一评论信息关联的第一目标视频片段，对于该第一目标视频片段而言，可以在响应针对于第一评论信息对应的第一视频定位控件的第二触发操作时，智能地在应用客户端中播放该第一目标视频片段，显然，通过引入第一视频定位控件，可以在查找与第一评论信息相关联的视频情节片段时，快速定位到与第一评论信息关联的第一目标视频片段，可以提高视频定位的准确性，进而提升用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2是本申请实施例提供的一种进行数据交互的场景示意图；

图3是本申请实施例提供的一种视频播放方法的流程示意图；

图4是本申请实施例提供的一种输出视频显示界面的场景示意图；

图5是本申请实施例提供的一种显示评论展示区域的场景示意图；

图6a是本申请实施例提供的一种进行定位播放的场景示意图；

图6b是本申请实施例提供的一种进行定位播放的场景示意图；

图6c是本申请实施例提供的一种进行定位播放的场景示意图；

图6d是本申请实施例提供的一种进行定位播放的场景示意图；

图7是本申请实施例提供的一种视频播放方法的流程示意图；

图8是本申请实施例提供的一种目标情节判定网络的结构示意图；

图9是本申请实施例提供的一种目标内容匹配网络的结构示意图；

图10是本申请实施例提供的一种视频播放方法的流程示意图；

图11a是本申请实施例提供的一种录入评论信息的场景示意图；

图11b是本申请实施例提供的一种录入评论信息的场景示意图；

图12是本申请实施例提供的一种实现评论定位的流程示意图；

图13是本申请实施例提供的一种视频播放装置的结构示意图；

图14是本申请实施例提供的一种视频播放装置的结构示意图；

图15是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在一个或多个实施例中，人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，本申请实施例所提供的方案主要涉及人工智能的计算机视觉(ComputerVision，简称CV)技术、机器学习(Machine Learning，简称ML)技术和自然语言处理(NatureLanguage processing，简称NLP)技术。

其中，计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，机器学习(Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

其中，自然语言处理(Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

具体的，请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括业务服务器2000和用户终端集群。其中，用户终端集群具体可以包括一个或者多个用户终端，这里将不对用户终端集群中的用户终端的数量进行限定。如图1所示，多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n；用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与业务服务器2000通过有线或无线通信方式进行直接或间接地网络连接，以便于每个用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。

其中，业务服务器2000可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，用户终端集群中的每个用户终端均可以包括：智能手机、平板电脑、笔记本电脑、台式计算机、智能家居、可穿戴设备、车载设备等具有视频数据处理功能的智能终端。在一个或多个实施例中，如图1所示的用户终端集群中的每个用户终端均可以集成安装有目标应用(即应用客户端)，当该应用客户端运行于各用户终端中时，可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中，应用客户端具体可以包括：车载客户端、智能家居客户端、娱乐客户端(例如，游戏客户端)、多媒体客户端(例如，视频客户端)、社交客户端以及资讯类客户端(例如，新闻客户端)等。

为便于理解，本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如，本申请实施例可以将图1所示的用户终端3000a作为目标用户终端，该目标用户终端中可以集成有具备视频编码功能的目标应用(即应用客户端)。此时，该目标用户终端可以通过该应用客户端与业务服务器2000之间实现数据交互。

为便于理解，本申请实施例可以将某个用户(例如，用户Y)在应用客户端中所选择的贴合自己兴趣的视频(比如，电视剧)统称为目标视频。

在一个或多个实施例中，上述网络框架所适用的业务场景具体可以包括：进度跳转场景、片段提取场景等，这里将不对具体的业务场景进行一一列举。比如，在进度跳转场景下，计算机设备(例如，上述目标用户终端)可以响应于针对视频定位控件的触发操作，在应用客户端中调整目标视频的播放进度，以在应用客户端中根据定位信息播放目标视频中的目标视频片段。又比如，在片段提取场景下，计算机设备(例如，上述目标用户终端)可以响应于针对视频定位控件的触发操作，在应用客户端中根据定位信息获取目标视频片段，以在应用客户端中播放目标视频片段。

为便于理解，本申请实施例可以将通过第一账号信息(例如，账号信息1)登录应用客户端的用户称之为第一用户，该第一用户对应的用户终端可以称之为第一终端，本申请实施例可以在上述用户终端集群中任意选择一个用户终端作为第一终端。在一个或多个实施例中，本申请实施例中的第一用户可以为通过应用客户端发送第一评论信息的用户，即评论发送者。

为便于理解，本申请实施例可以将通过第二账号信息(例如，账号信息2)登录应用客户端的用户称之为第二用户，该第二用户对应的用户终端可以称之为第二终端，本申请实施例可以在上述用户终端集群中任意选择一个用户终端作为第二终端。在一个或多个实施例中，本申请实施例中的第二用户可以为通过应用客户端定位播放与第一评论信息相关联目标视频片段的用户，即评论接收者。

在一个或多个实施例中，本申请实施例中的第一用户既可以作为上述评论发送者，也可以作为上述评论接收者。同理，本申请实施例中的第二用户既可以作为上述评论接收者，也可以作为上述评论发送者。在一个或多个实施例中，第一用户和第二用户还可以为同一个用户(例如，上述用户Y)，即用户Y可以同时作为评论发送者和评论接收者，此时，第一终端和第二终端可以为同一个用户终端(例如，上述目标用户终端)。这样，用户Y可以在通过目标用户终端中的应用客户端发送评论信息之后，通过目标用户终端中的应用客户端定位播放与评论信息相关联目标视频片段。在一个或多个实施例中，本申请实施例以上述第一用户和第二用户为同一个用户(即目标用户)为例进行说明。

为便于理解，进一步地，请参见图2，图2是本申请实施例提供的一种进行数据交互的场景示意图。其中，如图2所示的服务器可以为上述图1所对应实施例中的业务服务器2000，如图2所示的终端Z可以为上述图1所对应实施例的用户终端集群中的任意一个用户终端，为便于理解，本申请实施例以上述图1所示的用户终端3000a作为该终端Z为例，以阐述图2所示的终端Z和服务器进行数据交互的具体过程。其中，终端Z上安装有应用客户端，终端Z对应的用户可以为上述用户Y。

如图2所示，用户Y可以在应用客户端中针对评论信息P执行信息发布操作，这样，应用客户端可以响应用户Y针对评论信息P所执行的信息发布操作，在评论展示区域20a显示评论信息P，得到视频显示界面2a，该视频显示界面2a可以为与目标视频(即用户Y所选择的感兴趣的视频)相关联的视频显示界面。其中，评论信息P可以为“我抓住了重点，小美迅速抓住了她意外掉下的耳环，哈哈哈哈哈！”。

进一步地，应用客户端可以将评论信息P发送至服务器。如图2所示，服务器可以接收应用客户端发送评论信息P，并获取与目标视频相关联的K个视频片段，这里的K可以为正整数，K个视频片段具体可以包括：视频片段1、视频片段2、…、视频片段k。

进一步地，服务器可以确定评论信息P与K个视频片段中的每个视频片段的内容相关度。如图2所示，评论信息P与视频片段1的内容相关度可以为内容相关度1、评论信息P与视频片段2的内容相关度可以为内容相关度2、…、评论信息P与视频片段k的内容相关度可以为内容相关度k。因此，服务器可以从K个内容相关度中获取最高内容相关度，进而将具有最高内容相关度的视频片段作为与评论信息P关联的目标视频片段。比如，在内容相关度2为K个内容相关度中的最高内容相关度时，可以将视频片段2确定为与评论信息P关联的目标视频片段。

如图2所示，服务器当在K个视频片段中确定目标视频片段时，可以生成目标视频片段对应的定位信息，进而将定位信息返回给应用客户端，这里的定位信息可以为目标视频片段在目标视频中的时间戳(即定位标识)。因此，应用客户端可以在接收到服务器返回的定位信息之后，在评论展示区域20b显示基于定位信息生成的视频定位控件20c，得到视频显示界面2b。

在一个或多个实施例中，应用客户端可以通过异步的方式显示评论信息P和视频定位控件20c，即应用客户端可以先显示评论信息P，当确定与评论信息P关联的目标视频片段后，再基于目标视频片段对应的定位信息显示评论信息P对应的视频定位控件20c。其中，该异步的方式可以确保评论信息功能的正常使用。

可选的，应用客户端还可以通过同步的方式显示评论信息P和视频定位控件20c，即应用客户端可以在获取到目标视频片段对应的定位信息后，基于该定位信息一并显示评论信息P和评论信息P对应的视频定位控件20c。

其中，应用客户端和服务器进行数据交互的具体实现方式，可以参见下述图3-图12所对应的实施例。

进一步地，请参见图3，图3是本申请实施例提供的一种视频播放方法的流程示意图。该方法可以由应用客户端执行，也可以由服务器执行，还可以由应用客户端和服务器共同执行，该应用客户端可以为上述图2所对应实施例中的应用客户端，该服务器可以为上述图2所对应实施例中的服务器。为便于理解，本实施例以该方法由应用客户端执行为例进行说明。其中，该视频播放方法至少可以包括以下步骤S101-步骤S103：

步骤S101，输出与目标视频相关联的视频显示界面；

在一个或多个实施例中，当目标用户(例如，图2所对应实施例中的用户Y)需要在应用客户端中播放目标视频时，可以获取应用客户端的视频推荐界面，进而针对视频推荐界面的多个推荐视频中的目标视频执行播放操作。此时，应用客户端可以响应目标用户针对目标视频所执行的播放操作，在应用客户端中输出目标视频对应的视频显示界面。

其中，这里的目标视频可以为综艺节目、电影、电视剧等长视频，还可以为从长视频中截取的短视频等，本申请在此不做限定。

其中，这里的播放操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

为便于理解，请参见图4，图4是本申请实施例提供的一种输出视频显示界面的场景示意图。如图4所示的视频推荐界面4a可以为应用客户端的视频推荐界面，该视频推荐界面4a中可以包含多个推荐视频，这里的多个推荐视频具体可以包括：视频40a、视频40b、视频40c和视频40d。

如图4所示，当用户Y需要播放某个推荐视频(例如，将视频40b作为目标视频)时，可以针对视频40b执行播放操作，这样，应用客户端可以响应用户Y针对视频40b所执行的播放操作，向应用客户端对应的服务器发送视频播放请求，进而在应用客户端中输出与视频40b相关联的视频显示界面4b。

步骤S102，响应于针对视频显示界面的第一触发操作，显示与目标视频相关联的评论展示区域；

其中，评论展示区域用于展示与目标视频相关联的第一评论信息以及第一评论信息对应的第一视频定位控件；第一视频定位控件用于定位与第一评论信息关联的第一目标视频片段；第一目标视频片段为目标视频中的视频片段。

在一个或多个实施例中，应用客户端可以获取与目标视频相关联的评论信息集合，进而基于评论信息的评论辅助参数，从评论信息集合中确定至少一个目标评论信息进行展示，其中，目标评论信息包括第一评论信息，该第一评论信息可以为观看该目标视频的目标用户在T1时刻所录入的评论信息。

其中，可选的，目标评论信息还可以包括第二评论信息和第三评论信息。这里的第二评论信息可以为观看该目标视频的目标用户在T1时刻的下一时刻(例如，T2时刻)所录入的评论信息，这里的第三评论信息可以为观看该目标视频的目标用户在T2时刻的下一时刻(例如，T3时刻)所录入的评论信息。可选的，在一个或多个实施例中，第二评论信息还可以为观看该目标视频的其他用户(例如，用户Y1)所录入的评论信息，第三评论信息还可以为观看该目标视频的其他用户(例如，用户Y2)所录入的评论信息。

在一个或多个实施例中，上述第一评论信息和第二评论信息可以属于第一类评论信息，上述第三评论信息可以属于第二类评论信息，该第一类评论信息的显示区域可以包括与第一类评论信息相关联的视频定位控件，第二类评论信息的显示区域不包括与第二类评论信息相关联的视频定位控件。其中，显示区域中的第一类评论信息与视频定位控件之间具有关联关系，比如，该第一类评论信息和视频定位控件可以在评论展示区域中具有相邻位置关系(例如，视频定位控件可以位于第一类评论信息的后方位置)。

其中，在一个或多个实施例中，本申请实施例所涉及的评论信息可以为任意用户针对目标视频直接回复的评论信息(即直接评论信息)，这样，直接评论信息的显示区域可以包括视频定位控件。可选的，在一个或多个实施例中，本申请实施例所涉及的评论信息还可以为任意用户针对上述直接评论信息间接回复的评论信息(即间接评论信息)，这样，间接评论信息的显示区域也可以包括视频定位控件。

其中，这里的第一触发操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。比如，在视频显示界面中包括评论显示控件时，目标用户针对视频显示界面所执行的第一触发操作，可以理解为针对评论显示控件所执行的第一触发操作。又比如，目标用户针对视频显示界面所执行的第一触发操作，还可以理解为针对视频显示界面中的任意区域所执行的滑动操作。

在一个或多个实施例中，评论辅助参数可以包括以下至少一个参数：评论时间、评论文本长度、评论互动热度以及评论回复量。

其中，应用客户端可以根据至少一个评论辅助参数，确定评论信息在评论展示区域中的位置。评论时间可以表示评论信息的发布时间，比如，应用客户端可以将发布时间最晚的评论信息输出在最上方。评论文本长度可以表示评论信息的文本长度，比如，应用客户端可以将文本长度最长的评论信息输出在最上方。评论互动热度可以表示评论信息的点赞量(或收藏量)，比如，应用客户端可以将点赞量最多的评论信息输出在最上方。评论回复量可以表示评论信息的回复量(即子评论的数量)，比如，应用客户端可以将回复量最多的评论信息输出在最上方。

为便于理解，请参见图5，图5是本申请实施例提供的一种显示评论展示区域的场景示意图。如图5所示的视频显示界面5a可以为上述图4所对应实施例中的视频显示界面4b，视频显示界面5a中可以包括评论显示控件50a。

如图5所示，当用户Y需要观看与目标视频(这里的目标视频可以为上述图4所对应实施例中的视频40b)相关联的评论信息时，可以针对评论显示控件50a执行第一触发操作，这样，应用客户端可以响应目标用户针对评论显示控件50a所执行的第一触发操作，向应用客户端对应服务器发送评论获取请求，以在应用客户端中显示与目标视频相关联的评论展示区域50b。此时，视频显示界面可以由视频显示界面5a切换至视频显示界面5b。

如图5所示，用户Y1对应的评论信息“AAAAAAAAAAAAAAAAAAAAAAAAA”可以属于第一评论信息，用户Y3对应的评论信息“CCCCC”可以属于第二评论信息，用户Y2对应的评论信息“BBB”可以属于第三评论信息。其中，评论展示区域50b包括第一评论信息以及第一评论信息对应的视频定位控件。

步骤S103，响应于针对第一视频定位控件的第二触发操作，播放第一目标视频片段。

其中，这里的第二触发操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

在一个或多个实施例中，视频显示界面中包含用于播放目标视频的视频播放区域；目标视频在视频播放区域中的播放进度为第一播放进度。应用客户端可以响应于针对第一视频定位控件的第二触发操作，确定第一目标视频片段对应目标视频的第二播放进度。进一步地，应用客户端可以在视频播放区域中将目标视频的播放进度由第一播放进度切换至第二播放进度，播放目标视频中的第一目标视频片段。

换言之，应用客户端可以响应于针对第一视频定位控件的第二触发操作，基于第一视频定位控件所指示的定位信息获取第一视频定位控件对应的第一目标视频片段。其中，定位信息用于表征第一目标视频片段在目标视频中的定位播放进度。进一步地，应用客户端可以在视频播放区域中将目标视频的播放进度由第一播放进度调整至定位播放进度，将定位播放进度作为目标视频的第二播放进度，在视频播放区域中基于第二播放进度播放目标视频中的第一目标视频片段。

其中，在目标用户针对第一视频定位控件执行第二触发操作之前，目标视频在视频播放区域中的状态可以为播放状态，此时，应用客户端可以调整处于播放状态的目标视频的播放进度。可选的，在目标用户针对第一视频定位控件执行第二触发操作之前，目标视频在视频播放区域中的状态可以为未播放状态，此时，应用客户端可以调整处于未播放状态的目标视频的播放进度。

为便于理解，请参见图6a，图6a是本申请实施例提供的一种进行定位播放的场景示意图。如图6a所示的视频显示界面61a可以为上述图5所对应实施例中的视频显示界面5b，视频显示界面61a中包含视频播放区域600a和评论展示区域60a，该视频播放区域600a中播放有目标视频，该评论展示区域60a中包含与目标视频相关联的评论信息。其中，目标视频在视频播放区域600a中的状态可以为播放状态或者未播放状态。

如图6a所示，评论展示区域60a中的评论信息“AAAAAAAAAAAAAAAAAAAAAAAAA”可以为第一评论信息，在该第一评论信息的显示区域包含该第一评论信息对应的视频定位控件60b(即第一视频定位控件)。在用户Y针对视频定位控件60b执行第二触发操作时，应用客户端可以在视频播放区域600b中播放第一目标视频片段，此时，视频显示界面可以由视频显示界面61a切换至视频显示界面61b，即在视频播放区域600a中基于第一播放进度播放或暂停目标视频，在视频播放区域600b中基于第二播放进度播放目标视频。

为便于理解，请参见图6b，图6b是本申请实施例提供的一种进行定位播放的场景示意图。如图6b所示，视频显示界面62a中包含视频播放区域600c和评论展示区域60c，该视频播放区域600c中播放有目标视频，该评论展示区域60c中包含与目标视频相关联的评论信息。其中，目标视频在视频播放区域600c中的状态可以为未播放状态，且目标视频在视频播放区域600c中处于隐藏状态。

如图6b所示，评论展示区域60c中的评论信息“AAAAAAAAAAAAAAAAAAAAAAAAA”可以为第一评论信息，在该第一评论信息的显示区域包含该第一评论信息对应的视频定位控件60d(即第一视频定位控件)。在用户Y针对视频定位控件60d执行第二触发操作时，应用客户端可以在视频播放区域600d中播放第一目标视频片段，此时，视频显示界面可以由视频显示界面62a切换至视频显示界面62b，且目标视频在视频播放区域中的状态由视频播放区域600c的隐藏状态切换至视频播放区域600d的显示状态，即在视频播放区域600c中基于第一播放进度暂停目标视频，在视频播放区域600d中基于第二播放进度播放目标视频。

可选的，在一个或多个实施例中，应用客户端可以响应于针对第一视频定位控件的第二触发操作，显示独立于视频显示界面的片段播放子界面，确定第一目标视频片段对应目标视频的第二播放进度。进一步的，应用客户端可以在片段播放子界面中基于第二播放进度播放第一目标视频片段。

换言之，应用客户端可以响应于针对第一视频定位控件的第二触发操作，在应用客户端中输出独立于视频显示界面的片段播放子界面，且基于第一视频定位控件所指示的定位信息获取第一视频定位控件对应的第一目标视频片段。其中，定位信息用于表征第一目标视频片段在目标视频中的定位播放进度。进一步地，应用客户端可以在片段播放子界面中基于定位播放进度播放第一目标视频片段。

其中，在一个或多个实施例中，视频显示界面中可以包含用于播放目标视频的视频播放区域，目标用户可以在视频播放区域中观看目标视频，还可以在片段播放子界面中观看第一目标视频片段，应用客户端可以同时播放目标视频与第一目标视频片段，也可以播放目标视频、暂停第一目标视频片段，还可以暂停目标视频、播放第一目标视频片段。在一个或多个实施例中，本申请实施例不对目标视频和第一目标视频片段的播放状态进行限定。可选的，视频显示界面中还可以未包含用于播放目标视频的视频播放区域，目标用户可以直接在片段播放子界面中观看第一目标视频片段。

其中，片段播放子界面可以在应用客户端中的任意位置，本申请实施例不对片段播放子界面的位置进行限定。

为便于理解，请参见图6c，图6c是本申请实施例提供的一种进行定位播放的场景示意图。如图6c所示的视频显示界面63a可以为上述图5所对应实施例中的视频显示界面5b，视频显示界面63a中包含评论展示区域60e，该评论展示区域60e中包含与目标视频相关联的评论信息。

如图6c所示，评论展示区域60e中的评论信息“AAAAAAAAAAAAAAAAAAAAAAAAA”可以为第一评论信息，在该第一评论信息的显示区域包含该第一评论信息对应的视频定位控件60f(即第一视频定位控件)。在用户Y针对视频定位控件60f执行第二触发操作时，应用客户端可以显示独立于视频显示界面63a的片段播放子界面，以在该片段播放子界面中播放第一目标视频片段。此时，片段播放子界面下的视频显示界面63b和视频显示界面63a可以为同一个视频显示界面。

可选的，在一个或多个实施例中，应用客户端可以响应于针对第一视频定位控件的第二触发操作，显示与第一评论信息相关联的片段播放区域，确定第一目标视频片段对应目标视频的第二播放进度。进一步地，应用客户端可以在片段播放区域中基于第二播放进度播放第一目标视频片段。

换言之，应用客户端可以响应于针对第一视频定位控件的第二触发操作，在视频显示界面中输出与第一评论信息相关联的片段播放区域，且基于第一视频定位控件所指示的定位信息获取第一视频定位控件对应的第一目标视频片段。其中，定位信息用于表征第一目标视频片段在目标视频中的定位播放进度。进一步地，应用客户端可以在片段播放区域中基于定位播放进度播放第一目标视频片段。

其中，在一个或多个实施例中，视频显示界面中可以包含用于播放目标视频的视频播放区域，目标用户可以在视频播放区域中观看目标视频，还可以在片段播放区域中观看第一目标视频片段，应用客户端可以同时播放目标视频与第一目标视频片段，也可以播放目标视频、暂停第一目标视频片段，还可以暂停目标视频、播放第一目标视频片段。在一个或多个实施例中，本申请实施例不对目标视频和第一目标视频片段的播放状态进行限定。可选的，视频显示界面中还可以未包含用于播放目标视频的视频播放区域，目标用户可以直接在片段播放区域中观看第一目标视频片段。

其中，片段播放区域可以在应用客户端中的任意位置，本申请实施例不对片段播放区域的位置进行限定。

为便于理解，请参见图6d，图6d是本申请实施例提供的一种进行定位播放的场景示意图。如图6d所示的视频显示界面64a可以为上述图5所对应实施例中的视频显示界面5b，视频显示界面64a中包含评论展示区域60g，该评论展示区域60g中包含与目标视频相关联的评论信息。

如图6d所示，评论展示区域60g中的评论信息“AAAAAAAAAAAAAAAAAAAAAAAAA”可以为第一评论信息，在该第一评论信息的显示区域包含该第一评论信息对应的视频定位控件60h(即第一视频定位控件)。在用户Y针对视频定位控件60h执行第二触发操作时，应用客户端在视频显示界面64a中显示片段播放区域，以在该片段播放子界面中播放第一目标视频片段。此时，视频显示界面可以由视频显示界面64a切换至视频显示界面64b，评论展示区域可以由评论展示区域60g切换至评论展示区域60i。

由此可见，本申请实施例可以在评论展示区域中显示与目标视频相关联的评论信息(例如，第一评论信息)和评论信息对应的视频定位控件(例如，第一评论信息对应的第一视频定位控件)，在响应于针对该第一评论信息对应的第一视频定位控件的第二触发操作时，在与目标视频相关联的视频片段中获取第一目标视频片段，以直接在应用客户端中播放与第一评论信息关联的第一目标视频片段，进而可以实现第一目标视频片段的快速定位，进而可以在提高视频定位的准确性的同时，还可以提升用户体验。

进一步地，请参见图7，图7是本申请实施例提供的一种视频播放方法的流程示意图。该方法可以由应用客户端执行，也可以由服务器执行，还可以由应用客户端和服务器共同执行，该应用客户端可以为上述图2所对应实施例中的应用客户端，该服务器可以为上述图2所对应实施例中的服务器。为便于理解，本实施例以该方法由服务器执行为例进行说明。其中，该视频播放方法至少可以包括以下步骤S201-步骤S204：

步骤S201，接收应用客户端发送的与目标视频相关联的第一评论信息；

在一个或多个实施例中，当目标用户(例如，图2所对应实施例中的用户Y)在应用客户端中录入与目标视频相关联的评论信息时，服务器可以接收应用客户端发送的评论信息。为便于理解，本申请实施例以目标用户录入的评论信息属于第一评论信息为例进行说明，可选的，目标用户录入的评论信息还可以属于第二评论信息。在一个或多个实施例中，本申请实施例不对目标用户录入的评论信息的类型进行限定。

步骤S202，获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息；

具体的，服务器可以基于第一评论信息所携带的数据信息，得到第一评论信息对应的关键文本信息，获取与第一评论信息相关联的目标网络模型。其中，目标网络模型包括用于对关键文本信息进行情节判定的目标情节判定网络。进一步地，服务器可以对关键文本信息进行分词处理，得到关键文本信息的第一分词文本，将第一分词文本进行词向量编码，得到第一分词文本对应的第一分词向量。进一步地，服务器可以在第一评论信息中确定第一分词文本的分词文本位置，对分词文本位置进行位置编码，得到分词文本位置对应的分词位置向量。进一步地，服务器可以基于分词文本位置将第一分词向量和分词位置向量进行第一特征融合，得到第一分词文本的第一文本向量，将第一文本向量输入至目标情节判定网络，由目标情节判定网络对第一文本向量进行特征提取，得到第一分词文本对应的第一特征向量，基于第一分词文本对应的第一特征向量，得到第一评论信息对应的评论特征向量。进一步地，服务器可以通过目标情节判定网络中的分类器，确定评论特征向量与目标情节判定网络的分类器中的样本情节向量之间的第一文本匹配度，以及与目标情节判定网络的分类器中的多个情节类型向量之间的第二文本匹配度。进一步地，若基于第一文本匹配度和第二文本匹配度，确定第一评论信息满足目标情节判定网络对应的片段获取条件，则服务器可以获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息。其中，这里的K可以为正整数。

在一个或多个实施例中，第一评论信息所携带的数据信息具体可以包括：图片、表情、符号、文本等，服务器可以将图片上提取到的图片文本、表情对应的表情文本、符号对应的符号文本和目标用户直接输入的文本，作为第一评论信息对应的关键文本信息。

在一个或多个实施例中，分词处理就是将连续的字序列(即关键文本信息)按照一定的规范重新组合成词序列(即第一分词文本)的过程。例如，在关键文本信息为：“我和我的小伙伴”时，服务器可以对关键文本信息进行分词处理，以得到关键文本信息的第一分词文本为：“我”、“和”、“我”、“的”、“小”、“伙”、“伴”。

在一个或多个实施例中，服务器通过词嵌入算法(例如，Word2Vec(即word tovector)、Glove等算法)可以将第一分词文本进行词向量编码，以得到第一分词文本对应的第一分词向量；服务器通过位置公式可以对分词文本位置进行位置编码，以得到分词文本位置对应的分词位置向量。在一个或多个实施例中，本申请实施例不对词向量编码和位置编码的具体实现方式进行限定。

在一个或多个实施例中，服务器对第一分词向量(即Token Embedding)和分词位置向量(即Position Embedding)进行第一特征融合，得到第一分词文本的第一文本向量的方式可以为向量相加的方式，还可以为加权平均的方式。在一个或多个实施例中，本申请实施例不对第一特征融合的具体方式进行限定。

其中，服务器进行第一特征融合时所使用的第一分词向量和分词位置向量，为同一个第一分词文本(例如，分词文本F1)对应的第一分词向量和分词位置向量，即服务器可以对分词文本F1对应的第一分词向量和分词位置向量进行第一特征融合，得到分词文本F1的第一文本向量。

在一个或多个实施例中，目标情节判定网络可以为基于变压器的双向编码器表征(Bidirectional Encoder Representations from Transformers，简称BERT)模型。在一个或多个实施例中，本申请实施例不对目标情节判定网络的具体类型进行限定。其中，BERT模型(即目标情节判定网络)使用Transformer结构作为主要框架，Transformer结构可以更彻底地捕捉文本数据中的双向关系。其中，Transformer结构可以包括编码器(即EncoderBlock)和解码器(即Decoder Block)，BERT模型可以使用Transformer结构中的编码器作为主要框架。

其中，该目标情节判定网络属于多任务计算模型，可以在计算第一评论信息是否有情节看点时，同时计算第一评论信息的情节类型。其中，情节类型是是情节看点的集合，该集合可以包括3000左右的情节看点，例如，“枪战”、“搞笑对话”、“情侣互动”等。

在一个或多个实施例中，第一文本匹配度(即pv)和第二文本匹配度(即pkc)用于确定第一评论信息是否满足片段获取条件。其中，第二文本匹配度用于确定第一评论信息属于每种情节看点的概率，例如，[0.2，0.1，0.03，…，0.0001]。

可选的，若基于第一文本匹配度和第二文本匹配度，确定第一评论信息未满足目标情节判定网络对应的片段获取条件，则无需获取与目标视频相关联的K个视频片段，进而无需确定K个视频片段中的每个视频片段的辅助文本信息，此时的第一评论信息即为上述图3所对应实施例中的第二评论信息。

可选的，本申请实施例还可以无需基于第一文本匹配度和第二文本匹配度，确定第一评论信息是否满足片段获取条件，而在第一评论信息满足片段获取条件时、或者在第一评论信息未满足片段获取条件时，均获取与目标视频相关联的K个视频片段。

在一个或多个实施例中，并不是所有的评论信息均是有实质内容的评论，如有些评论信息过于泛化，没必要对这些评论信息去执行后续步骤S203(例如，在评论信息为第一评论信息时，确定第一评论信息与每个视频片段的内容相关度)，因此，通过确定第一评论信息是否满足片段获取条件，可以对第一评论信息进行筛选，进而降低无效计算量。

在一个或多个实施例中，样本情节向量所指示的样本情节标签是与多个情节类型向量所指示的情节类型标签相关联的。服务器获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息的具体过程可以描述为：服务器可以获取目标情节判定网络对应的片段获取条件。其中，片段获取条件中包含与样本情节标签相关联的第一阈值以及与每个情节类型标签相关联的第二阈值。进一步地，若第一文本匹配度达到第一阈值，则服务器可以确定第一评论信息具备样本情节标签所指示的情节内容，在第二文本匹配度中将具有最大值的第二文本匹配度作为目标匹配度，若目标匹配度达到第二阈值，则服务器可以确定第一评论信息满足目标情节判定网络对应的片段获取条件，且获取与目标视频相关联的K个视频片段。进一步地，服务器可以获取K个视频片段中的每个视频片段的语音文本信息、每个视频片段的字幕文本信息、每个视频片段的弹幕文本信息或者每个视频片段所包含的对象文本信息，基于获取到的语音文本信息、获取到的字幕文本信息、获取到的弹幕文本信息或者获取到的对象文本信息，确定每个视频片段的辅助文本信息。

其中，本申请实施例不对第一阈值和第二阈值的具体取值进行限定。

在一个或多个实施例中，第一文本匹配度表示第一评论信息与样本情节标签的匹配度，若第一文本匹配度达到第一阈值，则确定第一评论信息具备样本情节标签所指示的情节内容。可选的，若第一文本匹配度未达到第一阈值，则确定第一评论信息不具备样本情节标签所指示的情节内容。其中，在第一评论信息具备样本情节标签所指示的情节内容时，第一评论信息对应的样本情节标签可以为B1，在第一评论信息不具备样本情节标签所指示的情节内容时，第一评论信息对应的样本情节标签可以为B2。

在一个或多个实施例中，若第一评论信息具备样本情节标签所指示的情节内容，则第二文本匹配度表示第一评论信息与情节类型标签的匹配度，一个第二文本匹配度对应一个情节类型标签，此时，第一评论信息可以与多个情节类型标签中的至少一个情节类型标签具备匹配度。例如，在第一评论信息与情节类型标签C1具备匹配度时，第二文本匹配度可以为G1，在第一评论信息与情节类型标签C2不具备匹配度时，第二文本匹配度可以为G2，这里的第二文本匹配度G2可以等于0。可选的，若第一评论信息不具备样本情节标签所指示的情节内容，则第一评论信息与情节类型标签不具备匹配度。

在一个或多个实施例中，服务器可以根据时间长度，将目标视频切分为K个视频片段，例如，根据30s(即30秒)的时间长度，划分得到视频片段。其中，第一个视频片段或最后一个视频片段的长度可以不满足时间长度的要求。在一个或多个实施例中，本申请实施例不对时间长度的具体取值进行限定。可选的，服务器还可以通过视频帧聚类等方式，将目标视频切分为K个视频片段。在一个或多个实施例中，本申请实施例不对获取与目标视频相关联的K个视频片段的具体方式进行限定。

在一个或多个实施例中，服务器可以通过ASR(Automatic Speech Recognition，即自动语音识别)识别每个视频片段的语音文本信息，通过OCR(Optical CharacterRecognition，即光学字符识别)识别每个视频片段的字幕文本信息，通过目标视频中的弹幕信息的弹幕时间戳确定每个视频片段的弹幕文本信息，通过人脸检测模型以及人脸识别模型识别每个视频片段的对象文本信息。在一个或多个实施例中，本申请实施例不对人脸检测模型和人脸识别模型的具体类型进行限定。其中，在一部分视频片段中，字幕文本信息可以包含语音文本信息。其中，服务器可以将语音文本信息、字幕文本信息、弹幕文本信息和对象文本信息中的一个或一个以上文本信息作为辅助文本信息。

其中，服务器确定每个视频片段的辅助文本信息时，使用的是同一个视频片段(例如，视频片段S)的语音文本信息、字幕文本信息、弹幕文本信息和对象文本信息，即服务器可以基于视频片段S的语音文本信息、字幕文本信息、弹幕文本信息和对象文本信息，确定视频片段S的辅助文本信息。

为便于理解，请参见图8，图8是本申请实施例提供的一种目标情节判定网络的结构示意图。如图8所示的视频评论内容可以为第一评论信息对应的关键文本信息，这里的关键文本信息可以包括w个第一分词文本。其中，第一分词文本也可以包括关键文本信息的长度，第一分词文本还可以包括CLS标志，该CLS标志可以用于分类任务。

如图8所示，对视频评论内容进行词向量编码，可以得到视频评论内容对应的第一分词向量，即“[CLS]”(未在图上示出)、“长度”“词1”、“词2”、…、“词w”对应的第一分词向量，同理，对视频评论内容的分词文本位置进行位置编码，可以得到视频评论内容对应的分词位置向量，即“位置-1”(未在图上示出)、“位置0”“位置1”、“位置2”、…、“位置w”对应的分词位置向量。其中，“位置-1”为“[CLS]”对应的分词文本位置。

其中，为便于理解，这里以关键文本信息为“我的狗很可爱，它喜欢玩球”为例，此时，“我”即为上述“词1”、“的”即为上述“词2”、…、“球”即为上述“词w”，同理，“我”的分词文本位置即为上述“位置1”、“的”的分词文本位置即为上述“位置2”、…、“球”的分词文本位置即为上述“位置w”。

如图8所示，对上述第一分词向量和分词位置向量进行向量相加(即第一特征融合)，可以得到图8所示的第一文本向量，即对“[CLS]”对应的第一分词向量和“位置-1”对应的分词位置向量进行向量相加，可以得到“[CLS]”对应的第一文本向量“E-1”(未在图上示出)；对“长度”对应的第一分词向量和“位置0”对应的分词位置向量进行向量相加，可以得到“长度”对应的第一文本向量“E0”(未在图上示出)；对“词1”对应的第一分词向量和“位置1”对应的分词位置向量进行向量相加，可以得到“词1”对应的第一文本向量“E1”(未在图上示出)；…；对“词w”对应的第一分词向量和“位置w”对应的分词位置向量进行向量相加，可以得到“词w”对应的第一文本向量“Ew”(未在图上示出)。

如图8所示，将第一文本向量输入至目标情节判定网络，由目标情节判定网络可以确定视频评论内容(即评论)是否有情节看点、视频评论内容(即评论)属于情节看点类型。其中，在评论有情节看点时，评论可以属于多个情节看点类型，在评论无情节看点时，评论不属于情节看点类型。

在一个或多个实施例中，目标网络模型是对初始网络模型进行迭代训练所得到的；初始网络模型包含用于对参与训练的样本评论信息进行情节判定的初始情节判定网络。服务器通过训练初始情节判定网络得到目标情节判定网络的具体过程可以描述为：服务器可以获取用于训练初始情节判定网络的样本评论信息，将样本评论信息的情节看点作为样本情节标签，且将样本评论信息的情节类型作为情节类型标签。进一步地，服务器可以对所样本评论信息进行分词处理，得到样本评论信息的第二分词文本，将第二分词文本进行词向量编码，得到第二分词文本对应的第二分词向量。进一步地，服务器可以在样本评论信息中确定第二分词文本的样本文本位置，对样本文本位置进行位置编码，得到样本文本位置对应的样本位置向量。进一步地，服务器可以基于样本文本位置将第二分词向量和样本位置向量进行第一特征融合，得到第二分词文本的第二文本向量，将第二文本向量输入至初始情节判定网络，由初始情节判定网络对第二文本向量进行特征提取，得到第二分词文本对应的第二特征向量，基于第二分词文本对应的第二特征向量，得到样本评论信息对应的样本特征向量。进一步地，服务器可以基于样本评论信息对应的样本特征向量、样本情节标签、情节类型标签和初始情节判定网络中的分类器，对初始情节判定网络进行迭代训练，将迭代训练后的初始情节判定网络作为目标情节判定网络。

在一个或多个实施例中，样本情节标签可以为样本评论信息对应的情节看点，在样本评论信息具备情节看点时，样本情节标签可以为“有情节看点”，在样本评论信息不具备情节看点时，样本情节标签可以为“无情节看点”。情节类型标签可以为样本评论信息对应的情节类型。具体的，样本评论信息、样本情节标签以及情节类型标签的对应关系可以如下表1所示：

表1

样本评论信息-评论属性	评论是否有情节看点	评论属于情节看点类型
			评论1	有情节看点	情节类型1
评论2	无情节看点	None
			评论3	有情节看点	情节类型3
…	…	…
			评论p	有情节看点	情节类型c

如表1所示，用于训练初始情节判定网络的样本评论信息的数量可以为p个，这里的p可以为正整数，p个样本评论信息具体可以包括：评论1、评论2、…、评论p，评论1的样本情节标签可以为“有情节看点”、评论2的样本情节标签可以为“无情节看点”、…、评论p的样本情节标签可以为“有情节看点”，评论1的情节类型标签可以为“情节类型1”、评论2的情节类型标签可以为“None”(即“无”)、…、评论p的情节类型标签可以为“情节类型c”。其中，评论1、评论2、…、评论p分别的情节类型标签可以为同一情节类型，也可以为不同情节类型。

在一个或多个实施例中，在样本评论信息所携带的数据信息包括文本时，服务器可以直接对样本评论信息进行分词处理得到第二分词文本、以及对第二分词文本在样本评论信息中的样本文本位置进行位置编码得到样本位置向量。可选的，在样本评论信息所携带的数据信息包括图片、表情、符号、文本时，服务器可以基于样本评论信息所携带的数据信息，得到样本评论信息对应的样本文本信息，进而对样本文本信息进行分词处理得到第二分词文本、以及对第二分词文本在样本文本信息中的样本文本位置进行位置编码得到样本位置向量。其中，在一个或多个实施例中，服务器基于样本评论信息得到样本文本信息的具体过程，可以参见基于第一评论信息得到关键文本信息的描述，这里将不再进行赘述。

在一个或多个实施例中，服务器对样本评论信息进行分词处理的具体过程，可以参见上述对关键文本信息进行分词处理的描述，这里将不再进行赘述。同理，服务器对第二分词文本进行词向量编码的具体过程，可以参见上述对第一分词文本进行词向量编码的描述，这里将不再进行赘述。同理，服务器对样本文本位置进行位置编码的具体过程，可以参见上述对分词文本位置进行位置编码的描述，这里将不再进行赘述。同理，服务器对第二分词向量和样本位置向量进行第一特征融合的具体过程，可以参见上述对第一分词向量和分词位置向量进行第一特征融合的描述，这里将不再进行赘述。

在一个或多个实施例中，初始情节判定网络和目标情节判定网络可以统称为第一泛化网络，初始情节判定网络和目标情节判定网络属于第一泛化网络在不同时刻的名称。在训练阶段，第一泛化网络可以称之为初始情节判定网络，在预测阶段，第一泛化网络可以称之为目标情节判定网络。

步骤S203，基于每个视频片段的辅助文本信息和第一评论信息，确定每个视频片段与第一评论信息之间的内容相关度；

其中，一个视频片段对应一个内容相关度。

在一个或多个实施例中，在有新的弹幕信息发布时，会对弹幕文本信息进行更新，进而对每个视频片段的辅助文本信息进行更新，因此，服务器可以每隔一定时间间隔，重新确定每个视频片段与第一评论信息之间的内容相关度。

在一个或多个实施例中，服务器可以基于每个视频片段的辅助文本信息和第一评论信息，得到每个视频片段和第一评论信息之间的类型相符概率(即评论与视频片段情节类型相符概率)、规则匹配度(即基于规则方式的评论与视频片段的匹配度)和模型匹配度(即基于深度模型的评论与视频片段的匹配度)。进一步地，服务器可以对规则匹配度和模型匹配度进行第一运算处理，得到每个视频片段和第一评论信息之间的内容匹配度(即评论与视频片段的内容匹配度)。进一步地，服务器可以对内容匹配度和类型相符概率进行第二运算处理，得到每个视频片段和第一评论信息之间的内容相关度。

在一个或多个实施例中，第一运算处理可以为加权求和，第二运算处理可以为乘法运算，这样，服务器可以通过下述计算方法，确定每个视频片段和第一评论信息之间的内容相关度：内容相关度＝类型相符概率*(x1*规则匹配度+x2*模型匹配度)。其中，x1表示规则匹配度对应的权重系数，x2表示模型匹配度对应的权重系数，第一评论信息与K个视频片段中的每个视频片段均对应一个类型相符概率、一个规则匹配度和一个模型匹配度，这样，第一评论信息与K个视频片段中的每个视频片段均对应一个内容相关度。在一个或多个实施例中，本申请实施例不对第一运算处理和第二运算处理的运算方式进行限定。

在一个或多个实施例中，服务器可以基于目标情节判定网络提取每个视频片段的辅助文本信息的文本特征，将提取到的文本特征作为每个视频片段的辅助文本信息对应的辅助特征向量。进一步地，服务器可以通过目标情节判定网络中的分类器，确定每个视频片段的辅助特征向量与目标情节判定网络的分类器中的多个情节类型向量之间的辅助匹配度。进一步地，服务器可以在与每个视频片段相关联的辅助匹配度和与第一评论信息相关联的第二文本匹配度中，对相同情节类型标签所对应的匹配度进行合并处理，得到每个视频片段与第一评论信息之间的类型相符概率。

在一个或多个实施例中，服务器确定每个视频片段的辅助文本信息对应的辅助特征向量的具体过程，可以参见上述确定第一评论信息对应的评论特征向量的描述，这里将不再进行赘述。

在一个或多个实施例中，合并处理可以对辅助匹配度(即pkc)和第二文本匹配度(即pkv)中，相同情节类型标签所对应的匹配度进行相乘求和，即类型相符概率＝sum_i(pkc[i]*pkv[i])。例如，在情节类型标签的数量为3个(例如，情节类型标签C1、情节类型标签C2、情节类型标签C3)时，每个视频片段关于情节类型标签C1的辅助匹配度为G1、关于情节类型标签C2的辅助匹配度为G2、关于情节类型标签C3的辅助匹配度为G3，第一评论信息关于情节类型标签C1的辅助匹配度为G4、关于情节类型标签C2的辅助匹配度为G5、关于情节类型标签C3的辅助匹配度为G6，这样，每个视频片段与第一评论信息之间的类型相符概率为：类型相符概率＝G1*G4+G2*G5+G3*G6。

在一个或多个实施例中，每个视频片段的辅助特征向量与多个情节类型向量之间的辅助匹配度还可以称之为第二辅助匹配度，服务器还可以通过目标情节判定网络中的分类器，确定每个视频片段的辅助特征向量与目标情节判定网络的分类器中的样本情节向量之间的第一辅助匹配度。可选的，若基于第一辅助匹配度和第二辅助匹配度，确定辅助文本信息满足目标情节判定网络对应的片段获取条件，则服务器可以在第二辅助匹配度和上述第二文本匹配度中，对相同情节类型标签所对应的匹配度进行合并处理，此时需要确定第一评论信息与该辅助文本信息所属的视频片段之间的类型相符概率。在一个或多个实施例中，服务器确定辅助文本信息满足片段获取条件的具体过程，可以参见上述确定第一评论信息满足片段获取条件的描述，这里将不再进行赘述。可选的，若基于第一辅助匹配度和第二辅助匹配度，确定辅助文本信息未满足片段获取条件，则无需对相同情节类型标签所对应的匹配度进行合并处理，此时无需确定第一评论信息与该辅助文本信息所属的视频片段之间的类型相符概率。

比如，K个视频片段中可以包括视频片段Si和视频片段Sj，这里的i和j可以为小于或等于K的正整数，视频片段Si的辅助文本信息可以为Vi，视频片段Sj的辅助文本信息可以为Vj。若基于辅助文本信息Vi对应的第一辅助匹配度和第二辅助匹配度，确定辅助文本信息Vi满足片段获取条件，则需要确定视频片段Si与第一评论信息之间的类型相符概率；若基于辅助文本信息Vj对应的第一辅助匹配度和第二辅助匹配度，确定辅助文本信息Vj不满足片段获取条件，则无需确定视频片段Sj与第一评论信息之间的类型相符概率。

在一个或多个实施例中，服务器可以对每个视频片段的辅助文本信息和第一评论信息进行文本匹配，得到每个视频片段的辅助文本信息和第一评论信息的匹配文本信息。进一步地，服务器可以基于匹配文本信息和第一评论信息，得到每个视频片段与第一评论信息之间的规则匹配度。

在一个或多个实施例中，服务器可以基于最长公共子序列，对每个视频片段的辅助文本信息和第一评论信息进行文本匹配。在一个或多个实施例中，本申请实施例不对文本匹配的具体实现方式进行限定。

在一个或多个实施例中，服务器可以通过下述计算方法，确定每个视频片段与第一评论信息之间的规则匹配度：规则匹配度＝min(匹配文本信息的字数/第一评论信息的字数，1.0)，即在(匹配文本信息的字数/第一评论信息的字数)和1.0中取较小值，这里的1.0表示匹配文本信息与第一评论信息完全相同。

在一个或多个实施例中，服务器可以从目标网络模型中获取目标内容匹配网络，基于目标内容匹配网络提取与每个视频片段的辅助文本信息相关联的第一匹配向量、以及与第一评论信息相关联的第二匹配向量。其中，目标内容匹配网络用于对每个视频片段的辅助文本信息和第一评论信息进行内容匹配。进一步地，服务器可以将第一匹配向量和第二匹配向量进行第二特征融合，得到第一交互表示向量，基于第一交互表示向量和目标内容匹配网络中的分类器，得到每个视频片段和第一评论信息之间的模型匹配度。

在一个或多个实施例中，第一匹配向量可以为通过目标内容匹配网络对辅助文本信息的辅助分词文本进行特征提取所得到的特征向量，即辅助分词文本对应的特征向量为第一匹配向量，第二匹配向量可以为通过目标内容匹配网络对第一评论信息的第一分词文本进行特征提取所得到的特征向量，即第一分词文本对应的特征向量为第二匹配向量。在一个或多个实施例中，服务器确定第一评论信息的第一分词文本的具体过程，即为上述步骤S202的描述，同理，服务器确定辅助文本信息的辅助分词文本的具体过程，可以参见上述确定第一评论信息的第一分词文本的描述，这里将不再进行赘述。在一个或多个实施例中，目标内容匹配网络提取与辅助文本信息相关联的第一匹配向量的具体过程、以及提取与第一评论信息相关联的第二匹配向量的具体过程，可以参见上述通过目标情节判定网络提取第一文本分词对应的第一特征向量的描述，这里将不再进行赘述。其中，在一个或多个实施例中，目标内容匹配网络提取第一分词文本对应的第二匹配向量时所对应的网络结构、以及上述目标情节判定网络提取第一分词文本对应的第一特征向量时所对应的网络结构可以是相同的。

可选的，第一匹配向量还可以为辅助文本信息对应的特征向量，第二匹配向量还可以为第一评论信息对应的特征向量。在一个或多个实施例中，目标内容匹配网络提取辅助文本信息对应的第一匹配向量的具体过程、以及提取第一评论信息对应的第二匹配向量的具体过程，可以参见上述通过目标情节判定网络提取第一评论信息对应的评论特征向量的描述，这里将不再进行赘述。其中，在一个或多个实施例中，目标内容匹配网络提取第一评论信息对应的第二匹配向量时所对应的网络结构、以及上述目标情节判定网络提取第一评论信息对应的评论特征向量时所对应的网络结构可以是相同的。

在一个或多个实施例中，目标内容匹配网络可以为双塔模型(Deep StructuredSemantic Models，简称DSSM)，该双塔模型可以应用于文本相似度匹配，本申请实施例中的双塔模型可以包括Transformer结构中的编码器。在一个或多个实施例中，本申请实施例不对目标内容匹配网络的具体类型进行限定。

在一个或多个实施例中，服务器对第一匹配向量和第二匹配向量进行第二特征融合，得到第一交互表示向量的方式可以为向量相加的方式，也可以为CLS拼接的方式(即将辅助文本信息中的[CLS]所对应的第一匹配向量、以及第一评论信息中的[CLS]所对应的第二匹配向量进行拼接处理)，还可以为加权平均的方式。在一个或多个实施例中，本申请实施例不对第二特征融合的具体方式进行限定。

为便于理解，请参见图9，图9是本申请实施例提供的一种目标内容匹配网络的结构示意图。如图9所示的视频片段文本可以为每个视频片段的辅助文本信息，评论文本可以为第一评论信息，将视频片段文本和评论文本分别输入至目标内容匹配网络，可以得到视频片段(即视频片段文本)-评论(即评论文本)匹配度(即模型匹配度)。

如图9所示，将视频片段文本输入至编码器，可以输出与视频片段文本相关联的视频片段表示(即第一匹配向量)，将评论文本输入至编码器，可以输出与评论文本相关联的评论表示(即第二匹配向量)。其中，视频片段文本对应的编码器和评论文本对应的编码器的层数可以为至少一层(例如，1层、2层、2层以上)，本申请实施例不对编码器的层数进行限定。

如图9所示，通过对视频片段表示和评论表示进行特征融合(即第二特征融合)，可以得到视频片段与评论交互表示(即第一交互表示向量)，进而可以通过目标内容匹配网络得到视频片段-评论匹配度。

在一个或多个实施例中，目标网络模型是对初始网络模型进行迭代训练所得到的；初始网络模型包含用于对参与训练的视频评论信息和样本辅助信息进行内容匹配的初始内容匹配网络。服务器通过训练初始内容匹配网络得到目标内容匹配网络的具体过程可以描述为：服务器可以获取用于训练初始内容匹配网络的样本短视频，获取样本短视频的视频评论信息、样本辅助信息和样本匹配标签；样本匹配标签用于指示视频评论信息和样本辅助信息之间的匹配关系。进一步地，服务器可以基于初始内容匹配网络提取与视频评论信息相关联的第一视频向量、以及与样本辅助信息相关联的第二视频向量。进一步地，服务器可以将第一视频向量和第二视频向量进行第二特征融合，得到第二交互表示向量，基于第一视频向量、第二视频向量、样本匹配标签和初始内容匹配网络中的分类器，对初始内容匹配网络进行迭代训练，将迭代训练后的初始内容匹配网络作为目标内容匹配网络。

在一个或多个实施例中，样本匹配标签用于表示视频评论信息和样本辅助信息的匹配性，若视频评论信息和样本辅助信息为正例样本，即视频评论信息与样本辅助信息相匹配，则样本匹配标签可以为1，若视频评论信息和样本辅助信息为负例样本，即视频评论信息和样本辅助信息不匹配，则样本匹配标签可以为0。其中，负例样本可以通过自动随机负采样所构建。其中，视频评论信息和样本辅助信息所属的样本短视频，可以为与本申请实施例中的K个视频片段具有相似时间长度的短视频。

在一个或多个实施例中，服务器获取视频评论信息的具体过程，可以参见上述获取第一评论信息的描述，服务器获取样本辅助信息的具体过程，可以参见上述获取辅助文本信息的描述，这里将不再进行赘述。同理，服务器提取与视频评论信息相关联的第一视频向量的具体过程，可以参见上述提取与第一评论信息相关联的第二匹配向量的描述，这里将不再进行赘述。同理，服务器提取与样本辅助信息相关联的第二视频向量的具体过程，可以参见上述提取与辅助文本信息相关联的第一匹配向量的描述，这里将不再进行赘述。同理，服务器对第一视频向量和第二视频向量进行第二特征融合的方式，可以参见上述对第一匹配向量和第二匹配向量进行第二特征融合的描述，这里将不再进行赘述。

在一个或多个实施例中，初始内容匹配网络和目标内容匹配网络可以统称为第二泛化网络，初始内容匹配网络和目标内容匹配网络属于第二泛化网络在不同时刻的名称。在训练阶段，第二泛化网络可以称之为初始内容匹配网络，在预测阶段，第二泛化网络可以称之为目标内容匹配网络。

同理，在一个或多个实施例中，初始网络模型和目标网络模型可以统称为泛化模型，初始网络模型和目标网络模型属于泛化模型在不同时刻的名称。在训练阶段，泛化模型可以称之为初始网络模型，此时，泛化模型中可以包括初始情节判定网络和初始内容匹配网络；在预测阶段，泛化模型可以称之为目标网络模型，此时，泛化模型中可以包括目标情节判定网络和目标内容匹配网络。

可选的，服务器也可以根据类型相符概率，得到每个视频片段与第一评论信息之间的内容相关度，即服务器可以直接将类型相符概率，作为内容相关度。

可选的，服务器也可以根据规则匹配度，得到每个视频片段与第一评论信息之间的内容匹配度，进而根据内容匹配度，得到每个视频片段与第一评论信息之间的内容相关度，即服务器可以直接将规则匹配度，作为内容匹配度，进而直接将内容匹配度，作为内容相关度。

可选的，服务器也可以根据模型匹配度，得到每个视频片段与第一评论信息之间的内容匹配度，进而根据内容匹配度，得到每个视频片段与第一评论信息之间的内容相关度，即服务器可以直接将模型匹配度，作为内容匹配度，进而直接将内容匹配度，作为内容相关度。

可选的，服务器确定每个视频片段与第一评论信息之间的内容相关度的方式，包括但不限于上述类型相符概率、规则匹配度和模型匹配度。可选的，业务服务器确定每个视频片段与第一评论信息之间的内容相关度的方式，也可以由上述2个或2个以上的参数进行任意组合来确定内容相关度。

步骤S204，基于确定的内容相关度，将与第一评论信息具有最高内容相关度的视频片段作为与第一评论信息关联的第一目标视频片段，将第一目标视频片段在目标视频中的定位信息返回给应用客户端。

在一个或多个实施例中，应用客户端可以在接收到定位信息之后，生成与定位信息相关联的第一视频定位控件，这样，在目标用户针对第一评论信息对应的第一视频定位控件执行第二触发操作时，应用客户端可以响应于目标用户针对第一视频定位控件所执行的第二触发操作，基于定位信息获取第一目标视频片段并进行播放。

由此可见，本申请实施例可以在接收到与目标视频相关联的第一评论信息时，从与目标视频相关联的K个视频片段中获取与第一评论信息关联的第一目标视频片段，以使应用客户端在响应于针对第一评论信息对应的第一视频定位控件的第二触发操作时，直接在应用客户端中播放第一目标视频片段，进而可以实现第一目标视频片段的快速定位，提升了用户体验。其中，在接收到第一评论信息时，可以基于第一评论信息与K个视频片段中的每个视频片段的辅助文本信息，确定第一评论信息与每个视频片段的内容相关度，以将最高内容相关度所属的视频片段作为第一目标视频片段，进而可以提高视频定位的准确性。

进一步地，请参见图10，图10是本申请实施例提供的一种视频播放方法的流程示意图。该方法可以由应用客户端执行，也可以由服务器执行，还可以由应用客户端和服务器共同执行，该应用客户端可以为上述图2所对应实施例中的应用客户端，该服务器可以为上述图2所对应实施例中的服务器。为便于理解，本实施例以该方法由应用客户端和服务器共同执行为例进行说明。其中，该视频播放方法可以包括以下步骤：

步骤S301，应用客户端输出与目标视频相关联的视频显示界面；

步骤S302，应用客户端响应于针对视频显示界面的第一触发操作，显示与目标视频相关联的评论展示区域；

在一个或多个实施例中，评论展示区域中包括用于录入评论信息的评论录入控件，这里的评论信息可以包括第一评论信息、第二评论信息或者第三评论信息等，在目标用户(例如，图2所对应实施例中的用户Y)针对评论录入控件执行第三触发操作时，应用客户端可以执行下述步骤S303。

步骤S303，应用客户端响应于针对评论录入控件的第三触发操作，显示用于录入第一评论信息的评论录入区域；

其中，这里的第三触发操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

可选的，应用客户端还可以响应于针对评论录入控件的第三触发操作，显示独立于视频显示界面的评论录入子界面，进而在下述步骤S304中，应用客户端可以响应于针对评论录入子界面的信息录入操作。

步骤S304，应用客户端响应于针对评论录入区域的信息录入操作，将信息录入操作所对应的数据信息作为第一评论信息；

其中，这里的信息录入操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

其中，数据信息具体可以包括：图片、表情、符号、文本等，应用客户端可以将目标用户在评论录入区域所录入的图片、表情、符号、文本等作为第一评论信息。

步骤S305，应用客户端响应于针对第一评论信息的信息发布操作，在评论展示区域显示第一评论信息；

其中，这里的信息发布操作可以包括点击、长按、滑动等接触性操作，也可以包括语音、手势等非接触性操作，本申请在此不做限定。

为便于理解，请参见图11a，图11a是本申请实施例提供的一种录入评论信息的场景示意图。如图11a所示，视频显示界面11a为目标视频对应的视频显示界面，该视频显示界面11a中包括评论显示控件110a，用户Y可以针对评论显示控件110a执行第一触发操作，应用客户端可以响应用户Y针对评论显示控件110a所执行的第一触发操作(即响应于针对视频显示界面的第一触发操作)，显示与目标视频相关联的评论展示区域110b，得到视频显示界面11b。

如图11a所示，视频显示界面11b中包括评论录入控件110c，用户Y可以针对评论录入控件110c执行第三触发操作，应用客户端可以响应用户Y针对评论录入控件110c所执行的第三触发操作，显示用于录入第一评论信息的评论录入区域110e。在一个或多个实施例中，用户Y可以在评论录入区域110e中录入“真的好好听呀～～”，应用客户端可以响应用户Y针对评论录入区域110e所执行的信息录入操作，将该“真的好好听呀～～”作为评论信息P1，且在评论录入区域110e中输出评论信息P1，得到视频显示界面11c。

如图11a所示，评论录入区域110e中包括评论发布控件110d，用户Y可以针对评论发布控件110d执行信息发布操作，应用客户端可以响应用户Y针对评论发布控件110d所执行的信息发布操作(即响应于针对第一评论信息的信息发布操作)，在评论展示区域110f中显示评论信息P1“真的好好听呀～～”，得到视频显示界面11d。

可选的，本申请实施例所提供的步骤S301-步骤S305的执行顺序还可以为：步骤S301、步骤S303、步骤S304、步骤S305和步骤S302。在一个或多个实施例中，本申请实施例不对步骤S301-步骤S305的执行顺序进行限定。

为便于理解，请参见图11b，图11b是本申请实施例提供的一种录入评论信息的场景示意图。如图11b所示，视频显示界面11e可以为上述图11a所对应实施例中的视频显示界面11a，该视频显示界面11e中包括评论录入控件120a，用户Y可以针对评论录入控件120a执行第三触发操作，应用客户端可以响应用户Y针对评论录入控件120a所执行的第三触发操作，显示用于录入第一评论信息的评论录入区域120b。在一个或多个实施例中，用户Y可以在评论录入区域120b中录入“真的好好听哟～～”，应用客户端可以响应用户Y针对评论录入区域120b所执行的信息录入操作，将该“真的好好听哟～～”作为评论信息P2，且在评论录入区域120b中输出评论信息P2，得到视频显示界面11f。

如图11b所示，评论录入区域120b中包括评论发布控件120c，用户Y可以针对评论发布控件120c执行信息发布操作，应用客户端可以响应用户Y针对评论发布控件120c所执行的信息发布操作(即响应于针对第一评论信息的信息发布操作)，在评论展示区域中显示评论信息P2“真的好好听哟～～”，得到视频显示界面11g，这里的评论展示区域可以为评论展示区域120e，此时，视频显示界面11g不包括评论展示区域120e。

如图11b所示，视频显示界面11g中包括评论显示控件120d，用户Y可以针对评论显示控件120d执行第一触发操作，应用客户端可以响应用户Y针对评论显示控件120d所执行的第一触发操作(即响应于针对视频显示界面的第一触发操作)，显示与目标视频相关联的评论展示区域120e，得到视频显示界面11h。

在一个或多个实施例中，服务器在接收到应用客户端发送的第一评论信息时，可以执行下述步骤S306-步骤S309，以获取与第一评论信息关联的第一目标视频片段，进而在评论展示区域显示第一评论信息对应的第一视频定位控件

步骤S306，服务器接收应用客户端发送的与目标视频相关联的第一评论信息；

步骤S307，服务器获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息；

其中，这里的K可以为正整数。

步骤S308，服务器基于每个视频片段的辅助文本信息和第一评论信息，确定每个视频片段与第一评论信息之间的内容相关度；

其中，一个视频片段对应一个内容相关度。

步骤S309，服务器基于确定的内容相关度，将与第一评论信息具有最高内容相关度的视频片段作为与第一评论信息关联的第一目标视频片段，将第一目标视频片段在目标视频中的定位信息返回给应用客户端；

可选的，服务器可以从确定的内容相关度中获取最高内容相关度，进而在最高内容相关度满足相关度阈值时，获取与第一评论信息具有最高内容相关度的视频片段。其中，本申请实施例不对相关度阈值的具体取值进行限定。其中，在一个或多个实施例中，在最高内容相关度不满足相关度阈值时，服务器可以无需向应用客户端返回定位信息。

其中，在第一评论信息满足片段获取条件时(即第一评论信息属于第一类评论信息时)，服务器可以向应用客户端返回定位信息，在第一评论信息不满足片段获取条件时(即第一评论信息属于第二类评论信息)，服务器可以无需向应用客户端返回定位信息。可选的，在第一评论信息满足片段获取条件、K个视频片段中存在视频片段的辅助文本信息满足片段获取条件且最高内容相关度满足相关度阈值时(即第一评论信息属于第一类评论信息时)，服务器可以向应用客户端返回定位信息。

步骤S310，应用客户端响应于针对第一视频定位控件的第二触发操作，播放第一目标视频片段。

可选的，应用客户端还可以无需响应于针对第一视频定位控件的第二触发操作，直接获取第一目标视频片段，且直接在应用客户端中播放第一目标视频片段。

为便于理解，请参见图12，图12是本申请实施例提供的一种实现评论定位的流程示意图。如图12所示，步骤S121可以用于判定评论(例如，第一评论信息)是否包含情节内容，在第一评论信息满足片段获取条件时，可以确定第一评论信息包含情节内容。

如图12所示，在执行步骤S121之后，可以通过步骤S122计算评论与视频片段的关联度(即内容相关度)，进而在所有视频片段中将最高内容相关度的视频片段作为关联视频(即第一目标视频片段)。

如图12所示，在执行步骤S122之后，可以通过步骤S123实现在用户(例如，目标用户)观看评论时，快速定位关联视频，即目标用户可以在针对第一视频定位控件执行第二触发操作时，在应用客户端中定位观看第一目标视频片段。

在本申请实施例中，服务器在获取到与应用客户端中的某个视频(例如，目标用户所请求播放的目标视频)相关联的第一评论信息时，可以获取与目标视频相关联的K个视频片段，进而在K个视频片段中获取与第一评论信息关联的第一目标视频片段。其中，这里的K可以为正整数。基于此，服务器可以将第一目标视频片段在目标视频中的定位信息返回给应用客户端，以使应用客户端在响应于针对第一评论信息对应的第一视频定位控件的第二触发操作时，基于定位信息获取与第一评论信息关联的第一目标视频片段并进行播放。由此可见，本申请实施例通过确定第一评论信息和K个视频片段的关系，在K个视频片段中确定与第一评论信息关联的第一目标视频片段，对于该第一目标视频片段而言，可以在响应针对于第一评论信息对应的第一视频定位控件的第二触发操作时，智能地在应用客户端中播放该第一目标视频片段，显然，通过引入第一视频定位控件，可以在查找与第一评论信息相关联的视频情节片段时，快速定位到与第一评论信息关联的第一目标视频片段，可以在提高视频定位的准确性的同时，还可以提升用户体验。

进一步地，请参见图13，图13是本申请实施例提供的一种视频播放装置的结构示意图。视频播放装置1可以包括：界面输出模块100，第一响应模块200，第二响应模块300；进一步地，视频播放装置1还可以包括：评论获取模块400，评论显示模块500，第三响应模块600，第四响应模块700，第五响应模块800；

界面输出模块100，用于输出与目标视频相关联的视频显示界面；

第一响应模块200，用于响应于针对视频显示界面的第一触发操作，显示与目标视频相关联的评论展示区域；评论展示区域用于展示与目标视频相关联的第一评论信息以及第一评论信息对应的第一视频定位控件；第一视频定位控件用于定位与第一评论信息关联的第一目标视频片段；第一目标视频片段为目标视频中的视频片段；

第二响应模块300，用于响应于针对第一视频定位控件的第二触发操作，播放第一目标视频片段。

第二响应模块300包括：第一触发单元3001，第一播放单元3002；

第一触发单元3001，用于响应于针对第一视频定位控件的第二触发操作，确定第一目标视频片段对应目标视频的第二播放进度；

第一播放单元3002，用于在视频播放区域中将目标视频的播放进度由第一播放进度切换至第二播放进度，播放目标视频中的第一目标视频片段。

其中，第一触发单元3001以及第一播放单元3002的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

其中，第二响应模块300还包括：第二触发单元3003，第二播放单元3004；

第二触发单元3003，用于响应于针对第一视频定位控件的第二触发操作，显示独立于视频显示界面的片段播放子界面，确定第一目标视频片段对应目标视频的第二播放进度；

第二播放单元3004，用于在片段播放子界面中基于第二播放进度播放第一目标视频片段。

其中，第二触发单元3003以及第二播放单元3004的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

其中，第二响应模块300还包括：第三触发单元3005，第三播放单元3006；

第三触发单元3005，用于响应于针对第一视频定位控件的第二触发操作，显示与目标视频片段相关联的片段播放区域，确定第一目标视频片段对应目标视频的第二播放进度；

第三播放单元3006，用于在片段播放区域中基于第二播放进度播放第一目标视频片段。

其中，第三触发单元3005以及第三播放单元3006的具体实现方式，可以参见上述图3所对应实施例中对步骤S103的描述，这里将不再进行赘述。

可选的，评论获取模块400，用于获取与目标视频相关联的评论信息；

评论显示模块500，用于基于评论信息的评论辅助参数，从评论信息集合中确定至少一个目标评论信息进行展示，其中，目标评论信息包括第一评论信息。

可选的，评论展示区域中包括用于录入第一评论信息的评论录入控件；

第三响应模块600，用于响应于针对评论录入控件的第三触发操作，显示用于录入第一评论信息的评论录入区域；

第四响应模块700，用于响应于针对评论录入区域的信息录入操作，将信息录入操作所对应的数据信息作为第一评论信息；

第五响应模块800，用于响应于针对第一评论信息的信息发布操作，在评论展示区域显示第一评论信息，以及第一评论信息对应的第一视频定位控件。

其中，界面输出模块100，第一响应模块200，第二响应模块300，评论获取模块400以及评论显示模块500的具体实现方式，可以参见上述图3所对应实施例中对步骤S101-步骤S103的描述，这里将不再进行赘述。可选的，第三响应模块600，第四响应模块700以及第五响应模块800的具体实现方式，可以参见上述图10所对应实施例中对步骤S303-步骤S305的描述，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图14，图14是本申请实施例提供的一种视频播放装置的结构示意图。视频播放装置2可以包括：评论接收模块10，信息确定模块20，相关度确定模块30，片段确定模块40；

评论接收模块10，用于接收应用客户端发送的与目标视频相关联的第一评论信息；

信息确定模块20，用于获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息，K为正整数；

其中，信息确定模块20包括：模型获取单元201，第一处理单元202，第一编码单元203，第一融合单元204，第一确定单元205，片段获取单元206；可选的，信息确定模块20可以进一步包括：样本获取单元207，第二处理单元208，第二编码单元209，第二融合单元210，第一训练单元211；

模型获取单元201，用于基于第一评论信息所携带的数据信息，得到第一评论信息对应的关键文本信息，获取与第一评论信息相关联的目标网络模型；目标网络模型包括用于对关键文本信息进行情节判定的目标情节判定网络；

第一处理单元202，用于对关键文本信息进行分词处理，得到关键文本信息的第一分词文本，将第一分词文本进行词向量编码，得到第一分词文本对应的第一分词向量；

第一编码单元203，用于在第一评论信息中确定第一分词文本的分词文本位置，对分词文本位置进行位置编码，得到分词文本位置对应的分词位置向量；

第一融合单元204，用于基于分词文本位置将第一分词向量和分词位置向量进行第一特征融合，得到第一分词文本的第一文本向量，将第一文本向量输入至目标情节判定网络，由目标情节判定网络对第一文本向量进行特征提取，得到第一分词文本对应的第一特征向量，基于第一分词文本对应的第一特征向量，得到第一评论信息对应的评论特征向量；

第一确定单元205，用于通过目标情节判定网络中的分类器，确定评论特征向量与目标情节判定网络的分类器中的样本情节向量之间的第一文本匹配度，以及与目标情节判定网络的分类器中的多个情节类型向量之间的第二文本匹配度；

片段获取单元206，用于若基于第一文本匹配度和第二文本匹配度，确定第一评论信息满足目标情节判定网络对应的片段获取条件，则获取与目标视频相关联的K个视频片段，确定K个视频片段中的每个视频片段的辅助文本信息。

片段获取单元206包括：条件获取子单元2061，阈值比较子单元2062，信息确定子单元2063；

条件获取子单元2061，用于获取目标情节判定网络对应的片段获取条件；片段获取条件中包含与样本情节标签相关联的第一阈值以及与每个情节类型标签相关联的第二阈值；

阈值比较子单元2062，用于若第一文本匹配度达到第一阈值，则确定第一评论信息具备样本情节标签所指示的情节内容，在第二文本匹配度中将具有最大值的第二文本匹配度作为目标匹配度，若目标匹配度达到第二阈值，则确定第一评论信息满足目标情节判定网络对应的片段获取条件，且获取与目标视频相关联的K个视频片段；

信息确定子单元2063，用于获取K个视频片段中的每个视频片段的语音文本信息、每个视频片段的字幕文本信息、每个视频片段的弹幕文本信息或者每个视频片段所包含的对象文本信息，基于获取到的语音文本信息、获取到的字幕文本信息、获取到的弹幕文本信息或者获取到的对象文本信息，确定每个视频片段的辅助文本信息。

其中，条件获取子单元2061，阈值比较子单元2062以及信息确定子单元2063的具体实现方式，可以参见上述图7所对应实施例中对步骤S202的描述，这里将不再进行赘述。

可选的，目标网络模型是对初始网络模型进行迭代训练所得到的；初始网络模型包含用于对参与训练的样本评论信息进行情节判定的初始情节判定网络；

样本获取单元207，用于获取用于训练初始情节判定网络的样本评论信息，将样本评论信息的情节看点作为样本情节标签，且将样本评论信息的情节类型作为情节类型标签；

第二处理单元208，用于对所样本评论信息进行分词处理，得到样本评论信息的第二分词文本，将第二分词文本进行词向量编码，得到第二分词文本对应的第二分词向量；

第二编码单元209，用于在样本评论信息中确定第二分词文本的样本文本位置，对样本文本位置进行位置编码，得到样本文本位置对应的样本位置向量；

第二融合单元210，用于基于样本文本位置将第二分词向量和样本位置向量进行第一特征融合，得到第二分词文本的第二文本向量，将第二文本向量输入至初始情节判定网络，由初始情节判定网络对第二文本向量进行特征提取，得到第二分词文本对应的第二特征向量，基于第二分词文本对应的第二特征向量，得到样本评论信息对应的样本特征向量；

第一训练单元211，用于基于样本评论信息对应的样本特征向量、样本情节标签、情节类型标签和初始情节判定网络中的分类器，对初始情节判定网络进行迭代训练，将迭代训练后的初始情节判定网络作为目标情节判定网络。

其中，模型获取单元201，第一处理单元202，第一编码单元203，第一融合单元204，第一确定单元205，片段获取单元206，样本获取单元207，第二处理单元208，第二编码单元209，第二融合单元210以及第一训练单元211的具体实现方式，可以参见上述图7所对应实施例中对步骤S202的描述，这里将不再进行赘述。

相关度确定模块30，用于基于每个视频片段的辅助文本信息和第一评论信息，确定每个视频片段与第一评论信息之间的内容相关度；一个视频片段对应一个内容相关度；

其中，相关度确定模块30包括：特征提取单元301，第二确定单元302，合并处理单元303，第一相关单元304；

特征提取单元301，用于基于目标情节判定网络提取每个视频片段的辅助文本信息的文本特征，将提取到的文本特征作为每个视频片段的辅助文本信息对应的辅助特征向量；

第二确定单元302，用于通过目标情节判定网络中的分类器，确定每个视频片段的辅助特征向量与目标情节判定网络的分类器中的多个情节类型向量之间的辅助匹配度；

合并处理单元303，用于在与每个视频片段相关联的辅助匹配度和与第一评论信息相关联的第二文本匹配度中，对相同情节类型标签所对应的匹配度进行合并处理，得到每个视频片段与第一评论信息之间的类型相符概率；

第一相关单元304，用于根据类型相符概率，得到每个视频片段与第一评论信息之间的内容相关度。

其中，特征提取单元301，第二确定单元302，合并处理单元303以及第一相关单元304的具体实现方式，可以参见上述图7所对应实施例中对步骤S203的描述，这里将不再进行赘述。

其中，相关度确定模块30还包括：文本匹配单元305，第一匹配单元306，第二相关单元307；

文本匹配单元305，用于对每个视频片段的辅助文本信息和第一评论信息进行文本匹配，得到每个视频片段的辅助文本信息和第一评论信息的匹配文本信息；

第一匹配单元306，用于基于匹配文本信息和第一评论信息，得到每个视频片段与第一评论信息之间的规则匹配度；

第二相关单元307，用于根据规则匹配度，得到每个视频片段与第一评论信息之间的内容匹配度，根据内容匹配度，得到每个视频片段与第一评论信息之间的内容相关度。

其中，文本匹配单元305，第一匹配单元306以及第二相关单元307的具体实现方式，可以参见上述图7所对应实施例中对步骤S203的描述，这里将不再进行赘述。

其中，相关度确定模块30还包括：第一提取单元308，第二匹配单元309，第三相关单元310；可选的，相关度确定模块30可以进一步包括：视频获取单元311，第二提取单元312，第二训练单元313；

第一提取单元308，用于从目标网络模型中获取目标内容匹配网络，基于目标内容匹配网络提取与每个视频片段的辅助文本信息相关联的第一匹配向量、以及与第一评论信息相关联的第二匹配向量；目标内容匹配网络用于对每个视频片段的辅助文本信息和第一评论信息进行内容匹配；

第二匹配单元309，用于将第一匹配向量和第二匹配向量进行第二特征融合，得到第一交互表示向量，基于第一交互表示向量和目标内容匹配网络中的分类器，得到每个视频片段和第一评论信息之间的模型匹配度；

第三相关单元310，用于根据模型匹配度，得到每个视频片段与第一评论信息之间的内容匹配度，根据内容匹配度，得到每个视频片段与第一评论信息之间的内容相关度。

可选的，目标网络模型是对初始网络模型进行迭代训练所得到的；初始网络模型包含用于对参与训练的视频评论信息和样本辅助信息进行内容匹配的初始内容匹配网络；

视频获取单元311，用于获取用于训练初始内容匹配网络的样本短视频，获取样本短视频的视频评论信息、样本辅助信息和样本匹配标签；样本匹配标签用于指示视频评论信息和样本辅助信息之间的匹配关系；

第二提取单元312，用于基于初始内容匹配网络提取与视频评论信息相关联的第一视频向量、以及与样本辅助信息相关联的第二视频向量；

第二训练单元313，用于将第一视频向量和第二视频向量进行第二特征融合，得到第二交互表示向量，基于第一视频向量、第二视频向量、样本匹配标签和初始内容匹配网络中的分类器，对初始内容匹配网络进行迭代训练，将迭代训练后的初始内容匹配网络作为目标内容匹配网络。

其中，第一提取单元308，第二匹配单元309，第三相关单元310，视频获取单元311，第二提取单元312以及第二训练单元313的具体实现方式，可以参见上述图7所对应实施例中对步骤S203的描述，这里将不再进行赘述。

其中，相关度确定模块30还包括：内容确定单元314，第三匹配单元315，第四相关单元316；

内容确定单元314，用于基于每个视频片段的辅助文本信息和第一评论信息，得到每个视频片段和第一评论信息之间的类型相符概率、规则匹配度和模型匹配度；

第三匹配单元315，用于对规则匹配度和模型匹配度进行第一运算处理，得到每个视频片段和第一评论信息之间的内容匹配度；

第四相关单元316，用于对内容匹配度和类型相符概率进行第二运算处理，得到每个视频片段和第一评论信息之间的内容相关度。

其中，内容确定单元314，第三匹配单元315以及第四相关单元316的具体实现方式，可以参见上述图7所对应实施例中对步骤S203的描述，这里将不再进行赘述。

片段确定模块40，用于基于确定的内容相关度，将与第一评论信息具有最高内容相关度的视频片段作为与第一评论信息关联的第一目标视频片段，将第一目标视频片段在目标视频中的定位信息返回给应用客户端，以使应用客户端在响应于针对第一评论信息对应的第一视频定位控件的第二触发操作时，基于定位信息获取第一目标视频片段并进行播放。

其中，评论接收模块10，信息确定模块20，相关度确定模块30以及片段确定模块40的具体实现方式，可以参见上述图7所对应实施例中对步骤S201-步骤S204的描述，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图15，图15是本申请实施例提供的一种计算机设备的结构示意图。如图15所示，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。可选的，网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图15所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在如图15所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。

在一个或多个实施例中，本申请实施例中所描述的计算机设备1000可执行前文图3、图7或图10所对应实施例中对视频播放方法的描述，也可执行前文图13所对应实施例中对视频播放装置1或图14所对应实施例中对视频播放装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且计算机可读存储介质中存储有前文提及的视频播放装置1或视频播放装置2所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3、图7或图10所对应实施例中对视频播放方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

此外，需要说明的是：本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或者计算机程序可以包括计算机指令，该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器可以执行该计算机指令，使得该计算机设备执行前文图3、图7或图10所对应实施例中对视频播放方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频播放方法，其特征在于，包括：

输出与目标视频相关联的视频显示界面；

响应于针对所述视频显示界面的第一触发操作，显示与所述目标视频相关联的评论展示区域；所述评论展示区域用于展示与所述目标视频相关联的第一评论信息以及所述第一评论信息对应的第一视频定位控件；所述第一视频定位控件用于定位与所述第一评论信息关联的第一目标视频片段；所述第一目标视频片段为所述目标视频中的视频片段；

响应于针对所述第一视频定位控件的第二触发操作，播放所述第一目标视频片段。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取与所述目标视频相关联的评论信息集合；

基于评论信息的评论辅助参数，从所述评论信息集合中确定至少一个目标评论信息进行展示，其中，所述目标评论信息包括所述第一评论信息。

3.根据权利要求2所述的方法，其特征在于，所述评论辅助参数包括以下至少一个参数：评论时间、评论文本长度、评论互动热度以及评论回复量。

4.根据权利要求1所述的方法，其特征在于，所述评论展示区域中包括用于录入所述第一评论信息的评论录入控件；

所述方法还包括：

响应于针对所述评论录入控件的第三触发操作，显示用于录入所述第一评论信息的评论录入区域；

响应于针对所述评论录入区域的信息录入操作，将所述信息录入操作所对应的数据信息作为所述第一评论信息；

响应于针对所述第一评论信息的信息发布操作，在所述评论展示区域显示所述第一评论信息，以及所述第一评论信息对应的所述第一视频定位控件。

5.根据权利要求1所述的方法，其特征在于，所述视频显示界面中包含用于播放所述目标视频的视频播放区域；所述目标视频在所述视频播放区域中的播放进度为第一播放进度；

所述响应于针对所述第一视频定位控件的第二触发操作，播放所述第一目标视频片段，包括：

响应于针对所述第一视频定位控件的第二触发操作，确定所述第一目标视频片段对应所述目标视频的第二播放进度；

在所述视频播放区域中将所述目标视频的播放进度由所述第一播放进度切换至所述第二播放进度，播放所述目标视频中的所述第一目标视频片段。

6.根据权利要求1所述的方法，其特征在于，所述响应于针对所述第一视频定位控件的第二触发操作，播放所述第一目标视频片段，包括：

响应于针对所述第一视频定位控件的第二触发操作，显示独立于所述视频显示界面的片段播放子界面，确定所述第一目标视频片段对应所述目标视频的第二播放进度；

在所述片段播放子界面中基于所述第二播放进度播放所述第一目标视频片段。

7.根据权利要求1所述的方法，其特征在于，所述响应于针对所述第一视频定位控件的第二触发操作，播放所述第一目标视频片段，包括：

响应于针对所述第一视频定位控件的第二触发操作，显示与所述第一评论信息相关联的片段播放区域，确定所述第一目标视频片段对应所述目标视频的第二播放进度；

在所述片段播放区域中基于所述第二播放进度播放所述第一目标视频片段。

8.一种视频播放方法，其特征在于，包括：

接收应用客户端发送的与目标视频相关联的第一评论信息；

获取与所述目标视频相关联的K个视频片段，确定所述K个视频片段中的每个视频片段的辅助文本信息，所述K为正整数；

基于所述每个视频片段的辅助文本信息和所述第一评论信息，确定所述每个视频片段与所述第一评论信息之间的内容相关度；一个视频片段对应一个内容相关度；

基于确定的内容相关度，将与所述第一评论信息具有最高内容相关度的视频片段作为与所述第一评论信息关联的第一目标视频片段，将所述第一目标视频片段在所述目标视频中的定位信息返回给所述应用客户端，以使所述应用客户端在响应于针对所述第一评论信息对应的第一视频定位控件的第二触发操作时，基于所述定位信息获取所述第一目标视频片段并进行播放。

9.根据权利要求8所述的方法，其特征在于，所述获取与所述目标视频相关联的K个视频片段，确定所述K个视频片段中的每个视频片段的辅助文本信息，包括：

基于所述第一评论信息所携带的数据信息，得到所述第一评论信息对应的关键文本信息，获取与所述第一评论信息相关联的目标网络模型；所述目标网络模型包括用于对所述关键文本信息进行情节判定的目标情节判定网络；

对所述关键文本信息进行分词处理，得到所述关键文本信息的第一分词文本，将所述第一分词文本进行词向量编码，得到所述第一分词文本对应的第一分词向量；

在所述第一评论信息中确定所述第一分词文本的分词文本位置，对所述分词文本位置进行位置编码，得到所述分词文本位置对应的分词位置向量；

基于所述分词文本位置将所述第一分词向量和所述分词位置向量进行第一特征融合，得到所述第一分词文本的第一文本向量，将所述第一文本向量输入至所述目标情节判定网络，由所述目标情节判定网络对所述第一文本向量进行特征提取，得到所述第一分词文本对应的第一特征向量，基于所述第一分词文本对应的第一特征向量，得到所述第一评论信息对应的评论特征向量；

通过所述目标情节判定网络中的分类器，确定所述评论特征向量与所述目标情节判定网络的分类器中的样本情节向量之间的第一文本匹配度，以及与所述目标情节判定网络的分类器中的多个情节类型向量之间的第二文本匹配度；

若基于所述第一文本匹配度和所述第二文本匹配度，确定所述第一评论信息满足所述目标情节判定网络对应的片段获取条件，则获取与所述目标视频相关联的K个视频片段，确定所述K个视频片段中的每个视频片段的辅助文本信息。

10.根据权利要求9所述的方法，其特征在于，所述样本情节向量所指示的样本情节标签是与所述多个情节类型向量所指示的情节类型标签相关联的；

所述若基于所述第一文本匹配度和所述第二文本匹配度，确定所述第一评论信息满足所述目标情节判定网络对应的片段获取条件，则获取与所述目标视频相关联的K个视频片段，确定所述K个视频片段中的每个视频片段的辅助文本信息，包括：

获取所述目标情节判定网络对应的片段获取条件；所述片段获取条件中包含与所述样本情节标签相关联的第一阈值以及与每个情节类型标签相关联的第二阈值；

若所述第一文本匹配度达到所述第一阈值，则确定所述第一评论信息具备所述样本情节标签所指示的情节内容，在所述第二文本匹配度中将具有最大值的第二文本匹配度作为目标匹配度，若所述目标匹配度达到所述第二阈值，则确定所述第一评论信息满足所述目标情节判定网络对应的片段获取条件，且获取与所述目标视频相关联的K个视频片段；

获取所述K个视频片段中的每个视频片段的语音文本信息、所述每个视频片段的字幕文本信息、所述每个视频片段的弹幕文本信息或者所述每个视频片段所包含的对象文本信息，基于获取到的语音文本信息、获取到的字幕文本信息、获取到的弹幕文本信息或者获取到的对象文本信息，确定所述每个视频片段的辅助文本信息。

11.根据权利要求9所述的方法，其特征在于，所述目标网络模型是对初始网络模型进行迭代训练所得到的；所述初始网络模型包含用于对参与训练的样本评论信息进行情节判定的初始情节判定网络；

所述方法还包括：

获取用于训练所述初始情节判定网络的所述样本评论信息，将所述样本评论信息的情节看点作为样本情节标签，且将所述样本评论信息的情节类型作为情节类型标签；

对所样本评论信息进行分词处理，得到所述样本评论信息的第二分词文本，将所述第二分词文本进行词向量编码，得到所述第二分词文本对应的第二分词向量；

在所述样本评论信息中确定所述第二分词文本的样本文本位置，对所述样本文本位置进行位置编码，得到所述样本文本位置对应的样本位置向量；

基于所述样本文本位置将所述第二分词向量和所述样本位置向量进行第一特征融合，得到所述第二分词文本的第二文本向量，将所述第二文本向量输入至所述初始情节判定网络，由所述初始情节判定网络对所述第二文本向量进行特征提取，得到所述第二分词文本对应的第二特征向量，基于所述第二分词文本对应的第二特征向量，得到所述样本评论信息对应的样本特征向量；

基于所述样本评论信息对应的样本特征向量、所述样本情节标签、所述情节类型标签和所述初始情节判定网络中的分类器，对所述初始情节判定网络进行迭代训练，将迭代训练后的初始情节判定网络作为所述目标情节判定网络。

12.根据权利要求9所述的方法，其特征在于，所述基于所述每个视频片段的辅助文本信息和所述第一评论信息，确定所述每个视频片段与所述第一评论信息之间的内容相关度，包括：

基于所述目标情节判定网络提取所述每个视频片段的辅助文本信息的文本特征，将提取到的文本特征作为所述每个视频片段的辅助文本信息对应的辅助特征向量；

通过所述目标情节判定网络中的分类器，确定所述每个视频片段的辅助特征向量与所述目标情节判定网络的分类器中的多个情节类型向量之间的辅助匹配度；

在与所述每个视频片段相关联的所述辅助匹配度和与所述第一评论信息相关联的所述第二文本匹配度中，对相同情节类型标签所对应的匹配度进行合并处理，得到所述每个视频片段与所述第一评论信息之间的类型相符概率；

根据所述类型相符概率，得到所述每个视频片段与所述第一评论信息之间的内容相关度。

13.根据权利要求8所述的方法，其特征在于，所述基于所述每个视频片段的辅助文本信息和所述第一评论信息，确定所述每个视频片段与所述第一评论信息之间的内容相关度，包括：

对所述每个视频片段的辅助文本信息和所述第一评论信息进行文本匹配，得到所述每个视频片段的辅助文本信息和所述第一评论信息的匹配文本信息；

基于所述匹配文本信息和所述第一评论信息，得到所述每个视频片段与所述第一评论信息之间的规则匹配度；

根据所述规则匹配度，得到所述每个视频片段与所述第一评论信息之间的内容匹配度，根据所述内容匹配度，得到所述每个视频片段与所述第一评论信息之间的内容相关度。

14.根据权利要求9所述的方法，其特征在于，所述基于所述每个视频片段的辅助文本信息和所述第一评论信息，确定所述每个视频片段与所述第一评论信息之间的内容相关度，包括：

从所述目标网络模型中获取目标内容匹配网络，基于所述目标内容匹配网络提取与所述每个视频片段的辅助文本信息相关联的第一匹配向量、以及与所述第一评论信息相关联的第二匹配向量；所述目标内容匹配网络用于对所述每个视频片段的辅助文本信息和所述第一评论信息进行内容匹配；

将所述第一匹配向量和所述第二匹配向量进行第二特征融合，得到第一交互表示向量，基于所述第一交互表示向量和所述目标内容匹配网络中的分类器，得到所述每个视频片段和所述第一评论信息之间的模型匹配度；

根据所述模型匹配度，得到所述每个视频片段与所述第一评论信息之间的内容匹配度，根据所述内容匹配度，得到所述每个视频片段与所述第一评论信息之间的内容相关度。

15.根据权利要求14所述的方法，其特征在于，所述目标网络模型是对初始网络模型进行迭代训练所得到的；所述初始网络模型包含用于对参与训练的视频评论信息和样本辅助信息进行内容匹配的初始内容匹配网络；

所述方法还包括：

获取用于训练所述初始内容匹配网络的样本短视频，获取所述样本短视频的所述视频评论信息、所述样本辅助信息和样本匹配标签；所述样本匹配标签用于指示所述视频评论信息和所述样本辅助信息之间的匹配关系；

基于所述初始内容匹配网络提取与所述视频评论信息相关联的第一视频向量、以及与所述样本辅助信息相关联的第二视频向量；

将所述第一视频向量和所述第二视频向量进行第二特征融合，得到第二交互表示向量，基于所述第一视频向量、所述第二视频向量、所述样本匹配标签和所述初始内容匹配网络中的分类器，对所述初始内容匹配网络进行迭代训练，将迭代训练后的初始内容匹配网络作为所述目标内容匹配网络。

16.根据权利要求8所述的方法，其特征在于，所述基于所述每个视频片段的辅助文本信息和所述第一评论信息，确定所述每个视频片段与所述第一评论信息之间的内容相关度，包括：

基于所述每个视频片段的辅助文本信息和所述第一评论信息，得到所述每个视频片段和所述第一评论信息之间的类型相符概率、规则匹配度和模型匹配度；

对所述规则匹配度和所述模型匹配度进行第一运算处理，得到所述每个视频片段和所述第一评论信息之间的内容匹配度；

对所述内容匹配度和所述类型相符概率进行第二运算处理，得到所述每个视频片段和所述第一评论信息之间的内容相关度。

17.一种视频播放装置，其特征在于，包括：

第一响应模块，用于响应于针对所述视频显示界面的第一触发操作，显示与所述目标视频相关联的评论展示区域；所述评论展示区域用于展示与所述目标视频相关联的第一评论信息以及所述第一评论信息对应的第一视频定位控件；所述第一视频定位控件用于定位与所述第一评论信息关联的第一目标视频片段；所述第一目标视频片段为所述目标视频中的视频片段；

第二响应模块，用于响应于针对所述第一视频定位控件的第二触发操作，播放所述第一目标视频片段。

18.一种视频播放装置，其特征在于，包括：

信息确定模块，用于获取与所述目标视频相关联的K个视频片段，确定所述K个视频片段中的每个视频片段的辅助文本信息，所述K为正整数；

相关度确定模块，用于基于所述每个视频片段的辅助文本信息和所述第一评论信息，确定所述每个视频片段与所述第一评论信息之间的内容相关度；一个视频片段对应一个内容相关度；

片段确定模块，用于基于确定的内容相关度，将与所述第一评论信息具有最高内容相关度的视频片段作为与所述第一评论信息关联的第一目标视频片段，将所述第一目标视频片段在所述目标视频中的定位信息返回给所述应用客户端，以使所述应用客户端在响应于针对所述第一评论信息对应的第一视频定位控件的第二触发操作时，基于所述定位信息获取所述第一目标视频片段并进行播放。

19.一种计算机设备，其特征在于，包括：处理器和存储器；

所述处理器与存储器相连，其中，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1-16任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-16任一项所述的方法。