CN117998135A

CN117998135A - 显示设备及视频处理方法

Info

Publication number: CN117998135A
Application number: CN202311839880.7A
Authority: CN
Inventors: 高雯雯; 汪静娴
Original assignee: Hisense Visual Technology Co Ltd
Current assignee: Hisense Visual Technology Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-05-07

Abstract

本申请实施例公开了一种显示设备及视频处理方法，该方法可响应于对目标视频的预览触发操作，确定所述目标视频中的视频预览位置；基于所述视频预览位置，从所述目标视频对应的音频数据中提取目标声纹特征；基于所述目标声纹特征，对所述音频数据进行音频特征匹配，确定至少一个匹配音频时段；基于所述匹配音频时段，从所述目标视频中确定预览视频片段；在所述目标视频的播放页面的预设位置处显示所述预览视频片段。如此，提升了视频预览的内容丰富程度和预览成功率，从而提升视频预览效果。

Description

显示设备及视频处理方法

技术领域

本申请涉及通信技术领域，尤其涉及一种显示设备及视频处理方法。

背景技术

在视频播放过程中，用户可以通过快进、快退等方式来改变视频播放位置。为了提高用户变更视频播放位置的效率，可以通过视频预览的方式来预先浏览视频不同位置处的播放内容，为用户定位其想要观看的视频播放位置提供参考。

目前，视频预览的方案主要是根据用户快进或快退的操作来确定用户想要预览的目标视频位置，再从视频数据中抓取该目标视频位置对应的至少一个图片，并将抓取的图片作为视频预览内容显示在目标视频位置的周边区域。但是，该视频预览方案所能提供的视频预览内容有限，且存在图片抓取失败而造成预览失败的情况，从而导致视频预览效果差、以及无法更好地辅助用户定位其想要观看的视频位置的问题。

发明内容

本申请实施例提供一种显示设备及视频处理方法，以基于视频预览位置，通过对目标视频的音频数据进行声纹特征提取与匹配，得到视频预览位置对应的至少一个预览视频片段，并对其进行预览显示，达到了以更少的资源消耗获得内容更加丰富的预览视频片段，从而提升视频预览效果，更好地辅助用户定位其想要观看的视频位置的技术效果。

第一方面，本申请实施例提供一种显示设备，包括：

显示器，用于显示视频处理结果的用户界面；

通信器，用于与外部设备进行数据通信；

与所述显示器和所述通信器连接的控制器，所述控制器被配置为：

响应于对目标视频的预览触发操作，确定所述目标视频中的视频预览位置；

基于所述视频预览位置，从所述目标视频对应的音频数据中提取目标声纹特征；

基于所述目标声纹特征，对所述音频数据进行音频特征匹配，确定至少一个匹配音频时段；

基于所述匹配音频时段，从所述目标视频中确定预览视频片段；

在所述目标视频的播放页面的预设位置处显示所述预览视频片段。

第二方面，本申请实施例还提供一种视频处理方法，包括：

由以上技术方案可知，本申请实施例提供的显示设备及视频处理方法，可以响应于对目标视频的预览触发操作，确定所述目标视频中的视频预览位置；基于所述视频预览位置，从所述目标视频对应的音频数据中提取目标声纹特征；基于所述目标声纹特征，对所述音频数据进行音频特征匹配，确定至少一个匹配音频时段；基于所述匹配音频时段，从所述目标视频中确定预览视频片段；在所述目标视频的播放页面的预设位置处显示所述预览视频片段；如此，可通过声纹特征来提取视频预览位置对应的预览视频片段，相对于对各视频帧进行图像分析来提取预览视频片段的处理方式而言，降低了处理复杂度和资源消耗量，提升了视频预览的内容丰富程度和预览成功率，从而提升视频预览效果，更好地辅助用户定位其想要观看的视频位置。

附图说明

图1示出了本申请实施例中的一种显示设备与控制装置之间操作场景；

图2示出了本申请实施例中的一种控制设备100的硬件配置框图；

图3示出了本申请实施例中的一种显示设备200的硬件配置框图；

图4示出了本申请实施例中的一种显示设备200中软件配置图；

图5示出了本申请实施例中的一种视频处理方法的流程图；

图6示出了本申请实施例中的一种目标视频的播放页面的显示示意图；

图7示出了图5所示的视频处理方法中S550的细化流程示意图；

图8示出了本申请实施例中的一种快进预览方向的预览视频片段的显示示意图；

图9示出了本申请实施例中的一种快退预览方向的预览视频片段的显示示意图；

图10示出了本申请实施例中的一种全局预览方向的预览视频片段的显示示意图；

图11示出了本申请实施例中的一种快进预览方向下播放预览视频片段的显示示意图；

图12示出了本申请实施例中的一种由预览视频片段重新定位视频播放位置进行视频播放的显示示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语″第一″、″第二″、″第三″等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语″包括″和″具有″以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

本申请实施方式提供的显示设备可以具有多种实施形式，例如，显示设备可以是智能电视、激光投影设备、显示器(monitor)、电子白板(electronic bulletin board)、电子桌面(electronic table)、车载显示器等。图1和图2为本申请的显示设备的一种具体实施方式。

图1为本申请实施例中显示设备与控制装置之间操作场景的示意图。如图1所示，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等输入用户指令，来控制显示设备200。

在一些实施例中，也可以使用智能设备300(如移动终端、平板电脑、计算机、笔记本电脑等)以控制显示设备200。例如，使用在智能设备300上运行的应用程序控制显示设备200。

在一些实施例中，显示设备200可以不使用上述的智能设备300或控制装置100接收指令，而是通过触摸或者交互姿势(如手势、眼球活动姿态、身体姿态等)等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制设备来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。可允许显示设备200通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器400可以向显示设备200提供各种内容和互动。服务器400可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

如图3，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器，还可以为一种投影装置和投影屏幕。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与外部的控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)的控制信号。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中，控制器250包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM RandomAccess Memory，RAM)，ROM(Read-OnlyMemory，ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

用户可在显示器260上显示的图形用户界面(GUI)输入用户命令，则用户输入接口通过图形用户界面(GUI)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器检测出声音或手势，来接收用户输入命令。

″用户界面″，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(Graphic User Interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在显示设备的显示屏中显示的一个图标、窗口、控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

参见图4，可将显示设备的软件系统分为四层，从上至下分别为应用程序(Applications)层(简称″应用层″)，应用程序框架(Application Framework)层(简称″框架层″)，安卓运行时(Android runtime)和系统库层(简称″系统运行库层″)，以及内核层。

在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是操作系统自带的窗口(Window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包不限于以上举例。

在一些实施例中，框架层为应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。应用程序框架层相当于一个处理中心，这个中心决定让应用层中的应用程序做出动作。应用程序通过API接口，可在执行中访问系统中的资源和取得系统的服务。

如图4所示，本申请实施例中应用程序框架层包括管理器(Managers)，内容提供者(Content Provider)等，其中管理器包括以下模块中的至少一个：活动管理器(ActivityManager)用与和系统中正在运行的所有活动进行交互；位置管理器(Location Manager)用于给系统服务或应用提供了系统位置服务的访问；文件包管理器(Package Manager)用于检索当前安装在设备上的应用程序包相关的各种信息；通知管理器(NotificationManager)用于控制通知消息的显示和清除；窗口管理器(Window Manager)用于管理用户界面上的图标、窗口、工具栏、壁纸和桌面部件。

在一些实施例中，活动管理器用于管理各个应用程序的生命周期以及通常的导航回退功能，比如控制应用程序的退出、打开、后退等。窗口管理器用于管理所有的窗口程序，比如获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕，控制显示窗口变化(例如将显示窗口缩小显示、抖动显示、扭曲变形显示等)等。

在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的C/C++库以实现框架层要实现的功能。

在一些实施例中，内核层是硬件和软件之间的层。如图4所示，内核层至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、WIFI驱动、USB驱动、HDMI驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。

在一些实施例中，上述显示设备200，包括：

显示器，用于显示视频处理结果的用户界面；

通信器，用于与外部设备进行数据通信；

与显示器和通信器连接的控制器，控制器被配置为：

响应于对目标视频的预览触发操作，确定目标视频中的视频预览位置；

基于视频预览位置，从目标视频对应的音频数据中提取目标声纹特征；

基于目标声纹特征，对音频数据进行音频特征匹配，确定至少一个匹配音频时段；

基于匹配音频时段，从目标视频中确定预览视频片段；

在目标视频的播放页面的预设位置处显示预览视频片段。

在一些实施例中，控制器被配置为通过如下方式实现在目标视频的播放页面的预设位置处显示预览视频片段：

基于预览触发操作的预览方向，将播放页面至少划分为第一区域和第二区域；其中，第一区域的页面占比大于第二区域的页面占比，且第一区域在播放页面中的页面布局方向与预览方向相反，且第二区域在播放页面中的页面布局方向与预览方向一致；

在第一区域中，基于目标视频的当前播放位置，显示目标视频；

在第二区域中显示预览视频片段。

进一步地，控制器被配置为通过如下方式实现在第二区域中显示预览视频片段：

若预览视频片段为多个，则从各预览视频片段中筛选出处于当前播放位置的预览方向上的预览视频片段；

在第二区域中，按照视频播放时间顺序显示筛选的预览视频片段。

进一步地，控制器还被配置为：

在第二区域中，按照视频播放时间顺序显示筛选的预览视频片段之后，响应于预览选择操作，在第二区域中播放选择的预览视频片段。

进一步地，控制器被配置为通过如下方式实现响应于预览选择操作，在第二区域中播放选择的预览视频片段：

响应于预览选择操作，确定选择的预览视频片段；

基于选择的预览视频片段的片段时长、片段时长与播放速度之间的映射关系，确定目标播放速度；

在第二区域中选择的预览视频片段的排列位置处，以目标播放速度播放选择的预览视频片段。

在一些实施例中，控制器还被配置为：

在目标视频的播放页面的预设位置处显示预览视频片段之后，响应于视频定位操作，确定定位的预览视频片段；

在播放页面的全区域范围内、从定位的预览视频片段继续播放目标视频。

在一些实施例中，控制器被配置为通过如下方式实现响应于对目标视频的预览触发操作，确定目标视频中的视频预览位置：

响应于预览触发操作，基于预览操作次数和预设步长，确定预览跨越时长；

基于目标视频的当前播放位置、预览跨越时长和预览触发操作的预览方向，确定视频预览位置。

在一些实施例中，控制器被配置为通过如下方式实现基于视频预览位置，从目标视频对应的音频数据中提取目标声纹特征：

对目标视频进行音视频分离，获得音频数据；

以视频预览位置为基点扩展第一预设时长，确定目标预览时段；

从音频数据中提取目标预览时段对应的目标音频片段；

对目标音频片段进行声纹识别，确定目标声纹特征。

进一步地，控制器被配置为通过如下方式实现对目标音频片段进行声纹识别，确定目标声纹特征：

对目标音频片段进行声纹识别，确定初始声纹特征；

若初始声纹特征的数量为一个，则将初始声纹特征确定为目标声纹特征；

若初始声纹特征的数量为多个，则将满足预设声纹条件的初始声纹特征确定为目标声纹特征；其中，预设声纹条件包括初始声纹特征在目标音频片段中的片段时长最长和/或初始声纹特征的识别置信度最高。

以下将对控制器所执行的视频处理方法进行说明。

图5示出了本申请实施例提供的一种视频处理方法的流程示意图。该视频处理方法可由显示设备中控制器执行。如图5所示，本申请实施例提供的视频处理方法包括如下步骤：

S510、响应于对目标视频的预览触发操作，确定目标视频中的视频预览位置。

其中，目标视频是用户选中并播放的视频文件。预览触发操作是能够触发视频预览功能的交互操作。预览触发操作的具体实现形式可根据显示设备所具备的视频播放的控制功能来确定。例如，预览触发操作可以是对外置的控制装置具备的快进按钮、快退按钮等进行触发的操作；也可以是对图6所示的视频播放页面600中设置的触屏式的快进按钮601、快退按钮602、全局预览按钮603等的触发操作；也可以是对图6所示的视频播放进度条604的拖动操作；还可以是对图6所示的视频播放页面600进行左滑或右滑等手势操作等等。视频预览位置是触发视频预览功能时定位的视频中的播放位置。

具体地，用户想要变更视频播放位置或者快速浏览视频内容时，其可对目标视频执行预览触发操作，以触发视频预览功能，获得预览视频片段进行更多的视频相关内容的预览，从而辅助用户决策其想要观看的视频播放位置。显示设备在检测到用户执行的预览触发操作后，可根据该预览触发操作来定位视频预览位置。

在一些实施例中，在预览触发操作为对视频播放进度条或视频播放页面的持续拖动操作时，显示设备可以根据相应拖动操作结束时产生的在屏幕中的拖动距离来确定拖动时长，并在目标视频的当前播放位置的基础上叠加该拖动时长来定位视频预览位置。

在一些实施例中，在预览触发操作为快进按钮、快退按钮、对应快退功能的左滑手势、对应快进功能的右滑手势等间断性触发操作时，S510包括：响应于预览触发操作，基于预览操作次数和预设步长，确定预览跨越时长；基于目标视频的当前播放位置、预览跨越时长和预览触发操作的预览方向，确定视频预览位置。

其中，预览操作次数是执行上述间断性触发操作的次数。预设步长是每执行一次预览触发操作而跳过的视频时长。预览跨越时长是本次预览触发操作结束时总共跳过的视频时长。预览方向是预览触发操作的操作方向，例如可以是快进功能对应的、从当前播放位置向未播放视频位置的方向，也可以是快退功能对应的、从当前播放位置向已播放视频位置的方向，还可以是快进功能对应的方向和快退功能对应的方向。

具体地，显示设备中可以预先定义预设步长。显示设备检测到预览触发操作时，可检测其预览操作次数，并将预览操作次数和预设步长的乘积确定为预览跨越时长。然后，显示设备可按照预览方向，在当前播放位置的基础上叠加预览跨越时长，得到视频预览位置。例如，用户对图6所示的视频播放页面600中的快进按钮601执行了连续多次的触发操作，那么显示设备可按照上述过程获得视频预览位置605。

S520、基于视频预览位置，从目标视频对应的音频数据中提取目标声纹特征。

其中，目标声纹特征是目标对象的声纹特征。目标对象是视频预览位置处的音频数据中的发声对象。

具体地，用户进行视频预览的目的是为了定位其想要观看的视频内容，而视频内容是由视频所包含的各个对象的信息构成的。所以，本申请实施例中可以视频预览位置定位的目标对象为索引，从目标视频中查找出包含目标对象的各视频片段进行预览。

若通过对各视频帧进行图像分析来查找目标视频中与目标对象有关的片段，会因为视频帧的数量较多、每个视频帧中的图像元素较复杂等原因而产生较多的资源消耗和时耗。基于此，本申请实施例中可采用对音频数据进行声纹识别的方式来提取包含目标对象的视频片段。

具体实施时，显示设备可以先从目标视频中提取出完整的音频数据。然后，基于目标视频的音频数据与视频数据同步的情况，由视频预览位置确定出音频数据中待提取声纹特征的音频位置(如音频时刻或音频帧数等)。之后，显示设备可对该音频位置处的音频数据进行声纹识别，以提取其中的目标声纹特征。

在一些实施例中，S520包括：对目标视频进行音视频分离，获得音频数据；以视频预览位置为基点扩展第一预设时长，确定目标预览时段；从音频数据中提取目标预览时段对应的目标音频片段；对目标音频片段进行声纹识别，确定目标声纹特征。

其中，第一预设时长是预先设置的时长，其可以根据目标视频的音频数据中的信息密度来设置。例如，信息密度高的音频数据可设置数值较小的第一预设时长，而信息密度低的音频数据可设置数值较大的第一预设时长，以确保可捕获到足够的声音数据进行声纹分析。

具体地，显示设备可对目标视频进行音视频分离处理，得到音频数据。并且，考虑到视频预览位置为一个瞬时时刻，其不利于声纹分析。所以，为了提升声纹识别的准确性和成功率，本实施例中可对视频预览位置进行一定范围内的扩展，即从视频预览位置开始外扩第一预设时长，获得与视频预览位置连续的、时长更长的一个时段，即目标预览时段。例如，显示设备可以视频预览位置为起点，向预览触发操作的预览方向上延续扩展第一预设时长，所得时段作为目标预览时段；又如，显示设备可以视频预览位置为中心，向未播放视频和已播放视频的两侧均扩展第一预设时长，获得目标预览时段。然后，显示设备从整个音频数据中提取目标预览时段对应的局部的音频数据(即目标音频片段)，并对其进行声纹识别，以提取出目标声纹特征。

在一些实施例中，上述对目标音频片段进行声纹识别，确定目标声纹特征，包括：对目标音频片段进行声纹识别，确定初始声纹特征；若初始声纹特征的数量为一个，则将初始声纹特征确定为目标声纹特征；若初始声纹特征的数量为多个，则将满足预设声纹条件的初始声纹特征确定为目标声纹特征。

其中，初始声纹特征是直接进行声纹识别而获得的、原始的声纹特征。预设声纹条件是预先设置的、用于进行声纹特征筛选的条件。示例性地，预设声纹条件包括初始声纹特征在目标音频片段中的片段时长最长和/或初始声纹特征的识别置信度最高。

具体地，显示设备可利用声纹识别的相关算法对目标音频片段进行声纹识别，以提取出目标音频片段中包含的发声对象的声纹特征，即初始声纹特征。若得到的初始声纹特征为一个，那么可将其作为目标声纹特征。若得到的初始声纹特征有多个，那么可按照预设声纹条件进行筛选。例如，预设声纹条件为初始声纹特征在目标音频片段中的片段时长最长时，显示设备可从各初始声纹特征中筛选出声纹特征对应的音频时段在目标音频时段中的时长占比最大的一个初始声纹特征，作为目标声纹特征。再如，预设声纹特征为初始声纹特征的识别置信度最高时，显示设备可从各初始声纹特征中筛选出声纹特征的识别准确性最高的一个初始声纹特征，作为目标声纹特征。又如，预设声纹条件包括初始声纹特征在目标音频片段中的片段时长最长和初始声纹特征的识别置信度最高时，显示设备可对每个初始声纹特征的所占的片段时长和识别置信度进行加权求和，并将加权和最大的一个初始声纹特征，作为目标声纹特征。这样可以提高目标声纹特征的准确性，从而提高后续视频预览片段的准确性。

S530、基于目标声纹特征，对音频数据进行音频特征匹配，确定至少一个匹配音频时段。

具体地，显示设备以目标声纹特征为索引，对音频数据进行查询，以获得音频数据中与目标声纹特征相似的音频时段，即匹配音频时段。

在一些实施例中，S530包括：基于目标声纹特征对音频数据进行音频特征匹配，确定至少一个初始音频时段；利用第二预设时长对各初始音频时段进行筛选，确定匹配音频时段。

具体地，显示设备利用目标声纹特征对音频数据进行声纹特征匹配，提取出声纹特征的相似度达到预设的相似度阈值的初始音频时段。例如，目标声纹特征为对象A的声纹特征，那么可通过声纹特征匹配，从音频数据中提取出对象A发声的多个初始音频时段，如时间段p1：【00：15-00：17】，p2：【00：25-01：26】，p3：【58：34-59：45】等。考虑到初始音频时段的时长差异可能较大，如有的初始音频时段的时长只有几毫秒，而有的音频时段的时长长达数十分钟等，过段的音频时段对应的视频内容也会过短，其不具有预览意义，而过长的音频时段对应的视频内容又过多且复杂，其预览意义也相对较低。所以，本实施例中可以预先设置一个时长值(即第二预设时长)，以利用其对各初始音频时段进行筛选，获得时长合适的匹配音频时段。

S540、基于匹配音频时段，从目标视频中确定预览视频片段。

具体地，基于目标视频的音频数据和视频数据具有时间一致性的同步特点，显示设备可以按照匹配音频时段，从目标视频中提取出相同时段的音视频数据，作为预览视频片段。

S550、在目标视频的播放页面的预设位置处显示预览视频片段。

其中，预设位置是播放页面中的一个局部区域，例如可以是悬浮在视频进度条周边的局部显示区域，也可以是播放页面的周边区域等。

具体地，显示设备获得预览视频片段后，可在播放目标视频的播放页面的预设位置处显示预览视频片段。在该过程中，目标视频可以是处于如图8所示的暂停状态，也可以是处于如图9所示的播放状态。而显示的预览视频片段，其可以处于自动播放的状态，也可以处于未播放的展示状态。当预览视频片段处于展示状态时，显示设备可以从预览视频片段中提取一个视频帧(如首帧)作为片段的展示封面。

需要说明的是，上述S510～S550的过程是可以随着用户的预览触发操作而循环的。即，随着用户继续执行预览触发操作，目标视频中定位的视频预览位置会发生变化，其对应的目标声纹特征也会变化，那么最终展示的预览视频片段也是随之刷新变化的。

本申请上述各实施例提供的视频处理方法，可以响应于对目标视频的预览触发操作，确定目标视频中的视频预览位置；基于视频预览位置，从目标视频对应的音频数据中提取目标声纹特征；基于目标声纹特征，对音频数据进行音频特征匹配，确定至少一个匹配音频时段；基于匹配音频时段，从目标视频中确定预览视频片段；在目标视频的播放页面的预设位置处显示预览视频片段；如此，可通过声纹特征来提取视频预览位置对应的预览视频片段，相对于对各视频帧进行图像分析来提取预览视频片段的处理方式而言，降低了处理复杂度和资源消耗量，提升了视频预览的内容丰富程度和预览成功率，从而提升视频预览效果，更好地辅助用户定位其想要观看的视频位置。

图7示出了针对图5所示的视频处理方法中S550的细化流程示意图。如图7所示，S550″在目标视频的播放页面的预设位置处显示预览视频片段″包括如下步骤：

S710、基于预览触发操作的预览方向，将播放页面至少划分为第一区域和第二区域，且第一区域的页面占比大于第二区域的页面占比，且第一区域在播放页面中的页面布局方向与预览方向相反，且第二区域在播放页面中的页面布局方向与预览方向一致。

具体地，为了避免预览视频片段对目标视频的遮挡，提升用户观看目标视频和预览视频片段的效率，本申请实施例中可以在播放页面中分区域显示目标视频和预览视频片段，即将播放页面至少划分为互不遮挡的第一区域和第二区域。

并且，为了体现视频播放和视频预览的差异，仍保持播放目标视频的第一区域占据较大的显示区域，而显示预览视频片段的第二区域则占据较小的显示区域。

另外，为了提升用户预览触发操作和预览视频片段观看的操作统一性和协调性，本实施例中可以按照预览方向来布局第一区域和第二区域，使得第二区域的显示位置与预览方向保持一致。

例如，对于图6执行了快进的预览触发操作的示例，其预览方向是自当前播放位置向未播放视频的方向，即图6中的播放页面的右侧方向。那么，如图8所示，可将第一区域801设置在播放页面的左侧较大区域，而将第二区域802设置在播放页面的右侧较小区域。

再如，如果用户对图6所示的快退按钮602执行了预览触发操作，那么其预览方向为播放页面的左侧方向。如此，如图9所示，可将第一区域901设置在播放页面的右侧较大区域，而将第二区域902设置在播放页面的左侧较小区域。

又如，如果用户对图6所示的全局预览按钮603执行了预览触发操作，那么其预览目的是预览当前播放位置之前和之后的全部预览视频片段，其预览方向为播放页面的左侧方向和右侧方向。如此，如图10所示，可将第一区域1001设置在播放页面的中间较大区域，而将第二区域1002分别设置在播放页面的左侧较小区域和右侧较小区域，并且左侧的第二区域1002用于显示当前播放位置之前(已播放视频方向)的预览视频片段，右侧的第二区域1002用于显示当前播放位置之后(未播放视频方向)的预览视频片段。

需要说明的是，如果预览视频片段过多，使得第二区域中无法显示更多的预览视频片段，显示设备可以在播放页面中继续缩小第一区域，而在第一区域空出的下方区域或上方区域中继续展示剩余的预览视频片段。如图8～图10所示，其均在第一区域的下方区域中继续展示剩余的预览视频片段。如图10所示，如果第二区域和下方区域仍无法显示全部的预览视频片段，则可利用″......″等占位符来表征还有未展示的预览视频片段。这些未展示的预览视频片段可随着已展示的预览视频片段的观看或用户切换操作而依次替补展示出来。

另外，为了进一步增加播放页面中的信息含量，显示设备可以在显示各预览视频片段的同时，在视频播放进度条上标示各预览视频片段对应播放位置，如图8～图10中黑色三角点所示的预览片段位置。该预览片段位置可以对应于预览视频片段的开始时刻、中间时刻等。

S720、在第一区域中，基于目标视频的当前播放位置，显示目标视频。

具体地，显示设备在第一区域中继续显示目标视频。因第一区域相对于播放页面的全域范围较小，目标视频可以是进行一定比例的缩放。该目标视频可以是从当前播放位置开始继续播放，也可以是在当前播放位置暂停播放。

S730、在第二区域中显示预览视频片段。

具体地，显示设备在第二区域中显示各预览视频片段。

示例性地，S730包括：若预览视频片段为多个，则从各预览视频片段中筛选出处于当前播放位置的预览方向上的预览视频片段；在第二区域中，按照视频播放时间顺序显示筛选的预览视频片段。

具体地，预览视频片段为多个时，其可能包含当前播放位置之前的预览视频片段和当前播放位置之后的预览视频片段，其中便存在与预览方向不一致的预览视频片段。为了降低视频预览的冗余展示过程，显示设备可以当前播放位置为分界点，将与预览方向不一致的预览视频片段剔除，只在第二区域中显示与预览方向一致的预览视频片段。这些预览视频片段可按照其在目标视频中的视频播放时间的先后顺序排列。

在一些实施例中，在S730之后，视频处理方法还包括：响应于预览选择操作，在第二区域中播放选择的预览视频片段。

其中，预览选择操作是选择预览视频片段进行预览播放的操作，例如可以是单击预览视频片段的操作、移动外置的控制装置的控制焦点的操作等。

具体地，显示设备在检测到用户执行的预览选择操作时，可在第二区域中播放选择的预览视频片段。预览播放的位置可以是选择的预览视频片段所在的预览展示位置，也可以是第二区域的视线焦点位置等。如图8所示，当用户对排序第二的预览视频片段执行了单击操作时，显示设备可在其原本的展示位置处播放该预览视频片段，如图11所示。

在一些示例中，如果用户未执行预览选择操作，显示设备可以通过预先设置的预览焦点来播放预览视频片段。例如，预先设置的预览焦点为排列首位的位置，那么显示设备可直接播放排列首位的预览视频片段。

在一些实施例中，上述选中预览视频片段进行播放的步骤可实现为：响应于预览选择操作，确定选择的预览视频片段；基于选择的预览视频片段的片段时长、片段时长与播放速度之间的映射关系，确定目标播放速度；在第二区域中选择的预览视频片段的排列位置处，以目标播放速度播放选择的预览视频片段。

具体地，基于上述说明，预览视频片段中存在一些视频时长较长的片段，其预览效率会较低。所以，本申请实施例中可预先设置片段时长和播放速度之间的映射关系，以便视频预览时可以倍速播放，提升预览效率。

在一些示例中，上述映射关系可以是预先按照片段时长和播放速度之间的正比关系来构建的数学关系式。在另一些示例中，上述映射关系可以是预先设置的散点对应关系。例如，片段时长大于3分钟，设置2倍的播放速度；片段时长大于6分钟，设置4倍的播放速度；片段时长大于9分钟，设置8倍的播放速度；片段时长大于12分钟，设置16倍的播放速度等。

那么，显示设备根据预览选择操作确定了用户选择的预览视频片段后，可获得该选择的预览视频片段的片段时长，并据其查询上述映射关系，获得选择的预览视频片段的播放速度(目标播放速度)。然后，在第二区域的选择的预览视频片段的排列位置处，以目标播放速度播放选择的预览视频片段。

在一些实施例中，显示预设视频片段之后，视频处理方法还包括：响应于视频定位操作，确定定位的预览视频片段；在播放页面的全区域范围内、从定位的预览视频片段继续播放目标视频。

其中，视频定位操作是选定新的视频播放位置的交互操作，例如可以是双击预览视频片段的操作、选定外置的控制装置的控制焦点的操作(如遥控器上的″OK″按键)等。

具体地，用户可以在视频预览的过程中选定其想要观看的视频播放位置，例如可以选定其想要观看的预览视频片段，以从该位置继续播放目标视频。所以，显示设备可在检测到用户执行的视频定位操作时，确定用户选定的预览视频片段(即定位的预览视频片段)，然后，在播放页面中从定位的预览视频片段开始继续全域播放目标视频。

例如，用户可以对图8所示的静态展示的第二个预览视频片段直接执行双击操作，或者对图11所示的播放的第二个预览视频片段执行双击操作，显示设备可将该第二个预览视频片段确定为定位的预览视频片段，并将视频播放进度条调整至如图12所示的该第二个预览视频片段对应的预览片段位置1201，且从该预览片段位置1201开始继续播放目标视频。此时，为了不干扰用户观看视频，可隐藏各预览视频片段，在播放页面中全域播放目标视频。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

Claims

1.一种显示设备，其特征在于，包括：

显示器，用于显示视频处理结果的用户界面；

通信器，用于与外部设备进行数据通信；

2.根据权利要求1所述的显示设备，其特征在于，所述控制器被配置为通过如下方式实现所述在所述目标视频的播放页面的预设位置处显示所述预览视频片段：

基于所述预览触发操作的预览方向，将所述播放页面至少划分为第一区域和第二区域；其中，所述第一区域的页面占比大于所述第二区域的页面占比，且所述第一区域在所述播放页面中的页面布局方向与所述预览方向相反，且所述第二区域在所述播放页面中的页面布局方向与所述预览方向一致；

在所述第一区域中，基于所述目标视频的当前播放位置，显示所述目标视频；

在所述第二区域中显示所述预览视频片段。

3.根据权利要求2所述的显示设备，其特征在于，所述控制器被配置为通过如下方式实现所述在所述第二区域中显示所述预览视频片段：

若所述预览视频片段为多个，则从各所述预览视频片段中筛选出处于所述当前播放位置的所述预览方向上的所述预览视频片段；

在所述第二区域中，按照视频播放时间顺序显示筛选的预览视频片段。

4.根据权利要求3所述的显示设备，其特征在于，所述控制器还被配置为：

所述在所述第二区域中，按照视频播放时间顺序显示筛选的预览视频片段之后，响应于预览选择操作，在所述第二区域中播放选择的所述预览视频片段。

5.根据权利要求4所述的显示设备，其特征在于，所述控制器被配置为通过如下方式实现所述响应于预览选择操作，在所述第二区域中播放选择的所述预览视频片段：

响应于所述预览选择操作，确定选择的所述预览视频片段；

基于选择的所述预览视频片段的片段时长、片段时长与播放速度之间的映射关系，确定目标播放速度；

在所述第二区域中选择的所述预览视频片段的排列位置处，以所述目标播放速度播放选择的所述预览视频片段。

6.根据权利要求1至5任一项所述的显示设备，其特征在于，所述控制器还被配置为：

所述在所述目标视频的播放页面的预设位置处显示所述预览视频片段之后，响应于视频定位操作，确定定位的所述预览视频片段；

在所述播放页面的全区域范围内、从定位的所述预览视频片段继续播放所述目标视频。

7.根据权利要求1所述的显示设备，其特征在于，所述控制器被配置为通过如下方式实现所述响应于对目标视频的预览触发操作，确定所述目标视频中的视频预览位置：

响应于所述预览触发操作，基于预览操作次数和预设步长，确定预览跨越时长；

基于所述目标视频的当前播放位置、所述预览跨越时长和所述预览触发操作的预览方向，确定所述视频预览位置。

8.根据权利要求1所述的显示设备，其特征在于，所述控制器被配置为通过如下方式实现所述基于所述视频预览位置，从所述目标视频对应的音频数据中提取目标声纹特征：

对所述目标视频进行音视频分离，获得所述音频数据；

以所述视频预览位置为基点扩展第一预设时长，确定目标预览时段；

从所述音频数据中提取所述目标预览时段对应的目标音频片段；

对所述目标音频片段进行声纹识别，确定所述目标声纹特征。

9.根据权利要求8所述的显示设备，其特征在于，所述控制器被配置为通过如下方式实现所述对所述目标音频片段进行声纹识别，确定所述目标声纹特征：

对所述目标音频片段进行声纹识别，确定初始声纹特征；

若所述初始声纹特征的数量为一个，则将所述初始声纹特征确定为所述目标声纹特征；

若所述初始声纹特征的数量为多个，则将满足预设声纹条件的初始声纹特征确定为所述目标声纹特征；其中，所述预设声纹条件包括所述初始声纹特征在所述目标音频片段中的片段时长最长和/或所述初始声纹特征的识别置信度最高。

10.一种视频处理方法，其特征在于，包括：

基于所述匹配音频时段，从所述目标视频中确定预览视频片段；在所述目标视频的播放页面的预设位置处显示所述预览视频片段。