CN109034115B

CN109034115B - 视频识图方法、装置、终端及存储介质

Info

Publication number: CN109034115B
Application number: CN201810963246.7A
Authority: CN
Inventors: 宋方
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2021-10-22
Anticipated expiration: 2038-08-22
Also published as: CN109034115A; WO2020038167A1

Abstract

本申请实施例提供了一种视频识图方法、装置、终端及存储介质。该方法包括：在处于视频播放场景时，在侧边栏显示识图功能控件；在接收到对应于识图功能控件的第一触发信号时，对当前播放画面进行截图处理，得到目标图像；获取目标图像的图像识别结果；显示图像识别结果。在本申请实施例中，通过在视频播放场景下显示视频识图控件，若用户期望了解当前播放画面中的某一人物或物品，直接点击该视频识别控件，之后终端对当前播放画面进行图像识别，并将图像识别结果展示给用户，该过程可以避免用户在两个应用程序之间来回切换，节省用户了解当前播放画面中的某一人物或物品所需的操作，操作更加便捷且识图效率更高。

Description

视频识图方法、装置、终端及存储介质

技术领域

本申请实施例涉及终端技术领域，特别涉及一种视频识图方法、装置、终端及存储介质。

背景技术

用户在观看视频时，会存在了解视频中的人物或者物品的需求。例如，用户通过终端中的播放应用程序看电影时，想要知道电影人物扮演者的相关信息。

相关技术中，若用户想要了解视频中的人物或者物品，通常会先触发终端对当前播放界面进行截图并保存该截图，之后触发终端退出播放应用程序并启动运行搜索应用程序，用户将上述截图上传至搜索应用程序中并点击搜索控件，此时终端从网络中获取上述人物或者物品的相关信息并展示给用户。

发明内容

本申请实施例提供了一种视频识图方法、装置、终端及存储介质。所述技术方案如下：

一方面，本申请实施例提供了一种视频识图方法，所述方法包括：

在处于视频播放场景时，在侧边栏显示识图功能控件；

在接收到对应于所述识图功能控件的第一触发信号时，对当前播放画面进行截图处理，得到目标图像；

对所述目标图像进行图像识别，得到所述目标图像的图像识别结果；

显示所述图像识别结果。

另一方面，本申请实施例提供了视频识图装置，所述装置包括：

控件显示模块，用于在处于视频播放场景时，在侧边栏显示识图功能控件；

图像获取模块，用于在接收到对应于所述识图功能控件的第一触发信号时，对当前播放画面进行截图处理，得到目标图像；

图像识别模块，用于对所述目标图像进行图像识别，得到所述目标图像的图像识别结果；

结果显示模块，用于显示所述图像识别结果。

又一方面，本申请实施例提供了一种终端，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如上述方面所述的视频识图方法。

再一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行如上述方面所述的视频识图方法。

本申请实施例提供的技术方案可以带来如下有益效果：

通过在视频播放场景下显示视频识图控件，若用户期望了解当前播放画面中的某一人物或物品，直接点击该视频识别控件，之后终端对当前播放画面进行图像识别，并将图像识别结果展示给用户，该过程可以避免用户在两个应用程序之间来回切换，节省用户了解当前播放画面中的某一人物或物品所需的操作，操作更加便捷且识图效率更高。

附图说明

图1是本申请一个示例性实施例提供的终端的结构示意图；

图2是本申请另一个示例性实施例提供的终端的结构示意图；

图3A至图3F是本申请的示例性实施例提供的具有不同触摸显示屏的终端的外观示意图；

图4是本申请一个实施例提供的视频识图方法的流程图；

图5是本申请一个实施例提供的显示视频识图控件的界面示意图；

图6是本申请一个实施例提供的确定目标待识别对象的界面示意图；

图7是本申请另一个实施例提供的确定目标待识别对象的界面示意图；

图8是本申请另一个实施例提供的确定目标待识别对象的界面示意图；

图9是本申请一个实施例提供的视频识图方法的界面示意图；

图10是本申请一个实施例提供的视频识图方法的界面示意图；

图11是本申请一个实施例提供的视频识图失败的界面示意图；

图12是本申请一个实施例提供的视频识图失败的界面示意图；

图13是本申请一个实施例提供的视频识图装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

参考图1和图2所示，其示出了本申请一个示例性实施例提供的终端100的结构方框图。该终端100可以是手机、平板电脑、笔记本电脑和电子书等。本申请中的终端100可以包括一个或多个如下部件：处理器110、存储器120和触摸显示屏130。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个终端100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责触摸显示屏130所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选地，该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等；存储数据区可存储根据终端100的使用所创建的数据(比如音频数据、电话本)等。

以操作系统为安卓(Android)系统为例，存储器120中存储的程序和数据如图1所示，存储器120中存储有Linux内核层220、系统运行库层240、应用框架层260和应用层280。Linux内核层220为终端100的各种硬件提供了底层的驱动，如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层240通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持，OpenGL/ES库提供了3D绘图的支持，Webkit库提供了浏览器内核的支持等。在系统运行库层240中还提供有Android运行时库242(Android Runtime)，它主要提供了一些核心库，能够允许开发者使用Java语言来编写Android应用。应用框架层260提供了构建应用程序时可能用到的各种API，开发者也可以通过使用这些API来构建自己的应用程序，比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层280中运行有至少一个应用程序，这些应用程序可以是操作系统自带的联系人程序、短信程序、时钟程序、相机应用等；也可以是第三方开发者所开发的应用程序，比如即时通信程序、相片美化程序等。

以操作系统为IOS系统为例，存储器120中存储的程序和数据如图2所示，IOS系统包括：核心操作系统层320(Core OS layer)、核心服务层340(Core Services layer)、媒体层360(Media layer)、可触摸层380(Cocoa Touch Layer)。核心操作系统层320包括了操作系统内核、驱动程序以及底层程序框架，这些底层程序框架提供更接近硬件的功能，以供位于核心服务层340的程序框架所使用。核心服务层340提供给应用程序所需要的系统服务和/或程序框架，比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层360为应用程序提供有关视听方面的接口，如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层380为应用程序开发提供了各种常用的界面相关的框架，可触摸层380负责用户在终端100上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface，UI)框架、用户界面UIKit框架、地图框架等等。

在图2所示出的框架中，与大部分应用程序有关的框架包括但不限于：核心服务层340中的基础框架和可触摸层380中的UIKit框架。基础框架提供许多基本的对象类和数据类型，为所有应用程序提供最基本的系统服务，和UI无关。而UIKit框架提供的类是基础的UI类库，用于创建基于触摸的用户界面，iOS应用程序可以基于UIKit框架来提供UI，所以它提供了应用程序的基础架构，用于构建用户界面，绘图、处理和用户交互事件，响应手势等等。

触摸显示屏130用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作，以及显示各个应用程序的用户界面。触摸显示屏130通常设置在终端130的前面板。触摸显示屏130可被设计成为全面屏、曲面屏或异型屏。触摸显示屏130还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本实施例对此不加以限定。其中：

全面屏

全面屏可以是指触摸显示屏130占用终端100的前面板的屏占比超过阈值(比如80％或90％或95％)的屏幕设计。屏占比的一种计算方式为：(触摸显示屏130的面积/终端100的前面板的面积)*100％；屏占比的另一种计算方式为：(触摸显示屏130中实际显示区域的面积/终端100的前面板的面积)*100％；屏占比的再一种计算方式为：(触摸显示屏130的对角线/在终端100的前面板的对角线)*100％。示意性的如图3A所示的例子中，终端100的前面板上近乎所有区域均为触摸显示屏130，在终端100的前面板40上，除中框41所产生的边缘之外的其它区域，全部为触摸显示屏130。该触摸显示屏130的四个角可以是直角或者圆角。

全面屏还可以是将至少一种前面板部件集成在触摸显示屏130内部或下层的屏幕设计。可选地，该至少一种前面板部件包括：摄像头、指纹传感器、接近光传感器、距离传感器等。在一些实施例中，将传统终端的前面板上的其他部件集成在触摸显示屏130的全部区域或部分区域中，比如将摄像头中的感光元件拆分为多个感光像素后，将每个感光像素集成在触摸显示屏130中每个显示像素中的黑色区域中。由于将至少一种前面板部件集成在了触摸显示屏130的内部，所以全面屏具有更高的屏占比。

当然在另外一些实施例中，也可以将传统终端的前面板上的前面板部件设置在终端100的侧边或背面，比如将超声波指纹传感器设置在触摸显示屏130的下方、将骨传导式的听筒设置在终端130的内部、将摄像头设置成位于终端的侧边且可插拔的结构。

在一些可选的实施例中，当终端100采用全面屏时，终端100的中框的单个侧边，或两个侧边(比如左、右两个侧边)，或四个侧边(比如上、下、左、右四个侧边)上设置有边缘触控传感器120，该边缘触控传感器120用于检测用户在中框上的触摸操作、点击操作、按压操作和滑动操作等中的至少一种操作。该边缘触控传感器120可以是触摸传感器、热力传感器、压力传感器等中的任意一种。用户可以在边缘触控传感器120上施加操作，对终端100中的应用程序进行控制。

曲面屏

曲面屏是指触摸显示屏130的截面呈弯曲形状且沿平行于截面的方向上的投影为平面的屏幕设计，该弯曲形状可以是U型。可选地，曲面屏是指至少一个侧边是弯曲形状的屏幕设计方式。可选地，曲面屏是指触摸显示屏130的至少一个侧边延伸覆盖至终端100的中框上。由于触摸显示屏130的侧边延伸覆盖至终端100的中框，也即将原本不具有显示功能和触控功能的中框覆盖为可显示区域和/或可操作区域，从而使得曲面屏具有了更高的屏占比。可选地，如图3B所示的例子中，曲面屏是指左右两个侧边42是弯曲形状的屏幕设计；或者，曲面屏是指上下两个侧边是弯曲形状的屏幕设计；或者，曲面屏是指上、下、左、右四个侧边均为弯曲形状的屏幕设计。在可选的实施例中，曲面屏采用具有一定柔性的触摸屏材料制备。

异形屏

异形屏是外观形状为不规则形状的触摸显示屏，不规则形状不是矩形或圆角矩形。可选地，异形屏是指在矩形或圆角矩形的触摸显示屏130上设置有凸起、缺口和/或挖孔的屏幕设计。可选地，该凸起、缺口和/或挖孔可以位于触摸显示屏130的边缘、屏幕中央或两者均有。当凸起、缺口和/或挖孔设置在一条边缘时，可以设置在该边缘的中间位置或两端；当凸起、缺口和/或挖孔设置在屏幕中央时，可以设置在屏幕的上方区域、左上方区域、左侧区域、左下方区域、下方区域、右下方区域、右侧区域、右上方区域中的一个或多个区域中。当设置在多个区域中时，凸起、缺口和挖孔可以集中分布，也可以分散分布；可以对称分布，也可以不对称分布。可选地，该凸起、缺口和/或挖孔的数量也不限。

由于异形屏将触摸显示屏的上额区和/或下额区覆盖为可显示区域和/或可操作区域，使得触摸显示屏在终端的前面板上占据更多的空间，所以异形屏也具有更大的屏占比。在一些实施例中，缺口和/或挖孔中用于容纳至少一种前面板部件，该前面板部件包括摄像头、指纹传感器、接近光传感器、距离传感器、听筒、环境光亮度传感器、物理按键中的至少一种。

示例性的，该缺口可以设置在一个或多个边缘上，该缺口可以是半圆形缺口、直角矩形缺口、圆角矩形缺口或不规则形状缺口。示意性的如图3C所示的例子中，异形屏可以是在触摸显示屏130的上边缘的中央位置设置有半圆形缺口43的屏幕设计，该半圆形缺口43所空出的位置用于容纳摄像头、距离传感器(又称接近传感器)、听筒、环境光亮度传感器中的至少一种前面板部件；示意性的如图3D所示，异形屏可以是在触摸显示屏130的下边缘的中央位置设置有半圆形缺口44的屏幕设计，该半圆形缺口44所空出的位置用于容纳物理按键、指纹传感器、麦克风中的至少一种部件；示意性的如图3E所示的例子中，异形屏可以是在触摸显示屏130的下边缘的中央位置设置有半椭圆形缺口45的屏幕设计，同时在终端100的前面板上还形成有一个半椭圆型缺口，两个半椭圆形缺口围合成一个椭圆形区域，该椭圆形区域用于容纳物理按键或者指纹识别模组；示意性的如图3F所示的例子中，异形屏可以是在触摸显示屏130中的上半部中设置有至少一个小孔46的屏幕设计，该小孔46所空出的位置用于容纳摄像头、距离传感器、听筒、环境光亮度传感器中的至少一种前面板部件。

除此之外，本领域技术人员可以理解，上述附图所示出的终端100的结构并不构成对终端100的限定，终端可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，终端100中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

相关技术中，若用户想要了解视频中的人物或物品，则需要在两个应用程序之间进行切换，该过程所需的操作十分繁琐，效率低下。

基于此，本申请实施例提供了一种视频识图方法、装置、终端及存储介质。在本申请实施例提供的技术方案中，终端在视频播放场景下显示视频识图控件，若用户期望了解当前播放画面中的某一人物或物品，直接点击该视频识别控件，之后终端对当前播放画面进行图像识别，并将图像识别结果展示给用户，该过程可以避免用户在两个应用程序之间来回切换，节省用户了解当前播放画面中的某一人物或物品所需的操作，提升工作效率。

在本申请实施例中，各步骤的执行主体可以是上文实施例介绍的终端。其中，该终端具有视频播放功能。可选地，终端还具有图像识别功能。在本申请的一些实施例中，终端中安装运行有用于实现视频播放功能的应用程序，各步骤的执行主体可以是该应用程序，该应用程序可以是系统应用或者第三方应用。为了便于说明，在下述方法实施例中，仅以各步骤的执行主体是终端为例进行介绍说明，但对此不构成限定。

请参考图4，其示出了本申请一个实施例提供的视频识图方法的流程图。该方法可以包括如下步骤：

步骤401，在处于视频播放场景时，在侧边栏显示识图功能控件。

视频播放场景是指终端正在播放视频的场景。在一种可能的实现方式中，终端通过播放应用程序来播放视频；在另一种可能的实现方式中，终端通过浏览器来播放网页中的视频。

侧边栏用于显示终端中的应用图标和/或功能控件，以使得终端在前台运行应用程序的过程中，能够便捷地打开其它应用程序，或者，执行功能控件所对应的功能。侧边栏中所显示的应用图标和/或功能控件可以由终端默认设置，也可以由用户自定义设置。在本申请实施例中，侧边栏中包括识图功能控件。

识图功能控件用于触发对当前播放视频中的画面进行图像识别。识别功能控件可以在视频开始播放的时候显示，也可以根据用户所触发的操作信号进行显示，本申请实施例对识图功能控件的显示时机不作限定。

当识图功能控件时根据用户所触发的操作信号进行显示时，步骤401可以包括如下两个子步骤：

步骤401a，在处于视频播放场景时，接收对应于侧边栏的呼出指令；

步骤401b，根据呼出指令显示侧边栏。

呼出指令用于呼出侧边栏。可选地，终端的显示界面中显示有浮标，若接收到作用在浮标上的触发信号，则终端接收到呼出指示。

浮标可以始终显示在显示界面上层，也可以在应用程序启动运行时显示在显示界面上层，还可以根据用户所触发的操作信号显示在显示界面上层，本申请实施例对浮标的显示时机不作限定。浮标的形状可以是圆形、椭圆形、矩形等，本申请实施例对浮标的形状不作限定。浮标的面积可以由终端默认设置，也可以由用户自定义设定，本申请实施例对此不作限定。另外，为了尽可能地减少对显示界面的遮挡，浮标可以设置透明度大于0。

作用在浮标上的触发信号可以是单击信号、双击信号、长按信号、滑动信号、拖动信号，本申请实施例对此不作限定。在本申请实施例中仅以作用在浮标上的触发信号是滑动信号为例进行说明。

另外，终端处于横屏显示状态时，浮标会显示界面造成遮挡，此时用户的沉浸感降低。为了避免该种情况的发生，在本申请的一些实施例中，终端在接收在显示侧边上的触发信号时，接收呼出指令。示例性地，在显示侧边上的触发信号是以显示侧边的外侧到内侧的滑动信号。

结合参考图5，其示出了本申请一个实施例示出的显示视频识图控件的界面示意图。在处于视频播放场景时，用户对终端的左侧边执行由外侧至内侧的滑动操作，终端接收到滑动操作信号后显示侧边栏51，侧边栏51中包含识图功能控件52。

步骤402，在接收到对应于识图功能控件的第一触发信号时，对当前播放画面进行截图处理，得到目标图像。

第一触发信号由用户进行触发，其可以是单击信号、双击信号、长按信号、滑动信号、拖动信号中的任意一种。在本申请实施例中，仅以第一触发信号为单击信号为例进行说明。目标图像是需要识别的图像。可选地，终端将接收到第一触发信号时所显示的播放画面确定为目标图像。

在本申请实施例中，目标图像需要展示给用户，以便用户确定是否是需要识别的图像。在本申请实施例中，通过截图处理的方式来获取目标图像。截图处理是指截取当前播放画面，并将截取到的播放画面确定为目标图像。

在一种可能的实现方式中，终端对完整的当前播放画面进行截图处理，得到目标图像。在另一种可能的实现方式中，终端对当前播放画面中的部分画面进行截图处理，得到目标图像。上述部分画面可以由用户选定。可选地，在接收到对应于识图功能控件的第一触发信号时，暂停视频播放并提示用户截取目标图像，用户对当前播放画面执行拖动操作，之后终端截取对角线为上述拖动操作信号的起点至终点的直线的矩形区域，作为目标图像。

终端在获取目标图像之后，还可以显示该目标图像。可选地，终端在悬浮窗上显示该目标图像。由于悬浮窗的尺寸较小，因此在悬浮窗上显示该目标图像时，需要对目标图像进行尺寸缩小处理。

步骤403，获取目标图像的图像识别结果。

图像识别结果是对目标图像进行图像识别得到的。可选地，图像识别结果可以包括至少一条记录，每条记录用于表示目标图像中的一个元素的识别结果，其可以是人物标识，也可以是物品标识。人物标识用于唯一标识人物，其可以是人物的姓名，终端识别出了当前播放画面中的人物，得到人物标识。物品标识用于唯一标识物品，其可以是物品的名称，终端识别出了当前播放画面中的物品，得到物品标识。另外，图像识别结果还包括每条记录对应的相似度，该相似度是指该记录与目标图像中相应的元素之间的相似度，用于衡量图像识别结果的准确度。其中，相似度越高，则该图像识别结果越准确；相似度越低，则该图像识别结果越不准确。

在第一种可能的实现方式中，由终端对目标图像进行识别，得到图像识别结果。在第二种可能的实现方式中，由服务器对目标图像进行图像识别，得到图像识别结果，之后终端从服务器中获取图像识别结果。具体地，终端向服务器发送识别请求，识别请求中携带终端的标识和目标图像，服务器根据该识别请求对目标图像进行识别，得到图像识别结果，并向终端返回图像识别结果。在本申请实施例中，仅以第一种可能的实现方式为例进行讲解。

本申请实施例对图像识别所采取的算法不作限定，其可以是基于模型匹配的图像识别算法、基于神经网络的图像识别算法、基于小波矩的图像识别算法、基于分形特征的图像识别算法等等，本申请实施例对此不作限定。

可选地，终端在悬浮窗上显示目标图像后，还可以显示询问信息，该询问信息用于询问是否需要获取目标图像的图像识别结果，在接收到对应于所述询问信息的确认指示时，执行获取目标图像的图像识别结果的步骤。

步骤404，显示图像识别结果。

终端在获取到图像识别结果之后，显示该图像识别结果，以便用户查看。可选地，图像识别结果也显示在步骤402中提及的悬浮窗中。

综上所述，本申请实施例提供的技术方案，通过在视频播放场景下显示视频识图控件，若用户期望了解当前播放画面中的某一人物或物品，直接点击该视频识别控件，之后终端对当前播放画面进行图像识别，并将图像识别结果展示给用户，该过程可以避免用户在两个应用程序之间来回切换，节省用户了解当前播放画面中的某一人物或物品所需的操作，操作更加便捷且识图效率更高。

由于一幅图像中可能包括多个对象，例如人物、物品、动物、花、树等等，若用户只需要了解部分元素，而终端依然对整幅图像进行图像识别，则可能导致识别效率较低。在本申请实施例中，由用户选择出上述多个对象中的待识别对象，之后终端只获取该待识别对象的图像识别结果，而无需获取整幅图像的图像识别结果，可以提升识别效率。在基于图4所示实施例提供的一个可选实施例中，目标图像中包括多个待识别对象，步骤403包括如下两个子步骤：

步骤501，确定目标图像中包含的目标待识别对象。

目标待识别对象是指用户期望识别的对象，其可以由用户选择。目标待识别对象的数量可以是一个，也可以是多个，目标待识别对象的数量可以小于目标图像所包含的对象的数量，也可以等于目标图像所包含的对象的数量。下面将对确定目标待识别对象的三种实现方式分别进行讲解。

在第一种可能的实现方式中，步骤501包括如下几个子步骤：

步骤501a，显示人物识别控件和/或物品识别控件；

人物识别控件用于触发识别目标图像中包含人物图像的区域，物品识别控件用于触发识别目标图像中包含物品图像的区域。可选地，终端在显示目标图像的同时，显示上述人物识别控件和/或物品识别控件。可选地，上述人物识别控件和/或物品识别控件也显示在悬浮窗内。

步骤501b，当接收到对应于人物识别控件的第二触发信号时，确定目标待识别对象为目标图像中包含人物图像的区域；

目标图像中包含人物图像的区域可以是包含人脸图像的矩形区域。进一步地，目标图像中包含人物图像的区域是包含人脸图像的最小矩形区域。

步骤501c，当接收到对应于物品识别控件的第三触发信号时，确定目标待识别对象为目标图像中包含物品图像的区域。

目标图像中包含物品图像的区域可以是包含整个物品的区域，也可以是包含物品的关键特征的矩形区域。物品的关键特征可以根据物品实际确定。例如，物品为花时，其关键特征为花瓣。进一步地，目标图像中包含物品图像的区域可以是包含整个物品的最小矩形区域，也可以是包含物品的关键特征的最小矩形区域。

结合参考图6，其示出了本申请一个实施例提供的确定待识别对象的界面示意图。终端在悬浮窗61上显示目标图像62、人物识别控件63、物品识别控件64。当用户点击人物识别控件63时，终端确定目标待识别对象为目标图像中包含人物图像的区域；当用户点击物品识别控件64时，终端确定目标待识别对象为目标图像中包含物品图像的区域。

在第二种可能的实现方式中，步骤501包括如下几个子步骤：

步骤501d，显示目标图像；

目标图像中的各个待识别对象标注有不同序号。可选地，终端还在目标图像的下方显示上述不同序号。

步骤501e，接收对应于目标序号的选择信号；

对应于目标序号的选择信号可以是单击信号、双击信号、长按信号、滑动信号、拖动信号中的任意一种，本申请实施例对此不作限定。在本申请实施例中，仅以对应于目标序号的选择信号是单击信号为例进行说明。

目标序号是被选择的序号。若用户期望了解某一对象，则可以选择该对象对应的序号。若终端还在目标图像的下方显示上述不同序号，则终端可以在目标图像中选择目标序号，也可以在目标图像的下方显示的序号中选择目标序号。

步骤501f，将目标序号对应的待识别对象确定为目标待识别对象。

终端将被选择的序号对应的对象确定为目标待识别对象。可选地，悬浮窗中还包括完成控件，当终端接收到对应于该完成控件的确认指示时，将被选择的序号对应的对象确定为待识别对象。

结合参考图7，其示出了本申请一个实施例提供的确定待识别对象的界面示意图。终端在悬浮窗61上显示目标图像62与完成控件71，该目标图像62中的各个待识别对象被标识了不同序号，当用户点击某一序号与完成控件71之后，终端将该序号对应的待识别对象确定为目标待识别对象。

在第三种可能的实现方式中，步骤501包括如下几个子步骤：

步骤501g，显示目标图像；

步骤501h，接收作用在目标图像上的第三触发信号；

第三触发信号可以是单击信号、双击信号、长按信号、滑动信号、拖动信号中的任意一种，本申请实施例对此不作限定。在本申请实施例中，仅以第三触发信号是单击信号为例进行说明。

步骤501i，将处于目标区域内的待识别对象确定为目标待识别对象。

目标区域是指以第三触发信号的触发位置为中心，且面积为预设面积的区域。第三触发信号的触发位置是指用户手指与显示屏之间的接触位置。预设面积可以根据实际经验设定，本申请实施例对此不作限定。可选地，悬浮窗中还包括完成控件，当终端接收到对应于该完成控件的确认指示时，将处于目标区域内的对象确定为目标待识别对象。

结合参考图8，其示出了本申请另一个实施例提供的确定待识别对象的界面示意图。终端在悬浮窗61上显示目标图像62，该用户点击某一位置时，终端将以该位置为中心，面积为预设面积的区域81内的待识别对象确定为目标待识别对象。

步骤302，对目标待识别对象进行图像识别，得到图像识别结果。

可选地，步骤302可以实现为：通过机器学习模型对目标待识别对象进行图像识别，得到图像识别结果。

机器学习模型是采用多组训练样本数据对神经网络训练得到的。多组训练样本数据中的每组训练样本数据包括样本图像，以及样本图像对应的识别结果。样本图像对应的识别结果可以通过人工方式来获取，也即由相关技术人员确定样本图像对应的识别结果并进行记录。

神经网络可以是卷积神经网络(Convolutional Neural Network，CNN)、人工神经网络(Artificial Neural Network，ANN)、深度神经网络(Deep Neural Networks，DNN)等，本申请实施例对此不作限定。

训练机器学习模型时采用的机器学习算法可以是反向传播算法(Back-Propagation，BP)、更快的区域卷积神经网络faster RCNN(faster Regions withConvolutional Neural Network，faster RCNN)算法等，本申请实施例对此不作限定。

可选地，机器学习模型包括：一个输入层、至少一个隐层、和一个输出层。输入层的输入数据为目标图像，或者目标图像中的目标待识别对象，输出层的输出结果是该目标图像的图像识别结果。确定过程如下：将目标图像，或者目标图像中的待识别对象输入至机器学习模型的输入层，由机器学习模型的隐层对上述特征数据进行特征提取，并对提取到的特征进行组合和抽象，最后由输出层输出该目标图像的图像识别结果。另外，在本申请实施例中，对隐层的具体结构不作限定。一般来说，神经网络的层数越多，效果越好但计算时间也会越长，在实际应用中，可结合精度要求，设计适当层数的神经网络。

另外，机器学习模型的训练过程如下：获取初始机器学习模型，将样本训练数据中的样本图像输入至上述初始机器学习模型，由初始机器学习模型输出该样本图像对应的实际识别结果，将该实际识别结果与该样本图像对应的图像识别结果进行比对，得到计算损失，之后将计算损失与预设阈值进行比对，若计算损失大于预设阈值，则更新初始机器学习模型的各项参数，并从将样本训练数据中的样本图像输入至上述初始机器学习模型的步骤重新开始执行，若计算损失不大于预设阈值，则生成机器学习模型。其中，预设阈值可以根据识别精度实际确定，本申请实施例对此不作限定。

综上所述，本申请实施例提供的技术方案，通过先由用户在待识别图像中确定出待识别的人物或物品，后续图像识别时无需对整张图像进行图像识别，而只需要对用户选择出的人物或物品进行识别，可以提升识图效率。

在获取到图像识别结果之后，终端还可以获取并显示图像识别结果对应的相关信息，以便用户了解到播放画面中的人物或者物品的更丰富、全面的信息。在基于图4所示实施例提供的一个可选实施例中，在步骤403之后，该视频识图方法还可以包括如下步骤：

步骤601，获取图像识别结果对应的相关信息；

当图像识别结果为人物标识时，图像识别结果对应的相关信息包括以下一项或多项的组合：人物标识对应的人物的百科信息、社交帐号信息、新闻资讯信息、作品信息。

百科信息是指该人物的详细资料信息，其通常包括姓名、年龄、职业、生日等等。社交帐号信息包括该人物所使用的社交帐号的网页链接，当该网页链接被点击时，终端显示该社交帐号的主页面，以便用户通过自身所使用的社交帐号来与其建立社交关系，上述社交关系可以是关注关系、收听关系、好友关系等。新闻资讯信息是指与该人物相关的新闻资讯。作品信息包括该人物出演过的作品的详细介绍，以及访问链接。

当图像识别结果为物品标识时，图像识别结果对应的相关信息包括以下一项或多项的组合：物品标识对应的物品的百科信息、购买信息。

百科信息是指该物品的详细资料信息，其可以包括该物品的名称、材质、重量等等。购买信息包括该物品的购买链接，当该购买链接被点击时，终端显示该物品的购买页面，以便用户购买该物品。

在第一种可能的实现方式中，由终端在本地获取图像识别结果的相关信息。在第二种可能的实现方式中，由终端从服务器中获取图像识别结果的相关信息。具体地，终端向服务器发送获取请求，识别请求中携带终端的标识和图像识别结果，服务器根据该获取请求获取图像识别结果对应的相关信息，并向终端返回该相关信息。在本申请实施例中，仅以第二种可能的实现方式为例进行讲解。

步骤602，显示图像识别结果对应的相关信息。

若图像识别结果中包括一条记录，则终端直接跳转显示图像识别结果对应的相关信息。在其它可能的实现方式中，终端在显示图像识别结果的同时显示跳转控件，当终端接收到对应于该跳转控件的触发信号时，显示图像识别结果对应的相关信息。

若图像识别结果中包括多条记录，则终端显示每条记录对应的跳转控件，当用户接收到对应于目标跳转控件的触发信号时，终端显示目标跳转控件对应的记录的相关信息。

可选地，终端在显示图像识别结果对应的相关信息时，还显示有收藏控件。当终端接收到对应于收藏控件的触发信号时，保存该图像识别结果对应的相关信息。另外，该收藏控件会转变成已收藏状态。在一种可能的实现方式中，终端将上述相关信息直接保存在第一存储路径下，后续用户在不存在网络连接的情况下可以直接查看该相关信息，减少流量消耗。在另一种可能的实现方式中，终端将上述相关信息对应的访问地址存储在第二存储路径下，后续用户可以通过该访问地址重新获取并查看相关信息，减少终端存储空间的占用。第一存储路径和第二存储路径可以由用户自定义设定，也可以由终端默认设定，本申请实施例对此不作限定。另外，当相关信息包括多项时，每项均对应一个收藏控件，以便用户能够有选择地保存自己所需的相关信息。

结合参考图9，其示出了本申请一个实施例提供的显示相关信息的界面示意图。终端在悬浮窗61中显示目标图像62、人物识别控件63和物体识别控件64，当用户点击该人物识别控件63时，终端在悬浮窗61中显示图像识别结果中的第一条记录91“人物A”、第一条记录91“人物A”对应的跳转控件92、第二条记录93“人物B”以及第二条记录93“人物B”对应的跳转控件94；当用户点击第一条记录91“人物A”对应的跳转控件92时，悬浮窗61显示第一条记录91“人物A”对应的相关信息95，以及收藏控件96。

结合参考图10，其示出了本申请一个实施例提供的显示相关信息的界面示意图。终端在悬浮窗61中显示目标图像62，当用户点击某一位置时，终端将以该位置为中心，面积为预设面积的区域1001内的对象确定为待识别对象，之后终端获取该对象的图像识别结果，图像识别结果中包括一条记录“正品棒球帽潮牌帽遮阳帽男女”，则终端直接在悬浮窗61中显示图像识别结果的多项相关信息1002，以及每项相关信息对应的收藏控件1003。

终端在获取图像识别结果时，可能存在未获取到该图像识别结果的情况。在基于图4所示实施例提供的一个可选实施例中，若终端未获取到图像识别结果，则终端显示第一提示信息，该第一提示信息用于提示未能获取到相关信息。

结合参考图11，其示出了本申请一个实施例提供的第一提示信息的界面示意图。终端在未能获取图像识别结果时，在悬浮窗61中显示目标图像62和第一提示信息1101“未找到相关信息”。

另外，若终端是因为未建立网络连接的原因，而无法获取该图像识别结果的相关信息时，此时终端显示第二提示信息，该第二提示信息用于提示用户建立网络连接，以便终端能重新获取相关信息。可选地，终端还显示有网络设置控件，当终端接收到对应于该网络设置控件的触发信号时，跳转至网络设置界面，以便用户完成网络设置。

结合参考图12，其示出了本申请一个实施例提供的第二提示信息的界面示意图。终端因为未建立网络连接而未能获取图像识别结果时，在悬浮窗61中显示目标图像62和第一提示信息1201“请连接网络后重试”、网络设置控件1202。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图13，其示出了本申请一个实施例提供的视频识图装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

控件显示模块1301，用于在处于视频播放场景时，在侧边栏显示识图功能控件。

图像获取模块1302，用于在接收到对应于所述识图功能控件的第一触发信号时，对当前播放画面进行截图处理，得到目标图像。

图像识别模块1303，用于获取所述目标图像的图像识别结果，所述图像识别结果是对所述目标图像进行图像识别得到的。

结果显示模块1304，用于显示所述图像识别结果。

在基于图13所示实施例提供的一个可选实施例中，所述目标图像包含多个待识别对象，所述图像识别模块1303，用于：

确定所述目标图像中包含的目标待识别对象；

对所述目标待识别对象进行图像识别，得到所述图像识别结果。

可选地，所述图像识别模块1303，用于：

显示人物识别控件和/或物品识别控件；

当接收到对应于所述人物识别控件的第二触发信号时，确定所述目标待识别对象为所述目标图像中包含人物图像的区域；

当接收到对应于所述物品识别控件的第三触发信号时，确定所述目标待识别对象为所述目标图像中包含物品图像的区域。

可选地，所述图像识别模块1303，用于：

显示所述目标图像，所述目标图像中的各个待识别对象被标注了不同序号；

接收对应于目标序号的选择信号；

将所述目标序号对应的待识别对象确定为所述目标待识别对象。

可选地，所述图像识别模块1303，用于：

显示所述目标图像；

接收作用在所述目标图像上的第三触发信号；

将处于目标区域内的待识别对象确定为所述目标待识别对象，所述目标区域是指以所述第三触发信号的触发位置为中心，且面积为预设面积的区域。

可选地，所述图像识别模块1303，用于通过机器学习模型对所述目标待识别对象进行图像识别，得到所述图像识别结果，所述机器学习模型是采用多组训练样本数据对神经网络训练得到的，所述多组训练样本数据中的每组训练样本数据包括样本图像，以及所述样本图像对应的识别结果。

在基于图13所示实施例提供的另一个可选实施例中，所述装置还包括：信息获取模块和信息显示模块(图中未示出)

信息获取模块，用于获取所述图像识别结果对应的相关信息。

信息显示模块，用于显示所述图像识别结果对应的相关信息。

可选地，

当所述图像识别结果为人物标识时，所述图像识别结果对应的相关信息包括以下一项或多项的组合：所述人物标识对应的人物的百科信息、社交帐号信息、新闻资讯信息、作品信息；

当所述图像识别结果为物品标识时，所述图像识别结果对应的相关信息包括以下一项或多项的组合：所述物品标识对应的物品的百科信息、购买信息。

可选地，所述信息显示模块，用于：

当所述图像识别结果包括多条记录时，接收对应于目标记录的选择信号；

显示所述目标记录对应的相关信息。

在基于图13所示实施例提供的另一个可选实施例中，所述控件显示模块1301，用于：

在处于所述视频播放场景时，接收对应于所述侧边栏的呼出指令；

根据所述呼出指令显示所述侧边栏；其中，所述侧边栏中包括所述识图功能控件。

需要说明的是，上述实施例提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由终端的处理器加载并执行以实现上述方法实施例中的各个步骤。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述方法实施例中的各个步骤的功能。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频识图方法，其特征在于，所述方法包括：

在处于视频播放场景时，在侧边栏显示识图功能控件；所述识图功能控件用于触发对当前播放视频中的画面进行图像识别；

在接收到对应于所述识图功能控件的第一触发信号时，对当前播放画面进行截图处理，得到目标图像；所述截图处理是指截取当前播放画面，并将截取到的播放画面确定为所述目标图像；

在悬浮窗上显示所述目标图像；所述悬浮窗中显示的所述目标图像是尺寸缩小处理后的播放画面图像；所述悬浮窗显示在当前播放画面的上层，且所述悬浮窗的面积小于当前播放画面的面积；

接收到基于所述悬浮窗执行的指定操作，确定所述目标图像中包含的目标待识别对象，所述目标待识别对象是指用户期望识别的对象，所述目标待识别对象的数量小于或等于所述目标图像所包含的对象的数量，且所述目标待识别对象的数量大于1个；

对所述目标待识别对象进行图像识别，获取所述目标图像的图像识别结果，所述图像识别结果包括至少一条记录，每条记录用于表示所述目标图像中的一个元素的识别结果；所述图像识别结果是人物标识或者物品标识；

在所述悬浮窗中显示所述图像识别结果；

其中，所述指定操作包括基于所述悬浮窗中显示的人物识别控件和/或物品识别控件的选择操作；所述人物识别控件用于触发识别所述目标图像中包含人物图像的区域，所述物品识别控件用于触发识别所述目标图像中包含物品图像的区域。

2.根据权利要求1所述的方法，其特征在于，所述确定所述目标图像中包含的目标待识别对象，包括：

显示所述人物识别控件和/或所述物品识别控件；

3.根据权利要求1所述的方法，其特征在于，所述对所述目标待识别对象进行图像识别，得到所述图像识别结果，包括：

通过机器学习模型对所述目标待识别对象进行图像识别，得到所述图像识别结果，所述机器学习模型是采用多组训练样本数据对神经网络训练得到的，所述多组训练样本数据中的每组训练样本数据包括样本图像，以及所述样本图像对应的识别结果。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取所述目标图像的图像识别结果之后，还包括：

获取所述图像识别结果对应的相关信息；

显示所述图像识别结果对应的相关信息。

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求4所述的方法，其特征在于，所述显示所述图像识别结果对应的相关信息，包括：

显示所述目标记录对应的相关信息。

7.根据权利要求1至3任一项所述的方法，其特征在于，所述在处于视频播放场景时，在侧边栏显示识图功能控件，包括：

8.一种视频识图装置，其特征在于，所述装置包括：

控件显示模块，用于在处于视频播放场景时，在侧边栏显示识图功能控件；所述识图功能控件用于触发对当前播放视频中的画面进行图像识别；

图像获取模块，用于在接收到对应于所述识图功能控件的第一触发信号时，对当前播放画面进行截图处理，得到目标图像；在悬浮窗上显示所述目标图像；所述截图处理是指截取当前播放画面，并将截取到的播放画面确定为所述目标图像；所述悬浮窗中显示的所述目标图像是尺寸缩小处理后的播放画面图像；所述悬浮窗显示在当前播放画面的上层，且所述悬浮窗的面积小于当前播放画面的面积；

图像识别模块，用于接收到基于所述悬浮窗执行的指定操作，确定所述目标图像中包含的目标待识别对象，所述目标待识别对象是指用户期望识别的对象，所述目标待识别对象的数量小于或等于所述目标图像所包含的对象的数量，且所述目标待识别对象的数量大于1个；对所述目标待识别对象进行图像识别，获取所述目标图像的图像识别结果，所述图像识别结果包括至少一条记录，每条记录用于表示所述目标图像中的一个元素的识别结果；所述图像识别结果是人物标识或者物品标识；

结果显示模块，用于在所述悬浮窗中显示所述图像识别结果；

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的视频识图方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至7任一项所述的视频识图方法。