CN114915826A - 信息展示方法、装置、计算机设备及计算机可读存储介质 - Google Patents

信息展示方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN114915826A
CN114915826A CN202110183771.9A CN202110183771A CN114915826A CN 114915826 A CN114915826 A CN 114915826A CN 202110183771 A CN202110183771 A CN 202110183771A CN 114915826 A CN114915826 A CN 114915826A
Authority
CN
China
Prior art keywords
video frame
time point
playing time
frame image
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110183771.9A
Other languages
English (en)
Inventor
徐宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110183771.9A priority Critical patent/CN114915826A/zh
Publication of CN114915826A publication Critical patent/CN114915826A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种信息展示方法、装置、设备及计算机可读存储介质;方法包括:在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;对所述候选视频帧图像进行目标对象识别,得到识别结果,并基于所述识别结果,展示目标对象的对象信息。通过本申请,能够提高对象信息展示的准确性。

Description

信息展示方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种信息展示方法、装置、计算机设备及计算机可读存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。随着人工智能技术的不断发展,人工智能已经越来越多地应用于视频的播放或者处理等方面。
用户在观看视频的过程中,经常有了解视频画面中的人物的详细信息的需求,但相关技术中,通常是基于当前呈现的画面进行对象识别,进而将当前呈现的画面中的对象信息展示给用户,但仅仅是基于当前呈现的画面进行对象识别,存在识别准确率低的问题。
发明内容
本申请实施例提供一种信息展示方法、装置、计算机设备及计算机可读存储介质,能够提高对象信息展示的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种信息展示方法,包括:
在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;
从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;
对所述候选视频帧图像进行目标对象识别,得到识别结果,并基于识别结果,展示目标对象的对象信息。
本申请实施例提供一种信息展示方法,包括:
在视频播放的过程中,接收到控制设备发送的对象识别指令,所述对象识别指令用于指示对当前播放时间点对应的视频帧图像中目标对象进行识别;
响应于所述对象识别指令,展示所述目标对象的对象信息;
其中,所述对象信息为对当前播放时间点对应的视频帧图像、及与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像中,满足视频识别条件的视频帧图像,进行目标对象识别得到的。
本申请实施例提供一种信息展示装置,包括:
第一接收模块,用于在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
获取模块,用于响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;
筛选模块,用于从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;
第一展示模块,用于对所述候选视频帧图像进行目标对象识别,得到识别结果,并基于所述识别结果,展示目标对象的对象信息。
上述方案中,所述第一接收模块,还用于接收到控制设备发送的针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
其中,对象识别指令基于针对所述控制设备上的对象识别按键触发。
上述方案中,所述第一接收模块,还用于响应于对象识别开始指令,当所述当前播放时间点对应的视频帧图像中包含至少两个对象时,呈现目标对象的选择界面;
接收到基于所述目标对象的选择界面触发的选取操作,将所述选取操作所对应的对象作为目标对象。
上述方案中,当所述至少一个目标播放时间点包括第一数量的后向播放时间点及第二数量的前向播放时间点时,所述第一接收模块,还用于获取目标时间间隔;
基于所述目标时间间隔,从所述目标播放时间点开始向后,每隔目标时间间隔,获取一个后向播放时间点作为目标播放时间点,直至获取到第一数量的后向播放时间点;
基于所述目标时间间隔,从所述目标播放时间点开始向前,每隔目标时间间隔,获取一个前向播放时间点作为目标播放时间点,直至获取的第二数量的前向播放时间点。
上述方案中,所述获取模块,还用于确定包含所述当前播放时间点的播放时间段;
从所述播放时间段中选取至少一个播放时间点,作为目标播放时间点。
上述方案中,所述获取模块,还用于确定获取的各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度;
从获取的所述视频帧图像中,筛选出相似度达到相似度阈值的视频帧图像;
从相似度达到相似度阈值的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像。
上述方案中,所述筛选模块,还用于确定获取的各视频帧图像中目标对象的清晰度、以及当前播放时间点对应的视频帧图像中目标对象的清晰度;
按照人脸清晰度从大到小的顺序,对获取的视频帧图像及当前播放时间点对应的视频帧图像进行排序,得到第一视频帧图像序列;
从所述第一视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
上述方案中,所述筛选模块,还用于确定获取的各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;
按照人脸区域尺寸从大到小的顺序,对获取的视频帧图像及当前播放时间点对应的视频帧图像进行排序,得到第二视频帧图像序列;
从所述第二视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
上述方案中,所述筛选模块,还用于确定获取的各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;
获取人脸区域尺寸阈值;
从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出人脸区域尺寸达到所述人脸区域尺寸阈值的视频帧图像作为候选视频帧图像。
上述方案中,所述第一展示模块,还用于对所述候选视频帧图像中的目标图像进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;
获取对应所述视频的对象列表;
基于所述对象列表中各对象在所述视频中的重要程度,对各候选识别结果对应的可信度进行加权处理,得到各候选识别结果对应的加权后的可信度;
将加权后的可信度最高的候选识别结果作为目标对象的识别结果。
上述方案中,所述第一展示模块,还用于获取所述对象列表中各对象在所述视频中出现的时长;
根据各对象在所述视频中出现的时长,确定各对象的权值,
基于各候选识别结果对应对象的权值,对所述候选对象对应的可信度进行加权处理。
上述方案中,所述第一展示模块,还用于对所述候选视频帧图像中的目标图像进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;
获取对应所述视频的对象列表,并分别将各候选识别结果与所述对象列表中的对象进行匹配;
从至少两个候选识别结果中,筛选出存在相匹配的对象的候选识别结果;
从筛选得到的候选识别结果中,确定可信度最高的候选识别结果为目标对象的识别结果。
本申请实施例提供一种信息展示装置,包括:
第二接收模块,用于在视频播放的过程中,接收到控制设备发送的对象识别指令,所述对象识别指令用于指示对当前播放时间点对应的视频帧图像中目标对象进行识别;
第二展示模块,用于响应于所述对象识别指令,展示所述目标对象的对象信息;
其中,所述对象信息为对当前播放时间点对应的视频帧图像、及与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像中,满足视频识别条件的视频帧图像,进行目标对象识别得到的。
本申请实施例提供一种计算机设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息展示方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的信息展示方法。
本申请实施例具有以下有益效果:
本申请通过在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;基于所述候选视频帧图像对所述目标对象进行识别,得到识别结果,并基于所述识别结果,展示目标对象的对象信息;如此,由于本申请不仅获取了当前播放时间点对应的视频帧图像,还获取了当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像,使得筛选出的候选视频帧图像更有利于对象的识别,提升了目标对象识别的准确性。
附图说明
图1A是本申请实施例提供的信息展示系统的一个可选的架构示意图;
图1B是本申请实施例提供的信息展示系统的一个可选的架构示意图;
图2是本申请实施例提供的信息展示方法的流程示意图;
图3是本申请实施例提供的目标对象的选择界面示意图;
图4是本申请实施例提供的目标对象的选择界面示意图;
图5是本发明实施例提供的目标对象的对象信息的呈现示意图;
图6是本申请实施例提供的信息展示方法的流程示意图;
图7是本申请实施例提供的信息展示方法的流程示意图;
图8是本申请实施例提供的信息展示方法的流程示意图;
图9是本申请实施例提供的信息展示方法的流程示意图;
图10是本申请实施例提供的候选视频帧图像的获取过程的流程示意图;
图11是本申请实施例提供的人脸识别接口的示例图;
图12是本申请实施例提供的对象识别过程的流程示意图;
图13是本申请实施例提供的对象信息展示的界面示意图;
图14是本申请实施例提供的信息展示装置的结构示意图;
图15为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
基于上述对本申请实施例中涉及的名词和术语的解释,下面说明本申请实施例提供的信息展示系统,参见图1A,图1A是本申请实施例提供的信息展示系统的一个可选的架构示意图,为实现支撑一个示例性应用,终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。在实际实施时,终端上设置有客户端,如视频客户端,浏览器客户端,新闻客户端,教育客户端等,以用于视频的播放。
终端(如400-1),用于在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;发送携带候选视频帧图像的对象识别请求至服务器200;
这里的对象识别指令可以基于终端呈现的对象识别功能项触发,或者也可以基于终端上的对象识别按键触发,这里不对对象识别指令的触发方式进行限定;
服务器200,用于对候选视频帧图像进行目标对象识别,得到目标对象的识别结果,基于识别结果,获取目标对象的对象信息,并将目标对象的对象信息发送给终端;
终端,用于展示目标对象的对象信息。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,ContentDelivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、电视终端、车载终端等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图1B,图1B是本申请实施例提供的信息展示系统的一个可选的架构示意图,为实现支撑一个示例性应用,控制设备(比如控制设备500-1或者控制设备500-2),通过建立与终端600的通信连接,实现数据传输,如终端为电视终端时,通过电视终端包括的射频模块建立与电视终端的通信连接,以通过无线通信方式实现数据传输。
在实际应用中,该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、电视终端(包括互联网电视一体机、机顶盒+电视机等)、车载终端等,该控制设备包括但不限于键盘、遥控器、手机终端或者其他手持终端。终端600中可以设置有客户端,比如视频播放客户端,浏览器客户端,新闻客户端,教育客户端等,以用于视频的播放。
控制设备,用于在终端600播放视频的过程中,发送针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令至终端600;
终端600,用于响应于对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;对候选视频帧图像进行目标对象识别,得到识别结果,并基于识别结果,展示目标对象的对象信息。
基于上述对本申请实施例的信息展示系统说明,下面说明本申请实施例提供的信息展示方法。参见图2,图2是本申请实施例提供的信息展示方法的流程示意图;在一些实施例中,该信息展示方法可由终端单独实施,或由终端和服务器协同实施,以终端单独实施为例,本申请实施例提供的信息展示方法包括:
步骤201:终端在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令。
在实际实施时,终端通过显示屏呈现播放的视频,在视频播放的过程中,当用户想要了解当前播放时间点对应的视频帧图像中的目标对象时,可以触发针对该目标对象的对象识别指令。这里的当前播放时间点为终端在接收到对象识别指令时,视频所播放到的时间点,例如,当接收到对象识别指令时,视频播放了30:01,那么当前播放时间点就是30:01。
这里,对象识别指令可以是基于终端本身触发,例如,终端可以呈现用于触发对象识别指令的对象识别功能项,当用户触发该对象识别功能项时,终端接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;或者,终端上设置有用于触发对象识别指令的实体按键,当用户触发该实体按键时,终端接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;或者,终端还可以接收用户的语音内容,对语音内容进行识别,当语音内容用于指示触发对象识别指令,终端接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令。
在一些实施例中,对象识别指令还可以由控制设备发送给终端的,这里,控制设备是用于控制终端进行视频播放的辅助设备,例如,当终端为电视终端时,控制设备可以为遥控设备(如遥控器、手机终端或者其他手持终端),用户通过遥控设备触发针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令,然后由遥控设备将对象识别指令发送给终端;当终端为台式计算机时,控制设备可以为台式计算机的键盘、鼠标等,如用户可以触发键盘上的用于触发对象识别指令的按键,来触发针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令,然后由键盘将对象识别指令发送给台式计算机。
在一些实施例中,可以通过以下方式接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令:接收到控制设备发送的针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;其中,对象识别指令基于针对控制设备上的对象识别按键触发。
在实际实施时,控制设备上设置有对象识别按键,控制设备在接收到针对对象识别按键的触发操作后,向终端发送对象识别指令,这里的对象识别指令可以以调制信号的形式发送,也即控制设备向终端发送携带对象识别指令的调制信号,终端在接收到调制信号后,对该调制信号进行解调处理,以得到接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令。
在一些实施例中,控制设备上还可以设置触摸区域,用户可以在触摸区域执行滑动操作,终端获取滑动操作对应的滑动轨迹;基于滑动轨迹,确定该滑动轨迹用于触发对象识别指令时,控制设备将针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令发送至终端,终端接收到该对象识别指令。
在一些实施例中,控制设备还可以接收到通过控制设备的语音功能按键输入的语音内容,比如用户可以通过长按语音功能按钮,开启控制设备的语音采集功能,从而使得控制设备可以接收到用户输入的语音内容;当语音内容用于触发对象识别指令时,控制设备将针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令发送至终端,终端接收到该对象识别指令。
在一些实施例中,若当前播放时间点对应的视频帧图像中仅包括一个对象,那么该对象为目标对象,若当前播放时间点对应的视频帧图像中包括多个对象,那么需要从多个对象中确定出一个或多个作为目标对象,或者将所有对象都作为目标对象,也即目标对象的数量为一个或者多个。
在实际实施时,当需要多个对象中确定出一个作为目标对象时,可以基于用户的选择,将用户所选择的对象作为目标对象,也可以由终端根据相应的选取规则选择,如从中选择人脸区域最大的对象作为目标对象;还可以由终端随机选择。
在一些实施例中,终端在接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令之前,还可以响应于对象识别开始指令,当当前播放时间点对应的视频帧图像中包含至少两个对象时,呈现目标对象的选择界面;接收到基于目标对象的选择界面触发的选取操作,将选取操作所对应的对象作为目标对象。
在实际实施时,用户可以先触发对象识别开始指令,终端在接收到对象识别开始指令时,对当前播放时间点对应的视频帧图像中的对象数量进行检测,当检测到当前播放时间点对应的视频帧图像中的对象数量为两个或两个以上时,呈现目标对象的选择界面,以使用户可以基于目标对象的选择界面,执行目标对象的选取操作,将选取操作所对应的对象作为目标对象。在确定目标对象之后,终端可以直接自动触发对象识别指令,也可以是由用户触发对象识别指令。
在实际应用中,终端可以将当前播放时间点对应的视频帧图像发送给服务器,服务器对当前播放时间点对应的视频帧图像进行图像识别处理,当识别到当前播放时间点对应的视频帧图像中包含一个对象时,将该对象确定为目标对象;当识别到当前播放时间点对应的视频帧图像中包含多个对象时,发送选择界面的呈现指令至终端,终端呈现目标对象的选择界面。
在一些实施例中,终端可以在选择界面中呈现当前播放时间点对应的视频帧图像,并在该视频帧图像中各个对象的相应位置呈现对象选择按键,当用户想要了解某一对象的信息时,可点击该对象对应的对象选择按键,进而触发选取操作,终端接收到该选取操作,将该选取操作所指示选择的对象作为目标对象。
参见图3,图3为本申请实施例提供的目标对象的选择界面示意图,当前播放时间点对应的视频帧图像中包含2个对象,每个对象的旁边呈现有相应的对象选择按键,当用户点击指示选择右侧女生对应的对象选择按键301时,则将右侧女生作为目标对象。
在一些实施例中,当当前播放时间点对应的视频帧图像中包含至少两个对象时,可以通过控制设备实现目标对象的选择,也即通过控制设备触发选取操作,然后由控制设备将选取指令发送给终端,终端将选取指令所指示的对象作为目标对象。
参见图4,图4是本申请实施例提供的目标对象的选择界面示意图,当前播放时间点对应的视频帧图像中包含3个对象,终端可以其中某一个对象所处位置呈现对象选择框,如第一对象;用户可以通过控制设备控制对象选择框移动,如终端可以通过控制设备触发选取操作,控制设备发送携带相应的选择指示信息的调制信号至终端,终端对调制信号进行解调后,得到选取指令,控制选择框移动至第二对象所处位置;当对象选择框移动至用户想要选择的对象所处的位置时,通过点击确定按键来触发确定选取操作,控制设备发送携带选取指令的调制信号至终端,终端接收到该调制信号,对调制信号进行解调后,将当前对象选择框所对应的对象作为目标对象。
步骤202:响应于对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像。
这里,目标播放时间点与当前播放时间点之间的时间间隔满足间隔条件。
在实际实施时,终端可以将当前播放时间点发送至服务器,以使服务器基于当前播放时间点,确定与当前播放时间点关联的至少一个目标播放时间点,然后服务器基于至少一个目标播放时间点进行截图处理,得到各目标播放时间对应的视频帧图像;最后服务器将得到的视频帧图像发送给终端,以使终端获取至少一个目标播放时间点对应的视频帧图像。
当终端获取有完整的视频时,也可以由终端执行截图处理,也即终端基于至少一个目标播放时间点进行截图处理,得到各目标播放时间对应的视频帧图像。
在一些实施例中,当至少一个目标播放时间点包括第一数量的后向播放时间点及第二数量的前向播放时间点时,可以通过以下方式确定目标播放时间点:获取目标时间间隔;基于目标时间间隔,从目标播放时间点开始向后,每隔目标时间间隔,获取一个后向播放时间点作为目标播放时间点,直至获取到第一数量的后向播放时间点;基于目标时间间隔,从目标播放时间点开始向前,每隔目标时间间隔,获取一个前向播放时间点作为目标播放时间点,直至获取的第二数量的前向播放时间点,以得到至少一个前向播放时间点。
在实际实施时,在获取目标播放时间点时,可以是等间隔获取的。这里可以预设目标时间间隔、第一数量和第二数量,例如,当目标时间间隔为200ms,第一数量为7,第二数量为2时,以当前播放时间点为基准,向前每隔200ms确定一个前向播放时间点,直至确定了7个前向播放时间点;然后以当前播放时间点为基准,向后每隔200ms确定一个后向播放时间点,直至确定了2个后向播放时间点,那么共得到9个目标播放时间点。
在一些实施例中,可以通过以下方式确定目标播放时间点:确定包含当前播放时间点的播放时间段;从播放时间段中选取至少一个播放时间点,作为目标播放时间点。
在实际实施时,在获取目标播放时间点,可以是从包含当前播放时间点的播放时间段内随机获取的,例如,当前播放时间点为30:01时,可以确定一个包含当前播放时间点的播放时间段,如30:00-30:02,那么从30:00-30:02选取至少一个播放时间点作为目标播放时间点,这里目标播放时间点的数量可以是预先设置的,如当目标播放时间点的数量为5个时,从30:00-30:02随机选取5个播放时间点作为目标播放时间,需要说明的是,这里目标播放时间应该不同于当前播放时间点。
在实际应用中,在确定播放时间段时,播放时间段的前后端点到当前播放时间点之间的时间间隔可以是相同的,也可以是不同的,如当前播放时间点为30:01时,播放时间段可以为30:00-30:02,也可以为30:00-30:03。
步骤203:从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像。
在实际实施时,这里的视频识别条件可以是视频帧图像中的目标对象的人脸区域大小满足条件,也可以是视频帧图像中的目标对象的清晰度满足条件,还可以是其它视频识别条件,这里不做限定。
在一些实施例中,可以通过以下方式筛选出满足视频识别条件的视频帧图像作为候选视频帧图像:确定获取的各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度;从获取的视频帧图像中,筛选出相似度达到相似度阈值的视频帧图像;从相似度达到相似度阈值的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像。
这里,若某一视频帧图像与当前播放时间点对应的视频帧图像之间的相似度未达到相似度阈值,那么说明该视频帧图像相对于当前播放时间点对应的视频帧图像,可能已经进行了镜头切换,或该视频帧图像中已经不包含目标对象,因此没有参考价值,需要将其删除。在实际实施时,确定获取的各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度,然后,分别将各相似度与相似度阈值进行比较,以筛选出相似度达到相似度阈值的视频帧图像,在确定候选视频帧图像时,仅从相似度达到相似度阈值的视频帧图像及当前播放时间点对应的视频帧图像中筛选。
在实际应用中,可以基于整个视频帧图像进行相似度匹配,也可以仅基于视频帧图像中的人脸区域进行相似度匹配,例如,从各视频帧图像中截取对应人脸区域的图像;将各视频帧图像中截取对应人脸区域的图像、与当前播放时间点对应的视频帧图像对应人脸区域的图像进行相似度匹配,得到各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度。
这里,当基于视频帧图像中的人脸区域进行相似度匹配时,若某一视频帧图像中对应人脸区域的图像、与当前播放时间点对应的视频帧图像对应的人脸区域的图像之间的相似度达到相似度阈值,那么即使进行了镜头切换,该视频帧图像中也包含目标对象,那么该视频帧图像也可以作为候选视频帧图像,来实现目标对象的识别。
在一些实施例中,可以通过以下方式从获取的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像:确定获取的各视频帧图像中目标对象的清晰度、以及当前播放时间点对应的视频帧图像中目标对象的清晰度;按照清晰度从大到小的顺序,对获取的视频帧图像及当前播放时间点对应的视频帧图像进行排序,得到第一视频帧图像序列;从第一视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
在实际实施时,可能会由于虚化等原因,导致视频帧图像中目标对象的清晰度较低,不利于目标对象的识别,进而导致目标对象识别的准确率低,基于此,终端对获取的各视频帧图像及当前播放时间点对应的视频帧图像中目标对象所对应的部分进行清晰度检测,以获取各视频帧图像中目标对象的清晰度,进而根据清晰度的高低,选取清晰度最高的目标数量的视频帧图像作为候选视频帧图像。例如,当目标数量为2时,根据清晰度从大到小进行排序,对获取的视频帧图像进行排序,得到第一视频帧图像序列;从第一视频帧图像序列中获取第一个视频帧图像和第二个视频帧图像,作为候选视频帧图像。这里,目标数量也可以为1,那么确定清晰度最大的视频帧图像作为候选视频帧图像。
需要说明的是,这里也可以按照清晰度从小到大的顺序进行排序,那么在选取候选视频帧图像时,从最后一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
在一些实施例中,也可以设置清晰度阈值,从获取的视频帧图像中,筛选出清晰度达到清晰度阈值的图像作为视频帧图像。
在一些实施例中,可以通过以下方式从获取的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像:确定获取的各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;按照人脸区域尺寸从大到小的顺序,对获取的视频帧图像进行排序,得到第二视频帧图像序列;从第二视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
在实际实施时,人脸区域尺寸越大,相应的目标对象更容易被识别,基于此,对各视频帧图像中目标对象的人脸区域进行识别,这里仅仅需要识别人脸区域尺寸,而无需对目标对象的对象信息进行具体的识别。得到各视频帧图像的人脸区域尺寸后,选取人脸区域尺寸最大的目标数量的视频帧图像作为候选视频帧图像,例如,当目标数量为2时,根据人脸区域尺寸从大到小进行排序,对获取的视频帧图像进行排序,得到第二视频帧图像序列;从第二视频帧图像序列中获取第一个视频帧图像和第二个视频帧图像,作为候选视频帧图像。这里,目标数量也可以为1,那么确定人脸区域尺寸最大的视频帧图像作为候选视频帧图像。
在一些实施例中,可以通过以下方式从获取的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像:确定获取的各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;获取人脸区域尺寸阈值;从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出人脸区域尺寸达到人脸区域尺寸阈值的视频帧图像作为候选视频帧图像。
在实际实施时,可以预设人脸区域阈值,将各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸与人脸区域尺寸阈值进行比较,若某一视频帧图像的人脸区域尺寸达到人脸区域尺寸阈值,则将该视频帧图像作为候选视频帧图像。
这里,若不存在达到人脸区域尺寸阈值的视频帧图像,则可以将人脸区域尺寸最大的视频帧图像作为候选视频帧图像。
步骤204:对候选视频帧图像进行目标对象识别,得到识别结果,并基于识别结果,展示目标对象的对象信息。
这里,候选视频帧图像的数量可以为一个或者多个,当候选视频帧图像为一个时,对该候选视频帧图像中的目标对象进行识别,得到识别结果,这里,识别结果用于指示目标对象所对应的目标实体,具体地,可以用于指示目标对象所对应的人或物,在一些实施例中,该识别结果可以是目标对象的标识信息,如,目标对象的名称,当目标对象对应的目标实体为某个明星人物时,相应的,识别结果可以为该明星人物的名字或别名;当候选视频帧图像为多个时,分别对各候选视频帧图像进行目标对象识别,得到对应各候选视频帧图像的识别结果,然后结合多个候选视频帧图像的识别结果,得到最终的识别结果,例如,可以将最多候选视频帧图像的识别结果作为目标对象的识别结果,如共有5个候选视频帧图像,其中一个候选视频帧图像的识别结果为A,另外四个候选视频帧图像的识别结果为B,那么确定B为目标对象的识别结果。
在实际实施时,终端在得到目标对象的识别结果后,获取与识别结果对应的对象信息,在终端的显示屏上呈现该对象信息,比如,可以通过悬浮窗口在视频画面中呈现,还可以通过预设透明度的蒙层在视频画面中呈现。参见图5,图5是本申请实施例提供的目标对象的对象信息的呈现示意图。这里,当识别到目标对象为“范X”时,通过悬浮窗口在视频画面中呈现目标对象“范X”的对象信息501,包括职业、姓名、身高体重等对象信息。
在一些实施例中,当目标对象的数量为多个时,可以同时呈现多个目标对象的对象信息,或者,可以呈现一个目标对象的对象信息,根据用户的选择操作,再对呈现的目标对象的对象信息进行切换。
在一些实施例中,可以通过以下方式对所述候选视频帧图像进行目标对象识别:对候选视频帧图像中的目标图像进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;获取对应视频的对象列表;基于对象列表中各对象在视频中的重要程度,对各候选识别结果对应的可信度进行加权处理,得到各候选识别结果对应的加权后的可信度;将加权后的可信度最高的候选识别结果作为目标对象的识别结果。
这里,对于电影、电视剧等视频,通常存在对象列表(如演员列表),目标对象通常为对象列表中的对象,基于此,在对目标对象进行识别时,可以结合对象列表,以提升目标对象识别的准确性。
在实际实施时,在对目标图像中的目标对象进行人脸识别时,通常会得到对应目标对象的多个可能的识别结果,也即多个候选对象信息以及相应的可信度,例如,对于同一人脸,其识别结果可能为:候选识别结果A1,可信度90%,候选识别结果A2,可信度65%,候选识别结果A3,可信度50%;这里,根据对象列表中各个对象在视频中的重要程度,设置各对象对应的权值,以根据各对象对应的权重,对相应候选识别结果的可信度进行加权处理,这里,重要程度越高,权值越大,例如,A1、A2、A3均为对象列表中的对象,A1对应的权值为2,A2对应的权值为1.5,A3对应的权值为1,那么,加权后A1的可信度180%,加权后A2的可信度97.5%,加权后A3的可信度为50%。需要说明的是,若某一候选识别结果不是对象列表中的对象,那么,该候选识别结果的权值为0。
在一些实施例中,可以通过以下方式基于对象列表中各对象在视频中的重要程度,对各候选识别结果对应的可信度进行加权处理:获取对象列表中各对象在视频中出现的时长;根据各对象在视频中出现的时长,确定各对象的权值;基于各候选识别结果对应对象的权值,对候选对象对应的可信度进行加权处理。
在实际上实施时,可以基于各对象在视频中出现的时长来确定该对象在视频中的重要程度,这里对象在视频中出现的时长越长,则其在视频中越重要,也即权值与对象在视频中出现的时长应该呈正比。
在一些实施例中,还可以根据对象列表中对象的排列顺序,来确定对象在视频中的重要程度,对象在对象列表中位置越靠前,说明该对象在视频中越重要,例如,对象列表中包括S1,S2,…,S10,共10个对象,这里可以按照顺序,确定各对象对应的权值,如2.0,1.9,…,1.1。
在一些实施例中,可以通过以下方式对候选视频帧图像进行目标对象识别:对候选视频帧图像中的目标图像进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;获取对应视频的对象列表,并分别将各候选识别结果与对象列表中的对象进行匹配;从至少两个候选识别结果中,筛选出存在相匹配的对象的候选识别结果;从筛选得到的候选识别结果中,确定可信度最高的候选识别结果为目标对象的识别结果。
在实际实施时,目标对象必然为对象列表中的对象,基于此,可以根据对象列表对候选对象信息进行筛选,若对象列表中不存在与某一候选识别结果对应的对象,那么该候选识别结果必然不是目标对象的识别结果,基于此,从少两个候选识别结果中,筛选出存在相匹配的对象的候选识别结果;然后再从筛选出的候选识别结果中,确定出可信度最高的候选识别结果,作为目标对象的识别结果。
本申请在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;对候选视频帧图像进行目标对象识别,得到识别结果,并基于所述识别结果,展示目标对象的对象信息;如此,由于本申请不仅获取了当前播放时间点对应的视频帧图像,还获取了当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像,使得筛选出的候选视频帧图像更有利于对象的识别,提升了目标对象识别的准确性。
图6是本申请实施例提供的信息展示方法的流程示意图,参见图6,本申请实施例提供的信息展示方法包括:
步骤601:终端在视频播放的过程中,接收到控制设备发送的对象识别指令。
这里,对象识别指令用于指示对当前播放时间点对应的视频帧图像中目标对象进行识别。控制设备是用于控制终端进行视频播放的辅助设备,例如,终端为电视终端时,控制设备可以为遥控设备(如遥控器、手机终端或者其他手持终端),用户通过遥控设备触发针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令,然后由遥控设备将对象识别指令发送给终端;当终端为台式计算机时,控制设备可以为台式计算机的键盘、鼠标等,如用户可以触发键盘上的用于触发对象识别指令的按键,来触发针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令,然后由键盘将对象识别指令发送给台式计算机。
作为示例,当终端为电视终端,控制设备为遥控器时,用户通过遥控器触发针对当前播放时间点对应的视频帧图像中目标对象的对象识别操作,遥控器发送携带对象识别指令的调制信号,终端在接收到调制信号后,对该调制信号进行解调处理,以得到接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令。
在一些实施例中,控制设备上设置有对象识别按键,控制设备在接收到针对对象识别按键的触发操作后,向终端发送对象识别指令。
在一些实施例中,控制设备上还可以设置触摸区域,用户可以在触摸区域执行滑动操作,终端获取滑动操作对应的滑动轨迹;基于滑动轨迹,确定该滑动轨迹用于触发对象识别指令时,控制设备将针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令发送至终端,终端接收到该对象识别指令。
在一些实施例中,控制设备还可以接收到通过控制设备的语音功能按键输入的语音内容,比如用户可以通过长按语音功能按钮,开启控制设备的语音采集功能,从而使得控制设备可以接收到用户输入的语音内容;当语音内容用于触发对象识别指令时,控制设备将对象识别指令发送至终端,终端接收到该对象识别指令。
步骤602:响应于对象识别指令,展示目标对象的对象信息。
其中,所述对象信息为对当前播放时间点对应的视频帧图像、及与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像中,满足视频识别条件的视频帧图像,进行目标对象识别得到的。
在实际应用中,终端响应于对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;基于候选视频帧图像,对目标对象进行识别,得到识别结果;获取与识别结果对应的对象信息,并展示获取的对象信息。
应用本申请上述实施例,由于本申请不仅获取了当前播放时间点对应的视频帧图像,还获取了当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像,使得筛选出的候选视频帧图像更有利于对象的识别,提升了目标对象识别的准确性。
下面继续说明本申请实施例提供的信息展示方法的流程示意图进行说明。本申请实施例提供的信息展示方法可以由控制设备、电视终端及服务器协同实施,参见图7,图7是本申请实施例提供的信息展示方法的流程示意图,本申请实施例提供的信息展示方法包括:
步骤701:电视终端播放视频。
步骤702:控制设备接收到针对对象识别按键的触发操作,响应于触发操作,发送携带对象识别指令的调制信号至电视终端。
步骤703:电视终端发送当前播放时间点至服务器。
步骤704:服务器获取与当前播放时间点相关联的多个目标播放时间点。
步骤705:服务器基于当前播放时间点,进行截图处理,得到当前播放时间点对应的视频帧图像,并基于多个目标播放时间点进行截图处理,得到至少一个目标播放时间点对应的视频帧图像。
步骤706:服务器获取各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度。
步骤707:从获取的视频帧图像中,筛选出相似度达到相似度阈值的视频帧图像。
步骤708:获取筛选得到的各视频帧图像中目标对象的清晰度、以及当前播放时间点对应的视频帧图像中目标对象的清晰度。
步骤709:将清晰度最高的视频帧图像作为候选视频帧图像。
步骤710:对候选视频帧图像中的目标对象进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度。
步骤711:获取对应视频的对象列表。
步骤712:基于对象列表中各对象在视频中的重要程度,对各候选识别结果对应的可信度进行加权处理,得到各候选识别结果对应的加权后的可信度。
步骤713:将加权后的可信度最高的候选识别结果作为目标对象的识别结果,查找与识别结果对应的对象信息,并发送给电视终端。
步骤714:展示接收到的对象信息。
应用本申请上述实施例,由于本申请不仅获取了当前播放时间点对应的视频帧图像,还获取了当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像,使得筛选出的候选视频帧图像更有利于对象的识别,提升了目标对象识别的准确性。
下面继续说明本申请实施例提供的信息展示方法的流程示意图进行说明。本申请实施例提供的信息展示方法可以由终端及服务器协同实施,参见图8,图8是本申请实施例提供的信息展示方法的流程示意图,本申请实施例提供的信息展示方法包括:
步骤801:终端播放视频,并呈现对象识别功能项。
步骤802:响应于针对对象识别功能项的触发操作,发送当前播放时间点至服务器。
步骤803:服务器获取与当前播放时间点相关联的多个目标播放时间点。
步骤804:服务器基于当前播放时间点,进行截图处理,得到当前播放时间点对应的视频帧图像,并基于多个目标播放时间点进行截图处理,得到至少一个目标播放时间点对应的视频帧图像。
步骤805:确定获取的各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度。
步骤806:从获取的视频帧图像中,筛选出相似度达到相似度阈值的视频帧图像。
步骤807:获取筛选得到的各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像中目标对象的人脸区域尺寸。
步骤808:将人脸区域尺寸最大的视频帧图像作为候选视频帧图像。
步骤809:对候选视频帧图像中的目标对象进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度。
步骤810:获取对应视频的对象列表,并分别将各候选识别结果与对象列表中的对象进行匹配。
步骤811:从至少两个候选对象信息中,筛选出存在相匹配的对象的候选识别结果。
步骤812:从筛选得到的候选对象信息中,确定可信度最高的候选识别结果为目标对象的识别结果,查找与识别结果对应的对象信息,并发送给终端。
步骤813:展示接收到的对象信息。
应用本申请上述实施例,由于本申请不仅获取了当前播放时间点对应的视频帧图像,还获取了当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像,使得筛选出的候选视频帧图像更有利于对象的识别,提升了目标对象识别的准确性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。以终端为电视终端为例说明本申请实施例提供的信息展示方法,图9是本申请实施例提供的信息展示方法的流程示意图,参见图9,本申请实施例提供的信息展示方法包括:
步骤901:视频客户端播放视频。
步骤902:遥控设备发送对象识别指令至视频客户端。
在实际实施时,电视终端播放视频,用户在观看视频的过程中,当出现人脸画面时,可以通过遥控设备上的对象识别按键触发对象识别功能(AI魔镜功能),遥控设备发送对象识别指令至电视终端。
这里,对象识别指令用于指示对当前播放时间点对应的视频帧图像中的目标对象进行识别,其中,目标对象的数量可以为一个或者多个。
步骤903:视频客户端发送当前播放时间点及影片信息至电视后台。
这里,当前播放时间点指的是接收到对象识别指令时,视频所播放至的播放时间点。
步骤904:电视后台发送视频帧图像的获取请求至截图后台。
这里,视频帧图像的获取请求携带有当前播放时间点及影片信息。
步骤905:基于对象播放时间点及影片信息进行截图处理,得到候选视频帧图像。
对于图像识别来说,传入图像的质量与识别率有着直接的联系。发送给截图后台的当前播放时间点的单位是毫秒,由于视频画面变化,很有可能在用户看到画面到遥控设备触发识别功能时,画面已经变化了。为了弥补这里的不足,采用服务器截多张图的方式进行改进。在实际实施时,图10是本申请实施例提供的候选视频帧图像的获取过程的流程示意图,参见图10,本申请实施例提供的候选视频帧图像的获取过程包括:
步骤1001:确定当前播放时间点T1。
步骤1002:基于T1进行截图处理,得到对应T1的视频帧图像P1。
步骤1003:根据T1生成目标播放时间点T01-T09。
这里,以T1为基准时间,向前每隔200ms确定一个目标播放时间点,共确定7个目标播放时间点,即T01-T07;向后每隔200ms截图一张,共截图2张,即T08-T09。
步骤1004:基于T01-T09进行截图处理,得到对应T01-T09的视频帧图像P01-P09。
步骤1005:删除P01-P09中与P1相似度未达到相似度阈值的视频帧图像。
这里,将P101-P109都与基准图P1做对比,删除与P1相似度极低的视频帧图像(相似度未达到相似度阈值的视频帧图像),相似度低代表画面有可能已经进行了镜头切换,无参考价值。
步骤1006:从剩余的视频帧图像中筛选出人脸区域尺寸最大的视频帧图像作为候选视频帧图像。
将剩余的视频帧图像,依次进行人脸区域识别,无需做具体对象识别,只需分析人脸区域,将人脸区域尺寸最大的图片P作为候选视频帧图像。
步骤906:截图后台将获取的候选视频帧图像的统一资源定位标志(URL,UniformResource Locator)发送给电视后台。
步骤907:电视后台发送候选视频帧图像的URL至视频客户端。
步骤908:视频客户端发送携带有候选视频帧图像的URL的对象识别请求至电视后台。
步骤909:电视后台发送对象识别请求至识别后台。
步骤910:识别后台基于候选候选视频帧图像、及视频的对象列表对目标对象进行识别。
在实际实施时,每个视频都是由对象列表(演员列表)的,视频与对象列表的关联关系如下:
1个VID(视频id)对应多个CID(专辑id);
1个CID(专辑id)对应多个VID(视频id);
1个CID(专辑id)对应多个StarID(对象id);
由此可知,只要获取CID,就能够获取视频的对象列表,在实际应用中,对象识别请求中携带有候选视频帧图像的URL及CID,识别后台可以基于CID获取对象列表。
图12是本申请实施例提供的对象识别过程的流程示意图,参见图12,本申请实施例提供的对象识别过程包括:
步骤1201:获取候选视频帧图像的URL及CID。
步骤1202:根据CID获取对象列表。
步骤1203:对对象列表中对象的权值进行初始化。
根据对象列表,为每个对象,从主演到配角依次分配权值;例如,对象列表中有S1,S2,…,S10个对象,则其对应的加权值为2.0,1.9,…,1.1。
步骤1204:根据候选视频帧图像的URL,对候选视频帧图像进行人脸识别。
这里,通过人脸识别接口对候选视频帧图像进行人脸识别,该人脸识别接口基于深度学习算法和海量数据集,对图片和视频源中面部特征进行提取分析。图11是本申请实施例提供的人脸识别接口的示例图,参见图11,该人脸识别接口可实现精准的人脸检测和人脸识别,涵盖人脸检测与分析、五官定位、人脸对比与搜索、跨年龄人脸识别等,为安防监控、人脸美化、智能相册分类等应用场景提供有力的技术支持。
例如,对于同一个候选视频帧图像,其候选识别结果为:识别结果A1,可信度90%,识别结果A2,可信度65%,识别结果A3,可信度50%。
步骤1205:获取识别得到的候选识别结果及相应的可信度。
步骤1206:将可信度与加权值做关联处理。
在实际实施时,判断A1、A2、A3是否与S1-S10中的对象一致,如果一致,则将对应的可信度与加权值相乘得到最终的可信度。
步骤1207:确定加权后的可信度最大的候选识别结果为目标对象的识别结果。
步骤911:识别后台发送识别结果至电视后台。
步骤912:电视后台根据识别结果,获取目标对象的对象信息。
在实际实施时,电视后台根据识别结果,查找目标对象的对象信息,如职业、身高、生日等。
步骤913:电视后台将目标对象的对象信息返回给视频客户端。
步骤914:展示目标对象的对象信息。
这里,当目标对象的数量为多个时,可以同时展示多个目标对象的对象信息,或者,也可以展示一个目标对象的对象信息,再基于用户的切换操作,切换展示的目标对象的对象信息。例如,图13是本申请实施例提供的对象信息展示的界面示意图,参见图13,当前播放时间点对应的视频帧图像中包括两个目标对象,呈现其中一个目标对象的对象信息1301,包括姓名、职业、身高、生日等;同时呈现另一目标对象的姓名,用于指示执行对象信息的切换,当接收到切换操作后,呈现另一目标对象的对象信息。
应用本申请上述实施例,能够提升目标对象的识别准确率和成功率,进而提升对象信息展示的准确性。
下面继续说明本申请实施例提供的信息展示装置。参见图14,图14是本申请实施例提供的信息展示装置的结构示意图,本申请实施例提供的视频的播放装置包括:
第一接收模块410,用于在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
获取模块420,用于响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;
筛选模块430,用于从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;
第一展示模块440,用于对所述候选视频帧图像进行目标对象识别,得到识别结果,并基于所述识别结果,展示目标对象的对象信息。
在一些实施例中,所述第一接收模块410,还用于接收到控制设备发送的针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
其中,对象识别指令基于针对所述控制设备上的对象识别按键触发。
在一些实施例中,所述第一接收模块410,还用于响应于对象识别开始指令,当所述当前播放时间点对应的视频帧图像中包含至少两个对象时,呈现目标对象的选择界面;
接收到基于所述目标对象的选择界面触发的选取操作,将所述选取操作所对应的对象作为目标对象。
在一些实施例中,当所述至少一个目标播放时间点包括第一数量的后向播放时间点及第二数量的前向播放时间点时,所述第一接收模块410,还用于获取目标时间间隔;
基于所述目标时间间隔,从所述目标播放时间点开始向后,每隔目标时间间隔,获取一个后向播放时间点作为目标播放点,直至获取到第一数量的后向播放时间点;
基于所述目标时间间隔,从所述目标播放时间点开始向前,每隔目标时间间隔,获取一个前向播放时间点作为目标播放时间点,直至获取的第二数量的前向播放时间点。
在一些实施例中,所述获取模块420,还用于确定包含所述当前播放时间点的播放时间段;
从所述播放时间段中选取至少一个播放时间点,作为目标播放时间点。
在一些实施例中,所述获取模块420,还用于确定获取的各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度;
从获取的所述视频帧图像中,筛选出相似度达到相似度阈值的视频帧图像;
从相似度达到相似度阈值的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像。
在一些实施例中,所述筛选模块430,还用于确定获取的各视频帧图像中目标对象的清晰度、以及当前播放时间点对应的视频帧图像中目标对象的清晰度;
按照人脸清晰度从大到小的顺序,对获取的视频帧图像及当前播放时间点对应的视频帧图像进行排序,得到第一视频帧图像序列;
从所述第一视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
在一些实施例中,所述筛选模块430,还用于确定获取的各视频帧图像中目标对象的人脸尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;
按照人脸区域尺寸从大到小的顺序,对获取的视频帧图像及当前播放时间点对应的视频帧图像进行排序,得到第二视频帧图像序列;
从所述第二视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
在一些实施例中,所述筛选模块430,还用于确定获取的获取各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;
获取人脸区域尺寸阈值;
从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出人脸区域尺寸达到所述人脸区域尺寸阈值的视频帧图像作为候选视频帧图像。
在一些实施例中,所述第一展示模块440,还用于对所述候选视频帧图像中的目标图像进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;
获取对应所述视频的对象列表;
基于所述对象列表中各对象在所述视频中的重要程度,对各候选识别结果对应的可信度进行加权处理,得到各候选识别结果对应的加权后的可信度;
将加权后的可信度最高的候选识别结果作为目标对象的识别结果。
在一些实施例中,所述第一展示模块440,还用于获取所述对象列表中各对象在所述视频中出现的时长;
根据各对象在所述视频中出现的时长,确定各对象的权值,
基于各候选识别结果对应对象的权值,对所述候选对象对应的可信度进行加权处理。
在一些实施例中,所述第一展示模块440,还用于对所述候选视频帧图像中的目标图像进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;
获取对应所述视频的对象列表,并分别将各候选识别结果与所述对象列表中的对象进行匹配;
从至少两个候选对象信息中,筛选出存在相匹配的对象的候选识别结果;
从筛选得到的候选识别结果中,确定可信度最高的候选识别结果为目标对象的识别结果。
本申请实施例提供一种信息展示装置,包括:
第二接收模块,用于在视频播放的过程中,接收到控制设备发送的对象识别指令,所述对象识别指令用于指示对当前播放时间点对应的视频帧图像中目标对象进行识别;
第二展示模块,用于响应于所述对象识别指令,展示所述目标对象的对象信息;
其中,所述对象信息为对当前播放时间点对应的视频帧图像、及与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像中,满足视频识别条件的视频帧图像,进行目标对象识别得到的。
本申请实施例还提供一种计算机设备,该计算机设备可以为终端或服务器,参见图15,图15为本申请实施例提供的计算机设备的结构示意图,本申请实施例提供的计算机设备包括:
存储器550,用于存储可执行指令;
处理器510,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息展示方法。
这里,处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中还可包括至少一个网络接口520和用户接口530。计算机设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图15中将各种总线都标为总线系统540。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的信息展示方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图2示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(H TML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种信息展示方法,其特征在于,所述方法包括:
在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;
从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;
对所述候选视频帧图像进行目标对象识别,得到识别结果,并基于所述识别结果,展示所述目标对象的对象信息。
2.如权利要求1所述的方法,其特征在于,所述接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令,包括:
接收到控制设备发送的针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
其中,对象识别指令基于针对所述控制设备上的对象识别按键触发。
3.如权利要求1所述的方法,其特征在于,所述接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令之前,所述方法还包括:
响应于对象识别开始指令,当所述当前播放时间点对应的视频帧图像中包含至少两个对象时,呈现目标对象的选择界面;
接收到基于所述目标对象的选择界面触发的选取操作,将所述选取操作所对应的对象作为目标对象。
4.如权利要求1所述的方法,其特征在于,当所述至少一个目标播放时间点包括第一数量的后向播放时间点及第二数量的前向播放时间点时,所述获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像之前,所述方法还包括:
获取目标时间间隔;
基于所述目标时间间隔,从所述目标播放时间点开始向后,每隔目标时间间隔,获取一个后向播放时间点作为目标播放时间点,直至获取到第一数量的后向播放时间点;
基于所述目标时间间隔,从所述目标播放时间点开始向前,每隔目标时间间隔,获取一个前向播放时间点作为目标播放时间点,直至获取到第二数量的前向播放时间点。
5.如权利要求1所述的方法,其特征在于,所述获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像之前,所述方法还包括:
确定包含所述当前播放时间点的播放时间段;
从所述播放时间段中选取至少一个播放时间点,作为目标播放时间点。
6.如权利要求1所述的方法,其特征在于,所述从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像,包括:
确定获取的各视频帧图像与当前播放时间点对应的视频帧图像之间的相似度;
从获取的所述视频帧图像中,筛选出相似度达到相似度阈值的视频帧图像;
从相似度达到相似度阈值的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像。
7.如权利要求1所述的方法,其特征在于,所述从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像,包括:
确定获取的各视频帧图像中目标对象的清晰度、以及当前播放时间点对应的视频帧图像中目标对象的清晰度;
按照所述清晰度从大到小的顺序,对获取的视频帧图像及当前播放时间点对应的视频帧图像进行排序,得到第一视频帧图像序列;
从所述第一视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
8.如权利要求1所述的方法,其特征在于,所述从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像,包括:
确定获取的各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;
按照人脸区域尺寸从大到小的顺序,对获取的视频帧图像及当前播放时间点对应的视频帧图像进行排序,得到第二视频帧图像序列;
从所述第二视频帧图像序列的第一个视频帧图像开始,获取目标数量的视频帧图像作为候选视频帧图像。
9.如权利要求1所述的方法,其特征在于,所述从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像,包括:
确定获取的各视频帧图像中目标对象的人脸区域尺寸、以及当前播放时间点对应的视频帧图像的人脸区域尺寸;
获取人脸区域尺寸阈值;
从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出人脸区域尺寸达到所述人脸区域尺寸阈值的视频帧图像作为候选视频帧图像。
10.如权利要求1所述的方法,其特征在于,所述对所述候选视频帧图像进行目标对象识别,得到识别结果,包括:
对所述候选视频帧图像中的目标对象进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;
获取对应所述视频的对象列表;
基于所述对象列表中各对象在所述视频中的重要程度,对各候选识别结果对应的可信度进行加权处理,得到各候选识别结果对应的加权后的可信度;
将加权后的可信度最高的候选识别结果作为目标对象的识别结果。
11.如权利要求1所述的方法,其特征在于,所述对所述候选视频帧图像进行目标对象进行识别,得到识别结果,包括:
对所述候选视频帧图像中的目标对象进行人脸识别,得到对应目标对象的至少两个候选识别结果及相应的可信度;
获取对应所述视频的对象列表,并分别将各候选识别结果与所述对象列表中的对象进行匹配;
从至少两个候选识别结果中,筛选出存在相匹配的对象的候选识别结果;
从筛选得到的候选识别结果中,确定可信度最高的候选识别结果为目标对象的识别结果。
12.一种信息展示方法,其特征在于,所述方法包括:
在视频播放的过程中,接收到控制设备发送的对象识别指令,所述对象识别指令用于指示对当前播放时间点对应的视频帧图像中目标对象进行识别;
响应于所述对象识别指令,展示所述目标对象的对象信息;
其中,所述对象信息为对当前播放时间点对应的视频帧图像、及与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像中,满足视频识别条件的视频帧图像,进行目标对象识别得到的。
13.一种信息展示装置,其特征在于,所述装置包括:
第一接收模块,用于在视频播放的过程中,接收到针对当前播放时间点对应的视频帧图像中目标对象的对象识别指令;
获取模块,用于响应于所述对象识别指令,获取与当前播放时间点关联的至少一个目标播放时间点对应的视频帧图像;
筛选模块,用于从获取的视频帧图像及当前播放时间点对应的视频帧图像中,筛选出满足视频识别条件的视频帧图像作为候选视频帧图像;
第一展示模块,用于对所述候选视频帧图像进行目标对象识别,得到识别结果,并基于所述识别结果,展示目标对象的对象信息。
14.一种计算机设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的信息展示方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至12任一项所述的信息展示方法。
CN202110183771.9A 2021-02-08 2021-02-08 信息展示方法、装置、计算机设备及计算机可读存储介质 Pending CN114915826A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110183771.9A CN114915826A (zh) 2021-02-08 2021-02-08 信息展示方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110183771.9A CN114915826A (zh) 2021-02-08 2021-02-08 信息展示方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114915826A true CN114915826A (zh) 2022-08-16

Family

ID=82761744

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110183771.9A Pending CN114915826A (zh) 2021-02-08 2021-02-08 信息展示方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114915826A (zh)

Similar Documents

Publication Publication Date Title
CN110784759B (zh) 弹幕信息处理方法、装置、电子设备及存储介质
US20210334325A1 (en) Method for displaying information, electronic device and system
US20130148898A1 (en) Clustering objects detected in video
JP7231638B2 (ja) 映像に基づく情報取得方法及び装置
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN108197336B (zh) 一种视频查找的方法及装置
CN113392236A (zh) 一种数据分类方法、计算机设备及可读存储介质
CN111209431A (zh) 一种视频搜索方法、装置、设备及介质
CN114095749B (zh) 推荐及直播界面展示方法、计算机存储介质、程序产品
CN111144344B (zh) 人物年龄的确定方法、装置、设备及存储介质
CN113411674A (zh) 视频的播放控制方法、装置、电子设备及存储介质
CN112052352B (zh) 视频排序方法、装置、服务器及存储介质
CN111597361B (zh) 多媒体数据处理方法、装置、存储介质及设备
CN115935049A (zh) 基于人工智能的推荐处理方法、装置及电子设备
CN113596574A (zh) 视频处理方法、视频处理装置、电子设备和可读存储介质
CN108024148B (zh) 基于行为特征的多媒体文件识别方法、处理方法及装置
CN117459662A (zh) 一种视频播放方法、识别方法、装置、设备及存储介质
JP2020004410A (ja) メディアベースのコンテンツシェアを容易にする方法、コンピュータプログラム及びコンピューティングデバイス
CN114915826A (zh) 信息展示方法、装置、计算机设备及计算机可读存储介质
CN113537127A (zh) 影片匹配方法、装置、设备及存储介质
CN114268848A (zh) 一种视频生成方法、装置、电子设备及存储介质
CN109756759B (zh) 一种弹幕信息推荐方法和装置
CN113707179A (zh) 一种音频识别方法、装置、设备及介质
CN112165626A (zh) 图像处理方法、资源获取方法、相关设备及介质
CN111915637A (zh) 一种图片展示方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40073947

Country of ref document: HK