CN109756781A

CN109756781A - 数据处理和视频中图像定位方法和装置

Info

Publication number: CN109756781A
Application number: CN201711078679.6A
Authority: CN
Inventors: 高欣羽
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-11-06
Filing date: 2017-11-06
Publication date: 2019-05-14

Abstract

本发明公开了一种数据处理和视频中图像定位方法和装置。其中，该方法包括：获取场景特征，场景特征，用于描述在数据源中用户所需的图像；在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置。本发明解决了由于现有技术在视频播放过程中选择所需片段操作复杂，导致查询效率低的技术问题。

Description

数据处理和视频中图像定位方法和装置

技术领域

本发明涉及互联网技术应用领域，具体而言，涉及一种数据处理和视频中图像定位方法和装置。

背景技术

随着互联网技术的发展，特别是在线媒体平台的多元化，越来越多的视频媒体平台中为保障视频的点击率和用户粉丝的数量逐步提升了视频播放的体验效果。

其中，在现有的视频网站流量过程中，用户在点击想看的视频后，如果想观看该视频中若干片段，则至少需要通过如下方式，选择需要观看的片段，具体如下：

方式一：拖动进度条，在视频播放的过程中，在显示的视频窗中有一个进度条，该进度条用于显示当前视频的播放进度，如果是在线视频，还可以通过该进度条得到当前视频的缓冲程度；如果用户想看该视频中的某个片段，就需要用户手动拖动该进度条，直至到该片段在该视频中的所在位置；

方式二：通过查看缩略图确定需要观看的片段，在视频缓冲完成后，通过在视频显示窗口的进度区的来回滑动，查看在进度区显示的小于视频窗口的小的图窗，获取该帧通信所呈现的片段缩略图；

方式三：通过视频网站人员预先在视频上制作的情节节点选择需要观看的片段，用户通过在进度区域来回滑动，在滑动至各个情节节点的情况下，查看各个情节节点是否为需要观看的片段；

方式四：通过搜索台词搜索视频中对应台词对应的图像，在视频窗中有对应搜索区域，用户通过搜索相关台词，视频后台依据键入的台词在该视频的字幕文件中进行搜索，获取该台词对应的搜索结果和对应的时间点。

但是上述方式在操作过程中繁琐，低效且耗时长，并且有时伴随着受网速带宽影响无法准确获取到用户所需要的视频图像。

针对上述由于现有技术在视频播放过程中选择所需片段操作复杂，导致查询效率低的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种数据处理和视频中图像定位方法和装置，以至少解决由于现有技术在视频播放过程中选择所需片段操作复杂，导致查询效率低的技术问题。

根据本发明实施例的一个方面，提供了一种数据处理方法，包括：获取场景特征，场景特征，用于描述在数据源中用户所需的图像；在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置。

可选的，场景特征包括：时间、图像中的人物、人物所处的环境特征或台词中的一种或至少两组的组合。

可选的，在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置包括：在数据源包括视频的情况下，依据场景特征对每一帧图像进行内容检索；依据内容检索得到的图像信息，获取对应场景特征的图像在视频中的位置。

进一步地，可选的，依据内容检索得到的图像信息，获取对应场景特征的图像在视频中的位置包括：依据内容检索，在视频中查询与场景特征匹配的图像，以及图像对应的时间点；依据图像和图像对应的时间点生成图像信息；依据图像信息获取对应场景特征的对应图像在视频中的位置。

可选的，在该位置显示图像之前，该方法还包括：判断图像是否为用户所需的图像；如果图像是用户所需的图像，获取图像在视频中的时间点；将播放点切换至时间点。

进一步地，可选的，在获取图像在视频中的时间点之前，该方法还包括：若图像包括多帧图像，则获取多帧图像中的第一帧图像、最后一帧图像以及第一帧图像至最后一帧图像的时长。

可选的，在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置包括：在数据源包括视频，且场景特征还包括插曲名称的情况下，依据键入的插曲名称查询视频中各个场景是否存在插曲名称对应的音频；如果查询结果为是，获取插曲名称对应音频在视频中的位置；依据位置提取对应的图像。

可选的，在得到场景特征对应的图像在数据源中的位置之后，该方法还包括：在该位置显示图像。

根据本发明实施例的另一个方面，提供了一种视频中图像定位方法，包括：获取场景特征，场景特征，用于描述在视频中用户所需的图像；在视频中依据场景特征进行搜索，得到场景特征对应的图像在视频中的位置。

根据本发明实施例的又一方面，还提供了一种数据处理装置，包括：获取模块，用于获取场景特征，场景特征，用于描述在数据源中用户所需的图像；定位模块，用于在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置。

可选的，定位模块包括：检索单元，用于在数据源包括视频的情况下，依据场景特征对每一帧图像进行内容检索；定位单元，用于依据内容检索得到的图像信息，获取对应场景特征的图像在视频中的位置。

进一步地，可选的，定位单元包括：匹配子单元，用于依据内容检索，在视频中查询与场景特征匹配的图像，以及图像对应的时间点；信息生成子单元，用于依据图像和图像对应的时间点生成图像信息；定位子单元，用于依据图像信息获取对应场景特征的对应图像在视频中的位置。

可选的，定位模块包括：查询单元，用于在数据源包括视频，且场景特征还包括插曲名称的情况下，依据键入的插曲名称查询视频中各个场景是否存在插曲名称对应的音频；位置获取单元，用于如果查询结果为是，获取插曲名称对应音频在视频中的位置；图像定位单元，用于依据位置提取对应的图像。

可选的，该装置还包括：显示模块，用于在得到场景特征对应的图像在数据源中的位置之后，在位置显示图像。

根据本发明实施例的又一方面，还提供了一种视频中图像定位装置，包括：获取模块，用于获取场景特征，场景特征，用于描述在视频中用户所需的图像；定位模块，用于在视频中依据场景特征进行搜索，得到场景特征对应的图像在视频中的位置。

根据本发明实施例的再一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述数据处理方法和/或视频中图像定位方法。

根据本发明实施例的再一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述数据处理方法和/或视频中图像定位方法。

在本发明实施例中，通过获取场景特征，场景特征，用于描述在数据源中用户所需的图像；在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置；在位置显示图像，达到了快速定位到要查找的视频内容的目的，从而实现了提升查询效率的技术效果，进而解决了由于现有技术在视频播放过程中选择所需片段操作复杂，导致查询效率低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种数据处理方法的计算机终端的硬件结构框图；

图2是根据本发明实施例一的数据处理方法的流程图；

图3是根据本发明实施例一的数据处理方法在视频播放过程中的示意图；

图4是本发明实施例二的一种视频中图像定位方法的流程示意图；

图5是本发明实施例三的一种数据处理装置的结构示意图；

图6是本发明实施例三的另一种数据处理装置的结构示意图；

图7是本发明实施例四的一种视频中图像定位装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，还提供了一种数据处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种数据处理方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Control ler，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在上述运行环境下，本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例一的数据处理方法的流程图。

步骤S202，获取场景特征，场景特征，用于描述在数据源中用户所需的图像；

本申请上述步骤S202中，本申请提供的数据处理方法可以适用于视频媒体平台，特别是在用户浏览视频时，依据用户需求准确快速定位用户所需的图像，在实现过程中，首先接收用户键入的场景特征，该场景特征，用于描述视频中某帧图像的场景环境，该场景环境为用户所需的图像，这里本申请提供的数据源可以为：电影、电视剧、广告、短片、动画片等，这里本申请可以以上述视频类型中的任意一种为例进行说明，具体如下：

其中，获取的场景特征可以通过用户文字输入或语音输入实现，本申请以文字输入为优选示例进行说明，这里场景特征可以为用户描述电视剧或电影中某一片段出现的画面特征，例如，人物，景观，对白/旁白，背景音效(声音效果或音乐)，画面中出现的物品。同理，用户还可以通过语音描述上述场景中的特征，以便终端设备采集后执行步骤S204。

此外，在用户文字输入的过程中场景特征可以为描述电视剧或电影(或短片/广告)中某一片段内出现的各个特征的词汇，即场景搜索词，例如，描述电影A中情节“男主人公请女主人公在临海餐厅共享烛光晚餐”，那么得到的场景搜索词包括：男主人公A、女主人公B、海边、餐厅、烛光。

步骤S204，在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置；

基于步骤S202中键入的场景特征，本申请步骤S204中，在数据源包括视频的情况下，在视频媒体平台的后台中，依据场景特征进行搜索，得到该场景特征对应的图像在视频中的位置。

可选的，在步骤S204中得到场景特征对应的图像在数据源中的位置之后，本申请提供的数据处理方法还包括：

步骤S206，在该位置显示图像。

基于步骤S204得到的图像，本申请步骤S206中显示该图像。

其中，场景特征包括：时间、图像中的人物、人物所处的环境特征或台词中的一种或至少两组的组合。

综上，本申请提供的数据处理方法以适用于终端为例进行说明，该终端包括：智能手机(例如，操作系统包括：android、IOS、windows系统的手机)、平板电脑、笔记本电脑、台式电脑、掌上商务和智能穿戴设备(例如：智能手表，增强显示AR设备或虚拟现实VR设备)，以在智能手机(后续简称手机)上为例进行说明，本申请提供的数据处理方法如下：

在用户使用手机，通过点击某视频媒体平台在该手机上的APP进入该某视频媒体平台，通过选择某视频媒体平台中的视频A，在确定播放视频A之前，由于用户之前仅观看了该视频前X分钟的图像，这次点开该视频A是为了在该X分钟处继续播放视频A，但是由于很难把握上次观看的图像所在的时间点位置，且，记不清具体是在哪个时间点位置，所以用户通过在视频窗的搜索区域内，键入场景特征，由于该X分钟处的图像包括：人物A、人物B、环境特征：下雨天；在键入的场景特征中，用户通过键入：人物A、人物B和下雨天，该视频媒体平台依据该场景特征搜索该视频A中每帧图像，并依据场景特征匹配在每帧图像中是否出现过上述场景特征，如存在，获取该图像并提取该图像所在时间点，并将播放时间跳转至该图像所在的时间点进行播放。

其中，需要说明的是，在上述匹配的过程中，可以依据与场景特征的相似度获取多个图像，并提取多个图像所在的时间点，将连续的图像确定为用户所需观看的图像进行播放，在播放之前，将该连续图像的第一帧图像和/或最后一帧图像进行提取，供用户确认是否为用户所需的图像，若是，则将播放时间点跳转至该第一帧图像所在的时间点，播放该第一帧图像。

除上述示例外，本申请提供的数据处理方法还可以用于在线购物，例如，当用户想知道电影A中男主A带的手表的牌子和/或价格，终端设备在获取用户输入的“电影A中男主A带的手表”的情况下，获取男主A在电影A中戴手表的画面，并通过图像获取，进行匹配搜索，得到该手表的牌子和购买取渠道。

需要说明的是，本申请仅以上述示例为例进行说明，以实现本申请提供的数据处理方法为准，具体不做限定。

可选的，步骤S204中在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置包括：

Step1，在数据源包括视频的情况下，依据场景特征对每一帧图像进行内容检索；

Step2，依据内容检索得到的图像信息，获取对应场景特征的图像在视频中的位置。

具体的，在数据源包括视频的情况下，依据场景特征对该视频中的每一帧图像进行内容检索，匹配每帧图像中的特征是否与场景特征对应，若是，则获取对应场景特征的图像在视频中的位置。

进一步地，可选的，步骤S204中Step2中的依据内容检索得到的图像信息，获取对应场景特征的图像在视频中的位置包括：

步骤A，依据内容检索，在视频中查询与场景特征匹配的图像，以及图像对应的时间点；

步骤B，依据图像和图像对应的时间点生成图像信息；

步骤C，依据图像信息获取对应场景特征的图像在视频中的位置。

可选的，步骤S206中在该位置显示图像之前，本申请提供的数据处理方法还包括：

步骤S201，判断图像是否为用户所需的图像；

步骤S203，如果图像是用户所需的图像，获取图像在视频中的时间点；

步骤S205，将播放点切换至时间点。

具体的，基于步骤S201至S205，在显示该图像之前，为了提升用户体验感，准确的为用户提供用户所需的图像，可以将获取到的图像提取出来供用户确认，如果该图像是用户所需的图像，则获取该图像在视频中的时间点，并将播放点切换至时间点。

进一步地，可选的，在步骤S203中获取图像在视频中的时间点之前，本申请提供的数据处理方法还包括：

步骤203’，若图像包括多帧图像，则获取多帧图像中的第一帧图像、最后一帧图像以及第一帧图像至最后一帧图像的时长。

具体的，在获取的图像包括多帧图像的情况下，提取多帧图像中的第一帧图像、最后一帧图像以及第一帧图像至最后一帧图像的时长，其中，将第一帧图像和或最后一帧图像作为向用户确认的图像，如果得到用户确认，则将视频的播放点跳转至第一帧图像对应的时间点。

Step1’，在数据源包括视频，且场景特征还包括插曲名称的情况下，依据键入的插曲名称查询视频中各个场景是否存在插曲名称对应的音频；

Step2’，如果查询结果为是，获取插曲名称对应音频在视频中的位置；

Step3’，依据位置提取对应的图像。

具体的，除了上述通过描述场景环境外，由于视频中伴随着插曲，用户可以通过键入插曲名称，或者键入插曲，交由视频平台进行检索，在接收的场景特征包括：插曲名称时，视频平台在该视频中检索该插曲名称对应音频所在的时间点位置，即Step2’中获取插曲名称对应音频在视频中的位置，提取该位置处的图像，由于插曲的时间一般至少在30秒以上，最长可至3分钟，在提取这个时间区间的图像的过程中，可以将第一帧图像和最后一帧图像提供给用户，供用户确定是否为用户所需的图像，如果是，将播放点跳转至该第一帧图像所处的时间点进行播放。

除此之外，在进入“插曲”后，视频平台可以将该视频中所有伴随插曲或背景音乐的视频图像提取出来，供用户确定，具体提取图像方法和视频定位方法如上述，此处不再赘述。

综上，本申请提供的数据处理方法具体如下：

在本申请提供的数据处理方法中用户能快速在视频中搜索和定位自己想看的内容，无需拖拽播放进度条用肉眼一点点去辨识播放内容，也不用凭借视频自带的重点情节时间点，因为大多数情况下用户想定位的视频内容并没有被这些预设的时间点囊括，更不需要根据台词去搜索字幕文件来定位视频内容。

其中，利用图像识别技术，用户只需要输入对情节的描述，例如：男主在海边拿着玫瑰花向女主求婚。后台自动对视频包含的每一帧图像进行检索，如果视频未包含类似情节，将反馈给用户未能找到；如果视频包含类似情节，将呈现搜索结果：对应图像和图像对应的精确时间点。用户可以根据反馈，快速定位到要查找的视频内容。

本申请提供的数据处理方法围绕的使用场景包括：视频网站，用户想在某个视频(例如某集连续剧)里去查看自己关注的情节/内容，如图3所示，图3是根据本发明实施例一的数据处理方法在视频播放过程中的示意图。

其中，在面孔识别上，视频中主要人物的面部图像与人物身份的对应，建立起一套面孔集。例如，男主Mike的面孔，女主Lucy的面孔等等。这部分可以是视频网站在上传剧集时预先设置好，也可以由热心网友共建。总之系统能辨别视频中的某张面孔以及相似的面孔属于某个角色。

在物体识别上，视频由无数帧静态图像组成，图像中的元素可以被系统识别。例如图像中有“大海”、“玫瑰花”、“蜡烛”等等。

在搜索过程中，用户在视频中对关注的内容进行搜索，例如用户提供一些有关情节的线索：夜里男主在海边拿着玫瑰花向女主求婚，伴随着烛光。那么可以键入关键词：男主名字、女主名字、夜晚、大海、玫瑰花、蜡烛/烛光。

在视频平台反馈结果的过程中，系统接收到线索后迅速对视频中每一帧图像进行内容检索，选出匹配的图像，并呈现给用户，以及反馈这张图像出现在该视频的精确时间点。用户可以通过核查图像内容判断是否为自己要找的目标，如果是，将直接跳到系统反馈的时间点进行观看。

其中，如果系统根据线索搜索出来不止一张图像，是一组图像，那么呈现这一组图像中的第一张与最后一张，以及持续的时长。例如从40:13开始，出现“夜里男主在海边拿着玫瑰花向女主求婚，伴随着烛光”的图像，并持续2分钟，接着被打断1分钟后，继续出现“夜里男主在海边拿着玫瑰花向女主求婚，伴随着烛光”这一图像，并持续3分钟。用户将看到以下内容：

40:13的图像(以及时间点)、42:13的图像(以及时间点)、伴随着“这一场景持续了2分钟”的文字说明。

43:13的图像(以及时间点)、46：13的图像(以及时间点)、伴随着“这一场景持续了3分钟”的文字说明。

本申请提供的数据处理方法将图像识别技术创新地应用到视频内容检索与定位的场景中，大大简化了在视频中查找特定内容的流程，提升了操作效率和流畅性，整个操作过程更符合用户使用的心理模型，使体验更加人性化、智能化，搜索和定位的结果也更精准。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的数据处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例的另一个方面，提供了一种视频中图像定位方法，图4是本发明实施例二的一种视频中图像定位方法的流程示意图，如图4所示，包括：

步骤S402，获取场景特征，场景特征，用于描述在视频中用户所需的图像；

步骤S404，在视频中依据场景特征进行搜索，得到场景特征对应的图像在视频中的位置。

具体的，结合步骤S402和步骤S404，区别于实施例1，在本实施例中以适用于视频播放场景下为例进行说明，其中，在用户使用手机，通过点击某视频媒体平台在该手机上的APP进入该某视频媒体平台，通过选择某视频媒体平台中的视频A，在确定播放视频A之前，由于用户之前仅观看了该视频前X分钟的图像，这次点开该视频A是为了在该X分钟处继续播放视频A，但是由于很难把握上次观看的图像所在的时间点位置，且，记不清具体是在哪个时间点位置，所以用户通过在视频窗的搜索区域内，键入场景特征，由于该X分钟处的图像包括：人物A、人物B、环境特征：下雨天；在键入的场景特征中，用户通过键入：人物A、人物B和下雨天，该视频媒体平台依据该场景特征搜索该视频A中每帧图像，并依据场景特征匹配在每帧图像中是否出现过上述场景特征，如存在，获取该图像并提取该图像所在时间点，并将播放时间跳转至该图像所在的时间点进行播放。

在本发明实施例中，通过获取场景特征，场景特征，用于描述在视频中用户所需的图像；在视频中依据场景特征进行搜索，得到场景特征对应的图像在视频中的位置，达到了快速定位到要查找的视频内容的目的，从而实现了提升查询效率的技术效果，进而解决了由于现有技术在视频播放过程中选择所需片段操作复杂，导致查询效率低的技术问题。

实施例3

根据本发明实施例，还提供了一种用于实施上述数据处理方法的装置，图5是本发明实施例三的一种数据处理装置的结构示意图，如图5所示，该装置包括：

获取模块52，用于获取场景特征，场景特征，用于描述在数据源中用户所需的图像；定位模块54，用于在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置。

在本发明实施例中，通过获取模块，用于获取场景特征，场景特征，用于描述在数据源中用户所需的图像；定位模块，用于在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置，达到了快速定位到要查找的视频内容的目的，从而实现了提升查询效率的技术效果，进而解决了由于现有技术在视频播放过程中选择所需片段操作复杂，导致查询效率低的技术问题。

此处需要说明的是，上述获取模块52和定位模块54对应于实施例一中的步骤S202至步骤S204，两个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中，可以通过软件实现，也可以通过硬件实现。

可选的，定位模块54包括：检索单元，用于在数据源包括视频的情况下，依据场景特征对每一帧图像进行内容检索；定位单元，用于依据内容检索得到的图像信息，获取对应场景特征的图像在视频中的位置。

此处需要说明的是，上述检索单元和定位单元对应于实施例一中的步骤S204中Step1和Step2，两个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中，可以通过软件实现，也可以通过硬件实现。

此处需要说明的是，上述匹配子单元、信息生成子单元和定位子单元对应于实施例一中的步骤S204中Step2中的步骤A至步骤C，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中，可以通过软件实现，也可以通过硬件实现。

可选的，定位模块54包括：查询单元，用于在数据源包括视频，且场景特征还包括插曲名称的情况下，依据键入的插曲名称查询视频中各个场景是否存在插曲名称对应的音频；位置获取单元，用于如果查询结果为是，获取插曲名称对应音频在视频中的位置；图像定位单元，用于依据位置提取对应的图像。

此处需要说明的是，上述查询单元、位置获取单元和图像定位单元对应于实施例一中的步骤S204中Step1’至Step3’，三个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中，可以通过软件实现，也可以通过硬件实现。

可选的，图6是本发明实施例三的另一种数据处理装置的结构示意图，如图6所示，本申请提供的数据处理装置还包括：显示模块56。

其中，显示模块56，用于在得到场景特征对应的图像在数据源中的位置之后，在位置显示图像。

此处需要说明的是，上述显示模块56对应于实施例一中的步骤S206，该模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中，可以通过软件实现，也可以通过硬件实现。

实施例4

根据本发明实施例，还提供了一种用于实施上述视频中图像定位方法的装置，图7是本发明实施例四的一种视频中图像定位装置的结构示意图，如图7所示，该装置包括：

获取模块72，用于获取场景特征，场景特征，用于描述在视频中用户所需的图像；定位模块74，用于在视频中依据场景特征进行搜索，得到场景特征对应的图像在视频中的位置。

在本发明实施例中，通过获取模块，用于获取场景特征，场景特征，用于描述在视频中用户所需的图像；定位模块，用于在视频中依据场景特征进行搜索，得到场景特征对应的图像在视频中的位置，达到了快速定位到要查找的视频内容的目的，从而实现了提升查询效率的技术效果，进而解决了由于现有技术在视频播放过程中选择所需片段操作复杂，导致查询效率低的技术问题。

此处需要说明的是，上述获取模块72和定位模块74对应于实施例一中的步骤S402至步骤S404，两个模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例二所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例二提供的视频中图像定位方法中，可以通过软件实现，也可以通过硬件实现。

实施例5

根据本发明实施例的又一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述实施例1中的数据处理方法和/或视频中图像定位方法。

实施例6

根据本发明实施例的又一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述实施例1中的数据处理方法和/或视频中图像定位方法。

实施例7

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取场景特征，场景特征，用于描述在数据源中用户所需的图像；在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：场景特征包括：时间、图像中的人物、人物所处的环境特征或台词中的一种或至少两组的组合。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置包括：在数据源包括视频的情况下，依据场景特征对每一帧图像进行内容检索；依据内容检索得到的图像信息，获取对应场景特征的对应图像。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：依据内容检索得到的图像信息，获取对应场景特征的图像在视频中的位置包括：依据内容检索，在视频中查询与场景特征匹配的图像，以及图像对应的时间点；依据图像和图像对应的时间点生成图像信息；依据图像信息获取对应场景特征的对应图像在视频中的位置。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在该位置显示图像之前，判断图像是否为用户所需的图像；如果图像是用户所需的图像，获取图像在视频中的时间点；将播放点切换至时间点。

进一步地，可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在获取图像在视频中的时间点之前，若图像包括多帧图像，则获取多帧图像中的第一帧图像、最后一帧图像以及第一帧图像至最后一帧图像的时长。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在数据源中依据场景特征进行搜索，得到场景特征对应的图像在数据源中的位置包括：在数据源包括视频，且场景特征还包括插曲名称的情况下，依据键入的插曲名称查询视频中各个场景是否存在插曲名称对应的音频；如果查询结果为是，获取插曲名称对应音频在视频中的位置；依据位置提取对应的图像。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在得到场景特征对应的图像在数据源中的位置之后，在该位置显示图像。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取场景特征，所述场景特征，用于描述在数据源中用户所需的图像；

在数据源中依据所述场景特征进行搜索，得到所述场景特征对应的图像在所述数据源中的位置。

2.根据权利要求1所述的数据处理方法，其特征在于，所述场景特征包括：时间、所述图像中的人物、所述人物所处的环境特征或台词中的一种或至少两组的组合。

3.根据权利要求1或2所述的数据处理方法，其特征在于，所述在数据源中依据所述场景特征进行搜索，得到所述场景特征对应的图像在所述数据源中的位置包括：

在所述数据源包括视频的情况下，依据所述场景特征对每一帧图像进行内容检索；

依据所述内容检索得到的图像信息，获取对应所述场景特征的图像在所述视频中的位置。

4.根据权利要求3所述的数据处理方法，其特征在于，所述依据所述内容检索得到的图像信息，获取对应所述场景特征的图像在所述视频中的位置包括：

依据所述内容检索，在所述视频中查询与所述场景特征匹配的图像，以及所述图像对应的时间点；

依据所述图像和所述图像对应的时间点生成所述图像信息；

依据所述图像信息获取对应所述场景特征的对应图像在所述视频中的位置。

5.根据权利要求4所述的数据处理方法，其特征在于，在所述位置显示所述图像之前，所述方法还包括：

判断所述图像是否为用户所需的图像；

如果所述图像是用户所需的图像，获取所述图像在所述视频中的时间点；

将播放点切换至所述时间点。

6.根据权利要求5所述的数据处理方法，其特征在于，在获取所述图像在所述视频中的时间点之前，所述方法还包括：

若所述图像包括多帧图像，则获取所述多帧图像中的第一帧图像、最后一帧图像以及所述第一帧图像至所述最后一帧图像的时长。

7.根据权利要求1或2所述的数据处理方法，其特征在于，所述在数据源中依据所述场景特征进行搜索，得到所述场景特征对应的图像在所述数据源中的位置包括：

在所述数据源包括视频，且所述场景特征还包括插曲名称的情况下，依据键入的所述插曲名称查询所述视频中各个场景是否存在所述插曲名称对应的音频；

如果查询结果为是，获取所述插曲名称对应音频在所述视频中的位置；

依据所述位置提取对应的所述图像。

8.根据权利要求1所述的数据处理方法，其特征在于，在所述得到所述场景特征对应的图像在所述数据源中的位置之后，所述方法还包括：

在所述位置显示所述图像。

9.一种视频中图像定位方法，其特征在于，包括：

获取场景特征，所述场景特征，用于描述在视频中用户所需的图像；

在视频中依据所述场景特征进行搜索，得到所述场景特征对应的图像在所述视频中的位置。

10.一种数据处理装置，其特征在于，包括：

获取模块，用于获取场景特征，所述场景特征，用于描述在数据源中用户所需的图像；

定位模块，用于在数据源中依据所述场景特征进行搜索，得到所述场景特征对应的图像在所述数据源中的位置。

11.根据权利要求10所述的数据处理装置，其特征在于，所述场景特征包括：时间、所述图像中的人物、所述人物所处的环境特征或台词中的一种或至少两组的组合。

12.根据权利要求10或11所述的数据处理装置，其特征在于，所述定位模块包括：

检索单元，用于在所述数据源包括视频的情况下，依据所述场景特征对每一帧图像进行内容检索；

定位单元，用于依据所述内容检索得到的图像信息，获取对应所述场景特征的图像在所述视频中的位置。

13.根据权利要求12所述的数据处理装置，其特征在于，所述定位单元包括：

匹配子单元，用于依据所述内容检索，在所述视频中查询与所述场景特征匹配的图像，以及所述图像对应的时间点；

信息生成子单元，用于依据所述图像和所述图像对应的时间点生成所述图像信息；

定位子单元，用于依据所述图像信息获取对应所述场景特征的对应图像在所述视频中的位置。

14.根据权利要求10或11所述的数据处理装置，其特征在于，所述定位模块包括：

查询单元，用于在所述数据源包括视频，且所述场景特征还包括插曲名称的情况下，依据键入的所述插曲名称查询所述视频中各个场景是否存在所述插曲名称对应的音频；

位置获取单元，用于如果查询结果为是，获取所述插曲名称对应音频在所述视频中的位置；

图像定位单元，用于依据所述位置提取对应的所述图像。

15.根据权利要求10所述的数据处理装置，其特征在于，所述装置还包括：

显示模块，用于在所述得到所述场景特征对应的图像在所述数据源中的位置之后，在所述位置显示所述图像。

16.一种视频中图像定位装置，其特征在于，包括：

获取模块，用于获取场景特征，所述场景特征，用于描述在视频中用户所需的图像；

定位模块，用于在视频中依据所述场景特征进行搜索，得到所述场景特征对应的图像在所述视频中的位置。

17.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1中所述的数据处理方法和/或权利要求9中所述的视频中图像定位方法。

18.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1中所述的数据处理方法和/或权利要求9中所述的视频中图像定位方法。