CN110909183B

CN110909183B - 一种多媒体数据处理方法、装置和存储介质

Info

Publication number: CN110909183B
Application number: CN201911039084.9A
Authority: CN
Inventors: 刘伟
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2023-01-17
Anticipated expiration: 2039-10-29
Also published as: CN110909183A

Abstract

本申请实施例公开了一种多媒体数据处理方法，所述方法包括：获取待处理图像；接收针对所述待处理图像的第一操作；所述第一操作用以对应所述待处理图像中的目标对象；响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能；这样，可以将待处理图像中的对象变为可操作的状态，接收到用户针对目标对象的操作时，触发目标对象对应的目标功能；提高了图像的利用率，并扩展了图像的功能。本申请实施例同时还公开了一种多媒体数据处理装置、电子设备和计算机存储介质。

Description

一种多媒体数据处理方法、装置和存储介质

技术领域

本申请涉及但不限于计算机技术领域，尤其涉及一种多媒体数据信息处理方法、装置和存储介质。

背景技术

在实际应用中，人们更倾向使用图像、视频等多媒体数据进行交互。但是，目前的图像或视频只能够进行显示，用户无法在图像或者视频上进行任何操作。

发明内容

为解决上述技术问题，本申请实施例期望提供一种多媒体数据处理方法、电子设备和计算机存储介质。

本申请的技术方案是这样实现的：

第一方面，提供一种多媒体数据处理方法，所述方法包括：

获取待处理图像；

接收针对所述待处理图像的第一操作；所述第一操作用以对应所述待处理图像中的目标对象；

响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能。

第二方面，提供一种多媒体数据处理装置，所述装置包括：

获取单元，用于获取待处理图像；

接收单元，用于接收针对所述待处理图像的第一操作；所述第一操作用以对应所述待处理图像中的目标对象；

处理单元，用于响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能。

第三方面，提供一种电子设备，所述电子设备包括：处理器、存储器和通信总线，其中：

所述通信总线用于实现处理器和存储器之间的通信连接；

所述处理器配置为运行所述计算机程序时，执行第一方面提供的多媒体数据处理方法的步骤。

第四方面，提供一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如第一方面提供的多媒体数据处理方法的步骤。

本申请实施例所提供的多媒体数据处理方法、装置、电子设备和计算机存储介质，首先获取待处理图像；接着，接收针对所述待处理图像的第一操作；第一操作用以对应所述待处理图像中的目标对象；响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能。这样，可以将待处理图像中的对象变为可操作的状态，接收到用户针对目标对象的操作时，触发目标对象对应的目标功能。如此，提高了图像的利用率，并扩展了图像的功能。

附图说明

图1为本申请实施例提供的一种多媒体数据处理方法的流程示意图；

图2为本申请实施例提供的一种即时通讯界面的截屏图像；

图3为本申请实施例提供的另一种即时通讯界面的截屏图像；

图4为本申请实施例提供的另一种多媒体数据处理方法的流程示意图；

图5为本申请实施例提供的一种音乐播放界面的截屏图像；

图6为本申请实施例提供的又一种的多媒体数据处理方法的流程示意图；

图7为本申请实施例提供的一种多媒体数据处理装置的结构组成示意图；

图8为本申请实施例提供的一种电子设备的硬件结构组成示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

本申请实施例提供一种多媒体数据处理方法，参照图1所示，该方法包括以下步骤：

步骤101、获取待处理图像；

步骤102、接收针对待处理图像的第一操作；第一操作用以对应所述待处理图像中的目标对象；

步骤103、响应于第一操作，触发待处理图像中目标对象对应的目标功能。

这里，步骤101至步骤103的执行主体可以是具有图像处理功能的电子设备；这里的电子设备包括但不限于智能手机、平板电脑、笔记本电脑、工业计算机、移动互联网设备(Mobile Internet Devices，MID)等。

在本申请提供的实施例中，电子设备可以获取本地存储器中存储的图像，也可以获取其他电子设备发送的图像，将获取到的图像作为待处理图像；并在电子设备的显示屏幕中显示所述待处理图像，供用户查阅。在电子设备显示所述待处理图像的同时，接收用户针对所述待处理图像的第一操作。这里，第一操作可以是针对待处理图像中目标对象的操作，进一步，在电子设备接收到第一操作后，触发目标对象对应的功能。

具体地，本申请实施例所描述的待处理图像可以是通过图像采集装置拍摄的图像，例如，拍摄的包含药瓶的图像；也可以是接收其他电子设备发送的图像，例如，其他电子设备发送的即时通讯界面的截屏图像。

在本申请提供的实施例中，待处理图像中可以包括至少一个对象；例如，图2所示的即时通讯界面的截屏图像20中包括三个对象，具体包括文本对象21，文档对象22以及浏览器链接对象23。

进一步地，本申请实施例所描述的目标对象可以是待处理图像中多个对象的至少一个。

在本申请提供的实施例中，用户可以从电子设备的显示屏幕中查看待处理图像，并且用户还可以对待处理图像中的每个对象进行操作，以获取每个对象相应的功能。具体地，电子设备接收到用户的第一操作，确定第一操作对应的待处理图像中的目标对象。其中，第一操作可以是对待处理图像中目标对象的触摸操作；例如，第一操作可以是在预设时长内对待处理图像中目标对象的连续点击，第一操作也可以是在预设时长内对目标对象的进行长按，本申请在此不做限定。在本申请中，电子设备可以根据第一操作在显示屏幕中所处的位置，来确定第一操作对应的目标对象。

进一步地，电子设备确定目标对象后，对目标对象进行识别，确定目标对象的对应的目标功能。这里，目标功能可以是目标对象相关的操作功能，例如，复制，下载，播放等功能。

在本申请提供的实施例中，目标功能与所述目标对象具有关联关系；例如，当目标对象为文本对象时，目标功能可以是复制功能，当目标对象为浏览器链接对象时，目标功能可以是打开链接的功能。如此，将待处理图像中的每个对象变成可操作的状态，用户对目标对象操作时可以实现对象对应的功能，极大地提高了图像的利用率，扩展了图像的功能。

示例性的，用户A对即时通讯界面进行了截屏，并将得到的截屏图像传输给用户B，用户B在手机上收到该截屏图像并打开，参考图3所示的即时通信界面的截屏图像。当电子设备接收到用户B点击目标对象31时，对目标对象31进行识别得到地址信息，触发地址信息对应的目标功能，指示启动地图应用34并搜索识别到的地址信息；当电子设备接收到用户B点击目标对象32时，对目标对象进行识别得到文档信息，触发文档信息对应的目标功能，指示网络搜索文档35并下载；当电子设备接收到用户B点击目标对象33时，对目标对象32进行识别得到浏览器链接信息，触发浏览器链接信息对应的目标功能，指示开启该浏览器链接信息中对应的浏览器，并跳转至链接对应的页面36。

本申请实施例提供一种多媒体数据处理方法，首先获取待处理图像；接着，接收针对所述待处理图像的第一操作；第一操作用以对应所述待处理图像中的目标对象；响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能。这样，可以将待处理图像中的对象变为可操作的状态，接收到用户针对目标对象的操作时，触发目标对象对应的目标功能。如此，提高了图像的利用率，扩展了图像的功能。

实施例二

基于前述实施例，本申请实施例提供一种多媒体数据处理方法，参照图4所示，该方法包括以下步骤：

步骤401、电子设备获取待处理图像。

在本申请提供的实施例中，待处理图像优选为电子设备接收到的截屏图像。例如，即时通讯界面的截屏图像，音乐播放器界面的截屏图像等。

步骤402、电子设备接收针对待处理图像的第一操作；第一操作用以对应待处理图像中的目标对象。

步骤403、电子设备基于第一操作，从待处理图像中确定目标对象对应的待处理区域。

在本申请提供的实施例中，电子设备可以根据第一操作在待处理图像中对应的位置，从待处理图像中扣取出目标对象对应的待处理区域。

具体地，电子设备接收到第一操作时，首先确定第一操作在电子设备显示屏幕的位置。接着，根据第一操作在显示屏幕中的位置，以及待处理图像在显示屏幕中的显示比例和显示区域，确定第一操作在待处理图像中对应的目标位置。

这里，当待处理图像在显示屏幕中全屏幕显示时，第一操作在显示屏幕中的位置可以认为是第一操作在待处理图像中的目标位置；当待处理图像在显示屏幕中非全屏幕显示时，需要根据待处理图像的显示比例，以及显示区域，确定第一操作在待处理图像中对应的目标位置。

进一步，获取待处理图像中目标位置周围多个第一局部区域的图像，提取每个第一局部区域图像的图像特征，计算图像特征之间的相似度，若相似度大于阈值，可以认为上述多个第一局部区域为同一对象的图像区域，则电子设备继续获取每个第一局部区域远离目标位置一侧的第二局部区域的图像，直至图像的相似度小于阈值。如此，实现从待处理图像中扣取出目标对象的待处理区域。

步骤404、电子设备对目标对象对应的待处理区域进行解析，基于解析结果，触发目标对象对应的目标功能。

在本申请提供的实施例中，电子设备在确定了待处理区域后，对待处理区域中的内容进行解析，得到待处理区域中包含内容的真实含义，并根据真实含义触发目标对象对应的目标功能。

可以理解为，电子设备能够将待处理图像中的“文字”、“音频”、“视频”等均变为可操作状态，用户可以直接待处理图像中“文字”、“音频”、“视频”进行“复制”、“下载”、“播放”等相关功能。提高了图像的利用率，扩展了图像的功能。

具体地，电子设备对目标对象对应的待处理区域进行解析，基于解析结果，触发目标对象对应的目标功能包括：

步骤4041、电子设备对目标对象对应的待处理区域进行解析，得到目标对象的语义信息；其中，语义信息用于表征目标对象对应的待处理区域中包含的内容的含义；

步骤4042、电子设备至少基于语义信息，确定目标对象对应的目标功能，并触发目标功能。

具体地，在步骤4041中电子设备可以利用图像模型并结合图像处理的技术，来分析目标对象对应的待处理区域的底层特征和上层结构，提取待处理区域中的语义信息。这里，语义信息是指目标对象对应的待处理区域中包含内容的含义，可以理理解为，语义信息就是人类能够理解的内容。例如，待处理区域中有

在一实现方案中，电子设备可以预先构造一系列已知物体的图像模型，把待处理区域中的特征与图像模型进行匹配和比较，根据匹配的图像模型的语义信息，确定目标对象的语义信息。

在另一实现方式中，电子设备可以将待处理区域中特征点的特征向量输入至图像分析模型中，得到目标对象的语义信息。这里，图像分类器可以是根据预先获取的训练图像，以及训练图像对应的语义标注训练得到的。

进一步地，在得到目标对象的语义信息后，基于目标对象的语义信息，确定目标对象的目标功能。也就是说，根据目标对象对应待处理区域中包含内容的真实含义，来确定目标对象的目标功能。

示例性的，参照图3所示的即时通讯界面的截屏图像，电子设备接收到用户针对目标对象32的第一操作后，对目标对象32所处的待处理区域进行解析，得到目标对象32的语义信息为“成功人士的十个习惯412.4KB PDF”。这样，电子设备根据识别出来的“PDF”可以确认该目标对象为文档，并且文档名称为“成功人士的十个习惯”；进一步，电子设备触发文档对应的目标功能，即下载功能；具体地，电子设备直接通过网络搜索“成功人士的十个习惯”文档35，并下载该文档。

在另一示例中，参照图5所示的音乐播放器的截屏图像，电子设备接收到用户针对目标对象51的第一操作时，对目标对象51所处待处理区域进行解析，识别到的目标对象51的语义信息为一个音乐图标，电子设备触发音乐图像对应的目标功能，即下载该音乐图标对应的音乐播放器；具体地，电子设备可以开启应用商店53，下载该音乐图标对应的音乐播放器。

在本申请提供的实施例中，至少基于语义信息，确定目标对象对应的目标功能，包括：

电子设备基于目标对象的语义信息，获取用户的意图信息；

电子设备基于意图信息，确定目标对象对应的目标功能。

在实际应用中，仅仅根据目标对象的语义信息确定目标对象的目标功能，并无法满足用户的实际需求。因此，还需要在目标对象语义信息的基础上，识别用户的意图信息，即用户对目标对象操作的目的。

这里，电子设备可以预先建立意图识别模型，具体地，将预先获取的语义信息作为意图识别模型的输入，并将预先获取的语义信息所对应的意图标识作为意图识别模型的输出，对意图识别模型进行训练。这样，电子设备可以将得到的目标对象的语义信息输入至训练好的意图识别模型中，得到目标对象对应的用户意图信息。

或者，电子设备可以预先构造一系列关键词对应的意图信息，把目标对象的语义信息与构造的一系列关键词进行匹配和比较，将与语义信息匹配的关键词对应的意图信息，确定为目标对象对应的用户的语义信息。

进一步，电子设备基于目标对象的语义信息和用户意图信息，实现目标对象的目标功能。例如，参照图3所示的即时通讯界面的截屏图像，电子设备接收到用户针对目标对象31的第一操作，对目标对象31所处的待处理区域进行解析，识别得到目标对象31的语义信息为“酒店地址：惠州小径湾梵高的海(小径湾海岸花园)8号楼1层22铺”；并识别该语义信息对应的意图信息为地址导航；这样，根据目标对象31的语义信息和意图信息，触发地址导航功能；具体地，电子设备直接打开本地的地图应用34，搜索语义信息中对应的地址。

在本申请其他实施例中，电子设备至少基于语义信息，确定目标对象对应的目标功能，并触发目标功能，还包括：

获取目标对象的上下文信息；其中，上下文信息表征待处理图像中与目标对象对应待处理区域相邻的区域的语义信息；

基于目标处理区域的上下文信息以及语义信息，确定目标对象对应的目标功能。

在实际应用中，目标对象的真实含义还与待处理图像中的其他对象的含义相关；本申请中，电子设备可以获取待处理图像中与目标对象所处的待处理区域相邻的区域的语义信息，得到目标对象的上下文信息；进一步，根据目标对象的上下文信息以及目标对象的语义信息，确定目标对象对应的目标功能。

在本申请提供的实施例中，电子设备获取待处理图像中与目标对象所处的待处理区域相邻的区域的语义信息与步骤4041中获取目标对象语义信息的方式类似，这里不再赘述。

示例性的，参照图5所示的音乐播放器的截屏图像，电子设备接收到用户针对目标对象52的第一操作时，对目标对象52进行解析，识别到语义信息为文本内容“随他吧”；同时，电子设备解析与目标对象52相邻的对象51，解析得到对象51的语义信息为音乐标识信息。这样，电子设备可以基于对象51的语义信息，确定目标对象52的语义信息为“歌曲名称：随他吧”；进一步，电子设备触发音乐播放功能，打开本地音乐播放器播放歌曲“随他吧”，并显示音乐播放界面54。

需要说明的是，本实施例中与其它实施例中相同步骤和相同内容的说明，可以参照其它实施例中的描述，此处不再赘述。

本申请的实施例所提供的多媒体数据处理方法，首先获取待处理图像；接着，接收针对所述待处理图像的第一操作；第一操作用以对应所述待处理图像中的目标对象；响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能。这样，可以将待处理图像中的对象变为可操作的状态，接收到用户针对目标对象的操作时，触发目标对象对应的目标功能。如此，提高了图像的利用率，并扩展了图像的功能。

实施例三

基于前述实施例，本申请的实施例提供一种多媒体数据处理方法，参照图6所示，该方法包括以下步骤：

步骤601、电子设备获取待处理图像。

步骤602、电子设备对待处理图像进行图像分割，得到至少一个待处理区域。

在本申请提供的实施例中，电子设备还可以在获取到待处理图像之后，针对待处理图像中的图像内容，对待处理图像进行图像分割处理，得到待处理图像的多个不同的待处理区域，以供用户对上述多个待处理区域进行操作。

具体地，对待处理图像进行图像分割，得到至少一个待处理区域，包括：

提取待处理图像中的视觉图像特征；其中，视觉图像特征包括以下至少之一：纹理特征、颜色特征、形状特征和边界特征；

基于视觉图像特征，对待处理图像进行图像分割，得到待处理图像对应的至少一个待处理区域。

这里，电子设备根据视觉特征，将位置邻近的相同或者相似的视觉特征划分至同一区域，将不同的视觉特征划分为不同的区域。得到多个互不相交的待处理区域。

步骤603、电子设备接收针对待处理图像的第一操作；第一操作用以对应待处理图像中的目标对象，且目标对象对应至少一个待处理区域中的至少一个。

在本申请提供的实施例中，电子设备接收到第一操作后，根据第一操作的位置确定第一操作对应的至少一个待处理区域。如此，可以将待处理图像中不同区域的内容变为可操作状态，用户可以直接对待处理图像中的内容进行操作。

步骤604、电子设备对目标对象对应的待处理区域进行解析，基于解析结果，触发目标对象对应的目标功能。

步骤6041、电子设备对目标对象对应的待处理区域进行解析，得到目标对象的语义信息；其中，语义信息用于表征目标对象对应的待处理区域中包含的内容的含义；

步骤6042、电子设备至少基于语义信息，确定目标对象对应的目标功能，并触发目标功能。

具体地，在步骤6041中电子设备可以利用图像模型并结合图像处理的技术，来分析目标对象对应的待处理区域的底层特征和上层结构，提取待处理区域中的语义信息。这里，语义信息是指目标对象对应的待处理区域中包含内容的含义，可以理理解为，语义信息就是人类能够理解的内容。例如，待处理区域中有

电子设备基于目标对象的语义信息，获取用户的意图信息；

电子设备基于意图信息，确定目标对象对应的目标功能。

进一步，电子设备基于目标对象的语义信息和用户意图信息，实现目标对象的目标功能。例如，参照图3所示的即时通讯界面的截屏图像，电子设备接收到用户针对目标对象31的第一操作，对目标对象31所处的待处理区域进行解析，识别得到目标对象31的语义信息为“酒店地址：惠州小径湾梵高的海(小径湾海岸花园)8号楼1层22铺”；并识别该语义信息对应的意图信息为地址导航；这样，根据目标对象31的语义信息和意图信息，触发地址导航功能；具体地，电子设备直接打开本地的地图应用，搜索语义信息中对应的地址。

在本申请提供的实施例中，电子设备获取待处理图像中与目标对象所处的待处理区域相邻的区域的语义信息与步骤6041中获取目标对象语义信息的方式类似，这里不再赘述。

示例性的，参照图5所示的音乐播放器的截屏图像，电子设备接收到用户针对目标对象52的第一操作时，对目标对象52进行解析，识别到语义信息为文本内容“随他吧”；同时，电子设备解析与目标对象52相邻的对象51，解析得到对象51的语义信息为音乐标识信息。这样，电子设备可以基于对象51的语义信息，确定目标对象52的语义信息为“歌曲名称：随他吧”；进一步，电子设备触发音乐播放功能，播放歌曲“随他吧”，并显示音乐播放界面54。

实施例四

基于前述实施例，本申请实施例提供一种多媒体数据处理装置，如图7所示，所述装置包括：

获取单元71，用于获取待处理图像；

接收单元72，用于接收针对所述待处理图像的第一操作；所述第一操作用以对应所述待处理图像中的目标对象；

处理单元73，用于响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能。

在本申请提供的其他实施例中，处理单元73，具体用于基于第一操作，从待处理图像中确定目标对象对应的待处理区域；对目标对象对应的待处理区域进行解析，基于解析结果，触发目标对象对应的目标功能。

在本申请提供的其他实施例中，多媒体数据处理装置还包括，图像分割单元74，用于对待处理图像进行图像分割，得到至少一个待处理区域；目标对象对应至少一个待处理区域中的至少一个；

处理单元73，还用于对目标对象对应的待处理区域进行解析，基于解析结果，触发目标对象对应的目标功能。

在本申请提供的其他实施例中，处理单元73，还用于对目标对象对应的待处理区域进行解析，得到目标对象的语义信息；其中，语义信息用于表征目标对象对应的待处理区域中包含的内容的含义；至少基于语义信息，确定目标对象对应的目标功能，并触发目标功能。

在本申请提供的其他实施例中，处理单元73，还用于基于所述目标对象的语义信息，获取用户的意图信息；基于所述意图信息，确定所述目标对象对应的目标功能。

在本申请提供的其他实施例中，处理单元73，还用于获取目标对象的上下文信息；其中，上下文信息表征待处理图像中与目标对象对应待处理区域相邻的区域的语义信息；基于目标处理区域的上下文信息以及语义信息，确定目标对象对应的目标功能。

在本申请提供的其他实施例中，图像分割单元74，具体用于提取待处理图像中的视觉图像特征；其中，视觉图像特征包括以下至少之一：纹理特征、颜色特征、形状特征和边界特征；基于视觉图像特征，对待处理图像进行图像分割，得到待处理图像对应的至少一个待处理区域。

本申请的实施例所提供的多媒体数据处理装置，首先获取待处理图像；接着，接收针对所述待处理图像的第一操作；第一操作用以对应所述待处理图像中的目标对象；响应于所述第一操作，触发所述待处理图像中目标对象对应的目标功能。这样，可以将待处理图像中的对象变为可操作的状态，接收到用户针对目标对象的操作时，触发目标对象对应的目标功能。如此，提高了图像的利用率，并扩展了图像的功能。

实施例五

基于上述装置中各单元的硬件实现，为了实现本申请实施例提供的多媒体数据处理方法，本申请实施例还提供了一种电子设备，如图8所示，所述电子设备80包括：处理器81和配置为存储能够在处理器上运行的计算机程序的存储器82，

其中，所述处理器81配置为运行所述计算机程序时，执行前述实施例中的方法步骤。

当然，实际应用时，如图8所示，该电子设备80中的各个组件通过总线系统83耦合在一起。可理解，总线系统83用于实现这些组件之间的连接通信。总线系统83除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图8将各种总线都标为总线系统83。

在示例性实施例中，本申请实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器82，上述计算机程序可由电子设备80的处理器81执行，以完成前述方法所述步骤。计算机可读存储介质可以是磁性随机存取存储器(FRAM，ferromagneticrandom access memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，ErasableProgrammable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，ElectricallyErasable Programmable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)等存储器。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种多媒体数据处理方法，所述方法包括：

获取待处理图像；

响应于所述第一操作，当所述待处理图像在显示屏幕中非全屏显示时，确定所述第一操作在所述待处理图像中对应的目标位置；

获取所述待处理图像中所述目标位置周围的多个第一局部区域的图像，并提取每个第一局部区域图像的图像特征；

计算所述多个第一局部区域图像的图像特征之间的相似度；

如果所述相似度大于阈值，确定出所述第一局部区域为同一对象的图像区域，并继续获取每个第一局部区域远离所述目标位置一侧的第二局部区域的图像，直至图像的相似度小于所述阈值，得到所述目标对象对应的待处理区域；

对目标对象对应的待处理区域进行解析，基于解析结果，触发所述待处理图像中目标对象对应的目标功能。

2.根据权利要求1所述的方法，其特征在于，所述获取待处理图像之后，所述方法还包括：

对待处理图像进行图像分割，得到至少一个待处理区域；所述目标对象对应所述至少一个待处理区域中的至少一个；

相应的，所述响应于所述第一操作，触发所述待处理图像中目标对象对应的功能，包括：

对所述目标对象对应的待处理区域进行解析，基于所述解析结果，触发所述目标对象对应的目标功能。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述目标对象对应的待处理区域进行解析，基于所述解析结果，触发所述目标对象对应的功能，包括：

对所述目标对象对应的待处理区域进行解析，得到所述目标对象的语义信息；其中，所述语义信息用于表征所述目标对象对应的待处理区域中包含的内容的含义；

至少基于所述语义信息，确定所述目标对象对应的目标功能，并触发所述目标功能。

4.根据权利要求3所述的方法，其特征在于，所述至少基于所述语义信息，确定所述目标对象对应的目标功能，包括：

基于所述目标对象的语义信息，获取用户的意图信息；

基于所述意图信息，确定所述目标对象对应的目标功能。

5.根据权利要求3所述的方法，其特征在于，所述至少基于所述语义信息，确定所述目标对象对应的目标功能，包括：

获取所述目标对象的上下文信息；其中，所述上下文信息表征所述待处理图像中与所述目标对象对应待处理区域相邻的区域的语义信息；

基于所述目标处理区域的上下文信息以及所述语义信息，确定所述目标对象对应的目标功能。

6.根据权利要求2所述的方法，其特征在于，所述对待处理图像进行图像分割，得到所述待处理图像对应的至少一个待处理区域，包括：

提取所述待处理图像中的视觉图像特征；其中，所述视觉图像特征包括以下至少之一：纹理特征、颜色特征、形状特征和边界特征；

基于所述视觉图像特征，对所述待处理图像进行图像分割，得到所述待处理图像对应的至少一个待处理区域。

7.一种多媒体数据处理装置，所述装置包括：

获取单元，用于获取待处理图像；

处理单元，用于响应于所述第一操作，当所述待处理图像在显示屏幕中非全屏显示时，确定所述第一操作在所述待处理图像中对应的目标位置；获取所述待处理图像中所述目标位置周围的多个第一局部区域的图像，并提取每个第一局部区域图像的图像特征；计算所述多个第一局部区域图像的图像特征之间的相似度；如果所述相似度大于阈值，确定出所述第一局部区域为同一对象的图像区域，并继续获取每个第一局部区域远离所述目标位置一侧的第二局部区域的图像，直至图像的相似度小于所述阈值，得到所述目标对象对应的待处理区域；对目标对象对应的待处理区域进行解析，基于解析结果，触发所述待处理图像中目标对象对应的目标功能。

8.一种电子设备，所述电子设备包括：处理器、存储器和通信总线，其中：

所述通信总线用于实现处理器和存储器之间的通信连接；

所述处理器配置为运行计算机程序时，执行权利要求1至6任一项所述多媒体数据处理方法的步骤。

9.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至6中所述的多媒体数据处理方法的步骤。