CN106844659A

CN106844659A - 一种多媒体数据处理方法和装置

Info

Publication number: CN106844659A
Application number: CN201710050548.0A
Authority: CN
Inventors: 付博文
Original assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Current assignee: Yulong Computer Telecommunication Scientific Shenzhen Co Ltd
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2017-06-13

Abstract

本发明实施例公开了一种多媒体数据处理方法和装置，所述方法包括：接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。采用本发明，可在制作多媒体数据时向用户提供一种快速搭配文字的方法，以丰富表情图片的展示效果，并降低人工制作的成本。

Description

一种多媒体数据处理方法和装置

技术领域

本发明涉及通信技术领域，尤其涉及一种多媒体数据处理方法和装置。

背景技术

随着4G时代的到来，移动互联网的技术发展和移动终端智能操作系统的普及，移动用户对即时消息、聊天、文件传输等多种社交通信的诉求越来越强烈；即已有越来越多的用户通过在移动终端上加载各式各样的社交应用来进行快速、有效的信息传递。例如，用户可选择简单的文字来传递彼此之间的思绪，也可在自带的表情面板中选择相应的表情符号来表达彼此的心情和状态，还可在已下载的表情包中选择相应的表情图来进行信息交流。

然而，在表情面板中大多数的表情包都仅仅只展示了一些图案信息(比如，简单的人脸表情包)，图片的显示效果比较单一；与此同时，在表情面板中还存在一种扩展的携带文字的表情包，但是，这些扩展的表情包大多都是在相应的应用程序对应的表情商店中下载并安装的表情包。换言之，这些表情包需要后台运营人员预先搜寻到恰当的图片素材和文字素材，并对搜索到的图片素材和文字素材进行人工合成，以形成携带文字信息的组合图片，并将这些组合图片上传至表情商店供用户进行下载。可见，采用这种方式形成的表情包是极为耗费人力成本的，且制作过程极为繁琐和耗时。

发明内容

本发明实施例所要解决的技术问题在于，提供一种多媒体数据处理方法和装置，可提供一种快捷的多媒体数据制作方法，可以丰富表情图片的展示效果并降低人工成本。

为了解决上述技术问题，本发明实施例第一方面提供了一种多媒体处理方法，包括：

接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；

筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。

本发明实施例第二方面提供了一种多媒体数据处理装置，包括：

提取扫描模块，用于接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

状态确定模块，用于根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；

图文融合模块，用于筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。

本发明实施例通过接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。由此可见，所述多媒体数据处理装置可在接收到用户对当前图片数据的编辑指令时，提取所述当前图片数据中的目标物体图像，并在扫描到所述目标物体图像的图像特征时，确定所述当前图片数据对应的状态信息，并根据确定的状态信息自动筛选出与所述状态信息相匹配的文本信息，并生成包含文本信息的融合图片数据，以提供一种在制作多媒体数据时能快速进行文字搭配的方法，进而降低制作时的人工成本，并可根据用户需求丰富多媒体数据的显示效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多媒体数据处理方法的流程示意图；

图2是本发明实施例提供的另一种多媒体数据处理方法的流程示意图；

图3是本发明实施例提供的又一种多媒体数据处理方法的流程示意图；

图4是本发明实施例提供的一种多媒体数据处理装置的结构示意图；

图5是本发明实施例提供的一种状态确定模块的结构示意图；

图6是本发明实施例提供的一种图文融合模块的结构示意图；

图7是本发明实施例提供的另一种多媒体数据处理装置的结构示意图；

图8是本发明实施例提供的又一种多媒体数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

本发明实施例中提及的多媒体数据处理方法的执行依赖于计算机程序，可运行于冯若依曼体系的计算机系统之上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。该计算机系统可以是个人电脑、平板电脑、笔记本电脑、智能手机等终端设备。

以下分别进行详细说明。

请参见图1，是本发明实施例提供的一种多媒体数据处理方法的流程示意图。如图1所示，所述多媒体数据处理方法至少包括：

步骤S101，接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

具体地，多媒体数据处理装置接收用户在当前图片数据对应的显示区域中执行的对所述当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中人和/或物的图像分布面积，并根据所述分布面积确定所述当前图片数据中人或物的优先级，并将优先级最高的人或物对应的图像确定为所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

其中，所述图像特征可以包括面部轮廓特征和五官轮廓特征和肢体轮廓特征；

其中，所述多媒体数据处理装置可以包括：智能手机、移动互联网设备、可穿戴设备(例如智能手表(如iwatch等)、智能手环)或其他可安装即时通讯应用客户端的终端设备；

其中，所述编辑指令的执行包括但不限于：按压操作、双击操作或者滑屏操作等各类型触摸触控屏的操作。通常，在具有触控屏功能的终端中，其触控屏的结构包括至少三层：屏幕玻璃层、触控面板层和显示面板层。其中屏幕玻璃层为保护层，触控面板层用于感知用户的触控操作，显示面板层用于显示图像。

比如，以图片A中有一个人和一只狗为例，对于图片A而言，当该图片A对应的显示区域中接收到用户对所述当前图片数据的编辑指令时，可根据所述编辑指令提取所述当前图片数据中人和狗对应的图像的分布面积，例如，图片A中的当前图片数据为一个小女孩牵着一只狗(吉娃娃)，且小女孩的分布面积大于吉娃娃的分布面积，则可根据预设规则中人的优先级大于狗的优先级的规则，将该图片A中小女孩对应的图像作为所述当前图片数据中优先级较高的图像，并将该优先级较高的小女孩的图像确定为目标物体图像，并扫描该小女孩对应的目标物体图像的图像特征(比如，小女孩的面部轮廓特征、五官轮廓特征)。

步骤S102，根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；

具体地，所述多媒体数据处理装置可在预设的映射关系表中查找与所述图像特征相关联的至少一种预设图像特征，并可根据预设的选择规则在查找到的所述至少一种预设图像特征中选择目标预设图像特征，并将所述目标预设图像特征对应的状态信息确定为所述当前图片数据对应的状态信息；

其中，所述表情状态信息包括：欣喜、愤怒、悲哀、快乐中的一种或多种情感状态；

其中，所述行为状态包括：睡觉、吃饭、唱歌和表演；

其中，所述预设的映射关系表中包含：各种状态信息和各预设图像特征之间的映射关系；进一步地，所述映射关系表中还包括：所述各状态信息和各文本信息之间的映射关系。

步骤S103，筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据；

具体地，所述多媒体数据处理装置可用于检测当前网络状态，并在检测到所述当前网络状态为网络未连接状态时，可从所述本地文本数据库中获取预设的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第一文本信息，并将所述第一文本信息与所述当前图片数据进行数据融合，生成携带所述第一文本信息的融合图片数据，并控制屏幕显示所述携带所述第一文本信息的融合图片数据。

比如，以用户通过手机拍到正在酣睡的哈士奇为例，在图片B中，哈士奇的头搭在小窝边，双眼紧闭，舌头微微伸出，嘴角微微咧开；当用户用相机记录下这一幕，并打算把自己的爱犬(哈士奇)这搞笑的一幕制作成专属的表情包时，用户可在该手机中图片B对应的显示区域进行编辑，以为图片B进行图文搭配。具体地，当该手机根据接收到的编辑指令扫描哈士奇的图像特征时，可根据所扫描到的图像特征确定该图片B中哈士奇对应的行为状态信息(酣睡)和表情状态信息(舌头微微伸出，嘴角微微咧开)，并在检测到所述当前网络状态为网络未连接状态的状况下，在本地的映射关系表中筛选与该哈士奇对应状态信息(高兴)具有映射关系的文本信息(比如，今天的午饭不错)，并将所述文本信息与该哈士奇的酣睡图片B进行数据融合，以生成携带所述文本信息的融合图片C(包含原有的图片B对应的图片数据，还包含筛选出的文本信息)，并控制屏幕显示所述融合图片C。

由此可见，所述多媒体数据处理装置首先接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；然后，根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；最后，筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。由此可见，所述多媒体数据处理装置可在接收到用户对当前图片数据的编辑指令时，提取所述当前图片数据中的目标物体图像，并在扫描到所述目标物体图像的图像特征时，确定所述当前图片数据对应的状态信息，并根据确定的状态信息自动筛选出与所述状态信息相匹配的文本信息，并生成包含文本信息的融合图片数据，以提供一种多媒体数据的快捷制作方法，以节约制作时间，并可根据用户需求丰富多媒体数据的显示效果。

进一步地，请参见图2，是本发明实施例提供的另一种多媒体数据处理方法的流程示意图。如图2所示，所述多媒体数据处理方法至少包括：

步骤S201，设置多种状态信息，并为各状态信息分别配置对应的预设图像特征，并将各状态信息和各预设图像特征之间的映射关系添加至预设的映射关系表中；

其中，对于直接获取到的图像，不同的人就可能对该图像有不同的见解(尤其是一张图中有多个人或者物时，不同的人的关注点则会不同)，于是，就需要用户预先对各种状态信息分别配置对应的预设图像特征，以更加形象地描绘当前数据图片中人或者物的状态信息。

其中，预设图像特征包括预设的面部轮廓特征、五官轮廓特征和肢体轮廓特征，可用于对图像中目标物体对应的目标特征进行图像识别，且目标物体对应的目标特征代表了目标区域的特性，在进行图像识别的过程中，往往借助于直观性特征，如图像的边沿、轮廓、纹理和区域等进行图像特征的扫描，这些都属于图像灰度的直观特征，它们的物理意义明确，可通过相应的提取算法进行特征提取；具体地，请参见表1给出的部分映射关系表；

图像特征	表情状态信息	行为状态信息
			A	欣喜状态	睡觉状态
B	愤怒状态	无
			C	伤悲状态	吃饭状态
D	快乐状态	奔跑状态

表1

由上述表1给出的部分映射关系表可知，当设置的状态信息下的表情状态信息为欣喜状态，且行为状态信息为睡觉状态时，所分配的图像特征A可以具体包括一个人躺着，且嘴角上扬<15度时的特征；当设置的状态信息下的表情状态信息为愤怒状态，且无对应的行为状态信息时，所分配的图像特征B可为面部扭曲时的特征；当设置的状态信息下的表情状态信息为伤悲状态，且行为状态信息为吃饭状态时，所分配的图像特征C可为眉头紧锁时的特征；当设置的状态信息下的表情状态信息为快乐状态，且行为状态信息为奔跑状态时，所分配的图像特征D可以具体包括一个人在奔跑，且张嘴幅度>1厘米时的特征。

步骤S202，设置与所述各状态信息分别对应的文本信息，并将所述各状态信息和各文本信息之间的映射关系添加至所述映射关系表中；

其中，所述预设的映射关系表中包含：上述步骤S201中的各种状态信息和各预设图像特征之间的映射关系；进一步地，所述映射关系表中还包括：所述各状态信息和各文本信息之间的映射关系。

例如，以状态信息为快乐状态为例，其对应的文本信息可以为“哈哈哈哈”，也可以是“心情美的像过年一样”。

步骤S203，将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库；

步骤S204，接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

比如，以图片D中阳光下的4个人为例，对于图片D而言，当该图片D对于的显示区域中接收到用户对所述当前图片数据的编辑指令时，可根据所述编辑指令提取所述当前图片数据中从左往右的人脸轮廓线和每个人的分布面积，具体地，请参见表2给出的图像特征情况表；

特征分类	特征A	特征B	特征C	特征D
					人脸轮廓线	方脸	圆脸	椭圆脸	三角脸
分布面积	1/6	2/6	1/6	1/6

表2

如上述表2所示的图像特征情况表可知，阳光下的4个人分别对应的特征为特征A，特征B，特征C，和特征D，在该图片D中，具有特征A的人脸轮廓线为方脸，在图片D中的分布面积达1/6；而具有特征B的人的人脸轮廓线为圆脸，在图片D中的分布面积达2/6；具有特征C的人脸轮廓线为椭圆脸，在图片D中的分布面积达1/6；具有特征D的人脸轮廓线为三角脸，在图片D中的分布面积达1/6；于是可按照4个人在图片D中的分布面积的大小确定目标物体图像为具有特征B的人对应的图像。

步骤S205，根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；

具体地，所述多媒体数据处理装置可在预设的映射关系表中查找与所述目标物体图像(所述目标物体图像包括唯一一个目标物体)对应的图像特征相关联的目标预设图像特征，并将所述目标预设图像特征对应的状态信息确定为所述当前图片数据对应的状态信息；

其中，所述行为状态包括：睡觉、吃饭、唱歌和表演；

步骤S206，筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据；

可选地，当用户感觉在所述本地文本数据库中筛选出的所述第一文本信息并非是用户想要的文本信息时，所述多媒体数据处理装置可接收用户的设置指令，并根据所述设置指令将所述当前网络状态对应的网络未连接状态调整为网络连接状态，并可获取所述云端文本数据库中的映射关系表，并可在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第二文本信息，以生成新的第一文本信息，以使所述第一文本信息和所述当前图片数据进行数据融合。

由此可见，所述多媒体数据处理装置首先设置多种状态信息，并为各状态信息分别配置对应的预设图像特征，并将各状态信息和各预设图像特征之间的映射关系添加至预设的映射关系表中；其次，设置与所述各状态信息分别对应的文本信息，并将所述各状态信息和各文本信息之间的映射关系添加至所述映射关系表中；紧接着，将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库；随后，接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；然后，根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；最后，筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。由此可见，所述多媒体数据处理装置可根据用户需求预先设置多种状态信息对应的图像特征和文本信息，并在接收到用户对当前图片数据的编辑指令时，提取所述当前图片数据中的目标物体图像，并在扫描到所述目标物体图像的图像特征时，确定所述当前图片数据对应的状态信息，并根据确定的状态信息筛选出与所述状态信息相匹配的文本信息，并生成包含文本信息的融合图片数据，以提供一种多媒体数据的制作方法，并可根据用户需求丰富多媒体数据的显示效果。

进一步地，请参见图3，是本发明实施例提供的又一种多媒体数据处理方法的流程示意图。如图3所示，所述多媒体数据处理方法至少包括：

步骤S301，设置映射关系表，并将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库；

其中，所述映射关系表中包括设置的多种状态信息和与所述多种状态信息对应的文本信息；

其中，所述步骤S301的具体实施方式可参见上述图2所对应实施例中步骤S201-步骤S203，这里不再进行赘述。

步骤S302，接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

比如，可选地，仍以上述图2所对应实施例中表2给出的例子为例，所述多媒体数据处理装置还可所述当前图片数据中四个人的图像作为目标物体图像，并扫描所述当前数据图片中四个人的图像特征(特征A，特征B，特征C，特征D)。

步骤S303，在预设的映射关系表中查找与所述图像特征相关联的至少一种预设图像特征；

比如，以步骤S301中给出的例子为例，扫描到的目标物体图像(该目标物体图像包括4个人的图像)对应的图像特征包括特征A，特征B，特征C，特征D，由于这4个人的特征(即特征A，特征B，特征C，特征D)均不相同，故而可在预设的映射关系表中分别查找与特征A、特征B、特征C、特征D分别对应的预设图像特征。例如，具有特征A的人对应的图像特征为嘴角上扬5度，则可对应的在映射关系表中查找到与特征A对应的预设图像特征可以为开心类型图像特征；同理可得，也可分别在映射关系表中查找到所述当前图片数据中剩下三个人对应的目标图像特征(比如，特征B为嘴角上扬2度，特征C为嘴角上扬4度，特征D为嘴角上扬7度)的预设图像特征。

步骤S304，根据预设的选择规则在查找到的所述至少一种预设图像特征中选择目标预设图像特征，并将所述目标预设图像特征对应的状态信息确定为所述当前图片数据对应的状态信息；

其中，预设的选择规则包括图像特征对应的分布面积大小和所述图像特征对应的表情优先级。

例如，以用户A在游乐场游玩，且抓拍到的当前图片数据中具有4个不同状态信息的图片为例，可根据上述步骤S303的具体执行方式对应的获得这4个人分别对应的预设图像特征，即可在预设的映射关系表中查找到与该图片相关联的4种预设图像特征对应的四种不同的表情状态信息(一个微笑，一个大笑，一个兴奋，一个惊恐)，于是，所述多媒体数据处理装置则可根据表情的优先级情况(兴奋>微笑>大笑>惊恐)，将该图片中的兴奋确定为所述当前图片数据对应的状态信息。

步骤S305，检测当前网络状态；

其中，所述当前网络状态包括网络未连接状态和网络连接状态，其中，当检查到所述当前网络状态为网络未连接状态时，则可进一步执行步骤S306-步骤S307；可选地，在执行完步骤S305之后，还可进一步执行步骤S308-步骤S311。

步骤S306，当检测到当前网络状态为网络未连接状态时，获取所述本地文本数据库中预设的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第一文本信息。

步骤S307，将所述第一文本信息与所述当前图片数据进行数据融合，生成携带所述第一文本信息的融合图片数据，并控制屏幕显示所述携带所述第一文本信息的融合图片数据。

步骤S308，当检测到当前网络状态为网络连接状态时，获取所述云端文本数据库中的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第二文本信息。

步骤S309，判断所述第二文本信息对应的出现频率和点击率是否均满足预设的融合条件。

步骤S310，若判断为满足所述融合条件，则将所述第二文本信息与所述当前图片数据进行数据融合，生成携带所述第二文本信息的融合图片数据，并控制屏幕显示所述携带所述第二文本信息的融合图片数据。

步骤S311，若判断为不满足所述融合条件，则显示文本输入界面，并在所述文本输入界面中接收到用户输入的第三文本信息时，将所述第三文本信息与所述当前图片数据进行数据融合，生成携带所述第三文本信息的融合图片数据，并控制屏幕显示所述携带所述第三文本信息的融合图片数据。

比如，当在检测到所述当前网络状态为网络连接状态时，所述多媒体数据处理装置则可根据所述云端中的映射关系表查找到与所述表情信息(失望)和行为信息(吃饭)具有映射关系的第二文本信息(好难吃)，此时，所述多媒体数据处理装置将判断所述第二文本信息对应的出现频率和点击率是否满足融合条件(比如，点击率大于60％，出现频率大于70％)，若所述第二文本信息对应的点击率为50％和/或出现频率50％，则认为所述第二文本信息不满足所述融合条件，则显示所述文本输入界面，并接收用户在所述文本输入界面中输入的第三文本信息(太可怕的黑暗料理)，并将所述第三文本信息与所述当前图片数据进行数据融合，以生成携带所述第三文本信息的融合图片数据。

由此可见，所述多媒体数据处理装置首先设置多种状态信息，并为各状态信息分别配置对应的预设图像特征，并将各状态信息和各预设图像特征之间的映射关系添加至预设的映射关系表中；其次，设置与所述各状态信息分别对应的文本信息，并将所述各状态信息和各文本信息之间的映射关系添加至所述映射关系表中；紧接着，将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库；随后，接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；然后，根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；最后，检测当前网络状态，并根据所述当前网络状态筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。由此可见，所述多媒体数据处理装置可根据用户需求预先设置多种状态信息对应的图像特征和文本信息，并在接收到用户对当前图片数据的编辑指令时，提取所述当前图片数据中的目标物体图像，并在扫描到所述目标物体图像的图像特征时，确定所述当前图片数据对应的状态信息，并在相应的网络状态下筛选出与所述状态信息相匹配的文本信息，以生成包含相应文本信息的融合图片数据，以贴合用户对多媒体数据的制作要求，进而可在制作多媒体数据的同时，一并实现快捷的图文搭配，以节约多媒体数据制作的时间，并丰富多媒体数据的显示效果。

进一步地，请参见图4，是本发明实施例提供的一种多媒体数据处理装置的结构示意图。如图4所示，所述多媒体数据处理装置1至少包括：提取扫描模块10，状态确定模块20和图文融合模块30；

所述提取扫描模块10，用于接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

具体地，所述多媒体数据处理装置1中的所述提取扫描模块10，具体用于接收用户在当前图片数据对应的显示区域中执行的对所述当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中人和/或物对应的图像的分布面积，并根据所述分布面积确定所述当前图片数据中人或物的优先级，并将优先级最高的人或物对应的图像确定为所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；

其中，所述多媒体数据处理装置1可以包括：智能手机、移动互联网设备、可穿戴设备(例如智能手表(如iwatch等)、智能手环)或其他可安装即时通讯应用客户端的终端设备；

所述状态确定模块20，用于根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；

具体地，所述状态确定模块20，可用于在预设的映射关系表中查找与所述图像特征相关联的至少一种预设图像特征，并可根据预设的选择规则在查找到的所述至少一种预设图像特征中选择目标预设图像特征，并将所述目标预设图像特征对应的状态信息确定为所述当前图片数据对应的状态信息；

其中，所述行为状态包括：睡觉、吃饭、唱歌和表演；

所述图文融合模块30，用于筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据；

具体地，所述图文融合模块30，可用于检测当前网络状态，并在检测到所述当前网络状态为网络未连接状态时，可从所述本地文本数据库中获取预设的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第一文本信息，并将所述第一文本信息与所述当前图片数据进行数据融合，生成携带所述第一文本信息的融合图片数据，并控制屏幕显示所述携带所述第一文本信息的融合图片数据。

由此可见，所述多媒体数据处理装置1首先接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；然后，根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；最后，筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。由此可见，所述多媒体数据处理装置1可在接收到用户对当前图片数据的编辑指令时，提取所述当前图片数据中的目标物体图像，并在扫描到所述目标物体图像的图像特征时，确定所述当前图片数据对应的状态信息，并根据确定的状态信息筛选出与所述状态信息相匹配的文本信息，并生成包含文本信息的融合图片数据，以对多媒体数据提供一种快捷的图文搭配方法，并可根据用户需求丰富多媒体数据的显示效果。

进一步地，请参见图5，是本发明实施例提供的另一种多媒体数据处理装置的结构示意图。如图5所示，所述多媒体数据处理装置1包含上述图4所对应实施例中的所述提取扫描模块10，状态确定模块20和图文融合模块30；进一步地，所述多媒体数据处理装置1还包括：状态设置模块40，文本设置模块50和存储模块60；

所述状态设置模块40，用于设置多种状态信息，并为各状态信息分别配置对应的预设图像特征，并将各状态信息和各预设图像特征之间的映射关系添加至预设的映射关系表中；

其中，预设图像特征可用于对图像中目标物体对应的目标特征的进行图像识别，且目标物体对应的目标特征代表了目标区域的特性，在进行图像识别的过程中，往往借助于直观性特征，如图像的边沿、轮廓、纹理和区域等进行图像特征的扫描，这些都属于图像灰度的直观特征，它们的物理意义明确，可通过相应的提取算法进行特征提取。

具体地，请参见上述图2所对应实施例中对表1给出的部分映射关系表的描述，这里不再进行一一赘述。

所述文本设置模块50，用于设置与所述各状态信息分别对应的文本信息，并将所述各状态信息和各文本信息之间的映射关系添加至所述映射关系表中。

所述存储模块60，用于将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库。

进一步地，请参见图6，是本发明实施例提供的一种状态确定模块的结构示意图。如图6所示，所述状态确定模块20包括：特征查找单元201和选择确定单元202；

所述特征查找单元201，用于在预设的映射关系表中查找与所述图像特征相关联的至少一种预设图像特征；

所述选择确定单元202，用于根据预设的选择规则在查找到的所述至少一种预设图像特征中选择目标预设图像特征，并将所述目标预设图像特征对应的状态信息确定为所述当前图片数据对应的状态信息；

进一步地，请参见图7，是本发明实施例提供的一种图文融合模块的结构示意图。如图7所示，所述图文融合模块30包括：网络检测单元301，本地筛选单元302，本地融合单元303，云端筛选单元304，条件判断单元305，第一融合单元306和第二融合单元307；

所述网络检测单元301，用于检测当前网络状态；

其中，所述当前网络状态包括网络未连接状态和网络连接状态，其中，当检查到所述当前网络状态为网络未连接状态时，所述多媒体数据处理装置1的具体实现方式可进一步执行上述图3所对应实施例中对步骤S306-步骤S307的描述；可选地，所述多媒体数据处理装置1的具体实现方式还可进一步参见上述图3所对应实施例中对步骤S308-步骤S311的描述；这里不再进行赘述。

所述本地筛选单元302，用于当检测到当前网络状态为网络未连接状态时，获取所述本地文本数据库中预设的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第一文本信息；

所述本地融合单元303，用于将所述第一文本信息与所述当前图片数据进行数据融合，生成携带所述第一文本信息的融合图片数据，并控制屏幕显示所述携带所述第一文本信息的融合图片数据。

可选地，所述云端筛选单元304，用于当检测到当前网络状态为网络连接状态时，获取所述云端文本数据库中的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第二文本信息；

所述条件判断单元305，用于判断所述第二文本信息对应的出现频率和点击率是否均满足预设的融合条件；

所述第一融合单元306，用于若判断为满足所述融合条件，则将所述第二文本信息与所述当前图片数据进行数据融合，生成携带所述第二文本信息的融合图片数据，并控制屏幕显示所述携带所述第二文本信息的融合图片数据；

所述第二融合单元307，用于若判断为不满足所述融合条件，则显示文本输入界面，并在所述文本输入界面中接收到用户输入的第三文本信息时，将所述第三文本信息与所述当前图片数据进行数据融合，生成携带所述第三文本信息的融合图片数据，并控制屏幕显示所述携带所述第三文本信息的融合图片数据。

比如，当在检测到所述当前网络状态为网络连接状态时，所述多媒体数据处理装置则可根据所述云端中的映射关系表查找到与所述表情信息(失望)和行为信息(吃饭)具有映射关系的第二文本信息(好难吃)，此时，所述多媒体数据处理装置将判断所述第二文本信息对应的出现频率和点击率是否满足融合条件(比如，点击率大于60％，出现频率大于70％)，可选地，当所述第二文本信息对应的点击率为70％和/或出现频率80％时，认为所述第二文本信息满足所述融合条件，并将所述第二文本信息与所述当前图片数据进行数据融合，以生成携带所述第二文本信息的融合图片数据。

由此可见，所述多媒体数据处理装置首先设置多种状态信息，并为各状态信息分别配置对应的预设图像特征，并将各状态信息和各预设图像特征之间的映射关系添加至预设的映射关系表中；其次，设置与所述各状态信息分别对应的文本信息，并将所述各状态信息和各文本信息之间的映射关系添加至所述映射关系表中；紧接着，将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库；随后，接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；然后，根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；最后，检测当前网络状态，并根据所述当前网络状态筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。由此可见，所述多媒体数据处理装置可根据用户需求预先设置多种状态信息对应的图像特征和文本信息，并在接收到用户对当前图片数据的编辑指令时，提取所述当前图片数据中的目标物体图像，并在扫描到所述目标物体图像的图像特征时，确定所述当前图片数据对应的状态信息，并在相应的网络状态下筛选出与所述状态信息相匹配的文本信息，以生成包含相应文本信息的融合图片数据，以贴合用户对多媒体数据的制作要求，进而可对多媒体数据提供不同搜索路径下的图文搭配的方法，以丰富多媒体数据的显示效果。

进一步地，再请参见图8，是本发明实施例提供的又一种多媒体数据处理装置的结构示意图，如图8所示，所述多媒体数据处理装置1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图8所示的多媒体数据处理装置1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输出的数据；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

在一个实施例中，所述处理器1001在执行所述接收用户对当前图片数据的编辑指令之前，还执行以下步骤：

设置多种状态信息，并为各状态信息分别配置对应的预设图像特征，并将各状态信息和各预设图像特征之间的映射关系添加至预设的映射关系表中；

设置与所述各状态信息分别对应的文本信息，并将所述各状态信息和各文本信息之间的映射关系添加至所述映射关系表中；

将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库。

在一个实施例中，所述处理器1001在执行所述根据所述图像特征确定所述当前图片数据对应的状态信息时，具体执行以下步骤：

在预设的映射关系表中查找与所述图像特征相关联的至少一种预设图像特征；

根据预设的选择规则在查找到的所述至少一种预设图像特征中选择目标预设图像特征，并将所述目标预设图像特征对应的状态信息确定为所述当前图片数据对应的状态信息。

在一个实施例中，所述处理器1001在执行所述筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据时，具体执行以下步骤：

检测当前网络状态；

当检测到当前网络状态为网络未连接状态时，获取所述本地文本数据库中预设的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第一文本信息；

将所述第一文本信息与所述当前图片数据进行数据融合，生成携带所述第一文本信息的融合图片数据，并控制屏幕显示所述携带所述第一文本信息的融合图片数据。

在一个实施例中，所述处理器1001，还执行以下步骤：

当检测到当前网络状态为网络连接状态时，获取所述云端文本数据库中的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第二文本信息；

判断所述第二文本信息对应的出现频率和点击率是否均满足预设的融合条件；

若判断为满足所述融合条件，则将所述第二文本信息与所述当前图片数据进行数据融合，生成携带所述第二文本信息的融合图片数据，并控制屏幕显示所述携带所述第二文本信息的融合图片数据；

若判断为不满足所述融合条件，则显示文本输入界面，并在所述文本输入界面中接收到用户输入的第三文本信息时，将所述第三文本信息与所述当前图片数据进行数据融合，生成携带所述第三文本信息的融合图片数据，并控制屏幕显示所述携带所述第三文本信息的融合图片数据。

由此可见，所述多媒体数据处理装置1000可用于接收用户对当前图片数据的编辑指令，并根据所述编辑指令提取所述当前图片数据中的目标物体图像，并扫描所述目标物体图像的图像特征；根据所述图像特征确定所述当前图片数据对应的状态信息；所述状态信息包括表情状态信息和行为状态信息；筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据。由此可见，所述多媒体数据处理装置可接受到用户对当前图片书记的编辑指令时，提取所述当前图片数据中的目标物体图像，并在扫描到所述目标物体图像的图像特征时，确定所述当前图片数据对应的状态信息，并根据检测到的当前网络状态进行不同搜索路径下与所述状态信息相匹配的文本信息的筛选，并生成包含相应文本信息的融合图片数据，以对多媒体数据提供一种快捷的图文搭配方法，并可根据用户需求丰富表情包的显示效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述接收用户对当前图片数据的编辑指令之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述图像特征确定所述当前图片数据对应的状态信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述筛选与所述表情状态信息和行为状态信息相匹配的文本信息，并将所述文本信息与所述当前图片数据进行数据融合，生成包含文本信息的融合图片数据，包括：

检测当前网络状态；

5.根据权利要求4所述的方法，其特征在于，还包括：

6.一种多媒体数据处理装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括：

状态设置模块，用于设置多种状态信息，并为各状态信息分别配置对应的预设图像特征，并将各状态信息和各预设图像特征之间的映射关系添加至预设的映射关系表中；

文本设置模块，用于设置与所述各状态信息分别对应的文本信息，并将所述各状态信息和各文本信息之间的映射关系添加至所述映射关系表中；

存储模块，用于将所述映射关系表存储至本地文本数据库，或将所述映射关系表上传至云端文本数据库。

8.根据权利要求6所述的装置，其特征在于，所述状态确定模块，包括：

特征查找单元，用于在预设的映射关系表中查找与所述图像特征相关联的至少一种预设图像特征；

选择确定单元，用于根据预设的选择规则在查找到的所述至少一种预设图像特征中选择目标预设图像特征，并将所述目标预设图像特征对应的状态信息确定为所述当前图片数据对应的状态信息。

9.根据权利要求6所述的装置，其特征在于，所述图文融合模块，包括：

网络检测单元，用于检测当前网络状态；

本地筛选单元，用于当检测到当前网络状态为网络未连接状态时，获取所述本地文本数据库中预设的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第一文本信息；

本地融合单元，用于将所述第一文本信息与所述当前图片数据进行数据融合，生成携带所述第一文本信息的融合图片数据，并控制屏幕显示所述携带所述第一文本信息的融合图片数据。

10.根据权利要求9所述的装置，其特征在于，还包括：

云端筛选单元，用于当检测到当前网络状态为网络连接状态时，获取所述云端文本数据库中的映射关系表，并在所述映射关系表中筛选与所述当前图片数据对应的所述表情信息和行为信息具有映射关系的第二文本信息；

条件判断单元，用于判断所述第二文本信息对应的出现频率和点击率是否均满足预设的融合条件；

第一融合单元，用于若判断为满足所述融合条件，则将所述第二文本信息与所述当前图片数据进行数据融合，生成携带所述第二文本信息的融合图片数据，并控制屏幕显示所述携带所述第二文本信息的融合图片数据；

第二融合单元，用于若判断为不满足所述融合条件，则显示文本输入界面，并在所述文本输入界面中接收到用户输入的第三文本信息时，将所述第三文本信息与所述当前图片数据进行数据融合，生成携带所述第三文本信息的融合图片数据，并控制屏幕显示所述携带所述第三文本信息的融合图片数据。