CN106156310A

CN106156310A - 一种图片处理装置和方法

Info

Publication number: CN106156310A
Application number: CN201610512304.5A
Authority: CN
Inventors: 戴向东; 王猛
Original assignee: Nubia Technology Co Ltd
Current assignee: Nubia Technology Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2016-11-23

Abstract

本发明公开了一种图片处理装置和方法，包括：提取出图片的特征信息，然后接收语音信息，识别出所述语音信息中对所述图片处理的操作指令，根据所识别的操作指令对所提取的特征信息进行相应的操作。这样通过识别出语音信息中的对图片处理的操作指令，而对图片进行相应的操作，简化了用户图片处理操作，添加了用户处理图片的趣味性，提高了用户体验度。

Description

一种图片处理装置和方法

技术领域

本发明涉及通信技术领域，尤指一种图片处理装置和方法。

背景技术

目前，随着移动终端的发展，现在的手机不仅可以满足日常的通信功能，还可以进行摄影记录人们的生活，越来越多的人们喜欢通过便携的手机来进行拍照分享。

现有技术中，人们对图片的要求也越来越高，都是采用图片处理软件进行相应的处理，例如：美颜、添加文字、调整色调等操作。

但是，采用现有技术，操作的方式很单一，缺少趣味性，尤其对于不熟悉图片处理操作的用户费时费力，很不方便。

发明内容

为了解决上述技术问题，本发明提供了一种图片处理装置和方法，能够方便用户进行图片处理，并能提高用户在图片处理时的趣味性和互动性，提高了用户的体验度。

为了达到本发明目的，第一方面，本发明实施例提供了一种图片处理装置，该装置包括：特征提取模块、语音识别模块和图片处理模块；

所述特征提取模块，设置为提取出图片的特征信息；

所述语音识别模块，设置为接收语音信息，识别出所述语音信息中对所述图片处理的操作指令；

所述图片处理模块，设置为根据所识别的操作指令对所提取的特征信息进行相应的操作。

本发明提供了一种图片处理装置，包括：特征提取模块、语音识别模块和图片处理模块，通过识别出语音信息中的对图片处理的操作指令，而对图片进行相应的操作，简化了用户图片处理操作，添加了用户处理图片的趣味性，提高了用户体验度。

在一个实施例中，所述特征提取模块还设置在提取图片的特征信息之前，依据预定的图片中的内容模型学习每个图片的特征信息，其中，所述内容模型包括至少一个内容标签、像素点的坐标位置和内容关联信息。

通过深度学习图片内容模型中的特征信息，可以精准地定位用户的需求，从而便于用户更快地获取到需要处理的特征信息，提高了用户的满意度。

在一个实施例中，所述特征信息包括至少一个应用场景特征信息、人物特征信息、物体特征信息、位置特征信息以及时间特征信息。

根据这些特征信息有利于机器学习从图片的内容中匹配到这些特征信息来对图片进行相应的处理，使得处理的更加准确。

在一个实施例中，所述语音识别模块设置为识别出所述语音信息中对所述图片处理的操作指令，是指：

所述语音识别模块设置为将接收后的语音信息与预定的语音数据库进行匹配，根据所匹配的结果识别出所述语音信息中对所述图片处理的操作指令。

通过识别语音信息中对图片处理的操作指令，可以快速高效地帮助用户获取想要的图片处理结果，提高了用户的体验度。

在一个实施例中，所述预定的语音数据库是根据预定的语音数据提取出随时间变化的语音特征来构建的声学模型。

通过建立声学模型的语音数据库，从而便于快速识别用户的意图，提高了用户满意度。

第二方面，本发明实施例提供了一种图片处理方法，该方法包括：

提取出图片的特征信息；

接收语音信息，识别出所述语音信息中对所述图片处理的操作指令；

根据所识别的操作指令对所提取的特征信息进行相应的操作。

本发明提供了一种图片处理方法，通过识别出语音信息中的对图片处理的操作指令，而对图片进行相应的操作，简化了用户图片处理操作，添加了用户处理图片的趣味性，提高了用户体验度。

在一个实施例中，在提取图片的特征信息之前，还包括：

依据预定的图片中的内容模型学习每个图片的特征信息，其中，所述内容模型包括至少一个内容标签、像素点的坐标位置和内容关联信息。

在一个实施例中，识别出所述语音信息中对所述图片处理的操作指令，包括：

将接收后的语音信息与预定的语音数据库进行匹配，根据所匹配的结果识别出所述语音信息中对所述图片处理的操作指令。

在一个实施例中，所述预定的语音数据库是根据预定的语音数据提取出随时间变化的语音特征来构建的语音模型和声学模型。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为实现本发明各个实施例一个可选的移动终端的硬件结构示意图；

图2为如图1所示的移动终端的无线通信系统示意图；

图3为本发明提供的一种图片处理装置实施例一的模块示意图；

图4为本发明提供的一种图片处理装置实施例一水果特征提取的示意图；

图5为本发明提供的一种图片处理装置实施例一风景特征提取的示意图；

图6为本发明提供的一种图片处理方法实施例一流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身并没有特定的意义。因此，"模块"与"部件"可以混合地使用。

移动终端可以以各种形式来实施。例如，本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面，假设终端是移动终端。然而，本领域技术人员将理解的是，除了特别用于移动目的的元件之外，根据本发明的实施方式的构造也能够应用于固定类型的终端。

图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意。

移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端，但是应理解的是，并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。

无线通信单元110通常包括一个或多个组件，其允许移动终端100与无线通信系统或网络之间的无线电通信。例如，无线通信单元可以包括移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。

移动通信模块112将无线电信号发送到基站(例如，接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。

无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。

短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙^TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂^TM等等。

位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块的典型示例是GPS(全球定位系统)。根据当前的技术，GPS模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法，从而根据经度、纬度和高度准确地计算三维当前位置信息。当前，用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外，GPS模块115能够通过实时地连续计算当前位置信息来计算速度信息。

A/V输入单元120可以包括相机121，相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送，可以根据移动终端的构造提供两个或更多相机1210。

用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息，并且可以包括键盘、锅仔片、触摸板(例如，检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地，当触摸板以层的形式叠加在显示单元151上时，可以形成触摸屏。

接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外，具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式，因此，识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。

另外，当移动终端100与外部底座连接时，接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如，音频信号、视频信号、警报信号、振动信号等等)。

输出单元150可以包括显示单元151等等。

显示单元151可以显示在移动终端100中处理的信息。例如，当移动终端100处于电话通话模式时，显示单元151可以显示与通话或其它通信(例如，文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时，显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。

同时，当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时，显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看，这可以称为透明显示器，典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式，移动终端100可以包括两个或更多显示单元(或其它显示装置)，例如，移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。

音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时，将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且，音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。

存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等，或者可以暂时地存储己经输出或将要输出的数据(例如，电话簿、消息、静态图像、视频等等)。而且，存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。

存储器160可以包括至少一种类型的存储介质，所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且，移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。

控制器180通常控制移动终端的总体操作。例如，控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外，控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181，多媒体模块181可以构造在控制器180内，或者可以构造为与控制器180分离。控制器180可以执行模式识别处理，以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。

电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。

这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施，这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施，在一些情况下，这样的实施方式可以在控制器180中实施。对于软件实施，诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施，软件代码可以存储在存储器160中并且由控制器180执行。

至此，己经按照其功能描述了移动终端。下面，为了简要起见，将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此，本发明能够应用于任何类型的移动终端，并且不限于滑动型移动终端。

如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。

现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。

这样的通信系统可以使用不同的空中接口和/或物理层。例如，由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地，长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例，下面的描述涉及CDMA通信系统，但是这样的教导同样适用于其它类型的系统。

参考图2，CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造，所述接口包括例如E1/T1、ATM，IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是，如图2中所示的系统可以包括多个BSC2750。

每个BS270可以服务一个或多个分区(或区域)，由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者，每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配，并且每个频率分配具有特定频谱(例如，1.25MHz,5MHz等等)。

分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下，术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者，特定BS270的各分区可以被称为多个蜂窝站。

在图2中，示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。

在图2中，描绘了多个卫星300，但是理解的是，可以利用任何数目的卫星获得有用的定位信息。如图1中所示的GPS模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外，可以使用可以跟踪移动终端的位置的其它技术。另外，至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。

作为无线通信系统的一个典型操作，BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280，其提供用于与PSTN290形成接口的额外的路由服务。类似地，PSTN290与MSC280形成接口，MSC与BSC275形成接口，并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。

基于上述移动终端硬件结构以及通信系统，本发明实施例主要应用于内存有多张图片的移动终端，该移动终端可以是智能手机、照相机、手持机、平板电脑等，但并不以此为限。

本发明实施例涉及的装置和方法，旨在解决现有技术中用户查找图片费时费力的技术问题。

下面以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图3为本发明提供的一种图片处理装置实施例一的模块示意图，如图3所示，包括：特征提取模块10、语音识别模块20和图片处理模块30。

S101、所述特征提取模块10，设置为提取出图片的特征信息。

具体的，用户通过移动终端如手机打开一副图片，特征提取模块10可以利用深度学习技术来学习来提取该图片的特征信息，深度学习是机器学习领域中对模式(声音、图像等等)进行建模的一种方法，它也是一种基于统计的概率模型，在对各种内容进行学习建模之后，便可以对各种模式进行识别了，主要是通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示，例如：先是以某种方式，提取这个方式中的特征，这个特征的提取方式有时候是人工设计或者指定的，有时候是在给定相对较多数据的前提下，由机器总结出来的，如果待建模的内容是风景画场景，那么这种识别便可以理解为图像深度学习。通过机器自动学习出模型特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性。学习的特征信息可以包括场景信息、人物的特征信息、物体的特征信息、时间的特征信息等等，但并不限于此。

所述语音识别模块20，设置为接收语音信息，识别出所述语音信息中的对所述图片处理的操作指令。

具体的，用户对移动终端如手机发出语音指令，移动终端的系统接收到该语音指令，通过语音识别模块利用语音识别技术，分析出用户的语音内容，该语音内容包括对图片处理的操作指令，如：将照片放大或者缩小、对照片进行美颜、将图片进行调色等操作指令。现在，随着互联网的快速发展，以及手机等移动终端的普及应用，可以从多个渠道获取大量文本或语音方面的数据库资料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能，借助机器学习领域深度学习研究的发展以及大数据语音方面的数据库资料的积累，语音识别技术得到突飞猛进的发展。下面对于使用机器学习语音内容并识别语音中的指令的具体实现步骤如下：

1)获取大规模的语音数据，提取语音数据的特征，其目的是从语音波形中提取出随时间变化的语音特征序列；

2)从所提取的语音特征通过学习算法产生声学模型，在识别时将输入的语音特征与声学模型进行匹配与比较，获取最佳的语音匹配数据；

3)将所匹配的语音数据转换为机器可以识别的操作指令，完成识别结果。

例如：用户输入语音内容是：“天空出现美丽的彩虹”的语音内容”，语音识别模块会根据用户输入语音的内容与声学模型作匹配，该声学模型是根据用户的说出的每个字或者词组来建立，可以是预定的数据库，也可以是机器学习之后形成的建立的数据库，例如：有普通话版数据库、方言版数据库、根据用户的录音机器学习创建的数据库，然后从这些数据库中获取最佳的语音匹配数据，将这个最佳的语音匹配数据转换为机器可以识别的操作指令，在转换为机器可以识别的操作指令，通常是采用自然语言处理技术，来解析语音输入中用户给出的操作指令，自然语言处理技术主要是让机器理解人类的语言的一门领域，将用户的输入语句进行语义分割，词法分析，语法分析等等，但并不以此为限。

S103、所述图片处理模块30，设置为根据所识别的操作指令对所提取的特征信息进行相应的操作。

具体的，该图片处理模块30会根据上述自然语言技术的解析结果，在图像上完成相应的图像处理任务，实现用户的语音与图片内容的互动。例如：用户输入语音内容是：“天空出现美丽的彩虹”的语音内容”，语音识别模块会根据用户输入语音的内容与声学模型作匹配，匹配出机器可以识别的操作指令，然后根据该操作指令来完成图片处理，如果图片中有天空，图片区域的天空就会出现彩虹。

本实施例提供了一种图片处理装置，包括：特征提取模块、语音识别模块和图片处理模块，该特征提取模块提取出图片的特征信息，该语音识别模块接收语音信息，识别出所述语音信息中对所述图片处理的操作指令，该图片处理模块，根据所识别的操作指令对所提取的特征信息进行相应的操作。通过识别出语音信息中的对图片处理的操作指令，而对图片进行相应的操作，简化了用户图片处理操作，添加了用户处理图片的趣味性，提高了用户体验度。

进一步地，所述特征提取模块10设置为在提取图片的特征信息之前，依据预定的图片中的内容模型学习每个图片的特征信息，其中，所述内容模型包括至少一个内容标签、像素点的坐标位置和内容关联信息。

具体的，图4为本发明提供的一种图片处理装置实施例一水果特征提取的示意图，图5为本发明提供的一种图片处理装置实施例一风景特征提取的示意图，所述特征提取模块10会依据预定的图片的内容模型学习每个图片的的特征信息，其中，内容模型需要能够提供“相当大”量级的数据，可以通过移动终端来提供大量的语音和图像数据，这样可以为深度学习提供了源源不断的数据来源，具体到图像场景内容识别中，深度学习首先利用大数据平台收集不同场景的各类物体，然后将这这些数据输入到卷积神经网络中，进行自动学习不同物体的各种特征，训练出分类这些不同物体的非线性特征组合参数之后，在具体的场景检测中就可以利用这些学习参数去识别不同场景的不同物体种类，从而利用深度学习检测图像获取对于该图像内容的语言描叙模型，该内容模型包括图像的内容标签、像素点的坐标位置、内容关联信息等，将场景识别的内容写入到图片属性中，如图4、图5所示，图4中展示了一副草莓水果，深度学习模型检测出图片中的草莓物体，给出该物体的内容关联信息如：颜色、所属食物种类、营养健康等信息，图5中展示了一处风景，深度学习模型检测出图片中的风景，给出该风景的内容关联信息如：分为右上部蓝色的天空、左下部红褐色的圆顶岩石、中间的绿色树木、整体的干燥景观，这些内容关联信息包含了图片物体的颜色、种类、形状、位置等信息，但并不限于此。

本实施例中，通过深度学习图片内容模型中的特征信息，可以精准地定位用户的需求，从而便于用户更快地获取到需要处理的特征信息，提高了用户的满意度。

进一步地，在一个实施例中，所述特征信息包括至少一个应用场景特征信息、人物特征信息、物体特征信息、位置特征信息以及时间特征信息。

具体的，该图片的特征信息可以是一个以下特征信息的一个或者多个，对于应用场景特征信息，可以是森林的特征信息树木、大山等，也可以是城市的特征信息楼宇、商场等，还可以是乡村的特征信息农场、菜地等等，对于人物特征信息，可以是人脸部的特征信息眼睛、鼻子、嘴巴等，也可以是小孩的特征信息身高、体重等，还可以是一群人的特征信息男人、女人、老人、小孩等，对于物体特征信息，可以是大小、颜色、形状等特征信息，例如：草莓的颜色、大小、形状等，汽车的颜色、大小、形状等，具体根据物体的不同而选择不同的特征信息，对于位置特征信息，可以是根据图片中的像素点的坐标确定各物体的坐标位置，从而便于后续根据用户的语音操作指令找到对应的物体进行处理，对于时间特征信息，可以是图片的存储时间、图片的拍摄时间、图片中内容所对应的时间等，例如：拍摄日期、存储日期、早上、夕阳西下时，可以便于用户根据这个时间来对图片进行处理。

在本实施例中，根据这些特征信息有利于机器学习从图片的内容中匹配到这些特征信息来对图片进行相应的处理，使得处理的更加准确。

进一步地，在一个实施例中，所述语音识别模块设置为识别出所述语音信息中对所述图片处理的操作指令，是指：

具体的，该语音识别模块20提取接收后语音信息特征的对于使用机器学习语音内容并识别语音中的指令的具体实现步骤如下：

在本实施例中，通过识别语音信息中对图片处理的操作指令，可以快速高效地帮助用户获取想要的图片处理结果，提高了用户的体验度。

进一步地，在一个实施例中，所述预定的语音数据库是根据预定的语音数据提取出随时间变化的语音特征来构建的声学模型。

具体的，该预定的语音数据库最重要的就是建立声学模型，该声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分，声学模型单元大小(字发音模型、半发音模型或音素模型)对语音训练数据量大小、系统识别率，以及灵活性有较大的影响，必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小，建立声学模型的目的是提供一种有效的方法计算语音是特征矢量序列和各个发音模板之间的距离。

在本实施例中，通过建立声学模型的语音数据库，从而便于快速识别用户的意图，提高了用户满意度。

需要说明的是，本发明提供的装置中特征提取模块10、语音识别模块20、图片处理模块30可以设置在图1中的控制器180中。

图6为本发明提供的一种图片处理方法实施例一的模块示意图，如图6所示，本方法包括：

S101、提取出图片的特征信息。

具体的，用户通过移动终端如手机打开一副图片，可以利用深度学习技术来学习来提取该图片的特征信息，深度学习是机器学习领域中对模式(声音、图像等等)进行建模的一种方法，它也是一种基于统计的概率模型，在对各种内容进行学习建模之后，便可以对各种模式进行识别了，主要是通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示，例如：先是以某种方式，提取这个方式中的特征，这个特征的提取方式有时候是人工设计或者指定的，有时候是在给定相对较多数据的前提下，由机器总结出来的，如果待建模的内容是风景画场景，那么这种识别便可以理解为图像深度学习。通过机器自动学习出模型特征的方法，并将特征学习融入到了建立模型的过程中，从而减少了人为设计特征造成的不完备性。学习的特征信息可以包括场景信息、人物的特征信息、物体的特征信息、时间的特征信息等等，但并不限于此。

S102、接收语音信息，识别出所述语音信息中对所述图片处理的操作指令。

具体的，用户对移动终端如手机发出语音指令，移动终端的系统接收到该语音指令，可以利用语音识别技术，分析出用户的语音内容，该语音内容包括对图片处理的操作指令，如：将照片放大或者缩小、对照片进行美颜、将图片进行调色等操作指令。现在，随着互联网的快速发展，以及手机等移动终端的普及应用，可以从多个渠道获取大量文本或语音方面的数据库资料，这为语音识别中的语言模型和声学模型的训练提供了丰富的资源，使得构建通用大规模语言模型和声学模型成为可能，借助机器学习领域深度学习研究的发展以及大数据语音方面的数据库资料的积累，语音识别技术得到突飞猛进的发展。下面对于使用机器学习语音内容并识别语音中的指令的具体实现步骤如下：

例如：用户输入语音内容是：“天空出现美丽的彩虹”的语音内容”，语音识别模块会根据用户输入语音的内容与声学模型作匹配，该声学模型是根据用户的说出的每个字或者词组来建立，可以是预定的数据库，也可以是机器学习之后形成的建立的数据库，例如：有普通话版数据库、方言版数据库、根据用户的录音机器学习创建的数据库，然后从这些数据库中获取最佳的语音匹配数据，将这个最佳的语音匹配数据转换为机器可以识别的操作指令，在转换为机器可以识别的操作指令，通常是采用自然语言处理技术，来解析语音输入中用户给出的操作指令，自然语言处理技术主要是让机器理解人类的语言的一门领域，将用户的输入语句进行语义分割，词法分析，语法分析等等，但并不限于此。

S103、根据所识别的操作指令对所提取的特征信息进行相应的操作。

具体的，会根据上述自然语言技术的解析结果，在图像上完成相应的图像处理任务，实现用户的语音与图片内容的互动。例如：用户输入语音内容是：“天空出现美丽的彩虹”的语音内容”，语音识别模块会根据用户输入语音的内容与声学模型作匹配，匹配出机器可以识别的操作指令，然后根据该操作指令来完成图片处理，如果图片中有天空，图片区域的天空就会出现彩虹。

本发明实施例提供了一种图片处理方法，包括：提取出图片的特征信息，然后接收语音信息，识别出所述语音信息中对所述图片处理的操作指令，根据所识别的操作指令对所提取的特征信息进行相应的操作。这样通过深度学习识别出语音信息中的对图片处理的操作指令，而对图片进行相应的操作，简化了用户图片处理操作，添加了用户处理图片的趣味性，提高了用户体验度。

进一步地，在一个实施例中，在提取图片的特征信息之前，还包括：

具体的，依据预定的图片中的内容模型学习每个图片的特征信息，其中，内容模型需要能够提供“相当大”量级的数据，可以通过移动终端来提供大量的语音和图像数据，这样可以为深度学习提供了源源不断的数据来源，具体到图像场景内容识别中，深度学习首先利用大数据平台收集不同场景的各类物体，然后将这些数据输入到卷积神经网络中，进行自动学习不同物体的各种特征，训练出分类这些不同物体的非线性特征组合参数之后，在具体的场景检测中就可以利用这些学习参数去识别不同场景的不同物体种类，从而利用深度学习检测图像获取对于该图像内容的语言描叙模型，该内容模型包括图像的内容标签、像素点的坐标位置、内容关联信息等，将场景识别的内容写入到图片属性中，如图4、图5所示，图4中展示了一副草莓水果，深度学习模型检测出图片中的草莓物体，给出该物体的内容关联信息如：颜色、所属食物种类、营养健康等信息，图5中展示了一处风景，深度学习模型检测出图片中的风景，给出该风景的内容关联信息如：分为右上部蓝色的天空、左下部红褐色的圆顶岩石、中间的绿色树木、整体的干燥景观，这些内容关联信息包含了图片物体的颜色、种类、形状、位置等信息，但并不限于此。

进一步地，在一个实施例中，识别出所述语音信息中对所述图片处理的操作指令，包括：

具体的，提取接收后语音信息特征的对于使用机器学习语音内容并识别语音中的指令的具体实现步骤如下：

例如：用户输入语音内容是：“天空出现美丽的彩虹”的语音内容”，语音识别模块会根据用户输入语音的内容与声学模型作匹配，该声学模型是根据用户的说出的每个字或者词组来建立，可以是预定的数据库，也可以是机器学习之后形成的建立的数据库，例如：有普通话版数据库、方言版数据库、根据用户的录音机器学习创建的数据库，然后从这些数据库中获取最佳的语音匹配数据，将这个最佳的语音匹配数据转换为机器可以识别的操作指令，在转换为机器可以识别的操作指令，通常是采用自然语言处理技术，来解析语音输入中用户给出的操作指令，自然语言处理技术主要是让机器理解人类的语言的一门领域，将用户的输入语句进行语义分割，词法分析，语法分析等等但并不以此为限。

可选的，在一个实施例中，所述预定的语音数据库是根据预定的语音数据提取出随时间变化的语音特征来构建的语音模型和声学模型。

在本实施例中，通过将按照优先级排序后的图片以所述索引照片为中心呈圆形或者扇形进行展示，可以尽可能多的展示出满足相似度预设阈值的图片，方便用户确定最终的目标图片，提高了用户的体验度。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种图片处理装置，其特征在于，该装置包括：特征提取模块、语音识别模块和图片处理模块；

所述特征提取模块，设置为提取出图片的特征信息；

2.根据权利要求1所述的装置，其特征在于，所述特征提取模块还设置在提取图片的特征信息之前，依据预定的图片中的内容模型学习每个图片的特征信息，其中，所述内容模型包括至少一个内容标签、像素点的坐标位置和内容关联信息。

3.根据权利要求2所述的装置，其特征在于，所述特征信息包括至少一个应用场景特征信息、人物特征信息、物体特征信息、位置特征信息以及时间特征信息。

4.根据权利要求1所述的装置，其特征在于，所述语音识别模块设置为识别出所述语音信息中对所述图片处理的操作指令，是指：

5.根据权利要求1所述的装置，其特征在于，所述预定的语音数据库是根据预定的语音数据提取出随时间变化的语音特征来构建的声学模型。

6.一种图片处理方法，其特征在于，该方法包括：

提取出图片的特征信息；

7.根据权利要求6所述的方法，其特征在于，在提取图片的特征信息之前，还包括：

8.根据权利要求6所述的方法，其特征在于，所述特征信息包括至少一个应用场景特征信息、人物特征信息、物体特征信息、位置特征信息以及时间特征信息。

9.根据权利要求8所述的方法，其特征在于，识别出所述语音信息中对所述图片处理的操作指令，包括：

10.根据权利要求9所述的方法，其特征在于，所述预定的语音数据库是根据预定的语音数据提取出随时间变化的语音特征来构建的语音模型和声学模型。