CN112804440A

CN112804440A - 一种处理图像的方法、装置及介质

Info

Publication number: CN112804440A
Application number: CN201911105654.XA
Authority: CN
Inventors: 王倩; 梁瑀航
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-11-13
Filing date: 2019-11-13
Publication date: 2021-05-14
Anticipated expiration: 2039-11-13
Also published as: CN112804440B

Abstract

本文公开了一种处理图像的方法、装置及介质，此方法包括：在取景模式下显示实时图像；获取麦克风采集的语音数据；识别所述语音数据；在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像，将所述渲染图像合成到所述实时图像上。本文可以为用户提供娱乐性视觉效果，提高软件的趣味性，提高用户的使用体验，还可以在节日时增强节日氛围。

Description

一种处理图像的方法、装置及介质

技术领域

本文涉及移动终端数据处理技术领域，尤其涉及一种处理图像的方法、装置及介质。

背景技术

随着终端软件的智能程度不断提高，语音助手也可以为用户提供越来越多的语音控制功能。用户对图像处理类软件的智能化需求也越来越高。

发明内容

为克服相关技术中存在的问题，本文提供一种处理图像的方法、装置及介质。

根据本文实施例的第一方面，提供一种用于移动终端的处理图像的方法，包括：

在取景模式下显示实时图像；

获取麦克风采集的语音数据；

识别所述语音数据；

在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像，将所述渲染图像合成到所述实时图像上；

或者，

显示通过无线通信链路接收的实时图像；

获取麦克风采集的语音数据或者通过无线通信链路接收的语音数据；

识别所述语音数据；

在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像，将所述渲染图像合成到所述实时图像上。

上述处理图像的方法还具有以下特点：

所述方法还包括：

确定所述渲染图像对应的渲染位置，所述渲染位置对应于一主体部位；

所述将所述渲染图像合成到所述实时图像上，包括：

检测所述实时图像中目标主体的所述主体部位，将所述渲染图像合成至所述实时图像中所述目标主体的所述主体部位所对应的渲染位置。

上述处理图像的方法还具有以下特点：

所述方法还包括：

确定所述实时图像中目标主体的所述主体部位的面积，根据所述主体部位的面积调整所述渲染图像的大小。

上述处理图像的方法还具有以下特点：

所述方法还包括：使用包含预设用语的内容的语音数据集合训练语音识别模型，所述包含预设用语的内容的语音数据集合中的语音的属性包括以下中的多种：不同的性别、不同的语调、不同的环境噪声、不同的音量；

所述识别所述语音数据，包括：使用所述语音识别模型识别所述语音数据。

上述处理图像的方法还具有以下特点：

所述包含预设用语的内容包括节日祝福用语；

所述方法包括：判断所述语音数据的语音内容中是否包括节日祝福用语，所述判断所述语音数据的语音内容中包括节日祝福用语，包括：

判断所述节日祝福用语中的节日是否是公众节日，在所述节日祝福用语中的节日是公众节日时，判断当前日期是否对应于所述公众节日，在当前日期对应于所述公众节日时，确定所述语音数据的语音内容中包括节日祝福用语；在所述节日祝福用语中的节日是非公众节日时，根据日志类软件记录的信息判断当前日期是否对应于所述非公众节日，当前日期对应于所述非公众节日时，确定所述语音数据的语音内容中包括节日祝福用语。

根据本文实施例的第二方面，还提供了一种处理图像的装置，包括：

显示模块，用于在取景模式下显示实时图像，或者，显示通过无线通信链路接收的实时图像；

获取模块，用于获取麦克风采集的语音数据或者通过无线通信链路接收的语音数据；

识别模块，用于识别所述语音数据；

第一确定模块，在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像；

第一合成模块，用于将所述渲染图像合成到所述实时图像上。

上述处理图像的装置还具有以下特点：

所述装置还包括：

第二确定模块，用于确定所述渲染图像对应的渲染位置，所述渲染位置对应于一主体部位；

所述第一合成模块包括：

检测模块，用于所述实时图像中目标主体的所述主体部位；

第二合成模块，用于将所述渲染图像合成至所述实时图像中所述目标主体的所述主体部位所对应的渲染位置。

上述处理图像的装置还具有以下特点：

所述第一合成模块还包括：

第三确定模块，用于确定所述实时图像中目标主体的所述主体部位的面积；

调整模块，用于根据所述主体部位的面积调整所述渲染图像的大小。

上述处理图像的装置还具有以下特点：

所述装置还包括：

训练模块，用于使用包含预设用语的内容的语音数据集合训练语音识别模型，所述包含预设用语的内容的语音数据集合中的语音的属性包括以下中的多种：不同的性别、不同的语调、不同的环境噪声、不同的音量；

所述识别模块，用于使用以下方法识别所述语音数据：使用所述语音识别模型识别所述语音数据。

上述处理图像的装置还具有以下特点：

所述包含预设用语的内容包括节日祝福用语；

所述装置还包括第一判断模块，用于判断所述语音数据的语音内容中是否包括节日祝福用语：

所述第一判断模块包括：

第二判断模块，用于判断所述节日祝福用语中的节日是否是公众节日；

第三判断模块，用于在所述节日祝福用语中的节日是公众节日时，判断当前日期是否对应于所述公众节日，在当前日期对应于所述公众节日时，确定所述语音数据的语音内容中包括节日祝福用语；在所述节日祝福用语中的节日是非公众节日时，根据日志类软件记录的信息判断当前日期是否对应于所述非公众节日，当前日期对应于所述非公众节日时，确定所述语音数据的语音内容中包括节日祝福用语。

根据本文实施例的第三方面，还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种处理图像的方法，所述方法包括：

在取景模式下显示实时图像；

获取麦克风采集的语音数据；

识别所述语音数据；

或者，

显示通过无线通信链路接收的实时图像；

识别所述语音数据；

在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像，将所述渲染图像合成到所述实时图像上。本文的实施例提供的技术方案可以包括以下有益效果：本文可以为用户提供娱乐性视觉效果，提高软件的趣味性，提高用户的使用体验，还可以在节日时增强节日氛围。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本文。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本文的实施例，并与说明书一起用于解释本文的原理。

图1是根据一示例性实施例示出的一种处理图像的方法的流程图；

图2是根据一示例性实施例示出的一种处理图像的方法的流程图；

图3是根据一示例性实施例示出的一种终端拍照时的图像处理后的示意图；

图4是根据一示例性实施例示出的一种终端拍照时的图像处理后的示意图；

图5是根据一示例性实施例示出的一种终端拍照时的图像处理后的示意图；

图6是根据一示例性实施例示出的一种处理图像的装置的结构图；

图7是根据一示例性实施例示出的一种处理图像的装置的结构图；

图8是根据一示例性实施例示出的一种处理图像的装置的结构图；

图9是根据一示例性实施例示出的一种处理图像的装置的结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本文相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本文的一些方面相一致的装置和方法的例子。

本公开实施例中提供一种处理图像的方法。参照图1，图1是根据一示例性实施例示出的一种处理图像的方法的流程图。此方法应用于移动终端，如图1所示，此方法包括：

步骤S11，在取景模式下显示实时图像；

步骤S12，获取获取麦克风采集的语音数据；

步骤S13,识别所述语音数据；

步骤S14，在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像；

步骤S15，将所述渲染图像合成到所述实时图像上。

此方法适用于开启相机的场景。

本方法中预设用语是一种指令，例如“变成”、“变身”、“变”、“变变变”、“化”等，包含预设用语的内容是“变成蝙蝠侠”、“变蜘蛛侠”等。

或者，预设用语是节日的名称，包含预设用语的内容是节日祝福用语，例如“生日快乐”、“圣诞节快乐”等。节日祝福用语中的节日是公众节日，例如：春节、圣诞节、万圣节等，或者是非公众节日，例如：生日结婚、纪念日等。

此方法可以为用户提供娱乐性视觉效果，提高软件的趣味性，提高用户的使用体验，还可以在节日时增强节日氛围。

本公开实施例中提供另一种处理图像的方法，适用于通过视频通话软件进行视频通话的场景。参照图2，图2是根据一示例性实施例示出的一种处理图像的方法的流程图。此方法应用于移动终端，如图2所示，此方法包括：

步骤S21，显示通过无线通信链路接收的实时图像；

步骤S22，获取麦克风采集的语音数据或者通过无线通信链路接收的语音数据；

步骤S23，识别所述语音数据；

步骤S24,在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像；

步骤S25，将所述渲染图像合成到所述实时图像上。

本公开实施例中还提供一种处理图像的方法。在此方法中，渲染图像的位置可以是任意位置。例如：节日是生日时，渲染图像是多个透明的生日蛋糕的图像，图1中所示的步骤S15中将渲染图像合成到实时图像上时，直接将渲染图像叠加至实时图像上。

本公开实施例中还提供一种处理图像的方法。在此方法中，渲染图像具有相应的渲染位置，渲染位置对应于一主体部位。实时图像中的主体可以是人物，也可以是动物。主体部位可以为头部、颈部、上半身等，渲染位置是指此位于主体部位的一方向的位置(例如主体部位的上方)、包括主体部位的一部分的位置(例如覆盖主体部位上三分之一部分的一区域)、主体部分的中间位置或者和此主体部位完全重叠的区域。

本方法在图1所示的方法的基础上，还包括确定所述渲染图像对应的主体部位。图1中所示的步骤S15中将渲染图像合成到实时图像上，包括：检测实时图像中目标主体的主体部位，将所述渲染图像合成至所述实时图像中所述目标主体的所述主体部位的位置。

下面通过在不同节日下的图像处理方法进行举例说明。

例如：

节日为圣诞节时，对应的渲染图像为圣诞帽，相应的主体部位为头部，渲染位置为包括头部的右上侧部分的一区域。如图3所示，实时图像中的主体为人物，如图4所示，实时图像中的主体为小动物，将圣诞帽合成至主体的头部的上方。

节日为生日时，对应的渲染图像为生日帽，相应的主体部位为头部，渲染位置为包括头部的左上侧部分的一区域。如图5所示，实时图像中的主体为人物，将生日帽合成至主体的头部的上方。

节日为万圣节时，对应的渲染图像为恶魔角，相应的主体部位为头部，渲染位置为头部上方。

节日为儿童节时，对应的渲染图像为小辫子，相应的主体部位为头部，渲染位置为头部上方。

节日为妇女节时，对应的渲染图像为王冠，相应的主体部位为头部，渲染位置为头部上方。

节日为妇女节时，对应的渲染图像为项链，相应的主体部位为颈部，渲染位置为颈部中间位置。

节日为春节时，对应的渲染图像为红色上衣，相应的主体部位为上半身，渲染位置为上半身位置。

本公开实施例中还提供一种处理图像的方法。此方法在上述实施例的基础上还包括：确定所述实时图像中目标主体的主体部位的面积，根据主体部位的面积调整渲染图像的大小，将调整后的所述渲染图像合成至所述实时图像中所述目标主体的所述主体部位的位置。

通过根据主体部位的面积调整渲染图像的大小，可以使合成后的效果更加美观，视觉效果更好。

本公开实施例中还提供一种处理图像的方法。在此方法在图1的基础上，还包括：使用包含预设用语的内容的语音数据集合训练语音识别模型，所述包含预设用语的内容的语音数据集合中的语音的属性包括以下中的多种：不同的性别、不同的语调、不同的环境噪声、不同的音量。识别所述语音数据包括：使用所述语音识别模型识别所述语音数据。

通过使用上述节日祝福用语语音集合进行训练后，语音识别模型具有较强的鲁棒性和稳定性，可以提高在各种场景下的识别率。

本公开实施例中还提供一种处理图像的方法。在此方法中，包含预设用语的内容包括节日祝福用语，此方法还包括判断所述语音数据的语音内容中是否包括节日祝福用语，具体包括：判断所述节日祝福用语中的节日是否是公众节日，在所述节日祝福用语中的节日是公众节日时，判断当前日期是否对应于所述公众节日，在当前日期对应于所述公众节日时，确定所述语音数据的语音内容中包括节日祝福用语；在所述节日祝福用语中的节日是非公众节日时，根据日志类软件记录的信息判断当前日期是否对应于所述非公众节日，当前日期对应于所述非公众节日时，确定所述语音数据的语音内容中包括节日祝福用语。

通过上述判断所述语音数据的语音内容中是否包括节日祝福用语的方法，可以提高渲染操作的准确性，避免频繁的出现不必要的渲染效果，影响用户的使用体验。

本公开实施例中还提供一种处理图像的装置。参照图6，图6是根据一示例性实施例示出的一种处理图像的装置的结构图。如图6所示，此装置包括：

显示模块61，用于在取景模式下显示实时图像，或者，显示通过无线通信链路接收的实时图像；

获取模块62，用于获取麦克风采集的语音数据或者通过无线通信链路接收的语音数据；

识别模块63，用于识别所述语音数据；

第一确定模块64，用于在所述语音数据的语音内容中包括包含预设用语的内容时，确定所述包含预设用语的内容对应的渲染图像；

第一合成模块65，用于将所述渲染图像合成到所述实时图像上。

本公开实施例中还提供一种处理图像的装置。参照图7，图7是根据一示例性实施例示出的一种处理图像的装置的结构图。如图7所示，此装置包括：

第二确定模块71，用于确定所述渲染图像对应的渲染位置，所述渲染位置对应于一主体部位；

所述第一合成模块65包括：

检测模块72，用于所述实时图像中目标主体的所述主体部位；

第二合成模块73，用于将所述渲染图像合成至所述实时图像中所述目标主体的所述主体部位所对应的渲染位置。

本公开实施例中还提供一种处理图像的装置。参照图8，图8是根据一示例性实施例示出的一种处理图像的装置的结构图。如图8所示，此装置包括：

第一合成模块65还包括：

第三确定模块81，用于确定所述实时图像中目标主体的所述主体部位的面积；

调整模块82，用于根据所述主体部位的面积调整所述渲染图像的大小。

本公开实施例中还提供一种处理图像的装置。此装置还包括：

所述识别模块63，用于使用以下方法识别所述语音数据：使用所述语音识别模型识别所述语音数据。

本公开实施例中还提供一种处理图像的装置。此装置还包括第一判断模块，用于判断所述语音数据的语音内容中是否包括节日祝福用语；

所述包含预设用语的内容包括节日祝福用语；

所述第一判断模块包括：

图9是根据一示例性实施例示出的一种用于处理图像的装置900的框图。例如，装置900可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，装置900可以包括以下一个或多个组件：处理组件902，存储器904，电力组件906，多媒体组件808，音频组件910，输入/输出(I/O)的接口912，传感器组件914，以及通信组件916。

处理组件902通常控制装置900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理系统，一个或多个电源，及其他与为装置900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当装置900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为装置900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为装置900的显示器和小键盘，传感器组件914还可以检测装置900或装置900一个组件的位置改变，用户与装置900接触的存在或不存在，装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由装置900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本文的其它实施方案。本申请旨在涵盖本文的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本文的一般性原理并包括本文未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本文的真正范围和精神由下面的权利要求指出。

应当理解的是，本文并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本文的范围仅由所附的权利要求来限制。

Claims

1.一种处理图像的方法，用于移动终端，其特征在于，包括：

在取景模式下显示实时图像；

获取麦克风采集的语音数据；

识别所述语音数据；

或者，

显示通过无线通信链路接收的实时图像；

识别所述语音数据；

2.如权利要求1所述的处理图像的方法，其特征在于，

所述方法还包括：

所述将所述渲染图像合成到所述实时图像上，包括：

3.如权利要求2所述的处理图像的方法，其特征在于，

所述方法还包括：

4.如权利要求1所述的处理图像的方法，其特征在于，

5.如权利要求1所述的处理图像的方法，其特征在于，

所述包含预设用语的内容包括节日祝福用语；

6.一种处理图像的装置，其特征在于，包括：

识别模块，用于识别所述语音数据；

7.如权利要求6所述的处理图像的装置，其特征在于，

所述装置还包括：

所述第一合成模块包括：

检测模块，用于所述实时图像中目标主体的所述主体部位；

8.如权利要求7所述的处理图像的装置，其特征在于，

所述第一合成模块还包括：

9.如权利要求6所述的处理图像的装置，其特征在于，

所述装置还包括：

10.如权利要求6所述的处理图像的装置，其特征在于，

所述包含预设用语的内容包括节日祝福用语；

所述装置还包括第一判断模块，用于判断所述语音数据的语音内容中是否包括节日祝福用语；

所述第一判断模块包括：

11.一种非临时性计算机可读存储介质，当所述非临时性计算机可读存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行一种处理图像的方法，所述方法包括：

在取景模式下显示实时图像；

获取麦克风采集的语音数据；

识别所述语音数据；

或者，

显示通过无线通信链路接收的实时图像；

识别所述语音数据；