CN117150063B

CN117150063B - 一种基于场景识别的图像生成方法及系统

Info

Publication number: CN117150063B
Application number: CN202311394712.1A
Authority: CN
Inventors: 石劲磊
Original assignee: Shenzhen Manyun Intelligent Technology Co ltd
Current assignee: Shenzhen Manyun Intelligent Technology Co ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-02-06
Anticipated expiration: 2043-10-26
Also published as: CN117150063A

Abstract

本发明适用于图像处理技术领域，提供了一种基于场景识别的图像生成方法及系统，包括以下步骤：接收用户输入的待处理图像；对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体；对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态；对待处理图像中包含的物体进行分析确定图像场景；将图像场景和人物所处状态输入至文字表情库中进行匹配，输出相匹配的文字信息和表情包；接收文字表情选择指令，将用户选择的文字信息和表情包添加至待处理图像上，生成目标图像。如此，本发明能够自动识别出待处理图像中的图像场景和人物所处状态，据此为用户推荐相匹配的文字信息和表情包，高效方便。

Description

一种基于场景识别的图像生成方法及系统

技术领域

本发明涉及图像处理技术领域，具体是涉及一种基于场景识别的图像生成方法及系统。

背景技术

越来越多的人们会在生活、工作、学习、旅行过程中拍摄图像，然后对图像进行处理后，将图像上传在各大社交软件和平台上，以记录和分享自己的生活，目前，常用的图像处理手段包括智能美化、添加文字框和表情包等等，其中添加文字框和表情包能够更好的传达用户情绪，但是用户往往需要耗费大量的时间找到与图像场景相匹配的文字框和表情包，效率较低。因此，需要提供一种基于场景识别的图像生成方法及系统，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于场景识别的图像生成方法及系统，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种基于场景识别的图像生成方法，所述方法包括以下步骤：

接收用户输入的待处理图像；

对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体；

对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态；

对待处理图像中包含的物体进行分析确定图像场景；

将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包；

接收文字表情选择指令，将用户选择的文字信息和表情包添加至待处理图像上，生成目标图像。

作为本发明进一步的方案：所述对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体的步骤，具体包括：

将待处理图像输入至物体特征模型中进行匹配，所述物体特征模型中包含数个物体，每个物体对应有物体特征信息；

识别待处理图像是否存在所述物体特征信息，当存在时，确定待处理图像中包含所述物体特征信息对应的物体。

作为本发明进一步的方案：所述对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态的步骤，具体包括：

识别待处理图像中的人脸区域，当人脸区域为多个时，提取出像素面积最大的人脸区域；

将提取出的人脸区域输入至人物特征模型中进行匹配，所述人物特征模型中包含数个状态特征，每个状态特征对应有表情特征信息；

根据表情特征信息对所述人脸区域进行识别分析，确定人物所处状态。

作为本发明进一步的方案：所述对待处理图像中包含的物体进行分析确定图像场景的步骤，具体包括：

将待处理图像中包含的物体输入至图像场景库中进行匹配，所述图像场景库中包含数个图像场景，每个图像场景对应有若干个物体；

计算待处理图像中的物体与每个图像场景对应的物体之间的匹配度，输出最高匹配度所对应的图像场景。

作为本发明进一步的方案：所述将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包的步骤，具体包括：

将图像场景和人物所处状态输入至文字表情库中进行匹配，所述文字表情库中包含数个文字信息和表情包，每个文字信息和表情包都对应有标签信息，标签信息包括图像场景标签和人物所处状态标签；

计算所述图像场景和人物所处状态与每个文字信息和表情包的标签信息之间的匹配度，按照匹配度对文字信息和表情包进行降序排列；

输出排列在前N的文字信息和排列在前M的表情包，N和M均为正整数。

本发明的另一目的在于提供一种基于场景识别的图像生成系统，所述系统包括：

用户图像接收模块，用于接收用户输入的待处理图像；

物体特征识别模块，用于对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体；

人物特征识别模块，用于对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态；

图像场景确定模块，用于对待处理图像中包含的物体进行分析确定图像场景；

文字表情输出模块，用于将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包；

目标图像生成模块，用于接收文字表情选择指令，将用户选择的文字信息和表情包添加至待处理图像上，生成目标图像。

作为本发明进一步的方案：所述物体特征识别模块包括：

物体特征匹配单元，用于将待处理图像输入至物体特征模型中进行匹配，所述物体特征模型中包含数个物体，每个物体对应有物体特征信息；

物体确定单元，用于识别待处理图像是否存在所述物体特征信息，当存在时，确定待处理图像中包含所述物体特征信息对应的物体。

作为本发明进一步的方案：所述人物特征识别模块包括：

人脸区域识别单元，用于识别待处理图像中的人脸区域，当人脸区域为多个时，提取出像素面积最大的人脸区域；

人物特征匹配单元，用于将提取出的人脸区域输入至人物特征模型中进行匹配，所述人物特征模型中包含数个状态特征，每个状态特征对应有表情特征信息；

人物状态确定单元，用于根据表情特征信息对所述人脸区域进行识别分析，确定人物所处状态。

作为本发明进一步的方案：所述图像场景确定模块包括：

图像场景匹配单元，用于将待处理图像中包含的物体输入至图像场景库中进行匹配，所述图像场景库中包含数个图像场景，每个图像场景对应有若干个物体；

图像场景确定单元，用于计算待处理图像中的物体与每个图像场景对应的物体之间的匹配度，输出最高匹配度所对应的图像场景。

作为本发明进一步的方案：所述文字表情输出模块包括：

文字表情匹配单元，用于将图像场景和人物所处状态输入至文字表情库中进行匹配，所述文字表情库中包含数个文字信息和表情包，每个文字信息和表情包都对应有标签信息，标签信息包括图像场景标签和人物所处状态标签；

匹配度计算单元，用于计算所述图像场景和人物所处状态与每个文字信息和表情包的标签信息之间的匹配度，按照匹配度对文字信息和表情包进行降序排列；

文字表情输出单元，用于输出排列在前N的文字信息和排列在前M的表情包，N和M均为正整数。

与现有技术相比，本发明的有益效果是：

本发明能够根据识别得到的物体特征确定待处理图像中包含的物体，并根据识别得到的状态特征确定人物所处状态；然后对待处理图像中包含的物体进行分析确定图像场景；将图像场景和人物所处状态输入至文字表情库中进行匹配，输出相匹配的文字信息和表情包，自动推荐与图像相关的文字信息和表情包供用户挑选使用，高效方便。

附图说明

图1为一种基于场景识别的图像生成方法的流程图。

图2为一种基于场景识别的图像生成方法中确定待处理图像中包含的物体的流程图。

图3为一种基于场景识别的图像生成方法中确定人物所处状态的流程图。

图4为一种基于场景识别的图像生成方法中确定图像场景的流程图。

图5为一种基于场景识别的图像生成方法中输出相匹配的文字信息和表情包的流程图。

图6为一种基于场景识别的图像生成系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种基于场景识别的图像生成方法，所述方法包括以下步骤：

S100，接收用户输入的待处理图像；

S200，对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体；

S300，对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态；

S400，对待处理图像中包含的物体进行分析确定图像场景；

S500，将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包；

S600，接收文字表情选择指令，将用户选择的文字信息和表情包添加至待处理图像上，生成目标图像。

需要说明的是，常用的图像处理手段包括智能美化、添加文字框和表情包等等，其中添加文字框和表情包能够更好的传达用户情绪，但是用户往往需要耗费大量的时间找到与图像场景相匹配的文字框和表情包，效率较低，本发明实施例旨在解决上述问题。

本发明实施例中，首先用户需要上传想要添加文字信息和表情包的待处理图像，接着本发明实施例会自动对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含哪些物体；同时会对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态，即确定人物所处状态为疲惫、高兴、伤心等等。然后对待处理图像中包含的物体进行分析确定图像场景，例如，待处理图像中包含的物体有米饭、菜肴、火锅等，则判定图像场景为就餐场景；接着将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包，例如图像场景为自然景物且人物所处状态为开心，则会自动推送与自然景物和开心相关的文字信息和表情包，供用户进行选择，此时，用户可以输入文字表情选择指令，本发明实施例会自动将选择的文字信息和表情包添加至待处理图像上，用户还可以对文字信息和表情包的大小和位置进行调整，最后生成目标图像。如此，本发明实施例能够自动识别出待处理图像中的图像场景和人物所处状态，据此为用户推荐相匹配的文字信息和表情包，高效方便。

如图2所示，作为本发明一个优选的实施例，所述对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体的步骤，具体包括：

S201，将待处理图像输入至物体特征模型中进行匹配，所述物体特征模型中包含数个物体，每个物体对应有物体特征信息；

S202，识别待处理图像是否存在所述物体特征信息，当存在时，确定待处理图像中包含所述物体特征信息对应的物体。

本发明实施例中，为了确定待处理图像中包含的物体，事先建立有物体特征模型，所述物体特征模型中包含大量生活中常见的物体，每个物体都对应有各自的物体特征信息，所述物体特征信息由形状信息和颜色信息构成；接着识别待处理图像是否存在所述物体特征信息，当存在时，确定待处理图像中包含所述物体特征信息对应的物体，待处理图像中存在几个物体特征信息，就会包含几种物体。

如图3所示，作为本发明一个优选的实施例，所述对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态的步骤，具体包括：

S301，识别待处理图像中的人脸区域，当人脸区域为多个时，提取出像素面积最大的人脸区域；

S302，将提取出的人脸区域输入至人物特征模型中进行匹配，所述人物特征模型中包含数个状态特征，每个状态特征对应有表情特征信息；

S303，根据表情特征信息对所述人脸区域进行识别分析，确定人物所处状态。

本发明实施例中，为了确定待处理图像中人物所处状态，首先会识别待处理图像中的人脸区域，当人脸区域为多个时，只提取出像素面积最大的人脸区域，以此为参考，然后将提取出的人脸区域输入至人物特征模型中进行匹配，所述人物特征模型中包含数个状态特征，每个状态特征对应有表情特征信息，表情特征信息包含了五官的特征，这样就可以根据表情特征信息对所述人脸区域进行识别分析，确定人物所处状态。

如图4所示，作为本发明一个优选的实施例，所述对待处理图像中包含的物体进行分析确定图像场景的步骤，具体包括：

S401，将待处理图像中包含的物体输入至图像场景库中进行匹配，所述图像场景库中包含数个图像场景，每个图像场景对应有若干个物体；

S402，计算待处理图像中的物体与每个图像场景对应的物体之间的匹配度，输出最高匹配度所对应的图像场景。

本发明实施例中，为了确定图像场景，事先建立有图像场景库，所述图像场景库中包含数个图像场景，每个图像场景对应有若干个物体，例如学习场景对应的物体有书本和书架；接着计算待处理图像中的物体与每个图像场景对应的物体之间的匹配度，匹配度=物体相同的数量×2÷（待处理图像中物体数量+图像场景中物体数量），输出最高匹配度所对应的图像场景，例如待处理图像中的物体为A、B和C，第一图像场景对应的物体为B、C和F，则匹配度=2×2÷6=66.67%。

如图5所示，作为本发明一个优选的实施例，所述将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包的步骤，具体包括：

S501，将图像场景和人物所处状态输入至文字表情库中进行匹配，所述文字表情库中包含数个文字信息和表情包，每个文字信息和表情包都对应有标签信息，标签信息包括图像场景标签和人物所处状态标签；

S502，计算所述图像场景和人物所处状态与每个文字信息和表情包的标签信息之间的匹配度，按照匹配度对文字信息和表情包进行降序排列；

S503，输出排列在前N的文字信息和排列在前M的表情包，N和M均为正整数。

本发明实施例中，事先建立有文字表情库，所述文字表情库中包含大量的文字信息和大量的表情包，每个文字信息和表情包都对应有标签信息，标签信息包括图像场景标签和人物所处状态标签，例如第一文字信息对应的标签信息为旅游场景、逛街场景、开心和放松。接着计算所述图像场景和人物所处状态与每个文字信息和表情包的标签信息之间的匹配度，按照匹配度对文字信息和表情包进行降序排列，最后输出排列在前N的文字信息和排列在前M的表情包，N和M均为设置的定值，用户可以根据自身需求进行调整。

如图6所示，本发明实施例还提供了一种基于场景识别的图像生成系统，所述系统包括：

用户图像接收模块100，用于接收用户输入的待处理图像；

物体特征识别模块200，用于对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体；

人物特征识别模块300，用于对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态；

图像场景确定模块400，用于对待处理图像中包含的物体进行分析确定图像场景；

文字表情输出模块500，用于将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包；

目标图像生成模块600，用于接收文字表情选择指令，将用户选择的文字信息和表情包添加至待处理图像上，生成目标图像。

作为本发明一个优选的实施例，所述物体特征识别模块200包括：

作为本发明一个优选的实施例，所述人物特征识别模块300包括：

作为本发明一个优选的实施例，所述图像场景确定模块400包括：

作为本发明一个优选的实施例，所述文字表情输出模块500包括：

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种基于场景识别的图像生成方法，其特征在于，所述方法包括以下步骤：

接收用户输入的待处理图像；

对待处理图像中包含的物体进行分析确定图像场景；

接收文字表情选择指令，将用户选择的文字信息和表情包添加至待处理图像上，生成目标图像；

所述对待处理图像进行物体特征识别，根据识别得到的物体特征确定待处理图像中包含的物体的步骤，具体包括：

识别待处理图像是否存在所述物体特征信息，当存在时，确定待处理图像中包含所述物体特征信息对应的物体；

所述对待处理图像中包含的物体进行分析确定图像场景的步骤，具体包括：

计算待处理图像中的物体与每个图像场景对应的物体之间的匹配度，输出最高匹配度所对应的图像场景；

所述将图像场景和人物所处状态输入至文字表情库中进行匹配，输出若干个相匹配的文字信息和表情包的步骤，具体包括：

2.根据权利要求1所述的基于场景识别的图像生成方法，其特征在于，所述对待处理图像进行人物特征识别，根据识别得到的状态特征确定人物所处状态的步骤，具体包括：

3.一种基于场景识别的图像生成系统，其特征在于，所述系统包括：

用户图像接收模块，用于接收用户输入的待处理图像；

目标图像生成模块，用于接收文字表情选择指令，将用户选择的文字信息和表情包添加至待处理图像上，生成目标图像；

输出排列在前N的文字信息和排列在前M的表情包，N和M均为正整数；

所述图像场景确定模块包括：

图像场景确定单元，用于计算待处理图像中的物体与每个图像场景对应的物体之间的匹配度，输出最高匹配度所对应的图像场景；

所述文字表情输出模块包括：

4.根据权利要求3所述的基于场景识别的图像生成系统，其特征在于，所述物体特征识别模块包括：

5.根据权利要求3所述的基于场景识别的图像生成系统，其特征在于，所述人物特征识别模块包括：