CN117557674A

CN117557674A - 基于人机交互的图片处理方法、装置、设备以及存储介质

Info

Publication number: CN117557674A
Application number: CN202410040979.9A
Authority: CN
Inventors: 李鹏宇; 郭天楚; 汪彪; 华先胜
Original assignee: Ningbo Tesla Information Technology Co ltd
Current assignee: Ningbo Tesla Information Technology Co ltd
Priority date: 2024-01-11
Filing date: 2024-01-11
Publication date: 2024-02-13
Anticipated expiration: 2044-01-11
Also published as: CN117557674B

Abstract

本公开的实施例提供了基于人机交互的图片处理方法、装置、设备以及存储介质，应用于人工智能技术领域。所述方法包括响应于接收到用户发出的当前图片修正指令；根据当前图片修正指令获取对应的历史文字序列和历史图片序列；根据当前图片修正指令中携带的文字信息，更新历史文字序列；判断当前图片修正指令中是否携带有图片；若携带图片，则根据携带的图片，更新历史图片序列；分别对更新后的历史文字序列和更新后的历史图片序列进行编码处理，得到文字编码向量和图片编码向量，并输入文图生成模型，输出修正后的图片并展示给用户。以此方式，可以形成具备记忆性的图片修正模型，以高效完成对图片的修正。

Description

基于人机交互的图片处理方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及基于人机交互的图片处理方法、装置、设备以及存储介质。

背景技术

文图生成，是指人们输入自然语言文字，模型根据输入的文字自动生成符合条件的图片的相关技术。近年来，该项技术已经取得了重大突破，Stable Diffusion（一种AI绘画生成工具）、Mid-Journey（一种AI绘画工具）等相关产品在人们的生产、生活中得到广泛应用。

当下人们输入的自然语言文字，主要以“描述”（description）为主。也即直接描述这张图片应该长成什么样子。当发现生成的内容和心中所期待的结果不一致时，人们往往必须重新修正“描述”，然后从头再次生成图片。这种修正“描述”再重新生成的方法显然是不够高效的，为此社区里面开始逐步出现基于“指令”（instruction）来修正上一张生成图的方式。

这种基于“指令”的修正方式，就是用户输入一张图像，这张图像往往是上一步生成的图片，然后再输入一个具体化的指令，例如：“把画中人的肤色变得更暗一点”。基于这个指令，模型就会调暗画面中人物的肤色。这种基于指令的方案，会存在显著缺点，即它对历史状态和历史指令并不具备记忆性，从而难以在多轮交互中让生成的图片收敛到人的主要意图上。举个例子说明：在第1轮得到一张图片，发现人物肤色太亮了，所以在第2轮的时候让模型“把人物肤色调暗”，模型完成后发现人物肤色比预想的暗太多了；所以在第3轮中就让“把人物肤色略微调亮”。但因为这个基于“指令”的系统不具备记忆力，所以它并不能知道第3轮的“人物肤色调亮”的亮度，应该是比第2轮让它调暗的时候暗但比第3轮让它调亮的时候亮，也即人物的肤色亮度应该介于第一轮和第二轮生成图片之间。因为不具备这样的记忆性，使得整个“描述”和“指令”的交互过程及其不便，需要不断的反复调整去适配模型，从而需要花费大量的经历才能收敛到想要的人物肤色。

所以，亟需一种具备记忆性的图片生成方法，以高效完成对图片的修正。

发明内容

本公开提供了一种基于人机交互的图片处理方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种基于人机交互的图片处理方法。该方法包括：

响应于接收到用户发出的当前图片修正指令；

根据所述当前图片修正指令获取对应的图片生成任务中的历史文字序列和历史图片序列；

根据所述当前图片修正指令中携带的文字信息，更新所述历史文字序列；

判断所述当前图片修正指令中是否携带有图片；若携带图片，则根据携带的图片，更新所述历史图片序列；

分别对更新后的历史文字序列和更新后的历史图片序列进行编码处理，得到文字编码向量和图片编码向量；

将所述文字编码向量和所述图片编码向量输入文图生成模型，输出修正后的图片并展示给用户，以便于用户做出是否对所述修正后的图片进一步修正的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，

所述历史文字序列由多条文字信息按顺序拼接融合组成；

所述历史图片序列由原始图片，以及根据对应的文字信息对对应的历史图片进行处理后得到的多张图片按顺序拼接融合组成。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述若携带图片，则根据携带的图片，更新所述历史图片序列，还包括：

若未携带图片，则不对所述历史图片序列进行更新。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述方法还包括：

如果所述历史图片序列为空，则获取与所述文图生成模型相匹配的噪声图像作为历史图片。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述当前图片修正指令中携带的文字信息，更新所述历史文字序列，包括：

根据预先训练的语义提取模型，对当前图片修正指令中携带的文字信息进行关键词提取，根据提取到的关键词，更新所述历史文字序列。

根据本公开的第二方面，提供了一种基于人机交互的图片处理装置。该装置包括：

指令接收模块，用于响应于接收到用户发出的当前图片修正指令；

序列获取模块，用于根据所述当前图片修正指令获取对应的图片生成任务中的历史文字序列和历史图片序列；

序列更新模块，用于根据所述当前图片修正指令中携带的文字信息，更新所述历史文字序列；

判断模块，用于判断所述当前图片修正指令中是否携带有图片；若携带图片，则根据携带的图片，更新所述历史图片序列；

编码处理模块，用于分别对更新后的历史文字序列和更新后的历史图片序列进行编码处理，得到文字编码向量和图片编码向量；

图片修正模块，用于将所述文字编码向量和所述图片编码向量输入文图生成模型，输出修正后的图片并展示给用户，以便于用户做出是否对所述修正后的图片进一步修正的指令。

根据本公开的第三方面，提供了一种电子设备。该电子设备包括：存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

根据本公开的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如根据本公开的第一方面所述的方法。

本公开提供的一种基于人机交互的图片处理方法、装置、设备以及存储介质，通过对历史文字和历史图片按顺序形成文字序列和图片序列并输入到文图生成模型中，使得文图生成模型对过往的操作存在记忆，从而能够更高效的完成图片的修正，并贴合用户的需求。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本公开的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的基于人机交互的图片处理方法的框图；

图2示出了根据本公开的实施例的基于人机交互的图片处理方法的流程图；

图3示出了根据本公开的实施例的基于人机交互的图片处理装置的框图；

图4示出了能够实施本公开的实施例的示例性电子设备的方框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本公开保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本公开中，提出了一种基于“对话”（chat）的文图生成方式，在整个对话即人机交互过程中，人们的描述和生成图片的结果都会以“记忆”的方式进入模型，从而让模型对过往的对话存在记忆，从而在理解新的语言命令时能够知道历史对话信息，更好的理解人类意图，例如“现在这个人物肤色需要调亮，整体应该比第1轮暗，比2轮亮”这个人类理念意图。

如图1所示的基于人机交互的图片处理方法的框图，用户输入文字，并将输入的文字与过往文字历史进行文字的拼接融合，如果当前为第一次输入，则过往文字历史可以为一个空字符。将拼接好的文字，即当前输入+历史文字通过文字编码器进行编码，得到一串编码后的文字编码向量。同理，对过往生成图片历史也进行图片编码器的处理，得到图片编码向量，并将文字编码向量和图片编码向量都输入到文图生成模型中，输出（生成）新图片，用户判断该新图片是否满足要求，是，则当前新生图片就为最终结果图；否，则将当前新生图片加入到过往生成图片历史中，继续操作。

下面结合具体的实施例对本方案进行说明。

图2示出了根据本公开实施例的基于人机交互的图片处理方法200的流程图。方法200包括：

步骤210，响应于接收到用户发出的当前图片修正指令。

在一些实施例中，由用户输入一个具体化的图片修正指令，这一图片修正指令中，包含了对图片进行具体修正的文字信息，例如，“把画中小女孩的肤色变得更暗一点”。甚至，如果是用户需要融入新图片的特征时，还需要上传相应的图片和文字信息一起进行输入。例如，需要将上传的图片中的“发夹”添加到画中小女孩的头部合适的位置时，需要上传一张带有符合用户需求的“发夹”图片。

步骤220，根据所述当前图片修正指令获取对应的图片生成任务中的历史文字序列和历史图片序列。

在一些实施例中，需要针对用户的图片生成任务建立一条任务，以便于在处理多条图片修正任务时，能够根据图片修正指令确定对应的任务，并进一步确定对应的历史文字序列和历史图片序列。其中，历史文字序列由每一个修正操作，即多条文字信息按顺序拼接融合组成，当然，首条历史文字信息可以为空。历史图片序列由原始图片，以及每一次执行修正操作之后形成的图片（即根据对应的文字信息对对应的历史图片进行处理后得到的多张图片）按顺序拼接融合组成，对于下一次图片修正指令来说，其历史图片为：上一次按图片修正指令对其历史图片进行修正之后得到的图片。原始图片为第一次上传的图片，可以是用户上传输入的，也可以直接使用与文图生成模型相匹配的随机噪声输入。即如果所述历史图片序列为空，则获取与所述文图生成模型相匹配的噪声图像作为历史图片。其中，对于文字信息和历史图片的拼接融合，使用concat融合操作实现。

在一些实施例中，对于图片修正指令与对应任务的对应关系，可以通过对任务进行编号，或者生成任务id的方式来与图片修正指令进行对应，用于区分不同任务（当多条任务同时进行时），也用于根据图片修正指令确定所属任务。

步骤230，根据所述当前图片修正指令中携带的文字信息，更新所述历史文字序列。

在一些实施例中，为了便于提高图片修正的效率，对于日常图片修正指令中的文字信息进行语义提取模型的训练，能够快速提取出图片修正的关键词。

在一些实施例中，根据预先训练的语义提取模型，对当前图片修正指令中携带的文字信息进行关键词提取，根据提取到的关键词，更新所述历史文字序列。

在一些实施例中，将提取到的关键词组合后形成新的文字信息，并拼接融合至历史文字序列中。例如，“把画中小女孩的肤色变得更暗一点”进行关键词提取得到的新文字信息是“小女孩-肤色变暗”。

其中，可使用的关键词抽取的算法模型有：TF-IDF（term frequency_inversedocument frequency，词频-逆向文件频率）、TextRank算法和基于语义的统计语言实现关键词抽取等等，可以基于此训练更为适用于本公开场景下的语义提取模型。在具体操作过程中，还可以对未提取出关键词的文字信息，或者对提取的关键词不准确有遗漏的情况下，将该文字信息作为语义提取模型新的输入进行训练，进一步完善语义提取模型。

在一些实施例中，还可以是用户输入修正图片的语音信息，并匹配对应的语音识别模型以生成文字信息，以提升用户体验。

步骤240，判断所述当前图片修正指令中是否携带有图片。

步骤250，是，根据携带的图片，更新历史图片序列。

步骤260，否，不更新历史图片序列。

在一些实施例中，如果是用户需要融入新图片的特征时，会在输入图片修正指令时再上传新的图片，那么需要将该新的图片加入到历史图片序列中去。当然，若未携带图片，则不对所述历史图片序列进行更新。

步骤270，对更新后的历史文字序列进行编码处理，得到文字编码向量。

步骤280，对更新后的历史图片序列进行编码处理，得到图片编码向量。

在一些实施例中，分别对更新后的历史文字序列和更新后的历史图片序列进行编码处理，以形成输入文图生成模型中的模型语言，便于文图生成模型生成符合文字信息的图片。其中，进行编码处理的工具可以是：CLIP编码器。

步骤290，将所述文字编码向量和图片编码向量输入文图生成模型，输出修正后的图片并展示给用户。

以便于用户做出是否对所述修正后的图片进一步修正的指令。

在一些实施例中，将步骤270得到的文字编码向量和步骤280得到的图片编码向量输入文图生成模型，以便于文图生成模型以文字作为指导将图片逐步去噪得到符合文字内容的图片并输出，并将修正后的图片展示给用户，用户根据自身的美学要求对图片进行判断，是否输入新的修正指令。如此往复，不断接收用户输入的图片修正指令进行图片修正，最终生成用户所需要的图片。

以此，将历史文字序列和历史图片序列进行编码处理后的编码向量输入到文图生成模型中，可以使得文图生成模型具备记忆性，例如当对图片a的修正为“小女孩-肤色调暗”之后得到图片b，又接收到对图片b的修正指令“小女孩-肤色调亮”，那么由于文图生成模型对于图片a先前的调暗的记忆性，当再对图片b进行调亮时，文图生成模型会在对图片b进行调亮的亮度值选择低于图片a的亮度值来进行，以避免不具备记忆性的文图生成模型可能将图片b的亮度调至高于图片a这一情况的发生，提高图片修正的效率，使得修正的图片在更少的操作步骤之内达到用户的需求。同时，也降低了用户做出修正指令的复杂度，例如不需要在调图片b的亮度时做出“小女孩-肤色调亮，但亮度值要低于x”这样复杂的指令，提升用户使用感，其中，x表示图片a的亮度值。需要注意的是，本申请所公开的应用场景，并不受上述举例的限制，对于比上述场景更为复杂的场景，根据相应的图片序列和/或文字序列，生成对应的图片编码向量和/或文字编码向量，然后输入文图生成模型中，也是可以实现的。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受所描述的动作顺序的限制，因为依据本公开，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本公开所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本公开所述方案进行进一步说明。

图3示出了根据本公开的实施例的基于人机交互的图片处理装置300的方框图。如图3所示，装置300包括：

指令接收模块310，用于响应于接收到用户发出的当前图片修正指令；

序列获取模块320，用于根据所述当前图片修正指令获取对应的图片生成任务中的历史文字序列和历史图片序列；

序列更新模块330，用于根据所述当前图片修正指令中携带的文字信息，更新所述历史文字序列；

判断模块340，用于判断所述当前图片修正指令中是否携带有图片；若携带图片，则根据携带的图片，更新所述历史图片序列；

编码处理模块350，用于分别对更新后的历史文字序列和更新后的历史图片序列进行编码处理，得到文字编码向量和图片编码向量；

图片修正模块360，用于将所述文字编码向量和图片编码向量输入文图生成模型，输出修正后的图片并展示给用户，以便于用户做出是否对所述修正后的图片进一步修正的指令。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质。

图4示出了可以用来实施本公开的实施例的电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

电子设备400包括计算单元401，其可以根据存储在ROM402中的计算机程序或者从存储单元408加载到RAM403中的计算机程序，来执行各种适当的动作和处理。在RAM403中，还可存储电子设备400操作所需的各种程序和数据。计算单元401、ROM402以及RAM403通过总线404彼此相连。I/O接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如基于人机交互的图片处理方法。例如，在一些实施例中，基于人机交互的图片处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM402和/或通信单元409而被载入和/或安装到电子设备400上。当计算机程序加载到RAM403并由计算单元401执行时，可以执行上文描述的基于人机交互的图片处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行基于人机交互的图片处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种基于人机交互的图片处理方法，其特征在于，包括：

响应于接收到用户发出的当前图片修正指令；

2.根据权利要求1所述的方法，其特征在于，

所述历史文字序列由多条文字信息按顺序拼接融合组成；

3.根据权利要求1所述的方法，其特征在于，所述若携带图片，则根据携带的图片，更新所述历史图片序列，还包括：

若未携带图片，则不对所述历史图片序列进行更新。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述当前图片修正指令中携带的文字信息，更新所述历史文字序列，包括：

6.一种基于人机交互的图片处理装置，其特征在于，包括：

7. 一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一权利要求所述的方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一权利要求所述的方法。