CN115830171A

CN115830171A - 基于人工智能绘画的图像生成方法、显示设备及存储介质

Info

Publication number: CN115830171A
Application number: CN202310131373.1A
Authority: CN
Inventors: 农长霖; 张文晶; 洪峰
Original assignee: Shenzhen Qianhai Shenlei Semiconductor Co ltd
Current assignee: Shenzhen Qianhai Shenlei Semiconductor Co ltd
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-03-21
Anticipated expiration: 2043-02-17
Also published as: CN116630455A; CN115830171B

Abstract

本申请涉及人工智能绘画技术，公开了一种基于人工智能绘画的图像生成方法，包括：在显示设备获取到绘画内容信息时，从所述绘画内容信息中提取绘画要素，其中，所述绘画内容信息包括语音指令和所述显示设备所处环境的环境数据；利用人工智能模型基于所述绘画要素生成绘画图像；在所述显示设备上展示所述绘画图像。本申请还公开了一种显示设备和计算机可读存储介质。本申请旨在提高显示设备获取用户在当前环境中想要表达的绘画指令的准确率，以使人工智能模型能生成更符合用户心意的绘画图像供显示设备展示。

Description

基于人工智能绘画的图像生成方法、显示设备及存储介质

技术领域

本申请涉及人工智能绘画技术领域，尤其涉及一种基于人工智能绘画的图像生成方法、显示设备以及计算机可读存储介质。

背景技术

数码相框（Digital Photo Frame）是用于展示数码照片而非纸质照片的显示设备。数码相框可以通过从存储中获取图片，并设置循环的方式进行显示，相比于普通相框，展示图片更方便，且展示方式灵活多变。

随着现今AI（Artificial Intelligence，人工智能）绘画技术的迅速发展，由用户向AI下达绘画指令，利用AI绘画生成图像并展示于数码相框也成为一种可能。传统的AI绘画一般都是由用户利用电脑类的智能设备向AI下达相应的绘画指令，而一般数码相框类的显示设备毕竟不比电脑类设备功能齐全（即数码相框类的显示设备的功能相对单一，主要用作显示图像），加上传统的AI绘画指令一般都是文字输入，因此用户并不方便直接向数码相框类的显示设备输入文字指令，以向AI下达相应的绘画指令，而且对于一些文字素养较弱的用户，一般也难以直观地将自己所思、所感准确转换为相应的文字表达，以向数码相框类的显示设备输入相应的绘画指令。

上述内容仅用于辅助理解本申请的技术方案，并不代表承认上述内容是现有技术。

发明内容

本申请的主要目的在于提供一种基于人工智能绘画的图像生成方法、显示设备以及计算机可读存储介质，旨在提高显示设备获取用户在当前环境中想要表达的绘画指令的准确率，以使人工智能模型能生成更符合用户心意的绘画图像供显示设备展示。

为实现上述目的，本申请提供一种基于人工智能绘画的图像生成方法，包括以下步骤：

在显示设备获取到绘画内容信息时，从所述绘画内容信息中提取绘画要素，其中，所述绘画内容信息包括语音指令和所述显示设备所处环境的环境数据，所述绘画要素包括第一绘画要素和第二绘画要素；识别所述语音指令的语义信息和语音情感信息，并根据所述语义信息和所述语音情感信息生成所述第一绘画要素；以及，根据所述环境数据提取所述第二绘画要素；

利用人工智能模型基于所述绘画要素生成绘画图像，其中，所述人工智能模型为所述第一绘画要素匹配的权重，大于所述人工智能模型为所述第二绘画要素匹配的权重；

在所述显示设备上展示所述绘画图像。

可选的，所述识别所述语音指令的语义信息和语音情感信息，并根据所述语义信息和所述语音情感信息生成所述第一绘画要素的步骤包括：

识别所述语音指令的语义信息和语音情感信息；

查询与所述语义信息相匹配的预设绘画要素，并利用所述语音情感信息筛选所述预设绘画要素；

将经筛选后的所述预设绘画要素作为所述第一绘画要素。

可选的，所述环境数据包括环境声音、环境图像和环境温度中的至少一个；所述根据所述环境数据提取所述第二绘画要素的步骤包括：

分析所述环境数据，得到所述显示设备当前对应的场景类型；

查询与所述场景类型相匹配的预设绘画要素，作为所述第二绘画要素。

可选的，所述绘画内容信息还包括所述显示设备的显示尺寸；所述绘画要素还包括第三绘画要素；所述基于人工智能绘画的图像生成方法还包括：

查询与所述显示尺寸相匹配的预设绘画要素，作为所述第三绘画要素；

其中，所述人工智能模型为所述第三绘画要素匹配的权重，小于所述人工智能模型为所述第一绘画要素匹配的权重。

可选的，所述绘画要素还包括第四绘画要素；所述基于人工智能绘画的图像生成方法还包括：

从所述语音指令中提取音频特征，并根据所述音频特征确定用户类型；

查询与所述用户类型相匹配的预设绘画要素，作为所述第四绘画要素；

其中，所述人工智能模型为所述第四绘画要素匹配的权重，小于所述人工智能模型为所述第一绘画要素匹配的权重。

可选的，所述绘画要素还包括所述显示设备当前显示的绘画图像对应的第五绘画要素，其中，所述人工智能模型为所述第五绘画要素匹配的权重，小于所述人工智能模型为所述第一绘画要素匹配的权重。

可选的，所述利用人工智能模型基于所述绘画要素生成绘画图像的步骤之前，还包括：

获取上一次生成所述绘画图像的历史时间点；

检测当前接收到所述语音指令的时间点与所述历史时间点之间的间隔时长，是否小于预设时长；

若是，控制所述人工智能模型提高所述第一绘画要素匹配的权重，以及降低所述第二绘画要素匹配的权重。

可选的，所述检测当前接收到所述语音指令的时间点与所述历史时间点之间的间隔时长，是否小于预设时长的步骤之后，还包括：

若否，控制所述人工智能模型降低所述第一绘画要素匹配的权重，以及提高所述第二绘画要素匹配的权重。

为实现上述目的，本申请还提供一种显示设备，所述显示设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于人工智能绘画的图像生成程序，所述基于人工智能绘画的图像生成程序被所述处理器执行时实现如上述基于人工智能绘画的图像生成方法的步骤。

为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于人工智能绘画的图像生成程序，所述基于人工智能绘画的图像生成程序被处理器执行时实现如上述基于人工智能绘画的图像生成方法的步骤。

本申请提供的基于人工智能绘画的图像生成方法、显示设备以及计算机可读存储介质，用户可以通过向显示设备发出语音指令，以表达出个人想要的绘画内容，同时显示设备还可以主动获取其所处环境的环境数据作为绘画内容的补充，这样除了可以从语音指令对应文字描述中获悉用户主观的绘画意图外，还可以结合语音情感信息和环境数据获取用户潜意识中的绘画意图，这样不仅可以方便用户向显示设备发出相应的绘画指令，而且还可以提高获取用户在当前环境中想要表达的绘画指令的准确率，这样后续利用人工智能模型所生成的绘画图像，也就更能反映用户在下达语音指令时的所思所感，从而得到更符合用户心意的绘画图像供显示设备展示。

附图说明

图1为本申请一实施例中基于人工智能绘画的图像生成方法步骤示意图；

图2为本申请一实施例的显示设备的内部结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制，基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参照图1，在一实施例中，所述基于人工智能绘画的图像生成方法包括：

步骤S10、在显示设备获取到绘画内容信息时，从所述绘画内容信息中提取绘画要素，其中，所述绘画内容信息包括语音指令和所述显示设备所处环境的环境数据，所述绘画要素包括第一绘画要素和第二绘画要素；识别所述语音指令的语义信息和语音情感信息，并根据所述语义信息和所述语音情感信息生成所述第一绘画要素；以及，根据所述环境数据提取所述第二绘画要素；

步骤S20、利用人工智能模型基于所述绘画要素生成绘画图像，其中，所述人工智能模型为所述第一绘画要素匹配的权重，大于所述人工智能模型为所述第二绘画要素匹配的权重；

步骤S30、在所述显示设备上展示所述绘画图像。

本实施例中，实施例的执行终端可以是显示设备，也可以是控制显示设备的其他控制设备或装置。以下以实施例终端为显示设备为例进行说明。

可选的，该显示设备可以是数码相框类的主要用于展示数码图像的电子设备，且该显示设备的显示尺寸的规格为大、中、小型均可，主要根据用户在不同场景对图像的展示需求相应确定。如对于家庭式的场景，则显示设备的规格一般是中、小型的，对于商场、博物馆等大型展示场景，则显示设备的规格一般是中、大型的。

如步骤S10所述，显示设备除了具备显示、存储、通信等基本功能模块外，还设置有麦克风模块，该麦克风模块可用于接收用户发出的语音指令。

可选的，该麦克风模块还可用于检测显示设备所处环境的环境声音，以作为环境数据。

可选的，当用户想要向显示设备发出相应的绘画指令，以通过显示设备利用人工智能技术进行绘画，并生成相应的绘画图像在显示设备上进行显示时，则可以是在显示设备的语音采集范围内向显示设备讲述相应的语音指令。其中，用户所讲述的语音指令，除了包括命令显示设备执行人工智能绘画的一些关键词外，还可包括其想要生成的绘画图像的一些绘画要素。

需要说明的是，绘画作品构成的基本要素是：点、线、形状、色彩、结构、明暗、空间、材质、肌理等，以及将这些元素组合成一件完整作品的基本原理，包括多样统一、比例、对称、平衡、节奏、对比、和谐等；此外，绘画要素也可以是绘画的风格，如抽象画、油画、漫画、水墨画等；或者，绘画要素也可以是绘画主要内容，如人物（如大众人物、著名人物、特定人物等）、场景（如战争场景、运动场景、四季场景等）、风景（如山川、瀑布、沙漠等）等。即只要是有助于形成绘画内容的要素，都可以判定是绘画要素。

例如，用户讲述的语音指令可以是“请生成油画风格的照片，照片包含蓝天白云、大山、河流。”，那么终端就可以提炼出生成照片这一指令，并认定为人工智能绘画指令，而“油画风格”、“蓝天白云”、“大山”、“河流”这些关键词均可以作为绘画要素。

可选的，显示设备在接收到用户发出的语音指令时，也可以同步采集显示设备所在环境的环境数据，并将当前获取到的语音指令和环境数据共同作为得到的绘画内容信息。

或者，显示设备也可以是定时采集并更新显示设备所在环境的环境数据，并在接收到用户发出的语音指令时，将最新一次采集到的环境数据与当前获取到的语音指令共同作为得到的绘画内容信息。其中，定时采集环境数据的间隔时长可以是一周、一个月、一个季度等。

可选的，显示设备所采集的环境数据包括环境声音、环境图像和环境温度中的至少一个。其中，显示设备的麦克风模块除了用于接收用户的语音指令外，还可用于采集环境声音；和/或，显示设备还设置有摄像模块，该摄像模块可用于采集环境图像；和/或，显示设备还设置有温度传感器，该温度传感器可用于采集环境温度。

可选的，当显示设备获取到绘画内容信息时，则可以从绘画内容信息中提取绘画要素。其中，若显示设备配置的运算能力足够，则可以在本端完成绘画要素的提取；若显示设备配置的运算能力不足，则可以借用与显示设备建立有通信连接的本地端设备或云端设备的算力，完成绘画要素的提取。

可选的，对于语音指令对应的第一绘画要素的提取，终端可以是识别所述语音指令的语义信息和语音情感信息，并根据所述语义信息和所述语音情感信息生成所述第一绘画要素。其中，终端可以是通过识别所述语音指令的语义信息和语音情感信息，并查询与所述语义信息相匹配的预设绘画要素，然后利用所述语音情感信息筛选查询得到的预设绘画要素，并将经筛选后剩下的预设绘画要素作为所述第一绘画要素；或者，终端也可以是通过识别所述语音指令的语义信息和语音情感信息，然后分别查询与所述语义信息相匹配的预设绘画要素，以及查询与所述语音情感信息相匹配的预设绘画要素，共同作为第一绘画要素。

需要说明的是，终端可以是利用语音识别技术识别语音指令中的文本信息，再基于语义识别技术和语音情感识别技术从文本信息中识别得到语义信息和语音情感信息。其中，终端识别得到的语义信息至少包括一个关键词、语音情感信息至少包括一种情感，该情感可大体分为正向情感、负向情感和普通情感（指中性情感），而正向情感即为愉快、亢奋、感激、庆幸等人类对正向价值的增加或负向价值的减少所产生的情感，负向情感即为痛苦、难过、失落等人类对正向价值的减少或负向价值的增加所产生的情感，普通情感即为人类无强烈的正向或负向情感表达的情感。

可选的，终端预先设置多个预设绘画要素，且每个预设绘画要素至少关联有一个关键词。而由于一个词语可能有多种释义，因此同一关键词也可以关联有多个预设绘画要素。

可选的，当终端得到语义信息和语音情感信息后，可以甄别语义信息中的各个关键词，然后在数据库中查询与所提取的关键词相关联的预设绘画要素。鉴于对于同一词语，在用户的情感不同时，可能会有不同的释义，因此当同一关键词关联有多个预设绘画要素时，终端可预先为各预设绘画要素赋予相应的情感标签，然后在查询到语义信息中的各个关键词所关联的预设绘画要素后，则利用语音情感信息对这些预设绘画要素作进一步筛选，以筛选出其中情感标签符合语音情感信息中的情感的预设绘画要素，最后再将经筛选后剩余的预设绘画要素作为第一绘画要素。这样，可以提高根据用户语义提取到更符合用户心意的绘画要素，这样后续基于提取到的绘画要素，利用人工智能技术所生成的绘画图像，就更符合用户的心意（即得到符合用户所思所感的绘画图像）。

或者，当终端得到语义信息和语音情感信息后，可以甄别语义信息中的各个关键词，然后在数据库中查询与所提取的关键词相关联的预设绘画要素，以及查询与语音情感信息描述的情感对应的关键词，并在数据库中查询与语音情感信息对应的关键词所关联的预设绘画要素。最后，终端再将语义信息匹配的预设绘画要素和语音情感信息匹配的预设绘画要素，共同作为第一绘画要素。这样后续基于提取到的绘画要素，利用人工智能技术所生成的绘画图像，就可以融入用户的情感要素，通过绘画艺术的形式表达出用户的情感。

需要说明的是，无论是第一绘画要素，还是第二绘画要素，其中都可以包含多个预设绘画要素。

可选的，终端在根据环境数据提取第二绘画要素时，可以是通过分析环境数据，得到显示设备当前对应的至少一个场景类型（即显示设备所处环境所属的场景），然后查询与所述场景类型相匹配的预设绘画要素，作为所述第二绘画要素。

其中，所述场景类型可以是多种多样的，可以是室内场景（可进一步分为室内大、中、小型场景）、室外场景、天气场景（如雨天、阴天、晴天等）、喧闹场景（如人流多的商场）、安静环境（如居家、美术馆等场景）、四季场景（即分为春夏秋冬四季）、温度场景（可分为偏冷场景（如博物馆、美术馆、滑雪馆）、常温场景（如居家宜居场景）和偏热场景（如桑拿房、温泉场所））、色调场景（主要根据显示设备所处空间的主体颜色确定，如室内可以是墙体颜色、布局主题色、灯色，室外可以是天色、外墙色）、明暗场景（可分为光线偏亮场景、光线常规场景、光线偏暗场景）等。

可选的，终端同样可为每个场景类型预先配置有至少一个预设绘画要素，如四季场景可以是分别关联有各季节的特色风光（如春风、夏雨、秋月、冬雪）、标志（如春天的风筝、夏天的雪糕、秋天的枫叶、冬天的雪人）等作为预设绘画要素；如室内外场景可以关联一些室内装饰物、家具、家电作为预设绘画要素，室外场景可以关联一些户外景物（如动植物）作为预设绘画要素；又如室内大、中型场景可以关联与宏伟、宽阔、宽大等关键字相关的预设绘画要素，室内小型场景可以关联与温馨、精细、精美等关键词相关的预设绘画要素；又如室内场景、喧闹场景、偏热场景光线、偏暗场景均可以关联一些暖色系的色调作为预设绘画要素，室外场景、安静环境、偏冷场景、光线偏亮场景均可关联一些冷色系的色调作为预设绘画要素，常温场景、光线常规场景则可以关联一些中性色调作为绘画要素；如色调场景可以根据具体的色调，匹配一些颜色相同或相近的色调作为预设绘画要素。

应当理解的是，上述场景类型与预设绘画要素的组合仅为示例性说明，因为可设置的场景类型多种多样，而绘画要素同样类别繁多，因此不同场景类型和预设绘画要素的组合在有限的篇幅内难以一一枚举，这些在实际操作中都可以由相关工程师在编写相关程式时按需设置，在此便不再一一列举。当然，相关工程师也可以是通过采集各种场景类型的训练样本，并在训练样本中标注相应的预设绘画要素，然后利用机器学习模型针对一定数量（如一千）的训练样本进行多次迭代训练，从而让终端自主学习得到为不同场景类型分配相应的预设绘画要素的能力，从而节省人力设置的成本。

可选的，显示设备的麦克风模块设置有麦克风阵列，当显示设备利用麦克风阵列采集环境声音时，通过进行声音数据的分析，就可以得到环境声音是否有回声、回声远近、回声大小、环境声强等声音分析信息，然后基于声音分析信息判断显示设备所在环境当前对应的场景类型。

例如，根据环境声音有无回声，可区分室内、外场景（如有回声，则当前很有可能是处于室内场景）；而根据回声远近、回声大小，则可以区分室内大、中、小场景（如回声越大，表示当前室内空间越空旷，则可能是处于室内大场景）；或者根据环境声强的大小，可以判定当前是处于喧闹场景还是安静环境。

可选的，若显示设备设置有摄像模块，通过摄像模块就可以采集显示设备所处环境的一张或多张环境图像，然后终端结合图像分析技术和预存的场景图库，分析出显示设备当前对应的对应的场景类型。

例如，终端可根据多个环境图像中平均人流的多少，判断当前属于喧闹环境还是安静场景（人流多为喧闹环境，否则为安静场景）；至于室内外场景、色调场景、明暗场景、四季场景等，利用现有的一些图像识别技术都可以快速进行识别，这些常规图像识别技术在此便不再赘述。

可选的，若显示设备设置设置有温度传感器，通过温度传感器就可以采集显示设备所处环境的环境温度，然后终端通过分析一定时段内的环境温度（在一些情况中，还可以结合显示设备的经纬度定位、当前日期），可以分析出显示设备当前对应的对应的场景类型。

例如，根据环境温度所处的温度区间，可以区分出各种温度场景；根据环境温度在一天内是否有大幅波动，可以判断当前属于室内环境还是室外环境；根据环境温度，以及显示设备的经纬度定位或当前日期，可以区分出四季场景。

可选的，终端根据环境声音、环境图像和环境温度中的至少一种，可以识别出一个或多个场景类型，然后再从数据库中查询与识别得到的每个场景类型相匹配的预设绘画要素，就可以得到第二绘画要素。

如步骤S20所述，本实施例预先基于人工智能技术和机器学习模型（可以是扩散概率模型），构建有专用于进行人工智能绘画的人工智能模型，该人工智能模型可以是部署在显示设备中。当然，为了节省显示设备的存储和算力，也可以是将该人工智能模型部署在与显示设备建立有通信连接的本地端设备或云端设备中，显示设备可通过与之进行数据交互，来调用部署在本地端设备或云端设备中的人工智能模型。

应当理解的是，由于人工智能绘画已存在开源技术，因此对于相关模型训练的逻辑和方式在此不作赘述，相关工程师可以是在原有的已训练完成的人工智能绘画模型的基础上进行优化和改进，调整一些相关参数，然后得到适用于本实施例的人工智能模型；或者，基于日趋完善的深度学习框架进行模型组件的搭建，从而得到适用于本实施例的人工智能模型。当然，在条件允许的情况下，相关工程师也是可以从零开始编写和训练出适用于本实施例的人工智能模型。

当然，相比于现有的人工智能绘画模型，本实施例提供的人工智能模型做出的主要改进之一是为各类绘画要素分配相应的权重，即分别为语音指令对应的第一绘画要素，以及环境数据对应的第二绘画要素分别匹配相应的权重（现有的人工智能绘画并不会这样进行绘画要素权重的区分，更常见的情况是所有绘画要素的权重一致）。

其中，本实施例提供的人工智能模型设定的权重规则包括：第一绘画要素对应的权重（可标记为第一权重）大于第二绘画要素对应的权重（可标记为第二权重），例如第一权重与第二权重之比可以是0.7:0.3、0.6:0.4、0.8:0.2等。而且即便在相关工程师在人工智能模型设定第一权重和第二权重的初始比值之后，人工智能模型在后续运行时可以根据训练或学习结果的反馈，自动调整和优化第一权重和第二权重之间的比值，但所调整得到的比值也不能违反该权重规则，如设定第一权重必须大于或等于0.51。

需要说明的是，在人工智能模型对目标进行训练和学习的逻辑之中，若为该目标分配的权重越大，则越会着重于学习该目标的相关特征，这样在后续输出的结果中也会更多反映出该目标的相关特征。

鉴于语音指令毕竟是用户最主观的绘画意图表达，因此通过为第一绘画要素分配更多的权重，这样后续利用人工智能模型所生成的绘画图像，就会更着重于表达第一绘画要素相关联的特征，也就能得到更符合用户心意的绘画图像。而之所以不从语音转文字得到文本信息中直接提取出所有的绘画要素，而是还加入了语音情感分析和环境数据分析，以提取出一些用户没有直接用语音“说”出来的绘画要素，是因为人毕竟是感性的动物，情绪容易受到环境影响（即身处不同环境可能就会产生不一样的绘画意图，如人身处喧闹环境可能就会想要看到以暖色系为基础色调的绘画图像，而身处安静环境可能就会想要看到以冷色系为基础色调的绘画图像），但受限于表达能力不足，或是有些绘画意图已在潜意识中（受环境影响所产生的绘画意图很多时候就会藏在潜意识中）但一下子没有想到要说出来（或不知道要如何形容），因此说出语音指令对应文字中往往就缺失了对这些绘画意图的描述，因此本实施例通过加入语音情感分析和环境数据分析作为考量，就可以尽可能去补足用户想要表达、但又没直接说出来的（或在潜意识中一时没想到要表达出来的）绘画意图，这样就可以提高获取用户在当前环境中想要表达的绘画指令的准确率，这样后续利用人工智能模型所生成的绘画图像，也就更能反映用户在下达语音指令时的所思所感，从而得到更符合用户心意的绘画图像（尤其对于一些表达能力较弱、即便使用语音也难以将其真实的绘画意图表达出的用户，这样也能更容易得到更贴合他们心意的AI绘画图像）；而本实施例的基于语音情感和环境数据来补充用户绘画意图的方案，往往是现有的人工智能绘画技术所欠缺或力有不逮的。

可选的，在终端提取得到第一绘画要素和第二绘画要素后，就可以将这些绘画要素一同输入到预先部署及训练完成的人工智能模型中，这样人工智能模型就可以通过匹配出与绘画要素相关的绘画特征（即与绘画相关的图像特征），并拟合这些绘画特征的分布，生成相应的图像数据，最终得到生成的绘画图像进行输出。

如步骤S30所述，当显示设备得到人工智能模型基于各绘画要素所生成的绘画图像后，就可以在显示设备的显示屏上展示所生成的绘画图像，以供人们观看。

在一实施例中，用户可以通过向显示设备发出语音指令，以表达出个人想要的绘画内容，同时显示设备还可以主动获取其所处环境的环境数据作为绘画内容的补充，这样除了可以从语音指令对应文字描述中获悉用户主观的绘画意图外，还可以结合语音情感信息和环境数据获取用户潜意识中的绘画意图，这样不仅可以方便用户向显示设备发出相应的绘画指令，而且还可以提高获取用户在当前环境中想要表达的绘画指令的准确率，这样后续利用人工智能模型所生成的绘画图像，也就更能反映用户在下达语音指令时的所思所感，从而得到更符合用户心意的绘画图像供显示设备展示。

在一实施例中，在上述实施例基础上，所述绘画内容信息还包括所述显示设备的显示尺寸；所述绘画要素还包括第三绘画要素；所述基于人工智能绘画的图像生成方法还包括：

本实施例中，预先划分有多个预设尺寸区间（各个预设尺寸区间的数值范围不同），每个预设尺寸区间均关联有相应的预设绘画要素。例如，对于一些数值大的预设尺寸区间，可以是关联与宏伟、宽阔、宽大等关键字相关的预设绘画要素；对于一些数值小的预设尺寸区间可以关联与温馨、精细、精美等关键词相关的预设绘画要素。

可选的，显示设备获取的绘画内容信息除了包括语音指令和环境数据外，还包括显示设备本端的显示尺寸。

可选的，当终端从绘画内容信息中提取绘画要素时，还会根据显示设备的显示尺寸所处的预设尺寸区间，匹配相应的预设绘画要素，作为第三绘画要素。而终端在得到第一绘画要素、第二绘画要素和第三绘画要素后，则会将这些绘画要素一同输入到人工智能模型中，以生成绘画图像。

需要说明的是，在现有的人工智能绘画技术中，并不会关注AI绘画图像中的内容与用于显示AI绘画图像的设备的显示尺寸之间的内在联系；即便现有的人工智能绘画技术支持用户设置所输出的AI绘画图像的尺寸，但这种图像尺寸的设置并不会对具体的绘画内容产生影响，不同尺寸的设置只是针对同一绘画内容的图像裁剪出不同尺寸而已；相比于现有技术，本实施例则通过充分捕捉生成的AI绘画内容与显示设备的显示尺寸之间的关联性（例如对于大的显示尺寸，一般可以关联一些与宏伟的绘画场面相关的预设绘画元素，这些预设绘画元素可以通过增加更多的人物、景物，布置更大的风光场面、设计出历史著名场面来表现；而对于小的显示尺寸，则可以关联一些精美或单个角色、物品的绘画设定作为预设绘画要素，以在有限篇幅内重点突出主要角色或物品），并为不同的显示尺寸分配相应的预设绘画要素，使得人工智能模型可以学习到不同显示尺寸相应的绘画特征，在生成绘画图像时将这些绘画特征与第一绘画要素、第二绘画要素对应绘画特征进行拟合，这样最终生成的绘画图像就可以反映出第三绘画要素对应的绘画特征（即使得生成的绘画图像的内容受到显示设备的显示尺寸的影响，并在显示尺寸改变时，也可能会影响到AI绘画最终生成的内容），这样在语音指令和环境数据均相同的情况下，若显示设备的显示尺寸不同，那么不同的显示设备最终得到的绘画图像也会不同。

鉴于用户绘画意图有时也会受显示设备的显示尺寸的影响（如若显示设备的显示尺寸较大，则用户可能会更想要得到场面更为宏伟、气势磅礴的绘画；而若显示设备的显示尺寸较小，则用户可能更想要一下精美的、重点突出单个人物或物品的绘画），譬如用户站在不同显示尺寸的显示设备前，可能就会有不同的绘画意图，而这种感受对于有一定绘画功底的用户虽然比较容易表达出来，但对于一般用户或缺乏绘画基础的用户则难以形容表达，往往是想到了却不知如何表达出相应的绘画意图，甚至这种感受更多时候只停留在潜意识层面中，而本实施例通过充分捕捉AI绘画内容与显示设备的显示尺寸之间的关联性，就可以对用户在此方面的绘画意图做出一定的补充，得到用户更准确的绘画意图，进一步提高获取用户在当前环境中想要表达的绘画指令的准确率，这样后续利用人工智能模型所生成的绘画图像，也就更能反映用户在下达语音指令时的所思所感，从而得到更符合用户心意的绘画图像供显示设备展示。

当然，由于语音指令毕竟是用户最主观的绘画意图表达，因此人工智能模型为第三绘画元素匹配的权重（可标记为第三权重），也应该满足设定的权重规则：第三权重小于第一权重。至于第三权重与第二权重之间，则既可以设定两者相等，也可以设定第三权重小于或者大于第二权重。

例如，第一权重、第二权重和第三权重之间的比值可以是0.5:0.3:0.2、0.6:0.2:0.2、0.6:0.1:0.3。

或者，也可以是根据第二权重、第三权重各自对应的绘画元素的数量多少，来为二者分配相应的权重，且对应的绘画元素越多，则分配的权重越大。例如，由于一般从环境数据中提取得到的第二绘画要素的数量，往往多于第三绘画元素的数量，因此可以设定第一权重>第二权重>第三权重。

在一实施例中，在上述实施例基础上，所述绘画要素还包括第四绘画要素；所述基于人工智能绘画的图像生成方法还包括：

本实施例中，绘画要素除了包括第一绘画要素和第二绘画要素外，还可以包括第四绘画要素。当然，在一些实施例中，绘画要素还可以包括第三绘画要素。

可选的，终端除了基于语音指令提取第一绘画要素外，还可以通过对语音指令进行音频分析，提取其中的音频特征，然后根据提取到的音频特征进行用户画像，得到发出该语音指令的用户对应的用户类型。

应当理解的是，由于不同年龄段、性别的人群，一般都有相应的音频特征，结合大数据分析技术可以得到各个年龄段、性别的人群相应的具有代表性的音频特征。这样在终端保存有各年龄段、性别的人群对应的预设音频特征后，当需要进行用户类型识别时，在提取到待识别用户对应音频特征后，通过在数据库中查询与之匹配的预设音频特征，进而根据查询得到的语音音频特征所关联的人群类型，即可得到待识别用户对应的用户类型。

由于不同类型的用户一般具有相应的绘画偏好，因此可以预先为各种用户类型配置相应的绘画风格作为预设绘画要素，在确定语音指令对应的用户的用户类型后，则可在数据库查询与该用户类型匹配的预设绘画要素，作为第四绘画要素。例如，用户类型为老人时，则关联的预设绘画要素可以是水墨画、山水画风格；用户类型为成年女性时，则关联的预设绘画要素可以是油画、印象画风格；用户类型为小孩时，则关联的预设绘画要素可以是漫画、简笔画风格。

可选的，终端在得到第一绘画要素、第二绘画要素和第四绘画要素（在一些实施例中还可包括第三绘画要素）后，则会将这些绘画要素一同输入到人工智能模型中，以生成绘画图像。

需要说明的是，在现有的人工智能绘画技术中，并不会关注绘画指令下达者与绘画内容之间的内在联系，也就忽略了不同类型的用户即便下达了相同的绘画指令，也会存在彼此想要得到的绘画内容也会有所不同的情况；而本实施例通过充分捕捉用户类型与AI绘画内容之间的关联性，并为不同的用户类型分配相应的预设绘画要素，使得人工智能模型可以学习到不同用户类型相应的绘画特征，并在生成绘画图像时将这些绘画特征与第一绘画要素、第二绘画要素（在一些实施例中还可包括第三绘画要素）对应绘画特征进行拟合，这样最终生成的绘画图像就可以反映出第四绘画要素对应的绘画特征（即使得生成的绘画图像的内容受到用户类型的影响，并在用户类型改变时，也可能会影响到AI绘画最终生成的内容），进而使得AI绘画图像更加符合相应类型的用户的心意。

当然，由于语音指令毕竟是用户最主观的绘画意图表达，人工智能模型为第四绘画元素匹配的权重（可标记为第四权重），也应该满足设定的权重规则：第四权重小于第一权重。

可选的，由于一般从环境数据中提取得到的第二绘画要素的数量，往往多于第四绘画元素的数量，因此可以设定第一权重>第二权重>第四权重。至于第三权重与第四权重之间，则既可以设定两者相等，也可以设定第三权重小于或者大于第四权重。

在一实施例中，在上述实施例基础上，所述绘画要素还包括所述显示设备当前显示的绘画图像对应的第五绘画要素，其中，所述人工智能模型为所述第五绘画要素匹配的权重，小于所述人工智能模型为所述第一绘画要素匹配的权重。

本实施例中，在显示设备获取到绘画内容信息时，若显示设备当前显示的图像也是之前基于步骤S10-S30得到的绘画图像，那么终端就会有保存到当前显示的绘画图像对应的绘画要素（即用于生成该绘画图像时的绘画要素），因此可以将当前显示的绘画图像对应的绘画要素全更新为第五绘画要素。

可选的，在终端得到第一绘画要素和第二绘画要素（在一些实施例中还可包括第三绘画要素和/或第四绘画要素）后，则会将这些绘画要素与第五绘画要素一同输入到人工智能模型中，以生成绘画图像。

可选的，在得到最新生成的绘画图像后，则显示设备就可以将当前所显示的绘画图像，切换为最新生成的绘画图像。当然，由于语音指令毕竟是用户最主观的绘画意图表达，因此人工智能模型为第五绘画元素匹配的权重（可标记为第五权重），也应该满足设定的权重规则：第五权重小于第一权重。

而且由于第五绘画要素毕竟来自于即将被替换的绘画图像，因为也无需为第五绘画要素赋予比其他类型的绘画要素更高的权重，即设定第五权重除小于第一权重外，还可进一步设定第五权重小于所有类型的权重（如第二权重、第三权重、第四权重）。

需要说明的是，既然显示设备当前显示的绘画图像能够被展示出来，说明多少还是受到了用户的偏爱，因此通过将当前显示的绘画图像相关的第五绘画要素赋予一定的权重，并加入到新的绘画图像的机器学习中，使得人工智能模型最终生成的绘画图像可以在一定程度上保留当前显示的绘画图像一些绘画风格和内容，以使得到尽可能符合用户心意的绘画图像供显示设备展示。

在一实施例中，在上述实施例基础上，所述利用人工智能模型基于所述绘画要素生成绘画图像的步骤之前，还包括：

获取上一次生成所述绘画图像的历史时间点；

本实施例中，当显示设备接收语音指令时（或者获取到绘画内容信息时），则获取上一次通过执行步骤S10-S30生成绘画图像时的历史时间点。然后确定当前接收到语音指令的时间点（即当前时间点）与历史时间点之间的间隔时长，并进一步检测该间隔时长是否小于预设时长。其中，所述预设时长用于衡量间隔时长的长短，可根据实际情况需要设置，如设置为3天、7天、10天、15天等。

可选的，若终端检测到间隔时长小于预设时长，则可控制人工智能模型按一定比例提高第一权重，而降低第二权重（如控制第一权重提高0.1，控制第二权重降低0.1）。其中，若除第一绘画要素和第二绘画要素外，还包括其他绘画要素（如第三绘画要素、第四绘画要素和第五绘画要素中的至少一个），还可以同时降低其他绘画要素的权重。然后，在人工智能模型保存更新调整后的权重后，终端再将当前提取到的绘画要素输入到人工智能模型中，以生成新的绘画图像。

可选的，若终端检测到间隔时长大于或等于预设时长，则可控制各类型绘画要素对应的权重保持不变，且终端可将当前提取到的绘画要素输入到人工智能模型中，使人工智能模型继续沿用当前各类权重生成新的绘画图像。

或者，若终端检测到间隔时长大于或等于预设时长，也可以是在满足权重规则（即第一权重需大于第二权重）的情况下，控制人工智能模型按一定比例降低第一权重，而提高第二权重（如控制第一权重降低0.1，控制第二权重提高0.1）；其中，若除第一绘画要素和第二绘画要素外，还包括其他绘画要素（如第三绘画要素、第四绘画要素和第五绘画要素中的至少一个），还可以同时提高其他绘画要素的权重。然后，在人工智能模型保存更新调整后的权重后，终端再将当前提取到的绘画要素输入到人工智能模型中，以生成新的绘画图像。

需要说明的是，若前后两次生成绘画图像的间隔时长过短（即间隔时长小于预设时长），说明用户可能对前一次生成的绘画图像不太满意，因此在这种情形中可适当提高第一绘画要素对应的权重，而降低其他绘画要素对应的权重，从而使得后续生成的绘画图像更着重于反映出用户通过语音直观说出的绘画意图，从而得到更符合用户主观意志的绘画图像供显示设备展示；而若前后两次生成绘画图像的间隔时长较长（即间隔时长大于或等于预设时长），说明用户可能对前一次生成的绘画图像比较满意，因此可以继续沿用各类绘画要素当前对应的权重，或适当提高除第一绘画要素外的其他绘画要素对应的权重，使得后续生成的绘画图像可以继续以较为重要的程度反映出用户未通过语音直观说出的绘画意图（如偏潜意识方面的绘画意图），从而生成更符合用户心意的绘画图像供显示设备展示。

参照图2，本申请实施例中还提供一种显示设备，该显示设备内部结构可以如图2所示。该显示设备包括通过系统总线连接的处理器、存储器、通信接口和数据库。其中，该处理器用于提供计算和控制能力。该显示设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该显示设备的数据库用于存储基于人工智能绘画的图像生成程序。该显示设备的通信接口用于与外部的终端进行数据通信。该显示设备的输入装置用于接收外部设备输入的信号。该计算机程序被处理器执行时以实现一种如以上实施例所述的基于人工智能绘画的图像生成方法。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的显示设备的限定。

此外，本申请还提出一种计算机可读存储介质，所述计算机可读存储介质包括基于人工智能绘画的图像生成程序，所述基于人工智能绘画的图像生成程序被处理器执行时实现如以上实施例所述的基于人工智能绘画的图像生成方法的步骤。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。

综上所述，为本申请实施例中提供的基于人工智能绘画的图像生成方法、显示设备和计算机可读存储介质，用户可以通过向显示设备发出语音指令，以表达出个人想要的绘画内容，同时显示设备还可以主动获取其所处环境的环境数据作为绘画内容的补充，这样除了可以从语音指令对应文字描述中获悉用户主观的绘画意图外，还可以结合语音情感信息和环境数据获取用户潜意识中的绘画意图，这样不仅可以方便用户向显示设备发出相应的绘画指令，而且还可以提高获取用户在当前环境中想要表达的绘画指令的准确率，这样后续利用人工智能模型所生成的绘画图像，也就更能反映用户在下达语音指令时的所思所感，从而得到更符合用户心意的绘画图像供显示设备展示。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于人工智能绘画的图像生成方法，其特征在于，包括：

在所述显示设备上展示所述绘画图像。

2.根据权利要求1所述的基于人工智能绘画的图像生成方法，其特征在于，所述识别所述语音指令的语义信息和语音情感信息，并根据所述语义信息和所述语音情感信息生成所述第一绘画要素的步骤包括：

识别所述语音指令的语义信息和语音情感信息；

将经筛选后的所述预设绘画要素作为所述第一绘画要素。

3.根据权利要求1所述的基于人工智能绘画的图像生成方法，其特征在于，所述环境数据包括环境声音、环境图像和环境温度中的至少一个；所述根据所述环境数据提取所述第二绘画要素的步骤包括：

4.根据权利要求1所述的基于人工智能绘画的图像生成方法，其特征在于，所述绘画内容信息还包括所述显示设备的显示尺寸；所述绘画要素还包括第三绘画要素；所述基于人工智能绘画的图像生成方法还包括：

5.根据权利要求1所述的基于人工智能绘画的图像生成方法，其特征在于，所述绘画要素还包括第四绘画要素；所述基于人工智能绘画的图像生成方法还包括：

6.根据权利要求1所述的基于人工智能绘画的图像生成方法，其特征在于，所述绘画要素还包括所述显示设备当前显示的绘画图像对应的第五绘画要素，其中，所述人工智能模型为所述第五绘画要素匹配的权重，小于所述人工智能模型为所述第一绘画要素匹配的权重。

7.根据权利要求1-6中任一项所述的基于人工智能绘画的图像生成方法，其特征在于，所述利用人工智能模型基于所述绘画要素生成绘画图像的步骤之前，还包括：

获取上一次生成所述绘画图像的历史时间点；

8.根据权利要求7所述的基于人工智能绘画的图像生成方法，其特征在于，所述检测当前接收到所述语音指令的时间点与所述历史时间点之间的间隔时长，是否小于预设时长的步骤之后，还包括：

9.一种显示设备，其特征在于，所述显示设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于人工智能绘画的图像生成程序，所述基于人工智能绘画的图像生成程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于人工智能绘画的图像生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于人工智能绘画的图像生成程序，所述基于人工智能绘画的图像生成程序被处理器执行时实现如权利要求1至8中任一项所述的基于人工智能绘画的图像生成方法的步骤。