CN112215445B

CN112215445B - 发光层制备多喷嘴喷射调度方法、装置、存储介质和终端

Info

Publication number: CN112215445B
Application number: CN202011427559.4A
Authority: CN
Inventors: 吕赐兴; 毛淇; 白敏霞; 李一越
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-04-20
Anticipated expiration: 2040-12-09
Also published as: CN112215445A

Abstract

本发明公开了一种发光层制备多喷嘴喷射调度方法、装置、存储介质和终端，将多喷嘴喷射调度问题转化为深度强化学习问题，在实现深度强化学习方法的过程中，为每个喷嘴建立Agent,有效避免了同时对几千个喷嘴进行调度运算的难题；不仅实现了多喷嘴的喷射调度，而且还能够适应显示面板上子像素形状/大小/空间分布的变化，也能够适应喷嘴的动态变化，实现了在动态环境下也能够实现面向印刷OLED发光层的多喷嘴喷射调度。

Description

发光层制备多喷嘴喷射调度方法、装置、存储介质和终端

技术领域

本发明涉及OLED制备技术领域，尤其涉及的是一种发光层制备多喷嘴喷射调度方法、装置、存储介质和终端。

背景技术

印刷OLED显示面板上发光层制备需要通过调度几千个喷嘴的喷射，将上亿的有机发光材料墨滴，填满几千万个R/G/B子像素凹糟（填满一个子像素凹槽需要3-7滴）；同时需要满足子像素内液滴总体积误差、喷嘴均衡使用等约束，是一个NP-Hard问题（指所有NP问题都能在多项式时间复杂度内归约到的问题）。已有的传统优化算法虽然能求得问题的近优解，然而，由于产品和工艺的需要，显示基板的像素结构经常变化；而且喷嘴在长时间工作后，会经常发生喷射体积的改变、甚至发生喷嘴堵塞，造成喷嘴的可用性和性能在动态变化，所以，如何在这种动态的环境下，实现印刷OLED发光层制备多喷嘴喷射调度，是一个亟待解决的问题。

因此，现有的技术还有待于改进和发展。

发明内容

本发明的目的在于提供一种发光层制备多喷嘴喷射调度方法、装置、存储介质和终端，旨在解决如何在动态的环境下，实现印刷OLED发光层制备多喷嘴喷射调度的问题。

本发明的技术方案如下：一种发光层制备多喷嘴喷射调度方法，其中，具体包括以下步骤：

按照印刷OLED发光层制备的技术要求，根据印刷OLED发光层喷印问题构建印刷OLED发光层喷印问题模型；

根据所述印刷OLED发光层喷印问题模型构建面向多喷嘴喷射调度的深度强化学习神经网络；

对所述面向多喷嘴喷射调度的深度强化学习神经网络进行训练；

通过训练好的面向多喷嘴喷射调度的深度强化学习神经网络进行印刷OLED发光层生产过程的多喷嘴喷射控制。

所述的发光层制备多喷嘴喷射调度方法，其中，所述按照印刷OLED发光层制备的技术要求，根据印刷OLED发光层喷印问题构建印刷OLED发光层喷印问题模型，印刷OLED发光层喷印问题模型包括建立包括子像素内液滴体积差异的效用性评价指标、建立喷嘴使用均衡的稳定性指标、定义喷印系统中的变量、计算得到可喷射时刻序列、确定某一喷射时刻下可喷射喷嘴的集合。

所述的发光层制备多喷嘴喷射调度方法，其中，所述效用性评判指标中，子像素凹槽内的液滴总体积满足如下体积差异条件：

，

为子像素凹槽内的液滴总体积，

为子像素凹槽内的液滴的额定总体积，

为允许误差；所述稳定性指标中，对每个喷嘴的喷射时间间隔

，

为每个喷嘴的喷射时间间隔，

为每个喷嘴的额定喷射时间间隔。

所述的发光层制备多喷嘴喷射调度方法，其中，所述可喷射时刻序列中，根据喷头的喷射频率参数，可计算得到喷头的可喷射时刻序列

，其中，

为喷头的可喷射时刻序列，L为OLED在基板运动方向上的长度，W为喷头在基板运动方向上的厚度，

为OLED沿着Y轴方向匀速运动的速度。

所述的发光层制备多喷嘴喷射调度方法，其中，所述确定某一喷射时刻下可喷射喷嘴的集合，具体包括以下过程：

采用矢量图的方法，建立OLED上子像素的空间结构矢量图和喷头上多个喷嘴的空间结构矢量图；

在每个喷射时刻下，在Z轴投影上将子像素的空间结构矢量图和喷头上多个喷嘴的空间结构矢量图进行求交集运算，得到子像素与喷嘴重合的子像素集合、子像素与喷嘴重合的喷嘴集合，其中，喷嘴集合就是在对应喷射时刻下可喷射喷嘴的集合。

所述的发光层制备多喷嘴喷射调度方法，其中，所述根据所述印刷OLED发光层喷印问题模型构建面向多喷嘴喷射调度的深度强化学习神经网络，具体包括以下步骤：

采用多智能体马尔可夫决策过程来对多喷嘴喷射调度问题进行建模，得到基于强化学习的喷嘴调度模型，其中，所述多喷嘴喷射调度问题包括喷嘴、状态、行动、报酬；

采用评判网络与行动者网络对基于强化学习的喷嘴调度模型进行行动选择和价值评估，最终得到面向多喷嘴喷射调度的深度强化学习神经网络。

所述的发光层制备多喷嘴喷射调度方法，其中，对所述面向多喷嘴喷射调度的深度强化学习神经网络进行训练，具体包括以下步骤：

s41：随机初始化行动者网络的参数、评判网络的参数；随机初始化所有的状态和行动对应的价值；

s42-0：初始化状态序列的第一个状态；

s42-1：将第一个状态和所有的状态和行动对应的价值作为行动者网络的输入，输出行动，调度对应的喷嘴进行喷射，第一个状态更新为下一个新状态，同时环境根据所有子像素的已完成体积或剩余体积计算报酬；

s42-2：分别使用第一个状态和下一个新状态作为评判网络的输入，得到与下一个新状态对应的价值和与第一个状态对应的价值；

s42-3：基于评判损失函数更新评判网络参数，评判损失函数如下：

，

其中，r为报酬，

的取值范围为0.2-0.6，

为与第一个状态对应的价值，

为与下一个新状态对应的价值，s为状态，a为行动，

为评判网络的参数；

s42-4：把第一个状态对应的价值作为行动者网络的输入，行动者网络根据评判通过行动者损失函数的梯度更新行动者网络的参数，以调整调度策略；其中行动者损失函数如下：

代表所有状态下喷嘴采取行动a时的累计收获；

表示策略选择，行动者网络采用Softmax函数作为选择函数，输出在状态s下采取行动a的概率，

为评判损失函数；

s42-5：循环s42-1至s42-4，遍历所有OLED的子像素，迭代次数加1；

s42-6：判断迭代次数是否达到预设值，是则训练结束，否则跳转至s42-0。

一种发光层制备多喷嘴喷射调度装置，其中，包括：

印刷OLED发光层喷印问题模型构建模块，按照印刷OLED发光层制备的技术要求，根据印刷OLED发光层喷印问题构建印刷OLED发光层喷印问题模型；

深度强化学习神经网络构建模块，根据所述印刷OLED发光层喷印问题模型构建面向多喷嘴喷射调度的深度强化学习神经网络；

深度强化学习神经网络训练模块，对所述面向多喷嘴喷射调度的深度强化学习神经网络进行训练；

控制模块，通过训练好的面向多喷嘴喷射调度的深度强化学习神经网络进行印刷OLED发光层生产过程的多喷嘴喷射控制。

一种存储介质，其中，所述存储介质中存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行上述任一项所述的方法。

一种终端，其中，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行上述任一项所述的方法。

本发明的有益效果：本发明通过提供一种发光层制备多喷嘴喷射调度方法、装置、存储介质和终端，将多喷嘴喷射调度问题转化为深度强化学习问题，在实现深度强化学习方法的过程中，为每个喷嘴建立Agent,有效避免了同时对几千个喷嘴进行调度运算的难题；不仅实现了多喷嘴的喷射调度，而且还能够适应显示面板上子像素形状/大小/空间分布的变化，也能够适应喷嘴的动态变化，实现了在动态环境下也能够实现面向印刷OLED发光层的多喷嘴喷射调度。

附图说明

图1是本发明中发光层制备多喷嘴喷射调度方法的步骤流程图。

图2是本发明中基于深度强化学习的印刷OLED多喷嘴喷射调度过程示意图。

图3是本发明中对面向多喷嘴喷射调度的深度强化学习神经网络进行训练的步骤流程图。

图4是本发明中发光层制备多喷嘴喷射调度装置的示意图。

图5是本发明中终端的示意图。

具体实施方式

下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，一种发光层制备多喷嘴喷射调度方法，具体包括以下步骤：

S1：根据所要制备的印刷OLED发光层的技术要求，建立包括子像素凹槽内液滴体积差异的效用性评判指标。

其中，所述根据所要制备的印刷OLED发光层的技术要求，建立包括子像素内液滴体积差异的效用性评判指标，子像素凹槽内的液滴总体积满足如下体积差异条件：

，

为子像素凹槽内的液滴总体积，

为子像素凹槽内的液滴的额定总体积，

为允许误差；建立喷嘴使用均衡的稳定性指标以避免喷嘴性能变化，乃至喷嘴堵塞：对每个喷嘴的喷射时间间隔

，

为每个喷嘴的喷射时间间隔，

为每个喷嘴的额定喷射时间间隔。

S2：对印刷OLED发光层喷印过程进行建模。

其中，定义喷印系统中的变量：喷头包含N个喷嘴，喷嘴的标称喷射体积（喷嘴的标称喷射体积是指设计与制造喷嘴时规定或保证喷嘴在一定的喷射条件下,应该喷出的最低限度的液滴体积）为v，第n个喷嘴实际喷射的液滴体积为

；喷头的喷射频率为f；显示基板上包含S个子像素；显示基板在基板运动方向上的长度为L，喷头在基板运动方向上的厚度为W；喷头与显示基板的相对初始位置为

（在Z轴投影上，喷头开始与显示基板重叠的位置，即喷头在上方固定不动，显示基板在下方运动，显示基板开始进入喷头范围的位置）。

喷印过程：含有多排喷嘴的喷头固定不动，显示基板沿着Y轴方向以速度

匀速运动；根据喷头的喷射频率参数f，可计算得到喷头的喷射时刻序列

；在显示基板运动过程中，在每一个喷射时刻序列，如果满足条件以下两个条件：①某个喷嘴属于可喷射集合；②落入子像素内的液滴加上子像素内已有的液滴体积总和

在误差

允许范围内，则喷嘴进行喷射；直到所有子像素凹槽内的液滴总体积达到如S1所述体积差异条件的要求。

喷射时刻t下可喷射喷嘴集合的确定：采用矢量图的方法，建立显示基板上子像素的空间结构和喷头上多个喷嘴的空间结构模型；在每个喷射时刻t下，考虑喷头和显示基板的相对位置，在Z轴投影上将子像素空间结构矢量图和多个喷嘴的空间结构矢量图进行求交集运算，得到子像素与喷嘴重合的子像素集合

、喷嘴集合

，

就是在t时刻可喷射的喷嘴集合，当

中的某个喷嘴喷射时，将液滴喷射进相应的子像素内。对某个具体的子像素，所有经过子像素pixel并且可进行喷射的喷嘴集合为

。

S3：构建面向多喷嘴喷射调度的深度强化学习神经网络。

其中，以子像素凹槽内液滴体积差异和喷嘴使用均衡为目标，针对t喷射时刻序列下哪些喷嘴进行喷射的控制问题，实现基于强化学习的多喷嘴喷射调度方法，如图2所示。

每个喷嘴都被分配给一个Agent（即智能体，具有智能的实体），因此多喷嘴喷射调度环境可以包含多个Agent。将Agent在时间t的情况表述为s(t)，将Agent在这种情况下采取的行动表述为a(t)。一旦Agent采取行动，它将立即获得报酬r(t)，报酬体现问题的优化目标。因此，Agent的目标是随着时间的推移优化预期的未来回报。

使用三个矩阵来表示多喷嘴喷射调度环境的状态，分别包括子像素的过程体积的布尔矩阵、喷嘴的喷射作业的布尔矩阵和喷嘴已完成喷射作业的布尔矩阵。这三个矩阵在不同的t时刻，由于Agent的行动而产生变化。

在实现中，每个Agent采用行动者-评判架构的深度强化学习方法，让Agent与环境互动。所供选择的行动a(t)可以是简单的调度规则，例如先到先喷、最接近平均体积。

3-1）基于深度强化学习的喷嘴调度模型

本技术方案采用多智能体马尔可夫决策过程来对多喷嘴喷射调度问题进行建模。m个Agent可以与m个喷嘴相关联，每个Agent完成自己的计算，避免了在某些喷嘴发生故障或者性能发生改变（如喷射体积、喷射角度等）时重新对喷射任务调度。多喷嘴喷射调度问题描述如下：

a)Agent：每个Agent都与特定的喷嘴相关联。

b）状态s：包括所有子像素的过程体积矩阵(包括每个

时刻，每个子像素内的液滴体积)、分配给每个Agent(喷嘴)的喷射作业的布尔矩阵（包括每个

时刻，每个喷嘴是否有喷射计划）和喷嘴已完成喷射作业的布尔矩阵(包括每个

时刻，每个喷嘴是否有喷射行动)。这三个布尔矩阵代表一个状态的三个不同维度，作为CNN的输入。

c）行动a：行动对应一个喷射调度规则，如先到先喷、接近标称体积优先、累计平均体积优先、剩余体积匹配优先、喷嘴均衡使用优先，等：

先到先喷调度规则：在可喷射喷嘴中，选择先到达子像素pixel上方的喷嘴n进行喷射，并且子像素凹槽内液滴体积满足

；对于所有可喷射喷嘴集合中的所有喷嘴，都满足喷射时间间隔

。

接近标称体积优先调度规则：在可喷射喷嘴中，选择喷射体积最接近标称体积的喷嘴；并且子像素凹槽内液滴体积满足

。

累计平均体积调度规则：在可喷射喷嘴中，选择某个喷嘴喷射，使子像素内的累计体积之和最接近累计标称体积之和：

，其中

为子像素pixel内已有液滴体积，c为子像素pixel内已喷射次数，v*c为标称累计体积和，

为可以给某个像素喷射液滴的喷嘴集合；并且子像素凹槽内液滴体积满足

。

剩余体积匹配调度规则：假设剩余喷嘴的喷射体积方差之和

，子像素内累计液滴体积与累计标称体积之和为

。在可喷射喷嘴中，选择某个喷嘴喷射，使

的差值最小；并且子像素凹槽内液滴体积满足

。

喷嘴均衡使用优先调度规则：在可喷射喷嘴中，选择最长时间没有喷射的喷嘴：

，其中，

为第n个喷嘴上一次喷射时刻到当前可喷射时刻的时间差，

；并且子像素凹槽内液滴体积满足

。

d）报酬r：使用所选的本次喷射的体积、子像素的剩余体积/剩余喷射次数、可用喷嘴集合的最长喷嘴使用时间间隔和最小完工时间的比较作为当前状态的报酬。

3-2）行动者-评判网络结构

本技术方案采用行动者-评判网络来进行行动选择和价值评估。对于行动者网络，Agent根据当前状态，结合上一状态评判网络给的价值评估，计算采取适当的行动。

评判网络与行动者网络有着相似的结构，评判网络负责对Agent在某个状态下的某个行动进行价值评估。当Agent选择一个行动并将到达一个新状态，评判网络评估该行动的价值，该价值是Agent在下一个状态行动选择的依据。

当Agent到达一个新的状态时，行动者网络结合评判网络在前一步行动给出的价值评估计算采取适当的行动。

评判网络和行动者网络都采用CNN结构，包括2层的卷积层和1层完全连接层。卷积层采用(1×10)的卷积核，以找到操作之间的关系，完全连接层使用100个神经元。网络中都采用ReLU激活函数。评判网络的输出是一个标量值，代表在状态s下，Agent采取行动a的估计价值；行动者网络的输出是一个向量，代表状态s下，可采取的若干行动，以及采取每种行动的概率。

S4：面向多喷嘴喷射调度的深度强化学习神经网络训练过程。

以仿真数据和实验数据为数据训练集，对基于强化学习的多喷嘴喷射调度模型进行训练，得到训练好的多喷嘴喷射调度模型。训练过程如下（如图3所示）：

4-1)首先，随机初始化行动者网络的参数

、评判网络的参数

；随机初始化所有的状态和行动对应的价值Q。

4-2）从i=1到i=K，进行迭代。K是事先指定的自然数，一般取200以上。

4-20)初始化状态序列的第一个状态为s；

4-21)状态s和Q作为行动者网络输入，输出行动a，调度某些喷嘴进行喷射，状态s就转移到下一个状态

；同时环境根据所有子像素的已完成体积或剩余体积计算报酬r。

4-22)分别使用状态s和状态

作为评判网络的输入，得到输出更新的价值

和

；

4-23)基于评判损失函数更新评判网络参数

，评判损失函数如下：

梯度更新的目标是让评判网络对状态-行动

的估计更接近目标值：

，包括即时奖励和下一个状态的最大值估计。

的取值范围为 0.2-0.6。

4-24)Q作为行动者网络输入，行动者网络根据评判通过行动者损失函数的梯度更新行动者网络的参数

以调整调度策略。

行动者损失函数如下：

的值代表所有状态s下Agent采取行动a时的累计收获。其中，

表示策略选择，行动者网络采用Softmax函数（即归一化指数函数）作为选择函数，输出在状态s下采取行动a的概率，

为评判损失函数。

4-25）一旦所有的子像素喷射作业都已完成，环境最终会给出最大完工时间的奖励，并将状态重置为初始状态；i=i+1；回到4-20)。

S5：面向多喷嘴喷射调度的深度强化学习神经网络使用过程。

建立好显示基板的子像素空间结构、所有喷嘴的空间结构，初始化子像素的喷射体积要求，初始化所有喷嘴的实际喷射体积，利用训练好的多喷嘴喷射调度模型进行印刷OLED生产过程的喷嘴喷射控制。

如图4所示，一种发光层制备多喷嘴喷射调度装置，包括：

印刷OLED发光层喷印问题模型构建模块101，按照印刷OLED发光层制备的技术要求，根据印刷OLED发光层喷印问题构建印刷OLED发光层喷印问题模型；

深度强化学习神经网络构建模块102，根据所述印刷OLED发光层喷印问题模型构建面向多喷嘴喷射调度的深度强化学习神经网络；

深度强化学习神经网络训练模块103，对所述面向多喷嘴喷射调度的深度强化学习神经网络进行训练；

控制模块104，通过训练好的面向多喷嘴喷射调度的深度强化学习神经网络进行印刷OLED发光层生产过程的多喷嘴喷射控制。

请参照图5，本发明实施例还提供一种终端。如示，终端300包括处理器301和存储器302。其中，处理器301与存储器302电性连接。处理器301是终端300的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或调用存储在存储器302内的计算机程序，以及调用存储在存储器302内的数据，执行终端的各种功能和处理数据，从而对终端300进行整体监控。

在本实施例中，终端300中的处理器301会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的计算机程序，从而实现各种功能：按照印刷OLED发光层制备的技术要求，根据印刷OLED发光层喷印问题构建印刷OLED发光层喷印问题模型；根据所述印刷OLED发光层喷印问题模型构建面向多喷嘴喷射调度的深度强化学习神经网络；对所述面向多喷嘴喷射调度的深度强化学习神经网络进行训练；通过训练好的面向多喷嘴喷射调度的深度强化学习神经网络进行印刷OLED发光层生产过程的多喷嘴喷射控制。

存储器302可用于存储计算机程序和数据。存储器302存储的计算机程序中包含有可在处理器中执行的指令。计算机程序可以组成各种功能模块。处理器301通过调用存储在存储器302的计算机程序，从而执行各种功能应用以及数据处理。

本申请实施例提供一种存储介质，所述计算机程序被处理器执行时，执行上述实施例的任一可选的实现方式中的方法，以实现以下功能：按照印刷OLED发光层制备的技术要求，根据印刷OLED发光层喷印问题构建印刷OLED发光层喷印问题模型；根据所述印刷OLED发光层喷印问题模型构建面向多喷嘴喷射调度的深度强化学习神经网络；对所述面向多喷嘴喷射调度的深度强化学习神经网络进行训练；通过训练好的面向多喷嘴喷射调度的深度强化学习神经网络进行印刷OLED发光层生产过程的多喷嘴喷射控制。其中，存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（Static Random Access Memory, 简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory, 简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read Only Memory, 简称EPROM），可编程只读存储器（Programmable Red-Only Memory, 简称PROM），只读存储器（Read-Only Memory, 简称ROM），磁存储器，快闪存储器，磁盘或光盘。

在本申请所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

再者，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种发光层制备多喷嘴喷射调度方法，其特征在于，具体包括以下步骤：

通过训练好的面向多喷嘴喷射调度的深度强化学习神经网络进行印刷OLED发光层生产过程的多喷嘴喷射控制；

所述根据所述印刷OLED发光层喷印问题模型构建面向多喷嘴喷射调度的深度强化学习神经网络，具体包括以下步骤：

采用评判网络与行动者网络对基于强化学习的喷嘴调度模型进行行动选择和价值评估，最终得到面向多喷嘴喷射调度的深度强化学习神经网络；

对所述面向多喷嘴喷射调度的深度强化学习神经网络进行训练，具体包括以下步骤：