CN117150066A - 汽车传媒领域的智能绘图方法和装置 - Google Patents
汽车传媒领域的智能绘图方法和装置 Download PDFInfo
- Publication number
- CN117150066A CN117150066A CN202311408189.3A CN202311408189A CN117150066A CN 117150066 A CN117150066 A CN 117150066A CN 202311408189 A CN202311408189 A CN 202311408189A CN 117150066 A CN117150066 A CN 117150066A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- image
- training
- information
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 218
- 230000006870 function Effects 0.000 claims description 189
- 238000012545 processing Methods 0.000 claims description 58
- 239000013598 vector Substances 0.000 claims description 37
- 230000000007 visual effect Effects 0.000 claims description 21
- 238000003062 neural network model Methods 0.000 claims description 19
- 125000004122 cyclic group Chemical group 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 description 27
- 230000008569 process Effects 0.000 description 20
- 230000002829 reductive effect Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000000670 limiting effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000791900 Selene vomer Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种汽车传媒领域的智能绘图方法和装置,涉及计算机技术领域。所述方法包括:接收需求文本信息;对需求文本信息进行解析,获得需求参数信息;将需求参数信息输入车辆模板绘图模型,获得车辆模板特征信息;根据车辆模板特征信息、需求参数信息和智能绘图模型,获得汽车传媒图像。根据本发明,可基于需求参数信息生成与绘图需求匹配的图像,车辆模板绘图模型是通过车辆图像和车辆参数训练获得的,使得车辆模板绘图模型获得的车辆模板特征信息与实际情况相符,从外观和参数两个方面提升车辆的真实度,并且,可通过智能绘图模型生成车辆图形与场景图形协调的汽车传媒图像,提升图像整体的真实度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种汽车传媒领域的智能绘图方法和装置。
背景技术
随着传媒应用的不断涌现,人们对于传媒的了解和需求越来越多。例如,将大量文字和数据进行图像化表达的需求越来越多的涌现出来,并且需要更短的处理时间,使之能在更短的时间内绘制成功。
然而,相关技术中的绘图软件仍需要大量人工操作和手动绘制,绘图速度仍然难以满足需求。而采用人工智能技术生成的图像,虽然生成速度很快,且美观程度在不断提高,但难以与人们的绘图需求完全匹配,例如,生成的图像中某些部分与实际情况不符,或者图像所表达的内容不够协调等。
公开于本申请背景技术部分的信息仅旨在加深对本申请的一般背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
本发明提出了一种汽车传媒领域的智能绘图方法和装置,能够解决生成的图像中某些部分与实际情况不符,或者图像所表达的内容不够协调的技术问题。
根据本发明的一方面,提供了一种汽车传媒领域的智能绘图方法,包括:
接收需求文本信息,其中,所述需求文本信息用于描述用户对于生成的图像的需求;
对所述需求文本信息进行解析,获得需求参数信息;
将所述需求参数信息输入已训练的车辆模板绘图模型进行处理,获得车辆模板特征信息,其中,所述车辆模板绘图模型通过车辆图像与车辆参数训练获得;
根据所述车辆模板特征信息、所述需求参数信息和已训练的智能绘图模型,获得与所述需求文本信息匹配的汽车传媒图像,其中,所述智能绘图模型用于在所述车辆模板特征信息中的车辆图形的基础上生成场景图形,并用于提升车辆图形与场景图形之间的协调性。
在一种可能的实现方式中,对所述需求文本信息进行解析,获得需求参数信息,包括:
对所述需求文本信息进行预处理,获得词向量序列;
对所述词向量序列进行词嵌入处理,获得语义向量;
通过已训练的循环神经网络模型的编码层级对所述语义向量进行编码处理,获得语义特征信息;
通过已训练的循环神经网络模型的自注意力机制对所述语义特征信息进行处理,获得自注意力矩阵;
通过已训练的循环神经网络模型的解码层级对所述自注意力矩阵进行解码处理,获得所述需求参数信息。
在一种可能的实现方式中,所述车辆模板绘图模型的训练步骤包括:
获取多种车辆的车辆参数,其中,所述车辆参数包括尺寸参数、型号参数、性能参数、品牌参数和颜色参数;
获取与所述车辆参数对应的车辆样本图像;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息输入所述车辆模板绘图模型进行处理,获得样本车辆特征信息;
对所述样本车辆特征信息进行解码处理,获得生成车辆图像;
根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数;
根据所述车辆模板绘图模型的损失函数对所述车辆模板绘图模型进行训练,获得所述已训练的车辆模板绘图模型。
在一种可能的实现方式中,根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数,包括:
根据所述生成车辆图像中各个像素点的像素值和所述车辆样本图像中各个像素点的像素值,获得第一像素损失函数;
根据所述车辆样本图像中各个部分之间的第一比例关系和所述车辆参数,确定所述第一比例关系与所述车辆参数之间的第一关系函数;
根据所述生成车辆图像中各个部分之间的第二比例关系和所述车辆参数,确定所述第二比例关系与所述车辆参数之间的第二关系函数;
根据所述第一关系函数和所述第二关系函数,确定参数损失函数;
根据所述第一像素损失函数和所述参数损失函数,获得所述车辆模板绘图模型的损失函数。
在一种可能的实现方式中,所述智能绘图模型的训练步骤包括:
获取车辆样本视频,其中,所述车辆样本视频为具有特定场景与特定车辆的视频,且在所述车辆样本视频中拍摄到车辆的多个视角;
对所述车辆样本视频进行解析,获得多个车辆样本图像;
在所述车辆样本图像中提取车辆所在区域;
根据所述车辆所在区域,获得训练车辆模板特征信息;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息和所述训练车辆模板特征信息输入智能绘图模型进行处理,获得训练图像;
根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数;
根据训练周期数和预设学习率,确定当前训练周期的学习率;
根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数;
在所述智能绘图模型满足训练条件时,获得所述已训练的智能绘图模型。
在一种可能的实现方式中,根据训练周期数和预设学习率,确定当前训练周期的学习率,包括:
根据公式
确定当前训练周期的学习率,其中,/>为所述预设学习率,t为当前训练周期数,为预设衰减系数,/>为预设周期阈值。
在一种可能的实现方式中,根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数,包括:
根据所述训练图像和所述车辆样本图像中的对应像素点的像素值,获得第二像素损失函数;
提取所述训练图像中车辆的第一视角特征信息,并提取所述车辆样本图像中车辆的第二视角特征信息;
根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数;
确定训练图像中多个对象与所述训练图像的第一尺寸比例,以及车辆样本图像中多个对象与所述车辆样本图像的第二尺寸比例;
根据所述第一尺寸比例和所述第二尺寸比例,确定比例损失函数;
根据所述训练图像和所述车辆样本图像中的对应像素点的亮度值,获得阴影损失函数;
根据所述第二像素损失函数、所述视角损失函数、所述比例损失函数和所述阴影损失函数,获得智能绘图模型的损失函数。
在一种可能的实现方式中,根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数,包括:
根据公式
确定视角损失函数,其中,/>为所述第一视角特征信息,/>为所述第二视角特征信息,/>为训练图像中车辆的车头朝向角,/>为训练图像中车辆的车灯连线的方向角,/>为训练图像中车辆的左侧车轮连线的方向角,/>为训练图像中车辆的右侧车轮连线的方向角,/>为车辆样本图像中的车头朝向角,/>为车辆样本图像中的车灯连线的方向角,/>为车辆样本图像中的左侧车轮连线的方向角,为车辆样本图像中的右侧车轮连线的方向角。
在一种可能的实现方式中,根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数,包括:
根据公式
获得第t+1个训练周期的智能绘图模型的参数,其中,/>为当前的第t个训练周期中智能绘图模型的参数,/>为当前训练周期的学习率,t为当前训练周期数,/>为智能绘图模型的损失函数,/>为智能绘图模型的损失函数的梯度。
根据本发明的一方面,提供了一种汽车传媒领域的智能绘图装置,所述装置包括:
接收模块,用于接收需求文本信息,其中,所述需求文本信息用于描述用户对于生成的图像的需求;
需求参数模块,用于对所述需求文本信息进行解析,获得需求参数信息;
模板模块,用于将所述需求参数信息输入已训练的车辆模板绘图模型进行处理,获得车辆模板特征信息,其中,所述车辆模板绘图模型通过车辆图像与车辆参数训练获得;
图像生成模块,用于根据所述车辆模板特征信息、所述需求参数信息和已训练的智能绘图模型,获得与所述需求文本信息匹配的汽车传媒图像,其中,所述智能绘图模型用于在所述车辆模板特征信息中的车辆图形的基础上生成场景图形,并用于提升车辆图形与场景图形之间的协调性。
在一种可能的实现方式中,所述需求参数模块进一步用于:
对所述需求文本信息进行预处理,获得词向量序列;
对所述词向量序列进行词嵌入处理,获得语义向量;
通过已训练的循环神经网络模型的编码层级对所述语义向量进行编码处理,获得语义特征信息;
通过已训练的循环神经网络模型的自注意力机制对所述语义特征信息进行处理,获得自注意力矩阵;
通过已训练的循环神经网络模型的解码层级对所述自注意力矩阵进行解码处理,获得所述需求参数信息。
在一种可能的实现方式中,所述装置还包括第一训练模块,用于:
获取多种车辆的车辆参数,其中,所述车辆参数包括尺寸参数、型号参数、性能参数、品牌参数和颜色参数;
获取与所述车辆参数对应的车辆样本图像;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息输入所述车辆模板绘图模型进行处理,获得样本车辆特征信息;
对所述样本车辆特征信息进行解码处理,获得生成车辆图像;
根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数;
根据所述车辆模板绘图模型的损失函数对所述车辆模板绘图模型进行训练,获得所述已训练的车辆模板绘图模型。
在一种可能的实现方式中,所述第一训练模块进一步用于:
根据所述生成车辆图像中各个像素点的像素值和所述车辆样本图像中各个像素点的像素值,获得第一像素损失函数;
根据所述车辆样本图像中各个部分之间的第一比例关系和所述车辆参数,确定所述第一比例关系与所述车辆参数之间的第一关系函数;
根据所述生成车辆图像中各个部分之间的第二比例关系和所述车辆参数,确定所述第二比例关系与所述车辆参数之间的第二关系函数;
根据所述第一关系函数和所述第二关系函数,确定参数损失函数;
根据所述第一像素损失函数和所述参数损失函数,获得所述车辆模板绘图模型的损失函数。
在一种可能的实现方式中,所述装置还包括第二训练模块,用于:
获取车辆样本视频,其中,所述车辆样本视频为具有特定场景与特定车辆的视频,且在所述车辆样本视频中拍摄到车辆的多个视角;
对所述车辆样本视频进行解析,获得多个车辆样本图像;
在所述车辆样本图像中提取车辆所在区域;
根据所述车辆所在区域,获得训练车辆模板特征信息;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息和所述训练车辆模板特征信息输入智能绘图模型进行处理,获得训练图像;
根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数;
根据训练周期数和预设学习率,确定当前训练周期的学习率;
根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数;
在所述智能绘图模型满足训练条件时,获得所述已训练的智能绘图模型。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据公式
确定当前训练周期的学习率,其中,/>为所述预设学习率,t为当前训练周期数,为预设衰减系数,/>为预设周期阈值。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据所述训练图像和所述车辆样本图像中的对应像素点的像素值,获得第二像素损失函数;
提取所述训练图像中车辆的第一视角特征信息,并提取所述车辆样本图像中车辆的第二视角特征信息;
根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数;
确定训练图像中多个对象与所述训练图像的第一尺寸比例,以及车辆样本图像中多个对象与所述车辆样本图像的第二尺寸比例;
根据所述第一尺寸比例和所述第二尺寸比例,确定比例损失函数;
根据所述训练图像和所述车辆样本图像中的对应像素点的亮度值,获得阴影损失函数;
根据所述第二像素损失函数、所述视角损失函数、所述比例损失函数和所述阴影损失函数,获得智能绘图模型的损失函数。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数,包括:
根据公式
确定视角损失函数,其中,/>为所述第一视角特征信息,/>为所述第二视角特征信息,/>为训练图像中车辆的车头朝向角,/>为训练图像中车辆的车灯连线的方向角,/>为训练图像中车辆的左侧车轮连线的方向角,/>为训练图像中车辆的右侧车轮连线的方向角,/>为车辆样本图像中的车头朝向角,/>为车辆样本图像中的车灯连线的方向角,/>为车辆样本图像中的左侧车轮连线的方向角,为车辆样本图像中的右侧车轮连线的方向角。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据公式
获得第t+1个训练周期的智能绘图模型的参数,其中,/>为当前的第t个训练周期中智能绘图模型的参数,/>为当前训练周期的学习率,t为当前训练周期数,/>为智能绘图模型的损失函数,/>为智能绘图模型的损失函数的梯度。
根据本发明的一方面,提供了一种汽车传媒领域的智能绘图设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
根据本发明的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
技术效果:根据本发明,可接收用户输入的需求文本信息,并可获得计算机可读且能够描述用户需求的需求参数信息,进而可基于需求参数信息生成与绘图需求匹配的图像。并且,车辆模板绘图模型是通过车辆图像和车辆参数训练获得的,使得车辆模板绘图模型获得的车辆模板特征信息与实际情况相符,从外观和参数两个方面提升车辆的真实度,在训练车辆模板绘图模型的过程中,可使得生成车辆图像与车辆样本图像中像素点的像素值差距逐步减小,车辆的各个部分之间的比例差距逐步减小,车辆的各个部分的形状差距也逐步减小,提升生成的车辆的特征的稳定性和真实性。进一步地,可通过智能绘图模型生成车辆图形与场景图形协调的汽车传媒图像,提升图像整体的真实度,且在训练智能绘图模型的过程中,通过学习率逐步衰减的方式缓解在最优解附近波动的情况,减少训练所需的车辆样本图像的数量,提升训练效率,并使车辆图形与场景图形更加协调,使得车辆视角、阴影、各个对象的比例均更接近真实图像,提升汽车传媒图像的真实性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本发明。根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将更清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例,
图1示出根据本发明实施例的汽车传媒领域的智能绘图方法的流程图;
图2示出根据本发明实施例的汽车传媒领域的智能绘图装置的框图;
图3示出根据本发明实施例的一种汽车传媒领域的智能绘图设备的框图;
图4示出根据本发明实施例的一种电子设备的框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1示出根据本发明实施例的汽车传媒领域的智能绘图方法的流程图,如图1所示,所述方法可包括:
步骤S11,接收需求文本信息,其中,所述需求文本信息用于描述用户对于生成的图像的需求;
步骤S12,对所述需求文本信息进行解析,获得需求参数信息;
步骤S13,将所述需求参数信息输入已训练的车辆模板绘图模型进行处理,获得车辆模板特征信息,其中,所述车辆模板绘图模型通过车辆图像与车辆参数训练获得;
步骤S14,根据所述车辆模板特征信息、所述需求参数信息和已训练的智能绘图模型,获得与所述需求文本信息匹配的汽车传媒图像,其中,所述智能绘图模型用于在所述车辆模板特征信息中的车辆图形的基础上生成场景图形,并用于提升车辆图形与场景图形之间的协调性。
根据本发明的实施例的汽车传媒领域的智能绘图方法,可接收用户输入的需求文本信息,并可获得计算机可读且能够描述用户需求的需求参数信息,进而可基于需求参数信息生成与绘图需求匹配的图像。并且,车辆模板绘图模型是通过车辆图像和车辆参数训练获得的,使得车辆模板绘图模型获得的车辆模板特征信息与实际情况相符,从外观和参数两个方面提升车辆的真实度,并且,可通过智能绘图模型生成车辆图形与场景图形协调的汽车传媒图像,提升图像整体的真实度。
在一种可能的实现方式中,所述方法可由计算机或服务器等处理设备来执行。在步骤S11中,可接收需求文本信息。在示例中,用户可向处理设备输入需求文本信息,例如,可输入用户打算生成的汽车传媒图像的描述,例如,可输入“XX颜色的XX品牌的XX型号的汽车,在XX场景下的前侧45°的图像”。本发明对于用户需求文本信息的具体格式和内容不做限制。
在一种可能的实现方式中,在步骤S12中,对所述需求文本信息进行解析,获得需求参数信息。即,可将用户输入的自然语言转换为计算机可读的参数,可通过循环神经网络等方式来基于自然语言获得计算机可读的参数,本发明对于获得需求参数信息的具体方式不做限制。
在一种可能的实现方式中,步骤S12可包括:对所述需求文本信息进行预处理,获得词向量序列;对所述词向量序列进行词嵌入处理,获得语义向量;通过已训练的循环神经网络模型的编码层级对所述语义向量进行编码处理,获得语义特征信息;通过已训练的循环神经网络模型的自注意力机制对所述语义特征信息进行处理,获得自注意力矩阵;通过已训练的循环神经网络模型的解码层级对所述自注意力矩阵进行解码处理,获得所述需求参数信息。
在一种可能的实现方式中,可对需求文本信息进行预处理,所述预处理可包括分词、词干提取、去停用词等处理,以将句子形式的需求文本信息表示为词向量序列。例如,以上“XX颜色的XX品牌的XX型号的汽车,在XX场景下的前侧45°的图像”为句子形式的需求文本信息,在预处理后可获得词向量序列,例如,由“XX颜色”、“XX品牌”、“XX型号”、“汽车”、“XX场景”、“前侧45°”等多个词组成的词向量序列。本发明对词向量序列的具体内容不做限制。
在一种可能的实现方式中,对所述词向量序列进行词嵌入处理,获得语义向量。在该步骤中,可通过词嵌入处理,将词向量中的每个词映射至高维空间,获得每个词语的向量表达,多个词语的向量表达可构成所述语义向量。
在一种可能的实现方式中,可通过循环神经网络模型的编码层级对语义向量进行编码处理,获得语义特征信息。在示例中,可通过循环神经网络逐个获取每个词语的向量表达的特征信息,从而获得语义向量的整体的语义特征信息。
在一种可能的实现方式中,可通过循环神经网络模型的自注意力机制对所述语义特征信息进行处理,获得自注意力矩阵。例如,可对编码层级输出的语义特征信息以及每个词语的向量表达的隐状态序列进行整合,所述隐状态序列可表示各个词语的向量表达之间的有依赖关系,以及各个词语的向量表达与整体的语义特征信息之间的全局依赖关系。在进行整合后,可得到表示语义信息中的重点信息的参量,该参量可为矩阵形式的参量,例如,自注意力矩阵。
在一种可能的实现方式中,在获得自注意力矩阵后,可通过已训练的循环神经网络模型的解码层级对自注意力矩阵进行解码处理,获得需求参数信息。在示例中,解码层级可包括全连接层,可对自注意力矩阵中的各个参数进行处理,得到表示用户需求的需求参数信息。所述需求参数信息可用于表示与用户对于生成的图像中的车辆和场景的参数需求,例如,尺寸参数、形状参数、颜色参数、品牌参数、性能参数、型号参数、场景参数、角度参数等。本发明对于参数需求的具体范围不做限制。
通过这种方式,可对需求文本信息进行解析,获得计算机可读且能够表达用户需求的需求参数信息,提升生成的汽车传媒图像与用户需求的匹配度。
在一种可能的实现方式中,在步骤S13中,已训练的车辆模板绘图模型可经过车辆图像和车辆参数的训练,使其生成的车辆模板特征信息中的车辆的特征稳定,例如,车辆的各个部分之间的比例稳定,车辆的形状稳定,或车辆的外观细节稳定,即,使用已训练的车辆模板绘图模型生成的车辆模板特征信息中的车辆的符合用户需求,且与该种车辆的实外观际特征相符,换言之,在与该种车辆的实际外观特征一致的基础上,还满足用户的观察角度、观察距离等需求,所述已训练的车辆模板绘图模型可获得在用户所需的角度和距离下,观察到该种车辆的视觉效果的车辆模板图像。
在一种可能的实现方式中,在步骤S14中,所述智能绘图模型可与所述车辆模板绘图模型构成整体模型,智能绘图模型获得的车辆模板特征信息可作为整体模型的内部数据。智能绘图模型可将车辆模板特征信息作为基础,生成汽车传媒图像,且在汽车传媒图像中,包括与用户需求匹配的汽车图形以及场景图形(即,汽车周边的背景图形),且汽车图形与场景图形之间的协调性良好。
在一种可能的实现方式中,如果汽车图形与场景图形之间的协调性不好,则可能出现汽车在汽车传媒图像中的观察角度与场景在汽车传媒图像中的观察角度不匹配,或者汽车和场景的光影不协调等情况。例如,汽车的观察角度为右侧45°,而场景中出现了海边的俯视景象,则汽车的观察角度与场景的观察角度不匹配,或者,汽车的影子在汽车左侧,场景中某个物体的影子在该物体的右侧,则汽车和场景的光影不协调。当然,还可能存在其他汽车和场景不协调的情况,在此不一一例举。
在一种可能的实现方式中,为了使汽车传媒图像中的汽车图形和场景图形协调,可使用已训练的智能绘图模型来生成汽车传媒图像,智能绘图模型在训练时,可针对汽车图形和场景图形的协调性进行训练,从而提升生成的汽车传媒图像中车辆图形与场景图形之间的协调性,使得汽车传媒图像的真实度更高,视觉效果更佳。
在一种可能的实现方式中,以上车辆模板绘图模型具有使生成的车辆模板特征信息中的特征稳定的功能,智能绘图模型具有使车辆图形与场景图形更协调的功能。上述两种模型在使用前可首先进行训练。
在一种可能的实现方式中,以下首先介绍车辆模板绘图模型的训练方式,所述车辆模板绘图模型的训练步骤包括:获取多种车辆的车辆参数,其中,所述车辆参数包括尺寸参数、型号参数、性能参数、品牌参数和颜色参数;获取与所述车辆参数对应的车辆样本图像;确定所述车辆样本图像的文本描述信息;对所述文本描述信息进行解析,获得样本需求参数信息;将所述样本需求参数信息输入所述车辆模板绘图模型进行处理,获得样本车辆特征信息;对所述样本车辆特征信息进行解码处理,获得生成车辆图像;根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数;根据所述车辆模板绘图模型的损失函数对所述车辆模板绘图模型进行训练,获得所述已训练的车辆模板绘图模型。
在一种可能的实现方式中,可获取多种车辆的车辆参数,例如,车辆的尺寸参数、性能参数、型号参数、品牌参数和颜色参数,并可通过Excel或CSV等格式的文件分类保存车辆参数,例如,可将品牌作为一级分类,将型号作为二级分类,从而分类保存各种车辆的多种参数。并且,可对分类保存的参数进行预处理,例如,可统一参数的格式,并进行数据清洗、缺失值处理等,使各个参数标准化。进一步地,可对上述多种参数按照与解析需求文本信息的方式类似的方式对各种参数(例如,以文本形式保存的参数,例如,颜色参数等)进行解析,获得各个参数的能被计算机读取的特征信息,从而可在后续训练过程中调用。经过以上处理,可获得保存分类保存各个参数的特征信息的数据集。
在一种可能的实现方式中,可进一步获得与车辆参数对应的车辆样本图像,例如,可通过网络获取与车辆参数对应的车辆样本图像,并进行分类保存,例如,可获得XX品牌XX型号XX性能参数XX颜色的车辆的图片,在示例中,可获得具有以上特征的车辆的多个角度的图片,并进行保存,作为与该类别的车辆参数对应的车辆样本图像。可迭代以上处理,获得与各种车辆参数对应的车辆与样本图像。
在一种可能的实现方式中,可对车辆样本图像进行标注,标注信息可包括对于车辆样本图像的文本描述信息,所述文本描述信息可用于描述车辆样本图像中车辆的信息,例如,车辆的品牌、型号、颜色、视角等信息。当然,文本描述信息也可包括对于车辆所处的场景的描述,本发明对此不作限制。进一步地,可按照与以上解析需求文本信息的方式对文本描述信息进行解析,获得样本需求参数信息,即,可描述车辆样本中车辆的特征,且可被计算机读取和识别的信息。
在一种可能的实现方式中,所述车辆模板绘图模型可对样本需求参数信息进行处理,获得样本车辆特征信息,并可通过解码处理,获得生成车辆图像。在这种情况下,所述生成车辆图像可能存在误差,例如,生成车辆图像中的车辆的特征与文本描述信息中车辆的特征不相符(例如,品牌、颜色、视角等不相符),或者,生成车辆图像中的车辆的各部分之间的比例关系不符合车辆的实际尺寸关系等。
在一种可能的实现方式中,由于以上误差的存在,生成车辆图像和车辆样本图像之间可存在一些差异,可基于这些差异来确定车辆模板绘图模型的损失函数。根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数,包括:根据所述生成车辆图像中各个像素点的像素值和所述车辆样本图像中各个像素点的像素值,获得第一像素损失函数;根据所述车辆样本图像中各个部分之间的第一比例关系和所述车辆参数,确定所述第一比例关系与所述车辆参数之间的第一关系函数;根据所述生成车辆图像中各个部分之间的第二比例关系和所述车辆参数,确定所述第二比例关系与所述车辆参数之间的第二关系函数;根据所述第一关系函数和所述第二关系函数,确定参数损失函数;根据所述第一像素损失函数和所述参数损失函数,获得所述车辆模板绘图模型的损失函数。
在一种可能的实现方式中,可基于生成车辆图像中各个像素点的像素值与车辆样本图像中各个像素点的像素值获得第一像素损失函数,例如,可将生成车辆图像和车辆样本图像中对应像素点的差值、平方差等能够描述差距的参量进行求和,并与生成车辆图像或车辆样本图像中像素点的总数做商,可获得第一像素损失函数。本发明对能够描述差距的参量的类型不做限制。当然,也可用交叉熵损失函数作为像素损失函数,本发明对此不做限制。
在一种可能的实现方式中,车辆参数可与车辆的各个部分之间的比例关系存在相关关系,例如,车辆的总车长和车辆的轴距的数据是固定的,因此,二者之间的比例关系也是确定的,在不同视角下,二者之间的比例关系都是确定的。在示例中,可基于车辆参数,确定在所述文本描述信息所描述的视角下,车辆的多个部分之间的第一比例关系,例如,车辆的车长和轴距之间的比例关系,车辆的车长和车宽之间的比例关系,车辆的车长和车窗高度与宽度之间的比例关系等,本公开对第一比例关系所涉及的车辆部分的类型不做限制。在确定以上第一比例关系后,可确定第一比例关系和车辆参数之间的映射关系,获得第一关系函数,例如,可通过数值拟合等方式获得第一关系函数。
在一种可能的实现方式中,可在生成车辆图像中,确定以上所涉及的车辆部位之间的第二比例关系,并通过相同的方式确定第二比例关系和车辆参数之间的映射关系,获得第二关系函数。
在一种可能的实现方式中,可基于第一关系函数和第二关系函数之间的差异确定参数损失函数,例如,可利用第一关系函数和第二关系函数进行作差,并将差值进行求和或积分,获得参数损失函数。
在一种可能的实现方式中,可将参数损失函数和第一像素损失函数进行加权求和,获得车辆模板绘图模型的损失函数。在另一示例中,车辆模板绘图模型的损失函数还可包括其他项,例如,基于生成车辆图像中车辆的形状或者车辆的各个部位的形状与车辆样本图像中车辆的差异获得的损失函数项,本发明对车辆模板绘图模型的损失函数所包括的损失函数项的类型和数量不做限制。
在一种可能的实现方式中,在获得车辆模板绘图模型的损失函数后,可基于该损失函数对车辆模板绘图模型进行训练,例如,可使用梯度下降法调整车辆模板绘图模型的参数,使得损失函数逐步减小,从而使得生成车辆图像与车辆样本图像中像素点的像素值差距逐步减小,车辆的各个部分之间的比例差距逐步减小,车辆的各个部分的形状差距也逐步减小,使得车辆模板绘图模型获得的车辆模板特征信息中的车辆与真实图像的接近度越来越高,提升生成的车辆的特征的稳定性和真实性。可迭代以上训练步骤,在达到设定的训练次数,或损失函数小于阈值或收敛后,获得已训练的车辆模板绘图模型。使得车辆模板绘图模型能够生成不同视角下的不同品牌不同型号及不同颜色的车辆的车辆模板特征信息,且保持较高的真实性。
在一种可能的实现方式中,还可对智能绘图模型进行训练,使得车辆图形与场景图形更协调。所述智能绘图模型的训练步骤包括:获取车辆样本视频,其中,所述车辆样本视频为具有特定场景与特定车辆的视频,且在所述车辆样本视频中拍摄到车辆的多个视角;对所述车辆样本视频进行解析,获得多个车辆样本图像;在所述车辆样本图像中提取车辆所在区域;根据所述车辆所在区域,获得训练车辆模板特征信息;确定所述车辆样本图像的文本描述信息;对所述文本描述信息进行解析,获得样本需求参数信息;将所述样本需求参数信息和所述训练车辆模板特征信息输入智能绘图模型进行处理,获得训练图像;根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数;根据训练周期数和预设学习率,确定当前训练周期的学习率;根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数;在所述智能绘图模型满足训练条件时,获得所述已训练的智能绘图模型。
在一种可能的实现方式中,可使用车辆样本视频训练智能绘图模型,在车辆样本视频中可拍摄到车辆的多个视角,在解析获得多个车辆样本图像后,多个车辆样本图像分别具有特定场景以及各自的视角。例如,车辆样本图像中的车辆停在海边或建筑旁,或行驶在公路上等,即,车辆样本图像中的背景并非纯色背景,并且,多个车辆样本图像的视角互不相同,例如,可包括车辆正面的视角、侧面的视角、后面的视角、俯视的视角等。进一步地,为提升训练的鲁棒性,还可对车辆样本图像进行数据增强,例如,对图像进行镜像、翻转、剪裁、放缩等处理,办发明对车辆样本图像的数据增强处理的类型不做限制。
在一种可能的实现方式中,可获取车辆样本图像中的车辆所在区域,例如,可通过深度学习神经网络模型对车辆样本图像进行检测,获得车辆所在区域。本发明对提取车辆所在区域的具体方式不做限制。
在一种可能的实现方式中,可基于车辆所在区域,获得训练车辆模板特征信息。例如,可将车辆所在区域进行截图,并将截取的图像输入车辆模板绘图模型,得到训练车辆模板特征信息。
在一种可能的实现方式中,可获得车辆样本图像的文本描述信息,并对文本描述信息进行解析,获得能够描述车辆样本图像中车辆被场景的特征,且能够被计算机读取和识别的样本需求参数信息。获得和解析文本描述信息的方式与以上训练车辆模板绘图模型时相同,在此不再赘述。
在一种可能的实现方式中,可将样本需求参数信息和训练车辆模板特征信息输入智能绘图模型进行处理,获得训练图像。该训练图像用于车辆样本图像之间可能存在差异,且可能存在图像中的车辆与场景不协调的问题。
在一种可能的实现方式中,可基于以上差异获得智能绘图模型的损失函数,例如,可获得训练图像和车辆样本图像中对应像素点的交叉熵损失函数。当然,还可针对车辆和背景之间的协调性确定其他损失函数,并与上述交叉熵损失函数共同构成智能绘图模型的损失函数。
在一种可能的实现方式中,根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数,包括:根据所述训练图像和所述车辆样本图像中的对应像素点的像素值,获得第二像素损失函数;提取所述训练图像中车辆的第一视角特征信息,并提取所述车辆样本图像中车辆的第二视角特征信息;根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数;确定训练图像中多个对象与所述训练图像的第一尺寸比例,以及车辆样本图像中多个对象与所述车辆样本图像的第二尺寸比例;根据所述第一尺寸比例和所述第二尺寸比例,确定比例损失函数;根据所述训练图像和所述车辆样本图像中的对应像素点的亮度值,获得阴影损失函数;根据所述第二像素损失函数、所述视角损失函数、所述比例损失函数和所述阴影损失函数,获得智能绘图模型的损失函数。
在一种可能的实现方式中,所述第二像素损失函数可通过上述交叉熵损失函数的形式来表示。
在一种可能的实现方式中,根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数,包括:根据公式(1)确定视角损失函数,
(1)
其中,为所述第一视角特征信息,/>为所述第二视角特征信息,/>为训练图像中车辆的车头朝向角,/>为训练图像中车辆的车灯连线的方向角,为训练图像中车辆的左侧车轮连线的方向角,/>为训练图像中车辆的右侧车轮连线的方向角,/>为车辆样本图像中的车头朝向角,/>为车辆样本图像中的车灯连线的方向角,/>为车辆样本图像中的左侧车轮连线的方向角,/>为车辆样本图像中的右侧车轮连线的方向角。
在一种可能的实现方式中,训练图像中车辆的车头朝向角的获取方式可包括,获取车辆的车头的中点,并获得训练图像的中点,将车头的中点与训练图像的中点连线,并确定该连线的方向角,即可获得训练图像中车辆的车头朝向角,车辆样本图像中的车头朝向角可通过类似方式获得,在此不再赘述。
在一种可能的实现方式中,训练图像中车灯连线的方向角的获取方式可包括,获取两个车灯的形心,并对两个车灯的形心进行连线,进而确定该连线的方向角,即可获得车灯连线的方向角,如果车灯被遮挡,可将车灯连线的方向角设置为0,车辆样本图像中的车灯连线的方向角可通过类似方式获得,在此不再赘述。
在一种可能的实现方式中,训练图像中车辆的左侧车轮连线的方向角的获取方式可包括,获取两个左侧车轮的形心,并对两个左侧车轮的形心进行连线,进而确定该连线的方向角,即可获得训练图像中车辆的左侧车轮连线的方向角,如果左侧车轮被遮挡,可将左侧车轮连线的方向角设置为0,车辆样本图像中的左侧车轮连线的方向角可通过类似方式获得,在此不再赘述。
在一种可能的实现方式中,训练图像中车辆的右侧车轮连线的方向角的获取方式可包括,获取两个右侧车轮的形心,并对两个右侧车轮的形心进行连线,进而确定该连线的方向角,即可获得训练图像中车辆的右侧车轮连线的方向角,如果右侧车轮被遮挡,可将右侧车轮连线的方向角设置为0,车辆样本图像中的右侧车轮连线的方向角可通过类似方式获得,在此不再赘述。
在一种可能的实现方式中,以上角度可分别组成向量形式的第一视角特征信息,即,各个角度可分别作为第一视角特征信息的元素,类似地,可获得第二视角特征信息。进一步地,可获得第一视角特征信息和第二视角特征信息的余弦相似度,并通过1减去该余弦相似度,获得视角损失函数,可在训练过程中,使视角损失函数最小化,从而使得第一视角特征信息和第二视角特征信息的相似度提升,即,使得训练图像中的车辆的视角和车辆样本图像中车辆的视角趋于一致。
在一种可能的实现方式中,还可基于训练图像和车辆样本图像中相同对象的第一尺寸比例和第二尺寸比例之间的差距,确定比例损失函数。
在一种可能的实现方式中,在阴影区域和非阴影区域中,像素点的亮度不同,因此,可基于训练图像和车辆样本图像中对应像素点的亮度值之间的差异,确定阴影损失函数。
在一种可能的实现方式中,可将上述第二像素损失函数、视角损失函数、比例损失函数和阴影损失函数进行加权求和,获得智能绘图模型的损失函数。
在一种可能的实现方式中,在获得损失函数后,可训练智能绘图模型。然而,常规的训练方式可能需要的车辆样本图像的数量是巨大的,例如,每更换一种场景,则需要重新训练一次,在现实中难以获得巨大数量的车辆样本图像,因此,可通过调整学习率的方式提升智能绘图模型的训练效率,减少车辆样本图像的使用数量。
在一种可能的实现方式中,在使用常规的训练方法时,智能绘图模型获得的图像可能在最优解附近波动,在这种情况下,则需要更多车辆样本图像进行训练,从而寻找最优解。而在本申请中,则可利用调整学习率的方式缓解上述在最优解附近波动的现象,从而更快达到最优解,减少车辆样本图像的用量,提升训练效率。
在一种可能的实现方式中,根据训练周期数和预设学习率,确定当前训练周期的学习率,包括:根据公式(2),确定当前训练周期的学习率,
(2)
其中,为所述预设学习率,t为当前训练周期数,/>为预设衰减系数,/>为预设周期阈值。
在一种可能的实现方式中,在常规训练方式中,学习率通常不会反生变化,即,学习率在整个训练过程中均等于预设学习率,换言之,在每次训练过程中,对于智能绘图模型的参数的调整幅度都是相同的,而如果智能绘图模型的参数已接近最优解,但仍保持相同的调整幅度,则有可能在一次调整中调整幅度过大,从而跳过最优解,在最优解附近波动。而使用公式(2)中的学习率,则可使学习率在训练周期小于或等于预设周期阈值时不会衰减,从而保持较高的训练效率,并在训练周期大于预设周期阈值时,使学习率随着训练周期数增加而降低,使得智能绘图模型的参数接近最优解时,更容易达到最优解,从而可减少训练次数,减少车辆样本图像的使用量。例如,可在每次训练中,可减少每个批次的车辆样本图像的数量。
在一种可能的实现方式中,根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数,包括:根据公式(3),获得第t+1个训练周期的智能绘图模型的参数,
(3)
其中,为当前的第t个训练周期中智能绘图模型的参数,/>为当前训练周期的学习率,t为当前训练周期数,/>为智能绘图模型的损失函数,/>为智能绘图模型的损失函数的梯度。
在一种可能的实现方式中,对于智能绘图模型的参数集合,可通过梯度下降法进行调节,且在每个周期的调节中,使用通过公式(2)确定的学习率来计算调节幅度,即,将作为调节幅度,从而将第t个训练周期的参数调节为第t+1个训练周期的参数。
在一种可能的实现方式中,可使用以上训练方式进行多次训练,并在智能绘图模型满足训练条件时,获得所述已训练的智能绘图模型,例如,在训练次数达到预设次数,或者损失函数收敛或小于阈值时,得到已训练的智能绘图模型。
通过这种方式,可在训练智能绘图模型的过程中通过学习率逐步衰减的方式缓解在最优解附近波动的情况,减少训练所需的车辆样本图像的数量,提升训练效率。使已训练的智能绘图模型生成的汽车传媒图像中的车辆图形与场景图形更加协调,使得车辆视角、阴影、各个对象的比例均更接近真实图像,提升汽车传媒图像的真实性。
根据本发明的实施例的汽车传媒领域的智能绘图方法,可接收用户输入的需求文本信息,并可获得计算机可读且能够描述用户需求的需求参数信息,进而可基于需求参数信息生成与绘图需求匹配的图像。并且,车辆模板绘图模型是通过车辆图像和车辆参数训练获得的,使得车辆模板绘图模型获得的车辆模板特征信息与实际情况相符,从外观和参数两个方面提升车辆的真实度,在训练车辆模板绘图模型的过程中,可使得生成车辆图像与车辆样本图像中像素点的像素值差距逐步减小,车辆的各个部分之间的比例差距逐步减小,车辆的各个部分的形状差距也逐步减小,提升生成的车辆的特征的稳定性和真实性。进一步地,可通过智能绘图模型生成车辆图形与场景图形协调的汽车传媒图像,提升图像整体的真实度,且在训练智能绘图模型的过程中,通过学习率逐步衰减的方式缓解在最优解附近波动的情况,减少训练所需的车辆样本图像的数量,提升训练效率,并使车辆图形与场景图形更加协调,使得车辆视角、阴影、各个对象的比例均更接近真实图像,提升汽车传媒图像的真实性。
图2示出根据本发明实施例的汽车传媒领域的智能绘图装置的框图,如图2所示,所述装置包括:
接收模块11,用于接收需求文本信息,其中,所述需求文本信息用于描述用户对于生成的图像的需求;
需求参数模块12,用于对所述需求文本信息进行解析,获得需求参数信息;
模板模块13,用于将所述需求参数信息输入已训练的车辆模板绘图模型进行处理,获得车辆模板特征信息,其中,所述车辆模板绘图模型通过车辆图像与车辆参数训练获得;
图像生成模块14,用于根据所述车辆模板特征信息、所述需求参数信息和已训练的智能绘图模型,获得与所述需求文本信息匹配的汽车传媒图像,其中,所述智能绘图模型用于在所述车辆模板特征信息中的车辆图形的基础上生成场景图形,并用于提升车辆图形与场景图形之间的协调性。
在一种可能的实现方式中,所述需求参数模块进一步用于:
对所述需求文本信息进行预处理,获得词向量序列;
对所述词向量序列进行词嵌入处理,获得语义向量;
通过已训练的循环神经网络模型的编码层级对所述语义向量进行编码处理,获得语义特征信息;
通过已训练的循环神经网络模型的自注意力机制对所述语义特征信息进行处理,获得自注意力矩阵;
通过已训练的循环神经网络模型的解码层级对所述自注意力矩阵进行解码处理,获得所述需求参数信息。
在一种可能的实现方式中,所述装置还包括第一训练模块,用于:
获取多种车辆的车辆参数,其中,所述车辆参数包括尺寸参数、型号参数、性能参数、品牌参数和颜色参数;
获取与所述车辆参数对应的车辆样本图像;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息输入所述车辆模板绘图模型进行处理,获得样本车辆特征信息;
对所述样本车辆特征信息进行解码处理,获得生成车辆图像;
根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数;
根据所述车辆模板绘图模型的损失函数对所述车辆模板绘图模型进行训练,获得所述已训练的车辆模板绘图模型。
在一种可能的实现方式中,所述第一训练模块进一步用于:
根据所述生成车辆图像中各个像素点的像素值和所述车辆样本图像中各个像素点的像素值,获得第一像素损失函数;
根据所述车辆样本图像中各个部分之间的第一比例关系和所述车辆参数,确定所述第一比例关系与所述车辆参数之间的第一关系函数;
根据所述生成车辆图像中各个部分之间的第二比例关系和所述车辆参数,确定所述第二比例关系与所述车辆参数之间的第二关系函数;
根据所述第一关系函数和所述第二关系函数,确定参数损失函数;
根据所述第一像素损失函数和所述参数损失函数,获得所述车辆模板绘图模型的损失函数。
在一种可能的实现方式中,所述装置还包括第二训练模块,用于:
获取车辆样本视频,其中,所述车辆样本视频为具有特定场景与特定车辆的视频,且在所述车辆样本视频中拍摄到车辆的多个视角;
对所述车辆样本视频进行解析,获得多个车辆样本图像;
获取车辆样本图像,其中,所述车辆样本图像为具有特定场景与特定车辆的图像;
在所述车辆样本图像中提取车辆所在区域;
根据所述车辆所在区域,获得训练车辆模板特征信息;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息和所述训练车辆模板特征信息输入智能绘图模型进行处理,获得训练图像;
根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数;
根据训练周期数和预设学习率,确定当前训练周期的学习率;
根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数;
在所述智能绘图模型满足训练条件时,获得所述已训练的智能绘图模型。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据公式
确定当前训练周期的学习率,其中,/>为所述预设学习率,t为当前训练周期数,为预设衰减系数,/>为预设周期阈值。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据所述训练图像和所述车辆样本图像中的对应像素点的像素值,获得第二像素损失函数;
提取所述训练图像中车辆的第一视角特征信息,并提取所述车辆样本图像中车辆的第二视角特征信息;
根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数;
确定训练图像中多个对象与所述训练图像的第一尺寸比例,以及车辆样本图像中多个对象与所述车辆样本图像的第二尺寸比例;
根据所述第一尺寸比例和所述第二尺寸比例,确定比例损失函数;
根据所述训练图像和所述车辆样本图像中的对应像素点的亮度值,获得阴影损失函数;
根据所述第二像素损失函数、所述视角损失函数、所述比例损失函数和所述阴影损失函数,获得智能绘图模型的损失函数。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数,包括:
根据公式
确定视角损失函数,其中,/>为所述第一视角特征信息,/>为所述第二视角特征信息,/>为训练图像中车辆的车头朝向角,/>为训练图像中车辆的车灯连线的方向角,/>为训练图像中车辆的左侧车轮连线的方向角,/>为训练图像中车辆的右侧车轮连线的方向角,/>为车辆样本图像中的车头朝向角,/>为车辆样本图像中的车灯连线的方向角,/>为车辆样本图像中的左侧车轮连线的方向角,为车辆样本图像中的右侧车轮连线的方向角。
在一种可能的实现方式中,所述第二训练模块进一步用于:
根据公式
获得第t+1个训练周期的智能绘图模型的参数,其中,/>为当前的第t个训练周期中智能绘图模型的参数,/>为当前训练周期的学习率,t为当前训练周期数,/>为智能绘图模型的损失函数,/>为智能绘图模型的损失函数的梯度。
在一些实施例中,本发明实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本发明实施例还提出一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。
本发明实施例还提出一种汽车传媒领域的智能绘图设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
本发明实施例还提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的汽车传媒领域的智能绘图方法的指令。
本发明实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的 方法的操作。
设备可以被提供为终端、服务器或其它形态的设备。
图3示出根据本发明实施例的一种汽车传媒领域的智能绘图设备800的框图。例如,设备800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等终端设备。
参照图3,设备800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出接口812,传感器组件814,以及通信组件816。
处理组件802通常控制设备800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在设备800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为设备800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为设备800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边缘,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当设备800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
输入/输出接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为设备800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为设备800的显示器和小键盘,传感器组件814还可以检测设备800或设备800一个组件的位置改变,用户与设备800接触的存在或不存在,设备800方位或加速/减速和设备800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于设备800和其他设备之间有线或无线方式的通信。设备800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器804,上述计算机程序指令可由设备800的处理器820执行以完成上述方法。
图4示出根据本发明实施例的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器或终端。参照图4,电子设备1900包括处理单元1922,其进一步包括一个或多个处理器,以及由存储单元1932所代表的存储器资源,用于存储可由处理单元1922的执行的指令,例如应用程序。存储单元1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理单元1922被配置为执行指令,以执行上述方法。
电子设备1900还可以包括一个电源单元1926被配置为执行电子设备1900的电源管理,一个有线或无线网络接口1950被配置为将电子设备1900连接到网络,和一个输入输出接口1958。电子设备1900可以操作基于存储在存储单元1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储单元1932,上述计算机程序指令可由电子设备1900的处理单元1922执行以完成上述方法。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
可以理解,本发明提及的上述实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本发明不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
注意,除非另有直接说明,否则本说明书中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种汽车传媒领域的智能绘图方法,其特征在于,包括:
接收需求文本信息,其中,所述需求文本信息用于描述用户对于生成的图像的需求;
对所述需求文本信息进行解析,获得需求参数信息;
将所述需求参数信息输入已训练的车辆模板绘图模型进行处理,获得车辆模板特征信息,其中,所述车辆模板绘图模型通过车辆图像与车辆参数训练获得;
根据所述车辆模板特征信息、所述需求参数信息和已训练的智能绘图模型,获得与所述需求文本信息匹配的汽车传媒图像,其中,所述智能绘图模型用于在所述车辆模板特征信息中的车辆图形的基础上生成场景图形,并用于提升车辆图形与场景图形之间的协调性。
2.根据权利要求1所述的汽车传媒领域的智能绘图方法,其特征在于,对所述需求文本信息进行解析,获得需求参数信息,包括:
对所述需求文本信息进行预处理,获得词向量序列;
对所述词向量序列进行词嵌入处理,获得语义向量;
通过已训练的循环神经网络模型的编码层级对所述语义向量进行编码处理,获得语义特征信息;
通过已训练的循环神经网络模型的自注意力机制对所述语义特征信息进行处理,获得自注意力矩阵;
通过已训练的循环神经网络模型的解码层级对所述自注意力矩阵进行解码处理,获得所述需求参数信息。
3.根据权利要求1所述的汽车传媒领域的智能绘图方法,其特征在于,所述车辆模板绘图模型的训练步骤包括:
获取多种车辆的车辆参数,其中,所述车辆参数包括尺寸参数、型号参数、性能参数、品牌参数和颜色参数;
获取与所述车辆参数对应的车辆样本图像;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息输入所述车辆模板绘图模型进行处理,获得样本车辆特征信息;
对所述样本车辆特征信息进行解码处理,获得生成车辆图像;
根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数;
根据所述车辆模板绘图模型的损失函数对所述车辆模板绘图模型进行训练,获得所述已训练的车辆模板绘图模型。
4.根据权利要求3所述的汽车传媒领域的智能绘图方法,其特征在于,根据所述生成车辆图像和所述车辆样本图像,获得所述车辆模板绘图模型的损失函数,包括:
根据所述生成车辆图像中各个像素点的像素值和所述车辆样本图像中各个像素点的像素值,获得第一像素损失函数;
根据所述车辆样本图像中各个部分之间的第一比例关系和所述车辆参数,确定所述第一比例关系与所述车辆参数之间的第一关系函数;
根据所述生成车辆图像中各个部分之间的第二比例关系和所述车辆参数,确定所述第二比例关系与所述车辆参数之间的第二关系函数;
根据所述第一关系函数和所述第二关系函数,确定参数损失函数;
根据所述第一像素损失函数和所述参数损失函数,获得所述车辆模板绘图模型的损失函数。
5.根据权利要求1所述的汽车传媒领域的智能绘图方法,其特征在于,所述智能绘图模型的训练步骤包括:
获取车辆样本视频,其中,所述车辆样本视频为具有特定场景与特定车辆的视频,且在所述车辆样本视频中拍摄到车辆的多个视角;
对所述车辆样本视频进行解析,获得多个车辆样本图像;
在所述车辆样本图像中提取车辆所在区域;
根据所述车辆所在区域,获得训练车辆模板特征信息;
确定所述车辆样本图像的文本描述信息;
对所述文本描述信息进行解析,获得样本需求参数信息;
将所述样本需求参数信息和所述训练车辆模板特征信息输入智能绘图模型进行处理,获得训练图像;
根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数;
根据训练周期数和预设学习率,确定当前训练周期的学习率;
根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数;
在所述智能绘图模型满足训练条件时,获得所述已训练的智能绘图模型。
6.根据权利要求5所述的汽车传媒领域的智能绘图方法,其特征在于,根据训练周期数和预设学习率,确定当前训练周期的学习率,包括:
根据公式
确定当前训练周期的学习率,其中,/>为所述预设学习率,t为当前训练周期数,/>为预设衰减系数,/>为预设周期阈值。
7.根据权利要求5所述的汽车传媒领域的智能绘图方法,其特征在于,根据所述训练图像和所述车辆样本图像,获得智能绘图模型的损失函数,包括:
根据所述训练图像和所述车辆样本图像中的对应像素点的像素值,获得第二像素损失函数;
提取所述训练图像中车辆的第一视角特征信息,并提取所述车辆样本图像中车辆的第二视角特征信息;
根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数;
确定训练图像中多个对象与所述训练图像的第一尺寸比例,以及车辆样本图像中多个对象与所述车辆样本图像的第二尺寸比例;
根据所述第一尺寸比例和所述第二尺寸比例,确定比例损失函数;
根据所述训练图像和所述车辆样本图像中的对应像素点的亮度值,获得阴影损失函数;
根据所述第二像素损失函数、所述视角损失函数、所述比例损失函数和所述阴影损失函数,获得智能绘图模型的损失函数。
8.根据权利要求7所述的汽车传媒领域的智能绘图方法,其特征在于,根据所述第一视角特征信息和所述第二视角特征信息,确定视角损失函数,包括:
根据公式
确定视角损失函数,其中,/>为所述第一视角特征信息,/>为所述第二视角特征信息,/>为训练图像中车辆的车头朝向角,/>为训练图像中车辆的车灯连线的方向角,/>为训练图像中车辆的左侧车轮连线的方向角,/>为训练图像中车辆的右侧车轮连线的方向角,/>为车辆样本图像中的车头朝向角,/>为车辆样本图像中的车灯连线的方向角,/>为车辆样本图像中的左侧车轮连线的方向角,/>为车辆样本图像中的右侧车轮连线的方向角。
9.根据权利要求5所述的汽车传媒领域的智能绘图方法,其特征在于,根据所述智能绘图模型的损失函数和所述当前训练周期的学习率,调整所述智能绘图模型的参数,包括:
根据公式
获得第t+1个训练周期的智能绘图模型的参数,其中,/>为当前的第t个训练周期中智能绘图模型的参数,/>为当前训练周期的学习率,t为当前训练周期数,/>为智能绘图模型的损失函数,/>为智能绘图模型的损失函数的梯度。
10.一种汽车传媒领域的智能绘图装置,其特征在于,包括:
接收模块,用于接收需求文本信息,其中,所述需求文本信息用于描述用户对于生成的图像的需求;
需求参数模块,用于对所述需求文本信息进行解析,获得需求参数信息;
模板模块,用于将所述需求参数信息输入已训练的车辆模板绘图模型进行处理,获得车辆模板特征信息,其中,所述车辆模板绘图模型通过车辆图像与车辆参数训练获得;
图像生成模块,用于根据所述车辆模板特征信息、所述需求参数信息和已训练的智能绘图模型,获得与所述需求文本信息匹配的汽车传媒图像,其中,所述智能绘图模型用于在所述车辆模板特征信息中的车辆图形的基础上生成场景图形,并用于提升车辆图形与场景图形之间的协调性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311408189.3A CN117150066B (zh) | 2023-10-27 | 2023-10-27 | 汽车传媒领域的智能绘图方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311408189.3A CN117150066B (zh) | 2023-10-27 | 2023-10-27 | 汽车传媒领域的智能绘图方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150066A true CN117150066A (zh) | 2023-12-01 |
CN117150066B CN117150066B (zh) | 2024-01-23 |
Family
ID=88906406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311408189.3A Active CN117150066B (zh) | 2023-10-27 | 2023-10-27 | 汽车传媒领域的智能绘图方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150066B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150004129A (ko) * | 2013-07-02 | 2015-01-12 | 한국가스공사 | 지능형 도면 제어 장치 및 방법 |
CN111897511A (zh) * | 2020-07-31 | 2020-11-06 | 科大讯飞股份有限公司 | 一种语音绘图方法、装置、设备及存储介质 |
CN112927321A (zh) * | 2021-03-17 | 2021-06-08 | 北京太火红鸟科技有限公司 | 基于神经网络的图像智能设计方法、装置、设备及存储介质 |
CN114913487A (zh) * | 2022-06-17 | 2022-08-16 | 深圳市万物云科技有限公司 | 一种基于多模态学习的目标识别检测方法及相关组件 |
CN115830171A (zh) * | 2023-02-17 | 2023-03-21 | 深圳前海深蕾半导体有限公司 | 基于人工智能绘画的图像生成方法、显示设备及存储介质 |
CN115965013A (zh) * | 2023-03-16 | 2023-04-14 | 北京朗知网络传媒科技股份有限公司 | 基于需求识别的汽车传媒文章生成方法和装置 |
CN116595438A (zh) * | 2023-05-17 | 2023-08-15 | 上海极豆科技有限公司 | 图片创作方法、装置、设备及存储介质 |
-
2023
- 2023-10-27 CN CN202311408189.3A patent/CN117150066B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150004129A (ko) * | 2013-07-02 | 2015-01-12 | 한국가스공사 | 지능형 도면 제어 장치 및 방법 |
CN111897511A (zh) * | 2020-07-31 | 2020-11-06 | 科大讯飞股份有限公司 | 一种语音绘图方法、装置、设备及存储介质 |
CN112927321A (zh) * | 2021-03-17 | 2021-06-08 | 北京太火红鸟科技有限公司 | 基于神经网络的图像智能设计方法、装置、设备及存储介质 |
CN114913487A (zh) * | 2022-06-17 | 2022-08-16 | 深圳市万物云科技有限公司 | 一种基于多模态学习的目标识别检测方法及相关组件 |
CN115830171A (zh) * | 2023-02-17 | 2023-03-21 | 深圳前海深蕾半导体有限公司 | 基于人工智能绘画的图像生成方法、显示设备及存储介质 |
CN115965013A (zh) * | 2023-03-16 | 2023-04-14 | 北京朗知网络传媒科技股份有限公司 | 基于需求识别的汽车传媒文章生成方法和装置 |
CN116595438A (zh) * | 2023-05-17 | 2023-08-15 | 上海极豆科技有限公司 | 图片创作方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117150066B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310616B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110659640B (zh) | 文本序列的识别方法及装置、电子设备和存储介质 | |
CN111783756B (zh) | 文本识别方法及装置、电子设备和存储介质 | |
JP7106687B2 (ja) | 画像生成方法および装置、電子機器、並びに記憶媒体 | |
CN111612070B (zh) | 基于场景图的图像描述生成方法及装置 | |
TWI759647B (zh) | 影像處理方法、電子設備,和電腦可讀儲存介質 | |
TWI759830B (zh) | 網路訓練方法、圖像生成方法、電子設備及電腦可讀儲存介質 | |
CN111553864B (zh) | 图像修复方法及装置、电子设备和存储介质 | |
CN111340048B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN110532956B (zh) | 图像处理方法及装置、电子设备和存储介质 | |
CN111126108B (zh) | 图像检测模型的训练和图像检测方法及装置 | |
CN111435432B (zh) | 网络优化方法及装置、图像处理方法及装置、存储介质 | |
CN109920016B (zh) | 图像生成方法及装置、电子设备和存储介质 | |
CN111539410B (zh) | 字符识别方法及装置、电子设备和存储介质 | |
CN109145970B (zh) | 基于图像的问答处理方法和装置、电子设备及存储介质 | |
CN109840917B (zh) | 图像处理方法及装置、网络训练方法及装置 | |
CN107220614B (zh) | 图像识别方法、装置及计算机可读存储介质 | |
CN111259967A (zh) | 图像分类及神经网络训练方法、装置、设备及存储介质 | |
CN111242303A (zh) | 网络训练方法及装置、图像处理方法及装置 | |
CN110135349A (zh) | 识别方法、装置、设备及存储介质 | |
CN111553865B (zh) | 图像修复方法及装置、电子设备和存储介质 | |
TWI770531B (zh) | 人臉識別方法、電子設備和儲存介質 | |
CN111914774A (zh) | 基于稀疏卷积神经网络的3d物体检测方法及装置 | |
CN111507131B (zh) | 活体检测方法及装置、电子设备和存储介质 | |
CN117150066B (zh) | 汽车传媒领域的智能绘图方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |