CN117746340B - 车载显示屏交互方法及装置 - Google Patents
车载显示屏交互方法及装置 Download PDFInfo
- Publication number
- CN117746340B CN117746340B CN202410169829.8A CN202410169829A CN117746340B CN 117746340 B CN117746340 B CN 117746340B CN 202410169829 A CN202410169829 A CN 202410169829A CN 117746340 B CN117746340 B CN 117746340B
- Authority
- CN
- China
- Prior art keywords
- passenger
- data
- information
- image
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 124
- 238000000034 method Methods 0.000 title claims abstract description 59
- 239000000463 material Substances 0.000 claims abstract description 49
- 230000004044 response Effects 0.000 claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims abstract description 14
- 238000005457 optimization Methods 0.000 claims description 43
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 239000012769 display material Substances 0.000 claims description 16
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 11
- 230000002452 interceptive effect Effects 0.000 claims description 11
- 238000003708 edge detection Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 9
- 238000005286 illumination Methods 0.000 claims description 9
- 230000000877 morphologic effect Effects 0.000 claims description 9
- 238000003786 synthesis reaction Methods 0.000 claims description 9
- 230000009471 action Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 230000008846 dynamic interplay Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000004519 manufacturing process Methods 0.000 abstract description 5
- 239000002699 waste material Substances 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 102100022778 POC1 centriolar protein homolog A Human genes 0.000 description 1
- 101710125073 POC1 centriolar protein homolog A Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
本说明书实施例提供车载显示屏交互方法及装置,其中车载显示屏交互方法包括:监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据。通过监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据,实现乘客的虚拟数字人进行广告展示和乘客本人交互的目的,提高了个性化和生动化,让广告交互方式更加具有吸引力和实用性。采用数字化技术避免了传统广告制作的资源浪费等问题,更加环保且具有可持续性。
Description
技术领域
本说明书实施例涉及虚拟数字人技术领域,特别涉及车载显示屏交互方法。
背景技术
基于虚拟数字人技术的车载后排显示屏广告交互方式属于智能汽车和车联网领域。这个技术领域涉及到人工智能、计算机视觉、自然语言处理、机器学习等多个学科的交叉应用。它的目标是通过智能化技术手段,提高汽车的智能化、自动化、舒适化以及安全性,为乘客提供更加便捷、安全、舒适的交互体验。
车载后排显示屏广告交互方式也有多种,以下是其中几种常见的:
1.物理按键:物理按键是最简单的车载屏交互方式之一,通过按下不同的按键来控制车辆的各项功能。主要结构是按键和控制电路,按键可以采用机械式、电容式等不同的设计。原理是通过按下按键,触发控制电路中的开关,从而控制车辆的各项功能。
2.触摸屏:触摸屏是一种电容式传感器,它通过感应人体电荷来实现交互操作。主要结构是显示屏和触摸屏电路,触摸屏电路包括感应电极、驱动电极和控制电路等部分。原理是当人体接近触摸屏时,感应电极和驱动电极之间产生电容,通过控制电路的处理,转换为指令传给车辆的控制系统,从而实现交互操作。
3.手势识别:手势识别是一种通过感应乘客手势来实现交互操作的技术。主要应用了计算机视觉和机器学习技术。手势识别的主要结构是摄像头和计算机视觉算法等。原理是通过摄像头采集乘客的手势信息,通过计算机视觉算法识别手势,从而转换为指令传给车辆的控制系统,实现交互操作。
4. APP控制:APP控制是一种通过手机APP来控制车载屏的交互方式。主要应用了无线通信和智能手机应用开发技术。APP控制的主要结构是车载屏和手机APP等。原理是通过手机APP连接车载屏,通过无线通信传输指令,从而控制车载屏的各项功能。
这些现有技术在不同程度上都可以实现车载后排显示屏的交互操作。
目前的交互方式,存在以下问题和缺点:
1.交互体验不够自然:与虚拟数字人交互方式相比,现有技术的交互体验不够自然。例如,物理按键需要乘客手动按下按键,触摸屏需要乘客用手触摸屏幕,手势识别需要乘客做出特定的手势,这些操作有时会影响乘客的舒适度和使用体验。
2.交互模式单一:现有技术的交互模式相对单一,不能满足用户多样化的交互需求。例如,物理按键的数量有限,不能满足车辆功能的复杂性,触摸屏的交互方式只能通过手指触摸屏幕来控制,手势识别只能识别特定的手势,这些交互模式不能满足用户多样化的交互需求。
3.应用场景有限:现有技术的应用场景相对有限,例如,手势识别需要有较好的光照条件,APP控制需要有良好的网络连接,这些限制了现有技术的应用场景和普适性。
发明内容
有鉴于此,本说明书实施例提供了车载显示屏交互方法。本说明书一个或者多个实施例同时涉及车载显示屏交互装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种车载显示屏交互方法,包括:
监测乘客状态,基于乘客状态获取乘客基本信息;
基于乘客基本信息生成乘客动态画像;
基于乘客动态画像和展示素材生成初始展示数据,将初始展示数据在车载显示屏进行展示;
响应于交互信息,基于交互信息确定目标展示数据,并将目标展示数据在车载显示屏进行展示。
在一种可能的实现方式中,监测乘客状态,基于乘客状态获取乘客基本信息,包括:
在监测到乘客状态为乘客上车的情况下,获取乘客的图像信息;
基于图像信息提取人物图像;
基于人物图像获取性别信息、年龄信息和兴趣爱好信息;
基于人物图像、性别信息、年龄信息和兴趣爱好信息确定乘客基本信息。
在一种可能的实现方式中,基于图像信息获取人物图像,包括:
对人物图像进行优化处理,确定优化图像;
对优化图像进行边缘检测,确定图像边缘数据;
基于图像边缘数据,通过预设人脸检测算法提取人物图像。
在一种可能的实现方式中,基于乘客基本信息生成乘客动态画像,包括:
基于人物图像进行数据转换,确定点云数据;
对点云数据进行点云配准,确定配准数据;
对配准数据进行网格化转换,确定网格数据;
基于点云数据和网格数据进行模型重建,确定初始模型;
对初始模型进行模型优化,确定乘客动态画像。
在一种可能的实现方式中,对初始模型进行模型优化,确定乘客动态画像,包括:
对初始模型中每个网格的顶点进行变形,确定形态优化模型;
对形态优化模型进行纹理映射和平滑处理,确定纹理优化模型;
对纹理优化模型进行拓扑重构,确定拓扑优化模型;
对拓扑优化模型进行光照优化,确定乘客动态画像。
在一种可能的实现方式中,基于乘客动态画像和展示素材生成初始展示数据,包括:
获取展示素材;其中,展示素材包括文本素材;
将文本素材进行语音合成,生成语音素材;
基于语音素材对乘客动态画像进行口唇同步,生成初始展示数据。
在一种可能的实现方式中,响应于交互信息,基于交互信息确定目标展示数据,包括:
响应于交互信息;其中,交互信息包括声音交互信息和动作交互信息;
基于交互信息确定含义数据,并基于含义数据确定回应素材;
基于回应素材对乘客动态画像进行动态同步,确定目标展示数据。
根据本说明书实施例的第二方面,提供了一种车载显示屏交互装置,包括:
信息确定模块,被配置为监测乘客状态,基于乘客状态获取乘客基本信息;
画像生成模块,被配置为基于乘客基本信息生成乘客动态画像;
数据展示模块,被配置为基于乘客动态画像和展示素材生成初始展示数据,将初始展示数据在车载显示屏进行展示;
动态交互模块,被配置为响应于交互信息,基于交互信息确定目标展示数据,并将目标展示数据在车载显示屏进行展示。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述车载显示屏交互方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述车载显示屏交互方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述车载显示屏交互方法的步骤。
本说明书实施例提供车载显示屏交互方法及装置,其中车载显示屏交互方法包括:监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据。通过监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据,实现乘客的虚拟数字人进行广告展示和乘客本人交互的目的,提高了个性化和生动化,让广告交互方式更加具有吸引力和实用性。同时,由于采用数字化技术,本方案也避免了传统广告制作的资源浪费等问题,更加环保且具有可持续性。
附图说明
图1是本说明书一个实施例提供的一种车载显示屏交互方法的场景示意图;
图2是本说明书一个实施例提供的一种车载显示屏交互方法的流程图;
图3是本说明书一个实施例提供的一种车载显示屏交互方法的架构图;
图4是本说明书一个实施例提供的一种车载显示屏交互方法的原理图;
图5是本说明书一个实施例提供的一种车载显示屏交互方法的人脸检测算法原理图;
图6是本说明书一个实施例提供的一种车载显示屏交互方法的模型构建原理图;
图7是本说明书一个实施例提供的一种车载显示屏交互方法的口唇同步原理图;
图8是本说明书一个实施例提供的一种车载显示屏交互装置的结构示意图;
图9是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本说明书中,提供了车载显示屏交互方法,本说明书同时涉及车载显示屏交互装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种车载显示屏交互方法的场景示意图。
在图1的应用场景中,计算设备101可以监测乘客状态,基于乘客状态获取乘客基本信息102。然后,计算设备101可以基于乘客基本信息102生成乘客动态画像103。之后,计算设备101可以基于乘客动态画像103和展示素材生成初始展示数据104,将初始展示数据104在车载显示屏进行展示。最后,计算设备101可以响应于交互信息,基于交互信息确定目标展示数据,并将目标展示数据在车载显示屏进行展示,如附图标记105所示。
需要说明的是,上述计算设备101可以是硬件,也可以是软件。当计算设备101为硬件时,可以实现成多个服务器或终端设备组成的分布式集群,也可以实现成单个服务器或单个终端设备。当计算设备101体现为软件时,可以安装在上述所列举的硬件设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
参见图2,图2示出了根据本说明书一个实施例提供的一种车载显示屏交互方法的流程图,具体包括以下步骤。
步骤201:监测乘客状态,基于乘客状态获取乘客基本信息。
在一种可能的实现方式中,监测乘客状态,基于乘客状态获取乘客基本信息,包括:在监测到乘客状态为乘客上车的情况下,获取乘客的图像信息;基于图像信息提取人物图像;基于人物图像获取性别信息、年龄信息和兴趣爱好信息;基于人物图像、性别信息、年龄信息和兴趣爱好信息确定乘客基本信息。
在实际应用中,在乘客上车时,车载系统可以通过摄像头等设备采集乘客的照片和一些基本信息,如性别、年龄、兴趣爱好等。
例如,参见图3,乘客A上车后,传感器检测到有人上车,在Android系统的后排屏幕上询问乘客是否可以启动摄像头采集图像。在乘客同意后,通过App启动摄像头,拍摄照片后即可保存在设备中。可以通过照片拍摄功能来获取用户的照片,用于后续的照片编辑和生成虚拟数字人。
进一步的,还可以通过识别的人物获取一些基本信息,如上述的性别、年龄、兴趣爱好等。
在一种可能的实现方式中,基于图像信息获取人物图像,包括:对人物图像进行优化处理,确定优化图像;对优化图像进行边缘检测,确定图像边缘数据;基于图像边缘数据,通过预设人脸检测算法提取人物图像。
在实际应用中,进行优化处理包括:可以根据需要将照片裁剪成不同的形状和大小。还可以调整照片的亮度、对比度、饱和度等参数,以获得更好的效果。也可以添加各种特效和滤镜,如黑白、复古、冷暖色调等,使照片更加有趣、有个性。
需要说明的是,后续的生成乘客动态画像可以在本地设备进行,也可以将用户拍摄或编辑后的照片上传至后端服务器,对照片进行进一步的处理,例如生成数字人、存储照片等等。
具体的,参见图4,图像人像的边缘检测和特征提取:在这个模块中,上传的照片将会进行图像处理,包括人像的边缘检测和特征提取。边缘检测是指在图像中找到物体边缘的过程,可以用于获取人像的轮廓信息。特征提取是指从图像中提取出有用的特征信息的过程,例如人脸的特征点、眼睛、嘴巴等等。这些特征信息可以用于后续的数字人生成以及语音合成等模块中。
例如,车载后排显示屏的摄像头,拍摄乘客的画像后,上传到云平台中的虚拟数字人的制作平台。首先采用边缘检测算法SIFT进行边缘检测。
S1、将图像转换为灰度图像,以便后续处理。对灰度图像进行高斯模糊处理,以减少噪声干扰。
S2、使用SIFT算法提取图像的关键点和特征描述符。
S3、对图像的关键点进行方向估计,以便后续处理。对图像的关键点进行描述符匹配,找到相邻关键点之间的匹配关系。
S4、根据匹配关系,计算相邻关键点之间的梯度,并将其作为边缘的方向。 根据梯度方向,将相邻关键点之间的边缘连接起来,形成边缘线。
通过以上步骤,就可以用SIFT算法实现找到人的图像的边缘。
进一步的,找到边缘后,进行检测是否是人脸的算法,采用 SSD (Single ShotMultiBox Detector)算法,具体流程,如图5所示:
S1、 输入图像:将S1边缘检测提取的图像输入到SSD模型中。
S2、特征提取:使用卷积神经网络(CNN)对输入图像进行特征提取。SSD模型通常使用VGG或ResNet等深度神经网络进行特征提取。
S3、特征图生成:将特征提取器的输出特征图送到SSD的多个检测层(detectionlayer)中,生成多个预测框(anchor box)。每个检测层负责检测一定范围内的目标,如小目标、大目标等。
S4、预测框解码:对于每个预测框,SSD将其转换为真实边界框,包括坐标和大小,以及预测目标的置信度。
S5、非极大值抑制(NMS):对于每个类别,SSD对所有的预测框按照置信度进行排序,并采用非极大值抑制的方式去除重复框。具体来说,SSD将置信度最高的预测框作为检测结果,然后计算其余预测框与该框的重叠度(如IOU),若重叠度高于设定的阈值,则将该框从预测结果中删除。
S6、 输出结果:将保留下来的预测框(即非极大值抑制后的预测框)输出作为检测结果,同时可以在预测框周围绘制标注框,进行可视化检测。
步骤202:基于乘客基本信息生成乘客动态画像。
在一种可能的实现方式中,基于乘客基本信息生成乘客动态画像,包括:基于人物图像进行数据转换,确定点云数据;对点云数据进行点云配准,确定配准数据;对配准数据进行网格化转换,确定网格数据;基于点云数据和网格数据进行模型重建,确定初始模型;对初始模型进行模型优化,确定乘客动态画像。
在实际应用中,在通过特征提取获取到人脸的特征点之后,可以使用深度学习算法生成逼真的虚拟数字人。具体来说,可以使用人脸生成模型对人脸进行重建,然后使用动作合成算法对数字人进行动作表现。最终生成的数字人可以具有高度逼真的外貌和动作表现。
具体的,在确定人脸关键点之后,可以使用三维重建算法将人脸图像转换为三维模型。三维重建算法通常可以分为以下几个步骤,参见图6:
(1) 点云生成:将人脸图像转换为点云数据,即将二维图像中的每个像素点转换为三维坐标点。
(2) 点云配准:将点云数据进行配准,即将不同角度和位置的点云数据进行匹配,以获得更准确的三维形态。点云配准采用了基于深度学习的PointNet点云配准算法。
(3) 网格化:将点云数据转换为三角形网格,以便进行纹理贴图和动画制作等后续操作。网格化可以使用Delaunay三角形算法或其他网格化算法。
(4) 模型重建:根据点云数据和网格化结果,使用三维重建算法进行模型重建。三维重建算法可以本发明采用了使用Pix2Vox深度学习算法。
在一种可能的实现方式中,对初始模型进行模型优化,确定乘客动态画像,包括:对初始模型中每个网格的顶点进行变形,确定形态优化模型;对形态优化模型进行纹理映射和平滑处理,确定纹理优化模型;对纹理优化模型进行拓扑重构,确定拓扑优化模型;对拓扑优化模型进行光照优化,确定乘客动态画像。
在实际应用中,在完成三维重建之后,可以对模型进行优化,以提高模型的精度和逼真度。
具体的,模型优化可以包括以下几个方面:
形态优化:使用基于物理的变形算法质点弹簧模型实现网格变形,将网格上的每个顶点进行变形,以改变模型的几何形态。将三维模型与真实人脸进行匹配,以使其更加符合人脸的真实形态。本发明采用了PCA(Principal Component Analysis)模型进行形态匹配,将三维模型拟合到真实人脸的曲面上,以使其更加符合人脸的真实形态。
纹理优化:本发明采用了基于纹理映射的合成算法进行优化,以使其更加逼真和自然。同时,使用基于高斯滤波的算法,对纹理图像进行了平滑处理,降低其噪声和不规则性,以使其更加自然和平滑。
拓扑优化:本发明采用了基于拓扑保持的拓扑重建算法、基于形态学的拓扑重建算法对模型的拓扑结构进行优化,对三维模型进行拓扑结构的重构,实现了网格的优化和修复。
光照优化:本发明采用了基于BRDF(Bidirectional Reflectance DistributionFunction)的光照模型,对模型的光照进行了深入优化。
步骤203:基于乘客动态画像和展示素材生成初始展示数据,将初始展示数据在车载显示屏进行展示。
在一种可能的实现方式中,基于乘客动态画像和展示素材生成初始展示数据,包括:获取展示素材;其中,展示素材包括文本素材;将文本素材进行语音合成,生成语音素材;基于语音素材对乘客动态画像进行口唇同步,生成初始展示数据。
在实际应用中,上述生成的虚拟数字人与文字介绍和发声技术进行整合,使用语音合成技术将文字转换为声音,并将其加入到虚拟数字人口型发音中。
具体的,参见图7,从文本到语音,从语音到口型的实现的主要实现步骤包括:
S1、文本到语音(Text-to-Speech, TTS):将广告的文字脚本转换为声音。目前,采用的TTS技术是基于深度学习的语音合成方法FastSpeech方法。这个方法通过训练神经网络模型,实现从文本到语音波形的高质量、自然的转换。
S2、自动语音识别(Automatic Speech Recognition, ASR):将生成的声音转换回文字,以便进行口型匹配。虚拟数字人平台技术采用深度学习方法的Transformer结构,将音频信号转化为文本序列。
S3、口型同步(Lip Sync):根据声音和转换回的文字,为虚拟数字人生成相应的口型动画。本发明采用的方法是深度学习的生成对抗网络(Generative AdversarialNetworks, GANs)将音频特征和文本信息映射到口型动画。
S4、虚拟数字人物渲染:将口型同步后的虚拟数字人渲染出来。虚拟数字人平台技术采用了Unreal 3D建模、纹理贴图、光照和渲染来实现。
需要说明的是,在生成数字人之后,数字人预览程序可以将数字人的模型在前台App中进行预览。数字人是指通过深度学习算法生成的虚拟人物,具有高度的逼真度和表现力。在这个项目中,可以通过数字人预览程序实现数字人的预览功能,让用户能够在前台App中看到数字人的外貌和动作表现。并且还可以下载虚拟数字人,生成一个二维码,用于扫描下载虚拟数字人。用户可以通过扫描二维码来下载虚拟数字人,可以将下载链接放在二维码的中心位置。
进一步的,上述的虚拟数字人平台服务提供虚拟数字人建模和应用的服务,可以将人物或物体的三维模型生成为虚拟数字人并进行应用。具体功能包括:
(1) 三维建模:提供生成虚拟数字人的基础服务,支持将现实中的人物或物体进行三维建模,并生成其对应的虚拟数字人模型。
(2) 数据管理:提供虚拟数字人模型和相关数据的管理服务,支持数据存储、备份、恢复等操作,以保证数据的安全性和可靠性。
(3) 开放API:开放API接口,支持与其他应用程序进行集成,如前台App,前台的手机的App,PC上的web浏览器等。
步骤204:响应于交互信息,基于交互信息确定目标展示数据,并将目标展示数据在车载显示屏进行展示。
在一种可能的实现方式中,响应于交互信息,基于交互信息确定目标展示数据,包括:响应于交互信息;其中,交互信息包括声音交互信息和动作交互信息;基于交互信息确定含义数据,并基于含义数据确定回应素材;基于回应素材对乘客动态画像进行动态同步,确定目标展示数据。
在实际应用中,乘客可以通过触摸屏幕或语音控制等方式与乘客动态画像进行交互。例如,乘客可以通过语音控制向乘客动态画像提问或提出建议,或者通过触摸屏幕获取更多广告内容和相关信息。
本说明书实施例提供车载显示屏交互方法及装置,其中车载显示屏交互方法包括:监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据。通过监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据,实现乘客的虚拟数字人进行广告展示和乘客本人交互的目的,提高了个性化和生动化,让广告交互方式更加具有吸引力和实用性。同时,由于采用数字化技术,本方案也避免了传统广告制作的资源浪费等问题,更加环保且具有可持续性。
与上述方法实施例相对应,本说明书还提供了车载显示屏交互装置实施例,图8示出了本说明书一个实施例提供的一种车载显示屏交互装置的结构示意图。如图8所示,该装置包括:
信息确定模块801,被配置为监测乘客状态,基于乘客状态获取乘客基本信息;
画像生成模块802,被配置为基于乘客基本信息生成乘客动态画像;
数据展示模块803,被配置为基于乘客动态画像和展示素材生成初始展示数据,将初始展示数据在车载显示屏进行展示;
动态交互模块804,被配置为响应于交互信息,基于交互信息确定目标展示数据,并将目标展示数据在车载显示屏进行展示。
在一种可能的实现方式中,信息确定模块801,还被配置为:
在监测到乘客状态为乘客上车的情况下,获取乘客的图像信息;
基于图像信息提取人物图像;
基于人物图像获取性别信息、年龄信息和兴趣爱好信息;
基于人物图像、性别信息、年龄信息和兴趣爱好信息确定乘客基本信息。
在一种可能的实现方式中,信息确定模块801,还被配置为:
对人物图像进行优化处理,确定优化图像;
对优化图像进行边缘检测,确定图像边缘数据;
基于图像边缘数据,通过预设人脸检测算法提取人物图像。
在一种可能的实现方式中,画像生成模块802,还被配置为:
基于人物图像进行数据转换,确定点云数据;
对点云数据进行点云配准,确定配准数据;
对配准数据进行网格化转换,确定网格数据;
基于点云数据和网格数据进行模型重建,确定初始模型;
对初始模型进行模型优化,确定乘客动态画像。
在一种可能的实现方式中,画像生成模块802,还被配置为:
对初始模型中每个网格的顶点进行变形,确定形态优化模型;
对形态优化模型进行纹理映射和平滑处理,确定纹理优化模型;
对纹理优化模型进行拓扑重构,确定拓扑优化模型;
对拓扑优化模型进行光照优化,确定乘客动态画像。
在一种可能的实现方式中,数据展示模块803,还被配置为:
获取展示素材;其中,展示素材包括文本素材;
将文本素材进行语音合成,生成语音素材;
基于语音素材对乘客动态画像进行口唇同步,生成初始展示数据。
在一种可能的实现方式中,动态交互模块804,还被配置为:
响应于交互信息;其中,交互信息包括声音交互信息和动作交互信息;
基于交互信息确定含义数据,并基于含义数据确定回应素材;
基于回应素材对乘客动态画像进行动态同步,确定目标展示数据。
本说明书实施例提供车载显示屏交互方法及装置,其中车载显示屏交互装置包括:监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据。通过监测乘客状态,基于乘客状态获取乘客基本信息;基于乘客基本信息生成乘客动态画像;基于乘客动态画像和展示素材生成初始展示数据;响应于交互信息,基于交互信息确定目标展示数据,实现乘客的虚拟数字人进行广告展示和乘客本人交互的目的,提高了个性化和生动化,让广告交互方式更加具有吸引力和实用性。同时,由于采用数字化技术,本方案也避免了传统广告制作的资源浪费等问题,更加环保且具有可持续性。
上述为本实施例的一种车载显示屏交互装置的示意性方案。需要说明的是,该车载显示屏交互装置的技术方案与上述的车载显示屏交互方法的技术方案属于同一构思,车载显示屏交互装置的技术方案未详细描述的细节内容,均可以参见上述车载显示屏交互方法的技术方案的描述。
图9示出了根据本说明书一个实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
其中,处理器920用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述车载显示屏交互方法的步骤。上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的车载显示屏交互方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述车载显示屏交互方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述车载显示屏交互方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的车载显示屏交互方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述车载显示屏交互方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述车载显示屏交互方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的车载显示屏交互方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述车载显示屏交互方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (7)
1.一种车载显示屏交互方法,其特征在于,包括:
监测乘客状态,基于所述乘客状态获取乘客基本信息;
基于所述乘客基本信息生成乘客动态画像;
基于所述乘客动态画像和展示素材生成初始展示数据,将所述初始展示数据在所述车载显示屏进行展示;
响应于交互信息,基于所述交互信息确定目标展示数据,并将所述目标展示数据在所述车载显示屏进行展示;
所述监测乘客状态,基于所述乘客状态获取乘客基本信息,包括:
在监测到所述乘客状态为乘客上车的情况下,获取所述乘客的图像信息;
基于所述图像信息提取人物图像;
基于所述人物图像获取性别信息、年龄信息和兴趣爱好信息;
基于所述人物图像、性别信息、年龄信息和兴趣爱好信息确定乘客基本信息;
所述基于所述乘客基本信息生成乘客动态画像,包括:
基于所述人物图像进行数据转换,确定点云数据;
对所述点云数据进行点云配准,确定配准数据;其中,所述点云配准基于PointNet点云配准算法;
对所述配准数据进行网格化转换,确定网格数据;其中,所述网格化转换以使用Delaunay三角形算法;
基于所述点云数据和所述网格数据进行模型重建,确定初始模型;其中,所述模型重建使用Pix2Vox深度学习算法;
对所述初始模型进行模型优化,确定乘客动态画像;
所述基于所述乘客动态画像和展示素材生成初始展示数据,包括:
获取展示素材;其中,所述展示素材包括文本素材;
将所述文本素材进行语音合成,生成语音素材;
基于所述语音素材对所述乘客动态画像进行口唇同步,生成初始展示数据;
其中,所述基于所述语音素材对所述乘客动态画像进行口唇同步,包括:
将所述语音素材基于Transformer结构转换为文本序列,通过生成对抗网络将所述文本序列和所述语音素材映射到口型动画;
所述初始展示数据和目标展示数据包括虚拟数字人,相应的,在所述基于所述乘客动态画像和展示素材生成初始展示数据之后,还包括:
生成用于下载所述虚拟数字人的二维码,将所述二维码展示在所述车载显示屏;其中,所述二维码的中心位置展示下载链接。
2.根据权利要求1所述的方法,其特征在于,基于所述图像信息获取人物图像,包括:
对所述人物图像进行优化处理,确定优化图像;
对所述优化图像进行边缘检测,确定图像边缘数据;
基于所述图像边缘数据,通过预设人脸检测算法提取人物图像。
3.根据权利要求1所述的方法,其特征在于,所述对所述初始模型进行模型优化,确定乘客动态画像,包括:
对所述初始模型中每个网格的顶点进行变形,确定形态优化模型;
对所述形态优化模型进行纹理映射和平滑处理,确定纹理优化模型;
对所述纹理优化模型进行拓扑重构,确定拓扑优化模型;
对所述拓扑优化模型进行光照优化,确定乘客动态画像。
4.根据权利要求1所述的方法,其特征在于,所述响应于交互信息,基于所述交互信息确定目标展示数据,包括:
响应于交互信息;其中,所述交互信息包括声音交互信息和动作交互信息;
基于所述交互信息确定含义数据,并基于所述含义数据确定回应素材;
基于所述回应素材对所述乘客动态画像进行动态同步,确定目标展示数据。
5.一种车载显示屏交互装置,其特征在于,包括:
信息确定模块,被配置为监测乘客状态,基于所述乘客状态获取乘客基本信息;
画像生成模块,被配置为基于所述乘客基本信息生成乘客动态画像;
数据展示模块,被配置为基于所述乘客动态画像和展示素材生成初始展示数据,将所述初始展示数据在所述车载显示屏进行展示;
动态交互模块,被配置为响应于交互信息,基于所述交互信息确定目标展示数据,并将所述目标展示数据在所述车载显示屏进行展示;
所述监测乘客状态,基于所述乘客状态获取乘客基本信息,包括:
在监测到所述乘客状态为乘客上车的情况下,获取所述乘客的图像信息;
基于所述图像信息提取人物图像;
基于所述人物图像获取性别信息、年龄信息和兴趣爱好信息;
基于所述人物图像、性别信息、年龄信息和兴趣爱好信息确定乘客基本信息;
所述基于所述乘客基本信息生成乘客动态画像,包括:
基于所述人物图像进行数据转换,确定点云数据;
对所述点云数据进行点云配准,确定配准数据;其中,所述点云配准基于PointNet点云配准算法;
对所述配准数据进行网格化转换,确定网格数据;其中,所述网格化转换以使用Delaunay三角形算法;
基于所述点云数据和所述网格数据进行模型重建,确定初始模型;其中,所述模型重建使用Pix2Vox深度学习算法;
对所述初始模型进行模型优化,确定乘客动态画像;
所述基于所述乘客动态画像和展示素材生成初始展示数据,包括:
获取展示素材;其中,所述展示素材包括文本素材;
将所述文本素材进行语音合成,生成语音素材;
基于所述语音素材对所述乘客动态画像进行口唇同步,生成初始展示数据;
其中,所述基于所述语音素材对所述乘客动态画像进行口唇同步,包括:
将所述语音素材基于Transformer结构转换为文本序列,通过生成对抗网络将所述文本序列和所述语音素材映射到口型动画;
所述初始展示数据和目标展示数据包括虚拟数字人,相应的,在所述基于所述乘客动态画像和展示素材生成初始展示数据之后,还包括:
生成用于下载所述虚拟数字人的二维码,将所述二维码展示在所述车载显示屏;其中,所述二维码的中心位置展示下载链接。
6.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至4任意一项所述车载显示屏交互方法的步骤。
7.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至4任意一项所述车载显示屏交互方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410169829.8A CN117746340B (zh) | 2024-02-06 | 2024-02-06 | 车载显示屏交互方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410169829.8A CN117746340B (zh) | 2024-02-06 | 2024-02-06 | 车载显示屏交互方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117746340A CN117746340A (zh) | 2024-03-22 |
CN117746340B true CN117746340B (zh) | 2024-05-24 |
Family
ID=90261222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410169829.8A Active CN117746340B (zh) | 2024-02-06 | 2024-02-06 | 车载显示屏交互方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117746340B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574005A (zh) * | 2015-02-15 | 2015-04-29 | 蔡耿新 | 集增强现实、体感、抠绿技术的广告展示管理系统和方法 |
CN110070393A (zh) * | 2019-06-19 | 2019-07-30 | 成都大象分形智能科技有限公司 | 基于云端人工智能的线下车载广告交互投放系统 |
CN115205917A (zh) * | 2021-04-12 | 2022-10-18 | 上海擎感智能科技有限公司 | 一种人机交互的方法及电子设备 |
CN115423528A (zh) * | 2022-09-21 | 2022-12-02 | 周凤彩 | 基于ar的广告投放方法、系统、装置、设备及存储介质 |
CN116185203A (zh) * | 2023-03-24 | 2023-05-30 | 摩尔线程智能科技(北京)有限责任公司 | 旅游场景交互系统 |
CN117010965A (zh) * | 2022-06-16 | 2023-11-07 | 深圳市腾讯计算机系统有限公司 | 基于信息流广告的互动方法、装置、设备及介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10967255B2 (en) * | 2017-05-26 | 2021-04-06 | Brandon Rosado | Virtual reality system for facilitating participation in events |
-
2024
- 2024-02-06 CN CN202410169829.8A patent/CN117746340B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104574005A (zh) * | 2015-02-15 | 2015-04-29 | 蔡耿新 | 集增强现实、体感、抠绿技术的广告展示管理系统和方法 |
CN110070393A (zh) * | 2019-06-19 | 2019-07-30 | 成都大象分形智能科技有限公司 | 基于云端人工智能的线下车载广告交互投放系统 |
CN115205917A (zh) * | 2021-04-12 | 2022-10-18 | 上海擎感智能科技有限公司 | 一种人机交互的方法及电子设备 |
CN117010965A (zh) * | 2022-06-16 | 2023-11-07 | 深圳市腾讯计算机系统有限公司 | 基于信息流广告的互动方法、装置、设备及介质 |
CN115423528A (zh) * | 2022-09-21 | 2022-12-02 | 周凤彩 | 基于ar的广告投放方法、系统、装置、设备及存储介质 |
CN116185203A (zh) * | 2023-03-24 | 2023-05-30 | 摩尔线程智能科技(北京)有限责任公司 | 旅游场景交互系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117746340A (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7408048B2 (ja) | 人工知能に基づくアニメキャラクター駆動方法及び関連装置 | |
US11062494B2 (en) | Electronic messaging utilizing animatable 3D models | |
US20230017627A1 (en) | Providing 3d data for messages in a messaging system | |
CN110390704B (zh) | 图像处理方法、装置、终端设备及存储介质 | |
KR20210119438A (ko) | 얼굴 재연을 위한 시스템 및 방법 | |
CN110766777A (zh) | 虚拟形象的生成方法、装置、电子设备及存储介质 | |
US11783556B2 (en) | Augmented reality content generators including 3D data in a messaging system | |
CN113272870A (zh) | 用于逼真的实时人像动画的系统和方法 | |
CN110874557A (zh) | 一种语音驱动虚拟人脸的视频生成方法以及装置 | |
US11457196B2 (en) | Effects for 3D data in a messaging system | |
CN113822977A (zh) | 图像渲染方法、装置、设备以及存储介质 | |
CN113628327B (zh) | 一种头部三维重建方法及设备 | |
WO2021098338A1 (zh) | 一种模型训练的方法、媒体信息合成的方法及相关装置 | |
KR20130032620A (ko) | 3차원 사용자 아바타를 이용한 동영상 제작장치 및 방법 | |
CN114007099A (zh) | 一种视频处理方法、装置和用于视频处理的装置 | |
WO2022103877A1 (en) | Realistic audio driven 3d avatar generation | |
CN113705302A (zh) | 图像生成模型的训练方法、装置、计算机设备及存储介质 | |
CN112598780A (zh) | 实例对象模型构建方法及装置、可读介质和电子设备 | |
CN115049016A (zh) | 基于情绪识别的模型驱动方法及设备 | |
US11741650B2 (en) | Advanced electronic messaging utilizing animatable 3D models | |
CN116757970B (zh) | 视频重建模型的训练方法、视频重建方法、装置及设备 | |
CN105809612A (zh) | 一种照片转化为表情的方法及智能终端 | |
CN117746340B (zh) | 车载显示屏交互方法及装置 | |
CN117011415A (zh) | 一种特效文字的生成方法、装置、电子设备和存储介质 | |
WO2021244040A1 (zh) | 人脸表情编辑方法及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |