CN116797725A

CN116797725A - 一种车载场景生成方法、装置和系统

Info

Publication number: CN116797725A
Application number: CN202310572394.7A
Authority: CN
Inventors: 罗成
Original assignee: Great Wall Motor Co Ltd
Current assignee: Great Wall Motor Co Ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-09-22

Abstract

本申请提供了一种车载场景生成方法、装置和系统，属于车辆技术领域，本申请实施例能够基于车辆上传的场景描述信息，确定场景属性和用户属性；并基于场景属性和用户属性，确定至少一个场景元素以及至少一个场景元素各自对应的描述信息；进而基于至少一个场景元素以及至少一个场景元素各自对应的描述信息，生成目标三维场景资源，并将目标三维场景资源发送给车辆，以使车辆展示目标三维场景，使得用户仅需向车辆描述心目中的场景，便可使车辆展示出符合用户喜好的目标三维场景，不仅可以有效满足用户的个性化需求，还能有效提高车辆座舱的智能化水平，提升用户体验。

Description

一种车载场景生成方法、装置和系统

技术领域

本申请涉及车辆技术领域，特别是涉及一种车载场景生成方法、装置和系统。

背景技术

随着车辆智能化的不断发展，车机系统的功能不断得到丰富，越来越多的车辆配置了功能丰富的车载显示屏，用户不仅可以通过车载显示屏更轻松地控制车辆和查阅车辆信息，还能有效满足用户的娱乐需求，例如，用可以在车机系统预设的主题库中选择相应的界面场景进行配置，，以使车载显示屏能够在显示界面展示不同的界面场景。

然而，现有车机系统能够提供的界面场景有限，并且通常不能满足用户的喜好，使得车载显示屏所呈现的显示界面难以满足用户的个性化需求，造成用户使用体验不佳。

发明内容

本申请提供一种车载场景生成方法、装置和系统，以解决现有的车辆显示界面难以满足用户的个性化需求，造成用户使用体验不佳的问题。

为了解决上述问题，本申请采用了以下的技术方案：

第一方面，本申请实施例提供了一种车载场景生成方法，运用于服务器，所述方法包括：

获取车辆上传的场景描述信息；

基于所述场景描述信息，确定场景属性和用户属性；

基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；

基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成目标三维场景资源；

将所述目标三维场景资源发送给所述车辆，以使所述车辆展示所述目标三维场景。

在本申请一实施例中，所述场景描述信息包括用户语音信息；

基于所述场景描述信息，确定场景属性和用户属性的步骤，包括：

将所述用户语音信息输入经过预训练的语音识别模型，，输出得到所述用户语音信息对应的原始文本数据和声纹特征；

基于所述原始文本数据，确定所述场景属性；

基于所述声纹特征，确定所述用户属性。

在本申请一实施例中，基于所述原始文本数据，确定所述场景属性的步骤，包括，

对所述原始文本数据进行后处理，得到目标文本数据；所述后处理包括纠错处理和断句处理；

从所述目标文本数据中提取场景关键词，并基于所述场景关键词，确定所述场景属性。

在本申请一实施例中，所述声纹特征包括音调特征、语速特征、语调特征、频率特征和/或口音特征，所述用户属性包括情感属性、性别属性、年龄属性和/或地方文化属性；

基于所述声纹特征，确定所述用户属性的步骤，包括：：

基于所述音调特征、所述语速特征和所述语调特征，确定所述情感属性；和/或，

基于所述频率特征和所述音调特征，确定所述性别属性和所述年龄属性；和/或，

基于所述口音特征，确定所述地方文化属性。

在本申请一实施例中，基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息的步骤，包括：

将所述场景属性和所述用户属性输入经过预训练的自然语言处理模型，输出得到所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；其中，所述场景元素包括场景类型、物体类型、物体属性、光源属性、动作属性、天气条件和氛围效果中的一个或者多个。

在本申请一实施例中，基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成目标三维场景资源的步骤，包括：

对所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息进行编码操作，得到文本向量；

将所述文本向量输入经过预训练的文本特征提取模型，，输出得到文本语义特征；

将所述文本语义特征输入经过预训练的图像生成模型，，输出得到所述目标三维场景资源。

第二方面，基于相同发明构思，本申请实施例提供了一种车载场景生成方法，运用于车辆，所述方法包括：

获取场景描述信息，并将所述场景描述信息上传至服务器，以使所述服务器基于所述场景描述信息，确定场景属性和用户属性；基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成所述目标三维场景资源；

接收所述目标三维场景资源，并展示所述目标三维场景。

第三方面，基于相同发明构思，本申请实施例提供了一种车载场景生成装置，运用于服务器，所述装置包括：

语音获取模块，用于获取车辆上传的场景描述信息；

属性确定模块，用于基于所述场景描述信息，确定场景属性和用户属性；

场景确定模块，用于基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；；

资源生成模块，用于基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成目标三维场景资源；

资源发送模块，用于将所述目标三维场景资源发送给所述车辆，以使所述车辆展示所述目标三维场景。

在本申请一实施例中，所述场景描述信息包括用户语音信息；所述属性确定模块包括：

语音识别子模块，用于将所述用户语音信息输入经过预训练的语音识别模型，输出得到所述用户语音信息对应的原始文本数据和声纹特征；

场景属性确定子模块，用于基于所述原始文本数据，确定所述场景属性；

用户属性确定子模块，用于基于所述声纹特征，确定所述用户属性。

在本申请一实施例中，所述场景属性确定子模块包括：：

后处理单元，用于对所述原始文本数据进行后处理，得到目标文本数据；所述后处理包括纠错处理和断句处理；

提取单元，用于从所述目标文本数据中提取场景关键词，并基于所述场景关键词，确定所述场景属性。

在本申请一实施例中，所述声纹特征包括音调特征、语速特征、语调特征、频率特征和/或口音特征，所述用户属性包括情感属性、性别属性、年龄属性和/或地方文化属性；所述用户属性确定子模块包括：

情感属性确定单元，用于基于所述音调特征、所述语速特征和所述语调特征，确定所述情感属性；

性别年龄确定单元，用于基于所述频率特征和所述音调特征，确定所述性别属性和所述年龄属性；

地方文化属性确定单元，用于基于所述口音特征，确定所述地方文化属性。

在本申请一实施例中，所述场景确定模块包括：

自然语言处理子模块，用于将所述场景属性和所述用户属性输入经过预训练的自然语言处理模型，输出得到所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；其中，所述场景元素包括场景类型、物体类型、物体属性、光源属性、动作属性、天气条件和氛围效果中的一个或者多个。

在本申请一实施例中，所述资源生成模块包括：

文本编码子模块，用于将所述文本向量输入经过预训练的文本特征提取模型，输出得到文本语义特征；

语义提取子模块，用于将所述文本向量输入经过预训练的文本特征提取模型，输出得到文本语义特征；

图像生成子模块，用于将所述文本语义特征输入经过预训练的图像生成模型，输出得到所述目标三维场景资源。

第四方面，基于相同发明构思，本申请实施例提供了一种车载场景生成装置，运用于车辆，所述装置包括：

语音上传模块，用于获取场景描述信息，并将所述场景描述信息上传至服务器，以使所述服务器基于所述场景描述信息，确定场景属性和用户属性；基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成所述目标三维场景资源；

界面展示模块，用于接收所述目标三维场景资源，并展示所述目标三维场景。

第五方面，基于相同发明构思，本申请实施例提供了一种车载场景生成系统，所述系统包括车辆和服务器；其中，

所述车辆，用于获取场景描述信息，并将所述场景描述信息上传至服务器；

所述服务器，用于获取所述场景描述信息，基于所述场景描述信息，确定场景属性和用户属性；基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；；基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成目标三维场景资源；

所述车辆，还用于接收所述目标三维场景资源，并展示所述目标三维场景。

与现有技术相比，本申请包括以下优点：

本申请实施例提供的一种车载场景生成方法，能够基于车辆上传的场景描述信息，确定场景属性和用户属性；并基于场景属性和用户属性，确定至少一个场景元素以及至少一个场景元素各自对应的描述信息；进而基于至少一个场景元素以及至少一个场景元素各自对应的描述信息，，生成目标三维场景资源，并将目标三维场景资源发送给车辆，以使车辆展示目标三维场景，使得用户仅需向车辆描述心目中的场景，便可使车辆展示出符合用户喜好的目标三维场景，不仅可以有效满足用户的个性化需求，还能有效提高车辆座舱的智能化水平，提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中一种车载场景生成方法的步骤流程图。

图2是本申请一实施例中另外一种车载场景生成方法的步骤流程图。

图3是本申请一实施例中一种车载场景生成装置的功能模块示意图。

图4是本申请一实施例中另外一种车载场景生成装置的功能模块示意图。

图5是本申请一实施例中一种车载场景生成系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，随着车辆智能化和语音技术的发展，语音在车辆上的运用越来越广泛。在用户驾驶车辆的过程中，能够无接触地实现用户对车辆或者车辆上车载系统的控制，可以在保障行车安全的情况下增强用户的使用体验。

车辆智能化带来了更强的车机芯片和图形芯片，新一代车机芯片的算力以及图形芯片的性能，使得在车载系统上实现像手机一样更丰富的界面和更有趣味的动画成为了一种可能。

然而，目前车载系统提供的显示界面通常为2D(二维)桌面，无法有效体现智能座舱的科技感，同时，车载系统预设的界面场景有限，通常不能满足用户的喜好，难以满足用户的个性化需求，用户也无法获取到更为丰富的使用体验。

针对现有的车辆显示界面难以满足用户的个性化需求的问题，本申请旨在提供一种车载场景生成方法，基于车辆采集的场景描述信息，利用服务器强大的算力和推理能力，构建出符合用户喜好的目标三维场景资源，并通过车辆进行展示，使得用户仅需向车辆描述心目中的场景，便可使车辆展示出符合用户喜好的三维场景，不仅可以有效满足用户的个性化需求，还能有效提高车辆座舱的智能化水平，提升用户体验。

参照图1，示出了本申请一种车载场景生成方法，运用于服务器，该方法可以包括以下步骤：

S101：获取车辆上传的场景描述信息。

需要说明的是，场景描述信息包括用户针对心目中的理想场景的描述信息以及该用户的用户特征信息，该场景描述信息用于指示服务器生成场景描述信息对应的目标三维场景资源。

在具体实现中，用户可以通过多种方式向车辆输入场景描述信息。示例性的，场景描述信息可以为用户语音信息，由于用户语音信息既包含场景的描述信息又包含该用户的用户特征信息(如声纹特征)，因此，用户可以直接通过语音向车辆描述心目中的场景；场景描述信息还可以为文本信息和用户图像信息，其中，文本信息包含场景的描述信息，用户图像信息则包含了用户特征信息(如人体特征)，因此，可以通过在用户向车辆输入文本信息的过程中采集用户图像信息，进而得到用户的场景描述信息。

在本实施方式中，为实现对文本信息和用户图像信息的采集，车机系统设置了专门的文本信息输入入口，该文本信息输入入口可以为预设的物理按键，也可以是车载显示屏上设置的虚拟按键。用户可以通过点击文本信息输入入口，便可在车载显示屏呈现文本输入窗口，用户便可通过文本输入窗口输入用于描述心中场景的文本信息，而在用户通过点击文本信息输入入口时，将会激活车内摄像头采集用户图像信息，进而在检测到用户完成文本信息的输入后，例如检测到用户点击预设的输入完成按钮后，车辆将会把采集得到的文本信息和用户图像信息上传至服务器进行分析处理。

在本实施方式中，用实现对用户语音信息的采集，车辆座舱内配置有麦克风等录音设备。用户在激活语音识别系统后，可以通过自然语言描述心中所想的车载场景，麦克风则会将用户语音信息进行录制，并在录制完毕后，将用户语音信息以音频文件的方式上传至服务器，由服务器基于用户语音信息，实现对目标三维场景构建。

在具体实现中，可以通过多种方式实现对语音信息的录制。示例性的，在激活语音识别系统后，驾驶员可以通过直接发出包含触发关键词的语音指令，或触发预先配置的物理按钮，或触发显示屏上的虚拟按钮，控制录音设备进行录制。

在本实施方式中，为提高服务器对用户语音信息识别准确性，在将用户语音信息上传至服务器之前，还可以通过车辆对用户语音信息进行预处理，具体可以包括去除噪声和调整音量等处理，以达到降噪和提升人声音量的目标。

在本实施方式中，利用服务器实现对场景描述信息的分析处理以及目标三维场景的推理和构建，可以有效减轻车辆的算力压力，避免占用较多的车辆资源，影响车辆的正常使用。需要说明的是，在车辆本身算力充足的情况下，本实施方式的执行主体可以为车辆，以在车辆本地实现对目标三维场景的构建。

S102：基于场景描述信息，确定场景属性和用户属性。

在本实施方式中，在场景描述信息为用户语音信息的情况下，服务器可以识别得到用户语音信息对应的文本数据，该文本数据能够直观反映场景属性；同时服务器还可以对用户语音信息进行特征提取，识别得到用户的声纹特征，该声纹特征能够直观反映用户属性。

在本实施方式中，在场景描述信息为文本信息和用户图像信息的采集的情况下，服务器则可以直接在文本信息中提取得到场景属性，同时根据用户图像信息，识别得到用户属性。在具体实现中，可以基于用户图像信息，识别得到用户的面部特征、衣着特征和发型特征，进而基于面部特征、衣着特征和发型特征，确定用户属性。

需要说明的是，用户属性可以有效反映不同用户对三维场景的偏好情况，可以但不限于包括情感属性、性别属性、年龄属性和/或地方文化属性。也就是说，在场景属性相同的情况下(即在用户语音信息所表达的语音内容相同的情况下，或者，在用户输入的文本信息相同的情况下)，，基于用户属性，可以实现对三维场景的差异化表达，进而满足不同用户的个性化需求。

S103：基于场景属性和用户属性，确定至少一个场景元素以及至少一个场景元素各自对应的描述信息。

在本实施方式中，服务器可以根据场景属性，可以确定待构建的目标三维场景的整体框架和必要的场景元素，而根据用户属性，则可以推理出用户对于场景的风格偏好，进而在必要的场景元素的基础上，生成更多符合用户喜好的场景元素，并为所有的场景元素添加各自对应的描述信息。

需要说明的是，场景元素的描述信息可以理解为场景元素的设计参数。示例性的，场景元素为“车辆”时，“车辆”的对应的描述信息则用于描述该“车辆”的外观形状；场景元素为“草地”时，“草地”的对应的描述信息则用于描述该“草地”的颜色特征；场景元素为“天气”时，“天气”的对应的描述信息则用于描述该“天气”的具体类别(如晴天、雨天、雪天或阴天等)和环境温度。

在具体实现中，可以采用GPT(Generative Pre－trained Transformer，生成式预训练模型)模型的语义理解能力，实现对至少一个场景元素以及至少一个场景元素各自对应的描述信息的识别。

S104：基于至少一个场景元素以及至少一个场景元素各自对应的描述信息，生成目标三维场景资源。

在本实施方式中，在获取到至少一个场景元素以及至少一个场景元素各自对应的描述信息之后，可以基于深度学习的图像生成技术，实现对目标三维场景的构建。

需要说明的是，基于深度学习的图像生成技术是指使用神经网络模型来生成新的图像。基于对大量样本图像的学习，通过训练神经网络来捕获输入图像的特征和结构，并生成与之相似的新图像。可以但不限于采用GAN(Generative Adversarial Network，生成对抗网络)、VAE(Variational AutoEncoder，变分自编码器)和PixelCNN(PixelConvolutionalNeuralNetworks，卷积神经网络)。其中，GAN可以生成高质量的图像，而VAE可用于学习潜在表示并生成类似的图像，PixelCNN则可以同时进行生成和推理。

S105：将目标三维场景资源发送给车辆，以使车辆展示目标三维场景。

在本实施方式中，服务器在完成对目标三维场景的构建后，将会把目标三维场景打包生成目标三维场景资源发送给车辆，车辆在获取到该目标三维场景资源之后，可以利用车机系统配置的3D引擎对目标三维场景资源进行解析，并将解析得到的目标三维场景在车载显示屏上进行展示。

在本实施方式中，用户仅需通过语音或者输入文字等方式向车辆描述心目中的场景，车辆便可将场景描述信息上传至服务器，利用服务器强大的算力和推理能力，快速识别出目标三维场景中满足用户喜好的场景元素以及各个场景元素各自对应的描述信息，进而构建出相应的目标三维场景，并以目标三维场景资源发送给车辆，车辆在解析得到目标三维场景后，便可直接在车载显示屏上展示目标三维场景，不仅可以有效满足用户的个性化需求，还能有效提高车辆座舱的智能化水平，提升用户体验。

在一个可行的实施方式中，在场景描述信息为用户语音信息的情况下，S102具体可以包括以下步骤：

S102－1：将用户语音信息输入经过预训练的语音识别模型，输出得到用户语音信息对应的原始文本数据和声纹特征。

在本实施方式中，服务器在获取到用户语音信息后，可以利用语音识别模型，可以从用户语音信息对应的音频信息中提取得到用户的声纹特征，并将音频文件转换为原始文本数据。

S102－2：基于原始文本数据，确定场景属性。

在本实施方式中，原始文本数据即为用户语音信息对应的语音内容，通过将音频文件转换为原始文本数据，可以实现对场景属性的提取。

在具体实现中，在获取到原始文本数据后，可以对原始文本数据进行后处理，得到目标文本数据；从目标文本数据中提取场景关键词，并基于场景关键词，确定场景属性。

示例性的，基于用户语音信息，识别得到的目标文本数据为“我想要一个关于鲜花的春天的3D场景”，则场景关键词可以包括“鲜花”、“春天”和“3D场景”。

需要说明的是，后处理具体可以包括纠错处理和断句处理。在语音识别模型的识别结果的基础进行后处理，可以进一步提高目标文本数据的识别准确性。

S102－3：基于声纹特征，确定用户属性。

在本实施方式中，声纹特征包括音调特征、语速特征、语调特征、频率特征和/或口音特征；用户属性包括情感属性、性别属性、年龄属性和/或地方文化属性。

在本实施方式中，通过声纹特征可以准确识别用户的情感属性、性别属性、年龄属性和/或地方文化属性。下面详细说明声纹特征与用户属性之间的关联：

音调特征：指声音的高低变化，通常用音高来表示。通过音调的变化可以判断说话者的情感状态，如高兴、悲伤、惊讶等。此外，不同的语言和方言也有不同的音调特点，通过音调可以初步判断说话者的口音。

语速特征：指说话的速度，通常用每分钟说话的字数来表示。语速快的人通常表现出紧张、兴奋、急躁等情感状态，而语速慢的人则表现出冷静、沉着等情感状态。

语调特征：指说话时声音的起伏变化，通常用升降调、平调、连读等来表示。不同的语言和方言有不同的语调特点，通过语调可以判断说话者的口音和语言习惯。

频率特征：指声波的振动频率，通常用赫兹(Hz)来表示。男性的声音频率一般在85－180Hz之间，女性的声音频率一般在165－255Hz之间，儿童的声音频率则更高。因此，通过声音的频率可以初步判断说话者的性别和年龄。

基于以上关联，在具体实现中，S102－3具体可以包括以下子步骤：

S102－3－1：基于音调特征、语速特征和语调特征，确定情感属性。

在本实施方式中，可以通过分析用户的音调特征、语速特征和语调特征，识别情感属性。例如，高亢、激动的音调和快速的语速通常表明说话者充满情感。

需要说明的是，情感属性表示用户的情感状态，包括但不限于高兴、生气、愤怒、悲伤和平静等情感状态。

S102－3－2：基于频率特征和音调特征，确定性别属性和年龄属性

在本实施方式中，可以通过分析用户的频率特征和音调特征来识别用户的性别和年龄。例如，男性和女性的声音频率和音调有明显的区别，在声学特征上，男性的声音通常更低沉、更有力，而女性的声音通常更高亢、更柔和；年龄较大的人的声音通常会变得低沉，而年龄较小的人的声音则通常更高亢。

S102－3－3：基于口音特征，确定地方文化属性。

在本实施方式中，口音是由用户所在地的语音规则和文化影响所形成的，因此，可以通过分析用户的口音特征来识别用户的地方文化属性。地方文化属性具体包括用户的地理位置和文化背景。

在一个可行的实施方式中，S103具体可以包括以下步骤：

S103－1：将场景属性和用户属性输入经过预训练的自然语言处理模型，输出得到至少一个场景元素以及至少一个场景元素各自对应的描述信息。

在本实施方式中场景元素包括场景类型、物体类型、物体属性、光源属性、动作属性、天气条件和氛围效果中的一个或者多个。

在具体实现中，可以采用GPT(Generative Pre－trained Transformer，生成式预训练模型)模型，实现对至少一个场景元素以及至少一个场景元素各自对应的描述信息的识别。

需要说明的是，GPT模型是OpenAI开发的一类自然语言处理模型。这些模型使用大量文本数据进行预训练，以学习语言结构和上下文，使得它们能够在各种NLP(NaturalLanguage Processing，自然语言处理)任务中表现出色，例如文本生成，翻译，问答等。GPT模型是基于Transformer架构的，包括多个堆叠的自注意力机制层，并且可以通过微调适应新领域的任务。

在本实施方式中，可以按照以下步骤，针对车辆座舱的车载三维场景对GPT模型进行针对性训练，以达到满足汽车座舱使用场景及辅助满足用户需求的能力：

1)准备数据：准备用于训练和评估模型的数据集。

2)模型选择：选择适合任务的GPT模型，例如GPT－2或GPT－3等。

3)数据预处理：对数据集进行必要的预处理，例如分词、去除停用词、转换为向量表示等。

4)模型训练：使用准备好的数据集对GPT模型进行训练，并根据需要对模型进行微调。

5)模型评估：使用测试数据集评估模型性能，并根据需要进行修改和改进。

6)模型应用：将GPT模型应用于实际场景中的自然语言处理任务，例如文本生成、情感分析、机器翻译等。

7)模型优化：基于模型应用的应用效果，可以通过增加数据、微调参数、重新训练等方式对GPT模型进行优化。

需要说明的是，为使GPT模型能够准确描述三维场景，步骤1)中的数据集需要涵盖表1所示的场景元素以及至少一个场景元素各自对应的描述信息。

表1场景元素及其对应描述信息的示例表

在本实施方式中，基于上述数据集训练得到的GPT模型，能够具备以下的能力：

三维几何表达能力：需要能够理解和处理3D空间中的几何结构和关系，包括点、线、面、体、坐标系等。

视觉语言表达能力：需要能够识别和生成与视觉相关的自然语言，包括颜色、形状、大小、位置、方向等属性。

场景上下文理解能力：需要能够理解场景的整体结构和布局，包括物体之间的关系、光照、材质等。

长程依赖建模能力：需要能够处理长文本序列，以捕捉复杂的上下文信息和语义关系。

可控生成能力：需要能够根据用户输入或指令，生成符合要求的3D场景描述，比如指定物体类型、位置、数量等。

在本实施方式中，经过以上训练得到的GPT模型能够准确描述待构建的目标三维场景中的各个场景元素以及各个场景元素各自对应的描述信息，进而，基于各个场景元素以及各个场景元素各自对应的描述信息，能够准确生成相应的目标三维场景。

在本实施方式中，GPT模型能够综合考虑用户属性中的情感属性、性别属性、年龄属性和/或地方文化属性，实现对目标三维场景的差异化描述，进而满足不同用户的个性化需求。

具体而言，可以根据年龄属性，实现以下的差异化描述：

儿童(0－12岁)：儿童喜欢鲜艳、生动、有趣的场景，这些场景通常包含他们感兴趣的玩具、动物、植物等。此外，他们也会喜欢自己和家人、朋友一起玩耍的场景，这些场景的氛围效果通常是快乐、温馨、亲密的。

青少年(13－18岁)：青少年喜欢有关自己生活的场景，例如他们的朋友、家庭、学校、运动、音乐等。此外，他们也可能会喜欢拍摄艺术性场景，来表现自己的审美和个性。

年轻人(19－30岁)：年轻人喜欢时尚、潮流、自然、运动、旅行、美食等各种有趣、有意义的场景。此外，他们也会喜欢自己和朋友、家人的合影场景，表达亲密和友谊的情感。

中年人(31－50岁)：中年人喜欢家庭、孩子、夫妻、亲友等生活中的场景，以表现他们的情感和人生阅历。

老年人(51岁以上)：老年人喜欢家庭、亲友、旅行、自然等场景，这些场景可以帮助他们回忆过去，感受生活的乐趣。

具体而言，可以根据性别属性，实现以下的差异化描述：

女性：女性通常喜欢生活中的美好瞬间，例如家人、孩子、宠物、花草等，以及自己的时尚、化妆和艺术照。女性对于色彩和光线也比较敏感，她们更喜欢明亮、柔和、温馨的色调和光线，比如粉色、紫色、粉红色等。此外，女性还喜欢美食、旅行、美景等各种有趣、美好的场景，以表达自己的兴趣和感受。

男性：男性通常喜欢与自己相关的事物，例如运动、汽车、机械、科技等，或者是自己的自拍、专业形象照和艺术照。男性对于的色彩和光线比较喜欢简洁、明亮、鲜艳的风格，比如蓝色、绿色、红色等。此外，男性还喜欢旅行、自然、美食等各种有趣、刺激的照片，以表达自己的爱好和冒险精神。

具体而言，可以根据情感属性，实现以下的差异化描述：

高兴的情绪：当人处于高兴的情绪状态下，喜欢看到充满生气勃勃、美好、富有生命力的场景，例如鲜艳的颜色、光彩夺目的风景、生动的动物等。同时也更喜欢表现出友好和幸福的场景和人物，例如笑容、欢乐、团聚等。

生气的情绪：当人处于生气的情绪状态下，喜欢看到充满激情、动感、矛盾的场景，例如黑白照片、高对比度照片、模糊的照片等。此外，还喜欢表现出冲突和反叛的场景和人物。

平静的情绪：当人处于平静的情绪状态下，喜欢看到简约、安静、有内涵的场景，例如抽象艺术、黑白照片、安静的风景等。同时，也喜欢表现出内心丰富和思考的场景和人物，例如孤独、安静、内省等。

具体而言，可以根据地方文化属性，实现以下的差异化描述：

同一个国家中不同地区的人对于场景的喜好和风格也有所不同，例如：

北方地区：北方地区通常喜欢看到充满阳刚、豪迈、壮丽的场景，例如雄浑的山川、热烈的节日、英武的人物等。

南方地区：南方地区通常喜欢看到温婉、细腻、含蓄、文艺的场景，例如柔美的山水、优美的歌舞、古朴的建筑等。

西部地区：西部地区通常喜欢看到广袤、自由、奔放的场景，例如大漠孤烟、狂野的动物、豪迈的人物等。

东部地区：东部地区通常喜欢看到现代、时尚、自由、开放的场景，例如繁华的都市、时尚的时装、创新的科技等。

在本实施方式中，GPT模型基于其强大的自然语言理解能力，能够在场景属性的基础上，结合用户的用户属性，准确得到满足用户偏好的至少一个场景元素以及至少一个场景元素各自对应的描述信息。

示例性的，参照表2，不同用户输入相同的用户语音信息或者文本信息，可以得到不同的目标三维场景，其中，用户语音信息或者文本信息为：我想要一个春天的3D场景。

表2不同用户的目标三维场景生成示例图

在一个可行的实施方式中，S104具体可以包括以下步骤：

S104－1：对至少一个场景元素以及至少一个场景元素各自对应的描述信息进行编码操作，得到文本向量。

在本实施方式中，由于至少一个场景元素以及至少一个场景元素各自对应的描述信息均为文本信息，因此，需要首先对其进行编码操作，以将文本转化为数字形式的文本向量。

在具体实现中，可以采用One－Hot编码、词袋模型等方法将文本转化为数字形式的文本向量。

S104－2：将文本向量输入经过预训练的文本特征提取模型，输出得到文本语义特征。

在本实施方式中，文本特征提取模型可以在LSTM(Long Short－Term Memory，长短期记忆人工神经网络)、GRU(Gate Recurrent Unit，循环神经网络)等神经网络模型的基础上训练得到。

S104－3：将文本语义特征输入经过预训练的图像生成模型，输出得到目标三维场景资源。

在本实施方式中，图像生成模型可以在GAN、VAE和PixelCNN等神经网络模型的基础上训练得到。

在具体实现中，可以将获得的文本语义特征与另一个输入(通常是随机噪声的向量)，一起输入给图像生成模型，以使图像生成模型能够生成相应的三维图像，该三维图像即为待向用户展示的目标三维场景。

在本实施方式中，在得到目标三维场景之后，便可将其打包为目标三维场景资源发送给车辆，以使车辆能够通过3D引擎进行解析，并通过车载显示屏的显示界面展示该目标三维场景。

第二方面，基于相同发明构思，参照图2，本申请实施例提供了另外一种车载场景生成方法，运用于车辆，该方法包括：

S201：获取场景描述信息，并将场景描述信息上传至服务器，以使服务器基于场景描述信息，确定场景属性和用户属性；基于场景属性和用户属性，确定至少一个场景元素以及至少一个场景元素各自对应的描述信息；基于至少一个场景元素以及至少一个场景元素各自对应的描述信息，生成目标三维场景资源，并将目标三维场景资源发送给车辆；

S202：接收目标三维场景资源，并展示目标三维场景。

需要说明的是，本申请实施例的车载场景生成方法的具体实施方式参照前述本申请实施例第一方面提出的车载场景生成方法的具体实施方式，在此不再赘述。

第三方面，基于相同发明构思，参照图3，本申请实施例提供了一种车载场景生成装置300，运用于服务器，该车载场景生成装置300包括：

语音获取模块301，用于获取车辆上传的场景描述信息；

属性确定模块302，用于基于场景描述信息，确定场景属性和用户属性；

场景确定模块303，用于基于场景属性和用户属性，确定至少一个场景元素以及至少一个场景元素各自对应的描述信息；

资源生成模块304，用于基于至少一个场景元素以及至少一个场景元素各自对应的描述信息，生成目标三维场景资源；

资源发送模块305，用于将目标三维场景资源发送给车辆，以使车辆展示目标三维场景。

在本申请一实施例中，场景描述信息包括用户语音信息，属性确定模块302包括：

语音识别子模块，用于将用户语音信息输入经过预训练的语音识别模型，输出得到用户语音信息对应的原始文本数据和声纹特征；

场景属性确定子模块，用于基于原始文本数据，确定场景属性；

用户属性确定子模块，用于基于声纹特征，确定用户属性。

在本申请一实施例中，场景属性确定子模块包括：

后处理单元，用于对原始文本数据进行后处理，得到目标文本数据；后处理包括纠错处理和断句处理；

提取单元，用于从目标文本数据中提取场景关键词，并基于场景关键词，确定场景属性。

在本申请一实施例中，声纹特征包括音调特征、语速特征、语调特征、频率特征和/或口音特征，用户属性包括情感属性、性别属性、年龄属性和/或地方文化属性；用户属性确定子模块包括：

情感属性确定单元，用于基于音调特征、语速特征和语调特征，确定情感属性；

性别年龄确定单元，用于基于频率特征和音调特征，确定性别属性和年龄属性；

地方文化属性确定单元，用于基于口音特征，确定地方文化属性。

在本申请一实施例中，场景确定模块303包括：

自然语言处理子模块，用于将场景属性和用户属性输入经过预训练的自然语言处理模型，输出得到至少一个场景元素以及至少一个场景元素各自对应的描述信息；其中，场景元素包括场景类型、物体类型、物体属性、光源属性、动作属性、天气条件和氛围效果中的一个或者多个。

在本申请一实施例中，资源生成模块304包括：

文本编码子模块，用于将文本向量输入经过预训练的文本特征提取模型，输出得到文本语义特征；

语义提取子模块，用于将文本向量输入经过预训练的文本特征提取模型，输出得到文本语义特征；

图像生成子模块，用于将文本语义特征输入经过预训练的图像生成模型，输出得到目标三维场景资源。

需要说明的是，本申请实施例的车载场景生成装置300的具体实施方式参照前述本申请实施例第一方面提出的车载场景生成方法的具体实施方式，在此不再赘述。

第四方面，基于相同发明构思，参照图4，本申请实施例提供了另外一种车载场景生成装置400，运用于车辆，车载场景生成装置400包括：

语音上传模块401，用于获取场景描述信息，并将场景描述信息上传至服务器，以使服务器基于场景描述信息，确定场景属性和用户属性；基于场景属性和用户属性，确定至少一个场景元素以及至少一个场景元素各自对应的描述信息；基于至少一个场景元素以及至少一个场景元素各自对应的描述信息，生成目标三维场景资源；

界面展示模块402，用于接收目标三维场景资源，并展示目标三维场景。

需要说明的是，本申请实施例的另外一种车载场景生成装置400的具体实施方式参照前述本申请实施例第二方面提出的车载场景生成方法的具体实施方式，在此不再赘述。

第五方面，基于相同发明构思，参照图5，本申请实施例提供了一种车载场景生成系统500，系统包括车辆501和服务器502；其中，

车辆501，用于获取场景描述信息，并将场景描述信息上传至服务器502；

服务器502，用于基于场景描述信息，确定场景属性和用户属性；基于场景属性和用户属性，确定至少一个场景元素以及至少一个场景元素各自对应的描述信息；并基于至少一个场景元素以及至少一个场景元素各自对应的描述信息，生成目标三维场景资源；

车辆501还用于接收目标三维场景资源，并展示目标三维场景。

需要说明的是，本申请实施例的车载场景生成系统500的具体实施方式参照前述本申请实施例第一方面提出的车载场景生成方法的具体实施方式以及本申请实施例第二方面提出的另外一种车载场景生成方法的具体实施方式，在此不再赘述。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD－ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种车载场景生成方法、装置和系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种车载场景生成方法，其特征在于，运用于服务器，所述方法包括：

获取车辆上传的场景描述信息；

基于所述场景描述信息，确定场景属性和用户属性；

2.根据权利要求1所述的车载场景生成方法，其特征在于，所述场景描述信息包括用户语音信息；

基于所述原始文本数据，确定所述场景属性；

基于所述声纹特征，确定所述用户属性。

3.根据权利要求2所述的车载场景生成方法，其特征在于，基于所述原始文本数据，确定所述场景属性的步骤，包括，

对所述原始文本数据进行后处理，得到目标文本数据；；所述后处理包括纠错处理和断句处理；

4.根据权利要求2所述的车载场景生成方法，其特征在于，所述声纹特征包括音调特征、语速特征、语调特征、频率特征和/或口音特征，所述用户属性包括情感属性、性别属性、年龄属性和/或地方文化属性；

基于所述声纹特征，确定所述用户属性的步骤，包括：：

基于所述口音特征，确定所述地方文化属性。

5.根据权利要求1所述的车载场景生成方法，其特征在于，基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息的步骤，包括：

6.根据权利要求5所述的车载场景生成方法，其特征在于，基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成目标三维场景资源的步骤，包括：

7.一种车载场景生成方法，其特征在于，运用于车辆，，所述方法包括：

接收所述目标三维场景资源，并展示所述目标三维场景。

8.一种车载场景生成装置，其特征在于，运用于服务器，所述装置包括：

语音获取模块，用于获取车辆上传的场景描述信息；

9.一种车载场景生成装置，其特征在于，运用于车辆，，所述装置包括：

10.一种车载场景生成系统，其特征在于，所述系统包括车辆和服务器；其中，

所述服务器，用于基于所述场景描述信息，确定场景属性和用户属性；基于所述场景属性和所述用户属性，确定至少一个场景元素以及所述至少一个场景元素各自对应的描述信息；并基于所述至少一个场景元素以及所述至少一个场景元素各自对应的描述信息，生成目标三维场景资源；