CN111736700A

CN111736700A - 基于数字人的车舱交互方法、装置及车辆

Info

Publication number: CN111736700A
Application number: CN202010583637.3A
Authority: CN
Inventors: 曾彬; 周群艳; 李轲; 吴阳平; 许亮; 郑世静; 伍俊
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-10-02

Abstract

本公开实施例提供一种基于数字人的车舱交互方法、装置及车辆，获取车舱内的活体的状态信息，确定与所述状态信息相匹配的动作信息，并根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画。

Description

基于数字人的车舱交互方法、装置及车辆

技术领域

本公开涉及计算机视觉技术领域，尤其涉及基于数字人的车舱交互方法、装置及车辆。

背景技术

目前，许多车辆上会安装监控产品，用来与车上的活体进行交互。然而，传统的监控产品的交互方式比较生硬，缺少人性化。

发明内容

本公开提供一种基于数字人的车舱交互方法、装置及车辆。

根据本公开实施例的第一方面，提供一种基于数字人的车舱交互方法，所述方法包括：获取车舱内乘坐的活体的状态信息；确定与所述状态信息相匹配的动作信息；根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画。

在一些实施例中，所述根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画，包括：确定与所述状态信息相匹配的语音信息；根据所述语音信息获取对应的语音，所述语音中包括时间戳；在播放所述语音的同时，根据所述动作信息生成并显示所述数字人在所述时间戳对应的时刻执行所述动作的动画。

在一些实施例中，所述动作中包括多个子动作，每个子动作与所述语音中的一个音素相匹配，所述时间戳包括每个音素的时间戳；所述根据所述动作信息生成并显示所述数字人在所述时间戳对应的时刻执行所述动作的动画，包括：根据每个音素的时间戳，确定与所述每个音素相匹配的子动作的执行时间；根据所述动作信息，生成并显示所述数字人在每个音素的时间戳执行与所述每个音素相匹配的子动作的动画。

在一些实施例中，所述根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画，包括：从动作模型库中调用与所述动作信息对应的至少一帧数字人的动作切片；将所述至少一帧数字人的动作切片中的每帧数字人的动作切片依次显示在所述显示设备上。

在一些实施例中，所述活体的状态信息包括所述活体的第一状态信息，所述获取车舱内乘坐的活体的状态信息，包括：采集车舱内后排的监控视频；对所述监控视频进行活体检测并对检测出的活体进行状态分析，得到所述活体的第一状态信息。

在一些实施例中，所述监控视频由安装在所述车舱内的后视镜上，且镜头朝向车舱后排的视频采集装置获取。

在一些实施例中，所述第一状态信息包括以下至少之一：所述活体的类别信息、身份信息、情绪信息、表情信息、肢体动作信息、座椅落座信息、安全带佩戴信息；和/或，所述活体包括以下至少之一：驾驶员、副驾驶员、儿童、老人、宠物、后排乘车人。

在一些实施例中，所述活体的状态信息包括所述活体的第一状态信息和第二状态信息，所述第一状态信息基于车舱内的监控视频获取；所述获取车舱内的活体的状态信息，还包括：获取所述活体携带的智能设备发送的第二状态信息；所述确定与所述状态信息相匹配的动作信息，包括：确定与所述第一状态信息和所述第二状态信息均匹配的动作信息。

在一些实施例中，所述第二状态信息包括以下至少任一：健康状况信息和神经系统状态信息。

在一些实施例中，所述获取车舱内乘坐的活体的状态信息，包括：将所述车舱内的监控视频输入预先训练的神经网络；根据所述神经网络的输出结果确定所述活体的状态信息。

在一些实施例中，所述方法还包括：在根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画之前，生成所述数字人的形象。

在一些实施例中，所述生成所述数字人的形象，包括：根据所述活体的状态信息生成所述数字人的形象；或者根据预定的数字人的形象模板生成所述数字人的形象。

在一些实施例中，所述活体的属性信息包括以下至少任一：年龄、性别、五官、体型、服饰、发型和肤色。

在一些实施例中，所述方法还包括：根据所述状态信息控制车载设备的运行状态。

在一些实施例中，所述确定与所述状态信息相匹配的动作信息，包括：获取车辆的行驶状态；确定与所述车辆的行驶状态和所述状态信息分别匹配的动作信息。

根据本公开实施例的第二方面，提供一种基于数字人的车舱交互装置，所述装置包括：获取模块，用于获取车舱内乘坐的活体的状态信息；确定模块，用于确定与所述状态信息相匹配的动作信息；显示模块，用于根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画。

在一些实施例中，所述显示模块包括：第一确定单元，用于确定与所述状态信息相匹配的语音信息；第一获取单元，用于根据所述语音信息获取对应的语音，所述语音中包括时间戳；第一显示单元，用于在播放所述语音的同时，根据所述动作信息生成并显示所述数字人在所述时间戳对应的时刻执行所述动作的动画。

在一些实施例中，所述动作中包括多个子动作，每个子动作与所述语音中的一个音素相匹配，所述时间戳包括每个音素的时间戳；所述第一显示单元包括：确定子单元，用于根据每个音素的时间戳，确定与所述每个音素相匹配的子动作的执行时间；显示子单元，用于根据所述动作信息，生成并显示所述数字人在每个音素的时间戳执行与所述每个音素相匹配的子动作的动画。

在一些实施例中，所述显示模块包括：调用单元，用于从动作模型库中调用与所述动作信息对应的至少一帧数字人的动作切片；第二显示单元，用于将所述至少一帧数字人的动作切片中的每帧数字人的动作切片依次显示在所述显示设备上。

在一些实施例中，所述活体的状态信息包括所述活体的第一状态信息，所述获取模块包括：采集单元，用于采集车舱内后排的监控视频；检测分析单元，用于对所述监控视频进行活体检测并对检测出的活体进行状态分析，得到所述活体的第一状态信息。

在一些实施例中，所述活体的状态信息包括所述活体的第一状态信息和第二状态信息，所述第一状态信息基于车舱内的监控视频获取；所述获取模块还用于：获取所述活体携带的智能设备发送的第二状态信息；所述确定模块用于：确定与所述第一状态信息和所述第二状态信息均匹配的动作信息。

在一些实施例中，所述获取模块包括：输入单元，用于将所述车舱内的监控视频输入预先训练的神经网络；第二确定单元，用于根据所述神经网络的输出结果确定所述活体的状态信息。

在一些实施例中，所述装置还包括：生成模块，用于在根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画之前，生成所述数字人的形象。

在一些实施例中，所述生成模块用于：根据所述活体的状态信息生成所述数字人的形象；或者根据预定的数字人的形象模板生成所述数字人的形象。

在一些实施例中，所述装置还包括：控制模块，用于根据所述状态信息控制车载设备的运行状态。

在一些实施例中，所述确定模块用于：获取车辆的行驶状态；确定与所述车辆的行驶状态和所述状态信息分别匹配的动作信息。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的方法。

根据本公开实施例的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现任一实施例所述的方法。

根据本公开实施例的第五方面，提供一种车辆，所述车辆的车舱内设置有显示设备、监控系统、以及本公开任一实施例所述的基于数字人的车舱交互装置或本公开任一实施例所述的计算机设备。

本公开实施例通过获取车舱内的活体的状态信息，确定与所述状态信息相匹配的动作信息，并根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画，能够根据车舱内活体的状态信息，显示不同动作的数字人，从而实现了拟人化的交互，交互过更加自然，提高了活体对交互过程中的反馈信息的接受程度，从而提高了车辆驾驶过程中活体的安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的基于数字人的车舱交互方法的流程图。

图2A是本公开实施例的数字人的示意图。

图2B是本公开另一些实施例的数字人的示意图。

图3是本公开实施例的基于数字人的车舱交互方式的示意图。

图4是本公开实施例的基于数字人的车舱交互装置的框图。

图5是本公开实施例的计算机设备的结构示意图。

图6A和图6B分别是本公开实施例的车辆的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

随着私家车的普及和智能车舱的快速发展，行车过程中的安全性受到了广泛关注。一种提高安全性的方式是在车舱内设置监控系统来对车舱内活体进行监控，并根据监控结果输出交互信息，以便在必要的情况下及时对车舱内的活体做出提醒。传统的交互方式一般是通过车舱内的音频播放设备输出语音提示信息，或者在输出语音提示信息的同时在车辆的显示设备上同时输出文字提示信息。然而，这种交互方式难免会给人一种和机器互动的生硬感，有时容易导致活体对交互信息的接受程度较低，从而降低了车辆驾驶过程中活体的安全性。

基于此，本公开实施例提供了一种基于数字人的车舱交互方法，如图1所示，所述方法可包括：

步骤101：获取车舱内乘坐的活体的状态信息；

步骤102：确定与所述状态信息相匹配的动作信息；

步骤103：根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画。

在步骤101中，所述车辆可以是私家车、校车、大巴等各种类型的车辆。为了方便描述，下面以私家车为例，对本公开实施例的方案进行描述。所述活体可以包括但不限于驾驶员、副驾驶员、儿童、老人、宠物、后排乘车人中的至少一者。根据实际需要，可以与不同的活体进行交互，从而满足不同场景的交互需求。

例如，在乘车过程中，后排乘坐的活体(例如，儿童等后排乘车人或者宠物等)存在一定的安全隐患，例如，儿童可能会解开安全带，宠物可能会离开座椅。然而，驾驶员在行车过程中需要专注于驾驶，对车舱内后排的情况无法兼顾。为了提高后排活体在乘车过程中的安全性，可以通过数字人与车舱内后排乘坐的活体进行交互。因此，在一些实施例中，所述活体为车舱内后排乘坐的活体。通过数字人与后排乘坐的活体进行交互，能够提高乘坐的活体对交互过程中的反馈信息的接受程度，从而提高乘坐的活体的安全性，使驾驶员能够在行车过程中专注于驾驶，无需投入过多精力兼顾后排情况。

在一些实施例中，所述状态信息可包括所述活体的第一状态信息，例如，所述活体的类别信息、身份信息、属性信息、情绪信息、表情信息、肢体动作信息、座椅落座信息、安全带佩戴信息中的至少一者。

其中，所述类别信息用于表示所述活体的类别，所述类别可以包括人和/或动物。所述身份信息可包括所述活体的标识信息，用于唯一标识每个活体。所述属性信息用于表示所述活体的特征属性，可以包括但不限于年龄、性别、五官、体型、服饰、发型和肤色中的至少一者。所述情绪信息用于表示所述活体的情绪类别，所述情绪类别可以包括但不限于高兴、难过、生气、害羞、惊讶、兴奋、恐惧、愤怒、平静等至少一种类别。所述表情信息用于表征所述活体的面部表情，所述面部表情可以包括但不限于微笑、噘嘴、哭泣、眯眼、扮鬼脸等至少一种。所述肢体动作信息用于表征所述活体执行的动作，例如，鼓掌、跺脚、开车门、将头或者手伸出车窗等至少一种。所述座椅落座信息用于表示所述活体是否离开座椅(例如，儿童座椅)。所述安全带佩戴信息用于表示所述活体是否系好安全带。

进一步地，所述活体的状态信息还可以包括所述活体的第二状态信息，例如，健康状况信息和神经系统状态信息中的至少一者。其中，所述健康状况信息用于表征所述活体的健康状况，例如，可以包括但不限于心率、血压、血脂、血糖等中的至少一者。所述神经系统状态信息用于表征所述活体的神经系统的兴奋程度，例如，所述活体是否困倦或者是否已睡着。在同时获取到第一状态信息和第二状态信息的情况下，所述动作信息为与所述第一状态信息和所述第二状态信息均匹配的动作信息。

通过获取不同的状态信息，能够确定所述活体不同方面的状态，获取到的状态信息的类别越多，所确定的所述活体的状态越全面和准确，从而使数字人所执行的动作越符合所述活体的状态，进而能够提高数字人的拟人化程度。

所述活体的状态信息可以基于各种方式获取，例如，可以基于车舱内的监控视频获取，或者可以基于车舱内的音频监控结果获取，又或者，可以从所述活体携带的智能设备处获取。还可以基于多种手段相结合的方式获取所述活体的状态信息。通过不同的方式来获取状态信息，能够增加获取到的状态信息的全面性和灵活性。根据不同的应用场景，可以选择不同的状态信息获取方式，从而有针对性地为不同的应用场景获取不同种类的状态信息。例如，在光线昏暗的场景下，可以基于车舱内的监控视频与音频监控结果共同获取所述活体的状态信息，从而提高状态信息的获取准确性。

在一些实施例中，可以在所述车舱内安装监控系统。根据实际应用场景的需要，所述监控系统可以对车舱内任意区域内的活体进行监控，例如，所述监控系统可以对驾驶座上的驾驶员进行监控；又例如，所述监控系统还可以对副驾驶座上的副驾驶员进行监控；再例如，所述监控系统还可以对车舱内后排的活体进行监控。或者，所述监控系统还可以对车舱内多个区域(例如，副驾驶座和后排)内的活体进行监控。

所述监控系统可以包括视觉监控系统和音频监控系统中的至少一者，所述视觉监控系统用于获取所述活体的视觉监控结果(例如，监控视频或者监控图像)。在一些实施例中，可以通过安装在所述车舱内的后视镜上，且镜头朝向车舱后排的视频采集装置获取监控视频。将视频采集装置安装在车舱内的后视镜上，使得视频采集装置的视野较宽，不易被车舱内的物体遮挡，从而能够采集到车舱后排的较为完整的监控视频。所述音频监控系统用于获取所述活体的音频监控结果，所述音频监控结果可包括所述活体发出的语音和/或所述活体执行动作(例如，开车门、系安全带、敲打车窗等至少一种动作)时发出的声音等。可以根据所述监控结果确定所述活体的第一状态信息。

在基于车舱内的监控视频获取所述活体的状态信息的情况下，可选地，可以将所述监控视频输入预先训练的神经网络，根据所述神经网络的输出结果确定所述活体的状态信息。可选地，还可以采用神经网络与其他算法(例如，人脸识别算法和/或骨骼关键点检测算法等)相结合的方式来确定所述活体的状态信息。可选地，还可以采用其他方式确定所述活体的状态信息，此处不再赘述。通过神经网络来获取活体的状态信息，能够提高所述状态信息的获取准确性。

所述神经网络可包括输入层、至少一个中间层和输出层，所述输入层、至少一个中间层和输出层均包括一个或多个神经元。其中，所述中间层通常是指位于输入层和输出层之间的层，如隐藏层等。在一个可选例子中，所述神经网络的中间层可以包括但不限于卷积层、ReLU(Rectified Linear Units，修正线性单元)层等中的至少一者，所述神经网络包含的中间层的层数越多，则网络越深。所述神经网络可以具体为深度神经网络或卷积神经网络。

或者可选地，可以采集车舱内后排的监控视频；对所述监控视频进行活体检测并对检测出的活体进行状态分析，得到所述活体的第一状态信息。基于监控视频一方面能够获取到较为全面的状态信息，另一方面由于监控视频中包括的多帧目标图像存在时间相关性，能够利用这种时间相关性来提高状态信息的获取准确性。例如，可以获取所述活体的监控视频，对所述监控视频进行人脸识别，基于人脸识别结果确定所述活体的身份信息。

又例如，可以基于监控视频识别所述活体的情绪信息。具体来说，可以从所述监控视频中获取至少一帧包括所述活体的目标图像；从所述目标图像中截取所述活体的脸部子图像。识别所述脸部子图像代表的人脸上的至少两个器官中每个器官的动作，例如，皱眉、瞪眼、嘴角上扬。基于识别到的所述每个器官的动作，确定所述脸部子图像代表的人脸上的情绪信息。识别所述每个器官的动作之前，还可以对脸部子图像进行图像预处理。具体来说，可以确定脸部子图像中关键点(例如，眼角、嘴角、眉头、眉尾、鼻子等)的位置信息；基于关键点的位置信息，对脸部子图像进行仿射变换，将脸部子图像中不同朝向的脸部子图像转换为正面朝向的脸部子图像；对正面朝向的脸部子图像进行归一化处理，得到处理后的脸部子图像。

又例如，可以从所述目标图像中截取活体的脸部子图像。基于所述脸部子图像，确定活体的左眼睁闭眼状态信息和右眼睁闭眼状态信息。在具体实施时，将脸部子图像输入一个训练好的神经网络中，根据该神经网络的输出结果确定活体的左眼睁闭眼状态信息和右眼睁闭眼状态信息。然后，基于活体的左眼睁闭眼状态信息和右眼睁闭眼状态信息，确定活体是否感到困倦或者是否已睡着。具体而言，可以基于连续多帧所述活体的目标图像对应的左眼睁闭眼状态信息和右眼睁闭眼状态信息，确定所述活体的闭眼累积时长；在所述闭眼累积时长大于预设阈值时，确定所述活体已睡着；在所述闭眼累积时长小于或等于预设阈值时，确定所述活体未睡着。

在基于车舱内的音频监控结果获取所述活体的状态信息的情况下，可以获取所述活体发出的语音，对所述语音进行语音识别，再基于语音识别结果确定所述活体的身份信息和/或情绪信息。

在从所述活体携带的智能设备处获取所述活体的状态信息的情况下，可以接收预先关联的智能设备采集的第二状态信息。所述智能设备可以是可穿戴设备，例如，智能手环、智能眼镜等，也可以是手持终端，例如，手机、平板电脑等。

在步骤102中，可以确定与所述状态信息相匹配的动作信息。在一些实施例中，可以确定每种动作信息与所述状态信息的匹配度，将匹配度最高的动作信息确定为与所述状态信息相匹配的动作信息。在所述状态信息中包括多种信息的情况下，可以分别确定同一动作信息与所述状态信息中各种信息的匹配度，然后根据各种信息对应的匹配度确定所述动作信息与所述状态信息的匹配度。例如，对各种信息对应的匹配度进行加权平均。在另一些实施例中，可以预先建立不同的状态信息与匹配的动作信息之间的映射关系，并根据所述映射关系确定所述相匹配的动作信息。

在步骤103中，在确定相匹配的动作信息之后，可以根据所述相匹配的动作信息生成并在所述车舱内的显示设备(例如，中控屏或者座椅背后的显示设备)上显示数字人执行相应动作的动画。所述数字人可以是通过软件生成，且可以在车舱内的显示设备上显示的虚拟形象。通过软件方式生成并显示数字人的方式成本较低，数字人的反应速度较快，后期维护成本较低，且便于更新和升级。

如图2A和2B所示，所述数字人的形象可以是卡通形象，也可以是基于所述活体的真实形象生成的3D形象，还可以是其他类型的形象。在一些实施例中，所述数字人的形象可以是固定形象，即，每次在显示设备上显示的数字人的形象都相同，例如，可以是男孩的形象，或者卡通人物(例如，哆啦A梦)的形象等。在另一些实施例中，所述数字人的形象也可以根据实际情况动态生成，即，在不同的情况下，所述显示设备上显示的数字人的形象可能不同。

可选地，可以根据活体的状态信息(例如，身份信息、情绪信息、属性信息中的至少一者)显示不同的数字人形象。例如，可以为张三显示张三对应的第一数字人形象，为李四显示李四对应的第二数字人形象。又例如，在所述活体的情绪为高兴的情况下，显示带有微笑表情和/或穿着鲜艳服装的数字人形象。又例如，在所述活体为儿童的情况下，显示儿童数字人形象；在所述活体为成年人的情况下，显示成年数字人形象。又例如，在所述活体为长发的情况下，显示长发的数字人形象；在所述活体为短发的情况下，显示短发的数字人形象。

在实际应用中，可以根据预定的数字人的形象模板生成所述数字人的形象。其中，所述形象模板可以由用户预先生成，或者也可以是从服务器接收到的。例如，在活体上车时，可以通过车上的摄像头拍摄活体的图像，或者接收用户终端发送的活体的图像，并根据所述活体的图像生成所述活体的形象模板。具体来说，可以对所述活体的图像进行属性检测，获取所述活体的属性，并基于所述活体的属性生成所述活体对应的数字人。还可以对已经生成的形象模板进行重新生成(例如，通过新的形象模板来替换已有的形象模板)或者部分编辑(例如，更改形象模板的发型)。生成形象模板时，可以自定义该形象模板的卡通化程度。

在显示数字人的动画时，可以根据实际情况调用相应的模板生成所述数字人的形象。所述模板可以是成年人的形象模板、儿童的形象模板或者宠物的形象模板等。在活体为成年人的情况下，可以调用成年人的形象模板；在活体为儿童的情况下，可以调用儿童的形象模板。进一步地，由于活体乘车时的状态信息与模板可能不一致，因此，在调用相应的模板之后，还可以根据所述活体的状态信息对所述数字人模板的属性信息进行调整，以使显示的动画中所述数字人的形象与所述活体的状态信息相一致。例如，根据活体的情绪调整数字人模板的表情和服饰。进一步地，还可以根据所述活体的状态信息对所述显示设备显示所述数字人时的显示界面进行调整。例如，在所述活体的情绪为高兴的情况下，将显示界面的背景颜色设置为明亮的颜色，和/或在显示界面上显示撒花效果。

通过上述方式生成并显示不同的数字人形象，能够在一定程度上使数字人的形象与活体相吻合，从而使活体在交互过程中产生亲切与温馨的感觉，提高活体对与数字人交互过程中的反馈信息的接受程度。

除了在所述车舱内的显示设备上显示数字人执行相应动作的动画之外，为了进一步提高交互效果，还可以确定与所述状态信息相匹配的语音信息，在显示所述动画的同时，根据所述语音信息同步播放相应的语音。例如，所述相匹配的动作信息为解开安全带的动作对应的动作信息，则在所述显示设备上显示数字人执行相应动作的动画的同时，还可以播放一段语音：“小朋友，行车过程中解开安全带是很危险的哦”。在实际应用中，可以采用神经网络来确定与所述状态信息相匹配的语音信息，或者，也可以预先建立不同的状态信息与语音信息之间的映射关系，并根据所述映射关系确定所述相匹配的语音信息。进一步地，在播放所述语音的同时，还可以在所述显示界面显示所述语音对应的字幕信息。

播放的语音与显示的动画同步，是指播放的语音内容与动画中数字人执行的动作相匹配，这里的动作可以包括肢体动作、嘴型动作、眼部动作等中的至少一者。例如，在动画中数字人执行招手动作，且嘴型动作为“你好”对应的动作的情况下，播放语音内容“你好”。具体来说，可以确定与所述状态信息相匹配的语音信息；根据所述语音信息获取对应的语音，所述语音中包括时间戳；在播放所述语音的同时，根据所述动作信息生成并显示所述数字人在所述时间戳对应的时刻执行所述动作的动画。通过上述方式，将播放的语音与动画中数字人的动作同步播放，能够进一步提高数字人的拟人化程度，使数字人与活体的交互更加自然。

所述语音可以从语音数据库中拉取，拉取到的语音中携带该语音的时间戳，用于使所述动画中数字人执行相应动作的时间与所述语音同步。在拉取语音时，还可以获取所述活体的状态信息(例如，属性信息、情绪信息中的至少一者)，并将所述活体的状态信息发送至语音数据库，以从所述语音数据库拉取对应的语音。例如，在活体为儿童的情况下，拉取与儿童的音色相符的语音。

一段语音常常包括多个音素，音素是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个发音动作构成一个音素。例如，“你好”包括“你”和“好”两个音素。在语音中包括多个音素的情况下，所述时间戳中可包括每个音素的时间戳。一个动作中一般会包括多个子动作，例如，招手的动作可包括手臂向左摆动的子动作和手臂向右摆动的子动作。为了使显示的数字人更加生动形象，可以分别将各个子动作与语音中的一个音素进行匹配。具体来说，可以根据每个音素的时间戳，确定与所述每个音素相匹配的子动作的执行时间；根据所述动作信息，生成并显示所述数字人在每个音素的时间戳执行与所述每个音素相匹配的子动作的动画。例如，在播放音素“你”的同时，显示与“你”相匹配的嘴型动作，并显示数字人手臂向左摆动的招手动作，在播放音素“好”的同时，显示与“好”相匹配的嘴型动作，并显示数字人手臂向右摆动的招手动作。通过将每个音素与数字人的动作进行同步，提高了同步过程的精确度，使数字人的动作与语音播放更加逼真，进一步提高了数字人的拟人化程度。

上述与所述动作信息相应的动作可以从动作模型库中调用。具体来说，可以从动作模型库中调用与所述动作信息对应的至少一帧数字人的动作切片；将所述至少一帧数字人的动作切片中的每帧数字人的动作切片依次显示在所述显示设备上。不同的动作切片所对应的数字人的肢体动作、脸部表情动作、嘴型动作、眼部动作等中的至少一者不同，通过调用并依次显示对应的动作切片，从而能够在显示设备上显示数字人执行所述相应动作的动画。通过上述方式，只需调用对应的切片的方式即可显示数字人的动画，显示效率高，成本低。

上述语音数据库和动作模型库均可以进行更新，以便将更多的语音素材和动作素材对应加入所述语音数据库和动作模型库。所述语音数据库和动作模型库的更新方式类似，此处仅以语音数据库为例，对数据库的更新方式进行说明，动作模型库的更新方式可参考语音数据库，此处不再赘述。在更新语音数据库时，可以从服务器中下载更新包，解析所述更新包中的数据，并将所述更新包中的数据加入所述语音数据库，或者采用所述更新包中的数据替换所述语音数据库中的原有数据。

作为一种可选方式，可以按照一定的时间间隔对所述语音数据库进行更新；作为另一种可选方式，可以接收服务器推送的更新提示信息，并响应于所述更新提示信息更新所述语音数据库；作为另一种可选方式，还可以接收所述活体发送的更新指令，响应于所述更新指令向服务器发送更新请求，并接收服务器响应于所述更新请求返回的更新包，然后基于所述更新包对语音数据库进行更新。还可以按照其他方式对所述语音数据库进行更新，此处不再赘述。

在一些实施例中，还可以获取车辆的行驶状态，并确定与所述车辆的行驶状态和所述状态信息分别匹配的动作信息。例如，在车辆处于行驶的情况下，检测到活体的肢体动作为解开安全带，则确定所述相匹配的动作信息包括用于示意所述活体不要打开安全带的动作对应的动作信息。而在车辆停下并熄火的情况下检测到活体的肢体动作为解开安全带，则确定所述相匹配的动作信息包括挥手告别这一动作对应的动作信息。通过这种方式，能够更加准确地确定相匹配的动作信息，减少了误判几率。

在一些实施例中，还可以根据所述状态信息控制车载设备的运行状态。所述车载设备包括车舱内的照明设备、空调、车窗、音频播放设备和座椅中的至少一者。例如，在所述活体感到困倦或者已睡着的情况下，可以将座椅放平，使所述活体能够尽量平躺在座椅上。又例如，在所述活体感到闷热的情况下，可以打开车窗或者空调，从而调整所述车舱内的车舱环境，来为活体提供更加舒适和安全的乘车环境。

在实际应用中，通过本公开实施例，可以检测活体进入或离开车舱内的座椅、打开或关闭车门、系安全带或解开安全带等行为，并根据活体的状态信息，显示数字人执行相应动作的动画，针对上述行为分别与所述活体进行互动。

以检测活体进入或离开车舱内的座椅为例，在一些实施例中，可以获取车舱内的目标图像，识别所述目标图像中的活体，基于所述活体的位置信息，确定所述活体是否位于车舱内的座椅上。所述目标图像可以基于车舱内的监控视频获取。具体来说，可以确定所述目标图像中的各个对象的对象信息(包括该对象的中心点的位置信息和该对象的中心点对应的对象类型信息)，根据所述对象类型信息从目标图像中的各个对象中筛选出活体和座椅，再根据活体的中心点的位置和座椅的中心点位置确定活体是否位于座椅上。

在一些实施例中，可以利用如下步骤来确定目标图像中各个对象的对象信息：对所述目标图像进行特征提取，得到所述目标图像对应的第一特征图。从所述第一特征图的第一预设通道中，获取所述第一特征图中每个特征点作为对象中心点的响应值。将所述第一特征图分割为多个子区域，并确定每个子区域内最大的响应值和最大的响应值对应的特征点；将最大的响应值大于预设阈值的目标特征点作为对象的中心点，并基于所述目标特征点在第一特征图上的位置索引确定对象的中心点的位置信息。

在一些实施例中，可以利用如下步骤确定对象类型信息：对所述目标图像进行特征提取，得到所述目标图像对应的第二特征图。基于所述目标特征点在第一特征图上的位置索引，确定所述目标特征点在所述第二特征图上的位置索引。从所述目标特征点在所述第二特征图上的位置索引对应的位置处，获取所述目标特征点对应的对象类型信息。上述在确定的对象的中心点之后，利用中心点的位置索引，能够准确的获取对象的中心点对应的对象类型信息。

在确定了各个对象的中心点对应的对象类型信息之后，具体可以利用如下步骤识别目标图像中的特定群体(例如，儿童、宠物等)，从而使数字人与特定群体进行互动。为了方便描述，下面以儿童为例，对其他群体的识别方式类似，此处不再赘述。首先，基于每个人体的中心点对应的位置偏移信息，分别确定与每个人体相匹配的人脸的中心点的预测位置信息；其中，属于同一个人的人体和脸部相匹配。在确定上述位置偏移信息时，具体可以是，首先将目标图像输入到一个神经网络中进行图像特征提取，得到一个初始特征图。之后再将该初始特征图输入到一个用于确定上述位置偏移信息的神经网络，得到一个特征图，基于该特征图就能够确定于每个人体的中心点对应的位置偏移信息。

然后，基于确定的预测位置信息和每个人脸的中心点的位置信息，确定与每个人体相匹配的人脸。这里，具体是将与预测位置信息对应的位置最接近的中心点的位置对应的人脸，作为与人体相匹配的人脸。对于匹配成功的人体和人脸，利用匹配成功的人体的中心点对应的对象类型信息和人脸的中心点对应的对象类型信息，确定该匹配成功的人体和人脸所属的人是否为儿童。这里，匹配成功的人体的中心点对应的对象类型信息指示对应的人体所属的人为儿童或人脸的中心点对应的对象类型信息指示对应的人脸所属的人为儿童，则确定该匹配成功的人体和人脸所属的人为儿童。对于未匹配成功的人体，利用该人体的中心点对应的对象类型信息确定该人体的中心点所属的人是否为儿童。具体地，如果该人体的中心点对应的对象类型信息指示儿童，则确定该人体所属的人为儿童。

下面结合具体的例子，对本公开实施例的方案进行说明。

在活体上车入座时，通过监控系统获取活体的监控视频，检测到活体的类别信息为人类，活体的身份信息为小A，属性信息为儿童，同时检测到活体小A的情绪信息为高兴，则生成并显示儿童形象、面带微笑、穿着鲜艳服饰的数字人举手打招呼的动画，同时播放打招呼的语音：小A，今天心情不错哦，如图3所示，动画中数字人的口型和肢体动作与播放的语音匹配。如果未识别出活体身份，则在打招呼时可以根据性别、年龄等属性信息采用统称，例如，小朋友、先生等。在活体小A入座后，此时小A的情绪比较平静，则可以不做语音交互。在车辆开始行驶之后，检测到活体小A没有系安全带，则在中控屏上显示儿童形象的数字人执行系安全带的示范动作的动画，同时播放语音：小A，快和我一起系上安全带吧，动画中数字人的口型和肢体动作与播放的语音匹配。

一段时间后，监测到小A说：“有点热”，则打开车窗，开启空调。又一段时间之后，小A通过预设方式(例如，点击数字人、视线注视数字人或者通过语音呼叫数字人等)与数字人互动，数字人与小A进行互动，互动方式可包括聊天、做游戏或者控制音乐播放，在互动时，根据互动内容显示相应的数字人动画并同步播放语音。在小A下车时，监控系统监测到小A的座椅上有遗留物，从而可以在中控屏上显示数字人执行招手动作的动画，同时同步播放语音：小A，你有东西忘在车里啦，快回来拿。在小A下车后，还可以关闭车窗和音乐。

本公开实施例能够根据车舱内活体的状态信息，生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画，从而实现了拟人化的交互，交互过更加自然，让人感受到人机交互的温暖，提升了乘车乐趣、舒适感和陪护感，从而提高了活体对交互过程中的反馈信息的接受程度，从而提高了车辆驾驶过程中活体的安全性。此外，本公开实施例通过软件方式生成数字人的动画，成本较低，数字人反应速度较快，且便于后期维护和更新升级。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

如图4所示，本公开还提供一种基于数字人的车舱交互装置，所述装置包括：

获取模块401，用于获取车舱内乘坐的活体的状态信息；

确定模块402，用于确定与所述状态信息相匹配的动作信息；

显示模块403，用于根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

图5示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器501、存储器502、输入/输出接口503、通信接口504和总线505。其中处理器501、存储器502、输入/输出接口503和通信接口504通过总线505实现彼此之间在设备内部的通信连接。

处理器501可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器502可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器502可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器502中，并由处理器501来调用执行。

输入/输出接口503用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口504用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线505包括一通路，在设备的各个组件(例如处理器501、存储器502、输入/输出接口503和通信接口504)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器501、存储器502、输入/输出接口503、通信接口504以及总线505，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

如图6A和图6B所示，本公开实施例还提供一种车辆，所述车辆的车舱内设置有显示设备601、监控系统602、以及基于数字人的车舱交互装置603或计算机设备604。

所述显示设备601用于显示所述数字人执行相应动作的动画。所述显示设备601可以包括车辆的中控屏和安装在车辆座椅后背上的显示屏中的至少一者。

所述监控系统602可以包括视觉监控系统和语音监控系统中的至少一者，所述视觉监控系统可包括至少一个摄像头，所述摄像头可安装在待监控区域上方，用于采集待监控区域的视频或者图像。例如，所述摄像头可安装在车辆的前挡风玻璃上，或者安装在座椅上方等位置。又例如，所述摄像头可安装在所述车舱内的后视镜上，且镜头朝向车舱后排。这样的安装方式使得摄像头的视野范围较广，便于获取车舱后排的监控视频。所述语音监控系统可包括至少一个麦克风，用于采集待监控区域的音频信号。

本公开实施例的基于数字人的车舱交互装置603可以采用上述任一实施例的车舱交互装置，本公开实施例的计算机设备604可以采用上述任一实施例的计算机设备。所述基于数字人的车舱交互装置603或计算机设备604可以集成在车辆的中控系统上。所述监控系统602可以通过车内通信总线与所述车舱交互装置603或计算机设备604进行通信，例如，所述车内通信总线可以是控制器局域网络(Controller Area Network，CAN)总线。

在一些实施例中，所述基于数字人的车舱交互装置603或计算机设备604还可以基于所述状态信息控制车载设备，例如，车舱内的照明设备、空调、车窗、音频播放设备和座椅中的至少一者。

在一些实施例中，所述基于数字人的车舱交互装置603或计算机设备604还可通过网络连接到用户的智能设备或者语音数据库、动作模型数据库等，以与所述智能设备或者语音数据库、动作模型数据库进行数据交互。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种基于数字人的车舱交互方法，其特征在于，所述方法包括：

获取车舱内乘坐的活体的状态信息；

确定与所述状态信息相匹配的动作信息；

根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画。

2.根据权利要求1所述的方法，其特征在于，所述根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画，包括：

确定与所述状态信息相匹配的语音信息；

根据所述语音信息获取对应的语音，所述语音中包括时间戳；

在播放所述语音的同时，根据所述动作信息生成并显示所述数字人在所述时间戳对应的时刻执行所述动作的动画。

3.根据权利要求2所述的方法，其特征在于，所述动作中包括多个子动作，每个子动作与所述语音中的一个音素相匹配，所述时间戳包括每个音素的时间戳；所述根据所述动作信息生成并显示所述数字人在所述时间戳对应的时刻执行所述动作的动画，包括：

根据每个音素的时间戳，确定与所述每个音素相匹配的子动作的执行时间；

根据所述动作信息，生成并显示所述数字人在每个音素的时间戳执行与所述每个音素相匹配的子动作的动画。

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画，包括：

从动作模型库中调用与所述动作信息对应的至少一帧数字人的动作切片；

将所述至少一帧数字人的动作切片中的每帧数字人的动作切片依次显示在所述显示设备上。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述活体的状态信息包括所述活体的第一状态信息，所述获取车舱内乘坐的活体的状态信息，包括：

采集车舱内后排的监控视频；

对所述监控视频进行活体检测并对检测出的活体进行状态分析，得到所述活体的第一状态信息。

6.根据权利要求5所述的方法，其特征在于，所述监控视频由安装在所述车舱内的后视镜上，且镜头朝向车舱后排的视频采集装置获取。

7.根据权利要求5或6所述的方法，其特征在于，

所述第一状态信息包括以下至少之一：所述活体的类别信息、身份信息、属性信息、情绪信息、表情信息、肢体动作信息、座椅落座信息、安全带佩戴信息；和/或，

所述活体包括以下至少之一：驾驶员、副驾驶员、儿童、老人、宠物、后排乘车人。

8.根据权利要求1至7任意一项所述的方法，其特征在于，所述活体的状态信息包括所述活体的第一状态信息和第二状态信息，所述第一状态信息基于车舱内的监控视频获取；

所述获取车舱内的活体的状态信息，还包括：获取所述活体携带的智能设备发送的第二状态信息；

所述确定与所述状态信息相匹配的动作信息，包括：

确定与所述第一状态信息和所述第二状态信息均匹配的动作信息。

9.根据权利要求1至8任意一项所述的方法，其特征在于，所述获取车舱内乘坐的活体的状态信息，包括：

将所述车舱内的监控视频输入预先训练的神经网络；

根据所述神经网络的输出结果确定所述活体的状态信息。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述方法还包括：

在根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画之前，生成所述数字人的形象。

11.根据权利要求10所述的方法，其特征在于，所述生成所述数字人的形象，包括：

根据所述活体的状态信息生成所述数字人的形象；

或者

根据预定的数字人的形象模板生成所述数字人的形象。

12.根据权利要求1至11任意一项所述的方法，其特征在于，所述方法还包括：

根据所述状态信息控制车载设备的运行状态。

13.根据权利要求1至12任意一项所述的方法，其特征在于，所述确定与所述状态信息相匹配的动作信息，包括：

获取车辆的行驶状态；

确定与所述车辆的行驶状态和所述状态信息分别匹配的动作信息。

14.一种基于数字人的车舱交互装置，其特征在于，所述装置包括：

获取模块，用于获取车舱内乘坐的活体的状态信息；

确定模块，用于确定与所述状态信息相匹配的动作信息；

显示模块，用于根据所述动作信息生成并在所述车舱内的显示设备上显示数字人执行相应动作的动画。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至13任意一项所述的方法。

16.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至13任意一项所述的方法。

17.一种车辆，其特征在于，所述车辆的车舱内设置有显示设备、监控系统、以及如权利要求14所述的基于数字人的车舱交互装置或如权利要求16所述的计算机设备。