CN115995235A

CN115995235A - 基于语音信号分离的远程数字人交互方法、装置及系统

Info

Publication number: CN115995235A
Application number: CN202310286151.7A
Authority: CN
Inventors: 王新国; 张青辉
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-03-23
Filing date: 2023-03-23
Publication date: 2023-04-21
Anticipated expiration: 2043-03-23
Also published as: CN115995235B

Abstract

本申请提供了一种基于语音信号分离的远程数字人交互方法、装置及系统，该方法包括：从远程数字人设备接收用户输入数据，其中，用户输入数据包括以下至少之一：音频数据和音视频数据；从用户输入数据中提取出当前混合音频信号，并对当前混合音频信号进行语音分离，得到多个不同的当前源音频信号；基于多个不同的当前源音频信号判断远程数字人设备的响应级别，在响应级别小于预设级别阈值的情况下，使用人工智能算法来驱动远程数字人设备上的远程数字人；在响应级别大于等于预设级别阈值的情况下，通过实时获取中之人的驱动数据来驱动远程数字人设备上的远程数字人。本申请解决了现有技术中远程数字人交互不顺畅、用户体验不好的问题。

Description

基于语音信号分离的远程数字人交互方法、装置及系统

技术领域

本申请涉及图像通信技术领域，具体而言，涉及一种基于语音信号分离的远程数字人交互方法、装置及系统。

背景技术

远程数字人是一种由人工智能和自然语言处理技术构建的虚拟代理人，可以模拟人类的语言、行为和思考方式，提供各种服务，例如客户支持、销售礼宾、日程管理、财务顾问、品牌大使、医疗保健顾问、数字影响者以及数据输入和处理等。

远程数字人通常由人工智能和机器学习技术驱动，能够理解人类语言的含义和意图，并使用语音或文本与用户进行交流。它们可以根据用户的要求和输入执行任务，编程识别和响应特定的指令，快速处理大量数据，并在需要时提供信息和建议。

虽然在某些情况下，人工智能算法可以控制远程数字人，但在复杂情况下，它们可能无法满足用户的所有需求和意愿，导致交互不流畅、用户体验差。

针对上述远程数字人交互不顺畅、用户体验差的技术问题，目前尚未提出有效的解决方案。

发明内容

本申请提供了一种基于语音信号分离的远程数字人交互方法、装置及系统，以解决现有技术中远程数字人交互不顺畅、用户体验差的问题。

根据本申请实施例的一个方面，提供了一种基于语音信号分离的远程数字人交互方法，该方法包括：从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据和音视频数据；从所述用户输入数据中提取出当前混合音频信号，并对所述当前混合音频信号进行语音分离，得到多个不同的当前源音频信号；基于多个不同的所述当前源音频信号判断所述远程数字人设备的响应级别，在所述响应级别小于预设级别阈值的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所述响应级别大于等于所述预设级别阈值的情况下，通过实时获取中之人的驱动数据来驱动所述远程数字人设备上的远程数字人。

根据本申请实施例的另一个方面，提供了一种基于语音信号分离的远程数字人交互装置，包括：接收模块，被配置为从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据和音视频数据；确定模块，被配置为从所述用户输入数据中提取出当前混合音频信号，并对所述当前混合音频信号进行语音分离，得到多个不同的当前源音频信号；驱动模块，被配置为：基于多个不同的所述当前源音频信号判断所述远程数字人设备的响应级别，在所述响应级别小于预设级别阈值的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所述响应级别大于等于所述预设级别阈值的情况下，通过实时获取中之人的驱动数据来驱动所述远程数字人设备上的远程数字人。

根据本申请实施例的又一个方面，提供了一种基于语音信号分离的远程数字人交互系统，包括：动捕装置，被配置为采集中之人的动作数据和语音数据，以生成驱动数据；如上所述的基于语音信号分离的远程数字人交互装置；多个远程数字人设备，每个远程数字人设备用于将所采集的用户输入数据发送给所述远程数字人交互装置，并基于所述远程数字人交互装置的响应数据来驱动该远程数字人设备上的远程数字人。

应用本申请的技术方案，通过判断所述远程数字人设备的响应级别或响应难度，并基于所述响应级别或所述响应难度来确定用于响应所述用户输入数据的响应方式，解决了现有技术中远程数字人交互不顺畅、用户体验不好的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种远程数字人交互系统的结构示意图；

图2是根据本申请实施例的一种基于语音信号分离的远程数字人交互方法的流程示意图；

图3是根据本申请实施例的另一种基于语音信号分离的远程数字人交互方法的流程示意图；

图4是根据本申请实施例的基于音频数据或音视频数据确定响应级别的方法的流程示意图；

图5是根据本申请实施例的基于中之人模式的远程数字人交互方法的流程示意图；

图6是根据本申请实施例的一种基于语音信号分离的远程数字人交互装置的结构示意图；

图7是根据本申请实施例的一种电子设备的结构示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1

本申请提供了一种远程数字人交互系统，其架构如图1所示。该系统主要包括远程数字人设备12、远程数字人交互装置14和动捕装置22，其中，远程数字人交互装置14与远程数字人设备12之间通过网络16进行数据传输，动捕装置22与远程数字人设备12之间、动捕装置22与远程数字人交互装置14之间通过网络16进行数据传输。

远程数字人设备12可以设置在实体门店中用于与用户交互，为用户提供个性化的服务和支持。远程数字人设备12可以包括手机121、笔记本电脑122和平板电脑123等移动终端，还可以包括设置在门店的固定终端124。远程数字人设备12用于通过摄像头、麦克风以及触摸屏等接收用户输入数据，并通过网络16将接收到的用户输入数据上传到远程数字人交互装置14。远程数字人设备12还用于通过网络16从远程数字人交互装置14接收同步后的用于响应用户输入数据的语音数据和视频数据，并呈现给用户，以实现远程数字人的交互功能。

远程数字人设备12设置有摄像头，通过摄像头，可以远程关注门店客流情况，这样可以及时分流引导，并且可以远程观看客户影像，及时互动反馈。远程数字人设备12内置超写实数字人，能够定制语料库，智能语音播报当日新品和和门店活动信息，应对各类常规咨询，还能够支持远程人工接入，实现沉浸式沟通和交互体验。

远程数字人设备12可应用于多个场景，例如，虚拟导购、虚拟演唱会、远程教育等。在虚拟导购中，远程数字人可以代替企业前台、展馆、娱乐、餐饮、消费品等实体店的销售员，与顾客进行互动，提供产品推荐和购买指导等服务，从而为顾客提供线下跨维互动引流服务。在虚拟演唱会中，远程数字人可以扮演歌手的角色，与观众进行互动；在远程教育中，远程数字人可以作为教师的替身，与学生进行互动。

远程数字人交互装置14包括接收模块、确定模块和驱动模块。其中，接收模块被配置为从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据、视频数据、音视频数据、文字数据、和指令数据；确定模块，被配置为基于所述用户输入数据，判断所述远程数字人设备的响应级别或响应难度，并基于所述响应级别或所述响应难度，确定用于响应所述用户输入数据的响应方式；驱动模块被配置为：在所确定的响应方式为人工智能模式的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所确定的响应方式为中之人模式的情况下，通过实时获取所述中之人的驱动数据来驱动所述远程数字人设备上的远程数字人。

本实施例中的远程数字人交互装置14能够实现将在下文详细描述的远程数字人交互方法，因此此处不再赘述。

动捕装置22用于采集中之人的动作数据和语音数据。动捕装置22包括动捕头盔222、动捕服224和动捕手套226。当然，在其他一些示例中，动捕装置22也可以包括动捕头盔222、动捕服224和动捕手套226中的一个或多个。

动捕头盔222设置有摄像头，其拍摄速度高达60帧/秒，能够捕捉快速的唇部动作、眨眼动作，以及面部的抽动和抖动。此外，本实施例中的动捕头盔222是开放式的结构，这样，空气能够在其中流通，从而使得佩带动捕头盔222的中之人能够在进行操作时更加舒适。动捕头盔222需要连接专用的数据线，如果数据线长度不够，还可以通过连接增强型USB延长线延长。

动捕服224由惯性传感器、控制盒、莱卡面料等组成。本实施例中的动捕服224共有17个传感器，能够同时追踪23个不同的身体环节的动作，追踪部位包括双脚、小腿、膝盖、腹部、双手、手肘以及肩膀等。本实施例中的动捕服224通过这样的结构，能够满足运动捕捉和动画设计的严格需求，具有使用简单、穿戴舒适、数据质量高的有益效果。

在其他的实施例中，动捕服224上还可以通过放置可追踪标记来捕捉穿戴动捕服224的中之人的运动轨迹。例如，可以放置反光标记，通过红外相机等追踪装置来跟踪这些标记。

动捕手套226由惯性传感器、弹性面料、手部动作捕捉系统等组成。本实施例中，动捕手套226上设置有12颗高性能的九轴惯性传感器，姿态更新频率为120Hz，采集点数量为12个节点，静态精度为0.02度，动态精度为0.2度，解算频率为约1000Hz，数据延迟为30ms。手部动作捕捉系统实时采集动捕手套226上的惯性传感器感测到的动捕数据，经分析计算后再经由无线路由器发送给服务器24。

本实施例中的动捕装置22的数量并没有限制，可以为一个也可以为多个，主要视中之人的数量而定。

本实施例中的远程数字人交互系统可以用于远程医疗服务业，为患者提供医疗建议和诊断；可以用于零售业服务业，为用户提供咨询服务和产品展示；可以用于教育领域，为用户提供个性化的学习指导和辅导；还可以用于旅游业，为用户提供导游服务和旅游咨询。

实施例2

根据本申请实施例，提供了一种基于语音信号分离的远程数字人交互方法，如图2所示，该方法包括以下步骤：

步骤S202，从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据和音视频数据。

通过从远程数字人设备接收音频数据或音视频数据，用户可以通过语音或音视频来与远程数字人设备进行交互，而无需使用键盘或鼠标等传统输入设备。这有助于改善用户的交互体验，使用户能够更轻松地使用远程数字人设备。

步骤S204，从所述用户输入数据中提取出当前混合音频信号，并对所述当前混合音频信号进行语音分离，得到多个不同的当前源音频信号。

首先，训练用于语音分离的神经网络模型。

1）构建损失函数。

通过最小化训练数据集中的源音频信号的相关性和混合矩阵的偏离正交性，来构建损失函数，其中，所述混合矩阵为混合所述训练数据集中的混合音频信号与所述训练数据集中的源音频信号而得到的矩阵。

例如，基于所述源音频信号的矩阵和所述混合矩阵，来最小化所述源音频信号的相关性；基于所述混合矩阵和所述混合矩阵的范数，来最小化所述混合矩阵的偏离正交性；通过平衡因子来控制所述源音频信号的相关性和所述混合矩阵的偏离正交性的平衡，以构建所述损失函数。

2）利用损失函数来构建神经网络模型。

循环执行以下步骤，直到所述损失函数的损失值最小化：向所述神经网络模型输入所述训练数据集中的所述混合音频信号，通过前向传播计算出所述神经网络模型对所述源音频信号的预测值；将所述预测值和所述源音频信号的真实值代入所述损失函数，计算出所述真实值的损失值；通过反向传播计算出所述神经网络模型的每个参数对所述损失函数的历史梯度平方和；根据所述历史梯度平方和的动量信息，来更新所述神经网络模型的每个参数。

例如，可以采用以下的方式来更新所述神经网络模型的每个参数。基于所述历史梯度平方和，来更新所述历史梯度平方和的一阶动量和二阶动量，并对所述一阶动量和所述二阶动量进行校正。具体地，基于所述历史梯度平方和、用于控制所述一阶动量的指数加权平均的超参数、和用于控制所述二阶动量的指数加权平均的超参数，来更新所述一阶动量和所述二阶动量；基于用于控制所述一阶动量的指数加权平均的超参数、用于控制所述二阶动量的指数加权平均的超参数、以及迭代次数，来对所述一阶动量和所述二阶动量进行校正。在校正完一阶动量和二阶动量之后，基于校正后的所述一阶动量和所述二阶动量，来更新所述神经网络模型的每个参数。

本申请实施例通过上述方法，可以将当前混合音频信号分离成多个不同的当前源音频信号，从而能够准确地区分出不同的用户语音信号。这有助于提高远程数字人设备的交互精度和准确性，并增强用户交互的自然性和可用性。

其次，利用训练好的神经网络模型进行语音分离。利用训练好的神经网络模型来对当前混合音频信号进行语音分离，得到多个不同的当前源音频信号，其中，一个当前源音频信号对应一个人的声音。

步骤S206，基于多个不同的所述当前源音频信号判断所述远程数字人设备的响应级别，在所述响应级别小于预设级别阈值的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所述响应级别大于等于所述预设级别阈值的情况下，通过实时获取中之人的驱动数据来驱动所述远程数字人设备上的远程数字人。

在一些实施例中，可以直接将得到的当前源音频信号的数量作为远程数字人设备当前服务对象的数量，并基于所述服务对象的数量，确定所述响应级别，其中，在所述单位时间段内的所述服务对象的数量越多，所述响应级别越高。

在另一些实施例中，为了提高识别的准确性，还可以进一步地对当前源音频信号进行语义分析。例如，使用语音识别技术来识别在所述单位时间段内每个所述当前源音频信号中的文字内容；根据所识别出的文字内容，判断所述音视频数据或所述音频数据中在所述单位时间段内包含的发声的人数，并将所述发声的人数作为所述远程数字人设备的服务对象的数量。之后，基于所述服务对象的数量，确定所述响应级别。

在所述响应级别小于预设级别阈值的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所述响应级别大于等于所述预设级别阈值的情况下，通过实时获取中之人的驱动数据来驱动所述远程数字人设备上的远程数字人。

实施例3

根据本申请实施例，提供了另一种基于语音信号分离的远程数字人交互方法，如图3所示，该方法包括以下步骤：

步骤S302，用户向远程数字人设备输入数据。

远程数字人设备上可以设置有各种传感器、摄像头和麦克风等设备，并能够通过这些设备来采集用户数据。这些用户数据可以是用户主动输入的用户输入数据，也可以是经过用户同意后，采集的用户信息。

用户输入数据可以包括通过麦克风收集的音频数据、通过摄像头收集的视频数据、以及通过麦克风和摄像头收集的音视频数据。在一些示例中，还可以通过输入框接收用户输入的文本数据，或者通过触摸屏接收用户输入的控制指令。在另一些示例中，还可以通过传感器收集用户的体征信息，例如，通过温度传感器采集用户的体温等数据，这对于检测用户的健康状态非常有用。

远程数字人设备接收到上述数据之后，通过网络传递给服务器。

步骤S304，服务器基于用户输入数据判断响应级别或响应难度。

1）判断响应难度。

首先将音频数据或音视频数据转换为文本。对于音频数据或音视频数据，需要使用语音识别技术将其转换为文本数据。这可以通过使用语音识别引擎实现。然后，进行文本数据预处理，例如分词、去停用词、词性标注等。之后，确定响应内容的难度。根据预处理后的文本数据，可以使用算法或模型来确定响应内容的难度。例如，可以使用词频、语法复杂度、语义复杂度等指标来评估响应内容的难度级别。最后，基于难度级别确定响应方式。根据确定的难度级别，可以使用相应的响应方式来响应用户输入数据。例如，如果难度级别较低，可以使用人工智能模式来响应用户，而如果难度级别较高，则需要使用中之人模式来响应。

2）识别视频中出现的人数，并基于最大出现人数来判断响应级别。

如果用户输入数据是音视频数据或视频数据，可以通过图像序列拆分和人数识别来确定服务对象数量。对于每个图像，可以使用人脸识别技术来检测人脸，并计算出每张图像中的人数。之后，找出所有图像中包含人数最多的图像，并将最多人数的数量作为服务对象的数量。或者，将图像序列中预设时间段内的所有图像中的人数求和，得到整个预设时间段内的服务对象的数量。最后，根据服务对象的数量，来确定响应级别。其中，服务对象的数量越多，响应级别越高。

除了通过人脸识别技术来检测人脸和计算人数外，还可以通过其他技术和方法来识别服务对象的数量，例如，可以采用行人检测技术，对于一些场景中可能出现多个人但无法检测到面部的情况（例如戴口罩等），可以使用行人检测技术来识别行人数量。或者，还可以使用深度学习技术，如卷积神经网络（CNN）和循环神经网络（RNN），来对视频数据进行处理和分析。通过将图像序列作为输入，CNN可以检测出每张图像中的人数，而RNN可以对一系列图像进行分析和预测。

3）识别音频中发声的人数，并基于最大发声人数来判断响应级别。

如果用户输入数据是音频数据或音视频数据，可以使用语音分离算法将不同的语音信号分离出来，并使用语音识别技术来识别每个语音信号中的文字内容。根据所识别出的文字内容，可以判断出发声人的数量，进而确定服务对象数量和响应级别。

语音分离算法是一种信号处理技术，旨在将混合的音频信号中的不同语音信号分离出来。该算法的主要目的是解决多人对话的情况下，如何对不同的语音信号进行处理，使得每个语音信号都能够独立地被识别和分析。在实现语音分离算法的过程中，可以使用不同的技术和方法，包括基于时间-频率分析的方法、基于短时傅里叶变换的方法等。这些方法通常都需要利用语音信号中的特征进行分离，如语音的频率、时域和声学特征等。其中，基于时间-频率分析的方法是比较常见的方法。这种方法通常使用短时傅里叶变换（STFT）将音频信号转换为频谱图，并在频谱图上进行分离处理。其中，可以使用不同的算法来分离语音信号，如独立分量分析（ICA）、盲源分离（BSS）等。

但是，基于时间-频率分析的方法存在以下问题：1）可能无法处理复杂的混叠情况：当混合的语音信号非常复杂时，基于时间-频率分析的方法可能无法很好地分离出单个语音信号，因为频谱图中存在大量的重叠和交叉。这可能会导致分离结果的质量较差。2）需要手动选择参数：在使用基于时间-频率分析的方法时，需要手动选择一些参数，例如短时傅里叶变换的窗口大小、重叠率等。不正确的参数选择可能会影响分离结果的质量。3）对信号的假设较强：基于时间-频率分析的方法通常假设语音信号是线性、平稳、高斯白噪声等，这种假设可能并不总是成立。当语音信号不符合这些假设时，分离结果的质量可能会下降。

为了解决上述问题，本申请实施例中采用基于深度学习的方法使用神经网络来训练模型，以便从混合音频信号中分离出不同的语音信号。如图4所示，本申请实施例提供的基于深度学习的语音信号分离方法包括以下步骤：

步骤S3040，数据预处理。

首先，将音频信号或音视频信号进行预处理，如去除噪声、归一化等操作。

步骤S3042，搭建神经网络。

使用深度神经网络（Deep Neural Network，DNN）构建ICA网络，其中，ICA网络的输入是混合音频信号，输出是分离出来的源音频信号。可以使用多层感知机（MultilayerPerceptron，MLP）或卷积神经网络（Convolutional Neural Network，CNN）等结构。

现有的基于深度学习的ICA网络中，通常采用的是最小化源音频信号的相关性或最小化输出信号的熵来确定损失函数，以达到更好的分离效果。但是，这些损失函数都没有考虑混合矩阵A的正交性。

假设有m个混合音频信号和n个独立的源音频信号，X为混合音频信号的矩阵，S为源音频信号的矩阵，A为混合音频信号与源音频信号之间的混合矩阵，即X=AS。最小化源音频信号的相关性和混合矩阵的正交性：

其中，J（A）表示损失函数，m表示混合音频信号的数量，n表示源音频信号的数量，S表示源音频信号的矩阵，A表示混合矩阵，即混合音频信号与源音频信号之间的线性变换矩阵，AS_i表示混合矩阵与源音频信号之积的第 i 行，AS_j表示混合矩阵与源音频信号之积的第j行，k表示损失函数中的平衡因子，用于控制源音频信号相关性和混合矩阵正交性的平衡，I表示单位矩阵，F表示矩阵的弗罗贝尼乌斯（Frobenius）范数，即矩阵元素平方和的平方根。

本实施例提供的损失函数中，第一项是最小化源音频信号的相关性，第二项是最小化混合矩阵的偏离正交性。平衡因子k控制这两项之间的平衡，可以根据实际情况进行调整。本实施例提供的损失函数，可以更好地考虑混合矩阵的正交性，从而进一步提高分离效果。

步骤S3044，训练神经网络。

训练神经网络的目标是最小化输出信号的熵，使得源音频信号之间的相关性最小。这里可以使用梯度下降法来优化网络的参数。本实施例使用自适应学习率的优化算法来加速收敛和提高性能。

本申请实施例提供的自适应学习率优化算法在每个参数的更新步骤中，根据历史梯度信息来计算一个自适应的学习率。具体而言，记录每个参数的历史梯度平方和以及历史梯度的一阶和二阶动量信息，并利用这些信息来计算每个参数的自适应学习率。

初始化一阶动量m和二阶动量v为0。在每个迭代步骤中，计算历史梯度平方和g并更新m和v：

m = b₁m + (1 - b₁)g

v =b₂v + (1 - b₂)g²

其中，b₁表示用于控制一阶动量的指数加权平均的超参数，通常取值为0.9；b₂表示用于控制二阶动量的指数加权平均的超参数，通常取值为0.999。

计算偏置校正后的动量变量m_hat和v_hat：

m_hat = m / (1 - b₁ ^t)

v_hat = v / (1 - b₂ ^t)

其中，t表示当前的迭代次数。

使用偏置校正后的动量变量m_hat和v_hat来更新参数：

其中，m表示参数的一阶动量，用于估计参数的均值;v表示参数的二阶动量，用于估计参数的方差； t表示当前的迭代次数；m_hat表示偏置校正后的一阶动量；v_hat表示偏置校正后的二阶动量；Wt表示参数的当前值，例如权值和偏置值，W_t-1表示上一迭代中的参数值，a表示学习率，ε是一个非常小的常数，用于避免除以0的情况；g表示参数的历史梯度平方和。

本实施例中记录每个参数的历史梯度平方和，并将学习率除以这个平方和的平方根。这样可以保证每个参数的学习率都可以自适应地调整，从而加速收敛并提高性能。

步骤S3046，分离信号。

使用训练好的ICA网络对混合音频信号进行分离，得到独立的源音频信号。

步骤S3048，后处理。

对分离出来的源音频信号进行后处理，如去除高频噪声等。例如，可以使用基于深度学习的降噪算法对分离出的源音频信号进行降噪，以进一步提高信号质量和语音清晰度。

相比传统的分离方法，本实施例中采用基于深度学习的语音分离方法具有以下有益效果：1）能够处理更复杂的混叠情况：基于深度学习的方法可以通过端到端的学习来处理非常复杂的混叠情况，因此可以处理比基于时间-频率分析的方法更复杂的场景。2）无需手动选择参数：基于深度学习的方法通常不需要手动选择参数，因为这些方法使用神经网络自动学习特征。因此，这种方法可以更加自动化和方便。3）对信号假设较少：基于深度学习的方法不需要强制对语音信号做出特定的假设。相反，这些方法使用神经网络从数据中学习特征，因此可以更好地适应不同类型的信号。

步骤S306，确定响应方式，并基于响应方式进行交互。

如果响应级别小于预设级别阈值或者响应难度小于预设难度阈值，则确定响应方式为人工智能模式。在这种模式下，可以使用人工智能算法来驱动远程数字人设备上的远程数字人。

例如，可以在服务器上基于用户输入数据生成响应文字，并将响应文字发送给远程数字人设备，由远程数字人设备基于响应文字，生成用于驱动数字人的驱动数据，并基于驱动数据来渲染远程数字人设备上的数字人。在另外一些实施例中，也可以是在服务器上直接基于响应文字进行渲染，生成音视频文件，并将音视频文件传送给远程数字人设备。

如果响应级别大于等于预设级别阈值或者响应难度大于等于预设难度阈值，则确定响应方式为中之人模式。在这种模式下，需要使用动捕装置实时捕捉所述中之人的驱动数据来驱动远程数字人设备上的远程数字人。这通常需要中之人和远程数字人设备之间进行实时交互和协作，以确保远程数字人设备能够准确地理解和执行中之人的动作和指令。

上述采用中之人模式的远程数字人的交互方法可以如图5所示，包括以下步骤：

步骤S3060，获取动捕数据。

利用动捕装置上的惯性传感器、摄像头、麦克风等数据采集设备获取中之人的动捕数据。动捕装置可以是例如动捕头盔、动捕服、动捕手套等。动捕装置采集的中之人的动捕数据经由无线路由器等传送给服务器。

步骤S3062，对动捕数据进行降维处理。

服务器接收到动捕数据之后，对动捕数据进行预处理。具体地，利用卷积神经网络从动捕数据中提取数据特征，并对数据特征进行降维处理，得到降维后的特征矩阵。动捕装置上的惯性传感器、摄像头、麦克风等采集动捕数据，并将所采集的动捕数据作为多类特征数据输入到卷积神经网络中的多个通道，对多个通道内的多类特征数据进行滑动窗口处理，之后进行二维卷积，在空间上对多类特征数据进行卷积，以从多类特征数据中提取数据特征，之后，对所提取的数据特征进行降维处理，得到降维后的特征矩阵。

步骤S3064，对动捕数据进行误差补偿。

首先，计算长短期记忆网络中每个神经元的正向传播参数和反向传播参数，基于正向传播参数和反向传播参数计算长短期记忆网络中输出层的误差项。具体地，针对正向传播方向，基于正向传播参数，以当前时刻为起始点，计算正向传播方向上输出层中相邻两个神经元之间的误差项；针对反向传播方向，基于反向传播参数，以当前时刻为起始点，计算反向传播方向上输出层中相邻两个神经元之间的误差项。

接着，基于所计算出的误差项，对降维后的特征矩阵进行序列预测，以对动捕数据进行误差补偿。例如，对长短期记忆网络的时间序列进行反向传播和归一化处理；利用反向传播和归一化处理后的时间序列，对长短期记忆网络中的学习率和权值进行学习；基于权值、学习率和误差项，对降维后的特征矩阵进行序列预测。本实施例中，通过对长短期记忆网络中的权值不断更新，提高了误差补偿的精度。

在一个示例中，长短期记忆网络中的权值可以通过动量来更新。动量法是一种梯度下降算法，其主要是引入动量来加速梯度下降的过程。动量法在每次更新时，不仅考虑当前的梯度，还考虑之前的梯度，这样可以使得梯度下降更加平稳，避免出现过大的方向变化。

动量法中使用的动量（momentum）是一个指数移动平均值，它类似于物理学中的动量，用来表示之前梯度的加权平均值。在每次梯度更新时，动量会根据当前梯度和之前梯度的加权平均值来决定下一步的方向和步长。

本实施例中，通过加速度向量和动量因子来计算动量。假设第 t 个时刻即当前时刻的权值为θt，当前时刻的动量为 v_t，当前时刻的动量因子为 m_t，加速度向量为 a_t，当前时刻和上一时刻的梯度为 g_t和 g_t-1，时间步长为 Δt。那么，可以将动量计算公式表示为：

其中，v_t为当前时刻的动量，v_t-1为上一时刻的动量， m_t为当前时刻的动量因子，m_t-1为上一时刻的动量因子，g_t为当前时刻的梯度，g_t-1为上一时刻的梯度， a_t为当前时刻的加速度向量，a_t-1为上一时刻的加速度向量， B是加速度的权值，Δm 和γ 是可以调整的参数，分别用于控制动量因子的变化速度和变化步长；α为学习率，用于控制历史动量对当前梯度的影响。θt为当前时刻的权值，θ_t-1为上一时刻的权值。

在传统的动量算法中，动量因子是一个固定不变的值，而在本实施例中，动量因子是动态调整的，可以根据当前训练状态来进行适当的调整。例如，可以使用线性或非线性的方式来调整动量因子，以更好地适应不同的数据。如果当前时刻的梯度方向和上一时刻的梯度方向相同，说明模型在这个方向上正在朝着正确的方向前进，此时可以适当提高动量因子；反之，如果梯度方向变化较大，说明模型还没有找到正确的方向，此时应该降低动量因子。时序信息可以使用当前时刻和上一时刻的梯度 g_t和 g_t-1，以及时间步长 Δt 来计算。

在传统的动量优化算法中，动量因子是固定不变的，这可能会导致在训练过程的不同阶段，模型对梯度的处理方式不够灵活。因此，本实施例引入动态动量因子，即在训练过程中动态地调整动量因子，以更好地适应不同的数据。例如，可以使用线性或非线性的方式来调整动量因子。

此外，在训练过程中，可能会出现梯度在某些方向上震荡的情况，这可能会导致动量计算的不准确性。为了解决这个问题，本实施例引入加速度参数，即在计算动量时加入加速度向量，用于记录梯度的变化趋势，并在计算动量时对其进行考虑。

此外，在计算动量时还引入了时序信息。在序列数据中，每个时刻之间的关系可能会影响梯度的变化趋势，本实施例在动量计算中引入时序信息，将当前时刻和上一时刻的梯度信息结合起来，以更好地处理序列数据。

本实施例通过引入动态动量因子、加速度和时序信息，可以更准确地计算动量，提高训练的稳定性和收敛速度。

步骤S3066，利用动捕数据驱动远程数字人设备上的虚拟数字人。

在对动捕数据进行误差补偿之后，对误差补偿后的动捕数据进行快调处理，并基于快调处理后的动捕数据进行渲染，生成音视频，然后，将所生成的音视频发送给远程数字人设备。也可以是直接将快调处理后的动捕数据发送给远程数字人设备，由远程数字人设备基于动捕数据进行渲染，驱动其上的虚拟数字人。

实施例4

根据本申请实施例提供了一种基于语音信号分离的远程数字人交互方法，该方法包括以下步骤：

步骤S402，从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据、视频数据和音视频数据。

本实施例使用音频数据、视频数据或音视频数据作为用户输入，可以更加准确地传达用户意图，提高远程数字人的响应效率和精确度，从而实现远程数字人的高效交互。

步骤S404，基于所述用户输入数据，判断所述远程数字人设备的响应级别或响应难度，并基于所述响应级别或所述响应难度，确定用于响应所述用户输入数据的响应方式。

首先，判断响应级别或响应难度。

基于预设时间段的所述用户输入数据确定所述远程数字人设备的服务对象的数量，并基于所述服务对象的数量，确定所述响应级别；和/或解析所述用户输入数据，将所述用户输入数据中转换为文字信息，基于所述文字信息确定响应内容的难度，并基于所述响应内容的难度确定所述响应难度。

例如，在所述用户输入数据是所述音视频数据或所述视频数据的情况下，将预设时间段内的所述音视频数据或所述视频数据拆分为图像序列，针对所述图像序列中的每个图像，识别所述每个图像内包含的人数，并将所识别出的最大人数作为所述远程数字人设备的服务对象的数量。

再例如，在所述用户输入数据是所述音视频数据或所述音频数据的情况下，使用语音分离算法将所述音视频数据或所述音频数据分离成不同的语音信号，每个语音信号对应一个人的说话内容；对于所述每个语音信号，使用语音识别技术来识别所述每个语音信号中的文字内容，并根据所识别出的文字内容，判断所述音视频数据或所述音频数据中包含的发声的人数，并将所述发声的人数作为所述远程数字人设备的服务对象的数量。

其次，基于响应级别或响应难度来确定响应方式。

在所述响应级别小于预设级别阈值或者所述响应难度小于预设难度阈值的情况下，确定所述响应方式为所述人工智能模式；在所述响应级别大于等于所述预设级别阈值或者所述响应难度大于等于所述预设难度阈值的情况下，确定所述响应方式为所述中之人模式。

其中，所述级别阈值是基于所述远程数字人设备在交互时服务对象的数量来设定的，所述服务对象的数量越多，所述响应级别越高；所述难度阈值是基于所述远程数字人设备在交互时响应的内容来设定的，其中，所述响应的内容越复杂，所述响应难度级别越高。

步骤S406，在所确定的响应方式为人工智能模式的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所确定的响应方式为中之人模式的情况下，通过实时捕捉所述中之人的驱动数据来驱动所述远程数字人设备上的远程数字人。

在所确定的响应方式为人工智能模式的情况下，将所述用户输入数据输入到利用人工智能算法训练得到的自然语言处理模型中进行语义分析，以获取用户的意图；基于所述语义分析的结果，生成用于响应所述用户输入数据的语音数据，并基于所述语音数据确定驱动数据；将所述驱动数据推送给所述远程数字人设备，以使得所述远程数字人设备基于所述驱动数据来渲染所述远程数字人；或者，利用所述驱动数据来渲染所述远程数字人，生成渲染后的音视频数据，并将所述渲染后的音视频数据推送给所述远程数字人设备。

在所确定的响应方式为中之人模式的情况下，通过传感器设备实时对所述中之人进行动作捕捉和语音捕捉，得到驱动数据；将所述驱动数据推送给所述远程数字人设备，以使得所述远程数字人设备基于所述驱动数据来渲染所述远程数字人；或者，利用所述驱动数据来渲染所述远程数字人，生成渲染后的音视频数据，并将所述渲染后的音视频数据推送给所述远程数字人设备。

本申请实施例，根据响应级别或响应难度来确定响应方式，选择最适合的人工智能模式或中之人模式来驱动远程数字人设备上的远程数字人，使其响应更加灵活。此外，使用人工智能算法驱动远程数字人，可以自动学习和优化，提高其应用价值，而中之人模式则可以结合人类参与者的智慧和经验，提高远程数字人的交互质量和响应效率。

实施例5

本申请实施例提供了一种基于语音信号分离的远程数字人交互装置，如图6所示，该装置包括接收模块62、确定模块64和驱动模块66。

接收模块62被配置为从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据、视频数据和音视频数据。

确定模块64被配置为基于所述用户输入数据，判断所述远程数字人设备的响应级别或响应难度，并基于所述响应级别或所述响应难度，确定用于响应所述用户输入数据的响应方式。

驱动模块66被配置为在所确定的响应方式为人工智能模式的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所确定的响应方式为中之人模式的情况下，通过实时获取所述中之人的驱动数据来驱动所述远程数字人设备上的远程数字人；

其中，所述中之人是用于驱动所述远程数字人设备上的远程数字人的人类参与者。

本申请实施例中的远程数字人交互装置，用于和远程数字人设备交互。远程数字人设备在远程数字人交互装置的控制下可以提供产品展示和解释、解答常见问题、帮助用户查找特定产品、提供销售支持等服务。远程数字人设备还可以使用自然语言生成技术向用户提供反馈和建议。例如，当用户询问有关某个产品的信息时，数字人设备可以根据用户的需求和口吻自动生成文本或语音反馈，为用户提供最佳的帮助和支持。

远程数字人设备还可以使用计算机视觉技术和人脸识别技术来提供个性化的服务。例如，当用户进入销售门店时，数字人设备可以使用人脸识别技术来识别用户，并根据用户的历史购买记录、偏好和行为提供个性化的建议和服务。远程数字人设备还可以使用计算机视觉技术来分析用户的行为和行动路径，以更好地了解用户需求和行为，并提供最佳的服务和支持。

总之，数字人设备可以在销售门店中为用户提供更加智能、个性化和高效的服务和支持，从而提高用户满意度和销售业绩。

本申请实施例中的远程数字人交互装置能够实现上述实施例中的远程数字人交互方法，因此，此处不再赘述。

实施例6

本申请实施例提供了一种电子设备，如图7所示，该电子设备包括：

处理器（processor）291，电子设备还包括了存储器（memory）292；还可以包括通信接口（Communication Interface）293和总线294。其中，处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291可以调用存储器294中的逻辑指令，以执行上述实施例的方法。此外，上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器292作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器292可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器292可以包括高速随机存取存储器，还可以包括非易失性存储器。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现任一实施例中所述的方法。

本申请实施例还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时用于实现任一实施例中所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于语音信号分离的远程数字人交互方法，其特征在于，包括：

从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据和音视频数据；

从所述用户输入数据中提取出当前混合音频信号，并对所述当前混合音频信号进行语音分离，得到多个不同的当前源音频信号；

基于多个不同的所述当前源音频信号判断所述远程数字人设备的响应级别，在所述响应级别小于预设级别阈值的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所述响应级别大于等于所述预设级别阈值的情况下，通过实时获取中之人的驱动数据来驱动所述远程数字人设备上的远程数字人；

2.根据权利要求1所述的方法，其特征在于，在对所述当前混合音频信号进行语音分离之前，所述方法还包括：

通过最小化训练数据集中的源音频信号的相关性和混合矩阵的偏离正交性，来构建损失函数，其中，所述混合矩阵为混合所述训练数据集中的混合音频信号与所述训练数据集中的源音频信号而得到的矩阵；

基于所构建的损失函数，来训练用于对所述当前混合音频信号进行语音分离的神经网络模型。

3.根据权利要求2所述的方法，其特征在于，通过最小化训练数据集中的源音频信号的相关性和混合矩阵的偏离正交性，来构建损失函数，包括：

基于所述源音频信号的矩阵和所述混合矩阵，来最小化所述源音频信号的相关性；

基于所述混合矩阵和所述混合矩阵的范数，来最小化所述混合矩阵的偏离正交性；

通过平衡因子来控制所述源音频信号的相关性和所述混合矩阵的偏离正交性的平衡，以构建所述损失函数。

4.根据权利要求2所述的方法，其特征在于，基于所构建的损失函数，来训练用于对所述当前混合音频信号进行语音分离的神经网络模型，包括：循环执行以下步骤，直到所述损失函数的损失值最小化：

向所述神经网络模型输入所述训练数据集中的所述混合音频信号，通过前向传播计算出所述神经网络模型对所述源音频信号的预测值；

将所述预测值和所述源音频信号的真实值代入所述损失函数，计算出所述真实值的损失值；

通过反向传播计算出所述神经网络模型的每个参数对所述损失函数的历史梯度平方和；

根据所述历史梯度平方和的动量信息，来更新所述神经网络模型的每个参数。

5.根据权利要求4所述的方法，其特征在于，根据所述历史梯度平方和的动量信息，来更新所述神经网络模型的每个参数，包括：

基于所述历史梯度平方和，来更新所述历史梯度平方和的一阶动量和二阶动量，并对所述一阶动量和所述二阶动量进行校正；

基于校正后的所述一阶动量和所述二阶动量，来更新所述神经网络模型的每个参数。

6.根据权利要求5所述的方法，其特征在于，基于所述历史梯度平方和，来更新所述历史梯度平方和的一阶动量和二阶动量，并对所述一阶动量和所述二阶动量进行校正，包括：

基于所述历史梯度平方和、用于控制所述一阶动量的指数加权平均的超参数、和用于控制所述二阶动量的指数加权平均的超参数，来更新所述一阶动量和所述二阶动量；

基于用于控制所述一阶动量的指数加权平均的超参数、用于控制所述二阶动量的指数加权平均的超参数、以及迭代次数，来对所述一阶动量和所述二阶动量进行校正。

7.根据权利要求1所述的方法，其特征在于，基于多个不同的所述当前源音频信号判断所述远程数字人设备的响应级别，包括：基于多个不同的所述当前源音频信号确定所述远程数字人设备在单位时间段内的服务对象的数量，并基于所述服务对象的数量，确定所述响应级别，其中，在所述单位时间段内的所述服务对象的数量越多，所述响应级别越高。

8.根据权利要求7所述的方法，其特征在于，基于多个不同的所述当前源音频信号确定所述远程数字人设备在单位时间段内的服务对象的数量，包括：

对于每个当前源音频信号，使用语音识别技术来识别在所述单位时间段内每个所述当前源音频信号中的文字内容；

根据所识别出的文字内容，判断所述音视频数据或所述音频数据中在所述单位时间段内包含的发声的人数，并将所述发声的人数作为所述远程数字人设备的服务对象的数量。

9.一种基于语音信号分离的远程数字人交互装置，其特征在于，包括：

接收模块，被配置为从远程数字人设备接收用户输入数据，其中，所述用户输入数据包括以下至少之一：音频数据和音视频数据；

确定模块，被配置为从所述用户输入数据中提取出当前混合音频信号，并对所述当前混合音频信号进行语音分离，得到多个不同的当前源音频信号；

驱动模块，被配置为：基于多个不同的所述当前源音频信号判断所述远程数字人设备的响应级别，在所述响应级别小于预设级别阈值的情况下，使用人工智能算法来驱动所述远程数字人设备上的远程数字人；在所述响应级别大于等于所述预设级别阈值的情况下，通过实时获取中之人的驱动数据来驱动所述远程数字人设备上的远程数字人;

10.一种基于语音信号分离的远程数字人交互系统，其特征在于，包括：

动捕装置，被配置为采集中之人的动作数据和语音数据，以生成驱动数据；

如权利要求9所述的远程数字人交互装置，通过网络分别与所述动捕装置和多个远程数字人设备连接；

多个所述远程数字人设备，每个所述远程数字人设备用于将所采集的用户输入数据发送给所述远程数字人交互装置，并基于所述远程数字人交互装置的响应数据来驱动该远程数字人设备上的远程数字人。