CN117807429A

CN117807429A - 使用加速度计数据进行基于深度学习的声音预测的系统和方法

Info

Publication number: CN117807429A
Application number: CN202311269477.5A
Authority: CN
Inventors: I·巴塔洛夫; T·阿尔贝尔; F·J·C·孔德萨; F·郎; F·舍恩; C·欧; M·胡贝尔; D·瑙姆金; M·库卡; B·利普奇克; M·博世特; A·亨克
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2022-09-30
Filing date: 2023-09-27
Publication date: 2024-04-02
Also published as: US20240112019A1; DE102023209443A1

Abstract

使用加速度计数据进行基于深度学习的声音预测的系统和方法。一种系统包括与一个或多个传感器通信的处理器。处理器被编程为从所述一个或多个传感器接收来自测试设备的振动信息和与振动信息相关联的声音信息；利用至少振动数据和与振动数据相关联的声音信息生成训练数据集，其中所述训练数据集被发送至被配置为输出声音预测的机器学习模型；从运行发出实时振动数据的致动器或电驱动的运行时设备接收实时振动数据；并且基于机器学习模型和实时振动数据，输出指示从运行时设备发出的声称声音的声音预测。

Description

使用加速度计数据进行基于深度学习的声音预测的系统和方法

技术领域

本发明涉及一种机器学习网络，其包括与带有电驱动机器的设备相关联的机器学习网络。

背景技术

机电系统针对噪声、振动和粗糙度(NVH)的分析是产品开发和制造质量控制的重要部分。较差的NVH性能可能增加用户在与产品一起工作时的疲劳，引起产品随着时间的推移的附加退化(磨损和撕裂)，并对客户的购买决策产生负面影响。尽管一些NVH特性可以仅使用加速度计数据进行测量，但是其他特性也需要在操作期间产生声音记录。然而，虽然通过将加速度计附接到产品外壳可以相对容易地记录可靠的加速度计数据，但是在某些应用中，产生高质量的声音记录可能更具挑战性。这在装配工厂对新制造的ED(电驱动)进行生产线末端(EOL)测试时尤其重要，在装配工厂，背景噪声可能过高而无法产生高信噪比的记录。此外，由于工厂运营的成本和时间安排约束，具有专用记录环境可能不可行。可以通过创建基于可用振动数据估计声音的软(虚拟)传感器来提供获取声音信号的替代方法。

大多数当前虚拟感测方法通常依赖于基于物理的模型，该模型开发麻烦，难以适用于其设计针对的狭窄系统范围之外的使用，并且在传感器之间的关系的复杂性方面受限于其可以学习的明确实现的传感器。新颖的基于深度学习的方法也已经被开发用于各种虚拟感测应用，诸如声音分离、噪声语音增强等。这些数据驱动的方法可能是通用的，并且可以学习复杂的数据关系。然而，没有这样的方法适用于电驱动中的声音的虚拟感测。

发明内容

根据第一实施例，计算机实现的方法包括从与第一环境中的测试设备相关联的一个或多个第一传感器接收振动信息和声音信息；利用至少振动信息和声音信息生成训练数据集，其中所述训练数据集被发送至机器学习模型；响应于利用训练数据集满足机器学习模型的收敛阈值，输出经训练的机器学习模型；从与第二环境中的运行时设备相关联的一个或多个第二传感器接收实时振动信息；并且基于经训练的机器学习模型和实时振动信息，输出指示从运行时设备发出的声称操作声音的声音预测。

根据第二实施例，计算机实现的方法包括从第一环境中的测试设备接收振动信息和与对应振动信息相关联的声音信息；利用至少振动数据和与振动数据相关联的声音信息生成训练数据集，其中所述训练数据集被发送至被配置为输出声音预测的机器学习模型；从在第二环境中操作致动器或电驱动的运行时设备接收实时振动信息；并且基于机器学习模型和实时振动信息，输出指示从操作运行时设备发出的声称声音的声音预测。

根据第三实施例，系统包括与一个或多个传感器通信的处理器。处理器被编程为从所述一个或多个传感器接收来自测试设备的振动信息和与振动信息相关联的声音信息；利用至少振动数据和与振动数据相关联的声音信息生成训练数据集，其中所述训练数据集被发送至被配置为输出声音预测的机器学习模型；从运行发出实时振动数据的致动器或电驱动的运行时设备接收实时振动数据；并且基于机器学习模型和实时振动数据，输出指示从运行时设备发出的声称声音的声音预测。

附图说明

图1示出了用于训练神经网络的系统100。

图2描绘了实现用于注释数据的系统的数据注释系统200。

图3公开了利用声音信息训练机器学习模型的实施例的流程图。

图4A公开了利用直接预测的流程图。

图4B公开了利用间接预测的流程图。

图5描绘了计算机控制机器和控制系统之间的交互的示意图。

图6描绘了控制系统的示意图，该控制系统被配置为控制车辆，该车辆可以是部分自主车辆或部分自主机器人。

图7描绘了控制系统的示意图，该控制系统被配置为控制制造系统(诸如生产线的一部分)的制造机器，诸如冲头切割机、切割机或枪钻。

图8描绘了控制系统的示意图，该控制系统被配置为控制具有至少部分自主模式的电动工具，诸如电钻或驱动器。

图9描绘了被配置为控制自动个人助理的控制系统的示意图。

图10公开了一种场景中的虚拟感测模型流程图的示例。

图11公开了系统监测如与各种传感器数据相关的生产线末端测试以输出预测的图表，该预测可以包括扭矩预测或声音预测。

图12公开了与预测分析模型相关联的流程图。

具体实施方式

本文中描述了本公开的实施例。然而，应理解，所公开的实施例仅仅是示例，并且其他实施例可以采取各种和替代形式。附图不一定是按比例的；一些特征可以被放大或最小化以示出特定组件的细节。因此，本文中公开的特定结构和功能细节不应被解释为限制性的，而仅仅是作为教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员将理解的，参考任一附图所图示和描述的各种特征可以与一个或多个其他附图中所图示的特征相组合，以产生未明确图示或描述的实施例。所图示特征的组合为典型应用提供了代表性实施例。然而，对于特定应用或实施方式，与本公开的教导一致的特征的各种组合和修改可以是合期望的。

该系统和方法提出了一种新颖的基于深度学习的虚拟感测方法，用于使用振动(加速度计)数据估计机电系统(EM)在操作期间产生的声音。高保真麦克风数据可以预测为原始时间序列、谱图或次序谱图(谱图，其中频率定义为EM系统旋转速度的倍数)，这取决于所期望的应用。由于该方法可以是纯数据驱动的，因此它可以容易地应用于各种各样的EM系统和特定任务。

在该方法中，声音预测模型可以被训练为以端到端的方式最小化声音重建误差和人类感知分数误差这两者，与直接方法相比，这可以提高模型性能。所提出的方法依赖于当前存在的深度机器学习架构，诸如U-Net和Transformer，来学习不同传感器信号之间的关系。这些模型适用于各种各样的任务，包括自然语言处理、计算机视觉、音频处理、信号处理等。

虚拟感测依赖于源信号包含关于目标信号的信息的假设，即源信号和目标信号之间的互信息为正：

I(S，T)＝H(T)-H(T|S)＝D_KL(p(S，T)||p(S)*p(T))＞0

其中H(T)是目标信号的熵，H(T|S)是以源信号为条件的目标信号的熵，以及D_KL(p(S，T)||p(S)*p(T))是联合分布和边际信号分布的乘积之间的Kullback-Leibler散度。如果I(S，T)＞0，则通过观察源信号来估计预期的目标信号是可能的。由于电机-齿轮系统生成的声音来源于电机以及齿轮振动，因此振动数据携带有用的信息，这允许我们将其用于声音和人类声音感知评估。然而，由于加速度计和声音信号之间的关系可能很复杂并且与环境相关，因此找到这样的关系并不容易。这里，我们利用深度神经网络的代表能力来估计预期的目标信号：

E(T|S)＝f(S)

其中f是神经网络基于可用训练数据学习的传递函数。

使用各种程序开发虚拟感测模型，用于基于加速度计数据估计EM系统在特定环境中在其操作期间产生的声音。例如，模型将要部署的环境在无噪声实验室中复制，其中添加了麦克风。可以为一组选定的产品收集成对的传感器(加速度计和麦克风)数据，以用作虚拟感测模型的训练数据。

在另一个示例中，可以训练深度神经网络(例如U-Net或Transformer)，通过调整其可训练权重以最小化声音预测误差，使用加速度计信号作为输入来预测声音。输入可以具有时间序列、谱图或次序谱图的形式。声音以与输入相同的形式预测。例如，如果输入是以谱图的形式，则可以预测相同维度的谱图。

在又另一个示例中，模型可以部署在目标环境中，其中生成的声音预测可以用于适当的产品分析(例如，用于计算产品的NVH特性)。该环境可以是EOL环境或任何其他类型的环境。

图1示出了用于训练神经网络的系统100。系统100可以包括用于访问神经网络的训练数据192的输入接口。例如，如图1中所图示的，输入接口可以由数据存储接口180构成，该数据存储接口可以从数据存储装置190访问训练数据192。例如，数据存储接口180可以是存储器接口或持久存储接口，例如硬盘或SSD接口，但也可以是个人、局域或广域网络接口，诸如蓝牙、Zigbee或Wi-Fi接口或以太网或光纤接口。数据存储装置190可以是系统100的内部数据存储装置，诸如硬盘驱动或SSD，但也可以是外部数据存储装置，例如，网络可访问的数据存储装置。

在一些实施例中，数据存储装置190可以进一步包括神经网络的未训练版本的数据表示194，系统100可以从数据存储装置190访问该数据表示。然而，将领会，训练数据192和未训练神经网络的数据表示194也可以每个从不同的数据存储装置中访问，例如，经由数据存储接口180的不同子系统。每个子系统可以具有如上面所描述的数据存储接口180的类型。在其他实施例中，未训练神经网络的数据表示194可以由系统100基于神经网络的设计参数在内部生成，并且因此可以不显式地存储在数据存储装置190上。系统100可以进一步包括处理器子系统160，其可以被配置为在系统100的操作期间提供迭代函数，作为要训练的神经网络层的堆叠的替代。在一个实施例中，被替代的层堆叠的相应层可以具有相互共享的权重，并且可以接收前一层的输出作为输入，或者对于层堆叠的第一层，接收初始激活和层堆叠的输入的一部分作为输入。系统还可以包括多个层。处理器子系统160可以进一步被配置为使用训练数据192迭代地训练神经网络。这里，处理器子系统160的训练迭代可以包括前向传播部分和后向传播部分。处理器子系统160可以被配置为通过以下方式来执行前向传播部分：除了定义可以执行的前向传播部分的其他操作之外，尤其确定迭代函数的平衡点，在该平衡点处迭代函数收敛到固定点，其中，确定平衡点包括使用数值根查找算法来找到迭代函数减去其输入的根解；以及通过提供平衡点作为神经网络中的层堆叠的输出的替代。系统100可以进一步包括输出接口，用于输出经训练神经网络的数据表示196，该数据也可以称为经训练模型数据196。例如，也如图1中所图示的，输出接口可以由数据存储接口180构成，在这些实施例中，所述接口是输入/输出(“IO”)接口，经由该接口，经训练模型数据196可以存储在数据存储装置190中。例如，定义“未训练”神经网络的数据表示194可以在训练期间或之后被替换，至少部分替换为经训练神经网络的数据表示196，因为神经网络的参数(诸如神经网络的权重、超参数和其他类型的参数)可以适于在训练数据192上反映训练。在图1中，还通过参考数据存储装置190上的相同数据记录的附图标记194、196来说明这一点。在其他实施例中，数据表示196可以与定义“未训练”神经网络的数据表示194分离存储。在一些实施例中，输出接口可以与数据存储接口180分离，但一般可以具有如上面描述的数据存储接口180的类型。

图2描绘了实现用于注释数据的系统的数据注释系统200。数据注释系统200可以包括至少一个计算系统202。计算系统202可以包括至少一个处理器204，该处理器204操作性地连接到存储器单元208。处理器204可以包括实现中央处理单元(CPU)206的功能的一个或多个集成电路。CPU 206可以是商业上可获得的处理单元，其实现诸如x86、ARM、Power或MIPS指令集系列之一的指令集。在操作期间，CPU 206可以执行从存储器单元208检索的存储的程序指令。存储的程序指令可以包括控制CPU 206的操作以执行本文中描述的操作的软件。在一些示例中，处理器204可以是将CPU 206、存储器单元208、网络接口和输入/输出接口的功能集成到单个集成设备中的片上系统(SoC)。计算系统202可以实现用于管理操作的各个方面的操作系统。

存储器单元208可以包括用于存储指令和数据的易失性存储器和非易失性存储器。非易失性存储器可以包括固态存储器，诸如NAND闪速存储器、磁性和光学存储介质，或者当计算系统202被停用或丢失电力时保留数据的任何其他合适的数据存储设备。易失性存储器可以包括存储程序指令和数据的静态和动态随机存取存储器(RAM)。例如，存储器单元208可以存储机器学习模型210或算法、机器学习模型210的训练数据集212、原始源数据集215。

计算系统202可以包括网络接口设备222，其被配置为提供与外部系统和设备的通信。例如，网络接口设备222可以包括如由电气和电子工程师协会(IEEE)802.11系列标准定义的有线和/或无线以太网接口。网络接口设备222可以包括用于与蜂窝网络(例如，3G、4G、5G)通信的蜂窝通信接口。网络接口设备222可以进一步被配置为向外部网络224或云提供通信接口。

外部网络224可以称为万维网或互联网。外部网络224可以在计算设备之间建立标准通信协议。外部网络224可以允许在计算设备和网络之间容易地交换信息和数据。一个或多个服务器230可以与外部网络224通信。

计算系统202可以包括输入/输出(I/O)接口220，其可以被配置为提供数字和/或模拟输入和输出。I/O接口220可以包括用于与外部设备通信的附加串行接口(例如，通用串行总线(USB)接口)。

计算系统202可以包括人机接口(HMI)设备218，该人机接口设备218可以包括使得系统200能够接收控制输入的任何设备。输入设备的示例可以包括人机接口输入，诸如键盘、鼠标、触摸屏、语音输入设备和其他类似设备。计算系统202可以包括显示设备232。计算系统202可以包括用于将图形和文本信息输出到显示设备232的硬件和软件。显示设备232可以包括电子显示屏、投影仪、打印机或用于向用户或操作员显示信息的其他合适设备。计算系统202可以进一步被配置为允许经由网络接口设备222与远程HMI和远程显示设备进行交互。

系统200可以使用一个或多个计算系统来实现。虽然该示例描绘了实现所有所描述特征的单个计算系统202，但是意图的是通过彼此通信的多个计算单元来分离和实现各种特征和功能。所选择的特定系统架构可以取决于各种因素。

系统200可以实现被配置为分析原始源数据集215的机器学习算法210。原始源数据集215可以包括原始或未处理的传感器数据，这些传感器数据可以代表用于机器学习系统的输入数据集。原始源数据集215可以包括视频、视频段、图像、基于文本的信息、和原始或部分经处理的传感器数据(例如对象的雷达地图)。在一些示例中，机器学习算法210可以是设计用于执行预确定功能的神经网络算法。例如，可以在汽车应用中配置神经网络算法以标识视频图像中的行人。

计算机系统200可以存储用于机器学习算法210的训练数据集212。训练数据集212可以表示用于训练机器学习算法210的一组先前构造的数据。机器学习算法210可以使用训练数据集212来学习与神经网络算法相关联的加权因子。训练数据集212可以包括一组源数据，该组源数据具有机器学习算法210试图经由学习过程复制的对应成果或结果。在该示例中，训练数据集212可以包括有行人和无行人的源视频以及对应的存在和位置信息。源视频可以包括其中标识行人的各种场景。

机器学习算法210可以使用训练数据集212作为输入在学习模式下操作。可以使用来自训练数据集212的数据在多个迭代中执行机器学习算法210。对于每个迭代，机器学习算法210可以基于实现的结果更新内部加权因子。例如，机器学习算法210可以将输出结果(例如，注释)与包括在训练数据集212中的结果进行比较。由于训练数据集212包括预期结果，因此机器学习算法210可以确定何时性能是可接受的。在机器学习算法210达到预确定的性能水平(例如，与训练数据集212相关联的成果100％一致)之后，可以使用不在训练数据集212中的数据来执行机器学习算法210。经训练的机器学习算法210可以应用于新的数据集以生成带注释的数据。

机器学习算法210可以被配置为标识原始源数据215中的特定特征。原始源数据215可以包括期望注释结果的多个实例或输入数据集。例如，机器学习算法210可以被配置为标识视频图像中行人的存在并注释发生的情况。机器学习算法210可以被编程为处理原始源数据215以标识特定特征的存在。机器学习算法210可以被配置为将原始源数据215中的特征标识为预确定特征(例如，行人)。原始源数据215可以从各种源导出。例如，原始源数据215可以是由机器学习系统收集的实际输入数据。原始源数据215可以是为了测试系统由机器生成的。作为示例，原始源数据215可以包括来自相机的原始视频图像。

在示例中，机器学习算法210可以处理原始源数据215并输出图像表示的指示。输出还可以包括图像的增强表示。机器学习算法210可以为每个生成的输出生成置信度水平或因子。例如，超过预确定高置信度阈值的置信度值可以指示机器学习算法210确信所标识的特征对应于特定特征。小于低置信度阈值的置信度值可以指示机器学习算法210具有特定特征存在的某些不确定性。

图3公开了利用声音信息训练机器学习模型的实施例的流程图。电子设备可以是任何类型的设备。例如，电子设备可以是车辆、电动工具、或从电驱动发射声音的任何类型的设备。在一个实施例中，电驱动可以是ACT电机驱动或DC电机驱动。例如，AC驱动可以是用于通过改变电机的电源频率来控制电动机速度的设备，诸如三相感应电机。AC驱动也可以称为变频驱动(VFD)或变速驱动(VSD)。DC电机驱动可以是DC电机的速度控制系统，其向电机供应电压以在期望的速度下操作。DC驱动也可以分类为模拟DC驱动和数字DC驱动。

电驱动301可以包括发射声音的一个或多个传感器。电驱动301可以包括处理器、控制器或电子控制单元303。例如，传感器可以包括加速度计305。声音307可以从电驱动(ED)发射，并由麦克风313拾取。为了训练数据，声音可以在实验室环境中被发射并被利用。因此，可以从实验室环境中利用训练数据311。实验室可以包括具有麦克风313的无噪声环境以检索声音。利用训练数据311，可以利用分数预测网络来估计来自麦克风数据的人类感知分数。

在一个方面中，声音信息307可以由人类手动确定309，以导出分数315。例如，(一个或多个)人类可以听到与电气设备的各种设置相关联的声音信息，并将感知分数赋于它。在其他实施例中，感知分数也可以被自动编程。例如，系统可以利用声音的各种特性(例如，分贝水平、声音频率、非典型声音的流行度等)来赋于声音感知分数319。可以利用利用两者的混合方法。然而，分数可以被馈送到机器学习模型中，该机器学习模型可以用于训练来自其他测试的声音。

机器学习网络可以利用训练数据训练机器学习网络以标识从ED发射的声音。训练数据可以至少包括在其中利用的加速度计数据。加速度计数据可以包括多轴信息，其包括x轴、y轴和z轴信息。机器学习模型可以利用直接方法或间接方法来训练模型。直接方法和间接方法分别在下面的图4A和图4B中更详细地讨论。在一些实施例中，可以利用两种方法的组合来训练机器学习模型。

接下来，系统然后可以在生产线末端测试环境下操作。由于EOL环境有噪音，声音信息可能不可用。该系统可以利用EOL环境中的实时振动(例如加速度计)数据。因此，即使当声音信息在某些环境中不可用时，经训练的机器学习模型也可以依赖于来自设备的振动数据来标识与设备的各种组件的声音有关的感知分数。该系统然后可以利用振动数据输出与EOL设备相关联的感知分数。基于感知分数，系统可以确定是否

上面描述的方法将消除利用陪审团测试评估人类感知分数的需要。此外，与通常的模型相比，可能需要更少的数据。

图4A公开了利用直接预测401的流程图。直接预测方法401可以用于训练机器学习模型。机器学习模型可以根据收敛阈值来训练。机器学习模型网络可以被训练成通过最小化分数预测误差直接从加速度计数据403输出或预测人类感知分数407。加速度计数据403可以从生产线末端测试或任何其他类型的环境中获得，并被馈送到神经网络405中。因此，在达到某个分数预测误差的阈值时，系统可以输出经训练的模型。经训练的模型可以被部署到生产线末端环境或任何其他类型的环境设置中。

图4B公开了利用间接预测450的流程图。间接方法可以包括一个或多个神经网络453、457。神经网络453可以被训练来从加速度计数据预测测量的声音。另一个神经网络457可以被训练来根据声音信息/数据预测人类感知分数461。第二神经网络457可以输出与声音相关联的投影459。投影459可以用于标识感知分数461。预测声音461可以被发送到分数预测网络中。分数预测网络可以从样本中生成人类感知分数。人类感知分数461可以反映声音455的各种特性，诸如声音是否令人愉快、令人不愉快、高音、低音等。在声音预测网络的训练期间，可以冻结分数预测网络的权重，并且训练声音预测网络的权重以最小化声音和分数预测误差的加权和。在接近或达到收敛阈值时，系统可以输出经训练的网络，并且可以部署经训练的网络。

图5描绘了计算机控制的机器10和控制系统12之间的交互的示意图。计算机控制的机器10可以包括如上面描述的神经网络，诸如包括分数预测网络的网络。计算机控制的机器10包括致动器14和传感器16。致动器14可以包括一个或多个致动器，以及传感器16可以包括一个或多个传感器。传感器16被配置为感测计算机控制的机器10的状况。传感器16可以被配置为将感测到的状况编码成传感器信号18，并将传感器信号18传输到控制系统12。传感器16的非限制性示例包括视频、雷达、激光雷达、超声波和运动传感器。在一个实施例中，传感器16是被配置为感测计算机控制的机器10附近的环境的光学图像的光学传感器。

控制系统12被配置为从计算机控制的机器10接收传感器信号18。如下面阐述的，控制系统12可以进一步被配置为取决于传感器信号计算致动器控制命令20，并将致动器控制命令20传输到计算机控制的机器10的致动器14。

如图5中所示，控制系统12包括接收单元22。接收单元22可以被配置为从传感器16接收传感器信号18，并将传感器信号18变换成输入信号x。在替代实施例中，传感器信号18直接作为输入信号x接收，而无需接收单元22。每个输入信号x可以是每个传感器信号18的一部分。接收单元22可以被配置为处理每个传感器信号18以产生每个输入信号x。输入信号x可以包括对应于由传感器16记录的图像的数据。

控制系统12包括分类器24。分类器24可以被配置为使用机器学习(ML)算法(诸如上面描述的神经网络)将输入信号x分类成一个或多个标签。输入信号x可以包括声音信息。分类器24被配置为通过参数(诸如上面描述的那些参数(例如，参数θ))来参数化。参数θ可以存储在非易失性存储装置26中并由其提供。分类器24被配置为从输入信号x确定输出信号y。每个输出信号y包括将一个或多个标签分派给每个输入信号x的信息。分类器24可以将输出信号y传输到转换单元28。转换单元28被配置为将输出信号y转换为致动器控制命令20。控制系统12被配置为将致动器控制命令20传输到致动器14，致动器14被配置为响应于致动器控制命令20来致动计算机控制的机器10。在另一实施例中，致动器14被配置为直接基于输出信号y来致动计算机控制的机器10。

在致动器14接收到致动器控制命令20时，致动器14被配置为执行对应于相关致动器控制命令20的动作。致动器14可以包括被配置为将致动器控制命令20变换成用于控制致动器14的第二致动器控制命令的控制逻辑。在一个或多个实施例中，代替于或附加于致动器，致动器控制命令20可以用于控制显示器。

在另一个实施例中，代替于或附加于包括传感器16的计算机控制的机器10，控制系统12包括传感器16。代替于或附加于包括致动器14的计算机控制的机器10，控制系统12还可以包括致动器14。

如图5中所示，控制系统12还包括处理器30和存储器32。处理器30可以包括一个或多个处理器。存储器32可以包括一个或多个存储器设备。一个或多个实施例的分类器24(例如，ML算法)可以由控制系统12实现，该控制系统12包括非易失性存储装置26、处理器30和存储器32。

非易失性存储装置26可以包括一个或多个持久性数据存储设备，诸如硬盘驱动、光学驱动、磁带驱动、非易失固态设备、云存储装置或能够持久存储信息的任何其他设备。处理器30可以包括一个或多个选自高性能计算(HPC)系统的设备，包括高性能内核、微处理器、微控制器、数字信号处理器、微型计算机、中央处理单元、现场可编程门阵列、可编程逻辑设备、状态机、逻辑电路、模拟电路、数字电路、或基于驻留在存储器32中的计算机可执行指令来操纵信号(模拟或数字)的任何其他设备。存储器32可以包括单个存储器设备或多个存储器设备，包括但不限于随机存取存储器(RAM)、易失性存储器、非易失性存储器、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、闪速存储器、高速缓冲存储器或能够存储信息的任何其他设备。

处理器30可以被配置为读入存储器32并执行驻留在非易失性存储装置26中并且体现一个或多个实施例的一个或多个ML算法和/或方法的计算机可执行指令。非易失性存储装置26可以包括一个或多个操作系统和应用。非易失性存储装置26可以存储使用各种编程语言和/或技术创建的编译性和/或解释性计算机程序，包括但不限于单独或组合的Java、C、C++、C#、Objective C、Fortran、Pascal、Java Script、Python、Perl和PL/SQL。

在由处理器30执行时，非易失性存储装置26的计算机可执行指令可以使控制系统12实现如本文中公开的ML算法和/或方法中的一个或多个。非易失性存储装置26还可以包括支持本文中描述的一个或多个实施例的功能、特征和过程的ML数据(包括数据参数)。

体现本文中描述的算法和/或方法的程序代码能够以各种不同的形式作为程序产品单独或集体分发。程序代码可以使用在其上具有计算机可读程序指令的计算机可读存储介质来分发，用于使处理器实行一个或多个实施例的方面。固有地是非暂时性的计算机可读存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性以及可移除和不可移除的有形介质，所述信息诸如计算机可读指令、数据结构、程序模块或其他数据。计算机可读存储介质可以进一步包括RAM、ROM、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪速存储器或其他固态存储器技术、便携式致密盘只读存储器(CD-ROM)或其他光学存储装置、盒式磁带、磁带、磁盘存储装置或其他磁存储设备，或可以用于存储所期望信息并可以由计算机读取的任何其他介质。计算机可读程序指令可以经由网络从计算机可读存储介质下载到计算机、另一类型的可编程数据处理装置或另一设备，或者下载到外部计算机或外部存储设备。

存储在计算机可读介质中的计算机可读程序指令可以用于引导计算机、其他类型的可编程数据处理装置或其他设备以特定方式运转，使得存储在计算机可读介质中的指令产生制品，包括实现流程图或图表中指定的功能、动作、和/或操作的指令。在某些替代实施例中，流程图和图表中指定的功能、动作和/或操作可以符合一个或多个实施例重新排序、串行处理和/或并发处理。此外，与符合一个或多个实施例所图示的那些相比，流程图和/或图表中的任何一个可以包括更多或更少的节点或块。可以使用合适的硬件组件(诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其他硬件组件或设备)或硬件、软件和固件组件的组合来全部或部分地体现过程、方法或算法。

图6描绘了被配置为控制车辆50的控制系统12的示意图，该车辆50可以是至少部分自主的车辆或至少部分自主机器人。如图5中所示，车辆50包括致动器14和传感器16。传感器16可以包括一个或多个视频传感器、雷达传感器、超声波传感器、激光雷达传感器和/或位置传感器(例如GPS)。一个或多个特定传感器中的一个或多个可以集成到车辆50中。替代于或附加于上面标识的一个或多个特定传感器，传感器16可以包括软件模块，该软件模块被配置为在执行时确定致动器14的状态。软件模块的一个非限制性示例包括被配置为确定车辆50附近或其他位置的目前或未来天气状态的天气信息软件模块。

车辆50的控制系统12的分类器24可以被配置为取决于输入信号x来检测车辆50附近的对象。在这样的实施例中，输出信号y可以包括表征对象在车辆50附近的信息。致动器控制命令20可以根据该信息确定。致动器控制命令20可以用于避免与检测到的对象碰撞。

在车辆50是至少部分自主车辆的实施例中，致动器14可以体现在车辆50的制动器、推进系统、发动机、传动系或转向中。可以确定致动器控制命令20，使得控制致动器14，使得车辆50避免与检测到的对象碰撞。检测到的对象也可以根据分类器24认为它们最可能是什么来分类，诸如行人或树木。取决于分类，可以确定致动器控制命令20。诸如在车辆环境的不良照明条件或不良天气条件以及攻击期间，控制系统12可以利用鲁棒器来帮助针对对抗性条件训练网络。

在车辆50是至少部分自主的机器人的其他实施例中，车辆50可以是被配置为实行一个或多个功能的移动机器人，所述功能诸如飞行、游泳、潜水和步进。移动机器人可以是至少部分自主的割草机或至少部分自主的清洁机器人。在这样的实施例中，可以确定致动器控制命令20，使得可以控制移动机器人的电驱动、推进单元、转向单元和/或制动单元，使得移动机器人可以避免与标识出的对象碰撞。

在另一实施例中，车辆50是园艺机器人形式的至少部分自主机器人。在这样的实施例中，车辆50可以使用光学传感器作为传感器16来确定车辆50附近环境中植物的状态。致动器14可以是被配置为喷洒化学品的喷嘴。车辆50可以基于电驱动来操作和移动。取决于植物的标识出的物种和/或标识出的状态，可以确定致动器控制命令20，以使致动器14向植物喷洒合适量的合适化学品。

车辆50可以是家用电器形式的至少部分自主机器人。家用电器的非限制性示例包括洗衣机、炉子、烤箱、微波炉或洗碗机。在这样的车辆50中，传感器16可以是光学传感器，其被配置为检测要经历由家用电器进行的处理的对象的状态。例如，在家用电器是洗衣机的情况下，传感器16可以检测洗衣机内部的衣物的状态。可以基于检测到的衣物状态来确定致动器控制命令20。

图7描绘了被配置为控制制造系统102(诸如生产线的一部分)的系统100(例如，制造机器)的控制系统12的示意图，系统100诸如冲头切割机、切割机或枪钻。控制系统12可以被配置为控制致动器14，致动器14被配置为控制系统100(例如，制造机器)。

系统100(例如，制造机器)的传感器16可以是被配置为捕获所制造产品104的一个或多个属性的光学传感器，或者传感器可以是加速度计。分类器24可以被配置为根据一个或多个捕获的属性来确定所制造产品104的状态。致动器14可以被配置为取决于所制造产品104的确定状态，针对所制造产品104的后续制造步骤来控制系统100(例如，制造机器)。致动器14可以被配置为取决于所制造产品104的确定状态来控制系统100(例如，制造机器)在系统100(例如，制造机器)后续所制造产品106上的功能。控制系统12可以利用该系统来帮助针对与由致动器或电驱动所利用的噪声相关联的对抗性条件训练机器学习网络，所述对抗性条件诸如与生产线相关联的部件的机械故障。

图8描绘了被配置为控制具有至少部分自主模式的电动工具150(诸如电钻或驱动器)的控制系统12的示意图。控制系统12可以被配置为控制致动器14，致动器14被配置为控制电动工具150。致动器可以由电机或电传动系驱动。致动器可以发射声音，以及电机或电驱动也可以发射声音。

电动工具150的传感器16可以是光学传感器，其被配置为捕获工作表面152和/或正在被驱动到工作表面152中的紧固件154的一个或多个属性。分类器24可以用于对与工具的操作相关联的声音进行分类。附加地，分类器24可以被配置为根据一个或多个捕获的属性来确定工作表面152和/或紧固件154相对于工作表面152的状态。状态可以是紧固件154与工作表面152齐平。替代地，状态可以是工作表面152的硬度。致动器14可以被配置为控制电动工具150，使得电动工具150的驱动功能取决于紧固件154相对于工作表面152的确定状态或工作表面152的一个或多个捕获的属性来调整。例如，如果紧固件154的状态相对于工作表面152齐平，则致动器14可以不再继续驱动功能。作为另一个非限制性示例，致动器14可以取决于工作表面152的硬度应用附加或更少的扭矩。诸如在不良照明条件或不良天气条件期间，控制系统12可以利用鲁棒器来帮助针对对抗性条件训练机器学习网络。因此，控制系统12可能能够标识电动工具150的环境条件。

图9描绘了被配置为控制自动个人助理900的控制系统12的示意图。控制系统12可以被配置为控制致动器14，致动器14被配置为控制自动个人助理900。自动个人助理900可以被配置为控制家用电器，诸如洗衣机、炉子、烤箱、微波炉或洗碗机。传感器16可以是光学传感器和/或音频传感器(诸如麦克风)。光学传感器可以被配置为接收用户902的手势904的视频图像。音频传感器可以被配置为接收用户902的语音命令。

自动个人助理900的控制系统12可以被配置为确定被配置为控制系统12的致动器控制命令20。控制系统12可以被配置为根据传感器16的传感器信号18确定致动器控制命令20。自动个人助理900被配置为将传感器信号18传输到控制系统12。控制系统12的分类器24可以被配置为执行手势识别算法，以标识用户902做出的手势904，确定致动器控制命令20，并将致动器控制命令20传输到致动器14。致动器可以由电传动系机器驱动。分类器24可以被配置为响应于传动系激活致动器而发声，并且以适用于由用户902接收的形式输出检索到的声音信息。控制系统12可以利用分类器来帮助针对基于声音的对抗性条件训练机器学习网络，所述对抗性条件诸如致动器故障或另一组件故障。因此，在这样的场景中，控制系统12可能能够减轻损害。

图10公开了一种场景中的虚拟感测模型流程图的示例。该系统可以首先在实验室环境或者无噪声或具有相对低噪声(例如，噪声不影响从电子设备1005发射的声音)的环境中启动。例如，环境可以是消声室或减轻任何背景噪音或声音的实验室。该系统可以包括电子设备1003。电子设备可以包括电机、致动器、电驱动、推进系统、或发射扭矩1009的类似组件。设备1003可以与用于处理信息和数据的ECU 1001通信。电子设备1003可以包括加速度计1005或发射振动信息的另一传感器，诸如从设备的致动器或电驱动发射的加速度计数据。扭矩1009可以由设备的驱动或任何其他组件发射。麦克风可以获得从设备发射的声音1007。麦克风可以位于实验室环境中或者与设备1005相关联。

声音(例如，声音信息)可以与振动数据配对，以生成训练数据集1011。振动数据可以包括加速度计数据，该加速度计数据包括x轴、y轴和z轴信息。联合数据可以被配对以生成训练数据集，该训练数据集被馈送到机器学习模型1013中。机器学习模型1013可以是经训练的或未训练的模型。因此，如果它是未训练的模型，则可以从头开始利用训练数据1011开发经训练的模型，直到通过减少声音预测误差满足收敛阈值。在未训练模型被利用的程度上，当满足收敛阈值并且误差被最小化时，它可以利用训练数据集来创建训练模型。如果模型已经被训练或部分训练，则训练数据可以被用来改进声音预测。

接下来，电气设备1015可以用于不同的环境中，诸如工厂环境或生产线末端环境。电气设备1015可以包括一个或多个ECU 1019，其用于除其他事情之外尤其操作该设备或监测传感器读数。电气设备1015可以包括传感器，诸如加速度计1017，其包括从电驱动、致动器或类似组件发射的振动信息/数据或其他类型的信息/数据。例如，EOL设置中的振动数据可以是实时振动信息。环境可能不允许准确使用要获得的声音信息，因此仅振动数据可能足以获得预测的声音。值得注意的是，在这样的环境中可能缺失麦克风，或者麦克风可能基于背景噪声而难以使用。

实时振动信息1021可以被发送至经训练的机器学习模型1013。在一种场景中，振动数据可以是加速度计数据。实时振动信息1021可以包括加速度计数据，该加速度计数据包括x轴、y轴和z轴信息。实时数据可以以时间序列、谱图或次序谱图的形式被发送到机器学习模型1013。馈送到模型中的输入的形式可以与模型的输出(例如，声音预测1023)相同，并且因此输入类型可以规定输出类型。例如，如果谱图被用作模型的输入，则预测相同维度的谱图。因此，模型可以利用振动信息来预测对应的声音1023。声音预测1023可以指示在给定设备的电机、电驱动、致动器或任何其他组件的操作的情况下将从设备发射的声音。在一个实施例中，这可以在不存在任何其他数据并且仅利用振动数据的情况下完成。

图11公开了系统监测如与各种传感器数据相关的生产线末端测试以输出预测的图表，该预测可以包括扭矩预测或声音预测。该系统可以包括机器学习模型1115。机器学习模型1115可以是深度神经网络。深度神经网络(U-Net或Transformer)从安装在电驱动上的传感器接收一组传感器信号。电气设备1107可以是任何类型的设备，其包括处理器或ECU1101、电机、致动器、电驱动、推进系统等。电气设备1107可以包括向组件输出扭矩1111的组件。传感器可以连接到该组件以建立扭矩读数。电气设备1107可以包括用于获得某个环境(诸如实验室环境)中各种特性的读数的传感器。传感器可以是任何类型的传感器，诸如速度传感器、加速度计1109、电压传感器(例如，输入电压传感器)1103、电流传感器(例如，输入电流传感器)1105、扭矩传感器等。信号可以具有时间序列、谱图、次序谱图的形式或其他形式。该模型执行信号到信号的转换，以预测目标传感器信号，诸如扭矩、声音或加速度计数据(如果不包括在输入中)。以与输入相同的格式预测目标信号。例如，如果输入是谱图的形式，则可以预测相同维度的谱图。一旦做出预测，就可以以与将使用目标传感器数据相同的方式在适当的分析方法(诸如NVH分析、共振检测、声音的人类感知分析、故障检测等)中使用该预测。

在测试环境中，可以收集电流信息、电压信息、声音信息和扭矩信息，以生成训练数据1113。训练数据1113可以被发送到经训练的机器学习模型。在一种场景中，振动信息可以是加速度计数据。实时振动信息可以包括加速度计数据，该加速度计数据包括x轴、y轴和z轴信息。实时信息/数据可以以时间序列、谱图或次序谱图的形式被发送到机器学习模型。馈送到模型中的输入的形式可以与模型的输出相同。例如，如果谱图被用作模型的输入，则预测相同维度的谱图。因此，该模型可以利用来自传感器的各种输入读数的组合来预测与电气设备相关联的对应声音或扭矩。

接下来，电子设备1121可以用于不同的环境中，诸如工厂环境或生产线末端测试环境等。电气设备1121可以包括传感器，该传感器包括来自电流传感器1119的电流(例如，输入电流)读数、来自电压传感器1118的电压(例如，输入电压)和来自振动传感器1120(例如，加速度计)的振动信息、或者从电驱动、致动器或类似组件发射的其他类型的数据。例如，EOL设置中的振动信息可以是实时振动数据。环境可能不允许获得声音信息的准确使用，因此仅振动信息可能足以获得预测1125。预测1125可以包括预测的声音、预测的扭矩或预测的加速度计数据(如果不包括在输入中)。因此，模型1115可以基于从各种传感器收集的输入1123的组合来输出预测信号1125。例如，模型1115可以仅利用实时电流信息和实时电压信息作为输入1123来输出预测1125。给定与机器相关联的值，预测1125可以是与在电气设备1121上操作的组件相关联的预期声音预测。给定与机器相关联的值，预测1125也可以是与在电气设备1121上操作的组件相关联的预期扭矩预测。

预测1125可以利用任何可用数据集来产生预测。因此，如果某个传感器故障或不可用，则读数可能不是产生预测所必需的。该模型可以采取任何可用的数据或信息来输出预测。此外，某些读数可能比其他读数更有益。例如，电压读数可能不需要任何并发读数，然而，电流读数可能需要另一信息(例如，电压信息或振动信息)来生成预测。在另一个示例中，仅电压读数和振动读数可以是足够的。在另一个示例中，电流读数可以是次要信息，以帮助开发预测或改进预测。

图12公开了与预测分析模型相关联的流程图。该系统可以包括机器学习模型1217。机器学习模型1217可以是深度神经网络。深度神经网络(U-Net或Transformer)从与电驱动1201通信/连接的传感器接收一组传感器信号。电气设备1201可以是任何类型的设备，其包括处理器或ECU 1203、电机、致动器、电驱动、推进系统等。电气设备1203可以包括向组件输出扭矩1213的组件。传感器可以连接到该组件以建立扭矩读数。电气设备1201可以包括用于获得某个环境(诸如实验室环境)中各种特性的读数的传感器。传感器可以是任何类型的传感器，诸如速度传感器、加速度计1209、电压传感器(例如，输入电压传感器)1205、电流传感器(例如，输入电流传感器)1207、扭矩传感器等。

麦克风可以用于从电气设备1201拾取声音1211。电气设备1201的处理器或ECU(例如，电子控制单元)1203可以连接到传感器并与该传感器通信，该传感器在操作中读取该设备的输入电压1205和电流1207。此外，振动数据1209可以从一个或多个传感器收集。振动信息1209可以包括三个轴当中的加速度计信号。例如，可以利用x轴的加速度计信息、y轴的加速度计信息和z轴的加速度计信息。

所提出的方法可以意图供在复杂物理系统(诸如多组件制造产品)的分析期间使用。可以选择需要被调查的量之间的关系。例如，汽车中操作车窗升降器的电动机的振动和车厢内部的声音可以是某个示例。第二，在适当的设置中测量选定的量，即，以允许确定测量的量之间的假设关系的方式。在上面的示例中，这将意味着在同一车辆中同时记录加速度计和麦克风数据两者。机器学习模型1217可以被利用，并被馈送训练数据1215。训练数据1215可以包括电压信号、电流信号、加速度计信号、扭矩信号、麦克风信号等。机器学习模型1217可以是神经网络，该神经网络被训练成使用量中的一个来预测量中的另一个，例如，将加速度计时间序列取作输入并预测声音时间序列的信号到信号模型。

并且最后，可以分析网络的性能，以确定关系的存在和/或不存在及其属性。因此，预测分析1221可以用于对网络和相关联预测进行分级。例如，可以在时域中分析预测误差，以估计电机振动和车厢内部的声音之间的互信息，并且可以在频域中分析预测误差，以确定哪些声音频率由电机振动引起。对于后者，可以对预测的和记录的信号两者应用傅立叶变换，以获得频率信息，并且可以计算所得到的傅立叶系数之间的误差。预测分析1211可以是热图、分数、或任何其他类型的输出的形式。在一个说明性实施例中，预测分析可以分析给定其源信息或输入信息的预测准确度。例如，预测分析可以指示在仅给定电压和电流的输入的情况下预测振动信息(例如，加速度计数据)的性能。

本文中公开的过程、方法或算法可以交付至处理设备、控制器或计算机/由处理设备、控制器或计算机实现，所述处理设备、控制器或计算机可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地，过程、方法或算法可以以许多形式存储为可由控制器或计算机执行的数据和指令，包括但不限于永久存储在诸如ROM设备之类的不可写存储介质上的信息和可更改地存储在诸如软盘、磁带、CD、RAM设备和其他磁性和光学介质之类的可写存储介质上的信息。过程、方法或算法也可以在软件可执行对象中实现。替代地，可以使用合适的硬件组件，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、状态机、控制器或其他硬件组件或设备、或者硬件、软件和固件组件的组合，来整体或部分地体现这些过程、方法或算法。

虽然上面描述了示例性实施例，但是这些实施例并不意图描述权利要求所涵盖的所有可能形式。本说明书中使用的词是描述词，而不是限制词，并且应理解，可以在不脱离本公开的精神和范围的情况下进行各种改变。如先前所描述的，可以组合各种实施例的特征以形成本发明进一步的实施例，这些进一步的实施例可能未明确描述或说明。虽然可能已经将各种实施例描述为关于一个或多个期望特性提供优势或优于其他实施例或现有技术实施方式，但是本领域普通技术人员认识到，可以折中一个或多个特征或特性以实现所期望的总体系统属性，这取决于特定应用和实施方式。这些属性可以包括但不限于成本、强度、耐久性、生命周期成本、适销性、外观、包装、尺寸、适用性、重量、可制造性、易于组装等。照此，在任何实施例关于一个或多个特性被描述为不如其他实施例或现有技术实施方式合期望的程度上，这些实施例不在本公开的范围之外，并且对于特定应用可以是合期望的。

Claims

1.一种计算机实现的方法，包括：

从与第一环境中的测试设备相关联的一个或多个第一传感器接收振动信息和声音信息；

利用至少振动信息和声音信息生成训练数据集，其中所述训练数据集被发送至机器学习模型；

响应于利用训练数据集满足机器学习模型的收敛阈值，输出经训练的机器学习模型；

从与第二环境中的运行时设备相关联的一个或多个第二传感器接收实时振动信息；并且

基于经训练的机器学习模型和实时振动信息，输出指示从运行时设备发出的声称操作声音的声音预测。

2.根据权利要求1所述的计算机实现的方法，其中所述振动信息是以时间序列、谱图或次序谱图数据的形式，并且所述声音预测具有相同的形式。

3.根据权利要求1所述的计算机实现的方法，其中机器学习模型被训练为利用振动数据作为输入来预测声音，并调整其可训练权重以最小化声音预测误差。

4.根据权利要求1所述的计算机实现的方法，其中所述振动数据是谱图，并且所述声音预测是第二谱图。

5.根据权利要求1所述的计算机实现的方法，其中所述经训练的机器学习模型是深度神经网络。

6.根据权利要求5所述的计算机实现的方法，其中所述深度神经网络是U-net或Transformer网络。

7.根据权利要求1所述的计算机实现的方法，其中所述第一环境和所述第二环境是不同的设置。

8.根据权利要求1所述的计算机实现的方法，其中所述第一环境是实验室环境。

9.根据权利要求1所述的计算机实现的方法，其中所述训练数据集将振动信息与对应的声音信息配对。

10.一种计算机实现的方法，包括：

从第一环境中的测试设备接收振动信息和与对应振动信息相关联的声音信息；

利用至少振动数据和与振动数据相关联的声音信息生成训练数据集，其中所述训练数据集被发送至被配置为输出声音预测的机器学习模型；

从在第二环境中操作致动器或电驱动的运行时设备接收实时振动信息；并且

基于机器学习模型和实时振动信息，输出指示从操作运行时设备发出的声称声音的声音预测。

11.根据权利要求10所述的计算机实现的方法，其中所述振动信息包括加速度计数据，所述加速度计数据包括x轴、y轴和z轴加速度计信息。

12.根据权利要求10所述的计算机实现的方法，其中所述机器学习模型是U-Net或Transformer网络。

13.根据权利要求10所述的计算机实现的方法，其中所述声音预测作为原始时间序列数据或谱图数据输出。

14.根据权利要求10所述的计算机实现的方法，其中所述测试设备和运行时设备是同一设备。

15.根据权利要求10所述的计算机实现的方法，其中所述第一环境是实验室环境，并且所述第二环境是生产线末端工厂环境。

16.一种系统，包括：

与一个或多个传感器通信的处理器，其中所述处理器被编程为：

从所述一个或多个传感器接收来自测试设备的振动信息和与振动信息相关联的声音信息；

从运行发出实时振动数据的致动器或电驱动的运行时设备接收实时振动数据；并且

基于机器学习模型和实时振动数据，输出指示从运行时设备发出的声称声音的声音预测。

17.根据权利要求16所述的系统，其中所述振动信息包括三维信息。

18.根据权利要求16所述的系统，其中所述声音预测是谱图数据。

19.根据权利要求16所述的系统，其中所述测试设备和运行时设备是同一类型的设备。

20.根据权利要求16所述的系统，其中所述声音预测是以时间序列数据的形式。