CN117288294B

CN117288294B - 一种基于听觉与触觉的水杯水位检测方法及装置

Info

Publication number: CN117288294B
Application number: CN202311459279.5A
Authority: CN
Inventors: 钱馨园; 徐靖凯; 高宇萱; 李旻姝; 李皖林; 魏丽芳; 殷绪成
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-06-04
Anticipated expiration: 2043-11-03
Also published as: CN117288294A

Abstract

本发明公开了一种基于听觉与触觉的水杯水位检测方法及装置，涉及检测水位技术领域。包括：将听觉数据输入到构建好的听觉特征提取模型进行特征提取得到听觉信息；将触觉数据输入到构建好的触觉特征提取模型进行特征提取得到触觉信息；对听觉信息以及触觉信息进行拼接得到多模态特征；根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测，得到水杯的水位检测结果。本发明引入触觉传感器，通过容器所含液体的增加使触觉传感器变形程度增加判断液体所含多少，结合倒水时的音频，采用神经网络预测液体含量具体的百分比，通过多模态的数据更细致地确定液体含量，提高预测的准确性及在各个环境中的普适性。

Description

一种基于听觉与触觉的水杯水位检测方法及装置

技术领域

本发明涉及检测水位技术领域，尤其涉及一种基于听觉与触觉的水杯水位检测方法及装置。

背景技术

多模态人机交互旨在利用语音、图像和触觉等多模态信息进行人与计算机之间的信息交换。其中包括人到计算机的多模态信息输入与计算机到人的多模态信息呈现,在智能家居、智慧医疗、智能交通等方面有着广泛的应用。

传统的人机交互多注重对于单个模态的数据和信息进行处理，但即使在单个模态中对数据的分析细致透彻，也很难在复杂维度的情况中识别到重点信息。对于目标物体的明显特征，多数情况不能完全统一在统一模态中。随着深度学习和人工智能技术的发展，基于神经网络的多模态处理方式能够同时处理听觉、触觉等比原先更大量的数据，从不同维度中提取信息并结合起来，实现对复杂场景的更加准确的理解和描述，使人机交互的过程越来越自然、精准。

随着现代科技的发展，人机交互逐渐兴起，机器人也能和人互动配合，共同完成工作。在人机物品传递过程中，倒水是基础且常用的操作之一。在倒水的过程中需要自动确定水位的变化。现有技术或只依靠听觉维度的信息进行判断，或结合多模态将水位百分比分为0％，50％，100％三类，不能精确给出具体百分比。而在实际应用场景当中多有噪声，单凭听觉判断水位不具有普适性。

专利CN116301388A公开了一种智能多模态组合应用的人机交互场景系统，采用多模态的方法解决人机交互相关领域问题，但没有针对倒水的场景进行应用。专利CN113647825A公开了一种基于神经网络的饮水机出水自动控制方法，但只采用音频针对水杯水位进行检测，在噪声多的使用环境当中并不适用。专利CN208598165U公开了一种自动检测水杯水位的饮水机，采用物理传感器的方式对水位进行检测，应用时依赖物理传感器件，导致在多功能人机交互场景中的灵活性比较受限。

Hengyi Wang等人(Improving generalization of Deep Networks forestimating physical properties of containers and fillings,arXiv.org.Availableat:https://arxiv.org/abs/2203.01192(Accessed:25July 2023).)使用轻量级、预训练的卷积神经网络将音频和视频模态的信息结合起来解决填充级别分类问题，集成了音频和RGB视频的信息，使用常规的轻量化网络MobileNetv2与CA(Coordinate attention，注意力机制)作为主干网络进行预训练，使用LSTM(Long Short Term Memory，长短期记忆网络)作为主干神经网络将容器中液体含量分为0％，50％，90％三个类别。但该方法只能大致分类，不能细致地预测具体百分比。

Reina Ishikawa等人(Audio-Visual Hybrid Approach for Filling MassEstimation,1Jan.1970,link.springer.com/chapter/10.1007/978-3-030-68793-9_32.Accessed 25July 2023.)对音频进行处理，将原始音频波形转换成对数-梅尔频谱图，裁剪成固定大小，采用处理音频常用的模型VGGish作为预训练主干，输入卷积神经网络模型。该方法只采用单一的音频作为输入，将容器中液体含量分为0％，50％，90％三个类别，不能更加精准、全面地预测具体百分比。

Donaher,Santiago等人(Audio Classification of the Content of FoodContai ners and Drinking Glasses.arXiv.Org,9June 2021,arxiv.org/abs/2103.15999.)关注物品倒入容器时和摇晃容器时的两种声音作为神经网络的输入。根据倒入的声音可以预测容器是否倒满，摇晃的声音将容器中的液体含量分为0％，50％，90％三个类别。由于只有音频维度的信息，该方法虽然将音频进行细分，但无法预测更加细致的液体含量百分比。

在实际的人机交互场景中，不可能做到和实验室相似的良好环境，常常伴有音频噪声干扰，光照不足，甚至视线遮挡等意外情况，这时利用单模态的传统方法便显现出其局限性，受到干扰的模态无法准确反映相关水位信息，导致预测结果与实际值偏差较大，且模型的鲁棒性和泛化能力也较差。而使用多模态需要考虑模态之间的结合问题，以往工作不能完成预测精准的百分比，而只将水位大致分类，在应用中亦受到局限性。

发明内容

本发明针对现有技术或只依靠听觉维度的信息进行判断；或结合多模态将水位百分比分为0％，50％，100％三类，不能精确给出具体百分比，无法精准地为后续的继续倒水或停止倒水等操作提供基准。以及，实际应用场景当中多有噪声，且相比于倒水的声音音量可能更大，因此单凭听觉判断水位不具有普适性的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种基于听觉与触觉的水杯水位检测方法，该方法由电子设备实现，该方法包括：

S1、获取待检测的水杯的听觉数据以及触觉数据。

S2、将听觉数据输入到构建好的听觉特征提取模型进行特征提取，得到听觉信息。

S3、将触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息。

S4、对听觉信息以及触觉信息进行拼接，得到多模态特征。

S5、根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测，得到水杯的水位检测结果。

可选地，S1中的触觉数据的获取过程，包括：

根据触觉传感器获取触觉数据；其中，触觉传感器包括微处理器、相机以及柔性体模块。

相机，用于记录柔性体模块的形变，获取柔性体模块的表面接触信息，进而得到触觉数据。

柔性体模块上设有标记点。

可选地，S2中的听觉特征提取模型的构建过程，包括：

S21、获取训练视频数据。

S22、根据训练视频数据，得到视频样本以及视频样本对应的标签。

S23、根据视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS，得到构建好的听觉特征提取模型。

可选地，S22中的根据训练视频数据，得到视频样本以及视频样本对应的标签，包括：

S221、对训练视频数据进行裁剪，得到多个视频样本。

S222、对多个视频样本中的每个视频样本进行图像处理，得到视频样本的当前帧的液体像素体积。

S223、将当前帧的液体像素体积与倒水实验中的杯子像素体积进行对比，得到当前帧的液体像素体积占杯子像素体积的百分比。

S224、根据百分比，得到视频样本中预设时间步长的百分比的平均值，进而得到每个视频样本对应的多个标签。

可选地，S3中的触觉特征提取模型的构建过程，包括：

S31、获取倒水实验中触觉传感器的标记点的位移数据。

S32、获取标记点的位移数据的平均值，根据位移数据的平均值，得到触觉样本以及触觉样本对应的标签。

S33、根据触觉样本以及触觉样本对应的标签，得到构建好的触觉特征提取模型。

可选地，S3中的将触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息，如下式(1)所示：

其中，Ft_{i，k，l，j}表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧的触觉信息特征值，Ft_{i，k，l，j}的维度是(1,12)，对于每一个触觉样本，得到(8,12)的特征向量来表征一个样本中的触觉信息，t表示视频数据时长，i表示视频数个数，k表示每个视频数据所裁剪的触觉样本个数，l表示预设时间步长，j表示每个裁剪的视频的帧数，1≤m≤9，1≤n≤4，x_{m，n，i，k，l，j}表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧中第m行第n列标记点的横坐标，x_{m，n，i，0}表示第i条视频数据中初始帧中第m行第n列标记点的横坐标，y_{m，n，i，k，l，j}表示第i条视频数据中第k个样本中第l个预设时间步长中第j帧中第m行第n列标记点的纵坐标，y_{m，n，i，0}表示第i条视频数据中初始帧中第m行第n列标记点的纵坐标。

可选地，S5中的长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM，批量大小设为4，采用均方误差MSE作为损失函数，采用自适应时刻估计方法Adam作为优化器。

另一方面，本发明提供了一种基于听觉与触觉的水杯水位检测装置，该装置应用于实现基于听觉与触觉的水杯水位检测方法，该装置包括：

获取模块，用于获取待检测的水杯的听觉数据以及触觉数据。

听觉特征提取模块，用于将听觉数据输入到构建好的听觉特征提取模型进行特征提取，得到听觉信息。

触觉特征提取模块，用于将触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息。

拼接模块，用于对听觉信息以及触觉信息进行拼接，得到多模态特征。

输出模块，用于根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测，得到水杯的水位检测结果。

可选地，获取模块，进一步用于：

柔性体模块上设有标记点。

可选地，听觉特征提取模块，进一步用于：

S21、获取训练视频数据。

可选地，听觉特征提取模块，进一步用于：

S221、对训练视频数据进行裁剪，得到多个视频样本。

可选地，触觉特征提取模块，进一步用于：

S31、获取倒水实验中触觉传感器的标记点的位移数据。

可选地，将触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息，如下式(1)所示：

其中，Ft_{i，k，l，j}表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧的触觉信息特征值，Ft_{i，k，l，j}的维度是(1,12)，对于每一个触觉样本，得到(8,12)的特征向量来表征一个样本中的触觉信息，t表示视频数据时长，i表示视频数个数，k表示每个视频数据所裁剪的触觉样本个数，l表示预设时间步长，j表示每个裁剪的视频的帧数，1≤m≤9，1≤n≤4，x_{m，n，i，k，l，j}表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧中第m行第n列标记点的横坐标，x_{m，n，i，0}表示第i条视频数据中初始帧中第m行第n列标记点的横坐标，ym，n，i，k，l，j表示第i条视频数据中第k个样本中第l个预设时间步长中第j帧中第m行第n列标记点的纵坐标，y_{m，n，i，0}表示第i条视频数据中初始帧中第m行第n列标记点的纵坐标。

可选地，长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM，批量大小设为4，采用均方误差MSE作为损失函数，采用自适应时刻估计方法Adam作为优化器。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于听觉与触觉的水杯水位检测方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于听觉与触觉的水杯水位检测方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，创造性地引入触觉模态，对水杯水位进行检测，提高了模型的鲁棒性和泛化能力，可以应用于多种收到噪声干扰的场景中。

提高测量准确性：通过引入触觉模态，本发明技术方案在现有基于音频和视频结合判断水杯水位的基础上，进一步提高了测量准确性。触觉传感器能够捕捉更多细微的变化，从而增加了对水杯内水位的精确度。

扩展适用范围：本发明技术方案使得原有的基于音频和视频的水位判断系统更具适用性。在一些情况下，音频和视频可能受到环境噪音或光照条件的限制，而引入触觉传感器可以在这些情况下提供可靠的测量结果。

提升实时性：触觉传感器具备快速响应的特性，使得本发明技术方案在实时水位检测方面表现优异。快速准确的数据采集和深度学习方法使得系统能够更及时地反馈水杯水位信息。

降低能耗：相较于某些传统传感器，引入的触觉传感器具备较低的能耗特性，从而有效延长了系统的电池寿命，降低了使用成本。

强化用户体验：本发明通过结合多模态信息，从多个角度对水杯水位进行预测，能够较好地、更全面地利用信息；模拟、学习人类从事相关活动时的状态和方法。

拓展应用领域：引入触觉传感器后，本发明技术方案不仅限于水杯水位判断，还可以在其他领域中应用。例如，在智能家居、医疗护理等方面具备广阔的应用前景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于听觉与触觉的水杯水位检测方法流程示意图；

图2是本发明实施例提供的网络结构图；

图3是本发明实施例提供的处理后的标记点图像；

图4是本发明实施例提供的模型整体结构图；

图5是本发明实施例提供的基于听觉与触觉的水杯水位检测装置框图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种基于听觉与触觉的水杯水位检测方法，该方法可以由电子设备实现。如图1所示的基于听觉与触觉的水杯水位检测方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待检测的水杯的听觉数据以及触觉数据。

一种可行的实施方式中，上述步骤S1可以是基于本发明的听觉传感器以及触觉传感器进行待检测物体的听觉数据以及触觉数据获取，待检测的物体可以是水杯，也可以是其他容器。

可选地，S1中的触觉数据的获取过程，包括：

柔性体模块上设有标记点。

可选地，S2中的听觉特征提取模型的构建过程，可以包括S21-S23：

S21、获取训练视频数据。

一种可行的实施方式中，现有技术的公开数据集多为音频数据，没有触觉模块的数据集。因此本发明独立获取和标定数据，考虑了听觉、触觉特征以提高水杯水位检测的准确性，进而在人机交互场景中解决相应问题。具体地，用夹爪固定杯子，尽量使每次实验杯子、橡胶块上标记点初始位置以及与相机相对位置相同，通过视频记录倒水过程。

进一步地，使用特定颜色的液体，通过轮廓查找，二值化，开运算和裁剪等图像处理方法，得到液体像素体积V_l，与事先计算好的杯子像素体积V_g作比，得到当前帧液体体积占杯子总体积的百分比P_l。将负数置零后使用savgol filter对得到标签进行平滑。

可选地，上述步骤S22可以包括如下步骤S221-S224：

S221、对训练视频数据进行裁剪，得到多个视频样本。

一种可行的实施方式中，本发明设计了一个听觉传感器，根据记录视频的总帧数，每4s裁剪出一个样本，对于第i条视频能裁剪出N_i个样本(N_i≤t÷4s，t为视频时长，N_i为满足条件的最大正整数)。以一个4s的视频样本为例，取0.5s为步长，计算0.5s内共12帧(视频为24FPS(Frames Per Second，每秒的视频帧数)，即1秒视频有24帧图片，24帧/s*0.5s＝12帧)中液体百分比的平均值，并将其作为标签，即一个样本能得到8个标签(4s÷0.5s＝8个标签)。使用PANNS(Pretrained Audio Neural Networks，预训练的音频神经网络)网络作为特征提取器，将0.5s的音频输入到网络中，得到(1,128)的特征向量。该特征向量表示0.5秒的视频经过网络提取出的时间维度为1，特征维度为128的听觉特征。

本发明采用固定长度一个4秒的视频为一个数据样本，因此一个样本输入网络会得到(8,128)的特征向量来表征一个样本中的听觉信息。预训练的音频神经网络PANNS，是一个使用原始AudioSet(含有190万个音频片段，527个类别的大规模数据集)音频记录作为输入，最早出现的针对音频模式识别的大规模预训练模型。它同时利用音频时域波形和更符合人耳的听觉特性的log Mel梅尔频谱(一种更符合人耳的听觉特性的频谱)作为输入，网络结构如附图2所示。其中Wavegram是一个使用卷积神经网络学习到的特征，它包括时间轴和频率轴，通过维度变换(N：样本数；C：通道数；T：帧数，F：频率段)能够学习到传统一维卷积神经网络忽略的频率信息。

可选地，S3中的触觉特征提取模型的构建过程，可以包括S31-S33：

S31、获取倒水实验中触觉传感器的标记点的位移数据。

一种可行的实施方式中，本发明设计了一个触觉传感器，在与杯子接触的部分有一块橡胶，其上有事先做好的标记点，处理后的标记点图像如附图3所示。倒水后杯子重量的增加，使得橡胶块发生剪切形变，对应的标记点发生位移，计算得到不同时刻标记点位移的大小，取平均值后将0.5s内共12个数据视为一组，完成对触觉信息特征的刻画。

具体而言，记原始记第i条视频第一帧为f_i，0，其中第m行(1≤m≤9)，n列(1≤n≤4)的标记点坐标为(x_m，n，y_m，n)_i，0。第k个样本(1≤k≤N_i)的第j帧(1≤j≤12)对应的帧f_i，k，j中，第m行，n列的标记点坐标为(x_m，n，y_m，n)_i，k，j，使用如下公式计算第i条视频，第k个样本，第l个0.5s(1≤l≤8)中第j帧(共12帧)对应的触觉信息特征值：

S4、对听觉信息以及触觉信息进行拼接，得到多模态特征。

一种可行的实施方式中，可以采用前期、串行融合的方法，将得到的听觉和触觉信息拼接在一起，形成高维特征向量。

可选地，上述步骤S5中的长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM，批量大小设为4，采用均方误差MSE作为损失函数，采用自适应时刻估计方法Adam作为优化器。

本发明综合听觉与触觉两个模态，使用深度学习的方法，对倒水过程中水杯水位进行检测，每0.5s给出一个回归预测值。模型整体结构如附图4所示。本发明考虑实际应用场景当中视觉容易受到光线影响、听觉容易受到噪声影响、触觉传感器本身的精准度较低等因素，采用触觉模态与传统的听觉模态相融合，使用LSTM和全链接层神经网络进行训练预测，打破以往的分类限制，得到较为精准的百分比，为后续其他人机交互操作提供基础。

具体的训练流程包括：

1、读取单条视频总帧数，以4s为步长，24FPS计算该条视频能够被分为多少个样本；记录并存储每条视频对应的样本数.

2、读取单通道音频数据，其采样率为44100Hz，以其对应的视频为基准，根据可分样本数对音频进行裁剪，使得每一条音频均为4s的整数倍。

3、使用预训练好的PANNS模型参数，将每一个样本中的0.5s音频数据输入到PANNS网络(计算短时傅里叶变换的窗长度为1024，连续帧之间的样本数为320，梅尔滤波器个数为64)中得到对应的听觉信息特征，遍历一个4秒的样本后得到样本对应的(8,128)听觉信息特征。

4、按照3.1.3小节叙述的触觉信息特征获取方法计算每个样本的触觉信息特征(8,12)。

将第3步处理得到的听觉信息特征与第4步处理得到的触觉信息特征拼接起来，得到(8,140)的样本多模态特征。

5、使用双向、双层LSTM(隐藏层数为1024)作为主干网络，对水位进行回归。其中batch size大小设为4，采用均方误差(MSE)作为损失函数，使用自适应时刻估计方法Adam作为优化器，学习率为0.0001，在训练集上训练100轮。

6、每一轮训练后都在测试集上进行测试，计算预测水位百分比与实际百分比误差在±5％、±10％以及±15％的准确率，保存过程中±5％准确率最高的模型，并记录训练轮次。

本发明采用的是私人采集的数据集。视频方面使用罗技C270 HD WEBCAM摄像头放置杯子正前方，距离杯子440毫米的位置进行拍摄，分辨率为1920ⅹ1080，每秒24帧。为便于测量水位，杯子中使用红色染料配得红色溶液进行实验。音频方面使用BOYA-M1麦克风放置在抓夹左侧距离杯子15mm的位置，收集倒水时的音频。触觉方面使用GelSight触觉传感器，由一个微处理器、一个微型相机和一块梯形橡胶层组成，橡胶层中有4ⅹ10的标记点阵，在倒水过程中，杯子和橡胶之间的摩擦力会使橡胶层产生明显的剪切变形，导致其中的点阵排列变形。经过裁剪后，数据集总共包含150个样本，其中训练集包含120个样本，测试集包含30个样本，训练集与测试集的比例近似8：2。该数据集视频倒水时间从8s到24s不等，水位从30％到95％不等，涵盖了不同水位、不同倒水时间的情况。

本发明中听觉信息特征提取器使用的是PANNS网络，触觉信息特征提取器使用的是标记点距离变化。对比其他听觉信息特征提取器(如VGGish、Mel倒谱系数以及MobileNetV2)、触觉特征提取器(如ResNet50、MobileNetV2)，本发明中模型方法得到的测试集上±5％准确率最高，效果最好。

因此，本发明串行融合触觉和听觉，通过多模态的数据更细致地确定液体含量，解决了室内噪声较大、音频不清晰时以往工作中单靠音频无法判断水位的问题，提高在各个环境中的普适性。且本发明通过深度学习的方法，使用LSTM和全链接层神经网络进行训练预测，每0.5s进行回归预测，能够预测液体含量具体的百分比，提高预测的准确性，解决了以往工作中仅将水位进行分类不精准的问题，可在实际应用中为后续继续倒水或停止倒水等操作提供基准。

本发明实施例中，创造性地引入触觉模态，对水杯水位进行检测，提高了模型的鲁棒性和泛化能力，可以应用于多种收到噪声干扰的场景中。

如图5所示，本发明实施例提供了一种基于听觉与触觉的水杯水位检测装置500，该装置500应用于实现基于听觉与触觉的水杯水位检测方法，该装置500包括：

获取模块510，用于获取待检测的水杯的听觉数据以及触觉数据。

听觉特征提取模块520，用于将听觉数据输入到构建好的听觉特征提取模型进行特征提取，得到听觉信息。

触觉特征提取模块530，用于将触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息。

拼接模块540，用于对听觉信息以及触觉信息进行拼接，得到多模态特征。

输出模块550，用于根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测，得到水杯的水位检测结果。

可选地，获取模块，进一步用于：

柔性体模块上设有标记点。

可选地，听觉特征提取模块520，进一步用于：

S21、获取训练视频数据。

可选地，听觉特征提取模块520，进一步用于：

S221、对训练视频数据进行裁剪，得到多个视频样本。

可选地，触觉特征提取模块530，进一步用于：

S31、获取倒水实验中触觉传感器的标记点的位移数据。

图6是本发明实施例提供的一种电子设备600的结构示意图，该电子设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)601和一个或一个以上的存储器602，其中，存储器602中存储有至少一条指令，至少一条指令由处理器601加载并执行以实现下述基于听觉与触觉的水杯水位检测方法：

S1、获取待检测的水杯的听觉数据以及触觉数据。

S4、对听觉信息以及触觉信息进行拼接，得到多模态特征。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于听觉与触觉的水杯水位检测方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于听觉与触觉的水杯水位检测方法，其特征在于，所述方法包括：

S1、获取待检测的水杯的听觉数据以及触觉数据；其中，所述听觉数据为倒水时的音频；

S2、将所述听觉数据输入到构建好的听觉特征提取模型进行特征提取，得到听觉信息；

S3、将所述触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息；

S4、对所述听觉信息以及触觉信息进行拼接，得到多模态特征；

S5、根据所述多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测，得到水杯的水位检测结果；

所述S1中的触觉数据的获取过程，包括：

根据触觉传感器获取触觉数据；其中，所述触觉传感器包括微处理器、相机以及柔性体模块；

所述相机，用于记录所述柔性体模块的形变，获取柔性体模块的表面接触信息，进而得到触觉数据；

所述柔性体模块上设有标记点；

所述S2中的听觉特征提取模型的构建过程，包括：

S21、获取训练视频数据；

S22、根据所述训练视频数据，得到视频样本以及视频样本对应的标签；

S23、根据所述视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS，得到构建好的听觉特征提取模型；

所述S3中的触觉特征提取模型的构建过程，包括：

S31、获取倒水实验中触觉传感器的标记点的位移数据；

S32、获取标记点的位移数据的平均值，根据所述位移数据的平均值，得到触觉样本以及触觉样本对应的标签；

S33、根据所述触觉样本以及触觉样本对应的标签，得到构建好的触觉特征提取模型；

所述S3中的将所述触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息，如下式(1)所示：

2.根据权利要求1所述的方法，其特征在于，所述S22中的根据所述训练视频数据，得到视频样本以及视频样本对应的标签，包括：

S221、对所述训练视频数据进行裁剪，得到多个视频样本；

S222、对所述多个视频样本中的每个视频样本进行图像处理，得到视频样本的当前帧的液体像素体积；

S223、将所述当前帧的液体像素体积与倒水实验中的杯子像素体积进行对比，得到当前帧的液体像素体积占杯子像素体积的百分比；

S224、根据所述百分比，得到视频样本中预设时间步长的百分比的平均值，进而得到每个视频样本对应的多个标签。

3.根据权利要求1所述的方法，其特征在于，所述S5中的长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM，批量大小设为4，采用均方误差MSE作为损失函数，采用自适应时刻估计方法Adam作为优化器。

4.一种基于听觉与触觉的水杯水位检测装置，其特征在于，所述装置包括：

获取模块，用于获取待检测的水杯的听觉数据以及触觉数据；其中，所述听觉数据为倒水时的音频；

听觉特征提取模块，用于将所述听觉数据输入到构建好的听觉特征提取模型进行特征提取，得到听觉信息；

触觉特征提取模块，用于将所述触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息；

拼接模块，用于对所述听觉信息以及触觉信息进行拼接，得到多模态特征；

输出模块，用于根据所述多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测，得到水杯的水位检测结果；

所述触觉数据的获取过程，包括：

所述柔性体模块上设有标记点；

所述听觉特征提取模型的构建过程，包括：

S21、获取训练视频数据；

所述触觉特征提取模型的构建过程，包括：

S31、获取倒水实验中触觉传感器的标记点的位移数据；

所述将所述触觉数据输入到构建好的触觉特征提取模型进行特征提取，得到触觉信息，如下式(1)所示：