CN117288294A - 一种基于听觉与触觉的水杯水位检测方法及装置 - Google Patents
一种基于听觉与触觉的水杯水位检测方法及装置 Download PDFInfo
- Publication number
- CN117288294A CN117288294A CN202311459279.5A CN202311459279A CN117288294A CN 117288294 A CN117288294 A CN 117288294A CN 202311459279 A CN202311459279 A CN 202311459279A CN 117288294 A CN117288294 A CN 117288294A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- tactile
- video
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 93
- 241000190070 Sarracenia purpurea Species 0.000 title claims abstract description 44
- 238000001514 detection method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 claims abstract description 72
- 238000013528 artificial neural network Methods 0.000 claims abstract description 29
- 239000007788 liquid Substances 0.000 claims abstract description 29
- 230000000306 recurrent effect Effects 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 56
- 238000012549 training Methods 0.000 claims description 30
- 238000006073 displacement reaction Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000002474 experimental method Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 6
- 230000035807 sensation Effects 0.000 claims description 2
- 230000001965 increasing effect Effects 0.000 abstract description 6
- 230000006403 short-term memory Effects 0.000 abstract description 3
- 230000007787 long-term memory Effects 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 description 11
- 238000005259 measurement Methods 0.000 description 10
- 238000013135 deep learning Methods 0.000 description 6
- 238000005265 energy consumption Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 230000002035 prolonged effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000001044 red dye Substances 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01F—MEASURING VOLUME, VOLUME FLOW, MASS FLOW OR LIQUID LEVEL; METERING BY VOLUME
- G01F23/00—Indicating or measuring liquid level or level of fluent solid material, e.g. indicating in terms of volume or indicating by means of an alarm
- G01F23/22—Indicating or measuring liquid level or level of fluent solid material, e.g. indicating in terms of volume or indicating by means of an alarm by measuring physical variables, other than linear dimensions, pressure or weight, dependent on the level to be measured, e.g. by difference of heat transfer of steam or water
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01F—MEASURING VOLUME, VOLUME FLOW, MASS FLOW OR LIQUID LEVEL; METERING BY VOLUME
- G01F23/00—Indicating or measuring liquid level or level of fluent solid material, e.g. indicating in terms of volume or indicating by means of an alarm
- G01F23/80—Arrangements for signal processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Fluid Mechanics (AREA)
- Acoustics & Sound (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Thermal Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于听觉与触觉的水杯水位检测方法及装置,涉及检测水位技术领域。包括:将听觉数据输入到构建好的听觉特征提取模型进行特征提取得到听觉信息;将触觉数据输入到构建好的触觉特征提取模型进行特征提取得到触觉信息;对听觉信息以及触觉信息进行拼接得到多模态特征;根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。本发明引入触觉传感器,通过容器所含液体的增加使触觉传感器变形程度增加判断液体所含多少,结合倒水时的音频,采用神经网络预测液体含量具体的百分比,通过多模态的数据更细致地确定液体含量,提高预测的准确性及在各个环境中的普适性。
Description
技术领域
本发明涉及检测水位技术领域,尤其涉及一种基于听觉与触觉的水杯水位检测方法及装置。
背景技术
多模态人机交互旨在利用语音、图像和触觉等多模态信息进行人与计算机之间的信息交换。其中包括人到计算机的多模态信息输入与计算机到人的多模态信息呈现,在智能家居、智慧医疗、智能交通等方面有着广泛的应用。
传统的人机交互多注重对于单个模态的数据和信息进行处理,但即使在单个模态中对数据的分析细致透彻,也很难在复杂维度的情况中识别到重点信息。对于目标物体的明显特征,多数情况不能完全统一在统一模态中。随着深度学习和人工智能技术的发展,基于神经网络的多模态处理方式能够同时处理听觉、触觉等比原先更大量的数据,从不同维度中提取信息并结合起来,实现对复杂场景的更加准确的理解和描述,使人机交互的过程越来越自然、精准。
随着现代科技的发展,人机交互逐渐兴起,机器人也能和人互动配合,共同完成工作。在人机物品传递过程中,倒水是基础且常用的操作之一。在倒水的过程中需要自动确定水位的变化。现有技术或只依靠听觉维度的信息进行判断,或结合多模态将水位百分比分为0%,50%,100%三类,不能精确给出具体百分比。而在实际应用场景当中多有噪声,单凭听觉判断水位不具有普适性。
专利CN116301388A公开了一种智能多模态组合应用的人机交互场景系统,采用多模态的方法解决人机交互相关领域问题,但没有针对倒水的场景进行应用。专利CN113647825A公开了一种基于神经网络的饮水机出水自动控制方法,但只采用音频针对水杯水位进行检测,在噪声多的使用环境当中并不适用。专利CN208598165U公开了一种自动检测水杯水位的饮水机,采用物理传感器的方式对水位进行检测,应用时依赖物理传感器件,导致在多功能人机交互场景中的灵活性比较受限。
Hengyi Wang等人(Improving generalization of Deep Networks forestimating physical properties of containers and fillings,arXiv.org.Availableat:https://arxiv.org/abs/2203.01192(Accessed:25July 2023).)使用轻量级、预训练的卷积神经网络将音频和视频模态的信息结合起来解决填充级别分类问题,集成了音频和RGB视频的信息,使用常规的轻量化网络MobileNetv2与CA(Coordinate attention,注意力机制)作为主干网络进行预训练,使用LSTM(Long Short Term Memory,长短期记忆网络)作为主干神经网络将容器中液体含量分为0%,50%,90%三个类别。但该方法只能大致分类,不能细致地预测具体百分比。
Reina Ishikawa等人(Audio-Visual Hybrid Approach for Filling MassEstimation,1Jan.1970,link.springer.com/chapter/10.1007/978-3-030-68793-9_32.Accessed 25July 2023.)对音频进行处理,将原始音频波形转换成对数-梅尔频谱图,裁剪成固定大小,采用处理音频常用的模型VGGish作为预训练主干,输入卷积神经网络模型。该方法只采用单一的音频作为输入,将容器中液体含量分为0%,50%,90%三个类别,不能更加精准、全面地预测具体百分比。
Donaher,Santiago等人(Audio Classification of the Content of FoodContai ners and Drinking Glasses.arXiv.Org,9June 2021,arxiv.org/abs/2103.15999.)关注物品倒入容器时和摇晃容器时的两种声音作为神经网络的输入。根据倒入的声音可以预测容器是否倒满,摇晃的声音将容器中的液体含量分为0%,50%,90%三个类别。由于只有音频维度的信息,该方法虽然将音频进行细分,但无法预测更加细致的液体含量百分比。
在实际的人机交互场景中,不可能做到和实验室相似的良好环境,常常伴有音频噪声干扰,光照不足,甚至视线遮挡等意外情况,这时利用单模态的传统方法便显现出其局限性,受到干扰的模态无法准确反映相关水位信息,导致预测结果与实际值偏差较大,且模型的鲁棒性和泛化能力也较差。而使用多模态需要考虑模态之间的结合问题,以往工作不能完成预测精准的百分比,而只将水位大致分类,在应用中亦受到局限性。
发明内容
本发明针对现有技术或只依靠听觉维度的信息进行判断;或结合多模态将水位百分比分为0%,50%,100%三类,不能精确给出具体百分比,无法精准地为后续的继续倒水或停止倒水等操作提供基准。以及,实际应用场景当中多有噪声,且相比于倒水的声音音量可能更大,因此单凭听觉判断水位不具有普适性的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于听觉与触觉的水杯水位检测方法,该方法由电子设备实现,该方法包括:
S1、获取待检测的水杯的听觉数据以及触觉数据。
S2、将听觉数据输入到构建好的听觉特征提取模型进行特征提取,得到听觉信息。
S3、将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息。
S4、对听觉信息以及触觉信息进行拼接,得到多模态特征。
S5、根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。
可选地,S1中的触觉数据的获取过程,包括:
根据触觉传感器获取触觉数据;其中,触觉传感器包括微处理器、相机以及柔性体模块。
相机,用于记录柔性体模块的形变,获取柔性体模块的表面接触信息,进而得到触觉数据。
柔性体模块上设有标记点。
可选地,S2中的听觉特征提取模型的构建过程,包括:
S21、获取训练视频数据。
S22、根据训练视频数据,得到视频样本以及视频样本对应的标签。
S23、根据视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS,得到构建好的听觉特征提取模型。
可选地,S22中的根据训练视频数据,得到视频样本以及视频样本对应的标签,包括:
S221、对训练视频数据进行裁剪,得到多个视频样本。
S222、对多个视频样本中的每个视频样本进行图像处理,得到视频样本的当前帧的液体像素体积。
S223、将当前帧的液体像素体积与倒水实验中的杯子像素体积进行对比,得到当前帧的液体像素体积占杯子像素体积的百分比。
S224、根据百分比,得到视频样本中预设时间步长的百分比的平均值,进而得到每个视频样本对应的多个标签。
可选地,S3中的触觉特征提取模型的构建过程,包括:
S31、获取倒水实验中触觉传感器的标记点的位移数据。
S32、获取标记点的位移数据的平均值,根据位移数据的平均值,得到触觉样本以及触觉样本对应的标签。
S33、根据触觉样本以及触觉样本对应的标签,得到构建好的触觉特征提取模型。
可选地,S3中的将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息,如下式(1)所示:
其中,Fti,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧的触觉信息特征值,Fti,k,l,j的维度是(1,12),对于每一个触觉样本,得到(8,12)的特征向量来表征一个样本中的触觉信息,t表示视频数据时长,i表示视频数个数,k表示每个视频数据所裁剪的触觉样本个数,l表示预设时间步长,j表示每个裁剪的视频的帧数,1≤m≤9,1≤n≤4,xm,n,i,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧中第m行第n列标记点的横坐标,xm,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的横坐标,ym,n,i,k,l,j表示第i条视频数据中第k个样本中第l个预设时间步长中第j帧中第m行第n列标记点的纵坐标,ym,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的纵坐标。
可选地,S5中的长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM,批量大小设为4,采用均方误差MSE作为损失函数,采用自适应时刻估计方法Adam作为优化器。
另一方面,本发明提供了一种基于听觉与触觉的水杯水位检测装置,该装置应用于实现基于听觉与触觉的水杯水位检测方法,该装置包括:
获取模块,用于获取待检测的水杯的听觉数据以及触觉数据。
听觉特征提取模块,用于将听觉数据输入到构建好的听觉特征提取模型进行特征提取,得到听觉信息。
触觉特征提取模块,用于将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息。
拼接模块,用于对听觉信息以及触觉信息进行拼接,得到多模态特征。
输出模块,用于根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。
可选地,获取模块,进一步用于:
根据触觉传感器获取触觉数据;其中,触觉传感器包括微处理器、相机以及柔性体模块。
相机,用于记录柔性体模块的形变,获取柔性体模块的表面接触信息,进而得到触觉数据。
柔性体模块上设有标记点。
可选地,听觉特征提取模块,进一步用于:
S21、获取训练视频数据。
S22、根据训练视频数据,得到视频样本以及视频样本对应的标签。
S23、根据视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS,得到构建好的听觉特征提取模型。
可选地,听觉特征提取模块,进一步用于:
S221、对训练视频数据进行裁剪,得到多个视频样本。
S222、对多个视频样本中的每个视频样本进行图像处理,得到视频样本的当前帧的液体像素体积。
S223、将当前帧的液体像素体积与倒水实验中的杯子像素体积进行对比,得到当前帧的液体像素体积占杯子像素体积的百分比。
S224、根据百分比,得到视频样本中预设时间步长的百分比的平均值,进而得到每个视频样本对应的多个标签。
可选地,触觉特征提取模块,进一步用于:
S31、获取倒水实验中触觉传感器的标记点的位移数据。
S32、获取标记点的位移数据的平均值,根据位移数据的平均值,得到触觉样本以及触觉样本对应的标签。
S33、根据触觉样本以及触觉样本对应的标签,得到构建好的触觉特征提取模型。
可选地,将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息,如下式(1)所示:
其中,Fti,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧的触觉信息特征值,Fti,k,l,j的维度是(1,12),对于每一个触觉样本,得到(8,12)的特征向量来表征一个样本中的触觉信息,t表示视频数据时长,i表示视频数个数,k表示每个视频数据所裁剪的触觉样本个数,l表示预设时间步长,j表示每个裁剪的视频的帧数,1≤m≤9,1≤n≤4,xm,n,i,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧中第m行第n列标记点的横坐标,xm,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的横坐标,ym,n,i,k,l,j表示第i条视频数据中第k个样本中第l个预设时间步长中第j帧中第m行第n列标记点的纵坐标,ym,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的纵坐标。
可选地,长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM,批量大小设为4,采用均方误差MSE作为损失函数,采用自适应时刻估计方法Adam作为优化器。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于听觉与触觉的水杯水位检测方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于听觉与触觉的水杯水位检测方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,创造性地引入触觉模态,对水杯水位进行检测,提高了模型的鲁棒性和泛化能力,可以应用于多种收到噪声干扰的场景中。
提高测量准确性:通过引入触觉模态,本发明技术方案在现有基于音频和视频结合判断水杯水位的基础上,进一步提高了测量准确性。触觉传感器能够捕捉更多细微的变化,从而增加了对水杯内水位的精确度。
扩展适用范围:本发明技术方案使得原有的基于音频和视频的水位判断系统更具适用性。在一些情况下,音频和视频可能受到环境噪音或光照条件的限制,而引入触觉传感器可以在这些情况下提供可靠的测量结果。
提升实时性:触觉传感器具备快速响应的特性,使得本发明技术方案在实时水位检测方面表现优异。快速准确的数据采集和深度学习方法使得系统能够更及时地反馈水杯水位信息。
降低能耗:相较于某些传统传感器,引入的触觉传感器具备较低的能耗特性,从而有效延长了系统的电池寿命,降低了使用成本。
强化用户体验:本发明通过结合多模态信息,从多个角度对水杯水位进行预测,能够较好地、更全面地利用信息;模拟、学习人类从事相关活动时的状态和方法。
拓展应用领域:引入触觉传感器后,本发明技术方案不仅限于水杯水位判断,还可以在其他领域中应用。例如,在智能家居、医疗护理等方面具备广阔的应用前景。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于听觉与触觉的水杯水位检测方法流程示意图;
图2是本发明实施例提供的网络结构图;
图3是本发明实施例提供的处理后的标记点图像;
图4是本发明实施例提供的模型整体结构图;
图5是本发明实施例提供的基于听觉与触觉的水杯水位检测装置框图;
图6是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于听觉与触觉的水杯水位检测方法,该方法可以由电子设备实现。如图1所示的基于听觉与触觉的水杯水位检测方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待检测的水杯的听觉数据以及触觉数据。
一种可行的实施方式中,上述步骤S1可以是基于本发明的听觉传感器以及触觉传感器进行待检测物体的听觉数据以及触觉数据获取,待检测的物体可以是水杯,也可以是其他容器。
可选地,S1中的触觉数据的获取过程,包括:
根据触觉传感器获取触觉数据;其中,触觉传感器包括微处理器、相机以及柔性体模块。
相机,用于记录柔性体模块的形变,获取柔性体模块的表面接触信息,进而得到触觉数据。
柔性体模块上设有标记点。
S2、将听觉数据输入到构建好的听觉特征提取模型进行特征提取,得到听觉信息。
可选地,S2中的听觉特征提取模型的构建过程,可以包括S21-S23:
S21、获取训练视频数据。
一种可行的实施方式中,现有技术的公开数据集多为音频数据,没有触觉模块的数据集。因此本发明独立获取和标定数据,考虑了听觉、触觉特征以提高水杯水位检测的准确性,进而在人机交互场景中解决相应问题。具体地,用夹爪固定杯子,尽量使每次实验杯子、橡胶块上标记点初始位置以及与相机相对位置相同,通过视频记录倒水过程。
进一步地,使用特定颜色的液体,通过轮廓查找,二值化,开运算和裁剪等图像处理方法,得到液体像素体积Vl,与事先计算好的杯子像素体积Vg作比,得到当前帧液体体积占杯子总体积的百分比Pl。将负数置零后使用savgol filter对得到标签进行平滑。
S22、根据训练视频数据,得到视频样本以及视频样本对应的标签。
可选地,上述步骤S22可以包括如下步骤S221-S224:
S221、对训练视频数据进行裁剪,得到多个视频样本。
S222、对多个视频样本中的每个视频样本进行图像处理,得到视频样本的当前帧的液体像素体积。
S223、将当前帧的液体像素体积与倒水实验中的杯子像素体积进行对比,得到当前帧的液体像素体积占杯子像素体积的百分比。
S224、根据百分比,得到视频样本中预设时间步长的百分比的平均值,进而得到每个视频样本对应的多个标签。
S23、根据视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS,得到构建好的听觉特征提取模型。
一种可行的实施方式中,本发明设计了一个听觉传感器,根据记录视频的总帧数,每4s裁剪出一个样本,对于第i条视频能裁剪出Ni个样本(Ni≤t÷4s,t为视频时长,Ni为满足条件的最大正整数)。以一个4s的视频样本为例,取0.5s为步长,计算0.5s内共12帧(视频为24FPS(Frames Per Second,每秒的视频帧数),即1秒视频有24帧图片,24帧/s*0.5s=12帧)中液体百分比的平均值,并将其作为标签,即一个样本能得到8个标签(4s÷0.5s=8个标签)。使用PANNS(Pretrained Audio Neural Networks,预训练的音频神经网络)网络作为特征提取器,将0.5s的音频输入到网络中,得到(1,128)的特征向量。该特征向量表示0.5秒的视频经过网络提取出的时间维度为1,特征维度为128的听觉特征。
本发明采用固定长度一个4秒的视频为一个数据样本,因此一个样本输入网络会得到(8,128)的特征向量来表征一个样本中的听觉信息。预训练的音频神经网络PANNS,是一个使用原始AudioSet(含有190万个音频片段,527个类别的大规模数据集)音频记录作为输入,最早出现的针对音频模式识别的大规模预训练模型。它同时利用音频时域波形和更符合人耳的听觉特性的log Mel梅尔频谱(一种更符合人耳的听觉特性的频谱)作为输入,网络结构如附图2所示。其中Wavegram是一个使用卷积神经网络学习到的特征,它包括时间轴和频率轴,通过维度变换(N:样本数;C:通道数;T:帧数,F:频率段)能够学习到传统一维卷积神经网络忽略的频率信息。
S3、将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息。
可选地,S3中的触觉特征提取模型的构建过程,可以包括S31-S33:
S31、获取倒水实验中触觉传感器的标记点的位移数据。
S32、获取标记点的位移数据的平均值,根据位移数据的平均值,得到触觉样本以及触觉样本对应的标签。
S33、根据触觉样本以及触觉样本对应的标签,得到构建好的触觉特征提取模型。
一种可行的实施方式中,本发明设计了一个触觉传感器,在与杯子接触的部分有一块橡胶,其上有事先做好的标记点,处理后的标记点图像如附图3所示。倒水后杯子重量的增加,使得橡胶块发生剪切形变,对应的标记点发生位移,计算得到不同时刻标记点位移的大小,取平均值后将0.5s内共12个数据视为一组,完成对触觉信息特征的刻画。
具体而言,记原始记第i条视频第一帧为fi,0,其中第m行(1≤m≤9),n列(1≤n≤4)的标记点坐标为(xm,n,ym,n)i,0。第k个样本(1≤k≤Ni)的第j帧(1≤j≤12)对应的帧fi,k,j中,第m行,n列的标记点坐标为(xm,n,ym,n)i,k,j,使用如下公式计算第i条视频,第k个样本,第l个0.5s(1≤l≤8)中第j帧(共12帧)对应的触觉信息特征值:
其中,Fti,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧的触觉信息特征值,Fti,k,l,j的维度是(1,12),对于每一个触觉样本,得到(8,12)的特征向量来表征一个样本中的触觉信息,t表示视频数据时长,i表示视频数个数,k表示每个视频数据所裁剪的触觉样本个数,l表示预设时间步长,j表示每个裁剪的视频的帧数,1≤m≤9,1≤n≤4,xm,n,i,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧中第m行第n列标记点的横坐标,xm,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的横坐标,ym,n,i,k,l,j表示第i条视频数据中第k个样本中第l个预设时间步长中第j帧中第m行第n列标记点的纵坐标,ym,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的纵坐标。
S4、对听觉信息以及触觉信息进行拼接,得到多模态特征。
一种可行的实施方式中,可以采用前期、串行融合的方法,将得到的听觉和触觉信息拼接在一起,形成高维特征向量。
S5、根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。
可选地,上述步骤S5中的长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM,批量大小设为4,采用均方误差MSE作为损失函数,采用自适应时刻估计方法Adam作为优化器。
本发明综合听觉与触觉两个模态,使用深度学习的方法,对倒水过程中水杯水位进行检测,每0.5s给出一个回归预测值。模型整体结构如附图4所示。本发明考虑实际应用场景当中视觉容易受到光线影响、听觉容易受到噪声影响、触觉传感器本身的精准度较低等因素,采用触觉模态与传统的听觉模态相融合,使用LSTM和全链接层神经网络进行训练预测,打破以往的分类限制,得到较为精准的百分比,为后续其他人机交互操作提供基础。
具体的训练流程包括:
1、读取单条视频总帧数,以4s为步长,24FPS计算该条视频能够被分为多少个样本;记录并存储每条视频对应的样本数.
2、读取单通道音频数据,其采样率为44100Hz,以其对应的视频为基准,根据可分样本数对音频进行裁剪,使得每一条音频均为4s的整数倍。
3、使用预训练好的PANNS模型参数,将每一个样本中的0.5s音频数据输入到PANNS网络(计算短时傅里叶变换的窗长度为1024,连续帧之间的样本数为320,梅尔滤波器个数为64)中得到对应的听觉信息特征,遍历一个4秒的样本后得到样本对应的(8,128)听觉信息特征。
4、按照3.1.3小节叙述的触觉信息特征获取方法计算每个样本的触觉信息特征(8,12)。
将第3步处理得到的听觉信息特征与第4步处理得到的触觉信息特征拼接起来,得到(8,140)的样本多模态特征。
5、使用双向、双层LSTM(隐藏层数为1024)作为主干网络,对水位进行回归。其中batch size大小设为4,采用均方误差(MSE)作为损失函数,使用自适应时刻估计方法Adam作为优化器,学习率为0.0001,在训练集上训练100轮。
6、每一轮训练后都在测试集上进行测试,计算预测水位百分比与实际百分比误差在±5%、±10%以及±15%的准确率,保存过程中±5%准确率最高的模型,并记录训练轮次。
本发明采用的是私人采集的数据集。视频方面使用罗技C270 HD WEBCAM摄像头放置杯子正前方,距离杯子440毫米的位置进行拍摄,分辨率为1920ⅹ1080,每秒24帧。为便于测量水位,杯子中使用红色染料配得红色溶液进行实验。音频方面使用BOYA-M1麦克风放置在抓夹左侧距离杯子15mm的位置,收集倒水时的音频。触觉方面使用GelSight触觉传感器,由一个微处理器、一个微型相机和一块梯形橡胶层组成,橡胶层中有4ⅹ10的标记点阵,在倒水过程中,杯子和橡胶之间的摩擦力会使橡胶层产生明显的剪切变形,导致其中的点阵排列变形。经过裁剪后,数据集总共包含150个样本,其中训练集包含120个样本,测试集包含30个样本,训练集与测试集的比例近似8:2。该数据集视频倒水时间从8s到24s不等,水位从30%到95%不等,涵盖了不同水位、不同倒水时间的情况。
本发明中听觉信息特征提取器使用的是PANNS网络,触觉信息特征提取器使用的是标记点距离变化。对比其他听觉信息特征提取器(如VGGish、Mel倒谱系数以及MobileNetV2)、触觉特征提取器(如ResNet50、MobileNetV2),本发明中模型方法得到的测试集上±5%准确率最高,效果最好。
因此,本发明串行融合触觉和听觉,通过多模态的数据更细致地确定液体含量,解决了室内噪声较大、音频不清晰时以往工作中单靠音频无法判断水位的问题,提高在各个环境中的普适性。且本发明通过深度学习的方法,使用LSTM和全链接层神经网络进行训练预测,每0.5s进行回归预测,能够预测液体含量具体的百分比,提高预测的准确性,解决了以往工作中仅将水位进行分类不精准的问题,可在实际应用中为后续继续倒水或停止倒水等操作提供基准。
本发明实施例中,创造性地引入触觉模态,对水杯水位进行检测,提高了模型的鲁棒性和泛化能力,可以应用于多种收到噪声干扰的场景中。
提高测量准确性:通过引入触觉模态,本发明技术方案在现有基于音频和视频结合判断水杯水位的基础上,进一步提高了测量准确性。触觉传感器能够捕捉更多细微的变化,从而增加了对水杯内水位的精确度。
扩展适用范围:本发明技术方案使得原有的基于音频和视频的水位判断系统更具适用性。在一些情况下,音频和视频可能受到环境噪音或光照条件的限制,而引入触觉传感器可以在这些情况下提供可靠的测量结果。
提升实时性:触觉传感器具备快速响应的特性,使得本发明技术方案在实时水位检测方面表现优异。快速准确的数据采集和深度学习方法使得系统能够更及时地反馈水杯水位信息。
降低能耗:相较于某些传统传感器,引入的触觉传感器具备较低的能耗特性,从而有效延长了系统的电池寿命,降低了使用成本。
强化用户体验:本发明通过结合多模态信息,从多个角度对水杯水位进行预测,能够较好地、更全面地利用信息;模拟、学习人类从事相关活动时的状态和方法。
拓展应用领域:引入触觉传感器后,本发明技术方案不仅限于水杯水位判断,还可以在其他领域中应用。例如,在智能家居、医疗护理等方面具备广阔的应用前景。
如图5所示,本发明实施例提供了一种基于听觉与触觉的水杯水位检测装置500,该装置500应用于实现基于听觉与触觉的水杯水位检测方法,该装置500包括:
获取模块510,用于获取待检测的水杯的听觉数据以及触觉数据。
听觉特征提取模块520,用于将听觉数据输入到构建好的听觉特征提取模型进行特征提取,得到听觉信息。
触觉特征提取模块530,用于将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息。
拼接模块540,用于对听觉信息以及触觉信息进行拼接,得到多模态特征。
输出模块550,用于根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。
可选地,获取模块,进一步用于:
根据触觉传感器获取触觉数据;其中,触觉传感器包括微处理器、相机以及柔性体模块。
相机,用于记录柔性体模块的形变,获取柔性体模块的表面接触信息,进而得到触觉数据。
柔性体模块上设有标记点。
可选地,听觉特征提取模块520,进一步用于:
S21、获取训练视频数据。
S22、根据训练视频数据,得到视频样本以及视频样本对应的标签。
S23、根据视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS,得到构建好的听觉特征提取模型。
可选地,听觉特征提取模块520,进一步用于:
S221、对训练视频数据进行裁剪,得到多个视频样本。
S222、对多个视频样本中的每个视频样本进行图像处理,得到视频样本的当前帧的液体像素体积。
S223、将当前帧的液体像素体积与倒水实验中的杯子像素体积进行对比,得到当前帧的液体像素体积占杯子像素体积的百分比。
S224、根据百分比,得到视频样本中预设时间步长的百分比的平均值,进而得到每个视频样本对应的多个标签。
可选地,触觉特征提取模块530,进一步用于:
S31、获取倒水实验中触觉传感器的标记点的位移数据。
S32、获取标记点的位移数据的平均值,根据位移数据的平均值,得到触觉样本以及触觉样本对应的标签。
S33、根据触觉样本以及触觉样本对应的标签,得到构建好的触觉特征提取模型。
可选地,将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息,如下式(1)所示:
其中,Fti,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧的触觉信息特征值,Fti,k,l,j的维度是(1,12),对于每一个触觉样本,得到(8,12)的特征向量来表征一个样本中的触觉信息,t表示视频数据时长,i表示视频数个数,k表示每个视频数据所裁剪的触觉样本个数,l表示预设时间步长,j表示每个裁剪的视频的帧数,1≤m≤9,1≤n≤4,xm,n,i,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧中第m行第n列标记点的横坐标,xm,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的横坐标,ym,n,i,k,l,j表示第i条视频数据中第k个样本中第l个预设时间步长中第j帧中第m行第n列标记点的纵坐标,ym,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的纵坐标。
可选地,长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM,批量大小设为4,采用均方误差MSE作为损失函数,采用自适应时刻估计方法Adam作为优化器。
本发明实施例中,创造性地引入触觉模态,对水杯水位进行检测,提高了模型的鲁棒性和泛化能力,可以应用于多种收到噪声干扰的场景中。
提高测量准确性:通过引入触觉模态,本发明技术方案在现有基于音频和视频结合判断水杯水位的基础上,进一步提高了测量准确性。触觉传感器能够捕捉更多细微的变化,从而增加了对水杯内水位的精确度。
扩展适用范围:本发明技术方案使得原有的基于音频和视频的水位判断系统更具适用性。在一些情况下,音频和视频可能受到环境噪音或光照条件的限制,而引入触觉传感器可以在这些情况下提供可靠的测量结果。
提升实时性:触觉传感器具备快速响应的特性,使得本发明技术方案在实时水位检测方面表现优异。快速准确的数据采集和深度学习方法使得系统能够更及时地反馈水杯水位信息。
降低能耗:相较于某些传统传感器,引入的触觉传感器具备较低的能耗特性,从而有效延长了系统的电池寿命,降低了使用成本。
强化用户体验:本发明通过结合多模态信息,从多个角度对水杯水位进行预测,能够较好地、更全面地利用信息;模拟、学习人类从事相关活动时的状态和方法。
拓展应用领域:引入触觉传感器后,本发明技术方案不仅限于水杯水位判断,还可以在其他领域中应用。例如,在智能家居、医疗护理等方面具备广阔的应用前景。
图6是本发明实施例提供的一种电子设备600的结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)601和一个或一个以上的存储器602,其中,存储器602中存储有至少一条指令,至少一条指令由处理器601加载并执行以实现下述基于听觉与触觉的水杯水位检测方法:
S1、获取待检测的水杯的听觉数据以及触觉数据。
S2、将听觉数据输入到构建好的听觉特征提取模型进行特征提取,得到听觉信息。
S3、将触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息。
S4、对听觉信息以及触觉信息进行拼接,得到多模态特征。
S5、根据多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于听觉与触觉的水杯水位检测方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于听觉与触觉的水杯水位检测方法,其特征在于,所述方法包括:
S1、获取待检测的水杯的听觉数据以及触觉数据;
S2、将所述听觉数据输入到构建好的听觉特征提取模型进行特征提取,得到听觉信息;
S3、将所述触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息;
S4、对所述听觉信息以及触觉信息进行拼接,得到多模态特征;
S5、根据所述多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。
2.根据权利要求1所述的方法,其特征在于,所述S1中的触觉数据的获取过程,包括:
根据触觉传感器获取触觉数据;其中,所述触觉传感器包括微处理器、相机以及柔性体模块;
所述相机,用于记录所述柔性体模块的形变,获取柔性体模块的表面接触信息,进而得到触觉数据;
所述柔性体模块上设有标记点。
3.根据权利要求1所述的方法,其特征在于,所述S2中的听觉特征提取模型的构建过程,包括:
S21、获取训练视频数据;
S22、根据所述训练视频数据,得到视频样本以及视频样本对应的标签;
S23、根据所述视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS,得到构建好的听觉特征提取模型。
4.根据权利要求3所述的方法,其特征在于,所述S22中的根据所述训练视频数据,得到视频样本以及视频样本对应的标签,包括:
S221、对所述训练视频数据进行裁剪,得到多个视频样本;
S222、对所述多个视频样本中的每个视频样本进行图像处理,得到视频样本的当前帧的液体像素体积;
S223、将所述当前帧的液体像素体积与倒水实验中的杯子像素体积进行对比,得到当前帧的液体像素体积占杯子像素体积的百分比;
S224、根据所述百分比,得到视频样本中预设时间步长的百分比的平均值,进而得到每个视频样本对应的多个标签。
5.根据权利要求1所述的方法,其特征在于,所述S3中的触觉特征提取模型的构建过程,包括:
S31、获取倒水实验中触觉传感器的标记点的位移数据;
S32、获取标记点的位移数据的平均值,根据所述位移数据的平均值,得到触觉样本以及触觉样本对应的标签;
S33、根据所述触觉样本以及触觉样本对应的标签,得到构建好的触觉特征提取模型。
6.根据权利要求1所述的方法,其特征在于,所述S3中的将所述触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息,如下式(1)所示:
其中,Fti,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧的触觉信息特征值,Fti,k,l,j的维度是(1,12),对于每一个触觉样本,得到(8,12)的特征向量来表征一个样本中的触觉信息,t表示视频数据时长,i表示视频数个数,k表示每个视频数据所裁剪的触觉样本个数,l表示预设时间步长,j表示每个裁剪的视频的帧数,1≤m≤9,1≤n≤4,xm,n,i,k,l,j表示第i条视频数据中第k个触觉样本中第l个预设时间步长中第j帧中第m行第n列标记点的横坐标,xm,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的横坐标,ym,n,i,k,l,j表示第i条视频数据中第k个样本中第l个预设时间步长中第j帧中第m行第n列标记点的纵坐标,ym,n,i,0表示第i条视频数据中初始帧中第m行第n列标记点的纵坐标。
7.根据权利要求1所述的方法,其特征在于,所述S5中的长短期记忆递归神经网络LSTM的主干网络为双向双层LSTM,批量大小设为4,采用均方误差MSE作为损失函数,采用自适应时刻估计方法Adam作为优化器。
8.一种基于听觉与触觉的水杯水位检测装置,其特征在于,所述装置包括:
获取模块,用于获取待检测的水杯的听觉数据以及触觉数据;
听觉特征提取模块,用于将所述听觉数据输入到构建好的听觉特征提取模型进行特征提取,得到听觉信息;
触觉特征提取模块,用于将所述触觉数据输入到构建好的触觉特征提取模型进行特征提取,得到触觉信息;
拼接模块,用于对所述听觉信息以及触觉信息进行拼接,得到多模态特征;
输出模块,用于根据所述多模态特征以及长短期记忆递归神经网络LSTM进行水位回归预测,得到水杯的水位检测结果。
9.根据权利要求8所述的装置,其特征在于,所述听觉特征提取模块,用于:
S21、获取训练视频数据;
S22、根据所述训练视频数据,得到视频样本以及视频样本对应的标签;
S23、根据所述视频样本、视频样本对应的标签以及预训练的音频神经网络PANNS,得到构建好的听觉特征提取模型。
10.根据权利要求8所述的装置,其特征在于,所述触觉特征提取模块,用于:
S31、获取倒水实验中触觉传感器的标记点的位移数据;
S32、获取标记点的位移数据的平均值,根据所述位移数据的平均值,得到触觉样本以及触觉样本对应的标签;
S33、根据所述触觉样本以及触觉样本对应的标签,得到构建好的触觉特征提取模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311459279.5A CN117288294B (zh) | 2023-11-03 | 2023-11-03 | 一种基于听觉与触觉的水杯水位检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311459279.5A CN117288294B (zh) | 2023-11-03 | 2023-11-03 | 一种基于听觉与触觉的水杯水位检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117288294A true CN117288294A (zh) | 2023-12-26 |
CN117288294B CN117288294B (zh) | 2024-06-04 |
Family
ID=89257338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311459279.5A Active CN117288294B (zh) | 2023-11-03 | 2023-11-03 | 一种基于听觉与触觉的水杯水位检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117288294B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030015036A1 (en) * | 2001-06-22 | 2003-01-23 | Young Winston B. | Acoustic volume indicator |
US20050132796A1 (en) * | 2003-12-19 | 2005-06-23 | George Brookner | Radio frequency tagging for indicia printing and product information |
CN110286765A (zh) * | 2019-06-21 | 2019-09-27 | 济南大学 | 一种智能实验容器及其使用方法 |
CN112149048A (zh) * | 2019-06-27 | 2020-12-29 | 西门子股份公司 | 电气设备中基于温度的液位估计 |
CN115588148A (zh) * | 2022-08-29 | 2023-01-10 | 河海大学 | 一种基于类脑反馈交互的多模态融合视频分类方法及系统 |
CN115905838A (zh) * | 2022-11-18 | 2023-04-04 | 南京邮电大学 | 一种视听辅助的细粒度触觉信号重建方法 |
CN116952328A (zh) * | 2023-07-26 | 2023-10-27 | 珠海格力电器股份有限公司 | 水位检测方法、电器设备的控制方法、装置及计算机设备 |
-
2023
- 2023-11-03 CN CN202311459279.5A patent/CN117288294B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030015036A1 (en) * | 2001-06-22 | 2003-01-23 | Young Winston B. | Acoustic volume indicator |
US20050132796A1 (en) * | 2003-12-19 | 2005-06-23 | George Brookner | Radio frequency tagging for indicia printing and product information |
CN110286765A (zh) * | 2019-06-21 | 2019-09-27 | 济南大学 | 一种智能实验容器及其使用方法 |
CN112149048A (zh) * | 2019-06-27 | 2020-12-29 | 西门子股份公司 | 电气设备中基于温度的液位估计 |
CN115588148A (zh) * | 2022-08-29 | 2023-01-10 | 河海大学 | 一种基于类脑反馈交互的多模态融合视频分类方法及系统 |
CN115905838A (zh) * | 2022-11-18 | 2023-04-04 | 南京邮电大学 | 一种视听辅助的细粒度触觉信号重建方法 |
CN116952328A (zh) * | 2023-07-26 | 2023-10-27 | 珠海格力电器股份有限公司 | 水位检测方法、电器设备的控制方法、装置及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117288294B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109192204B (zh) | 一种基于智能设备摄像头的语音控制方法和智能设备 | |
Fisher et al. | Speaker association with signal-level audiovisual fusion | |
CN105516280B (zh) | 一种多模态学习过程状态信息压缩记录方法 | |
CN106599881A (zh) | 学生状态的确定方法、装置及系统 | |
CN110991381A (zh) | 一种基于行为和语音智能识别的实时课堂学生状态分析与指示提醒系统和方法 | |
WO2021077382A1 (zh) | 一种学习状态的判断方法、装置及智能机器人 | |
CN108399376A (zh) | 学生课堂学习兴趣智能分析方法及系统 | |
CN112183238B (zh) | 一种远程教育注意力检测方法及系统 | |
CN110119672A (zh) | 一种嵌入式疲劳状态检测系统及方法 | |
CN110765854A (zh) | 一种视频动作识别方法 | |
CN111783687A (zh) | 一种基于人工智能的教学直播方法 | |
CN104144328B (zh) | 一种智能视频监控方法 | |
WO2008069519A1 (en) | Gesture/speech integrated recognition system and method | |
CN110807585A (zh) | 一种学员课堂学习状态在线评估方法及系统 | |
CN111144321B (zh) | 专注度检测方法、装置、设备和存储介质 | |
CN109547695A (zh) | 基于声音分类算法定向捕捉画面的全息视频监控系统及方法 | |
CN114648354A (zh) | 一种基于眼动追踪和情绪状态的广告测评方法和系统 | |
CN108520758B (zh) | 一种视听觉跨模态物体材质检索方法及系统 | |
CN103105924A (zh) | 人机交互方法和装置 | |
CN114663734A (zh) | 基于多特征融合的在线课堂学生专注度评价方法及系统 | |
CN116959471A (zh) | 语音增强方法、语音增强网络的训练方法及电子设备 | |
CN113283334A (zh) | 一种课堂专注度分析方法、装置和存储介质 | |
CN115546899A (zh) | 一种基于深度学习的考场异常行为分析方法、系统及终端机 | |
CN114582355B (zh) | 基于音视频融合的婴儿哭泣检测方法及装置 | |
CN107452381B (zh) | 一种多媒体语音识别装置及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |