CN118016102B - 一种基于非调制声音信号的定位方法及装置 - Google Patents
一种基于非调制声音信号的定位方法及装置 Download PDFInfo
- Publication number
- CN118016102B CN118016102B CN202410410974.0A CN202410410974A CN118016102B CN 118016102 B CN118016102 B CN 118016102B CN 202410410974 A CN202410410974 A CN 202410410974A CN 118016102 B CN118016102 B CN 118016102B
- Authority
- CN
- China
- Prior art keywords
- audio
- separated
- mfcc feature
- category
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 75
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000000926 separation method Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000003860 storage Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000002604 ultrasonography Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 13
- 238000013459 approach Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012880 independent component analysis Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/22—Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本申请实施例提供一种基于非调制声音信号的定位方法及装置,属于语音识别技术领域,其中方法包括:通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;使用librosa库将分离音频转换为MFCC特征向量;将MFCC特征向量输入至预训练好的BiLSTM模型,获取分离音频的音频类别;将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离;基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。本申请实施例实现定位不需要依赖于特定的麦克风阵列设备或超声波设备。
Description
技术领域
本申请属于语音识别技术领域,更具体地,涉及一种基于非调制声音信号的定位方法及装置。
背景技术
室内定位可以分为:基于无线的方式,基于光学视觉的方式,以及基于声音的方式。其中,基于无线的定位方式的定位效果易受到其它无线频段干扰,且受设备性能限制,实现成本较高,同时不同定位设备之间需要兼容的协议才能实现兼容定位;基于光学视觉的定位方式在可见光较低或遮挡物遮挡的场景下,定位效果较差,同时还存在隐私安全等问题。
相较来说,基于声音的定位方式可以克服基于无线和基于光学视觉的方式的上述缺陷。传统的声音定位方式包括两种:一种是基于声音强度信息的麦克风阵列定位方式,通过计算不同方位麦克风接收的声音强度信息来实现位置的结算。但是不同声音类别的声音强度信息往往不一样,这种方式在存在混合声源或者不同类别声音的场景下定位性能较差。
另一种是基于超声波的定位方式,该方式需要依赖于特定的超声波发送和接收设备,同时超声波的往往是定向发送与接收,只能在某一个方位进行定位。
因此,还需要进一步对基于声音的定位方式进行改进。
发明内容
针对相关技术的缺陷,本申请的目的在于提供一种基于非调制声音信号的定位方法及装置,旨在解决传统基于声音的定位方式定位性能受限的问题。
第一方面,本申请实施例提供一种基于非调制声音信号的定位方法,包括:
通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;
使用librosa库将分离音频转换为MFCC特征向量;
将MFCC特征向量输入至预训练好的BiLSTM模型,获取输入MFCC特征向量对应的分离音频的音频类别;
将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离;
基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。
在一些实施例中,BiLSTM模型通过以下步骤训练得到:
基于用户设备采集到的不同类别的音频信号,构建第一数据集;
使用librosa库将第一数据集中的音频信号转换为MFCC特征向量;
基于MFCC特征向量和预定义的音频类别标签训练得到BiLSTM模型。
在一些实施例中,LightGBM模型通过以下步骤训练得到:
基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;
使用librosa库将第二数据集中的音频信号转换为MFCC特征向量;
将MFCC特征向量输入至LightGBM模型,获得输入MFCC特征向量对应的音频信号的预测距离;
以最小化预测距离和实际距离的差值绝对值为目标,迭代更新LightGBM模型的模型参数,直至满足迭代条件。
在一些实施例中,确定用户设备或音频类别对应的声源设备的位置,包括:
基于预先确定的至少三个用户设备的位置,以及至少三个用户设备采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,
基于预先确定的用户设备的至少三处位置,以及在至少三处位置采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,
基于预先确定的至少三类分离音频对应的声源设备的位置,以及至少三类分离音频对应的音频距离,确定采集至少三类分离音频的用户设备的位置。
在一些实施例中,确定采集至少三类分离音频的用户设备的位置,包括:
以至少三类分离音频对应的声源设备的位置为中心,以BiLSTM模型输出的至少三类分离音频对应的音频距离为半径,分别构建三维球体;
确定不同的三维球体的交点为采集至少三类分离音频的用户设备的位置。
第二方面,本申请实施例还提供一种基于非调制声音信号的定位装置,包括:
音频分离模块,用于通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;
特征提取模块,用于使用librosa库将分离音频转换为MFCC特征向量;
音频类别获取模块,用于将MFCC特征向量输入至预训练好的BiLSTM模型,获取输入MFCC特征向量对应的分离音频的音频类别;
音频距离获取模块,用于将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离;
定位模块,用于基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。
在一些实施例中,BiLSTM模型通过以下步骤训练得到:
基于用户设备采集到的不同类别的音频信号,构建第一数据集;
使用librosa库将第一数据集中的音频信号转换为MFCC特征向量;
基于MFCC特征向量和预定义的音频类别标签训练得到BiLSTM模型。
在一些实施例中,LightGBM模型通过以下步骤训练得到:
基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;
使用librosa库将第二数据集中的音频信号转换为MFCC特征向量;
将MFCC特征向量输入至LightGBM模型,获得输入MFCC特征向量对应的音频信号的预测距离;
以最小化预测距离和实际距离的差值绝对值为目标,迭代更新LightGBM模型的模型参数,直至满足迭代条件。
在一些实施例中,定位模块具体用于:
基于预先确定的用户设备的至少三处位置,以及在至少三处位置采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,
基于预先确定的至少三类分离音频对应的声源设备的位置,以及至少三类分离音频对应的音频距离,确定采集至少三类分离音频的用户设备的位置。
在一些实施例中,定位模块具体用于:
以至少三类分离音频对应的声源设备的位置为中心,以BiLSTM模型输出的至少三类分离音频对应的音频距离为半径,分别构建三维球体;
确定不同的三维球体的交点为采集至少三类分离音频的用户设备的位置。
第三方面,本申请实施例还提供一种电子设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
第五方面,本申请实施例还提供一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
本申请实施例提供的一种基于非调制声音信号的定位方法及装置,利用FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,得到分离音频,并利用bibrosa库提取分离音频的MFCC特征向量;然后利用BiLSTM模型和LightGBM模型分别获取分离音频的音频类别和音频距离;最后利用各个分离音频的音频类别和音频距离,来实现用户设备或声源设备的定位;利用声音的MFCC特征的来实现定位,同时通过使用机器学习的方式对不同类别的声源信息进行单独的距离测算,定位精度高且不需要依赖于特定的麦克风阵列设备和超声波设备;仅利用声音的类别信息和距离信息,抗干扰性强;同时还可以实现对声源的全方位识别和定位。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的基于非调制声音信号的定位方法的流程示意图;
图2是本申请实施例提供的基于非调制声音信号的定位装置的结构示意图;
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本文中术语“和/或”,是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中符号“/”表示关联对象是或者的关系,例如A/B表示A或者B。
本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述对象的特定顺序。例如,第一响应消息和第二响应消息等是用于区别不同的响应消息,而不是用于描述响应消息的特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,除非另有说明,“多个”的含义是指两个或者两个以上,例如,多个处理单元是指两个或者两个以上的处理单元等;多个元件是指两个或者两个以上的元件等。
图1是本申请实施例提供的基于非调制声音信号的定位方法的流程示意图,如图1所示,该方法至少包括以下步骤(Step):
S101、通过FastICA算法对用户设备采集的周围环境的至少两组混合音频进行盲源分离,获得分离音频。
具体地,利用用户设备采集的周围环境的音频信号,往往是混合音频。独立成分分析(Independent Component Analysis, ICA)是一种有效的数据分析工具,能够从混合数据中提取出原始的独立信号。FastICA是一种快速ICA算法,基于定点递推算法得到,数据适用具有普适性。本申请实施例中利用FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获取预设数量的分离音频。
可选地,由于FastICA算法要求输入的混合音频信号至少是两个或两个以上的独立分量,也即最终获取的分离音频至少包括两组。可选地,混合音频的数量可以为一组或多组。用户设备一般自带至少两组麦克风,在同一时间点通过不同的麦克风可以采集到多组混合音频,在不同的时间点通过相同的麦克风也可以采集到多组混合音频。
可选地,通过用户设备采集的周围环境的音频信号,可能是混合音频,也可能是独立音频。混合音频中可能包含人声、电器声音等。如果采集到的是混合音频,则需要进行盲源分离,以便进行后续的音频识别和距离预测等操作;如果采集的是独立音频,则无需进行盲源分离,但实际操作中直接采集到独立音频的情形较少。
S102、使用librosa库将分离音频转换为MFCC特征向量。
具体地,librosa是一种强大的Python语音信号处理的第三方库,可以进行音频处理、频谱标识、幅度转换、时频转换、特征提取等。本申请实施例中使用librosa库将S101中获取的分离音频转换为梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients,MFCC)特征向量。
声音的时域波形只能表示声压随时间变化的关系,不能很好地代表声音的特征,因此需要考虑将音频信号波形转换为声学特征向量。声道的形状决定了发出什么样的声音,因此如果可以准确地知道声道的形状,就可以对产生的声音进行准确的描述。声道的形状在语音短时功率谱的包络中显示出来,MFCC特征就是准确描述这种包络的特征。
可选地,提取MFCC特征向量之前,还可以对音频信号进行预处理,包括分帧、模数转换、预加重、加窗、快速傅里叶变换和Mel频率转换等处理。处理后的MFCC特征向量将用于后续的音频识别和距离预测。
S103、将MFCC特征向量输入至预训练好的BiLSTM模型,获取输入MFCC特征向量对应的分离音频的音频类别。
具体地,双向长短期记忆(Bidirectional Long Short Term Memory, BiLSTM)网络由前向LSTM和后向LSTM组合而成。LSTM模型通过训练过程可以学到应该记忆和遗忘哪些信息,因此可以较好地捕捉到较长距离的依赖关系。但是LSTM无法编码从后到前的信息,BiLSTM可以更好地捕捉双向的语义依赖,从而更好地识别和分类声音数据。
将提取到的音频信号的MFCC特征向量输入至预训练好的BiLSTM模型中,获取模型输出的音频类别。此时分离音频、MFCC特征向量和音频类别之间一一对应。利用训练好的BiLSTM模型可以获取到特定环境下每一种分离音频的音频类别。音频类别确认的准确性直接影响后续距离预测的准确性和系统的整体定位性能。
S104、将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离。
具体地,梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的主要思想是利用弱分类器(决策树)迭代训练,得到训练效果好且不易过拟合的最优模型。轻量级梯度提升机器学习(Light Gradient Boosting Machine, LightGBM)是一个实现GBDT算法的框架,支持高效率的并行训练,能够处理MFCC特征并预测声源设备和音频采集设备之间的距离。即使在计算能力有限的设备(例如手机),也能快速且准确地实现感兴趣目标的定位。
训练LightGBM模型学习指定类别的音频信号的MFCC特征向量和音频距离之间的映射关系,从而可以利用训练好的LightGBM模型根据MFCC特征来预测音频距离。音频距离是指声源位置到音频采集设备(用户设备)之间的直线距离。
S105、基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。
具体地,基于前述步骤可以获取到混合音频中各个独立的分离音频的音频类别以及音频距离。如果定位目的是为了获取到用户设备的位置,那么利用不同音频类别的分离音频的音频距离,结合不同音频类别的分离音频对应的声源设备的位置,可以定位出用户设备的位置。可以想到的是,已知位置的声源设备的数量越多,以及获取到对应音频类别的分离音频的数量越多,最终获取到的用户设备的位置越精确。
同样地,如果定位目的是为了获取到某一指定音频类别对应的声源设备的位置,那么利用该音频类别的分离音频的音频距离,结合用户设备(可以是一个或多个用户设备)的位置,可以定位出该音频类别对应的声源设备的位置。其中,用户设备可以为移动式用户设备或非移动式用户设备,声源设备可以为移动式设备或非移动式设备。
可以想到的是,用户设备和用户往往是同时出现的,在确定出用户设备的位置之后,也就相应地可以获取到用户的位置。
本申请实施例提供的基于非调制声音信号的定位方法,利用FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,得到分离音频,并利用bibrosa库提取分离音频的MFCC特征向量;然后利用BiLSTM模型和LightGBM模型分别获取分离音频的音频类别和音频距离;最后利用各个分离音频的音频类别和音频距离,来实现用户设备或声源设备的定位;利用声音的MFCC特征的来实现定位,同时通过使用机器学习的方式对不同类别的声源信息进行单独的距离测算,定位精度高且不需要依赖于特定的麦克风阵列设备和超声波设备;仅利用声音的类别信息和距离信息,抗干扰性强;同时还可以实现对声源的全方位识别和定位。
在一些实施例中,S103中的BiLSTM模型通过以下步骤训练得到:
基于用户设备采集到的不同类别的音频信号,构建第一数据集;
使用librosa库将第一数据集中的音频信号转换为MFCC特征向量;
基于MFCC特征向量和预定义的音频类别标签训练得到BiLSTM模型。
具体地,BiLSTM模型学习输入的音频信号的MFCC特征向量和输出的音频类别之间的映射关系。
利用手机等用户设备采集不同类别的音频信号,并制作第一数据集。第一数据集中包含多个工作环境下声源设备的音频信号。例如,可以录制洗衣机在不同工作模式(例如洗涤、脱水等)下的音频信号,并记录洗衣机与录音设备之间的距离。
在模型训练阶段,使用librosa库将第一数据集中的音频信号转换为MFCC特征向量,同时获取预定义好的音频类别标签。第一数据集可以被划分为训练数据集和验证数据集。使用训练数据集中的MFCC特征向量和对应的类别标签对PyTorch编写的BiLSTM模型进行训练。在模型训练的同时利用验证数据集来评估模型的误差,若误差持续下降,则继续训练直至满足预设的误差精度;若误差持续不下降超过一定次数,也停止训练,得到训练好的BiLSTM模型。
在一些实施例中,S104中的LightGBM模型通过以下步骤训练得到:
基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;
使用librosa库将第二数据集中的音频信号转换为MFCC特征向量;
将MFCC特征向量输入至LightGBM模型,获得输入MFCC特征向量对应的音频信号的预测距离;
以最小化预测距离和实际距离的差值绝对值为目标,迭代更新LightGBM模型的模型参数,直至满足迭代条件。
具体地,对于某一类别的音频信号,其MFCC特征向量和音频距离之间存在一定的映射关系。LightGBM模型学习输入的指定类别的音频信号的MFCC特征向量和输出的音频距离之间的映射关系。
利用手机等用户设备采集不同类别和不同距离的音频信号,并制作第二数据集。在模型训练阶段,使用librosa库将第二数据集中的音频信号转换为MFCC特征向量,同时获取实际的音频类别以及音频距离。将MFCC特征向量输入至LightGBM模型,获取模型输出的预测距离。在模型训练过程中,以最小化预测距离与第二数据集中明确的实际距离的差值绝对值为目标,迭代更新LightGBM模型的模型参数,直至满足迭代条件,得到训练好的LightGBM模型。迭代条件可以为:达到预设的迭代次数,连续预设数量次迭代中预测距离和实际距离的差值绝对值小于等于预设值等。
利用训练好的LightGBM模型可以对分离且分类后的音频信号进行距离预测,输出音频距离。
在一些实施例中,S105具体包括:
基于预先确定的至少三个用户设备的位置,以及至少三个用户设备采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,
基于预先确定的用户设备的至少三处位置,以及在至少三处位置采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,
基于预先确定的至少三类分离音频对应的声源设备的位置,以及至少三类分离音频对应的音频距离,确定采集至少三类分离音频的用户设备的位置。
具体地,在需要确定出声源设备的位置的场景下,获取到该声源设备对应的音频分离的分离音频的音频距离之后,以采集音频信号的用户设备的位置为中心,以LightGBM模型预测的音频距离为半径,可以得到一个三维球体,此时声源设备的位置可能是这个三维球体表面的任意一点。为确定出该声源设备的位置,可以将声源设备的位置求解问题转换为n个已知中心点坐标和半径的球体的交点求解问题。在理想状态下,n的取值至少为3可以完成求解,可以想到的是,n的取值越大,最终求解的位置越准确。
如果用户设备的位置是固定的,即针对不可移动的音频采集设备,则需要通过在不同位置设置的至少三个用户设备来实现指定类别的声源设备的定位。但在实际执行中,用户设备往往是可移动的,因此考虑在用户设备移动过程中实现声源设备的定位,此时利用用户设备至少需要在三个不同的位置去采集该指定类别的音频信号,从而实现指定类别的声源设备的定位。
因此,基于预先确定的至少三个用户设备的位置,以及至少三个用户设备采集到的目标音频类别的分离音频的音频距离,可以确定出目标音频类别对应的声源设备的位置。或者,基于预先确定的用户设备的至少三处位置,以及在至少三处位置采集的目标音频类别的分离音频的音频距离,可以确定出目标音频类别对应的声源设备的位置。可以想到的是,用户设备的位置信息越多,采集的音频信号越多,最终定位的声源设备的位置越准确。
同样地,在需要确定出用户设备的位置的场景下,获取到用户设备采集的不同音频类别的分离音频的音频距离之后,以各个音频类别对应的声源设备的位置为中心,以LightGBM模型预测的音频距离为半径,可以得到多个三维球体,多个三维球体的共同交点即为该用户设备的位置。可选地,分类音频的类别至少包含三种,即至少采集三类分离音频的音频信号,才能实现用户设备的定位。可以想到的是,采集的音频信号越多,采集到的音频信号类别越多,最终定位的用户设备的位置越准确。
在一些实施例中,以至少三类分离音频对应的声源设备的位置为中心,以BiLSTM模型输出的至少三类分离音频对应的音频距离为半径,分别构建三维球体;
确定不同的三维球体的交点为采集至少三类分离音频的用户设备的位置。
假设有三个声源设备的平面坐标分别为,,,用户设备的平面坐标为。根据声源设备与用户设备之间的距离d1,d2,d3,可以建立以下方程组:
通过解这个方程组,可以求得用户设备的坐标。在实际应用中,由于测量误差,可能需要使用最小二乘法等数学优化技术来求解这个问题。
本申请实施例提供的基于非调制声音信号的定位方法,与传统的基于无线的定位方式相比,不需要昂贵的无线设备和基础设施,成本低廉,方案实现更加容易,且抗干扰性强;与传统的基于光学视觉的定位方式相比,除非在真空等苛刻环境下,不影响其定位性能,且无需对图像进行捕捉处理,更加注重用户的隐私安全;与传统的基于声音强度信息的麦克风阵列定位方式相比,音频类别和音频距离都是客观不变的,受环境影响较小,且可以有效实现混合声源下的定位,同时不依赖于复杂的麦克风阵列设备;与传统的基于超声波的定位方式相比,可以实现对声源的全方位定位和识别。
图2是本申请实施例提供的基于非调制声音信号的定位装置的结构示意图,如图2所示,该装置至少包括:
音频分离模块201,用于通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;
特征提取模块202,用于使用librosa库将分离音频转换为MFCC特征向量;
音频类别获取模块203,用于将MFCC特征向量输入至预训练好的BiLSTM模型,获取输入MFCC特征向量对应的分离音频的音频类别;
音频距离获取模块204,用于将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离;
定位模块205,用于基于各个分离音频的音频类别和音频距离,确定用户设备或音频类别对应的声源设备的位置。
在一些实施例中,BiLSTM模型通过以下步骤训练得到:
基于用户设备采集到的不同类别的音频信号,构建第一数据集;
使用librosa库将第一数据集中的音频信号转换为MFCC特征向量;
基于MFCC特征向量和预定义的音频类别标签训练得到BiLSTM模型。
在一些实施例中,LightGBM模型通过以下步骤训练得到:
基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;
使用librosa库将第二数据集中的音频信号转换为MFCC特征向量;
将MFCC特征向量输入至LightGBM模型,获得输入MFCC特征向量对应的音频信号的预测距离;
以最小化预测距离和实际距离的差值绝对值为目标,迭代更新LightGBM模型的模型参数,直至满足迭代条件。
在一些实施例中,定位模块205具体用于:
基于预先确定的用户设备的至少三处位置,以及在至少三处位置采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,
基于预先确定的至少三类分离音频对应的声源设备的位置,以及至少三类分离音频对应的音频距离,确定采集至少三类分离音频的用户设备的位置。
在一些实施例中,定位模块205具体用于:
以至少三类分离音频对应的声源设备的位置为中心,以BiLSTM模型输出的至少三类分离音频对应的音频距离为半径,分别构建三维球体;
确定不同的三维球体的交点为采集至少三类分离音频的用户设备的位置。
可以理解的是,上述各个单元/模块的详细功能实现可参见前述方法实施例中的介绍,在此不做赘述。
应当理解的是,上述装置用于执行上述实施例中的方法,装置中相应的程序模块,其实现原理和技术效果与上述方法中的描述类似,该装置的工作过程可参考上述方法中的对应过程,此处不再赘述。
基于上述实施例中的方法,本申请实施例提供了一种电子设备。该设备可以包括:至少一个用于存储程序的存储器和至少一个用于执行存储器存储的程序的处理器。其中,当存储器存储的程序被执行时,处理器用于执行上述实施例中所描述的方法。
图3是本申请实施例提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)320、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的软件指令,以执行上述实施例中所描述的方法。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。
基于上述实施例中的方法,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序在处理器上运行时,使得处理器执行上述实施例中的方法。
基于上述实施例中的方法,本申请实施例提供了一种计算机程序产品,当计算机程序产品在处理器上运行时,使得处理器执行上述实施例中的方法。
可以理解的是,本申请实施例中的处理器可以是中央处理单元(CentralProcessing Unit, CPU),还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor, DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现场可编程门阵列(Field Programmable Gate Array, FPGA)或者其他可编程逻辑器件、晶体管逻辑器件,硬件部件或者其任意组合。通用处理器可以是微处理器,也可以是任何常规的处理器。
本申请实施例中的方法步骤可以通过硬件的方式来实现,也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(Random Access Memory, RAM)、闪存、只读存储器(Read-Only Memory, ROM)、可编程只读存储器(Programmable ROM, PROM)、可擦除可编程只读存储器(ErasablePROM, EPROM)、电可擦除可编程只读存储器(Electrically EPROM, EEPROM)、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk, SSD))等。
可以理解的是,在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。
本领域的技术人员容易理解,以上仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于非调制声音信号的定位方法,其特征在于,包括:
通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;
使用librosa库将所述分离音频转换为MFCC特征向量;
将所述MFCC特征向量输入至预训练好的BiLSTM模型,获取输入MFCC特征向量对应的分离音频的音频类别;
将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离,所述LightGBM模型用于学习指定类别的音频信号的MFCC特征向量和音频距离之间的映射关系;
基于各个分离音频的音频类别和音频距离,确定所述用户设备或音频类别对应的声源设备的位置。
2.根据权利要求1所述的基于非调制声音信号的定位方法,其特征在于,所述BiLSTM模型通过以下步骤训练得到:
基于用户设备采集到的不同类别的音频信号,构建第一数据集;
使用librosa库将所述第一数据集中的音频信号转换为MFCC特征向量;
基于MFCC特征向量和预定义的音频类别标签训练得到所述BiLSTM模型。
3.根据权利要求1所述的基于非调制声音信号的定位方法,其特征在于,所述LightGBM模型通过以下步骤训练得到:
基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;
使用librosa库将所述第二数据集中的音频信号转换为MFCC特征向量;
将MFCC特征向量输入至LightGBM模型,获得输入MFCC特征向量对应的音频信号的预测距离;
以最小化预测距离和实际距离的差值绝对值为目标,迭代更新LightGBM模型的模型参数,直至满足迭代条件。
4.根据权利要求1所述的基于非调制声音信号的定位方法,其特征在于,所述确定所述用户设备或音频类别对应的声源设备的位置,包括:
基于预先确定的用户设备的至少三处位置,以及在所述至少三处位置采集的目标音频类别的分离音频的音频距离,确定目标音频类别对应的声源设备的位置;或者,
基于预先确定的至少三类分离音频对应的声源设备的位置,以及所述至少三类分离音频对应的音频距离,确定采集所述至少三类分离音频的用户设备的位置。
5.根据权利要求4所述的基于非调制声音信号的定位方法,其特征在于,所述确定采集所述至少三类分离音频的用户设备的位置,包括:
以所述至少三类分离音频对应的声源设备的位置为中心,以所述BiLSTM模型输出的所述至少三类分离音频对应的音频距离为半径,分别构建三维球体;
确定不同的所述三维球体的交点为采集所述至少三类分离音频的用户设备的位置。
6.一种基于非调制声音信号的定位装置,其特征在于,包括:
音频分离模块,用于通过FastICA算法对用户设备采集的周围环境的混合音频进行盲源分离,获得至少两组分离音频;
特征提取模块,用于使用librosa库将所述分离音频转换为MFCC特征向量;
音频类别获取模块,用于将所述MFCC特征向量输入至预训练好的BiLSTM模型,获取输入MFCC特征向量对应的分离音频的音频类别;
音频距离获取模块,用于将确定好音频类别的分离音频对应的MFCC特征向量输入至预训练好的LightGBM模型,获取输入MFCC特征向量对应的分离音频的音频距离,所述LightGBM模型用于学习指定类别的音频信号的MFCC特征向量和音频距离之间的映射关系;
定位模块,用于基于各个分离音频的音频类别和音频距离,确定所述用户设备或音频类别对应的声源设备的位置。
7.根据权利要求6所述的基于非调制声音信号的定位装置,其特征在于,所述BiLSTM模型通过以下步骤训练得到:
基于用户设备采集到的不同类别的音频信号,构建第一数据集;
使用librosa库将所述第一数据集中的音频信号转换为MFCC特征向量;
基于MFCC特征向量和预定义的音频类别标签训练得到所述BiLSTM模型。
8.根据权利要求6所述的基于非调制声音信号的定位装置,其特征在于,所述LightGBM模型通过以下步骤训练得到:
基于用户设备采集的不同音频类别和不同距离的音频信号,构建第二数据集;
使用librosa库将所述第二数据集中的音频信号转换为MFCC特征向量;
将MFCC特征向量输入至LightGBM模型,获得输入MFCC特征向量对应的音频信号的预测距离;
以最小化预测距离和实际距离的差值绝对值为目标,迭代更新LightGBM模型的模型参数,直至满足迭代条件。
9.一种电子设备,其特征在于,包括:
至少一个存储器,用于存储计算机程序;
至少一个处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-5任一所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序在处理器上运行时,使得所述处理器执行如权利要求1-5任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410410974.0A CN118016102B (zh) | 2024-04-08 | 2024-04-08 | 一种基于非调制声音信号的定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410410974.0A CN118016102B (zh) | 2024-04-08 | 2024-04-08 | 一种基于非调制声音信号的定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118016102A CN118016102A (zh) | 2024-05-10 |
CN118016102B true CN118016102B (zh) | 2024-07-16 |
Family
ID=90956723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410410974.0A Active CN118016102B (zh) | 2024-04-08 | 2024-04-08 | 一种基于非调制声音信号的定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118016102B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103439689A (zh) * | 2013-08-21 | 2013-12-11 | 大连理工大学 | 一种分布式麦克风阵列中麦克风位置估计系统 |
CN107613428A (zh) * | 2017-09-15 | 2018-01-19 | 北京地平线信息技术有限公司 | 声音处理方法、装置和电子设备 |
CN113132193A (zh) * | 2021-04-13 | 2021-07-16 | Oppo广东移动通信有限公司 | 智能设备的控制方法、装置、电子设备以及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106210511A (zh) * | 2016-06-30 | 2016-12-07 | 纳恩博(北京)科技有限公司 | 一种定位用户的方法和装置 |
CN106226739A (zh) * | 2016-07-29 | 2016-12-14 | 太原理工大学 | 融合子带分析的双声源定位方法 |
CN107644650B (zh) * | 2017-09-29 | 2020-06-05 | 山东大学 | 一种基于渐进串行正交化盲源分离算法的改进声源定位方法及其实现系统 |
CN117711436B (zh) * | 2024-02-05 | 2024-04-09 | 中国电子科技集团公司第十五研究所 | 一种基于多传感器融合的远场声音分类方法和装置 |
-
2024
- 2024-04-08 CN CN202410410974.0A patent/CN118016102B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103439689A (zh) * | 2013-08-21 | 2013-12-11 | 大连理工大学 | 一种分布式麦克风阵列中麦克风位置估计系统 |
CN107613428A (zh) * | 2017-09-15 | 2018-01-19 | 北京地平线信息技术有限公司 | 声音处理方法、装置和电子设备 |
CN113132193A (zh) * | 2021-04-13 | 2021-07-16 | Oppo广东移动通信有限公司 | 智能设备的控制方法、装置、电子设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN118016102A (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN110310623B (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
CN109947971B (zh) | 图像检索方法、装置、电子设备及存储介质 | |
CN113053410B (zh) | 声音识别方法、装置、计算机设备和存储介质 | |
US20230386470A1 (en) | Speech instruction recognition method, electronic device, and non-transient computer readable storage medium | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
CN114443891B (zh) | 编码器的生成方法、指纹提取方法、介质及电子设备 | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN113223536A (zh) | 声纹识别方法、装置及终端设备 | |
Liu et al. | Simple pooling front-ends for efficient audio classification | |
Kim et al. | Acoustic Event Detection in Multichannel Audio Using Gated Recurrent Neural Networks with High‐Resolution Spectral Features | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
CN118016102B (zh) | 一种基于非调制声音信号的定位方法及装置 | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
CN113077812A (zh) | 语音信号生成模型训练方法、回声消除方法和装置及设备 | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
Mardhotillah et al. | Speaker recognition for digital forensic audio analysis using support vector machine | |
Damacharla et al. | LSTM-CNN Network for Audio Signature Analysis in Noisy Environments | |
CN113782005B (zh) | 语音识别方法及装置、存储介质及电子设备 | |
CN113744729A (zh) | 语音识别模型生成方法、装置、设备以及存储介质 | |
CN113971953A (zh) | 语音命令词识别方法、装置、存储介质及电子设备 | |
CN113035230A (zh) | 认证模型的训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |