CN112463103A - 拾音方法、装置、电子设备及存储介质 - Google Patents
拾音方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112463103A CN112463103A CN201910846781.9A CN201910846781A CN112463103A CN 112463103 A CN112463103 A CN 112463103A CN 201910846781 A CN201910846781 A CN 201910846781A CN 112463103 A CN112463103 A CN 112463103A
- Authority
- CN
- China
- Prior art keywords
- sound source
- target sound
- prediction model
- position prediction
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/162—Interface to dedicated audio devices, e.g. audio drivers, interface to CODECs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种拾音方法,应用于语音交互技术领域,包括:在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时该目标声源位置的真实值,将该时间轴上的各时刻和各时刻对应的该目标声源位置的真实值作为训练数据,建立位置预测模型,采用位置预测模型,预测下一时刻该目标声源位置的预测值,基于下一时刻该目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。本申请还公开了一种拾音装置、电子设备及存储介质,可以预测声源位置,并根据预测的位置调整麦克风阵列,更精准的拾音。
Description
技术领域
本申请涉及语音交互技术领域,尤其涉及一种拾音方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,语音识别算法日益成熟,语音通信因其在交互方式上的高自然性与便捷性而正变得越来越重要。用户可以通过语音与智能电子设备进行交互,完成指令输入、信息查询、语音聊天等多种任务。
声源定位是语音通信中一项关键技术,其目的是要确定出说话人的方向或位置。通常声源的位置确定后,麦克风阵列会一直指向声源的位置进行拾音,但是声源不是静止不变的,会存在不断移动的情况,因此需要预测声源的下一刻的位置并跟踪,更好的进行拾音。
发明内容
本申请的主要目的在于提供一种拾音方法、装置、电子设备及存储介质,可以预测声源位置,并根据预测的位置调整麦克风阵列,更精准的拾音。
为实现上述目的,本申请实施例第一方面提供一种拾音方法,应用于包含有麦克风阵列的电子设备中,包括:
在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时所述目标声源位置的真实值;
将所述时间轴上的各时刻和各时刻对应的所述目标声源位置的真实值作为训练数据,建立位置预测模型;
采用位置预测模型,预测下一时刻所述目标声源位置的预测值;
基于下一时刻所述目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。
进一步地,所述基于下一时刻所述目标声源位置的预测值,调整所述麦克风阵列中各个麦克风的拾音指向之后,还包括:
计算下一时刻所述目标声源位置的真实值;
判断下一时刻所述目标声源位置的真实值和预测值之间的差值是否在预设差值范围内;
若是,则用所述预测值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型,并利用更新后的位置预测模型,再次执行所述采用位置预测模型,预测下一时刻所述目标声源位置的预测值的步骤;
若否,则用所述真实值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型,并利用更新后的位置预测模型,再次执行所述采用位置预测模型,预测下一时刻所述目标声源位置的预测值的步骤。
进一步地,所述位置预测模型:
Y=ati+b;
其中,Y为所述目标声源在ti时刻位置的预测值,a为权重系数,b为偏置。
进一步地,所述计算在预置时间轴上各时刻时所述目标声源位置的真实值包括:
当到达所述预置时间轴上的任一时刻时,利用麦克风阵列中的各麦克风分别接收所述目标声源的语音信号;
计算所述语音信号到达麦克风阵列中任意两个麦克风时的到达时间差,得到多个到达时间差;
利用所述麦克风阵列中各麦克风的位置和所述多个到达时间差,计算当前时刻所述目标声源位置的真实值。
进一步地,所述在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时所述目标声源位置的真实值之前,包括:
获取所述麦克风阵列中各个麦克风采集的声音信号;
提取所述声音信号中的声纹特征;
将所述声纹特征与所述目标声源的声纹特征进行匹配,确定所述目标声源。
本申请实施例第二方面提供一种拾音装置,应用于包含有麦克风阵列的电子设备中,包括:
第一计算模块,用于在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时所述目标声源位置的真实值;
建立模块,用于将所述时间轴上的各时刻和各时刻对应的所述目标声源位置的真实值作为训练数据,建立位置预测模型;
预测模块,用于采用位置预测模型,预测下一时刻所述目标声源位置的预测值;
调整模块,用于基于下一时刻所述目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。
进一步地,所述装置还包括:
第二计算模块,用于计算下一时刻所述目标声源位置的真实值;
判断模块,用于判断下一时刻所述目标声源位置的真实值和预测值之间的差值是否在预设差值范围内;
第一训练模块,若是,则用所述预测值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型,利用更新后的位置预测模型,再次执行所述预测模块;
第二训练模块,若否,则用所述真实值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型利用更新后的位置预测模型,再次执行所述预测模块。
进一步地,所述位置预测模型:
Y=ati+b;
其中,Y为所述目标声源在ti时刻位置的预测值,a为权重系数,b为偏置。
进一步地,所述第一计算模块包括:
接收子模块,用于当到达所述预置时间轴上的任一时刻时,利用麦克风阵列中的各麦克风分别接收所述目标声源的语音信号;
第一计算子模块,用于计算所述语音信号到达麦克风阵列中任意两个麦克风时的到达时间差,得到多个到达时间差;
第二计算子模块,用于利用所述麦克风阵列中各麦克风的位置和所述多个到达时间差,计算当前时刻所述目标声源位置的真实值。
进一步地,所述装置还包括:
获取模块,用于获取所述麦克风阵列中各个麦克风采集的声音信号;
提取模块,用于提取所述声音信号中的声纹特征;
匹配模块,用于将所述声纹特征与所述目标声源的声纹特征进行匹配,确定所述目标声源。
本申请实施例第三方面提供了一种电子设备,包括:
存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现本申请实施例第一方面提供的拾音方法。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面提供的拾音方法。
从上述本申请实施例可知,本申请提供的拾音方法、装置、电子设备及存储介质,在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时该目标声源位置的真实值,将该时间轴上的各时刻和各时刻对应的该目标声源位置的真实值作为训练数据,建立位置预测模型,采用位置预测模型,预测下一时刻该目标声源位置的预测值,基于下一时刻该目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向,可以预测声源位置,并根据预测的位置调整麦克风阵列,更精准的拾音。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的拾音方法的流程示意图;
图2为本申请一实施例提供的拾音方法的流程示意图;
图3为本申请一实施例提供的计算目标声源位置真实值的流程示意图;
图4为本申请一实施例提供的拾音装置的结构示意图;
图5为本申请一实施例提供的拾音装置的结构示意图;
图6为本申请一实施例提供的第一计算模块的结构示意图;
图7为本申请一实施例提供的拾音装置的结构示意图;
图8示出了一种电子设备的硬件结构示意图。
具体实施方式
为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
拾音技术的应用载体一般是语音识别系统,主体通常包含有服务器及终端,语音信号一般由终端输入后发送到服务器,由服务器根据语音信号进行相应处理并返回相应的结果。例如,用户对智能音箱讲话,智能音箱通过自带的麦克风阵列拾取用户发送的语音,在拾取用户语音的过程中,不断地将当前拾取到的语音信号发送到服务器,由服务器预测下一时刻声源(用户)的位置,并将该位置结果返回给智能音箱,最终智能音箱根据该位置结果调整麦克风阵列中各个麦克风的拾音指向。除此之外,上述的智能音箱还可以是各种智能设备,例如智能电视、平板甚至是其他各种智能家电、智能办公设备等。
需要说明的是,本申请中的拾音方法的各个步骤,可以部分步骤在终端上执行,其余部分步骤在服务器上执行,也可以在终端上执行各个步骤,因此下述通过终端执行各个步骤是示例性的执行方式,而非全部的执行方式。
请参阅图1,图1为本申请一实施例提供的拾音方法的流程示意图,该方法可应用于包括有麦克风阵列的电子设备中,该电子设备包括:手机、平板电脑、手提电脑、智能手表、智能音箱等,该方法主要包括以下步骤:
S101、在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时该目标声源位置的真实值;
目标声源是指待预测位置的发声物体或人,例如,可以是、能发声的机器人、说话的人等。在本实施例中,发声过程中目标声源可以发生移动。
时间轴上各时刻之间的差值可以是固定的,也可以是不固定的。例如,时间轴上的各时刻为t0、t1、t2、......,tn,则当t0、t1之间的时间差值可以是1秒,t1、t2之间的时间差值可以是2秒,或者,t0至tn之间相邻两个时刻的时间差值均为1秒,本申请实施例具体不对此做出限制。
计算在预置时间轴上各时刻目标声源位置真实值的过程可以采取本领域常规技术手段来完成,本申请实施例不对计算目标声源位置真实值所采用的方法进行限定,例如,可以采用基于最大输出功率的可控波束形成技术、基于高分辨率谱图估计技术和基于声音到达时间差(Time Difference of Arrival,TDOA)的声源定位技术中的任意一种即可。
S102、将该时间轴上的各时刻和各时刻对应的目标声源位置的真实值作为训练数据,建立位置预测模型;
示例性的,令t0时刻目标声源的位置为d0、t1时刻目标声源的位置为d1,t2时刻目标声源的位置为d2,tn时刻目标声源的位置为dn,则得到一个关于目标声源位置真实值和对应时刻的序列(t0,d0),(t1,d1),......,(tn,dn),将该序列训练数据,建立位置预测模型。
其中,位置预测模型可以采用Tensorflow进行训练,使模型预测更加准确。
S103、采用位置预测模型,预测下一时刻该目标声源位置的预测值;
在本申请其中一个实施例中,该位置预测模型为:
Y=ati+b 公式一
其中,Y为该目标声源在ti时刻位置的预测值,a为权重系数,b为偏置。
可理解的,训练位置预测模型的过程,即计算a和b具体数值的过程。将序列(t0,d0),(t1,d1),......,(tn,dn)输入上述公式一,其中,将dn作为Y输入,求解a和b具体数值,得到训练完成的位置预测模型。当需要预测下一时刻ti目标声源位置的预测值时,将ti输入公式一得到ti时刻目标声源位置的预测值。
S104、基于下一时刻该目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。
其中,本申请不对麦克风的具体类型做出限制,可以是尺寸较小的微型麦克风阵列等,麦克风阵列中麦克风的数量至少为两个。根据目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。
在本申请实施例中,在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时该目标声源位置的真实值,将该时间轴上的各时刻和各时刻对应的该目标声源位置的真实值作为训练数据,建立位置预测模型,采用位置预测模型,预测下一时刻该目标声源位置的预测值,基于下一时刻该目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向,可以预测声源位置,并根据预测的位置调整麦克风阵列,更精准的拾音。
请参阅图2,在本申请其中一个实施例中,在步骤S104之后,还包括步骤:
S105、计算下一时刻该目标声源位置的真实值;
S106、判断下一时刻该目标声源位置的真实值和预测值之间的差值是否在预设差值范围内;
该预测范围可以是经过大量实验统计得到的。示例性的,该预设范围差在+5°至-5°之间。
S107、若是,则用该预测值作为该位置预测模型在该下一时刻时训练数据,对该位置预测模型进行再次训练,更新该位置预测模型,并利用更新后的的位置预测模型,再次执行步骤S103:采用位置预测模型,预测下一时刻该目标声源位置的预测值。
S108、若否,则用该真实值作为该位置预测模型在该下一时刻时训练数据,对该位置预测模型进行再次训练,更新该位置预测模型,并利用更新后的位置预测模型,再次执行步骤S103:该采用位置预测模型,预测下一时刻该目标声源位置的预测值。
可理解的,若该目标声源位置的真实值和预测值之间的差值不在预设差值范围内,则证明预测值和真实值相差较大,位置预测模型计算出的预测值偏差较大,此时,不能继续利用预测值训练位置预测模型,选择用真实值继续完善该位置预测模型。
请参阅图3,在本申请其中一个实施例中,对于步骤S102,具体包括如下步骤:
S1011、当到达该预置时间轴上的任一时刻时,利用麦克风阵列中的各麦克风分别接收该目标声源的语音信号;
在本实施例中,将麦克风阵列中麦克风的数量以两个为例进行说明。示例性的,当时间到达t0时刻时,通过麦克风阵列中的两个麦克风分别接收该目标声源的语音信号,由于两个麦克风所在的位置相对目标声源不同,因此,当目标声源的语音信号到达两个麦克风时的时间会产生差异。
S1012、计算该语音信号到达麦克风阵列中任意两个麦克风时的到达时间差,得到多个到达时间差;
计算该语音信号到达麦克风阵列中任意两个麦克风时的到达时间差的过程可以采取本领域常规技术手段来完成,本申请实施例不对计算到达时间差所采用的方法进行限定,例如,可以采用相关函数法、广义相关法、相位谱法、高阶累计量法中的任意一种即可。
S1013、利用该麦克风阵列中各麦克风的位置和该多个到达时间差,计算当前时刻该目标声源位置的真实值。
在目标声源的声音信号到达两个麦克风,并计算出到达时间差后。利用解析几何,可假设目标声源位于以两个麦克风为焦点,到达时间差为参数的双曲面上,目标声源的位置即为双曲面的焦点。具体计算方法可采用联立曲线方程求解进行计算,本申请在此不再赘述。
更多的,在通过上述方法计算出目标声源的位置后,还可以通过优化算法进一步减小计算误差。本申请实施例不对优化算法进行限定,例如,可采用基于搜索的定位算法、基于解析解的定位算法。
在本申请其中一个实施例中,在步骤S101之前,还包括步骤:获取该麦克风阵列中各个麦克风采集的声音信号,提取该声音信号中的声纹特征,将该声纹特征与该目标声源的声纹特征进行匹配,确定该目标声源。
可理解的,提取该声音信号中的声纹特征,将该声纹特征与该目标声源的声纹特征进行匹配,确定该目标声源的过程即为声纹识别过程。声纹识别根据语音信号波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。
其中,本申请实施例不对提取该声音信号中的声纹特征所采用的方法进行限定,例如,例如可以采用线性预测倒谱系数法(LPCC,Linear PredictionCepstrumCoefficient)、美尔频率倒谱系数法(MFCC,Mel Frequency Cepstrum Coefficient)、感知线性预测参数法(PLP,Perceptual Linear Predict ive)和梅尔标度滤波法(FBANK,Melscale Filter Bank)中的任意一种。
其中,本申请实施例不对将该声纹特征与该目标声源的声纹特征进行匹配,确定该目标声源所采用的方法进行限定,例如,例如可以采用概率统计、动态时间规整、矢量量化、隐马尔可夫模型(HMM,Hidden Markov Model)、人工神经网络(ANN,Artificial NeuralNetwork)中的任意一种。
请参阅图4,图4是本申请又一实施例提供的拾音装置的结构示意图,该装置可内置于电子设备中,该装置主要包括:
第一计算模块201、建立模块202、预测模块203和调整模块204;
第一计算模块201,用于在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时该目标声源位置的真实值;
建立模块202,用于将该时间轴上的各时刻和各时刻对应的该目标声源位置的真实值作为训练数据,建立位置预测模型;
预测模块203,用于采用位置预测模型,预测下一时刻该目标声源位置的预测值;
在本申请其中一个实施例中,该位置预测模型为:
Y=ati+b;
其中,Y为该目标声源在ti时刻位置的预测值,a为权重系数,b为偏置。
调整模块204,用于基于下一时刻该目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。
在本申请实施例中,在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时该目标声源位置的真实值,将该时间轴上的各时刻和各时刻对应的该目标声源位置的真实值作为训练数据,建立位置预测模型,采用位置预测模型,预测下一时刻该目标声源位置的预测值,基于下一时刻该目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向,可以预测声源位置,并根据预测的位置调整麦克风阵列,更精准的拾音。
请参阅图5,该拾音装置还包括:
第二计算模块205、判断模块206、第一训练模块207和第二训练模块208。
第二计算模块205,用于计算下一时刻该目标声源位置的真实值;
判断模块206,用于判断下一时刻该目标声源位置的真实值和预测值之间的差值是否在预设差值范围内;
第一训练模块207,若是,则用该预测值作为该位置预测模型在该下一时刻时训练数据,对该位置预测模型进行再次训练,更新该位置预测模型,利用更新后的位置预测模型,再次执行该预测模块;
第二训练模块208,若否,则用该真实值作为该位置预测模型在该下一时刻时训练数据,对该位置预测模型进行再次训练,更新该位置预测模型利用更新后的位置预测模型,再次执行该预测模块。
请参阅图6,第一计算模块201进一步还包括:
接收子模块2011、第一计算子模块2012和第二计算子模块2013;
接收子模块2011,用于当到达该预置时间轴上的任一时刻时,利用麦克风阵列中的各麦克风分别接收该目标声源的语音信号;
第一计算子模块2012,用于计算该语音信号到达麦克风阵列中任意两个麦克风时的到达时间差,得到多个到达时间差;
第二计算子模块2013,用于利用该麦克风阵列中各麦克风的位置和该多个到达时间差,计算当前时刻该目标声源位置的真实值。
请参阅图7,该拾音装置还包括:
获取模块208、提取模块209和匹配模块2010;
获取模块208,用于获取该麦克风阵列中各个麦克风采集的声音信号;
提取模块209,用于提取该声音信号中的声纹特征;
匹配模块2010,用于将该声纹特征与该目标声源的声纹特征进行匹配,确定该目标声源。
进一步的,该电子装置包括:存储器、处理器及存储在所存储器上并可在该处理器上运行的计算机程序,该处理器执行该计算机程序时,实现如前述图1至图3所示实施例中描述的拾音方法。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的电子装置中,该计算机可读存储介质可以是上述各实施例中设置在主控芯片和数据采集芯片中的存储单元。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1至图3所示实施例中描述的拾音方法。
示例性的,电子装置可以为移动或便携式并执行无线通信的各种类型的计算机系统设备中的任何一种。具体的,电子装置可以为移动电话或智能电话(例如,基于iPhoneTM,基于Android TM的电话),便携式游戏设备(例如Nintendo DS TM,PlayStationPortable TM,Gameboy Advance TM,iPhone TM)、膝上型电脑、PDA、便携式互联网设备、音乐播放器以及数据存储设备,其他手持设备以及诸如手表、耳机、吊坠、耳机等,电子装置还可以为其他的可穿戴设备(例如,诸如电子眼镜、电子衣服、电子手镯、电子项链、电子纹身、电子设备或智能手表的头戴式设备(HMD))。
电子装置还可以是多个电子设备中的任何一个,多个电子设备包括但不限于蜂窝电话、智能电话、其他无线通信设备、个人数字助理、音频播放器、其他媒体播放器、音乐记录器、录像机、照相机、其他媒体记录器、收音机、医疗设备、车辆运输仪器、计算器、可编程遥控器、寻呼机、膝上型计算机、台式计算机、打印机、上网本电脑、个人数字助理(PDA)、便携式多媒体播放器(PMP)、运动图像专家组(MPEG-1或MPEG-2)音频层3(MP3)播放器,便携式医疗设备以及数码相机及其组合。
在一些情况下,电子装置可以执行多种功能(例如,播放音乐,显示视频,存储图片以及接收和发送电话呼叫)。如果需要,电子装置可以是诸如蜂窝电话、媒体播放器、其他手持设备、腕表设备、吊坠设备、听筒设备或其他紧凑型便携式设备的便携式设备。
如图8所示,电子设备10可以包括控制电路,该控制电路可以包括存储和处理电路30。该存储和处理电路30可以包括存储器,例如硬盘驱动存储器,非易失性存储器(例如闪存或用于形成固态驱动器的其它电子可编程限制删除的存储器等),易失性存储器(例如静态或动态随机存取存储器等)等,本申请实施例不作限制。存储和处理电路30中的处理电路可以用于控制电子设备10的运转。该处理电路可以基于一个或多个微处理器,微控制器,数字信号处理器,基带处理器,功率管理单元,音频编解码器芯片,专用集成电路,显示驱动器集成电路等来实现。
存储和处理电路30可用于运行电子设备10中的软件,例如互联网浏览应用程序,互联网协议语音(Voice over Internet Protocol,VOIP)电话呼叫应用程序,电子邮件应用程序,媒体播放应用程序,操作系统功能等。这些软件可以用于执行一些控制操作,例如,基于照相机的图像采集,基于环境光传感器的环境光测量,基于接近传感器的接近传感器测量,基于诸如发光二极管的状态指示灯等状态指示器实现的信息显示功能,基于触摸传感器的触摸事件检测,与在多个(例如分层的)显示器上显示信息相关联的功能,与执行无线通信功能相关联的操作,与收集和产生音频信号相关联的操作,与收集和处理按钮按压事件数据相关联的控制操作,以及电子设备10中的其它功能等,本申请实施例不作限制。
电子设备10还可以包括输入-输出电路42。输入-输出电路42可用于使电子设备10实现数据的输入和输出,即允许电子设备10从外部设备接收数据和也允许电子设备10将数据从电子设备10输出至外部设备。输入-输出电路42可以进一步包括传感器32。传感器32可以包括环境光传感器,基于光和电容的接近传感器,触摸传感器(例如,基于光触摸传感器和/或电容式触摸传感器,其中,触摸传感器可以是触控显示屏的一部分,也可以作为一个触摸传感器结构独立使用),加速度传感器,和其它传感器等。
输入-输出电路42还可以包括一个或多个显示器,例如显示器14。显示器14可以包括液晶显示器,有机发光二极管显示器,电子墨水显示器,等离子显示器,使用其它显示技术的显示器中一种或者几种的组合。显示器14可以包括触摸传感器阵列(即,显示器14可以是触控显示屏)。触摸传感器可以是由透明的触摸传感器电极(例如氧化铟锡(ITO)电极)阵列形成的电容式触摸传感器,或者可以是使用其它触摸技术形成的触摸传感器,例如音波触控,压敏触摸,电阻触摸,光学触摸等,本申请实施例不作限制。
电子设备10还可以包括音频组件36。音频组件36可以用于为电子设备10提供音频输入和输出功能。电子设备10中的音频组件36可以包括扬声器,麦克风,蜂鸣器,音调发生器以及其它用于产生和检测声音的组件。
通信电路38可以用于为电子设备10提供与外部设备通信的能力。通信电路38可以包括模拟和数字输入-输出接口电路,和基于射频信号和/或光信号的无线通信电路。通信电路38中的无线通信电路可以包括射频收发器电路、功率放大器电路、低噪声放大器、开关、滤波器和天线。举例来说,通信电路38中的无线通信电路可以包括用于通过发射和接收近场耦合电磁信号来支持近场通信(Near Field Communication,NFC)的电路。例如,通信电路38可以包括近场通信天线和近场通信收发器。通信电路38还可以包括蜂窝电话收发器和天线,无线局域网收发器电路和天线等。
电子设备10还可以进一步包括电池,电力管理电路和其它输入-输出单元40。输入-输出单元40可以包括按钮,操纵杆,点击轮,滚动轮,触摸板,小键盘,键盘,照相机,发光二极管和其它状态指示器等。
用户可以通过输入-输出电路42输入命令来控制电子设备10的操作,并且可以使用输入-输出电路42的输出数据以实现接收来自电子设备10的状态信息和其它输出。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的拾音方法、装置、电子设备及存储介质的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种拾音方法,其特征在于,应用于包含有麦克风阵列的电子设备中,所述方法包括:
在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时所述目标声源位置的真实值;
将所述时间轴上的各时刻和各时刻对应的所述目标声源位置的真实值作为训练数据,建立位置预测模型;
采用位置预测模型,预测下一时刻所述目标声源位置的预测值;
基于下一时刻所述目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。
2.根据权利要求1所述的拾音方法,其特征在于,所述基于下一时刻所述目标声源位置的预测值,调整所述麦克风阵列中各个麦克风的拾音指向之后,还包括:
计算下一时刻所述目标声源位置的真实值;
判断下一时刻所述目标声源位置的真实值和预测值之间的差值是否在预设差值范围内;
若是,则用所述预测值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型,并利用更新后的位置预测模型,再次执行所述采用位置预测模型,预测下一时刻所述目标声源位置的预测值的步骤;
若否,则用所述真实值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型,并利用更新后的位置预测模型,再次执行所述采用位置预测模型,预测下一时刻所述目标声源位置的预测值的步骤。
3.根据权利要求1或2所述的拾音方法,其特征在于,所述位置预测模型:
Y=ati+b;
其中,Y为所述目标声源在ti时刻位置的预测值,a为权重系数,b为偏置。
4.根据权利要求1或2所述的拾音方法,其特征在于,所述计算在预置时间轴上各时刻时所述目标声源位置的真实值包括:
当到达所述预置时间轴上的任一时刻时,利用麦克风阵列中的各麦克风分别接收所述目标声源的语音信号;
计算所述语音信号到达麦克风阵列中任意两个麦克风时的到达时间差,得到多个到达时间差;
利用所述麦克风阵列中各麦克风的位置和所述多个到达时间差,计算当前时刻所述目标声源位置的真实值。
5.根据权利要求1所述的拾音方法,其特征在于,所述在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时所述目标声源位置的真实值之前,包括:
获取所述麦克风阵列中各个麦克风采集的声音信号;
提取所述声音信号中的声纹特征;
将所述声纹特征与所述目标声源的声纹特征进行匹配,确定所述目标声源。
6.一种拾音装置,应用于包含有麦克风阵列的电子设备中,其特征在于,包括:
第一计算模块,用于在接收目标声源的语音信号的过程中,计算在预置时间轴上各时刻时所述目标声源位置的真实值;
建立模块,用于将所述时间轴上的各时刻和各时刻对应的所述目标声源位置的真实值作为训练数据,建立位置预测模型;
预测模块,用于采用位置预测模型,预测下一时刻所述目标声源位置的预测值;
调整模块,用于基于下一时刻所述目标声源位置的预测值,调整麦克风阵列中各个麦克风的拾音指向。
7.根据权利要求6所述的拾音装置,其特征在于,所述装置还包括:
第二计算模块,用于计算下一时刻所述目标声源位置的真实值;
判断模块,用于判断下一时刻所述目标声源位置的真实值和预测值之间的差值是否在预设差值范围内;
第一训练模块,若是,则用所述预测值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型,利用更新后的位置预测模型,再次执行所述预测模块;
第二训练模块,若否,则用所述真实值作为所述位置预测模型在所述下一时刻时训练数据,对所述位置预测模型进行再次训练,更新所述位置预测模型利用更新后的位置预测模型,再次执行所述预测模块。
8.根据权利要求6或7所述的拾音装置,其特征在于,所述位置预测模型:
Y=ati+b;
其中,Y为所述目标声源在ti时刻位置的预测值,a为权重系数,b为偏置。
9.根据权利要求6或7所述的拾音装置,其特征在于,所述第一计算模块包括:
接收子模块,用于当到达所述预置时间轴上的任一时刻时,利用麦克风阵列中的各麦克风分别接收所述目标声源的语音信号;
第一计算子模块,用于计算所述语音信号到达麦克风阵列中任意两个麦克风时的到达时间差,得到多个到达时间差;
第二计算子模块,用于利用所述麦克风阵列中各麦克风的位置和所述多个到达时间差,计算当前时刻所述目标声源位置的真实值。
10.根据权利要求6所述的拾音装置,其特征在于,所述装置还包括:
获取模块,用于获取所述麦克风阵列中各个麦克风采集的声音信号;
提取模块,用于提取所述声音信号中的声纹特征;
匹配模块,用于将所述声纹特征与所述目标声源的声纹特征进行匹配,确定所述目标声源。
11.一种电子设备,包括:存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至5中的任一项所述的拾音方法中的各个步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至5中的任一项所述的拾音方法中的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846781.9A CN112463103A (zh) | 2019-09-06 | 2019-09-06 | 拾音方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910846781.9A CN112463103A (zh) | 2019-09-06 | 2019-09-06 | 拾音方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463103A true CN112463103A (zh) | 2021-03-09 |
Family
ID=74807390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910846781.9A Pending CN112463103A (zh) | 2019-09-06 | 2019-09-06 | 拾音方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463103A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114205731A (zh) * | 2021-12-08 | 2022-03-18 | 随锐科技集团股份有限公司 | 发言人区域检测方法、装置、电子设备和存储介质 |
CN114863943A (zh) * | 2022-07-04 | 2022-08-05 | 杭州兆华电子股份有限公司 | 一种基于波束成形的环境噪声源自适应定位方法及装置 |
CN117054968A (zh) * | 2023-08-19 | 2023-11-14 | 杭州优航信息技术有限公司 | 基于线性阵列麦克风的声源定位系统及其方法 |
CN117370731A (zh) * | 2023-10-10 | 2024-01-09 | 广州远动信息技术有限公司 | 一种基于卷积神经网络的声音到达时间估计方法 |
CN117370731B (zh) * | 2023-10-10 | 2024-06-04 | 广州远动信息技术有限公司 | 一种基于卷积神经网络的声音到达时间估计方法 |
-
2019
- 2019-09-06 CN CN201910846781.9A patent/CN112463103A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114205731A (zh) * | 2021-12-08 | 2022-03-18 | 随锐科技集团股份有限公司 | 发言人区域检测方法、装置、电子设备和存储介质 |
CN114205731B (zh) * | 2021-12-08 | 2023-12-26 | 随锐科技集团股份有限公司 | 发言人区域检测方法、装置、电子设备和存储介质 |
CN114863943A (zh) * | 2022-07-04 | 2022-08-05 | 杭州兆华电子股份有限公司 | 一种基于波束成形的环境噪声源自适应定位方法及装置 |
CN114863943B (zh) * | 2022-07-04 | 2022-11-04 | 杭州兆华电子股份有限公司 | 一种基于波束成形的环境噪声源自适应定位方法及装置 |
CN117054968A (zh) * | 2023-08-19 | 2023-11-14 | 杭州优航信息技术有限公司 | 基于线性阵列麦克风的声源定位系统及其方法 |
CN117054968B (zh) * | 2023-08-19 | 2024-03-12 | 杭州优航信息技术有限公司 | 基于线性阵列麦克风的声源定位系统及其方法 |
CN117370731A (zh) * | 2023-10-10 | 2024-01-09 | 广州远动信息技术有限公司 | 一种基于卷积神经网络的声音到达时间估计方法 |
CN117370731B (zh) * | 2023-10-10 | 2024-06-04 | 广州远动信息技术有限公司 | 一种基于卷积神经网络的声音到达时间估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644642B (zh) | 语义识别方法、装置、存储介质及电子设备 | |
EP2821992B1 (en) | Method for updating voiceprint feature model and terminal | |
CN110364145B (zh) | 一种语音识别的方法、语音断句的方法及装置 | |
EP2881939B1 (en) | System for speech keyword detection and associated method | |
US9275638B2 (en) | Method and apparatus for training a voice recognition model database | |
CN110163380B (zh) | 数据分析方法、模型训练方法、装置、设备及存储介质 | |
WO2019052293A1 (zh) | 机器翻译方法、装置、计算机设备及存储介质 | |
CN110444210B (zh) | 一种语音识别的方法、唤醒词检测的方法及装置 | |
CN112463103A (zh) | 拾音方法、装置、电子设备及存储介质 | |
CN107995370B (zh) | 通话控制方法、装置及存储介质和移动终端 | |
CN108962241B (zh) | 位置提示方法、装置、存储介质及电子设备 | |
CN111050370A (zh) | 网络切换方法、装置、存储介质及电子设备 | |
CN110570857B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN111696570B (zh) | 语音信号处理方法、装置、设备及存储介质 | |
CN108320744A (zh) | 语音处理方法和装置、电子设备、计算机可读存储介质 | |
CN110364156A (zh) | 语音交互方法、系统、终端及可读存储介质 | |
CN109212534B (zh) | 移动终端的握持姿态检测方法、装置、设备及存储介质 | |
CN111477243B (zh) | 音频信号处理方法及电子设备 | |
CN110198413A (zh) | 一种视频拍摄方法、视频拍摄装置和电子设备 | |
CN110830368A (zh) | 即时通讯消息发送方法及电子设备 | |
CN108900688B (zh) | 发声控制方法、装置、电子装置及计算机可读介质 | |
CN110944056A (zh) | 交互方法、移动终端及可读存储介质 | |
CN116585177B (zh) | 基于数据挖掘的艾灸装置控制方法、装置、设备及介质 | |
CN108668018A (zh) | 移动终端、音量控制方法及相关产品 | |
CN112653789A (zh) | 语音模式切换方法、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |