CN111354369A - 一种语音采集方法及系统 - Google Patents
一种语音采集方法及系统 Download PDFInfo
- Publication number
- CN111354369A CN111354369A CN201811572081.7A CN201811572081A CN111354369A CN 111354369 A CN111354369 A CN 111354369A CN 201811572081 A CN201811572081 A CN 201811572081A CN 111354369 A CN111354369 A CN 111354369A
- Authority
- CN
- China
- Prior art keywords
- sound source
- target sound
- target
- voice
- microphone array
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013473 artificial intelligence Methods 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000003199 nucleic acid amplification method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
- G01S5/20—Position of source determined by a plurality of spaced direction-finders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种语音采集方法和系统,所述方法包括步骤S1:确定目标声源的当前位置;步骤S2:控制麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。本发明的语音采集方法和系统可降低声源跟踪的计算量。
Description
技术领域
本发明涉及语音识别领域,尤其涉及一种语音采集方法及系统。
背景技术
随着物联网与人工智能的发展,语音识别、语音控制等智能交互领域都要求能获得高质量的语音,而实际的室内场景会存在各种噪声或多个声源,这就对语音的采集提出了较高的要求,因为只有采集到高质量的语音才能提高人工智能机器对语音的识别率,人们也能较好对机器进行语音控制,从而带来良好的人机交互。
获得更好的语音质量其实转化为三个步骤:如何区分声源;如何语音定向;如何进行语音跟踪。对于普通的室内环境,语音信号可以看作是一个近场宽带信号,信号源可以看作一个点源,它向360度的球体空间传播声音,传统方法是对多声源进行空域变换和滤波,获得具有特定特征的单一的感兴趣的声源,再采用波束定向控制,对感兴趣的声音进行采集。这种方式存在以下两方面问题:一方面计算量大,它需要实时同时采集多声源信息,然后再进行定向采集,因为声源在室内环境下通常是移动的而非静止不动的;另一方面如何采用智能化方法从多声源中提取出感兴趣的声音。
发明内容
本发明的目的是针对上述现有技术存在的缺陷,提供一种语音采集方法及系统,以解决现有技术中的声源跟踪计算量大的技术问题。
本发明实施例中,提供了一种语音采集方法,其包括
步骤S1:确定目标声源的当前位置;
步骤S2:控制麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。
本发明实施例中,所述的语音采集方法还包括
步骤S3:判断目标声源是否在所述目标区域,如果目标声源在所述目标区域,则进入步骤S4,否则返回步骤S1;
步骤S4:获取目标声源的位置并且更新当前时刻中目标声源的位置信息,并返回步骤S2。
本发明实施例中,步骤S1具体包括
对麦克风阵列采集到的当前时刻的语音数据中的多个声源进行定位,从而获得各个声源的位置;
通过声纹识别从所述多个声源中找出目标声源。
本发明实施例中,步骤S1中,采用可控波束定位法来对多个声源进行定位。
本发明实施例中,步骤S1中,采用人工智能声纹识别算法找出目标声源的位置。
本发明实施例中,步骤S2中,还包括:
根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。
本发明实施例中,还提供了一种语音采集系统,其包括
麦克风阵列,用于采集环境中的语音数据;
声源定位模块,用于在所述麦克风阵列采集到的语音数据中确定目标声源的当前位置;
控制模块,用于控制所述麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。
本发明实施例中,所述的语音采集系统还包括:
判断模块,用于判断目标声源是否在所述目标区域,如果目标声源在所述目标区域,则所述声源定位模块获取目标声源的位置并且更新当前时刻中目标声源的位置信息,否则所述控制模块控制麦克风阵列重新采集的语音数据并进行目标声源定位。
本发明实施例中,所述的语音采集系统,还包括
预测模块,用于根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。
本发明实施例中,所述声源定位模块包括:
定位单元,用于对所述麦克风阵列采集到的语音数据中的多个声源进行定位,从而获得各个声源的位置;
识别单元,用于通过声纹识别从所述多个声源中找出目标声源。
本发明实施例中,所述定位单元采用可控波束定位法来对多个声源进行定位。
本发明实施例中,所述识别单元采用人工智能声纹识别算法找出目标声源的位置。
与现有技术相比较,本发明的语音采集方法及系统,采用声纹识别算法找到目标声源的位置,根据下一时刻的预测位置与上一时刻位置的距离的最大值作为阀值,来判定是否需要重新初始化声源的位置和更新位置信息,最后根据获得的声源位置,控制麦克风阵列的参数,使得麦克风阵列对准声源进行语音数据采集、放大、滤波和优化,从而得到高质量的语音信息,实现在多声源的环境下获取感兴趣的声音,极大提高了采集到高质量语音信号的效率,从而为提高语音识别正确率,为提高用户在使用智能交互功能时候的体验打下了良好基础。
附图说明
图1是本发明实施例的语音采集方法的流程图。
图2是本发明实施例的语音采集环境的示意图。
图3是本发明实施例中计算目标声源的移动距离的示意图。
图4是本发明实施例的语音采集系统的结构示意图。
具体实施方式
如图1所示,本发明实施例中,提供了一种语音采集方法,其包括步骤S1-S4。下面分别进行说明。
步骤S1:对麦克风阵列采集到语音数据中的多个声源进行定位,从而获得各个声源的位置。
具体地,步骤S1包括:
对麦克风阵列采集到的当前时刻的语音数据中的多个声源进行定位,从而获得各个声源的位置;
通过声纹识别从所述多个声源中找出目标声源。
需要说明的是,步骤S1中,采用可控波束定位法来对多个声源进行定位。采用人工智能声纹识别算法找出目标声源的位置。进行声纹识别前,需预先采集识别目标人员的声纹。
如图2所示,假设室内有ID分别为A-F六个人员,首先必须采集到A-F的声纹信息,并且采用基于人工智能的声纹识别技术将各个人员的ID与不同的声纹进行绑定,从而达到声纹信息与人员ID能一一绑定,这样就可以在采集的语音数据中有多个声源(A-F人员的声音)的情况下,采用可控波束定位技术对目标声源(比如说A人员的声音)进行定位。
步骤S2:控制麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。
需要说明的是,定位出目标声源后,系统自动调整麦克风阵列参数使得麦克风阵列对准A(拾音波束区)进行放大采集并进行降噪滤波等优化处理,而将其它区域的人声或者噪声作为抑制区域的声音进行过滤或者缩小声音能量来达到采集高质量的A人员语音。
由于是对室内环境中的人的进行语音采集,声源的移动速度一般不会很快或者发生瞬时移动,通常情况下声源一般都是出于基本上静止或者缓慢移动的状态,正常人在室外不停行走的速度大约是5km/h,换成按秒计算约为1.4m/s,室内的正常平均移动速度要远低于1.4m/s,如果按照语音采集的间隔来算,产生的移动距离更小,所以可以根据目标声源移动速度与语音采集的间隔时间来预估下一时刻中目标声源的位置,从而实现声源跟踪。
如图3所示,声源的上一时刻的位置为S,坐标为将移动的速度v,分解为,采用固定的时间间隔t来进行预测距离,t为两时刻语音之间的间隔时间,通常是数十毫秒级,t的具体值跟实际设备的采样频率和采样点个数有关,从而可以预测下一时刻的位置S’的坐标为(x,y,z)
那S与S’之间的距离为d:
步骤S3:判断目标声源是否在所述目标区域,如果目标声源在所述目标区域,则进入步骤S4,否则返回步骤S1中,重新采集语音数据并对目标声源进行定位。
需要说明的是,由于在步骤S2中的声源采集区域为对目标声源预测的目标区域,因此有可能存在预估不准确,目标声源超出了此区域的情况发生,因此,在步骤S3中,要判断目标声源是否在所述目标区域中,如果不在,则要重新返回步骤S1对重新全方位采集语音数据并对目标声源进行定位。
步骤S4:获取目标声源的位置并且更新当前时刻中目标声源的位置信息,然后返回步骤S2,采集新的目标区域的语音数据。
如图4所示,本发明实施例中,还提供了一种语音采集系统,其包括麦克风阵列1、声源定位模块2、控制模块3、判断模块4和预测模块5。下面分别进行说明。
所述麦克风阵列1,用于采集环境中的语音数据。
所述声源定位模块2,用于在所述麦克风阵列采集到的语音数据中确定目标声源的当前位置。
所述声源定位模块包括定位单元和识别单元。所述定位单元,用于对所述麦克风阵列采集到的语音数据中的多个声源进行定位,从而获得各个声源的位置;所述识别单元,用于通过声纹识别从所述多个声源中找出目标声源。本发明实施例中,所述定位单元采用可控波束定位法来对多个声源进行定位。所述识别单元采用人工智能声纹识别算法找出目标声源的位置。
所述控制模块3,用于控制麦克风阵列1对以当前的目标声源的位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。
所述判断模块4,用于判断目标声源是否在所述目标区域,如果目标声源在所述目标区域,则所述声源定位模块2获取目标声源的位置并且更新当前时刻中目标声源的位置信息,否则所述控制模块控制麦克风阵列1重新采集语音数据并对目标声源进行定位。
所述预测模块5,用于根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。
综上所述,本发明的语音采集方法及系统,采用声纹识别算法找到目标声源的位置,根据下一时刻的预测位置与上一时刻位置的距离的最大值作为阀值,来判定是否需要重新初始化声源的位置和更新位置信息,最后根据获得的声源位置,控制麦克风阵列的参数,使得麦克风阵列对准声源进行语音数据采集、放大、滤波和优化,从而得到高质量的语音信息,实现在多声源的环境下获取感兴趣的声音,极大提高了采集到高质量语音信号的效率,从而为提高语音识别正确率,为提高用户在使用智能交互功能时候的体验打下了良好基础
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种语音采集方法,其特征在于,包括
步骤S1:确定目标声源的当前位置;
步骤S2:控制麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻语音数据的采集。
2.如权利要求1所述的语音采集方法,其特征在于,还包括
步骤S3:判断目标声源是否在所述目标区域,如果目标声源在所述目标区域,则进入步骤S4,否则返回步骤S1;
步骤S4:获取目标声源的位置并且更新目标声源的当前位置信息,并返回步骤S2。
3.如权利要求1所述的语音采集方法,其特征在于,步骤S1具体包括
对麦克风阵列采集到的当前时刻的语音数据中的多个声源进行定位,从而获得各个声源的位置;
通过声纹识别从所述多个声源中找出目标声源。
4.如权利要求3所述的语音采集方法,其特征在于,步骤S1中,采用可控波束定位法来对多个声源进行定位。
5.如权利要求3所述的语音采集方法,其特征在于,步骤S1中,采用人工智能声纹识别算法找出目标声源的位置。
6.如权利要求1所述的语音采集方法,其特征在于,步骤S2中,还包括:
根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。
7.一种语音采集系统,其特征在于,包括
麦克风阵列,用于采集环境中的语音数据;
声源定位模块,用于在所述麦克风阵列采集到的时刻语音数据中确定目标声源的当前位置;
控制模块,用于控制所述麦克风阵列对以目标声源的当前位置为中心、设定的目标声源的最大移动距离为半径的目标区域进行下一时刻时刻语音数据的采集。
8.如权利要求7所述的语音采集系统,其特征在于,还包括:
判断模块,用于判断目标声源是否在所述目标区域,如果目标声源在所述目标区域,则所述声源定位模块获取目标声源的位置并且更新目标声源的当前位置信息,否则所述控制模块控制麦克风阵列重新采集的语音数据并进行目标声源定位。
9.如权利要求7所述的语音采集系统,其特征在于,还包括
预测模块,用于根据目标声源移动速度与语音时刻间隔时间来预估下一时刻中目标声源的位置。
10.如权利要求7所述的语音采集系统,其特征在于,所述声源定位模块包括:
定位单元,用于对所述麦克风阵列采集到的语音数据中的多个声源进行定位,从而获得各个声源的位置;
识别单元,用于通过声纹识别从所述多个声源中找出目标声源。
11.如权利要求10所述的语音采集系统,其特征在于,
所述声源定位单元采用可控波束定位法来对多个声源进行定位。
12.如权利要求10所述的语音采集系统,其特征在于,所述声纹识别单元采用人工智能声纹识别算法找出目标声源的位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811572081.7A CN111354369A (zh) | 2018-12-21 | 2018-12-21 | 一种语音采集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811572081.7A CN111354369A (zh) | 2018-12-21 | 2018-12-21 | 一种语音采集方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111354369A true CN111354369A (zh) | 2020-06-30 |
Family
ID=71197131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811572081.7A Pending CN111354369A (zh) | 2018-12-21 | 2018-12-21 | 一种语音采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111354369A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI821851B (zh) * | 2022-01-03 | 2023-11-11 | 和碩聯合科技股份有限公司 | 自動門聲音控制系統及自動門聲音控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135125A1 (en) * | 2008-08-19 | 2011-06-09 | Wuzhou Zhan | Method, communication device and communication system for controlling sound focusing |
CN104898091A (zh) * | 2015-05-29 | 2015-09-09 | 复旦大学 | 基于迭代优化算法的麦克风阵列自校准声源定位系统 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN107333120A (zh) * | 2017-08-11 | 2017-11-07 | 吉林大学 | 一种基于麦克风阵列和立体视觉的集成传感器 |
CN107862060A (zh) * | 2017-11-15 | 2018-03-30 | 吉林大学 | 一种追踪目标人的语义识别装置及识别方法 |
-
2018
- 2018-12-21 CN CN201811572081.7A patent/CN111354369A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110135125A1 (en) * | 2008-08-19 | 2011-06-09 | Wuzhou Zhan | Method, communication device and communication system for controlling sound focusing |
CN104898091A (zh) * | 2015-05-29 | 2015-09-09 | 复旦大学 | 基于迭代优化算法的麦克风阵列自校准声源定位系统 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN107333120A (zh) * | 2017-08-11 | 2017-11-07 | 吉林大学 | 一种基于麦克风阵列和立体视觉的集成传感器 |
CN107862060A (zh) * | 2017-11-15 | 2018-03-30 | 吉林大学 | 一种追踪目标人的语义识别装置及识别方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI821851B (zh) * | 2022-01-03 | 2023-11-11 | 和碩聯合科技股份有限公司 | 自動門聲音控制系統及自動門聲音控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109506568B (zh) | 一种基于图像识别和语音识别的声源定位方法及装置 | |
CN106599866B (zh) | 一种多维度用户身份识别方法 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN110875060A (zh) | 语音信号处理方法、装置、系统、设备和存储介质 | |
CN110223690A (zh) | 基于图像与语音融合的人机交互方法及装置 | |
CN108919177B (zh) | 一种基于虚拟信源估计与轨迹校正的定位地图构建方法 | |
KR102230667B1 (ko) | 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치 | |
Liu et al. | Continuous sound source localization based on microphone array for mobile robots | |
CN110085258A (zh) | 一种提高远场语音识别率的方法、系统及可读存储介质 | |
CN108109617A (zh) | 一种远距离拾音方法 | |
CN111445920A (zh) | 一种多声源的语音信号实时分离方法、装置和拾音器 | |
CN108828501B (zh) | 在室内声场环境中对移动声源进行实时跟踪定位的方法 | |
JP2014137226A (ja) | 移動体、音響源マップ作成システムおよび音響源マップ作成方法 | |
CN107124647A (zh) | 一种全景视频录制时自动生成字幕文件的方法及装置 | |
CN105717483A (zh) | 一种基于多源定位方式的位置确定方法及装置 | |
CN103901400B (zh) | 一种基于时延补偿和双耳一致性的双耳声音源定位方法 | |
CN105974360A (zh) | 一种基于adl的监测分析方法、装置 | |
CN111551921A (zh) | 一种声像联动的声源定向系统及方法 | |
CN105005027A (zh) | 一种区域范围内目标对象的定位系统 | |
CN109212481A (zh) | 一种利用麦克风阵列进行声源定位的方法 | |
CN108008394B (zh) | 仿生声纳二维经历图绘制方法、存储介质及设备 | |
CN107202559A (zh) | 基于室内声学信道扰动分析的物体识别方法 | |
CN110970020A (zh) | 一种利用声纹提取有效语音信号的方法 | |
CN111354369A (zh) | 一种语音采集方法及系统 | |
CN110992971A (zh) | 一种语音增强方向的确定方法、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200630 |