CN109256153B - 一种声源定位方法及系统 - Google Patents
一种声源定位方法及系统 Download PDFInfo
- Publication number
- CN109256153B CN109256153B CN201810995819.4A CN201810995819A CN109256153B CN 109256153 B CN109256153 B CN 109256153B CN 201810995819 A CN201810995819 A CN 201810995819A CN 109256153 B CN109256153 B CN 109256153B
- Authority
- CN
- China
- Prior art keywords
- voice
- noise
- segment data
- score value
- sound source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims description 22
- 239000013598 vector Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004807 localization Effects 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S5/00—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
- G01S5/18—Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明提供了一种声源定位方法及系统,其中,所述方法包括:从声源数据中识别语音段数据和噪音段数据;分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。本申请提供的技术方案,能够提高声源定位的精度。
Description
技术领域
本发明涉及声音处理技术领域,特别涉及一种声源定位方法及系统。
背景技术
目前,为了对声源进行定位,通常是通过麦克风阵列接收的多通道语音数据计算声源方位。如可以在给定的角度范围内,计算归一化频谱与不同导向矢量间的内积,可以得到每个相位的打分输出,最终,可以将最大打分输出对应的相位位置作为声源的实际角度位置。
然而,在噪声干扰下,如果噪声分量高于语音分量就很容易造成计算方位错误。而这种情况在实际应用环境中非常容易出现,比如智能音箱放置于靠近马路的窗口位置,或者旁边挨着厨房的智能设备等等,都很容易出现定位错误。
发明内容
本申请的目的在于提供一种声源定位方法及系统,能够提高声源定位的精度。
为实现上述目的,本申请提供一种声源定位方法,所述方法包括:
从声源数据中识别语音段数据和噪音段数据;
分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
进一步地,从声源数据中识别语音段数据和噪音段数据包括:
对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
进一步地,在从声源数据中识别语音段数据和噪音段数据之后,所述方法还包括:
根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
进一步地,分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值包括:
分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
进一步地,对相同相位处的所述语音评分值和所述噪音评分值进行处理包括:
将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值。
进一步地,基于所述规整评分值,确定所述声源对应的目标角度包括:
将最大规整评分值对应的相位确定为所述声源对应的目标角度。
为实现上述目的,本申请还提供一种声源定位系统,所述系统包括:
数据识别单元,用于从声源数据中识别语音段数据和噪音段数据;
评分值计算单元,用于分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
目标角度确定单元,用于对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
进一步地,所述数据识别单元包括:
语音识别模块,用于对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
噪音确定模块,用于将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
进一步地,所述系统还包括:
信噪比判断单元,用于根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
进一步地,所述评分值计算单元包括:
频谱确定模块,用于分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
内积计算模块,用于计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
由上可见,本申请提供的技术方案,对于噪声部分的评分值可看作是假分分布,通过将噪声部分的评分值与语音部分的评分值做减法,本质上是在抵消干扰数据的打分贡献,这种方法在高噪声的数据上,通过测试发现会极大提高声源的定位精度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中声源定位方法的流程图;
图2为本发明实施例中声源定位系统的功能模块图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
请参阅图1,本申请提供一种声源定位方法,所述方法包括:
S1:从声源数据中识别语音段数据和噪音段数据。
S2:分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
S3:对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
在本实施方式中,从声源数据中识别语音段数据和噪音段数据包括:
对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
在本实施方式中,在从声源数据中识别语音段数据和噪音段数据之后,所述方法还包括:
根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
在本实施方式中,分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值包括:
分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
在本实施方式中,对相同相位处的所述语音评分值和所述噪音评分值进行处理包括:
将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值。
在本实施方式中,基于所述规整评分值,确定所述声源对应的目标角度包括:
将最大规整评分值对应的相位确定为所述声源对应的目标角度。
在一个具体应用实例中,可以通过语音检测,得到语音起止点。然后,可以始终保持存储语音前面一段时间的噪声数据。这样,可以根据语音和噪声部分数据计算信噪比,如果信噪比较高(与预设阈值比较)则使用通用算法计算,如果信噪比较低,则使用下面计算方法:
(1)分别计算语音段每个相位对应的打分输出,得到各角度的打分结果,噪声部分数据也做如此操作;
(2)语音部分各角度得分减掉噪声部分对应角度打分,得到规整打分结果,以此结果取最大值确定对应角度作为最终输出。
请参阅图2,本申请还提供一种声源定位系统,所述系统包括:
数据识别单元,用于从声源数据中识别语音段数据和噪音段数据;
评分值计算单元,用于分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
目标角度确定单元,用于对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
在一个实施方式中,所述数据识别单元包括:
语音识别模块,用于对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
噪音确定模块,用于将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
在一个实施方式中,所述系统还包括:
信噪比判断单元,用于根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
在一个实施方式中,所述评分值计算单元包括:
频谱确定模块,用于分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
内积计算模块,用于计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
由上可见,本申请提供的技术方案,对于噪声部分的评分值可看作是假分分布,通过将噪声部分的评分值与语音部分的评分值做减法,本质上是在抵消干扰数据的打分贡献,这种方法在高噪声的数据上,通过测试发现会极大提高声源的定位精度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种声源定位方法,其特征在于,所述方法包括:
从声源数据中识别语音段数据和噪音段数据;
分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
所述分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值包括:
分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值;
对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度;
所述对相同相位处的所述语音评分值和所述噪音评分值进行处理包括:
将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值;
所述基于所述规整评分值,确定所述声源对应的目标角度包括:
将最大规整评分值对应的相位确定为所述声源对应的目标角度。
2.根据权利要求1所述的方法,其特征在于,从声源数据中识别语音段数据和噪音段数据包括:
对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
3.根据权利要求1所述的方法,其特征在于,在从声源数据中识别语音段数据和噪音段数据之后,所述方法还包括:
根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
4.一种声源定位系统,其特征在于,所述系统包括:
数据识别单元,用于从声源数据中识别语音段数据和噪音段数据;
评分值计算单元,用于分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;所述评分值计算单元包括:
频谱确定模块,用于分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
内积计算模块,用于计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值;
目标角度确定单元,用于对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度;
所述目标角度确定单元包括:
规整评分值计算模块,用于将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值;
角度确定模块,用于将最大规整评分值对应的相位确定为所述声源对应的目标角度。
5.根据权利要求4所述的系统,其特征在于,所述数据识别单元包括:
语音识别模块,用于对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
噪音确定模块,用于将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
6.根据权利要求4所述的系统,其特征在于,所述系统还包括:
信噪比判断单元,用于根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810995819.4A CN109256153B (zh) | 2018-08-29 | 2018-08-29 | 一种声源定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810995819.4A CN109256153B (zh) | 2018-08-29 | 2018-08-29 | 一种声源定位方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109256153A CN109256153A (zh) | 2019-01-22 |
CN109256153B true CN109256153B (zh) | 2021-03-02 |
Family
ID=65050349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810995819.4A Active CN109256153B (zh) | 2018-08-29 | 2018-08-29 | 一种声源定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109256153B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110740212B (zh) * | 2019-09-26 | 2021-08-27 | 北京淇瑀信息科技有限公司 | 基于智能语音技术的通话接听方法、装置及电子设备 |
CN111735174B (zh) * | 2020-06-22 | 2021-09-28 | 宁波奥克斯电气股份有限公司 | 一种空调器睡眠模式的控制方法、装置、设备及存储介质 |
CN112083379B (zh) * | 2020-09-09 | 2023-10-20 | 极米科技股份有限公司 | 基于声源定位的音频播放方法、装置、投影设备及介质 |
CN112951263B (zh) * | 2021-03-17 | 2022-08-02 | 云知声智能科技股份有限公司 | 语音增强方法、装置、设备和存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090128221A (ko) * | 2008-06-10 | 2009-12-15 | 삼성전자주식회사 | 음원 위치 추정 방법 및 그 방법에 따른 시스템 |
JP2011107603A (ja) * | 2009-11-20 | 2011-06-02 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
CN104123950B (zh) * | 2014-07-17 | 2015-11-25 | 努比亚技术有限公司 | 一种录音方法及装置 |
KR102444061B1 (ko) * | 2015-11-02 | 2022-09-16 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
CN105405439B (zh) * | 2015-11-04 | 2019-07-05 | 科大讯飞股份有限公司 | 语音播放方法及装置 |
CN105301563B (zh) * | 2015-11-10 | 2017-09-22 | 南京信息工程大学 | 一种基于一致聚焦变换最小二乘法的双声源定位方法 |
DK3252766T3 (da) * | 2016-05-30 | 2021-09-06 | Oticon As | Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal |
-
2018
- 2018-08-29 CN CN201810995819.4A patent/CN109256153B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109256153A (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109256153B (zh) | 一种声源定位方法及系统 | |
US8543399B2 (en) | Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms | |
CN107408386B (zh) | 基于语音方向控制电子装置 | |
US20200111481A1 (en) | Speech recognition using neural networks | |
CN110556126B (zh) | 语音识别方法、装置以及计算机设备 | |
CN110265037B (zh) | 身份验证方法、装置、电子设备及计算机可读存储介质 | |
US8483725B2 (en) | Method and apparatus for determining location of mobile device | |
EP2994910B1 (en) | Method and apparatus for detecting a target keyword | |
US9311915B2 (en) | Context-based speech recognition | |
EP2530484B1 (en) | Sound source localization apparatus and method | |
CN103903612A (zh) | 一种实时语音识别数字的方法 | |
Zhang et al. | Semi-supervised DNN training in meeting recognition | |
Moattar et al. | A new approach for robust realtime voice activity detection using spectral pattern | |
KR20180056281A (ko) | 키워드 인식 장치 및 방법 | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN109389978B (zh) | 一种语音识别方法及装置 | |
CN111613243B (zh) | 一种语音检测的方法及其装置 | |
CN104732984B (zh) | 一种快速检测单频提示音的方法及系统 | |
EP1513135A1 (en) | Speech recognizing method and device thereof | |
EP3254282A1 (en) | Determining features of harmonic signals | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
Guo et al. | A two-microphone based voice activity detection for distant-talking speech in wide range of direction of arrival | |
US10762905B2 (en) | Speaker verification | |
US20200082325A1 (en) | Moveable asset tracking systems using crowdsourcing measurements | |
CN111462757B (zh) | 基于语音信号的数据处理方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096 Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd. Address before: 12 / F, Guanjie building, building 1, No. 16, Taiyanggong Middle Road, Chaoyang District, Beijing Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |