CN109256153B - 一种声源定位方法及系统 - Google Patents

一种声源定位方法及系统 Download PDF

Info

Publication number
CN109256153B
CN109256153B CN201810995819.4A CN201810995819A CN109256153B CN 109256153 B CN109256153 B CN 109256153B CN 201810995819 A CN201810995819 A CN 201810995819A CN 109256153 B CN109256153 B CN 109256153B
Authority
CN
China
Prior art keywords
voice
noise
segment data
score value
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810995819.4A
Other languages
English (en)
Other versions
CN109256153A (zh
Inventor
关海欣
丁少为
马金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201810995819.4A priority Critical patent/CN109256153B/zh
Publication of CN109256153A publication Critical patent/CN109256153A/zh
Application granted granted Critical
Publication of CN109256153B publication Critical patent/CN109256153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明提供了一种声源定位方法及系统,其中,所述方法包括:从声源数据中识别语音段数据和噪音段数据;分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。本申请提供的技术方案,能够提高声源定位的精度。

Description

一种声源定位方法及系统
技术领域
本发明涉及声音处理技术领域,特别涉及一种声源定位方法及系统。
背景技术
目前,为了对声源进行定位,通常是通过麦克风阵列接收的多通道语音数据计算声源方位。如可以在给定的角度范围内,计算归一化频谱与不同导向矢量间的内积,可以得到每个相位的打分输出,最终,可以将最大打分输出对应的相位位置作为声源的实际角度位置。
然而,在噪声干扰下,如果噪声分量高于语音分量就很容易造成计算方位错误。而这种情况在实际应用环境中非常容易出现,比如智能音箱放置于靠近马路的窗口位置,或者旁边挨着厨房的智能设备等等,都很容易出现定位错误。
发明内容
本申请的目的在于提供一种声源定位方法及系统,能够提高声源定位的精度。
为实现上述目的,本申请提供一种声源定位方法,所述方法包括:
从声源数据中识别语音段数据和噪音段数据;
分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
进一步地,从声源数据中识别语音段数据和噪音段数据包括:
对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
进一步地,在从声源数据中识别语音段数据和噪音段数据之后,所述方法还包括:
根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
进一步地,分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值包括:
分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
进一步地,对相同相位处的所述语音评分值和所述噪音评分值进行处理包括:
将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值。
进一步地,基于所述规整评分值,确定所述声源对应的目标角度包括:
将最大规整评分值对应的相位确定为所述声源对应的目标角度。
为实现上述目的,本申请还提供一种声源定位系统,所述系统包括:
数据识别单元,用于从声源数据中识别语音段数据和噪音段数据;
评分值计算单元,用于分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
目标角度确定单元,用于对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
进一步地,所述数据识别单元包括:
语音识别模块,用于对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
噪音确定模块,用于将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
进一步地,所述系统还包括:
信噪比判断单元,用于根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
进一步地,所述评分值计算单元包括:
频谱确定模块,用于分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
内积计算模块,用于计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
由上可见,本申请提供的技术方案,对于噪声部分的评分值可看作是假分分布,通过将噪声部分的评分值与语音部分的评分值做减法,本质上是在抵消干扰数据的打分贡献,这种方法在高噪声的数据上,通过测试发现会极大提高声源的定位精度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中声源定位方法的流程图;
图2为本发明实施例中声源定位系统的功能模块图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
请参阅图1,本申请提供一种声源定位方法,所述方法包括:
S1:从声源数据中识别语音段数据和噪音段数据。
S2:分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
S3:对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
在本实施方式中,从声源数据中识别语音段数据和噪音段数据包括:
对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
在本实施方式中,在从声源数据中识别语音段数据和噪音段数据之后,所述方法还包括:
根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
在本实施方式中,分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值包括:
分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
在本实施方式中,对相同相位处的所述语音评分值和所述噪音评分值进行处理包括:
将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值。
在本实施方式中,基于所述规整评分值,确定所述声源对应的目标角度包括:
将最大规整评分值对应的相位确定为所述声源对应的目标角度。
在一个具体应用实例中,可以通过语音检测,得到语音起止点。然后,可以始终保持存储语音前面一段时间的噪声数据。这样,可以根据语音和噪声部分数据计算信噪比,如果信噪比较高(与预设阈值比较)则使用通用算法计算,如果信噪比较低,则使用下面计算方法:
(1)分别计算语音段每个相位对应的打分输出,得到各角度的打分结果,噪声部分数据也做如此操作;
(2)语音部分各角度得分减掉噪声部分对应角度打分,得到规整打分结果,以此结果取最大值确定对应角度作为最终输出。
请参阅图2,本申请还提供一种声源定位系统,所述系统包括:
数据识别单元,用于从声源数据中识别语音段数据和噪音段数据;
评分值计算单元,用于分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
目标角度确定单元,用于对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度。
在一个实施方式中,所述数据识别单元包括:
语音识别模块,用于对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
噪音确定模块,用于将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
在一个实施方式中,所述系统还包括:
信噪比判断单元,用于根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
在一个实施方式中,所述评分值计算单元包括:
频谱确定模块,用于分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
内积计算模块,用于计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值。
由上可见,本申请提供的技术方案,对于噪声部分的评分值可看作是假分分布,通过将噪声部分的评分值与语音部分的评分值做减法,本质上是在抵消干扰数据的打分贡献,这种方法在高噪声的数据上,通过测试发现会极大提高声源的定位精度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种声源定位方法,其特征在于,所述方法包括:
从声源数据中识别语音段数据和噪音段数据;
分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;
所述分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值包括:
分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值;
对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度;
所述对相同相位处的所述语音评分值和所述噪音评分值进行处理包括:
将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值;
所述基于所述规整评分值,确定所述声源对应的目标角度包括:
将最大规整评分值对应的相位确定为所述声源对应的目标角度。
2.根据权利要求1所述的方法,其特征在于,从声源数据中识别语音段数据和噪音段数据包括:
对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
3.根据权利要求1所述的方法,其特征在于,在从声源数据中识别语音段数据和噪音段数据之后,所述方法还包括:
根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
4.一种声源定位系统,其特征在于,所述系统包括:
数据识别单元,用于从声源数据中识别语音段数据和噪音段数据;
评分值计算单元,用于分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值;所述评分值计算单元包括:
频谱确定模块,用于分别确定所述语音段数据和所述噪音段数据各自的归一化频谱,并确定用于表征不同相位的导向矢量;
内积计算模块,用于计算所述归一化频谱与所述导向矢量的内积,以确定所述归一化频谱在各个相位的评分值;
目标角度确定单元,用于对相同相位处的所述语音评分值和所述噪音评分值进行处理,得到规整评分值,并基于所述规整评分值,确定所述声源对应的目标角度;
所述目标角度确定单元包括:
规整评分值计算模块,用于将相同相位处的语音评分值减去噪音评分值,得到对应相位处的规整评分值;
角度确定模块,用于将最大规整评分值对应的相位确定为所述声源对应的目标角度。
5.根据权利要求4所述的系统,其特征在于,所述数据识别单元包括:
语音识别模块,用于对所述声源数据进行语音检测,得到所述声源数据中的语音起止点,并将所述语音起止点之间的数据作为所述语音段数据;
噪音确定模块,用于将所述语音段数据之前指定时长内的声源数据作为所述噪音段数据。
6.根据权利要求4所述的系统,其特征在于,所述系统还包括:
信噪比判断单元,用于根据所述语音段数据和噪音段数据计算信噪比,若计算得到的所述信噪比小于预设信噪比阈值,才分别计算所述语音段数据和所述噪音段数据在各个相位的语音评分值和噪音评分值。
CN201810995819.4A 2018-08-29 2018-08-29 一种声源定位方法及系统 Active CN109256153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810995819.4A CN109256153B (zh) 2018-08-29 2018-08-29 一种声源定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810995819.4A CN109256153B (zh) 2018-08-29 2018-08-29 一种声源定位方法及系统

Publications (2)

Publication Number Publication Date
CN109256153A CN109256153A (zh) 2019-01-22
CN109256153B true CN109256153B (zh) 2021-03-02

Family

ID=65050349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810995819.4A Active CN109256153B (zh) 2018-08-29 2018-08-29 一种声源定位方法及系统

Country Status (1)

Country Link
CN (1) CN109256153B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110740212B (zh) * 2019-09-26 2021-08-27 北京淇瑀信息科技有限公司 基于智能语音技术的通话接听方法、装置及电子设备
CN111735174B (zh) * 2020-06-22 2021-09-28 宁波奥克斯电气股份有限公司 一种空调器睡眠模式的控制方法、装置、设备及存储介质
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
CN112951263B (zh) * 2021-03-17 2022-08-02 云知声智能科技股份有限公司 语音增强方法、装置、设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090128221A (ko) * 2008-06-10 2009-12-15 삼성전자주식회사 음원 위치 추정 방법 및 그 방법에 따른 시스템
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
CN104123950B (zh) * 2014-07-17 2015-11-25 努比亚技术有限公司 一种录音方法及装置
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN105405439B (zh) * 2015-11-04 2019-07-05 科大讯飞股份有限公司 语音播放方法及装置
CN105301563B (zh) * 2015-11-10 2017-09-22 南京信息工程大学 一种基于一致聚焦变换最小二乘法的双声源定位方法
DK3252766T3 (da) * 2016-05-30 2021-09-06 Oticon As Audiobehandlingsanordning og fremgangsmåde til estimering af signal-til-støj-forholdet for et lydsignal

Also Published As

Publication number Publication date
CN109256153A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109256153B (zh) 一种声源定位方法及系统
US8543399B2 (en) Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms
CN107408386B (zh) 基于语音方向控制电子装置
US20200111481A1 (en) Speech recognition using neural networks
CN110556126B (zh) 语音识别方法、装置以及计算机设备
CN110265037B (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
US8483725B2 (en) Method and apparatus for determining location of mobile device
EP2994910B1 (en) Method and apparatus for detecting a target keyword
US9311915B2 (en) Context-based speech recognition
EP2530484B1 (en) Sound source localization apparatus and method
CN103903612A (zh) 一种实时语音识别数字的方法
Zhang et al. Semi-supervised DNN training in meeting recognition
Moattar et al. A new approach for robust realtime voice activity detection using spectral pattern
KR20180056281A (ko) 키워드 인식 장치 및 방법
CN112992190B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN109389978B (zh) 一种语音识别方法及装置
CN111613243B (zh) 一种语音检测的方法及其装置
CN104732984B (zh) 一种快速检测单频提示音的方法及系统
EP1513135A1 (en) Speech recognizing method and device thereof
EP3254282A1 (en) Determining features of harmonic signals
WO2018001125A1 (zh) 一种音频识别方法和装置
Guo et al. A two-microphone based voice activity detection for distant-talking speech in wide range of direction of arrival
US10762905B2 (en) Speaker verification
US20200082325A1 (en) Moveable asset tracking systems using crowdsourcing measurements
CN111462757B (zh) 基于语音信号的数据处理方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 101, 1st floor, building 1, Xisanqi building materials City, Haidian District, Beijing 100096

Applicant after: Yunzhisheng Intelligent Technology Co.,Ltd.

Address before: 12 / F, Guanjie building, building 1, No. 16, Taiyanggong Middle Road, Chaoyang District, Beijing

Applicant before: BEIJING UNISOUND INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant