CN112750463A - 一种误识别抑制方法 - Google Patents

一种误识别抑制方法 Download PDF

Info

Publication number
CN112750463A
CN112750463A CN202011497926.8A CN202011497926A CN112750463A CN 112750463 A CN112750463 A CN 112750463A CN 202011497926 A CN202011497926 A CN 202011497926A CN 112750463 A CN112750463 A CN 112750463A
Authority
CN
China
Prior art keywords
energy
signal
misrecognition
arrival
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011497926.8A
Other languages
English (en)
Inventor
丁少为
关海欣
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202011497926.8A priority Critical patent/CN112750463A/zh
Publication of CN112750463A publication Critical patent/CN112750463A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明涉及一种误识别抑制方法,本发明根据波达方向和能量抑制比判断定向拾音输出信号的识别结果是否由非拾音区的干扰引起,很大程度上抑制由强干扰引起的误识别。通过结合识别语句的波达方向(DOA)信息以及定向拾音对识别信号的能量抑制比,降低整个系统的误识别。

Description

一种误识别抑制方法
技术领域
本发明涉及音频识别技术领域,具体涉及一种误识别抑制方法。
背景技术
现有技术中,在一些特定场景中,通过波束形成技术可以获取固定方向的目标信号(称之为定向拾音技术),同时抑制其它方向的噪声和干扰。然而,当在非拾音区存在较强干扰时,误识别现象比较严重。
发明内容
本发明提供一种误识别抑制方法,以解决强干扰环境下定向拾音技术的误识别问题,进一步完善定向拾音功能。
本发明解决上述技术问题的技术方案如下:
根据本发明实施例的一个方面,提供一种误识别抑制方法,包括:
步骤一:麦克风阵列接收信号进行短时傅里叶变换;
步骤二:根据短时傅里叶变换后的信号对每帧数据进行波达方向估计θt,同时选取任意一个麦克风信号计算每帧数据能量,记为初始能量
Figure BDA0002842735820000011
并将波达方向估计θt和初始能量
Figure BDA0002842735820000012
缓存;
步骤三:将短时傅里叶变换后的信号经过定向拾音处理;
步骤四:计算定向拾音处理后每帧数据的能量,记为输出能量
Figure BDA0002842735820000013
并缓存;
步骤五:将定向拾音处理后的数据送入识别引擎,并得到识别信号的起止时间点信息,分别记为起始时间t1和终止时间t2
步骤六:根据起止时间点信息计算识别信号的初始能量E1及其对应的输出能量E2,并计算识别信号能量比R;
步骤七:统计起始时间t1到终止时间t2时间段θt的众数作为识别信号的波达方向记为θmode,计算波达方向与定向拾音目标方向偏差θerror
步骤八:判决系统根据识别信号能量比和波达方向进行判决,并根据判决结果判断识别信号是否为干扰。
优选地,所述初始能量为
Figure BDA0002842735820000021
优选地,所述输出能量为
Figure BDA0002842735820000022
优选地,所述信号能量比为
Figure BDA0002842735820000023
优选地,所述方向偏差为θerror=|θmodein|。
优选地,所述判决系统设置为强抑制模式和/或弱抑制模式。
优选地,所述强抑制模式实施为波达方向偏差θerror大于角度偏差阈值θth或识别信号能量比R小于阈值Rth,则该识别信号为干扰引起的误识别。
优选地,所述弱抑制模式实施为波达方向偏差θerror大于阈值θth且识别信号能量比R大于阈值Rth,则该识别信号为干扰引起的误识别。
优选地,还包括,步骤九:若识别信号被判定为干扰,则系统不输出任何识别结果。
据本发明实施例的另一个方面,提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行前述误识别抑制方法。
从而,本发明根据波达方向和能量抑制比判断定向拾音输出信号的识别结果是否由非拾音区的干扰引起,能够很大程度上抑制由强干扰引起的误识别。
附图说明
图1为本发明麦克风阵列示意图;
图2为本发明提供的算法流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明实施例提供的一种误识别抑制方法,以解决强干扰环境下定向拾音技术的误识别问题,进一步完善定向拾音功能。
通过波束形成技术可以实现定向拾音,但当环境中存在较强的干扰时,定向拾音对强干扰的抑制能力比较有限,因此还会存在误识别的问题,尤其是当仅存在强干扰时,误识别会更加明显。通过结合识别语句的波达方向(DOA)信息以及定向拾音对识别信号的能量抑制比,降低整个系统的误识别。
设定向拾音的目标方位为θin,具体步骤如下:
步骤一:麦克风阵列接收信号进行短时傅里叶变换;
步骤二:根据短时傅里叶变换后的信号对每帧数据进行波达方向估计θt,同时选取任意一个麦克风信号计算每帧数据能量,记为初始能量
Figure BDA0002842735820000031
并将波达方向估计θt和初始能量
Figure BDA0002842735820000032
缓存;
步骤三:将短时傅里叶变换后的信号经过定向拾音处理;
步骤四:计算定向拾音处理后每帧数据的能量,记为输出能量
Figure BDA0002842735820000033
并缓存;
步骤五:将定向拾音处理后的数据送入识别引擎,并得到识别信号的起止时间点信息,分别记为起始时间t1和终止时间t2
步骤六:根据起止时间点信息计算识别信号的初始能量E1及其对应的输出能量E2,并计算识别信号能量比R;
步骤七:统计起始时间t1到终止时间t2时间段θt的众数作为识别信号的波达方向记为θmode,计算波达方向与定向拾音目标方向偏差θerror
步骤八:判决系统根据识别信号能量比和波达方向进行判决,并根据判决结果判断识别信号是否为干扰。
若识别信号在定向拾音的拾音区域内,则定向拾音输出信号能量和初始信号能量仅会有微弱变化,相反,若在拾音区域外,则其能量衰减较多;同时,其波达方向是否在拾音区域内也是判断其为信号或干扰的一个重要参考。本发明根据波达方向和能量抑制比判断定向拾音输出信号的识别结果是否由非拾音区的干扰引起,能够很大程度上抑制由强干扰引起的误识别。
在一些实施例中,初始能量为
Figure BDA0002842735820000041
在一些实施例中,输出能量为
Figure BDA0002842735820000042
在一些实施例中,信号能量比为
Figure BDA0002842735820000043
在一些实施例中,方向偏差为θerror=|θmodein|。
在一些实施例中,判决系统设置为强抑制模式和/或弱抑制模式。
在一些实施例中,强抑制模式实施为波达方向偏差θerror大于角度偏差阈值θth或识别信号能量比R小于阈值Rth,则该识别信号为干扰引起的误识别。
在一些实施例中,弱抑制模式实施为波达方向偏差θerror大于阈值θth且识别信号能量比R大于阈值Rth,则该识别信号为干扰引起的误识别。
在一些实施例中,还包括步骤九:若识别信号被判定为干扰,则系统不输出任何识别结果。
本发明实施例提供的一种误识别抑制方法可以软件功能模块的形式实现并作为独立的产品销售或使用,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种误识别抑制方法,其特征在于,包括:
步骤一:麦克风阵列接收信号进行短时傅里叶变换;
步骤二:根据短时傅里叶变换后的信号对每帧数据进行波达方向估计θt,同时选取任意一个麦克风信号计算每帧数据能量,记为初始能量
Figure FDA0002842735810000011
并将波达方向估计θt和初始能量
Figure FDA0002842735810000012
缓存;
步骤三:将短时傅里叶变换后的信号经过定向拾音处理;
步骤四:计算定向拾音处理后每帧数据的能量,记为输出能量
Figure FDA0002842735810000013
并缓存;
步骤五:将定向拾音处理后的数据送入识别引擎,并得到识别信号的起止时间点信息,分别记为起始时间t1和终止时间t2
步骤六:根据起止时间点信息计算识别信号的初始能量E1及其对应的输出能量E2,并计算识别信号能量比R;
步骤七:统计起始时间t1到终止时间t2时间段θt的众数作为识别信号的波达方向记为θmode,计算波达方向与定向拾音目标方向偏差θerror
步骤八:判决系统根据识别信号能量比和波达方向进行判决,并根据判决结果判断识别信号是否为干扰。
2.根据权利要求1所述的误识别抑制方法,其特征在于,
所述初始能量为
Figure FDA0002842735810000014
3.根据权利要求2所述的误识别抑制方法,其特征在于,
所述输出能量为
Figure FDA0002842735810000015
4.根据权利要求3所述的误识别抑制方法,其特征在于,
所述信号能量比为
Figure FDA0002842735810000016
5.根据权利要求1所述的误识别抑制方法,其特征在于,
所述方向偏差为θerror=|θmodein|。
6.根据权利要求1所述的误识别抑制方法,其特征在于,
所述判决系统设置为强抑制模式和/或弱抑制模式。
7.根据权利要求6所述的误识别抑制方法,其特征在于,
所述强抑制模式实施为波达方向偏差θerror大于角度偏差阈值θth或识别信号能量比R小于阈值Rth,则该识别信号为干扰引起的误识别。
8.根据权利要求6所述的误识别抑制方法,其特征在于,
所述弱抑制模式实施为波达方向偏差θerror大于阈值θth且识别信号能量比R大于阈值Rth,则该识别信号为干扰引起的误识别。
9.根据权利要求7或8所述的误识别抑制方法,其特征在于,还包括,
步骤九:若识别信号被判定为干扰,则系统不输出任何识别结果。
10.一种存储介质,其特征在于,
所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-9任一项所述的误识别抑制方法。
CN202011497926.8A 2020-12-17 2020-12-17 一种误识别抑制方法 Pending CN112750463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011497926.8A CN112750463A (zh) 2020-12-17 2020-12-17 一种误识别抑制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011497926.8A CN112750463A (zh) 2020-12-17 2020-12-17 一种误识别抑制方法

Publications (1)

Publication Number Publication Date
CN112750463A true CN112750463A (zh) 2021-05-04

Family

ID=75649258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011497926.8A Pending CN112750463A (zh) 2020-12-17 2020-12-17 一种误识别抑制方法

Country Status (1)

Country Link
CN (1) CN112750463A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1571875A2 (en) * 2004-03-02 2005-09-07 Microsoft Corporation A system and method for beamforming using a microphone array
CN101958122A (zh) * 2010-09-19 2011-01-26 杭州华三通信技术有限公司 一种回声消除的方法和装置
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication
CN111613247A (zh) * 2020-04-14 2020-09-01 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1571875A2 (en) * 2004-03-02 2005-09-07 Microsoft Corporation A system and method for beamforming using a microphone array
CN101958122A (zh) * 2010-09-19 2011-01-26 杭州华三通信技术有限公司 一种回声消除的方法和装置
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication
CN111613247A (zh) * 2020-04-14 2020-09-01 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁少为: "差分麦克风阵列多声源方位估计方法研", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 3, pages 8 - 13 *
彭雯雯: "语音信号中混响消除算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 9, pages 12 - 15 *

Similar Documents

Publication Publication Date Title
US11172122B2 (en) User identification based on voice and face
CN110992974B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
KR101041039B1 (ko) 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
CN108463848B (zh) 用于多声道语音识别的自适应音频增强
CN107577449B (zh) 唤醒语音的拾取方法、装置、设备及存储介质
CN101149928B (zh) 声音信号处理方法、声音信号处理设备及计算机程序
US9947338B1 (en) Echo latency estimation
US20170249943A1 (en) Methods And Systems For Detecting And Processing Speech Signals
JP6450139B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
EP3836136B1 (en) Azimuth estimation method, device, and storage medium
JP2021525385A (ja) ホットワード抑制
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
US11887605B2 (en) Voice processing
CN108806707A (zh) 语音处理方法、装置、设备及存储介质
CN116416997A (zh) 基于注意力机制的智能语音伪造攻击检测方法
CN112750463A (zh) 一种误识别抑制方法
WO2023183683A1 (en) Generalized automatic speech recognition for joint acoustic echo cancellation, speech enhancement, and voice separation
CN113077803B (zh) 一种语音处理方法、装置、可读存储介质及电子设备
CN112802463B (zh) 一种音频信号筛选方法、装置及设备
CN111681671B (zh) 异常音识别方法、装置及计算机存储介质
CN113744732A (zh) 设备唤醒相关方法、装置及故事机
CN113223552A (zh) 语音增强方法、装置、设备、存储介质及程序
CN111785282A (zh) 一种语音识别方法及装置和智能音箱
CN111627425B (zh) 一种语音识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination