CN112750463A - 一种误识别抑制方法 - Google Patents
一种误识别抑制方法 Download PDFInfo
- Publication number
- CN112750463A CN112750463A CN202011497926.8A CN202011497926A CN112750463A CN 112750463 A CN112750463 A CN 112750463A CN 202011497926 A CN202011497926 A CN 202011497926A CN 112750463 A CN112750463 A CN 112750463A
- Authority
- CN
- China
- Prior art keywords
- energy
- signal
- misrecognition
- arrival
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001629 suppression Effects 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000003287 optical effect Effects 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明涉及一种误识别抑制方法,本发明根据波达方向和能量抑制比判断定向拾音输出信号的识别结果是否由非拾音区的干扰引起,很大程度上抑制由强干扰引起的误识别。通过结合识别语句的波达方向(DOA)信息以及定向拾音对识别信号的能量抑制比,降低整个系统的误识别。
Description
技术领域
本发明涉及音频识别技术领域,具体涉及一种误识别抑制方法。
背景技术
现有技术中,在一些特定场景中,通过波束形成技术可以获取固定方向的目标信号(称之为定向拾音技术),同时抑制其它方向的噪声和干扰。然而,当在非拾音区存在较强干扰时,误识别现象比较严重。
发明内容
本发明提供一种误识别抑制方法,以解决强干扰环境下定向拾音技术的误识别问题,进一步完善定向拾音功能。
本发明解决上述技术问题的技术方案如下:
根据本发明实施例的一个方面,提供一种误识别抑制方法,包括:
步骤一:麦克风阵列接收信号进行短时傅里叶变换;
步骤三:将短时傅里叶变换后的信号经过定向拾音处理;
步骤五:将定向拾音处理后的数据送入识别引擎,并得到识别信号的起止时间点信息,分别记为起始时间t1和终止时间t2;
步骤六:根据起止时间点信息计算识别信号的初始能量E1及其对应的输出能量E2,并计算识别信号能量比R;
步骤七:统计起始时间t1到终止时间t2时间段θt的众数作为识别信号的波达方向记为θmode,计算波达方向与定向拾音目标方向偏差θerror;
步骤八:判决系统根据识别信号能量比和波达方向进行判决,并根据判决结果判断识别信号是否为干扰。
优选地,所述方向偏差为θerror=|θmode-θin|。
优选地,所述判决系统设置为强抑制模式和/或弱抑制模式。
优选地,所述强抑制模式实施为波达方向偏差θerror大于角度偏差阈值θth或识别信号能量比R小于阈值Rth,则该识别信号为干扰引起的误识别。
优选地,所述弱抑制模式实施为波达方向偏差θerror大于阈值θth且识别信号能量比R大于阈值Rth,则该识别信号为干扰引起的误识别。
优选地,还包括,步骤九:若识别信号被判定为干扰,则系统不输出任何识别结果。
据本发明实施例的另一个方面,提供一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行前述误识别抑制方法。
从而,本发明根据波达方向和能量抑制比判断定向拾音输出信号的识别结果是否由非拾音区的干扰引起,能够很大程度上抑制由强干扰引起的误识别。
附图说明
图1为本发明麦克风阵列示意图;
图2为本发明提供的算法流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
本发明实施例提供的一种误识别抑制方法,以解决强干扰环境下定向拾音技术的误识别问题,进一步完善定向拾音功能。
通过波束形成技术可以实现定向拾音,但当环境中存在较强的干扰时,定向拾音对强干扰的抑制能力比较有限,因此还会存在误识别的问题,尤其是当仅存在强干扰时,误识别会更加明显。通过结合识别语句的波达方向(DOA)信息以及定向拾音对识别信号的能量抑制比,降低整个系统的误识别。
设定向拾音的目标方位为θin,具体步骤如下:
步骤一:麦克风阵列接收信号进行短时傅里叶变换;
步骤三:将短时傅里叶变换后的信号经过定向拾音处理;
步骤五:将定向拾音处理后的数据送入识别引擎,并得到识别信号的起止时间点信息,分别记为起始时间t1和终止时间t2;
步骤六:根据起止时间点信息计算识别信号的初始能量E1及其对应的输出能量E2,并计算识别信号能量比R;
步骤七:统计起始时间t1到终止时间t2时间段θt的众数作为识别信号的波达方向记为θmode,计算波达方向与定向拾音目标方向偏差θerror;
步骤八:判决系统根据识别信号能量比和波达方向进行判决,并根据判决结果判断识别信号是否为干扰。
若识别信号在定向拾音的拾音区域内,则定向拾音输出信号能量和初始信号能量仅会有微弱变化,相反,若在拾音区域外,则其能量衰减较多;同时,其波达方向是否在拾音区域内也是判断其为信号或干扰的一个重要参考。本发明根据波达方向和能量抑制比判断定向拾音输出信号的识别结果是否由非拾音区的干扰引起,能够很大程度上抑制由强干扰引起的误识别。
在一些实施例中,方向偏差为θerror=|θmode-θin|。
在一些实施例中,判决系统设置为强抑制模式和/或弱抑制模式。
在一些实施例中,强抑制模式实施为波达方向偏差θerror大于角度偏差阈值θth或识别信号能量比R小于阈值Rth,则该识别信号为干扰引起的误识别。
在一些实施例中,弱抑制模式实施为波达方向偏差θerror大于阈值θth且识别信号能量比R大于阈值Rth,则该识别信号为干扰引起的误识别。
在一些实施例中,还包括步骤九:若识别信号被判定为干扰,则系统不输出任何识别结果。
本发明实施例提供的一种误识别抑制方法可以软件功能模块的形式实现并作为独立的产品销售或使用,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种误识别抑制方法,其特征在于,包括:
步骤一:麦克风阵列接收信号进行短时傅里叶变换;
步骤三:将短时傅里叶变换后的信号经过定向拾音处理;
步骤五:将定向拾音处理后的数据送入识别引擎,并得到识别信号的起止时间点信息,分别记为起始时间t1和终止时间t2;
步骤六:根据起止时间点信息计算识别信号的初始能量E1及其对应的输出能量E2,并计算识别信号能量比R;
步骤七:统计起始时间t1到终止时间t2时间段θt的众数作为识别信号的波达方向记为θmode,计算波达方向与定向拾音目标方向偏差θerror;
步骤八:判决系统根据识别信号能量比和波达方向进行判决,并根据判决结果判断识别信号是否为干扰。
5.根据权利要求1所述的误识别抑制方法,其特征在于,
所述方向偏差为θerror=|θmode-θin|。
6.根据权利要求1所述的误识别抑制方法,其特征在于,
所述判决系统设置为强抑制模式和/或弱抑制模式。
7.根据权利要求6所述的误识别抑制方法,其特征在于,
所述强抑制模式实施为波达方向偏差θerror大于角度偏差阈值θth或识别信号能量比R小于阈值Rth,则该识别信号为干扰引起的误识别。
8.根据权利要求6所述的误识别抑制方法,其特征在于,
所述弱抑制模式实施为波达方向偏差θerror大于阈值θth且识别信号能量比R大于阈值Rth,则该识别信号为干扰引起的误识别。
9.根据权利要求7或8所述的误识别抑制方法,其特征在于,还包括,
步骤九:若识别信号被判定为干扰,则系统不输出任何识别结果。
10.一种存储介质,其特征在于,
所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-9任一项所述的误识别抑制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497926.8A CN112750463A (zh) | 2020-12-17 | 2020-12-17 | 一种误识别抑制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011497926.8A CN112750463A (zh) | 2020-12-17 | 2020-12-17 | 一种误识别抑制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112750463A true CN112750463A (zh) | 2021-05-04 |
Family
ID=75649258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011497926.8A Pending CN112750463A (zh) | 2020-12-17 | 2020-12-17 | 一种误识别抑制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750463A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1571875A2 (en) * | 2004-03-02 | 2005-09-07 | Microsoft Corporation | A system and method for beamforming using a microphone array |
CN101958122A (zh) * | 2010-09-19 | 2011-01-26 | 杭州华三通信技术有限公司 | 一种回声消除的方法和装置 |
WO2017132958A1 (en) * | 2016-02-04 | 2017-08-10 | Zeng Xinxiao | Methods, systems, and media for voice communication |
CN111613247A (zh) * | 2020-04-14 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种基于麦克风阵列的前景语音检测方法及装置 |
-
2020
- 2020-12-17 CN CN202011497926.8A patent/CN112750463A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1571875A2 (en) * | 2004-03-02 | 2005-09-07 | Microsoft Corporation | A system and method for beamforming using a microphone array |
CN101958122A (zh) * | 2010-09-19 | 2011-01-26 | 杭州华三通信技术有限公司 | 一种回声消除的方法和装置 |
WO2017132958A1 (en) * | 2016-02-04 | 2017-08-10 | Zeng Xinxiao | Methods, systems, and media for voice communication |
CN111613247A (zh) * | 2020-04-14 | 2020-09-01 | 云知声智能科技股份有限公司 | 一种基于麦克风阵列的前景语音检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
丁少为: "差分麦克风阵列多声源方位估计方法研", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 3, pages 8 - 13 * |
彭雯雯: "语音信号中混响消除算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 9, pages 12 - 15 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11172122B2 (en) | User identification based on voice and face | |
CN110992974B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
KR101041039B1 (ko) | 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치 | |
CN108463848B (zh) | 用于多声道语音识别的自适应音频增强 | |
CN107577449B (zh) | 唤醒语音的拾取方法、装置、设备及存储介质 | |
CN101149928B (zh) | 声音信号处理方法、声音信号处理设备及计算机程序 | |
US9947338B1 (en) | Echo latency estimation | |
US20170249943A1 (en) | Methods And Systems For Detecting And Processing Speech Signals | |
JP6450139B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
EP3836136B1 (en) | Azimuth estimation method, device, and storage medium | |
JP2021525385A (ja) | ホットワード抑制 | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN111435598B (zh) | 语音信号处理方法、装置、计算机可读介质及电子设备 | |
US11887605B2 (en) | Voice processing | |
CN108806707A (zh) | 语音处理方法、装置、设备及存储介质 | |
CN116416997A (zh) | 基于注意力机制的智能语音伪造攻击检测方法 | |
CN112750463A (zh) | 一种误识别抑制方法 | |
WO2023183683A1 (en) | Generalized automatic speech recognition for joint acoustic echo cancellation, speech enhancement, and voice separation | |
CN113077803B (zh) | 一种语音处理方法、装置、可读存储介质及电子设备 | |
CN112802463B (zh) | 一种音频信号筛选方法、装置及设备 | |
CN111681671B (zh) | 异常音识别方法、装置及计算机存储介质 | |
CN113744732A (zh) | 设备唤醒相关方法、装置及故事机 | |
CN113223552A (zh) | 语音增强方法、装置、设备、存储介质及程序 | |
CN111785282A (zh) | 一种语音识别方法及装置和智能音箱 | |
CN111627425B (zh) | 一种语音识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |