CN110660407A - 一种音频处理方法及装置 - Google Patents

一种音频处理方法及装置 Download PDF

Info

Publication number
CN110660407A
CN110660407A CN201911196316.1A CN201911196316A CN110660407A CN 110660407 A CN110660407 A CN 110660407A CN 201911196316 A CN201911196316 A CN 201911196316A CN 110660407 A CN110660407 A CN 110660407A
Authority
CN
China
Prior art keywords
keyword
probability
audio signal
path
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911196316.1A
Other languages
English (en)
Other versions
CN110660407B (zh
Inventor
李倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heng Xuan Technology (beijing) Co Ltd
Original Assignee
Heng Xuan Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heng Xuan Technology (beijing) Co Ltd filed Critical Heng Xuan Technology (beijing) Co Ltd
Priority to CN201911196316.1A priority Critical patent/CN110660407B/zh
Publication of CN110660407A publication Critical patent/CN110660407A/zh
Application granted granted Critical
Publication of CN110660407B publication Critical patent/CN110660407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明实施例公开了一种音频处理方法及装置,方法包括:基于回声参考信号对来自两个麦克风的两路音频信号进行自适应回声消除处理,得到第一音频信号和第二音频信号;根据NN语音存在概率对两个音频信号进行噪声抑制处理,以得到第一降噪信号;对第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据第一关键字识别概率确定第一路音频信号中是否存在预定关键字;根据第一关键字识别概率对两个音频信号进行噪声抑制处理,以得到第二降噪信号;对第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据第二关键字识别概率确定第二路音频信号中是否存在预定关键字;根据两路音频信号中预定关键字的第一识别结果确定是否执行唤醒操作。

Description

一种音频处理方法及装置
技术领域
本发明涉及数据处理领域,特别涉及一种音频处理方法及装置。
背景技术
智能语音设备(也称之为智能音箱)作为智能交互产品到云端的入口,正在进入数百万家庭,语音正在成为人们在今天快速变化的数字世界寻求帮助的重要途径,语音接口应该是完全免提的,通过关键字来唤醒语音服务是最常见的做法。关键字识别的准确性和对噪声以及距离的鲁棒性对消费者体验来说至关重要。实用的语音入口系统需要不断收听麦克风的音频输入,并且有低的响应延时。
现有的智能语音入口多采用麦克风阵列的方式,利用麦克风空间位置差异提取期望方向信号,抑制其余方向信号,从而实现降噪。对麦克风的一致性要求比较高,且每个麦克风需要单独消除播放音乐的回声信号,如果麦克风个数比较多的话,需要的MIPS(Million Instructions Per Second,单字长定点指令平均执行速度)和RAM(RandomAccess Memory,随机存取存储器)资源都比较多,功耗比较大,成本比较高。对包含语音的噪声抗噪能力差,误触发概率比较高。
然而,现有智能音箱,需要的麦克风个数较多,数据处理时需要的资源也较多,不仅成本高,而且功耗大,且对语音噪声抗噪能力差,误触发概率比较高。
发明内容
有鉴于此,本发明实施例提出了一种音频处理方法及装置,用以解决现有技术的如下问题:现有智能音箱,需要的麦克风个数较多,数据处理时需要的资源也较多,不仅成本高,而且功耗大,且对语音噪声抗噪能力差,误触发概率比较高。
一方面,本发明实施例提出了一种音频处理方法,包括:基于回声参考信号对来自第一麦克风的第一路音频信号进行第一自适应回声消除处理,得到第一音频信号;基于所述回声参考信号对来自第二麦克风的第二路音频信号进行第二自适应回声消除处理,得到第二音频信号;根据NN(Neural Networks,神经网络)语音存在概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第一降噪信号;对所述第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据所述第一关键字识别概率确定所述第一路音频信号中是否存在预定关键字;根据所述第一关键字识别概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第二降噪信号;对所述第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据所述第二关键字识别概率确定所述第二路音频信号中是否存在所述预定关键字;根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
在一些实施例中,所述根据所述第一关键字识别概率确定所述第一路音频信号中是否存在预定关键字,包括:识别所述第一关键字识别概率是否大于第一预设概率,并根据第二识别结果确定所述第一路音频信号中是否存在所述预定关键字。
在一些实施例中,所述根据所述第二关键字识别概率确定所述第二路音频信号中是否存在所述预定关键字,包括:识别所述第二关键字识别概率是否大于第二预设概率,并根据第三识别结果确定所述第二路音频信号中是否存在所述预定关键字。
在一些实施例中,还包括:对所述回声参考信号进行关键字识别,以得到第三关键字识别概率;根据第三关键字识别概率确定回声参考信号中是否存在所述预定关键字;在所述回声参考信号中不存在所述预定关键字的情况下,根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
在一些实施例中,所述根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作,包括:在所述第一路音频信号或所述第二路音频信号识别到所述预定关键字的情况下,确定执行唤醒操作。
另一方面,本发明实施例提出了一种音频处理装置,包括:第一自适应回声消除模块,用于基于回声参考信号对来自第一麦克风的第一路音频信号进行第一自适应回声消除处理,得到第一音频信号;第二自适应回声消除模块,用于基于所述回声参考信号对来自第二麦克风的第二路音频信号进行第二自适应回声消除处理,得到第二音频信号;第一降噪模块,用于根据NN语音存在概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第一降噪信号;第一关键字识别模块,用于对所述第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据所述第一关键字识别概率确定所述第一路音频信号中是否存在预定关键字;第二降噪模块,用于根据所述第一关键字识别概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第二降噪信号;第二关键字识别模块,用于对所述第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据所述第二关键字识别概率确定所述第二路音频信号中是否存在所述预定关键字;执行模块,用于根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
在一些实施例中,所述第一关键字识别模块,具体用于:识别所述第一关键字识别概率是否大于第一预设概率,并根据第二识别结果确定所述第一路音频信号中是否存在所述预定关键字。
在一些实施例中,所述第二关键字识别模块,具体用于:识别所述第二关键字识别概率是否大于第二预设概率,并根据第三识别结果确定所述第二路音频信号中是否存在所述预定关键字。
在一些实施例中,还包括:第三关键字识别模块,用于对所述回声参考信号进行关键字识别,以得到第三关键字识别概率;根据第三关键字识别概率确定回声参考信号中是否存在所述预定关键字;所述执行模块,还用于在所述回声参考信号中不存在所述预定关键字的情况下,根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
在一些实施例中,所述执行模块,具体用于:在所述第一路音频信号或所述第二路音频信号识别到所述预定关键字的情况下,确定执行唤醒操作。
本发明实施例采用的双麦克远场音箱技术,解决了现有智能音箱成本高,误触发概率比较高的缺点,利用深度学习做语音存在概率识别,不需要多个麦克风组成麦克风阵列,取得了比较好的双麦克降噪效果。另外针对语音噪声,相声,小品,家庭噪声等情况下,智能音箱误触发概率高的特点,将基于深度学习的本地关键字识别结果反馈给双麦克降噪,提高降噪效果,降低误触发次数。
附图说明
图1为本发明第一实施例提供的音频处理方法的流程图。
图2为本发明第二实施例提供的音频处理方法的流程图。
图3为本发明第二实施例提供的音频处理方法的设计逻辑图。
图4为本发明第三实施例提供的音频处理装置的结构示意图一。
图5为本发明第三实施例提供的音频处理装置的结构示意图二。
具体实施方式
为了使得本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了保持本发明实施例的以下说明清楚且简明,本发明省略了已知功能和已知部件的详细说明。
本发明第一实施例提供了一种音频处理方法,该方法流程如图1所示,包括步骤S101至S107:
S101,基于回声参考信号对来自第一麦克风的第一路音频信号进行第一自适应回声消除处理,得到第一音频信号。
S102,基于回声参考信号对来自第二麦克风的第二路音频信号进行第二自适应回声消除处理,得到第二音频信号。
由于两个麦克风几乎是同时接收到音频信号的,因此在数据处理时,上述S101和S102可以同时进行,不存在先后步骤。
S103,根据NN语音存在概率对第一音频信号和第二音频信号进行噪声抑制处理,以得到第一降噪信号。
通过NN技术进行语音识别,并根据其语音存在概率对第一音频信号和第二音频信号进行噪声抑制处理,能够较好的抑制噪声,得到的第一降噪信号较好,更利于后续预定关键字识别。为了使得处理效果更好,NN也可以进一步采用DNN(Deep Neural Networks,深层神经网络)。
S104,对第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据第一关键字识别概率确定第一路音频信号中是否存在预定关键字。
确定是否存在预定关键字的过程中,可以设置一个第一预设概率,即识别第一关键字识别概率是否大于第一预设概率,并根据第二识别结果确定第一路音频信号中是否存在预定关键字。实现时,当第一关键字识别概率大于第一预设概率时,则确认存在预定关键字,反之,当第一关键字识别概率小于或等于第一预设概率时,则确认不存在预定关键字。
S105,根据第一关键字识别概率对第一音频信号和第二音频信号进行噪声抑制处理,以得到第二降噪信号。
第一关键字识别概率是通过NN技术进行语音识别处理后得到的一个概率,其准确率较高,因此,通过第一关键字识别概率对第一音频信号和第二音频信号进行噪声抑制处理之后,得到的第二降噪信号较好,更利于后续预定关键字识别。
由于该过程中需要使用到第一路音频信号的第一关键字识别概率,所以,该过程必然需要等到S104结束后再执行。
S106,对第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据第二关键字识别概率确定第二路音频信号中是否存在预定关键字。
确定是否存在预定关键字的过程中,由于是识别第二路音频信号中是否存在预定关键字,所以设置的第二预设概率可以与第一预设概率不同,第二预设概率可以略低于第一预设概率。
识别第二关键字识别概率是否大于第二预设概率,并根据第三识别结果确定第二路音频信号中是否存在预定关键字。实现时,当第二关键字识别概率大于第二预设概率时,则确认存在预定关键字,反之,当第二关键字识别概率小于或等于第二预设概率时,则确认不存在预定关键字。
S107,根据第一路音频信号和第二路音频信号中预定关键字的第一识别结果确定是否执行唤醒操作。
具体的,可以在第一路音频信号或第二路音频信号识别到预定关键字的情况下,确定执行唤醒操作。
本发明采用的双麦克远场音箱技术,解决了现有智能音箱成本高,误触发概率比较高的缺点,利用深度学习做语音存在概率识别,不需要多个麦克风组成麦克风阵列,取得了比较好的双麦克降噪效果。另外针对语音噪声,相声,小品,家庭噪声等情况下,智能音箱误触发概率高的特点,将基于深度学习的本地关键字识别结果反馈给双麦克降噪,提高降噪效果,降低误触发次数。
本发明第二实施例提供了一种音频处理方法,该方法相对于第一实施例增加了针对回声参考信号进行关键字识别的流程,流程如图2所示,包括步骤S201至S209:
S201,基于回声参考信号对来自第一麦克风的第一路音频信号进行第一自适应回声消除处理,得到第一音频信号。
S202,基于回声参考信号对来自第二麦克风的第二路音频信号进行第二自适应回声消除处理,得到第二音频信号。
由于两个麦克风几乎是同时接收到音频信号的,因此在数据处理时,上述S201和S202可以同时进行,不存在先后步骤。
S203,根据NN语音存在概率对第一音频信号和第二音频信号进行噪声抑制处理,以得到第一降噪信号。
通过NN技术进行语音识别,并根据其语音存在概率对第一音频信号和第二音频信号进行噪声抑制处理,能够较好的抑制噪声,得到的第一降噪信号较好,更利于后续预定关键字识别。
S204,对第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据第一关键字识别概率确定第一路音频信号中是否存在预定关键字。
确定是否存在预定关键字的过程中,可以设置一个第一预设概率,即识别第一关键字识别概率是否大于第一预设概率,并根据第二识别结果确定第一路音频信号中是否存在预定关键字。实现时,当第一关键字识别概率大于第一预设概率时,则确认存在预定关键字,反之,当第一关键字识别概率小于或等于第一预设概率时,则确认不存在预定关键字。
S205,根据第一关键字识别概率对第一音频信号和第二音频信号进行噪声抑制处理,以得到第二降噪信号。
第一关键字识别概率是通过NN技术进行语音识别处理后得到的一个概率,其准确率较高,因此,通过第一关键字识别概率对第一音频信号和第二音频信号进行噪声抑制处理之后,得到的第二降噪信号较好,更利于后续预定关键字识别。
由于该过程中需要使用到第一路音频信号的第一关键字识别概率,所以,该过程必然需要等到S204结束后再执行。
S206,对第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据第二关键字识别概率确定第二路音频信号中是否存在预定关键字。
确定是否存在预定关键字的过程中,由于是识别第二路音频信号中是否存在预定关键字,所以设置的第二预设概率可以与第一预设概率不同,第二预设概率可以小于或等于第一预设概率。
识别第二关键字识别概率是否大于第二预设概率,并根据第三识别结果确定第二路音频信号中是否存在预定关键字。实现时,当第二关键字识别概率大于第二预设概率时,则确认存在预定关键字,反之,当第二关键字识别概率小于或等于第二预设概率时,则确认不存在预定关键字。
S207,对回声参考信号进行关键字识别,以得到第三关键字识别概率。
智能音箱在播放内容过程中,会存在回声,回声也会收录到麦克风中,因此,本发明实施例对回声参考信号中可能存在预定关键字的情况也进行了识别。
S208,根据第三关键字识别概率确定回声参考信号中是否存在预定关键字。
S209,在回声参考信号中不存在预定关键字的情况下,根据第一路音频信号和第二路音频信号中预定关键字的第一识别结果确定是否执行唤醒操作。
具体的,可以在第一路音频信号或第二路音频信号识别到预定关键字的情况下,确定执行唤醒操作。
下面对上述音频处理方法的设计逻辑进行说明,如图3所示,为上述音频处理方法的设计逻辑图,该设计逻辑图仅为一种示例,不对本发明实施例构成限定。
本发明实施例提供了一种音频处理方法,该方法应用在双麦克智能音箱中,该方法采用基于NN的技术做VAD(Voice Activity Detection,语音活动检测)识别,很好的区分了噪声和语音信号,用于控制噪声抑制滤波器的系数更新,达到了比较好的噪声抑制性能,并进行第一路关键字识别;将第一路关键字识别结果(可以是一个打分结果)用于指导第二路双麦克降噪,从而消除语音干扰信号,将该路结果用于第二路关键字识别,第一路关键字识别库的阈值可以设置的比较高,第二路关键字识别库的阈值可以设置的比较低,降低了误触发的概率,且保证了正确唤醒率。另外还可以增加第三路关键字识别库用来降低音箱播放关键字时的误触发概率,方法为将回声参考信号引入第三路,如果第三路识别成功,则不唤醒系统。
在图3中,双麦克数据首先分别做回声消除,其中一路送入语音活动检测NN中进行语音存在概率识别计算,双麦克根据语音存在概率开启自适应滤波进行系数更新,并从主路信号中减去辅路信号滤波后的噪声数据得到干净的语音信号,送入第一路关键字识别,如果识别得分结果高于第一阈值,则输出识别成功标志,否则将第一路的识别得分送入第二路的双麦克降噪,第二路的双麦克降噪模块在第一路识别得分低于第一阈值时,对第二路的滤波器进行系数更新,并从主路信号中减去辅路信号滤波后的噪声数据得到干净的语音信号,这一路可以消除人声干扰,降低误识别率。回声参考信号会直接送入第三路NN进行关键字识别,如果识别成功,则认为此时音箱播放了关键字,从而屏蔽前两路的识别结果,降低了误识别率。
本实施例的一种双麦克自适应噪声抑制算法处理过程如下:
, (1)
Figure 672693DEST_PATH_IMAGE002
, (2)
Figure 145263DEST_PATH_IMAGE003
(3)
Figure 399658DEST_PATH_IMAGE004
, (4)
Figure 856047DEST_PATH_IMAGE005
, (5)
Figure 80355DEST_PATH_IMAGE006
是麦克1自适应回声消除处理后的信号,
Figure 95846DEST_PATH_IMAGE007
是麦克2自适应回声消除处理后的信号,
Figure 380197DEST_PATH_IMAGE008
是噪声抑制处理后的信号,
Figure 199249DEST_PATH_IMAGE009
是自适应滤波器系数,L是自适应滤波器阶数,
Figure 227247DEST_PATH_IMAGE010
是NN语音存在概率模块计算出的语音存在概率或者是关键字识别模块计算出的关键词存在概率,
Figure 674409DEST_PATH_IMAGE011
是自适应滤波器的调整步长,由公式(5)可知,
Figure 519874DEST_PATH_IMAGE011
是语音存在概率或关键词存在概率的函数,k为离散化的采样时间,其中,
Figure 419697DEST_PATH_IMAGE012
为补偿初始值,例如,可以设置为比如0.5,min(x,y)表示取x,y中较小的一个。
本发明采用双麦克消噪技术并结合基于深度学习的语音存在概率识别,以及采用深度学习的本地关键字识别结果做反馈辅助双麦克降噪,并采用NN识别,基于各降噪通路特点,给与不同的识别阈值,实现了低成本,高识别率,低误触发率的远场智能音箱方案。
本发明采用的双麦克远场音箱技术,解决了现有智能音箱成本高,误触发概率比较高的缺点,利用深度学习做语音存在概率识别,不需要多个麦克风组成麦克风阵列,取得了比较好的双麦克降噪效果。另外针对语音噪声,相声,小品,家庭噪声等情况下,智能音箱误触发概率高的特点,将基于深度学习的本地关键字识别结果反馈给双麦克降噪,提高降噪效果,降低误触发次数。
本发明第三实施例提供了一种音频处理装置,该装置的结构示意如图4所示,包括:
第一自适应回声消除模块10,用于基于回声参考信号对来自第一麦克风的第一路音频信号进行第一自适应回声消除处理,得到第一音频信号;第二自适应回声消除模块20,用于基于回声参考信号对来自第二麦克风的第二路音频信号进行第二自适应回声消除处理,得到第二音频信号;第一降噪模块30,用于根据NN语音存在概率对第一音频信号和第二音频信号进行噪声抑制处理,以得到第一降噪信号;第一关键字识别模块40,用于对第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据第一关键字识别概率确定第一路音频信号中是否存在预定关键字;第二降噪模块50,用于根据第一关键字识别概率对第一音频信号和第二音频信号进行噪声抑制处理,以得到第二降噪信号;第二关键字识别模块60,用于对第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据第二关键字识别概率确定第二路音频信号中是否存在预定关键字;执行模块70,用于根据第一路音频信号和第二路音频信号中预定关键字的第一识别结果确定是否执行唤醒操作。
上述第一关键字识别模块,具体用于:识别第一关键字识别概率是否大于第一预设概率,并根据第二识别结果确定第一路音频信号中是否存在预定关键字。上述第二关键字识别模块,具体用于:识别第二关键字识别概率是否大于第二预设概率,并根据第三识别结果确定第二路音频信号中是否存在预定关键字。实现时,当第一关键字识别概率大于第一预设概率时,则确认存在预定关键字,反之,当第一关键字识别概率小于或等于第一预设概率时,则确认不存在预定关键字。当第二关键字识别概率大于第二预设概率时,则确认存在预定关键字,反之,当第二关键字识别概率小于或等于第二预设概率时,则确认不存在预定关键字。
上述装置还可以如图5所示,包括:第三关键字识别模块80,用于对回声参考信号进行关键字识别,以得到第三关键字识别概率;根据第三关键字识别概率确定回声参考信号中是否存在预定关键字;执行模块70,还用于在回声参考信号中不存在预定关键字的情况下,根据第一路音频信号和第二路音频信号中预定关键字的第一识别结果确定是否执行唤醒操作。
上述执行模块,具体用于:在第一路音频信号或第二路音频信号识别到预定关键字的情况下,确定执行唤醒操作。
本发明采用的双麦克远场音箱技术,解决了现有智能音箱成本高,误触发概率比较高的缺点,利用深度学习做语音存在概率识别,不需要多个麦克风组成麦克风阵列,取得了比较好的双麦克降噪效果。另外针对语音噪声,相声,小品,家庭噪声等情况下,智能音箱误触发概率高的特点,将基于深度学习的本地关键字识别结果反馈给双麦克降噪,提高降噪效果,降低误触发次数。
此外,尽管已经在本文中描述了示例性实施例,其范围包括任何和所有基于本发明的具有等同元件、修改、省略、组合(例如,各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释,并不限于在本说明书中或本申请的实施期间所描述的示例,其示例将被解释为非排他性的。因此,本说明书和示例旨在仅被认为是示例,真正的范围和精神由以下权利要求以及其等同物的全部范围所指示。
以上描述旨在是说明性的而不是限制性的。例如,上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外,在上述具体实施方式中,各种特征可以被分组在一起以简单化本发明。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反,本发明的主题可以少于特定的公开的实施例的全部特征。从而,以下权利要求书作为示例或实施例在此并入具体实施方式中,其中每个权利要求独立地作为单独的实施例,并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。
以上对本发明多个实施例进行了详细说明,但本发明不限于这些具体的实施例,本领域技术人员在本发明构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本发明所要求保护的范围之内。

Claims (10)

1.一种音频处理方法,其特征在于,包括:
基于回声参考信号对来自第一麦克风的第一路音频信号进行第一自适应回声消除处理,得到第一音频信号;
基于所述回声参考信号对来自第二麦克风的第二路音频信号进行第二自适应回声消除处理,得到第二音频信号;
根据神经网络NN语音存在概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第一降噪信号;对所述第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据所述第一关键字识别概率确定所述第一路音频信号中是否存在预定关键字;
根据所述第一关键字识别概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第二降噪信号;对所述第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据所述第二关键字识别概率确定所述第二路音频信号中是否存在所述预定关键字;
根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一关键字识别概率确定所述第一路音频信号中是否存在预定关键字,包括:
识别所述第一关键字识别概率是否大于第一预设概率,并根据第二识别结果确定所述第一路音频信号中是否存在所述预定关键字。
3.如权利要求1所述的方法,其特征在于,所述根据所述第二关键字识别概率确定所述第二路音频信号中是否存在所述预定关键字,包括:
识别所述第二关键字识别概率是否大于第二预设概率,并根据第三识别结果确定所述第二路音频信号中是否存在所述预定关键字。
4.如权利要求1所述的方法,其特征在于,还包括:
对所述回声参考信号进行关键字识别,以得到第三关键字识别概率;
根据第三关键字识别概率确定回声参考信号中是否存在所述预定关键字;
在所述回声参考信号中不存在所述预定关键字的情况下,根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
5.如权利要求1至4中任一项所述的方法,其特征在于,所述根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作,包括:
在所述第一路音频信号或所述第二路音频信号识别到所述预定关键字的情况下,确定执行唤醒操作。
6.一种音频处理装置,其特征在于,包括:
第一自适应回声消除模块,用于基于回声参考信号对来自第一麦克风的第一路音频信号进行第一自适应回声消除处理,得到第一音频信号;
第二自适应回声消除模块,用于基于所述回声参考信号对来自第二麦克风的第二路音频信号进行第二自适应回声消除处理,得到第二音频信号;
第一降噪模块,用于根据神经网络NN语音存在概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第一降噪信号;
第一关键字识别模块,用于对所述第一降噪信号进行关键字识别,以得到第一关键字识别概率;根据所述第一关键字识别概率确定所述第一路音频信号中是否存在预定关键字;
第二降噪模块,用于根据所述第一关键字识别概率对所述第一音频信号和所述第二音频信号进行噪声抑制处理,以得到第二降噪信号;
第二关键字识别模块,用于对所述第二降噪信号进行关键字识别,以得到第二关键字识别概率;根据所述第二关键字识别概率确定所述第二路音频信号中是否存在所述预定关键字;
执行模块,用于根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
7.如权利要求6所述的装置,其特征在于,所述第一关键字识别模块,具体用于:识别所述第一关键字识别概率是否大于第一预设概率,并根据第二识别结果确定所述第一路音频信号中是否存在所述预定关键字。
8.如权利要求6所述的装置,其特征在于,所述第二关键字识别模块,具体用于:识别所述第二关键字识别概率是否大于第二预设概率,并根据第三识别结果确定所述第二路音频信号中是否存在所述预定关键字。
9.如权利要求6所述的装置,其特征在于,还包括:
第三关键字识别模块,用于对所述回声参考信号进行关键字识别,以得到第三关键字识别概率;根据第三关键字识别概率确定回声参考信号中是否存在所述预定关键字;
所述执行模块,还用于在所述回声参考信号中不存在所述预定关键字的情况下,根据所述第一路音频信号和所述第二路音频信号中所述预定关键字的第一识别结果确定是否执行唤醒操作。
10.如权利要求6至9中任一项所述的装置,其特征在于,所述执行模块,具体用于:在所述第一路音频信号或所述第二路音频信号识别到所述预定关键字的情况下,确定执行唤醒操作。
CN201911196316.1A 2019-11-29 2019-11-29 一种音频处理方法及装置 Active CN110660407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911196316.1A CN110660407B (zh) 2019-11-29 2019-11-29 一种音频处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911196316.1A CN110660407B (zh) 2019-11-29 2019-11-29 一种音频处理方法及装置

Publications (2)

Publication Number Publication Date
CN110660407A true CN110660407A (zh) 2020-01-07
CN110660407B CN110660407B (zh) 2020-03-17

Family

ID=69043772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911196316.1A Active CN110660407B (zh) 2019-11-29 2019-11-29 一种音频处理方法及装置

Country Status (1)

Country Link
CN (1) CN110660407B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445918A (zh) * 2020-03-23 2020-07-24 深圳市友杰智新科技有限公司 降低智能语音设备误唤醒的方法、装置和计算机设备
CN111951793A (zh) * 2020-08-13 2020-11-17 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
WO2022026948A1 (en) 2020-07-31 2022-02-03 Dolby Laboratories Licensing Corporation Noise reduction using machine learning
WO2022042635A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种唤醒识别方法、音频装置以及音频装置组

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107464565A (zh) * 2017-09-20 2017-12-12 百度在线网络技术(北京)有限公司 一种远场语音唤醒方法及设备
CN108564961A (zh) * 2017-11-29 2018-09-21 华北计算技术研究所(中国电子科技集团公司第十五研究所) 一种移动通信设备的语音降噪方法
US20180358032A1 (en) * 2017-06-12 2018-12-13 Ryo Tanaka System for collecting and processing audio signals
CN109360562A (zh) * 2018-12-07 2019-02-19 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
CN109697984A (zh) * 2018-12-28 2019-04-30 北京声智科技有限公司 一种降低智能设备自唤醒的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180358032A1 (en) * 2017-06-12 2018-12-13 Ryo Tanaka System for collecting and processing audio signals
CN107464565A (zh) * 2017-09-20 2017-12-12 百度在线网络技术(北京)有限公司 一种远场语音唤醒方法及设备
CN108564961A (zh) * 2017-11-29 2018-09-21 华北计算技术研究所(中国电子科技集团公司第十五研究所) 一种移动通信设备的语音降噪方法
CN109360562A (zh) * 2018-12-07 2019-02-19 深圳创维-Rgb电子有限公司 回声消除方法、装置、介质以及语音唤醒方法和设备
CN109697984A (zh) * 2018-12-28 2019-04-30 北京声智科技有限公司 一种降低智能设备自唤醒的方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111445918A (zh) * 2020-03-23 2020-07-24 深圳市友杰智新科技有限公司 降低智能语音设备误唤醒的方法、装置和计算机设备
CN111445918B (zh) * 2020-03-23 2020-12-15 深圳市友杰智新科技有限公司 降低智能语音设备误唤醒的方法、装置和计算机设备
WO2022026948A1 (en) 2020-07-31 2022-02-03 Dolby Laboratories Licensing Corporation Noise reduction using machine learning
CN111951793A (zh) * 2020-08-13 2020-11-17 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
CN111951793B (zh) * 2020-08-13 2021-08-24 北京声智科技有限公司 唤醒词识别的方法、装置及存储介质
WO2022042635A1 (zh) * 2020-08-31 2022-03-03 华为技术有限公司 一种唤醒识别方法、音频装置以及音频装置组

Also Published As

Publication number Publication date
CN110660407B (zh) 2020-03-17

Similar Documents

Publication Publication Date Title
CN110660407B (zh) 一种音频处理方法及装置
US10546593B2 (en) Deep learning driven multi-channel filtering for speech enhancement
Hoshen et al. Speech acoustic modeling from raw multichannel waveforms
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
US20200184987A1 (en) Noise reduction using specific disturbance models
CN110556103A (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN108899044A (zh) 语音信号处理方法及装置
TWI711035B (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
CN110211599B (zh) 应用唤醒方法、装置、存储介质及电子设备
WO2015065682A1 (en) Selective audio source enhancement
US11817112B2 (en) Method, device, computer readable storage medium and electronic apparatus for speech signal processing
CN107464565A (zh) 一种远场语音唤醒方法及设备
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN113205803B (zh) 一种具有自适应降噪能力的语音识别方法及装置
CN108538306B (zh) 提高语音设备doa估计的方法及装置
US10089998B1 (en) Method and apparatus for processing audio signals in a multi-microphone system
US11222652B2 (en) Learning-based distance estimation
CN110992967A (zh) 一种语音信号处理方法、装置、助听器及存储介质
US20220366927A1 (en) End-To-End Time-Domain Multitask Learning for ML-Based Speech Enhancement
WO2024017110A1 (zh) 语音降噪方法、模型训练方法、装置、设备、介质及产品
US11783809B2 (en) User voice activity detection using dynamic classifier
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质
CN114333817A (zh) 遥控器及遥控器语音识别方法
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
Escudero et al. An improved DNN-based spectral feature mapping that removes noise and reverberation for robust automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant