CN115223548B - 语音交互方法、语音交互设备及存储介质 - Google Patents

语音交互方法、语音交互设备及存储介质 Download PDF

Info

Publication number
CN115223548B
CN115223548B CN202110732106.0A CN202110732106A CN115223548B CN 115223548 B CN115223548 B CN 115223548B CN 202110732106 A CN202110732106 A CN 202110732106A CN 115223548 B CN115223548 B CN 115223548B
Authority
CN
China
Prior art keywords
signal
voice
target
audio
interference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110732106.0A
Other languages
English (en)
Other versions
CN115223548A (zh
Inventor
董天旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudminds Shanghai Robotics Co Ltd
Original Assignee
Cloudminds Shanghai Robotics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudminds Shanghai Robotics Co Ltd filed Critical Cloudminds Shanghai Robotics Co Ltd
Priority to CN202110732106.0A priority Critical patent/CN115223548B/zh
Priority to PCT/CN2021/140554 priority patent/WO2023273230A1/zh
Publication of CN115223548A publication Critical patent/CN115223548A/zh
Application granted granted Critical
Publication of CN115223548B publication Critical patent/CN115223548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请实施例涉及人机交互领域,公开了一种语音交互方法、语音交互设备及存储介质。本申请的语音交互方法包括以下步骤:通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频;确定唤醒音频所在的目标区域;通过每个麦克风接收语音交互设备的外部区域的当前音频,得到当前音频在每个麦克风处对应的音频信号;在当前音频中存在语音信号的情况下,确定语音信号所在的区域;在语音信号所在区域与目标区域满足预设条件的情况下,根据多个所述音频信号得到语音信号;根据语音信号进行语音识别。相对于相关技术通过能量比的方式来判断目标区域是否存在语音而言,无需对不同的情况设置不同的预设参数,步骤更加便捷且精确度较高。

Description

语音交互方法、语音交互设备及存储介质
技术领域
本申请实施例涉及人机交互领域,特别涉及一种语音交互方法、语音交互设备及存储介质。
背景技术
目前,语音交互是自然友好的交互方式,基于语音识别的语音交互逐渐被人们所认可并广泛应用于各个生活场景,如车载语音、智能电视与音响、智能机器人等。其中,语音交互分为近场语音交互和远场语音交互:近场语音交互,如手机上的语音输入法等,已经非常成熟完善。而远场语音交互主要是通过远场麦克风阵列进行拾音,对目标位置的存在的语音进行增强,并对其他位置的音频进行抑制,从而将增强的目标语音。
相关技术中,存在一种联合瞬时波束干扰比TBRR方法来实现对语音的增强,TBRR方法是通过对固定波束形成输出信号和干扰参考信号的能量比,来判断目标方向是否存在语音;然而,通过能量比判断目标方向是否存在语音的过程需要设置一个精确度较高的预设参数,而预设参数的设置需要结合麦克风矩阵的排布以及噪音的类型等综合来确定,不仅增加了计算量,且不同的麦克风矩阵需要设置不同的预设参数,需要根据不同情况设置不同的预设参数,导致这种确定方式较为复杂且精确度较低。
发明内容
本申请实施例的目的在于提供一种语音交互方法、语音交互设备及存储介质,判断目标区域是否存在语音的过程更加便捷且精确度较高。
为解决上述技术问题,本申请的实施例提供了一种语音交互方法,应用于语音交互设备,所述语音交互设备包括由多个麦克风构成的麦克风阵列;包括以下步骤:通过所述麦克风阵列接收来自所述语音交互设备的外部区域的唤醒音频;确定所述唤醒音频所在的目标区域;通过每个所述麦克风接收所述语音交互设备的外部区域的当前音频,得到所述当前音频在每个所述麦克风处对应的音频信号;在所述当前音频中存在语音信号的情况下,确定所述语音信号所在的区域;在所述语音信号所在区域与所述目标区域满足预设条件的情况下,根据多个所述音频信号得到所述语音信号;根据所述语音信号进行语音识别。
本申请的实施例还提供了一种语音交互设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述的语音交互方法。
本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的语音交互方法。
本实施例通过判断当前音频中是否存在语音,并在当前音频存在语音时定位语音所在的区域,并在语音所在的区域与目标区域满足预设条件时,判断目标区域中存在语音,从而根据多个音频信号得到对应的语音信号,从而进行语音交互,相对于相关技术通过能量比的方式来判断目标区域是否存在语音而言,无需对不同的情况设置不同的预设参数,判断目标区域是否存在语音的过程更加便捷且精确度较高。
另外,所述根据多个所述音频信号得到所述语音信号之前,还包括:利用固定波束形成模块对多个所述音频信号进行处理,得到合并音频信号;所述合并音频信号表示所述目标区域内的所有音频信号的总和;利用差分矩阵模块对多个所述音频信号进行处理,得到干扰参考信号;所述根据多个所述音频信号得到所述语音信号,具体包括:将所述干扰参考信号输入至目标自适应干扰器模型中,得到目标干扰信号;所述目标干扰信号表示预测的当前所述目标区域中内存在的干扰信号;根据所述合并音频信号与所述目标干扰信号之间的差异得到所述语音信号。
另外,所述通过每个所述麦克风接收来自所述语音交互设备的外部区域的当前音频,得到所述当前音频在每个所述麦克风处对应的音频信号之后,还包括:将所述合并音频信号、所述干扰参考信号作为一对训练样本,并利用所述训练样本按照第一学习率对所述目标自适应干扰器模型进行训练,更新所述目标自适应干扰器模型。
另外,所述在所述当前音频中存在语音信号的情况下,确定所述语音信号所在的区域之后,还包括:在所述语音信号所在区域与所述目标区域不满足预设条件的情况下,将所述合并音频信号、所述干扰参考信号作为一对训练样本,并利用所述训练样本按照第一学习率对所述目标自适应干扰消除器模型进行训练,更新所述目标自适应干扰消除器模型。
另外,在所述更新所述目标模型之后,还包括:再次利用所述训练样本对所述目标自适应干扰器模型进行训练,再次更新所述目标自适应干扰器模型。
另外,通过多声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤;所述确定所述语音信号所在的区域之后,还包括:在所述语音信号所在的区域与所述目标区域满足预设条件的情况下,所述语音信号为目标语音指令信号,停止所述目标自适应干扰消除器模型的学习与更新。
另外,通过单声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤;所述确定所述语音信号所在的区域之后,还包括:在所述语音信号所在区域与所述目标区域满足预设条件的情况下,将所述合并音频信号、所述干扰参考信号作为一对训练样本,利用所述训练样本按照第二学习率对所述目标自适应干扰消除器模型进行训练,更新所述目标自适应干扰消除器模型;所述第二学习率小于第一学习率。
另外,所述当前音频的数据长度为10ms至30ms。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本申请一实施例的语音交互方法的流程示意图;
图2是根据本申请一实施例的语音交互方法的流程示意图;
图3是根据本申请一实施例的语音交互方法的流程示意图;
图4是根据本申请一实施例的语音交互方法的流程示意图;
图5是根据本申请一实施例的语音交互设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本申请的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本申请的一实施例涉及一种语音交互方法,应用于语音交互设备,所述语音交互设备包括由多个麦克风构成的麦克风阵列;本实施例的语音交互方法的具体流程如图1所示,包括以下步骤:
步骤101,通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。
具体地说,语音交互设备的麦克风阵列用于接收语音交互设备外部发出的音频,包括唤醒音频;唤醒音频是指开启语音交互设备的唤醒语音,在语音交互设备接收到唤醒音频之后,语音设备开始进行语音识别的过程。
步骤102,确定唤醒音频所在的目标区域。
具体地说,当语音交互设备被唤醒之后,语音交互设备需要确定发出唤醒音频的位置即目标区域的位置,从而确定用户所在区域。
步骤103,通过每个麦克风接收语音交互设备的外部区域的当前音频,得到当前音频在每个麦克风处对应的音频信号。
具体地说,麦克风阵列的每个麦克风均可以接收语音交互设备外部区域的当前音频,由于多个麦克风设置的位置不同,每个麦克风所接收到的音频信号也不相同,因此,本实施例通过每个麦克风均接收到当前音频之后,均会得到当前音频对应的一个音频信号。
步骤104,在当前音频中存在语音信号的情况下,确定语音信号所在的区域。
一般而言,用户在目标区域唤醒语音交互设备之后,用户会继续在目标区域发送语音指令;当然,用户也可能会在唤醒语音交互设备之后,去处理其他事情,因此语音交互设备被唤醒之后,语音交互设备继续接收的当前音频可能存在语音,也可能不存在语音。
具体地说,本实施例通过声源定位算法判断当前语音是否存在语音信号,当确定当前音频存在语音信号的情况下,再通过声源定位算法确定语音信号所在的区域。
步骤105,在语音信号所在区域与目标区域满足预设条件的情况下,根据多个音频信号得到语音信号。
具体地说,在确定语音信号所在的区域之后,判断语音信号所在区域与目标区域是否满足预设条件,其中预设条件可以为语音信号所在的区域与目标区域的重合度是否大于预设阈值,在语音信号所在区域与目标区域满足预设条件的情况下,根据多个音频信号得到语音信号,通过对多个音频信号进行一定的运算处理,从而得到目标区域内的语音信号。
步骤106,根据语音信号进行语音识别。
具体地说,得到目标区域的语音信号之后,语音交互设备对语音信号进行语音识别,从而识别出语音信号携带的语音指令,并根据语音指令执行对应的操作。
本实施例通过判断当前音频中是否存在语音,并在当前音频存在语音时定位语音所在的区域,并在语音所在的区域与目标区域满足预设条件时,判断目标区域中存在语音,从而根据多个音频信号得到对应的语音信号,从而进行语音交互,相对于相关技术通过能量比的方式来判断目标区域是否存在语音而言,无需对不同的情况设置不同的预设参数,判断的过程更加便捷且精确度较高。
在一个实施例中,当前音频的数据长度为10ms至30ms。具体地说,语音交互设备是需要实时获取当前音频的,因此,每次获取的当前音频仅为一小段音频段,本实施例可以将当前音频的数据长度设置为10ms至30ms,用户可以根据实际的需要进行调整。
在一个实施例中,根据多个音频信号得到语音信号之前,还包括:利用固定波束形成模块对多个音频信号进行处理,得到合并音频信号;合并音频信号表示目标区域内的所有音频信号的总和;利用差分矩阵模块对多个音频信号进行处理,得到干扰参考信号。
本实施例的具体流程示意图如图2所示,具体包括以下步骤:
步骤201,通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。
步骤202,确定唤醒音频所在的目标区域。
步骤203,通过每个麦克风接收语音交互设备的外部区域的当前音频,得到当前音频在每个麦克风处对应的音频信号。
步骤204,利用固定波束形成模块对多个音频信号进行处理,得到合并音频信号;合并音频信号表示目标区域内的所有音频信号的总和。
具体地说,语音交互设备中包括有固定波束形成模块,固定波束形成模块是延时求和波束形成器,固定波束形成模块是对每个麦克风接收到的音频信号进行平均运算得到合并音频信号,即将多个音频信号相加并除以麦克风的个数,得到合并音频信号,从而消除由于麦克风位置不同导致多个音频信号的情况不一致的情况。需要说明的是,在语音信号所在区域与目标区域满足预设条件的情况下,合并音频信号表示目标区域内的语音信号与干扰信号的总和。
步骤205,利用差分矩阵模块对多个音频信号进行处理,得到干扰参考信号。
具体地说,语音交互设备中包括有差分矩阵模块,差分矩阵模块通过对相对设置的麦克风的音频信号相减,从而去掉了语音信号,将留下的信号作为干扰参考信号,该干扰参考信号消除了语音信号。
步骤206,在当前音频中存在语音信号的情况下,确定语音信号所在的区域。
步骤207,在语音信号所在区域与目标区域满足预设条件的情况下,将干扰参考信号输入至目标自适应干扰器模型中,得到目标干扰信号;目标干扰信号表示预测的当前目标区域中内存在的干扰信号。
具体地说,本实施例中的目标自适应干扰器中使用的滤波器为归一化最小均方自适应滤波器(NLMS,Normalized Least Mean Square),NLMS具有较好的收敛性与平稳性,可以提高目标自适应干扰器的精确度,从而提高语音识别的精确度。然,实际应用中,也可以使用其他类型的滤波器,例如:最小均方误差滤波器(LMS,Least Mean Square)、递归最小二乘滤波器(RLS,Recursive Least Squares)。
具体地说,语音交互设备的自适应干扰器中存在一个目标自适应干扰器模型,目标自适应干扰器模型在进行语音交互之前已经进行了学习,目标自适应干扰器模型内的系数已经相对的比较完善,可以应用于具体的语音交互过程中。因此,本实施例将干扰参考信号输入至目标自适应干扰器模型中,从而得到目标自适应干扰器模型的输出,即目标干扰信号,该目标干扰信号表示预测的当前目标区域中内存在的干扰信号。
步骤208,根据合并音频信号与目标干扰信号之间的差异得到语音信号。
具体地说,在语音信号所在区域与目标区域满足预设条件的情况下,合并音频信号表示目标区域内的语音信号与干扰信号的总和,目标干扰信号表示预测的当前目标区域中内存在的干扰信号;在得到目标自适应干扰器模型的输出即目标干扰信号之后,将合并音频信号与目标干扰信号做减法处理之后,即得到目标区域内的语音信号,从而尽可能的滤除掉语音信号中存在的杂音。
步骤209,根据语音信号进行语音识别。
上述步骤201至步骤204、步骤209与上一实施例的步骤101至步骤104、步骤106相同,为避免重复,在此不再赘述。
在一个实施例中,通过每个麦克风接收来自语音交互设备的外部区域的当前音频,得到当前音频在每个麦克风处对应的音频信号之后,还包括:在当前音频中不存在语音信号的情况下,将合并音频信号、干扰参考信号样本作为一对训练样本,并利用训练样本按照第一学习率对目标模型进行训练,更新目标自适应干扰器模型。
本实施例的具体流程示意图如图3所示,具体包括以下步骤:
步骤301,通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。
步骤302,确定唤醒音频所在的目标区域。
步骤303,通过每个麦克风接收语音交互设备的外部区域的当前音频,得到当前音频在每个麦克风处对应的音频信号。
步骤304,利用固定波束形成模块对多个音频信号进行处理,得到合并音频信号;合并音频信号表示目标区域内的所有音频信号的总和。
步骤305,利用差分矩阵模块对多个音频信号进行处理,得到干扰参考信号。步骤305后,分别进入步骤306、步骤310。
步骤306,在当前音频中存在语音信号的情况下,确定语音信号所在的区域。
步骤307,在语音信号所在区域与目标区域满足预设条件的情况下,将干扰参考信号输入至目标自适应干扰器模型中,得到目标干扰信号;目标干扰信号表示预测的当前目标区域中内存在的干扰信号。
步骤308,根据合并音频信号与目标干扰信号之间的差异得到语音信号。
步骤309,根据语音信号进行语音识别。
步骤310,在当前音频中不存在语音信号的情况下,将合并音频信号、干扰参考信号作为一对训练样本,并利用训练样本按照第一学习率对目标自适应干扰器模型进行训练,更新目标自适应干扰器模型。
具体地说,目标自适应干扰器模型的输入数据为干扰参考信号样本,目标自适应干扰器模型的输出数据为音频信号样本,将两者作为一对训练样本对目标自适应干扰器模型进行训练,从而更新目标自适应干扰器模型,完善内部的系数,提高目标自适应干扰器模型的精确度。
具体地说,由于当前音频不存在语音信号,每个麦克风接收到的音频信息也不包括语音信号,此时,无法获取语音信息,而为了进一步提高目标自适应干扰器模型的精确度,充分利用样本,在此情况下,目标自适应干扰器模型也可以再次进行学习,不断完善目标自适应干扰器模型的系数,提高目标自适应干扰器模型的精确度。
上述步骤301至步骤309与上一实施例的步骤201至步骤209相同,为避免重复,在此不再赘述。
需要说明的是,学习率越大的NLMS的学习速度越快,学习率越小的NLMS的学习速度越慢;而学习速度越大,学习的精细度就越小,因此,必须确保目标自适应干扰器模型的输出数据音频信号样本不存在语音,即需要在语音交互设备外部区域不存在语音的情况下,将获取的干扰参考信号、合并音频信号作为一对训练样本,从而进行模型训练,因此,为了满足学习速度以及学习精度的要求,本实施例仅在语音交互设备外部不存在语音的情况下进行模型训练,第一学习率可以设置地较大,从而兼顾学习速度以及学习精度。
在一个实施例中,在更新目标自适应干扰器模型之后,还包括:再次利用训练样本对目标自适应干扰器模型进行训练,再次更新目标自适应干扰器模型。通过多次重复学习,进一步更新目标自适应干扰器模型,提高目标自适应干扰器模型的准确性。其中,二次重复学习有与两倍学习率一样的收敛速度,同时又有与单倍学习率一致的小误差。
在一个实施例中,在当前音频中存在语音信号的情况下,确定语音信号所在的区域之后,还包括:在语音信号所在区域与目标区域不满足预设条件的情况下,将合并音频信号、干扰参考信号作为一对训练样本,并利用训练样本按照第一学习率对目标自适应干扰消除器模型进行训练,更新目标自适应干扰消除器模型。具体地说,语音信号所在区域与目标区域不满足预设条件的情况下,即表示语音信号所在的区域不与目标区域重合,此时语音交互设备不会获取将这部分的语音信号作为用户发出的语音指令,该语音信号作为干扰信号;而为了进一步提高目标自适应干扰器模型的精确度,充分利用样本,在此情况下,目标自适应干扰器模型也可以再次进行学习,不断完善目标自适应干扰器模型的系数,提高目标自适应干扰器模型的精确度。当然,更新目标自适应干扰消除器模型之后,还可以进行二次或者多次学习并更新。
在一个实施例中,通过多声源定位算法来执行确定当前音频存在语音信号以及确定语音信号所在区域的步骤。多声源定位算法代表着具有高可信度的声源点位算法;多声源定位算法较为精确,可以提高检测目标区域是否存在语音信息的精确度。因此,本实施例中,确定语音信号所在的区域之后,还包括:在语音信号所在的区域与目标区域满足预设条件的情况下,即语音信号所在的区域与目标区域重合的情况下,语音信号为目标语音指令信号,停止目标自适应干扰消除器模型的学习与更新,即将目标自适应干扰消除器模型的学习率置为0。
在一个实施例中,通过单声源定位算法来执行确定当前音频存在语音信号以及确定语音信号所在区域的步骤;确定语音信号所在的区域之后,还包括:在语音信号所在区域与目标区域满足预设条件的情况下,将合并音频信号、干扰参考信号作为一对训练样本,利用训练样本按照第二学习率对目标自适应干扰消除器模型进行训练,更新目标自适应干扰消除器模型;第二学习率小于第一学习率。
本实施例的具体流程示意图如图4所示,具体包括以下步骤:
步骤401,通过麦克风阵列接收来自语音交互设备的外部区域的唤醒音频。
步骤402,确定唤醒音频所在的目标区域。
步骤403,通过每个麦克风接收语音交互设备的外部区域的当前音频,得到当前音频在每个麦克风处对应的音频信号。
步骤404,利用固定波束形成模块对多个音频信号进行处理,得到合并音频信号;合并音频信号表示目标区域内的语音信号与干扰信号的总和。
步骤405,利用差分矩阵模块对多个音频信号进行处理,得到干扰参考信号。
步骤406,在当前音频中存在语音信号的情况下,确定语音信号所在的区域。
步骤407,在语音信号所在区域与目标区域满足预设条件的情况下,将干扰参考信号输入至目标模型中,得到目标干扰信号;目标干扰信号表示预测的当前目标区域中内存在的干扰信号。
步骤408,根据合并音频信号与目标干扰信号之间的差异得到语音信号。
步骤409,根据语音信号进行语音识别。
步骤410,在语音信号所在区域与目标区域满足预设条件的情况下,将合并音频信号、干扰参考信号作为一对训练样本,利用训练样本按照第二学习率对目标自适应干扰消除器模型进行训练,更新目标自适应干扰消除器模型;第二学习率小于第一学习率。
需要说明的是,单声源定位算法代表着具有高运算效率、但可信度略低的声源定位算法。具体地说,单声源定位算法是将当前时刻能量最大声音的方向作为语音所在方向,因此,单声源定位算法相对于多声源定位算法来说,运算过程更加简单,但单声源定位算法的精确度较低。
本实施例使用的单声源定位算法由于定位算法可信度略低,不能直接停止目标自适应干扰消除器模型的学习与更新;因此,本实施例在使用单声源定位算法的情况下,再次对目标自适应干扰消除器模型进行训练,将合并音频信号、干扰参考信号作为一对训练样本,利用训练样本按照第二学习率对目标模型进行训练,更新目标自适应干扰消除器模型。由于单声源定位算法的精确度较差,可以使用较小的学习率对目标自适应干扰消除器模型进行训练,将第二学习率设置地小于第一学习率,即减小自适应干扰消除器模型的学习率,从而提高本次学习的精确度。
上述步骤401至步骤409与上一实施例的步骤301至步骤304相同,为避免重复,在此不再赘述。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请一实施例涉及一种语音交互设备,如图5所示,包括至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行上述的语音交互方法。
其中,存储器502和处理器501采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器501和存储器502的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器501处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器501。
处理器501负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器502可以被用于存储处理器501在执行操作时所使用的数据。
本申请一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。

Claims (9)

1.一种语音交互方法,其特征在于,应用于语音交互设备,所述语音交互设备包括由多个麦克风构成的麦克风阵列;所述方法包括:
通过所述麦克风阵列接收来自所述语音交互设备的外部区域的唤醒音频;
确定所述唤醒音频所在的目标区域;
通过每个所述麦克风接收所述语音交互设备的外部区域的当前音频,得到所述当前音频在每个所述麦克风处对应的音频信号;
在所述当前音频中存在语音信号的情况下,确定所述语音信号所在的区域;
在所述语音信号所在区域与所述目标区域满足预设条件的情况下,根据多个所述音频信号得到所述语音信号;
根据所述语音信号进行语音识别;
所述根据多个所述音频信号得到所述语音信号之前,还包括:
利用固定波束形成模块对多个所述音频信号进行处理,得到合并音频信号;所述合并音频信号表示所述目标区域内的所有音频信号的总和;
利用差分矩阵模块对多个所述音频信号进行处理,得到干扰参考信号;
所述根据多个所述音频信号得到所述语音信号,具体包括:
将所述干扰参考信号输入至目标自适应干扰器模型中,得到目标干扰信号;所述目标干扰信号表示预测的当前所述目标区域中内存在的干扰信号;
根据所述合并音频信号与所述目标干扰信号之间的差异得到所述语音信号。
2.根据权利要求1所述的语音交互方法,其特征在于,所述通过每个所述麦克风接收来自所述语音交互设备的外部区域的当前音频,得到所述当前音频在每个所述麦克风处对应的音频信号之后,还包括:
在所述当前音频中不存在语音信号的情况下,将所述合并音频信号、所述干扰参考信号作为一对训练样本,并利用所述训练样本按照第一学习率对所述目标自适应干扰器模型进行训练,更新所述目标自适应干扰器模型。
3.根据权利要求1所述的语音交互方法,其特征在于,所述在所述当前音频中存在语音信号的情况下,确定所述语音信号所在的区域之后,还包括:
在所述语音信号所在区域与所述目标区域不满足预设条件的情况下,将所述合并音频信号、所述干扰参考信号作为一对训练样本,并利用所述训练样本按照第一学习率对所述目标自适应干扰消除器模型进行训练,更新所述目标自适应干扰消除器模型。
4.根据权利要求2或3所述的语音交互方法,其特征在于,在更新目标模型之后,还包括:
再次利用所述训练样本对所述目标自适应干扰器模型进行训练,再次更新所述目标自适应干扰器模型。
5.根据权利要求2或3所述的语音交互方法,其特征在于,通过多声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤;
所述确定所述语音信号所在的区域之后,还包括:
在所述语音信号所在的区域与所述目标区域满足预设条件的情况下,所述语音信号为目标语音指令信号,停止所述目标自适应干扰消除器模型的学习与更新。
6.根据权利要求2或3所述的语音交互方法,其特征在于,通过单声源定位算法来执行确定所述当前音频存在所述语音信号以及确定所述语音信号所在区域的步骤;
所述确定所述语音信号所在的区域之后,还包括:
在所述语音信号所在区域与所述目标区域满足预设条件的情况下,将所述合并音频信号、所述干扰参考信号作为一对训练样本,利用所述训练样本按照第二学习率对所述目标自适应干扰消除器模型进行训练,更新所述目标自适应干扰消除器模型;所述第二学习率小于第一学习率。
7.根据权利要求1所述的语音交互方法,其特征在于,所述当前音频的数据长度为10ms至30ms。
8.一种语音交互设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的语音交互方法。
9.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一所述的语音交互方法。
CN202110732106.0A 2021-06-29 2021-06-29 语音交互方法、语音交互设备及存储介质 Active CN115223548B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110732106.0A CN115223548B (zh) 2021-06-29 2021-06-29 语音交互方法、语音交互设备及存储介质
PCT/CN2021/140554 WO2023273230A1 (zh) 2021-06-29 2021-12-22 语音交互方法、语音交互设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110732106.0A CN115223548B (zh) 2021-06-29 2021-06-29 语音交互方法、语音交互设备及存储介质

Publications (2)

Publication Number Publication Date
CN115223548A CN115223548A (zh) 2022-10-21
CN115223548B true CN115223548B (zh) 2023-03-14

Family

ID=83606944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110732106.0A Active CN115223548B (zh) 2021-06-29 2021-06-29 语音交互方法、语音交互设备及存储介质

Country Status (2)

Country Link
CN (1) CN115223548B (zh)
WO (1) WO2023273230A1 (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146614A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备
CN107464564A (zh) * 2017-08-21 2017-12-12 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection
CN109920405A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 多路语音识别方法、装置、设备及可读存储介质
JP2020030271A (ja) * 2018-08-21 2020-02-27 清水建設株式会社 会話音声レベル通知システム及び会話音声レベル通知方法
CN111599361A (zh) * 2020-05-14 2020-08-28 宁波奥克斯电气股份有限公司 一种唤醒方法、装置、计算机存储介质及空调器
CN112188368A (zh) * 2020-09-29 2021-01-05 深圳创维-Rgb电子有限公司 定向增强声音的方法及系统
WO2021012581A1 (zh) * 2019-07-24 2021-01-28 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质
CN112309395A (zh) * 2020-09-17 2021-02-02 广汽蔚来新能源汽车科技有限公司 人机对话方法、装置、机器人、计算机设备和存储介质
CN112951261A (zh) * 2021-03-02 2021-06-11 北京声智科技有限公司 声源定位方法、装置及语音设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180051189A (ko) * 2016-11-08 2018-05-16 삼성전자주식회사 자동 음성 트리거 방법 및 이를 적용한 음향 분석기
CN107591151B (zh) * 2017-08-22 2021-03-16 百度在线网络技术(北京)有限公司 远场语音唤醒方法、装置和终端设备
US10438588B2 (en) * 2017-09-12 2019-10-08 Intel Corporation Simultaneous multi-user audio signal recognition and processing for far field audio
CN109599124B (zh) * 2018-11-23 2023-01-10 腾讯科技(深圳)有限公司 一种音频数据处理方法、装置及存储介质
CN109697987B (zh) * 2018-12-29 2021-05-25 思必驰科技股份有限公司 一种外接式的远场语音交互装置及实现方法
CN112735462B (zh) * 2020-12-30 2024-05-31 科大讯飞股份有限公司 分布式麦克风阵列的降噪方法和语音交互方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146614A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备
CN107464564A (zh) * 2017-08-21 2017-12-12 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
US9973849B1 (en) * 2017-09-20 2018-05-15 Amazon Technologies, Inc. Signal quality beam selection
JP2020030271A (ja) * 2018-08-21 2020-02-27 清水建設株式会社 会話音声レベル通知システム及び会話音声レベル通知方法
CN109920405A (zh) * 2019-03-05 2019-06-21 百度在线网络技术(北京)有限公司 多路语音识别方法、装置、设备及可读存储介质
WO2021012581A1 (zh) * 2019-07-24 2021-01-28 广东美的白色家电技术创新中心有限公司 语音识别设备及其唤醒响应方法、计算机存储介质
CN111599361A (zh) * 2020-05-14 2020-08-28 宁波奥克斯电气股份有限公司 一种唤醒方法、装置、计算机存储介质及空调器
CN112309395A (zh) * 2020-09-17 2021-02-02 广汽蔚来新能源汽车科技有限公司 人机对话方法、装置、机器人、计算机设备和存储介质
CN112188368A (zh) * 2020-09-29 2021-01-05 深圳创维-Rgb电子有限公司 定向增强声音的方法及系统
CN112951261A (zh) * 2021-03-02 2021-06-11 北京声智科技有限公司 声源定位方法、装置及语音设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
人机交互中的声源定位与增强方法;殷瑞祥等;《数据采集与处理》;20150315(第02期);第94-101页 *
基于麦克风阵列的嘈杂环境下的鲁棒语音增强算法;李连等;《电子制作》;20200801(第15期);第48、53-55页 *

Also Published As

Publication number Publication date
WO2023273230A1 (zh) 2023-01-05
CN115223548A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN106910500B (zh) 对带麦克风阵列的设备进行语音控制的方法及设备
US11798531B2 (en) Speech recognition method and apparatus, and method and apparatus for training speech recognition model
US10410651B2 (en) De-reverberation control method and device of sound producing equipment
CN111640428A (zh) 一种语音识别方法、装置、设备和介质
CN109119090A (zh) 语音处理方法、装置、存储介质及电子设备
CN109273020B (zh) 音频信号处理方法、装置、设备和存储介质
CN102938254A (zh) 一种语音信号增强系统和方法
CN104810021A (zh) 应用于远场识别的前处理方法和装置
CN111402877B (zh) 基于车载多音区的降噪方法、装置、设备和介质
US12009006B2 (en) Audio signal processing method, apparatus and device, and storage medium
KR102555801B1 (ko) 노이즈 제거 알고리즘 디버깅 방법, 장치 및 전자기기
CN113380247A (zh) 多音区语音唤醒、识别方法和装置、设备、存储介质
CN112420051A (zh) 设备的确定方法、装置及存储介质
CN115223548B (zh) 语音交互方法、语音交互设备及存储介质
CN115083412B (zh) 语音交互方法及相关装置、电子设备、存储介质
US20200327887A1 (en) Dnn based processor for speech recognition and detection
WO2022052691A1 (zh) 基于多设备的语音处理方法、介质、电子设备及系统
CN114882879A (zh) 音频降噪方法、确定映射信息的方法、装置及电子设备
CN111354341A (zh) 语音唤醒方法及装置、处理器、音箱和电视机
CN112002340A (zh) 一种基于多用户的语音采集方法、装置
CN113163282B (zh) 一种基于usb的降噪拾音系统及方法
CN115412866B (zh) 通话控制方法、装置、终端设备及存储介质
CN115331672B (zh) 设备控制方法、装置、电子设备及存储介质
CN114387984A (zh) 一种语音信号的处理方法、装置、设备及存储介质
CN117975952A (zh) 用于信号处理的方法、装置、设备、介质和产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant