CN112687286A - 音频设备的降噪模型的调整方法和装置 - Google Patents

音频设备的降噪模型的调整方法和装置 Download PDF

Info

Publication number
CN112687286A
CN112687286A CN202011526226.7A CN202011526226A CN112687286A CN 112687286 A CN112687286 A CN 112687286A CN 202011526226 A CN202011526226 A CN 202011526226A CN 112687286 A CN112687286 A CN 112687286A
Authority
CN
China
Prior art keywords
audio
noise reduction
reduction model
tested
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011526226.7A
Other languages
English (en)
Inventor
刘松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Horizon Robotics Science and Technology Co Ltd
Original Assignee
Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Horizon Robotics Science and Technology Co Ltd filed Critical Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority to CN202011526226.7A priority Critical patent/CN112687286A/zh
Publication of CN112687286A publication Critical patent/CN112687286A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开实施例公开了一种音频设备的降噪模型的调整方法和装置,其中,该方法包括:获取由目标音频设备采集的待测试音频;确定待测试音频的特征信息;基于特征信息,调整音频降噪模型的参数;响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪。本公开实施例综合了待测试音频识别用户的使用环境、使用习惯等特征,针对不同的特征动态调整音频降噪模型的参数,实现了在保证降噪性能的基础上,对模型的运算量进行动态控制,从而降低了CPU的消耗并减少了功耗。

Description

音频设备的降噪模型的调整方法和装置
技术领域
本公开涉及计算机技术领域,尤其是一种音频设备的降噪模型的调整方法、装置、计算机可读存储介质及电子设备。
背景技术
回声消除是语音信号处理重要的环节,现有技术都集中于增强回声消除性能,获取更好的回声抑制效果,在产品化应用中,也不会针对不同的应用场景做区分处理。随着AI的推广,语音功能被赋予到更多场景,回声场景也从最初的单通道声源,变为立体声声源甚至是多声道声源,信号采集麦克风数量也从一个变为多个麦克风阵列,回声场景的处理复杂度成倍提升,带来的更多的运算资源要求以及更高的功耗。
当前的解决方案基本上是以优化为主,在协调回声消除性能和运算量的基础上,结合不同硬件平台的特性,提升算法的运算效率。或者是针对多个麦克风的使用场景,限制部分麦克风通道的数据。
发明内容
本公开的实施例提供了一种音频设备的降噪模型的调整方法、装置、计算机可读存储介质及电子设备。
本公开的实施例提供了一种音频设备的降噪模型的调整方法,该方法包括:获取由目标音频设备采集的待测试音频;确定待测试音频的特征信息;基于特征信息,调整音频降噪模型的参数;响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪。
根据本公开实施例的另一个方面,提供了一种音频设备的降噪模型的调整装置,该装置包括:获取模块,用于获取由目标音频设备采集的待测试音频;确定模块,用于确定待测试音频的特征信息;调整模块,用于基于特征信息,调整音频降噪模型的参数;降噪模块,用于响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述音频设备的降噪模型的调整方法。
根据本公开实施例的另一个方面,提供了一种电子设备,电子设备包括:处理器;用于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可执行指令,并执行指令以实现上述音频设备的降噪模型的调整方法。
基于本公开上述实施例提供的音频设备的降噪模型的调整方法、装置、计算机可读存储介质及电子设备,通过获取由目标音频设备采集的待测试音频,确定待测试音频的特征信息,然后基于特征信息,调整音频降噪模型的参数,最后响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪,从而综合了待测试音频识别用户的使用环境、使用习惯等特征,针对不同的特征动态调整音频降噪模型的参数,实现了在保证降噪性能的基础上,对模型的运算量进行动态控制,从而降低了CPU的消耗并减少了功耗。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的音频设备的降噪模型的调整方法的流程示意图。
图3是本公开另一示例性实施例提供的音频设备的降噪模型的调整方法的流程示意图。
图4是本公开又一示例性实施例提供的音频设备的降噪模型的调整方法的流程示意图。
图5是本公开另一示例性实施例提供的音频设备的降噪模型的调整方法的流程示意图。
图6是本公开一示例性实施例提供的音频设备的降噪模型的调整装置的结构示意图。
图7是本公开另一示例性实施例提供的音频设备的降噪模型的调整装置的结构示意图。
图8是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
现有的降噪方案存在的问题是,随着播放声源的增多,语音处理环境的复杂化,回声消除算法为了处理更多更复杂的场景,即使做了充分的优化,但由于运算量稳定且偏高,造成CPU消耗偏高,功耗增加,不利于语音识别系统长期的稳定性。
示例性系统
图1示出了可以应用本公开的实施例的音频设备的降噪模型的调整方法或音频设备的降噪模型的调整装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101,网络102和服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101通过网络102与服务器103交互,以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用,例如语音识别应用、音视频播放应用、搜索类应用、网页浏览器应用、即时通信工具等。
终端设备101可以是各种支持音频采集和播放的电子设备,包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。
服务器103可以是提供各种服务的服务器,例如对终端设备101上传的文本进行分类的后台文本服务器。后台文本服务器可以对接收到的文本进行处理,得到处理结果(例如类别信息)。
需要说明的是,本公开的实施例所提供的音频设备的降噪模型的调整方法可以由服务器103执行,也可以由终端设备101执行,相应地,音频设备的降噪模型的调整装置可以设置于服务器103中,也可以设置于终端设备101中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在处理的音频信号不需要从远程获取的情况下,上述系统架构可以不包括网络,只包括服务器或终端设备。
示例性方法
图2是本公开一示例性实施例提供的音频设备的降噪模型的调整方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上,如图2所示,该方法包括如下步骤:
步骤201,获取由目标音频设备采集的待测试音频。
在本实施例中,电子设备可以从本地或从远程获取由目标音频设备采集的待测试音频。其中,目标音频设备可以是用于与用户进行语音交互的设备,目标音频设备可以是各种类型的电子设备,例如智能音箱、智能家电等。需要说明的是,目标音频设备可以是上述用于执行该音频设备的降噪模型的调整方法的电子设备,也可以是与目标音频设备通信连接的其他电子设备。待测试音频可以是上述目标音频设备采集的各种类型的音频信号。例如,在目标音频设备开机时,会播放一段开机音频,用户接着发出语音,目标音频设备上的麦克风会采集一段声音作为待测试音频,该段声音包括上述开机音频、用户的语音和环境噪声等。待测试音频可以反映上述目标音频设备当前的使用状态。
步骤202,确定待测试音频的特征信息。
在本实施例中,电子设备可以确定待测试音频的特征信息。其中,特征信息用于表征待测试音频的各种特征,例如待测试音频中的语音段的能量、对待测试音频进行降噪后的能量、降噪前的能量等。通常,特征信息可以表征目标音频设备的使用状态,例如目标音频设备所处的噪声环境、使用目标音频设备的用户的音量大小,用户的使用习惯等。
电子设备可以利用各种方法确定待测试音频的特征信息,例如利用现有的回声消除算法,对待测试音频进行回声消除处理,从而根据回声消除前的能量和回声消除后的能量得到降噪量,由于降噪量即可作为一种待测试音频的特征信息,因此基于根据降噪量即可确定目标音频设备当前的使用环境或用户的语音特征等信息,从而可以相应调整降噪模型的参数。
步骤203,基于特征信息,调整音频降噪模型的参数。
在本实施例中,电子设备可以基于特征信息,调整音频降噪模型的参数。其中,音频降噪模型是用于对音频进行降噪处理的软件模块。通过调整参数,可以改变音频降噪模型的降噪能力和计算量。
例如,音频降噪模型可以是基于至少一种降噪算法建立的软件模块,通过调整音频降噪模型的参数,可以切换不同的降噪算法。作为示例,上述至少一种降噪算法可以包括但不限于以下至少一种:RLS(Recursive Least Squares,递归最小二乘)算法、NLMS(Normalized Least Mean Square,归一化最小均方)算法、FBLMS(块型最小均方差)算法、自适应卡尔曼滤波算法等。
在一个示例中,特征信息可以是从待测试音频中提取的用户语音信号的能量。电子设备可以根据语音信号的能量,选择相应的降噪算法。选择算法遵循的规则为:如果语音信号的能量越大,选择降噪性能(例如降噪量越高,表示降噪性能越高)较低但运算速度快的算法,如果语音信号的能量越小,选择性能较高但运算速度较慢的算法。其中,各个降噪算法的降噪性能和运算速度可以由电子设备分别利用各个降噪算法对待测试音频进行测试确定。上述规则可以通过建立表征语音信号的能量和相应的算法的对应关系的对应关系表来表征。
步骤204,响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪。
在本实施例中,电子设备可以响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪。
具体地,由于步骤203已经将音频降噪模型的参数调整至与用户的使用环境、使用习惯等方面匹配,因此,在后续的与用户进行语音交互的过程中,可以使用调整参数后的音频降噪模型对用户语音信号进行降噪。
需要说明的是,步骤201-步骤203可以是目标音频设备处于非工作状态或离线状态时执行的。例如,当目标音频设备处于非工作状态(例如待机状态)时,目标音频设备本身或与目标音频设备连接的电子设备(例如服务器)可以基于预先存储的待测试音频执行步骤201-步骤203。此外,步骤201-步骤203可以是目标音频设备处于工作状态时实时执行的。例如每间隔一段时间,服务器获取一段待测试音频并执行步骤201-步骤203。
本公开的上述实施例提供的方法,通过获取由目标音频设备采集的待测试音频,确定待测试音频的特征信息,然后基于特征信息,调整音频降噪模型的参数,最后响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪,从而综合了待测试音频识别用户的使用环境、使用习惯等特征,针对不同的特征动态调整音频降噪模型的参数,实现了在保证降噪性能的基础上,对模型的运算量进行动态控制,从而降低了CPU的消耗并减少了功耗。
在一些可选的实现方式中,音频降噪模型包括至少一种滤波器。作为示例,上述至少一种滤波器可以包括FIR(Finite Impulse Response,有限长单位冲激响应)滤波器、IIR(Infinite Impulse Response,无限脉冲响应数字滤波器)滤波器等。
基于此,上述步骤203可以如下执行:
首先,基于音频降噪模型的参数,将音频降噪模型当前使用的滤波器调整至与特征信息相对应的目标滤波器。
其中,不同的滤波器可以在不同的场景下进行降噪。例如,如果特征信息表示用户的使用环境复杂或背景噪声较大,可以选择计算量大、降噪性能高的滤波器。如果特征信息表示用户的使用环境比较安静或用户的声音较洪亮,可以选择计算量小、降噪性能较低的滤波器。
需要说明的是,为了降低系统的复杂性,音频降噪模型可以只包括一种滤波器,例如FIR滤波器,这种情况下,本步骤可以省略。
然后,将目标滤波器的阶数调整至与特征信息相对应的目标阶数。
其中,滤波器的阶数可以设置为多种,例如512阶、1024阶等。阶数越高,对于传递路径的频响拟合会更吻合,降噪精度也越高,但同时也会带来更大的运算量。阶数越低,模型的计算量越小,降噪性能越低。本实现方式通过调整音频降噪模型的参数,选择与特征信息相对应的滤波器和阶数,使调整音频降噪模型的计算量的方式更加简单高效,从而有助于在保证用户的实际使用需求的情况下,进一步提高音频降噪的效率。
在一些可选的实现方式中,步骤202可以按照如下至少一种方式执行:
方式一,如图3所示,步骤202包括如下步骤:
步骤20211,基于待测试音频,确定表征目标音频设备周边环境的复杂程度的环境信息。
步骤20212,基于环境信息确定待测试音频的特征信息。
其中,环境信息用于表征环境的复杂程度,例如,环境信息可以为等级数值,数值越大,表示环境越复杂。环境信息可以基于各种方法确定。作为示例,可以对待测视音频首先进行回声消除处理,将采集的来自目标音频设备播放的声音消除,保留下来的声音包括用户的语音和环境噪声,再将环境噪声提取出来,并确定环境噪声的能量,根据环境噪声的能量大小确定相应的环境复杂等级作为待测试音频的特征信息。环境噪声能量越大,表示目标音频设备的使用环境越复杂,环境复杂等级越高。
方式二,如图4所示,步骤202包括如下步骤:
步骤20221,从待测试音频中确定用户选择播放的音频。
步骤20222,确定选择播放的音频的类别。
步骤20223,基于类别确定待测试音频的特征信息。
其中,用户选择播放的音频的类别可以是各种类别,例如摇滚乐、轻音乐、新闻广播等,将确定的类别作为待测试音频的特征信息。
方式三,如图5所示,步骤202包括如下步骤:
步骤20231,从待测试音频中识别出用户语音信号。
步骤20232,基于用户语音信号确定用户特征信息。
步骤20233,基于用户特征信息确定待测试音频的特征信息。
具体地,可以采用现有的语音提取算法(例如语音端点检测算法)从待测试音频中提取出用户语音信号,并基于现有的语音识别方法,确定用户特征信息,用户特征信息可以表征用户的数量、性别、年龄段、对目标音频设备的使用习惯(例如使用时间)等特征。然后将用户特征信息作为待测试音频的特征信息。
本实现方式提供了多种确定待测试音频的特征信息的方法,可以将这些不同种类的特征信息作为后续调整音频降噪模型的参数的依据,从而可以提高调整模型参数的针对性,进而提高音频降噪的效率。
在一些可选的实现方式中,上述方式一中,可以按照如下步骤确定环境信息:
首先,利用音频降噪模型对待测试音频进行降噪,并确定降噪量。需要说明的是,此时的音频降噪模型是未经过参数调整的模型,降噪量的精度不做要求。
然后,基于降噪量,确定表征目标音频设备周边环境的复杂程度的环境信息。
其中,降噪量与环境的复杂程度的对应关系可以预先建立,例如通过在某个房间内设置不同的反射面,并确定降噪量与反射面的数量的关系,从而得到降噪量与环境的复杂程度的关系。通常,目标音频设备的使用环境越复杂(例如目标音频设备所在的空间的声音反射面越多,回声传播路径就越复杂,即表示环境越复杂),导致降噪量越低,从而可以根据降噪量的大小,确定对应的环境复杂程度。本实现方式通过确定降噪量用来表示目标音频设备周边的环境的复杂程度,可以快速、准确地使用定量数据表征目标音频设备的使用环境的复杂程度,从而有助于高效、准确地使音频降噪模型适应不同的环境。
在一些可选的实现方式中,如图3所示,在上述方式一的步骤20222之后,还可以执行如下步骤以调整音频降噪模型的参数:
步骤20213,将环境信息与预设的环境信息集合进行匹配。
其中,环境信息集合中的每个环境信息对应于音频降噪模型的参数。
步骤20214,利用与环境信息匹配的参数,调整音频降噪模型的参数。
具体地,环境信息集合中的环境信息与音频降噪模型的参数的对应关系是预先建立的。通常,如果环境信息表示的环境复杂程度越高,则音频降噪模型的计算量越大,相应的降噪能力越强。如果环境信息表示的环境复杂程度越低,则音频降噪模型的计算量越小,相应的降噪能力越弱。
作为示例,可以根据环境信息的不同,通过调整音频降噪模型的参数,切换相应的降噪算法,即环境信息表示的环境复杂程度越高,切换到降噪能力强但计算量大的算法。反之,环境信息表示的环境复杂程度越低,切换到降噪能力弱但计算量小的算法。或者,可以根据环境信息的不同,通过调整音频降噪模型的参数,改变滤波器的阶数,从而使滤波器的性能适应环境的复杂程度。
本实现方式实现了根据目标音频设备周边的环境的复杂程度,动态调整音频降噪模型的参数,使音频降噪模型在保证满足实际所需的降噪能力的基础上,自动调整音频降噪模型的计算量,从而有助于提高音频降噪的效率,降低音频降噪模型对CPU资源的耗费并降低功耗。
在一些可选的实现方式中,如图4所示,在上述方式二的步骤20223之后,还可以执行如下步骤以调整音频降噪模型的参数:
步骤20224,将类别与预设的类别集合进行匹配,其中,类别集合中的每个类别对应于音频降噪模型的参数。
步骤20225,利用与类别匹配的参数,调整音频降噪模型的参数。
具体地,类别集合中的类别与音频降噪模型的参数的对应关系是预先建立的。通常,不同类别的音频其播放的音量、频率、节奏是不同的。例如,摇滚乐等类型的音频,其平均能量较大,节奏较快,因此,产生的回声能量较大,需要调整音频降噪模型的参数以提高降噪性能。再例如,轻音乐、新闻广播等类型的音频,其平均能量较小,节奏较慢,因此,产生的回声能量较小,此时,只需较低性能的音频降噪模型即可满足语音交互的要求。
作为示例,可以根据音频的类别的不同,通过调整音频降噪模型的参数,切换相应的降噪算法,即当前播放的音频产生的回声能量较大时,切换到降噪能力强但计算量大的算法。反之,当前播放的音频产生的回声能量较小时,切换到降噪能力弱但计算量小的算法。或者,可以根据音频的类别的不同,通过调整音频降噪模型的参数,改变滤波器的阶数,从而使滤波器的性能适应当前播放的音频的类别。
本实现方式实现了根据用户选择播放的音频,动态调整音频降噪模型的参数,使音频降噪模型更加有针对性地基于用户当前的操作调整运算量,从而有助于提高音频降噪的效率,降低音频降噪模型对CPU资源的耗费并降低功耗。
在一些可选的实现方式中,如图5所示,在上述方式三的步骤20233之后,还可以执行如下步骤以调整音频降噪模型的参数:
步骤20234,将用户特征信息与预设的用户特征信息集合进行匹配。
其中,用户特征信息集合中的每个用户特征信息对应于音频降噪模型的参数。
步骤20235,利用与用户特征信息匹配的参数,调整音频降噪模型的参数。
具体地,用户特征信息集合中的用户特征信息与音频降噪模型的参数的对应关系是预先建立的。用户特征信息集合中的每个用户特征信息用于表征特定的用户群体,例如说话音量大的人、说话音量小的人、老年人、青年人,儿童等。针对不同的用户群体,可以将音频降噪模型调整至适应该群体。例如,用户特征信息表示用户是儿童时,由于儿童的语音能力较弱,因此,可以调整音频降噪模型的参数以提高降噪性能。再例如,用户特征信息表示用户的声音较洪亮时,只需较低性能的音频降噪模型即可满足语音交互的要求。
作为示例,可以根据用户特征信息的不同,通过调整音频降噪模型的参数,切换相应的降噪算法,即当前需要提高音频降噪模型的性能时,切换到降噪能力强但计算量大的算法。反之,当前需要降低音频降噪模型的性能时,切换到降噪能力弱但计算量小的算法。或者,可以根据用户特征信息的不同,通过调整音频降噪模型的参数,改变滤波器的阶数,从而使滤波器的性能适应当前用户的特征。
本实现方式实现了根据用户特征信息,动态调整音频降噪模型的参数,使音频降噪模型更加有针对性地基于用户的特征调整运算量,从而有助于提高音频降噪的效率,降低音频降噪模型对CPU资源的耗费并降低功耗。
需要说明的是,由于上述方式一-方式三中的至少一项可以用来确定待测试音频的特征信息,因此,在调整模型的参数时,可以应用图3-图4所示的三个实施例中的至少一个来调整模型的参数。例如,方式一和方式二相结合时,可以先执行图3对应实施例(或图4对应实施例)进行参数调整,然后调整参数后的模型的基础上,执行图4对应实施例(或图3对应实施例),从而完成模型的参数调整。
示例性装置
图6是本公开一示例性实施例提供的音频设备的降噪模型的调整装置的结构示意图。本实施例可应用在电子设备上,如图6所示,音频设备的降噪模型的调整装置包括:获取模块601,用于获取由目标音频设备采集的待测试音频;确定模块602,用于确定待测试音频的特征信息;调整模块603,用于基于特征信息,调整音频降噪模型的参数;降噪模块604,用于响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪。
在本实施例中,获取模块601可以从本地或从远程获取由目标音频设备采集的待测试音频。其中,目标音频设备可以是用于与用户进行语音交互的设备,目标音频设备可以是各种类型的电子设备,例如智能音箱、智能家电等。待测试音频可以是上述目标音频设备采集的各种类型的音频信号。例如,在目标音频设备开机时,会播放一段开机音频,用户接着发出语音,目标音频设备上的麦克风会采集一段声音作为待测试音频,该段声音包括上述开机音频、用户的语音和环境噪声等。待测试音频可以反映上述目标音频设备当前的使用状态。
在本实施例中,确定模块602可以确定待测试音频的特征信息。其中,特征信息用于表征待测试音频的各种特征,例如待测试音频中的语音段的能量、对待测试音频进行降噪后的能量、降噪前的能量等。通常,特征信息可以表征目标音频设备的使用状态,例如目标音频设备所处的噪声环境、使用目标音频设备的用户的音量大小,用户的使用习惯等。
确定模块602可以利用各种方法确定待测试音频的特征信息,例如利用现有的回声消除算法,对待测试音频进行回声消除处理,从而根据回声消除前的能量和回声消除后的能量得到降噪量。
在本实施例中,调整模块603可以基于特征信息,调整音频降噪模型的参数。其中,音频降噪模型是用于对音频进行降噪处理的软件模块。通过调整参数,可以改变音频降噪模型的降噪能力和计算量。
例如,音频降噪模型可以是基于至少一种降噪算法建立的软件模块,通过调整音频降噪模型的参数,可以切换不同的降噪算法。作为示例,上述至少一种降噪算法可以包括但不限于以下至少一种:RLS(Recursive Least Squares,递归最小二乘)算法、NLMS(Normalized Least Mean Square,归一化最小均方)算法、FBLMS(块型最小均方差)算法、自适应卡尔曼滤波算法等。
在一个示例中,特征信息可以是从待测试音频中提取的用户语音信号的能量。调整模块603可以根据语音信号的能量,选择相应的降噪算法。选择算法遵循的规则为:如果语音信号的能量越大,选择降噪性能(例如降噪量越高,表示降噪性能越高)较低但运算速度快的算法,如果语音信号的能量越小,选择性能较高但运算速度较慢的算法。其中,各个降噪算法的降噪性能和运算速度可以由该装置分别利用各个降噪算法对待测试音频进行测试确定。上述规则可以通过建立表征语音信号的能量和相应的算法的对应关系的对应关系表来表征。
在本实施例中,降噪模块604可以响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪。
具体地,由于调整模块603已经将音频降噪模型的参数调整至与用户的使用环境、使用习惯等方面匹配,因此,在后续的与用户进行语音交互的过程中,可以使用调整参数后的音频降噪模型对用户语音信号进行降噪。
参照图7,图7是本公开另一示例性实施例提供的音频设备的降噪模型的调整装置的结构示意图。
在一些可选的实现方式中,确定模块602可以包括:第一确定单元6021,用于基于待测试音频,确定表征目标音频设备周边环境的复杂程度的环境信息;基于环境信息确定待测试音频的特征信息;和/或,确定模块602可以包括:第二确定单元6022,用于从待测试音频中确定用户选择播放的音频;确定选择播放的音频的类别;基于类别确定待测试音频的特征信息;和/或,确定模块602可以包括:第三确定单元6023,用于从待测试音频中识别出用户语音信号;基于用户语音信号确定用户特征信息;基于用户特征信息确定待测试音频的特征信息。
在一些可选的实现方式中,第一确定单元6021可以包括:降噪子单元60211,用于利用音频降噪模型对待测试音频进行降噪,并确定降噪量;确定子单元60212,用于基于降噪量,确定表征目标音频设备周边环境的复杂程度的环境信息。
在一些可选的实现方式中,调整模块603可以包括:第一匹配单元6031,用于将环境信息与预设的环境信息集合进行匹配,其中,环境信息集合中的每个环境信息对应于音频降噪模型的参数;第一调整单元6032,用于利用与环境信息匹配的参数,调整音频降噪模型的参数。
在一些可选的实现方式中,调整模块603可以包括:第二匹配单元6033,用于将类别与预设的类别集合进行匹配,其中,类别集合中的每个类别对应于音频降噪模型的参数;第二调整单元6034,用于利用与类别匹配的参数,调整音频降噪模型的参数。
在一些可选的实现方式中,调整模块603可以包括:第三匹配单元6035,用于将用户特征信息与预设的用户特征信息集合进行匹配,其中,用户特征信息集合中的每个用户特征信息对应于音频降噪模型的参数;第三调整单元6036,用于利用与用户特征信息匹配的参数,调整音频降噪模型的参数。
在一些可选的实现方式中,音频降噪模型可以包括至少一种滤波器;以及调整模块603可以包括:第四调整单元6037,用于基于音频降噪模型的参数,将音频降噪模型当前使用的滤波器调整至与特征信息相对应的目标滤波器;第五调整单元6038,用于将目标滤波器的阶数调整至与特征信息相对应的目标阶数。
本公开上述实施例提供的音频设备的降噪模型的调整装置,通过获取由目标音频设备采集的待测试音频,确定待测试音频的特征信息,然后基于特征信息,调整音频降噪模型的参数,最后响应于接收到目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对用户语音信号进行降噪,从而综合了待测试音频识别用户的使用环境、使用习惯等特征,针对不同的特征动态调整音频降噪模型的参数,实现了在保证降噪性能的基础上,对模型的运算量进行动态控制,从而降低了CPU的消耗并减少了功耗。
示例性电子设备
下面,参考图8来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备,该单机设备可以与终端设备101和服务器103进行通信,以从它们接收所采集到的输入信号。
图8图示了根据本公开实施例的电子设备的框图。
如图8所示,电子设备800包括一个或多个处理器801和存储器802。
处理器801可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备800中的其他组件以执行期望的功能。
存储器802可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器801可以运行程序指令,以实现上文的本公开的各个实施例的音频设备的降噪模型的调整方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如待测试音频等各种内容。
在一个示例中,电子设备800还可以包括:输入装置803和输出装置804,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是终端设备101或服务器103时,该输入装置803可以是鼠标、键盘、麦克风等设备,用于输入待测试音频。在该电子设备是单机设备时,该输入装置803可以是通信网络连接器,用于从终端设备101和服务器103接收所输入的待测试音频。
该输出装置804可以向外部输出各种信息,包括对用户语音信息进行降噪后的信号。该输出设备804可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图8中仅示出了该电子设备800中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备800还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频设备的降噪模型的调整方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的音频设备的降噪模型的调整方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种音频设备的降噪模型的调整方法,包括:
获取由目标音频设备采集的待测试音频;
确定所述待测试音频的特征信息;
基于所述特征信息,调整音频降噪模型的参数;
响应于接收到所述目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对所述用户语音信号进行降噪。
2.根据权利要求1所述的方法,其中,所述确定所述待测试音频的特征信息,包括:
基于所述待测试音频,确定表征所述目标音频设备周边环境的复杂程度的环境信息;基于所述环境信息确定所述待测试音频的特征信息;和/或,
所述确定所述待测试音频的特征信息,包括:
从所述待测试音频中确定用户选择播放的音频;确定所述选择播放的音频的类别;基于所述类别确定所述待测试音频的特征信息;和/或,
所述确定所述待测试音频的特征信息,包括:
从所述待测试音频中识别出用户语音信号;基于所述用户语音信号确定用户特征信息;基于所述用户特征信息确定所述待测试音频的特征信息。
3.根据权利要求2所述的方法,其中,所述基于所述待测试音频,确定表征所述目标音频设备周边环境的复杂程度的环境信息,包括:
利用所述音频降噪模型对所述待测试音频进行降噪,并确定降噪量;
基于所述降噪量,确定表征所述目标音频设备周边环境的复杂程度的环境信息。
4.根据权利要求2所述的方法,其中,所述基于所述特征信息,调整音频降噪模型的参数,包括:
将所述环境信息与预设的环境信息集合进行匹配,其中,所述环境信息集合中的每个环境信息对应于所述音频降噪模型的参数;
利用与所述环境信息匹配的参数,调整所述音频降噪模型的参数。
5.根据权利要求2所述的方法,其中,所述基于所述特征信息,调整音频降噪模型的参数,包括:
将所述类别与预设的类别集合进行匹配,其中,所述类别集合中的每个类别对应于所述音频降噪模型的参数;
利用与所述类别匹配的参数,调整所述音频降噪模型的参数。
6.根据权利要求2所述的方法,其中,所述基于所述特征信息,调整音频降噪模型的参数,包括:
将所述用户特征信息与预设的用户特征信息集合进行匹配,其中,所述用户特征信息集合中的每个用户特征信息对应于所述音频降噪模型的参数;
利用与所述用户特征信息匹配的参数,调整所述音频降噪模型的参数。
7.根据权利要求1-6之一所述的方法,其中,所述音频降噪模型包括至少一种滤波器;以及
所述基于所述特征信息,调整音频降噪模型的参数,包括:
基于所述音频降噪模型的参数,将所述音频降噪模型当前使用的滤波器调整至与所述特征信息相对应的目标滤波器;
将所述目标滤波器的阶数调整至与所述特征信息相对应的目标阶数。
8.一种音频设备的降噪模型的调整装置,包括:
获取模块,用于获取由目标音频设备采集的待测试音频;
确定模块,用于确定所述待测试音频的特征信息;
调整模块,用于基于所述特征信息,调整音频降噪模型的参数;
降噪模块,用于响应于接收到所述目标音频设备采集的用户语音信号,利用调整参数后的音频降噪模型,对所述用户语音信号进行降噪。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7任一所述的方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-7任一所述的方法。
CN202011526226.7A 2020-12-22 2020-12-22 音频设备的降噪模型的调整方法和装置 Pending CN112687286A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011526226.7A CN112687286A (zh) 2020-12-22 2020-12-22 音频设备的降噪模型的调整方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011526226.7A CN112687286A (zh) 2020-12-22 2020-12-22 音频设备的降噪模型的调整方法和装置

Publications (1)

Publication Number Publication Date
CN112687286A true CN112687286A (zh) 2021-04-20

Family

ID=75450432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011526226.7A Pending CN112687286A (zh) 2020-12-22 2020-12-22 音频设备的降噪模型的调整方法和装置

Country Status (1)

Country Link
CN (1) CN112687286A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113115195A (zh) * 2021-04-22 2021-07-13 东莞市声强电子有限公司 主动降噪耳机自动生产测试方法及装置
CN113421577A (zh) * 2021-05-10 2021-09-21 北京达佳互联信息技术有限公司 一种视频配音方法、装置、电子设备和存储介质
CN113556654A (zh) * 2021-07-16 2021-10-26 RealMe重庆移动通信有限公司 音频数据处理方法和装置、电子设备
CN114666706A (zh) * 2021-11-30 2022-06-24 北京达佳互联信息技术有限公司 音效增强方法、装置及系统
CN116208700A (zh) * 2023-04-25 2023-06-02 深圳市华卓智能科技有限公司 一种手机与音频设备通信的控制方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110996215A (zh) * 2020-02-26 2020-04-10 恒玄科技(北京)有限公司 确定耳机降噪参数的方法、装置以及计算机可读介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110996215A (zh) * 2020-02-26 2020-04-10 恒玄科技(北京)有限公司 确定耳机降噪参数的方法、装置以及计算机可读介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113115195A (zh) * 2021-04-22 2021-07-13 东莞市声强电子有限公司 主动降噪耳机自动生产测试方法及装置
CN113115195B (zh) * 2021-04-22 2022-04-29 东莞市声强电子有限公司 主动降噪耳机自动生产测试方法及装置
CN113421577A (zh) * 2021-05-10 2021-09-21 北京达佳互联信息技术有限公司 一种视频配音方法、装置、电子设备和存储介质
CN113556654A (zh) * 2021-07-16 2021-10-26 RealMe重庆移动通信有限公司 音频数据处理方法和装置、电子设备
WO2023284438A1 (zh) * 2021-07-16 2023-01-19 RealMe重庆移动通信有限公司 音频数据处理方法和装置、电子设备
CN114666706A (zh) * 2021-11-30 2022-06-24 北京达佳互联信息技术有限公司 音效增强方法、装置及系统
CN114666706B (zh) * 2021-11-30 2024-05-14 北京达佳互联信息技术有限公司 音效增强方法、装置及系统
CN116208700A (zh) * 2023-04-25 2023-06-02 深圳市华卓智能科技有限公司 一种手机与音频设备通信的控制方法和系统

Similar Documents

Publication Publication Date Title
CN112687286A (zh) 音频设备的降噪模型的调整方法和装置
CN109844856B (zh) 从单个设备访问多个虚拟个人助理(vpa)
US11188289B2 (en) Identification of preferred communication devices according to a preference rule dependent on a trigger phrase spoken within a selected time from other command data
CN107112014B (zh) 在基于语音的系统中的应用焦点
JP2020016875A (ja) 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム
CN108470034B (zh) 一种智能设备服务提供方法及系统
US10705789B2 (en) Dynamic volume adjustment for virtual assistants
KR20190024762A (ko) 음악추천방법, 장치, 디바이스 및 저장매체
US20190355354A1 (en) Method, apparatus and system for speech interaction
US9799329B1 (en) Removing recurring environmental sounds
CN111916068B (zh) 音频检测方法和装置
US11200899B2 (en) Voice processing method, apparatus and device
JP2020003774A (ja) 音声を処理する方法及び装置
US8868419B2 (en) Generalizing text content summary from speech content
CN114093358A (zh) 语音识别方法和装置、电子设备和存储介质
CN112767916A (zh) 智能语音设备的语音交互方法、装置、设备、介质及产品
KR102607120B1 (ko) 소리 데이터 노이즈 캔슬링 방법, 장치, 전자 기기, 컴퓨터 판독 가능 저장 매체 및 컴퓨터 프로그램
JP2019036174A (ja) 制御装置、入出力装置、制御方法、および制御プログラム
CN113889091A (zh) 语音识别方法、装置、计算机可读存储介质及电子设备
CN113157240A (zh) 语音处理方法、装置、设备、存储介质及计算机程序产品
CN112259076A (zh) 语音交互方法、装置、电子设备及计算机可读存储介质
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
KR102204488B1 (ko) 통신 장치
CN112307161B (zh) 用于播放音频的方法和装置
CN113808611A (zh) 音频播放方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination