CN112634932B - 音频信号处理方法、装置、服务器及相关设备 - Google Patents
音频信号处理方法、装置、服务器及相关设备 Download PDFInfo
- Publication number
- CN112634932B CN112634932B CN202110255083.9A CN202110255083A CN112634932B CN 112634932 B CN112634932 B CN 112634932B CN 202110255083 A CN202110255083 A CN 202110255083A CN 112634932 B CN112634932 B CN 112634932B
- Authority
- CN
- China
- Prior art keywords
- audio signal
- information
- server
- analysis model
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 290
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 179
- 238000004458 analytical method Methods 0.000 claims abstract description 136
- 230000009467 reduction Effects 0.000 claims abstract description 87
- 238000012549 training Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 13
- 230000003993 interaction Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种音频信号处理方法、装置、服务器及相关设备,该方法包括:音频信号处理装置采集第一音频信号,向服务器发送第一样本信息,第一样本信息包括第一音频信号和用户标识,服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练样本集;服务器采用训练样本集进行训练得到噪音分析模型的更新信息;音频信号处理装置采用更新信息对噪音分析模型进行更新以对采集的第二音频信号进行主动降噪。通过上述实时交互,服务器侧实现实时的噪音分析模型更新与反馈,音频信号处理装置根据更新后的噪音分析模型进行主动降噪处理,改善了语音降噪体验效果,另通过用户标识可确定出匹配该用户的噪音分析模型,更加有针对性。
Description
技术领域
本发明涉及音频信号处理领域,尤其涉及一种音频信号处理方法、装置、服务器及相关设备。
背景技术
现实生活中用户之间经常性的进行语音通信。如果发送方处于嘈杂的环境中,发送给接收方的语音信号会带有噪音信号,如果噪音比较强烈的话,接收方无法听清发送方的语音信号。因此,需要对用户所录入的语音音频进行主动降噪处理。在现有技术中,在用户终端上的实现方式如下:一带有语音降噪功能的用户终端通过麦克风拾取到带噪音的语音后,通过降噪技术对信号进行处理,获取较干净的语音信号,然后通过通信网络传输至接收方的用户终端中,进而被接收方的用户终端用户听到。然而目前语音降噪方法比较复杂,对于需要实时数据处理的通话应用,复杂的算法不太实用,那么在降低运算复杂性的同时就会影响最终降噪的效果,使得用户得不到高质量语音通话体验。
发明内容
本发明的主要目的在于提供一种音频信号处理方法、装置、服务器及相关设备,通过音频信号处理装置与服务器的实时交互可,服务器侧实现实时的噪音分析模型更新与反馈,音频信号处理装置根据更新后的噪音分析模型进行主动降噪处理,改善了用户的语音降噪体验效果,另通过用户标识可确定出匹配该用户的噪音分析模型,更加有针对性。
为实现上述目的,本发明第一方面提供一种音频信号处理方法,所述方法包括:
音频信号处理装置采集第一音频信号;
所述音频信号处理装置向服务器发送第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户,所述服务器根据所述第一样本信息确定与所述用户标识对应的噪音分析模型的更新信息;
所述音频信号处理装置接收所述服务器发送的更新信息;
所述音频信号处理装置根据所述更新信息对所述与所述用户标识对应的噪音分析模型进行更新,更新后的噪音分析模型用于对采集的第二音频信号进行主动降噪。
可选地,所述第一样本信息还包括目标场景信息;所述与所述用户标识对应的噪音分析模型为与所述用户标识对应且与所述目标场景信息对应的噪音分析模型;
所述音频信号处理装置向服务器发送第一样本信息之前,还包括:
所述音频信号处理装置接收用户选择的目标场景信息;或者,
所述音频信号处理装置将所述第一音频信号与场景信息对应的预存音频信号进行匹配,将相似度最高的预存音频信号对应的场景信息确定为目标场景信息。
可选地,所述方法还包括:
接收用户从多个降噪等级中选择设定的目标降噪等级;
所述音频信号处理装置根据所述更新信息对所述与所述用户标识对应的噪音分析模型进行更新,包括:
所述音频信号处理装置根据所述更新信息和所述目标降噪等级对所述与所述用户标识对应的噪音分析模型进行更新。
可选地,所述音频信号处理装置向服务器发送第一样本信息之前,还包括:
所述音频信号处理装置判断所述第一音频信号是否包含所述用户标识所指示的用户的音频信号;
若否,则所述音频信号处理装置向服务器发送所述第一样本信息。
可选地,所述方法还包括:若所述第一音频信号包含所述用户标识所指示的用户的音频信号,则通过存储的与所述用户标识对应的噪音分析模型对所述第一音频信号进行主动降噪处理,输出主动降噪处理后的音频信号。
为实现上述目的,本发明第二方面提供一种音频信号处理方法,包括:
服务器接收音频信号处理装置发送的第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户;
所述服务器查找与所述用户标识对应的噪音分析模型,并将所述第一音频信号添加至用于训练所述噪音分析模型的训练样本集;
所述服务器采用所述训练样本集对所述噪音分析模型进行训练,得到更新信息;
所述服务器将所述更新信息发送给所述音频信号处理装置,以使所述音频信号处理装置对与所述用户标识对应的噪音分析模型进行更新。
可选地,所述第一样本信息还包括目标场景信息;所述与所述用户标识对应的噪音分析模型为与所述用户标识对应且与所述目标场景信息对应的噪音分析模型。
为实现上述目的,本发明第三方面提供一种音频信号处理装置,所述音频信号处理装置包括:
采集模块,用于采集第一音频信号;
发送模块,用于向服务器发送第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户,所述服务器根据所述第一样本信息确定与所述用户标识对应的噪音分析模型的更新信息;
接收模块,用于接收所述服务器发送的更新信息;
处理模块,用于根据所述更新信息对所述与所述用户标识对应的噪音分析模型进行更新,更新后的噪音分析模型用于对采集的第二音频信号进行主动降噪。
为实现上述目的,本发明第四方面提供一种服务器,服务器包括:
接收模块,用于接收音频信号处理装置发送的第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户;
处理模块,用于查找与所述用户标识对应的噪音分析模型,并所述第一音频信号添加至用于训练所述噪音分析模型的训练样本集;
所述处理模块,用于采用所述训练样本集对所述噪音分析模型进行训练,得到更新信息;
发送模块,用于将所述更新信息发送给所述音频信号处理装置,以使所述音频信号处理装置对与所述用户标识对应的噪音分析模型进行更新。
为实现上述目的,本发明第五方面提供一种音频信号处理系统,该系统包括如第一方面所述的音频信号处理装置,及如第二方面所述的服务器。
为实现上述目的,本发明第六方面提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如第一方面所述的方法中的各个步骤,或者执行如第二方面所述的方法中的各个步骤。
为实现上述目的,本发明第七方面提供一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,使得所述处理器执行如第一方面所述的方法中的各个步骤,或者执行如第二方面所述的方法中的各个步骤。
采用本发明实施例,具有如下有益效果:
本发明提供一种音频信号处理方法,音频信号处理装置采集第一音频信号,向服务器发送第一样本信息,第一样本信息包括第一音频信号和用户标识,服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练样本集;服务器采用训练样本集进行训练得到噪音分析模型的更新信息;音频信号处理装置采用更新信息对噪音分析模型进行更新以对采集的第二音频信号进行主动降噪。通过上述实时交互,服务器侧实现实时的噪音分析模型更新与反馈,音频信号处理装置根据更新后的噪音分析模型进行主动降噪处理,改善了用户的语音降噪体验效果,另通过用户标识可确定出匹配该用户的噪音分析模型,更加有针对性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本发明实施例中音频信号处理系统的框架示意图;
图2为本发明实施例中音频信号处理方法的一交互流程示意图;
图3为本发明实施例中音频信号处理方法的另一交互流程示意图;
图4为本发明实施例中音频信号处理方法的一流程示意图;
图5为本发明实施例中音频信号处理方法的另一流程示意图;
图6为本发明实施例中音频信号处理装置的结构框图;
图7为本发明实施例中服务器的结构框图;
图8为本发明实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解本发明实施例中的技术方案,请参阅图1,为本发明实施例中音频信号处理系统的框架示意图,该系统包括:服务器和音频信号处理装置。其中,上述的音频信号处理装置是耳机,例如是包耳式或耳塞式耳机,这样可采用本申请的音频信号处理方法实现主动降噪。可选的,上述的音频信号处理装置也可以是其他(例如智能手机、平板等)具备音频采集、扬声与通信能力的设备。
其中,音频信号处理装置可以通过移动数据网络(5G网络)、WIFI网络等无线通讯方式与服务器进行通信。本申请的音频信号处理装置(比如,耳机)可通过用户终端(比如,手机)与服务器通信,具体是音频信号处理装置与用户终端通过近距离通信(蓝牙连接)方式建立通信连接,用户终端通过5G网络或WIFI网络与服务器建立连接;或者音频信号处理装置(比如,耳机、智能手机、平板等)可以直接与服务器通信(比如,通过5G网络、WIFI网络)。本申请对音频信号处理装置与服务器的具体通信方式不做限定。
下面将详细描述本发明实施例中的技术方案,请参阅图2,为本发明实施例中一种音频信号处理方法的交互流程示意图,包括:
201、音频信号处理装置采集第一音频信号。
具体的,音频信号处理装置可以在满足一定条件下开始采集第一音频信号,比如,应用于通话场景,在通话的过程中,按照预设时间间隔采集第一音频信号以及执行后续步骤的处理以实现主动降噪。又如,应用于音频信号处理场景,在用户触发主动降噪处理后,按照用户的开始采集指令与停止采集指令实现采集第一音频信号,比如用户为了实现在某个场景下主动降噪,提前先触发采集该场景的第一音频信号,用于后续的主动降噪处理,为了更好的训练噪音分析模型,用户可以选择采集单一噪音的音频信号;在有多种类别噪音的场景中,用户可以分别采集尽可能单一噪音的音频信号。
本申请各实施例涉及的主动降噪处理是通过产生与噪音信号幅值相同、相位相反的信号来实现降噪的。
202、音频信号处理装置向服务器发送第一样本信息。
其中,第一样本信息包括第一音频信号和用户标识,用户标识用于唯一识别当前使用音频信号处理装置的用户。可行的方案中,在音频信号处理装置与服务器直接通信的场景中,用户标识可以在用户启用该音频信号处理装置时确定,用户标识可以包括但不限定于指纹、声纹、登录账户等;在音频信号处理装置通过用户终端与服务器通信的场景中,用户标识可以是用户终端中与服务器进行通信所使用的用户信息,以使服务器可以唯一区分该用户。
相应的,服务器接收音频信号处理装置发送的第一样本信息。
203、服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练噪音分析模型的训练样本集。
204、服务器根据采用训练样本集对噪音分析模型进行训练,得到更新信息。
对于步骤203与步骤204,服务器中存储了多个噪音分析模型,每个噪音分析模型唯一对应一用户标识。服务器查找到该第一样本信息中用户标识对应的噪音分析模型,以及获取该噪音分析模型对应的训练样本集,将该第一音频信号添加至训练样本集中。使用最新的训练样本集对该噪音分析模型进行训练,得到更新信息。
其中,该噪音分析模型能够识别出所输入的音频信号中噪音信号并对该噪音信号进行处理,输出去噪后的音频信号。噪音分析模型最初是通过主动学习与训练获取到的,主动学习通过从未标注样本集中挑选部分样本,标注后将标注样本增加到训练数据集给“学习模块”进行训练。当学习模块满足终止条件后停止,否则不断重复获得更多的标注样本进行训练。在训练完成后,该噪音分析模型可以在线接收新的样本、更新模型。上述通过第一音频信号对噪音分析模型进行训练后,得到更新后的噪音分析模型,一种可能的实现方案中,服务器可以将该更新后的噪音分析模型作为更新信息发送给音频信号处理装置;另一种可能的实现方案中,服务器可以确定出有更新的模型参数,将该更新的模型参数作为更新信息发送给音频信号处理装置。以使音频信号处理装置根据上述更新信息进行更新。
可选的,步骤202中音频信号处理装置发送的第一样本信息还包括目标场景信息;上述与用户标识对应的噪音分析模型为与用户标识对应且与目标场景信息对应的噪音分析模型。服务器存储了与多个不同场景分别对应的噪音分析模型,这样在接收到第一样本信息后,可对相对应的噪音分析模型进行更新,使得音频信号处理装置采用更新后的噪音分析模型实现不同场景下的不同主动降噪处理,更加有针对性,提交了主动降噪水平。
具体是通过以下两种方式确定目标场景信息:
一种方式是:在音频信号处理装置向服务器发送第一样本信息之前,音频信号处理装置接收用户选择的目标场景信息。具体是,提供了多种场景供用户选择,用户从中选择最符合当前场景的目标场景信息。
另一种方式是:音频信号处理装置中有多个预存音频信号及与每个预存音频信号对应的场景信息,通过将第一音频信号与场景信息对应的预存音频信号进行匹配,将相似度最高的预存音频信号对应的场景信息确定为目标场景信息。其中,相似度可以通过音频的频率的相似度、音色的相似度、幅度的相似度等来计算。
上述两种方式中的场景信息可包括但不限于商场、火车站、图书馆、餐厅、飞机场、海边、室外、室内。音频信号处理装置常常会被用户在各种环境下使用,在安静的环境下,音频信号处理装置能够传送清晰的语音信号,在各种嘈杂的环境下使用,环境噪音就会随语音信号一起传送,影响音频信号的输出效果。而不同的场景中,环境噪音也是各不相同的,先比现有技术的主动降噪方案都是基于预先设定的主动降噪处理流程,本申请实施例中可实现对不同场景下的音频主动降噪,更加有针对性,提交了主动降噪水平。
205、服务器将更新信息发送给音频信号处理装置。
相应的,音频信号处理装置接收服务器发送的更新信息。
206、音频信号处理装置根据更新信息对与用户标识对应的噪音分析模型进行更新,更新后的噪音分析模型用于对采集的第二音频信号进行主动降噪。
具体的,音频信号处理装置根据上述服务器发送更新信息对与用户标识对应的噪音分析模型进行更新。图3所示实施例中,噪音分析模型的输入特征为一个;待降噪的音频信号,输出为一个:降噪后的音频信号。在更新噪音分析模型之后,音频信号处理装置采集第二音频信号,将第二音频信号输入更新后的噪音分析模型,更新后的噪音分析模型输出主动降噪后的音频信号。
在本发明实施例中,音频信号处理装置采集第一音频信号,向服务器发送第一样本信息,第一样本信息包括第一音频信号和用户标识,服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练样本集;服务器采用训练样本集进行训练得到噪音分析模型的更新信息;音频信号处理装置采用更新信息对噪音分析模型进行更新以对采集的第二音频信号进行主动降噪。通过上述实时交互,服务器侧实现实时的噪音分析模型更新与反馈,音频信号处理装置根据更新后的噪音分析模型进行主动降噪处理,改善了用户的语音降噪体验效果,另通过用户标识可确定出匹配该用户的噪音分析模型,更加有针对性。
进一步地,请参阅图3,为本发明实施例中音频信号处理方法的另一交互流程示意图,包括:
301、音频信号处理装置接收用户从多个降噪等级中选择设定的目标降噪等级。
具体的,音频信号处理装置接收用户选择的目标降噪等级。具体是,在用户请求主动降噪或者其他触发主动降噪的场景中,提供了多种降噪等级供用户选择,用户根据想要降噪的程度从中选择目标降噪等级。用户可以通过在音频信号处理装置上的按键/触摸屏点击操作/长按操作等实现选择目标降噪等级;或者,用户可以在与音频信号处理装置绑定的用户终端中选择目标降噪等级。这样音频信号处理装置可以根据用户的不同降噪需求实现主动降噪处理。
需要说明的是,本申请中与用户终端有无绑定关系的音频信号处理装置均可以实现图1实施例中与服务器的直接通信,或者通过用户终端与服务器通信,本申请对此不做限定。
可选的,在用户输入目标场景信息的实施例中,用户可以一次性设定目标降噪等级与目标场景信息,以减少用户的操作次数,也可以满足不同用户的需求。这样在不同的场景中,音频信号处理装置可以根据用户的不同降噪需求实现主动降噪处理。
另一种可选的方案中,与步骤301的并列方案是,预设场景信息与降噪等级的映射关系表,音频信号处理装置与服务器均可通过用户选择目标场景信息来确定与之对应的目标降噪等级,这样更加方便使用,减少了用户的选择次数,但相比可以设定目标降噪等级的场景,该方式下场景对应的降噪等级设定比较单一。
302、音频信号处理装置采集第一音频信号。
具体的,音频信号处理装置可以在满足一定条件下开始采集第一音频信号,比如,应用于通话场景,在通话的过程中,按照预设时间间隔采集第一音频信号以及执行后续步骤的处理以实现主动降噪。又如,应用于音频信号处理场景,在用户触发主动降噪处理后,按照用户的开始采集指令与停止采集指令实现采集第一音频信号,比如用户为了实现在某个场景下主动降噪,提前先触发采集该场景的第一音频信号,用于后续的主动降噪处理。
可选的,音频信号处理装置判断第一音频信号是否包含用户标识所指示的用户的音频信号。具体:可以通过语音活动检测(Voice Activity Detection,VAD)来确定是否包含有语音信号,若包含有语音信号,可进一步通过预存的该用户的音频信号进行声纹校验,若校验一致,则表示包含用户标识所指示的用户的音频信号;若校验不一致,则表示不包含用户标识所指示的用户的音频信号。
若不包含用户标识所指示的用户的音频信号,表示该第一音频信号为噪音信号,则音频信号处理装置执行步骤303,能够将噪音信号作为样本对噪音分析模型进行训练,更加贴近当前的降噪场景,所训练的模型的降噪效果更佳。
若包含用户标识所指示的用户的音频信号,表示该第一音频信号为需要降噪的信号,虽然目前还没有更新噪音分析模型,但可以通过存储的与用户标识对应的噪音分析模型对第一音频信号进行主动降噪处理,进一步输出主动降噪处理后的音频信号。
303、音频信号处理装置向服务器发送第一样本信息。
304、服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练噪音分析模型的训练样本集。
305、服务器根据采用训练样本集对噪音分析模型进行训练,得到更新信息。
306、服务器将更新信息发送给音频信号处理装置。
相应的,音频信号处理装置接收服务器发送的更新信息。
其中,步骤303至步骤306与上述图2所示实施例中的步骤202至步骤205相一致,具体可参考上述介绍,在此不再赘述。
307、音频信号处理装置根据更新信息和目标降噪等级对与用户标识对应的噪音分析模型进行更新。
具体的,音频信号处理装置根据上述服务器发送更新信息对与用户标识对应的噪音分析模型进行更新。图3所示实施例中,噪音分析模型的输入特征为两个;待降噪的音频信号,降噪等级;输出为一个:降噪后的音频信号。在服务器侧训练噪音分析模型默认输入为最大程度的降噪等级。在更新噪音分析模型之后,音频信号处理装置采集第二音频信号,将第二音频信号与目标降噪等级输入更新后的噪音分析模型,更新后的噪音分析模型输出主动降噪后的音频信号。
在本发明实施例中,音频信号处理装置接收用户设定的目标降噪等级,并采集第一音频信号,向服务器发送第一样本信息,第一样本信息包括第一音频信号和用户标识,服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练样本集;服务器采用训练样本集进行训练得到噪音分析模型的更新信息;音频信号处理装置采用更新信息和目标降噪等级对噪音分析模型进行更新以对采集的第二音频信号进行主动降噪。通过上述实时交互,服务器侧实现实时的噪音分析模型更新与反馈,音频信号处理装置根据更新后的噪音分析模型以及用户的不同降噪需求实现主动降噪处理,改善了用户的语音降噪体验效果,另通过用户标识可确定出匹配该用户的噪音分析模型,更加有针对性。
上述图2或图3实施例的音频信号处理装置可以为耳机,耳机中存储有噪音分析模型、音频采集模块,在采集到第一音频信号后,向服务器发送第一样本信息,第一样本信息包括第一音频信号和用户标识;服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至训练样本集,服务器根据采用训练样本集对噪音分析模型进行训练得到更新信息,服务器将更新信息发送给耳机,耳机根据更新信息对与用户标识对应的噪音分析模型进行更新,更新后的噪音分析模型用于对新采集的音频信号进行主动降噪。这一应用场景中,耳机与服务器可以通过5G网络/WIFI网络通信,由于耳机的处理与计算能力有限,通过与服务器的快速数据交互可以实现实时的学习、训练、模型更新,且由于是与用户标识对应的噪音分析模型,更加有针对性地改善降噪效果。
上述图2或图3实施例方案可以应用于通话场景中,带有上述噪音分析模型的发送方的用户终端通过自带麦克风或与其建立连接的耳机采集到噪音后,将噪音与用户标识发送给服务器,服务器查找与用户标识对应的噪音分析模型,并将噪音添加至训练样本集,服务器根据采用训练样本集对噪音分析模型进行训练得到更新信息,服务器将更新信息发送给发送方的用户终端,通过更新后的噪音分析模型实现对后续采集的音频信号(包括语音与噪音)的主动降噪处理,获得主动降噪后的音频信号,然后通过通信网络传输至接收方的用户终端中,进而被接收方的用户终端用户听到。这里的通话可以是通过移动数据网络的通话,还可以是通过应用程序(即时通讯软件)的通话,本申请对此不做限定。这一应用场景中,由于用户终端的处理与计算能力有限或者用户终端的处理能力还需要用在其他方面的处理,通过与服务器的快速数据交互可以实现实时的学习、训练、模型更新,且由于是与用户标识对应的噪音分析模型,甚至是与不同场景对应的噪音分析模型,更加有针对性地提高降噪水平、改善通话效果。
请参阅图4,为本发明实施例中站点侧描述的一种音频信号处理方法的流程示意图,方法包括:
401、音频信号处理装置采集第一音频信号;
402、所述音频信号处理装置向服务器发送第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户,所述服务器根据所述第一样本信息确定与所述用户标识对应的噪音分析模型的更新信息;
403、所述音频信号处理装置接收所述服务器发送的更新信息;
404、所述音频信号处理装置根据所述更新信息对所述与所述用户标识对应的噪音分析模型进行更新,更新后的噪音分析模型用于对采集的第二音频信号进行主动降噪。
需要说明的是,图4所示实施例中的相关内容在上述图2及图3所示实施例中已经进行详细描述,具体可以参阅上述图2及图3所示实施例,此处不做赘述。
在本发明实施例中,音频信号处理装置采集第一音频信号,向服务器发送第一样本信息,第一样本信息包括第一音频信号和用户标识,以使服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练样本集,并采用训练样本集进行训练得到噪音分析模型的更新信息;音频信号处理装置采用更新信息对噪音分析模型进行更新以对采集的第二音频信号进行主动降噪。通过上述实时交互,音频信号处理装置根据更新后的噪音分析模型进行主动降噪处理,改善了用户的语音降噪体验效果,另通过用户标识可确定出匹配该用户的噪音分析模型,更加有针对性。
请参阅图5,为本发明实施例中接入点侧描述的一种音频信号处理方法的流程示意图,该方法方法包括:
501、服务器接收音频信号处理装置发送的第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户;
502、所述服务器查找与所述用户标识对应的噪音分析模型,并将所述第一音频信号添加至用于训练所述噪音分析模型的训练样本集;
503、所述服务器采用所述训练样本集对所述噪音分析模型进行训练,得到更新信息;
504、所述服务器将所述更新信息发送给所述音频信号处理装置,以使所述音频信号处理装置对与所述用户标识对应的噪音分析模型进行更新。
需要说明的是,图5所示实施例中的相关内容在上述图2及图3所示实施例中已经进行详细描述,具体可以参阅上述图2及图3所示实施例,此处不做赘述。
在本发明实施例中,服务器接收音频信号处理装置发送的第一样本信息,第一样本信息包括音频信号处理装置采集的第一音频信号和用户标识,服务器查找与用户标识对应的噪音分析模型,并将第一音频信号添加至用于训练样本集;服务器采用训练样本集进行训练得到噪音分析模型的更新信息;并向音频信号处理装置发送更新信息以使音频信号处理装置对噪音分析模型进行更新实现主动降噪。通过上述实时交互,服务器侧实现实时的噪音分析模型更新与反馈,音频信号处理装置根据更新后的噪音分析模型进行主动降噪处理,改善了用户的语音降噪体验效果,另通过用户标识可确定出匹配该用户的噪音分析模型,更加有针对性。
请参阅图6,为本发明实施例中音频信号处理装置的结构示意图,该装置包括:
采集模块601,用于采集第一音频信号;
发送模块602,用于向服务器发送第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户,所述服务器根据所述第一样本信息确定与所述用户标识对应的噪音分析模型的更新信息;
接收模块603,用于接收所述服务器发送的更新信息;
处理模块604,用于根据所述更新信息对所述与所述用户标识对应的噪音分析模型进行更新,更新后的噪音分析模型用于对采集的第二音频信号进行主动降噪。
其中,上述模块具体可以是音频信号处理装置中的程序模块,可以由音频信号处理装置的处理器调用存储于存储介质中的模块,以实现上述音频信号处理装置侧的音频信号处理方法。
需要说明的是,该音频信号处理装置的相关模块的内容在前述实施例中已经描述,具体可以参阅前述实施例中的内容,此处不做赘述。
请参阅图7,为本发明实施例中服务器的结构示意图,该服务器包括:
接收模块701,用于接收音频信号处理装置发送的第一样本信息,所述第一样本信息包括所述第一音频信号和用户标识,所述用户标识用于唯一识别当前使用所述音频信号处理装置的用户;
处理模块702,用于查找与所述用户标识对应的噪音分析模型,并所述第一音频信号添加至用于训练所述噪音分析模型的训练样本集;
所述处理模块702,用于采用所述训练样本集对所述噪音分析模型进行训练,得到更新信息;
发送模块703,用于将所述更新信息发送给所述音频信号处理装置,以使所述音频信号处理装置对与所述用户标识对应的噪音分析模型进行更新。
其中,上述的模块具体可以是服务器中的程序模块,可以由服务器中的处理器调用存储于存储介质中的模块,以实现上述服务器侧的音频信号处理方法。
需要说明的是,该服务器的相关模块的内容在前述实施例中已经描述,具体可以参阅前述实施例中的内容,此处不做赘述。
图8示出了一个实施例中计算机设备的内部结构图。如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现上述方法实施例中的各个步骤。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行上述方法实施例中的各个步骤。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
该计算机设备具体可以是音频信号处理设备,如耳机。这一情况,在一个实施例中,提出了一种计算机设备,包括存储器和处理器,音频采集模块、扬声器、通信模块等,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述图2至图5任一所示实施例中音频信号处理装置侧所执行的步骤。在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述图2至图5任一所示实施例中音频信号处理装置侧所执行的步骤。
该计算机设备具体可以是服务器。这一情况,在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述图2至图5任一所示实施例中服务器侧所执行的步骤。在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述图2至图5任一所示实施例中服务器侧所执行的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种音频信号处理方法,其特征在于,包括:
耳机采集第一音频信号;
所述耳机确定当前的目标场景信息,并根据场景信息与降噪等级的映射关系表,确定与
所述目标场景信息对应的目标降噪等级;所述耳机向服务器发送第一样本信息,所述第一样本信息包括所述第一音频信号、目标场景信息和用户标识,所述用户标识用于唯一识别当前使用所述耳机的用户,所述服务器根据所述第一样本信息确定与所述用户标识对应且与所述目标场景信息对应的噪音分析模型的更新信息;所述耳机接收所述服务器发送的更新信息;所述耳机根据所述更新信息和所述目标降噪等级对所述与所述用户标识对应的噪音分
析模型进行更新;所述耳机采用更新后的噪音分析模型对采集的第二音频信号进行主动降噪;其中,所述耳机与所述服务器通过移动数据网络或者 Wi-Fi通信;所述目标场景信息是用户从多个场景信息中选择的;或者,所述目标场景信息是通过将所述第一音频信号与场景信息对应的预存音频信号进行匹配,根据相似度最高的预存音频信号对应的场景信息确定的。
2.根据权利要求 1所述的方法,其特征在于,所述耳机向服务器发送第一样本信息之前,
还包括:所述耳机判断所述第一音频信号是否包含所述用户标识所指示的用户的音频信号;若否,则所述耳机向服务器发送所述第一样本信息。
3.根据权利要求 2所述的方法,其特征在于,所述方法还包括:
若所述第一音频信号包含所述用户标识所指示的用户的音频信号,则通过存储的与所述用户标识对应的噪音分析模型对所述第一音频信号进行主动降噪处理,输出主动降噪处理后的音频信号。
4.一种音频信号处理方法,其特征在于,包括:服务器接收耳机发送的第一样本信息,所述第一样本信息包括第一音频信号、目标场景信息和用户标识,所述用户标识用于唯一识别当前使用所述耳机的用户;所述服务器查找与所述用户标识对应且与所述目标场景信息对应的噪音分析模型,并将所述第一音频信号添加至用于训练所述噪音分析模型的训练样本集;所述服务器采用所述训练样本集对所述噪音分析模型进行训练,得到更新信息;所述服务器将所述更新信息发送给所述耳机,以使所述耳机根据所述更新信息和与所述目标场景信息对应的目标降噪等级对与所述用户标识对应的噪音分析模型进行更新;其中,所述耳机与所述服务器通过移动数据网络或者 Wi-Fi通信;所述目标场景信息是用户从多个场景信息中选择的;或者,所述目标场景信息是通过将所述第一音频信号与场景信息对应的预存音频信号进行匹配,根据相似度最高的预存音频信号对应的场景信息确定的。
5.一种音频信号处理装置,其特征在于,所述音频信号处理装置为耳机,包括:采集模块,用于采集第一音频信号;处理模块,用于确定当前的目标场景信息,并根据场景信息与降噪等级的映射关系表,确定与所述目标场景信息对应的目标降噪等级;发送模块,用于向服务器发送第一样本信息,所述第一样本信息包括所述第一音频信号、目标场景信息和用户标识,所述用户标识用于唯一识别当前使用所述耳机的用户,所述服务器根据所述第一样本信息确定与所述用户标识对应且与所述目标场景信息对应的噪音分析模型的更新信息;接收模块,用于接收所述服务器发送的更新信息;所述处理模块,还用于根据所述更新信息和所述目标降噪等级对对所述与所述用户标识对应的噪音分析模型进行更新;所述处理模块,还用于采用更新后的噪音分析模型对采集的第二音频信号进行主动降噪;其中,所述耳机与所述服务器通过移动数据网络或者 Wi-Fi通信;所述目标场景信息是用户从多个场景信息中选择的;或者,所述目标场景信息是通过将所述第一音频信号与场景信息对应的预存音频信号进行匹配,根据相似度最高的预存音频信号对应的场景信息确定的。
6.一种服务器,其特征在于,包括:接收模块,用于接收耳机发送的第一样本信息,所述第一样本信息包括第一音频信号、目标场景信息和用户标识,所述用户标识用于唯一识别当前使用所述耳机的用户;处理模块,用于查找与所述用户标识对应且与所述目标场景信息对应的噪音分析模型,
并所述第一音频信号添加至用于训练所述噪音分析模型的训练样本集;所述处理模块,用于采用所述训练样本集对所述噪音分析模型进行训练,得到更新信息;发送模块,用于将所述更新信息发送给所述耳机,以使所述耳机根据所述更新信息和与所述目标场景信息对应的目标降噪等级对与所述用户标识对应的噪音分析模型进行更新;其中,所述耳机与所述服务器通过移动数据网络或者 Wi-Fi通信;所述目标场景信息是用户从多个场景信息中选择的;或者,所述目标场景信息是通过将所述第一音频信号与场景信息对应的预存音频信号进行匹配,根据相似度最高的预存音频信号对应的场景信息确定的。
7.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,使得所述处理器执行如权利要求 1至 3中任一项所述方法的步骤,或者使得所述处理器执行如权利要求 4所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110255083.9A CN112634932B (zh) | 2021-03-09 | 2021-03-09 | 音频信号处理方法、装置、服务器及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110255083.9A CN112634932B (zh) | 2021-03-09 | 2021-03-09 | 音频信号处理方法、装置、服务器及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112634932A CN112634932A (zh) | 2021-04-09 |
CN112634932B true CN112634932B (zh) | 2021-06-22 |
Family
ID=75297779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110255083.9A Active CN112634932B (zh) | 2021-03-09 | 2021-03-09 | 音频信号处理方法、装置、服务器及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112634932B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113194378B (zh) * | 2021-06-30 | 2021-11-26 | 深圳市汇顶科技股份有限公司 | 音频信号的降噪方法、音频信号处理装置及电子设备 |
EP4138406B1 (en) | 2021-06-30 | 2023-12-27 | Shenzhen Goodix Technology Co., Ltd. | Noise cancellation method for audio signal, audio signal processing apparatus, and electronic device |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103069480A (zh) * | 2010-06-14 | 2013-04-24 | 谷歌公司 | 用于语音识别的语音模型和噪声模型 |
CN104023102A (zh) * | 2014-06-27 | 2014-09-03 | 深圳市中兴移动通信有限公司 | 一种可调节的降噪方法、装置及移动终端 |
CN106663446A (zh) * | 2014-07-02 | 2017-05-10 | 微软技术许可有限责任公司 | 知晓用户环境的声学降噪 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN110473525A (zh) * | 2019-09-16 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 获取语音训练样本的方法和装置 |
CN111192599A (zh) * | 2018-11-14 | 2020-05-22 | 中移(杭州)信息技术有限公司 | 一种降噪方法及装置 |
CN112309414A (zh) * | 2020-07-21 | 2021-02-02 | 东莞市逸音电子科技有限公司 | 基于音频编解码的主动降噪方法、耳机及电子设备 |
-
2021
- 2021-03-09 CN CN202110255083.9A patent/CN112634932B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103069480A (zh) * | 2010-06-14 | 2013-04-24 | 谷歌公司 | 用于语音识别的语音模型和噪声模型 |
CN104023102A (zh) * | 2014-06-27 | 2014-09-03 | 深圳市中兴移动通信有限公司 | 一种可调节的降噪方法、装置及移动终端 |
CN106663446A (zh) * | 2014-07-02 | 2017-05-10 | 微软技术许可有限责任公司 | 知晓用户环境的声学降噪 |
CN109087659A (zh) * | 2018-08-03 | 2018-12-25 | 三星电子(中国)研发中心 | 音频优化方法及设备 |
CN111192599A (zh) * | 2018-11-14 | 2020-05-22 | 中移(杭州)信息技术有限公司 | 一种降噪方法及装置 |
CN110473525A (zh) * | 2019-09-16 | 2019-11-19 | 百度在线网络技术(北京)有限公司 | 获取语音训练样本的方法和装置 |
CN112309414A (zh) * | 2020-07-21 | 2021-02-02 | 东莞市逸音电子科技有限公司 | 基于音频编解码的主动降噪方法、耳机及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112634932A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107591152B (zh) | 基于耳机的语音控制方法、装置及其设备 | |
CN112634932B (zh) | 音频信号处理方法、装置、服务器及相关设备 | |
CN107172256B (zh) | 耳机通话自适应调整方法、装置、移动终端及存储介质 | |
CN109309751B (zh) | 语音记录方法、电子设备及存储介质 | |
CN111182390B (zh) | 音量数据处理方法、装置、计算机设备及存储介质 | |
CN111199743B (zh) | 音频编码格式确定方法、装置、存储介质及电子设备 | |
CN107170457A (zh) | 年龄识别方法、装置及终端 | |
CN111885341A (zh) | 视频通话过程语音采集方法、装置、计算机设备及介质 | |
WO2018166367A1 (zh) | 一种实时对话中的实时提醒方法、装置、存储介质及电子装置 | |
CN103281425A (zh) | 一种通过通话声音分析联系人的方法及装置 | |
KR101376292B1 (ko) | 통화 중 감정 분석 서비스 제공 방법 및 장치 | |
CN104917994A (zh) | 音视频通话系统及方法 | |
CN107682553B (zh) | 通话信号发送方法、装置、移动终端及存储介质 | |
CN108154886A (zh) | 噪声抑制方法及装置、电子装置及计算机可读存储介质 | |
CN110337095B (zh) | 音频聆听设备的参数更新方法、装置及音频聆听设备 | |
CN111081238B (zh) | 一种蓝牙音箱语音交互控制方法、装置及系统 | |
CN108182942B (zh) | 一种支持不同虚拟角色交互的方法和装置 | |
CN110754097B (zh) | 通话控制方法、装置、终端设备及存储介质 | |
CN115278624A (zh) | 信息更新方法及装置、音频共享方法及系统、电子设备 | |
CN110660403A (zh) | 一种音频数据处理方法、装置、设备及可读存储介质 | |
CN107277284A (zh) | 基于VoLTE的语音通话方法和系统、存储装置 | |
CN109559760B (zh) | 一种基于语音信息的情感分析方法及系统 | |
CN115623126A (zh) | 语音通话方法、系统、装置、计算机设备和存储介质 | |
CN112820273A (zh) | 唤醒判别方法和装置、存储介质及电子设备 | |
CN105471593B (zh) | 一种群组会话方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210602 Address after: 341000 Ganzhou economic and Technological Development Zone, Ganzhou City, Jiangxi Province Applicant after: Ganzhou Bailang Technology Co.,Ltd. Address before: 210043 11-22, building a, office building, Waisha village, Baguazhou street, Qixia District, Nanjing City, Jiangsu Province Applicant before: Nanjing hanshuyun Information Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |