CN112927705A - 频响校准方法及相关产品 - Google Patents
频响校准方法及相关产品 Download PDFInfo
- Publication number
- CN112927705A CN112927705A CN202110179473.2A CN202110179473A CN112927705A CN 112927705 A CN112927705 A CN 112927705A CN 202110179473 A CN202110179473 A CN 202110179473A CN 112927705 A CN112927705 A CN 112927705A
- Authority
- CN
- China
- Prior art keywords
- frequency response
- voice
- frequency
- calibrated
- calibration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004044 response Effects 0.000 title claims abstract description 393
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012546 transfer Methods 0.000 claims abstract description 127
- 238000012549 training Methods 0.000 claims abstract description 82
- 230000006870 function Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 11
- 230000003993 interaction Effects 0.000 description 35
- 238000010586 diagram Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000005070 sampling Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000011088 calibration curve Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本申请实施例提供一种频响校准方法及相关产品,该频响校准方法包括:获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数;确定与标识参数对应的频响转移模型,频响转移模型包括k个频响转移子模型,k个频响转移子模型是分别在k个频点训练得到的,k个频点中任意两个频点不同,k为大于或等于2的整数;利用k个频响转移子模型对待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。本申请实施例可以提高频响校准的效果。
Description
技术领域
本申请涉及音频处理技术领域,具体涉及一种频响校准方法及相关产品。
背景技术
随着智能物联网(internet of things,IoT)产品的不断普及与丰富,语音交互逐渐成为家居生活场景中的重要服务提供手段,多设备、多情景成为当下语音交互服务的新特点。常见的分布式语音交互服务如语音操控、语音对话、多设备智能唤醒等。为了保证设备采集的语音信号的低失真度和高信噪比,设备采集到的语音信号在发往识别装置之前,往往会进行频响校准操作。
目前的频响校准对硬件设备和声场环境有严格的要求,并且校准效果难以得到保证。
发明内容
本申请实施例提供一种频响校准方法及相关产品,可以提高频响校准的效果。
本申请实施例的第一方面提供了一种频响校准方法,包括:
获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数;
确定与所述标识参数对应的频响转移模型,所述频响转移模型包括k个频响转移子模型,所述k个频响转移子模型是分别在k个频点训练得到的,所述k个频点中任意两个频点不同,k为大于或等于2的整数;
利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。
所述频响转移模型包括k个频响转移子模型用于在k个频点上将被校准设备采集的待校准语音信号的频响曲线向目标参考设备的采集的语音信号的频响曲线进行迁移,使得频响校准后的信号的频响曲线更接近目标参考设备的采集的语音信号的频响曲线。
本申请实施例的第二方面提供了一种多设备唤醒系统,包括:包括仲裁端以及与所述仲裁端通信连接的至少两个终端设备,所述至少两个终端设备开启语音唤醒功能,其中:
第一终端设备,用于接收唤醒语音,采用语音质量判别算法对接收的唤醒语音进行质量判别,将得到的第一语音质量判别参数上传至所述仲裁端,所述第一终端设备为所述至少两个终端设备中的任一个;
所述仲裁端,用于根据所述至少两个终端设备上传的语音质量判别参数确定所述至少两个终端设备中的参考设备,将所述参考设备的标识参数发送至所述至少两个终端中的非参考设备;
所述第二终端设备,用于确定与所述标识参数对应的频响转移模型,通过所述频响转移模型对所述第二终端设备接收的唤醒语音进行频响校准,得到校准后的唤醒语音,将所述校准后的唤醒语音或者所述校准后的唤醒语音对应的语音信号特征上传至所述仲裁端,所述第二终端设备为所述至少两个终端中的非参考设备中的任一个;
所述仲裁端,用于根据所述非参考设备上传的校准后的唤醒语音以及所述参考设备上传的唤醒语音确定所述两个终端设备中的唤醒设备,向所述唤醒设备发送唤醒指令;或者用于根据所述非参考设备上传的校准后的唤醒语音对应的语音信号特征以及所述参考设备上传的唤醒语音对应的语音信号特征确定所述两个终端设备中的唤醒设备,向所述唤醒设备发送唤醒指令。
本申请实施例的第三方面提供了一种频响校准装置,包括:
获取单元,用于获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数;
确定单元,用于确定与所述标识参数对应的频响转移模型,所述频响转移模型包括k个频响转移子模型,所述k个频响转移子模型是分别在k个频点训练得到的,所述k个频点中任意两个频点不同,k为大于或等于2的整数;
频响校准单元,用于利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。
本申请实施例的第四方面提供了一种终端设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如本申请实施例第一方面中的步骤指令。
本申请实施例的第五方面提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
本申请实施例的第六方面提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
本申请实施例中,获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数;确定与所述标识参数对应的频响转移模型,所述频响转移模型包括k个频响转移子模型,所述k个频响转移子模型是分别在k个频点训练得到的,所述k个频点中任意两个频点不同,k为大于或等于2的整数;利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。本申请实施例的频响校准方法,可以通过目标参考设备的标识参数对应的频响转移模型对被校准设备采集的待校准语音信号进行频响校准,由于频响转移模型包括k个频响转移子模型,可以在k个频点上分别进行校准,使得频响校准后的信号的频响曲线更接近目标参考设备采集的信号的频响曲线,从而提高频响校准的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种智能家居生活语音交互场景的示意图;
图2是本申请实施例提供的一种多设备唤醒系统的结构示意图;
图3是本申请实施例提供的一种频响校准方法的流程示意图;
图4是本申请实施例提供的一种频响校准单元的校准流程示意图;
图5是本申请实施例提供的一种频响校准方法的流程示意图;
图6是本申请实施例提供的一种频响转移模型的训练方法的流程示意图;
图7是本申请实施例提供的一种各个频点的SVR模型的训练流程示意图;
图8是本申请实施例提供的一种多设备唤醒方法的流程示意图;
图9是本申请实施例提供的一种频响校准装置的结构示意图;
图10是本申请实施例提供的一种终端设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本申请所描述的实施例可以与其它实施例相结合。
本申请实施例所涉及到的终端设备可以包括各种具有无线通信功能和语音交互功能(包括语音采集和语音播放功能)的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(user equipment,UE),移动台(mobile station,MS),终端设备(terminal device)等等。为方便描述,上面提到的设备统称为终端设备。本申请实施例所涉及到的被校准设备、参考设备均属于终端设备的范畴。
频响,是频率响应的简称。对于终端设备的麦克风,通常定义在自由声场中,频率为1K赫兹(Hz)恒定声压下,声源与麦克风夹角为零时所测的输出电平为麦克风的灵敏度,通常用分贝(db)来表示。而麦克风的频率响应则是指灵敏度在不同的频率的不同数值,通常简称为频响。将灵敏度对频率的依赖关系用曲线表示出来,便称为频率响应曲线。频响校正音频采集设备的理想频响曲线应该是一条水平直线,因此,传统意义上的终端设备的频响校正指的是:通过信号处理的方式,使得麦克风的频响曲线能够达到接近平直的状态。
随着智能IoT产品的不断普及与丰富,语音交互逐渐成为家居生活场景中的重要服务提供手段,多设备、多情景成为当下语音交互服务的新特点。常见的分布式语音交互服务如语音操控、语音对话、多设备智能唤醒等。这些家居生活场景中的语音服务对语音信号技术需求主要有以下3个方面:
1.语音信号失真度小;即对于家居场景中的每一个设备,其频率响应曲线均应该处于较为平直的状态。
2.较高的信噪比;设备输出同时输出的信号电平与噪声电平的比值,即家居场景中的设备采集到的信号应有较少的杂音。信噪比会受到声压、环境声场等复杂因素的综合影响。
3.距离分辨能力强;异构设备在距离声源同距离(相同声压级)下,采集到的语音信号的能量差距应当处于一定范围内。同构或异构设备在距离声源不同距离下,采集到的语音信号的能量应当随声源距离衰减。其中,同构设备指的是同一种类型(比如,同一种型号)的设备,异构设备指的是不同类型的设备。
在实际应用场景中,消费级电子产品的麦克风性能千差万别,异构设备采集到的语音信号在上述三个方面上往往存在巨大差异。因此,设备采集到的语音信号在发往识别装置或仲裁装置之前,会进行一定的语音信号预处理操作,而频响校准技术是其中不可或缺的环节,业界主流语音信号频响校准技术主要体现为以下两个技术方向:
1.频响失真校准;其目标是将语音采集设备的频响曲线调节为接近平直。通常采用的方式是:在理想测试环境下,计算语音采集设备对扫频测试信号的频率响应,根据实际频率响应曲线与理想频率响应曲线的偏差,对相应测试频率点做相应的增益或衰减处理。
2.语音能量归一化;其目标是使得语音采集设备在相同的声压级下,有相同的录音音量。通常采用的方法是:通过预先设计的频响调节参数(如声压电平比等),调节音频信号的全局增益。
目前的频响校准技术在特定受限场景下解决一些特殊的问题,但是并不能覆盖家居生活场景中对语音信号的所有需求,对额外测量硬件设备或声场环境有严格要求。
本申请实施例针对智能家居生活语音交互场景的需求,提出了一种频响校准方法,该方法不依赖于额外硬件设备或声场条件,可以兼顾频响失真校准以及语音能量的校准,还可以提高频响校准的效果。
为了更好的理解本申请实施例中的频响校准方法,本申请实施例提出了一种智能家居生活语音交互场景,请参阅图1,图1是本申请实施例提供的一种智能家居生活语音交互场景的示意图。该场景可以包括至少两种语音交互终端,语音交互终端具有语音采集能力和语音播放能力。如图1所示,该场景可以包括大屏多媒体语音交互终端(比如,具有语音交互功能的电视机),移动通讯语音交互终端(比如,手机)、可穿戴语音交互终端(比如,智能手表)和智能家电语音交互终端(比如,具有语音交互功能的智能冰箱、智能空调等)。
本申请实施例的终端设备可以包括图1所示场景中的任意一种语音交互终端。
可选的,图1还可以包括仲裁端,仲裁端用于进行服务仲裁,比如多设备唤醒服务仲裁、语音操控服务仲裁等。多设备唤醒服务可以简称唤醒服务,是从多个设备中唤醒一个或多个设备的服务。唤醒服务的唤醒策略可以包括就近唤醒服务、最常用唤醒服务、最高剩余电量唤醒服务、最强处理能力唤醒服务等。其中,就近唤醒,是指唤醒场景中距离发声者最近的设备,最常用唤醒,是指唤醒场景中最常用的设备。剩余电量最高唤醒,是指唤醒场景中剩余电量最高的设备。最强处理能力唤醒,是指唤醒场景中处理能力最强的设备。
图1中,用户置身于智能家居生活语音交互场景时,可以发出语音“你好小O,今天天气怎么样”,该场景下的所有交互终端都可以接收该语音,仲裁端确定所有交互终端中拾音能力最强的交互终端作为参考设备,所有交互终端中的非参考设备对接收的语音按照该参考设备的频响曲线进行校准,仲裁端根据非参考设备上传的校准后的语音以及参考设备上传的语音判断距离用户最近的交互终端,并唤醒该距离用户最近的交互终端,该距离用户最近的交互终端可以针对该语音做出相应的应答。
其中,仲裁端可以包括分布式仲裁端或云仲裁端。分布式仲裁端可以是图1所示场景中任意一台装有终端处理器的设备,一般设定为信息处理能力最优的终端设备。考虑到功耗的因素,除非没有其他选择,一般不将可穿戴语音交互终端设置为分布式仲裁端。云仲裁端可以包括云服务器。
请参阅图2,图2是本申请实施例提供的一种多设备唤醒系统的结构示意图。如图2所示,该多设备唤醒系统包括仲裁端以及与所述仲裁端通信连接的至少两个终端设备,所述至少两个终端设备开启语音唤醒功能。
第一终端设备,用于接收唤醒语音,采用语音质量判别算法对接收的唤醒语音进行质量判别,将得到的第一语音质量判别参数上传至所述仲裁端,所述第一终端设备为所述至少两个终端设备中的任一个;
所述仲裁端,用于根据所述至少两个终端设备上传的语音质量判别参数确定所述至少两个终端设备中的参考设备,将所述参考设备的标识参数发送至所述至少两个终端中的非参考设备;
所述第二终端设备,用于确定与所述标识参数对应的频响转移模型,通过所述频响转移模型对所述第二终端设备接收的唤醒语音进行频响校准,得到校准后的唤醒语音,将所述校准后的唤醒语音或者所述校准后的唤醒语音对应的语音信号特征上传至所述仲裁端,所述第二终端设备为所述至少两个终端设备中的非参考设备中的任一个;其中,频响校准的具体方法可以参见图3或图5所示的具体实施例。
所述仲裁端,用于根据所述非参考设备上传的校准后的唤醒语音以及所述参考设备上传的唤醒语音确定所述至少两个终端设备中的唤醒设备,向所述唤醒设备发送唤醒指令;或者用于根据所述非参考设备上传的校准后的唤醒语音对应的语音信号特征以及所述参考设备上传的唤醒语音对应的语音信号特征确定所述至少两个终端设备中的唤醒设备,向所述唤醒设备发送唤醒指令。
本申请实施例的终端设备可以包括图1所示场景中的任意一种语音交互终端。
本申请实施例中,多设备唤醒系统中的每个终端设备都可以接收(比如,通过自身的麦克风采集)用户发出的唤醒语音,每个终端设备都可以采用相同的语音质量判别算法对同一时段分别采集的唤醒语音进行质量判别,并将得到的语音质量判别参数上传至仲裁端。仲裁端根据至少两个终端设备上传的语音质量判别参数确定至少两个终端设备中的参考设备。比如,仲裁端可以将上传的语音质量判别参数中语音质量最高的终端设备作为参考设备,该参考设备可以是多设备唤醒系统中拾音质量最佳的设备。
可选的,每个终端设备还可以上传自身的能力信息,比如:终端设备的处理器能力、扬声器能力(扬声器的功率、灵敏度等)、麦克风能力(是否是麦克风阵列,麦克风的降噪能力、灵敏度等)等。
仲裁端确定参考设备后,可以将参考设备的标识参数发送至至少两个终端中的非参考设备,至少两个终端中的非参考设备可以分别确定与该参考设备的标识参数对应的频响转移模型,通过确定的频响转移模型对自身接收的唤醒语音进行频响校准,得到校准后的唤醒语音,并将校准后的唤醒语音或者校准后的唤醒语音对应的语音信号特征上传至仲裁端。需要说明的是,每个非参考设备确定的频响转移模型都不同,每个非参考设备确定的频响转移模型是根据自身与参考设备在相同声压下采集的语音进行训练得到的,频响转移模型可以将自身的频响曲线校准为参考设备的频响曲线,可以对该多设备唤醒系统中弱拾音能力的设备进行校准,使得校准后的语音信号具有较高的信噪比。
仲裁端接收到非参考设备上传的校准后的唤醒语音以及参考设备上传的唤醒语音后,可以确定至少两个终端设备中的唤醒设备,向该唤醒设备发送唤醒指令。
本申请实施例中,由于非参考设备上传的校准后的唤醒语音以及参考设备上传的唤醒语音具有相同或近似的频响校准曲线,能够实现所有设备之间音频能量的归一化,从而能够准确的实现就近唤醒服务。仲裁端接收到非参考设备上传的校准后的唤醒语音以及参考设备上传的唤醒语音后,可以提取唤醒语音的语音信号特征,根据语音信号特征来比较哪个唤醒语音的音频能量最大,选择音频能量最大的语音设备唤醒,从而实现就近唤醒服务。本申请实施例可以应用于云仲裁端。
可选的,仲裁端接收到非参考设备上传的校准后的唤醒语音对应的语音信号特征以及参考设备上传的唤醒语音对应的语音信号特征后,可以确定至少两个终端设备中的唤醒设备,向该唤醒设备发送唤醒指令。
本申请实施例中,为了降低仲裁端的数据处理量,提高仲裁速度,可以让非参考设备对校准后的唤醒语音进行特征提取,将提取的语音信号特征发送至仲裁端,让参考设备对采集的唤醒语音进行特征提取,将提取的语音信号特征发送至仲裁端。本申请实施例可以应用于分布式仲裁端,比如语音提取能力较弱的分布式仲裁端。
请参阅图3,图3是本申请实施例提供的一种频响校准方法的流程示意图。如图3所示,该频响校准方法可以包括如下步骤。
301,终端设备获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数。
本申请实施例中的终端设备可以是被校准设备,也可以是专门进行频响校准的设备。具体的,可以是图1所示场景中的任意一种语音交互终端。
目标参考设备可以是预先进行设定,比如,对于固定的智能家居生活语音交互场景而言,由于该场景中的语音交互终端是固定的,没有新的语音交互终端的加入,也没有语音交互终端的退出,目标参考设备可以在第一次拾音能力比较中确定后就固定下来,后续直接使用该目标参考设备即可,无需每次都对该场景的参考设备进行一次选择,从而提高处理效率。
目标参考设备也可以是在同等条件下图1所示场景中拾音质量最佳的设备。
待校准设备和目标参考设备可以是同构设备,也可以是异构设备,能够实现异构设备之间的频响校准。
302,终端设备确定与标识参数对应的频响转移模型,频响转移模型包括k个频响转移子模型,k个频响转移子模型是分别在k个频点训练得到的,k个频点中任意两个频点不同,k为大于或等于2的整数。
本申请实施例的频响转移模型可以是机器学习模型,比如机器学习回归模型。k个频响转移子模型可以包括1Hz频点频响机器学习回归模型、2Hz频点频响机器学习回归模型、…kHz频点频响机器学习回归模型。
303,终端设备利用k个频响转移子模型对待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。
本申请实施例中,终端设备可以存储有参考设备标识参数与频响转移模型的对应关系,对于每一个被校准设备,都对应有一个参考设备标识参数与频响转移模型的对应关系。参考设备标识参数与频响转移模型的对应关系可以以表格的方式存储在终端设备的存储器(比如,非易失性存储器)中。请参阅表1,表1是本申请实施例提供的一种参考设备标识参数与频响转移模型的对应关系表。
其中,不同的参考设备对应不同的频响转移模型,每个频响转移模型包括的子模型个数可以相同(k1=k2=k3=k4),也可以不同。
k个频响转移子模型可以是训练好的模型,第k个频响转移子模型的训练数据集可以包括该被校准设备与目标参考设备在相同声压采集的语音信号在第k个频点(比如,kHz)对应的频响数据,第k个频响转移子模型是在第k个频点训练得到的。
k与待校准语音信号的采样率(采样频率)相关。根据奈奎斯特理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原成为原来的声音。因此,频点个数k小于或等于(N/2+1),其中N为采样率,1为0Hz频点的一个常量分量。举例来说,如果待校准语音信号的采样率为1600,则可以设定k=8001,k个频点分别为0Hz、1Hz、2Hz、…8000Hz。
由于k个频响转移子模型分别对待校准语音信号在k个频点进行校准,可以将待校准语音信号的频响向目标参考设备采集的语音信号的频响进行迁移,使得频响校准后的信号的频响曲线更接近目标参考设备采集的信号的频响曲线,从而提高频响校准的效果。
可选的,步骤303可以包括如下步骤:
(11)终端设备将所述待校准语音信号进行傅里叶变换,得到k维离散傅里叶变换序列,所述k维离散傅里叶变换序列与所述k个频点一一对应;
(12)终端设备将所述k维离散傅里叶变换序列输入一一对应的所述k个频响转移子模型,得到所述k个频点上的k个频响校准参数;
(13)终端设备将所述k个离散傅里叶变换序列、所述k个频响校准参数和k维滤波向量进行点乘运算后进行逆傅里叶变化,得到频响校准后的信号。
本申请实施例中,傅里叶变换可以是普通傅里叶变换,也可以是快速傅里叶变换。傅里叶变换可以将时域信号转化为频域的k个离散傅里叶变换序列,每个离散傅里叶变换序列可以表示k个不同频点的频域特征。其中,频响转移子模型的个数k与信号傅里叶变换长度k相同。
其中,所述k维滤波向量中的大于第一频点的维度置0,将所述k维滤波向量中的小于第一频点的维度置1。k维滤波向量中,一部分为0,另一部分为1。第一频点可以预先进行设定并存储在终端设备的存储器中。第一频点可以设置为k个频点中的中间频点。比如,k=8001,第一频点可以设置为4000Hz。
举例来说,假定k=8001,k个频点分别为0Hz、1Hz、2Hz、…8000Hz。k维离散傅里叶变换序列分别表示k个不同频点(0Hz、1Hz、2Hz、…8000H)的频域特征。将k维离散傅里叶变换序列输入一一对应的所述k个频响转移子模型,得到所述k个频点上的k个频响校准参数可以理解为:将表示0Hz频点的频域特征的离散傅里叶变换序列输入第0个频响转移子模型(在0Hz频点训练得到的频响转移子模型),得到在0Hz频点上的频响校准参数;将表示1Hz频点的频域特征的离散傅里叶变换序列输入第1个频响转移子模型(在1Hz频点训练得到的频响转移子模型),得到在1Hz频点上的频响校准参数;将表示2Hz频点的频域特征的离散傅里叶变换序列输入第2个频响转移子模型(在2Hz频点训练得到的频响转移子模型),得到在2Hz频点上的频响校准参数;以此类推,将表示8000Hz频点的频域特征的离散傅里叶变换序列输入第8000个频响转移子模型(在8000Hz频点训练得到的频响转移子模型),得到在8000Hz频点上的频响校准参数。
终端设备可以通过频响校准单元进行频响校准,频响校准单元的整体流程图可以参见图4,图4是本申请实施例提供的一种频响校准单元的校准流程示意图。如图4所示,频响校准单元可以包括频响转移模型、快速傅里叶变换模块、逆傅里叶变换模块和滤波向量生成模块。被校准设备采集的待校准语音信号为x(t),将x(t)输入快速傅里叶变换模块,得到k维离散傅里叶变换序列:X(0),X(1),…X(k-1)。与目标参考设备的标识参数对应的频响转移模型包括k个频响转移子模型分别为:T0,T1,…Tω…Tk-1。在每个频点分别计算频响校准参数,k个频响校准参数可以组成k维的频响校准参数向量T。
其中,频响转移模型根据频响转移模型的回归值Tω(||X(ω)||)与待校准语音信号进行傅里叶变换的傅里叶变换幅值||X(ω)||的比值作为在每个频点上的频响校准参数,这样就得到了维度为k的频响校准参数向量T。
由于有限长非周期信号在傅里叶变换上存在的频谱干扰,频响校准模块内置了形如[1,1,1,...0,0,0]的滤波向量Filter,可以将高频段的频响校准参数置为0,最大程度上减少信号的失真程度。例如,在实际应用中可以将频率点大于4000hz的校准参数置0。
其中,滤波向量中置零的数量可以灵活设置为其他数值,本申请实施例不作限定。
其中,X(ω)是离散傅里叶变换序列,T是频响校准参数向量,Filter是滤波向量。IDFT(inverse discrete Fourier transform,离散傅里叶反变换)表示逆傅里叶变变换,该操作可以将信号的频域表示变换为在时域上的信号,频响校准单元输出的信号在频响曲线上会与目标参考设备在相同声压下采集到的信号频响曲线接近,本申请实施例的频响校准单元兼顾频响保真能力校准的同时,还能够实现异构设备之间音频能量的归一化。
本申请实施例中,可以通过目标参考设备的标识参数对应的频响转移模型对被校准设备采集的待校准语音信号进行频响校准,由于频响转移模型包括k个频响转移子模型,可以在k个频点上分别进行校准,使得频响校准后的信号的频响曲线更接近目标参考设备采集的信号的频响曲线,从而提高频响校准的效果。
请参阅图5,图5是本申请实施例提供的一种频响校准方法的流程示意图。如图5所示,该频响校准方法可以包括如下步骤。
501,终端设备根据预设语音质量判别算法对所述待校准语音信号进行质量判别,得到所述待校准语音信号的语音质量判别参数,将所述待校准语音信号的语音质量判别参数上传至仲裁端,所述仲裁端用于根据上传的语音质量判别参数确定上传的语音质量最好的设备为所述目标参考设备。
本申请实施例中,每个终端设备采用的预设语音质量判别算法都相同。语音质量判别算法可以是计算信噪比、谱偏、谱功率中的一种或多种组合。谱偏也可以称为语谱图偏度(spectrogram skewness,SPSK),谱功率也可以称为功率谱密度。
音质量判别算法是计算信噪比时,语音质量最好的设备可以是信噪比最高的设备;音质量判别算法是计算谱偏时,语音质量最好的设备可以是谱偏最小的设备;音质量判别算法是计算谱功率时,语音质量最好的设备可以是谱功率最大的设备。
502,终端设备获取被校准设备采集的待校准语音信号,接收所述仲裁端发送的针对所述目标参考设备的标识参数。
503,终端设备确定与标识参数对应的频响转移模型,频响转移模型包括k个频响转移子模型,k个频响转移子模型是分别在k个频点训练得到的,k个频点中任意两个频点不同,k为大于或等于2的整数。
504,终端设备利用k个频响转移子模型对待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。
其中,步骤502至步骤504的具体实施可以参见图3所示的步骤301至步骤303,此处不再赘述。
可选的,在执行步骤504之后,还可以执行如下步骤:
终端设备将频响校准后的信号发送至仲裁端,仲裁端用于根据频响校准后的信号进行服务仲裁。
本申请实施例中,服务仲裁可以唤醒服务仲裁,比如,近唤醒服务的仲裁。
本申请实施例中,在多设备场景下,可以从多个终端设备中确定拾音效果最好的设备为目标参考设备,通过目标参考设备的标识参数对应的频响转移模型对被校准设备采集的待校准语音信号进行频响校准,由于频响转移模型包括k个频响转移子模型,可以在k个频点上分别进行校准,使得频响校准后的信号的频响曲线更接近目标参考设备采集的信号的频响曲线,从而提高频响校准的效果。
上述频响转移模型都是训练好的模型,频响转移模型可以采用支持向量回归(support vector machine,SVR)模型、岭回归模型、保序回归模型等。
请参阅图6,图6是本申请实施例提供的一种频响转移模型的训练方法的流程示意图。如图6所示,该频响转移模型的训练方法可以包括如下步骤。
601,终端设备获取语音训练样本,语音训练样本包括在相同声压下被校准设备采集到的n条第一语音数据和第一参考设备采集到的n条第二语音数据,n为正整数,第一参考设备为用于训练的至少一个参考设备中的一个。
本申请实施例训练的频响转移模型是被校准设备向第一参考设备进行频响转移的频响转移模型。类似的,被校准设备向其他参考设备(比如,图1的场景中于被校准设备不同的其他语音交互终端)进行频响转移的频响转移模型也可以参考此方法进行训练,此处不再赘述。
由于该频响转移模型实际上是将被校准设备采集的待校准语音信号的频响向第一参考设备采集的语音信号进行迁移,该频响转移模型也可以称为频响迁移模型。
语音训练样本的采集具体可以为:将声源设置在距离被校准设备和第一参考设备距离相等的位置,使得二者采集的语音信号是在相同声压下采集的。在n个相同的时间段内,被校准设备和第一参考设备分别采集n条语音数据,将被校准设备采集到的n条语音数据命名为:n条第一语音数据;将第一参考设备采集到的n条语音数据命名为:n条第二语音数据。
本申请实施例中的语音数据也可以称为语音信号,语音时序信号。
602,终端设备对第一语音数据和第二语音数据分别做傅里叶变换,得到第一语音数据的频率响应和第二语音数据的频率响应。
603,终端设备获取第一语音数据在第一频点的频率响应,获取第二语音数据在第一频点的频率响应,得到被校准设备-第一参考设备在第一频点的频率响应对,第一频点为k个频点中的任一个。
604,终端设备将被校准设备-第一参考设备的频率响应对映射到高维空间,得到被校准设备-第一参考设备在高维空间的频率响应对。
本申请实施例中,将频率响应映射到高维空间后,可以更好的进行直线拟合。
可选的,步骤604可以包括如下步骤:
终端设备采用径向基(Radial Basis Function,RBF)核函数将所述被校准设备-第一参考设备的频率响应对映射到高维空间,得到所述被校准设备-第一参考设备在所述高维空间的频率响应对。
605,终端设备将被校准设备-第一参考设备在高维空间的频率响应对输入第一频点对应的频响校准模型进行训练,计算第一频点对应的频响校准模型的训练损失,根据计算得到的训练损失对第一频点对应的频响校准模型的模型参数进行更新。具体的,可以通过损失函数来计算模型的训练损失。
本申请实施例中,将被校准设备-第一参考设备在高维空间的频率响应对输入第一频点对应的频响校准模型,可以在高维空间使用损失函数计算训练损失,根据训练损失对频响校准模型的拟合曲线进行线性回归拟合。
可选的,所述频响校准模型包括支持向量回归SVR模型,所述SVR模型的拟合曲线的两侧松弛程度设置为相同。在本申请实施例中,将位于拟合曲线两侧的松弛程度设置为相同,考虑了语音信号在频率上的对称性,所以将拟合曲线两侧的松弛程度设置相同,可以降低计算量,可以提高计算效率,在不影响训练精度的前提下可以提高模型训练速度。
606,在满足训练条件时,终端设备确定第一频点对应的频响校准模型为第一频点训练得到的频响转移子模型。
训练条件也可以称为训练终止条件,在满足训练条件时,则终止训练,认为频响校准模已经是训练好的模型,可以将其作为第一频点训练得到的频响转移子模型。训练条件可以包括已训练的语音样本的数量达到某一设定数量阈值,或者训练损失小于某一训练损失阈值。
本申请实施例中,每个频点对应的频响校准模型是单独计算训练得到的。为了便于阐释获得具体频点对应的频响校准模型的方法,本申请实施例以将被校准设备语音信号频响转换为参考设备语音信号频响为示例进行描述,每个频点对应的频响校准模型的具体训练流程步骤如下:
1、语音数据获取;获取多组参考设备以及被校准设备在相同声压(距离声源相同距离)采集到的语音数据。
2、频域分析;对所有语音数据做快速傅里叶变换(Fast Fourier Transform,FFT,得到每一条语音数据的频率响应,频率分量维度与信号采样率相关,本申请实施例以信号采样率为16000为示例,则设定傅里叶变换后频率分量维度为8001维。
频响转移模型以SVR模型为例,需要训练的SVR机器学习模型的数目为8001个。在训练第k个SVR模型时,将k赫兹频率点对应的频响数据采集为第k个SVR模型的训练数据,设总共采集到语音数据条数为n,则第k个SVR模型的训练数据为n组,每一组训练数据包含输入:被校准设备采集的第i条语音数据的频率响应以及期望输出、第一参考设备采集的第i条语音数据的频率响应。i∈[1,n]。模型训练的目的是准确拟合出在当前频率点下,被校准设备的频率响应到参考设备频率响应的非线性映射关系。
图7给出了各个频点的SVR模型的训练流程示意图。接下来详细介绍模型训练的具体方法。记xi(t)为第i组训练数据中被校准设备频率响应对应的第一语音时序信号,zi(t)为第i组训练数据中参考设备(比如,第一参考设备)频率响应对应的第二语音时序信号。由时频关系公式:
Xi(ω)=FFT(x(t));
Zi(ω)=FFT(x(t));
其中FFT表示快速傅里叶变换,使用||.||表示求绝对值运算符,则记||Xi(ω)||为第i组训练数据中被校准设备在频率ω下的频率响应,上述表述中i∈[1,n],ω∈[0,k],同理,记||Zi(ω)||为第i组训练数据中参考设备在频率ω下的频率响应。
模型训练的目的是:在每个频率ω下,得到一个频响校准模型Tω,使得频响校准模型的输出与参考设备频率响应之间的误差尽可能小,使用公式可以表示为:
本申请实施例所使用的SVR模型通常使用ε-不敏感损失函数,即SVR模型能容忍预测值与真实值存在最多为ε的偏差。ε-不敏感损失函数用于计算SVR模型通的训练损失。如果预测值与真实值之间的误差绝对值小于等于ε,则认为误差为0,ε-不敏感损失函数可以使用如下公式表达:
errori=Tω(||Xi(ω)||)-||Zi(ω)||;
在图7中的特定频率点(比如,第一频点)下被校准设备-参考设备频响关系散点图,可以看到,在原始数值域下难以拟合被校准设备与参考设备频响关系,本申请实施例可以使用径向基(Radial Basis Function,RBF)核函数将原始频响数值域映射到高维空间,在高维空间中对被校准设备-参考设备的频率响应使用ε-不敏感损失函数进行线性回归拟合。如上图7中的高维空间下被校准设备-参考设备频响关系散点图所展示,图中直线即为拟合直线,在宽度为2ε的虚线区域内,不计算拟合损失,设映射函数为则本申请实施例中使用的RBF核函数可以表示为:
进一步,频响校准模型可以表示为:
其中W、b为频响校准模型的高维空间线性拟合参数(即,频响校准模型的模型参数),需要通过训练求解得到。由SVR优化理论,可以得到本申请实施例的SVR优化模型,该最优化问题可以表示为如下公式。
其中C为惩罚函数因子。在原始SVR算法中,可以设置数据点距离宽度为2ε拟合区域的松弛程度,在本申请实施例中,将位于拟合曲线两侧的松弛程度设置为相同,记为β。本申请实施例考虑了语音信号在频率上的对称性,所以将拟合曲线两侧的松弛程度设置相同,可以降低计算量,可以提高计算效率,在不影响训练精度的前提下可以提高模型训练速度。
其中,考虑松弛变量后每个数据点位于拟合区间的条件为:
-ε-βi≤Tω(Xi(ω))-Zi(ω)≤ε+βi;
因此,加入松弛因子的SVR模型以及限制条件可以表示为:
s.t.-ε-βi≤Tω(Xi(ω))-Zi(ω)≤ε+βi;
βi≥0,i∈[1,n];
根据求解非线性规划问题最优解的库恩塔克(Karush-Kuhn-Tucker)条件,可以得知,最终求得的频点ω下的频响转移模型的解可以表示为:
其中的样本为SVR的支持向量,它们必落在2ε间隔带外,可知SVR的解具有稀疏性。对于α的解可以使用序列最小优化算法(Sequential minimal optimization,SMO)算法来求解,对于b可以取所有满足条件的样本,令Tω(||Xi(ω)||)=Zi(ω)-ε求解对应数据点的bi值,对所有的bi求平均得到最终模型的b值。
将所有k个频率点训练得到的频响校准模型组合起来,就得到了最终的频响转移模型。
本申请实施例的模型训练使用RBF核函数映射之后的线性回归模型确保了频响校准模型对未知频响数值的泛化能力。
本申请实施例通过在细化的频率点上使用少量的训练数据构建机器学习模型,能够将不限数目、类型的异构设备的语音信号频响曲线校准为场景中拾音质量最佳的设备的频响曲线。该频响校准方法对额外的测量设备没有要求,对严格的声场环境没有限定,对异构设备的类型数量没有限制。在校准弱拾音能力设备的语音能量能级的同时,通过在每一个频率点细粒度的使用有监督机器学习方法调节,在机器学习模型得到适当的训练的条件下,具有较高的抗干扰能力和泛化能力,并且也使得校准后语音信号具有较高信噪比,避免了现有全局增益方法带来的较高失真。频响校准后的语音信号具有距离分辨能力,即频响校准后的语音信号能量与声源距离具有严格单调关系,直接赋能语音操控、多设备智能唤醒等场景。
请参阅图8,图8是本申请实施例提供的一种多设备唤醒方法的流程示意图。该方法应用于图2所示的多设备唤醒系统,该多设备唤醒系统包括仲裁端以及与所述仲裁端通信连接的至少两个终端设备,所述至少两个终端设备开启语音唤醒功能。如图8所示,该方法可以包括如下步骤。
801,第一终端设备接收唤醒语音,采用语音质量判别算法对接收的唤醒语音进行质量判别。
802,第一终端设备将得到的第一语音质量判别参数上传至仲裁端。
其中,第一终端设备为至少两个终端设备中的任一个。
803,仲裁端根据至少两个终端设备上传的语音质量判别参数确定至少两个终端设备中的参考设备。
804,仲裁端将参考设备的标识参数发送至至少两个终端中的非参考设备。
805,第二终端设备确定与标识参数对应的频响转移模型,通过频响转移模型对第二终端设备接收的唤醒语音进行频响校准,得到校准后的唤醒语音。
第二终端设备为至少两个终端设备中的非参考设备中的任一个;其中,频响校准的具体方法可以参见图3或图5所示的具体实施例。
806,第二终端设备将校准后的唤醒语音或者校准后的唤醒语音对应的语音信号特征上传至仲裁端。
807,仲裁端根据非参考设备上传的校准后的唤醒语音以及参考设备上传的唤醒语音确定至少两个终端设备中的唤醒设备,向唤醒设备发送唤醒指令;或者仲裁端用于根据非参考设备上传的校准后的唤醒语音对应的语音信号特征以及参考设备上传的唤醒语音对应的语音信号特征确定至少两个终端设备中的唤醒设备,向唤醒设备发送唤醒指令。
上述步骤801至步骤804的具体实施可以参见图2所示的多设备唤醒系统的具体实施以及上述图3至图6的具体实施,此处不再赘述。
本申请实施例中,由于非参考设备上传的校准后的唤醒语音以及参考设备上传的唤醒语音具有相同或近似的频响校准曲线,能够实现所有设备之间音频能量的归一化,从而能够准确的实现就近唤醒服务。
上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,终端设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对终端设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
与上述一致的,请参阅图9,图9是本申请实施例提供的一种频响校准装置的结构示意图,该频响校准装置900应用于终端设备,该频响校准装置900可以包括获取单元901、确定单元902和频响校准单元903,其中:
获取单元901,用于获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数;
确定单元902,用于确定与所述标识参数对应的频响转移模型,所述频响转移模型包括k个频响转移子模型,所述k个频响转移子模型是分别在k个频点训练得到的,所述k个频点中任意两个频点不同,k为大于或等于2的整数;
频响校准单元903,用于利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。
可选的,所述频响校准单元903利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号,包括:将所述待校准语音信号进行傅里叶变换,得到k维离散傅里叶变换序列,所述k维离散傅里叶变换序列与所述k个频点一一对应;将所述k维离散傅里叶变换序列输入一一对应的所述k个频响转移子模型,得到所述k个频点上的k个频响校准参数;将所述k个离散傅里叶变换序列、所述k个频响校准参数和k维滤波向量进行点乘运算后进行逆傅里叶变化,得到频响校准后的信号。
可选的,所述k维滤波向量中的大于第一频点的维度置0,将所述k维滤波向量中的小于第一频点的维度置1。
可选的,该频响校准装置900还包括质量判别单元904和上传单元905;
所述判别单元904,用于在所述获取单元901获取目标参考设备的标识参数之前,根据预设语音质量判别算法对所述待校准语音信号进行质量判别,得到所述待校准语音信号的语音质量判别参数;
所述上传单元905,用于将所述待校准语音信号的语音质量判别参数上传至仲裁端,所述仲裁端用于根据上传的语音质量判别参数确定上传的语音质量最好的设备为所述目标参考设备;
所述获取单元901获取目标参考设备的标识参数,包括:接收所述仲裁端发送的针对所述目标参考设备的标识参数。
可选的,所述上传单元905,还用于在所述频响校准单元903得到频响校准后的信号之后,将所述频响校准后的信号发送至仲裁端,所述仲裁端用于根据所述频响校准后的信号进行服务仲裁。
可选的,该频响校准装置900还包括训练单元906;
所述训练单元906,还用于在所述确定单元902确定与所述标识参数对应的频响转移模型之前,获取语音训练样本,所述语音训练样本包括在相同声压下所述被校准设备采集到的n条第一语音数据和第一参考设备采集到的n条第二语音数据,n为正整数,所述第一参考设备为用于训练的至少一个参考设备中的一个;对所述第一语音数据和所述第二语音数据分别做傅里叶变换,得到所述第一语音数据的频率响应和所述第二语音数据的频率响应;获取所述第一语音数据在第一频点的频率响应,获取所述第二语音数据在所述第一频点的频率响应,得到被校准设备-第一参考设备在所述第一频点的频率响应对,所述第一频点为所述k个频点中的任一个;将所述被校准设备-第一参考设备的频率响应对映射到高维空间,得到所述被校准设备-第一参考设备在所述高维空间的频率响应对;将所述被校准设备-第一参考设备在所述高维空间的频率响应对输入所述第一频点对应的频响校准模型进行训练,计算所述第一频点对应的频响校准模型的训练损失,根据计算得到的训练损失对所述第一频点对应的频响校准模型的模型参数进行更新;在满足训练条件时,确定所述第一频点对应的频响校准模型为所述第一频点训练得到的频响转移子模型。
可选的,所述训练单元906将所述被校准设备-第一参考设备的频率响应对映射到高维空间,得到所述被校准设备-第一参考设备在所述高维空间的频率响应对,包括:采用径向基核函数将所述被校准设备-第一参考设备的频率响应对映射到高维空间,得到所述被校准设备-第一参考设备在所述高维空间的频率响应对。
可选的,所述频响校准模型包括支持向量回归SVR模型,所述SVR模型的拟合曲线的两侧松弛程度设置为相同。
其中,本申请实施例中的确定单元902、频响校准单元903、判别单元904、训练单元906可以是终端设备中的处理器。获取单元901和上传单元905可以是终端设备中的通信模块。
本申请实施例中,可以通过目标参考设备的标识参数对应的频响转移模型对被校准设备采集的待校准语音信号进行频响校准,由于频响转移模型包括k个频响转移子模型,可以在k个频点上分别进行校准,使得频响校准后的信号的频响曲线更接近目标参考设备采集的信号的频响曲线,从而提高频响校准的效果。
请参阅图10,图10是本申请实施例提供的一种终端设备的结构示意图,如图10所示,该终端设备1000包括处理器1001和存储器1002,处理器1001、存储器1002可以通过通信总线1003相互连接。通信总线1003可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。通信总线1003可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。存储器1002用于存储计算机程序,计算机程序包括程序指令,处理器1001被配置用于调用程序指令,上述程序包括用于执行图3~8所示的方法中的部分或全部步骤。
处理器1001可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
存储器1002可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
此外,该终端设备1000还可以包括通信模块1004、采集语音信号的麦克风、播放语音信号的扬声器等。其中通信模块1004可以包括射频收发器、射频前端设备、天线等通用部件,在此不再详述。
本申请实施例中,可以通过目标参考设备的标识参数对应的频响转移模型对被校准设备采集的待校准语音信号进行频响校准,由于频响转移模型包括k个频响转移子模型,可以在k个频点上分别进行校准,使得频响校准后的信号的频响曲线更接近目标参考设备采集的信号的频响曲线,从而提高频响校准的效果。
本申请实施例还提供一种计算机可读存储介质,其中,该计算机可读存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种频响校准方法的部分或全部步骤。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在申请明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器、随机存取器、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种频响校准方法,其特征在于,包括:
获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数;
确定与所述标识参数对应的频响转移模型,所述频响转移模型包括k个频响转移子模型,所述k个频响转移子模型是分别在k个频点训练得到的,所述k个频点中任意两个频点不同,k为大于或等于2的整数;
利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。
2.根据权利要求1所述的方法,其特征在于,所述利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号,包括:
将所述待校准语音信号进行傅里叶变换,得到k维离散傅里叶变换序列,所述k维离散傅里叶变换序列与所述k个频点一一对应;
将所述k维离散傅里叶变换序列输入一一对应的所述k个频响转移子模型,得到所述k个频点上的k个频响校准参数;
将所述k个离散傅里叶变换序列、所述k个频响校准参数和k维滤波向量进行点乘运算后进行逆傅里叶变化,得到频响校准后的信号。
3.根据权利要求2所述的方法,其特征在于,所述k维滤波向量中的大于第一频点的维度置0,将所述k维滤波向量中的小于第一频点的维度置1。
4.根据权利要求1~3任一项所述的方法,其特征在于,所述获取目标参考设备的标识参数之前,所述方法还包括:
根据预设语音质量判别算法对所述待校准语音信号进行质量判别,得到所述待校准语音信号的语音质量判别参数,将所述待校准语音信号的语音质量判别参数上传至仲裁端,所述仲裁端用于根据上传的语音质量判别参数确定上传的语音质量最好的设备为所述目标参考设备;
所述获取目标参考设备的标识参数,包括:
接收所述仲裁端发送的针对所述目标参考设备的标识参数。
5.根据权利要求4所述的方法,其特征在于,所述得到频响校准后的信号之后,所述方法还包括:
将所述频响校准后的信号发送至仲裁端,所述仲裁端用于根据所述频响校准后的信号进行服务仲裁。
6.根据权利要求1~5任一项所述的方法,其特征在于,所述确定与所述标识参数对应的频响转移模型之前,所述方法还包括:
获取语音训练样本,所述语音训练样本包括在相同声压下所述被校准设备采集到的n条第一语音数据和第一参考设备采集到的n条第二语音数据,n为正整数,所述第一参考设备为用于训练的至少一个参考设备中的一个;
对所述第一语音数据和所述第二语音数据分别做傅里叶变换,得到所述第一语音数据的频率响应和所述第二语音数据的频率响应;
获取所述第一语音数据在第一频点的频率响应,获取所述第二语音数据在所述第一频点的频率响应,得到被校准设备-第一参考设备在所述第一频点的频率响应对,所述第一频点为所述k个频点中的任一个;
将所述被校准设备-第一参考设备的频率响应对映射到高维空间,得到所述被校准设备-第一参考设备在所述高维空间的频率响应对;
将所述被校准设备-第一参考设备在所述高维空间的频率响应对输入所述第一频点对应的频响校准模型进行训练,计算所述第一频点对应的频响校准模型的训练损失,根据计算得到的训练损失对所述第一频点对应的频响校准模型的模型参数进行更新;
在满足训练条件时,确定所述第一频点对应的频响校准模型为所述第一频点训练得到的频响转移子模型。
7.根据权利要求6所述的方法,其特征在于,所述将所述被校准设备-第一参考设备的频率响应对映射到高维空间,得到所述被校准设备-第一参考设备在所述高维空间的频率响应对,包括:
采用径向基核函数将所述被校准设备-第一参考设备的频率响应对映射到高维空间,得到所述被校准设备-第一参考设备在所述高维空间的频率响应对。
8.根据权利要求6所述的方法,其特征在于,所述频响校准模型包括支持向量回归SVR模型,所述SVR模型的拟合曲线的两侧松弛程度设置为相同。
9.一种多设备唤醒系统,其特征在于,包括仲裁端以及与所述仲裁端通信连接的至少两个终端设备,所述至少两个终端设备开启语音唤醒功能,其中:
第一终端设备,用于接收唤醒语音,采用语音质量判别算法对接收的唤醒语音进行质量判别,将得到的第一语音质量判别参数上传至所述仲裁端,所述第一终端设备为所述至少两个终端设备中的任一个;
所述仲裁端,用于根据所述至少两个终端设备上传的语音质量判别参数确定所述至少两个终端设备中的参考设备,将所述参考设备的标识参数发送至所述至少两个终端中的非参考设备;
所述第二终端设备,用于确定与所述标识参数对应的频响转移模型,通过所述频响转移模型对所述第二终端设备接收的唤醒语音进行频响校准,得到校准后的唤醒语音,将所述校准后的唤醒语音或者所述校准后的唤醒语音对应的语音信号特征上传至所述仲裁端,所述第二终端设备为所述至少两个终端中的非参考设备中的任一个;
所述仲裁端,用于根据所述非参考设备上传的校准后的唤醒语音以及所述参考设备上传的唤醒语音确定所述两个终端设备中的唤醒设备,向所述唤醒设备发送唤醒指令;或者用于根据所述非参考设备上传的校准后的唤醒语音对应的语音信号特征以及所述参考设备上传的唤醒语音对应的语音信号特征确定所述两个终端设备中的唤醒设备,向所述唤醒设备发送唤醒指令。
10.一种频响校准装置,其特征在于,包括:
获取单元,用于获取被校准设备采集的待校准语音信号,获取目标参考设备的标识参数;
确定单元,用于确定与所述标识参数对应的频响转移模型,所述频响转移模型包括k个频响转移子模型,所述k个频响转移子模型是分别在k个频点训练得到的,所述k个频点中任意两个频点不同,k为大于或等于2的整数;
频响校准单元,用于利用所述k个频响转移子模型对所述待校准语音信号在k个频点分别进行频响校准,得到频响校准后的信号。
11.一种终端设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1~8任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1~8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110179473.2A CN112927705B (zh) | 2021-02-09 | 2021-02-09 | 频响校准方法及相关产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110179473.2A CN112927705B (zh) | 2021-02-09 | 2021-02-09 | 频响校准方法及相关产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112927705A true CN112927705A (zh) | 2021-06-08 |
CN112927705B CN112927705B (zh) | 2023-08-29 |
Family
ID=76171404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110179473.2A Active CN112927705B (zh) | 2021-02-09 | 2021-02-09 | 频响校准方法及相关产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112927705B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023165954A1 (en) * | 2022-03-03 | 2023-09-07 | Genting Taurx Diagnostic Centre Sdn Bhd | Method for harmonising data between machines |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007129373A (ja) * | 2005-11-01 | 2007-05-24 | Univ Waseda | マイクロフォン感度調整方法およびそのシステム |
US20170006399A1 (en) * | 2014-06-03 | 2017-01-05 | Intel Corporation | Automated equalization of microphones |
CN109309896A (zh) * | 2018-09-29 | 2019-02-05 | 歌尔科技有限公司 | 音频设备的麦克风校准方法、装置、系统及可读存储介质 |
CN109979469A (zh) * | 2019-04-03 | 2019-07-05 | 北京小米智能科技有限公司 | 信号处理方法、设备及存储介质 |
CN110049442A (zh) * | 2019-05-23 | 2019-07-23 | 江西师范大学 | 基于智能手机的室内WiFi指纹定位自动标定方法及系统 |
CN110324475A (zh) * | 2018-03-28 | 2019-10-11 | 努比亚技术有限公司 | 一种声波校准方法、终端及计算机可读存储介质 |
CN110515085A (zh) * | 2019-07-31 | 2019-11-29 | Oppo广东移动通信有限公司 | 超声波处理方法、装置、电子设备及计算机可读介质 |
CN111417053A (zh) * | 2020-03-10 | 2020-07-14 | 北京小米松果电子有限公司 | 拾音音量控制方法、装置以及存储介质 |
CN111638494A (zh) * | 2020-05-31 | 2020-09-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 数字波束合成系统多通道幅相校正方法 |
-
2021
- 2021-02-09 CN CN202110179473.2A patent/CN112927705B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007129373A (ja) * | 2005-11-01 | 2007-05-24 | Univ Waseda | マイクロフォン感度調整方法およびそのシステム |
US20170006399A1 (en) * | 2014-06-03 | 2017-01-05 | Intel Corporation | Automated equalization of microphones |
CN110324475A (zh) * | 2018-03-28 | 2019-10-11 | 努比亚技术有限公司 | 一种声波校准方法、终端及计算机可读存储介质 |
CN109309896A (zh) * | 2018-09-29 | 2019-02-05 | 歌尔科技有限公司 | 音频设备的麦克风校准方法、装置、系统及可读存储介质 |
CN109979469A (zh) * | 2019-04-03 | 2019-07-05 | 北京小米智能科技有限公司 | 信号处理方法、设备及存储介质 |
CN110049442A (zh) * | 2019-05-23 | 2019-07-23 | 江西师范大学 | 基于智能手机的室内WiFi指纹定位自动标定方法及系统 |
CN110515085A (zh) * | 2019-07-31 | 2019-11-29 | Oppo广东移动通信有限公司 | 超声波处理方法、装置、电子设备及计算机可读介质 |
CN111417053A (zh) * | 2020-03-10 | 2020-07-14 | 北京小米松果电子有限公司 | 拾音音量控制方法、装置以及存储介质 |
CN111638494A (zh) * | 2020-05-31 | 2020-09-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 数字波束合成系统多通道幅相校正方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023165954A1 (en) * | 2022-03-03 | 2023-09-07 | Genting Taurx Diagnostic Centre Sdn Bhd | Method for harmonising data between machines |
Also Published As
Publication number | Publication date |
---|---|
CN112927705B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107731223B (zh) | 语音活性检测方法、相关装置和设备 | |
CN110288978B (zh) | 一种语音识别模型训练方法及装置 | |
CN108899044B (zh) | 语音信号处理方法及装置 | |
US10687155B1 (en) | Systems and methods for providing personalized audio replay on a plurality of consumer devices | |
CN109845288B (zh) | 用于麦克风之间的输出信号均衡的方法和装置 | |
CN109495649A (zh) | 音量调节方法、系统及存储介质 | |
CN102549659A (zh) | 抑制音频信号中的噪声 | |
CN102883121A (zh) | 一种调节音量的方法、装置及数字终端 | |
WO2012175054A1 (zh) | 一种基音检测的方法和装置 | |
CN111063366A (zh) | 降低噪声的方法、装置、电子设备及可读存储介质 | |
CN115775562B (zh) | 一种用于蓝牙耳机的声音外泄检测方法 | |
WO2021007841A1 (zh) | 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备 | |
CN103546617A (zh) | 一种声音调节的方法及终端 | |
CN108600898B (zh) | 一种配置无线音箱的方法、无线音箱及终端设备 | |
CN113593548A (zh) | 智能设备的唤醒方法和装置、存储介质及电子装置 | |
CN112927705B (zh) | 频响校准方法及相关产品 | |
WO2024027246A1 (zh) | 声音信号处理方法、装置、电子设备和存储介质 | |
CN111294704B (zh) | 音频处理方法、装置及存储介质 | |
CN106997768B (zh) | 一种语音出现概率的计算方法、装置及电子设备 | |
US11562763B2 (en) | Method for improving sound quality and electronic device using same | |
CN111462757B (zh) | 基于语音信号的数据处理方法、装置、终端及存储介质 | |
CN106790963B (zh) | 音频信号的控制方法及装置 | |
CN113612717A (zh) | 频偏校准方法、装置、电子设备及存储介质 | |
CN112992189A (zh) | 语音音频的检测方法及装置、存储介质及电子装置 | |
CN111341347A (zh) | 一种噪声检测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |