CN111414669A - 一种音频数据处理的方法及装置 - Google Patents

一种音频数据处理的方法及装置 Download PDF

Info

Publication number
CN111414669A
CN111414669A CN201811558661.0A CN201811558661A CN111414669A CN 111414669 A CN111414669 A CN 111414669A CN 201811558661 A CN201811558661 A CN 201811558661A CN 111414669 A CN111414669 A CN 111414669A
Authority
CN
China
Prior art keywords
audio data
simulation
room
field audio
far
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811558661.0A
Other languages
English (en)
Other versions
CN111414669B (zh
Inventor
黄智超
吴本谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201811558661.0A priority Critical patent/CN111414669B/zh
Publication of CN111414669A publication Critical patent/CN111414669A/zh
Application granted granted Critical
Publication of CN111414669B publication Critical patent/CN111414669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本申请提供一种音频数据处理的方法及装置,其中所述方法包括:确定镜像算法所需的仿真参数;根据所述镜像算法和所述仿真参数,生成房间冲激响应;根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据,从而与现有技术相比,仿真过程中得到丰富的卷积核,并且音频数据的范围可变,能覆盖大部分房间和情况,从而获得较好的远场音频效果。

Description

一种音频数据处理的方法及装置
技术领域
本申请涉及语音识别技术领域,特别涉及一种音频数据处理的方法及装置。
背景技术
随着智能设备的普及,语音识别的应用场合也越来越多。现有技术中,语音识别一般是收集近场数据,然后对近场数据进行标注,然后训练得到声学模型。然后在收到语音后,通过训练得到的声学模型对语音进行识别,获取到清晰的语音信息。
但是在实际的应用场景下,人离麦克风较远都大于50cm,甚至3m,由于传输距离较长,而且语音中会包含更多的干扰,导致语音识别的准确率大幅下降,不能得到较佳的语音处理结果。
发明内容
有鉴于此,本申请实施例提供了一种音频数据处理的方法及装置,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种音频数据处理的方法,包括:
确定镜像算法所需的仿真参数;
根据所述镜像算法和所述仿真参数,生成房间冲激响应;
根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据。
可选地,所述仿真参数包括:房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种;
其中,所述仿真房间的参数包括:仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。
可选地,根据所述镜像算法和所述仿真参数,生成房间冲激响应,包括:
根据麦克风的仿真位置参数和播放源的仿真位置参数,得到麦克风与播放源的仿真距离参数;
根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数,采用所述镜像算法计算得到所述麦克风的房间冲激响应。
可选地,所述仿真房间内的各个墙壁的反射次数通过以下方法获取:
获取所述播放源的镜像点相对于所述播放源的仿真位置;
获取所述仿真房间内的各个墙壁的反射阶数;
根据所述播放源的镜像点相对于所述播放源的仿真位置以及所述仿真房间内的各个墙壁的反射阶数,得到所述仿真房间内的各个墙壁的反射次数。
可选地,根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据,包括:
获取噪声数据;
根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据。
可选地,根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据,包括:
将所述房间冲激响应和所述近场音频数据进行卷积;
将所述卷积的结果和所述噪声数据求和,得到所述远场音频数据。
可选地,所述噪声数据通过录制或仿真的方式获得。
可选地,本申请的音频数据处理的方法还包括:
获取所述近场音频数据的标签;
将所述远场音频数据作为训练样本,将所述近场音频数据的标签作为训练标签,训练远场声学模型。
本申请实施例公开了一种音频数据处理的装置,包括:
参数确定模块,被配置为确定镜像算法所需的仿真参数;
响应生成模块,被配置为根据所述镜像算法和所述仿真参数,生成房间冲激响应;
远场音频数据生成模块,被配置为根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据。
可选地,所述仿真参数包括:房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种;
其中,所述仿真房间的参数包括:仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。
可选地,所述响应生成模块具体被配置为:
根据麦克风的仿真位置参数和播放源的仿真位置参数,得到麦克风与播放源的仿真距离参数;
根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数,采用所述镜像算法计算得到所述麦克风的房间冲激响应。
可选地,所述响应生成模块还被配置为:获取所述播放源的镜像点相对于所述播放源的仿真位置;获取所述仿真房间内的各个墙壁的反射阶数;根据所述播放源的镜像点相对于所述播放源的仿真位置以及所述仿真房间内的各个墙壁的反射阶数,得到所述仿真房间内的各个墙壁的反射次数。
可选地,所述远场音频数据生成模块还被配置为:获取噪声数据;根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据。
可选地,所述远场音频数据生成模块具体被配置为:将所述房间冲激响应和所述近场音频数据进行卷积;将所述卷积的结果和所述噪声数据求和,得到所述远场音频数据。
可选地,所述噪声数据通过录制或仿真的方式获得。
可选地,本申请的音频数据处理的装置还包括:
标签获取模块,被配置为获取所述近场音频数据的标签;
训练模块,被配置为将所述远场音频数据作为训练样本,将所述近场音频数据的标签作为训练标签,训练远场声学模型。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述音频数据处理的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述音频数据处理的方法的步骤。
本申请提供的音频数据处理的方法及装置,通过确定镜像算法所需的仿真参数;根据镜像算法和仿真参数,生成房间冲激响应;根据已获取的近场音频数据和房间冲激响应,生成远场音频数据,从而与现有技术相比,仿真过程中得到丰富的卷积核,并且音频数据的范围可变,能覆盖大部分房间和情况,从而获得较好的远场音频效果。
另外,将生成的远场音频数据作为训练样本,将近场音频数据的标签作为训练标签训练远场声学模型,训练模型泛化能力强。训练声学模型时标签是由近场音频数据拷贝过来,避免了人标注带来的标签错误和节省了人力成本,解决了冷启动问题。
附图说明
图1是本申请实施例中的关于镜像法的示意图;
图2是本申请实施例的音频数据处理的方法的流程示意图;
图3是本申请实施例的音频数据处理的方法的流程示意图;
图4是本申请实施例的音频数据处理的方法的流程示意图;
图5是本申请实施例的音频数据处理的方法的流程示意图;
图6是本申请实施例的音频数据处理的装置的示意图;
图7是本申请实施例的计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请中,提供了一种音频数据处理的方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
首先,对本申请实施例中涉及的术语概念进行解释:
近场音频、远场音频:近场音频和远场音频并没有绝对的划分标准,一般认为声源离麦克风阵列中心参考点的距离远大于信号波长时为远场音频;反之,则为近场音频。一种经验公式如下:设均匀线性的麦克风阵列中的相邻阵元之间的距离(又称阵列孔径)为D,声源最高频率语音的波长(即声源的最小波长)为λmin,如果声源到阵列中心的距离大于2D2min,则为远场音频,否则为近场音频。
仿真房间:对音频数据进行仿真的空间,具有可以确定的长度、宽度和高度。
镜像算法:本质是用虚拟等效的虚拟声源代替实际声源,以便于表达墙壁的反射声音。参见图1,S为实际播放源,S’为虚拟播放源,r为麦克风,Lx为仿真房间的x向的长度。需要注意的是,实际声源S、虚拟声源S’和麦克风r均为仿真得到,实际声源S到麦克风r的经由墙壁反射的路径为实际音频传递路径,虚拟声源S’到麦克风r的路径为虚拟音频传递路径。
在此仿真过程中,可以得到仿真算法所需要的参数,包括:麦克风的仿真位置参数、播放源的仿真位置参数、仿真房间内的各个墙壁的吸声系数、在实际声源的仿真音频传递至麦克风的过程中各个墙壁对音频的反射次数、仿真房间的长度、高度和宽度。
GMM(Adaptive background mixture models for real-time tracking),高斯混合模型。高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
本实施例公开了一种音频数据处理的方法,如图2所示,包括:
202、确定镜像算法所需的仿真参数。
具体地,仿真参数包括但不限于:房间仿真参数、麦克风的仿真位置参数(如麦克风的三维坐标值)和播放源的仿真位置参数(如播放源的三维坐标值)中的至少一种;
其中,房间仿真参数包括但不限于:仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。
在实施中,确定多个仿真参数组合,不同组合中至少有一个仿真参数的数值是不同的,从而基于上述多个仿真参数组合,生成多个房间冲激响应(也称为卷积核),由于生成了丰富的房间冲激响应,进而能够获得更多的远场音频数据。
204、根据所述镜像算法和所述仿真参数,生成房间冲激响应。
206、根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据。
具体地,近场音频数据是容易获取的,结合已知的近场音频数据以及生成的房间冲激响应,可生成对应的远场音频数据。
进一步的,在生成远场音频数据的过程中,还可以加入噪声信号,以使生成的远场音频数据更符合实际使用场景。
本发明实施例中,播放源可以是用户,即基于单个麦克风采集的该用户的近场语音数据,仿真得到远场语音数据。
本发明一实施例,参见图3,步骤204中根据所述镜像算法和所述仿真参数,生成房间冲激响应进一步包括:
302、根据麦克风的仿真位置参数和播放源的仿真位置参数,得到麦克风与播放源的仿真距离参数。
例如,根据麦克风的仿真位置参数和用户的仿真位置参数,得到麦克风与用户的仿真距离参数。
304、根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数,采用所述镜像算法计算得到所述麦克风的房间冲激响应。
其中,仿真房间内的各个墙壁的反射次数通过以下方法获取:
获取所述播放源的镜像点相对于所述播放源的位置;
获取所述仿真房间内的各个墙壁的反射阶数;
根据所述播放源的镜像点相对于所述播放源的位置以及所述仿真房间内的各个墙壁的反射阶数,得到所述仿真房间内的各个墙壁的反射次数。
具体地,在一个具体的实施方案中,通过以下公式(1)计算得到每个麦克风的房间冲激响应:
Figure BDA0001912675530000081
其中,a1、a2分别代表仿真房间的长度方向的两个墙壁;
b1、b2分别代表仿真房间的宽度方向的两个墙壁;
c1、c2分别代表仿真房间的高度方向的两个墙壁;
H(r,rs,k)代表麦克风的房间冲激响应,其中,r代表麦克风,rs代表播放源,k代表近场音频数据的波数;
β代表仿真房间内的墙壁的吸声系数;
Rp,m代表麦克风与所述播放源的仿真距离;
p代表播放源的镜像点的相对位置,若为0,则镜像点在播放源的左边,若为1,则镜像点在播放源的右边;
具体地,pa代表在仿真房间的长度方向上,镜像点在播放源的相对位置,若为0,则镜像点在播放源的左边,若为1,则镜像点在播放源的右边;pb代表在仿真房间的宽度方向上,镜像点在播放源的相对位置;pc代表在仿真房间的高度方向上,镜像点在播放源的相对位置;
m代表音频在墙壁的反射阶数,-2≤m≤2,且m为整数;
具体地,ma代表音频在仿真房间的长度方向上的墙壁的反射阶数;mb代表音频在仿真房间的宽度方向上的墙壁的反射阶数;mc代表音频在仿真房间的高度方向上的墙壁的反射阶数;
通过m和p得到音频在各个墙壁的反射次数。
本发明一实施例,参见图4,步骤206中根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据包括:
402、获取噪声数据。
404、根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据。
具体地,步骤404具体包括:将所述房间冲激响应和所述近场音频数据进行卷积;将所述卷积的结果和所述噪声数据求和,得到所述远场音频数据。
具体地,麦克风的远场音频数据通过下述公式(2)来计算:
Figure BDA0001912675530000091
其中,yi代表第i个麦克风的远场音频数据;
hi代表第i个麦克风的房间冲激响应;
s代表近场音频数据;
ni代表第i个麦克风收集到的噪声数据;
i为大于或等于1的正整数。
在实施例中,所述噪声数据通过录制或仿真的方式获得。例如在一个具体的实施方案中,通过在仿真算法中设置噪声源,以实现噪声数据的获取。
可选地,在仿真得到了丰富的远场音频数据后,参见图5,基于该远场音频数据对远场声学模型进行训练,具体如下:
502、获取所述近场音频数据的标签。
其中,近场音频数据的标签可以已知的,即通过人工标注得到;也可以通过将近场音频数据输入至近场声学模型来获得,即利用近场声学模型对近场音频数据对齐得到近场音频数据的标签。
504、将所述远场音频数据作为训练样本,将所述近场音频数据的标签作为训练标签,训练远场声学模型。
本申请提供的音频数据处理的方法,通过确定镜像算法所需的仿真参数;根据镜像算法和仿真参数,生成房间冲激响应;根据已获取的近场音频数据和房间冲激响应,生成远场音频数据,从而与现有技术相比,仿真过程中得到丰富的卷积核,并且音频数据的范围可变,能覆盖大部分房间和情况,从而获得较好的远场音频效果。
另外,将生成的远场音频数据作为训练样本,将近场音频数据的标签作为训练标签训练远场声学模型,训练模型泛化能力强。训练声学模型时标签是由近场音频数据拷贝过来,避免了人标注带来的标签错误和节省了人力成本,解决了冷启动问题。
本申请实施例还公开一种音频数据处理的装置,参见图6,所述装置包括:
参数确定模块602,被配置为确定镜像算法所需的仿真参数;
响应生成模块604,被配置为根据所述镜像算法和所述仿真参数,生成房间冲激响应;
远场音频数据生成模块606,被配置为根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据。
可选地,本实施例的仿真参数包括:房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种;其中,所述房间仿真参数包括:仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。
可选地,响应生成模块604具体被配置为:
根据麦克风的仿真位置参数和播放源的仿真位置参数,得到麦克风与播放源的仿真距离参数;
根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数,采用所述镜像算法计算得到所述麦克风的房间冲激响应。
可选地,响应生成模块604还被配置为:获取所述播放源的镜像点相对于所述播放源的位置;获取所述仿真房间内的各个墙壁的反射阶数;根据所述播放源的镜像点相对于所述播放源的位置以及所述仿真房间内的各个墙壁的反射阶数,得到所述仿真房间内的各个墙壁的反射次数。
可选地,远场音频数据生成模块606具体被配置为:将所述房间冲激响应和所述近场音频数据进行卷积;将所述卷积的结果和所述噪声数据求和,得到所述远场音频数据。
可选地,噪声数据通过录制或仿真的方式获得。
可选地,本申请实施例的音频数据处理的装置还包括:
标签获取模块,被配置为获取所述近场音频数据的标签;
训练模块,被配置为将所述远场音频数据作为训练样本,将所述近场音频数据的标签作为训练标签,训练远场声学模型。
本申请提供的音频数据处理的装置,通过确定镜像算法所需的仿真参数;根据镜像算法和仿真参数,生成房间冲激响应;根据已获取的近场音频数据和房间冲激响应,生成远场音频数据,从而与现有技术相比,仿真过程中得到丰富的卷积核,并且音频数据的范围可变,能覆盖大部分房间和情况,从而获得较好的远场音频效果。
另外,将生成的远场音频数据作为训练样本,将近场音频数据的标签作为训练标签训练远场声学模型,训练模型泛化能力强。训练声学模型时标签是由近场音频数据拷贝过来,避免了人标注带来的标签错误和节省了人力成本,解决了冷启动问题。
上述为本实施例的音频数据处理的装置的示意性方案。需要说明的是,该装置的技术方案与上述的音频数据处理的方法的技术方案属于同一构思,装置的技术方案未详细描述的细节内容,均可以参见上述音频数据处理的方法的技术方案的描述。
图7是示出了根据本申请一实施例的计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710相连接。存储器710存储有可在处理器720上运行的计算机指令,所述处理器720执行所述指令时实现如上所述的音频数据处理的方法步骤。
虽然图7中没有示出,但是应该知道,计算设备700还可以包括网络接口,网络接口使得计算设备700能够经由一个或多个网络通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.66无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备700的上述以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述音频数据处理的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的音频数据处理的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述音频数据处理的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (10)

1.一种音频数据处理的方法,其特征在于,所述方法包括:
确定镜像算法所需的仿真参数;
根据所述镜像算法和所述仿真参数,生成房间冲激响应;
根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据。
2.如权利要求1所述的音频数据处理的方法,其特征在于,所述仿真参数包括:房间仿真参数、麦克风的仿真位置参数和播放源的仿真位置参数中的至少一种;
其中,所述房间仿真参数包括:仿真房间内的各个墙壁的吸声系数和反射次数中的至少一种。
3.如权利要求2所述的音频数据处理的方法,其特征在于,根据所述镜像算法和所述仿真参数,生成房间冲激响应,包括:
根据麦克风的仿真位置参数和播放源的仿真位置参数,得到麦克风与播放源的仿真距离参数;
根据所述仿真房间内的各个墙壁的吸声系数、反射次数以及所述麦克风与所述播放源的仿真距离参数,采用所述镜像算法计算得到所述麦克风的房间冲激响应。
4.如权利要求3所述的音频数据处理的方法,其特征在于,所述仿真房间内的各个墙壁的反射次数通过以下方法获取:
获取所述播放源的镜像点相对于所述播放源的仿真位置;
获取所述仿真房间内的各个墙壁的反射阶数;
根据所述播放源的镜像点相对于所述播放源的仿真位置以及所述仿真房间内的各个墙壁的反射阶数,得到所述仿真房间内的各个墙壁的反射次数。
5.如权利要求1所述的音频数据处理的方法,其特征在于,根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据,包括:
获取噪声数据;
根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据。
6.如权利要求5所述的音频数据处理的方法,其特征在于,根据已获取的近场音频数据、所述房间冲激响应以及所述噪声数据,生成远场音频数据,包括:
将所述房间冲激响应和所述近场音频数据进行卷积;
将所述卷积的结果和所述噪声数据求和,得到所述远场音频数据。
7.如权利要求5或6所述的音频数据处理的方法,其特征在于,所述噪声数据通过录制或仿真的方式获得。
8.如权利要求1所述的音频数据处理的方法,其特征在于,还包括:
获取所述近场音频数据的标签;
将所述远场音频数据作为训练样本,将所述近场音频数据的标签作为训练标签,训练远场声学模型。
9.一种音频数据处理的装置,其特征在于,包括:
参数确定模块,被配置为确定镜像算法所需的仿真参数;
响应生成模块,被配置为根据所述镜像算法和所述仿真参数,生成房间冲激响应;
远场音频数据生成模块,被配置为根据已获取的近场音频数据和所述房间冲激响应,生成远场音频数据。
10.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。
CN201811558661.0A 2018-12-19 2018-12-19 一种音频数据处理的方法及装置 Active CN111414669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811558661.0A CN111414669B (zh) 2018-12-19 2018-12-19 一种音频数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811558661.0A CN111414669B (zh) 2018-12-19 2018-12-19 一种音频数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN111414669A true CN111414669A (zh) 2020-07-14
CN111414669B CN111414669B (zh) 2023-11-14

Family

ID=71490741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811558661.0A Active CN111414669B (zh) 2018-12-19 2018-12-19 一种音频数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN111414669B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112770227A (zh) * 2020-12-30 2021-05-07 中国电影科学技术研究所 音频处理方法、装置、耳机和存储介质
CN117558266A (zh) * 2024-01-12 2024-02-13 腾讯科技(深圳)有限公司 模型训练方法、装置、设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201709846D0 (en) * 2017-06-20 2017-08-02 Nokia Technologies Oy Processing audio signals
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统
CN108242234A (zh) * 2018-01-10 2018-07-03 腾讯科技(深圳)有限公司 语音识别模型生成方法及其设备、存储介质、电子设备
US20180278962A1 (en) * 2017-03-22 2018-09-27 IMMERSION SERVICES LLC dba IMMERSION NETWORKS System and method for processing audio data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180278962A1 (en) * 2017-03-22 2018-09-27 IMMERSION SERVICES LLC dba IMMERSION NETWORKS System and method for processing audio data
GB201709846D0 (en) * 2017-06-20 2017-08-02 Nokia Technologies Oy Processing audio signals
CN107481731A (zh) * 2017-08-01 2017-12-15 百度在线网络技术(北京)有限公司 一种语音数据增强方法及系统
CN108242234A (zh) * 2018-01-10 2018-07-03 腾讯科技(深圳)有限公司 语音识别模型生成方法及其设备、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
童颖;顾亚平;杨小平;张俊;: "基于源镜像法的混响滤波器的设计与性能研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112770227A (zh) * 2020-12-30 2021-05-07 中国电影科学技术研究所 音频处理方法、装置、耳机和存储介质
CN117558266A (zh) * 2024-01-12 2024-02-13 腾讯科技(深圳)有限公司 模型训练方法、装置、设备及计算机可读存储介质
CN117558266B (zh) * 2024-01-12 2024-03-22 腾讯科技(深圳)有限公司 模型训练方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111414669B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
US10360899B2 (en) Method and device for processing speech based on artificial intelligence
Antonello et al. Room impulse response interpolation using a sparse spatio-temporal representation of the sound field
CN110992974B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN110136691B (zh) 一种语音合成模型训练方法、装置、电子设备及存储介质
CN109767765A (zh) 话术匹配方法及装置、存储介质、计算机设备
CN111341303A (zh) 一种声学模型的训练方法及装置、语音识别方法及装置
CN103426437A (zh) 使用利用混合多元概率密度函数的独立分量分析的源分离
CN107705782B (zh) 用于确定音素发音时长的方法和装置
TWI731382B (zh) 語音合成的方法、裝置及設備
US9484044B1 (en) Voice enhancement and/or speech features extraction on noisy audio signals using successively refined transforms
US9530434B1 (en) Reducing octave errors during pitch determination for noisy audio signals
CN115691544A (zh) 虚拟形象口型驱动模型的训练及其驱动方法、装置和设备
US9208794B1 (en) Providing sound models of an input signal using continuous and/or linear fitting
CN111414669A (zh) 一种音频数据处理的方法及装置
CN114863905A (zh) 语音类别获取方法、装置、电子设备和存储介质
WO2019218773A1 (zh) 语音的合成方法及装置、存储介质、电子装置
US10079028B2 (en) Sound enhancement through reverberation matching
CN113314101B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN114708876A (zh) 音频处理方法、装置、电子设备及存储介质
CN113707172A (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备
Zhao et al. Enhancing audio perception in augmented reality: a dynamic vocal information processing framework
CN113066472A (zh) 合成语音处理方法及相关装置
Sanaguano-Moreno et al. Real-time impulse response: a methodology based on Machine Learning approaches for a rapid impulse response generation for real-time Acoustic Virtual Reality systems
CN114446316B (zh) 音频分离方法、音频分离模型的训练方法、装置及设备
CN114863939B (zh) 一种基于声音的大熊猫属性识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant