CN117672234A - 音频丢包数据恢复方法、装置、电子设备及存储介质 - Google Patents
音频丢包数据恢复方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN117672234A CN117672234A CN202211023198.6A CN202211023198A CN117672234A CN 117672234 A CN117672234 A CN 117672234A CN 202211023198 A CN202211023198 A CN 202211023198A CN 117672234 A CN117672234 A CN 117672234A
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- packet loss
- target
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011084 recovery Methods 0.000 title claims abstract description 82
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 241001342895 Chorus Species 0.000 description 34
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 33
- 238000010586 diagram Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 241000282376 Panthera tigris Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供了一种音频丢包数据恢复方法、装置、电子设备及存储介质,该方法包括:将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,其中,所述目标音频存在数据缺失的丢包帧;根据所述目标音频的丢包帧位置和所述音频对齐结果,获取所述参考音频中对应于所述丢包帧位置的第一参考帧,并获取位于所述第一参考帧之前且与所述第一参考帧相邻的第二参考帧;基于所述第一参考帧与所述第二参考帧之间的音频特征关联,以位于所述丢包帧之前且与所述丢包帧相邻的在前目标帧为基准,对所述丢包帧进行数据恢复。本申请实施例能够同时满足音频丢包数据恢复的准确性要求和低时延要求。
Description
技术领域
本申请涉及音频领域,具体涉及一种音频丢包数据恢复方法、装置、电子设备及存储介质。
背景技术
由于网络传输数据时总是不可避免地会出现丢包,因此音频数据在网络传输过程中也是不可避免地会出现音频丢包。在各种音视频相关的应用(例如:在线会议应用、在线K歌应用等)中,音频丢包会导致音频卡顿和音频失真。因此为了尽量避免音频卡顿和音频失真,需要对音频丢包数据进行恢复。现有技术提出的音频丢包数据恢复技术,在满足准确性要求的时候难以满足低时延要求,在满足低时延要求的时候又难以满足准确性要求。
发明内容
本申请的一个目的在于提出一种音频丢包数据恢复方法、装置、电子设备及存储介质,能够同时满足音频丢包数据恢复的准确性要求和低时延要求。
根据本申请实施例的一方面,公开了一种音频丢包数据恢复方法,所述方法包括:
将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,其中,所述目标音频存在数据缺失的丢包帧;
根据所述目标音频的丢包帧位置和所述音频对齐结果,获取所述参考音频中对应于所述丢包帧位置的第一参考帧,并获取位于所述第一参考帧之前且与所述第一参考帧相邻的第二参考帧;
基于所述第一参考帧与所述第二参考帧之间的音频特征关联,以位于所述丢包帧之前且与所述丢包帧相邻的在前目标帧为基准,对所述丢包帧进行数据恢复。
根据本申请实施例的一方面,公开了一种音频丢包数据恢复装置,所述装置包括:
音频对齐模块,配置为将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,其中,所述目标音频存在数据缺失的丢包帧;
参考帧获取模块,配置为根据所述目标音频的丢包帧位置和所述音频对齐结果,获取所述参考音频中对应于所述丢包帧位置的第一参考帧,并获取位于所述第一参考帧之前且与所述第一参考帧相邻的第二参考帧;
数据恢复模块,配置为基于所述第一参考帧与所述第二参考帧之间的音频特征关联,以位于所述丢包帧之前且与所述丢包帧相邻的在前目标帧为基准,对所述丢包帧进行数据恢复。
根据本申请实施例的一方面,公开了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现上述各种可选实现方式中提供的方法。
根据本申请实施例的一方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述各种可选实现方式中提供的方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
本申请实施中,将存在丢包帧的目标音频和参考音频进行对齐,进而根据目标音频的丢包帧位置和音频对齐结果,获取参考音频中对应于丢包帧位置的第一参考帧,并获取位于第一参考帧之前且与之相邻的第二参考帧,进而基于第一参考帧与第二参考帧之间的音频特征关联,以丢包帧的在前目标帧为基准,对丢包帧进行数据恢复。通过这种方法,无论相邻帧信号是否发生较大改变,本申请均能够准确地对丢包帧进行数据恢复,满足音频丢包数据恢复的准确性要求;同时,由于本申请节省了为获取丢包帧之后的在后信息所花费的等待时间,因此还能够满足音频丢包数据恢复的低时延要求。由此可见,本申请能够同时满足音频丢包数据恢复的准确性要求和低时延要求。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参考附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
图1示出了根据本申请一个实施例的示例性系统架构的示意图。
图2示出了根据本申请一个实施例的音频丢包数据恢复方法的流程图。
图3示出了根据本申请一个实施例的音频对齐结果示意图。
图4示出了根据本申请一个实施例的对齐前的目标音频和参考音频的示意图。
图5示出了根据本申请一个实施例的对齐后的目标音频和参考音频的示意图。
图6示出了根据本申请一个实施例的基于本申请所提供音频丢包数据恢复方法实现多人在线合唱的流程示意图。
图7示出了根据本申请一个实施例的音频丢包数据恢复装置的框图。
图8示出了根据本申请一个实施例的电子设备硬件图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本申请的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本申请的各方面变得模糊。
附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本申请提供了一种音频丢包数据恢复方法,主要作用在于对目标音频中存在数据缺失的丢包帧进行数据恢复,从而保证目标音频的可懂性和流畅性。
进一步的,本申请所提供音频丢包数据恢复方法,主要是针对在线网络音频传输时所出现的音频丢包进行数据恢复,在满足丢包数据恢复的准确性要求的同时,满足丢包数据恢复的低时延要求。
需要说明的是,网络传输的过程中,由于数据包物理丢失,或是由于数据包网络传输抖动、传输延时导致数据包晚到而超出实际业务的允许范围被舍弃,总是难以避免地会出现传输丢包。因此,在线网络音频传输时,难以避免地会导致所传输音频出现数据缺失的丢包帧,从而导致所传输音频存在空白片段。可以理解的,相较于完整的音频,存在空白片段的音频对于用户而言更加难以理解,而且也更不流畅。丢包帧越多,音频便越为卡顿。
因此,为了保证所传输音频的可懂性和流畅性,需要对音频的丢包数据,即,对音频的丢包帧,进行数据恢复。对于音频进行丢包数据恢复的技术,可称之为丢包恢复技术,也可称之为丢包隐藏技术(PLC,Packet Loss Concealment),主要是用于重构丢包帧位置信号。
图1示出了本申请一实施例的多人在线合唱应用的示例性系统架构的示意图。
如图1所示,该系统架构中音频丢包数据恢复方法的执行主体可以为用户11和用户12的终端,也可以为服务器20。其中,用户11的终端包括便携式计算机111、平板电脑112和智能手机113中的一种或多种;用户12的终端包括便携式计算机121、平板电脑122和智能手机123中的一种或多种;服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在多人在线合唱应用中,用户11和用户12为在线共同合唱同一歌曲的歌者。用户11和用户12只是示例性地展示由多个歌者共同合唱同一歌曲,并不代表共同合唱同一歌曲的歌者只能有两个。
在多人在线合唱应用中,需要对用户11录音得到的人声音频和用户12录音得到的人声音频进行混音处理,从而在听觉上实现用户11和用户12共同合唱同一歌曲的效果。并且,在混音处理时,还要对人声音频进行丢包数据恢复,以保证音频的可懂性和流畅性。
其中,可以由服务器20作为音频丢包数据恢复方法的执行主体。服务器20接收到用户11的人声音频后,先对其进行音频丢包数据恢复,再对齐进行混音,再将混音后音频传输至用户12的终端。同理,服务器20接收到用户12的人声音频后,先对其进行音频丢包数据恢复,再对齐进行混音,再将混音后音频传输至用户11的终端。
也可以由用户的终端作为音频丢包数据恢复方法的执行主体。用户11的终端从服务器20接收到用户12的人声音频后,先对其进行音频丢包数据恢复,再对齐进行混音,再于本地进行输出。同理,用户12的终端从服务器20接收到用户11的人声音频后,先对其进行音频丢包数据恢复,再对齐进行混音,再于本地进行输出。
可以理解的,多人在线合唱应用对于丢包数据恢复的准确性有着高要求,一旦丢包数据恢复存在较大偏差,便会导致音频卡顿或失真;并且,多人在线合唱应用对于时延的要求非常高,一旦时延稍有偏大,用户便能轻易感知到合唱效果不佳(例如:双方歌唱相同内容时不同步,或者双方对唱时节奏衔接错位等)。
本申请所提供音频丢包数据恢复方法,便是主要针对多人在线合唱应用提出的,同时满足多人在线合唱应用对于丢包数据恢复的准确性和时延的要求。
需要说明的是,本申请所提供音频丢包数据恢复方法虽然是主要针对多人在线合唱应用提出的,但不局限于多人在线合唱应用,因此本实施例所展示的系统架构不应对本申请的功能和使用范围造成限制。
图2示出了本申请实施例所提供的音频丢包数据恢复方法的流程图,该方法的示例性执行主体为服务器,该方法包括:
步骤S210、将目标音频和目标音频的参考音频进行对齐,得到音频对齐结果,其中,目标音频存在数据缺失的丢包帧;
步骤S220、根据目标音频的丢包帧位置和音频对齐结果,获取参考音频中对应于丢包帧位置的第一参考帧,并获取位于第一参考帧之前且与第一参考帧相邻的第二参考帧;
步骤S230、基于第一参考帧与第二参考帧之间的音频特征关联,以位于丢包帧之前且与丢包帧相邻的在前目标帧为基准,对丢包帧进行数据恢复。
具体的,本申请实施例中,若接收到的音频检测出存在数据缺失的丢包帧,则将该音频作为待对其中丢包帧进行数据恢复的目标音频。
相关技术中在对丢包帧进行数据恢复时,均是基于目标音频中的丢包帧的前后帧,通过插值方法对丢包帧进行数据恢复。例如:记目标音频中的丢包帧为si。其中,i为整数,代表帧序号。则相关技术基于目标音频中的丢包帧si的前一帧s(i-1),和目标音频中的丢包帧的后一帧s(i+1),通过插值方法对丢包帧si进行数据恢复。
相关技术所采用方法建立在一个前提之上:音频的相邻帧信号之间具有较强的特征相关性,即,音频是短时平稳的而音频的相邻帧信号也是平稳的。但实际上,这一前提并不总是成立——音频的相邻帧信号并不一定总是平稳的,在不同音素切换时,相邻帧信号会存在较大差异;甚至于,同一音素内的相邻帧信号也会存在较大差异。当相邻帧信号发生较大改变时,相关技术所采用方法依赖的前提不再牢固,从而导致相关技术所采用方法无法准确捕捉到相邻帧信号之间的变化,从而导致丢包数据恢复的准确性降低。并且,连续丢包帧个数越多,相关技术丢包数据恢复的准确性越低。通常情况下,一旦连续丢包帧个数超过3,相关技术便完全无法恢复出任一丢包帧。
进一步的,当相关技术所采用方法应用于多人在线合唱应用时,由于多人在线合唱应用对于时延有着非常高的要求,因此多人在线合唱应用不会为相关技术留有足够时间去获取在后帧作为丢包数据恢复的参考。因此,相关技术如果要满足多人在线合唱应用的低时延要求,只能采取在前帧作为丢包数据的参考(例如:仅基于目标音频中的丢包帧si的前一帧s(i-1),对丢包帧si进行数据恢复),这会进一步降低相关技术丢包数据恢复的准确性;相关技术如果要保证丢包数据恢复的准确性,则无法满足多人在线合唱应用的时延要求。由此可见,相关技术所采用方法难以同时满足丢包数据恢复的准确性要求和低时延要求。
为了同时满足丢包数据恢复的准确性要求和低时延要求,本申请在接收到目标音频后,将目标音频和目标音频的参考音频进行对齐,得到音频对齐结果。其中,目标音频的参考音频指的是作为目标音频的参考模版的音频。例如:在多人在线合唱中,若目标音频为对用户歌唱《两只老虎》进行录音得到的用户人声音频,则可以将《两只老虎》的原唱人声音频作为参考音频。
音频对齐结果用于描述在各自音频中所处位置相同的目标帧和参考帧。其中,目标帧指的是目标音频中的音频帧,丢包帧特指目标音频中存在数据缺失的音频帧;参考帧指的是参考音频中的音频帧。
得到音频对齐结果后,结合目标音频的丢包帧位置,即可获取参考音频中对应于丢包帧位置的第一参考帧,并获取位于第一参考帧之前且与之相邻的第二参考帧。参考图3示出的音频对齐结果示意图。目标音频s的第i帧发生丢失,即目标音频的丢包帧为si。将目标音频s和参考音频m包含相同信息的片段进行对齐,得到图3所示音频对齐结果。图3中,虚线的两端指代在各自音频中所处位置相同的目标帧和参考帧。因此,得到音频对齐结果后,即可根据目标音频s的丢包帧si,获取参考音频m中对应于丢包帧si的第一参考帧mi,并获取第二参考帧m(i-1)。
继续参考图3示出的音频对齐结果示意图。由于参考音频m是目标音频s的参考模板,因此,丢包帧si与其相邻的在前目标帧s(i-1)之间的音频特征关联,高度相似于第一参考帧mi与第二参考帧m(i-1)之间的音频特征关联。因此,无论相邻帧信号是否发生较大改变,本申请基于第一参考帧与第二参考帧之间的音频特征关联,以丢包帧对应的在前目标帧为基准,均能够准确地对丢包帧进行数据恢复,满足音频丢包数据恢复的准确性要求。
并且,由于本申请是根据不晚于丢包帧的相关先验知识(参考音频的第一参考帧和第二参考帧、丢包帧的在前目标帧)对丢包帧进行数据恢复的,无需获取丢包帧之后的在后信息(例如:丢包帧的在后目标帧),因此,本申请节省了为获取丢包帧之后的在后信息所花费的等待时间,从而还能够满足音频丢包数据恢复的低时延要求。
由此可见,本申请实施中,将存在丢包帧的目标音频和参考音频进行对齐,进而根据目标音频的丢包帧位置和音频对齐结果,获取参考音频中对应于丢包帧位置的第一参考帧,并获取位于第一参考帧之前且与之相邻的第二参考帧,进而基于第一参考帧与第二参考帧之间的音频特征关联,以丢包帧的在前目标帧为基准,对丢包帧进行数据恢复。通过这种方法,无论相邻帧信号是否发生较大改变,本申请均能够准确地对丢包帧进行数据恢复,满足音频丢包数据恢复的准确性要求;同时,由于本申请节省了为获取丢包帧之后的在后信息所花费的等待时间,因此还能够满足音频丢包数据恢复的低时延要求。由此可见,本申请能够同时满足音频丢包数据恢复的准确性要求和低时延要求。
在一实施例中,本申请所提供音频丢包数据恢复方法还包括:
采取用户数据报协议UDP接收目标音频。
本实施例中,服务器与用户的终端之间采取用户数据报协议(UDP,User DatagramProtocol)进行数据传输。具体的,终端录音得到用户人声音频后,对其进行压缩编码后通过UDP将压缩编码后数据发送给服务器。服务器通过UDP接收到压缩编码后数据,对其进行解码得到用户人声音频,再对用户人声音频进行丢包检测。若检测到用户人声音频存在丢包,则将其作为目标音频,进而采用本申请所提供方法对其进行丢包数据恢复。
需要说明的是,本实施例之所以采用UDP进行音频数据的传输,原因在于UDP具有数据传输低时延的特性,能够节省音频数据传输带来的时延。虽然UDP不够可靠,容易出现丢包现象,但由于本申请所提供方法能够快速准确地对丢包的目标音频进行丢包数据恢复,因此能够弥补UDP容易出现丢包现象带来的缺陷,整体上而言,保证准确性的同时,进一步降低了时延。
在一实施例中,本申请所提供音频丢包数据恢复方法还包括:
在目标音频为对用户歌唱进行录音得到的用户人声音频时,获取用户所演唱歌曲的原唱人声音频,并将原唱人声音频作为参考音频。
本实施例主要是针对在线歌唱应用提出的。需要说明的是,本实施例中的在线歌唱应用包括:单人在线歌唱应用(例如:单个主播在直播房间中在线演唱歌曲),多人在线合唱应用(例如:多个歌友在K歌客户端中在线合唱歌曲)。
本实施例中,在线歌唱应用的终端对用户进行录音得到用户人声音频,对其进行压缩编码后将压缩编码后数据发送给服务器。服务器解码得到用户人声音频后,再对用户人声音频进行丢包检测。服务器若检测到用户人声音频存在丢包,则将其作为目标音频,并将用户所演唱歌曲的原唱人声音频作为参考音频。
在一实施例中,本申请所提供音频丢包数据恢复方法还包括:
在目标音频为对第一用户歌唱进行录音得到的第一用户人声音频时,获取对第二用户歌唱进行录音得到的第二用户人声音频,并将第二用户人声音频作为参考音频,其中,第一用户和第二用户同步歌唱的内容包括丢包帧位置。
本实施例主要是针对多人在线合唱应用提出的。需要说明的是,本实施例中,多人在线合唱应用中的合唱,指的是广义上的,以歌曲为演唱单位进行判断而确定的演唱方式。详细来说,本实施例中,多人在线合唱应用中的合唱,可以分为两类:不同用户分别演唱同一歌曲的不同片段,可称之为对唱;不同用户同步演唱同一歌曲的同一片段,可称之为齐唱。
本实施例中,针对齐唱片段,可以将其他用户的用户人声音频作为参考音频。原因在于,针对齐唱片段,服务器会接收到多个用户演唱该齐唱片段的用户人声音频,并且这些用户人声音频的音频特征高度相似。即使其中一个用户的用户人声音频发生丢包,但另一个用户的用户人声音频在相同帧位置发生丢包的可能性是很低的,因此另一个用户的用户人声音频可以用作丢包数据恢复的参考。
具体的,服务器接收到第一用户的终端对第一用户歌唱进行录音得到的第一用户人声音频。若对其进行丢包检测后,确认第一用户人声音频存在丢包,并且丢包帧位置位于齐唱片段,则确认与第一用户共同歌唱该齐唱片段的第二用户,获取第二用户的终端对第二用户歌唱进行录音得到的第二用户人声音频,并将第二用户人声音频作为参考音频。
例如:在小明和小红合唱的歌曲中,从1分30秒到1分50秒的片段要求二人齐唱。服务器接收到小明的人声音频后,确认小明的人声音频在1分40秒处出现丢包。由于1分40秒处位于二人的齐唱片段,因此服务器可以将小红的人声音频作为参考音频,对小明的人声音频进行丢包数据恢复。
需要说明的是,针对多人在线合唱应用的齐唱片段,也可以选用原唱人声音频作为参考音频。本实施例之所以选用其他用户的用户人声音频作为参考音频,主要是考虑到在某些情况下,服务器不一定能够得到原唱人声音频(例如:用户合唱歌曲为未对外公开的原创歌曲,尚不存在对外公开的原唱人声音频)。为了使得服务器在没有原唱人声音频的情况下也能够按照本申请所提供方法进行丢包数据恢复,本实施例提出选用其他用户的用户人声音频作为参考音频,提高丢包数据恢复的适用范围。
在一实施例中,将目标音频和目标音频的参考音频进行对齐,得到音频对齐结果,包括:
获取目标音频的目标音频指纹,并获取参考音频的参考音频指纹;
基于目标音频指纹和参考音频指纹,将目标音频和参考音频进行对齐,得到音频对齐结果。
本实施例中,采取音频指纹匹配的方式,将目标音频和参考音频进行对齐。
具体的,可以计算目标音频中的各个目标帧的频域功率谱,进而根据各个目标帧的频域功率谱,计算得到目标音频指纹;同理,可以计算参考音频中的各个参考帧的频域功率谱,进而根据各个参考帧的频率功率谱,计算得到参考音频指纹。
计算得到目标音频指纹和参考音频指纹后,可以通过对比音频指纹的距离(例如:欧氏距离)来衡量目标音频指纹和参考音频指纹之间的距离。距离越小,目标音频指纹和参考音频指纹越相近。将二者进行对齐的关键便在于找到使得二者最相近的位置,进而以该位置为基准将目标帧与参考帧进行关联。
为了找到使得二者最相近的位置,可以逐帧偏移参考音频,并提取偏移后参考音频的连续多帧对应的参考音频指纹,然后计算偏移后参考音频的连续多帧对应的参考音频指纹,和目标音频的连续多帧对应的目标音频指纹之间的距离。由于该距离是基于偏移后参考音频的连续多帧对应的参考音频指纹计算得到的,故将该距离描述为偏移后距离。
通过偏移音频、提取偏移后音频指纹、计算偏移后距离这一系列操作,选取使得偏移后距离最小的位置,即得到使得目标音频指纹和参考音频指纹最相近的位置,从而实现目标音频和参考音频的对齐。
在一实施例中,将目标音频和目标音频的参考音频进行对齐,得到音频对齐结果,包括:
获取目标音频的目标音频旋律,并获取参考音频的参考音频旋律;
基于目标音频旋律和参考音频旋律,将目标音频和参考音频进行对齐,得到音频对齐结果。
本实施例中,采取哼唱识别的方式,将目标音频和参考音频进行对齐。
具体的,可以采取MIDI(Musical Instrument Digital Interface,乐器数字接口)提取技术,提取得到目标音频的目标音频旋律和参考音频的参考音频旋律。
得到的目标音频旋律和参考音频旋律均属于时间序列数据,故可以采用DTW(Dynamic Time Warping,动态时间规整)技术,在时间轴上对目标音频旋律和参考音频旋律进行局部的缩放,以计算目标音频旋律和参考音频旋律的相似度,进而找到使得目标音频和参考音频最相近的位置,从而将目标音频和参考音频进行对齐。
图4至图5示出了本申请一实施例的将目标音频和参考音频进行对齐的示意图。具体的,图4示出了本申请一实施例的对齐前的目标音频和参考音频的示意图。图5示出了本申请一实施例的图4实施例对齐后的目标音频和参考音频的示意图。
参见图4至图5。在一实施例中,服务器得到如图4所示的目标音频s和参考音频m。考虑到音频对齐时主要是根据现存的目标帧和参考帧进行匹配而实现的,目标音频s中的丢包帧在音频对齐过程中基本没有直接作用,故图4中未展示出目标音频s中的丢包帧。
采取音频指纹匹配的方式,或者采取哼唱识别的方式,将目标音频s和参考音频m进行对齐后,得以确认目标音频s的第k帧和参考音频m的第j帧最相近。故通过将目标音频s的目标帧sk和参考音频m的参考帧mj进行对齐,实现目标音频s和参考音频m之间的对齐,得到如图5所示的对齐后的目标音频s和参考音频m。
在一实施例中,基于第一参考帧与第二参考帧之间的音频特征关联,以位于丢包帧之前且与丢包帧相邻的在前目标帧为基准,对丢包帧进行数据恢复,包括:
获取第一参考帧的音频特征和第二参考帧的音频特征之间的比值;
基于比值和在前目标帧的音频特征之间的乘积,计算得到丢包帧的音频特征;
按照丢包帧的音频特征,对丢包帧进行数据恢复。
本实施例中,用于对丢包帧进行数据恢复的音频特征包括但不限于:线谱对lsp、基音周期pitch、增益gain等。
以基音周期为例,记第一参考帧mi的基音周期为p_mi,第二参考帧m(i-1)的基音周期为p_m(i-1),丢包帧si的基音周期为p_si,丢包帧的在前目标帧s(i-1)的基音周期为p_s(i-1)。其中,丢包帧si的基音周期p_si为待求值,则可以采取如下公式计算得到p_si。
p_si=p_s(i-1)*p_mi/p_m(i-1)
同理于基音周期的计算方式,可以计算得到丢包帧的线谱对、增益等音频特征,进而根据计算得到的基音周期、线谱对、增益等音频特征,解码恢复得到丢包帧的音频信号。
需要说明的是,第一参考帧与第二参考帧之间的音频特征关联,实质上是根据音频特征之间的函数关系进行表征的,因此并不仅限于表征为音频特征之间的比值。
图6示出了本申请一实施例的基于本申请所提供音频丢包数据恢复方法实现多人在线合唱的流程示意图。
参见图6,本实施例中,设于用户的终端的客户端对用户歌唱进行录音得到用户人声音频,对其进行压缩编码后,采用UDP通过网络将压缩编码后数据传输给混音服务器。
混音服务器接收到压缩编码后数据,对其进行解码,得到用户人声音频。然后将用户人声音频与用户所演唱歌曲的原唱人声音频进行搜索对齐,得到音频对齐结果。
并且,混音服务器得到用户人声音频后,对其进行丢包检测,确认用户人声音频是否存在丢包。
若用户人声音频不存在丢包,则根据音频对齐结果,将用户人声音频与用户所演唱歌曲的伴奏音频进行混音输出,或者将用户人声音频与其他用户的人声音频进行混音输出,达到合唱效果。
若用户人声音频存在丢包,则基于先验知识的丢包隐藏算法,即,基于本申请提供的音频丢包数据恢复方法,对用户人声音频进行丢包数据恢复。丢包数据恢复完成后,再根据音频对齐结果,将用户人声音频与用户所演唱歌曲的伴奏音频进行混音输出,或者将用户人声音频与其他用户的人声音频进行混音输出,达到合唱效果。其中,先验知识包括但不限于:原唱人声音频中对应于丢包帧位置的第一参考帧,和位于第一参考帧之前且与第一参考帧相邻的第二参考帧,用户人声音频中位于丢包帧之前且与丢包帧相邻的在前目标帧。
图7示出了根据本申请一实施例的音频丢包数据恢复装置的框图,所述装置包括:
音频对齐模块310,配置为将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,其中,所述目标音频存在数据缺失的丢包帧;
参考帧获取模块320,配置为根据所述目标音频的丢包帧位置和所述音频对齐结果,获取所述参考音频中对应于所述丢包帧位置的第一参考帧,并获取位于所述第一参考帧之前且与所述第一参考帧相邻的第二参考帧;
数据恢复模块330,配置为基于所述第一参考帧与所述第二参考帧之间的音频特征关联,以位于所述丢包帧之前且与所述丢包帧相邻的在前目标帧为基准,对所述丢包帧进行数据恢复。
在本申请的一示例性实施例中,所述装置配置为:
在所述目标音频为对用户歌唱进行录音得到的用户人声音频时,获取用户所演唱歌曲的原唱人声音频,并将所述原唱人声音频作为所述参考音频。
在本申请的一示例性实施例中,所述装置配置为:
在所述目标音频为对第一用户歌唱进行录音得到的第一用户人声音频时,获取对第二用户歌唱进行录音得到的第二用户人声音频,并将所述第二用户人声音频作为所述参考音频,其中,所述第一用户和所述第二用户同步歌唱的内容包括所述丢包帧位置。
在本申请的一示例性实施例中,所述音频对齐模块配置为:
获取所述目标音频的目标音频指纹,并获取所述参考音频的参考音频指纹;
基于所述目标音频指纹和所述参考音频指纹,将所述目标音频和所述参考音频进行对齐,得到所述音频对齐结果。
在本申请的一示例性实施例中,所述音频对齐模块配置为:
获取所述目标音频的目标音频旋律,并获取所述参考音频的参考音频旋律;
基于所述目标音频旋律和所述参考音频旋律,将所述目标音频和所述参考音频进行对齐,得到所述音频对齐结果。
在本申请的一示例性实施例中,所述数据恢复模块配置为:
获取第一参考帧的音频特征和第二参考帧的音频特征之间的比值;
基于所述比值和所述在前目标帧的音频特征之间的乘积,计算得到所述丢包帧的音频特征;
按照所述丢包帧的音频特征,对所述丢包帧进行数据恢复。
在本申请的一示例性实施例中,所述装置配置为:
采取用户数据报协议UDP接收所述目标音频。
下面参考图8来描述根据本申请实施例的电子设备40。图8显示的电子设备40仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于:上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元410可以执行如图2中所示的各个步骤。
存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备40也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备40交互的设备通信,和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。输入/输出(I/O)接口450与显示单元440相连。并且,电子设备40还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器460通过总线430与电子设备40的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本申请实施方式的方法。
在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
根据本申请的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如JAVA、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种音频丢包数据恢复方法,其特征在于,所述方法包括:
将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,其中,所述目标音频存在数据缺失的丢包帧;
根据所述目标音频的丢包帧位置和所述音频对齐结果,获取所述参考音频中对应于所述丢包帧位置的第一参考帧,并获取位于所述第一参考帧之前且与所述第一参考帧相邻的第二参考帧;
基于所述第一参考帧与所述第二参考帧之间的音频特征关联,以位于所述丢包帧之前且与所述丢包帧相邻的在前目标帧为基准,对所述丢包帧进行数据恢复。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述目标音频为对用户歌唱进行录音得到的用户人声音频时,获取用户所演唱歌曲的原唱人声音频,并将所述原唱人声音频作为所述参考音频。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述目标音频为对第一用户歌唱进行录音得到的第一用户人声音频时,获取对第二用户歌唱进行录音得到的第二用户人声音频,并将所述第二用户人声音频作为所述参考音频,其中,所述第一用户和所述第二用户同步歌唱的内容包括所述丢包帧位置。
4.根据权利要求1所述的方法,其特征在于,将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,包括:
获取所述目标音频的目标音频指纹,并获取所述参考音频的参考音频指纹;
基于所述目标音频指纹和所述参考音频指纹,将所述目标音频和所述参考音频进行对齐,得到所述音频对齐结果。
5.根据权利要求1所述的方法,其特征在于,将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,包括:
获取所述目标音频的目标音频旋律,并获取所述参考音频的参考音频旋律;
基于所述目标音频旋律和所述参考音频旋律,将所述目标音频和所述参考音频进行对齐,得到所述音频对齐结果。
6.根据权利要求1所述的方法,其特征在于,基于所述第一参考帧与所述第二参考帧之间的音频特征关联,以位于所述丢包帧之前且与所述丢包帧相邻的在前目标帧为基准,对所述丢包帧进行数据恢复,包括:
获取第一参考帧的音频特征和第二参考帧的音频特征之间的比值;
基于所述比值和所述在前目标帧的音频特征之间的乘积,计算得到所述丢包帧的音频特征;
按照所述丢包帧的音频特征,对所述丢包帧进行数据恢复。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采取用户数据报协议UDP接收所述目标音频。
8.一种音频丢包数据恢复装置,其特征在于,所述装置包括:
音频对齐模块,配置为将目标音频和所述目标音频的参考音频进行对齐,得到音频对齐结果,其中,所述目标音频存在数据缺失的丢包帧;
参考帧获取模块,配置为根据所述目标音频的丢包帧位置和所述音频对齐结果,获取所述参考音频中对应于所述丢包帧位置的第一参考帧,并获取位于所述第一参考帧之前且与所述第一参考帧相邻的第二参考帧;
数据恢复模块,配置为基于所述第一参考帧与所述第二参考帧之间的音频特征关联,以位于所述丢包帧之前且与所述丢包帧相邻的在前目标帧为基准,对所述丢包帧进行数据恢复。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023198.6A CN117672234A (zh) | 2022-08-25 | 2022-08-25 | 音频丢包数据恢复方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211023198.6A CN117672234A (zh) | 2022-08-25 | 2022-08-25 | 音频丢包数据恢复方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117672234A true CN117672234A (zh) | 2024-03-08 |
Family
ID=90077393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211023198.6A Pending CN117672234A (zh) | 2022-08-25 | 2022-08-25 | 音频丢包数据恢复方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117672234A (zh) |
-
2022
- 2022-08-25 CN CN202211023198.6A patent/CN117672234A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111883123B (zh) | 基于ai识别的会议纪要生成方法、装置、设备及介质 | |
US20210280200A1 (en) | Adaptive processing with multiple media processing nodes | |
US8655654B2 (en) | Generating representations of group interactions | |
CN111798821B (zh) | 声音转换方法、装置、可读存储介质及电子设备 | |
CN113242361B (zh) | 一种视频处理方法、装置以及计算机可读存储介质 | |
CN110047497B (zh) | 背景音频信号滤除方法、装置及存储介质 | |
WO2019101099A1 (zh) | 视频节目识别方法、设备、终端、系统和存储介质 | |
CN117672234A (zh) | 音频丢包数据恢复方法、装置、电子设备及存储介质 | |
Tsai et al. | Robust and efficient multiple alignment of unsynchronized meeting recordings | |
CN114495946A (zh) | 声纹聚类方法、电子设备和存储介质 | |
CN112634939A (zh) | 一种音频识别方法、装置、设备、介质 | |
CN113470693B (zh) | 假唱检测方法、装置、电子设备及计算机可读存储介质 | |
WO2023127486A1 (ja) | プログラム及び情報処理装置 | |
US20240112689A1 (en) | Synthesizing audio for synchronous communication | |
KR102150639B1 (ko) | 디지털 데이터의 무결성을 검증할 수 있는 장치 및 디지털 데이터의 무결성을 검증할 수 있는 방법 | |
Girisha et al. | Audio-Music Fingerprinting Recognition | |
CN113206996A (zh) | 一种业务录制数据的质检方法及装置 | |
WO2023234939A1 (en) | Methods and systems for audio processing using visual information | |
CN116996489A (zh) | 投屏码的传输、投屏方法、装置及设备 | |
CN116052659A (zh) | 会议场景下的信息处理方法、装置、电子设备和存储介质 | |
CN116569254A (zh) | 输出语音转录的方法、语音转录生成系统和计算机程序产品 | |
JP2007079416A (ja) | 画像データ作成装置、画像データ作成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |