CN112751648A - 一种丢包数据恢复方法和相关装置 - Google Patents

一种丢包数据恢复方法和相关装置 Download PDF

Info

Publication number
CN112751648A
CN112751648A CN202010259480.9A CN202010259480A CN112751648A CN 112751648 A CN112751648 A CN 112751648A CN 202010259480 A CN202010259480 A CN 202010259480A CN 112751648 A CN112751648 A CN 112751648A
Authority
CN
China
Prior art keywords
packet loss
data
packet
target
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010259480.9A
Other languages
English (en)
Other versions
CN112751648B (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010259480.9A priority Critical patent/CN112751648B/zh
Publication of CN112751648A publication Critical patent/CN112751648A/zh
Application granted granted Critical
Publication of CN112751648B publication Critical patent/CN112751648B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L1/00Arrangements for detecting or preventing errors in the information received
    • H04L1/004Arrangements for detecting or preventing errors in the information received by using forward error control
    • H04L1/0045Arrangements at the receiver end
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本申请实施例公开了一种丢包数据恢复方法,所述方法包括:检测接收到的语音数据包是否发生丢失;当所述数据包发生丢失时,确定丢包数据对应的目标丢包场景,不同的丢包场景对应不同的神经网络模型;根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复。通过该方法,当发生语音数据包丢失时,能够分析丢包数据对应的丢包场景,并根据不同的丢包场景,采用不同的神经网络模型来进行丢包数据恢复,从而在针对不同的丢包情况采用不同的方法的同时提高了方法的准确度,使恢复得到的语音数据更加贴合实际情况,降低了用户的失真感,提高了用户体验。

Description

一种丢包数据恢复方法和相关装置
技术领域
本申请涉及通信领域,特别是涉及一种丢包数据恢复方法和相关装置。
背景技术
语音通话是现在人们日常生活中常用的通讯手段,语音通话的质量直接影响到用户的通讯体验。其中,丢包是影响语音通话质量的重要因素。由于网络波动等因素的干扰,在传输包括语音数据的数据包时,可能会出现数据包丢失的问题。
在相关技术中,当出现数据包丢失时,往往并不对丢包情况进行区分,无论丢包情况如何,只根据丢失位置的前后数据包,通过统一的处理方法进行丢包恢复,且该方法通常为负值或平均等简单方法。由于实际中的丢包情况较为复杂,因此简单且统一的恢复方法可能会导致预测出的数据包难以贴合实际情况,使用户接收到的语音数据失真,用户体验较差。
发明内容
为了解决上述技术问题,本申请提供了一种丢包数据恢复方法,通过该方法能够对丢包数据的具体情况进行区分,进而能够根据不同的丢包情况,更加具有针对性的进行数据恢复,使恢复得到的数据包更加贴合实际情况。
本申请实施例公开了如下技术方案:
第一方面,本申请提供了一种丢包数据恢复方法,所述方法包括:
检测接收到的语音数据包是否发生丢失;
当所述数据包发生丢失时,确定丢包数据对应的目标丢包场景,不同的丢包场景对应不同的神经网络模型;
根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复。
第二方面,本申请提供了一种丢包数据恢复装置,所述装置包括检测单元、确定单元和恢复单元:
所述检测单元,用于检测接收到的语音数据包是否发生丢失;
所述确定单元,用于当所述数据包发生丢失时,确定丢包数据对应的目标丢包场景,不同的丢包场景对应不同的神经网络模型;
所述恢复单元,用于根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复。
第三方面,本申请提供了一种用于丢包数据恢复的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面中所述的丢包数据恢复方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行第一方面中所述的丢包数据恢复方法。
由上述技术方案可以看出,本申请提供了一种丢包数据恢复方法,基于该方法,可以根据实际情况中可能出现的丢包情况设置有多种丢包场景,其中不同的丢包场景对应于不同的神经网络模型。当发生数据包丢失时,可以根据实际丢包情况从多种丢包场景中确定对应的目标丢包场景,在确定目标丢包场景后,可以根据目标丢包场景对应的目标神经网络模型,来进行针对该丢包数据的丢包恢复。由于本申请针对不同的丢包情况采用了不同的神经网络模型来进行丢包恢复,因此该丢包数据恢复方法更加具有针对性,也更加复杂和精确,一定程度上能够提高丢包恢复的准确性,使恢复得到的数据包更加贴合实际情况,从而降低了用户接收到的语音数据的失真程度,提高了用户的通讯体验。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种实际应用场景中丢包数据恢复方法的示意图;
图2为本申请实施例提供的一种丢包数据恢复方法的流程图;
图3为本申请实施例提供的一种实际应用场景中模型训练的示意图;
图4为本申请实施例提供的一种实际应用场景中丢包数据恢复方法的示意图;
图5为本申请实施例提供的一种丢包数据恢复装置的结构框图;
图6为本申请实施例提供的一种用于丢包数据恢复的设备的结构图;
图7为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
在相关技术中,当出现数据包丢失情况时,通常采用基于时域的丢包恢复技术或基于参数域的丢包恢复技术。基于时域的丢包恢复技术是指当出现语音数据丢包情况时,复制前一语音帧的最后一个基音周期的波形信号到当前丢包数据位置;基于参数域的丢包恢复技术是指从语音数据包中提取各种语音特征参数,例如基音周期,自适应码书增益、固定码书增益等,然后将丢包数据位置前的相关参数负值到丢包数据位置进行数据恢复。
由上述内容可知,相关技术中的上述两种恢复方法都仅仅是简单的复制其他数据包的数据来作为丢失数据,恢复方法过于简单;同时,上述两种恢复方法都没有对丢包数据的具体情况进行分析,无论丢包情况如何,都采用固定的一种方法进行丢包数据恢复,而实际情况中丢包情况较为复杂,因此采用相关技术中的丢包数据恢复方法会导致恢复得到的数据难以贴合实际情况,使用户感受到的失真感较高,降低用户体验。
为了解决上述技术问题,本申请提供了一种丢包数据恢复方法,当发生语音数据包丢失时,能够分析丢包数据对应的丢包场景,并根据不同的丢包场景,采用不同的神经网络模型来进行丢包数据恢复,从而在针对不同的丢包情况采用不同的方法的同时提高了方法的准确度,使恢复得到的语音数据更加贴合实际情况,降低了用户的失真感,提高了用户体验。
可以理解的是,该方法可以应用于处理设备上,该处理设备为具有数据恢复功能的处理设备,例如可以是具有数据恢复功能的终端设备或服务器。该方法可以通过终端设备或服务器独立执行,也可以应用于终端设备和服务器通信的网络场景,通过终端设备和服务器配合执行。其中,终端设备可以为计算机、个人数字助理(Personal DigitalAssistant,简称PDA)、平板电脑等设备。服务器可以理解为是应用服务器,也可以为Web服务器,在实际部署时,该服务器可以为独立服务器,也可以为集群服务器。同时,在硬件环境上,本技术已经实现的环境有:ARM架构处理器、X86架构处理器;在软件环境上,本技术已经实现的环境有:Android平台、Windows xp及以上操作系统或Linux操作系统。
此外,本申请还涉及人工智能(Artificial Intelligence,AI)技术。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括语音技术、机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的语音技术、机器学习等技术,例如在进行神经网络模型训练时,可以通过机器学习技术来根据训练样本和训练标签训练得到神经网络模型。
为了便于理解本申请的技术方案,下面结合实际应用场景,对本申请实施例所提供的丢包数据恢复方法进行介绍。
参见图1,图1为本申请实施例提供的一种丢包数据恢复方法的应用场景示意图。在该应用场景中,处理设备为终端设备101。当用户在通过终端设备101进行语音通话等需要传输语音数据的活动时,终端设备101能够接收外界发送的语音数据包,并检测接收到的语音数据包是否发生丢失。
当检测到语音数据包发生丢失时,若直接根据不完整的语音数据包向用户发送语音数据,会导致用户在收听语音信息时出现语音衔接不流畅、丢失部分语音信息的问题,降低了用户的语音通话质量。因此,为了保证用户能够接收到相对完整、质量较高的语音数据,终端设备101可以对丢包数据进行丢包数据恢复。
可以理解的是,由于丢包数量、丢包大小等多种因素的差异,丢包数据往往有多种不同的场景,若对不同的丢包场景采用同一种恢复方法,可能会导致部分恢复得到的丢包数据与实际情况相差较大,导致用户接收到的语音信息出现失真感等问题。因此,为了使恢复方法更加具有针对性,终端设备101可以根据不同的丢包场景,设置不同的用于数据恢复的神经网络模型。如图1所示,在图1中,终端设备101设置有三种丢包场景,分别为丢包场景A、B、C,三种丢包场景分别对应于神经网络模型A、B、C。
在检测到出现丢失后,终端设备101可以确定丢包数据对应的目标丢包场景。在该实际应用场景中,如图1所示,丢包数据对应的目标丢包场景为丢包场景C。在确定目标丢包场景后,终端设备101可以选取该目标丢包场景对应的目标神经网络模型。其中,丢包场景C对应的目标神经网络模型为神经网络模型C。在确定出目标神经网络模型后,终端设备101可以通过该目标神经网络模型对丢包数据进行恢复,得到与丢失部分较为相近的语音数据。
由上述技术方案可以看出,在发生语音数据包丢失的情况时,终端设备101能够根据丢包数据确定出对应的丢包场景,然后通过针对该丢包场景的神经网络模型对丢包数据进行恢复,从而能够针对不同的丢包场景采取不同的方式进行数据恢复,使恢复得到的语音数据更加贴合实际情况;同时,由于终端设备101采用神经网络模型进行丢包数据恢复,因此在一定程度上能够提高数据恢复的准确度,降低了用户的失真感,提高了用户语音传输的体验。
接下来,将结合附图,对本申请实施例提供的一种丢包数据恢复方法进行介绍。
参见图2,图2展示了一种丢包数据恢复方法的流程框图,该方法包括:
S201:检测接收到的语音数据包是否发生丢失。
语音数据传输与当下人们的日常生活息息相关,例如打电话、在网络上听歌等,都需要进行语音数据传输。在进行语音数据传输时,由于信号干扰、网络波动等问题的出现,可能会导致在传输过程中出现语音数据包丢失的情况。根据具有数据丢失情况的语音数据包解析得到的语音数据会出现语音丢失、衔接不流畅等问题,使用户的收听体验较差。
因此,为了保障用户的语音传输体验,处理设备可以对丢包数据进行恢复。首先,处理设备在接受语音数据包后,可以对该语音数据包进行检测,来判断接受到的语音数据包是否发生丢失。
S202:当数据包发生丢失时,确定丢包数据对应的目标丢包场景。
可以理解的是,由于造成语音数据包丢失的原因不同,丢包数据的具体情况也可能有所区别。例如,当造成语音数据包丢失的原因为网络波动波动时,在网络波动的程度不同时,造成的丢包数据量也可能不同。当网络波动较大时,所造成丢包数据的数据量可能较多;网络波动较小时,所造成的丢包数据的数据量可能较少。
由于丢包数据的情况可以包括多种,因此,如果只采用一种方法来进行所有情况下的丢包数据的恢复,可能会导致部分恢复得到的语音数据与实际丢包数据相差较大。例如,在相关技术中往往采用复制前一数据包的语音数据作为丢失数据来进行数据恢复,但该方法只适用于前后数据包的语音数据相差较小的情况,而实际上相邻的语音数据很大概率上可能相差较大,因此若对所有的丢包数据都采用该方法进行数据恢复,可能会导致恢复得到的语音数据与丢失部分的实际语音数据相差较大,会给用户带来金属声或杂音等不适感。
因此,为了提高丢包数据的恢复质量,使恢复得到的语音数据能够更加贴合实际情况,处理设备可以针对不同情况的丢包数据采用不同的方式来进行数据恢复。处理设备在检测到语音数据包发生丢失时,可以根据丢包数据的情况,确定丢包数据对应的目标丢包场景。其中,不同的丢包场景对应于不同的丢包数据情况。例如,不同的丢包场景可以对应于不同的丢包数量、丢包大小等。
为了针对不同的丢包情况采取不同的恢复方式进行数据恢复,处理设备可以为不同的丢包场景预设不同的神经网络模型。当丢包数据所对应的丢包场景不同时,所对应的神经网络模型也可以不同,从而能够利用不同的神经网络模型对丢包数据进行针对性的恢复,一定程度上能够使恢复得到的语音数据更加贴合该丢包情况下的实际语音数据。
S203:根据目标丢包场景对应的目标神经网络模型,对丢包数据进行恢复。
在确定出丢包数据对应的目标丢包场景后,处理设备可以通过该目标丢包场景确定出对应的目标神经网络模型,然后利用该目标神经网络模型,对丢包数据进行针对性的恢复,得到与丢包数据较为接近的语音数据。
由上述技术方案可以看出,本申请提供了一种丢包数据恢复方法,基于该方法,可以根据实际情况中可能出现的丢包情况设置有多种丢包场景,其中不同的丢包场景对应于不同的神经网络模型。当发生数据包丢失时,可以根据实际丢包情况从多种丢包场景中确定对应的目标丢包场景,在确定目标丢包场景后,可以根据目标丢包场景对应的目标神经网络模型,来进行针对该丢包数据的丢包恢复。由于本申请针对不同的丢包情况采用了不同的神经网络模型来进行丢包恢复,因此该丢包数据恢复方法更加具有针对性,也更加复杂和精确,一定程度上能够提高丢包恢复的准确性,使恢复得到的数据包更加贴合实际情况,从而降低了用户接收到的语音数据的失真程度,提高了用户的通讯体验。
可以理解的是,丢包场景可以有不同的设定方式。例如,由于造成数据丢包的原因不同,丢包数据可能具有不同的丢包数量,而当丢包数量较为接近时,采用同一种恢复方式所带来的恢复效果可能较为相近。因此,在一种可能的实现方式中,丢包场景可以是根据丢包数据的丢包数量所对应区间确定的。处理设备在检测到语音数据包丢失时,可以通过统计数据包标号等方式,确定丢包数据的丢包数量,然后确定该丢包数量对应的目标区间,该目标区间即为该丢包数据对应的目标丢包场景。
在确定出目标区间后,处理设备可以根据该目标区间所对应的神经网络模型,对丢包数据进行数据恢复。可以理解的是,丢包场景所对应的区间可以根据实际需求来进行更改,例如,当要求丢包数据恢复的精度较高时,可以缩小每个丢包场景所对应的区间长度;当要求丢包数据恢复的精度较低使,可以扩大每个丢包场景所对应的区间长度。区间长度越小,根据丢包数量对应区间所能够分出的丢包场景也就越多,用于进行数据恢复的神经网络模型之间的区分也就更加细致,从而通过神经网络模型有针对性的恢复得到的语音数据也就更加贴合实际情况。
例如,在图1所示的示意图中,丢包场景A可以对应于丢包数量1~5个的情况,丢包场景B可以对应于丢包数量6~10个,丢包场景C可以对应于丢包数量10~15个等。可以理解的是,除了以丢包数量所对应的区间来进行丢包场景设定之外,处理设备还可以通过丢包数据大小、丢包频率大小等设定标准来进行丢包场景的设定。
可以理解的是,由于神经网络模型是针对于丢包场景所设置的,因此当丢包场景的设定方式不同时,得到神经网络模型的方式也可以有所不同。在一种可能的实现方式中,当处理设备是通过丢包数量所对应区间来进行丢包场景的确定时,处理设备可以获取多个连续数据包,然后将目标区间对应数量的数据包作为训练标签,训练标签的前后数据包作为训练样本,然后根据该训练标签和训练样本,得到目标区间对应的目标神经网络模型。由于训练该目标神经网络模型所用的训练标签是针对于目标区间所选取的,因此针对不同的目标区间,用于训练的训练标签也可以不同,从而训练得到的目标神经网络模型也可以不同,更加具有针对性。
可以理解的是,选取的训练样本的数量对训练出的神经网络模型的效果也具有一定影响,选取的前后数据包数量越多时,用于训练的训练样本也就越多,训练程度越高,得到的模型在一定程度上可以更加准确。因此,在一种可能的实现方式中,前后数据包至少为两个数据包,在对数据恢复精度要求不同时,所选取的前后数据包数量也可以不同。
其中,为了使神经网络模型能够进行准确训练,在一种可能的实现方式中,处理设备可以将训练标签和训练样本中的数据包转化为与语音数据相关的语音特征参数,该语音特征参数能够从参数层面上展示数据包所包含的语音数据,例如可以为基音周期、线谱对(Line Spectral Pair,LSP)、自适应码书增益、固定码书增益等,从而能够使神经网络模型能够更加容易理解数据包所包含的语音数据,提高训练效果。
可以理解的是,当目标神经网络模型是通过语音特征参数来训练得到时,用该目标神经网络模型进行数据恢复也需要获取相同格式的语音数据。在一种可能的实现方式中,处理设备在进行数据恢复时,在确定目标丢包场景对应的目标神经网络模型后,可以对丢包数据的前后数据包进行解析,得到前后数据包对应的第一语音特征参数,然后根据该第一语音特征参数以及目标神经网络模型,得到第二语音特征参数。可以理解的是,语音特征参数并不能直接作为语音数据让用户来收听,语音特征参数只是构成语音数据的基础。因此,处理设备还需要对第二语音特征参数进行解码,将解码得到的语音数据作为丢失的数据包所包括的语音数据发送给用户。
接下来,将结合一种实际应用场景,对本申请实施例提供的一种丢包数据恢复方法进行介绍。在本实际应用场景中,丢包场景是根据丢包数据的丢包数量所对应区间来确定的,且每个丢包场景的区间长度为1,处理设备为负责处理用户之间语音通话的语音服务器。首先,语音服务器可以根据不同的丢包数量,分别进行神经网络模型的训练。
如图3所示,图3为本申请实施例提供的一种实际应用场景中的模型训练示意图。语音服务器可以选取多组连续语音数据包作为语音样本,对语音样本进行解析得到对应的语音特征参数,然后分别模拟丢包数量为1、2、3…N来进行神经网络模型训练,即分别将连续语音数据包中的1个、2个…N个连续数据包的语音特征参数作为训练标签,将其前后数据包的语音特征参数作为训练样本,训练得到的神经网络模型分别为Net 1、Net 2、Net 3…Net N。
在训练得到针对不同丢包数量的神经网络模型后,语音服务器可以利用这些神经网络模型进行丢包数据恢复。如图4所示,图4为本申请实施例提供的一种实际应用场景中丢包数据恢复的示意图。语音服务器在通过网络接收语音数据包后,在对语音数据包进行解析的同时,可以通过统计语音数据包的编号来判断丢包数量。在解析过程中,语音服务器可以将解析得到的语音特征参数进行缓存。
在确定丢包数量后,语音服务器可以按照丢包数量进行分类,并选取相应的神经网络模型来进行丢包数据恢复。例如,当丢包数量为1时,选取Net1神经网络模型;当丢包数量为2时,选取Net 2神经网络模型等。在确定出对应的神经网络模型后,语音服务器可以从缓存的语音特征参数中,提取出丢包数据前后数据包的语音特征参数,根据该语音特征参数以及该神经网络模型,得到与丢失数据相近数据的语音特征参数,最后对该语音特征参数进行解码,得到丢包恢复数据,从而将该丢包恢复数据与接收到的数据一同发送给用户。
基于上述实施例提供的丢包数据恢复方法,本申请实施例还提供一种丢包数据恢复装置500,参见图5,该装置包括检测单元501、确定单元502和恢复单元503:
检测单元501,用于检测接收到的语音数据包是否发生丢失;
确定单元502,用于当所述数据包发生丢失时,确定丢包数据对应的目标丢包场景,不同的丢包场景对应不同的神经网络模型;
恢复单元503,用于根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复。
在一种可能的实现方式中,所述丢包场景是根据丢包数据的丢包数量所对应区间确定的,确定单元502具体用于:
确定所述丢包数据的丢包数量;
确定所述丢包数量对应的目标区间。
在一种可能的实现方式中,所述目标神经网络模型是通过下述方式得到的:
获取多个连续数据包;
将所述目标区间对应数量的数据包作为训练标签,所述训练标签的前后数据包作为训练样本;
根据所述训练标签和所述训练样本,得到所述目标神经网络模型
在一种可能的实现方式中,恢复单元503具体用于:
对所述丢包数据的前后数据包进行解析,得到所述前后数据包对应的第一语音特征参数;
根据所述第一语音特征参数和所述目标神经网络模型,得到第二语音特征参数;
将对所述第二语音特征参数进行解码得到的语音数据作为所述丢失的数据包所包括的语音数据。
在一种可能的实现方式中,所述前后数据包为至少两个数据包。
本申请实施例还提供了一种用于丢包数据恢复的设备,下面结合附图对该设备进行介绍。请参见图6所示,本申请实施例提供了一种设备600,该设备600可以是前述提及的处理设备,下面以设备为手机为例进行介绍:
图6示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图6,手机包括:射频(Radio Frequency,简称RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,简称WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图6中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图6对手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,简称LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,简称GSM)、通用分组无线服务(GeneralPacket Radio Service,简称GPRS)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、长期演进(Long Term Evolution,简称LTE)、电子邮件、短消息服务(Short Messaging Service,简称SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储6根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器1480发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(Liquid CrystalDisplay,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图6中,触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图6示出了WiFi模块670,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;优选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
手机还包括给各个部件供电的电源690(比如电池),优选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本实施例中,该终端设备所包括的处理器680还具有以下功能:
检测接收到的语音数据包是否发生丢失;
当所述数据包发生丢失时,确定丢包数据对应的目标丢包场景,不同的丢包场景对应不同的神经网络模型;
根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复。
本申请实施例还提供一种服务器,请参见图7所示,图7为本申请实施例提供的服务器700的结构图,服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图7所示的服务器结构。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行前述各个实施例所述的丢包数据恢复方法中的任意一种实施方式。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种丢包数据恢复方法,其特征在于,所述方法包括:
检测接收到的语音数据包是否发生丢失;
当所述数据包发生丢失时,确定丢包数据对应的目标丢包场景,不同的丢包场景对应不同的神经网络模型;
根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复。
2.根据权利要求1所述的方法,其特征在于,所述丢包场景是根据丢包数据的丢包数量所对应区间确定的,所述确定丢包数据对应的目标丢包场景,包括:
确定所述丢包数据的丢包数量;
确定所述丢包数量对应的目标区间。
3.根据权利要求2所述的方法,其特征在于,所述目标神经网络模型是通过下述方式得到的:
获取多个连续数据包;
将所述目标区间对应数量的数据包作为训练标签,所述训练标签的前后数据包作为训练样本;
根据所述训练标签和所述训练样本,得到所述目标神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复,包括:
对所述丢包数据的前后数据包进行解析,得到所述前后数据包对应的第一语音特征参数;
根据所述第一语音特征参数和所述目标神经网络模型,得到第二语音特征参数;
将对所述第二语音特征参数进行解码得到的语音数据作为所述丢失的数据包所包括的语音数据。
5.根据权利要求3-4所述的方法,其特征在于,所述前后数据包为至少两个数据包。
6.一种丢包数据恢复装置,其特征在于,所述装置包括检测单元、确定单元和恢复单元:
所述检测单元,用于检测接收到的语音数据包是否发生丢失;
所述确定单元,用于当所述数据包发生丢失时,确定丢包数据对应的目标丢包场景,不同的丢包场景对应不同的神经网络模型;
所述恢复单元,用于根据所述目标丢包场景对应的目标神经网络模型,对所述丢包数据进行恢复。
7.根据权利要求6所述的装置,其特征在于,所述丢包场景是根据丢包数据的丢包数量所对应区间确定的,所述确定单元具体用于:
确定所述丢包数据的丢包数量;
确定所述丢包数量对应的目标区间。
8.根据权利要求7所述的装置,其特征在于,所述目标神经网络模型是通过下述方式得到的:
获取多个连续数据包;
将所述目标区间对应数量的数据包作为训练标签,所述训练标签的前后数据包作为训练样本;
根据所述训练标签和所述训练样本,得到所述目标神经网络模型。
9.一种用于丢包数据恢复的设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-5中任意一项所述的丢包数据恢复方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-5中任意一项所述的丢包数据恢复方法。
CN202010259480.9A 2020-04-03 2020-04-03 丢包数据恢复方法和相关装置、设备及存储介质 Active CN112751648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010259480.9A CN112751648B (zh) 2020-04-03 2020-04-03 丢包数据恢复方法和相关装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010259480.9A CN112751648B (zh) 2020-04-03 2020-04-03 丢包数据恢复方法和相关装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112751648A true CN112751648A (zh) 2021-05-04
CN112751648B CN112751648B (zh) 2023-09-19

Family

ID=75645163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010259480.9A Active CN112751648B (zh) 2020-04-03 2020-04-03 丢包数据恢复方法和相关装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112751648B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327623A (zh) * 2021-05-26 2021-08-31 北京远度互联科技有限公司 基于语音采集的通讯方法、装置及系统
CN114584491A (zh) * 2022-04-21 2022-06-03 腾讯科技(深圳)有限公司 检测方法、装置、存储介质、设备及程序产品
CN115134434A (zh) * 2022-06-17 2022-09-30 奇安信科技集团股份有限公司 会话连接的监控方法及装置
WO2023109248A1 (zh) * 2021-12-13 2023-06-22 成都拟合未来科技有限公司 一种多imu数据对齐、丢包补全方法、系统和介质
WO2024012331A1 (zh) * 2022-07-13 2024-01-18 华为技术有限公司 一种确定人工智能ai模型的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101591626B1 (ko) * 2015-02-04 2016-02-04 한양대학교 산학협력단 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치
KR101755238B1 (ko) * 2016-11-29 2017-07-10 대한민국 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법
US20180358003A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Methods and apparatus for improving speech communication and speech interface quality using neural networks
CN109218083A (zh) * 2018-08-27 2019-01-15 广州爱拍网络科技有限公司 一种语音数据传输方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101591626B1 (ko) * 2015-02-04 2016-02-04 한양대학교 산학협력단 딥신경망에 기초한 패킷 손실 은닉 방법 및 장치
KR101755238B1 (ko) * 2016-11-29 2017-07-10 대한민국 손상된 멀티미디어 파일의 음성 복원 장치 및 그 방법
US20180358003A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Methods and apparatus for improving speech communication and speech interface quality using neural networks
CN109218083A (zh) * 2018-08-27 2019-01-15 广州爱拍网络科技有限公司 一种语音数据传输方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113327623A (zh) * 2021-05-26 2021-08-31 北京远度互联科技有限公司 基于语音采集的通讯方法、装置及系统
WO2023109248A1 (zh) * 2021-12-13 2023-06-22 成都拟合未来科技有限公司 一种多imu数据对齐、丢包补全方法、系统和介质
CN114584491A (zh) * 2022-04-21 2022-06-03 腾讯科技(深圳)有限公司 检测方法、装置、存储介质、设备及程序产品
CN114584491B (zh) * 2022-04-21 2023-09-08 腾讯科技(深圳)有限公司 检测方法、装置、存储介质及设备
CN115134434A (zh) * 2022-06-17 2022-09-30 奇安信科技集团股份有限公司 会话连接的监控方法及装置
WO2024012331A1 (zh) * 2022-07-13 2024-01-18 华为技术有限公司 一种确定人工智能ai模型的方法及装置

Also Published As

Publication number Publication date
CN112751648B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
CN112751648B (zh) 丢包数据恢复方法和相关装置、设备及存储介质
CN110164469B (zh) 一种多人语音的分离方法和装置
CN106710596B (zh) 回答语句确定方法及装置
EP2821992B1 (en) Method for updating voiceprint feature model and terminal
CN110890093B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN108021572B (zh) 回复信息推荐方法和装置
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN108470571B (zh) 一种音频检测方法、装置及存储介质
CN109036419A (zh) 一种语音识别匹配方法、终端及计算机可读存储介质
CN109144358A (zh) 性能调节方法、移动终端和计算机可读存储介质
CN110517677B (zh) 语音处理系统、方法、设备、语音识别系统及存储介质
CN111522592A (zh) 一种基于人工智能的智能终端唤醒方法和装置
CN111477243A (zh) 音频信号处理方法及电子设备
CN107635083A (zh) 铃声设置方法、移动终端及可读存储介质
CN112859136B (zh) 一种定位方法和相关装置
CN110277097B (zh) 数据处理方法及相关设备
CN111816168A (zh) 一种模型训练的方法、语音播放的方法、装置及存储介质
CN112256135A (zh) 一种设备控制方法及装置、设备、存储介质
CN111638788A (zh) 一种学习数据输出方法及终端设备
CN111639217A (zh) 一种口语评级方法、终端设备及存储介质
CN112752155A (zh) 一种媒体数据显示方法和相关设备
CN111091180A (zh) 一种模型训练方法和相关装置
CN114582332B (zh) 一种音频的处理方法、装置以及存储介质
CN109543172A (zh) 一种编辑对象调控方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044534

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant