CN113823297A

CN113823297A - 语音数据处理方法、装置、设备及存储介质

Info

Publication number: CN113823297A
Application number: CN202110831192.0A
Authority: CN
Inventors: 梁俊斌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-12-21

Abstract

本申请实施例公开了一种语音数据处理方法、装置、设备及存储介质，涉及人工智能中的机器学习技术，其中，方法包括：获取与第一网络状态关联的第一目标冗余参数，以及该第一目标冗余参数的长期奖励值，根据该第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，通过该目标网络将该第二语音数据包发送至该接收设备；获取该接收设备对该第二语音数据包进行解析得到的该目标网络的第二网络状态，以及对该第二语音数据包中的异常数据进行恢复处理所生成的恢复状态信息；根据该第二网络状态、该恢复状态信息对该第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值。通过本申请能够能够提高语音数据的质量。

Description

语音数据处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能中的机器学习领域，尤其涉及一种语音数据处理方法、装置、设备及存储介质。

背景技术

随着互联网技术发展，互联网可实现快速地、高效地语音数据传输，给用户的工作以及生活带来极大便利。但是，受互联网中传输的语音数据增多以及网络质量变差等因素的影响，容易导致语音数据出现异常。例如，在音视频通话、网络直播业务中，如果传输语音数据的网络的信号质量不稳定，容易出现丢包现象，造成接收端所接收到的语音数据出现卡顿和不连贯等问题，使收听者体验不佳。

目前通常采用FEC(forward error correction前向纠错)的编码方法来抵抗语音数据的丢包等问题，该编码方法相当于根据冗余参数在网络中增加冗余数据，接收端根据冗余数据对原始语音数据中的异常数据进行修复处理。该冗余参数具体可以是指冗余率，冗余率是根据冗余数据中的数据帧数与原始语音数据中数据帧数之间的比值确定的。实践中发现，冗余率过大，需要消耗目标网络更多带宽资源，容易造成目标网络出现拥塞，导致后续传输的原始数据中出现更多异常数据；冗余率过小，对原始语音数据中的异常数据恢复处理结果较差。由此可知，冗余参数是决定该编码方法优劣的关键因素，目前主要依靠专业人员基于固化的规则来配置冗余参数，但是，配置出的冗余参数无法适应复杂多变的网络，导致语音数据的质量不佳。

发明内容

本申请实施例所要解决的技术问题在于，提供一种语音数据处理方法、装置、设备及存储介质，能够提高语音数据的质量。

本申请实施例一方面提供一种语音数据处理方法，包括：

获取与第一网络状态关联的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值；所述第一目标冗余参数的长期奖励值用于反映所述第一目标冗余参数与所述第一网络状态之间的匹配度，所述第一网络状态是接收设备对目标网络中传输的第一语音数据包进行解析得到的；

根据所述第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，通过所述目标网络将所述第二语音数据包发送至所述接收设备；

获取所述接收设备对所述第二语音数据包进行解析得到的所述目标网络的第二网络状态，以及对所述第二语音数据包中的异常数据进行恢复处理所生成的恢复状态信息；

根据所述第二网络状态、所述恢复状态信息对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值；所述更新后的长期奖励值用于在所述目标网络处于所述第一网络状态时，获取与所述第一网络状态关联的冗余参数。

本申请实施例一方面提供一种语音数据处理装置，包括：

第一获取模块，用于获取与第一网络状态关联的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值；所述第一目标冗余参数的长期奖励值用于反映所述第一目标冗余参数与所述第一网络状态之间的匹配度，所述第一网络状态是接收设备对目标网络中传输的第一语音数据包进行解析得到的；

编码模块，用于根据所述第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，通过所述目标网络将所述第二语音数据包发送至所述接收设备；

第二获取模块，用于获取所述接收设备对所述第二语音数据包进行解析得到的所述目标网络的第二网络状态，以及对所述第二语音数据包中的异常数据进行恢复处理所生成的恢复状态信息；

更新模块，用于根据所述第二网络状态、所述恢复状态信息对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值；所述更新后的长期奖励值用于在所述目标网络处于所述第一网络状态时，获取与所述第一网络状态关联的冗余参数。

可选的，所述编码模块根据所述第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，包括：

对所述第一原始语音数据进行编码，得到编码数据；

根据所述第一目标冗余参数以及所述编码数据，生成冗余数据；所述冗余数据用于对所述第一原始语音数据中的异常数据进行恢复处理；

对所述冗余数据和所述编码数据进行组合，得到第二语音数据包。

可选的，所述更新模块根据所述第二网络状态、所述恢复状态信息对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值，包括：

获取与所述第二网络状态关联的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值；

根据所述恢复状态信息确定所述第一目标冗余参数的瞬时奖励值；

根据所述第二目标冗余参数的长期奖励值、所述第一目标冗余参数的瞬时奖励值，对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值。

可选的，所述第一原始语音数据包括至少两帧数据；所述恢复状态信息包括所述第一原始语音数据中的异常数据对应的异常数据帧数，以及采用所述冗余数据对所述异常数据进行恢复处理所恢复出的数据中的恢复数据帧数；所述更新模块根据所述恢复状态信息确定所述第一目标冗余参数的瞬时奖励值，包括：

根据所述恢复数据帧数以及所述异常数据帧数确定所述第一原始语音数据的恢复率；

根据所述第一原始语音数据的恢复率、以及所述第一目标冗余参数生成所述第一目标冗余参数的瞬时奖励值。

可选的，所述更新模块根据所述第二目标冗余参数的长期奖励值、所述第一目标冗余参数的瞬时奖励值，对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值，包括：

统计所述第二目标冗余参数的长期奖励值与所述第一目标冗余参数的长期奖励值之间的长期奖励值差距；统计所述长期奖励值差距与所述第一目标冗余参数的瞬时奖励值之间的奖励值和；

获取学习权重，采用所述学习权重对所述奖励值和进行加权，得到加权后的奖励值；

将加权后的奖励值和所述第一目标冗余参数的长期奖励值之间的和，作为更新后的长期奖励值。

可选的，所述第二网络状态包括丢失数据帧数以及传输时延；所述更新模块获取与所述第二网络状态关联的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值，包括：

根据所述第二网络状态包括的丢失数据帧数以及传输时延，生成所述第二网络状态对应的状态值；

获取冗余参数列表，所述冗余参数列表用于反映冗余参数、长期奖励值以及状态值之间的映射关系；

从所述冗余参数列表中查询与所述第二网络状态对应的状态值具有映射关系的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值。

可选的，所述更新模块，用于从所述冗余参数列表中查询与所述第二网络状态对应的状态值具有映射关系的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值，包括：

从所述冗余参数列表中查询与所述第二网络状态对应的状态值具有映射关系的候选冗余参数，以及所述候选冗余参数的长期奖励值；

统计历史时间段内连续地从所述冗余参数列表获取目标历史冗余参数的获取次数；所述目标历史冗余参数为与历史状态值具有映射关系的历史候选冗余参数中，具有最大长期奖励值的历史候选冗余参数；

根据所述获取次数，从所述候选冗余参数中选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为所述第二目标冗余参数的长期奖励值。

可选的，所述更新模块根据所述获取次数，从所述候选冗余参数中选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为所述第二目标冗余参数的长期奖励值，包括：

若所述获取次数大于获取次数阈值，则从所述候选冗余参数中随机选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为所述第二目标冗余参数的长期奖励值；所述获取次数阈值与所述目标网络传输语音数据包的时长具有正相关关系；

若所述获取次数小于或等于获取次数阈值，则从所述候选冗余参数中选择具有最大长期奖励值的候选冗余参数作为第二目标冗余参数，将最大长期奖励值，作为所述第二目标冗余参数的长期奖励值。

可选的，所述第二网络状态中的丢失数据帧数包括所述第一原始语音数据中所丢失的第一丢失数据帧数，以及历史原始语音数据中所丢失的第二丢失数据帧数，所述第二网络状态中的传输时延包括所述目标网络传输所述第二语音数据包时的当前传输时延，以及传输历史原始语音数据包时的历史传输时延；所述更新模块根据所述第二网络状态包括的丢失数据帧数以及传输时延，生成所述第二网络状态对应的状态值，包括：

对所述第一丢失数据帧数进行量化处理，得到第一量化值，对所述第二丢失数据帧数进行量化处理，得到第二量化值；

对所述当前传输时延进行量化处理，得到第三量化值，对所述历史传输时延进行量化处理，得到第四量化值；

对所述第一量化值、所述第二量化值、所述第三量化值以及所述第四量化值进行加权求和，得到所述第二网络状态对应的状态值。

可选的，所述历史传输时延包括所述目标网络在至少两个历史时刻传输历史原始语音数据包时的历史传输时延；所述更新模块对所述历史传输时延进行量化处理，得到第四量化值，包括：

获取所述至少两个历史时刻中各个历史时刻与当前时刻的之间的时间间隔；

根据所述时间间隔确定所述各个历史时刻的影响因子；

对所述历史传输时延进行量化处理，得到候选量化值，采用所述各个历史时刻的影响因子对所述候选量化值进行加权平均化处理，得到第四量化值。

可选的，所述第一获取模块获取与第一网络状态关联的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值，包括：

获取冗余参数识别模型；

采用所述冗余参数识别模型的状态识别层对所述第一网络状态进行识别，得到所述第一网络状态对应状态值；

采用所述冗余参数识别模型的参数匹配层，确定与所述第一网络状态对应状态值匹配的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值。

本申请一方面提供了一种计算机设备，包括：处理器及存储器；

其中，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行如下步骤：

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，上述程序指令当被处理器执行时，以执行如下步骤：

本申请中，接收设备可以获取与第一网络状态关联的第一目标冗余参数，以及第一目标冗余参数的长期奖励值，根据该第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，通过目标网络将该第二语音数据包发送至该接收设备。通过根据第一目标冗余参数对第一原始语音数据进行冗余编码，有利于对抗目标网络的丢包问题。然后，可以获取该接收设备对该第二语音数据包进行解析得到的该目标网络的第二网络状态，以及对该第二语音数据包中的异常数据进行恢复处理所生成的恢复状态信息。由于上述第二网络状态可以用于反映第一目标冗余参数所带来的长期回报，上述恢复状态可以用于反映第一目标冗余参数所带来的瞬时回报。因此，可以根据该第二网络状态、该恢复状态信息对该第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值。通过综合考虑第一目标冗余参数的长期回报和瞬时回报，来动态更新第二目标冗余参数的长期奖励值，这样有利于冗余参数适应复杂多变的网络，可避免选择过大或过小的冗余参数，对原始语音数据进行冗余编码，提高语音数据的传输质量和编码质量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种语音数据处理系统的架构示意图；

图2a是本申请提供的一种语音数据处理系统中的各个设备之间进行数据交互的场景示意图；

图2b是本申请提供的一种语音数据处理系统中的各个设备之间进行数据交互的场景示意图；

图3是本申请提供的一种语音数据处理方法的流程意图；

图4是本申请提供的一种冗余参数识别模型获取冗余参数的场景示意图；

图5是本申请提供的一种冗余参数识别模型获取冗余参数的场景示意图；

图6是本申请实施例提供的一种语音数据处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请主要涉及到人工智能中的语音技术和机器学习技术，其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

可理解的是，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

可理解的是，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可理解的是，强化学习是机器学习的重要分支，是一种基于环境反馈作为输入、通过不断探索尝试自主学习，实现从环境状态到动作映射的机器学习方法。强化学习在每个动作的尝试中会获得相应的奖励值，通过累积奖励值最大来最优化动作。强化学习有别于监督学习，强化学习不需要事先提供训练样本，是一种在线学习技术，强化学习agent(智能体)只需要记忆其所处的环境状态和当前策略知识，在累积的探索经验中获得适用于当前环境的最优决策。

本申请，发送设备采用语音技术根据冗余参数对原始语音数据进行冗余编码，得到语音数据包，通过目标网络将语音数据包传输至接收设备。获取接收设备对语音数据包进行解析得到的目标网络的网络状态，采用机器学习技术中强化学习对网络状态、冗余参数之间的映射关系进行分析，并获取冗余参数的奖励值。进一步，根据奖励值来优化冗余参数，有利于选择适用于当前网络状态的最优冗余参数，能够有效地对出现异常的语音数据包进行恢复处理，提高语音数据的质量。

可理解的是，本申请还涉及到区块链技术，即本申请中的发送设备、接收设备可以为区块链网络中的节点设备，各个节点设备之间共同维护一个进行数据共享的区块链。每个节点设备在进行正常工作可以接收到输入信息，并基于接收到的输入信息维护该区块链。为了保证区块链网络内的信息互通，区块链网络中的每个节点设备之间可以存在信息连接，节点设备之间可以通过上述信息连接进行信息传输。例如，区块链网络中的任意节点设备获取到用于对语音数据进行冗余编码的冗余参数，以及该冗余参数的长期奖励值时，区块链网络中的其他节点设备便根据共识算法获取冗余参数，以及该冗余参数的长期奖励值；将冗余参数以及该冗余参数的长期奖励值存储至区块链中，使得区块链网络中的全部节点设备上存储的数据均一致。

为了便于更清楚理解本申请，首先介绍实现本申请的语音数据处理方法的语音数据处理系统，如图1所示，语音数据处理系统中包括接收设备10和发送设备11。接收终端10与发送终端11之间通过网络连接，以便接收终端10与发送终端11之间可以进行数据交互；其中，接收终端10与发送终端11之间的网络可以称为目标网络。

其中，发送设备10、接收设备11均可以是指用于进行语音处理的设备，例如，发送设备10、接收设备11中均安装有语音处理平台，发送设备10通过语音处理平台对语音数据进行编码处理，得到语音数据包，将语音数据包发布至语音处理平台中。接收终端10可以用于从语音处理平台中下载语音数据包，对语音数据包进行解码处理，得到语音数据。可理解的是，语音处理平台可以是指一个具有语音处理功能的应用程序(如直播应用程序、社交应用程序、购物应用程序、短视频应用程序)、网页、小程序、公众号等等。

可理解是的，目标网络的网络状态可用于反映目标网络在某一时刻或某一时间段的通信质量(如语音数据传输质量)，目标网络的网络状态具体可以包括传输时延以及丢失数据帧数；目标网络的网络状态可以由接收设备对目标网络中所传输的语音数据包进行解析得到的。例如，目标网络的网络状态可以由接收设备对目标网络中T时刻所传输的语音数据包进行解析得到的，该目标网络的网络状态可以包括目标网络在T时刻的当前传输时延、在T时刻之前的历史传输时延、T时刻的当前丢失数据帧数、T时刻之前的历史丢失数据帧数。

可理解的是，冗余参数可以是指用于对原始语音数据进行编码，得到冗余数据的参数，冗余参数具体可以是指冗余率，冗余率可以采用如下公式(1)计算得到。

其中，rr表示冗余率，m为原始语音数据中的数据帧数，n为冗余数据中的数据帧数，冗余数据用于对原始语音数据中的异常数据进行修复处理。即冗余率越大，冗余数据中的数据帧数越多，也就是说，冗余数据中包括更多关于原始语音数据的信息，使当前对原始语音数据中的异常数据的恢复处理效果更好。相反，冗余率越小，冗余数据中的数据帧数越少，也就是说，冗余数据中包括较少关于原始语音数据的信息，使当前对原始语音数据中的异常数据的恢复处理效果较差。

可理解的是，同一网络状态可以与一个或多个冗余参数关联，每个冗余参数具有长期奖励值，冗余参数的长期奖励值用于反映该网络状态与冗余参数的匹配度。也即，冗余参数的长期奖励值用于反映在该网络状态下，采用该冗余参数对原始语音数据进行冗余编码处理后，能够带来的回报，回报是指对原始语音数据中的异常数据的恢复处理效果，以及目标网络在未来关于语音数据包的传输质量。例如，冗余参数的长期奖励值越大，表明在该网络状态下，采用该冗余参数对原始语音数据进行冗余编码处理后，能够带来的回报越大，即对原始语音数据中的异常数据的恢复处理效果更好，使目标网络在未来关于语音数据包的传输质量更好。相反，冗余参数的长期奖励值越小，表明在该网络状态下，采用该冗余参数对原始语音数据进行冗余编码处理后，能够带来的回报越少，即对原始语音数据中的异常数据的恢复处理效果更差，和/或，使目标网络在未来关于语音数据包的传输质量更差。

可理解的是，本申请中的冗余参数列表用于反映冗余参数、网络状态、长期奖励之间的映射关系，如表1所示，该表1中目标网络的网络状态包括网络状态S1-S4，冗余参数包括rr1-rr4，每个网络状态均与冗余参数rr1-rr4相关联。当目标网络处于网络状态S1时，冗余参数rr1-rr4对应的长期奖励值分别为R11、R12、R13、R14；当目标网络处于网络状态S2时，冗余参数rr1-rr4对应的长期奖励值分别为R21、R22、R23、R24。当目标网络处于网络状态S3时，冗余参数rr1-rr4对应的长期奖励值分别为R31、R32、R33、R34；当目标网络处于网络状态S4时，冗余参数rr1-rr4对应的长期奖励值分别为R41、R42、R43、R44。

表1

	rr1	rr2	rr3	rr4	……
						S1	R11	R12	R13	R14	……
S2	R21	R22	R23	R24	……
						S3	R31	R32	R33	R34	……
S4	R41	R42	R43	R44	……
						……	……	……	……	……	……

理解的是，发送设备10、接收设备11均可以是指终端或服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。服务器可以是独立的一个物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。发送设备10和接收设备11可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为便于理解，进一步的，请参见图2a和图2b，是本申请实施例提供的一种数据交互的场景示意图。

如图2a中，在T时刻，发送设备10可以通过目标网络向接收设备11发送第一语音数据包，该第一语音数据包可以是指对T时刻所采集的原始语音数据进行冗余编码得到的。接收设备11接收到第一语音数据包后，可以统计第一语音数据包中的数据总帧数，根据第一语音数据包中的数据总帧数确定目标网络的丢失数据帧数；获取接收到第一语音数据包的接收时间，根据该第一语音数据包的接收时间确定目标网络的传输时延。将目标网络的丢失帧数以及传输时延作为目标网络的第一网络状态，将该目标网络的第一网络状态发送至发送设备10。

如图2a中，发送设备10在接收到目标网络的第一网络状态时，可以获取冗余参数列表，根据该冗余参数列表查询与该第一网络状态关联的第一目标冗余参数，以及该第一目标冗余参数的长期奖励值。例如，该网络状态为网络状态S1，发送设备10可以从上述表1中查询到网络状态S1与冗余参数rr1-rr4相关联，发送设备10可以将冗余参数rr1-rr4中长期奖励值最大的冗余参数，作为第一目标冗余参数，将最大长期奖励值作为第一目标冗余参数的长期奖励值。进一步，发送设备10可以采用第一目标冗余参数对待传输的第一原始语音数据进行编码，得到冗余数据，对冗余数据以及第一原始语音数据进行组合，得到第二语音数据包。该冗余数据用于对第一原始语音数据中的异常数据进行恢复处理，第一原始语音数据中的异常数据可以是指错误数据、丢失的数据等等，该异常数据可以是指在第二语音数据包传输的过程中，由于网络拥塞等因素造成的。

如图2b所示，在T+n时刻，在发送设备10获取到第二语音数据包后，可以将该第二语音数据包发送至接收设备11。接收设备11可以对第二语音数据包进行解析，得到目标网络的第二网络状态，并采用第二语音数据包中的冗余数据，对第一原始语音数据中的异常数据进行恢复处理，得到恢复状态信息。n可以为统计周期，统计周期是指接收设备更新冗余参数的长期奖励值的周期，统计周期可以根据目标网络的网络质量确定的，如，统计周期与网络质量具有负相关关系，即统计周期随网络质量变差，而变小，有利于频繁更新冗余参数的长期奖励值，提高冗余参数的长期奖励值的准确度；统计周期随网络质量变好，而变大，有利于降低对长期奖励值更新的次数，节省资源。或者，统计周期可根据目标网络传输语音数据包的时长确定的，统计周期与时长之间具有正相关关系，即时长越大，表明目标网络的网络质量更趋于稳定，因此，统计周期越大；时长越小，目标网络的网络质量的波动较大，因此，统计周期越小。统计周期可以是根据其他信息确定，本申请对此不做限定。

可理解的是，由于在传输第二语音数据包的过程中，相当于在目标网络中增加了冗余数据，因此，该冗余数据会影响目标网络的第二网络状态。该目标网络的第二网络状态相当于是目标网络的未来网络状态，即该目标网络的第二网络状态可以用于反映在第一目标冗余参数的作用下，对该目标网络的未来关于语音数据包的传输质量的影响。换句话说，第二网络状态可以用于反映第一目标冗余参数所带来的长期回报。

可理解的是，该恢复状态信息用于反映冗余数据对第一原始语音数据中的异常数据的恢复能力，如果该恢复状态信息反映冗余数据对第一原始语音数据中的异常数据的恢复能力越强，则表明在第一网络状态下，采用第一目标冗余参数对第一原始语音数据进行冗余编码后，带来的回报较多。反之，如果该恢复状态信息反映冗余数据对第一原始语音数据中的异常数据的恢复能力越弱，则表明在第一网络状态下，采用第一目标冗余参数对第一原始语音数据进行冗余编码后，带来的回报较少。换句话说，该恢复状态可以用于反映第一目标冗余参数所带来的瞬时回报。

由上述分析可知，上述第二网络状态可以用于反映第一目标冗余参数所带来的长期回报，上述恢复状态可以用于反映第一目标冗余参数所带来的瞬时回报。如果仅考虑瞬时回报，通过选择较大的第一目标冗余参数，来提高对上述第一原始语音数据中的异常数据的恢复处理效果，这样会导致目标网络中所传输的冗余数据增多，导致目标网络在未来关于语音数据包的传输质量较差，即导致第一目标冗余参数所带来的长期回报变少。反之，如果仅考虑长期回报，通过选择较小的第一目标冗余参数，来改善目标网络在未来关于语音数据包的传输质量；这样会导致目标网络中所传输的冗余数据减少，导致对上述第一原始语音数据中的异常数据的恢复处理效果变差，即导致第一目标冗余参数所带来的瞬时回报变少。可见，不能单一地考虑瞬时回报，或者，单一地考虑长期回报；基于此，可以根据第二网络状态、恢复状态信息对第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值。也就是说，综合考虑第一目标冗余参数的长期回报和瞬时回报，来动态更新第二目标冗余参数的长期奖励值，这样有利于冗余参数适应复杂多变的网络，提高语音数据的传输质量。

进一步地，请参见图3，是本申请实施例提供的一种语音数据处理方法的流程示意图。如图3所示，该方法可以由图1中的发送设备来执行，其中，该方法至少可以包括以下S101-S104：

S101、获取与第一网络状态关联的第一目标冗余参数，以及该第一目标冗余参数的长期奖励值；该第一目标冗余参数的长期奖励值用于反映该第一目标冗余参数与该第一网络状态之间的匹配度，该第一网络状态是接收设备对目标网络中传输的第一语音数据包进行解析得到的。

本申请中，接收设备可以从冗余参数列表中查询与该第一网络状态关联的第一目标冗余参数，以及第一目标冗余参数的长期奖励值。该第一目标冗余参数可以是指冗余参数列表与第一网络状态关联的候选冗余参数中，具有最大长期奖励值的候选冗余参数，或者，该第一目标冗余可以是指冗余参数列表与第一网络状态关联的候选冗余参数中的任一候选冗余参数。

可选的，在步骤S101中接收设备可以采用冗余参数识别模型，获取与第一网络状态关联的第一目标冗余参数，以及第一目标冗余参数的长期奖励值，具体的可以包括如下步骤s11～s13。

s11、获取冗余参数识别模型。

s12、采用所述冗余参数识别模型的状态识别层对所述第一网络状态进行识别，得到所述第一网络状态对应状态值。

s13、采用所述冗余参数识别模型的参数匹配层，确定与所述第一网络状态对应状态值匹配的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值。

在步骤s11～s13，如图4所示，该冗余参数识别模型可以是指强化学习模型，强化学习模型用于智能体通过与目标网络不断地进行交互学习一个从网络状态到冗余参数的映射，学习的目标就是使累计回报最大化。强化学习模型的学习过程也是一种试错学习，在各种网络状态下尽量尝试所有可以选择的冗余参数，通过目标网络给出的反馈(即长期奖励值)来判断冗余参数的优劣，最终获得网络状态和最优冗余参数的映射关系。通过反复大量的验证或试错，总结出复杂的强化学习经验库，该经验库(即冗余参数列表)在不断的自学习过程中升级和丰富。例如，如图4中，当在T时刻，强化学习模型识别出目标网络的网络状态为S_t，与网络状态S_t关联的冗余参数为A_t，这时冗余参数A_t的长期奖励值为R_t。接收设备可以采用冗余参数A_t对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，通过目标网络将第二语音数据包发送至接收设备，接收设备可以对第二语音数据包进行解析，得到目标网络的网络状态S_t+1，对第二语音数据包中的异常数据进行恢复处理，得到恢复状态信息。进一步，采用强化学习模型对网络状态S_t+1进行识别，得到与网络状态S_t+1的冗余参数A_t+1，以及冗余参数A_t+1的长期奖励值R_t+1。然后，采用冗余参数A_t+1的长期奖励值R_t+1以及恢复状态信息对冗余参数A_t的长期奖励值为R_t进行更新，得到更新后的长期奖励值。

具体的，如图5所示，以强化学习模块获取与第一网络状态关联的第一目标冗余参数为例进行说明。强化学习模型可以包括状态识别层以及参数匹配层。接收设备可以采用强化学习模型的状态识别层对第一网络状态进行识别，得到第一网络状态对应的状态值。然后，采用强化学习模型的参数匹配层，从冗余参数列表中确定出与所述第一网络状态对应状态值匹配的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值。通过强化模型对目标网络的探索，来获取与第一网络状态关联的第一目标冗余参数，以及该第一目标冗余参数的长期奖励值，有利于选择适合目标网络的冗余参数。

S102、根据该第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，通过该目标网络将该第二语音数据包发送至该接收设备。

本申请中，接收设备可以根据第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，第二语音数据包包括用于对第一原始语音数据中的异常数据进行恢复处理的冗余数据。进一步，可以通过目标网络将该第二语音数据包发送至该接收设备。可理解是的，第一原始语音数据在未传输之前，该第一原始语音数据中不包括异常数据；第一原始语音数据中的异常数据是第一原始语音数据在目标网络中传输所造成的。

可选的，步骤S102中根据该第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包包括如下步骤s21～s23。

s21、对所述第一原始语音数据进行编码，得到编码数据。

s22、根据所述第一目标冗余参数以及所述编码数据，生成冗余数据；所述冗余数据用于对所述第一原始语音数据中的异常数据进行恢复处理。

s23、对所述冗余数据和所述编码数据进行组合，得到第二语音数据包。

在步骤s21～s23中，第一原始语音数据可以是指用户所输出的一段语音数据，例如，音视频通话场景中，该第一原始语音数据可以是指包括会话内容的一段语音数据；在网络直播业务中，该第一原始语音数据可以是指主播用户或观众用户所输出的一段语音数据。如图5所示，发送设备可以采用编码算法对第一原始语音数据进行编码，得到编码数据，该编码算法可以是指脉冲编码调制(Pulse Code Modulation，PCM)编码、数字音频编码(Moving Picture Experts Group Audio Layer-3，MP3)等等。进一步，接收设备可以采用前向纠错码(Forward Error Correction，FEC)编码方法基于该第一目标冗余参数对编码数据进行信道编码得到冗余数据，对冗余数据和编码数据进行组合，得到第二语音数据包。通过生成关于第一原始语音数据的冗余数据，有利于对抗目标网络中的丢包问题。

可理解的是，接收设备接收到第二语音数据包后，可以采用信道解码对第二语音数据包中的异常数据进行恢复处理，得到编码数据，即采用冗余数据对第一原始语音数据中的异常数据进行恢复处理，得到编码数据。然后，对编码数据进行解码处理，得到第一原始语音数据，播放该第一原始语音数据。

S103、获取该接收设备对该第二语音数据包进行解析得到的该目标网络的第二网络状态，以及对该第二语音数据包中的异常数据进行恢复处理所生成的恢复状态信息。

本申请中，该第二网络状态可以包括丢失数据帧数和传输时延，丢失数据帧数可以包括目标网络传输第二语音数据包时所丢失的数据帧数(即当前丢失数据帧数)，以及目标网络传输第二语音数据包之前的历史时间段内所丢失的数据帧数(即历史丢失数据帧数)。传输时延可以包括目标网络传输第二语音数据包时的传输时延(即当前传输时延)，以及目标网络传输第二语音数据包之前的历史时间段内的传输时延(即历史传输时延)。具体的，接收设备可以统计第二语音数据包中数据总帧数，根据该数据总帧数与数据指定帧数确定第一原始语音数据(即第二语音数据包)中的当前丢失数据帧数。数据指定帧数可以是指接收设备与发送设备预先约定每次传输的数据帧数，或者，数据指定帧数可以是从第二语音数据包中的属性信息中所获取到的，该第二语音数据包以及属性信息均被传输至接收设备。进一步，可以获取第二语音数据包的接收时间，根据该接收时间确定该目标网络的当前传输时延，并根据该接收时间查询该目标网络在历史时间段内的历史丢失数据帧数，以及历史传输时延。同时，接收设备可以采用第二语音数据包中的冗余数据，对第一原始语音数据中的异常数据进行恢复处理，得到恢复状态信息。然后，可以将第二网络状态以及恢复状态信息发送至接收设备。

S104、根据该第二网络状态、该恢复状态信息对该第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值；该更新后的长期奖励值用于在该目标网络处于该第一网络状态时，获取与该第一网络状态关联的冗余参数。

本申请中，由于上述第二网络状态可以用于反映第一目标冗余参数所带来的长期回报，上述恢复状态可以用于反映第一目标冗余参数所带来的瞬时回报。因此，发送设备可以根据该第二网络状态、该恢复状态信息对该第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值。通过综合考虑第一目标冗余参数的长期回报和瞬时回报，来动态更新第一目标冗余参数的长期奖励值，这样有利于冗余参数适应复杂多变的网络，可避免选择过大或过小的冗余参数，对原始语音数据进行冗余编码，提高语音数据的传输质量和编码质量。

可选的，步骤S104可包括如下步骤s31～s33。

s31、获取与该第二网络状态关联的第二目标冗余参数，以及该第二目标冗余参数的长期奖励值。

s32、根据该恢复状态信息确定该第一目标冗余参数的瞬时奖励值。

s33、根据该第二目标冗余参数的长期奖励值、该第一目标冗余参数的瞬时奖励值，对该第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值。

在步骤s31～s33中，接收设备可以通过强化学习模型，获取与该第二网络状态关联的第二目标冗余参数，以及该第二目标冗余参数的长期奖励值；或者，接收设备可以在冗余参数列表中查询与该第二网络状态关联的第二目标冗余参数，以及第二目标冗余参数的长期奖励值。该第二网络状态可以与至少两个候选冗余参数相关联，该第二目标冗余参数可以是指与第二网络状态关联的候选冗余参数中，具有最大长期奖励值的候选冗余参数；或者，该第一目标冗余可以是指与第一网络状态关联的候选冗余参数中的任一候选冗余参数。进一步，可以根据该恢复状态信息确定该第一目标冗余参数的瞬时奖励值，即该瞬时奖励值用于反映第一目标冗余参数所带来的瞬时回报；因此，根据该第二目标冗余参数的长期奖励值、该第一目标冗余参数的瞬时奖励值，对该第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值。通过第二目标冗余参数的长期奖励值，以及第一目标冗余参数的瞬时奖励值，更新第一目标冗余参数的长期奖励值，有利于使冗余参数适应复杂多变的网络，提高语音数据的传输质量。

可选的，该第二网络状态包括丢失数据帧数以及传输时延；上述步骤s31可包括如下步骤s41～s43。

s41、根据该第二网络状态包括的丢失数据帧数以及传输时延，生成该第二网络状态对应的状态值。

s42、获取冗余参数列表，该冗余参数列表用于反映冗余参数、长期奖励值以及状态值之间的映射关系。

s43、从该冗余参数列表中查询与该第二网络状态对应的状态值具有映射关系的第二目标冗余参数，以及该第二目标冗余参数的长期奖励值。

在步骤s41～s43中，接收设备可以根据该第二网络状态包括的丢失数据帧数以及传输时延，生成第二网络状态的状态值。该第二网络状态的状态值可以用于反映目标网络传输第二语音数据包时的语音传输质量，即第二网络状态的状态值越大，表明目标网络传输第二语音数据包时的语音传输质量越差；相反，第二网络状态的状态值越小，表明目标网络传输第二语音数据包时的语音传输质量越好。进一步，接收设备可以获取冗余参数列表，该冗余参数列表用于反映冗余参数、长期奖励值以及状态值之间的映射关系，该冗余参数列表中包括多个状态值，每个状态值与多个冗余参数关联，每个冗余参数具有长期奖励值。在获取到冗余参数列表后，接收设备可以从冗余参数列表中查询与第二网络状态对应的状态值具有映射关系的第二目标冗余参数，以及第二目标冗余参数的长期奖励值；第二目标冗余参数可以是指与第二网络状态对应的状态值具有映射关系的候选冗余参数中，具有最大长期奖励值的候选冗余参数；或者，第二目标冗余参数可以是指与第二网络状态对应的状态值具有映射关系的任一候选冗余参数。

可选的，该第二网络状态中的丢失数据帧数包括该第一原始语音数据中所丢失的第一丢失数据帧数，以及历史原始语音数据中所丢失的第二丢失数据帧数，该第二网络状态中的传输时延包括该目标网络传输该第二语音数据包时的当前传输时延，以及传输历史原始语音数据包时的历史传输时延；上述步骤s41可包括如下步骤s51～s53。

s51、对该第一丢失数据帧数进行量化处理，得到第一量化值，对该第二丢失数据帧数进行量化处理，得到第二量化值。

s52、对该当前传输时延进行量化处理，得到第三量化值，对该历史传输时延进行量化处理，得到第四量化值。

s53、对该第一量化值、该第二量化值、该第三量化值以及该第四量化值进行加权求和，得到该第二网络状态对应的状态值。

在步骤s51～s53中，接收设备可以通过对第一丢失数据帧数、第二丢失数据帧数、当前传输时延以及历史传输时延进行量化处理，简化计算第二网络状态的状态值的过程。例如，如果第一丢失数据帧数大于0，可以将1作为第一量化值，如果第一丢失数据帧数等于0，可以将0作为第一量化值。如果第二丢失数据帧数为0，则可以将0作为第二量化值；若第二丢失数据帧数大于0，且小于4，则将1作为第二量化值。如果第二丢失数据帧数小于6，且大于3，则可以将2作为第二量化值；若第二丢失数据帧数大于5，则可以将3作为第二量化值。同理，可以参考上述方法对该当前传输时延进行量化处理，得到第三量化值，以及对该历史传输时延进行量化处理，得到第四量化值。然后，可以对该第一量化值、该第二量化值、该第三量化值以及该第四量化值进行加权求和，得到该第二网络状态对应的状态值。例如，接收设备可以采用如下公式(2)计算第二网络状态对应的状态值。

St＝curloss+curdelay*2+lossnum*5*2+delayavg*6*5*2 (2)

其中，St表示第二网络状态对应的状态值，curloss表示第一量化值，lossnum表示第二量化值，curdelay表示第三量化值，delayavg表示第四量化值。

可选的，该历史传输时延包括该目标网络在至少两个历史时刻传输历史原始语音数据包时的历史传输时延；上述步骤s52可包括如下步骤s61～s63。

s61、获取该至少两个历史时刻中各个历史时刻与当前时刻的之间的时间间隔。

s62、根据该时间间隔确定该各个历史时刻的影响因子。

s63、对该历史传输时延进行量化处理，得到候选量化值，采用该各个历史时刻的影响因子对该候选量化值进行加权求平均化处理，得到第四量化值。

在步骤s61～s63中，接收设备可以获取目标网络在多个历史时刻的历史传输时延，获取各个历史时刻与当前时刻之间的时间间隔，根据该时间间隔确定各个历史时刻的影响因子。即时间间隔越大，表明历史时刻与当前时刻相隔很近，即历史时刻的历史传输时延对当前的目标网络具有更大影响，即影响因子更大。即时间间隔越小，表明历史时刻与当前时刻相隔很远，即历史时刻的历史传输时延对当前的目标网络具有较小影响，即影响因子较小。进一步，可以对该历史传输时延进行量化处理，得到候选量化值，采用该各个历史时刻的影响因子对该候选量化值进行加权平均化处理，得到第四量化值。通过影响因子对历史传输时延进行量化处理，有利于强化时间间隔最近的传输时延对当前目标网络的网络状态的影响，提高获取当前目标网络的网络状态的准确性。

例如，历史时刻的个数为5，接收设备可以根据各个历史时刻与当前时刻之间的时间间隔确定各个历史时刻对应的加权系数(即影响因子)，如加权系数分别为0.1，0.15，0.2，0.25，0.3，对5个历史传输时延进行加权平均处理，得到平均传输时延。然后，对平均传输时延量化处理得到第四量化值，即0代表平均时延属于在0～50ms，1代表平均时延属于50～100ms，2代表平均时延属于100～200ms，3代表平均时延属于200～500ms，4代表平均时延属于500ms以上。可理解的是，接收设备可以先对5个历史传输时延进行量化处理，得到候选量化值，然后，对候选量化值进行加权平均化处理，得到第四量化值；或者，接收设备可以先对各个历史传输时延进行加权平均化处理，得到平均时延，对平均时延进行量化处理，得到第四量化值；本申请对此不做限定。

可选的，上述步骤s42可包括如下步骤s71～s73。

s71、从该冗余参数列表中查询与该第二网络状态对应的状态值具有映射关系的候选冗余参数，以及该候选冗余参数的长期奖励值。

s72、统计历史时间段内连续地从该冗余参数列表获取目标历史冗余参数的获取次数；该目标历史冗余参数为与历史状态值具有映射关系的历史候选冗余参数中，具有最大长期奖励值的历史候选冗余参数。

s73、根据该获取次数，从该候选冗余参数中选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为该第二目标冗余参数的长期奖励值。

在步骤s71～s73中，由于在强化学习的初期，冗余参数列表中各个冗余参数的长期奖励值的准确度比较低；另外，如果每次均选择与状态值具有关联关系的候选冗余参数中，具有最大长期奖励值的候选冗余参数，容易导致所选择的冗余参数相对比较固定，无法实现对目标网络进行有效的探索。因此，接收设备可以按照一定的概率选择具有最大长期奖励值的候选冗余参数，作为第二目标冗余参数。具体的，接收设备可以从该冗余参数列表中查询与该第二网络状态对应的状态值具有映射关系的候选冗余参数，以及该候选冗余参数的长期奖励值。进一步，可以统计历史时间段内连续地从该冗余参数列表获取目标历史冗余参数的获取次数；即获取次数为历史时间段内，将具有最大奖励值的历史候选冗余参数作为目标历史冗余参数的次数。然后，根据该获取次数，从该候选冗余参数中选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为该第二目标冗余参数的长期奖励值。通过根据获取次数确定第二目标冗余参数，提高第二目标冗余参数的准确度和多样性，可实现对目标网络进行有效的探索。

可选的，上述步骤s73可包括如下步骤s81～s82。

s81、若该获取次数大于获取次数阈值，则从该候选冗余参数中随机选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为该第二目标冗余参数的长期奖励值；该获取次数阈值与该目标网络传输语音数据包的时长具有正相关关系。

s82、若该获取次数小于或等于获取次数阈值，则从该候选冗余参数中选择具有最大长期奖励值的候选冗余参数作为第二目标冗余参数，将最大长期奖励值，作为该第二目标冗余参数的长期奖励值。

在步骤s81～s82中，若该获取次数大于获取次数阈值，表明将具有最大长期奖励值历史候选冗余参数作为目标历史冗余参数的次数较多；因此，从该候选冗余参数中随机选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为该第二目标冗余参数的长期奖励值；该获取次数阈值与该目标网络传输语音数据包的时长具有正相关关系。通过从冗余参数列表中随机选择第二目标冗余参数，可以实现对目标网络的有效探索，提高冗余参数的多样性。若该获取次数小于或等于获取次数阈值，表明将具有最大长期奖励值历史候选冗余参数作为目标历史冗余参数的次数较小；因此，可以从该候选冗余参数中选择具有最大长期奖励值的候选冗余参数作为第二目标冗余参数，将最大长期奖励值，作为该第二目标冗余参数的长期奖励值。通过将具有最大长期奖励值的候选冗余参数，作为第二目标冗余参数，有利于提高目标网络传输语音数据的传输质量，可对抗目标网络中的丢包问题。

可选的，该第一原始语音数据包括至少两帧数据；该恢复状态信息包括该第一原始语音数据中的异常数据对应的异常数据帧数，以及采用该冗余数据对该异常数据进行恢复处理所恢复出的数据中的恢复数据帧数；上述步骤s32可包括如下步骤s91～s92。

s91、根据该恢复数据帧数以及该异常数据帧数确定该第一原始语音数据的恢复率。

s92、根据该第一原始语音数据的恢复率、以及该第一目标冗余参数生成该第一目标冗余参数的瞬时奖励值。

在步骤s91～s92中，接收设备可以将恢复数据帧数与异常数据帧数之间的比值，作为第一语音数据的恢复率，根据该第一原始语音数据的恢复率、以及该第一目标冗余参数生成该第一目标冗余参数的瞬时奖励值。通过获取第一目标冗余参数的瞬时奖励值，有利于动态更新第一目标冗余参数的长期奖励值。例如，接收设备可以采用如下公式(3)计算第一目标冗余参数的瞬时奖励值。

r＝max(0,β₁*(num_r/num_l)-β₂*rr) (3)

其中，公式(3)中r表示第一目标冗余参数的瞬时奖励值，rr表示第一目标冗余参数，num_r表示采用该冗余数据对该异常数据进行恢复处理所恢复出的数据中的恢复数据帧数。num_l表示该第一原始语音数据中的异常数据对应的异常数据帧数，β₁和β₂是加权系数，例如，取值可以分别为0.8和0.05。

可选的，上述步骤s33可包括如下步骤s111～s113。

s111、统计该第二目标冗余参数的长期奖励值与该第一目标冗余参数的长期奖励值之间的长期奖励值差距；统计该长期奖励值差距与该第一目标冗余参数的瞬时奖励值之间的奖励值和。

s112、获取学习权重，采用该学习权重对该奖励值和进行加权，得到加权后的奖励值。

s113、将加权后的奖励值和该第一目标冗余参数的长期奖励值之间的和，作为更新后的长期奖励值。

在步骤s111～s113中，接收设备可以计算该第二目标冗余参数的长期奖励值与该第一目标冗余参数的长期奖励值之间的差值，将该差值作为该第二目标冗余参数的长期奖励值与该第一目标冗余参数的长期奖励值之间的长期奖励值差距。进一步，统计该长期奖励值差距与该第一目标冗余参数的瞬时奖励值之间的奖励值和，获取学习权重，该学习权重也称为学习率，采用该学习权重对该奖励值和进行加权，得到加权后的奖励值，将加权后的奖励值和该第一目标冗余参数的长期奖励值之间的和，作为更新后的长期奖励值。

需要说明的是，强化学习模型获取各个网络状态关联的冗余参数的过程中，需要不断维护和更新一个冗余参数列表，也可以称为Q表，Q表用于记录网络状态、长期奖励值、冗余参数之间的映射关系。Q表的大小为m*n，m为目标网络的网络状态数，n为冗余参数的个数，如n为6，冗余参数分别为0％、50％、100％、150％、200％、300％。接收设备可以采用如下公式(4)更新Q表中各个冗余参数的长期奖励值。

其中，在公式(4)中，

为第一目标冗余参数更新后的长期奖励值，Q(s,a)为第一目标冗余参数的长期奖励值，

为第二目标冗余参数的长期奖励值，γ为奖励性衰变系数。

需要说明的是，针对目标网络的每个网络状态，均主要基于Q表中对应网络状态下具有最大长期奖励值作为选择冗余参数的依据，但是由于在初步的学习中，Q表中的长期奖励值会不准确，如果在这个时候都按照Q表中的长期奖励值来选择冗余参数，那么容易造成错误。另外学习一段时间后，Agent可能出现动作选择相对固定的冗余参数，无法对环境进行有效的探索。因此可以在每次选择冗余参数的时候，不完全按照Q表中的长期奖励值来选择冗余参数。如，可以按照第一概率从Q表中随机选择冗余参数，按照第二概率以网络状态下的最大长期奖励值为依据选择冗余参数，第一概率随着强求学习模型用于识别冗余参数的时长变大，而降低。

需要说明的是，基于强化学习的语音数据处理过程包括如下步骤1-6：

1、创建Q表，大小为m*n，m为目标网络的网络状态数，n为冗余参数的个数，如m为300，n为6。

2、根据目标网络的历史传输数据向Q表添加各个网络状态下的冗余参数的初始长期奖励值。

3、接收设备对接收到的语音数据包进行解析，得到当前网络状态。

4、获取当前网络状态下，具有最大长期奖励值的冗余参数。

5、统计周期内计算奖励值，并更新Q表中当前网络状态对应的长期奖励值。

6、循环上述步骤3-6。

在步骤1-6中，接收设备创建大小关为m*n的Q表，根据目标网络的历史传输数据向Q表中添加各个网络状态下的冗余参数的初始长期奖励值。当接收设备接收到语音数据包，可以对语音数据包进行解析，得到目标网络的当前网络状态。从Q表中查询当前网络状态下，具有最大长期奖励值的冗余参数。统计周期内当前网络状态下的瞬时奖励值，以及第二冗余参数的长期奖励值。根据第二冗余参数的长期奖励值，当前网络状态下的瞬时奖励值对第一目标冗余参数进行更新。进一步，可以循环执行步骤3-6，得到一个准确度高的Q表。

请参见图6，是本申请实施例提供的一种语音数据处理装置1的结构示意图。上述语音数据处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该语音数据处理装置1为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图6所示，该语音数据处理装置1可以包括：第一获取模块601、编码模块602、第二获取模块603以及更新模块604。

对所述第一原始语音数据进行编码，得到编码数据；

根据所述时间间隔确定所述各个历史时刻的影响因子；

获取冗余参数识别模型；

根据本申请的一个实施例，图3所示的语音数据处理方法所涉及的步骤可由图6所示的语音数据处理装置中的各个模块来执行。例如，图3中所示的步骤S101可由图6中的第一获取模块601来执行，图3中所示的步骤S102可由图6中的编码模块602来执行；图3中所示的步骤S103可由图6中的第二获取模块603来执行；图3中所示的步骤S104可由图6中的更新模块604来执行。

根据本申请的一个实施例，图6所示的语音数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由多个单元来实现，或者多个模块的功能由一个单元实现。在本申请的其它实施例中，语音数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的语音数据处理装置，以及来实现本申请实施例的语音数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图7，是本申请实施例提供的一种计算机设备的结构示意图。如图7所示，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图7所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，包括：

对所述第一原始语音数据进行编码，得到编码数据；

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述第二网络状态、所述恢复状态信息对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值，包括：

可选的，所述第一原始语音数据包括至少两帧数据；所述恢复状态信息包括所述第一原始语音数据中的异常数据对应的异常数据帧数，以及采用所述冗余数据对所述异常数据进行恢复处理所恢复出的数据中的恢复数据帧数；处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述恢复状态信息确定所述第一目标冗余参数的瞬时奖励值，包括：

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述第二目标冗余参数的长期奖励值、所述第一目标冗余参数的瞬时奖励值，对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值，包括：

可选的，所述第二网络状态包括丢失数据帧数以及传输时延；处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现获取与所述第二网络状态关联的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值，包括：

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现从所述冗余参数列表中查询与所述第二网络状态对应的状态值具有映射关系的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值，包括：

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述获取次数，从所述候选冗余参数中选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为所述第二目标冗余参数的长期奖励值，包括：

可选的，所述第二网络状态中的丢失数据帧数包括所述第一原始语音数据中所丢失的第一丢失数据帧数，以及历史原始语音数据中所丢失的第二丢失数据帧数，所述第二网络状态中的传输时延包括所述目标网络传输所述第二语音数据包时的当前传输时延，以及传输历史原始语音数据包时的历史传输时延；处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现根据所述第二网络状态包括的丢失数据帧数以及传输时延，生成所述第二网络状态对应的状态值，包括：

可选的，所述历史传输时延包括所述目标网络在至少两个历史时刻传输历史原始语音数据包时的历史传输时延；处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现对所述历史传输时延进行量化处理，得到第四量化值，包括：

根据所述时间间隔确定所述各个历史时刻的影响因子；

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现获取与第一网络状态关联的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值，包括：

获取冗余参数识别模型；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图4以及前文图7所对应实施例中对上述语音数据处理方法的描述，也可执行前文图6所对应实施例中对上述语音数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的语音数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3对应实施例中对上述语音数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的多个计算机设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算机设备上执行，分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁盘、光盘、只读存储器(Read-Only Memory，ROM)或随机存储器(Random Access Memory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音数据处理方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述第一目标冗余参数对待传输的第一原始语音数据进行冗余编码，得到第二语音数据包，包括：

对所述第一原始语音数据进行编码，得到编码数据；

3.如权利要求2所述的方法，其特征在于，所述根据所述第二网络状态、所述恢复状态信息对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值，包括：

4.如权利要求3所述的方法，其特征在于，所述第一原始语音数据包括至少两帧数据；所述恢复状态信息包括所述第一原始语音数据中的异常数据对应的异常数据帧数，以及采用所述冗余数据对所述异常数据进行恢复处理所恢复出的数据中的恢复数据帧数；

所述根据所述恢复状态信息确定所述第一目标冗余参数的瞬时奖励值，包括：

5.如权利要求3所述的方法，其特征在于，所述根据所述第二目标冗余参数的长期奖励值、所述第一目标冗余参数的瞬时奖励值，对所述第一目标冗余参数的长期奖励值进行更新，得到更新后的长期奖励值，包括：

6.如权利要求3所述的方法，其特征在于，所述第二网络状态包括丢失数据帧数以及传输时延；

所述获取与所述第二网络状态关联的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值，包括：

7.如权利要求6所述的方法，其特征在于，所述从所述冗余参数列表中查询与所述第二网络状态对应的状态值具有映射关系的第二目标冗余参数，以及所述第二目标冗余参数的长期奖励值，包括：

8.如权利要求7所述的方法，其特征在于，所述根据所述获取次数，从所述候选冗余参数中选择候选冗余参数作为第二目标冗余参数，将所选择的候选冗余参数的长期奖励值，作为所述第二目标冗余参数的长期奖励值，包括：

9.如权利要求6所述的方法，其特征在于，所述第二网络状态中的丢失数据帧数包括所述第一原始语音数据中所丢失的第一丢失数据帧数，以及历史原始语音数据中所丢失的第二丢失数据帧数，所述第二网络状态中的传输时延包括所述目标网络传输所述第二语音数据包时的当前传输时延，以及传输历史原始语音数据包时的历史传输时延；

所述根据所述第二网络状态包括的丢失数据帧数以及传输时延，生成所述第二网络状态对应的状态值，包括：

10.如权利要求9所述的方法，其特征在于，所述历史传输时延包括所述目标网络在至少两个历史时刻传输历史原始语音数据包时的历史传输时延；

所述对所述历史传输时延进行量化处理，得到第四量化值，包括：

根据所述时间间隔确定所述各个历史时刻的影响因子；

11.如权利要求1所述的方法，其特征在于，所述获取与第一网络状态关联的第一目标冗余参数，以及所述第一目标冗余参数的长期奖励值，包括：

获取冗余参数识别模型；

12.一种语音数据处理装置，其特征在于，包括：

13.一种计算机设备，其特征在于，包括：

处理器以及存储器；

所述处理器与所述存储器相连，其中，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，该计算机程序适于由处理器加载并执行如权利要求1-11任一项所述的方法。