CN113192520A - 一种音频信息处理方法、装置、电子设备及存储介质 - Google Patents

一种音频信息处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113192520A
CN113192520A CN202110744917.2A CN202110744917A CN113192520A CN 113192520 A CN113192520 A CN 113192520A CN 202110744917 A CN202110744917 A CN 202110744917A CN 113192520 A CN113192520 A CN 113192520A
Authority
CN
China
Prior art keywords
audio information
information processing
voice
coding
error correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110744917.2A
Other languages
English (en)
Other versions
CN113192520B (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110744917.2A priority Critical patent/CN113192520B/zh
Publication of CN113192520A publication Critical patent/CN113192520A/zh
Application granted granted Critical
Publication of CN113192520B publication Critical patent/CN113192520B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种音频信息处理方法、装置、电子设备以及存储介质,方法包括:对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值;基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量;基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。由此,可以通过客观语音质量评估损失值,对带内前向纠错编码时的编码比特数量进行调整,获得更加适合的编码比特数量,提升音频信息编码质量,节省音频信息传输时的网络资源,使用户获得更好的使用体验。

Description

一种音频信息处理方法、装置、电子设备及存储介质
技术领域
本发明涉及音频信息处理技术,尤其涉及音频信息处理方法、装置、电子设备及存储介质。
背景技术
相关技术中,音频信息的形式多种多样,音频信息的需求量呈现爆发式增长,音频信息服务器所接收的音频信息数量和种类也越来越多,语音编解码能够有效地降低语音信号传输的带宽,对于节省语音信息存储传输成本,保障通信网络传输过程中的语音信息完整性方面起了决定性作用。这一过程中丢包(Packet loss)是指一个或多个数据包(Packet)的数据无法透过网络到达目的节点的现象。传统技术中,通过内置带内前向纠错(FEC,Forward Error Correction)模块尽可能避免丢包现象,但是,该带内FEC方案,在预设一个编码码率下,FEC编码比特数和当前帧的编码比特数是有竞争关系的,即当FEC的编码比特数较高时会使当前帧语音的编码比特数变小,这样会降低编解码后的语音质量,影响了用户对语音信息的使用体验。
发明内容
有鉴于此,本发明实施例提供一种音频信息处理方法、装置、电子设备及存储介质,能够通过音频信息处理模型,对语音特征向量进行处理,得到语音特征向量对应的客观语音质量评估损失值,并通过客观语音质量评估损失值,对带内前向纠错编码时的编码比特数量进行调整,获得更加适合的编码比特数量,提升音频信息编码质量,节省音频信息传输时的网络资源,使用户获得更好的使用体验。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种音频信息处理方法,包括:获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量;
通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值;
基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量;
基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。
本发明实施例还提供了一种音频信息处理装置,其特征在于,所述装置包括:
信息传输模块,用于获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量;
信息处理模块,用于通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值;
所述信息处理模块,用于基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量;
所述信息处理模块,用于基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。
上述方案中,所述信息处理模块,用于对所述目标音频信息进行解析,获取所述目标音频信息的时序信息;
根据所述目标音频信息的时序信息,对所述目标音频信息所对应的音频参数进行解析,获取与所述目标音频信息对应的语音活动检测参数;
基于所述目标音频信息对应的语音活动检测参数,对所述目标音频信息进行抽取以获取所述目标音频信息对应的语音特征向量。
上述方案中,所述信息处理模块,用于通过所述音频信息处理模型的第一卷积神经网络,对所述语音特征向量进行处理,得到所述语音特征向量对应的第一音频特征向量;
通过所述音频信息处理模型的门控循环单元网络,对所述第一音频特征向量进行处理,得到所述语音特征向量对应的第二音频特征向量;
通过所述音频信息处理模型的第二卷积神经网络,对所述第二音频特征向量进行处理,得到所述语音特征向量对应的第三音频特征向量;
基于所述第三音频特征向量,确定所述语音特征向量对应的客观语音质量评估损失值。
上述方案中,所述信息处理模块,用于确定目标音频信息的使用环境;
基于所述目标音频信息的使用环境,对所述音频信息处理模型的门控循环单元网络中的门控循环单元的数量进行调整;
基于所述目标音频信息的使用环境,对所述音频信息处理模型的第一卷积神经网络中的卷积神经单元的数量进行调整;
基于所述目标音频信息的使用环境,对所述音频信息处理模型的第二卷积神经网络中的卷积神经单元的数量进行调整。
上述方案中,所述信息处理模块,用于基于所述客观语音质量评估损失值,确定所述目标音频信息中不同语音帧所分别对应的音质权重参数;
当所述音质权重参数大于等于音质权重参数阈值时,对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行增加,得到带内前向纠错编码时的第二编码比特数量。
上述方案中,所述信息处理模块,用于基于所述客观语音质量评估损失值,确定所述目标音频信息中不同语音帧所分别对应的音质权重参数;
当所述音质权重参数小于音质权重参数阈值时,对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行减少,得到带内前向纠错编码时的第二编码比特数量。
上述方案中,所述信息处理模块,用于基于所述客观语音质量评估损失值,确定所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系;
基于所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系,对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整,得到带内前向纠错编码时的第二编码比特数量,以适应所述目标音频信息的使用环境。
上述方案中,所述信息处理模块,用于根据所述目标音频信息的信息来源,建立数据存储映射;
响应于所建立的数据存储映射,对所述目标音频的文件格式进行调整,以实现与所述信息来源相匹配;
响应于所建立的数据存储映射,为相同数据源的音频信息配置所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系;
通过所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系,对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整。
上述方案中,所述装置还包括:
训练模块,用于获取第一训练样本集合,其中所述第一训练样本集合包括通过终端采集的不同音频样本;
对所述第一训练样本集合进行噪声添加,以形成相应的第二训练样本集合;
通过音频信息处理模型对所述第二训练样本集合进行处理,以确定所述音频信息处理模型的初始参数;
响应于所述音频信息处理模型的初始参数,通过所述音频信息处理模型对所述第二训练样本集合进行处理,确定所述音频信息处理模型的更新参数;
根据所述音频信息处理模型的更新参数,通过所述第二训练样本集合对所述音频信息处理模型的网络参数进行迭代更新。
上述方案中,所述训练模块,用于确定所述音频信息处理模型的使用环境相匹配的动态噪声类型;
根据所述动态噪声类型,对所述第一训练样本集合进行噪声添加,以改变所述第一训练样本集合中音频样本的固定增益、自适应增益、基音周期、线谱对参数以及语音端点检测参数,形成相应的第二训练样本集合。
上述方案中,所述训练模块,用于将所述第二训练样本集合中不同音频样本,代入所述音频信息处理模型的第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数;
确定所述损失函数满足相应的收敛条件时对应所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数;
将所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数作为所述音频信息处理模型的更新参数。
上述方案中,所述训练模块,用于确定与所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别相匹配的收敛条件;
对所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数进行迭代更新,直至第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数满足对应的收敛条件。
上述方案中,所述信息处理模块,用于将目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息送至区块链网络,以使所述区块链网络的节点将所述目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的音频信息处理方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,其所述可执行指令被处理器执行时实现前序的音频信息处理方法。
本发明实施例具有以下有益效果:
本发明实施例通过获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量;通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值;基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量;基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。由此,可以通过客观语音质量评估损失值,对带内前向纠错编码时的编码比特数量进行调整,获得更加适合的编码比特数量,提升音频信息编码质量,节省音频信息传输时的网络资源,使用户获得更好的使用体验。
附图说明
图1是本发明实施例提供的一种音频信息处理方法的使用环境示意图;
图2为本发明实施例提供的电子设备的组成结构示意图;
图3为本发明实施例相关技术中语音编码器的工作过程的示意图;
图4为本发明实施例相关技术中语音解码器的工作过程的示意图;
图5为本发明实施例提供的音频信息处理方法一个可选的流程示意图;
图6为本发明实施例中的音频信息处理模型对于音频的处理过程示意图;
图7为本发明实施例中的音频信息处理模型对于音频的处理过程示意图;
图8为本发明实施例提供的音频信息处理方法一个可选的流程示意图;
图9是本发明实施例提供的区块链网络的架构示意图;
图10是本发明实施例提供的区块链网络200中区块链的结构示意图;
图11是本发明实施例提供的区块链网络200的功能架构示意图;
图12为本发明实施例提供的音频信息处理方法的使用场景示意图;
图13为本发明实施例中音频信息处理方法的使用过程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于:用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)多人通话:参与通话的多方通过不同的设备(终端)进行声音信号采集及各种音频处理,然后经过语音编码及网络传输打包,经过网络发送到音频混音设备(服务器),混音设备将语音编码数据解码后做声音的混合叠加处理,也就是混音处理,最后各与会方的终端根据对应的下行混音信号进行声音播放。
3)客户端:终端中实现特定功能的载体,例如移动客户端(APP)是移动终端中特定功能的载体,例如执行线上直播(直播音频传输)的功能或者是在线即时通讯功能的应用程序。
4)FEC:前向纠错也叫前向纠错码,是增加数据通讯可信度的方法。在单向通讯信道中,一旦错误被发现,其接收器将无权再请求传输。FEC是利用数据进行传输冗长信息的方法,当传输中出现错误,将允许接收器再建数据。在本申请实施例中,前向纠错通过冗余包编码算法恢复信道丢包,减少弱网环境下语音音频卡顿、花屏和延迟。常用的FEC算法主要有Reed-Solomon(Reed-solomon codes,RS编码,又称里所码),Hamming(汉明/海明)码,LDPC(Low Density Parity Check Code,低密度奇偶校验码),XOR(exclusive OR,异或)码等。
5)梅尔频谱(MBF,Mel Bank Features):由于得到的声谱图较大,为了得到合适大小的声音特征,通常将它通过梅尔尺度滤波器组(Mel-scale filter banks),变为梅尔频谱。
6)丢包率:网络中的丢包是随机的,比如丢包率为10%,那说明100个包(包括语音包和冗余包)随机丢10个。在本申请实施例中,当丢包率低则使用较低的FEC冗余度,相反,当丢包率较高则使用较高的FEC冗余度,以抵抗网络丢包。基于丢包率确定原始FEC冗余度时,例如丢包率为16.67%,此时选择20%冗余度可以实现无失真恢复,音质良好无断续。
7)音频特征向量,即音频01向量,是基于音频生成的二值化的特征向量。
8)交易(Transaction):等同于计算机术语“事务”,交易包括了需要提交到区块链网络执行的操作,并非单指商业语境中的交易,鉴于在区块链技术中约定俗成地使用了“交易”这一术语,本发明实施例遵循了这一习惯。
例如,部署(Deploy)交易用于向区块链网络中的节点安装指定的智能合约并准备好被调用;调用(Invoke)交易用于通过调用智能合约在区块链中追加交易的记录,并对区块链的状态数据库进行操作,包括更新操作(包括增加、删除和修改状态数据库中的键值对)和查询操作(即查询状态数据库中的键值对)。
9)区块链(Block chain):是由区块(Block)形成的加密的、链式的交易的存储结构。
例如,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,从而基于哈希值实现区块中交易的防篡改和防伪造;新产生的交易被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长。
10)区块链网络(Block chain Network):通过共识的方式将新区块纳入区块链的一系列的节点的集合。
11)账本(Ledger):是区块链(也称为账本数据)和与区块链同步的状态数据库的统称。
其中,区块链是以文件系统中的文件的形式来记录交易;状态数据库是以不同类型的键(Key)值(Value)对的形式来记录区块链中的交易,用于支持对区块链中交易的快速查询。
12)智能合约(Smart Contracts):也称为链码(Chain code)或应用代码,部署在区块链网络的节点中的程序,节点执行接收的交易中所调用的智能合约,来对账本数据库的键值对数据进行更新或查询的操作。
13)共识(Consensus):是区块链网络中的一个过程,用于在涉及的多个节点之间对区块中的交易达成一致,达成一致的区块将被追加到区块链的尾部,实现共识的机制包括工作量证明(Po W,Proof of Work)、权益证明(PoS,Proof of Stake)、股份授权证明(DPo S,Delegated Proof-of-Stake)、消逝时间量证明(Po ET,Proof of Elapsed Time)等。
14)音频信息:包括但不限于:长音频(用户上传的音频)、短音频(用户上传的音频长度小于1分钟的音频)、音频(例如带固定画面的mv或者唱片)。
图1为本发明实施例提供的音频信息处理方法的使用环境示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够执行不同功能的客户端,其中,所述终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中利用不同的业务进程获取不同的音频信息进行收听,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,其中,终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的音频信息类型并不相同,其中音频信息:包括但不限于:长音频(例如用户上传的音频中的音频信息)、短音频(例如用户上传的音频长度小于1分钟的音频中的音频信息)、音乐音频(例如带固定画面的mv或者唱片),即时通讯客户端的语音通信中的中的音频信息,例如:终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取直播信息(即音频中携带音频信息或相应的音频链接),也可以通过同一音频客户端或者微信小程序利用网络300从相应的服务器400中获取短音频客户端的语音直播进行收听。服务器200和服务器400中可以保存有不同类型的音频。其中,本申请中不再对不同类型的音频信息的播放环境进行区分。以短音频的直播场景为例,本发明所提供的音频信息处理模型可以应用于短音频中直播时音频信息的播放,在短音频播放中通常会对不同数据来源的不同直播音频进行处理,最终在用户界面UI(User Interface)上呈现出与相应的用户相对应的音频信息并播放相应的音频信息,由于音频信息传输时的网络资源有限,因此,需要对音频信息进行编码处理,以提升音频信息编码质量,节省音频信息传输时的网络资源,使用户获得更好的使用体验。
其中,本申请实施例所提供的音频信息处理方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述语音处理技术和机器学习等方向。例如,可以涉及语音技术(Speech Technology)中的语音识别技术(AutomaticSpeech Recognition,ASR),其中包括语音信号预处理(Speech signal preprocessing)、语音信号频域分析(Speech signal frequency analyzing)、语音信号特征提取(Speechsignal feature extraction)、语音信号特征匹配/识别(Speech signal featurematching/recognition)、语音的训练(Speech training)等。
例如可以涉及机器学习(Machine learning,ML),机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括深度学习(Deep Learning)等技术,深度学习包括人工神经网络(artificial neural network),例如卷积神经网络(ConvolutionalNeural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、深度神经网络(Deep neural network,DNN)等。
下面对本发明实施例的电子设备的结构做详细说明,电子设备可以各种形式来实施,如带有音频信息处理功能的终端例如运行音频客户端的手机,其中经过训练的音频信息处理模型可以封装在终端的存储介质中,也可以为带有音频信息处理功能的服务器或者服务器群组,其中经过训练的音频信息处理模型可以部署在服务器中,例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图,可以理解,图2仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的电子设备可以包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的音频信息处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的音频信息处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的音频信息处理方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的音频信息处理装置采用软硬件结合实施的示例,本发明实施例所提供的音频信息处理装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线系统205的其他组件)完成本发明实施例提供的音频信息处理方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的音频信息处理装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的音频信息处理方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括:用于在电子设备20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从音频信息处理方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的音频信息处理装置可以采用软件方式实现,图2示出了存储在存储器202中的音频信息处理装置2020,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括音频信息处理装置2020,音频信息处理装置2020中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当音频信息处理装置2020中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的音频信息处理方法,下面对音频信息处理装置2020中各个软件模块的功能进行介绍:
信息传输模块2081,用于获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量。
信息处理模块2082,用于通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值。
所述信息处理模块2082,用于基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量。
所述信息处理模块2082,用于基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。
根据图2所示的电子设备,在本申请的一个方面中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述音频信息处理方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
结合图2示出的电子设备20说明本发明实施例提供的音频信息处理方法,在介绍本发明提供的音频信息处理方法之前,首先介绍相关技术的缺陷,这一过程中,虽然现有的音频服务器通过相应的匹配算法可以识别音频间的相似关系,但是随着音频编辑工具的普及和发展,音频画面攻击种类变得更加复杂,参考图3和图4,图3为本发明实施例相关技术中语音编码器的工作过程的示意图,图4为本发明实施例相关技术中语音解码器的工作过程的示意图,在图3所示的带有FEC语音编码器工作时,语音编码器,例如silk、opus编码器,其内置了抗丢包的带内FEC(forward error correction前向纠错)模块,带内FEC是通过缓存前一帧的码流信息用于抵抗和恢复网络丢包,当发生网络丢包时,丢包位置的数据可以通过下一帧语音编码码流内携带的前一帧码流信息进行恢复。
传统技术中的语音编码器的带内FEC是将前一帧的语音编码特征重新编码,并和本帧的编码码流捆绑一起打包发送到接收端进行解码处理。语音编码器带内FEC方案和传统的带外FEC方案的主要区别是:带外FEC码流是独立于编码器实施的,是将单个或多个语音编码器码流用于FEC编码。其FEC码流和语音编码码流可以是两个不同的数据流,它们之间没有相互约束关系,没有带宽竞争问题,所以FEC码流大小没有限制,而本帧语音码流大小只取决于预设的编码码率值。
而带内FEC码流是和本帧语音编码码流是混合在一起的,其整体码流大小决定了最终输出码流的实际码率,所以受预设的编码码率值控制。即如果FEC分配比特较多则留给语音编码的比特就会变小,相反,如果FEC分配比特较少则可留给语音编码的比特就会较多。另外带内FEC的实际码流大小还跟接收端反馈的丢包率有关,例如对于Opus编码器,接收端反馈的丢包率高则会使Opus编码器的FEC的预测滤波器的预测增益减少,提高量化索引的熵,从而增加FEC的编码的比特数。相反,如果丢包率低则Opus编码器的FEC的预测滤波器的预测增益增加,降低量化索引的熵,从而减少FEC的编码的比特数。
参考图4,含带内FEC的语音压缩数据包通过网络传输到解码器,当检测到丢包时,解码器会调用丢包帧下一帧的FEC码流信息进行恢复,而当没有发生丢包时,则用整体码流中的当前帧语音编码码流部分进行解码,得到最终的pcm音频数据。因为FEC的编码比特数和当前语音帧的编码比特数的总和受预先设置的编码码率限制,在预设一个编码码率下,则FEC编码比特数和当前帧的编码比特数是有竞争关系的。即当FEC的编码比特数高则会让当前帧语音的编码比特数变小,这样会降低编解码后的语音质量,这对于整体通话体验是不利的。通过实验发现同一个音频信号在编码码率设置值相同情况下,语音编码器在关闭带内FEC和打开带内FEC下,PESQ(Perceptual evaluation of speech quality,客观语音质量评估)的客观质量MOS打分值对比,关闭带内FEC为3.9分,而打开带内FEC只有3.0分,MOS打分值由于带内FEC下降了0.9,这是较大的音质损失,其原因是打开了带内FEC后由于带内FEC占用了音频编码的比特数,导致音频编码质量显著下降。
为了克服上述缺陷,参见图5,图5为本发明实施例提供的音频信息处理方法一个可选的流程示意图,可以理解地,图5所示的步骤可以由运行音频信息处理装置的各种电子设备执行,例如可以是音频信息处理功能的终端、服务器或者服务器集群,当运行音频信息处理装置运行在终端中时,可以触发终端中的微信小程序进行音频信息进行处理,以提升编码处理的速度,当音频信息处理装置运行在长音频版权检测服务器、音乐播放软件服务器中时,可以对相应的音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息,下面针对图5示出的步骤进行说明。
步骤501:音频信息处理装置获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量。
在本发明的一些实施例中,得到所述音频信息中所包括的语音特征向量,可以通过以下方式实现:
对所述目标音频信息进行解析,获取所述目标音频信息的时序信息;根据所述目标音频信息的时序信息,对所述目标音频信息所对应的音频参数进行解析,获取与所述目标音频信息对应的语音活动检测参数;基于所述目标音频信息对应的语音活动检测参数,对所述目标音频信息进行抽取以获取所述目标音频信息对应的语音特征向量。其中,参考图6,图6为本发明实施例中的音频信息处理模型对于音频的处理过程示意图,可以通过VGGish网络进行特提取,其中,音频体信息处理模型的特征提取可以通过视觉几何组网络(VGGish,Visual Geometry Group)实现,例如对于音频中的音频信息,可以进行音频文件的抽取,得到音频文件,针对音频文件,获取对应的梅尔频谱图,然后针对梅尔频谱图,经过Vggish网络进行音频特征的抽取,对抽取得到的向量通过空间局部聚合向量(NetVlad NetVector oflocally aggregated descriptors)聚类编码,得到目标音频信息对应的语音特征向量。NetVlad可以保存的每个特征点与离它最近的聚类中心的距离,并将其作为新的特征。
在本发明的一些实施例中,也可以获取与所述目标音频信息对应的语音活动检测参数,语音活动检测(VAD,Voice Activity Detection)又称语音端点检测,语音边界检测。目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用,它是IP电话应用的重要组成部分。静音抑制可以节省宝贵的带宽资源,可以有利于减少用户感觉到的端到端的时延。响应于语音活动检测参数,确定目标音频所对应的固定增益、自适应增益、基音周期、线谱对参数。
步骤502:音频信息处理装置通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值。
在本发明的一些实施例中,得到所述语音特征向量对应的客观语音质量评估损失值,可以通过以下方式实现:
通过所述音频信息处理模型的第一卷积神经网络,对所述语音特征向量进行处理,得到所述语音特征向量对应的第一音频特征向量;通过所述音频信息处理模型的门控循环单元网络,对所述第一音频特征向量进行处理,得到所述语音特征向量对应的第二音频特征向量;通过所述音频信息处理模型的第二卷积神经网络,对所述第二音频特征向量进行处理,得到所述语音特征向量对应的第三音频特征向量;基于所述第三音频特征向量,确定所述语音特征向量对应的客观语音质量评估损失值。具体来说,可以基于所述目标音频信息的使用环境,对所述音频信息处理模型的门控循环单元网络中的门控循环单元的数量进行调整;基于所述目标音频信息的使用环境,对所述音频信息处理模型的第一卷积神经网络中的卷积神经单元的数量进行调整;基于所述目标音频信息的使用环境,对所述音频信息处理模型的第二卷积神经网络中的卷积神经单元的数量进行调整,以使音频信息处理模型适配不同的使用环境,以即时通讯客户端的语音通话为例,第一卷积神经网络DENSE1神经元数量为96,门控循环单元GRU1、GRU2神经元数量为256,第二卷积神经网络DENSE2神经元数量为1。其中,语音特征向量对应的客观语音质量评估损失值可以表征当前帧在接收端发生丢包后基于解码器自带的丢包隐藏(PLC,Packet Loss Concealment)处理得到的PESQ损失值,即无丢包下解码得到的PESQ和PLC处理后得到的PESQ值之差,需要说明的是也可以是客观语音质量评估损失值可以表征当前帧在接收端发生丢包后基于解码器自带的上下文分析的丢包补偿方案(cPLC, context-based PacketLoss Concealment)处理得到的PESQ损失值,对此本申请不做具体限制,选择性使用cPLC或者PLC可以根据不同的音频处理环境动态调整。
步骤503:音频信息处理装置基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量。
步骤504:音频信息处理装置基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。
其中,参考图7,图7为本发明实施例中的音频信息处理模型对于音频的处理过程示意图,具体包括以下步骤:
步骤701:基于所述客观语音质量评估损失值,确定所述目标音频信息中不同语音帧所分别对应的音质权重参数。
步骤702:判断音质权重参数大于等于音质权重参数阈值是否成立,如果是,执行步骤703,否则执行步骤704。
步骤703:当所述音质权重参数大于等于音质权重参数阈值时,对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行增加,得到带内前向纠错编码时的第二编码比特数量。
步骤704:当所述音质权重参数小于音质权重参数阈值时,对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行减少,得到带内前向纠错编码时的第二编码比特数量。
步骤705:基于所述客观语音质量评估损失值,确定所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系。
步骤706:基于所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系,对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整。
经过调整得到带内前向纠错编码时的第二编码比特数量,由此,可以适应所述目标音频信息的使用环境。
在本发明的一些实施例中,还可以根据所述目标音频信息的信息来源,建立数据存储映射;响应于所建立的数据存储映射,对所述目标音频的文件格式进行调整,以实现与所述信息来源相匹配;响应于所建立的数据存储映射,为相同数据源的音频信息配置所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系;通过所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系,对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整,其中,当本申请所提供的音频信息处理方法应用于即时通讯客户端的通信时,可以通过所配置的客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系,及时地对语音通话中的音频信息进行处理,减少用户的等待时间。
继续结合图2示出的电子设备20说明本发明实施例提供的音频信息处理方法,参见图8,图8为本发明实施例提供的音频信息处理方法一个可选的流程示意图,可以理解地,图8所示的步骤可以由运行音频信息处理装置的各种电子设备执行,例如可以是音频信息处理功能的终端、服务器或者服务器集群,当运行音频信息处理装置运行在终端中时,可以触发终端中的微信小程序进行音频信息进行处理,以提升编码处理的速度,当音频信息处理装置运行在长音频版权检测服务器、音乐播放软件服务器中时,可以对相应的音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息,当然,在部署音频信息处理模型之前还需要对音频信息处理模型进行训练,具体包括以下步骤:
步骤801:获取第一训练样本集合,其中所述第一训练样本集合为通过终端采集的音频信息中的音频样本。
步骤802:对所述第一训练样本集合进行噪声添加,以形成相应的第二训练样本集合。
在本发明的一些实施例中,对所述第一训练样本集合进行噪声添加,以形成相应的第二训练样本集合,可以通过以下方式实现:
确定所述音频信息处理模型的使用环境相匹配的动态噪声类型;根据所述动态噪声类型,对所述第一训练样本集合进行噪声添加,以改变所述第一训练样本集合中音频样本的变所述第一训练样本集合中音频样本的固定增益、自适应增益、基音周期、线谱对参数以及语音端点检测参数,形成相应的第二训练样本集合,形成相应的第二训练样本集合。通过改变所述第一训练样本集合中音频样本的固定增益、自适应增益、基音周期、线谱对参数以及语音端点检测参数,形成相应的第二训练样本集合可以使得经过训练的音频信息处理模型适用不同的音频信息处理环境。在改变语音端点检测参数时,可以通过语音端点检测算法对音频数据进行语音端点检测,以确定音频数据对应的语音起始帧。可以通过基于子带信噪比判决的方法得到语音端点检测算法,也可以通过基于深度神经网络的语音帧判决的方法得到语音端点检测算法,本示例实施例对此不做特殊限定。
步骤803:通过音频信息处理模型对所述第二训练样本集合进行处理,以确定所述音频信息处理模型的初始参数。
步骤804:响应于所述音频信息处理模型的初始参数,通过所述音频信息处理模型对所述第二训练样本集合进行处理,确定所述音频信息处理模型的更新参数。
在本发明的一些实施例中,响应于所述音频信息处理模型的初始参数,通过所述音频信息处理模型对所述第二训练样本集合进行处理,确定所述音频信息处理模型的更新参数,可以通过以下方式实现:
将所述第二训练样本集合中不同音频样本,代入所述音频信息处理模型的第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数;确定所述损失函数满足相应的收敛条件时对应所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数;将所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数作为所述音频信息处理模型的更新参数。
步骤805:根据所述音频信息处理模型的更新参数,通过所述第二训练样本集合对所述音频信息处理模型的网络参数进行迭代更新。
具体来说,确定与所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别相匹配的收敛条件;对所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数进行迭代更新,直至第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数满足对应的收敛条件。
由于音频信息服务器的音频信息数量不断增加,因此,可以将音频信息的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息保存在区块链网络或者云服务器中,实现对音频信息的循环使用。其中,本发明实施例可结合云技术或区块链网络技术实现,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源,如音频信息网站、图片类网站和更多的门户网站,因此云技术需要以云计算作为支撑。
需要说明的是,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设施即服务(IaaS,Infrastructure as a Service),在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器,包含操作系统)、存储设备和网络设备。
在本发明的一些实施例中,还可以将目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息送至区块链网络,以使所述区块链网络的节点将所述目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
上述方案中,所述方法还包括:
接收所述区块链网络中的其他节点的数据同步请求;响应于所述数据同步请求,对所述其他节点的权限进行验证;当所述其他节点的权限通过验证时,控制当前节点与所述其他节点之间进行数据同步,以实现所述其他节点获取目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息。
上述方案中,所述方法还包括:响应于查询请求,解析所述查询请求以获取对应的用户标识;根据所述用户标识,获取区块链网络中的目标区块内的权限信息;对所述权限信息与所述用户标识的匹配性进行校验;当所述权限信息与所述用户标识相匹配时,在所述区块链网络中获取相应的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息;响应于所述查询请求,将所获取的相应的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息向相应的客户端进行推送,以实现所述客户端获取所述区块链网络中所保存的相应的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息。
继续参见图9,图9是本发明实施例提供的区块链网络的架构示意图,包括区块链网络200(示例性示出了共识节点210-1至共识节点210-3)、认证中心300、业务主体400和业务主体500,下面分别进行说明。
区块链网络200的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备例如用户终端和服务器,都可以在不需要授权的情况下接入区块链网络200;以联盟链为例,业务主体在获得授权后其下辖的电子设备(例如终端/服务器)可以接入区块链网络200,此时,成为区块链网络200中的客户端节点。
在一些实施例中,客户端节点可以只作为区块链网络200的观察者,即提供支持业务主体发起交易(例如,用于上链存储数据或查询链上数据)功能,对于区块链网络200的共识节点210的功能,例如排序功能、共识服务和账本功能等,客户端节点可以缺省或者有选择性(例如,取决于业务主体的具体业务需求)地实施。从而,可以将业务主体的数据和业务处理逻辑最大程度迁移到区块链网络200中,通过区块链网络200实现数据和业务处理过程的可信和可追溯。
区块链网络200中的共识节点接收来自不同业务主体(例如前序实施中示出的业务主体400和业务主体500)的客户端节点(例如,前序实施例中示出的归属于业务主体400的客户端节点410、以及归属于数据库运营商系统的客户端节点510)提交的交易,执行交易以更新账本或者查询账本,执行交易的各种中间结果或最终结果可以返回业务主体的客户端节点中显示。
例如,客户端节点410/510可以订阅区块链网络200中感兴趣的事件,例如区块链网络200中特定的组织/通道中发生的交易,由共识节点210推送相应的交易通知到客户端节点410/510,从而触发客户端节点410/510中相应的业务逻辑。
下面以多个业务主体接入区块链网络以实现对指令信息以及与所述指令信息相匹配的业务进程管理为例,说明区块链网络的示例性应用。
参见图9,管理环节涉及的多个业务主体,如业务主体400可以是音频信息处理装置,业务主体500可以是带有音频信息处理装功能的显示系统,从认证中心300进行登记注册获得各自的数字证书,数字证书中包括业务主体的公钥、以及认证中心300对业务主体的公钥和身份信息签署的数字签名,用来与业务主体针对交易的数字签名一起附加到交易中,并被发送到区块链网络,以供区块链网络从交易中取出数字证书和签名,验证消息的可靠性(即是否未经篡改)和发送消息的业务主体的身份信息,区块链网络会根据身份进行验证,例如是否具有发起交易的权限。业务主体下辖的电子设备(例如终端或者服务器)运行的客户端都可以向区块链网络200请求接入而成为客户端节点。
业务主体400的客户端节点410用于将目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息送至区块链网络,以使所述区块链网络的节点将所述目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息填充至新区块,且当对所述新区块共识一致时,将所述新区块追加至区块链的尾部。
其中,将相应的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息发送至区块链网络200,可以预先在客户端节点410设置业务逻辑,当确定目标音频信息与源音频信息不相似时,客户端节点410将待处理的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息自动发送至区块链网络200,也可以由业务主体400的业务人员在客户端节点410中登录,手动打包目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息以及相应的转换进程信息,并将其发送至区块链网络200。在发送时,客户端节点410根据目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息生成对应更新操作的交易,在交易中指定了实现更新操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点410的数字证书、签署的数字签名(例如,使用客户端节点410的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络200中的共识节点210。
区块链网络200中的共识节点210中接收到交易时,对交易携带的数字证书和数字签名进行验证,验证成功后,根据交易中携带的业务主体400的身份,确认业务主体400是否是具有交易权限,数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署共识节点210自己的数字签名(例如,使用共识节点210-1的私钥对交易的摘要进行加密得到),并继续在区块链网络200中广播。
区块链网络200中的共识节点210接收到验证成功的交易后,将交易填充到新的区块中,并进行广播。区块链网络200中的共识节点210广播的新区块时,会对新区块进行共识过程,如果共识成功,则将新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交更新待处理的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息以及相应的进程触发信息的交易,在状态数据库中添加包括目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息以及相应的进程触发信息的键值对。
业务主体500的业务人员在客户端节点510中登录,输入目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息查询请求,客户端节点510根据目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息查询请求生成对应更新操作/查询操作的交易,在交易中指定了实现更新操作/查询操作需要调用的智能合约、以及向智能合约传递的参数,交易还携带了客户端节点510的数字证书、签署的数字签名(例如,使用客户端节点510的数字证书中的私钥,对交易的摘要进行加密得到),并将交易广播到区块链网络200中的共识节点210。
区块链网络200中的共识节点210中接收到交易,对交易进行验证、区块填充及共识一致后,将填充的新区块追加到自身所存储的区块链的尾部,并根据交易的结果更新状态数据库,执行新区块中的交易:对于提交的更新某一音频信息的版权信息数据信息对应的人工识别结果的交易,根据人工识别结果更新状态数据库中该音频信息的版权信息数据信息对应的键值对;对于提交的查询某个音频信息的版权信息数据信息的交易,从状态数据库中查询目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息对应的键值对,并返回交易结果。
值得说明的是,在图9中示例性地示出了将目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息以及相应的进程触发信息直接上链的过程,但在另一些实施例中,对于目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息数据量较大的情况,客户端节点410可目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息的哈希以及相应的目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息的哈希成对上链,将目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息以及相应的进程触发信息存储于分布式文件系统或数据库。客户端节点510从分布式文件系统或数据库获取到目标音频信息标识、客观语音质量评估损失值、第二编码比特数量和标准音频信息以及相应的进程触发信息后,可结合区块链网络200中对应的哈希进行校验,从而减少上链操作的工作量。
作为区块链的示例,参见图10,图10是本发明实施例提供的区块链网络200中区块链的结构示意图,每个区块的头部既可以包括区块中所有交易的哈希值,同时也包含前一个区块中所有交易的哈希值,新产生的交易的记录被填充到区块并经过区块链网络中节点的共识后,会被追加到区块链的尾部从而形成链式的增长,区块之间基于哈希值的链式结构保证了区块中交易的防篡改和防伪造。
下面说明本发明实施例提供的区块链网络的示例性的功能架构,参见图11,图11是本发明实施例提供的区块链网络200的功能架构示意图,包括应用层201、共识层202、网络层203、数据层204和资源层205,下面分别进行说明。
资源层205封装了实现区块链网路200中的各个共识节点210的计算资源、存储资源和通信资源。
数据层204封装了实现账本的各种数据结构,包括以文件系统中的文件实现的区块链,键值型的状态数据库和存在性证明(例如区块中交易的哈希树)。
网络层203封装了点对点(P2P,Point to Point)网络协议、数据传播机制和数据验证机制、接入认证机制和业务主体身份管理的功能。
其中,P2P网络协议实现区块链网络200中共识节点210之间的通信,数据传播机制保证了交易在区块链网络200中的传播,数据验证机制用于基于加密学方法(例如数字证书、数字签名、公/私钥对)实现共识节点210之间传输数据的可靠性;接入认证机制用于根据实际的业务场景对加入区块链网络200的业务主体的身份进行认证,并在认证通过时赋予业务主体接入区块链网络200的权限;业务主体身份管理用于存储允许接入区块链网络200的业务主体的身份、以及权限(例如能够发起的交易的类型)。
共识层202封装了区块链网络200中的共识节点210对区块达成一致性的机制(即共识机制)、交易管理和账本管理的功能。共识机制包括POS、POW和DPOS等共识算法,支持共识算法的可插拔。
交易管理用于验证共识节点210接收到的交易中携带的数字签名,验证业务主体的身份信息,并根据身份信息判断确认其是否具有权限进行交易(从业务主体身份管理读取相关信息);对于获得接入区块链网络200的授权的业务主体而言,均拥有认证中心颁发的数字证书,业务主体利用自己的数字证书中的私钥对提交的交易进行签名,从而声明自己的合法身份。
账本管理用于维护区块链和状态数据库。对于取得共识的区块,追加到区块链的尾部;执行取得共识的区块中的交易,当交易包括更新操作时更新状态数据库中的键值对,当交易包括查询操作时查询状态数据库中的键值对并向业务主体的客户端节点返回查询结果。支持对状态数据库的多种维度的查询操作,包括:根据区块向量号(例如交易的哈希值)查询区块;根据区块哈希值查询区块;根据交易向量号查询区块;根据交易向量号查询交易;根据业务主体的账号(向量号)查询业务主体的账号数据;根据通道名称查询通道中的区块链。
应用层201封装了区块链网络能够实现的各种业务,包括交易的溯源、存证和验证等。
图12为本发明实施例提供的音频信息处理方法的使用场景示意图,其中,音频信息为短音频直播的音频,终端(包括终端10-1和终端10-2)上设置有能够显示相应短音频的软件的客户端,例如音频播放的客户端或插件,用户通过相应的客户端可以获得目标音频并进行展示;终端通过网络300连接音频服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。当然,用户也可以通过终端中的微信小程序进行音频直播以供网络中的其他用户观看,这一过程中音频服务器需要对用户上传的音频信息进行编码,以节省音频信息传输时的网络资源,避免卡顿,使用户获得更好的使用体验。
本发明提供一种信息处理方法,下面对本发明所提供的音频信息处理方法的使用过程进行说明,其中,参考图13,图13为本发明实施例中音频信息处理方法一个可选的的使用过程示意图,具体包括以下步骤:
步骤1301:获取目标短音频对应的音频信息,并通过预处理进程对音频信息进行预处理。
步骤1302:获取音频信息处理模型的训练样本集合。
步骤1303:对音频信息处理模型进行训练,确定相应的模型参数。
步骤1304:将经过训练的音频信息处理模型部署在相应的音频检测服务器中。
步骤1305:通过音频信息处理模型确定相应的客观语音质量评估损失值。
步骤1306:基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行增加或减少,得到带内前向纠错编码时的第二编码比特数量。
步骤1307:基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。
有益技术效果:
本发明实施例通过获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量;通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值;基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量;基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。由此,可以通过客观语音质量评估损失值,对带内前向纠错编码时的编码比特数量进行调整,获得更加适合的编码比特数量,提升音频信息编码质量,节省音频信息传输时的网络资源,使用户获得更好的使用体验。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种音频信息处理方法,其特征在于,所述方法包括:
获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量;
通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值;
基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量;
基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。
2.根据权利要求1所述的方法,其特征在于,所述获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述音频信息中所包括的语音特征向量,包括:
对所述目标音频信息进行解析,获取所述目标音频信息的时序信息;
根据所述目标音频信息的时序信息,对所述目标音频信息所对应的音频参数进行解析,获取与所述目标音频信息对应的语音活动检测参数;
基于所述目标音频信息对应的语音活动检测参数,对所述目标音频信息进行抽取以获取所述目标音频信息对应的语音特征向量。
3.根据权利要求1所述的方法,其特征在于,所述通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值,包括:
通过所述音频信息处理模型的第一卷积神经网络,对所述语音特征向量进行处理,得到所述语音特征向量对应的第一音频特征向量;
通过所述音频信息处理模型的门控循环单元网络,对所述第一音频特征向量进行处理,得到所述语音特征向量对应的第二音频特征向量;
通过所述音频信息处理模型的第二卷积神经网络,对所述第二音频特征向量进行处理,得到所述语音特征向量对应的第三音频特征向量;
基于所述第三音频特征向量,确定所述语音特征向量对应的客观语音质量评估损失值。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定目标音频信息的使用环境;
基于所述目标音频信息的使用环境,对所述音频信息处理模型的门控循环单元网络中的门控循环单元的数量进行调整;
基于所述目标音频信息的使用环境,对所述音频信息处理模型的第一卷积神经网络中的卷积神经单元的数量进行调整;
基于所述目标音频信息的使用环境,对所述音频信息处理模型的第二卷积神经网络中的卷积神经单元的数量进行调整。
5.根据权利要求1所述的方法,其特征在于,所述基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量,包括:
基于所述客观语音质量评估损失值,确定所述目标音频信息中不同语音帧所分别对应的音质权重参数;
当所述音质权重参数大于等于音质权重参数阈值时,对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行增加,得到带内前向纠错编码时的第二编码比特数量。
6.根据权利要求1所述的方法,其特征在于,所述基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量,包括:
基于所述客观语音质量评估损失值,确定所述目标音频信息中不同语音帧所分别对应的音质权重参数;
当所述音质权重参数小于音质权重参数阈值时,对相应语音帧对应的带内前向纠错编码时的第一编码比特数量进行减少,得到带内前向纠错编码时的第二编码比特数量。
7.根据权利要求1所述的方法,其特征在于,所述基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量,包括:
基于所述客观语音质量评估损失值,确定所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系;
基于所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系,对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整,得到带内前向纠错编码时的第二编码比特数量,以适应所述目标音频信息的使用环境。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述目标音频信息的信息来源,建立数据存储映射;
响应于所建立的数据存储映射,对所述目标音频的文件格式进行调整,以实现与所述信息来源相匹配;
响应于所建立的数据存储映射,为相同数据源的音频信息配置所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系;
通过所述客观语音质量评估损失值与带内前向纠错编码时的编码比特数量的映射关系,对所述目标音频信息中不同语音帧的带内前向纠错编码时的第一编码比特数量进行动态调整。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一训练样本集合,其中所述第一训练样本集合包括通过终端采集的不同音频样本;
对所述第一训练样本集合进行噪声添加,以形成相应的第二训练样本集合;
通过音频信息处理模型对所述第二训练样本集合进行处理,以确定所述音频信息处理模型的初始参数;
响应于所述音频信息处理模型的初始参数,通过所述音频信息处理模型对所述第二训练样本集合进行处理,确定所述音频信息处理模型的更新参数;
根据所述音频信息处理模型的更新参数,通过所述第二训练样本集合对所述音频信息处理模型的网络参数进行迭代更新。
10.根据权利要求9所述的方法,其特征在于,所述对所述第一训练样本集合进行噪声添加,以形成相应的第二训练样本集合,包括:
确定所述音频信息处理模型的使用环境相匹配的动态噪声类型;
根据所述动态噪声类型,对所述第一训练样本集合进行噪声添加,以改变所述第一训练样本集合中音频样本的固定增益、自适应增益、基音周期、线谱对参数以及语音端点检测参数,形成相应的第二训练样本集合。
11.根据权利要求9所述的方法,其特征在于,所述响应于所述音频信息处理模型的初始参数,通过所述音频信息处理模型对所述第二训练样本集合进行处理,确定所述音频信息处理模型的更新参数,包括:
将所述第二训练样本集合中不同音频样本,代入所述音频信息处理模型的第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数;
确定所述损失函数满足相应的收敛条件时对应所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数;
将所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数作为所述音频信息处理模型的更新参数。
12.根据权利要求9所述的方法,其特征在于,所述根据所述音频信息处理模型的更新参数,通过所述第二训练样本集合对所述音频信息处理模型的网络参数进行迭代更新,包括:
确定与所述音频信息处理模型中第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别相匹配的收敛条件;
对所述第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的参数进行迭代更新,直至第一卷积神经网络、第二卷积神经网络和门控循环单元网络所分别对应的损失函数满足对应的收敛条件。
13.一种音频信息处理装置,其特征在于,所述装置包括:
信息传输模块,用于获取目标音频信息,并对所述目标音频信息进行解析处理,得到所述目标音频信息中所包括的语音特征向量;
信息处理模块,用于通过音频信息处理模型,对所述语音特征向量进行处理,得到所述语音特征向量对应的客观语音质量评估损失值;
所述信息处理模块,用于基于所述客观语音质量评估损失值,对带内前向纠错编码时的第一编码比特数量进行调整,得到带内前向纠错编码时的第二编码比特数量;
所述信息处理模块,用于基于所述第二编码比特数量,对所述目标音频信息进行编码处理,得到所述目标音频信息对应的标准音频信息。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至12任一项所述的音频信息处理方法。
15.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至12任一项所述的音频信息处理方法。
CN202110744917.2A 2021-07-01 2021-07-01 一种音频信息处理方法、装置、电子设备及存储介质 Active CN113192520B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110744917.2A CN113192520B (zh) 2021-07-01 2021-07-01 一种音频信息处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110744917.2A CN113192520B (zh) 2021-07-01 2021-07-01 一种音频信息处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113192520A true CN113192520A (zh) 2021-07-30
CN113192520B CN113192520B (zh) 2021-09-24

Family

ID=76976911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110744917.2A Active CN113192520B (zh) 2021-07-01 2021-07-01 一种音频信息处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113192520B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582365A (zh) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754734A (en) * 1995-10-31 1998-05-19 Motorola, Inc. Method of transmitting voice coding information using cyclic redundancy check bits
US7327985B2 (en) * 2003-01-21 2008-02-05 Telefonaktiebolaget Lm Ericsson (Publ) Mapping objective voice quality metrics to a MOS domain for field measurements
CN101221765A (zh) * 2008-01-29 2008-07-16 北京理工大学 一种基于语音前向包络预测的差错隐藏方法
JP4309749B2 (ja) * 2003-12-02 2009-08-05 日本電信電話株式会社 帯域制限を考慮した音声品質客観評価装置
CN101789853A (zh) * 2009-01-26 2010-07-28 美国博通公司 处理重传请求方法、终端和对重传请求进行管理的方法
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的系统和方法
CN110176226A (zh) * 2018-10-25 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
CN110415713A (zh) * 2018-04-28 2019-11-05 北京展讯高科通信技术有限公司 Dmr系统的编码方法及装置、存储介质、数字对讲机
CN110838894A (zh) * 2019-11-27 2020-02-25 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机可读存储介质和计算机设备
CN111128203A (zh) * 2020-02-27 2020-05-08 北京达佳互联信息技术有限公司 音频数据编码、解码方法、装置、电子设备及存储介质
CN111144093A (zh) * 2019-12-26 2020-05-12 腾讯科技(深圳)有限公司 一种智能文本处理方法、装置、电子设备及存储介质
CN111371957A (zh) * 2020-05-26 2020-07-03 腾讯科技(深圳)有限公司 一种冗余度控制方法、装置、电子设备和存储介质
CN111552799A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备及存储介质
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN112104892A (zh) * 2020-09-11 2020-12-18 腾讯科技(深圳)有限公司 一种多媒体信息处理方法、装置、电子设备及存储介质
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN112767955A (zh) * 2020-07-22 2021-05-07 腾讯科技(深圳)有限公司 音频编码方法及装置、存储介质、电子设备
CN112767956A (zh) * 2021-04-09 2021-05-07 腾讯科技(深圳)有限公司 音频编码方法、装置、计算机设备及介质
CN112820306A (zh) * 2020-02-20 2021-05-18 腾讯科技(深圳)有限公司 语音传输方法、系统、装置、计算机可读存储介质和设备
CN112967735A (zh) * 2021-02-23 2021-06-15 北京达佳互联信息技术有限公司 语音质量检测模型的训练方法及语音质量的检测方法

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754734A (en) * 1995-10-31 1998-05-19 Motorola, Inc. Method of transmitting voice coding information using cyclic redundancy check bits
US7327985B2 (en) * 2003-01-21 2008-02-05 Telefonaktiebolaget Lm Ericsson (Publ) Mapping objective voice quality metrics to a MOS domain for field measurements
JP4309749B2 (ja) * 2003-12-02 2009-08-05 日本電信電話株式会社 帯域制限を考慮した音声品質客観評価装置
CN101221765A (zh) * 2008-01-29 2008-07-16 北京理工大学 一种基于语音前向包络预测的差错隐藏方法
CN101789853A (zh) * 2009-01-26 2010-07-28 美国博通公司 处理重传请求方法、终端和对重传请求进行管理的方法
CN102044247A (zh) * 2009-10-10 2011-05-04 北京理工大学 一种针对VoIP语音的客观评测方法
CN109697974A (zh) * 2017-10-19 2019-04-30 百度(美国)有限责任公司 使用卷积序列学习的神经文本转语音的系统和方法
CN110415713A (zh) * 2018-04-28 2019-11-05 北京展讯高科通信技术有限公司 Dmr系统的编码方法及装置、存储介质、数字对讲机
CN110176226A (zh) * 2018-10-25 2019-08-27 腾讯科技(深圳)有限公司 一种语音识别、及语音识别模型训练方法及装置
CN110838894A (zh) * 2019-11-27 2020-02-25 腾讯科技(深圳)有限公司 语音处理方法、装置、计算机可读存储介质和计算机设备
CN111144093A (zh) * 2019-12-26 2020-05-12 腾讯科技(深圳)有限公司 一种智能文本处理方法、装置、电子设备及存储介质
CN112820306A (zh) * 2020-02-20 2021-05-18 腾讯科技(深圳)有限公司 语音传输方法、系统、装置、计算机可读存储介质和设备
CN111128203A (zh) * 2020-02-27 2020-05-08 北京达佳互联信息技术有限公司 音频数据编码、解码方法、装置、电子设备及存储介质
CN111552799A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 信息处理方法、装置、电子设备及存储介质
CN111371957A (zh) * 2020-05-26 2020-07-03 腾讯科技(深圳)有限公司 一种冗余度控制方法、装置、电子设备和存储介质
CN111739521A (zh) * 2020-06-19 2020-10-02 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN112767955A (zh) * 2020-07-22 2021-05-07 腾讯科技(深圳)有限公司 音频编码方法及装置、存储介质、电子设备
CN112104892A (zh) * 2020-09-11 2020-12-18 腾讯科技(深圳)有限公司 一种多媒体信息处理方法、装置、电子设备及存储介质
CN112735456A (zh) * 2020-11-23 2021-04-30 西安邮电大学 一种基于dnn-clstm网络的语音增强方法
CN112967735A (zh) * 2021-02-23 2021-06-15 北京达佳互联信息技术有限公司 语音质量检测模型的训练方法及语音质量的检测方法
CN112767956A (zh) * 2021-04-09 2021-05-07 腾讯科技(深圳)有限公司 音频编码方法、装置、计算机设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HOCINE CHAOUCH ET AL.: "《Multiple Description Coding and Forward Error Correction Concealment Methods for ACELP Coders in Packet Networks》", 《2019 6TH INTERNATIONAL CONFERENCE ON IMAGE AND SIGNAL PROCESSING AND THEIR APPLICATIONS (ISPA)》 *
王赞等: "《基于丢包率的改进前向纠错算法研究》", 《软件向导》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582365A (zh) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Also Published As

Publication number Publication date
CN113192520B (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN110598651B (zh) 一种信息处理方法、装置及存储介质
CN109379397B (zh) 基于区块链的交易共识处理方法及装置、电子设备
CN112104892B (zh) 一种多媒体信息处理方法、装置、电子设备及存储介质
CN111931678B (zh) 一种视频信息处理方法、装置、电子设备及存储介质
CN104735030B (zh) 应用开启方法、装置和系统
CN102362269A (zh) 实时内核
EP2289065B1 (en) Concealing audio artifacts
CN111371957B (zh) 一种冗余度控制方法、装置、电子设备和存储介质
CN111294591B (zh) 视频信息处理方法、多媒体信息处理方法、装置
CN113539299A (zh) 一种多媒体信息处理方法、装置、电子设备及存储介质
CN113192520B (zh) 一种音频信息处理方法、装置、电子设备及存储介质
CN115841133A (zh) 一种联邦学习方法、装置、设备及存储介质
CN112989186A (zh) 资讯信息推荐模型训练方法、装置、电子设备及存储介质
US11909517B2 (en) Systems and methods for secure, low bandwidth replicated virtual worlds for shared space computing
CN114358307A (zh) 基于差分隐私法的联邦学习方法及装置
CN109614778A (zh) 用户权限的动态配置方法、网关及系统
CN211791776U (zh) 一种分布式录播系统
CN107277640A (zh) 基于直播平台的互动方法、装置和存储介质
CN111294592A (zh) 视频信息处理方法、多媒体信息处理方法、装置
US20230195940A1 (en) Blockchain-based data processing method and apparatus, device, and storage medium
CN113259621B (zh) 一种云会议分步录制方法及系统
CN111860597B (zh) 一种视频信息处理方法、装置、电子设备及存储介质
CN112153322B (zh) 数据分发方法、装置、设备及存储介质
CN114842857A (zh) 语音处理方法、装置、系统、设备及存储介质
CN114707663A (zh) 分布式机器学习方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048299

Country of ref document: HK