CN117498992A - 一种基于用户特征的音频数据传输分析方法及系统 - Google Patents
一种基于用户特征的音频数据传输分析方法及系统 Download PDFInfo
- Publication number
- CN117498992A CN117498992A CN202311843744.5A CN202311843744A CN117498992A CN 117498992 A CN117498992 A CN 117498992A CN 202311843744 A CN202311843744 A CN 202311843744A CN 117498992 A CN117498992 A CN 117498992A
- Authority
- CN
- China
- Prior art keywords
- audio
- user
- transmission
- initial
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 183
- 238000004458 analytical method Methods 0.000 title claims abstract description 103
- 238000012937 correction Methods 0.000 claims abstract description 47
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 230000007246 mechanism Effects 0.000 claims abstract description 44
- 230000005856 abnormality Effects 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 47
- 230000006798 recombination Effects 0.000 claims description 36
- 238000005215 recombination Methods 0.000 claims description 36
- 238000009432 framing Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 18
- 125000004122 cyclic group Chemical group 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 17
- 238000005311 autocorrelation function Methods 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 16
- 238000001228 spectrum Methods 0.000 claims description 13
- 230000000737 periodic effect Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 230000008054 signal transmission Effects 0.000 claims description 6
- 230000006835 compression Effects 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 5
- 238000012300 Sequence Analysis Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008521 reorganization Effects 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000009467 reduction Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 238000011426 transformation method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L1/00—Arrangements for detecting or preventing errors in the information received
- H04L1/20—Arrangements for detecting or preventing errors in the information received using signal quality detector
- H04L1/203—Details of error rate determination, e.g. BER, FER or WER
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
- H04L43/0829—Packet loss
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Environmental & Geological Engineering (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于用户特征的音频数据传输分析方法及系统,属于音频传输分析技术领域,引入隐马尔可夫模型以及Viterbi算法计算用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数,基于所述状态序列差异分数分析未执行拥塞避免控制机制情况下是否存在序列误差,得到第一传输异常分析结果,分析已执行拥塞避免控制机制时是否出现冗余丢包,得到第二传输异常分析结果,基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。本发明能够分析在传输拥塞情况下用户音频特征数据的传输误差,并修正传输误差,确保音频特征完整性和可靠性。
Description
技术领域
本发明涉及音频传输分析技术领域,尤其涉及一种基于用户特征的音频数据传输分析方法及系统。
背景技术
在目前发达的科技生活当中,很多的音频设备都能够根据用户的音频特征对输出的音频数据进行处理,例如音色、音调、音量、语速等特征,从而使得用户的音频特征更加象征化,更能够代表用户独有的声音特色,这些声音特征能够运用于声纹匹配、语音助手、语音识别以及人工交互等领域,对改善和提高用户生活质量具有重大帮助;但传统音频数据的传输方法仍存在很大的误差,音频从采集、发送到接收过程中音频数据会被分为无数的数据包,接着进行压缩编码传输,最后重组解码;而在重组和传输的过程中,由于网络传输拥塞,导致最终输出的音频特征数据包序列出现不连续、缺失或重复的现象,导致用户实际输出的音频特征产生误差和偏移,从而使得用户的实际音频特征无法被使用,需要重新采集和传输,费时费力,音频质量差,大幅度降低了音频数据的传输效率;因此提出一种基于用户特征的音频数据传输分析方法及系统来提高音频特征的传输质量,减少丢包和重组误差的发生。
发明内容
本发明克服了现有技术的不足,提供了一种基于用户特征的音频数据传输分析方法及系统。
为达上述目的,本发明采用的技术方案为:
本发明第一方面提供了一种基于用户特征的音频数据传输分析方法,包括以下步骤:
获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征;
引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数;
若所述状态序列差异分数小于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果;
在所述状态序列差异分数小于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果;
基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。
进一步的,本发明的一个较佳的实施例中,所述获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征,具体包括以下步骤:
通过音频录制设备对用户的输出音频进行采集,获取用户的初始音频数据,并将所述用户的音频数据存储至音频录制设备的储存库中;
引入短时傅里叶变换算法对所述用户的初始音频数据进行分帧处理,在时域中将初始音频数据划分为若干个时间窗口,并通过汉宁窗对每个所述时间窗口进行加窗处理,使得汉宁窗函数乘以每个所述时间窗口中的音频数据,得到多个加窗后的时间窗口;
对多个所述加窗后的时间窗口内的初始音频数据进行傅里叶变换,得到多个瞬时频谱数据,重叠多个所述瞬时频谱数据并平滑贴合处理,得到多个音频分帧时间片段;
构建一组梅尔滤波器,同时获取每组所述梅尔滤波器的梅尔频率,根据多个所述梅尔频率绘制梅尔刻度表,将每个所述音频分帧时间片段映射至所述梅尔刻度表上进行滤波处理,得到多个音频滤波信号值;
基于梅尔频率倒谱系数对多个所述音频滤波信号值取对数压缩,得到多个滤波信号对数刻度,将多个所述滤波信号对数刻度进行离散余弦变换,生成多个音频倒谱系数;
剔除低于预设倒谱系数的所述音频倒谱系数,最终将剩余的所述音频倒谱系数合并输出,得到用户的初始音频特征。
进一步的,本发明的一个较佳的实施例中,所述引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数,具体包括以下步骤:
通过音频接收设备将所述用户的初始音频特征进行传输输出,生成用户的实际音频特征;其中,所述用户的音频特征包括音色、音调、音量以及语速;
基于隐马尔科夫模型判断所述初始音频特征与所述实际音频特征之间的差异,获取所述隐马尔科夫模型中定义完成的状态转移概率和观测概率;
根据状态转移概率对所述初始音频特征以及所述实际音频特征的序列动态变化概率进行分析,得到第一动态序列变化和第二动态序列变化,通过观测概率分析不同状态下所述初始音频特征以及所述实际音频特征的分布点位,得到第一特定分布概率和第二特定分布概率;
合并所述第一动态序列变化与所述第一特定分布概率并表达,生成初始音频特征序列;将所述第二动态序列变化与所述第二特定分布概率进行合并表达,生成实际音频动态序列;
引入Viterbi算法遍历并确定所述初始音频特征序列与所述实际音频动态序列中符合预设状态序列的最有可能状态序列,以获取初始隐含状态序列和实际隐含状态序列,最终在Viterbi算法中计算所述初始隐含状态序列和所述实际隐含状态序列之间的差异,得到状态序列差异分数。
进一步的,本发明的一个较佳的实施例中,所述若所述状态序列差异分数大于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果,具体包括以下步骤:
当所述状态序列差异分数大于预设状态差异分数,则分析音频接收设备传输所述用户的初始音频特征时产生的误差;
获取音频接收设备的TCP传输协议和信号传输技术,结合所述TCP传输协议以及所述信号传输技术协同分析是否执行拥塞避免控制机制,若未执行拥塞避免控制机制,则获取若干个初始音频数据包拥塞重组后对应的时间戳;
基于时序分析法对所述若干个初始音频数据包拥塞重组后对应的时间戳进行分析,以确定每个时间戳序列的波动系数,同时引入Pearson相关系数统计计算每个所述时间戳序列的波动系数的自相关性,得到若干个自相关函数;
根据所述每个时间戳序列的波动系数和所述若干个自相关函数构建关系表,得到自相关函数-时间波动表,分析每个自相关函数在所述自相关函数-时间波动表中的分布幅度,提取出所述分布幅度高于峰值幅度阈值的多个自相关函数,并定义为周期性峰值,计算每个所述周期性峰值之间的欧氏距离,得到多个峰值间隔距离;
获取初始音频数据中的时间戳帧数,基于所述时间戳帧数来预设峰值间隔范围,判断所述多个所述峰值间隔距离是否处于所述峰值间隔范围内,若不处于,则初始音频数据包重组顺序不正确或冗余,得到第一传输异常分析结果。
进一步的,本发明的一个较佳的实施例中,所述在所述状态序列差异分数大于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果,具体包括以下步骤:
若已执行拥塞避免控制机制,则获取若干个初始音频数据包的传输大小、数据包传输速率,根据所述若干个初始音频数据包的传输大小和所述数据包传输速率计算流量,得到数据包的传输流量;
获取路由器的预设链路容量,判断所述数据包的传输流量是否超过预设链路容量,若超过,则触发随机丢包机制并获取缓冲队列长度;
引入RED算法对所述缓冲队列长度进行监控分析,获取RED算法中设置的队列长度阈值,当所述缓冲队列长度超过队列长度阈值时,则根据所述缓冲队列长度计算丢包概率,以所述丢包概率为基准进行随机丢包,得到随机丢包量;
获取路由器的重传次数,引入循环冗余校验法计算所述重传次数对所述随机丢包量的传输误差,在循环冗余校验法中选择二进制多项式,并在所述二进制多项式中使所述重传次数与所述随机丢包量相加,生成多项式校验码;
基于重传次数将所述多项式校验码绑定所述随机丢包量进行传输接收,生成接收数据,并在二进制多项式中对所述接收数据进行重复运算,若重复运算后输出的余数不等于0,则随机丢包传输出现冗余丢包误差,导致用户的音频特征缺失和错误,得到第二传输异常分析结果。
进一步的,本发明的一个较佳的实施例中,所述基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案,具体包括以下步骤:
当音频接收设备输出用户的音频特征存在所述第一传输异常分析结果时,则获取音频接收设备生成实际音频特征的实际接收时间戳;
获取音频发送设备的初始接收时间戳和发送延迟值,结合所述初始接收时间戳以及所述发送延迟值计算预计接收时间,得到期望接收时间戳,通过所述实际接收时间减去所述期望接收时间戳,得到时间戳偏移量,并计算所述时间戳偏移量与预设时间戳偏移量之间的差值,得到偏移量差值;
输入所述偏移量差值至音频接收设备中对若干个初始音频数据包拥塞重组后对应的时间戳进行补偿修正,使所述时间戳偏移量与所述若干个初始音频数据包拥塞重组后对应的时间戳相加,得到第一音频特征修正方案;
当音频接收设备输出用户的音频特征存在所述第二传输异常分析结果时,则引入牛顿插值算法构建多项式函数模型,基于所述多项式函数模型计算随机丢包量所缺失的数据包,得到音频填充数据包;
将所述音频填充数据包发送至音频接收设备对随机丢包量进行填补修正,得到第二音频特征修正方案,最终合并所述第一音频特征修正方案与所述第二音频特征修正方案,得到用户音频特征的修正方案。
本发明第二方面提供了一种基于用户特征的音频数据传输分析系统,所述一种基于用户特征的音频数据传输分析系统包括存储器与处理器,所述存储器中储存一种基于用户特征的音频数据传输分析方法程序,所述一种基于用户特征的音频数据传输分析方法程序被所述处理器执行时,实现以下步骤:
获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征;
引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数;
若所述状态序列差异分数大于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果;
在所述状态序列差异分数大于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果;
基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。
进一步的,本发明的一个较佳的实施例中,所述基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案,具体包括以下步骤:
当音频接收设备输出用户的音频特征存在所述第一传输异常分析结果时,则获取音频接收设备生成实际音频特征的实际接收时间戳;
获取音频发送设备的初始接收时间戳和发送延迟值,结合所述初始接收时间戳以及所述发送延迟值计算预计接收时间,得到期望接收时间戳,通过所述实际接收时间减去所述期望接收时间戳,得到时间戳偏移量,并计算所述时间戳偏移量与预设时间戳偏移量之间的差值,得到偏移量差值;
输入所述偏移量差值至音频接收设备中对若干个初始音频数据包拥塞重组后对应的时间戳进行补偿修正,使所述时间戳偏移量与所述若干个初始音频数据包拥塞重组后对应的时间戳相加,得到第一音频特征修正方案;
当音频接收设备输出用户的音频特征存在所述第二传输异常分析结果时,则引入牛顿插值算法构建多项式函数模型,基于所述多项式函数模型计算随机丢包量所缺失的数据包,得到音频填充数据包;
将所述音频填充数据包发送至音频接收设备对随机丢包量进行填补修正,得到第二音频特征修正方案,最终合并所述第一音频特征修正方案与所述第二音频特征修正方案,得到用户音频特征的修正方案。
本发明解决了背景技术中存在的技术缺陷,本发明的有益技术效果在于:
获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征,引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数,基于所述状态序列差异分数小于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果,分析音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果,基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。本发明能够分析在传输拥塞情况下用户音频特征数据的传输误差,并修正传输误差,从而提高用户音频特征数据传输的质量和效率,确保音频特征完整性和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1示出了一种基于用户特征的音频数据传输分析方法的第一方法流程图;
图2示出了一种基于用户特征的音频数据传输分析方法的第二方法流程图;
图3示出了一种基于用户特征的音频数据传输分析方法的第三方法流程图;
图4示出了一种基于用户特征的音频数据传输分析系统的系统框架图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明第一方面提供了一种基于用户特征的音频数据传输分析方法,如图1所示,包括以下步骤:
S102:获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征;
S104:引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数;
S106:若所述状态序列差异分数小于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果;
S108:在所述状态序列差异分数小于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果;
S110:基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。
进一步的,本发明的一个较佳的实施例中,所述获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征,具体包括以下步骤:
通过音频录制设备对用户的输出音频进行采集,获取用户的初始音频数据,并将所述用户的音频数据存储至音频录制设备的储存库中;
引入短时傅里叶变换算法对所述用户的初始音频数据进行分帧处理,在时域中将初始音频数据划分为若干个时间窗口,并通过汉宁窗对每个所述时间窗口进行加窗处理,使得汉宁窗函数乘以每个所述时间窗口中的音频数据,得到多个加窗后的时间窗口;
对多个所述加窗后的时间窗口内的初始音频数据进行傅里叶变换,得到多个瞬时频谱数据,重叠多个所述瞬时频谱数据并平滑贴合处理,得到多个音频分帧时间片段;
构建一组梅尔滤波器,同时获取每组所述梅尔滤波器的梅尔频率,根据多个所述梅尔频率绘制梅尔刻度表,将每个所述音频分帧时间片段映射至所述梅尔刻度表上进行滤波处理,得到多个音频滤波信号值;
基于梅尔频率倒谱系数对多个所述音频滤波信号值取对数压缩,得到多个滤波信号对数刻度,将多个所述滤波信号对数刻度进行离散余弦变换,生成多个音频倒谱系数;
剔除低于预设倒谱系数的所述音频倒谱系数,最终将剩余的所述音频倒谱系数合并输出,得到用户的初始音频特征。
需要说明的是,所述音频录制设备包括但不限于麦克风、录音机、蓝牙耳机等,通过音频录制设备采集到用户的音频数据后,当需要提取特征时可在音频录制设备储存库中快速调用,减少特征提取冗余步骤;而用户音频特征的提取首先需引入短时傅里叶变换算法对用户的音频数据进行分帧处理,且在傅里叶变换前,通过汉宁窗对音频数据做加窗处理,能够提高音频数据处理的准确度,以减少分析窗口两端引起的频谱泄漏问;加窗后每个时间窗口内的音频数据执行傅里叶变换后,由于音频信号是非平稳的,因此变换得到的频谱信息是该时间窗口内音频信号的瞬时频谱信息,瞬时频谱信息能够使分帧输出结果更加平滑;接着通过一组梅尔滤波器对音频分帧时间片段进行滤波,这些滤波器的中心频率在梅尔刻度上均匀分布。梅尔刻度是一种与人耳感知线性属性更加相符的频率刻度,信号滤波灵敏度高,从而确保音频特征提取的精准度;再通过梅尔频率倒谱系数对多个所述音频滤波信号值取对数压缩并离散余弦变换,生成多个音频倒谱系数,所述音频倒谱系数为最终捕捉到的音频特征体现,最后根据预设音频倒谱系数进行特征降维筛选便可得到用户的初始音频特征。本发明能够更加快速、准确的在采集到的用户音频数据进行特征提取,从而提高用户音频特征的可靠性。
进一步的,本发明的一个较佳的实施例中,所述引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数,具体包括以下步骤:
通过音频接收设备将所述用户的初始音频特征进行传输输出,生成用户的实际音频特征;其中,所述用户的音频特征包括音色、音调、音量以及语速;
基于隐马尔科夫模型判断所述初始音频特征与所述实际音频特征之间的差异,获取所述隐马尔科夫模型中定义完成的状态转移概率和观测概率;
根据状态转移概率对所述初始音频特征以及所述实际音频特征的序列动态变化概率进行分析,得到第一动态序列变化和第二动态序列变化,通过观测概率分析不同状态下所述初始音频特征以及所述实际音频特征的分布点位,得到第一特定分布概率和第二特定分布概率;
合并所述第一动态序列变化与所述第一特定分布概率并表达,生成初始音频特征序列;将所述第二动态序列变化与所述第二特定分布概率进行合并表达,生成实际音频动态序列;
引入Viterbi算法遍历并确定所述初始音频特征序列与所述实际音频动态序列中符合预设状态序列的最有可能状态序列,以获取初始隐含状态序列和实际隐含状态序列,最终在Viterbi算法中计算所述初始隐含状态序列和所述实际隐含状态序列之间的差异,得到状态序列差异分数。
需要说明的是,通常在传输出现误差时,输出的实际音频特征与初始音频特征存在一定的特征差异,这可能是音频数据传输过程中发生了数据包重组错误、缺失、重复等问题导致的,确定问题所在之前需先计算输出的实际音频特征与初始音频特征的差异程度;音频特征之间的差异的底层原因是特征序列发生了动态变化导致的特征不一致,通过引入隐马尔可夫模型分析特征序列的动态变化,其中,状态转移概率表示从一个状态转移到另一个状态的概率,定义了音频特征序列中的动态变化趋势;而观测概率表示在每个状态下产生特定音频特征的概率,体现了不同状态对应的音频特征的分布情况;基于隐马尔可夫模型中的状态转移概率和观测概率便可分析出实际音频特征与初始音频特征的动态序列变化,能够更快速、精准的计算特征变化趋势;最终引入Viterbi算法(维特比算法)便可通过分析实际音频特征与初始音频特征的动态序列变化计算出差异值,得到状态序列差异分数,所述状态序列差异分数为实际音频特征与初始音频特征之间具体差异体现。本发明能够精准计算出实际音频特征与初始音频特征之间的差异,基于此差异具体分析可能出现的数据传输异常情况,为音频传输修正决策提供重要依据。
进一步的,本发明的一个较佳的实施例中,所述若所述状态序列差异分数大于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果,如图2所示,具体包括以下步骤:
S202:当所述状态序列差异分数大于预设状态差异分数,则分析音频接收设备传输所述用户的初始音频特征时产生的误差;
S204:获取音频接收设备的TCP传输协议和信号传输技术,结合所述TCP传输协议以及所述信号传输技术协同分析是否执行拥塞避免控制机制,若未执行拥塞避免控制机制,则获取若干个初始音频数据包拥塞重组后对应的时间戳;
S206:基于时序分析法对所述若干个初始音频数据包拥塞重组后对应的时间戳进行分析,以确定每个时间戳序列的波动系数,同时引入Pearson相关系数统计计算每个所述时间戳序列的波动系数的自相关性,得到若干个自相关函数;
S208:根据所述每个时间戳序列的波动系数和所述若干个自相关函数构建关系表,得到自相关函数-时间波动表,分析每个自相关函数在所述自相关函数-时间波动表中的分布幅度,提取出所述分布幅度高于峰值幅度阈值的多个自相关函数,并定义为周期性峰值,计算每个所述周期性峰值之间的欧氏距离,得到多个峰值间隔距离;
S210:获取初始音频数据中的时间戳帧数,基于所述时间戳帧数来预设峰值间隔范围,判断所述多个所述峰值间隔距离是否处于所述峰值间隔范围内,若不处于,则初始音频数据包重组顺序不正确或冗余,得到第一传输异常分析结果。
需要说明的是,当状态序列差异分数大于预设状态差异分数,则说明在音频数据传输和接收时可能由于音频接收设备的拥塞避免控制机制的执行异常导致的音频特征出现误差,故而需具体分析拥塞避免控制机制执行异常的情况;当音频接收设备未执行拥塞避免控制机制时,则会出现数值传输拥塞的现象,从而导致音频数据包的重组紊乱,因此首先基于时序分析法对音频数据包时间戳的时序分布进一步分析。在此算法中,能够直观的观察到音频数据包的时间戳随时间变化的情况,并通过分析时间戳的波动以便检测是否存在异常的时间戳波动或不稳定的时间戳分布,所述波动系数表示时间戳序列的波动变化;计算时间戳序列的波动变化的同时,通过Pearson相关系数计算每个波动系数的自相关性,并结构构建自相关函数-时间波动表,此表能够发现时间戳序列是否存在周期性或规律性的变化模式,提高时间戳序列异常的确定速率;在时间戳序列中,若存在明显的周期性变化,则自相关函数图表中通常会出现明显的周期性峰值,这些明显的周期性峰值表明数据中存在周期性的自相关性,即数据在特定时间间隔内呈现重复模式,从而表达出音频重组出现的不连续性,所述时间戳帧数为准确的时间戳排列间隔,通过分析周期性峰值的出现位置及间隔是否处于预设峰值间隔范围,若不处于,则初始音频数据包重组顺序不连续和重组冗余导致的音频特征错误,最终输出分析结果。本发明能够对未执行拥塞避免控制机制情况下的传输异常进行分析。
进一步的,本发明的一个较佳的实施例中,所述在所述状态序列差异分数大于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果,如图3所示,具体包括以下步骤:
S302:若已执行拥塞避免控制机制,则获取若干个初始音频数据包的传输大小、数据包传输速率,根据所述若干个初始音频数据包的传输大小和所述数据包传输速率计算流量,得到数据包的传输流量;
S304:获取路由器的预设链路容量,判断所述数据包的传输流量是否超过预设链路容量,若超过,则触发随机丢包机制并获取缓冲队列长度;
S306:引入RED算法对所述缓冲队列长度进行监控分析,获取RED算法中设置的队列长度阈值,当所述缓冲队列长度超过队列长度阈值时,则根据所述缓冲队列长度计算丢包概率,以所述丢包概率为基准进行随机丢包,得到随机丢包量;
S308:获取路由器的重传次数,引入循环冗余校验法计算所述重传次数对所述随机丢包量的传输误差,在循环冗余校验法中选择二进制多项式,并在所述二进制多项式中使所述重传次数与所述随机丢包量相加,生成多项式校验码;
S310:基于重传次数将所述多项式校验码绑定所述随机丢包量进行传输接收,生成接收数据,并在二进制多项式中对所述接收数据进行重复运算,若重复运算后输出的余数不等于0,则随机丢包传输出现冗余丢包误差,导致用户的音频特征缺失和错误,得到第二传输异常分析结果。
需要说明的是,音频接收设备已执行拥塞避免控制机制时,在一般情况下拥塞避免控制机制则会对随机丢弃数据包以减小数据传输负担,从而提高传输质量,但在已执行拥塞避免控制机制后仍出现音频特征差异的现象,则可能是随机丢包重传过程中丢包量超过计算量,从而出现数据包过度丢弃导致的数据缺失,因此需对随机丢包进行验证;首先进行拥塞检测,可通过计算出数据包的传输流量进行确定,若传输流量超过预设链路容量,则说明传输通道存在拥塞,此时触发随机丢包机制向发送方传递拥塞信号,并获取路由器的缓冲队列长度,所述缓冲队列长度为路由器内部包含有缓冲队列,用于暂时存储转发数据包;基于RED算法(随机早期丢弃算法)分析所述缓冲队列长度,算法开始以一定的概率随机丢弃部分数据包,这个概率会随着队列长度的增加而逐渐增大,即队列长度越大,随机丢包的概率越大,从而生成随机丢包量;随机丢包机制触发时会进行数据包的重传,引入循环冗余校验法计算重传次数对随机丢包量的传输误差,确保检测出数据传输中存在的错误;其中,重传次数和随机丢包量被左移使得在右边能够添加和多项式一样多的0,此时两个二进制数相加的过程本质上是生成多项式除法,从而生成多项式校验码;最终对多项式校验码进行重复运算验证,校验码经过除法运算后应该得到全0的余数。若余数不为0,则表明在重传时发生了冗余丢包现象。本发明能够准确检测出音频数据随机丢包重传过程中可能存在的传输错误,减少数据包冗余丢弃,提高音频特征输出正确性。
进一步的,本发明的一个较佳的实施例中,所述基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案,具体包括以下步骤:
当音频接收设备输出用户的音频特征存在所述第一传输异常分析结果时,则获取音频接收设备生成实际音频特征的实际接收时间戳;
获取音频发送设备的初始接收时间戳和发送延迟值,结合所述初始接收时间戳以及所述发送延迟值计算预计接收时间,得到期望接收时间戳,通过所述实际接收时间减去所述期望接收时间戳,得到时间戳偏移量,并计算所述时间戳偏移量与预设时间戳偏移量之间的差值,得到偏移量差值;
输入所述偏移量差值至音频接收设备中对若干个初始音频数据包拥塞重组后对应的时间戳进行补偿修正,使所述时间戳偏移量与所述若干个初始音频数据包拥塞重组后对应的时间戳相加,得到第一音频特征修正方案;
当音频接收设备输出用户的音频特征存在所述第二传输异常分析结果时,则引入牛顿插值算法构建多项式函数模型,基于所述多项式函数模型计算随机丢包量所缺失的数据包,得到音频填充数据包;
将所述音频填充数据包发送至音频接收设备对随机丢包量进行填补修正,得到第二音频特征修正方案,最终合并所述第一音频特征修正方案与所述第二音频特征修正方案,得到用户音频特征的修正方案。
需要说明的是,在分析出传输异常分析结果后,便可根据传输异常分析结果进行分析计算,进而修正产生误差的实际音频特征;当音频接收设备输出用户的音频特征存在第一传输异常分析结果时,则可通过计算时间戳偏移量来对第一传输异常分析结果中产生的时间戳序列误差进行修正,从而确保实际音频特征的连续性,进一步保证音频质量;其中,时间戳偏移量则通过音频接收设备生成实际音频特征时的实际接收时间戳和期望接收时间戳计算获得;当音频接收设备输出用户的音频特征存在第二传输异常分析结果时,则引入牛顿插值算法计算第二传输异常分析结果中丢失的音频数据包,并基于计算出的音频数据包对第二传输异常分析结果的数据包缺失现象进行修正,从而保证实际输出的音频特征的完整性。本发明能够对高效精准的分析传输异常结果中存在的传输误差,并计算制定相应的修正方案,提高音频传输质量和速率,确保音频传输过程中的自行修正能力,减少音频传输重组错误、丢包、缺失等情况的发生频率,可靠性高。
此外,所述一种基于用户特征的音频数据传输分析方法,还包括以下步骤:
获取用户的实际音频数据,基于小波变换法对所述实际音频数据进行噪声提取,通过小波变换法中预设的小波基函数将所述实际音频数据划分为多个不同频率的近似系数和细节系数,并将多个所述不同频率的近似系数和细节系数同时与所述小波基函数进行内积运算,得到多个小波系数;
将多个所述小波系数进行时移变换分析,若所述小波系数大于预设小波系数,则对大于预设小波系数的所述小波系数进行剔除,整合剩余的小波系数对应的音频数据,得到噪声音频数据;
获取所述实际音频数据的信号功率和所述噪声音频数据的信号功率,结合所述实际音频数据的信号功率以及所述噪声音频数据的信号功率计算信噪比,得到信噪比值;
若信噪比值大于预设信噪比值,则所述噪声音频数据已从实际音频数据中完整提取并对降噪方案进行筛选,若信噪比值小于预设信噪比值,则在实际音频数据中对噪声音频数据进行重新筛选提取,直至信噪比大于预设信噪比并输出;
基于所述噪声音频数据在大数据中检索若干种对应的降噪方案,通过余弦相似度算法计算每种所述对应的降噪方案与当前音频设备的契合度,得到若干个契合度;
对所述若干个契合度进行降序排列,构建契合度降序排列表,并在所述契合度降序排列表中提取出最大契合度对应的降噪方案作为当前音频设备调整所述噪声音频数据的最佳方案进行输出。
需要说明的是,通常用户在音频录制过程中可能会出现噪音干扰的情况,使得噪声与用户音频混合,导致音频存在大量噪声,从而使得音频设备无法对用户的原始音频特征进行识别,因此需对音频设备进行调控来实现降噪效果,但不同的降噪方案并不是适配于所有音频设备,部分降噪方案中的降噪步骤是某些音频设备所无法实现的,故而首先需对用户实际音频特征中的噪声音频进行确定提取,在此过程中运用小波变换法进行噪声特征提取,能够提高噪声的提取速率与精准度,减少提取时对原始音频特征的影响;最终根据提取出的噪声音频确定降噪方案,并引入余弦相似度算法计算降噪方案与当前音频设备的契合度,从而确保该降噪方案能够准确适配于当前的音频设备,保证控制的可靠性。本发明能够对录制过程中用户音频中的噪声进行提取并智能筛选最佳适配度的降噪方案,从而提高设备对噪声的降噪质量,保证良好的降噪效果。
此外,所述一种基于用户特征的音频数据传输分析方法,还包括以下步骤:
获取若干个目标用户的音频文件,通过音频处理工具对所述若干个目标用户的音频文件进行识别分析,得到若干个目标用户的音频特征和声纹频谱;
引入支持向量机算法构建音频识别模型,将所述若干个音频特征和所述声纹频谱导入音频识别模型中进行训练,并通过梯度下降法不断调整算法中拟合音频识别模型的高斯径向核函数并进行验证,得到训练完成的音频识别模型;
基于层次分析算法在所述训练完成的音频识别模型中对若干个目标用户的音频特征和声纹频谱进行权重赋值,生成音频权重集;
将所述修复后的实际音频特征导入所述训练完成的音频识别模型中进行识别匹配,并引入斯皮尔曼相关系数在所述音频权重集中匹配与所述修正后的实际音频特征正相关的权重值,得到一个或者多个匹配的目标用户音频特征;
基于大数据网络获取所述一个或者多个匹配的目标用户音频特征对应的打分标准,根据一个或者多个所述打分标准对修正后的实际音频特征进行综合评价,生成分数值并上传音频显示终端。
需要说明的是,在对输出的实际音频特征数据进行修正后,能够应用于音频识别领域中,例如语音助手识别、语音打分系统等,但目前现有的打分系统识别速率慢、有时还会发现无法识别匹配的现象,而且匹配输出的音频特征结果与用户的实际音频特征存在差距,效果不尽人意,打分机制不够完善;基于支持向量机算法训练多名已知用户的音频识别模型,在音频识别模型中引入层次分析算法为已知音源与用户音频特征进行权重赋值,根据赋值权重能够大幅度提升用户音频与已知音源之间的筛选精准度,从而减少筛选误差;同时基于斯皮尔曼相关系数能够准确计算已知音源与用户音频特之间的关联性,从而对音频执行快速高效的智能匹配,进而使得匹配识别的结果更加精准,减小匹配错误率;最终根据匹配结果的打分标准进行打分,使得打分结果更加能够直观表达对用户音频特征的评价,使得评价结果更加贴合。本发明能够对通过构建音频智能匹配与打分方法对用户的音频特征进行匹配打分,并可用于语音识别领域,为用户的音频特征提供准确高效的匹配打分目的,保障用户享有极佳的互动体验。
本发明第二方面提供了一种基于用户特征的音频数据传输分析系统,所述一种基于用户特征的音频数据传输分析系统包括存储器41与处理器42,所述存储器41中储存一种基于用户特征的音频数据传输分析方法程序,所述一种基于用户特征的音频数据传输分析方法程序被所述处理器42执行时,如图4所示,实现以下步骤:
获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征;
引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数;
若所述状态序列差异分数大于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果;
在所述状态序列差异分数大于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果;
基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。
进一步的,本发明的一个较佳的实施例中,所述基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案,具体包括以下步骤:
当音频接收设备输出用户的音频特征存在所述第一传输异常分析结果时,则获取音频接收设备生成实际音频特征的实际接收时间戳;
获取音频发送设备的初始接收时间戳和发送延迟值,结合所述初始接收时间戳以及所述发送延迟值计算预计接收时间,得到期望接收时间戳,通过所述实际接收时间减去所述期望接收时间戳,得到时间戳偏移量,并计算所述时间戳偏移量与预设时间戳偏移量之间的差值,得到偏移量差值;
输入所述偏移量差值至音频接收设备中对若干个初始音频数据包拥塞重组后对应的时间戳进行补偿修正,使所述时间戳偏移量与所述若干个初始音频数据包拥塞重组后对应的时间戳相加,得到第一音频特征修正方案;
当音频接收设备输出用户的音频特征存在所述第二传输异常分析结果时,则引入牛顿插值算法构建多项式函数模型,基于所述多项式函数模型计算随机丢包量所缺失的数据包,得到音频填充数据包;
将所述音频填充数据包发送至音频接收设备对随机丢包量进行填补修正,得到第二音频特征修正方案,最终合并所述第一音频特征修正方案与所述第二音频特征修正方案,得到用户音频特征的修正方案。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种基于用户特征的音频数据传输分析方法,其特征在于,包括以下步骤:
获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征;
引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数;
若所述状态序列差异分数大于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果;
在所述状态序列差异分数大于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果;
基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。
2.根据权利要求1所述的一种基于用户特征的音频数据传输分析方法,其特征在于,所述获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征,具体包括以下步骤:
通过音频录制设备对用户的输出音频进行采集,获取用户的初始音频数据,并将所述用户的音频数据存储至音频录制设备的储存库中;
引入短时傅里叶变换算法对所述用户的初始音频数据进行分帧处理,在时域中将初始音频数据划分为若干个时间窗口,并通过汉宁窗对每个所述时间窗口进行加窗处理,使得汉宁窗函数乘以每个所述时间窗口中的音频数据,得到多个加窗后的时间窗口;
对多个所述加窗后的时间窗口内的初始音频数据进行傅里叶变换,得到多个瞬时频谱数据,重叠多个所述瞬时频谱数据并平滑贴合处理,得到多个音频分帧时间片段;
构建一组梅尔滤波器,同时获取每组所述梅尔滤波器的梅尔频率,根据多个所述梅尔频率绘制梅尔刻度表,将每个所述音频分帧时间片段映射至所述梅尔刻度表上进行滤波处理,得到多个音频滤波信号值;
基于梅尔频率倒谱系数对多个所述音频滤波信号值取对数压缩,得到多个滤波信号对数刻度,将多个所述滤波信号对数刻度进行离散余弦变换,生成多个音频倒谱系数;
剔除低于预设倒谱系数的所述音频倒谱系数,最终将剩余的所述音频倒谱系数合并输出,得到用户的初始音频特征。
3.根据权利要求1所述的一种基于用户特征的音频数据传输分析方法,其特征在于,所述引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数,具体包括以下步骤:
通过音频接收设备将所述用户的初始音频特征进行传输输出,生成用户的实际音频特征;其中,所述用户的音频特征包括音色、音调、音量以及语速;
基于隐马尔科夫模型判断所述初始音频特征与所述实际音频特征之间的差异,获取所述隐马尔科夫模型中定义完成的状态转移概率和观测概率;
根据状态转移概率对所述初始音频特征以及所述实际音频特征的序列动态变化概率进行分析,得到第一动态序列变化和第二动态序列变化,通过观测概率分析不同状态下所述初始音频特征以及所述实际音频特征的分布点位,得到第一特定分布概率和第二特定分布概率;
合并所述第一动态序列变化与所述第一特定分布概率并表达,生成初始音频特征序列;将所述第二动态序列变化与所述第二特定分布概率进行合并表达,生成实际音频动态序列;
引入Viterbi算法遍历并确定所述初始音频特征序列与所述实际音频动态序列中符合预设状态序列的最有可能状态序列,以获取初始隐含状态序列和实际隐含状态序列,最终在Viterbi算法中计算所述初始隐含状态序列和所述实际隐含状态序列之间的差异,得到状态序列差异分数。
4.根据权利要求1所述的一种基于用户特征的音频数据传输分析方法,其特征在于,所述若所述状态序列差异分数大于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果,具体包括以下步骤:
当所述状态序列差异分数大于预设状态差异分数,则分析音频接收设备传输所述用户的初始音频特征时产生的误差;
获取音频接收设备的TCP传输协议和信号传输技术,结合所述TCP传输协议以及所述信号传输技术协同分析是否执行拥塞避免控制机制,若未执行拥塞避免控制机制,则获取若干个初始音频数据包拥塞重组后对应的时间戳;
基于时序分析法对所述若干个初始音频数据包拥塞重组后对应的时间戳进行分析,以确定每个时间戳序列的波动系数,同时引入Pearson相关系数统计计算每个所述时间戳序列的波动系数的自相关性,得到若干个自相关函数;
根据所述每个时间戳序列的波动系数和所述若干个自相关函数构建关系表,得到自相关函数-时间波动表,分析每个自相关函数在所述自相关函数-时间波动表中的分布幅度,提取出所述分布幅度高于峰值幅度阈值的多个自相关函数,并定义为周期性峰值,计算每个所述周期性峰值之间的欧氏距离,得到多个峰值间隔距离;
获取初始音频数据中的时间戳帧数,基于所述时间戳帧数来预设峰值间隔范围,判断所述多个所述峰值间隔距离是否处于所述峰值间隔范围内,若不处于,则初始音频数据包重组顺序不正确或冗余,得到第一传输异常分析结果。
5.根据权利要求1所述的一种基于用户特征的音频数据传输分析方法,其特征在于,所述在所述状态序列差异分数大于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果,具体包括以下步骤:
若已执行拥塞避免控制机制,则获取若干个初始音频数据包的传输大小、数据包传输速率,根据所述若干个初始音频数据包的传输大小和所述数据包传输速率计算流量,得到数据包的传输流量;
获取路由器的预设链路容量,判断所述数据包的传输流量是否超过预设链路容量,若超过,则触发随机丢包机制并获取缓冲队列长度;
引入RED算法对所述缓冲队列长度进行监控分析,获取RED算法中设置的队列长度阈值,当所述缓冲队列长度超过队列长度阈值时,则根据所述缓冲队列长度计算丢包概率,以所述丢包概率为基准进行随机丢包,得到随机丢包量;
获取路由器的重传次数,引入循环冗余校验法计算所述重传次数对所述随机丢包量的传输误差,在循环冗余校验法中选择二进制多项式,并在所述二进制多项式中使所述重传次数与所述随机丢包量相加,生成多项式校验码;
基于重传次数将所述多项式校验码绑定所述随机丢包量进行传输接收,生成接收数据,并在二进制多项式中对所述接收数据进行重复运算,若重复运算后输出的余数不等于0,则随机丢包传输出现冗余丢包误差,导致用户的音频特征缺失和错误,得到第二传输异常分析结果。
6.根据权利要求1所述的一种基于用户特征的音频数据传输分析方法,其特征在于,所述基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案,具体包括以下步骤:
当音频接收设备输出用户的音频特征存在所述第一传输异常分析结果时,则获取音频接收设备生成实际音频特征的实际接收时间戳;
获取音频发送设备的初始接收时间戳和发送延迟值,结合所述初始接收时间戳以及所述发送延迟值计算预计接收时间,得到期望接收时间戳,通过所述实际接收时间减去所述期望接收时间戳,得到时间戳偏移量,并计算所述时间戳偏移量与预设时间戳偏移量之间的差值,得到偏移量差值;
输入所述偏移量差值至音频接收设备中对若干个初始音频数据包拥塞重组后对应的时间戳进行补偿修正,使所述时间戳偏移量与所述若干个初始音频数据包拥塞重组后对应的时间戳相加,得到第一音频特征修正方案;
当音频接收设备输出用户的音频特征存在所述第二传输异常分析结果时,则引入牛顿插值算法构建多项式函数模型,基于所述多项式函数模型计算随机丢包量所缺失的数据包,得到音频填充数据包;
将所述音频填充数据包发送至音频接收设备对随机丢包量进行填补修正,得到第二音频特征修正方案,最终合并所述第一音频特征修正方案与所述第二音频特征修正方案,得到用户音频特征的修正方案。
7.一种基于用户特征的音频数据传输分析系统,其特征在于,所述一种基于用户特征的音频数据传输分析系统包括存储器与处理器,所述存储器中储存一种基于用户特征的音频数据传输分析方法程序,所述一种基于用户特征的音频数据传输分析方法程序被所述处理器执行时,实现以下步骤:
获取用户的初始音频数据,将所述初始音频数据划分出多个音频分帧时间片段,并计算多个所述音频分帧时间片段的倒谱系数,生成用户的初始音频特征;
引入隐马尔可夫模型以及Viterbi算法计算所述用户的初始音频特征与实际音频特征之间的序列差异,得到状态序列差异分数;
若所述状态序列差异分数大于预设状态差异分数时,分析音频接收设备未执行拥塞避免控制机制情况下拥塞重组的初始音频数据包时间戳是否存在序列误差,得到第一传输异常分析结果;
在所述状态序列差异分数大于预设状态差异分数情况下,若音频接收设备已执行拥塞避免控制机制时,计算初始音频数据包拥塞传输的随机丢包量,并引入循环冗余校验法对所述随机丢包量是否出现冗余丢包误差进行检验,得到第二传输异常分析结果;
基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案。
8.根据权利要求7所述的一种基于用户特征的音频数据传输分析系统,其特征在于,所述基于所述第一传输异常分析结果和所述第二传输异常分析结果对用户的初始音频特征误差进行计算修正,生成用户音频特征的修正方案,具体包括以下步骤:
当音频接收设备输出用户的音频特征存在所述第一传输异常分析结果时,则获取音频接收设备生成实际音频特征的实际接收时间戳;
获取音频发送设备的初始接收时间戳和发送延迟值,结合所述初始接收时间戳以及所述发送延迟值计算预计接收时间,得到期望接收时间戳,通过所述实际接收时间减去所述期望接收时间戳,得到时间戳偏移量,并计算所述时间戳偏移量与预设时间戳偏移量之间的差值,得到偏移量差值;
输入所述偏移量差值至音频接收设备中对若干个初始音频数据包拥塞重组后对应的时间戳进行补偿修正,使所述时间戳偏移量与所述若干个初始音频数据包拥塞重组后对应的时间戳相加,得到第一音频特征修正方案;
当音频接收设备输出用户的音频特征存在所述第二传输异常分析结果时,则引入牛顿插值算法构建多项式函数模型,基于所述多项式函数模型计算随机丢包量所缺失的数据包,得到音频填充数据包;
将所述音频填充数据包发送至音频接收设备对随机丢包量进行填补修正,得到第二音频特征修正方案,最终合并所述第一音频特征修正方案与所述第二音频特征修正方案,得到用户音频特征的修正方案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311843744.5A CN117498992B (zh) | 2023-12-29 | 2023-12-29 | 一种基于用户特征的音频数据传输分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311843744.5A CN117498992B (zh) | 2023-12-29 | 2023-12-29 | 一种基于用户特征的音频数据传输分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117498992A true CN117498992A (zh) | 2024-02-02 |
CN117498992B CN117498992B (zh) | 2024-04-16 |
Family
ID=89669351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311843744.5A Active CN117498992B (zh) | 2023-12-29 | 2023-12-29 | 一种基于用户特征的音频数据传输分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117498992B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024799A (zh) * | 2012-12-28 | 2013-04-03 | 清华大学 | 大范围无线传感网延迟分析方法 |
CN103369620A (zh) * | 2013-06-24 | 2013-10-23 | 天津理工大学 | 一种面向wsn的最小传输多播路由方法 |
CN107196726A (zh) * | 2017-07-10 | 2017-09-22 | 吕志勤 | 一种led可见光室内定位的时钟同步方法与系统 |
CN113038589A (zh) * | 2021-03-04 | 2021-06-25 | 重庆邮电大学 | 一种基于无线网络分簇拓扑的矩阵模型估计时间同步方法 |
-
2023
- 2023-12-29 CN CN202311843744.5A patent/CN117498992B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103024799A (zh) * | 2012-12-28 | 2013-04-03 | 清华大学 | 大范围无线传感网延迟分析方法 |
CN103369620A (zh) * | 2013-06-24 | 2013-10-23 | 天津理工大学 | 一种面向wsn的最小传输多播路由方法 |
CN107196726A (zh) * | 2017-07-10 | 2017-09-22 | 吕志勤 | 一种led可见光室内定位的时钟同步方法与系统 |
CN113038589A (zh) * | 2021-03-04 | 2021-06-25 | 重庆邮电大学 | 一种基于无线网络分簇拓扑的矩阵模型估计时间同步方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117498992B (zh) | 2024-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8606385B2 (en) | Method for qualitative evaluation of a digital audio signal | |
EP0722164B1 (en) | Method and apparatus for characterizing an input signal | |
US11748643B2 (en) | System and method for machine learning based QoE prediction of voice/video services in wireless networks | |
CN102598119B (zh) | 基音估计 | |
EP4390923A1 (en) | A method and system for triggering events | |
JP2012516591A (ja) | オーディオ信号品質予測 | |
US20230326468A1 (en) | Audio processing of missing audio information | |
US8548804B2 (en) | Generating sample error coefficients | |
CN117498992B (zh) | 一种基于用户特征的音频数据传输分析方法及系统 | |
WO2001078062A1 (en) | Pitch estimation in speech signal | |
CN115396622B (zh) | 一种低码率视频重构的电子设备 | |
US20090248336A1 (en) | Analyzer for signal anomalies | |
Mittag et al. | Detecting Packet-Loss Concealment Using Formant Features and Decision Tree Learning. | |
CN111081269A (zh) | 通话过程中的噪声检测方法及系统 | |
CN112233693B (zh) | 一种音质评估方法、装置和设备 | |
US20010029447A1 (en) | Method of estimating the pitch of a speech signal using previous estimates, use of the method, and a device adapted therefor | |
CN112201271B (zh) | 一种基于vad的语音状态统计方法、系统和可读存储介质 | |
CN117061039A (zh) | 一种广播信号监测装置、方法、系统、设备及介质 | |
JP2009523261A (ja) | 自動化されたオーディオ・サブバンドの比較 | |
CN117636905A (zh) | 延迟判断系统及其方法 | |
CN118301244A (zh) | 一种语音通道的筛选方法、装置、设备及存储介质 | |
CN118314879A (zh) | 一种语音唤醒系统参数测试方法和装置 | |
JP2695903B2 (ja) | 音声パケット欠落補償波形の歪量算出方式 | |
WO2024044246A1 (en) | System and method for evaluation of an audio signal processing algorithm | |
CN115938354A (zh) | 一种音频识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |