CN108877839A

CN108877839A - 基于语音语义识别技术的语音质量感知评估的方法及系统

Info

Publication number: CN108877839A
Application number: CN201810870291.8A
Authority: CN
Inventors: 吴冬华; 王计斌; 徐珊珊
Original assignee: Nanjing Hua Su Science And Technology Ltd
Current assignee: Nanjing Hua Su Science And Technology Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2018-11-23
Anticipated expiration: 2038-08-02
Also published as: CN108877839B

Abstract

本发明公开了一种基于语音语义识别技术的语音质量感知评估的方法及系统，该方法根据发送方的用户语音转换的文本与接收方的用户语音转换的文本，利用文本相似度拟合算法进行文本相似度评价；实时显示并保存收发方通信单元连接网络的网络参数和事件信息；使用语音信息通过电信心理学算法建立用户语音感知评价模型，对用户进行语音感知评价；最终通过文本相似度评价、网络信息和语音感知评价，形成用户感知评价；该方法既解决主观评估方法可重复性差的问题，也解决了客观问题无法还原人类大脑思维范式的问题，更接近人脑思维模式，贴近用户对网络通话语音质量的感知，同时通过时间和位置映射，结合网络参数信息和事件，可更精确的定位网络问题。

Description

基于语音语义识别技术的语音质量感知评估的方法及系统

技术领域

本发明涉及通信领域，具体涉及通信领域的语音业务，如2G、Volte和网络会话语音(QQ和微信语音等)相关的网络语音质量感知评估方法。

背景技术

语音业务从模拟网、GSM到如今的4G，乃至未来5G时代始终作为运营商的主要业务而存在，当短信彩信等传统业务已经被OTT(over the top)服务商所蚕食时，语音业务因其特有的可靠性和高QoS一直被大家所继续使用。但用户通过手机通话时已经不仅仅满足于信息的获取，而更多地关注语音质量如何，是否能高保真地还原声音的效果，表达人类的情感。在这种情况下，就需要更高清的语音来满足需求。而VoLTE作为全IP的4G语音移动通信技术，具有比2G/3G更宽的音频范围和更高的采样速率与编码速率，话音更自然舒适，因此能够提升网络语音质量，各大运营商一致以VoLTE(Voice Over LTE)高清语音为解决方案，并积极推动VoLTE网络的部署发展。因此如何建立语音质量评估标准，更好地对网络的语音服务质量进行定量分析和测量成为网络运营商面临的挑战。

语音质量评估分为主观评估和客观评估两种类型，ITU-TP.800定义了MOS的主观测试方法，客观测试方法主要有：PESQ、POLQA等。其中ITU-TP.863(POLQA)是目前ITU推荐的用于VoLTE语音质量测试的方法。

早期针对2G/3G的主观评估MOS评分将人对语音质量的主观感受分为1-5个等级标准，由不同的人分别对原始语音样本和经过被测系统的劣化语音样本进行主观对比打分，然后取平均值。这种主观语音质量评估方法耗时且可重复性差，但是语音质量的等级划分为客观语音质量评估提供了评分依据。区别于主观MOS评分，客观语音质量评估算法得到的原始分值和主观MOS分值有差别。比如P.862算法提供的PESQ原始分值需要映射为MOS-LQO(MOS Objective Listening Quality，客观语音质量)值；POLQA算法根据因频率范围的不同要映射为MOS-LQOn(窄带)和MOS-LQOw(宽带)。这两种方法均采用对参考信号提取物理指标的方法，只能用物理指标量化表示语音性能，无法真实的模拟人类对自然语音的思维模式，无法完全复现用户感知。

中国专利文献(公告号：CN104485114B)公开了一种基于听觉感知特性的语音质量客观评估的方法，其特征在于：所述方法通过在频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，具体步骤为：1)通过POLQA处理参考信号和劣化信号，然后所述参考信号和劣化信号进入核心模型；2)在所述核心模型中的频谱映射为巴克谱模块加入Gammatone滤波器组进行滤波，再进行听觉变换，使提取的听觉频谱更接近人耳听觉感受；3)通过听觉变换后，再进行干扰分析，分析所述劣化信号相对所述参考信号的失真，得出客观评价MOS分。该方法主要针对客观方面的评估，并没有结合主观和网络参数等对语音质量进行感知评估。

因此，有必要开发一种基于语音语义识别技术的语音质量感知评估的方法和系统。

发明内容

本发明要解决的技术问题是，提供一种基于语音语义识别技术的语音质量感知评估的方法，既解决主观评估方法可重复性差的问题，也解决了客观问题无法还原人类大脑思维范式的问题，更接近人脑思维模式，贴近用户对网络通话语音质量的感知，同时通过时间和位置映射，结合网络参数信息和事件，可更精确的定位网络问题。

为解决上述技术问题，本发明采用的技术方案是：该基于语音语义识别技术的语音质量感知评估的方法，具体包括以下步骤：

S1：将语音发起方的语音音频转换成文本信息，并将整体的语音音频信息和转换成的文本信息存储至服务器保存且同时保存语音发起方的网络参数和事件信息；

S2：将语音接收方的语音音频转换成文本信息，并将整体的语音音频信息和转换成的文本信息存储至服务器保存且同时保存语音接收方的网络参数和事件信息；

S3：利用文本相似度的方法对步骤S1和步骤S2中的文本相似度进行评价，并实时显示；

S4：使用语音信息通过电信心理学算法建立用户感知评价模型，对用户进行语音感知评价；

S5：基于语音发起方和语音接收方的网络参数和事件信息通过网络质量评价算法和方法进行网络质量评价；

S6：结合步骤S3、步骤S4和/或步骤S5进行语音感知综合评价最终形成用户感知评价。

采用上述技术方案，根据语音发送方的用户语音转换的文本与语音接收方的用户语音转换的文本，利用文本相似度拟合算法进行文本相似度评价；实时显示并保存收发方通信单元连接网络的网络参数和事件信息；使用语音信息通过电信心理学算法建立用户感知评价模型，对用户进行语音感知评价；最终通过文本相似度评价、网络信息和语音感知评价，形成用户感知评价；其中，对用户语音感知评价差信息，进行网络参数信息和事件信息关联，确定影响语音质量的网络原因及网络问题。该方法既解决主观评估方法可重复性差的问题，也解决了客观问题无法还原人类大脑思维范式的问题，更接近人脑思维模式，贴近用户对网络通话语音质量的感知，同时通过时间和位置映射，结合网络参数信息和事件，可更精确的定位网络问题。

作为本发明的优选技术方案，所述步骤S1具体包括以下步骤：

S11：语音发送方开始发起语音；

S12：语音发起的同时记录过程中的网络参数和事件信息，并将记录的语音发送方的网络参数和事件信息通过通信网络上传到服务器的收发方网络参数和事件存储进行保存；

S13：语音发送结束后将语音发起方的整体语音音频信息进行保存，并将保存的语音发起方的整体语音音频信息通过通信网络上传到服务器的收发方语音音频信息存储进行保存；

S14：对语音发起方的整体语音音频信息进行文本转换，并将转换后的语音发起方的文本信息通过通信网络上传到服务器的收发方文本信息存储进行保存。

作为本发明的优选技术方案，所述步骤S2具体包括以下步骤：

S21：语音接收方接收发送方语音音频信息；

S22：语音接收的同时记录过程中网络参数和事件信息，并将记录下的语音接收方网络参数和事件信息通过通信网络上传到服务器的收发方网络参数和事件存储进行保存；

S23：语音接收结束后将语音接收方的整体语音音频信息进行保存，并将保存的语音接收方的整体语音音频信息通过通信网络上传到服务器的收发方语音音频信息存储进行保存；

S24：对语音接收方的整体语音音频信息进行文本转换，并将转换后的语音接收方的文本信息通过通信网络上传到服务器的收发方文本信息存储进行保存。

可选地，所述步骤S3利用文本相似度的方法来进行语音质量评估具体包括以下步骤：

S31：将原始音频通过机械朗读的方式生成相对应的一段标准音频再转换成原始文本；

S32：另外一台终端或者平台通过通信网络传播的方式采集到这段标准音频即对比音频再转换成对比文本；

S33：将原始文本与对比文本采用文本相似度算法进行文本相似度计算，再通过函数映射转换，最后输出结果。

采用上述技术方案，为了更好模拟人脑对自然语音的思维模式，贴近用户实际感知，我们选取了文本相似度的方法来进行语音质量评估；将一段标准文本(原始文本)通过机械朗读的方式生成相对应的一段标准音频，另外一台终端或者平台通过网络传播的方式采集到这段标准音频(对比文本)，采用人工语音识别的方式即人工听取这段标准音频(对比文本)，并将听到的音频内容以及对这段音频的质量进行人工评分，评分分为5个等级(1～5)：1：bad，2：poor，3：fair，4：good，5：excellent。

作为本发明的优选技术方案，所述步骤S4中的通过电信心理学算法进行语音感知评价，是各种语音样本通过人工感知评价，建立用户语音感知评价模型，对语音进行感知评价；具体步骤包括：

S41数据采集：收集不同网络质量下收发方的语音音频文件及相应的VoLTE网络指标，如呼叫建立时延、抖动、语音丢包率、IP包时延、切换中断时延；

S42数据处理：用户分别听取语音发起方和语音接收方的语音音频文件，并根据个人的感知对音频好坏进行二选一的投票；并根据投票结果设定相应的阈值，超过该阈值的用户给出好的打分则给该份音频文件打上标签1；标签0即为超过该阈值的用户给出坏的打分；从而每条VoLTE网络指标都有其相对应的感知标签；

S43特征选择：在建立分类模型之前，还需要对特征变量进行筛选；以防某些变量相关性过高；本方案采用xgboost中的特征评分对最终变量进行筛选；

S44模型建立：根据现有好与不好的音频相应的网络指标采用多种分类算法对训练集做训练，以测试集做验证，得到最优分类模型，并输出用户感知模型；

S45模型预测：对音频相应的网络指标进行用户感知模型预测，并将感知概率映射为用户感知评分。

作为本发明的优选技术方案，为了通过语音发起方和语音接收方的网络参数和事件信息存储实现对用户网络质量的评价，本方案借鉴了专利申请(公开号：CN 107920362A)中的技术方案，申请人在此予以引入并根据实际数据情况进行了修改，所述步骤S5所述的网络质量评价算法和方法具体包括以下步骤：

S51数据收集：收集用户GPS信息、MR数据和VoLTE数据；

S52数据处理：在栅格级对所述步骤S51中的各数据源进行整合关联；

S53数据计算分析：在计算栅格网络性能指标项之前，需要先计算覆盖栅格各个小区的基础网络性能得分；得到覆盖栅格所有小区的基础网络性能得分后，借助算法得到栅格的基础网络性能得分；

S54数据分析结果：业务类型为VoLTE业务，可自行选择需要评估的时间，栅格的网络性能得分分为优秀、良好、一般、差、严重5个区间。

采用上述技术方案，对各指标阈值进行调整，从而真实地反映当前网络质量，特别实现对50*50栅格进行VoLTE的网络性能评估，更加贴切移动网络优化的需求；利用指标集间的关联与约束关系，使能合理、客观的评价微区域(50*50栅格，后面统称栅格)的网络质量，有效地指导网络优化。

其中，所述步骤S53数据计算分析中计算覆盖栅格各个小区的基础网络性能得分的具体步骤包括，基础网络性能得分即基础得分由所有话统指标KPI的得分，即加权相加所得，每个KPI得分根据指标属性采用不同的算法进行计算：

若指标越小越好：时，

其中为所有小区KPI_j指标的2.5％-97.5％分位数区间的值，为小区X中KPI_j的区间范围，其中分子为小区X中KPI_j的累积分布函数(AUC)，分母为KPI_j的累积分布函数最大的小区对应的值；

若小区X的KPI_j小于B_KPIj的左端点，则

若小区X的KPI_j大于的右端点，则

若指标越大越好：当时，

若小区X的KPI_j大于的右端点，则

若小区X的KPI_j小于的左端点，则

最终得到覆盖栅格所有小区的基础网络性能得分。

所述步骤S53数据计算分析中得到覆盖栅格所有小区的基础网络性能得分后，借助算法得到栅格的基础网络性能得分中的算法具体为：

其中，Grid_X指代某个栅格，指覆盖栅格X的所有小区集合；

基于上述的算法逻辑可以得栅格的性能得分后，增加栅格内基于用户的MR数据作为调节参数得到各栅格最终的网络性能得分，

该调节参数的区间范围为其中为所有栅格连续14天RSRP均值的归一化后值对应的栅格X的值，为每个栅格会有个14天的SINR均值，对栅格的SINR均值做min-max的归一化对应的值；

对于min-max的归一化解释如下：也称为离差标准化，是对原始数据的线性变换，使结果映射到0-1之间，转换函数为：

其中max为样本数据的最大值，min为样本数据的最小值；

最终，基于栅格的基础网络性能得分及调节参数，得到栅格最终的网络性能得分：

将得分在做(0，100)的区间映射。

作为本发明的优选技术方案，所述步骤S6中进行语音感知综合评价的方法具体包括以下步骤：

分别通过语音感知评价、网络质量评价以及文本相似度得到三种用户语音感知评分之后，根据经验对三种方法所得结果设置不同的权重，通过加权平均的方式得到最终的用户语音感知评分；其中基于语音感知评价方法的权重为0.3，基于网络质量评价方法的权重为0.2，基于文本相似度方法的权重为0.5；最终的用户语音感知综合评价公式如下：

S_ensemble＝0.3*S₁+0.2*S₂+0.5*S₃

其中：S_ensemble为最终的用户语音感知评分结果，S₁为基于语音感知评价方法的评分结果，S₂为基于网络质量评价方法的评分结果，S₃为基于文本相似度方法的评分结果。

作为本发明的优选技术方案，为了更好模拟人脑对自然语音的思维模式，贴近用户实际感知，我们选取了文本相似度的方法来进行语音质量评估；将对比音频文本(对比文本)与原始标准文本(原始文本)进行文本的相似度计算，本发明涉及一套计算文本相似度的算法框架，其中4种文本相似度算法；所述步骤S33中的所述文本相似度算法包括4种文本相似度算法：1)基于词频(TF)的统计算法；2)Simhash文本相似度算法；3)基于向量空间模型VSM的文本相似度算法；4)基于LDA主题模型的文本相似度算法；其中：

1)基于词频(TF)的统计算法的具体步骤包括：

S3311：列出标准文本各个字；

S3312：分别统计出标准文本中的各个字在标准文本、对比文本中出现的频率f_s、f_c，其中f_c≤f_s，对比文本中多余的文字不计入统计；

S3313：文本相似度结果：其中Similarity_tf为词频TF的相似度；

2)Simhash文本相似度算法的具体步骤包括：

S3321：分别将文本分词，取文本的TF-IDF权重最高的前n个词(feature)和权重(weight)；即一个文本得到一个长度为n的(feature：weight)的集合。

S3322：对其中的词(feature)，进行普通的哈希之后得到一个64位的二进制，得到长度为20的(hash：weight)的集合；

S3323：根据S3322得到的一串二进制数hash中相应位置是1是0，对相应位置取正值weight和负值weight；例如一个词经过步骤S3322得到(010111：5)，经过步骤3323后可以得到列表[-5，5，-5，5，5，5]，即对一个文档，我们可以得到20个长度为64的列表[weight，-weight...weight]；

S3324：对S3323中n个列表进行列向量加得到一个列表；如[-5，5，-5，5，5，5]、[-3，-3，-3，3，-3，3]、[1，-1，-1，1，1，1]进行列向量累加得到[-7，1，-9，9，3，9]，这样，我们对一个文档得到，一个长度为64的列表；

S3325：对S3324中得到的列表中每个值进行判断，当为负值的时候取0，正值取1；例如，[-7，1，-9，9，3，9]得到010111，这样，我们对一个文本得到，一个长度为64的列表；

S3326：计算相似性；对两个文本的simhash取异或，若为1则表示不相同，0则表示相同；为1的长度除以整体长度为差异度，1减去差异度即得到文本相似度Similarity_simhash；

3)基于向量空间模型VSM的文本相似度算法的具体步骤包括：

VSM的基本思想是把文本简化为以特征项(关键词)的权重为分量的N维向量表示。模型假设词与词间不相关，用向量来表示文本，从而简化了文本中的关键词之间的复杂关系，文本用十分简单的向量表示，使得模型具备了可计算性。

其中采用D为Document的缩写表示文本，采用T为Term的缩写表示特征项；特征项指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T₁，T₂，...，T_n)，其中T_k是特征项，要求满足1＜＝k＜＝N；

S3331：假设一份语音文本中有a、b、c、d四个特征项，那么这份语音文本就可以表示为D(a，b，c，d)；

S3332：对于其它要与之比较的文本，也将遵从这个特征项顺序；对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度，即D＝D(T₁，W₁；T₂，W₂；...，T_n，W_n)简记为D＝D(W₁，W₂，...，W_n)，我们把它叫做文本D的权值向量表示；其中W_k是T_k的权重，1＜＝k＜＝N；

S3333：在向量空间模型中，两个文本D₁和D₂之间的内容相关度Sim(D₁，D₂)可用向量之间夹角的余弦值表示，公式为：

4)基于LDA主题模型的文本相似度算法的具体步骤包括：

利用LDA模型对文本集进行建模，即利用文本的统计特性，将文本语料库映射到各个主题空间，挖掘隐藏在文本内的不同主题与词之间的关系，得到文本的主题分布，通过此分布来计算文本的相似度矩阵；其中

LDA模型是一种对离散数据集(如文档集)建模的概率主题模型，是一种对文本数据的主题信息进行建模的方法，通过对文本进行一个简短的描述，保留本质的统计信息，有助于高效地处理大规模的文档集。

LDA主题概率模型生成文本的过程如下：

S3341：对于主题z，根据狄里克雷分布Dir(β)得到该主题上的一个单词多项式分布向量φ；

S3342：根据泊松分布P得到文本的单词数目N；

S3343：根据狄里克雷分布Dir(α)得到该文本的一个主题分布概率向量θ；

S3344：对于该文本N个单词中的每一个单词Wn：

S3344-1：从θ的多项式分布Multinomial(θ)随机选择一个主题z；

S3344-2：从主题z的多项式条件概率分布Multinomial(Φ)选择一个单词作为Wn；

由于文本的主题分布是文本向量空间的简单映射，因此在文本的主题表示情况下，计算两个文本的相似度可以通过计算与之对应的主题概率分布来实现；由于主题是词向量的混合分布，因此使用KL(Kullback-Leibler相对熵)距离作为相似度度量标准，KL距离如下式所示：其中D_KL(p，q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，q表示P的拟合分布。

采用上述技术方案，基于词频(TF)的统计算法主要用来判断用户听到的语音与标准文本之间是否存在不连续、单通、断字等问题，若该方法计算出的相似度较小，则说明语音质量存在较大问题；基于Simhash文本相似度算法采取对文本抽取关键词再进行关键词的相似度比较，主要为了计算出用户听到的文本语义是否跟标准语义之间存在区别。基于向量空间模型VSM的文本相似度算法，利用词向量将文本抽象为向量表示，再通过特征向量之间的欧式距离或者皮尔森距离进行度量，从而判断用户听到的文本语义跟标准语义间的差别。

基于LDA主题模型的文本相似度计算，利用LDA建立了文本主题空间，通过比较用户听到的语音文本主题和标准文本主题之间的差异性，判断语音质量；最终的两个文本的相似度为：

Similarity_Final＝f(Similarity_tf，Similarity_simhash，Similarity_vsm，Similarity_LDA)。

作为本发明的优选技术方案，所述步骤S44中所述多种分类算法包括4种分类算法：1)决策树；2)随机森林；3)逻辑回归；4)XGBoost算法；其中，1)决策树算法的具体步骤为：

S4411：选择一个最佳预测变量将全部样本单元分为两类，实现两类中纯度最大化；如果预测变量连续，则选择一个分割点进行分类，使得两类纯度最大化；如果预测变量为分类变量，则对各类别进行合并再分类；

S4412：对每一个子类别继续执行S4411中的步骤。

S4413：重复步骤S4411～S4412，直到子类别中所含的样本单元数过少，或者没有分类法能将不纯度下降到一个给定的阈值以下；最终集中的子类别即终端节点；根据每一个终端节点中样本单元的类别数众数来判断这一终端节点的所属类别；

S4414：对于任一样本单元执行决策树，得到其终端节点，即可以根据步骤S4413得到模型预测的所属类别；但是通过该算法通常会得到一颗过大的数，从而出现过拟合的现象，对于训练集外单元的分类性能较差；为解决上面问题，可采用10折交叉验证法选择预测误差最小的树；

2)随机森林：随机森林是一个由一组决策树分类器{h(X，θ_k)，k＝1，2，...，K}组成的集成分类器，其中{θ_k}是服从独立同分布的随机向量，K代表随机森林中决策树的个数，在给定自变量X下，每个决策树分类器通过投票来决定最优的分类结果；随机森林涉及对样本单元和变量进行抽样，从而生成大量的决策树；对每个样本单元，所有决策树依次对其进行分类；随机森林算法的具体步骤为：

S4421应用bootstrap方法从训练集中随机有放回地抽取K个新的自助样本集，并由此构建K棵分类树，每次未被抽到的样本组成了K个袋外数据；

S4422在每一棵数的每个节点处随机抽取m＜M个变量，通过计算每个变量蕴含的信息量，然后在m个变量中选择一个最具有分类能力的变量进行节点分裂；

S4423完整生成所有的决策树，无需剪枝；

S4424终端节点的所属类别由节点对应的众数类别决定；

S4425对于新的观测点，用所有的树对其进行分类，其类别由多数决定原则生成；

3)逻辑回归算法的具体步骤为：

S4431建立预测函数：首先构造一个合适的预测函数，表示为h函数，该函数就是需要找的分类函数，该函数的输出必须是两个值，用来预测输入数据的判断结果，所以利用Logistic函数，函数形式为：

接下来需要确定数据划分的边界类型，此处只讨论线性边界的情况，对于线性边界，形式如下：

其中θ表示回归参数，x表示自变量。

构造预测函数为：

其中θ表示回归参数，x表示自变量。

h_θ(x)函数的值表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率根据下列公式计算：

p(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y y＝1，0

S4432建立Cost函数：任何能够衡量模型预测出来的值h_θ(x)与真实值y之间的差异函数都叫做代价函数；对于每种算法，代价函数不唯一，下列选取了常见的交叉熵；在确定好函数之后，通过不断的改变参数θ，从而得到更小的代价函数值J(θ)；

其中m为训练样本的个数，h_θ(x)为预测值，y为真实值；

4)XGBoost算法的具体步骤为：

S4441定义树的复杂度：首先把树拆分成结构部分q和叶子节点权重部分w，在这里w是一个向量，表示各叶子节点中的输出值，T表示一个决策树的叶子节点数目；

f_t(x)＝w_q(x)，w∈R^T，q：R^d→{1，2，...，T}

引入正则化项Ω(f_t)来控制树的复杂度，从而有效的控制模型的过拟合；

其中T表示一个决策树的叶子节点数目，γ表示控制树复杂度的系数，相当于给XGBoost算法模型的树做了前剪枝，而λ表示通过多大的比例来改变正则项，相当于给复杂的模型一个惩罚，防止模型出现过拟合。

S4442 XGBoost中的Boosting Tree模型：和GBDT方法一样，XGBoost的提升模型也是采用残差，不同的是分裂结点选取的时候不一定是最小平方损失，其损失函数如下，较GBDT其根据树模型的复杂度加入了一项正则化项：

其中表示预估值，y_i表示真实值，表示模型残差，Ω(f_k)即之前提到的正则化项。

S4443对目标函数进行改写：在XGBoost中直接用泰勒展开式将损失函数展开成二项式函数，前提是损失函数一阶、二阶；连续可导，假设我们的叶节点区域为：

I_j＝{i|q(x_i)＝j}

其中，I_j＝{i|q(x_i)＝j}表示训练样本中被分配到第j个叶子节点的样本的标签集合，例如，训练样本中的第1，3，5个样本被分配到第2个叶子结点，则I＝{1，3，5}。

对g_i和h_i分别定义如下：

其中y_i表示真实值，表示t-1迭代的预测值；

则t颗树的目标函数通过二阶泰勒展开可以转换成：

定义

此时对w_j求导并令导数为0；可得：

S4444树结构的打分函数：上面的Obj值代表当指定一个树结构时，在目标上面最多减少多少，可以把它称为结构分数；可以认为这是一个类似与基尼指数一样更一般的对树结构进行打分的函数；对于求得Obj分数最小的树结构，采用的是贪心法，每次尝试对已经存在的叶节点，最开始的叶节点是根节点，进行分割，然后获得分割后的增益为：

该公式可以分解为左叶上的分数、右叶上的分数、原始叶上的分数、附加叶上的正则化；在这里以Gain作为判断是否分割的条件。

如果Gain＜0，则此叶节点不做分割，然而这样对于每次分割还是需要列出所有的分割方案；而实际中先将所有样本g_i按照从小到大排序，然后进行遍历，查看每个节点是否需要分割，这样的分割方式，就只要对样本扫描一遍，就可以分割出GL，GR，然后根据Gain的分数进行分割。

作为本发明的优选技术方案，所述步骤S45中通过已建立到的分类模型即可输出每份音频文件的评分表。

本发明要解决的另外一个技术问题是，提供一种基于语音语义识别技术的语音质量感知评估的系统。

为了解决上述技术问题，本发明采和技术方案是：该基于语音语义识别技术的语音质量感知评估的系统，包括语音发送方、语音接收方和用户感知评价服务器单元，所述语音发送方与所述语音接收方通过通信网络相连接，所述语音发送方和语音接收方分别与所述用户感知评价服务器单元通信连接；所述语音发送方包括语音记录单元一、语音转换文本单元一和通信单元一，所述语音记录单元一分别与所述语音转换文本单元一和通信单元一形成数据连接，所述语音转换文本单元一与所述通信单元一形成数据连接；所述语音接收方包括语音记录单元二、语音转换文本单元二和通信单元二，所述语音记录单元二分别与所述语音转换文本单元二和通信单元二形成数据连接，所述语音转换文本单元二与所述通信单元二形成数据连接；所述用户感知评价服务器单元包括文本存储单元、文本相似度单元、信号存储单元、网络质量评价单元、语音存储单元、语音感知评价单元和用户感知评价单元，所述文本存储单元与文本相似度单元电连接，所述信号存储单元与所述网络质量评价单元电连接，所述语音存储单元与所述语音感知评价单元电连接，所述文本相似度单元、网络质量评价单元和语音感知评价单元均与所述用户感知评价单元电连接；所述语音发送方与所述语音接收方分别通过通信单元一和通信单元二均与所述文本存储单元、信号存储单元、语音存储单元通信连接。

采用上述技术方案，其中文本存储单元用于存储语音发送方与语音接收方的文本信息，信号存储单元用于存储语音发送方与语音接收方的网络参数和事件信息，语音存储单元用于存储语音发送方与语音接收方的语音音频；通过语音发送+语音接收+用户感知评价服务器单元组合成网络用户感知评价系统，从而实现对网络用户的语音感知评价。

本方法的优势在于利用文本相似度算法判断感知语音质量，既解决了MOS主观评估方法可重复性差的问题，也解决了MOS-LQO客观问题无法还原人类大脑思维范式的问题，更接近人脑思维模式，贴近用户对网络通话语音质量的感知，同时通过时间和位置映射，结合网络参数和事件，可更精确的定位网络问题。

附图说明

下面结合附图和本发明的实施方式进一步详细说明：

图1是基于语音语义识别技术的语音质量感知评估的方法的流程示意图；

图2是基于语音语义识别技术的语音质量感知评估的方法的文本相似度评价的流程示意图；

图3是基于语音语义识别技术的语音质量感知评估的方法的文本相似度评价的Simhash算法工作图；

图4是基于语音语义识别技术的语音质量感知评估的系统框架图。

具体实施方式

如图1所示，该基于语音语义识别技术的语音质量感知评估的方法，具体包括以下步骤：

所述步骤S1具体包括以下步骤：

S11：语音发送方开始发起语音；

所述步骤S2具体包括以下步骤：

S21：语音接收方接收发送方语音音频信息；

如图2所示，所述步骤S3利用文本相似度的方法来进行语音质量评估具体包括以下步骤：

将听到的对比文本的音频内容以及对这段音频的质量进行人工评分，评分分为5个等级(1～5)：1：bad，2：poor，3：fair，4：good，5：excellent。

所述步骤S4中的通过电信心理学算法进行语音感知评价，是各种语音样本通过人工感知评价，建立用户语音感知评价模型，对语音进行感知评价；具体步骤包括：

S45模型预测：对音频相应的网络指标进行用户感知模型预测，并将感知概率映射为用户感知评分；所述步骤S45中通过已建立到的分类模型即可输出每份音频文件的评分表。

为了通过语音发起方和语音接收方的网络参数和事件信息存储实现对用户网络质量的评价，本方案借鉴了专利申请(公开号：CN 107920362 A)中的技术方案，申请人在此予以引入并根据实际数据情况进行了修改，所述步骤S5所述的网络质量评价算法和方法具体包括以下步骤：

S51数据收集：收集用户GPS信息、MR数据和VoLTE数据；

对各指标阈值进行调整，从而真实地反映当前网络质量，特别实现对50*50栅格进行VoLTE的网络性能评估，更加贴切移动网络优化的需求；利用指标集间的关联与约束关系，使能合理、客观的评价微区域(50*50栅格，后面统称栅格)的网络质量，有效地指导网络优化。

若指标越小越好：时，

若小区X的KPI_j小于的左端点，则

若小区X的KPI_j大于的右端点，则

若指标越大越好：当时，

若小区X的KPI_j大于的右端点，则

若小区X的KPI_j小于的左端点，则

最终得到覆盖栅格所有小区的基础网络性能得分。

其中，Grid_X指代某个栅格，指覆盖栅格X的所有小区集合；

其中max为样本数据的最大值，min为样本数据的最小值；

将得分在做(0，100)的区间映射。

所述步骤S6中进行语音感知综合评价的方法具体包括以下步骤：

S_ensemble＝0.3*S₁+0.2*S₂+0.5*S₃

其中：S₁为基于语音感知评价方法的评分结果，S2为基于网络质量评价方法的评分结果，S3为基于文本相似度方法的评分结果。

为了更好模拟人脑对自然语音的思维模式，贴近用户实际感知，我们选取了文本相似度的方法来进行语音质量评估；将对比音频文本(对比文本)与原始标准文本(原始文本)进行文本的相似度计算，本发明涉及一套计算文本相似度的算法框架，其中4种文本相似度算法；所述步骤S33中的所述文本相似度算法包括4种文本相似度算法：1)基于词频(TF)的统计算法；2)Simhash文本相似度算法；3)基于向量空间模型VSM的文本相似度算法；4)基于LDA主题模型的文本相似度算法；其中：

1)基于词频(TF)的统计算法的具体步骤包括：

S3311：列出标准文本各个字；

S3313：文本相似度结果：

词频TF计算法的例子如表1所示。

表1词频TF统计算法

2)Simhash文本相似度算法的具体步骤包括：

S3326：计算相似性；对两个文本的simhash取异或，若为1则表示不相同，0则表示相同；为1的长度除以整体长度为差异度，1减去差异度即得到文本相似度Similarity_simhash；Simhash算法工作图如图3所示；

3)基于向量空间模型VSM的文本相似度算法的具体步骤包括：

4)基于LDA主题模型的文本相似度算法的具体步骤包括：

LDA主题概率模型生成文本的过程如下：

S3342：根据泊松分布P得到文本的单词数目N；

S3344：对于该文本N个单词中的每一个单词Wn：

S3344-1：从θ的多项式分布Multinomial(θ)随机选择一个主题z；

Similarity_Final＝f(Similarity_tf，Similarity_simhash，Similarity_vsm，Similarity_LDA)

根据用户对当前所听语音文本的感知评分情况，得到如下表2的数据：

表2用户数据

User	Score(1～5)	Similarity_Final
			User₁	Score₁	Similarity₁
User₂	Score₂	Similarity₂
			...	...	...
User_n	Score_n	Similarity_n

接着获取每个相同分数的相似度值，选择[5％，95％]分位数区间的值，并选择该区间所有值的均值作为语音感知评分的基准相似度并得到如下表3数据：

表3选择区间所有值的均值作为语音感知评分的基准相似度数据

Score	Mean_Similarity
		5	Mean_Similarity₅
4	Mean_Similarity₄
		3	Mean_Similarity₃
2	Mean_Similarity₂
		1	Mean_Similarity₁

接着对每个区间做函数映射，例如对评分区间[4，5]，对应的相似度为[Mean_Similarity₄，Mean_Similarity₅]，可以做例如y＝k*x+b形式的线性函数映射，这样就得到了用户感知评分与文本相似度之间的映射关系；这样后期就可以根据用户根据语音反馈到的文本和标准文本的相似度推得用户的语音感知评分。

所述步骤S44中所述多种分类算法包括4种分类算法：1)决策树；2)随机森林；3)逻辑回归；4)XGBoost算法；其中，

1)决策树算法的具体步骤为：

S4412：对每一个子类别继续执行S4411中的步骤。

S4422在每一棵数的每个节点处随机抽取m＜M个变量，通过计算每个变量蕴含的信息量，然后在m个变量中选择一个最具有分类能力的变量进行节点分裂：

S4423完整生成所有的决策树，无需剪枝；

S4424终端节点的所属类别由节点对应的众数类别决定；

3)逻辑回归算法的具体步骤为：

其中θ表示回归参数，x表示自变量。

构造预测函数为：

其中θ表示回归参数，x表示自变量。

p(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y y＝1，0

其中m为训练样本的个数，h_θ(x)为预测值，y为真实值；

4)XGBoost算法的具体步骤为：

f_t(x)＝w_q(x)，w∈R^T，q：R^d→{1，2，...，T}

I_j＝{i|q(x_i)＝j}

对g_i和h_i分别定义如下：

其中y_i表示真实值，表示t-1迭代的预测值；

则t颗树的目标函数通过二阶泰勒展开可以转换成：

定义

此时对w_j求导并令导数为0；可得：

如图4所示，该基于语音语义识别技术的语音质量感知评估的系统，包括语音发送方、语音接收方和用户感知评价服务器单元，所述语音发送方与所述语音接收方通过通信网络相连接，所述语音发送方和语音接收方分别与所述用户感知评价服务器单元通信连接；所述语音发送方包括语音记录单元一、语音转换文本单元一和通信单元一，所述语音记录单元一分别与所述语音转换文本单元一和通信单元一形成数据连接，所述语音转换文本单元一与所述通信单元一形成数据连接；所述语音接收方包括语音记录单元二、语音转换文本单元二和通信单元二，所述语音记录单元二分别与所述语音转换文本单元二和通信单元二形成数据连接，所述语音转换文本单元二与所述通信单元二形成数据连接；所述用户感知评价服务器单元包括文本存储单元、文本相似度单元、信号存储单元、网络质量评价单元、语音存储单元、语音感知评价单元和用户感知评价单元，所述文本存储单元与文本相似度单元电连接，所述信号存储单元与所述网络质量评价单元电连接，所述语音存储单元与所述语音感知评价单元电连接，所述文本相似度单元、网络质量评价单元和语音感知评价单元均与所述用户感知评价单元电连接；所述语音发送方与所述语音接收方分别通过通信单元一和通信单元二均与所述文本存储单元、信号存储单元、语音存储单元通信连接。

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于语音语义识别技术的语音质量感知评估的方法，其特征在于，具体包括以下步骤：

S6结合步骤S3、步骤S4和/或步骤S5进行语音感知综合评价最终形成用户感知评价。

2.根据权利要求1所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S1具体包括以下步骤：

S11：语音发送方开始发起语音；

3.根据权利要求1所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S2具体包括以下步骤：

S21：语音接收方接收发送方语音音频信息；

4.根据权利要求1所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S3利用文本相似度的方法来进行语音质量评估具体包括以下步骤：

5.根据权利要求1所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S4中的通过电信心理学算法进行语音感知评价，是各种语音样本通过人工感知评价，建立用户语音感知评价模型，对语音进行感知评价；具体步骤包括：

S41数据采集：收集不同网络质量下收发方的语音音频文件及相应的VoLTE网络指标；

S42数据处理：用户分别听取语音发起方和语音接收方的语音音频文件，并根据个人的感知对音频好坏进行二选一的投票；并根据投票结果设定相应的阈值，超过该阈值的用户给出好的打分则给该份音频文件打上标签1；标签0即为超过该阈值的用户给出坏的打分；

S43特征选择：在建立分类模型之前，还需要对特征变量进行筛选；采用xgboost中的特征评分对最终变量进行筛选；

6.根据权利要求1所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S5所述的网络质量评价算法和方法具体包括以下步骤：

S51数据收集：收集用户GPS信息、MR数据和VoLTE数据；

7.根据权利要求1所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S6中进行语音感知综合评价的方法具体包括以下步骤：

S_ensemble＝0.3*S₁+0.2*S₂+0.5*S₃

8.根据权利要求4所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S33中的所述文本相似度算法包括4种文本相似度算法：1)基于词频(TF)的统计算法；2)Simhash文本相似度算法；3)基于向量空间模型VSM的文本相似度算法；4)基于LDA主题模型的文本相似度算法；其中：

1)基于词频(TF)的统计算法的具体步骤包括：

S3311：列出标准文本各个字；

S3313：得出文本相似度结果:其中Similarity_tf为词频TF的相似度；

2)Simhash文本相似度算法的具体步骤包括：

S3321：分别将文本分词，取文本的TF-IDF权重最高的前n个词(feature)和权重(weight)；即一个文本得到一个长度为n的(feature：weight)的集合；

S3323：根据S3322得到的一串二进制数hash中相应位置是1是0，对相应位置取正值weight和负值weight；

S3324：对S3323中n个列表进行列向量加得到一个列表；S3325：对S3324中得到的列表中每个值进行判断，当为负值的时候取0，正值取1；

3)基于向量空间模型VSM的文本相似度算法的具体步骤包括：

其中采用D为Document的缩写表示文本，采用T为Term的缩写表示特征项；特征项指出现在文档D中且能够代表该文档内容的基本语言单位，主要是由词或者短语构成，文本可以用特征项集表示为D(T₁，T₂，…，T_n)，其中T_k是特征项，要求满足1<＝k<＝N；

S3332：对于其它要与之比较的文本，也将遵从这个特征项顺序；对含有n个特征项的文本而言，通常会给每个特征项赋予一定的权重表示其重要程度，即D＝D(T₁，W₁；T₂，W₂；…，T_n，W_n)简记为D＝D(W₁，W₂，…，W_n)，我们把它叫做文本D的权值向量表示；其中W_k是T_k的权重，1<＝k<＝N；

其中，W_1k和W_2k分别为文本D₁和文本D₂的Tk的权重。

4)基于LDA主题模型的文本相似度算法的具体步骤包括：

利用LDA模型对文本集进行建模，即利用文本的统计特性，将文本语料库映射到各个主题空间，挖掘隐藏在文本内的不同主题与词之间的关系，得到文本的主题分布，通过此分布来计算文本的相似度矩阵；其中，

LDA主题概率模型生成文本的过程如下：

S3342：根据泊松分布P得到文本的单词数目N；

S3344：对于该文本N个单词中的每一个单词Wn：

S3344-1：从θ的多项式分布Multinomial(θ)随机选择一个主题z；

由于文本的主题分布是文本向量空间的简单映射，因此在文本的主题表示情况下，计算两个文本的相似度可以通过计算与之对应的主题概率分布来实现；由于主题是词向量的混合分布，因此使用KL(Kullback–Leibler相对熵)距离作为相似度度量标准，KL距离如下式所示：

其中D_KL(p，q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，q表示P的拟合分布。

9.根据权利要求5所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S44中所述多种分类算法包括4种分类算法：1)决策树；2)随机森林；3)逻辑回归；4)XGBoost算法；其中，

1)决策树算法的具体步骤为：

S4412：对每一个子类别继续执行S4411中的步骤；

S4414：对于任一样本单元执行决策树，得到其终端节点，即可以根据步骤S4413得到模型预测的所属类别；

S4422在每一棵数的每个节点处随机抽取m<M个变量，通过计算每个变量蕴含的信息量，然后在m个变量中选择一个最具有分类能力的变量进行节点分裂；

S4423完整生成所有的决策树，无需剪枝；

S4424终端节点的所属类别由节点对应的众数类别决定；

3)逻辑回归算法的具体步骤为：

其中θ表示回归参数，x表示自变量；

构造预测函数为：

其中θ表示回归参数，x表示自变量；

p(y|x；θ)＝(h_θ(x))^y(1-h_θ(x))^1-y y＝1，0

其中m为训练样本的个数，h_θ(x)为预测值，y为真实值；

4)XGBoost算法的具体步骤为：

f_t(x)＝w_q(x)，w∈R^T，q：R^d→{1，2，...,T}

其中T表示一个决策树的叶子节点数目，γ表示控制树复杂度的系数，相当于给XGBoost算法模型的树做了前剪枝，而λ表示通过多大的比例来改变正则项，相当于给复杂的模型一个惩罚，防止模型出现过拟合；

其中表示预估值，y_i表示真实值，表示模型残差，Ω(f_k)即之前提到的正则化项；

I_j＝{i|q(x_i)＝j}

其中，I_j＝{i|q(x_i)＝j}表示训练样本中被分配到第j个叶子节点的样本的标签集合，例如，训练样本中的第1，3，5个样本被分配到第2个叶子结点，则I＝{1,3,5}；

对g_i和h_i分别定义如下：

其中y_i表示真实值，表示t-1迭代的预测值；

则t颗树的目标函数通过二阶泰勒展开可以转换成：

定义

此时对w_j求导并令导数为0；可得：

10.根据权利要求5所述的基于语音语义识别技术的语音质量感知评估的方法，其特征在于，所述步骤S45中通过已建立到的分类模型即可输出每份音频文件的评分表。

11.一种基于语音语义识别技术的语音质量感知评估的系统，其特征在于，包括语音发送方、语音接收方和用户感知评价服务器单元，所述语音发送方与所述语音接收方通过通信网络相连接，所述语音发送方和语音接收方分别与所述用户感知评价服务器单元通信连接；所述语音发送方包括语音记录单元一、语音转换文本单元一和通信单元一，所述语音记录单元一分别与所述语音转换文本单元一和通信单元一形成数据连接，所述语音转换文本单元一与所述通信单元一形成数据连接；所述语音接收方包括语音记录单元二、语音转换文本单元二和通信单元二，所述语音记录单元二分别与所述语音转换文本单元二和通信单元二形成数据连接，所述语音转换文本单元二与所述通信单元二形成数据连接；所述用户感知评价服务器单元包括文本存储单元、文本相似度单元、信号存储单元、网络质量评价单元、语音存储单元、语音感知评价单元和用户感知评价单元，所述文本存储单元与文本相似度单元电连接，所述信号存储单元与所述网络质量评价单元电连接，所述语音存储单元与所述语音感知评价单元电连接，所述文本相似度单元、网络质量评价单元和语音感知评价单元均与所述用户感知评价单元电连接；所述语音发送方与所述语音接收方分别通过通信单元一和通信单元二均与所述文本存储单元、信号存储单元、语音存储单元通信连接。