CN112885377A - 语音质量评估方法、装置、计算机设备和存储介质 - Google Patents
语音质量评估方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112885377A CN112885377A CN202110218928.7A CN202110218928A CN112885377A CN 112885377 A CN112885377 A CN 112885377A CN 202110218928 A CN202110218928 A CN 202110218928A CN 112885377 A CN112885377 A CN 112885377A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- evaluated
- distribution
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013441 quality evaluation Methods 0.000 title abstract description 32
- 238000009826 distribution Methods 0.000 claims abstract description 129
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 7
- 238000001303 quality assessment method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 10
- 238000005315 distribution function Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000007781 pre-processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例属于人工智能中的语音信号处理领域,应用于智慧银行领域中,涉及一种语音质量评估方法,包括对加载到的待评估语音进行序列划分,得到多个时间序列信号;通过各时间序列信号计算待评估语音的第一协方差和第一均值;基于所述第一协方差、所述第一均值以及特征高斯分布,通过分布差距算法计算所述待评估语音与样本语音之间的特征分布差距;根据第一阈值和所述分布差距得到对所述待评估语音的语音质量评估结果。本申请还提供一种语音质量评估装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,所述待评估语音还存储于区块链中。采用本方法大大降低了数据计算量,可以直接应用于移动端业务,实现对语音质量的轻量和快速评估。
Description
技术领域
本申请涉及语音处理领域,特别是涉及一种语音质量评估方法、装置、计算机设备和存储介质。
背景技术
现在人工智能在金融领域应用广泛,在移动端开展金融行动的场景也越来越丰富,这些场景中均涉及较为严格的审批业务。其中,如何进行客户留底语音质量好坏的判定是确保留底语音是否可以作为证据的关键,另外语音质量的好坏,也是开启后续众多处理的选择开关。
现有的语音质量评估技术分为两类,一类是有参考的评估,需要有纯净的语音作为参考,这不符合大多数业务场景;二类是无参考的评估,这类方法目前所能刻画的语音特征还比较粗糙,并不一定适用在移动端业务中。另外,还需要补充的是,近年来使用深度学习的技术来模仿人类的判断,但是该技术计算开销往往比较大。
例如,一种通过从音频信号样本中提取多个特征向量的特征值,并基于该特征值的特征相关联的累积分布函数来预处理特征向量的特征值,以获得预处理的特征值;然后实现神经网络,并基于预处理的特征值确定神经网络参数集,确定音频信号样本的质量分数,以达到改进用于基于神经网或者机器学习评估音频信号样本的语音质量的目的。
但是,这种方式需要依赖于神经网络,针对不同的应用场景还需要进行不同的训练,使得语音质量评估的成本大大增加,而且因为是基于深度模型的语音质量评估,就造成了评估方式过于笨重,无法实现移动端实时的评估。
发明内容
基于此,针对上述技术问题,本申请提供一种语音质量评估方法、装置、计算机设备及存储介质,以解决现有技术中基于深度模型的语音质量评估,就造成了评估方式过于笨重,无法实现移动端实时的评估。
一种语音质量评估方法,所述方法包括:
对加载的待评估语音进行序列划分,得到多个时间序列信号;
通过各所述时间序列信号计算所述待评估语音的第一协方差和第一均值;
构建样本语音的特征高斯分布,基于所述第一协方差、所述第一均值以及特征高斯分布,通过分布差距算法计算所述待评估语音与样本语音之间的特征分布差距;
根据第一阈值和所述特征分布差距得到对所述待评估语音的语音质量评估结果。
一种语音质量评估装置,所述装置包括:
划分模块,用于对加载的待评估语音进行序列划分,得到多个时间序列信号;
计算模块,用于通过各所述时间序列信号计算所述待评估语音的第一协方差和第一均值;
差距模块,用于构建样本语音的特征高斯分布,基于所述第一协方差、所述第一均值以及特征高斯分布,通过分布差距算法计算所述待评估语音与样本语音之间的特征分布差距;
评估模块,用于根据第一阈值和所述特征分布差距得到对所述待评估语音的语音质量评估结果。
一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音质量评估方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述语音质量评估方法的步骤。
上述语音质量评估方法、装置、计算机设备和存储介质,通过根据时间维度将待评估语音划分为多个时间序列信号,然后直接根据时间序列信号计算对应的第一协方差和第一均值,并通过分布差距算法,根据预先拟合好的特征高斯分布直接得到用于体现待评估语音质量的分布差距,得到语音质量评估结果,其中,特征高斯分布是指优质语音的统计特征的高斯分布。本方案可以直接通过简单的分布差距算法、待评估语音的协方差和均值与提前拟合好的特征高斯分布,计算待评估语音与优质语音之间的特征分布差异得到质量评估结果。只需要对待评估语音进行简单的预处理,然后通过分布差距算法便可直接得到质量评估结果,不仅大大降低了数据计算量,可以直接应用于移动端业务,实现对语音质量的轻量和快速评估,而且,通过这种特征分布对比的方式还提高了语音质量评估的准确度和效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为语音质量评估方法的应用环境示意图;
图2为语音质量评估方法的流程示意图;
图3为语音质量评估装置的示意图;
图4为一个实施例中计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的语音质量评估方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的语音质量评估方法一般由服务端/终端执行,相应地,语音质量评估装置一般设置于服务端/终端设备中。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请可应用于智慧城市领域中,具体的,可以应用于智慧银行中,从而推动智慧城市的建设。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
其中,终端102通过网络与服务端104进行通信。终端102将采集到的用户语音发送到服务端104,服务端104将其作为待评估语音进行序列划分,得到多个时间序列信号后,并几个各个时间序列信号的第一协方差和第一均值,并根据实现拟合得到的优质语音的混合高斯函数计算待评估语音与优质语音的特征分布差距,然后得到语音质量评估结果。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种语音质量评估方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
步骤202,对加载的待评估语音进行序列划分,得到多个时间序列信号。
本申请的技术方案可以应用于可以应用于其他非金融场景,但是需要对一段语音进行质量评估的场景。在本一些实施例中,以应用于移动端开展金融行动,需要对客户的留底语音进行质量评估的场景为例,对本申请的技术方案进行阐述说明。
待评估语音可以是一段问答对话或者一段单独语音,一般是用户通过用户终端,例如手机上传的语音文件,在本实施例中可以专指移动端开展金融行动场景下的用户语音数据,因为这些场景涉及到较为严格的审批业务,所以语音数据的质量好坏就成了确保该语音是否可以作为证据的关键。通常的,语音质量不好是因为噪声过多,即信噪比太小,导致在后续的语音分析时,无法获取到用户的真实语音。
即,语音信号作为一维时间序列信号,可供人或者及其分辨的清晰的信号,应当信号强度大,即,信噪比要高。但是信噪比的计算过渡依赖于需要直接不含干扰/噪声的干净语音信号,将接收到的真实语音信号同这个干净语音进行对比计算出信噪比,从而评估待评估语音的质量。但是可供参考的干净语言严格意义上是不存在,所以这种计算方式在严格意义上无法实现,所以绝大多数方式是在干净语音上做近似,即采用某种方式获得近似的干净语音,然后用这个近似语音来计算诸如信噪比等等指标,从而衡量语音信号的质量。
在本实施例中,对待评估语音数据进行质量评估之前还需要将其划分为多个时间序列信号。进一步地,在一些实施例中,可以通过时间窗方式对待评估语音进行序列划分,得到多个时间序列信号。
具体地,因为语音信号是一个随时间变化的随机序列,所以可以将待评估语音划分为多个等大小的时间序列信号,然后以各个时间序列信号为基础,计算待评估语音的均值和协方差,其中,语音信号的均值代表了语音的直流分量,第一均值表示待评估语音的直流分量;协方差描述两个变量之间的变化趋势相关性。在本实施例中,第一协方差代表待评估语音的初始相位为0的正弦信号序列与相位相差为π的两个序列信号之间变化趋势相关性,具体地,计算这两个信号序列的协方差可以通过cov函数实现,。本实施例通过计算协方差和均值,将其应用于后续的质量评估中,可以大大降低了数据计算量。
步骤204,通过各时间序列信号计算待评估语音的第一协方差和第一均值。
现有技术中一般通过纯净语音信号,有参考地进行语音质量评估,但是基于语音信号是一种一维信号,如果是真实的清晰信号,其统计意义上的特征应当非常清晰,所以我们基于得到的其统计意义上的特征应当非常相近;如果能够提取出这种统计上的指标,当一个信号来的时候,就能通过衡量该信号计算出的指标同优质语音指标的差异来衡量判断这个语音信号质量如何。
简单的来说可以这样理解,尽管不知道坏的语音是什么样的,但是只要它与好的语音不相似,就可以认为它是坏的语音。所以这里就有两个困难点:
1.如何获取这样的指标;
2.如何衡量这里的差异,下面的步骤就是为了解决这个而来的。
而混合高斯模型是一个可以用来表示在总体分布(distribution)中含有K个子分布的概率模型,换句话说,混合模型表示了观测数据在总体中的概率分布,它是一个由K个子分布组成的混合分布。混合模型不要求观测数据提供关于子分布的信息,来计算观测数据在总体分布中的概率。
步骤206,构建样本语音的特征高斯分布,基于第一协方差、第一均值以及特征高斯分布,通过分布差距算法计算待评估语音与样本语音之间的特征分布差距。
步骤208,根据第一阈值和分布差距对待评估语音的语音质量进行评估。
进一步地,在根据第一协方差、第一均值和特征高斯分布计算分布差距之前,需要构建该特征高斯分布,即,在基于第一协方差、第一均值以及特征高斯分布,通过分布差距算法计算待评估语音与样本语音之间的特征分布差距之前,还需要:
构建样本语音库,其中,样本语音库中包括信噪比大于第二阈值的样本语音;从样本语音中提取语音片段序列;通过序列特征算法提取语音片段序列中的统计特征,并基于统计特征拟合得到特征高斯分布。
具体地,在一些实施例中,通过人工监督的方式从预先收集的样本语音库中,挑选出认为是优质的语音,作为样本语音。该步骤我们可以通过计算样本语音信噪比的方式来对样本语音库中的语音进行一个粗筛选,将信噪比大于第二预设值的语音作为筛选结果。至于第二阈值的取值,可以根据不同业务场景的不同要求进行设定,本实施例不做限定。
可选地,为了得到更加纯净清晰的语音,在一些实施例中,还可以通过不同的人员共同对筛选得到的语音进行打分,计算出平均分,当平均分高出第三阈值时,认为该段语音是优质语音。至于平均分的取值,可以根据不同业务场景的不同要求进行设定,本实施例不做限定。
然后,从样本语音中提取语音片段序列,其中,语音片段序列是指有用的语音片段;由于语音库是一维的时间序列信号,其中有用的片段并不占整个语音片段,因此这里设计一种预处理方式,用于将有效的信息提取出来,作为语音片段序列。这样做的好处在于,首先节省了计算开销,其次降低了我们后续特征高斯分布构建的工作量。
进一步地,首先需要通过时间窗方式对样本语音进行序列划分,得到多个语音片段;然后计算各语音片段中任意两点之间的第一均方差;根据第一均方差和预设形变函数,计算得到各语音片段的信息值;并将信息值大于第三阈值的语音片段作为语音片段序列。
序列划分是指按照时间维度将一整个样本语音划分为多个语音片段,例如,在一个5分钟的样本语音的语音序列中取间隔2秒为一个时间段,得到语音片段,然后计算各语音片段中任意两点之间的第一均方差,其中,方差描述语音信号的波动范围,交流分量的强弱,即交流信号的平均功率,第一均方差等于方差的方根,和方差一样可以反映语音信号的离散程度。由于方差的平方计算造成量纲的倍数变化无法直观反映出偏离程度,均方差的意义更为直观,所以本实施例中选择均方差作为评估标准。
具体地,预设形变函数(1):
其中,δ(b)指信息值,patchb和b指对于一个完整的样本语音中的某一语音片段,i,j分别指语音片段中的任意两点,σ(i,j)指i,j两点之间的第一均方差。例如,patchb和b指就是代表某一个2s的语音片段序列;i,j是这个2s的语音片段序列中的任意两个点;σ指的是基于这两点所计算出的第一均方差。这里设置一个第四阈值th,当某时间段中的形变函数,即上述公式(1)大于第四阈值th时,认为该语音片段序列有足够信息需要进行处理,否则不进入下一步的处理。至此可以将收集来的样本语音库,处理成一段一段这样的语音片段序列。至于第四阈值th的取值,可以根据不同业务场景的不同要求进行设定,本实施例不做限定。
然后,再基于得到的语音片段序列,提取统计特征。因为获得的一系列的语音片段序列是一维数据序列,在本实施例中,可以通过公式(2),得到统计特征:
其中,f(x,γ,βl,βr)和η分别指两种统计特征,x指某一语音片段序列中的某一点的数值,γ指调制用的常数,该常数适用于整个数据集中的语音片段序列,β指均值,βl指所有语音片段序列的第三均值,βr指某一语音片段序列的第二均值、r指数据集中的所有语音片段序列,l指某一语音片段序列,Γ指卡方分布函数,此外,1/r和2/r用于计算卡方分布的自由数,其中,第二均值是指语音片段序列的直流分量,第三均值是指整个数据集中参与计算的所有语音片段序列的直流分量,卡方分布是具有k个自由度的卡方分布是一个由k个独立标准正态随机变量的和所构成的分布。
通过以上公式可以对每一语音片段序列获得一组新的特征数值,对整个数据集中的语音片段序列进行计算,可以获得新的序列组,这些序列组构成了一种特征空间,基于这些特征空间中的点,可以拟合出一个特征高斯分布。该分布就是我们基于挑选出的优质语音的数据构建出的用于刻画优质语音的特征指标,即判断一个语音是否优质,只要让它同该分布进行比较,便可得到。其中,混合高斯函数的拟合(推导及实现)为成熟技术,本实施例不再赘述。
最后,得到特征高斯分布后,可以通过分布差距算法得到待评估语音与优质语音的特征分布差距。具体地,分布差距算法可以通过公式(3)实现:
其中,D(I1,Istand)指输入的待评估语音与样本语音的分布差距,I1指输入的待评估语音,Istand指样本语音,v指均值,v1指输入的待评估语音的第一均值,vstand指特征高斯分布的第四均值,∑指协方差,∑1指输入的待评估语音的第一协方差,∑stand是由上述特征高斯分布采样信号获得数据构成的第二协方差。
进一步地,根据第一阈值和特征分布差距得到对待评估语音的语音质量评估结果,具体地,当得到的D(I1,Istand)大于设定的第一阈值th时,说明语音质量较差,反之较好。其中,第一阈值的取值,可以根据不同业务场景的不同要求进行设定,本实施例不做限定。
需要强调的是,为进一步保证上述用户信息的私密和安全性,上述待评估语音还可以存储于一区块链的节点中。
上述语音质量评估方法,通过根据时间维度将待评估语音划分为多个时间序列信号,然后直接根据时间序列信号计算对应的第一协方差和第一均值,并通过分布差距算法,根据预先拟合好的特征高斯分布直接得到用于体现待评估语音质量的分布差距,得到语音质量评估结果,其中,特征高斯分布是指优质语音的统计特征的高斯分布。本方案可以直接通过简单的分布差距算法、待评估语音的协方差和均值与提前拟合好的特征高斯分布,计算待评估语音与优质语音之间的特征分布差异,得到质量评估结果。只需要对待评估语音进行简单的预处理,然后通过分布差距算法便可直接得到质量评估结果,不仅大大降低了数据计算量,可以直接应用于移动端业务,实现对语音质量的轻量和快速评估,而且,通过这种特征分布对比的方式还提高了语音质量评估的准确度和效率。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种语音质量评估装置,该语音质量评估装置与上述实施例中语音质量评估方法一一对应。该语音质量评估装置包括:
划分模块302,用于对加载的待评估语音进行序列划分,得到多个时间序列信号;
计算模块304,用于通过各时间序列信号计算待评估语音的第一协方差和第一均值;
特征统计模块306,用于构建特征高斯分布,基于第一协方差、第一均值以及特征高斯分布,通过分布差距算法计算待评估语音与样本语音之间的特征分布差距,其中,特征高斯分布为样本语音的特征高斯分布;
评估模块308,用于根据第一阈值和分布差距对待评估语音的语音质量进行评估。
进一步地,在差距模块306之前,还包括:
构建子模块,用于构建样本语音库,其中,样本语音库中包括信噪比大于第二阈值的样本语音;
提取子模块,用于从样本语音中提取语音片段序列;
特征统计子模块,用于通过序列特征算法提取语音片段序列中的统计特征,并基于统计特征拟合得到特征高斯分布。
进一步地,提取子模块,包括:
划分单元,用于通过时间窗方式对样本语音进行序列划分,得到多个语音片段;
方差计算单元,用于计算各语音片段中任意两点之间的第一均方差;
信息计算单元,用于根据第一均方差和预设形变函数,计算得到各语音片段的信息值;并
序列筛选单元,用于将信息值大于第三阈值的语音片段作为语音片段序列。
进一步地,特征子模块,包括:
第一均值计算单元,用于计算各语音片段序列的第二均值;
第二均值计算单元,用于计算所有语音片段序列的第三均值;
序列特征计算单元,用于基于卡方分布函数、第二均值以及第三均值,得到所有语音片段序列的序列特征;
混合高斯拟合单元,用于根据混合高斯函数和序列特征拟合得到所有语音片段序列的特征高斯分布。
需要强调的是,为进一步保证上述用户信息的私密和安全性,上述待评估语音还可以存储于一区块链的节点中。
上述语音质量评估装置,通过根据时间维度将待评估语音划分为多个时间序列信号,然后直接根据时间序列信号计算对应的第一协方差和第一均值,并通过分布差距算法,根据预先拟合好的特征高斯分布直接得到用于体现待评估语音质量的分布差距,得到语音质量评估结果,其中,特征高斯分布是指优质语音的统计特征的高斯分布。本方案可以直接通过简单的分布差距算法、待评估语音的协方差和均值与提前拟合好的特征高斯分布,计算待评估语音与优质语音之间的特征分布差异得到质量评估结果。只需要对待评估语音进行简单的预处理,然后通过分布差距算法便可直接得到质量评估结果,不仅大大降低了数据计算量,可以直接应用于移动端业务,实现对语音质量的轻量和快速评估,而且,通过这种特征分布对比的方式还提高了语音质量评估的准确度和效率。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储待评估语音。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种语音质量评估方法。
本实施例通过根据时间维度将待评估语音划分为多个时间序列信号,然后直接根据时间序列信号计算对应的第一协方差和第一均值,并通过分布差距算法,根据预先拟合好的特征高斯分布直接得到用于体现待评估语音质量的分布差距,得到语音质量评估结果,其中,特征高斯分布是指优质语音的统计特征的高斯分布。本方案可以直接通过简单的分布差距算法、待评估语音的协方差和均值与提前拟合好的特征高斯分布,计算待评估语音与优质语音之间的特征分布差异得到质量评估结果。只需要对待评估语音进行简单的预处理,然后通过分布差距算法便可直接得到质量评估结果,不仅大大降低了数据计算量,可以直接应用于移动端业务,实现对语音质量的轻量和快速评估,而且,通过这种特征分布对比的方式还提高了语音质量评估的准确度和效率。
其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中语音质量评估方法的步骤,例如图2所示的步骤202至步骤208,或者,处理器执行计算机可读指令时实现上述实施例中语音质量评估装置的各模块/单元的功能,例如图3所示模块302至模块308的功能。
本实施例通过根据时间维度将待评估语音划分为多个时间序列信号,然后直接根据时间序列信号计算对应的第一协方差和第一均值,并通过分布差距算法,根据预先拟合好的特征高斯分布直接得到用于体现待评估语音质量的分布差距,得到语音质量评估结果,其中,特征高斯分布是指优质语音的统计特征的高斯分布。本方案可以直接通过简单的分布差距算法、待评估语音的协方差和均值与提前拟合好的特征高斯分布,计算待评估语音与优质语音之间的特征分布差异得到质量评估结果。只需要对待评估语音进行简单的预处理,然后通过分布差距算法便可直接得到质量评估结果,不仅大大降低了数据计算量,可以直接应用于移动端业务,实现对语音质量的轻量和快速评估,而且,通过这种特征分布对比的方式还提高了语音质量评估的准确度和效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语音质量评估方法,其特征在于,所述方法包括:
对加载的待评估语音进行序列划分,得到多个时间序列信号;
通过各所述时间序列信号计算所述待评估语音的第一协方差和第一均值;
构建样本语音的特征高斯分布,基于所述第一协方差、所述第一均值以及所述特征高斯分布,通过分布差距算法计算所述待评估语音与所述样本语音之间的特征分布差距;
根据第一阈值和所述特征分布差距对所述待评估语音的语音质量进行评估。
2.根据权利要求1所述的方法,其特征在于,所述对加载的待评估语音进行序列划分,得到多个时间序列信号,包括:
通过时间窗方式对所述待评估语音进行序列划分,得到多个所述时间序列信号。
3.根据权利要求1所述的方法,其特征在于,所述构建样本语音的特征高斯分布,包括:
构建所述样本语音库,其中,所述样本语音库中包括信噪比大于第二阈值的样本语音;
从所述样本语音中提取语音片段序列;
通过序列特征算法提取所述语音片段序列中的统计特征,并基于所述统计特征拟合得到所述特征高斯分布。
4.根据权利要求3所述的方法,其特征在于,所述从所述样本语音提取语音片段序列,包括:
通过时间窗方式对所述样本语音进行序列划分,得到多个语音片段;
计算各所述语音片段中任意两点之间的第一均方差;
根据所述第一均方差和预设形变函数,计算得到各所述语音片段的信息值;并
将所述信息值大于第三阈值的语音片段作为所述语音片段序列。
6.根据权利要求4所述的方法,其特征在于,所述通过序列特征算法提取所述语音片段序列中的统计特征,并基于所述统计特征拟合得到所述特征高斯分布,包括:
计算各所述语音片段序列的第二均值;
计算所有语音片段序列的第三均值;
基于卡方分布函数、所述第二均值以及所述第三均值,得到所有语音片段序列的序列特征;
根据混合高斯函数和所述序列特征拟合得到所有语音片段序列的特征高斯分布。
8.一种语音质量评估装置,其特征在于,包括:
划分模块,用于对加载的待评估语音进行序列划分,得到多个时间序列信号;
计算模块,用于通过各所述时间序列信号计算所述待评估语音的第一协方差和第一均值;
特征统计模块,用于构建样本语音的特征高斯分布,基于所述第一协方差、所述第一均值以及所述特征高斯分布,通过分布差距算法计算所述待评估语音与样本语音之间的特征分布差距;
评估模块,用于根据第一阈值和所述特征分布差距对所述待评估语音的语音质量进行评估。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218928.7A CN112885377A (zh) | 2021-02-26 | 2021-02-26 | 语音质量评估方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110218928.7A CN112885377A (zh) | 2021-02-26 | 2021-02-26 | 语音质量评估方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112885377A true CN112885377A (zh) | 2021-06-01 |
Family
ID=76054772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110218928.7A Pending CN112885377A (zh) | 2021-02-26 | 2021-02-26 | 语音质量评估方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885377A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564351A (zh) * | 2023-04-03 | 2023-08-08 | 湖北经济学院 | 一种语音对话质量评价方法、系统与便携式电子设备 |
CN117411969A (zh) * | 2023-12-14 | 2024-01-16 | 致讯科技(天津)有限公司 | 一种非标语料的用户感知评测方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013028351A2 (en) * | 2011-08-19 | 2013-02-28 | Dolby Laboratories Licensing Corporation | Measuring content coherence and measuring similarity |
US20170069313A1 (en) * | 2015-09-06 | 2017-03-09 | International Business Machines Corporation | Covariance matrix estimation with structural-based priors for speech processing |
CN109151218A (zh) * | 2018-08-21 | 2019-01-04 | 平安科技(深圳)有限公司 | 通话语音质检方法、装置、计算机设备及存储介质 |
CN111326169A (zh) * | 2018-12-17 | 2020-06-23 | 中国移动通信集团北京有限公司 | 一种语音质量的评价方法及装置 |
CN111383657A (zh) * | 2018-12-27 | 2020-07-07 | 中国移动通信集团辽宁有限公司 | 语音质量评估方法、装置、设备及介质 |
-
2021
- 2021-02-26 CN CN202110218928.7A patent/CN112885377A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013028351A2 (en) * | 2011-08-19 | 2013-02-28 | Dolby Laboratories Licensing Corporation | Measuring content coherence and measuring similarity |
US20170069313A1 (en) * | 2015-09-06 | 2017-03-09 | International Business Machines Corporation | Covariance matrix estimation with structural-based priors for speech processing |
CN109151218A (zh) * | 2018-08-21 | 2019-01-04 | 平安科技(深圳)有限公司 | 通话语音质检方法、装置、计算机设备及存储介质 |
CN111326169A (zh) * | 2018-12-17 | 2020-06-23 | 中国移动通信集团北京有限公司 | 一种语音质量的评价方法及装置 |
CN111383657A (zh) * | 2018-12-27 | 2020-07-07 | 中国移动通信集团辽宁有限公司 | 语音质量评估方法、装置、设备及介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116564351A (zh) * | 2023-04-03 | 2023-08-08 | 湖北经济学院 | 一种语音对话质量评价方法、系统与便携式电子设备 |
CN116564351B (zh) * | 2023-04-03 | 2024-01-23 | 湖北经济学院 | 一种语音对话质量评价方法、系统与便携式电子设备 |
CN117411969A (zh) * | 2023-12-14 | 2024-01-16 | 致讯科技(天津)有限公司 | 一种非标语料的用户感知评测方法及装置 |
CN117411969B (zh) * | 2023-12-14 | 2024-03-12 | 致讯科技(天津)有限公司 | 一种非标语料的用户感知评测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021155713A1 (zh) | 基于权重嫁接的模型融合的人脸识别方法及相关设备 | |
CN112307472A (zh) | 基于智能决策的异常用户识别方法、装置及计算机设备 | |
CN112287244A (zh) | 基于联邦学习的产品推荐方法、装置、计算机设备及介质 | |
CN112508118A (zh) | 针对数据偏移的目标对象行为预测方法及其相关设备 | |
CN112035549B (zh) | 数据挖掘方法、装置、计算机设备及存储介质 | |
CN112885377A (zh) | 语音质量评估方法、装置、计算机设备和存储介质 | |
CN113627566A (zh) | 一种网络诈骗的预警方法、装置和计算机设备 | |
CN112634158A (zh) | 人脸图像恢复方法、装置、计算机设备及存储介质 | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
CN112861662A (zh) | 基于人脸和交互文本的目标对象行为预测方法及相关设备 | |
CN112036483A (zh) | 基于AutoML的对象预测分类方法、装置、计算机设备及存储介质 | |
CN112529477A (zh) | 信用评估变量筛选方法、装置、计算机设备及存储介质 | |
CN111931707A (zh) | 基于对抗补丁的人脸图像预测方法、装置、设备和介质 | |
CN110969261B (zh) | 基于加密算法的模型构建方法及相关设备 | |
CN114078274A (zh) | 人脸图像检测方法、装置、电子设备以及存储介质 | |
CN112651821A (zh) | 基于多视图学习的借贷违约风险检测方法及相关设备 | |
CN111241297B (zh) | 一种基于标签传播算法的图谱数据处理方法及装置 | |
CN112100491A (zh) | 基于用户数据的信息推荐方法、装置、设备及存储介质 | |
CN116843483A (zh) | 一种车险理赔方法、装置、计算机设备及存储介质 | |
CN113421554B (zh) | 语音关键词检测模型处理方法、装置及计算机设备 | |
CN113936677A (zh) | 音色转换方法、装置、计算机设备及存储介质 | |
CN113987154A (zh) | 基于UniLM与对比学习的相似句生成模型训练方法及相关设备 | |
CN113781247A (zh) | 协议数据推荐方法、装置、计算机设备及存储介质 | |
Diler | Impact on inclusive development of information and communication technologies in Turkey | |
CN112992168B (zh) | 语音降噪器训练方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240712 |