CN109300474B - 一种语音信号处理方法及装置 - Google Patents

一种语音信号处理方法及装置 Download PDF

Info

Publication number
CN109300474B
CN109300474B CN201811075158.XA CN201811075158A CN109300474B CN 109300474 B CN109300474 B CN 109300474B CN 201811075158 A CN201811075158 A CN 201811075158A CN 109300474 B CN109300474 B CN 109300474B
Authority
CN
China
Prior art keywords
voice
segments
prompt text
determining
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811075158.XA
Other languages
English (en)
Other versions
CN109300474A (zh
Inventor
邹新生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Huawei Jin'an Enterprise Management Co ltd
Original Assignee
Beijing Wangzhong Gongchuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wangzhong Gongchuang Technology Co ltd filed Critical Beijing Wangzhong Gongchuang Technology Co ltd
Priority to CN201811075158.XA priority Critical patent/CN109300474B/zh
Publication of CN109300474A publication Critical patent/CN109300474A/zh
Application granted granted Critical
Publication of CN109300474B publication Critical patent/CN109300474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明提供了一种语音信号处理方法及装置,其中,该方法包括:获取朗读提示文本的待测语音信号;将所述待测语音信号分割为N个语音片段;基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号;根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。通过本发明,解决了相关技术中朗读者按照指示文本朗读,无法检测出朗读的内容是否与指示文本匹配的问题,从而可以确定朗读者是否按照指示文本朗读。

Description

一种语音信号处理方法及装置
技术领域
本发明涉及通信领域,具体而言,涉及一种语音信号处理方法及装置。
背景技术
语音信号处理技术是语音处理和语音识别领域中的一个重要分支,也是现今语音识别和语音评价系统的主要核心技术。随着科技的发展,语音信号处理技术已深入到各个领域,包括语言学习以及语音自动评分,而在语言学习和自动评分中,运用语音信号处理的目的是将最新的语音技术于当前的教学和学习方法结合,建立辅助语言学习的系统或者语音智能评分系统。
针对在有随机提示文本的情况下,朗读者是否按照文本进行朗读来进行检测,在这种场景下,相关技术中无法检测出恶意的朗读者存在不按照文本进行朗读的动机,比如说用他人声音来冒充。
针对相关技术中朗读者按照指示文本朗读,无法检测出朗读的内容是否与指示文本匹配的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种语音信号处理方法及装置,以至少解决相关技术中朗读者按照指示文本朗读,无法检测出朗读的内容是否与指示文本匹配的问题。
根据本发明的一个实施例,提供了一种语音信号处理方法,包括:
获取朗读提示文本的待测语音信号;
将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,所述基于所述DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度包括:
基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
可选地,所述根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况包括:
确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;
根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;
在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
可选地,在所述确定所述待测语音信号与所述提示文本不完全匹配之后,所述方法还包括:
获取所述待测语音信号中与所述提示文本不匹配的语音片段;
确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
可选地,在所述获取朗读所述提示文本的待测语音信号之前,所述方法还包括:
基于所述提示文本生成所述参照语音信号;
将所述参照语音信号分割为M个语音片段。
可选地,所述获取朗读所述提示文本的待测语音信号包括:
将所述提示文本推送给移动终端;
通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
可选地,所述将所述待测语音信号分割为N个语音片段包括:
获取所述待测语音信号中的静音段;
去除所述静音段;
根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;
通过端点检测将所述长语音片段分割成所述N个语音片段。
根据本发明的另一个实施例,还提供了一种语音信号处理装置,包括:
获取模块,用于获取朗读提示文本的待测语音信号;
第一分割模块,用于将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
第一确定模块,用于基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
第二确定模块,用于根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,所述第一确定模块包括:
计算单元,用于基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
第一确定单元,用于根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
可选地,所述第二确定模块包括:
第二确定单元,用于确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断单元,用于判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
第三确定单元,用于在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
可选地,所述装置还包括:
第一获取单元,用于获取所述待测语音信号中与所述提示文本不匹配的语音片段;
显示单元,用于确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
可选地,所述装置还包括:
生成模块,用于基于所述提示文本生成所述参照语音信号;
第二分割模块,用于将所述参照语音信号分割为M个语音片段。
可选地,所述获取模块包括:
推送单元,用于将所述提示文本推送给移动终端;
采集单元,用于通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
可选地,所述第一分割模块包括:
获取单元,用于获取所述待测语音信号中的静音段;
去除单元,用于去除所述静音段;
分割单元,用于根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;通过端点检测将所述长语音片段分割成所述N个语音片段。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于获取朗读提示文本的待测语音信号;将所述待测语音信号分割为N个语音片段;基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号;根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况,解决了无法检测出朗读的内容是否与指示文本匹配的问题,从而可以确定朗读者是否按照指示文本朗读。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音信号处理方法的移动终端的硬件结构框图;
图2是根据本发明实施例的一种语音信号处理方法的流程图;
图3是根据本发明实施例的语音信号处理装置的框图;
图4是根据本发明优选实施例的语音信号处理装置的框图一;
图5是根据本发明优选实施例的语音信号处理装置的框图二;
图6是根据本发明优选实施例的语音信号处理装置的框图三。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音信号处理方法的移动终端的硬件结构框图,如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端或网络架构的语音信号处理方法,图2是根据本发明实施例的一种语音信号处理方法的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取朗读提示文本的待测语音信号;
步骤S204,将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
步骤S206,基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
步骤S208,根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
通过上述步骤,获取朗读提示文本的待测语音信号;将所述待测语音信号分割为N个语音片段;基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号;根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况,解决了无法检测出朗读的内容是否与指示文本匹配的问题,从而可以确定朗读者是否按照指示文本朗读。
本发明实施例,为了确定朗读者朗读的内容是否与提供的提示文本匹配,在所述获取朗读所述提示文本的待测语音信号之前,基于所述提示文本生成所述参照语音信号,将所述参照语音信号分割为M个语音片段,以便将朗读的语音信号进行比对。
本发明实施例中,通过服务器向移动终端推送提示文本,在移动终端的应用中显示,便于用户照着提示文本朗读,具体地,所述获取朗读所述提示文本的待测语音信号可以包括:将所述提示文本推送给移动终端,通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
本发明实施例中,将所述待测语音信号分割为N个语音片段具体可以包括:获取所述待测语音信号中的静音段;去除所述静音段;根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;通过端点检测将所述长语音片段分割成所述N个语音片段。其中,端点检测是语音识别和语音处理的一个基本环节,也是语音识别研究的一个热点领域。技术的主要目的是从输入的语音中对语音和非语音进行区分,可以去掉语音中的静音成分,获取输入语音中有效语音。
本发明实施例中,可以通过两个语音片段之间的距离确定相似度,所述基于所述DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度包括:基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
可选地,所述根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况具体可以包括:确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
本发明实施例中,若朗读者朗读的内容与提示文本不完全匹配,便通过移动终端向用户反馈不匹配的文本内容,具体地,在所述确定所述待测语音信号与所述提示文本不完全匹配之后,获取所述待测语音信号中与所述提示文本不匹配的语音片段;确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
本发明实施例可以检测朗读内容与提示文本的一致性,并保证实时性。选用DTW方法,并重点改进DTW的使用方法,使其适用于长语音。动态时间归整(Dynamic TimeWarping,简称为DTW)算法,基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法,用于孤立词识别。包括以下步骤:
后台基于提示文本生成参照语音R,比如通过语音合成(Text To Speech,简称为TTS)。
后台将提示文本推送给Rpp,供朗读者跟读。
Rpp录制朗读者语音,推送给后台作为比较语音T。
后台通过语音切割软件将语音R和语音T切割为R1,...Rm,T1,...,Tn,并保证每个语音切片的时长在一个合理范围内,不至于相差太远。
考虑到每个人语速不一样,并且很难保证每个人严格按照提示文本朗读,DTW的阈值需要设置得宽松些,这样的后果就是不能立即判断两个语音判断的DTW意义下的相似度,即无法立即准确判断。
以R1,...Rm为参照,依次将T1,...Tn与上述参照语音分片做DTW意义下的相似度计算,记录与每个Ti相似的Rj的集合Ci,注意一个Ti可能对应多个Rj,即Ci中有多个元素。
依据Ci,计算其时间可达性,即存在Ci中某一种组合,从该组合中取一个元素,是存在严格时间上的先后顺序的。根据时间先后顺序便可确定Ci中与Ti最匹配的Rj。
这样就保证了朗读者可以少错读,但基本按照提示朗读。
无论在训练和建立模板阶段还是在识别阶段,都先采用端点算法确定语音的起点和终点。以存入模板库的各个词条称为参考模板,一个参考模板可表示为R={R(1),R(2),……,R(m),……,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模板所包含的语音帧总数,R(m)为第m帧的语音特征矢量。所要识别的一个输入词条语音称为测试模板,可表示为T={T(1),T(2),……,T(n),……,T(N)},n为测试语音帧的时序标号,n=1为起点语音帧,n=N为终点语音帧,因此N为该模板所包含的语音帧总数,T(n)为第n帧的语音特征矢量。参考模板与测试模板一般采用相同类型的特征矢量、相同的帧长、相同的窗函数和相同的帧移。
假设测试和参考模板分别用T和R表示,为了比较它们之间的相似度,可以计算它们之间的距离D[T,R],距离越小则相似度越高。为了计算这一失真距离,应从T和R中各个对应帧之间的距离算起。设n和m分别是T和R中任意选择的帧号,d[T(n),R(m)]表示这两帧特征矢量之间的距离。距离函数取决于实际采用的距离度量,在DTW算法中通常采用欧氏距离。
若N=M则可以直接计算,否则要考虑将T(n)和R(m)对齐。对齐可以采用线性扩张的方法,如果N<M可以将T线性映射为一个M帧的序列,再计算它与{R(1),R(2),……,R(M)}之间的距离。但是这样的计算没有考虑到语音中各个段在不同情况下的持续时间会产生或长或短的变化,因此识别效果不可能最佳。因此更多的是采用动态规划的方法。
若把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,通过这些表示帧号的整数坐标画出一些纵横线即可形成一个网络,网络中的每一个交叉点(n,m)表示测试模式中某一帧的交汇点。动态规划算法可以归结为寻找一条通过此网络中若干格点的路径,路径通过的格点即为测试和参考模板中进行计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,在右上角结束。
为了描述这条路径,假设路径通过的所有格点依次为(n1,m1),……,(ni,mj),……,(nN,mM),其中(n1,m1)=(1,1),(nN,mM)=(N,M)。为了使路径不至于过倾斜,可以约束斜率在0.5~2的范围内,如果路径已经通过了格点(n,m),那么下一个通过的格点(n,m)只可能是下列三种情况之一:
(n,m)=(n+1,m)
(n,m)=(n+1,m+1)
(n,m)=(n,m+1)
用r表示上述三个约束条件。求最佳路径的问题可以归结为满足约束条件r时,求最佳路径,使得沿路径的积累距离达到最小值,即:
搜索该路径的方法如下:搜索从(n,m)点出发,可以展开若干条满足η的路径,假设可计算每条路径达到(n,m)点时的总的积累距离,具有最小累积距离者即为最佳路径。易于证明,限定范围的任一格点(n,m)只可能有一条搜索路径通过。对于(n,m),其可达到该格点的前一个格点只可能是(n-1,m)、(n-1,m-1)和(n,m-1),那么(n,m)一定选择这3个距离之路径延伸而通过(n,m),这时此路径的积累距离为:
D[(n,m)]=d[T(n),R(m)]+min{D(n-1,m),D(n-1,m-1),D(n,m-1)}
这样可以从(n,m)=(1,1)出发搜索(n,m),对每一个(n,m)都存储相应的距离,这个距离是当前格点的匹配距离与前一个累计距离最小的格点(按照设定的斜率在三个格点中进行比较)。搜索到(n,m)时,只保留一条最佳路径。如果有必要的话,通过逐点向前寻找就可以求得整条路径。这套DP算法便是DTW算法。
DTW算法可以直接按上面描述来实现,即分配两个N×M的矩阵,分别为积累距离矩阵D和帧匹配距离矩阵d,其中帧匹配距离矩阵d(i,j)的值为测试模板的第i帧与参考模板的第j帧间的距离。D(N,M)即为最佳匹配路径所对应的匹配距离。
实施例2
在本实施例中还提供了一种语音信号处理装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的语音信号处理装置的框图,如图3所示,包括:
获取模块32,用于获取朗读提示文本的待测语音信号;
第一分割模块34,用于将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
第一确定模块36,用于基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
第二确定模块38,用于根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
图4是根据本发明优选实施例的语音信号处理装置的框图一,如图4所示,所述第一确定模块36包括:
计算单元42,用于基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
第一确定单元44,用于根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度。
图5是根据本发明优选实施例的语音信号处理装置的框图二,如图5所示,所述第二确定模块38包括:
第二确定单元52,用于确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断单元54,用于判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
第三确定单元56,用于在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配。
图6是根据本发明优选实施例的语音信号处理装置的框图三,如图6所示,所述装置还包括:
第一获取单元62,用于获取所述待测语音信号中与所述提示文本不匹配的语音片段;
显示单元64,用于确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
可选地,所述装置还包括:
生成模块,用于基于所述提示文本生成所述参照语音信号;
第二分割模块,用于将所述参照语音信号分割为M个语音片段。
可选地,所述获取模块32包括:
推送单元,用于将所述提示文本推送给移动终端;
采集单元,用于通过所述移动终端采集朗读所述提示文本的所述待测语音信号。
可选地,所述第一分割模块34包括:
第二获取单元,用于获取所述待测语音信号中的静音段;
去除单元,用于去除所述静音段;
分割单元,用于根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;通过端点检测将所述长语音片段分割成所述N个语音片段。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S11,获取朗读提示文本的待测语音信号;
S12,将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
S13,基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
S14,根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
实施例4
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S11,获取朗读提示文本的待测语音信号;
S12,将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
S13,基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
S14,根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种语音信号处理方法,其特征在于,包括:
获取朗读提示文本的待测语音信号;
将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况;
其中,所述获取朗读所述提示文本的待测语音信号包括:
将所述提示文本推送给移动终端;
通过所述移动终端采集朗读所述提示文本的所述待测语音信号;
其中,所述基于所述DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度包括:
基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度;
其中,所述根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况包括:
确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;
根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;
在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配;
其中,所述将所述待测语音信号分割为N个语音片段包括:
获取所述待测语音信号中的静音段;
去除所述静音段;
根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;
通过端点检测将所述长语音片段分割成所述N个语音片段。
2.根据权利要求1所述的方法,其特征在于,在所述确定所述待测语音信号与所述提示文本不完全匹配之后,所述方法还包括:
获取所述待测语音信号中与所述提示文本不匹配的语音片段;
确定并显示不匹配的所述语音片段对应的所述提示文本中的文字内容。
3.根据权利要求1或2所述的方法,其特征在于,在所述获取朗读所述提示文本的待测语音信号之前,所述方法还包括:
基于所述提示文本生成所述参照语音信号;
将所述参照语音信号分割为M个语音片段。
4.一种语音信号处理装置,其特征在于,包括:
获取模块,用于获取朗读提示文本的待测语音信号;
第一分割模块,用于将所述待测语音信号分割为N个语音片段,其中,所述N为大于或等于2的自然数;
第一确定模块,用于基于动态时间规整DTW算法分别确定所述N个语音片段与预先存储的参照语音信号的M个语音片段的相似度,其中,所述参照语音信号是基于所述提示文本生成的语音信号,所述M为大于或等于2的自然数;
第二确定模块,用于根据所述相似度确定所述待测语音信号与所述提示文本的匹配情况;
其中,所述获取朗读所述提示文本的待测语音信号包括:
将所述提示文本推送给移动终端;
通过所述移动终端采集朗读所述提示文本的所述待测语音信号;
其中,所述装置还用于:
基于所述DTW算法分别计算所述N个语音片段与所述M个语音片段之间的距离;
根据计算出的距离确定所述N个语音片段与所述M个语音片段的相似度;
其中,所述装置还用于:
确定所述距离小于预设距离阈值的所述N个语音片段中每一个语音片段与所述M个语音片段中的一个或多个语音片段相似;
根据时间先后顺序从所述一个或多个语音片段中确定与所述N个语音片段中每一个语音片段匹配的所述M个语音片段中的一个语音片段;
判断所述N个语音片段是否均与所述M个语音片段中的语音片段匹配;
在所述N个语音片段均与所述M个语音片段中的语音片段匹配的情况下,确定所述待测语音信号与所述提示文本完全匹配;
在所述N个语音片段中存在一个或多个语音片段与所述M个语音片段中的语音片段不匹配的情况下,确定所述待测语音信号与所述提示文本不完全匹配;
其中,所述将所述待测语音信号分割为N个语音片段包括:
获取所述待测语音信号中的静音段;
去除所述静音段;
根据所述静音段对所述待测语音信号进行分割,得到分割后的长语音片段;
通过端点检测将所述长语音片段分割成所述N个语音片段。
5.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至3所述的方法。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3所述的方法。
CN201811075158.XA 2018-09-14 2018-09-14 一种语音信号处理方法及装置 Active CN109300474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811075158.XA CN109300474B (zh) 2018-09-14 2018-09-14 一种语音信号处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811075158.XA CN109300474B (zh) 2018-09-14 2018-09-14 一种语音信号处理方法及装置

Publications (2)

Publication Number Publication Date
CN109300474A CN109300474A (zh) 2019-02-01
CN109300474B true CN109300474B (zh) 2022-04-26

Family

ID=65163131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811075158.XA Active CN109300474B (zh) 2018-09-14 2018-09-14 一种语音信号处理方法及装置

Country Status (1)

Country Link
CN (1) CN109300474B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903781A (zh) * 2019-04-14 2019-06-18 湖南检信智能科技有限公司 一种情感分析模式匹配方法
CN111785294B (zh) * 2020-06-12 2024-04-02 Oppo广东移动通信有限公司 音频检测方法及装置、终端、存储介质
CN112034853A (zh) * 2020-09-04 2020-12-04 南京凌华微电子科技有限公司 一种家庭监护机器人的工作方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040073291A (ko) * 2004-01-08 2004-08-19 정보통신연구진흥원 외국어 발음 평가 시스템 및 그 평가 방법
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法
CN103559894A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及系统
CN106531189A (zh) * 2016-12-20 2017-03-22 潘奕君 一种智能口语测评方法
CN106531185A (zh) * 2016-11-01 2017-03-22 上海语知义信息技术有限公司 基于语音相似度的语音评测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040073291A (ko) * 2004-01-08 2004-08-19 정보통신연구진흥원 외국어 발음 평가 시스템 및 그 평가 방법
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法
CN103559894A (zh) * 2013-11-08 2014-02-05 安徽科大讯飞信息科技股份有限公司 口语评测方法及系统
CN106531185A (zh) * 2016-11-01 2017-03-22 上海语知义信息技术有限公司 基于语音相似度的语音评测方法及系统
CN106531189A (zh) * 2016-12-20 2017-03-22 潘奕君 一种智能口语测评方法

Also Published As

Publication number Publication date
CN109300474A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109065031B (zh) 语音标注方法、装置及设备
CN107797984B (zh) 智能交互方法、设备及存储介质
CN111402895B (zh) 语音处理、语音评测方法、装置、计算机设备和存储介质
CN109300474B (zh) 一种语音信号处理方法及装置
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN111339250B (zh) 新类别标签的挖掘方法及电子设备、计算机可读介质
US20220310051A1 (en) Rhythm Point Detection Method and Apparatus and Electronic Device
EP4036796A1 (en) Automatic modeling method and apparatus for object detection model
US11501102B2 (en) Automated sound matching within an audio recording
CN110222328B (zh) 基于神经网络的分词和词类标注方法、装置、设备及存储介质
CN112115372B (zh) 一种停车场的推荐方法及装置
CN110019922B (zh) 一种音频高潮识别方法和装置
CN114666618B (zh) 音频审核方法、装置、设备及可读存储介质
CN110751960B (zh) 噪声数据的确定方法及装置
CN116610815A (zh) 一种知识图谱的关系预测方法、装置、设备及存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN111369294A (zh) 软件造价估算方法及装置
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111402865A (zh) 语音识别训练数据的生成方法、语音识别模型的训练方法
CN114141250A (zh) 歌词识别方法、装置、电子设备及可读存储介质
CN111198965B (zh) 一种歌曲检索方法、装置、服务器及存储介质
CN110827794B (zh) 语音识别中间结果的质量评测方法和装置
CN113535925A (zh) 语音播报方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230105

Address after: Room 502 and Room 504, Jiayuan Office Building, No. 369, Yuelu Avenue, Xianjiahu Street, Yuelu District, Changsha City, Hunan Province 410205

Patentee after: Hunan Huawei Jin'an Enterprise Management Co.,Ltd.

Address before: 100080 370m south of Huandao, Yanfu Road, Yancun Town, Fangshan District, Beijing

Patentee before: BEIJING WANGZHONG GONGCHUANG TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right