CN114783423A - 基于语速调整的语音切分方法、装置、计算机设备及介质 - Google Patents
基于语速调整的语音切分方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN114783423A CN114783423A CN202210551746.6A CN202210551746A CN114783423A CN 114783423 A CN114783423 A CN 114783423A CN 202210551746 A CN202210551746 A CN 202210551746A CN 114783423 A CN114783423 A CN 114783423A
- Authority
- CN
- China
- Prior art keywords
- segmentation
- voice
- speech
- current
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 307
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000009432 framing Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims description 27
- 230000015654 memory Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 7
- 230000006978 adaptation Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例属于人工智能技术领域,涉及一种基于语速调整的语音切分方法,包括对获取的待处理语音数据进行分帧处理,得到语音帧;将语音帧输入训练完成的语音切分模型,基于语音切分模型的当前切分参数对当前时刻的待处理语音数据进行语音切分,得到当前语音片段;根据当前语音片段的语速调整当前切分参数,得到下一时刻切分参数;基于下一时刻切分参数,对下一时刻的待处理语音数据进行语音切分,直到待处理语音数据切分完成,输出目标语音片段。本申请还提供一种基于语速调整的语音切分装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,待处理语音数据可存储于区块链中。本申请可以动态修改语音切分端点。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于语速调整的语音切分方法、装置、计算机设备及介质。
背景技术
随着人机信息交互技术的发展,语音识别技术显示出其重要性。在语音识别系统中,对语音文件进行切分是一个比较关键的问题,因为较长的语音文件在语音识别转换过程中会对系统资源产生较大的消耗,且识别准确率不高。而对语音文件进行切分的关键在于语音端点检测,语音端点检测是指在连续语音信号中找出语音部分的起始点和终止点,端点检测准确与否,会直接影响到语音识别系统的语音识别的结果,若语音切分出现错误,则语音信号的识别可能就会出现很大的偏差,甚至导致语音信号的识别无法实现。
但是,目前语音端点检测方法主要是获取时域或频域能量,并与给定的阈值进行比较,从而判断出语音的起始点和终止点。这种方法不会根据用户的语速来识别切分端点,导致语句切分不准确,进而影响语音识别的准确性。
发明内容
本申请实施例的目的在于提出一种基于语速调整的语音切分方法、装置、计算机设备及介质,以解决相关技术中语音端点检测不会根据用户的语速来识别切分端点,导致语句切分不准确,进而影响语音识别的准确性的技术问题。
为了解决上述技术问题,本申请实施例提供一种基于语速调整的语音切分方法,采用了如下所述的技术方案:
获取待处理语音数据,并对所述待处理语音数据进行分帧处理,得到语音帧;
将所述语音帧输入训练完成的语音切分模型,基于所述语音切分模型的当前切分参数对当前时刻的所述待处理语音数据进行语音切分,得到当前语音片段;
根据所述当前语音片段的语速调整所述当前切分参数,得到下一时刻切分参数;
基于所述下一时刻切分参数,通过所述语音切分模型对下一时刻的所述待处理语音数据进行语音切分,直到所述待处理语音数据切分完成,输出目标语音片段。
进一步的,所述语音切分模型至少包括特征提取层、识别切分层和输出层,所述基于所述语音切分模型的当前切分参数对当前时刻的所述待处理语音数据进行语音切分,得到当前语音片段的步骤包括:
通过所述特征提取层提取当前时刻所述待处理语音数据的语音帧的语音特征;
将所述语音特征输出至所述识别切分层,基于所述当前切分参数和所述语音特征确定语音切分端点,根据所述语音切分端点生成待识别语音帧序列;
将所述待识别语音帧序列输入所述输出层,输出当前语音片段。
进一步的,所述语音切分模型还包括参数调整层,所述根据所述当前语音片段的语速调整所述当前切分参数,得到下一时刻切分参数的步骤包括:
通过所述参数调整层计算所述当前语音片段对应的当前语速;
根据所述当前语速调整所述当前切分参数为下一时刻切分参数。
进一步的,所述当前切分参数为当前静默时长参数,所述根据所述当前语速调整所述当前切分参数为下一时刻切分参数的步骤包括:
比较所述当前语速与预设语速,得到比较结果;
若比较结果落入预设范围内,将所述当前静默时长参数作为下一时刻切分参数;
若比较结果不在预设范围内,则根据所述当前语速调整所述当前静默时长参数,得到下一时刻切分参数。
进一步的,在所述将所述语音帧输入训练完成的语音切分模型的步骤之前还包括:
构建初始语音切分模型;
获取训练样本集,其中,所述训练样本集标记有语音端点;
将所述训练样本集输入所述初始语音切分模型,输出切分结果;
根据所述切分结果对所述初始语音切分模型进行模型参数更新,直至模型收敛,得到语音切分模型。
进一步的,在所述获取待处理语音数据的步骤之后还包括:
对所述待处理语音数据进行去噪处理。
进一步的,所述基于所述下一时刻切分参数,通过所述语音切分模型对下一时刻的所述待处理语音数据进行语音切分,直到所述待处理语音数据切分完成,输出目标语音片段的步骤之后还包括:
对所述目标语音片段进行语音识别处理,得到所述待处理语音数据对应的语音识别结果。
为了解决上述技术问题,本申请实施例还提供一种基于语速调整的语音切分装置,采用了如下所述的技术方案:
获取模块,用于获取待处理语音数据,对所述待处理语音数据进行分帧处理,得到语音帧;
第一切分模块,用于将所述语音帧输入训练完成的语音切分模型,基于所述语音切分模型的当前切分参数对当前时刻的所述待处理语音数据进行语音切分,得到当前语音片段;
调整模块,用于根据所述当前语音片段的语速调整所述当前切分参数,得到下一时刻切分参数;
第二切分模块,用于基于所述下一时刻切分参数,通过所述语音切分模型对下一时刻的所述待处理语音数据进行语音切分,直到所述待处理语音数据切分完成,输出目标语音片段。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
该计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上所述的基于语速调整的语音切分方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的基于语速调整的语音切分方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请通过获取待处理语音数据,并对待处理语音数据进行分帧处理,得到语音帧;将语音帧输入训练完成的语音切分模型,基于语音切分模型的当前切分参数对当前时刻的待处理语音数据进行语音切分,得到当前语音片段;根据当前语音片段的语速调整当前切分参数,得到下一时刻切分参数;基于下一时刻切分参数,通过语音切分模型对下一时刻的待处理语音数据进行语音切分,直到待处理语音数据切分完成,输出目标语音片段;本申请通过根据语速调整语音切分模型的切分参数,基于调整的切分参数对待处理语音数据进行语音切分,即依据语音数据中前一段语音片段的语速情况,调整下一段语音片段切分的切分参数,可以实现针对用户语速动态修改语音切分端点,提高语音切分端点检测的准确性,进而提升语音识别的准确性。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的基于语速调整的语音切分方法的一个实施例的流程图;
图3是根据本申请的基于语速调整的语音切分装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请提供了一种基于语速调整的语音切分方法,涉及人工智能,可以应用于如图1所示的系统架构100中,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的基于语速调整的语音切分方法一般由服务器/终端设备执行,相应地,基于语速调整的语音切分装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的基于语速调整的语音切分方法的一个实施例的流程图,包括以下步骤:
步骤S201,获取待处理语音数据,并对待处理语音数据进行分帧处理,得到语音帧。
在本实施例中,待处理语音数据可以是直接采集用户输入的语音数据,也可以是一段录音数据,还可以是从一段视频数据中提取的音频数据,在此不做限制。
需要说明的是,待处理语音数据是指能够进行切分得到多段独立目标音频数据的长时音频数据;上述对待处理语音数据进行切分是指在待处理语音数据的停顿处将该待处理语音数据分成多个音频片段。
在本实施例中,对待处理语音数据进行分帧处理。语音信号是一个非稳态、时变的信号,但在短时间范围内可以认为语音信号是稳态的、时不变的,这个短时间一般取10-30ms,因此在进行语音信号处理时,为减少语音信号整体的非稳态、时变的影响,从而对语音信号进行分段处理,其中每一段称为一帧,帧长一般取25ms。为了使帧与帧之间平滑过渡,保持其连续性,分帧一般采用交叠分段的方法,保证相邻两帧相互重叠一部分。相邻两帧的起始位置的时间差称为帧移,在应用过程中,帧移可以取10ms。应当理解,此处的帧长和帧移仅为示例性的,本实施例此处不做特别限制。
需要强调的是,为进一步保证待处理语音数据的私密和安全性,上述待处理语音数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
步骤S202,将语音帧输入训练完成的语音切分模型,基于语音切分模型的当前切分参数对当前时刻的待处理语音数据进行语音切分,得到当前语音片段。
在本实施例中,将语音帧按照时间顺序输入已经训练完成的语音切分模型中,其中,语音切分模型包括特征提取层、识别切分层和输出层。
上述基于语音切分模型的当前切分参数对当前时刻的待处理语音数据进行语音切分的步骤包括:
通过特征提取层提取当前时刻待处理语音数据的语音帧的语音特征;
将语音特征输出至识别切分层,基于当前切分参数和语音特征确定语音切分端点,根据语音切分端点生成待识别语音帧序列;
将待识别语音帧序列输入输出层,输出当前语音片段。
其中,特征提取层用于进行语音帧的语音特征提取,语音特征可以包括梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,简称MFCC)、一阶差分的MFCC和二阶差分的MFCC,具体的,特征提取层对输入的所有语音帧进行快速傅里叶变换(Fast FourierTransform,FFT),即将时域对应的语音信号转换为频域的能量谱,将能量谱通过一组梅尔尺度的三角滤波器组,突出语音的共振峰特征,然后计算每个滤波器组输出的对数能量,对对数能量进行计算后,经离散余弦变换(Discrete Fourier Transform,DFT)就可得到MFCC。
将语音特征输入识别切分层进行语音端点检测,确定出语音切分端点,将当前时刻待处理语音数据按照语音切分端点进行切分,生成待识别语音帧序列,通过输出层对待识别语音帧序列的计算,输出当前时刻切分得到的当前语音片段。
语音是典型的时序信号,循环神经网络(Recurrent Neural Networks,RNN),尤其是长短时记忆(Long short-termmemory,LSTM)循环神经网络具有很强的时序建模能力,适用于语音信号识别。基于此,在本实施例中,识别切分层可以采用LSTM网络,具体的,可以采用双向Bi-LSTM层,对于输入的语音帧分别采用顺序与逆序的循环神经网络来得到两个独立的隐藏层表示,然后对这两个隐藏层表示进行一定的计算(拼接或相加),得到一个最终的隐藏层表示,送入输出层进行后续的计算。这种隐藏层表示同时包含了来自上一时刻和下一时刻的语音信息。
在本实施例中,识别切分层根据语音特征对每帧语音帧进行分类,语音帧的类型包括但不限于清音、浊音、噪音及静音等,其中,清音和浊音是有效语音帧,有效语音帧为需要进行语音识别的部分。具体的,识别切分层针对每个语音特征都会输出一个分类结果,根据分类结果确定语音特征分为清音、浊音、噪音和静音的概率,根据概率确定语音帧为有效语音帧的概率,进而确定出语音片段的起点和终点。
步骤S203,根据当前语音片段的语速调整当前切分参数,得到下一时刻切分参数。
在本实施例中,当前切分参数是上一时刻语音切分模型进行调整后的切分参数,若当前时刻是首次对待处理语音数据进行切分,则当前切分参数为语音切分模型训练完成后得到的参数。
在本实施例中,语音切分模型还包括参数调整层,通过参数调整层计算当前语音片段对应的当前语速,当前语速为当前语音片段所包含字数/当前语音片段时长,通过参数调整层确定当前语音片段对应的字数和时长,计算出当前语音片段的当前语速,根据当前语速调整语音切分模型的当前切分参数为下一时刻切分参数。
在本实施例中,通过调整切分参数可以实现对语音切分端点的动态调整,使得语音切分更加准确。
在一些可选的实现方式中,当前切分参数为当前静默时长参数,上述根据当前语速调整当前切分参数为下一时刻切分参数的步骤包括:
比较当前语速与预设语速,得到比较结果;
若比较结果落入预设范围内,将当前静默时长参数作为下一时刻切分参数;
若比较结果不在预设范围内,则根据当前语速调整当前静默时长参数,得到下一时刻切分参数。
在本实施例中,预设语速为上一时刻语速或者语音切分模型训练完成、根据静默时长参数得到的语速。
比较当前语速和预设语速之间的差值,若差值落入预设范围,则不需要调整静默时长参数,若差值超出预设范围,则根据当前语速调整静默时长参数,将调整后的静默时长参数作为下一时刻切分参数。
例如,若语速为10字数/秒,将静默时长参数调整到1.0秒,即下一个静音片段的长度要大于1.0秒后才会被视为语音内容为静音,并将其切分为独立的语音片段,若静音片段小于等于1.0秒,该静音片段不需要进行独立切分。
本实施例可以根据用户语速动态调整切分参数,即对语音切分端点进行动态调整,避免用户语速过快的情况下,过早识别用户的语音内容,造成语音识别的不准确。
步骤S204,基于下一时刻切分参数,通过语音切分模型对下一时刻的待处理语音数据进行语音切分,直到待处理语音数据切分完成,输出目标语音片段。
在本实施例中,语音切分模型根据下一时刻切分参数对下一时刻输入的待处理语音数据进行语音切分,语音切分方法如步骤S202所述,在此不再赘述。
在本实施例中,待处理语音数据切分完成,是通过语音切分模型对待处理语音数据进行语音信号结束检测,根据检测结果来确定。具体的,语音切分模型基于双门限端点检测法对待处理语音数据进行检测,检测过程可以和语音切分过程同时进行,检测到用户输入语音数据结束,则输出结束信号。
本申请通过根据语速调整语音切分模型的切分参数,基于调整的切分参数对待处理语音数据进行语音切分,即依据语音数据中前一段语音片段的语速情况,调整下一段语音片段切分的切分参数,可以实现针对用户语速动态修改语音切分端点,提高语音切分端点检测的准确性,进而提升语音识别的准确性。
在本实施例的一些可选的实现方式中,在步骤202中的将语音帧输入训练完成的语音切分模型的步骤之前还可以执行以下步骤:
构建初始语音切分模型;
获取训练样本集,其中,训练样本集标记有语音端点;
将训练样本集输入初始语音切分模型,输出切分结果;
根据切分结果对初始语音切分模型进行模型参数更新,直至模型收敛,得到语音切分模型。
具体的,训练样本集可以从语音数据库中获取,训练样本集中的语音数据的每个句子标记有语句的起始位置和结束位置。将训练样本集输入构建额初始语音切分模型中进行训练,在训练过程中,将每次初始语音切分模型输出的切分结果与相应的标定输入语句进行对比,判断语音切分模型输出的切分结果是否准确,在不准确的情况下,对语音切分模型的模型参数进行调整更新,并重复上述训练过程,直至调整后的语音切分模型能够输出较为准确的切分结果,即模型收敛,最终得到训练完成的语音切分模型。
需要说明的是,语音切分模型可以预先进行配置,或者在其他环节已经训练好的,在本实施例中直接调用即可。
本实施例中通过训练语音切分模型实现语音数据的切分,可以提升语音切分的准确性以及语音切分效率。
在一些可选的实现方式中,在上述获取待处理语音数据的步骤之后还包括:
对待处理语音数据进行去噪处理。
由于环境噪声和其他设备信号的干扰,输入语音中含有噪声,会影响语音识别的准确度,在一些场景中需要对语音进行去噪处理,包括马路噪音、餐厅噪音、风扇噪音、车站噪音等多种场景。例如,在电话语音中,可能包括各种不同场景的噪音,可以基于能量检测、信道交叉作用等方式进行有效语音的检测和去噪,也可以预先训练好降噪模型,具体是利用噪声功率谱对预设噪声库中噪声进行分类后的噪声,对降噪模型进行训练,得到各种噪声类型对应的降噪模型。
在本实施例中,通过对待处理语音数据进行去噪,可以提升后续语音切分的准确性。
在本实施例的一些可选的实现方式中,在上述基于下一时刻切分参数,通过语音切分模型对下一时刻的待处理语音数据进行语音切分,直到待处理语音数据切分完成,输出目标语音片段的步骤之后还包括:
对目标语音片段进行语音识别处理,得到待处理语音数据对应的语音识别结果。
在本实施例中,对语音数据进行语音识别可以是采用自动语音识别(AutomaticSpeech Recognition,ASR)技术来实现,即可将语音片段输入语音识别模型中,通过语音识别模型对语音片段进行语音识别处理,即将语音片段转换成对应的文本,再获取语音识别模型输出的文本即可,其中,语音识别模型可以是预先获取的传统语音识别模型,也可以是预先训练得到的。
在一些可选的实现方式中,根据训练样本集对语音切分模型和语音识别模型进行迭代联合训练,在每轮训练中根据语音切分模型和语音识别模型的联合损失函数调整语音切分模型和/或语音识别模型的模型参数,直到联合损失函数满足收敛条件得到训练完成的语音切分模型和语音识别模型。
通过这种种训练方式,可保证训练得到的语音切分模型和语音识别模型具备较高的检测准确率,进而保证语音端点检测结果以及语音识别结果的准确性。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种基于语速调整的语音切分装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的基于语速调整的语音切分装置300包括:获取模块301、第一切分模块302、调整模块303以及第二切分模块304。其中:
获取模块301用于获取待处理语音数据,对待处理语音数据进行分帧处理,得到语音帧;
第一切分模块302用于将语音帧输入训练完成的语音切分模型,基于语音切分模型的当前切分参数对当前时刻的待处理语音数据进行语音切分,得到当前语音片段;
调整模块303用于根据当前语音片段的语速调整当前切分参数,得到下一时刻切分参数;
第二切分模块304用于基于下一时刻切分参数,通过语音切分模型对下一时刻的待处理语音数据进行语音切分,直到待处理语音数据切分完成,输出目标语音片段。
需要强调的是,为进一步保证待处理语音数据的私密和安全性,上述待处理语音数据还可以存储于一区块链的节点中。
上述基于语速调整的语音切分装置,通过根据语速调整语音切分模型的切分参数,基于调整的切分参数对待处理语音数据进行语音切分,即依据语音数据中前一段语音片段的语速情况,调整下一段语音片段切分的切分参数,可以实现针对用户语速动态修改语音切分端点,提高语音切分端点检测的准确性,进而提升语音识别的准确性。
在本实施例中,第一切分模块包括特征提取子模块、识别切分子模块和输出子模块,其中:
特征提取子模块用于通过所述特征提取层提取当前时刻所述待处理语音数据的语音帧的语音特征;
识别切分子模块用于将所述语音特征输出至所述识别切分层,基于所述当前切分参数和所述语音特征确定语音切分端点,根据所述语音切分端点生成待识别语音帧序列;
输出子模块用于将所述待识别语音帧序列输入所述输出层,输出当前语音片段。
在本实施例中,调整模块303包括计算子模块和调整子模块,其中,计算子模块用于通过所述参数调整层计算所述当前语音片段对应的当前语速;调整子模块用于根据所述当前语速调整所述当前切分参数为下一时刻切分参数。
在一些可选的实现方式中,调整子模块进一步用于:
比较所述当前语速与预设语速,得到比较结果;
若比较结果落入预设范围内,将所述当前静默时长参数作为下一时刻切分参数;
若比较结果不在预设范围内,则根据所述当前语速调整所述当前静默时长参数,得到下一时刻切分参数。
本实施例可以根据用户语速动态调整切分参数,即对语音切分端点进行动态调整,避免用户语速过快的情况下,过早识别用户的语音内容,造成识别的不准确。
在一些可选的实现方式中,基于语速调整的语音切分装置还包括训练模块,用于:
构建初始语音切分模型;
获取训练样本集,其中,所述训练样本集标记有语音端点;
将所述训练样本集输入所述初始语音切分模型,输出切分结果;
根据所述切分结果对所述初始语音切分模型进行模型参数更新,直至模型收敛,得到语音切分模型。
本实施例中通过训练语音切分模型实现语音数据的切分,可以提升语音切分的准确性以及语音切分效率。
在本实施例的一些可选的实现方式中,获取模块还包括去噪子模块,用于对所述待处理语音数据进行去噪处理。
在本实施例中,通过对待处理语音数据进行去噪,可以提升后续语音切分的准确性。
在本实施例中,基于语速调整的语音切分装置还包括识别模块,用于:对所述目标语音片段进行语音识别处理,得到所述待处理语音数据对应的语音识别结果。
本实施例通过对目标语音片段进行语音识别,可以保证语音识别的准确度。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如基于语速调整的语音切分方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述基于语速调整的语音切分方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例基于语速调整的语音切分方法的步骤,通过根据语速调整语音切分模型的切分参数,基于调整的切分参数对待处理语音数据进行语音切分,即依据语音数据中前一段语音片段的语速情况,调整下一段语音片段切分的切分参数,可以实现针对用户语速动态修改语音切分端点,提高语音切分端点检测的准确性,进而提升语音识别的准确性。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的基于语速调整的语音切分方法的步骤,通过根据语速调整语音切分模型的切分参数,基于调整的切分参数对待处理语音数据进行语音切分,即依据语音数据中前一段语音片段的语速情况,调整下一段语音片段切分的切分参数,可以实现针对用户语速动态修改语音切分端点,提高语音切分端点检测的准确性,进而提升语音识别的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种基于语速调整的语音切分方法,其特征在于,包括下述步骤:
获取待处理语音数据,并对所述待处理语音数据进行分帧处理,得到语音帧;
将所述语音帧输入训练完成的语音切分模型,基于所述语音切分模型的当前切分参数对当前时刻的所述待处理语音数据进行语音切分,得到当前语音片段;
根据所述当前语音片段的语速调整所述当前切分参数,得到下一时刻切分参数;
基于所述下一时刻切分参数,通过所述语音切分模型对下一时刻的所述待处理语音数据进行语音切分,直到所述待处理语音数据切分完成,输出目标语音片段。
2.根据权利要求1所述的基于语速调整的语音切分方法,其特征在于,所述语音切分模型至少包括特征提取层、识别切分层和输出层,所述基于所述语音切分模型的当前切分参数对当前时刻的所述待处理语音数据进行语音切分,得到当前语音片段的步骤包括:
通过所述特征提取层提取当前时刻所述待处理语音数据的语音帧的语音特征;
将所述语音特征输出至所述识别切分层,基于所述当前切分参数和所述语音特征确定语音切分端点,根据所述语音切分端点生成待识别语音帧序列;
将所述待识别语音帧序列输入所述输出层,输出当前语音片段。
3.根据权利要求2所述的基于语速调整的语音切分方法,其特征在于,所述语音切分模型还包括参数调整层,所述根据所述当前语音片段的语速调整所述当前切分参数,得到下一时刻切分参数的步骤包括:
通过所述参数调整层计算所述当前语音片段对应的当前语速;
根据所述当前语速调整所述当前切分参数为下一时刻切分参数。
4.根据权利要求3所述的基于语速调整的语音切分方法,其特征在于,所述当前切分参数为当前静默时长参数,所述根据所述当前语速调整所述当前切分参数为下一时刻切分参数的步骤包括:
比较所述当前语速与预设语速,得到比较结果;
若比较结果落入预设范围内,将所述当前静默时长参数作为下一时刻切分参数;
若比较结果不在预设范围内,则根据所述当前语速调整所述当前静默时长参数,得到下一时刻切分参数。
5.根据权利要求1所述的基于语速调整的语音切分方法,其特征在于,在所述将所述语音帧输入训练完成的语音切分模型的步骤之前还包括:
构建初始语音切分模型;
获取训练样本集,其中,所述训练样本集标记有语音端点;
将所述训练样本集输入所述初始语音切分模型,输出切分结果;
根据所述切分结果对所述初始语音切分模型进行模型参数更新,直至模型收敛,得到语音切分模型。
6.根据权利要求1所述的基于语速调整的语音切分方法,其特征在于,在所述获取待处理语音数据的步骤之后还包括:
对所述待处理语音数据进行去噪处理。
7.根据权利要求1至6中任一项所述的基于语速调整的语音切分方法,其特征在于,所述基于所述下一时刻切分参数,通过所述语音切分模型对下一时刻的所述待处理语音数据进行语音切分,直到所述待处理语音数据切分完成,输出目标语音片段的步骤之后还包括:
对所述目标语音片段进行语音识别处理,得到所述待处理语音数据对应的语音识别结果。
8.一种基于语速调整的语音切分装置,其特征在于,包括:
获取模块,用于获取待处理语音数据,对所述待处理语音数据进行分帧处理,得到语音帧;
第一切分模块,用于将所述语音帧输入训练完成的语音切分模型,基于所述语音切分模型的当前切分参数对当前时刻的所述待处理语音数据进行语音切分,得到当前语音片段;
调整模块,用于根据所述当前语音片段的语速调整所述当前切分参数,得到下一时刻切分参数;
第二切分模块,用于基于所述下一时刻切分参数,通过所述语音切分模型对下一时刻的所述待处理语音数据进行语音切分,直到所述待处理语音数据切分完成,输出目标语音片段。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于语速调整的语音切分方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于语速调整的语音切分方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210551746.6A CN114783423A (zh) | 2022-05-18 | 2022-05-18 | 基于语速调整的语音切分方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210551746.6A CN114783423A (zh) | 2022-05-18 | 2022-05-18 | 基于语速调整的语音切分方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114783423A true CN114783423A (zh) | 2022-07-22 |
Family
ID=82407876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210551746.6A Pending CN114783423A (zh) | 2022-05-18 | 2022-05-18 | 基于语速调整的语音切分方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114783423A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975949A (zh) * | 2024-03-28 | 2024-05-03 | 杭州威灿科技有限公司 | 基于语音转换的事件记录方法、装置、设备及介质 |
-
2022
- 2022-05-18 CN CN202210551746.6A patent/CN114783423A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117975949A (zh) * | 2024-03-28 | 2024-05-03 | 杭州威灿科技有限公司 | 基于语音转换的事件记录方法、装置、设备及介质 |
CN117975949B (zh) * | 2024-03-28 | 2024-06-07 | 杭州威灿科技有限公司 | 基于语音转换的事件记录方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112562691B (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
US20190164535A1 (en) | Method and apparatus for speech synthesis | |
CN110706690A (zh) | 语音识别方法及其装置 | |
CN112786008B (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN112259089B (zh) | 语音识别方法及装置 | |
CN111402891A (zh) | 语音识别方法、装置、设备和存储介质 | |
CN112466314A (zh) | 情感语音数据转换方法、装置、计算机设备及存储介质 | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN113314150A (zh) | 基于语音数据的情绪识别方法、装置及存储介质 | |
CN112671985A (zh) | 基于深度学习的坐席质检方法、装置、设备及存储介质 | |
CN111933154A (zh) | 一种伪冒语音的识别方法、设备及计算机可读存储介质 | |
CN115312033A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN110827799B (zh) | 用于处理语音信号的方法、装置、设备和介质 | |
CN115438149A (zh) | 一种端到端模型训练方法、装置、计算机设备及存储介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN113436633B (zh) | 说话人识别方法、装置、计算机设备及存储介质 | |
CN114783423A (zh) | 基于语速调整的语音切分方法、装置、计算机设备及介质 | |
CN111899718B (zh) | 用于识别合成语音的方法、装置、设备和介质 | |
CN113421584A (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 | |
CN113421554B (zh) | 语音关键词检测模型处理方法、装置及计算机设备 | |
CN113555005B (zh) | 模型训练、置信度确定方法及装置、电子设备、存储介质 | |
CN114399992B (zh) | 语音指令响应方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |