CN113345425A - 一种智能饮水机的远场语音识别模型训练方法 - Google Patents
一种智能饮水机的远场语音识别模型训练方法 Download PDFInfo
- Publication number
- CN113345425A CN113345425A CN202110609666.7A CN202110609666A CN113345425A CN 113345425 A CN113345425 A CN 113345425A CN 202110609666 A CN202110609666 A CN 202110609666A CN 113345425 A CN113345425 A CN 113345425A
- Authority
- CN
- China
- Prior art keywords
- field
- far
- voice
- speech
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012549 training Methods 0.000 title claims abstract description 90
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004088 simulation Methods 0.000 claims abstract description 130
- 238000012545 processing Methods 0.000 claims abstract description 18
- 239000012634 fragment Substances 0.000 claims description 41
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 10
- 230000007613 environmental effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明提供了一种智能饮水机的远场语音识别模型训练方法,包括:获取近场语音;近场语音中抽取目标数量的近场语音作为目标语音,并将目标语音采用多通道模式进行远场语音模拟,得到远场模拟语音;对远场模拟语音按照拆分标准进行拆分处理,获得多个第一拆分远场模拟语音;对远场模拟语音按照不同的参数标准进行语音处理,获得多个第二处理远场模拟语音;将第一拆分远场模拟语音和第二处理远场模拟语音作为训练数据,通过智能饮水机中的远场语音识别模型对训练数据进行识别。本发明提出智能饮水机的远场语音识别模型训练方法,丰富了训练数据,提升了远场语音识别模型的泛化能力,提高了语音识别准确率。
Description
技术领域
本发明涉及语音信号处理技术领域,特别涉及一种智能饮水机的远场语音识别模型训练方法。
背景技术
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。随着人工智能技术的快速发展,人们越来越致力于将人工智能技术运用到生活中的方方面面,希望生活中需要人为操作的机器能够听懂人类的语言,并能够通过语音实现对机器的控制。
在目前现有的技术方案中,机器在对语音进行识别实现控制时,近场语音识别已经能够达到很高的识别率,但是远场语音在识别时,由于远场语音识别对环境的依赖性较强,远距离语音带来的环境噪声影响使得远场语音识别模型识别的准确性大大下降,因此,本发明以智能饮水机为例,提出一种智能饮水机的远场语音识别模型训练方法,以解决现有技术方案中远场语音识别时识别准确性低的问题。
发明内容
本发明的目的在于提供一种智能饮水机的远场语音识别模型训练方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种智能饮水机的远场语音识别模型训练方法,包括:
获取近场语音;
在所述近场语音中抽取目标数量的近场语音作为目标语音,并将所述目标语音采用多通道模式进行远场语音模拟,得到远场模拟语音;
对所述远场模拟语音按照拆分标准进行拆分处理,获得多个第一拆分远场模拟语音;
对所述远场模拟语音按照不同的参数标准进行语音处理,获得多个第二处理远场模拟语音;
将所述第一拆分远场模拟语音和所述第二处理远场模拟语音作为训练数据,通过智能饮水机中的远场语音识别模型对所述训练数据进行识别。
优选的,在所述近场语音中抽取目标数量的近场语音作为目标语音时,先将所述近场语音进行标注,然后针对标注信息进行随机抽取。
优选的,在将所述目标语音采用多通道模式进行远场语音模拟的过程中,针对所述目标语音进行多次远场语音模拟,并且在每次远场语音模拟时对模拟的场景因素采用单一控制变量法进行改变,所述场景因素包括:声源与智能饮水机之间的距离、声源的声音大小和环境干扰声音状况。
优选的,所述获取近场语音时,不仅要获取近场语音,还要将关于近场语音的识别结果一并进行获取。
优选的,在通过智能饮水机中的远场语音识别模型对所述训练数据进行识别之后,根据所述关于近场语音的识别结果对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断,判断所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差。
优选的,所述根据所述关于近场语音的识别结果对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断,包括:
将通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果记为Y,则具体表示为:
Y={yi}
其中,yi表示通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果中i属性的结果数据子集;
根据下述公式把通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果与关于近场语音的识别结果进行对比得到所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差;
上述公式中,α表示所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差,H表示所述关于近场语音的识别结果,D表示集合大小计量函数,sgn表示函数,L表示识别结果包含的数据属性数目,hi表示所述关于近场语音的识别结果i属性的结果数据子集。
优选的,对所述远场模拟语音按照拆分标准进行拆分处理,包括:按照通道进行拆分和按照语音帧进行拆分;所述按照通道进行拆分是将所述远场模拟语音按照得到远场模拟语音时采集语音的通道拆分为多个远场模拟通道语音;所述按照语音帧进行拆分是将所述远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段。
优选的,将所述远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段,包括:
确定所述远场模拟通道语音的语音帧,并将所述远场模拟通道语音记为W0,其以矩阵的形式表示如下:
W0=[w0(n)],n=1,2,……,N
即:
W0=[w0(n)]=[w0(1)w0(2)…w0(N)]
其中,w(n)表示远场模拟通道语音中第n帧语音信息,N表示远场模拟通道语音的长度;
设置对所述远场模拟通道语音进行拆分的片段长度;
根据所述片段长度对所述远场模拟通道语音进行判断,当所述远场模拟通道语音的长度小于或者等于所述片段长度时,将所述远场模拟通道语音直接作为最后一段远场模拟通道语音片段,当所述远场模拟通道语音的长度大于所述片段长度时,根据下述公式针对所述远场模拟通道语音进行拆分;
上述公式中,R0表示由远场模拟通道语音拆分出来的第一段远场模拟通道语音片段,d0表示片段长度,MID(W,a,d)表示在所述远场模拟通道语音W中从第a语音帧开始将前d0帧拆分提取,在此a的取值为1;
针对片段长度以及远场模拟通道语音进行更新,再根据更新后的片段长度对更新后的远场模拟通道语音进行判断,如果更新后的远场模拟通道语音的长度大于更新后的片段长度,则继续针对更新后的远场模拟通道语音进行拆分,并对更新后的片段长度和更新后的远场模拟通道语音进行再次更新,直至更新后的远场模拟语音的长度小于或者等于更新后的片段长度;
其中,针对更新后的片段长度对更新后的远场模拟通道语音进行判断时根据如下公式进行确定:
上述公式中,Rj表示由第j次更新后远场模拟通道语音拆分出来的第一段远场模拟通道语音片段,dj表示第j次更新后的片段长度,Uj表示第j次更新后远场模拟通道语音,其具体表示为:
优选的,所述针对片段长度以及远场模拟通道语音进行更新时,将远场模拟通道语音去掉拆分出来的与片段长度等长的远场模拟通道语音即可得到更新后的远场模拟通道语音,在对片段长度进行更新时,更新后的片段长度与更新前的片段长度之间的差值始终保持相等。
优选的,对所述远场模拟语音按照不同的参数标准进行语音处理,包括:
针对所述远场模拟语音进行语音检测,判断所述远场模拟语音的末尾静音区间长度,根据所述远场模拟语音的末尾静音区间长度对所述远场模拟语音进行静音扩充,得到多个第一处理远场模拟语音,使得所述第一处理远场模拟语音的末尾静音区间各不相同;
针对所述第一处理远场模拟语音进行噪声参数调整,在进行噪声参数调整过程针对不同的噪声参数值均获得一个第二处理远场模拟语音,从而得到多个第二处理远场模拟语音。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的语音分离方法的步骤示意图;
图2为本发明所述的语音分离方法的步骤三中按照语音帧拆分处理的流程示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种智能饮水机的远场语音识别模型训练方法,包括:
步骤一、获取近场语音;
步骤二、在所述近场语音中抽取目标数量的近场语音作为目标语音,并将所述目标语音采用多通道模式进行远场语音模拟,得到远场模拟语音;
步骤三、对所述远场模拟语音按照拆分标准进行拆分处理,获得多个第一拆分远场模拟语音;
步骤四、对所述远场模拟语音按照不同的参数标准进行语音处理,获得多个第二处理远场模拟语音;
步骤五、将所述第一拆分远场模拟语音和所述第二处理远场模拟语音作为训练数据,通过智能饮水机中的远场语音识别模型对所述训练数据进行识别。
上述技术方案的原理及有益效果:
上述技术方案在对远场语音识别模型进行训练时,首先,获取近场语音;然后,在近场语音中抽取目标数量的近场语音作为目标语音,将抽取的近场语音依次进行远场语音模拟,把目标语音放置到近场范围外的区域内进行播放,由智能饮水机中的语音采集装置进行远场语音采集,获得远场模拟语音,并且,智能饮水机中的语音采集装置采用的是多通道;接着,对远场模拟语音进行拆分,将远场语音模拟数据拆分成语音片段,得到多个第一拆分远场模拟语音;同时还将远场模拟语音按照不同的参数标准进行语音处理,使得远场模拟语音数据具有不同程度的处理状态,进而得到多个第二处理远场模拟语音;最后,将第一拆分远场模拟语音和第二处理远场模拟语音作为训练数据,对智能饮水机中的远场语音识别模型进行识别训练。
上述技术方案通过将抽取的近场语音采用多通道模式进行远场语音模拟,由于近场语音在识别时具有较高的准确性,能够为远场模拟语音通过远场语音识别模型进行识别提供参考依据,并且针对远场模拟语音进行拆分以及不同的语音处理能够丰富训练数据,使得训练数据包括各种不同的情况,进而提升远场语音识别模型的泛化能力,提高语音识别准确率。
本发明提供的一个实施例中,在所述近场语音中抽取目标数量的近场语音作为目标语音时,先将所述近场语音进行标注,然后针对标注信息进行随机抽取。
上述技术方案的原理及有益效果:
上述技术方案在抽取近场语音时,先将获取的近场语音进行标注,使得近场语音具有唯一的标注信息,其中,标注信息仅仅是与近场语音只是对应代表的关系,不体现关于近场语音的详细信息,然后根据标注信息进行随机选择,选择目标数量的近场语音作为目标语音,这是的目标数量可以根据需求进行调整与设置。
上述技术方案通过对获取的近场语音进行标注使得下抽取时每条近场语音被抽到的可能性都是相等的,避免挑选特殊特征的近场语音去得到训练数据,使得训练数据具有多样性,进而避免远场语音识别模型通过特定训练数据进行训练,从而避免远场语音识别模型只对特定性质的远场语音准确识别,进而扩大远场语音识别模型准确识别的范围。
本发明提供的一个实施例中,在将所述目标语音采用多通道模式进行远场语音模拟的过程中,针对所述目标语音进行多次远场语音模拟,并且在每次远场语音模拟时对模拟的场景因素采用单一控制变量法进行改变,所述场景因素包括:声源与智能饮水机之间的距离、声源的声音大小和环境干扰声音状况。
上述技术方案的原理及有益效果:
上述技术方案在针对抽取的近场语音进行远场语音模拟时,使得智能饮水机中的语音采集装置采用多通道模式进行远场语音采集,并且进行远场语音模拟时,依次对模拟的场景音素采用单一控制变量法进行变化,将目标语音放置到与智能饮水机中语音采集装置一定远的位置播放近场语音,使得通过智能饮水机中语音采集装置获得远场语音,在此过程中,针对目标语音播放位置以及播放的声音,还有环境干扰声音等模拟场景音素进行单一控制变量法进行调控,例如:将目标语音播放位置以及环境干扰声音保持不变,阶梯式控制近场语音播放的声音大小,并且在控制时间目标语音播放的声音按照等差序列进行调整,使得每次调整的声音大小差值相等;将目标语音播放的声音的大小以及环境干扰声音保持不变,调整目标语音播放位置,对目标语音播放位置与智能饮水机中语音采集装置之间的距离按照固定值进行逐渐调整;将目标语音播放位置以及目标语音播放的声音大小保持不变,针对环境干扰声音进行人为调整。
上述技术方案通过将目标语音进行多次远场语音模拟从而获得大量的远场模拟语音,并且在进行远场语音模拟时,对模拟的场景因素采用单一控制变量法进行改变,从而获得多种状态下的远场语音模拟数据,使得训练数据中包括多种不同的状况,进而有效提高了远场语音识别模型的泛化能力,提高远场语音识别模型的识别准确率。
本发明提供的一个实施例中,所述获取近场语音时,不仅要获取近场语音,还要将关于近场语音的识别结果一并进行获取。
上述技术方案的原理及有益效果:
上述技术方案在获取近场语音时,还将关于近场语音的识别结果一同进行获取,并且在获得的近场语音中近场语音与关于近场语音的识别结果一一对应获取。
上述技术方案在获取近场语音的同时还将关于近场语音的识别结果一同获取,为远场识别模型提供一个参考依据,方便对远场语音识别模型训练过程进行评价,并且在获取的近场语音中,近场语音与关于近场语音的识别结果一一对应能够避免数据混乱,从而避免出现对比错误。
本发明提供的一个实施例中,在通过智能饮水机中的远场语音识别模型对所述训练数据进行识别之后,根据所述关于近场语音的识别结果对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断,判断所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差。
上述技术方案的原理及有益效果:
上述技术方案在通过智能饮水机中的远场语音识别模型对所述训练数据进行识别之后还针对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断,将通过远场语音识别模型对训练数据识别得到的识别结果与获取近场语音时同时获取的关于近场语音的识别结果进行比较判断,进而得到关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差。
上述技术方案将通过远场语音识别模型对训练数据识别得到的识别结果与关于近场语音的识别结果进行比较判断使得清楚了解远场语音识别模型对训练数据识别的识别率,反映远场语音识别模型的准确程度,使得清楚提现远场语音识别模型的准确率。
本发明提供的一个实施例中,所述根据所述关于近场语音的识别结果对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断,包括:
将通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果记为Y,则具体表示为:
Y={yi}
其中,yi表示通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果中i属性的结果数据子集;
根据下述公式把通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果与关于近场语音的识别结果进行对比得到所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差;
上述公式中,α表示所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差,H表示所述关于近场语音的识别结果,D表示集合大小计量函数,sgn表示函数,L表示识别结果包含的数据属性数目,hi表示所述关于近场语音的识别结果i属性的结果数据子集。
上述技术方案的原理及有益效果:
上述技术方案根据关于近场语音的识别结果对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断时,首先确定通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果,然后再将通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果与关于近场语音的识别结果按照公式:的原理进行对比判断,从而得到关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差。
上述技术方案通过将通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果与关于近场语音的识别结果进行对比获得关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差,反映远场语音识别模型对训练数据识别的准确性,而且在进行对比判断时将关于训练数据的识别结果与关于训练数据的识别结果以集合数据的形式进行对比,不仅能够提高对比判断的效率,而且准确性还高。并且在以集合数据的形式进行判断时,由于集合元素之间的无序性属性避免因识别结果中因属性结果数据的位置不同导致无法对比判断状况的发生,从而确保关于训练数据的识别结果与关于训练数据的识别结果以集合数据的形式之间对比的顺利实现。
本发明提供的一个实施例中,对所述远场模拟语音按照拆分标准进行拆分处理,包括:按照通道进行拆分和按照语音帧进行拆分;所述按照通道进行拆分是将所述远场模拟语音按照得到远场模拟语音时采集语音的通道拆分为多个远场模拟通道语音;所述按照语音帧进行拆分是将所述远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段。
上述技术方案的原理及有益效果:
上述技术方案对远场模拟语音按照拆分标准进行拆分处理时其过程包括两次拆分处理,一是按照智能饮水机中语音采集装置进行语音采集时采用的通道信息进行拆分,将采集到的多通道模式下的远场模拟语音拆分成单通道状态下的远场模拟语音,得到多个远场模拟通道语音;二是针对远场模拟通道语音按照语音帧进行拆分,将远场模拟通道语音拆分成多个远场模拟通道语音片段。
上述技术方案通过针对远场模拟语音进行拆分使得的训练数据中包含多种不同状况下的远场语音,从而丰富训练数据,进而扩大远场语音识别模型准确进行远场语音识别的适用范围,提高远场语音识别模型对远场语音识别的准确率。
本发明提供的一个实施例中,将所述远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段,包括:
确定所述远场模拟通道语音的语音帧,并将所述远场模拟通道语音记为W0,其以矩阵的形式表示如下:
W0=[w0(n)],n=1,2,……,N
即:
W0=[w0(n)]=[w0(1)w0(2)…w0(N)]
其中,w(n)表示远场模拟通道语音中第n帧语音信息,N表示远场模拟通道语音的长度;
设置对所述远场模拟通道语音进行拆分的片段长度;
根据所述片段长度对所述远场模拟通道语音进行判断,当所述远场模拟通道语音的长度小于或者等于所述片段长度时,将所述远场模拟通道语音直接作为最后一段远场模拟通道语音片段,当所述远场模拟通道语音的长度大于所述片段长度时,根据下述公式针对所述远场模拟通道语音进行拆分;
上述公式中,R0表示由远场模拟通道语音拆分出来的第一段远场模拟通道语音片段,d0表示片段长度,MID(W,a,d)表示在所述远场模拟通道语音W中从第a语音帧开始将前d0帧拆分提取,在此a的取值为1;
针对片段长度以及远场模拟通道语音进行更新,再根据更新后的片段长度对更新后的远场模拟通道语音进行判断,如果更新后的远场模拟通道语音的长度大于更新后的片段长度,则继续针对更新后的远场模拟通道语音进行拆分,并对更新后的片段长度和更新后的远场模拟通道语音进行再次更新,直至更新后的远场模拟语音的长度小于或者等于更新后的片段长度;
其中,针对更新后的片段长度对更新后的远场模拟通道语音进行判断时根据如下公式进行确定:
上述公式中,Rj表示由第j次更新后远场模拟通道语音拆分出来的第一段远场模拟通道语音片段,dj表示第j次更新后的片段长度,Uj表示第j次更新后远场模拟通道语音,其具体表示为:
上述技术方案的原理及有益效果:
如图2所示,上述技术方案在将远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段时,按照如下步骤实现:
S1、确定远场模拟通道语音的语音帧;
S2、设置对远场模拟通道语音进行拆分的片段长度,针对对远场模拟通道语音进行拆分的初始片段长度进行设置;
S3、根据片段长度判断远场模拟通道语音是否满足片段长度,得到判断结果;
S4、如果判断结果是不满足,则将远场模拟通道语音直接作为远场模拟通道语音片段;如果判断结果是满足,则将远场模拟通道语音按照片段长度进行拆分,得到符合片段长度的远场模拟通道语音片段,并针对片段长度以及远场模拟通道语音进行更新,并重新执行S3,直至判断结果是不满足。
上述技术方案通过对片段长度以及远场模拟通道语音进行更新使得只需设置对远场模拟通道语音进行拆分的片段长度就能够将远场模拟通道语音拆分成远场模拟通道语音片段,而且得到的远场模拟通道语音片段中包含的语音帧数还是不同的,进而使得训练数据中包含不同长度的语音,从而达到丰富训练数据的目的。
本发明提供的一个实施例中,所述针对片段长度以及远场模拟通道语音进行更新时,将远场模拟通道语音去掉拆分出来的与片段长度等长的远场模拟通道语音即可得到更新后的远场模拟通道语音,在对片段长度进行更新时,更新后的片段长度与更新前的片段长度之间的差值始终保持相等。
上述技术方案的原理及有益效果:
上述技术方案在对片段长度以及远场模拟通道语音进行更新时,包括对片段长度的更新和对远场模拟通道语音的更新,在对片段长度进行更新时,首次的片段长度是手动设定的,然后接下来更新后的片段长度都是更新前的片段长度加上预设差值;在对远场模拟通道语音进行更新时,在更新前的远场模拟通道语音将根据片段长度拆分得到的远场模拟通道语音片段去除即可得到更新后的远场模拟通道语音。
上述技术方案通过对片段长度进行更新使得拆分出来的远场模拟通道语音片段的长度呈等差序列,从而使得训练数据中包含不同长度的语音,丰富了训练数据,而且对远场模拟通道语音进行更新能够使得将远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段的过程更加简化,降低因无关数据信息赘余出错的概率。
本发明提供的一个实施例中,对所述远场模拟语音按照不同的参数标准进行语音处理,包括:
针对所述远场模拟语音进行语音检测,判断所述远场模拟语音的末尾静音区间长度,根据所述远场模拟语音的末尾静音区间长度对所述远场模拟语音进行静音扩充,得到多个第一处理远场模拟语音,使得所述第一处理远场模拟语音的末尾静音区间各不相同;
针对所述第一处理远场模拟语音进行噪声参数调整,在进行噪声参数调整过程针对不同的噪声参数值均获得一个第二处理远场模拟语音,从而得到多个第二处理远场模拟语音。
上述技术方案的原理及有益效果:
上述技术方案在对远场模拟语音按照不同的参数标准进行语音处理时,包括末尾静音区间长度处理和噪声参数调整处理。其中,末尾静音区间长度处理时,首先要对远场模拟语音进行检测,检测远场模拟语音的末尾静音区间长度,然后对远场模拟语音进行静音扩充,将远场模拟语音的末尾静音区间长度扩充成不同的长度,得到多个第一处理远场模拟语音;噪声参数调整处理时,将第一处理远场模拟语音按照不同的噪声参数进行降噪,使得第一处理远场模拟语音具有不同的降噪比,经过不同噪声参数进行处理后得到多个第二处理远场模拟语音。
上述技术方案通过进行末尾静音区间长度处理使得训练数据中包含有不同末尾静音区间长度的相同语音,而不同末尾静音区间长度的相同语音在被识别时对远场语音识别模型性能上的要求不同,从而提高远场语音识别模型的性能,扩大远场语音识别模型能够准确识别的范围。通过噪声参数调整处理使得训练数据中包含不同噪声影响程度的语音,使得训练后的远场语音识别模型能够识别不同噪声环境下的远场语音,提高远场语音识别模型的识别准确性。
本领域技术人员应当理解的是,本发明中的第一、第二仅仅指的是不同应用阶段而已。
本领域技术客户员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种智能饮水机的远场语音识别模型训练方法,其特征在于,包括:
获取近场语音;
在所述近场语音中抽取目标数量的近场语音作为目标语音,并将所述目标语音采用多通道模式进行远场语音模拟,得到远场模拟语音;
对所述远场模拟语音按照拆分标准进行拆分处理,获得多个第一拆分远场模拟语音;
对所述远场模拟语音按照不同的参数标准进行语音处理,获得多个第二处理远场模拟语音;
将所述第一拆分远场模拟语音和所述第二处理远场模拟语音作为训练数据,通过智能饮水机中的远场语音识别模型对所述训练数据进行识别。
2.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,在所述近场语音中抽取目标数量的近场语音作为目标语音时,先将所述近场语音进行标注,然后针对标注信息进行随机抽取。
3.根据权利要求1所述的场语音识别模型训练方法,其特征在于,在将所述目标语音采用多通道模式进行远场语音模拟的过程中,针对所述目标语音进行多次远场语音模拟,并且在每次远场语音模拟时对模拟的场景因素采用单一控制变量法进行改变,所述场景因素包括:声源与智能饮水机之间的距离、声源的声音大小和环境干扰声音状况。
4.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,所述获取近场语音时,不仅要获取近场语音,还要将关于近场语音的识别结果一并进行获取。
5.根据权利要求4所述的远场语音识别模型训练方法,其特征在于,在通过智能饮水机中的远场语音识别模型对所述训练数据进行识别之后,根据所述关于近场语音的识别结果对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断,判断所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差。
6.根据权利要求5所述的远场语音识别模型训练方法,其特征在于,所述根据所述关于近场语音的识别结果对通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果进行判断,包括:
将通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果记为Y,则具体表示为:
Y={yi}
其中,yi表示通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果中i属性的结果数据子集;
根据下述公式把通过智能饮水机中的远场语音识别模型得到的关于训练数据的识别结果与关于近场语音的识别结果进行对比得到所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差;
上述公式中,α表示所述关于近场语音的识别结果与关于训练数据的识别结果之间的识别误差,H表示所述关于近场语音的识别结果,D表示集合大小计量函数,sgn表示函数,L表示识别结果包含的数据属性数目,hi表示所述关于近场语音的识别结果i属性的结果数据子集。
7.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,对所述远场模拟语音按照拆分标准进行拆分处理,包括:按照通道进行拆分和按照语音帧进行拆分;所述按照通道进行拆分是将所述远场模拟语音按照得到远场模拟语音时采集语音的通道拆分为多个远场模拟通道语音;所述按照语音帧进行拆分是将所述远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段。
8.根据权利要求7所述的远场语音识别模型训练方法,其特征在于,将所述远场模拟通道语音按照视频帧拆分成多个远场模拟通道语音片段,包括:
确定所述远场模拟通道语音的语音帧,并将所述远场模拟通道语音记为W0,其以矩阵的形式表示如下:
W0=[w0(n)],n=1,2,……,N
即:
W0=[w0(n)]=[w0(1) w0(2) … w0(N)]
其中,w(n)表示远场模拟通道语音中第n帧语音信息,N表示远场模拟通道语音的长度;
设置对所述远场模拟通道语音进行拆分的片段长度;
根据所述片段长度对所述远场模拟通道语音进行判断,当所述远场模拟通道语音的长度小于或者等于所述片段长度时,将所述远场模拟通道语音直接作为最后一段远场模拟通道语音片段,当所述远场模拟通道语音的长度大于所述片段长度时,根据下述公式针对所述远场模拟通道语音进行拆分;
上述公式中,R0表示由远场模拟通道语音拆分出来的第一段远场模拟通道语音片段,d0表示片段长度,MID(W,a,d)表示在所述远场模拟通道语音W中从第a语音帧开始将前d0帧拆分提取,在此a的取值为1;
针对片段长度以及远场模拟通道语音进行更新,再根据更新后的片段长度对更新后的远场模拟通道语音进行判断,如果更新后的远场模拟通道语音的长度大于更新后的片段长度,则继续针对更新后的远场模拟通道语音进行拆分,并对更新后的片段长度和更新后的远场模拟通道语音进行再次更新,直至更新后的远场模拟语音的长度小于或者等于更新后的片段长度;
其中,针对更新后的片段长度对更新后的远场模拟通道语音进行判断时根据如下公式进行确定:
上述公式中,Rj表示由第j次更新后远场模拟通道语音拆分出来的第一段远场模拟通道语音片段,dj表示第j次更新后的片段长度,Uj表示第j次更新后远场模拟通道语音,其具体表示为:
9.根据权利要求8所述的远场语音识别模型训练方法,其特征在于,所述针对片段长度以及远场模拟通道语音进行更新时,将远场模拟通道语音去掉拆分出来的与片段长度等长的远场模拟通道语音即可得到更新后的远场模拟通道语音,在对片段长度进行更新时,更新后的片段长度与更新前的片段长度之间的差值始终保持相等。
10.根据权利要求1所述的远场语音识别模型训练方法,其特征在于,对所述远场模拟语音按照不同的参数标准进行语音处理,包括:
针对所述远场模拟语音进行语音检测,判断所述远场模拟语音的末尾静音区间长度,根据所述远场模拟语音的末尾静音区间长度对所述远场模拟语音进行静音扩充,得到多个第一处理远场模拟语音,使得所述第一处理远场模拟语音的末尾静音区间各不相同;
针对所述第一处理远场模拟语音进行噪声参数调整,在进行噪声参数调整过程针对不同的噪声参数值均获得一个第二处理远场模拟语音,从而得到多个第二处理远场模拟语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609666.7A CN113345425A (zh) | 2021-06-01 | 2021-06-01 | 一种智能饮水机的远场语音识别模型训练方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110609666.7A CN113345425A (zh) | 2021-06-01 | 2021-06-01 | 一种智能饮水机的远场语音识别模型训练方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113345425A true CN113345425A (zh) | 2021-09-03 |
Family
ID=77472762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110609666.7A Withdrawn CN113345425A (zh) | 2021-06-01 | 2021-06-01 | 一种智能饮水机的远场语音识别模型训练方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113345425A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115414666A (zh) * | 2022-11-03 | 2022-12-02 | 深圳市人马互动科技有限公司 | 基于成语接龙游戏的语音数据处理方法及相关装置 |
-
2021
- 2021-06-01 CN CN202110609666.7A patent/CN113345425A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115414666A (zh) * | 2022-11-03 | 2022-12-02 | 深圳市人马互动科技有限公司 | 基于成语接龙游戏的语音数据处理方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10699697B2 (en) | Knowledge transfer in permutation invariant training for single-channel multi-talker speech recognition | |
US20200402497A1 (en) | Systems and Methods for Speech Generation | |
CN105405439B (zh) | 语音播放方法及装置 | |
CN110459240A (zh) | 基于卷积神经网络和深度聚类的多说话人语音分离方法 | |
CN100411011C (zh) | 用于语言学习机的发音质量评价方法 | |
CN101710490A (zh) | 语音评测的噪声补偿方法及装置 | |
Mishra et al. | Robust features for connected Hindi digits recognition | |
CN111179917B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
CN109616105A (zh) | 一种基于迁移学习的带噪语音识别方法 | |
CN110544481B (zh) | 一种基于声纹识别的s-t分类方法、装置及设备终端 | |
US9437187B2 (en) | Voice search device, voice search method, and non-transitory recording medium | |
CN108962229A (zh) | 一种基于单通道、无监督式的目标说话人语音提取方法 | |
CN101436405A (zh) | 说话人识别方法和系统 | |
CN109036471A (zh) | 语音端点检测方法及设备 | |
CN111951796A (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN112270933A (zh) | 一种音频识别方法和装置 | |
CN113345425A (zh) | 一种智能饮水机的远场语音识别模型训练方法 | |
CN109461447B (zh) | 一种基于深度学习的端到端说话人分割方法及系统 | |
CN111785256A (zh) | 声学模型训练方法、装置、电子设备及存储介质 | |
CN102237082A (zh) | 语音识别系统的自适应方法 | |
CN111933121A (zh) | 一种声学模型训练方法及装置 | |
Son et al. | Speech rate control for improving elderly speech recognition of smart devices | |
CN106971731B (zh) | 一种声纹识别的修正方法 | |
CN112233655B (zh) | 一种提高语音命令词识别性能的神经网络训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210903 |