CN115497466A - 一种基于机器学习的饱和潜水氦语音解读方法 - Google Patents
一种基于机器学习的饱和潜水氦语音解读方法 Download PDFInfo
- Publication number
- CN115497466A CN115497466A CN202211133239.7A CN202211133239A CN115497466A CN 115497466 A CN115497466 A CN 115497466A CN 202211133239 A CN202211133239 A CN 202211133239A CN 115497466 A CN115497466 A CN 115497466A
- Authority
- CN
- China
- Prior art keywords
- helium
- speech
- machine learning
- corpus
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 239000001307 helium Substances 0.000 title claims abstract description 164
- 229910052734 helium Inorganic materials 0.000 title claims abstract description 164
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 title claims abstract description 158
- 238000010801 machine learning Methods 0.000 title claims abstract description 88
- 230000009189 diving Effects 0.000 title claims abstract description 75
- 229920006395 saturated elastomer Polymers 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000013526 transfer learning Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000002360 preparation method Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 19
- KFVPJMZRRXCXAO-UHFFFAOYSA-N [He].[O] Chemical compound [He].[O] KFVPJMZRRXCXAO-UHFFFAOYSA-N 0.000 claims description 17
- 238000009432 framing Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 5
- OQCFWECOQNPQCG-UHFFFAOYSA-N 1,3,4,8-tetrahydropyrimido[4,5-c]oxazin-7-one Chemical compound C1CONC2=C1C=NC(=O)N2 OQCFWECOQNPQCG-UHFFFAOYSA-N 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 9
- 238000004904 shortening Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- GWUAFYNDGVNXRS-UHFFFAOYSA-N helium;molecular oxygen Chemical compound [He].O=O GWUAFYNDGVNXRS-UHFFFAOYSA-N 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 101100533306 Mus musculus Setx gene Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
基于机器学习的饱和潜水氦语音解读方法,在包括至少一个潜水员和一个氦语音解读器的系统中,建立潜水员工作语言音素库和常用工作用语词库,由潜水员朗读生成正常音素语料库、工作词汇语料库、音素氦语音语料库和工作词汇氦语音语料库,氦语音解读器利用其机器学习网络及其学习算法进行氦语音特征学习和语义学习,对数字化处理后潜水员氦语音进行解读,并不断更新机器学习网络的训练数据库,完成氦语音的解读。本发明利用机器学习的自适应迁移学习能力,不断扩大或更新训练数据库,解决了氦语音样本小的问题,提升了氦语音解读性能,使得氦语音解读器能够自适应饱和潜水作业深度变化和作业潜水员变化,实现了氦语音的完备解读。
Description
技术领域
本发明涉及氦语音解读技术,更为具体地说涉及一种基于机器学习的饱和潜水氦语音解读方法及系统。
背景技术
21世纪是海洋经济时代。据初步估计,人类将从海洋中获取超过50%的人类所需能源和生产资料。饱和潜水在航海作业、海洋开发、军事海洋、海上救援等领域有着越来越重要的作用价值,是海洋经济发展不可或缺的组成部分。
海洋活动离不开饱和潜水作业。由于深海作业环境和作业内容的特殊性,海洋作业中许多工作还不能由载人深潜器或水下机器人去完成,需要潜水员直接下水、暴露在深海高压环境下直接作业,潜水作业具有潜水员生理心理压力大、工作环境复杂、作业时间较长等特点。对于大深度的潜水作业,潜水员必须采用饱和潜水作业技术进行作业。
由于深海作业环境和作业内容的特殊性,海洋中的许多工作还不能由载人深海潜水器或水下机器人去完成,需要潜水员直接下水、暴露在深海高压环境下应用饱和潜水技术进行作业。饱和潜水是一种特殊技术。在饱和潜水作业过程中,由于生理原因,潜水员需要呼吸氦氧混合气体。氦氧气体与常规的空气有着完全不同的物理特性,对潜水员的声腔发音影响甚大,高压氦氧气体环境下潜水员的发音会产生严重的失真,正常的语音变成奇异的“鸭叫”——氦语音。如果不采用特殊技术解读氦语音,则根本无法听懂潜水员的话音。这会造成饱和潜水作业通信联系困难,直接影响到饱和潜水作业,甚至饱和潜水员的生命安全。因此,迫切需要解决饱和潜水的氦语音问题。
目前,国内外现有的饱和潜水氦语音解读器大多数是通过潜水舱中的氦语音解读器,人工调整解读器的频域或时域特性对氦语音进行解读的,无法自适应饱和潜水作业深度的变化,并且氦语音解读效果不理想。当潜水深度大于200米后,氦语音解读器解读质量迅速下降,特别当潜水员的潜水深度变化时,无法有效解读氦语音。基于人工智能的饱和潜水氦语音解读技术目前国内外都处于起步阶段,对于小样本的机器学习解读效果不佳。如何充分利用机器学习的自适应迁移学习能力,设计一个能够自适应饱和潜水作业深度变化和作业潜水员(氦语音声源)变化的氦语音解读器,是一个尚未解决的技术难题。
发明内容
本发明的目的在于解决上述背景技术中的难题,提出一种基于机器学习的饱和潜水氦语音解读方法,该方法利用了机器学习的自适应迁移学习能力,将小样本的训练数据库在氦语音解读过程中逐渐变成一个海量样本训练数据库,实现了氦语音解读器自适应饱和潜水作业深度变化和作业潜水员(氦语音声源)变化的目的。
本发明方法实现思路如下:首先选择合适的神经网络作为氦语音解读器的机器学习网络,根据饱和潜水作业工作语言和规范要求构建潜水员工作语言音素库和工作用语词库;其次,由潜水员分别在正常大气压环境下和饱和潜水作业准备阶段建立的高压氦氧环境下逐个朗读音素库的音素和工作用语词库的词汇,生成正常音素语料库、工作词汇语料库、音素氦语音语料库和工作词汇氦语音语料库;然后,氦语音解读器以正常音素语料库为机器学习网络的标签数据,以音素氦语音语料库为未标签数据,采用主动学习算法进行学习;在此基础上,氦语音解读器以工作词汇语料库为机器学习网络的标签数据,以工作词汇氦语音语料库为未标签数据,采用主动学习算法进一步学习;最后,氦语音解读器以工作词汇语料库为机器学习网络的标签数据,以数字化处理后潜水员的氦语音为未标签数据,采用迁移学习算法进行学习,对潜水员的氦语音进行标注和解读,同时将标注成功的潜水员氦语音数据加入到训练数据库中更新标签数据,继续解读氦语音,更新标签数据,直至潜水员通话完毕。该方法利用了机器学习的自适应迁移学习能力,采用基于机器学习的饱和潜水氦语音解读方法,提高了氦语音解读的准确性和适应性。
上述目的通过下述技术方案予以实现:
基于机器学习的饱和潜水氦语音解读方法,包括至少1个潜水员和1氦语音解读器,所述氦语音解读方法包括如下步骤:
第一阶段——氦语音解读器初始化
步骤1、机器学习网络结构选择——选择神经网络作为氦语音解读器的机器学习网络;
步骤2、工作语言音素库构建——根据潜水员不同的饱和潜水作业工作语言,构建相应语言的音素库P ={p n },n=1,2,…,N,N为该语言的音素个数;
步骤3、构建工作用语词汇库——根据饱和潜水作业规范要求,构建潜水员饱和潜水作业的工作用语词汇库W={w m },m=1,2,…,M,M为词汇库中词的个数;
步骤4、工作语言音素语料库构建——在正常大气压环境下,所有潜水员分别逐个朗读音素库P中的音素p n 获得该语言潜水员音素读音x i,n (t 1),i=1,2,…,I,n=1,2,…,N,0≤t 1≤T 1,I为潜水员的人数,T 1为音素读音信号的持续时间,并对信号x i,n (t 1)进行抽样得到其离散信号x i,n (k 1),从而生成所有潜水员的音素语料库X={X i,n },X i,n ={x i,n (k 1)},i=1,2,…,I,n=1,2,…,N,k 1=1,2,…,K 1,K 1为音素标准语音离散信号x i,n (k 1)的序列长度;
步骤5、工作词汇语料库构建——在正常大气压环境下,所有潜水员分别逐字朗读词汇库W中的词汇得到工作用词读音信号z i,m (t 2),i=1,2,…,I,m=1,2,…,M,0≤t 2≤T 2,T 2为工作用词读音信号的持续时间,并对工作用词信号z i,m (t 2)进行抽样得到其离散信号z i,m (k 2),从而生成所有潜水员的工作词汇语料库Z={Z i,m },Z i,m ={z i,m (k 2)},i=1,2,…,I,m=1,2,…,M,k 2=1,2,…,K 2,K 2为工作用词读音信号的离散信号z i,m (k 2)的序列长度;
步骤6、音素氦语音语料库构建——在饱和潜水作业准备阶段建立高压氦氧环境,所有潜水员分别逐个朗读音素库P中的音素P n 获得音素氦语音信号y i,n (t 1),i=1,2,…,I,n=1,2,…,N,0≤t 1≤T 1,并对信号y i,n (t 1)进行抽样得其离散信号y i,n (k 1),从而生成音素氦语音语料库Y ={Y i,n },Y i,n ={y i,n (k 1)},i=1,2,…,I,n=1,2,…,N,k 1=1,2,…,K 1;
步骤7、工作词汇氦语音语料库构建——在饱和潜水作业准备阶段建立的高压氦氧环境下,所有潜水员分别逐字朗读词库W中的词汇得到工作用词氦语音信号v i,m (t 2),i=1,2,…,I,m=1,2,…,M,0≤t 2≤T 2,T 2为工作用词读音信号的持续时间,并对工作用词信号v i,m (t 2)进行抽样得到其离散信号v i,m (k 2),从而生成所有潜水员的工作词汇氦语音语料库V={V i,m },V i,m ={v i,m (k 2)},i=1,2,…,I,m=1,2,…,M,k 2=1,2,…,K 2,K 2为工作用词读音信号的离散信号v i,m (k 2)的序列长度;
步骤8、机器学习网络特征学习——机器学习网络以所有潜水员在正常大气压环境下的音素语料库X为标签数据,以对应的在饱和潜水作业准备阶段所建的高压氦氧环境下音素氦语音语料库Y为未标签数据,采用主动学习算法进行氦语音特征学习,得到机器学习网络的初步学习参数C;
步骤9、机器学习网络语义学习——经过初步学习的机器学习网络以所有潜水员在正常大气压环境下的工作词汇语料库Z为标签数据,以对应的在饱和潜水作业准备阶段所建的高压氦氧环境下工作词汇氦语音语料库V为未标签数据,采用主动学习算法进一步进行氦语音语义学习,得到专业词汇训练学习后的机器学习网络参数C;
步骤10、机器学习网络训练数据库构建——将正常大气压环境下的工作词汇语料库Z作为机器学习网络训练数据库D,构建机器学习网络的初始训练数据库;
第二阶段——氦语音解读
步骤11、潜水员氦语音预处理——对潜水员的氦语音进行离散抽样和分帧处理,得到其离散分帧信号S k ,其中k为帧序列号,k=1,2,…,然后逐帧输入氦语音解读器的机器学习网络进行解读;
步骤12、氦语音解读——经过语义学习的氦语音解读器机器学习网络以训练数据库D为标签数据,以潜水员的分帧信号S k 为未标签数据,采用迁移学习算法进行学习,对氦语音信号S k 进行标注,同时解读氦语音形成解读后的语音或者文字;
步骤13、训练数据库更新——将氦语音信号S k 中成功标注的数据加入到训练数据库D中不断更新训练数据库D;当训练数据库D达到预设规模时则采用“优存劣汰”的原则处理了“劣质”数据样本,并不断更新训练数据库D;
步骤14、以更新的训练数据库D作为语音解读器的机器学习网络的标签数据,重复步骤12和步骤13,直到所有潜水员通话完毕;
步骤15、记录此时语音解读器机器学习网络的网络参数C和训练数据库D,以便下次氦语音解读。
本发明还具有如下特征:
1、步骤1中,所述氦语音解读器的学习网络结构为卷积神经网络、循环神经网络、深度置信网络中的任意一种。
2、步骤8和步骤9中,所述主动学习算法为基于评委的主动学习算法、基于置信度的主动学习算法中的一种。
3、步骤11中,所述分帧处理中,针对不同的语言均以基本单词或字为单位进行分帧处理。
4、步骤12中,所述迁移学习算法为基于样本的迁移学习算法、基于特征的迁移学习算法中的一种。
5、步骤13中,训练数据库D是不断更新的,以自适应潜水员的变化及其饱和潜水作业深度的变化。
6、步骤1-步骤5在潜水员进入潜水舱之前完成,步骤6和步骤10在潜水员进入潜水舱后的饱和潜水作业准备阶段完成,步骤11-步骤12在潜水员饱和潜水作业过程中完成。
本发明还要求保护一种基于机器学习的饱和潜水氦语音解读系统,该系统包括:处理器和存储器,该存储器上存储有计算机可读指令,所述计算机可读指令被处理器执行时使得处理器执行上述基于机器学习的氦语音解读方法。
本发明方法在于氦语音的解读中,该方法利用了机器学习的自适应迁移学习能力,将小样本的训练数据库在氦语音解读过程中逐渐变成一个海量样本训练数据库,从而产生以下的有益效果:
(1)在氦语音解读器机器学习网络特征学习和语义学习过程中,机器学习网络的标签数据(训练样本数据库)包含了使用该氦语音解读器所有潜水员的语音音素样本和工作词汇读音样本,解决了氦语音解读器对潜水员的自适应性问题;
(2)在氦语音解读过程中,氦语音训练样本数据库不断扩大,解决了氦语音解读器机器学习网络对机器学习对样本数的要求,使得基于机器学习的氦语音解读性能得以提升;
(3)在氦语音解读过程中,氦语音训练样本数据库不断更新,使得饱和潜水深度的信息伴随氦语音进入网络训练样本数据库,解决了氦语音解读器对饱和潜水深度的自适应性问题。
附图说明
图1是氦语音解读流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明。
如图1所示为本发明的基于机器学习的饱和潜水氦语音解读方法的流程图。该氦语音解读方法包括如下步骤:
第一阶段——氦语音解读器初始化
步骤1、机器学习网络结构选择——选择神经网络作为氦语音解读器的机器学习网络。
学习网络结构优选卷积神经网络、循环神经网络或深度置信网络。在本例中,选择一个三层的神经网络作为氦语音解读器的基础校正网络。神经网络的层数可以根据实际情况进行设置,一般设置3层到5层比较合适。
步骤2、工作语言音素库构建——根据潜水员不同的饱和潜水作业工作语言,构建相应语言的音素库P ={p n },n=1,2,…,N,N为该语言的音素个数。
在本例中,选择英语作为潜水员饱和潜水作业的工作语言,音素库P包括20个元音和28个辅音,共48个音素,N=48。所构建的语言音素库P是根据潜水员工作语言进行设置的,不同的工作语言,语言音素库P是不同的。
步骤3、构建工作用语词汇库——根据饱和潜水作业规范要求,构建潜水员饱和潜水作业的工作用语词汇库W={w m },m=1,2,…,M,M为词汇库中词的个数。
在本例中,根据XX打捞公司饱和潜水作业规范要求,构建了由“Ship, Cabin,Deck, Sea, Water, Temperature, on, I, Pressure”等500个单词组成的饱和潜水作业工作常用词库W,M=500。所构建的工作语言常用词库W是根据潜水员工作语言进行以及饱和潜水作业规范要求设置的,不同的工作语言,所构建常用工作用语词库W是不一样的。
步骤4、工作语言音素语料库构建——在正常大气压环境下,所有潜水员分别逐个朗读音素库P中的音素p n 获得该语言潜水员音素读音x i,n (t 1),i=1,2,…,I,n=1,2,…,N,0≤t 1≤T 1,I为潜水员的人数,T 1为音素读音信号的持续时间,并对信号x i,n (t 1)进行抽样得到其离散信号x i,n (k 1),从而生成所有潜水员的音素语料库X={X i,n },X i,n ={x i,n (k 1)},i=1,2,…,I,n=1,2,…,N,k 1=1,2,…,K 1,K 1为音素标准语音离散信号x i,n (k 1)的序列长度。
在本例中,由2个潜水员分别在正常大气压环境下逐个朗读音素库P中的音素p 1~p 48,音素信号的持续时间T 1为1秒,获得音素读音信号集{x 1,n (t 1)}和{x 2,n (t 1)},在经过8000Hz的抽样后生成音素语料集X1,n ={x 1,n (k 1)}和X2,n ={x 2,n (k 1)},构成音素语料库X={X1,n X2,n },n=1,2,…,48,k 1=1,2,…,K 1,K 1=8000。当工作用词读音持续时间T 1小于1秒时,信号x i,n (t 1)的抽样频率不变,但其离散信号x i,n (k 1)的序列长度K 1将作相应的缩短。
步骤5、工作词汇语料库构建——在正常大气压环境下,所有潜水员分别逐字朗读词汇库W中的词汇得到工作用词读音信号z i,m (t 2),i=1,2,…,I,m=1,2,…,M,0≤t 2≤T 2,T 2为工作用词读音信号的持续时间,并对工作用词信号z i,m (t 2)进行抽样得到其离散信号z i,m (k 2),从而生成所有潜水员的工作词汇语料库Z={Z i,m },Z i,m ={z i,m (k 2)},i=1,2,…,I,m=1,2,…,M,k 2=1,2,…,K 2,K 2为工作用词读音信号的离散信号z i,m (k 2)的序列长度。
在本例中,2个潜水员分别在正常大气压环境下逐个朗读词库W中的工作用词w 1~w 500,工作用词读音持续时间T 2为2秒,得到工作用词读音信号集{z 1,m (t 2)}和{z 2,m (t 2)},在经过8000 Hz的抽样后生成工作用词语料集Z1,m ={z 1,m (k 2)}和Z2,m ={z 2,m (k 2)},构成工作词汇语料库Z={Z1,m Z2,m },m=1,2,…,500,k 2=1,2,…,K 2,K 2=16000。当工作用词读音持续时间T 2小于2秒时,信号z i,m (t 2)的抽样频率不变,但其离散信号z i,m (k 2)的序列长度K 2将作相应的缩短。
步骤6、音素氦语音语料库构建——在饱和潜水作业准备阶段建立高压氦氧环境,所有潜水员分别逐个朗读音素库P中的音素P n 获得音素氦语音信号y i,n (t 1),i=1,2,…,I,n=1,2,…,N,0≤t 1≤T 1,并对信号y i,n (t 1)进行抽样得其离散信号y i,n (k 1),从而生成音素氦语音语料库Y ={Y i,n },Y i,n ={y i,n (k 1)},i=1,2,…,I,n=1,2,…,N,k 1=1,2,…,K 1。
在本例中,2个潜水员分别在饱和潜水作业准备阶段所建的高压氦氧环境下逐个朗读音素库P中的音素p 1~p 48,音素信号的持续时间T 1为1秒,获得音素氦语音信号集{y 1,n (t 1)}和{y 2,n (t 1) },在经过8000 Hz的抽样后生成音素氦语音集Y1,n ={y 1,n (k 1)}和Y2,n ={y 2,n (k 1) },构成音素氦语音语料库Y={Y1,n Y2,n },n=1,2,…,48,k 1=1,2,…,K 1,K 1=8000。当工作用词读音持续时间T 1小于1秒时,信号y i,n (t 1)的抽样频率不变,但其离散信号y i,n (k 1)的序列长度K 1将作相应的缩短。
步骤7、工作词汇氦语音语料库构建——在饱和潜水作业准备阶段建立的高压氦氧环境下,所有潜水员分别逐字朗读词库W中的词汇得到工作用词氦语音信号v i,m (t 2),i=1,2,…,I,m=1,2,…,M,0≤t 2≤T 2,T 2为工作用词读音信号的持续时间,并对工作用词信号v i,m (t 2)进行抽样得到其离散信号v i,m (k 2),从而生成所有潜水员的工作词汇氦语音语料库V={V i,m },V i,m ={v i,m (k 2)},i=1,2,…,I,m=1,2,…,M,k 2=1,2,…,K 2,K 2为工作用词读音信号的离散信号v i,m (k 2)的序列长度。
在本例中,2个潜水员分别在饱和潜水作业准备阶段所建的高压氦氧环境下逐个朗读词库W中的工作用词w 1~w 500,工作用词读音持续时间T 2为2秒,得到工作用词读音信号集{v 1,m (t 2)}和{v 2,m (t 2)},在经过8000 Hz的抽样后生成工作用词语料集V1,m ={v 1,m (k 2)}和V2,m ={v 2,m (k 2)},构成工作词汇语料库V={V1,m V2,m },m=1,2,…,500,k 2=1,2,…,K 2,K 2=16000。当工作用词读音持续时间T 2小于2秒时,信号v i,m (t 2)的抽样频率不变,但其离散信号v i,m (k 2)的序列长度K 2将作相应的缩短。
步骤8、机器学习网络特征学习——机器学习网络以所有潜水员在正常大气压环境下的音素语料库X为标签数据,以对应的在饱和潜水作业准备阶段所建的高压氦氧环境下音素氦语音语料库Y为未标签数据,采用主动学习算法进行氦语音特征学习,得到机器学习网络的初步学习参数C。
在本例中,机器学习网络以潜水员1和潜水员2在正常大气压环境下的音素语料库中的X1,n 和X2,n 为标签数据,对应的饱和潜水作业准备阶段所建的高压氦氧环境下音素氦语音库中的Y1,n 和Y2,n 为未标签数据,采用基于置信度的主动学习算法进行氦语音特征学习,得到机器学习网络的初步学习参数C。
步骤9、机器学习网络语义学习——经过初步学习的机器学习网络以所有潜水员在正常大气压环境下的工作词汇语料库Z为标签数据,以对应的在饱和潜水作业准备阶段所建的高压氦氧环境下工作词汇氦语音语料库V为未标签数据,采用主动学习算法进一步进行氦语音语义学习,得到专业词汇训练学习后的机器学习网络参数C。
在本例中,机器学习网络以潜水员1和潜水员2在正常大气压环境下的工作词汇语料库中的Z1,m 和Z2,m 为标签数据,对应的饱和潜水作业准备阶段所建的高压氦氧环境下工作词汇氦语音语料库中的V1,m 和V2,m 为未标签数据,采用基于置信度的主动学习算法进行氦语音语义学习,得到机器学习网络的网络参数C。
上述步骤8和步骤9中,主动学习算法优选为基于评委的主动学习算法、基于置信度的主动学习算法中的一种。
步骤10、机器学习网络训练数据库构建——将正常大气压环境下的工作词汇语料库Z作为机器学习网络训练数据库D,构建机器学习网络的初始训练数据库。
在本例中,将在正常大气压环境下工作词汇语料库中的Z1,m 和Z2,m 作为机器学习网络初始训练数据库D。
第二阶段——氦语音解读
步骤11、潜水员氦语音预处理——对潜水员的氦语音进行离散抽样和分帧处理,得到其离散分帧信号S k ,其中k为帧序列号,k=1,2,…,然后逐帧输入氦语音解读器的机器学习网络进行解读。
在本例中,潜水员1在进行氦语音通话,将潜水员1的氦语音进行8000 Hz的抽样并分帧处理,得到其离散分帧信号S k ,k=1,2,…,然后逐帧输入氦语音解读器的机器学习网络进行解读。本发明针对不同的语言,均以基本单词或字为单位进行分帧处理。
步骤12、氦语音解读——经过语义学习的氦语音解读器机器学习网络以训练数据库D为标签数据,以潜水员的分帧信号S k 为未标签数据,采用迁移学习算法进行学习,对氦语音信号S k 进行标注,同时解读氦语音形成解读后的语音或者文字。
迁移学习算法优选基于样本的迁移学习算法和基于特征的迁移学习算法。在本例中,机器学习采用的是基于样本的迁移学习方法,氦语音解读输出是语音信号。
步骤13、训练数据库更新——将氦语音信号S k 中成功标注的数据加入到训练数据库D中不断更新训练数据库D;当训练数据库D达到预设规模时则采用“优存劣汰”的原则处理了“劣质”数据样本,并不断更新训练数据库D。本例中的训练数据库D是不断更新的,以自适应潜水员的变化及其饱和潜水作业深度的变化
在本例中,训练数据库D的门限值设置1010。当训练数据库D中的样本数据规模达到1010时,比较当前成功标注的氦语音信号S k (k=1,2,…)标注前后的范数和先前加入到训练数据库D中成功标注的氦语音信号S k (k=1,2,…)的范数,将范数最大的标注数据作为“劣质”数据淘汰出局,并不断更新训练数据库D。
步骤14、以更新的训练数据库D作为语音解读器的机器学习网络的标签数据,重复步骤12和步骤13,直到所有潜水员通话完毕。
步骤15、记录此时语音解读器机器学习网络的网络参数C和训练数据库D,以便下次氦语音解读。
本发明方法中,步骤1至步骤10是解读器的初始化工作,在氦语音解读器第一次使用时执行,步骤11至步骤15氦语音解读,潜水员每次通话时都需要执行。
此外,本发明还涉及一种基于机器学习的氦语音解读系统,该系统包括:处理器和存储器,该存储器上存储有计算机可读指令,所述计算机可读指令被处理器执行时使得处理器执行上述基于机器学习的氦语音解读方法。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (8)
1.一种基于机器学习的饱和潜水氦语音解读方法,包括至少1个潜水员和1个氦语音解读器,所述氦语音解读方法包括如下步骤:
第一阶段——氦语音解读器初始化
步骤1、机器学习网络结构选择——选择神经网络作为氦语音解读器的机器学习网络;
步骤2、工作语言音素库构建——根据潜水员不同的饱和潜水作业工作语言,构建相应语言的音素库P ={p n },n=1,2,…,N,N为该语言的音素个数;
步骤3、构建工作用语词汇库——根据饱和潜水作业规范要求,构建潜水员饱和潜水作业的工作用语词汇库W={w m },m=1,2,…,M,M为词汇库中词的个数;
步骤4、工作语言音素语料库构建——在正常大气压环境下,所有潜水员分别逐个朗读音素库P中的音素p n 获得该语言潜水员音素读音x i,n (t 1),i=1,2,…,I,n=1,2,…,N,0≤t 1≤T 1,I为潜水员的人数,T 1为音素读音信号的持续时间,并对信号x i,n (t 1)进行抽样得到其离散信号x i,n (k 1),从而生成所有潜水员的音素语料库X={X i,n },X i,n ={x i,n (k 1)},i=1,2,…,I,n=1,2,…,N,k 1=1,2,…,K 1,K 1为音素标准语音离散信号x i,n (k 1)的序列长度;
步骤5、工作词汇语料库构建——在正常大气压环境下,所有潜水员分别逐字朗读词汇库W中的词汇得到工作用词读音信号z i,m (t 2),i=1,2,…,I,m=1,2,…,M,0≤t 2≤T 2,T 2为工作用词读音信号的持续时间,并对工作用词信号z i,m (t 2)进行抽样得到其离散信号z i,m (k 2),从而生成所有潜水员的工作词汇语料库Z={Z i,m },Z i,m ={z i,m (k 2)},i=1,2,…,I,m=1,2,…,M,k 2=1,2,…,K 2,K 2为工作用词读音信号的离散信号z i,m (k 2)的序列长度;
步骤6、音素氦语音语料库构建——在饱和潜水作业准备阶段建立高压氦氧环境,所有潜水员分别逐个朗读音素库P中的音素P n 获得音素氦语音信号y i,n (t 1),i=1,2,…,I,n=1,2,…,N,0≤t 1≤T 1,并对信号y i,n (t 1)进行抽样得其离散信号y i,n (k 1),从而生成音素氦语音语料库Y ={Y i,n },Y i,n ={y i,n (k 1)},i=1,2,…,I,n=1,2,…,N,k 1=1,2,…,K 1;
步骤7、工作词汇氦语音语料库构建——在饱和潜水作业准备阶段建立的高压氦氧环境下,所有潜水员分别逐字朗读词库W中的词汇得到工作用词氦语音信号v i,m (t 2),i=1,2,…,I,m=1,2,…,M,0≤t 2≤T 2,T 2为工作用词读音信号的持续时间,并对工作用词信号v i,m (t 2)进行抽样得到其离散信号v i,m (k 2),从而生成所有潜水员的工作词汇氦语音语料库V={V i,m },V i,m ={v i,m (k 2)},i=1,2,…,I,m=1,2,…,M,k 2=1,2,…,K 2,K 2为工作用词读音信号的离散信号v i,m (k 2)的序列长度;
步骤8、机器学习网络特征学习——机器学习网络以所有潜水员在正常大气压环境下的音素语料库X为标签数据,以对应的在饱和潜水作业准备阶段所建的高压氦氧环境下音素氦语音语料库Y为未标签数据,采用主动学习算法进行氦语音特征学习,得到机器学习网络的初步学习参数C;
步骤9、机器学习网络语义学习——经过初步学习的机器学习网络以所有潜水员在正常大气压环境下的工作词汇语料库Z为标签数据,以对应的在饱和潜水作业准备阶段所建的高压氦氧环境下工作词汇氦语音语料库V为未标签数据,采用主动学习算法进一步进行氦语音语义学习,得到专业词汇训练学习后的机器学习网络参数C;
步骤10、机器学习网络训练数据库构建——将正常大气压环境下的工作词汇语料库Z作为机器学习网络训练数据库D,构建机器学习网络的初始训练数据库;
第二阶段——氦语音解读
步骤11、潜水员氦语音预处理——对潜水员的氦语音进行离散抽样和分帧处理,得到其离散分帧信号S k ,其中k为帧序列号,k=1,2,…,然后逐帧输入氦语音解读器的机器学习网络进行解读;
步骤12、氦语音解读——经过语义学习的氦语音解读器机器学习网络以训练数据库D为标签数据,以潜水员的分帧信号S k 为未标签数据,采用迁移学习算法进行学习,对氦语音信号S k 进行标注,同时解读氦语音形成解读后的语音或者文字;
步骤13、训练数据库更新——将氦语音信号S k 中成功标注的数据加入到训练数据库D中不断更新训练数据库D;当训练数据库D达到预设规模时则采用“优存劣汰”的原则处理了“劣质”数据样本,并不断更新训练数据库D;
步骤14、以更新的训练数据库D作为语音解读器的机器学习网络的标签数据,重复步骤12和步骤13,直到所有潜水员通话完毕;
步骤15、记录此时语音解读器机器学习网络的网络参数C和训练数据库D,以便下次氦语音解读。
2.根据权利要求1所述的基于机器学习的饱和潜水氦语音解读方法,其特征在于:步骤1中,所述氦语音解读器的学习网络结构为卷积神经网络、循环神经网络、深度置信网络中的任意一种。
3.根据权利要求1所述的基于机器学习的饱和潜水氦语音解读方法,其特征在于:步骤8和步骤9中,所述主动学习算法为基于评委的主动学习算法、基于置信度的主动学习算法中的一种。
4.根据权利要求1所述的基于机器学习的饱和潜水氦语音解读方法,其特征在于:步骤11中,所述分帧处理中,针对不同的语言均以基本单词或字为单位进行分帧处理。
5.根据权利要求1所述的基于机器学习的饱和潜水氦语音解读方法,其特征在于:步骤12中,所述迁移学习算法为基于样本的迁移学习算法、基于特征的迁移学习算法中的一种。
6.根据权利要求1所述的基于机器学习的饱和潜水氦语音解读方法,其特征在于:步骤13中,训练数据库D是不断更新的,以自适应潜水员的变化及其饱和潜水作业深度的变化。
7.根据权利要求1所述的基于机器学习的饱和潜水氦语音解读方法,其特征在于:步骤1-步骤5在潜水员进入潜水舱之前完成,步骤6和步骤10在潜水员进入潜水舱后的饱和潜水作业准备阶段完成,步骤11-步骤12在潜水员饱和潜水作业过程中完成。
8.一种基于机器学习的饱和潜水氦语音解读系统,其特征在于:该系统包括:处理器和存储器,该存储器上存储有计算机可读指令,所述计算机可读指令被处理器执行时使得处理器执行权利要求1-7任意项所述基于机器学习的氦语音解读方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211133239.7A CN115497466A (zh) | 2022-09-17 | 2022-09-17 | 一种基于机器学习的饱和潜水氦语音解读方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211133239.7A CN115497466A (zh) | 2022-09-17 | 2022-09-17 | 一种基于机器学习的饱和潜水氦语音解读方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115497466A true CN115497466A (zh) | 2022-12-20 |
Family
ID=84470011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211133239.7A Withdrawn CN115497466A (zh) | 2022-09-17 | 2022-09-17 | 一种基于机器学习的饱和潜水氦语音解读方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497466A (zh) |
-
2022
- 2022-09-17 CN CN202211133239.7A patent/CN115497466A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
Lin et al. | A unified framework for multilingual speech recognition in air traffic control systems | |
Ghai et al. | Literature review on automatic speech recognition | |
CN110287283A (zh) | 意图模型训练方法、意图识别方法、装置、设备及介质 | |
CN111477216A (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN109377981B (zh) | 音素对齐的方法及装置 | |
CN111899716B (zh) | 一种语音合成方法和系统 | |
Zuluaga-Gomez et al. | Automatic speech recognition benchmark for air-traffic communications | |
CN110767213A (zh) | 一种韵律预测方法及装置 | |
CN110459208A (zh) | 一种基于知识迁移的序列到序列语音识别模型训练方法 | |
CN113160798A (zh) | 一种中文民航空中交通管制语音识别方法及系统 | |
CN113178207B (zh) | 基于词库学习的饱和潜水氦语音解读方法 | |
Matsuura et al. | Generative adversarial training data adaptation for very low-resource automatic speech recognition | |
Rosdi et al. | Isolated malay speech recognition using Hidden Markov Models | |
CN114944150A (zh) | 一种基于双任务的Conformer陆空通话声学模型构建方法 | |
CN112133292A (zh) | 一种针对民航陆空通话领域的端到端的自动语音识别方法 | |
Shivakumar et al. | A study on impact of language model in improving the accuracy of speech to text conversion system | |
Ashihara et al. | SpeechGLUE: How well can self-supervised speech models capture linguistic knowledge? | |
CN115836300A (zh) | 用于文本到语音的自训练WaveNet | |
CN115497466A (zh) | 一种基于机器学习的饱和潜水氦语音解读方法 | |
WO2023087779A1 (zh) | 基于多目标优化的饱和潜水氦语音解读方法及系统 | |
Mohanty et al. | Isolated Odia digit recognition using HTK: an implementation view | |
KR20210086744A (ko) | 딥러닝 기반의 영상 컨텐츠 제작 방법 및 장치 | |
KR100848148B1 (ko) | 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체 | |
Thangthai | Computer lipreading via hybrid deep neural network hidden Markov models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20221220 |
|
WW01 | Invention patent application withdrawn after publication |