CN116486783A - 多语言语音辨识系统、方法及计算机存储介质 - Google Patents
多语言语音辨识系统、方法及计算机存储介质 Download PDFInfo
- Publication number
- CN116486783A CN116486783A CN202211200481.1A CN202211200481A CN116486783A CN 116486783 A CN116486783 A CN 116486783A CN 202211200481 A CN202211200481 A CN 202211200481A CN 116486783 A CN116486783 A CN 116486783A
- Authority
- CN
- China
- Prior art keywords
- language
- recognition task
- speech
- loss function
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000006870 function Effects 0.000 claims abstract description 128
- 238000013528 artificial neural network Methods 0.000 claims abstract description 99
- 238000012549 training Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 30
- 230000001537 neural effect Effects 0.000 claims abstract description 18
- 230000010354 integration Effects 0.000 claims abstract description 12
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims 2
- 230000000873 masking effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 description 22
- 230000009286 beneficial effect Effects 0.000 description 8
- 238000009795 derivation Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000000556 factor analysis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明揭示一种多语言语音辨识系统、方法及计算机存储介质,包括由特征参数抽取模块自语音信号中抽取出语音特征参数与语言特征参数,以由类神经网络模块依据语音特征参数与语言特征参数计算出多语言语音辨识任务与语言辨识任务的损失函数,再将多语言语音辨识任务与语言辨识任务的损失函数进行加权整合而得到总损失函数。另外,由该类神经网络模块将多语言语音辨识任务与语言辨识任务一并共用至共享隐藏层以进行多任务训练,以输出多语言语音辨识任务所得到的语音发音单元及语言辨识任务所得到的语言单元。
Description
技术领域
本发明关于一种多语言语音辨识技术,特别是指一种多语言语音辨识系统、方法及计算机存储介质。
背景技术
现有的多语言语音辨识系统(例如关于华语/闽南语/英语等多种语言的语音辨识系统)中,常常具有下列问题。第一个问题为:当第一种语言的音档突然转换成第二种语言(或将一种语言突然转换成另一种语言)时,多语言语音辨识系统无法将第一种语言快速反应或转换成第二种语言,而导致多语言语音辨识系统的辨识结果依然是第一种语言,过一段时间(如几秒)后才会成功转换为第二种语言,导致多语言语音辨识系统的辨识率下降。第二个问题为:不同语言常有相似念法但不同意义的词,若多语言语音辨识系统的语言模型或处理能力不足,则多种语言的抢词问题就会浮现,同样会导致多语言语音辨识系统的辨识率下降。
再者,现有技术提出一种多语言混合语音识别方法,采用一组多语言混合词典、声学模型及语言模型进行语音辨识,以输出相对应的识别结果。然而,此现有技术并无法将多语言语音辨识任务与语言辨识任务一并共用至共享隐藏层以进行多任务训练,且无法将多语言语音辨识任务与语言辨识任务的损失函数进行加权整合,亦无法调整计算损失函数方式中有关多语言语音辨识任务与语言辨识任务的损失函数的权重值以得到最低的总损失函数,也无法使用梯度下降方式与递回方式以降低总损失函数的损失值,导致其辨识效果仍不佳。
因此,如何提供一种创新的多语言语音辨识技术,以解决上述的任一问题或提供相关的功能(服务),已成为本领域技术人员的一大研究课题。
发明内容
本发明提供一种创新的多语言语音辨识系统、方法及计算机存储介质,能将多语言语音辨识任务与语言辨识任务一并共用至共享隐藏层以进行多任务训练,或者将多语言语音辨识任务与语言辨识任务的损失函数进行加权整合,抑或者调整计算损失函数方式中有关多语言语音辨识任务与语言辨识任务的损失函数的权重值以得到最低的总损失函数,又或者使用梯度下降方式与递回方式以降低总损失函数的损失值,增加其辨识效果。
本发明的多语言语音辨识系统包括:一特征参数抽取模块,其自语音信号中抽取出语音特征参数与语言特征参数;以及一具有共享隐藏层的类神经网络模块,其依据该特征参数抽取模块所抽取的语音特征参数与语言特征参数计算出多语言语音辨识任务的损失函数与语言辨识任务的损失函数,以由该类神经网络模块将多语言语音辨识任务的损失函数与语言辨识任务的损失函数进行加权整合而得到总损失函数,其中,该类神经网络模块将多语言语音辨识任务与语言辨识任务一并共用至共享隐藏层,以对多语言语音辨识任务与语言辨识任务进行多任务训练,再由该类神经网络模块输出分别经过多任务训练后的多语言语音辨识任务所得到的语音发音单元及语言辨识任务所得到的语言单元。
本发明的多语言语音辨识方法包括:由一特征参数抽取模块自语音信号中抽取出语音特征参数与语言特征参数;由一具有共享隐藏层的类神经网络模块依据该特征参数抽取模块所抽取的语音特征参数与语言特征参数计算出多语言语音辨识任务的损失函数与语言辨识任务的损失函数,以由该类神经网络模块将多语言语音辨识任务的损失函数与语言辨识任务的损失函数进行加权整合而得到总损失函数;以及由该类神经网络模块将多语言语音辨识任务与语言辨识任务一并共用至共享隐藏层,以对多语言语音辨识任务与语言辨识任务进行多任务训练,再由该类神经网络模块输出分别经过多任务训练后的多语言语音辨识任务所得到的语音发音单元及语言辨识任务所得到的语言单元。
本发明的计算机存储介质应用于计算装置或电脑中,其储存有指令,以执行上述多语言语音辨识方法。
为让本发明的上述特征与优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明。在以下描述内容中将部分阐述本发明的额外特征及优点,且此等特征及优点将部分自所述描述内容可得而知,或可借由对本发明的实践习得。应理解,前文一般描述与以下详细描述两者均为例示性及解释性的,且不欲约束本发明所欲主张的范围。
附图说明
图1为本发明的多语言语音辨识系统的架构示意图。
图2为本发明图1的多语言语音辨识系统中,有关共享语音与语言的类神经网络模块的细部架构示意图。
图3为本发明的多语言语音辨识方法的流程示意图。
附图标记说明
1:多语言语音辨识系统
10:语音与语言的特征参数抽取模块
20:共享语音与语言的类神经网络模块
21:网络输入层
22:共享隐藏层
23:网络输出层
A:语音信号
B1:语音特征参数
B2:语言特征参数
C1:语音发音单元
C2:语言单元
S1至S5:步骤。
具体实施方式
以下借由特定的具体实施形态说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容了解本发明的其它优点与功效,亦可因而借由其它不同具体等同实施形态加以施行或运用。
图1为本发明的多语言语音辨识系统1的架构示意图。如图所示,多语言语音辨识系统1主要包括互相连接或通讯的一语音与语言的特征参数抽取模块10及一共享语音与语言的类神经网络模块20。此外,语音与语言的特征参数抽取模块10及共享语音与语言的类神经网络模块20可设于同一机器中,或分散于不同机器中但以相同的逻辑关系存在。
在一实施例中,语音与语言的特征参数抽取模块10可为语音与语言的特征参数抽取器(晶片/电路)、参数特征抽取软体(程式)等,共享语音与语言的类神经网络模块20可为共享语音与语言的类神经网络模型、类神经网络架构、类神经网络系统等,且机器可为电脑(如笔记型电脑/个人电脑/平板电脑)、服务器(如云端服务器/远端服务器)、主机、智能型手机等。同时,本发明所述“多语言”或“多种语言”可包括华语、闽南语、英语、日语、韩语、法语、德语、西班牙语、阿拉伯语等世界上各种语言的其中二种以上。但是,本发明并不以此为限。
语音与语言的特征参数抽取模块10可接收或取得多种语言的语音信号A,以由语音与语言的特征参数抽取模块10自语音信号A中抽取出语音特征参数B1与语言特征参数B2,再将语音特征参数B1与语言特征参数B2传送至共享语音与语言的类神经网络模块20。
共享语音与语言的类神经网络模块20可接收语音与语言的特征参数抽取模块10所传送的语音特征参数B1与语言特征参数B2,以由共享语音与语言的类神经网络模块20依据语音特征参数B1与语言特征参数B2计算出多语言语音辨识任务(或称自动语音辨识任务(automatic speech recognition task),简称asr)的损失函数(lossasr)与语言辨识任务(language identification task,简称lid)的损失函数(losslid),且由共享语音与语言的类神经网络模块20将多语言语音辨识任务(asr)与语言辨识任务(lid)一并共用至图2所示的共享隐藏层(Shared-Hidden Layer;SHL)22 以进行多任务训练(或称多任务学习(multi-task learning))。
共享语音与语言的类神经网络模块20可通过损失函数(loss function)公式或演算法将多语言语音辨识任务(asr)的损失函数(lossasr) 与语言辨识任务(lid)的损失函数(losslid)进行加权整合以得到总损失函数(losstotal),再由共享语音与语言的类神经网络模块20持续调整损失函数公式或演算法中有关多语言语音辨识任务(asr)的损失函数(lossasr)的权重值(如α)与语言辨识任务(lid)的损失函数(losslid)的权重值(如1-α) 以得到最低的总损失函数(losstotal),进而由共享语音与语言的类神经网络模块20输出分别经过多任务训练后的多语言语音辨识任务(asr)所得到的语音发音单元C1(如华语、闽南语、英语等的发音单元(phone unit)) 及语言辨识任务(lid)所得到的语言单元C2(如华语、闽南语、英语),有利于达到更准确的多语言语音辨识效果。
申言之,语音与语言的特征参数抽取模块10可自所接收或取得的语音信号A中抽取出语音特征参数B1与语言特征参数B2,语音特征参数B1可以采用多维(如D维)的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC),且语音与语言的特征参数抽取模块10中的语言辨识任务(lid)可使用i向量(i-vector)方法或x向量(x-vector)方法以自语音信号A中撷取出语言特征参数B2。
在一实施例中,i向量(i-vector)方法可采用因子分析方法以自语音信号A中撷取出语言特征参数B2,且i向量(i-vector)方法于测试语音信号A中的语音比较长时占优势。x向量(x-vector)方法可将语音信号A 中每一小段的声音特征算出平均与变异数再连结起来,在外领域 (out-domain)尤其保持优势,亦可视不同使用情况,通过多元方式初步将损失函数降到最低。换言之,语音与语言的特征参数抽取模块10可使用i向量(i-vector)方法或x向量(x-vector)方法来撷取多维(如M维,M 为正整数)的语言特征参数B2,再整合多维(如D维,D为正整数)的语音特征参数B1(如梅尔频率倒谱系数)与多维(如M维)的语言特征参数 B2以产出一个多维(如D+M维)的特征参数组。
本发明可同时输入多种语言(如华语、闽南语、英语等多种语言) 的语音特征参数B1与语言特征参数B2至共享语音与语言的类神经网络模块20,以通过共享隐藏层22(共享的类神经网络)依据语音特征参数B1与语言特征参数B2对多语言语音辨识任务(asr)与语言辨识任务 (lid)进行多任务训练,再由共享语音与语言的类神经网络模块20分别输出多语言语音辨识任务(asr)的语音辨识结果及语言辨识任务(lid)的语言辨识结果,故本发明能解决现有的多语言语音辨识系统(例如华语/ 闽南语/英语等多种语言的语音辨识系统)在多种语言的转换不顺畅或多种语言的抢词问题。
图2为本发明图1的多语言语音辨识系统1中有关共享语音与语言的类神经网络模块20的细部架构示意图。如图2所示,共享语音与语言的类神经网络模块20可建立一网络架构,并至少具有一网络输入层21、一共享隐藏层22与一网络输出层23。
共享语音与语言的类神经网络模块20的网络输入层21可整合多维(如D维)的语音特征参数B1与多维(如M维)的语言特征参数B2(共 D+M维),以将多维的语音特征参数B1与多维的语言特征参数B2输入至共享隐藏层22。共享语音与语言的类神经网络模块20的共享隐藏层22可采用多层(如N层,N为正整数)且每一层具有多个(如K个,K 为正整数)神经元的类神经网络。共享语音与语言的类神经网络模块20 的网络输出层23可分别输出经过多任务训练后的多语言语音辨识任务 (asr)所得到的语音发音单元C1及语言辨识任务(lid)所得到的语言单元 C2,例如语音发音单元C1为华语发音单元、闽南语发音单元、英语发音单元等其中至少二者,且语言单元C2为华语、闽南语、英语等其中至少二者,但不以此为限。
共享语音与语言的类神经网络模块20的类神经网络可采用损失函数进行训练。亦即,共享语音与语言的类神经网络模块20可将多语言语音辨识任务(asr)与语言辨识任务(lid)一并共用至共享隐藏层22,以通过共享隐藏层22借由推导迁移学习方法对多语言语音辨识任务(asr)与语言辨识任务(lid)进行多任务训练,且语言语音辨识任务(asr)与语言辨识任务(lid)可通过各自拥有的领域相关信息作为推导偏差来提升泛化(generalization)的效果或能力。
共享语音与语言的类神经网络模块20对多语言语音辨识任务(asr) 与语言辨识任务(lid)的训练程序可包括下列第一步骤至第三步骤。第一步骤:分别遮罩住多语言语音辨识任务(asr)与语言辨识任务(lid)的一者。第二步骤:将多语言语音辨识任务(asr)与语言辨识任务(lid)分别进行训练,以找出多语言语音辨识任务(asr)与语言辨识任务(lid)各自的最佳学习率。第三步骤:通过前述第一步骤与第二步骤,由共享语音与语言的类神经网络模块20递回调整多语言语音辨识任务(asr)与语言辨识任务(lid)于多任务训练时的学习率以得到最佳训练效果。
如下列公式(1)的交叉熵(cross-entropy)公式或演算法所示,共享语音与语言的类神经网络模块20可先通过交叉熵公式或演算法计算出多语言语音辨识任务(asr)与语言辨识任务(lid)两者的交叉熵H作为两者的损失函数(loss function),以供共享语音与语言的类神经网络模块20 后续找出多语言语音辨识任务(asr)与语言辨识任务(lid)于多任务训练时的最佳学习率。
交叉熵(cross-entropy)公式或演算法:
在公式(1)中,H代表多语言语音辨识任务(asr)或语言辨识任务(lid) 的交叉熵作为损失函数,C代表类别数量(如语音发音单元C1或语言单元C2的类别数量),n代表所有数据数(如语音发音单元C1或语言单元C2的所有数据数),yc,i代表第i笔数据属于第c类真实类别(如语音发音单元C1或语言单元C2中的第i笔数据属于第c类真实类别),pc,i代表第i笔数据属于第c类预测出来的机率(如语音发音单元C1或语言单元C2中的第i笔数据属于第c类预测出来的机率),i或c代表正整数。
如下列公式(2)的损失函数(loss function)公式或演算法所示,共享语音与语言的类神经网络模块20可通过损失函数公式或演算法将多语言语音辨识任务(asr)的损失函数(lossasr)与语言辨识任务(lid)的损失函数(losslid)进行加权整合以得到总损失函数(losstotal)。继之,共享语音与语言的类神经网络模块20可持续调整损失函数公式或演算法中有关多语言语音辨识任务(asr)的损失函数(lossasr)的权重值(如α)与语言辨识任务(lid)的损失函数(losslid)的权重值(如1-α)以得到最低的总损失函数 (losstotal),再由共享语音与语言的类神经网络模块20分别输出多语言语音辨识任务(asr)的语音辨识结果及语言辨识任务(lid)的语言辨识结果,有利于达到更准确的多语言语音辨识效果。
损失函数公式或演算法:
losstotal=α×lossasr+(1-α)×loglid……(2)
在公式(2)中,losstotal代表总损失函数,lossasr代表多语言语音辨识任务(asr)的损失函数,losslid代表语言辨识任务(lid)的损失函数,α代表权重值。
因此,本发明可在多语言语音辨识任务(asr)上加入额外的语言辨识任务(lid),并将多语言语音辨识任务(asr)与语言辨识任务(lid)一并共用至共享隐藏层22,且整合多语言语音辨识任务(asr)的损失函数(lossasr) 与语言辨识任务(lid)的损失函数(losslid),再通过多任务训练提升泛化的效果或能力,进而达到更准确的多语言语音辨识效果,且前述泛化的效果或能力可代表共享语音与语言的类神经网络模块20或其语言模型对于未知数据的预测效果或能力。
再者,本发明可建立共享语音与语言的类神经网络模块20(如类神经网络模型、类神经网络架构或类神经网络系统),并在多语言语音辨识任务(asr)上加入额外的语言辨识任务(lid),以将多语言语音辨识任务 (asr)与语言辨识任务(lid)一并共用至共享隐藏层22。而且,共享语音与语言的类神经网络模块20可整合多语言语音辨识任务(asr)的损失函数 (lossasr)与语言辨识任务(lid)的损失函数(losslid),再使用梯度下降方式或演算法与递回方式来降低多语言语音辨识任务(asr)与语言辨识任务(lid) 两者的总损失函数(losstotal)的损失值,进而调整共享语音与语言的类神经网络模块20中的类神经网络的参数以减少网络预测与样本标签之间的误差,直到找到区域最小的损失值,有利于达到更准确的多语言语音辨识效果。
图3为本发明的多语言语音辨识方法的流程示意图,并参阅图1 至图2予以说明。同时,此多语言语音辨识方法的主要内容如下,其余内容相同于上述图1至图2的说明,于此不再重复叙述。
如图3所示,在步骤S1中,提供互相连接或通讯的一语音与语言的特征参数抽取模块10及一共享语音与语言的类神经网络模块20。此外,语音与语言的特征参数抽取模块10可接收或取得多种语言的语音信号A,以由语音与语言的特征参数抽取模块10自语音信号A中抽取出语音特征参数B1与语言特征参数B2,再将语音特征参数B1与语言特征参数B2传送至共享语音与语言的类神经网络模块20。
共享语音与语言的类神经网络模块20可接收语音与语言的特征参数抽取模块10所传送的语音特征参数B1与语言特征参数B2,以由共享语音与语言的类神经网络模块20依据语音特征参数B1与语言特征参数B2计算出多语言语音辨识任务(asr)的损失函数(lossasr)与语言辨识任务(lid)的损失函数(losslid),且由共享语音与语言的类神经网络模块20将多语言语音辨识任务(asr)与语言辨识任务(lid)一并共用至共享隐藏层22以进行多任务训练。
共享语音与语言的类神经网络模块20可通过损失函数公式或演算法将多语言语音辨识任务(asr)的损失函数(lossasr)与语言辨识任务(lid) 的损失函数(losslid)进行加权整合以得到总损失函数(losstotal),再由共享语音与语言的类神经网络模块20持续调整损失函数公式或演算法中有关多语言语音辨识任务(asr)的损失函数(lossasr)的权重值(如α)与语言辨识任务(lid)的损失函数(losslid)的权重值(如1-α)以得到最低的总损失函数(losstotal),进而由共享语音与语言的类神经网络模块20分别输出多语言语音辨识任务(asr)所得到的语音发音单元C1及语言辨识任务(lid) 所得到的语言单元C2,有利于达到更准确的多语言语音辨识效果。
在步骤S2中,设定语音与语言的特征参数抽取模块10及共享语音与语言的类神经网络模块20的参数。亦即,因与语言的特征参数抽取模块10可自所接收或取得的语音信号A中抽取出语音特征参数B1 与语言特征参数B2,语音特征参数B1可以采用多维或D维(如40维) 的梅尔频率倒谱系数(MFCC),且语音与语言的特征参数抽取模块10 中的语言辨识任务(lid)可使用i向量(i-vector)方法或x向量(x-vector)方法以自语音信号A中撷取出语言特征参数B2。
i向量(i-vector)方法可采用因子分析方法以自语音信号A中撷取出语言特征参数B2,且i向量(i-vector)方法于测试语音信号A中的语音比较长时占优势。x向量(x-vector)方法可将语音信号A中每一小段的声音特征算出平均与变异数再连结起来,在外领域(out-domain)尤其保持优势,亦可视不同使用情况,通过多元方式初步将损失函数降到最低。换言之,语音与语言的特征参数抽取模块10可使用i向量(i-vector) 方法或x向量(x-vector)方法来撷取多维(如M维=100维)的语言特征参数B2,再整合多维(如D维=40维)的语音特征参数B1(如梅尔频率倒谱系数)与多维(如M维=100维)的语言特征参数B2以产出一个多维(如 100+40=140维)的特征参数组。
共享语音与语言的类神经网络模块20可建立一网络架构(如X型的网络架构),共享语音与语言的类神经网络模块20的网络输入层21 可整合多维(如D维=40维)的语音特征参数B1与多维(如M维=100维) 的语言特征参数B2(共D+M维=140维)。共享语音与语言的类神经网络模块20的共享隐藏层22可采用多层(如6层)且每一层有多个(如 1024个)共享隐藏层,例如时间延迟类神经网络(Time Delay Neural Network;TDNN)的共享隐藏层。共享语音与语言的类神经网络模块20 的网络输出层23可分别输出多语言语音辨识任务(asr)所得到的语音发音单元C1(如华语发音单元、闽南语发音单元、英语发音单元等其中至少二者)及语言辨识任务(lid)所得到的语言单元C2(如华语、闽南语、英语等其中至少二者)。
在步骤S3中,将多语言语音辨识任务(asr)与语言辨识任务(lid)进行多任务训练。亦即,共享语音与语言的类神经网络模块20可将多语言语音辨识任务(asr)与语言辨识任务(lid)一并共用至共享隐藏层22,以通过共享隐藏层22借由推导迁移学习方法对多语言语音辨识任务(asr) 与语言辨识任务(lid)进行多任务训练,且语言语音辨识任务(asr)与语言辨识任务(lid)可通过各自拥有的领域相关信息作为推导偏差来提升泛化的效果。
共享语音与语言的类神经网络模块20对多语言语音辨识任务(asr) 与语言辨识任务(lid)的训练程序可包括下列第一步骤至第三步骤。第一步骤:分别遮罩住多语言语音辨识任务(asr)与语言辨识任务(lid)的一者。第二步骤:将多语言语音辨识任务(asr)与语言辨识任务(lid)分别进行训练,以找出多语言语音辨识任务(asr)与语言辨识任务(lid)两者的最佳学习率。第三步骤:通过前述第一步骤与第二步骤,由共享语音与语言的类神经网络模块20递回调整多语言语音辨识任务(asr)与语言辨识任务(lid)于多任务训练时的学习率以得到最佳训练效果。
在步骤S4中,通过交叉熵公式或演算法计算出多语言语音辨识任务(asr)与语言辨识任务(lid)的交叉熵作为损失函数。亦即,如上述公式 (1)的交叉熵公式或演算法所示,共享语音与语言的类神经网络模块20 可先通过交叉熵公式或演算法计算出多语言语音辨识任务(asr)与语言辨识任务(lid)两者的交叉熵H作为两者的损失函数,以供共享语音与语言的类神经网络模块20后续找出多语言语音辨识任务(asr)与语言辨识任务(lid)于多任务训练时的最佳学习率。同时,共享语音与语言的类神经网络模块20可将多语言语音辨识任务(asr)所得到的语音发音单元C1及语言辨识任务(lid)所得到的语言单元C2分别带入上式(1),以计算出多语言语音辨识任务(asr)的交叉熵与语言辨识任务(lid)的交叉熵分别作为多语言语音辨识任务(asr)的损失函数(lossasr)与语言辨识任务 (lid)的损失函数(losslid)。
在步骤S5中,通过损失函数公式或演算法将多语言语音辨识任务 (asr)的损失函数(lossasr)与语言辨识任务(lid)的损失函数(losslid)进行加权整合以得到总损失函数(losstotal),且由共享语音与语言的类神经网络模块20的网络输出层23分别输出多语言语音辨识任务(asr)的语音辨识结果及语言辨识任务(lid)的语言辨识结果。
亦即,如上述公式(2)的损失函数公式或演算法所示,共享语音与语言的类神经网络模块20可通过损失函数公式或演算法将多语言语音辨识任务(asr)的损失函数(lossasr)与语言辨识任务(lid)的损失函数(losslid) 进行加权整合以得到总损失函数(losstotal)。继之,共享语音与语言的类神经网络模块20可持续调整损失函数公式或演算法中有关多语言语音辨识任务(asr)的损失函数(lossasr)的权重值(如α)与语言辨识任务(lid)的损失函数(losslid)的权重值(如1-α)以得到最低的总损失函数(losstotal),再由共享语音与语言的类神经网络模块20分别输出多语言语音辨识任务(asr)的语音辨识结果及语言辨识任务(lid)的语言辨识结果,有利于达到更准确的多语言语音辨识效果。
共享语音与语言的类神经网络模块20可使用梯度下降方式或演算法与递回方式以调整多语言语音辨识任务(asr)的损失函数(lossasr)的权重值(如α)与语言辨识任务(lid)的损失函数(losslid)的权重值(如1-α)而逐步降低总损失函数(losstotal)的损失值,再调整共享语音与语言的类神经网络模块20中的类神经网络的参数以减少网络预测与样本标签之间的误差,直到找到区域最小的损失值,进而由共享语音与语言的类神经网络模块20分别输出多语言语音辨识任务(asr)的语音辨识结果及语言辨识任务(lid)的语言辨识结果,有利于达到更准确的多语言语音辨识效果。然后,共享语音与语言的类神经网络模块20可输出多语言语音辨识任务(asr)所得到的语音发音单元C1及语言辨识任务(lid)所得到的语言单元C2。
另外,本发明还提供一种针对多语言语音辨识方法的计算机存储介质,应用于具有处理器及/或存储器的计算装置或电脑中,且计算机存储介质储存有指令,并可利用计算装置或电脑通过处理器及/或存储器执行计算机存储介质,以于执行计算机存储介质时执行上述内容。例如,处理器可为微处理器、中央处理器(CPU)、图形处理器(GPU)等,存储器可为随机存取存储器(RAM)、存储卡、硬盘(如云端/网络硬盘)、数据库等,但不以此为限。
综上,本发明的多语言语音辨识系统、方法及计算机存储介质至少具有下列特色、优点或技术功效。
一、本发明的共享语音与语言的类神经网络模块能将多语言语音辨识任务与语言辨识任务一并共用至共享隐藏层,以利于对多语言语音辨识任务与语言辨识任务进行多任务训练。
二、本发明的共享语音与语言的类神经网络模块能通过损失函数公式或演算法将多语言语音辨识任务与语言辨识任务两者的损失函数进行加权整合以得到总损失函数,再持续调整损失函数公式或演算法中有关多语言语音辨识任务与语言辨识任务两者的损失函数的权重值以得到最低的总损失函数,进而分别输出多语言语音辨识任务所得到的语音发音单元及语言辨识任务所得到的语言单元,有利于达到更准确的多语言语音辨识效果。
三、本发明能同时输入多种语言的语音特征参数与语言特征参数至共享语音与语言的类神经网络模块,以利通过共享隐藏层(共享的类神经网络)对多语言语音辨识任务与语言辨识任务进行训练,亦利于输出多语言语音辨识任务的语音辨识结果及语言辨识任务的语言辨识结果。借此,本发明能解决现有的多语言语音辨识系统在多种语言的转换不顺畅或多种语言的抢词问题。
四、本发明的共享语音与语言的类神经网络模块能将多语言语音辨识任务与语言辨识任务一并共用至共享隐藏层,以利通过推导迁移学习方法对多语言语音辨识任务与语言辨识任务进行多任务训练,亦能通过多任务训练提升泛化的效果或能力。
五、本发明的共享语音与语言的类神经网络模块能将多语言语音辨识任务与语言辨识任务两者分别进行训练以找出两者的最佳学习率,也能递回调整多语言语音辨识任务与语言辨识任务于多任务训练时的学习率以得到最佳训练效果。
六、本发明的共享语音与语言的类神经网络模块能使用梯度下降方式或演算法与递回方式以调整多语言语音辨识任务与语言辨识任务两者的损失函数的权重值而逐步降低总损失函数的损失值,亦能调整类神经网络的参数以减少网络预测与样本标签之间的误差。
七、本发明可能应用的产业为例如智能语音人机互动产业、物联网、智能家庭等产业,且可能应用的产品为例如语意云智能音箱应用、 AI(人工智能)声音滤镜服务、声控遥控器等产品,但不以此为限。
上述实施形态仅例示性说明本发明的原理、特点及其功效,并非用以限制本发明的可实施范畴,任何本领域技术人员均能在不违背本发明的精神及范畴下,对上述实施形态进行修饰与改变。任何使用本发明所揭示内容而完成的等效改变及修饰,均仍应为权利要求所涵盖。因此,本发明的权利保护范围应如权利要求书所列。
Claims (19)
1.一种多语言语音辨识系统,包括:
一特征参数抽取模块,其自语音信号中抽取出语音特征参数与语言特征参数;以及
一具有共享隐藏层的类神经网络模块,其依据该特征参数抽取模块所抽取的该语音特征参数与该语言特征参数计算出多语言语音辨识任务的损失函数与语言辨识任务的损失函数,以由该类神经网络模块将该多语言语音辨识任务的损失函数与该语言辨识任务的损失函数进行加权整合而得到总损失函数,其中,该类神经网络模块将该多语言语音辨识任务与该语言辨识任务一并共用至该共享隐藏层,以对该多语言语音辨识任务与该语言辨识任务进行多任务训练,再由该类神经网络模块输出分别经过该多任务训练后的该多语言语音辨识任务所得到的语音发音单元及该语言辨识任务所得到的语言单元。
2.如权利要求1所述的多语言语音辨识系统,其中,该特征参数抽取模块所抽取的该语音特征参数采用多维的梅尔频率倒谱系数,且该特征参数抽取模块使用i向量方法或x向量方法以自该语音信号中撷取出该语言特征参数。
3.如权利要求1所述的多语言语音辨识系统,其中,该类神经网络模块更通过交叉熵公式或演算法计算出该多语言语音辨识任务与该语言辨识任务两者的交叉熵作为两者的损失函数,且由该类神经网络模块找出该多语言语音辨识任务与该语言辨识任务于该多任务训练时的最佳学习率。
4.如权利要求1所述的多语言语音辨识系统,其中,该类神经网络模块更通过该共享隐藏层以推导迁移学习方法对该多语言语音辨识任务与该语言辨识任务进行多任务训练。
5.如权利要求1所述的多语言语音辨识系统,其中,该类神经网络模块更通过损失函数公式或演算法将该多语言语音辨识任务的损失函数与该语言辨识任务的损失函数进行加权整合以得到该总损失函数,再由该类神经网络模块持续调整该损失函数公式或演算法中有关该多语言语音辨识任务的损失函数的权重值与该语言辨识任务的损失函数的权重值以得到最低的总损失函数。
6.如权利要求1所述的多语言语音辨识系统,其中,该类神经网络模块更使用梯度下降方式与递回方式以调整该多语言语音辨识任务的损失函数的权重值与该语言辨识任务的损失函数的权重值而逐步降低该总损失函数的损失值。
7.如权利要求1所述的多语言语音辨识系统,其中,该类神经网络模块同时输入有多种语言的该语音特征参数与该语言特征参数,以通过该共享隐藏层依据该语音特征参数与该语言特征参数对该多语言语音辨识任务与该语言辨识任务进行该多任务训练,再由该类神经网络模块分别输出该多语言语音辨识任务的语音辨识结果及该语言辨识任务的语言辨识结果。
8.如权利要求1所述的多语言语音辨识系统,其中,该类神经网络模块更具有网络输入层与网络输出层,以通过该网络输入层整合多维的该语音特征参数与多维的该语言特征参数,且将多维的该语音特征参数与多维的该语言特征参数输入至该共享隐藏层,再由该网络输出层分别输出该多语言语音辨识任务所得到的该语音发音单元及该语言辨识任务所得到的该语言单元。
9.如权利要求1所述的多语言语音辨识系统,其中,该类神经网络模块更分别遮罩住该多语言语音辨识任务与该语言辨识任务的一者,再将该多语言语音辨识任务与该语言辨识任务两者分别进行训练以找出两者的最佳学习率,进而由该类神经网络模块递回调整该多语言语音辨识任务与该语言辨识任务于该多任务训练时的学习率。
10.一种多语言语音辨识方法,包括:
由一特征参数抽取模块自语音信号中抽取出语音特征参数与语言特征参数;
由一具有共享隐藏层的类神经网络模块依据该特征参数抽取模块所抽取的该语音特征参数与该语言特征参数计算出多语言语音辨识任务的损失函数与语言辨识任务的损失函数,以由该类神经网络模块将该多语言语音辨识任务的损失函数与该语言辨识任务的损失函数进行加权整合而得到总损失函数;以及
由该类神经网络模块将该多语言语音辨识任务与该语言辨识任务一并共用至该共享隐藏层,以对该多语言语音辨识任务与该语言辨识任务进行多任务训练,再由该类神经网络模块输出分别经过该多任务训练后的该多语言语音辨识任务所得到的语音发音单元及该语言辨识任务所得到的语言单元。
11.如权利要求10所述的多语言语音辨识方法,其中,该特征参数抽取模块所抽取的该语音特征参数采用多维的梅尔频率倒谱系数,且该特征参数抽取模块使用i向量方法或x向量方法以自该语音信号中撷取出该语言特征参数。
12.如权利要求10所述的多语言语音辨识方法,更包括由该类神经网络模块通过交叉熵公式或演算法计算出该多语言语音辨识任务与该语言辨识任务两者的交叉熵作为两者的损失函数,且由该类神经网络模块找出该多语言语音辨识任务与该语言辨识任务于该多任务训练时的最佳学习率。
13.如权利要求10所述的多语言语音辨识方法,更包括由该类神经网络模块通过该共享隐藏层以推导迁移学习方法对该多语言语音辨识任务与该语言辨识任务进行多任务训练。
14.如权利要求10所述的多语言语音辨识方法,更包括由该类神经网络模块通过损失函数公式或演算法将该多语言语音辨识任务的损失函数与该语言辨识任务的损失函数进行加权整合以得到该总损失函数,再由该类神经网络模块持续调整该损失函数公式或演算法中有关该多语言语音辨识任务的损失函数的权重值与该语言辨识任务的损失函数的权重值以得到最低的总损失函数。
15.如权利要求10所述的多语言语音辨识方法,更包括由该类神经网络模块使用梯度下降方式与递回方式以调整该多语言语音辨识任务的损失函数的权重值与该语言辨识任务的损失函数的权重值而逐步降低该总损失函数的损失值。
16.如权利要求10所述的多语言语音辨识方法,更包括将多种语言的该语音特征参数与该语言特征参数输入至该类神经网络模块中,以通过该共享隐藏层依据该语音特征参数与该语言特征参数对该多语言语音辨识任务与该语言辨识任务进行该多任务训练,再由该类神经网络模块分别输出该多语言语音辨识任务的语音辨识结果及该语言辨识任务的语言辨识结果。
17.如权利要求10所述的多语言语音辨识方法,更包括通过该类神经网络模块的网络输入层整合多维的该语音特征参数与多维的该语言特征参数,且将多维的该语音特征参数与多维的该语言特征参数输入至该共享隐藏层,再由该类神经网络模块的网络输出层分别输出该多语言语音辨识任务所得到的该语音发音单元及该语言辨识任务所得到的该语言单元。
18.如权利要求10所述的多语言语音辨识方法,更包括由该类神经网络模块分别遮罩住该多语言语音辨识任务与该语言辨识任务的一者,再将该多语言语音辨识任务与该语言辨识任务分别进行训练以找出该多语言语音辨识任务与该语言辨识任务的最佳学习率,进而由该类神经网络模块递回调整该多语言语音辨识任务与该语言辨识任务于该多任务训练时的学习率。
19.一种计算机存储介质,应用于计算装置或电脑中,其储存有指令,以执行如权利要求10至18的任一者所述多语言语音辨识方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111101853 | 2022-01-17 | ||
TW111101853A TWI795173B (zh) | 2022-01-17 | 2022-01-17 | 多語言語音辨識系統、方法及電腦可讀媒介 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486783A true CN116486783A (zh) | 2023-07-25 |
Family
ID=86692234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211200481.1A Pending CN116486783A (zh) | 2022-01-17 | 2022-09-29 | 多语言语音辨识系统、方法及计算机存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116486783A (zh) |
TW (1) | TWI795173B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101447879B1 (ko) * | 2013-08-09 | 2014-10-08 | 주식회사 디오텍 | 음성인식을 통해 컨트롤 객체를 선택하기 위한 장치 및 방법 |
CN103578465B (zh) * | 2013-10-18 | 2016-08-17 | 威盛电子股份有限公司 | 语音辨识方法及电子装置 |
US10657955B2 (en) * | 2017-02-24 | 2020-05-19 | Baidu Usa Llc | Systems and methods for principled bias reduction in production speech models |
CN109313892B (zh) * | 2017-05-17 | 2023-02-21 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
CN111373419A (zh) * | 2017-10-26 | 2020-07-03 | 奇跃公司 | 用于深度多任务网络中自适应损失平衡的梯度归一化系统和方法 |
AU2018368279A1 (en) * | 2017-11-14 | 2020-05-14 | Magic Leap, Inc. | Meta-learning for multi-task learning for neural networks |
WO2020035085A2 (en) * | 2019-10-31 | 2020-02-20 | Alipay (Hangzhou) Information Technology Co., Ltd. | System and method for determining voice characteristics |
-
2022
- 2022-01-17 TW TW111101853A patent/TWI795173B/zh active
- 2022-09-29 CN CN202211200481.1A patent/CN116486783A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
TWI795173B (zh) | 2023-03-01 |
TW202331582A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109817246B (zh) | 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
WO2020168752A1 (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN110738984A (zh) | 人工智能cnn、lstm神经网络语音识别系统 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN112216307B (zh) | 语音情感识别方法以及装置 | |
CN109545227A (zh) | 基于深度自编码网络的说话人性别自动识别方法及系统 | |
US20230096805A1 (en) | Contrastive Siamese Network for Semi-supervised Speech Recognition | |
Musaev et al. | The use of neural networks to improve the recognition accuracy of explosive and unvoiced phonemes in Uzbek language | |
CN111739537A (zh) | 语义识别方法、装置、存储介质及处理器 | |
Orken et al. | Identifying the influence of transfer learning method in developing an end-to-end automatic speech recognition system with a low data level | |
CN114627868A (zh) | 意图识别方法、装置、模型及电子设备 | |
Mohanty et al. | Segment based emotion recognition using combined reduced features | |
Wang | Speech recognition in English cultural promotion via recurrent neural network | |
Elleuch et al. | The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN. | |
CN117131182A (zh) | 一种基于ai的对话回复生成方法及系统 | |
US10783873B1 (en) | Native language identification with time delay deep neural networks trained separately on native and non-native english corpora | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
Yadav et al. | MLPGI: multilayer perceptron-based gender identification over voice samples in supervised machine learning | |
CN116486783A (zh) | 多语言语音辨识系统、方法及计算机存储介质 | |
CN116127027A (zh) | 意图识别方法及装置、意图识别模型的训练方法及装置 | |
CN114333790A (zh) | 数据处理方法、装置、设备、存储介质及程序产品 | |
CN113886539A (zh) | 话术推荐方法、装置、客服设备及存储介质 | |
Byun et al. | Comparative studies on machine learning for paralinguistic signal compression and classification | |
Paul et al. | Isolated word recognition based on a hyper-tuned cross-validated CNN-BiLSTM from Mel Frequency Cepstral Coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |