CN113593525A - 口音分类模型训练和口音分类方法、装置和存储介质 - Google Patents
口音分类模型训练和口音分类方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113593525A CN113593525A CN202110106391.5A CN202110106391A CN113593525A CN 113593525 A CN113593525 A CN 113593525A CN 202110106391 A CN202110106391 A CN 202110106391A CN 113593525 A CN113593525 A CN 113593525A
- Authority
- CN
- China
- Prior art keywords
- training
- accent
- initial
- audio
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 753
- 238000013145 classification model Methods 0.000 title claims abstract description 397
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000000605 extraction Methods 0.000 claims abstract description 150
- 230000001755 vocal effect Effects 0.000 claims abstract description 8
- 238000013139 quantization Methods 0.000 claims description 66
- 238000011176 pooling Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 18
- 230000003247 decreasing effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000000873 masking effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 244000245214 Mentha canadensis Species 0.000 description 1
- 235000016278 Mentha canadensis Nutrition 0.000 description 1
- 235000009754 Vitis X bourquina Nutrition 0.000 description 1
- 235000012333 Vitis X labruscana Nutrition 0.000 description 1
- 240000006365 Vitis vinifera Species 0.000 description 1
- 235000014787 Vitis vinifera Nutrition 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种口音分类模型训练方法、装置、计算机设备和存储介质。该方法包括:获取训练音频和对应的口音类别标签;将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。采用本方法能够提高目标口音分类模型的分类准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种口音分类模型训练和口音分类方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,出现了口音识别技术,口音识别是指对同一个语种的语音识别不同的口音,比如,印度人说英语、中国人说英语、日本人说英语等等,又比如,中国不同地区的方言等等。传统技术中直接对口音进行识别的难度较大,通常在对口音识别之前需要对口音进行分类,然后对口音进行识别,能够提高口音识别的准确性。目前,对口音进行分类时通常是将需要识别的口音转换为向量,然后对向量进行口音分类,然而,直接使用转换后的向量进行口音分类的方法,识别得到的口音类别准确性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高口音分类准确性的口音分类模型训练和口音分类方法、装置、计算机设备和存储介质。
一种口音分类模型训练方法,所述方法包括:
获取训练样本,训练数据包括训练音频和对应的口音类别标签;
将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;
基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。
在其中一个实施例中,所述通过初始预训练特征提取网络对所述预训练口音音频进行特征提取,得到预训练音频特征之后,还包括:
通过掩膜操作将所述预训练音频特征进行数据增强,得到预训练音频掩膜特征;
所述将所述预训练音频特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,包括:
将所述预训练音频掩膜特征输入初始预训练上下文网络进行语义特征提取,得到所述预训练上下文语义特征。
一种口音分类模型训练装置,所述装置包括:
样本获取模块,用于获取训练样本,训练数据包括训练音频和对应的口音类别标签;
训练模块,用于将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;
迭代模块,用于基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取训练样本,训练数据包括训练音频和对应的口音类别标签;
将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;
基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取训练样本,训练数据包括训练音频和对应的口音类别标签;
将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;
基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。
上述口音分类模型训练方法、装置、计算机设备和存储介质,通过获取训练样本,训练数据包括训练音频和对应的口音类别标签;将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。通过使用自监督预训练得到初始特征提取网络和初始上下文网络,然后使用初始特征提取网络和初始上下文网络得到初始口音分类模型,然后进一步训练初始口音分类模型得到目标口音分类模型,从而能够使训练得到的目标口音分类模型在进行口音分类时能够提高准确性。
一种口音分类方法,所述方法包括:
获取待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别;
口音分类模型输出待分类音频对应的口音类别。
一种口音分类装置,所述装置包括:
音频分类模块,用于获取待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别;
类别得到模块,用于口音分类模型输出待分类音频对应的口音类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别;
口音分类模型输出待分类音频对应的口音类别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别;
口音分类模型输出待分类音频对应的口音类别。
上述口音分类方法、装置、计算机设备和存储介质,通过获取待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别;口音分类模型输出待分类音频对应的口音类别。通过口音分类模型提取到待分类音频特征,然后提取到上下文语义特征,基于上下文语义特征进行分类,得到待分类音频对应的口音类别,提高了得到的口音类别的准确性。
附图说明
图1为一个实施例中口音分类模型训练方法的应用环境图;
图2为一个实施例中口音分类模型训练方法的流程示意图;
图3为一个实施例中得到目标口音分类模型的流程示意图;
图4为一个实施例中得到训练音频口音类别的流程示意图;
图5为另一个实施例中得到目标口音分类模型的流程示意图;
图6为一个实施例中得到口音分类模型的架构示意图;
图7为一个实施例中得到预训练口音分类模型的流程示意图;
图8为一个实施例中得到预训练损失信息的流程示意图;
图9为另一个实施例中得到预训练口音分类模型的流程示意图;
图10为又一个实施例中得到预训练口音分类模型的流程示意图;
图11为一个实施例中预训练口音分类模型的架构示意图;
图12为一个实施例中口音分类方法的流程示意图;
图13为一个具体实施例中训练得到目标口音分类模型的流程示意图;
图14为一个具体实施例中得到口音分类的应用场景示意图;
图15为一个具体实施例中语音沟通的界面示意图;
图16为一个实施例中口音分类模型训练装置的结构框图;
图17为一个实施例中口音分类装置的结构框图;
图18为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一
本申请实施例提供的方案涉及人工智能的语音识别等技术,具体通过如下实施例进行说明:
本申请提供的口音分类模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102可以控制服务器104进行口音分类模型的训练,当终端102向服务器发送训练指令时,服务器104从数据库中获取训练样本,训练数据包括训练音频和对应的口音类别标签;服务器104将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;服务器104基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种口音分类模型训练方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用到终端,在本实施例中,包括以下步骤:
步骤202,获取训练样本,训练数据包括训练音频和对应的口音类别标签。
其中,训练样本是指训练口音分类模型时使用的样本,包括训练音频和对应的口音类别标签,训练音频是指训练时使用的语音音频,该语音音频是同一语种的不同口音音频。比如,可以是不同国家的英文口音音频,包括美国、英国、中国、印度、日本、韩国、葡萄牙、俄罗斯等等英文口音音频。也可以是不同的方言音频。比如,中文对应的方言音频,包括北方方言、吴方言、湘方言、客家方言、闽方言、粤方言、赣方言、晋方言等等。口音类别标签用于表征训练音频对应的口音类别。每一条训练音频都有对应的口音类别标签。
具体地,服务器可以直接从数据库中获取到训练样本。服务器也可以从互联网中采集到训练样本,比如,服务器从互联网中采集的训练音频,然后对训练音频进行标注得到对应的口音类别标签。服务器也可以从提供数据服务的服务方获取到训练样本。在一个实施例中,服务器可以获取到有对应的口音类别标签的训练音频,也可以获取到训练音频,然后对训练音频进行标注,得到对应的口音类别标签。
步骤204,将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的。
其中,初始口音分类模型是指还未进行训练的口音分类模型,用于使用初始化的模型参数对训练音频进行口音分类。初始口音分类模型中包括初始特征提取网络和初始上下文网络,初始特征提取网络和初始上下文网络的初始化网络参数是基于自监督预训练得到的,初始口音分类模型中还包括口音分类网络,该口音分类网络的网络参数是初始化得到的,比如随机初始化得到,比如,可以都设置为常数等等。自监督预训练是指使用预训练样本提取到的预训练音频上下文语义特征作为预训练结果,并使用预训练样本提取到的量化特征作为标签进行监督训练,训练完成时,得到初始特征提取网络和初始上下文网络,将得到的初始特征提取网络和初始上下文网络提供给初始口音分类模型进行使用。训练音频特征是指初始特征提取网络提取到训练音频的特征。训练音频上下文语义特征是指初始上下文网络提取到的训练音频的上下文语义特征。训练音频口音类别是指使用初始音频分类模型对训练音频进行分类得到的口音类别。
具体地,服务器预先通过自监督预训练得到的初始特征提取网络和初始上下文网络,然后基于初始特征提取网络和初始上下文网络建立初始口音分类模型。其中,可以使用预训练口音音频使用神经网络算法训练得到的初始特征提取网络和初始上下文网络。
然后服务器将训练音频作为初始口音分类模型的输入,将口音类别标签作为初始口音分类模型的标签进行训练。即服务器将训练音频输入初始口音分类模型中,该初始口音分类模型将训练音频输入到初始特征提取网络中进行初始特征提取,得到初始特征提取网络输出的训练音频特征。然后将输出的训练音频特征输入到输入初始上下文网络进行初始上下文语义特征提取,得到训练音频上下文语义特征,在使用训练音频上下文语义特征进行口音分类,从而得到训练音频对应的训练音频口音类别。其中,上下文语义特征提取可以通过子注意机制进行语音特征提取。口音分类可以通过多分类网络来进行分类。
步骤206,基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。
其中,损失信息用于表征训练音频口音类别与对应的口音类别标签之间的误差。
具体地,服务器使用预先设置好的损失函数计算训练音频口音类别和对应的口音类别标签之间的误差,得到损失信息,其中,损失函数可以是分类损失函数,比如,交叉熵损失函数、均方误差损失函数、对数损失函数等等。然后使用该损失信息基于模型优化算数优化初始口音分类模型,比如,可以使用梯度下降算法通过损失信息反向更新初始口音分类模型中的模型参数,也可以使用自适应矩阵估计(Adam)算法更新初始口音分类模型中的模型参数。直到达到训练完成条件时,将训练完成的口音分类模型作为目标口音分类模型。其中,训练完成条件可以是训练次数达到最大迭代次数或者损失信息符合预设损失阈值或者模型收敛等等。
上述口音分类模型训练方法、装置、计算机设备和存储介质,通过获取训练样本,训练数据包括训练音频和对应的口音类别标签;将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。通过使用自监督预训练得到初始特征提取网络和初始上下文网络,然后使用初始特征提取网络和初始上下文网络得到初始口音分类模型,然后进一步训练初始口音分类模型得到目标口音分类模型,从而能够使训练得到的目标口音分类模型在进行口音分类时能够提高准确性。
在一个实施例中,步骤204,即将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,包括步骤:
将训练音频特征输入激活函数网络进行缩放计算,得到缩放特征;基于缩放特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征。
其中,激活函数网络是指用于通过激活函数进行缩放计算的网络,该激活函数可以是GELU(Gaussian Error Linerar Units,高斯误差线性单元)激活函数。GELU非线性的实现是对神经网络的输入进行随机正则化的变化,为输入匹配一个或0或1的随机值。缩放特征是指通过激活函数网络进行计算后得到的特征。
具体地,服务器在进行语义特征提取之前,将训练音频特征输入激活函数网络进行缩放计算,得到缩放特征,然后将缩放特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征。在训练时使用激活函数网络进行计算后再计算训练音频上下文语义特征,能够避免梯度消失,从而使训练得到的目标口音分类模型提高准确性。其中,该激活函数也可以使用其他集合函数,比如,sigmoid激活函数、ReLU(线性整流函数)激活函数、ELU(可以加速训练并且可以提高分类的准确率)激活函数以及更新的Leaky ReLU(参数化的ReLU)激活函数、SELU(缩放指数型线性单元)激活函数等等。
在一个实施例中,步骤204,即基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,包括步骤:
基于训练音频上下文语义特征进行全连接计算,得到初始全连接特征,将初始全连接特征进行平均池化,得到初始池化特征;基于初始池化特征进行初始多分类识别,得到训练音频对应的训练音频口音类别。
其中,初始全连接特征是指通过全连接计算得到的初始特征。全连接计算是指将训练音频上下文语义特征映射到样本标记空间,可以通过卷积操作实现。初始池化特征是指通过池化计算得到的特征。池化用于对得到的初始全连接特征进行降维。使用池化函数来进一步对卷积操作得到的特征映射结果进行处理。平均池化会计算该位置及其相邻矩阵区域内的平均值,并将这个值作为该位置的值。
具体地,服务器使用训练音频上下文语义特征进行全连接计算,得到初始全连接特征,然后将初始全连接特征进行平均池化,得到初始池化特征。最后通过初始池化特征进行多分类任务识别,得到训练音频对应的训练音频口音类别。其中,也可以对初始全连接特征进行最大池化,得到初始池化特征。还可以对初始全连接特征进行L2-范数或者随机池化等,得到初始池化特征。
在上述实施例中,通过将初始全连接特征进行平均池化,得到初始池化特征,然后使用初始池化特征进行多分类任务识别,得到训练音频对应的训练音频口音类别,能够提高得到训练音频口音类别的准确性。
在一个实施例中,如图3所示,步骤206,即基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型,包括:
步骤302,计算训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差。
步骤304,判断当前类别误差是否符合预设误差阈值,当当前类别误差未符合预设误差阈值时,执行步骤306b并返回步骤204执行。当当前类别误差符合预设误差阈值时执行步骤306a。
步骤306a,得到目标口音分类模型。
步骤306b,基于当前类别误差更新初始口音分类模型,得到更新口音分类模型,将更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行。
其中,交叉熵误差是指使用交叉熵损失函数计算得到的误差。当前类别误差是指训练音频口音类别与对应的口音类别标签之间的误差。预设误差阈值是指预先设置好的误差阈值。
具体地,服务器使用交叉熵损失函数计算训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差,然后判断当前类别误差是否符合预设误差阈值,当当前类别误差超过预设误差阈值时,使用当前类别误差反向更新初始口音分类模型中的模型参数,得到更新模型参数的口音分类模型,然后将更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到当前类别误差未超过预设误差阈值时,得到目标口音分类模型。在一个实施例中,判断条件也可以是判断是否达到预设迭代次数,比如,设定迭代10000次,当达到10000次迭代时,得到目标口音分类模型。在一个实施例中,判断条件也可以是判断模型是否收敛,即可以判断模型参数和更新后的模型参数是否发生变化,当未发生变化时,得到目标口音分类模型。
在上述实施例中,通过不断的循环迭代来训练得到的目标口音分类模型,可以使训练得到的目标口音分类模型提高口音分类的准确性。
在一个实施例中,初始口音分类模型包括初始多分类网络,
如图4所示,步骤204,即基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,包括:
步骤402,将训练音频上下文语义特征输入初始多分类网络的全连接网络中进行全连接计算,得到初始全连接特征。
其中,初始口音分类模型包括初始多分类网络,初始多分类网络包括全连接网络和池化网络。全连接网络用于将输入的特征映射成一个固定长度的特征向量。该全连接网络是初始化参数的全连接网络。池化网络用于进行池化计算。
具体地,服务器将训练音频上下文语义特征输入初始多分类网络的全连接网络中进行全连接计算,得到初始全连接特征,在一个具体的实施例中,全连接网络是768*N的全连接层,并且随机初始化该全连接网络层的参数,得到全连接网络。
步骤404,将初始全连接特征输入初始多分类网络的池化网络中进行池化,得到初始池化特征。
具体地,服务器将初始全连接特征输入初始多分类网络的池化网络中进行池化计算,得到输出的初始池化特征。其中,池化网络是指网络参数初始化的平均池化网络。
步骤406,基于初始池化特征进行初始多分类,得到训练音频对应的训练音频口音类别。
具体地,服务器使用初始池化特征进行初始多分类,得到训练音频对应的训练音频口音类别。其中,初始池化特征用于表征各个口音类别对应概率,当口音类别对应概率超过预设的概率阈值时,说明该口音类别对为训练音频对应的训练音频口音类别。
在上述实施例中,通过初始多分类网络进行分类识别,提高了得到训练音频口音类别的准确性。
在一个实施例中,如图5所示,步骤206,基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型,包括:
步骤502,计算训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差,当当前类别误差未符合预设误差阈值时,获取当前迭代次数。
步骤504,当当前迭代次数未达到预设第一迭代次数时,基于当前类别误差更新多分类网络,得到更新多分类网络,基于初始特征提取网络、初始上下文网络和更新多分类网络得到第一更新口音分类模型。
其中,当前迭代次数是指当前训练模型时的迭代次数。初始迭代次数为0,执行步骤循环一次,迭代次数就加一。预设第一迭代次数是预先设置好的更新模型中所有网络参数的迭代次数。比如,可以设置预设第一迭代次数为2000次。
具体地,服务器当当前类别误差未符合预设误差阈值时,获取到当前迭代次数,将当前迭代次数与预设第一迭代次数进行比较,当当前迭代次数未达到预设第一迭代次数时,使用当前类别误差基于梯度下降算法反向更新多分类网络的参数,得到更新后的多分类网络,此时,保持初始特征提取网络和初始上下文网络的参数不变。然后根据初始特征提取网络、初始上下文网络和更新多分类网络得到第一更新口音分类模型,第一更新口音分类模型是更新多分类网络的参数,保持初始特征提取网络和初始上下文网络的参数不变的口音分类模型。
步骤506,将第一更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到达到预设第一迭代次数时,基于达到预设第一迭代次数的类别误差更新对应的初始口音分类模型,得到第二更新口音分类模型。
其中,第二更新口音分类模型是指训练达到预设第一迭代次数时得到的口音分类模型。
具体地,服务器将第一更新口音分类模型作为初始口音分类模型返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到达到预设第一迭代次数时,基于达到预设第一迭代次数的类别误差使用梯度下降法反向更新对应的初始口音分类模型,得到第二更新口音分类模型,即通过达到预设第一迭代次数的类别误差使用梯度下降法反向更新初始特征提取网络的网络参数、更新初始上下文网络中的网络参数以及更新多分类网络中的网络参数,当参数更新完成时,得到第二更新口音分类模型。
步骤508,将第二更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到当前类别误差符合预设误差阈值时,将当前类别误差符合预设阈值的初始口音分类模型作为目标口音分类模型。
具体地,服务器再将第二更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到当前类别误差符合预设误差阈值时,将当前类别误差符合预设阈值的初始口音分类模型作为目标口音分类模型。比如,服务器在2000次迭代之前只更新初始分类网络的参数,在2000次迭代之后更新初始口音分类模型中所有网络的网络参数。
在上述实施例中,通过先更新多分类网络中的参数,当达到一定的迭代次数时,再更新初始口音分类模型中所有网络的参数,有助于在训练时模型能够快速收敛,提高了模型的训练效率。
在一个具体的实施例中,如图6所示,为初始口音分类模型的架构示意图,其中,包括输入网络、全连接网络和平均池化网络,通过自监督预训练得到的特征编码网络以及上下文网络、输出网络。
具体来说:服务器获取到训练样本,将训练样本中的音频输入到初始口音分类模型,初始口音分类模型接收到音频进行帧级别的处理,即将每一帧音频对应的波形输入到特征编码网络中进行特征编码,得到初始音频特征,其中,该特征编码网络可以是使用7层CNN(Convolutional Neural Networks,卷积神经网络)网络,每个CNN网络层有512个channel(通道),对应步长分别是(5,2,2,2,2,2,2),对应的卷积核大小分别是(10,3,3,3,3,2,2)。然后将初始音频特征输入到上下文网络中进行上下文语义提取,得到初始上下文语义特征,其中,上下文网络可以是使用12层transformer(深度自注意力变换网络:依靠自注意力机制来计算其输入和输出表示的转换模型),模型维度为768,内部全连接层维度为3072,multi-head attention(多头注意力)使用8头。然后将初始上下文语义特征输入到全连接层中进行全连接计算,该全连接层可以是一层768*N的全连接层,得到初始全连接特征,将初始全连接特征在输入到句子级别的池化层中进行池化,得到池化特征,然后根据池化特征得到训练音频对应的训练口音类别,然后使用训练口音类别与训练样本中的标签使用交叉熵损失函数计算误差,当误差符合预设误差阈值时,得到目标口音分类模型。
在一个实施例中,如图7所示,在步骤202之前,即在获取训练样本之前,还包括:
步骤702,获取预训练数据,预训练数据包括预训练口音音频。
其中,预训练数据是进行预训练时使用的数据,该数据是没有标签的数据。预训练口音音频是指预训练时使用的口音音频。
具体地,服务器可以直接从数据库中获取到预训练数据,也可以从互联网中采集到预训练数据,还可以从提供数据服务的服务方获取到预训练数据,比如,可以从互联网获取到librispeech(大规模英语语料库)数据得到预训练数据。
步骤704,将预训练口音音频输入初始预训练口音分类模型中,初始预训练口音分类模型通过初始预训练特征提取网络对预训练口音音频进行特征提取,得到预训练音频特征,将预训练音频特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,并将预训练音频特征输入初始量化网络中进行离散化,得到预训练量化特征。
其中,初始预训练口音分类模型是指模型参数初始化的预训练口音分类模型。该模型参数可以是随机初始化得到的,也开始是按照设定好的值进行初始化等等。初始预训练口音分类模型中包括初始预训练特征提取网络、初始预训练上下文网络和初始量化网络。初始预训练特征提取网络用于在预训练中对音频进行特征提取,初始预训练上下文网络用于进行上下文语义提取,可以是通过自注意力机制进行上下文语义提取。初始量化网络用于对输入特征进行离散化处理,其中,初始量化网络的网络参数在训练过程中可以保持不变。
具体地,服务器将预训练口音音频输入初始预训练口音分类模型中,初始预训练口音分类模型通过初始预训练特征提取网络对预训练口音音频进行特征提取,得到预训练音频特征,将预训练音频特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,并将预训练音频特征输入初始量化网络中进行离散化,得到预训练量化特征。其中,初始预训练特征提取网络是有多层CNN构成,用于将陨石的语音波形提取特征表示。初始预训练上下文网络主要由多层transformer结构构成,即通过自注意力机制提取上下文语义特征。预训练量化特征是初始量化网络输出的特征,用于作为监督信息来训练模型。
步骤706,基于预训练上下文语义特征和预训练量化特征计算预训练损失信息,基于预训练损失信息更新初始预训练口音分类模型,当预训练完成时,得到预训练口音分类模型。
其中,预训练损失信息用于表征预训练上下文语义特征和预训练量化特征之间的误差。预训练口音分类模型是指预训练得到的口音分类模型,该预训练口音分类模型中预训练得到的特征提取网络和上下文网络可以作为初始口音分类模型中的初始特征提取网络和初始上下文网络。
具体地,服务器使用预训练损失函数计算预训练上下文语义特征和预训练量化特征之间的误差,得到预训练损失信息,使用预训练损失信息反向更新初始预训练口音分类模型中的参数,当预训练完成时,得到预训练口音分类模型。基于预训练口音分类模型的特征提取网络和上下文网络建立初始口音分类模型,即将预训练口音分类模型的特征提取网络和上下文网络作为初始口音分类模型中的初始特征提取网络和初始上下文网络。
在上述实施例中,通过预先使用预训练样本训练得到的预训练口音分类模型,然后根据预训练口音分类模型建立初始口音分类模型,然后对初始口音分类模型进行训练得到目标口音分类模型,从而能够使训练得到的目标口音分类模型提高口音分类的准确性。
在一个实施例中,步骤704,通过初始预训练特征提取网络对预训练口音音频进行特征提取,得到预训练音频特征之后,还包括:
通过掩膜操作将预训练音频特征进行数据增强,得到预训练音频掩膜特征。
其中,掩膜操作是指masking操作,即对预训练音频特征进行掩蔽。
具体地,服务器通过掩膜操作将预训练音频特征进行数据增强,得到预训练音频掩膜特征。比如,预训练音频特征为一个10位的向量,masking操作是指将这个向量的10个数都设置成0或者其他随机数的操作。
步骤704,将预训练音频特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,包括:
将预训练音频掩膜特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征。
具体地,服务器将预训练音频掩膜特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,在一个实施例中,服务器也可以将预训练音频掩膜特征和预训练音频特征合并输入到初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征。
在上述实施例中,通过掩膜操作得到预训练音频掩膜特征,然后使用预训练音频掩膜特征进行语义特征提取,得到预训练上下文语义特征,能够提高得到的预训练上下文语义特征的准确性。
在一个实施例中,如图8所示,步骤706,基于预训练上下文语义特征和预训练量化特征计算预训练损失信息,包括:
步骤802,计算预训练上下文语义特征中目标帧上下文语义特征与预训练量化特征中对应的目标帧量化特征的第一相关程度。
其中,目标帧上下文语义特征是指目标帧的音频对应的上下文语义特征。目标帧量化特征是指目标帧对应的量化特征。目标帧是指预训练口音音频中的音频帧。第一相关程度用于表征目标帧上下文语义特征与目标帧量化特征之间的相关性,该相关性越高训练得到的模型准确性越高。
具体地,服务器使用相似度算法计算预训练上下文语义特征中目标帧上下文语义特征与预训练量化特征中对应的目标帧量化特征的第一相关程度,相似度算法可以是余弦相似度算法、欧式距离相似度算法等等。其中,可以使用如下所示的公式(1)即余弦相似度计算公式计算第一相关程度。
其中,ct表示t时刻的音频帧对应的上下文语义特征,qt表示t时刻的音频帧对应的量化特征。
步骤804,从预训练量化特征中选取特定帧对应的预训练量化特征,得到干扰量化特征,并计算目标帧上下文语义特征与干扰量化特征的第二相关程度。
其中,特定帧是指除目标帧以外的其他音频帧,该特定帧可以是从除目标帧以外的其他音频帧随机选取得到的。干扰量化特征是指特定帧对应的预训练量化特征。第二相关程度用于表征预训练上下文语义特征与干扰量化特征的相关性,该相关性越低,训练得到的模型准确性越高。
具体地,服务器从预训练量化特征中选取特定帧对应的预训练量化特征,得到干扰量化特征,其中,可以选取多个干扰量化特征。然后使用相似度算法计算目标帧上下文语义特征与干扰量化特征的第二相关程度。其中,可以使用如下所示的公式(2)即余弦相似度计算公式计算第一相关程度。
步骤806,基于第一相关程度和第二相关程度计算预训练损失信息。
具体地,服务器可以基于预先设置好的损失函数使用第一相关程度和第二相关程度计算预训练损失信息。比如,可以使用如下所示的公式(3)即对数损失函数计算预训练损失信息。
其中,sim(ct,qt)表示第一相关程度,表示第二相关程度。K表示有K个干扰量化特征,K为正整数,可以预先设置好。Qt表示预训练量化特征即预训练口音音频中所有帧的量化特征。表示计算所有干扰量化特征与对应的上下文语义特征之间的相关程度之和。
在上述实施例中,通过计算目标帧上下文语义特征与对应的目标帧量化特征第一相关程度以及目标帧上下文语义特征与干扰量化特征的第二相关程度,然后基于第一相关程度和第二相关程度使用对数损失函数计算得到预训练损失信息,能够计算得到的预训练损失信息更加准确。
在一个实施例中,如图9所述,步骤706,即基于预训练损失信息更新初始预训练口音分类模型,当预训练完成时,得到预训练口音分类模型,包括:
步骤902,基于预训练上下文语义特征和预训练量化特征计算预训练损失信息。
步骤904,判断预训练损失信息是否符合预训练完成条件,当预训练损失信息未符合预训练完成条件时,执行步骤906b并返回步骤704执行。当预训练损失信息符合预训练完成条件时,执行步骤906a。
步骤906b,基于预训练损失信息更新初始预训练口音分类模型,得到更新预训练口音分类模型,将更新预训练口音分类模型作为预训练初始口音分类模型。
步骤906a,将符合预训练完成条件的初始预训练口音分类模型作为预训练口音分类模型。
其中,预训练完成条件是指训练得到预训练口音分类模型的条件,可以包括预训练迭代次数达到最大迭代次数、预训练损失信息达到预设损失阈值或者预训练得到的模型参数不再发生变化。
具体地,服务器在计算得到预训练损失信息,判断预训练损失信息是否符合预训练完成条件,或者判断预训练迭代次数是否达到最大迭代次数,或者判断预训练得到的模型参数与上一次迭代训练时得到的模型参数相比是否发生变化。此时,当符合训练完成条件时,将符合训练完成条件的口音分类模型作为预训练口音分类模型。当未符合训练完成条件时,将更新模型参数的口音分类模型作为初始预训练口音分类模型进行训练,直到得到预训练口音分类模型。
在上述实施例中,通过基于预训练损失信息来不断循环迭代训练得到预训练口音分类模型,能够提高得到的预训练口音分类模型的准确性。
在一个实施例中,基于预训练损失信息更新初始预训练口音分类模型,得到更新预训练口音分类模型,包括:
获取初始学习率;基于预训练损失信息和初始学习率更新初始预训练口音分类模型,得到更新预训练口音分类模型。
其中,初始学习率是指初始设置好的进行预训练时使用的学习率。
具体地,服务器获取到初始学习率,使用预训练损失信息和初始学习率计算梯度,然后使用梯度反向更新初始预训练口音分类模型中的参数,得到更新预训练口音分类模型。其中,可以使用Adam(adaptive moment estimation自适应矩估计)优化函数进行优化。
在一个具体的实施例中,在进行预训练时总共训练400k个迭代,初始设置一个较小的学习率,然后前8%使用warming up预热学习率进行预训练预热学习,最大的学习率为0.005,即预热学习完成时,使用最大的学习率为0.005进行后续的迭代学习,后续的迭代学习中学习率可以线性减少。
如图10所示,将更新预训练口音分类模型作为预训练初始口音分类模型,并返回将预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,直到预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为预训练口音分类模型,包括:
步骤1002,基于初始学习率和预设线性递减关系计算得到更新学习率。
具体地,预设线性递减关系是指预先设置好的线性递减关系,用于使初始学习率进行线性递减,得到更新的学习率。比如,可以使用如下所示的公式(4)0计算更新学习率,
其中,a表示初始学习率,c是常数,根据需求设置,i表示当前迭代的次数,N表示最大迭代次数。
步骤1004,将更新学习率作为初始学习率,并将更新预训练口音分类模型作为预训练初始口音分类模型。
步骤1006,返回将预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,当初始学习率达到预设学习率时,基于预设学习率迭代执行,直到预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为预训练口音分类模型。
其中,预设学习率是指预先设置好的最大学习率。
具体地,服务器将更新学习率作为初始学习率,并将更新预训练口音分类模型作为预训练初始口音分类模型。返回将预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,当初始学习率达到预设学习率时,使用预设学习率进行迭代循环,即在后续的迭代循环中保存预设学习率不变,进行循环迭代,直到预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为预训练口音分类模型。
在上述实施例中,通过将学习率线性减少进行迭代训练,从而有助于得到更好的网络收敛效率,提高预训练口音分类模型的训练效率。
在一个具体的实施例中,如图11所示,为预训练口音分类模型的架构示意图,具体来说:
服务器将预训练的口音音频raw waveform(原始波形)对应X输入到CNN网络中,得到输出的语音特征(Latent speech representations)Z,然后将z进行离散化,得到量化特征(Quantized representations)Q,并将z进行masking操作之后,输入到上下文网络中,得到输出的上下文特征(context representations)C。然后使用对比损失(Contrastiveloss)函数计算C与Q之间的损失信息,其中,预训练音频掩膜特征t时刻对应的上下文网络的输出为ct。对应的离散化后的量化特征为qt,通过从Qt中获取到K个干扰特征然后使用公式(3)计算得到损失信息。然后再根据损失信息反向更新预训练的口音分类模型,直到当损失信息达到预设阈值时,预训练完成时,得到预训练口音分类模型,然后在建立初始口音分类模型时可以将预训练口音分类模型中的上下文网络和特征提取网络直接作为初始口音分类模型中的初始上下文网络和初始特征提取网络。即共享网络参数。
在一个实施例中,如图12所示,提供了一种口音分类方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用到终端,在本实施例中,包括以下步骤:
步骤1202,获取待分类音频,将待分类音频输入口音分类模型中。
具体地,服务器获取到待分类音频,其中,待分类音频可以是通过语音采集得到的语音,比如,可以是通过智能音箱,智能机器人、智能语音交互系统如车载语音系统等采集到的语音。该待分类音频也可以是数据库中保存的待识别的音频。该待分类音频也可以是第三方发送的音频,即服务器向该第三方提供口音分类服务,第三方使用服务器提供口音分类服务进行业务处理。
将待分类音频输入口音分类模型中,该口音分类模型可以是使用上述任意实施例中训练得到的目标口音分类模型。即该口音分类模型是可以通过预训练得到的特征提取网络和上下文网络建立初始口音分类模型,然后对初始口音分类模型进行训练得到口音分类模型。然后将口音分类模型部署到服务器中进行使用。在预训练特征提取网络和上下文网络时,通过计算预训练上下文语义特征和预训练量化特征和第一相关程度,并计算预训练上下文语义特征和干扰量化特征的第二相关程度,使用第一相关程度和第二相关程度来计算预训练损失信息,然后基于预训练损失信息进行优化迭代。即通过计算预训练上下文语义特征中目标帧上下文语义特征与预训练量化特征中对应的目标帧量化特征的第一相关程度,以及从预训练量化特征中选取特定帧对应的预训练量化特征,得到干扰量化特征,并计算目标帧上下文语义特征与干扰量化特征的第二相关程度,基于第一相关程度和第二相关程度计算预训练损失信息,然后基于预训练损失信息进行优化迭代,得到预训练的特征提取网络和上下文网络。
步骤1204,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别。
步骤1206,口音分类模型输出待分类音频对应的口音类别。
其中,待分类音频特征是指待分类音频进行特征提取得到的特征,待分类音频上下文语义特征用于表征待分类音频对应的上下文语义特征。口音类别是指待分类音频具体地口音类别。
具体地,服务器中的口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征通过多分类网络进行分类得到待分类音频对应的口音类别,并将计算得到口音类别输出。
在上述实施例中,通过使用训练得到的口音分类模型对待分类音频进行口音分类,提高了得到的口音类别的准确性。
在一个具体的实施例中,如图13所示,提供一种口音分类模型训练方法,具体包括以下步骤:
步骤1302,获取预训练数据,预训练数据包括预训练口音音频;
步骤1304,将预训练口音音频输入初始预训练口音分类模型中,初始预训练口音分类模型通过初始预训练特征提取网络对预训练口音音频进行特征提取,得到预训练音频特征,将预训练音频特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,并将预训练音频特征输入初始量化网络中进行离散化,得到预训练量化特征。其中,在得到预训练音频特征时,对预训练音频特征进行masking操作,将masking操作结果作为初始预训练上下文网络的输入。并且在将预训练音频特征输入初始预训练上下文网络进行语义特征提取之前,将预训练音频特征经过激活函数层进行计算,该激活函数层可以是GELU函数。
步骤1306,计算预训练上下文语义特征中目标帧上下文语义特征与预训练量化特征中对应的目标帧量化特征的第一相关程度;从预训练量化特征中选取特定帧对应的预训练量化特征,得到干扰量化特征,并计算目标帧上下文语义特征与干扰量化特征的第二相关程度。
步骤1308,基于第一相关程度和第二相关程度计算预训练损失信息,基于预训练损失信息更新初始预训练口音分类模型,当预训练完成时,得到预训练口音分类模型。具体来说:基于第一相关程度和第二相关程度计算预训练损失信息,并获取初始学习率,基于预训练损失信息和初始学习率更新初始预训练口音分类模型,得到更新预训练口音分类模型。基于初始学习率和预设线性递减关系计算得到更新学习率,将更新学习率作为初始学习率,并将更新预训练口音分类模型作为预训练初始口音分类模型,返回将预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,当初始学习率达到预设学习率时,基于预设学习率迭代执行,直到预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为预训练口音分类模型。
步骤1310,根据预训练口音分类模型中的特征提取网络和上下文网络建立初始口音分类模型,并获取训练样本,训练数据包括训练音频和对应的口音类别标签。
步骤1312,将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征。
步骤1314,将训练音频上下文语义特征输入初始多分类网络的全连接网络中进行全连接计算,得到初始全连接特征;将初始全连接特征输入初始多分类网络的池化网络中进行池化,得到初始池化特征;基于初始池化特征进行初始多分类,得到训练音频对应的训练音频口音类别。
步骤1316,基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。具体来说:计算训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差,当当前类别误差未符合预设误差阈值时,获取当前迭代次数;当当前迭代次数未达到预设第一迭代次数时,基于当前类别误差更新多分类网络,得到更新多分类网络,基于初始特征提取网络、初始上下文网络和更新多分类网络得到第一更新口音分类模型,将第一更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到达到预设第一迭代次数时,基于达到预设第一迭代次数的类别误差更新对应的初始口音分类模型,得到第二更新口音分类模型;将第二更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到当前类别误差符合预设误差阈值时,将当前类别误差符合预设阈值的初始口音分类模型作为目标口音分类模型。
本申请还提供一种应用场景,该应用场景应用上述的口音分类方法。具体地,该口音分类方法在该应用场景的应用如下:
如图14所示,为口音分类的应用场景示意图,该语音识别应用于车联网系统中。具体来说,通过使用上述任意实施例中训练得到目标口音分类模型,然后将目标口音分类模型部署到服务器中进行车联网系统语音识别任务处理。此时,用户通过车辆中的语音交互系统进行语音交互,即车辆终端获取到待识别语音,将待识别语音发送云服务器,云服务器在进行语音识别任务处理时,获取到待识别语音,将待识别语音先通过目标口音分类模型进行口音分类,即将待识别语音输入口音分类模型中,口音分类模型通过特征提取网络对待识别语音进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待识别语音对应的口音类别,输出待识别语音对应的口音类别,得到不同类型的口音,然后将不同类型的口音通过不同的识别模型进行识别,得到识别得到的语音文本,然后根据识别得到的语音文本匹配对应的回答语音,将回答语音发送车辆终端中,车辆终端接收到回答语音进行播放。其中,由于通过目标口音分类模型进行口音分类,使得到的口音类型提高了准确性,然后通过对应的识别模型进行识别,从而使口音语音识别更加的准确。该口音分类方法也可以应用到需要进行口音语音识别的场景中,比如,使用语音在地图中查询地理位置的场景中,与智能机器人进行语音交互的场景中等等。
本申请还提供一种应用场景,该应用场景应用上述的口音分类方法。具体地,该口音分类方法在该应用场景的应用如下:
如图15所示,为通过即时通讯软件进行语音沟通的界面示意图。其中,用户A使用语音进行沟通,该用户A的语音带有口音,用户B通过文本输入与用户A沟通,当用户A发送语音“今天下午一起去图书管吗?”到用户B时,用户B通过点击用户A的语音进行文本转换,此时,服务器使用部署好的口音分类模型进行口音分类,该口音分类模型可以是使用上述任意实施例中训练得到的目标口音分类模型。然后服务器将用户A的语音作为待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别,输出待分类音频对应的口音类别,即服务器得到用户A的口音类别,然后将用户A的音频发送到用户A的口音类别对应的口音识别模型中进行识别,得到用户A语音的文本,服务器将用户A的语音文本发送到用户B进行展示,用户B根据用户A语音的文本回复“一起去啊”的文本。
本申请还提供一种应用场景,该应用场景应用上述的口音分类方法。具体地,该口音分类方法在该应用场景的应用如下:
该口音分类方法应用在地图应用中,为用户提供语音搜索位置的服务。具体来说,用户使用地图应用的语音搜索服务时,当用户终端的地图应用接收到语音采集指令时,通过麦克风采集到用户的语音,该用户的语音带有口音,可以是“搜索xx的位置”,用户终端的地图应用将采集到的用户语音发送到服务器中,以使服务器使用部署好的口音分类模型进行口音分类,该口音分类模型可以是使用上述任意实施例中训练得到的目标口音分类模型。然后服务器将“搜索xx的位置”的语音作为待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别,输出待分类音频对应的口音类别,即服务器得到“搜索xx的位置”的口音类别,然后将“搜索xx的位置”发送到该口音类别对应的口音识别模型中进行识别,得到“搜索xx的位置”的识别结果,服务器根据该识别结果查询到“xx”的具体地理位置,然后将具体地理位置返回到用户终端,用户终端接收到“xx”的具体地理位置,将该“xx”的具体地理位置在地图应用的地图界面中进行展示。
在一个具体的实施例中,可以对训练得到的目标口音分类模型进行测试,具体来说:获取到960小时的librispeech数据,使用的口音训练数据包含8种口音的英文,分别是俄罗斯、韩国、美国、葡萄牙、日本、印度、英国以及中国。每个不同类型的口音约20小时的训练数据,训练得到目标口音分类模型。然后使用测试数据进行测试,如下表1所示:
表1测试数据表
口音 | 训练数据量(小时) | 测试数据(条数) |
美国(AM) | 20 | 1427 |
英国(BR) | 20 | 1582 |
中国(CH) | 20 | 1491 |
印度(IN) | 20 | 1314 |
日本(JA) | 20 | 1489 |
韩国(KO) | 20 | 1459 |
葡萄牙(PO) | 20 | 1617 |
俄罗斯(RU) | 20 | 1617 |
然后使用测试数据表1的数据进行对比测试,得到与现有技术的对比测试结果,该对比测试结果如下表2所示。
表2测试结果对比表
方法 | 分类错误率 |
现有技术1 | 36.16 |
现有技术2 | 40.86 |
本申请 | 24.80 |
其中,明显可以看出,本申请中测试得到的口音分类的准确性明显优于其他两个现有技术。进一步的,测试得到了每个不同类型英语口音的准确性,包括:俄罗斯、韩国、美国、葡萄牙、日本、印度、英国以及中国对应的英语口音分类准确性,具体如下表3所示:
表3测试结果细分表
分类详情 | AM | BR | CH | IN | JA | KO | PO | RU |
AM | 0.797 | 0.102 | 0.001 | 0.000 | 0.006 | 0.009 | 0.074 | 0.011 |
BR | 0.022 | 0.876 | 0.016 | 0.000 | 0.027 | 0.000 | 0.015 | 0.044 |
CH | 0.015 | 0.001 | 0.568 | 0.000 | 0.264 | 0.001 | 0.000 | 0.151 |
IN | 0.022 | 0.000 | 0.005 | 0.950 | 0.007 | 0.000 | 0.009 | 0.007 |
JA | 0.005 | 0.000 | 0.003 | 0.000 | 0.627 | 0.345 | 0.000 | 0.020 |
KO | 0.001 | 0.001 | 0.014 | 0.003 | 0.375 | 0.551 | 0.014 | 0.040 |
PO | 0.012 | 0.011 | 0.017 | 0.001 | 0.017 | 0.015 | 0.886 | 0.040 |
RU | 0.002 | 0.001 | 0.051 | 0.000 | 0.012 | 0.002 | 0.172 | 0.761 |
其中,英国口音、印度口音、葡萄牙口音分类准确率比较高,在85%以上,并且从整体上看测试结果是明显优于现有技术的测试结果的。因此,本申请训练得到的目标口音分类模型能够提升口音分类的准确性。
应该理解的是,虽然图2-13中的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-13中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图16所示,提供了一种口音分类模型训练装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:样本获取模块1602、训练模块1604和迭代模块1606,其中:
样本获取模块1602,用于获取训练样本,训练数据包括训练音频和对应的口音类别标签;
训练模块1604,用于将训练音频输入初始口音分类模型中,初始口音分类模型通过初始特征提取网络对训练音频进行特征提取,得到训练音频特征,将训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于训练音频上下文语义特征得到训练音频对应的训练音频口音类别,初始特征提取网络和初始上下文网络的网络参数是基于自监督预训练得到的;
迭代模块1606,用于基于训练音频口音类别和对应的口音类别标签计算损失信息,基于损失信息更新初始口音分类模型,当训练完成时,得到目标口音分类模型。
在一个实施例中,训练模块1604还用于将训练音频特征输入激活函数网络进行缩放计算,得到缩放特征;基于缩放特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征。
在一个实施例中,训练模块1604还用于基于训练音频上下文语义特征进行全连接计算,得到初始全连接特征,将初始全连接特征进行平均池化,得到初始池化特征;基于初始池化特征进行初始多分类识别,得到训练音频对应的训练音频口音类别。
在一个实施例中,迭代模块1606还用于计算训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差,当当前类别误差未符合预设误差阈值时,基于当前类别误差更新初始口音分类模型,得到更新口音分类模型,将更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到当前类别误差符合预设误差阈值时,得到目标口音分类模型。
在一个实施例中,初始口音分类模型包括初始多分类网络;
训练模块1604还用于将训练音频上下文语义特征输入初始多分类网络的全连接网络中进行全连接计算,得到初始全连接特征;将初始全连接特征输入初始多分类网络的池化网络中进行池化,得到初始池化特征;基于初始池化特征进行初始多分类,得到训练音频对应的训练音频口音类别。
在一个实施例中,迭代模块1606还用于计算训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差,当当前类别误差未符合预设误差阈值时,获取当前迭代次数;当当前迭代次数未达到预设第一迭代次数时,基于当前类别误差更新多分类网络,得到更新多分类网络,基于初始特征提取网络、初始上下文网络和更新多分类网络得到第一更新口音分类模型;将第一更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到达到预设第一迭代次数时,基于达到预设第一迭代次数的类别误差更新对应的初始口音分类模型,得到第二更新口音分类模型;将第二更新口音分类模型作为初始口音分类模型,并返回将训练音频输入初始口音分类模型中的步骤迭代执行,直到当前类别误差符合预设误差阈值时,将当前类别误差符合预设阈值的初始口音分类模型作为目标口音分类模型。
在一个实施例中,口音分类模型训练装置1600,还包括:
预训练数据获取模块,用于获取预训练数据,预训练数据包括预训练口音音频;
预训练模块,用于将预训练口音音频输入初始预训练口音分类模型中,初始预训练口音分类模型通过初始预训练特征提取网络对预训练口音音频进行特征提取,得到预训练音频特征,将预训练音频特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,并将预训练音频特征输入初始量化网络中进行离散化,得到预训练量化特征;
预训练模型得到模块,用于基于预训练上下文语义特征和预训练量化特征计算预训练损失信息,基于预训练损失信息更新初始预训练口音分类模型,当预训练完成时,得到预训练口音分类模型。
在一个实施例中,预训练模块还用于通过掩膜操作将预训练音频特征进行数据增强,得到预训练音频掩膜特征;预训练模块还用于:将预训练音频掩膜特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征。
在一个实施例中,预训练模型得到模块还用于计算预训练上下文语义特征中目标帧上下文语义特征与预训练量化特征中对应的目标帧量化特征的第一相关程度;从预训练量化特征中选取特定帧对应的预训练量化特征,得到干扰量化特征,并计算目标帧上下文语义特征与干扰量化特征的第二相关程度;基于第一相关程度和第二相关程度计算预训练损失信息。
在一个实施例中,预训练模型得到模块还用于当预训练损失信息未符合预训练完成条件时,基于预训练损失信息更新初始预训练口音分类模型,得到更新预训练口音分类模型,将更新预训练口音分类模型作为预训练初始口音分类模型;并返回将预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,直到预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为预训练口音分类模型。
在一个实施例中,预训练模型得到模块还用于获取初始学习率;基于预训练损失信息和初始学习率更新初始预训练口音分类模型,得到更新预训练口音分类模型;预训练模型得到模块还用于基于初始学习率和预设线性递减关系计算得到更新学习率;将更新学习率作为初始学习率,并将更新预训练口音分类模型作为预训练初始口音分类模型;返回将预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,当初始学习率达到预设学习率时,基于预设学习率迭代执行,直到预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为预训练口音分类模型。
在一个实施例中,如图17所示,提供了一种口音分类装置1700,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:音频分类模块1702和类别得到模块1704,其中:
音频分类模块,用于获取待分类音频,将待分类音频输入口音分类模型中,口音分类模型通过特征提取网络对待分类音频进行特征提取,得到待分类音频特征,将待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于待分类音频上下文语义特征计算得到待分类音频对应的口音类别;
类别得到模块,用于口音分类模型输出待分类音频对应的口音类别。
关于口音分类模型训练装置和口音分类装置的具体限定可以参见上文中对于口音分类模型训练方法和口音分类方法的限定,在此不再赘述。上述口音分类模型训练装置和口音分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图18所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种口音分类模型训练方法和口音分类方法。
本领域技术人员可以理解,图18中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种口音分类模型训练方法,其特征在于,所述方法包括:
获取训练样本,所述训练数据包括训练音频和对应的口音类别标签;
将所述训练音频输入初始口音分类模型中,所述初始口音分类模型通过初始特征提取网络对所述训练音频进行特征提取,得到训练音频特征,将所述训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于所述训练音频上下文语义特征得到所述训练音频对应的训练音频口音类别,所述初始特征提取网络和所述初始上下文网络的网络参数是基于自监督预训练得到的;
基于所述训练音频口音类别和对应的口音类别标签计算损失信息,基于所述损失信息更新所述初始口音分类模型,当训练完成时,得到目标口音分类模型。
2.根据权利要求1所述的方法,其特征在于,所述将所述训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,包括:
将所述训练音频特征输入激活函数网络进行缩放计算,得到缩放特征;
基于所述缩放特征输入所述初始上下文网络进行语义特征提取,得到训练音频上下文语义特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述训练音频上下文语义特征得到所述训练音频对应的训练音频口音类别,包括:
基于所述训练音频上下文语义特征进行全连接计算,得到初始全连接特征,将所述初始全连接特征进行平均池化,得到初始池化特征;
基于所述初始池化特征进行初始多分类识别,得到所述训练音频对应的训练音频口音类别。
4.根据权利要求1所述的方法,其特征在于,所述基于所述训练音频口音类别和对应的口音类别标签计算损失信息,基于所述损失信息更新所述初始口音分类模型,当训练完成时,得到目标口音分类模型,包括:
计算所述训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差;
当所述当前类别误差未符合预设误差阈值时,基于所述当前类别误差更新所述初始口音分类模型,得到更新口音分类模型;
将所述更新口音分类模型作为初始口音分类模型,并返回将所述训练音频输入所述初始口音分类模型中的步骤迭代执行,直到当前类别误差符合预设误差阈值时,得到所述目标口音分类模型。
5.根据权利要求1所述的方法,其特征在于,所述初始口音分类模型包括初始多分类网络;
所述基于所述训练音频上下文语义特征得到所述训练音频对应的训练音频口音类别,包括:
将所述训练音频上下文语义特征输入所述初始多分类网络的全连接网络中进行全连接计算,得到初始全连接特征;
将所述初始全连接特征输入所述初始多分类网络的池化网络中进行池化,得到初始池化特征;
基于所述初始池化特征进行初始多分类,得到所述训练音频对应的训练音频口音类别。
6.根据权利要求5所述的方法,其特征在于,所述基于所述训练音频口音类别和对应的口音类别标签计算损失信息,基于所述损失信息更新所述初始口音分类模型,当训练完成时,得到目标口音分类模型,包括:
计算所述训练音频口音类别与对应的口音类别标签的交叉熵误差,得到当前类别误差,当所述当前类别误差未符合预设误差阈值时,获取当前迭代次数;
当所述当前迭代次数未达到预设第一迭代次数时,基于所述当前类别误差更新所述初始多分类网络,得到更新多分类网络,基于所述初始特征提取网络、所述初始上下文网络和所述更新多分类网络得到第一更新口音分类模型;
将所述第一更新口音分类模型作为初始口音分类模型,并返回将所述训练音频输入所述初始口音分类模型中的步骤迭代执行,直到达到预设第一迭代次数时,基于达到预设第一迭代次数的类别误差更新对应的初始口音分类模型,得到第二更新口音分类模型;
将所述第二更新口音分类模型作为初始口音分类模型,并返回将所述训练音频输入所述初始口音分类模型中的步骤迭代执行,直到当前类别误差符合预设误差阈值时,将当前类别误差符合预设阈值的初始口音分类模型作为所述目标口音分类模型。
7.根据权利要求1所述的方法,其特征在于,在所述获取训练样本之前,还包括:
获取预训练数据,所述预训练数据包括预训练口音音频;
将所述预训练口音音频输入初始预训练口音分类模型中,所述初始预训练口音分类模型通过初始预训练特征提取网络对所述预训练口音音频进行特征提取,得到预训练音频特征,将所述预训练音频特征输入初始预训练上下文网络进行语义特征提取,得到预训练上下文语义特征,并将所述预训练音频特征输入初始量化网络中进行离散化,得到预训练量化特征;
基于所述预训练上下文语义特征和所述预训练量化特征计算预训练损失信息,基于所述预训练损失信息更新所述初始预训练口音分类模型,当预训练完成时,得到预训练口音分类模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述预训练上下文语义特征和所述预训练量化特征计算预训练损失信息,包括:
计算所述预训练上下文语义特征中目标帧上下文语义特征与所述预训练量化特征中对应的目标帧量化特征的第一相关程度;
从所述预训练量化特征中选取特定帧对应的预训练量化特征,得到干扰量化特征,并计算所述目标帧上下文语义特征与所述干扰量化特征的第二相关程度;
基于所述第一相关程度和所述第二相关程度计算预训练损失信息。
9.根据权利要求7所述的方法,其特征在于,所述基于所述预训练损失信息更新所述初始预训练口音分类模型,当预训练完成时,得到预训练口音分类模型,包括:
当所述预训练损失信息未符合预训练完成条件时,基于所述预训练损失信息更新所述初始预训练口音分类模型,得到更新预训练口音分类模型;
将所述更新预训练口音分类模型作为预训练初始口音分类模型,并返回将所述预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,直到所述预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为所述预训练口音分类模型。
10.根据权利要求9所述的方法,其特征在于,所述基于所述预训练损失信息更新所述初始预训练口音分类模型,得到更新预训练口音分类模型,包括:
获取初始学习率;
基于所述预训练损失信息和所述初始学习率更新所述初始预训练口音分类模型,得到更新预训练口音分类模型;
所述将所述更新预训练口音分类模型作为预训练初始口音分类模型,并返回将所述预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,直到所述预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为所述预训练口音分类模型,包括:
基于所述初始学习率和预设线性递减关系计算得到更新学习率;
将所述更新学习率作为初始学习率,并将所述更新预训练口音分类模型作为预训练初始口音分类模型;
返回将所述预训练口音音频输入初始预训练口音分类模型中的步骤迭代执行,当所述初始学习率达到预设学习率时,基于所述预设学习率迭代执行,直到所述预训练损失信息符合预训练完成条件时,将符合预训练完成条件的初始预训练口音分类模型作为所述预训练口音分类模型。
11.一种口音分类方法,其特征在于,所述方法包括:
获取待分类音频,将所述待分类音频输入口音分类模型中,所述口音分类模型通过特征提取网络对所述待分类音频进行特征提取,得到待分类音频特征,将所述待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于所述待分类音频上下文语义特征计算得到所述待分类音频对应的口音类别;
所述口音分类模型输出所述待分类音频对应的口音类别。
12.一种口音分类模型训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取训练样本,所述训练数据包括训练音频和对应的口音类别标签;
训练模块,用于将所述训练音频输入初始口音分类模型中,所述初始口音分类模型通过初始特征提取网络对所述训练音频进行特征提取,得到训练音频特征,将所述训练音频特征输入初始上下文网络进行语义特征提取,得到训练音频上下文语义特征,基于所述训练音频上下文语义特征得到所述训练音频对应的训练音频口音类别,所述初始特征提取网络和所述初始上下文网络的网络参数是基于自监督预训练得到的;
迭代模块,用于基于所述训练音频口音类别和对应的口音类别标签计算损失信息,基于所述损失信息更新所述初始口音分类模型,当训练完成时,得到目标口音分类模型。
13.一种口音分类装置,其特征在于,所述装置包括:
音频分类模块,用于获取待分类音频,将所述待分类音频输入口音分类模型中,所述口音分类模型通过特征提取网络对所述待分类音频进行特征提取,得到待分类音频特征,将所述待分类音频特征输入上下文网络进行语义特征提取,得到待分类音频上下文语义特征,基于所述待分类音频上下文语义特征计算得到所述待分类音频对应的口音类别;
类别得到模块,用于所述口音分类模型输出所述待分类音频对应的口音类别。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110106391.5A CN113593525B (zh) | 2021-01-26 | 2021-01-26 | 口音分类模型训练和口音分类方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110106391.5A CN113593525B (zh) | 2021-01-26 | 2021-01-26 | 口音分类模型训练和口音分类方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113593525A true CN113593525A (zh) | 2021-11-02 |
CN113593525B CN113593525B (zh) | 2024-08-06 |
Family
ID=78238134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110106391.5A Active CN113593525B (zh) | 2021-01-26 | 2021-01-26 | 口音分类模型训练和口音分类方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113593525B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023134067A1 (zh) * | 2022-01-14 | 2023-07-20 | 平安科技(深圳)有限公司 | 语音分类模型的训练方法、装置、设备及存储介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150194151A1 (en) * | 2014-01-03 | 2015-07-09 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
WO2019105134A1 (zh) * | 2017-11-30 | 2019-06-06 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及设备 |
CN110147548A (zh) * | 2019-04-15 | 2019-08-20 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110164415A (zh) * | 2019-04-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种基于语音识别的推荐方法、装置及介质 |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110634487A (zh) * | 2019-10-24 | 2019-12-31 | 科大讯飞股份有限公司 | 一种双语种混合语音识别方法、装置、设备及存储介质 |
CN110648654A (zh) * | 2019-10-09 | 2020-01-03 | 国家电网有限公司客户服务中心 | 一种引入语言向量的语音识别增强方法和装置 |
US20200020320A1 (en) * | 2019-06-18 | 2020-01-16 | Lg Electronics Inc. | Dialect phoneme adaptive training system and method |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN110914898A (zh) * | 2018-05-28 | 2020-03-24 | 北京嘀嘀无限科技发展有限公司 | 一种用于语音识别的系统和方法 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN111261144A (zh) * | 2019-12-31 | 2020-06-09 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN111312211A (zh) * | 2020-02-21 | 2020-06-19 | 湖南大学 | 一种基于过采样技术的方言语音识别系统 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
-
2021
- 2021-01-26 CN CN202110106391.5A patent/CN113593525B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150194151A1 (en) * | 2014-01-03 | 2015-07-09 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
CN106537493A (zh) * | 2015-09-29 | 2017-03-22 | 深圳市全圣时代科技有限公司 | 语音识别系统及方法、客户端设备及云端服务器 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN106251859A (zh) * | 2016-07-22 | 2016-12-21 | 百度在线网络技术(北京)有限公司 | 语音识别处理方法和装置 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
WO2019105134A1 (zh) * | 2017-11-30 | 2019-06-06 | 阿里巴巴集团控股有限公司 | 词向量处理方法、装置以及设备 |
CN110914898A (zh) * | 2018-05-28 | 2020-03-24 | 北京嘀嘀无限科技发展有限公司 | 一种用于语音识别的系统和方法 |
CN110147548A (zh) * | 2019-04-15 | 2019-08-20 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110164415A (zh) * | 2019-04-29 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种基于语音识别的推荐方法、装置及介质 |
US20200020320A1 (en) * | 2019-06-18 | 2020-01-16 | Lg Electronics Inc. | Dialect phoneme adaptive training system and method |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110648654A (zh) * | 2019-10-09 | 2020-01-03 | 国家电网有限公司客户服务中心 | 一种引入语言向量的语音识别增强方法和装置 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN110634487A (zh) * | 2019-10-24 | 2019-12-31 | 科大讯飞股份有限公司 | 一种双语种混合语音识别方法、装置、设备及存储介质 |
CN110930982A (zh) * | 2019-10-31 | 2020-03-27 | 国家计算机网络与信息安全管理中心 | 一种多口音声学模型及多口音语音识别方法 |
CN111261144A (zh) * | 2019-12-31 | 2020-06-09 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN111312211A (zh) * | 2020-02-21 | 2020-06-19 | 湖南大学 | 一种基于过采样技术的方言语音识别系统 |
CN111563508A (zh) * | 2020-04-20 | 2020-08-21 | 华南理工大学 | 一种基于空间信息融合的语义分割方法 |
Non-Patent Citations (3)
Title |
---|
景亚鹏;郑骏;胡文心;: "基于深层神经网络(DNN)的汉语方言种属语音识别", 华东师范大学学报(自然科学版), no. 01, 25 January 2014 (2014-01-25) * |
顾明亮;夏玉果;张长水;杨亦鸣;: "基于AdaBoost的汉语方言辨识", 东南大学学报(自然科学版), no. 04, 20 July 2008 (2008-07-20), pages 1 - 4 * |
顾明亮;沈兆勇;: "基于语音配列的汉语方言自动辨识", 中文信息学报, no. 05, 25 September 2006 (2006-09-25) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023134067A1 (zh) * | 2022-01-14 | 2023-07-20 | 平安科技(深圳)有限公司 | 语音分类模型的训练方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113593525B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109087648B (zh) | 柜台语音监控方法、装置、计算机设备及存储介质 | |
CN108346436B (zh) | 语音情感检测方法、装置、计算机设备及存储介质 | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
CN109360572B (zh) | 通话分离方法、装置、计算机设备及存储介质 | |
CN113094578B (zh) | 基于深度学习的内容推荐方法、装置、设备及存储介质 | |
CN113837299B (zh) | 基于人工智能的网络训练方法及装置、电子设备 | |
CN116110405B (zh) | 一种基于半监督学习的陆空通话说话人识别方法及设备 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
CN112331207B (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN113254613A (zh) | 对话问答方法、装置、设备及存储介质 | |
CN112201275A (zh) | 声纹分割方法、装置、设备及可读存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
JP2015175859A (ja) | パターン認識装置、パターン認識方法及びパターン認識プログラム | |
CN113593525B (zh) | 口音分类模型训练和口音分类方法、装置和存储介质 | |
CN111968650A (zh) | 语音匹配方法、装置、电子设备及存储介质 | |
CN116741155A (zh) | 语音识别方法、语音识别模型的训练方法、装置及设备 | |
CN113823292B (zh) | 基于通道注意力深度可分卷积网络的小样本话者辨认方法 | |
JP2016162437A (ja) | パターン分類装置、パターン分類方法およびパターン分類プログラム | |
CN112233668B (zh) | 一种基于神经网络的语音指令及身份识别方法 | |
CN115221351A (zh) | 音频匹配方法、装置、电子设备和计算机可读存储介质 | |
CN115050350A (zh) | 标注检查方法及相关装置、电子设备、存储介质 | |
CN113033160B (zh) | 对话的意图分类方法及设备和生成意图分类模型的方法 | |
US11996086B2 (en) | Estimation device, estimation method, and estimation program | |
Bohra et al. | Language Identification using Stacked Convolutional Neural Network (SCNN) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40055303 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |