CN114387950A - 语音识别方法、装置、设备和存储介质 - Google Patents
语音识别方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN114387950A CN114387950A CN202111528598.8A CN202111528598A CN114387950A CN 114387950 A CN114387950 A CN 114387950A CN 202111528598 A CN202111528598 A CN 202111528598A CN 114387950 A CN114387950 A CN 114387950A
- Authority
- CN
- China
- Prior art keywords
- dialect
- model
- target
- category
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 88
- 238000013145 classification model Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 11
- 241001672694 Citrus reticulata Species 0.000 description 18
- 238000010586 diagram Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 210000002105 tongue Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本公开涉及一种语音识别方法、装置、设备和存储介质。该方法根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的;基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。该方法能够提升语音识别结果的准确性。
Description
技术领域
本公开涉及语音识别技术领域,尤其涉及一种语音识别方法、装置、设备和存储介质。
背景技术
随着经济技术的发展,设备的智能化程度越来越高,语音识别(Automatic SpeechRecognition,ASR)技术功能在智能化设备中的应用越来越广泛。ASR技术在客服服务系统中的应用,主要是在接收到用户咨询的问题时,识别用户所说的话,并根据识别结果从对应的模板话术库中抽取合适的回答话术回答用户。
现有技术中,客服服务系统使用的语音识别模型是一个通用的模型,无论用户说的是方言还是普通话都会通过该模型进行识别,但是通用模型训练的数据大多数都是普通话数据,导致该模型对方言的识别效果比较差。
发明内容
本公开提供了一种语音识别方法、装置、设备和存储介质,能够提升语音识别结果的准确性。
第一方面,本公开提供了一种语音识别方法,包括:
根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;
根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的;
基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。
可选的,所述根据所述目标语言类别和目标对应关系,确定目标语音识别模型之前,还包括:
获取多个方言类别各自对应的训练样本;
针对每个方言类别,将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型;
针对每个方言类别,将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型。
可选的,所述将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型,包括:
将所述第一训练样本输入至所述通用声学模型,得到第一音素,所述第一训练样本包括所述方言类别中各第二音素对应的声学特征;
根据所述第一音素与音素对应关系,确定第二音素,所述音素对应关系中包括所述方言类别中所有的第二音素,以及各第二音素对应的第一音素;
将所述通用声学模型中的所有第一音素更新为对应的第二音素,得到所述初始方言声学模型。
可选的,所述将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型,包括:
将所述第二训练样本输入至所述初始方言声学模型,调整所述初始方言声学模型的参数,直至满足预设条件,得到所述方言声学模型,所述第二训练样本包括所述方言类别中各第二音素对应的声学特征。
可选的,所述方法还包括:
获取所述多个方言类别的音频各自对应的语料文本;
针对所述每个方言类别,根据所述方言类别的语料文本,确定方言发音词典。
可选的,所述方法还包括:
针对所述每个方言类别,根据所述方言类别的语料文本,确定方言语言模型;
针对所述每个方言类别,根据所述方言语言模型、所述方言发音词典和所述方言声学模型,确定所述方言语音识别模型。
可选的,所述根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别之前,还包括:
获取所述多个方言类别各自对应的语音样本;
提取所有方言类别中每个方言类别对应的语音样本的声音特征;
将所述声音特征输入至分类模型中,训练所述分类模型,得到训练后的分类模型;
所述根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别,包括:
将所述目标声音特征输入至所述训练后的分类模型中,得到所述待识别语音的目标语言类别。
第二方面,本公开提供了一种语音识别装置,包括:
确定模块,用于根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的;
识别模块,用于基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。
第三方面,本公开提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一种方法的步骤。
第四方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的任一种方法的步骤。
本公开提供的技术方案中,通过根据待识别语音的目标声音特征,确定待识别语音的目标语言类别;根据目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,目标语言类别为多个语言类别中的一个,语音识别模型包括通用语音识别模型和方言语音识别模型,方言语音识别模型是训练通用语音识别模型得到的;基于目标识别模型识别待识别语音,获取语音识别结果,如此,能够针对不同语言类别的语音,确定出与语言类别对应的语音识别模型,并基于该语音识别模型对语音进行识别,从而能够提升语音识别结果的准确性。此外,通过训练现有的通用语音识别模型得到方言语音识别模型,无需重新训练语音识别模型,能够缩短模型的训练时间,提升模型训练的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开提供的一种语音识别方法的流程示意图;
图2为本公开提供的另一种语音识别方法的流程示意图;
图3为本公开提供的又一种语音识别方法的流程示意图;
图4为本公开提供的又一种语音识别方法的流程示意图;
图5为本公开提供的又一种语音识别方法的流程示意图;
图6为本公开提供的又一种语音识别方法的流程示意图;
图7为本公开提供的又一种语音识别方法的流程示意图;
图8为本公开提供的一种语音识别装置的结构示意图;
图9为本公开提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
以下通过几个具体的实施例,对本公开的技术方案进行详细的解释说明。
本公开的技术方案可以应用于接收投诉或建议的同声传译设备,其应用场景可以为会议、公共办事大厅、学校或医院预约大厅等需要对方言识别的场所。
本公开中的语言类别可以包括普通话和方言类别,方言类别可以包括七大方言区,即官话方言、吴方言、赣方言、湘方言、闽方言、粤方言及客家方言。而每个方言区还可进一步分成若干个次方言区,例如官话方言,可分为东北方言、西北方言、西南方言等,故方言类别还可以多个次方言区。方言区内的人在学习和掌握普通话的过程中,通常会出现某些发音缺陷,例如存在前后鼻韵母不分、平翘舌不分等。同一方言区的人说普通话,往往存在一些共性的问题。本公开中的目标语言类别可以是普通话,或者上述方言类别中的任一种。
本公开中的语音识别模型包括方言语音识别模型和通用语音识别模型,其中,方言语音识别模型,可以是七大方言区和/或若干个次方言区对应的语音识别模型,通用语音识别模型可以是普通话对应的语音识别模型。本公开中的目标语音识别模型,可以是上述语音识别模型中的任一种。
本公开中的声音特征可以基于滤波器组(Filter Bank,fbank)特征,即携带言语信息的声波频谱,声音特征可以通过特征序列的形式表现。以语音识别方法应用于客服服务场景为例,待识别语音可以为用户说的话,目标声音特征可以为任意一个用户的声音特征。
本公开的技术方案中,通过根据待识别语音的目标声音特征,确定待识别语音的目标语言类别;根据目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,目标语言类别为多个语言类别中的一个,语音识别模型包括通用语音识别模型和方言语音识别模型,方言语音识别模型是训练通用语音识别模型得到的;基于目标识别模型识别待识别语音,获取语音识别结果,如此,能够针对不同语言类别的语音,确定出与语言类别对应的语音识别模型,并基于该语音识别模型对语音进行识别,从而能够提升语音识别结果的准确性。此外,通过训练现有的通用语音识别模型得到方言语音识别模型,无需重新训练语音识别模型,能够缩短模型的训练时间,提升模型训练的效率。
图1为本公开提供的一种语音识别方法的流程示意图,如图1所示,包括:
S101,根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别。
提取待识别语音的目标声音特征,基于目标声音特征,可以确定出对应的目标语言类别,其中,目标语言类别可以是普通话也可以是方言类别。方言类别可以是官话方言、吴方言、赣方言、湘方言、闽方言、粤方言及客家方言中的一种,或者,还可以是分为东北方言、西北方言、西南方言中的一种,本实施例对于方言类别的划分不作具体限制。
S103,根据所述目标语言类别和目标对应关系,确定目标语音识别模型。
所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的。
根据当前所有的方言类别以及普通话可以确定出多个语言类别,针对每个语言类别均对应有一个训练好的语音识别模型,其中,普通话对应通用语音识别模型,多个方言类别各自对应一个方言语音识别模型。基于多个语言类别和多个语音识别模型,以及上述的语音识别模型和语言类别的对应关系,建立目标对应关系。
例如,目标对应关系中包括三个语言类别,分别为普通话、湘方言和粤方言,其中,普通话与通用语音识别模型对应,湘方言与方言语音识别模型1对应,粤方言与方言语音识别模型2对应。
基于预先建立的目标对应关系,根据上述实施例确定的目标语言类别,从目标对应关系中找出与目标语言类别对应的目标语音识别模型。例如,目标语言类别为粤方言,从上述实施例中的目标对应关系中可以确定出目标语音识别模型为方言语音识别模型2。
S105,基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。
提取待识别语音的声学特征,并将待识别语音的声学特征输入至目标语音识别模型中,基于目标语音识别模型可以输出语音识别结果,例如,基于上述实施例,基于方言语音识别模型2来识别待识别语音。语音识别结果可以为待识别语音对应的文本内容,即通过目标语音识别模型对待识别语音进行语音识别,可以将待识别语音转换为对应的文本内容。
本实施例中,通过根据待识别语音的目标声音特征,确定待识别语音的目标语言类别;根据目标语言类别和目标对应关系,确定目标语音识别模型,目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,目标语言类别为多个语言类别中的一个,语音识别模型包括通用语音识别模型和方言语音识别模型,方言语音识别模型是训练通用语音识别模型得到的;基于目标识别模型识别待识别语音,获取语音识别结果,如此,能够针对不同语言类别的语音,确定出与语言类别对应的语音识别模型,并基于该语音识别模型对语音进行识别,从而能够提升语音识别结果的准确性。此外,通过训练现有的通用语音识别模型得到方言语音识别模型,无需重新训练语音识别模型,能够缩短模型的训练时间,提升模型训练的效率。
图2为本公开提供的另一种语音识别方法的流程示意图,图2为图1所示实施例的基础上,执行S103之前,还包括:
S201,获取多个方言类别各自对应的训练样本。
按照方言类别可以将地理区域进行划分,可以划分为官话方言对应的地理区域、吴方言对应的地理区域、赣方言对应的地理区域、湘方言对应的地理区域、闽方言对应的地理区域、粤方言对应的地理区域及客家方言对应的地理区域。为提高语音识别效果,可以进一步细分,示例地,对于湘方言对应的地理区域可以划分为,常德、岳阳及娄底等等。
可以基于上述划分的地理区域采集多个方言类别的语音样本,从各方言类别的语音样本中提取声学特征,例如,可以采用线性预测倒谱系数(Linear Predictive CepstrumCoefficient,LPCC)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、感知线性预测参数法(Perceptual Linear Predict ive,PLP)和梅尔标度滤波法(Melscale Filter Bank,FBANK)中的任意一种来提取语音样本中的声学特征。将各方言类别的语音样本的声学特征,确定为该方言类别对应的训练样本,从而能够获取到所有方言类别各自对应的训练样本。
S202,针对每个方言类别,将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型。
同一方言类别对应的多个训练样本可以划分为第一训练样本和第二训练样本,其中,第一训练样本用于纠正通用声学模型,得到初始方言声学模型,第二训练样本用于训练初始方言声学模型,得到方言声学模型。通用声学模型可以是基于HMM(Hidden MarkovModel,隐马尔科夫模型)构建的。
示例性的,将方言类别A对应的第一训练样本输入至通用声学模型,基于标准拼音的发音音素与方言类别A的发音音素的对应关系,可以将通用声学模型中的各标准拼音的发音音素更新为对应的方言类别A的发音音素,从而得到了方言类别A对应的初始方言声学模型M。以此类推,将其他方言类别对应的第一训练样本输入至通用声学模型,可以得到其他方言类别对应的初始方言声学模型。
S203,针对每个方言类别,将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型。
示例性的,基于上述实施例,将方言类别A对应的第二训练样本输入至初始方言声学模型M,基于第二训练样本,使用RM(Expectation-Maximum,期望最大化)算法迭代训练初始方言声学模型M,得到训练好的初始方言声学模型M,即方言声学模型M’。以此类推,将其他方言类别对应的第二训练样本输入至对应的初始方言声学模型,迭代训练得到其他方言类别对应的方言声学模型。
本实施例中,通过获取多个方言类别各自对应的训练样本;针对每个方言类别,将方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型;针对每个方言类别,将方言类别对应的第二训练样本输入至初始方言声学模型,训练初始方言声学模型,能够对已有的通用声学模型进行更新和训练,得到方言声学模型,无需重新训练声学模型,缩短了方言声学模型训练时间,从而能够提升训练语音识别模型的效率。
图3为本公开提供的又一种语音识别方法的流程示意图,图3为图2所示实施例的基础上,执行S202时的一种可能的实现方式的具体描述,如下:
S2021,将所述第一训练样本输入至所述通用声学模型,得到第一音素。
所述第一训练样本包括所述方言类别中各第二音素对应的声学特征。
示例性的,方言类别A中的发音音素即为第二音素,第一训练样本中包括多个声学特征,每个声学特征对应方言类别A的不同的第二音素,针对方言类别A中的任一第二音素,在多个声学特征中均存在一个对应的声学特征。将方言类别A的第一训练样本输入至通用声学模型,基于通用声学模型的声学识别结果为第一音素,这里的第一音素为普通话标准拼音的发音音素。
S2022,根据所述第一音素与音素对应关系,确定第二音素。
所述音素对应关系中包括所述方言类别中所有的第二音素,以及各第二音素对应的第一音素。
同一方言类别的发音通常可以将普通话发音进行特定模式的转音后得到,基于这种特定的模式,可以建立方言类别的发音音素与标准拼音的发音音素的对应关系,也就是说可以建立方言类别中的所有第二音素与所有第一音素的对应关系,即音素对应关系。例如,与普通话发音相比,方言类别A的“l”的发音和“n”的发音互换,那么音素对应关系中包括方言类别A的“l”与普通话的“n”的对应关系,方言类别A的“n”与普通话的“l”的对应关系。
基于建立好的音素对应关系,根据通用声学模型确定的第一音素,从音素对应关系中能够找出与该第一音素对应的第二音素。例如,基于声学识别模型识别得到的第一音素为“l”,从上述实施例中确定的音素对应关系中可以确定出,与第一音素“1”对应的第二音素为“n”。
S2023,将所述通用声学模型中的所有第一音素更新为对应的第二音素,得到所述初始方言声学模型。
示例性的,方言类别A的第一训练样本中包括方言类别A中所有第二音素对应的声学特征,那么基于第一训练样本和通用声学模型,可以获取到方言类别A的所有第二音素。基于所有第二音素,可以将通用声学模型中的所有第一音素更新为对应的第二音素,从而能够得到方言类别A对应的初始方言声学模型M。
图4为本公开提供的又一种语音识别方法的流程示意图,图4为图2所示实施例的基础上,执行S203时的一种可能的实现方式的具体描述,如下:
S203’,将所述第二训练样本输入至所述初始方言声学模型,调整所述初始方言声学模型的参数,直至满足预设条件,得到所述方言声学模型。
所述第二训练样本包括所述方言类别中各第二音素对应的声学特征。
示例性的,方言类别A中的发音音素即为第二音素,第二训练样本中包括多个声学特征,每个声学特征对应方言类别A的不同的第二音素,针对方言类别A中的任一第二音素,在多个声学特征中均存在一个对应的声学特征。基于上述实施例,将方言类别A的第二训练样本输入至初始方言声学模型M,得到输出样本,输出样本和目标输出样本之间存在差异,这种差异性可以量化为损失值,损失值越小,说明输出样本与目标输出样本的差异越小,即当前的初始方言声学模型的输出结果的准确性越高。
综上所述,基于目标损失值,朝着目标损失值减小方向来调整初始方言声学模型M的参数,使得调整后的初始方言声学模型M的输出结果较调整前的初始方言声学模型M的输出结果,更接近目标输出样本,重复迭代上述训练过程,直至损失值满足预设条件训练结束,此时可以得到方言类别A对应的方言声学模型M’。
图5为本公开提供的又一种语音识别方法的流程示意图,图5为图2所示实施例的基础上,还包括:
S204,获取所述多个方言类别的音频各自对应的语料文本。
采集真实场景中多个方言类别的音频,获取各音频对应的语料文本,故而可以获取到不同类别的音频对应的语料文本。
S205,针对所述每个方言类别,根据所述方言类别的语料文本,确定方言发音词典。
示例性的,根据方言类别A的语料文本,能够确定出方言类别A的方言发音词典,语料文本中包括的第二音素的类别越多,得到方言发音词典越准确全面。以此类推,根据其他方言类别的语料文本,可以确定其他方言类别对应的方言发音词典。
本实施例中,通过获取多个方言类别的音频各自对应的语料文本;针对每个方言类别,根据方言类别的语料文本,确定方言发音词典,如此,基于初始方言声学模型和方言发音词典能够得到比较准确的方言语音识别模型,从而能够提升语音识别结果的准确性。
图6为本公开提供的又一种语音识别方法的流程示意图,图6为图5所示实施例的基础上,还包括:
S206,针对所述每个方言类别,根据所述方言类别的语料文本,确定方言语言模型。
示例性的,根据方言类别A的语料文本,能够确定出方言类别A的方言语言模型。以此类推,根据其他方言类别的语料文本,可以确定其他方言类别对应的方言语言模型。
S207,针对所述每个方言类别,根据所述方言语言模型、所述方言发音词典和所述方言声学模型,确定所述方言语音识别模型。
根据方言语言模型、方言发音词典和方言声学识别模型,等经过一系列算法构建得到方言语音识别模型。示例性的,方言类别A的方言语言模型、方言发音词典和方言声学识别模型,经过一系列算法构建得到方言类别A的方言语音识别模型。以此类推,根据其他方言类别的方言语言模型、方言发音词典和方言声学识别模型,可以确定其他方言类别对应的方言语音识别模型。
本实施例中,通过根据方言类别的语料文本,确定方言语言模型;根据方言语言模型、方言发音词典和方言声学模型,确定方言语音识别模型,方言语音识别模型中的语言模型、发音词典和声学模型均重新确定,如此能够得到比较准确的方言语音识别模型,从而能够提升语音识别结果的准确性。
图7为本公开提供的又一种语音识别方法的流程示意图,图7为图1所示实施例的基础上,执行S101之前,还包括:
S301,获取多个方言类别各自对应的语音样本。
可以分别采集多个对象针对预设文本诵读的语音样本,其中,每个对象采用不同的方言来朗诵,预设文本中可以包括能体现方言发音特征的字或词。
S302,提取所有方言类别中每个方言类别对应的语音样本的声音特征。
声音特征可以是携带言语信息的声波频谱,声音特征可以通过特征序列的形式表现,可以包括音素特征及发音属性等,可用于识别方言类别。
S303,将所述声音特征输入至分类模型中,训练所述分类模型,得到训练后的分类模型。
将提取到的各方言类别对应的语音样本的声音特征,输入至多分类模型中,基于这些声音特征来训练多分类模型,得到训练后的多分类模型。
作为执行S101时的一种可能的实现方式的具体描述,如图7所示:
S101’,将所述目标声音特征输入至所述训练后的分类模型中,得到所述待识别语音的目标语言类别。
将待识别语音中的目标声音特征输入至上述训练后的多分类模型中,基于训练后的多分类模型,可以确定出目标声音特征对应的语言类别,即待识别语音的语言类别。
本实施例中,通过分别采集多个方言类别对应的语音样本;提取所有方言类别中每个方言类别对应的语音样本的声音特征;将声音特征输入至分类模型中,训练分类模型,得到训练后的分类模型;将目标声音特征输入至训练后的分类模型中,输出待识别语音的目标语言类别,能够自动确定待识别语音的语言类别,从而能够提升语音识别的效率。
本公开还提供一种语音识别装置,图8为本公开提供的一种语音识别装置的结构示意图,如图8所示,语音识别装置包括:
确定模块110,用于根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的。
识别模块120,用于基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。
可选的,语音识别装置还包括:
获取模块,用于获取多个方言类别各自对应的训练样本。
训练模块,用于针对每个方言类别,将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型;针对每个方言类别,将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型。
可选的,训练模块,进一步用于将所述第一训练样本输入至所述通用声学模型,得到第一音素,所述第一训练样本包括所述方言类别中各第二音素对应的声学特征;根据所述第一音素与音素对应关系,确定第二音素,所述音素对应关系中包括所述方言类别中所有的第二音素,以及各第二音素对应的第一音素;将所述通用声学模型中的所有第一音素更新为对应的第二音素,得到所述初始方言声学模型。
可选的,训练模块,进一步用于将所述第二训练样本输入至所述初始方言声学模型,调整所述初始方言声学模型的参数,直至满足预设条件,得到所述方言声学模型。
可选的,获取模块,还用于获取所述多个方言类别的音频各自对应的语料文本。
确定模块110,还用于针对所述每个方言类别,根据所述方言类别的语料文本,确定方言发音词典。
可选的,确定模块110,针对所述每个方言类别,还用于根据所述方言类别的语料文本,确定方言语言模型;针对所述每个方言类别,根据所述方言语言模型、所述方言发音词典和所述方言声学模型,确定所述方言语音识别模型。
可选的,语音识别模型还包括:
获取模块,获取多个方言类别各自对应的语音样本;提取所有方言类别中每个方言类别对应的语音样本的声音特征。
训练模块,用于将所述声音特征输入至分类模型中,训练所述分类模型,得到训练后的分类模型。
确定模块110,进一步用于将所述目标声音特征输入至所述训练后的分类模型中,得到所述待识别语音的目标语言类别。
本公开提供的语音识别装置,可用于执行上述方法实施例的步骤,其实现原理和技术效果类似,此处不再赘述。
本公开还提供一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现上述方法实施例的步骤。
图9为本公开提供的一种电子设备的结构示意图,图示出了适于用来实现本发明实施例实施方式的示例性电子设备的框图。图9显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器16,系统存储器28,连接不同系统组件(包括系统存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM、DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明实施例各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。
处理器16通过运行存储在系统存储器28中的多个程序中的至少一个程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的方法实施例。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例的步骤。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)域连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本公开还提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行实现上述方法实施例的步骤。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;
根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的;
基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标语言类别和目标对应关系,确定目标语音识别模型之前,还包括:
获取多个方言类别各自对应的训练样本;
针对每个方言类别,将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型;
针对每个方言类别,将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型。
3.根据权利要求2所述的方法,其特征在于,所述将所述方言类别对应的第一训练样本输入至通用声学模型,得到初始方言声学模型,包括:
将所述第一训练样本输入至所述通用声学模型,得到第一音素,所述第一训练样本包括所述方言类别中各第二音素对应的声学特征;
根据所述第一音素与音素对应关系,确定第二音素,所述音素对应关系中包括所述方言类别中所有的第二音素,以及各第二音素对应的第一音素;
将所述通用声学模型中的所有第一音素更新为对应的第二音素,得到所述初始方言声学模型。
4.根据权利要求2或3所述的方法,其特征在于,所述将所述方言类别对应的第二训练样本输入至所述初始方言声学模型,得到方言声学模型,包括:
将所述第二训练样本输入至所述初始方言声学模型,调整所述初始方言声学模型的参数,直至满足预设条件,得到所述方言声学模型,所述第二训练样本包括所述方言类别中各第二音素对应的声学特征。
5.根据权利要求2所述的方法,其特征在于,还包括:
获取所述多个方言类别的音频各自对应的语料文本;
针对所述每个方言类别,根据所述方言类别的语料文本,确定方言发音词典。
6.根据权利要求5所述的方法,其特征在于,还包括:
针对所述每个方言类别,根据所述方言类别的语料文本,确定方言语言模型;
针对所述每个方言类别,根据所述方言语言模型、所述方言发音词典和所述方言声学模型,确定所述方言语音识别模型。
7.根据权利要求1-3任一项所述的方法,其特征在于,所述根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别之前,还包括:
获取多个方言类别各自对应的语音样本;
提取所有方言类别中每个方言类别对应的语音样本的声音特征;
将所述声音特征输入至分类模型中,训练所述分类模型,得到训练后的分类模型;
所述根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别,包括:
将所述目标声音特征输入至所述训练后的分类模型中,得到所述待识别语音的目标语言类别。
8.一种语音识别装置,其特征在于,包括:
确定模块,用于根据待识别语音的目标声音特征,确定所述待识别语音的目标语言类别;根据所述目标语言类别和目标对应关系,确定目标语音识别模型,所述目标对应关系中包括多个语言类别,以及各语言类别对应的语音识别模型,所述目标语言类别为所述多个语言类别中的一个,所述语音识别模型包括通用语音识别模型和方言语音识别模型,所述方言语音识别模型是训练所述通用语音识别模型得到的;
识别模块,用于基于所述目标语音识别模型识别所述待识别语音,获取语音识别结果。
9.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111528598.8A CN114387950A (zh) | 2021-12-14 | 2021-12-14 | 语音识别方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111528598.8A CN114387950A (zh) | 2021-12-14 | 2021-12-14 | 语音识别方法、装置、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114387950A true CN114387950A (zh) | 2022-04-22 |
Family
ID=81195247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111528598.8A Pending CN114387950A (zh) | 2021-12-14 | 2021-12-14 | 语音识别方法、装置、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114387950A (zh) |
-
2021
- 2021-12-14 CN CN202111528598.8A patent/CN114387950A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McAuliffe et al. | Montreal forced aligner: Trainable text-speech alignment using kaldi. | |
Ghai et al. | Literature review on automatic speech recognition | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
JP2017058674A (ja) | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 | |
Dua et al. | GFCC based discriminatively trained noise robust continuous ASR system for Hindi language | |
Sheikhan et al. | Using DTW neural–based MFCC warping to improve emotional speech recognition | |
US11810471B2 (en) | Computer implemented method and apparatus for recognition of speech patterns and feedback | |
Qian et al. | Capturing L2 segmental mispronunciations with joint-sequence models in computer-aided pronunciation training (CAPT) | |
CN112466279B (zh) | 一种英语口语发音自动纠正方法和装置 | |
Hourri et al. | A novel scoring method based on distance calculation for similarity measurement in text-independent speaker verification | |
KR20100068530A (ko) | 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법 | |
Koolagudi et al. | Dravidian language classification from speech signal using spectral and prosodic features | |
Wang et al. | A research on HMM based speech recognition in spoken English | |
Goyal et al. | A comparison of Laryngeal effect in the dialects of Punjabi language | |
Sasmal et al. | Isolated words recognition of Adi, a low-resource indigenous language of Arunachal Pradesh | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
Rao et al. | Language identification using excitation source features | |
Tverdokhleb et al. | Implementation of accent recognition methods subsystem for eLearning systems | |
Sawakare et al. | Speech recognition techniques: a review | |
Tripathi et al. | Multilingual and multimode phone recognition system for Indian languages | |
CN114387950A (zh) | 语音识别方法、装置、设备和存储介质 | |
Ng et al. | Shefce: A Cantonese-English bilingual speech corpus for pronunciation assessment | |
CN113053409A (zh) | 音频测评方法及装置 | |
JP2017037250A (ja) | 音声強調装置、音声強調方法及び音声強調プログラム | |
Lai | Application of the artificial intelligence algorithm in the automatic segmentation of Mandarin dialect accent |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |