CN114495904B - 语音识别方法以及装置 - Google Patents
语音识别方法以及装置 Download PDFInfo
- Publication number
- CN114495904B CN114495904B CN202210383886.7A CN202210383886A CN114495904B CN 114495904 B CN114495904 B CN 114495904B CN 202210383886 A CN202210383886 A CN 202210383886A CN 114495904 B CN114495904 B CN 114495904B
- Authority
- CN
- China
- Prior art keywords
- voice
- accent
- feature
- speech
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000005070 sampling Methods 0.000 claims description 84
- 238000012937 correction Methods 0.000 claims description 76
- 238000012549 training Methods 0.000 claims description 75
- 238000000605 extraction Methods 0.000 claims description 54
- 239000012634 fragment Substances 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 11
- 241001672694 Citrus reticulata Species 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 9
- 238000010606 normalization Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 241001575999 Hakka Species 0.000 description 2
- 235000016278 Mentha canadensis Nutrition 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本说明书实施例提供语音识别方法以及装置,其中所述语音识别方法包括:获取待识别的语音数据;提取所述语音数据中的语音特征,获得第一语音特征;对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。能够提高语音识别的准确率和效率。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种语音识别方法。
背景技术
口音是指带有个人、地方语言特征的话音。在日常生活中,一个地区的人在说另一个地区的语言时,容易保持自己习惯的发音方式,因此,会出现不同的口音。以汉语为例,汉语中共有八大方言,即官话、吴语、湘语、赣语、客家语、闽南语、闽北语以及粤语,其中,官话是与标准普通话最为接近的一种方言,其他各种方言在声学发音以及语言学表现上都与标准普通话有着显著的差异。由于多数普通话使用者把普通话作为第二语言来掌握,他们的普通话发音不可避免地受到其方言母语发音的强烈影响,出现发音不准确、发音错误等现象,导致机器或者智能设备的语音识别性能下降。因此,亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了一种语音识别方法。本说明书一个或者多个实施例同时涉及一种语音识别装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种语音识别方法,包括:
获取待识别的语音数据;
提取所述语音数据中的语音特征,获得第一语音特征;
对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;
基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。
根据本说明书实施例的第二方面,提供了一种语音识别装置,包括:
第一获取模块,被配置为获取待识别的语音数据;
提取模块,被配置为提取所述语音数据中的语音特征,获得第一语音特征;
第一识别模块,被配置为对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;
第二识别模块,被配置为基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述语音识别方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述语音识别方法的步骤。
根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述语音识别方法的步骤。
本说明书一个实施例提供的语音识别方法,通过获取待识别的语音数据;提取所述语音数据中的语音特征,获得第一语音特征;对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。通过对第一语音特征进行口音特征识别,可以获得携带有口音特征的第二语音特征,进而进行语音文本内容识别时,能基于携带有口音特征的第二语音特征识别语音数据对应的第一语音文本内容,提高了第一语音文本内容的准确率,也即提高了语音识别的准确率和效率。
附图说明
图1是本说明书一个实施例提供的一种语音识别方法的流程图;
图2是本说明书一个实施例提供的一种语音识别方法中,待训练模型的结构示意图;
图3是本说明书一个实施例提供的一种语音识别方法中,多专家网络层的结构示意图;
图4是本说明书一个实施例提供的一种语音识别方法中,采样层和编码层的结构示意图;
图5是本说明书一个实施例提供的一种语音识别方法中,对多专家网络层进行模型参数调整的结构示意图;
图6是本说明书一个实施例提供的另一种语音识别方法中,对多专家网络层进行模型参数调整的结构示意图;
图7是本说明书一个实施例提供的再一种语音识别方法中,对多专家网络层进行模型参数调整的结构示意图;
图8是本说明书一个实施例提供的一种语音识别方法中,口音分类器的结构示意图;
图9是本说明书一个实施例提供的一种语音识别方法的处理过程流程图;
图10是本说明书一个实施例提供的一种语音识别装置的结构示意图;
图11是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
MIE:Mixture of Informed Experts,通用的专家混合模型,也即多专家网络层。
SAN-M: Memory Equipped Self-Attention for End-to-End SpeechRecognition,对端到端语音识别的记忆装备的自注意力模型。
然后,对本说明书一个或多个实施例提供的语音识别模型进行说明。
口音是指带有个人、地方语言特征的话音。目前对于标准发音的语音进行识别已达到极高的性能,但对于说话人中夹杂口音的语音识别,其性能还远远不够。在日常生活中,一个地区的人在说另一个地区的语言时,容易保持自己习惯的发音方式,因此,会出现不同的口音,多数说话人在发音时会带有口音。以汉语为例,汉语中共有八大方言,即官话、吴语、湘语、赣语、客家语、闽南语、闽北语以及粤语,其中,官话是与标准普通话最为接近的一种方言,其他各种方言在声学发音以及语言学表现上都与标准普通话有着显著的差异。由于多数普通话使用者把普通话作为第二语言来掌握,他们的普通话发音不可避免地受到其方言母语发音的强烈影响,出现发音不准确、发音错误等现象,导致机器或者智能设备的语音识别性能下降。可见,对多口音语音识别的探索,对于语音识别系统的鲁棒性具有重大意义。
本说明书一个实施例提供的语音识别方法,通过获取待识别的语音数据;提取所述语音数据中的语音特征,获得第一语音特征;对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。通过对第一语音特征进行口音特征识别,可以获得携带有口音特征的第二语音特征,进而进行语音文本内容识别时,能基于携带有口音特征的第二语音特征识别语音数据对应的第一语音文本内容,提高了第一语音文本内容的准确率,也即提高了语音识别的准确率和效率。
在本说明书中,提供了一种语音识别方法,本说明书同时涉及一种语音识别装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本说明书一个实施例提供的一种语音识别方法的流程图,具体包括以下步骤。
步骤102:获取待识别的语音数据。
实现语音识别方法的执行主体可以是具有语音识别功能的计算设备,例如具有语音识别功能的服务器、终端等。
具体的,待识别的语音数据可以是一个或多个音频,还可以是音频中的片段。
实际应用中,获取待识别的语音数据的方式有多种,例如,可以是运营人员向执行主体发送语音识别的指令,或者发送获取待识别的语音数据的指令,相应地,执行主体在接收到该指令后,开始对待识别的语音数据进行获取;也可以是服务器每隔预设时长,自动获取待识别的语音数据,例如,经过预设时长后,具有语音识别功能的服务器自动获取指定存取区域内的待识别的语音数据;或者经过预设时长后,具有语音识别功能的终端自动获取存储于本地的待识别的语音数据。本说明书对获取待识别的语音数据的方式不做任何限定。
步骤104:提取所述语音数据中的语音特征,获得第一语音特征。
具体的,语音特征也即声学特征,是指语音所包含的特征信息,比如音色、音调、语速等;第一语音特征是指初步进行语音特征提取后获得的语音特征。
在本说明书实施例的一种可能的实现方式中,可以通过语音识别工具提取语音数据中的语音特征,从而得到第一语音特征。例如,采用Kaldi工具(一种开源语音识别工具)对语音数据进行语音特征提取,由于Kaldi工具专门提取语音特征,进而可以得到第一语音特征。如此,使用语音识别工具提取第一语音特征,可以提高获取第一语音特征的效率。
在本说明书实施例的另一种可能的实现方式中,为了提高第一语音特征的准确率,提高信噪比,可以先对语音数据进行采样处理,再对采样后的数据进行语音特征提取。也即所述提取所述语音数据中的语音特征,获得第一语音特征,具体实现过程可以如下:
对所述语音数据进行采样处理,得到所述待识别语音的采样结果;
对所述语音数据的采样结果进行语音特征提取,得到第一语音特征。
具体的,采样处理也即音频采样,是指在单位时间内对模拟信号也即语音数据进行采样,采样频率越高,机械波的波形就越真实越自然。
实际应用中,可以通过预设的采样工具对语音数据进行处理,得到采样后的数据,也即采样结果,进一步地,提取采样结果中的语音特征,从而得到第一语音特征;还可以通过预设的卷积神经网络对语音数据进行采样处理,得到采样后的数据,也即采样结果,进一步地,提取采样结果中的语音特征,从而得到第一语音特征。
需要说明的是,采样处理可以是上采样,也可以是降采样,本说明书中采样处理优选降采样。
步骤106:对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征。
具体的,口音是指带有个人、地方语言特征的话音;口音特征是指语音数据中携带口音的特征;第二语音特征是指携带有口音特征的语音特征。
实际应用中,可以采用具有口音特征识别功能的工具或者模型,对第一语音特征进行口音特征识别,得到携带有口音特征的第二语音特征。
此外,第二语音特征可以与第一语音特征相同,只不过第二语音特征相较于第一语音特征来说,多携带了口音特征,因此,在使用第二语音特征进行语音识别,相较于使用第一语音特征进行语音识别更具有鲁棒性。
步骤108:基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。
具体的,语音文本内容是指语音或者音频或者某语音数据对应的文字或者文本;第一语音文本内容为待识别的语音数据对应的语音文本内容。
在本说明书实施例的一种可能的实现方式中,可以在获得携带有口音特征的第二语音特征的基础上,进一步地,根据第二语音特征以及口音特征,确定语音数据对应的第一语音文本内容。
在本说明书实施例的一种可能的实现方式中,若语音数据为待识别音频中的一个音频片段,为了提高语音识别的精确度和准确率,还可以基于待识别音频中与语音数据相邻的一品片段的第二语音文本内容,识别语音数据的第一语音文本内容。也即在语音数据为待识别音频中的一个音频片段的情况下,所述基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容,具体实现过程可以如下:
获取相邻语音数据的第二语音文本内容,其中,所述相邻语音数据为所述待识别音频中与所述语音数据相邻的音频片段;
根据所述第二语音特征、所述口音特征和所述第二语音文本内容,识别所述语音数据对应的第一语音文本内容。
具体的,待识别音频是指需要进行语音识别的存储声音内容的文件;音频片段是指将待识别音频进行分割之后的子音频;相邻语音数据是指待识别音频中与语音数据相邻的音频片段,例如语音数据是待识别音频中的第3个音频片段,则相邻语音数据为待识别音频中的第2个音频片段和第4个音频片段中的至少一个;第二语音文本内容为相邻语音数据对应的语音文本内容。
实际应用中,在语音数据为待识别音频中的一个音频片段时,可以获取待识别音频中该音频片段的相邻音频片段的语音文本内容,也即获取相邻语音数据的第二语音文本内容。进一步地,基于携带有口音特征的第二语音特征和第二语音文本内容,来识别语音数据对应的第一语音文本内容。由于待识别的语音数据与该语音数据的上下语音数据,也即相邻语音数据是相关的,因此以相邻语音数据的第二语音文本为参考,来识别语音数据对应的第一语音文本内容,可以提高第一语音文本内容的准确度。
此外,由于对待识别音频进行语音识别时,一般是从第一个音频片段开始识别,直至对最后一个音频片段进行识别,即在对语音数据进行语音识别时,该语音数据对应的上一个音频片段的语音文本内容已经获得,而该语音数据对应的下一个音频片段还在等待进行语音识别,此时只能获取到上一个音频片段的语音文本内容。因此,优选地,相邻语音数据为所述待识别音频中所述语音数据相邻的上一个音频片段。
在本说明书实施例的一种可能的实现方式中,在对语音数据进行语音识别之前,还可以获取预先训练的语音识别模型,然后将语音数据输入至语音识别模型中,由语音识别模型对语音数据进行语音特征提取、口音特征识别和语音文本内容识别等处理,得到语音数据对应的第一语音文本内容。也即所述提取所述语音数据中的语音特征,获得第一语音特征之前,还包括:
获取预先训练的语音识别模型,所述语音识别模型包括编码层、多专家网络层和解码层;
相应地,所述提取所述语音数据中的语音特征,获得第一语音特征,可以如下:
将所述语音数据输入所述编码层提取语音特征,获得第一语音特征;
相应地,所述对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征,可以如下:
将所述第一语音特征输入所述多专家网络层进行口音特征识别,获得携带有口音特征的第二语音特征;
相应地,所述基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容,可以如下:
将所述携带有口音特征的第二语音特征输入所述解码层对所述语音数据进行识别,得到第一语音文本内容。
具体的,语音识别模型是指预先训练的神经网络模型;编码是指完成一次对输入的数据进行特征提取的过程;编码层是指语音识别模型中进行语音特征提取的子模型;多专家网络层是指语音识别模型中进行口音特征识别的子模块;解码是指根据给定的输入数据向目标方向进行特征提取操作的过程;编码层是指语音识别模型中进行语音文本内容识别的子模型。
实际应用中,在获取到待识别的语音数据后,获取预先训练的包含有编码层、多专家网络层和解码层的语音识别模型。然后将语音数据输入至编码层,由编码层对提取所述语音数据中的语音特征,输出第一语音特征;然后将第一语音特征输入至多专家网络层,由多专家网络层对所述第一语音特征进行口音特征识别,输出携带有口音特征的第二语音特征;接着将携带有口音特征的第二语音特征输入解码层,由解码层基于口音特征和第二语音特征对语音数据进行识别,输出第一语音文本内容。通过预先训练的语音识别模型对语音数据进行语音识别,能够提高语音识别速率和准确率。
在获取预先训练的语音识别模型之前,还需要对待训练模型进行训练,以便于得到具有语音识别功能的语音识别模型。也即所述获取预先训练的语音识别模型之前,还包括:
获取口音语音训练样本集和预设的待训练模型,其中,所述口音语音训练样本集中包含多种口音语音样本;
从所述多种口音语音样本中提取任一口音语音样本,将该口音语音样本输入所述待训练模型,得到输出结果;
根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,继续执行所述从所述多种口音语音样本中提取任一口音语音样本的步骤,在达到第一预设训练停止条件的情况下,将训练好的所述待训练模型确定为语音识别模型。
具体的,待训练模型是指预先指定的神经网络模型;多种口音语音样本是指携带有不同口音的语音数据或音频样本;口音语音训练样本集是指用于训练待训练模型的样本组成的集合,也即多种口音语音样本的集合;第一训练停止条件可以是损失值小于或等于预设阈值,还可以是迭代训练次数达到预设迭代值。
实际应用中,获取口音语音训练样本集和预设的待训练模型的方式有多种,例如,可以是运营人员向执行主体发送待训练模型的训练指令,或者发送口音语音训练样本集和预设的待训练模型的获取指令,相应地,执行主体在接收到该指令后,开始对口音语音训练样本集和预设的待训练模型进行获取;也可以是服务器每隔预设时长,自动获取口音语音训练样本集和预设的待训练模型,例如,经过预设时长后,具有语音识别功能的服务器自动获取指定存取区域内的口音语音训练样本集和预设的待训练模型;或者经过预设时长后,具有语音识别功能的终端自动获取存储于本地的口音语音训练样本集和预设的待训练模型。本说明书对获取口音语音训练样本集和预设的待训练模型的方式不做任何限定。
在获取口音语音训练样本集和预设的待训练模型之后,基于口音语音训练样本集对待训练模型进行训练,得到语音识别模型:可以从口音语音训练样本集中提取一个口音语音样本,然后将该口音语音样本输入至待训练模型,然后待识别模型对该口音语音样本进行处理,得到待识别模型针对该口音语音样本的输出结果。然后根据输出结果和预设的损失函数,确定损失值,在未达到第一预设训练停止条件的情况下,根据损失值调整待训练模型的模型参数,然后再次从多种口音语音样本中提取任一口音语音样本,进行下一轮训练;在达到第一预设训练停止条件的情况下,将训练好的待训练模型确定为语音识别模型。如此,通过口音语音训练样本集对待训练模型进行无监督训练,能够提高语音识别模型对携带有口音的语音数据进行识别的准确性和速率,提高语音识别模型的鲁棒性。
在本说明书实施例的一种可能的实现方式中,待训练模型包含有四个处理层:采样层、编码层、多专家网络层和解码层,此时所述将该口音语音样本输入所述待训练模型,得到输出结果,具体实现过程可以如下:
将该口音语音样本输入所述采样层进行采样处理,得到该口音语音样本的采样结果;
将所述采样结果输入所述编码层进行语音特征提取,得到第一预测语音特征;
将所述第一预测语音特征输入所述多专家网络层进行口音特征识别,得到携带有口音特征的第二预测语音特征;
相应地,所述根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,具体实现过程可以如下:
根据所述采样结果、所述第一预测语音特征和所述第二预测语音特征,计算损失值,并根据所述损失值,调整所述待训练模型的模型参数。
具体的,采样处理也即音频采样,是指在单位时间内对模拟信号也即语音数据进行采样,采样频率越高,机械波的波形就越真实越自然;采样层是指对口音语音样本进行采样的子模型;编码是指完成一次对输入的数据进行特征提取的过程;编码层是指语音识别模型中进行语音特征提取的子模型;多专家网络层是指语音识别模型中进行口音特征识别的子模块;解码是指根据给定的输入数据向目标方向进行特征提取操作的过程;编码层是指语音识别模型中进行语音文本内容识别的子模型。
实际应用中,在从多种口音语音样本中提取任一口音语音样本之后,需要将该口音语音样本输入采样层,由采样层对口音语音样本进行采样处理,得到采样层的输出结果,也即采样结果;接着将采样结果输入至编码层,由编码层对采样结果中的语音特征进行提取处理,得到编码层的输出结果,集第一预测语音特征;然后将第一预测语音特征输入至多专家网络层,由多专家网络层对第一预测语音特征进行口音特征识别处理,得到多专家网络层的输出结果,即携带有口音特征的第二预测语音特征;最后根据采样结果、第一预测语音特征、第二预测语音特征和预设的损失函数,确定损失值,在未达到第一预设训练停止条件的情况下,根据损失值调整待训练模型的模型参数。如此,根据待训练模型中采样层、编码层和多专家网络层的输出结果计算损失值,并基于损失值调整模型参数,能够使待训练模型的模型参数快速收敛,进而提高待训练模型,也即语音识别模型的训练效率。
参见图2,图2示出本说明书一个实施例提供的一种语音识别方法中,待训练模型的结构示意图,待训练模型采用SAN-M框架:包含采样层、编码层、多专家网络层和解码层,滤波器组和子采样层构成了采样层,自注意力层、残差连接和归一化层、前馈全连接子层(非线性与线性)以及残差连接和归一化层构成了一个编码层,前馈全连接子层(非线性与线性)、无监督自注意力层、残差连接和归一化层、多头注意力机制和残差连接和归一化层构成了一个解码层,前馈全连接子层(非线性与线性)和概率分布层用于输出结果。需要说明的是,待训练模型中可以有N个编码层和M个解码层,其中N和M均为正整数。本说明书仅以一个编码层和一个解码层进行示例性说明。此外,待训练模型还包括输出转变、输入嵌入层和位置编码。再获取相邻语音数据的第二语音文本内容,根据第二语音特征、口音特征和第二语音文本内容,识别语音数据对应的第一语音文本内容的情况下,输出转变和位置编码共同作用,用于获取相邻语音数据的第二语音文本内容,输入嵌入层用于将第二语音文本内容输入至解码层。
参见图3,图3示出了本说明书一个实施例提供的一种语音识别方法中,多专家网络层的结构示意图,多专家网络层包含输入、输出、N个专家、一个通用和计算区,其中计算区包含平均值计算、门网络计算、概率函数计算,其中概率函数计算的结果以δ1,δ1,…,δN表示。
可选地,为了提高模型训练效率,所述根据所述采样结果、所述第一预测语音特征和所述第二预测语音特征,计算损失值,并根据所述损失值,调整所述待训练模型的模型参数,可以如下:
根据所述第二预测语音特征和所述采样结果计算第一子损失值,根据所述第一预测语音特征和所述第二预测语音特征计算第二子损失值;
基于所述第一子损失值调整所述编码层的第一模型参数,并基于所述第二子损失值调整所述多专家网络层的第二模型参数。
具体的,第一子损失值和第二子损失值是损失值的两个子损失值,第一子损失值为编码层对应的损失值,第二子损失值为多专家网络层对应的损失值;第一模型参数是指编码层的参数;第二模型参数是指多专家网络层的参数。
实际应用中,在获得了采样结果、第一预测语音特征和第二预测语音特征之后,需要基于采样结果、第二预测语音特征和预设的第一子损失函数计算第一子损失值,并基于第一预测语音特征和第二预测语音特征和预设的第二子损失函数计算第二子损失值。进而基于第一子损失值调整编码层的第一模型参数,基于第二子损失值调整多专家网络层的第二模型参数。如此,通过待训练模型中编码层的输入和输出调整编码层的第一模型参数、多专家网络层输入和输出调整多专家网络层的第二模型参数,能够快速调整模型参数,提高模型训练效率和准确率。
也即,通过上述方法,可以只对编码层和多专家网络层进行单独训练,无需对整个语音识别模型进行训练。在对编码层和多专家网络层训练完成后,将编码层和多专家网络层添加至语音识别模型即可。
在图2的基础上,图4示出了本说明书一个实施例提供的一种语音识别方法中,采样层和编码层的结构示意图:滤波器组和子采样层构成了采样层,自注意力层、残差连接和归一化层、前馈全连接子层(非线性与线性)以及残差连接和归一化层构成了一个编码层,其中有N个编码层。口音语音样本经过两层步长为2的卷积神经网络,即采样层进行采样后,得到的采样结果输入到串联的编码层中,最终将编码层的输出和采样层的输出计算损失,也即根据所述第二预测语音特征和所述采样结果计算第一子损失值。
训练语音识别模型时采用无监督预训练的方式,提出的wav2vec2.0的预训练方法,参见图4,如用1.5万小时的英文数据预训练语音识别模型中编码层和多专家网络层,再用少量的带标注的多口音英文数据对语音识别模型进行微调。
在本说明书实施例的一种可能的实现方式中,将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征时,可以只将编码层输出的第一预测语音特征输入至多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。
参见图5,在图3的基础上,图5示出了本说明书一个实施例提供的一种语音识别方法中,对多专家网络层进行模型参数调整的结构示意图,也即基于automatic(自动)方法调整多专家网络层的第二模型参数:对待训练模型进行训练时,对多专家网络层中所有模块,也即输入、输出、N个专家、一个通用和计算区模块进行前向后向计算更新模型参数。
在本说明书实施例的一种可能的实现方式中,还可以将编码层输出的第一预测语音特征和口音语音样本的口音嵌入特征进行拼接,然后将拼接后的第一预测语音特征输入至多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。也即所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征之前,还包括:
获取该口音语音样本的口音嵌入特征;
相应地,所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征,包括:
将所述口音嵌入特征拼接至所述第一预测语音特征,将拼接后的第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。
具体的,口音嵌入特征是指口音语音样本对应的口音的嵌入特征。
实际应用中,为了更快地提高多专家网络层提取口音特征的能力,可以先通过预设的口音嵌入特征获取策略,获取该口音语音样本的口音嵌入特征,然后将口音嵌入特征拼接到编码层输出的第一预测语音特征上,得到拼接后的第一预测语音特征,再将拼接后的第一预测语音特征输入至多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。
参见图6,在图3的基础上,图6示出了本说明书一个实施例提供的另一种语音识别方法中,对多专家网络层进行模型参数调整的结构示意图,也即基于embedding guide(嵌入向量指导)方法调整多专家网络层的第二模型参数:对待训练模型进行训练时,将口音嵌入向量拼接至第一预测语音特征,再将拼接后的第一预测语音特征输入至多专家网络层,此时对多专家网络层中所有模块,也即输入、输出、N个专家、一个通用和计算区模块进行前向后向计算更新模型参数。
在本说明书实施例的一种可能的实现方式中,还可以将编码层输出的第一预测语音特征和口音语音样本的口音标签输入至多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。也即所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征之前,还包括:
获取该口音语音样本的口音标签;
相应地,所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征,包括:
将所述口音标签和所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征;
相应地,所述基于所述第二子损失值调整所述多专家网络层的第二模型参数,包括:
根据所述口音标签确定所述多专家网络层中的待调整模型参数;
基于所述第二子损失值调整所述待调整模型参数。
具体的,口音标签是指口音的类型,如四川口音、山东口音、东北口音等。
实际应用中,为了更快地提高多专家网络层提取口音特征的能力,可以先通过预设的口音标签获取策略,获取该口音语音样本的口音标签,然后将编码层输出的第一预测语音特征和口音标签输入至多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。进一步地,在调整多专家网络层的第二模型参数时,需要根据口音标签确定对应的待调整模型参数,然后根据第二子损失值调整待调整模型参数。
参见图7,在图3的基础上,图7示出了本说明书一个实施例提供的再一种语音识别方法中,对多专家网络层进行模型参数调整的结构示意图,也即基于label guide(标签指导)方法调整多专家网络层的第二模型参数:对待训练模型进行训练时,将口音标签(Accenti)和第一预测语音特征输入至多专家网络层,此时对多专家网络层中所有模块,也即输入、输出、N个专家、一个通用和计算区模块进行前向计算,但只更新口音标签对应的专家模块的参数,如:输入口音标签为1,则只更新通用和专家1的参数,输入口音标签为2,则只更新通用和专家2的参数。
具体地,可以使用目标域的口音分类器对大量的口音语音样本进行口音标注,得到口音标签和/或口音嵌入特征,再利用大量口音语音样本和口音标签,或者口音语音样本和口音嵌入特征进行无监督预训练,能够提高语音识别模型对多口音语音识别的准确率。
参见图8,图8示出了本说明书一个实施例提供的一种语音识别方法中,口音分类器的结构示意图:口音分类器包括滤波器组、编码器、卷积层(h1,h1,…,hT)、概率函数计算、口音分类模块,其中概率函数计算的计算结果为(w1,w1,…,wT),对(w1,w1,…,wT)进行处理后得到口音嵌入向量,口音嵌入向量经过口音分类模块,得到口音标识。
由于目前wav2vec2无监督预训练不包含不同域(口音)的信息,将MIE模块(多专家网络层)应用于无监督预训练中(多域预训练)时,用口音分类器给海量数据(口音语音样本)提供口音信息(口音嵌入向量和/或口音标识),使多专家网络层能够通过多域预训练的方式预先学习口音语音样本的口音信息。
为了进一步提高语音识别模型的语音识别效率,在训练得到语音识别模型之后,可以利用携带有口音语音标签的口音语音修正样本,对语音识别模型进行修正、微调。也即所述在达到第一预设训练停止条件的情况下,将训练好的所述待训练模型确定为语音识别模型之后,还包括:
获取口音语音修正样本集,其中,所述口音语音修正样本集包含多种携带有口音语音标签的口音语音修正样本;
从所述口音语音修正样本集中提取任一口音语音修正样本,将该口音语音修正样本输入所述语音识别模型,得到预测识别结果;
根据所述预测识别结果和该口音语音修正样本携带的所述口音语音标签确定差异值;
根据所述差异值,调整所述语音识别模型的模型参数,继续执行所述从所述口音语音修正样本集中提取任一口音语音修正样本的步骤,在达到第二预设训练停止条件的情况下,得到目标语音识别模型。
具体的,口音语音标签是指口音语音修正样本真实的口音语音文本内容;口音语音修正样本是指用于对语音识别模型进行修正、微调的携带有不同口音的语音数据或音频样本;口音语音修正样本集是指用于修正、微调语音识别模型的样本组成的集合,也即口音语音修正样本的集合;预测识别结果是指语音识别模型识别口音语音修正样本的预测的口音语音文本内容;第二训练停止条件可以是差异值小于或等于预设阈值,还可以是迭代训练次数达到预设迭代值。
实际应用中,获取口音语音修正样本集的方式有多种,例如,可以是运营人员向执行主体发送语音识别模型的调整指令,或者发送口音语音修正样本集的获取指令,相应地,执行主体在接收到该指令后,开始对口音语音修正样本集进行获取;也可以是服务器每隔预设时长,自动获取口音语音修正样本集,例如,经过预设时长后,具有语音识别功能的服务器自动获取指定存取区域内的口音语音修正样本集;或者经过预设时长后,具有语音识别功能的终端自动获取存储于本地的口音语音修正样本集。本说明书对获取口音语音修正样本集的方式不做任何限定。
在获取口音语音修正样本集之后,基于口音语音修正样本集对语音识别模型进行调整修正,得到目标语音识别模型:可以从口音语音修正样本集中提取一个携带有口音语音标签的口音语音修正样本,然后将该口音语音修正样本输入至语音识别模型,然后语音识别模型对该口音语音修正样本进行处理,得到语音识别模型针对该口音语音样本的输出结果,即预测识别结果。然后根据测识别结果和该口音语音修正样本携带的口音语音标签,按照预设的差异值确定函数,计算差异值,在未达到第二预设训练停止条件的情况下,根据差异值调整语音识别模型的模型参数,然后再次从口音语音修正样本集中提取一个携带有口音语音标签的口音语音修正样本,进行下一轮训练;在达到第二预设训练停止条件的情况下,确定完成对语音识别模型的调整、修正,得到目标语音识别模型。如此,通过口音语音修正样本集对语音识别模型进行调整修正,能够提高语音识别模型对携带有口音的语音数据进行识别的准确性和速率,提高语音识别模型的鲁棒性。
在本说明书实施例的一种可能的实现方式中,将该口音语音修正样本输入所述语音识别模型,得到预测识别结果时,可以将该口音语音修正样本输入至编码层进行语音特征提取,得到第三预测语音特征;再将第三预测语音特征和所述口音标识输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第四预测语音特征;将携带有口音特征的第四预测语音特征输入解码层进行识别,得到预测识别结果。
在本说明书实施例的另一种可能的实现方式中,还可以先获取该口音语音修正样本的口音标识,然后将该口音语音修正样本和口音标识输入所述语音识别模型,得到预测识别结果。也即所述将该口音语音修正样本输入所述语音识别模型,得到预测识别结果,具体实现过程可以如下:
获取该口音语音修正样本的口音标识;
将所述口音语音修正样本输入至所述编码层进行语音特征提取,得到第三预测语音特征;
将所述第三预测语音特征和所述口音标识输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第四预测语音特征;
将所述携带有口音特征的第四预测语音特征输入所述解码层进行识别,得到预测识别结果。
具体的,口音标识可以是口音嵌入特征或口音标签。
实际应用中,可以先通过预设的口音标识获取策略,获取该口音语音样本的口音标识。
在口音标识为口音嵌入特征的情况下,将口音语音修正样本输入至编码层进行语音特征提取,得到第三预测语音特征,然后将口音嵌入特征拼接到编码层输出的第三预测语音特征上,得到拼接后的第三预测语音特征,再将拼接后的第三预测语音特征输入至多专家网络层进行口音特征提取,得到携带有口音特征的第四预测语音特征,进而将携带有口音特征的第四预测语音特征输入所述解码层进行识别,得到预测识别结果。
在口音标识为口音标识的情况下,将口音语音修正样本输入至编码层进行语音特征提取,得到第三预测语音特征,然后将口音标识和第三预测语音特征输入至多专家网络层进行口音特征提取,得到携带有口音特征的第四预测语音特征,进而将携带有口音特征的第四预测语音特征输入所述解码层进行识别,得到预测识别结果。
需要说明的是,在语音识别模型中包含采样层的情况下,需要将口音语音修正样本输入至采样层进行采样处理,得到预测采样结果,再将预测采样结果输入至编码层进行语音特征提取,得到第三预测语音特征。
若采用automatic方式进行训练,在修正微调语音识别模型时,采用automatic方式进行修正、微调;若采用embedding guide方式进行训练,在修正微调语音识别模型时,采用embedding guide方式进行修正、微调;若采用label guide方式进行训练,在修正微调语音识别模型时,采用automatic方式、onehot guide(独热引导)方式和label guide方式中的任一种进行修正、微调;onehot guide方式与label guide方式相似,区别在于onehotguide是将口音的onehot(独热)向量作为嵌入向量拼接在输入中,而embedding guide是从口音分类器中提取口音嵌入向量拼接在输入中。
携带有口音的语音数据资源少是多口音语音识别的一个难点,无监督预训练可以利用大量的无标注语音数据,对低资源语音识别有明显的提升。本说明书基于包含有MIE模块的SAN-M模型,提出基于专家的无监督多域预训练,探索其对通用口音语音识别性能的影响。从核心技术来讲,利用了MIE模块进行一系列探索,MIE模块应用在了多语言语音识别中,应用于不同的声学模型对多语言语音识别的探索中,也被用于对多方言语音识别的探索中,但也没有在多口音语音识别的探索中使用MIE模块,且没有探索利用大量无标注数据结合专家网络的方案。利用了MIE模块以及大量的无标注的音频(口音语音样本)进行预训练,有效解决多口音数据资源缺少的问题。
本说明书一个实施例提供的语音识别方法,通过获取待识别的语音数据;提取所述语音数据中的语音特征,获得第一语音特征;对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。通过对第一语音特征进行口音特征识别,可以获得携带有口音特征的第二语音特征,进而进行语音文本内容识别时,能基于携带有口音特征的第二语音特征识别语音数据对应的第一语音文本内容,提高了第一语音文本内容的准确率,也即提高了语音识别的准确率和效率。
此外,基于MIE模块,采用无监督多域预训练对语音识别模型进行训练,使语音识别模型在无监督预训练阶段不仅有获取上下文信息的能力,还带有一定的域信息,有利于下游任务多口音语音识别的训练。
下述结合附图9,对所述语音识别方法进行进一步说明。其中,图9示出了本说明书一个实施例提供的一种语音识别方法的处理过程流程图,具体包括以下步骤。
步骤902:获取口音语音训练样本集和预设的待训练模型,其中,口音语音训练样本集中包含多种口音语音样本,待训练模型包括采样层、编码层、多专家网络层和解码层。
步骤904:从多种口音语音样本中提取任一口音语音样本,将该口音语音样本输入采样层进行采样处理,得到该口音语音样本的采样结果。
步骤906:将采样结果输入编码层进行语音特征提取,得到第一预测语音特征。
步骤908:将第一预测语音特征输入多专家网络层进行口音特征识别,得到携带有口音特征的第二预测语音特征。
可选地,将第一预测语音特征输入多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征之前,还包括:
获取该口音语音样本的口音嵌入特征;
相应地,将第一预测语音特征输入多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征,包括:
将口音嵌入特征拼接至第一预测语音特征,将拼接后的第一预测语音特征输入多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。
步骤910:根据第二预测语音特征和采样结果计算第一子损失值,根据第一预测语音特征和第二预测语音特征计算第二子损失值。
步骤912:基于第一子损失值调整编码层的第一模型参数,并基于第二子损失值调整多专家网络层的第二模型参数。
可选地,将第一预测语音特征输入多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征之前,还包括:
获取该口音语音样本的口音标签;
相应地,将第一预测语音特征输入多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征,包括:
将口音标签和第一预测语音特征输入多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征;
基于第二子损失值调整多专家网络层的第二模型参数,包括:
根据口音标签确定多专家网络层中的待调整模型参数;
基于第二子损失值调整待调整模型参数。
步骤914:继续执行从多种口音语音样本中提取任一口音语音样本的步骤,在达到第一预设训练停止条件的情况下,将训练好的待训练模型确定为初始语音识别模型。
步骤916:获取口音语音修正样本集,其中,口音语音修正样本集包含多种携带有口音语音标签的口音语音修正样本。
步骤918:从口音语音修正样本集中提取任一口音语音修正样本,获取该口音语音修正样本的口音标识。
步骤920:将口音语音修正样本输入至初始语音识别模型的编码层进行语音特征提取,得到第三预测语音特征。
步骤922:将第三预测语音特征和口音标识输入多专家网络层进行口音特征提取,得到携带有口音特征的第四预测语音特征。
步骤924:将携带有口音特征的第四预测语音特征输入解码层进行识别,得到预测识别结果。
步骤926:根据预测识别结果和该口音语音修正样本携带的口音语音标签确定差异值。
步骤928:根据差异值,调整语音识别模型的模型参数,继续执行从口音语音修正样本集中提取任一口音语音修正样本的步骤,在达到第二预设训练停止条件的情况下,得到目标语音识别模型。
步骤930:获取待识别的语音数据,语音数据为待识别音频中的一个音频片段。
步骤932:将语音数据输入目标语音识别模型的采样层进行采样处理,得到待识别语音的采样结果。
步骤934:将语音数据的采样结果输入至编码层进行语音特征提取,得到第一语音特征。
步骤936:将第一语音特征输入多专家网络层进行口音特征识别,获得携带有口音特征的第二语音特征。
步骤938:获取相邻语音数据的第二语音文本内容,其中,相邻语音数据为待识别音频中与语音数据相邻的音频片段。
步骤940:将携带有口音特征的第二语音特征和第二语音文本内容输入解码层进行识别,获得第一语音文本内容。
本说明书一个实施例提供的语音识别方法,通过对第一语音特征进行口音特征识别,可以获得携带有口音特征的第二语音特征,进而进行语音文本内容识别时,能基于携带有口音特征的第二语音特征识别语音数据对应的第一语音文本内容,提高了第一语音文本内容的准确率,也即提高了语音识别的准确率和效率。
与上述方法实施例相对应,本说明书还提供了语音识别装置实施例,图10示出了本说明书一个实施例提供的一种语音识别装置的结构示意图。如图10所示,该装置包括:
第一获取模块1002,被配置为获取待识别的语音数据;
提取模块1004,被配置为提取所述语音数据中的语音特征,获得第一语音特征;
第一识别模块1006,被配置为对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;
第二识别模块1008,被配置为基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。
可选地,所述装置还包括第二获取模块,被配置为:
获取预先训练的语音识别模型,所述语音识别模型包括编码层、多专家网络层和解码层;
所述提取模块1004,还被配置为:
将所述语音数据输入所述编码层提取语音特征,获得第一语音特征;
所述第一识别模块1006,还被配置为:
将所述第一语音特征输入所述多专家网络层进行口音特征识别,获得携带有口音特征的第二语音特征;
所述第二识别模块1008,还被配置为:
将所述携带有口音特征的第二语音特征输入所述解码层对所述语音数据进行识别,得到第一语音文本内容。
可选地,所述装置还包括训练模块,被配置为:
获取口音语音训练样本集和预设的待训练模型,其中,所述口音语音训练样本集中包含多种口音语音样本;
从所述多种口音语音样本中提取任一口音语音样本,将该口音语音样本输入所述待训练模型,得到输出结果;
根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,继续执行所述从所述多种口音语音样本中提取任一口音语音样本的步骤,在达到第一预设训练停止条件的情况下,将训练好的所述待训练模型确定为语音识别模型。
可选地,所述装置还包括修正模块,被配置为:
获取口音语音修正样本集,其中,所述口音语音修正样本集包含多种携带有口音语音标签的口音语音修正样本;
从所述口音语音修正样本集中提取任一口音语音修正样本,将该口音语音修正样本输入所述语音识别模型,得到预测识别结果;
根据所述预测识别结果和该口音语音修正样本携带的所述口音语音标签确定差异值;
根据所述差异值,调整所述语音识别模型的模型参数,继续执行所述从所述口音语音修正样本集中提取任一口音语音修正样本的步骤,在达到第二预设训练停止条件的情况下,得到目标语音识别模型。
可选地,所述待训练模型包括采样层、编码层、多专家网络层和解码层;
所述训练模块,还被配置为:
将该口音语音样本输入所述采样层进行采样处理,得到该口音语音样本的采样结果;
将所述采样结果输入所述编码层进行语音特征提取,得到第一预测语音特征;
将所述第一预测语音特征输入所述多专家网络层进行口音特征识别,得到携带有口音特征的第二预测语音特征;
所述根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,包括:
根据所述采样结果、所述第一预测语音特征和所述第二预测语音特征,计算损失值,并根据所述损失值,调整所述待训练模型的模型参数。
可选地,所述训练模块,还被配置为:
根据所述第二预测语音特征和所述采样结果计算第一子损失值,根据所述第一预测语音特征和所述第二预测语音特征计算第二子损失值;
基于所述第一子损失值调整所述编码层的第一模型参数,并基于所述第二子损失值调整所述多专家网络层的第二模型参数。
可选地,所述训练模块,还被配置为:
获取该口音语音样本的口音嵌入特征;
将所述口音嵌入特征拼接至所述第一预测语音特征,将拼接后的第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。
可选地,所述训练模块,还被配置为:
获取该口音语音样本的口音标签;
将所述口音标签和所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征;
根据所述口音标签确定所述多专家网络层中的待调整模型参数;
基于所述第二子损失值调整所述待调整模型参数。
可选地,所述修正模块,还被配置为:
获取该口音语音修正样本的口音标识;
将所述口音语音修正样本输入至所述编码层进行语音特征提取,得到第三预测语音特征;
将所述第三预测语音特征和所述口音标识输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第四预测语音特征;
将所述携带有口音特征的第四预测语音特征输入所述解码层进行识别,得到预测识别结果。
可选地,所述语音数据为待识别音频中的一个音频片段;
所述第二识别模块1008,还被配置为:
获取相邻语音数据的第二语音文本内容,其中,所述相邻语音数据为所述待识别音频中与所述语音数据相邻的音频片段;
根据所述第二语音特征、所述口音特征和所述第二语音文本内容,识别所述语音数据对应的第一语音文本内容。
可选地,所述提取模块1004,还被配置为:
对所述语音数据进行采样处理,得到所述待识别语音的采样结果;
对所述语音数据的采样结果进行语音特征提取,得到第一语音特征。
本说明书一个实施例提供的语音识别装置,通过获取待识别的语音数据;提取所述语音数据中的语音特征,获得第一语音特征;对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。通过对第一语音特征进行口音特征识别,可以获得携带有口音特征的第二语音特征,进而进行语音文本内容识别时,能基于携带有口音特征的第二语音特征识别语音数据对应的第一语音文本内容,提高了第一语音文本内容的准确率,也即提高了语音识别的准确率和效率。
上述为本实施例的一种语音识别装置的示意性方案。需要说明的是,该语音识别装置的技术方案与上述的语音识别方法的技术方案属于同一构思,语音识别装置的技术方案未详细描述的细节内容,均可以参见上述语音识别方法的技术方案的描述。
图11示出了本说明书一个实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接,数据库1150用于保存数据。
计算设备1100还包括接入设备1140,接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,NetworkInterface Controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)接口,等等。
在本说明书的一个实施例中,计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图11所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。
其中,处理器1120用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述语音识别方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的语音识别方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述语音识别方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述语音识别方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的语音识别方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述语音识别方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述语音识别方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的语音识别方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述语音识别方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种语音识别方法,包括:
获取待识别的语音数据;
利用预先训练的语音识别模型,提取所述语音数据中的语音特征,获得第一语音特征,其中,所述语音识别模型为对端到端语音识别的记忆装备的自注意力模型SAN-M,所述SAN-M包含有多专家网络层MIE;
对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;
基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。
2.根据权利要求1所述的方法,所述提取所述语音数据中的语音特征,获得第一语音特征之前,还包括:
获取预先训练的语音识别模型,所述语音识别模型包括编码层、多专家网络层和解码层;
所述提取所述语音数据中的语音特征,获得第一语音特征,包括:
将所述语音数据输入所述编码层提取语音特征,获得第一语音特征;
所述对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征,包括:
将所述第一语音特征输入所述多专家网络层进行口音特征识别,获得携带有口音特征的第二语音特征;
所述基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容,包括:
将所述携带有口音特征的第二语音特征输入所述解码层对所述语音数据进行识别,得到第一语音文本内容。
3.根据权利要求2所述的方法,所述获取预先训练的语音识别模型之前,还包括:
获取口音语音训练样本集和预设的待训练模型,其中,所述口音语音训练样本集中包含多种口音语音样本;
从所述多种口音语音样本中提取任一口音语音样本,将该口音语音样本输入所述待训练模型,得到输出结果;
根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,继续执行所述从所述多种口音语音样本中提取任一口音语音样本的步骤,在达到第一预设训练停止条件的情况下,将训练好的所述待训练模型确定为语音识别模型。
4.根据权利要求3所述的方法,所述在达到第一预设训练停止条件的情况下,将训练好的所述待训练模型确定为语音识别模型之后,还包括:
获取口音语音修正样本集,其中,所述口音语音修正样本集包含多种携带有口音语音标签的口音语音修正样本;
从所述口音语音修正样本集中提取任一口音语音修正样本,将该口音语音修正样本输入所述语音识别模型,得到预测识别结果;
根据所述预测识别结果和该口音语音修正样本携带的所述口音语音标签确定差异值;
根据所述差异值,调整所述语音识别模型的模型参数,继续执行所述从所述口音语音修正样本集中提取任一口音语音修正样本的步骤,在达到第二预设训练停止条件的情况下,得到目标语音识别模型。
5.根据权利要求3所述的方法,所述待训练模型包括采样层、编码层、多专家网络层和解码层;
所述将该口音语音样本输入所述待训练模型,得到输出结果,包括:
将该口音语音样本输入所述采样层进行采样处理,得到该口音语音样本的采样结果;
将所述采样结果输入所述编码层进行语音特征提取,得到第一预测语音特征;
将所述第一预测语音特征输入所述多专家网络层进行口音特征识别,得到携带有口音特征的第二预测语音特征;
所述根据所述输出结果确定损失值,并根据所述损失值,调整所述待训练模型的模型参数,包括:
根据所述采样结果、所述第一预测语音特征和所述第二预测语音特征,计算损失值,并根据所述损失值,调整所述待训练模型的模型参数。
6.根据权利要求5所述的方法,所述根据所述采样结果、所述第一预测语音特征和所述第二预测语音特征,计算损失值,并根据所述损失值,调整所述待训练模型的模型参数,包括:
根据所述第二预测语音特征和所述采样结果计算第一子损失值,根据所述第一预测语音特征和所述第二预测语音特征计算第二子损失值;
基于所述第一子损失值调整所述编码层的第一模型参数,并基于所述第二子损失值调整所述多专家网络层的第二模型参数。
7.根据权利要求5或6所述的方法,所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征之前,还包括:
获取该口音语音样本的口音嵌入特征;
所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征,包括:
将所述口音嵌入特征拼接至所述第一预测语音特征,将拼接后的第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征。
8.根据权利要求6所述的方法,所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征之前,还包括:
获取该口音语音样本的口音标签;
所述将所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征,包括:
将所述口音标签和所述第一预测语音特征输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第二预测语音特征;
所述基于所述第二子损失值调整所述多专家网络层的第二模型参数,包括:
根据所述口音标签确定所述多专家网络层中的待调整模型参数;
基于所述第二子损失值调整所述待调整模型参数。
9.根据权利要求4所述的方法,所述将该口音语音修正样本输入所述语音识别模型,得到预测识别结果,包括:
获取该口音语音修正样本的口音标识;
将所述口音语音修正样本输入至所述编码层进行语音特征提取,得到第三预测语音特征;
将所述第三预测语音特征和所述口音标识输入所述多专家网络层进行口音特征提取,得到携带有口音特征的第四预测语音特征;
将所述携带有口音特征的第四预测语音特征输入所述解码层进行识别,得到预测识别结果。
10.根据权利要求1所述的方法,所述语音数据为待识别音频中的一个音频片段;
所述基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容,包括:
获取相邻语音数据的第二语音文本内容,其中,所述相邻语音数据为所述待识别音频中与所述语音数据相邻的音频片段;
根据所述第二语音特征、所述口音特征和所述第二语音文本内容,识别所述语音数据对应的第一语音文本内容。
11.根据权利要求1或10所述的方法,所述提取所述语音数据中的语音特征,获得第一语音特征,包括:
对所述语音数据进行采样处理,得到所述待识别语音的采样结果;
对所述语音数据的采样结果进行语音特征提取,得到第一语音特征。
12.一种语音识别装置,包括:
第一获取模块,被配置为获取待识别的语音数据;
提取模块,被配置为利用预先训练的语音识别模型,提取所述语音数据中的语音特征,获得第一语音特征,其中,所述语音识别模型为对端到端语音识别的记忆装备的自注意力模型SAN-M,所述SAN-M包含有多专家网络层MIE;
第一识别模块,被配置为对所述第一语音特征进行口音特征识别,获得携带有口音特征的第二语音特征;
第二识别模块,被配置为基于所述第二语音特征,识别所述语音数据对应的第一语音文本内容。
13.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述语音识别方法的步骤。
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述语音识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210383886.7A CN114495904B (zh) | 2022-04-13 | 2022-04-13 | 语音识别方法以及装置 |
PCT/CN2023/087200 WO2023197977A1 (zh) | 2022-04-13 | 2023-04-10 | 语音识别方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210383886.7A CN114495904B (zh) | 2022-04-13 | 2022-04-13 | 语音识别方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114495904A CN114495904A (zh) | 2022-05-13 |
CN114495904B true CN114495904B (zh) | 2022-09-23 |
Family
ID=81488600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210383886.7A Active CN114495904B (zh) | 2022-04-13 | 2022-04-13 | 语音识别方法以及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114495904B (zh) |
WO (1) | WO2023197977A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114495904B (zh) * | 2022-04-13 | 2022-09-23 | 阿里巴巴(中国)有限公司 | 语音识别方法以及装置 |
CN115064173B (zh) * | 2022-07-27 | 2022-12-09 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备及计算机可读介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
US10453479B2 (en) * | 2011-09-23 | 2019-10-22 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
US9009049B2 (en) * | 2012-06-06 | 2015-04-14 | Spansion Llc | Recognition of speech with different accents |
CN111739517B (zh) * | 2020-07-01 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及介质 |
CN111816169B (zh) * | 2020-07-23 | 2022-05-13 | 思必驰科技股份有限公司 | 中英语种混杂语音识别模型训练方法和装置 |
CN112786052B (zh) * | 2020-12-30 | 2024-05-31 | 科大讯飞股份有限公司 | 语音识别方法、电子设备和存储装置 |
CN112614485A (zh) * | 2020-12-30 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 识别模型构建方法、语音识别方法、电子设备及存储介质 |
CN112863485A (zh) * | 2020-12-31 | 2021-05-28 | 平安科技(深圳)有限公司 | 口音语音识别方法、装置、设备及存储介质 |
CN113763933B (zh) * | 2021-05-06 | 2024-01-05 | 腾讯科技(深圳)有限公司 | 语音识别方法、语音识别模型的训练方法、装置和设备 |
CN113823262B (zh) * | 2021-11-16 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
CN114242071A (zh) * | 2021-12-21 | 2022-03-25 | 中山大学 | 一种低资源语音识别方法、系统、语音模型训练方法 |
CN114267334A (zh) * | 2021-12-29 | 2022-04-01 | 思必驰科技股份有限公司 | 语音识别模型训练方法及语音识别方法 |
CN114495904B (zh) * | 2022-04-13 | 2022-09-23 | 阿里巴巴(中国)有限公司 | 语音识别方法以及装置 |
-
2022
- 2022-04-13 CN CN202210383886.7A patent/CN114495904B/zh active Active
-
2023
- 2023-04-10 WO PCT/CN2023/087200 patent/WO2023197977A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
CN114495904A (zh) | 2022-05-13 |
WO2023197977A1 (zh) | 2023-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7464621B2 (ja) | 音声合成方法、デバイス、およびコンピュータ可読ストレージ媒体 | |
US11514891B2 (en) | Named entity recognition method, named entity recognition equipment and medium | |
CN111477216B (zh) | 一种用于对话机器人的音意理解模型的训练方法及系统 | |
CN106683677B (zh) | 语音识别方法及装置 | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN110503945B (zh) | 一种语音处理模型的训练方法及装置 | |
CN111292720A (zh) | 语音合成方法、装置、计算机可读介质及电子设备 | |
CN114495904B (zh) | 语音识别方法以及装置 | |
CN113439301A (zh) | 使用序列到序列映射在模拟数据与语音识别输出之间进行协调 | |
CN111210807B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN110853649A (zh) | 基于智能语音技术的标签提取方法、系统、设备及介质 | |
CN111199727A (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN112309366A (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN111292719A (zh) | 语音合成方法、装置、计算机可读介质及电子设备 | |
CN113327575B (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
WO2024088262A1 (zh) | 语音识别模型的数据处理系统及方法、语音识别方法 | |
CN112309367B (zh) | 语音合成方法、装置、存储介质及电子设备 | |
CN113781995A (zh) | 语音合成方法、装置、电子设备及可读存储介质 | |
CN112818680A (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
CN113744727A (zh) | 模型训练方法、系统、终端设备及存储介质 | |
CN113268989A (zh) | 多音字处理方法及装置 | |
CN114694637A (zh) | 混合语音识别方法、装置、电子设备及存储介质 | |
EP4275203B1 (en) | Self-learning end-to-end automatic speech recognition | |
CN114708848A (zh) | 音视频文件大小的获取方法和装置 | |
CN114512121A (zh) | 语音合成方法、模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 554, 5 / F, building 3, 969 Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: Alibaba (China) Co.,Ltd. Address before: 310052 room 508, 5th floor, building 4, No. 699 Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province Applicant before: Alibaba (China) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |