CN116386614A - 语音识别方法和装置 - Google Patents
语音识别方法和装置 Download PDFInfo
- Publication number
- CN116386614A CN116386614A CN202310320808.7A CN202310320808A CN116386614A CN 116386614 A CN116386614 A CN 116386614A CN 202310320808 A CN202310320808 A CN 202310320808A CN 116386614 A CN116386614 A CN 116386614A
- Authority
- CN
- China
- Prior art keywords
- character string
- string sequence
- sequence
- voice signal
- recognition module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 230000000873 masking effect Effects 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 37
- 238000010586 diagram Methods 0.000 description 8
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提供了一种语音识别方法和装置,本申请的方案包括:确定语音信号的声学特征,基于语音信号的声学特征,确定语音信号对应的第一字符串序列;确定第一字符串序列中的非中文字符串序列,对第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列;基于语音信号的声学特征以及第二字符串序列,确定语音信号的语音识别结果。
Description
技术领域
本申请涉及音频处理技术领域,尤其涉及一种语音识别方法和装置。
背景技术
语音识别是指语音信号转换为文本或者命令的技术。语音识别技术的应用领域日益增多。
但是,如果需要识别的语音信号是混合有中文和外文的音频信号,很容易出现识别错误,导致语音识别的准确性较低。
发明内容
一方面,本申请实施例提供了一种语音识别方法,包括:
确定语音信号的声学特征;
基于所述语音信号的声学特征,确定所述语音信号对应的第一字符串序列;
确定所述第一字符串序列中的非中文字符串序列,对所述第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列;
基于所述语音信号的声学特征以及所述第二字符串序列,确定所述语音信号的语音识别结果。
在一种可能的实现方式中,还包括:
如果所述第一字符串序列中不包含非中文字符串序列,基于所述第一字符串序列确定所述语音信号的语音识别结果。
在又一种可能的实现方式中,所述对所述第一字符串序列中的非中文字符串序列中的字符进行掩码处理,包括:
将所述第一字符串序列中的非中文字符串序列中的空格进行掩码处理。
在又一种可能的实现方式中,所述基于所述语音信号的声学特征以及所述第二字符串序列,确定所述语音信号的语音识别结果,包括:
基于所述语音信号的声学特征以及所述第二字符串序列,利用第一识别模块确定所述语音信号对应的第三字符串序列;
所述第一识别模块为利用多个标注有实际字符串序列的字符串序列样本对应的掩码序列样本进行训练得到的,所述掩码序列样本为通过对所述字符串序列样本中至少一个字符进行掩码处理后得到的。
在又一种可能的实现方式中,所述确定语音信号的声学特征,包括:
利用特征识别模块确定所述语音信号的声学特征;
所述基于所述语音信号的声学特征,确定所述语音信号对应的第一字符串序列,包括:
基于所述语音信号的声学特征,利用第二识别模块确定所述语音信号对应的第一字符串序列,所述第二识别模块为利用多个标注有实际字符串序列的语音信号样本进行训练得到的。
在又一种可能的实现方式中,所述字符串序列样本为所述语音信号样本经过所述特征识别模块和所述第二识别模块处理得到的字符串序列。
在又一种可能的实现方式中,对所述字符串序列样本中至少一个字符进行掩码处理,包括:
如果所述字符串序列样本中不包括非中文字符串序列,对所述字符串序列样本中的至少一个空格进行随机掩码处理;
如果所述字符串序列样本中包括非中文字符串序列,将所述字符串序列样本中非中文字符串序列中的空格进行掩码处理,将所述字符串序列样本的中文字符串序列内的空格以及所述字符串序列样本中非中文字符串序列内的外文字符进行随机掩码处理。
在又一种可能的实现方式中,所述特征识别模块、第一识别模块和第二识别模块通过如下方式训练得到:
获得多个标注有实际字符串序列的语音信号样本;
将所述语音信号样本输入到待训练的特征识别模块,得到所述语音信号样本的声学特征;
将所述语音信号样本的声学特征输入到待训练的第二识别模块,得到所述第二识别模块输出的字符串序列样本;
对所述字符串序列样本中至少一个字符进行掩码处理,得到掩码序列样本;
将所述掩码序列样本输入到待训练的第一识别模块,得到所述第一识别模块输出的字符串识别结果;
如果基于所述语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出不满足训练结束条件,调整所述特征识别模块、第一识别模块和第二识别模块的参数,返回执行所述将所述语音信号样本输入到待训练的特征识别模块的操作;
如果基于所述语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出满足训练结束条件,结束训练。
又一方面,本申请还提供了一种语音识别装置,包括:
特征确定单元,用于确定语音信号的声学特征;
第一识别单元,用于基于所述语音信号的声学特征,确定所述语音信号对应的第一字符串序列;
掩码处理单元,用于确定所述第一字符串序列中的非中文字符串序列,对所述第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列;
第二识别单元,用于基于所述语音信号的声学特征以及所述第二字符串序列,确定所述语音信号的语音识别结果。
在一种可能的实现方式中,该装置还包括:
结果确定单元,用于如果所述第一字符串序列中不包含非中文字符串序列,基于所述第一字符串序列确定所述语音信号的语音识别结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本申请实施例提供的语音识别方法的一种流程示意图;
图2示出了本申请实施例提供的语音识别方法的又一种流程示意图;
图3示出了本申请实施例提供的模型训练方法的一种流程示意图;
图4示出了本申请实施例中模型训练的一种原理框架示意图;
图5示出了本申请实施例提供的语音识别方法的又一种流程示意图;
图6示出了本申请实施例提供的语音识别方法的一种实现原理框架示意图;
图7示出了本申请实施例提供的语音识别装置的一种组成结构示意图;
图8示出了本申请实施例提供的电子设备的一种组成架构示意图。
具体实施方式
本申请实施例的方案适用于任意需要语音信号识别的场景,以提高对包含非中文的语音信号的识别准确度。
如,本申请实施例的方案可以应用于涉及到语音识别的电子设备,该电子设备可以为提供语音识别服务的服务器,该电子设备还可以是具备语音识别功能的用户终端设备,如,手机、笔记本电脑、智能音箱或者智能家电等,对此不加限制。当然,本申请的方案还可以是适用于电子设备中需要提供语音识别服务的应用程序等,对此不加限制。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1,其示出了本申请实施例提供的语音识别方法的一种流程示意图,本实施例的方法可以应用于前面提到的电子设备,本实施例的方法可以包括:
S101,确定语音信号的声学特征。
其中,声学特征是语音信号在声音上表现出的特征。
如,声学特征包括但不限于语音信号的频率、振幅以及音调等与语音信息识别相关的特征,对此不加限制。
确定语音信号的声学特征可以采用任意对语音信号进行声学特征提取的方式,对此不加限制。
S102,基于该语音信号的声学特征,确定该语音信号对应的第一字符串序列。
其中,该第一字符串序列是结合语音信号的声学特征对语音信号进行语音识别得到的字符串序列。
基于语音信号的不同,该第一字符串序列有可能会包含一个或者多个字符。相应的,由于语音信号能是输入的中文语音,外文语音或者是掺杂有中文和外文的语音信号,因此,第一字符串序列中包含的字符可能会包括:中文字符、外文字符,空格以及其他特殊字符中的一种或者多种,对此不加限制。
其中,确定第一字符串序列可以是基于语音信号的声学特征,采用任意对语音信号进行语音识别的方式,对此不加限制。
S103,确定该第一字符串序列中的非中文字符串序列,对该第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列。
其中,第一字符串序列中的非中文本字符串序列是指第一字符串序列中由非中文字符组成的字符串序列。
其中,非中文字符串序列中仅包含非中文字符和非中文字符之间的空格。非中文字符串序列属于第一字符串序列的部分或者全部,如果第一字符串序列中不包含中文文本,那么第一字符串序列可能会都是非中文字符串序列。
如,以语音信号为中英文混合为例说明,从语音信号识别出的第一字符串序列中不仅会包含中文文字,还可能会包含英文单词,那么第一自字符串序列中由连续的至少一个英文单词以及该至少一个英文之间的空格字符组成的序列就是一个非中文字符串序列。
举例说明,语音信号识别出的第一字符串序列为:“今~天~~天气~怎~么~样Go_~night~~and~~~lo_~~~_jing”,其中,“~”表示空格,那么这个第一字符串序列中的非中文字符串序列就是“Go_~night~~and~~~lo_~~~_jing”。
当然,在实际应用中,如果用户输入的语音信号为多段中文与多段英文的掺杂,那么第一字符串序列中也可能会包含多段非中文字符串序列。
在本申请中需要对第一字符串序列中每段非中文字符串序列中字符进行掩码处理是将非中文字符串序列中部分字符进行掩码,以便在后续重新对掩码的字符进行识别,以减少外文字符被误识别的情况。
其中,对非中文字符串序列中的字符进行掩码处理可以有多种方式,如,可以对非中文字符串序列中的字符进行随机掩码处理,还可以是对非中文字符串序列中的特定字符进行掩码处理。
经过本申请的发明人研究发现,目前对于包含外文的语音信号进行识别时,经常会将语音信号中的外文字符错误识别为空格,而导致识别出的非中文字符串序列部分存在外文字符删除错误。例如,对于包含英文的语音信号,很可能会将一些英文字符错误识别为字符。
基于此,在一种可能的实现方式中,为了能够后续能够重点对非中文字符串序列中的空格进行识别,以识别出被错误识别为空格的外文字符,修正文本字符被误识别为空格的情况,本申请可以将第一字符串序列中的非中文字符串序列中的空格进行掩码处理。
其中,对于非中文字符串中的空格或者外文字母等字符的掩码处理可以是将字符替换为设定符号,该设定符号一般会区分与中文汉字、外文字符和空格之外的特定符号。如设定符号可以为“#”,当然,也可能根据需要设定为其他符号,对此不加限制。
为了便于区分,本申请将对第一字符串序列中的非中文字符串序列进行掩码处理后的字符串序列称为第二字符串序列。
举例说明,以第一字符串序列为:“今~天~~天气~怎~么~样Go_~night~~and~~~lo_~~~_jing”。
假设需要将第一字符串序列内的非中文字符串序列中的空格替换为掩码符号“#”为例说明。那么第一字符串序列中“Go_~night~~and~~~lo_~~~_jing”这一部分中包含的空格就会被替换为“#”,因此,该第一字符串序列经过掩码处理后得到的第二字符串序列为“今~天~~天气~怎~么~样Go_#night##and###lo_###_jing”。
S104,基于该语音信号的声学特征以及该第二字符串序列,确定该语音信号的语音识别结果。
本申请基于语音信号的声学特征对语音信号进行语音识别后,并不是直接将识别出的第一字符串序列直接确定为该语音信号的语音识别结果,而是需要在第二字符串序列的基础上再次进行语音识别,并将识别出的结果作为该语音信号的语音识别结果。
其中,结合该语音信号的声学特征以及第二字符串序列进行语音识别的方式可以采用任意语音识别方式,对此不加限制。
在一种可选方式中,考虑到语音信号中如果都是中文语音信息,那么就不存在将外文字符错误识别为空格等问题,对语音信号进行语音识别得到的识别结果的准确度相对较高,基于此,如果第一字符串序列中不包含非中文字符串序列,那么就可以基于第一字符串序列确定语音信号的语音识别结果。
如,将第一字符串序列确定为语音识别结果。又如,考虑到第一字符串序列中可能会涉及到一些字符之间的合并或者一些其他格式化处理,那么可以将对第一字符串序列进行格式化处理后的字符串序列确定为语音识别结果。
由以上可知,在本申请实施例中,在基于语音信号的声学特征确定出语音信号对应的第一字符串序列之后,还会对第一字符串序列中的非中文字符串序列中的字符进行掩码处理,在此基础上,再结合该语音信号的声学特征以及掩码处理得到的第二字符串序列进行语音识别的过程中,可以加强对语音信号中非中文内容的有效识别,减少由于语音信号中混杂非中文而导致非中文误删除的情况,从而提高了对包含有非中文的语音信号进行语音识别的准确度。
可以理解的是,基于语音信号的声学特征和第二字符串序列进行语音识别的具体实现可以有多种,本申请对此不加限制。
为了基于语音信号的声学特征和第二字符串序列能够更为准确识别出语音信号的语音识别结果,本申请还可以预先训练出用于语音识别的识别模块,为了便于区分,将基于语音信号的声学模型和第二字符串序列进行语音识别的识别模块称为第一识别模块。
该第一识别模块为利用多个标注有实际字符串序列的字符串序列样本对应的掩码序列样本进行训练得到的。
其中,该字符串序列样本可以为人工选择出的字符串序列。如,从数据库或者不同数据平台中获取历史上对不同语音信号识别出的字符串序列,这些字符串序列包括识别正确的字符串序列,也可以包括识别错误的字符串序列。相应的,语音信号中实际包含的字符串序列,就是该语音信号识别出的字符串序列所需标注的实际字符串序列。
该字符串序列样本还可以是多个语音信号样本经过语音识别得到的字符串序列,如,通过提取语音信号样本的声学特征,基于声学特征对语音信号样本进行语音识别得到字符串序列,将该字符串序列确定为用于训练的字符串序列样本。而语音信号样本实际对应的正确的字符串序列就是该字符串序列样本标注的实际字符串序列。
其中,掩码序列样本为通过对字符串序列样本中至少一个字符进行掩码处理后得到的。
对字符串序列样本中至少一个字符进行掩码处理也可以有多种方式。如,可以对字符串序列样本中字符进行随机掩码处理,即随机从字符串序列样本中选择一个或者多个字符进行掩码处理等。又如,可以对字符串序列样本中包含的空格部分进行掩码处理或者随机选择空格进行掩码处理等。
为了能够使得模型能够准确识别被掩码处理的字符对应的真实字符,本申请除了需要对非中文字符序列中的空格进行掩码处理外,还需要对其他部分的字符也进行一些随机掩码处理。
如,在一种可能的实现方式中,如果该字符串序列样本中不包括非中文字符串序列,对该字符串序列样本中的至少一个空格进行随机掩码处理。也就是说,如果字符串序列样本中仅仅包含中文字符和空格,那么只需要随机选择该字符串序列样本中的部分空格进行掩码处理。
如果该字符串序列样本中包括非中文字符串序列,将该字符串序列样本中非中文字符串序列中的空格进行掩码处理,将字符串序列样本的中文字符串序列内的空格以及该字符串序列样本中非中文字符串序列内的外文字符进行随机掩码处理。
其中,对于字符串序列样本非中文字符串序列内的空格是必须进行掩码处理的,这是因为:非中文字符串序列中的空格有可能是外文字符被错误识别而得到的,因此,为了使得第一识别模块能够对可能会被错误识别的空格进行重点识别,需要将空格处理为掩码,使得训练过程中第一识别模块能够对掩码处理后的字符重点进行重识别。
但是,对于字符串序列样本中的中文字符串序列内的空格以及该非中文字符串序列中的空格之外的其他字符,可以随机选择一些字符进行掩码处理,以通过训练提升第一识别模块的识别准确性。
可以理解的是,训练该第一识别模块的过程可以采用任意有监督训练方法,对此不加限制。
相应的,基于该语音信号的声学特征以及该第二字符串序列,可以利用该第一识别模块确定该语音信号对应的第三字符串序列。
在此基础上,可以将第三字符串序列作为语音信号的语音识别结果,或者是,对第三字符串序列进行一些格式化处理,将格式化处理后的第三字符串序列作为语音识别结果。
其中,该第一识别模块可以为一个独立的模型。
特别的,在确定第一字符串序列也是基于模型对语音信号进行识别的,那么该第一识别模块和识别出第一字符串序列的第二识别模块可以整体作为一个识别模型,或者是识别模型的一部分。
下面以通过模型从语音信号中识别出第一字符串序列以及利用模型对掩码处理后的第二字符串序列进行语音识别为例进行说明。
如图2所示,其示出了本申请实施例提供的语音识别方法的又一种流程示意图,本实施例的方法可以包括:
S201,利用特征识别模块确定该语音信号的声学特征。
其中,特征识别模块可以为用于对语音信号进行声学特征提取的模型。该特征识别模块还可以与后续第一识别模块和第二识别模块组合称为一个语音识别模型,因此,该特征识别模块为语音识别模型的一部分模型。
在本申请中,该特征识别模块可以单独利用标注有实际声学特征的多个语音信号进行有监督训练得到;也可以是利用标注有实际字符串序列的多个语音信号样本,并与后续第一识别模块和第二识别模块一并训练得到。
S202,基于该语音信号的声学特征,利用第二识别模块确定该语音信号对应的第一字符串序列。
其中,第二识别模块为利用多个标注有实际字符串序列的语音信号样本进行训练得到的。
如,可以利用有监督训练方式,利用多个标注有实际字符串序列的语音信号样本的声学特征训练出第二识别模块。或者是,利用有监督训练方式,利用多个标注有实际字符串序列的语音信号样本的声学特征,对特征识别模块、第二识别模块以及后续的第一识别模块一起进行训练,最终得到训练出的这几个识别模块。
需要说明的是,本申请仅仅是为了便于区分,将前面提到的基于第二字符串序列进行语音识别的识别模块称为第一识别模块,而将此处对语音信号进行语音识别的模型称为第二识别模块。
S203,确定该第一字符串序列中的非中文字符串序列,对该第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列。
该步骤可以参见前面实施例的相关介绍,在此不再赘述。
如,可以对该第一字符串序列中的非中文字符串序列中的空格进行掩码处理,得到第二字符串序列。
S204,基于该语音信号的声学特征以及该第二字符串序列,利用第一识别模块确定该语音信号对应的第三字符串序列。
第一识别模块为利用多个标注有实际字符串序列的字符串序列样本对应的掩码序列样本进行训练得到的,该掩码序列样本为通过对字符串序列样本中至少一个字符进行掩码处理后得到的。
其中,第一识别模块可以通过前面提到的训练方式训练得到。
在一种可能的实现方式中,训练该第一识别模块的掩码序列样本对应的字符串序列样本是可以为语音信号样本经过特征识别模块和第二识别模块处理得到的字符串序列。其中,语音信号样本为前面训练特征识别模块或者第二识别模块的语音信号样本。相应的,该语音信号样本标注的实际字符串序列可以作为训练该第一识别模块的字符串序列样本标注的实际字符串序列。
在本实施例中,利用特征识别模块提取出语音信号的声学特征之后,先基于声学特征利用第二识别模块进行语音识别,得到该语音信号识别出的第一字符串序列,通过训练出的模型对语音信号进行初步识别,可以提高识别出的语音信号识别的准确度,有利于识别出的第一字符串序列识别的准确性。
在此基础上,本申请在对第一字符串序列中非中文字符串序列内的字符进行掩码处理得到第二字符串序列,然后再利用第一识别模块结合该声学特征和第二字符串序列进行语音识别,由于第一识别模块也是利用标注实际字符串序列的字符串序列样本对应的掩码序列样本进行训练得到的,因此,第一识别模块能够更有针对性地修正第二字符串序列中被掩码的且属于误识别的字符,从而减少外文字符被错误识别为空格的情况,进而可以使得最终对语音信号识别得到的第三字符串序列更为准确。
为了便于理解本申请中特征识别模块,第一识别模块和第二识别模块的训练过程,下面以对这三个识别模块进行同步训练为例,结合一种训练方法进行说明。
如图3所示,其示出了本申请实施例中训练特征识别模块,第一识别模块和第二识别模块的一种实现流程示意图,本实施例的方法可以包括:
S301,获得多个标注有实际字符串序列的语音信号样本。
其中,语音信号样本为作为训练样本的语音信号。而语音信号样本标注的实际字符串序列为语音信号样本中真实包含的文本内容。
S302,对于每个语音信号样本,将该语音信号样本输入到待训练的特征识别模块,得到语音信号样本的声学特征。
如,特征识别模块可以为一个特征编码器,也可以是一个网络模型,对此不加限制。
S303,将语音信号样本的声学特征输入到待训练的第二识别模块,得到第二识别模块输出的字符串序列样本。
本申请将训练过程中,第二识别模块基于语音信号样本的声学特征确定出的字符串序列称为字符串序列样本,基于该字符串序列样本可以进行后续第一识别模块的训练。
S304,对该字符串序列样本中至少一个字符进行掩码处理,得到掩码序列样本。
可以理解的是,每个语音信号样本经过步骤S302和S303的处理后都可以得到一个字符串序列样本。
其中,对字符串序列样本中至少一个字符进行掩码处理的方式可以参见前面提到的方式。
为了便于理解,以一种情况为例并结合具体实例进行说明。
如,如果字符串序列样本中不包括非中文字符串序列,可以对字符串序列样本中的至少一个空格进行随机掩码处理。例如,字符串序列样本为“我~今~天~~心情~~很好”为例,其中“~”代表空格,假设掩码处理是将字符替换为“#”,那么对于该字符串序列样本可以将随机选择一些空格进行掩码处理,那么掩码处理得到的掩码序列样本可以为“我#今~天##心情~#很好”,还可能是“我~今#天~~心情##很好”,当然,还可以有其他可能。
对于字符串序列样本中包括非中文字符串序列的情况,可以参见图4,其示出了本申请中模型训练的一种原理框架示意图。
由图4可以看出,将语音信号样本经过特征识别模块识别出声学特征后,声学特征输入到第二识别模块,可以得到第二识别模块识别出的字符串序列样本为“今~天~~天气~怎~么~样Go_~night~~and~~~lo_~~~_jing”。该字符串序列样本中包含英文单词组成的非中文字符串序列。
假设对于包含有非中文字符串序列的字符串序列样本,采用将字符串序列样本中非中文字符串序列中的空格进行掩码处理,将字符串序列样本的中文字符串序列内的空格以及字符串序列样本中非中文字符串序列内的外文字符进行随机掩码处理为例。那么对于图4中的第二识别模块输出的字符串序列样本,经过掩码处理后得到的掩码序列样本可以为:“今#天~~天气#怎~么~样##_#night##and###lo_###_jing”。
由图4中经过掩码处理后得到的该掩码序列样本可知,字符串序列样本中非中文字符序列“Go_~night~~and~~~lo_~~~_jing”中的空格都被替换为掩码符号“#”,另外,该非中文字符序列中随机选择了“Go”这个英文单词进行了掩码处理。字符串序列样本的中文字符序列部分中随机选择了部分空格进行了掩码处理,如,将“今~天”中的空格替换为掩码符号“#”。
可以理解的是,在对非中文字符序列中空格之外的字符进行掩码处理时,如果多个字符组成为一个外文单词(如英文单词),那么这个外文单词(例如图4中的“Go”)可以仅仅采用一个掩码符号替代,以减少掩码处理复杂度,提高训练效率。
S305,将掩码序列样本输入到待训练的第一识别模块,得到第一识别模块输出的字符串识别结果。
其中,字符串识别结果也就是第一识别模块识别出的字符串序列。
S306,如果基于各语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出不满足训练结束条件,调整特征识别模块、第一识别模块和第二识别模块的参数,返回步骤S302。
如,依据设定的损失函数,利用各语音信号样本标注的实际字符串序列以及该第一识别模块输出的字符串序列计算损失函数值,如果损失函数值收敛,则确定满足训练结束条件。
又如,基于各语音信号样本标注的实际字符串序列以及该第一识别模块输出的字符串序列确定预测准确度,如果预测准确度符合要求,则确定满足训练结束条件。
当然,训练结束条件还可以有其他可能,对此不加限制。
如果尚未满足训练结束条件,则需要调整这三个模块的参数并返回继续训练,直至满足训练结束条件。
在本申请中第一识别模块和第二识别模块可以为解码器,也可以是网络模型,对此不加限制。
S307,如果基于语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出满足训练结束条件,结束训练。
可以理解的是,训练出的特征识别模块、第二识别模块以及该第一识别模块每一个都是一个单独的模型,而这三个模块整体可以看成是一个语音识别模型。
可见,为了使得第一识别模块能够确定字符串序列样本中被错误识别的空格或者字母等字符,本申请将字符串序列样本进行掩码处理,并通过第一识别模块结合声学特征掩码处理得到的掩码序列样本不断识别与训练,从而可以使得训练出的第一识别模块能够准确识别被错误识别为空格的外文字符。
为了便于理解本申请的方案,下面结合一种实现方式对本申请的语音识别方法进行说明,如图5所示,其示出了本申请实施例提供的语音识别方法的又一种流程示意图,本实施例的方法可以包括:
S501,利用特征识别模块确定待识别的语音信号的声学特征。
S502,基于该语音信号的声学特征,利用第二识别模块确定该语音信号对应的第一字符串序列。
S503,如果该第一字符串序列不包含非中文字符串序列,基于第一字符串序列确定语音信号的语音识别结果。
可以理解的是,如果第一字符串序列中不包含非中文字符串序列,那么由于仅包含中文的语音信号的识别技术已经较为成熟,所以可以认为语音信号识别出的中文字符序列是准确的,从而无需再进行后续处理,而可以基于该第一字符串序列确定语音信号的语音识别结果。
其中,可以直接将第一字符串序列确定为语音识别结果。
在一种可能的实现方式中,考虑到对语音信号识别出的中文的第一字符串序列中也可能会存在一些多余的空格或者文字重复,因此,识别出第一字符串序列后,还可以对第一字符串序列进行一些文字去重或者空格删除等格式化处理,将格式化处理后的字符串序列确定为语音信号识别出的文本结果。
例如,识别出的第一字符串序列为“今~天天~气怎么~样”,那么去除空格和一些明显重复的字之后,可以得到语音识别结果为“今天天气怎么样”。
S504,如果该第一字符串序列包含非中文字符串序列,将该第一字符串序列中的非中文字符串序列中的空格进行掩码处理,得到第二字符串序列。
由前面介绍可知,在训练出第一识别模块之后,由于第一识别模块能够具备准确识别出被错误识别为空格的外文字符,因此,在应用第一识别模块进行语音识别时,只需要将非中文字符串序列中有可能会被误识别的空格进行掩码处理,以便第一识别模块对掩码的字符重点进行识别。
S505,基于所述语音信号的声学特征以及第二字符串序列,利用第一识别模块确定语音信号对应的第三字符串序列。
如前面步骤S503类似,本申请可以将第三字符串序列确定为语音信号的语音识别结果,因此,识别出第三字符串序列就完成了所有的语音识别处理。
当然,考虑到第三字符串序列中也可能会存在一些多余的空格、重复的字词或者是一些需要合并的字符,本申请也需要按照设定的字符串格式化处理规则,对第三字符串序列进行处理,最终得到语音信号的语音识别结果。
结合图6说明,图6示出了本申请实施例中语音识别方法的一种实现过程的示意框图。
由图6可以看出待识别的语音信号经过特征识别模块以及第二特征识别模块后可以得到第一字符串序列“今~天~~天气~怎~么~样Go_~night~~and~~~lo_~~~_jing”。
按照本实施例的方式仅将第一字符串序列的英文部分内的空格进行掩码处理,得到第二字符串序列:“今~天~~天气~怎~么~样Go_#night##and###lo_###_jing”。
将第二字符串序列输入到第一识别模块可以得到第三字符串序列为:“今~天~~天气~怎~么~样Go__od~night~~and~i~lo__ve~bei__jing”。
对比第三字符串序列和第一字符串序列可知,在第一字符串序列中将“_od”错误识别为空格,而经过第一识别模块再次识别可以确定出该空格为“_od”,类似的,第一字符串序列中“and”与“lo”之间一处空格应该为“i”。第三字符串序列与第一字符串序列中其他几处不同也类似,不再赘述。
可以理解的是,在得到该第三字符串序列后,由于第三字符串序列中有些词需要合并,如,第三字符串序列中,字母相邻的“_”表示单词的词根,其表示需要与前面或者后面的词合并。同时,第三字符串序列中还有一些多余的空格也需要删除。基于此,通过对第三字符串序列进行相应的格式化处理,可以得到语音信号最终的文本识别结果为:“今~天~~天气~怎~么~样Good night and i love beijing”。
本申请在得到第三字符串序列之后,对于基于第三字符串序列确定语音识别结果的具体过程可以不加限制。
对应本申请的一种语音识别方法,本申请还提供了一种语音识别装置。
如图7,其示出了本申请实施例提供的语音识别装置的一种组成结构示意图,本实施例的装置可以包括:
特征确定单元701,用于确定语音信号的声学特征;
第一识别单元702,用于基于所述语音信号的声学特征,确定所述语音信号对应的第一字符串序列;
掩码处理单元703,用于确定所述第一字符串序列中的非中文字符串序列,对所述第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列;
第二识别单元704,用于基于所述语音信号的声学特征以及所述第二字符串序列,确定所述语音信号的语音识别结果。
在又一种可能的实现方式中,该装置还包括:
结果确定单元,用于如果所述第一字符串序列中不包含非中文字符串序列,基于所述第一字符串序列确定所述语音信号的语音识别结果。
在又一种可能的实现方式中,掩码处理单元,包括:
掩码处理子单元,用于将所述第一字符串序列中的非中文字符串序列中的空格进行掩码处理。
在又一种可能的实现方式中,第二识别单元,包括:
第二识别子单元,用于基于所述语音信号的声学特征以及所述第二字符串序列,利用第一识别模块确定所述语音信号对应的第三字符串序列,其中,所述第一识别模块为利用多个标注有实际字符串序列的字符串序列样本对应的掩码序列样本进行训练得到的,所述掩码序列样本为通过对所述字符串序列样本中至少一个字符进行掩码处理后得到的。
在又一种可能的实现方式中,该特征确定单元,包括:
特征确定子单元,用于利用特征识别模块确定所述语音信号的声学特征;
第一识别单元,包括:
第一识别子单元,用于基于所述语音信号的声学特征,利用第二识别模块确定所述语音信号对应的第一字符串序列,所述第二识别模块为利用多个标注有实际字符串序列的语音信号样本进行训练得到的。
在又一种可能的实现方式中,第二识别子单元中训练第一识别模块的掩码序列样本对应的字符串序列样本是训练该第二识别模块的语音信号样本经过所述特征识别模块和所述第二识别模块处理得到的字符串序列。
在又一种可能的实现方式中,第二识别子单元中的掩码序列样本为经过如下掩码处理得到的:
如果所述字符串序列样本中不包括非中文字符串序列,对所述字符串序列样本中的至少一个空格进行随机掩码处理;
如果所述字符串序列样本中包括非中文字符串序列,将所述字符串序列样本中非中文字符串序列中的空格进行掩码处理,将所述字符串序列样本的中文字符串序列内的空格以及所述字符串序列样本中非中文字符串序列内的外文字符进行随机掩码处理。
在又一种可能的实现方式中,该装置还包括:模型训练单元,该模型训练单元用于通过如下方式训练得到所述特征识别模块、第一识别模块和第二识别模块:
获得多个标注有实际字符串序列的语音信号样本;
将所述语音信号样本输入到待训练的特征识别模块,得到所述语音信号样本的声学特征;
将所述语音信号样本的声学特征输入到待训练的第二识别模块,得到所述第二识别模块输出的字符串序列样本;
对所述字符串序列样本中至少一个字符进行掩码处理,得到掩码序列样本;
将所述掩码序列样本输入到待训练的第一识别模块,得到所述第一识别模块输出的字符串识别结果;
如果基于所述语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出不满足训练结束条件,调整所述特征识别模块、第一识别模块和第二识别模块的参数,返回执行所述将所述语音信号样本输入到待训练的特征识别模块的操作;
如果基于所述语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出满足训练结束条件,结束训练。
又一方面,本申请还提供了一种电子设备,如图8所示,其示出了该电子设备的一种组成结构示意图,该电子设备可以为任意类型的电子设备,该电子设备至少包括处理器801和存储器802;
其中,处理器801用于执行如上任意一个实施例中的语音识别方法。
该存储器802用于存储处理器执行操作所需的程序。
可以理解的是,该电子设备还可以包括显示单元803以及输入单元804。
当然,该电子设备还可以具有比图8更多或者更少的部件,对此不加限制。
另一方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上任意一个实施例所述的语音识别方法。
本申请还提出了一种计算机程序,该计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机程序在电子设备上运行时,用于执行如上任意一个实施例中的语音识别方法。
可以理解的是,在本申请中,说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示的以外的顺序实施。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。同时,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (10)
1.一种语音识别方法,包括:
确定语音信号的声学特征;
基于所述语音信号的声学特征,确定所述语音信号对应的第一字符串序列;
确定所述第一字符串序列中的非中文字符串序列,对所述第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列;
基于所述语音信号的声学特征以及所述第二字符串序列,确定所述语音信号的语音识别结果。
2.根据权利要求1所述的方法,还包括:
如果所述第一字符串序列中不包含非中文字符串序列,基于所述第一字符串序列确定所述语音信号的语音识别结果。
3.根据权利要求1所述的方法,所述对所述第一字符串序列中的非中文字符串序列中的字符进行掩码处理,包括:
将所述第一字符串序列中的非中文字符串序列中的空格进行掩码处理。
4.根据权利要求1所述的方法,所述基于所述语音信号的声学特征以及所述第二字符串序列,确定所述语音信号的语音识别结果,包括:
基于所述语音信号的声学特征以及所述第二字符串序列,利用第一识别模块确定所述语音信号对应的第三字符串序列;
所述第一识别模块为利用多个标注有实际字符串序列的字符串序列样本对应的掩码序列样本进行训练得到的,所述掩码序列样本为通过对所述字符串序列样本中至少一个字符进行掩码处理后得到的。
5.根据权利要求4所述的方法,所述确定语音信号的声学特征,包括:
利用特征识别模块确定所述语音信号的声学特征;
所述基于所述语音信号的声学特征,确定所述语音信号对应的第一字符串序列,包括:
基于所述语音信号的声学特征,利用第二识别模块确定所述语音信号对应的第一字符串序列,所述第二识别模块为利用多个标注有实际字符串序列的语音信号样本进行训练得到的。
6.根据权利要求5所述的方法,所述字符串序列样本为所述语音信号样本经过所述特征识别模块和所述第二识别模块处理得到的字符串序列。
7.根据权利要求4所述的方法,对所述字符串序列样本中至少一个字符进行掩码处理,包括:
如果所述字符串序列样本中不包括非中文字符串序列,对所述字符串序列样本中的至少一个空格进行随机掩码处理;
如果所述字符串序列样本中包括非中文字符串序列,将所述字符串序列样本中非中文字符串序列中的空格进行掩码处理,将所述字符串序列样本的中文字符串序列内的空格以及所述字符串序列样本中非中文字符串序列内的外文字符进行随机掩码处理。
8.根据权利要求6或7所述的方法,所述特征识别模块、第一识别模块和第二识别模块通过如下方式训练得到:
获得多个标注有实际字符串序列的语音信号样本;
将所述语音信号样本输入到待训练的特征识别模块,得到所述语音信号样本的声学特征;
将所述语音信号样本的声学特征输入到待训练的第二识别模块,得到所述第二识别模块输出的字符串序列样本;
对所述字符串序列样本中至少一个字符进行掩码处理,得到掩码序列样本;
将所述掩码序列样本输入到待训练的第一识别模块,得到所述第一识别模块输出的字符串识别结果;
如果基于所述语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出不满足训练结束条件,调整所述特征识别模块、第一识别模块和第二识别模块的参数,返回执行所述将所述语音信号样本输入到待训练的特征识别模块的操作;
如果基于所述语音信号样本对应的字符串识别结果和标注的实际字符串序列确定出满足训练结束条件,结束训练。
9.一种语音识别装置,包括:
特征确定单元,用于确定语音信号的声学特征;
第一识别单元,用于基于所述语音信号的声学特征,确定所述语音信号对应的第一字符串序列;
掩码处理单元,用于确定所述第一字符串序列中的非中文字符串序列,对所述第一字符串序列中的非中文字符串序列中的字符进行掩码处理,得到第二字符串序列;
第二识别单元,用于基于所述语音信号的声学特征以及所述第二字符串序列,确定所述语音信号的语音识别结果。
10.根据权利要求9所述的装置,还包括:
结果确定单元,用于如果所述第一字符串序列中不包含非中文字符串序列,基于所述第一字符串序列确定所述语音信号的语音识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320808.7A CN116386614A (zh) | 2023-03-29 | 2023-03-29 | 语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310320808.7A CN116386614A (zh) | 2023-03-29 | 2023-03-29 | 语音识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116386614A true CN116386614A (zh) | 2023-07-04 |
Family
ID=86976248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310320808.7A Pending CN116386614A (zh) | 2023-03-29 | 2023-03-29 | 语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116386614A (zh) |
-
2023
- 2023-03-29 CN CN202310320808.7A patent/CN116386614A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN106570180B (zh) | 基于人工智能的语音搜索方法及装置 | |
US8473295B2 (en) | Redictation of misrecognized words using a list of alternatives | |
CN112115706B (zh) | 文本处理方法、装置、电子设备及介质 | |
CN106534548B (zh) | 语音纠错方法和装置 | |
CN109949071A (zh) | 基于语音情绪分析的产品推荐方法、装置、设备和介质 | |
CN103559880B (zh) | 语音输入系统和方法 | |
CN112257437B (zh) | 语音识别纠错方法、装置、电子设备和存储介质 | |
CN109299471B (zh) | 一种文本匹配的方法、装置及终端 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
CN111369980B (zh) | 语音检测方法、装置、电子设备及存储介质 | |
CN112347767B (zh) | 一种文本处理方法、装置及设备 | |
CN113192497B (zh) | 基于自然语言处理的语音识别方法、装置、设备及介质 | |
CN111651978A (zh) | 基于实体的词法检查方法与装置和计算机设备及存储介质 | |
CN111339758A (zh) | 基于深度学习模型的文本纠错方法及系统 | |
US11869491B2 (en) | Abstract generation device, method, program, and recording medium | |
CN112216284A (zh) | 训练数据更新方法及系统、语音识别方法及系统、设备 | |
CN111554295B (zh) | 文本纠错方法、相关设备及可读存储介质 | |
CN104599693A (zh) | 台词同步字幕的制作方法 | |
CN109002454B (zh) | 一种确定目标单词的拼读分区的方法和电子设备 | |
CN116386614A (zh) | 语音识别方法和装置 | |
CN115831117A (zh) | 实体识别方法、装置、计算机设备和存储介质 | |
CN113051923B (zh) | 数据验证方法、装置、计算机设备和存储介质 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
CN111161707B (zh) | 一种自动补充质检关键词表的方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |