CN109036384B - 语音识别方法和装置 - Google Patents
语音识别方法和装置 Download PDFInfo
- Publication number
- CN109036384B CN109036384B CN201811036633.2A CN201811036633A CN109036384B CN 109036384 B CN109036384 B CN 109036384B CN 201811036633 A CN201811036633 A CN 201811036633A CN 109036384 B CN109036384 B CN 109036384B
- Authority
- CN
- China
- Prior art keywords
- syllable
- sample
- signal
- acoustic feature
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012545 processing Methods 0.000 claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims description 165
- 238000012549 training Methods 0.000 claims description 27
- 238000013480 data collection Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了语音识别方法和装置。该方法的一具体实施方式包括:从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列;基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。该实施方式提升了声学置信度判决精度。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及语音技术领域,尤其涉及语音识别方法和装置。
背景技术
声学置信度是用于衡量自动语音识别中的声学识别结果可依赖程度的一种工具。结合声学置信度和语义模型,可以区分出语音和非语音(例如环境噪声),当非语音输入造成误识别时,解码器和语言模型可以根据声学置信度将非语音的识别结果剔除,从而实现对非语音的“拒识”。传统的声学置信度是由声学打分变化而来,计算识别选定结果与其他所有可能结果的比值,比值越大选定结果的可依赖度越高。
基于声学打分的置信度判决方法依赖于识别结果与输入特征的对齐,而目前的声学模型一般采用CTC(connectionist temporal classification,联结时间分类)方法训练,CTC是序列到序列的建模,不依赖于输入特征与识别结果的对齐,因此,基于声学打分得到的声学置信度的准确性有待提升。
发明内容
本申请实施例提出了语音识别方法和装置。
第一方面,本申请实施例提供了一种语音识别方法,包括:从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列,音节序列中的音节依次与待处理语音信号的每一帧的声学特征对齐;基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。
在一些实施例中,上述基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征,包括:根据待处理语音信号的声学特征对应的音节序列,确定待处理语音信号对应的识别文本所包含的每个单音节对应的声学特征的长度;将各单音节对应的声学特征变换为具有预设长度的声学特征,得到待处理语音信号的定长声学特征。
在一些实施例中,上述声学置信度模型分别预测各预设音节建模单元为声学特征所表示的音节的概率。
在一些实施例中,上述方法还包括:基于样本语音数据集,对待训练的音节对齐模型进行训练,得到已训练的音节对齐模型,样本语音数据集包括第一样本语音信号;基于样本语音数据集,对待训练的音节对齐模型进行训练,得到已训练的音节对齐模型,包括:基于高斯混合模型对从第一样本语音信号提取出的声学特征进行切分,得到初始的音节对齐结果;采用待训练的音节对齐模型对初始的音节对齐结果进行修正,基于修正后的音节对齐结果迭代调整待训练的音节对齐模型的参数。
在一些实施例中,上述方法还包括:基于样本音频数据集对待训练的声学置信度模型进行训练,得到已训练的声学置信度模型,其中,样本音频数据集包括样本音频信号以及样本音频信号的文本标注信息;基于样本音频数据集对待训练的声学置信度模型进行训练,得到已训练的声学置信度模型,包括:提取出样本音频信号的声学特征,并基于样本音频信号的声学特征进行语音识别,得到样本音频信号对应的识别文本;将样本音频信号的声学特征和样本音频信号对应的识别文本输入已训练的音节对齐模型,得到样本音频信号的声学特征对应的音节序列;基于样本音频信号的声学特征对应的音节序列对样本音频信号的声学特征进行定长处理,得到样本音频信号的定长声学特征;采用待训练的声学置信度模型对样本音频信号的定长声学特征进行声学置信度预测,得到样本音频信号的声学置信度预测结果,将样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果进行比对,根据比对结果迭代调整待训练的声学置信度模型的参数,使得调整参数后的声学置信度模型对样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果之间的差异满足预设的收敛条件。
在一些实施例中,上述样本音频信号包括第二样本语音信号和非语音音频信号。
在一些实施例中,上述样本音频信号包括正样本信号和负样本信号;正样本信号的文本标注信息所指示的正样本信号的对应的音节与正样本信号对应的文本的标准读音所包含的音节一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节不一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节的相似音节不一致。
第二方面,本申请实施例提供了一种语音识别装置,包括:提取单元,被配置为从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;对齐单元,被配置为将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列,音节序列中的音节依次与待处理语音信号的每一帧的声学特征对齐;处理单元,被配置为基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;预测单元,被配置为采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。
在一些实施例中,上述处理单元进一步被配置为按照如下方式对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征:根据待处理语音信号的声学特征对应的音节序列,确定待处理语音信号对应的识别文本所包含的每个单音节对应的声学特征的长度;将各单音节对应的声学特征变换为具有预设长度的声学特征,得到待处理语音信号的定长声学特征。
在一些实施例中,上述声学置信度模型分别预测各预设音节建模单元为声学特征所表示的音节的概率。
在一些实施例中,上述装置还包括:第一训练单元,被配置为基于样本语音数据集,对待训练的音节对齐模型进行训练,得到已训练的音节对齐模型,样本语音数据集包括第一样本语音信号;第一训练单元被配置为基于样本语音数据集,按照如下方式对待训练的音节对齐模型进行训练,得到已训练的音节对齐模型:基于高斯混合模型对从第一样本语音信号提取出的声学特征进行切分,得到初始的音节对齐结果;采用待训练的音节对齐模型对初始的音节对齐结果进行修正,基于修正后的音节对齐结果迭代调整待训练的音节对齐模型的参数。
在一些实施例中,上述装置还包括:第二训练单元,被配置为基于样本音频数据集对待训练的声学置信度模型进行训练,得到已训练的声学置信度模型,其中,样本音频数据集包括样本音频信号以及样本音频信号的文本标注信息;第二训练单元被配置为基于样本音频数据集对待训练的声学置信度模型进行训练,按照如下方式得到已训练的声学置信度模型:提取出样本音频信号的声学特征,并基于样本音频信号的声学特征进行语音识别,得到样本音频信号对应的识别文本;将样本音频信号的声学特征和样本音频信号对应的识别文本输入已训练的音节对齐模型,得到样本音频信号的声学特征对应的音节序列;基于样本音频信号的声学特征对应的音节序列对样本音频信号的声学特征进行定长处理,得到样本音频信号的定长声学特征;采用待训练的声学置信度模型对样本音频信号的定长声学特征进行声学置信度预测,得到样本音频信号的声学置信度预测结果,将样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果进行比对,根据比对结果迭代调整待训练的声学置信度模型的参数,使得调整参数后的声学置信度模型对样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果之间的差异满足预设的收敛条件。
在一些实施例中,上述样本音频信号包括第二样本语音信号和非语音音频信号。
在一些实施例中,上述样本音频信号包括正样本信号和负样本信号;正样本信号的文本标注信息所指示的正样本信号的对应的音节与正样本信号对应的文本的标准读音所包含的音节一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节不一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节的相似音节不一致。
第三方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面提供的语音识别方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现第一方面提供的语音识别方法。
本申请上述实施例的语音识别方法和装置,通过从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列,音节序列中的音节依次与待处理语音信号的声学特征中的每一帧对齐;基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度,实现了声学特征与音节序列的对齐,解决了声学置信度算法中由于对齐不准确造成的置信度结果不精确的问题,能够提升声学置信度的准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的语音识别方法的一个实施例的流程图;
图3是根据本申请的语音识别方法的另一个实施例的流程图;
图4是本申请的语音识别装置的一个实施例的结构示意图;
图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的语音识别方法或语音识别装置的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104、以及服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103可以通过网络104与服务器105交互,以接收或发送文字或音频消息等。终端设备101、102、103上可以安装有各种信息交互应用,例如语音助手应用、信息搜索应用、地图应用、社交平台应用、音视频播放应用等。
终端设备101、102、103可以是具有音频信号采集功能的设备,可以是具有麦克风并支持互联网访问的各种电子设备,包括但不限于智能音箱、智能手机、平板电脑、智能手表、笔记本电脑、膝上便携型电脑、电子书阅读器等。
服务器105可以是提供音频信号处理的服务器,例如语音识别服务器。服务器105可以对终端设备101、102、103发送的音频信号进行解码,判断音频信号是否为语音信号,并识别语音信号。服务器105可以将音频信号是否为语音信号的判断结果以及语音信号的识别结果通过网络104反馈给终端设备101、102、103。
需要说明的是,本申请实施例所提供的语音识别方法可以由服务器105执行,相应地,语音识别装置可以设置于服务器105中。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。
当终端设备包含用于执行物理运算的部件(例如GPU等处理器)时,本申请实施例所提供的语音识别方法也可以由终端设备101、102、103执行,相应地,语音识别装置可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络、服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器。
继续参考图2,其示出了根据本申请的语音识别方法的一个实施例的流程200。该语音识别方法,包括以下步骤:
步骤201,从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本。
在本实施例中,语音识别方法的执行主体可以获取待处理的语音信号,对待处理的语音信号进行声学特征提取。声学特征可以是表征语音信号的时序特性或频率特性的特征。具体地,可以将时域的待处理语音信号转换为频域信号,提取其中的频谱特征,例如可以提取基频特征、梅尔频率特征等。
语音信号可以是由固定时间长度的语音帧在时间维度连接起来形成的,也即语音信号通常由多个语音帧形成。在本实施例中,声学特征提取可以是提取表征这些语音帧的强度或频率特性的特征。
在提取出声学特征之后,可以基于声学特征对待处理语音信号进行识别。在这里,可以首先对声学特征利用声学模型进行声学打分,然后利用发音词典和语言模型找到最优的解码路径,即得到识别文本。其中,声学模型可以基于GMM(Gaussian Mixed Model,高斯混合模型)或隐马尔可夫模型对声学特征的分布建模。语言模型用于表征词与词在排列结构上关系,或者说语言模型可以用于表征词间转移的约束关系。发音词典可以标注所有单字或单词的发音。通过发音字典可以得到声学模型的建模单元和语言模型建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于语音解码器进行解码路径的搜索工作。
步骤202,将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列。
在识别出待处理语音信号对应的识别文本之后,可以将待处理语音信号的声学特征和对应的识别文本输入已采用机器学习方法训练的音节对齐模型进行处理。音节对齐模型可以将音素状态作为建模单元,确定每一个语音帧的声学特征对应的音素状态。这样,音节对齐模型可以确定出输入的语音信号的每一个语音帧对应的音节。例如一段持续1秒、包含100个语音帧的语音信号的识别文本为“你好”,将100个语音帧的声学特征以及“你好”输入音节对齐模型之后,可以得出100个语音帧的声学特征对应的音节序列[n,n,n,n,…,i,i,i,...,h,h,h,h,…,ao,ao,ao,...],该音节序列中的音节依次与待处理语音信号的每一帧的声学特征对齐,也即该音节序列中的每一个音节表示待处理语音信号的每一帧的声学特征对应的音节。例如音节序列中第4个音节“n”表示待处理语音信号的第4帧的声学特征对应的音节为“n”。
上述音节对齐模型可以是用于将语音信号的声学特征与其对应的文本所包含的音节对齐的模型。在本实施例中,可以构建待训练的音节对齐模型,并构建样本数据,基于样本数据的语音帧的切分的标注信息对待训练的对齐模型进行训练。在训练过程中,基于待训练的对齐模型对样本数据中语音信号的对齐结果与样本数据的语音帧的切分的标注信息之间的差异不断迭代更新待训练的对齐模型,得到已训练的音节对齐模型。
可选地,上述音节对齐模型可以基于深度神经网络构建,例如可以基于深度循环网络或深度卷积网络构建。由于深度神经网络可以很好地应用上下文信息,基于深度神经网络的对齐模型也可以在对齐过程中利用语音信号的上下文信息,对语音信号的声学特征进行准确的切分。
步骤203,基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征。
由于每个音节持续的帧长可能不相同,例如通常韵母音节的帧长大于声母音节的帧长。为了保证音节建模单元的统一性,使得用于判断声学置信度的声学置信度模型可以对任意长度的音节都保证有效性,在得出待处理语音信号的声学特征与音节序列的对应关系之后,可以对声学特征进行定长处理。
具体地,可以将每个音节对应的声学特征的长度转换为固定的长度。可以对每个音节对应的声学特征的长度进行压缩或拉伸,得到待处理语音信号的定长声学特征。
在本实施例的一些可选的实现方式中,可以根据待处理语音信号的声学特征对应的音节序列,确定待处理语音信号对应的识别文本所包含的每个单音节对应的声学特征的长度,然后将各单音节对应的声学特征变换为具有预设长度的声学特征,得到待处理语音信号的定长声学特征。
具体来说,可以根据上述待处理语音信号的声学特征对应的音节序列,统计每个单音节对应声学特征的长度。例如上述音节序列示例[n,n,n,n,…,i,i,i,...,h,h,h,h,…,ao,ao,ao,...]中,单音节“n”、“i”、“h”、“ao”的长度统计结果可以分别为300帧、500帧、200帧、800帧,即该音节序列中第1帧-第300帧的声学特征对应音节“n”,第301帧-第800帧的声学特征对应音节“i”,第801帧-第1000帧的声学特征对应音节“h”,第1001帧-第1800帧的声学特征对应音节“ao”。
然后,可以将各音节的声学特征长度转换为统一的预设长度。例如预设长度为100帧。则可以将每个音节对应的声学特征长度都压缩为100帧。即在对上述示例中的声学特征进行定长处理得到的定长声学特征中,单音节“n”、“i”、“h”、“ao”对应的声学特征的长度均为100帧。
可以采用多种方式执行声学特征的长度转换。作为示例,上述每一个语音帧的声学特征可以例如是包含N个数的一维数组,假设一个音节x对应的声学特征的长度为M帧(M、N为正整数),则音节x对应的声学特征可以由一个M×N的矩阵表示。一种可选的长度转换方法是:设置S个窗口(S为正整数),其中S为转换后的声学特征的长度,利用设置的窗口在M×N的矩阵中选出S个块,在每个块内计算平均值、中值等作为该块的转换结果,组合S个块的转换结果得到转换后具有预设长度S的声学特征。或者可以对M×N的矩阵进行特征提取,提取出S×N的矩阵,作为具有固定长度S的定长声学特征。
步骤204,采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。
可以将待处理语音信号的定长声学特征输入已训练的声学置信度模型,声学置信度模型可以输出对应的待处理信号的声学置信度判决结果。在这里,声学置信度的判断结果可以包括:待处理的语音信号是语音信号或非语音信号的概率,或者待处理的语音信号所表征的是上述识别文本对应的语音信号的概率。声学置信度的判决结果也可以包括待处理的语音信号为语音信号的置信度值,或者待处理的语音信号为非语音信号的置信度值。这样,通过对待处理语音信号进行声学置信度判决,可以在语音识别的基础上对非语音信号进行拒识,提升语音识别的精度。
已训练的声学置信度模型可以是基于样本数据训练得出的。在这里,样本数据可以包括样本音频数据和样本音频数据的声学置信度标注结果。可以对样本音频数据提取声学特征、并进行识别,然后对样本音频数据的声学特征做对齐以及定长处理,将对齐且定长的样本音频数据的声学特征输入待训练的声学置信度模型,将待训练的声学置信度模型的输出结果与样本音频数据的声学置信度标注结果进行比对,根据比对结果迭代调整待训练的声学置信度模型的参数,在某次迭代后比对结果满足预设条件时可以固定待训练的声学置信度模型的参数,得到已训练的声学置信度模型。
在本实施例的一些可选的实现方式中,上述声学置信度模型可以分别预测各预设音节建模单元为声学特征所表示的音节的概率,并依据各预设音节建模单元为声学特征所表示的音节的概率来确定对应的语音信号的声学置信度。
具体来说,在声学置信模型的训练中,可以采用逻辑回归的方式计算声学置信模型对语音信号的声学置信度判决结果的损失。对于每一个音节建模单元,可以通过sigmod函数计算输入的声学特征属于该音节建模单元对应的类别的概率。
例如,声学置信度模型可以为深度卷积神经网络,可以在深度卷积神经网络的最后一层的每一个输出节点进行sigmod函数计算,分别计算每一个节点属于各音节建模单元的概率。这样,可以保证声学特征对应的每一个音节建模单元的概率之间相互独立,互不影响,从而避免了通过全连接层采用softmax函数计算概率时不同音节建模单元的概率之间的相互“打压”关系对声学置信度结果的影响。
由于在步骤203对声学特征进行了定长处理,所以声学置信度模型的预测结果不受到不同音节长度的影响,能够得到较可靠的声学置信度判决结果。
本申请上述实施例的语音识别方法,通过从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列,音节序列中的音节依次与待处理语音信号的声学特征中的每一帧对齐;基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度,实现了声学特征与音节序列的对齐,解决了声学置信度算法中由于对齐不准确造成的置信度结果不精确的问题,能够提升声学置信度的准确度。
继续参考图3,其示出了根据本申请的语音识别方法的一个实施例的流程300。该语音识别方法,包括以下步骤:
步骤301,基于样本语音数据集,对待训练的音节对齐模型进行训练,得到已训练的音节对齐模型。
样本语音数据集包括第一样本语音信号。在本实施例中,可以在语料库中选择一些语料构建样本语音数据集来训练音节对齐模型。
在本实施例中,可以采用如下方式对待训练的音节对齐模型进行训练:首先,基于高斯混合模型对从第一样本语音信号提取出的声学特征进行切分,得到初始的音节对齐结果;之后,采用待训练的音节对齐模型对初始的音节对齐结果进行修正,基于修正后的音节对齐结果迭代调整待训练的音节对齐模型的参数。
具体来说,可以对第一样本语音信号进行声学特征提取,然后利用GMM对第一样本语音信号的声学特征进行粗略的切分,在训练过程中可以通过迭代调整GMM的混合度来优化切分结果。在迭代次数达到预设的迭代次数时,可以停止对GMM的调整,将此时GMM对第一样本语音信号的声学特征的切分结果作为初始的音节对齐结果。
然后,可以基于待训练的音节对齐模型对第一样本语音信号的声学特征重新做对齐处理,通过调整待训练的音节对齐模型的参数,使调整参数后的对齐模型的对齐结果与GMM对第一样本语音信号的声学特征的切分结果逼近来优化待训练的音节对齐模型的参数。也即可以将GMM的对齐结果作为期望的结果,对待训练的音节对齐模型进行训练。
之后,可以在基于GMM的对齐结果训练得到的音节对齐的模型的基础上,继续修正待训练的音节对齐模型的参数,例如继续通过反向传播迭代调整音节对齐模型的参数,以进一步修正待训练的音节对齐模型的参数,在迭代预设次数后,得到已训练的音节对齐模型。
通过多次训练,能够得到可准确切分声学特征、将声学特征与音节序列准确地对齐的音节对齐模型。
步骤302,从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本。
在本实施例中,语音识别方法的执行主体可以获取待处理的语音信号,对待处理的语音信号进行声学特征提取。具体可以将时域的待处理语音信号转换为频域信号,提取其中的频谱特征,例如可以提取基频特征、梅尔频率特征等。
在提取出声学特征之后,可以基于声学特征对待处理语音信号进行识别。在这里,可以首先对声学特征利用声学模型进行声学打分,然后利用发音词典和语言模型找到最优的解码路径,即得到识别文本。
步骤303,将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列。
在识别出待处理语音信号对应的识别文本之后,可以将待处理语音信号的声学特征和对应的识别文本输入步骤301训练得出的音节对齐模型进行处理。上述音节对齐模型可以是用于将语音信号的声学特征与其对应的文本所包含的音节对齐的模型,可以确定出输入的语音信号的每一个语音帧对应的音节。
可选地,上述对齐模型可以基于深度神经网络构建,例如可以基于深度循环网络或深度卷积网络构建。
步骤304,基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征。
可以将每个音节对应的声学特征的长度转换为固定的长度。可以对每个音节对应的声学特征的长度进行压缩或拉伸,得到待处理语音信号的定长声学特征。
在本实施例的一些可选的实现方式中,可以根据待处理语音信号的声学特征对应的音节序列,确定待处理语音信号对应的识别文本所包含的每个单音节对应的声学特征的长度,然后将各单音节对应的声学特征变换为具有预设长度的声学特征,得到待处理语音信号的定长声学特征。
步骤305,采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。
可以将待处理语音信号的定长声学特征输入已训练的声学置信度模型,声学置信度模型可以输出对应的待处理信号的声学置信度判决结果。
需要说明的是,本实施例的步骤302、步骤303、步骤304、步骤305分别与前述实施例的步骤201、步骤202、步骤203、步骤204一致,前述对步骤201、步骤202、步骤203、步骤204的描述也适用于步骤302、步骤303、步骤304、步骤305,此处不再赘述。
通过增加基于样本语音数据集对待训练的音节对齐模型进行训练的步骤,本实施例的语音识别方法流程300可以利用更精准的音节对齐模型得到待处理语音信号与识别文本所包含的音节的更精确的对齐结果,从而使得输入声学置信度模型的声学特征可以更准确地表征待处理语音信号的特征,有助于得到更准确的声学置信度判决结果。
在结合上述图2和图3所描述的实施例的一些可选的实现方式中,语音识别方法还可以包括基于样本音频数据集对待训练的声学置信度模型进行训练,得到已训练的声学置信度模型的步骤205(图2未示出)或步骤306。该步骤205或步骤306可以在步骤204和步骤305之前执行,示例性地,该步骤205或步骤306可以在步骤201之前、以及在步骤301和步骤302之间执行。
上述样本音频数据集包括样本音频信号以及样本音频信号的文本标注信息。在本实施例中,可以从语料库中选择样本音频数据,并获取样本音频数据的文本标注信息来构建样本音频数据。
上述基于样本音频数据集对待训练的声学置信度模型进行训练,得到已训练的声学置信度模型的步骤可以包括:
首先,提取出样本音频信号的声学特征,并基于样本音频信号的声学特征进行语音识别,得到样本音频信号对应的识别文本。
对于样本音频信号,可以采用步骤201相同的方法提取声学特征,并进行语音识别,得到样本音频信号对应的识别文本。
然后,将样本音频信号的声学特征和样本音频信号对应的识别文本输入已训练的音节对齐模型,得到样本音频信号的声学特征对应的音节序列。
可以将样本音频信号的声学特征和对应的识别文本输入已训练的音节对齐模型,对样本音频信号的声学特征与识别文本所包含的音节对齐后的音节序列。
之后,基于样本音频信号的声学特征对应的音节序列对样本音频信号的声学特征进行定长处理,得到样本音频信号的定长声学特征。
可以采用与步骤203相同的方法,基于样本音频信号的声学特征对应的音节序列将样本音频信号的声学特征转换为预设的固定长度,得到样本音频信号的定长声学特征。
最后,采用待训练的声学置信度模型对样本音频信号的定长声学特征进行声学置信度预测,得到样本音频信号的声学置信度预测结果,将样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果进行比对,根据比对结果迭代调整待训练的声学置信度模型的参数,使得调整参数后的声学置信度模型对样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果之间的差异满足预设的收敛条件。
可以构建基于卷积神经网络的待训练的声学置信度模型,将定长声学特征输入待训练的声学置信度模型进行预测,得到样本音频信号的声学置信度预测结果。
可以根据样本音频信号的文本标注信息来确定样本音频信号对应的声学置信度的标注信息。具体来说,可以根据样本音频信号的文本标注信息确定样本音频信号对应的识别文本中所包含的单字或单词的音节,然后基于音节对齐模型的对齐结果得到每个单字或单词的声学置信度标注结果。例如,样本音频信号的识别结果为“我们”,可以得到其标准读音中包含的音节“w”“o”“m”“en”的声学置信度标注信息为1,将标准读音之外的其他音节的声学置信度标注信息为0。由此,可以得出对样本音频信号对应的声学置信度的标注结果,也即得到了样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果。
之后,可以将样本音频信号的声学置信度预测结果与样本音频信号对应的声学置信度的标注结果比对,根据比对结果,采用反向传播方法迭代调整待训练的声学置信度模型的参数,使得调整参数后的声学置信度模型对样本音频信号的声学置信度预测结果与样本音频信号对应的声学置信度的标注结果之间的差异不断缩小,当调整参数后的声学置信度模型对样本音频信号的声学置信度预测结果与样本音频信号对应的声学置信度的标注结果之间的差异满足预设的收敛条件时,停止迭代,完成声学置信度模型的训练。
进一步可选地,上述样本音频信号可以包括第二样本语音信号和非语音音频信号。非语音音频信号可以是环境噪音,非语音音频信号对应的文本标注信息所指示的非语音信号的声学置信度的期望结果为0。这样,可以在训练声学置信度模型是考虑环境噪声数据的影响,使得训练得出的声学置信度模型能够准确地剔除环境噪声,在远场语音识别场景具有良好的识别精度。
进一步可选地,上述样本音频信号包括正样本信号和负样本信号;正样本信号的文本标注信息所指示的正样本信号的对应的音节与正样本信号对应的文本的标准读音所包含的音节一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节不一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节的相似音节不一致。
具体来说,可以对样本音频数据集进行扩展,在标注样本音频数据集中的样本音频信号时,可以对样本音频信号进行与其对应的实际文本一致的标注,形成正样本信号;可以对样本音频信号进行与其对应的实际文本不一致的标注,形成负样本信号。这样,在根据样本音频信号的文本标注信息,采用上述方法确定其对应的声学置信度标注结果时,正样本信号对应的音节标注与正样本信号对应的文本的标准读音所包含的音节一致,负样本信号对应的音节标注与负样本信号对应的文本的标准读音所包含的音节不一致。
例如,正样本信号对应的文本“我”的音节是“w”“o”的置信度为1,正样本信号对应的文本“我”的音节是“n”“i”的置信度为0。负样本信号对应的文本“我”的音节是“w”“o”的置信度为0,负样本信号对应的文本“我”的音节是“n”“i”的置信度为1。
进一步地,负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节的相似音节不一致。例如对于负样本信号“你”的文本标注信息是“我”,则负样本信号“你”的文本标注信息对应的音节是“w”“o”。该负样本信号对应的文本的标准读音为“ni”,其包含的音节为“n”“i”,近似音节为“l”“i”,则负样本信号“你”对应的音节标注“w”“o”与负样本信号对应的文本的标准读音所包含的音节的相似音节“l”“i”不一致。也就是说,在标注负样本信号时,需要避免将“你”标注为包含相似音节的“里”或“离”。也就是说,在声学置信度模型的训练过程中,对于输入输出对(a,b),a表示定长声学特征,b表示根据文本标注信息得到的音节标注信息,该输入输出对不作为用于音节b发音相近的其他音节的负样本进行训练。这样,可以进一步避免声学置信度模型在训练过程中不同音节建模单元的概率之间互相“打压”、相互制约的问题,能够更准确地反映自然语音中各音节单元之间相互独立的关系,从而得到更精准的置信度判决结果。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种用于确定目标用户的装置的一个实施例,该装置实施例与图2和图3所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的语音识别装置400包括提取单元401、对齐单元402、处理单元403以及预测单元403。其中,提取单元401被配置为从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本。对齐单元402被配置为将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列,音节序列中的音节依次与待处理语音信号的每一帧的声学特征对齐。处理单元403被配置为基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征。预测单元404被配置为采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。
在一些实施例中,上述处理单元进一步被配置为按照如下方式对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征:根据待处理语音信号的声学特征对应的音节序列,确定待处理语音信号对应的识别文本所包含的每个单音节对应的声学特征的长度;将各单音节对应的声学特征变换为具有预设长度的声学特征,得到待处理语音信号的定长声学特征。
在一些实施例中,上述声学置信度模型分别预测各预设音节建模单元为声学特征所表示的音节的概率。
在一些实施例中,上述装置还包括:第一训练单元,被配置为基于样本语音数据集,对待训练的音节对齐模型进行训练,得到已训练的音节对齐模型,样本语音数据集包括第一样本语音信号。第一训练单元被配置为基于样本语音数据集,按照如下方式对待训练的音节对齐模型进行训练,得到已训练的音节对齐模型:基于高斯混合模型对从第一样本语音信号提取出的声学特征进行切分,得到初始的音节对齐结果;采用待训练的音节对齐模型对初始的音节对齐结果进行修正,基于修正后的音节对齐结果迭代调整待训练的音节对齐模型的参数。
在一些实施例中,上述装置还包括:第二训练单元,被配置为基于样本音频数据集对待训练的声学置信度模型进行训练,得到已训练的声学置信度模型,其中,样本音频数据集包括样本音频信号以及样本音频信号的文本标注信息。第二训练单元被配置为基于样本音频数据集对待训练的声学置信度模型进行训练,按照如下方式得到已训练的声学置信度模型:提取出样本音频信号的声学特征,并基于样本音频信号的声学特征进行语音识别,得到样本音频信号对应的识别文本;将样本音频信号的声学特征和样本音频信号对应的识别文本输入已训练的音节对齐模型,得到样本音频信号的声学特征对应的音节序列;基于样本音频信号的声学特征对应的音节序列对样本音频信号的声学特征进行定长处理,得到样本音频信号的定长声学特征;采用待训练的声学置信度模型对样本音频信号的定长声学特征进行声学置信度预测,得到样本音频信号的声学置信度预测结果,将样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果进行比对,根据比对结果迭代调整待训练的声学置信度模型的参数,使得调整参数后的声学置信度模型对样本音频信号的声学置信度预测结果与样本音频信号的文本标注信息所指示的样本音频信号的声学置信度期望结果之间的差异满足预设的收敛条件。
在一些实施例中,上述样本音频信号包括第二样本语音信号和非语音音频信号。
在一些实施例中,上述样本音频信号包括正样本信号和负样本信号;正样本信号的文本标注信息所指示的正样本信号的对应的音节与正样本信号对应的文本的标准读音所包含的音节一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节不一致;负样本信号的文本标注信息所指示的负样本信号对应的音节与负样本信号对应的文本的标准读音所包含的音节的相似音节不一致。
应当理解,装置400中记载的诸单元与参考图2和图3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置400及其中包含的单元,在此不再赘述。
本申请上述实施例的语音识别装置400,通过将声学特征与音节序列的对齐,解决了声学置信度算法中由于对齐不准确造成的置信度结果不精确的问题,能够提升声学置信度的准确度。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分505;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括提取单元、对齐单元、处理单元和预测单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,提取单元还可以被描述为“从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:从待处理语音信号中提取出声学特征,并基于待处理语音信号的声学特征进行语音识别,得到待处理语音信号对应的识别文本;将待处理语音信号的声学特征和待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到待处理语音信号的声学特征对应的音节序列,音节序列中的音节依次与待处理语音信号的每一帧的声学特征对齐;基于待处理语音信号的声学特征对应的音节序列对待处理语音信号的声学特征进行定长处理,得到待处理语音信号的定长声学特征;采用已训练的声学置信度模型对待处理语音信号的定长声学特征进行声学置信度预测,得到待处理语音信号的声学置信度。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (16)
1.一种语音识别方法,包括:
从待处理语音信号中提取出声学特征,并基于所述待处理语音信号的声学特征进行语音识别,得到所述待处理语音信号对应的识别文本;
将所述待处理语音信号的声学特征和所述待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到所述待处理语音信号的声学特征对应的音节序列,所述音节序列中的音节依次与所述待处理语音信号的每一帧的声学特征对齐;
基于所述待处理语音信号的声学特征对应的音节序列对所述待处理语音信号的声学特征进行定长处理,得到所述待处理语音信号的定长声学特征;
采用已训练的声学置信度模型对所述待处理语音信号的定长声学特征进行声学置信度预测,得到所述待处理语音信号的声学置信度。
2.根据权利要求1所述的方法,其中,所述基于所述待处理语音信号的声学特征对应的音节序列对所述待处理语音信号的声学特征进行定长处理,得到所述待处理语音信号的定长声学特征,包括:
根据所述待处理语音信号的声学特征对应的音节序列,确定所述待处理语音信号对应的识别文本所包含的每个单音节对应的声学特征的长度;
将各所述单音节对应的声学特征变换为具有预设长度的声学特征,得到所述待处理语音信号的定长声学特征。
3.根据权利要求1所述的方法,其中,所述声学置信度模型分别预测各预设音节建模单元为所述声学特征所表示的音节的概率。
4.根据权利要求1所述的方法,其中,所述方法还包括:
基于样本语音数据集,对待训练的音节对齐模型进行训练,得到所述已训练的音节对齐模型,所述样本语音数据集包括第一样本语音信号;
所述基于样本语音数据集,对待训练的音节对齐模型进行训练,得到所述已训练的音节对齐模型,包括:
基于高斯混合模型对从第一样本语音信号提取出的声学特征进行切分,得到初始的音节对齐结果;
采用待训练的音节对齐模型对所述初始的音节对齐结果进行修正,基于修正后的音节对齐结果迭代调整所述待训练的音节对齐模型的参数。
5.根据权利要求1-4任一项所述的方法,其中,所述方法还包括:
基于样本音频数据集对待训练的声学置信度模型进行训练,得到所述已训练的声学置信度模型,其中,所述样本音频数据集包括样本音频信号以及样本音频信号的文本标注信息;
所述基于样本音频数据集对待训练的声学置信度模型进行训练,得到所述已训练的声学置信度模型,包括:
提取出所述样本音频信号的声学特征,并基于所述样本音频信号的声学特征进行语音识别,得到所述样本音频信号对应的识别文本;
将所述样本音频信号的声学特征和所述样本音频信号对应的识别文本输入已训练的音节对齐模型,得到所述样本音频信号的声学特征对应的音节序列;
基于所述样本音频信号的声学特征对应的音节序列对所述样本音频信号的声学特征进行定长处理,得到所述样本音频信号的定长声学特征;
采用所述待训练的声学置信度模型对所述样本音频信号的定长声学特征进行声学置信度预测,得到所述样本音频信号的声学置信度预测结果,将所述样本音频信号的声学置信度预测结果与所述样本音频信号的文本标注信息所指示的所述样本音频信号的声学置信度期望结果进行比对,根据比对结果迭代调整所述待训练的声学置信度模型的参数,使得调整参数后的声学置信度模型对所述样本音频信号的声学置信度预测结果与所述样本音频信号的文本标注信息所指示的所述样本音频信号的声学置信度期望结果之间的差异满足预设的收敛条件。
6.根据权利要求5所述的方法,其中,所述样本音频信号包括第二样本语音信号和非语音音频信号。
7.根据权利要求5所述的方法,其中,所述样本音频信号包括正样本信号和负样本信号;
所述正样本信号的文本标注信息所指示的所述正样本信号的对应的音节与所述正样本信号对应的文本的标准读音所包含的音节一致;
所述负样本信号的文本标注信息所指示的所述负样本信号对应的音节与所述负样本信号对应的文本的标准读音所包含的音节不一致;
所述负样本信号的文本标注信息所指示的所述负样本信号对应的音节与所述负样本信号对应的文本的标准读音所包含的音节的相似音节不一致。
8.一种语音识别装置,包括:
提取单元,被配置为从待处理语音信号中提取出声学特征,并基于所述待处理语音信号的声学特征进行语音识别,得到所述待处理语音信号对应的识别文本;
对齐单元,被配置为将所述待处理语音信号的声学特征和所述待处理语音信号对应的识别文本输入已训练的音节对齐模型,得到所述待处理语音信号的声学特征对应的音节序列,所述音节序列中的音节依次与所述待处理语音信号的每一帧的声学特征对齐;
处理单元,被配置为基于所述待处理语音信号的声学特征对应的音节序列对所述待处理语音信号的声学特征进行定长处理,得到所述待处理语音信号的定长声学特征;
预测单元,被配置为采用已训练的声学置信度模型对所述待处理语音信号的定长声学特征进行声学置信度预测,得到所述待处理语音信号的声学置信度。
9.根据权利要求8所述的装置,其中,所述处理单元进一步被配置为按照如下方式对所述待处理语音信号的声学特征进行定长处理,得到所述待处理语音信号的定长声学特征:
根据所述待处理语音信号的声学特征对应的音节序列,确定所述待处理语音信号对应的识别文本所包含的每个单音节对应的声学特征的长度;
将各所述单音节对应的声学特征变换为具有预设长度的声学特征,得到所述待处理语音信号的定长声学特征。
10.根据权利要求8所述的装置,其中,所述声学置信度模型分别预测各预设音节建模单元为所述声学特征所表示的音节的概率。
11.根据权利要求8所述的装置,其中,所述装置还包括:
第一训练单元,被配置为基于样本语音数据集,对待训练的音节对齐模型进行训练,得到所述已训练的音节对齐模型,所述样本语音数据集包括第一样本语音信号;
所述第一训练单元被配置为基于样本语音数据集,按照如下方式对待训练的音节对齐模型进行训练,得到所述已训练的音节对齐模型:
基于高斯混合模型对从第一样本语音信号提取出的声学特征进行切分,得到初始的音节对齐结果;
采用待训练的音节对齐模型对所述初始的音节对齐结果进行修正,基于修正后的音节对齐结果迭代调整所述待训练的音节对齐模型的参数。
12.根据权利要求8-11任一项所述的装置,其中,所述装置还包括:
第二训练单元,被配置为基于样本音频数据集对待训练的声学置信度模型进行训练,得到所述已训练的声学置信度模型,其中,所述样本音频数据集包括样本音频信号以及样本音频信号的文本标注信息;
所述第二训练单元被配置为基于样本音频数据集对待训练的声学置信度模型进行训练,按照如下方式得到所述已训练的声学置信度模型:
提取出所述样本音频信号的声学特征,并基于所述样本音频信号的声学特征进行语音识别,得到所述样本音频信号对应的识别文本;
将所述样本音频信号的声学特征和所述样本音频信号对应的识别文本输入已训练的音节对齐模型,得到所述样本音频信号的声学特征对应的音节序列;
基于所述样本音频信号的声学特征对应的音节序列对所述样本音频信号的声学特征进行定长处理,得到所述样本音频信号的定长声学特征;
采用所述待训练的声学置信度模型对所述样本音频信号的定长声学特征进行声学置信度预测,得到所述样本音频信号的声学置信度预测结果,将所述样本音频信号的声学置信度预测结果与所述样本音频信号的文本标注信息所指示的所述样本音频信号的声学置信度期望结果进行比对,根据比对结果迭代调整所述待训练的声学置信度模型的参数,使得调整参数后的声学置信度模型对所述样本音频信号的声学置信度预测结果与所述样本音频信号的文本标注信息所指示的所述样本音频信号的声学置信度期望结果之间的差异满足预设的收敛条件。
13.根据权利要求12所述的装置,其中,所述样本音频信号包括第二样本语音信号和非语音音频信号。
14.根据权利要求12所述的装置,其中,所述样本音频信号包括正样本信号和负样本信号;
所述正样本信号的文本标注信息所指示的所述正样本信号的对应的音节与所述正样本信号对应的文本的标准读音所包含的音节一致;
所述负样本信号的文本标注信息所指示的所述负样本信号对应的音节与所述负样本信号对应的文本的标准读音所包含的音节不一致;
所述负样本信号的文本标注信息所指示的所述负样本信号对应的音节与所述负样本信号对应的文本的标准读音所包含的音节的相似音节不一致。
15.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811036633.2A CN109036384B (zh) | 2018-09-06 | 2018-09-06 | 语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811036633.2A CN109036384B (zh) | 2018-09-06 | 2018-09-06 | 语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109036384A CN109036384A (zh) | 2018-12-18 |
CN109036384B true CN109036384B (zh) | 2019-11-15 |
Family
ID=64623638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811036633.2A Active CN109036384B (zh) | 2018-09-06 | 2018-09-06 | 语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109036384B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109859745A (zh) * | 2019-03-27 | 2019-06-07 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
CN111916062A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置和系统 |
CN110415684A (zh) * | 2019-08-05 | 2019-11-05 | 安徽赛福贝特信息技术有限公司 | 一种人工智能语音识别系统 |
CN110556099B (zh) * | 2019-09-12 | 2021-12-21 | 出门问问信息科技有限公司 | 一种命令词控制方法及设备 |
CN110875035A (zh) * | 2019-10-24 | 2020-03-10 | 广州多益网络股份有限公司 | 新型多任务联合的语音识别训练架构和方法 |
CN110718223B (zh) | 2019-10-28 | 2021-02-12 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
CN111179910A (zh) * | 2019-12-17 | 2020-05-19 | 深圳追一科技有限公司 | 语速识别方法和装置、服务器、计算机可读存储介质 |
CN111326148B (zh) * | 2020-01-19 | 2021-02-23 | 北京世纪好未来教育科技有限公司 | 置信度校正及其模型训练方法、装置、设备及存储介质 |
CN113160854A (zh) * | 2020-01-22 | 2021-07-23 | 阿里巴巴集团控股有限公司 | 语音交互系统、相关方法、装置及设备 |
CN111402893A (zh) * | 2020-03-23 | 2020-07-10 | 北京达佳互联信息技术有限公司 | 语音识别模型确定方法、语音识别方法及装置、电子设备 |
CN112259083B (zh) * | 2020-10-16 | 2024-02-13 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
CN112257407B (zh) * | 2020-10-20 | 2024-05-14 | 网易(杭州)网络有限公司 | 音频中的文本对齐方法、装置、电子设备及可读存储介质 |
CN112420075B (zh) * | 2020-10-26 | 2022-08-19 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
CN112382289B (zh) * | 2020-11-13 | 2024-03-22 | 北京百度网讯科技有限公司 | 语音识别结果的处理方法、装置、电子设备及存储介质 |
CN112466280B (zh) * | 2020-12-01 | 2021-12-24 | 北京百度网讯科技有限公司 | 语音交互方法、装置、电子设备和可读存储介质 |
CN113838450B (zh) * | 2021-08-11 | 2022-11-25 | 北京百度网讯科技有限公司 | 音频合成及相应的模型训练方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739868B (zh) * | 2008-11-19 | 2012-03-28 | 中国科学院自动化研究所 | 一种用于口语测试的文本朗读水平自动评估诊断方法 |
CN101751919B (zh) * | 2008-12-03 | 2012-05-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
CN101645271B (zh) * | 2008-12-23 | 2011-12-07 | 中国科学院声学研究所 | 发音质量评估系统中的置信度快速求取方法 |
CN101661675B (zh) * | 2009-09-29 | 2012-01-11 | 苏州思必驰信息科技有限公司 | 一种错误自感知的声调发音学习方法和系统 |
CN102436807A (zh) * | 2011-09-14 | 2012-05-02 | 苏州思必驰信息科技有限公司 | 自动生成重读音节语音的方法和系统 |
CN104361896B (zh) * | 2014-12-04 | 2018-04-13 | 上海流利说信息技术有限公司 | 语音质量评价设备、方法和系统 |
US20180082607A1 (en) * | 2016-09-19 | 2018-03-22 | Michael Everding | Interactive Video Captioning Program |
CN107103903B (zh) * | 2017-05-05 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
-
2018
- 2018-09-06 CN CN201811036633.2A patent/CN109036384B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109036384A (zh) | 2018-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036384B (zh) | 语音识别方法和装置 | |
WO2021174757A1 (zh) | 语音情绪识别方法、装置、电子设备及计算机可读存储介质 | |
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
CN108630190B (zh) | 用于生成语音合成模型的方法和装置 | |
CN108182936B (zh) | 语音信号生成方法和装置 | |
CN108428446A (zh) | 语音识别方法和装置 | |
US11475897B2 (en) | Method and apparatus for response using voice matching user category | |
CN108899013B (zh) | 语音搜索方法、装置和语音识别系统 | |
CN110246488B (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN108806665A (zh) | 语音合成方法和装置 | |
CN111192568B (zh) | 一种语音合成方法及语音合成装置 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
CN109545192A (zh) | 用于生成模型的方法和装置 | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
CN110782880B (zh) | 一种韵律生成模型的训练方法及装置 | |
CN112509563A (zh) | 模型训练方法、装置及电子设备 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
CN111653274B (zh) | 唤醒词识别的方法、装置及存储介质 | |
CN109920431A (zh) | 用于输出信息的方法和装置 | |
US20230127787A1 (en) | Method and apparatus for converting voice timbre, method and apparatus for training model, device and medium | |
CN114330371A (zh) | 基于提示学习的会话意图识别方法、装置和电子设备 | |
CN109087627A (zh) | 用于生成信息的方法和装置 | |
CN113836945B (zh) | 意图识别方法、装置、电子设备和存储介质 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |