CN116453507A - 基于置信度模型的语音识别优化方法、系统和存储介质 - Google Patents
基于置信度模型的语音识别优化方法、系统和存储介质 Download PDFInfo
- Publication number
- CN116453507A CN116453507A CN202310161504.0A CN202310161504A CN116453507A CN 116453507 A CN116453507 A CN 116453507A CN 202310161504 A CN202310161504 A CN 202310161504A CN 116453507 A CN116453507 A CN 116453507A
- Authority
- CN
- China
- Prior art keywords
- confidence
- voice
- model
- voice sample
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000005457 optimization Methods 0.000 title claims abstract description 35
- 238000013519 translation Methods 0.000 claims abstract description 74
- 238000012549 training Methods 0.000 claims description 60
- 230000009466 transformation Effects 0.000 claims description 44
- 238000012545 processing Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000012546 transfer Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 7
- 210000004209 hair Anatomy 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 210000002268 wool Anatomy 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于置信度模型的语音识别优化方法、系统和存储介质,包括:利用目标语音识别模型对每个语音样本进行解码,得到并根据每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的置信度模型进行训练,得到目标置信度模型;将待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入目标置信度模型,得到并根据待识别语音的字置信度结果和句置信度结果,对第一语音识别结果进行优化,得到目标语音识别结果。本发明通过联合句置信度和字置信度对语音识别结果进行优化,改善了现有语音识别模型存在误转的问题,提高了语音识别的准确率以及转译结果的可读性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于置信度模型的语音识别优化方法、系统和存储介质。
背景技术
目前在语音识别中,时常出现音频整句或部分无效导致语音识别模型误转、转译结果语义不明确以及出现限制词等问题。常见的无效音频主要包含以下几类:无人类说话声、背景噪音、音频失真以及未支持的语种(包含其它外语和地区方言)。上述问题严重影响了语音识别的准确率以及语音转译结果的可读性。
因此,亟需提供一种技术方案解决上述技术问题。
发明内容
为解决上述技术问题,本发明提供了一种基于置信度模型的语音识别优化方法、系统和存储介质。
本发明的基于置信度模型的语音识别优化方法的技术方案如下:
利用目标语音识别模型对任一语音样本进行解码,得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分;
基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型;
将待识别语音输入至所述目标语音识别模型进行解码,得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度结果和句置信度结果,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果。
本发明的基于置信度模型的语音识别优化方法的有益效果如下:
本发明的方法通过联合句置信度和字置信度对语音识别结果进行优化,改善了现有语音识别模型存在误转的问题,提高了语音识别的准确率以及转译结果的可读性。
在上述方案的基础上,本发明的基于置信度模型的语音识别优化方法还可以做如下改进。
进一步,所述基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型的步骤,包括:
将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值,并将该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值,直至得到每个语音样本的交叉熵损失值和KL散度损失值;
基于每个语音样本的交叉熵损失值和KL散度损失值,对所述第一置信度模型的参数进行优化,得到第二置信度模型,将所述第二置信度模型作为所述第一置信度模型并返回执行所述将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述第一置信度模型的步骤,直至所述第二置信度模型满足预设训练条件时,将所述第二置信度模型确定为所述目标置信度模型;其中,所述预设训练条件为:所述第二置信度模型的损失不再下降或达到预设最大迭代次数。
进一步,将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值的步骤,包括:
将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理,得到该语音样本的第一变换特征,并基于交叉注意力机制,对该语音样本的编码网络输出特征和第一变换特征进行计算,得到该语音样本的第二变换特征,并将该语音样本的多个目标路径得分与第二变换特征进行拼接,得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理,得到该语音样本的句置信度预测结果,并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值;其中,该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。
进一步,将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值的步骤,包括:
基于自注意力机制,对所述任一语音样本的最优路径转译结果进行计算,得到该语音样本的第一中间特征,并将该语音样本的编码网络输出特征与第三变换特征进行拼接,得到第二中间特征,并基于交叉注意力机制,对该语音样本的第一中间特征和第二中间特征进行计算,得到该语音样本的第三中间特征并输入至所述字置信度网络的第三线性层进行处理,得到该语音样本的字置信度预测结果,并利用该语音样本的字置信度预测结果与字置信度真实标签计算得到该语音样本的KL散度损失值;其中,该语音样本的字置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字对齐所获取的。
进一步,将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度得分和句置信度得分,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果的步骤,包括:
将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的句置信度网络,得到所述待识别语音的第一语音识别结果的句置信度得分;
将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的字置信度网络,得到所述待识别语音的第一语音识别结果中的每个字的字置信度得分;
当所述句置信度得分大于预设句置信度分数时,从所述待识别语音的第一语音识别结果中,将每个小于预设字置信度分数的字置信度得分所对应的字删除,得到目标语音识别结果。
进一步,所述目标语音识别模型为训练好的ASR模型。
本发明的基于置信度模型的语音识别优化系统的技术方案如下:
包括:处理模块、训练模块和优化模块;
所述处理模块用于:利用目标语音识别模型对任一语音样本进行解码,得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分;
所述训练模块用于:基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型;
所述优化模块用于:将待识别语音输入至所述目标语音识别模型进行解码,得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度结果和句置信度结果,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果。
本发明的基于置信度模型的语音识别优化系统的有益效果如下:
本发明的系统通过联合句置信度和字置信度对语音识别结果进行优化,改善了现有语音识别模型存在误转的问题,提高了语音识别的准确率以及转译结果的可读性。
在上述方案的基础上,本发明的基于置信度模型的语音识别优化系统还可以做如下改进。
进一步,所述训练模块包括:第一训练模块、第二训练模块和迭代训练模块;
所述第一训练模块用于:将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值;
所述第二训练模块用于:将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值,直至得到每个语音样本的交叉熵损失值和KL散度损失值;
所述迭代训练模块用于:基于每个语音样本的交叉熵损失值和KL散度损失值,对所述第一置信度模型的参数进行优化,得到第二置信度模型,将所述第二置信度模型作为所述第一置信度模型并返回调用所述第一训练模块,直至所述第二置信度模型满足预设训练条件时,将所述第二置信度模型确定为所述目标置信度模型;其中,所述预设训练条件为:所述第二置信度模型的损失不再下降或达到预设最大迭代次数。
进一步,所述第一训练模块具体用于:
将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理,得到该语音样本的第一变换特征,并基于交叉注意力机制,对该语音样本的编码网络输出特征和第一变换特征进行计算,得到该语音样本的第二变换特征,并将该语音样本的多个目标路径得分与第二变换特征进行拼接,得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理,得到该语音样本的句置信度预测结果,并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值;其中,该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。
本发明的一种存储介质的技术方案如下:
存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如本发明的基于置信度模型的语音识别优化方法的步骤。
附图说明
图1示出了本发明提供的基于置信度模型的语音识别优化方法的实施例的流程示意图;
图2示出了本发明提供的基于置信度模型的语音识别优化方法的实施例中第一置信度模型的结构示意图;
图3示出了本发明提供的基于置信度模型的语音识别优化方法的实施例中获取句置信度真实标签的流程示意图;
图4示出了本发明提供的基于置信度模型的语音识别优化方法的实施例中获取字置信度真实标签的流程示意图;
图5示出了本发明提供的基于置信度模型的语音识别优化方法的实施例中语音识别优化的具体流程示意图;
图6示出了本发明提供的基于置信度模型的语音识别优化系统的实施例的结构示意图。
具体实施方式
图1示出了本发明提供的基于置信度模型的语音识别优化方法的实施例的流程示意图。如图1所示,包括如下步骤:
步骤110:利用目标语音识别模型对任一语音样本进行解码,得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分。
其中,①目标语音识别模型为:训练好的ASR模型。②语音样本为:任意选取的音频数据。③编码网络输出特征为:解码时ASR模型的编码网络生成的高维音频特征。④多个目标路径得分为:解码得到的前N条分数最高的路径的得分。⑤最优路径转译结果为:得分最高的目标路径对应的转译结果。
需要说明的是,N的取值范围一般为5-10,本实施例中N取5为例。例如,多个目标路径得分为:0.833、0.802、0.772、0.732和0.682;则最优路径转译结果为目标路径得分为0.833的解码路径对应的转译结果(“今天天气毛很好”)。
步骤120:基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型。
其中,①第一置信度模型为:用于判断语音识别结果的置信度模型。②第一置信度模型包括:字置信度网络和句置信度网络。③如图2中的左侧虚线框所示,句置信度网络包括:第一线性层、交叉注意力机制层、第一特征拼接层、第二线性层和交叉熵损失层。句置信度网络的输入为:语音样本的编码网络输出特征和多个目标路径得分;句置信度网络的输出为:语音样本对应的最优路径转译结果的句置信度结果。④如图2中的右侧虚线框所示,字置信度模型包括:自注意力机制层、交叉注意力机制层、第二特征拼接层、第三线性层和KL散度损失层。字置信度网络的输入为:语音样本的最优路径转译结果;句置信度网络的输出为:语音样本对应的最优路径转译结果的字置信度结果。⑤目标置信度模型为:经过训练且用于判断语音识别结果的置信度模型,其具体结构与第一置信度模型的结构相同,仅在于模型的网络参数不同(目标置信度模型的网络参数是经过迭代训练所得到的)。
步骤130:将待识别语音输入至所述目标语音识别模型进行解码,得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度结果和句置信度结果,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果。
其中,①待识别语音为:需要进行语音识别与识别结果优化的音频数据。②第一语音识别结果为:待识别语音初步的语音识别结果,其与最优路径转译结果的解释相同,在此不过多赘述。③字置信度结果由目标置信度模型中的字置信度网络输出,其数量根据第一语音识别结果中的字数确定。例如,当第一语音识别结果为:“今天天气毛很好”,则字置信度结果的数量为7个(“今”:0.87,“天”:0.78,“天”:0.82,“气”:0.89,“毛”:0.33,“很”:0.68,“好”:0.88)。④句置信度结果由目标置信度模型中的句置信度网络输出。例如,当第一语音识别结果为:“今天天气毛很好”,则句置信度结果为:“今天天气毛很好”:0.6775。⑤目标语音识别结果为:对第一语音识别结果进行优化后的语音识别结果。例如,目标语音识别结果为:“今天天气很好”。
需要说明的是,采用预设优化方式,并根据待识别语音的句置信度结果和字置信度结果,对第一语音识别结果进行优化,得到目标语音识别结果。其中,预设优化方式可采用预设阈值的方式筛选置信度高的音频数据,将低于预设阈值的文字进行删除,从而得到目标语音识别结果。
较优地,步骤120包括:
步骤121:将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值,并将该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值,直至得到每个语音样本的交叉熵损失值和KL散度损失值。
具体地,将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理,得到该语音样本的第一变换特征,并基于交叉注意力机制,对该语音样本的编码网络输出特征和第一变换特征进行计算,得到该语音样本的第二变换特征,并将该语音样本的多个目标路径得分与第二变换特征进行拼接,得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理,得到该语音样本的句置信度预测结果,并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值。
其中,①第一线性层用于:将编码网络输出特征变换为不同维度的特征信息(定义为第一变换特征);第一线性层内部的具体结构为现有技术,在此不过多赘述。②将第一变换特征与编码网络输出特征做交叉注意力机制计算得到不同维度的特征信息(定义为第二变换特征)的过程为现有技术,在此不过多赘述。③将多个目标路径得分与第二变换特征进行拼接,得到第三变换特征(拼接后的特征信息,只是维度发生了变化)的过程为现有技术,在此不过多赘述。④第二线性层用于将前一步生成的特征信息(第三变换特征)的维度变换到词表大小的维度,以便后续损失函数的计算。⑤句置信度预测结果为:语音样本的最优路径转译结果的置信度得分。⑥该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。⑦交叉熵损失计算的过程为现有技术,在此不过多赘述。
需要说明的是,如图3所示,句置信度真实标签是将该语音样本的最优路径转译结果与语音文本标签进行自准计算所获取的。当语音文本标签为“人工智能”且最优路径转译结果为“人的智能啊”时,通过计算两者之间的自准,得到句置信度真实标签为0.5。
具体地,将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值的步骤,包括:
基于自注意力机制,对所述任一语音样本的最优路径转译结果进行计算,得到该语音样本的第一中间特征,并将该语音样本的编码网络输出特征与第三变换特征进行拼接,得到第二中间特征,并基于交叉注意力机制,对该语音样本的第一中间特征和第二中间特征进行计算,得到该语音样本的第三中间特征并输入至所述字置信度网络的第三线性层进行处理,得到该语音样本的字置信度预测结果,并利用该语音样本的字置信度预测结果与字置信度真实标签计算得到该语音样本的KL散度损失值。
其中,①第一中间特征为:对最优路径转译结果进行自注意力机制计算所得到的不同维度的文本特征信息。采用自注意力机制计算的具体过程为现有技术,在此不过多赘述。②如图2所示,第二中间特征是根据句置信度网络中所得到的编码网络输出特征与第三变换特征进行拼接所得到的特征,该特征只是发生了维度的变化。③第三中间特征是将第一中间特征和第二中间特征进行交叉注意力机制计算得到的特征,该特征包含更高纬度的特征信息。采用交叉注意力机制计算特征的过程为现有技术,在此不过多赘述。④第三线性层用于将前一步生成的特征信息(第三中间特征)的维度变换到词表大小的维度,以便后续损失函数的计算。⑤字置信度预测结果为:语音样本的最优路径转译结果中的每个字的置信度得分。⑥该语音样本的字置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字对齐所获取的。⑦KL散度损失计算的过程为现有技术,在此不过多赘述。
需要说明的是,如图4所示,字置信度真实标签是将该语音样本的最优路径转译结果与语音文本标签进行文本对齐所获取的。当语音文本标签为“人工智能”且最优路径转译结果为“人的智能啊”时,通过对两者之间进行文本对齐,在对齐过程中,如果正确的标记被赋值为1,其余错误被赋值为0。得到句置信度真实标签为10110。
步骤122:基于每个语音样本的交叉熵损失值和KL散度损失值,对所述第一置信度模型的参数进行优化,得到第二置信度模型,将所述第二置信度模型作为所述第一置信度模型并返回执行步骤121,直至所述第二置信度模型满足预设训练条件时,将所述第二置信度模型确定为所述目标置信度模型。
其中,①所述预设训练条件为:所述第二置信度模型的损失不再下降或达到预设最大迭代次数。②对第一置信度模型采用联合损失训练(即交叉熵损失值和KL散度损失值联合训练)。③基于交叉熵损失值和KL散度损失值对模型参数进行优化的过程为现有技术,在此不过多赘述。④第二置信度模型为:经过交叉熵损失值和KL散度损失值对第一置信度模型的参数进行了一次训练后所得到的置信度模型。
具体地,基于每个语音样本的交叉熵损失值和KL散度损失值,对第一置信度模型的参数进行优化,得到第二置信度模型,并判断第二置信度模型是否满足预设训练条件,若是,则将第二置信度模型确定为目标置信度模型;若否,则将第二置信度模型作为第一置信度模型并返回执行步骤121,直至第二置信度模型满足预设训练条件时,将第二置信度模型确定为目标置信度模型。
较优地,将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度得分和句置信度得分,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果的步骤,包括:
将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的句置信度网络,得到所述待识别语音的第一语音识别结果的句置信度得分。
将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的字置信度网络,得到所述待识别语音的第一语音识别结果中的每个字的字置信度得分。
当所述句置信度得分大于预设句置信度分数时,从所述待识别语音的第一语音识别结果中,将每个小于预设字置信度分数的字置信度得分所对应的字删除,得到目标语音识别结果。
其中,①预设句置信度分数默认设置在0.5,也可根据实际需求进行设定,在此不设限制。②预设字置信度分数默认设置在0.35,也可根据实际需求进行设定,在此不设限制。
具体地,如图5所示,“今天天气毛很好”的句置信度得分为0.6775,此时句置信度得分大于预设句置信度分数0.5,则从待识别语音的第一语音识别结果中,将每个小于预设字置信度分数(0.35)的字置信度得分所对应的字(毛0.33)删除,得到目标语音识别结果“今天天气很好”。
本实施例的技术方案通过联合句置信度和字置信度对语音识别结果进行优化,改善了现有语音识别模型存在误转的问题,提高了语音识别的准确率以及转译结果的可读性。
图6示出了本发明提供的基于置信度模型的语音识别优化系统的实施例的结构示意图。如图6所示,该系统200包括:处理模块210、训练模块220和优化模块230。
所述处理模块210用于:利用目标语音识别模型对任一语音样本进行解码,得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分;
所述训练模块220用于:基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型;
所述优化模块230用于:将待识别语音输入至所述目标语音识别模型进行解码,得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度结果和句置信度结果,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果。
较优地,所述训练模块220包括:第一训练模块、第二训练模块和迭代训练模块。
所述第一训练模块用于:将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值;
所述第二训练模块用于:将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值,直至得到每个语音样本的交叉熵损失值和KL散度损失值;
所述迭代训练模块用于:基于每个语音样本的交叉熵损失值和KL散度损失值,对所述第一置信度模型的参数进行优化,得到第二置信度模型,将所述第二置信度模型作为所述第一置信度模型并返回调用所述第一训练模块,直至所述第二置信度模型满足预设训练条件时,将所述第二置信度模型确定为所述目标置信度模型;其中,所述预设训练条件为:所述第二置信度模型的损失不再下降或达到预设最大迭代次数。
较优地,所述第一训练模块具体用于:
将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理,得到该语音样本的第一变换特征,并基于交叉注意力机制,对该语音样本的编码网络输出特征和第一变换特征进行计算,得到该语音样本的第二变换特征,并将该语音样本的多个目标路径得分与第二变换特征进行拼接,得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理,得到该语音样本的句置信度预测结果,并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值;其中,该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。
本实施例的技术方案通过联合句置信度和字置信度对语音识别结果进行优化,改善了现有语音识别模型存在误转的问题,提高了语音识别的准确率以及转译结果的可读性。
上述关于本发明提供的基于置信度模型的语音识别优化系统200的实施例中的各参数和各个模块实现相应功能的步骤,可参考上文中提供的基于置信度模型的语音识别优化方法的实施例中的各参数和步骤,在此不做赘述。
本发明实施例提供的一种存储介质,包括:存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如基于置信度模型的语音识别优化方法的步骤,具体可参考上文中提供的基于置信度模型的语音识别优化的实施例中的各参数和步骤,在此不做赘述。
计算机存储介质例如:优盘、移动硬盘等。
所属技术领域的技术人员知道,本发明可以实现为方法、系统和存储介质。
因此,本发明可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于置信度模型的语音识别优化方法,其特征在于,包括:
利用目标语音识别模型对任一语音样本进行解码,得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分;
基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型;
将待识别语音输入至所述目标语音识别模型进行解码,得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度结果和句置信度结果,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果。
2.根据权利要求1所述的基于置信度模型的语音识别优化方法,其特征在于,所述基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型的步骤,包括:
将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值,并将该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值,直至得到每个语音样本的交叉熵损失值和KL散度损失值;
基于每个语音样本的交叉熵损失值和KL散度损失值,对所述第一置信度模型的参数进行优化,得到第二置信度模型,将所述第二置信度模型作为所述第一置信度模型并返回执行所述将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述第一置信度模型的步骤,直至所述第二置信度模型满足预设训练条件时,将所述第二置信度模型确定为所述目标置信度模型;其中,所述预设训练条件为:所述第二置信度模型的损失不再下降或达到预设最大迭代次数。
3.根据权利要求2所述的基于置信度模型的语音识别优化方法,其特征在于,将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值的步骤,包括:
将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理,得到该语音样本的第一变换特征,并基于交叉注意力机制,对该语音样本的编码网络输出特征和第一变换特征进行计算,得到该语音样本的第二变换特征,并将该语音样本的多个目标路径得分与第二变换特征进行拼接,得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理,得到该语音样本的句置信度预测结果,并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值;其中,该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。
4.根据权利要求3所述的基于置信度模型的语音识别优化方法,其特征在于,将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值的步骤,包括:
基于自注意力机制,对所述任一语音样本的最优路径转译结果进行计算,得到该语音样本的第一中间特征,并将该语音样本的编码网络输出特征与第三变换特征进行拼接,得到第二中间特征,并基于交叉注意力机制,对该语音样本的第一中间特征和第二中间特征进行计算,得到该语音样本的第三中间特征并输入至所述字置信度网络的第三线性层进行处理,得到该语音样本的字置信度预测结果,并利用该语音样本的字置信度预测结果与字置信度真实标签计算得到该语音样本的KL散度损失值;其中,该语音样本的字置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字对齐所获取的。
5.根据权利要求1所述的基于置信度模型的语音识别优化方法,其特征在于,将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度得分和句置信度得分,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果的步骤,包括:
将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的句置信度网络,得到所述待识别语音的第一语音识别结果的句置信度得分;
将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型中的字置信度网络,得到所述待识别语音的第一语音识别结果中的每个字的字置信度得分;
当所述句置信度得分大于预设句置信度分数时,从所述待识别语音的第一语音识别结果中,将每个小于预设字置信度分数的字置信度得分所对应的字删除,得到目标语音识别结果。
6.根据权利要求1-5任一项所述的基于置信度模型的语音识别优化方法,其特征在于,所述目标语音识别模型为训练好的ASR模型。
7.一种基于置信度模型的语音识别优化系统,其特征在于,包括:处理模块、训练模块和优化模块;
所述处理模块用于:利用目标语音识别模型对任一语音样本进行解码,得到该语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,直至得到每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分;
所述训练模块用于:基于每个语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分,对包含字置信度网络和句置信度网络的第一置信度模型进行训练,得到目标置信度模型;
所述优化模块用于:将待识别语音输入至所述目标语音识别模型进行解码,得到并将所述待识别语音的第一语音识别结果、编码网络输出特征和多个目标路径得分输入至所述目标置信度模型,得到并根据所述待识别语音的字置信度结果和句置信度结果,对所述第一语音识别结果进行优化,得到所述待识别语音的目标语音识别结果。
8.根据权利要求7所述的基于置信度模型的语音识别优化系统,其特征在于,所述训练模块包括:第一训练模块、第二训练模块和迭代训练模块;
所述第一训练模块用于:将任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述句置信度网络,得到该语音样本的交叉熵损失值;
所述第二训练模块用于:将所述任一语音样本的编码网络输出特征、最优路径转译结果和多个目标路径得分输入所述字置信度网络,得到该语音样本的KL散度损失值,直至得到每个语音样本的交叉熵损失值和KL散度损失值;
所述迭代训练模块用于:基于每个语音样本的交叉熵损失值和KL散度损失值,对所述第一置信度模型的参数进行优化,得到第二置信度模型,将所述第二置信度模型作为所述第一置信度模型并返回调用所述第一训练模块,直至所述第二置信度模型满足预设训练条件时,将所述第二置信度模型确定为所述目标置信度模型;其中,所述预设训练条件为:所述第二置信度模型的损失不再下降或达到预设最大迭代次数。
9.根据权利要求8所述的基于置信度模型的语音识别优化系统,其特征在于,所述第一训练模块具体用于:
将所述任一语音样本的编码网络输出特征输入所述句置信度网络的第一线性层进行变换处理,得到该语音样本的第一变换特征,并基于交叉注意力机制,对该语音样本的编码网络输出特征和第一变换特征进行计算,得到该语音样本的第二变换特征,并将该语音样本的多个目标路径得分与第二变换特征进行拼接,得到并将该语音样本的第三变换特征输入至所述句置信度网络的第二线性层进行处理,得到该语音样本的句置信度预测结果,并利用该语音样本的句置信度预测结果与句置信度真实标签计算得到该语音样本的交叉熵损失值;其中,该语音样本的句置信度真实标签是根据该语音样本的最优路径转译结果与语音文本标签进行字准计算所获取的。
10.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至6中任一项所述的基于置信度模型的语音识别优化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161504.0A CN116453507B (zh) | 2023-02-21 | 2023-02-21 | 基于置信度模型的语音识别优化方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161504.0A CN116453507B (zh) | 2023-02-21 | 2023-02-21 | 基于置信度模型的语音识别优化方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116453507A true CN116453507A (zh) | 2023-07-18 |
CN116453507B CN116453507B (zh) | 2023-09-08 |
Family
ID=87134511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310161504.0A Active CN116453507B (zh) | 2023-02-21 | 2023-02-21 | 基于置信度模型的语音识别优化方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453507B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007017911A (ja) * | 2005-07-11 | 2007-01-25 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
CN113516967A (zh) * | 2021-08-04 | 2021-10-19 | 青岛信芯微电子科技股份有限公司 | 一种语音识别方法及装置 |
CN113851112A (zh) * | 2021-09-23 | 2021-12-28 | 河南工业大学 | 一种基于多监督多特征融合的语音测谎方法 |
CN113870846A (zh) * | 2021-09-27 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及存储介质 |
CN113963235A (zh) * | 2021-10-27 | 2022-01-21 | 南京大学 | 一种跨类别图像识别模型重用方法和系统 |
CN113990296A (zh) * | 2021-12-24 | 2022-01-28 | 深圳市友杰智新科技有限公司 | 语音声学模型的训练方法、后处理方法和相关设备 |
CN114549469A (zh) * | 2022-02-21 | 2022-05-27 | 中国石油大学(华东) | 一种基于置信度校准的深层神经网络医疗图像诊断方法 |
US20220270597A1 (en) * | 2021-02-23 | 2022-08-25 | Google Llc | Learning Word-Level Confidence for Subword End-To-End Automatic Speech Recognition |
CN115376491A (zh) * | 2022-07-06 | 2022-11-22 | 北京数美时代科技有限公司 | 一种语音置信度计算方法、系统、电子设备及介质 |
CN115599579A (zh) * | 2022-10-09 | 2023-01-13 | 阿里云计算有限公司(Cn) | 基于加权损失的系统故障预测方法、装置、设备及介质 |
-
2023
- 2023-02-21 CN CN202310161504.0A patent/CN116453507B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007017911A (ja) * | 2005-07-11 | 2007-01-25 | Nippon Hoso Kyokai <Nhk> | 音声認識装置及び音声認識プログラム |
US20220270597A1 (en) * | 2021-02-23 | 2022-08-25 | Google Llc | Learning Word-Level Confidence for Subword End-To-End Automatic Speech Recognition |
CN113516967A (zh) * | 2021-08-04 | 2021-10-19 | 青岛信芯微电子科技股份有限公司 | 一种语音识别方法及装置 |
CN113851112A (zh) * | 2021-09-23 | 2021-12-28 | 河南工业大学 | 一种基于多监督多特征融合的语音测谎方法 |
CN113870846A (zh) * | 2021-09-27 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及存储介质 |
CN113963235A (zh) * | 2021-10-27 | 2022-01-21 | 南京大学 | 一种跨类别图像识别模型重用方法和系统 |
CN113990296A (zh) * | 2021-12-24 | 2022-01-28 | 深圳市友杰智新科技有限公司 | 语音声学模型的训练方法、后处理方法和相关设备 |
CN114549469A (zh) * | 2022-02-21 | 2022-05-27 | 中国石油大学(华东) | 一种基于置信度校准的深层神经网络医疗图像诊断方法 |
CN115376491A (zh) * | 2022-07-06 | 2022-11-22 | 北京数美时代科技有限公司 | 一种语音置信度计算方法、系统、电子设备及介质 |
CN115599579A (zh) * | 2022-10-09 | 2023-01-13 | 阿里云计算有限公司(Cn) | 基于加权损失的系统故障预测方法、装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116453507B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11238845B2 (en) | Multi-dialect and multilingual speech recognition | |
US11314921B2 (en) | Text error correction method and apparatus based on recurrent neural network of artificial intelligence | |
US11688391B2 (en) | Mandarin and dialect mixed modeling and speech recognition | |
JP2023545988A (ja) | トランスフォーマトランスデューサ:ストリーミング音声認識と非ストリーミング音声認識を統合する1つのモデル | |
CN113569562B (zh) | 一种降低端到端语音翻译跨模态跨语言障碍的方法及系统 | |
CN115019776A (zh) | 语音识别模型及其训练方法、语音识别方法及装置 | |
CN111326144B (zh) | 语音数据处理方法、装置、介质和计算设备 | |
CN110473527B (zh) | 一种语音识别的方法和系统 | |
CN111753524A (zh) | 文本断句位置的识别方法及系统、电子设备及存储介质 | |
CN113673228A (zh) | 文本纠错方法、装置、计算机存储介质及计算机程序产品 | |
CN113743101A (zh) | 文本纠错方法、装置、电子设备和计算机存储介质 | |
CN116129902A (zh) | 一种基于跨模态对齐的语音翻译方法及系统 | |
CN114492426B (zh) | 子词切分方法、模型训练方法、装置和电子设备 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
CN116757184A (zh) | 融合发音特征的越南语语音识别文本纠错方法及系统 | |
CN113793599B (zh) | 语音识别模型的训练方法和语音识别方法及装置 | |
CN113436616B (zh) | 一种多领域自适应的端到端语音识别方法、系统及电子装置 | |
KR20240065125A (ko) | 희귀 단어 스피치 인식을 위한 대규모 언어 모델 데이터 선택 | |
CN114218921A (zh) | 一种优化bert的问题语义匹配方法 | |
CN113160820A (zh) | 语音识别的方法、语音识别模型的训练方法、装置及设备 | |
CN116453507B (zh) | 基于置信度模型的语音识别优化方法、系统和存储介质 | |
CN115860015A (zh) | 一种基于翻译记忆的转写文本翻译方法和计算机设备 | |
CN113327581B (zh) | 一种提升语音识别准确率的识别模型优化方法及系统 | |
CN115858776A (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
Qiu et al. | Context-aware neural confidence estimation for rare word speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |