CN111145732B - 多任务语音识别后的处理方法及系统 - Google Patents
多任务语音识别后的处理方法及系统 Download PDFInfo
- Publication number
- CN111145732B CN111145732B CN201911378351.5A CN201911378351A CN111145732B CN 111145732 B CN111145732 B CN 111145732B CN 201911378351 A CN201911378351 A CN 201911378351A CN 111145732 B CN111145732 B CN 111145732B
- Authority
- CN
- China
- Prior art keywords
- current
- probability
- current character
- text conversion
- smooth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 10
- 238000006243 chemical reaction Methods 0.000 claims abstract description 98
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000003062 neural network model Methods 0.000 claims abstract description 32
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 238000005457 optimization Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 9
- 238000000034 method Methods 0.000 abstract description 28
- 238000012805 post-processing Methods 0.000 abstract description 28
- 230000003993 interaction Effects 0.000 abstract description 5
- 238000004590 computer program Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种多任务语音识别后处理方法及系统,方法包括:获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征。上述特征输入多任务神经网络模型中。多任务神经网络模型输出每个当前字的逆文本转换标记。根据当前字的逆文本转换标记及设定的逆文本转换规格获取当前字的逆文本转换结果。根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果,获取语音识别后的处理结果。本发明通过一个网络进行多任务建模,使运行速度及处理更快。识别文本更加人性化。本发明中人机交互更加自然,运用学习能力更强的mask attention网络以及添加了网络输出策略。
Description
技术领域
本发明属于语音识别技术领域,尤其涉及一种多任务语音识别后的处理方法及系统。
背景技术
目前关于语音识别后处理的系统比较少,主要是一些比较大的语音识别公司在做这方面的研究,例如讯飞申请过语音识别后处理相关的专利。但是这些系统大都关注于语音识别识别结果的错误纠正,而通过其它方式可以有效增加识别率的情况下,如何提高用户体验变得更加重要。本文中提到的语音识别后处理系统主要是基于一个多任务的深度学习模型对识别结果进行顺滑、ITN及添加标点,让识别结果更加友好,符合人类日常认知习惯。现在也有一部分公司做了识别文本的顺滑、ITN及添加标点,但都是分别多个模型做的,非常耗费资源。我们的系统通过一个深度模型做三件事情,有效降低资源消耗,并提高正确率。
现在做语音识别文本ITN的大多数是通过的机器学习方法加规则或者单纯规则匹配的方法实现文本逆向转换。文本顺滑技术以讯飞和哈工大联合推出的基于转移的顺滑算法目前是在该领域做的比较好的。我们的系统也借鉴了该方法。文本添加标点方面的研究比较多,最近几年效果比较好的基本上都是基于深度学习的方法,包括:lstm+crf、transformer等方法。单纯在标点上取得的效果都不错。
机器学习加规则的方法做ITN任务,如果想得到好的效果,则模型的复杂度会上升,导致延时增大。单纯规则的方法随着规则增加消耗的时间也比较大。单独标点和顺滑的神经网络模型系统不能兼顾顺滑和标点之间的关系。这三种提到的技术有一个通用的缺点就是功能单一,同一个模型或方法只能做一件事情,同时实现这三个功能的话,一条识别文本要处理三次,延时大。
为了ITN提高精度的情况下必然要增大机器学习算法的复杂度或规则的复,杂度,这样导致延时增大。单独标点和顺滑的神经网络模型系统不能兼顾的原因是没有添加统一的策略把两个任务做到一起。而且如果把三种技术做到一个语音识别后处理系统中,必然要对识别文本做三次处理,所以增加整个后处理的时延。
对于上面提到的时延增大的问题,大多数公司采用的是单个后处理模块压缩的方式。ITN如果是基于规则的会改变搜索方式等,但是这种方式收效较小。如果ITN、文本顺滑、文本标点添加是基于深度学习的方式,都是对模型进行裁剪或者参数量化的方式进行压缩。这种方式会带来性能上的损失。
发明内容
本发明实施例提供一种多任务语音识别后的处理方法及系统,用于至少解决上述技术问题之一。
第一方面,本发明提供了一种多任务语音识别后的处理方法,包括:
步骤S101,获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
步骤S102,将当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中。多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模。
步骤S103,多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率。逆文本转换标记包括需要转换标识及不需要转换标识。
步骤S104,根据当前字的逆文本转换标记及设定的逆文本转换规格获取当前字的逆文本转换结果。
步骤S105。根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果,获取语音识别后的处理结果。
在一种优选的实施方式中,步骤S101中还包括:录制或采集当前音频。语音识别当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
在一种优选的实施方式中,步骤S105中根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果的步骤还包括:
步骤S1051,根据当前字的顺滑概率及设定标点规则调整当前字后面应该标注设定标点的概率。步骤S1052,将当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整当前字的逆文本转换结果。
在一种优选的实施方式中,步骤S1051中还包括:通过设定先验规则调整调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
在一种优选的实施方式中,步骤S105中还包括:根据顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。
第二方面,本发明实施例提供一种多任务语音识别后的处理系统,包括:
语音识别输出单元,其配置为获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
多任务建模单元,其配置为将当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中。多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模。
多任务结果单元,其配置为多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率。逆文本转换标记包括需要转换标识及不需要转换标识。
逆文本转换单元,其配置为根据当前字的逆文本转换标记及设定的逆文本转换规格获取当前字的逆文本转换结果。
优化输出单元,其配置为根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果,获取语音识别后的处理结果。
在一种优选的实施方式中,语音识别输出单元还配置为:录制或采集当前音频。语音识别当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
在一种优选的实施方式中,优化输出单元还配置为:根据当前字的顺滑概率及设定标点规则调整当前字后面应该标注设定标点的概率。将当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整当前字的逆文本转换结果。
在一种优选的实施方式中,优化输出单元还配置为:通过设定先验规则调整调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
在一种优选的实施方式中,优化输出单元还配置为:根据顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与至少一个处理器通信连接的存储器,其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行本发明任一实施例的方法的步骤。
本发明通过一个网络进行多任务建模,使运行速度及处理更快。识别文本更加人性化。本发明中人机交互更加自然,运用学习能力更强的mask attention网络以及添加了网络输出策略。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种多任务语音识别后处理方法的流程图;
图2为本发明中ASR后处理系统流程图;
图3为本发明中另一种实施方式中ASR后处理系统流程图;
图4为本发明一实施例提供的一种多任务语音识别后处理系统的组成示意图;
图5是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面,先介绍本申请的实施方式,之后将用实验数据证实本申请的方案与现有技术相比有什么不同,能实现什么有益效果。
请参考图1,其示出了本申请的多任务语音识别后处理方法一实施例的流程图。本发明提供了一种多任务语音识别后的处理方法,包括:
步骤S101,获取语音识别所输出字信息。
本步骤中,获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
步骤S102,输入多任务神经网络模型。
本步骤中,将当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中。多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模。
步骤S103,输出逆文本转换标记。
本步骤中,多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率。逆文本转换标记包括需要转换标识及不需要转换标识。
步骤S104,获取当前字的逆文本转换结果。
本步骤中,根据当前字的逆文本转换标记及设定的逆文本转换规格获取当前字的逆文本转换结果。
步骤S105,获取语音识别后的处理结果。
本步骤中,根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果,获取语音识别后的处理结果。
在一种优选的实施方式中,步骤S101中还包括:录制或采集当前音频。语音识别当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
在一种优选的实施方式中,步骤S105中根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果的步骤还包括:
步骤S1051,根据当前字的顺滑概率及设定标点规则调整当前字后面应该标注设定标点的概率。步骤S1052,将当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整当前字的逆文本转换结果。
在一种优选的实施方式中,步骤S1051中还包括:通过设定先验规则调整调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
在一种优选的实施方式中,步骤S105中还包括:根据顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。
在本发明的一种实施方式中,
Step1:语音识别输出模块。该模块主要是提取输入到多任务神经网络模型的特征.提取特征有:字信息、词信息、词性信息、人工抽取特征等
Step2:多任务神经网络模型通过mask的attention神经网络对ITN、文本顺滑、标点进行多任务建模。
Step3:多任务神经网络模型会输出三个结果。第一个是对每个字进行二分类,标记该字是否需要进行逆文本转换,标记结果送到下一步。第二个输出是对每个字标记是否要被顺滑的概率,也就是是否要被删除的概率。第三个输出每个字后面应该打某个标点的概率。
Step4:神经网络输出的每个字ITN标记结果送到规则中进行转换。这样不用全局搜索子字符串,加快逆文本转换的速度。
Step5:神经网络输出每个字是否被顺滑的概率以及每个字后面加某个标点的概率将结合起来送到输出策略模块。输出策略模块的作用主要是体现顺滑对标点的影响,并通过一些先验知识对标点进行调整。
Step6:最后的输出模块主要是对ITN以及顺滑标点的结果进行合并。由于顺滑会改变输入文本,所以这部分的作用就是在文本改变的情况下ITN的调整。
同时,本发明优选的方案。主要是神经网络层的选择上。用Blstm进行建模。除了神经网络层外其余的模块不变。最终没有用该方案主要是不符合asr从左到右的输出情景,而mask的attention模型可以很好的解决该问题。
如图3。该系统和正式的系统相比缺少了把顺滑概率与标点概率结合的步骤。基本上也可以满足三个任务需求。它的有点是后处理的三个任务独立,输出策略简单。
通过本系统可以把原来三个模型实现的三个后处理任务集成到一个系统中,极大的节约了后处理的时间。另一方面运用新的mask attention网络及输出策略可以提高后处理任务的正确性。对使用者来说,可以明显感觉到识别或处理时间的缩短,以及识别文本更加人性化,人机交互更加自然。
本发明通过一个网络进行多任务建模,使运行速度及处理更快;识别文本更加人性化。本发明中人机交互更加自然,运用学习能力更强的mask attention网络以及添加了网络输出策略。
本发明中所出现的英文缩写的英文全称及中文定义ITN:Inverse TextNormalization逆文本标准化;CNN:神经网络;ASR:自动语音识别;LSTM:长短期记忆网络;Mask;掩蔽Attention:注意力机制。
请参考图4,其示出了本发明一实施例提供的本发明实施例提供一种多任务语音识别后的处理系统,包括:
语音识别输出单元101,其配置为获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
多任务建模单元102,其配置为将当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中。多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模。
多任务结果单元103,其配置为多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率。逆文本转换标记包括需要转换标识及不需要转换标识。
逆文本转换单元104,其配置为根据当前字的逆文本转换标记及设定的逆文本转换规格获取当前字的逆文本转换结果。
优化输出单元105,其配置为根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果,获取语音识别后的处理结果。
在一种优选的实施方式中,语音识别输出单元还配置为:录制或采集当前音频。语音识别当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
在一种优选的实施方式中,优化输出单元还配置为:根据当前字的顺滑概率及设定标点规则调整当前字后面应该标注设定标点的概率。将当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整当前字的逆文本转换结果。
在一种优选的实施方式中,优化输出单元还配置为:通过设定先验规则调整调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
在一种优选的实施方式中,优化输出单元还配置为:根据顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。。
本专利可解决上面后处理模块延时大的问题,主要是整合上面的三种后处理任务到一个深度学习的多任务模型中。这种情况下一次模型的预测就能得到三种后处理的结果。而且三种任务做到一起,还可以通过一些输出策略把三者整合起来,提高后处理各个任务的精度。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的语音信号处理和使用方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
将当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中。多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模。
多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率。逆文本转换标记包括需要转换标识及不需要转换标识。
根据当前字的逆文本转换标记及设定的逆文本转换规格获取当前字的逆文本转换结果。
根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果,获取语音识别后的处理结果。
基于上述步骤,录制或采集当前音频。语音识别当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
基于当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果的步骤还包括:
根据当前字的顺滑概率及设定标点规则调整当前字后面应该标注设定标点的概率。将当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整当前字的逆文本转换结果。
通过设定先验规则调整调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
根据顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的多任务语音识别后处理方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的多任务语音识别后处理方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据多任务语音识别后处理装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接多任务语音识别后处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项多任务语音识别后处理方法。
图5是本发明实施例提供的电子设备的结构示意图,如图5所示,该设备包括:一个或多个处理器510以及存储器520,图5中以一个处理器510为例。多任务语音识别后处理方法的设备还可以包括:输入装置530和输出装置540。处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器520为上述的非易失性计算机可读存储介质。处理器510通过运行存储在存储器520中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例多任务语音识别后处理方法。输入装置530可接收输入的数字或字符信息,以及产生与多任务语音识别后处理装置的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备可以应用于智能语音对话平台中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
将当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中。多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模。
多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率。逆文本转换标记包括需要转换标识及不需要转换标识。
根据当前字的逆文本转换标记及设定的逆文本转换规格获取当前字的逆文本转换结果。
根据当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果,获取语音识别后的处理结果。
基于上述步骤,录制或采集当前音频。语音识别当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
基于当前字的顺滑概率及当前字后面应该标注设定标点的概率调整当前字的逆文本转换结果的步骤还包括:
根据当前字的顺滑概率及设定标点规则调整当前字后面应该标注设定标点的概率。将当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整当前字的逆文本转换结果。
通过设定先验规则调整调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
根据顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种多任务语音识别后的处理方法,包括:
步骤S101,获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征;
步骤S102,将所述当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中;所述多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模;
步骤S103,所述多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率;所述逆文本转换标记包括需要转换标识及不需要转换标识;
步骤S104,根据所述当前字的逆文本转换标记及设定的逆文本转换规格获取所述当前字的逆文本转换结果;
步骤S105,根据所述当前字的顺滑概率及所述当前字后面应该标注设定标点的概率调整所述当前字的逆文本转换结果,获取语音识别后的处理结果。
2.根据权利要求1所述的处理方法,其中,所述步骤S101中还包括:
录制或采集当前音频;语音识别所述当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
3.根据权利要求1所述的处理方法,其中,所述步骤S105中根据所述当前字的顺滑概率及所述当前字后面应该标注设定标点的概率调整所述当前字的逆文本转换结果的步骤还包括:
步骤S1051,根据所述当前字的顺滑概率及设定标点规则调整所述当前字后面应该标注设定标点的概率;
步骤S1052,将所述当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整所述当前字的逆文本转换结果。
4.根据权利要求3所述的处理方法,其中,步骤S1051中还包括:
通过设定先验规则调整所述调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
5.根据权利要求4所述的处理方法,其中,所述步骤S105中还包括:
根据所述顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。
6.一种多任务语音识别后的处理系统,包括:
语音识别输出单元,其配置为获取语音识别所输出的当前字信息、当前词信息、当前词性信息及当前人工抽取特征;
多任务建模单元,其配置为将所述当前字信息、当前词信息、当前词性信息及当前人工抽取特征输入多任务神经网络模型中;所述多任务神经网络模型通过Mask神经网络中的attention注意力机制对ITN、文本顺滑标记及标点进行多任务建模;
多任务结果单元,其配置为所述多任务神经网络模型输出每个当前字的逆文本转换标记、输出对每个当前字是否被顺滑的顺滑概率及输出对每个当前字后面应该标注设定标点的概率;所述逆文本转换标记包括需要转换标识及不需要转换标识;
逆文本转换单元,其配置为根据所述当前字的逆文本转换标记及设定的逆文本转换规格获取所述当前字的逆文本转换结果;
优化输出单元,其配置为根据所述当前字的顺滑概率及所述当前字后面应该标注设定标点的概率调整所述当前字的逆文本转换结果,获取语音识别后的处理结果。
7.根据权利要求6所述的处理系统,其中,所述语音识别输出单元还配置为:
录制或采集当前音频;语音识别所述当前音频,识别输出当前字信息、当前词信息、当前词性信息及当前人工抽取特征。
8.根据权利要求6所述的处理系统,其中,所述优化输出单元还配置为:根据所述当前字的顺滑概率及设定标点规则调整所述当前字后面应该标注设定标点的概率;
将所述当前字的顺滑概率及调整后的当前字后面应该标注设定标点的概率合并结果调整所述当前字的逆文本转换结果。
9.根据权利要求8所述的处理系统,其中,所述优化输出单元还配置为:通过设定先验规则调整所述调整后的当前字后面应该标注设定标点的概率,获取顺滑标点概率。
10.根据权利要求9所述的处理系统,其中,优化输出单元还配置为:根据所述顺滑标点概率调整逆文本转换结果获取语音识别后的处理结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378351.5A CN111145732B (zh) | 2019-12-27 | 2019-12-27 | 多任务语音识别后的处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911378351.5A CN111145732B (zh) | 2019-12-27 | 2019-12-27 | 多任务语音识别后的处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111145732A CN111145732A (zh) | 2020-05-12 |
CN111145732B true CN111145732B (zh) | 2022-05-10 |
Family
ID=70521023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911378351.5A Active CN111145732B (zh) | 2019-12-27 | 2019-12-27 | 多任务语音识别后的处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111145732B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112509562B (zh) * | 2020-11-09 | 2024-03-22 | 北京有竹居网络技术有限公司 | 用于文本后处理的方法、装置、电子设备和介质 |
CN112651231B (zh) * | 2020-12-08 | 2023-10-27 | 北京有竹居网络技术有限公司 | 口语信息处理方法、装置和电子设备 |
CN112687265B (zh) * | 2020-12-28 | 2022-07-08 | 思必驰科技股份有限公司 | 逆文本标准化方法及系统 |
CN113724689B (zh) * | 2021-08-09 | 2024-04-30 | 中国科学技术大学 | 语音识别方法及相关装置、电子设备、存储介质 |
CN114048714A (zh) * | 2022-01-14 | 2022-02-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 逆文本标准化方法和装置 |
CN114492378A (zh) * | 2022-01-26 | 2022-05-13 | 北京字跳网络技术有限公司 | 逆向文本规整方法、模型训练方法和相关设备 |
CN115935076A (zh) * | 2023-02-20 | 2023-04-07 | 珠海大横琴泛旅游发展有限公司 | 基于人工智能的旅游服务信息推送方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126051A (ja) * | 2016-01-07 | 2017-07-20 | 日本電気株式会社 | テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
CN109726268A (zh) * | 2018-08-29 | 2019-05-07 | 中国人民解放军国防科技大学 | 基于分层神经网络的文本表示方法和装置 |
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110223675A (zh) * | 2019-06-13 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 用于语音识别的训练文本数据的筛选方法及系统 |
CN110413987A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 基于多个预测模型的标点符号预测方法及相关设备 |
-
2019
- 2019-12-27 CN CN201911378351.5A patent/CN111145732B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017126051A (ja) * | 2016-01-07 | 2017-07-20 | 日本電気株式会社 | テンプレート生成装置、テンプレート生成方法、テンプレート生成プログラムおよびフレーズ検知システム |
CN107221330A (zh) * | 2017-05-26 | 2017-09-29 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
CN109726268A (zh) * | 2018-08-29 | 2019-05-07 | 中国人民解放军国防科技大学 | 基于分层神经网络的文本表示方法和装置 |
CN110008342A (zh) * | 2019-04-12 | 2019-07-12 | 智慧芽信息科技(苏州)有限公司 | 文献分类方法、装置、设备及存储介质 |
CN110223675A (zh) * | 2019-06-13 | 2019-09-10 | 苏州思必驰信息科技有限公司 | 用于语音识别的训练文本数据的筛选方法及系统 |
CN110413987A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 基于多个预测模型的标点符号预测方法及相关设备 |
Non-Patent Citations (1)
Title |
---|
基于自注意力机制的口语文本顺滑算法;吴双志等;《智能计算机与应用》;20191101(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111145732A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111145732B (zh) | 多任务语音识别后的处理方法及系统 | |
CN112100349B (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN108520743B (zh) | 智能设备的语音控制方法、智能设备及计算机可读介质 | |
JP6677419B2 (ja) | 音声対話方法及び装置 | |
CN110930980B (zh) | 一种中英文混合语音的声学识别方法及系统 | |
CN109767763B (zh) | 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置 | |
CN111931482B (zh) | 文本分段方法和装置 | |
CN111832308B (zh) | 语音识别文本连贯性处理方法和装置 | |
CN108055617B (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN110503944B (zh) | 语音唤醒模型的训练和使用方法及装置 | |
CN111159358A (zh) | 多意图识别训练和使用方法及装置 | |
CN112002311A (zh) | 文本纠错方法、装置、计算机可读存储介质及终端设备 | |
CN113205809A (zh) | 语音唤醒方法和装置 | |
CN113691864A (zh) | 视频剪辑方法、装置、电子设备和可读存储介质 | |
CN110706691B (zh) | 语音验证方法及装置、电子设备和计算机可读存储介质 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
CN112614506B (zh) | 语音激活检测方法和装置 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN105320641B (zh) | 一种文本校验方法及用户终端 | |
CN109273004B (zh) | 基于大数据的预测性语音识别方法及装置 | |
CN111680514B (zh) | 信息处理和模型训练方法、装置、设备及存储介质 | |
CN111508481A (zh) | 语音唤醒模型的训练方法、装置、电子设备及存储介质 | |
CN113129874B (zh) | 语音唤醒方法及系统 | |
CN114358019A (zh) | 意图预测模型的训练方法及系统 | |
CN114399992A (zh) | 语音指令响应方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Sipic Technology Co.,Ltd. Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant before: AI SPEECH Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |