CN112908306A

CN112908306A - 优化上屏效果的语音识别方法、设备、终端与存储介质

Info

Publication number: CN112908306A
Application number: CN202110132062.8A
Authority: CN
Inventors: 范红亮; 李轶杰; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2021-01-30
Filing date: 2021-01-30
Publication date: 2021-06-04
Anticipated expiration: 2041-01-30
Also published as: CN112908306B

Abstract

本发明涉及优化上屏效果的语音识别方法、设备、终端与存储介质，该方法包括：确定用于进行语音识别的引擎；对所述引擎进行调整；其中，所述调整包括：优化所述引擎的结构延时与时间片，以降低所述引擎的响应时间；和减小所述引擎中词典的颗粒度，以降低上屏内容的变化率；所述时间片为每次给所述引擎的数据量；基于调整后的所述引擎进行语音识别。本发明实施例的方案，从语音识别引擎角度出发，从引擎参数、模型结构、词典颗粒度等角度，提出了优化方法，能够降低引擎延时，并且出词更加平滑流畅，特别在上屏应用场景中，能够极大改善用户体验。

Description

优化上屏效果的语音识别方法、设备、终端与存储介质

技术领域

本发明涉及上屏效果优化的技术领域，具体涉及优化上屏效果的语音识别方法、设备、终端与存储介质。

背景技术

在语音识别相关的上屏应用场景(如语音输入法、带屏类实时语音转写等)中，有很多因素会影响最终的上屏效果，如：识别引擎本身的准确率、实时率、识别引擎延时和网络延时等。其中，除去网络延时等外部因素，涉及到识别引擎本身的指标主要有：识别准确率、引擎延时和流畅度等，此外延时指标也会直接影响上屏效果的流畅度。

具体的，识别引擎各项性能都会直接影响最终的上屏效果；除了识别准确率直接影响用户体验之外，上屏的流畅度体验也是另一个非常重要的评价指标。

在目前的语音识别上屏场景中，经常出现虽然最终识别结果正确，但是主观感觉上屏显示效果不够流畅，会有“卡顿”(响应慢)、内容“跳变”(显示过程不平滑)等问题，严重影响用户的主观体验。

由此，目前需要有一种更好的方案来解决现有技术中的问题。

发明内容

本发明提供优化上屏效果的语音识别方法、设备、终端与存储介质，能够解决现有技术中上屏显示效果不够流畅的技术问题。

本发明解决上述技术问题的技术方案如下：

本发明实施例提出了一种优化上屏效果的语音识别方法，包括：

确定用于进行语音识别的引擎；

对所述引擎进行调整；其中，所述调整包括：优化所述引擎的结构延时与时间片，以降低所述引擎的响应时间；和减小所述引擎中词典的颗粒度，以降低上屏内容的变化率；所述时间片为每次给所述引擎的数据量；

基于调整后的所述引擎进行语音识别。

在一个具体的实施例中，优化所述引擎的结构延时，包括：

在满足预设的语音识别率时，将所述引擎的右拼帧参数降低到最小。

在一个具体的实施例中，所述右拼帧参数的范围为5-25。

在一个具体的实施例中，优化所述引擎的时间片，包括：

将所述引擎的时间片的大小设置为所述引擎的批处理大小。

在一个具体的实施例中，所述时间片的范围为20-60ms。

在一个具体的实施例中，减小所述引擎中词典的颗粒度，包括以下一个或多个方式的任意组合：将多个有意义的短词组成的词条进行拆分、将整词的前预设个字作为新词条加入所述引擎中词典。

在一个具体的实施例中，所述词典中的词条的长度不超过4个字。

本发明实施例还提出了一种优化上屏效果的语音识别设备，包括：

确定模块，用于确定用于进行语音识别的引擎；

调整模块，用于对所述引擎进行调整；其中，所述调整包括：优化所述引擎的结构延时与时间片，以降低所述引擎的响应时间；和减小所述引擎中词典的颗粒度，以降低上屏内容的变化率；所述时间片为每次给所述引擎的数据量；

识别模块，用于基于调整后的所述引擎进行语音识别。

本发明实施例还提出了一种终端，包括处理器与存储器，所述存储器中存储有程序，所述处理器运行所述存储器中的程序时，执行上述的语音识别方法。

本发明实施例还提出了一种存储介质，所述存储介质中存储有用于执行上述的语音识别方法的应用程序。

本发明的有益效果是：

本发明实施例的方案，从语音识别引擎角度出发，从引擎参数、模型结构、词典颗粒度等角度，提出了优化方法，能够降低引擎延时，并且出词更加平滑流畅，特别在上屏应用场景中，能够极大改善用户体验。

附图说明

图1为本发明实施例提供的一种优化上屏效果的语音识别方法的流程示意图；

图2为本发明实施例提供的一种优化上屏效果的语音识别设备的结构示意图；

图3为本发明实施例提供的一种终端的结构示意图；

图4为本发明实施例提供的一种存储介质的框架结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1

本发明实施例1提供的一种优化上屏效果的语音识别方法，如图1所示，包括：

步骤101、确定用于进行语音识别的引擎；

具体的，进行语音识别的引擎，也即需要进行改善上屏流畅度的引擎。

步骤102、对所述引擎进行调整；其中，所述调整包括：优化所述引擎的结构延时与时间片，以降低所述引擎的响应时间；和减小所述引擎中词典的颗粒度，以降低上屏内容的变化率；所述时间片为每次给所述引擎的数据量；

从引擎角度出发，分析影响语音识别上屏流畅度的主要因素，其中，因素包括：响应时间与变化率；

其中，响应时间(ResponseTime)的定义是：响应时间指语音结束到引擎解码完成并给出识别结果的时间。响应时间少，说明引擎计算快，人刚说完话没多久识别结果就出了，上屏也就越流畅。

此外，变化率(ChangeRate)指上屏内容的变化频率。变化率高，指每次上屏内容与上次相比变化大，说明结果稳定性差，流畅度就不好。最影响主观体验的就是屏上内容的“突变”：突然增加多个字，或减少多个字。

由此，基于降低所述引擎的响应时间以及降低上屏内容的变化率，即可改善上屏流畅度。

具体的，优化所述引擎的结构延时，包括：在满足预设的语音识别率时，将所述引擎的右拼帧参数降低到最小。进一步的，所述右拼帧参数的范围为 5-25。优化所述引擎的结构延时，还包括将所述引擎的时间片的大小设置为所述引擎的批处理大小。进一步的，所述时间片的范围为20-60ms。

1.响应时间，也叫引擎延时，与引擎的模型结构延时和送数据的时间片大小有关。而模型结构延时是引擎模型本身固有结构导致的延时。主要影响参数有：右拼帧参数(right_context)和批处理大小(bunch_size)。

1)Right_context:在深度神经网络结构的模型中，为了提升性能，采用的技术中往往包含一种叫“拼帧”的技术，即表示当前帧(frame)的特征时，不只提取当前帧的特征，而是提取前面一部分帧(left_context)和后面一部分帧(right_context)的特征，一起作为当前帧的特征，通过包含一定范围的上下文信息，来增强特征的表达能力。

2)Bunch_size:在解码深度神经网络结构的模型时，经常不是输入一帧就输出一帧，而且积攒够一定数量的帧，一起处理(按bunch批处理)，提升处理速度。Bunch_size反映的在引擎更新结果的频率，即每bunch_size 帧引擎输出一次结果。

2.时间片大小指每次送多少数据给引擎处理，即送数据的频率。时间片的选择对响应时间影响很大。一般时间片不能太大，否则很长时间才送一次数据，获取一次结果，响应时间必然很高。但是也不建议太小，因为引擎内部模型每bunch_size时间更新一次结果，送太频繁也获取不到更新的结果，徒增对网络资源的占用。

综合上述参数分析，降低响应时间的方案如下：

1.Right_context在识别率满足要求的前提下尽可能小。Right_context 会同时对识别率和延时产生影响：值越大，识别率越高，延时越高；值越小，识别率越低，延时越低。所以在满足识别率要求的前提下，应该尽可能选择小的值，以此来降低引擎延时。一般选择5-25，表示从当前帧往后看5帧至 25帧，相应延时为50ms–250ms。

2.时间片大小等于bunch_size的大小，这样每次送数据的时候，引擎也刚好有结果更新，可以及时获取到最新结果。上屏项目中，时间片大小一般选择20-60ms。

基于上述调整，可以将响应时间(引擎延时)降低到最低。

上述是降低响应时间，此外关于优化所述引擎的时间片，包括：

在一个具体的实施例中，减小所述引擎中词典的颗粒度，包括以下一个或多个方式的任意组合：将多个有意义的短词组成的词条进行拆分、将整词的前预设个字作为新词条加入所述引擎中词典。在一个具体的实施例中，所述词典中的词条的长度不超过4个字。

在变化率方面，可以通过减小词典的颗粒度来优化识别结果“突变”的现象。例如“阿尔及利亚”、“乌鲁木齐”这类长词，在识别结果出现的过程中，如果总是以一个整体出现，那么“突变”是难免的。

具体的，减小词典颗粒度，主要如下原则和做法：

1.直接拆分法：如“黄瓜火腿面”拆为“黄瓜”+“火腿”+“面”，“国际贸易组织”拆为“国际”+“贸易”+“组织”，等。这类本身就是由多个有意义的短词组成的长词，可以直接拆分，去掉长词本身(如果出现新的短词条，新增进词典)。

2.加前缀法：如“阿尔及利亚”新增前缀词“阿尔”和“阿尔及”，“乌鲁木齐”新增前缀词“乌鲁”，等。这类本身是一个整词，且不好拆分为多个有意义的段词条的长词，可以将其前面两、三个字作为一个新词加进词典。

基于上述方式，生成有最终词典，保证其中绝大部分词条长度不超过4，且长度3–4的词条，其前缀一般都在词典中。

4.因为增加前缀而产生的新词，不必是一个有完整语义的词条。如“乌鲁木齐”的前缀词“乌鲁”，它是一个有统计意义的词，能在语音说到“乌鲁木齐”前两个字时，出“乌鲁”而不是其他任何不相干的词条，或者不出任何内容，等整个词解码完成(“卡顿”现象)。

步骤103、基于调整后的所述引擎进行语音识别。

能够将引擎延时降至最低，除了由于模型结构导致的延时无法避免，其他延时都能尽量消除。在需要动态展示中间结果的上屏应用中，还能够优化目前存在的“卡顿”和“跳变”等现象，改善用户主观体验。具体的，针对语音识别上屏应用场景中存在的高延时、“卡顿”、“跳变”不流畅等现象，本方案通过引擎模型结构和解码参数的调整，将引擎延时降至最低(除了模型结构带来的不可避免的延时，其他环节的延时能够尽可能消除)，主观体验上屏更快；此外通过减小词典颗粒度，识别结果尽可能出短词，避免了长词导致的“卡顿”和“跳变”现象，上屏效果更加流畅，改善了用户体验。

实施例2

本发明实施例2还公开了一种优化上屏效果的语音识别设备，如图2所示，包括：

确定模块201，用于确定用于进行语音识别的引擎；

调整模块202，用于对所述引擎进行调整；其中，所述调整包括：优化所述引擎的结构延时与时间片，以降低所述引擎的响应时间；和减小所述引擎中词典的颗粒度，以降低上屏内容的变化率；所述时间片为每次给所述引擎的数据量；

识别模块203，用于基于调整后的所述引擎进行语音识别。

在一个具体的实施例中，调整模块202优化所述引擎的结构延时，包括：

在一个具体的实施例中，所述右拼帧参数的范围为5-25。

在一个具体的实施例中，调整模块202优化所述引擎的时间片，包括：

将所述引擎的时间片的大小设置为所述引擎的批处理大小。

在一个具体的实施例中，所述时间片的范围为20-60ms。

在一个具体的实施例中，调整模块202减小所述引擎中词典的颗粒度，包括以下一个或多个方式的任意组合：将多个有意义的短词组成的词条进行拆分、将整词的前预设个字作为新词条加入所述引擎中词典。

实施例3

本发明实施例3还公开了一种终端，如图3所示，包括处理器与存储器，所述存储器中存储有程序，所述处理器运行所述存储器中的程序时，执行实施例1中所述的语音识别方法。

实施例4

本发明实施例4还公开了一种存储介质，如图4所示，所述存储介质中存储有用于执行实施例1中所述的语音识别方法的应用程序。

本发明实施例公开了优化上屏效果的语音识别方法、设备、终端与存储介质，该方法包括：确定用于进行语音识别的引擎；对所述引擎进行调整；其中，所述调整包括：优化所述引擎的结构延时与时间片，以降低所述引擎的响应时间；和减小所述引擎中词典的颗粒度，以降低上屏内容的变化率；所述时间片为每次给所述引擎的数据量；基于调整后的所述引擎进行语音识别。本发明实施例的方案，从语音识别引擎角度出发，从引擎参数、模型结构、词典颗粒度等角度，提出了优化方法，能够降低引擎延时，并且出词更加平滑流畅，特别在上屏应用场景中，能够极大改善用户体验

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种优化上屏效果的语音识别方法，其特征在于，包括：

确定用于进行语音识别的引擎；

基于调整后的所述引擎进行语音识别。

2.根据权利要求1所述的方法，其特征在于，优化所述引擎的结构延时，包括：

3.根据权利要求2所述的方法，其特征在于，所述右拼帧参数的范围为5-25。

4.如权利要求1所述的方法，其特征在于，优化所述引擎的时间片，包括：

将所述引擎的时间片的大小设置为所述引擎的批处理大小。

5.如权利要求4所述的方法，其特征在于，所述时间片的范围为20-60ms。

6.如权利要求1所述的方法，其特征在于，减小所述引擎中词典的颗粒度，包括以下一个或多个方式的任意组合：将多个有意义的短词组成的词条进行拆分、将整词的前预设个字作为新词条加入所述引擎中词典。

7.如权利要求1所述的方法，其特征在于，所述词典中的词条的长度不超过4个字。

8.一种优化上屏效果的语音识别设备，其特征在于，包括：

确定模块，用于确定用于进行语音识别的引擎；

识别模块，用于基于调整后的所述引擎进行语音识别。

9.一种终端，其特征在于，包括处理器与存储器，所述存储器中存储有程序，所述处理器运行所述存储器中的程序时，执行权利要求1-7中任意一项所述的语音识别方法。

10.一种存储介质，其特征在于，所述存储介质中存储有用于执行权利要求1-7中任意一项所述的语音识别方法的应用程序。