CN110634481A

CN110634481A - 一种输出最优识别结果的语音整合方法

Info

Publication number: CN110634481A
Application number: CN201910721884.2A
Authority: CN
Inventors: 何川延
Original assignee: Huizhou Desay SV Automotive Co Ltd
Current assignee: Huizhou Desay SV Automotive Co Ltd
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2019-12-31
Anticipated expiration: 2039-08-06
Also published as: CN110634481B

Abstract

本发明涉及语音识别技术领域，具体公开了一种输出最优识别结果的语音整合方法，先通过至少两种语音识别算法得到对应的语音识别源，然后将各个语音识别源进行领域划分、归纳，得到识别意图及对应的领域附带参数，并封装成为一个归纳领域参数表格输入到预置语音整合模型中进行模型运算，确认符合预想要求的最优语音识别源，最后最优语音识别源所对应的语音指令触发对应的控制设备。实施本发明，每次用户与语音助理交互时，用户指令都会经过几个语音识别源的识别理解处理，最终筛选出最优选项，避免出现因单个语音识别算法的能力不足或识别广度深度的缺失导致的识别不出用户意图或识别错误的错误，提升了识别准确率，优化了用户使用体验。

Description

一种输出最优识别结果的语音整合方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种输出最优识别结果的语音整合方法。

背景技术

当前在各类联网产品当中，语音识别扮演着重要的角色。以车联网产品为例，车载语音识别的正确与否，极大程度上影响着车联网产品的体验好坏。例如用户在开车过程中发现副驾驶位车窗没有关闭，唤醒语音后说出“风有点大，关下窗户吧”这个自然语言指令时，部分车载语音会尝试把空调风量降低，将用户指令意图搞错，部分车载语音会反馈无法理解用户指令意图。而出现用户指令意图无法正确识别的情况，主要在于车载语音产品存在的语音识别算法单一、语义理解训练不足、语料库覆盖不完全的技术缺陷。

发明内容

本发明提供一种输出最优识别结果的语音整合方法，解决了现有联网产品的语音识别功能存在的语音识别算法单一、语义理解训练不足、语料库覆盖不完全的技术问题。

为解决以上技术问题，本发明提供一种输出最优识别结果的语音整合方法，包括步骤：

S1.通过至少两种语音识别算法对用户发出的一条语音指令进行识别，得到对应的至少两条语音识别源；

S2.将所述至少两条语音识别源归纳分解到统一的数据管理容器中，进一步生成归纳领域参数表格；

S3.通过预置语音整合模型对所述归纳领域参数表格进行过滤选择，输出最优语音识别源。

进一步地，所述步骤S2具体包括步骤：

S21.在数据管理容器中归纳出每条所述语音识别源的识别意图；

S22.归纳出每条所述语音识别源的领域附带参数并整理在对应的所述识别意图下；

S23.将所述数据管理容器中每条所述语音识别源的识别意图及对应的领域附带参数封装为一个归纳领域参数表格。

进一步地，所述步骤S3具体包括步骤：

S31.将所述归纳领域参数表格输入至所述预置语音整合模型中；

S32.所述预置语音整合模型筛选出最优语音识别源；

S33.输出所述最优语音识别源。

进一步地，所述步骤S32中，所述预置语音整合模型完成的步骤包括：

S32-1.获取每条所述语音识别源的静态参数和动态参数；

S32-2.根据所述静态参数和动态参数计算每条所述语音识别源的结果评分值；

S32-3.通过比较确定所述结果评分值最大的所述语音识别源为所述最优识别源。

进一步地，在所述步骤S32-1中，每条所述语音识别源的静态参数包括权重比例Wn、项目需求赋权Pn、模型测试反馈Mn，n代表每条所述语音识别源的编号；

所述权重比例Wn代表根据每条所述语音识别源的识别意图而查找得到的权重初始值；

所述项目需求赋权Pn代表根据实际需要建立的对每条所述语音识别源的识别意图的需求分子；

所述模型测试反馈Mn代表根据模型实际正确度结果测试而设定的动态增益参数。

进一步地，在所述步骤S32-1中，每条所述语音识别源的动态参数包括语音语义正确率Vn、识别结果信息充足度Rn、正向支撑参数Sn+和反向支撑参数Sn-；

所述语音语义正确率Vn代表每条所述语音识别源经过自动语音识别技术、自然语言理解技术处理后的识别正确率；

所述识别结果信息充足度Rn代表每条所述语音识别源在其对应的语音识别算法中的信息充足度数值；

所述正向支撑参数Sn+、反向支撑参数Sn-分别代表与所述至少两种语音识别算法对应的所述识别意图所处的识别领域所不同的识别领域对每条所述语音识别源的叠合正向影响和叠合反向影响。

进一步地，所述步骤S32-2具体包括步骤：

S32-21.根据所述正向支撑参数Sn+、反向支撑参数Sn-，或者所述权重比例Wn，计算每条所述语音识别源的正反支撑递归影响度Sn；

S32-22.根据所述权重比例Wn、项目需求赋权Pn、模型测试反馈Mn、语音语义正确率Vn、识别结果信息充足度Rn和所述正反支撑递归影响度Sn计算得到每条所述语音识别源的结果评分值Zn。

优选地，在所述步骤S32-21中，计算得到所述正反支撑递归影响度Sn的运算式为：

其中，k代表所述语音识别源的条数。

优选地，在所述步骤S32-22中，计算得到所述结果评分值Zn的运算式为：

Zn＝(Wn*Pn+Mn)*(Vn+Rn)*Sn。

优选地，所述至少两种语音识别算法为3种。

本发明提供的一种输出最优识别结果的语音整合方法，先通过至少两种语音识别算法得到对应的语音识别源，然后将各个语音识别源进行领域划分、归纳，得到识别意图及对应的领域附带参数，并封装成为一个归纳领域参数表格输入到预置语音整合模型中进行模型运算，确认符合预想要求的最优语音识别源，最后最优语音识别源所对应的语音指令触发对应的控制设备。

本发明提供的一种输出最优识别结果的语音整合方法，每次用户与语音助理交互时，用户指令都会经过几个语音识别源的识别理解处理，最终筛选出最优选项，避免出现因单个语音识别算法的能力不足或识别广度深度的缺失导致的识别不出用户意图或识别错误的错误，提升了识别准确率，优化了用户使用体验。

附图说明

图1是本发明实施例提供的一种输出最优识别结果的语音整合方法的步骤流程图；

图2是本发明实施例提供的步骤S3的工作流程图；

图3是本发明实施例提供的识别领域分布图；

图4是本发明实施例提供的数据管理容器的分布图；

图5是本发明实施例提供的权重比例Wn的查询图。

具体实施方式

下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

本发明实施例提供的一种输出最优识别结果的语音整合方法，如图1所示，包括步骤：

进一步地，所述步骤S2具体包括步骤：

进一步地，所述步骤S3具体包括步骤：

S32.所述预置语音整合模型筛选出最优语音识别源；

S33.输出所述最优语音识别源。

S32-1.获取每条所述语音识别源的静态参数和动态参数；

进一步地，如表1所示。在所述步骤S32-1中，每条所述语音识别源的静态参数包括权重比例Wn、项目需求赋权Pn、模型测试反馈Mn，动态参数包括语音语义正确率Vn、识别结果信息充足度Rn、正向支撑参数Sn+和反向支撑参数Sn-，n代表每条所述语音识别源的编号。

所述模型测试反馈Mn代表根据模型实际正确度结果测试而设定的动态增益参数；

表1

所述语音语义正确率Vn代表每条所述语音识别源经过自动语音识别技术(ASR)、自然语言理解技术(NLU)处理后的识别正确率；

在获得或计算出上述参数后，需要进行最后的计算，也是所述步骤S32-2要实现的步骤，具体包括：

其中，k代表所述语音识别源的条数。

Zn＝(Wn*Pn+Mn)*(Vn+Rn)*Sn。

所述步骤S3的具体实现过程可参考图2的工作流程图。

本发明实施例提供的一种输出最优识别结果的语音整合方法，先通过至少两种语音识别算法得到对应的语音识别源，然后将各个语音识别源进行领域划分、归纳，得到识别意图及对应的领域附带参数，并封装成为一个归纳领域参数表格输入到预置语音整合模型中进行模型运算，确认符合预想要求的最优语音识别源，最后最优语音识别源所对应的语音指令触发对应的控制设备。

下面以车载用户针对车载语音助手发出“播放五月天的歌”的音乐播放语音、所述至少两种语音识别算法为3种为例，说明本发明的具体实施过程。

三种语音识别算法分别标记为1、2、3，即n＝1、2、3。

S1.通过三种语音识别算法对用户发出的一条语音指令进行识别，得到对应的三条语音识别源。

对应的语音识别源1包含的内容如下：

{″detail″:{″action″:″″,″album″:″″,″cmd″:″″,″data″:null,″flag″:0,″music″:″″,″music_cmd″:″play″,″music_mode″:″″,″musician″:″五月″,″storage″:″″,″style″:″″,″type″:″″},″display″:″即将为您播放五月天的歌曲″,″intention″:″PLAY_MUSIC″}

语音识别源2包含的内容如下：

{,″semantic″:[{″intent″:″PLAY″,″slots″:[{″name″:″band″,″value″:″五月天″}]}],″service″:″musicX″,″text″:″播放五月天的歌″,″dialog_stat″:″dataInvalid″}

语音识别源3包含的内容如下：

{″answer″:{″intention″:{″action″:″play″,″domain″:″music″,″entry_score″:5002100,″play Type″:″歌曲″,″singer″:″五月天″}}}

S2.将所述三条语音识别源归纳分解到统一的数据管理容器中，进一步生成归纳领域参数表格。

虽然三者封装格式都为json，但关键数据属性和对应的意图(intention)存在差异。

首先，语义理解的关键intention上，三个返回结果分别为″intention″:″PLAY_MUSIC″、″service″:″musicX″和″action″:″play″。全部识别结果intention主要指向“音乐播放”领域，因此在intention分类上可以归纳指向一个识别领域——“音乐播放”如图3所示。在其他实施例中，所述识别意图也可以为电话拨打、微信通讯、联系人查询、蓝牙控制、导航搜索、音乐播放、本地电台、在线电台、系统控制、应用控制、天气查询、股票查询、新闻动态、空调控制、车身控制、智能家居等。比如，当用户发出“我要导航去世界之窗”、“有点热”等识别其他指令时，可分别归纳到导航搜索、空调控制领域，以及提取对应的领域附带参数。

其次，除了关键intention，每个语音识别分别返回″musician″:″五月天″、″value″:″五月天″、″playType″:″歌曲″、″singer″:″五月天″等识别参数，都作为领域附带参数进行归纳。

最后，intention领域和领域附带参数都归纳分类到统一的数据管理容器上。数据管理容器关键参数有NlpScope(自然识别领域)和NlpParameter(自然识别参数)，如图4所示。

将语音识别源及其对应的领域附带参数(动作、歌手、歌曲、类型、专辑、信息充足度)封装归纳领域参数表格，如下表2。

表2

S3.通过预置语音整合模型对所述归纳领域参数表格进行过滤选择，输出最优语音识别源。主要针对步骤S32-2和S32-3进行说明。

S32-2.根据所述静态参数和动态参数计算每条所述语音识别源的结果评分值。

参见图2和表1。首先，需要获取或求出所有动态参数和静态参数的值。

其中，权重比例Wn可参考图5，三个识别源都识别为音乐领域，对应到Music_search_scope，分别获取到权重比例值为1.1、0.7、1.2，即W1＝1.1，W2＝0.7，W3＝1.2。因为是初始值，所以直接获取即可，已经提前设计好，对应各个识别方法和各个归纳领域。

项目需求赋权Pn是基于实际需求，对原始权重比例值进行百分比例调整后输出的值。按照项目需求，音乐为强需求，因此W1：W2：W3分别为0.9:0.95:1.05。而不同的测试项目对不同的领域需求不同，例如某个车载项目内，有很强的音乐识别需求，但智能家居需求不强，则音乐领域的Pn分别为1.1/1.05/1.2，而智能领域的Pn分别为0.1/0.09/0.2。项目需求赋权Pn对领域选择影响较大，对同领域内的结果选择影响较小。

模型测试反馈Mn根据不同的识别算法其动态增益参数也会有所差别，模型的训练测试中，训练数据和测试数据是两部分独立主体，当前期训练数据完成模型训练后，会使用测试数据进行验证，此时不同识别源都会输出所有测试结果，根据测试结果的正确率统计数据。假如某个源只有60％的正确率，则对应模型测试反馈数值为0.6。在本次举例中，具体是M1＝M2＝0.4，M3＝0.2。

语音语义正确率Vn则是，V1＝0.85，V2＝0.79，V3＝0.88。

识别结果信息充足度Rn则是，R1＝0.2，R2＝0.5，R3＝0.3。

因为本例k＝3，音乐识别领域对应其他领域的正向支撑参数Sn+、反向支撑参数Sn-需要进行相关递归运算，运算过后S1＝1.1，S2＝0.7，S3＝1.2。这里的关键点在于递归运算，不同其他领域对该识别领域的正向支撑和反向支撑的递归运算。简单抽象地说，即是征求其他领域对这个领域建议的支持或反对的意见。

最后根据公式Zn＝(Wn*Pn+Mn)*(Vn+Rn)*Sn，算得：

Z1＝(W1*P1+M1)*(V1+R1)*S1＝(1.1*0.9+0.4)*(0.85+0.2)*1.1＝1.60545；

Z2＝(W2*P2+M2)*(V2+R2)*S2＝(0.7*0.95+0.4)*(0.79+0.5)*0.7＝0.961695；

Z3＝(W3*P3+M3)*(V3+R3)*S3＝(1.2*1.05+0.2)*(0.88+0.3)*1.2＝2.06736。

因为2.06736＞1.60545＞0.961695，故最优识别源为语音识别源3。而进一步将语音识别源3对应的语音指令输出到相应的控制设备。

上述举例仅作为一个参考，在实际应用中，可能还会有2种、4种乃至更多种语音识别算法的情形，因为不同语音识别算法种类繁多，所针对的不仅是当前所列举的领域意图，还包含其他角度的识别意图。不同的识别算法所擅长的识别领域并不一致，通过实施本发明，则可以针对不同的用户语音指令找到最优的识别算法进行输出，从而保证用户的使用体验。

本发明实施例提供的一种输出最优识别结果的语音整合方法，每次用户与语音助理交互时，用户指令都会经过几个语音识别源的识别理解处理，最终筛选出最优选项，避免出现因单个语音识别源的能力不足或识别广度深度的缺失导致的识别不出用户意图或识别错误的错误，提升了识别准确率，优化了用户使用体验。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种输出最优识别结果的语音整合方法，其特征在于，包括步骤：

2.如权利要求1所述的一种输出最优识别结果的语音整合方法，其特征在于，所述步骤S2具体包括步骤：

3.如权利要求2所述的一种输出最优识别结果的语音整合方法，其特征在于，所述步骤S3具体包括步骤：

S32.所述预置语音整合模型筛选出最优语音识别源；

S33.输出所述最优语音识别源。

4.如权利要求3所述的一种输出最优识别结果的语音整合方法，其特征在于，所述步骤S32中，所述预置语音整合模型完成的步骤包括：

S32-1.获取每条所述语音识别源的静态参数和动态参数；

5.如权利要求4所述的一种输出最优识别结果的语音整合方法，其特征在于：在所述步骤S32-1中，每条所述语音识别源的静态参数包括权重比例Wn、项目需求赋权Pn、模型测试反馈Mn，n代表每条所述语音识别源的编号；

6.如权利要求5所述的一种输出最优识别结果的语音整合方法，其特征在于：在所述步骤S32-1中，每条所述语音识别源的动态参数包括语音语义正确率Vn、识别结果信息充足度Rn、正向支撑参数Sn+和反向支撑参数Sn-；

7.如权利要求6所述的一种输出最优识别结果的语音整合方法，其特征在于，所述步骤S32-2具体包括步骤：

8.如权利要求7所述的一种输出最优识别结果的语音整合方法，其特征在于，在所述步骤S32-21中，计算得到所述正反支撑递归影响度Sn的运算式为：

其中，k代表所述语音识别源的条数。

9.如权利要求8所述的一种输出最优识别结果的语音整合方法，其特征在于，在所述步骤S32-22中，计算得到所述结果评分值Zn的运算式为：

Zn＝(Wn*Pn+Mn)*(Vn+Rn)*Sn。

10.如权利要求1所述的一种输出最优识别结果的语音整合方法，其特征在于：所述至少两种语音识别算法为3种。