CN110120221A

CN110120221A - 用于车机系统的用户个性化离线语音识别方法及其系统

Info

Publication number: CN110120221A
Application number: CN201910491042.2A
Authority: CN
Inventors: 孙珏; 毛丽旦玉素甫江; 莫凡
Original assignee: NIO Co Ltd
Current assignee: NIO Co Ltd
Priority date: 2019-06-06
Filing date: 2019-06-06
Publication date: 2019-08-13

Abstract

本发明涉及用于车机系统的用户个性化离线语音识别方法及其系统。该方法包括下述步骤：收集步骤，收集车机系统的用户的在线自动语音识别结果；筛选步骤，对所述在线自动语音识别结果进行筛选得到在线语音模型的语料；训练步骤，对于所述在线语音模型的语料进行训练生成在线语音模型；以及融合步骤，将所述在线语音模型与已知的通用语言模型进行融合得到新语言模型。根据本发明，能够使得离线识别的结果尽最大可能逼近在线语音识别的识别结果，提高识别率，提升用户体验。

Description

用于车机系统的用户个性化离线语音识别方法及其系统

技术领域

本发明涉及人机交互技术，特别涉及一种用于车机系统的语音识别技术。

背景技术

NLU（自然语言理解）和ASR（自动语音识别）是对话系统的重要组成部分，ASR将用户的语音输入转换成文本，NLU对文本进行语义理解，识别用户的意图，从而执行相应的任务并进行语音答复。

图3是表示现有技术中车载语音识别的基本流程的示意图。

如图3所示，采集到的音频被输入VAD（语音端点检测）由VAD自动检测语音的起始和终止点。在线的情况下，通过在线ASR识别出文本，离线的情况下，通过离线ASR识别出文本，识别出的文本由NLU进行语义理解输入到系统。

然而，在目前的车载对话系统中，所有用户的离线语音识别中所使用的语言模型都是基于同一套语料训练得出，由于硬件资源的限制，离线语音识别的语言模型只能局限在一个很小的尺寸，这导致了离线语音识别的识别率与服务器端语音识别的识别率相差较大影响用户体验。

发明内容

鉴于上述问题，本发明旨在提出一种能够提高识别率的用于车机系统的用户个性化离线语音识别方法及用户个性化离线语音识别系统。

本发明的用于车机系统的用户个性化离线语音识别方法，其特征在于，包括下述步骤：

收集步骤，收集车机系统的用户的在线自动语音识别结果；

筛选步骤，对所述在线自动语音识别结果进行筛选得到在线语音模型的语料；

训练步骤，对于所述在线语音模型的语料进行训练生成在线语音模型；以及

融合步骤，将所述在线语音模型与已知的通用语言模型进行融合得到新语言模型。

可选地，在所述融合步骤之后进一步包括：解码网络生成步骤，基于所述新语言模型生成解码网络。

可选地，在所述收集步骤中，按照预设范围语料规模收集用户在线自动语音识别结果。

可选地，在所述筛选步骤中，在所述在线自动语音识别结果中筛选出被该车机系统语言理解并且被该车机系统执行的指令所对应的语料作为在线语音模型的语料。

可选地，所述训练步骤包括：

对于所述在线语音模型的语料进行分词；以及

对于分词后的在线语音模型的语料训练N-gram语言模型，得到所述在线语音模型，其中N为小于等于3的自然数。

可选地，按照预先设定的概率值对于所述得到的所述在线语音模型进行裁剪。

可选地，在所述融合步骤中，对于所述在线语音模型与已知的通用语言模型中的每个词序列，设大模型即通用语言模型得分为x，小模型即在线语音模型得分为y，融合则将得分进行平滑，得到新模型中的得分为Ax + By，其中A、B为和1的系数。

可选地，在所述解码网络生成步骤中，将所述新语言模型的所有词序列根据发音词典进行拆分和连接，得到一个由上下文相关音素连接的所述解码网络。

本发明的用于车机系统的用户个性化离线语音识别系统，其特征在于，包括：

收集模块，用于收集车机系统的用户的在线自动语音识别结果；

筛选模块，用于对所述在线自动语音识别结果进行筛选得到在线语音模型的语料；

训练模块，用于对于所述在线语音模型的语料进行训练生成在线语音模型；以及

融合模块，用于将所述在线语音模型与已知的通用语言模型进行融合得到新语言模型。

可选地，进一步包括：

解码网络生成模块，用于基于所述新语言模型生成解码网络。

可选地，所述收集模块按照预设范围语料规模收集用户在线自动语音识别结果。

可选地，所述筛选模块在所述在线自动语音识别结果中筛选出被该车机系统语言理解并且被该车机系统执行的指令所对应的语料作为在线语音模型的语料。

可选地，所述训练模块对于所述在线语音模型的语料进行分词，并且对于分词后的在线语音模型的语料训练N-gram语言模型，得到所述在线语音模型，其中N为小于等于3的自然数。

可选地，所述训练模块按照预先设定的概率值对于所述得到的所述在线语音模型进行裁剪。

可选地，所述融合模块对于所述在线语音模型与已知的通用语言模型中的每个词序列，设大模型即通用语言模型得分为x，小模型即在线语音模型得分为y，融合则将得分进行平滑，得到新模型中的得分为Ax + By，其中A、B为和1的系数。

可选地，所述解码网络生成模块将所述新语言模型的所有词序列根据发音词典进行拆分和连接，得到一个由上下文相关音素连接的所述解码网络。

本发明的计算机可读介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述的用于车机系统的用户个性化离线语音识别方法。

本发明的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述的用于车机系统的用户个性化离线语音识别方法。

本发明的车辆，其特征在于，具备上述的用于车机系统的用户个性化离线语音识别系统。

如上所述，在本发明中，通过收集各个用户在线ASR的识别结果作为离线语言模型训练的语料，训练出符合用户个性的语言模型，替换原有的通用语言模型，在不改变离线语音识别语言模型大小的前提下，使得离线识别的结果尽最大可能逼近在线语音识别的识别结果，大大提高识别率，提升用户体验。

通过纳入本文的附图以及随后与附图一起用于说明本发明的某些原理的具体实施方式，本发明的方法和装置所具有的其它特征和优点将更为具体地变得清楚或得以阐明。

附图说明

图1是表示本发明一实施方式的用于车机系统的用户个性化离线语音识别方法的流程图。

图2是表示本发明一实施方式的用于车机系统的用户个性化离线语音识别系统的构造示意图。

图3是表示现有技术中车载语音识别的基本流程的示意图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

如图1所示，本发明一实施方式的用于车机系统的用户个性化离线语音识别方法包括下述步骤：

步骤S100：收集用户在线自动语音识别结果，例如收集ASR文本；

步骤S200：对收集到的在线自动语音识别结果进行筛选得到在线语音模型的语料；

步骤S300：对于筛选后的在线语音模型的语料进行训练生成在线语音模型；

步骤S400：将在线语音模型与已知的通用语言模型进行融合得到新语言模型；以及

步骤S500：基于融合得到的新语言模型生成解码网络。

接着，对于这些步骤进行说明。

在步骤S100中收集用户在线自动语音识别结果，例如收集ASR文本。在网络情况良好的情况下，用户在使用语音识别功能时，在线ASR会执行并产生相应的识别结果。由于在线ASR使用了更好的语言模型和声学模型，识别结果近似于真实的结果，因而可以代替人工标注作为训练语料。

对于某一位用户而言，例如可以收集他一段时间内在线ASR的识别结果，用于训练个性化语言模型使用。由于用户使用频率不同，积累语料的速度也是不一样的，对于语言模型来说主要是按照语料的规模来确定是否需要训练或者更新。收集的语料规模越大，对系统性能提高的贡献会越大。但实际操作中，有些用户可能用的特别少，累计的语料库也非常少，达到这样的规模需要比较长的时间。所以，作为一个示例可以是，按照用户数据的比例来确定通用语料库和用户语料库的数量。

在步骤S200中，对收集到的在线自动语音识别结果进行筛选得到在线语音模型的语料。这里作为一个筛选方案的示例，例如可以采用被NLU理解并被车机系统执行。

这是因为，用户使用语音识别功能时所说的话不一定都能被NLU所理解并执行，这样的语料对语言模型的训练会产生不利影响，因此收集到的语料需要进行筛选才能用来进行训练。筛选的方案是识别结果能不能被NLU理解并被系统执行，如果能被正确执行，那么这样的文本就可以纳入作为训练语言模型的语料。

这里，需要同时满足“被理解”和“被执行”是因为，语音识别的结果需要经过NLU进行理解后才能给车机系统传输指令，只有那些被正确执行的指令对应语料的才是合适的。

在步骤S300中，对于筛选后的在线语音模型的语料进行训练生成在线语音模型。作为一个示例，将收集好的语料先进行分词，然后再训练它的3-gram语言模型。如果收集到的语料过多，导致语言模型太大，还需要将语言模型根据概率值进行裁剪。这里的概率值能够根据语言模型训练得到，代表着词序列出现的先验概率，一般通过语料中词序列出现的频率近似得到，对于未出现或者出现次数较少的序列会运用平滑方法近似估计。

其次，裁剪通常会保留所有的1-gram，而对其中的2-gram和3-gram按照一定的阈值进行删减，保证裁剪后的语言模型在合适的大小。这里的阈值是根据大量的实验，能够确定阈值的取值范围和具体的值，具体值根据实验数据的量以及类型而有差异，对此本发明不做限定。

在步骤S400中，将在线语音模型与已知的通用语言模型进行融合得到新语言模型。如果仅仅利用该用户收集语料生成的语言模型用于识别是不够的，它还需要和这个用户通用版本的语言模型融合，形成一个新语言模型。通用版本的语言模型例如指每辆车初始自带的通用模型，由一般语料训练的语言模型和车载语料训练的语言模型进行裁剪融合后得到。

另外，作为将在线语音模型与已知的通用语言模型进行融合的一个示例，例如对每个词序列，设大模型即通用语言模型得分为x，小模型即在线语音模型得分为y，融合则将得分进行平滑，得到新模型中的得分为Ax + By，其中A、B为和1的系数。

在步骤S500中，基于步骤S400中生成的新的语言模型生成wfst，即得到包含了用户个性的新解码网络。wfst表示加权有限状态机，是识别所用的解码网络。该解码网络可以把语言模型、发音词典和声学模型统一集成为一个巨大的解码网络。语音识别中的识别过程就是从这个巨大的网络中寻找得分最高的路径的过程。

作为生成wfst的一个示例，将原语言模型的所有词序列根据发音词典进行拆分和连接，得到一个由上下文相关音素连接的解码网络，这样就能准确接受声学模型得分，并结合语言模型得分进行解码。

在得到了新wfst之后，用户通过升级资源替换掉旧版本的wfst，那么在利用离线解码引擎进行识别时，就使用了用户个性化的信息，所得到的识别结果就更加符合用户的习惯。

根据本发明一实施方式的用于车机系统的用户个性化离线语音识别方法，通过收集各个用户在线ASR的识别结果作为离线语言模型训练的语料，训练出符合用户个性的语言模型，并将在线语音模型与已知的通用语言模型进行融合，替换原有的通用语言模型，在不改变离线语音识别语言模型大小的前提下，能够使得离线识别的结果尽最大可能逼近在线语音识别的识别结果，大大提高识别率，提升用户体验。

图2是表示本发明的一实施方式的用于车机系统的用户个性化离线语音识别系统的构造示意图。

如图2所示，本发明一实施方式的用于车机系统的用户个性化离线语音识别系统包括：

收集模块100，用于收集车机系统的用户的在线自动语音识别结果；

筛选模块200，用于对所述在线自动语音识别结果进行筛选得到在线语音模型的语料；

训练模块300，用于对于所述在线语音模型的语料进行训练生成在线语音模型；

融合模块400，用于将所述在线语音模型与已知的通用语言模型进行融合得到新语言模型；以及

解码网络生成模块500，用于基于所述新语言模型生成解码网络。

作为一个示例，收集模块100按照预设范围语料规模收集用户在线自动语音识别结果。

作为一个示例，筛选模块200在所述在线自动语音识别结果中筛选出被该车机系统语言理解并且被该车机系统执行的指令所对应的语料作为在线语音模型的语料。

作为一个示例，训练模块300对于所述在线语音模型的语料进行分词，并且对于分词后的在线语音模型的语料训练N-gram语言模型，得到所述在线语音模型，其中N为小于等于3的自然数。而且，作为一个示例，训练模块300按照预先设定的概率值对于所述得到的所述在线语音模型进行裁剪。

作为一个示例，融合模块400对于所述在线语音模型与已知的通用语言模型中的每个词序列，设大模型即通用语言模型得分为x，小模型即在线语音模型得分为y，融合则将得分进行平滑，得到新模型中的得分为Ax + By，其中A、B为和1的系数。

作为一个示例，解码网络生成模块500将所述新语言模型的所有词序列根据发音词典进行拆分和连接，得到一个由上下文相关音素连接的所述解码网络。

本发明还提供一种计算机可读介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现本发明的用于车机系统的用户个性化离线语音识别方法。

本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现本发明的用于车机系统的用户个性化离线语音识别方法。

以上例子主要说明了本发明的用于车机系统的用户个性化离线语音识别方法及用户个性化离线语音识别系统。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

Claims

1.一种用于车机系统的用户个性化离线语音识别方法，其特征在于，包括下述步骤：

收集步骤，收集车机系统的用户的在线自动语音识别结果；

2.如权利要求1所述的用于车机系统的用户个性化离线语音识别方法，其特征在于，在所述融合步骤之后进一步包括：

解码网络生成步骤，基于所述新语言模型生成解码网络。

3.如权利要求1所述的用于车机系统的用户个性化离线语音识别方法，其特征在于，

在所述收集步骤中，按照预设范围语料规模收集用户在线自动语音识别结果。

4.如权利要求1所述的用于车机系统的用户个性化离线语音识别方法，其特征在于，

在所述筛选步骤中，在所述在线自动语音识别结果中筛选出被该车机系统语言理解并且被该车机系统执行的指令所对应的语料作为在线语音模型的语料。

5.如权利要求1所述的用于车机系统的用户个性化离线语音识别方法，其特征在于，所述训练步骤包括：

对于所述在线语音模型的语料进行分词；以及

6.如权利要求5所述的用于车机系统的用户个性化离线语音识别方法，其特征在于，

在所述训练步骤中，按照预先设定的概率值对于所述得到的所述在线语音模型进行裁剪。

7.如权利要求1所述的用于车机系统的用户个性化离线语音识别方法，其特征在于，

在所述融合步骤中，对于所述在线语音模型与已知的通用语言模型中的每个词序列，设所述通用语音模型得分为x，所述在线语音模型得分为y，融合则将得分进行平滑，得到新模型中的得分为Ax + By，其中A、B为和1的系数。

8.如权利要求1所述的用于车机系统的用户个性化离线语音识别方法，其特征在于，

在所述解码网络生成步骤中，将所述新语言模型的所有词序列根据发音词典进行拆分和连接，得到一个由上下文相关音素连接的所述解码网络。

9.一种用于车机系统的用户个性化离线语音识别系统，其特征在于，包括：

10.如权利要求9所述的用于车机系统的用户个性化离线语音识别系统，其特征在于，进一步包括：

11.如权利要求9所述的用于车机系统的用户个性化离线语音识别系统，其特征在于，

所述收集模块按照预设范围语料规模收集用户在线自动语音识别结果。

12.如权利要求9所述的用于车机系统的用户个性化离线语音识别系统，其特征在于，

所述筛选模块在所述在线自动语音识别结果中筛选出被该车机系统语言理解并且被该车机系统执行的指令所对应的语料作为在线语音模型的语料。

13.如权利要求1所述的用于车机系统的用户个性化离线语音识别系统，其特征在于，

所述训练模块对于所述在线语音模型的语料进行分词，并且对于分词后的在线语音模型的语料训练N-gram语言模型，得到所述在线语音模型，其中N为小于等于3的自然数。

14.如权利要求13所述的用于车机系统的用户个性化离线语音识别系统，其特征在于，

所述训练模块按照预先设定的概率值对于所述得到的所述在线语音模型进行裁剪。

15.如权利要求9所述的用于车机系统的用户个性化离线语音识别系统，其特征在于，

所述融合模块对于所述在线语音模型与已知的通用语言模型中的每个词序列，设所述通用语言模型得分为x，所述在线语音模型得分为y，融合则将得分进行平滑，得到新模型中的得分为Ax + By，其中A、B为和1的系数。

16.如权利要求9所述的用于车机系统的用户个性化离线语音识别系统，其特征在于，

所述解码网络生成模块将所述新语言模型的所有词序列根据发音词典进行拆分和连接，得到一个由上下文相关音素连接的所述解码网络。

17.一种计算机可读介质，其上存储有计算机程序，其特征在于，

该计算机程序被处理器执行时实现权利要求1~8任意一项所述的用于车机系统的用户个性化离线语音识别方法。

18.一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1~8任意一项所述的用于车机系统的用户个性化离线语音识别方法。

19.一种车辆，其特征在于，具备权利要求9~16任意一项所述的用于车机系统的用户个性化离线语音识别系统。