CN114927135B

CN114927135B - 语音交互方法、服务器及存储介质

Info

Publication number: CN114927135B
Application number: CN202210865450.1A
Authority: CN
Inventors: 张辽
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-12-13
Anticipated expiration: 2042-07-22
Also published as: CN114927135A

Abstract

本申请提供一种语音交互方法、服务器及存储介质。该语音交互方法，包括：获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节；确定所述短音节和所述长音节中的音素或音素组合所出现的频次，根据所述频次确定高频音节和低频音节；将所述高频音节进行拆分得到第一音节，将所述低频音节进行合并得到第二音节；将所述第一音节和所述第二音节进行合并，得到建模音节；根据所述建模音节生成声学模型；接收车辆转发的车辆座舱内用户发出的语音请求；根据所述声学模型对所述语音请求进行识别，生成识别结果下发至车辆完成语音交互。本申请提供的方案，能够在建模时实现音节均衡，更方便不同语种的语音识别和语音交互。

Description

语音交互方法、服务器及存储介质

技术领域

本申请涉及语音技术领域，尤其涉及一种语音交互方法、服务器及存储介质。

背景技术

目前智能汽车可以为用户提供语音交互功能。

语音交互功能依赖于语音识别技术。相关技术中可以采用上下文相关的音节建模方式或上下文无关的音节建模方式来构建声学模型。

但是，相关技术构建声学模型时，会出现音节不均衡的问题。

发明内容

为解决或部分解决相关技术中存在的问题，本申请提供一种语音交互方法、服务器及存储介质，能够在建模时实现音节均衡，更方便不同语种的语音识别和语音交互。

本申请第一方面提供一种语音交互方法，包括：获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节；确定所述短音节和所述长音节中的音素或音素组合所出现的频次，根据所述频次确定高频音节和低频音节；将所述高频音节进行拆分得到第一音节，将所述低频音节进行合并得到第二音节；将所述第一音节和所述第二音节进行合并，得到建模音节；根据所述建模音节生成声学模型；接收车辆转发的车辆座舱内用户发出的语音请求；根据所述声学模型对所述语音请求进行识别，生成识别结果下发至车辆完成语音交互。

所述短音节是根据万国音标规则将所述不同语种的音素进行预合并，再根据发音学规则将所述进行预合并后的音素进行合并得到。

所述长音节是利用不同语种的训练语料识别出发音的组合音节，根据发音黏着度从所述组合音节中筛选得到。

所述将所述高频音节进行拆分得到第一音节，包括：将单音素音节作为第一音节；将频次大于第一设定阈值的辅音音素与韵母的组合作为第一组合，将频次大于所述第一设定阈值的第一组合作为第一音节；将所述频次大于所述第一设定阈值的第一组合与声母或特殊声母的组合作为第N组合，将频次大于所述第一设定阈值的第N组合作为第一音节,所述N大于等于2；将所述频次大于所述第一设定阈值的第N组合与声母或特殊声母的组合作为第N+1组合，将频次大于所述第一设定阈值的第N+1组合作为第一音节。

所述将所述低频音节进行合并得到第二音节，包括：根据所述第一音节进行声学模型训练，得到混淆矩阵及混淆得分；确定所述低频音节在所述第一音节中的相似音节，在所述相似音节的混淆得分大于混淆阈值时，将所述低频音节与所述相似音节进行合并，得到第二音节。

所述方法还包括在所述相似音节的混淆得分小于或等于混淆阈值时，将所述低频音节拆分为单音素音节。

本申请第二方面提供一种服务器，包括：音节获取模块，用于获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节；频次统计模块，用于确定所述短音节和所述长音节中的音素或音素组合所出现的频次，根据所述频次确定高频音节和低频音节；训练处理模块，用于将所述高频音节进行拆分得到第一音节，将所述低频音节进行合并得到第二音节；音节合并模块，用于将所述第一音节和所述第二音节进行合并，得到建模音节；模型生成模块，用于根据所述建模音节生成声学模型；请求接收模块，用于接收车辆转发的车辆座舱内用户发出的语音请求；语音识别模块，用于根据所述模型生成模块生成的声学模型对所述请求接收模块接收的语音请求进行识别，生成识别结果下发至车辆完成语音交互。

所述训练处理模块包括：音节拆分模块，用于将单音素音节作为第一音节；将频次大于第一设定阈值的辅音音素与韵母的组合作为第一组合，将频次大于所述第一设定阈值的第一组合作为第一音节；将所述频次大于所述第一设定阈值的第一组合与声母或特殊声母的组合作为第N组合，将频次大于所述第一设定阈值的第N组合作为第一音节,所述N大于等于2；将所述频次大于所述第一设定阈值的第N组合与声母或特殊声母的组合作为第N+1组合，将频次大于所述第一设定阈值的第N+1组合作为第一音节。

本申请第三方面提供一种服务器，包括：处理器；以及存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本申请的方案具有以下有益效果：

本申请在获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节后，确定所述短音节和所述长音节中的音素或音素组合所出现的频次，根据所述频次确定高频音节和低频音节；然后再将所述高频音节进行拆分得到第一音节，将所述低频音节进行合并得到第二音节。通过上述处理，可以均衡同一个语种内部以及不同语种之间的音节数目以及每个音节的训练数据，使得在建模时实现音节均衡，也使得数据量多的音素在对高频音节进行拆分后区分性更强，更方便不同语种的语音识别和语音交互；另外对于低频音节进行合并，可以使得低频音节能够共享发音相似的中高频音节的数据，缓解数据稀疏性问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

通过结合附图对本申请示例性实施方式进行更详细地描述，本申请的上述以及其他目的、特征和优势将变得更加明显，其中，在本申请示例性实施方式中，相同的参考标号通常代表相同部件。

图1是本申请示出的语音交互方法的流程示意图；

图2是本申请示出的另一种语音交互方法的流程示意图；

图3是本申请示出的语音交互方法中进行语音建模的流程示意图；

图4是本申请示出的建模单元示意图；

图5是本申请示出的高频音节拆分的示意图；

图6是本申请示出的低频音节合并的示意图；

图7是本申请示出的服务器的结构示意图；

图8是本申请示出的另一种服务器的结构示意图；

图9是本申请示出的又一种服务器的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式，然而应该理解，可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

相关技术中构建声学模型时，会出现音节不均衡的问题。本申请提供一种语音交互方法，能够在建模时实现音节均衡，更方便不同语种的语音识别和语音交互。

以下结合附图详细描述本申请的技术方案。

图1是本申请示出的语音交互方法的流程示意图。该方法可以应用于服务器。

参见图1，该方法包括：

S101、获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节。

短音节是根据万国音标规则将不同语种的音素进行预合并，再根据发音学规则将进行预合并后的音素进行合并得到。其中，可以根据万国音标规则将不同语种的音素进行预合并。例如，英语音素和法语音素利用ipa（International Phonetic Alphabet，万国音标，也称为国际音标）合并之后，只有56个音素，从而通过合并处理减少了音素数量。然后，可以根据发音学规则将进行预合并后的音素合并为短音节。

长音节是利用不同语种的训练语料识别出发音的组合音节，根据发音黏着度从组合音节中筛选得到。其中，可以利用不同语种的音频和/或视频的训练语料识别出发音的组合音节。本申请可以充分利用音频和/或视频作为不同语种的训练语料。其中，可以将组合音节进行强制帧对齐；确定对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长；将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度，将发音黏着度小于设定阈值的组合音节作为长音节。

S102、确定短音节和长音节中的音素或音素组合所出现的频次，根据频次确定高频音节和低频音节。

其中，可以统计短音节和长音节中的音素或音素组合所出现的频次，根据音素或音素组合所出现的频次，确定高频音节和低频音节。例如，频次大于第一设定阈值，则确定为高频音节，频次小于第二设定阈值，则确定为低频音节。第一设定阈值例如可以是1000，第二设定阈值例如可以是100。

S103、将高频音节进行拆分得到第一音节，将低频音节进行合并得到第二音节。

其中，将高频音节进行拆分得到第一音节，可以包括：将单音素音节作为第一音节；将频次大于第一设定阈值的辅音音素与韵母的组合作为第一组合，将频次大于第一设定阈值的第一组合作为第一音节；将频次大于第一设定阈值的第一组合与声母或特殊声母的组合作为第N组合，将频次大于第一设定阈值的第N组合作为第一音节,N大于等于2；将频次大于第一设定阈值的第N组合与声母或特殊声母的组合作为第N+1组合，将频次大于第一设定阈值的第N+1组合作为第一音节。

其中，将低频音节进行合并得到第二音节，可以包括：根据第一音节进行声学模型训练，得到混淆矩阵及混淆得分；确定低频音节在第一音节中的相似音节，在相似音节的混淆得分大于混淆阈值时，将低频音节与相似音节进行合并，得到第二音节。另外，在相似音节的混淆得分小于或等于混淆阈值时，可以将低频音节拆分为单音素音节。

S104、将第一音节和第二音节进行合并，得到建模音节。

将上述不同步骤分别得到的第一音节和第二音节进行合并，可以生成最终的音节即建模音节。

S105、根据建模音节生成声学模型。

在得到建模音节后，利用已有的相关技术可以根据建模音节生成声学模型。

S106、接收车辆转发的车辆座舱内用户发出的语音请求。

服务器可以接收车辆转发的车辆座舱内用户发出的语音请求。该语音请求，可能是法语的语音请求，也可能是德语的语音请求等。

S107、根据声学模型对语音请求进行识别，生成识别结果下发至车辆完成语音交互。

服务器接收到用户发出的语音请求后，根据声学模型对语音请求进行识别，生成识别结果下发至车辆完成语音交互。根据声学模型识别语音请求的方法可以采用相关技术已有的识别方法，本申请不加以限定。

本申请在获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节后，确定短音节和长音节中的音素或音素组合所出现的频次，根据频次确定高频音节和低频音节；然后再将高频音节进行拆分得到第一音节，将低频音节进行合并得到第二音节。通过上述处理，可以均衡同一个语种内部以及不同语种之间的音节数目以及每个音节的训练数据，使得在建模时实现音节均衡，也使得数据量多的音素在对高频音节进行拆分后区分性更强，更方便不同语种的语音识别和语音交互；另外对于低频音节进行合并，可以使得低频音节能够共享发音相似的中高频音节的数据，缓解数据稀疏性问题。

图2是本申请示出的另一种语音交互方法的流程示意图。该方法可以应用于服务器。本申请以不同语种的训练语料为音频训练语料（简称为训练音频）为例但不局限于此。

参见图2，该方法包括：

S201、获取不同语种的音素，根据发音学规则将音素合并为短音节。

例如，可以获取不同语种的音素，根据万国音标规则将不同语种的音素进行预合并；根据发音学规则将进行预合并后的音素合并为短音节。其中，可以从进行预合并后的音素中，将声母和韵母的音素合并得到短音节，将剩下的单个声母的音素和单个韵母的音素单独作为短音节。

S202、获取不同语种的训练音频，从训练音频中识别出发音的组合音节，根据音节合并规则和发音黏着度确定长音节。

例如，可以先获取不同语种的训练音频，从训练音频中识别出发音的组合音节，从组合音节中筛选出符合音节合并规则的组合音节。其中，音节合并规则，包括以下至少一项规则：声母+声母+韵母；声母+声母+韵母+特殊声母；声母+韵母+特殊声母。

然后，可以将符合音节合并规则的组合音节进行强制帧对齐，确定对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长。其中，可以将组合音节以韵母为核心进行强制帧对齐。其中，组合音节的平均发音持续时长，根据进行强制帧对齐后的总发音持续时长与组合音节在训练音频中出现的次数的比值确定。

最后，可以将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度，将发音黏着度小于设定阈值的组合音节作为长音节。

需说明的是，S201和S202之间没有顺序关系。

S203、确定短音节和长音节中的音素或音素组合所出现的频次，根据频次确定高频音节和低频音节。

S204、将高频音节进行拆分得到第一音节。

例如，可以将单音素音节作为第一音节；将频次大于第一设定阈值的辅音音素与韵母的组合作为第一组合，将频次大于第一设定阈值的第一组合作为第一音节；将频次大于第一设定阈值的第一组合与声母或特殊声母的组合作为第N组合，将频次大于第一设定阈值的第N组合作为第一音节,N大于等于2；将频次大于第一设定阈值的第N组合与声母或特殊声母的组合作为第N+1组合，将频次大于第一设定阈值的第N+1组合作为第一音节。

S205、将低频音节进行合并得到第二音节。

例如，可以根据第一音节进行声学模型训练，得到混淆矩阵及混淆得分；确定低频音节在第一音节中的相似音节，在相似音节的混淆得分大于混淆阈值时，将低频音节与相似音节进行合并，得到第二音节。在相似音节的混淆得分小于或等于混淆阈值时，将低频音节拆分为单音素音节。

需说明的是，S204和S205之间没有顺序关系。

S206、将第一音节和第二音节进行合并，得到建模音节。

S207、根据建模音节生成声学模型。

S208、接收车辆转发的车辆座舱内用户发出的语音请求。

S208可以参见S106的描述，此处不再赘述。

S209、根据声学模型对语音请求进行识别，生成识别结果下发至车辆完成语音交互。

S209可以参见S107的描述，此处不再赘述。

本申请方案，基于ipa进行音素合并，融合发音学规则和训练音频数据统计结果来生成短音节和长音节，可以使得单一语种的建模单元的量级极大增加，从而大大降低了学习难度，提升语音识别率，也使得各种不同语种可以使用同一套建模系统，从而能够实现多语种统一建模；另外，可以在建模时实现音节均衡，以及使得低频音节能够共享发音相似的中高频音节的数据，缓解数据稀疏性问题。

图3是本申请示出的语音交互方法中进行语音建模的流程示意图。该方法可以应用于服务器。本申请中不同语种的训练语料可以是音频训练语料或视频训练语料，或者是音频训练语料和视频训练语料一起使用。图3方法中以不同语种的训练语料为音频训练语料（简称为训练音频）为例。

参见图3，该方法包括：

S301、获取不同语种的音素。

音素（phone），是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素可以分为元音与辅音两大类。国际音标（也称为“万国语音学字母”）的音标符号与全人类语言的音素一一对应。

音节（Syllable）是语言中单个元音音素和辅音音素组合发音的最小语音单位，音节在语音学上指由一个或数个音素组成的语音结构基本单位；而音素是最小的语音单位。

该步骤可以获取不同语种的音素，例如获取法语音素、英语音素、德语音素等。例如，获取的法语音素包括：brem…；获取的德语音素包括：

kam…。

S302、根据ipa将不同语种的音素进行预合并，根据发音学规则将进行预合并后的音素合并为短音节，分别进入S308和S309。

欧洲不同语种之间，很多语种其实属于同一个语系，发音上有很多共同点。本申请充分考虑了欧洲不同语种之间的相关性，利用ipa（International Phonetic Alphabet，万国音标，也称为国际音标）这个国际统一标准对不同语种的音素进行合并。ipa的特性是越相似的语种，重合的音素越多。例如ipa中，英语有39个音素，法语有36个音素，但其中有19个音素是重合的，因此英语音素和法语音素利用ipa合并之后，只有56个音素，从而通过合并处理减少了音素数量。

由于是将多个不同语种的音素进行了合并，多个语种就可以直接混合建模在一个模型里面，只有1个输出层，但包含了所有语种，因此就不需要再进行语种判别的处理。通过基于ipa的音素合并，使得多语种之间可以共享建模单元，进而共享部分数据，使得不同语种可以相互提升效果。

其中，可以从通过ipa进行音素预合并后的音素中，将声母和韵母的音素合并得到短音节，将剩下的单个声母的音素和单个韵母的音素单独作为短音节。

本申请的发音学规则可以是将声母+韵母合并作为一个音节，将合并之后剩下单个声母和单个韵母，也单独作为一个音节。基于发音学规则进行合并后得到的音节中，一般可以包含1-2个音素。例如，将获取的法语音素brem…和获取的德语音素kam…等根据发音学规则进行音素合并得到音节b_e、r_e、k_a等作为短音节。短音节中，一般包含1-2个音素。

本申请基于ipa进行音素合并，且与上下文无关，使得可以从上下文相关的三音素转成了上下文无关的音节，可以使得发音单元数目足够多，相互之间区分性更大，更容易学习，同时兼顾了上下文无关的音节的数目，且更大的发音单元具有更强的抗噪声能力。

图4是本申请示出的建模单元示意图。参见图4，左边方框内是上下文相关的音素，x代表上下文；中间的方框内是上下文无关的音素，两个ae代表同一个建模单元；右边的方框内是将上下文无关的音素进行合并后的上下文无关的音节。

S303、获取不同语种的训练音频，从训练音频中识别出发音的组合音节。

该步骤可以获取不同语种的训练音频，例如获取法语训练音频、英语训练音频、德语训练音频等。利用已有的语音识别相关技术，可以从训练音频中识别出发音的组合音节，例如b_ r_e、b_ e_m、r_ e_m、r_ e_b等。

需说明的是，S303与S301之间没有顺序关系。

S304、从组合音节中筛选出符合长音节合并规则的组合音节，获得每一组合音节的音素标签，分别进入S305和S309。

从训练音频中识别出发音的组合音节后，判断这些组合音节是否符合长音节合并规则，根据判断结果筛选出符合音节合并规则的组合音节。

长音节合并规则，包括以下至少一项规则：声母+声母+韵母；声母+声母+韵母+特殊声母；声母+韵母+特殊声母。

1）声母+声母+韵母

2）声母+声母+韵母+特殊声母【n/m】

例如 b_r_i_n，b_r_e_m，其中特殊声母n/m是单音素统计中，普遍发音较短的具有黏着性的单音素。

3）声母+韵母+特殊声母【n/m】

从训练音频中识别出发音的组合音节例如b_ r_e、b_ e_m、r_ e_m、r_ e_b后，根据音节合并规则进行筛选，可以筛选出符合长音节合并规则的组合音节b_ r_e、b_ e_m、r_e_m，其中r_ e_b因为是声母结尾，不是韵母或特殊声母结尾，因此不符合音节合并规则被排除。

S305、将符合长音节合并规则的组合音节进行强制帧对齐。

从训练音频中，将符合长音节合并规则的组合音节进行强制帧对齐，获得强制帧对齐的结果。

强制帧对齐，是指已知音频以及对应的文本标注，获得每一帧对应的标注的过程。其中，训练音频中的组合音节可以是以韵母为核心进行强制帧对齐。

S306、确定对齐后的组合音节的平均发音持续时长和所有组合音节的平均发音持续时长。

获得强制帧对齐的结果后，对于对齐后的组合音节，统计在不同上下文语境中所有长度为3和4的组合音节（包含音素组合）的发音持续时长，取平均值作为该组合音节（属于声韵母组合）的平均发音持续时长。组合音节的平均发音持续时长，可以根据进行强制帧对齐后的总发音持续时长与组合音节在训练音频中出现的次数的比值确定。另外也统计所有组合音节的平均发音持续时长。

例如，组合音节b_ r_e的 b 、r 、e 这三个音素在训练音频中连着共出现了1000次，对齐后（b + r + e）总发音持续时长500s，那么b 、r 、e 这3个音素组合的平均发音持续时长为N（b_r_e） = 500/1000=0.5s。

又例如，a_b音素组合，在10000个句子里面出现了1000次，将1000次的时长加起来除以1000，就可以得到a_b音素组合的平均发音持续时长。

S307、确定发音黏着度，将发音黏着度小于设定阈值的组合音节作为长音节。

其中，可以将组合音节的平均发音持续时长与所有组合音节的平均发音持续时长的比值作为发音黏着度，将发音黏着度小于设定阈值的组合音节作为长音节。发音黏着度越小，表示组合音节中的音素越应该分到一起。

假设设定阈值为0.5，当发音黏着度小于0.5时，输出黏着性的组合音节作为长音节。

举例说明：

组合音节b_r_e 的发音黏着度为：

p（b_r_e）= N（b_r_e）/N（b_*_e）

其中，* 代表所有声母，N表示发音持续时长的平均值，N（b_r_e）表示组合音节b_r_e的平均发音持续时长，N（b_*_e）表示所有声母与b、e组合后的所有组合音节的平均发音持续时长，p表示发音黏着度。

b_r_e如果黏着性很高，则b_r_e的平均发音持续时长一般就短于b_*_e的平均发音持续时长。

例如，上述符合音节合并规则的组合音节b_ r_e、b_ e_m、r_ e_m，经过发音黏着度判断后，得到符合条件的组合音节b_ r_e、b_ e_m作为长音节。经过发音黏着度判断后得到的长音节中，一般包含3-4个音素。

S308、将长音节和短音节一起放入音节池得到全量音节池，进入S309。

S309、确定短音节和长音节中的音素或音素组合所出现的频次，根据频次确定高频音节和低频音节。

S310、将高频音节进行拆分得到第一音节。

在上述步骤中将长音节和短音节一起放入音节池得到全量音节池后，从全量音节池中获得1阶至设定阶数的音节作为候选音节，例如获取所有的1-4阶次的音节作为候选音节。本申请所描述的一阶可以是指单音素的情况，二阶可以是指双音素的情况，三阶可以是三音素的情况，四阶可以是四音素的情况，以此类推。

图5是本申请示出的高频音节拆分的示意图。参见图5，本申请按照以下过程进行拆分得到第一音节。

1）对一阶音节（单音素音节）的处理：

本申请假设音素的频次的设定阈值为1000、阶次的阈值为4但不局限于此。

图5中以语料为法语音素和挪威语音素为例，统计基于ipa的一阶音节（单音素音节）出现的频次，将所有一阶的单音素音节作为第一音节直接加入音节列表。

例如，单音素音节包括：辅音r/y/k/d/b，元音i/a/o/e/ã ；将这些单音素音节作为第一音节直接加入音节列表。

2）二阶音节（双音素音节）拆分：

查找出一阶音节中频次大于设定阈值（例如1000）的高频辅音音素x，统计语料中x+y组合出现的频次，将x+y组合中频次大于设定阈值（例如1000）且y是韵母的x+y组合，作为第一音节加入音节列表。

例如，r_i/r_a/r_b/b_a 的频次超过设定阈值1000，根据全量音节池中长音节的长音节合并规则和短音节的发音学规则，确定韵母结尾才符合规则，因此只有r_i/r_a/b_a符合规则，将双音素音节r_i/r_a/ b_a作为第一音节加入音节列表。其中，全量音节池中的长音节是根据发音黏着度确定，一般为3-4个音素，全量音节池中的短音节是根据发音学规则确定，一般为1-2个音素。

3）重新统计全量音节池中的音节频次：

例如一阶音节r（10000次）拆分成r_i（5000次）/r_a（2000次）后，r的新频次=10000-5000-2000=3000。

4）三阶音节（三音素音节）拆分：

对所有高频二阶音节继续进行拆分。对于二阶音节中频次大于设定阈值且y是韵母的x+y组合（即二阶音节中韵母结尾的高频音节x+y组合），统计全量音节池中在该x+y组合前面多一个声母或在该x+y组合后面多一个特殊声母的所有组合的频次，将频次大于设定阈值（例如1000）的组合，作为第一音节加入音节列表。

例如，k_r_i是在r_i组合前面多一个声母k且频次大于设定阈值1000，将三音素音节k_r_i作为第一音节加入音节列表；r_i_m是在r_i组合后面多一个特殊声母m且频次大于设定阈值1000，将三音素音节r_i_m作为第一音节加入音节列表。

5）重新统计全量音节池中的音节频次

例如二阶音节r_i（5000次）拆分成k_r_i（1500次）/r_i_m（1500次）后，r_i新频次=5000-1500-1500=2000。

6）四阶音节（四音素音节）拆分：

对所有高频三阶音节继续进行拆分。例如，高频三阶音节为：x1+x2+y，查找出全量音节池中*+x1+x2+y的组合以及x1+x2+y+*的组合，也即查找出在该x1+x2+y组合前面多一个声母*或在该x1+x2+y组合后面多一个特殊声母*的组合。

对于查找出的组合，统计出现的频次，将频次大于设定阈值（例如1000）的组合，作为第一音节加入音节列表。

至此，可以形成最终的音节列表。

S311、将低频音节进行合并得到第二音节。

该S311可以参见图6，图6是本申请示出的低频音节合并的示意图。

1）将使用高频音节拆分得到的第一音节的音节列表作为输出单元，进行声学模型训练，统计音节列表中前向预测的softmax（逻辑回归）得分中每一个音节的softmax得分平均值。

例如，假设使用高频音节拆分算法得到的音节列表，有3个输出单元a、b、c。在进行声学模型训练过程中，假设某一语音帧的正确标签是a，对应声学模型的softmax得分输出是[0.5，0.4，0.1]，正确标签是a的语音帧一共有1000帧，softmax得分取平均值（3个维度，每一个维度相加取平均值）后得到a的softmax得分平均值是[0.55，0.4，0.05]。同理，计算b和c的softmax得分平均值之后，分别得到b的softmax得分平均值是 [0.4，0.55，0.05]， c的得分softmax平均值是[0.1，0.1，0.8]，则混淆矩阵是这三个矩阵的3x3矩阵拼接。

需要说明的是，对于a来说，softmax得分[0.55，0.4，0.05]代表用户的发音为a的时候，识别成a的概率为0.55，识别成b的概率为0.4，识别成c的概率为0.05；因此可以得出结论为：a和b混淆可能性比较大，a和c混淆可能性比较小。

2）针对小于低频设定阈值（例如100）的长音节，查找到最相似的相似音节，判断相似音节的混淆得分是否大于混淆阈值（例如0.35），如果相似音节的混淆得分大于混淆阈值，则将低频音节与相似音节合并；如果小于或等于混淆阈值，则将这个低频音节拆分成单音素。

例如，r_e是低频音节，r_ae不是低频音节且是r_e的相似音节，r_e 和 r_ae 相似度矩阵式为[0.55，0.36，...]，由于相似音节r_ae的混淆得分0.55大于混淆阈值（例如0.35），那么将r_e直接与r_ae合并，两个音节合并成一个音节，也即两个节点合并成一个节点，可以共享声学模型。

例如，r_ã 是低频音节，r_ã 相似的相似音节是r_a，如果相似音节r_a的混淆得分大于混淆阈值（例如0.35），那么将r_ã直接与r_a合并，两个音节合并成一个音节；如果相似音节r_a的混淆得分小于或等于混淆阈值（例如0.35），则将r_ã拆分成单音素。

3）如果低频音节与相似音节合并之后仍然是低频音节，则重复1）-2）的步骤，直到所有的低频音节都被合并或者被拆分成单音素音节。

S312、将第一音节和第二音节进行合并，得到建模音节。

其中，将上述不同步骤分别得到的第一音节和第二音节进行合并，可以生成最终的音节即建模音节。

相关技术中，音节训练不均衡，例如每个语种生成音节的流程具有相同的复杂度，生成出的音节数目在同一个量级（例如法语1800，荷兰语1600），但是不同语种的数据量级差距很大，这会造成有的音节在训练数据中出现的频次很高，训练很充分，有的音节因为数据量少，训练不充分，导致效果非常差。另外，相关技术中音节维护代价大，例如每个语种的音节数目需要手动去调整，德语、法语等音节数目多，而比利时语等音节数目少，当语种数目多的时候，相关技术中无法自动根据训练语料的数量自动调节音节数目和自动选择高频音节。以及，相关技术中模型迁移性能差，例如不同的输出单元质检频次差异巨大，训练充分度差异巨大，会导致声学模型和训练语料强相关，当迁移到训练数据之外的场景时，效果较差。

本申请以基于ipa音素的音节建模为基础，实现混合语种数据均衡处理。本申请提出高频音节进行拆分的算法，针对高频次和中频次音节进行拆分。本申请提供的方案，可以实现数据多的语种音节单元多，数据少的语种音节数目少，可以使得语种混合后小语种的效果得到保障。本申请方案可以均衡同一个语种内部以及不同语种之间的音节数目以及每个音节的训练数据，使得数据量多的音素可以根据上下文语境拆分出高频长音节，区分性更强。本申请还提供低频音节合并的算法。对于已经拆分的音节，会存在部分极低频次的音节，本申请针对这些低频音节，提出相似度聚合算法，使得低频音节单元能够共享发音相似的中高频音节的数据，极大缓解数据稀疏性问题。

与前述应用功能实现方法相对应，本申请还提供了一种服务器。

图7是本申请示出的服务器的结构示意图。

参见图7，本申请提供的服务器70，包括：音节获取模块71、频次统计模块72、训练处理模块73、音节合并模块74、模型生成模块75、请求接收模块76、语音识别模块77。

音节获取模块71，用于获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节。

频次统计模块72，用于确定短音节和长音节中的音素或音素组合所出现的频次，根据频次确定高频音节和低频音节。其中，短音节是根据万国音标规则将不同语种的音素进行预合并，再根据发音学规则将进行预合并后的音素进行合并得到。长音节是利用不同语种的训练语料识别出发音的组合音节，根据发音黏着度从组合音节中筛选得到。

训练处理模块73，用于将高频音节进行拆分得到第一音节，将低频音节进行合并得到第二音节。

音节合并模块74，将第一音节和第二音节进行合并，得到建模音节。

模型生成模块75，用于根据建模音节生成声学模型。

请求接收模块76，用于接收车辆转发的车辆座舱内用户发出的语音请求。

语音识别模块77，用于根据模型生成模块75生成的声学模型对请求接收模块76接收的语音请求进行识别，生成识别结果下发至车辆完成语音交互。

图8是本申请示出的另一种服务器的结构示意图。

参见图8，本申请提供的服务器70，包括：音节获取模块71、频次统计模块72、训练处理模块73、音节合并模块74、模型生成模块75、请求接收模块76、语音识别模块77。

其中，训练处理模块73包括：音节拆分模块731、低频音节合并模块732。

音节拆分模块731，用于将单音素音节作为第一音节；将频次大于第一设定阈值的辅音音素与韵母的组合作为第一组合，将频次大于第一设定阈值的第一组合作为第一音节；将频次大于第一设定阈值的第一组合与声母或特殊声母的组合作为第N组合，将频次大于第一设定阈值的第N组合作为第一音节,N大于等于2；将频次大于第一设定阈值的第N组合与声母或特殊声母的组合作为第N+1组合，将频次大于第一设定阈值的第N+1组合作为第一音节。

低频音节合并模块732，用于根据第一音节进行声学模型训练，得到混淆矩阵及混淆得分；确定低频音节在第一音节中的相似音节，在相似音节的混淆得分大于混淆阈值时，将低频音节与相似音节进行合并。

本申请的服务器，在获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节后，确定短音节和长音节中的音素或音素组合所出现的频次，根据频次确定高频音节和低频音节；然后再将高频音节进行拆分得到第一音节，将低频音节进行合并得到第二音节。通过上述处理，可以均衡同一个语种内部以及不同语种之间的音节数目以及每个音节的训练数据，使得在建模时实现音节均衡，也使得数据量多的音素在对高频音节进行拆分后区分性更强，更方便不同语种的语音识别和语音交互；另外对于低频音节进行合并，可以使得低频音节能够共享发音相似的中高频音节的数据，缓解数据稀疏性问题。

关于上述实施例中的服务器，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

图9是本申请示出的又一种服务器的结构示意图。

参见图9，服务器1000包括存储器1010和处理器1020。

处理器1020可以是中央处理单元（Central Processing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器1010可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1010可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（例如DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器1010可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等）、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1010上存储有可执行代码，当可执行代码被处理器1020处理时，可以使处理器1020执行上文述及的方法中的部分或全部。

此外，根据本申请的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本申请还可以实施为一种计算机可读存储介质（或非暂时性机器可读存储介质或机器可读存储介质），其上存储有可执行代码（或计算机程序或计算机指令代码），当可执行代码（或计算机程序或计算机指令代码）被电子设备（或服务器等）的处理器执行时，使处理器执行根据本申请的上述方法的各个步骤的部分或全部。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音交互方法，其特征在于，包括：

获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节，其中根据发音学规则将所述音素合并为短音节；

确定所述短音节和所述长音节中的音素或音素组合所出现的频次，根据所述频次确定高频音节和低频音节；

将所述高频音节进行拆分得到第一音节，将所述低频音节进行合并得到第二音节；

将所述第一音节和所述第二音节进行合并，得到建模音节；

根据所述建模音节生成声学模型；

接收车辆转发的车辆座舱内用户发出的语音请求；

根据所述声学模型对所述语音请求进行识别，生成识别结果下发至车辆完成语音交互。

2.根据权利要求1所述的方法，其特征在于：

3.根据权利要求1所述的方法，其特征在于：

4.根据权利要求1所述的方法，其特征在于，所述将所述高频音节进行拆分得到第一音节，包括：

将单音素音节作为第一音节；

将频次大于第一设定阈值的辅音音素与韵母的组合作为第一组合，将频次大于第一设定阈值的第一组合作为第一音节；

将所述频次大于所述第一设定阈值的第一组合与声母或特殊声母的组合作为第N组合，将频次大于所述第一设定阈值的第N组合作为第一音节,所述N大于等于2；

将所述频次大于所述第一设定阈值的第N组合与声母或特殊声母的组合作为第N+1组合，将频次大于第一设定阈值的第N+1组合作为第一音节。

5.根据权利要求1所述的方法，其特征在于，所述将所述低频音节进行合并得到第二音节，包括：

根据所述第一音节进行声学模型训练，得到混淆矩阵及混淆得分；

确定所述低频音节在所述第一音节中的相似音节，在所述相似音节的混淆得分大于混淆阈值时，将所述低频音节与所述相似音节进行合并，得到第二音节。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述相似音节的混淆得分小于或等于混淆阈值时，将所述低频音节拆分为单音素音节。

7.一种服务器，其特征在于，包括：

音节获取模块，用于获取利用不同语种的音素得到的短音节和利用不同语种的训练语料得到的长音节，其中根据发音学规则将所述音素合并为短音节；

频次统计模块，用于确定所述短音节和所述长音节中的音素或音素组合所出现的频次，根据所述频次确定高频音节和低频音节；

训练处理模块，用于将所述高频音节进行拆分得到第一音节，将所述低频音节进行合并得到第二音节；

音节合并模块，用于将所述第一音节和所述第二音节进行合并，得到建模音节；

模型生成模块，用于根据所述建模音节生成声学模型；

请求接收模块，用于接收车辆转发的车辆座舱内用户发出的语音请求；

语音识别模块，用于根据所述模型生成模块生成的声学模型对所述请求接收模块接收的语音请求进行识别，生成识别结果下发至车辆完成语音交互。

8.根据权利要求7所述的服务器，其特征在于，所述训练处理模块包括：

音节拆分模块，用于将单音素音节作为第一音节；将频次大于第一设定阈值的辅音音素与韵母的组合作为第一组合，将频次大于所述第一设定阈值的第一组合作为第一音节；将所述频次大于所述第一设定阈值的第一组合与声母或特殊声母的组合作为第N组合，将频次大于所述第一设定阈值的第N组合作为第一音节,所述N大于等于2；将所述频次大于所述第一设定阈值的第N组合与声母或特殊声母的组合作为第N+1组合，将频次大于第一设定阈值的第N+1组合作为第一音节。

9.一种服务器，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-6中任一项所述的方法。