CN112905247A

CN112905247A - 自动检测并切换语言的方法及装置、终端设备、存储介质

Info

Publication number: CN112905247A
Application number: CN202110097993.9A
Authority: CN
Inventors: 杨扬; 吴晓敏; 李想; 何红武; 汪法兵
Original assignee: Zebra Network Technology Co Ltd
Current assignee: Zebra Network Technology Co Ltd
Priority date: 2021-01-25
Filing date: 2021-01-25
Publication date: 2021-06-04

Abstract

本发明提供一种自动检测并切换语言的方法及装置、终端设备、存储介质，该方法利用终端设备的语言检测模块与终端设备的语音唤醒模块中的主唤醒词模块分别对输入的语音信息进行检测与唤醒，从N种语言中得到第一语言；终端设备在得出第一语言后将第一语言下发给第一语言对应的第一语音链路中的各个模块，并逐个完成语言切换，以实现语言的自动切换；在切换过程中在进行云端服务切换的同时进行本地服务的切换，提高切换速度且提高语言切换的稳定性。

Description

自动检测并切换语言的方法及装置、终端设备、存储介质

技术领域

本申请涉及语言切换技术领域，尤其涉及一种自动检测并切换语言的方法及装置、终端设备、存储介质。

背景技术

随着计算机技术的普及，当今人们的生活已经逐渐走上智能时代，尤其体现在语音交互上。不仅仅是电脑、手机等走上语音交互的模式，智能电视、智能导航、智能家居等都通过语音交互的模式进行操作，满足用户的快捷服务。

在语音交互系统中，经常需要支持多种语言的语音唤醒、语音识别、语音合成、语义理解、语义生成等，且需要根据用户的喜好或需求进行切换。

传统的切换方式是在系统的设置中提供选项，当用户选择一种语言，比如：四川话，对应的语音引擎就会进行相应的加载。而当有两个或多个人同时使用同一个语音系统，且两个或多个人使用不同的语言，则此时针对不同的语言手动进行切换将产生较大的不便。

发明内容

有鉴于此，本申请提供一种自动检测并切换语言的方法及装置，通过该方法实现在唤醒时或识别时自动检测出输入的语音对应的语言，并进行切换。

为解决上述技术问题，本申请采用以下技术方案：

根据本发明实施例提供一种自动检测并切换语言的方法，所述方法包括：

终端设备接收用户输入的语音信息，并利用所述终端设备的语音唤醒模块的主唤醒词模块与所述终端设备的语言检测模块分别对所述语音信息进行唤醒与检测；其中，所述语音信息包括语音的语言类型与语义信息；

所述语言检测模块从N种语言中得到与所述语音信息相匹配的第一语言；其中，N为大于1的整数；

所述终端设备判断所述第一语言与其当前应用语言是否相同；若否

则所述终端设备基于所述第一语言获取云端服务，并将所述云端服务的语音系统切换为与所述第一语言对应的第一语音链路；以及

所述终端设备的本地服务的语音系统切换为与所述第一语言相对应的第二语音链路；其中，所述第二语音链路至少包括语音识别模块、语音合成模块、语义理解模块、语义生成模块和所述语音唤醒模块。

优选地，所述终端设备接收输入的语音信息，利用所述终端设备的语音唤醒模块的主唤醒词模块与所述终端设备的语言检测模块分别对所述语音信息进行唤醒与检测，包括：

所述终端设备接收包含唤醒词的语音，将所述语言检测模块中的第一语言检测模块集成在所述主唤醒词模块上，所述第一语言检测模块对包含所述唤醒词的语音进行语言检测，得出所述第一语言。

优选地，将所述语言检测模块中的第二语言检测模块集成在所述语音识别模块上，在所述云端服务与本地服务分别切换成所述第一语音链路与第二语音链路后，所述第二语言检测模块检测用户输入的语音信息，得到第二语言；当所述第二语言与第一语言的匹配率小于设定阈值范围时，所述云端服务与本地服务的语音系统切换为所述第二语言对应的第三语音链路。

将所述语言检测模块中的第二语言检测模块集成在所述语音识别模块上，所述第二语言检测模块检测输入的语音信息，得出所述第一语言。

优选地，所述终端设备接收输入的语音信息，利用所述终端设备的语音唤醒模块的主唤醒词模块与所述终端设备的语言检测模块分别对所述语音信息进行唤醒与检测，包括:

在所述本地服务的语音系统完成切换后，所述语音唤醒模块的快捷词模块对包含所述唤醒词的语音进行唤醒。

本发明实施例还提供一种自动检测并切换语言的装置，包括：

唤醒与检测模块，被配置用于终端设备接收用户输入的语音信息，并利用所述终端设备的语音唤醒模块的主唤醒词模块与所述终端设备的语言检测模块分别对所述语音信息进行唤醒与检测；其中，所述语音信息包括语音的语言类型与语义信息；

匹配模块，被配置用于所述语言检测模块从N种语言中得到与所述语音信息相匹配的第一语言；其中，N为大于1的整数；

判断模块，被配置用于所述终端设备判断所述第一语言与其当前应用语言是否相同；

切换模块，被配置用于所述终端设备基于所述第一语言获取云端服务，并将所述云端服务的语音系统切换为与所述第一语言对应的第一语音链路；以及

优选地，所述语言检测模块包括第一语言检测模块；

所述第一语言检测模块，被配置用于集成在所述主唤醒词模块上，所述第一语言检测模块对所述终端设备接收的包含所述唤醒词的语音进行语言检测，得出所述第一语言。

优选地，所述语言检测模块包括第二语言检测模块；

所述第二语言检测模块，被配置用于集成在所述语音识别模块上，在所述云端服务与本地服务分别切换成所述第一语音链路与第二语音链路后，所述第二语言检测模块检测用户输入的语音信息，得到第二语言。

优选地，所述语言检测模块包括第二语言检测模块；

所述第二语言检测模块，被配置集成于所述语音识别模块上，所述第二语言检测模块检测用户输入的语音信息，得出所述第一语言。

优选地，所述语音唤醒模块还包括快捷词模块；

所述快捷词模块，被配置用于在所述本地服务的语音系统完成切换后，所述语音唤醒模块的快捷词模块对包含所述唤醒词的语音进行唤醒。

本发明实施例还提供一种终端设备，所述终端设备包括：

处理器；

存储器；以及程序，其中，所述程序被存储在所述存储器中，并且被配置成由处理器执行，以使得所述终端设备实现所述一种自动检测并切换语言的方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序：所述计算机程序被处理器执行实现所述一种自动检测并切换语言的方法。

本申请的上述技术方案至少具有如下有益效果之一：

根据本申请实施例的一种自动检测并切换语言的方法及装置，该方法利用终端设备的语言检测模块与终端设备的语音唤醒模块中的主唤醒词模块分别对输入的语音信息进行检测与唤醒，从N种语言中得到第一语言；终端设备在得出第一语言后将第一语言下发给第一语言对应的第一语音链路中的各个模块，并逐个完成语言切换，以实现语言的自动切换；在切换过程中在进行云端服务切换的同时进行本地服务的切换，提高切换速度且提高语言切换的稳定性。

附图说明

图1为本申请实施例的自动检测并切换语言的方法的结构示意图；

图2为本申请实施例的自动检测并切换语言的方法的整体流程图；

图3为本申请实施例的自动检测并切换语言的方法的整体逻辑图；

图4为本申请实施例的自动检测并切换语言的方法的具体逻辑示意图；

图5为本申请一个实施例的自动检测并切换语言的方法的逻辑图；

图6为本申请另一个实施例的自动检测并切换语言的方法的逻辑图；

图7为本申请另一个实施例的自动检测并切换语言的方法的逻辑图；

图8为本申请的自动检测并切换语言的装置的模块图。

附图标记：

1、云端，2、终端设备，10、唤醒与检测模块，110、语言检测模块，111、第一语言检测模块，112、第二语言检测模块，120、语音唤醒模块，121、主唤醒词模块，122、快捷词模块，20、切换模块，30、判断模块，40、匹配模块。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在现有技术中，针对不同的语言手动进行切换将产生较大的不便，针对该技术问题，本申请实施例提供一种自动检测并切换语言的方法，该方法通过终端设备的语音唤醒模块与语言检测模块来对输入的语音信息进行自动唤醒与检测，并进行切换。但是在进行本地服务的语音系统进行切换时，需要将之前的语音系统进行释放，再加载新的语音系统，此过程需要一些时间，本地服务的语音切换降低用户体验。本申请实施例提供的方法通过优先进行云端服务的切换，云端服务的切换只需要进行参数的修改，对用户来说没有时间的停滞，提高用户体验。但是因用户在进行语言切换的过程中所处环境的多变性，比如车载终端设备行驶至山洞，无法保证网络的顺畅。因此，本申请实施例在优先进行云端服务切换的同时进行本地服务的切换，提高语言切户速度的同时提高语言切换的稳定性。

下面通过结合具体的附图对本申请的各个实施例进行详细的说明。

图1为本申请一实施例提供的自动检测并切换语言的方法的结构示意图，该结构示意图中包括云端1与终端设备2，云端1服务与终端设备2通过网络连接。终端设备2比如车载终端、电脑终端等，在此不做限定。终端设备2自动唤醒并检测输入的语音信息后获取云端1服务并进行语音系统的切换。在云端1服务将进行其语音系统切换为第一语音链路的同时，车载终端的本地服务将其语音系统切换为第二语音链路；第一语音链路与第二语音链路分别对应切换后的第一语言，二者的区别是第一语言链路在云端，而第二语音链路在本地。

终端设备是面向用户的，且终端用户可能面向多个用户，当多个用户通过不同的语言与终端设备进行交互，终端设备需及时进行检测与切换，以提高用户体验。本申请实施例中涉及的语言包括语种的切换，比如：英语与汉语之间的切换，也包括语种下的方言之间的切换，比如：四川话与普通话之间的切换。

在本申请的一个实施例中提供一种自动检测并切换语言的方法，如图2、图3所示，该方法具体包括如下步骤：

S1、终端设备接收输入的语音信息，利用终端设备的语音唤醒模块的主唤醒词模块与终端设备的语言检测模块分别对语音信息进行唤醒与检测；其中，语音信息包括语音的语言类型与语义信息。在用户发出唤醒的语音信息，终端设备接收输入的语音信息，比如：“您好，您好”，终端设备的语音唤醒模块的主唤醒词模块被唤醒；终端设备的语言检测模块对输入的语音信息进行检测，检测输入的语音信息属于哪个方言或哪个语种。

S2、语言检测模块从N种语言中得到与步骤S1中输入的语音信息相匹配的第一语言；其中，N为大于1的整数。通过语言检测模块得到与输入的语音信息相匹配的第一语言的具体识别方法，可通过现有技术中的实现方法实现。比如：通过训练识别模型来识别等，在此不做限定。

S3、终端设备判断第一语言与其当前应用语言是否相同。终端设备中的语言管理模块在接收到步骤S2中得到的第一语言时，语言管理模块将第一语言与终端设备当前的应用语言进行比对以确定二者是否相同，如若相同则无需进行下面的切换步骤。如若不相同，则进入步骤S4。

S4、终端设备基于第一语言获取云端服务，并将云端服务的语音系统切换为与第一语言对应的第一语音链路；以及终端设备的本地服务的语音系统切换为与第一语言相对应的第二语音链路；其中，第一语音链路或第二语音链路至少包括语音识别模块、语音合成模块、语义理解模块、语义生成模块和语音唤醒模块。当步骤S3中确认第一语言与终端设备的当前应用语言不相同，则终端设备进行云端的切换，同时进行本地的切换。在切换的过程中包括语音识别模块的切换、语音合成模块的切换、语义理解模块的切换、语义生产模块的切换以及语音唤醒模块中的快捷词模块的切换。

如图4所示，在本地进行切换的时候需要将本地服务的语音识别(AutomaticSpeech Recognition,ASR)模型进行释放后再加载新的ASR模型，而这个过程需要时间，大概需要三秒左右。故本实施例先使用云端的ASR模型进行语音识别，由于云端的ASR模型只需要对参数进行更改，故对于用户来说没有时间的停滞。如此可提高在语言切换的过程中切换速度提高用户的体验质量。

在本发明的一个实施例中，如图5所示，终端设备接收包含唤醒词的语音，将语言检测模块中的第一语言检测模块集成在主唤醒词模块上，第一语言检测模块对包含唤醒词的语音进行语言检测，得出第一语言。终端设备的主唤醒词模块接收了包含唤醒词的语音后进行唤醒，同时第一语言检测模块对包含唤醒词的语音进行检测并得出第一语言。比如：用户发出“您好，您好”的唤醒词给终端设备，终端设备的主唤醒词模块接收到唤醒词后进行唤醒，唤醒后第一语言检测模块对“您好，您好”所属的语言类型进行检测，比如检测出的“您好，您好”为四川话。在本发明实施例中，通过输入包含唤醒词的语音得出第一语言的具体方法，包括如下两种方式但不限于此两种方式。

第一种方式，N中语言分别对应各自的唤醒词，主唤醒词模块与第一语言检测模块对N中语言的混合音素集作为基本的建模单元，不同语言的主唤醒词对应不同的音素序列，主唤醒词唤醒第一语言检测模块通过解码输入语音，根据得到的音素序列判断是否包含唤醒词，以及是哪种语言对应的唤醒词。

第二种方式，N中语言分别对应各自的唤醒词，主唤醒词模块与第一语言检测模块使用端到端的神经网络模型，输入包括包含唤醒词的语音，输出是对应N中语言唤醒词和非唤醒词的对应概率值，匹配概率最大的输出，则确定了唤醒词与唤醒词对应的语言。

在本发明的一个可替换的实施例中，如图6所示，终端设备接收包含唤醒词的语音，将第一语言检测模块集成在主唤醒词模块上，第一语言检测模块对包含唤醒词的语音进行语言检测，得出第一语言。同时将语言检测模块中的第二语言检测模块集成在语音识别模块上，第二语言检测模块对输入的语音信息进行检测，得到第二语言，当第二语言与第一语言的匹配率小于设定阈值范围时，云端服务的语音系统切换为与第二语言对应的第三语音链路；以及本地服务的语音系统也同时进行切换。本实施例在上一个实施例中的基础上，将第二语言检测模块集成于语音识别模块上。语音识别模块可以理解为对用户输入的语音信息进行识别，包括将输入的语音信息转换为文本信息或者接受输入的语音信息执行指令等，在此不做限定。将第二语言检测模块集成于语音识别模块上，即对终端设备完成语言切换后的输入的语音信息进行检测。比如：终端设备的语音链路切换的语言为四川话，用户发出“请播放音乐”的语音信息时，第二语言检测模块对输入的“请播放音乐”的语音信息进行纠偏检测，检测输入的“请播放音乐”的语音信息为哪种语言并与第一语言进行比对。

当第二语言检测模块与第一语言检测模块检测得到的语言类型的匹配率小于设定阈值范围时，将云端服务与本地服务的语音系统切换为与第二语言对应的语音链路。第一检测模块在对唤醒词进行语言检测的时候可能存在误差，因为唤醒词比较短即可识别的信息较少，而第二语言检测模块接收的语音信息较长即可识别的信息较多，故当二者的检测结果存在较大差异时，以第二语言检测模块的检测结果为准。

在本发明的另一个可替换的实施例中，如图7所示，将语言检测模块中的第二语言检测模块集成在语音识别模块上，第二语言检测模块检测输入的语音信息，得出第一语言。在本实施例中，主唤醒词模块上将不会集成语言检测模块，即整个语音链路只有语音识别模块上集成有语音检测模块。在主唤醒词模块接收到包含唤醒词的语音后，终端设备的语音系统被唤醒。在用户输入语音信息后，第二语言检测模块对输入的语音信息进行检测得出第一语言。终端设备根据第一语言进行接下来的云端服务切换与本地服务的切换。

本申请实施例中语言检测模块可单独集成于主唤醒词模块上或单独集成于语音识别模块上，还可以既集成于主唤醒词模块上同时也集成于语音识别模块上，增加了终端设备对语言切换方法的灵活性。

在本发明的一个实施例中，在步骤S1中在本地服务的语音系统完成切换后，语音唤醒模块的快捷词模块对包含唤醒词的语音进行唤醒。语音唤醒模块包括主唤醒词模块与快捷词模块，在现有技术中，一般将主唤醒词模块与快捷词模块耦合在一起，当二者耦合在一起的时候只能通过一种算法方案进行实现，比如：上下文相关的声学模型(contextdependent phone,CD-phone)。在本实施例中，主唤醒词模块与快捷词模块是相互独立的，当第一语言检测模块集成在主唤醒词模块中时，主唤醒词模块不仅具有唤醒功能还具有语言检测功能，而快捷词模块只具有唤醒功能。当主唤醒词模块与快捷词模块相互独立时可选择各自适合的新的算法，使得各自实现的功能效果更优，提高语音唤醒模块的唤醒的准确率。

本发明还提供一种自动检测并切换语言的装置，如图8所示，包括唤醒与检测模块10、匹配模块40、判断模块30和切换模块20；其中，

唤醒与检测模块10被配置用于终端设备接收输入的语音信息，利用终端设备的语音唤醒模块120的主唤醒词模块121与终端设备的语言检测模块110分别对语音信息进行唤醒与检测；其中，语音信息包括语音的语言类型与语义信息；

匹配模块40被配置用于语言检测模块从N种语言中得到与语音信息相匹配的第一语言；其中，N为大于1的整数；

判断模块30被配置用于终端设备判断第一语言与其当前应用语言是否相同；

切换模块20被配置用于终端设备基于第一语言获取云端服务，并将云端服务的语音系统切换为与第一语言对应的第一语音链路；以及

终端设备的本地服务的语音系统切换为与第一语言相对应的第二语音链路；其中，第二语音链路至少包括语音识别模块、语音合成模块、语义理解模块、语义生成模块和语音唤醒模块。

在本发明的一个实施例中，语言检测模块110包括第一语言检测模块111；

第一语言检测模块111被配置用于集成在主唤醒词模块121上，第一语言检测模块111对终端设备接收的包含唤醒词的语音进行语言检测，得出第一语言。

在本发明的一个实施例中，语言检测模块110包括第二语言检测模块112；

第二语言检测模块112被配置用于集成在语音识别模块上，在云端服务与本地服务分别切换成第一语音链路与第二语音链路后，第二语言检测模块112检测用户输入的语音信息，得到第二语言。

在本发明的一个实施例中，第二语言检测模块112被配置集成于语音识别模块上，第二语言检测模块检测用户输入的语音信息，得出第一语言。

在本发明的一个实施例中，语音唤醒模块120还包括快捷词模块122；

快捷词模块122被配置用于在本地服务的语音系统完成切换后，语音唤醒模块的快捷词模块122对包含唤醒词的语音进行唤醒。

本发明实施例还提供一种终端设备，终端设备包括：处理器；存储器；以及程序，其中，程序被存储在存储器中，并且被配置成由处理器执行，以使得终端设备实现一种自动检测并切换语言的方法。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序：计算机程序被处理器执行实现一种自动检测并切换语言的方法。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种自动检测并切换语言的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述终端设备接收用户输入的语音信息，并利用所述终端设备的语音唤醒模块的主唤醒词模块与所述终端设备的语言检测模块分别对所述语音信息进行唤醒与检测，包括：

3.根据权利要求2所述的方法，其特征在于，将所述语言检测模块中的第二语言检测模块集成在所述语音识别模块上，在所述云端服务与本地服务分别切换成所述第一语音链路与第二语音链路后，所述第二语言检测模块检测用户输入的语音信息，得到第二语言；当所述第二语言与第一语言的匹配率小于设定阈值范围时，所述云端服务与本地服务的语音系统切换为所述第二语言对应的第三语音链路。

4.根据权利要求1所述的方法，其特征在于，所述终端设备接收用户输入的语音信息，并利用所述终端设备的语音唤醒模块的主唤醒词模块与所述终端设备的语言检测模块分别对所述语音信息进行唤醒与检测，包括：

5.根据权利要求1所述的方法，其特征在于，所述终端设备接收用户输入的语音信息，并利用所述终端设备的语音唤醒模块的主唤醒词模块与所述终端设备的语言检测模块分别对所述语音信息进行唤醒与检测，包括:

6.自动检测并切换语言的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述语言检测模块包括第一语言检测模块；

8.根据权利要求7所述的装置，其特征在于，所述语言检测模块包括第二语言检测模块；

9.根据权利要求6所述的装置，其特征在于，所述语言检测模块包括第二语言检测模块；

10.根据权利要求6所述的装置，其特征在于，所述语音唤醒模块还包括快捷词模块；

11.一种终端设备，其特征在于，所述终端设备包括：

处理器；

存储器；以及程序，其中，所述程序被存储在所述存储器中，并且被配置成由处理器执行，以使得所述终端设备实现根据权利要求1-5任一项所述的方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现根据权利要求1-5任一项所述的方法。