CN110033765A

CN110033765A - 一种语音识别的方法及终端

Info

Publication number: CN110033765A
Application number: CN201910290371.0A
Authority: CN
Inventors: 龙岳
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-19

Abstract

本发明提供一种语音识别的方法及终端，属于语音识别技术领域，其可至少部分解决现有的语音识别的方法对于方言识别时造成中心服务器需要处理的数据量大、成本高的问题。本发明的一种语音识别的方法，基于语音识别的终端，方法包括：确定当前方言；获取用户的语音信息，在预设的方言深度学习框架下，根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，预设的通用识别模型用于识别语音信息；将方言信息模型发送至中心服务器，以供中心服务器训练得到对应当前方言的方言识别模型，方言识别模型用于识别当前方言。

Description

一种语音识别的方法及终端

技术领域

本发明属于语音识别技术领域，具体涉及一种语音识别的方法及终端。

背景技术

随着用户需求的不断增长，方言语音识别的运用在电子设备中日益重要。现有的方言语音识别的方法主要是通过用户终端将用户的方言语音信息以及地理位置多次地发送至中心服务器，再由中心服务器根据多个用户的方言语音信息以及地理位置不断训练以及解析，最终形成方言语音识别模块。

但是我国的方言种类繁多，如果将各个地区的方言语音信息都多次地发送至中心服务器进行训练和解析，会导致方言语音信息的数据在中心服务器过于集中，使得中心服务器需要处理的数据量大，从而使得中心服务器从硬件和软件的投入成本大。

发明内容

本发明至少部分解决现有的语音识别的方法对于方言识别时造成中心服务器需要处理的数据量大、成本高的问题，提供一种减少中心服务器处理的数据量及成本的语音识别的方法。

解决本发明技术问题所采用的技术方案是一种语音识别的方法，基于语音识别的终端，所述方法包括：

确定当前方言；

获取用户的语音信息，在预设的方言深度学习框架下，根据所述语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，所述预设的通用识别模型用于识别所述语音信息；

将所述方言信息模型发送至中心服务器，以供所述中心服务器训练得到对应当前方言的方言识别模型，所述方言识别模型用于识别当前方言。

进一步优选的是，所述获取用户的语音信息，在预设的方言深度学习框架下，根据所述语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型包括：接收所述用户的语音输入；用所述预设的通用识别模型识别所述语音输入的候选意图；将所述语音输入的候选意图提供给所述用户；接收所述用户对所述语音输入的候选意图的反馈信息，以得到调整参数；在所述预设的方言深度学习框架下，根据所述调整参数训练得到对应当前方言的方言信息模型。

进一步优选的是，在得到对应当前方言的方言信息模型步骤后，还包括：判断所述方言信息模型是否训练完成；若是，则进行所述将所述方言信息模型发送至中心服务器的步骤；若否，则返回所述接受所述接收所述用户的语音输入的步骤。

进一步优选的是，所述获取用户的语音信息，在预设的方言深度学习框架下，根据所述语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型之前还包括：接收来自所述中心服务器的所述预设的通用识别模型以及所述预设的方言深度学习框架。

进一步优选的是，所述确定当前方言包括：获取当前地理位置，根据所述当前地理位置确定当前方言。

解决本发明技术问题所采用的技术方案是一种语音识别的终端，包括：

第一获取模块，用于确定当前方言；

模型建立模块，用于获取用户的语音信息，在预设的方言深度学习框架下，根据所述语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，所述预设的通用识别模型用于识别所述语音信息；

发送模块，用于将所述方言信息模型发送至中心服务器，以供所述中心服务器训练得到对应当前方言的方言识别模型，所述方言识别模型用于识别当前方言。

进一步优选的是，模型建立模块包括：接收子模块，用于接收所述用户的语音输入，以及接收所述用户对所述语音输入的候选意图的反馈信息，以得到调整参数；输出子模块，用于将所述语音输入的候选意图提供给所述用户；模型建立子模块，用于在所述预设的方言深度学习框架下，根据所述调整参数训练得到对应当前方言的方言信息模型。

进一步优选的是，该语音识别的终端还包括：判断模块，用于判断所述方言信息模型是否训练完成。

进一步优选的是，该语音识别的终端还包括：第二获取模块，用于接收来自所述中心服务器的所述预设的通用识别模型以及所述预设的方言深度学习框架。

进一步优选的是，所述第一获取模块包括：第一获取子模块，用于获取当前地理位置，根据所述当前地理位置确定当前方言。

本发明的语音识别的方法中，在预设的方言深度学习框架下，终端根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，以供以供中心服务器训练得到方言识别模型。与现有技术语音识别的方法(方言信息模型是在中心服务器形成的)相比，本发明的语音识别的方法能够减少中心服务器中方言信息量，从而减少中心服务器需要处理的数据，进而使得中心服务器从硬件和软件的投入成本降低。

附图说明

图1为本发明的实施例的一种语音识别的方法的流程示意图；

图2为本发明的实施例的一种语音识别的方法的流程示意图；

图3为本发明的实施例的一种语音识别的终端的组成示意框图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

实施例1：

如图1所示，本实施例提供一种语音识别的方法，基于语音识别的终端，方法包括：

S11、确定当前方言。

其中，也就是说确定当前所处位置的方言的类型，例如若终端处于广东省范围内，方言的类型是广东话，若终端处于浙江省范围内，方言的类型是浙江话等。

S12、获取用户的语音信息，在预设的方言深度学习框架下，根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，预设的通用识别模型用于识别语音信息。

其中，也就是说预设的通用识别模型可以识别语音信息(例如普通话等)，但是预设的通用识别模型对具体的方言语音信息的识别不是很准确，因此需要根据用户的语音信息以及预设的通用识别模型训练得到对应当前方言的方言信息模型。优选的，用户的语音信息与终端所处的地理位置的方言是对应的。

S13、将方言信息模型发送至中心服务器，以供中心服务器训练得到对应当前方言的方言识别模型，方言识别模型用于识别当前方言。

其中，也就是说方言信息模型包含关于当前方言语音的信息。

当中心服务器接收到当前方言的方言识别模型，则会对该方言识别模型进行训练以形成专门识别该当前方言的方言识别模型。

需要说明的是，中心服务器可以接受来自多个终端的多个方言信息模型，该多个方言信息模型可以是不同种方言的方言识别模型。中心服务器可以将这些方言信息模型提供的信息进行筛选、分类等，最终形成完善的多种方言识别模型(每种方言识别模型对应一种不同的方言)，并将各个方言识别模型发送至与其对应的终端。

本发明的语音识别的方法中，在预设的方言深度学习框架下，终端根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，以供以供中心服务器训练得到方言识别模型。与现有技术语音识别的方法(方言信息模型是在中心服务器形成的)相比，本发明的语音识别的方法能够减少中心服务器中的方言信息量，从而减少中心服务器需要处理的数据，进而使得中心服务器从硬件和软件的投入成本降低。此外，由于终端属于轻量级的训练设备，且该终端在形成方言信息模型的过程中与中心服务器不链接，因此，在终端在形成方言信息模型的过程中响应速度快，从而可以提高效率，节省用户时间。同时在终端在形成方言信息模型的过程中，充分利用了该终端IT资源(如中央处理器CPU等)，避免资源的浪费。

实施例2：

如图2所示，本实施例提供一种语音识别的方法，基于语音识别的终端，该方法包括：

S21、接收来自中心服务器的预设的通用识别模型以及预设的方言深度学习框架。

例如，终端可以从中心服务器下载相关的软件，该软件中包括预设的通用识别模型和预设的方言深度学习框架。具体的，预设的通用识别模型可以识别语音信息(例如普通话等)，但是预设的通用识别模型对与具体的方言语音信息的识别不是很准确

S22、确定当前方言。

其中，，也就是说确定当前所处位置的方言的类型，例如若终端处于广东省范围内，方言的类型是广东话，若终端处于浙江省范围内，方言的类型是浙江话等。

优选的，确定当前方言包括：获取当前地理位置，根据当前地理位置确定当前方言。

其中，也就是说终端通过获取其所在的地理位置，判断当钱地理位置的方言类型。

S23、获取用户的语音信息，在预设的方言深度学习框架下，根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型。

其中，也就是说由于预设的通用识别模型对具体的方言语音信息的识别不是很准确，因此需要根据语音信息以及预设的通用识别模型训练得到对应当前方言的方言信息模型。优选的，用户的语音信息与终端所处的地理位置的方言是对应的。

优选的，获取用户的语音信息，在预设的方言深度学习框架下，根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型包括：

S231、接收用户的语音输入。

其中，也就是说接收用户的任意一句方言语音。

S232、用预设的通用识别模型识别语音输入的候选意图。

其中，也就是说终端中的预设的通用识别模型识别用户输入的方言语音。

S233、将语音输入的候选意图提供给用户。

其中，也就是说预设的通用识别模型识别上一步的方言语音后，会输出候选意图。候选意图可以是对方言语音的语意的理解、对该方言语音的应答，或者其他的形式。

S234、接收用户对语音输入的候选意图的反馈信息，以得到调整参数。

例如，终端显示出对方言语音的语意的理解或者对该方言语音的应答，用户对该理解或者应答进行满意或者不满意的选择，最终得到调整参数。

S235、在预设的方言深度学习框架下，根据调整参数训练得到对应当前方言的方言信息模型。

进一步的，在得到对应当前方言的方言信息模型步骤后，还包括：

S236、判断方言信息模型是否训练完成；

若是，则进行将方言信息模型发送至中心服务器的步骤；若否，则返回接受所述接收所述用户的语音输入的步骤。

其中，也就是说若方言信息模型训练完成，则可以将该方言信息模型发送至中心服务器，以使训练得到对应当前方言的方言识别模型；若方言信息模型训练没有完成，则继续对该方言信息模型进行训练，直到其训练完成。

S24、将方言信息模型发送至中心服务器，以供中心服务器训练得到对应当前方言的方言识别模型，方言识别模型用于识别当前方言。

其中，也就是说方言信息模型包含关于当前方言语音的信息。当中心服务器接收到当前方言的方言识别模型，则会对该方言识别模型进行训练以形成专门识别该当前方言的方言识别模型。

实施例3：

如图3所示，本实施例提供一种语音识别的终端，包括：

第一获取模块，用于确定当前方言；

模型建立模块，用于获取用户的语音信息，在预设的方言深度学习框架下，根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，预设的通用识别模型用于识别语音信息。

发送模块，用于将方言信息模型发送至中心服务器，以供中心服务器训练得到对应当前方言的方言识别模型，方言识别模型用于识别当前方言。

优选的，模型建立模块包括：

接收子模块，用于接收用户的语音输入，以及接收所述用户对语音输入的候选意图的反馈信息，以得到调整参数；

输出子模块，用于将语音输入的候选意图提供给用户；

模型建立子模块，用于在预设的方言深度学习框架下，根据调整参数训练得到对应当前方言的方言信息模型。

优选的，该语音识别的终端还包括：

判断模块，用于判断方言信息模型是否训练完成。

优选的，该语音识别的终端还包括：

第二获取模块，用于接收来自所述中心服务器的预设的通用识别模型以及预设的方言深度学习框架。

优选的，第一获取模块包括：第一获取子模块，用于获取当前地理位置，根据当前地理位置确定当前方言。

本发明的语音识别的终端，在预设的方言深度学习框架下，根据语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型，以供以供中心服务器训练得到方言识别模型。与现有技术语音识别的系统(方言信息模型是在中心服务器形成的)相比，本发明的语音识别的方法能够减少中心服务器中的方言信息量，从而减少中心服务器需要处理的数据，进而使得中心服务器从硬件和软件的投入成本降低。此外，由于终端属于轻量级的训练设备，且该终端在形成方言信息模型的过程中与中心服务器不链接，因此，在终端在形成方言信息模型的过程中响应速度快，从而可以提高效率，节省用户时间。同时在终端在形成方言信息模型的过程中，充分利用了该终端IT资源(如中央处理器CPU等)，避免资源的浪费。

应当说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。显然，根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种语音识别的方法，基于语音识别的终端，其特征在于，所述方法包括：

确定当前方言；

2.根据权利要求1所述的语音识别的方法，其特征在于，所述获取用户的语音信息，在预设的方言深度学习框架下，根据所述语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型包括：

接收所述用户的第一语音输入；

用所述预设的通用识别模型识别所述语音输入的候选意图；

将所述语音输入的候选意图提供给所述用户；

接收所述用户对所述语音输入的候选意图的反馈信息，以得到调整参数；

在所述预设的方言深度学习框架下，根据所述调整参数训练得到对应当前方言的方言信息模型。

3.根据权利要求2所述的语音识别的方法，其特征在于，在得到对应当前方言的方言信息模型步骤后，还包括：

判断所述方言信息模型是否训练完成；

若是，则进行所述将所述方言信息模型发送至中心服务器的步骤；若否，则返回所述接受所述接收所述用户的语音输入的步骤。

4.根据权利要求1所述的语音识别的方法，其特征在于，所述获取用户的语音信息，在预设的方言深度学习框架下，根据所述语音信息以及预设的通用识别模型，训练得到对应当前方言的方言信息模型之前还包括：

接收来自所述中心服务器的所述预设的通用识别模型以及所述预设的方言深度学习框架。

5.根据权利要求1所述的语音识别的方法，其特征在于，所述确定当前方言包括：

获取当前地理位置，根据所述当前地理位置确定当前方言。

6.一种语音识别的终端，其特征在于，包括：

第一获取模块，用于确定当前方言；

7.根据权利要求6所述的语音识别的终端，其特征在于，模型建立模块包括：

接收子模块，用于接收所述用户的语音输入，以及接收所述用户对所述语音输入的候选意图的反馈信息，以得到调整参数；

输出子模块，用于将所述语音输入的候选意图提供给所述用户；

模型建立子模块，用于在所述预设的方言深度学习框架下，根据所述调整参数训练得到对应当前方言的方言信息模型。

8.根据权利要求6所述的语音识别的终端，其特征在于，还包括：

判断模块，用于判断所述方言信息模型是否训练完成。

9.根据权利要求6所述的语音识别的终端，其特征在于，还包括：

第二获取模块，用于接收来自所述中心服务器的所述预设的通用识别模型以及所述预设的方言深度学习框架。

10.根据权利要求6所述的语音识别的终端，其特征在于，所述第一获取模块包括：

第一获取子模块，用于获取当前地理位置，根据所述当前地理位置确定当前方言。