CN111986658A

CN111986658A - 离线终端进行语音识别训练的方法及装置

Info

Publication number: CN111986658A
Application number: CN201910436198.0A
Authority: CN
Inventors: 陶永耀
Original assignee: Actions Technology Co Ltd
Current assignee: Actions Technology Co Ltd
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2020-11-24

Abstract

本发明实施例提供一种离线终端进行语音识别训练的方法，包括如下步骤：建立所述离线终端与智能设备的无线连接；所述离线终端进行语料采集，将采集到的所述语料通过所述无线连接传输到所述智能设备；所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。本发明实施例还相应提供一种用于离线终端进行语音识别训练的装置。本发明可以使得离线产品通过智能设备联网后进行终端客户的语音训练。

Description

离线终端进行语音识别训练的方法及装置

技术领域

本申请涉及音频技术领域，具体涉及一种离线终端进行语音识别训练的方法及装置。

背景技术

随着语音人机交互界面的出现，越来越多的产品需要智能语音的交互。目前在线的智能语音产品较多，但是在线语音产品有着反应有延时，保密性，系统成本高等问题。市场上也存在一些离线语音产品，需要在产品设计时候就进行大量的语音采集进行训练来达到语音识别的覆盖率。但即使是这样，仍然有不能覆盖全部人的声音，而且存在方言的人群的训练问题也无法得以解决，这样就导致离线产品在语音识别上难以识别很多语音。

发明内容

有鉴于此，本发明实施例的主要目的在于提供一种离线终端进行语音识别训练的方法，可以使得离线产品通过其他设备联网后进行终端客户的语音训练。

本发明实施例是这样实现的，一种离线终端进行语音识别训练的方法包括如下步骤：建立所述离线终端与智能设备的无线连接；所述离线终端进行语料采集，将采集到的所述语料通过所述无线连接传输到所述智能设备；所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。

进一步地，

在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练；或者，

在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号强度大于预设阈值的声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练。

进一步地，所述无线连接包括蓝牙连接或蓝牙低功耗连接。

进一步地，所述离线终端进行语料采集包括：

所述智能设备或所述离线终端发出语音引导，引导用户说出语料命令词；

重复上述步骤，对相同命令词语料至少采集2次。

进一步地，所述根据所述语料进行训练生成的语音模型库文件包括：

在所述智能设备本地进行语料训练生成的语音模型库文件；或

所述智能设备将所述语料通过网络上传到云端服务器进行语料训练生成的语音模型库文件。

进一步地，所述方法进一步包括：

将所述语音模型库文件保存在所述智能设备或云端数据库中；

判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度；当所述匹配度高于预设值时，将匹配度最高的语音模型库文件发送给所述离线终端。

根据本发明实施例的另一方面，本发明实施例还提供一种用于离线终端进行语音识别训练的装置，可以使得离线产品通过设备联网后进行终端客户的语音训练。

本发明实施例是这样实现的，一种用于离线终端进行语音识别训练的装置，包括离线终端和智能设备；所述离线终端进一步包括语音采集装置和第一通信装置；所述第一通信装置与所述智能设备通过无线连接；所述语音采集装置用于语料采集，并通过所述第一通信装置将所述语料传输到所述智能设备；

所述智能设备包括第二通信装置，所述第二通信装置用于接收所述语料，还用于将语音训练装置根据所述语料进行训练生成的语音模型库文件传输给所述第一通讯装置。

进一步地，所述语音训练装置属于所述智能设备或云端服务器；

当所述语音训练装置属于所述云端服务器时，所述智能设备还包括网络装置，用于发送所述语料给云端服务器和接收所述云端服务器发送的所述语音模型库文件。

进一步地，所述离线终端还包括提醒装置，用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练；或者，

所述离线终端还包括提醒装置，用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号强度大于预设阈值的声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练；或者，

所述用于离线终端进行语音识别训练装置还包括：匹配装置，用于判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度；当所述匹配度高于预设值时，通过所述第二通信装置将匹配度最高的语音模型库文件发送给所述离线终端。

进一步地，所述第一通信装置为蓝牙连接装置或蓝牙低功耗连接装置。

根据上述技术方案，本发明实施例具有如下效果：这种方式既解决了使用时候的离线的需求，也针对于使用者进行针对性的训练，解决了部分人员使用统一语音训练库识别率低的情况。利用手机等智能设备的处理能力，以及云端服务器的训练能力，把设备上离线的语音识别控制装置升级，实现了在线训练和升级，离线使用的场景。这样更好的适配使用者的场景和环境。同时解决了出厂训练工作量大，和方言难于训练的问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了本申请提供的离线终端进行语音识别训练的方法流程图；

图2示出了本申请提供的用于离线终端进行语音识别训练的装置的电路框图；

图3示出了本申请提供的用于离线终端进行语音识别训练的装置的另一实施例的电路框图

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请，以下实施例中的步骤顺序仅为例举，在不冲突的情况下可以调整。

如图1所示，本发明实施例提供的一种离线终端进行语音识别训练的方法包括如下步骤：

S101，建立所述离线终端与智能设备的无线连接；

S102，所述离线终端进行语料采集，将采集到的所述语料通过所述无线连接传输到所述智能设备；

S103，所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。

具体来说，离线终端具有两个使用场景，一种是正常使用的场景，另一种是进入语音训练模式的场景。离线终端一般指不具有网络功能的终端产品，例如蓝牙音箱、普通空调、冰箱、蓝牙灯等产品，这类产品的特点是不具有高性能处理器，但是一般具有基本的短距离无线连接功能，例如蓝牙连接功能或蓝牙低功耗BLE连接功能，下面的实施例以BLE为例说明，这些具有语音功能的离线终端在进入语音训练模式时，首先建立起与外部智能设备的无线连接，一般来说，智能设备一般选用具有较强运算和处理能力并且具备网络功能的设备，例如我们常用的智能手机、平板电脑、智能机顶盒等设备，下面实施例以手机为例进行介绍。例如通过BLE先建立离线终端和手机蓝牙连接的数据通路，第二步，离线终端进行语料采集，将采集到的语料通过蓝牙连接传输到手机；第三步，手机进入训练阶段，调用本地的训练算法库，根据刚才采集的命令词的语料，在手机本地进行语料训练，生成针对这个用户的语音模型库文件，并将生成的语音模型库文件发回给离线终端。本领域技术人可以理解，上述步骤的顺序在不冲突的情况下是不限定的，例如可以先采集语料，再进行无线连接。

本发明实施例还提供另外一实施例，离线终端在进入语音训练模式时，首先通过BLE先建立离线终端和手机蓝牙BLE连接的数据通路；第二步，离线终端进行语料采集，将采集到的语料通过蓝牙BLE连接传输到手机，手机进而将所述语料通过网络上传到云端服务器；第三步，云端服务器进入训练阶段，调用云端更为丰富的训练算法库，根据采集的命令词的语料，进行训练，在云端生成针对这个用户的语音模型库文件，并将生成的语音模型库文件发回给手机，手机进而通过BLE将生成的语音模型库文件发送给离线终端。

需要说明的是，本实施例中获得的语音模型库文件可以保存在离线终端中，最终用于所述离线终端的语音识别，通过该语音模型库文件离线终端可以对采集到的命令词进行识别，从而根据识别结果对离线终端进行命令操控，实现语音控制。

本发明实施例还提供另外一实施例，在进行语料采集时，智能设备或离线终端发出语音引导，引导用户说出语料命令词；重复上述步骤，对相同命令词语料至少采集2次。具体来说，离线终端在进入语音训练模式时，当与手机进行连接后，手机apk或离线终端通过语音引导的方式，指引用户“在听到滴的一声后重复命令词”。用户说出命令词的时候，语音采集装置将采集到的语音命令语料编码成适宜BLE传输的音频文件格式，例如opus格式，然后通过BLE传回手机，编码后会可以使得语料数据更小，特别是对于一些带宽不够的设备，传输更为快捷，当然，语料采集后进行简单的模数转换后不进一步压缩编码就传输给手机也是可以的。如此采集相同命令词的采集进行至少两次，采集的次数越多就可以使得命令词识别成功的概率更高。再进行其他的命令词的语料采集，直到采集完全部命令词的语料。

在客户训练语音的同时，手机apk可以将采集到的语料保存在云端数据库或手机本地，用大量的用户数据，提升这个产品的语音的模型库的精准程度和适配性。随着用户使用的增多，可以持续优化训练模型。同时可采集具有某种方言的语料，来训练方言的识别库，可以让用户在手机apk定期选择更新不断改进的方言语音识别库。这样可以更好的提升产品的体验，和不同人的语音的适配性。

本发明实施例还提供另外一实施例，在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练；或者，在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号强度大于预设阈值的声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练。例如，用户启动蓝牙音箱后，采集到一段语音，但是蓝牙音箱无法识别，那么蓝牙音箱即可启动提醒程序，提醒用户是否要启动语音识别训练。又例如，距离上一次采集到声音信号T1时间后才采集到新的声音信号，且该新的声音信号无法识别时，很有可能是新用户在使用，因此做出提醒，可以方便新用户使用，其中，上述时间T1可以根据需要进行预设，也可以用户自定义。优选地，为了进一步提升用户体验，可以对所述声音信号的信号强度(例如分贝值)进行筛选，当高于预设阈值时认为对离线终端说话的可能性高，而低于预设阈值可能是其他话音或者背景音，所述预设阈值可根据上述目的设置。

本发明实施例还提供另外一实施例，将所述语音模型库文件保存在所述智能设备或云端数据库中；判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度；当所述匹配度高于预设值时，将匹配度最高的语音模型库文件发送给所述离线终端。

该实施方式可以将每次生成的语音模型库文件保存在手机或云端服务器上，当离线终端进入一次新的语料识别过程中时，判断所述离线终端采集到新的语料与所述智能终端或所述云端数据库中存储的语音模型库文件匹配度；当所述匹配度高于预设值时，将匹配度最高的语音模型库文件发送给所述离线终端。这样就可以避免重复训练，也可以使得在在新的语料获取时，快速的使用已经生成的语音模型库文件。当所述匹配度低于预设值(该预设值可以根据用户实际需求进行设置)时，即进入生成语音模型库文件的流程当中。该实施方式对于在云端服务器生成语音模型库文件的方案，还可以节省网络传输成本。

根据本发明实施例的另一方面，本发明实施例还提供一种用于离线终端进行语音识别训练的装置，包括离线终端和智能设备；所述离线终端进一步包括语音采集装置和第一通信装置；

所述第一通信装置与所述智能设备通过无线连接；所述语音采集装置用于语料采集，并通过所述第一通信装置将所述语料传输到所述智能设备；所述智能设备包括第二通信装置，所述第二通信装置用于接收所述语料，还用于将语音训练装置根据所述语料进行训练生成的语音模型库文件传输给所述第一通讯装置。

本发明实施例还提供另外一实施例，所述语音训练装置属于所述智能设备或云端服务器；

当所述语音训练装置属于所述智能设备时，如图2所示，为本发明实施例用于离线终端进行语音识别训练的装置的一种电路结构图，包括离线终端和智能设备；所述离线终端包括语音采集装置和第一通信装置；所述智能设备包括语音训练装置和第二通信装置；语音采集装置与第一通信装置相连；所述第一通信装置与所述智能设备通过无线连接；所述语音采集装置用于语料采集，并通过所述第一通信装置将所述语料传输到所述智能设备的第二通讯装置；所述语音训练装置用于根据所述语料进行训练生成语音模型库文件，并通过所述第二通信装置将所述语音模型库文件发送给所述离线终端的第一通信装置。进一步地，所述离线终端还包括语音识别装置和控制装置，语音识别装置用于根据第一通信装置接收的语音模型库文件对采集的语音进行语音识别，该控制装置根据语音识别装置识别到的语音命令，对离线终端进行控制。通过前述实施例的介绍，上述第一通信装置或第二通信装置为蓝牙连接装置或蓝牙低功耗连接装置。

当所述语音训练装置属于所述云端服务器时，如图3所示，所述云端服务器通过网络与所述智能设备的网络装置连接，所述云端服务器对智能设备发送来的语料进行语料训练，并生成语音模型库文件。云端服务器收到采集的语料后进入训练阶段，可以调用云端更为丰富的训练算法库，根据采集的命令词的语料进行训练，在云端生成针对这个用户的语音模型库文件，并将生成的语音模型库文件发回给手机，手机进而通过BLE将生成的语音模型库文件发送给离线终端。

本发明实施例还提供另一实施例，所述离线终端还包括提醒装置(如图2或图3)，用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练；或者，所述离线终端还包括提醒装置，用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号强度大于预设阈值的声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练；或者，

例如，用户启动蓝牙音箱后，采集到一段语音，但是蓝牙音箱无法识别，那么蓝牙音箱即可启动提醒程序，提醒用户是否要启动语音识别训练。

所述匹配装置，可以在采集到新的语料时先从现有的语音模型库文件中进行匹配，如果有合适的则不用再生成新的模型库文件，如果没有符合要求的则生成新的语音模型库文件，如果能够在智能设备上找到匹配的模型库文件，对于需要在云端生成模型库文件的情况还可以节省网络成本。

本发明实施例还提供另一实施例，在上述实施例的基础上，离线终端还包括编码装置，编码装置连接在语音采集装置和第一通信装置之间，语音采集装置将采集到的语音命令语料通过编码装置编码成ble传输的音频文件格式，例如opus格式，然后通过BLE传回手机，编码后会可以使得语料数据更小，传输更为快捷。

需要说明的是，本发明中的所有实施例中的所述离线终端与智能设备的无线连接都可以是蓝牙连接，特别是BLE低功耗蓝牙连接。本发明通过蓝牙实现离线终端的语音识别训练，能满足用户的离线使用，又方便不同用户使用离线终端时的快速语音训练，还节省了离线终端产品的软硬件成本，从而既能节约成本又能满足用户需求。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种离线终端进行语音识别训练的方法，其特征在于，包括如下步骤：

建立所述离线终端与智能设备的无线连接；

所述离线终端进行语料采集，将采集到的所述语料通过所述无线连接传输到所述智能设备；

所述离线终端接收所述智能设备发送的根据所述语料进行训练生成的语音模型库文件。

2.根据权利要求1所述的离线终端进行语音识别训练的方法，其特征在于，

3.根据权利要求1或2所述的离线终端进行语音识别训练的方法，其特征在于，所述无线连接包括蓝牙连接或蓝牙低功耗连接。

4.根据权利要求1或2所述的离线终端进行语音识别训练的方法，其特征在于，

所述离线终端进行语料采集包括：

重复上述步骤，对相同命令词语料至少采集2次。

5.根据权利要求1或2所述的离线终端进行语音识别训练的方法，其特征在于，所述根据所述语料进行训练生成的语音模型库文件包括：

6.根据权利要求1所述的离线终端进行语音识别训练的方法，其特征在于，所述方法进一步包括：

7.一种用于离线终端进行语音识别训练的装置，其特征在于，包括离线终端和智能设备；所述离线终端进一步包括语音采集装置和第一通信装置；

8.根据权利要求7所述的用于离线终端进行语音识别训练的装置，其特征在于，

所述语音训练装置属于所述智能设备或云端服务器；

9.根据权利要求7或8所述的用于离线终端进行语音识别训练装置，其特征在于，

所述离线终端还包括提醒装置，用于在用户启动所述离线终端和/或距所述离线终端上一次采集到声音信号T1时长后，当所述离线终端采集到声音信号，且所述声音信号无法被所述离线终端识别，则所述离线终端语音提示用户启动语音识别训练；或者，

10.根据权利要求7或8所述的用于离线终端进行语音识别训练装置，其特征在于，所述第一通信装置为蓝牙连接装置或蓝牙低功耗连接装置。