CN111599350A

CN111599350A - 一种命令词定制识别方法及系统

Info

Publication number: CN111599350A
Application number: CN202010266075.XA
Authority: CN
Inventors: 许东星; 曹昊; 周雷
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2020-08-28
Anticipated expiration: 2040-04-07
Also published as: CN111599350B

Abstract

本发明提供了一种命令词定制识别方法及系统，其中，方法包括：步骤1：接收输入的项目需求，基于项目需求解析项目命令词表，生成项目数据采集任务；步骤2：通过在线任务平台发布训练数据采集任务；步骤3：基于测试数据采集任务，通过录音设备在预设场景中采集测试数据；步骤4：基于自动化模型训练平台，根据项目命令词表、训练数据和测试数据生成命令词语音识别模型；步骤5：将命令词语音识别模型加入版本管理工具中，通过Jenkins构建引擎。本发明的命令词定制识别方法，通过在线任务平台采集训练数据(语音)，进行数据模拟的方法，大大降低了数据采集的成本和周期，并且保障了命令词识别的性能。

Description

一种命令词定制识别方法及系统

技术领域

本发明涉及与语音识别技术领域，特别涉及一种命令词定制识别方法及系统。

背景技术

目前，离线命令词检测系统，通常是为了解决固定有限命令词的语音识别问题。命令词检测系统通用模型由于用户年龄、口音等问题，通常很难达到很好的性能。针对用户年龄、口音等问题，对于不同项目，需要采用模型定制方法。

而传统的模型定制不仅需要采集大量的真实场景的语音和标注，而且模型定制发布过程需要大量人工参与，进行参数调优，不仅导致项目周期长，并且消耗的人力成本、物力成本都大大增加。

发明内容

本发明提供一种命令词定制识别方法，通过在线任务平台采集训练数据(语音)，进行数据模拟的方法，大大降低了数据采集的成本和周期，并且保障了命令词识别的性能。

本发明实施例提供一种命令词定制识别方法，包括：

步骤1：接收输入的项目需求，基于项目需求解析项目命令词表，生成项目数据采集任务；项目数据采集任务包括训练数据采集任务和测试数据采集任务；

步骤2：通过在线任务平台发布训练数据采集任务，并通过在线任务平台接收基于训练数据采集任务上传的训练数据；

步骤3：基于测试数据采集任务，通过录音设备在预设场景中采集测试数据；

步骤4：基于自动化模型训练平台，根据项目命令词表、训练数据和测试数据生成命令词语音识别模型；

步骤5：将命令词语音识别模型加入版本管理工具中，通过Jenkins构建引擎。

优选的，根据项目命令词表、训练数据和测试数据生成命令词语音识别模型，具体包括：

根据预设的第一规则将训练数据配置为多个训练组；

将测试数据配置为测试组；

采用数据增强的方法对训练组进行数据模拟和扩充；

依次采用数据增强后的多个训练组的其中一个，通过调节参数配置对深度神经网络模型进行训练，获得多个初始模型；训练组与初始模型一一对应；

采用测试组对各个初始模型进行模型评估并生成评估报告，评估报告包括初始模型的参考识别率；

从多个初始模型模型中选择参考识别率最高的模型作为命令词语音识别模型；

输出命令词语音识别模型和发布评估报告。

优选的，数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。

优选的，预设场景包括：商场、电影院、停车场、学校和菜场中其中一种或多种结合。

优选的，训练数据包括无背景噪声的近讲安静语音。

本发明还提供一种命令词定制识别系统，包括：

任务生成模块，用于接收输入的项目需求，基于项目需求解析项目命令词表，生成项目数据采集任务；项目数据采集任务包括训练数据采集任务和测试数据采集任务；

训练数据采集模块，用于通过在线任务平台发布训练数据采集任务，并通过在线任务平台接收基于训练数据采集任务上传的训练数据；

测试数据采集模块，用于基于测试数据采集任务，通过录音设备在预设场景中采集测试数据；

模型生成模块，用于基于自动化模型训练平台，根据项目命令词表、训练数据和测试数据生成命令词语音识别模型；

引擎生成模块，用于将命令词语音识别模型加入版本管理工具中，通过Jenkins构建引擎。

优选的，模型生成模块具体操作包括：

根据预设的第一规则将训练数据配置为多个训练组；

将测试数据配置为测试组；

采用数据增强的方法对训练组进行数据模拟和扩充；

采用测试组依次对各个初始模型进行模型评估并生成评估报告，评估报告包括初始模型的参考识别率；

输出命令词语音识别模型和发布评估报告。

优选的，训练数据包括无背景噪声的近讲安静语音。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种命令词定制识别方法的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种命令词定制识别方法，如图1所示，包括：

上述技术方案的工作原理及有益效果为：

接收输入的项目需求，基于项目需求解析项目命令词表；项目需求可以是定制命令词，项目命令词表内存储有多个可以定制的命令词；解析项目命令词表生成项目数据采集任务；就是需要定制项目需求中的命令词需要采集多少训练数据，以及多少测试数据。训练数据是通过在线任务平台发布任务，由接收的任务录制训练数据需要的语音；测试数据是由专门的项目组采用录音设备再预设场景中采集。当数据采集完成后，采用训练数据训练模型，测试数据对模型进行测试收敛，从而得到命令词语音识别模型；模型需要能够使用还必须将命令词语音识别模型加入版本管理工具中，通过Jenkins构建引擎；至此完成了命令词定制识别。其中，命令词语音识别模型为深度学习的卷积神经网络模型，用于对语音进行识别，从而识别出语音中是否有命令词。版本管理工具是用于管理多个语音识别模型；引擎，以深度学习的卷积神经网络模型为核心构建的用于识别语音的应用程序，其包括语音录入、语音降噪等处理程序。

本发明的命令词定制识别方法，通过在线任务平台采集训练数据(语音)，进行数据模拟的方法，大大降低了数据采集的成本和周期，并且保障了命令词识别的性能。

另外，模型训练和发布过程中，用流程化工具化标准化的训练流程(自动化模型训练平台)，替代了人工参与，可大幅提升项目效率。

在一个实施例中，根据项目命令词表、训练数据和测试数据生成命令词语音识别模型，具体包括：

根据预设的第一规则将训练数据配置为多个训练组；

将测试数据配置为测试组；

采用数据增强的方法对训练组进行数据模拟和扩充；

输出命令词语音识别模型和发布评估报告；

其中，数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。

上述技术方案的工作原理及有益效果为：

预设的第一规则不是简单的将训练数据平均分配成多个组。用于训练模型的是数据增强后的训练组，其本质为干净语音，加上不同的数据增强方法，生成不同的增强后的训练数据，再组合成不同的组合。

实现了模型训练的自动化，替代了人工参与，可大幅提升项目效率。采用多组训练数据生成多个初始模型，从而在生成的多个初始模型中挑选识别率最高的模型，保证最后的引擎具有较高识别率。初始模型，本质上还是深度学习的卷积神经网络模型，只是经过训练数据训练后诞生的初始状态下的模型，其未经过测试数据进行测试验证。

在一个实施例中，预设场景包括：商场、电影院、停车场、学校和菜场中其中一种或多种结合。

预设场景为引擎具体应用的场景，商场、电影院、停车场、学校和菜场等都是有特定的干扰存在，故在这些场景中采集的数据进行测试对引擎的识别率具有显著的提高。

在一个实施例中，训练数据包括无背景噪声的近讲安静语音。

近讲安静语音是在预设距离内安静环境下的语音；训练数据必须是纯语音，即无干扰语音，所以近讲安静语音相对而言作为训练数据是最佳的。

本发明还提供一种命令词定制识别系统，包括：

上述技术方案的工作原理及有益效果为：

任务生成模块接收输入的项目需求，基于项目需求解析项目命令词表；项目需求可以是定制命令词，项目命令词表内存储有多个可以定制的命令词；解析项目命令词表生成项目数据采集任务；就是需要定制项目需求中的命令词需要采集多少训练数据，以及多少测试数据。训练数据是通过训练数据采集模块以在线任务平台发布任务，由接收的任务录制训练数据需要的语音；测试数据是由测试数据采集模块通过专门的项目组采用录音设备再预设场景中采集。当数据采集完成后，模型生成模块采用训练数据训练模型，测试数据对模型进行测试收敛，从而得到命令词语音识别模型；模型需要能够使用还必须采用引擎生成模块将命令词语音识别模型加入版本管理工具中，通过Jenkins构建引擎；至此完成了命令词定制识别。其中，Jenkins是一个开源软件项目，是基于Java开发的一种持续集成工具，用于监控持续重复的工作，旨在提供一个开放易用的软件平台，使软件的持续集成变成可能。

本发明的命令词定制识别系统，通过在线任务平台采集训练数据(语音)，进行数据模拟的方法，大大降低了数据采集的成本和周期，并且保障了命令词识别的性能。

在一个实施例中，模型生成模块具体操作包括：

根据预设的第一规则将训练数据配置为多个训练组；

将测试数据配置为测试组；

采用数据增强的方法对训练组进行数据模拟和扩充；

输出命令词语音识别模型和发布评估报告；

上述技术方案的工作原理及有益效果为：

实现了模型训练的自动化，替代了人工参与，可大幅提升项目效率。采用多组训练数据生成多个初始模型，从而在生成的多个初始模型中挑选识别率最高的模型，保证最后的引擎具有较高识别率。

训练数据必须是纯语音，即无干扰语音，所以近讲安静语音相对而言作为训练数据是最佳的。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种命令词定制识别方法，其特征在于，包括：

步骤1：接收输入的项目需求，基于所述项目需求解析项目命令词表，生成项目数据采集任务；所述项目数据采集任务包括训练数据采集任务和测试数据采集任务；

步骤2：通过在线任务平台发布所述训练数据采集任务，并通过在线任务平台接收基于所述训练数据采集任务上传的训练数据；

步骤3：基于所述测试数据采集任务，通过录音设备在预设场景中采集测试数据；

步骤4：基于自动化模型训练平台，根据所述项目命令词表、所述训练数据和所述测试数据生成命令词语音识别模型；

步骤5：将所述命令词语音识别模型加入版本管理工具中，通过Jenkins构建引擎。

2.如权利要求1所述的命令词定制识别方法，其特征在于，基于自动化模型训练平台，根据所述项目命令词表、所述训练数据和所述测试数据生成命令词语音识别模型，具体包括：

根据预设的第一规则将所述训练数据配置为多个训练组；

将所述测试数据配置为测试组；

采用数据增强的方法对所述训练组进行数据模拟和扩充；

依次采用数据增强后的所述多个训练组的其中一个，通过调节参数配置对深度神经网络模型进行训练，获得多个初始模型；所述训练组与所述初始模型一一对应；

采用所述测试组依次对各个所述初始模型进行模型评估并生成评估报告，所述评估报告包括所述初始模型的参考识别率；

从多个所述初始模型模型中选择参考识别率最高的模型作为所述命令词语音识别模型；

输出所述命令词语音识别模型和发布所述评估报告。

3.如权利要求2所述的命令词定制识别方法，其特征在于，所述数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。

4.如权利要求1所述的命令词定制识别方法，其特征在于，所述预设场景包括：商场、电影院、停车场、学校和菜场中其中一种或多种结合。

5.如权利要求1所述的命令词定制识别方法，其特征在于，所述训练数据包括无背景噪声的近讲安静语音。

6.一种命令词定制识别系统，其特征在于，包括：

任务生成模块，用于接收输入的项目需求，基于所述项目需求解析项目命令词表，生成项目数据采集任务；所述项目数据采集任务包括训练数据采集任务和测试数据采集任务；

训练数据采集模块，用于通过在线任务平台发布所述训练数据采集任务，并通过在线任务平台接收基于所述训练数据采集任务上传的训练数据；

测试数据采集模块，用于基于所述测试数据采集任务，通过录音设备在预设场景中采集测试数据；

模型生成模块，用于基于自动化模型训练平台，根据所述项目命令词表、所述训练数据和所述测试数据生成命令词语音识别模型；

引擎生成模块，用于将所述命令词语音识别模型加入版本管理工具中，通过Jenkins构建引擎。

7.如权利要求6所述的命令词定制识别系统，其特征在于，所述模型生成模块具体操作包括：

根据预设的第一规则将所述训练数据配置为多个训练组；

将所述测试数据配置为测试组；

采用数据增强的方法对所述训练组进行数据模拟和扩充；

输出所述命令词语音识别模型和发布所述评估报告。

8.如权利要求7所述的命令词定制识别系统，其特征在于，所述数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。

9.如权利要求6所述的命令词定制识别系统，其特征在于，所述预设场景包括：商场、电影院、停车场、学校和菜场中其中一种或多种结合。

10.如权利要求6所述的命令词定制识别系统，其特征在于，所述训练数据包括无背景噪声的近讲安静语音。