CN111724768A

CN111724768A - 用于离线语音识别的实时生成解码文件的系统和方法

Info

Publication number: CN111724768A
Application number: CN202010323145.0A
Authority: CN
Inventors: 丁伟; 谢世波; 高亚龙; 吴学伟; 宋继海
Original assignee: Shenzhen Wewins Wireless Co ltd
Current assignee: Shenzhen Wewins Wireless Co ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-09-29

Abstract

本发明公开了一种用于离线语音识别的实时生成解码文件的系统和方法，涉及语音识别中的生成解码文件领域；该系统包含命令词定义模块、命令词发音审核模块、串口命令定义模块、命令词门限定义模块、播报音配置模块五大模块和模型生成服务、用户管理服务两大服务；整体的实施方法步骤如下：首先命令词和发音的确定，接着是串口、门限、播报音的确定，最后是调用模型生成服务生成需要的解码镜像，下载镜像到板子并上电即可完成所有操作。本发明解决离线语音识别中从命令词定义到给客户语音版本耗时长、命令词无法调整、普通研发人员无法介入工作的问题。

Description

用于离线语音识别的实时生成解码文件的系统和方法

技术领域

本发明涉及语音识别中的生成解码文件领域，提供了一种用于离线语音识别的实时生成解码文件的系统和方法。

背景技术

目前对于控制类的离线语音识别，要得到完整的解码文件，需要进行多个步骤才能完成：1、专业人士采集上千人语料、对语料进行审核，去掉残缺语料；2、处理语料，把采集的语料转化为可训练的语料，经过多个小时训练生成解码模型，在识别率不满足要求时可能要迭代多次训练；3、根据模型特点设置词条的门限值，降低误识别的概率；4、待解码模型确定后，再人工生成播报音；5、最后根据解码模型、命令词、播报音来配置关联文件。

从上面可以看出，从客户提出命令词到最终生成解码文件，需要语音识别的专业人士多次操作，按照步骤一步步的才能完成，非专业人员无法完成该类工作，并且从命令词定义好到最后出版本至少需要两周以上的时间。

发明内容

本发明提供一种用于离线语音识别的实时生成解码文件的系统和方法，是解决离线语音识别中从命令词定义到给客户语音版本耗时长、命令词无法调整、普通研发人员无法介入工作的问题而提供的一种新型的训练系统和方法。

本发明解决其技术问题所采用的技术方案是：一种用于离线语音识别的实时生成解码文件的系统，包括：

1)命令词定义模块，该模块提供了唤醒词和命令词的定义以及词条检测功能；

2)命令词发音审核模块，该模块显示词条发音和修改词条发音；

3)串口命令定义模块，该模块定义命令词与系统之间的交互关系；

4)命令词门限定义模块，该模块定义命令词的门限值；

5)播报音配置模块，该模块设置识别出命令词后提示客户的播报音；

6)模型生成服务模块，该服务模块是根据上述五个模块提供的内容生成解码文件的服务模块；

7)用户管理服务模块，该服务模块包括用户的注册、审核、登录、删除相关的服务模块。

进一步地，所述词条检测功能包括词的相似度检测、词的发音检测，对于不满足条件的词给出警告提醒。

进一步地，所述命令词发音审核模块会根据系统定义的词条生成每个词的发音，发音内容会显示到界面上；还包括人工检查和审核，对发现不正确的发音进行修改。

进一步地，所述串口命令定义模块显示出定义的词条，在词条后面设有输入框，用于输入当出现该词条时发什么命令给系统；输入的命令系统会有检查功能，不可随意输入。

进一步地，对于所述命令词门限定义模块，每个识别出来的命令词都有一个可信度的值，当命令词可信度值大于等于设置的门限值时命令词有效，小于该门限值则被系统丢弃。

进一步地，所述播报音配置模块会让用户选择提示音的类型，每种类型有试听功能；所述播报音配置模块对上电后的播报音、唤醒词的播报音以及每个命令词的播报音都需要设置，设置的内容由用户手动输入，所述播报音配置模块在后台生成播放的语音文件。

进一步地，所述模型生成服务模块包括语音识别的解码模型生成、解码配置文件生成以及业务文件生成，并把所述一堆文件打包成镜像。

本发明还公开了一种用于离线语音识别的实时生成解码文件的方法，包括以下步骤：

a.用户使用自己的用户名、密码登录到系统；

b.输入唤醒词和命令词，并进行系统检测，对于系统提示的词进行修改和调整；

c.查看命令词的发音，检查每个词条的发音是否正确，对不正确的发音进行修改；

d.对上电、唤醒词和命令词配置发送命令；

e.设置唤醒词和每个命令词的门限值，系统会给出默认门限值，用户根据产品的使用场景和特点来调整门限值；

f.配置上电播报音、唤醒后的播报音和命令词播报音；

g.点击生成解码镜像，用户下载镜像后放到硬件板子上以实现定制化的语音识别。

本发明的有益效果是：

1)依托于在线平台，客户的初始版本只需要有我们提供的硬件系统后，客户登录系统很快就能完成从命令词定义到解码文件，这个阶段由原来的两周以上时间降低为几分钟，成倍的加快了项目的交互周期，提升了企业的竞争力。

2)客户在不同阶段会有不同的想法，命令词可能会调整，通过在线平台，客户可自行调整命令词，很大程度上增强了客户对产品使用方面自由方便的感受。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的模块说明图；

图2是本发明实施例的详细流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。另外，专利中涉及到的所有联接/连接关系，并非单指构件直接相接，而是指可根据具体实施情况，通过添加或减少联接辅件，来组成更优的联接结构。本发明创造中的各个技术特征，在不互相矛盾冲突的前提下可以交互组合。

本发明的具体实施的系统框图如附图1所示，一种用于离线语音识别的实时生成解码文件的系统，包括：

1)命令词定义模块101，该模块提供了唤醒词和命令词的定义以及词条检测功能，所述词条检测功能包括词的相似度检测、词的发音检测，对于不满足条件的词给出警告提醒；

2)命令词发音审核模块102，该模块显示词条发音和修改词条发音；所述命令词发音审核模块102会根据系统定义的词条生成每个词的发音，发音内容会显示到界面上；还包括人工检查和审核，对发现不正确的发音进行修改；

3)串口命令定义模块103，该模块定义命令词与系统之间的交互关系；所述串口命令定义模块103显示出定义的词条，在词条后面设有输入框，用于输入当出现该词条时发什么命令给系统；输入的命令系统会有检查功能，不可随意输入；

4)命令词门限定义模块104，该模块定义命令词的门限值；对于所述命令词门限定义模块104，每个识别出来的命令词都有一个可信度的值，当命令词可信度值大于等于设置的门限值时命令词有效，小于该门限值则被系统丢弃；

5)播报音配置模块105，该模块设置识别出命令词后提示客户的播报音；所述播报音配置模块105会让用户选择提示音的类型，每种类型有试听功能；所述播报音配置模块105对上电后的播报音、唤醒词的播报音以及每个命令词的播报音都需要设置，设置的内容由用户手动输入，所述播报音配置模块105在后台生成播放的语音文件；

6)模型生成服务模块106，该服务模块是根据上述五个模块提供的内容生成解码文件的服务模块；所述模型生成服务模块106包括语音识别的解码模型生成、解码配置文件生成以及业务文件生成，并把所述一堆文件打包成镜像；

7)用户管理服务模块107，该服务模块包括用户的注册、审核、登录、删除相关的服务模块。

该系统包含命令词定义模块、命令词发音审核模块、串口命令定义模块、命令词门限定义模块、播报音配置模块五大模块和模型生成服务、用户管理服务两大服务模块。从图2的流程图上可以看到整体的实施方法，首先命令词和发音的确定，接着是串口、门限、播报音的确定，最后是调用模型生成服务生成需要的解码镜像，下载镜像到板子并上电即可完成所有操作。详细步骤包括如下：

如附图2所示，本发明还公开了一种用于离线语音识别的实时生成解码文件的方法，包括以下步骤：

a.用户使用自己的用户名、密码登录到系统；

d.对上电、唤醒词和命令词配置发送命令；

f.配置上电播报音、唤醒后的播报音和命令词播报音；

本发明的有益效果是：

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种用于离线语音识别的实时生成解码文件的系统，其特征在于，包括：

命令词定义模块，该模块提供了唤醒词和命令词的定义以及词条检测功能；

命令词发音审核模块，该模块显示词条发音和修改词条发音；

串口命令定义模块，该模块定义命令词与系统之间的交互关系；

命令词门限定义模块，该模块定义命令词的门限值；

播报音配置模块，该模块设置识别出命令词后提示客户的播报音；

模型生成服务模块，该服务模块是根据上述五个模块提供的内容生成解码文件的服务模块；

用户管理服务模块，该服务模块具有用户的注册、审核、登录以及删除的服务功能。

2.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统，其特征在于：所述词条检测功能包括词的相似度检测以及词的发音检测。

3.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统，其特征在于：所述命令词发音审核模块会根据系统定义的词条生成每个词的发音，发音内容会显示到界面上。

4.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统，其特征在于：所述串口命令定义模块显示出定义的词条，在词条后面设有输入框，用于输入命令给系统；输入的命令系统会有检查功能，不可随意输入。

5.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统，其特征在于：对于所述命令词门限定义模块，每个识别出来的命令词都有一个可信度的值，当命令词的可信度值大于或等于设置的门限值时命令词有效，小于该门限值则被丢弃。

6.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统，其特征在于：所述播报音配置模块会让用户选择提示音的类型，所述播报音配置模块对上电后的播报音、唤醒词的播报音以及每个命令词的播报音都需要设置，设置的内容由用户手动输入，所述播报音配置模块在后台生成播放的语音文件。

7.根据权利要求1所述的一种用于离线语音识别的实时生成解码文件的系统，其特征在于：所述模型生成服务模块用以语音识别的解码模型生成、解码配置文件生成以及业务文件生成，并把所述一堆文件打包成镜像。

8.一种用于离线语音识别的实时生成解码文件的方法，其特征在于，包括以下步骤：

a.用户使用自己的用户名、密码登录到系统；

d.对上电、唤醒词和命令词配置发送命令；

f.配置上电播报音、唤醒后的播报音和命令词播报音；