CN111599350A - 一种命令词定制识别方法及系统 - Google Patents
一种命令词定制识别方法及系统 Download PDFInfo
- Publication number
- CN111599350A CN111599350A CN202010266075.XA CN202010266075A CN111599350A CN 111599350 A CN111599350 A CN 111599350A CN 202010266075 A CN202010266075 A CN 202010266075A CN 111599350 A CN111599350 A CN 111599350A
- Authority
- CN
- China
- Prior art keywords
- command word
- training
- model
- project
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 130
- 238000012360 testing method Methods 0.000 claims abstract description 63
- 238000004088 simulation Methods 0.000 claims abstract description 10
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims description 22
- 235000013311 vegetables Nutrition 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种命令词定制识别方法及系统,其中,方法包括:步骤1:接收输入的项目需求,基于项目需求解析项目命令词表,生成项目数据采集任务;步骤2:通过在线任务平台发布训练数据采集任务;步骤3:基于测试数据采集任务,通过录音设备在预设场景中采集测试数据;步骤4:基于自动化模型训练平台,根据项目命令词表、训练数据和测试数据生成命令词语音识别模型;步骤5:将命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎。本发明的命令词定制识别方法,通过在线任务平台采集训练数据(语音),进行数据模拟的方法,大大降低了数据采集的成本和周期,并且保障了命令词识别的性能。
Description
技术领域
本发明涉及与语音识别技术领域,特别涉及一种命令词定制识别方法及系统。
背景技术
目前,离线命令词检测系统,通常是为了解决固定有限命令词的语音识别问题。命令词检测系统通用模型由于用户年龄、口音等问题,通常很难达到很好的性能。针对用户年龄、口音等问题,对于不同项目,需要采用模型定制方法。
而传统的模型定制不仅需要采集大量的真实场景的语音和标注,而且模型定制发布过程需要大量人工参与,进行参数调优,不仅导致项目周期长,并且消耗的人力成本、物力成本都大大增加。
发明内容
本发明提供一种命令词定制识别方法,通过在线任务平台采集训练数据(语音),进行数据模拟的方法,大大降低了数据采集的成本和周期,并且保障了命令词识别的性能。
本发明实施例提供一种命令词定制识别方法,包括:
步骤1:接收输入的项目需求,基于项目需求解析项目命令词表,生成项目数据采集任务;项目数据采集任务包括训练数据采集任务和测试数据采集任务;
步骤2:通过在线任务平台发布训练数据采集任务,并通过在线任务平台接收基于训练数据采集任务上传的训练数据;
步骤3:基于测试数据采集任务,通过录音设备在预设场景中采集测试数据;
步骤4:基于自动化模型训练平台,根据项目命令词表、训练数据和测试数据生成命令词语音识别模型;
步骤5:将命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎。
优选的,根据项目命令词表、训练数据和测试数据生成命令词语音识别模型,具体包括:
根据预设的第一规则将训练数据配置为多个训练组;
将测试数据配置为测试组;
采用数据增强的方法对训练组进行数据模拟和扩充;
依次采用数据增强后的多个训练组的其中一个,通过调节参数配置对深度神经网络模型进行训练,获得多个初始模型;训练组与初始模型一一对应;
采用测试组对各个初始模型进行模型评估并生成评估报告,评估报告包括初始模型的参考识别率;
从多个初始模型模型中选择参考识别率最高的模型作为命令词语音识别模型;
输出命令词语音识别模型和发布评估报告。
优选的,数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。
优选的,预设场景包括:商场、电影院、停车场、学校和菜场中其中一种或多种结合。
优选的,训练数据包括无背景噪声的近讲安静语音。
本发明还提供一种命令词定制识别系统,包括:
任务生成模块,用于接收输入的项目需求,基于项目需求解析项目命令词表,生成项目数据采集任务;项目数据采集任务包括训练数据采集任务和测试数据采集任务;
训练数据采集模块,用于通过在线任务平台发布训练数据采集任务,并通过在线任务平台接收基于训练数据采集任务上传的训练数据;
测试数据采集模块,用于基于测试数据采集任务,通过录音设备在预设场景中采集测试数据;
模型生成模块,用于基于自动化模型训练平台,根据项目命令词表、训练数据和测试数据生成命令词语音识别模型;
引擎生成模块,用于将命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎。
优选的,模型生成模块具体操作包括:
根据预设的第一规则将训练数据配置为多个训练组;
将测试数据配置为测试组;
采用数据增强的方法对训练组进行数据模拟和扩充;
依次采用数据增强后的多个训练组的其中一个,通过调节参数配置对深度神经网络模型进行训练,获得多个初始模型;训练组与初始模型一一对应;
采用测试组依次对各个初始模型进行模型评估并生成评估报告,评估报告包括初始模型的参考识别率;
从多个初始模型模型中选择参考识别率最高的模型作为命令词语音识别模型;
输出命令词语音识别模型和发布评估报告。
优选的,数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。
优选的,预设场景包括:商场、电影院、停车场、学校和菜场中其中一种或多种结合。
优选的,训练数据包括无背景噪声的近讲安静语音。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种命令词定制识别方法的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种命令词定制识别方法,如图1所示,包括:
步骤1:接收输入的项目需求,基于项目需求解析项目命令词表,生成项目数据采集任务;项目数据采集任务包括训练数据采集任务和测试数据采集任务;
步骤2:通过在线任务平台发布训练数据采集任务,并通过在线任务平台接收基于训练数据采集任务上传的训练数据;
步骤3:基于测试数据采集任务,通过录音设备在预设场景中采集测试数据;
步骤4:基于自动化模型训练平台,根据项目命令词表、训练数据和测试数据生成命令词语音识别模型;
步骤5:将命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎。
上述技术方案的工作原理及有益效果为:
接收输入的项目需求,基于项目需求解析项目命令词表;项目需求可以是定制命令词,项目命令词表内存储有多个可以定制的命令词;解析项目命令词表生成项目数据采集任务;就是需要定制项目需求中的命令词需要采集多少训练数据,以及多少测试数据。训练数据是通过在线任务平台发布任务,由接收的任务录制训练数据需要的语音;测试数据是由专门的项目组采用录音设备再预设场景中采集。当数据采集完成后,采用训练数据训练模型,测试数据对模型进行测试收敛,从而得到命令词语音识别模型;模型需要能够使用还必须将命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎;至此完成了命令词定制识别。其中,命令词语音识别模型为深度学习的卷积神经网络模型,用于对语音进行识别,从而识别出语音中是否有命令词。版本管理工具是用于管理多个语音识别模型;引擎,以深度学习的卷积神经网络模型为核心构建的用于识别语音的应用程序,其包括语音录入、语音降噪等处理程序。
本发明的命令词定制识别方法,通过在线任务平台采集训练数据(语音),进行数据模拟的方法,大大降低了数据采集的成本和周期,并且保障了命令词识别的性能。
另外,模型训练和发布过程中,用流程化工具化标准化的训练流程(自动化模型训练平台),替代了人工参与,可大幅提升项目效率。
在一个实施例中,根据项目命令词表、训练数据和测试数据生成命令词语音识别模型,具体包括:
根据预设的第一规则将训练数据配置为多个训练组;
将测试数据配置为测试组;
采用数据增强的方法对训练组进行数据模拟和扩充;
依次采用数据增强后的多个训练组的其中一个,通过调节参数配置对深度神经网络模型进行训练,获得多个初始模型;训练组与初始模型一一对应;
采用测试组对各个初始模型进行模型评估并生成评估报告,评估报告包括初始模型的参考识别率;
从多个初始模型模型中选择参考识别率最高的模型作为命令词语音识别模型;
输出命令词语音识别模型和发布评估报告;
其中,数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。
上述技术方案的工作原理及有益效果为:
预设的第一规则不是简单的将训练数据平均分配成多个组。用于训练模型的是数据增强后的训练组,其本质为干净语音,加上不同的数据增强方法,生成不同的增强后的训练数据,再组合成不同的组合。
实现了模型训练的自动化,替代了人工参与,可大幅提升项目效率。采用多组训练数据生成多个初始模型,从而在生成的多个初始模型中挑选识别率最高的模型,保证最后的引擎具有较高识别率。初始模型,本质上还是深度学习的卷积神经网络模型,只是经过训练数据训练后诞生的初始状态下的模型,其未经过测试数据进行测试验证。
在一个实施例中,预设场景包括:商场、电影院、停车场、学校和菜场中其中一种或多种结合。
预设场景为引擎具体应用的场景,商场、电影院、停车场、学校和菜场等都是有特定的干扰存在,故在这些场景中采集的数据进行测试对引擎的识别率具有显著的提高。
在一个实施例中,训练数据包括无背景噪声的近讲安静语音。
近讲安静语音是在预设距离内安静环境下的语音;训练数据必须是纯语音,即无干扰语音,所以近讲安静语音相对而言作为训练数据是最佳的。
本发明还提供一种命令词定制识别系统,包括:
任务生成模块,用于接收输入的项目需求,基于项目需求解析项目命令词表,生成项目数据采集任务;项目数据采集任务包括训练数据采集任务和测试数据采集任务;
训练数据采集模块,用于通过在线任务平台发布训练数据采集任务,并通过在线任务平台接收基于训练数据采集任务上传的训练数据;
测试数据采集模块,用于基于测试数据采集任务,通过录音设备在预设场景中采集测试数据;
模型生成模块,用于基于自动化模型训练平台,根据项目命令词表、训练数据和测试数据生成命令词语音识别模型;
引擎生成模块,用于将命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎。
上述技术方案的工作原理及有益效果为:
任务生成模块接收输入的项目需求,基于项目需求解析项目命令词表;项目需求可以是定制命令词,项目命令词表内存储有多个可以定制的命令词;解析项目命令词表生成项目数据采集任务;就是需要定制项目需求中的命令词需要采集多少训练数据,以及多少测试数据。训练数据是通过训练数据采集模块以在线任务平台发布任务,由接收的任务录制训练数据需要的语音;测试数据是由测试数据采集模块通过专门的项目组采用录音设备再预设场景中采集。当数据采集完成后,模型生成模块采用训练数据训练模型,测试数据对模型进行测试收敛,从而得到命令词语音识别模型;模型需要能够使用还必须采用引擎生成模块将命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎;至此完成了命令词定制识别。其中,Jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作,旨在提供一个开放易用的软件平台,使软件的持续集成变成可能。
本发明的命令词定制识别系统,通过在线任务平台采集训练数据(语音),进行数据模拟的方法,大大降低了数据采集的成本和周期,并且保障了命令词识别的性能。
另外,模型训练和发布过程中,用流程化工具化标准化的训练流程(自动化模型训练平台),替代了人工参与,可大幅提升项目效率。
在一个实施例中,模型生成模块具体操作包括:
根据预设的第一规则将训练数据配置为多个训练组;
将测试数据配置为测试组;
采用数据增强的方法对训练组进行数据模拟和扩充;
依次采用数据增强后的多个训练组的其中一个,通过调节参数配置对深度神经网络模型进行训练,获得多个初始模型;训练组与初始模型一一对应;
采用测试组对各个初始模型进行模型评估并生成评估报告,评估报告包括初始模型的参考识别率;
从多个初始模型模型中选择参考识别率最高的模型作为命令词语音识别模型;
输出命令词语音识别模型和发布评估报告;
其中,数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。
上述技术方案的工作原理及有益效果为:
预设的第一规则不是简单的将训练数据平均分配成多个组。用于训练模型的是数据增强后的训练组,其本质为干净语音,加上不同的数据增强方法,生成不同的增强后的训练数据,再组合成不同的组合。
实现了模型训练的自动化,替代了人工参与,可大幅提升项目效率。采用多组训练数据生成多个初始模型,从而在生成的多个初始模型中挑选识别率最高的模型,保证最后的引擎具有较高识别率。
在一个实施例中,预设场景包括:商场、电影院、停车场、学校和菜场中其中一种或多种结合。
预设场景为引擎具体应用的场景,商场、电影院、停车场、学校和菜场等都是有特定的干扰存在,故在这些场景中采集的数据进行测试对引擎的识别率具有显著的提高。
在一个实施例中,训练数据包括无背景噪声的近讲安静语音。
训练数据必须是纯语音,即无干扰语音,所以近讲安静语音相对而言作为训练数据是最佳的。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种命令词定制识别方法,其特征在于,包括:
步骤1:接收输入的项目需求,基于所述项目需求解析项目命令词表,生成项目数据采集任务;所述项目数据采集任务包括训练数据采集任务和测试数据采集任务;
步骤2:通过在线任务平台发布所述训练数据采集任务,并通过在线任务平台接收基于所述训练数据采集任务上传的训练数据;
步骤3:基于所述测试数据采集任务,通过录音设备在预设场景中采集测试数据;
步骤4:基于自动化模型训练平台,根据所述项目命令词表、所述训练数据和所述测试数据生成命令词语音识别模型;
步骤5:将所述命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎。
2.如权利要求1所述的命令词定制识别方法,其特征在于,基于自动化模型训练平台,根据所述项目命令词表、所述训练数据和所述测试数据生成命令词语音识别模型,具体包括:
根据预设的第一规则将所述训练数据配置为多个训练组;
将所述测试数据配置为测试组;
采用数据增强的方法对所述训练组进行数据模拟和扩充;
依次采用数据增强后的所述多个训练组的其中一个,通过调节参数配置对深度神经网络模型进行训练,获得多个初始模型;所述训练组与所述初始模型一一对应;
采用所述测试组依次对各个所述初始模型进行模型评估并生成评估报告,所述评估报告包括所述初始模型的参考识别率;
从多个所述初始模型模型中选择参考识别率最高的模型作为所述命令词语音识别模型;
输出所述命令词语音识别模型和发布所述评估报告。
3.如权利要求2所述的命令词定制识别方法,其特征在于,所述数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。
4.如权利要求1所述的命令词定制识别方法,其特征在于,所述预设场景包括:商场、电影院、停车场、学校和菜场中其中一种或多种结合。
5.如权利要求1所述的命令词定制识别方法,其特征在于,所述训练数据包括无背景噪声的近讲安静语音。
6.一种命令词定制识别系统,其特征在于,包括:
任务生成模块,用于接收输入的项目需求,基于所述项目需求解析项目命令词表,生成项目数据采集任务;所述项目数据采集任务包括训练数据采集任务和测试数据采集任务;
训练数据采集模块,用于通过在线任务平台发布所述训练数据采集任务,并通过在线任务平台接收基于所述训练数据采集任务上传的训练数据;
测试数据采集模块,用于基于所述测试数据采集任务,通过录音设备在预设场景中采集测试数据;
模型生成模块,用于基于自动化模型训练平台,根据所述项目命令词表、所述训练数据和所述测试数据生成命令词语音识别模型;
引擎生成模块,用于将所述命令词语音识别模型加入版本管理工具中,通过Jenkins构建引擎。
7.如权利要求6所述的命令词定制识别系统,其特征在于,所述模型生成模块具体操作包括:
根据预设的第一规则将所述训练数据配置为多个训练组;
将所述测试数据配置为测试组;
采用数据增强的方法对所述训练组进行数据模拟和扩充;
依次采用数据增强后的所述多个训练组的其中一个,通过调节参数配置对深度神经网络模型进行训练,获得多个初始模型;所述训练组与所述初始模型一一对应;
采用所述测试组依次对各个所述初始模型进行模型评估并生成评估报告,所述评估报告包括所述初始模型的参考识别率;
从多个所述初始模型模型中选择参考识别率最高的模型作为所述命令词语音识别模型;
输出所述命令词语音识别模型和发布所述评估报告。
8.如权利要求7所述的命令词定制识别系统,其特征在于,所述数据增强的方法包括载入噪声、增加混响、提高或降低语速中一种或多种结合。
9.如权利要求6所述的命令词定制识别系统,其特征在于,所述预设场景包括:商场、电影院、停车场、学校和菜场中其中一种或多种结合。
10.如权利要求6所述的命令词定制识别系统,其特征在于,所述训练数据包括无背景噪声的近讲安静语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266075.XA CN111599350B (zh) | 2020-04-07 | 2020-04-07 | 一种命令词定制识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010266075.XA CN111599350B (zh) | 2020-04-07 | 2020-04-07 | 一种命令词定制识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111599350A true CN111599350A (zh) | 2020-08-28 |
CN111599350B CN111599350B (zh) | 2023-02-28 |
Family
ID=72187411
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010266075.XA Active CN111599350B (zh) | 2020-04-07 | 2020-04-07 | 一种命令词定制识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111599350B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140120988A1 (en) * | 2012-10-30 | 2014-05-01 | Motorola Mobility Llc | Electronic Device with Enhanced Notifications |
CN104064184A (zh) * | 2014-06-24 | 2014-09-24 | 科大讯飞股份有限公司 | 异构解码网络的构建方法及系统、语音识别方法及系统 |
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及系统 |
CN106328124A (zh) * | 2016-08-24 | 2017-01-11 | 安徽咪鼠科技有限公司 | 一种基于用户行为特征的语音识别方法 |
CN106611599A (zh) * | 2015-10-21 | 2017-05-03 | 展讯通信(上海)有限公司 | 基于人工神经网络的语音识别方法、装置及电子设备 |
CN107123417A (zh) * | 2017-05-16 | 2017-09-01 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及系统 |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
CN108932943A (zh) * | 2018-07-12 | 2018-12-04 | 广州视源电子科技股份有限公司 | 命令词语音检测方法、装置、设备和存储介质 |
CN109144518A (zh) * | 2018-08-21 | 2019-01-04 | 郑州云海信息技术有限公司 | 一种基于jenkins的镜像文件构建方法及装置 |
CN109408033A (zh) * | 2017-09-04 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种基于jenkins的镜像文件构建方法及装置 |
CN109814879A (zh) * | 2019-01-16 | 2019-05-28 | 福建省天奕网络科技有限公司 | 自动化ci/cd项目部署方法、存储介质 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
US20190362709A1 (en) * | 2018-05-25 | 2019-11-28 | Motorola Mobility Llc | Offline Voice Enrollment |
CN110797019A (zh) * | 2014-05-30 | 2020-02-14 | 苹果公司 | 多命令单一话语输入方法 |
CN110808036A (zh) * | 2019-11-07 | 2020-02-18 | 南京大学 | 一种增量式语音命令词识别方法 |
CN110832578A (zh) * | 2017-07-24 | 2020-02-21 | 美的集团股份有限公司 | 可定制唤醒语音命令 |
CA3067776A1 (en) * | 2018-09-28 | 2020-03-28 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
-
2020
- 2020-04-07 CN CN202010266075.XA patent/CN111599350B/zh active Active
Patent Citations (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140120988A1 (en) * | 2012-10-30 | 2014-05-01 | Motorola Mobility Llc | Electronic Device with Enhanced Notifications |
CN110797019A (zh) * | 2014-05-30 | 2020-02-14 | 苹果公司 | 多命令单一话语输入方法 |
CN104064184A (zh) * | 2014-06-24 | 2014-09-24 | 科大讯飞股份有限公司 | 异构解码网络的构建方法及系统、语音识别方法及系统 |
CN106611599A (zh) * | 2015-10-21 | 2017-05-03 | 展讯通信(上海)有限公司 | 基于人工神经网络的语音识别方法、装置及电子设备 |
CN106098059A (zh) * | 2016-06-23 | 2016-11-09 | 上海交通大学 | 可定制语音唤醒方法及系统 |
CN106328124A (zh) * | 2016-08-24 | 2017-01-11 | 安徽咪鼠科技有限公司 | 一种基于用户行为特征的语音识别方法 |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
US20180336886A1 (en) * | 2017-05-16 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for waking up via speech based on artificial intelligence and computer device |
CN107221326A (zh) * | 2017-05-16 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音唤醒方法、装置和计算机设备 |
CN107123417A (zh) * | 2017-05-16 | 2017-09-01 | 上海交通大学 | 基于鉴别性训练的定制语音唤醒优化方法及系统 |
CN110832578A (zh) * | 2017-07-24 | 2020-02-21 | 美的集团股份有限公司 | 可定制唤醒语音命令 |
CN107369439A (zh) * | 2017-07-31 | 2017-11-21 | 北京捷通华声科技股份有限公司 | 一种语音唤醒方法和装置 |
CN109408033A (zh) * | 2017-09-04 | 2019-03-01 | 郑州云海信息技术有限公司 | 一种基于jenkins的镜像文件构建方法及装置 |
CN107871506A (zh) * | 2017-11-15 | 2018-04-03 | 北京云知声信息技术有限公司 | 语音识别功能的唤醒方法及装置 |
US20190362709A1 (en) * | 2018-05-25 | 2019-11-28 | Motorola Mobility Llc | Offline Voice Enrollment |
CN108932943A (zh) * | 2018-07-12 | 2018-12-04 | 广州视源电子科技股份有限公司 | 命令词语音检测方法、装置、设备和存储介质 |
CN109144518A (zh) * | 2018-08-21 | 2019-01-04 | 郑州云海信息技术有限公司 | 一种基于jenkins的镜像文件构建方法及装置 |
CA3067776A1 (en) * | 2018-09-28 | 2020-03-28 | Sonos, Inc. | Systems and methods for selective wake word detection using neural network models |
CN109814879A (zh) * | 2019-01-16 | 2019-05-28 | 福建省天奕网络科技有限公司 | 自动化ci/cd项目部署方法、存储介质 |
CN110265040A (zh) * | 2019-06-20 | 2019-09-20 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN110808036A (zh) * | 2019-11-07 | 2020-02-18 | 南京大学 | 一种增量式语音命令词识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111599350B (zh) | 2023-02-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6851412B2 (ja) | 設備保守の管理および実行 | |
US10861480B2 (en) | Method and device for generating far-field speech data, computer device and computer readable storage medium | |
CN108511000B (zh) | 一种测试智能音箱唤醒词识别率的方法及系统 | |
CN103745731A (zh) | 一种语音识别效果自动化测试系统及测试方法 | |
JP2019535044A (ja) | ハイブリッド音声認識複合性能自動評価システム | |
CN111369976A (zh) | 测试语音识别设备的方法及测试装置 | |
CN113129927B (zh) | 语音情绪识别方法、装置、设备及存储介质 | |
CN109671430B (zh) | 一种语音处理方法及装置 | |
CN111179908A (zh) | 智能语音设备的测试方法及系统 | |
CN111724769A (zh) | 一种智能家居语音识别模型的生产方法 | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和系统及存储介质 | |
CN110556098B (zh) | 语音识别结果测试方法、装置、计算机设备和介质 | |
Abdullah et al. | Paralinguistic speech processing: An overview | |
CN111599350B (zh) | 一种命令词定制识别方法及系统 | |
Yang | Application of intelligent voice technology and sensor network in production and operation management vr intelligent teaching system | |
CN111341343A (zh) | 一种用于异常声音检测的在线更新系统和方法 | |
CN116261091A (zh) | 一种可定制测试流程的蓝牙测试系统及方法 | |
CN116244202A (zh) | 自动化性能测试方法和装置 | |
CN110900623A (zh) | 一种自助面试机器人 | |
CN113595811B (zh) | 设备性能测试方法、装置、存储介质及电子装置 | |
CN110600006B (zh) | 一种语音识别的评测方法及系统 | |
CN117877517B (zh) | 基于对抗神经网络的环境音生成方法、装置、设备及介质 | |
López et al. | Voice control in smart homes using distant microphones: a voiceXML-based approach | |
KR20240051392A (ko) | 립리딩 기술을 이용한 음성 인식 향상 시스템 및 방법 | |
CN108831446B (zh) | 用于生成样本的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |