CN112908312B - 一种提高唤醒性能的方法和设备 - Google Patents

一种提高唤醒性能的方法和设备 Download PDF

Info

Publication number
CN112908312B
CN112908312B CN202110132066.6A CN202110132066A CN112908312B CN 112908312 B CN112908312 B CN 112908312B CN 202110132066 A CN202110132066 A CN 202110132066A CN 112908312 B CN112908312 B CN 112908312B
Authority
CN
China
Prior art keywords
age
model
customized
wake
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110132066.6A
Other languages
English (en)
Other versions
CN112908312A (zh
Inventor
许东星
曹昊
周雷
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202110132066.6A priority Critical patent/CN112908312B/zh
Publication of CN112908312A publication Critical patent/CN112908312A/zh
Application granted granted Critical
Publication of CN112908312B publication Critical patent/CN112908312B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明涉及一种提高唤醒性能的方法和设备,该方法包括:获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;获取不同年龄段的用户的唤醒语音数据;针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。通过对不同年龄段的人群定制不同的神经网络模型,可以有针对性地提高不同年龄段的模型区分能力,提高不同年龄段人群唤醒性能;另外组合成的全年龄段定制模型,且本方案可以复用大部分神经网络计算,对计算资源消耗增加有限。

Description

一种提高唤醒性能的方法和设备
技术领域
本发明涉及语音识别技术领域,具体涉及一种提高唤醒性能的方法和设备。
背景技术
在语音交互系统中,唤醒是很重要的交互入口。唤醒需要实时处理语音,不仅需要唤醒率高,误唤醒率低,同时对内存和功耗等系统资源也要求苛刻。目前的唤醒系统,通常采用神经网络作为声学模型,将声学模型的输出输入唤醒系统,得到唤醒输出及唤醒输出的置信度。最终根据预先设定好的阈值,得到唤醒结果。
但是由于资源限制,唤醒采用的神经网络参数通常都较小,采用统一的神经网络模型,对不同年龄段人群的声学输出区分度不足,导致最终唤醒性能不佳。
发明内容
本发明提供一种提高唤醒性能的方法和设备,能够解决现有技术中唤醒性能不佳的技术问题。
本发明解决上述技术问题的技术方案如下:
本发明实施例提出了一种提高唤醒性能的方法,包括:
获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;
获取不同年龄段的用户的唤醒语音数据;
针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;
组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。
在一个具体的实施例中,所述年龄段包括:儿童年龄段、中青年人年龄段、老年人年龄段;
所述唤醒语音数据覆盖所述用户的全年龄段。
在一个具体的实施例中,所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。
在一个具体的实施例中,所述神经网络包括共享层与迁移层;
不同年龄段的所述用户的定制模型的共享层相同,且迁移层参数不同。
在一个具体的实施例中,所述全年龄段定制模型通过声学分进行唤醒操作;
所述声学分由每个年龄段的所述定制模型中的所述迁移层的输出分数进行加权得到。
本发明实施例还提出了一种提高唤醒性能的设备,包括:
第一获取模块,用于获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;
第二获取模块,用于获取不同年龄段的用户的唤醒语音数据;
定制模块,用于针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;
组合模块,用于组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。
在一个具体的实施例中,所述年龄段包括:儿童年龄段、中青年人年龄段、老年人年龄段;
所述唤醒语音数据覆盖所述用户的全年龄段。
在一个具体的实施例中,所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。
在一个具体的实施例中,所述神经网络包括共享层与迁移层;
不同年龄段的所述用户的定制模型的共享层相同,且迁移层参数不同。
在一个具体的实施例中,所述全年龄段定制模型通过声学分进行唤醒操作;
所述声学分由每个年龄段的所述定制模型中的所述迁移层的输出分数进行加权得到。
本发明的有益效果是:
通过对不同年龄段的人群定制不同的神经网络模型,可以有针对性地提高不同年龄段的模型区分能力,提高不同年龄段人群唤醒性能;另外组合成的全年龄段定制模型,且本方案可以复用大部分神经网络计算,对计算资源消耗增加有限。
附图说明
图1为本发明实施例提供的一种提高唤醒性能的方法的流程示意图;
图2为本发明实施例提供的一种具体的提高唤醒性能的方法的流程示意图;
图3为本发明实施例提供的一种提高唤醒性能的方法中的通用基准模型训练示意图;
图4为本发明实施例提供的一种提高唤醒性能的方法中单个年龄段定制模型训练流程图;
图5为本发明实施例提供的一种提高唤醒性能的方法中将不同年龄段的定制模型组合成全年龄段定制模型的示意图;
图6为本发明实施例提供的一种提高唤醒性能的设备的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1
本发明实施例提供的一种提高唤醒性能的方法,如图1或2所示,包括以下步骤:
步骤101、获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;具体的,如图3所示,利用大量带标注的语音,训练一个神经网络,作为通用基准模型。
步骤102、获取不同年龄段的用户的唤醒语音数据;具体的,所述年龄段包括:儿童年龄段、中青年人年龄段、老年人年龄段;所述唤醒语音数据覆盖所述用户的全年龄段。
具体的,通过发起唤醒语音采集任务,将目标客户群体按照年龄分为不同的年龄段,分别为儿童、中青年人、老年人。语音采集需要覆盖不同的年龄段,例如儿童为0-18岁,中青年人为18-55岁,老年人为大于55岁的年龄段。
步骤103、针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;
具体的,所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。
进一步的,所述神经网络包括共享层与迁移层;
不同年龄段的所述用户的定制模型的共享层相同,且迁移层参数不同。
具体的,如图4所示,分别为每个年龄段的用户定制一个模型,这里,每个年龄段的定制模型由通用基准模型通过迁移学习得到。每个年龄段的定制模型与通用基准模型结构相同,差别主要表现在迁移层参数不同。
步骤104、组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。
具体的,如图5所示,将不同年龄段的定制模型组合成全年龄段定制模型。4利用全年龄段定制模型进行唤醒检测。唤醒引擎利用全年龄段定制模型,声学分由每个年龄段迁移层输出分数加权得到。
所述全年龄段定制模型通过声学分进行唤醒操作;
所述声学分由每个年龄段的所述定制模型中的所述迁移层的输出分数进行加权得到。
本方案通过对不同年龄段的人群定制不同的神经网络模型,可以有针对性地提高不同年龄段的模型区分能力,提高不同年龄段人群唤醒性能;另外组合成的全年龄段定制模型,可以复用大部分神经网络计算(共享层计算占整个NN计算的90%以上),对计算资源消耗增加有限
实施例2
本发明实施例2还公开了一种提高唤醒性能的设备,如图6所示,包括:
第一获取模块201,用于获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;
第二获取模块202,用于获取不同年龄段的用户的唤醒语音数据;
定制模块203,用于针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;
组合模块204,用于组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。
在一个具体的实施例中,所述年龄段包括:儿童年龄段、中青年人年龄段、老年人年龄段;
所述唤醒语音数据覆盖所述用户的全年龄段。
在一个具体的实施例中,所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。
在一个具体的实施例中,所述神经网络包括共享层与迁移层;
不同年龄段的所述用户的定制模型的共享层相同,且迁移层参数不同。
在一个具体的实施例中,所述全年龄段定制模型通过声学分进行唤醒操作;
所述声学分由每个年龄段的所述定制模型中的所述迁移层的输出分数进行加权得到。
本发明涉及一种提高唤醒性能的方法和设备,该方法包括:获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;获取不同年龄段的用户的唤醒语音数据;针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。通过对不同年龄段的人群定制不同的神经网络模型,可以有针对性地提高不同年龄段的模型区分能力,提高不同年龄段人群唤醒性能;另外组合成的全年龄段定制模型,且本方案可以复用大部分神经网络计算,对计算资源消耗增加有限。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种提高唤醒性能的方法,其特征在于,包括:
获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;
获取不同年龄段的用户的唤醒语音数据;
针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;
组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。
2.根据权利要求1所述的方法,其特征在于,所述年龄段包括:儿童年龄段、中青年人年龄段、老年人年龄段;
所述唤醒语音数据覆盖所述用户的全年龄段。
3.根据权利要求1所述的方法,其特征在于,所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。
4.根据权利要求1所述的方法,其特征在于,所述神经网络包括共享层与迁移层;
不同年龄段的所述用户的定制模型的共享层相同,且迁移层参数不同。
5.根据权利要求4所述的方法,其特征在于,所述全年龄段定制模型通过声学分进行唤醒操作;
所述声学分由每个年龄段的所述定制模型中的所述迁移层的输出分数进行加权得到。
6.一种提高唤醒性能的设备,其特征在于,包括:
第一获取模块,用于获取通用基准模型,其中,所述通用基准模型是通过带标注的语音训练神经网络得到的;
第二获取模块,用于获取不同年龄段的用户的唤醒语音数据;
定制模块,用于针对每个年龄段的所述用户,通过所述通用基准模型与所述用户的唤醒语音数据生成定制模型;
组合模块,用于组合每个年龄段的所述用户的定制模型生成全年龄段定制模型,以通过所述全年龄段定制模型进行唤醒操作。
7.根据权利要求6所述的设备,其特征在于,所述年龄段包括:儿童年龄段、中青年人年龄段、老年人年龄段;
所述唤醒语音数据覆盖所述用户的全年龄段。
8.根据权利要求6所述的设备,其特征在于,所述定制模型是基于所述用户的唤醒语音数据对所述通用基准模型进行迁移学习得到的。
9.根据权利要求6所述的设备,其特征在于,所述神经网络包括共享层与迁移层;
不同年龄段的所述用户的定制模型的共享层相同,且迁移层参数不同。
10.根据权利要求9所述的设备,其特征在于,所述全年龄段定制模型通过声学分进行唤醒操作;
所述声学分由每个年龄段的所述定制模型中的所述迁移层的输出分数进行加权得到。
CN202110132066.6A 2021-01-30 2021-01-30 一种提高唤醒性能的方法和设备 Active CN112908312B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110132066.6A CN112908312B (zh) 2021-01-30 2021-01-30 一种提高唤醒性能的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110132066.6A CN112908312B (zh) 2021-01-30 2021-01-30 一种提高唤醒性能的方法和设备

Publications (2)

Publication Number Publication Date
CN112908312A CN112908312A (zh) 2021-06-04
CN112908312B true CN112908312B (zh) 2022-06-24

Family

ID=76122004

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110132066.6A Active CN112908312B (zh) 2021-01-30 2021-01-30 一种提高唤醒性能的方法和设备

Country Status (1)

Country Link
CN (1) CN112908312B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN109545218A (zh) * 2019-01-08 2019-03-29 广东小天才科技有限公司 一种语音识别方法及系统
CN110265040A (zh) * 2019-06-20 2019-09-20 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备
CN110473526A (zh) * 2018-05-11 2019-11-19 三星电子株式会社 对语音识别模型进行个性化的装置和方法及电子装置
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN111179944A (zh) * 2020-01-03 2020-05-19 达闼科技成都有限公司 语音唤醒及年龄检测方法、装置及计算机可读存储介质
JP2020140029A (ja) * 2019-02-27 2020-09-03 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9418662B2 (en) * 2009-01-21 2016-08-16 Nokia Technologies Oy Method, apparatus and computer program product for providing compound models for speech recognition adaptation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105895105A (zh) * 2016-06-06 2016-08-24 北京云知声信息技术有限公司 语音处理方法及装置
CN110473526A (zh) * 2018-05-11 2019-11-19 三星电子株式会社 对语音识别模型进行个性化的装置和方法及电子装置
CN109545218A (zh) * 2019-01-08 2019-03-29 广东小天才科技有限公司 一种语音识别方法及系统
JP2020140029A (ja) * 2019-02-27 2020-09-03 パナソニックIpマネジメント株式会社 音声認識装置、音声認識方法及びプログラム
CN110265040A (zh) * 2019-06-20 2019-09-20 Oppo广东移动通信有限公司 声纹模型的训练方法、装置、存储介质及电子设备
CN110619889A (zh) * 2019-09-19 2019-12-27 Oppo广东移动通信有限公司 体征数据识别方法、装置、电子设备和存储介质
CN110534098A (zh) * 2019-10-09 2019-12-03 国家电网有限公司客户服务中心 一种年龄增强的语音识别增强方法和装置
CN111179944A (zh) * 2020-01-03 2020-05-19 达闼科技成都有限公司 语音唤醒及年龄检测方法、装置及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于视听信息的自动年龄估计方法;方尔庆等;《软件学报》;20110715(第07期);全文 *
短时频谱通用背景模型群联合韵律的年龄语音转换;惠琳等;《声学学报》;20171115(第06期);全文 *

Also Published As

Publication number Publication date
CN112908312A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN110838286B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN110265040B (zh) 声纹模型的训练方法、装置、存储介质及电子设备
CN110838289B (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
Gelly et al. Optimization of RNN-based speech activity detection
CN105632486B (zh) 一种智能硬件的语音唤醒方法和装置
CN107665708B (zh) 智能语音交互方法及系统
CN107767863A (zh) 语音唤醒方法、系统及智能终端
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN101645064B (zh) 一种浅层自然口语理解系统及方法
CN107346340A (zh) 一种用户意图识别方法及系统
CN109410927A (zh) 离线命令词与云端解析结合的语音识别方法、装置和系统
CN111312222B (zh) 一种唤醒、语音识别模型训练方法及装置
CN109331470B (zh) 基于语音识别的抢答游戏处理方法、装置、设备及介质
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析系统及其方法
CN110890093A (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110970016B (zh) 一种唤醒模型生成方法、智能终端唤醒方法及装置
CN105427869A (zh) 一种基于深度学习的会话情感自动分析方法
CN108320738A (zh) 语音数据处理方法及装置、存储介质、电子设备
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN108711429A (zh) 电子设备及设备控制方法
CN110070855A (zh) 一种基于迁移神经网络声学模型的语音识别系统及方法
WO2018000270A1 (zh) 一种基于用户画像的个性化回答生成方法及系统
CN103810994A (zh) 基于情感上下文的语音情感推理方法及系统
CN109346069A (zh) 一种基于人工智能的交互系统及装置
CN114627863A (zh) 一种基于人工智能的语音识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant