CN110491394B - 唤醒语料的获取方法和装置 - Google Patents

唤醒语料的获取方法和装置 Download PDF

Info

Publication number
CN110491394B
CN110491394B CN201910865292.8A CN201910865292A CN110491394B CN 110491394 B CN110491394 B CN 110491394B CN 201910865292 A CN201910865292 A CN 201910865292A CN 110491394 B CN110491394 B CN 110491394B
Authority
CN
China
Prior art keywords
awakening
corpus
linguistic data
test
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910865292.8A
Other languages
English (en)
Other versions
CN110491394A (zh
Inventor
王健飞
彭程
罗雪峰
王巍巍
谢子哲
许天涵
胡哲
王晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910865292.8A priority Critical patent/CN110491394B/zh
Publication of CN110491394A publication Critical patent/CN110491394A/zh
Application granted granted Critical
Publication of CN110491394B publication Critical patent/CN110491394B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本申请公开了唤醒语料的获取方法和装置,涉及云计算领域以及语音技术。具体实现方案为:获取多个第一唤醒语料和多个第二唤醒语料;根据该多个第一唤醒语料获取多个测试唤醒模型;采用该多个第二唤醒语料验证每个该测试唤醒模型,以获取每个该测试唤醒模型的唤醒分数;根据各该测试唤醒模型的唤醒分数,确定该多个第一唤醒语料中的多个目标唤醒语料;该多个目标唤醒语料用于获取目标唤醒模型,该目标唤醒模型用于识别语音信号中的唤醒词。本申请可以使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,进而提高了唤醒模型识别唤醒词的准确度。

Description

唤醒语料的获取方法和装置
技术领域
本申请实施例涉及计算机技术,尤其涉及一种语音技术。
背景技术
语音唤醒是指用户发出包括唤醒词的语音信号后,智能设备通过唤醒模型识别语音信号中的唤醒词,从而激活智能设备的一种技术。因此,唤醒模型识别唤醒词的准确度对于成功激活智能设备非常重要。因此,需要获取高质量的唤醒语料来训练唤醒模型,以保证唤醒模型识别唤醒词的准确度。其中,高质量的唤醒语料是指对唤醒模型识别唤醒词的准确度具有较大贡献的唤醒语料。
目前从唤醒语料数据集中提取高质量的唤醒语料的方法包括:人工筛选、根据预设的筛选规则由机器筛选、通过机器学习模型筛选等等。上述提取高质量的唤醒语料的方法存在效率低或者提取出的唤醒语料中仍然存在较大数量的低质量唤醒语料的问题,影响了唤醒模型识别唤醒词的准确度。其中,低质量的唤醒语料是指对唤醒模型识别唤醒词的准确度具有较小贡献或者没有贡献的唤醒语料。
发明内容
本申请提供一种唤醒语料的获取方法和装置,可以使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,进而提高了唤醒模型识别唤醒词的准确度。
第一方面,本申请提供一种唤醒语料的获取方法,包括:获取多个第一唤醒语料和多个第二唤醒语料;根据所述多个第一唤醒语料获取多个测试唤醒模型;采用所述多个第二唤醒语料验证每个所述测试唤醒模型,以获取每个所述测试唤醒模型的唤醒分数,所述唤醒分数指示所述测试唤醒模型用于识别语音信号中的唤醒词的准确度;根据各所述测试唤醒模型的唤醒分数,确定所述多个第一唤醒语料中的多个目标唤醒语料;所述多个目标唤醒语料用于获取目标唤醒模型,所述目标唤醒模型用于识别语音信号中的唤醒词。
本方案中通过根据多个第一唤醒语料获取多个测试唤醒模型,通过第二唤醒语料验证测试唤醒模型识别唤醒词的准确度,由于测试唤醒模型识别唤醒词的准确度越高,得到该测试唤醒模型的唤醒语料的质量越高,因此根据各测试唤醒模型识别唤醒词的准确度,可以从多个第一唤醒语料中确定出对唤醒模型识别唤醒词的准确度贡献大的高质量的唤醒语料,即可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,也就是确定的多个目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,进而提高了唤醒模型识别唤醒词的准确度。且本方案的方法不需要人工筛选,确定目标唤醒语料的效率比较高。
在一种可能的设计中,所述根据所述多个第一唤醒语料获取多个测试唤醒模型,包括:从所述多个第一唤醒语料中选取第一预设数量的语料,并对所述第一预设数量的语料进行训练,得到初始唤醒模型;根据所述初始唤醒模型以及所述多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型;所述多个第一唤醒语料中的至少部分语料至少包括所述第一预设数量的语料。具体可为:从所述多个第一唤醒语料中随机选取K个唤醒语料组,每个唤醒语料组包括第二预设数量的唤醒语料,K为大于1的整数;对于所述K个唤醒语料组中的任意一个唤醒语料组:根据初始唤醒模型、该唤醒语料组中的第二预设数量的唤醒语料以及所述第一预设数量的语料,获取N个测试唤醒模型,N为大于1的整数。
本方案中,先获取一个初始唤醒模型,在初始唤醒模型的基础上获取测试唤醒模型可以大大提高测试唤醒模型的获取效率,从而可提高确定目标唤醒语料的效率。此外,从多个第一唤醒语料中随机选取K个唤醒语料组,针对每个测试唤醒模型均获取N个测试唤醒模型,多个测试唤醒模型的获取,可以降低偶然性的影响,使得从多个第一唤醒语料中确定的多个目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,即可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高。
在一种可能的设计中,所述根据各所述测试唤醒模型的唤醒分数,确定所述多个第一唤醒语料中的多个目标唤醒语料,包括:对于任意一个唤醒语料组所对应的N个测试唤醒模型:建立所述N个测试唤醒模型的N个唤醒分数中的最高唤醒分数与该唤醒语料组中的各语料的关联关系;获取所述多个第一唤醒语料中关联有唤醒分数的各预选唤醒语料的平均唤醒分数;将所述平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,p为正整数。
本方案中,每个唤醒语料组中的语料均关联根据该唤醒语料组中的语料得到的N个测试模型的N个唤醒分数中的最高唤醒分数,可以得到多个关联有唤醒分数的多个预选唤醒语料,进而可获取关联有唤醒分数的各预选唤醒语料的平均唤醒分数,平均唤醒分数越高,说明预选唤醒语料对唤醒模型识别唤醒词的准确度的贡献越高,因此,将平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,可以保证从多个第一唤醒语料中确定的多个目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,即可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高。
在一种可能的设计中,所述采用所述多个第二唤醒语料验证每个所述测试唤醒模型,以获取每个所述测试唤醒模型的唤醒分数,包括:对于每个测试唤醒模型:采用第二唤醒语料对该测试唤醒模型进行验证,得到该测试唤醒模型的验证结果;根据该测试唤醒模型的验证结果,获取该该测试唤醒模型的唤醒分数。
本方案中给出了通过第二唤醒语料验证测试唤醒模型识别唤醒词的准确度的具体实现。
在一种可能的设计中,所述根据该测试唤醒模型的验证结果,获取该该测试唤醒模型的唤醒分数,包括:根据唤醒数量和所述第二唤醒语料的总数量的比值,得到唤醒率;所述唤醒数量为能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;根据误唤醒数量和所述第二唤醒语料的总数量的比值,得到压制率,所述误唤醒数量为不包括预设唤醒词但能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;根据所述唤醒率和所述压制率,获取该测试唤醒模型的唤醒分数。
本方案中给出了获取测试唤醒模型的唤醒分数的具体实现。
在一种可能的设计中,所述获取多个第一唤醒语料,包括:收集多个原始唤醒语料;根据强制对齐模型,获取每个所述原始唤醒语料的对齐打分;根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料。
本方案可以去除部分低质量的原始唤醒语料,使得第一唤醒语料中的低质量语料较少,保证后续根据第二唤醒语料,从第一唤醒语料中确定的目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,以提高根据目标唤醒语料得到的目标唤醒模型识别唤醒词的准确度。
在一种可能的设计中,所述根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料,包括:确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为所述多个第一唤醒语料。
本方案可以去除部分低质量的原始唤醒语料。
在一种可能的设计中,所述根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料,包括:确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为多个初选唤醒语料;确定所述多个初选唤醒语料中满足预设条件的多个唤醒语料为所述多个第一唤醒语料。
本方案可以进一步去除部分低质量的原始唤醒语料。
在一种可能的设计中,所述预设条件为如下中的至少一项:
(1)所述第一唤醒语料包括的关键词语音信号对应的音频电平值中大于第一预设阈值的音频电平值的数量小于第一数量,所述第一数量为所述关键词语音信号所对应的音频电平值的总数量的第一预设倍数;
(2)所述关键词语音信号中不存在连续第二数量的帧的能量均小于第二预设阈值,所述第二数量大于或等于所述关键词语音信号包括的总帧数的第二预设倍数;
(3)所述第一唤醒语料的关键词对齐长度大于或等于预设最短对齐长度且小于或等于预设最长对齐长度;
(4)所述第一唤醒语料对应的音素中,对齐长度小于预设最短对齐长度的音素的数量小于第三数量,所述第三数量小于或等于所述第一唤醒语料所对应的音素的总数量的第三预设倍数;
(5)若所述第一唤醒语料由关键词语音信号组成,则所述第一唤醒语料的最后预设数量的帧的能量均小于或等于第三预设阈值;
(6)所述第一唤醒语料所对应的多个音素中不存在发音时长大于预设时长的第一音素;或者,所述第一唤醒语料所对应的多个音素中存在发音时长大于预设时长的第一音素,且各所述第一音素的发音时长与所述预设时长的差值的和小于或等于第四预设阈值。
本方案中将满足上述条件的初选唤醒语料作为第一唤醒语料,使得第一唤醒语料中不包括不满足上述条件的低质量语料。即可使得第一唤醒语料中的低质量语料进一步减少,保证后续根据第二唤醒语料,从第一唤醒语料中确定的目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,以提高根据目标唤醒语料得到的目标唤醒模型识别唤醒词的准确度。
第二方面,本申请提供一种唤醒语料的获取装置,包括:获取模块,用于获取多个第一唤醒语料和多个第二唤醒语料;验证模块,用于根据所述多个第一唤醒语料获取多个测试唤醒模型;所述验证模块,还用于采用所述多个第二唤醒语料验证每个所述测试唤醒模型,以获取每个所述测试唤醒模型的唤醒分数,所述唤醒分数指示所述测试唤醒模型用于识别语音信号中的唤醒词的准确度;确定模块,用于根据各所述测试唤醒模型的唤醒分数,确定所述多个第一唤醒语料中的多个目标唤醒语料;所述多个目标唤醒语料用于获取目标唤醒模型,所述目标唤醒模型用于识别语音信号中的唤醒词。
在一种可能的设计中,所述根验证模块,具体用于:从所述多个第一唤醒语料中选取第一预设数量的语料,并对所述第一预设数量的语料进行训练,得到初始唤醒模型;根据所述初始唤醒模型以及所述多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型;所述多个第一唤醒语料中的至少部分语料至少包括所述第一预设数量的语料。
在一种可能的设计中,所述验证模块,具体用于:从所述多个第一唤醒语料中随机选取K个唤醒语料组,每个唤醒语料组包括第二预设数量的唤醒语料,K为大于1的整数;对于所述K个唤醒语料组中的任意一个唤醒语料组:根据初始唤醒模型、该唤醒语料组中的第二预设数量的唤醒语料以及所述第一预设数量的语料,获取N个测试唤醒模型,N为大于1的整数。
在一种可能的设计中,所述验证模块,具体用于:对于任意一个唤醒语料组所对应的N个测试唤醒模型中的任意一个测试唤醒模型:采用第二唤醒语料对该测试唤醒模型进行验证,得到该测试唤醒模型的验证结果;根据该测试唤醒模型的验证结果,获取该该测试唤醒模型的唤醒分数。
在一种可能的设计中,所述确定模块,具体用于:对于任意一个唤醒语料组所对应的N个测试唤醒模型:建立所述N个测试唤醒模型的N个唤醒分数中的最高唤醒分数与该唤醒语料组中的各语料的关联关系;获取所述多个第一唤醒语料中关联有唤醒分数的各预选唤醒语料的平均唤醒分数;将所述平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,p为正整数。
在一种可能的设计中,所述验证模块,具体用于:根据唤醒数量和所述第二唤醒语料的总数量的比值,得到唤醒率;所述唤醒数量为能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;根据误唤醒数量和所述第二唤醒语料的总数量的比值,得到压制率,所述误唤醒数量为不包括预设唤醒词但能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;根据所述唤醒率和所述压制率,获取该测试唤醒模型的唤醒分数。
在一种可能的设计中,所述获取模块,具体用于:收集多个原始唤醒语料;根据强制对齐模型,获取每个所述原始唤醒语料的对齐打分;根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料。
在一种可能的设计中,所述获取模块,具体用于:确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为所述多个第一唤醒语料。
在一种可能的设计中,所述获取模块,具体用于:确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为多个初选唤醒语料;确定所述多个初选唤醒语料中满足预设条件的多个唤醒语料为所述多个第一唤醒语料。
在一种可能的设计中,所述预设条件为如下中的至少一项:
所述第一唤醒语料包括的关键词语音信号对应的音频电平值中大于第一预设阈值的音频电平值的数量小于第一数量,所述第一数量为所述关键词语音信号所对应的音频电平值的总数量的第一预设倍数;
所述关键词语音信号中不存在连续第二数量的帧的能量均小于第二预设阈值,所述第二数量大于或等于所述关键词语音信号包括的总帧数的第二预设倍数;
所述第一唤醒语料的关键词对齐长度大于或等于预设最短对齐长度且小于或等于预设最长对齐长度;
所述第一唤醒语料对应的音素中,对齐长度小于预设最短对齐长度的音素的数量小于第三数量,所述第三数量小于或等于所述第一唤醒语料所对应的音素的总数量的第三预设倍数;
若所述第一唤醒语料由关键词语音信号组成,则所述第一唤醒语料的最后预设数量的帧的能量均小于或等于第三预设阈值;
所述第一唤醒语料所对应的多个音素中不存在发音时长大于预设时长的第一音素;或者,所述第一唤醒语料所对应的多个音素中存在发音时长大于预设时长的第一音素,且各所述第一音素的发音时长与所述预设时长的差值的和小于或等于第四预设阈值。
第三方面,本申请提供一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面以及第一方面任一可能设计中所述的方法。
第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面以及第一方面任一可能设计中所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,且确定目标唤醒语料的效率比较高。因为通过根据所述多个第一唤醒语料获取多个测试唤醒模型,通过第二唤醒语料验证每个测试唤醒模型识别唤醒词的准确度,根据各测试唤醒模型的准确度,确定多个第一唤醒语料中的多个目标唤醒语料的技术手段,所以克服了技术中从唤醒语料数据集中提取出的唤醒语料中存在较多低质量的唤醒语料的问题,进而达到提高确定的多个用于训练唤醒模型的目标唤醒语料中高质量唤醒语料的比例的技术效果。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是语音唤醒技术所涉及的系统架构图;
图2是本申请实施例提供的唤醒语料的获取方法的流程图;
图3是本申请实施例提供的获取唤醒语料的过程另一种示意性框图
图4为本申请实施例提供的唤醒语料的获取装置的结构示意图;
图5是用来实现本申请实施例的唤醒语料的获取方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在语音唤醒技术中,服务器可对大量的唤醒语料进行训练,得到唤醒模型。在一种方式中,服务器将训练好的唤醒模型发送至终端设备,终端设备接收到语音信号后,采用唤醒模型识别语音信号中的唤醒词,若识别到唤醒词,则终端设备可被唤醒,若未识别到唤醒词,终端设备不被唤醒。在另一种方式中,终端设备接收到语音信号后,将语音信号发送至服务器,服务器采用唤醒模型识别语音信号中的唤醒词,并返回识别结果,若识别结果为识别到唤醒词,则终端设备可被唤醒,若识别结果为未识别到唤醒词,终端设备不被唤醒。上述两种涉及的系统架构可如图1所示。
本申请涉及一种唤醒语料的获取方法。下面采用具体的实施例对本申请的唤醒语料的获取方法进行说明。
图2是本申请实施例提供的唤醒语料的获取方法的流程图,本实施例的执行主体可为图1所示的架构中的服务器。参见图2,本实施例的方法包括:
步骤S201、获取多个第一唤醒语料。
可以理解的是,本申请实施例中的唤醒语料均是语音信号。
其中,获取多个第一唤醒语料的方式可通过如下的三种但不限于如下的三种方式实现:
第一种方式:获取多个第一唤醒语料包括:收集多个原始唤醒语料,该多个原始唤醒语料即为多个第一唤醒语料。其中,可通过线上唤醒模型收集多个原始唤醒语料。比如,终端设备通过线上唤醒模型收集接收到的多个语料,即为原始唤醒语料,并将多个原始唤醒语料发送至服务器,服务器获取多个原始唤醒语料。
第二种方式:获取多个第一唤醒语料,包括:
a1、收集多个原始唤醒语料。
a2、采用强制对齐模型,获取多个原始唤醒语料各自的对齐打分。
在一种方式,对于每个原始唤醒语料,根据该原始唤醒语料获取强制对齐模型的输入,该输入经强制对齐模型处理后得到的输出即为原始唤醒语料的对齐打分。其中,原始唤醒语料的对齐打分是原始唤醒语料的对齐结果中的各音素的对齐打分的平均值。若某一语料的对齐结果中包括A音素,则A音素的对齐打分用于指示该语料中的全部或部分特征被判断为A音素的概率。
其中,强制对齐模型可为如下中的任意一种:深度神经网络(Deep NeuralNetworks,简称DNN)-隐马尔可夫模型(Hidden Markov Model,简称HMM)、长短期记忆(LongShort-Term Memory,简称LSTM)网络-HMM、循环神经网络(Recurrent Neural Network,简称RNN)-HMM、双向循环神经网络(Bi-directional Neural Network,简称BRNN)-HMM。
a3、确定原始唤醒语料中对齐打分大于或等于第一预设阈值的唤醒语料为第一唤醒语料。
可选地,可对原始唤醒语料中对齐打分小于第一预设阈值的唤醒语料(后续称为滤除唤醒语料)的至少部分进行人工筛选,将是正常的唤醒语料的滤除唤醒语料(后续称为对齐唤醒语料)作为后续更新强制对齐模型的语料。其中,正常的唤醒语料为包括预设唤醒词且信号正常的唤醒语料。
上述的第二种方式可以去除部分低质量的原始唤醒语料,使得第一唤醒语料中的低质量语料尽可能的少,保证后续根据第二唤醒语料,从第一唤醒语料中确定的目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,以提高根据目标唤醒语料得到的目标唤醒模型识别唤醒词的准确度。
第三种方式:获取多个第一唤醒语料包括:
b1、收集原始唤醒语料。
b2、采用强制对齐模型,获取原始唤醒语料的对齐打分。
b3、确定原始唤醒语料中对齐打分大于或等于第一预设阈值的唤醒语料为初选唤醒语料。
b4、确定初选唤醒语料中满足预设条件的语料为第一唤醒语料。
其中,预设条件为如下中的至少一项:
(1)第一唤醒语料包括的关键词语音信号对应的音频电平值中大于第一预设阈值的音频电平值的数量小于第一数量,第一数量为关键词语音信号所对应的音频电平值的总数量的第一预设倍数。
若第一唤醒语料经采样后可得到H帧语音信号,即第一唤醒语料对应H帧语音信号,该H帧语音信号中所有包括关键词的帧组成关键词语音信号。关键词语音信号对应多个音频电平值,该多个音频电平值中大于第一预设阈值的音频电平值的数量小于第一数量。第一数量为关键词语音信号所对应的音频电平值的总数量的第一预设倍数,可选地,第一预设倍数可为3%~10%之间(包括3%和10%)的任一值。
其中,第一预设阈值可为能够引发喷麦的最小音频电平值。
(2)第一唤醒语料包括的关键词语音信号中不存在连续第二数量的帧的能量均小于第二预设阈值,第二数量大于或等于关键词语音信号的总帧数的第二预设倍数。
若第一唤醒语料对应H帧语音信号中包括关键词的帧具有h帧,则h即为关键词语音信号的总帧数,h小于或等于H。可选地,第二预设倍数可为5%~10%之间(包括5%和10%)的任一值。
其中,第二预设阈值可为有效音频阈值。
(3)第一唤醒语料的关键词对齐长度大于或等于预设最短对齐长度且小于或等于预设最长对齐长度。
其中,关键词对齐长度是指关键词语音信号的总帧数h。最短对齐长度和最长对齐长度均为根据唤醒词所预设好的。
(4)第一唤醒语料对应的音素中,对齐长度小于预设最短对齐长度的音素的数量小于第三数量,第三数量小于或等于第一唤醒语料所对应的音素总数量的第三预设倍数。
其中,音素的对齐长度是指关键词语音信号包括的h帧中与该音素对齐的帧数。可选地,第三预设倍数可为50%~70%之间(包括50%和70%)的任一值。
(5)若第一唤醒语料由关键词语音信号组成,则第一唤醒语料的最后预设数量的帧各自的能量小于或等于第三预设阈值。
其中,第一唤醒语料由关键词语音信号组成是指第一唤醒语料中仅包括关键词语音信号。
可选地,预设数量可为2或3或4或5。第三预设阈值可为句尾能量阈值。
(6)第一唤醒语料所对应的多个音素中不存在发音时长大于预设时长的第一音素;或者,第一唤醒语料所对应的多个音素中存在发音时长大于预设时长的第一音素,且各第一音素的发音时长与预设时长的差值的和小于或等于第四预设阈值。
上述的第三种获取多个第一唤醒语料的方式可以进一步去除部分低质量的原始唤醒语料,使得第一唤醒语料中的低质量语料尽可能的少,保证后续根据第二唤醒语料,从第一唤醒语料中确定的目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,以提高根据目标唤醒语料得到的目标唤醒模型识别唤醒词的准确度。
步骤S202、根据多个第一唤醒语料获取多个测试唤醒模型。
在一种方式中:根据多个第一唤醒语料获取多个测试唤醒模型,包括:
a1、从多个第一唤醒语料中选取第一预设数量的语料,并对第一预设数量的语料进行训练,得到初始唤醒模型。
其中,初始唤醒模型可为神经网络模型,比如DNN。
a2、根据初始唤醒模型以及多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型;多个第一唤醒语料中的至少部分语料至少包括第一预设数量的语料。
可选地,根据初始唤醒模型以及多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型,包括:
a21、从多个第一唤醒语料中随机选取K个唤醒语料组,每个唤醒语料组包括第二预设数量的唤醒语料,K为大于1的整数。
也就是每次从多个第一唤醒语料中随机选取第二预设数量的唤醒语料,组成一个唤醒语料组,选取K次,得到K个唤醒语料组。
a22、对于K个唤醒语料组中的任意一个唤醒语料组:根据初始唤醒模型、该唤醒语料组中的第二预设数量的唤醒语料以及第一预设数量的语料,获取N个测试唤醒模型,N为大于1的整数。也就是说K个唤醒语料组中的每个唤醒语料组对应N个测试唤醒模型,最终可获得K×N个测试唤醒模型。其中,测试唤醒模型可为神经网络模型,比如DNN。
即对于K个唤醒语料组中的任意一个唤醒语料组:在初始唤醒模型的基础上,根据该唤醒语料组中的第二预设数量的唤醒语料以及第一预设数量的语料获取N个测试唤醒模型。具体可为:在初始唤醒模型的基础上,对该唤醒语料组中的第二预设数量的唤醒语料以及第一预设数量的语料进行训练,得到第1个测试唤醒模型。接着,在第1个测试唤醒模型的基础上,对该唤醒语料组中的第二预设数量的唤醒语料以及第一预设数量的语料进行训练,得到第2个测试唤醒模型,依次类推,直至得到第N个测试唤醒模型。也就是说根据初始唤醒模型、该唤醒语料组中的第二预设数量的唤醒语料以及第一预设数量的语料,获取N个测试唤醒模型中的第n个测试唤醒模型包括:在第n-1个测试唤醒模型的基础上,对该唤醒语料组中的第二预设数量的唤醒语料以及第一预设数量的语料进行训练,得到第n个测试唤醒模型,n=1,……N,第n-1个测试唤醒模型为第n-1次训练得到的测试唤醒模型或者在n=1时第n-1(0)测试唤醒模型为初始唤醒模型。
可以理解的是,得到唤醒语料组对应的N个测试唤醒模型中的每个测试唤醒模型时,对该唤醒语料组中的第二预设数量的唤醒语料以及第一预设数量的语料的训练方法均相同。
先获取一个初始唤醒模型,在初始唤醒模型的基础上获取测试唤醒模型可以大大提高测试唤醒模型的获取效率,从而可提高确定目标唤醒语料的效率。此外,从多个第一唤醒语料中随机选取K个唤醒语料组,针对每个测试唤醒模型均获取N个测试唤醒模型,多个测试唤醒模型的获取,可以降低偶然性的影响,保证从多个第一唤醒语料中确定的多个目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,即可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高。
步骤S203、采用多个第二唤醒语料验证每个测试唤醒模型,以获取每个测试唤醒模型的唤醒分数,唤醒分数指示测试唤醒模型用于识别语音信号中的唤醒词的准确度。
在一种方式中,采用多个第二唤醒语料验证每个测试唤醒模型,以获取每个测试唤醒模型的唤醒分数,包括:对于任意一个测试唤醒模型:采用第二唤醒语料对该测试唤醒模型进行验证,得到该测试唤醒模型的验证结果;根据该测试唤醒模型的验证结果,获取该测试唤醒模型的唤醒分数。
也就是对任意的一个测试唤醒模型,采用多个第二唤醒语料对该测试唤醒模型进行验证,得到该测试唤醒模型的验证结果,并根据该测试唤醒模型验证结果获取该测试唤醒模型的唤醒分数。其中,测试唤醒模型的验证结果包括:每个第二唤醒语料经该测试唤醒模型进行唤醒词识别后的识别结果;第二唤醒语料识别结果可为通过测试唤醒模型对该第二唤醒语料识别后识别到预设唤醒词或者未识别到预设唤醒词。
在一种方式中,根据测试唤醒模型的验证结果获取该测试唤醒模型的唤醒分数,包括:
b1、根据唤醒数量和第二唤醒语料的总数量的比值,得到唤醒率;唤醒数量为能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量。
在一种方式中,可通过如下公式获取唤醒率P:
P=r/R;
其中,r为唤醒数量,R为第二唤醒语料的总数量。
b2、根据误唤醒数量和第二唤醒语料的总数量的比值,得到压制率,误唤醒数量为不包括预设唤醒词但能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量。
在一种方式中,可通过如下公式获取压制率F:
F=1-w/R;
其中,w为唤醒数量,R为第二唤醒语料的总数量。
b3、根据唤醒率和压制率,获取该测试唤醒模型的唤醒分数。
在一种方式中,可通过如下公式获取该测试唤醒模型的唤醒分数C:
Figure BDA0002201085410000141
其中,α和β为调节因子,均为常数,可根据实际情况设定。
步骤S204、根据各测试唤醒模型的唤醒分数,确定多个第一唤醒语料中的多个目标唤醒语料;多个目标唤醒语料用于获取目标唤醒模型,目标唤醒模型用于识别语音信号中的唤醒词。
在一种方式中:根据各测试唤醒模型的唤醒分数,确定多个第一唤醒语料中的多个目标唤醒语料,包括:
c1、对于任意一个唤醒语料组所对应的N个测试唤醒模型:建立N个测试唤醒模型的N个唤醒分数中的最高唤醒分数与该唤醒语料组中的各唤醒语料的关联关系。
如上所述,每个唤醒语料组均对应的N个测试唤醒模型,N个测试唤醒模型对应有N个唤醒分数。那么对于任意一个唤醒语料组,获取该唤醒语料组所对应的N个测试唤醒模型的N个唤醒分数中的最高唤醒分数,将该最高唤醒分数与该唤醒语料组中的各唤醒语料的关联起来,即该唤醒语料组包括的第二预设数量的唤醒语料中的每个唤醒语料均与该最高唤醒分数关联。
可以理解的是,若K个唤醒语料组中存在k个唤醒语料组中包括A唤醒语料,则A唤醒语料会关联有k个唤醒分数。
c2、获取多个第一唤醒语料中关联有唤醒分数的各预选唤醒语料的平均唤醒分数。
通过c1可以得到多个关联唤醒分数的预选唤醒语料,有的预选唤醒语料可能关联有多个唤醒分数,对于每一个关联有唤醒分数的预选唤醒语料,获取该预选唤醒语料关联的唤醒分数的平均值,得到该预选唤醒语料的平均唤醒分数。
c3、将平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,p为正整数。
可选地,P可为40到80之间(包括40和80)的任一值。
图3是本申请实施例提供的获取唤醒语料的过程另一种示意性框图。参见图3可知,从多个第一唤醒语料中随机选取第一预设数量的语料,得到初始唤醒模型;从多个第一唤醒语料中随机选取K组第二预设数量的语料,得到K个唤醒语料组。对于每个唤醒语料组,根据第一预设数量的语料、该唤醒语料组中的第二预设数量的唤醒语料和初始唤醒模型,得到N个测试唤醒模型。采用多个第二唤醒语料验证每个测试唤醒模型,以获取每个测试唤醒模型的唤醒分数;对于每个唤醒语料组:获取该唤醒语料组所对应的N个测试唤醒模型的N个唤醒分数中的最高唤醒分数,将该最高唤醒分数与该唤醒语料组中的各唤醒语料的关联起来,得到预选唤醒语料,获取关联有唤醒分数的各预选唤醒语料的平均唤醒分数,将平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料。
其中,每个唤醒语料组中的语料均关联根据该唤醒语料组中的语料得到的N个测试模型的N个唤醒分数中的最高唤醒分数,可以得到多个关联有唤醒分数的多个预选唤醒语料,进而可获取关联有唤醒分数的各预选唤醒语料的平均唤醒分数,平均唤醒分数越高,说明预选唤醒语料对唤醒模型识别唤醒词的准确度的贡献越高,因此,将平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,可以保证从多个第一唤醒语料中确定的多个目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,即可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高。
可选地,服务器还可对得到的多个目标唤醒语料进行训练,得到目标唤醒模型。服务器得到目标唤醒模型后,可将目标唤醒模型发送至终端设备,以使终端设备接收到语音信号后,识别语音信号中的唤醒词。也可不将目标唤醒模型发送至终端设备,而是从终端设备接收语音信号,采用目标唤醒模型识别语音信号中的唤醒词。其中,目标唤醒模型可为神经网络模型,比如DNN。
本实施例的唤醒语料的获取方法,通过根据多个第一唤醒语料获取多个测试唤醒模型,通过第二唤醒语料验证测试唤醒模型识别唤醒词的准确度,由于测试唤醒模型识别唤醒词的准确度越高,得到该测试唤醒模型的唤醒语料的质量越高,因此根据各测试唤醒模型识别唤醒词的准确度,可以从多个第一唤醒语料中确定出对唤醒模型识别唤醒词的准确度贡献大的高质量的唤醒语料,即可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,即确定的多个目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,进而提高了唤醒模型识别唤醒词的准确度。且本实施的方法不需要人工筛选,确定目标唤醒语料的效率比较高。
以上对本申请提供的唤醒语料的获取方法进行了说明,下面对本申请提供的获取唤醒语料的装置进行说明。
图4为本申请实施例提供的唤醒语料的获取装置的结构示意图,如图4所示,本实施例的装置可以包括:获取模块401、验证模块402和确定模块403。
获取模块401,用于获取多个第一唤醒语料和多个第二唤醒语料;验证模块402,用于根据所述多个第一唤醒语料获取多个测试唤醒模型;所述验证模块402,用于采用所述多个第二唤醒语料验证每个所述测试唤醒模型,以获取每个所述测试唤醒模型的唤醒分数,所述唤醒分数指示所述测试唤醒模型用于识别语音信号中的唤醒词的准确度;确定模块43,用于根据各所述测试唤醒模型的唤醒分数,确定所述多个第一唤醒语料中的多个目标唤醒语料;所述多个目标唤醒语料用于获取目标唤醒模型,所述目标唤醒模型用于识别语音信号中的唤醒词。
可选地,所述根验证模块402,具体用于:从所述多个第一唤醒语料中选取第一预设数量的语料,并对所述第一预设数量的语料进行训练,得到初始唤醒模型;根据所述初始唤醒模型以及所述多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型;所述多个第一唤醒语料中的至少部分语料至少包括所述第一预设数量的语料。
可选地,所述验证模块402,具体用于:从所述多个第一唤醒语料中随机选取K个唤醒语料组,每个唤醒语料组包括第二预设数量的唤醒语料,K为大于1的整数;对于所述K个唤醒语料组中的任意一个唤醒语料组:根据初始唤醒模型、该唤醒语料组中的第二预设数量的唤醒语料以及所述第一预设数量的语料,获取N个测试唤醒模型,N为大于1的整数。
可选地,所述确定模块403,具体用于:对于任意一个唤醒语料组所对应的N个测试唤醒模型:建立所述N个测试唤醒模型的N个唤醒分数中的最高唤醒分数与该唤醒语料组中的各语料的关联关系;获取所述多个第一唤醒语料中关联有唤醒分数的各预选唤醒语料的平均唤醒分数;将所述平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,p为正整数。
可选地,所述验证模块402,具体用于:对于任意一个唤醒语料组所对应的N个测试唤醒模型中的任意一个测试唤醒模型:采用第二唤醒语料对该测试唤醒模型进行验证,得到该测试唤醒模型的验证结果;根据该测试唤醒模型的验证结果,获取该测试唤醒模型的唤醒分数。
可选地,所述验证模块402,具体用于:根据唤醒数量和所述第二唤醒语料的总数量的比值,得到唤醒率;所述唤醒数量为能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;根据误唤醒数量和所述第二唤醒语料的总数量的比值,得到压制率,所述误唤醒数量为不包括预设唤醒词但能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;根据所述唤醒率和所述压制率,获取该测试唤醒模型的唤醒分数。
可选地,所述获取模块401,具体用于:收集多个原始唤醒语料;根据强制对齐模型,获取每个所述原始唤醒语料的对齐打分;根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料。
可选地,所述获取模块401,具体用于:确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为所述多个第一唤醒语料。
可选地,所述获取模块401,具体用于:确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为多个初选唤醒语料;确定所述多个初选唤醒语料中满足预设条件的多个唤醒语料为所述多个第一唤醒语料。
可选地,所述预设条件为如下中的至少一项:
(1)所述第一唤醒语料包括的关键词语音信号对应的音频电平值中大于第一预设阈值的音频电平值的数量小于第一数量,所述第一数量为所述关键词语音信号所对应的音频电平值的总数量的第一预设倍数;
(2)所述关键词语音信号中不存在连续第二数量的帧的能量均小于第二预设阈值,所述第二数量大于或等于所述关键词语音信号包括的总帧数的第二预设倍数;
(3)所述第一唤醒语料的关键词对齐长度大于或等于预设最短对齐长度且小于或等于预设最长对齐长度;
(4)所述第一唤醒语料对应的音素中,对齐长度小于预设最短对齐长度的音素的数量小于第三数量,所述第三数量小于或等于所述第一唤醒语料所对应的音素的总数量的第三预设倍数;
(5)若所述第一唤醒语料由关键词语音信号组成,则所述第一唤醒语料的最后预设数量的帧的能量均小于或等于第三预设阈值;
(6)所述第一唤醒语料所对应的多个音素中不存在发音时长大于预设时长的第一音素;或者,所述第一唤醒语料所对应的多个音素中存在发音时长大于预设时长的第一音素,且各所述第一音素的发音时长与所述预设时长的差值的和小于或等于第四预设阈值。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是根据本申请实施例的唤醒语料的获取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的唤醒语料的获取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的唤醒语料的获取方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的唤醒语料的获取方法对应的程序指令/模块(例如,附图4所示的获取模块401、验证模块402和确定模块403)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的唤醒语料的获取方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据唤醒语料的获取方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现唤醒语料的获取方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现唤醒语料的获取方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与XXX的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,可使得确定的多个用于训练唤醒模型的目标唤醒语料中的高质量唤醒语料的比例大大提高,即确定的多个目标唤醒语料中不存在低质量的唤醒语料或者存在很少低质量的唤醒语料,进而提高了唤醒模型识别唤醒词的准确度。且本实施的方法不需要人工筛选,确定目标唤醒语料的效率比较高。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (20)

1.一种唤醒语料的获取方法,其特征在于,包括:
获取多个第一唤醒语料和多个第二唤醒语料;
根据所述多个第一唤醒语料以及初始唤醒模型获取多个测试唤醒模型;所述多个第一唤醒语料中随机选取的K个唤醒语料组中的任意一个唤醒语料组与N个测试唤醒模型存在对应关系;每个唤醒语料组包括第二预设数量的唤醒语料;K、N为大于1的整数;
采用所述多个第二唤醒语料验证每个所述测试唤醒模型,以获取每个所述测试唤醒模型的唤醒分数,所述唤醒分数指示所述测试唤醒模型用于识别语音信号中的唤醒词的准确度;
对于所述多个第一唤醒语料中随机选取的K个唤醒语料组中的任意一个唤醒语料组所对应的N个测试唤醒模型:建立所述N个测试唤醒模型的N个唤醒分数中的最高唤醒分数与该唤醒语料组中的各语料的关联关系;
获取所述多个第一唤醒语料中关联有唤醒分数的各预选唤醒语料的平均唤醒分数;
将所述平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,p为正整数;所述目标唤醒语料用于获取目标唤醒模型,所述目标唤醒模型用于识别语音信号中的唤醒词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一唤醒语料以及初始唤醒模型获取多个测试唤醒模型,包括:
从所述多个第一唤醒语料中选取第一预设数量的语料,并对所述第一预设数量的语料进行训练,得到初始唤醒模型;
根据所述初始唤醒模型以及所述多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型;所述多个第一唤醒语料中的至少部分语料至少包括所述第一预设数量的语料。
3.根据权利要求2所述的方法,其特征在于,所述根据所述初始唤醒模型以及所述多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型,包括:
从所述多个第一唤醒语料中随机选取K个唤醒语料组;
对于所述K个唤醒语料组中的任意一个唤醒语料组:根据初始唤醒模型、该唤醒语料组中的第二预设数量的唤醒语料以及所述第一预设数量的语料,获取N个测试唤醒模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述采用所述多个第二唤醒语料验证每个所述测试唤醒模型,以获取每个所述测试唤醒模型的唤醒分数,包括:
对于每个测试唤醒模型:
采用第二唤醒语料对该测试唤醒模型进行验证,得到所该测试唤醒模型的验证结果;
根据该测试唤醒模型的验证结果,获取该测试唤醒模型的唤醒分数。
5.根据权利要求4所述的方法,其特征在于,所述根据该测试唤醒模型的验证结果,获取该测试唤醒模型的唤醒分数,包括:
根据唤醒数量和所述第二唤醒语料的总数量的比值,得到唤醒率;所述唤醒数量为能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;
根据误唤醒数量和所述第二唤醒语料的总数量的比值,得到压制率,所述误唤醒数量为不包括预设唤醒词但能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;
根据所述唤醒率和所述压制率,获取该测试唤醒模型的唤醒分数。
6.根据权利要求1-3、5任一项所述的方法,其特征在于,所述获取多个第一唤醒语料,包括:
收集多个原始唤醒语料;
根据强制对齐模型,获取每个所述原始唤醒语料的对齐打分;
根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料。
7.根据权利要求6所述的方法,其特征在于,所述根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料,包括:
确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为所述多个第一唤醒语料。
8.根据权利要求6所述的方法,其特征在于,所述根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料,包括:
确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为多个初选唤醒语料;
确定所述多个初选唤醒语料中满足预设条件的多个唤醒语料为所述多个第一唤醒语料。
9.根据权利要求8所述的方法,其特征在于,所述预设条件为如下中的至少一项:
所述第一唤醒语料包括的关键词语音信号对应的音频电平值中大于第一预设阈值的音频电平值的数量小于第一数量,所述第一数量为所述关键词语音信号所对应的音频电平值的总数量的第一预设倍数;
所述关键词语音信号中不存在连续第二数量的帧的能量均小于第二预设阈值,所述第二数量大于或等于所述关键词语音信号包括的总帧数的第二预设倍数;
所述第一唤醒语料的关键词对齐长度大于或等于预设最短对齐长度且小于或等于预设最长对齐长度;
所述第一唤醒语料对应的音素中,对齐长度小于预设最短对齐长度的音素的数量小于第三数量,所述第三数量小于或等于所述第一唤醒语料所对应的音素的总数量的第三预设倍数;
若所述第一唤醒语料由关键词语音信号组成,则所述第一唤醒语料的最后预设数量的帧的能量均小于或等于第三预设阈值;
所述第一唤醒语料所对应的多个音素中不存在发音时长大于预设时长的第一音素;或者,所述第一唤醒语料所对应的多个音素中存在发音时长大于预设时长的第一音素,且各所述第一音素的发音时长与所述预设时长的差值的和小于或等于第四预设阈值。
10.一种唤醒语料的获取装置,其特征在于,包括:
获取模块,用于获取多个第一唤醒语料和多个第二唤醒语料;
验证模块,用于根据所述多个第一唤醒语料以及初始唤醒模型获取多个测试唤醒模型;所述多个第一唤醒语料中随机选取的K个唤醒语料组中的任意一个唤醒语料组与N个测试唤醒模型存在对应关系;每个唤醒语料组包括第二预设数量的唤醒语料;K、N为大于1的整数;
所述验证模块,用于采用所述多个第二唤醒语料验证每个所述测试唤醒模型,以获取每个所述测试唤醒模型的唤醒分数,所述唤醒分数指示所述测试唤醒模型用于识别语音信号中的唤醒词的准确度;
确定模块,用于:
对于所述多个第一唤醒语料中随机选取的K个唤醒语料组中的任意一个唤醒语料组所对应的N个测试唤醒模型:建立所述N个测试唤醒模型的N个唤醒分数中的最高唤醒分数与该唤醒语料组中的各语料的关联关系;
获取所述多个第一唤醒语料中关联有唤醒分数的各预选唤醒语料的平均唤醒分数;
将所述平均唤醒分数位于前p%的预选唤醒语料作为目标唤醒语料,p为正整数;所述目标唤醒语料用于获取目标唤醒模型,所述目标唤醒模型用于识别语音信号中的唤醒词。
11.根据权利要求10所述的装置,其特征在于,所述验证模块,具体用于:
从所述多个第一唤醒语料中选取第一预设数量的语料,并对所述第一预设数量的语料进行训练,得到初始唤醒模型;
根据所述初始唤醒模型以及所述多个第一唤醒语料中的至少部分语料,获取多个测试唤醒模型;所述多个第一唤醒语料中的至少部分语料至少包括所述第一预设数量的语料。
12.根据权利要求11所述的装置,其特征在于,所述验证模块,具体用于:
从所述多个第一唤醒语料中随机选取K个唤醒语料组;
对于所述K个唤醒语料组中的任意一个唤醒语料组:根据初始唤醒模型、该唤醒语料组中的第二预设数量的唤醒语料以及所述第一预设数量的语料,获取N个测试唤醒模型。
13.根据权利要求10-12任一项所述的装置,其特征在于,所述验证模块,具体用于:
对于每个测试唤醒模型:
采用第二唤醒语料对该测试唤醒模型进行验证,得到所该测试唤醒模型的验证结果;
根据该测试唤醒模型的验证结果,获取该测试唤醒模型的唤醒分数。
14.根据权利要求13所述的装置,其特征在于,所述验证模块,具体用于:
根据唤醒数量和所述第二唤醒语料的总数量的比值,得到唤醒率;所述唤醒数量为能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;
根据误唤醒数量和所述第二唤醒语料的总数量的比值,得到压制率,所述误唤醒数量为不包括预设唤醒词但能够被该测试唤醒模型识别出预设唤醒词的第二唤醒语料的数量;
根据所述唤醒率和所述压制率,获取该测试唤醒模型的唤醒分数。
15.根据权利要求10-12、14任一项所述的装置,其特征在于,所述获取模块,具体用于:
收集多个原始唤醒语料;
根据强制对齐模型,获取每个所述原始唤醒语料的对齐打分;
根据所述多个原始唤醒语料的对齐打分,从所述多个原始唤醒语料中确定所述多个第一唤醒语料。
16.根据权利要求15所述的装置,其特征在于,所述获取模块,具体用于:
确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为所述多个第一唤醒语料。
17.根据权利要求15所述的装置,其特征在于,所述获取模块,具体用于:
确定所述多个原始唤醒语料中对齐打分大于或等于第一预设阈值的多个唤醒语料为多个初选唤醒语料;
确定所述多个初选唤醒语料中满足预设条件的多个唤醒语料为所述多个第一唤醒语料。
18.根据权利要求17所述的装置,其特征在于,所述预设条件为如下中的至少一项:
所述第一唤醒语料包括的关键词语音信号对应的音频电平值中大于第一预设阈值的音频电平值的数量小于第一数量,所述第一数量为所述关键词语音信号所对应的音频电平值的总数量的第一预设倍数;
所述关键词语音信号中不存在连续第二数量的帧的能量均小于第二预设阈值,所述第二数量大于或等于所述关键词语音信号包括的总帧数的第二预设倍数;
所述第一唤醒语料的关键词对齐长度大于或等于预设最短对齐长度且小于或等于预设最长对齐长度;
所述第一唤醒语料对应的音素中,对齐长度小于预设最短对齐长度的音素的数量小于第三数量,所述第三数量小于或等于所述第一唤醒语料所对应的音素的总数量的第三预设倍数;
若所述第一唤醒语料由关键词语音信号组成,则所述第一唤醒语料的最后预设数量的帧的能量均小于或等于第三预设阈值;
所述第一唤醒语料所对应的多个音素中不存在发音时长大于预设时长的第一音素;或者,所述第一唤醒语料所对应的多个音素中存在发音时长大于预设时长的第一音素,且各所述第一音素的发音时长与所述预设时长的差值的和小于或等于第四预设阈值。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
CN201910865292.8A 2019-09-12 2019-09-12 唤醒语料的获取方法和装置 Active CN110491394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910865292.8A CN110491394B (zh) 2019-09-12 2019-09-12 唤醒语料的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910865292.8A CN110491394B (zh) 2019-09-12 2019-09-12 唤醒语料的获取方法和装置

Publications (2)

Publication Number Publication Date
CN110491394A CN110491394A (zh) 2019-11-22
CN110491394B true CN110491394B (zh) 2022-06-17

Family

ID=68557955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910865292.8A Active CN110491394B (zh) 2019-09-12 2019-09-12 唤醒语料的获取方法和装置

Country Status (1)

Country Link
CN (1) CN110491394B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554288A (zh) * 2020-04-27 2020-08-18 北京猎户星空科技有限公司 智能设备的唤醒方法、装置、电子设备及介质
CN111739521B (zh) * 2020-06-19 2021-06-22 腾讯科技(深圳)有限公司 电子设备唤醒方法、装置、电子设备及存储介质
CN113553843B (zh) * 2021-06-24 2023-12-19 青岛海尔科技有限公司 技能创建方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359309B1 (en) * 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics
CN106445908A (zh) * 2015-08-07 2017-02-22 阿里巴巴集团控股有限公司 文本识别方法和装置
CN108170853A (zh) * 2018-01-19 2018-06-15 广东惠禾科技发展有限公司 一种聊天语料自清洗方法、装置和用户终端
CN108255816A (zh) * 2018-03-12 2018-07-06 北京神州泰岳软件股份有限公司 一种命名实体识别方法、装置及系统
CN108364066A (zh) * 2017-11-30 2018-08-03 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN109388717A (zh) * 2018-07-20 2019-02-26 北京智能点科技有限公司 一种批量生成语料的方法和系统
CN109388743A (zh) * 2017-08-11 2019-02-26 阿里巴巴集团控股有限公司 语言模型的确定方法和装置
CN109508741A (zh) * 2018-11-09 2019-03-22 哈尔滨工业大学 基于深度学习筛选训练集的方法
CN109739956A (zh) * 2018-11-08 2019-05-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN109992647A (zh) * 2019-04-04 2019-07-09 北京神州泰岳软件股份有限公司 一种内容搜索方法及装置
CN110019827A (zh) * 2017-08-24 2019-07-16 腾讯科技(北京)有限公司 一种语料库生成方法、装置、设备和计算机存储介质
CN110019832A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN110134767A (zh) * 2019-05-10 2019-08-16 云知声(上海)智能科技有限公司 一种词汇表的筛选方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209606A1 (en) * 2011-02-14 2012-08-16 Nice Systems Ltd. Method and apparatus for information extraction from interactions
US20150006148A1 (en) * 2013-06-27 2015-01-01 Microsoft Corporation Automatically Creating Training Data For Language Identifiers

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359309B1 (en) * 2007-05-23 2013-01-22 Google Inc. Modifying search result ranking based on corpus search statistics
CN106445908A (zh) * 2015-08-07 2017-02-22 阿里巴巴集团控股有限公司 文本识别方法和装置
CN109388743A (zh) * 2017-08-11 2019-02-26 阿里巴巴集团控股有限公司 语言模型的确定方法和装置
CN110019827A (zh) * 2017-08-24 2019-07-16 腾讯科技(北京)有限公司 一种语料库生成方法、装置、设备和计算机存储介质
CN110019832A (zh) * 2017-09-29 2019-07-16 阿里巴巴集团控股有限公司 语言模型的获取方法和装置
CN108364066A (zh) * 2017-11-30 2018-08-03 中国科学院计算技术研究所 基于n-gram和wfst模型的人工神经网络芯片及其应用方法
CN108170853A (zh) * 2018-01-19 2018-06-15 广东惠禾科技发展有限公司 一种聊天语料自清洗方法、装置和用户终端
CN108255816A (zh) * 2018-03-12 2018-07-06 北京神州泰岳软件股份有限公司 一种命名实体识别方法、装置及系统
CN109388717A (zh) * 2018-07-20 2019-02-26 北京智能点科技有限公司 一种批量生成语料的方法和系统
CN109739956A (zh) * 2018-11-08 2019-05-10 第四范式(北京)技术有限公司 语料清洗方法、装置、设备及介质
CN109508741A (zh) * 2018-11-09 2019-03-22 哈尔滨工业大学 基于深度学习筛选训练集的方法
CN109992647A (zh) * 2019-04-04 2019-07-09 北京神州泰岳软件股份有限公司 一种内容搜索方法及装置
CN110134767A (zh) * 2019-05-10 2019-08-16 云知声(上海)智能科技有限公司 一种词汇表的筛选方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Corpus-based Statistical Screening for Phrase Identification";Won Kim;《Journal of the American Medical Informatics Association》;20000930;全文 *
"维吾尔语网络文本语料库建立及其在语音识别中的应用";王文娟;《中国优秀硕士学位论文全文数据库信息科技辑》;20150215;全文 *

Also Published As

Publication number Publication date
CN110491394A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN107134279B (zh) 一种语音唤醒方法、装置、终端和存储介质
CN110491394B (zh) 唤醒语料的获取方法和装置
CN107665708B (zh) 智能语音交互方法及系统
CN112509552B (zh) 语音合成方法、装置、电子设备和存储介质
CN111063341A (zh) 复杂环境中多人语音的分割聚类方法及系统
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN112365880A (zh) 语音合成方法、装置、电子设备及存储介质
CN111177355B (zh) 基于搜索数据的人机对话交互方法、装置和电子设备
CN111522944B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
CN110942763B (zh) 语音识别方法及装置
CN109119069B (zh) 特定人群识别方法、电子装置及计算机可读存储介质
CN112382278B (zh) 流式语音识别结果显示方法、装置、电子设备和存储介质
CN111968631B (zh) 智能设备的交互方法、装置、设备及存储介质
CN112509566B (zh) 一种语音识别方法、装置、设备、存储介质及程序产品
CN111881254A (zh) 话术生成方法、装置、电子设备及存储介质
CN111127191B (zh) 风险评估方法及装置
CN111179915A (zh) 基于语音的年龄识别方法及装置
JP6915637B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN112365876A (zh) 语音合成模型的训练方法、装置、设备以及存储介质
US11823685B2 (en) Speech recognition
CN111241234A (zh) 文本分类方法及装置
CN112102833A (zh) 语音识别方法、装置、设备及存储介质
CN110706701B (zh) 语音技能推荐方法、装置、设备及存储介质
CN105869622B (zh) 中文热词检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant