CN110310628A - 唤醒模型的优化方法、装置、设备及存储介质 - Google Patents

唤醒模型的优化方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110310628A
CN110310628A CN201910569405.XA CN201910569405A CN110310628A CN 110310628 A CN110310628 A CN 110310628A CN 201910569405 A CN201910569405 A CN 201910569405A CN 110310628 A CN110310628 A CN 110310628A
Authority
CN
China
Prior art keywords
wake
model
data
corpus
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910569405.XA
Other languages
English (en)
Other versions
CN110310628B (zh
Inventor
张永超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910569405.XA priority Critical patent/CN110310628B/zh
Publication of CN110310628A publication Critical patent/CN110310628A/zh
Priority to JP2019219602A priority patent/JP6936936B2/ja
Priority to US16/703,596 priority patent/US11189287B2/en
Application granted granted Critical
Publication of CN110310628B publication Critical patent/CN110310628B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明实施例提供一种唤醒模型的优化方法、装置、设备及存储介质,通过获取训练集和验证集;根据所述训练集和所述验证集对唤醒模型进行迭代训练;在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;当达到预设中止条件时,输出所述唤醒模型。本发明实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集,可提高对唤醒模型的优化效率和效果,能够提高唤醒模型的稳定性和适应性,避免过拟合。

Description

唤醒模型的优化方法、装置、设备及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种唤醒模型的优化方法、装置、设备及存储介质。
背景技术
随着移动智能设备的快速普及,语音这种对于人类来说自然便捷的方式在人机交互中变得日益火热。当下像手机语音助手、智能音箱、语音对话机器人、支持语音控制的电视等具有语音交互功能的智能设备层出不穷各大互联网公司和创新型公司纷纷涌入此火热战场。而根据用户反馈和用户调研,语音交互确实对于用户提升了很大的便利性。
唤醒词检测(Hotword Detection)技术作为语音相关技术的重要组成部分,在整个语音交互中处于第一个环节,对整体交互满意度来说起到举足轻重的作用。唤醒系统有两个关键指标:唤醒率与误唤醒,唤醒率要尽可能高,同时误唤醒要尽可能低。但对一个唤醒系统来说,这两个指标是一个跷跷板—追求高的唤醒率很容易触发更多的误唤醒,比如市场上一些智能后视镜在车内用户聊天时经常触发误唤醒,既影响了车内其他用户还分散了驾驶员的注意力,用户体验大打折扣。如何在保障高唤醒率的同时,大幅度降低误唤醒是提升用户体验的重要一环。
现有技术中,唤醒词检测技术已从原始的基于模板匹配的检测技术发展到现在的基于神经网络进行声学模型建模的方案,唤醒词检测技术逐渐成熟,同时对唤醒性能的要求也越来越高。其中,基于神经网络进行唤醒词建模的方案大致如下:获取训练集和验证集,根据训练集和验证集进行多轮迭代训练,得到唤醒模型,然后再进行模型优化,通过预先收集的调优集对唤醒词模型进行优化。而由于调优集中的误唤醒数据数量有限,使得整体优化阶段收效慢;而且随着唤醒模型得到优化,预先收集的调优集带来的收益极速下降,导致对唤醒模型的优化效率和效果较差,影响模型的稳定性。
发明内容
本发明实施例提供一种唤醒模型的优化方法、装置、设备及存储介质,以提高对唤醒模型的优化效率和效果,能够提高唤醒模型的稳定性和适应性,避免过拟合。
本发明实施例的第一方面是提供一种唤醒模型的优化方法,包括:
获取训练集和验证集;
根据所述训练集和所述验证集对唤醒模型进行迭代训练;
在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;
当达到预设中止条件时,输出所述唤醒模型。
本发明实施例的第二方面是提供一种唤醒模型的优化装置,包括:
获取模块,用于获取训练集和验证集;
训练模块,用于根据所述训练集和所述验证集对唤醒模型进行迭代训练;
调优模块,用于在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集;
所述训练模块还用于,根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;
输出模块,用于当达到预设中止条件时,输出所述唤醒模型。
本发明实施例的第三方面是提供一种唤醒模型的优化设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
本发明实施例的第四方面是提供一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如第一方面所述的方法。
本发明实施例提供的唤醒模型的优化方法、装置、设备及存储介质,通过获取训练集和验证集;根据所述训练集和所述验证集对唤醒模型进行迭代训练;在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;当达到预设中止条件时,输出所述唤醒模型。本发明实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集,可提高对唤醒模型的优化效率和效果,能够提高唤醒模型的稳定性和适应性,避免过拟合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的唤醒模型的优化方法流程图;
图2为本发明另一实施例提供的唤醒模型的优化方法流程图;
图3为本发明另一实施例提供的唤醒模型的优化方法流程图;
图4为本发明另一实施例提供的唤醒模型的优化方法流程图;
图5为本发明实施例提供的唤醒模型的优化装置的结构图;
图6为本发明实施例提供的唤醒模型的优化设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的唤醒模型的优化方法流程图。本实施例提供了一种唤醒模型的优化方法,该方法具体步骤如下:
S101、获取训练集和验证集。
在本实施例中,训练集为对唤醒模型进行训练的语音数据,验证集为对训练后的唤醒模型进行验证、对唤醒模型能力初步评估的语音数据。具体可先获取正例数据和反例数据后,将正例数据和反例数据切分成训练集和验证集,当然本实施例中还可包括测试集,此处不再赘述。
更具体的,如图2所示,本实施例中所述的获取训练集和验证集,具体可包括:
S1011、获取唤醒词集合和误唤醒词集合;
S1012、根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据;
S1013、由所述正例数据和所述反例数据得到所述训练集和所述验证集。
在本实施例中,首先获取唤醒词集合和误唤醒词集合,其中唤醒词集合中包括具有唤醒词的语音数据,误唤醒词集合中包括具有误唤醒词的语音数据,进而可将唤醒词集合的数据直接作为正例数据,将误唤醒词集合中的数据直接作为反例数据,当然,也可对唤醒词集合和误唤醒词集合中的数据进行预定的处理后得到正例数据和反例数据,例如对数据进行数据增强操作,举例来说,可以对唤醒词集合和误唤醒词集合中的数据叠加预设的噪声数据和/或混响数据,和/或调整所述目标数据的播放语速,从而达到模拟真实环境中人声情况。在获取到正例数据和反例数据后,可对正例数据和反例数据进行混合,按照预定比例划分为训练集和验证集,划分过程可采用随机划分。
S102、根据所述训练集和所述验证集对唤醒模型进行迭代训练。
在本实施例中,唤醒模型可以为神经网络模型,通过训练集和验证集可对神经网络模型进行迭代训练,具体迭代训练过程可采用本领域中常用的迭代训练方法,此处不再赘述。
S103、在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练。
在本实施例中,在对唤醒模型进行迭代训练的过程中,可以周期性的更新训练集和验证集,实现对训练集和验证集的调优化,根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练,则可提高模型的稳定性和适应性,避免过拟合。本实施例中可选用海量语料库,例如音乐、电视剧、新闻、聊天语料库以及其他噪音集,作为所述预设语料库,根据当前的唤醒模型从预设语料库中筛选出一定数量的语料(语音数据),更新训练集和验证集。进一步的,由于通常情况下唤醒词是固定不变的,因此本实施例中可以仅根据当前的唤醒模型从预设语料库中筛选出预定数量的产生误唤醒的语料,更新训练集和验证集中的反例数据。
S104、当达到预设中止条件时,输出所述唤醒模型。
在本实施例中,预设中止条件可以为迭代训练次数达到预设次数、或者唤醒模型的准确度达到预设阈值时,中止迭代训练,进而可输出唤醒模型。
本实施例提供的唤醒模型的优化方法,通过获取训练集和验证集;根据所述训练集和所述验证集对唤醒模型进行迭代训练;在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;当达到预设中止条件时,输出所述唤醒模型。本实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集,可提高对唤醒模型的优化效率和效果,能够提高唤醒模型的稳定性和适应性,避免过拟合。
在上述实施例的基础上,如图3所示,S103所述的周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,具体可包括:
S201、以预设迭代次数为一个迭代周期,在每个迭代周期结束时,将所述预设语料库中的语料输入所述唤醒模型中,获取唤醒结果;
S202、根据所述唤醒结果,获取预设数量的产生误唤醒的语料;
S203、根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据。
在本实施例中,可以以预设迭代次数为一个迭代周期,例如预设迭代次数为T,通过记录当前的迭代次数i,当i达到T的整数倍时,也即当前的迭代周期结束,此时将预设语料库中的语料输入当前的唤醒模型中,获取唤醒结果,唤醒结果包括唤醒成功和唤醒失败两种情况,而唤醒成功的情况中则包括由唤醒词唤醒和误唤醒两种情况,本实施例中选取产生误唤醒的语料来更新训练集和验证集中的反例数据。具体的,可首先筛选出唤醒成功的语料,在从唤醒成功的语料中筛选出非唤醒词的语料作为所述误唤醒的语料;当然也可采用其他手段获取产生误唤醒的语料。由于对于产成误唤醒的语料的筛选是根据当前的唤醒模型进行的筛选,得到的筛选结果较具有针对性,可在接下来的迭代训练过程中更好的优化唤醒模型,提高唤醒模型的适应性和稳定性。本实施例中,由于正例数据和反例数据的比例固定,且正例数据数量可保持不变,因此需要获取合适的产生误唤醒的语料数量(也即预设数量),以使更新后的正例数据和反例数据的比例仍保持不变。
在上述实施例的基础上,如图4所示,S202所述的根据所述唤醒结果,获取预设数量的产生误唤醒的语料,包括:
S2021、对于产生误唤醒的语料,获取误唤醒概率;
S2022、根据所述误唤醒概率对产生误唤醒的语料进行排序,选取其中误唤醒概率较高的预设数量的产生误唤醒的语料。
在本实施例中,在筛选产生误唤醒的语料时,可筛选其中最容易产生误唤醒的语料,具体可通过获取每一产生误唤醒的语料的误唤醒概率,然后选取其中误唤醒概率较高的预设数量的产生误唤醒的语料,可以进一步提高对唤醒模型的针对性,提高对唤醒模型的优化效果。
进一步的,上述实施例中S203所述的根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据,具体可包括:
对所述预设数量的产生误唤醒的语料进行数据增强操作后更新所述训练集和所述验证集中的反例数据。
在上述实施例中,由于训练集和验证集中的正例数据和反例数据均可以为经过数据增强操作后的数据,为了保持更新后的训练集和验证集与更新前的数据结构保持一致,也可对获取到的预设数量的产生误唤醒的语料进行数据增强操作,再更新训练集和验证集中的反例数据,其中数据增强操作可以对产生误唤醒的语料数据叠加预设的噪声数据和/或混响数据,和/或调整所述产生误唤醒的语料的播放语速。
在上述任一实施例的基础上,本实施例中对所述数据增强操作进行详细说明,所述数据增强操作具体可包括:
对于待进行数据增强操作的目标数据,叠加预设的噪声数据和/或混响数据;和/或调整所述目标数据的播放语速。
在本实施例中,预设的噪声数据可以包括不同环境的噪声数据,例如在公共场所的噪声、在室内的噪声、不同天气的环境噪声等,在对目标数据叠加预设的噪声数据时,还可以以不同的信噪比进行叠加,从而可以模拟在不同噪声环境下的目标数据。预设的混响数据则可包括不同的混响参数值,以模拟在不同空间中的目标数据。此外还可调整目标数据的播放语速。当然数据增强操作可不仅限于上述三种,其他能够对目标数据的声学特征进行调节的操作亦可。本实施例中可采用上述至少一种数据增强操作对目标数据进行增强,实现不同真实环境中人声的模拟,可提高唤醒模型在不同真实环境中的适应性和稳定性。
图5为本发明实施例提供的唤醒模型的优化装置的结构图。本实施例提供的唤醒模型的优化装置可以执行唤醒模型的优化方法实施例提供的处理流程,如图5所示,所述唤醒模型的优化装置包括获取模块51、训练模块52、调优模块53及输出模块54。
其中,获取模块51用于获取训练集和验证集;
训练模块52用于根据所述训练集和所述验证集对唤醒模型进行迭代训练;
调优模块53用于在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集;
所述训练模块52还用于根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;
输出模块54用于当达到预设中止条件时,输出所述唤醒模型。
在上述实施例的基础上,所述调优模块53用于:
以预设迭代次数为一个迭代周期,在每个迭代周期结束时,将所述预设语料库中的语料输入所述唤醒模型中,获取唤醒结果;
根据所述唤醒结果,获取预设数量的产生误唤醒的语料;
根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据。
在上述任一实施例的基础上,所述调优模块53用于:
对于产生误唤醒的语料,获取误唤醒概率;
根据所述误唤醒概率对产生误唤醒的语料进行排序,选取其中误唤醒概率较高的预设数量的产生误唤醒的语料。
在上述任一实施例的基础上,所述获取模块51用于:
获取唤醒词集合和误唤醒词集合;
根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据;
由所述正例数据和所述反例数据得到所述训练集和所述验证集。
在上述任一实施例的基础上,所述装置50还包括数据增强模块54,用于:
由所述获取模块51调用,对所述唤醒词集合和所述非唤醒词集合中的数据进行数据增强操作,得到所述正例数据和所述反例数据。
在上述任一实施例的基础上,所述数据增强模块54还用于:
由所述调优模块53调用,对所述预设数量的产生误唤醒的语料进行数据增强操作后更新所述训练集和所述验证集中的反例数据。
在上述任一实施例的基础上,所述数据增强模块54用于:
对于待进行数据增强操作的目标数据,叠加预设的噪声数据和/或混响数据;和/或
调整所述目标数据的播放语速。
本发明实施例提供的唤醒模型的优化装置可以具体用于执行上述图1-4所提供的方法实施例,具体功能此处不再赘述。
本发明实施例提供的唤醒模型的优化装置,通过获取训练集和验证集;根据所述训练集和所述验证集对唤醒模型进行迭代训练;在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;当达到预设中止条件时,输出所述唤醒模型。本发明实施例通过在迭代过程中周期性的根据唤醒模型和预设语料库更新训练集和验证集,可提高对唤醒模型的优化效率和效果,能够提高唤醒模型的稳定性和适应性,避免过拟合。
图6为本发明实施例提供的唤醒模型的优化设备的结构示意图。本发明实施例提供的唤醒模型的优化设备可以执行唤醒模型的优化方法实施例提供的处理流程,如图6所示,唤醒模型的优化设备60包括存储器61、处理器62、计算机程序和通讯接口63;其中,计算机程序存储在存储器61中,并被配置为由处理器62执行以上实施例所述的唤醒模型的优化方法。
图6所示实施例的唤醒模型的优化设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的唤醒模型的优化方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种唤醒模型的优化方法,其特征在于,包括:
获取训练集和验证集;
根据所述训练集和所述验证集对唤醒模型进行迭代训练;
在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,并根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;
当达到预设中止条件时,输出所述唤醒模型。
2.根据权利要求1所述的方法,其特征在于,所述周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集,包括:
以预设迭代次数为一个迭代周期,在每个迭代周期结束时,将所述预设语料库中的语料输入所述唤醒模型中,获取唤醒结果;
根据所述唤醒结果,获取预设数量的产生误唤醒的语料;
根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述唤醒结果,获取预设数量的产生误唤醒的语料,包括:
对于产生误唤醒的语料,获取误唤醒概率;
根据所述误唤醒概率对产生误唤醒的语料进行排序,选取其中误唤醒概率较高的预设数量的产生误唤醒的语料。
4.根据权利要求1所述的方法,其特征在于,所述获取训练集和验证集,包括:
获取唤醒词集合和误唤醒词集合;
根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据;
由所述正例数据和所述反例数据得到所述训练集和所述验证集。
5.根据权利要求4所述的方法,其特征在于,所述根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据,包括:
对所述唤醒词集合和所述非唤醒词集合中的数据进行数据增强操作,得到所述正例数据和所述反例数据。
6.根据权利要求2所述的方法,其特征在于,所述根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据,包括:
对所述预设数量的产生误唤醒的语料进行数据增强操作后更新所述训练集和所述验证集中的反例数据。
7.根据权利要求5或6所述的方法,其特征在于,所述数据增强操作包括:
对于待进行数据增强操作的目标数据,叠加预设的噪声数据和/或混响数据;和/或
调整所述目标数据的播放语速。
8.一种唤醒模型的优化装置,其特征在于,包括:
获取模块,用于获取训练集和验证集;
训练模块,用于根据所述训练集和所述验证集对唤醒模型进行迭代训练;
调优模块,用于在迭代训练过程中,周期性的根据所述唤醒模型和预设语料库更新所述训练集和所述验证集;
所述训练模块还用于,根据更新后的训练集和验证集继续对所述唤醒模型进行迭代训练;
输出模块,用于当达到预设中止条件时,输出所述唤醒模型。
9.根据权利要求8所述的装置,其特征在于,所述调优模块用于:
以预设迭代次数为一个迭代周期,在每个迭代周期结束时,将所述预设语料库中的语料输入所述唤醒模型中,获取唤醒结果;
根据所述唤醒结果,获取预设数量的产生误唤醒的语料;
根据所述预设数量的产生误唤醒的语料更新所述训练集和所述验证集中的反例数据。
10.根据权利要求9所述的装置,其特征在于,所述调优模块用于:
对于产生误唤醒的语料,获取误唤醒概率;
根据所述误唤醒概率对产生误唤醒的语料进行排序,选取其中误唤醒概率较高的预设数量的产生误唤醒的语料。
11.根据权利要求8所述的装置,其特征在于,所述获取模块用于:
获取唤醒词集合和误唤醒词集合;
根据所述唤醒词集合和所述误唤醒词集合分别获取正例数据和反例数据;
由所述正例数据和所述反例数据得到所述训练集和所述验证集。
12.根据权利要求11所述的装置,其特征在于,还包括数据增强模块,用于:
由所述获取模块调用,对所述唤醒词集合和所述非唤醒词集合中的数据进行数据增强操作,得到所述正例数据和所述反例数据。
13.根据权利要求9所述的装置,其特征在于,还包括数据增强模块,用于:
由所述调优模块调用,对所述预设数量的产生误唤醒的语料进行数据增强操作后更新所述训练集和所述验证集中的反例数据。
14.根据权利要求12或13所述的装置,其特征在于,所述数据增强模块用于:
对于待进行数据增强操作的目标数据,叠加预设的噪声数据和/或混响数据;和/或
调整所述目标数据的播放语速。
15.一种唤醒模型的优化设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN201910569405.XA 2019-06-27 2019-06-27 唤醒模型的优化方法、装置、设备及存储介质 Active CN110310628B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910569405.XA CN110310628B (zh) 2019-06-27 2019-06-27 唤醒模型的优化方法、装置、设备及存储介质
JP2019219602A JP6936936B2 (ja) 2019-06-27 2019-12-04 ウェイクアップモデルの最適化方法、装置、デバイス及び記憶媒体
US16/703,596 US11189287B2 (en) 2019-06-27 2019-12-04 Optimization method, apparatus, device for wake-up model, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910569405.XA CN110310628B (zh) 2019-06-27 2019-06-27 唤醒模型的优化方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110310628A true CN110310628A (zh) 2019-10-08
CN110310628B CN110310628B (zh) 2022-05-20

Family

ID=68076830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910569405.XA Active CN110310628B (zh) 2019-06-27 2019-06-27 唤醒模型的优化方法、装置、设备及存储介质

Country Status (3)

Country Link
US (1) US11189287B2 (zh)
JP (1) JP6936936B2 (zh)
CN (1) CN110310628B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706695A (zh) * 2019-10-17 2020-01-17 北京声智科技有限公司 一种数据标注方法及装置
CN111091813A (zh) * 2019-12-31 2020-05-01 北京猎户星空科技有限公司 语音唤醒模型更新方法、装置、设备及介质
CN111312222A (zh) * 2020-02-13 2020-06-19 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN112992170A (zh) * 2021-01-29 2021-06-18 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN113012682A (zh) * 2021-03-24 2021-06-22 北京百度网讯科技有限公司 误唤醒率确定方法、装置、设备、存储介质和程序产品
CN113129874A (zh) * 2021-04-27 2021-07-16 思必驰科技股份有限公司 语音唤醒方法及系统
CN116543758A (zh) * 2023-06-27 2023-08-04 中国第一汽车股份有限公司 语音唤醒模型的更新方法、系统和介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210123633A (ko) * 2020-04-03 2021-10-14 삼성전자주식회사 음성 명령에 대응하는 태스크를 수행하는 전자 장치 및 그 동작 방법
CN113782016B (zh) * 2021-08-06 2023-05-05 佛山市顺德区美的电子科技有限公司 一种唤醒处理方法、装置、设备和计算机存储介质
CN117475998A (zh) * 2023-12-28 2024-01-30 慧言科技(天津)有限公司 基于lora微调辅助的语音唤醒快速自适应方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
US20090198493A1 (en) * 2003-12-23 2009-08-06 At&T Corp. System and Method for Unsupervised and Active Learning for Automatic Speech Recognition
US20150019214A1 (en) * 2013-07-10 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US20150154953A1 (en) * 2013-12-02 2015-06-04 Spansion Llc Generation of wake-up words
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN107610702A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 终端设备待机唤醒方法、装置及计算机设备
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108766420A (zh) * 2018-05-31 2018-11-06 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置
CN108898222A (zh) * 2018-06-26 2018-11-27 郑州云海信息技术有限公司 一种自动调节网络模型超参数的方法和装置
CN109243446A (zh) * 2018-10-01 2019-01-18 厦门快商通信息技术有限公司 一种基于rnn网络的语音唤醒方法
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
US20190043481A1 (en) * 2017-12-27 2019-02-07 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109741735A (zh) * 2017-10-30 2019-05-10 阿里巴巴集团控股有限公司 一种建模方法、声学模型的获取方法和装置
CN109886386A (zh) * 2019-01-30 2019-06-14 北京声智科技有限公司 唤醒模型的确定方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0586714B1 (en) 1992-03-30 2000-03-08 Seiko Epson Corporation Speech recognition apparatus using neural network, and learning method therefor
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US9922364B1 (en) * 2013-11-18 2018-03-20 X Development Llc Voice initiated purchase request
CN105869637B (zh) * 2016-05-26 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN111971742A (zh) * 2016-11-10 2020-11-20 赛轮思软件技术(北京)有限公司 与语言无关的唤醒词检测的技术
CN106611597B (zh) * 2016-12-02 2019-11-08 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
US10692489B1 (en) * 2016-12-23 2020-06-23 Amazon Technologies, Inc. Non-speech input to speech processing system
US11127394B2 (en) * 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
US11189286B2 (en) * 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090198493A1 (en) * 2003-12-23 2009-08-06 At&T Corp. System and Method for Unsupervised and Active Learning for Automatic Speech Recognition
CN101393740A (zh) * 2008-10-31 2009-03-25 清华大学 一种计算机多方言背景的汉语普通话语音识别的建模方法
US20150019214A1 (en) * 2013-07-10 2015-01-15 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
US20150154953A1 (en) * 2013-12-02 2015-06-04 Spansion Llc Generation of wake-up words
CN107221326A (zh) * 2017-05-16 2017-09-29 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法、装置和计算机设备
CN107358951A (zh) * 2017-06-29 2017-11-17 阿里巴巴集团控股有限公司 一种语音唤醒方法、装置以及电子设备
CN107610702A (zh) * 2017-09-22 2018-01-19 百度在线网络技术(北京)有限公司 终端设备待机唤醒方法、装置及计算机设备
CN109741735A (zh) * 2017-10-30 2019-05-10 阿里巴巴集团控股有限公司 一种建模方法、声学模型的获取方法和装置
US20190043481A1 (en) * 2017-12-27 2019-02-07 Intel IP Corporation Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108564954A (zh) * 2018-03-19 2018-09-21 平安科技(深圳)有限公司 深度神经网络模型、电子装置、身份验证方法和存储介质
CN108766420A (zh) * 2018-05-31 2018-11-06 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置
CN108898222A (zh) * 2018-06-26 2018-11-27 郑州云海信息技术有限公司 一种自动调节网络模型超参数的方法和装置
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109243446A (zh) * 2018-10-01 2019-01-18 厦门快商通信息技术有限公司 一种基于rnn网络的语音唤醒方法
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109886386A (zh) * 2019-01-30 2019-06-14 北京声智科技有限公司 唤醒模型的确定方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WANG S,等: "Hellonpu: A corpus for small-footprint wake-up word detection research", 《NATIONAL CONFERENCE ON MAN-MACHINE SPEECH COMMUNICATION》 *
王朝松: "基于深度学习的汉语语音关键词检测方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110706695B (zh) * 2019-10-17 2022-02-18 北京声智科技有限公司 一种数据标注方法及装置
CN110706695A (zh) * 2019-10-17 2020-01-17 北京声智科技有限公司 一种数据标注方法及装置
CN111091813A (zh) * 2019-12-31 2020-05-01 北京猎户星空科技有限公司 语音唤醒模型更新方法、装置、设备及介质
CN111091813B (zh) * 2019-12-31 2022-07-22 北京猎户星空科技有限公司 语音唤醒模型更新及唤醒方法、系统、装置、设备及介质
CN111312222A (zh) * 2020-02-13 2020-06-19 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
CN111312222B (zh) * 2020-02-13 2023-09-12 北京声智科技有限公司 一种唤醒、语音识别模型训练方法及装置
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN112992170B (zh) * 2021-01-29 2022-10-28 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN112992170A (zh) * 2021-01-29 2021-06-18 青岛海尔科技有限公司 模型训练方法及装置、存储介质及电子装置
CN113012682A (zh) * 2021-03-24 2021-06-22 北京百度网讯科技有限公司 误唤醒率确定方法、装置、设备、存储介质和程序产品
CN113012682B (zh) * 2021-03-24 2022-10-14 北京百度网讯科技有限公司 误唤醒率确定方法、装置、设备、存储介质和程序产品
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN112967718B (zh) * 2021-04-02 2024-04-12 深圳吉祥星科技股份有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN113129874A (zh) * 2021-04-27 2021-07-16 思必驰科技股份有限公司 语音唤醒方法及系统
CN113129874B (zh) * 2021-04-27 2022-05-10 思必驰科技股份有限公司 语音唤醒方法及系统
CN116543758A (zh) * 2023-06-27 2023-08-04 中国第一汽车股份有限公司 语音唤醒模型的更新方法、系统和介质
CN116543758B (zh) * 2023-06-27 2023-09-15 中国第一汽车股份有限公司 语音唤醒模型的更新方法、系统和介质

Also Published As

Publication number Publication date
JP6936936B2 (ja) 2021-09-22
CN110310628B (zh) 2022-05-20
US20200411000A1 (en) 2020-12-31
JP2021006889A (ja) 2021-01-21
US11189287B2 (en) 2021-11-30

Similar Documents

Publication Publication Date Title
CN110310628A (zh) 唤醒模型的优化方法、装置、设备及存储介质
US11829874B2 (en) Neural architecture search
CN107103113B (zh) 面向神经网络处理器的自动化设计方法、装置及优化方法
CN112862281A (zh) 综合能源系统调度模型构建方法、装置、介质及电子设备
CN102073730B (zh) 一种主题网络爬虫系统的构建方法
CN106357456B (zh) 一种网络流量的预测方法及装置
CN109256118B (zh) 基于生成式听觉模型的端到端汉语方言识别系统和方法
CN110334580A (zh) 基于集成增量的动态权重组合的设备故障分类方法
CN104751228A (zh) 深度神经网络的构建方法及系统
JP2018160234A (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
CN110210513A (zh) 数据分类方法、装置及终端设备
CN101770560B (zh) 模拟生物神经元信息处理机制的信息处理方法及装置
CN109063915A (zh) 短期风速预测方法、装置、设备、系统及存储介质
CN105046366A (zh) 模型训练方法及装置
CN104732968B (zh) 语音操控系统的评价系统及方法
CN103559289A (zh) 语种无关的关键词检索方法及系统
CN108896330B (zh) 一种水电机组的故障诊断方法
CN108010321B (zh) 一种交通流预测方法
CN109670600A (zh) 基于云平台的决策方法和系统
CN104615679A (zh) 一种基于人工免疫网络的多智能体数据挖掘方法
CN105549744A (zh) 一种终端屏幕亮度调节方法及装置
CN115907384A (zh) 基于净负荷分解的电力系统灵活性需求计算方法
Li et al. Overview and Analysis of Speech Recognition
CN114283847A (zh) 一种基于cnn+lstm的变压器铁芯部件松动识别方法及装置
CN108629093A (zh) 一种噪声感知的动态电压频率调节过渡序列设计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210518

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant