CN110600029A - 用于智能语音设备的自定义唤醒方法和装置 - Google Patents

用于智能语音设备的自定义唤醒方法和装置 Download PDF

Info

Publication number
CN110600029A
CN110600029A CN201910874424.3A CN201910874424A CN110600029A CN 110600029 A CN110600029 A CN 110600029A CN 201910874424 A CN201910874424 A CN 201910874424A CN 110600029 A CN110600029 A CN 110600029A
Authority
CN
China
Prior art keywords
voice
registration
awakening
score
wake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910874424.3A
Other languages
English (en)
Inventor
陆涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201910874424.3A priority Critical patent/CN110600029A/zh
Publication of CN110600029A publication Critical patent/CN110600029A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1073Registration or de-registration
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本发明公开用于智能语音设备的自定义唤醒方法和装置,其中,方法,包括:接收用户设定的注册文本并采集用户的注册语音;基于注册文本计算注册唤醒阈值;基于通用唤醒模型计算注册语音的注册唤醒得分,并判断注册唤醒得分是否大于等于注册唤醒阈值;若注册唤醒得分大于等于注册唤醒阈值,将注册语音与注册文本对齐,提取注册文本中每个字对应的语音段;对每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。本申请的方法和装置提供的方案可以在注册阶段优化输入语音质量,从而让系统在计算得分模块更加精细,最终,提高唤醒率同时,还能减少相似词的误唤醒率。

Description

用于智能语音设备的自定义唤醒方法和装置
技术领域
本发明属于语音唤醒技术领域,尤其涉及用于智能语音设备的自定义唤醒方法和装置。
背景技术
相关技术中,一方面,传统注册语音唤醒方案如下:首先,用户通过设备输入3到5句注册语音(例如你好小驰),然后,系统会使用注册语音生成该注册用户的语音特征模板。接着,当用户去唤醒设备的时候,系统会用生成好的语音特征模板与注册语音特征进行匹配,并计算出得分,当该得分超过设定阈值即唤醒设备。
另一方面,定制唤醒,声纹识别串行方案如下:和注册语音方案一样,用户需要先说,3到5句注册语音,然后,唤醒模块会判断输入语音是否为唤醒词,如果是,送给声纹识别模块,反之则丢弃。接下来,声纹模块使用注册语音,生成声纹识别模型。最后,用户唤醒设备时,需要输入语音分别通过唤醒模块,声纹识别后,设备才会被唤醒。
发明人在实现本申请的过程中发现:
传统注册语音方案至少存在如下缺陷:
(1)没有模块去验证注册语音的质量,如果注册语音带有比较大的噪声,或者注册语音的唤醒词不一致的时候,系统性能会急剧下降;
(2)由于注册用户,注册场景差异性大,系统无法给出一个精准的阈值,去平衡唤醒率和误唤醒率,而且模型简单,通常性能会比较差;
(3)语音词只相差一二个词时,容易误唤醒,由于唤醒得分是直接通过语音特征的整体匹配计算得出,导致相近词得分非常接近。
定制唤醒,声纹识别串行方案至少存在如下缺陷:
(1)无法注册,因为定制唤醒模块,声纹识别模块,需要预先知道唤醒词;
(2)需要花费人力,物力,收集大量唤醒词语料,训练唤醒模型,声纹识别模型;
(3)加入声纹识别模块,通常是基于神经网络模型,会增大计算量,无法在一些低功耗场景下使用。
发明内容
本发明实施例提供一种用于智能语音设备的自定义唤醒方法和装置,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种用于智能语音设备的自定义唤醒方法,包括:接收用户设定的注册文本并采集用户的注册语音;基于所述注册文本计算注册唤醒阈值;基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值;若所述注册唤醒得分大于等于所述注册唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
第二方面,本发明实施例提供一种用于智能语音设备的自定义唤醒装置,包括:注册模块,配置为接收用户设定的注册文本并采集用户的注册语音;阈值计算模块,配置为基于所述注册文本计算唤醒阈值;通用判断模块,配置为基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述唤醒阈值;对齐提取模块,配置为若所述注册唤醒得分大于等于所述唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;模板生成模块,配置为对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的用于智能语音设备的自定义唤醒方法的步骤。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的用于智能语音设备的自定义唤醒方法的步骤。
本申请的方法和装置提供的方案通过在注册阶段优化输入语音质量,从而让系统在计算得分模块更加精细,最终,提高唤醒率同时,还能减少相似词的误唤醒率,有效提升产品的用户体验。进一步地,注册唤醒只使用简单的特征比对,计算量低,适合在低功耗场景使用,加入通用唤醒模块,提高整体唤醒性能,在计算量和性能之间做出有效平衡,可以确保方案在实际中的可行性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种用于智能语音设备的自定义唤醒方法的流程图;
图2为本发明一实施例提供的另一种用于智能语音设备的自定义唤醒方法的流程图;
图3为本发明一实施例提供的又一种用于智能语音设备的自定义唤醒方法的流程图;
图4为本发明一实施例提供的再一种用于智能语音设备的自定义唤醒方法的流程图;
图5和图6分别为本发明一实施例提供的一种用于智能语音设备的自定义唤醒方法的具体示例图的注册流程图和测试及使用流程图;
图7为本发明一实施例提供的一种用于智能语音设备的自定义唤醒装置的框图;
图8是本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本申请的用于智能语音设备的自定义唤醒方法一实施例的流程图,本实施例的用于智能语音设备的自定义唤醒方法可以适用于具备智能语音对话唤醒和识别功能的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的支持语音唤醒和识别的智能终端等。
如图1所示,在步骤101中,接收用户设定的注册文本并采集用户的注册语音;
在步骤102中,基于注册文本计算注册唤醒阈值;
在步骤103中,基于通用唤醒模型计算注册语音的注册唤醒得分,并判断注册唤醒得分是否大于等于注册唤醒阈值;
在步骤104中,若注册唤醒得分大于等于注册唤醒阈值,将注册语音与注册文本对齐,提取注册文本中每个字对应的语音段;
在步骤105中,对每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
在本实施例中,对于步骤101,对于用户自定义唤醒词的情况,自定义唤醒装置首先需要接收用户设定的注册文本,即用户的自定义唤醒词,之后采集该用户的注册语音。然后,对于步骤102,基于用户提供的注册文本计算相应的唤醒阈值。其中,阈值是根据误唤醒次数来设置的,阈值越大,误唤醒的次数越少。通常实际应用产品要保证在24小时内,误唤醒次数要<=1。需要准备100小时的噪声音频,调整阈值满足误唤醒要求。
之后,对于步骤103,将注册语音输入至通用唤醒模型中,通过计算注册语音的注册唤醒得分是否大于等于唤醒阈值,来判断该注册语音是否与注册文本匹配,通用唤醒模型是训练用于判断语音和文本是否匹配的模型,训练方式比较现有,在此不再赘述。
然后,对于步骤104,对于注册唤醒得分大于等于唤醒阈值的情况,说明该注册语音能够成功与注册文本匹配,从而可以对该注册语音进行处理,以形成后续的特征模板。首先,将该注册语音与注册文本进行对齐,然后提取注册文本中每个字对应的语音段。之后,对于步骤105,对每个字对应的语音段分别提取高斯后验特征,基于整个注册语音中每个语音段的高斯后验特征生成整个注册语音的特征模板。
本实施例的方法通过采集用户的注册文本和注册语音,之后先使用通用唤醒模型判断注册语音是否与注册文本匹配,对于匹配的情况才进行后续处理,可以过滤掉注册语音有误的情况,避免因为源头有问题导致后续的操作无用的情况。针对匹配的情况,进行文本和语音的对齐操作,然后提取每个语音段的高斯后验特征形成整个注册语音的特征模板用来作为后续判断语音是否能唤醒的标准之一。并且基于上述步骤形成的特征模板也能更精确地判断是否唤醒,能够在一定程度上排除因为相近语音误唤醒的情况发生。
进一步参考图2,其示出了本申请的用于智能语音设备的自定义唤醒方法另一实施例的流程图,该流程图主要是在图1的基础上对后续步骤进行限定的流程图。
如图2所示,在步骤201中,接收用户的输入语音,将输入语音切分成多个语音段;
在步骤202中,提取多个语音段的高斯后验特征,基于多个语音段的高斯后验特征和特征模板计算输入语音的第一唤醒得分;
在步骤203中,若唤醒得分大于等于第一预设阈值,则基于通用唤醒模型再次计算输入语音的第二唤醒得分;
在步骤204中,若第二唤醒得分大于等于通用唤醒模型的第二预设阈值则唤醒设备。
在本实施例中,对于步骤201,在测试及使用场景下,自定义唤醒装置接收用户的输入语音,先将该输入语音切分成多个语音段。之后,对于步骤202,对于切分后的多个语音段,提取该多个语音段的高斯后验特征,然后基于该多个与印度安得高斯后验特征和在步骤105中生成的特征模板计算该输入语音的第一唤醒得分。然后,对于步骤203,判断该第一唤醒得分是否大于等于第一预设阈值,如果大于等于第一预设阈值,则可以基于先前的通用唤醒模型再次计算输入语音的第二唤醒得分。最后,对于步骤204,如果该第二唤醒得分大于等于通用唤醒模型的第二预设阈值则可以唤醒相应的设备。其中,第二预设阈值可以是前面提到的注册唤醒阈值,也可以是在该注册唤醒阈值的情况下为了适应具体的场景适当修改后的阈值,本申请在此没有限制。
本实施例的方法通过对输入语音进行两次唤醒判断可以更精确地判断唤醒,从而不会出现过多的误唤醒。其中,第一次唤醒判断中先对输入语音进行切分再逐个计算高斯后验特征,之后与特征模板进行比对得到第一唤醒得分,由于切分成了与注册语音一一对应的字的语音段,能够更精确地判断每一个语音段的匹配情况,因为计算得分可以精确到更细的粒度,所以可以有效区分与唤醒词相近的词,避免相近词出现的误唤醒情况。在第二次唤醒判断中使用训练时用到的通用唤醒模型,可以提高整体唤醒性能,在计算量和性能之间做出有效平衡,确保方案在实际中的可行性。
在一些可选的实施例中,通用唤醒模型为在噪声集上训练的用于过滤掉信噪比低的以及与注册文本无关的语音的模型。通过在噪声集上训练通用唤醒模型,可以使之能够过滤掉信噪比低的语音,从而也能更好地过滤掉与注册文本无关的语音。
进一步参考图3,其示出了本申请的用于智能语音设备的自定义唤醒方法又一实施例的流程图,该流程图主要是在图2的基础上对步骤202进一步限定的步骤的流程图。
如图3所示,在步骤301中,提取多个语音段的高斯后验特征,基于特征模板计算多个语音段中每一个语音段与特征模板中相应的语音段的匹配得分;
在步骤302中,基于多个语音段中每一个语音段的匹配得分计算输入语音整体的第一唤醒得分。
本实施例的方法通过先计算从输入语音且分出的多个语音段与特征模板中相应的语音段的匹配得分,再基于每一个语音段的匹配得分计算输入语音整体的第一唤醒得分。从而该第一唤醒得分是有每个语音段的匹配得分计算得到,能够更好地反映每一个语音段的匹配情况,同时减少相似词的误唤醒率,有效提升产品的用户体验,而且整个过程都只使用简单的特征比对,计算量低,适合在低功耗场景使用。
在一些可选的实施例中,基于多个语音段中每一个语音段的匹配得分计算输入语音整体的第一唤醒得分包括根据以下公式计算得到:
其中,i表示第i个语音段,k表示共有k个语音段,SWi表示第i个语音段的匹配得分,SK表示输入语音整体的第一唤醒得分。上述实施例计算过程简单,没有复杂的运算,计算量低,适合在低功耗场景使用。
进一步参考图4,其示出了本申请的用于智能语音设备的自定义唤醒方法再一实施例的流程图,该流程图主要是在图1的基础上对步骤103之后的步骤进一步限定的步骤的流程图。
如图4所示,在步骤401中,若注册唤醒得分小于注册唤醒阈值,提示用户注册语音有误并重新输入新的注册语音;
在步骤402中,采集用户重新输入的新的注册语音并再次基于通用唤醒模型计算新的注册语音的注册唤醒得分;
在步骤403中,判断新的注册语音的注册唤醒得分是否大于等于注册唤醒阈值。
本实施的方法通过在注册唤醒得分小于唤醒阈值的情况下,提示用户注册语音有误或者注册语音与注册文本不符,让用户重新输入新的注册语音或者新的注册语音和注册文本,然后在基于该新的注册语音重新计算和判断可以有效地过滤掉文本和语音不符的情况,防止由于文本和语音不符导致唤醒性能大幅降低的情况发生,也能让用户及时意识到问题并改正,从源头杜绝某些问题,提高唤醒性能。
下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。
发明人发现,本领域技术人员一般会采用如下方式解决现有技术中存在的缺陷:
1.为提高注册语音质量,有些方案中会加入外部环境检测,过滤掉信噪比低的注册语音;
2.通常,训练一个对所有注册都有不错性能的通用唤醒模型比较困难,需要大量训练语料和一些训练技巧。
本申请的方案提出了一种用于智能语音设备的自定义唤醒装置:
1.加入通用唤醒模块,来判断该语音是否为唤醒词语音,过滤掉与唤醒词无关的注册语音,以及信噪比低的语音。以及,使用通用唤醒模块,针对每个唤醒词,在收集的噪声集上,计算精准的阈值,确保实际使用时,不会出现过多的误唤醒的情形。
2.优化计算得分方法
针对相近注册语音容易被误唤醒,本文先计算每个字的匹配得分,然后计算唤醒词得分。因为计算得分可以精确到更细的粒度,所以可以有效区分与唤醒词相近的词。
请参考图5和图6,其分别示出了本申请的方案的一个具体实施例的注册流程图和测试及使用流程图,需要说明的是以下实施例中虽然提到了一些具体的例子,但并不用于限制本申请的方案。
如图5和图6所示:
第一,需要使用大规模的通用数据训练深度神经网络唤醒模型,尽可能对注册都有良好的性能,部署在本地和云端。
第二,用户注册语音流程
1.用户设定注册文本,及输入注册语音;
2.使用云端唤醒模型在噪声集上计算唤醒词阈值;
3.使用通用唤醒模型判断输入唤醒是否为注册,如果是,对输入语音和输入文本进行对齐,提取每个字对应的语音段;
4.对每个输入的语音段W=(f1,f2,f3,..fn),一共n帧音频,提取高斯后验特征,GP=(gp1,gp2,gp3…gpn),其中,
gpi=(P(C1|fi),P(C2|fi),P(C3|fi)…P(Cm|fi)),为第i帧的特征。而混合高斯模型C一共有m个高斯分量;
5.对每个输入的语音字特征,使用DTW算法生成特征模板T=(t1,t2,t3…tk),其中,唤醒词共包括k个字组成。
第三,用户测试及使用流程
1.用户通过设备,输入语音,提取高斯后验特征GP
2.使用已生成好的语音字模板T,及DTW算法分别计算每个字的得分SW,然后再计算整个唤醒词的得分SK
若唤醒词的得分大于阈值则送到通用唤醒模型,否则丢弃;
3.使用通用唤醒模型计算唤醒词得分,若大于阈值则唤醒,否则丢弃。
发明人在实现本申请的过程中,还采用过如下备选方案,并总结了该备选方案的优点和缺点。
不使用通用的唤醒模型,取而代之的是一个vad(语音活动检测,Voice ActivityDetection)模型。
系统注册流程
1.用户输入语音,使用vad模型截取语音段,并计算信噪比来过滤输入语音,减少语音中的噪声;
2.在计算模板时,使用vad模型输出作为输入语音权重,也就是,对于不是有效语音帧的权重低,反之则高。
系统测试流程
1.用户输入语音,经过vad模型,得到有效语音段送入得分计算模块
2.使用vad模型给输入语音计算权重,然后使用DTW算法计算得分,得分超过阈值则唤醒该系统,不需要通用唤醒模型,对设备资源要求低,计算速度快。但是在缺少通用唤醒模型,无法得到精准的注册语音,而且在计算得分是也不能精确到字级别。
上述实施例至少能够实现如下技术效果:
该种注册语音方案,在注册阶段优化输入语音质量,从而让系统在计算得分模块更加精细,最终,提高唤醒率同时,还能减少相似词的误唤醒率,有效提升产品的用户体验,而且注册唤醒只使用简单的特征比对,计算量低,适合在低功耗场景使用,加入通用唤醒模块,提高整体唤醒性能,在计算量和性能之间做出有效平衡,确保方案在实际中的可行性。
请参考图7,其示出了本发明一实施例提供的用于智能语音设备的自定义唤醒装置的框图。
如图7所示,用于智能语音设备的自定义唤醒装置700,包括注册模块710、阈值计算模块720、通用判断模块730、对齐提取模块740和模板生成模块750。
其中,注册模块710,配置为接收用户设定的注册文本并采集用户的注册语音;阈值计算模块720,配置为基于注册文本计算注册唤醒阈值;通用判断模块730,配置为基于通用唤醒模型计算注册语音的注册唤醒得分,并判断注册唤醒得分是否大于等于注册唤醒阈值;对齐提取模块740,配置为若注册唤醒得分大于等于注册唤醒阈值,将注册语音与注册文本对齐,提取注册文本中每个字对应的语音段;以及模板生成模块750,配置为对每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
在一些可选的实施例中,上述装置还包括以下模块(图中均未示出):
接收模块,配置为接收用户的输入语音,将所述输入语音切分成多个语音段;提取计算模块,配置为提取所述多个语音段的高斯后验特征,基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分;第一唤醒模块,配置为若所述唤醒得分大于等于第一预设阈值,则基于通用唤醒模型再次计算所述输入语音的第二唤醒得分;以及第二唤醒模块,配置为若所述第二唤醒得分大于等于所述通用唤醒模型的第二预设阈值则唤醒所述设备。
应当理解,图7中记载的诸模块与参考图1、图2、图3和图4中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图7中的诸模块,在此不再赘述。
值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如模板生成模块可以描述为对每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如苏模板生成模块也可以用处理器实现,在此不再赘述。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于智能语音设备的自定义唤醒方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
接收用户设定的注册文本并采集用户的注册语音;
基于所述注册文本计算注册唤醒阈值;
基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值;
若所述注册唤醒得分大于等于所述注册唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;
对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于智能语音设备的自定义唤醒装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至用于智能语音设备的自定义唤醒装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项用于智能语音设备的自定义唤醒方法。
图8是本发明实施例提供的电子设备的结构示意图,如图8所示,该设备包括:一个或多个处理器810以及存储器820,图8中以一个处理器810为例。用于智能语音设备的自定义唤醒方法的设备还可以包括:输入装置830和输出装置840。处理器810、存储器820、输入装置830和输出装置840可以通过总线或者其他方式连接,图8中以通过总线连接为例。存储器820为上述的非易失性计算机可读存储介质。处理器810通过运行存储在存储器820中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于智能语音设备的自定义唤醒方法。输入装置830可接收输入的数字或字符信息,以及产生与用于智能语音设备的自定义唤醒装置的用户设置以及功能控制有关的键信号输入。输出装置840可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于用于智能语音设备的自定义唤醒装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
接收用户设定的注册文本并采集用户的注册语音;
基于所述注册文本计算注册唤醒阈值;
基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值;
若所述注册唤醒得分大于等于所述注册唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;
对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于智能语音设备的自定义唤醒方法,包括:
接收用户设定的注册文本并采集用户的注册语音;
基于所述注册文本计算注册唤醒阈值;
基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述注册唤醒阈值;
若所述注册唤醒得分大于等于所述注册唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;
对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
2.根据权利要求1所述的方法,还包括:
接收用户的输入语音,将所述输入语音切分成多个语音段;
提取所述多个语音段的高斯后验特征,基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分;
若所述第一唤醒得分大于等于第一预设阈值,则基于通用唤醒模型再次计算所述输入语音的第二唤醒得分;
若所述第二唤醒得分大于等于所述通用唤醒模型的第二预设阈值则唤醒所述设备。
3.根据权利要求2所述的方法,其中,所述通用唤醒模型为在噪声集上训练的用于过滤掉信噪比低的以及与注册文本无关的语音的模型。
4.根据权利要求2所述的方法,其中,所述提取所述多个语音段的高斯后验特征,基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分包括:
提取所述多个语音段的高斯后验特征,基于所述特征模板计算所述多个语音段中每一个语音段与所述特征模板中相应的语音段的匹配得分;
基于所述多个语音段中每一个语音段的匹配得分计算所述输入语音整体的第一唤醒得分。
5.根据权利要求4所述的方法,其中,所述基于所述多个语音段中每一个语音段的匹配得分计算所述输入语音整体的第一唤醒得分包括根据以下公式计算得到:
其中,i表示第i个语音段,k表示共有k个语音段,SWi表示第i个语音段的匹配得分,SK表示输入语音整体的第一唤醒得分。
6.根据权利要求1所述的方法,其中,在所述判断所述注册唤醒得分是否大于等于所述唤醒阈值之后,所述方法还包括:
若所述注册唤醒得分小于所述唤醒阈值,提示所述用户注册语音有误并重新输入新的注册语音;
采集用户重新输入的新的注册语音并再次基于所述通用唤醒模型计算所述新的注册语音的注册唤醒得分;
判断所述新的注册语音的注册唤醒得分是否大于等于所述唤醒阈值。
7.一种用于智能语音设备的自定义唤醒装置,包括:
注册模块,配置为接收用户设定的注册文本并采集用户的注册语音;
阈值计算模块,配置为基于所述注册文本计算唤醒阈值;
通用判断模块,配置为基于通用唤醒模型计算所述注册语音的注册唤醒得分,并判断所述注册唤醒得分是否大于等于所述唤醒阈值;
对齐提取模块,配置为若所述注册唤醒得分大于等于所述唤醒阈值,将所述注册语音与所述注册文本对齐,提取所述注册文本中每个字对应的语音段;
模板生成模块,配置为对所述每个字对应的语音段分别提取高斯后验特征,并基于每个语音段的高斯后验特征生成整个注册语音的特征模板。
8.根据权利要求7所述的装置,还包括:
切分模块,配置为接收用户的输入语音,将所述输入语音切分成多个语音段;
第一得分计算模块,配置为提取所述多个语音段的高斯后验特征,基于所述多个语音段的高斯后验特征和所述特征模板计算所述输入语音的第一唤醒得分;
第二得分计算模块,配置为若所述唤醒得分大于等于第一预设阈值,则基于通用唤醒模型再次计算所述输入语音的第二唤醒得分;
唤醒模块,配置为若所述第二唤醒得分大于等于所述通用唤醒模型的第二预设阈值则唤醒所述设备。
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。
CN201910874424.3A 2019-09-17 2019-09-17 用于智能语音设备的自定义唤醒方法和装置 Pending CN110600029A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910874424.3A CN110600029A (zh) 2019-09-17 2019-09-17 用于智能语音设备的自定义唤醒方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910874424.3A CN110600029A (zh) 2019-09-17 2019-09-17 用于智能语音设备的自定义唤醒方法和装置

Publications (1)

Publication Number Publication Date
CN110600029A true CN110600029A (zh) 2019-12-20

Family

ID=68859971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910874424.3A Pending CN110600029A (zh) 2019-09-17 2019-09-17 用于智能语音设备的自定义唤醒方法和装置

Country Status (1)

Country Link
CN (1) CN110600029A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554289A (zh) * 2020-04-27 2020-08-18 河北雄安中税盟科技股份有限公司 一种智能语音交互方法与存储介质
CN112634894A (zh) * 2020-12-25 2021-04-09 苏州思必驰信息科技有限公司 一种唤醒方法、装置及终端
CN113096652A (zh) * 2020-01-09 2021-07-09 炬芯科技股份有限公司 语音唤醒方法及芯片系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933323A (zh) * 2016-06-01 2016-09-07 百度在线网络技术(北京)有限公司 声纹注册、认证方法及装置
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
CN108735209A (zh) * 2018-04-28 2018-11-02 广东美的制冷设备有限公司 唤醒词绑定方法、智能设备及存储介质
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109767763A (zh) * 2018-12-25 2019-05-17 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置
US20190251963A1 (en) * 2018-02-09 2019-08-15 Baidu Online Network Technology (Beijing) Co., Ltd. Voice awakening method and device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105933323A (zh) * 2016-06-01 2016-09-07 百度在线网络技术(北京)有限公司 声纹注册、认证方法及装置
CN106297777A (zh) * 2016-08-11 2017-01-04 广州视源电子科技股份有限公司 一种唤醒语音服务的方法和装置
CN108231082A (zh) * 2017-12-29 2018-06-29 广州势必可赢网络科技有限公司 一种自学习声纹识别的更新方法和装置
US20190251963A1 (en) * 2018-02-09 2019-08-15 Baidu Online Network Technology (Beijing) Co., Ltd. Voice awakening method and device
CN108735209A (zh) * 2018-04-28 2018-11-02 广东美的制冷设备有限公司 唤醒词绑定方法、智能设备及存储介质
CN109036393A (zh) * 2018-06-19 2018-12-18 广东美的厨房电器制造有限公司 家电设备的唤醒词训练方法、装置及家电设备
CN109767763A (zh) * 2018-12-25 2019-05-17 苏州思必驰信息科技有限公司 自定义唤醒词的确定方法和用于确定自定义唤醒词的装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096652A (zh) * 2020-01-09 2021-07-09 炬芯科技股份有限公司 语音唤醒方法及芯片系统
CN111554289A (zh) * 2020-04-27 2020-08-18 河北雄安中税盟科技股份有限公司 一种智能语音交互方法与存储介质
CN112634894A (zh) * 2020-12-25 2021-04-09 苏州思必驰信息科技有限公司 一种唤醒方法、装置及终端
CN112634894B (zh) * 2020-12-25 2023-02-24 思必驰科技股份有限公司 一种唤醒方法、装置及终端

Similar Documents

Publication Publication Date Title
CN107665708B (zh) 智能语音交互方法及系统
CN106534548B (zh) 语音纠错方法和装置
CN110534099B (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN105427858B (zh) 实现语音自动分类的方法及系统
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
CN110838289A (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
CN104036774A (zh) 藏语方言识别方法及系统
CN110600029A (zh) 用于智能语音设备的自定义唤醒方法和装置
CN107767861A (zh) 语音唤醒方法、系统及智能终端
CN110910885B (zh) 基于解码网络的语音唤醒方法和装置
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN109065051B (zh) 一种语音识别处理方法及装置
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110503944B (zh) 语音唤醒模型的训练和使用方法及装置
CN111312218B (zh) 神经网络的训练和语音端点检测方法及装置
CN111145732B (zh) 多任务语音识别后的处理方法及系统
CN110600008A (zh) 语音唤醒的优化方法及系统
CN105895080A (zh) 语音识别模型训练方法、说话人类型识别方法及装置
CN111179915A (zh) 基于语音的年龄识别方法及装置
CN111816216A (zh) 语音活性检测方法和装置
CN110718212A (zh) 语音唤醒方法、装置及系统、终端和计算机可读存储介质
CN105869622B (zh) 中文热词检测方法和装置
CN110491394B (zh) 唤醒语料的获取方法和装置
CN111081260A (zh) 一种唤醒词声纹的识别方法及系统
CN111091809A (zh) 一种深度特征融合的地域性口音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220