CN111179941A - 智能设备唤醒方法、注册方法及装置 - Google Patents
智能设备唤醒方法、注册方法及装置 Download PDFInfo
- Publication number
- CN111179941A CN111179941A CN202010009821.7A CN202010009821A CN111179941A CN 111179941 A CN111179941 A CN 111179941A CN 202010009821 A CN202010009821 A CN 202010009821A CN 111179941 A CN111179941 A CN 111179941A
- Authority
- CN
- China
- Prior art keywords
- voice
- feature
- user identity
- characteristic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000004927 fusion Effects 0.000 claims abstract description 91
- 238000000605 extraction Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 28
- 239000013598 vector Substances 0.000 claims description 23
- 238000010276 construction Methods 0.000 claims description 17
- 239000012634 fragment Substances 0.000 claims description 17
- 238000003062 neural network model Methods 0.000 claims description 16
- 230000002618 waking effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 description 12
- 238000013461 design Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种智能设备唤醒方法、注册方法及装置,在本发明中,智能设备首先接收用户发出的待识别语音,然后从待识别语音中提取出第一语音片段,接着使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征,最后,当所述融合语音特征与预设语音特征的距离不超过预设阈值时,则唤醒所述智能设备。本发明使用融合模型将语音内容和用户身份融合在一起,用来唤醒智能设备,提高了智能设备唤醒正确率。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及以一种智能设备唤醒方法、注册方法及装置。
背景技术
随着人工智能的发展,具备语音交互功能的智能设备应用越来越广泛,为了提高智能设备的便捷性和安全性,智能设备需兼顾良好的语音交互能力和隐私保护能力。其中,语音交互能力主要是通过语音唤醒来激活智能设备实现;而隐私保护能力则主要是通过对用户进行声纹信息识别以区分激活智能设备的用户来实现。
为达到上述目的,在现有技术中,处于待机状态的智能设备需要首先对输入智能设备的唤醒语音进行唤醒词识别,通过唤醒词确定用户是否要唤醒智能设备;在确定用户需要唤醒智能设备之后,再对输入该智能设备的身份识别语音进行声纹识别,通过声纹识别进行身份验证,只有在身份验证通过后,该智能设备才会被唤醒。
由于上述唤醒过程需要经过唤醒词识别和声纹识别两个识别阶段,而两个识别阶段均有一定的识别错误率,将两个阶段识别错误率叠加之后,会使得智能设备唤醒正确率降低。
发明内容
本申请提供了智能设备唤醒方法、注册方法及装置,以解决现有技术中,智能设备唤醒过程需要经过唤醒词识别和声纹识别两个识别阶段,而两个识别阶段均有一定的识别错误率,将两个阶段识别错误率叠加之后,会使得智能设备唤醒正确率降低的问题。
第一方面,本申请实施例提供一种智能设备唤醒方法,包括:
接收待识别语音;
从所述待识别语音中提取出第一语音片段;
使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征;
如果所述融合语音特征与预设语音特征的距离不超过预设阈值,则唤醒所述智能设备。
结合第一方面,在一种实现方式中,使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征,包括:
使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征;
使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征;
使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征。
结合第一方面,在一种实现方式中,使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征,包括:
使用语音神经网络模型对所述第一语音片段进行识别,并提取出第一语音内容特征,其中,所述第一语音内容特征是描述语音内容的特征参数对应的向量。
结合第一方面,在一种实现方式中,使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征,包括:
使用声纹神经网络模型对所述第一语音片段进行识别,并提取出第一用户身份特征,其中,所述第一用户身份特征是描述用户身份的特征参数对应的向量。
结合第一方面,在一种实现方式中,使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征,包括:
使用特征重构模块将所述第一语音内容特征和所述第一用户身份特征进行向量拼接,得到融合语音特征。
第二方面,本申请实施例部分提供了一种智能设备注册方法,所述方法包括:
接收注册语音;
从所述注册语音中提取出第二语音片段;
使用预先构建的融合模型对从所述第二语音片段中提取出的第二语音内容特征和第二用户身份特征进行融合,得到预设语音特征。
结合第一方面或第二方面,在一种实现方式中,构建所述融合模型的步骤包括:
获取训练样本;
通过分类损失函数确定训练样本对应的语音内容损失值;
通过分类损失函数以及三元组损失函数确定训练样本对应的用户身份类别损失值;
通过均方差损失函数确定训练样本对应的特征重构损失值;
根据语音内容损失值、用户身份类别损失值以及特征重构损失值确定目标损失函数;
以所述目标损失函数最小为目标,迭代所述融合模型的参数,完成所述融合模型的构建。
第三方面,本申请实施例部分提供了一种智能设备唤醒装置,包括:
第一接收模块,用于接收待识别语音;
第一提取模块,用于从所述待识别语音中提取出第一语音片段;
第一融合模块,用于使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征;
智能设备唤醒模块,用于在所述融合语音特征与预设语音特征的距离不超过预设阈值时,唤醒所述智能设备。
结合第三方面,在一种实现方式中,所述第一融合模块,包括:
第一语音内容特征提取单元,用于使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征;
第一用户身份特征提取单元,用于使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征;
融合语音特征获得单元,用于使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征。
结合第三方面,在一种实现方式中,所述第一语音内容特征提取单元,包括:
第一语音内容特征提取子单元,用于使用语音神经网络模型对所述第一语音片段进行识别,并提取出第一语音内容特征,其中,所述第一语音内容特征是描述语音内容的特征参数对应的向量。
结合第三方面,在一种实现方式中,所述第一用户身份特征提取单元,包括:
第一用户身份特征提取子单元,用于使用声纹神经网络模型对所述第一语音片段进行识别,并提取出第一用户身份特征,其中,所述第一用户身份特征是描述用户身份的特征参数对应的向量。
结合第三方面,在一种实现方式中,所述融合语音特征获得单元,包括:
融合语音特征获得子单元,用于使用特征重构模块将所述第一语音内容特征和所述第一用户身份特征进行向量拼接,得到融合语音特征。
第四方面,本申请实施例部分提供了一种智能设备注册装置,所述装置包括:
第二接收模块,用于接收注册语音;
第二提取模块,用于从所述注册语音中提取出第二语音片段;
第二融合模块,用于使用预先构建的融合模型对从所述第二语音片段中提取出的第二语音内容特征和第二用户身份特征进行融合,得到预设语音特征。
结合第三方面或第四方面,在一种实现方式中,所述装置还包括:融合模型构建模块,所述融合模型构建模块包括:
获取单元,用于获取训练样本;
语音内容损失值确定单元,用于通过分类损失函数确定训练样本对应的语音内容损失值;
用户身份类别损失值确定单元,用于通过分类损失函数以及三元组损失函数确定训练样本对应的用户身份类别损失值;
特征重构损失值确定单元,用于通过均方差损失函数确定训练样本对应的特征重构损失值;
目标损失函数确定单元,用于根据语音内容损失值、用户身份类别损失值以及特征重构损失值确定目标损失函数;
融合模型构建单元,用于以所述目标损失函数最小为目标,迭代所述融合模型的参数,完成所述融合模型的构建。
本发明的实施例提供的技术方案可以包括以下有益效果:
在本发明中,智能设备首先接收用户发出的待识别语音,然后从待识别语音中提取出第一语音片段,接着使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征,最后,当所述融合语音特征与预设语音特征的距离不超过预设阈值时,则唤醒所述智能设备。本发明使用融合模型将语音内容和用户身份融合在一起,用来唤醒智能设备,提高了智能设备唤醒正确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明一示例性实施例示出的一种智能设备唤醒方法的流程图;
图2是根据本发明一示例性实施例示出的一种智能设备唤醒方法中,步骤S103的流程图;
图3是根据本发明一示例性实施例示出的一种智能设备注册方法的流程图;
图4是根据本发明一示例性实施例示出的一种智能设备注册方法中,步骤S203的流程图;
图5是根据本发明一示例性实施例示出的一种智能设备唤醒或注册方法的示意图;
图6是根据本发明一示例性实施例示出的一种智能设备唤醒装置的示意图;
图7是根据本发明一示例性实施例示出的一种智能设备唤醒装置中,第一融合模块的示意图;
图8是根据本发明一示例性实施例示出的一种智能设备注册装置的示意图;
图9是根据本发明一示例性实施例示出的一种智能设备注册装置中,第二融合模块的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
图1是根据本发明一示例性实施例示出的一种智能设备唤醒方法的流程图。作为示例该方法可用于智能设备中的处理器,通常情况下,所述智能终端可以具有语音输入输出接口。
参见图1所示,该方法可以包括:
步骤S101,接收待识别语音。
本步骤中,智能设备首先接收用户发出的待识别语音,所述待识别语音通常为用户发出的一段音频,例如“小飞小飞”。
步骤S102,从所述待识别语音中提取出第一语音片段。
通常,第一语音片段包括多个待识别语音的描述信息,例如:语速、能量置信度、音频质量、语音内容(字、词等)、用户身份(声纹信息)等。
本步骤的目的是对步骤S101中接收到的待识别语音进行处理,获得第一语音片段。对于第一语音片段具体的提取方法,可根据实际需要,选用现有的方法,例如filterbank、MFCC、PLP、PNCC等,在此,本实施例不做详述。
步骤S103,使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征。
本步骤中,所述融合模型用于将第一语音内容特征和第一用户身份特征进行融合,进而得到融合语音特征;在融合之前,所述融合模型还用于从步骤S102提取的第一语音片段中提取出的第一语音内容特征和第一用户身份特征。
例如,对于张三的一句音频,如“小飞小飞”,经过步骤S101和S102处理之后,使用融合模型对其进行融合,获得的融合语音特征中融合了“小飞小飞”文本信息(即第一语音内容特征)和张三的声纹信息(即第一用户身份特征)。
对于具体如何从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征,以及融合过程,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S104,如果所述融合语音特征与预设语音特征的距离不超过预设阈值,则唤醒所述智能设备。
本步骤中,在步骤S103中获得的融合语音特征与预设语音特征的距离不超过预设阈值,则唤醒所述智能设备,反之,该智能设备不能被唤醒。其中,预设阈值可根据实际需求设定。
步骤S103中得到的融合语音特征既包括了第一语音片段中的语音内容又包括了用户身份,直接采用该融合特征对智能设备进行唤醒,无需分阶段识别,提高了智能设备唤醒正确率。
对于具体如何获取预设语音特征本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
本实施例中,智能设备首先接收用户发出的待识别语音,然后从待识别语音中提取出第一语音片段,接着使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征,最后,当所述融合语音特征与预设语音特征的距离不超过预设阈值时,则唤醒所述智能设备。本发明使用融合模型将语音内容和用户身份融合在一起,用来唤醒智能设备,提高了智能设备唤醒正确率。
下面进一步对融合模型的具体实现方式进行举例说明。
参照图2所示,在本实施例或本发明其他某些实施例中,使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征,即步骤S103,可以包括如下子步骤:
步骤S1031,使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征。
所述语音模型的作用是从所述第一语音片段中提取出描述待识别语音的语音内容的第一语音内容特征。
对于具体的提取方法本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S1032,使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征。
所述声纹模型的作用是从所述第一语音片段中提取出描述待识别语音的用户身份的第一用户身份特征。
对于具体的提取方法本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
步骤S1033,使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征。
所述声纹模型的作用是将所述第一语音内容特征和第一用户身份特征进行特征重构,以得到融合语音特征。
本实施例中,融合模型包括语音模型、声纹模型以及特征重构模块,融合模型先对所述第一语音片段进行特征提取,得到第一语音内容特征和第一用户身份特征,然后再对第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征。
对于具体的融合方法本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计、选择,可以在此处使用的这些设计和选择都没有背离本发明的精神和保护范围。
下面对使用语音模型对第一语音内容特征的具体获取过程再进行举例说明。
在本实施例或本发明其他某些实施例中,使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征,可以包括:
使用语音神经网络模型对所述第一语音片段进行识别,并提取出第一语音内容特征,其中,所述第一语音内容特征是描述语音内容的特征参数对应的向量。
其中,所述语音模型可以为神经网络模型,例如:CNN模型,也可以是其他神经网络模型。所述语音模型可采用交叉熵准则进行训练。
作为示例,本实施例中的语音模型可采用输出为二分类和音素序列的multi-task结构,task1的音素序列预测采用encoder-decoder模型,预测目标为音素序列,task2的二分类的两个类别分别为唤醒词和非唤醒词,预测是否为指定唤醒词。将第一语音片段中指定唤醒词和指定因素序列的语音内容输出为第一语音内容特征,所述第一语音内容特征可以为语音模型中最后一层隐层向量。
本实施例的目的是使用语音神经网络模型,对所述第一语音片段进行识别,以提取出第一语音内容特征,所述第一语音内容特征是描述语音内容的特征参数对应的向量,比如张三的音频“小飞小飞”这句话,对应的第一语音内容特征(“小飞小飞”)向量化后可以为一个100维的向量。
下面对使用声纹模型获取第一用户身份特征的具体获取过程再进行举例说明。
在本实施例或本发明其他某些实施例中,使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征,可以包括:
使用声纹神经网络模型对所述第一语音片段进行识别,并提取出第一用户身份特征,其中,所述第一用户身份特征是描述用户身份的特征参数对应的向量。
其中,所述声纹模型同样可以采用神经网络模型,例如:CNN模型,也可以是其他神经网络模型。所述声纹模型可采用交叉熵准则进行训练,所述声纹模型可直接预测说话人身份类别,将符合特定用户身份的信息输出为第一用户身份特征,所述第一用户身份特征可以为语音模型中最后一层隐层向量。
本实施例的目的是使用声纹神经网络模型对所述第一语音片段进行识别,并提取出第一用户身份特征,其中,所述第一用户身份特征是描述用户身份的特征参数对应的向量,例如:张三的音频“小飞小飞”这句话,对应的第一用户身份特征(张三)向量化后可以为一个100维的向量。
下面对使用特征重构模块获取融合语音特征的具体获取过程再进行举例说明。
在本实施例或本发明其他某些实施例中,使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征,可以包括:
使用特征重构模块将所述第一语音内容特征和所述第一用户身份特征进行向量拼接,得到融合语音特征。
本实施例中,所述特征重构模块用于将声纹模型语音模型提取的第一语音内容特征和声纹模型提取的第一用户身份特征进行向量拼接,然后用batch normalization进行归整即可得到融合语音特征,例如:张三的音频“小飞小飞”这句话,使用特征重构模块之后得到一个200维的向量,再用batch normalization进行归整,得到融合语音特征。
图3是根据本发明一示例性实施例示出的一种智能设备注册方法的流程图。参照图3,该方法可以包括:
步骤S201,接收注册语音。
其中,注册语音可以为智能设备常用用户的特定音频,例如张三的发出“小飞小飞”。
步骤S202,从所述注册语音中提取出第二语音片段。
该步骤的具体提取过程可参照步骤S102。
步骤S203,使用预先构建的融合模型对从所述第二语音片段中提取出的第二语音内容特征和第二用户身份特征进行融合,得到预设语音特征。
该步骤的具体实现原理可参照步骤S103,在此不做详细描述。
由于注册语音的随机性较大,因此,为了避免注册过程中出现失误,提高预设语音特征的精确度,所述方法还可以包括:
步骤S204,对多个预设语音特征取平均值,将该平均值作为最终的预设语音特征,以完成注册。
该实施例中首先要获得同一用户的多个注册语音,分别按照步骤S201-S203重复相应的次数,获得多个预设语音特征,然后对多个预设语音特征取平均值,获得最终的预设语音特征,该预设语音特征可以包含用户不同状态下输入的注册语音,精确度更高,使得智能设备唤醒的成功率更高。
另外,本实施例获得的预设语音特征可以用于计算与步骤S104中获取的融合语音特征之间的距离,进而判断智能设备是否被唤醒。
下面对融合模型的具体构建过程再进行举例说明。
模型的构建过程也是模型的训练过程,也就是说所述融合模型需要先进行训练,才能进行使用。参照图4所示,在本实施例或本发明其他某些实施例中,构建所述融合模型的步骤包括:
步骤S2031,获取训练样本。
本步骤中,智能设备首先接收训练样本,为提高融合模型的精确度,所述训练样本可包括多个注册语音。
步骤S2032,通过分类损失函数确定训练样本对应的语音内容损失值。
本步骤中,语音内容损失值用于调节融合模型具有的文本分类能力,一般采用分类损失函数(即softmax loss函数)来确定,其中,损失越小表明融合模型的文本分类能力越强,语音内容的损失越小。
步骤S2033,通过分类损失函数以及三元组损失函数确定训练样本对应的用户身份类别损失值。
本步骤中,用户身份类别损失值用于调节融合模型的说话人身份识别能力,一般采用分类损失函数(即softmax loss函数)以及三元组损失函数(即triplet loss函数)确定,其中,损失越小表明融合模型的说话人身份识别能力越强,三元组损失函数首先在分类之后的训练样本中选择一个样本,该样本称为Anchor,然后再随机选取一个和Anchor属于同一类的样本称为Positive以及一个不同类的样本称为Negative,由此构成一个(Anchor,Positive,Negative)三元组,训练时,使Anchor,Positive之间的距离最小,同时使得Anchor,Positive与Negative之间的差值最大,才能使得用户身份类别损失值最小。
步骤S2034,通过均方差损失函数确定训练样本对应的特征重构损失值。
本步骤中,特征重构损失值用于调节融合模型的特征重构能力,一般采用均方差损失函数(即MSE Loss函数)来确定,其中,损失越小表明融合模型的输入和输出的差距越小,即特征重构能力越强。
步骤S2035,根据语音内容损失值、用户身份类别损失值以及特征重构损失值确定目标损失函数。
本步骤中,根据语音内容损失值、用户身份类别损失值以及特征重构损失值确定目标损失函数,具体的,可以采用以下公式计算目标损失函数:
Floss=αlosswakeup+βlossvoiceprint+γlossmse
其中,Floss为目标损失函数,α、β和γ为超参数,可以通过模型训练获得,losswakeup为语音内容损失值,lossvoiceprint为用户身份类别损失值,lossmse为特征重构损失值。
步骤S2036,以所述目标损失函数最小为目标,迭代所述融合模型的参数,完成所述融合模型的构建。
本步骤,以步骤S2035中获得的目标函数的值最小为目标,迭代所述融合模型的参数,进而所述融合模型的构建,具体迭代过程可采用现有技术中的方法,本实施例不做具体限定。
在实际应用过程中,所述语音内容损失值、用户身份类别损失值以及特征重构损失值同时训练,因此,融合模型结合上述三方面的损失值,使得经过所述融合模型融合之后得到的融合语音特征,被智能设备识别的成功率更高。
下面结合具体示例对上述唤醒方法或者注册方法作进一步说明,参照图5所示,
以唤醒方法为例,输入音频(该音频为待识别语音)经过VAD(语音活动检测,VoiceActivity Detection)之后,对该音频进行特征提取,获得第一语音片段,将第一语音片段分别输入语音模型和声纹模型,语音模型是用于文本分类的,模型表征的embedding1为文本信息(即第一语音内容特征),声纹模型是用于说话人分类的,模型表征的embedding2为说话人信息(即第一用户身份)。将embedding1和embedding2作为联合输入,后接另一神经网络网络,称之为特征重构模块,特征重构模块基于MSE准则,可恢复出原始特征,因此,前面的隐层embedding(即融合语音特征)同时涵盖文本信息和说话人信息,可以用于唤醒智能设备。
注册方法与唤醒方法类似,在此不做详细描述。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图6是根据本发明一示例性实施例示出的一种智能设备唤醒装置的示意图。参见图5所示,该装置可以包括:
第一接收模块601,用于接收待识别语音;
第一提取模块602,用于从所述待识别语音中提取出第一语音片段;
第一融合模块603,用于使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征;
智能设备唤醒模块604,用于在所述融合语音特征与预设语音特征的距离不超过预设阈值时,唤醒所述智能设备。
参照图7,所述第一融合模块603,包括:
第一语音内容特征提取单元6031,用于使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征;
第一用户身份特征提取单元6032,用于使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征;
融合语音特征获得单元6033,用于使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征。
可选地,在一种实现方式中,所述第一语音内容特征提取单元,包括:
第一语音内容特征提取子单元,用于使用语音神经网络模型对所述第一语音片段进行识别,并提取出第一语音内容特征,其中,所述第一语音内容特征是描述语音内容的特征参数对应的向量。
可选地,在一种实现方式中,所述第一用户身份特征提取单元,包括:
第一用户身份特征提取子单元,用于使用声纹神经网络模型对所述第一语音片段进行识别,并提取出第一用户身份特征,其中,所述第一用户身份特征是描述用户身份的特征参数对应的向量。
可选地,在一种实现方式中,所述融合语音特征获得单元,包括:
融合语音特征获得子单元,用于使用特征重构模块将所述第一语音内容特征和所述第一用户身份特征进行向量拼接,得到融合语音特征。
图8是根据本发明一示例性实施例示出的一种智能设备注册装置的示意图。参见图7所示,该装置可以包括:
第二接收模块801,用于接收注册语音;
第二提取模块802,用于从所述注册语音中提取出第二语音片段;
第二融合模块803,用于使用预先构建的融合模型对从所述第二语音片段中提取出的第二语音内容特征和第二用户身份特征进行融合,得到预设语音特征。
预设语音特征获取模块804,用于对多个预设语音特征取平均值,将该平均值作为最终的预设语音特征,以完成注册。
参照图9,所述装置还包括:融合模型构建模块,所述融合模型构建模块包括:
获取单元901,用于获取训练样本;
语音内容损失值确定单元902,用于通过分类损失函数确定训练样本对应的语音内容损失值;
用户身份类别损失值确定单元903,用于通过分类损失函数以及三元组损失函数确定训练样本对应的用户身份类别损失值;
特征重构损失值确定单元904,用于通过均方差损失函数确定训练样本对应的特征重构损失值;
目标损失函数确定单元905,用于根据语音内容损失值、用户身份类别损失值以及特征重构损失值确定目标损失函数;
融合模型构建单元906,用于以所述目标损失函数最小为目标,迭代所述融合模型的参数,完成所述融合模型的构建。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
此外,本申请中的术语“第一”、“第二”仅用于区分目的,而不能理解为指示或暗示相对重要性。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (11)
1.一种智能设备唤醒方法,其特征在于,包括:
接收待识别语音;
从所述待识别语音中提取出第一语音片段;
使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征;
如果所述融合语音特征与预设语音特征的距离不超过预设阈值,则唤醒所述智能设备。
2.根据权利要求1所述的方法,其特征在于,使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征,包括:
使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征;
使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征;
使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征。
3.根据权利要求2所述的方法,其特征在于,使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征,包括:
使用语音神经网络模型对所述第一语音片段进行识别,并提取出第一语音内容特征,其中,所述第一语音内容特征是描述语音内容的特征参数对应的向量。
4.根据权利要求2所述的方法,其特征在于,使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征,包括:
使用声纹神经网络模型对所述第一语音片段进行识别,并提取出第一用户身份特征,其中,所述第一用户身份特征是描述用户身份的特征参数对应的向量。
5.根据权利要求3或4所述的方法,其特征在于,使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征,包括:
使用特征重构模块将所述第一语音内容特征和所述第一用户身份特征进行向量拼接,得到融合语音特征。
6.一种智能设备注册方法,其特征在于,所述方法包括:
接收注册语音;
从所述注册语音中提取出第二语音片段;
使用预先构建的融合模型对从所述第二语音片段中提取出的第二语音内容特征和第二用户身份特征进行融合,得到预设语音特征。
7.根据权利要求1或6所述的方法,其特征在于,构建所述融合模型的步骤包括:
获取训练样本;
通过分类损失函数确定训练样本对应的语音内容损失值;
通过分类损失函数以及三元组损失函数确定训练样本对应的用户身份类别损失值;
通过均方差损失函数确定训练样本对应的特征重构损失值;
根据语音内容损失值、用户身份类别损失值以及特征重构损失值确定目标损失函数;
以所述目标损失函数最小为目标,迭代所述融合模型的参数,完成所述融合模型的构建。
8.一种智能设备唤醒装置,其特征在于,包括:
第一接收模块,用于接收待识别语音;
第一提取模块,用于从所述待识别语音中提取出第一语音片段;
第一融合模块,用于使用预先构建的融合模型对从所述第一语音片段中提取出的第一语音内容特征和第一用户身份特征进行融合,得到融合语音特征;
智能设备唤醒模块,用于在所述融合语音特征与预设语音特征的距离不超过预设阈值时,唤醒所述智能设备。
9.根据权利要求8所述的装置,其特征在于,所述第一融合模块,包括:
第一语音内容特征提取单元,用于使用语音模型对所述第一语音片段进行特征提取,得到第一语音内容特征;
第一用户身份特征提取单元,用于使用声纹模型对所述第一语音片段进行特征提取,得到第一用户身份特征;
融合语音特征获得单元,用于使用特征重构模块对所述第一语音内容特征和第一用户身份特征进行特征重构,得到融合语音特征。
10.一种智能设备注册装置,其特征在于,所述装置包括:
第二接收模块,用于接收注册语音;
第二提取模块,用于从所述注册语音中提取出第二语音片段;
第二融合模块,用于使用预先构建的融合模型对从所述第二语音片段中提取出的第二语音内容特征和第二用户身份特征进行融合,得到预设语音特征。
11.根据权利要求8或10所述的装置,其特征在于,所述装置还包括:融合模型构建模块,所述融合模型构建模块包括:
获取单元,用于获取训练样本;
语音内容损失值确定单元,用于通过分类损失函数确定训练样本对应的语音内容损失值;
用户身份类别损失值确定单元,用于通过分类损失函数以及三元组损失函数确定训练样本对应的用户身份类别损失值;
特征重构损失值确定单元,用于通过均方差损失函数确定训练样本对应的特征重构损失值;
目标损失函数确定单元,用于根据语音内容损失值、用户身份类别损失值以及特征重构损失值确定目标损失函数;
融合模型构建单元,用于以所述目标损失函数最小为目标,迭代所述融合模型的参数,完成所述融合模型的构建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010009821.7A CN111179941B (zh) | 2020-01-06 | 2020-01-06 | 智能设备唤醒方法、注册方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010009821.7A CN111179941B (zh) | 2020-01-06 | 2020-01-06 | 智能设备唤醒方法、注册方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111179941A true CN111179941A (zh) | 2020-05-19 |
CN111179941B CN111179941B (zh) | 2022-10-04 |
Family
ID=70654516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010009821.7A Active CN111179941B (zh) | 2020-01-06 | 2020-01-06 | 智能设备唤醒方法、注册方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111179941B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420054A (zh) * | 2020-11-20 | 2021-02-26 | 湖北第二师范学院 | 一种基于说话人向量复用的语音识别系统及方法 |
CN112634869A (zh) * | 2020-12-09 | 2021-04-09 | 鹏城实验室 | 命令词识别方法、设备及计算机存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1610294A (zh) * | 2003-10-24 | 2005-04-27 | 阿鲁策株式会社 | 声纹认证系统和声纹认证程序 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
WO2015180368A1 (zh) * | 2014-05-27 | 2015-12-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN106340298A (zh) * | 2015-07-06 | 2017-01-18 | 南京理工大学 | 融合内容识别和话者识别的声纹解锁方法 |
US20170287491A1 (en) * | 2016-03-30 | 2017-10-05 | Le Holdings (Beijing) Co., Ltd. | Unlocking Method and Electronic Device |
CN107767861A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
WO2018169639A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc | Recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
US20180336889A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and Apparatus of Building Acoustic Feature Extracting Model, and Acoustic Feature Extracting Method and Apparatus |
CN108986809A (zh) * | 2018-08-30 | 2018-12-11 | 广东小天才科技有限公司 | 一种便携式设备及其唤醒方法和装置 |
CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
CN109711350A (zh) * | 2018-12-28 | 2019-05-03 | 武汉大学 | 一种基于唇部运动和语音融合的身份认证方法 |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110634492A (zh) * | 2019-06-13 | 2019-12-31 | 中信银行股份有限公司 | 登录验证方法、装置、电子设备及计算机可读存储介质 |
-
2020
- 2020-01-06 CN CN202010009821.7A patent/CN111179941B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1610294A (zh) * | 2003-10-24 | 2005-04-27 | 阿鲁策株式会社 | 声纹认证系统和声纹认证程序 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
WO2015180368A1 (zh) * | 2014-05-27 | 2015-12-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN106340298A (zh) * | 2015-07-06 | 2017-01-18 | 南京理工大学 | 融合内容识别和话者识别的声纹解锁方法 |
US20170287491A1 (en) * | 2016-03-30 | 2017-10-05 | Le Holdings (Beijing) Co., Ltd. | Unlocking Method and Electronic Device |
CN107767861A (zh) * | 2016-08-22 | 2018-03-06 | 科大讯飞股份有限公司 | 语音唤醒方法、系统及智能终端 |
WO2018169639A1 (en) * | 2017-03-17 | 2018-09-20 | Nec Laboratories America, Inc | Recognition in unlabeled videos with domain adversarial learning and knowledge distillation |
US20180336889A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Online Network Technology (Beijing) Co., Ltd . | Method and Apparatus of Building Acoustic Feature Extracting Model, and Acoustic Feature Extracting Method and Apparatus |
CN108986809A (zh) * | 2018-08-30 | 2018-12-11 | 广东小天才科技有限公司 | 一种便携式设备及其唤醒方法和装置 |
CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
CN109711350A (zh) * | 2018-12-28 | 2019-05-03 | 武汉大学 | 一种基于唇部运动和语音融合的身份认证方法 |
CN109903774A (zh) * | 2019-04-12 | 2019-06-18 | 南京大学 | 一种基于角度间隔损失函数的声纹识别方法 |
CN110634492A (zh) * | 2019-06-13 | 2019-12-31 | 中信银行股份有限公司 | 登录验证方法、装置、电子设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
MIN HUANG ET AL: "Speech Scenario Adaptation and Discourse Topic Recognition on Mobile Smart Terminal", 《2015 INTERNATIONAL CONFERENCE ON COMPUTATIONAL SCIENCE AND COMPUTATIONAL INTELLIGENCE》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420054A (zh) * | 2020-11-20 | 2021-02-26 | 湖北第二师范学院 | 一种基于说话人向量复用的语音识别系统及方法 |
CN112420054B (zh) * | 2020-11-20 | 2022-07-12 | 湖北第二师范学院 | 一种基于说话人向量复用的语音识别系统及方法 |
CN112634869A (zh) * | 2020-12-09 | 2021-04-09 | 鹏城实验室 | 命令词识别方法、设备及计算机存储介质 |
CN112634869B (zh) * | 2020-12-09 | 2023-05-26 | 鹏城实验室 | 命令词识别方法、设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111179941B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN105096940B (zh) | 用于进行语音识别的方法和装置 | |
CN109273007B (zh) | 语音唤醒方法及装置 | |
CN104143327B (zh) | 一种声学模型训练方法和装置 | |
CN108320738B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN107767861B (zh) | 语音唤醒方法、系统及智能终端 | |
CN112100349A (zh) | 一种多轮对话方法、装置、电子设备及存储介质 | |
CN106448663A (zh) | 语音唤醒方法及语音交互装置 | |
CN104143326A (zh) | 一种语音命令识别方法和装置 | |
CN111462756B (zh) | 声纹识别方法、装置、电子设备及存储介质 | |
CN105632486A (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN110570873A (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN109887511A (zh) | 一种基于级联dnn的语音唤醒优化方法 | |
CN111161728B (zh) | 一种智能设备的唤醒方法、装置、设备及介质 | |
CN112259101B (zh) | 语音关键词识别方法、装置、计算机设备和存储介质 | |
CN111179941B (zh) | 智能设备唤醒方法、注册方法及装置 | |
CN112151015A (zh) | 关键词检测方法、装置、电子设备以及存储介质 | |
CN114550703A (zh) | 语音识别系统的训练方法和装置、语音识别方法和装置 | |
EP3493201B1 (en) | Information processing device, information processing method, and computer program | |
CN112687291A (zh) | 一种发音缺陷识别模型训练方法以及发音缺陷识别方法 | |
CN115457938A (zh) | 识别唤醒词的方法、装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |