CN111341325A

CN111341325A - 声纹识别方法、装置、存储介质、电子装置

Info

Publication number: CN111341325A
Application number: CN202010090868.0A
Authority: CN
Inventors: 郜开开; 吴信朝; 周宝; 陈远旭
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2020-06-26
Also published as: WO2021159688A1

Abstract

本发明提供了一种声纹识别方法、装置、存储介质、电子装置，其中，该方法包括：实时监测是否接收到唤醒词语音；在确定接收到唤醒词语音的情况下，提取唤醒词语音的声纹特征，并将声纹特征录入声纹库；提取实时监测到的当前语音信号的声纹特征；对比当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；如果匹配到相同的声纹特征，则对当前语音信号执行语义识别并进行反馈。通过本发明，解决现有技术中多人交谈等干扰较强的场景下机器人与发出指令的说话人之间的对话被打断或中止的技术问题，实现了在背景音干扰较强的场景下仍可以保持与发出指令的说话人进行对话的技术效果。

Description

声纹识别方法、装置、存储介质、电子装置

技术领域

本发明涉及声纹识别领域，具体而言，涉及一种声纹识别方法、装置、存储介质、电子装置。

背景技术

声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人在讲话时使用的发声器官—舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。

声纹识别，也称为说话人识别，有两类，即说话人辨认和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；而后者用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。一个典型的声音识别系统的识别过程一般需要涉及如下几个步骤：声音信号的采集与量化、预处理、信号特征的提取、模板匹配识别等。

现有的声纹识别应用场景大都为智能安防、公安系统，在机器人的动态识别交互人上还未有应用。在目前的场景中，机器人经常发生两种状况：(1)在别人闲聊时，当距离过近过音量过大可以让机器人检测到语音，则机器人开始与该语音位置声源人进行互动聊天。(2)在机器人与人交互谈话时，当出现其他声源声音被识别，机器人谈话会被打断打乱甚至中止。

发明内容

本发明实施例提供了一种声纹识别方法、装置、存储介质、电子装置，以至少解决现有技术中多人交谈等干扰较强的场景下机器人与发出指令的说话人之间的对话被打断或中止的技术问题。

根据本发明的一个实施例，提供了一种声纹识别方法，包括：实时监测是否接收到唤醒词语音；在确定接收到唤醒词语音的情况下，提取唤醒词语音的声纹特征，并将声纹特征录入声纹库；提取实时监测到的当前语音信号的声纹特征；对比当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；如果匹配到相同的声纹特征，则对当前语音信号执行语义识别并进行反馈。

进一步地，在将声纹特征录入声纹库之后，该方法还包括：判断声纹库中每个声纹特征的说话人在最后一次说话的时刻之后，是否超过预设时长之内未再次说话；如果否，则删除对应的声纹特征；如果是，则更新对应声纹特征的说话人最后一次说话的时刻。

进一步地，将声纹特征录入声纹库，包括：对包括唤醒词语音的声音信号执行预处理；提取预处理后的包括唤醒词语音的声音信号中的声学特征，以得到用于表示声纹特征的特征矢量序列；将特征矢量序列存储至声纹库。

进一步地，声纹特征通过基于时间帧的特征矢量序列表示，对比当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同，包括：识别当前语音信号中的每个发音音素；提取当前语音信号中每个发音音素对应的声纹信号的特征矢量序列；计算当前语音信号每个发音音素的特征矢量序列与声纹库中存储的第一声纹特征的对应发音音素的特征矢量序列的最小距离；判断最小距离是否小于预设阈值，其中，如果小于预设阈值，则确定当前语音信号匹配到第一声纹特征。

根据本发明的另一个实施例，提供了一种声纹识别装置，该装置包括：监测模块，用于实时监测是否接收到唤醒词语音；第一提取模块，用于在确定接收到唤醒词语音的情况下，提取唤醒词语音的声纹特征，并将声纹特征录入声纹库；第二提取模块，用于提取实时监测到的当前语音信号的声纹特征；对比模块，用于对比当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；识别模块，用于如果匹配到相同的声纹特征，则对当前语音信号执行语义识别并进行反馈。

进一步地，该装置还包括：判断模块，用于判断声纹库中每个声纹特征的说话人在最后一次说话的时刻之后，是否超过预设时长之内未再次说话；第一删除模块，用于如果否，则删除对应的声纹特征；更新模块，用于如果是，则更新对应声纹特征的说话人最后一次说话的时刻。

进一步地，第一提取模块包括：预处理单元，用于对包括唤醒词语音的声音信号执行预处理；第一提取单元，用于提取预处理后的包括唤醒词语音的声音信号中的声学特征，以得到用于表示声纹特征的特征矢量序列；存储单元，用于将特征矢量序列存储至声纹库。

进一步地，声纹特征通过基于时间帧的特征矢量序列表示，对比模块包括：识别单元，用于识别当前语音信号中的每个发音音素；第二提取单元，用于提取当前语音信号中每个发音音素对应的声纹信号的特征矢量序列；计算单元，用于计算当前语音信号每个发音音素的特征矢量序列与声纹库中存储的第一声纹特征的对应发音音素的特征矢量序列的最小距离；判断单元，用于判断最小距离是否小于预设阈值，其中，如果小于预设阈值，则确定当前语音信号匹配到第一声纹特征。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，通过实时监测是否接收到唤醒词语音；在确定接收到唤醒词语音的情况下，提取唤醒词语音的声纹特征，并将声纹特征录入声纹库；提取实时监测到的当前语音信号的声纹特征；对比当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；如果匹配到相同的声纹特征，则对当前语音信号执行语义识别并进行反馈，解决现有技术中多人交谈等干扰较强的场景下机器人与发出指令的说话人之间的对话被打断或中止的技术问题，实现了在背景音干扰较强的场景下仍可以保持与发出指令的说话人进行对话的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的声纹识别方法的流程图；

图2是根据本发明实施例的声纹识别方法的动态时间规整的路径示意图；

图3是根据本发明实施例的声纹识别装置的示意图；

图4是本发明实施例的一种电子装置的硬件结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

本实施例提供了一种声纹识别方法，可以应用于具有声音接收器的电子设备，例如，手机、平板电脑等移动终端，计算机设备，智能家居电器，用于识别说话人的身份。需要说明的是，运行在不同的运算设备仅是方案在执行主体上的差异，本领域人员可预见在不同运算设备中运行能够产生相同的技术效果。可选的，本实施例提供的声纹识别方法可以应用于人工智能(Artificial Intelligence，简称AI)领域，例如，智能家居电器、机器人、语音助手等应用场景，用于对说话人身份进行识别，以确定说话人的相关信息或权限等，在利用本实施例提供的声纹识别方法进行识别之后，可以针对说话人说话的具体内容进行语义识别，以进行相应的交互。

图1为本实施例提供的一种可选的声纹识别方法的流程示意图，如图1所示，本实施例提供的声纹识别方法包括如下步骤：

步骤101，实时监测是否接收到唤醒词语音；

本实施例的执行方具有声音接收器，可以实时监听接收到的声音，包括人类的语音，并进行语音转换为文本的处理，然后判断语音转换的文本中是否包括指定的唤醒词。语音文本转换(voice-to-text，speech-to-text)是一种语音识别程序，可以将语音转换成文本，相关现有技术中的语音文本转换可以通用的识别一般人的声音，将声音转换为文字。本实施例中，语音识别可以针对接收到的所有声音信号进行转换，以确定接收到的声音所对应的自然语言的具体内容，如果人类说出唤醒词语音，则在识别正确的情况下会将语音转换为文本，得到唤醒词文本，进而使得本实施例的执行方确定接收到唤醒词文本，也即接收到唤醒词语音。

例如，本实施例应用于语音助手的场景下，可以预先指定唤醒词为“语音助手”，在实际应用时，如果本实施例的执行方对接收到的声音执行语音识别，确定语音对应的文本为“语音助手”，则确定接收到唤醒词语音。

步骤102，在确定接收到唤醒词语音的情况下，提取唤醒词语音的声纹特征，并将声纹特征录入声纹库。

声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。声纹的特征可以通过矢量来表示，得到声音对应的声纹特征矢量。声纹的特征矢量通过提取声纹特征的处理方式获得，在提取声纹特征时，可以在一句待识别的声音中，提取不同时间的声学特征形成特征矢量序列，形成该说话人的声纹特征。

提取声纹特征的一种可选的实施方式包括如下步骤：

步骤11，对包含唤醒词语音的声音信号执行预处理，例如，相关现有技术中的归一化、预加重、端点检测、加窗分帧等预处理方式，其中，端点检测可以采用相关现有技术中短时能量和短时过零率双重门限的方法。

步骤12，提取出预处理后的声音信号中的声学特征形成用于存储的第一说话人的特征矢量序列。

步骤13，将特征矢量序列存储至声纹库。

矢量也即向量，特征矢量序列包括多个矢量，是多个矢量的有序排列，其中，每个矢量又可以是多维的。特征矢量序列用于通过机器能够识别的语言(数字向量)来表示声学特征。提取声学特征可以采用相关现有技术中的提取方法，例如，采用隐马尔科夫模型(HiddenMarkovModel，简称HMM)进行建模，或者，混合高斯模型(Gaussian Mixture Model，简称GMM)-通用背景模型(Universal Background Model，简称UBM)进行建模，以得到特征矢量序列。

在确定接收到唤醒词语音的情况下，确定有说话人A期望输入语音指令或对话，由于说话人A所处的环境可能是较嘈杂的，例如，多人聊天的场景。为了防止其它说话人的语音造成的干扰，误识别其他说话人的语音内容，本实施例的执行方通过提取和保存说话人A的声纹特征，在后续接收到语音之后，利用保存的说话人A的声纹特征，辨别接收到的声音是否为说话人A发出的，如果是说话人A发出的，再执行相应的语音指令或与说话人A进行对话。相应的，在本步骤中，将根据唤醒词语音所提取出的声纹特征存储为第一说话人(也即期望输入语音指令或对话的说话人)的声纹特征。

在本实施例中，声纹库用于存储任一发出唤醒词语音的说话人的声纹特征，以用于作为后续接收到的语音信号的对比依据。声纹库中任一说话人的声纹特征如果未在预设时长内(例如，20s之内)被匹配到，说明该说话人期望结束对话，不继续发出指令或对话，因此，将未在预设时长内再次接收到语音信号的说话人的声纹特征删除。一种可选的实施方式为，在预设时长之内如果未接收到第一说话人(用于指代任意一个说话人)发出的语音信号，则删除存储的第一说话人的声纹特征。

例如，如果说话人A说出唤醒词，则说话人A的声纹特征会被存储在声纹库中，在20s之内如果说话人A不再发出声音，本实施例的执行方在接收到的声音中识别不到说话人A发出语音，则将说话人A的声纹特征在声纹库中删除。如果在20s之内，又有其他的说话人B说出了唤醒词，则将说话人B的声纹特征也存储在声纹库中，此时，声纹库中至少存储有说话人A和B的声纹特征。其原因为，我们认为任何说出唤醒词的说话人都想与本实施例的执行方进行交互，因此，将说出唤醒词的说话人的声纹特征都临时的保存在声纹库中，如果接收到的声音的声纹特征与声纹库中任一说话人的声纹特征匹配成功，则说话人的身份匹配成功，可以进行相应的响应，否则，不对该声音进行处理。又由于交互过程应该是比较连续的，如果较长时间未接收到说话人的对话，我们认为该说话人已经结束对话了，则将对应说话人的声纹特征从声纹库中删除，如果再次接收到该说话人说出唤醒词，则仍然会将提取说话人的声纹特征并存储在声纹库中。

步骤103，提取实时监测到的当前语音信号的声纹特征。

继续接收语音信号，并提取当前语音信号的声纹特征。由于说话人所处环境可能较为嘈杂，本申请实施例的执行方所接收到的语音信号可能是说出过唤醒词、期望进行对话或语音指示的说话人发出的语音，也可能是周围其它说话人发出的语音，因此，对接收到的语音信号进行声纹特征的提取，以与声纹库中存储的声纹特征进行对比。声纹特征提取的具体方法与步骤102中所用的具体方法相同，在此不再赘述，可以提取出当前语音信号的声纹特征，得到当前语音信号的声纹特征矢量。

步骤104，对比当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；

在确定当前语音信号的声纹特征之后，将其与存储的所有说话人的声纹特征逐一进行匹配，判断当前语音信号的声纹特征是否与任一说话人的声纹特征相匹配。

具体的，在匹配声纹特征时，可以计算当前语音信号的声纹特征的特征矢量序列与每个说话人声纹模型的对数似然得分(或似然得分)，根据对数似然得分是否超过预设阈值判断是否与对应的说话人声纹模型相匹配。

可选的，在对比当前语音信号的声纹特征和第一说话人的声纹特征时，可以采用特征矢量法结合动态时间规整(Dynamic Time Warping，DTW)的方法。动态时间规整的基本原理是，采用动态规划的方法，将一个复杂的全局最优化问题，逐步转化成多个简单的局部最优化问题，一步步进行决策。其主要解决了声音信号由于发音过程中各音素持续时间不一致，导致的特征参数矢量序列在时间上对不齐的问题。对于特征矢量组，只有当矢量长度相同时，对应特征矢量的比较，全局失真度才会有意义。因此用DTW方法在时间上对发音的各音素进行规整，把待比较向量进行压缩或者拉伸至与模板一样长。

具体的，利用动态时间规整的方式对比两个声纹特征的方法包括如下步骤：

步骤21，通过语音识别方法识别当前语音信号中的每个发音音素。本实施例中，发音音素是发音的基本划分单位，是根据语音的自然属性划分出来的最小语音单位，依据音节里的发音动作来分析，一个动作构成一个音素。音素分为元音与辅音两大类。例如，对于中文，发音音素可以包括各个声母和各个韵母。利用语音识别的方法，可以确定语音信号中每个发音音素具体是什么。

步骤22，提取当前语音信号中每个发音音素对应的声纹信号的特征矢量序列。

需要说明的是，本实施例中，特征矢量序列为基于时间帧的特征矢量序列，也即，将待提取声纹特征的一段声音按照时间间隔划分为多个时间帧，针对每一帧的信号提取声纹特征的特征矢量，得到的特征矢量序列中包括多个特征矢量，每个特征矢量为对应时间间隔内的声纹信号的特征矢量。

在识别出发音音素之后，在当前语音信号中截取该发音音素起止时间之内的声纹信号，以得到说话人发出对应发音音素的声纹信号。进而，将该发音音素按照预设时间间隔划分为多帧，提取每一帧的特征矢量，得到针对该发音因素的特征矢量序列，特征矢量序列包括按时间排序的所有帧的特征矢量。

步骤23，计算当前语音信号每个发音音素的特征矢量序列与第一说话人对应发音音素的语音信号的特征矢量序列的最小距离。

需要说明的是，第一说话人的不同发音音素的特征矢量序列的是在声纹库中保存的，在需要比对时提取出来。第一说话人的不同发音音素的特征矢量序列的生成方式与上述确定当前语音信号的发音音素的特征矢量序列的方式相同，在此不再赘述。

例如，假设第一说话人的语音信号中音素b的声纹特征(作为参考模板)的特征矢量序列为X＝{x1,x2,……,xn}，当前语音信号(待判定的声音)中音素b的声纹特征的特征矢量序列为Y＝{y1,y2,……,ym}，其中，n，m是序列的长度，确定两个矢量序列间的最小距离，相当于求取两个矢量序列之间距离的函数的最小值，其中，两个矢量序列之间的距离可以看做是对各帧矢量xi和yj之间距离的计算再求和，例如，分别对比x1～x5与y3之间的矢量距离，如果x2与y3之间的矢量距离更近，则确定x2与y3对齐，进而，对y4与序列X中的哪个元素对齐进行判断，需要说明的是，由于语音信号是具有连续性的，虽然时长不同，但发声的顺序是相同的，因此，表现在对两个特征矢量序列进行对比时，如果待判定声音的特征序列Y中某一个元素yj的前一个元素y(j-1)与参考模板X中的一个元素xi对齐，那么，yj对齐的元素只能是xi以及xi之后的元素。求取两个矢量序列之间的最小距离，也可以视作是确定两个语音信号的最小失真度。

如图2所示，横坐标表示Y的各个帧的特征矢量，纵坐标表示参考模板X的各个帧特征矢量，通过这些表示帧号的整数坐标画出横线、纵线构成一个网格，网格中的交叉点表示Y中的某一帧矢量与参考模板中的某一帧矢量的距离。DTW算法，就是要找到一条通过此网格中若干个交叉点的路径，使得X和Y的距离最小(如图2中的弯折线)。当然，弯折路径不是随便选择的，首先声音的各音素可能有快慢，但其前后顺序肯定是不会变的，所以路径必须从左下角出发，右上角结束。其次，路径的倾斜度也不能是任意的，可以根据两个声音信号的时长的对比确定路径最大的倾斜度值，如果不限制倾斜度，可能会出现对齐误差，例如，将Y序列中较靠后面的一个元素与X序列中较靠前面的一个元素对齐，因此，限制路径的倾斜度可以避免出现这种问题，例如，可以设定最大斜率为2，最小斜率为0.5。如图2中的菱形范围。

步骤24，判断最小距离是否小于预设阈值，如果小于预设阈值，则确定当前语音信号为第一说话人发出的语音信号。

上述实施例中，通过计算最小距离的方式，使得时间维度上声音信号中的发音音素的时长压缩或者拉伸至与第一说话人对应的发音音素的时长，对声音信号的发音音素在时间维度上进行规整，使得声音信号中的发音音素与第一说话人的发音音素时长相等。

步骤105，如果匹配到相同的声纹特征，则对当前语音信号执行语义识别并进行反馈。

可选的，在反馈之前，先判断当前语音信号与第一说话人的前序语音信号(前一次语音信号的末端点时刻)的时间间隔是否超过预设时长，如果当前语音信号与第一说话人的前序语音信号的间隔时间不超过预设时长，则存储当前语音信号的接收时间，并针对当前语音信号的语义内容进行反馈。存储的接收时间用于作为下一轮语音信号判断时间间隔是否超过预设时长的依据。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种声纹识别装置，该装置用于实现上述实施例1及其优选实施方式，对于本实施例中未详述的术语或实现方式，可参见实施例1中的相关说明，已经进行过说明的不再赘述。

如以下所使用的术语“模块”，是可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可以被构想的。

图3是根据本发明实施例的声纹识别装置的示意图，如图3所示，该装置包括：监测模块10，第一提取模块20，第二提取模块30，对比模块40和识别模块50。

其中，监测模块，用于实时监测是否接收到唤醒词语音；第一提取模块，用于在确定接收到唤醒词语音的情况下，提取唤醒词语音的声纹特征，并将声纹特征录入声纹库；第二提取模块，用于提取实时监测到的当前语音信号的声纹特征；对比模块，用于对比当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；识别模块，用于如果匹配到相同的声纹特征，则对当前语音信号执行语义识别并进行反馈。

可选的，该装置还包括：判断模块，用于判断声纹库中每个声纹特征的说话人在最后一次说话的时刻之后，是否超过预设时长之内未再次说话；第一删除模块，用于如果否，则删除对应的声纹特征；更新模块，用于如果是，则更新对应声纹特征的说话人最后一次说话的时刻。

可选的，第一提取模块包括：预处理单元，用于对包括唤醒词语音的声音信号执行预处理；第一提取单元，用于提取预处理后的包括唤醒词语音的声音信号中的声学特征，以得到用于表示声纹特征的特征矢量序列；存储单元，用于将特征矢量序列存储至声纹库。

可选的，声纹特征通过基于时间帧的特征矢量序列表示，对比模块包括：识别单元，用于识别当前语音信号中的每个发音音素；第二提取单元，用于提取当前语音信号中每个发音音素对应的声纹信号的特征矢量序列；计算单元，用于计算当前语音信号每个发音音素的特征矢量序列与声纹库中存储的第一声纹特征的对应发音音素的特征矢量序列的最小距离；判断单元，用于判断最小距离是否小于预设阈值，其中，如果小于预设阈值，则确定当前语音信号匹配到第一声纹特征。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。以电子装置为电子装置为例，图4是本发明实施例的一种电子装置的硬件结构框图。如图4所示，电子装置可以包括一个或多个(图4中仅示出一个)处理器302(处理器302可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器304，可选地，上述电子装置还可以包括用于通信功能的传输设备306以及输入输出设备308。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。

存储器304可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的图像的识别方法对应的计算机程序，处理器302通过运行存储在存储器304内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器304可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器304可进一步包括相对于处理器302远程设置的存储器，这些远程存储器可以通过网络连接至电子装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置306用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的无线网络。在一个实例中，传输装置306包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置306可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

实时监测是否接收到唤醒词语音；

在确定接收到所述唤醒词语音的情况下，提取所述唤醒词语音的声纹特征，并将所述声纹特征录入声纹库；

提取实时监测到的当前语音信号的声纹特征；

对比所述当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；

如果匹配到相同的声纹特征，则对所述当前语音信号执行语义识别并进行反馈。

2.根据权利要求1所述的方法，其特征在于，在将所述声纹特征录入声纹库之后，所述方法还包括：

判断所述声纹库中每个所述声纹特征的说话人在最后一次说话的时刻之后，是否超过预设时长之内未再次说话；

如果否，则删除对应的声纹特征；

如果是，则更新对应声纹特征的说话人最后一次说话的时刻。

3.根据权利要求1所述的方法，其特征在于，所述将所述声纹特征录入声纹库，包括：

对包括所述唤醒词语音的声音信号执行预处理；

提取预处理后的包括所述唤醒词语音的声音信号中的声学特征，以得到用于表示所述声纹特征的特征矢量序列；

将所述特征矢量序列存储至所述声纹库。

4.根据权利要求3所述的方法，其特征在于，所述声纹特征通过基于时间帧的特征矢量序列表示，所述对比所述当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同，包括：

识别所述当前语音信号中的每个发音音素；

提取所述当前语音信号中每个发音音素对应的声纹信号的特征矢量序列；

计算所述当前语音信号每个发音音素的特征矢量序列与所述声纹库中存储的第一声纹特征的对应发音音素的特征矢量序列的最小距离；

判断所述最小距离是否小于预设阈值，其中，如果小于所述预设阈值，则确定所述当前语音信号匹配到所述第一声纹特征。

5.一种声纹识别装置，其特征在于，所述装置包括：

监测模块，用于实时监测是否接收到唤醒词语音；

第一提取模块，用于在确定接收到所述唤醒词语音的情况下，提取所述唤醒词语音的声纹特征，并将所述声纹特征录入声纹库；

第二提取模块，用于提取实时监测到的当前语音信号的声纹特征；

对比模块，用于对比所述当前语音信号的声纹特征与声纹库中存储的任一声纹特征是否相同；

识别模块，用于如果匹配到相同的声纹特征，则对所述当前语音信号执行语义识别并进行反馈。

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

判断模块，用于判断所述声纹库中每个所述声纹特征的说话人在最后一次说话的时刻之后，是否超过预设时长之内未再次说话；

第一删除模块，用于如果否，则删除对应的声纹特征；

更新模块，用于如果是，则更新对应声纹特征的说话人最后一次说话的时刻。

7.根据权利要求5所述的装置，其特征在于，所述第一提取模块包括：

预处理单元，用于对包括所述唤醒词语音的声音信号执行预处理；

第一提取单元，用于提取预处理后的包括所述唤醒词语音的声音信号中的声学特征，以得到用于表示所述声纹特征的特征矢量序列；

存储单元，用于将所述特征矢量序列存储至所述声纹库。

8.根据权利要求7所述的装置，其特征在于，所述声纹特征通过基于时间帧的特征矢量序列表示，所述对比模块包括：

识别单元，用于识别所述当前语音信号中的每个发音音素；

第二提取单元，用于提取所述当前语音信号中每个发音音素对应的声纹信号的特征矢量序列；

计算单元，用于计算所述当前语音信号每个发音音素的特征矢量序列与所述声纹库中存储的第一声纹特征的对应发音音素的特征矢量序列的最小距离；

判断单元，用于判断所述最小距离是否小于预设阈值，其中，如果小于所述预设阈值，则确定所述当前语音信号匹配到所述第一声纹特征。

9.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1至4任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至4任一项中所述的方法。