CN108345777A

CN108345777A - 用户声音信息的识别方法及装置

Info

Publication number: CN108345777A
Application number: CN201710054959.7A
Authority: CN
Inventors: 袁文华
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2017-01-24
Filing date: 2017-01-24
Publication date: 2018-07-31
Also published as: WO2018137426A1

Abstract

本发明提供了一种用户声音信息的识别方法及装置，其中该方法包括：获取用户的声音信息；提取声音信息的第一语言特征和语音特征；查找与语音特征对应的预先设置的第二语言特征；根据第一语言特征和第二语言特征的第一比较结果确定声音信息是否合法，本发明技术方案解决了现有的口令识别技术或声纹识别技术的密钥较为容易被他人窃取或者盗用，继而给用户在经济上造成损失，用户体验度差的问题，达到有效地将口令识别技术和声纹识别技术相结合，通过综合考虑用户的声音信息的语言特征和语音特征，提高了身份识别的安全性，大大降低了密钥被他人窃取或者盗用的概率，提高了用户体验度的效果。

Description

用户声音信息的识别方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种用户声音信息的识别方法及装置。

背景技术

相关技术中，身份识别系统包括人脸识别、指纹识别、声纹识别、密码识别和口令识别。

口令识别是指用户输入或说出一个或多个字、短语或句子作为验证的密钥，但是该识别技术只能用于简单的识别场合，密钥容易被窃取或盗用。

声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱，人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官，如，舌、牙齿、喉头、肺以及鼻腔，在尺寸和形态上个体差异很大，因此，任何两个人的声纹图谱均会存在差异。尽管每个人的语音学特性并不是一成不变的，具有变异性，会受到生理、病理、心理、模拟、伪装以及环境的因素的影响，但是声纹识别技术相对于口令识别技术还是更加安全的。

但是仅仅只采用声纹识别技术对于用户身份的识别还是存在安全上的风险的，因为语音学特征仍可以通过一定的技术进行模仿，如，非法录取用户讲话时的语音信息，通过该盗录的语音信息模仿用户的声音，导致用户的身份信息被盗用，给用户造成经济上的损失。

因此，相关技术中并不存在将口令识别技术和声纹识别技术相结合综合考虑用户的语言特征和语音特征的识别方法，而现有的口令识别技术或声纹识别技术的密钥较为容易被他人窃取或者盗用，继而给用户在经济上造成损失，用户体验度差。

针对上述问题，相关技术中尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种用户声音信息的识别方法及装置，以至少解决相关技术中口令识别技术或声纹识别技术的密钥较为容易被他人窃取或者盗用，继而给用户在经济上造成损失，用户体验度差的问题。

根据本发明的一个实施例，提供了一种用户声音信息的识别方法，包括：获取用户的声音信息；提取所述声音信息的第一语言特征和语音特征；查找与所述语音特征对应的预先设置的第二语言特征；根据所述第一语言特征和所述第二语言特征的第一比较结果确定所述声音信息是否合法。

可选地，根据所述第一语言特征和所述第二语言特征的第一比较结果确定所述声音信息是否合法，包括：根据所述第一比较结果确定所述第一语言特征与所述第二语言特征之间的向量相似度；根据所述向量相似度与预设阈值的比较结果确定所述声音信息是否合法，其中，当所述比较结果指示所述向量相似度大于或等于所述预设阈值时，确定所述声音信息合法。

可选地，所述预设阈值为多个所述第二语言特征之间的向量相似度的平均值。

可选地，查找与所述语音特征对应的预先设置的第二语言特征，包括：查找与所述语音特征对应的用户标识信息；根据所述用户标识信息获取所述第二语言特征。

可选地，所述语音特征与所述用户标识信息的对应关系通过以下方式确定：以预先输入的语音特征和用户标识信息作为神经网络模型的输入，在所述神经网络模型中进行训练学习，得到所述对应关系。

可选地，所述第一语言特征和所述第二语音特征为梅尔频谱倒数(Mel FrequencyCepstral Coefficents，简称为MFCC)；所述语音特征为线性倒谱系数(Linear PredictionCepstrum Coefficient，简称为LPCC)。

可选地，所述第一语言特征和所述第二语音特征包括声纹特征；所述语音特征包括用户口令的语言学内容。

根据本发明的另一个实施例，提供了一种用户声音信息的识别装置，包括：获取模块，用于获取用户的声音信息；提取模块，用于提取所述声音信息的第一语言特征和语音特征；查找模块，用于查找与所述语音特征对应的预先设置的第二语言特征；确定模块，用于根据所述第一语言特征和所述第二语言特征的第一比较结果确定所述声音信息是否合法。

可选地，所述确定模块还用于根据所述第一比较结果确定所述第一语言特征与所述第二语言特征之间的向量相似度；以及根据所述向量相似度与预设阈值的比较结果确定所述声音信息是否合法，其中，当所述比较结果指示所述向量相似度大于或等于所述预设阈值时，确定所述声音信息合法。

可选地，所述查找模块还用于查找与所述语音特征对应的用户标识信息；以及根据所述用户标识信息获取所述第二语言特征。

根据本发明的另一个实施例，还提供了一种存储介质。该存储介质设置为存储用于执行以下步骤的程序代码：获取用户的声音信息；提取所述声音信息的第一语言特征和语音特征；查找与所述语音特征对应的预先设置的第二语言特征；根据所述第一语言特征和所述第二语言特征的第一比较结果确定所述声音信息是否合法。

可选地，存储介质还设置为存储用于执行以下步骤的程序代码：根据所述第一比较结果确定所述第一语言特征与所述第二语言特征之间的向量相似度；根据所述向量相似度与预设阈值的比较结果确定所述声音信息是否合法，其中，当所述比较结果指示所述向量相似度大于或等于所述预设阈值时，确定所述声音信息合法。

可选地，存储介质还设置为存储用于执行以下步骤的程序代码：查找与所述语音特征对应的用户标识信息；根据所述用户标识信息获取所述第二语言特征。

可选地，存储介质还设置为存储用于执行以下步骤的程序代码：以预先输入的语音特征和用户标识信息作为神经网络模型的输入，在所述神经网络模型中进行训练学习，得到所述对应关系。

通过本发明，由于获取和提取声音信息的语言特征和语音特征，并且根据该语音特征查找对应的语言特征，根据语言特征之间的比较结果确定声音信息是否合法，实现了在身份识别的过程中综合考虑用户的声音信息的语言特征和语音特征。本发明的技术方案解决了相关技术中不存在将口令识别和声纹识别技术相结合综合考虑用户的语言特征和语音特征的识别方法，而现有的口令识别技术或声纹识别技术的密钥较为容易被他人窃取或者盗用，继而给用户在经济上造成损失，用户体验度差的问题，达到有效地将口令识别技术和声纹识别技术相结合，通过综合考虑用户的声音信息的语言特征和语音特征，提高了身份识别的安全性，大大降低了密钥被他人窃取或者盗用的概率，提高了用户体验度的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种用户声音信息的识别方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的用户声音信息的识别方法的流程图；

图3是根据本发明可选实施例的用户声音信息的识别装置的结构框图；

图4是根据本发明可选实施例的用户声音信息的识别方法的流程图(一)；

图5是根据本发明可选实施例的用户声音信息的识别方法的流程图(二)；

图6是根据本发明实施例的用户声音信息的识别装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为便于理解本申请实施例，以下对本申请实施例中所涉及的技术术语解释如下：

向量相似度：为语言特征向量之间的相似度，通常用向量之间的距离来表示，如欧式距离、余弦距离等。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种用户声音信息的识别方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的用户声音信息的识别方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于图1所示的计算机终端的用户声音信息的识别方法，图2是根据本发明实施例的用户声音信息的识别方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，获取用户的声音信息；

步骤S204，提取声音信息的第一语言特征和语音特征；

步骤S206，查找与语音特征对应的预先设置的第二语言特征；

步骤S208，根据第一语言特征和第二语言特征的第一比较结果确定声音信息是否合法。

在本步骤中，声音信息包括语言特征和语音特征，其中，语言特征为用户口令的具体内容，语音特征为声音信息中提取的声纹特征。具体为：当用户发出口令“开灯”时，该“开灯”两个字为用户声音信息的语言特征，而用户通过发音器官发出的声音的特征为语音特征。

通过上述步骤，由于获取和提取声音信息的语言特征和语音特征，并且根据该语音特征查找对应的语言特征，根据语言特征之间的比较结果确定声音信息是否合法，实现了在身份识别的过程中综合考虑用户的声音信息的语言特征和语音特征。本发明的技术方案解决了相关技术中不存在将口令识别和声纹识别技术相结合综合考虑用户的语言特征和语音特征的识别方法，而现有的口令识别技术或声纹识别技术的密钥较为容易被他人窃取或者盗用，继而给用户在经济上造成损失，用户体验度差的问题，达到有效地将口令识别技术和声纹识别技术相结合，通过综合考虑用户的声音信息的语言特征和语音特征，提高了身份识别的安全性，大大降低了密钥被他人窃取或者盗用的概率，提高了用户体验度的效果。

可选地，上述步骤的执行主体可以为单片机等数据处理设备，但不限于此。

在一个可选的实施例中，可以通过如下操作方式执行步骤S208：根据第一比较结果确定第一语言特征与第二语言特征之间的向量相似度；根据向量相似度与预设阈值的比较结果确定声音信息是否合法，其中，当上述比较结果指示向量相似度大于或等于预设阈值时，确定声音信息合法。

在本实施例中，第二语言特征可以为多个语言特征，当第一语言特征与第二语言特征进行比较时，可以依次判断该第一语言特征与各个第二语言特征之间的向量相似度，然后取向量相似度的平均值，但是并不限于此。由于本实施例采用了向量相似度与阈值比较的方法判断声音信息是否合法，实现了快速准确地对用户的身份进行判断，提高了根据语言特征识别用户身份的准确率。

在一个可选的实施例中，上述预设阈值为多个第二语言特征之间的向量相似度的平均值。在本实施例中，在对于阈值进行设置的过程中，可以多次重复采集用户的语言特征，继而得到各个采集语言特征之间的向量相似度的平均值，该平均值较为客观准确地反映了用户声音信息的语言特征，防止了由于某次采集的语言特征受到干扰导致采集结果不准确的问题。

在一个可选的实施例中，可以通过如下的操作方式执行步骤S206：查找与语音特征对应的用户标识信息；根据用户标识信息获取第二语言特征。

在本实施例中，用户标识信息可以由整型字符串或名字的字符串构成，一般为用户的ID，该用户标识信息由系统分配并且唯一。

在一个可选的实施例中，上述语音特征与用户标识信息的对应关系通过以下方式确定：以预先输入的语音特征和用户标识信息作为神经网络模型的输入，在神经网络模型中进行训练学习，得到对应关系。

在本实施例中，上述神经网络模型可以为深度神经网络识别模型，如卷积神经网络(Convolutional Neural Network，简称为CNN)。在初始化过程中，需要预训练深度神经网络模型。在预训练时，需要较大的训练集，训练集的内容是预先输入的语音特征和用户标识信息，预训练的过程是标准的深度神经网络训练过程，将训练集的内容逐条输入到深度神经网络中，根据输出和用户标识信息的比对通过误差反向传播(Error BackPropagation，简称为BP)算法优化神经网络的参数，循环进行，直到模型的精度达到要求。通过采用神经网络模型以及训练学习的方法，可以有效地获取语音特征与用户标识信息的对应关系，实现根据用户的声音信息的语音特征快速准确地查找与其对应的用户标识信息。

在一个可选的实施例中，第一语言特征和第二语音特征为MFCC；语音特征为LPCC。

在本实施例中，语音特征可以采用LPCC作为特征参数，LPCC参数则具有计算高效的优点,并且比较彻底地去掉了语音产生过程中的激励信息，有效地反映了声道响应，需要的LPCC较少，十几个LPCC就能描述语音信号的共振峰特性。

在一个可选的实施例中，上述第一语言特征和第二语音特征包括声纹特征；语音特征包括用户口令的语言学内容。

在一个可选的实施例中，图3是根据本发明可选实施例的用户声音信息的识别装置的结构框图，如图3所示，该装置包括：声音录入模块32，用于采集声音信息；语言特征识别模块34，用于在声音信息中提取语言特征；语音特征识别模块36，用于在声音信息中提取语音特征；特征比较模块38，用于比较语言特征和向量相似度；特征存储模块310，用于存储预先设置的语言特征、与语言特征对应的用户标识信息、预设阈值、和语音特征与用户标识信息的对应关系；识别结果输出模块312，用于将确定声音信息是否合法的指示信息进行输出。

在一个可选的实施例中，图4是根据本发明可选实施例的用户声音信息的识别方法的流程图(一)，如图4所示，该流程包括：

步骤S402，声音录入模块32采集用户的口令密码的声音信息；

步骤S404，语言特征识别模块34将声音信息进行傅里叶变换得到该声音信息的频谱，对该频谱取对数后进行逆傅立叶变换得到MFCC；

步骤S406，声音录入模块32和语言特征识别模块34重复上述采集和获取操作，直到获取n个MFCC，其中，n≥2；

步骤S408，特征比较模块38将n个MFCC进行两两比较，得到多个向量相似度并对上述多个向量相似度取平均，得到预设阈值；

步骤S410，语音特征识别模块36在声音信息中提取LPCC；将LPCC和用户的ID输入到预训练的深度神经网络模型中，在该深度神经网络模型进行训练学习；

步骤S412，声音录入模块32和语音特征识别模块36重复上述采集和训练学习操作，直到深度神经网络模型的测试效果达到指定要求；

步骤S414，存储模块310存储n个MFCC、与MFCC对应的用户的ID、预设阈值、以及LPCC与用户的ID之间的对应关系。

本实施例为用户初次使用用户声音信息的识别装置时，该装置对于相关参数进行配置的操作，在本实施例中，声音录入模块32可以通过麦克风进行声音信息的采集。

在一个可选的实施例中，图5是根据本发明可选实施例的用户声音信息的识别方法的流程图(二)，如图5所示，该流程包括：

步骤S502，声音录入模块32采集用户的口令密码的声音信息；

步骤S504，语言特征识别模块34将声音信息进行傅里叶变换得到该声音信息的频谱，对该频谱取对数后进行逆傅立叶变换得到MFCC；

步骤S506，语音特征识别模块36在声音信息中提取LPCC；将LPCC输入到预训练的深度神经网络模型中，得到用户的ID；

步骤S508，特征比较模块38在存储模块310中查找与得到的用户的ID对应的MFCC；并将查找到的MFCC与在口令密码的声音信息中提取到MFCC进行比较，得到向量相似度；将该向量相似度与预设阈值进行比较，当向量相似度大于或等于预设阈值时，口令密码的声音信息为合法，用户身份识别成功；当向量相似度小于预设阈值时，口令密码的声音信息为非法，用户身份识别失败；

步骤S510，识别结果输出模块312将特征比较模块38确定的用户身份识别成功或者失败的识别结果进行输出。

本实施例的上述方法步骤可以应用与以下场景中，但是并不限于此。

用户回家时在家门口发出“开门”指令；用户声音信息的识别装置提示输入口令，用户说出预设的口令密码“我是房主”；识别装置录入该口令密码并根据该口令密码的语音特征确定预设的语言特征；识别装置将口令密码提取的语言特征与预设的语言特征进行比较得到向量相似度；将向量相似度与预设阈值进行比较，当向量相似度大于或等于预设阈值时，门自动打开；当向量相似度小于预设阈值时，提示用户重新输入口令密码。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种用户声音信息的识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的用户声音信息的识别装置的结构框图，如图6所示，该装置包括获取模块62，用于获取用户的声音信息；提取模块64，用于提取声音信息的第一语言特征和语音特征；查找模块66，用于查找与语音特征对应的预先设置的第二语言特征；确定模块68，用于根据第一语言特征和第二语言特征的第一比较结果确定声音信息是否合法。

在一个可选的实施例中，上述确定模块68还用于根据第一比较结果确定第一语言特征与第二语言特征之间的向量相似度；以及根据向量相似度与预设阈值的比较结果确定声音信息是否合法，其中，当比较结果指示向量相似度大于或等于预设阈值时，确定声音信息合法。

在一个可选的实施例中，上述查找模块66还用于查找与语音特征对应的用户标识信息；以及根据用户标识信息获取第二语言特征。

本实施例在模块的划分上与实施例1存在不同，在本实施例中，获取模块62与实施例1中的声音录入模块32类似，但增加了一些新的功能特征；提取模块64与实施例1中的语言特征识别模块34和语音特征识别模块36类似，但增加了一些新的功能特征；在本实施例中通过查找模块66和确定模块68来实现实施例1中的特征比较模块38的功能。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的程序代码：S1，获取用户的声音信息；S2，提取声音信息的第一语言特征和语音特征；S3，查找与语音特征对应的预先设置的第二语言特征；S4，根据第一语言特征和第二语言特征的第一比较结果确定声音信息是否合法。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：S1，根据第一比较结果确定第一语言特征与第二语言特征之间的向量相似度；S2，根据向量相似度与预设阈值的比较结果确定声音信息是否合法，其中，当所述比较结果指示所述向量相似度大于或等于所述预设阈值时，确定所述声音信息合法。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：S1，查找与语音特征对应的用户标识信息；S2，根据用户标识信息获取第二语言特征。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户声音信息的识别方法，其特征在于，包括：

获取用户的声音信息；

提取所述声音信息的第一语言特征和语音特征；

查找与所述语音特征对应的预先设置的第二语言特征；

根据所述第一语言特征和所述第二语言特征的第一比较结果确定所述声音信息是否合法。

2.根据权利要求1所述的方法，其特征在于，根据所述第一语言特征和所述第二语言特征的第一比较结果确定所述声音信息是否合法，包括：

根据所述第一比较结果确定所述第一语言特征与所述第二语言特征之间的向量相似度；

根据所述向量相似度与预设阈值的比较结果确定所述声音信息是否合法，其中，当所述比较结果指示所述向量相似度大于或等于所述预设阈值时，确定所述声音信息合法。

3.根据权利要求2所述的方法，其特征在于，所述预设阈值为多个所述第二语言特征之间的向量相似度的平均值。

4.根据权利要求1所述的方法，其特征在于，查找与所述语音特征对应的预先设置的第二语言特征，包括：

查找与所述语音特征对应的用户标识信息；

根据所述用户标识信息获取所述第二语言特征。

5.根据权利要求4所述的方法，其特征在于，所述语音特征与所述用户标识信息的对应关系通过以下方式确定：

以预先输入的语音特征和用户标识信息作为神经网络模型的输入，在所述神经网络模型中进行训练学习，得到所述对应关系。

6.根据权利要求1至5任一项所述的方法，其特征在于，

所述第一语言特征和所述第二语音特征为梅尔频谱倒数MFCC；

所述语音特征为线性倒谱系数LPCC。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述第一语言特征和所述第二语音特征包括声纹特征；

所述语音特征包括用户口令的语言学内容。

8.一种用户声音信息的识别装置，其特征在于，包括：

获取模块，用于获取用户的声音信息；

提取模块，用于提取所述声音信息的第一语言特征和语音特征；

查找模块，用于查找与所述语音特征对应的预先设置的第二语言特征；

确定模块，用于根据所述第一语言特征和所述第二语言特征的第一比较结果确定所述声音信息是否合法。

9.根据权利要求8所述的装置，其特征在于，所述确定模块还用于根据所述第一比较结果确定所述第一语言特征与所述第二语言特征之间的向量相似度；以及根据所述向量相似度与预设阈值的比较结果确定所述声音信息是否合法，其中，当所述比较结果指示所述向量相似度大于或等于所述预设阈值时，确定所述声音信息合法。

10.根据权利要求8所述的装置，其特征在于，所述查找模块还用于查找与所述语音特征对应的用户标识信息；以及根据所述用户标识信息获取所述第二语言特征。