CN113903343A - 语音认证方法及其装置、存储介质、电子设备 - Google Patents
语音认证方法及其装置、存储介质、电子设备 Download PDFInfo
- Publication number
- CN113903343A CN113903343A CN202111284601.6A CN202111284601A CN113903343A CN 113903343 A CN113903343 A CN 113903343A CN 202111284601 A CN202111284601 A CN 202111284601A CN 113903343 A CN113903343 A CN 113903343A
- Authority
- CN
- China
- Prior art keywords
- data
- authentication
- right channel
- voice data
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 108091006146 Channels Proteins 0.000 claims description 324
- 238000004364 calculation method Methods 0.000 claims description 41
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Collating Specific Patterns (AREA)
Abstract
本申请实施例的语音认证方法及其装置、存储介质、电子设备,通过采集认证语音数据;读取预设的样本语音数据;拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;判断左声道相似度和右声道相似度是否均大于等于预设阈值;如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。以实现通过语音进行身份认证,且认证方式简便,安全性好,管理成本低。
Description
技术领域
本申请实施例涉及信息安全技术领域,尤其涉及一种语音认证方法及其装置、存储介质、电子设备。
背景技术
在信息安全领域,多使用数字证书或密码验证的方式进行安全认证。例如,应用到税务领域的嵌入式税控设备,自身通过数字证书或密码的管理,达到税务、企业、设备之间的安全管理目的。但是因为企业一般存在多人多业务共享税控设备的情况,密码一般都是多人共享,在对关键的业务上没有独立的认证机制,而且进行密码输入并在设备内进行认证,应用程序需要在关键业务上弹出密码交互界面,该方法影响环节较多,稳定性有所降低;而使用多个数字证书,对于应用规模较大的税务行业来说,管理成本会提升。
发明内容
有鉴于此,本申请实施例提供一种数据处理方法及装置,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种语音认证方法,包括:采集认证语音数据;读取预设的样本语音数据;拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;判断左声道相似度和右声道相似度是否均大于等于预设阈值;如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。
可选地,将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度,包括:截取认证语音数据的左/右声道数据,以及样本语音数据的左/右声道数据,得到两组初始左/右声道数据序列;将两组初始左/右声道数据序列进行卷积计算,得到一组卷积值;分别获取一组卷积值中绝对值最大的卷积值在两组初始左/右声道数据序列中对应的位置;截取两组初始左/右声道数据序列中位置往后的声道数据,得到两组待处理左/右声道序列;根据两组待处理声左/右道序列计算得到左/右声道相似度。
可选地,根据两组待处理左/右声道序列计算得到左/右声道比对相似度,包括:对两组待处理左/右声道序列进行皮尔森线性相关度计算,得到两组待处理左/右声道序列的相关度;判断相关度的绝对值是否大于等于预设阈值;如果相关度的绝对值大于等于预设阈值,对两组待处理左/右声道序列进行二次计算得到左/右声道比对相似度。
可选地,如果相关度的绝对值大于等于预设阈值,对两组待处理左/右声道序列进行二次计算得到左/右声道比对相似度,包括:如果相关度的绝对值大于等于预设阈值,对两组待处理左/右声道序列分别进行梅尔倒谱计算,并分别提取特征值;对特征值进行余弦相似度计算,得到左/右声道比对相似度。
可选地,该方法还包括:采集样本语音数据并存储。
根据本申请实施例的第二方面,提供了一种语音认证装置,该装置包括:采集模块,用于采集认证语音数据;数据处理模块,用于将认证语音数据与样本语音数据进行比对得到相似度;判断模块,用于判断相似度是否大于等于预设阈值;结果输出模块,用于如果相似度大于等于预设阈值,则认证通过。
可选地,数据处理模块,还用于读取样本语音数据,拆分认证语音数据和样本语音数据的左声道数据和右声道数据,将认证语音数据和样本语音数据的左声道数据进行对比得到左声道比对相似度,认证语音数据和样本语音数据的右声道数据进行对比得到右声道比对相似度。
可选地,采集模块,还用于采集样本语音数据。
根据本申请实施例的第三方面,提供了一种存储介质,该存储介质存储有计算机程序,处理器执行存储介质上存储的计算机程序时,能够实现本申请权利要求1-5的任意一种语音认证方法。
根据本申请实施例的第四方面,提供了一种嵌入式税控设备,该设备包括存储器和处理器,存储器上存储有可执行程序,处理器运行可执行程序时,能够实现本申请权利要求1-5的任意一种语音认证方法。
本申请实施例的语音认证方法及其装置、存储介质、电子设备,通过采集认证语音数据;读取预设的样本语音数据;拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;判断左声道相似度和右声道相似度是否均大于等于预设阈值;如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。以实现通过语音进行身份认证,且认证方式简便,安全性好,管理成本低。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请一种语音认证方法的实施例的流程图;
图2为本申请一种语音认证方法的一个应用场景的流程图;
图3为本申请一种语音认证装置的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一、
参见图1,该语音认证方法,包括:
S101、采集认证语音数据。
具体地,认证语音数据是指需要进行身份认证的用户的语音数据。可以通过语音录制的方式采集语音数据。语音录制基于ALSA(Advanced Linux Sound Architecture)架构实现音频的捕获,通过创建音频句柄来获取捕获音频的资源,再对音频的硬件参数和软件参数进行设定后,可对音频句柄进行读取,实现音频从麦克风拾取编码功能。因为音频输入连续不断,采用另起线程的方式在后台运行,线程的执行函数循环体由前端发送启停命令控制,从而决定音频录入的有效时间。在完成音频录入后,将音频数据保存到文件。
示例性地,录制语音的具体过程可以如下:
步骤1001、设定PCM设备节点,打开音频,捕获句柄;
步骤1002、申请硬件参数结构体,用来配置底层ALSA硬件参数;
步骤1003、配置数据交错存放方式、采样率、位宽、立体声、周期数等;
步骤1004、设置硬件参数结构体到指定句柄;
步骤1005、申请软件参数结构体;
步骤1006、配置启停阈值到软件参数结构体上;
步骤1007、设置软件参数结构体到指定句柄;
步骤1008、启动录音开始的使能开关;
步骤1009、创建读音频线程,执行函数是每隔10毫秒读取一次数据的循环体;
步骤1010、停止录音的使能开关;
步骤1011、记录音频数据到指定文件。
可选地,该方法还包括:采集样本语音数据并存储。
需要说明的是,样本数据是指作为后续语音认证的样本进行对比,以起到认证标准作用的语音数据。采集样本语音数据的方式与上述采集认证语音数据的方式一样,具体不做赘述。
通过采集样本语音数据并存储,可以实现根据客户需求进行样本语音数据的采集、更换、存储,使得管理具有认证资格的用户和更换具有认证资格的用户更加方便。
S102、读取预设的样本语音数据。
具体地,预设的样本语音数据是指通过上述语音录制方法提前录制并存储在指定语音文件中的语音数据,在进行本步骤时,将样本语音数据从指定语音文件读入到内存中,用来与上述采集的认证语音数据进行比对。
S103、拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据。
具体地,通过上述采集现场认证语音,并将认证语音数据存放在内存中,从指定语音文件中读取样本语音数据到内存中,对内存中的样本语音数据和认证语音数据进行拆分,分别得到认证语音数据的左声道数据和右声道数据,以及样本语音数据的左声道数据和右声道数据,并分别截取上述认证语音数据的左声道数据和右声道数据的48000整数倍字节,以及分别截取上述样本语音数据的左声道数据和右声道数据的48000整数倍字节。
S104、将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;
具体地,可以通过对认证语音数据的左声道数据和样本语音数据的左声道数据进行卷积神经网络计算,再通过皮尔森线性相关度和梅尔倒谱特征提取方法,计算得到左声道相似度;右声道相似度的计算方法同上。
需要说明的是,卷积神经网络是一种前馈神经网络,人工神经元可以响应周围单元,卷积神经网络包括卷积层和池化层。卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理;二维卷积神经网络常应用于图像类文本的识别;三维卷积神经网络主要应用于医学图像以及视频类数据识别。
需要说明的是,通过皮尔森线性相关度计算得到皮尔森相关系数(Pearsoncorrelation coefficient),也称皮尔森积矩相关系数(Pearson product-momentcorrelation coefficient),是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。
皮尔森相关系数的具体计算公式如下:
其中,皮尔森相关系数用r表示,其中n为样本量,Xi、Yi分别为两个变量的观测值,分别为两个变量的均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r的绝对值越大表明相关性越强,若r=0,表明两个变量间不是线性相关,但有可能是其他方式的相关,比如曲线方式。
需要说明的是,通过梅尔倒谱特征提取方法可以计算得到梅尔频率倒谱系数(MFCC),梅尔频率倒谱系数(MFCC)是一种在自动语音和说话人识别中广泛使用的特征,MFCC特征提取包含两个关键步骤:梅尔频率分析和倒谱分析。梅尔频率分析就是基于人类听觉感知实验的。实验观测发现人耳就像一个滤波器组一样,它只关注某些特定的频率分量(人的听觉对频率是有选择性的)。它只让某些频率的信号通过。但是这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。倒谱(cepstrum)是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。倒谱分析可用于将信号分解,两个信号的卷积转化为两个信号的相加。梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的梅尔非线性频谱中,然后转换到倒谱上。
可选地,将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度,包括:截取认证语音数据的左/右声道数据,以及样本语音数据的左/右声道数据,得到两组初始左/右声道数据序列;将两组初始左/右声道数据序列进行卷积计算,得到一组卷积值;分别获取一组卷积值中绝对值最大的卷积值在两组初始左/右声道数据序列中对应的位置;截取两组初始左/右声道数据序列中位置往后的声道数据,得到两组待处理左/右声道序列;根据两组待处理声左/右道序列计算得到左/右声道相似度。
示例性地,计算左声道相似度,可以将截取认证语音数据的左声道数据,以及样本语音数据的左声道数据,得到的一组初始左声道数据序列分别记为:初始样本语音左声道序列A0_L、初始认证语音左声道序列A1_L;对上述截取的一组初始左声道数据序列A0_L、A1_L使用一维卷积神经网络进行计算,得到一组卷积值记为F0;找到一组卷积值中绝对值最大的卷积值在初始样本语音左声道序列A0_L、初始认证语音左声道序列A1_L中对应的位置A0_L-P0,A1_L-P0;分别在初始样本语音左声道序列A0_L、初始认证语音左声道序列A1_L中截取位置A0_L-P0点,A1_L-P0点往后的所有语音数据保存为待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L,根据待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L计算得到左声道相似度。
类似地,计算右声道相似度,可以将截取认证语音数据的右声道数据,以及样本语音数据的右声道数据,得到的一组初始右声道数据序列分别记为:初始样本语音右声道序列A0_R、初始认证语音右声道序列A1_R;对上述截取的一组初始右声道数据序列A0_L、A1_L使用一维卷积神经网络进行计算,得到一组卷积值记为F1;找到一组卷积值中绝对值最大的卷积值在初始样本语音右声道序列A0_R、初始认证语音右声道序列A1_R中对应的位置A0_R-P1,A1_R-P1;分别在初始样本语音右声道序列A0_R、初始认证语音右声道序列A1_R中截取位置A0_R-P1点,A1_R-P1点往后的所有语音数据保存为待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R,根据待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R计算得到右声道相似度。
本申请对上述计算得到两组待处理左/右声道序列的先后顺序不作限制。通过对两组初始左/右声道数据序列进行卷积计算,可以有效的从大量样本中获得相应地特征,避免了复杂的特征提取过程。
可选地,根据两组待处理左/右声道序列计算得到左/右声道比对相似度,包括:对两组待处理左/右声道序列进行皮尔森线性相关度计算,得到两组待处理左/右声道序列的相关度;判断相关度的绝对值是否大于等于预设阈值;如果相关度的绝对值大于等于预设阈值,对两组待处理左/右声道序列进行二次计算得到左/右声道比对相似度。
示例性地,根据待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L计算得到左声道相似度,可以对待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L进行皮尔森线性相关度计算,得到待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L的相关度R0;判断相关度R0的绝对值是否大于等于预设阈值;预设阈值可以是0.6,如果相关度R0的绝对值小于预设阈值,则认证不通过,如果相关度R0的绝对值大于等于预设阈值,对待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L进行二次计算得到左声道比对相似度。
类似地,根据待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R计算得到右声道相似度,可以对待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R进行皮尔森线性相关度计算,得到待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R的相关度R1;判断相关度R1的绝对值是否大于等于预设阈值;预设阈值可以是0.6,如果相关度R1的绝对值小于预设阈值,则认证不通过,如果相关度R1的绝对值大于等于预设阈值,对待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R进行二次计算得到右声道比对相似度。
本申请对上述计算得到待处理左/右声道序列的相关度的先后顺序不作限制。通过预先对两组待处理左/右声道序列进行皮尔森线性相关度计算,并对两组待处理左/右声道序列的相关度与预设阈值进行比较,从而确定是否能够认证通过,使得身份认证的效率更高。
可选地,如果相关度的绝对值大于等于预设阈值,对两组待处理左/右声道序列进行二次计算得到左/右声道比对相似度,包括:如果相关度的绝对值大于等于预设阈值,对两组待处理左/右声道序列分别进行梅尔倒谱计算,并分别提取特征值;对特征值进行余弦相似度计算,得到左/右声道比对相似度;
示例性地,如果相关度的绝对值大于等于预设阈值,对待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L进行二次计算得到左声道比对相似度,可以对待处理样本语音左声道序列B0_L和待处理认证语音左声道序列B1_L进行梅尔倒谱计算,提取特征值S0_L和S1_L;对特征值S0_L和S1_L进行余弦相似度计算,得到左声道比对相似度DO。
类似地,如果相关度的绝对值大于等于预设阈值,对待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R进行二次计算得到右声道比对相似度,可以对待处理样本语音右声道序列B0_R和待处理认证语音右声道序列B1_R进行梅尔倒谱计算,提取特征值S0_R和S1_R;对特征值S0_R和S1_R进行余弦相似度计算,得到右声道比对相似度D1。本申请对上述计算得到左/右声道比对相似度的先后顺序不作限制。
需要说明的是,余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度,夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。假设向量a、b的坐标分别为(x1,y1)、(x2,y2),则余弦相似度的计算公式为:
通过进一步对两组待处理左/右声道序列分别进行梅尔倒谱计算提取特征值;对特征值进行余弦相似度计算,得到左/右声道比对相似度,根据左/右声道比对相似度与预设与之的比对,从而确定认证是否通过,使得身份认证准确性更高,安全性更好。
S105、判断左声道相似度和右声道相似度是否均大于等于预设阈值;
具体地,分别判断左声道相似度D0和右声道相似度D1的绝对值是否均大于等于预设阈值,预设阈值可以是0.6。
S106、如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。
具体地,如果左声道相似度D0和右声道相似度D1的绝对值均大于等于预设阈值,则认证通过;如果左声道相似度D0和右声道相似度D1的绝对值中有一个小于预设阈值,则认证失败。
本申请实施例的语音认证方法,通过采集认证语音数据;读取预设的样本语音数据;拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;判断左声道相似度和右声道相似度是否均大于等于预设阈值;如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。以实现通过语音进行身份认证,且认证方式简便,安全性好,管理成本低。
实施例二、
参见图2,示例性地,上述实施例所描述的语音认证方法在一应用场景中,具体流程如下:
S201、采集样本语音数据并存储;
S202、采集认证语音数据;
S203、读取预设的样本语音数据;
S204、拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;
S205、截取认证语音数据的左/右声道数据,以及样本语音数据的左/右声道数据,得到两组初始左/右声道数据序列;
S206、将两组初始左/右声道数据序列进行卷积计算,得到一组卷积值;
S207、分别获取一组卷积值中绝对值最大的卷积值在两组初始左/右声道数据序列中对应的位置;
S208、截取两组初始左/右声道数据序列中位置往后的声道数据,得到两组待处理左/右声道序列;
S209、对两组待处理左/右声道序列进行皮尔森线性相关度计算,得到两组待处理左/右声道序列的相关度;
S210、判断相关度的绝对值是否大于等于预设阈值;
S211、如果相关度的绝对值大于等于预设阈值,对两组待处理左/右声道序列分别进行梅尔倒谱计算,并分别提取特征值;
S212、对特征值进行余弦相似度计算,得到左/右声道比对相似度;
S213、判断左声道相似度和右声道相似度是否均大于等于预设阈值;
S214、如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。
本申请实施例的语音认证方法,通过上述步骤,实现了通过语音进行身份认证,且认证方式简便,安全性好,管理成本低。
实施例三、
结合上述实施例所描述的语音认证方法,本申请实施例三提供一种语音认证装置,用于执行上述实施例一描述的任一语音认证方法。
参见图3,该语音认证装置30包括:
采集模块301,用于采集认证语音数据;
数据处理模块302,用于将认证语音数据与样本语音数据进行比对得到相似度;
判断模块303,用于判断相似度是否大于等于预设阈值;
结果输出模块304,用于如果相似度大于等于预设阈值,则认证通过。
可选地,数据处理模块302,还用于读取样本语音数据,拆分认证语音数据和样本语音数据的左声道数据和右声道数据,将认证语音数据和样本语音数据的左声道数据进行对比得到左声道比对相似度,认证语音数据和样本语音数据的右声道数据进行对比得到右声道比对相似度。
可选地,采集模块301,还用于采集样本语音数据。
本申请实施例的语音认证装置,通过采集认证语音数据;读取预设的样本语音数据;拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;判断左声道相似度和右声道相似度是否均大于等于预设阈值;如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。以实现通过语音进行身份认证,且认证方式简便,安全性好,管理成本低。
实施例四、
结合上述实施例所描述的语音认证方法,本申请实施例四提供一种存储介质。
该存储介质存储有计算机程序,处理器执行存储介质上存储的计算机程序时,能够实现上述的任意一种语音认证方法。
本申请实施例的存储介质,通过采集认证语音数据;读取预设的样本语音数据;拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;判断左声道相似度和右声道相似度是否均大于等于预设阈值;如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。以实现通过语音进行身份认证,且认证方式简便,安全性好,管理成本低。
实施例五、
结合上述实施例所描述的语音认证方法,本申请实施例五提供一种嵌入式税控设备。
该设备包括存储器和处理器,存储器上存储有可执行程序,处理器运行可执行程序时,能够实现上述的任意一种语音认证方法。
本申请实施例的电子设备,通过采集认证语音数据;读取预设的样本语音数据;拆分认证语音数据得到认证语音数据的左声道数据和右声道数据,拆分样本语音数据得到样本语音数据的左声道数据和右声道数据;将认证语音数据的左声道数据和样本语音数据的左声道数据进行对比得到左声道相似度,认证语音数据右声道数据和样本语音数据的右声道数据进行对比得到右声道相似度;判断左声道相似度和右声道相似度是否均大于等于预设阈值;如果左声道相似度和右声道相似度均大于等于预设阈值,则认证通过。以实现通过语音进行身份认证,且认证方式简便,安全性好,管理成本低。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (10)
1.一种语音认证方法,其特征在于,包括:
采集认证语音数据;
读取预设的样本语音数据;
拆分所述认证语音数据得到所述认证语音数据的左声道数据和右声道数据,拆分所述样本语音数据得到所述样本语音数据的左声道数据和右声道数据;
将所述认证语音数据的左声道数据和所述样本语音数据的左声道数据进行对比得到左声道相似度,所述认证语音数据右声道数据和所述样本语音数据的右声道数据进行对比得到右声道相似度;
判断所述左声道相似度和所述右声道相似度是否均大于等于预设阈值;
如果所述左声道相似度和所述右声道相似度均大于等于预设阈值,则认证通过。
2.根据权利要求1所述的语音认证方法,其特征在于,所述将所述认证语音数据的左声道数据和所述样本语音数据的左声道数据进行对比得到左声道相似度,所述认证语音数据右声道数据和所述样本语音数据的右声道数据进行对比得到右声道相似度,包括:
截取所述认证语音数据的左/右声道数据,以及所述样本语音数据的左/右声道数据,得到两组初始左/右声道数据序列;
将所述两组初始左/右声道数据序列进行卷积计算,得到一组卷积值;
分别获取所述一组卷积值中绝对值最大的卷积值在两组初始左/右声道数据序列中对应的位置;
截取所述两组初始左/右声道数据序列中所述位置往后的声道数据,得到两组待处理左/右声道序列;
根据所述两组待处理声左/右道序列计算得到所述左/右声道相似度。
3.根据权利要求2所述的语音认证方法,其特征在于,所述根据所述两组待处理左/右声道序列计算得到所述左/右声道比对相似度,包括:
对所述两组待处理左/右声道序列进行皮尔森线性相关度计算,得到所述两组待处理左/右声道序列的相关度;
判断所述相关度的绝对值是否大于等于预设阈值;
如果所述相关度的绝对值大于等于预设阈值,对所述两组待处理左/右声道序列进行二次计算得到所述左/右声道比对相似度。
4.根据权利要求3所述的语音认证方法,其特征在于,如果所述相关度的绝对值大于等于预设阈值,对所述两组待处理左/右声道序列进行二次计算得到所述左/右声道比对相似度,包括:
如果所述相关度的绝对值大于等于预设阈值,对所述两组待处理左/右声道序列分别进行梅尔倒谱计算,并分别提取特征值;
对所述特征值进行余弦相似度计算,得到所述左/右声道比对相似度。
5.根据权利要求1所述的语音认证方法,其特征在于,所述方法还包括:
采集样本语音数据并存储。
6.一种语音认证装置,其特征在于,包括:
采集模块,用于采集认证语音数据;
数据处理模块,用于将所述认证语音数据与样本语音数据进行比对得到相似度;
判断模块,用于判断所述相似度是否大于等于预设阈值;
结果输出模块,用于如果所述相似度大于等于预设阈值,则认证通过。
7.根据权利要求8所述的语音认证装置,其特征在于,
所述数据处理模块,还用于读取所述样本语音数据,拆分所述认证语音数据和所述样本语音数据的左声道数据和右声道数据,将所述认证语音数据和所述样本语音数据的左声道数据进行对比得到左声道比对相似度,所述认证语音数据和所述样本语音数据的右声道数据进行对比得到右声道比对相似度。
8.根据权利要求8所述的语音认证装置,其特征在于,所述采集模块,还用于采集样本语音数据。
9.一种存储介质,其特征在于,该存储介质存储有计算机程序,处理器执行所述存储介质上存储的计算机程序时,能够实现本申请权利要求1-5所述的任意一种语音认证方法。
10.一种嵌入式税控设备,其特征在于,该设备包括存储器和处理器,所述存储器上存储有可执行程序,所述处理器运行所述可执行程序时,能够实现本申请权利要求1-5所述的任意一种语音认证方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111284601.6A CN113903343A (zh) | 2021-11-01 | 2021-11-01 | 语音认证方法及其装置、存储介质、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111284601.6A CN113903343A (zh) | 2021-11-01 | 2021-11-01 | 语音认证方法及其装置、存储介质、电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113903343A true CN113903343A (zh) | 2022-01-07 |
Family
ID=79027843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111284601.6A Pending CN113903343A (zh) | 2021-11-01 | 2021-11-01 | 语音认证方法及其装置、存储介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113903343A (zh) |
-
2021
- 2021-11-01 CN CN202111284601.6A patent/CN113903343A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10249304B2 (en) | Method and system for using conversational biometrics and speaker identification/verification to filter voice streams | |
EP3327720B1 (en) | User voiceprint model construction method and apparatus | |
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
CN106599866A (zh) | 一种多维度用户身份识别方法 | |
CN112242149B (zh) | 音频数据的处理方法、装置、耳机及计算机可读存储介质 | |
Mahto et al. | Ear acoustic biometrics using inaudible signals and its application to continuous user authentication | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN112949708A (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN111048099A (zh) | 声音源的识别方法、装置、服务器及存储介质 | |
CN112151038B (zh) | 语音重放攻击检测方法、装置、可读存储介质及电子设备 | |
JP7184236B2 (ja) | 声紋を認識する方法、装置、設備、および記憶媒体 | |
Brunet et al. | Speaker recognition for mobile user authentication: An android solution | |
CN113903343A (zh) | 语音认证方法及其装置、存储介质、电子设备 | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 | |
CN111312258A (zh) | 用户的身份认证方法、装置、服务器及存储介质 | |
Trysnyuk et al. | A method for user authenticating to critical infrastructure objects based on voice message identification | |
Ganoun et al. | Performance analysis of spoken arabic digits recognition techniques | |
CN105245497A (zh) | 一种身份认证方法及装置 | |
US20230005479A1 (en) | Method for processing an audio stream and corresponding system | |
CN113178196B (zh) | 音频数据提取方法、装置、计算机设备和存储介质 | |
CN112634942B (zh) | 一种手机录音原始性的鉴定方法、存储介质及设备 | |
Qaisar et al. | A Cloud Assisted Hybrid Model Based Speaker Recognition and Resource Sharing | |
US20220122627A1 (en) | Voice replay attack detection method, medium, and device | |
Sulavko et al. | Analysis of Ear Canal Echograms for Personality Verification Using AIConstructor Software Package | |
CN114491456A (zh) | 基于声纹的账号识别方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |