CN116884437B - 基于人工智能的语音识别处理器 - Google Patents

基于人工智能的语音识别处理器 Download PDF

Info

Publication number
CN116884437B
CN116884437B CN202311145762.6A CN202311145762A CN116884437B CN 116884437 B CN116884437 B CN 116884437B CN 202311145762 A CN202311145762 A CN 202311145762A CN 116884437 B CN116884437 B CN 116884437B
Authority
CN
China
Prior art keywords
resonance
voice
features
standard
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311145762.6A
Other languages
English (en)
Other versions
CN116884437A (zh
Inventor
周丽宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huilang Times Technology Co Ltd
Original Assignee
Beijing Huilang Times Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huilang Times Technology Co Ltd filed Critical Beijing Huilang Times Technology Co Ltd
Priority to CN202311145762.6A priority Critical patent/CN116884437B/zh
Publication of CN116884437A publication Critical patent/CN116884437A/zh
Application granted granted Critical
Publication of CN116884437B publication Critical patent/CN116884437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明公开了基于人工智能的语音识别处理器,涉及语音识别技术领域,包括数据采集模块、数据预处理模块、特征提取模块、特征分析模块、判定模块、预警模块和显示模块;解决了一些不法分子利用语音和网络信息来生成与用户相似的仿真语音,并且通过仿真语音欺骗设备达到控制设备开启目的的技术问题:通过人声声纹特征对判定声音音频进行初步验证,然后再通过人声共鸣特征对判定声音音频进行验证,将人声共鸣特征和人声声纹特征结合起来,可以增强声音识别的准确性和安全性,可以有效防止不法分子利用AI仿声技术欺骗设备,提高了声音识别的准确性和可靠性,防止不法分子利用进行AI仿声技术进行欺骗和冒充。

Description

基于人工智能的语音识别处理器
技术领域
本发明涉及语音识别技术领域,具体涉及基于人工智能的语音识别处理器。
背景技术
随着科技的发展,智能语音识别技术越来越广泛应用于各个领域。智能语音识别可以通过识别人的声音特征进行身份验证,并且声纹识别具有不易仿冒和无需物理接触的优点,因此在替代传统的密码、指纹和面部识别方面具有潜力;
随着AI声音合成技术的进步,一些不法分子利用语音和网络信息来生成与用户相似的仿真语音,并且通过仿真语音欺骗设备达到控制设备开启目的(如声纹识别门禁系统,声纹识别开启的电子设备等),导致控制设备被不法分子开启,造成一定程度的风险后果,基于此,提出一种基于人工智能的语音识别处理器。
发明内容
本发明的目的在于提供基于人工智能的语音识别处理器,解决了一些不法分子利用语音和网络信息来生成与用户相似的仿真语音,并且通过仿真语音欺骗设备达到控制设备开启目的的技术问题。
本发明的目的可以通过以下技术方案实现:
基于人工智能的语音识别处理器,包括:
数据采集模块,用于对用户的样本声音音频进行获取,并将其发送至数据预处理模块;
数据预处理模块,用于对用户的样本声音音频进行降噪、去除静音段和均衡化音量操作,同时将进行预处理后的样本声音音频发送至特征提取模块;
特征提取模块,用于对进行预处理后的样本声音音频中的用户声纹特征和人声共鸣特征进行提取,并将其发送至特征分析模块;
特征分析模块,用于对用户声纹特征和人声共鸣特征进行量化分析,进而得到标准声纹特征向量和标准共鸣特征向量,并将其发送至判定模块;
用户声纹特征包括音调特征、频谱峰值和谐波特征,人声共鸣特征是指用户声音频率在喉咙、口腔和鼻腔中的共振效应,即用户声音频率在声道中的共振峰特征和共振频率特征;
判定模块,用于对判定声音音频进行获取,并通过对判定声音音频的用户声纹特征和人声共鸣特征分析,获得判定声音音频对应的判定声纹特征向量和判定共鸣特征向量,再将判定声纹特征向量和标准声纹特征向量进行相似度计算,将判定共鸣特征向量和标准共鸣特征向量进行相似度计算,然后根据相似度计算结果判定生成仿声标识,同时将仿声标识传输至预警模块和显示模块。
作为本发明进一步的方案:特征提取模块包括人声共鸣特征提取单元和用户声纹特征提取单元;
用户声纹特征提取单元,用于对样本声音音频中的用户声纹特征进行提取,人声共鸣特征提取单元,用于对样本声音音频中的人声共鸣特征进行提取,对用户声纹特征进行提取的具体方式为:
将预处理后的样本声音音频均等分割成n个短时帧音频,对n个短时帧音频中的音调特征、频谱峰值和谐波特征进行提取并将其进行量化处理后,分别标记为A1、A2、……An,B1、B2、……Bn和C1、C2、……Cn
对人声共鸣特征进行提取的具体方式为:
根据喉咙、口腔和鼻腔对不同频率范围的影响,使用滤波器或其他频率域处理方法来分离不同频率范围的共振特征,同时获得n个短时帧音频中喉咙的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E11、E12、……E1n和F11、F12、……F1n
获得n个短时帧音频中口腔的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E21、E22、……E2n和F21、F22、……F2n
获得n个短时帧音频中鼻腔的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E31、E32、……E3n和F31、F32、……F3n
作为本发明进一步的方案:特征分析模块包括用户声纹特征分析单元和人声共鸣特征分析单元,用户声纹特征分析单元,用于对用户声纹特征中的音调特征、频谱峰值和谐波特征进行量化分析,并根据分析结果获得标准声纹特征向量,获得标准声纹特征向量的具体方式为:
J1:对n个短时帧音频中的音调特征A1、A2、……An,频谱峰值B1、B2、……Bn和谐波特征值C1、C2、……Cn,分别进行均值化处理,进而获得音调特征、频谱峰值和谐波对应的标准特征值,并将其分别标记为Ap、Bp和Cp;
J2:将音调特征、频谱峰值和谐波对应的标准特征值转换为向量形式,同时将其组合成一个特征向量,形成声标准声纹特征向量,并将其标记为SW(Ap,Bp,Cp)。
作为本发明进一步的方案:人声共鸣特征分析单元,用于对人声共鸣特征中喉咙、口腔和鼻腔对应的共振峰特征和共振谷特征进行量化分析,并根据分析结果获得标准共鸣特征向量,获得标准共鸣特征向量的具体方式为:
K1:将n个短时帧音频中喉咙的共振峰特征E11、E12、……E1n和共振谷特征F11、F12、……F1n,分别进行均值化处理,进而获得喉咙的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E1p和F1p;
将n个短时帧音频中口腔的共振峰特征E21、E22、……E2n和共振谷特征F21、F22、……F2n,分别进行均值化处理,进而获得口腔的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E2p和F2p;
将n个短时帧音频中鼻腔的共振峰特征E31、E32、……E3n和共振谷特征F31、F32、……F3n,分别进行均值化处理,进而获得鼻腔的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E3p和F3p;
K2:通过公式(E1p+E2p+E3p)×β1=Zp,计算获得人声共鸣特征的共振峰计算值Zp,其中β1为修正系数;
通过公式(F1p+F2p+F3p)×β2=Gp,计算获得人声共鸣特征的共振谷计算值Gp,其中β2为修正系数;
K3:将共振峰计算值和共振谷计算值转换为向量形式,同时将其组合成一个特征向量,形成共标准共鸣特征向量,并将其标记为WH(Zp,Gp)。
作为本发明进一步的方案:判定生成仿声标识的具体方式为:
L1:将判定声音音频的用户声纹特征中的音调特征、频谱峰值和谐波特征分别进行量化处理后组合成一个判定声纹特征向量,标记为UW(U1,U2,U3);
将判定声音音频的人声共鸣特征中的共振峰特征和共振频率分别进行量化处理后组合成一个判定共鸣特征向量,标记为UH(U4,U5);
L2:通过公式,计算获得标准声纹特征向量SW(Ap,Bp,Cp)和判定声纹特征向量YD(U1,U2,U3)之间的相似度UHSW;
当UHSW≥Y1时,则通过公式,计算获得标准共鸣特征向量WH(Zp,Gp)和判定鸣特征向量UH(U4,U5)之间的相似度WHUH;
当WHUH<Y2时,则生成仿声标识,此处,Y1和Y2均为预设值。
作为本发明进一步的方案:预警模块,用于对仿声标识和进行接收,并根据仿声标识播放对应的语音警示信息。
作为本发明进一步的方案:显示模块,用于对仿声标识进行显示。
作为本发明进一步的方案:在步骤L2中通过对判定特征向量和判定共鸣特征向量与标准特征向量和标准共鸣特征向量之间进行分析,并根据分析结果判定生成识别失败标识或识别成功标识,并将其发送至控制模块,生成识别失败标识和识别成功标识的具体方式为:
当UHSW<Y1时,则生成识别失败标识;
当WHUH≥Y2时,则生成识别成功标识。
作为本发明进一步的方案:控制模块,用于对识别失败标识和识别成功标识接收。
本发明的有益效果:
本发明,首先通过人声声纹特征对判定声音音频进行初步验证,然后再通过人声共鸣特征对判定声音音频进行验证,将人声共鸣特征和人声声纹特征结合起来,可以增强声音识别的准确性和安全性;
同时由于人体的共鸣腔体不同,人的声音在共鸣腔体中会产生特定的频谱特征,同时由于不法分子无法利用AI仿声技术模仿声音的共鸣特征,进而通过结合这两个特征进行对声音进行识别,可以有效防止不法分子利用AI仿声技术欺骗设备,提高了声音识别的准确性和可靠性,防止不法分子利用进行AI仿声技术进行欺骗和冒充。
附图说明
下面结合附图对本发明作进一步的说明。
图1是本发明基于人工智能的语音识别处理器的系统框架结构示意图;
图2是本发明基于人工智能的语音识别处理器的方法框架结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一
请参阅图1-图2所示,本发明为基于人工智能的语音识别处理器,包括,数据采集模块、数据预处理模块、特征提取模块、特征分析模块、判定模块、预警模块和显示模块;
数据采集模块,用于对用户的样本声音音频进行获取,并将其发送至数据预处理模块,样本声音音频是通过麦克风或其他录音设备进行采集获得的;
数据预处理模块,用于对用户的样本声音音频进行预处理,以提高后续对样本声音音频的质量和准确性,同时将进行预处理后的样本声音音频发送至特征提取模块;
预处理的具体步骤包括对样本声音音频进行降噪、去除静音段和均衡化音量操作处理,此处对样本声音音频进行降噪、去除静音段和均衡化音量的预处理操作均属于现有且成熟的技术,因此在此不做赘述;
特征提取模块,用于对进行预处理后的样本声音音频中的用户声纹特征和人声共鸣特征进行提取,并将其发送至特征分析模块;
用户声纹特征是指用户在发声过程中产生的独特声音特征,类似于指纹或人脸的生物特征,用户声纹特征主要包括音调特征、频谱峰值和谐波特征;
人声共鸣特征是指用户声音频率在喉咙、口腔和鼻腔中的共振效应,即用户声音频率在声道中的共振峰特征和共振频率特征:
特征提取模块包括人声共鸣特征提取单元和用户声纹特征提取单元;
用户声纹特征提取单元,用于对样本声音音频中的用户声纹特征进行提取,并将其发送至特征分析模块,对用户声纹特征进行提取的具体方式为:
将预处理后的样本声音音频均等分割成n个短时帧音频,此处,n≧1,单个短时帧音频的时长优选为50毫秒;
对n个短时帧音频中的音调特征、频谱峰值和谐波特征进行提取并将其进行量化处理后,并分别标记为A1、A2、……An,B1、B2、……Bn和C1、C2、……Cn
通过分析n个短时帧音频中的基频或音调轮廓,获得声纹的音调特征;
通过将n个短时帧音频转换为频域表示,并对其的频谱峰值继续提取,将样将n个短时帧音频转换为频域的方法为傅里叶变换或小波变换方法,傅里叶变换或小波变换方法均属于现有且成熟的技术,因此在此不做赘述;
通过自相关函数或相关滤波器,分析n个短时帧音频的谐波分布特征,提取声纹的谐波特征;
人声共鸣特征提取单元,用于对样本声音音频中的人声共鸣特征进行提取,并将其发送至特征分析模块,对人声共鸣特征进行提取的具体方式为:
由于喉咙、口腔和鼻腔的共振特征是不同的,因为它们对声音的共振效应是通过不同的声道实现的,喉咙主要影响低频分量,口腔主要影响中频分量,鼻腔主要影响高频分量;
进而根据喉咙、口腔和鼻腔对不同频率范围的影响,使用滤波器或其他频率域处理方法来分离不同频率范围的共振特征;
使用低通滤波器或者采用频率截断的方式将高频部分去除,保留低频成分对于喉咙的特征进行提取,同时获得n个短时帧音频中喉咙的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E11、E12、……E1n和F11、F12、……F1n
使用带通滤波器选择中心频率在中频范围内的频率成分,保留中频成分对于口腔的特征进行提取,同时获得n个短时帧音频中口腔的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E21、E22、……E2n和F21、F22、……F2n
使用高通滤波器或者采用频率截断的方式将低频部分去除,保留高频成分对于鼻腔的特征进行提取,同时获得n个短时帧音频中鼻腔的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E31、E32、……E3n和F31、F32、……F3n
特征分析模块,用于对用户声纹特征和人声共鸣特征进行量化分析,进而得到标准声纹特征向量和标准共鸣特征向量,并将其发送至判定模块;
特征分析模块包括用户声纹特征分析单元和人声共鸣特征分析单元;
用户声纹特征分析单元,用于对用户声纹特征中的音调特征、频谱峰值和谐波特征进行量化分析,并根据分析结果获得标准声纹特征向量,获得标准声纹特征向量的具体方式为:
J1:对n个短时帧音频中的音调特征A1、A2、……An,频谱峰值B1、B2、……Bn和谐波特征值C1、C2、……Cn,分别进行均值化处理,进而获得音调特征、频谱峰值和谐波对应的标准特征值,并将其分别标记为Ap、Bp和Cp;
J2:将音调特征、频谱峰值和谐波对应的标准特征值转换为向量形式,同时将其组合成一个特征向量,形成声标准声纹特征向量,并将其标记为SW(Ap,Bp,Cp);
人声共鸣特征分析单元,用于对人声共鸣特征中喉咙、口腔和鼻腔对应的共振峰特征和共振谷特征进行量化分析,并根据分析结果获得标准共鸣特征向量,获得标准共鸣特征向量的具体方式为:
K1:将n个短时帧音频中喉咙的共振峰特征E11、E12、……E1n和共振谷特征F11、F12、……F1n,分别进行均值化处理,进而获得喉咙的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E1p和F1p;
将n个短时帧音频中口腔的共振峰特征E21、E22、……E2n和共振谷特征F21、F22、……F2n,分别进行均值化处理,进而获得口腔的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E2p和F2p;
将n个短时帧音频中鼻腔的共振峰特征E31、E32、……E3n和共振谷特征F31、F32、……F3n,分别进行均值化处理,进而获得鼻腔的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E3p和F3p;
K2:通过公式(E1p+E2p+E3p)×β1=Zp,计算获得人声共鸣特征的共振峰计算值Zp,其中β1为修正系数,具体数值由相关工作人员进行拟定;
通过公式(F1p+F2p+F3p)×β2=Gp,计算获得人声共鸣特征的共振谷计算值Gp,其中β2为修正系数,具体数值由相关工作人员进行拟定;
K3:将共振峰计算值和共振谷计算值转换为向量形式,同时将其组合成一个特征向量,形成共标准共鸣特征向量,并将其标记为WH(Zp,Gp);
判定模块,用于对判定声音音频进行获取,并通过对判定声音音频的用户声纹特征和人声共鸣特征分析,获得判定声音音频对应的判定声纹特征向量和判定共鸣特征向量,再将判定声纹特征向量和标准声纹特征向量进行相似度计算,将判定共鸣特征向量和标准共鸣特征向量进行相似度计算,然后根据相似度计算结果判定生成仿声标识,同时将仿声标识传输至预警模块和显示模块,判定生成仿声标识的具体方式为:
此处判定声音音频指代为;
L1:将判定声音音频的用户声纹特征中的音调特征、频谱峰值和谐波特征分别进行量化处理后组合成一个判定声纹特征向量,标记为UW(U1,U2,U3);
将判定声音音频的人声共鸣特征中的共振峰特征和共振频率分别进行量化处理后组合成一个判定共鸣特征向量,标记为UH(U4,U5);
L2:通过公式,计算获得标准声纹特征向量SW(Ap,Bp,Cp)和判定声纹特征向量YD(U1,U2,U3)之间的相似度UHSW;
当UHSW≥Y1时,则通过公式,计算获得标准共鸣特征向量WH(Zp,Gp)和判定鸣特征向量UH(U4,U5)之间的相似度WHUH;
当WHUH<Y2时,则生成仿声标识;
此处,Y1和Y2均为预设值,具体数值由相关工作人员进行拟定;
预警模块,用于对仿声标识和进行接收,并根据仿声标识播放对应的语音警示信息,对操作人员进行警告;
语音警示信息为提前录入的语音录音通过播放模块进行播放,为现有且成熟的技术在此不做赘述;
显示模块,用于对仿声标识进行显示,以提醒相关人员疑似出现可疑人员试图通过仿真语音欺骗设备以达到控制设备开启的目的,提醒相关人员及时对设备进行查看和管理。
实施例二
作为本发明的实施例二,本申请在具体实施时,相较于实施例一,本实施例的技术方案与实施例一的区别仅在于本实施例中步骤L2中通过对判定声音音频进行获取,并通过对判定声音音频的用户声纹特征和人声共鸣特征的分析,获得判定声音音频对应的判定特征向量和判定共鸣特征向量,将判定特征向量和标准特征向量进行相似度计算,判定共鸣特征向量和标准共鸣特征向量进行相似度计算,并根据分析结果判定生成识别失败标识或识别成功标识,同时将其发送至控制模块,生成识别失败标识和识别成功标识的具体方式为:
当UHSW<Y1时,则生成识别失败标识;
当WHUH≥Y2时,则生成识别成功标识;
控制模块,用于对识别失败标识和识别成功标识接收,当接收到识别成功标识时,则通过控制模块控制对应设备进行开启,当接收到识别失败标识时,则控制模块不做操作。
实施例三
作为本发明的实施例三,本申请在具体实施时,相较于实施例一和实施例二,本实施例的技术方案是在于将上述实施例一和实施例二和的方案进行组合实施。
本发明的工作原理:对用户的样本声音音频进行获取,然后对用户的样本声音音频进行降噪、去除静音段和均衡化音量操作,以提高后续对样本声音音频的质量和准确性,然后对进行预处理后的样本声音音频中的用户声纹特征和人声共鸣特征进行提取,对用户声纹特征和人声共鸣特征进行量化分析,进而得到标准声纹特征向量和标准共鸣特征向量,然后对判定声音音频进行获取,并根据判定声音音频的用户声纹特征和人声共鸣特征分析获得判定声音音频对应的判定声纹特征向量和判定共鸣特征向量,将判定声纹特征向量和标准声纹特征向量进行相似度计算,将判定共鸣特征向量和标准共鸣特征向量进行相似度计算,然后根据相似度计算结果判定生成仿声标识,通过预警模块根据仿声标识播放对应的语音警示信息,对操作人员进行警示,通过显示模块以提醒相关人员疑似出现可疑人员试图通过仿真语音欺骗设备以达到控制设备开启的目的,提醒相关人员及时对设备进行查看和管理。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数以及阈值选取由本领域的技术人员根据实际情况进行设置。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.基于人工智能的语音识别处理器,其特征在于,包括:
数据采集模块,用于对用户的样本声音音频进行获取,并将其发送至数据预处理模块;
数据预处理模块,用于对用户的样本声音音频进行降噪、去除静音段和均衡化音量操作处理,同时将进行处理后的样本声音音频发送至特征提取模块;
特征提取模块,用于对进行预处理后的样本声音音频中的用户声纹特征和人声共鸣特征进行提取,并将其发送至特征分析模块;
特征分析模块,用于对用户声纹特征和人声共鸣特征进行量化分析,进而得到标准声纹特征向量和标准共鸣特征向量,并将其发送至判定模块;
用户声纹特征包括音调特征、频谱峰值和谐波特征,人声共鸣特征是指用户声音频率在喉咙、口腔和鼻腔中的共振效应,即用户声音频率在声道中的共振峰特征和共振频率特征;
判定模块,用于对判定声音音频进行获取,并通过对判定声音音频的用户声纹特征和人声共鸣特征分析,获得判定声音音频对应的判定声纹特征向量和判定共鸣特征向量,再将判定声纹特征向量和标准声纹特征向量进行相似度计算,将判定共鸣特征向量和标准共鸣特征向量进行相似度计算,然后根据相似度计算结果判定生成仿声标识,同时将仿声标识传输至预警模块和显示模块;
特征提取模块包括人声共鸣特征提取单元和用户声纹特征提取单元;
用户声纹特征提取单元,用于对样本声音音频中的用户声纹特征进行提取,人声共鸣特征提取单元,用于对样本声音音频中的人声共鸣特征进行提取,对用户声纹特征进行提取的具体方式为:将预处理后的样本声音音频均等分割成n个短时帧音频,对n个短时帧音频中的音调特征、频谱峰值和谐波特征进行提取并将其进行量化处理后,并分别标记为A1、A2、……、An,B1、B2、……、Bn和C1、C2、……、Cn,n≧1;
对人声共鸣特征进行提取的具体方式为:根据喉咙、口腔和鼻腔对不同频率范围的影响,使用滤波器或其他频率域处理方法来分离不同频率范围的共振特征,进而获得n个短时帧音频中喉咙的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E11、E12、……、E1n和F11、F12、……、F1n;获得n个短时帧音频中口腔的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E21、E22、……、E2n和F21、F22、……、F2n;获得n个短时帧音频中鼻腔的共振峰特征和共振谷特征,并将其进行量化处理后,分别标记为E31、E32、……、E3n和F31、F32、……、F3n
特征分析模块包括用户声纹特征分析单元和人声共鸣特征分析单元,用户声纹特征分析单元,用于对用户声纹特征中的音调特征、频谱峰值和谐波特征进行量化分析,并根据分析结果获得标准声纹特征向量,获得标准声纹特征向量的具体方式为:J1:对n个短时帧音频中的音调特征A1、A2、……、An,频谱峰值B1、B2、……、Bn和谐波特征值C1、C2、……、Cn,分别进行均值化处理,进而获得音调特征、频谱峰值和谐波对应的标准特征值,并将其分别标记为Ap、Bp和Cp;
J2:将音调特征、频谱峰值和谐波对应的标准特征值转换为向量形式,同时其组合成一个特征向量,形成声标准声纹特征向量,并将其标记为SW(Ap,Bp,Cp);
人声共鸣特征分析单元,用于对人声共鸣特征中喉咙、口腔和鼻腔对应的共振峰特征和共振谷特征进行量化分析,并根据分析结果获得标准共鸣特征向量,获得标准共鸣特征向量的具体方式为:
K1:将n个短时帧音频中喉咙的共振峰特征E11、E12、……、E1n和共振谷特征F11、F12、……、F1n,分别进行均值化处理,进而获得喉咙的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E1p和F1p;
将n个短时帧音频中口腔的共振峰特征E21、E22、……、E2n和共振谷特征F21、F22、……、F2n,分别进行均值化处理,进而获得口腔的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E2p和F2p;
将n个短时帧音频中鼻腔的共振峰特征E31、E32、……、E3n和共振谷特征F31、F32、……、F3n,分别进行均值化处理,进而获得鼻腔的共振峰特征和共振谷特征对应的标准特征值,并将其分别标记为E3p和F3p;K2:通过公式(E1p+E2p+E3p)×β1=Zp,计算获得人声共鸣特征的共振峰计算值Zp,其中β1为修正系数;通过公式(F1p+F2p+F3p)×β2=Gp,计算获得人声共鸣特征的共振谷计算值Gp,其中β2为修正系数;K3:将共振峰计算值和共振谷计算值转换为向量形式,同时将其组合成一个特征向量,形成共标准共鸣特征向量,并将其标记为WH(Zp,Gp);
判定生成仿声标识的具体方式为:L1:将判定声音音频的用户声纹特征中的音调特征、频谱峰值和谐波特征分别进行量化处理后组合成一个判定声纹特征向量,标记为UW(U1,U2,U3);将判定声音音频的人声共鸣特征中的共振峰特征和共振频率分别进行量化处理后组合成一个判定共鸣特征向量,标记为UH(U4,U5);L2:通过公式,计算获得标准声纹特征向量SW(Ap,Bp,Cp)和判定声纹特征向量YD(U1,U2,U3)之间的相似度UHSW;当UHSW≥Y1时,则通过公式/>,计算获得标准共鸣特征向量WH(Zp,Gp)和判定鸣特征向量UH(U4,U5)之间的相似度WHUH;当WHUH<Y2时,则生成仿声标识,此处,Y1和Y2均为预设值。
2.根据权利要求1所述的基于人工智能的语音识别处理器,其特征在于,预警模块,用于对仿声标识和进行接收,并根据仿声标识播放对应的语音警示信息。
3.根据权利要求2所述的基于人工智能的语音识别处理器,其特征在于,显示模块,用于对仿声标识进行显示。
4.根据权利要求3所述的基于人工智能的语音识别处理器,其特征在于,所述步骤L2中通过对判定声音音频进行获取,并通过对判定声音音频的用户声纹特征和人声共鸣特征的分析,获得判定声音音频对应的判定特征向量和判定共鸣特征向量,将判定特征向量和标准特征向量进行相似度计算,判定共鸣特征向量和标准共鸣特征向量进行相似度计算,并根据分析结果判定生成识别失败标识或识别成功标识,同时将其发送至控制模块,生成识别失败标识和识别成功标识的具体方式为:
当UHSW<Y1时,则生成识别失败标识;
当WHUH≥Y2时,则生成识别成功标识。
5.根据权利要求4所述的基于人工智能的语音识别处理器,其特征在于,控制模块,用于对识别失败标识和识别成功标识接收。
CN202311145762.6A 2023-09-07 2023-09-07 基于人工智能的语音识别处理器 Active CN116884437B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311145762.6A CN116884437B (zh) 2023-09-07 2023-09-07 基于人工智能的语音识别处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311145762.6A CN116884437B (zh) 2023-09-07 2023-09-07 基于人工智能的语音识别处理器

Publications (2)

Publication Number Publication Date
CN116884437A CN116884437A (zh) 2023-10-13
CN116884437B true CN116884437B (zh) 2023-11-17

Family

ID=88259062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311145762.6A Active CN116884437B (zh) 2023-09-07 2023-09-07 基于人工智能的语音识别处理器

Country Status (1)

Country Link
CN (1) CN116884437B (zh)

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056785A (ja) * 1998-08-10 2000-02-25 Yamaha Corp 似顔絵出力装置およびカラオケ装置
JP2006154209A (ja) * 2004-11-29 2006-06-15 Ntt Advanced Technology Corp 声色類似度評価方法および評価装置
CN1874163A (zh) * 2005-05-31 2006-12-06 雅马哈株式会社 数字音频数据的压缩与解压缩的方法
JP2007068847A (ja) * 2005-09-08 2007-03-22 Advanced Telecommunication Research Institute International 声門閉鎖区間検出装置および声門閉鎖区間検出方法
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
CN101727902A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 一种对语调进行评估的方法
CN102063905A (zh) * 2009-11-13 2011-05-18 数维科技(北京)有限公司 一种用于音频解码的盲噪声填充方法及其装置
CN102592589A (zh) * 2012-02-23 2012-07-18 华南理工大学 一种动态归一化数字特征的语音评分方法与装置
JP2014035436A (ja) * 2012-08-08 2014-02-24 Jvc Kenwood Corp 音声処理装置
CN105962895A (zh) * 2016-04-26 2016-09-28 广东小天才科技有限公司 一种用户状态的提醒方法及系统
CN108038361A (zh) * 2017-11-27 2018-05-15 北京珠穆朗玛移动通信有限公司 基于声纹的双系统识别方法、移动终端及存储介质
CN109256138A (zh) * 2018-08-13 2019-01-22 平安科技(深圳)有限公司 身份验证方法、终端设备及计算机可读存储介质
CN111901549A (zh) * 2020-08-07 2020-11-06 杭州当虹科技股份有限公司 一种基于人声识别技术辅助现场录制编目方法
CN112992131A (zh) * 2021-02-04 2021-06-18 南京邮电大学 一种在复杂场景下提取目标人声的乒乓球指令的方法
CN113782032A (zh) * 2021-09-24 2021-12-10 广东电网有限责任公司 一种声纹识别方法及相关装置
CN114283815A (zh) * 2021-12-07 2022-04-05 厦门快商通科技股份有限公司 一种基于自动声纹鉴定的声纹识别方法和系统
CN114495948A (zh) * 2022-04-18 2022-05-13 北京快联科技有限公司 一种声纹识别方法及装置
CN114512133A (zh) * 2020-10-26 2022-05-17 北京达佳互联信息技术有限公司 发声对象识别方法、装置、服务器及存储介质
KR20230112478A (ko) * 2022-01-20 2023-07-27 김효수 성문 빅데이터 분석을 통한 궁합 시스템 및 그 방법
CN116631412A (zh) * 2023-05-10 2023-08-22 北京微呼科技有限公司 一种通过声纹匹配判断语音机器人的方法
CN116708637A (zh) * 2023-05-09 2023-09-05 广东启功实业集团有限公司 一种录音管理方法、系统、电子设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6898568B2 (en) * 2001-07-13 2005-05-24 Innomedia Pte Ltd Speaker verification utilizing compressed audio formants
US10867620B2 (en) * 2016-06-22 2020-12-15 Dolby Laboratories Licensing Corporation Sibilance detection and mitigation

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000056785A (ja) * 1998-08-10 2000-02-25 Yamaha Corp 似顔絵出力装置およびカラオケ装置
JP2006154209A (ja) * 2004-11-29 2006-06-15 Ntt Advanced Technology Corp 声色類似度評価方法および評価装置
CN1874163A (zh) * 2005-05-31 2006-12-06 雅马哈株式会社 数字音频数据的压缩与解压缩的方法
JP2007068847A (ja) * 2005-09-08 2007-03-22 Advanced Telecommunication Research Institute International 声門閉鎖区間検出装置および声門閉鎖区間検出方法
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
CN101727902A (zh) * 2008-10-29 2010-06-09 中国科学院自动化研究所 一种对语调进行评估的方法
CN102063905A (zh) * 2009-11-13 2011-05-18 数维科技(北京)有限公司 一种用于音频解码的盲噪声填充方法及其装置
CN102592589A (zh) * 2012-02-23 2012-07-18 华南理工大学 一种动态归一化数字特征的语音评分方法与装置
JP2014035436A (ja) * 2012-08-08 2014-02-24 Jvc Kenwood Corp 音声処理装置
CN105962895A (zh) * 2016-04-26 2016-09-28 广东小天才科技有限公司 一种用户状态的提醒方法及系统
CN108038361A (zh) * 2017-11-27 2018-05-15 北京珠穆朗玛移动通信有限公司 基于声纹的双系统识别方法、移动终端及存储介质
CN109256138A (zh) * 2018-08-13 2019-01-22 平安科技(深圳)有限公司 身份验证方法、终端设备及计算机可读存储介质
CN111901549A (zh) * 2020-08-07 2020-11-06 杭州当虹科技股份有限公司 一种基于人声识别技术辅助现场录制编目方法
CN114512133A (zh) * 2020-10-26 2022-05-17 北京达佳互联信息技术有限公司 发声对象识别方法、装置、服务器及存储介质
CN112992131A (zh) * 2021-02-04 2021-06-18 南京邮电大学 一种在复杂场景下提取目标人声的乒乓球指令的方法
CN113782032A (zh) * 2021-09-24 2021-12-10 广东电网有限责任公司 一种声纹识别方法及相关装置
CN114283815A (zh) * 2021-12-07 2022-04-05 厦门快商通科技股份有限公司 一种基于自动声纹鉴定的声纹识别方法和系统
KR20230112478A (ko) * 2022-01-20 2023-07-27 김효수 성문 빅데이터 분석을 통한 궁합 시스템 및 그 방법
CN114495948A (zh) * 2022-04-18 2022-05-13 北京快联科技有限公司 一种声纹识别方法及装置
CN116708637A (zh) * 2023-05-09 2023-09-05 广东启功实业集团有限公司 一种录音管理方法、系统、电子设备及存储介质
CN116631412A (zh) * 2023-05-10 2023-08-22 北京微呼科技有限公司 一种通过声纹匹配判断语音机器人的方法

Also Published As

Publication number Publication date
CN116884437A (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN106847292B (zh) 声纹识别方法及装置
Campbell et al. Forensic speaker recognition
Sailor et al. Auditory Filterbank Learning for Temporal Modulation Features in Replay Spoof Speech Detection.
Zão et al. Time-frequency feature and AMS-GMM mask for acoustic emotion classification
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
US5666466A (en) Method and apparatus for speaker recognition using selected spectral information
CN103251388A (zh) 基于智能手机平台的打鼾监测和防治方法及系统
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Schröder et al. Classification of human cough signals using spectro-temporal Gabor filterbank features
CN112382300A (zh) 声纹鉴定方法、模型训练方法、装置、设备及存储介质
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
Hsieh et al. Robust speaker identification system based on wavelet transform and Gaussian mixture model
CN113782032B (zh) 一种声纹识别方法及相关装置
CN111243600A (zh) 一种基于声场和场纹的语音欺骗攻击检测方法
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
Usman On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes
CN116884437B (zh) 基于人工智能的语音识别处理器
Johnson et al. Speaker indentification utilizing selected temporal speech features
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Tao et al. Speech deception detection algorithm based on SVM and acoustic features
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN112308379A (zh) 居家护理的服务订单评价方法、装置、设备和存储介质
RU2107950C1 (ru) Способ идентификации личности по фонограммам произвольной устной речи
CN117219125B (zh) 基于音频指纹的仿海洋哺乳动物叫声信号隐蔽性评分方法
Cohen Forensic Applications of Automatic Speaker Verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant