CN115910074A - 一种智能门禁的语音控制方法及装置 - Google Patents

一种智能门禁的语音控制方法及装置 Download PDF

Info

Publication number
CN115910074A
CN115910074A CN202211324979.9A CN202211324979A CN115910074A CN 115910074 A CN115910074 A CN 115910074A CN 202211324979 A CN202211324979 A CN 202211324979A CN 115910074 A CN115910074 A CN 115910074A
Authority
CN
China
Prior art keywords
signal
voice
frame
sound
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211324979.9A
Other languages
English (en)
Inventor
张文平
白维朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Isurpass Technology Co ltd
Original Assignee
Shenzhen Isurpass Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Isurpass Technology Co ltd filed Critical Shenzhen Isurpass Technology Co ltd
Priority to CN202211324979.9A priority Critical patent/CN115910074A/zh
Publication of CN115910074A publication Critical patent/CN115910074A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本发明公开了智能门禁的语音控制方法及装置,通过获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放,在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制,可以对智能门禁的语音输入进行精准采集并提供快速反馈,提高了语音识别的精确性和智能门禁的实用性。

Description

一种智能门禁的语音控制方法及装置
技术领域
本发明属于门禁控制技术领域,具体涉及一种智能门禁的语音控制方法及装置。
背景技术
随着科学技术的发展,人们对于工作和生活场所的安全要求不断提高,对于门禁系统的需求也在不断增加,门禁系统是在智能建筑领域的一种新型现代化安全管理系统,可有效地管理重要场所出入口权限,限制外来人员,是实现安全防范管理的有效措施。传统的门禁系统一般由门禁控制器、读卡器、电控锁、门口机和用户机等部分组成,其中门禁控制器为整个系统的中枢,连接门口机、用户机以及电控锁,负责真个系统的信息传输,读卡器提供给小区内住户或公司大楼的门口,提供给访客呼叫拜访的用户,由用户在用户机上接听后开启与访客之间的通话,判断其身份后决定是否打开门锁。整个使用流程中,人们发现传统门禁系统尽管极大地方便了拜访者的身份验证过程,但对于用户来说却很不方便,需要到用户机旁才能接听通话或打开门锁,这样极大地限制了用户使用门禁进行操作的自由度,带来不佳的用户体验。
发明内容
有鉴于此,本发明提供了一种可以提高语音识别精度和门禁智能控制灵活性的智能门禁的语音控制方法及装置,来解决上述存在的技术问题,具体采用以下技术方案来实现。
第一方面,本发明提供了一种智能门禁的语音控制方法,包括以下步骤:
获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,其中,语音信息包括语音对应的帧序列;
提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,其中,网络模型包括输入层、输出层和隐藏层;
向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放;
在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制。
作为上述技术方案的进一步改进,向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放,包括:
选取三种频率f1、f2和f3作为标记音频率,取单位幅值和长度均为2倍远端信号帧长对应该三种频率的单频信号s1、s2和s3混合叠加生成原始标记音s,
Figure BDA0003912043190000021
其中f1、f2和f3分别落在正常语音频段分段的低频、中频和高频,低频信号为100Hz~1000Hz,中频1000Hz~2000Hz,高频为2000Hz~3000Hz,得到标记音s后再通过标记音的嵌入规则在远端信号中寻找合适的帧,将s缩放至合适的幅度后嵌入到远端信号中;
将第n帧远端信号通过计算当前帧的离散傅里叶变换得到频谱,取频谱的模方得到能量谱S(k),根据临界频带计算表达式为
Figure BDA0003912043190000022
Figure BDA0003912043190000023
分别计算以f1、f2和f3为中心频率的临界频带W1、W2和W3,采用当前信号帧的能量谱计算落在各个临界频谱带内的能量的表达式为
Figure BDA0003912043190000024
其中
Figure BDA0003912043190000025
fs为远端信号的采样频率,N为快速傅里叶变换的长度,根据临界频带W1、W2和W3分别计算得到的临界频带能量为
Figure BDA0003912043190000039
根据能量谱计算当前远端信号帧对应的f1、f2和f3频率点的能量分量
Figure BDA0003912043190000031
Figure BDA0003912043190000032
Figure BDA0003912043190000033
取其中的最大值作为当前第n帧的频点能量E′n
Figure BDA0003912043190000034
计算上一帧的临界频带能量En-1与当前帧的临界频带能量E′n之比为λ,
Figure BDA0003912043190000035
当λ、En-1和E′n分别满足
Figure BDA0003912043190000036
则判定当前帧为可嵌入帧,其中λmin为临界频带能量的最低门限,Emax表示当前帧的频点能量最高门限,Emin表示前一帧临界频带能量的最低门限,λmin选取得越大,则嵌入位置的上一帧与当前帧的临界频带能量比值越大,对嵌入标记音的掩蔽效果越好,而对可嵌入位置的旋转条件越苛刻;Emax设置得越小,要求嵌入位置的频点能量越低,使嵌入后的帧在f1、f2和f3三个频率的能量保持相等;
根据上一帧的临界频带能量与当前帧的频点能量计算其掩蔽阈值Tn,掩蔽阈值的表达式为
Figure BDA0003912043190000037
其中α为嵌入因子,根据当前帧和前一帧的掩蔽阈值进行平滑处理得到标记音嵌入的幅度A,幅度的表达式为A=βTn-1+(1-β)Tn,其中β表示平滑因子,将原始标记音s的幅度扩大至A得到带嵌入标记信号s′,s′=A*s,将s′与当前帧相叠加得到嵌入标记音后的远端信号帧。
作为上述技术方案的进一步改进,在远端信号中嵌入标记音之后,对近端信号的标记音进行检测,包括:
根据当前第n帧信号通过快速傅里叶变换计算当前帧的离散傅里叶变换得到频谱,选取频谱的模方得到能量谱并对其进行归一化后得到归一化能量谱S(k),根据能量谱计算当前帧中对应f1、f2和f3频点的能量分量E′1、E′2和E′3,构成当前第n帧的特征矢量vn,Vn=(E′1,E′2,E′3);
根据特征矢量v与参考矢量vr之间的夹角θ进行判定,
Figure BDA0003912043190000038
其中参考矢量vr=(1,1,1),<v,v′>表示两个矢量的内积运算,在远端信号帧中嵌入标记音时,通过控制标记音的嵌入幅度,以保证嵌入后的音频帧在三个频率点f1、f2和f3上的能量分量相同,特征矢量与参考矢量夹角θ为0°,其余弦值为1;
确定一个θ的门限值Tθ以得到cosθ的门限值Tcos,将计算得到的夹角余弦值与门限进行比较,从而进行标记音检测的判定,判定的表达式为
Figure BDA0003912043190000041
其中d表示判定结果,1表示检测到标记音,0表示未检测到标记音。
作为上述技术方案的进一步改进,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,包括:
以帧为单位获取远端信号,根据标记音嵌入规则选取合适的位置嵌入标记音后将其输入智能门禁,在嵌入完成后启动计时器T1,根据上一次时延估计值t计算当前时延的预测范围C,根据C设置并启动定时器T2,其中时延范围区间C的计算表达式为C=(t-Δt,t+Δt),Δt表示时延偏移,定时器T2设置为时延估计范围C的左端点,则T2=t-Δt;
按帧获取近端信号,在定时器T2跳转后提取每一帧的特征矢量并启动标记音检测过程,在检测到标记音后读取计时器T1的值作为当前回声时延准估计值t′,并重置T1
检测回声时延准估计值t′是否符合当前时延预测范围C,若符合,则将时延估计t更新为t′,若不符合,判定当前时延准估计值无效,将t′丢弃,时延估计t维持不变。
作为上述技术方案的进一步改进,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,包括:
采用熵的语音信端点检测过程,一段包含噪音的语音信号s′(n),1<n<N,经过快速傅里叶变换得到频率分量fi的能量谱为Ym(fi),则频谱概率密度函数的表达式为
Figure BDA0003912043190000051
其中Pi表示频率分量i相对应的概率密度,N表示快速傅里叶变换的长度,m表示帧的序号,Pi表示信号能量在各频点上的分布情况,频谱能量的概率密度函数满足
Figure BDA0003912043190000052
则信息熵的表达式为
Figure BDA0003912043190000053
信息的熵由信号分布的概率密度函数决定,当熵值在信号等概率分布时信息熵取得最大值,表示信号源平坦分布,平均信息量大;
采用熵进行语音信号断电检测时,输入待处理的连续语音信号,对输入的待分析语音信号进行加窗以实现语音信号分帧处理,对声纹识别语音信号端点进行预处理,以获取短时平稳语音信号段;
计算每一帧信号的短时自相关函数,对自相关函数进行快速傅里叶变换以获取语音信号的短时功率谱密度,计算每个频率分量的归一化功率谱密度函数,计算该帧语音信号的短时信息熵得到目标语音信号。
作为上述技术方案的进一步改进,计算该帧语音信号的短时信息熵得到目标语音信号,包括:
预设有一语音信号x(h),信号的短时自相关函数为
Figure BDA0003912043190000054
0≤τ≤K,其中N表示语音信号加窗后的窗口长度,K表示信号的最大延迟点数,τ表示信号的延迟点数,语音信号x(h)乘以长度为N的窗函数得到x(h)的加窗后的语音信号xg(h),加窗的语音信号的表达式为xg(h)=x(h)w(g-h),w(g-h)表示根据需要所加的窗函数,
Figure BDA0003912043190000055
浊音信号的自相关函数出现峰值,根据浊音与清音在自相关函数峰值上的区别,通过判断信号自相关函数是否存在峰值,区分信号中的清音和浊音,通过自相关函数两个相邻峰值之间的距离确定语音信号基音周期;
采用短时自相关函数进行语音端点检测且计算基音周期的过程为:输入待处理的连续语音信号,对输入的待分析语音信号进行加窗得到平稳的短时语音帧,对短时平稳语音信号段进行削波处理,排除共振产生的干扰因素,对语音段进行自相关运算,检测是否有峰值出现,对清音和浊音进行判别以实现基音周期的判定。
作为上述技术方案的进一步改进,使用回音往返损耗增强来评价整体回声消除模块的性能表现,从中反映出双端检测算法的好坏,表达式为
Figure BDA0003912043190000061
其中e(n′)表示残差信号且近端信号与经过自适应滤波器后的回声估计信号之差,ERLE是回声消除效果的评判标准,ERLE值越高,则证明回声消除效果越好。
作为上述技术方案的进一步改进,提取语音信息的特征参数构建声纹识别的网络模型,包括:
构建隐藏层为四段、卷积层和池化层均为一层的卷积神经网络模型,卷积层conv1中的卷积核为8个,每个卷积核为5×5,步长为1,输入数据为40×40×40,输出8个40×40的特征图,池化层pool1采用平均池化,池化大小为3×3,步长为2,输出维度缩小为20×20;卷积层conv2中的卷积核为16个,每个卷积核为5×5,步长为1,输出维度为20×20,池化层pool2采用平均池化,池化大小为3×3,步长为2,输出维度10×10;
卷积层conv3中的卷积核为32个,每个卷积核为5×5,步长为1,输出维度10×10;池化层pool3采用平均池化,池化大小为3×3,步长为2,输出维度5×5;卷积层conv4中的卷积核为64个,每个卷积核为5×5,步长为1,输出维度5×5,池化层pool4采用平均池化,池化大小为3×3,步长为2,输出维度2×2,经过全连接层映射得到一维向量,激活函数为softmax,以完成声纹识别的网络模型。
作为上述技术方案的进一步改进,声纹特征提取的过程包括:
将包含噪声的激励源和包含说话人声纹信息的声道特性分离提取,经过同态滤波和取对数运算得到倒谱,倒谱的表达式为
Figure BDA0003912043190000071
其中
Figure BDA0003912043190000072
表示说话人的声道分量,
Figure BDA0003912043190000073
表示噪声的激励源;
经过声纹特征的预处理后得到逐帧的时域信号,再通过傅里叶变换转换到频域得到线性频谱,线性频谱的表达式为
Figure BDA0003912043190000074
其中n′≥0,0≤k′≤n′-1,其中x(n′)表示时域信号,N表示傅里叶点数。
第二方面,本发明还提供了一种智能门禁的语音控制装置,包括:
获取单元,用于获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,其中,语音信息包括语音对应的帧序列;
构建单元,用于提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,其中,网络模型包括输入层、输出层和隐藏层;
嵌入单元,用于向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放;
控制单元,用于在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制。
本发明提供了一种智能门禁的语音控制方法及装置,通过获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,对语音信号进行预处理可以排除干扰信号,提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放,在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制,可以对智能门禁的语音输入进行精准采集并提供快速反馈,提高了语音识别的精确性和智能门禁的实用性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的智能门禁的语音控制方法的流程图;
图2为本发明提供的智能门禁的语音控制装置的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参阅图1,本发明提供了一种智能门禁的语音控制方法,包括以下步骤:
S1:获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,其中,语音信息包括语音对应的帧序列;
S2:提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,其中,网络模型包括输入层、输出层和隐藏层;
S3:向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放;
S4:在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制。
本实施例中,向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放,包括:选取三种频率f1、f2和f3作为标记音频率,取单位幅值和长度均为2倍远端信号帧长对应该三种频率的单频信号s1、s2和s3混合叠加生成原始标记音s,
Figure BDA0003912043190000091
其中f1、f2和f3分别落在正常语音频段分段的低频、中频和高频,低频信号为100Hz~1000Hz,中频1000Hz~2000Hz,高频为2000Hz~3000Hz,得到标记音s后再通过标记音的嵌入规则在远端信号中寻找合适的帧,将s缩放至合适的幅度后嵌入到远端信号中;将第n帧远端信号通过计算当前帧的离散傅里叶变换得到频谱,取频谱的模方得到能量谱S(k),根据临界频带计算表达式为
Figure BDA0003912043190000092
分别计算以f1、f2和f3为中心频率的临界频带W1、W2和W3,采用当前信号帧的能量谱计算落在各个临界频谱带内的能量的表达式为
Figure BDA0003912043190000093
其中
Figure BDA0003912043190000094
fs为远端信号的采样频率,N为快速傅里叶变换的长度,根据临界频带W1、W2和W3分别计算得到的临界频带能量为
Figure BDA0003912043190000095
根据能量谱计算当前远端信号帧对应的f1、f2和f3频率点的能量分量
Figure BDA0003912043190000096
Figure BDA0003912043190000097
取其中的最大值作为当前第n帧的频点能量
Figure BDA0003912043190000098
计算上一帧的临界频带能量En-1与当前帧的临界频带能量E′n之比为λ,
Figure BDA0003912043190000099
当λ、En-1和E′n分别满足
Figure BDA00039120431900000910
则判定当前帧为可嵌入帧,其中λmin为临界频带能量的最低门限,Emax表示当前帧的频点能量最高门限,Emin表示前一帧临界频带能量的最低门限,λmin选取得越大,则嵌入位置的上一帧与当前帧的临界频带能量比值越大,对嵌入标记音的掩蔽效果越好,而对可嵌入位置的旋转条件越苛刻;Emax设置得越小,要求嵌入位置的频点能量越低,使嵌入后的帧在f1、f2和f3三个频率的能量保持相等;根据上一帧的临界频带能量与当前帧的频点能量计算其掩蔽阈值Tn,掩蔽阈值的表达式为
Figure BDA0003912043190000101
其中α为嵌入因子,根据当前帧和前一帧的掩蔽阈值进行平滑处理得到标记音嵌入的幅度A,幅度的表达式为A=βTn-1+(1-β)Tn,其中β表示平滑因子,将原始标记音s的幅度扩大至A得到带嵌入标记信号s′,s′=A*s,将s′与当前帧相叠加得到嵌入标记音后的远端信号帧。
需要说明的是,采用人耳听觉的掩蔽效应,在不影响信息的准确表达的前提下,在远端信号的合适位置嵌入由多个频率的音频组成的标记音,并记录嵌入时间点,然后将嵌入标记音的远端信号正常播放,在近端信号中对标记音进行检测,当检测到标记音时,则能根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延。通过在远端信号寻找合适的帧,使其能够对嵌入在其下一帧的标记音产生前向掩蔽,从而尽可能保证远端信号的信息表达不会被标记音所影响,同时为了使嵌入的标记音容易在近端信号中检出,就需要嵌入的能量足够大,且嵌入的标记音信号足够完整,即嵌入后的帧在三个频率点上能量尽可能一致。而为了保证嵌入标记音后信号的能量不会超出前一帧能掩蔽的范围,标记音的能量由嵌入位置的前一帧远端信号在以标记音三个频率为中心频率的临界频带内的能量的最小值与嵌入位置的远端信号在三个频率点的能量分量的最大值之差来决定,若使嵌入的能量足够大且标记音足够完整,只需要使两者比值足够大且能量分量足够小。
应理解,门禁系统最重要的功能是管理来访者进入的系统,保障场所的秩序和安全,门禁系统的前端设备应操作简单、界面友好,来访者在使用门禁设备时,应交互流畅、易操作。录制语音的过程设置适当,后台识别过程应准确、迅速,不宜有太久的等待时间。门禁系统通常会设置门禁系统设备前端和后台的服务器端,前端与用户交互,后台服务器端主要包括模型的识别部分,前端与后台通过网络连接。门禁系统识别人员身份信息,需要在后端训练更新识别模型,还需要数据库存储注册人信息,这些离不开管理员的管理,管理员能够具有管理数据库、修改识别模型的权限。门禁系统中的声纹识别包括语音预处理、特征提取和识别模型的构建,采集语音的过程会受到环境影响,如噪声干扰或信道变化,都会影响语音波形,通过将语音信号进行预处理去除干扰噪声可以对语音信号进行准确采集并识别,从而提高了语音信号的识别效率和精度,以增强语音控制的有效性。
可选地,在远端信号中嵌入标记音之后,对近端信号的标记音进行检测,包括:
根据当前第n帧信号通过快速傅里叶变换计算当前帧的离散傅里叶变换得到频谱,选取频谱的模方得到能量谱并对其进行归一化后得到归一化能量谱S(k),根据能量谱计算当前帧中对应f1、f2和f3频点的能量分量E′1、E′2和E′3,构成当前第n帧的特征矢量vn,Vn=(E′1,E′2,E′3);
根据特征矢量v与参考矢量vr之间的夹角θ进行判定,
Figure BDA0003912043190000111
其中参考矢量vr=(1,1,1),<v,v′>表示两个矢量的内积运算,在远端信号帧中嵌入标记音时,通过控制标记音的嵌入幅度,以保证嵌入后的音频帧在三个频率点f1、f2和f3上的能量分量相同,特征矢量与参考矢量夹角θ为0°,其余弦值为1;
确定一个θ的门限值Tθ以得到cosθ的门限值Tcos,将计算得到的夹角余弦值与门限进行比较,从而进行标记音检测的判定,判定的表达式为
Figure BDA0003912043190000112
其中d表示判定结果,1表示检测到标记音,0表示未检测到标记音。
本实施例中,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,包括:以帧为单位获取远端信号,根据标记音嵌入规则选取合适的位置嵌入标记音后将其输入智能门禁,在嵌入完成后启动计时器T1,根据上一次时延估计值t计算当前时延的预测范围C,根据C设置并启动定时器T2,其中时延范围区间C的计算表达式为C=(t-Δt,t+Δt),Δt表示时延偏移,定时器T2设置为时延估计范围C的左端点,则T2=t-Δt;按帧获取近端信号,在定时器T2跳转后提取每一帧的特征矢量并启动标记音检测过程,在检测到标记音后读取计时器T1的值作为当前回声时延准估计值t′,并重置T1;检测回声时延准估计值t′是否符合当前时延预测范围C,若符合,则将时延估计t更新为t′,若不符合,判定当前时延准估计值无效,将t′丢弃,时延估计t维持不变。
需要说明的是,在计算复杂度敏感的场合,可以采用特征矢量与参考矢量的夹角计算来检测标记音,具有较好的准确度和较低的计算复杂度,不依赖背景噪声与远端信号的独立性假设,具有更高的可靠性。采用人耳听觉掩蔽效应的心理声学模型,对嵌入的标记音进行的位置、幅值进行控制,减小标记音对信号的影响,最大化保证的原始远端信号表达的完整性。采用标记音的嵌入和检测交替执行,对于每一次嵌入和检测到的标记音,执行范围检验,根据检验结果对回声时延进行更新,实现对回声时延的动态追踪,从而提高了语音识别和控制的可靠性。
可选地,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,包括:
采用熵的语音信端点检测过程,一段包含噪音的语音信号s′(n),1<n<N,经过快速傅里叶变换得到频率分量fi的能量谱为Ym(fi),则频谱概率密度函数的表达式为
Figure BDA0003912043190000121
其中Pi表示频率分量i相对应的概率密度,N表示快速傅里叶变换的长度,m表示帧的序号,Pi表示信号能量在各频点上的分布情况,频谱能量的概率密度函数满足
Figure BDA0003912043190000122
则信息熵的表达式为
Figure BDA0003912043190000123
信息的熵由信号分布的概率密度函数决定,当熵值在信号等概率分布时信息熵取得最大值,表示信号源平坦分布,平均信息量大;
采用熵进行语音信号断电检测时,输入待处理的连续语音信号,对输入的待分析语音信号进行加窗以实现语音信号分帧处理,对声纹识别语音信号端点进行预处理,以获取短时平稳语音信号段;
计算每一帧信号的短时自相关函数,对自相关函数进行快速傅里叶变换以获取语音信号的短时功率谱密度,计算每个频率分量的归一化功率谱密度函数,计算该帧语音信号的短时信息熵得到目标语音信号。
本实施例中,计算该帧语音信号的短时信息熵得到目标语音信号,包括:预设有一语音信号x(h),信号的短时自相关函数为
Figure BDA0003912043190000131
0≤τ≤K,其中N表示语音信号加窗后的窗口长度,K表示信号的最大延迟点数,τ表示信号的延迟点数,语音信号x(h)乘以长度为N的窗函数得到x(h)的加窗后的语音信号xg(h),加窗的语音信号的表达式为xg(h)=x(h)w(g-h),w(g-h)表示根据需要所加的窗函数,
Figure BDA0003912043190000132
浊音信号的自相关函数出现峰值,根据浊音与清音在自相关函数峰值上的区别,通过判断信号自相关函数是否存在峰值,区分信号中的清音和浊音,通过自相关函数两个相邻峰值之间的距离确定语音信号基音周期;采用短时自相关函数进行语音端点检测且计算基音周期的过程为:输入待处理的连续语音信号,对输入的待分析语音信号进行加窗得到平稳的短时语音帧,对短时平稳语音信号段进行削波处理,排除共振产生的干扰因素,对语音段进行自相关运算,检测是否有峰值出现,对清音和浊音进行判别以实现基音周期的判定。
需要说明的是,声音的产生需要经历的过程包括:空气是由肺部吸入喉部,空气经声带进入到人体的声道,由嘴辐射出声波,最后形成语音,语音信号通常包括清音、浊音和爆破音,声带绷紧时,气流的通过会迫使声道开口形成周期性动作,产生周期性气流,从而产生浊音,此时的激励源是一种准周期的脉冲序列。清音指的是当声带完全舒展时,声道某部位就会收缩成一条狭窄的通道,产生空气湍流形成清音,位于声道的空气湍流为此时的激励源。爆破音指的是当声带完全舒展,声道部位由完全闭合到突然开启时,空气压力快速释放,从而产生爆破音,此时的激励源为气压的突然释放。基音周期和基音频率是语音信号的两个声学特性,基音周期表示的是声道每开启一次和闭合一次所用的时间长度,基音频率指的是声带在单位时间振动的次数,它由声带尺寸与声带特性所决定,也取决于声带所承受的张力,基音频率决定者所发声音频率的高低,若频率块,则音调高,若频率低,则音调低,基音频率的范围是80~500Hz,性别和年龄也会对基音频率产生影响,从而快速分离清音和浊音,从而提高语音信号识别的准确性。
可选地,使用回音往返损耗增强来评价整体回声消除模块的性能表现,从中反映出双端检测算法的好坏,表达式为
Figure BDA0003912043190000141
其中e(n′)表示残差信号且近端信号与经过自适应滤波器后的回声估计信号之差,ERLE是回声消除效果的评判标准,ERLE值越高,则证明回声消除效果越好。
可选地,提取语音信息的特征参数构建声纹识别的网络模型,包括:
构建隐藏层为四段、卷积层和池化层均为一层的卷积神经网络模型,卷积层conv1中的卷积核为8个,每个卷积核为5×5,步长为1,输入数据为40×40×40,输出8个40×40的特征图,池化层pool1采用平均池化,池化大小为3×3,步长为2,输出维度缩小为20×20;卷积层conv2中的卷积核为16个,每个卷积核为5×5,步长为1,输出维度为20×20,池化层pool2采用平均池化,池化大小为3×3,步长为2,输出维度10×10;
卷积层conv3中的卷积核为32个,每个卷积核为5×5,步长为1,输出维度10×10;池化层pool3采用平均池化,池化大小为3×3,步长为2,输出维度5×5;卷积层conv4中的卷积核为64个,每个卷积核为5×5,步长为1,输出维度5×5,池化层pool4采用平均池化,池化大小为3×3,步长为2,输出维度2×2,经过全连接层映射得到一维向量,激活函数为softmax,以完成声纹识别的网络模型。
本实施例中,声纹特征提取的过程包括:将包含噪声的激励源和包含说话人声纹信息的声道特性分离提取,经过同态滤波和取对数运算得到倒谱,倒谱的表达式为
Figure BDA0003912043190000151
其中
Figure BDA0003912043190000152
表示说话人的声道分量,
Figure BDA0003912043190000153
表示噪声的激励源;经过声纹特征的预处理后得到逐帧的时域信号,再通过傅里叶变换转换到频域得到线性频谱,线性频谱的表达式为
Figure BDA0003912043190000154
其中n′≥0,0≤k′≤n′-1,其中x(n′)表示时域信号,N表示傅里叶点数。
需要说明的是,语音信号和噪声信号的分布和特征不同,能量分布也各不相同,带噪语音信号的呢光包括语音信号能量和噪声信号能量,带噪语音段能量值会大于单纯噪声段的能量,若声纹识别模型的环境噪声和输入噪声相对较小,既可以保证信号以高信噪比输入,也可以通过语音信号与噪声信号之和的短时平均能量来区分噪声信号和语音信号,还可以通过判断幅度是否大于噪声信号的短时平均能量,以此来区分语音信号和背景噪声。新的说话人通过注册阶段后,除了在数据库中添加一条个人信息,还将在神经网络的输出层添加一个新的输出节点,可在识别阶段,通过网络模型识别成功,同时显示个人信息。神经网络通过大量简单的神经元,构成了复杂的网络模型,具有自组织、自学习的能力,处理信息的方式与人类神经系统类似,应用到声纹识别中,可以更好地提取说话人语音数据中的个性特征,从而提升了语音识别的精确性。
参阅图2,本发明还提供了一种智能门禁的语音控制装置,包括:
获取单元,用于获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,其中,语音信息包括语音对应的帧序列;
构建单元,用于提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,其中,网络模型包括输入层、输出层和隐藏层;
嵌入单元,用于向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放;
控制单元,用于在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制。
本实施例中,双端讲话边界部分的音频信号经过分帧和加窗,根据帧长和帧移的设置可能会在帧内包含一定的静音部分的音频信号,造成边界部分的判决变量可能低于门限值,而人类语音的发生过程一般由弱到强,所以边界部分的语音音量较小。从而难以检测,当判决变量达到足够突破门限值时,真实的双端讲话状态可能在前几帧已经开始了,这样会存在一定的延时,若为了降低延时而压低门限,则会造成双端检测过于灵敏,从而容易产生误判。采用双滤波器结构即存储稳定参数的主滤波器和计算当前迭代得到更新参数的辅助滤波器。若将滤波器系数作为一个矢量c,采用基于NLMS算法的自适应滤波器进行迭代时,滤波器系数的逐次迭代之后辅助滤波器与主滤波器之间的欧氏距离整体应呈现出缓速下降的趋势,将这一距离作为自适应滤波器的更新距离记为Du,其计算表达式为Du(n)=β1Du(n-1)+β2D(c1,c2),其中β1、β2表示平滑因子且有β12=1,n为当前帧序号,c1和c2分别表示主滤波器和辅助滤波器参数矢量,D(c1,c2)表示欧氏距离运算符。
需要说明的是,当发生双端讲话时,若双端检测算法没有及时检测到双端讲话状态,导致滤波器使用当前数据对滤波器进行迭代,滤波器的更新距离Du将会在短时间内立刻急剧上升。采用滤波器更新距离的特性对双端检测算法的判决结果进行修正,在双端讲话的边界部分,其响应速度要快于判决变量,从而当发生误判时也能通过辅助滤波器与主滤波器的参数更新距离的与门限值比较,从而保证主滤波器参数的正确收敛,更新距离小于或等于门限值时,判定当前更新可靠,可以将辅助滤波器参数存储到主滤波器;若更新距离大于门限,则判定当前更新不可靠,将当前辅助滤波器参数丢弃,并将其重新修正为主滤波器参数。存储经过双端检测后判定为远端讲话状态的近端帧迭代得到的滤波器参数,将更新后的参数与主滤波器参数进行比较,记主滤波器参数为c1,辅助滤波器参数为c2,计算两者的欧氏距离并进行平滑后得到当前帧的更新距离Du。通过从时域和频域两个双面提取双端信号和回声信号的差异化信息,从而构成特征矢量,且根据清浊音检测结果在清音段和浊音端使用不同的判决门限,极大地改善了双端检测的性能。结合使用主滤波器存储稳定的滤波器参数、辅助滤波器根据当前数据进行迭代,且通过两个滤波器之间的更新距离判断当前更新是否可靠,从而对双端检测的结果即双端讲话边缘部分的检测结果进行补充和校正,提高了智能门禁的灵活控制和实用性。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (10)

1.一种智能门禁的语音控制方法,其特征在于,包括以下步骤:
获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,其中,语音信息包括语音对应的帧序列;
提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,其中,网络模型包括输入层、输出层和隐藏层;
向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放;
在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制。
2.根据权利要求1所述的智能门禁的语音控制方法,其特征在于,向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放,包括:
选取三种频率f1、f2和f3作为标记音频率,取单位幅值和长度均为2倍远端信号帧长对应该三种频率的单频信号s1、s2和s3混合叠加生成原始标记音s,
Figure FDA0003912043180000011
其中f1、f2和f3分别落在正常语音频段分段的低频、中频和高频,低频信号为100Hz~1000Hz,中频1000Hz~2000Hz,高频为2000Hz~3000Hz,得到标记音s后再通过标记音的嵌入规则在远端信号中寻找合适的帧,将s缩放至合适的幅度后嵌入到远端信号中;
将第n帧远端信号通过计算当前帧的离散傅里叶变换得到频谱,取频谱的模方得到能量谱S(k),根据临界频带计算表达式为
Figure FDA0003912043180000012
Figure FDA0003912043180000013
分别计算以f1、f2和f3为中心频率的临界频带W1、W2和W3,采用当前信号帧的能量谱计算落在各个临界频谱带内的能量的表达式为
Figure FDA0003912043180000014
其中
Figure FDA0003912043180000015
fs为远端信号的采样频率,N为快速傅里叶变换的长度,根据临界频带W1、W2和W3分别计算得到的临界频带能量为
Figure FDA0003912043180000021
根据能量谱计算当前远端信号帧对应的f1、f2和f3频率点的能量分量
Figure FDA0003912043180000022
Figure FDA0003912043180000023
Figure FDA0003912043180000024
取其中的最大值作为当前第n帧的频点能量E′n
Figure FDA0003912043180000025
计算上一帧的临界频带能量En-1与当前帧的临界频带能量E′n之比为λ,
Figure FDA0003912043180000026
当λ、En-1和E′n分别满足
Figure FDA0003912043180000027
则判定当前帧为可嵌入帧,其中λmin为临界频带能量的最低门限,Emax表示当前帧的频点能量最高门限,Emin表示前一帧临界频带能量的最低门限,λmin选取得越大,则嵌入位置的上一帧与当前帧的临界频带能量比值越大,对嵌入标记音的掩蔽效果越好,而对可嵌入位置的旋转条件越苛刻;Emax设置得越小,要求嵌入位置的频点能量越低,使嵌入后的帧在f1、f2和f3三个频率的能量保持相等;
根据上一帧的临界频带能量与当前帧的频点能量计算其掩蔽阈值Tn,掩蔽阈值的表达式为
Figure FDA0003912043180000028
其中α为嵌入因子,根据当前帧和前一帧的掩蔽阈值进行平滑处理得到标记音嵌入的幅度A,幅度的表达式为A=βTn-1+(1-β)Tn,其中β表示平滑因子,将原始标记音s的幅度扩大至A得到带嵌入标记信号s′,s′=A*s,将s′与当前帧相叠加得到嵌入标记音后的远端信号帧。
3.根据权利要求2所述的智能门禁的语音控制方法,其特征在于,在远端信号中嵌入标记音之后,对近端信号的标记音进行检测,包括:
根据当前第n帧信号通过快速傅里叶变换计算当前帧的离散傅里叶变换得到频谱,选取频谱的模方得到能量谱并对其进行归一化后得到归一化能量谱S(k),根据能量谱计算当前帧中对应f1、f2和f3频点的能量分量E′1、E′2和E′3,构成当前第n帧的特征矢量vn,Vn=(E′1,E′2,E′3);
根据特征矢量v与参考矢量vr之间的夹角θ进行判定,
Figure FDA0003912043180000031
其中参考矢量vr=(1,1,1),<v,v′>表示两个矢量的内积运算,在远端信号帧中嵌入标记音时,通过控制标记音的嵌入幅度,以保证嵌入后的音频帧在三个频率点f1、f2和f3上的能量分量相同,特征矢量与参考矢量夹角θ为0°,其余弦值为1;
确定一个θ的门限值Tθ以得到cosθ的门限值Tcos,将计算得到的夹角余弦值与门限进行比较,从而进行标记音检测的判定,判定的表达式为
Figure FDA0003912043180000032
其中d表示判定结果,1表示检测到标记音,0表示未检测到标记音。
4.根据权利要求2所述的智能门禁的语音控制方法,其特征在于,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,包括:
以帧为单位获取远端信号,根据标记音嵌入规则选取合适的位置嵌入标记音后将其输入智能门禁,在嵌入完成后启动计时器T1,根据上一次时延估计值t计算当前时延的预测范围C,根据C设置并启动定时器T2,其中时延范围区间C的计算表达式为C=(t-Δt,t+Δt),Δt表示时延偏移,定时器T2设置为时延估计范围C的左端点,则T2=t-Δt;
按帧获取近端信号,在定时器T2跳转后提取每一帧的特征矢量并启动标记音检测过程,在检测到标记音后读取计时器T1的值作为当前回声时延准估计值t′,并重置T1
检测回声时延准估计值t′是否符合当前时延预测范围C,若符合,则将时延估计t更新为t′,若不符合,判定当前时延准估计值无效,将t′丢弃,时延估计t维持不变。
5.根据权利要求1所述的智能门禁的语音控制方法,其特征在于,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,包括:
采用熵的语音信端点检测过程,一段包含噪音的语音信号s′(n),1<n<N,经过快速傅里叶变换得到频率分量fi的能量谱为Ym(fi),则频谱概率密度函数的表达式为
Figure FDA0003912043180000041
其中Pi表示频率分量i相对应的概率密度,N表示快速傅里叶变换的长度,m表示帧的序号,Pi表示信号能量在各频点上的分布情况,频谱能量的概率密度函数满足
Figure FDA0003912043180000042
则信息熵的表达式为
Figure FDA0003912043180000043
信息的熵由信号分布的概率密度函数决定,当熵值在信号等概率分布时信息熵取得最大值,表示信号源平坦分布,平均信息量大;
采用熵进行语音信号断电检测时,输入待处理的连续语音信号,对输入的待分析语音信号进行加窗以实现语音信号分帧处理,对声纹识别语音信号端点进行预处理,以获取短时平稳语音信号段;
计算每一帧信号的短时自相关函数,对自相关函数进行快速傅里叶变换以获取语音信号的短时功率谱密度,计算每个频率分量的归一化功率谱密度函数,计算该帧语音信号的短时信息熵得到目标语音信号。
6.根据权利要求5所述的智能门禁的语音控制方法,其特征在于,计算该帧语音信号的短时信息熵得到目标语音信号,包括:
预设有一语音信号x(h),信号的短时自相关函数为
Figure FDA0003912043180000044
其中N表示语音信号加窗后的窗口长度,K表示信号的最大延迟点数,τ表示信号的延迟点数,语音信号x(h)乘以长度为N的窗函数得到x(h)的加窗后的语音信号xg(h),加窗的语音信号的表达式为xg(h)=x(h)w(g-h),w(g-h)表示根据需要所加的窗函数,
Figure FDA0003912043180000045
浊音信号的自相关函数出现峰值,根据浊音与清音在自相关函数峰值上的区别,通过判断信号自相关函数是否存在峰值,区分信号中的清音和浊音,通过自相关函数两个相邻峰值之间的距离确定语音信号基音周期;
采用短时自相关函数进行语音端点检测且计算基音周期的过程为:输入待处理的连续语音信号,对输入的待分析语音信号进行加窗得到平稳的短时语音帧,对短时平稳语音信号段进行削波处理,排除共振产生的干扰因素,对语音段进行自相关运算,检测是否有峰值出现,对清音和浊音进行判别以实现基音周期的判定。
7.根据权利要求6所述的智能门禁的语音控制方法,其特征在于,使用回音往返损耗增强来评价整体回声消除模块的性能表现,从中反映出双端检测算法的好坏,表达式为
Figure FDA0003912043180000051
其中e(n′)表示残差信号且近端信号与经过自适应滤波器后的回声估计信号之差,ERLE是回声消除效果的评判标准,ERLE值越高,则证明回声消除效果越好。
8.根据权利要求1所述的智能门禁的语音控制方法,其特征在于,提取语音信息的特征参数构建声纹识别的网络模型,包括:
构建隐藏层为四段、卷积层和池化层均为一层的卷积神经网络模型,卷积层conv1中的卷积核为8个,每个卷积核为5×5,步长为1,输入数据为40×40×40,输出8个40×40的特征图,池化层pool1采用平均池化,池化大小为3×3,步长为2,输出维度缩小为20×20;卷积层conv2中的卷积核为16个,每个卷积核为5×5,步长为1,输出维度为20×20,池化层pool2采用平均池化,池化大小为3×3,步长为2,输出维度10×10;
卷积层conv3中的卷积核为32个,每个卷积核为5×5,步长为1,输出维度10×10;池化层pool3采用平均池化,池化大小为3×3,步长为2,输出维度5×5;卷积层conv4中的卷积核为64个,每个卷积核为5×5,步长为1,输出维度5×5,池化层pool4采用平均池化,池化大小为3×3,步长为2,输出维度2×2,经过全连接层映射得到一维向量,激活函数为softmax,以完成声纹识别的网络模型。
9.根据权利要求8所述的智能门禁的语音控制方法,其特征在于,声纹特征提取的过程包括:
将包含噪声的激励源和包含说话人声纹信息的声道特性分离提取,经过同态滤波和取对数运算得到倒谱,倒谱的表达式为
Figure FDA0003912043180000061
其中
Figure FDA0003912043180000062
表示说话人的声道分量,
Figure FDA0003912043180000063
表示噪声的激励源;
经过声纹特征的预处理后得到逐帧的时域信号,再通过傅里叶变换转换到频域得到线性频谱,线性频谱的表达式为
Figure FDA0003912043180000064
其中n′≥0,0≤k′≤n′-1,其中x(n′)表示时域信号,N表示傅里叶点数。
10.一种根据权利要求1-9任一项所述的智能门禁的语音控制方法的智能门禁的语音控制装置,其特征在于,包括:
获取单元,用于获取智能门禁的远端与近端传输的语音信号,对语音信号进行预处理得到语音信息,其中,语音信息包括语音对应的帧序列;
构建单元,用于提取语音信息的特征参数构建声纹识别的网络模型,根据网络模型进行远端和近端的声纹识别的端点检测得到目标语音信号,其中,网络模型包括输入层、输出层和隐藏层;
嵌入单元,用于向远端信号所在位置嵌入由多个频率的音频组成的标记音并记录嵌入时间点,将嵌入标记音的远端信号正常播放;
控制单元,用于在近端信号中对标记音进行检测,当检测到标记音时,根据嵌入标记音的时间点和检测到标记音的时间点计算出回声时延,基于目标语音信号和回声时延实现智能门禁的语音控制。
CN202211324979.9A 2022-10-27 2022-10-27 一种智能门禁的语音控制方法及装置 Withdrawn CN115910074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211324979.9A CN115910074A (zh) 2022-10-27 2022-10-27 一种智能门禁的语音控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211324979.9A CN115910074A (zh) 2022-10-27 2022-10-27 一种智能门禁的语音控制方法及装置

Publications (1)

Publication Number Publication Date
CN115910074A true CN115910074A (zh) 2023-04-04

Family

ID=86485222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211324979.9A Withdrawn CN115910074A (zh) 2022-10-27 2022-10-27 一种智能门禁的语音控制方法及装置

Country Status (1)

Country Link
CN (1) CN115910074A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095674A (zh) * 2023-08-25 2023-11-21 广东福临门世家智能家居有限公司 智能门窗的交互控制方法及系统
CN117978919A (zh) * 2024-02-01 2024-05-03 国能宁夏供热有限公司 一种基于供热行业的智能化外呼系统及其使用方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117095674A (zh) * 2023-08-25 2023-11-21 广东福临门世家智能家居有限公司 智能门窗的交互控制方法及系统
CN117095674B (zh) * 2023-08-25 2024-03-26 广东福临门世家智能家居有限公司 智能门窗的交互控制方法及系统
CN117978919A (zh) * 2024-02-01 2024-05-03 国能宁夏供热有限公司 一种基于供热行业的智能化外呼系统及其使用方法

Similar Documents

Publication Publication Date Title
Giri et al. Improving speech recognition in reverberation using a room-aware deep neural network and multi-task learning
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
EP0625774B1 (en) A method and an apparatus for speech detection
Chapaneri Spoken digits recognition using weighted MFCC and improved features for dynamic time warping
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
CN115910074A (zh) 一种智能门禁的语音控制方法及装置
WO2014153800A1 (zh) 语音识别系统
Vyas A Gaussian mixture model based speech recognition system using Matlab
US20110218803A1 (en) Method and system for assessing intelligibility of speech represented by a speech signal
CN109473102A (zh) 一种机器人秘书智能会议记录方法及系统
Jaafar et al. Automatic syllables segmentation for frog identification system
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Haton Automatic speech recognition: A Review
Chauhan et al. Speaker recognition using fusion of features with feedforward artificial neural network and support vector machine
CN112992131A (zh) 一种在复杂场景下提取目标人声的乒乓球指令的方法
Pham et al. Using artificial neural network for robust voice activity detection under adverse conditions
Kurcan Isolated word recognition from in-ear microphone data using hidden markov models (HMM)
Haque et al. A study on different linear and non-linear filtering techniques of speech and speech recognition
Messerle et al. Accuracy of feature extraction approaches in the task of recognition and classification of isolated words in speech
Abka et al. Speech recognition features: Comparison studies on robustness against environmental distortions
Nwe et al. Stress classification using subband based features
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
Hirsch et al. Keyword detection for the activation of speech assistants
Peretta A novel word boundary detector based on the teager energy operator for automatic speech recognition
Bapineedu Analysis of Lombard effect speech and its application in speaker verification for imposter detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230404