CN114582354A - 基于声纹识别的语音控制方法、装置、设备及存储介质 - Google Patents
基于声纹识别的语音控制方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114582354A CN114582354A CN202210483074.XA CN202210483074A CN114582354A CN 114582354 A CN114582354 A CN 114582354A CN 202210483074 A CN202210483074 A CN 202210483074A CN 114582354 A CN114582354 A CN 114582354A
- Authority
- CN
- China
- Prior art keywords
- voice
- voiceprint
- frame
- data
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000001228 spectrum Methods 0.000 claims description 136
- 230000009467 reduction Effects 0.000 claims description 43
- 238000012937 correction Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明涉及声纹识别领域,公开了一种基于声纹识别的语音控制方法、装置、设备及存储介质。该方法包括:接收语音数据,对语音数据进行语音识别处理,得到语音字符串;判断语音字符串是否存在预置关键词;若为预置关键词,则利用预置声纹识别算法,判断语音数据的声纹是否在预置注册声纹表中;若不在预置注册声纹表中,则显示注册声纹表,接收声纹选择指令,将声纹选择指令对应的注册声纹确定为标记注册声纹;若在预置注册声纹表中,则标记注册声纹表中匹配的注册声纹,得到标记注册声纹;执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。
Description
技术领域
本发明涉及声纹识别领域,尤其涉及一种基于声纹识别的语音控制方法、装置、设备及存储介质。
背景技术
声纹识别的概念由来已久,对其研发已有几十年的历史,现有的麦克风无法进行声纹识别,在收录声音的时候不能识别说话者的声音,区分不同使用者的声纹信息。
在面对具有账户或具有私有信息的设置时,无法分别具体说话人员的身份,难以对具有说话人员对应的账户或具有私有信息进行发布信息、编译文字指令、点赞推送等操作。因此,需要一种技术来解决当前面临的问题。
发明内容
本发明的主要目的在于解决难以对具有说话人员对应的账户或具有私有信息进行控制操作的技术问题。
本发明第一方面提供了一种基于声纹识别的语音控制方法,包括步骤:
识别所述语音字符串是否存在预置关键词;
若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据,其中,所述利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中包括:
基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
可选的,在本发明第一方面的第一种实现方式中,所述根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧包括:
计算所述语音频谱中每帧数据的谱熵值,根据所述每帧数据的谱熵值,计算出每帧数据的能熵比;
基于所述每帧数据的能熵比,比较得出所述语音频谱的最大能熵比,以及根据所述每帧数据的能熵比,计算出所述语音频谱的均值能熵比;
将所述最大能熵比与所述均值能熵比相减,得到能熵比差值;
判断所述能熵比差值是否大于预置语音判定阈值;
若大于,则将所述能熵比差值对应的帧数据确定为人声判定帧。
可选的,在本发明第一方面的第二种实现方式中,所述基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配数据包括:
提取所述注册声纹表中注册声纹,基于DTW算法计算所述注册声纹与所述mel倒谱数据的欧式距离,得到DTW欧式距离;
判断所述DTW欧式距离是否小于预置距离阈值;
若小于,则将所述语音数据的声纹确定为在所述注册声纹表中;
若不小于,则将所述语音数据的声纹确定不为在所述注册声纹表中。
可选的,在本发明第一方面的第三种实现方式中,所述根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间包括:
计算所述语音频谱中非人声判定帧的平均能熵比;
将所述修正参数代入第一门限值公式得到第一门限值,并将所述修正参数代入第二门限值公式得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
根据所述第一门限值和所述第二门限值,对所述语音频谱的人声降噪帧双门限端点检测处理,得到所述语音频谱的语音区间。
可选的,在本发明第一方面的第四种实现方式中,所述根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧包括:
计算所述语音频谱中非人声判定帧的平均噪声能量方差;
将所述平均噪声能量方差代入帧信噪比计算公式
基于普减算法计算出所述语音频谱的人声降噪帧,其中,X~(k)为所述语音频谱的人声降噪帧频谱,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,D(k)为平均噪声能量方差,X(k)为所述语音频谱中非人声判定帧频谱,k为非人声判定帧。
可选的,在本发明第一方面的第五种实现方式中,过减因子与帧信噪比的关联式为:
增益补偿因子与帧信噪比的关联式为:
其中,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,SNR(k)为帧信噪比,k为非人声判定帧。
本发明第二方面提供了一种基于声纹识别的语音控制装置,所述基于声纹识别的语音控制装置包括:
语音识别模块,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块,用于识别所述语音字符串是否存在预置关键词;
判断模块,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据;其中,所述判断模块包括:
FFT变换单元,用于基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
人声判定单元,用于根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
降噪单元,用于根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
端点检测单元,用于根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
频域转换单元,用于计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
匹配判断单元,用于基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
本发明第三方面提供了一种基于声纹识别的语音控制设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于声纹识别的语音控制设备执行上述的基于声纹识别的语音控制方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于声纹识别的语音控制方法。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
附图说明
图1为本发明实施例中基于声纹识别的语音控制方法的一个实施例示意图;
图2为本发明实施例中基于声纹识别的语音控制装置的一个实施例示意图;
图3为本发明实施例中基于声纹识别的语音控制装置的另一个实施例示意图;
图4为本发明实施例中基于声纹识别的语音控制设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于声纹识别的语音控制方法、装置、设备及存储介质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于声纹识别的语音控制方法的一个实施例包括:
101、接收语音数据,对语音数据进行语音识别处理,得到语音字符串;
在本实施例中,接收到语音数据后,采用常规的语音识别处理方法,得到语音字符串。
102、识别语音字符串是否存在预置关键词;
在本实施例中,识别语音字符串是识别关键词还是识别指令,或是文字翻译指令,以便进行下一步操作。
103、若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
在本实施例中,不同人的声纹是不同的,依据语音数据的声纹特征在注册注册声纹表中进行匹配,查看是否有对应的注册声纹。
进一步的,在103可以执行以下步骤:
1031、基于FFT变换,将语音数据从时域数据转换为频域数据,得到语音频谱;
1032、根据人声判定算法,对语音频谱进行人声判定处理,得到语音频谱的人声判定帧;
1033、根据谱减降噪算法,对语音频谱的人声判定帧进行降噪处理,得到语音频谱的人声降噪帧;
1034、根据端点检测算法,对语音频谱的人声降噪帧进行区间检测处理,得到语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
1035、计算语段的mel倒谱系数,根据mel倒谱系数,将语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
1036、基于DTW算法,判断mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
在1031-1036步骤中,输入的音频信号进行预处理,包括消除直流分量、趋势项,预加重提升高频分量。其中为保证语音平稳性,帧时长取20-30ms,依据音频采样率自动决定每帧数据点数,且为便于FFT使用二进制位整数倍数。
对预处理后的音频信号进行分帧加窗FFT,将信号从时域转换成频域,并得到语音频谱的正频率能量频谱。根据频谱作简要语音判断。计算音频信号的能熵比 并进行多重中值滤波,计算得到的最大能熵比和均值能熵比的差值大于阈值门限即判断为语音。计算主要过程如下第k帧能量:
为语音频谱的均值能熵比, 为语音频谱中非人声判定帧的平均能熵比,Det为修正参数,T1、T2作为双门限值,能熵比为判决指标,对降噪语音进行有话段双门限端点检测。对于少词量的语音端点检测,很可能误检到孤立的较大能量噪声段,但每段能量相对于有语段较小,若该段能量<总能量的10%,则认为是噪声,舍去。判断获取待识别语音段的总帧数,若与参考语音段帧数(根据用户预录入语音计算)差距过大(2~3倍)以上,认为待识别语音不合格。组合有语段,计算梅尔倒谱系数,将信号从频域变换到mel倒谱域。
基于DTW算法,判断mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。DTW对于两个不对齐序列(长度分别为X,Y),先计算一个序列中一个点对另一个序列中所有点的欧式距离(1->Y),并依次对该序列所有点做上述操作(X->Y),可得到X*Y的矩阵。从第一个匹配点(1,1)开始,到最后一个匹配点(X,Y),选择一条最短路径(路径方向只能为 )计算路径的平均长度。通常同一个人同一关键词语音的DTW路径平均长度较小,非同人或非同关键词语音的DTW路径平均长度较大。
由于路径首尾已知且能匹配语音的路径一般偏移y=x不会太大,因此可以限制路径本减少计算量,如文使用平行四边形限制。平行四边形外部数据取INF。
为计算路径平均长度,必须知道路径总长,常用固定匹配数的DTW,即对斜向路径(上述公式 )的步进值*2,此时路径总长为X+Y-1,无需重新计算,缺点是会使得三个方向权重不一致,路径更倾向于往其他两个方向走。
使用非固定匹配数的DTW,在多付出少许计算量的代价下回溯路径,可计算路径长度,得到的DTW值更加合理。
进一步的,在1032可以执行以下步骤:
10321、计算语音频谱中每帧数据的谱熵值,根据每帧数据的谱熵值,计算出每帧数据的能熵比;
10322、基于每帧数据的能熵比,比较得出语音频谱的最大能熵比,以及根据每帧数据的能熵比,计算出语音频谱的均值能熵比;
10323、将最大能熵比与均值能熵比相减,得到能熵比差值;
10324、判断能熵比差值是否大于预置语音判定阈值;
10325、若大于,则将能熵比差值对应的帧数据确定为人声判定帧。
在10321-10325步骤中,计算音频信号的能熵比 并进行多重中值滤波,计算得到的最大能熵比和均值能熵比的差值大于阈值门限即判断为人声判定帧。计算主要过程如下第k帧能量: 对数修正能量: 谱熵:能熵比 为第k帧的频域帧, 是第k帧频域帧能量的概率,a为常数。
进一步的,在1036可以执行以下步骤:
10361、提取注册声纹表中注册声纹,基于DTW算法计算注册声纹与mel倒谱数据的欧式距离,得到DTW欧式距离;
10362、判断DTW欧式距离是否小于预置距离阈值;
10363、若小于,则将语音数据的声纹确定为在注册声纹表中;
10364、若不小于,则将语音数据的声纹确定不为在注册声纹表中。
在10361-10364步骤中,提取注册声纹表中注册声纹,基于DTW算法计算注册声纹与mel倒谱数据的欧式距离,得到DTW欧式距离,DTW对于两个不对齐序列(长度分别为X,Y),先计算一个序列中一个点对另一个序列中所有点的欧式距离(1->Y),并依次对该序列所有点做上述操作(X->Y),可得到X*Y的矩阵。从第一个匹配点(1,1)开始,到最后一个匹配点(X,Y),选择一条最短路径(路径方向只能为)计算路径的平均长度。通常同一个人同一关键词语音的DTW路径平均长度较小,非同人或非同关键词语音的DTW路径平均长度较大。因此小于距离阈值,则将语音数据的声纹确定为在注册声纹表中
进一步的,在1034可以执行以下步骤:
10341、计算语音频谱中非人声判定帧的平均能熵比;
10343、将修正参数代入第一门限值公式得到第一门限值,并将修正参数代入第二门限值公式得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
10344、根据第一门限值和第二门限值,对语音频谱的人声降噪帧双门限端点检测处理,得到语音频谱的语音区间。
在10331-10334步骤中,提取降噪语音的能熵比,利用语音前NIS帧计算初始平均噪
为语音频谱的均值能熵比, 为语音频谱中非人声判定帧的平均能熵比,Det为修正参数,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,Det为修正参数。能熵比为判决指标,对降噪语音进行有话段双门限端点检测。对于少词量的语音端点检测,很可能误检到孤立的较大能量噪声段,但每段能量相对于有语段较小,若该段能量<总能量的10%,则认为是噪声,舍去。判断获取待识别语音段的总帧数,若与参考语音段帧数(根据用户预录入语音计算)差距过大(2~3倍)以上,认为待识别语音不合格。
进一步的,1033可以执行以下步骤:
10331、计算语音频谱中非人声判定帧的平均噪声能量方差;
计算出语音频谱的人声降噪帧,其中,X~(k)为语音频谱的人声降噪帧频谱,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,D(k)为平均噪声能量方差,X(k)为语音频谱中非人声判定帧频谱,k为非人声判定帧。
过减因子与帧信噪比的关联式为:
增益补偿因子与帧信噪比的关联式为:
其中,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,SNR(k)为帧信噪比,k为非人声判定帧。
104、若不在预置注册声纹表中,则显示注册声纹表,接收声纹选择指令,将声纹选择指令对应的注册声纹确定为标记注册声纹;
在本实施例中,进行使用者识别和切换,在识别到未录入的声纹时,由身份预警提出异议,弹出判断界面让用户选择使用者,而被选择注册声纹确定为标记注册声纹。
105、若在预置注册声纹表中,则标记注册声纹表中匹配的注册声纹,得到标记注册声纹;
在本实施例中,易于理解的存在注册声纹表可以查询出与语音数据相互匹配的注册声纹,将该注册声纹标记,进入106步骤中。
106、执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。
在本实施例中,对所述语音字符串进行语义识别处理,得到执行指令,则由执行指令对注册声纹对应的用户账号进行加关注、点赞、打赏等指令,或者打开购物车进行购物并结算。在另一种实施例中,当执行指令是文字编辑指令,则识别语音数据并翻译文字,在短视频界面发表评论。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
上面对本发明实施例中基于声纹识别的语音控制方法进行了描述,下面对本发明实施例中基于声纹识别的语音控制装置进行描述,请参阅图2,本发明实施例中基于声纹识别的语音控制装置一个实施例,所述基于声纹识别的语音控制装置包括:
语音识别模块201,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块202,用于识别所述语音字符串是否存在预置关键词;
判断模块203,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块204,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块205,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块206,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
请参阅图3,本发明实施例中基于声纹识别的语音控制装置的另一个实施例,所述基于声纹识别的语音控制装置包括:
语音识别模块201,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块202,用于识别所述语音字符串是否存在预置关键词;
判断模块203,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块204,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块205,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块206,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。
其中,所述判断模块203包括:
FFT变换单元2031,用于基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
人声判定单元2032,用于根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
降噪单元2033,用于根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
端点检测单元2034,用于根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
频域转换单元2035,用于计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
匹配判断单元2036,用于基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
其中,所述人声判定单元2032具体用于:
计算所述语音频谱中每帧数据的谱熵值,根据所述每帧数据的谱熵值,计算出每帧数据的能熵比;
基于所述每帧数据的能熵比,比较得出所述语音频谱的最大能熵比,以及根据所述每帧数据的能熵比,计算出所述语音频谱的均值能熵比;
将所述最大能熵比与所述均值能熵比相减,得到能熵比差值;
判断所述能熵比差值是否大于预置语音判定阈值;
若大于,则将所述能熵比差值对应的帧数据确定为人声判定帧。
其中,所述匹配判断单元2036具体用于:
提取所述注册声纹表中注册声纹,基于DTW算法计算所述注册声纹与所述mel倒谱数据的欧式距离,得到DTW欧式距离;
判断所述DTW欧式距离是否小于预置距离阈值;
若小于,则将所述语音数据的声纹确定为在所述注册声纹表中;
若不小于,则将所述语音数据的声纹确定不为在所述注册声纹表中。
其中,所述端点检测单元2034具体用于:
计算所述语音频谱中非人声判定帧的平均能熵比;
将所述修正参数代入第一门限值公式得到第一门限值,并将所述修正参数代入第二门限值公式得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
根据所述第一门限值和所述第二门限值,对所述语音频谱的人声降噪帧双门限端点检测处理,得到所述语音频谱的语音区间。
其中,所述降噪单元2033具体用于:
计算所述语音频谱中非人声判定帧的平均噪声能量方差;
将所述平均噪声能量方差代入帧信噪比计算公式
基于普减算法 计算出所述语音频谱的人声降噪帧,其中,X~(k)为所述语音频谱的人声降噪帧频谱,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,D(k)为平均噪声能量方差,X(k)为所述语音频谱中非人声判定帧频谱,k为非人声判定帧。
其中,在所述降噪单元2033中,过减因子与帧信噪比的关联式为:
增益补偿因子与帧信噪比的关联式为:
其中,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,SNR(k)为帧信噪比,k为非人声判定帧。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
上面图2和图3从模块化功能实体的角度对本发明实施例中的基于声纹识别的语音控制装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于声纹识别的语音控制设备进行详细描述。
图4是本发明实施例提供的一种基于声纹识别的语音控制设备的结构示意图,该基于声纹识别的语音控制设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于声纹识别的语音控制设备400中的一系列指令操作。更进一步地,处理器410可以设置为与存储介质430通信,在基于声纹识别的语音控制设备400上执行存储介质430中的一系列指令操作。
基于声纹识别的语音控制设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460,和/或,一个或一个以上操作系统431,例如Windows Serve,Mac OSX,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图4展示的基于声纹识别的语音控制设备结构并不构成对基于声纹识别的语音控制设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于声纹识别的语音控制方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于声纹识别的语音控制方法,其特征在于,包括步骤:
接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别所述语音字符串是否存在预置关键词;
若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据;其中,所述利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中包括:
基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
2.根据权利要求1所述的基于声纹识别的语音控制方法,其特征在于,所述根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧包括:
计算所述语音频谱中每帧数据的谱熵值,根据所述每帧数据的谱熵值,计算出每帧数据的能熵比;
基于所述每帧数据的能熵比,比较得出所述语音频谱的最大能熵比,以及根据所述每帧数据的能熵比,计算出所述语音频谱的均值能熵比;
将所述最大能熵比与所述均值能熵比相减,得到能熵比差值;
判断所述能熵比差值是否大于预置语音判定阈值;
若大于,则将所述能熵比差值对应的帧数据确定为人声判定帧。
3.根据权利要求2所述的基于声纹识别的语音控制方法,其特征在于,所述基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配数据包括:
提取所述注册声纹表中注册声纹,基于DTW算法计算所述注册声纹与所述mel倒谱数据的欧式距离,得到DTW欧式距离;
判断所述DTW欧式距离是否小于预置距离阈值;
若小于,则将所述语音数据的声纹确定为在所述注册声纹表中;
若不小于,则将所述语音数据的声纹确定不为在所述注册声纹表中。
4.根据权利要求2所述的基于声纹识别的语音控制方法,其特征在于,所述根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间包括:
计算所述语音频谱中非人声判定帧的平均能熵比;
将所述修正参数代入第一门限值公式,得到第一门限值,并将所述修正参数代入第二门限值公式,得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
根据所述第一门限值和所述第二门限值,对所述语音频谱的人声降噪帧双门限端点检测处理,得到所述语音频谱的语音区间。
5.根据权利要求4所述的基于声纹识别的语音控制方法,其特征在于,所述根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧包括:
计算所述语音频谱中非人声判定帧的平均噪声能量方差;
将所述平均噪声能量方差代入帧信噪比计算公式
7.一种基于声纹识别的语音控制装置,其特征在于,所述基于声纹识别的语音控制装置包括:
语音识别模块,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块,用于识别所述语音字符串是否存在预置关键词;
判断模块,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据;
其中,所述判断模块包括:
FFT变换单元,用于基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
人声判定单元,用于根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
降噪单元,用于根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
端点检测单元,用于根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
频域转换单元,用于计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
匹配判断单元,用于基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
8.一种基于声纹识别的语音控制设备,其特征在于,所述基于声纹识别的语音控制设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于声纹识别的语音控制设备执行如权利要求1-6中任一项所述的基于声纹识别的语音控制方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于声纹识别的语音控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483074.XA CN114582354A (zh) | 2022-05-06 | 2022-05-06 | 基于声纹识别的语音控制方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483074.XA CN114582354A (zh) | 2022-05-06 | 2022-05-06 | 基于声纹识别的语音控制方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114582354A true CN114582354A (zh) | 2022-06-03 |
Family
ID=81778838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483074.XA Pending CN114582354A (zh) | 2022-05-06 | 2022-05-06 | 基于声纹识别的语音控制方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114582354A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064176A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 一种声纹筛系统及方法 |
CN115860882A (zh) * | 2023-03-03 | 2023-03-28 | 北京吉道尔科技有限公司 | 基于区块链的智慧城市商品大数据智能选购方法及系统 |
CN116935880A (zh) * | 2023-09-19 | 2023-10-24 | 深圳市一合文化数字科技有限公司 | 基于人工智能的一体机人机交互系统和方法 |
CN117041807A (zh) * | 2023-10-09 | 2023-11-10 | 深圳市迪斯声学有限公司 | 蓝牙耳机播放控制方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1887559A2 (en) * | 2006-08-10 | 2008-02-13 | STMicroelectronics Asia Pacific Pte Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
CN105976810A (zh) * | 2016-04-28 | 2016-09-28 | Tcl集团股份有限公司 | 一种检测语音有效话语段端点的方法和装置 |
CN109246473A (zh) * | 2018-09-13 | 2019-01-18 | 苏州思必驰信息科技有限公司 | 基于声纹识别的个性化视频弹幕的语音交互方法及终端系统 |
CN111091833A (zh) * | 2019-12-09 | 2020-05-01 | 浙江工业大学 | 一种降低噪声影响的端点检测方法 |
CN111267587A (zh) * | 2019-11-30 | 2020-06-12 | 的卢技术有限公司 | 一种基于智能识别的车辆玻璃控制方法和系统 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
CN112102851A (zh) * | 2020-11-17 | 2020-12-18 | 深圳壹账通智能科技有限公司 | 语音端点检测方法、装置、设备及计算机可读存储介质 |
-
2022
- 2022-05-06 CN CN202210483074.XA patent/CN114582354A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1887559A2 (en) * | 2006-08-10 | 2008-02-13 | STMicroelectronics Asia Pacific Pte Ltd. | Yule walker based low-complexity voice activity detector in noise suppression systems |
CN105976810A (zh) * | 2016-04-28 | 2016-09-28 | Tcl集团股份有限公司 | 一种检测语音有效话语段端点的方法和装置 |
CN109246473A (zh) * | 2018-09-13 | 2019-01-18 | 苏州思必驰信息科技有限公司 | 基于声纹识别的个性化视频弹幕的语音交互方法及终端系统 |
CN111267587A (zh) * | 2019-11-30 | 2020-06-12 | 的卢技术有限公司 | 一种基于智能识别的车辆玻璃控制方法和系统 |
CN111091833A (zh) * | 2019-12-09 | 2020-05-01 | 浙江工业大学 | 一种降低噪声影响的端点检测方法 |
CN111723679A (zh) * | 2020-05-27 | 2020-09-29 | 上海五零盛同信息科技有限公司 | 基于深度迁移学习的人脸和声纹认证系统及方法 |
CN112102851A (zh) * | 2020-11-17 | 2020-12-18 | 深圳壹账通智能科技有限公司 | 语音端点检测方法、装置、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
王海涛等: "《室内声学定位与识别》", 31 December 2019, 西安:西北工业大学出版社 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115064176A (zh) * | 2022-06-22 | 2022-09-16 | 广州市迪声音响有限公司 | 一种声纹筛系统及方法 |
CN115860882A (zh) * | 2023-03-03 | 2023-03-28 | 北京吉道尔科技有限公司 | 基于区块链的智慧城市商品大数据智能选购方法及系统 |
CN116935880A (zh) * | 2023-09-19 | 2023-10-24 | 深圳市一合文化数字科技有限公司 | 基于人工智能的一体机人机交互系统和方法 |
CN116935880B (zh) * | 2023-09-19 | 2023-11-21 | 深圳市一合文化数字科技有限公司 | 基于人工智能的一体机人机交互系统和方法 |
CN117041807A (zh) * | 2023-10-09 | 2023-11-10 | 深圳市迪斯声学有限公司 | 蓝牙耳机播放控制方法 |
CN117041807B (zh) * | 2023-10-09 | 2024-01-26 | 深圳市迪斯声学有限公司 | 蓝牙耳机播放控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114582354A (zh) | 基于声纹识别的语音控制方法、装置、设备及存储介质 | |
Tiwari | MFCC and its applications in speaker recognition | |
JP4802135B2 (ja) | 話者認証登録及び確認方法並びに装置 | |
US6721699B2 (en) | Method and system of Chinese speech pitch extraction | |
TW514867B (en) | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system | |
WO2014153800A1 (zh) | 语音识别系统 | |
JP2007133414A (ja) | 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置 | |
Vyas | A Gaussian mixture model based speech recognition system using Matlab | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
CN110782902A (zh) | 音频数据确定方法、装置、设备和介质 | |
US5487129A (en) | Speech pattern matching in non-white noise | |
Sadjadi et al. | Robust front-end processing for speaker identification over extremely degraded communication channels | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
CN111429919A (zh) | 基于会议实录系统的防串音方法、电子装置及存储介质 | |
Rao et al. | Glottal excitation feature based gender identification system using ergodic HMM | |
Wu et al. | Multi-keyword spotting of telephone speech using a fuzzy search algorithm and keyword-driven two-level CBSM | |
Khaing et al. | Myanmar continuous speech recognition system based on DTW and HMM | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
Sas et al. | Gender recognition using neural networks and ASR techniques | |
Aliyu et al. | Development of a text-dependent speaker recognition system | |
Bharti et al. | SVM based Voice Activity Detection by fusing a new acoustic feature PLMS with some existing acoustic features of speech | |
JPH01255000A (ja) | 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法 | |
Laskar et al. | Complementing the DTW based speaker verification systems with knowledge of specific regions of interest | |
Müller et al. | On using the auditory image model and invariant-integration for noise robust automatic speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220603 |
|
RJ01 | Rejection of invention patent application after publication |