CN114582354A - 基于声纹识别的语音控制方法、装置、设备及存储介质 - Google Patents

基于声纹识别的语音控制方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114582354A
CN114582354A CN202210483074.XA CN202210483074A CN114582354A CN 114582354 A CN114582354 A CN 114582354A CN 202210483074 A CN202210483074 A CN 202210483074A CN 114582354 A CN114582354 A CN 114582354A
Authority
CN
China
Prior art keywords
voice
voiceprint
frame
data
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210483074.XA
Other languages
English (en)
Inventor
邓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Changfeng Imaging Equipment Co ltd
Original Assignee
Shenzhen Changfeng Imaging Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Changfeng Imaging Equipment Co ltd filed Critical Shenzhen Changfeng Imaging Equipment Co ltd
Priority to CN202210483074.XA priority Critical patent/CN114582354A/zh
Publication of CN114582354A publication Critical patent/CN114582354A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及声纹识别领域,公开了一种基于声纹识别的语音控制方法、装置、设备及存储介质。该方法包括:接收语音数据,对语音数据进行语音识别处理,得到语音字符串;判断语音字符串是否存在预置关键词;若为预置关键词,则利用预置声纹识别算法,判断语音数据的声纹是否在预置注册声纹表中;若不在预置注册声纹表中,则显示注册声纹表,接收声纹选择指令,将声纹选择指令对应的注册声纹确定为标记注册声纹;若在预置注册声纹表中,则标记注册声纹表中匹配的注册声纹,得到标记注册声纹;执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。

Description

基于声纹识别的语音控制方法、装置、设备及存储介质
技术领域
本发明涉及声纹识别领域,尤其涉及一种基于声纹识别的语音控制方法、装置、设备及存储介质。
背景技术
声纹识别的概念由来已久,对其研发已有几十年的历史,现有的麦克风无法进行声纹识别,在收录声音的时候不能识别说话者的声音,区分不同使用者的声纹信息。
在面对具有账户或具有私有信息的设置时,无法分别具体说话人员的身份,难以对具有说话人员对应的账户或具有私有信息进行发布信息、编译文字指令、点赞推送等操作。因此,需要一种技术来解决当前面临的问题。
发明内容
本发明的主要目的在于解决难以对具有说话人员对应的账户或具有私有信息进行控制操作的技术问题。
本发明第一方面提供了一种基于声纹识别的语音控制方法,包括步骤:
识别所述语音字符串是否存在预置关键词;
若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据,其中,所述利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中包括:
基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
可选的,在本发明第一方面的第一种实现方式中,所述根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧包括:
计算所述语音频谱中每帧数据的谱熵值,根据所述每帧数据的谱熵值,计算出每帧数据的能熵比;
基于所述每帧数据的能熵比,比较得出所述语音频谱的最大能熵比,以及根据所述每帧数据的能熵比,计算出所述语音频谱的均值能熵比;
将所述最大能熵比与所述均值能熵比相减,得到能熵比差值;
判断所述能熵比差值是否大于预置语音判定阈值;
若大于,则将所述能熵比差值对应的帧数据确定为人声判定帧。
可选的,在本发明第一方面的第二种实现方式中,所述基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配数据包括:
提取所述注册声纹表中注册声纹,基于DTW算法计算所述注册声纹与所述mel倒谱数据的欧式距离,得到DTW欧式距离;
判断所述DTW欧式距离是否小于预置距离阈值;
若小于,则将所述语音数据的声纹确定为在所述注册声纹表中;
若不小于,则将所述语音数据的声纹确定不为在所述注册声纹表中。
可选的,在本发明第一方面的第三种实现方式中,所述根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间包括:
计算所述语音频谱中非人声判定帧的平均能熵比;
基于端点修正公式
Figure 506298DEST_PATH_IMAGE001
得到修正参数,其中,eth为所述语音频谱的均值能熵比,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
将所述修正参数代入第一门限值公式
Figure 892280DEST_PATH_IMAGE002
得到第一门限值,并将所述修正参数代入第二门限值公式
Figure 517690DEST_PATH_IMAGE003
得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
根据所述第一门限值和所述第二门限值,对所述语音频谱的人声降噪帧双门限端点检测处理,得到所述语音频谱的语音区间。
可选的,在本发明第一方面的第四种实现方式中,所述根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧包括:
计算所述语音频谱中非人声判定帧的平均噪声能量方差;
将所述平均噪声能量方差代入帧信噪比计算公式
Figure 178478DEST_PATH_IMAGE004
得到所述非人声判定帧对应的帧信噪比,其中,k为非人声判定帧,SNR(K)为帧信噪比,E(k)非人声判定帧的能量,D(k)为平均噪声能量方差;
基于普减算法
Figure 461692DEST_PATH_IMAGE005
计算出所述语音频谱的人声降噪帧,其中,X~(k)为所述语音频谱的人声降噪帧频谱,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,D(k)为平均噪声能量方差,X(k)为所述语音频谱中非人声判定帧频谱,k为非人声判定帧。
可选的,在本发明第一方面的第五种实现方式中,过减因子与帧信噪比的关联式为:
Figure 877630DEST_PATH_IMAGE006
增益补偿因子与帧信噪比的关联式为:
Figure 347926DEST_PATH_IMAGE007
其中,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,SNR(k)为帧信噪比,k为非人声判定帧。
本发明第二方面提供了一种基于声纹识别的语音控制装置,所述基于声纹识别的语音控制装置包括:
语音识别模块,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块,用于识别所述语音字符串是否存在预置关键词;
判断模块,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据;其中,所述判断模块包括:
FFT变换单元,用于基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
人声判定单元,用于根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
降噪单元,用于根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
端点检测单元,用于根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
频域转换单元,用于计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
匹配判断单元,用于基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
本发明第三方面提供了一种基于声纹识别的语音控制设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于声纹识别的语音控制设备执行上述的基于声纹识别的语音控制方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于声纹识别的语音控制方法。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
附图说明
图1为本发明实施例中基于声纹识别的语音控制方法的一个实施例示意图;
图2为本发明实施例中基于声纹识别的语音控制装置的一个实施例示意图;
图3为本发明实施例中基于声纹识别的语音控制装置的另一个实施例示意图;
图4为本发明实施例中基于声纹识别的语音控制设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于声纹识别的语音控制方法、装置、设备及存储介质。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于声纹识别的语音控制方法的一个实施例包括:
101、接收语音数据,对语音数据进行语音识别处理,得到语音字符串;
在本实施例中,接收到语音数据后,采用常规的语音识别处理方法,得到语音字符串。
102、识别语音字符串是否存在预置关键词;
在本实施例中,识别语音字符串是识别关键词还是识别指令,或是文字翻译指令,以便进行下一步操作。
103、若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
在本实施例中,不同人的声纹是不同的,依据语音数据的声纹特征在注册注册声纹表中进行匹配,查看是否有对应的注册声纹。
进一步的,在103可以执行以下步骤:
1031、基于FFT变换,将语音数据从时域数据转换为频域数据,得到语音频谱;
1032、根据人声判定算法,对语音频谱进行人声判定处理,得到语音频谱的人声判定帧;
1033、根据谱减降噪算法,对语音频谱的人声判定帧进行降噪处理,得到语音频谱的人声降噪帧;
1034、根据端点检测算法,对语音频谱的人声降噪帧进行区间检测处理,得到语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
1035、计算语段的mel倒谱系数,根据mel倒谱系数,将语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
1036、基于DTW算法,判断mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
在1031-1036步骤中,输入的音频信号进行预处理,包括消除直流分量、趋势项,预加重提升高频分量。其中为保证语音平稳性,帧时长取20-30ms,依据音频采样率自动决定每帧数据点数,且为便于FFT使用二进制位整数倍数。
对预处理后的音频信号进行分帧加窗FFT,将信号从时域转换成频域,并得到语音频谱的正频率能量频谱。根据频谱作简要语音判断。计算音频信号的能熵比
Figure 812405DEST_PATH_IMAGE008
并进行多重中值滤波,计算得到的最大能熵比和均值能熵比的差值大于阈值门限即判断为语音。计算主要过程如下第k帧能量:
Figure 825492DEST_PATH_IMAGE009
对数修正能量:
Figure 287697DEST_PATH_IMAGE010
谱熵:
Figure 369922DEST_PATH_IMAGE011
能熵比
Figure 575776DEST_PATH_IMAGE012
Figure 364740DEST_PATH_IMAGE013
为第k帧的频域帧 ,
Figure 637328DEST_PATH_IMAGE014
是第k帧频域帧能量的概率。提取降噪语音的能熵比,利用语音前NIS帧计算初始平均噪声能熵比 ,
Figure 82215DEST_PATH_IMAGE015
时,
Figure 950814DEST_PATH_IMAGE016
更新
Figure 859864DEST_PATH_IMAGE017
Figure 663872DEST_PATH_IMAGE018
为语音频谱的均值能熵比,
Figure 471422DEST_PATH_IMAGE019
为语音频谱中非人声判定帧的平均能熵比,Det为修正参数,T1、T2作为双门限值,能熵比为判决指标,对降噪语音进行有话段双门限端点检测。对于少词量的语音端点检测,很可能误检到孤立的较大能量噪声段,但每段能量相对于有语段较小,若该段能量<总能量的10%,则认为是噪声,舍去。判断获取待识别语音段的总帧数,若与参考语音段帧数(根据用户预录入语音计算)差距过大(2~3倍)以上,认为待识别语音不合格。组合有语段,计算梅尔倒谱系数,将信号从频域变换到mel倒谱域。
Figure 815816DEST_PATH_IMAGE020
再做DCT变换,
Figure 782635DEST_PATH_IMAGE021
其中,
Figure 882178DEST_PATH_IMAGE022
为Mel滤波器频响,M为滤波器数,
Figure 301658DEST_PATH_IMAGE023
为第k帧的频域帧能量,
Figure 449743DEST_PATH_IMAGE024
是梅尔倒谱系数,
Figure 647899DEST_PATH_IMAGE025
是mel倒谱域。将语段从频域数据转换为mel倒谱域,得到mel倒谱数据。
基于DTW算法,判断mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。DTW对于两个不对齐序列(长度分别为X,Y),先计算一个序列中一个点对另一个序列中所有点的欧式距离(1->Y),并依次对该序列所有点做上述操作(X->Y),可得到X*Y的矩阵。从第一个匹配点(1,1)开始,到最后一个匹配点(X,Y),选择一条最短路径(路径方向只能为
Figure 793710DEST_PATH_IMAGE026
)计算路径的平均长度。通常同一个人同一关键词语音的DTW路径平均长度较小,非同人或非同关键词语音的DTW路径平均长度较大。
由于路径首尾已知且能匹配语音的路径一般偏移y=x不会太大,因此可以限制路径本减少计算量,如文使用平行四边形限制。平行四边形外部数据取INF。
为计算路径平均长度,必须知道路径总长,常用固定匹配数的DTW,即对斜向路径(上述公式
Figure 497224DEST_PATH_IMAGE027
)的步进值*2,此时路径总长为X+Y-1,无需重新计算,缺点是会使得三个方向权重不一致,路径更倾向于往其他两个方向走。
使用非固定匹配数的DTW,在多付出少许计算量的代价下回溯路径,可计算路径长度,得到的DTW值更加合理。
进一步的,在1032可以执行以下步骤:
10321、计算语音频谱中每帧数据的谱熵值,根据每帧数据的谱熵值,计算出每帧数据的能熵比;
10322、基于每帧数据的能熵比,比较得出语音频谱的最大能熵比,以及根据每帧数据的能熵比,计算出语音频谱的均值能熵比;
10323、将最大能熵比与均值能熵比相减,得到能熵比差值;
10324、判断能熵比差值是否大于预置语音判定阈值;
10325、若大于,则将能熵比差值对应的帧数据确定为人声判定帧。
在10321-10325步骤中,计算音频信号的能熵比
Figure 511316DEST_PATH_IMAGE028
并进行多重中值滤波,计算得到的最大能熵比和均值能熵比的差值大于阈值门限即判断为人声判定帧。计算主要过程如下第k帧能量:
Figure 187148DEST_PATH_IMAGE029
对数修正能量:
Figure 644805DEST_PATH_IMAGE030
谱熵:
Figure 835615DEST_PATH_IMAGE031
能熵比
Figure 528765DEST_PATH_IMAGE032
Figure 918158DEST_PATH_IMAGE033
为第k帧的频域帧,
Figure 671350DEST_PATH_IMAGE034
是第k帧频域帧能量的概率,a为常数。
进一步的,在1036可以执行以下步骤:
10361、提取注册声纹表中注册声纹,基于DTW算法计算注册声纹与mel倒谱数据的欧式距离,得到DTW欧式距离;
10362、判断DTW欧式距离是否小于预置距离阈值;
10363、若小于,则将语音数据的声纹确定为在注册声纹表中;
10364、若不小于,则将语音数据的声纹确定不为在注册声纹表中。
在10361-10364步骤中,提取注册声纹表中注册声纹,基于DTW算法计算注册声纹与mel倒谱数据的欧式距离,得到DTW欧式距离,DTW对于两个不对齐序列(长度分别为X,Y),先计算一个序列中一个点对另一个序列中所有点的欧式距离(1->Y),并依次对该序列所有点做上述操作(X->Y),可得到X*Y的矩阵。从第一个匹配点(1,1)开始,到最后一个匹配点(X,Y),选择一条最短路径(路径方向只能为
Figure 349456DEST_PATH_IMAGE035
)计算路径的平均长度。通常同一个人同一关键词语音的DTW路径平均长度较小,非同人或非同关键词语音的DTW路径平均长度较大。因此小于距离阈值,则将语音数据的声纹确定为在注册声纹表中
进一步的,在1034可以执行以下步骤:
10341、计算语音频谱中非人声判定帧的平均能熵比;
10342、基于端点修正公式
Figure 954619DEST_PATH_IMAGE036
得到修正参数,其中,eth为语音频谱的均值能熵比,eth0为语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
10343、将修正参数代入第一门限值公式
Figure 605043DEST_PATH_IMAGE037
得到第一门限值,并将修正参数代入第二门限值公式
Figure 60295DEST_PATH_IMAGE038
得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
10344、根据第一门限值和第二门限值,对语音频谱的人声降噪帧双门限端点检测处理,得到语音频谱的语音区间。
在10331-10334步骤中,提取降噪语音的能熵比,利用语音前NIS帧计算初始平均噪
声能熵比
Figure 553593DEST_PATH_IMAGE039
Figure 322966DEST_PATH_IMAGE040
更新
Figure 968842DEST_PATH_IMAGE041
Figure 594996DEST_PATH_IMAGE042
为语音频谱的均值能熵比,
Figure 450956DEST_PATH_IMAGE043
为语音频谱中非人声判定帧的平均能熵比,Det为修正参数,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,Det为修正参数。能熵比为判决指标,对降噪语音进行有话段双门限端点检测。对于少词量的语音端点检测,很可能误检到孤立的较大能量噪声段,但每段能量相对于有语段较小,若该段能量<总能量的10%,则认为是噪声,舍去。判断获取待识别语音段的总帧数,若与参考语音段帧数(根据用户预录入语音计算)差距过大(2~3倍)以上,认为待识别语音不合格。
进一步的,1033可以执行以下步骤:
10331、计算语音频谱中非人声判定帧的平均噪声能量方差;
10332、将平均噪声能量方差代入帧信噪比计算公式
Figure 148654DEST_PATH_IMAGE044
得到非人声判定帧对应的帧信噪比,其中,k为非人声判定帧,SNR(K)为帧信噪比,E(k)非人声判定帧的能量,D(k)为平均噪声能量方差;
10333、基于普减算法
Figure 304829DEST_PATH_IMAGE045
计算出语音频谱的人声降噪帧,其中,X~(k)为语音频谱的人声降噪帧频谱,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,D(k)为平均噪声能量方差,X(k)为语音频谱中非人声判定帧频谱,k为非人声判定帧。
过减因子与帧信噪比的关联式为:
Figure 570725DEST_PATH_IMAGE046
增益补偿因子与帧信噪比的关联式为:
Figure 13515DEST_PATH_IMAGE047
其中,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,SNR(k)为帧信噪比,k为非人声判定帧。
104、若不在预置注册声纹表中,则显示注册声纹表,接收声纹选择指令,将声纹选择指令对应的注册声纹确定为标记注册声纹;
在本实施例中,进行使用者识别和切换,在识别到未录入的声纹时,由身份预警提出异议,弹出判断界面让用户选择使用者,而被选择注册声纹确定为标记注册声纹。
105、若在预置注册声纹表中,则标记注册声纹表中匹配的注册声纹,得到标记注册声纹;
在本实施例中,易于理解的存在注册声纹表可以查询出与语音数据相互匹配的注册声纹,将该注册声纹标记,进入106步骤中。
106、执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。
在本实施例中,对所述语音字符串进行语义识别处理,得到执行指令,则由执行指令对注册声纹对应的用户账号进行加关注、点赞、打赏等指令,或者打开购物车进行购物并结算。在另一种实施例中,当执行指令是文字编辑指令,则识别语音数据并翻译文字,在短视频界面发表评论。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
上面对本发明实施例中基于声纹识别的语音控制方法进行了描述,下面对本发明实施例中基于声纹识别的语音控制装置进行描述,请参阅图2,本发明实施例中基于声纹识别的语音控制装置一个实施例,所述基于声纹识别的语音控制装置包括:
语音识别模块201,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块202,用于识别所述语音字符串是否存在预置关键词;
判断模块203,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块204,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块205,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块206,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
请参阅图3,本发明实施例中基于声纹识别的语音控制装置的另一个实施例,所述基于声纹识别的语音控制装置包括:
语音识别模块201,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块202,用于识别所述语音字符串是否存在预置关键词;
判断模块203,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块204,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块205,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块206,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据。
其中,所述判断模块203包括:
FFT变换单元2031,用于基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
人声判定单元2032,用于根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
降噪单元2033,用于根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
端点检测单元2034,用于根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
频域转换单元2035,用于计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
匹配判断单元2036,用于基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
其中,所述人声判定单元2032具体用于:
计算所述语音频谱中每帧数据的谱熵值,根据所述每帧数据的谱熵值,计算出每帧数据的能熵比;
基于所述每帧数据的能熵比,比较得出所述语音频谱的最大能熵比,以及根据所述每帧数据的能熵比,计算出所述语音频谱的均值能熵比;
将所述最大能熵比与所述均值能熵比相减,得到能熵比差值;
判断所述能熵比差值是否大于预置语音判定阈值;
若大于,则将所述能熵比差值对应的帧数据确定为人声判定帧。
其中,所述匹配判断单元2036具体用于:
提取所述注册声纹表中注册声纹,基于DTW算法计算所述注册声纹与所述mel倒谱数据的欧式距离,得到DTW欧式距离;
判断所述DTW欧式距离是否小于预置距离阈值;
若小于,则将所述语音数据的声纹确定为在所述注册声纹表中;
若不小于,则将所述语音数据的声纹确定不为在所述注册声纹表中。
其中,所述端点检测单元2034具体用于:
计算所述语音频谱中非人声判定帧的平均能熵比;
基于端点修正公式
Figure 390269DEST_PATH_IMAGE048
得到修正参数,其中,eth为所述语音频谱的均值能熵比,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
将所述修正参数代入第一门限值公式
Figure 994426DEST_PATH_IMAGE049
得到第一门限值,并将所述修正参数代入第二门限值公式
Figure 227961DEST_PATH_IMAGE050
得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
根据所述第一门限值和所述第二门限值,对所述语音频谱的人声降噪帧双门限端点检测处理,得到所述语音频谱的语音区间。
其中,所述降噪单元2033具体用于:
计算所述语音频谱中非人声判定帧的平均噪声能量方差;
将所述平均噪声能量方差代入帧信噪比计算公式
Figure 527355DEST_PATH_IMAGE051
得到所述非人声判定帧对应的帧信噪比,其中,k为非人声判定帧,SNR(K)为帧信噪比,E(k)非人声判定帧的能量,D(k)为平均噪声能量方差;
基于普减算法
Figure 583167DEST_PATH_IMAGE052
计算出所述语音频谱的人声降噪帧,其中,X~(k)为所述语音频谱的人声降噪帧频谱,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,D(k)为平均噪声能量方差,X(k)为所述语音频谱中非人声判定帧频谱,k为非人声判定帧。
其中,在所述降噪单元2033中,过减因子与帧信噪比的关联式为:
Figure 713934DEST_PATH_IMAGE053
增益补偿因子与帧信噪比的关联式为:
Figure 321633DEST_PATH_IMAGE054
其中,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,SNR(k)为帧信噪比,k为非人声判定帧。
在本发明实施例中,在麦克风录入音频信息的时候,识别说话者的声纹,并区分讲话内容,转化为一系列指令,通过注册表固定使用人声纹,可以灵活切换使用人,利用声纹识别对比声纹,转换操作、编译文字指令等,让使用者可以互动便捷。
上面图2和图3从模块化功能实体的角度对本发明实施例中的基于声纹识别的语音控制装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于声纹识别的语音控制设备进行详细描述。
图4是本发明实施例提供的一种基于声纹识别的语音控制设备的结构示意图,该基于声纹识别的语音控制设备400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)410(例如,一个或一个以上处理器)和存储器420,一个或一个以上存储应用程序433或数据432的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器420和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于声纹识别的语音控制设备400中的一系列指令操作。更进一步地,处理器410可以设置为与存储介质430通信,在基于声纹识别的语音控制设备400上执行存储介质430中的一系列指令操作。
基于声纹识别的语音控制设备400还可以包括一个或一个以上电源440,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口460,和/或,一个或一个以上操作系统431,例如Windows Serve,Mac OSX,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图4展示的基于声纹识别的语音控制设备结构并不构成对基于声纹识别的语音控制设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于声纹识别的语音控制方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于声纹识别的语音控制方法,其特征在于,包括步骤:
接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别所述语音字符串是否存在预置关键词;
若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据;其中,所述利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中包括:
基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
2.根据权利要求1所述的基于声纹识别的语音控制方法,其特征在于,所述根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧包括:
计算所述语音频谱中每帧数据的谱熵值,根据所述每帧数据的谱熵值,计算出每帧数据的能熵比;
基于所述每帧数据的能熵比,比较得出所述语音频谱的最大能熵比,以及根据所述每帧数据的能熵比,计算出所述语音频谱的均值能熵比;
将所述最大能熵比与所述均值能熵比相减,得到能熵比差值;
判断所述能熵比差值是否大于预置语音判定阈值;
若大于,则将所述能熵比差值对应的帧数据确定为人声判定帧。
3.根据权利要求2所述的基于声纹识别的语音控制方法,其特征在于,所述基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配数据包括:
提取所述注册声纹表中注册声纹,基于DTW算法计算所述注册声纹与所述mel倒谱数据的欧式距离,得到DTW欧式距离;
判断所述DTW欧式距离是否小于预置距离阈值;
若小于,则将所述语音数据的声纹确定为在所述注册声纹表中;
若不小于,则将所述语音数据的声纹确定不为在所述注册声纹表中。
4.根据权利要求2所述的基于声纹识别的语音控制方法,其特征在于,所述根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间包括:
计算所述语音频谱中非人声判定帧的平均能熵比;
基于端点修正公式
Figure 361935DEST_PATH_IMAGE001
得到修正参数,其中,eth为所述语音频谱的均值能熵比,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
将所述修正参数代入第一门限值公式
Figure 765235DEST_PATH_IMAGE002
,得到第一门限值,并将所述修正参数代入第二门限值公式
Figure 227440DEST_PATH_IMAGE003
,得到第二门限值,其中,T1为第一门限值,T2为第二门限值,A为第一常数,B为第二常数,eth0为所述语音频谱中非人声判定帧的平均能熵比,Det为修正参数;
根据所述第一门限值和所述第二门限值,对所述语音频谱的人声降噪帧双门限端点检测处理,得到所述语音频谱的语音区间。
5.根据权利要求4所述的基于声纹识别的语音控制方法,其特征在于,所述根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧包括:
计算所述语音频谱中非人声判定帧的平均噪声能量方差;
将所述平均噪声能量方差代入帧信噪比计算公式
Figure 840824DEST_PATH_IMAGE004
,得到所述非人声判定帧对应的帧信噪比,其中,k为非人声判定帧,SNR(K)为帧信噪比,E(k)非人声判定帧的能量,D(k)为平均噪声能量方差;
基于普减算法
Figure 46677DEST_PATH_IMAGE005
,计算出所述语音频谱的人声降噪帧,其中,X~(k)为所述语音频谱的人声降噪帧频谱,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,D(k)为平均噪声能量方差,X(k)为所述语音频谱中非人声判定帧频谱,k为非人声判定帧。
6.根据权利要求5所述的基于声纹识别的语音控制方法,其特征在于,过减因子与帧信噪比的关联式为:
Figure 304483DEST_PATH_IMAGE006
增益补偿因子与帧信噪比的关联式为:
Figure 344115DEST_PATH_IMAGE007
其中,α为与帧信噪比有关联的过减因子,β为与帧信噪比有关联的增益补偿因子,SNR(k)为帧信噪比,k为非人声判定帧。
7.一种基于声纹识别的语音控制装置,其特征在于,所述基于声纹识别的语音控制装置包括:
语音识别模块,用于接收语音数据,对所述语音数据进行语音识别处理,得到语音字符串;
识别模块,用于识别所述语音字符串是否存在预置关键词;
判断模块,用于若存在预置关键词,则利用预置声纹识别算法,判断所述语音数据的声纹是否在预置注册声纹表中;
显示选择模块,用于若不在预置注册声纹表中,则显示所述注册声纹表,接收声纹选择指令,将所述声纹选择指令对应的注册声纹确定为标记注册声纹;
标记模块,用于若在预置注册声纹表中,则标记所述注册声纹表中匹配的注册声纹,得到标记注册声纹;
执行控制模块,用于执行所述语音字符串包含的指令信息,同时对所述标记注册声纹对应的用户账号进行执行控制处理,得到控制数据;
其中,所述判断模块包括:
FFT变换单元,用于基于FFT变换,将所述语音数据从时域数据转换为频域数据,得到语音频谱;
人声判定单元,用于根据人声判定算法,对所述语音频谱进行人声判定处理,得到所述语音频谱的人声判定帧;
降噪单元,用于根据谱减降噪算法,对所述语音频谱的人声判定帧进行降噪处理,得到所述语音频谱的人声降噪帧;
端点检测单元,用于根据端点检测算法,对所述语音频谱的人声降噪帧进行区间检测处理,得到所述语音频谱的语音区间,将所有的语音区间进行合并处理,得到语段;
频域转换单元,用于计算所述语段的mel倒谱系数,根据所述mel倒谱系数,将所述语段从频域数据转换为mel倒谱域,得到mel倒谱数据;
匹配判断单元,用于基于DTW算法,判断所述mel倒谱数据是否在预置注册声纹表中存在匹配的注册声纹。
8.一种基于声纹识别的语音控制设备,其特征在于,所述基于声纹识别的语音控制设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于声纹识别的语音控制设备执行如权利要求1-6中任一项所述的基于声纹识别的语音控制方法。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于声纹识别的语音控制方法。
CN202210483074.XA 2022-05-06 2022-05-06 基于声纹识别的语音控制方法、装置、设备及存储介质 Pending CN114582354A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210483074.XA CN114582354A (zh) 2022-05-06 2022-05-06 基于声纹识别的语音控制方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210483074.XA CN114582354A (zh) 2022-05-06 2022-05-06 基于声纹识别的语音控制方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114582354A true CN114582354A (zh) 2022-06-03

Family

ID=81778838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210483074.XA Pending CN114582354A (zh) 2022-05-06 2022-05-06 基于声纹识别的语音控制方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114582354A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064176A (zh) * 2022-06-22 2022-09-16 广州市迪声音响有限公司 一种声纹筛系统及方法
CN115860882A (zh) * 2023-03-03 2023-03-28 北京吉道尔科技有限公司 基于区块链的智慧城市商品大数据智能选购方法及系统
CN116935880A (zh) * 2023-09-19 2023-10-24 深圳市一合文化数字科技有限公司 基于人工智能的一体机人机交互系统和方法
CN117041807A (zh) * 2023-10-09 2023-11-10 深圳市迪斯声学有限公司 蓝牙耳机播放控制方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1887559A2 (en) * 2006-08-10 2008-02-13 STMicroelectronics Asia Pacific Pte Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
CN105976810A (zh) * 2016-04-28 2016-09-28 Tcl集团股份有限公司 一种检测语音有效话语段端点的方法和装置
CN109246473A (zh) * 2018-09-13 2019-01-18 苏州思必驰信息科技有限公司 基于声纹识别的个性化视频弹幕的语音交互方法及终端系统
CN111091833A (zh) * 2019-12-09 2020-05-01 浙江工业大学 一种降低噪声影响的端点检测方法
CN111267587A (zh) * 2019-11-30 2020-06-12 的卢技术有限公司 一种基于智能识别的车辆玻璃控制方法和系统
CN111723679A (zh) * 2020-05-27 2020-09-29 上海五零盛同信息科技有限公司 基于深度迁移学习的人脸和声纹认证系统及方法
CN112102851A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1887559A2 (en) * 2006-08-10 2008-02-13 STMicroelectronics Asia Pacific Pte Ltd. Yule walker based low-complexity voice activity detector in noise suppression systems
CN105976810A (zh) * 2016-04-28 2016-09-28 Tcl集团股份有限公司 一种检测语音有效话语段端点的方法和装置
CN109246473A (zh) * 2018-09-13 2019-01-18 苏州思必驰信息科技有限公司 基于声纹识别的个性化视频弹幕的语音交互方法及终端系统
CN111267587A (zh) * 2019-11-30 2020-06-12 的卢技术有限公司 一种基于智能识别的车辆玻璃控制方法和系统
CN111091833A (zh) * 2019-12-09 2020-05-01 浙江工业大学 一种降低噪声影响的端点检测方法
CN111723679A (zh) * 2020-05-27 2020-09-29 上海五零盛同信息科技有限公司 基于深度迁移学习的人脸和声纹认证系统及方法
CN112102851A (zh) * 2020-11-17 2020-12-18 深圳壹账通智能科技有限公司 语音端点检测方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王海涛等: "《室内声学定位与识别》", 31 December 2019, 西安:西北工业大学出版社 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115064176A (zh) * 2022-06-22 2022-09-16 广州市迪声音响有限公司 一种声纹筛系统及方法
CN115860882A (zh) * 2023-03-03 2023-03-28 北京吉道尔科技有限公司 基于区块链的智慧城市商品大数据智能选购方法及系统
CN116935880A (zh) * 2023-09-19 2023-10-24 深圳市一合文化数字科技有限公司 基于人工智能的一体机人机交互系统和方法
CN116935880B (zh) * 2023-09-19 2023-11-21 深圳市一合文化数字科技有限公司 基于人工智能的一体机人机交互系统和方法
CN117041807A (zh) * 2023-10-09 2023-11-10 深圳市迪斯声学有限公司 蓝牙耳机播放控制方法
CN117041807B (zh) * 2023-10-09 2024-01-26 深圳市迪斯声学有限公司 蓝牙耳机播放控制方法

Similar Documents

Publication Publication Date Title
CN114582354A (zh) 基于声纹识别的语音控制方法、装置、设备及存储介质
Tiwari MFCC and its applications in speaker recognition
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
US6721699B2 (en) Method and system of Chinese speech pitch extraction
TW514867B (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
WO2014153800A1 (zh) 语音识别系统
JP2007133414A (ja) 音声の識別能力推定方法及び装置、ならびに話者認証の登録及び評価方法及び装置
Vyas A Gaussian mixture model based speech recognition system using Matlab
KR20010102549A (ko) 화자 인식 방법 및 장치
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
CN110782902A (zh) 音频数据确定方法、装置、设备和介质
US5487129A (en) Speech pattern matching in non-white noise
Sadjadi et al. Robust front-end processing for speaker identification over extremely degraded communication channels
JP2006235243A (ja) 音響信号分析装置及び音響信号分析プログラム
CN111429919A (zh) 基于会议实录系统的防串音方法、电子装置及存储介质
Rao et al. Glottal excitation feature based gender identification system using ergodic HMM
Wu et al. Multi-keyword spotting of telephone speech using a fuzzy search algorithm and keyword-driven two-level CBSM
Khaing et al. Myanmar continuous speech recognition system based on DTW and HMM
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Sas et al. Gender recognition using neural networks and ASR techniques
Aliyu et al. Development of a text-dependent speaker recognition system
Bharti et al. SVM based Voice Activity Detection by fusing a new acoustic feature PLMS with some existing acoustic features of speech
JPH01255000A (ja) 音声認識システムに使用されるテンプレートに雑音を選択的に付加するための装置及び方法
Laskar et al. Complementing the DTW based speaker verification systems with knowledge of specific regions of interest
Müller et al. On using the auditory image model and invariant-integration for noise robust automatic speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220603

RJ01 Rejection of invention patent application after publication