CN115662440A - 基于机器学习的声纹特征识别方法及系统 - Google Patents
基于机器学习的声纹特征识别方法及系统 Download PDFInfo
- Publication number
- CN115662440A CN115662440A CN202211682062.6A CN202211682062A CN115662440A CN 115662440 A CN115662440 A CN 115662440A CN 202211682062 A CN202211682062 A CN 202211682062A CN 115662440 A CN115662440 A CN 115662440A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- voice
- living body
- user
- emotion feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
本发明提供的基于机器学习的声纹特征识别方法及系统,本发明通过检测到的语音处理请求,对平台用户语音输入信息进行声纹描述向量提炼,获得所述平台用户语音输入信息的第一活体声纹描述向量并与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,所述G个第二活体声纹描述向量和所述G个第一目标活体声纹描述向量皆与G个用户情感反馈标签具有一对一匹配关系,结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行语音分类操作,获得所述平台用户语音输入信息的语音分类结果。本发明结合前端的信号和语音激活检测技术,可以提高整个系统的鲁棒性,提高了识别准确度,减少了系统资源的开销。
Description
技术领域
本发明涉及语音识别与声纹特征识别技术领域,特别涉及一种基于机器学习的声纹特征识别方法及系统。
背景技术
随着数据处理技术的进步以及移动互联网的快速普及,计算机技术被广泛地运用到了社会的各个领域,随之而来的则是海量数据的产生。其中,语音数据受到了人们越来越多的重视。语音识别是一门交叉学科。近二十年来。语音识别技术取得显著进步,开始从实验室走向市场。声纹语音识别技术属于人工智能方向的一个重要分支,涉及许多学科,如信号处理、计算机科学、语言学、声学、生理学、心理学等,是人机自然交互技术中的关键环节。如何对声纹特征进行识别成为当前语音识别技术的关键内容。
发明内容
为改善相关技术中存在的技术问题,本发明提供了一种基于机器学习的声纹特征识别方法及系统。
第一方面,本发明实施例提供了一种基于机器学习的声纹特征识别方法,应用于系统,所述方法包括:
通过检测到的语音处理请求,对元宇宙交互项目的平台用户语音输入信息进行声纹描述向量提炼,获得所述平台用户语音输入信息的第一活体声纹描述向量,所述平台用户语音输入信息中包含W个用户情感反馈标签,W≥2;
将所述第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,所述G个第二活体声纹描述向量和所述G个第一目标活体声纹描述向量皆与G个用户情感反馈标签具有一对一匹配关系,所述G个第二活体声纹描述向量为通过第一参考语音输入记录确定获得的,所述第一参考语音输入记录中包含所述G个用户情感反馈标签中各用户情感反馈标签对应的不少于一个平台用户语音参考信息和各平台用户语音参考信息的参考指示,G不小于W,所述W个用户情感反馈标签包含于所述G个用户情感反馈标签中;
结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于情感反馈的语音分类操作,获得所述平台用户语音输入信息的语音分类结果。本发明通过对包括W个用户情感反馈标签的元宇宙交互项目的平台用户语音输入信息进行声纹描述向量提炼,获得元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量,将第一活体声纹描述向量与基于G个用户情感反馈标签的第一参考语音输入记录确定获得的G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,鉴于G个第二活体声纹描述向量可用于反映G个用户情感反馈标签的不同用户情感反馈,且W个用户情感反馈标签包含于G个用户情感反馈标签中,基于此,根据元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量与G个第二活体声纹描述向量拼接获得的G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于情感反馈的语音分类操作,可高效且精准地获得元宇宙交互项目的平台用户语音输入信息的语音分类结果,从而实现了对元宇宙交互项目的平台用户语音输入信息中多个用户情感反馈标签的准确及时分类,从而利用局部处理规则将多情感的平台用户语音输入信息进行情感分类,便于后期精准抽取用户情感反馈标签对应的语音信息。
在一些可能的实施例中,所述将所述第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,包括:
对于所述G个第二活体声纹描述向量中的第g个第二活体声纹描述向量,对所述第一活体声纹描述向量与所述第g个第二活体声纹描述向量进行特征运算,获得第g个第三活体声纹描述向量,g为大于等于1且小于等于G的整数;
对所述第一活体声纹描述向量与所述第g个第二活体声纹描述向量进行求差,获得第g个第四活体声纹描述向量;
对所述第一活体声纹描述向量、所述第g个第三活体声纹描述向量以及所述第g个第四活体声纹描述向量进行声纹特征融合,获得所述G个第一目标活体声纹描述向量中的第g个第一目标活体声纹描述向量;所述第g个第二活体声纹描述向量、所述第g个第三活体声纹描述向量、所述第g个第四活体声纹描述向量以及所述第g个第一目标活体声纹描述向量皆为与所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
在一些可能的实施例中,所述结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于情感反馈的语音分类操作,获得所述平台用户语音输入信息的语音分类结果,包括:
结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述平台用户语音输入信息对应的G个语音信息归纳结果,所述G个语音信息归纳结果与所述G个用户情感反馈标签具有一对一匹配关系;
结合所述G个语音信息归纳结果,确定所述语音分类结果。
在一些可能的实施例中,所述结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述平台用户语音输入信息对应的G个语音信息归纳结果,包括:将所述G个第一目标活体声纹描述向量加载到决策树模型,基于所述决策树模型和所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述G个语音信息归纳结果。
在一些可能的实施例中,所述结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述平台用户语音输入信息对应的G个语音信息归纳结果,包括:对于所述G个第一目标活体声纹描述向量中的第g个第一目标活体声纹描述向量,结合所述第g个第一目标活体声纹描述向量,确定所述平台用户语音输入信息对应的所述G个语音信息归纳结果中的第g个语音信息归纳结果,所述第g个语音信息归纳结果中包含所述平台用户语音输入信息中用户情感反馈标签是所述G个用户情感反馈标签中的第g个用户情感反馈标签的音频数据。
在一些可能的实施例中,所述基于机器学习的声纹特征识别方法利用隐马尔可夫算法实施。
在一些可能的实施例中,所述隐马尔可夫算法的算法配置依据包括第一拟分类的平台用户语音参考信息、所述第一拟分类的平台用户语音参考信息的语音分类参考指示,以及所述第一参考语音输入记录,所述第一拟分类的平台用户语音参考信息中包含所述G个用户情感反馈标签中的不少于两个用户情感反馈标签;
所述方法还包括:
通过所述隐马尔可夫算法对所述第一拟分类的平台用户语音参考信息进行声纹描述向量提炼,获得所述第一拟分类的平台用户语音参考信息的第五活体声纹描述向量,以及通过所述隐马尔可夫算法对所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息进行声纹描述向量提炼,获得G个第五活体声纹描述向量,所述G个第五活体声纹描述向量与所述G个用户情感反馈标签具有一对一匹配关系,各所述用户情感反馈标签对应的目标平台用户语音参考信息为各所述用户情感反馈标签对应的不少于一个平台用户语音参考信息中的其中一个;
结合所述G个第五活体声纹描述向量和所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示,确定G个第七活体声纹描述向量,以及将所述第五活体声纹描述向量和所述G个第七活体声纹描述向量进行拼接,获得G个第二目标活体声纹描述向量,所述G个第七活体声纹描述向量和所述G个第二目标活体声纹描述向量皆与所述G个用户情感反馈标签具有一对一匹配关系;
结合所述G个第二目标活体声纹描述向量,对所述第一拟分类的平台用户语音参考信息进行基于情感反馈的语音分类操作,获得所述第一拟分类的平台用户语音参考信息的语音分类测试结果;
结合所述第一拟分类的平台用户语音参考信息的语音分类测试结果以及所述语音分类参考指示,确定语音分类优劣指标;
结合所述语音分类优劣指标,对所述隐马尔可夫算法进行配置,获得配置后的隐马尔可夫算法。
在一些可能的实施例中,所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示为音频标注单元;
所述结合所述G个第五活体声纹描述向量和所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示,确定G个第七活体声纹描述向量,包括:
对于所述G个第五活体声纹描述向量中的第g个第五活体声纹描述向量,结合所述第g个第五活体声纹描述向量以及所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的目标平台用户语音参考信息的音频标注单元,进行特征压缩,获得所述G个第七活体声纹描述向量中的第g个第七活体声纹描述向量,所述第g个第五活体声纹描述向量和所述第g个第七活体声纹描述向量皆为与所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
在一些可能的实施例中,在结合所述第一拟分类的平台用户语音参考信息、所述第一拟分类的平台用户语音参考信息的语音分类参考指示,以及所述第一参考语音输入记录对所述隐马尔可夫算法进行配置之前,所述方法还包括:
结合第二拟分类的平台用户语音参考信息、所述第二拟分类的平台用户语音参考信息的语音分类参考指示,以及第二参考语音输入记录,对所述隐马尔可夫算法进行预配置,所述第二参考语音输入记录中包含H个用户情感反馈标签中各用户情感反馈标签对应的多个平台用户语音参考信息和各平台用户语音参考信息的参考指示,所述G个用户情感反馈标签是所述H个用户情感反馈标签之外的关联用户情感反馈标签,所述第二拟分类的平台用户语音参考信息中包含所述H个用户情感反馈标签中的不少于两个用户情感反馈标签。
在一些可能的实施例中,所述方法还包括:结合所述第一参考语音输入记录和所述配置后的隐马尔可夫算法,确定所述G个第二活体声纹描述向量。
在一些可能的实施例中,所述G个用户情感反馈标签中各用户情感反馈标签对应的平台用户语音参考信息的参考指示为音频标注单元;
所述结合所述第一参考语音输入记录和所述配置后的隐马尔可夫算法,确定所述G个第二活体声纹描述向量,包括:
通过所述配置后的隐马尔可夫算法对所述G个用户情感反馈标签中各用户情感反馈标签对应的平台用户语音参考信息进行声纹描述向量提炼,获得G个第八活体声纹描述向量;
对于所述G个第八活体声纹描述向量中的第g个第八活体声纹描述向量,结合所述第g个第八活体声纹描述向量以及G个用户情感反馈标签中第g个用户情感反馈标签对应的平台用户语音参考信息的音频标注单元,进行特征压缩,获得所述G个第二活体声纹描述向量中的第g个第二活体声纹描述向量;所述第g个第八活体声纹描述向量和所述第g个第二活体声纹描述向量皆为所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
第二方面,本发明还提供了一种系统,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
第三方面,本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
本发明通过检测到的语音处理请求,对平台用户语音输入信息进行声纹描述向量提炼,获得所述平台用户语音输入信息的第一活体声纹描述向量,将所述第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,所述G个第二活体声纹描述向量和所述G个第一目标活体声纹描述向量皆与G个用户情感反馈标签具有一对一匹配关系,结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行语音分类操作,获得所述平台用户语音输入信息的语音分类结果。本发明实现了对的平台用户语音输入信息中多个用户情感反馈标签的准确及时分类,从而利用局部处理规则将多情感的平台用户语音输入信息进行情感分类,便于后期精准抽取用户情感反馈标签对应的语音信息,可以提高整个系统的鲁棒性,提高了识别准确度,减少了系统资源的开销。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是本发明实施例提供的一种基于机器学习的声纹特征识别方法的流程示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本发明实施例所提供的方法实施例可以在系统、计算机设备或者类似的运算装置中执行。以运行在系统上为例,系统可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器,可选地,上述系统还可以包括用于通信功能的传输装置。本领域普通技术人员可以理解,上述结构仅为示意,其并不对上述系统的结构造成限定。例如,系统还可包括比上述所示更多或者更少的组件,或者具有与上述所示不同的配置。
存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的一种基于机器学习的声纹特征识别方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括系统的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
基于此,请参阅图1,图1是本发明实施例所提供的一种基于机器学习的声纹特征识别方法的流程示意图,该方法应用于系统,进一步可以包括Process11-Process13描述的技术方案。
Process11、通过检测到的语音处理请求,对元宇宙交互项目的平台用户语音输入信息进行声纹描述向量提炼,获得元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量。
进一步地,元宇宙交互项目的平台用户语音输入信息中包含W个用户情感反馈标签,W≥2。
对于本申请实施例而言,语音处理请求比如可以是其它平台系统向系统发送的对元宇宙交互项目的平台用户语音输入信息进行处理的申请。对元宇宙交互项目的平台用户语音输入信息进行声纹描述向量提炼可以理解为对元宇宙交互项目的平台用户语音输入信息进行声纹特征挖掘,进而得到第一声纹特征(即第一活体声纹描述向量)。进一步地,元宇宙交互项目比如可以是虚拟社区运营项目,而平台用户语音输入信息比如可以包括各类活体用户输入的语音信息。
Process12、将第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,G个第二活体声纹描述向量和G个第一目标活体声纹描述向量皆与G个用户情感反馈标签具有一对一匹配关系。
进一步地,G个第二活体声纹描述向量为通过第一参考语音输入记录确定获得的,第一参考语音输入记录中包含G个用户情感反馈标签中各用户情感反馈标签对应的不少于一个平台用户语音参考信息和各平台用户语音参考信息的参考指示,G不小于W,W个用户情感反馈标签包含于G个用户情感反馈标签中。此外,第一参考语音输入记录可以理解为第一样例集,而参考指示可以理解为标注数据/注释数据。
对于本申请实施例而言,将第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接比如可以是对第一活体声纹描述向量与G个第二活体声纹描述向量(第二声纹特征)进行融合处理。
Process13、根据G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于情感反馈的语音分类操作,获得元宇宙交互项目的平台用户语音输入信息的语音分类结果。
举例而言,对元宇宙交互项目的平台用户语音输入信息进行基于情感反馈的语音分类操作,可以将不同用户情感反馈标签对应的语音片段进行整理,从而将多情感的平台用户语音输入信息进行按情绪分类,这样可以便于对语音分类结果进行针对性应用,后面不必应对全局的平台用户语音输入信息。
实施Process11-Process13,通过对包括W个用户情感反馈标签的元宇宙交互项目的平台用户语音输入信息进行声纹描述向量提炼,获得元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量,将第一活体声纹描述向量与基于G个用户情感反馈标签的第一参考语音输入记录确定获得的G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,鉴于G个第二活体声纹描述向量可用于反映G个用户情感反馈标签的不同用户情感反馈,且W个用户情感反馈标签包含于G个用户情感反馈标签中,基于此,根据元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量与G个第二活体声纹描述向量拼接获得的G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于情感反馈的语音分类操作,可高效且精准地获得元宇宙交互项目的平台用户语音输入信息的语音分类结果,从而实现了对元宇宙交互项目的平台用户语音输入信息中多个用户情感反馈标签的准确及时分类,从而利用局部处理规则将多情感的平台用户语音输入信息进行情感分类,便于后期精准抽取用户情感反馈标签对应的语音信息。
对于一些可能的设计思路而言,基于机器学习的声纹特征识别方法利用隐马尔可夫算法实施。
进一步地,结合隐马尔可夫算法,可以实现对元宇宙交互项目的平台用户语音输入信息中多个用户情感反馈标签的准确及时分类,从而利用局部处理规则将多情感的平台用户语音输入信息进行情感分类,便于后期精准抽取用户情感反馈标签对应的语音信息。
在一些示例中,隐马尔可夫算法中包含声纹描述向量提炼模型、信息分类模型、重构模型和决策树模型。
进一步地,借助隐马尔可夫算法中的声纹描述向量提炼模型对元宇宙交互项目的平台用户语音输入信息进行声纹描述向量提炼,获得元宇宙交互项目的平台用户语音输入信息的第九活体声纹描述向量;元宇宙交互项目的平台用户语音输入信息的第九活体声纹描述向量经过隐马尔可夫算法中的信息分类模型之后,获得元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量。
对于一些可能的设计思路而言,将第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,可以包括如下Process121-Process123所记录的内容。
Process121、针对G个第二活体声纹描述向量中的第g个第二活体声纹描述向量,对第一活体声纹描述向量与第g个第二活体声纹描述向量进行特征运算,获得第g个第三活体声纹描述向量,g为大于等于1且小于等于G的整数。
对于本申请实施例而言,对第一活体声纹描述向量与第g个第二活体声纹描述向量进行特征运算可以理解为对第一声纹特征与第g个第二声纹特征进行特征点积,进而得到第g个第三声纹特征(第三活体声纹描述向量)。
Process122、对第一活体声纹描述向量与第g个第二活体声纹描述向量进行求差,获得第g个第四活体声纹描述向量。
对于本申请实施例而言,对第一活体声纹描述向量与第g个第二活体声纹描述向量进行求差可以理解为对第一声纹特征与第g个第二声纹特征实施特征减法,进而得到第g个第四声纹特征(即第四活体声纹描述向量)。
Process123、对第一活体声纹描述向量、第g个第三活体声纹描述向量以及第g个第四活体声纹描述向量进行声纹特征融合,获得G个第一目标活体声纹描述向量中的第g个第一目标活体声纹描述向量。
进一步地,第g个第二活体声纹描述向量、第g个第三活体声纹描述向量、第g个第四活体声纹描述向量以及第g个第一目标活体声纹描述向量皆为与G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
鉴于在对元宇宙交互项目的平台用户语音输入信息进行基于情感反馈的语音分类操作的过程中,加入了G个用户情感反馈标签对应的G个第二活体声纹描述向量,为了规避G个第二活体声纹描述向量所造成的扰动,通过多活体声纹描述向量分类思路,对元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量、元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量与第g个第二活体声纹描述向量进行特征运算获得的第g个第三活体声纹描述向量,以及元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量与第g个第二活体声纹描述向量进行求差获得的第g个第四活体声纹描述向量进行声纹特征融合,从而获得能够提高分类识别精度的G个第一目标活体声纹描述向量中对应第g个用户情感反馈标签的第g个第一目标活体声纹描述向量。
在一种示例中,隐马尔可夫算法中的重构模型实施以上多活体声纹描述向量拼接方法,对元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量与G个第二活体声纹描述向量分别进行特征运算,获得G个第三活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量与G个第二活体声纹描述向量分别进行求差,获得G个第三活体声纹描述向量,对第一活体声纹描述向量、G个第三活体声纹描述向量以及G个第三活体声纹描述向量进行声纹特征融合,从而获得G个第一目标活体声纹描述向量。
对于一些可能的设计思路而言,根据G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于情感反馈的语音分类操作,获得元宇宙交互项目的平台用户语音输入信息的语音分类结果,可以包括如下内容:根据G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定元宇宙交互项目的平台用户语音输入信息对应的G个语音信息归纳结果,G个语音信息归纳结果与G个用户情感反馈标签具有一对一匹配关系;根据G个语音信息归纳结果,确定语音分类结果。
可以理解的是,鉴于G个第一目标活体声纹描述向量结合了G个用户情感反馈标签的不同用户情感反馈以及元宇宙交互项目的平台用户语音输入信息的第一活体声纹描述向量,基于此,根据G个第一目标活体声纹描述向量对元宇宙交互项目的平台用户语音输入信息进行基于用户情感反馈标签的回归分析,可以获得与G个用户情感反馈标签具有一对一匹配关系的G个语音信息归纳结果,从而通过拼接G个语音信息归纳结果,可以获得元宇宙交互项目的平台用户语音输入信息的语音分类结果。
对于一些可能的设计思路而言,根据G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定元宇宙交互项目的平台用户语音输入信息对应的G个语音信息归纳结果,可以包括如下内容:将G个第一目标活体声纹描述向量加载到决策树模型,基于决策树模型和G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定G个语音信息归纳结果。
可以理解到是,鉴于决策树模型可以削弱类内误差,实现更好的分类处理,基于此,借助决策树模型和G个第一目标活体声纹描述向量对元宇宙交互项目的平台用户语音输入信息进行基于用户情感反馈标签的回归分析,可以有效获得元宇宙交互项目的平台用户语音输入信息对应的G个语音信息归纳结果,进而获得元宇宙交互项目的平台用户语音输入信息的语音分类结果。
基于以上内容,将G个第一目标活体声纹描述向量加载到隐马尔可夫算法中的同一个决策树模型,进而决策树模型可以生成元宇宙交互项目的平台用户语音输入信息的语音分类结果。
对于一些可能的设计思路而言,根据G个第一目标活体声纹描述向量,对元宇宙交互项目的平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定元宇宙交互项目的平台用户语音输入信息对应的G个语音信息归纳结果,可以包括如下内容:针对G个第一目标活体声纹描述向量中的第g个第一目标活体声纹描述向量,根据第g个第一目标活体声纹描述向量,确定元宇宙交互项目的平台用户语音输入信息对应的G个语音信息归纳结果中的第g个语音信息归纳结果。
进一步地,第g个语音信息归纳结果中包含元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签是G个用户情感反馈标签中的第g个用户情感反馈标签的音频数据。
可以理解的是,鉴于第g个第一目标活体声纹描述向量可以用作对G个用户情感反馈标签中的第g个用户情感反馈标签进行基于情感反馈的语音分类操作,基于此,根据第g个第一目标活体声纹描述向量,可以有效对元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签为第g个用户情感反馈标签的音频数据进行基于情感反馈的语音分类操作,获得元宇宙交互项目的平台用户语音输入信息对应的G个语音信息归纳结果中的第g个语音信息归纳结果。
在一种示例中,针对G个第一目标活体声纹描述向量中的第g个第一目标活体声纹描述向量,第g个第一目标活体声纹描述向量通过隐马尔可夫算法中的决策树模型之后,决策树模型可以生成第g个第一目标活体声纹描述向量对应的G个语音分类结果,各语音分类结果中包含元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签是G个用户情感反馈标签中各用户情感反馈标签的音频数据。
举例而言,G=3,p=1时,存在三个用户情感反馈标签以及与之具有一对一匹配关系的三个第一目标活体声纹描述向量,针对三个第一目标活体声纹描述向量中的第一组第一目标活体声纹描述向量(对应三个用户情感反馈标签中的第一组用户情感反馈标签),第一组第一目标活体声纹描述向量经过隐马尔可夫算法中的决策树模型之后,决策树模型生成第一组第一目标活体声纹描述向量对应的三个语音分类结果:第一组语音分类结果中包含元宇宙交互项目的平台用户语音输入信息用户情感反馈标签是第一组用户情感反馈标签的音频数据;第二组语音分类结果中包含元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签是第二组用户情感反馈标签的音频数据;第三个语音分类结果中包含元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签是第三个用户情感反馈标签的音频数据。由于第一组第一目标活体声纹描述向量可以用作对第一组用户情感反馈标签进行基于情感反馈的语音分类操作,基于此,只提取第一组第一目标活体声纹描述向量对应的三个语音分类结果中的第一组语音分类结果,用于确定为元宇宙交互项目的平台用户语音输入信息对应的第一组语音信息归纳结果。
举例而言,G=3时,存在三个用户情感反馈标签以及与之具有一对一匹配关系的三个第一目标活体声纹描述向量,可以根据第一组第一目标活体声纹描述向量(对应三个用户情感反馈标签中的第一组用户情感反馈标签)确定包括元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签是第一组用户情感反馈标签的音频数据的第一组语音信息归纳结果,根据第二组第一目标活体声纹描述向量(对应三个用户情感反馈标签中的第二组用户情感反馈标签)确定包括元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签是第二组用户情感反馈标签的音频数据的第二组语音信息归纳结果,以及根据第三个第一目标活体声纹描述向量(对应三个用户情感反馈标签中的第三个用户情感反馈标签)确定包括元宇宙交互项目的平台用户语音输入信息中用户情感反馈标签是第三个用户情感反馈标签的音频数据的第三个语音信息归纳结果,最后根据第一组语音信息归纳结果、第二组语音信息归纳结果以及第三个语音信息归纳结果,获得拟分类的平台用户语音参考信息的语音分类结果。其中,语音信息归纳结果可以是语音分类结果的分类片段。
可以理解的是,在利用隐马尔可夫算法对元宇宙交互项目的平台用户语音输入信息中多个用户情感反馈标签进行准确及时分类之前,还需要对隐马尔可夫算法进行配置。对隐马尔可夫算法进行配置,即对隐马尔可夫算法中的声纹描述向量提炼模型、信息分类模型、重构模型和决策树模型都进行配置。
对于一些可能的设计思路而言,隐马尔可夫算法的算法配置依据包括第一拟分类的平台用户语音参考信息、第一拟分类的平台用户语音参考信息的语音分类参考指示,以及第一参考语音输入记录,第一拟分类的平台用户语音参考信息中包含G个用户情感反馈标签中的不少于两个用户情感反馈标签;该基于机器学习的声纹特征识别方法还可以包括如下Process201-Process205。
Process201、通过隐马尔可夫算法对第一拟分类的平台用户语音参考信息进行声纹描述向量提炼,获得第一拟分类的平台用户语音参考信息的第五活体声纹描述向量,以及通过隐马尔可夫算法对G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息进行声纹描述向量提炼,获得G个第五活体声纹描述向量。
进一步地,G个第五活体声纹描述向量与G个用户情感反馈标签具有一对一匹配关系,各用户情感反馈标签对应的目标平台用户语音参考信息为各用户情感反馈标签对应的不少于一个平台用户语音参考信息中的其中一个。
Process202、根据G个第五活体声纹描述向量和G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示,确定G个第七活体声纹描述向量,以及将第五活体声纹描述向量和G个第七活体声纹描述向量进行拼接,获得G个第二目标活体声纹描述向量。
进一步地,G个第七活体声纹描述向量和G个第二目标活体声纹描述向量皆与G个用户情感反馈标签具有一对一匹配关系。
Process203、根据G个第二目标活体声纹描述向量,对第一拟分类的平台用户语音参考信息进行基于情感反馈的语音分类操作,获得第一拟分类的平台用户语音参考信息的语音分类结果。
Process204、根据第一拟分类的平台用户语音参考信息的语音分类结果以及语音分类参考指示,确定语音分类优劣指标。
对于本申请实施例而言,语音分类优劣指标可以理解为语音分类损失。
Process205、根据语音分类优劣指标,对隐马尔可夫算法进行配置,获得配置后的隐马尔可夫算法。
可以理解的是,利用包括G个用户情感反馈标签中各用户情感反馈标签对应的不少于一个平台用户语音参考信息和各平台用户语音参考信息的参考指示的第一参考语音输入记录、包括G个用户情感反馈标签中的不少于两个用户情感反馈标签的第一拟分类的平台用户语音参考信息以及第一拟分类的平台用户语音参考信息的语音分类参考指示,配置隐马尔可夫算法对不少于两个用户情感反馈标签进行准确及时分类,从而使得配置后的隐马尔可夫算法可高效且精准地获得包括G个用户情感反馈标签中不少于两个用户情感反馈标签的元宇宙交互项目的平台用户语音输入信息的语音分类结果,从而实现对不少于两个用户情感反馈标签的准确及时分类。
在一些可能的实施例中,将第一拟分类的平台用户语音参考信息、G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息,以及各目标平台用户语音参考信息的参考指示加载到隐马尔可夫算法。第一拟分类的平台用户语音参考信息和G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息之间共享隐马尔可夫算法中的声纹描述向量提炼模型。
进一步地,利用共用的声纹描述向量提炼模型分别对第一拟分类的平台用户语音参考信息和G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息进行声纹描述向量提炼,获得第一拟分类的平台用户语音参考信息的第一活体声纹描述向量0,以及G个第五活体声纹描述向量。第一拟分类的平台用户语音参考信息的第一活体声纹描述向量0通过隐马尔可夫算法中的信息分类模型之后,获得第一拟分类的平台用户语音参考信息的第五活体声纹描述向量。
对于一些可能的设计思路而言,G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示为音频标注单元。鉴于此,Process202中根据G个第五活体声纹描述向量和G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示,确定G个第七活体声纹描述向量,可以包括如下内容:针对G个第五活体声纹描述向量中的第g个第五活体声纹描述向量,根据第g个第五活体声纹描述向量以及G个用户情感反馈标签中第g个用户情感反馈标签对应的目标平台用户语音参考信息的音频标注单元,进行特征压缩,获得G个第七活体声纹描述向量中的第g个第七活体声纹描述向量。
进一步地,第g个第五活体声纹描述向量和第g个第七活体声纹描述向量皆为与G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
可以理解的是,鉴于直接将声纹描述向量提炼模型提取获得的G个第五活体声纹描述向量与第一拟分类的平台用户语音参考信息的第五活体声纹描述向量进行拼接时,运算开销过高,基于此,利用对应音频标注单元对G个第五活体声纹描述向量进行特征压缩,获得G个第七活体声纹描述向量,从而使得后续将G个第七活体声纹描述向量与第一拟分类的平台用户语音参考信息的第五活体声纹描述向量进行拼接时,可以减少运算开销,进而能够快速且高效地获得G个第二目标活体声纹描述向量。
在一些示例中,针对G个第五活体声纹描述向量中的第g个第五活体声纹描述向量,隐马尔可夫算法中的重构模型,根据第g个第五活体声纹描述向量以及G个用户情感反馈标签中第g个用户情感反馈标签对应的目标平台用户语音参考信息的音频标注单元,进行特征压缩,获得G个第七活体声纹描述向量中与第g个用户情感反馈标签对应的第g个第七活体声纹描述向量。
对于一些可能的设计思路而言,将第五活体声纹描述向量和G个第七活体声纹描述向量进行拼接,获得G个第二目标活体声纹描述向量,可以包括如下内容:针对G个第七活体声纹描述向量中的第g个第七活体声纹描述向量,对第五活体声纹描述向量与第g个第七活体声纹描述向量进行特征运算,获得第g个第一当前活体声纹描述向量1,g为大于等于1且小于等于G的整数;对第五活体声纹描述向量与第g个第七活体声纹描述向量进行求差,获得第g个第一当前活体声纹描述向量2;对第五活体声纹描述向量、第g个第一当前活体声纹描述向量1以及第g个第一当前活体声纹描述向量2进行声纹特征融合,获得G个第二目标活体声纹描述向量中的第g个第二目标活体声纹描述向量;第g个第七活体声纹描述向量、第g个第一当前活体声纹描述向量1、第g个第一当前活体声纹描述向量2以及第g个第二目标活体声纹描述向量皆为与G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
鉴于在一次配置过程中,G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息是任意挑选的,为了规避任意挑选所造成的扰动,通过多活体声纹描述向量分类思路。隐马尔可夫算法中的重构模型实施上述多活体声纹描述向量拼接方式,对第一拟分类的平台用户语音参考信息的第五活体声纹描述向量与G个第七活体声纹描述向量进行特征运算,获得G个第一当前活体声纹描述向量1,以及对第一拟分类的平台用户语音参考信息的第五活体声纹描述向量与G个第七活体声纹描述向量进行求差,获得G个第一当前活体声纹描述向量2,对第五活体声纹描述向量、G个第一当前活体声纹描述向量1以及G个第一当前活体声纹描述向量2进行声纹特征融合,从而获得G个第二目标活体声纹描述向量。
可以理解的是,将G个第二目标活体声纹描述向量加载到隐马尔可夫算法中的同一决策树模型,决策树模型对拟分类的平台用户语音参考信息进行基于用户情感反馈标签的回归分析,进而输出第一拟分类的平台用户语音参考信息的语音分类结果。进一步地,具体的分类流程与上述对元宇宙交互项目的平台用户语音输入信息的分类流程类似。
鉴于算法配置依据中包含第一拟分类的平台用户语音参考信息的语音分类参考指示,基于此,根据第一拟分类的平台用户语音参考信息的语音分类结果以及第一拟分类的平台用户语音参考信息的语音分类参考指示,可以确定隐马尔可夫算法的语音分类优劣指标,进而根据语音分类优劣指标,调整隐马尔可夫算法的算法参量(调整声纹描述向量提炼模型、信息分类模型、重构模型、决策树模型的算法参量),以完成对隐马尔可夫算法的本次配置。通过进行多次循环配置,获得满足设定指标的配置后的隐马尔可夫算法。
对于一些可能的设计思路而言,可以利用Cross Entropy Loss来确定语音分类优劣指标,也可以采用其它类型的损失函数确定语音分类优劣指标。
对于一些可能的设计思路而言,在根据第一拟分类的平台用户语音参考信息、第一拟分类的平台用户语音参考信息的语音分类参考指示,以及第一参考语音输入记录对隐马尔可夫算法进行配置之前,该基于机器学习的声纹特征识别方法,还可以包括如下内容:结合第二拟分类的平台用户语音参考信息、第二拟分类的平台用户语音参考信息的语音分类参考指示,以及第二参考语音输入记录,对隐马尔可夫算法进行预配置。
进一步地,第二参考语音输入记录中包含H个用户情感反馈标签中各用户情感反馈标签对应的多个平台用户语音参考信息和各平台用户语音参考信息的参考指示,G个用户情感反馈标签是H个用户情感反馈标签之外的关联用户情感反馈标签,第二拟分类的平台用户语音参考信息中包含H个用户情感反馈标签中的不少于两个用户情感反馈标签。
可以理解的是,H个用户情感反馈标签是参考标签,H个用户情感反馈标签中的各用户情感反馈标签均对应多个平台用户语音参考信息,G个用户情感反馈标签是H个用户情感反馈标签之外的关联用户情感反馈标签,即G个用户情感反馈标签中的各用户情感反馈标签对应的平台用户语音参考信息较少,比如,每个用户情感反馈标签只对应1个平台用户语音参考信息(1-voice),或者,每个用户情感反馈标签只对应5个平台用户语音参考信息(5-voice)。对于本申请实施例而言,G个用户情感反馈标签中各用户情感反馈标签对应的平台用户语音参考信息还可以关联至10-voice,或者关联至更多voice数。
可以理解的是,首先利用H个用户情感反馈标签对应的第二平台用户语音输入信息集、第二拟分类的平台用户语音参考信息以及第二拟分类的平台用户语音参考信息的语音分类参考指示对隐马尔可夫算法进行第一阶段的配置,使得通过第一阶段配置的隐马尔可夫算法具备对多个用户情感反馈标签进行准确及时分类的性能,进而利用G个用户情感反馈标签对应的第一平台用户语音输入信息集、第一拟分类的平台用户语音参考信息、第一拟分类的平台用户语音参考信息的语音分类参考指示对隐马尔可夫算法进行第二阶段的配置,使得通过第二阶段配置的隐马尔可夫算法具备对作为新种类的G个用户情感反馈标签中多个用户情感反馈标签进行准确及时分类的性能。
可以理解的是,利用H个用户情感反馈标签对应的第二平台用户语音输入信息集、第二拟分类的平台用户语音参考信息、第二拟分类的平台用户语音参考信息的语音分类参考指示对隐马尔可夫算法进行的第一阶段配置的实际配置思路,与上述利用G个用户情感反馈标签对应的第一平台用户语音输入信息集、第一拟分类的平台用户语音参考信息、第一拟分类的平台用户语音参考信息的语音分类参考指示对隐马尔可夫算法进行的第二阶段配置的实际配置思路类似。
在一种可能的实施例中,本发明示出的一种两阶段配置隐马尔可夫算法的思路。首先利用作为参考标签的H个用户情感反馈标签对应的第二参考语音输入记录、第二拟分类的平台用户语音参考信息和第二拟分类的平台用户语音参考信息的语音分类参考指示,对隐马尔可夫算法进行第一阶段配置;进而利用作为新类别的G个用户情感反馈标签对应的第一参考语音输入记录、第一拟分类的平台用户语音参考信息和第一拟分类的平台用户语音参考信息的语音分类参考指示,对通过第一阶段配置的隐马尔可夫算法进行第二阶段配置,获得最后配置后的隐马尔可夫算法。
对于一些可能的设计思路而言,该基于机器学习的声纹特征识别方法还可以包括如下内容:根据第一参考语音输入记录和配置后的隐马尔可夫算法,确定G个第二活体声纹描述向量。
通过以上两个阶段配置后的隐马尔可夫算法,可以确定用于之后对作为新类别的G个用户情感反馈标签进行分类的G个第二活体声纹描述向量。
对于一些可能的设计思路而言,根据第一参考语音输入记录和配置后的隐马尔可夫算法,确定G个第二活体声纹描述向量,可以包括如下内容:通过配置后的隐马尔可夫算法对G个用户情感反馈标签中各用户情感反馈标签对应的平台用户语音参考信息进行声纹描述向量提炼,获得G个第八活体声纹描述向量;针对G个第八活体声纹描述向量中的第g个第八活体声纹描述向量,根据第g个第八活体声纹描述向量以及G个用户情感反馈标签中第g个用户情感反馈标签对应的平台用户语音参考信息的音频标注单元,进行特征压缩,获得G个第二活体声纹描述向量中的第g个第二活体声纹描述向量;第g个第八活体声纹描述向量和第g个第二活体声纹描述向量皆为G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
对于本申请实施例而言,针对G个用户情感反馈标签中的第g个用户情感反馈标签,利用通过两个阶段配置后的隐马尔可夫算法中的声纹描述向量提炼模型,对第g个用户情感反馈标签对应的平台用户语音参考信息进行声纹描述向量提炼,获得第g个第八活体声纹描述向量(对应G个用户情感反馈标签中的第g个用户情感反馈标签),进而利用通过两个阶段配置后的隐马尔可夫算法中的重构模型,根据第g个第八活体声纹描述向量以及第g个用户情感反馈标签对应的平台用户语音参考信息的音频标注单元,进行特征压缩,获得第g个第二活体声纹描述向量(对应G个用户情感反馈标签中的第g个用户情感反馈标签)。声纹描述向量提炼模型和重构模型的实际处理思路与上述配置流程类似。
对于一些可能的设计思路而言,在G个用户情感反馈标签中各用户情感反馈标签均只对应一个平台用户语音参考信息(1-voice)时,只实施一次上次声纹描述向量提炼和下采样处理,便可获得用于对G个用户情感反馈标签进行基于情感反馈的语音分类操作的G个第二活体声纹描述向量。在G个用户情感反馈标签中各用户情感反馈标签对应多个平台用户语音参考信息时,重复实施多次上次声纹描述向量提炼和下采样处理,获得用于对G个用户情感反馈标签进行基于情感反馈的语音分类操作的G个第二活体声纹描述向量。
举例而言,在5-voice场景下,重复实施5次上次声纹描述向量提炼和下采样处理,针对同一用户情感反馈标签,每次挑选的平台用户语音参考信息不同,对5次获得G个用户情感反馈标签中各用户情感反馈标签对应第二活体声纹描述向量进行均值化处理,获得最后G个第二活体声纹描述向量。
利用通过两个阶段配置后的隐马尔可夫算法以及G个用户情感反馈标签对应的第一参考语音输入记录,确定用于体现G个用户情感反馈标签的不同用户情感反馈的G个第二活体声纹描述向量之后,在后续实际基于情感反馈的语音分类操作过程中,不需要再将第一平台用户语音输入信息集加载到隐马尔可夫算法,而只需要将元宇宙交互项目的平台用户语音输入信息和G个第二活体声纹描述向量加载到隐马尔可夫算法,便可以实现对元宇宙交互项目的平台用户语音输入信息中多个用户情感反馈标签的准确及时分类,从而利用局部处理规则将多情感的平台用户语音输入信息进行情感分类,便于后期精准抽取用户情感反馈标签对应的语音信息。
基于上述相同或相似的发明构思,本发明还提供了一种基于机器学习的声纹特征识别方法的应用环境的架构示意图,包括互相之间通信的系统和元宇宙平台系统,系统和元宇宙平台系统在运行时实现或者部分实现上述方法实施例所描述的技术方案。
进一步地,还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述的方法。
在本发明实施例所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的声纹特征识别方法,其特征在于,应用于系统,所述方法包括:
通过检测到的语音处理请求,对元宇宙交互项目的平台用户语音输入信息进行声纹描述向量提炼,获得所述平台用户语音输入信息的第一活体声纹描述向量,所述平台用户语音输入信息中包含W个用户情感反馈标签,W≥2;
将所述第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,所述G个第二活体声纹描述向量和所述G个第一目标活体声纹描述向量皆与G个用户情感反馈标签具有一对一匹配关系,所述G个第二活体声纹描述向量为通过第一参考语音输入记录确定获得的,所述第一参考语音输入记录中包含所述G个用户情感反馈标签中各用户情感反馈标签对应的不少于一个平台用户语音参考信息和各平台用户语音参考信息的参考指示,G不小于W,所述W个用户情感反馈标签包含于所述G个用户情感反馈标签中;
结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于情感反馈的语音分类操作,获得所述平台用户语音输入信息的语音分类结果。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一活体声纹描述向量与G个第二活体声纹描述向量进行拼接,获得G个第一目标活体声纹描述向量,包括:
对于所述G个第二活体声纹描述向量中的第g个第二活体声纹描述向量,对所述第一活体声纹描述向量与所述第g个第二活体声纹描述向量进行特征运算,获得第g个第三活体声纹描述向量,g为大于等于1且小于等于G的整数;
对所述第一活体声纹描述向量与所述第g个第二活体声纹描述向量进行求差,获得第g个第四活体声纹描述向量;
对所述第一活体声纹描述向量、所述第g个第三活体声纹描述向量以及所述第g个第四活体声纹描述向量进行声纹特征融合,获得所述G个第一目标活体声纹描述向量中的第g个第一目标活体声纹描述向量;所述第g个第二活体声纹描述向量、所述第g个第三活体声纹描述向量、所述第g个第四活体声纹描述向量以及所述第g个第一目标活体声纹描述向量皆为与所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
3.根据权利要求1所述的方法,其特征在于,所述结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于情感反馈的语音分类操作,获得所述平台用户语音输入信息的语音分类结果,包括:
结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述平台用户语音输入信息对应的G个语音信息归纳结果,所述G个语音信息归纳结果与所述G个用户情感反馈标签具有一对一匹配关系;
结合所述G个语音信息归纳结果,确定所述语音分类结果。
4.根据权利要求3所述的方法,其特征在于,所述结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述平台用户语音输入信息对应的G个语音信息归纳结果,包括:将所述G个第一目标活体声纹描述向量加载到决策树模型,基于所述决策树模型和所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述G个语音信息归纳结果。
5.根据权利要求3所述的方法,其特征在于,所述结合所述G个第一目标活体声纹描述向量,对所述平台用户语音输入信息进行基于用户情感反馈标签的回归分析,确定所述平台用户语音输入信息对应的G个语音信息归纳结果,包括:对于所述G个第一目标活体声纹描述向量中的第g个第一目标活体声纹描述向量,结合所述第g个第一目标活体声纹描述向量,确定所述平台用户语音输入信息对应的所述G个语音信息归纳结果中的第g个语音信息归纳结果,所述第g个语音信息归纳结果中包含所述平台用户语音输入信息中用户情感反馈标签是所述G个用户情感反馈标签中的第g个用户情感反馈标签的音频数据。
6.根据权利要求1所述的方法,其特征在于,所述基于机器学习的声纹特征识别方法利用隐马尔可夫算法实施;
其中,所述隐马尔可夫算法的算法配置依据包括第一拟分类的平台用户语音参考信息、所述第一拟分类的平台用户语音参考信息的语音分类参考指示,以及所述第一参考语音输入记录,所述第一拟分类的平台用户语音参考信息中包含所述G个用户情感反馈标签中的不少于两个用户情感反馈标签;
所述方法还包括:
通过所述隐马尔可夫算法对所述第一拟分类的平台用户语音参考信息进行声纹描述向量提炼,获得所述第一拟分类的平台用户语音参考信息的第五活体声纹描述向量,以及通过所述隐马尔可夫算法对所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息进行声纹描述向量提炼,获得G个第五活体声纹描述向量,所述G个第五活体声纹描述向量与所述G个用户情感反馈标签具有一对一匹配关系,各所述用户情感反馈标签对应的目标平台用户语音参考信息为各所述用户情感反馈标签对应的不少于一个平台用户语音参考信息中的其中一个;
结合所述G个第五活体声纹描述向量和所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示,确定G个第七活体声纹描述向量,以及将所述第五活体声纹描述向量和所述G个第七活体声纹描述向量进行拼接,获得G个第二目标活体声纹描述向量,所述G个第七活体声纹描述向量和所述G个第二目标活体声纹描述向量皆与所述G个用户情感反馈标签具有一对一匹配关系;
结合所述G个第二目标活体声纹描述向量,对所述第一拟分类的平台用户语音参考信息进行基于情感反馈的语音分类操作,获得所述第一拟分类的平台用户语音参考信息的语音分类测试结果;
结合所述第一拟分类的平台用户语音参考信息的语音分类测试结果以及所述语音分类参考指示,确定语音分类优劣指标;
结合所述语音分类优劣指标,对所述隐马尔可夫算法进行配置,获得配置后的隐马尔可夫算法。
7.根据权利要求6所述的方法,其特征在于,所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示为音频标注单元;
所述结合所述G个第五活体声纹描述向量和所述G个用户情感反馈标签中各用户情感反馈标签对应的目标平台用户语音参考信息的参考指示,确定G个第七活体声纹描述向量,包括:
对于所述G个第五活体声纹描述向量中的第g个第五活体声纹描述向量,结合所述第g个第五活体声纹描述向量以及所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的目标平台用户语音参考信息的音频标注单元,进行特征压缩,获得所述G个第七活体声纹描述向量中的第g个第七活体声纹描述向量,所述第g个第五活体声纹描述向量和所述第g个第七活体声纹描述向量皆为与所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
8.根据权利要求6所述的方法,其特征在于,在结合所述第一拟分类的平台用户语音参考信息、所述第一拟分类的平台用户语音参考信息的语音分类参考指示,以及所述第一参考语音输入记录对所述隐马尔可夫算法进行配置之前,所述方法还包括:
结合第二拟分类的平台用户语音参考信息、所述第二拟分类的平台用户语音参考信息的语音分类参考指示,以及第二参考语音输入记录,对所述隐马尔可夫算法进行预配置,所述第二参考语音输入记录中包含H个用户情感反馈标签中各用户情感反馈标签对应的多个平台用户语音参考信息和各平台用户语音参考信息的参考指示,所述G个用户情感反馈标签是所述H个用户情感反馈标签之外的关联用户情感反馈标签,所述第二拟分类的平台用户语音参考信息中包含所述H个用户情感反馈标签中的不少于两个用户情感反馈标签。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:结合所述第一参考语音输入记录和所述配置后的隐马尔可夫算法,确定所述G个第二活体声纹描述向量;
其中,所述G个用户情感反馈标签中各用户情感反馈标签对应的平台用户语音参考信息的参考指示为音频标注单元;所述结合所述第一参考语音输入记录和所述配置后的隐马尔可夫算法,确定所述G个第二活体声纹描述向量,包括:通过所述配置后的隐马尔可夫算法对所述G个用户情感反馈标签中各用户情感反馈标签对应的平台用户语音参考信息进行声纹描述向量提炼,获得G个第八活体声纹描述向量;对于所述G个第八活体声纹描述向量中的第g个第八活体声纹描述向量,结合所述第g个第八活体声纹描述向量以及G个用户情感反馈标签中第g个用户情感反馈标签对应的平台用户语音参考信息的音频标注单元,进行特征压缩,获得所述G个第二活体声纹描述向量中的第g个第二活体声纹描述向量;所述第g个第八活体声纹描述向量和所述第g个第二活体声纹描述向量皆为所述G个用户情感反馈标签中的第g个用户情感反馈标签对应的活体声纹描述向量。
10.一种系统,其特征在于,包括处理器和存储器;所述处理器和所述存储器通信连接,所述处理器用于从所述存储器中读取计算机程序并执行,以实现权利要求1-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211682062.6A CN115662440B (zh) | 2022-12-27 | 2022-12-27 | 基于机器学习的声纹特征识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211682062.6A CN115662440B (zh) | 2022-12-27 | 2022-12-27 | 基于机器学习的声纹特征识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115662440A true CN115662440A (zh) | 2023-01-31 |
CN115662440B CN115662440B (zh) | 2023-05-23 |
Family
ID=85022988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211682062.6A Active CN115662440B (zh) | 2022-12-27 | 2022-12-27 | 基于机器学习的声纹特征识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115662440B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226742A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于情感补偿的声纹识别方法 |
US20150194151A1 (en) * | 2014-01-03 | 2015-07-09 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
CN105334743A (zh) * | 2015-11-18 | 2016-02-17 | 深圳创维-Rgb电子有限公司 | 一种基于情感识别的智能家居控制方法及其系统 |
CN109256136A (zh) * | 2018-08-31 | 2019-01-22 | 三星电子(中国)研发中心 | 一种语音识别方法和装置 |
CN109473106A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 声纹样本采集方法、装置、计算机设备及存储介质 |
CN111370000A (zh) * | 2020-02-10 | 2020-07-03 | 厦门快商通科技股份有限公司 | 声纹识别算法评估方法、系统、移动终端及存储介质 |
CN113593580A (zh) * | 2021-07-27 | 2021-11-02 | 中国银行股份有限公司 | 一种声纹识别方法及装置 |
CN114512134A (zh) * | 2020-11-17 | 2022-05-17 | 阿里巴巴集团控股有限公司 | 声纹信息提取、模型训练与声纹识别的方法和装置 |
CN115240713A (zh) * | 2022-07-14 | 2022-10-25 | 中国人民解放军国防科技大学 | 基于多模态特征和对比学习的语音情感识别方法及装置 |
-
2022
- 2022-12-27 CN CN202211682062.6A patent/CN115662440B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226742A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于情感补偿的声纹识别方法 |
US20150194151A1 (en) * | 2014-01-03 | 2015-07-09 | Gracenote, Inc. | Modification of electronic system operation based on acoustic ambience classification |
CN105334743A (zh) * | 2015-11-18 | 2016-02-17 | 深圳创维-Rgb电子有限公司 | 一种基于情感识别的智能家居控制方法及其系统 |
CN109256136A (zh) * | 2018-08-31 | 2019-01-22 | 三星电子(中国)研发中心 | 一种语音识别方法和装置 |
CN109473106A (zh) * | 2018-11-12 | 2019-03-15 | 平安科技(深圳)有限公司 | 声纹样本采集方法、装置、计算机设备及存储介质 |
CN111370000A (zh) * | 2020-02-10 | 2020-07-03 | 厦门快商通科技股份有限公司 | 声纹识别算法评估方法、系统、移动终端及存储介质 |
CN114512134A (zh) * | 2020-11-17 | 2022-05-17 | 阿里巴巴集团控股有限公司 | 声纹信息提取、模型训练与声纹识别的方法和装置 |
CN113593580A (zh) * | 2021-07-27 | 2021-11-02 | 中国银行股份有限公司 | 一种声纹识别方法及装置 |
CN115240713A (zh) * | 2022-07-14 | 2022-10-25 | 中国人民解放军国防科技大学 | 基于多模态特征和对比学习的语音情感识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115662440B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110168535B (zh) | 一种信息处理方法及终端、计算机存储介质 | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN108733778B (zh) | 对象的行业类型识别方法和装置 | |
CN109299320B (zh) | 一种信息交互方法、装置、计算机设备和存储介质 | |
CN108319723A (zh) | 一种图片分享方法和装置、终端、存储介质 | |
CN109711874A (zh) | 用户画像生成方法、装置、计算机设备和存储介质 | |
CN110837586B (zh) | 问答匹配方法、系统、服务器及存储介质 | |
CN113094478B (zh) | 表情回复方法、装置、设备及存储介质 | |
CN109815481B (zh) | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 | |
CN110991149A (zh) | 一种多模态实体链接方法和实体链接系统 | |
CN112307239A (zh) | 一种图像检索方法、装置、介质和设备 | |
CN110532562B (zh) | 神经网络训练方法、成语误用检测方法、装置和电子设备 | |
US20190147104A1 (en) | Method and apparatus for constructing artificial intelligence application | |
CN112163074A (zh) | 用户意图识别方法、装置、可读存储介质及电子设备 | |
CN112364622A (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN116150367A (zh) | 一种基于方面的情感分析方法及系统 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
CN109408175B (zh) | 通用高性能深度学习计算引擎中的实时交互方法及系统 | |
CN112712005A (zh) | 识别模型的训练方法、目标识别方法及终端设备 | |
CN115662440B (zh) | 基于机器学习的声纹特征识别方法及系统 | |
CN111666408A (zh) | 重要条款筛选与展示的方法及装置 | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN115964484A (zh) | 基于多标签分类模型实现的法律多意图识别方法和装置 | |
CN113704623B (zh) | 一种数据推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |