CN117524262A

CN117524262A - 基于ai的语音情绪识别模型的训练方法

Info

Publication number: CN117524262A
Application number: CN202311761075.7A
Authority: CN
Inventors: 王沛; 谭穗; 王敏乐; 张庆
Original assignee: Guangzhou Yifeng Health Technology Co ltd
Current assignee: Guangzhou Yifeng Health Technology Co ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-02-06

Abstract

本发明提供了一种基于AI的语音情绪识别模型的训练方法，包括：获取来电用户信息，根据来电用户信息建立来电用户的来电特征；根据来电特征对预设数据库进行筛选，匹配得到基于深度学习暨神经网络的语音情绪识别模型，其中，来电特征和语音情绪识别模型一一对应；获取来电用户信息中包含的用户语音信息，输入用户语音信息至语音情绪识别模型，得到识别结果；获取当前用户语音信息对应的语音情绪标签，根据识别结果和语音情绪标签，对当前来电用户的语音情绪识别模型的模型参数进行更新，得到新的语音情绪识别模型。

Description

基于AI的语音情绪识别模型的训练方法

技术领域

本发明涉及情绪识别技术领域，尤其涉及一种基于AI的语音情绪识别模型的训练方法。

背景技术

语音是人类交流中情感的重要载体。语音识别主要关注说话者说了什么。情绪识别主要关注说话者是在什么情绪下说的。人们在不同情绪状态下的语言表达方式会有所不同，例如高兴时说话的语调会比较欢快，而烦躁伤心时语气比较沉闷。深度学习技术加速了从语音中检测情绪的进展。

现今，语音情绪识别模型广泛应用于客服领域，用于帮助AI客服判断用于情绪，进而判断是否转入人工客服或进入后续客服服务，在现有技术中，应用于AI客服层面上的语音情绪识别模型大多采用统一固定的语音情绪识别模型，导致在面对不同用户时，会因为用户语种、语言特征等问题导致统一固定的语音情绪识别模型无法做到精确的情绪识别，因此语音情绪识别的准确率不高；本发明提供一种基基于AI的语音情绪识别模型的训练方法，采用逐步获取优化模型参数的方式，对统一固定的语音情绪识别模型进行模型更新，生成不同用户的独立语音情绪识别模型，提高语音情绪识别的准确率。

发明内容

针对现有技术的不足，本发明提供一种基于AI的语音情绪识别模型的训练方法，用于解决上述问题。

一种基于AI的语音情绪识别模型的训练方法，包括：获取来电用户信息，根据来电用户信息建立来电用户的来电特征；

根据来电特征对预设数据库进行筛选，匹配得到基于深度学习暨神经网络的语音情绪识别模型，其中，来电特征和语音情绪识别模型一一对应；

获取来电用户信息中包含的用户语音信息，输入用户语音信息至语音情绪识别模型，得到识别结果；

获取当前用户语音信息对应的语音情绪标签，根据识别结果和语音情绪标签，对当前来电用户的语音情绪识别模型的模型参数进行更新，得到新的语音情绪识别模型。

作为本发明的一种实施例，获取新的语音情绪识别模型，替换预设数据库中与当前来电用户对应的语音情绪识别模型。

作为本发明的一种实施例，来电用户信息包括来电归属地信息、来电号码信息以及来电人员的用户语音信息。

作为本发明的一种实施例，获取来电用户信息，根据来电用户信息建立来电用户的来电特征，包括：

获取来电用户信息，记录来电归属地信息和来电号码信息，确定来电用户的来电归属地特征和来电号码特征；

提取用户语音信息中的用户语音特征，构建来电人员信息特征，其中，来电人员信息特征包括性别特征和年龄范围特征。

作为本发明的一种实施例，根据来电特征对预设数据库进行筛选，匹配得到基于深度学习暨神经网络的语音情绪识别模型，包括：

获取来电归属地特征，根据来电归属地特征对预设数据库中的所有语音情绪识别模型进行第一次验证，得到第一验证结果；

获取来电号码特征，根据来电号码特征对符合第一验证结果的所有语音情绪识别模型进行第二次验证，得到目标语音情绪识别模型；

获取来电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果；其中，第三验证结果用于表征来电用户与目标语音情绪识别模型是否匹配。

作为本发明的一种实施例，一种基于AI的语音情绪识别模型的训练方法还包括：若第三验证结果为来电用户与目标语音情绪识别模型不匹配，生成临时语音情绪识别模型用于当前来电用户的情绪识别；其中，当前来电用户的识别结果不参与目标语音情绪识别模型的模型参数更新。

作为本发明的一种实施例，预设数据库中包括若干地区分类数据库，每一地区分类数据库中存储有若干带有同一来电归属地特征标记的语音情绪识别模型。

作为本发明的一种实施例，获取来电号码特征，根据来电号码特征对符合第一验证结果的所有语音情绪识别模型进行第二次验证，得到目标语音情绪识别模型，包括：

获取符合第一验证结果的地区分类数据库，根据来电号码特征对地区分类数据库进行筛选，得到目标语音情绪识别模型；其中，目标语音情绪识别模型为地区分类数据库中带有同一来电号码特征标记的语音情绪识别模型。

作为本发明的一种实施例，获取来电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果，包括：

获取目标语音情绪识别模型携带的目标用户人员信息特征和电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果；其中，第三次验证为比较目标用户人员信息特征与来电人员信息特征的特征相似度；

若第三次验证结果为特征相似度大于预设特征相似度，判定来电用户与目标语音情绪识别模型匹配，对本次来电用户与目标语音情绪识别模型进行关联；

若第三次验证结果为特征相似度不大于预设特征相似度，判定来电用户与目标语音情绪识别模型不匹配，对本次来电用户与预设初始语音情绪识别模型进行关联。

作为本发明的一种实施例，获取来电用户信息中包含的用户语音信息，输入用户语音信息至语音情绪识别模型，得到识别结果，包括：

基于梅尔频率倒谱系数，对用户语音信息进行声纹特征提取，得到语音特征；

基于预先训练好的语种识别模型，以用户语音信息为输入，输出得到用户语音信息对应的语种信息，根据语种信息确定第一语言特征；

基于第一语言特征，获取相应的语种文本识别模型对用户语音信息进行文本识别，得到文本信息；提取文本信息中带有情感语义的词语信息，确定第二语言特征；

输入语音特征、第一语言特征和第二语言特征至语音情绪识别模型，得到识别结果。

本发明的有益效果为：

本发明提供一种基基于AI的语音情绪识别模型的训练方法，采用逐步获取优化模型参数的方式，对统一固定的语音情绪识别模型进行模型更新，生成不同用户的独立语音情绪识别模型，提高语音情绪识别的准确率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于AI的语音情绪识别模型的训练方法的方法流程图；

图2为本发明实施例中一种基于AI的语音情绪识别模型的训练方法中语音情绪识别模型的确定流程图；

图3为本发明实施例中一种基于AI的语音情绪识别模型的训练方法中识别结果的确定流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

请参阅图1，一种基于AI的语音情绪识别模型的训练方法，包括：

S101、获取来电用户信息，根据来电用户信息建立来电用户的来电特征；

S102、根据来电特征对预设数据库进行筛选，匹配得到基于深度学习暨神经网络的语音情绪识别模型，其中，来电特征和语音情绪识别模型一一对应；

S103、获取来电用户信息中包含的用户语音信息，输入用户语音信息至语音情绪识别模型，得到识别结果；

S104、获取当前用户语音信息对应的语音情绪标签，根据识别结果和语音情绪标签，对当前来电用户的语音情绪识别模型的模型参数进行更新，得到新的语音情绪识别模型；

上述技术方案的工作原理为：本申请提供一种基于AI的语音情绪识别模型的训练方法，优选应用于客服通话场景；获取来电用户信息，根据来电用户信息建立来电用户的来电特征；根据来电特征对预设数据库进行筛选，匹配得到基于深度学习暨神经网络的语音情绪识别模型，其中，来电特征和语音情绪识别模型一一对应；获取来电用户信息中包含的用户语音信息，输入用户语音信息至语音情绪识别模型，得到识别结果；获取当前用户语音信息对应的语音情绪标签，根据识别结果和语音情绪标签，对当前来电用户的语音情绪识别模型的模型参数进行更新，得到新的语音情绪识别模型，直至连续预设次数识别结果和语音情绪标签均满足预设条件后，停止模型训练，以最后一次训练模型作为该用户的语音情绪识别模型；其中，预设条件优选为第一识别结果和语音情绪标签对比正确率高于95％；

上述技术方案的有益效果为：通过上述技术方案，采用逐步获取优化模型参数的方式，对统一固定的语音情绪识别模型进行模型更新，生成不同用户的独立语音情绪识别模型，提高语音情绪识别的准确率。

在一个实施例中，一种基于AI的语音情绪识别模型的训练方法还包括：获取新的语音情绪识别模型，替换预设数据库中与当前来电用户对应的语音情绪识别模型；

上述技术方案的工作原理和有益效果为：在获取到新的语音情绪识别模型后，替换掉原有预设数据库中的与当前来电用户对应的旧语音情绪识别模型，实时更新的方式有益于提高语音情绪识别模型的识别精确度。

在一个实施例中，来电用户信息包括来电归属地信息、来电号码信息以及来电人员的用户语音信息；

上述技术方案的工作原理和有益效果为：来电用户信息包括但不限于来电归属地信息、来电号码信息以及来电人员的用户语音信息等，用户语音信息中包括有用户性别信息、声线信息等特征信息；通过上述技术方案，有益于防止来电用户和号码信息不一致时，来电用户的语音样本信息破坏号码信息对应的用户语音情绪识别模型的构建，进而保持语音情绪识别模型的一致性。

在一个实施例中，获取来电用户信息，根据来电用户信息建立来电用户的来电特征，包括：

提取用户语音信息中的用户语音特征，构建来电人员信息特征，其中，来电人员信息特征包括性别特征和年龄范围特征；

上述技术方案的工作原理和有益效果为：获取来电用户信息，记录来电归属地信息和来电号码信息，确定来电用户的来电归属地特征和来电号码特征，来电归属地特征优选根据省级分类，面向世界范围时也可根据国级分类，当然的，面向小范围时亦可根据市、区、镇分类；提取用户语音信息中的用户语音特征，构建来电人员信息特征，其中，来电人员信息特征包括性别特征和年龄范围特征，更进一步的，还包括声线等特征信息；通过上述技术方案，确保语音样本信息的可靠度，为后续语音识别模型的更新提供可靠的数据支撑。

请参阅图2，在一个实施例中，根据来电特征对预设数据库进行筛选，匹配得到基于深度学习暨神经网络的语音情绪识别模型，包括：

S201、获取来电归属地特征，根据来电归属地特征对预设数据库中的所有语音情绪识别模型进行第一次验证，得到第一验证结果；

S202、获取来电号码特征，根据来电号码特征对符合第一验证结果的所有语音情绪识别模型进行第二次验证，得到目标语音情绪识别模型；

S203、获取来电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果；其中，第三验证结果用于表征来电用户与目标语音情绪识别模型是否匹配；

上述技术方案的工作原理和有益效果为：获取来电归属地特征，根据来电归属地特征对预设数据库中的所有语音情绪识别模型进行第一次验证，得到第一验证结果，优选将归属地特征与预设数据库中的所有语音情绪识别模型携带的归属地标记进行匹配，若匹配成功，则提取匹配成功的若干语音情绪识别模型，作为符合第一验证结果的语音情绪识别模型；获取来电号码特征，根据来电号码特征对符合第一验证结果的所有语音情绪识别模型进行第二次验证，得到目标语音情绪识别模型，优选将来电号码特征与符合第一验证结果的语音情绪识别模型进行匹配，若匹配成功，得到唯一一个目标语音情绪识别模型，若匹配失败，则根据该来电人员信息特征重新构建新的语音情绪识别模型；获取来电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果；其中，第三验证结果用于表征来电用户与目标语音情绪识别模型是否匹配，防止来电号码目标人员的亲属等人员通过该来电号码进行沟通时干扰到原来电号码目标人员的独立语音情绪识别模型，提高了同一人员对应的语音情绪识别模型的独立性；通过上述技术方案，确保语音样本信息的可靠度，为后续语音识别模型的更新提供可靠的数据支撑。

在一个实施例中，一种基于AI的语音情绪识别模型的训练方法，还包括：若第三验证结果为来电用户与目标语音情绪识别模型不匹配，生成临时语音情绪识别模型用于当前来电用户的情绪识别；其中，当前来电用户的识别结果不参与目标语音情绪识别模型的模型参数更新；

上述技术方案的工作原理和有益效果为：当第三验证结果为来电用户与目标语音情绪识别模型不匹配时，则判定为当前来电人员与目标用户不一致，快速生成临时语音情绪识别模型用于当前来电用户的情绪识别；更进一步的，可以通过预先构建的亲属知识图谱对当前来电用户进行匹配，判断当前来电人员是否在系统中存在相应的来电人员信息特征，若匹配成功，提取匹配成功的人员对应的语音情绪识别模型作为当前来电人员的语音情绪识别模型，并在语音结束后更新其对应的旧语音情绪识别模型；其中，当前来电用户的识别结果不参与目标语音情绪识别模型的模型参数更新，通过上述技术方案，防止第三人语音破坏用户语音情绪识别模型的构建，提高语音情绪识别模型的一致性；

值得说明的是，亲属知识图谱的构建方法可以调用对每一用户的亲属关系调查问卷中获取，调查问卷中的信息包括有亲属名字、所属关系以及电话号码等；

当确定当前来电用户非本人时，调取其对应的亲属知识图谱用于对当前用户进行特征匹配；

另外的，若特征匹配失败，调取亲属知识图谱中预设数量的亲属电话，编辑当前情况的信息至亲属电话；编辑的信息包括但不限于当前来电用户的手机可能存在异常等数据。

在一个实施例中，预设数据库中包括若干地区分类数据库，每一地区分类数据库中存储有若干带有同一来电归属地特征标记的语音情绪识别模型；

上述技术方案的工作原理和有益效果为：预设数据库中包括若干地区分类数据库，每一地区分类数据库中存储有若干带有同一来电归属地特征标记的语音情绪识别模型，该地区可以根据实际情况进行判定，包括省级、市级以及区级等；通过上述技术方案，分类筛选对应的语音情绪识别模型，相较于直接通过号码信息筛选，降低筛选复杂度，提高筛选速度。

在一个实施例中，获取来电号码特征，根据来电号码特征对符合第一验证结果的所有语音情绪识别模型进行第二次验证，得到目标语音情绪识别模型，包括：

获取符合第一验证结果的地区分类数据库，根据来电号码特征对地区分类数据库进行筛选，得到目标语音情绪识别模型；其中，目标语音情绪识别模型为地区分类数据库中带有同一来电号码特征标记的语音情绪识别模型；

上述技术方案的工作原理和有益效果为：获取符合第一验证结果的地区分类数据库，根据来电号码特征对地区分类数据库进行筛选，得到目标语音情绪识别模型；其中，目标语音情绪识别模型为地区分类数据库中带有同一来电号码特征标记的语音情绪识别模型，通过上述技术方案，分类筛选对应的语音情绪识别模型，相较于直接通过号码信息筛选，降低筛选复杂度，提高筛选速度。

在一个实施例中，获取来电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果，包括：

若第三次验证结果为特征相似度不大于预设特征相似度，判定来电用户与目标语音情绪识别模型不匹配，对本次来电用户与预设初始语音情绪识别模型进行关联；

上述技术方案的工作原理和有益效果为：获取目标语音情绪识别模型携带的目标用户人员信息特征和电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果；其中，第三次验证为比较目标用户人员信息特征与来电人员信息特征的特征相似度；若第三次验证结果为特征相似度大于预设特征相似度，判定来电用户与目标语音情绪识别模型匹配，对本次来电用户与目标语音情绪识别模型进行关联；若第三次验证结果为特征相似度不大于预设特征相似度，判定来电用户与目标语音情绪识别模型不匹配，对本次来电用户与预设初始语音情绪识别模型进行关联，通过上述技术方案，分类筛选对应的语音情绪识别模型，相较于直接通过号码信息筛选，降低筛选复杂度，提高筛选速度，同时防止第三人语音破坏用户语音情绪识别模型的构建，提高语音情绪识别模型的一致性。

请参阅图3，在一个实施例中，获取来电用户信息中包含的用户语音信息，输入用户语音信息至语音情绪识别模型，得到识别结果，包括：

S301、基于梅尔频率倒谱系数，对用户语音信息进行声纹特征提取，得到语音特征；

S302、基于预先训练好的语种识别模型，以用户语音信息为输入，输出得到用户语音信息对应的语种信息，根据语种信息确定第一语言特征；

S303、基于第一语言特征，获取相应的语种文本识别模型对用户语音信息进行文本识别，得到文本信息；提取文本信息中带有情感语义的词语信息，确定第二语言特征；

S304、输入语音特征、第一语言特征和第二语言特征至语音情绪识别模型，得到识别结果；

上述技术方案的工作原理和有益效果为：基于梅尔频率倒谱系数，对用户语音信息进行声纹特征提取，得到语音特征；其中，基于梅尔频率倒谱系数，提取用户语音样本信息中的声纹特征，得到语音特征，值得说明的是，还可以提取用户的语速等特征构建语音特征，有益于提高参与模型训练的数据的广度，进而提高语音情绪识别模型的识别精确度；基于预先训练好的语种识别模型，以用户语音信息为输入，输出得到用户语音信息对应的语种信息，根据语种信息确定第一语言特征；基于第一语言特征，获取相应的语种文本识别模型对用户语音信息进行文本识别，得到文本信息；提取文本信息中带有情感语义的词语信息，确定第二语言特征；其中，通过获取第一语言特征，确定用户所处地区的文化特征，其中，语种信息包括跨国语种与国内的方言语种；由于每个人的文化程度和语言习惯不同，导致采用统一的情绪文本对每个人进行情绪识别的精确度不高，例如，一个经常“出口成脏”的人和另一个经常出口成章的人说出脏话时的心情是不一样的，前者存在口头禅的可能性较大，后者则是愤怒的可能性较大，通过获取第二语言特征，确定用户的语言习惯，通过上述语言特征，有益于提高不同用户情绪识别模型的识别精确度；输入语音特征、第一语言特征和第二语言特征至语音情绪识别模型，得到识别结果。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于AI的语音情绪识别模型的训练方法，其特征在于，包括：

获取来电用户信息，根据来电用户信息建立来电用户的来电特征；

2.根据权利要求1所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，还包括：获取新的语音情绪识别模型，替换预设数据库中与当前来电用户对应的语音情绪识别模型。

3.根据权利要求1所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，来电用户信息包括来电归属地信息、来电号码信息以及来电人员的用户语音信息。

4.根据权利要求1所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，获取来电用户信息，根据来电用户信息建立来电用户的来电特征，包括：

5.根据权利要求1所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，根据来电特征对预设数据库进行筛选，匹配得到基于深度学习暨神经网络的语音情绪识别模型，包括：

6.根据权利要求5所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，还包括：若第三验证结果为来电用户与目标语音情绪识别模型不匹配，生成临时语音情绪识别模型用于当前来电用户的情绪识别；其中，当前来电用户的识别结果不参与目标语音情绪识别模型的模型参数更新。

7.根据权利要求5所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，预设数据库中包括若干地区分类数据库，每一地区分类数据库中存储有若干带有同一来电归属地特征标记的语音情绪识别模型。

8.根据权利要求5所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，获取来电号码特征，根据来电号码特征对符合第一验证结果的所有语音情绪识别模型进行第二次验证，得到目标语音情绪识别模型，包括：

9.根据权利要求5所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，获取来电人员信息特征，根据来电人员信息特征对目标语音情绪识别模型进行第三次验证，得到第三验证结果，包括：

10.根据权利要求1所述的一种基于AI的语音情绪识别模型的训练方法，其特征在于，获取来电用户信息中包含的用户语音信息，输入用户语音信息至语音情绪识别模型，得到识别结果，包括：