CN117219046A

CN117219046A - 一种交互语音情感控制方法及系统

Info

Publication number: CN117219046A
Application number: CN202311383739.0A
Authority: CN
Inventors: 陈章; 庄华; 黎嘉宏; 李耀坚
Original assignee: Guangdong Guangxin Communications Services Co Ltd
Current assignee: Guangdong Guangxin Communications Services Co Ltd
Priority date: 2023-10-24
Filing date: 2023-10-24
Publication date: 2023-12-12

Abstract

本发明公开了一种交互语音情感控制方法及系统，通过对用户语音进行识别，得到用户语音的情感信息和文本信息，依据文本信息，生成初始交互语音，基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向，依据情感倾向，生成语调语音，将初始交互语音和语调语音进行合成，得到最终的交互语音，能够根据不同的情境和语境生成相应的交互语音，从而让交互语音表达出更为丰富的情感，提高用户的交互体验。

Description

一种交互语音情感控制方法及系统

技术领域

本发明涉及交互语音控制技术领域，尤其涉及一种交互语音情感控制方法及系统。

背景技术

随着科技的发展，语音交互技术广泛应用在智能机器人、智能音箱、智能车载、智能电器等多种智能语音设备中，智能语音设备可以根据用户发出的交互语音，执行相应的操作，例如回答用户交互语音中的问题，启动或停止设备等，然而，现有的交互语音无法完全模拟真实世界的自然情感表达，可能导致生成的语音有些生硬或不自然，使得用户的交互体验感大大降低。

发明内容

有鉴于此，本发明提出一种交互语音情感控制方法及系统，可以解决现有技术所存在的生成的语音有些生硬或不自然的缺陷。

本发明的技术方案是这样实现的：

一种交互语音情感控制方法，具体包括：

获取用户语音；

对用户语音进行识别，得到用户语音的情感信息和文本信息；

依据文本信息，生成初始交互语音；

基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向；

依据情感倾向，生成语调语音；

将初始交互语音和语调语音进行合成，得到最终的交互语音。

作为所述交互语音情感控制方法的进一步可选方案，所述对用户语音进行识别，得到用户语音的情感信息和文本信息，具体包括：

对用户语音进行特征提取，得到用户语音的特征矢量；

将用户语音的特征矢量输入预设的语音识别模型中，得到相似度最高的特征矢量；

将相似度最高的特征矢量进行线性变换逆变换，得到用户语音的文本信息；

对用户语音的文本信息进行关键词提取，得到用户语音的情感信息。

作为所述交互语音情感控制方法的进一步可选方案，所述基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向，具体包括：

构建情感分析模型；

基于所述情感分析模型提取情感信息的特征；

依据自然语言处理技术对情感信息的特征进行分析，得到用户的情感倾向。

作为所述交互语音情感控制方法的进一步可选方案，所述构建情感分析模型，具体包括：

获取中文情感分析数据集；

获取中文预训练模型和分词器；

依据分词器对中文情感分析数据集进行预处理，得到训练数据；

定义中文预训练模型的优化器、损失函数、评价指标；

将训练数据输入定义好的中文预训练模型中进行训练，得到情感分析模型。

作为所述交互语音情感控制方法的进一步可选方案，所述将初始交互语音和语调语音进行合成，得到最终的交互语音，具体包括：

构建vits语音合成模型；

将初始交互语音和语调语音输入所述vits语音合成模型进行合成，得到最终的交互语音。

作为所述交互语音情感控制方法的进一步可选方案，所述方法还包括：

依据语音评估指标对最终的交互语音进行评估，得到评估结果；

依据评估结果对所述vits语音合成模型进行参数调节。

一种交互语音情感控制系统，包括：

第一获取模块，用于获取用户语音；

语音识别模块，用于对用户语音进行识别，得到用户语音的情感信息和文本信息；

第一生成模块，用于依据文本信息，生成初始交互语音；

自然语言处理模块，用于基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向；

第二生成模块，用于依据情感倾向，生成语调语音；

合成模块，用于将初始交互语音和语调语音进行合成，得到最终的交互语音。

作为所述交互语音情感控制系统的进一步可选方案，所述语音识别模块包括：

特征提取模块，用于对用户语音进行特征提取，得到用户语音的特征矢量；

输入模块，用于将用户语音的特征矢量输入预设的语音识别模型中，得到相似度最高的特征矢量；

逆变换模块，用于将相似度最高的特征矢量进行线性变换逆变换，得到用户语音的文本信息；

关键词提取模块，用于对用户语音的文本信息进行关键词提取，得到用户语音的情感信息。

作为所述交互语音情感控制系统的进一步可选方案，所述自然语言处理模块包括：

第一构建模块，用于构建情感分析模型；

提取模块，用于基于所述情感分析模型提取情感信息的特征；

分析模块，用于依据自然语言处理技术对情感信息的特征进行分析，得到用户的情感倾向；

所述合成模块包括:

第二构建模块，用于构建vits语音合成模型；

执行模块，用于将初始交互语音和语调语音输入所述vits语音合成模型进行合成，得到最终的交互语音；

其中，所述第一构建模块包括：

第二获取模块，用于获取中文情感分析数据集；

第三获取模块，用于获取中文预训练模型和分词器；

预处理模块，用于依据分词器对中文情感分析数据集进行预处理，得到训练数据；

定义模块，用于定义中文预训练模型的优化器、损失函数、评价指标；

训练模块，用于将训练数据输入定义好的中文预训练模型中进行训练，得到情感分析模型。

作为所述交互语音情感控制系统的进一步可选方案，所述系统还包括参数调节模块，所述参数调节模块包括：

评估模块，用于依据语音评估指标对最终的交互语音进行评估，得到评估结果；

调节模块，用于依据评估结果对所述vits语音合成模型进行参数调节。

本发明的有益效果是：通过对用户语音进行识别，得到用户语音的情感信息和文本信息，依据文本信息，生成初始交互语音，基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向，依据情感倾向，生成语调语音，将初始交互语音和语调语音进行合成，得到最终的交互语音，能够根据不同的情境和语境生成相应的交互语音，从而让交互语音表达出更为丰富的情感，提高用户的交互体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种交互语音情感控制方法的流程示意图；

图2为本发明一种交互语音情感控制系统的组成示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参考图1-2，一种交互语音情感控制方法，具体包括：

获取用户语音；

依据文本信息，生成初始交互语音；

依据情感倾向，生成语调语音；

在本实施例中，通过对用户语音进行识别，得到用户语音的情感信息和文本信息，依据文本信息，生成初始交互语音，基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向，依据情感倾向，生成语调语音，将初始交互语音和语调语音进行合成，得到最终的交互语音，能够根据不同的情境和语境生成相应的交互语音，从而让交互语音表达出更为丰富的情感，提高用户的交互体验。

优选的，所述对用户语音进行识别，得到用户语音的情感信息和文本信息，具体包括：

对用户语音进行特征提取，得到用户语音的特征矢量；

在本实施例中，通过对输入的用户语音进行预处理和特征提取，将其转换为数字信号，然后将其与训练模型中的参考模型进行相似性度量比较，最后将相似性最高的输入特征矢量作为识别结果输出。

优选的，所述基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向，具体包括：

构建情感分析模型；

基于所述情感分析模型提取情感信息的特征；

在本实施例中，利用NLP技术对语音识别后的文本进行情感分析，可以使用词袋模型、词嵌入或深度学习模型等方法来提取文本中的特征，并对其情感倾向进行分析，可以将其分为积极、消极或中立等几个类别，或者使用更精细的分类，如高兴、悲伤、愤怒等。

优选的，所述构建情感分析模型，具体包括：

获取中文情感分析数据集；

获取中文预训练模型和分词器；

定义中文预训练模型的优化器、损失函数、评价指标；

在本实施例中，构建情感分析模型训练步骤如下：

步骤1：加载中文情感分析数据集ChnSentiCorp，ChnSentiCorp是中文句子级情感分类数据集，包含酒店、笔记本电脑和书籍的网购评论；

步骤2：加载中文预训练模型和分词器，利用AutoModel,AutoTokenizer加载预训练模型和分词器，AutoModelForSequenceClassification句子级情感分析和目标级情感分析任务，通过预训练模型获取输入文本的表示，之后将文本表示进行分类；

步骤3：基于预训练模型的数据处理，Dataset中通常为原始数据，需要经过一定的数据处理并进行采样组batch，通过Dataset的map函数，使用分词器将数据集从原始文本处理成模型的输入，根据显存大小调整批大小batch_size和文本最大长度max_seq_length；

步骤4：数据训练和评估，定义训练所需的优化器、损失函数、评价指标等，开始进行预模型微调任务。

优选的，所述将初始交互语音和语调语音进行合成，得到最终的交互语音，具体包括：

构建vits语音合成模型；

在本实施例中，在vits语音合成模型中，语音合成中的声学模型和声码器并非简单的串联关系，而是通过隐变量进行连接，并在这些隐变量上进行随机建模和利用随机时长预测器，这种方式使得该模型能够合成不同声调和韵律的语音，极大地提高了合成语音的多样性。

优选的，所述方法还包括：

依据评估结果对所述vits语音合成模型进行参数调节。

在本实施例中，在语音合成后，可以通过语音评估指标(如自然度、清晰度、可理解度等)对生成的语音进行评估，并根据用户的反馈进行相应的调整，以改进语音合成的质量。

一种交互语音情感控制系统，包括：

第一获取模块，用于获取用户语音；

第一生成模块，用于依据文本信息，生成初始交互语音；

第二生成模块，用于依据情感倾向，生成语调语音；

优选的，所述语音识别模块包括：

优选的，所述自然语言处理模块包括：

第一构建模块，用于构建情感分析模型；

所述合成模块包括:

第二构建模块，用于构建vits语音合成模型；

其中，所述第一构建模块包括：

第二获取模块，用于获取中文情感分析数据集；

第三获取模块，用于获取中文预训练模型和分词器；

优选的，所述系统还包括参数调节模块，所述参数调节模块包括：

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种交互语音情感控制方法，其特征在于，具体包括：

获取用户语音；

依据文本信息，生成初始交互语音；

依据情感倾向，生成语调语音；

2.根据权利要求1所述的一种交互语音情感控制方法，其特征在于，所述对用户语音进行识别，得到用户语音的情感信息和文本信息，具体包括：

对用户语音进行特征提取，得到用户语音的特征矢量；

3.根据权利要求2所述的一种交互语音情感控制方法，其特征在于，所述基于自然语言处理技术对所述情感信息进行分析，得到用户的情感倾向，具体包括：

构建情感分析模型；

基于所述情感分析模型提取情感信息的特征；

4.根据权利要求3所述的一种交互语音情感控制方法，其特征在于，所述构建情感分析模型，具体包括：

获取中文情感分析数据集；

获取中文预训练模型和分词器；

定义中文预训练模型的优化器、损失函数、评价指标；

5.根据权利要求4所述的一种交互语音情感控制方法，其特征在于，所述将初始交互语音和语调语音进行合成，得到最终的交互语音，具体包括：

构建vits语音合成模型；

6.根据权利要求5所述的一种交互语音情感控制方法，其特征在于，所述方法还包括：

依据评估结果对所述vits语音合成模型进行参数调节。

7.一种交互语音情感控制系统，其特征在于，包括：

第一获取模块，用于获取用户语音；

第一生成模块，用于依据文本信息，生成初始交互语音；

第二生成模块，用于依据情感倾向，生成语调语音；

8.根据权利要求7所述的一种交互语音情感控制系统，其特征在于，所述语音识别模块包括：

9.根据权利要求8所述的一种交互语音情感控制系统，其特征在于，所述自然语言处理模块包括：

第一构建模块，用于构建情感分析模型；

所述合成模块包括:

第二构建模块，用于构建vits语音合成模型；

其中，所述第一构建模块包括：

第二获取模块，用于获取中文情感分析数据集；

第三获取模块，用于获取中文预训练模型和分词器；

10.根据权利要求9所述的一种交互语音情感控制系统，其特征在于，所述系统还包括参数调节模块，所述参数调节模块包括：