CN117909486B

CN117909486B - 一种基于情感识别和大语言模型的多模式问答方法及系统

Info

Publication number: CN117909486B
Application number: CN202410316081.XA
Authority: CN
Inventors: 潘贤真; 马骎骎; 于兴亮
Original assignee: Sinotrans Innovation Technology Co ltd
Current assignee: Sinotrans Innovation Technology Co ltd
Priority date: 2024-03-20
Filing date: 2024-03-20
Publication date: 2024-05-31
Anticipated expiration: 2044-03-20
Also published as: CN117909486A

Abstract

本发明属于智能技术领域，公开了一种基于情感识别和大语言模型的多模式问答方法及系统。所述的方法包括如下步骤：获取预处理后问答对语音数据集；构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型；基于文本问答模式，进行文本情感识别；根据预测文本情感标签，进行智能答应生成；基于语音问答模式，进行语音文本和语音情感识别；根据预测语音情感标签，进行智能答应生成；进行文本语音转换。所述的系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元。本发明解决了现有技术存在的缺乏情感识别、使用体验度差、功能简单以及无法满足市场需求的问题。

Description

一种基于情感识别和大语言模型的多模式问答方法及系统

技术领域

本发明属于智能技术领域，具体涉及一种基于情感识别和大语言模型的多模式问答方法及系统。

背景技术

随着信息化社会的迅速发展，大数据时代的到来，人们接触到的信息量日益增大，而智能问答系统的需求也随之显著增长。智能问答系统可以帮助用户通过对话的方式获取他们需要的信息，极大地提高了信息检索的效率。

现有的智能问答系统中，采用大语言模型进行智能问答对话，例如ChatGPT，一个自然语言处理的人工智能模型，可以智能地分析和回答用户的问题。这个人工智能模型可以被训练来理解特定的语境，并捕捉问题背后的意图，使其能够为用户提供准确和定制的回应。ChatGPT可用于实时分析对话，并生成相关回应，使其成为客户服务、通信系统和聊天机器人的理想工具。

但是，现有技术中的智能问答系统，仅仅关注问题数据与答案数据在语法、术语等技术层面上的准确性与专业性，而忽略了对话情感的分析，输出的答案数据仅仅为专业知识堆积而成的刻板文字，导致用户的使用体验度差；并且，现有技术中的智能问答系统，往往采用单一的文本对话模式，功能简单，随着语音对话需求的发展，已经无法满足市场的需求。

发明内容

为了解决现有技术存在的缺乏情感识别、使用体验度差、功能简单以及无法满足市场需求的问题，本发明目的在于提供一种基于情感识别和大语言模型的多模式问答方法及系统。

本发明所采用的技术方案为：

一种基于情感识别和大语言模型的多模式问答方法，包括如下步骤：

采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据，并对若干问答对语音数据进行预处理，得到预处理后问答对语音数据集；

根据预处理后问答对语音数据集和对应的若干问答对文本数据，构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型；

基于文本问答模式，采集用户上传的文本问题数据，并根据文本问题数据，使用文本情感识别模型，进行文本情感识别，得到预测文本情感标签；

根据文本问题数据和对应的预测文本情感标签，使用大语言模型和问答知识图谱，进行智能答应生成，得到第一文本答案数据；

基于语音问答模式，采集用户上传的语音问题数据，并根据语音问题数据，使用语音文本识别模型，进行语音文本识别，得到语音文本数据，使用语音情感识别模型，进行语音情感识别，得到预测语音情感标签；

根据语音文本数据和对应的预测语音情感标签，使用大语言模型和问答知识图谱，进行智能答应生成，得到第二文本答案数据；

根据第二文本答案数据和对应的预测语音情感标签，进行文本语音转换，得到语音答案数据。

进一步地，对若干问答对语音数据进行预处理的具体方法为：根据预设的过完备原子库，对若干问答对语音数据进行去噪处理，得到由若干去噪后问答对语音数据构成的预处理后问答对语音数据集。

进一步地，根据预处理后问答对语音数据集和对应的若干问答对文本数据，构建语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型，包括如下步骤：

根据预处理后问答对语音数据集和对应的若干问答对文本数据，构建语音文本识别模型；

根据预处理后问答对语音数据集，构建语音情感识别模型，并得到预处理后问答对语音数据集对应的若干情感标签；

将若干情感标签添加至对应的若干问答对文本数据，得到情感标签添加后问答对文本数据集；

根据情感标签添加后问答对文本数据集，构建文本情感识别模型、大语言模型以及问答知识图谱。

进一步地，语音文本识别模型包括依次连接的人声音频提取子模型、梅尔标度滤波器组、共享编码器以及注意力解码器。

进一步地，语音情感识别模型包括依次连接的MFCC特征提取子模型、GammaTone滤波器以及语音情感预测子模型。

进一步地，文本情感识别模型包括依次连接的预训练语言子模型、语义特征提取子模型、方面级情感特征提取子模型、特征融合子模型以及分类器。

进一步地，基于文本问答模式，采集用户上传的文本问题数据，并根据文本问题数据，使用文本情感识别模型，进行文本情感识别，得到预测文本情感标签，包括如下步骤：

基于文本问答模式，采集用户上传的文本问题数据，并将文本问题数据输入文本情感识别模型；

使用预训练语言子模型，将文本问题数据转化为对应的文本问题字向量序列；

根据文本问题字向量序列，使用语义特征提取子模型，提取对应的文本问题语义特征，使用方面级情感特征提取子模型，提取对应的文本问题方面级情感特征序列；

使用特征融合子模型，将文本问题语义特征和文本问题方面级情感特征序列进行特征融合，得到文本问题融合特征序列；

根据文本问题融合特征序列，使用分类器，进行分类预测，得到预测文本情感标签。

进一步地，根据文本问题数据和对应的预测文本情感标签，使用大语言模型和问答知识图谱，进行智能答应生成，得到第一文本答案数据，包括如下步骤：

将文本问题数据进行分词、词性标注的预处理，并转换为文本问题字符序列；

将文本问题字符序列输入大语言模型，进行智能答应生成，得到第一文本答案字符序列；

使用问答知识图谱中，情感标签与预测文本情感标签相同的若干命名实体，对第一文本答案字符序列中对应的若干字符进行修正，得到修正后第一文本答案字符序列；

将修正后第一文本答案字符序列转换为第一文本答案数据；

根据语音文本数据和对应的预测语音情感标签，使用大语言模型和问答知识图谱，进行智能答应生成，得到第二文本答案数据，包括如下步骤：

将语音问题数据进行分词、词性标注的预处理，并转换为语音问题字符序列；

将语音问题字符序列输入大语言模型，进行智能答应生成，得到第二文本答案字符序列；

使用问答知识图谱中，情感标签与预测语音情感标签相同的若干命名实体，对第二文本答案字符序列中对应的若干字符进行修正，得到修正后第二文本答案字符序列；

将修正后第二文本答案字符序列转换为第二文本答案数据。

进一步地，基于语音问答模式，采集用户上传的语音问题数据，并根据语音问题数据，使用语音文本识别模型，进行语音文本识别，得到语音文本数据，使用语音情感识别模型，进行语音情感识别，得到预测语音情感标签，包括如下步骤：

基于语音问答模式，采集用户上传的语音问题数据，并使用预设的过完备原子库，对语音问题数据进行去噪处理，得到去噪后语音问题数据；

使用STFT算法，获取去噪后语音问题数据的语音问题幅度谱；

使用人声音频提取子模型，进行人声音频提取，得到语音问题人声音频掩蔽矩阵，并将语音问题人声音频掩蔽矩阵与语音问题幅度谱进行点乘处理，得到语音问题人声音频幅度谱；

使用梅尔标度滤波器组，提取语音问题人声音频幅度谱的语音问题梅尔频谱特征序列，并将语音问题梅尔频谱特征序列划分为语音问题人声音频特征序列组；

使用共享编码器，将语音问题人声音频特征序列组转化为语音问题人声音频隐向量组；

使用注意力解码器，对语音问题人声音频隐向量组转化为若干语音问题文本数据片段，并将若干语音问题文本数据片段，按照顺序进行拼接，得到对应的语音文本数据；

使用MFCC特征提取子模型，提取语音问题人声音频幅度谱的语音问题MFCC特征；

使用GammaTone滤波器，提取语音问题人声音频幅度谱的语音问题GTF特征；

根据语音问题MFCC特征和对应的语音问题GTF特征，使用语音情感预测子模型，进行语音情感预测，得到预测语音情感标签。

一种基于情感识别和大语言模型的多模式问答系统，用于实现多模式问答方法，系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元，模型构建单元分别与训练数据采集单元、文本问答单元以及语音问答单元连接，文本问答单元和语音问答单元均与用户交互单元连接，文本语音转换单元与语音问答单元连接；

训练数据采集单元，用于采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据，并对若干问答对语音数据进行预处理，得到预处理后问答对语音数据集；

模型构建单元，用于根据预处理后问答对语音数据集和对应的若干问答对文本数据，构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型；

用户交互单元，用于采集用户上传的文本问题数据和/或语音问题数据，并将文本问题数据发送至文本问答单元，将语音问题数据发送至语音问答单元；

文本问答单元，用于在文本问答模式，根据文本问题数据，使用文本情感识别模型，进行文本情感识别，得到预测文本情感标签；根据文本问题数据和对应的预测文本情感标签，使用大语言模型和问答知识图谱，进行智能答应生成，得到第一文本答案数据；

语音问答单元，用于在语音问答模式，根据语音问题数据，使用语音文本识别模型，进行语音文本识别，得到语音文本数据，使用语音情感识别模型，进行语音情感识别，得到预测语音情感标签；根据语音文本数据和对应的预测语音情感标签，使用大语言模型和问答知识图谱，进行智能答应生成，得到第二文本答案数据；

文本语音转换单元，用于根据第二文本答案数据和对应的预测语音情感标签，进行文本语音转换，得到语音答案数据。

本发明的有益效果为：

本发明提供的一种基于情感识别和大语言模型的多模式问答方法及系统，通过构建大语言模型，实现了用户与智能机器人之间的交互式问答对话；通过语音文本识别模型，实现了文本问答模式和语音问答模式的多模式、多功能问答服务，提高了功能性、实用性，满足市场对于语音对话的需求；通过语音情感识别模型和文本情感识别模型对用户的问题数据进行情感识别，并根据预测的情感标签和知识图谱，对大语言模型生成的答案数据进行情感修正，提高了用户的使用体验度，并且加强了答案数据的准确性。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于情感识别和大语言模型的多模式问答方法的流程框图。

图2是本发明中基于情感识别和大语言模型的多模式问答系统的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，本实施例提供一种基于情感识别和大语言模型的多模式问答方法，包括如下步骤：

采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据，并对若干问答对语音数据进行预处理，得到预处理后问答对语音数据集，包括如下步骤：

采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据；

根据预设的过完备原子库，对问答对语音数据进行T次迭代稀疏分解，得到T次稀疏分解后问答对语音数据；过完备原子库能够根据声压波在声道中共振函数和无噪声音频数据的数学函数，准确的分辨出问答对语音数据中存在的噪声音频数据进行去除，提高了问答对语音数据中关键音频数据的表征能力，进而提高模型的特征学习能力和预测准确度；

若T次稀疏分解后问答对语音数据与T-1次稀疏分解后问答对语音数据的比值小于预设残差阈值，或迭代次数T大于预设迭代次数阈值，则结束迭代稀疏分解，得到去噪后问答对语音数据；

遍历所有问答对语音数据，得到由若干去噪后问答对语音数据构成的预处理后问答对语音数据集；

根据预处理后问答对语音数据集和对应的若干问答对文本数据，构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型，包括如下步骤：

根据预处理后问答对语音数据集和对应的若干问答对文本数据，构建语音文本识别模型，包括如下步骤：

使用短时傅里叶变换（STFT，Short-Time Fourier Transform）算法，获取预处理后问答对语音数据集中预处理后问答对语音数据的训练幅度谱；STFT算法是一种将信号在时间和频率上进行局部分析的算法，将信号分成多个小段，并对每个小段进行傅立叶变换，从而得到该时间段内信号的频谱信息；

根据若干训练幅度谱，使用转移注意力机制（SA，Shuffle Attention）-卷积编码器解码器网络（CEDN，Convolutional Encoder Decoder Network）-a个串联的基于Unet++和 SAM 的特征提取模块（FEM，Feature Extraction Module）算法进行优化训练，得到最优的人声音频提取子模型和对应的若干训练人声音频幅度谱；

对若干训练人声音频幅度谱中的高频部分进行加权处理，并根据高频加权处理后训练人声音频幅度谱中，高频部分的峰值点和信号回落点，得到训练人声音频的起始时间点和终止时间点；

根据若干训练人声音频幅度谱，对初始的梅尔标度滤波器组进行优化训练，得到最优的梅尔标度滤波器组以及对应的若干训练梅尔频谱特征序列；

根据训练人声音频的起始时间点和终止时间点，将若干训练梅尔频谱特征序列划分为对应的若干训练人声音频特征序列组；

根据若干训练人声音频特征序列组，对初始的共享编码器进行优化训练，得到最优的共享编码器和对应的若干训练人声音频隐向量组；

根据若干训练人声音频隐向量组，对初始的注意力解码器进行优化训练，得到最优的注意力解码器和对应的若干训练文本数据片段；

连接最优的人声音频提取子模型、最优的梅尔标度滤波器组、最优的共享编码器以及最优的注意力解码器，构建语音文本识别模型；

将属于同一预处理后训练数据的若干训练文本数据片段，按照顺序进行拼接，得到对应的若干训练文本数据；

获取若干训练文本数据和对应的若干问答对文本数据之间的损失值，若损失值满足损失值要求，则输出最优的语音文本识别模型，否则继续进行语音文本识别模型的优化训练；

根据预处理后问答对语音数据集，构建语音情感识别模型，并得到预处理后问答对语音数据集对应的若干情感标签，包括如下步骤：

对预处理后问答对语音数据集对应的若干高频加权处理后训练人声音频幅度谱进行分帧和加窗，得到若干预处理后训练人声音频幅度谱；

根据若干预处理后训练人声音频幅度谱，对初始的梅尔频率倒谱系数（MelFrequency Cepstrum Coefficient，MFCC）特征提取子模型进行优化训练，得到最优的MFCC特征提取子模型和对应的若干训练MFCC特征；

根据若干预处理后训练人声音频幅度谱，对初始的GammaTone滤波器进行优化训练，得到最优的GammaTone滤波器和若干训练耳蜗频率（GTF，Cochlear frequencyFeature）特征；

根据若干训练MFCC特征和对应的若干训练GTF特征，使用CLDNN- BILSTM算法进行优化训练，得到最优的语音情感预测子模型和预处理后问答对语音数据集对应的若干情感标签；

连接MFCC特征提取子模型、最优的GammaTone滤波器以及最优的语音情感预测子模型，构建语音情感识别模型；

根据情感标签添加后问答对文本数据集，构建文本情感识别模型、大语言模型以及问答知识图谱，包括如下步骤：

根据情感标签添加后问答对文本数据集，使用来自Transformer的双向编码器表示（BERT，Bidirectional Encoder Representations from Transformers）算法进行优化训练，得到最优的预训练语言子模型和对应的若干训练字向量序列；

根据若干训练字向量序列，使用双向长短期记忆网络（BiLSTM，Bi-directionalLong Short-Term Memory）算法进行优化训练，得到最优的语义特征提取子模型和对应的若干训练语义特征序列；

根据若干训练字向量序列，使用增强的多通道图卷积网络（EMC-GCN，EnhancedMulti-Channel Graph Convolutional Network）算法进行优化训练，得到最优的方面级情感特征提取子模型和对应的训练方面级情感特征序列；EMC-GCN利用多通道图来编码单词之间的关系，使模型能够端到端提取情感三元组，并得到方面级情感特征序列；

根据若干训练语义特征序列和对应的训练方面级情感特征序列，对初始的特征融合子模型进行优化训练，得到最优的特征融合子模型和对应的若干训练融合特征序列；

根据若干训练融合特征序列，使用Elman算法进行优化训练，得到最优的分类器；

连接最优的预训练语言子模型、最优的语义特征提取子模型、最优的方面级情感特征提取子模型、最优的特征融合子模型以及最优的分类器，构建文本情感识别模型；

使用ChatGPT3.5算法，构建初始的大语言模型，并使用若干训练融合特征序列，对初始的大语言模型进行优化训练，得到最优的大语言模型；

基于ChatGPT3.5算法构建的大语言模型，可以与用户进行自然、流畅的对话，并通过深度学习算法不断优化对话质量，无论是解答常见问题还是提供个性化建议，该模型都能够在短时间内提供准确的响应，从而帮助用户更好地解决问题；

抽取情感标签添加后问答对文本数据集中情感标签添加后问答对文本数据的若干命名实体和对应的若干实体关系，并根据若干命名实体和对应的若干实体关系，构建问答知识图谱；

基于文本问答模式，采集用户上传的文本问题数据，并根据文本问题数据，使用文本情感识别模型，进行文本情感识别，得到预测文本情感标签，包括如下步骤：

根据文本问题融合特征序列，使用分类器，进行分类预测，得到预测文本情感标签；

根据文本问题数据和对应的预测文本情感标签，使用大语言模型和问答知识图谱，进行智能答应生成，得到第一文本答案数据，包括如下步骤：

将修正后第一文本答案字符序列转换为第一文本答案数据；

基于语音问答模式，采集用户上传的语音问题数据，并根据语音问题数据，使用语音文本识别模型，进行语音文本识别，得到语音文本数据，使用语音情感识别模型，进行语音情感识别，得到预测语音情感标签，包括如下步骤：

使用STFT算法，获取去噪后语音问题数据的语音问题幅度谱；

根据语音问题MFCC特征和对应的语音问题GTF特征，使用语音情感预测子模型，进行语音情感预测，得到预测语音情感标签；

将修正后第二文本答案字符序列转换为第二文本答案数据；

根据第二文本答案数据和对应的预测语音情感标签，使用开源的Berk模型，进行文本语音转换，得到语音答案数据。

实施例2：

如图2所示，本实施例提供一种基于情感识别和大语言模型的多模式问答系统，用于实现多模式问答方法，系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元，模型构建单元分别与训练数据采集单元、文本问答单元以及语音问答单元连接，文本问答单元和语音问答单元均与用户交互单元连接，文本语音转换单元与语音问答单元连接；

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于情感识别和大语言模型的多模式问答方法，其特征在于：包括如下步骤：

所述的语音文本识别模型包括依次连接的人声音频提取子模型、梅尔标度滤波器组、共享编码器以及注意力解码器；

所述的语音情感识别模型包括依次连接的MFCC特征提取子模型、GammaTone滤波器以及语音情感预测子模型；

将修正后第一文本答案字符序列转换为第一文本答案数据；

使用STFT算法，获取去噪后语音问题数据的语音问题幅度谱；

将修正后第二文本答案字符序列转换为第二文本答案数据；

2.根据权利要求1所述的一种基于情感识别和大语言模型的多模式问答方法，其特征在于：对若干问答对语音数据进行所述的预处理的具体方法为：根据预设的过完备原子库，对若干问答对语音数据进行去噪处理，得到由若干去噪后问答对语音数据构成的预处理后问答对语音数据集。

3.根据权利要求1所述的一种基于情感识别和大语言模型的多模式问答方法，其特征在于：根据预处理后问答对语音数据集和对应的若干问答对文本数据，构建语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型，包括如下步骤：

4.根据权利要求3所述的一种基于情感识别和大语言模型的多模式问答方法，其特征在于：所述的文本情感识别模型包括依次连接的预训练语言子模型、语义特征提取子模型、方面级情感特征提取子模型、特征融合子模型以及分类器。

5.根据权利要求4所述的一种基于情感识别和大语言模型的多模式问答方法，其特征在于：基于文本问答模式，采集用户上传的文本问题数据，并根据文本问题数据，使用文本情感识别模型，进行文本情感识别，得到预测文本情感标签，包括如下步骤：

6.一种基于情感识别和大语言模型的多模式问答系统，用于实现如权利要求1-5任一所述的多模式问答方法，其特征在于：所述的系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元，所述的模型构建单元分别与训练数据采集单元、文本问答单元以及语音问答单元连接，所述的文本问答单元和语音问答单元均与用户交互单元连接，所述的文本语音转换单元与语音问答单元连接；