CN117909486B - 一种基于情感识别和大语言模型的多模式问答方法及系统 - Google Patents
一种基于情感识别和大语言模型的多模式问答方法及系统 Download PDFInfo
- Publication number
- CN117909486B CN117909486B CN202410316081.XA CN202410316081A CN117909486B CN 117909486 B CN117909486 B CN 117909486B CN 202410316081 A CN202410316081 A CN 202410316081A CN 117909486 B CN117909486 B CN 117909486B
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- question
- data
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000008451 emotion Effects 0.000 claims abstract description 107
- 238000012549 training Methods 0.000 claims abstract description 65
- 238000006243 chemical reaction Methods 0.000 claims abstract description 17
- 238000010276 construction Methods 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 37
- 238000000605 extraction Methods 0.000 claims description 31
- 230000004927 fusion Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 14
- 239000012634 fragment Substances 0.000 claims description 8
- 230000000873 masking effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 210000003477 cochlea Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于智能技术领域,公开了一种基于情感识别和大语言模型的多模式问答方法及系统。所述的方法包括如下步骤:获取预处理后问答对语音数据集;构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型;基于文本问答模式,进行文本情感识别;根据预测文本情感标签,进行智能答应生成;基于语音问答模式,进行语音文本和语音情感识别;根据预测语音情感标签,进行智能答应生成;进行文本语音转换。所述的系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元。本发明解决了现有技术存在的缺乏情感识别、使用体验度差、功能简单以及无法满足市场需求的问题。
Description
技术领域
本发明属于智能技术领域,具体涉及一种基于情感识别和大语言模型的多模式问答方法及系统。
背景技术
随着信息化社会的迅速发展,大数据时代的到来,人们接触到的信息量日益增大,而智能问答系统的需求也随之显著增长。智能问答系统可以帮助用户通过对话的方式获取他们需要的信息,极大地提高了信息检索的效率。
现有的智能问答系统中,采用大语言模型进行智能问答对话,例如ChatGPT,一个自然语言处理的人工智能模型,可以智能地分析和回答用户的问题。这个人工智能模型可以被训练来理解特定的语境,并捕捉问题背后的意图,使其能够为用户提供准确和定制的回应。ChatGPT可用于实时分析对话,并生成相关回应,使其成为客户服务、通信系统和聊天机器人的理想工具。
但是,现有技术中的智能问答系统,仅仅关注问题数据与答案数据在语法、术语等技术层面上的准确性与专业性,而忽略了对话情感的分析,输出的答案数据仅仅为专业知识堆积而成的刻板文字,导致用户的使用体验度差;并且,现有技术中的智能问答系统,往往采用单一的文本对话模式,功能简单,随着语音对话需求的发展,已经无法满足市场的需求。
发明内容
为了解决现有技术存在的缺乏情感识别、使用体验度差、功能简单以及无法满足市场需求的问题,本发明目的在于提供一种基于情感识别和大语言模型的多模式问答方法及系统。
本发明所采用的技术方案为:
一种基于情感识别和大语言模型的多模式问答方法,包括如下步骤:
采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据,并对若干问答对语音数据进行预处理,得到预处理后问答对语音数据集;
根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型;
基于文本问答模式,采集用户上传的文本问题数据,并根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签;
根据文本问题数据和对应的预测文本情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第一文本答案数据;
基于语音问答模式,采集用户上传的语音问题数据,并根据语音问题数据,使用语音文本识别模型,进行语音文本识别,得到语音文本数据,使用语音情感识别模型,进行语音情感识别,得到预测语音情感标签;
根据语音文本数据和对应的预测语音情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第二文本答案数据;
根据第二文本答案数据和对应的预测语音情感标签,进行文本语音转换,得到语音答案数据。
进一步地,对若干问答对语音数据进行预处理的具体方法为:根据预设的过完备原子库,对若干问答对语音数据进行去噪处理,得到由若干去噪后问答对语音数据构成的预处理后问答对语音数据集。
进一步地,根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型,包括如下步骤:
根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建语音文本识别模型;
根据预处理后问答对语音数据集,构建语音情感识别模型,并得到预处理后问答对语音数据集对应的若干情感标签;
将若干情感标签添加至对应的若干问答对文本数据,得到情感标签添加后问答对文本数据集;
根据情感标签添加后问答对文本数据集,构建文本情感识别模型、大语言模型以及问答知识图谱。
进一步地,语音文本识别模型包括依次连接的人声音频提取子模型、梅尔标度滤波器组、共享编码器以及注意力解码器。
进一步地,语音情感识别模型包括依次连接的MFCC特征提取子模型、GammaTone滤波器以及语音情感预测子模型。
进一步地,文本情感识别模型包括依次连接的预训练语言子模型、语义特征提取子模型、方面级情感特征提取子模型、特征融合子模型以及分类器。
进一步地,基于文本问答模式,采集用户上传的文本问题数据,并根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签,包括如下步骤:
基于文本问答模式,采集用户上传的文本问题数据,并将文本问题数据输入文本情感识别模型;
使用预训练语言子模型,将文本问题数据转化为对应的文本问题字向量序列;
根据文本问题字向量序列,使用语义特征提取子模型,提取对应的文本问题语义特征,使用方面级情感特征提取子模型,提取对应的文本问题方面级情感特征序列;
使用特征融合子模型,将文本问题语义特征和文本问题方面级情感特征序列进行特征融合,得到文本问题融合特征序列;
根据文本问题融合特征序列,使用分类器,进行分类预测,得到预测文本情感标签。
进一步地,根据文本问题数据和对应的预测文本情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第一文本答案数据,包括如下步骤:
将文本问题数据进行分词、词性标注的预处理,并转换为文本问题字符序列;
将文本问题字符序列输入大语言模型,进行智能答应生成,得到第一文本答案字符序列;
使用问答知识图谱中,情感标签与预测文本情感标签相同的若干命名实体,对第一文本答案字符序列中对应的若干字符进行修正,得到修正后第一文本答案字符序列;
将修正后第一文本答案字符序列转换为第一文本答案数据;
根据语音文本数据和对应的预测语音情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第二文本答案数据,包括如下步骤:
将语音问题数据进行分词、词性标注的预处理,并转换为语音问题字符序列;
将语音问题字符序列输入大语言模型,进行智能答应生成,得到第二文本答案字符序列;
使用问答知识图谱中,情感标签与预测语音情感标签相同的若干命名实体,对第二文本答案字符序列中对应的若干字符进行修正,得到修正后第二文本答案字符序列;
将修正后第二文本答案字符序列转换为第二文本答案数据。
进一步地,基于语音问答模式,采集用户上传的语音问题数据,并根据语音问题数据,使用语音文本识别模型,进行语音文本识别,得到语音文本数据,使用语音情感识别模型,进行语音情感识别,得到预测语音情感标签,包括如下步骤:
基于语音问答模式,采集用户上传的语音问题数据,并使用预设的过完备原子库,对语音问题数据进行去噪处理,得到去噪后语音问题数据;
使用STFT算法,获取去噪后语音问题数据的语音问题幅度谱;
使用人声音频提取子模型,进行人声音频提取,得到语音问题人声音频掩蔽矩阵,并将语音问题人声音频掩蔽矩阵与语音问题幅度谱进行点乘处理,得到语音问题人声音频幅度谱;
使用梅尔标度滤波器组,提取语音问题人声音频幅度谱的语音问题梅尔频谱特征序列,并将语音问题梅尔频谱特征序列划分为语音问题人声音频特征序列组;
使用共享编码器,将语音问题人声音频特征序列组转化为语音问题人声音频隐向量组;
使用注意力解码器,对语音问题人声音频隐向量组转化为若干语音问题文本数据片段,并将若干语音问题文本数据片段,按照顺序进行拼接,得到对应的语音文本数据;
使用MFCC特征提取子模型,提取语音问题人声音频幅度谱的语音问题MFCC特征;
使用GammaTone滤波器,提取语音问题人声音频幅度谱的语音问题GTF特征;
根据语音问题MFCC特征和对应的语音问题GTF特征,使用语音情感预测子模型,进行语音情感预测,得到预测语音情感标签。
一种基于情感识别和大语言模型的多模式问答系统,用于实现多模式问答方法,系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元,模型构建单元分别与训练数据采集单元、文本问答单元以及语音问答单元连接,文本问答单元和语音问答单元均与用户交互单元连接,文本语音转换单元与语音问答单元连接;
训练数据采集单元,用于采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据,并对若干问答对语音数据进行预处理,得到预处理后问答对语音数据集;
模型构建单元,用于根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型;
用户交互单元,用于采集用户上传的文本问题数据和/或语音问题数据,并将文本问题数据发送至文本问答单元,将语音问题数据发送至语音问答单元;
文本问答单元,用于在文本问答模式,根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签;根据文本问题数据和对应的预测文本情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第一文本答案数据;
语音问答单元,用于在语音问答模式,根据语音问题数据,使用语音文本识别模型,进行语音文本识别,得到语音文本数据,使用语音情感识别模型,进行语音情感识别,得到预测语音情感标签;根据语音文本数据和对应的预测语音情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第二文本答案数据;
文本语音转换单元,用于根据第二文本答案数据和对应的预测语音情感标签,进行文本语音转换,得到语音答案数据。
本发明的有益效果为:
本发明提供的一种基于情感识别和大语言模型的多模式问答方法及系统,通过构建大语言模型,实现了用户与智能机器人之间的交互式问答对话;通过语音文本识别模型,实现了文本问答模式和语音问答模式的多模式、多功能问答服务,提高了功能性、实用性,满足市场对于语音对话的需求;通过语音情感识别模型和文本情感识别模型对用户的问题数据进行情感识别,并根据预测的情感标签和知识图谱,对大语言模型生成的答案数据进行情感修正,提高了用户的使用体验度,并且加强了答案数据的准确性。
本发明的其他有益效果将在具体实施方式中进一步进行说明。
附图说明
图1是本发明中基于情感识别和大语言模型的多模式问答方法的流程框图。
图2是本发明中基于情感识别和大语言模型的多模式问答系统的结构框图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步阐释。
实施例1:
如图1所示,本实施例提供一种基于情感识别和大语言模型的多模式问答方法,包括如下步骤:
采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据,并对若干问答对语音数据进行预处理,得到预处理后问答对语音数据集,包括如下步骤:
采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据;
根据预设的过完备原子库,对问答对语音数据进行T次迭代稀疏分解,得到T次稀疏分解后问答对语音数据;过完备原子库能够根据声压波在声道中共振函数和无噪声音频数据的数学函数,准确的分辨出问答对语音数据中存在的噪声音频数据进行去除,提高了问答对语音数据中关键音频数据的表征能力,进而提高模型的特征学习能力和预测准确度;
若T次稀疏分解后问答对语音数据与T-1次稀疏分解后问答对语音数据的比值小于预设残差阈值,或迭代次数T大于预设迭代次数阈值,则结束迭代稀疏分解,得到去噪后问答对语音数据;
遍历所有问答对语音数据,得到由若干去噪后问答对语音数据构成的预处理后问答对语音数据集;
根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型,包括如下步骤:
根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建语音文本识别模型,包括如下步骤:
使用短时傅里叶变换(STFT,Short-Time Fourier Transform)算法,获取预处理后问答对语音数据集中预处理后问答对语音数据的训练幅度谱;STFT算法是一种将信号在时间和频率上进行局部分析的算法,将信号分成多个小段,并对每个小段进行傅立叶变换,从而得到该时间段内信号的频谱信息;
根据若干训练幅度谱,使用转移注意力机制(SA,Shuffle Attention)-卷积编码器解码器网络(CEDN,Convolutional Encoder Decoder Network)-a个串联的基于Unet++和 SAM 的特征提取模块(FEM,Feature Extraction Module)算法进行优化训练,得到最优的人声音频提取子模型和对应的若干训练人声音频幅度谱;
对若干训练人声音频幅度谱中的高频部分进行加权处理,并根据高频加权处理后训练人声音频幅度谱中,高频部分的峰值点和信号回落点,得到训练人声音频的起始时间点和终止时间点;
根据若干训练人声音频幅度谱,对初始的梅尔标度滤波器组进行优化训练,得到最优的梅尔标度滤波器组以及对应的若干训练梅尔频谱特征序列;
根据训练人声音频的起始时间点和终止时间点,将若干训练梅尔频谱特征序列划分为对应的若干训练人声音频特征序列组;
根据若干训练人声音频特征序列组,对初始的共享编码器进行优化训练,得到最优的共享编码器和对应的若干训练人声音频隐向量组;
根据若干训练人声音频隐向量组,对初始的注意力解码器进行优化训练,得到最优的注意力解码器和对应的若干训练文本数据片段;
连接最优的人声音频提取子模型、最优的梅尔标度滤波器组、最优的共享编码器以及最优的注意力解码器,构建语音文本识别模型;
将属于同一预处理后训练数据的若干训练文本数据片段,按照顺序进行拼接,得到对应的若干训练文本数据;
获取若干训练文本数据和对应的若干问答对文本数据之间的损失值,若损失值满足损失值要求,则输出最优的语音文本识别模型,否则继续进行语音文本识别模型的优化训练;
根据预处理后问答对语音数据集,构建语音情感识别模型,并得到预处理后问答对语音数据集对应的若干情感标签,包括如下步骤:
对预处理后问答对语音数据集对应的若干高频加权处理后训练人声音频幅度谱进行分帧和加窗,得到若干预处理后训练人声音频幅度谱;
根据若干预处理后训练人声音频幅度谱,对初始的梅尔频率倒谱系数(MelFrequency Cepstrum Coefficient,MFCC)特征提取子模型进行优化训练,得到最优的MFCC特征提取子模型和对应的若干训练MFCC特征;
根据若干预处理后训练人声音频幅度谱,对初始的GammaTone滤波器进行优化训练,得到最优的GammaTone滤波器和若干训练耳蜗频率(GTF,Cochlear frequencyFeature)特征;
根据若干训练MFCC特征和对应的若干训练GTF特征,使用CLDNN- BILSTM算法进行优化训练,得到最优的语音情感预测子模型和预处理后问答对语音数据集对应的若干情感标签;
连接MFCC特征提取子模型、最优的GammaTone滤波器以及最优的语音情感预测子模型,构建语音情感识别模型;
将若干情感标签添加至对应的若干问答对文本数据,得到情感标签添加后问答对文本数据集;
根据情感标签添加后问答对文本数据集,构建文本情感识别模型、大语言模型以及问答知识图谱,包括如下步骤:
根据情感标签添加后问答对文本数据集,使用来自Transformer的双向编码器表示(BERT,Bidirectional Encoder Representations from Transformers)算法进行优化训练,得到最优的预训练语言子模型和对应的若干训练字向量序列;
根据若干训练字向量序列,使用双向长短期记忆网络(BiLSTM,Bi-directionalLong Short-Term Memory)算法进行优化训练,得到最优的语义特征提取子模型和对应的若干训练语义特征序列;
根据若干训练字向量序列,使用增强的多通道图卷积网络(EMC-GCN,EnhancedMulti-Channel Graph Convolutional Network)算法进行优化训练,得到最优的方面级情感特征提取子模型和对应的训练方面级情感特征序列;EMC-GCN利用多通道图来编码单词之间的关系,使模型能够端到端提取情感三元组,并得到方面级情感特征序列;
根据若干训练语义特征序列和对应的训练方面级情感特征序列,对初始的特征融合子模型进行优化训练,得到最优的特征融合子模型和对应的若干训练融合特征序列;
根据若干训练融合特征序列,使用Elman算法进行优化训练,得到最优的分类器;
连接最优的预训练语言子模型、最优的语义特征提取子模型、最优的方面级情感特征提取子模型、最优的特征融合子模型以及最优的分类器,构建文本情感识别模型;
使用ChatGPT3.5算法,构建初始的大语言模型,并使用若干训练融合特征序列,对初始的大语言模型进行优化训练,得到最优的大语言模型;
基于ChatGPT3.5算法构建的大语言模型,可以与用户进行自然、流畅的对话,并通过深度学习算法不断优化对话质量,无论是解答常见问题还是提供个性化建议,该模型都能够在短时间内提供准确的响应,从而帮助用户更好地解决问题;
抽取情感标签添加后问答对文本数据集中情感标签添加后问答对文本数据的若干命名实体和对应的若干实体关系,并根据若干命名实体和对应的若干实体关系,构建问答知识图谱;
基于文本问答模式,采集用户上传的文本问题数据,并根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签,包括如下步骤:
基于文本问答模式,采集用户上传的文本问题数据,并将文本问题数据输入文本情感识别模型;
使用预训练语言子模型,将文本问题数据转化为对应的文本问题字向量序列;
根据文本问题字向量序列,使用语义特征提取子模型,提取对应的文本问题语义特征,使用方面级情感特征提取子模型,提取对应的文本问题方面级情感特征序列;
使用特征融合子模型,将文本问题语义特征和文本问题方面级情感特征序列进行特征融合,得到文本问题融合特征序列;
根据文本问题融合特征序列,使用分类器,进行分类预测,得到预测文本情感标签;
根据文本问题数据和对应的预测文本情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第一文本答案数据,包括如下步骤:
将文本问题数据进行分词、词性标注的预处理,并转换为文本问题字符序列;
将文本问题字符序列输入大语言模型,进行智能答应生成,得到第一文本答案字符序列;
使用问答知识图谱中,情感标签与预测文本情感标签相同的若干命名实体,对第一文本答案字符序列中对应的若干字符进行修正,得到修正后第一文本答案字符序列;
将修正后第一文本答案字符序列转换为第一文本答案数据;
基于语音问答模式,采集用户上传的语音问题数据,并根据语音问题数据,使用语音文本识别模型,进行语音文本识别,得到语音文本数据,使用语音情感识别模型,进行语音情感识别,得到预测语音情感标签,包括如下步骤:
基于语音问答模式,采集用户上传的语音问题数据,并使用预设的过完备原子库,对语音问题数据进行去噪处理,得到去噪后语音问题数据;
使用STFT算法,获取去噪后语音问题数据的语音问题幅度谱;
使用人声音频提取子模型,进行人声音频提取,得到语音问题人声音频掩蔽矩阵,并将语音问题人声音频掩蔽矩阵与语音问题幅度谱进行点乘处理,得到语音问题人声音频幅度谱;
使用梅尔标度滤波器组,提取语音问题人声音频幅度谱的语音问题梅尔频谱特征序列,并将语音问题梅尔频谱特征序列划分为语音问题人声音频特征序列组;
使用共享编码器,将语音问题人声音频特征序列组转化为语音问题人声音频隐向量组;
使用注意力解码器,对语音问题人声音频隐向量组转化为若干语音问题文本数据片段,并将若干语音问题文本数据片段,按照顺序进行拼接,得到对应的语音文本数据;
使用MFCC特征提取子模型,提取语音问题人声音频幅度谱的语音问题MFCC特征;
使用GammaTone滤波器,提取语音问题人声音频幅度谱的语音问题GTF特征;
根据语音问题MFCC特征和对应的语音问题GTF特征,使用语音情感预测子模型,进行语音情感预测,得到预测语音情感标签;
根据语音文本数据和对应的预测语音情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第二文本答案数据,包括如下步骤:
将语音问题数据进行分词、词性标注的预处理,并转换为语音问题字符序列;
将语音问题字符序列输入大语言模型,进行智能答应生成,得到第二文本答案字符序列;
使用问答知识图谱中,情感标签与预测语音情感标签相同的若干命名实体,对第二文本答案字符序列中对应的若干字符进行修正,得到修正后第二文本答案字符序列;
将修正后第二文本答案字符序列转换为第二文本答案数据;
根据第二文本答案数据和对应的预测语音情感标签,使用开源的Berk模型,进行文本语音转换,得到语音答案数据。
实施例2:
如图2所示,本实施例提供一种基于情感识别和大语言模型的多模式问答系统,用于实现多模式问答方法,系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元,模型构建单元分别与训练数据采集单元、文本问答单元以及语音问答单元连接,文本问答单元和语音问答单元均与用户交互单元连接,文本语音转换单元与语音问答单元连接;
训练数据采集单元,用于采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据,并对若干问答对语音数据进行预处理,得到预处理后问答对语音数据集;
模型构建单元,用于根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型;
用户交互单元,用于采集用户上传的文本问题数据和/或语音问题数据,并将文本问题数据发送至文本问答单元,将语音问题数据发送至语音问答单元;
文本问答单元,用于在文本问答模式,根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签;根据文本问题数据和对应的预测文本情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第一文本答案数据;
语音问答单元,用于在语音问答模式,根据语音问题数据,使用语音文本识别模型,进行语音文本识别,得到语音文本数据,使用语音情感识别模型,进行语音情感识别,得到预测语音情感标签;根据语音文本数据和对应的预测语音情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第二文本答案数据;
文本语音转换单元,用于根据第二文本答案数据和对应的预测语音情感标签,进行文本语音转换,得到语音答案数据。
本发明提供的一种基于情感识别和大语言模型的多模式问答方法及系统,通过构建大语言模型,实现了用户与智能机器人之间的交互式问答对话;通过语音文本识别模型,实现了文本问答模式和语音问答模式的多模式、多功能问答服务,提高了功能性、实用性,满足市场对于语音对话的需求;通过语音情感识别模型和文本情感识别模型对用户的问题数据进行情感识别,并根据预测的情感标签和知识图谱,对大语言模型生成的答案数据进行情感修正,提高了用户的使用体验度,并且加强了答案数据的准确性。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (6)
1.一种基于情感识别和大语言模型的多模式问答方法,其特征在于:包括如下步骤:
采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据,并对若干问答对语音数据进行预处理,得到预处理后问答对语音数据集;
根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型;
所述的语音文本识别模型包括依次连接的人声音频提取子模型、梅尔标度滤波器组、共享编码器以及注意力解码器;
所述的语音情感识别模型包括依次连接的MFCC特征提取子模型、GammaTone滤波器以及语音情感预测子模型;
基于文本问答模式,采集用户上传的文本问题数据,并根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签;
根据文本问题数据和对应的预测文本情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第一文本答案数据,包括如下步骤:
将文本问题数据进行分词、词性标注的预处理,并转换为文本问题字符序列;
将文本问题字符序列输入大语言模型,进行智能答应生成,得到第一文本答案字符序列;
使用问答知识图谱中,情感标签与预测文本情感标签相同的若干命名实体,对第一文本答案字符序列中对应的若干字符进行修正,得到修正后第一文本答案字符序列;
将修正后第一文本答案字符序列转换为第一文本答案数据;
基于语音问答模式,采集用户上传的语音问题数据,并根据语音问题数据,使用语音文本识别模型,进行语音文本识别,得到语音文本数据,使用语音情感识别模型,进行语音情感识别,得到预测语音情感标签,包括如下步骤:
基于语音问答模式,采集用户上传的语音问题数据,并使用预设的过完备原子库,对语音问题数据进行去噪处理,得到去噪后语音问题数据;
使用STFT算法,获取去噪后语音问题数据的语音问题幅度谱;
使用人声音频提取子模型,进行人声音频提取,得到语音问题人声音频掩蔽矩阵,并将语音问题人声音频掩蔽矩阵与语音问题幅度谱进行点乘处理,得到语音问题人声音频幅度谱;
使用梅尔标度滤波器组,提取语音问题人声音频幅度谱的语音问题梅尔频谱特征序列,并将语音问题梅尔频谱特征序列划分为语音问题人声音频特征序列组;
使用共享编码器,将语音问题人声音频特征序列组转化为语音问题人声音频隐向量组;
使用注意力解码器,对语音问题人声音频隐向量组转化为若干语音问题文本数据片段,并将若干语音问题文本数据片段,按照顺序进行拼接,得到对应的语音文本数据;
使用MFCC特征提取子模型,提取语音问题人声音频幅度谱的语音问题MFCC特征;
使用GammaTone滤波器,提取语音问题人声音频幅度谱的语音问题GTF特征;
根据语音问题MFCC特征和对应的语音问题GTF特征,使用语音情感预测子模型,进行语音情感预测,得到预测语音情感标签;
根据语音文本数据和对应的预测语音情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第二文本答案数据,包括如下步骤:
将语音问题数据进行分词、词性标注的预处理,并转换为语音问题字符序列;
将语音问题字符序列输入大语言模型,进行智能答应生成,得到第二文本答案字符序列;
使用问答知识图谱中,情感标签与预测语音情感标签相同的若干命名实体,对第二文本答案字符序列中对应的若干字符进行修正,得到修正后第二文本答案字符序列;
将修正后第二文本答案字符序列转换为第二文本答案数据;
根据第二文本答案数据和对应的预测语音情感标签,进行文本语音转换,得到语音答案数据。
2.根据权利要求1所述的一种基于情感识别和大语言模型的多模式问答方法,其特征在于:对若干问答对语音数据进行所述的预处理的具体方法为:根据预设的过完备原子库,对若干问答对语音数据进行去噪处理,得到由若干去噪后问答对语音数据构成的预处理后问答对语音数据集。
3.根据权利要求1所述的一种基于情感识别和大语言模型的多模式问答方法,其特征在于:根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型,包括如下步骤:
根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建语音文本识别模型;
根据预处理后问答对语音数据集,构建语音情感识别模型,并得到预处理后问答对语音数据集对应的若干情感标签;
将若干情感标签添加至对应的若干问答对文本数据,得到情感标签添加后问答对文本数据集;
根据情感标签添加后问答对文本数据集,构建文本情感识别模型、大语言模型以及问答知识图谱。
4.根据权利要求3所述的一种基于情感识别和大语言模型的多模式问答方法,其特征在于:所述的文本情感识别模型包括依次连接的预训练语言子模型、语义特征提取子模型、方面级情感特征提取子模型、特征融合子模型以及分类器。
5.根据权利要求4所述的一种基于情感识别和大语言模型的多模式问答方法,其特征在于:基于文本问答模式,采集用户上传的文本问题数据,并根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签,包括如下步骤:
基于文本问答模式,采集用户上传的文本问题数据,并将文本问题数据输入文本情感识别模型;
使用预训练语言子模型,将文本问题数据转化为对应的文本问题字向量序列;
根据文本问题字向量序列,使用语义特征提取子模型,提取对应的文本问题语义特征,使用方面级情感特征提取子模型,提取对应的文本问题方面级情感特征序列;
使用特征融合子模型,将文本问题语义特征和文本问题方面级情感特征序列进行特征融合,得到文本问题融合特征序列;
根据文本问题融合特征序列,使用分类器,进行分类预测,得到预测文本情感标签。
6.一种基于情感识别和大语言模型的多模式问答系统,用于实现如权利要求1-5任一所述的多模式问答方法,其特征在于:所述的系统包括训练数据采集单元、模型构建单元、用户交互单元、文本问答单元、语音问答单元以及文本语音转换单元,所述的模型构建单元分别与训练数据采集单元、文本问答单元以及语音问答单元连接,所述的文本问答单元和语音问答单元均与用户交互单元连接,所述的文本语音转换单元与语音问答单元连接;
训练数据采集单元,用于采集包括多种情感类别的若干问答对语音数据和对应的若干问答对文本数据,并对若干问答对语音数据进行预处理,得到预处理后问答对语音数据集;
模型构建单元,用于根据预处理后问答对语音数据集和对应的若干问答对文本数据,构建问答知识图谱、语音文本识别模型、语音情感识别模型、文本情感识别模型以及大语言模型;
用户交互单元,用于采集用户上传的文本问题数据和/或语音问题数据,并将文本问题数据发送至文本问答单元,将语音问题数据发送至语音问答单元;
文本问答单元,用于在文本问答模式,根据文本问题数据,使用文本情感识别模型,进行文本情感识别,得到预测文本情感标签;根据文本问题数据和对应的预测文本情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第一文本答案数据;
语音问答单元,用于在语音问答模式,根据语音问题数据,使用语音文本识别模型,进行语音文本识别,得到语音文本数据,使用语音情感识别模型,进行语音情感识别,得到预测语音情感标签;根据语音文本数据和对应的预测语音情感标签,使用大语言模型和问答知识图谱,进行智能答应生成,得到第二文本答案数据;
文本语音转换单元,用于根据第二文本答案数据和对应的预测语音情感标签,进行文本语音转换,得到语音答案数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410316081.XA CN117909486B (zh) | 2024-03-20 | 2024-03-20 | 一种基于情感识别和大语言模型的多模式问答方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410316081.XA CN117909486B (zh) | 2024-03-20 | 2024-03-20 | 一种基于情感识别和大语言模型的多模式问答方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117909486A CN117909486A (zh) | 2024-04-19 |
CN117909486B true CN117909486B (zh) | 2024-05-31 |
Family
ID=90692744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410316081.XA Active CN117909486B (zh) | 2024-03-20 | 2024-03-20 | 一种基于情感识别和大语言模型的多模式问答方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117909486B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241257A (zh) * | 2018-08-20 | 2019-01-18 | 重庆柚瓣家科技有限公司 | 一种基于知识图谱的智慧问答系统及其方法 |
CN111209384A (zh) * | 2020-01-08 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答数据处理方法、装置及电子设备 |
CN111767385A (zh) * | 2020-07-09 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种智能问答方法及装置 |
CN112860873A (zh) * | 2021-03-23 | 2021-05-28 | 北京小米移动软件有限公司 | 智能应答方法、装置及存储介质 |
CN112966084A (zh) * | 2021-03-11 | 2021-06-15 | 北京三快在线科技有限公司 | 基于知识图谱的答案查询方法、装置、设备及存储介质 |
CN116561284A (zh) * | 2023-05-26 | 2023-08-08 | 中国工商银行股份有限公司 | 智能应答方法、装置、电子设备及介质 |
US11735207B1 (en) * | 2021-09-30 | 2023-08-22 | Wells Fargo Bank, N.A. | Systems and methods for determining a next action based on weighted predicted emotions, entities, and intents |
CN117312514A (zh) * | 2023-09-26 | 2023-12-29 | 上海探势健康科技有限公司 | 咨询答复方法、装置及计算机可读取存储介质 |
CN117688165A (zh) * | 2024-02-04 | 2024-03-12 | 湘江实验室 | 多边缘协同的客服方法、装置、设备和可读存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113676527A (zh) * | 2021-08-10 | 2021-11-19 | 未鲲(上海)科技服务有限公司 | 信息推送方法、装置、设备及存储介质 |
CN115840808B (zh) * | 2022-12-27 | 2023-08-11 | 广州汉申科技中介服务有限公司 | 科技项目咨询方法、装置、服务器及计算机可读存储介质 |
-
2024
- 2024-03-20 CN CN202410316081.XA patent/CN117909486B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109241257A (zh) * | 2018-08-20 | 2019-01-18 | 重庆柚瓣家科技有限公司 | 一种基于知识图谱的智慧问答系统及其方法 |
CN111209384A (zh) * | 2020-01-08 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 基于人工智能的问答数据处理方法、装置及电子设备 |
CN111767385A (zh) * | 2020-07-09 | 2020-10-13 | 腾讯科技(深圳)有限公司 | 一种智能问答方法及装置 |
CN112966084A (zh) * | 2021-03-11 | 2021-06-15 | 北京三快在线科技有限公司 | 基于知识图谱的答案查询方法、装置、设备及存储介质 |
CN112860873A (zh) * | 2021-03-23 | 2021-05-28 | 北京小米移动软件有限公司 | 智能应答方法、装置及存储介质 |
US11735207B1 (en) * | 2021-09-30 | 2023-08-22 | Wells Fargo Bank, N.A. | Systems and methods for determining a next action based on weighted predicted emotions, entities, and intents |
CN116561284A (zh) * | 2023-05-26 | 2023-08-08 | 中国工商银行股份有限公司 | 智能应答方法、装置、电子设备及介质 |
CN117312514A (zh) * | 2023-09-26 | 2023-12-29 | 上海探势健康科技有限公司 | 咨询答复方法、装置及计算机可读取存储介质 |
CN117688165A (zh) * | 2024-02-04 | 2024-03-12 | 湘江实验室 | 多边缘协同的客服方法、装置、设备和可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117909486A (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992987B (zh) | 语音信号中针对通用特定语音的并联特征提取系统及方法 | |
CN101930735B (zh) | 语音情感识别设备和进行语音情感识别的方法 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
CN112466326A (zh) | 一种基于transformer模型编码器的语音情感特征提取方法 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN111081219A (zh) | 一种端到端的语音意图识别方法 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN111312228A (zh) | 一种基于端到端的应用于电力企业客服的语音导航方法 | |
CN113450761A (zh) | 一种基于变分自编码器的并行语音合成方法和装置 | |
CN115881164A (zh) | 一种语音情感识别方法及系统 | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
Soni et al. | State-of-the-art analysis of deep learning-based monaural speech source separation techniques | |
CN116682463A (zh) | 一种多模态情感识别方法及系统 | |
CN117909486B (zh) | 一种基于情感识别和大语言模型的多模式问答方法及系统 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
Mendiratta et al. | A robust isolated automatic speech recognition system using machine learning techniques | |
Fujiwara et al. | Data augmentation based on frequency warping for recognition of cleft palate speech | |
CN115691500A (zh) | 一种基于时延神经网络的电力客服语音识别方法及装置 | |
CN111883178B (zh) | 一种基于双通道语音转图像式情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |