CN115563290B - 一种基于语境建模的智能情感识别方法 - Google Patents

一种基于语境建模的智能情感识别方法 Download PDF

Info

Publication number
CN115563290B
CN115563290B CN202211554419.2A CN202211554419A CN115563290B CN 115563290 B CN115563290 B CN 115563290B CN 202211554419 A CN202211554419 A CN 202211554419A CN 115563290 B CN115563290 B CN 115563290B
Authority
CN
China
Prior art keywords
information
emotion
embedding
common sense
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211554419.2A
Other languages
English (en)
Other versions
CN115563290A (zh
Inventor
赵瀚霖
张汝民
刘昌松
孙文韬
张超意
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Shuye Intelligent Technology Co ltd
Original Assignee
Guangdong Shuye Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Shuye Intelligent Technology Co ltd filed Critical Guangdong Shuye Intelligent Technology Co ltd
Priority to CN202211554419.2A priority Critical patent/CN115563290B/zh
Publication of CN115563290A publication Critical patent/CN115563290A/zh
Application granted granted Critical
Publication of CN115563290B publication Critical patent/CN115563290B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Psychiatry (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Social Psychology (AREA)
  • Biophysics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于心理健康、对话机器人与自然语言处理领域,具体是涉及一种基于语境建模的智能情感识别方法。本发明的目的在于解决当对话文本缺少上下文信息时,现有的感情识别方法无法准确的识别用户情感的问题。主要方案包括将对话文本和用户信息输入信息融合模块进行说话者与聆听者之间关系、用户性格、上下文信息的融合处理,然后输入情感分析模块将情感识别任务转化为填充任务,通过预测[MASK]位置上的词,然后通过词映射对应的情感类型,得到用户精准情感状态。本发明用于对话文本的情感识别。

Description

一种基于语境建模的智能情感识别方法
技术领域
本发明属于心理健康、对话机器人与自然语言处理领域,具体是涉及一种基于语境建模的智能情感识别方法。
背景技术
随着机器人对话技术与自然语言处理技术的发展与推广,出现了多个可识别情感的智能对话系统应用等,具体如下:
专利CN 106683672 A《一种基于情感和语义的智能对话方法及系统》通过获取所述多轮对话信息确定所述用户当前的情感和语义;最后,根据所述用户当前的情感和语义做出符合所述用户当前的情感和语义的回复,这样的对话并未融入用户的个人信息,不能精确得给出用户当前情绪,进而无法给出针对性的回答。
专利CN 112905776 A《一种情感对话模型构建方法、情感对话系统及方法》通过构建情感对话模型、生成器来生成对话回复,判别器来判别所生成的回复文本是属于“通用回复”还是基于情感的回复,可以在一定程度上提高人机交互的用户体验感,但是并没有引入聊天主题等信息,仅能适用于闲聊型对话。
专利CN 111949762 A《基于上下文情感对话的方法和系统、存储介质》通过获取上下文数据集,提取其中的主题类别和情感类别,得到主题关键词概率和情感关键词概率,随之预测回复中的主题关键词和情感关键词,再生成初步的回复,接着得到所述初步的回复的权重值,根据初步的回复和权重,得到最终回复,在这里得到的主题关键词仅通过上下文而没考虑到对话者的性格信息,在情感预测上不够准确。通过专业的心理调查问卷得到用户性格,同时再引入用户性格来进行情感识别会更具针对性和准确性。
目前情感对话系统在情感识别上的准确率还有较大提升空间,其中很重要的一部分原因在于对话内容涉及范围宽泛,对话没有围绕着一个确定的主题,或者是没有考虑到用户的真实情况与顾虑进行回答,会导致同样的回答出自不同身份的人有不一样的情感。
发明内容
本发明的目的在于解决当对话文本缺少上下文信息时,现有的感情识别方法无法准确的识别用户情感的问题。
为了克服上述技术问题,本发明采用以下技术手段:
一种基于语境建模的智能情感识别方法,将对话文本和用户信息输入信息融合模块进行说话者与聆听者之间关系、用户性格、上下文信息的融合处理,然后输入情感分析模块将情感识别任务转化为填充任务,通过预测[MASK]位置上的词,然后通过词映射对应的情感类型,得到用户精准情感状态。
上述技术方案中,信息融合模块包括:
常识性知识提取模块:根据对话文本推理出说话者与聆听者之间的关系类型,然后将其关系类型和原对话文本作为输入,送进常识生成模型得到常识特征;
常识与上下文结合模块:将对话文本与常识特征先拼接再编码的方式得到融合信息,
提示生成模块:将融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记,再将其令牌标记送入时序模型进行编码得到编码顺序特征,进而生成最终的提示嵌入;
用户性格获取模块:通过调查问卷收集用户信息,进而得到用户性格特点对性格信息进行编码得到性格信息嵌入;
信息拼接模块:将提示嵌入、性格信息嵌入、对话文本进行拼接操作到token序列;
情感分析模块:将token序列作为输入送进预训练模型,预训练模型可以根据所有输入的token序列的嵌入,预测最有可能出现在[MASK]位置的词,根据预测到的词映射对应的情感类型,进而实现对情感的预测。
上述技术方案中,用户性格获取模块:
通过调查问卷收集用户性格信息,进而得到用户性格特点,包括开放的,自觉的,外向的,合群的,神经质的性格特点,通过RoBERTa作为预训练模型对性格信息进行编码得到性格信息嵌入m:
Figure 527526DEST_PATH_IMAGE001
;
Figure 947006DEST_PATH_IMAGE002
进行复制分别得到
Figure 298353DEST_PATH_IMAGE003
Figure 119678DEST_PATH_IMAGE004
代表预训练模型,
Figure 265489DEST_PATH_IMAGE005
代表性格信息,
Figure 172265DEST_PATH_IMAGE006
代表外向、
Figure 327303DEST_PATH_IMAGE007
代表自觉的、
Figure 3135DEST_PATH_IMAGE008
代表神经质。
上述技术方案中,常识性知识提取模块:包括常识知识图谱模块和常识生成模型,其中,
常识知识图谱模块:对于一个对话文本,其包含t个句子,N个对话,将对话文本中的每一句话Ut输入ATOMIC常识知识图谱模块输出三联体{s,r,o},其中s是主体subject,代表说话者,o是客体object代表聆听者,然后r是关系relation,为关系短语
Figure 319847DEST_PATH_IMAGE009
,由九种不同的if-then关系类型确定得到关系类型对应的反映说话者与聆听者之间关系的关系短语
Figure 713919DEST_PATH_IMAGE009
常识生成模型:
将对话文本中的一个对话中的每一句话作为语料Ut,并将语料Ut与关系短语
Figure 407068DEST_PATH_IMAGE009
串联起来,得到说话者与聆听者的关系句集合{Ut
Figure 202986DEST_PATH_IMAGE010
,对每一个关系句
Figure 956178DEST_PATH_IMAGE011
通过编码器后得到常识特征
Figure 574897DEST_PATH_IMAGE012
Figure 71738DEST_PATH_IMAGE012
表示文本中的第t句话ut与第j种常识类型的嵌入;
Figure 722162DEST_PATH_IMAGE014
Figure 646255DEST_PATH_IMAGE016
其中COMET()代表编码器,
Figure 14920DEST_PATH_IMAGE017
表示对话中第t句中的第k个词,
Figure 49872DEST_PATH_IMAGE018
表示第
Figure 554803DEST_PATH_IMAGE019
种关系类型。
上述技术方案中,常识与上下文结合模块:将对话文本与常识特征先拼接再编码的方式得到融合信息,对于一个对话文本,其包含L个句子,N个对话,每个对话包含t个句子,t<=L,对于每个常识类型j(1≤j≤9),将其与所有句子相关的常识特征连接起来:
Figure 915377DEST_PATH_IMAGE020
,
Figure 505758DEST_PATH_IMAGE021
其中⊕是拼接操作, 空心
Figure 344401DEST_PATH_IMAGE022
代表域,
Figure 969418DEST_PATH_IMAGE023
是一个 L*d c维度的矩阵,d c是常识特征的维度;
说话者的隐藏嵌入矩阵
Figure 235314DEST_PATH_IMAGE024
Figure 312991DEST_PATH_IMAGE025
),
Figure 689746DEST_PATH_IMAGE026
聆听者的隐藏嵌入矩阵
Figure 434848DEST_PATH_IMAGE027
Figure 871646DEST_PATH_IMAGE028
),
Figure 436619DEST_PATH_IMAGE029
其中
Figure 614135DEST_PATH_IMAGE030
为一个对话文本,L为一个对话文本中的句子个数,
Figure 479323DEST_PATH_IMAGE031
隐藏嵌入矩阵的维度,
Figure 87022DEST_PATH_IMAGE032
为预定义的代表说话人的线性投影矩阵,
Figure 873712DEST_PATH_IMAGE033
预定义的代表聆听者的线性投影矩阵,
Figure 857849DEST_PATH_IMAGE034
代表transformer编码器。
上述技术方案中,提示生成模块:
融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记,再将其令牌标记送入时序模型进行编码得到编码顺序特征,进而生成最终的提示嵌入;
通过多层感知器进行重塑操作得到说话人相关信息的连续嵌入矩阵E和听者相关对话信息的连续嵌入矩阵P,
Figure 577543DEST_PATH_IMAGE035
;
Figure 356143DEST_PATH_IMAGE036
;
Figure 630130DEST_PATH_IMAGE037
代表重塑操作,MLP()代表多层感知机;
其中
Figure 152378DEST_PATH_IMAGE038
表示E的左半部分,
Figure 726579DEST_PATH_IMAGE039
表示E的右半部分,
Figure 676080DEST_PATH_IMAGE040
代表说话者的提示嵌入的数量;
其中
Figure 702942DEST_PATH_IMAGE041
表示P的左半部分,
Figure 28881DEST_PATH_IMAGE042
表示P的右半部分,
Figure 457588DEST_PATH_IMAGE043
代表聆听者的提示嵌入的数量;
对于一句话Ut取连续嵌入矩阵中的第t个向量来构成它的伪标记的隐藏提示嵌入,表示为[et l, pt l, pt r ,et r],然后使用Bi-LSTM时序模型来获得伪标记的最终提示嵌入:
Figure 577991DEST_PATH_IMAGE045
其中
Figure 92149DEST_PATH_IMAGE046
表示从
Figure DEST_PATH_IMAGE047
中取出的第t个向量,
Figure 690621DEST_PATH_IMAGE048
表示从
Figure DEST_PATH_IMAGE049
中取出的第t个向量;
Figure 699466DEST_PATH_IMAGE050
表示从
Figure DEST_PATH_IMAGE051
中取出的第t个向量,
Figure 459612DEST_PATH_IMAGE052
表示从
Figure DEST_PATH_IMAGE053
中取出的第t个向量。
上述技术方案中,信息拼接模块:将提示嵌入、性格信息嵌入(性格特征)、对话文本进行拼接操作到token序列;
Figure DEST_PATH_IMAGE055
其中 [CLS]符号作为整篇文本的语义表示、 [SEP]是分割符号用于区分不同的向量、[MASK]防止标签泄露。
上述技术方案中,情感分析模块:将信息融合模块获得的token序列作为输入送进预训练模型,预训练模型可以根据所有输入token的嵌入,预测最有可能出现在[MASK]位置的词
Figure 664328DEST_PATH_IMAGE056
,将预测的词
Figure 597649DEST_PATH_IMAGE056
映射到一个情感类别,实现了对一个句子Ut的情感的预测;
预测[MASK]位置的词表示为:
Figure 735369DEST_PATH_IMAGE058
其中
Figure DEST_PATH_IMAGE059
为最大值自变量点集函数,通过argmax()找出概率最大的那个w作为
Figure 931996DEST_PATH_IMAGE056
,P([MASK]=w)是w出现在[MASK]位置的预测概率,w是标记器的词汇表V中的一个词。
上述技术方案中,使用RoBERTa作为预训练模型并使用交叉熵损失来训练情感分析模块,具体如下:
Figure 155166DEST_PATH_IMAGE060
其中,log是指求对数,q是训练集Q中的一个对话,Lq是对话q中的句子编号,wt是对应于句子
Figure DEST_PATH_IMAGE061
的真实情感类别的词,而P(wt)是wt出现在句子
Figure 626599DEST_PATH_IMAGE061
的[MASK]位置的估计概率。
因为本发明采用上述技术方案,因此具备以下有益效果:
一、本发明提供一种基与语境建模的智能情感识别方法,涉及情感对话与自然语言处理领域。本发明首先在对话前通过心理调查问卷,得到用户性格特征,然后再根据常识性知识图谱和上下文生成提示,将提示,用户性格,对话语句等嵌入拼接起来构成特征向量进行训练,最终得到准确的情感识别结果。
二、本方法提出了信息融合模块与情感分析模块,在信息融合模块中考虑到了常识、用户性格以及上下文信息等因素,在情感分析模块将情感识别任务转化为填充任务,通过预测[MASK]位置上的词来实现对情感的预测,并且在预测过程中利用了信息融合模块所得到的信息作为提示,提高了预测的准确率和鲁棒性。
三、在以往的情感识别工作中,大多仅提供上下文信息给模型,模型主要依据存储的背景信息对情感进行判断。在本发明中,后续会将性格信息嵌入和提示嵌入等拼接起来一起传进模型训练迭代,这么做的目的是:提示嵌入中包含上下文与常识特征,以常识与上下文作为记忆,模型可以简单推断出一句话中说话者的意图和对聆听者的影响,进而推断说话者的情感,但是不同的人对情感信息有不同的感知和反应方式,这种差异与他们的个性特征有关。引入性格信息后,模型以性格、常识以及上下文作为记忆,经过反复的训练与迭代之后,使得模型可以在捕捉到性格差异后对情绪作出不同的预测。
四、在实际应用场景对话可能有几十句,那这段对话有比较丰富的上下文信息,模型好判断,但是有的对话可能就一两句,这时如果仅用(很少的)上下文信息来判断模型是不好判断的。针对这个问题,本发明加入了常识性特征与用户性格特征,这样就算只有一两句再加上常识特征,模型也可以给出比较准确的判断。
附图说明
图1为发明方法框图;
图2为信息融合模块;
图3为常识性知识提取模块;
图4为常识与上下文结合模块;
图5为提示生成模块;
图6为情感分析模块。
具体实施方式
以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明,但需要注意的是本发明并不仅仅只局限于这些实施方式。相反,对本发明进行的修改或者等同替换,均应涵盖在本发明的权利要求范围当中。
另外,为了更好的说明本发明,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解,没有这些具体细节,本发明同样可以实施。
本发明整体框架如图1所示,主要包括信息融合模块和情感分析模块,通过用户信息和对话文本信息综合信息融合和情感分类算法得到用户精准情感状态。接下来按照模块进行详细介绍:
1、信息融合模块:
信息融合模块整体流程如图2所示,主要包括常识性知识提取模块、常识与上下文结合模块、用户性格获取模块及提示生成模块等,接下来按照子模块进行详细介绍:
1.1、常识性知识提取模块:
在之前的有关情感对话识别的发明专利中,主要是通过上下文信息对情感进行预测,这存在一定的局限性——因为有的对话比较简短,仅通过较短的对话无法准确地推理出参与对话者的情感,仅通过上下文信息模型可能会不知所云,在引入常识性知识后,可以根据上下文信息和常识推断说话者与聆听者之间的关系及情感。例如:"X给Y一个赞美",根据常识可以推断出:X的意图和他人的反应将分别是"X想对Y好"和"Y会感到受宠若惊"。
在此模块中,本发明通过将对话文本送入常识知识图谱模块,推理出说话者与聆听者之间的关系类型,然后将其关系类型和原对话文本作为输入,送进常识生成模型得到常识特征,用于后续模块。
具体地来讲,常识知识图谱模块:对于一个对话文本,其包含t个句子,N个对话,将对话文本中的每一句话Ut输入ATOMIC常识知识图谱模块输出三联体{s,r,o},其中s是主体subject,代表说话者,o是客体object代表聆听者,然后r是关系relation,为关系短语
Figure 618826DEST_PATH_IMAGE009
,由九种不同的if-then关系类型确定得到关系类型对应的反映说话者与聆听者之间关系的关系短语
Figure 517512DEST_PATH_IMAGE009
常识生成模型:
将对话文本中的一个对话中的每一句话作为语料Ut,并将语料Ut与关系短语
Figure 227979DEST_PATH_IMAGE009
串联起来,得到说话者与聆听者的关系句集合{Ut
Figure 503102DEST_PATH_IMAGE010
,对每一个关系句
Figure 615415DEST_PATH_IMAGE011
通过编码器后得到常识特征
Figure 685002DEST_PATH_IMAGE012
Figure 882765DEST_PATH_IMAGE012
表示文本中的第t句话ut与第j种常识类型的嵌入;
Figure 961580DEST_PATH_IMAGE014
Figure 662819DEST_PATH_IMAGE016
其中COMET()代表编码器,
Figure 900378DEST_PATH_IMAGE017
表示对话中第t句中的第k个词,
Figure 585437DEST_PATH_IMAGE018
表示第
Figure 202363DEST_PATH_IMAGE019
种关系类型。
1.2常识与上下文结合模块:
将对话文本与常识特征的信息结合起来,为后续生成提示帮助模型更准确地预测情感做支持,我们这里采用先拼接再编码的方式得到融合信息——拼接操作将信息先合并到一起,再通过Transformer编码器根据自注意力机制得到信息之间的关联重要程度,这样可以很好得利用上下文和常识信息。达到的效果是:比传统仅基于对话文本信息的情感识别更精准。
在此模块中,将常识性知识提取模块获得的常识特征与对话文本进行拼接操作,然后再一起输入进编码器进行编码得到融合信息,随后被用作生成最终提示嵌入的基础。
具体来讲,本发明中,将对话文本与常识特征先拼接再编码的方式得到融合信息,对于一个对话文本,其包含L个句子,N个对话,每个对话包含t个句子,t<=L,对于每个常识类型j(1≤j≤9),将其与所有句子相关的常识特征连接起来:
Figure 23689DEST_PATH_IMAGE062
,
Figure DEST_PATH_IMAGE063
其中⊕是拼接操作, 空心
Figure 169500DEST_PATH_IMAGE064
代表域,
Figure 341855DEST_PATH_IMAGE023
是一个 L*d c维度的矩阵,d c是常识特征的维度;
说话者的隐藏嵌入矩阵
Figure 496893DEST_PATH_IMAGE024
Figure 438304DEST_PATH_IMAGE025
),
Figure 20595DEST_PATH_IMAGE026
聆听者的隐藏嵌入矩阵
Figure 680246DEST_PATH_IMAGE027
Figure 373396DEST_PATH_IMAGE028
),
Figure 434893DEST_PATH_IMAGE029
其中
Figure 188085DEST_PATH_IMAGE030
为一个对话文本,L为一个对话文本中的句子个数,
Figure 69454DEST_PATH_IMAGE031
隐藏嵌入矩阵的维度,
Figure 831873DEST_PATH_IMAGE032
为预定义的代表说话人的线性投影矩阵,
Figure 482297DEST_PATH_IMAGE033
预定义的代表聆听者的线性投影矩阵,
Figure 671970DEST_PATH_IMAGE034
代表transformer编码器。
1.3用户性格获取模块:
本模块中用户性格通过专业的心理咨询师制定特定心理调查问卷,通过调查问卷收集用户信息,进而得到用户性格特点,包括开放的,自觉的,外向的,合群的,神经质的等性格特点,通过RoBERTa作为预训练模型对性格信息进行编码得到性格信息嵌入m:
Figure DEST_PATH_IMAGE065
;
Figure 509476DEST_PATH_IMAGE002
进行复制分别得到
Figure 810008DEST_PATH_IMAGE003
Figure 580517DEST_PATH_IMAGE004
代表预训练模型,
Figure 678442DEST_PATH_IMAGE005
代表性格信息,
Figure 534403DEST_PATH_IMAGE006
代表外向、
Figure 373046DEST_PATH_IMAGE007
代表自觉的、
Figure 263641DEST_PATH_IMAGE008
代表神经质。
后续再将性格信息嵌入和提示嵌入等拼接起来一起传进模型进行训练迭代。
1.4提示生成模块:
在此模块中,将常识与上下文结合模块中获得的融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记,再将其令牌标记送入时序模型进行编码得到编码顺序特征,进而生成最终的提示嵌入。
在最后一个预测步骤中,由于目标语料的情感是由预训练模型根据其周围的嵌入来预测中间的特殊令牌而确定的,这里的令牌标记是生成嵌入的中间产物,经过重塑和编码可以得到提示嵌入。其实令牌就是token,Token在计算机身份认证中是令牌(临时)的意思,在词法分析中是标记的意思。
在本发明中,从说话人和聆听者的角度分别生成两组连续提示嵌入,分别表示为E和P。此外,与说话人和聆听者有关的推理常识与对话中的上下文信息混合在一起,并被编码到这些嵌入中,最后被用作预训练模型的情感提示,以预测语词的情感。
融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记,再将其令牌标记送入时序模型进行编码得到编码顺序特征,进而生成最终的提示嵌入;
通过多层感知器进行重塑操作得到说话人相关信息的连续嵌入矩阵E和听者相关对话信息的连续嵌入矩阵P,
Figure 795117DEST_PATH_IMAGE035
;
Figure 872794DEST_PATH_IMAGE036
;
Figure 249549DEST_PATH_IMAGE037
代表重塑操作,MLP()代表多层感知机;
其中
Figure 994651DEST_PATH_IMAGE038
表示E的左半部分,
Figure 431449DEST_PATH_IMAGE039
表示E的右半部分,
Figure 262001DEST_PATH_IMAGE040
代表说话者的提示嵌入的数量;
其中
Figure 442447DEST_PATH_IMAGE066
表示P的左半部分,
Figure DEST_PATH_IMAGE067
表示P的右半部分,
Figure 510897DEST_PATH_IMAGE043
代表聆听者的提示嵌入的数量;
对于一句话Ut取连续嵌入矩阵中的第t个向量来构成它的伪标记的隐藏提示嵌入,表示为[et l, pt l, pt r ,et r],然后使用Bi-LSTM时序模型来获得伪标记的最终提示嵌入:
Figure 384175DEST_PATH_IMAGE068
其中
Figure 436445DEST_PATH_IMAGE046
表示从
Figure 420581DEST_PATH_IMAGE047
中取出的第t个向量,
Figure 609117DEST_PATH_IMAGE048
表示从
Figure 387717DEST_PATH_IMAGE049
中取出的第t个向量;
Figure 927283DEST_PATH_IMAGE050
表示从
Figure 446602DEST_PATH_IMAGE051
中取出的第t个向量,
Figure 755223DEST_PATH_IMAGE052
表示从
Figure 704725DEST_PATH_IMAGE053
中取出的第t个向量。
1.5信息拼接模块
在此模块中,为了引导模型更好地利用从其预训练中获得的与语料相关的知识,将原来的情感识别任务转换为一个填充任务。
具体来说,在预训练中,原始语料中的一些标记被一个特殊的标记[MASK]以一定的概率掩盖。然后,模型根据其上下文标记来预测被屏蔽的标记是什么内容。根据这一任务的原理,将对应于mt的[MASK]与ut的[w1 tw2 t...wk t]标记序列和提示的伪标记以及说话者和聆听者的性格嵌入一起送入RoBERTa模型。
将提示嵌入、性格信息嵌入(性格特征)、对话文本进行拼接操作到token序列;
Figure DEST_PATH_IMAGE069
其中 [CLS]符号作为整篇文本的语义表示、 [SEP]是分割符号用于区分不同的向量、[MASK]防止标签泄露,[ml] ,[mr]分别是说话人和听众的性格嵌入。
情感分析模块
将信息融合模块获得的token序列作为输入送进预训练模型,预训练模型可以根据所有输入token的嵌入,预测最有可能出现在[MASK]位置的词
Figure 934849DEST_PATH_IMAGE056
,将预测的词
Figure 995209DEST_PATH_IMAGE056
映射到一个情感类别,实现了对一个句子Ut的情感的预测;
预测[MASK]位置的词表示为:
Figure DEST_PATH_IMAGE071
其中
Figure 627178DEST_PATH_IMAGE059
为最大值自变量点集函数,通过argmax()找出概率最大的那个w作为
Figure 13160DEST_PATH_IMAGE056
,P([MASK]=w)是w出现在[MASK]位置的预测概率,w是标记器的词汇表V中的一个词。
使用RoBERTa作为预训练模型并使用交叉熵损失来训练情感分析模块,具体如下:
Figure 261739DEST_PATH_IMAGE072
其中,log是指求对数,q是训练集Q中的一个对话,Lq是对话q中的句子编号,wt是对应于句子
Figure 125790DEST_PATH_IMAGE061
的真实情感类别的词,而P(wt)是wt出现在句子
Figure 409004DEST_PATH_IMAGE061
的[MASK]位置的估计概率。

Claims (3)

1.一种基于语境建模的智能情感识别方法,其特征在于,将对话文本和用户信息输入信息融合模块进行说话者与聆听者之间关系、用户性格、上下文信息的融合处理,然后输入情感分析模块将情感识别任务转化为填充任务,通过预测[MASK]位置上的词,然后通过词映射对应的情感类型,得到用户精准情感状态;
信息融合模块包括:
常识性知识提取模块:根据对话文本推理出说话者与聆听者之间的关系类型,然后将其关系类型和原对话文本作为输入,送进常识生成模型得到常识特征;
常识与上下文结合模块:将对话文本与常识特征先拼接再编码的方式得到融合信息,
提示生成模块:将融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记,再将其令牌标记送入时序模型进行编码得到编码顺序特征,进而生成最终的提示嵌入;
用户性格获取模块:通过调查问卷收集用户信息,进而得到用户性格特点对性格信息进行编码得到性格信息嵌入;
信息拼接模块:将提示嵌入、性格信息嵌入、对话文本进行拼接操作到token序列;
情感分析模块:将token序列作为输入送进预训练模型,预训练模型根据所有输入的token序列的嵌入,预测最有可能出现在[MASK]位置的词,根据预测到的词映射对应的情感类型,进而实现对情感的预测;
用户性格获取模块:
通过调查问卷收集用户性格信息,进而得到用户性格特点,包括开放的,自觉的,外向的,合群的,神经质的性格特点,通过RoBERTa作为预训练模型对性格信息进行编码得到性格信息嵌入m:
Figure 882468DEST_PATH_IMAGE001
;
将性格信息嵌入
Figure 469307DEST_PATH_IMAGE002
进行复制分别得到
Figure 692478DEST_PATH_IMAGE003
Figure 773698DEST_PATH_IMAGE004
代表预训练模型,
Figure 765924DEST_PATH_IMAGE005
代表性格信息,
Figure 789244DEST_PATH_IMAGE006
代表外向、
Figure 499711DEST_PATH_IMAGE007
代表自觉的、
Figure 119042DEST_PATH_IMAGE008
代表神经质;
常识性知识提取模块:包括常识知识图谱模块和常识生成模型,其中,
常识知识图谱模块:对于一个对话文本,其包含t个句子,N个对话,将对话文本中的每一句话Ut输入ATOMIC常识知识图谱模块输出三联体{s,r,o},其中s是主体subject,代表说话者,o是客体object代表聆听者,然后r是关系relation,为关系短语
Figure 231355DEST_PATH_IMAGE009
,由九种不同的if-then关系类型确定得到关系类型对应的反映说话者与聆听者之间关系的关系短语
Figure 159997DEST_PATH_IMAGE009
常识生成模型:
将对话文本中的一个对话中的每一句话作为语料Ut,并将语料Ut与关系短语
Figure 357760DEST_PATH_IMAGE009
串联起来,得到说话者与聆听者的关系句集合{Ut
Figure 170995DEST_PATH_IMAGE010
,对每一个关系句
Figure 747601DEST_PATH_IMAGE011
通过编码器后得到常识特征
Figure 112723DEST_PATH_IMAGE012
Figure 797782DEST_PATH_IMAGE012
表示文本中的第t句话ut与第j种常识类型的嵌入;
Figure 149129DEST_PATH_IMAGE013
Figure 845821DEST_PATH_IMAGE014
其中COMET()代表编码器,
Figure 116265DEST_PATH_IMAGE015
表示对话中第t句中的第k个词,
Figure 23042DEST_PATH_IMAGE016
表示第
Figure 178079DEST_PATH_IMAGE017
种关系类型;
常识与上下文结合模块:将对话文本与常识特征先拼接再编码的方式得到融合信息,对于一个对话文本,其包含L个句子,N个对话,每个对话包含t个句子,t<=L,对于每个常识类型j(1≤j≤9),将其与所有句子相关的常识特征连接起来:
Figure 994857DEST_PATH_IMAGE018
,
Figure 577148DEST_PATH_IMAGE019
其中⊕是拼接操作,空心
Figure 95854DEST_PATH_IMAGE020
代表域,
Figure 789003DEST_PATH_IMAGE021
是一个 L*d c维度的矩阵,d c是常识特征的维度;
说话者的隐藏嵌入矩阵
Figure 194708DEST_PATH_IMAGE022
Figure 947900DEST_PATH_IMAGE023
),
Figure 953903DEST_PATH_IMAGE024
聆听者的隐藏嵌入矩阵
Figure 450743DEST_PATH_IMAGE025
Figure 976533DEST_PATH_IMAGE026
),
Figure 635048DEST_PATH_IMAGE027
其中
Figure 128346DEST_PATH_IMAGE028
为一个对话文本,L为一个对话文本中的句子个数,
Figure 428877DEST_PATH_IMAGE029
为隐藏嵌入矩阵的维度,
Figure 74753DEST_PATH_IMAGE030
为预定义的代表说话人的线性投影矩阵,
Figure 904169DEST_PATH_IMAGE031
为预定义的代表聆听者的线性投影矩阵,
Figure 884764DEST_PATH_IMAGE032
代表transformer编码器;
提示生成模块:
融合信息通过多层感知器进行重塑操作分别生成说话人与聆听者的令牌标记,再将其令牌标记送入时序模型进行编码得到编码顺序特征,进而生成最终的提示嵌入;
通过多层感知器进行重塑操作得到说话人相关信息的连续嵌入矩阵E和聆听者相关对话信息的连续嵌入矩阵P,
Figure 723407DEST_PATH_IMAGE033
;
Figure 958210DEST_PATH_IMAGE034
;
Figure 224106DEST_PATH_IMAGE035
代表重塑操作,MLP()代表多层感知机;
其中
Figure 567363DEST_PATH_IMAGE036
表示E的左半部分,
Figure 334331DEST_PATH_IMAGE037
表示E的右半部分,
Figure 813853DEST_PATH_IMAGE038
代表说话者的提示嵌入的数量;
其中
Figure 126017DEST_PATH_IMAGE039
表示P的左半部分,
Figure 690991DEST_PATH_IMAGE040
表示P的右半部分,
Figure 996070DEST_PATH_IMAGE041
代表聆听者的提示嵌入的数量;
对于一句话Ut取连续嵌入矩阵中的第t个向量来构成它的伪标记的隐藏提示嵌入,表示为[e t l , p t l , p t r ,e t r ],然后使用Bi-LSTM时序模型来获得伪标记的最终提示嵌入:
Figure 330100DEST_PATH_IMAGE042
其中
Figure 813165DEST_PATH_IMAGE043
表示从
Figure 865434DEST_PATH_IMAGE044
中取出的第t个向量,
Figure 974205DEST_PATH_IMAGE045
表示从
Figure 428320DEST_PATH_IMAGE046
中取出的第t个向量;
Figure 82286DEST_PATH_IMAGE047
表示从
Figure 621852DEST_PATH_IMAGE048
中取出的第t个向量,
Figure 268734DEST_PATH_IMAGE049
表示从
Figure 577355DEST_PATH_IMAGE050
中取出的第t个向量;
将提示嵌入、性格信息嵌入、对话文本进行拼接操作到token序列;
Figure 136644DEST_PATH_IMAGE051
其中 [CLS]符号作为整篇文本的语义表示、 [SEP]是分割符号用于区分不同的向量、[MASK]防止标签泄露,
Figure 163506DEST_PATH_IMAGE052
表示对话中第t句中的第k个词, 将性格信息嵌入
Figure 614079DEST_PATH_IMAGE002
进行复制分别得到
Figure 777207DEST_PATH_IMAGE003
2.根据权利要求1所述的一种基于语境建模的智能情感识别方法,其特征在于,情感分析模块:将信息融合模块获得的token序列作为输入送进预训练模型,预训练模型根据所有输入token的嵌入,预测最有可能出现在[MASK]位置的词
Figure 772976DEST_PATH_IMAGE053
,将预测的词
Figure 287134DEST_PATH_IMAGE053
映射到一个情感类别,实现了对一个句子Ut的情感的预测;
预测[MASK]位置的词表示为:
Figure 275818DEST_PATH_IMAGE054
其中
Figure 559032DEST_PATH_IMAGE055
为最大值自变量点集函数,通过argmax()找出概率最大的那个w作为
Figure 115915DEST_PATH_IMAGE053
,P([MASK]=w)是w出现在[MASK]位置的预测概率,w是标记器的词汇表V中的一个词。
3.根据权利要求1所述的一种基于语境建模的智能情感识别方法,其特征在于,使用RoBERTa作为预训练模型并使用交叉熵损失来训练情感分析模块,具体如下:
Figure 551375DEST_PATH_IMAGE056
其中,log是指求对数,q是训练集Q中的一个对话,Lq是对话q中的句子编号,wt是对应于句子
Figure 219117DEST_PATH_IMAGE057
的真实情感类别的词,而P(wt)是wt出现在句子
Figure 215892DEST_PATH_IMAGE057
的[MASK]位置的估计概率。
CN202211554419.2A 2022-12-06 2022-12-06 一种基于语境建模的智能情感识别方法 Active CN115563290B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211554419.2A CN115563290B (zh) 2022-12-06 2022-12-06 一种基于语境建模的智能情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211554419.2A CN115563290B (zh) 2022-12-06 2022-12-06 一种基于语境建模的智能情感识别方法

Publications (2)

Publication Number Publication Date
CN115563290A CN115563290A (zh) 2023-01-03
CN115563290B true CN115563290B (zh) 2023-04-07

Family

ID=84769732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211554419.2A Active CN115563290B (zh) 2022-12-06 2022-12-06 一种基于语境建模的智能情感识别方法

Country Status (1)

Country Link
CN (1) CN115563290B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116108836B (zh) * 2023-04-10 2023-07-11 之江实验室 文本情感识别方法、装置、计算机设备及可读存储介质
CN116259308B (zh) * 2023-05-16 2023-07-21 四川大学 一种语境感知的空管语音识别方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609289A (zh) * 2021-07-06 2021-11-05 河南工业大学 一种基于多模态对话文本的情感识别方法
CN114722838A (zh) * 2022-04-11 2022-07-08 天津大学 基于常识感知和层次化多任务学习的对话情感识别方法
CN114912423A (zh) * 2022-03-24 2022-08-16 燕山大学 一种基于迁移学习的方面级别情感分析方法及装置
CN114970561A (zh) * 2022-05-27 2022-08-30 华东师范大学 一种性格加强的对话情感预测模型及其构建方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220237378A1 (en) * 2021-01-25 2022-07-28 Royal Bank Of America System and method for natural language processing with pretrained language models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609289A (zh) * 2021-07-06 2021-11-05 河南工业大学 一种基于多模态对话文本的情感识别方法
CN114912423A (zh) * 2022-03-24 2022-08-16 燕山大学 一种基于迁移学习的方面级别情感分析方法及装置
CN114722838A (zh) * 2022-04-11 2022-07-08 天津大学 基于常识感知和层次化多任务学习的对话情感识别方法
CN114970561A (zh) * 2022-05-27 2022-08-30 华东师范大学 一种性格加强的对话情感预测模型及其构建方法

Also Published As

Publication number Publication date
CN115563290A (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
CN110781680B (zh) 基于孪生网络和多头注意力机制的语义相似度匹配方法
CN111680541B (zh) 一种基于多维度注意力融合网络的多模态情绪分析方法
Gibson et al. A deep learning approach to modeling empathy in addiction counseling
CN115563290B (zh) 一种基于语境建模的智能情感识别方法
CN113420807A (zh) 基于多任务学习与注意力机制的多模态融合情感识别系统、方法及实验评价方法
Khare et al. Self-supervised learning with cross-modal transformers for emotion recognition
CN109992669B (zh) 一种基于语言模型和强化学习的关键词问答方法
CN112259100B (zh) 语音识别方法及相关模型的训练方法和相关设备、装置
CN111274362A (zh) 一种基于transformer架构的对话生成方法
CN112287675A (zh) 一种基于文本和语音信息融合的智能客服意图理解方法
CN112765333B (zh) 基于情感与提示词结合的自动对话生成方法及系统
CN113392265A (zh) 多媒体处理方法、装置及设备
CN112101044A (zh) 一种意图识别方法、装置及电子设备
CN112632244A (zh) 一种人机通话的优化方法、装置、计算机设备及存储介质
CN113918813A (zh) 基于聊天记录形式外部知识的人岗推荐方法及装置
CN116561265A (zh) 个性化对话生成方法和模型训练方法以及设备
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN114118451A (zh) 智能交互模型的训练方法、交互方法、装置及设备
CN118193702A (zh) 用于英语教学的智能化人机交互系统及方法
CN115730203A (zh) 一种基于全局感知跨模态特征融合网络的语音情感识别方法
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
Ai et al. A Two-Stage Multimodal Emotion Recognition Model Based on Graph Contrastive Learning
Xu et al. CLUF: A neural model for second language acquisition modeling
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN116108856B (zh) 基于长短回路认知与显隐情感交互的情感识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An Intelligent Emotion Recognition Method Based on Context Modeling

Granted publication date: 20230407

Pledgee: Guangdong Provincial Bank of Communications Co.,Ltd.

Pledgor: Guangdong Shuye Intelligent Technology Co.,Ltd.

Registration number: Y2024980029179