CN111274390A - 一种基于对话数据的情感原因确定方法及装置 - Google Patents

一种基于对话数据的情感原因确定方法及装置 Download PDF

Info

Publication number
CN111274390A
CN111274390A CN202010040848.2A CN202010040848A CN111274390A CN 111274390 A CN111274390 A CN 111274390A CN 202010040848 A CN202010040848 A CN 202010040848A CN 111274390 A CN111274390 A CN 111274390A
Authority
CN
China
Prior art keywords
emotion
negative
emotional
sentences
dialogue data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010040848.2A
Other languages
English (en)
Other versions
CN111274390B (zh
Inventor
蔡林
杨海军
徐倩
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010040848.2A priority Critical patent/CN111274390B/zh
Publication of CN111274390A publication Critical patent/CN111274390A/zh
Application granted granted Critical
Publication of CN111274390B publication Critical patent/CN111274390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种基于对话数据的情感原因确定方法及装置,该方法包括获取对话数据,将对话数据进行数据处理,得到对话数据中带有情感的句子,将对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出对话数据中负向情感的句子,将对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到负向情感的句子的情感主题,根据负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出负向情感的句子的情感原因,根据负向情感的句子的情感原因,确定出对应的预设回复方式,并将预设回复方式发送给用户,可以解决与用户对话时难识别出用户负面情绪的问题。

Description

一种基于对话数据的情感原因确定方法及装置
技术领域
本发明实施例涉及金融科技(Finteh)领域,尤其涉及一种基于对话数据的情感原因确定方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求。
情感计算是实现人性化的人机交互过程中必不可少的部分,情感识别与理解技术也是人机交互的基础性技术之一。尤其在对话系统中,作为一个直接与人对话的系统,若能完成对用户情绪的实时感知,对提升整个对话系统的质量,具有重大的意义。目前识别用户情绪主要依赖情感词典,但是金融业的业务场景繁多,且对话系统中往往极少出现比如“开心”“愤怒”等明显表达情绪的词语,因此很难从具体的对话场景中通过情感词识别出用户情绪,导致与用户对话时用户产生负面情绪无法得到及时安抚,用户体验差。
综上,目前亟需一种基于对话数据的情感原因确定方法,用以解决与用户对话时难识别出用户负面情绪的问题。
发明内容
本发明实施例提供了一种基于对话数据的情感原因确定方法及装置,用以解决与用户对话时难识别出用户负面情绪的问题。
第一方面,本发明实施例提供了一种基于对话数据的情感原因确定方法,包括:
获取对话数据;
将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子;
将所述对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出所述对话数据中负向情感的句子;所述情感类别识别模型是使用带有情感的句子的训练样本对卷积神经网络进行训练确定的;
将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题;
根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因;
根据所述负向情感的句子的情感原因,确定出与所述负向情感的句子的情感原因对应的预设回复方式,并将所述预设回复方式发送给用户。
上述技术方案中,通过将对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出对话数据中负向情感的句子,将对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到负向情感的句子的情感主题,再根据负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出负向情感的句子的情感原因,之后根据负向情感的句子的情感原因,确定出与负向情感的句子的情感原因对应的预设回复方式,并将预设回复方式发送给用户,可以解决与用户对话时难识别出用户负面情绪的问题,有助于提升用户体验,从而实现对用户情绪的实时感知,同时以业务场景为基础,也为各个行业情感分析落地提供了一套完整的流程。
可选地,所述将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题,包括:
将所述对话数据中负向情感的句子进行聚类分析,得到多个类别;
对每个类别中的负向情感的句子进行主题抽取,并将抽取的主题的词频进行统计,将词频最高的主题确定为所述负向情感的句子的情感主题。
上述技术方案中,通过将对话数据中负向情感的句子进行聚类分析,得到多个类别,对每个类别中的负向情感的句子进行主题抽取,并将抽取的主题的词频进行统计,再将词频最高的主题确定为负向情感的句子的情感主题,有助于快速识别出对话数据的情感主题,从而实现在与用户对话时用户产生负面情绪能及时得到安抚。
可选地,所述根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因,包括:
根据语义相似度模型对所述负向情感的句子的情感主题和所述情感原因库中的情感原因进行处理,确定出所述负向情感的句子的情感主题和所述情感原因库中的情感原因的语义相似度值;
若所述语义相似度值高于预设相似度阈值,则确定所述负向情感的句子的情感主题为对应的情感原因库中的情感原因。
上述技术方案中,通过根据语义相似度模型对负向情感的句子的情感主题和情感原因库中的情感原因进行处理,确定出负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度值,再将语义相似度值与预设相似度阈值进行比对,确定出对话数据的情感原因,有助于直接快速识别出用户产生负面情绪的原因,从而实现在与用户对话时用户产生负面情绪能及时得到安抚,也能有效地反应产品或服务的问题,有助于挖掘产品或服务问题,提高企业效率。
可选地,所述方法还包括:
若所述语义相似度值不高于预设相似度阈值,则将所述负向情感的句子的情感主题确定为新的情感原因;
将所述新的情感原因存储在所述情感原因库中,并根据所述新的情感原因确定新的回复方式。
上述技术方案中,通过将语义相似度值不高于预设相似度阈值的负向情感的句子的情感主题确定为新的情感原因,并将新的情感原因存储在情感原因库中,有助于识别出与用户对话时用户产生负面情绪的新情感原因,并根据新的情感原因设定新的回复方式,从而为实际的业务场景需要提供支持。
可选地,所述将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子,包括:
对所述对话数据进行分句处理;
查找所述对话数据的分句的情感词,并对所述对话数据的分句的情感词进行信息标记,所述信息为所述对话数据的分句的情感词的属性信息和位置信息;
根据所述对话数据的分句的情感词的属性信息和位置信息,对所述对话数据的分句进行处理,确定出所述对话数据中带有情感的句子。
上述技术方案中,通过查找对话数据的分句的情感词,并将对话数据的分句的情感词进行信息标记,再根据情感词的属性信息和位置信息可以初步确定出对话数据中带有情感的句子,有助于清洗掉一些中性的对话数据,从而有效地提高情感原因识别的效率和质量。
可选地,所述使用带有情感的句子的训练样本对卷积神经网络进行训练确定所述情感类别识别模型,包括:
获取所述带有情感的句子的训练样本;
将所述训练样本的词汇转化为所述训练样本的词汇对应的词向量矩阵;
将所述训练样本的词汇对应的词向量矩阵对所述卷积神经网络进行训练,得到情感类别识别模型。
上述技术方案中,通过使用带有情感的句子的训练样本对卷积神经网络进行训练确定出情感类别识别模型,可以进一步确定出对话数据中负向情感的句子,从而实现对话数据中情感原因的精确识别。
可选地,所述将所述训练样本的词汇转化为所述训练样本的词汇对应的词向量矩阵,包括:
使用预训练好的词向量模型,将所述训练样本的词汇中的每个词语映射为词向量;
所述训练样本的词汇中的每个词语的词向量构成所述训练样本的词汇对应的词向量矩阵。
上述技术方案中,由于情感分类模型可以读取序列化的单词,而不是文本式的词语,因此,通过使用预训练好的词向量模型将训练样本的词汇转化为训练样本的词汇对应的词向量矩阵,可以实现文本词汇信息到数值化语义空间的映射,从而可以为情感分类模型的处理提供数据支持。
第二方面,本发明实施例还提供了一种基于对话数据的情感原因确定装置,包括:
获取单元,用于获取对话数据;
处理单元,用于将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子;将所述对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出所述对话数据中负向情感的句子;所述情感类别识别模型是使用带有情感的句子的训练样本对卷积神经网络进行训练确定的;将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题;根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因;根据所述负向情感的句子的情感原因,确定出与所述负向情感的句子的情感原因对应的预设回复方式,并将所述预设回复方式发送给用户。
可选地,所述处理单元具体用于:
将所述对话数据中负向情感的句子进行聚类分析,得到多个类别;
对每个类别中的负向情感的句子进行主题抽取,并将抽取的主题的词频进行统计,将词频最高的主题确定为所述负向情感的句子的情感主题。
可选地,所述处理单元具体用于:
根据语义相似度模型对所述负向情感的句子的情感主题和所述情感原因库中的情感原因进行处理,确定出所述负向情感的句子的情感主题和所述情感原因库中的情感原因的语义相似度值;
若所述语义相似度值高于预设相似度阈值,则确定所述负向情感的句子的情感主题为对应的情感原因库中的情感原因。
可选地,所述处理单元还用于:
若所述语义相似度值不高于预设相似度阈值,则将所述负向情感的句子的情感主题确定为新的情感原因;
将所述新的情感原因存储在所述情感原因库中,并根据所述新的情感原因确定新的回复方式。
可选地,所述处理单元具体用于:
对所述对话数据进行分句处理;
查找所述对话数据的分句的情感词,并对所述对话数据的分句的情感词进行信息标记,所述信息为所述对话数据的分句的情感词的属性信息和位置信息;
根据所述对话数据的分句的情感词的属性信息和位置信息,对所述对话数据的分句进行处理,确定出所述对话数据中带有情感的句子。
可选地,所述处理单元具体用于:
获取所述带有情感的句子的训练样本;
将所述训练样本的词汇转化为所述训练样本的词汇对应的词向量矩阵;
将所述训练样本的词汇对应的词向量矩阵对所述卷积神经网络进行训练,得到情感类别识别模型。
可选地,所述处理单元具体用于:
使用预训练好的词向量模型,将所述训练样本的词汇中的每个词语映射为词向量;
所述训练样本的词汇中的每个词语的词向量构成所述训练样本的词汇对应的词向量矩阵。
第三方面,本发明实施例提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行基于对话数据的情感原因确定方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行基于对话数据的情感原因确定方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种基于对话数据的情感原因确定方法的流程示意图;
图3本发明实施例提供的一种利用卷积神经网络模型对对话数据进行分类识别的结构示意图;
图4为本发明实施例提供的一种基于对话数据的情感原因确定装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种系统架构。如图1所示,该系统架构可以为服务器100,包括处理器110、通信接口120和存储器130。
其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种基于对话数据的情感原因确定方法的流程,该流程可以由基于对话数据的情感原因确定装置执行,该装置可以位于如图1所示服务器100内,也可以是该服务器100。
如图2所示,该流程具体步骤包括:
步骤201,获取对话数据。
在本发明实施例中,该对话数据可以是客服机器人与用户之间的对话数据,即为用户输入的对话数据,可以包括历史对话数据或者新的对话数据。
步骤202,将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子。
在本发明实施例中,由于利用海量的数据进行情感原因的分类训练,加大了训练的时间成本,且数据质量较差,因此,需要初步通过一些规则进行数据清洗。具体地,可以先对对话数据进行分句处理,查找对话数据的分句的情感词,并对对话数据的分句的情感词进行信息标记,信息为对话数据的分句的情感词的属性信息和位置信息,再根据对话数据的分句的情感词的属性信息和位置信息,将对话数据的分句进行处理,确定出所述对话数据中带有情感的句子,其中,对话数据的分句的情感词的属性信息可以包括对话数据的分句的积极情感词或消极情感词,对话数据中带有情感的句子包括正向情感的句子或负向情感的句子。
举例来说,首先将对话数据进行分句处理,查询分句的情感词,记录情感词是积极还是消极,以及情感词所在的位置;查找情感词前的程度词,找到就停止搜索,为程度词设置权值,乘以情感值;查找情感词前的否定词,找到全部否定词并统计否定词的数量,若数量为奇数,乘以-1,若数量为偶数,乘以1;判断分句的结尾是否有感叹号,若结尾有感叹号则往前寻找情感词,有情感词则相应的情感值+2;计算完一条对话的所有分句的情感值,用数组记录下来;计算并记录所有对话的情感值;通过分句计算每条对话的积极情感均值、消极情感均值、积极情感方差以及消极情感方差;对每条对话的情感值进行比较,若积极情感值高于负向情感值,则判断为正向情感,若积极情感值低于负向情感值,则判断为负向情感,若两者相等,则舍弃这一条对话,其中,这里所说的对情感值进行比较主要是指对情感方差进行比较。
步骤203,将所述对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出所述对话数据中负向情感的句子。
由于情感分类模型需要读取序列化的单词,而不是文本式的词语,因此,需要先使用预训练好的词向量模型将训练样本的词汇转化为训练样本的词汇对应的词向量矩阵。具体地,在获取带有情感的句子的训练样本之后,使用预训练好的词向量模型,将训练样本的词汇中的每个词语映射为词向量,再将训练样本的词汇中的每个词语的词向量构成训练样本的词汇对应的词向量矩阵,最后将训练样本的词汇对应的词向量矩阵对卷积神经网络进行训练,得到情感类别识别模型。
在本发明实施过程中,利用卷积神经网络模型对对话数据中带有情感的句子进行分类识别,具体模型结构如图3所示,首先在输入层使用预训练好的词向量模型(如Word2vec或Glove)将训练样本的词汇中的每个词语映射为词向量,将训练样本的词汇中的每个词语的词向量构成训练样本的词汇对应的词向量矩阵,然后在卷积层利用多个不同尺寸的卷积核来提取带有情感的句子中的关键信息,从而能够更好地捕捉其局部相关性,最后在池化层采用最大化池策略,提取出带有情感的句子中最重要的特征,以此训练得到情感类别识别模型。在实际业务场景中,主要是得到带有负向情感的句子,以使改善产品和服务,因此,将对话数据中带有情感的句子输入到情感类别识别模型进行分类识别,确定出对话数据中负向情感的句子,且后续步骤的实施例也是以对话数据中负向情感的句子作为数据输入,其中,预训练好的词向量模型是根据带有情感的句子的训练样本进行训练得到的。
步骤204,将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题。
在本发明实施例中,通过将对话数据中负向情感的句子进行聚类分析,得到多个类别,再对每个类别中的负向情感的句子进行主题抽取,并对所抽取的主题的词频进行统计,将词频最高的主题确定为负向情感的句子的情感主题。
具体地,由情感分类得到对话数据中负向情感的句子,在没有特定分类的情况下,首先采用DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise,密度聚类算法)算法将情感产生原因相似的句子聚集在一起,形成聚类簇。本发明实施例可以将情感原因识别转换成话题发现,对不同类用户的问题进行话题建模,利用LDA(LatentDirichlet Allocation,文档主题生成模型)算法对聚类簇中的情感主题行抽取,并对抽取出的主题进行聚类,比如每个话题选取10个主题词,在建模过程中统计所有的词和短语的频数,将词频最高的主题词作为该类情感问题的标签,即该类情感问题的主题。
步骤205,根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因。
在本发明实施例中,根据语义相似度模型对负向情感的句子的情感主题和情感原因库中的情感原因进行处理,确定出负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度值,再将语义相似度值与预设相似度阈值进行比对,若语义相似度值高于预设相似度阈值,则确定负向情感的句子的情感主题为对应的情感原因库中的情感原因;若语义相似度值不高于预设相似度阈值,则将负向情感的句子的情感主题确定为新的情感原因,并将新的情感原因存储在情感原因库中。
具体地,情感原因定类可以根据语义相似度分为两大任务,情感原因映射和情感原因发现。基于DSSM(Deep Structured Semantic Models,深度结构化语义模型)算法对抽取的情感主题和预定义的情感主题(19类主题,如表1所示)进行语义相似度计算,得到语义相似度值,设定一个相似度阈值α,若语义相似度值高于α,表示抽取的情感主题映射为预定义的情感主题中对应的主题;若抽取的情感主题和预定义的情感主题的所有语义相似度值都低于α,则将该抽取的情感主题设定为发现的新主题,并将发现的新主题加入到预定义的情感主题中,即存储在情感原因库中。其中,预定义的情感主题即情感原因库中的情感原因;发现的新主题即新的情感原因;相似度阈值α可以依据经验设置。
表1预定义的情感主题
扣款 还款 借款 征信
逾期 延期 到账 微粒贷
信用 提现 利息 没有接到电话
分期 银行卡 银行 身份认证
综合审核 电话 额度
步骤206,根据所述负向情感的句子的情感原因,确定出与所述负向情感的句子的情感原因对应的预设回复方式,并将所述预设回复方式发送给用户。
在本发明实施例中,若负向情感的句子的情感原因为情感原因库中已有的情感原因,则根据负向情感的句子的情感原因,确定出与负向情感的句子的情感原因对应的预设回复方式,并将预设回复方式发送给用户;若负向情感的句子的情感原因为新发现的情感原因,则根据新的情感原因,确定出与新的情感原因对应的新的回复方式,并将新的回复方式发送给用户。
本发明实施例表明,获取对话数据,将对话数据进行数据处理,得到所述对话数据中带有情感的句子,将对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出对话数据中负向情感的句子,将对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到负向情感的句子的情感主题,再根据负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出负向情感的句子的情感原因,之后根据负向情感的句子的情感原因,确定出与负向情感的句子的情感原因对应的预设回复方式,并将预设回复方式发送给用户,可以解决与用户对话时难识别出用户负面情绪的问题,有助于提升用户体验,从而实现对用户情绪的实时感知。
基于相同的技术构思,图4示例性的示出了本发明实施例提供的一种基于对话数据的情感原因确定装置,该装置可以执行基于对话数据的情感原因确定方法的流程。
如图4所示,该装置包括:
获取单元401,用于获取对话数据;
处理单元402,用于将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子;将所述对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出所述对话数据中负向情感的句子;所述情感类别识别模型是使用带有情感的句子的训练样本对卷积神经网络进行训练确定的;将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题;根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因;根据所述负向情感的句子的情感原因,确定出与所述负向情感的句子的情感原因对应的预设回复方式,并将所述预设回复方式发送给用户。
可选地,所述处理单元402具体用于:
将所述对话数据中负向情感的句子进行聚类分析,得到多个类别;
对每个类别中的负向情感的句子进行主题抽取,并将抽取的主题的词频进行统计,将词频最高的主题确定为所述负向情感的句子的情感主题。
可选地,所述处理单元402具体用于:
根据语义相似度模型对所述负向情感的句子的情感主题和所述情感原因库中的情感原因进行处理,确定出所述负向情感的句子的情感主题和所述情感原因库中的情感原因的语义相似度值;
若所述语义相似度值高于预设相似度阈值,则确定所述负向情感的句子的情感主题为对应的情感原因库中的情感原因。
可选地,所述处理单元402还用于:
若所述语义相似度值不高于预设相似度阈值,则将所述负向情感的句子的情感主题确定为新的情感原因;
将所述新的情感原因存储在所述情感原因库中,并根据所述新的情感原因确定新的回复方式。
可选地,所述处理单元402具体用于:
对所述对话数据进行分句处理;
查找所述对话数据的分句的情感词,并对所述对话数据的分句的情感词进行信息标记,所述信息为所述对话数据的分句的情感词的属性信息和位置信息;
根据所述对话数据的分句的情感词的属性信息和位置信息,对所述对话数据的分句进行处理,确定出所述对话数据中带有情感的句子。
可选地,所述处理单元402具体用于:
获取所述带有情感的句子的训练样本;
将所述训练样本的词汇转化为所述训练样本的词汇对应的词向量矩阵;
将所述训练样本的词汇对应的词向量矩阵对所述卷积神经网络进行训练,得到情感类别识别模型。
可选地,所述处理单元402具体用于:
使用预训练好的词向量模型,将所述训练样本的词汇中的每个词语映射为词向量;
所述训练样本的词汇中的每个词语的词向量构成所述训练样本的词汇对应的词向量矩阵。
基于相同的技术构思,本发明实施例提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行基于对话数据的情感原因确定方法。
基于相同的技术构思,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行基于对话数据的情感原因确定方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于对话数据的情感原因确定方法,其特征在于,包括:
获取对话数据;
将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子;
将所述对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出所述对话数据中负向情感的句子;所述情感类别识别模型是使用带有情感的句子的训练样本对卷积神经网络进行训练确定的;
将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题;
根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因;
根据所述负向情感的句子的情感原因,确定出与所述负向情感的句子的情感原因对应的预设回复方式,并将所述预设回复方式发送给用户。
2.如权利要求1所述的方法,其特征在于,所述将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题,包括:
将所述对话数据中负向情感的句子进行聚类分析,得到多个类别;
对每个类别中的负向情感的句子进行主题抽取,并将抽取的主题的词频进行统计,将词频最高的主题确定为所述负向情感的句子的情感主题。
3.如权利要求1所述的方法,其特征在于,所述根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因,包括:
根据语义相似度模型对所述负向情感的句子的情感主题和所述情感原因库中的情感原因进行处理,确定出所述负向情感的句子的情感主题和所述情感原因库中的情感原因的语义相似度值;
若所述语义相似度值高于预设相似度阈值,则确定所述负向情感的句子的情感主题为对应的情感原因库中的情感原因。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
若所述语义相似度值不高于预设相似度阈值,则将所述负向情感的句子的情感主题确定为新的情感原因;
将所述新的情感原因存储在所述情感原因库中,并根据所述新的情感原因确定新的回复方式。
5.如权利要求1所述的方法,其特征在于,所述将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子,包括:
对所述对话数据进行分句处理;
查找所述对话数据的分句的情感词,并对所述对话数据的分句的情感词进行信息标记,所述信息为所述对话数据的分句的情感词的属性信息和位置信息;
根据所述对话数据的分句的情感词的属性信息和位置信息,对所述对话数据的分句进行处理,确定出所述对话数据中带有情感的句子。
6.如权利要求1所述的方法,其特征在于,所述使用带有情感的句子的训练样本对卷积神经网络进行训练确定所述情感类别识别模型,包括:
获取所述带有情感的句子的训练样本;
将所述训练样本的词汇转化为所述训练样本的词汇对应的词向量矩阵;
将所述训练样本的词汇对应的词向量矩阵对所述卷积神经网络进行训练,得到情感类别识别模型。
7.如权利要求6所述的方法,其特征在于,所述将所述训练样本的词汇转化为所述训练样本的词汇对应的词向量矩阵,包括:
使用预训练好的词向量模型,将所述训练样本的词汇中的每个词语映射为词向量;
所述训练样本的词汇中的每个词语的词向量构成所述训练样本的词汇对应的词向量矩阵。
8.一种基于对话数据的情感原因确定装置,其特征在于,包括:
获取单元,用于获取对话数据;
处理单元,用于将所述对话数据进行数据处理,得到所述对话数据中带有情感的句子;将所述对话数据中带有情感的句子输入到情感类别识别模型进行识别,确定出所述对话数据中负向情感的句子;所述情感类别识别模型是使用带有情感的句子的训练样本对卷积神经网络进行训练确定的;将所述对话数据中负向情感的句子进行聚类分析,得到多个类别,并对每个类别中的负向情感的句子进行主题抽取,得到所述负向情感的句子的情感主题;根据所述负向情感的句子的情感主题和情感原因库中的情感原因的语义相似度,确定出所述负向情感的句子的情感原因;根据所述负向情感的句子的情感原因,确定出与所述负向情感的句子的情感原因对应的预设回复方式,并将所述预设回复方式发送给用户。
9.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1至7任一项所述的方法。
CN202010040848.2A 2020-01-15 2020-01-15 一种基于对话数据的情感原因确定方法及装置 Active CN111274390B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010040848.2A CN111274390B (zh) 2020-01-15 2020-01-15 一种基于对话数据的情感原因确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010040848.2A CN111274390B (zh) 2020-01-15 2020-01-15 一种基于对话数据的情感原因确定方法及装置

Publications (2)

Publication Number Publication Date
CN111274390A true CN111274390A (zh) 2020-06-12
CN111274390B CN111274390B (zh) 2023-10-27

Family

ID=71002166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010040848.2A Active CN111274390B (zh) 2020-01-15 2020-01-15 一种基于对话数据的情感原因确定方法及装置

Country Status (1)

Country Link
CN (1) CN111274390B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950275A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
CN112800184A (zh) * 2021-01-13 2021-05-14 华东师范大学 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN115934909A (zh) * 2022-12-02 2023-04-07 苏州复变医疗科技有限公司 一种共情回复生成方法、装置、终端和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150286627A1 (en) * 2014-04-03 2015-10-08 Adobe Systems Incorporated Contextual sentiment text analysis
CN104573016A (zh) * 2015-01-12 2015-04-29 武汉泰迪智慧科技有限公司 一种基于行业的垂直舆情分析系统及方法
CN108427722A (zh) * 2018-02-09 2018-08-21 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质
WO2019153522A1 (zh) * 2018-02-09 2019-08-15 卫盈联信息技术(深圳)有限公司 智能交互方法、电子装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
延丰;杜腾飞;毛建华;刘学锋;: "基于情感词典与LDA模型的股市文本情感分析", 电子测量技术, no. 12 *
杨开漠;吴明芬;陈涛;: "广义文本情感分析综述", 计算机应用, no. 2 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950275A (zh) * 2020-08-06 2020-11-17 平安科技(深圳)有限公司 基于循环神经网络的情绪识别方法、装置及存储介质
CN112800184A (zh) * 2021-01-13 2021-05-14 华东师范大学 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN112800184B (zh) * 2021-01-13 2021-08-06 华东师范大学 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN115934909A (zh) * 2022-12-02 2023-04-07 苏州复变医疗科技有限公司 一种共情回复生成方法、装置、终端和存储介质
CN115934909B (zh) * 2022-12-02 2023-11-17 苏州复变医疗科技有限公司 一种共情回复生成方法、装置、终端和存储介质

Also Published As

Publication number Publication date
CN111274390B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
EP3583511A1 (en) Unsupervised automated topic detection, segmentation and labeling of conversations
CN111125354A (zh) 文本分类方法及装置
US20140222419A1 (en) Automated Ontology Development
CN111274390B (zh) 一种基于对话数据的情感原因确定方法及装置
CN111159375A (zh) 一种文本处理方法及装置
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111309905A (zh) 一种对话语句的聚类方法、装置、电子设备及存储介质
CN112732871A (zh) 一种机器人催收获取客户意向标签的多标签分类方法
CN110825839A (zh) 一种对文本信息中目标的关联关系分析方法
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN114936727A (zh) 一种工单派发系统、方法及计算机设备
CN111738018A (zh) 一种意图理解方法、装置、设备及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113990352A (zh) 用户情绪识别与预测方法、装置、设备及存储介质
CN113807103A (zh) 基于人工智能的招聘方法、装置、设备及存储介质
CN111739537B (zh) 语义识别方法、装置、存储介质及处理器
CN112562736A (zh) 一种语音数据集质量评估方法和装置
CN117278675A (zh) 一种基于意图分类的外呼方法、装置、设备及介质
CN115759048A (zh) 一种剧本文本处理方法及装置
CN112035670B (zh) 基于图像情感倾向的多模态谣言检测方法
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
CN113870478A (zh) 快速取号方法、装置、电子设备及存储介质
CN111666755A (zh) 一种复述句识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant