CN112836053A - 用于工业领域的人机对话情感分析方法及系统 - Google Patents

用于工业领域的人机对话情感分析方法及系统 Download PDF

Info

Publication number
CN112836053A
CN112836053A CN202110245621.6A CN202110245621A CN112836053A CN 112836053 A CN112836053 A CN 112836053A CN 202110245621 A CN202110245621 A CN 202110245621A CN 112836053 A CN112836053 A CN 112836053A
Authority
CN
China
Prior art keywords
text data
emotion
human
classification model
analyzed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110245621.6A
Other languages
English (en)
Inventor
王健健
蒋华晨
刘扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sany Heavy Industry Co Ltd
Original Assignee
Sany Heavy Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sany Heavy Industry Co Ltd filed Critical Sany Heavy Industry Co Ltd
Priority to CN202110245621.6A priority Critical patent/CN112836053A/zh
Publication of CN112836053A publication Critical patent/CN112836053A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于工业领域的人机对话情感分析方法及系统,所述人机对话情感分析方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的待分析人机对话文本数据对应的情感类型。由于情感分类模型在训练过程中采用的人机对话文本数据样本是基于对工业领域的语料文本数据进行泛化得到,可以增加工业领域的语料文本数据量,进而增加人机对话文本数据样本量,使得情感分类模型具有充足的训练样本,保证了训练得到的情感分类模型的准确性以及稳定性,使情感分类模型得到的情感类型更加准确。

Description

用于工业领域的人机对话情感分析方法及系统
技术领域
本发明涉及人工智能技术领域,尤其涉及一种用于工业领域的人机对话情感分析方法及系统。
背景技术
随着人工智能(Artificial Intelligence,AI)技术的迅速发展,在传统工业领域也越来越多的涌现出人机对话、智能客服相关的业务场景。在这些业务中,人机对话应用场景除了需要解答相关的高频业务问题,还需要进一步的分析在对话中用户对于相关产品、服务等蕴含的情感倾向。通过情感分析技术可以更精确的分析用户的倾向,提供更人性化和更友好的回复。
当前的情感分析技术主要用于舆情分析、商品评价以及智能客服聊天对话等领域。由于情感分析技术的实现依托于大量的行业背景知识以及大量的标注数据,而在工业领域的相关应用场景下,由于语料缺乏、专业术语较多,采用常用的情感分析技术其分析效果并不好。
因此,现急需提供一种用于工业领域的人机对话情感分析方法。
发明内容
本发明提供一种用于工业领域的人机对话情感分析方法及系统,用以解决现有技术中存在的缺陷。
本发明提供一种用于工业领域的人机对话情感分析方法,包括:
获取待分析人机对话文本数据;
将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;
其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
根据本发明提供的一种用于工业领域的人机对话情感分析方法,所述人机对话文本数据样本通过如下方法得到:
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行实体词替换,得到第一类语料文本数据;和/或,
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行近义词替换,得到第二类语料文本数据;
基于所述语料文本数据,以及所述第一类语料文本数据和/或第二类语料文本数据,确定所述人机对话文本数据样本。
根据本发明提供的一种用于工业领域的人机对话情感分析方法,所述将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型,具体包括:
将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,得到所述向量转化层输出的所述待分析人机对话文本数据的向量表示;
将所述向量表示输入至所述情感分类模型的语义表征层,得到所述语义表征层输出的所述待分析人机对话文本数据的语义特征;
将所述语义特征输入至所述情感分类模型的分类层,得到所述分类层输出的所述待分析人机对话文本数据的情感类型。
根据本发明提供的一种用于工业领域的人机对话情感分析方法,所述将所述向量表示输入至所述情感分类模型的语义表征层,得到所述语义表征层输出的所述待分析人机对话文本数据的语义特征,具体包括:
将所述向量表示输入至所述情感分类模型的语义表征层,由所述语义表征层基于多头注意力机制对所述向量表示进行特征提取,并输出所述待分析人机对话文本数据的语义特征。
根据本发明提供的一种用于工业领域的人机对话情感分析方法,所述将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,得到所述向量转化层输出的所述待分析人机对话文本数据的向量表示,具体包括:
将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,由所述向量转化层确定所述待分析人机对话文本数据对应的Token序列,并基于所述Token序列得到所述待分析人机对话文本数据的Token向量、Token位置向量以及添加有标识符的语句向量。
根据本发明提供的一种用于工业领域的人机对话情感分析方法,所述情感分类模型的训练方法包括:
对所述向量转化层以及所述语义表征层进行第一阶段训练;
基于所述人机对话文本数据样本中的训练样本,对所述分类层以及预训练得到的向量转化层、语义表征层进行第二阶段训练;
基于第二阶段训练的结果,确定所述情感分类模型。
根据本发明提供的一种用于工业领域的人机对话情感分析方法,所述基于第二阶段训练的结果,确定所述情感分类模型,具体包括:
基于所述人机对话文本数据样本中的测试样本,对第二阶段训练的结果进行测试,并基于测试的结果,确定所述情感分类模型。
本发明还提供一种用于工业领域的人机对话情感分析系统,包括:文本数据获取模块和情感分析模块。其中,
文本数据获取模块用于获取待分析人机对话文本数据;
情感分析模块用于将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;
其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述用于工业领域的人机对话情感分析方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述用于工业领域的人机对话情感分析方法的步骤。
本发明提供的用于工业领域的人机对话情感分析方法及系统,所述人机对话情感分析方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的待分析人机对话文本数据对应的情感类型。由于情感分类模型在训练过程中采用的人机对话文本数据样本是基于对工业领域的语料文本数据进行泛化得到,可以增加工业领域的语料文本数据量,进而增加人机对话文本数据样本量,使得情感分类模型具有充足的训练样本,保证了训练得到的情感分类模型的准确性以及稳定性,使情感分类模型得到的情感类型更加准确。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的用于工业领域的人机对话情感分析方法的流程示意图;
图2是本发明提供的情感分类模型的结构示意图;
图3是本发明提供的用于工业领域的人机对话情感分析方法的完整流程示意图;
图4是本发明提供的用于工业领域的人机对话情感分析系统的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于目前的情感分析技术主要用于舆情分析、商品评价以及智能客服聊天对话等领域。在工业领域,由于语料缺乏、专业术语较多,若依然采用目前的情感分析技术则分析效果并不好,会导致分析结果不准确,进而得到错误的情感类型。因此,本发明实施例中提供了一种用于工业领域的人机对话情感分析方法。
图1为本发明实施例中提供的一种用于工业领域的人机对话情感分析方法的流程示意图,如图1所示,该方法包括:
S1,获取待分析人机对话文本数据;
S2,将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;
其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
具体地,本发明实施例中提供的用于工业领域的人机对话情感分析方法,其执行主体为服务器,可以为本地服务器,也可以为云端服务器,本地服务器可以为计算机、平板电脑以及智能手机等,本发明实施例中对此不作具体限定。
首先执行步骤S1。其中,待分析人机对话文本数据可以指工业领域中人机对话场景下需要确定其中情感类型的人机对话文本数据。人机对话场景是指用户与机器进行对话的场景,进行对话的机器可以是后台服务机器人等。人机对话场景下可以得到人机对话语音数据。人机对话文本数据是指人机对话语音数据对应的文本数据,可以通过对人机对话语音数据进行语音识别得到。人机对话语音数据可以是包含有用户语音数据以及机器语音数据的完整语音数据,也可以仅包含有用户语音数据。用户语音数据可以从用户端设备获取,机器语音数据可以从机器端设备获取,本发明实施例中对此不作具体限定。在得到待分析人机对话文本数据之后,可以对待分析人机对话文本数据进行清洗、去除特殊字符、做繁体转简体等预处理操作。
然后执行步骤S2。其中,采用的情感分类模型用于对输入的待分析人机对话数据进行情感分析,得到并输出待分析人机对话数据对应的情感类型。情感类型可以是指待分析人机对话数据中关于工业领域的产品和/或服务等目标对象的情感倾向,情感倾向可以包括正向情感倾向、中性情感倾向以及负向情感倾向。相应地,情感类型可以包括正向情感、中性情感和负向情感,正向情感可以是对目标对象的积极回应,例如“产品质量很好”等。中性情感可以是对目标对象的既不积极也不消极的回应,例如“产品质量一般”等。负向情感可以是对目标对象的消极回应,例如“产品漏油”等。
情感分类模型可以通过神经网络构建,并基于携带有情感类型标签的人机对话数据样本训练得到。具体而言,可以通过卷积神经网络构建情感分类模型,然后通过携带有情感类型标签的人机对话数据样本对情感分类模型进行训练,将人机对话数据样本输入至情感分类模型,得到情感分类模型输出的分类结果,并计算该分类结果与携带的情感类型标签的差值,基于该差值计算损失函数。调整情感分类模型的模型参数直至损失函数最小,训练结束,即得到训练后的情感分类模型。还可以通过其他类型的神经网络构建情感分类模型,比如循环神经网络、深度信念网络或生成对抗网络等。
需要说明的是,情感分类模型训练过程中,采用的人机对话数据样本是通过对工业领域的语料文本数据进行泛化得到,以使人机对话数据样本的数量可以足够用于对情感分类模型进行训练。语料文本数据是指工业领域中的人机对话历史文本数据,具体可以是质量评价语料文本数据,例如可以是工业产品质量评价相关的语料文本数据,还可以是工业服务质量评价相关的语料文本数据,本发明实施例中对此不作具体限定。泛化的方法可以有多种,例如实体词替换、同义词替换以及近义词替换等,也可以是上述方法中的任意多种的组合,本发明实施例中对此不作具体限定。
可以先获取工业领域人机对话场景中关于工业产品和服务评价等带有情感倾向的语料文本数据,并对语料文本数据进行清洗、去除特殊字符、做繁体转简体等预处理操作。然后,对预处理后的语料文本数据,采用实体词替换以及近义词替换等方式进行泛化,最后结合工业领域的文本词典,对语料文本数据标注正向情感、中性情感以及负向情感等情感类型标签,得到人机对话文本数据样本。其中,工业领域的文本词典中存储有工业领域的大量专业词汇、实体词等。
本发明实施例中提供的用于工业领域的人机对话情感分析方法,包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的待分析人机对话文本数据对应的情感类型。由于情感分类模型在训练过程中采用的人机对话文本数据样本是基于对工业领域的语料文本数据进行泛化得到,可以增加工业领域的语料文本数据量,进而增加人机对话文本数据样本量,使得情感分类模型具有充足的训练样本,保证了训练得到的情感分类模型的准确性以及稳定性,使情感分类模型得到的情感类型更加准确。
在上述实施例的基础上,本发明实施例中提供的用于工业领域的人机对话情感分析方法,所述人机对话文本数据样本通过如下方法得到:
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行实体词替换,得到第一类语料文本数据;和/或,
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行近义词替换,得到第二类语料文本数据;
基于所述语料文本数据,以及所述第一类语料文本数据和/或第二类语料文本数据,确定所述人机对话文本数据样本。
具体地,本发明实施例中,可以通过对语料文本数据进行实体词替换以及近义词替换的方式获取人机对话文本数据样本。可以先对语料文本数据进行分词处理,分词处理的结果是语料文本数据包括的各个单词以及对应的词向量。
一方面,可以根据分词处理的结果,并结合工业领域的文本词典,对语料文本数据进行实体词替换。即识别语料文本数据中的实体词,实体词可以包括工业领域相关的产品、配件、原材料、品牌以及公司名称等。并采用工业领域的文本词典中的实体词进行替换,例如语料文本数据中包括“产品A”,则可以用工业领域的文本词典中其他产品替换该产品,每替换一次即得到一个新的语料文本数据,该新的语料文本数据即为第一类语料文本数据。其中,目标领域的文本词典中存储有目标领域的大量专业词汇、实体词等。
另一方面,可以根据分词处理的结果,并结合工业领域的文本词典,对语料文本数据进行近义词替换。即对于分词处理的结果中每个单词,在工业领域的文本词典中确定该单词的近义词,并用该近义词替换该单词,每替换一次即得到一个新的语料文本数据,该新的语料文本数据即为第二类语料文本数据。
需要说明的是,实体词替换与近义词替换可以二选一,也可以同时存在。当同时存在时,可以先进行实体词替换然后再进行近义词替换,也可以先进行近义词替换然后再进行实体词替换,本发明实施例中对二者执行的顺序不作具体限定。
最后,根据语料文本数据,以及实体词替换得到的第一类语料文本数据和/或近义词替换得到的第二类语料文本数据,确定出人机对话文本数据样本。即将语料文本数据与第一类语料文本数据共同作为人机对话文本数据样本,或将语料文本数据与第二类语料文本数据共同作为人机对话文本数据样本,或将语料文本数据、第一类语料文本数据以及第二类语料文本数据共同作为人机对话文本数据样本。
本发明实施例中,提供了对语料文本数据的两种泛化方法,可以使人机对话文本数据样本更充足。
在上述实施例的基础上,本发明实施例中提供的用于工业领域的人机对话情感分析方法,所述将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型,具体包括:
将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,得到所述向量转化层输出的所述待分析人机对话文本数据的向量表示;
将所述向量表示输入至所述情感分类模型的语义表征层,得到所述语义表征层输出的所述待分析人机对话文本数据的语义特征;
将所述语义特征输入至所述情感分类模型的分类层,得到所述分类层输出的所述待分析人机对话文本数据的情感类型。
具体地,本发明实施例中采用的情感分类模型可以基于双向Transformer的编码器(Bidirectional Encoder Representation from Transformers,BERT)词向量构建,也可以基于BILSTM模型或ALBERT模型构建,本发明实施例中对此不作具体限定。
情感分类模型可以包括向量转化层、语义表征层以及分类层,向量转化层、语义表征层以及分类层依次连接。
向量转化层,又可称为嵌入层(Embedding),用于将输入的待分析人机对话文本数据转换成向量表示,待分析人机对话文本数据的单词可以通过Token向量(即词向量)表示,待分析人机对话文本数据的每个语句可以通过Token序列表示,待分析人机对话文本数据中每个单词在语句中的位置可以通过Token位置向量表示。
语义表征层可以由多个Transformer编码单元构成,语义表征层可以对向量表示进行特征提取,以提取待分析人机对话文本数据中的语义特征。
分类层用于对语义表征层输出的语义特征进行分类,并输出待分析人机对话文本数据的情感类型。
在上述实施例的基础上,本发明实施例中提供的用于工业领域的人机对话情感分析方法,所述将所述向量表示输入至所述情感分类模型的语义表征层,得到所述语义表征层输出的所述待分析人机对话文本数据的语义特征,具体包括:
将所述向量表示输入至所述情感分类模型的语义表征层,由所述语义表征层基于多头注意力机制对所述向量表示进行特征提取,并输出所述待分析人机对话文本数据的语义特征。
具体地,本发明实施例中,Transformer编码单元可以是由多个自注意力机制构成的多头注意力模块,以使提取的语义特征更准确。
在上述实施例的基础上,本发明实施例中提供的用于工业领域的人机对话情感分析方法,所述将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,得到所述向量转化层输出的所述待分析人机对话文本数据的向量表示,具体包括:
将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,由所述向量转化层确定所述待分析人机对话文本数据对应的Token序列,并基于所述Token序列得到所述待分析人机对话文本数据的Token向量、Token位置向量以及添加有标识符的语句向量。
具体地,本发明实施例中,向量转化层可以将待分析人机对话文本数据的每一语句转换为Token序列,并根据Token序列,得到待分析人机对话文本数据的Token向量、Token位置向量以及添加有标识符的语句向量。即在语句向量的开始位置和结束位置添加特殊符号,例如CLS符号、SEP符号等,作为待分析人机对话文本数据的语义表示。
在上述实施例的基础上,本发明实施例中提供的用于工业领域的人机对话情感分析方法,所述情感分类模型的训练方法包括:
对所述向量转化层以及所述语义表征层进行第一阶段训练;
基于所述人机对话文本数据样本中的训练样本,对所述分类层以及预训练得到的向量转化层、语义表征层进行第二阶段训练;
基于第二阶段训练的结果,确定所述情感分类模型。
具体地,本发明实施例中采用的情感分类模型,其中的向量转化层、语义表征层均可以先经过预训练得到。即在对情感分类模型进行训练时,可以先对向量转化层以及语义表征层进行第一阶段训练。然后,根据人机对话文本数据样本中的训练样本,对分类层以及预训练得到的向量转化层、语义表征层进行第二阶段训练,即对完整的情感分类模型采用低于预设值的学习率进行微调,通过设置相应的模型训练参数,并根据效果进行调整和优化。最后,根据第二阶段训练的结果,确定情感分类模型。可以直接将第二阶段训练的结果作为情感分类模型,还可以根据人机对话文本数据样本中的测试样本,对第二阶段训练的结果进行测试,进行情感分类模型的调参和优化,当情感分类模型的指标调到最好时,对最优的情感分类模型进行文件保存。
本发明实施例中,对情感分类模型进行分阶段训练,可以利用预训练的向量转化层以及语义表征层,节约训练时间和成本,而且可以提高情感分类模型的泛化能力。
在上述实施例的基础上,本发明实施例中提供的用于工业领域的人机对话情感分析方法,所述基于第二阶段训练的结果,确定所述情感分类模型,具体包括:
基于所述人机对话文本数据样本中的测试样本,对第二阶段训练的结果进行测试,并基于测试的结果,确定所述情感分类模型。
具体地,本发明实施例中通过测试样本对第二阶段训练的结果进行测试,可以使得到的情感分类模型的稳定性更强。
如图2所示,为本发明实施例中提供的情感分类模型的结构示意图,情感分类模型包括嵌入层、语义表征层以及分类层,待分析人机对话文本数据依次经过嵌入层、语义表征层以及分类层,最后得到嵌入层、语义表征层以及分类层对应的情感类型。
如图3所示,为本发明实施例中提供的用于工业领域的人机对话情感分析方法的完整流程示意图,一方面,语料文本数据经过数据处理单元以及数据增强单元,进入模型训练单元,训练得到情感分类模型,并进行模型保存与固化。另一方面,待分析人机对话文本数据经数据处理单元,输入至情感分类模型,由情感分类模型输出待分析人机对话文本数据对应的情感类型。其中,数据处理单元用于对语料文本数据以及待分析人机对话文本数据进行清洗、去除特殊字符、做繁体转简体等预处理操作,数据增强单元用于对预处理后的语料文本数据进行泛化,模型训练单元用于对泛化后的人机对话文本数据样本进行标注,并利用携带有情感类型标签的人机对话文本数据样本对情感分类模型进行训练。
如图4所示,在上述实施例的基础上,本发明实施例提供了一种用于工业领域的人机对话情感分析系统,包括:文本数据获取模块41和情感分析模块42。其中,
文本数据获取模块41用于获取待分析人机对话文本数据;
情感分析模块42用于将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;
其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
在上述实施例的基础上,本发明实施例提供的用于工业领域的人机对话情感分析系统,还包括样本确定模块,用于:
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行实体词替换,得到第一类语料文本数据;和/或,
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行近义词替换,得到第二类语料文本数据;
基于所述语料文本数据,以及所述第一类语料文本数据和/或第二类语料文本数据,确定所述人机对话文本数据样本。
在上述实施例的基础上,本发明实施例提供的用于工业领域的人机对话情感分析系统,所述情感分析模块,具体包括:
向量转化子模块,用于将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,得到所述向量转化层输出的所述待分析人机对话文本数据的向量表示;
语义表征子模块,用于将所述向量表示输入至所述情感分类模型的语义表征层,得到所述语义表征层输出的所述待分析人机对话文本数据的语义特征;
分类子模块,用于将所述语义特征输入至所述情感分类模型的分类层,得到所述分类层输出的所述待分析人机对话文本数据的情感类型。
在上述实施例的基础上,本发明实施例提供的用于工业领域的人机对话情感分析系统,所述语义表征子模块,具体用于:
将所述向量表示输入至所述情感分类模型的语义表征层,由所述语义表征层基于多头注意力机制对所述向量表示进行特征提取,并输出所述待分析人机对话文本数据的语义特征。
在上述实施例的基础上,本发明实施例提供的用于工业领域的人机对话情感分析系统,所述向量转化子模块,具体用于:
将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,由所述向量转化层确定所述待分析人机对话文本数据对应的Token序列,并基于所述Token序列得到所述待分析人机对话文本数据的Token向量、Token位置向量以及添加有标识符的语句向量。
在上述实施例的基础上,本发明实施例提供的用于工业领域的人机对话情感分析系统,还包括训练模块,用于:
对所述向量转化层以及所述语义表征层进行第一阶段训练;
基于所述人机对话文本数据样本中的训练样本,对所述分类层以及预训练得到的向量转化层、语义表征层进行第二阶段训练;
基于第二阶段训练的结果,确定所述情感分类模型。
在上述实施例的基础上,本发明实施例提供的用于工业领域的人机对话情感分析系统,所述训练模块,具体用于:
基于所述人机对话文本数据样本中的测试样本,对第二阶段训练的结果进行测试,并基于测试的结果,确定所述情感分类模型。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行上述各实施例中提供的用于工业领域的人机对话情感分析方法,该方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例中提供的用于工业领域的人机对话情感分析方法,该方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例中提供的用于工业领域的人机对话情感分析方法,该方法包括:获取待分析人机对话文本数据;将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种用于工业领域的人机对话情感分析方法,其特征在于,包括:
获取待分析人机对话文本数据;
将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;
其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
2.根据权利要求1所述的用于工业领域的人机对话情感分析方法,其特征在于,所述人机对话文本数据样本通过如下方法得到:
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行实体词替换,得到第一类语料文本数据;和/或,
对所述语料文本数据进行分词处理,并基于分词处理的结果以及所述工业领域的文本词典,对所述语料文本数据进行近义词替换,得到第二类语料文本数据;
基于所述语料文本数据,以及所述第一类语料文本数据和/或第二类语料文本数据,确定所述人机对话文本数据样本。
3.根据权利要求1或2所述的用于工业领域的人机对话情感分析方法,其特征在于,所述将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型,具体包括:
将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,得到所述向量转化层输出的所述待分析人机对话文本数据的向量表示;
将所述向量表示输入至所述情感分类模型的语义表征层,得到所述语义表征层输出的所述待分析人机对话文本数据的语义特征;
将所述语义特征输入至所述情感分类模型的分类层,得到所述分类层输出的所述待分析人机对话文本数据的情感类型。
4.根据权利要求3所述的用于工业领域的人机对话情感分析方法,其特征在于,所述将所述向量表示输入至所述情感分类模型的语义表征层,得到所述语义表征层输出的所述待分析人机对话文本数据的语义特征,具体包括:
将所述向量表示输入至所述情感分类模型的语义表征层,由所述语义表征层基于多头注意力机制对所述向量表示进行特征提取,并输出所述待分析人机对话文本数据的语义特征。
5.根据权利要求3所述的用于工业领域的人机对话情感分析方法,其特征在于,所述将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,得到所述向量转化层输出的所述待分析人机对话文本数据的向量表示,具体包括:
将所述待分析人机对话文本数据输入至所述情感分类模型的向量转化层,由所述向量转化层确定所述待分析人机对话文本数据对应的Token序列,并基于所述Token序列得到所述待分析人机对话文本数据的Token向量、Token位置向量以及添加有标识符的语句向量。
6.根据权利要求3所述的用于工业领域的人机对话情感分析方法,其特征在于,所述情感分类模型的训练方法包括:
对所述向量转化层以及所述语义表征层进行第一阶段训练;
基于所述人机对话文本数据样本中的训练样本,对所述分类层以及预训练得到的向量转化层、语义表征层进行第二阶段训练;
基于第二阶段训练的结果,确定所述情感分类模型。
7.根据权利要求6所述的用于工业领域的人机对话情感分析方法,其特征在于,所述基于第二阶段训练的结果,确定所述情感分类模型,具体包括:
基于所述人机对话文本数据样本中的测试样本,对第二阶段训练的结果进行测试,并基于测试的结果,确定所述情感分类模型。
8.一种用于工业领域的人机对话情感分析系统,其特征在于,包括:
文本数据获取模块,用于获取待分析人机对话文本数据;
情感分析模块,用于将所述待分析人机对话文本数据输入至情感分类模型,得到所述情感分类模型输出的所述待分析人机对话文本数据对应的情感类型;
其中,所述情感分类模型基于携带有情感类型标签的人机对话文本数据样本训练得到,所述人机对话文本数据样本基于对工业领域的语料文本数据进行泛化得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述用于工业领域的人机对话情感分析方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述用于工业领域的人机对话情感分析方法的步骤。
CN202110245621.6A 2021-03-05 2021-03-05 用于工业领域的人机对话情感分析方法及系统 Withdrawn CN112836053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110245621.6A CN112836053A (zh) 2021-03-05 2021-03-05 用于工业领域的人机对话情感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110245621.6A CN112836053A (zh) 2021-03-05 2021-03-05 用于工业领域的人机对话情感分析方法及系统

Publications (1)

Publication Number Publication Date
CN112836053A true CN112836053A (zh) 2021-05-25

Family

ID=75934679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110245621.6A Withdrawn CN112836053A (zh) 2021-03-05 2021-03-05 用于工业领域的人机对话情感分析方法及系统

Country Status (1)

Country Link
CN (1) CN112836053A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005446A (zh) * 2021-11-01 2022-02-01 科大讯飞股份有限公司 情感分析方法、相关设备及可读存储介质
CN114036272A (zh) * 2021-10-29 2022-02-11 厦门快商通科技股份有限公司 一种对话系统语义分析方法、系统、电子装置及存储介质
CN114322634A (zh) * 2021-12-29 2022-04-12 博锐尚格科技股份有限公司 一种制冷系统策略模型的数据筛选方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及系统
WO2020220539A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN111930940A (zh) * 2020-07-30 2020-11-13 腾讯科技(深圳)有限公司 一种文本情感分类方法、装置、电子设备及存储介质
CN112256826A (zh) * 2020-10-19 2021-01-22 网易(杭州)网络有限公司 情感分析方法、评价、情感分析模型的训练方法及装置
CN112365142A (zh) * 2020-11-05 2021-02-12 北京汽车研究总院有限公司 车辆数据分析方法、装置以及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291696A (zh) * 2017-06-28 2017-10-24 达而观信息科技(上海)有限公司 一种基于深度学习的评论词情感分析方法及系统
WO2020220539A1 (zh) * 2019-04-28 2020-11-05 平安科技(深圳)有限公司 数据增量方法、装置、计算机设备及存储介质
CN111930940A (zh) * 2020-07-30 2020-11-13 腾讯科技(深圳)有限公司 一种文本情感分类方法、装置、电子设备及存储介质
CN112256826A (zh) * 2020-10-19 2021-01-22 网易(杭州)网络有限公司 情感分析方法、评价、情感分析模型的训练方法及装置
CN112365142A (zh) * 2020-11-05 2021-02-12 北京汽车研究总院有限公司 车辆数据分析方法、装置以及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036272A (zh) * 2021-10-29 2022-02-11 厦门快商通科技股份有限公司 一种对话系统语义分析方法、系统、电子装置及存储介质
CN114005446A (zh) * 2021-11-01 2022-02-01 科大讯飞股份有限公司 情感分析方法、相关设备及可读存储介质
CN114322634A (zh) * 2021-12-29 2022-04-12 博锐尚格科技股份有限公司 一种制冷系统策略模型的数据筛选方法及装置

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN112836053A (zh) 用于工业领域的人机对话情感分析方法及系统
CN111883115B (zh) 语音流程质检的方法及装置
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN111429946A (zh) 语音情绪识别方法、装置、介质及电子设备
CN110890088B (zh) 语音信息反馈方法、装置、计算机设备和存储介质
CN111598485A (zh) 一种多维度智能质检方法、装置、终端设备及介质
CN112860871B (zh) 自然语言理解模型训练方法、自然语言理解方法及装置
CN112966082A (zh) 音频质检方法、装置、设备以及存储介质
CN113312468B (zh) 基于对话模式的话术推荐方法、装置、设备及介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN110377726A (zh) 一种人工智能实现自然语言文本情绪识别方法与装置
CN107766560B (zh) 客服服务流程的评价方法和系统
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN117436438A (zh) 情感分析方法、大语言模型的训练方法及装置
CN116028608A (zh) 问答交互方法、装置、计算机设备及可读存储介质
CN115827831A (zh) 意图识别模型训练方法及装置
CN116186529A (zh) 语义理解模型的训练方法及装置
CN115080732A (zh) 投诉工单处理方法、装置、电子设备和存储介质
CN112966104B (zh) 文本聚类方法、装置、处理设备及存储介质
CN114117034B (zh) 一种基于智能模型推送不同风格文本的方法和装置
CN113345468B (zh) 语音质检方法、装置、设备及存储介质
CN112069293B (zh) 一种数据标注方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210525