CN116361442A

CN116361442A - 基于人工智能的营业厅数据分析方法及系统

Info

Publication number: CN116361442A
Application number: CN202310646519.6A
Authority: CN
Inventors: 赵婉芳; 俞沛宙; 王妍; 张轩闻; 赵宁远; 史乔石; 朱斌; 施志强; 卢劼; 张力行; 李军谋; 蒋军; 雷前; 王迎卜; 潘妍; 葛伊颖; 杨跃平
Original assignee: Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-06-30
Anticipated expiration: 2043-06-02
Also published as: CN116361442B

Abstract

本发明提供一种基于人工智能的营业厅数据分析方法及系统，包括获取用户与营业厅交互终端的多轮对话信息，提取所述多轮对话信息对应的n条对话指令；根据预先构建的意图识别模型对所述n条对话指令中的m条对话指令进行合并，得到合并指令段，确定所述对话指令对应的对话词向量；提取所述对话词向量的语义特征，通过注意力机制为所述语义特征分配语义权重，基于所述语义特征和所述语义权重，构建对话句向量；根据所述意图识别模型的分类器，确定所述对话句向量对应的意图类别；通过所述意图类别从所述营业厅交互终端的数据库中匹配与所述意图类别对应的业务数据。本发明的方法能够进行用户意图识别，并根据其意图进行业务匹配。

Description

基于人工智能的营业厅数据分析方法及系统

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的营业厅数据分析方法及系统。

背景技术

随着电力体制改革的逐步深入，电网公司需要提供更加智能化、互动化、人性化的服务来吸引用户。电力营业厅是电网公司营销服务的前台、形象展示的窗口、业务推广的阵地，是用户最直观感受电力服务的场所，需要不断转型升级适应电力改革新形势和客户服务新要求。

而现有的电网营业厅中往往还是以人工居多，即使接入了智能机器人的情况下，也只能机械地进行简单回复，或者响应用户点击界面，难以与客户进行多轮信息交流，客户体验较差。

发明内容

本发明实施例提供一种基于人工智能的营业厅数据分析方法及系统，能够至少解决现有技术中的部分问题，也即解决现有电网营业厅机器回复不够智能的问题。

本发明实施例的第一方面，

提供一种基于人工智能的营业厅数据分析方法，包括：

获取用户与营业厅交互终端的多轮对话信息，提取所述多轮对话信息对应的n条对话指令；根据预先构建的意图识别模型对所述n条对话指令中的m条对话指令进行合并，得到合并指令段，对所述合并指令段进行分词处理，确定所述对话指令对应的对话词向量，其中，m、n为正整数，且m<n；

提取所述对话词向量的语义特征，通过注意力机制为所述语义特征分配语义权重，基于所述语义特征和所述语义权重，构建对话句向量；根据所述意图识别模型的分类器，确定所述对话句向量对应的意图类别；

通过所述意图类别从所述营业厅交互终端的数据库中匹配与所述意图类别对应的业务数据。

在一种可选的实施方式中，

所述确定所述对话指令对应的对话词向量之后，所述方法还包括：

遍历每个对话词向量，确定所述对话词向量中每个字词单元与其左右邻接的各个字词单元之间的关联置信度，将关联置信度大于关联置信度阈值的字词单元进行合并，确定候选新词集；

确定所述候选新词集的连接词，判断每个连接词与其左右邻接词的平均关联置信度；

若连接词与其左侧和右侧字词单元的平均关联置信度不同，则将平均关联置信度较小的字词单元作为拆分点，将其删除；

若连接词与其左侧和右侧字词单元的平均关联置信度相同，则将保持连接词与其左侧和右侧字词单元的连接状态。

在一种可选的实施方式中，

提取所述对话词向量的语义特征，通过注意力机制为所述语义特征分配语义权重，基于所述语义特征和所述语义权重，构建对话句向量包括：

基于所提取的语义特征，通过预先构建的语料库，确定所述语义特征对应的共现矩阵，其中，所述共现矩阵用于指示所述语义特征中语义信息和上下文信息在特定大小的上下文窗口内共同出现的次数；

根据所述共现矩阵，确定不同语义特征在上下文窗口的距离，并基于权值分配函数为所述语义特征分配对应的语义权重；

通过所述语义特征和所述语义权重，以及所述每个语义特征共现矩阵的相似值，构建对话句向量。

在一种可选的实施方式中，

基于权值分配函数为语义权重分配对应的语义权重如下公式所示：

其中，

表示语义权重，L表示语义特征的数量，/>

表示第i个语义特征与第j个语义特征对应的共现矩阵，/>

表示第i个语义特征与第j个语义特征的欧式距离，/>

、/>

分别表示第i个语义特征与第j个语义特征；

通过所述语义特征和所述语义权重，以及所述每个语义特征共现矩阵的相似值，构建对话句向量如下公式所示：

其中，

表示对话句向量，/>

表示语义权重，W表示语义特征，/>

表示共现矩阵的相似值，/>

表示第i个语义特征的上下文向量，/>

表示第i个语义特征的归一化权重值。

在一种可选的实施方式中，

所述根据所述意图识别模型的分类器，确定所述对话句向量对应的意图类别之前，所述方法还包括训练所述意图识别模型：

基于预先获取的对话训练数据集，其中，所述对话训练数据集包括对话声学特征，提取所述对话训练数据集对应的对话文本特征，分别基于所述对话声学特征构造初始声学图信息、基于所述对话文本特征构造初始对话图信息；

根据待训练的意图识别模型的训练权重和激活函数，分别确定所述初始声学图信息的声学重构损失和所述初始对话图信息的对话重构损失，并对所述初始声学图信息和所述初始对话图信息进行重构，确定优化声学图信息和优化对话图信息；

分别将所述初始声学图信息和所述优化声学图信息进行图融合，以及将所述初始对话图信息和所述优化对话图信息进行图融合，得到融合声学图信息和融合对话图信息；

通过所述融合声学图信息和所述融合对话图信息，结合所述对话训练数据集的意图标签，迭代计算所述对话训练数据集对应的交叉熵损失，直至所述交叉熵损失满足预设阈值条件。

在一种可选的实施方式中，

所述方法还包括：

基于所述用户与营业厅交互终端的多轮对话信息确定多轮对话过程中的上下文交互矩阵；

基于所述对话指令对应的对话词向量，通过预先构建的情感识别模型，分别对所述对话词向量进行模式匹配，确定与所述对话词向量对应的第一情感类别概率值，以及对所述对话词向量进行参数匹配，确定与所述对话词向量对应的第二情感类别概率值；

结合所述上下文交互矩阵、所述第一情感类别概率值和所述第二情感类别概率值，通过所述情感识别模型的上下文推理规则，确定用户的情感类别。

在一种可选的实施方式中，

所述通过所述情感识别模型的上下文推理规则，确定用户的情感类别包括：

按照如下公式确定用户的情感类别：

其中，L表示用户的情感类别，softmax表示分类函数，

、/>

分别表示所述第一情感类别概率值和所述第二情感类别概率值，/>

表示上下文推理规则，送入到 softmax层得出预测下个词出现的概率分布，/>

表示多头注意力机制处理后的结果/单词的编码结果。

本发明实施例的第二方面，

提供一种基于人工智能的营业厅数据分析系统，包括：

第一单元，用于获取用户与营业厅交互终端的多轮对话信息，提取所述多轮对话信息对应的n条对话指令；根据预先构建的意图识别模型对所述n条对话指令中的m条对话指令进行合并，得到合并指令段，对所述合并指令段进行分词处理，确定所述对话指令对应的对话词向量，其中，m、n为正整数，且m<n；

第二单元，用于提取所述对话词向量的语义特征，通过注意力机制为所述语义特征分配语义权重，基于所述语义特征和所述语义权重，构建对话句向量；根据所述意图识别模型的分类器，确定所述对话句向量对应的意图类别；

第三单元，用于通过所述意图类别从所述营业厅交互终端的数据库中匹配与所述意图类别对应的业务数据。

本发明实施例的第三方面，

提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行前述所述的方法。

本发明实施例的第四方面，

提供一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现前述所述的方法。

本发明提供一种基于人工智能的营业厅数据分析方法，针对传统用户意图识别主要使用基于模板匹配或者人工特征集合方法导致成本高、拓展性低的问题，提出了一种用户意图识别分类模型，该模型将用户对话指令进行分词，再引入Self-attention 机制提取对句子含义有重要影响力的词的信息然后分配相应的权重，获得融合了词级权重的句子向量，最后输入到Softmax分类器，实现意图分类。

附图说明

图1为本发明实施例基于人工智能的营业厅数据分析方法的流程示意图；

图2为本发明实施例基于人工智能的营业厅数据分析系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例基于人工智能的营业厅数据分析方法的流程示意图，如图1所示，所述方法包括：

S101. 获取用户与营业厅交互终端的多轮对话信息，提取所述多轮对话信息对应的n条对话指令；根据预先构建的意图识别模型对所述n条对话指令中的m条对话指令进行合并，得到合并指令段，对所述合并指令段进行分词处理，确定所述合并指令段对应的对话词向量；

示例性地，本申请的营业厅交互终端可以包括移动机器人，也可以包括设置在营业厅的智能终端，用于与用户对话交流，并且根据对话交流信息识别用户意图，为其匹配对应的业务数据。可选地，本申请的对话指令可以包括用户发起的业务询问，也可以包括用户点击交互终端界面转化的业务指令。在实际应用中，对话指令往往会包括与业务不相关的非业务指令，为了提高响应速度和识别准确度，可以从n条对话指令中选取m条对话指令，其中，m、n为正整数，且m<n。

在一种可选的实施方式中，

示例性地，在中文自然语言处理技术中，文本分词是十分重要的过程，分词过程是将一段中文文本进行切分，从而识别一段文本中的各个词语，分词之后的文本数据可以进行词向量训练、语义聚类等进一步的分析处理，从而得到准确的情感分析、文本摘要等目标结果。但多数分词算法如词典匹配、正逆向最大匹配法、双向最大匹配法等，均从文本的语法、词性规律入手，依赖于标注过词性、词频等信息的词典来对文本进行分词，从而得到尽可能消除歧义的分词结果，然而面对大量不规范使用、不符合词性规律、口语化严重以及包含大量词典末登录词的文本语料时，传统分词算法对命名实体等新词的识别能力较差。

示例性地，若输入意图识别模型的对话指令为n条，则将其中的m条对话指令进行合并，其中，n>m，得到合并指令段，并对合并指令段进行分词，确定所述对话指令对应的对话词向量。

其中，关联置信度用以衡量在文本中一个字词单元出现的情况下，另一个字词单元与之相邻出现的概率，计算公式如下所示：

其中，

表示字词单元/>

出现时,字词单元/>

与其邻接出现的关联置信度，/>

表示字词单元/>

和字词单元/>

邻接出现的概率，/>

表示字词单元

出现的概率。

示例性地，确定所述候选新词集的连接词，判断每个连接词与其左右邻接词的平均关联置信度，其中，平均关联置信度为

和/>

的平均值；

通过对候选新词中的连接词进行拆分，可以把由多个字词单元合并成的短语块进行拆解，降低了最终新词结果的粒度，使得拆分出来的新词更为独立，从而防止新词淹没在短语中。

本申请采用以精细化分词提供的结果为基础，通过此种方式分词结果粒度细，极少出现词语被错误合并的情况，但词语易被错误拆分，因此通过计算一个词语与其左右邻接词集中各个词语的关联置信度来对错误拆分的词语进行合并得到候选新词，进而采用判断候选新词中的连接词左右平均关联置信度的情况对过度合并的候选新词进行拆分，从而既能够进行精细化分词，还能够有效避免词语被错误拆分的情况。

S102. 提取所述对话词向量的语义特征，通过注意力机制为所述语义特征分配语义权重，基于所述语义特征和所述语义权重，构建对话句向量；根据所述意图识别模型的分类器，确定所述对话句向量对应的意图类别；

在一种可选的实施方式中，

示例性地，本申请的共现矩阵的计算方法可以参考现有技术，本申请在此不再赘述。

示例性地，基于权值分配函数为语义权重分配对应的语义权重如下公式所示：

其中，其中，

表示语义权重，L表示语义特征的数量，/>

表示第i个语义特征与第j个语义特征对应的共现矩阵，/>

表示第i个语义特征与第j个语义特征的欧式距离，/>

、/>

分别表示第i个语义特征与第j个语义特征；

示例性地，通过所述语义特征和所述语义权重，以及所述每个语义特征共现矩阵的相似值，构建对话句向量如下公式所示：

其中，

表示对话句向量，/>

表示语义权重，W表示语义特征，/>

表示共现矩阵的相似值，/>

表示第i个语义特征的上下文向量，/>

表示第i个语义特征的归一化权重值。

在一种可选的实施方式中，

示例性地，对话声学特征可以使用语音识别技术从原始的音频数据中提取，例如Mel频率倒谱系数（Mel Frequency Cepstral Coefficients，MFCCs）、梅尔倒谱滤波器组系数（Mel Filterbank Coefficients，MFCs）等；对话文本特征可以使用文本处理技术从对话文本中提取，例如N-gram模型、TF-IDF模型等；对于每个对话的声学特征，可以将其表示为一个时间-频率图，其中时间表示语音信号的时间轴，频率表示语音信号的频谱轴；对于每个对话的文本特征，可以将其表示为一个词语-词语共现矩阵，其中每个元素表示两个词语在同一句子或同一段落中出现的次数；

示例性地，本申请的对话训练数据集可以获取记录来自多位用户进行营业厅多次业务咨询的自然会话，自然会话可以包括用户与人工客服之间的对话信息，并且用户和人工客服之间的对话信息可以是围绕着明确的业务需求进行的，例如，办理线上业务、业务疑难咨询等等，最后可以通过专业评分人员对对话信息进行意图类别标注。其中，对话训练数据集可以包括对话声学特征，对话声学特征可以表示为

。进一步地，可以通过Glove模型提取对话训练数据集对应的对话文本特征，对话文本特征可以表示为/>

。

为了更加充分地利用到多模态特征之间的共性和互补性，本申请通过图神经网络，利用节点特征之间的拓扑结构特性对特征进行优化。可选地，可以分别基于所述对话声学特征构造声学图结构、基于所述对话文本特征构造对话图结构，其中，图结构可以包括节点和邻接矩阵，节点为各个对话声学特征、对话文本特征；邻接矩阵用于指示各个节点之间的相似度；具体地，

声学图结构和对话图结构分别如下公式所示：

；

；

其中，

表示声学图结构，/>

表示对话声学特征集合，/>

表示对话声学特征对应的邻接矩阵，/>

表示第n个对话声学特征，/>

表示第i个对话声学特征和第j个对话声学特征的欧式距离，/>

表示所有对话声学特征的欧式距离均值；

其中，

表示对话图结构，/>

表示对话文本特征集合，/>

表示对话文本特征对应的邻接矩阵，/>

表示第n个对话文本特征，/>

表示第i个对话文本特征和第j个对话文本特征的欧式距离，/>

表示所有对话文本特征的欧式距离均值。

通过同时利用对话的声学特征和文本特征，对话训练数据集可以更全面地反映对话的信息，提高对话数据的利用效率；基于对话声学特征构造初始声学图信息，利用声学信号中的语音特征来提取对话的语义信息，增强了对话建模的能力；基于对话文本特征构造初始对话图信息，利用文本信息来提取对话的语义信息，进一步增强了对话建模的能力。提高对话理解的准确性：通过将声学图信息和对话图信息结合，得到更全面、更准确的对话表示形式，从而提高了对话理解的准确性，有助于更精准地识别对话的意图。提高模型的鲁棒性：对话声学特征和文本特征相辅相成，结合后可以在一定程度上互相弥补，增加了模型对于噪声和异常数据的鲁棒性，提高了对话系统的稳定性和可靠性。

示例性地，基于待训练的意图识别模型，确定对应的损失函数，一般选择交叉熵损失函数，用于评估模型输出和真实标签之间的差异；为了优化声学图信息和对话图信息，需要将它们从原始形式重构为特定形式，并定义相应的重构损失函数；对于声学图信息，可以利用自编码器（Autoencoder）对声学特征进行编码和解码，从而得到重构的声学图信息，并基于重构的结果计算声学重构损失；对于对话图信息，可以利用对话模型（如RNN）对对话文本进行编码和解码，从而得到重构的对话图信息，并基于重构的结果计算对话重构损失；使用所选的自编码器和对话模型，对所述对话训练数据集中的声学特征和对话文本进行编码和解码，得到初始声学图信息和初始对话图信息的重构结果。在重构结果的基础上，使用梯度下降等优化算法，更新自编码器和对话模型的参数，使得声学图信息和对话图信息的重构误差最小化，从而优化声学图信息和对话图信息。

示例性地，可以将初始声学图信息和优化声学图信息分别表示为一个有向加权图，其中节点表示不同的特征，边表示它们之间的关系，权重表示它们的重要性。类似地，将初始对话图信息和优化对话图信息表示为一个有向加权图。可选地，将对话文本转换成节点：对于一个对话文本，将其切分成单词，每个单词对应一个节点。同时，为了保留不同单词的位置信息，可以将每个节点表示为一个元组(word, position)，其中，word表示单词，position表示单词在对话文本中的位置。

构建边：对于相邻的单词节点，可以构建一条边，表示这两个单词在对话文本中是相邻的，为了将不同的单词之间的关系考虑进去，可以为每条边附加一个权重，该权重可以根据两个节点之间的距离、单词相似度等因素计算得出。将初始对话图信息和优化对话图信息融合：将两个图合并，得到一个新的有向加权图，其中包括初始对话图信息和优化对话图信息中的所有节点和边。在合并过程中，如果两个节点相同，那么它们在新图中仍然是同一个节点，权重需要进行合并。如果两个节点不同，那么它们在新图中就分别成为两个节点，并且需要构建一条新的边来连接它们。

为了融合初始声学图信息和优化声学图信息，可以使用加权平均或者串联（concatenate）的方法。加权平均方法是将两个图的相应节点和边的权重按照一定比例加权相加，得到融合声学图信息。串联方法是将两个图连接起来形成一个新的图，其中每个节点都包含原来两个图中相应节点的信息，得到更丰富的信息表达。

对于融合后的声学图信息和对话图信息，可以采用一些图神经网络的方法对它们进行优化，如图卷积神经网络（Graph Convolutional Network, GCN）等。综上所述，通过图的表示、融合和优化，可以得到更加丰富的声学图信息和对话图信息，提高意图识别模型的性能。

交叉熵损失是用于评估分类问题的函数，交叉熵损失可以表示为以下公式：

其中，LOSS表示交叉熵损失，M、N分别表示标签的类别数以及样本数，

表示第i个样本属于第j个真实标签类别的概率，/>

表示第i个样本属于第j个预测标签类别的概率。

示例性地，针对传统用户意图识别主要使用基于模板匹配或者人工特征集合方法导致成本高、拓展性低的问题，本申请的意图识别模型使用分词将用户对话指令进行分词，再引入Self-attention 机制提取对句子含义有重要影响力的词的信息然后分配相应的权重，获得融合了词级权重的句子向量，最后输入到分类器，实现意图分类。

S103. 通过所述意图类别从所述营业厅交互终端的数据库中匹配与所述意图类别对应的业务数据。

示例性地，可以从所述营业厅交互终端的数据库中匹配与所述意图类别对应的业务数据，其中，匹配方法可以包括计算数据库中数据与意图类别的空间距离，距离越近的，作为业务数据备选项，将多个业务数据备选项进行排序，将排序靠前的业务数据作为与意图类别匹配的最终业务数据。

语音情感识别本质上是一个模式识别分类的问题，目前己经有很多的分类器被用于语音情感识别，例如常用的有线性判别法(LDA)、动态时间规整(DTW）、K近邻（KNN）、隐马尔可夫模型（HMM）和支持向量机（SVM）等。

在一种可选的实施方式中，

所述方法还包括：

示例性地，对于模式匹配，可以使用基于规则的方法或者基于机器学习的方法。基于规则的方法需要手动编写规则库，根据规则匹配对话词向量，从而确定情感类别概率值。基于机器学习的方法则需要使用已有的情感分类数据集，训练分类模型，通过模型预测对话词向量的情感类别概率值。常见的机器学习算法包括朴素贝叶斯、支持向量机、深度学习等。

对于参数匹配，可以使用基于相似度计算的方法，常见的相似度计算方法包括余弦相似度、欧几里得距离等。首先需要使用已有数据集训练一个对话词向量模型，将对话词向量映射到一个高维向量空间中。然后，计算当前对话词向量与训练好的对话词向量的相似度，从而确定情感类别概率值。

最终，将模式匹配得到的第一情感类别概率值、参数匹配得到的第二情感类别概率值和上下文交互矩阵结合，通过情感识别模型的上下文推理规则，确定用户的情感类别。

可以根据所述上下文交互矩阵中记录的历史对话信息，以及当前对话指令对应的对话词向量和情感类别概率值，来进行上下文推理，通过比较历史对话信息和当前对话指令的情感类别概率值，可以判断用户当前的情感状态和情感类别。

在一种可选的实施方式中，

按照如下公式确定用户的情感类别：

其中，L表示用户的情感类别，softmax表示分类函数，

、/>

表示多头注意力机制处理后的结果/单词的编码结果。

通过把语音情感识别技术用于客服中心录音数据，可以对通话过程中客户和客服的情绪进行字段侦测与判断。一方面通过实时采样客户的录音，在客户电话接入的前几秒对客户的情绪做出判断，特别是针对客户带着情绪或有疑问咨询客服却在音调上故作平静、人耳难以识别的情况，进而通过情感识别及时提醒客服注意客户的情绪异常，客户可以灵活转变问题处理的方式，提高客户满意度。另一方面，对客服的录音进行实时采样情感识别，对其出现的异常情绪进行实时提醒，以保证客服在通话过程中时刻保持服务的耐心和热情，持续保证服务的质量。

本发明实施例的第二方面，

提供一种基于人工智能的营业厅数据分析系统，图2为本发明实施例基于人工智能的营业厅数据分析系统的结构示意图，包括：

本发明实施例的第三方面，

提供一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

本发明实施例的第四方面，

本发明可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于执行本发明的各个方面的计算机可读程序指令。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。