具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在一些实施例中,本发明的互联网电商投诉智能处理方法可以应用于计算机设备与服务器共存的场景中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
如图1所示为本发明实施一种基于大数据知识图谱的互联网电商投诉智能处理方法的流程图。包括但不限于以下步骤:
101、获取用户投诉文本数据,并对所述用户投诉文本数据按照最大长度截断,生成预处理后的用户投诉文本数据;
在本发明实施例中,所述用户投诉文本数据可以直接从互联网电商平台的数据接口获取,也可以从互联网电商平台的公开数据获取,对于用户投诉文本数据的来源,本发明不作限定。
在本发明一些实施例中,选择所述用户投诉文本数据Tu来自电商平台投诉模块后台数据库,数据格式为未经过处理的非结构化文本;本实施例按照最大长度截断,生成预处理后的用户投诉文本数据;用户投诉文本数据Tu的预处理方式步骤包括:
步骤1:将预设违禁词作为停用词表,对非结构化的用户投诉文本数据Tu进行数据清洗;
步骤2:按照最大文本长度ML对用户投诉文本数据Tu进行截断,得到预处理后的用户投诉文本T′u。
其中,最大文本长度ML的计算公式如下所示:
式中dmodel代表预训练模型中embedding层的文本长度限制,nT代表文本数据量,这里的nT即为用户投诉文本数据Tu的数据量,ln(·)代表自然对数函数,代表每条文本的长度,Sigmoid(·)在此处用于限制最大文本长度划分。
102、将预处理后的用户投诉文本数据输入到经由知识图谱预训练后的基于编码结构的文本语义模型中,输出文本语义结果向量;
在本发明的一些实施例中,将预处理后的用户投诉文本数据T′u输入到预训练后的基于编码结构的文本语义模型中,通过其最后一层隐藏层输出序列该输出序列/>即为用户投诉文本数据对应的文本语义结果向量。如下所示:
序列中,代表/>的第i个维度为dmodel的输出序列子向量,ML代表输出序列的长度。
可以理解的是,本发明的基于编码结构的文本语义模型可以是包含任意编码结构的文本语义模型,例如是BERT模型、MacBERT模型、RoBERTa模型等等具有encoder编码结构的文本语义模型。
在本发明的一些实施例中,所述基于编码结构的文本语义模型可以是BERT模型,BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。还可以是MacBERT模型。
在本发明优选实施例中,可以采用MacBERT模型提取出文本语义结果向量,所述MacBERT(MLM as correction BERT)模型由校正作为Mask的中文自然语言预训练模型构成,该模型主要是修改原始BERT模型的MLM任务而得;原始BERT模型的缺点之一是预训练和微调阶段任务不一致,pretrain有[mask]字符,而finetune没有[mask]字符,因此MacBERT用目标单词的相似单词,替代被mask的字符,减轻了预训练和微调阶段之间的差距。也即是通过输入一句话,给其中的字打上“mask”标记,来预测“mask”标记的地方原本是哪个字。
103、将文本语义结果向量输入到基于BiGRU+FNN解码结构的文本张量模型中,输出文本语义结果向量的文本张量;
在本发明的一些实施例中,考虑到在单向的神经网络结构中,状态总是从前往后输出的。然而,在文本数据处理中,如果当前时刻的输出能与前一时刻的状态和后一时刻的状态都产生联系。这样更有利于文本深层次特征的提取,这就需要BiGRU来建立这种联系。所述BiGRU网络是由单向的、方向相反的、输出由这两个GRU的状态共同决定的GRU组成的神经网络模型。在每一时刻,输入会同时提供两个方向相反的GRU,而输出则由这两个单向GRU共同决定。
在本发明的一些实施例中,本发明采用FFN网络即前馈神经网络也称为全连接神经网络,前馈神经网络是一种最简单的神经网络,各神经元分层排列(其中每一层包含若干个神经元)。每个神经元只与前一层的神经元相连,接收前一层的输出,并输出给下一层,各层间没有反馈。是目前应用最广泛、发展最迅速的人工神经网络之一。第0层叫输入层,最后一层叫输出层,其他中间层叫做隐含层(或隐藏层、隐层)。隐层可以是一层,也可以是多层,是由全连接层堆叠而成。
本发明实施例中,通过将BiGRU与FNN网络配合形成解码结构,共同实现文本张量的提取,该解码结构能更好的关注到文本中具有长依赖的实体对,使得提取出的文本张量更准确。
在本发明的一些实施例中,将用户投诉文本数据对应的文本语义结果向量输入到基于BiGRU+FNN解码结构的文本张量模型中,输出用户投诉文本数据的文本张量/>
上述基于BiGRU+FNN解码结构的文本张量模型公式如下所示:
式中,是BiGRU输出的序列结果,Norm(·)为Layer Norm,用于对序列不同位置但同在一维度的子向量进行归一化,使用残差链接确保原始输出特征完整性,FFN(·)为前馈神经网络。
104、将文本张量输入到SLRO下游网络中,输出用户投诉文本数据的三元组信息;所述三元组信息包括作为主体的投诉事件主体、作为客体的投诉主体状态,以及作为关系的投诉事件类别;
在本发明实施例中,所述SLRO下游网络主要包括实体抽取单元,除此外,还可以包括reshape单元、split单元、拼接单元,stack堆叠单元等;通过这些单元的配合处理,能够提取出用户投诉文本数据的三元组信息该三元组信息中包括实体和实体关系,其中实体又分为主体/>和客体/>也称为头实体/>和尾实体/>而实体关系/>即为主体/>和客体/>之间的联系。
其中,如图2所示,SLRO下游网络抽取实体信息的过程可以包括输入文本张量后,抽取出实体对和对应的实体关系,将抽取出的实体对即事件主体和事件客体进一步分类,确定出主体类别;将抽取出的实体关系即事件主体与事件客体之间的关系进一步分类,确定出关系类别;最终将事件主体、实体关系、事件客体作为三元组信息输出。
具体的,如图3所示,所述SLRO下游网络抽取实体信息的过程可以进一步包括:
将文本语义结果向量经过基于BiGRU+FNN解码结构的文本张量模型得到文本张量/>Tensor大小为(B,ML,dmodel),其中B代表Batch Size的大小;
将所述文本张量采用reshape操作将Tensor大小转变为(B,ML*2,dmodel/2),再经过split操作从第二维划分为Tensor大小为(B,ML,dmodel/2)的两个待拼接张量与/>将与/>与/>从第三维进行拼接分别得到Tensor大小为(B,ML,dmodel)的拼接向量/>与/>
由两个拼接向量相乘乘积得到主体、客体位置预测矩阵/>Tensor大小为(B,ML,ML),可以表示为:
式中与/>分别为向量/>与/>中的元素。
从所述主体、客体位置预测矩阵中抽取出符合条件的文本语义结果向量的实体对及其对应关系;从而得到用户投诉文本数据的三元组信息/>
其中,从所述主体、客体位置预测矩阵中筛选出符合条件的文本语义结果向量的实体包括将实体对在中的位置标注出来,将主体与客体分别置为1和-1,其余位置均置零,筛选出每个向量位置数值大于阈值ts的词作为主体、数值小于阈值-ts的词作为客体;并将筛选出的实体对向量进行stack堆叠得到Tensor大小为(B,Nentity,ML,ML的堆叠向量并将堆叠向量/>通过线性公式进行关系抽取,得到关系/>
阈值ts的计算公式如下:
式中,代表用户投诉文本数据Tu数量的文本数据量,/>代表第i条文本的实体对数量。
其中,关系抽取的线性公式表示为:
式中,表示抽取出的关系,/>表示线性函数,ML代表最大文本长度,dmodel代表预训练模型中嵌入向量层的文本长度限制,Nr指事件关系的总类数;代表重塑函数,B代表模型训练时投入模型的每批文本数据大小,Nentity代表抽取出的实体对数目,stackdim=2(·)代表对文本张量/>的第二维进行stack堆叠操作。
在本发明优选实施例中,还可以通过SLRO下游网络生成四元组信息,除了上述三元组信息以外,还可以包括主体类别,该元素属于模型训练时的额外产出,用于辅助解决方案的生成;通过所述主体类别优化预训练后的基于编解码结构的文本生成模型。
105、将用户投诉文本数据的三元组信息按照prompt提示学习方式拼接输入到经由知识图谱预训练后的基于编解码结构的文本生成模型中,输出三元组的投诉解决方案;
在本发明实施例中,将用户投诉文本数据的三元组信息输入到预训练后的基于编解码结构的文本生成模型中之前包括采用按照prompt提示学习方式拼接三元组信息,所述prompt提示学习方式可以将人为的规则给到预训练模型,使模型可以更好地理解人的指令的一项技术,以便更好地利用预训练模型。
取用户投诉文本Tu经由知识图谱模型提取的三元组元素以及主体类别/>构造提示学习输入,基于编解码结构的文本生成预训练模型的输入分为两个部分:一部分为源文本,一部分为标签文本,其中,源文本的提示格式如下所示:
“对于类别为的/>出现了/>的问题,关系类别为/>”;取标签文本的提示格式如下所示:
“针对问题,解决方案为[MASK]”
当使用知识图谱数据微调时,将上式“[MASK]”使用知识图谱数据Tp对应的解决方案填充。
可以理解的是,本发明的基于编解码结构的文本生成模型可以是包含任意解码结构的文本生成模型,例如是UniLM模型、BART模型、T5模型等等具有encoder-decoder编解码结构的文本生成模型。
在本发明的一些实施例中,所述基于编解码结构的文本生成模型可以是BART模型,所述BART模型用来预训练seq-to-seq模型的降噪自动编码器(autoencoder);BART的训练包含两步:1)利用任意一种噪声函数分解文本;2)学习一个模型来重构回原来的文本;这个方法的一个关键优点是噪声的灵活性,原来的文本可以经过各种变换的处理,包括改变长度。该方案是把原来的句子任意长度的单词(包括0)用一个单独的mask代替。该方法通过迫使模型对整个句子长度进行更多的推理,并对输入进行更大范围的转换,从而推广了传统预训练文本模型中的原词掩蔽和下一个句子预测目标。在本发明的优选实施例中,可以通过经由知识图谱预训练基于编码结构的文本语义模型和基于编解码结构的文本生成模型,这里可以采用投诉常规处理方法知识数据Tp对基于编码结构的文本语义模型和基于编解码结构的文本生成模型进行训练处理。
图4为本发明实施例一种基于大数据知识图谱的互联网电商投诉智能处理方法的模型结构图;如图4所示:
在初期,可以采用预处理后的投诉常规处理方法知识数据对文本语义模型和文本生成模型进行预训练;在中期,可以采用预处理后的投诉常规处理方法知识数据对文本语义模型和文本生成模型进行微调;当完成预训练和微调后,即可将模型参数更新到文本语义模型和文本生成模型中;对投诉文本数据进行预处理,将预处理后的投诉文本数据输入到模型参数更新后的文本语义模型中,经过BiGRU+FNN解码模型、SLRO下游网络和文本生成模型后,就可以输出投诉文本数据对应的投诉解决方案;此时可以将投诉解决方案作为知识图谱更新到数据库中,并扩充数据库。
其中,对文本语义模型和文本生成模型进行微调可以采用分步微调的方式,也即是将预处理后的投诉常规处理方法知识数据输入到文本语义模型后,固定BiGRU+FNN解码模型、SLRO下游网络和文本生成模型的参数,调节文本语义模型的参数;当文本语义模型微调完成后,固定文本语义模型、BiGRU+FNN解码模型、SLRO下游网络的参数,调节文本生成模型的参数;这样可以在不进行大量迭代运算的前提下,优化文本语义模型和文本生成模型。
根据投诉常规处理方法知识数据Tp构建知识图谱模型的过程步骤包括:
步骤1:取投诉常规处理方法知识数据Tp中的非结构化数据文本Tp_ns进行预处理:按最大长度ML截断文本,使用Jieba模块以预设违禁词为停用词表在精确模式下进行词组划分,得到T′p_ns;
步骤2:取投诉常规处理方法知识数据Tp中的结构化文本数据Tp_s进行预处理:提取出Tp_s中“用户ID”字段以及“投诉事件”字段内容,得到T′p_s;
步骤3:将T′p_ns与T′p_s中数据按照用户ID进行匹配相接,得到总数据集T′p;
步骤4:使用T′p在预训练后的基于编码结构的文本语义模型框架上进行微调,按照SLRO下游网络的抽取要求构建Dataloader类按批次输入基于编码结构的文本语义模型得到文本语义结果向量/>再通过基于BiGRU+FNN解码结构的文本张量模型以及SLRO下游网络得到投诉文本对应的三元组/>
其中SLRO数据类构造过程步骤包括:
步骤1:构造SLRO的数据类主要从数据文本与数据标签两个方面进行构建,将T′p_2中的文本部分直接拼接可得到数据文本text′p,文本对应的三元组作为标签label′p;
步骤2:构建知识图谱所需的三元组元素,其中,“事件主体”作为主体、“主体状态”作为客体、“事件类别”作为关系,SLRO下游网络中还会预测“主体类别”,该元素属于模型训练时的额外产出,用于辅助解决方案的生成;
步骤3:开始构造标签,根据文本中的主体位置属性构造实体标注矩阵,以行标注主体的起始位置,以列标注主体的结束位置,将主体的位置打标为1,同理,在同一个实体标注矩阵中对客体位置属性进行标注,将客体的位置打标为-1,最终得到的实体标注矩阵作为entity_label,将每条文本中的所有三元组对应的“事件类别”整合为列表作为relation_label,将每条文本中的所有三元组对应的“主体类别”整合为列表作为sub_label。
可以理解的是,在本发明中,采用投诉常规处理方法知识数据Tp对模型进行训练的过程,与直接对用户投诉文本数据Tu进行处理的过程类似,因此其相应的网络结构,以及处理流程、计算公式也应对应,本发明就不再一一详述,本发明实施例只重点针对投诉常规处理方法知识数据Tp的标注过程等进行详述。
在本发明优选实施例中,本发明还可以通过用户反馈则将不达标的三元组与前述预测得到的对应解决方案一同写入待矫正文件,由人工处理;使用上述结果更新知识图谱;与传统的人工客服应答不同,本发明将知识图谱与文本生成技术相融合,通过半监督学习动态拓宽知识图谱,能在短时间内,自动处理电商用户投诉并给出具体且正确的解决方案,提升用户满意度。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。