CN117077680A - 问答意图识别方法及装置 - Google Patents

问答意图识别方法及装置 Download PDF

Info

Publication number
CN117077680A
CN117077680A CN202210488263.6A CN202210488263A CN117077680A CN 117077680 A CN117077680 A CN 117077680A CN 202210488263 A CN202210488263 A CN 202210488263A CN 117077680 A CN117077680 A CN 117077680A
Authority
CN
China
Prior art keywords
vector
sample data
text
intention
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210488263.6A
Other languages
English (en)
Inventor
王娟
张蔷
陈晓峰
李睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Jiangsu Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202210488263.6A priority Critical patent/CN117077680A/zh
Publication of CN117077680A publication Critical patent/CN117077680A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种问答意图识别方法及装置。所述方法包括:将用户的提问数据输入至目标意图识别模型中,得到目标意图识别模型输出的意图识别结果;目标意图识别模型通过如下方式训练得到:基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量;对文本向量进行特征提取,确定样本数据的特征向量;基于样本数据对应的意图以及样本数据的特征向量,对初始意图识别模型进行训练,得到目标意图识别模型。本申请实施例提供的问答意图识别方法及装置,通过基于样本数据的词向量和句向量得到的文本向量,来表征样本数据的文本语义特征,并训练得到意图识别模型,通过该意图识别模型可以实现精确的意图识别,从而提高智能客服应答效率。

Description

问答意图识别方法及装置
技术领域
本申请涉及自然语言处理技术领域,具体涉及一种问答意图识别方法及装置。
背景技术
目前,随着电子商务的快速兴起,智能客服成为商业领域的一大研究热点。智能客服的核心是快速、准确地回答用户的咨询问题,其中的一个关键功能就是识别用户的咨询意图。早期的客服系统通常是人工来处理客户的疑问,而传统的智能客服意图识别模型主要是基于机器学习算法或基于规则、模板匹配的方式,计算用户提问语句和知识库语句的相似度,通过匹配的方式检索出答案,智能客服模型中语句相似度的计算需要综合考虑关键词信息和语义逻辑信息。
机器学习分类算法在实际操作的过程中主要有以下问题:由于用户提问内容短、受噪声干扰较大、一词多义等客观问题,增加了文本向量化的难度,且文本特征稀疏还包含较大信息量,用户的一些提问可能还包含多意图的情况,对话短文本通常含有大量省略词或者指代词,这使得意图识别不单单与当前对话信息有关,还受历史对话信息影响,大大增加了意图识别的难度。这些问题严重影响文本表示和特征提取的效果,进而降低了意图识别的准确率。
发明内容
本申请实施例提供一种问答意图识别方法及装置,用以解决如何识别用户的提问意图的技术问题。
第一方面,本申请实施例提供一种问答意图识别方法,包括:
将用户的提问数据输入至目标意图识别模型中,得到所述目标意图识别模型输出的意图识别结果;
所述目标意图识别模型通过如下方式训练得到:
基于样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量;
对所述文本向量进行特征提取,确定所述样本数据的特征向量;
基于所述样本数据对应的意图以及所述样本数据的特征向量,对初始意图识别模型进行训练,得到所述目标意图识别模型。
在一个实施例中,所述基于样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量,包括:
基于所述词向量和所述第一句向量,确定所述词向量和所述第一句向量之间的余弦相似度值;
基于所述余弦相似度值和所述词向量,确定第二句向量;
基于所述第一句向量和所述第二句向量,确定所述样本数据的文本向量。
在一个实施例中,所述基于所述余弦相似度值和所述词向量,确定第二句向量,包括:
基于所述余弦相似度值和所述词向量,确定所述词向量的权重;
基于加权后的词向量,确定所述第二句向量。
在一个实施例中,所述对所述文本向量进行特征提取,确定所述样本数据的特征向量,包括:
基于多头注意力机制、CNN算法和LSTM算法,提取所述文本向量的局部特征向量和全局特征向量;
基于所述局部特征向量和所述全局特征向量,确定所述样本数据的特征向量。
在一个实施例中,所述基于所述局部特征向量和所述全局特征向量,确定所述样本数据的特征向量,包括:
将所述局部特征向量和所述全局特征向量通过平均融合的方式进行融合,确定所述样本数据的特征向量。
在一个实施例中,所述基于所述样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量之前,还包括:
对样本数据进行聚类分析;
基于聚类结果,对每一簇内的样本数据分别进行数据标注,确定所述样本数据对应的意图。
在一个实施例中,所述对样本数据进行聚类分析之前,还包括:
对样本数据进行预处理;
所述预处理包括:去噪、文本长度筛选以及多轮问答数据剔除。
第二方面,本申请实施例提供一种问答意图识别装置,包括:
识别模块,用于将用户的提问数据输入至目标意图识别模型中,得到所述目标意图识别模型输出的意图识别结果;
所述意图识别模型通过如下方式训练得到:
基于样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量;
对所述文本向量进行特征提取,确定所述样本数据的特征向量;
基于所述样本数据对应的意图以及所述样本数据的特征向量,对初始意图识别模型进行训练,得到所述目标意图识别模型。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的问答意图识别方法。
第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的问答意图识别方法。
本申请实施例提供的问答意图识别方法及装置,通过基于样本数据的词向量和句向量得到的文本向量,来表征样本数据的文本语义特征,并训练得到意图识别模型,通过该意图识别模型可以实现精确的意图识别,从而提高智能客服应答效率以及应答文本的有效性。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的问答意图识别方法的流程示意图;
图2是应用本申请实施例提供的问答意图识别方法的流程示意图之一;
图3是应用本申请实施例提供的问答意图识别方法的流程示意图之二;
图4是本申请实施例提供的问答意图识别装置的结构示意图;
图5是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的问答意图识别方法的流程示意图。参照图1,本申请实施例提供一种问答意图识别方法,可以包括:
步骤110、将用户的提问数据输入至目标意图识别模型中,得到目标意图识别模型输出的意图识别结果;
目标意图识别模型通过如下方式训练得到:
基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量;
对文本向量进行特征提取,确定样本数据的特征向量;
基于样本数据对应的意图以及样本数据的特征向量,对初始意图识别模型进行训练,得到目标意图识别模型。
需要说明的是,本申请实施例提供的问答意图识别方法的执行主体可以是电子设备、电子设备中的部件、集成电路、或芯片。该电子设备可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personal digital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(personalcomputer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请不作具体限定。
在步骤110中,将用户的提问数据输入至目标意图识别模型中,得到目标意图识别模型输出的意图识别结果。
用户的提问数据即为待识别的数据,将用户的提问数据输入至目标意图识别模型中,即可得到用户的意图的识别结果。
可以理解的是,在进行意图识别之前,需要先确定目标意图识别模型。首先需要采集样本数据,并对样本数据进行预处理。
样本数据可以是基于实际业务场景,根据已有的客服系统记录数据从数据仓库中导出的。通常使用当月客服平台记录的数据作为样本数据,但这样的构建方法取得的样本数据量偏少,且模型只注重于单月信息,在当月用户可能更多会对某些热门领域进行咨询提问,其他方面可能会缺少数据,关注点过于单一,无法涵盖各类提问意图的特性。
因此本申请实施例可以采用多月多种类+后续补充数据结合的方式来收集样本数据。
具体方法为首先分别筛选出近n个月的用户提问数据,n可根据近期用户使用客服平台的情况来确定。再从时间跨度更长的数据样本中基于某些关键字来挑选出一些用户意图数据,关键字例如“如何申请”、“怎么办理”、“代金券”等,再次筛选出部分样本数据。最终将以上所有样本数据合并,生成全部样本数据。
后续补充主要指在数据标注完成后统计每种意图的标注量,若某些类别较多,则可以人工从数据仓库中再筛选数据进行标注,尽量保持各类别标注量相近。
样本数据的构建考虑到尽可能多的用户意图覆盖,不能仅选取热门意图,而是需要考虑到将其他较冷门的意图样本数据,选取这样的最终样本由于包含多个意图,捕捉的特征与标签的关系会更加符合实际,构建的模型具有较强的鲁棒性,在新数据集上的泛化能力会更加稳健。
样本数据可以按照目标比例划分为训练集和测试集。例如:目标比例可以是8:2。
在实际执行中,需要将样本文本类数据转换为可供计算机读取的数据,即文本序列向量化,目的就是将文本信息表示成计算机可以处理的结构化信息,即多维向量,然后用向量代表文本输入到接下来的各种不同任务模型中。
文本向量化的方法通常分为离散表示和分布式表示两种,离散表示是一种基于规则和统计的向量化方式,常用的方法包括One-Hot Encoding和TF-IDF,离散表示的缺点在于忽略了文本信息中的语序信息,不考虑段落中的词汇顺序,仅将其反映为若干维度的独立概念,文本特征的表达能力弱,不利于接下来的特征提取、意图分类等操作。
分布式表示是指每个词根据上下文从高维映射到一个低维度、稠密的向量上。在构成的向量空间中,每个词的含义都可以用周边的词来表示,优点是考虑到了词之间存在的相似关系,减小了词向量的维度,弥补了离散表示的不足。但分布式表示不能通过上下文语义对特征词进行区分,即不能表征一词多义的现象。
为了改进上述两个问题,本申请实施例提出一种基于BERT句特征+Word2Vec词特征相结合的方法来表征用户提问的深层语义特征。
具体方法为首先利用Word2vec模型训练样本数据得到词向量,以及BERT预训练模型样本数据得到句子层级向量,即第一句向量。
BERT(Bidirectional Encoder Representations from Transformers)模型,本质是在双向Transformer编码器的基础上实现的,模型结构模型的输入向量为E1,E2,...,EN,经过双向Transformer编码得到文本的向量化表示T1,T2,...,TN
Word2vec利用深度学习的思想,可通过训练把对文本内容的处理简化为多维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。它是分布式的词向量表示方式,本质是一种神经概率模型,有CBOW模型和Skip-gram模型两种训练方式。本申请实施例采用Skip-gram模型训练词向量。
Skip-gram模型的核心思想是通过上下文各k个词预测Wt出现的概率,数学表示为:P(τ(Wt-k,Wt-k+1…Wt+k-1,Wt+k)|Wt),而在网络的输出层采用的是层次softmax函数,通过构造霍夫曼二叉树使二者训练的目标优化函数取最优值,具体公式如下,其中,C为短文本词语个数:
根据样本数据的词向量和第一句向量,进行向量之间的处理得到样本数据的文本向量。
对文本向量进行特征提取,得到样本数据的特征向量。
根据样本数据对应的意图以及样本数据的特征向量,对初始意图识别模型进行训练,即可得到目标意图识别模型。
此外,意图识别模型的评价指标可以是精确率P(precision)、召回率R(recall)和F1值(F1-score)。
精确率P是指分类器预测为A意图且预测正确的样本占所有预测为A意图的样本的比例,计算公式如下:
召回率R是覆盖面的度量,指分类器预测为A意图且预测正确的样本占所有真实为A意图的样本的比例,计算公式如下:
其中,TP、FP、FN含义如表1所示:
表1
预测意图为A 预测意图为其他
实际意图为A TP FN
实际意图为其他 FP TN
精确率和召回率指标有时候会出现矛盾的情况,这样就需要综合考虑他们,最常见的方法就是F1-Score。F1值是综合了精确率P和召回率R的一个指标,计算公式如下:
F1值越高说明模型的识别效果越好。
本申请实施例提供的问答意图识别方法,通过基于样本数据的词向量和句向量得到的文本向量,来表征样本数据的文本语义特征,并训练得到意图识别模型,通过该意图识别模型可以实现精确的意图识别,从而提高智能客服应答效率以及应答文本的有效性。
在一个实施例中,基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量,包括:
基于词向量和第一句向量,确定词向量和第一句向量之间的余弦相似度值;
基于余弦相似度值和词向量,确定第二句向量;
基于第一句向量和第二句向量,确定样本数据的文本向量。
根据得到的样本数据的词向量和第一句向量,计算词向量和第一句向量之间的相似度值。可以用余弦相似度值来度量向量间的相似度值。
余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小,它更加注重两个向量在方向上的差异,而非距离或长度上。
在一个实施例中,基于余弦相似度值和词向量,确定第二句向量,包括:
基于余弦相似度值和词向量,确定词向量的权重;
基于加权后的词向量,确定第二句向量。
将得到的余弦相似度值转化为权值分配给对应的词向量,最后将加权后的词向量拼接成第二句向量,第一句向量求和得到样本数据的文本向量。
在向量融合方面,不同于传统的加权融合或直接融合方式,本申请实施例将BERT句特征与Word2Vec词特征以相似度计算的方式结合来表征用户提问的深层语义特征。
图2是应用本申请实施例提供的问答意图识别方法的流程示意图之一。参照图2,样本数据向量化的具体流程可以是:
首先利用BERT预训练模型对样本数据中的用户问句进行特征提取,得到问句的句向量A。
然后利用Word2vec模型训练词向量,将样本数据中的问句输入到训练好的Word2Vec模型中,得到词向量Bi(i=1,2…n),Bi表示问句中第i个词的词向量,n为问句中词语总数。
将每个词向量Bi与问句的句子层级向量进行相似度计算,得到相似度Si
其中,第i个词的词向量与其句向量的相似度Si的计算公式为:
将得到的相似度值Si转化为权值wi并分配给对应的词向量,由相似度Si得到第i个词对应的权重wi的公式为:
最后将加权后的词向量拼接成第二句向量,第二句向量Vecword2vec为:
Vecword2vec=w1B1+w2B2+…+wnBn
第二句向量与第一句向量求和得到问句的向量化表示,拼接公式为:
Vecsentence=concat(Vecword2vec,VecBert)
文本向量Vecsentence既包含句子层级的语义特征,又突出了更接近句子含义的词语的特征,不仅可以弥补Word2vec不能提现一词多义的缺点,而且BERT生成的句向量的存在也补充了词向量拼接时丢失的语义信息。
本申请实施例提供的问答意图识别方法,通过利用Word2vec模型训练词向量,并将每个词向量与经BERT预训练模型得到的句子层级向量进行相似度计算,然后将得到的相似度值转化为权值分配给对应的词向量,最后将加权后的词向量拼接成句向量与BERT的句向量求和得到短文本向量化表示。最终得到的文本向量既包含句子层级的语义特征,又突出了更接近句子含义的词语的特征,不仅可以弥补Word2vec不能提现一词多义的缺点,而且BERT生成的句向量的存在也补充了词向量拼接时丢失的语义信息。
在一个实施例中,对文本向量进行特征提取,确定样本数据的特征向量,包括:
基于多头注意力机制、CNN算法和LSTM算法,提取文本向量的局部特征向量和全局特征向量;
基于局部特征向量和全局特征向量,确定样本数据的特征向量。
采用多头注意力(Multi-Head Attention)机制学习不同词语的权重分配,可以同时获取与多个意图标签相关的不同词语,从多个方面捕获更重要的词语信息;同时引入卷积神经网络和长短期记忆网络,分别提取短文本的局部特征与全局特征,使得融合后的特征更加鲜明。
图3是应用本申请实施例提供的问答意图识别方法的流程示意图之二,参照图3,本申请实施例提供的意图识别方法可以为:
向量表示:基于BERT+Word2Vec的文本序列向量化表示。
Multi-Head Attention:在短文本向量表示后使用多头注意力机制来发现短文本中的重要信息,自动学习输入文本序列中相对重要的单词。
特征提取:注意力的运算结果作为特征提取的输入,分别采用CNN和长LSTM提取文本的局部特征信息和全局特征信息。
特征融合:将局部特征信息和全局特征信息通过平均融合的方式实现特征融合,得到不同层次的特征信息,减少特征的丢失。
分类:将特征融合后的向量信息作为输入,采用Sigmoid函数分别处理各个原始输出值,实现多意图识别的操作。
其中,Multi-Head Attention机制对短文本序列中的不同词语进行权重分配,让不同词语拥有不同的权重,增强多意图识别的正确性。相比于其他注意力机制,多头注意力可以同时获取与多个意图相关的不同词语,从而多角度地获取更重要的词语信息。
注意力操作就是查询Q到键值对K-V的映射,这里每个注意力的头部都使用自注意力,寻找序列内部的联系。Multi-Head Attention机制的计算方法如下:首先对Q,K,V进行线性变换;然后输入到放缩点积注意力中计算h次,每一次算一个头,头之间的参数不共享。最后将h次的放缩点积注意力结果从左到右进行拼接,再进行一次线性变换得到的注意力矩阵X作为多头注意力的结果。具体计算公式如下:
headi=Attention(QWi Q,KWi K,VWi V)
其中,Q、K、V分别代表Query矩阵,Key矩阵,Value矩阵且值相等,均为向量化的输出E;指的是键向量维度的平方根,起到调节作用,控制Q和K的内积不会太大;W是线性变换的参数,每次Q、K、V进行线性变换时W是不一样的;h表示头的数量,i表示第i个注意力头部。
并通过CNN算法和长LSTM算法可以对Multi-Head Attention机制处理后的向量进行全局特征提取和局部特征提取,获得不同含义和不同层次的特征向量,可以包括表征全局语义的全局特征向量和表征局部语义的局部特征向量。
将局部特征信息和全局特征信息进行融合,得到不同层次的特征信息,并减少特征的丢失。
本申请实施例提供的问答意图识别方法,通过Multi-Head Attention机制对短文本序列中的不同词语进行权重分配,让不同词语拥有不同的权重。通过CNN算法和长LSTM算法可以对Multi-Head Attention机制处理后的向量进行全局特征提取和局部特征提取,获得表征全局语义的全局特征向量和表征局部语义的局部特征向量,将局部特征信息和全局特征信息进行融合,得到不同层次的特征信息,并减少特征的丢失,进一步增强意图识别的正确性。
在一个实施例中,基于局部特征向量和全局特征向量,确定样本数据的特征向量,包括:
将局部特征向量和全局特征向量通过平均融合的方式进行融合,确定样本数据的特征向量。
采用平均融合的方式而不是拼接融合的方式,拼接融合由于特征维度变大,容易产生梯度爆炸的问题。CNN和LSTM会输出具有相同维度的特征,平均融合不会增加维度计算,既节约计算成本,又能获取不同层次的文本信息特征,计算方法为:
H=(HCNN+HLSTM)/2
其中,H为特征向量,HCNN为局部特征向量,HLSTM为全局特征向量。
本申请实施例提供的问答意图识别方法,通过采用平均融合的方式而不是拼接融合的方式,拼接融合由于特征维度变大,容易产生梯度爆炸的问题。CNN和LSTM会输出具有相同维度的特征,平均融合不会增加维度计算,既节约计算成本,又能获取不同层次的文本信息特征,进一步提高了意图识别的效率。
在一个实施例中,基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量之前,还包括:
对样本数据进行聚类分析;
基于聚类结果,对每一簇内的样本数据分别进行数据标注,确定样本数据对应的意图。
确定用户的意图种类,通常的做法是由客服平台的业务专家们根据日常工作中遇到的用户咨询情况来总结归纳出几个意图类型,但这种做法往往过于主观,不能够很好涵盖所有的意图种类,很容易就会漏掉其中某一两类情况。
对于大量的样本数据,可以先将样本数据基于语义相似度进行聚类进行聚类,聚类后同一簇下的提问数据都有着相近的提问意图。将同一簇内的样本数据进行标注,确定样本数据的意图。
因此本请实施例提出一种基于数据挖掘的语料统计方法,用聚类算法对大量原始对话语料的进行处理,可以快速将大量语料按照其内在的语义相似度进行聚类,并形成一个个的语料簇。
每一个簇都有可能是一个知识点或意图的语料集,通过挖掘和人工辅助判断的方式,可以起到归纳总结对话意图的目的,最后再基于聚类结果快速完成数据标注工作,提升标注效率,极大节约人力成本,数据鲁棒性更强。
本申请实施例DBSCAN聚类算法对样本数据进行聚类分析。DBSCAN是一种经典的基于密度的聚类算法,它可以在含有噪声的数据集中识别任意数量和形状的簇,其算法复杂度为O(n2)。
DBSCAN算法需要用户设定两个参数,ε(半径参数)和MinPts(邻域密度阈值),这两个参数在多维数据集中一般较难确定,通常是用户通过对聚类数据集的初步了解后,根据经验而设定的。
经过对问答样本数据的分析及客服平台人员的审核,发现在同一个意图下的相似问题数稳定在8-12之内,再结合传统的取MinPts法,即取数据集的也是一种有效的方式(其中m是数据样本总数,/>表示向下取整),最终MinPts取值范围在8-12内。
为了更好的提升聚类质量,本申请实施例对DBSCAN的另一个改进点在于引入轮廓系数,轮廓系数表示聚类后各类样本间的紧密程度和各类之间的离散程度,同一类中样本间的距离越小,异类间样本距离越大。
每次聚类后,通过计算本次聚类结果的轮廓系数来评价聚类质量,最终通过迭代计算寻找到较优参数,因此轮廓系数能够作为评价指标来进一步帮助我们确定合适的参数。
轮廓系数的计算公式如下所示:
其中,ai为点i到自身簇中所有其它点之间的平均距离,bi为点i到其它簇中所有的点之间距离的最小值,其SC取值范围在-1到1之间。
当SC值取负值时,点i到其它簇内点的距离小于自身簇内点的距离,说明两个簇有重叠,这样的聚类效果较差。SC值越大,其聚类质量越高,聚类效果越好。
DBSCAN中的相关概念主要有:
ε-近邻:一个对象p的ε半径内的区域称为对象p的ε-近邻。
核对象:在对象集D中,若对象p的ε-近邻至少包含满足邻域密度阀值数目(≥MinPts)的对象,则对象p称为核对象。
直接密度可达:在对象集D中,若对象q为另一个对象p的ε-近邻且p为核对象,则对象q从对象p直接密度可达。
密度可达:在对象集D中,若存在一个点链p1、p2、…、pn,对于pi=D(1≤i≤n),且pi+1是从pi的直接密度可达,则点pn从点p1密度可达。
密度相连:若存在对象o,使得对象p和对象q都从o密度可达,则对象p和对象q密度相连。
改进后的DBSCAN算法执行步骤具体描述如下所示:
输入:数据集D,半径参数ε,密度阈值MinPts
输出:聚类结果及噪声数据
S1、从数据集D中随机抽取一个未被处理的对象,且在它的ε-近邻满足密度阈值要求称为核对象;
S2、遍历整个数据集,找到所有从对象p的密度可达对象,形成一个新的簇;
S3、通过密度相连产生最终簇结果;
S4、重复执行S2和S3,直到数据集中所有对象都为“已处理”;
S5、计算本轮聚类结果的轮廓系数,并与上轮结果比较;
S6、取其他参数,再次进行聚类分析重复以上步骤;
S7、对比轮廓系数结果,确定最终参数。
通过改进后的DBSCAN算法训练得到聚类模型,输入新的样本数据后计算得到最终聚类结果,基于聚类结果开始对数据进行标注。
聚类结果中的每一个簇下都包含有若干条数据,这些数据都在一定程度上具有相同或相似的特点,对于客服业务场景来说,同一簇下的这些用户提问都有着相近的提问意图。因此聚类后的每一个簇都表示某种提问意图。
在进行数据标注时,数据标注人员无需逐条审查,根据簇类可以先粗粒度的确定每条数据的标记类别,然后在每类中快速的浏览数据来查验类别是否正确,这样能够很大程度上节约数据标注时间。
本申请实施例提供的问答意图识别方法,通过对样本数据进行聚类分析,聚类结果中的每一个簇下都包含有若干条数据,这些数据都在一定程度上具有相同或相似的特点,对于客服业务场景来说,同一簇下的这些用户提问都有着相近的提问意图,因此聚类后的每一个簇都表示某种提问意图。因此在进行数据标注时,数据标注人员无需逐条审查,根据簇类可以先粗粒度的确定每条数据的标记类别,然后在每类中快速的浏览数据来查验类别是否正确,这样能够很大程度上节约数据标注时间,从而提高了意图识别的效率。
在一个实施例中,对样本数据进行聚类分析之前,还包括:
对样本数据进行预处理;
预处理包括:去噪、文本长度筛选以及多轮问答数据剔除。
数据仓库中获取的原始样本数据内容杂乱,不适用于作为后面的模型训练数据,部分数据可能与后续的分析操作无关联或可能会产生干扰,因此很有必要在模型训练前对数据进行预处理操作。
预处理可以包括:噪声数据去除、文本长度筛选、多轮问答数据剔除、格式统一等。
噪声数据去除。在样本数据的构成中,客服系统保存在数据库中的数据可能会关联其他信息,因此往往会包括URL、图片、表情、符号、用户ID、请求时间等无意义数据,这些无用的数据不仅会大大增加文本处理的工作量,还会对后期的一系列操作造成直接影响,从而降低文本处理的效率。因此,去除这些噪声数据是处理问答文本前的首要任务。
文本长度筛选。经过与客服人员交流及对数据库中存储的数据进行分析后,我们发现用户提问问题多为简短的问题,文本长度大多都小于30,因此在创建样本时可以剔除长文本数据,让样本数据更贴合实际场景,也能够提升训练及预测时间。具体做法是筛选出长度在30以内的用户提问数据。
筛选多轮问答数据。客服平台还会收集到用户在一次咨询时的多次提问,多轮的提问数据会存在许多省略文本或指代词,这类数据的质量较低,如果加入到训练数据中会影响训练效果,因此需要在预处理时剔除掉这类数据。
本申请实施例提供的问答意图识别方法,通过对样本数据进行去噪、文本长度筛选以及多轮问答数据剔除等预处理,可以避免无效数据对意图识别造成干扰,进一步提高了意图识别的准确性。
下面对本申请实施例提供的问答意图识别装置进行描述,下文描述的问答意图识别装置与上文描述的问答意图识别方法可相互对应参照。
图4是本申请实施例提供的问答意图识别装置的结构示意图,参照图4,本申请实施例提供的问答意图识别装置,可以包括:
识别模块410,用于将用户的提问数据输入至目标意图识别模型中,得到目标意图识别模型输出的意图识别结果;
意图识别模型通过如下方式训练得到:
基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量;
对文本向量进行特征提取,确定样本数据的特征向量;
基于样本数据对应的意图以及样本数据的特征向量,对初始意图识别模型进行训练,得到目标意图识别模型。
本申请实施例提供的问答意图识别装置,通过基于样本数据的词向量和句向量得到的文本向量,来表征样本数据的文本语义特征,并训练得到意图识别模型,通过该意图识别模型可以实现精确的意图识别,从而提高智能客服应答效率以及应答文本的有效性。
在一个实施例中,基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量,包括:
基于词向量和第一句向量,确定词向量和第一句向量之间的余弦相似度值;
基于余弦相似度值和词向量,确定第二句向量;
基于第一句向量和第二句向量,确定样本数据的文本向量。
在一个实施例中,基于余弦相似度值和词向量,确定第二句向量,包括:
基于余弦相似度值和词向量,确定词向量的权重;
基于加权后的词向量,确定第二句向量。
在一个实施例中,对文本向量进行特征提取,确定样本数据的特征向量,包括:
基于多头注意力机制、CNN算法和LSTM算法,提取文本向量的局部特征向量和全局特征向量;
基于局部特征向量和全局特征向量,确定样本数据的特征向量。
在一个实施例中,基于局部特征向量和全局特征向量,确定样本数据的特征向量,包括:
将局部特征向量和全局特征向量通过平均融合的方式进行融合,确定样本数据的特征向量。
在一个实施例中,基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量之前,还包括:
对样本数据进行聚类分析;
基于聚类结果,对每一簇内的样本数据分别进行数据标注,确定样本数据对应的意图。
在一个实施例中,对样本数据进行聚类分析之前,还包括:
对样本数据进行预处理;
预处理包括:去噪、文本长度筛选以及多轮问答数据剔除。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communication Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的计算机程序,以执行上述各实施例提供的问答意图识别方法,例如包括:
将用户的提问数据输入至目标意图识别模型中,得到目标意图识别模型输出的意图识别结果;
目标意图识别模型通过如下方式训练得到:
基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量;
对文本向量进行特征提取,确定样本数据的特征向量;
基于样本数据对应的意图以及样本数据的特征向量,对初始意图识别模型进行训练,得到目标意图识别模型。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各实施例所提供的问答意图识别方法,例如包括:
将用户的提问数据输入至目标意图识别模型中,得到目标意图识别模型输出的意图识别结果;
目标意图识别模型通过如下方式训练得到:
基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量;
对文本向量进行特征提取,确定样本数据的特征向量;
基于样本数据对应的意图以及样本数据的特征向量,对初始意图识别模型进行训练,得到目标意图识别模型。
另一方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行上述各实施例提供的问答意图识别方法,例如包括:
将用户的提问数据输入至目标意图识别模型中,得到目标意图识别模型输出的意图识别结果;
目标意图识别模型通过如下方式训练得到:
基于样本数据的词向量和样本数据的第一句向量,确定样本数据的文本向量;
对文本向量进行特征提取,确定样本数据的特征向量;
基于样本数据对应的意图以及样本数据的特征向量,对初始意图识别模型进行训练,得到目标意图识别模型。
所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种问答意图识别方法,其特征在于,包括:
将用户的提问数据输入至目标意图识别模型中,得到所述目标意图识别模型输出的意图识别结果;
所述目标意图识别模型通过如下方式训练得到:
基于样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量;
对所述文本向量进行特征提取,确定所述样本数据的特征向量;
基于所述样本数据对应的意图以及所述样本数据的特征向量,对初始意图识别模型进行训练,得到所述目标意图识别模型。
2.根据权利要求1所述的问答意图识别方法,其特征在于,所述基于样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量,包括:
基于所述词向量和所述第一句向量,确定所述词向量和所述第一句向量之间的余弦相似度值;
基于所述余弦相似度值和所述词向量,确定第二句向量;
基于所述第一句向量和所述第二句向量,确定所述样本数据的文本向量。
3.根据权利要求2所述的问答意图识别方法,其特征在于,所述基于所述余弦相似度值和所述词向量,确定第二句向量,包括:
基于所述余弦相似度值和所述词向量,确定所述词向量的权重;
基于加权后的词向量,确定所述第二句向量。
4.根据权利要求1所述的问答意图识别方法,其特征在于,所述对所述文本向量进行特征提取,确定所述样本数据的特征向量,包括:
基于多头注意力机制、CNN算法和LSTM算法,提取所述文本向量的局部特征向量和全局特征向量;
基于所述局部特征向量和所述全局特征向量,确定所述样本数据的特征向量。
5.根据权利要求4所述的问答意图识别方法,其特征在于,所述基于所述局部特征向量和所述全局特征向量,确定所述样本数据的特征向量,包括:
将所述局部特征向量和所述全局特征向量通过平均融合的方式进行融合,确定所述样本数据的特征向量。
6.根据权利要求1所述的问答意图识别方法,其特征在于,所述基于所述样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量之前,还包括:
对样本数据进行聚类分析;
基于聚类结果,对每一簇内的样本数据分别进行数据标注,确定所述样本数据对应的意图。
7.根据权利要求6所述的问答意图识别方法,其特征在于,所述对样本数据进行聚类分析之前,还包括:
对样本数据进行预处理;
所述预处理包括:去噪、文本长度筛选以及多轮问答数据剔除。
8.一种问答意图识别装置,其特征在于,包括:
识别模块,用于将用户的提问数据输入至目标意图识别模型中,得到所述目标意图识别模型输出的意图识别结果;
所述意图识别模型通过如下方式训练得到:
基于样本数据的词向量和所述样本数据的第一句向量,确定所述样本数据的文本向量;
对所述文本向量进行特征提取,确定所述样本数据的特征向量;
基于所述样本数据对应的意图以及所述样本数据的特征向量,对初始意图识别模型进行训练,得到所述目标意图识别模型。
9.一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的问答意图识别方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的问答意图识别方法。
CN202210488263.6A 2022-05-06 2022-05-06 问答意图识别方法及装置 Pending CN117077680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210488263.6A CN117077680A (zh) 2022-05-06 2022-05-06 问答意图识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210488263.6A CN117077680A (zh) 2022-05-06 2022-05-06 问答意图识别方法及装置

Publications (1)

Publication Number Publication Date
CN117077680A true CN117077680A (zh) 2023-11-17

Family

ID=88718044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210488263.6A Pending CN117077680A (zh) 2022-05-06 2022-05-06 问答意图识别方法及装置

Country Status (1)

Country Link
CN (1) CN117077680A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118410791A (zh) * 2024-06-26 2024-07-30 四川蜀天信息技术有限公司 一种大模型的对话质量评估方法、装置和设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118410791A (zh) * 2024-06-26 2024-07-30 四川蜀天信息技术有限公司 一种大模型的对话质量评估方法、装置和设备

Similar Documents

Publication Publication Date Title
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
US20210216576A1 (en) Systems and methods for providing answers to a query
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN112307364B (zh) 一种面向人物表征的新闻文本发生地抽取方法
CN112016313B (zh) 口语化要素识别方法及装置、警情分析系统
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN117668205B (zh) 智慧物流客服处理方法、系统、设备及存储介质
CN115658934A (zh) 一种基于多类注意力机制的图文跨模态检索方法
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质
CN117709358A (zh) 保险智能问答系统的对话应答方法、装置、设备和介质
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN117077680A (zh) 问答意图识别方法及装置
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN116503127A (zh) 模型训练方法、检索方法及相关装置
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN114254622A (zh) 一种意图识别方法和装置
CN114896962A (zh) 多视角句子匹配模型、应用方法和相关装置
CN111737469A (zh) 数据挖掘方法、装置、终端设备和可读存储介质
Cui et al. Multi-grained encoding and joint embedding space fusion for video and text cross-modal retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination