CN116186259A - 一种会话线索评分方法、装置、设备及存储介质 - Google Patents

一种会话线索评分方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116186259A
CN116186259A CN202310018897.XA CN202310018897A CN116186259A CN 116186259 A CN116186259 A CN 116186259A CN 202310018897 A CN202310018897 A CN 202310018897A CN 116186259 A CN116186259 A CN 116186259A
Authority
CN
China
Prior art keywords
text
conversation
session
cue
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310018897.XA
Other languages
English (en)
Inventor
陈倩倩
蒋林林
周柳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Krypton Information Technology Co ltd
Original Assignee
Shanghai Krypton Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Krypton Information Technology Co ltd filed Critical Shanghai Krypton Information Technology Co ltd
Priority to CN202310018897.XA priority Critical patent/CN116186259A/zh
Publication of CN116186259A publication Critical patent/CN116186259A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种会话线索评分方法、装置、设备及存储介质,涉及自然语言处理技术领域,包括:获取会话文本,并确定所述会话文本中嵌入的初始文本信息;将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。本申请可以通过对会话文本进行一系列处理后通过聚类获取相应的主题和关键词,最终基于关键词对应的会话标签确定会话文本的线索评分,这样可以避免利用传统机器学习模型时导致模型效果不好和不可解释等问题,有效提高模型泛化能力实现对会话线索的可解释性分析。

Description

一种会话线索评分方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种会话线索评分方法、装置、设备及存储介质。
背景技术
在电话销售场景中,当销售人员面对海量线索时,若仅凭个人主观经验决策线索跟进优先级,极易出现时间和精力分配不合理,造成投入产出比低等情况。因此需要对通话内容进行线索评分,将高质量线索下发,低质量线索再培育或者废弃。
目前采用的会话线索评分方法有两种,采用基于词向量的机器学习模型和基于深度学习模型的方法。采用基于词向量的机器学习模型效果极大依赖于前期的数据清洗,并且生成的文本向量维度很大,向量比较稀疏,模型效果较差。采用深度学习模型直接输入文本进行模型二分类,基于预训练模型语义的效果较好,但是对长文本处理性能显著下降,并且模型结果不可解释。
发明内容
有鉴于此,本发明的目的在于提供一种会话线索评分方法、装置、设备及存储介质,能够有效提升模型泛化能力实现对会话线索的可解释性分析和评分。其具体方案如下:
第一方面,本申请公开了一种会话线索评分方法,包括:
获取会话文本,并确定所述会话文本中嵌入的初始文本信息;
将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;
获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。
可选的,所述确定所述会话文本中嵌入的初始文本信息,包括:
提取所述会话文本中相应的目标文本,并将所述目标文本输入至预设对比学习模型以确定所述目标文本中嵌入的初始文本信息;所述初始文本信息为向量形式。
可选的,所述将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题,包括:
利用UMAP算法对所述初始文本信息进行降维处理,并利用预设密度聚类算法将降维后的所述初始文本信息进行聚类操作以得到若干聚类类型对应的若干文本主题。
可选的,所述利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题之后,还包括:
通过聚类操作筛选出所述会话文本中的错误词汇和无关词汇以生成相应的停用词表。
可选的,所述获取每一所述文本主题相应的若干关键词,包括:
根据所述文本主题基于预设分词库获取若干候选关键词,并利用预设比对学习模型分别确定出若干所述候选关键词的若干第一向量和所述目标文本中各文本句子的第二向量;
从若干所述第一向量中确定出与所述第二向量之间的余弦相似度超过阈值的目标向量对应的目标候选关键词,并根据预设优化方法对所述目标候选关键词进行优化以确定每一所述文本句子对应的若干关键词。
可选的,所述基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分,包括:
基于每一所述关键词确定相应的会话标签并根据所述会话标签对所述会话文本进行编码操作以得到相应的会话编码;
将所述会话编码输入至预设梯度提升模型中以确定出所述会话文本对应的线索评分。
可选的,所述基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分之后,还包括:
对所述会话文本的线索评分进行特征重要性分析,以确定所述会话文本对应的每一所述会话标签相应的标签权重。
第二方面,本申请公开了一种会话线索评分装置,包括:
文本获取模块,用于获取会话文本,并确定所述会话文本中嵌入的初始文本信息;
文本聚类模块,用于将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;
线索评分模块,用于获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现前述的会话线索评分方法。
第四方面,本申请公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的会话线索评分方法。
可见,本申请首先获取会话文本,并确定所述会话文本中嵌入的初始文本信息;接着将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;然后获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。由此可知,本申请通过确定会话文本种的初始文本信息,并对所述初始文本信息进行降维处理后进行聚类操作,通过获取相应的关键词,可以使用多样化策略优化关键词,从而更好的定义相应主题,最后确定会话文本相应的线索评分,这样一来,可以通过将文本信息映射到高维从而提高模型的表征和泛化能力,并且通过降维处理以防止密度聚类对高度数据的聚类效果不好的问题,实现对会话线索的可解释性分析和评分。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种会话线索评分方法流程图;
图2为本申请公开的一种具体的会话线索评分方法流程图;
图3为本申请公开的一种对比学习模型无监督训练架构示意图;
图4为本申请公开的一种具体的关键词获取操作流程图;
图5为本申请公开的一种具体的线索评分操作流程图;
图6为本申请公开的一种标签权重示例图;
图7为本申请公开的一种具体的会话线索评分方法流程图;
图8为本申请公开的一种会话线索评分装置结构示意图;
图9为本申请公开的一种电子设备结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前采用的会话线索评分方法有两种,采用基于词向量的机器学习模型和基于深度学习模型的方法。采用基于词向量的机器学习模型效果极大依赖于前期的数据清洗,并且生成的文本向量维度很大,向量比较稀疏,模型效果较差。采用深度学习模型直接输入文本进行模型二分类,基于预训练模型语义的效果较好,但是对长文本处理性能显著下降,并且模型结果不可解释。因此,本申请提出了一种能够有效提升模型泛化能力实现对会话线索的可解释性分析和评分的会话线索评分方法。
参见图1所示,本申请实施例公开了一种会话线索评分方法,包括:
步骤S11:获取会话文本,并确定所述会话文本中嵌入的初始文本信息。
本实施例中,首先获取一段会话文本,并确定出所述会话文本中嵌入的初始文本信息,其中所述初始文本信息是一个高维的向量数据。这样一来,将初始文本信息映射到高维度,可以提高模型的表征和泛化能力。
步骤S12:将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题。
本实施例中,对高维的所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作,以得到若干聚类类别对应的若干文本主题,这样一来,可以防止目的密度聚类对高维数据的聚类效果不好等问题出现。
步骤S13:获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。
本实施例中,聚类操作完成后,获取每一个所述文本主题相应的若干关键词,然后基于每一个所述关键词通过人工总结的方式确定出相应的会话标签,以根据所述会话标签确定出所述会话文本的线索评分,进而分析会话标签与评分结果之间的关系,这样一来,可以实现对线索结果的可解释性分析,使用户可以从线索评分中获取更多有利信息。
可见,本申请首先获取会话文本,并确定所述会话文本中嵌入的初始文本信息;接着将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;然后获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。由此可知,本申请通过确定会话文本种的初始文本信息,并对所述初始文本信息进行降维处理后进行聚类操作,通过获取相应的关键词,可以使用多样化策略优化关键词,从而更好的定义相应主题,最后确定会话文本相应的线索评分,这样一来,可以通过将文本信息映射到高维从而提高模型的表征和泛化能力,并且通过降维处理以防止密度聚类对高度数据的聚类效果不好的问题,实现对会话线索的可解释性分析和评分。
基于上述实施例可知,本申请可以通过对会话文本进行一系列处理实现可解释性分析和评分的操作,下面将对本方案的具体步骤进行详细的描述。
参见图2所示,本申请实施例公开了一种具体的会话线索评分方法,包括:
步骤S21:获取会话文本,提取所述会话文本中相应的目标文本,并将所述目标文本输入至预设对比学习模型以确定所述目标文本中嵌入的初始文本信息;所述初始文本信息为向量形式。
本实施例中,获取一段会话文本,提取所述会话文本中相应的目标文本,可以理解的是,在电话销售的场景中,会话文本中包含销售人员和客户两个人的会话,而销售人员的会话对后续的线索分析作用不大,因此只需将客户的会话从所述会话文本中提取出来即可,即所述目标文本。提取出客户的会话文本即所述目标文本后,将所述目标文本输入至预设对比学习模型SimCSE(Simple Contrastive Sentence Embedding Framework)中以确定出所述目标文本中嵌入的初始文本信息即embedding(嵌入向量),其中所述初始文本信息为高维的向量形式。例如,一段通话文本为:
{'销售人员':'你好,姐',
'客户':'你好',
'销售人员':'是这样,我这边是某某公司的,主要是做某某业务的,还要看您有没有这样的一个需求。',
'客户':'我知道这个,我现在在忙呢,没时间',
'销售人员':'那您先忙。可以先加个微信吗,方便后面联系',
'客户':'行吧,那你加吧,我手机号',
'销售人员':'好的,那打扰您了,您先忙。'}
将其中客户的会话文本提取出来得到的目标文本为:{'你好','我知道这个,我现在在忙呢,没时间','行吧,那你加吧,我手机号'},而最终得到的初始文本信息是将所述目标文本中的每个句子都转化为高维向量得到的。
需要指出的是,所述SimCSE模型是一种简单的对比句向量表征的框架,可以拉近相似数据的距离,拉远不相似数据的距离,其中对比学习框架公式如下所示:
Figure BDA0004041586970000061
/>
其中,τ是一个控制softmax分布的超参数,通常设置为0.05,τ越大则分布越平滑,τ越小则正负样本之间的差距就越大;sim函数表示余弦相似度计算;N为一个batch的大小。给定一个句子集合
Figure BDA0004041586970000062
假设数据集中有两个相似样本/>
Figure BDA0004041586970000071
和xi并令/>
Figure BDA0004041586970000072
则所述样本的输出的嵌入向量即初始文本信息为/>
Figure BDA0004041586970000073
和hi,所述/>
Figure BDA0004041586970000074
和hi是相似的,越小则距离越近,即分子越小越好。而分母则是,xi和数据集中其他的样本的距离,不相识的样本,越大越好,即分母越大越好。总起来说,损失越小,越能达到对比学习的思想。所述SimCSE模型包含两种训练方式:有监督训练和无监督训练,本方案采用无监督的训练方式,所述无监督训练架构示意图参见图3所示,若直接用BERT(Bidirectional Encoder Representation fromTransformers,即一个预训练的语言表征模型)的句向量做无监督语义相似度计算,效果会很差,任意两个句子的BERT句向量的相似度都很高,其中一个原因是句向量分布的非线性和奇异性。对比学习的目标之一就是学习到分布均匀的向量表示,可以借助对比学习间接达到规整表示空间的效果。因此,对于无监督学习正样本的构造可以通过改变dropoutmask生成正样本的方法,因为原样本和生成的正样本的语义是完全一致的,只是生成的embedding不同而已,而负样本就是除了自身之外的其他样本。这样一来,利用SimCSE模型将目标文本转化映射到高维得到高维向量可以提高模型的表征和泛化能力,并通过对比学习可以更好的学习数据的特征。
步骤S22:利用UMAP算法对所述初始文本信息进行降维处理,并利用预设密度聚类算法将降维后的所述初始文本信息进行聚类操作以得到若干聚类类型对应的若干文本主题。
本实施例中,由于利用SimCSE模型得到的所述初始文本信息即高维向量为768维向量,而密度聚类对高维聚类的效果不好,所以需要利用UMAP(Uniform ManifoldApproximation and Projection for Dimension Reduction,即一致的流形逼近和投影以进行降维)算法对所述初始文本信息进行降维处理,进行降维处理时需要先学习高维空间中的流形结构,然后查找相应流形的低维表示以得到降维后的所述初始文本信息即低维向量。得到降维后的所述初始文本信息后,利用预设密度聚类算法HDBSCAN(HierarchicalDensity-Based Spatial Clustering of Applications with Noise)将降维后的所述初始文本信息进行聚类操作以得到若干聚类类型对应的若干文本主题。需要指出的是,所述UMAP算法是一种非线性降维的算法,相对于现有技术中使用的t-SNE(t-DistributedStochastic Neighbor Embedding)降维算法,UMAP算法相对于t-SNE速度更快,是一个确定性算法,而且保留双结构。而所述HDBSCAN聚类算法相比于DBSCAN(Density-Based SpatialClustering of Applications with Noise,即具有噪声的基于密度的聚类方法)的最大优势在于不需要人工选择领域半径R和最小覆盖点数MinPts,大部分的时候都只需选择最小生成类簇的大小即可,算法可以自动推荐最优的簇类结果,同时所述HDBSCAN聚类算法定义了一种新的距离衡量方式,可以更好的与反映点的密度。
本实施例中,所述利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题之后,还可以包括:通过聚类操作筛选出所述会话文本中的错误词汇和无关词汇以生成相应的停用词表。由于机器自动将语音转成文本时可能会因为口音等问题出现文本错误,通过上述聚类操作可以筛选出所述会话文本中因为语音拼写错误的词汇以及无关词汇,以剔除相应的词汇干扰生成停用词表,这样一来,在后续利用上述方法时,可以直接利用所述停用词表将相应的无关词汇和错误词汇剔除,使识别和分析过程更加准确。
步骤S23:根据所述文本主题基于预设分词库获取若干候选关键词,并利用预设比对学习模型分别确定出若干所述候选关键词的若干第一向量和所述目标文本中各文本句子的第二向量。
本实施例中,利用KeyBERT技术获取每个聚类类别对应的所述文本主题的关键词,首先需要构建短语清洗函数以对所述文本主题进行数据清洗,接着基于预设分词库获取相应的若干候选关键词或短语,可以使用N_Gram(基于统计语言模型的算法)模型改变所述候选关键词的词长大小。然后利用预设对比模型SimCSE分别确定出若干所述候选关键词的若干第一向量embedding和所述目标文本中各个文本句子的第二向量embedding。
步骤S24:从若干所述第一向量中确定出与所述第二向量之间的余弦相似度超过阈值的目标向量对应的目标候选关键词,并根据预设优化方法对所述目标候选关键词进行优化以确定每一所述文本句子对应的若干关键词。
本实施例中,确定出所述第一向量和所述第二向量后,通过计算余弦相似度(Cosine Similarity)从若干所述第一向量中确定出与每一个所述第二向量之间的余弦相似度超过阈值的目标向量对应的目标候选关键词,即确定出与每一个文本句子最相似的目标候选关键词,由于得到的若干所述目标候选关键词中可能存在十分相似的关键词,所以需要采用预设优化方法即最大相似度优化方法对所述目标候选关键词进行优化,从而优化关键词的多样性并且更好的定义主题,最终确定出每一所述文本句子相应的所述文本主题对应的若干关键词,例如,若目标文本为{'你好','我知道这个,我现在在忙呢,没时间','行吧,那你加吧,我手机号'},则'你好'中提取的关键词为“你好”;'我知道这个,我现在在忙呢,没时间'中提取到的关键词为“在忙”和“没时间”;'行吧,那你加吧,我手机号'中提取到的关键词为“加”和“手机号”。上述关键词获取操作的流程图参见图4所示。
步骤S25:基于每一所述关键词确定相应的会话标签并根据所述会话标签对所述会话文本进行编码操作以得到相应的会话编码。
本实施例中,基于每一所述关键词通过人工总结的方式确定出相应的会话标签,例如,若关键词为“你好”,则可以总结为打招呼标签;若关键词为“在忙”,“没时间”则可以总结为在忙标签;若关键词为“加”,“手机号”,则可以总结为加微信标签。根据获取到的所述会话标签对所述会话文本中的目标文本进行multi-hot编码操作以得到相应的会话编码,对于某个属性对应的分类特征,可能该特征下有多个取值,比如整个输入特征为0-32维的向量,对应标签的位置为1,其余位置为0。例如,若对目标文本为{'你好','我知道这个,我现在在忙呢,没时间','行吧,那你加吧,我手机号'}的文本进行前述操作后得到相应的会话标签为打招呼、没时间、加微信…,则进行multi-hot编码操作后获得的会话编码为0 11 1 0 0 0…。
步骤S26:将所述会话编码输入至预设梯度提升模型中以确定出所述会话文本对应的线索评分。
本实施例中,确定出会话编码后,将所述会话编码输入至预设梯度提升模型,即LightGBM(Light Gradient Boosting Machine,即基于决策树算法的分布式梯度提升框架)模型中进行训练以计算得出所述会话文本对应的线索评分。在LightGBM训练过程中采用单边梯度算法过滤掉梯度小的样本,减少了大量的计算。采用优化后的特征并行、数据并行方法加速计算,当数据量非常大的时候还可以采用投票并行的策略,模型最终结果输出0-1的线索评分。例如步骤S25中提到的例子,若将所述会话编码输入至LightGBM模型后,输出的线索评分为0.75分。需要指出的是,所述线索评分是对所述会话文本的重要程度的一个评分,分数越高表明所述会话文本的线索质量越高,越有可能成为机会点,分数越低则表明所述会话文本越不重要,即可忽略评分低的会话文本,从评分高的会话文本中获取需要的重要信息。上述线索评分操作的流程图参见图5所示。
进一步的,在利用本方案进行会话线索评分时,可以输入若干段会话文本集中进行评分操作,防止逐条进行评分降低工作效率,占用大量资源等问题,但每一段会话文本都会输出各自的线索评分,以便用户通过对比的形式判断哪些会话文本的评分更高,更值得进行进一步追踪。
步骤S27:对所述会话文本的线索评分进行特征重要性分析,以确定所述会话文本对应的每一所述会话标签相应的标签权重。
本实施例中,确定出所述会话文本相应的所述线索评分后,可以根据所述会话文本相应的所述会话标签对所述线索评分进行特征重要性分析,以确定每一个所述会话标签相应的标签权重,便于分析每一标签对评分结果产生的影响和作用,进行结果的可解释性分析。例如步骤S26中提到的例子中,线索评分为0.75,根据会话标签打招呼、没时间、加微信…的特征重要性分布参见图6所示,其中加微信标签的权重占比最高为0.65,打招呼标签和没时间标签相应的权重占比较低分别为0.1和0.06。这样一来,通过基于会话标签对线索评分进行可解释性分析,可以更清晰的让用户确定出每一个会话中的重要线索。
参见图7所示,为本方案提供的一种具体的会话线索评分流程图,首先对会话文本进行数据清洗,使用SimCSE模型提取句子嵌入,并利用UMAP算法进行降维处理后进行HDBSCAN进行聚类,接着采用KeyBERT提取所述会话文本的主题关键词,并利用最大相似度进行优化,然后根据主题词定义明确的关键词标签,并将每一通会话意图标签进行multi-hot编码后输入至LightGBM已建立线索评分模型,最终根据线索评分进行特征重要性分析。
可见,本申请通过对比学习、降维、聚类、关键词提取并优化、标签编码、线索评分和重要性分析几个步骤实现对会话文本的分析,通过降维处理可以解决密度聚类对高维向量的聚类效果不好的问题,并且通过对比学习可以解决利用传统机器学习模型处理会话文本时模型效果泛化能力不强等的问题,通过关键词的提取和优化可以防止特征稀疏,使模型的特征更加明确以便后续利用特征进行评分,使评分结果更加真实,质量更高;确定线索评分后,还可以通过特征重要性分析确定出对模型结果产生积极影响的标签,解决了现有技术中的主题结果不可分析的问题,使线索评分的效果更好,便于用户根据线索评分和重要性分析进行后续的客户追踪。
参考图8所述,本申请实施例还相应公开了一种会话线索评分装置,包括:
文本获取模块11,用于获取会话文本,并确定所述会话文本中嵌入的初始文本信息;
文本聚类模块12,用于将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;
线索评分模块13,用于获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。
可见,本申请首先获取会话文本,并确定所述会话文本中嵌入的初始文本信息;接着将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;然后获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。由此可知,本申请通过确定会话文本种的初始文本信息,并对所述初始文本信息进行降维处理后进行聚类操作,通过获取相应的关键词,可以使用多样化策略优化关键词,从而更好的定义相应主题,最后确定会话文本相应的线索评分,这样一来,可以通过将文本信息映射到高维从而提高模型的表征和泛化能力,并且通过降维处理以防止密度聚类对高度数据的聚类效果不好的问题,实现对会话线索的可解释性分析和评分。
在一些具体的实施例中,所述文本获取模块11,具体可以用于提取所述会话文本中相应的目标文本,并将所述目标文本输入至预设对比学习模型以确定所述目标文本中嵌入的初始文本信息;所述初始文本信息为向量形式。
在一些具体的实施例中,所述文本聚类模块12,具体可以用于利用UMAP算法对所述初始文本信息进行降维处理,并利用预设密度聚类算法将降维后的所述初始文本信息进行聚类操作以得到若干聚类类型对应的若干文本主题。
在一些具体的实施例中,所述会话线索评分装置,还可以包括:
词表生成模块,用于通过聚类操作筛选出所述会话文本中的错误词汇和无关词汇以生成相应的停用词表。
在一些具体的实施例中,所述线索评分模块13,具体可以包括:
候选关键词获取单元,用于根据所述文本主题基于预设分词库获取若干候选关键词,并利用预设比对学习模型分别确定出若干所述候选关键词的若干第一向量和所述目标文本中各文本句子的第二向量;
关键词确定单元,用于从若干所述第一向量中确定出与所述第二向量之间的余弦相似度超过阈值的目标向量对应的目标候选关键词,并根据预设优化方法对所述目标候选关键词进行优化以确定每一所述文本句子对应的若干关键词。
在一些具体的实施例中,所述线索评分模块13,具体可以包括:
标签编码单元,用于基于每一所述关键词确定相应的会话标签并根据所述会话标签对所述会话文本进行编码操作以得到相应的会话编码;
线索评分单元,用于将所述会话编码输入至预设梯度提升模型中以确定出所述会话文本对应的线索评分。
在一些具体的实施例中,所述会话线索评分装置,还可以包括:
权重确定模块,用于对所述会话文本的线索评分进行特征重要性分析,以确定所述会话文本对应的每一所述会话标签相应的标签权重。
进一步的,本申请实施例还公开了一种电子设备,图9是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的会话线索评分方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的会话线索评分方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的会话线索评分方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种会话线索评分方法,其特征在于,包括:
获取会话文本,并确定所述会话文本中嵌入的初始文本信息;
将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;
获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。
2.根据权利要求1所述的会话线索评分方法,其特征在于,所述确定所述会话文本中嵌入的初始文本信息,包括:
提取所述会话文本中相应的目标文本,并将所述目标文本输入至预设对比学习模型以确定所述目标文本中嵌入的初始文本信息;所述初始文本信息为向量形式。
3.根据权利要求1所述的会话线索评分方法,其特征在于,所述将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题,包括:
利用UMAP算法对所述初始文本信息进行降维处理,并利用预设密度聚类算法将降维后的所述初始文本信息进行聚类操作以得到若干聚类类型对应的若干文本主题。
4.根据权利要求1所述的会话线索评分方法,其特征在于,所述利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题之后,还包括:
通过聚类操作筛选出所述会话文本中的错误词汇和无关词汇以生成相应的停用词表。
5.根据权利要求2所述的会话线索评分方法,其特征在于,所述获取每一所述文本主题相应的若干关键词,包括:
根据所述文本主题基于预设分词库获取若干候选关键词,并利用预设比对学习模型分别确定出若干所述候选关键词的若干第一向量和所述目标文本中各文本句子的第二向量;
从若干所述第一向量中确定出与所述第二向量之间的余弦相似度超过阈值的目标向量对应的目标候选关键词,并根据预设优化方法对所述目标候选关键词进行优化以确定每一所述文本句子对应的若干关键词。
6.根据权利要求1所述的会话线索评分方法,其特征在于,所述基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分,包括:
基于每一所述关键词确定相应的会话标签并根据所述会话标签对所述会话文本进行编码操作以得到相应的会话编码;
将所述会话编码输入至预设梯度提升模型中以确定出所述会话文本对应的线索评分。
7.根据权利要求1至6任一项所述的会话线索评分方法,其特征在于,所述基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分之后,还包括:
对所述会话文本的线索评分进行特征重要性分析,以确定所述会话文本对应的每一所述会话标签相应的标签权重。
8.一种会话线索评分装置,其特征在于,包括:
文本获取模块,用于获取会话文本,并确定所述会话文本中嵌入的初始文本信息;
文本聚类模块,用于将所述初始文本信息进行降维处理,并利用降维后的所述初始文本信息进行聚类操作以得到若干文本主题;
线索评分模块,用于获取每一所述文本主题相应的若干关键词,并基于每一所述关键词确定相应的会话标签以根据所述会话标签确定所述会话文本的线索评分。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的会话线索评分方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的会话线索评分方法。
CN202310018897.XA 2023-01-06 2023-01-06 一种会话线索评分方法、装置、设备及存储介质 Pending CN116186259A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310018897.XA CN116186259A (zh) 2023-01-06 2023-01-06 一种会话线索评分方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310018897.XA CN116186259A (zh) 2023-01-06 2023-01-06 一种会话线索评分方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116186259A true CN116186259A (zh) 2023-05-30

Family

ID=86441624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310018897.XA Pending CN116186259A (zh) 2023-01-06 2023-01-06 一种会话线索评分方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116186259A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633561A (zh) * 2024-01-24 2024-03-01 上海蜜度科技股份有限公司 文本聚类方法、系统、电子设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117633561A (zh) * 2024-01-24 2024-03-01 上海蜜度科技股份有限公司 文本聚类方法、系统、电子设备及介质

Similar Documents

Publication Publication Date Title
CN110377911B (zh) 对话框架下的意图识别方法和装置
CN109918673B (zh) 语义仲裁方法、装置、电子设备和计算机可读存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN115827819A (zh) 一种智能问答处理方法、装置、电子设备及存储介质
CN113408287A (zh) 实体识别方法、装置、电子设备及存储介质
CN113590778A (zh) 智能客服意图理解方法、装置、设备及存储介质
CN115062718A (zh) 语言模型训练方法、装置、电子设备及存储介质
CN116186259A (zh) 一种会话线索评分方法、装置、设备及存储介质
CN112925895A (zh) 自然语言软件运维方法及装置
CN110633468B (zh) 一种关于对象特征提取的信息处理方法及装置
CN111400489B (zh) 对话文本摘要生成方法、装置、电子设备和存储介质
CN116361442B (zh) 基于人工智能的营业厅数据分析方法及系统
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN115577080A (zh) 一种问题回复匹配方法、系统、服务器及存储介质
KR20230116143A (ko) 상담 유형 분류 시스템
CN111625636B (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN111091011B (zh) 领域预测方法、领域预测装置及电子设备
CN113822506A (zh) 一种用于电力调控的多轮次语音交互智能检索系统及方法
CN114692610A (zh) 关键词确定方法及装置
CN116775848B (zh) 生成对话信息的控制方法、装置、计算设备及存储介质
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质
CN111984789B (zh) 一种语料分类方法、装置及服务器
CN114036946B (zh) 一种文本特征提取及辅助检索的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination