CN114429134B - 基于多元语义表示的层次化优质话术挖掘方法及装置 - Google Patents
基于多元语义表示的层次化优质话术挖掘方法及装置 Download PDFInfo
- Publication number
- CN114429134B CN114429134B CN202111413272.0A CN202111413272A CN114429134B CN 114429134 B CN114429134 B CN 114429134B CN 202111413272 A CN202111413272 A CN 202111413272A CN 114429134 B CN114429134 B CN 114429134B
- Authority
- CN
- China
- Prior art keywords
- semantic
- dialect
- word
- quality
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Abstract
本发明提供一种基于多元语义表示的层次化优质话术挖掘方法及装置,包括:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组;采用基于多元语义融合的话术编码技术,对提取的每个五元组进行话术编码,输出对应的整体语义表示;根据所有输出的语义表示,采用基于相似度的方法实现粗粒度的话术挖掘,并进一步采用基于聚类的方法实现细粒度的话术挖掘。本发明提供了一种多元语义融合学习的方法,综合对话的语境信息,实现话术的语义编码,提高话术相似度计算和细粒度聚类的准确性,从而提升话术挖掘的质量。
Description
技术领域
本发明涉及计算机应用技术、文本挖掘、话术挖掘领域,特别涉及一种基于多元语义表示的层次化优质话术挖掘方法及装置。
背景技术
随着科学技术的进步和信息化的不断推进,电话营销以其高效率、低成本、广覆盖的优势在销售市场快速发展,并在保险、金融、在线教育、互联网等行业里得到了广泛应用,成为一种不可或缺的销售模式。虽然电话销售的触发率很高,但是销售人员流动性高,能力和经验参差不齐,并缺乏对目标客户的了解。这就导致电话销售人员在面对客户提出的问题时,缺乏有效的应对策略,难以有效吸引客户的兴趣、获得客户的信任,进而影响电话销售的成单率。由此,如何从历史的电话销售对话数据中收集并挖掘可复用的优质话术,并以此为后续的电话销售提供策略支持,是电销行业面临的重要挑战之一。
传统的话术收集方法通常需要在专家知识的指导下进行,单纯依靠人力实现不同场景下话术的整理和过滤。这一过程不仅耗时耗力,而且灵活性和可扩展性较差。尤其是面对不同的客户人群、多样的话术场景时,下游的话术推荐、智能问答等任务都需要大量的话术支撑,仅依靠人工整理的有限话术是难以实现的。
近年来,为了实现自动化的话术挖掘,分类、聚类等技术被广泛应用。其中,分类方法需要人工进行话术的整理和标注,并以此作为监督数据来训练分类模型。考虑到人工整理监督数据同样是耗时耗力的过程,并且当应用场景发生变化时,需要重新构建训练数据,因此分类的方法在极大程度上受到了数据的限制。而聚类作为一种无监督学习的方法,几乎无需人工参与,因此适用于数据挖掘的冷启动过程。例如,循环智能公司就采用聚类算法,将对话聚类成不同的组,并找出对话成单率显著高于整体成单率的数据组作为挖掘出的优质话术。虽然这种方法更加灵活、有效,并可以实现面向大规模对话数据的话术挖掘,但是这种方法在进行话术聚类的时候未充分考虑话语的上下文信息和用户属性信息,导致聚类结果不够准确。
为解决这一问题,本发明从对话数据中提取话语、以及对应的对话历史和用户属性,并提出一种多元语义表示方法,综合建模对话历史和用户属性对于话语的正向作用。基于语义编码的结果,本发明利用基于相似度的话术挖掘方法和基于聚类的话术挖掘方法实现层次化、多粒度的话术挖掘。
发明内容
本发明的目的在于提供一种基于多元语义表示的层次化优质话术挖掘方法及装置,用以解决上述提出的技术问题。
为实现上述目的,本发明提供如下技术方案:一种基于多元语义表示的层次化优质话术挖掘方法,包括:
步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组;
步骤2:采用基于多元语义融合的话术编码技术,对提取的每个五元组进行话术编码,输出对应的语义整体表示;
步骤3:根据所有输出的语义表示,采用基于相似度的方法实现粗粒度的话术挖掘,并进一步采用基于聚类的方法实现细粒度的话术挖掘。
优选的,所述五元组包括:问题,回复,历史对话,用户属性,是否成单;
所述回复表示为待挖掘的话术信息,所述问题、历史对话、用户属性都表示为话术对应的语境信息,所述是否成单表示为指示话术有效性的依据。
优选的,步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组,包括:
1.1:将所述对话数据库的每轮对话都拆分成问答对的形式,得到问答对集合;
1.2:抽取每个问答对所对应的历史对话信息、用户属性信息以及是否成单的标签,并结合对应问答本身的问题和回复,得到对应五元组。
优选的,步骤2:采用基于多元语义融合的话术编码技术,对提取的每个五元组进行话术编码,输出对应的语义整体表示,包括:
2.1:初始化操作:对输入的问题、回复、历史对话和用户属性分别进行分词和词向量初始化操作;
2.2:建模话语的语义表示:基于双向长短期记忆网络构建层次编码机制,输入得到的问题的词向量序列、回复的词向量序列、以及历史对话的词向量序列,联合建模三个部分的语义表示;
2.3:用户属性的语义编码:基于用户属性的词向量序列,利用前馈神经网络对用户的属性进行编码;
2.4:多元语义融合:基于所述语义表示,将问题、回复、历史对话、用户属性四个部分的语义表示进行拼接,并采用前馈神经网络进行编码,输出融合后的整体语义,并将其作为话术挖掘的输入。
优选的,2.1:对输入的问题、回复、历史对话和用户属性分别进行分词和词向量初始化操作,包括:
2.1.1:采用工具包对输入文本进行分词处理,得到对应的词序列;
2.1.2:基于分词结果,通过查表法,并基于预训练的词向量构建词序列中每个词对应的词嵌入表示。
优选的,2.2:基于双向长短期记忆网络构建层次编码机制,输入得到的问题的词向量序列、回复的词向量序列、以及历史对话的词向量序列,联合建模三个部分的语义表示,包括:
2.2.1:构建词级别的编码器,输入每个话语的词向量序列,输出对应的句子向量表示,并得到话语的向量表示序列;
2.2.2:构建句子级别的编码器,输入得到的话语的向量表示序列,输出集合整个对话信息的上下文语义表示,用户问题的语义表示,以及话术的语义表示,三部分在内的语义表示。
优选的,步骤3:根据所有输出的语义表示,采用基于相似度的方法实现粗粒度的话术挖掘,并进一步采用基于聚类的方法实现细粒度的话术挖掘,包括:
3.1:基于余弦相似度的方式,实现粗粒度的话术挖掘,包括:
3.1.1:遍历每个话术,计算其与所有成单话术的余弦相似度,以及与所有未成单话术的语义相似度,随后基于预定义的阈值来筛选与其相似的话术;
3.1.2:统计所述每个话术在成单话术中余弦相似度大于对应设定阈值的第一个数,并确定所述第一个数与所有成单话术的第一占比;
统计所述每个话术在未成单话术中余弦相似度大于对应设定阈值的第二个数,并确定所述第二个数与所有未成单话术的第二占比;
若第一占比远大于第二占比,判定对应话术是与成单正相关的优质话术;
若第一占比远小于第二占比,判定对应话术是与成单负相关的负面话术;
否则,判定对应话术为无关话术;
3.2:基于聚类的方法,实现细粒度的话术挖掘,包括:
利用基于仿射传播的聚类算法分别对优质话术集合和负面话术集合进行聚类,得到不同细粒度语境下对应的优质话术和负面话术。
优选的,利用基于仿射传播的聚类算法分别对优质话术集合和负面话术集合进行聚类,得到不同细粒度语境下对应的优质话术和负面话术,包括:
3.2.1:对于优质话术集合或负面话术集合,基于所述多元语义融合可得所有优质话术或负面话术的语义向量,基于负的欧式距离计算优质话术或负面话术点间的相似度;
3.2.2:对所述优质话术或负面话术进行信息迭代,更新迭代过程中的话术吸引度、归属度和自归属度;
3.2.3:更新话术的中心点信息,获取话术的聚类中心点;
3.2.4:循环3.2.2和3.2.3,至达到最初预先设计的最大迭代次数,或者在指定的多次迭代内,话术的中心点不发生变化,最终获得多个聚类中心点;
3.2.5:根据得到的多个聚类中心点,使用负的欧式距离,将每个优质话术或负面话术分到最近的聚类中心,最终得到多个簇,即为最终需要的优质话术或负面话术的细粒度簇。
其中,每个簇对应一种语境相似的应用场景,由此得到不同细粒度语境场景下对应的优质话术和负面话术。
优选的,采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组的过程中,还包括:
从所述问答对中选取至少一组分句信息,基于预设的领域词典对所述分句信息进行分词处理,去除所述问答对中的停用词;
对处理后得到的各个词汇进行分析搭配,获取所述分句信息中多组词汇搭配对;
根据所述词汇搭配对,建立词汇文本矩阵;
利用预设的词汇分析模型对所述词汇文本矩阵进行矩阵分解,计算每组词汇搭配对所对应的词频信息;
将所述词频信息通过聚类算法进行聚类,得到多组词簇,分别计算每组词簇中各个词汇出现的频率,根据频率排名抽取每组词簇中前n个词汇;
判断所述前n个词汇的词汇相似度;
若两词汇之间相似度超过预设阈值,则舍弃其中一个词汇;
否则,基于所述前n个词汇,对所述分句信息进行重构优化,形成新的问答对。
本发明还提供一种基于多元语义表示的层次化优质话术挖掘装置,包括:
前台操作进程,用于向后台发送话术挖掘的请求或语料库更新的请求,且不同的请求由装置中不同的按钮或控件触发;
前台可视化进程,用于接收后台话术挖掘进程反馈的挖掘结果,并将结果展示到前台的可视化界面中,供工作人员阅读;
后台话术挖掘进程,用于接收所述前台操作进程发送的指令信息,根据权利要求1-9对会话语料库中的数据进行语义编码、融合,并通过基于相似度的粗粒度话术挖掘方法和基于聚类的细粒度话术挖掘方法得到不同场景下的优质话术和负面话术,并将结果发送给所述前台可视化进程;
后台语料库更新进程,用于接收所述前台操作进程发送的指令信息与待更新的会话数据,并将新接收的会话数据补充到所述会话语料库中。
与现有技术相比,本发明的有益效果是:
1.考虑到在面对不同的上下文语境、以及不同的客户类型时,优质话术也会随之发生变化,因此本发明除考虑话术所属轮次的语义信息外,还综合建模话术的历史对话信息以及对应的客户属性。本发明提供了一种多元语义融合学习的方法,综合上述语境信息,实现话术的语义编码,提高话术相似度和细粒度场景的准确性,从而提升话术挖掘的质量。
2.为了灵活适应不同的应用需求,本发明提供了一种基于无监督学习的多层次、多粒度的话术挖掘方法。首先基于话术的语义相似度和成单标签进行粗粒度挖掘,区分优质话术、负面话术、以及无关话术。随后,分别针对优质话术和负面话术进行基于仿射传播算法的细粒度聚类,自适应地得到不同的簇,可以认为不同的簇对应不同应用语境下的优质话术或负面话术。由此,本发明可有效满足不同下游任务的需求,提升用户的满意度,提升电话营销的成单率。
3.本发明还提供了一套完整的装置,包括前台操作进程、前台可视化进程、后台话术挖掘进程和后台语料库更新进程,用于实现上述优质话术挖掘方法,提升了话术的质量,确保了整个挖掘过程的可靠性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为基于多元语义表示的层次化优质话术挖掘方法的整体框架图;
图2为基于多元语义表示的层次化优质话术挖掘方法的详细流程图;
图3为基于多元语义表示的层次化优质话术挖掘的装置示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明主要采用深度学习以及自然语言处理相关的理论方法对文本进行对话挖掘,为了保证系统的正常运行,在具体实施中,要求所使用的计算机平台配备不低于8G的内存,CPU核心数不低于4个且主频不低2.6GHz、GPU环境、Linux操作系统,并安装Python 3.6及以上版本、pytorch0.4及以上版本等必备软件环境。
实施例1:
本发明提供一种基于多元语义表示的层次化优质话术挖掘方法,如图1所示,包括:
步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组;
步骤2:采用基于多元语义融合的话术编码技术,对提取的每个五元组进行话术编码,输出对应的语义整体表示;
步骤3:根据所有输出的语义表示,并采用基于相似度的方法实现粗粒度的话术挖掘,并进一步采用基于聚类的方法实现细粒度的话术挖掘。
该实施例中,可以通过从对话数据中提取话语、以及对应的对话历史和用户属性,综合建模对话历史和用户属性对于话语的正向作用,基于语义编码的结果,对话术进行挖掘。
上述技术方案的有益效果是:本发明综合对话的五元组信息,提供了一种多元语义融合学习的方法,综合语境信息,实现话术的语义编码,提高话术相似度和细粒度场景的准确性,从而提升话术挖掘的质量,基于话术的语义相似度进行粗细粒度挖掘,可有效满足不同下游任务的需求,提升用户的满意度,提升电话营销的成单率。
实施例2:
基于实施例1的基础上,所述五元组包括:问题,回复,历史对话,用户属性,是否成单;
所述回复表示为待挖掘的话术信息,所述问题、历史对话、用户属性都表示为话术对应的语境信息,所述是否成单表示为指示话术有效性的依据。
上述技术方案的有益效果是:通过获取五元组信息,以便于提高对优质话术挖掘结果的质量和准确率。
实施例3:
基于实施例1的基础上,步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组,包括:
1.1:将所述对话数据库的每轮对话都拆分成问答对的形式,得到问答对集合;
1.2:抽取每个问答对所对应的历史对话信息、用户属性信息以及是否成单的标签,并结合对应问答本身的问题和回复,得到对应五元组。
该实施例中,五元组的构成方式,例如,输入一条已成单电话营销的对话数据:
{客户:喂,您好!
坐席:您好,打扰您一下,我是***支行营业部的客户经理,来电告之,您已成为我行尊贵的信用卡客户,特邀请来行办理。
客户:我能办多少额度的卡?
坐席:信用卡的额度是综合评分,我们根据您提供的资料来综合划分信用等级。信誉等级分为白金卡、金卡和普通卡。普卡的额度是1万元以内,金卡的额度是1万元到五万元之间,白金卡的额度是5万起步。
客户:有年费吗,怎么收费?
坐席:有,白金卡300,金卡200,普卡100;不过您不用担心,主卡首年我们直接给您免了。}
其对应的用户属性为“年龄:32岁;性别:男;职业:会计师”。那么这个对话可以拆分为三个问答对。以第三个问答对为例,其对应的客户问题为q3=“有年费吗,怎么收费?”,回复为a3=“有,白金卡300,金卡200,普卡100;不过您不用担心,主卡首年我们直接给您免了。”
其对应的历史对话为:[“喂,您好!”,“您好,打扰您一下,我是招商光明支行营业部的客户经理,来电告之,您已成为我行尊贵的信用卡客户,特邀请来行办理。”,“我能办多少额度的卡?”,“信用卡的额度是综合评分,我们根据您提供的资料来综合划分信用等级。信誉等级分为白金卡、金卡和普通卡。普卡的额度是1万元以内,金卡的额度是1万元到五万元之间,白金卡的额度是5万起步。”],对应的用户属性为“年龄:32岁;性别:男;职业:会计师”,是否成单为“已成单”,综上,可构成话术五元组。
上述技术方案的有益效果是:基于对对话数据库的每轮对话拆分成问答对的形式,能够清晰的分别每轮对话的主要对话内容,基于抽取每个问答对的五元组,能够进一步细致的了解到客户的信息以及需求,提高了多元语义表示的层次化优质话术挖掘方法的准确性,从而为挖掘优质话术提供了便利。
实施例4:
基于实施例1的基础上,步骤2:采用基于多元语义融合的话术编码技术,对提取的每个五元组进行话术编码,输出对应的语义整体表示,包括:
2.1:初始化操作:对输入的问题、回复、历史对话和用户属性分别进行分词和词向量初始化操作;
2.2:建模话语的语义表示:基于双向长短期记忆网络构建层次编码机制,输入得到的问题的词向量序列、回复的词向量序列、以及历史对话的词向量序列,联合建模三个部分的语义表示;
2.3:用户属性的语义编码:基于用户属性的词向量序列,利用前馈神经网络对用户的属性进行编码;
2.4:多元语义融合:将问题、回复、历史对话、用户属性四个部分的语义表示进行拼接,并采用前馈神经网络进行编码,输出融合后的整体语义,并将其作为话术挖掘的输入。
该实施例中,本发明使用S={S1,S2,...,St}表示对话数据,其中{S1,S2,...,St-2}表示历史对话信息,St-1表示用户问题,St表示坐席回复,即当前话术,对于第i句话语Si进行分词,可得到单词序列其中|Si|表示话语长度,Wi表示为话语长度对应的单词序列。
该实施例中,对用户属性进行分词,得到对应的词序列,例如对年龄属性进行分词可得到|Wage|是年龄属性的长度,由此,所有属性的分词集合为Wa={wage,wsex,wjob,...},Wsex表示为性别属性,Wjob表示为工作属性。
该实施例中,用户属性的语义编码首先将每个属性的词向量集合进行平均池化,从而得到对应的属性向量,例如年龄属性词向量集合通过的平均池化,获得年龄属性的语义向量,|age|表示年龄属性中包含词语的个数。随后,将所有属性向量进行拼接,并利用前馈神经网络fa进行属性编码,得到属性的整体语义表示Sp:Sp=fa(E),例如:用户属性信息“年龄:32岁;性别:男;职业:会计师”对应的语义表示为Sp=[0.43,0.78,...,0.62]。
该实施例中,将问题、回复、历史对话、用户属性四个部分的语义表示进行拼接表示为S=[Sh,SqSc,Sp],前馈神经网络表示为fm,输出融合后的整体语义表示为h=fm(S),例如:实施例3中对应的整体语义向量可以表示为h3=[-0.53,0.21,...,0.06]。
上述技术方案的有益效果是:基于初始化操作,能够提高建模过程中语义表示的正确性,通过用户属性的语义编码以及多元语义融合,能够确保在优质话术挖掘过程中,提高对用户属性的理解,从而提升话术挖掘的质量。
实施例5:
基于实施例4的基础上,2.1:对输入的问题、回复、历史对话和用户属性分别进行分词和词向量初始化操作,包括:
2.1.1:采用工具包对输入文本进行分词处理,得到对应的词序列;
2.1.2:基于分词结果,通过查表法,并基于预训练的词向量构建词序列中每个词对应的词嵌入表示。
该实施例中,例如,给定文本“信誉等级分为白金卡、金卡和普通卡。”,经过分词处理,可以得到词序列{“信誉”,“等级”,“分为”,“白金卡”、“金卡”和“普通卡”。},给定用户属性信息“年龄:32岁;性别:男;职业:会计师”,那么分词结果为Wage={“年龄”,“32”,“岁”}、Wsex={“性别”,“男”}、Wjob={“职业”,“会计师”}。
该实施例中,词嵌入的表示方法,例如,对于词序列中的词“信誉”,得到其对应的词嵌入表示可为对于用户属性信息“年龄:32岁;性别:男;职业:会计师”,年龄属性Wage={“年龄”,“32”,“岁”}的词向量集合为
上述技术方案的有益效果是:通过对输入文本进行分词处理,确定文本中的词序列,从而实现对用户属性进行准确判定,通过构建词序列中每个词对应的词嵌入表示,扩大了在整理数据过程中的分类方式,提高了整理监督用户数据过程中的速度,加强了整体的实用性和安全性。
实施例6:
基于实施例4的基础上,2.2:基于双向长短期记忆网络构建层次编码机制,输入得到的问题的词向量序列、回复的词向量序列、以及历史对话的词向量序列,联合建模三个部分的语义表示,包括:
2.2.1:构建词级别的编码器,输入每个话语的词向量序列,输出对应的句子向量表示,并得到话语的向量表示序列;
2.2.2:构建句子级别的编码器,输入得到的话语的向量表示序列,输出集合整个对话信息的上下文语义表示,用户问题的语义表示,以及话术的语义表示,三部分在内的语义表示。
该实施例中,本发明拼接了前向编码的最后一个词的隐藏状态和后向编码的最后一个词的隐藏状态,得到句子的向量表示ci。由此,可以得到用户问题的向量表示ct-1,回复的向量表示ct,以及历史对话的向量表示集合C={c1,c2,...,ct-2}。例如:用户问题“有年费吗,怎么收费?”对应的句子向量表示为ct-1=[0.37,-0.82,...,0.73]。
该实施例中,话语的向量表示序列为C={c1,c2,...,ct},上下文语义表示序列为Sh,用户问题的语义表示为Sq,话术的语义表示为Sc。 其中,LSTMf和LSTMb分别表示前向编码和后向编码。例如,历史对话的上下文语义表示可为Sh=[0.65,0.19,...,0.84]。
上述技术方案的有益效果是:通过构建词级别的编码器以及句子级别的编码器,能够将用户的词语语义表示成对应的编码模式,实现语义的准确性,可有效满足不同下游任务的需求,便于提高对话术的区别,进而提升用户的满意度,提升电话营销的成单率。
实施例7:
基于实施例4的基础上,步骤3:根据所有输出的语义表示,采用基于相似度的方法实现粗粒度的话术挖掘,并进一步采用基于聚类的方法实现细粒度的话术挖掘,如图2所示,包括:
3.1:基于余弦相似度的方式,实现粗粒度的话术挖掘,包括:
3.1.1:遍历每个话术,计算其与所有成单话术的余弦相似度,以及与所有未成单话术的语义相似度,随后基于预定义的阈值来筛选与其相似的话术;
3.1.2:统计所述每个话术在成单话术中余弦相似度大于对应设定阈值的第一个数,并确定所述第一个数与所有成单话术的第一占比;
统计所述每个话术在未成单话术中余弦相似度大于对应设定阈值的第二个数,并确定所述第二个数与所有未成单话术的第二占比;
若第一占比远大于第二占比,判定对应话术是与成单正相关的优质话术;
若第一占比远小于第二占比,判定对应话术是与成单负相关的负面话术;
否则,判定对应话术为无关话术;
3.2:基于聚类的方法,实现细粒度的话术挖掘,包括:
利用基于仿射传播的聚类算法分别对优质话术集合和负面话术集合进行聚类,得到不同细粒度语境下对应的优质话术和负面话术。
该实施例中,设定阈值表示为θ,当前话术在成单话术中余弦相似度大于θ的话术个数表示为n1,当前话术未成单话术中余弦相似度大于θ的话术个数表示为n2,所有成单话术的总个数表示为N1,所有未成单话术的总个数表示为N2,话术hi在成单话术中相似度大于θ的占比:p1=n1/N1,话术hi在未成单话术中相似度大于θ的占比:p2=n2/N2。
该实施例中,根据优质话术频繁出现在成单话术中,罕少出现在未成单话术中的原则进行话术划分。如果p1>>p2则认为该话术是与成单正相关的优质话术;如果p1<<p2则认为该话术是与成单负相关的负面话术;如果则认为是无关话术。
该实施例中,挖掘出的优质话术和负面话术分别为My和Mn。
上述技术方案的有益效果是:通过余弦相似度的方式,实现粗粒度的话术挖掘,便于在短时间内处理具有个性化特征话术数据,自然保证了更好的通信代价和响应速度,而且提升了个性化数据的处理精度;通过基于聚类的方法,实现细粒度的话术挖掘,对粗粒度话术挖掘中复杂的话术进行进一步的挖掘,进而可以应对更细粒度的应用需求。
实施例8:
基于实施例7的基础上,利用基于仿射传播的聚类算法分别对优质话术集合和负面话术集合进行聚类,得到不同细粒度语境下对应的优质话术和负面话术,包括:
3.2.1:对于优质话术集合或负面话术集合,基于所述多元语义融合可得所有优质话术或负面话术的语义向量,基于负的欧式距离计算优质话术或负面话术点间的相似度;
3.2.2:对所述优质话术或负面话术进行信息迭代,更新迭代过程中的话术吸引度、归属度和自归属度;
3.2.3:更新话术的中心点信息,获取话术的聚类中心点;
3.2.4:循环3.2.2和3.2.3,至达到最初预先设计的最大迭代次数,或者在指定的多次迭代内,话术的中心点不发生变化,最终获得多个聚类中心点;
3.2.5:根据得到的多个聚类中心点,使用负的欧式距离,将每个优质话术或负面话术分到最近的聚类中心,最终得到多个簇,即为最终需要的优质话术或负面话术的细粒度簇。
其中,每个簇对应一种语境相似的应用场景,由此得到不同细粒度语境场景下对应的优质话术和负面话术。
该实施例中,吸引度表示为r(i,j),归属度表示为a(i,j),自归属度表示为a(j,j)。
更新a(i,j):a(i,j)=min{0,r(j,j)+Σi'≠i,jmax{0,r(i',j)}};
更新a(j,j):a(j,j)=Σi'≠imax{0,r(i',j)};
其中,r(i,j)是“吸引度”反应了第j个话术作为第i个话术的类代表点的合适程度。a(i,j)是“归属度”反应了第i个话术选择第j个话术作为它类代表点的合适程度。
该实施例中,更新中心点信息:θi=argmaxj(r(i,j)+a(i,j))
其中,话术j被选为类代表点,也就是聚类中心点,得到k1、k2个聚类中心点,使用负的欧式距离,将每个优质话术分到最近的聚类中心,最终得到k1个优质话术的细粒度簇,以及k2个负面话术的细粒度簇。
上述技术方案的有益效果是:通过计算优质话术或负面话术点间的相似度,能够进一步区分优质话术、负面话术、以及无关话术。通过信息迭代,分别针对优质话术和负面话术进行基于仿射传播算法的细粒度聚类,自适应地得到不同的簇,可以认为不同的簇对应不同应用语境下的优质话术或负面话术。由此,本发明可有效满足不同下游任务的需求,提升用户的满意度,提升电话营销的成单率。
实施例9:
基于实施例1的基础上,步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组的过程中,还包括:
从所述问答对中选取至少一组分句信息,基于预设的领域词典对所述分句信息进行分词处理,去除所述问答对中的停用词;
对处理后得到的各个词汇进行分析搭配,获取所述分句信息中多组词汇搭配对;
根据所述词汇搭配对,建立词汇文本矩阵;
利用预设的词汇分析模型对所述词汇文本矩阵进行矩阵分解,计算每组词汇搭配对所对应的词频信息;
将所述词频信息通过聚类算法进行聚类,得到多组词簇,分别计算每组词簇中各个词汇出现的频率,根据频率排名抽取每组词簇中前n个词汇;
判断所述前n个词汇的词汇相似度;
若两词汇之间相似度超过预设阈值,则舍弃其中一个词汇;
否则,基于所述前n个词汇,对所述分句信息进行重构优化,形成新的问答对。
该实施例中,领域云词典是提前设置好的,包含话术中的常见词、停用词等。
该实施例中,建立词汇文本矩阵,是为了直观的观察到词汇搭配对之间的联系以及每个词汇之间的联系,基于对矩阵的分解,进一步能够快速的计算出词汇搭配对所对应的词频信息。
该实施例中,对分句信息进行重构优化,形成新的问答对,是为了在提取五元组的过程中,能够快速准确的提取到相应的信息,并且避免停用词或无用词的干扰。
上述技术方案的有益效果是:通过进行词汇分词处理,能够获取分句信息中多组有用的词汇搭配对,去除无用的词汇,进而建立文本矩阵;通过建立文本矩阵,计算矩阵分解后的词频信息,进一步获取得到频率较高的词汇,可有效满足在提取五元组时简易精确的需求,进而能够提升之后电话营销的成单率。
实施例10:
本发明提供一种基于多元语义表示的层次化优质话术挖掘装置,如图3所示,包括:
前台操作进程,用于向后台发送话术挖掘的请求或语料库更新的请求,且不同的请求由装置中不同的按钮或控件触发;
前台可视化进程,用于接收后台话术挖掘进程反馈的挖掘结果,并将结果展示到前台的可视化界面中,供工作人员阅读;
后台话术挖掘进程,用于接收所述前台操作进程发送的指令信息,根据权利要求1-9对会话语料库中的数据进行语义编码、融合,并通过基于相似度的粗粒度话术挖掘方法和基于聚类的细粒度话术挖掘方法得到不同场景下的优质话术和负面话术,并将结果发送给所述前台可视化进程;
后台语料库更新进程,用于接收所述前台操作进程发送的指令信息与待更新的会话数据,并将新接收的会话数据补充到所述会话语料库中。
该实施例中,前台操作进程,例如,当用户点击装置中的话术挖掘按钮时,将向后台的话术挖掘进程发送请求;同理,当用户点击装置中的语料库更新按钮时,将向后台的语料库更新进程发送请求,同时发送需更新到语料库中的会话数据。
上述技术方案的有益效果是:用户可以通过前台操作进程向后台发送相应的操作指令,并通过前台可视化进程显示,可以确保用户对于整个挖掘进程的控制与实时监控,后台话术挖掘进程可以根据前台进程发送的指令消息进行进一步处理,并将处理后的数据发送至后台语料库更新进程中,进一步确保了在话术挖掘过程中整体的安全性以及可靠性,进而提升了话术挖掘的整体质量。
实施例11:
基于实施例9的基础上,分别计算每组词簇中各个词汇出现的频率,根据频率排名抽取每组词簇中前n个词汇,包括:
构建向量空间模型:
H(d)=(t1,h(t1,d);t2,h(t2,d);...ti,h(ti,d))
其中,H(d)为对应预设文档的向量空间模型,
其中,t为所述词簇中的词汇,d为所述词簇在所述领域云词典中对应的文档,h(t,d)为词汇t在文档d中的对应的重要程度,且文档d中对应的词汇包括:t1,...,ti,f(ti,d)为不同词汇在预设d文档中的词频,且预设文档d的取值范围为[1,m];K为领域云词典中对应预设文档的总个数,m为K个预设文档中出现词汇的文档数,且K大于或等于m,i表示为第i个词汇,yd表示第d个预设文档中出现的词汇个数;f为所有预设文档对应的不同词汇出现的均次数;
基于向量空间模型,计算不同预设文档中不同词汇出现的频率,筛选出频率较高的前n个词汇。
该实施例中,文档是提前按不同的词簇分类设定好的。
该实施例中,H(t,d)为词汇在文档中的对应的重要程度,重要程度通常用词频来表示。
该实施例中,向量空间模型是为了把词簇处理简化为向量空间中的向量运算,并且它以空间上的相似度表达词汇的相似度,直观易懂。
上述技术方案的有益效果是:基于计算t在d中的对应的重要程度,排除一些通用的、各个类别都普遍存在的、对话术挖掘贡献小的词汇,筛选出在某特定类中出现比重大而在其他类中出现比重小,对话术挖掘贡献大的词汇,能够提高优质话术挖掘的效率和速度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种基于多元语义表示的层次化优质话术挖掘方法,其特征在于,包括:
步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组;
步骤2:采用基于多元语义融合的话术编码技术,对提取的每个五元组进行话术编码,输出对应的语义整体表示;
步骤3:根据所有输出的语义表示,采用基于相似度的方法实现粗粒度的话术挖掘,并进一步采用基于聚类的方法实现细粒度的话术挖掘;
包括:
所述五元组包括:问题,回复,历史对话,用户属性,是否成单;
所述回复表示为待挖掘的话术信息,所述问题、历史对话、用户属性都表示为话术对应的语境信息,所述是否成单表示为指示话术有效性的依据;
步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组,包括:
1.1:将所述对话数据库的每轮对话都拆分成问答对的形式,得到问答对集合;
1.2:抽取每个问答对所对应的历史对话信息、用户属性信息以及是否成单的标签,并结合对应问答本身的问题和回复,得到对应五元组;
步骤1:采用预设规则方法,提取对话数据库中每条数据中每轮对话的五元组的过程中,还包括:
从所述问答对中选取至少一组分句信息,基于预设的领域词典对所述分句信息进行分词处理,去除所述问答对中的停用词;
对处理后得到的各个词汇进行分析搭配,获取所述分句信息中多组词汇搭配对;
根据所述词汇搭配对,建立词汇文本矩阵;
利用预设的词汇分析模型对所述词汇文本矩阵进行矩阵分解,计算每组词汇搭配对所对应的词频信息;
将所述词频信息通过聚类算法进行聚类,得到多组词簇,分别计算每组词簇中各个词汇出现的频率,根据频率排名抽取每组词簇中前n个词汇;
判断所述前n个词汇的词汇相似度;
若两词汇之间相似度超过预设阈值,则舍弃其中一个词汇;
否则,基于所述前n个词汇,对所述分句信息进行重构优化,形成新的问答对。
2.如权利要求1所述的一种基于多元语义表示的层次化优质话术挖掘方法,其特征在于,步骤2:采用基于多元语义融合的话术编码技术,对提取的每个五元组进行话术编码,输出对应的语义整体表示,包括:
2.1:初始化操作:对输入的问题、回复、历史对话和用户属性分别进行分词和词向量初始化操作;
2.2:建模话语的语义表示:基于双向长短期记忆网络构建层次编码机制,输入得到的问题的词向量序列、回复的词向量序列、以及历史对话的词向量序列,联合建模三个部分的语义表示;
2.3:用户属性的语义编码:基于用户属性的词向量序列,利用前馈神经网络对用户的属性进行编码;
2.4:多元语义融合:将问题、回复、历史对话、用户属性四个部分的语义表示进行拼接,并采用前馈神经网络进行编码,输出融合后的整体语义,并将其作为话术挖掘的输入。
3.如权利要求2所述的一种基于多元语义表示的层次化优质话术挖掘方法,其特征在于,2.1:对输入的问题、回复、历史对话和用户属性分别进行分词和词向量初始化操作,包括:
2.1.1:采用工具包对输入文本进行分词处理,得到对应的词序列;
2.1.2:基于分词结果,通过查表法,并基于预训练的词向量构建词序列中每个词对应的词嵌入表示。
4.如权利要求2所述的一种基于多元语义表示的层次化优质话术挖掘方法,其特征在于,2.2:基于双向长短期记忆网络构建层次编码机制,输入得到的问题的词向量序列、回复的词向量序列、以及历史对话的词向量序列,联合建模三个部分的语义表示,包括:
2.2.1:构建词级别的编码器,输入每个话语的词向量序列,输出对应的句子向量表示,并得到话语的向量表示序列;
2.2.2:构建句子级别的编码器,输入得到的话语的向量表示序列,输出集合整个对话信息的上下文语义表示,用户问题的语义表示,以及话术的语义表示,三部分在内的语义表示。
5.如权利要求1所述的一种基于多元语义表示的层次化优质话术挖掘方法,其特征在于,步骤3:根据所有输出的语义表示,采用基于相似度的方法实现粗粒度的话术挖掘,并进一步采用基于聚类的方法实现细粒度的话术挖掘,包括:
3.1:基于余弦相似度的方式,实现粗粒度的话术挖掘,包括:
3.1.1:遍历每个话术,计算其与所有成单话术的余弦相似度,以及与所有未成单话术的语义相似度,随后基于预定义的阈值来筛选与其相似的话术;
3.1.2:统计所述每个话术在成单话术中余弦相似度大于对应设定阈值的第一个数,并确定所述第一个数与所有成单话术的第一占比;
统计所述每个话术在未成单话术中余弦相似度大于对应设定阈值的第二个数,并确定所述第二个数与所有未成单话术的第二占比;
若第一占比远大于第二占比,判定对应话术是与成单正相关的优质话术;
若第一占比远小于第二占比,判定对应话术是与成单负相关的负面话术;
否则,判定对应话术为无关话术;
3.2:基于聚类的方法,实现细粒度的话术挖掘,包括:
利用基于仿射传播的聚类算法分别对优质话术集合和负面话术集合进行聚类,得到不同细粒度语境下对应的优质话术和负面话术。
6.如权利要求5所述的一种基于多元语义表示的层次化优质话术挖掘方法,其特征在于,利用基于仿射传播的聚类算法分别对优质话术集合和负面话术集合进行聚类,得到不同细粒度语境下对应的优质话术和负面话术,包括:
3.2.1:基于多元语义融合步骤,获取优质话术集合中所有优质话术的语义向量以及负面话术集合中所有负面话术的语义向量,并基于负的欧式距离计算优质话术的点间相似度以及负面话术的点间相似度;
3.2.2:对所述优质话术或负面话术进行信息迭代,并更新迭代过程中对应的话术吸引度、归属度和自归属度;
3.2.3:更新话术的中心点信息,获取话术的聚类中心点;
3.2.4:循环3.2.2和3.2.3,直到当前迭代次数达到预设的最大迭代次数,获得与优质话术相关的多个第一聚类中心点以及与负面话术相关的多个第二聚类中心点;
3.2.5:根据得到的多个第一聚类中心点和第二聚类中心点,并使用负的欧式距离,将每个优质话术和负面话术对应分到最近的聚类中心,最终得到对应的多个第一簇以及多个第二簇;
其中,所述第一簇为优质话术的细粒度簇,所述第二簇为负面话术的细粒度簇。
7.一种基于多元语义表示的层次化优质话术挖掘装置,其特征在于,包括:
前台操作进程,用于向后台发送话术挖掘的请求或语料库更新的请求,且不同的请求由装置中不同的按钮或控件触发;
前台可视化进程,用于接收后台话术挖掘进程反馈的挖掘结果,并将结果展示到前台的可视化界面中,供工作人员阅读;
后台话术挖掘进程,用于接收所述前台操作进程发送的指令信息,根据权利要求1-6所述的一种基于多元语义表示的层次化优质话术挖掘方法对会话语料库中的数据进行语义编码、融合,并通过基于相似度的粗粒度话术挖掘方法和基于聚类的细粒度话术挖掘方法得到不同场景下的优质话术和负面话术,并将结果发送给所述前台可视化进程;
后台语料库更新进程,用于接收所述前台操作进程发送的指令信息与待更新的会话数据,并将新接收的会话数据补充到所述会话语料库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111413272.0A CN114429134B (zh) | 2021-11-25 | 2021-11-25 | 基于多元语义表示的层次化优质话术挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111413272.0A CN114429134B (zh) | 2021-11-25 | 2021-11-25 | 基于多元语义表示的层次化优质话术挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114429134A CN114429134A (zh) | 2022-05-03 |
CN114429134B true CN114429134B (zh) | 2022-09-20 |
Family
ID=81311675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111413272.0A Active CN114429134B (zh) | 2021-11-25 | 2021-11-25 | 基于多元语义表示的层次化优质话术挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114429134B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969195B (zh) * | 2022-05-27 | 2023-10-27 | 北京百度网讯科技有限公司 | 对话内容挖掘方法和对话内容评估模型的生成方法 |
CN115344693B (zh) * | 2022-07-11 | 2023-05-12 | 北京容联易通信息技术有限公司 | 一种基于传统算法和神经网络算法融合的聚类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015100362A1 (en) * | 2013-12-23 | 2015-07-02 | 24/7 Customer, Inc. | Systems and methods for facilitating dialogue mining |
CN111090736B (zh) * | 2018-10-24 | 2021-04-20 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN111737543A (zh) * | 2019-05-27 | 2020-10-02 | 北京京东尚科信息技术有限公司 | 一种问答对的提取方法、装置、设备和存储介质 |
CN111309905A (zh) * | 2020-02-06 | 2020-06-19 | 北京明略软件系统有限公司 | 一种对话语句的聚类方法、装置、电子设备及存储介质 |
CN111353028B (zh) * | 2020-02-20 | 2023-04-18 | 支付宝(杭州)信息技术有限公司 | 用于确定客服话术簇的方法及装置 |
CN112434140B (zh) * | 2020-11-10 | 2024-02-09 | 杭州博联智能科技股份有限公司 | 一种答复信息处理方法及系统 |
CN112487186A (zh) * | 2020-11-27 | 2021-03-12 | 上海浦东发展银行股份有限公司 | 一种人人对话日志分析方法、系统、设备及存储介质 |
-
2021
- 2021-11-25 CN CN202111413272.0A patent/CN114429134B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114429134A (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
CN111625634B (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN114429134B (zh) | 基于多元语义表示的层次化优质话术挖掘方法及装置 | |
US20230394247A1 (en) | Human-machine collaborative conversation interaction system and method | |
CN111339260A (zh) | 一种基于bert和qa思想的细粒度情感分析方法 | |
CN112233680A (zh) | 说话人角色识别方法、装置、电子设备及存储介质 | |
CN113051374A (zh) | 一种文本匹配优化方法及装置 | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
CN113051380A (zh) | 信息生成方法、装置、电子设备和存储介质 | |
CN114386426B (zh) | 一种基于多元语义融合的金牌话术推荐方法及装置 | |
US11563852B1 (en) | System and method for identifying complaints in interactive communications and providing feedback in real-time | |
CN114783421A (zh) | 智能推荐方法和装置、设备、介质 | |
CN116361442B (zh) | 基于人工智能的营业厅数据分析方法及系统 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN112562678A (zh) | 基于客服录音的智能对话方法、系统、设备及存储介质 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
Jia et al. | A deep learning system for sentiment analysis of service calls | |
CN116580704A (zh) | 语音识别模型的训练方法、语音识别方法、设备及介质 | |
WO2023173554A1 (zh) | 坐席违规话术识别方法、装置、电子设备、存储介质 | |
CN112506405B (zh) | 一种基于互联网监管领域的人工智能语音大屏指挥方法 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114116967A (zh) | 数据的清洗方法、装置、电子设备及计算机可读介质 | |
CN113094471A (zh) | 交互数据处理方法和装置 | |
CN111274382A (zh) | 文本分类方法、装置、设备及存储介质 | |
CN115618968B (zh) | 新意图发现方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |