CN114491038A

CN114491038A - 一种基于会话场景的流程挖掘方法、装置及设备

Info

Publication number: CN114491038A
Application number: CN202210096101.8A
Authority: CN
Inventors: 丑晓慧; 李煜
Original assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Current assignee: Shanghai Deepq Information Technology Co ltd; Ningbo Deepq Information Technology Co ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-05-13

Abstract

本申请涉及一种基于会话场景的流程挖掘方法、装置、计算机设备和存储介质。所述方法包括：获取用户会话场景数据以及用户会话场景数据的会话主题，利用聚类算法对会话主题中的关键句进行聚类，得到多个类簇；对类簇的数据量大小进行排序，选择数据量最大的类簇作为候选类簇，根据预设的业务关键词集合对候选类簇进行过滤，得到特定类簇集；将特定类簇集中的特定类簇标记为流程子句，构建特定序列集；根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列；对流程序列进行还原，得到流程序号；将流程序号对应的类簇进行分析，得到最终的流程子句。采用本方法能够提高流程挖掘的准确率。

Description

一种基于会话场景的流程挖掘方法、装置及设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于会话场景的流程挖掘方法、装置、计算机设备和存储介质。

背景技术

在服务行业，经常有用户通过电话或者社交媒体、线上服务平台进行问题咨询或者办理相关的业务，在客服与用户的交流过程中包含了问题解决流程步骤以及业务办理流程。通过数据挖掘的技术，能够通过将对话文本中包含的流程挖掘出来，用于指导业务人员快速定位流程解决方案，也可以将挖掘到的流程列入FAQ，自动增加FAQ内容，完善智能客服机器人的自动化流程，用于指导用户快速解决问题或者办理相关业务，也可以通过高频的流程步骤优化现有的业务办理和解决问题的流程。

然而，目前的基本都是基于日志信息去做流程挖掘，只用字符层面的信息，而每个人对于相同意思的表达比较多样，不更加符合客观世界的现象，挖掘不够准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高流程挖掘准确率的一种基于会话场景的流程挖掘方法、装置、计算机设备和存储介质。

一种基于会话场景的流程挖掘方法，所述方法包括：

获取用户会话场景数据以及用户会话场景数据的会话主题，利用聚类算法对会话主题中的关键句进行聚类，得到多个类簇；

对类簇的数据量大小进行排序，选择数据量最大的类簇作为候选类簇，根据预设的业务关键词集合对候选类簇进行过滤，得到特定类簇集；

将特定类簇集中的特定类簇标记为流程子句，构建特定序列集；

根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列；

对流程序列进行还原，得到流程序号；将流程序号对应的类簇进行分析，得到最终的流程子句。

在其中一个实施例中，获取用户会话场景数据的会话主题的步骤，包括：根据fasttext算法，或bert+softmax算法对用户会话场景数据进行分类，得到多个会话主题。

在其中一个实施例中，根据预设的业务关键词集合对候选类簇进行过滤，得到特定类簇集，包括：根据业务关键词集合对候选类簇进行关键词过滤，将具有业务含义的类簇进行保留，得到特定类簇。

在其中一个实施例中，获取业务关键词集合的过程，包括：预先定义一个业务关键词子集，利用PMI算法，或word2evc词向量模型发现业务关键词子集的同义词；根据业务关键词子集和业务关键词子集的同义词，构建业务关键词集合。

在其中一个实施例中，将特定类簇集中的特定类簇标记为流程子句，构建特定序列集，包括；将特定类簇集中的特定类簇的ID作为流程子句的编号，构建特定序列集。

在其中一个实施例中，根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列，包括；利用应用序列模式挖掘算法对特定序列集进行挖掘，找出满足最小支持度和最小置信度的序列作为流程序列。

一种基于会话场景的流程挖掘装置，所述装置包括：

聚类模块，用于获取用户会话场景数据以及用户会话场景数据的会话主题，利用聚类算法对会话主题中的关键句进行聚类，得到多个类簇；

过滤模块，用于对类簇的数据量大小进行排序，选择数据量最大的类簇作为候选类簇，根据预设的业务关键词集合对候选类簇进行过滤，得到特定类簇集；

挖掘模块，用于将特定类簇集中的特定类簇标记为流程子句，构建特定序列集，根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列；

还原模块，用于对流程序列进行还原，得到流程序号；将流程序号对应的类簇进行分析，得到最终的流程子句。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述一种基于会话场景的流程挖掘方法、装置、计算机设备和存储介质，首先对用户会话场景数据的会话主题进行聚类，挑选出聚类得到的数据量最大的类簇，根据预设的业务关键词集合对候选类簇进行过滤，得到具有业务含义的高频句类簇，然后将其定义为流程子句，进行会话数据挖掘技术得到流程序列，本申请自动发现文本中包含的流程，利用语句表达更加多变的语义层信息，更加符合客观世界的现象，挖掘更加准确。

附图说明

图1为一个实施例中一种基于会话场景的流程挖掘方法的流程示意图；

图2为一个实施例中一种基于会话场景的流程挖掘装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于会话场景的流程挖掘方法，，包括以下步骤：

步骤102，获取用户会话场景数据以及用户会话场景数据的会话主题，利用聚类算法对会话主题中的关键句进行聚类，得到多个类簇。

用户会话场景数据中包含多个场景和主题，按照业务分流，获取不同场景的数据，金融领域，比如开户业务，理财产品业务等，经过数据分析，可以得知，不同的主题会出现不同的表达关键句，使用分类算法建模，比如开户咨询、查询账单、忘记密码等。通过分类算法将不同的会话片段进行主题分类，得到多个会话主题，其中，在流程中客服的答复基本是流程的关键句，故将同场景同主题的客服的表达进行聚类，同一个类簇即具有相同语义的句子，标记为同一编号。

步骤104，对类簇的数据量大小进行排序，选择数据量最大的类簇作为候选类簇，根据预设的业务关键词集合对候选类簇进行过滤，得到特定类簇集。

对类簇的数据量大小进行排序，大类簇即体现为语义上的高频表达，说明在此主题下经常出现，可以确定为流程不可缺少的流程子句，作为候选类簇，然后利用业务关键词集合对候选类簇进行过滤，将具有业务含义的高频句类簇保留，预先设定一个阈值，对上述类簇排序和利用业务关键词集合过滤的过程进行循环，直至得到最准确的类簇作为特定类簇，将特定类簇定义为流程子句，并使用类簇id作为流程子句的编号。

步骤106，将特定类簇集中的特定类簇标记为流程子句，构建特定序列集，根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列。

应用序列模式挖掘算法，使用但不限于Apriori、GSP、PrefixSpan等算法对序列集合进行计算，找出满足最小支持度的序列，即频繁序列，作为流程序列。

步骤108，对流程序列进行还原，得到流程序号；将流程序号对应的类簇进行分析，得到最终的流程子句。

将流程序列进行还原为文本，序号所在类簇集合数据提供给业务人员参考，由人工方式归纳出最准确的表达句，作为最终的流程子句。

上述一种基于会话场景的流程挖掘方法，首先对用户会话场景数据的会话主题进行聚类，挑选出聚类得到的数据量最大的类簇，根据预设的业务关键词集合对候选类簇进行过滤，得到具有业务含义的高频句类簇，然后将其定义为流程子句，进行会话数据挖掘技术得到流程序列，本申请自动发现文本中包含的流程，利用语句表达更加多变的语义层信息，更加符合客观世界的现象，挖掘更加准确。

不同的场景出现的流程差别会比较大，需要利用分类算法将不同种类的主题进行分类，同场景同主题下的聊天文本才可以作为流程挖掘的基础数据。

业务关键词集合中包含业务所需的关键词，将候选类簇与关键词进行匹配，若候选类簇具有业务含义，则保留，根据预先设定的阈值，对具有高频句的候选类簇进行不断过滤，直至得到准确流程语句的类簇作为特定类簇。

数据中的流程子句s标记类簇编号ci∈N*，可以得到序列：s->ci，如表1所示：

表1

支持度即包含该序列X->Y的数据占总数据n的比重。计算方式：

支持度表示序列在集合中出现的的频繁程度。最小支持度即设定的满足占比要求的最小值。

置信度即一条序列X->Y的置信度表示包含了X又包含了Y的数量占所有X的百分比。计算方式为：

置信度决定了可预测度，如果规则的置信度高，说明可从序列X能大概率推断出Y。则该条序列具有强关联性，即强关联规则。

故将满足最小支持度和最小置信度的序列作为流程序列。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种基于会话场景的流程挖掘装置，包括：聚类模块202、过滤模块204、挖掘模块206和还原模块208，其中：

聚类模块202，用于获取用户会话场景数据以及用户会话场景数据的会话主题，利用聚类算法对会话主题中的关键句进行聚类，得到多个类簇；

过滤模块204，用于对类簇的数据量大小进行排序，选择数据量最大的类簇作为候选类簇，根据预设的业务关键词集合对候选类簇进行过滤，得到特定类簇集；

挖掘模块206，用于将特定类簇集中的特定类簇标记为流程子句，构建特定序列集，根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列；

还原模块208，用于对流程序列进行还原，得到流程序号；将流程序号对应的类簇进行分析，得到最终的流程子句。

在其中一个实施例中，聚类模块202还用于根据fasttext算法，或bert+softmax算法对用户会话场景数据进行分类，得到多个会话主题。

在其中一个实施例中，过滤模块204还用于预先定义一个业务关键词子集，利用PMI算法，或word2evc词向量模型发现业务关键词子集的同义词；根据业务关键词子集和业务关键词子集的同义词，构建业务关键词集合。

在其中一个实施例中，挖掘模块206还用于将特定类簇集中的特定类簇标记为流程子句，构建特定序列集，包括；将特定类簇集中的特定类簇的ID作为流程子句的编号，构建特定序列集。

在其中一个实施例中，挖掘模块206还用于利用应用序列模式挖掘算法对特定序列集进行挖掘，找出满足最小支持度和最小置信度的序列作为流程序列。

关于一种基于会话场景的流程挖掘装置的具体限定可以参见上文中对于一种基于会话场景的流程挖掘方法的限定，在此不再赘述。上述一种基于会话场景的流程挖掘装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于会话场景的流程挖掘方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于会话场景的流程挖掘方法，其特征在于，所述方法包括：

获取用户会话场景数据以及所述用户会话场景数据的会话主题，利用聚类算法对所述会话主题中的关键句进行聚类，得到多个类簇；

对所述类簇的数据量大小进行排序，选择数据量最大的类簇作为候选类簇，根据预设的业务关键词集合对所述候选类簇进行过滤，得到特定类簇集；

将所述特定类簇集中的特定类簇标记为流程子句，构建特定序列集；

对所述流程序列进行还原，得到流程序号；将所述流程序号对应的类簇进行分析，得到最终的流程子句。

2.根据权利要求1所述的方法，其特征在于，获取所述用户会话场景数据的会话主题的步骤，包括：

根据fasttext算法，或bert+softmax算法对所述用户会话场景数据进行分类，得到多个会话主题。

3.根据权利要求2所述的方法，其特征在于，根据预设的业务关键词集合对所述候选类簇进行过滤，得到特定类簇集，包括：

根据业务关键词集合对所述候选类簇进行关键词过滤，将具有业务含义的类簇进行保留，得到特定类簇。

4.根据权利要求3所述的方法，其特征在于，获取业务关键词集合的过程，包括：

预先定义一个业务关键词子集，利用PMI算法，或word2evc词向量模型发现所述业务关键词子集的同义词；

根据所述业务关键词子集和所述业务关键词子集的同义词，构建业务关键词集合。

5.根据权利要求4所述的方法，其特征在于，将所述特定类簇集中的特定类簇标记为流程子句，构建特定序列集，包括；

将所述特定类簇集中的特定类簇的ID作为流程子句的编号，构建特定序列集。

6.根据权利要求1所述的方法，其特征在于，根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列，包括；

利用应用序列模式挖掘算法对特定序列集进行挖掘，找出满足最小支持度和最小置信度的序列作为流程序列。

7.一种基于会话场景的流程挖掘装置，其特征在于，所述装置包括：

聚类模块，用于获取用户会话场景数据以及所述用户会话场景数据的会话主题，利用聚类算法对所述会话主题中的关键句进行聚类，得到多个类簇；

过滤模块，用于对所述类簇的数据量大小进行排序，选择数据量最大的类簇作为候选类簇，根据预设的业务关键词集合对所述候选类簇进行过滤，得到特定类簇集；

挖掘模块，用于将所述特定类簇集中的特定类簇标记为流程子句，构建特定序列集，根据应用序列模式挖掘算法对特定序列集进行挖掘，得到流程序列；

还原模块，用于对所述流程序列进行还原，得到流程序号；将所述流程序号对应的类簇进行分析，得到最终的流程子句。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。