CN110225207A

CN110225207A - 一种融合语义理解的防骚扰方法、系统、终端及存储介质

Info

Publication number: CN110225207A
Application number: CN201910355198.8A
Authority: CN
Inventors: 邹辉; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤; 王静
Original assignee: Xiamen Express Business Information Consulting Co Ltd
Current assignee: Xiamen Express Business Information Consulting Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-09-10
Anticipated expiration: 2039-04-29
Also published as: CN110225207B

Abstract

本发明公开了一种融合语义理解的防骚扰方法、系统、终端及存储介质，所述方法包括获取当前会话信息，分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率；判断是否满足第一骚扰条件，若满足第一骚扰条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单。本发明无需添加验证码的方式进行防骚扰，提升了客户系统的用户体验感，同时解决了客服花大量时间在恶意访问用户上的问题，提升客户系统工作效率；可以有效避免骚扰用户通过技术手段躲避骚扰拦截，有效地辨别升级的骚扰数据，提升骚扰数据的辨别能力，能有效地将恶意骚扰的请求数据拦截。

Description

一种融合语义理解的防骚扰方法、系统、终端及存储介质

技术领域

本发明涉及防骚扰技术应用于客服领域，具体涉及一种融合语义理解的防骚扰方法、系统、终端及存储介质。

背景技术

在客服系统中，经常出现有恶意骚扰、恶意竞争等原因不断调用对话接口的情况。传统的防骚扰技术一般通过统计‘骚扰’关键词出现的次数、通过用户IP访问的次数或频率、验证码等方式来判断是否为恶意用户。如果是恶意用户则关闭此次对话、将IP列入黑名单；否则将对话分配给人工客服，减少人工客服的无效接待时长。

传统的防骚扰技术可以拦截一些简单、有规律的恶意访问数据，然而对于一些稍做升级的骚扰数据则无法拦截。例如恶意访问系统可以收集问题集，使用IP代理，每个IP只从问题集合中抽少数问题、隔一定的合理时间段去访问客服系统，这种情况下通过上述方法并不能把恶意对话给拦截下来，此外，添加验证码的方式将会使得客服系统的用户体验不好，影响用户使用。

发明内容

本发明的目的在于解决的问题，提出一种融合语义理解的防骚扰方法，一方面提升客户体验，另一方面提升防骚扰能力，有效地将恶意骚扰的请求数据进行拦截，解决了客服花大量时间在恶意访问用户上的问题。

为达成上述目的，本发明采用如下技术方案：一种融合语义理解的防骚扰方法，包括如下步骤：

获取当前会话信息，分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率；

判断是否满足第一骚扰条件，若满足第一骚扰条件，则判断当前会话用户为异常用户，

所述第一骚扰条件为当前会话用户连续若干次说的话都是一个语法有误的句子，则满足第一骚扰条件；

进一步的，在当前会话用户被判断为异常用户时，关闭当前会话，并将当前会话用户的IP加入黑名单。

进一步的，采用隐马尔科夫算法计算当前会话用户所说的话组成一个符合语法句子的概率，并根据概率值的大小判断当前会话用户所说的话是否有效。

进一步的，在融合语义理解的防骚扰方法中，若不满足第一骚扰条件，则学习当前会话用户所说话的含义，根据当前会话用户所说话的含义返回与当前会话用户所说话的含义相关的问题或术语至当前会话；

获取当前用户针对返回的当前会话用户所说话的含义相关的问题或术语进行回复内容，计算返回至当前会话用户的问题或术语与当前会话用户回复内容的相关度；

判断是否满足第二骚扰条件，若满足第二骚扰条件，则判断当前会话用户为异常用户，否则判断当前会话用户为正常用户，进一步的，在当前会话用户被判断为异常用户时，关闭当前会话，并将当前会话用户的IP加入黑名单；

所述第二骚扰条件为连续若干次返回至当前会话用户的问题或术语与当前会话用户回复内容为不相关，则满足第二骚扰条件；当返回至当前会话用户的问题或术语与当前会话用户回复内容的相关度小于或小于等于设定值，则返回至当前会话用户的问题或术语与当前会话用户回复内容为判断为不相关。

进一步的，采用BM25算法计算当前会话用户的问题或术语与当前会话用户回复内容的相关度。

进一步的，在分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率前，还包括：

统计当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率；

根据当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率判断当前会话用户是否为恶意用户，若满足恶意用户条件，则判断当前会话用户为异常用户，否则获取当前会话信息，分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率；进一步的，在当前会话用户被判断为异常用户时，关闭当前会话，并将当前会话用户的IP加入黑名单。

与融合语义理解的防骚扰方法，相应的，本发明还提供融合语义理解的防骚扰系统，包含对话单元、语法分析单元、对话控制单元、异常判断单元；

所述对话单元用于与当前对话用户之间进行对话；

所述语法分析单元用于分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率；

所述异常判断单元用于根据所述语法分析单元分析的结果判断当前对话用户是否为异常用户；若异常判断单元的判断结果为当前对话用户为异常用户，发送关闭当前会话指令至所述对话控制单元；

所述对话控制单元用于接收异常判断单元的关闭当前会话指令关闭所述对话单元的当前会话。

进一步的所述系统还包括相关度单元，

所述语法分析单元用于分析当会话用户连续若干次说的话分别不能组成一个符合语法句子，所述异常判断单元通知所述对话控制单元发送与当前会话用户所说话的含义相关的问题或术语至对话单元；

所述相关度单元用于计算返回至当前会话用户的问题或术语与当前会话用户回复内容的相关度；

所述异常判断单元用于根据所述相关度单元的计算返回至当前会话用户的问题或术语与当前会话用户回复内容的相关度结果判断当前对话用户是否为异常用户；若异常判断单元的判断结果为当前对话用户为异常用户，发送关闭当前会话指令至所述对话控制单元。

进一步的，所述系统还包括关键词检测单元和/或IP获取单元；

所述关键词检测单元用于从所述对话单元获取对话数据，监测当前会话的‘骚扰’关键词出现的次数；

所述IP获取单元用于监控所述对话单元的当前对话用户IP访问的次数和/或频率；

所述异常判断单元用于根据当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率判断当前会话用户是否为恶意用户，若所述异常判断单元判断为恶意用户，则所述异常判断单元发送关闭当前会话指令至所述对话控制单元。

另外，本发明还提供了一种终端，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的融合语义理解的防骚扰程序，所述融合语义理解的防骚扰程序被所述处理器执行时实现上所述的融合语义理解的防骚扰方法的步骤。

另外，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有融合语义理解的防骚扰程序，所述融合语义理解的防骚扰程序被处理器执行时实现上述的融合语义理解的防骚扰方法的步骤。

本发明提供的融合语义理解的防骚扰方法、终端及存储介质，与现有技术相比较，具备如下有益效果：

(1)本发明无需添加验证码的方式进行防骚扰，提升了客户系统的用户体验感，同时解决了客服花大量时间在恶意访问用户上的问题，提升客户系统工作效率；

(2)通过判断当前会话用户所说的话是否是正常的句子，即判断句子的语法是否正常，来判断用户是否为骚扰用户或异常用户，可以有效避免骚扰用户通过技术手段躲避骚扰拦截，有效地辨别升级的骚扰数据；

(3)进一步地通过分析当前会话用户是否能接上系统的问题或术语(例如问诊问题)，即当前会话用户回答与系统问句的关联度，从语义上判断用户是否为正常用户，来进一步辨别用户是否为骚扰用户，提升骚扰数据的辨别能力，能有效地将恶意骚扰的请求数据拦截。

附图说明

图1为本发明实施例1的融合语义理解的防骚扰方法的流程步骤图；

图2为本发明实施例2的融合语义理解的防骚扰方法的流程步骤图；

图3为本发明实施例3的融合语义理解的防骚扰方法的流程步骤图；

图4为本发明实施例4的融合语义理解的防骚扰系统的示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

需要说明的是，本发明所指的若干次包含一次或多次。所述多次为两次或两次以上。

实施例1

本发明实施例公开了一种融合语义理解的防骚扰方法，如附图1所示，包括如下步骤：

步骤S11，获取当前会话信息，分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率；

步骤S12，判断是否满足第一骚扰条件，若满足第一骚扰条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单，否则进入步骤S13，

所述第一骚扰条件为当前会话用户连续若干次说的话都是一个语法有误的句子，则满足第一骚扰条件；在本发明实施例，优选地，采用隐马尔科夫算法计算当前会话用户所说的话组成一个符合语法句子的概率，并根据概率值的大小判断当前会话用户所说的话是否有效；

隐马尔科夫模型(Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析，例如模式识别。

是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型，描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测序列的过程，隐藏的马尔科夫链随机生成的状态的序列，称为状态序列；每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。马尔科夫链由初始概率分布、状态转移概率分布以及观测概率分布确定。

句子1‘中华人民共和国’和句子2‘中华人民共共国’为例进一步说明，‘中华人民共’后面接‘和’的概率比接‘共’的概率高很多，后者的概率很低，不是一个正常的句子。而句子‘洒水客单价萨克’成为一个正常语法的句子的概率则更低，如果概率低于一个阈值的时候我们可以把它当作不是一个符合语法的句子。如果连续发送多句无意义的句子，我们就认为这是一个无效用户或者是一个骚扰用户。

步骤S13，学习当前会话用户所说话的含义，根据当前会话用户所说话的含义返回与当前会话用户所说话的含义相关的问题或术语至当前会话；

步骤S14，获取当前用户针对返回的当前会话用户所说话的含义相关的问题或术语进行回复内容，计算返回至当前会话用户的问题或术语与当前会话用户回复内容的相关度；

步骤S15，判断是否满足第二骚扰条件，若满足第二骚扰条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单，否则判断当前会话用户为正常用户；

优选的，本发明实施例采用BM25算法计算当前会话用户的问题或术语与当前会话用户回复内容的相关度；

第二骚扰条件判断，以整形行业为例，学习用户所说话的含义(如用户说“我想做双眼皮”)，防骚扰系统根据预先设计好的相关问诊话术(一个项目-问诊话术字典)查找问诊话术(同一个项目有多个备选的不同问诊话术)返回给当前会话用户，使用BM25算法计算问诊话术与用户回复内容的相关度，如果连续三次用户回复内容与系统问诊内容不相关，则判断为骚扰用户，则关闭此次会话，将IP加入黑名单；

BM25算法是一种用来评价搜索词和文档之间相关性的算法，它是一种基于概率检索模型提出的算法，再用简单的话来描述下BM25算法：我们有一个query和一批文档Ds，现在要计算query和每篇文档D之间的相关性分数，我们的做法是，先对query进行切分，得到单词$q_i$，然后单词的分数由3部分组成：单词$q_i$和D之间的相关性、单词$q_i$和D之间的相关性、每个单词的权重，最后对于每个单词的分数我们做一个求和，就得到了query和文档之间的分数。

实施例2

本发明实施例公开了一种融合语义理解的防骚扰方法，如附图2所示，包括如下步骤：

步骤S21，统计当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率；

步骤S22，根据当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率判断当前会话用户是否为恶意用户，若满足恶意用户条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单，否则进入步骤S23；

步骤S23，获取当前会话信息，分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率；

步骤S24，判断是否满足第一骚扰条件，若满足第一骚扰条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单，否则判断当前会话用户为正常用户；

所述第一骚扰条件为当前会话用户连续若干次说的话都是一个语法有误的句子，则满足第一骚扰条件；在本发明实施例，优选地，采用隐马尔科夫算法计算当前会话用户所说的话组成一个符合语法句子的概率，并根据概率值的大小判断当前会话用户所说的话是否有效。

实施例3

本发明实施例公开了一种融合语义理解的防骚扰方法，如附图3所示，包括如下步骤：

步骤S31，统计当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率；

步骤S32，根据当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率判断当前会话用户是否为恶意用户，若满足恶意用户条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单，否则进入步骤S23，

步骤S33，获取当前会话信息，分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率；

步骤S34，判断是否满足第一骚扰条件，若满足第一骚扰条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单，否则进入步骤S35；

步骤S35，学习当前会话用户所说话的含义，根据当前会话用户所说话的含义返回与当前会话用户所说话的含义相关的问题或术语至当前会话；

步骤S36，获取当前用户针对返回的当前会话用户所说话的含义相关的问题或术语进行回复内容，计算返回至当前会话用户的问题或术语与当前会话用户回复内容的相关度；

步骤S37，判断是否满足第二骚扰条件，若满足第二骚扰条件，则判断当前会话用户为异常用户，关闭当前会话，并将当前会话用户的IP加入黑名单，否则判断当前会话用户为正常用户；

优选的，本发明实施例中采用BM25算法计算当前会话用户的问题或术语与当前会话用户回复内容的相关度。

实施例4

本发明实施例公开了一种融合语义理解的防骚扰系统，如附图4所示，包括对话单元、语法分析单元、对话控制单元、异常判断单元；

所述对话单元用于与当前对话用户之间进行对话；

进一步的，所述系统还包括相关度单元，所述语法分析单元用于分析当会话用户连续若干次说的话分别不能组成一个符合语法句子，所述异常判断单元通知所述对话控制单元发送与当前会话用户所说话的含义相关的问题或术语至对话单元；

需要说明的是，本发明所述系统还包括存储单元，用于存储黑名单，用于记录各种异常信息。

实施例5

本发明实施例公开了一种终端，优选地，所述终端为移动终端，如智能手机、电脑、IPAD、笔记本等，所述终端包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的融合语义理解的防骚扰程序，所述融合语义理解的防骚扰程序被所述处理器执行时实现融合语义理解的防骚扰方法的步骤。

所述融合语义理解的防骚扰方法的具体实施案例与实施例1、2、3的所述融合语义理解的防骚扰方法，在此不再赘述。

本领域技术人员可以理解，所述存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等；所述处理器可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。

实施例6

本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有融合语义理解的防骚扰程序，所述融合语义理解的防骚扰程序被所述处理器执行时实现融合语义理解的防骚扰方法的步骤。所述融合语义理解的防骚扰方法的具体实施案例与实施例1、2、3的所述融合语义理解的防骚扰方法，在此不再赘述。

所述计算机可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(Random Access Memory，RAM)、静态随机访问存储器(StaticRandom-Access Memory，SRAM)、只读存储器(Read Only Memory，ROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。

以上所述仅为本发明说明书一个或多个实施例的实施例而已，并不用于限制本发明说明书一个或多个实施例。对于本领域技术人员而言，本发明说明书一个或多个实施例可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种融合语义理解的防骚扰方法，其特征在于，包括如下步骤：

判断是否满足第一骚扰条件，若满足第一骚扰条件，则判断当前会话用户为异常用户；

所述第一骚扰条件为当前会话用户连续若干次说的话都是一个语法有误的句子，则满足第一骚扰条件。

2.根据权利要求1的所述融合语义理解的防骚扰方法，其特征在于，

采用隐马尔科夫算法计算当前会话用户所说的话组成一个符合语法句子的概率，并根据概率值的大小判断当前会话用户所说的话是否有效。

3.根据权利要求1的所述融合语义理解的防骚扰方法，其特征在于，

若不满足第一骚扰条件，则学习当前会话用户所说话的含义，根据当前会话用户所说话的含义返回与当前会话用户所说话的含义相关的问题或术语至当前会话；

判断是否满足第二骚扰条件，若满足第二骚扰条件，则判断当前会话用户为异常用户，否则判断当前会话用户为正常用户；

4.根据权利要求3所述的融合语义理解的防骚扰方法，其特征在于，

采用BM25算法计算当前会话用户的问题或术语与当前会话用户回复内容的相关度。

5.根据权利要求1所述的融合语义理解的防骚扰方法，其特征在于，

在分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率前，还包括：

根据当前会话的‘骚扰’关键词出现的次数和/或监控通过用户IP访问的次数和/或频率判断当前会话用户是否为恶意用户，若满足恶意用户条件，则判断当前会话用户为异常用户，否则获取当前会话信息，分析当会话用户连续若干次说的话分别能组成一个符合语法句子的概率。

6.一种融合语义理解的防骚扰系统，其特征在于，

所述系统包含对话单元、语法分析单元、对话控制单元、异常判断单元；

所述对话单元用于与当前对话用户之间进行对话；

7.根据权利要求6所述的融合语义理解的防骚扰系统，其特征在于，

所述系统还包括相关度单元，

8.根据权利要求7所述的融合语义理解的防骚扰系统，其特征在于，

所述系统还包括关键词检测单元和/或IP获取单元；

9.一种终端，其特征在于，

所述终端包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的融合语义理解的防骚扰程序，所述融合语义理解的防骚扰程序被所述处理器执行时实现如权利要求1至5中任一项所述的融合语义理解的防骚扰方法的步骤。

10.一种计算机可读存储介质，其特征在于，

所述计算机可读存储介质上存储有融合语义理解的防骚扰程序，所述融合语义理解的防骚扰程序被处理器执行时实现如权利要求1至5中任一项所述的融合语义理解的防骚扰方法的步骤。