CN112800206A

CN112800206A - 一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法

Info

Publication number: CN112800206A
Application number: CN202110312923.0A
Authority: CN
Inventors: 朱海峰; 颜小君; 陈正鹏
Original assignee: Nanjing Wande Information Technology Co ltd
Current assignee: Nanjing Wande Information Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-05-14
Anticipated expiration: 2041-03-24
Also published as: CN112800206B

Abstract

本发明提供了一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，采用GPT‑dialog模型实现与主叫方自动进行多轮语音对话。并基于少量有标记语音对话语料，采用BERT‑RCNN模型与LDA主题模型，实现多轮对话骚扰意图的实时评分。当实时骚扰意图评分高于置信度则将来电判别为骚扰电话进行屏蔽。本发明采用基于Transformer预训练模型的生成式算法实现了自动的多轮语音对话，成倍降低了构建庞大的问答语料库的人力成本，提高交互体验的同时也提升了意图判别的准确性；本发明采用深度分类算法和主题分类算法构建了实时意图判别的模型，能够不断学习和校正对前面的对话内容的识别结果，使意图识别结果更加健壮。

Description

一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法

技术领域

本发明涉及一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，涉及自然语言处理技术领域。

背景技术

如今人类正处于一个科技爆发和信息爆炸的年代，在感受科技带来便利的同时，各种各样的信息骚扰也纷至沓来，而电话骚扰情况尤其严峻，因此设计有效的骚扰电话屏蔽方法非常具有价值。然而目前主流的骚扰电话屏蔽方法并没有有效的进行陌生号码的屏蔽，或者容易错误屏蔽一些重要的来电，无法满足用户的实际需求。当前主要的骚扰电话屏蔽方法有如下几种：

第一种采用来电标记的方式。即通过收集被叫方对当前来电的类型标记为当前电话号码打上标签，如果当前号码被多次标记成骚扰（诈骗、推销等等），则该电话号码的后续来电将均被屏蔽。这种方式适合屏蔽具有多次骚扰行为的来电。

第二种采用呼叫转接的方式。即为陌生来电设置一系列的提示音操作，只有完成提示要求的操作才能被接入。这种方式因主叫方操作复杂并且耗时较长，主要用于客服系统。

第三种采用基于问答系统构建的智能语音对话方式。即采用NLP技术加人工整理的方式收集大量用户对话语料，构建庞大的问答系统，并通过问答系统自动与主叫方进行对话，对话过程中如果系统意图识别为非骚扰则将呼叫向被叫方转接。该方式通过主动的对话引导主叫方表达意图，从而进行骚扰识别，可适用于多种场景。

对比以上三种方式，第一种方式的缺点是对于新号码缺少相关标记记录，无法立即解决新号码产生的电话骚扰行为。第二种方式的缺点是主叫方的操作过于耗时，无法适用于普通的用户场景，对于陌生紧急电话场景显然很难适用。第三种方式通过构建问答系统来实现智能语音对话以判别用户的真实意图，需要投入大量的人力进行问答对语料的构建，且在应用于多场景时容易因语料不足导致无法连续进行多轮对话以获取真实意图。但是该方法具有较好的泛化性，且用户体验更好。

发明内容

本发明的目的是：提供一种有效的骚扰电话屏蔽方法。

为了达到上述目的，本发明的技术方案是提供了一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，其特征在于，包括以下步骤：

步骤1、收集语音对话通用语料，采集语音对话中前5轮对话的文本作为多轮对话模型的训练语料；

同时，人工按照不同骚扰电话的类别分别提取部分骚扰电话对话语料作为意图识别的骚扰电话对话训练样本，并依据骚扰电话的类别，对每个骚扰电话对话训练样本进行人工标注；

步骤2、基于步骤1获得的所有训练语料构建GPT-dialog生成式问答模型，用于进行自动多轮对话交互，具体包括以下步骤：

步骤201、选取采用相对位置编码构建的Transformer预训练模型，并且针对Transformer预训练模型的Attention矩阵加入下三角形式的Mask，生成单向语言模型GPT；

步骤202、在步骤201得到的单向语言模型GPT的基础上选用分类算法通用的交叉熵损失函数来计算单向语言模型GPT在迭代优化过程中的损失，并采用AdamW优化器来更新单向语言模型GPT训练的参数值；最后使用随机采样算法来进行文本的解码输出，由此，完成了GPT-dialog生成式问答模型的搭建；

步骤203、设置GPT-dialog生成式问答模型的训练参数；

步骤204、将步骤1获得的训练语料作为GPT-dialog生成式问答模型的输入，执行训练；

步骤205、将训练完成的GPT-dialog生成式问答模型进行存储；

步骤3、基于步骤1得到的人工标注的少量骚扰电话对话训练样本和步骤1获得的训练语料构建LDA主题算法模型，用以辅助多轮对话的意图识别，具体包括以下步骤：

步骤301、将训练语料和骚扰电话对话训练样本去除停用词、非汉字的特殊字符后，用jieba进行分词，保存分词结果；

步骤302、以分词结果作为模型输入，设置模型输出的主题个数为N，搭配gensim库进行LDA主题算法模型的搭建和训练；

步骤303、将训练好的LDA主题算法模型及N个主题所对应的关键词进行存储；

步骤304、人工对步骤303获得的各主题所对应的关键词进行标注，标注为骚扰相关和非骚扰相关；

步骤4、基于步骤1得到的人工标注的少量骚扰电话对话训练样本和步骤1获得的训练语料构建BERT-RCNN模型，用于多轮对话内容的意图评分输出，具体包括以下步骤：

步骤401、将骚扰电话对话训练样本作为模型的负面样本，随机选取一批其他对话语料作为正面样本，进行样本的构建；

步骤402、选用base版本的BERT模型作为预训练模型提供基于字的向量转化，并使用RCNN算法作为评分算法，其中，RCNN算法的输出层使用softmax，并且设为二分类，由此构建得到BERT-RCNN模型；

步骤403、设置BERT-RCNN模型训练的参数；

步骤404、将步骤401中构建的样本作为输入放入BERT-RCNN模型中进行训练；

步骤405、保存训练完成的BERT-RCNN模型；

步骤5、由GPT-dialog生成式问答模型自动与主叫方进行多轮对话，具体包括以下步骤：

步骤501、获取当前一轮主叫方的说话文本；

步骤502、将当前一轮的说话文本使用[SEP]标签与上一轮的双方对话文本拼接后输入到已经训练好的GPT-dialog生成式问答模型中，获取当前一轮自动答复内容，当前一轮主叫方的说话文本及当前一轮自动答复内容为当前一轮的双方对话文本；

步骤503、将所有对话文本输入步骤6中进行判别，如果获取到意图结果则中断进行自动对话文本生成，否则转到步骤501；

步骤6、使用LDA主题算法模型实时判断步骤5得到的多轮对话文本的主题，并结合BERT-RCNN模型实时进行骚扰意图打分；当骚扰意图评分高于预先设计的置信度就将电话识别为骚扰电话进行屏蔽，否则进行转接，其中，使用LDA主题算法模型及BERT-RCNN模型进行骚扰意图判别具体包括如下步骤：

步骤601、获取第i轮对话的语料；

步骤602、将步骤601获得的语料内容输入训练好的BERT-RCNN模型中，并输出一维向量结果[x1,x2]，其中，x1表示对话为非骚扰电话的评分，x2表示对话为骚扰电话的评分；

步骤603、将步骤601获得的语料内容输入LDA主题算法模型中进行主题预测，输出当前语料命中的主题列表及相关度，取相关度最高的主题得到[y1,z,label]，其中，y1为命中的主题类别，z为主题的相关度，label为该主题的标签属性，通过标签属性表示是否为骚扰类别主题；

步骤604、若步骤603获取的标签属性label为非骚扰类别主题，则第i轮对话得分score1、score2分别为：

score1=(x1+z)*i+score1_pre；

score2=x2*i+score2_pre；

否则第i轮对话得分score1、score2分别为：

score1=x1*i+score1_pre；

score2=(x2+z)*i+score2_pre，

score1_pre和score2_pre分别为第i-1轮对话的评分；

步骤605、若score1>score2，且score1超过置信度C，则终止基于GPT-dialog生成式问答模型进行智能对话，并且进行电话转接；

若score1<score2，且score2超过置信度C，则终止基于GPT-dialog生成式问答模型进行智能对话，并且对电话进行屏蔽；

否则将i更新为i+1，转到步骤602进行下一轮对话。

优选地，步骤1中，将每条所述训练语料处理为统一格式，其中，利用[CLS]标签标记当前一条训练语料的起始位置，当前一条训练语料中每一轮对话的语料利用[SEP]标签分割，并且利用[SEP]标签分割每一轮对话语料中的主叫方语料及被叫方语料。

优选地，步骤201中，Attention矩阵的下三角Mask方式具有N+1行及N+1列，Attention矩阵除的每一行代表着输入，Attention矩阵的每一列代表着输出；Attention矩阵第1列的N+1个元素为输入开始符<s>，第N+1行的N+1个元素为输出结束符<e>；设x₁,......, x_N表示输入文本，将Attention矩阵其余位置的元素相应地设置为x₁,......,x_N或者0，使得：Attention矩阵的第1行表示x₁仅与输入开始符<s>有关，除第1行外，Attention矩阵的第n行表示x_n仅与输入开始符<s>以及x₁至x_n-1有关，n=2,...,N，从而形成所述单向语言模型GPT。

优选地，步骤203中，所述训练参数包括输入文本长度max_length、每批次大小batch_size、训练迭代的次数epoch、每个epoch执行的步数step_per_epoch。

优选地，步骤403中，所述BERT-RCNN模型训练的参数包括：输入文本长度max_length、每批次大小batch_size、训练迭代的次数epoch以及学习率e。

本发明提供的方法基于大量无标记语音对话语料，采用GPT-dialog模型实现与主叫方自动进行多轮语音对话。并基于少量有标记语音对话语料，采用BERT-RCNN模型与LDA主题模型，实现多轮对话骚扰意图的实时评分。当实时骚扰意图评分高于置信度则将来电判别为骚扰电话进行屏蔽。

与现有技术相比，本发明具有如下有益效果：

1）本发明采用基于Transformer预训练模型的生成式算法实现了自动的多轮语音对话，成倍降低了构建庞大的问答语料库的人力成本，并且克服了文不对题的对话内容，提高交互体验的同时也提升了意图判别的准确性；

2）本发明采用深度分类算法和主题分类算法构建了实时意图判别的模型，能够不断学习和校正对前面的对话内容的识别结果，使意图识别结果更加健壮；

3）本发明无需基于对主叫方历史骚扰行为的标记，直接通过语音对话进行识别，解决新号码无法识别的问题；

4）本发明对骚扰电话意图识别准确率高、高效，泛化能力强，能够提升对骚扰电话屏蔽的准确度。

附图说明

图1为一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法主要流程；

图2为对话语料处理样式；

图3为单向语言模型Attention矩阵的Mask方式。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明提供了一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，如图1所示，具体包括以下步骤：

步骤1、广泛收集语音对话通用语料，采集语音对话中前5轮对话的文本作为多轮对话模型的训练语料。将每条训练语料处理成图2所示形式，图2中，利用[CLS]标签标记当前一条训练语料的起始位置，当前一条训练语料中每一轮对话的语料利用[SEP]标签分割，并且利用[SEP]标签分割每一轮对话语料中的主叫方语料及被叫方语料。

同时，人工按照不同骚扰电话的类别分别提取部分骚扰电话对话语料作为意图识别的骚扰电话对话训练样本。依据骚扰电话的类别，对每个骚扰电话对话训练样本进行人工标注。

步骤201、选取采用相对位置编码构建的Transformer预训练模型，并且针对Transformer预训练模型的Attention矩阵加入下三角形式的Mask，生成单向语言模型GPT。

Attention矩阵的下三角Mask方式如图3所示，该Attention矩阵具有N+1行及N+1列，Attention矩阵除的每一行代表着输入，Attention矩阵的每一列代表着输出。Attention矩阵第1列的N+1个元素为输入开始符<s>，第N+1行的N+1个元素为输出结束符<e>。设x₁,......, x_N表示输入文本，将Attention矩阵其余位置的元素相应地设置为x₁,......, x_N或者0，使得：Attention矩阵的第1行表示x₁仅与输入开始符<s>有关，Attention矩阵的第2行表示x₂仅与输入开始符<s>和x₁有关，......，依此类推，就形成了单向语言模型GPT。

步骤202、因文本生成算法本质是基于字的分类算法，所以在步骤201得到的单向语言模型GPT的基础上选用分类算法通用的交叉熵（CrossEntropy）损失函数来计算单向语言模型GPT在迭代优化过程中的损失，并采用AdamW优化器来更新单向语言模型GPT训练的参数值。最后使用随机采样（Random Sampling）算法来进行文本的解码输出。由此，完成了GPT-dialog生成式问答模型的搭建。

步骤203、设置GPT-dialog生成式问答模型的训练参数，输入文本长度max_length、每批次大小batch_size、训练迭代的次数epoch、每个epoch执行的步数step_per_epoch。

步骤204、将步骤1获得的训练语料作为GPT-dialog生成式问答模型的输入，执行训练。

步骤205、将训练完成的GPT-dialog生成式问答模型进行存储。

步骤301、将训练语料和骚扰电话对话训练样本去除停用词、非汉字的特殊字符后，用jieba进行分词，保存分词结果。

步骤302、以分词结果作为模型输入，设置模型输出的主题个数为N，搭配gensim库进行LDA主题算法模型的搭建和训练。

步骤304、人工对步骤303获得的各主题所对应的关键词进行标注，标注为骚扰相关和非骚扰相关。

步骤401、将骚扰电话对话训练样本作为模型的负面样本，随机选取一批其他对话语料作为正面样本，进行样本的构建。

步骤402、选用base版本的BERT模型作为预训练模型提供基于字的向量转化，并使用RCNN算法作为评分算法，其中，RCNN算法的输出层使用softmax，并且设为二分类，由此构建得到BERT-RCNN模型。

步骤403、设置BERT-RCNN模型训练的参数，包括：输入文本长度max_length、每批次大小batch_size、训练迭代的次数epoch以及学习率e。

步骤405、保存训练完成的BERT-RCNN模型。

步骤501、获取当前一轮主叫方的说话文本。

步骤503、将所有对话文本输入步骤6中进行判别，如果获取到意图结果则中断进行自动对话文本生成，否则转到步骤501。

步骤6、使用LDA主题算法模型实时判断步骤5得到的多轮对话文本的主题，并结合BERT-RCNN模型实时进行骚扰意图打分。当骚扰意图评分高于预先设计的置信度就将电话识别为骚扰电话进行屏蔽，否则进行转接。

步骤6中，使用LDA主题算法模型及BERT-RCNN模型进行骚扰意图判别具体包括如下步骤：

步骤601、获取第i轮对话的语料；

score1=(x1+z)*i+score1_pre；

score2=x2*i+score2_pre；

否则第i轮对话得分score1、score2分别为：

score1=x1*i+score1_pre；

score2=(x2+z)*i+score2_pre，

score1_pre和score2_pre分别为第i-1轮对话的评分；

步骤605、若score1>score2，且score1超过置信度C，则终止基于GPT-dialog生成式问答模型进行智能对话，并且进行电话转接；若score1<score2，且score2超过置信度C，则终止基于GPT-dialog生成式问答模型进行智能对话，并且对电话进行屏蔽；

否则将i更新为i+1，转到步骤602进行下一轮对话。

Claims

1.一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，其特征在于，包括以下步骤：

步骤203、设置GPT-dialog生成式问答模型的训练参数；

步骤205、将训练完成的GPT-dialog生成式问答模型进行存储；

步骤403、设置BERT-RCNN模型训练的参数；

步骤405、保存训练完成的BERT-RCNN模型；

步骤501、获取当前一轮主叫方的说话文本；

步骤601、获取第i轮对话的语料；

score1=(x1+z)*i+score1_pre；

score2=x2*i+score2_pre；

否则第i轮对话得分score1、score2分别为：

score1=x1*i+score1_pre；

score2=(x2+z)*i+score2_pre，

score1_pre和score2_pre分别为第i-1轮对话的评分；

否则将i更新为i+1，转到步骤602进行下一轮对话。

2.如权利要求1所述的一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，其特征在于，步骤1中，将每条所述训练语料处理为统一格式，其中，利用[CLS]标签标记当前一条训练语料的起始位置，当前一条训练语料中每一轮对话的语料利用[SEP]标签分割，并且利用[SEP]标签分割每一轮对话语料中的主叫方语料及被叫方语料。

3.如权利要求1所述的一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，其特征在于，步骤201中，Attention矩阵的下三角Mask方式具有N+1行及N+1列，Attention矩阵除的每一行代表着输入，Attention矩阵的每一列代表着输出；Attention矩阵第1列的N+1个元素为输入开始符<s>，第N+1行的N+1个元素为输出结束符<e>；设x₁,......, x_N表示输入文本，将Attention矩阵其余位置的元素相应地设置为x₁,......, x_N或者0，使得：Attention矩阵的第1行表示x₁仅与输入开始符<s>有关，除第1行外，Attention矩阵的第n行表示x_n仅与输入开始符<s>以及x₁至x_n-1有关，n=2,...,N，从而形成所述单向语言模型GPT。

4.如权利要求1所述的一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，其特征在于，步骤203中，所述训练参数包括输入文本长度max_length、每批次大小batch_size、训练迭代的次数epoch、每个epoch执行的步数step_per_epoch。

5.如权利要求1所述的一种基于生成式多轮对话意图识别的骚扰电话屏蔽方法，其特征在于，步骤403中，所述BERT-RCNN模型训练的参数包括：输入文本长度max_length、每批次大小batch_size、训练迭代的次数epoch以及学习率e。