CN111708887A

CN111708887A - 一种自定义规则的多模型融合的不良呼叫识别方法

Info

Publication number: CN111708887A
Application number: CN202010542354.4A
Authority: CN
Inventors: 万辛; 沈亮; 李鹏; 刘瑶; 计哲; 周书敏; 李娅强; 洪永婷; 孙晓晨; 侯炜
Original assignee: EB INFORMATION TECHNOLOGY Ltd; National Computer Network and Information Security Management Center
Current assignee: Xinxun Digital Technology Hangzhou Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-09-25
Anticipated expiration: 2040-06-15
Also published as: CN111708887B

Abstract

一种自定义规则的多模型融合的不良呼叫识别方法，包括：构建规则策略模型：设置若干条规则，将多条规则通过逻辑运算符连接构成策略，并设置策略的模型融合方式，由所有策略构成规则策略模型；构建识别不良呼叫的卷积神经网络和基于不良呼叫投诉的BERT文本分类模型；根据策略包含的规则的计算式，为每条策略生成递归计算表达式，然后执行递归计算表达式以获得策略执行结果，同时，运行卷积神经网络和BERT文本分类模型以获得输出结果，最后根据每条策略的模型融合方式和执行结果、卷积神经网络和BERT文本分类模型的输出结果，计算得到不良呼叫识别结果。本发明属于信息技术领域，能将规则和隐性表征模型有效融合到不良呼叫识别技术中。

Description

一种自定义规则的多模型融合的不良呼叫识别方法

技术领域

本发明涉及一种自定义规则的多模型融合的不良呼叫识别方法，属于信息技术领域。

背景技术

不良呼叫严重影响广大正常用户的日常生活，越来越多的犯罪分子通过不良呼叫进行诈骗骚扰，侵害普通人群的财产安全。为了能够实现对不良呼叫的识别提醒，传统的分析方案是在专家经验的基础上，利用码号规则、行为静态规则等特征，实现了强解释性的识别策略。但是随着犯罪分子行为的升级，这种方法存在着推荐目标单一、准确率下降的问题。而新兴的以隐形表征模型为主的推荐技术，虽然可以实现多视角、多维度、多尺度的不良呼叫识别，但是也存在可解释性差、对标注数据依赖验证的问题。

因此，如何将规则和隐性表征模型融合到不良呼叫识别技术中，从而既能保留专家经验和业务强解释性，还能充分利用多种表征模型提升模型整体效果，有效提升不良呼叫识别的可用性、准确性，已经成为技术人员普遍关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种动态融合规则到不良呼叫识别模型的方法，能将规则和隐性表征模型融合到不良呼叫识别技术中，从而既保留专家经验和业务强解释性，还充分利用多种表征模型提升模型整体效果，有效提升不良呼叫识别的可用性、准确性。

为了达到上述目的，本发明提供了一种自定义规则的多模型融合的不良呼叫识别方法，包括有：

步骤一、构建规则策略模型：设置若干条不良呼叫识别规则，并保存在规则表中，然后将规则表中的多条规则通过逻辑运算符连接构成策略，并设置每条策略的模型融合方式，由所有策略构成规则策略模型；

步骤二、分别构建识别不良呼叫的卷积神经网络和基于不良呼叫投诉的BERT文本分类模型，其中，数据源包括呼叫信令、用户投诉的相关文本、公安反馈的不良呼叫文本信息、或其他渠道获取的文本标签；

步骤三、根据策略包含的所有规则的计算式，为规则策略模型中的每条策略生成相应的递归计算表达式，然后执行策略的递归计算表达式以获得每条策略的执行结果，同时，运行卷积神经网络和BERT文本分类模型以获得各自的输出结果，最后根据每条策略的模型融合方式和执行结果、卷积神经网络和BERT文本分类模型的输出结果，计算得到最终的不良呼叫识别结果。

与现有技术相比，本发明的有益效果是：本发明基于用户自定义规则，并采取多种融合方式，将规则策略模型的执行结果和卷积神经网络、BERT文本分类模型这些表征模型的输出结果进行融合，从而不仅能保留专家经验和业务强解释性，还充分利用多种表征模型提升模型整体效果，有效提升不良呼叫识别的可用性、准确性。

附图说明

图1是本发明一种自定义规则的多模型融合的不良呼叫识别方法的流程图。

图2是图1步骤三中，根据策略包含的所有规则的计算式，为规则策略模型中的每条策略生成相应的递归计算表达式的具体步骤流程图。

图3是图1步骤三中，根据每条策略的模型融合方式和执行结果、卷积神经网络和BERT文本分类模型的输出结果，计算得到最终的不良呼叫识别结果的具体步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种自定义规则的多模型融合的不良呼叫识别方法，包括有：

步骤二、分别构建识别不良呼叫的卷积神经网络和BERT文本分类模型，其中，数据源包括呼叫信令、用户投诉的相关文本、公安反馈的不良呼叫文本信息、或其他渠道获取的文本标签；

步骤一中，策略由多条规则通过逻辑运算符连接而形成，具体形式可以为：

其中，ψ表示策略，r₁、r₂、…r_m表示m条规则，

表示逻辑运算符，可以是与&，也可以是或|。本发明除了设置每条策略的模型融合方式，还可以设置每条策略的不良类别label、强制程度weight，其中，不良类别label是指识别不良呼叫的类别，例如诈骗、反宣、骚扰等，强制程度weight是一个取值区间在[0，100]内的整数，当其值为100时，表示满足策略的呼叫一定是正样本，当其值为0时，表示满足策略的呼叫一定不是正样本(而是负样本)，默认值是50，模型融合方式type是一个整数，表示规则策略模型的执行结果和卷积神经网络、BERT文本分类模型的输出结果之间的不同融合方式。例如，策略1：规则0&规则1|规则2，weight＝97，type＝1，label＝1。

步骤二中，可以基于不良呼叫的不同特征，构建卷积神经网络、BERT文本分类模型等多个用于识别不良呼叫的表征模型，其中，卷积神经网络的输入可以是用户在不同时间周期下的通话特征指标向量，输出可以是标识用户是否是疑似不良呼叫号码的标签信息；BERT文本分类模型的输入可以是投诉文本的词向量，输出可以是投诉文本属于不良呼叫的可疑度。本申请人分别在上述2个模型的基础上做了进一步的研究和创新，还同时提出了专利申请：一种基于时空图的诈骗号码识别方法、一种基于通话文本词向量的终端诈骗电话识别方法，由于对上述模型的创新技术方案不在本发明的保护范围内，所以不在此赘述。

如图2所示，图1步骤三中，根据策略包含的所有规则的计算式，为规则策略模型中的每条策略生成相应的递归计算表达式，可以进一步包括有：

步骤31、读取规则表中的每条规则，使用IF-ELSE语句生成相应的计算式；

步骤32、根据每条策略中包含的规则及规则之间的逻辑运算符，为每条策略构建对应的逻辑树，所述逻辑树上的每个叶子节点和策略中的每条规则相关联，叶子节点之间的每条边和策略中的每个逻辑运算符相对应；

步骤33、根据每条策略对应的逻辑树上的叶子节点相关联的规则的计算式，生成每条策略的递归计算表达式：先计算逻辑树上的每个叶子节点值，所述叶子节点值即是与叶子节点相关联的规则的计算式，然后根据节点之间的父子关系，利用前序遍历，遍历逻辑树，获取逻辑树上每一个节点与每一条边的取值，最终在根节点组成每条策略的规则组合取值，所述根节点值即是每条策略的递归计算表达式。

步骤32中，为每条策略构建对应的逻辑树，可以进一步包括有：

步骤321、设置z为1，根节点是当前节点；

步骤322、读取策略中的第z个字符，判断第z个字符是否是左括号“(”，如果是，则为当前节点增加一个子节点，新增子节点成为当前节点，然后继续步骤326；如果否，则继续下一步；

步骤323、判断第z个字符是否是1条规则，如果是，则将当前节点与所述规则相关联，然后继续步骤326；如果否，则继续下一步；

步骤324、判断第z个字符是否是逻辑运算符，如果是，则将当前节点与其父节点之间的边定义为所述逻辑运算符，并为当前节点新增一个兄弟节点，新增的兄弟节点成为当前节点，然后继续步骤326；如果否，则继续下一步；

步骤325、判断第z个字符是否是右括号“)”，如果是，则回到当前节点的父节点，父节点成为当前节点，然后继续步骤326；如果否，则本流程结束；

步骤326、将z加1，然后转向步骤322。

本发明可以为每条策略设置多个模型融合方式，也即是说，可以根据每条策略的模型融合方式type的值，将策略的执行结果和其他表征模型的输出结果采用不同的方式进行融合，并输出融合后的识别结果，从而有效提高识别准确度。如图3所示，图1步骤三中，根据每条策略的模型融合方式和执行结果、卷积神经网络和BERT文本分类模型的输出结果，计算得到最终的不良呼叫识别结果，可以进一步包括有：

步骤A1、分别从策略、卷积神经网络和BERT文本分类模型中提取各自的特征向量：策略的特征向量x₀由其包含的所有规则构成，卷积神经网络提取最后一个隐藏层的隐状态作为其特征向量x₁，BERT文本分类模型提取投诉文本的词向量作为其特征向量x₂，并为策略、卷积神经网络和BERT文本分类模型设置对应的融合权重；

步骤A2、判断策略的模型融合方式type是否是0？如果是，则表示策略的执行结果和卷积神经网络、BERT文本分类模型的输出结果不进行融合，输出策略的执行结果，本流程结束；如果否，则继续下一步；

步骤A3、判断type是否是1？如果是，则使用加权投票法，计算、并输出最终的不良呼叫识别结果：

其中，

是最终的不良呼叫识别结果，y₀是策略的执行结果，w₀是策略的融合权重，w₁、w₂分别是卷积神经网络、BERT文本分类模型的融合权重，y₁、y₂分别是卷积神经网络、BERT文本分类模型的输出结果，本流程结束；如果否，则继续下一步；

步骤A4、判断type是否是2？如果是，则先将策略、卷积神经网络、BERT文本分类模型的特征向量分别和各自的融合权重相乘，再将和融合权重相乘后得到的特征向量以按行拼接Concat或者聚合Aggregate的方式来进行融合，以获得融合后的特征向量：COncat/Aggregate(w₀*x₀，w₁*x₁，w₂*x₂)，同时构建一个分类器，然后将融合后的特征向量输入分类器，分类器的输出值：

即是最终的不良呼叫识别结果，分类器可以选用随机森林或者神经网络，本流程结束；如果否，则继续下一步；

步骤A5、判断type是否是3？如果是，则将策略、卷积神经网络、BERT文本分类模型的特征向量分别和各自的融合权重相乘，再将和融合权重相乘后得到的特征向量以两两拼接的方式来进行融合，以获得融合后的特征向量：x₀₁、x₀₂、x₁₂，其中，x₀₁、x₀₂、x₁₂分别表示将x₀和x₁、x₀和x₂、x₁和x₂拼接后获得的融合后的特征向量，同时为每个融合后的特征向量单独构建、并训练一个子分类器，将每个融合后的特征向量输入其对应的子分类器，然后将所有子分类器的分类结果、策略的执行结果、卷积神经网络和BERT文本分类模型的输出结果进行拼接，将拼接后的向量继续输入至第二层分类器，第二层分类器的输出结果即是最终的不良呼叫识别结果，其中，为每个融合后的特征向量单独构建的子分类器可以采用Logistic回归、决策树、线性核支持向量机等简单分类器，通过选择差异性较强的子分类器能取得较好的技术效果，第二层分类器可以采用随机森林或者神经网络，本流程结束。

步骤A1中，策略的融合权重w₀可以根据实际业务需要而设置，卷积神经网络、BERT文本分类模型的融合权重w₁、w₂可以采用线性拟合法计算获得，进一步包括有：

步骤A11、将相同样本分别输入至卷积神经网络、BERT文本分类模型，并获得卷积神经网络、BERT文本分类模型各自的AUC(即感受性曲线下与坐标轴围成的面积)值：AUC₁、AUC₂；

步骤A12、对融合权重w₁、w₂进行多次调整，并根据调整后的融合权重计算卷积神经网络和BERT文本分类模型的AUC总值：

且

其中，AUC-SUM^t是对融合权重进行第t次调整得到的卷积神经网络和BERT文本分类模型的AUC总值，

是对融合权重w_k进行第t次调整后的值，保存AUC-SUM^t及对应的融合权重

k＝1或2；

步骤A13、从保存的所有卷积神经网络和BERT文本分类模型的AUC总值中挑选最大值,所述最大值对应的融合权重

即是为卷积神经网络、BERT文本分类模型所设置的融合权重w_k，k＝1或2。

本发明还可以在实际运行过程中对运行效果进行实时监测，当运行效果没有达到预期时，w₀保持不变，并通过多次迭代运算来重新调整w₁、w₂，以保证模型的整体运行效果，还包括有：

步骤B1、计算步骤三中得到的最终的不良呼叫识别结果对应的ACU值，并判断所述ACU值是否低于阈值？如果是，则继续下一步；如果否，则本流程结束；阈值可以根据实际业务需要而设置，例如设置为0.5；

步骤B2、为w₁、w₂分别设置初始值

并设定迭代次数n＝1，初始学习率learning_rate＝0.2％，Decay_Rate＝1；

步骤B3、计算策略、卷积神经网络和BERT文本分类模型在第n次迭代时的AUC总值：

其中，AUC₀是策略的ACU值，当k＝1时，

是卷积神经网络在第n次迭代时的融合权重，当k＝2时，

是BERT文本分类模型在第n次迭代时的融合权重；

步骤B4、计算

并根据Decay_rate计算第n+1次迭代时的融合权重：

其中，AUC-SUM-TOTALn^-1是策略、卷积神经网络和BERT文本分类模型在第n-1次迭代时的AUC总值，k＝1或2；

步骤B5、计算损失函数Loss＝AUC-SUM-TOTALⁿ-AUC-SUM-TOTAL^n-1，并判断Loss是否小于0.0001？如果是，则输出第n+1次迭代时的融合权重

所输出的融合权重即是调整后的w₁、w₂，本流程结束；如果否，则将n加1，然后转向步骤B3。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种自定义规则的多模型融合的不良呼叫识别方法，其特征在于，包括有：

2.根据权利要求1所述的方法，其特征在于，步骤二中，卷积神经网络的输入是用户在不同时间周期下的通话特征指标向量，输出是标识用户是否是疑似不良呼叫号码的标签信息；BERT文本分类模型的输入是投诉文本的词向量，输出是投诉文本属于不良呼叫的可疑度。

3.根据权利要求1所述的方法，其特征在于，步骤三中，根据策略包含的所有规则的计算式，为规则策略模型中的每条策略生成相应的递归计算表达式，进一步包括有：

4.根据权利要求3所述的方法，其特征在于，步骤32中，为每条策略构建对应的逻辑树，进一步包括有：

步骤321、设置z为1，根节点是当前节点；

步骤322、读取策略中的第z个字符，判断第z个字符是否是左括号，如果是，则为当前节点增加一个子节点，新增子节点成为当前节点，然后继续步骤326；如果否，则继续下一步；

步骤325、判断第z个字符是否是右括号，如果是，则回到当前节点的父节点，父节点成为当前节点，然后继续步骤326；如果否，则本流程结束；

步骤326、将z加1，然后转向步骤322。

5.根据权利要求1所述的方法，其特征在于，步骤三中，根据每条策略的模型融合方式和执行结果、卷积神经网络和BERT文本分类模型的输出结果，计算得到最终的不良呼叫识别结果，进一步包括有：

步骤A2、判断策略的模型融合方式type是否是0，如果是，则输出策略的执行结果，本流程结束。

6.根据权利要求5所述的方法，其特征在于，步骤A2中，当type不是0时，还包括有：

判断type是否是1，如果是，则使用加权投票法，计算、并输出最终的不良呼叫识别结果：

其中，

是最终的不良呼叫识别结果，y₀是策略的执行结果，w₀是策略的融合权重，w₁、w₂分别是卷积神经网络、BERT文本分类模型的融合权重，y₁、y₂分别是卷积神经网络、BERT文本分类模型的输出结果。

7.根据权利要求5所述的方法，其特征在于，步骤A2中，当type不是0时，还包括有：

判断type是否是2，如果是，则先将策略、卷积神经网络、BERT文本分类模型的特征向量分别和各自的融合权重相乘，再将和融合权重相乘后得到的特征向量以按行拼接Concat或者聚合Aggregate的方式来进行融合，以获得融合后的特征向量，同时构建一个分类器，然后将融合后的特征向量输入分类器，分类器的输出值即是最终的不良呼叫识别结果。

8.根据权利要求5所述的方法，其特征在于，步骤A2中，当type不是0时，还包括有：

判断type是否是3，如果是，则将策略、卷积神经网络、BERT文本分类模型的特征向量分别和各自的融合权重相乘，再将和融合权重相乘后得到的特征向量以两两拼接的方式来进行融合，以获得融合后的特征向量：x₀₁、x₀₂、x₁₂，其中，x₀₁、x₀₂、x₁₂分别表示将x₀和x₁、x₀和x₂、x₁和x₂拼接后获得的融合后的特征向量，同时为每个融合后的特征向量单独构建、并训练一个子分类器，将每个融合后的特征向量输入其对应的子分类器，然后将所有子分类器的分类结果、策略的执行结果、卷积神经网络和BERT文本分类模型的输出结果进行拼接，将拼接后的向量继续输入至第二层分类器，第二层分类器的输出结果即是最终的不良呼叫识别结果。

9.根据权利要求5所述的方法，其特征在于，步骤A1中，卷积神经网络、BERT文本分类模型的融合权重w₁、w₂采用线性拟合法计算获得，进一步包括有：

步骤A11、将相同样本分别输入至卷积神经网络、BERT文本分类模型，并获得卷积神经网络、BERT文本分类模型各自的AUC值：AUC₁、AUC₂；