CN113434691A

CN113434691A - 基于分类模拟模型提升短信触达率的方法及装置

Info

Publication number: CN113434691A
Application number: CN202110986162.7A
Authority: CN
Inventors: 陈帆; 其他发明人请求不公开姓名
Original assignee: Nanjing Shanmao Qidong Information Technology Co ltd
Current assignee: Nanjing Shanmao Qidong Information Technology Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2021-09-24
Anticipated expiration: 2041-08-26
Also published as: CN113434691B

Abstract

本发明公开了一种基于分类模拟模型提升短信触达率的方法及装置，属于人工智能领域。基于分类模拟模型提升短信触达率方法，包括：利用在真实的短信触达识别装置M0中得到带标签的二分类短信数据样本，训练分类模拟模型M1。在发送短信前，将短信文案输入到分类模拟模型M1中，如果预测短信可以触达用户，则直接发送短信。如果预测短信无法触达用户，则针对该分类模拟模型M1，进行对抗文本生成，当生成的对抗文本通过真实的短信触达识别装置识别为可以触达用户时，发送该短信。本发明充分利用文本分类模型和对抗文本技术的技术优势，提高短信触达率。

Description

基于分类模拟模型提升短信触达率的方法及装置

技术领域

本发明涉及人工智能领域，具体地说，涉及一种基于分类模拟模型的提升短信触达率的方法及装置。

背景技术

在短信运营过程中，会期望短信可以百分百触达用户，以达到预期的运营效果。但是实际的短信运营过程，总是有无法触达用户的情况发生，一旦遇到短信无法触达用户时，如何修改使其生成有效的文案保证短信的触达是需要解决的问题。

在人工智能领域中，机器学习模型擅长从数据中学习规律。对抗文本生成是根据已有的文本生成可以改变模型标签的相似文本，但由于语言本身特点，生成的对抗文本可能会改变整体语义，存在诸多不确定性。同时，真实的短信触达识别装置一般延时较长，如果针对真实的短信触达识别装置来进行对抗文本生成，在确定特征词汇以及生成对抗文本的过程中需要多次调用，无法实时获得可替换的特征词汇以及对抗文本。因此，如何跨越技术局限和满足现实需求，如何使用分类模拟模型和对抗文本生成技术提高短信触达率是急需解决的问题。

发明内容

为解决上述技术问题，本发明公开了一种基于分类模拟模型提升短信触达率的方法、装置及存储介质，通过分类模拟模型来拟合真实的短信触达识别装置，采用了分类模拟模型和对抗文本生成技术定位短信文本文案优化特征词汇，不断优化短信文案，最终提高短信触达率。

第一方面，本发明公开了一种基于分类模拟模型提升短信触达率的方法，包括以下步骤：

步骤（1）：将无标签的短信样本数据输入到真实的短信触达识别装置M0中，获得带二分类标签的短信样本数据D，对带二分类标签的短信样本数据D训练得到文本分类模拟模型M1；

步骤（2）：将预发送的短信文本，经过分词和去除停用词处理后，得到预处理短信文本序列X_org，将其输入到文本分类模拟模型M1中：

若模型预测结果M1(X_org)=0，则发送短信；

若模型预测结果M1(X_org)=1，则继续步骤（3）；

步骤（3）：将预处理短信文本序列X_org生成对抗文本序列X_adv；

步骤（4）：将对抗文本序列X_adv输入文本分类模拟模型M1中，使得M1(X_adv)=0，然后将对抗文本序列X_adv输入到真实的短信触达识别装置M0中：

若M0(X_adv)=0，则发送短信；

若M0(X_adv)=1，则返回步骤（3），直至真实的短信触达识别装置M0的预测结果为0时，发送短信。

进一步的技术方案，所述的带二分类标签的短信样本数据D=（X，Y），X={X₁，X₂，…，X_n}，Y={0，1}，其中，Y表示短信样本标签，Y=0表示短信可以触达用户，Y=1表示短信无法触达用户，X表示所有的短信样本数据，包含n条短信样本，每条短信样本数据可表示为X_i=[w₁，w₂，…，w_j…，w_m]，i∈[1，n]，j∈[1，m]，X_i表示每条短信文本数据的特征词汇序列，w_j表示短信文本中的特征词汇。

进一步的技术方案，所述的步骤（3）预处理短信文本序列X_org生成对抗文本序列X_adv的方法，包括以下步骤：

（31）固定信息抽取：对预处理短信文本序列X_org进行短信固定信息抽取，获取短信签名w_sig，同时进行短信内容中固定信息识别获得所有的固定信息词汇集合X_fix；

（32）确定影响因子集合：将预处理短信文本序列X_org过滤掉其中的固定信息词汇集合，得到可以替换的词汇序列X_replace=X_org-X_fix；遍历逐个删除可替换的词汇序列X_replace中的词汇，输入到文本分类模拟模型M1中进行预测；

X_org/w表示预处理短信文本序列X_org中删除了词汇w后的文本序列，当M1(X_org/w)=0时，则w为影响因子词汇，遍历结束，得到影响因子词汇集合：X_factor={w_fac1 ，w_fac2，…，w_fack}；

（33）构建同义词库：对步骤（2）的影响因子词汇集合X_factor中的每一词汇w_fack选择与其最相似的q个词汇，得到其同义词集合：

w_{fack_sim}={w_{fack_sim1}，w_{fack_sim2}， …，w_{fack_simp}，…， w_{fack_simq} }；

（34）生成对抗文本序列X_adv：

将预处理短信文本序列X_org中每个影响因子词汇w_fack逐个替换为其同义词W_{fack_simp}，然后依次输入到文本分类模拟模型M1中进行预测，依次遍历影响因子词汇集合X_factor，如果M1=0，即替换的同义词改变预测结果，则将该同义词替换预处理短信文本序列X_org中的影响因子词汇，即得到对抗文本序列X_adv。

进一步的技术方案，所述的短信内容中固定信息识别包括姓名w_name、地点w_loc、时间w_time、网址w_http、组织机构名w_orgz、车牌号码w_car、手机号码w_tele和身份证号码w_id；

所有的固定信息词汇集合X_fix为：

X_fix={w_sig，w_name，w_loc，w_time，w_http，w_orgz，w_car，w_tele，w_id}。

进一步的技术方案，所述的同义词是指根据词向量计算的相似词，所述词向量是基于大规模语料预训练得到的。

进一步的技术方案，所述的同义词集合中w_{fack_sim}中的词汇按照相似度从高到低的顺序排列。

进一步的技术方案，所述的步骤（34）中，依次遍历影响因子词汇集合X_factor的具体方法为：

将预处理短信文本序列X_org中影响因子词汇w_fack替换为其同义词W_{fack_simp}，然后输入到文本分类模拟模型M1中进行预测：

如果M1=0，即替换的同义词改变预测结果，则将该同义词替换预处理短信文本序列X_org中的影响因子词汇，即得到对抗文本序列X_adv；

若M1=1，即替换的同义词未改变预测结果，则将继续遍历，将影响因子词汇w_fack替换为下一个同义词；

如果该影响因子词汇X_fack的同义词遍历结束，依然未改变模型预测结果，则继续选择下一个影响因子词汇X_{fac k+1}进行同义词替换，直至M1(X_adv)=0，则将该同义词替换预处理短信文本序列X_org中的影响因子词汇，即得到对抗文本序列X_adv。

进一步的技术方案，所述步骤（4）中，若M0(X_adv)=0时，将此数据（X_adv，0）补充到带二分类标签的短信样本数据D=（X，Y）中。

所述的文本分类模拟模型M1是常用文本分类模型，包含基于统计的机器学习模型，比如SVM，决策树，贝叶斯分类器等，以及基于深度学习的分类模型比如CNN，RNN，LSTM或者基于BERT的分类模型。

第二方面，本申请提供一种基于分类模拟模型提升短信触达率的装置，该装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该所述计算机程序被所述处理器执行时，实现如本申请中的一个或多个所述的基于分类模拟模型提升短信触达率方法的步骤。

第三方面，本申请提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请中的一个或多个所述的基于分类模拟模型提升短信触达率方法的步骤。

有益效果

1）本发明通过训练分类模拟模型来捕捉短信数据中统计层面的信息，为短信是否可以触达用户提供了一种可以计算预测的方式。

2）本发明将训练的分类模拟模型作为对抗的模型，可以提供更加高效的对抗文本生成，在对抗文本生成阶段，无需高频调用真实的真实短信触达识别系统，因此避免了真实的短信触达识别系统较长的延时影响。

3）本发明在对抗文本生成过程中首先提取短信固定信息，然后定位影响因子词汇，并使用同义词替换，最大程度保持了原始短信语义，提高了生成对抗文本的可用性，最终大大提高了短信触达率。

4）本发明充分利用文本分类模型和对抗文本技术的技术优势，解决了现有技术中发送短信时，缺乏有益指导，导致短信触达率低的问题，本发明根据文本分类模型的统计信息，提供具体的短信文本优化内容和目标，避免关键短信的发送失败，大大提高了短信触达率。

附图说明

图1为本申请实施例中的基于分类模拟模型提升短信触达率的方法的流程示意图；

图2为本申请实施例中的基于同义词库的对抗文本生成的流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

如图1-2所示，本申请实施例提供一种基于分类模拟模型提升短信触达率的方法，包括以下步骤：

步骤（1）：将无标签的短信样本数据输入到真实的短信触达识别装置M0中，获得带二分类标签的短信样本数据D=(X，Y)，对带二分类标签的短信样本数据训练得到文本分类模拟模型M1；具体地说：

已知一个真实的短信触达识别装置记为M0，以及无标签的短信样本n条。将无标签的短信样本数据输入到真实的短信触达识别装置M0中得到带二分类标签的短信样本数据：D=（X，Y），X={X₁，X₂，…，X_n}，Y={0，1}，其中，Y表示短信样本标签，Y=0表示短信可以触达用户，Y=1表示短信无法触达用户，X表示所有的短信样本数据，包含n条短信样本，每条短信样本数据可表示为X_i=[w₁，w₂，…，w_j…，w_m]，i∈[1，n]，j∈[1，m]，X_i表示每条短信文本数据的特征词汇序列，w_j表示短信文本中的特征词汇。

文本分类模拟模型M1可以使用CNN文本分类模拟模型。用来拟合真实的短信触达识别系统，目的是使分类模拟模型的分类效果更加接近真实的短信触达识别系统，同时作为对抗文本生成的目标模型。

若模型预测结果M1(X_org)=0，则发送短信；

若模型预测结果M1(X_org)=1，则继续步骤（3）；

若M0(X_adv)=0，则发送短信，同时将此数据（X_adv，0）补充到带二分类标签的短信样本数据D=（X，Y）中，待累计一定数据量则可以进行分类模拟模型增量训练。

所述的步骤（3）预处理短信文本序列X_org生成对抗文本序列X_adv的方法，包括以下步骤：

（34）生成对抗文本序列X_adv：

依次遍历影响因子词汇集合X_factor的具体方法为：

所述的同义词是指根据词向量计算的相似词，所述词向量是基于大规模语料预训练得到的。所述的同义词集合中w_{fack_sim}中的词汇按照相似度从高到低的顺序排列。

以运营人员预发送的短信文案为例：

步骤（1）：将无标签的短信样本数据输入到真实的短信触达识别装置M0中，获得带二分类标签的短信样本数据D=(X，Y)，对带二分类标签的短信样本数据训练得到文本。

预发送的短信文案内容为：“【优爱妈妈】你的专属超值优惠券：好奇纸尿裤·国庆献礼，马上就要到期啦。我就提醒下，用不用你定，当前87%的VIP都已使用此券。回T退订”。

将上述短信文案进行hanlp分词，去停用词后，得到X_org如下所示：

X_org=[‘【’，‘优爱’，‘妈妈’，‘】’， ‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘献礼’，‘‘马上’，‘就要’，‘到期’，‘啦’，‘我’， ‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘VIP’，‘都’，‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’]

将上述X_org输入到文本分类模拟模型M1中，得到预测标签1，即M1(X_org)=1。

步骤（3）：将预处理短信文本序列X_org生成对抗文本序列X_adv，包括以下步骤：

（31）固定信息抽取：

对预处理短信文本序列X_org提取固定特征词汇X_fix，示例中固定信息为X_fix

{ ‘【’，‘优爱’，‘妈妈’，‘】’}

（32）确定影响因子集合：

计算可以替换的词汇序列X_replace=X_org-X_fix，则

X_replace={ ‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘献礼’，‘马上’，‘就要’，‘到期’，‘啦’，‘我’， ‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘VIP’，‘都’， ‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’}。

遍历该集合，逐个删除生成新的数据样本，记为X_org/w。

如果删除词汇‘你’，X_org/w=[‘【’，‘优爱’，‘妈妈’，‘】’ ，‘VIP’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘献礼’，‘马上’，‘就要’，‘到期’，‘啦’，‘我’， ‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘VIP’，‘都’，‘已’，‘使用’，‘此’， ‘券’，‘回T’，‘退订’]，删除后，将X_org/w输入到分类模拟模型

中，得到标签M1(X_org/w)=1，因此该词汇不是影响因子词汇。

如果删除词汇‘VIP’，X_org/w=[‘【’，‘优爱’，‘妈妈’，‘】’，‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘献礼’，‘马上’，‘就要’，‘到期’，‘啦’，‘我‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’，‘都‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’]，删除后，将X_org/w输入到分类模拟模型M1中，得到标签M1(X_org/w)=0，因此该词汇是影响因子词汇。

依次类推进行遍历计算，最终得到的影响因子词汇集合为：

X_factor={‘VIP’， ‘献礼’，‘优惠券’}

（33）构建同义词库：

‘VIP’同义词={‘SIPC'， ‘VVIP'，‘vip'， ‘会员'， ‘VIP室'， ‘座席'，‘白金卡'，‘付费'， ‘黄钻'， ‘SVIP'}

‘献礼’同义词={‘献礼片'， ‘献词'，‘周年'， ‘巨献'，‘建党'， ‘暨世界'，‘首映礼'， ‘筹备会议'， ‘庆典'，‘周年纪念'}

‘优惠券’同义词={‘优惠卷'，‘优惠'， ‘优惠活动'， ‘代金券'，‘券'， ‘优惠卡'，‘购物券'， ‘优惠价'， ‘优惠价格'，‘团购'}

（34）生成对抗文本序列X_adv：

首先依次遍历影响因子词汇集合X_factor，逐个将预处理短信文本序列X_org中影响因子词汇逐个替换为其相似词，直到分类模拟模型

的预测结果为0时，返回对抗文本序列 X_adv。

在本实施例中，影响因子词汇集合X_factor={‘VIP’， ‘献礼’，‘优惠券’}

中有三个词汇，因此有三轮遍历。

第一轮遍历：替换第一个影响因子词汇 ‘VIP’，将‘VIP’替换为‘SIPC’。

X_adv=[‘【’，‘优爱’，‘妈妈’，‘】’， ‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘献礼’，‘‘马上’，‘就要’，‘到期’，‘啦’，‘我’，‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘SIPC’，‘都‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’]，此时M1(X_adv)=1，继续循环。

将‘VIP’替换为‘VVIP’得到

X_adv=[‘【’，‘优爱’，‘妈妈’，‘】’， ‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘献礼’，‘马上’，‘就要’，‘到期’，‘啦’，‘我’，‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘VVIP’，‘都‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’]此时M1(X_adv)=1，继续循环。

依次进行替换，直到将‘VIP’替换为‘SVIP’时

得到

X_adv=[‘【’，‘优爱’，‘妈妈’，‘】’， ‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘献礼’，‘马上’，‘就要’，‘到期’，‘啦’，‘我’，‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘SVIP’，‘都’，‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’]

此时M1(X_adv)=1，‘VIP’的同义词库词汇遍历结束，开始影响因子词汇集合中第二个词遍历。

第二轮遍历：替换第二个影响因子词汇 ‘献礼’，将‘献礼’替换为‘献礼片’

此时M1(X_adv)=1，继续遍历，直到将‘献礼’替换为‘巨献’

X_adv=[‘【’，‘优爱’，‘妈妈’，‘】’， ‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘巨献’，‘马上’，‘就要’，‘到期’，‘啦’，‘我’，‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘SVIP’，‘都’，‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’]，此时M1(X_adv)=0，循环终止。

最终生成对抗文本序列：

X_adv=[‘【’，‘优爱’，‘妈妈’，‘】’， ‘你’，‘专属’，‘超值’，‘优惠券’，‘好奇’，‘纸尿裤’，‘国庆’，‘巨献’，‘马上’，‘就要’，‘到期’，‘啦’，‘我’， ‘就’，‘提醒’，‘下’，‘用’，‘不用’，‘你’，‘定’，‘当前’，‘87% ’， ‘SVIP’，‘都’， ‘已’，‘使用’，‘此’，‘券’，‘回T’，‘退订’。

X_adv相比X_org替换的影响因子同义词具体为：影响因子‘VIP’替换为其同义词“SVIP”，影响因子‘献礼’替换为其同义词“巨献”。

步骤（4）：将对抗文本序列X_adv输入到真实的短信触达识别装置M0中，M0(X_adv)=0，则发送短信，同时将此数据（X_adv，0）补充到带二分类标签的短信样本数据D=（X，Y）中。

需要注意的是分类模拟模型M1和真实短信识别装置M0的输入均为短信特征词汇序列，而实际发送短信时需要显示恢复的短信文案（含有最初的停用词和标点符号），以一种便于阅读的方式呈现。在本示例中，最终可以发送的短信文案如下所示：

“【优爱妈妈】你的专属超值优惠券：好奇纸尿裤·国庆巨献，马上就要到期啦。我就提醒下，用不用你定，当前87%的SVIP都已使用此券。回T退订”，文案中，加粗斜体表示替换的影响因子同义词。

实施例二

本申请提供一种基于分类模拟模型提升短信触达率的装置，该装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该所述计算机程序被所述处理器执行时，实现实施例一所述的方法。

应理解，本实施例中，存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器

指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。

实施例三

本申请提供一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现实施例一所述的方法。

存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的方法，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.基于分类模拟模型提升短信触达率的方法，其特征在于，包括以下步骤：

若模型预测结果M1(X_org)=0，则发送短信；

若模型预测结果M1(X_org)=1，则继续步骤（3）；

若M0(X_adv)=0，则发送短信；

2.根据权利要求1所述的基于分类模拟模型提升短信触达率的方法，其特征在于，

所述的带二分类标签的短信样本数据D=（X，Y），X={X₁，X₂，…，X_n}，Y={0，1}，其中，Y表示短信样本标签，Y=0表示短信可以触达用户，Y=1表示短信无法触达用户，X表示所有的短信样本数据，包含n条短信样本，每条短信样本数据可表示为X_i=[w₁，w₂，…，w_j…，w_m]，i∈[1，n]，j∈[1，m]，X_i表示每条短信文本数据的特征词汇序列，w_j表示短信文本中的特征词汇。

3.根据权利要求1所述的基于分类模拟模型提升短信触达率的方法，其特征在于，所述的步骤（3）预处理短信文本序列X_org生成对抗文本序列X_adv的方法，包括以下步骤：

（34）生成对抗文本序列X_adv：

4.根据权利要求3所述的基于分类模拟模型提升短信触达率的方法，其特征在于，所述的短信内容中固定信息识别包括姓名w_name、地点w_loc、时间w_time、网址w_http、组织机构名w_orgz、车牌号码w_car、手机号码w_tele和身份证号码w_id；

所有的固定信息词汇集合X_fix为：

5.根据权利要求3所述的基于分类模拟模型提升短信触达率的方法，其特征在于，所述的同义词是指根据词向量计算的相似词，所述词向量是基于大规模语料预训练得到的。

6.根据权利要求3所述的基于分类模拟模型提升短信触达率的方法，其特征在于，所述的同义词集合中w_{fack_sim}中的词汇按照相似度从高到低的顺序排列。

7.据权利要求3所述的基于分类模拟模型提升短信触达率的方法，其特征在于，

所述的步骤（34）中，依次遍历影响因子词汇集合X_factor的具体方法为：

8.根据权利要求1所述的基于分类模拟模型提升短信触达率的方法，其特征在于，所述步骤（4）中，若M0(X_adv)=0时，将此数据（X_adv，0）补充到带二分类标签的短信样本数据D=（X，Y）中。

9.基于分类模拟模型提升短信触达率的装置，其特征在于，包括：该装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，该所述计算机程序被所述处理器执行时，实现如权利要求1至8中任一项所述的基于分类模拟模型提升短信触达率方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的基于分类模拟模型提升短信触达率方法的步骤。