CN113434691A - 基于分类模拟模型提升短信触达率的方法及装置 - Google Patents
基于分类模拟模型提升短信触达率的方法及装置 Download PDFInfo
- Publication number
- CN113434691A CN113434691A CN202110986162.7A CN202110986162A CN113434691A CN 113434691 A CN113434691 A CN 113434691A CN 202110986162 A CN202110986162 A CN 202110986162A CN 113434691 A CN113434691 A CN 113434691A
- Authority
- CN
- China
- Prior art keywords
- short message
- text
- vocabulary
- org
- simulation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于分类模拟模型提升短信触达率的方法及装置,属于人工智能领域。基于分类模拟模型提升短信触达率方法,包括:利用在真实的短信触达识别装置M0中得到带标签的二分类短信数据样本,训练分类模拟模型M1。在发送短信前,将短信文案输入到分类模拟模型M1中,如果预测短信可以触达用户,则直接发送短信。如果预测短信无法触达用户,则针对该分类模拟模型M1,进行对抗文本生成,当生成的对抗文本通过真实的短信触达识别装置识别为可以触达用户时,发送该短信。本发明充分利用文本分类模型和对抗文本技术的技术优势,提高短信触达率。
Description
技术领域
本发明涉及人工智能领域,具体地说,涉及一种基于分类模拟模型的提升短信触达率的方法及装置。
背景技术
在短信运营过程中,会期望短信可以百分百触达用户,以达到预期的运营效果。但是实际的短信运营过程,总是有无法触达用户的情况发生,一旦遇到短信无法触达用户时,如何修改使其生成有效的文案保证短信的触达是需要解决的问题。
在人工智能领域中,机器学习模型擅长从数据中学习规律。对抗文本生成是根据已有的文本生成可以改变模型标签的相似文本,但由于语言本身特点,生成的对抗文本可能会改变整体语义,存在诸多不确定性。同时,真实的短信触达识别装置一般延时较长,如果针对真实的短信触达识别装置来进行对抗文本生成,在确定特征词汇以及生成对抗文本的过程中需要多次调用,无法实时获得可替换的特征词汇以及对抗文本。因此,如何跨越技术局限和满足现实需求,如何使用分类模拟模型和对抗文本生成技术提高短信触达率是急需解决的问题。
发明内容
为解决上述技术问题,本发明公开了一种基于分类模拟模型提升短信触达率的方法、装置及存储介质,通过分类模拟模型来拟合真实的短信触达识别装置,采用了分类模拟模型和对抗文本生成技术定位短信文本文案优化特征词汇,不断优化短信文案,最终提高短信触达率。
第一方面,本发明公开了一种基于分类模拟模型提升短信触达率的方法,包括以下步骤:
步骤(1):将无标签的短信样本数据输入到真实的短信触达识别装置M0中,获得带二分类标签的短信样本数据D,对带二分类标签的短信样本数据D训练得到文本分类模拟模型M1;
步骤(2):将预发送的短信文本,经过分词和去除停用词处理后,得到预处理短信文本序列Xorg,将其输入到文本分类模拟模型M1中:
若模型预测结果M1(Xorg)=0,则发送短信;
若模型预测结果M1(Xorg)=1,则继续步骤(3);
步骤(3):将预处理短信文本序列Xorg生成对抗文本序列Xadv;
步骤(4):将对抗文本序列Xadv输入文本分类模拟模型M1中,使得M1(Xadv)=0,然后将对抗文本序列Xadv输入到真实的短信触达识别装置M0中:
若M0(Xadv)=0,则发送短信;
若M0(Xadv)=1,则返回步骤(3),直至真实的短信触达识别装置M0的预测结果为0时,发送短信。
进一步的技术方案,所述的带二分类标签的短信样本数据D=(X,Y),X={X1,X2,…,Xn},Y={0,1},其中,Y表示短信样本标签,Y=0表示短信可以触达用户,Y=1表示短信无法触达用户,X表示所有的短信样本数据,包含n条短信样本,每条短信样本数据可表示为Xi=[w1,w2,…,wj…,wm ],i∈[1,n],j∈[1,m],Xi表示每条短信文本数据的特征词汇序列,wj表示短信文本中的特征词汇。
进一步的技术方案,所述的步骤(3)预处理短信文本序列Xorg生成对抗文本序列Xadv的方法,包括以下步骤:
(31)固定信息抽取:对预处理短信文本序列Xorg进行短信固定信息抽取,获取短信签名wsig,同时进行短信内容中固定信息识别获得所有的固定信息词汇集合Xfix;
(32)确定影响因子集合:将预处理短信文本序列Xorg过滤掉其中的固定信息词汇集合,得到可以替换的词汇序列Xreplace=Xorg-Xfix;遍历逐个删除可替换的词汇序列Xreplace中的词汇,输入到文本分类模拟模型M1中进行预测;
Xorg/w表示预处理短信文本序列Xorg中删除了词汇w后的文本序列,当M1(Xorg/w)=0时,则w为影响因子词汇,遍历结束,得到影响因子词汇集合:Xfactor={wfac1 ,wfac2,…,wfack};
(33)构建同义词库:对步骤(2)的影响因子词汇集合Xfactor中的每一词汇wfack选择与其最相似的q个词汇,得到其同义词集合:
wfack_sim={wfack_sim1,wfack_sim2, …,wfack_simp,…, wfack_simq };
(34)生成对抗文本序列Xadv:
将预处理短信文本序列Xorg中每个影响因子词汇wfack逐个替换为其同义词Wfack_simp,然后依次输入到文本分类模拟模型M1中进行预测,依次遍历影响因子词汇集合Xfactor,如果M1=0,即替换的同义词改变预测结果,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv。
进一步的技术方案,所述的短信内容中固定信息识别包括姓名wname、地点wloc、时间wtime、网址whttp、组织机构名worgz、车牌号码wcar、手机号码wtele和身份证号码wid;
所有的固定信息词汇集合Xfix为:
Xfix={wsig,wname,wloc,wtime,whttp,worgz,wcar,wtele,wid}。
进一步的技术方案,所述的同义词是指根据词向量计算的相似词,所述词向量是基于大规模语料预训练得到的。
进一步的技术方案,所述的同义词集合中wfack_sim中的词汇按照相似度从高到低的顺序排列。
进一步的技术方案,所述的步骤(34)中,依次遍历影响因子词汇集合Xfactor的具体方法为:
将预处理短信文本序列Xorg中影响因子词汇wfack替换为其同义词Wfack_simp,然后输入到文本分类模拟模型M1中进行预测:
如果M1=0,即替换的同义词改变预测结果,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv;
若M1=1,即替换的同义词未改变预测结果,则将继续遍历,将影响因子词汇wfack替换为下一个同义词;
如果该影响因子词汇Xfack的同义词遍历结束,依然未改变模型预测结果,则继续选择下一个影响因子词汇Xfac k+1进行同义词替换,直至M1(Xadv)=0,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv。
进一步的技术方案,所述步骤(4)中,若M0(Xadv)=0时,将此数据(Xadv,0)补充到带二分类标签的短信样本数据D=(X,Y)中。
所述的文本分类模拟模型M1是常用文本分类模型,包含基于统计的机器学习模型,比如SVM,决策树,贝叶斯分类器等,以及基于深度学习的分类模型比如CNN,RNN,LSTM或者基于BERT的分类模型。
第二方面,本申请提供一种基于分类模拟模型提升短信触达率的装置,该装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现如本申请中的一个或多个所述的基于分类模拟模型提升短信触达率方法的步骤。
第三方面,本申请提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如本申请中的一个或多个所述的基于分类模拟模型提升短信触达率方法的步骤。
有益效果
1)本发明通过训练分类模拟模型来捕捉短信数据中统计层面的信息,为短信是否可以触达用户提供了一种可以计算预测的方式。
2)本发明将训练的分类模拟模型作为对抗的模型,可以提供更加高效的对抗文本生成,在对抗文本生成阶段,无需高频调用真实的真实短信触达识别系统,因此避免了真实的短信触达识别系统较长的延时影响。
3)本发明在对抗文本生成过程中首先提取短信固定信息,然后定位影响因子词汇,并使用同义词替换,最大程度保持了原始短信语义,提高了生成对抗文本的可用性,最终大大提高了短信触达率。
4)本发明充分利用文本分类模型和对抗文本技术的技术优势,解决了现有技术中发送短信时,缺乏有益指导,导致短信触达率低的问题,本发明根据文本分类模型的统计信息,提供具体的短信文本优化内容和目标,避免关键短信的发送失败,大大提高了短信触达率。
附图说明
图1为本申请实施例中的基于分类模拟模型提升短信触达率的方法的流程示意图;
图2为本申请实施例中的基于同义词库的对抗文本生成的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
如图1-2所示,本申请实施例提供一种基于分类模拟模型提升短信触达率的方法,包括以下步骤:
步骤(1):将无标签的短信样本数据输入到真实的短信触达识别装置M0中,获得带二分类标签的短信样本数据D=(X,Y),对带二分类标签的短信样本数据训练得到文本分类模拟模型M1;具体地说:
已知一个真实的短信触达识别装置记为M0,以及无标签的短信样本n条。将无标签的短信样本数据输入到真实的短信触达识别装置M0中得到带二分类标签的短信样本数据:D=(X,Y),X={X1,X2,…,Xn},Y={0,1},其中,Y表示短信样本标签,Y=0表示短信可以触达用户,Y=1表示短信无法触达用户,X表示所有的短信样本数据,包含n条短信样本,每条短信样本数据可表示为Xi=[w1,w2,…,wj…,wm ],i∈[1,n],j∈[1,m],Xi表示每条短信文本数据的特征词汇序列,wj表示短信文本中的特征词汇。
文本分类模拟模型M1可以使用CNN文本分类模拟模型。用来拟合真实的短信触达识别系统,目的是使分类模拟模型的分类效果更加接近真实的短信触达识别系统,同时作为对抗文本生成的目标模型。
步骤(2):将预发送的短信文本,经过分词和去除停用词处理后,得到预处理短信文本序列Xorg,将其输入到文本分类模拟模型M1中:
若模型预测结果M1(Xorg)=0,则发送短信;
若模型预测结果M1(Xorg)=1,则继续步骤(3);
步骤(3):将预处理短信文本序列Xorg生成对抗文本序列Xadv;
步骤(4):将对抗文本序列Xadv输入文本分类模拟模型M1中,使得M1(Xadv)=0,然后将对抗文本序列Xadv输入到真实的短信触达识别装置M0中:
若M0(Xadv)=0,则发送短信,同时将此数据(Xadv,0)补充到带二分类标签的短信样本数据D=(X,Y)中,待累计一定数据量则可以进行分类模拟模型增量训练。
若M0(Xadv)=1,则返回步骤(3),直至真实的短信触达识别装置M0的预测结果为0时,发送短信。
所述的步骤(3)预处理短信文本序列Xorg生成对抗文本序列Xadv的方法,包括以下步骤:
(31)固定信息抽取:对预处理短信文本序列Xorg进行短信固定信息抽取,获取短信签名wsig,同时进行短信内容中固定信息识别获得所有的固定信息词汇集合Xfix;
(32)确定影响因子集合:将预处理短信文本序列Xorg过滤掉其中的固定信息词汇集合,得到可以替换的词汇序列Xreplace=Xorg-Xfix;遍历逐个删除可替换的词汇序列Xreplace中的词汇,输入到文本分类模拟模型M1中进行预测;
Xorg/w表示预处理短信文本序列Xorg中删除了词汇w后的文本序列,当M1(Xorg/w)=0时,则w为影响因子词汇,遍历结束,得到影响因子词汇集合:Xfactor={wfac1 ,wfac2,…,wfack};
(33)构建同义词库:对步骤(2)的影响因子词汇集合Xfactor中的每一词汇wfack选择与其最相似的q个词汇,得到其同义词集合:
wfack_sim={wfack_sim1,wfack_sim2, …,wfack_simp,…, wfack_simq };
(34)生成对抗文本序列Xadv:
将预处理短信文本序列Xorg中每个影响因子词汇wfack逐个替换为其同义词Wfack_simp,然后依次输入到文本分类模拟模型M1中进行预测,依次遍历影响因子词汇集合Xfactor,如果M1=0,即替换的同义词改变预测结果,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv。
依次遍历影响因子词汇集合Xfactor的具体方法为:
将预处理短信文本序列Xorg中影响因子词汇wfack替换为其同义词Wfack_simp,然后输入到文本分类模拟模型M1中进行预测:
如果M1=0,即替换的同义词改变预测结果,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv;
若M1=1,即替换的同义词未改变预测结果,则将继续遍历,将影响因子词汇wfack替换为下一个同义词;
如果该影响因子词汇Xfack的同义词遍历结束,依然未改变模型预测结果,则继续选择下一个影响因子词汇Xfac k+1进行同义词替换,直至M1(Xadv)=0,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv。
所述的同义词是指根据词向量计算的相似词,所述词向量是基于大规模语料预训练得到的。所述的同义词集合中wfack_sim中的词汇按照相似度从高到低的顺序排列。
以运营人员预发送的短信文案为例:
步骤(1):将无标签的短信样本数据输入到真实的短信触达识别装置M0中,获得带二分类标签的短信样本数据D=(X,Y),对带二分类标签的短信样本数据训练得到文本。
步骤(2):将预发送的短信文本,经过分词和去除停用词处理后,得到预处理短信文本序列Xorg,将其输入到文本分类模拟模型M1中:
预发送的短信文案内容为:“【优爱妈妈】你的专属超值优惠券:好奇纸尿裤·国庆献礼,马上就要到期啦。我就提醒下,用不用你定,当前87%的VIP都已使用此券。回T退订”。
将上述短信文案进行hanlp分词,去停用词后,得到Xorg如下所示:
Xorg=[‘【’,‘优爱’,‘妈妈’,‘】’, ‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘献礼’,‘‘马上’,‘就要’,‘到期’,‘啦’,‘我’, ‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘VIP’,‘都’,‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’]
将上述Xorg输入到文本分类模拟模型M1中,得到预测标签1,即M1(Xorg)=1。
步骤(3):将预处理短信文本序列Xorg生成对抗文本序列Xadv,包括以下步骤:
(31)固定信息抽取:
(32)确定影响因子集合:
计算可以替换的词汇序列Xreplace=Xorg-Xfix,则
Xreplace={ ‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘献礼’,‘马上’,‘就要’,‘到期’,‘啦’,‘我’, ‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘VIP’,‘都’, ‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’}。
遍历该集合,逐个删除生成新的数据样本,记为Xorg/w。
如果删除词汇‘你’,Xorg/w=[‘【’,‘优爱’,‘妈妈’,‘】’ ,‘VIP’,‘专属’,‘超值’,‘优
惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘献礼’,‘马上’,‘就要’,‘到期’,‘啦’,‘我’, ‘就’,‘提
醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘VIP’,‘都’,‘已’,‘使用’,‘此’,
‘券’,‘回T’,‘退订’],删除后,将Xorg/w输入到分类模拟模型中,得到标签M1(Xorg/w)=1,因
此该词汇不是影响因子词汇。
如果删除词汇‘VIP’,Xorg/w=[‘【’,‘优爱’,‘妈妈’,‘】’,‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘献礼’,‘马上’,‘就要’,‘到期’,‘啦’,‘我‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’,‘都‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’],删除后,将Xorg/w输入到分类模拟模型M1中,得到标签M1(Xorg/w)=0,因此该词汇是影响因子词汇。
依次类推进行遍历计算,最终得到的影响因子词汇集合为:
Xfactor={‘VIP’, ‘献礼’,‘优惠券’}
(33)构建同义词库:
‘VIP’同义词={‘SIPC', ‘VVIP',‘vip', ‘会员', ‘VIP室', ‘座席',‘白金卡',‘付费', ‘黄钻', ‘SVIP'}
‘献礼’同义词={‘献礼片', ‘献词',‘周年', ‘巨献',‘建党', ‘暨世界',‘首映礼', ‘筹备会议', ‘庆典',‘周年纪念'}
‘优惠券’同义词={‘优惠卷',‘优惠', ‘优惠活动', ‘代金券',‘券', ‘优惠卡',‘购物券', ‘优惠价', ‘优惠价格',‘团购'}
(34)生成对抗文本序列Xadv:
在本实施例中,影响因子词汇集合Xfactor={‘VIP’, ‘献礼’,‘优惠券’}
中有三个词汇,因此有三轮遍历。
第一轮遍历:替换第一个影响因子词汇 ‘VIP’,将‘VIP’替换为‘SIPC’。
Xadv=[‘【’,‘优爱’,‘妈妈’,‘】’, ‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘献礼’,‘‘马上’,‘就要’,‘到期’,‘啦’,‘我’,‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘SIPC’,‘都‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’],此时M1(Xadv)=1,继续循环。
将‘VIP’替换为‘VVIP’得到
Xadv=[‘【’,‘优爱’,‘妈妈’,‘】’, ‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘献礼’,‘马上’,‘就要’,‘到期’,‘啦’,‘我’,‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘VVIP’,‘都‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’]此时M1(Xadv)=1,继续循环。
Xadv=[‘【’,‘优爱’,‘妈妈’,‘】’, ‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘献礼’,‘马上’,‘就要’,‘到期’,‘啦’,‘我’,‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘SVIP’,‘都’,‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’]
此时M1(Xadv)=1,‘VIP’的同义词库词汇遍历结束,开始影响因子词汇集合中第二个词遍历。
第二轮遍历:替换第二个影响因子词汇 ‘献礼’,将‘献礼’替换为‘献礼片’
此时M1(Xadv)=1,继续遍历,直到将‘献礼’替换为‘巨献’
Xadv=[‘【’,‘优爱’,‘妈妈’,‘】’, ‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘巨献’,‘马上’,‘就要’,‘到期’,‘啦’,‘我’,‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘SVIP’,‘都’,‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’],此时M1(Xadv)=0,循环终止。
最终生成对抗文本序列:
Xadv=[‘【’,‘优爱’,‘妈妈’,‘】’, ‘你’,‘专属’,‘超值’,‘优惠券’,‘好奇’,‘纸尿裤’,‘国庆’,‘巨献’,‘马上’,‘就要’,‘到期’,‘啦’,‘我’, ‘就’,‘提醒’,‘下’,‘用’,‘不用’,‘你’,‘定’,‘当前’,‘87% ’, ‘SVIP’,‘都’, ‘已’,‘使用’,‘此’,‘券’,‘回T’,‘退订’。
Xadv相比Xorg替换的影响因子同义词具体为:影响因子‘VIP’替换为其同义词“SVIP”,影响因子‘献礼’替换为其同义词“巨献”。
步骤(4):将对抗文本序列Xadv输入到真实的短信触达识别装置M0中,M0(Xadv)=0,则发送短信,同时将此数据(Xadv,0)补充到带二分类标签的短信样本数据D=(X,Y)中。
需要注意的是分类模拟模型M1和真实短信识别装置M0的输入均为短信特征词汇序列,而实际发送短信时需要显示恢复的短信文案(含有最初的停用词和标点符号),以一种便于阅读的方式呈现。在本示例中,最终可以发送的短信文案如下所示:
“【优爱妈妈】你的专属超值优惠券:好奇纸尿裤·国庆巨献,马上就要到期啦。我就提醒下,用不用你定,当前87%的SVIP都已使用此券。回T退订”,文案中,加粗斜体表示替换的影响因子同义词。
实施例二
本申请提供一种基于分类模拟模型提升短信触达率的装置,该装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现实施例一所述的方法。
应理解,本实施例中,存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器
指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。
实施例三
本申请提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现实施例一所述的方法。
存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的方法,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (10)
1.基于分类模拟模型提升短信触达率的方法,其特征在于,包括以下步骤:
步骤(1):将无标签的短信样本数据输入到真实的短信触达识别装置M0中,获得带二分类标签的短信样本数据D,对带二分类标签的短信样本数据D训练得到文本分类模拟模型M1;
步骤(2):将预发送的短信文本,经过分词和去除停用词处理后,得到预处理短信文本序列Xorg,将其输入到文本分类模拟模型M1中:
若模型预测结果M1(Xorg)=0,则发送短信;
若模型预测结果M1(Xorg)=1,则继续步骤(3);
步骤(3):将预处理短信文本序列Xorg生成对抗文本序列Xadv;
步骤(4):将对抗文本序列Xadv输入文本分类模拟模型M1中,使得M1(Xadv)=0,然后将对抗文本序列Xadv输入到真实的短信触达识别装置M0中:
若M0(Xadv)=0,则发送短信;
若M0(Xadv)=1,则返回步骤(3),直至真实的短信触达识别装置M0的预测结果为0时,发送短信。
2.根据权利要求1所述的基于分类模拟模型提升短信触达率的方法,其特征在于,
所述的带二分类标签的短信样本数据D=(X,Y),X={X1,X2,…,Xn},Y={0,1},其中,Y表示短信样本标签,Y=0表示短信可以触达用户,Y=1表示短信无法触达用户,X表示所有的短信样本数据,包含n条短信样本,每条短信样本数据可表示为Xi=[w1,w2,…,wj…,wm ],i∈[1,n],j∈[1,m],Xi表示每条短信文本数据的特征词汇序列,wj表示短信文本中的特征词汇。
3.根据权利要求1所述的基于分类模拟模型提升短信触达率的方法,其特征在于,所述的步骤(3)预处理短信文本序列Xorg生成对抗文本序列Xadv的方法,包括以下步骤:
(31)固定信息抽取:对预处理短信文本序列Xorg进行短信固定信息抽取,获取短信签名wsig,同时进行短信内容中固定信息识别获得所有的固定信息词汇集合Xfix;
(32)确定影响因子集合:将预处理短信文本序列Xorg过滤掉其中的固定信息词汇集合,得到可以替换的词汇序列Xreplace=Xorg-Xfix;遍历逐个删除可替换的词汇序列Xreplace中的词汇,输入到文本分类模拟模型M1中进行预测;
Xorg/w表示预处理短信文本序列Xorg中删除了词汇w后的文本序列,当M1(Xorg/w)=0时,则w为影响因子词汇,遍历结束,得到影响因子词汇集合:Xfactor={wfac1 ,wfac2,…,wfack};
(33)构建同义词库:对步骤(2)的影响因子词汇集合Xfactor中的每一词汇wfack选择与其最相似的q个词汇,得到其同义词集合:
wfack_sim={wfack_sim1,wfack_sim2, …,wfack_simp,…, wfack_simq };
(34)生成对抗文本序列Xadv:
将预处理短信文本序列Xorg中每个影响因子词汇wfack逐个替换为其同义词Wfack_simp,然后依次输入到文本分类模拟模型M1中进行预测,依次遍历影响因子词汇集合Xfactor,如果M1=0,即替换的同义词改变预测结果,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv。
4.根据权利要求3所述的基于分类模拟模型提升短信触达率的方法,其特征在于,所述的短信内容中固定信息识别包括姓名wname、地点wloc、时间wtime、网址whttp、组织机构名worgz、车牌号码wcar、手机号码wtele和身份证号码wid;
所有的固定信息词汇集合Xfix为:
Xfix={wsig,wname,wloc,wtime,whttp,worgz,wcar,wtele,wid}。
5.根据权利要求3所述的基于分类模拟模型提升短信触达率的方法,其特征在于,所述的同义词是指根据词向量计算的相似词,所述词向量是基于大规模语料预训练得到的。
6.根据权利要求3所述的基于分类模拟模型提升短信触达率的方法,其特征在于,所述的同义词集合中wfack_sim中的词汇按照相似度从高到低的顺序排列。
7.据权利要求3所述的基于分类模拟模型提升短信触达率的方法,其特征在于,
所述的步骤(34)中,依次遍历影响因子词汇集合Xfactor的具体方法为:
将预处理短信文本序列Xorg中影响因子词汇wfack替换为其同义词Wfack_simp,然后输入到文本分类模拟模型M1中进行预测:
如果M1=0,即替换的同义词改变预测结果,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv;
若M1=1,即替换的同义词未改变预测结果,则将继续遍历,将影响因子词汇wfack替换为下一个同义词;
如果该影响因子词汇Xfack的同义词遍历结束,依然未改变模型预测结果,则继续选择下一个影响因子词汇Xfac k+1进行同义词替换,直至M1(Xadv)=0,则将该同义词替换预处理短信文本序列Xorg中的影响因子词汇,即得到对抗文本序列Xadv。
8.根据权利要求1所述的基于分类模拟模型提升短信触达率的方法,其特征在于,所述步骤(4)中,若M0(Xadv)=0时,将此数据(Xadv,0)补充到带二分类标签的短信样本数据D=(X,Y)中。
9.基于分类模拟模型提升短信触达率的装置,其特征在于,包括:该装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,该所述计算机程序被所述处理器执行时,实现如权利要求1至8中任一项所述的基于分类模拟模型提升短信触达率方法的步骤。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任一项所述的基于分类模拟模型提升短信触达率方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986162.7A CN113434691B (zh) | 2021-08-26 | 2021-08-26 | 基于分类模拟模型提升短信触达率的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110986162.7A CN113434691B (zh) | 2021-08-26 | 2021-08-26 | 基于分类模拟模型提升短信触达率的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113434691A true CN113434691A (zh) | 2021-09-24 |
CN113434691B CN113434691B (zh) | 2021-11-19 |
Family
ID=77798021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110986162.7A Active CN113434691B (zh) | 2021-08-26 | 2021-08-26 | 基于分类模拟模型提升短信触达率的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113434691B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116709224A (zh) * | 2023-08-09 | 2023-09-05 | 深圳博瑞天下科技有限公司 | 一种提升智能消息触达率的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294725A1 (en) * | 2007-05-22 | 2008-11-27 | Eun Young Kim | Method and system for supporting simulated-exercise in cyber space using message |
US20110310794A1 (en) * | 2010-06-17 | 2011-12-22 | Ke-Chi Jang | Methods of providing pages including calling party number using a tunneling protocol |
CN111416683A (zh) * | 2020-03-31 | 2020-07-14 | 上海大学 | 一种基于构造式对抗样本的隐蔽通信方法 |
CN111506710A (zh) * | 2020-07-01 | 2020-08-07 | 平安国际智慧城市科技股份有限公司 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
-
2021
- 2021-08-26 CN CN202110986162.7A patent/CN113434691B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080294725A1 (en) * | 2007-05-22 | 2008-11-27 | Eun Young Kim | Method and system for supporting simulated-exercise in cyber space using message |
US20110310794A1 (en) * | 2010-06-17 | 2011-12-22 | Ke-Chi Jang | Methods of providing pages including calling party number using a tunneling protocol |
CN111416683A (zh) * | 2020-03-31 | 2020-07-14 | 上海大学 | 一种基于构造式对抗样本的隐蔽通信方法 |
CN111506710A (zh) * | 2020-07-01 | 2020-08-07 | 平安国际智慧城市科技股份有限公司 | 基于谣言预测模型的信息发送方法、装置和计算机设备 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116709224A (zh) * | 2023-08-09 | 2023-09-05 | 深圳博瑞天下科技有限公司 | 一种提升智能消息触达率的方法和装置 |
CN116709224B (zh) * | 2023-08-09 | 2023-11-17 | 深圳博瑞天下科技有限公司 | 一种提升智能消息触达率的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113434691B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3122638C (en) | Methods, devices and systems for data augmentation to improve fraud detection | |
US10380236B1 (en) | Machine learning system for annotating unstructured text | |
CN107622050A (zh) | 基于Bi‑LSTM和CRF的文本序列标注系统及方法 | |
CN110929025B (zh) | 垃圾文本的识别方法、装置、计算设备及可读存储介质 | |
CN105095210A (zh) | 一种筛选推广关键词的方法和装置 | |
CN108764915B (zh) | 模型训练方法、数据类型识别方法和计算机设备 | |
CN107797989A (zh) | 企业名称识别方法、电子设备及计算机可读存储介质 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
US20210073257A1 (en) | Logical document structure identification | |
CN112395421B (zh) | 课程标签的生成方法、装置、计算机设备及介质 | |
CN113434691B (zh) | 基于分类模拟模型提升短信触达率的方法及装置 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
CN115392237A (zh) | 情感分析模型训练方法、装置、设备及存储介质 | |
CN113887202A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN112905787B (zh) | 文本信息处理方法、短信处理方法、电子设备及可读介质 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
US20230134354A1 (en) | Database integration operations using attention-based encoder-decoder machine learning models | |
CN112115258B (zh) | 一种用户的信用评价方法、装置、服务器及存储介质 | |
Rahman et al. | Multilingual Program Code Classification Using $ n $-Layered Bi-LSTM Model With Optimized Hyperparameters | |
Álvaro et al. | Page segmentation of structured documents using 2d stochastic context-free grammars | |
US11948378B2 (en) | Machine learning techniques for determining predicted similarity scores for input sequences | |
CN117436457B (zh) | 反讽识别方法、装置、计算设备及存储介质 | |
CN114238574B (zh) | 基于人工智能的意图识别方法及其相关设备 | |
Rodriguez et al. | RoMa at HAHA-2021: Deep Reinforcement Learning to Improve a Transformed-based Model for Humor Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |