发明内容
本申请实施例提供了短信文本正则生成方法、装置、电子设备及存储介质。
根据本申请的第一方面,提供了一种短信文本正则生成方法,该方法包括:获取待处理短信文本;基于所述待处理短信文本,确定所述待处理短信文本中的特征词,所述特征词用于表征所述待处理短信文本的核心内容;基于所述特征词,生成所述待处理短信文本对应的短信文本正则。
根据本申请一实施方式,所述基于所述待处理短信文本,确定所述待处理短信文本中的特征词,包括:将所述待处理短信文本拆分为第一文本和第二文本;所述第一文本用于表征所述待处理短信文本中的短信签名;所述第二文本用于表征所述待处理短信文本中的短信正文;基于所述第一文本,确定所述第一文本中的第一特征词;基于所述第二文本,确定所述第二文本中的第二特征词。
根据本申请一实施方式,所述基于所述第二文本,确定所述第二文本中的第二特征词,包括:对所述第二文本进行分词处理,得到所述第二文本对应的分词词语,并将所述第二文本对应的分词词语存储至第二文本词合集;确定所述第二文本词合集中的变量文本;确定所述第二文本词合集中的无意义词;基于所述变量文本和所述无意义词,确定所述第二文本词合集中的候选特征词及所述候选特征词的词语权值;响应于所述候选特征词的词语权值满足预设的权重阈值,则确定所述候选特征词为所述第二特征词。
根据本申请一实施方式,所述确定所述第二文本词合集中的变量文本,包括:获取预设的变量文本合集,所述预设的变量文本合集包括候选变量文本;将所述第二文本词合集中的每个所述分词词语与每个所述候选变量文本进行匹配,确定每个所述分词词语与每个所述候选变量文本的第一匹配度;响应于所述第一匹配度满足预设的第一匹配度阈值,则将所述分词词语确定为所述变量文本。
根据本申请一实施方式,所述确定所述第二文本词合集中的无意义词,包括:获取预设的无意义词合集,所述预设的无意义词合集包括候选无意义词;将所述第二文本词合集中的每个所述分词词语与每个所述候选无意义词进行匹配,确定每个所述分词词语与每个所述候选无意义词的第二匹配度;响应于所述第二匹配度满足预设的第二匹配度阈值,则将所述分词词语确定为所述无意义词。
根据本申请一实施方式,所述基于所述特征词,生成所述待处理短信文本对应的短信文本正则,包括:基于所述第一特征词,以预设的固定格式生成所述第一文本对应的第一正则;基于所述变量文本、所述无意义词和所述第二特征词,确定所述第二文本对应的第二正则;根据所述待处理短信文本的字符顺序,将所述第一正则和所述第二正则组合,生成所述短信文本正则。
根据本申请一实施方式,所述基于所述特征词,生成所述待处理短信文本对应的短信文本正则之后,所述短信文本正则生成方法还包括:获取测试短信文本;确定所述短信文本正则与所述测试短信文本的匹配结果,所述匹配结果用于表征所述短信文本正则是否准确。
根据本申请一实施方式,所述确定所述短信文本正则与所述测试短信文本的匹配结果,包括:基于所述短信文本正则对所述测试短信文本进行解析,确定测试文本解析结果;基于所述测试文本解析结果和所述测试短信文本,确定所述短信文本正则的准确度;响应于所述准确度满足预设的准确度阈值,确定所述短信文本正则与所述测试短信文本匹配成功。
根据本申请的第二方面,提供了一种短信文本正则生成装置,该短信文本正则生成装置包括:获取模块,用于获取待处理短信文本;确定模块,用于基于所述待处理短信文本,确定所述待处理短信文本中的特征词,所述特征词用于表征所述待处理短信文本的核心内容;生成模块,用于基于所述特征词,生成所述待处理短信文本对应的短信文本正则。
根据本申请一实施方式,所述确定模块用于:将所述待处理短信文本拆分为第一文本和第二文本;所述第一文本用于表征所述待处理短信文本中的短信签名;所述第二文本用于表征所述待处理短信文本中的短信正文;基于所述第一文本,确定所述第一文本中的第一特征词;基于所述第二文本,确定所述第二文本中的第二特征词。
根据本申请一实施方式,所述确定模块用于:对所述第二文本进行分词处理,得到所述第二文本对应的分词词语,并将所述第二文本对应的分词词语存储至第二文本词合集;确定所述第二文本词合集中的变量文本;确定所述第二文本词合集中的无意义词;基于所述变量文本和所述无意义词,确定所述第二文本词合集中的候选特征词及所述候选特征词的词语权值;响应于所述候选特征词的词语权值满足预设的权重阈值,则确定所述候选特征词为所述第二特征词。
根据本申请一实施方式,所述确定模块用于:获取预设的变量文本合集,所述预设的变量文本合集包括候选变量文本;将所述第二文本词合集中的每个所述分词词语与每个所述候选变量文本进行匹配,确定每个所述分词词语与每个所述候选变量文本的第一匹配度;响应于所述第一匹配度满足预设的第一匹配度阈值,则将所述分词词语确定为所述变量文本。
根据本申请一实施方式,所述确定模块用于:获取预设的无意义词合集,所述预设的无意义词合集包括候选无意义词;将所述第二文本词合集中的每个所述分词词语与每个所述候选无意义词进行匹配,确定每个所述分词词语与每个所述候选无意义词的第二匹配度;响应于所述第二匹配度满足预设的第二匹配度阈值,则将所述分词词语确定为所述无意义词。
根据本申请一实施方式,所述生成模块用于:基于所述第一特征词,以预设的固定格式生成所述第一文本对应的第一正则;基于所述变量文本、所述无意义词和所述第二特征词,确定所述第二文本对应的第二正则;根据所述待处理短信文本的字符顺序,将所述第一正则和所述第二正则组合,生成所述短信文本正则。
根据本申请一实施方式,所述短信文本正则生成装置还包括验证模块,所述验证模块用于:获取测试短信文本;确定所述短信文本正则与所述测试短信文本的匹配结果,所述匹配结果用于表征所述短信文本正则是否准确。
根据本申请一实施方式,所述验证模块用于:基于所述短信文本正则对所述测试短信文本进行解析,确定测试文本解析结果;基于所述测试文本解析结果和所述测试短信文本,确定所述短信文本正则的准确度;响应于所述准确度满足预设的准确度阈值,确定所述短信文本正则与所述测试短信文本匹配成功。
根据本申请的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请所述的方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请所述的方法。
本申请实施例的方法,获取待处理短信文本;基于所述待处理短信文本,确定所述待处理短信文本中的特征词,所述特征词用于表征所述待处理短信文本的核心内容;基于所述特征词,生成所述待处理短信文本对应的短信文本正则。如此,能够智能地生成短信文本正则,提高了短信文本正则生成的精度和效率。
需要理解的是,本申请的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
相关技术中,已知的短信文本正则生成的技术方案,由于通过人工编写短信文本正则。相关技术在短信文本正则生成过程中需要的人工编写时间较长,且人工编写容易出现错误,进而出现短信文本正则生成的精度低和效率低的问题。
针对相关技术提供的上述短信文本正则生成方法,在短信文本正则生成过程中需要的人工编写时间较长,且人工编写容易出现错误,进而出现短信文本正则生成的精度低和效率低的问题,本申请实施例的方法,获取待处理短信文本;基于所述待处理短信文本,确定所述待处理短信文本中的特征词,所述特征词用于表征所述待处理短信文本的核心内容;基于所述特征词,生成所述待处理短信文本对应的短信文本正则。如此,能够智能地生成短信文本正则,自动根据短信文本生成对应的短信文本正则,无需人工编写正则,且能够自动检验生成的短信文本正则的准确性,减少了短信文本正则生成的工时,进而提高了短信文本正则生成的精度和效率。因此,与相关技术在短信文本正则生成过程中需要的人工编写时间较长,且人工编写容易出现错误,进而出现短信文本正则生成的精度低和效率低的问题相比,本申请的短信文本正则生成方法能够提高短信文本正则生成的精度和效率。
对本申请实施例提供的短信文本正则生成方法中的处理流程进行说明。参见图1,图1是本申请实施例提供的短信文本正则生成方法的处理流程示意图一,将结合图1示出的步骤S101-S103进行说明。
步骤S101,获取待处理短信文本。
在一些实施例中,待处理短信文本可以包括:短信文本模板。其中,短信文本模板可以包括:短信签名和短信正文。本申请实施例不限定具体的短信签名和具体的短信正文。
作为示例,待处理短信文本可以包括:【XXXX】尊敬的客户,您已成功充值50元,邀您领取有效期内10次1G流量,并有机会获得限量1-100元随机话费兑换券,点击(第一网址)领取,回复TD将不再接受此类信息。其中,短信签名可以包括:“【XXXX】”。短信正文可以包括:“尊敬的客户,您已成功充值50元,邀您领取有效期内10次1G流量,并有机会获得限量1-100元随机话费兑换券,点击(第一网址)领取,回复TD将不再接受此类信息。”
步骤S102,基于待处理短信文本,确定待处理短信文本中的特征词,特征词用于表征待处理短信文本的核心内容。
在一些实施例中,步骤S102可以包括:将待处理短信文本拆分为第一文本和第二文本;基于第一文本,确定第一文本中的第一特征词;基于第二文本,确定第二文本中的第二特征词。其中,第一文本用于表征待处理短信文本中的短信签名。第二文本用于表征待处理短信文本中的短信正文。第一特征词可以包括:短信签名的文本内容。第二特征词可以包括:表征短信正文的核心内容的词语。
作为示例,待处理短信文本可以包括:【XXXX】尊敬的客户,您已成功充值50元,邀您领取有效期内10次1G流量,并有机会获得限量1-100元随机话费兑换券,点击(第一网址)领取,回复TD将不再接受此类信息。其中,第一文本可以包括:“【XXXX】”。第二文本可以包括:“尊敬的客户,您已成功充值50元,邀您领取有效期内10次1G流量,并有机会获得限量1-100元随机话费兑换券,点击(第一网址)领取,回复TD将不再接受此类信息。”第一特征词可以包括:XXXX。第二特征词可以包括:领取、流量、话费、参与、赠送、回复和TD。
针对基于第二文本,确定第二文本中的第二特征词,在具体实施时,对第二文本进行分词处理,得到第二文本对应的分词词语,并将第二文本对应的分词词语存储至第二文本词合集;确定第二文本词合集中的变量文本;确定第二文本词合集中的无意义词;基于变量文本和无意义词,确定第二文本词合集中的候选特征词及候选特征词的词语权值;响应于候选特征词的词语权值满足预设的权重阈值,则确定候选特征词为第二特征词。
在一些实施例中,候选特征词可以包括:第二文本词合集中除变量文本和无意义词之外的分词词语。词语权值可以包括:词语的tf-idf(term frequency-inversedocument frequency,词频-逆文本频率指数)的值。预设的权重阈值可以包括:预先设定的能够确定候选特征词为第二特征词的最小词语权值。响应于候选特征词的词语权值大于或等于预设的权重阈值,则确定候选特征词的词语权值满足预设的权重阈值。
作为示例,预设的权重阈值为0.92。对短信正文进行分词处理,得到短信正文对应的词语1、词语2、词语3和词语4,并将词语1、词语2、词语3和词语4存储至第二文本词合集,然后确定第二文本词合集中的变量文本为词语3,确定第二文本词合集中的无意义词为词语2。确定第二文本词合集中除词语2和词语3之外的词语1和词语4为候选特征词。确定词语1的词语权值为0.8,确定词语4的词语权值为0.95。响应于词语4的词语权值0.95大于预设的权重阈值0.92,则确定词语4为第二特征词。
针对确定第二文本词合集中的变量文本,在具体实施时,获取预设的变量文本合集,预设的变量文本合集包括候选变量文本;将第二文本词合集中的每个分词词语与每个候选变量文本进行匹配,确定每个分词词语与每个候选变量文本的第一匹配度;响应于第一匹配度满足预设的第一匹配度阈值,则将分词词语确定为变量文本。
在一些实施例中,预设的变量文本合集可以包括:预先基于大量样本短信进行变量文本标注,统计出来的候选变量文本的集合。候选变量文本可以包括:数字+元、 [1-12]月和[1-31]日。候选变量文本还可以包括其他变量文本,本申请实施例不作限定。第一匹配度阈值可以包括:预先设定的能够将分词词语确定为变量文本的最小第一匹配度。响应于第一匹配度大于或等于预设的第一匹配度阈值,则确定第一匹配度满足预设的第一匹配度阈值。将分词词语确定为变量文本可以包括:将分词词语确定为满足预设的第一匹配度阈值的最大第一匹配度对应的变量文本。
作为示例,预设的第一匹配度阈值为0.94,预设的变量文本合集可以包括:变量文本1、变量文本2和变量文本3。第二文本词合集可以包括:分词词语a和分词词语b。将分词词语a和分词词语b分别与变量文本1、变量文本2和变量文本3进行匹配。确定分词词语a与变量文本1的第一匹配度为0.6,分词词语a与变量文本2的第一匹配度为0.1,分词词语a与变量文本3的第一匹配度为0.95,分词词语b与变量文本1的第一匹配度为0.2,分词词语b与变量文本2的第一匹配度为0.12,分词词语b与变量文本3的第一匹配度为0.4。分词词语a与变量文本3的第一匹配度为0.95大于预设的第一匹配度阈值0.94,将分词词语a确定为变量文本3。
针对确定第二文本词合集中的无意义词,在具体实施时,获取预设的无意义词合集,预设的无意义词合集包括候选无意义词;将第二文本词合集中的每个分词词语与每个候选无意义词进行匹配,确定每个分词词语与每个候选无意义词的第二匹配度;响应于第二匹配度满足预设的第二匹配度阈值,则将分词词语确定为无意义词。
在一些实施例中,预设的无意义词合集可以包括:预先基于大量样本短信进行无意义词标注,统计出来的候选无意义词的集合。候选无意义词可以包括:的、您、客户和邀请。候选无意义词还可以包括其他无意义词,本申请实施例不作限定。第二匹配度阈值可以包括:预先设定的能够将分词词语确定为无意义词的最小第二匹配度。响应于第二匹配度大于或等于预设的第二匹配度阈值,则确定第二匹配度满足预设的第二匹配度阈值。将分词词语确定为无意义词可以包括:将分词词语确定为满足预设的第二匹配度阈值的最大第二匹配度对应的无意义词。
作为示例,预设的第二匹配度阈值为0.94,预设的无意义词合集可以包括:无意义词1、无意义词2和无意义词3。第二文本词合集可以包括:分词词语a和分词词语b。将分词词语a和分词词语b分别与无意义词1、无意义词2和无意义词3进行匹配。确定分词词语a与无意义词1的第二匹配度为0.6,分词词语a与无意义词2的第二匹配度为0.99,分词词语a与无意义词3的第二匹配度为0.95,分词词语b与无意义词1的第二匹配度为0.2,分词词语b与无意义词2的第二匹配度为0.12,分词词语b与无意义词3的第二匹配度为0.4。分词词语a与无意义词2的第二匹配度为0.99大于预设的第二匹配度阈值0.94;分词词语a与无意义词3的第二匹配度为0.95大于预设的第二匹配度阈值0.94;分词词语a与无意义词2的第二匹配度0.99大于分词词语a与无意义词3的第二匹配度为0.95,将分词词语a确定为无意义词2。
步骤S103,基于特征词,生成待处理短信文本对应的短信文本正则。
在一些实施例中,步骤S103可以包括:基于第一特征词,以预设的固定格式生成第一文本对应的第一正则;基于变量文本、无意义词和第二特征词,确定第二文本对应的第二正则;根据待处理短信文本的字符顺序,将第一正则和第二正则组合,生成短信文本正则。其中,预设的固定格式可以包括:预先设定的签名正则的生成格式。第一正则可以包括:短信签名对应的签名正则。第二正则可以包括:短信正文对应的短信正文正则。其中,在短信正文正则中,第二特征词需要表达为包含关系。字符顺序可以包括:待处理短信文本包括的文字及标点的顺序。将第一正则和第二正则组合可以包括:对第一正则和第二正则进行字符转义,以使第一正则和第二正则组合。短信文本正则可以包括:签名正则和短信正文正则。
针对基于变量文本、无意义词和第二特征词,确定第二文本对应的第二正则,作为示例,第二文本A对应的变量文本、无意义词和第二特征词为:第二特征词1、无意义词1、第二特征词2、无意义词2、变量文本1、无意义词3和第二特征词3。按照变量文本、无意义词和第二特征词在第二文本中的顺序,将无意义词替换为连接正则,将变量文本替换为变量正则,生成第二文本A对应的第二正则为:“第二特征词1+(:.{2,10})+第二特征词2+(:.{2,10})+ [1]{0,1}[0-9]{1}月+(:.{2,10})+第二特征词3”。其中,“(:.{2,10})”为连接正则,“[1]{0,1}[0-9]{1}月”为变量文本1对应的变量正则。
在一些实施例中,在步骤S103之后,短信文本正则生成方法还可以包括:获取测试短信文本;确定短信文本正则与测试短信文本的匹配结果。其中,匹配结果用于表征短信文本正则是否准确。测试短信文本可以包括:N条短信文本,其中,N为正整数。本申请实施例不限定具体的短信文本数量。测试短信文本可以包括:短信签名和短信正文。
针对确定短信文本正则与测试短信文本的匹配结果,在具体实施时,基于短信文本正则对测试短信文本进行解析,确定测试文本解析结果;基于测试文本解析结果和测试短信文本,确定短信文本正则的准确度;响应于准确度满足预设的准确度阈值,确定短信文本正则与测试短信文本匹配成功。其中,测试文本解析结果可以包括:短信文本正则提取出的测试短信文本包括的部分文本。短信文本正则的准确度可以包括:测试文本解析结果正确对应的短信文本条数与测试短信文本包括的短信文本条数的比值。预设的准确度阈值可以包括:预先设定的能够确定短信文本正则与测试短信文本匹配成功的最小准确度。响应于准确度大于或等于预设的准确度阈值,确定准确度满足预设的准确度阈值。
作为示例,测试短信文本为10条短信文本,预设的准确度阈值为0.8,基于短信文本正则A分别对10条短信文本进行解析,确定每条短信文本对应的测试文本解析结果。基于每个测试文本解析结果和其对应的测试短信文本,确定10条短信文本中的9条短信文本分别对应的测试文本解析结果正确。则确定短信文本正则A的准确度为0.9。准确度0.9大于预设的准确度阈值0.8,确定短信文本正则A与测试短信文本匹配成功。短信文本正则A与测试短信文本匹配成功,匹配成功表征短信文本正则A准确。
在一些实施例中,对所述短信文本正则生成方法的处理流程示意图二,如图2所示,包括:
步骤S201,将待处理短信文本拆分为第一文本和第二文本。
步骤S202,基于第一文本,确定第一文本中的第一特征词。
在一些实施例中,步骤S202可以包括:将第一文本直接作为第一特征词。
步骤S203,基于第二文本,确定第二文本中的第二特征词。
针对步骤S201-S203的每个步骤的具体说明,与上述步骤S102相同,这里不再赘述。
在一些实施例中,对所述短信文本正则生成方法的处理流程示意图三,如图3所示,包括:
步骤S301,对第二文本进行分词处理,得到第二文本对应的分词词语,并将第二文本对应的分词词语存储至第二文本词合集。
步骤S302,确定第二文本词合集中的变量文本。
步骤S303,确定第二文本词合集中的无意义词。
步骤S304,基于变量文本和无意义词,确定第二文本词合集中的候选特征词及候选特征词的词语权值。
步骤S305,响应于候选特征词的词语权值满足预设的权重阈值,则确定候选特征词为第二特征词。
作为示例,针对步骤S304-S305,在具体实施时,预设的权重阈值为0.92。对短信正文进行分词处理,得到短信正文对应的词语1、词语2、词语3和词语4,并将词语1、词语2、词语3和词语4存储至第二文本词合集。确定第二文本词合集中不存在变量文本,确定第二文本词合集中的无意义词为词语2。确定第二文本词合集中除词语2之外的词语1、词语3和词语4为候选特征词。确定词语1的词语权值为0.8,确定词语3的词语权值为0.97,确定词语4的词语权值为0.95。响应于词语4的词语权值0.95大于预设的权重阈值0.92,词语3的词语权值0.97大于预设的权重阈值0.92,则确定词语3和词语4为第二特征词。
针对步骤S301-S305的每个步骤的具体说明,与上述步骤S102相同,这里不再赘述。
在一些实施例中,对所述短信文本正则生成方法的处理流程示意图四,如图4所示,包括:
步骤S401,获取预设的变量文本合集,预设的变量文本合集包括候选变量文本。
步骤S402,将第二文本词合集中的每个分词词语与每个候选变量文本进行匹配,确定每个分词词语与每个候选变量文本的第一匹配度。
步骤S403,响应于第一匹配度满足预设的第一匹配度阈值,则将分词词语确定为变量文本。
作为示例,针对步骤S401-S403,在具体实施时,预设的第一匹配度阈值为0.94,预设的变量文本合集可以包括:变量文本1、变量文本2和变量文本3。第二文本词合集可以包括:分词词语a和分词词语b。将分词词语a和分词词语b分别与变量文本1、变量文本2和变量文本3进行匹配。确定分词词语a与变量文本1的第一匹配度为0.6,分词词语a与变量文本2的第一匹配度为0.1,分词词语a与变量文本3的第一匹配度为0.15,分词词语b与变量文本1的第一匹配度为0.2,分词词语a与各个变量文本的第一匹配度均小于预设的第一匹配度阈值0.94;分词词语b与各个变量文本的第一匹配度均小于预设的第一匹配度阈值0.94,则确定第二文本词合集中不存在变量文本。
针对步骤S401-S403的每个步骤的具体说明,与上述步骤S102相同,这里不再赘述。
在一些实施例中,对所述短信文本正则生成方法的处理流程示意图五,如图5所示,包括:
步骤S501,获取预设的无意义词合集,预设的无意义词合集包括候选无意义词。
步骤S502,将第二文本词合集中的每个分词词语与每个候选无意义词进行匹配,确定每个分词词语与每个候选无意义词的第二匹配度。
步骤S503,响应于第二匹配度满足预设的第二匹配度阈值,则将分词词语确定为无意义词。
作为示例,针对步骤S501-S503,在具体实施时,预设的第二匹配度阈值为0.94,预设的无意义词合集可以包括:无意义词1、无意义词2和无意义词3。第二文本词合集可以包括:分词词语a和分词词语b。将分词词语a和分词词语b分别与无意义词1、无意义词2和无意义词3进行匹配。确定分词词语a与无意义词1的第二匹配度为0.6,分词词语a与无意义词2的第二匹配度为0.1,分词词语a与无意义词3的第二匹配度为0.2,分词词语b与无意义词1的第二匹配度为0.2,分词词语b与无意义词2的第二匹配度为0.12,分词词语b与无意义词3的第二匹配度为0.4。分词词语a与各个无意义词的第二匹配度均小于预设的第二匹配度阈值0.94;分词词语b与各个无意义词的第二匹配度均小于预设的第二匹配度阈值0.94,则确定第二文本词合集中不存在无意义词。
针对步骤S501-S503的每个步骤的具体说明,与上述步骤S102相同,这里不再赘述。
在一些实施例中,对所述短信文本正则生成方法的处理流程示意图六,如图6所示,包括:
步骤S601,基于第一特征词,以预设的固定格式生成第一文本对应的第一正则。
作为示例,针对步骤S601,在具体实施时,第一文本可以包括“【测试签名】”。第一特征词可以包括:“测试签名”。以预设的固定格式生成第一文本对应的第一正则可以包括:“^[【\[[](:测试签名)[】\]]]|[【\[[](:测试签名)[】\]]]$”。
步骤S602,基于变量文本、无意义词和第二特征词,确定第二文本对应的第二正则。
作为示例,针对步骤S602,在具体实施时,第二文本可以包括:“尊敬的客户,您已成功充值50元,邀您领取有效期内10次1G流量,并有机会获得限量1-100元随机话费兑换券,点击(第一网址)领取,回复TD将不再接受此类信息”。第二特征词可以包括:“领取”、“流量”、“话费”、“参与”、“赠送”、“回复”和“TD”。则第二文本对应的第二正则可以包括:“(:领取|流量|话费|参与|赠送)[\s\S]+(:回复|TD)”。
步骤S603,根据待处理短信文本的字符顺序,将第一正则和第二正则组合,生成短信文本正则。
步骤S604,获取测试短信文本。
步骤S605,基于短信文本正则对测试短信文本进行解析,确定测试文本解析结果。
步骤S606,基于测试文本解析结果和测试短信文本,确定短信文本正则的准确度。
步骤S607,响应于准确度满足预设的准确度阈值,确定短信文本正则与测试短信文本匹配成功。
针对步骤S601-S607的每个步骤的具体说明,与上述步骤S103相同,这里不再赘述。
图7示出了本申请实施例提供的短信文本正则生成方法的一种应用场景图。
参考图7,本申请实施例提供的短信文本正则生成方法的一种应用场景,应用于短信文本正则的生产。
短信文本正则的生产可以包括:输入文本、提取特征、生产正则和检验准确性。首先,输入文本可以包括:用户提交的短信文本模板。其中,短信文本模板可以包括短信签名和短信正文。本申请实施例不限定具体的短信签名和具体的短信正文。
提取特征可以包括:确定短信文本模板中的特征词,特征词用于表征短信文本模板的核心内容。首先,确定短信文本模板中的变量文本和无意义词。基于变量文本和无意义词,确定短信文本模板中的候选特征词及候选特征词的词语权值。再根据候选特征词的词语权值,从候选特征词中提取短信文本模板的特征词。其中,特征词可以包括短信签名对应的签名特征词和短信正文对应的正文特征词。
生产正则可以包括:基于签名特征词,以预设的固定格式生成短信签名对应的签名正则;基于变量文本、无意义词和正文特征词,确定短信正文对应的短信正文正则;根据短信文本模板的字符顺序,将签名正则和短信正文正则组合,生成短信文本正则并将短信文本正则存储至短信正则集合。其中,预设的固定格式可以包括:预先设定的签名正则的生成格式。在短信正文正则中,正文特征词需要表达为包含关系。字符顺序可以包括:短信文本模板包括的文字及标点的顺序。将签名正则和短信正文正则组合可以包括:对签名正则和短信正文正则进行字符转义,以使签名正则和短信正文正则组合。
检验准确性可以包括:从短信正则集合中读取已生产的短信文本正则;获取样本短信;将短信文本正则与样本短信进行匹配,确定样本短信解析结果;基于样本短信解析结果和样本短信,检验短信文本正则是否准确。其中,样本短信可以包括:N条短信文本,其中,N为正整数。本申请实施例不限定具体的短信文本数量。样本短信可以包括:短信签名和短信正文。
针对基于样本短信解析结果和样本短信,检验短信文本正则是否准确,在具体实施时,基于样本短信解析结果和样本短信,确定短信文本正则的准确度;响应于准确度满足预设的准确度阈值,确定短信文本正则与样本短信匹配成功,匹配成功表征短信文本正则准确。其中,样本短信解析结果可以包括:短信文本正则提取出的样本短信包括的部分文本。短信文本正则的准确度可以包括:样本短信解析结果正确对应的短信文本条数与样本短信包括的短信文本条数的比值。预设的准确度阈值可以包括:预先设定的能够确定短信文本正则与样本短信匹配成功的最小准确度。响应于准确度大于或等于预设的准确度阈值,确定准确度满足预设的准确度阈值。
可以理解,图7的短信文本正则生成方法的应用场景只是本申请实施例中的部分示例性的实施方式,本申请实施例中短信文本正则生成方法的应用场景包括但不限于图7所示的短信文本正则生成方法的应用场景。
图8示出了本申请实施例提供的短信文本正则生成方法的另一种应用场景图。
参考图8,本申请实施例提供的短信文本正则生成方法的另一种应用场景,应用于富媒体卡片解析。其中,短信文本可以包括:“【XXX】您好,您有一条信息待查收!快去登录领取惊喜吧!”通过短信文本正则生成方法,基于短信文本,确定短信文本中的特征词可以包括:XXX、您好和领取。其中,特征词用于表征短信文本的核心内容。然后,基于XXX、您好和领取,生成短信文本对应的短信文本正则。最后,通过生成的短信文本正则解析定位到这条短信文本,并将该短信文本解析为富媒体卡片。
可以理解,图8的短信文本正则生成方法的应用场景只是本申请实施例中的部分示例性的实施方式,本申请实施例中短信文本正则生成方法的应用场景包括但不限于图8所示的短信文本正则生成方法的应用场景。
本申请实施例的方法,将待处理短信文本拆分为第一文本和第二文本;基于第一文本,确定第一文本中的第一特征词;基于第二文本,确定第二文本中的第二特征词。如此,能够自动确定短信文本中的特征词,无需人工确定短信文本的特征词,提高了短信文本正则生成的精度和效率。本申请实施例的方法,对第二文本进行分词处理,得到第二文本对应的分词词语,并将第二文本对应的分词词语存储至第二文本词合集;确定第二文本词合集中的变量文本;确定第二文本词合集中的无意义词;基于变量文本和无意义词,确定第二文本词合集中的候选特征词及候选特征词的词语权值;响应于候选特征词的词语权值满足预设的权重阈值,则确定候选特征词为第二特征词。如此,能够自动确定短信文本中的无意义词和变量文本,以及自动根据无意义词和变量文本,确定短信文本中的特征词,无需人工确定短信文本的特征词,提高了短信文本正则生成的精度和效率。本申请实施例的方法,基于第一特征词,以预设的固定格式生成第一文本对应的第一正则;基于变量文本、无意义词和第二特征词,确定第二文本对应的第二正则;根据待处理短信文本的字符顺序,将第一正则和第二正则组合,生成短信文本正则。如此,能够自动根据短信文本包括的无意义词、变量文本和特征词,生成短信文本对应的短信文本正则,无需人工编写短信文本正则,提高了短信文本正则生成的精度和效率。本申请实施例的方法,获取测试短信文本;确定短信文本正则与测试短信文本的匹配结果,匹配结果用于表征短信文本正则是否准确。如此,能够自动校验生成的短信文本正则的准确性,保证了生成的短信文本正则能够正确将普通短信文本,解析为智能短信或富媒体卡片,进而提高了短信文本正则生成的精度和效率。
因此,与相关技术在短信文本正则生成过程中需要的人工编写时间较长,且人工编写容易出现错误,短信文本正则生成的精度低和效率低相比,本申请的短信文本正则生成方法能够提高短信文本正则生成的精度和效率。
下面继续说明本申请实施例提供的短信文本正则生成装置90的实施为软件模块的示例性结构,在一些实施例中,如图9所示,短信文本正则生成装置90中的软件模块可以包括:获取模块901,用于获取待处理短信文本;确定模块902,用于基于待处理短信文本,确定待处理短信文本中的特征词,特征词用于表征待处理短信文本的核心内容;生成模块903,用于基于特征词,生成待处理短信文本对应的短信文本正则。
在一些实施例中,确定模块902在基于待处理短信文本,确定待处理短信文本中的特征词的过程中,具体用于:将待处理短信文本拆分为第一文本和第二文本;第一文本用于表征待处理短信文本中的短信签名;第二文本用于表征待处理短信文本中的短信正文;基于第一文本,确定第一文本中的第一特征词;基于第二文本,确定第二文本中的第二特征词。
在一些实施例中,确定模块902在基于第二文本,确定第二文本中的第二特征词的过程中,具体用于:对第二文本进行分词处理,得到第二文本对应的分词词语,并将第二文本对应的分词词语存储至第二文本词合集;确定第二文本词合集中的变量文本;确定第二文本词合集中的无意义词;基于变量文本和无意义词,确定第二文本词合集中的候选特征词及候选特征词的词语权值;响应于候选特征词的词语权值满足预设的权重阈值,则确定候选特征词为第二特征词。
在一些实施例中,确定模块902在确定第二文本词合集中的变量文本的过程中,具体用于:获取预设的变量文本合集,预设的变量文本合集包括候选变量文本;将第二文本词合集中的每个分词词语与每个候选变量文本进行匹配,确定每个分词词语与每个候选变量文本的第一匹配度;响应于第一匹配度满足预设的第一匹配度阈值,则将分词词语确定为变量文本。
在一些实施例中,确定模块902在确定第二文本词合集中的无意义词的过程中,具体用于:获取预设的无意义词合集,预设的无意义词合集包括候选无意义词;将第二文本词合集中的每个分词词语与每个候选无意义词进行匹配,确定每个分词词语与每个候选无意义词的第二匹配度;响应于第二匹配度满足预设的第二匹配度阈值,则将分词词语确定为无意义词。
在一些实施例中,生成模块903在生成待处理短信文本对应的短信文本正则的过程中,具体用于:基于第一特征词,以预设的固定格式生成第一文本对应的第一正则;基于变量文本、无意义词和第二特征词,确定第二文本对应的第二正则;根据待处理短信文本的字符顺序,将第一正则和第二正则组合,生成短信文本正则。
在一些实施例中,短信文本正则生成装置90还可以包括验证模块904,验证模块904在生成待处理短信文本对应的短信文本正则的过程之后,具体用于:获取测试短信文本;确定短信文本正则与测试短信文本的匹配结果,匹配结果用于表征短信文本正则是否准确。
在一些实施例中,验证模块904在确定短信文本正则与测试短信文本的匹配结果的过程中,具体用于:基于短信文本正则对测试短信文本进行解析,确定测试文本解析结果;基于测试文本解析结果和测试短信文本,确定短信文本正则的准确度;响应于准确度满足预设的准确度阈值,确定短信文本正则与测试短信文本匹配成功。
需要说明的是,本申请实施例装置的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本申请实施例提供的短信文本正则生成装置中未尽的技术细节,可以根据图1至图9中任一附图的说明而理解。
根据本申请的实施例,本申请还提供了一种电子设备和一种非瞬时计算机可读存储介质。
图10示出了可以用来实施本申请的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如短信文本正则生成方法。例如,在一些实施例中,短信文本正则生成方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的短信文本正则生成方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行短信文本正则生成方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。