发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别装置、系统和相应的广告营销类语言信息的处理方法。
依据本发明的一个方面,提供了广告营销类语言信息的处理方法,该方法包括:
接收语言信息;
调用预先设置的语言信息分类模型,所述语言信息分类模型能够识别出不同类型的广告营销类语言信息;
根据所述语言信息分类模型对所述接收到的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息;
根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;
确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
优选地,所述根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括:
读取所述接收端用户将垃圾短信恢复为正常短信的记录,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。
优选地,所述根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括:
读取所述接收端用户的历史语言信息,基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。
优选地,所述根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括:
读取所述接收端用户的历史上网记录,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求度是否满足预置条件。
优选地,预先设置所述语言信息分类模型包括:
按照预先设置的广告营销类语言信息分类策略,对收集的广告营销类语言信息进行分类,得到不同类型的广告营销类语言信息,并依据每一类型的广告营销类语言信息生成对应的子分类特征词库;
利用预先设置的文本分类模型,对子分类特征词库以及预先生成的垃圾特征词库进行训练,构建用于将语言信息分类为正常语言信息以及能够识别出不同类型广告营销类的语言信息分类模型。
优选地,所述文本分类模型包括:朴素贝叶斯分类模型、支持向量机分类模型、最大熵分类模型中的一种或其任意组合。
优选地,所述文本分类模型为多个时,每一文本分类模型对应一语言信息分类模型,所述方法进一步包括:
基于预先设置的测试指标,对得到的每一语言信息分类模型进行测试,选取测试结果最佳的语言信息分类模型。
优选地,所述基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度包括:
利用存储的语言信息分类模型,对读取的历史语言信息进行分类标识;
统计标识的广告营销类语言信息在预先设置的各时间段内的占比,得到第一信息;
统计标识的所述某一类型的广告营销类的语言信息,计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比,得到第二信息;
将所述第一信息以及第二信息应用于预先设置的用户对广告营销类语言信息喜好度计算公式,得到用户对所述某一类型的广告营销类的喜好度。
优选地,所述统计标识的广告营销类语言信息在预先设置的各时间段内的占比的公式为:
式中,PTi(Ad)为标识的广告营销类语言信息在第i时间段内的占比;
NTi(Ad)为标识的广告营销类语言信息在第i时间段内的数量;
NTi为语言信息在第i时间段内的数量。
优选地,所述计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比的公式为:
式中,PTi(Adj)为第j个类型的广告营销类语言信息在第i时间段内的占比;
NTi(Adj)为第j个类型的广告营销类语言信息在第i时间段内的语言信息数量;
n为广告营销类的类型数量。
优选地,所述用户对广告营销类语言信息喜好度计算公式为:
UASP(Adj)=αPT0(Ad)PT0(Adj)+βPT1(Ad)PT1(Adj)+γPT2(Ad)PT2(Adj)
式中,UASP(Adj)用户对第j个类型的广告营销类语言信息的喜好度;
α为第一时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子;
β为第二时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子;
γ为第三时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子;
α+β+γ=1。
优选地,进一步包括:
确定不满足预置条件的类型的广告营销类语言信息为该接收端用户不需要的语言信息,按照垃圾信息的处理办法处理。
优选地,所述按照垃圾信息的处理办法处理包括:
阻止所述接收端用户不需要的语言信息以正常系统通知渠道通知用户、屏蔽所述接收端用户不需要的语言信息在原软件或系统的信息查看列表中的展示、定期或立即删除、收集至垃圾信息存储地址中。
根据本发明的另一个方面提供了一种广告营销类语言信息识别装置,包括:模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块,其中,
模型存储模块,用于预先存储语言信息分类模型,所述语言信息分类模型能够识别出不同类型的广告营销类语言信息;
语言信息分类模块,用于接收语言信息,调用模型存储模块存储的语言信息分类模型,根据所述语言信息分类模型对所述接收到的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息,通知用户行为查询模块;
用户行为查询模块,用于接收通知,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;
广告营销类处理模块,用于确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
优选地,所述模型存储模块进一步用于按照预先设置的周期,向服务器发送更新请求,根据服务器返回的语言信息分类模型,对存储的语言信息分类模型进行更新。
优选地,所述用户行为查询模块包括:用户行为查询单元以及广告营销类语言信息喜好度处理单元,其中,
用户行为查询单元,用于接收通知,读取所述接收端用户的历史语言信息;
广告营销类语言信息喜好度处理单元,用于基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。
优选地,所述广告营销类语言信息喜好度处理单元包括:分类标识子单元、第一占比统计子单元、第二占比统计子单元、计算子单元以及处理子单元,其中,
分类标识子单元,用于接收通知,读取历史语言信息,利用模型存储模块存储的语言信息分类共享模型,对读取的历史语言信息进行分类标识;
第一占比统计子单元,用于统计标识的广告营销类语言信息在预先设置的各时间段内的占比,输出至计算子单元;
第二占比统计子单元,用于统计标识的广告营销类语言信息下不同类型的语言信息,计算各不同类型的语言信息分别在预先设置的各时间段内的占比,输出至计算子单元;
计算子单元,用于将接收的信息应用于预先设置的计算公式,将计算得到的用户对广告营销类语言信息喜好度信息输出至处理子单元;
处理子单元,用于判断接收的用户对广告营销类语言信息喜好度是否不大于预先设置的喜好度阈值,如果是,删除接收的语言信息,否则,提示用户收到新语言信息。
根据本发明的再一个方面提供了一种语言信息识别系统,包括:服务器以及客户端,其中,
服务器,用于根据收集的违法诈骗语言信息生成垃圾语言信息语料库,对生成的垃圾语言信息语料库进行标注;按照预先设置的广告营销类语言信息分类策略,对收集的广告营销类语言信息进行分类,并依据分类语言信息生成对应的分类语料库,分别对生成的分类语料库进行标注;
提取标注的垃圾语言信息语料库中的特征词,生成垃圾特征词库,提取标注的分类语料库中的特征词,生成分类特征词库;
利用预先设置的文本分类模型,对生成的垃圾特征词库以及分类特征词库进行训练,构建能够识别出不同类型的广告营销类语言信息的语言信息分类共享模型,下发至客户端;
客户端,用于调用预先设置的语言信息分类模型对接收的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息;根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
优选地,所述服务器包括:垃圾语言信息语料库标注模块、分类语料库模块、垃圾特征词库模块、特征词库模块以及模型构建模块,其中,
垃圾语言信息语料库标注模块,用于根据收集的违法诈骗语言信息生成垃圾语言信息语料库,对生成的垃圾语言信息语料库进行标注;
分类语料库模块,用于按照预先设置的广告营销类语言信息分类策略,对收集的广告营销类语言信息进行分类,并依据分类语言信息生成对应的分类语料库,分别对生成的分类语料库进行标注;
垃圾特征词库模块,用于提取标注的垃圾语言信息语料库中的特征词,生成垃圾特征词库;
特征词库模块,用于提取标注的分类语料库中的特征词,生成特征词库;
模型构建模块,用于利用预先设置的文本分类模型,对生成的垃圾特征词库以及特征词库进行训练,构建用于将语言信息分类为正常语言信息、分类语言信息以及违法诈骗语言信息的语言信息分类模型,下发至客户端。
优选地,所述客户端包括:模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块,其中,
模型存储模块,用于预先存储语言信息分类模型,所述语言信息分类模型能够识别出不同类型的广告营销类语言信息;
语言信息分类模块,用于接收语言信息,调用模型存储模块存储的语言信息分类模型,根据所述语言信息分类模型对所述接收到的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息,通知用户行为查询模块;
用户行为查询模块,用于接收通知,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;
广告营销类处理模块,用于确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
根据本发明的广告营销类语言信息的处理方法、识别装置及系统,可以在客户端预先设置能够识别不同类型的广告营销类语言信息的语言信息分类模型,通过语言信息分类模型识别出接收的语言信息为某一类型的广告营销类语言信息,根据接收端用户的历史行为数据,判断接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。由此解决了现有构建的垃圾SMS分类共享模型不能满足用户个性化的业务需求的技术问题,取得了用户可以差异化的接收和处理广告营销类语言信息,提升用户的业务体验,实现基于用户差异识别垃圾语言信息的目的;同时,也保障了合法投放广告营销类语言信息的运营商及商家的利益的有益效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
现有的垃圾语言信息识别方法,基于垃圾SMS以及机器学习的算法构建垃圾SMS分类共享模型,构建的垃圾SMS分类共享模型按照统一的规则将确定为垃圾SMS进行丢弃,并未考虑不同客户端用户之间的差异,因而,不能满足用户个性化的业务需求,从而降低了用户的业务体验。
本发明实施例中,基于不同客户端用户之间差异的分析,在服务器端构建垃圾SMS分类共享模型时,将广告营销类SMS从垃圾SMS分离出来,并设置广告营销类SMS下的各二级分类,但与正常SMS处理不同,在构建的垃圾SMS分类共享模型中,将对分离的广告营销类SMS下的各二级分类进行处理的规则由客户端设置;而在客户端接收到服务器下发的垃圾SMS分类共享模型后,可以基于个性化需求(历史SMS),设置对分离的广告营销类SMS下的各二级分类处理的规则,从而通过服务器的共享设置和客户端个性化的设置相结合的方法,实现垃圾SMS的识别,满足用户个性化的业务需求,提升用户的业务体验。
所应说明的是,上述示例以及下述的实施例中,仅仅是以SMS为例说明语言信息的处理方法。实际应用中,语言信息包括但不限于SMS、网络信息微信、微博、QQ留言,即对广告营销类SMS的处理方法、识别装置及系统,同样适用于广告营销类网络信息微信、微博、QQ留言。
图2示出了根据本发明一个实施例的广告营销类语言信息识别方法流程。参见图2,该流程包括:
步骤201,服务器按照预先设置的广告营销类SMS分类策略,对收集的广告营销类SMS进行二级分类,并依据二级分类SMS生成对应的二级特征词库;
本步骤具体包括:根据收集的违法诈骗SMS生成垃圾SMS语料库,对生成的垃圾SMS语料库进行标注;按照预先设置的广告营销类SMS分类策略,对收集的广告营销类SMS进行二级分类,即将收集的广告营销类SMS分类为不同类型的广告营销类SMS,并依据二级分类SMS生成对应的二级分类语料库,分别对生成的二级分类语料库进行标注。
本步骤中,SMS包括:正常SMS、广告营销类SMS以及违法诈骗SMS。其中,广告营销类SMS以及违法诈骗SMS组成现有技术中的垃圾SMS即违法诈骗SMS为除广告营销类SMS和正常SMS之外的SMS。本发明实施例中,为了能够考虑不同用户的个性化业务需求以及广告营销类SMS类别多样,不同的用户对不同类别的广告营销类SMS的敏感度差异较大,需要对广告营销类SMS进行分类标注,以使后续能够更加精确地匹配用户个性化的需求。即对广告营销类SMS按照预先设置的广告营销类SMS分类策略进行二级分类,并将收集的广告营销类SMS分类到各二级分类中,每一二级分类的广告营销类SMS对应一二级分类语料库。
本发明实施例中,通过对大量广告营销类SMS的统计、分析及归类,预先设置的广告营销类SMS分类策略可以设置为将广告营销类SMS分类为20个二级分类,分别为:(1)服装内衣二级分类、(2)鞋包配饰二级分类、(3)珠宝手表二级分类、(4)手机数码二级分类、(5)家用电器二级分类、(6)护肤美妆二级分类、(7)母婴用品二级分类、(8)家居建材二级分类、(9)美食特产二级分类、(10)电商百货二级分类、(11)汽车摩托二级分类、(12)文化娱乐二级分类、(13)运动健身二级分类、(14)医疗保险二级分类、(15)生活服务二级分类、(16)金融二级分类、(17)房产二级分类、(18)运营商二级分类、(19)教育二级分类以及(20)其它二级分类。这样,相对应地,广告营销类SMS语料库中包含有20个二级分类语料库。当然,实际应用中,广告营销类SMS分类策略也可以根据实际业务需要进行设置,例如,可以对上述20个二级分类进行合并或扩展,或重新设计二级分类。
在构建分类模型之前,需要进行机器学习模型的训练,本发明实施例中,通过在服务器端收集大量的SMS,并通过人工的方式对收集的SMS进行识别,从而识别出正常SMS、广告营销类SMS下的各二级分类以及违法诈骗SMS以进行后续的学习训练。
实际应用中,为了使后续构建的垃圾SMS分类共享模型更为精确,进一步地,该方法还可以包括:
根据收集的正常SMS生成正常SMS语料库,对生成的正常SMS语料库进行标注。
步骤202,提取标注的垃圾SMS语料库中的特征词,生成垃圾特征词库,提取标注的二级分类语料库中的特征词,生成二级特征词库;
本步骤中,对标注的垃圾SMS语料库进行运算,从而得到垃圾SMS语料库中的特征词,置入垃圾特征词库中;对标注的各二级分类语料库分别进行运算,得到每一二级分类语料库中的特征词,置入相应的二级特征词库中,每一二级分类语料库对应一二级特征词库。
本发明实施例中,采用IG算法对标注的垃圾SMS语料库以及二级分类语料库进行特征词提取。
如前所述,如果还包含有标注的正常SMS语料库,则提取标注的正常SMS语料库中的特征词,置入正常特征词库中。垃圾特征词库、二级特征词库以及正常特征词库构成特征词库。
步骤203,利用预先设置的文本分类模型,对生成的垃圾特征词库以及二级特征词库进行训练,构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型;
本步骤包括:
利用预先设置的文本分类模型,对生成的垃圾特征词库进行训练,得到违法诈骗SMS子模型;
利用预先设置的文本分类模型,依序对生成的多个二级特征词库进行训练,得到相应的二级分类子模型;
本步骤中,每一二级特征词库对应一二级分类子模型,所有的二级分类子模型组成广告营销类SMS子模型。
基于得到的违法诈骗SMS子模型以及多个二级分类子模型,构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型。其中,二级分类SMS可以是广告营销类下并列的一个或多个子分类,即垃圾SMS分类共享模型能够识别出不同类型的广告营销类SMS。
本发明实施例中,对应于SMS,语言信息分类模型为垃圾SMS分类共享模型。
实际应用中,还可以利用预先设置的文本分类模型,对生成的垃圾特征词库以及二级特征词库进行综合训练,从而得到本发明实施例的垃圾SMS分类共享模型。关于利用文本分类模型进行训练以及基于得到的子模型构建垃圾SMS分类共享模型,为公知技术,在此略去详述。
如前所述,特征词库中还包含有正常特征词库,则进一步利用预先设置的文本分类模型,对正常特征词库进行训练,得到正常SMS子模型,将得到的违法诈骗SMS子模型、正常SMS子模型以及广告营销类SMS子模型进行合并,从而构建垃圾SMS分类共享模型。
本发明实施例中,文本分类模型包括:朴素贝叶斯(NB,NaiveBayes)分类模型、和/或,支持向量机(SVM,Support Vector Machine)分类模型、和/或,最大熵(ME,MaxEntropy)分类模型等。
本发明实施例中,当预先设置的文本分类模型为多个时,得到的垃圾SMS分类共享模型为多个,而实际应用中,只需向客户端下发一个垃圾SMS分类共享模型即可。因而,该方法还可以进一步包括:
基于预先设置的测试指标,对得到的每一垃圾SMS分类共享模型进行测试,选取测试结果最佳的垃圾SMS分类共享模型。
本步骤中,经过每一文本分类模型的训练,可以得到相应的垃圾SMS分类共享模型,即每一文本分类模型对应一垃圾SMS分类共享模型。例如,如果多个文本分类模型分别为NB分类模型、SVM分类模型、以及ME分类模型,则通过NB分类模型对特征词库(包括垃圾特征词库、二级特征词库以及正常特征词库)进行训练后,得到NB垃圾SMS分类共享模型,通过SVM分类模型对特征词库进行训练后,得到SVM垃圾SMS分类共享模型,通过ME分类模型对特征词库进行训练后,得到ME垃圾SMS分类共享模型。
测试指标包括召回率(Recall)、准确率(Precision)等。在依据各文本分类模型进行训练得到相应的垃圾SMS分类共享模型后,使用各垃圾SMS分类共享模型对未知类别的SMS进行是否为违法诈骗SMS的判定,从而从NB垃圾SMS分类共享模型、SVM垃圾SMS分类共享模型以及ME垃圾SMS分类共享模型中,选取符合测试指标且测试结果最佳的垃圾SMS分类共享模型。
步骤204,将构建的垃圾SMS分类共享模型下发至客户端;
步骤201至步骤204为垃圾语言信息识别方法中的服务器建立垃圾SMS分类共享模型流程。在服务器完成垃圾SMS分类共享模型选取后,将选取的垃圾SMS分类共享模型下发到客户端上以进行后续的垃圾语言信息识别。即客户端调用预先设置的语言信息分类模型(垃圾SMS分类共享模型),根据调用的语言信息分类模型对接收到的语言信息(SMS)进行类型识别,识别出接收到的语言信息为某一类型的广告营销类语言信息;根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。其中,可以读取所述接收端用户的历史语言信息,基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;也可以,读取所述接收端用户的历史上网记录,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求度是否满足预置条件。历史上网记录包括:浏览过所述某一类型的广告营销类的SMS或网页、和/或,通过网络查询过所述某一类型的广告营销类、和/或,从垃圾箱中将所述某一类型的广告营销类SMS放回收件箱。具体来说,包括:
步骤205,客户端调用存储的垃圾SMS分类共享模型对接收的SMS进行分类,在确定接收的SMS为二级分类SMS后,查询到客户端在预先设置的第一时间段内,不具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录,读取历史SMS;
本步骤中,在确定接收的SMS为二级分类SMS后,可以根据接收端用户的历史行为数据,判断接收端用户对该二级分类SMS的需求是否满足预置条件。本发明实施例中,将不具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录作为预置条件之一。对于确定为二级分类SMS的SMS,需要结合客户端的个性化需求作进一步的处理,以确定其是正常SMS还是垃圾SMS。
该方法进一步包括:
如果确定接收的SMS为正常SMS,提示用户收到新SMS;如果确定接收的SMS为违法诈骗SMS,删除接收的SMS。
该方法还可以进一步包括:
查询到客户端在预先设置的时间段内,具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录,提示用户收到新SMS。
步骤206,基于读取的历史SMS计算用户对广告营销类短消息喜好度(UASP,UserAdvertisement SMS Preference),确定计算的用户对广告营销类短消息喜好度不大于预先设置的喜好度阈值,识别接收的SMS为垃圾SMS。
本步骤中,基于读取的历史SMS计算用户对广告营销类语言信息喜好度包括:
B11,客户端利用存储的垃圾SMS分类共享模型,对读取的历史SMS进行分类标识;
本步骤中,客户端将接收的垃圾SMS分类共享模型进行存储后,利用该垃圾SMS分类共享模型,对接收的每一历史SMS进行分类分析,确定是正常SMS、广告营销类SMS还是违法诈骗SMS,并标识分类的历史SMS。例如,确定历史SMS为广告营销类SMS,则为该历史SMS贴上广告营销类SMS标签。
后续应用中,当客户端接收到新的SMS,利用存储的垃圾SMS分类共享模型对接收的SMS进行分类分析,标识经过分类分析的SMS,即通过垃圾SMS分类共享模型获取标签,并将标识的SMS存储至预先设置的用户SMS时间轴中。
本发明实施例中,客户端按预先设置的用户SMS时间轴的方式记录接收的历史SMS。
图3示出了根据本发明一个实施例的用户SMS时间轴。参见图3,用户SMS时间轴包含的段数可根据实际需要设置。本发明实施例中,将用户SMS时间轴划分为3段,第一段用户SMS时间轴为时间段T0,即前述的预先设置的第一时间段,可以为当天;第二段用户SMS时间轴为时间段T1,为当天前的k天;第三段用户SMS时间轴为时间段T2,为当天前的第k天前的时间段。较佳地,k=7。
客户端接收的SMS按照设置的用户SMS时间轴进行存储并动态更新。例如,对于第i天接收的SMS,存储到第一段用户SMS时间轴对应的第一段存储器中,则在第(i+1)天时,自动将第一段存储器中存储的第i天的SMS剪切至第二段用户SMS时间轴对应的第二段存储器中。
B12,统计标识的广告营销类SMS在预先设置的各时间段内的占比;
本步骤中,对应于用户SMS时间轴,预先设置的各时间段包括:第一时间段(T0)、第二时间段(T1)以及第三时间段(T2)。
标识的广告营销类SMS在预先设置的各时间段内的占比计算公式为:
式中,PTi(Ad)为标识的广告营销类SMS在第i时间段内的占比,即在第i段用户SMS时间轴上的占比;本发明实施例中,i=1,2,3。
NTi(Ad)为标识的广告营销类SMS在第i时间段内的数量;
NTi为SMS在第i时间段内的数量。
本发明实施例中,标识的广告营销类SMS在用户SMS时间轴上各时间段内的占比反映了用户对广告营销类SMS的敏感程度,即在各时间段内用户对广告营销类SMS的敏感情况。
B13,统计标识的并与接收的SMS为同一二级分类的广告营销类SMS,计算该二级分类SMS分别在预先设置的各时间段内的占比。
本步骤中,在每一时间段内,统计标识的广告营销类SMS下的各二级分类SMS,计算广告营销类SMS中各二级分类(其它二级分类除外)SMS在该时间段内的占比。计算公式如下:
式中,PTi(Adj)为第j个二级分类在第i时间段内的占比;本发明实施例中,第j个二级分类不包括其他二级分类,即j=1,2,…,19。
NTi(Adj)为第j个二级分类在第i时间段内的SMS数量;
NTi(Adk)为第k个二级分类在第i时间段内的SMS数量;
n为广告营销类SMS中除其它二级分类的二级分类数量。本发明实施例中,n=19。
举例来说,对于广告营销类SMS中服装内衣类SMS,在第1段用户SMS时间轴(时间段T0)上的占比为:时间段T0内服装内衣类SMS数与时间段T0内除其它类的二级分类SMS数(二级分类(1)至二级分类(19)对应的SMS总数)的比值。
本发明实施例中,二级分类在用户SMS时间轴上各时间段内的占比可以反映在各个时间段内,用户对不同二级分类的广告营销类SMS的喜好程度,某一二级分类在用户SMS时间轴上各时间段内的占比越大,表明用户对该二级分类的广告营销类SMS越喜好。
UASP计算公式如下:
UASP(Adj)=αPT0(Ad)PT0(Adj)+βPT1(Ad)PT1(Adj)+γPT2(Ad)PT2(Adj)
式中,α为第一时间段T0内用户对第j个二级分类SMS的喜好程度影响因子;
β为第二时间段T1内用户对第j个二级分类SMS的喜好程度影响因子;
γ为第三时间段T2内用户对第j个二级分类SMS的喜好程度影响因子。
本发明实施例中,可以设置:α+β+γ=1。
较佳地,α=0.5,β=0.3,γ=0.2。当然,实际应用中,α、β、γ也可以根据实际需要,采用其它值的归一化设置。
本发明实施例中,如果:
UASP(Adj)>UASPT
式中,UASPT为预先设置的喜好度阈值。本发明实施例中,可以设置UASPT=1。
则识别接收的SMS为正常SMS。
本发明实施例中,举例来说,根据垃圾SMS分类共享模型,如果客户端接收的一条SMS被判断为广告营销类SMS,且二级分类为(1),则需要通过进一步的分析处理,以确定其是否为垃圾SMS,处理流程如下:
如果在T0时间段,用户有从垃圾箱中将一条SMS放回SMS收件箱,且该放回的SMS为广告营销类SMS,且二级分类为(Ad1),则判定该接收的SMS为正常SMS;不满足此条件的,即用户未从垃圾箱中将一条SMS放回SMS收件箱,或者,用户有从垃圾箱中将一条SMS放回SMS收件箱,且该放回的SMS为广告营销类SMS,但其二级分类不为(Ad1),则计算用户对二级分类为(Ad1)的SMS的广告营销类语言信息喜好程度(UASP(Ad1)),如果计算得到的UASP(Ad1)大于1,判定该接收的SMS为正常SMS,向用户显示提示信息;如果计算得到的UASP(Ad1)小于或等于1,判定该接收的SMS为垃圾SMS,放入垃圾SMS箱。
本发明实施例中,对于不满足预置条件的类型的广告营销类语言信息,确定为该接收端用户不需要的语言信息,按照垃圾信息的处理办法处理。其中,按照垃圾信息的处理办法处理包括:
阻止所述接收端用户不需要的语言信息以正常系统通知渠道通知用户、屏蔽所述接收端用户不需要的语言信息在原软件或系统的信息查看列表中的展示、定期或立即删除、收集至垃圾信息存储地址中。
由上述可见,本发明实施例对于垃圾SMS的分类,相对于传统的技术方案,通过新增加一个垃圾SMS的分类,即广告营销类。同时,针对分类出的广告营销类SMS,增加广告营销类下的各二级分类识别模型和二级分类SMS处理模型,通过二级分类SMS处理模型的处理,可以查询用户近期是否对广告营销类SMS感兴趣,以及对哪类广告营销类SMS(二级分类SMS)感兴趣,从而防止过滤掉对用户有价值的信息,实现用户差异化的广告营销类SMS接收和处理,满足用户个性化的业务需求,增强用户体验。同时,也保障了合法投放的广告营销类SMS对用户业务体验的提升,增加了运营商及商家的合法利益。
图4示出了根据本发明一个实施例的广告营销类语言信息识别装置。参见图4,该识别装置为客户端,包括:模型存储模块、SMS分类模块、用户行为查询模块以及广告营销类处理模块,其中,
模型存储模块,用于存储外部服务器下发的垃圾SMS分类共享模型;
本发明实施例中,模型存储模块还可以进一步按照预先设置的周期,向服务器发送更新请求,根据服务器返回的垃圾SMS分类共享模型,对存储的垃圾SMS分类共享模型进行更新。
SMS分类模块,用于接收SMS,调用模型存储模块存储的垃圾SMS分类共享模型,对接收的SMS进行分类,识别出所述接收到的SMS为某一类型的广告营销类SMS,通知用户行为查询模块;
本发明实施例中,SMS分类模块对接收的SMS进行分类,如果为正常SMS,提示用户收到新SMS;如果为违法诈骗SMS,删除接收的SMS,如果为二级分类SMS,通知用户行为查询模块。
用户行为查询模块,用于接收通知,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;
本发明实施例中,查询客户端在预先设置的第一时间段内,是否具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录,如果是,提示用户收到新SMS;否则,通知广告营销类处理模块。
广告营销类处理模块,用于确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
本发明实施例中,广告营销类处理模块接收通知,读取历史SMS;基于读取的历史SMS计算用户对广告营销类语言信息喜好度,判断计算的用户对广告营销类语言信息喜好度是否不大于预先设置的喜好度阈值,如果是,删除接收的SMS,否则,提示用户收到新SMS。
本发明实施例中,广告营销类处理模块包括:分类标识单元、第一占比统计单元、第二占比统计单元、计算单元以及处理单元(图中未示出),其中,
分类标识单元,用于接收通知,读取历史SMS,利用模型存储模块存储的垃圾SMS分类共享模型,对读取的历史SMS进行分类标识;
第一占比统计单元,用于统计标识的广告营销类SMS在预先设置的各时间段内的占比,输出至计算单元;
本发明实施例中,标识的广告营销类SMS在预先设置的各时间段内的占比计算公式为:
式中,PTi(Ad)为标识的广告营销类SMS在第i时间段内的占比,即在第i段用户SMS时间轴上的占比;本发明实施例中,i=1,2,3。
NTi(Ad)为标识的广告营销类SMS在第i时间段内的数量;
NTi为SMS在第i时间段内的数量。
第二占比统计单元,用于统计标识的广告营销类SMS下的各二级分类SMS,计算各二级分类SMS分别在预先设置的各时间段内的占比,输出至计算单元;
本发明实施例中,计算各二级分类SMS分别在预先设置的各时间段内的占比的公式如下:
式中,PTi(Adj)为第j个二级分类在第i时间段内的占比;本发明实施例中,第j个二级分类不包括其他二级分类,即j=1,2,…,19。
NTi(Adj)为第j个二级分类在第i时间段内的SMS数量;
NTi(Adk)为第k个二级分类在第i时间段内的SMS数量;
n为广告营销类SMS中除其它二级分类的二级分类数量。
计算单元,用于将接收的信息应用于预先设置的计算公式,将计算得到的用户对广告营销类语言信息喜好度信息输出至处理单元;
本发明实施例中,计算公式如下:
UASP(Adj)=αPT0(Ad)PT0(Adj)+βPT1(Ad)PT1(Adj)+γPT2(Ad)PT2(Adj)
式中,α为第一时间段T0内用户对第j个二级分类SMS的喜好程度影响因子;
β为第二时间段T1内用户对第j个二级分类SMS的喜好程度影响因子;
γ为第三时间段T2内用户对第j个二级分类SMS的喜好程度影响因子;
α+β+γ=1。
处理单元,用于判断接收的用户对广告营销类语言信息喜好度是否不大于预先设置的喜好度阈值,如果是,删除接收的SMS,否则,提示用户收到新SMS。
图5示出了根据本发明一个实施例的广告营销类语言信息识别系统。参见图5,该广告营销类语言信息识别系统包括:服务器以及客户端,其中,
服务器,用于根据收集的违法诈骗SMS生成垃圾SMS语料库,对生成的垃圾SMS语料库进行标注;按照预先设置的广告营销类SMS分类策略,对收集的广告营销类SMS进行二级分类,并依据二级分类SMS生成对应的二级分类语料库,分别对生成的二级分类语料库进行标注;
提取标注的垃圾SMS语料库中的特征词,生成垃圾特征词库,提取标注的二级分类语料库中的特征词,生成二级特征词库;
利用预先设置的文本分类模型,对生成的垃圾特征词库以及二级特征词库进行训练,构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型,下发至客户端;
客户端,用于调用预先设置的语言信息分类模型对接收的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息;根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
本发明实施例中,客户端调用存储的垃圾SMS分类共享模型对接收的SMS进行分类,在确定接收的SMS为二级分类SMS后,查询到客户端在预先设置的第一时间段内,不具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录,读取历史SMS;
基于读取的历史SMS计算用户对广告营销类语言信息喜好度,确定计算的用户对广告营销类语言信息喜好度不大于预先设置的喜好度阈值,识别接收的SMS为垃圾SMS。
本发明实施例中,服务器包括:垃圾SMS语料库标注模块、二级分类语料库模块、垃圾特征词库模块、二级特征词库模块以及模型构建模块(图中未示出),其中,
垃圾SMS语料库标注模块,用于根据收集的违法诈骗SMS生成垃圾SMS语料库,对生成的垃圾SMS语料库进行标注;
二级分类语料库模块,用于按照预先设置的广告营销类SMS分类策略,对收集的广告营销类SMS进行二级分类,并依据二级分类SMS生成对应的二级分类语料库,分别对生成的二级分类语料库进行标注;
垃圾特征词库模块,用于提取标注的垃圾SMS语料库中的特征词,生成垃圾特征词库;
二级特征词库模块,用于提取标注的二级分类语料库中的特征词,生成二级特征词库;
模型构建模块,用于利用预先设置的文本分类模型,对生成的垃圾特征词库以及二级特征词库进行训练,构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型,下发至客户端。
本发明实施例中,文本分类模型包括:NB分类模型、SVM分类模型、ME分类模型中的一种或其任意组合。
客户端的结构与图4相同。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的垃圾语言信息识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了,A1.一种广告营销类语言信息的处理方法,包括:接收语言信息;调用预先设置的语言信息分类模型,所述语言信息分类模型能够识别出不同类型的广告营销类语言信息;根据所述语言信息分类模型对所述接收到的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息;根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
A2.根据A1所述的方法,所述根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括:
读取所述接收端用户将垃圾短信恢复为正常短信的记录,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。
A3.根据A1或A2所述的方法,所述根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括:
读取所述接收端用户的历史语言信息,基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。
A4.根据A1所述的方法,所述根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括:
读取所述接收端用户的历史上网记录,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求度是否满足预置条件。
A5.根据A1所述的方法,预先设置所述语言信息分类模型包括:
按照预先设置的广告营销类语言信息分类策略,对收集的广告营销类语言信息进行分类,得到不同类型的广告营销类语言信息,并依据每一类型的广告营销类语言信息生成对应的子分类特征词库;
利用预先设置的文本分类模型,对子分类特征词库以及预先生成的垃圾特征词库进行训练,构建用于将语言信息分类为正常语言信息以及能够识别出不同类型广告营销类的语言信息分类模型。
A6.根据A5所述的方法,所述文本分类模型包括:朴素贝叶斯分类模型、支持向量机分类模型、最大熵分类模型中的一种或其任意组合。
A7.根据A6所述的方法,所述文本分类模型为多个时,每一文本分类模型对应一语言信息分类模型,所述方法进一步包括:
基于预先设置的测试指标,对得到的每一语言信息分类模型进行测试,选取测试结果最佳的语言信息分类模型。
A8.根据A3所述的方法,所述基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度包括:
利用存储的语言信息分类模型,对读取的历史语言信息进行分类标识;
统计标识的广告营销类语言信息在预先设置的各时间段内的占比,得到第一信息;
统计标识的所述某一类型的广告营销类的语言信息,计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比,得到第二信息;
将所述第一信息以及第二信息应用于预先设置的用户对广告营销类语言信息喜好度计算公式,得到用户对所述某一类型的广告营销类的喜好度。
A9.根据A8所述的方法,所述统计标识的广告营销类语言信息在预先设置的各时间段内的占比的公式为:
式中,PTi(Ad)为标识的广告营销类语言信息在第i时间段内的占比;
NTi(Ad)为标识的广告营销类语言信息在第i时间段内的数量;
NTi为语言信息在第i时间段内的数量。
A10.根据A9所述的方法,所述计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比的公式为:
式中,PTi(Adj)为第j个类型的广告营销类语言信息在第i时间段内的占比;
NTi(Adj)为第j个类型的广告营销类语言信息在第i时间段内的语言信息数量;
n为广告营销类的类型数量。
A11.根据A10所述的方法,所述用户对广告营销类语言信息喜好度计算公式为:
UASP(Adj)=αPT0(Ad)PT0(Adj)+βPT1(Ad)PT1(Adj)+γPT2(Ad)PT2(Adj)
式中,UASP(Adj)用户对第j个类型的广告营销类语言信息的喜好度;
α为第一时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子;
β为第二时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子;
γ为第三时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子;
α+β+γ=1。
A12.根据A1所述的方法,进一步包括:
确定不满足预置条件的类型的广告营销类语言信息为该接收端用户不需要的语言信息,按照垃圾信息的处理办法处理。
A13.根据A12所述的方法,所述按照垃圾信息的处理办法处理包括:
阻止所述接收端用户不需要的语言信息以正常系统通知渠道通知用户、屏蔽所述接收端用户不需要的语言信息在原软件或系统的信息查看列表中的展示、定期或立即删除、收集至垃圾信息存储地址中。
B14.一种广告营销类语言信息识别装置,包括:模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块,其中,
模型存储模块,用于预先存储语言信息分类模型,所述语言信息分类模型能够识别出不同类型的广告营销类语言信息;
语言信息分类模块,用于接收语言信息,调用模型存储模块存储的语言信息分类模型,根据所述语言信息分类模型对所述接收到的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息,通知用户行为查询模块;
用户行为查询模块,用于接收通知,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;
广告营销类处理模块,用于确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
B15.根据B14所述的装置,所述模型存储模块进一步用于按照预先设置的周期,向服务器发送更新请求,根据服务器返回的语言信息分类模型,对存储的语言信息分类模型进行更新。
B16.根据B14或B15所述的装置,所述用户行为查询模块包括:用户行为查询单元以及广告营销类语言信息喜好度处理单元,其中,
用户行为查询单元,用于接收通知,读取所述接收端用户的历史语言信息;
广告营销类语言信息喜好度处理单元,用于基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度,据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。
B17.根据B16所述的装置,所述广告营销类语言信息喜好度处理单元包括:分类标识子单元、第一占比统计子单元、第二占比统计子单元、计算子单元以及处理子单元,其中,
分类标识子单元,用于接收通知,读取历史语言信息,利用模型存储模块存储的语言信息分类共享模型,对读取的历史语言信息进行分类标识;
第一占比统计子单元,用于统计标识的广告营销类语言信息在预先设置的各时间段内的占比,输出至计算子单元;
第二占比统计子单元,用于统计标识的广告营销类语言信息下不同类型的语言信息,计算各不同类型的语言信息分别在预先设置的各时间段内的占比,输出至计算子单元;
计算子单元,用于将接收的信息应用于预先设置的计算公式,将计算得到的用户对广告营销类语言信息喜好度信息输出至处理子单元;
处理子单元,用于判断接收的用户对广告营销类语言信息喜好度是否不大于预先设置的喜好度阈值,如果是,删除接收的语言信息,否则,提示用户收到新语言信息。
C18.一种语言信息识别系统,包括:服务器以及客户端,其中,
服务器,用于根据收集的违法诈骗语言信息生成垃圾语言信息语料库,对生成的垃圾语言信息语料库进行标注;按照预先设置的广告营销类语言信息分类策略,对收集的广告营销类语言信息进行分类,并依据分类语言信息生成对应的分类语料库,分别对生成的分类语料库进行标注;
提取标注的垃圾语言信息语料库中的特征词,生成垃圾特征词库,提取标注的分类语料库中的特征词,生成分类特征词库;
利用预先设置的文本分类模型,对生成的垃圾特征词库以及分类特征词库进行训练,构建能够识别出不同类型的广告营销类语言信息的语言信息分类共享模型,下发至客户端;
客户端,用于调用预先设置的语言信息分类模型对接收的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息;根据接收端用户的历史行为数据,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。
C19.根据C18所述的系统,所述服务器包括:垃圾语言信息语料库标注模块、分类语料库模块、垃圾特征词库模块、特征词库模块以及模型构建模块,其中,
垃圾语言信息语料库标注模块,用于根据收集的违法诈骗语言信息生成垃圾语言信息语料库,对生成的垃圾语言信息语料库进行标注;
分类语料库模块,用于按照预先设置的广告营销类语言信息分类策略,对收集的广告营销类语言信息进行分类,并依据分类语言信息生成对应的分类语料库,分别对生成的分类语料库进行标注;
垃圾特征词库模块,用于提取标注的垃圾语言信息语料库中的特征词,生成垃圾特征词库;
特征词库模块,用于提取标注的分类语料库中的特征词,生成特征词库;
模型构建模块,用于利用预先设置的文本分类模型,对生成的垃圾特征词库以及特征词库进行训练,构建用于将语言信息分类为正常语言信息、分类语言信息以及违法诈骗语言信息的语言信息分类模型,下发至客户端。
C20.根据C18或C19所述的系统,所述客户端包括:模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块,其中,
模型存储模块,用于预先存储语言信息分类模型,所述语言信息分类模型能够识别出不同类型的广告营销类语言信息;
语言信息分类模块,用于接收语言信息,调用模型存储模块存储的语言信息分类模型,根据所述语言信息分类模型对所述接收到的语言信息进行类型识别,识别出所述接收到的语言信息为某一类型的广告营销类语言信息,通知用户行为查询模块;
用户行为查询模块,用于接收通知,判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件;
广告营销类处理模块,用于确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息,并提供给所述接收端用户正常查收。