CN103778225B

CN103778225B - 广告营销类语言信息的处理方法、识别装置及系统

Info

Publication number: CN103778225B
Application number: CN201410032080.9A
Authority: CN
Inventors: 范文; 陈明相; 程伟
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2014-01-23
Filing date: 2014-01-23
Publication date: 2018-04-03
Anticipated expiration: 2034-01-23
Also published as: CN103778225A

Abstract

本发明公开了一种广告营销类语言信息的处理方法、识别装置及系统。方法包括：接收语言信息；调用预先设置的语言信息分类模型，所述语言信息分类模型能够识别出不同类型的广告营销类语言信息；根据所述语言信息分类模型对所述接收到的语言信息进行类型识别，识别出所述接收到的语言信息为某一类型的广告营销类语言信息；根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收。应用本发明，可以差异化的接收和处理广告营销类语言信息。

Description

广告营销类语言信息的处理方法、识别装置及系统

技术领域

本发明涉及语言信息识别技术，具体涉及一种广告营销类语言信息的处理方法、识别装置及系统。

背景技术

SMS利用信令链路实现点对点的消息传送，是目前无线网络常用的、非实时的可靠的信息传递业务。随着客户端的日益普及，移动通信网络建设的不断完善以及越来越多的免费发送SMS服务网站的出现，用户量逐渐增多，SMS业务的发展也越来越蓬勃，用户发送SMS也更为实惠。SMS以其价格便宜、形式多样、方便快捷等优点，成为用户日常进行沟通交流活动的一个重要媒介。而且，通过客户端接收SMS，用户还可以获取天气预报、新闻、交通情况、航班信息、话费查询和E-mail通知等业务。

然而，当用户享受SMS带来的便捷的同时，一些垃圾SMS，例如，垃圾广播SMS（Broadcast SMS）、诈骗SMS和无线应用协议（WAP，Wireless Application Protocol）SMS也趁虚而入。举例来说，少量违法分子通过垃圾SMS的方式，放送编造的诈骗和违法类信息，不仅极大地干扰了用户的日常生活和工作，也严重影响了用户的财产安全和社会秩序的安定。

因此，为了降低垃圾SMS对用户日常生活和工作的影响，维护社会秩序的安定，现有技术提出了垃圾SMS智能识别技术，以对用户接收的SMS进行智能识别，并将识别出的垃圾SMS进行过滤，从而降低垃圾SMS对用户的影响。其中的一种垃圾语言信息的识别方法，通过统计和分析垃圾SMS的特征，从而预先制定垃圾SMS过滤规则并通过服务器下发到客户端中。其中，垃圾SMS过滤规则主要以正则表达式的方式来呈现。客户端接收到SMS后，如果接收的SMS能够命中垃圾SMS过滤规则中的任一条规则或相关规则的组合，则可以确定该接收的SMS为垃圾SMS，删除该接收的SMS，不向用户显示。但该垃圾语言信息识别方法中，只有与垃圾SMS过滤规则相匹配的SMS才能被过滤，而由于实际应用中，垃圾SMS类型多样，并不断发生新的变异。因而，该方法的垃圾SMS识别率较低，用户还是会收到大量的垃圾SMS。

为了提高垃圾SMS的智能识别率，现有技术提出了一种改进的垃圾语言信息识别方法，即采用机器学习的算法进行垃圾SMS识别。

图1示出了现有改进的垃圾SMS识别方法流程。参见图1，该流程包括：

步骤101，收集垃圾SMS，基于收集的垃圾SMS生成垃圾SMS语料库，对生成的垃圾SMS语料库进行标注；

本步骤中，通过人工的方式，将SMS分类为正常SMS以及垃圾SMS，并基于分类的垃圾SMS进行处理。

步骤102，提取标注的垃圾SMS语料库的垃圾特征词；

本步骤中，对标注的垃圾SMS语料库进行运算，从而得到特征词。例如，采用单类学习算法中的信息增益（IG，Information Gain）算法，对标注的垃圾SMS语料库进行特征词提取。当然，实际应用中，在收集垃圾SMS的之前、同时或之后，还可以收集正常SMS生成正常SMS语料库，并对生成的正常SMS语料库进行标注，然后，提取标注的正常SMS语料库的正常特征词，垃圾特征词与正常特征词统称为特征词。

步骤103，利用预先设置的多个文本分类模型，分别对提取的垃圾特征词进行训练，得到每一文本分类模型对应的垃圾SMS分类模型；

本步骤中，文本分类模型包括：朴素贝叶斯（NB，NaiveBayes）分类模型、支持向量机（SVM，Support Vector Machine）分类模型以及最大熵（ME，Max Entropy）分类模型等。经过每一文本分类模型的训练，可以得到相应的垃圾SMS分类模型。例如，采用单类学习算法，将垃圾特征词应用于文本分类模型，得到用于将SMS分类为正常SMS以及垃圾SMS的垃圾SMS分类模型。

如前所述，如果提取有正常SMS语料库的正常特征词，则对提取的垃圾SMS语料库的垃圾特征词以及正常SMS语料库的正常特征词进行综合训练，得到垃圾SMS分类模型。

步骤104，基于预先设置的测试指标，对得到的多个垃圾SMS分类模型进行测试，根据测试结果，从所述多个垃圾SMS分类模型中选取垃圾SMS分类共享模型；

本步骤中，测试指标包括召回率（Recall）、准确率（Precision）等。在依据各文本分类模型对特征词进行训练得到相应的垃圾SMS分类模型后，使用各垃圾SMS分类模型对未知类别的SMS进行是否为垃圾SMS的判定，选取符合测试指标且测试结果最好的垃圾SMS分类模型作为垃圾SMS分类共享模型。

步骤105，将选取的垃圾SMS分类共享模型下发至客户端；

步骤101至步骤105为垃圾语言信息识别方法中的服务器建立垃圾SMS分类共享模型流程。在服务器完成垃圾SMS分类共享模型选取后，将选取的垃圾SMS分类共享模型下发到各客户端上，以进行后续的垃圾SMS识别。

步骤106，客户端接收SMS；

步骤107，调用预先存储的垃圾SMS分类共享模型，判断接收的SMS是否为垃圾SMS，如果是，执行步骤108，否则，执行步骤109；

步骤108，将接收的SMS放入垃圾箱；

步骤109，向用户提示有新SMS。

步骤106至步骤109为垃圾语言信息识别方法中的客户端，依据服务器建立的垃圾SMS分类共享模型识别垃圾SMS的流程。

由上述可见，现有的垃圾语言信息识别方法，通过将SMS分为垃圾SMS和正常SMS，并基于垃圾SMS以及机器学习的算法构建垃圾SMS分类共享模型，由于机器学习的算法可以对垃圾SMS发生的变异进行有效识别，从而提升了垃圾SMS识别率。但该方法将接收SMS的所有用户视为同一种客体，即客户端只是简单地使用服务器训练构建的垃圾SMS分类共享模型，构建的垃圾SMS分类共享模型并未考虑客户端本地的属性，也就是不同用户之间的差异，因而，不能满足用户个性化的业务需求，从而降低了用户的业务体验。例如，对于垃圾SMS分类共享模型识别出的垃圾SMS，其中包含有大量广告营销类SMS，直接进行过滤，而实际应用中，不同用户是具有需要不同广告营销类SMS需求的，或者，在不同时段具有需要不同广告营销类SMS的需求。举例来说，不同的用户对广告营销类SMS的敏感度是不同的：对于关注电子产品的用户来说，希望可以接收广告营销类SMS中的电子产品SMS，以跟踪及了解电子产品的相关信息，因而，电子产品SMS对于其他用户是垃圾SMS，但对该关注电子产品的用户并非垃圾SMS；而对于关注汽车的用户来说，希望可以接收广告营销类SMS中的汽车SMS，以获取所需信息。此外，对于同一用户，在不同的时段，对广告营销类SMS的敏感度也会发生动态变化。例如，对于关注电子产品的用户来说，在他没有购买汽车的时间段内，希望能够拒收广告营销类SMS中的汽车SMS；但当需要购买汽车时，又希望能够接收到广告营销类SMS中的汽车SMS，以获取相应的汽车资讯；而在购买汽车后，又希望能够拒收广告营销类SMS中的汽车SMS。但由于现有的垃圾语言信息识别方法，垃圾SMS分类共享模型将广告营销类SMS都作为垃圾SMS，没有考虑不同用户之间的差异，因而，构建的垃圾SMS分类共享模型不能满足用户个性化的业务需求，降低了用户的业务体验；同时，也损害了合法投放广告营销类SMS的运营商及商家的利益。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的识别装置、系统和相应的广告营销类语言信息的处理方法。

依据本发明的一个方面，提供了广告营销类语言信息的处理方法，该方法包括：

接收语言信息；

调用预先设置的语言信息分类模型，所述语言信息分类模型能够识别出不同类型的广告营销类语言信息；

根据所述语言信息分类模型对所述接收到的语言信息进行类型识别，识别出所述接收到的语言信息为某一类型的广告营销类语言信息；

根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；

确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收。

优选地，所述根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括：

读取所述接收端用户将垃圾短信恢复为正常短信的记录，据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。

读取所述接收端用户的历史语言信息，基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度，据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。

读取所述接收端用户的历史上网记录，据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求度是否满足预置条件。

优选地，预先设置所述语言信息分类模型包括：

按照预先设置的广告营销类语言信息分类策略，对收集的广告营销类语言信息进行分类，得到不同类型的广告营销类语言信息，并依据每一类型的广告营销类语言信息生成对应的子分类特征词库；

利用预先设置的文本分类模型，对子分类特征词库以及预先生成的垃圾特征词库进行训练，构建用于将语言信息分类为正常语言信息以及能够识别出不同类型广告营销类的语言信息分类模型。

优选地，所述文本分类模型包括：朴素贝叶斯分类模型、支持向量机分类模型、最大熵分类模型中的一种或其任意组合。

优选地，所述文本分类模型为多个时，每一文本分类模型对应一语言信息分类模型，所述方法进一步包括：

基于预先设置的测试指标，对得到的每一语言信息分类模型进行测试，选取测试结果最佳的语言信息分类模型。

优选地，所述基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度包括：

利用存储的语言信息分类模型，对读取的历史语言信息进行分类标识；

统计标识的广告营销类语言信息在预先设置的各时间段内的占比，得到第一信息；

统计标识的所述某一类型的广告营销类的语言信息，计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比，得到第二信息；

将所述第一信息以及第二信息应用于预先设置的用户对广告营销类语言信息喜好度计算公式，得到用户对所述某一类型的广告营销类的喜好度。

优选地，所述统计标识的广告营销类语言信息在预先设置的各时间段内的占比的公式为：

式中，P_Ti(Ad)为标识的广告营销类语言信息在第i时间段内的占比；

N_Ti(Ad)为标识的广告营销类语言信息在第i时间段内的数量；

N_Ti为语言信息在第i时间段内的数量。

优选地，所述计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比的公式为：

式中，P_Ti(Ad_j)为第j个类型的广告营销类语言信息在第i时间段内的占比；

N_Ti(Ad_j)为第j个类型的广告营销类语言信息在第i时间段内的语言信息数量；

n为广告营销类的类型数量。

优选地，所述用户对广告营销类语言信息喜好度计算公式为：

UASP(Ad_j)=αP_T0(Ad)P_T0(Ad_j)+βP_T1(Ad)P_T1(Ad_j)+γP_T2(Ad)P_T2(Ad_j)

式中，UASP(Ad_j)用户对第j个类型的广告营销类语言信息的喜好度；

α为第一时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子；

β为第二时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子；

γ为第三时间段内用户对第j个类型的广告营销类语言信息的喜好程度影响因子；

α+β+γ=1。

优选地，进一步包括：

确定不满足预置条件的类型的广告营销类语言信息为该接收端用户不需要的语言信息，按照垃圾信息的处理办法处理。

优选地，所述按照垃圾信息的处理办法处理包括：

阻止所述接收端用户不需要的语言信息以正常系统通知渠道通知用户、屏蔽所述接收端用户不需要的语言信息在原软件或系统的信息查看列表中的展示、定期或立即删除、收集至垃圾信息存储地址中。

根据本发明的另一个方面提供了一种广告营销类语言信息识别装置，包括：模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块，其中，

模型存储模块，用于预先存储语言信息分类模型，所述语言信息分类模型能够识别出不同类型的广告营销类语言信息；

语言信息分类模块，用于接收语言信息，调用模型存储模块存储的语言信息分类模型，根据所述语言信息分类模型对所述接收到的语言信息进行类型识别，识别出所述接收到的语言信息为某一类型的广告营销类语言信息，通知用户行为查询模块；

用户行为查询模块，用于接收通知，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；

广告营销类处理模块，用于确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收。

优选地，所述模型存储模块进一步用于按照预先设置的周期，向服务器发送更新请求，根据服务器返回的语言信息分类模型，对存储的语言信息分类模型进行更新。

优选地，所述用户行为查询模块包括：用户行为查询单元以及广告营销类语言信息喜好度处理单元，其中，

用户行为查询单元，用于接收通知，读取所述接收端用户的历史语言信息；

广告营销类语言信息喜好度处理单元，用于基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度，据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。

优选地，所述广告营销类语言信息喜好度处理单元包括：分类标识子单元、第一占比统计子单元、第二占比统计子单元、计算子单元以及处理子单元，其中，

分类标识子单元，用于接收通知，读取历史语言信息，利用模型存储模块存储的语言信息分类共享模型，对读取的历史语言信息进行分类标识；

第一占比统计子单元，用于统计标识的广告营销类语言信息在预先设置的各时间段内的占比，输出至计算子单元；

第二占比统计子单元，用于统计标识的广告营销类语言信息下不同类型的语言信息，计算各不同类型的语言信息分别在预先设置的各时间段内的占比，输出至计算子单元；

计算子单元，用于将接收的信息应用于预先设置的计算公式，将计算得到的用户对广告营销类语言信息喜好度信息输出至处理子单元；

处理子单元，用于判断接收的用户对广告营销类语言信息喜好度是否不大于预先设置的喜好度阈值，如果是，删除接收的语言信息，否则，提示用户收到新语言信息。

根据本发明的再一个方面提供了一种语言信息识别系统，包括：服务器以及客户端，其中，

服务器，用于根据收集的违法诈骗语言信息生成垃圾语言信息语料库，对生成的垃圾语言信息语料库进行标注；按照预先设置的广告营销类语言信息分类策略，对收集的广告营销类语言信息进行分类，并依据分类语言信息生成对应的分类语料库，分别对生成的分类语料库进行标注；

提取标注的垃圾语言信息语料库中的特征词，生成垃圾特征词库，提取标注的分类语料库中的特征词，生成分类特征词库；

利用预先设置的文本分类模型，对生成的垃圾特征词库以及分类特征词库进行训练，构建能够识别出不同类型的广告营销类语言信息的语言信息分类共享模型，下发至客户端；

客户端，用于调用预先设置的语言信息分类模型对接收的语言信息进行类型识别，识别出所述接收到的语言信息为某一类型的广告营销类语言信息；根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收。

优选地，所述服务器包括：垃圾语言信息语料库标注模块、分类语料库模块、垃圾特征词库模块、特征词库模块以及模型构建模块，其中，

垃圾语言信息语料库标注模块，用于根据收集的违法诈骗语言信息生成垃圾语言信息语料库，对生成的垃圾语言信息语料库进行标注；

分类语料库模块，用于按照预先设置的广告营销类语言信息分类策略，对收集的广告营销类语言信息进行分类，并依据分类语言信息生成对应的分类语料库，分别对生成的分类语料库进行标注；

垃圾特征词库模块，用于提取标注的垃圾语言信息语料库中的特征词，生成垃圾特征词库；

特征词库模块，用于提取标注的分类语料库中的特征词，生成特征词库；

模型构建模块，用于利用预先设置的文本分类模型，对生成的垃圾特征词库以及特征词库进行训练，构建用于将语言信息分类为正常语言信息、分类语言信息以及违法诈骗语言信息的语言信息分类模型，下发至客户端。

优选地，所述客户端包括：模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块，其中，

根据本发明的广告营销类语言信息的处理方法、识别装置及系统，可以在客户端预先设置能够识别不同类型的广告营销类语言信息的语言信息分类模型，通过语言信息分类模型识别出接收的语言信息为某一类型的广告营销类语言信息，根据接收端用户的历史行为数据，判断接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件。由此解决了现有构建的垃圾SMS分类共享模型不能满足用户个性化的业务需求的技术问题，取得了用户可以差异化的接收和处理广告营销类语言信息，提升用户的业务体验，实现基于用户差异识别垃圾语言信息的目的；同时，也保障了合法投放广告营销类语言信息的运营商及商家的利益的有益效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了现有改进的垃圾SMS识别方法流程；

图2示出了根据本发明一个实施例的广告营销类语言信息识别方法流程；

图3示出了根据本发明一个实施例的用户SMS时间轴；

图4示出了根据本发明一个实施例的广告营销类语言信息识别装置；以及

图5示出了根据本发明一个实施例的广告营销类语言信息识别系统。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

现有的垃圾语言信息识别方法，基于垃圾SMS以及机器学习的算法构建垃圾SMS分类共享模型，构建的垃圾SMS分类共享模型按照统一的规则将确定为垃圾SMS进行丢弃，并未考虑不同客户端用户之间的差异，因而，不能满足用户个性化的业务需求，从而降低了用户的业务体验。

本发明实施例中，基于不同客户端用户之间差异的分析，在服务器端构建垃圾SMS分类共享模型时，将广告营销类SMS从垃圾SMS分离出来，并设置广告营销类SMS下的各二级分类，但与正常SMS处理不同，在构建的垃圾SMS分类共享模型中，将对分离的广告营销类SMS下的各二级分类进行处理的规则由客户端设置；而在客户端接收到服务器下发的垃圾SMS分类共享模型后，可以基于个性化需求（历史SMS），设置对分离的广告营销类SMS下的各二级分类处理的规则，从而通过服务器的共享设置和客户端个性化的设置相结合的方法，实现垃圾SMS的识别，满足用户个性化的业务需求，提升用户的业务体验。

所应说明的是，上述示例以及下述的实施例中，仅仅是以SMS为例说明语言信息的处理方法。实际应用中，语言信息包括但不限于SMS、网络信息微信、微博、QQ留言，即对广告营销类SMS的处理方法、识别装置及系统，同样适用于广告营销类网络信息微信、微博、QQ留言。

图2示出了根据本发明一个实施例的广告营销类语言信息识别方法流程。参见图2，该流程包括：

步骤201，服务器按照预先设置的广告营销类SMS分类策略，对收集的广告营销类SMS进行二级分类，并依据二级分类SMS生成对应的二级特征词库；

本步骤具体包括：根据收集的违法诈骗SMS生成垃圾SMS语料库，对生成的垃圾SMS语料库进行标注；按照预先设置的广告营销类SMS分类策略，对收集的广告营销类SMS进行二级分类，即将收集的广告营销类SMS分类为不同类型的广告营销类SMS，并依据二级分类SMS生成对应的二级分类语料库，分别对生成的二级分类语料库进行标注。

本步骤中，SMS包括：正常SMS、广告营销类SMS以及违法诈骗SMS。其中，广告营销类SMS以及违法诈骗SMS组成现有技术中的垃圾SMS即违法诈骗SMS为除广告营销类SMS和正常SMS之外的SMS。本发明实施例中，为了能够考虑不同用户的个性化业务需求以及广告营销类SMS类别多样，不同的用户对不同类别的广告营销类SMS的敏感度差异较大，需要对广告营销类SMS进行分类标注，以使后续能够更加精确地匹配用户个性化的需求。即对广告营销类SMS按照预先设置的广告营销类SMS分类策略进行二级分类，并将收集的广告营销类SMS分类到各二级分类中，每一二级分类的广告营销类SMS对应一二级分类语料库。

本发明实施例中，通过对大量广告营销类SMS的统计、分析及归类，预先设置的广告营销类SMS分类策略可以设置为将广告营销类SMS分类为20个二级分类，分别为：（1）服装内衣二级分类、（2）鞋包配饰二级分类、（3）珠宝手表二级分类、（4）手机数码二级分类、（5）家用电器二级分类、（6）护肤美妆二级分类、（7）母婴用品二级分类、（8）家居建材二级分类、（9）美食特产二级分类、（10）电商百货二级分类、（11）汽车摩托二级分类、（12）文化娱乐二级分类、（13）运动健身二级分类、（14）医疗保险二级分类、（15）生活服务二级分类、（16）金融二级分类、（17）房产二级分类、（18）运营商二级分类、（19）教育二级分类以及（20）其它二级分类。这样，相对应地，广告营销类SMS语料库中包含有20个二级分类语料库。当然，实际应用中，广告营销类SMS分类策略也可以根据实际业务需要进行设置，例如，可以对上述20个二级分类进行合并或扩展，或重新设计二级分类。

在构建分类模型之前，需要进行机器学习模型的训练，本发明实施例中，通过在服务器端收集大量的SMS，并通过人工的方式对收集的SMS进行识别，从而识别出正常SMS、广告营销类SMS下的各二级分类以及违法诈骗SMS以进行后续的学习训练。

实际应用中，为了使后续构建的垃圾SMS分类共享模型更为精确，进一步地，该方法还可以包括：

根据收集的正常SMS生成正常SMS语料库，对生成的正常SMS语料库进行标注。

步骤202，提取标注的垃圾SMS语料库中的特征词，生成垃圾特征词库，提取标注的二级分类语料库中的特征词，生成二级特征词库；

本步骤中，对标注的垃圾SMS语料库进行运算，从而得到垃圾SMS语料库中的特征词，置入垃圾特征词库中；对标注的各二级分类语料库分别进行运算，得到每一二级分类语料库中的特征词，置入相应的二级特征词库中，每一二级分类语料库对应一二级特征词库。

本发明实施例中，采用IG算法对标注的垃圾SMS语料库以及二级分类语料库进行特征词提取。

如前所述，如果还包含有标注的正常SMS语料库，则提取标注的正常SMS语料库中的特征词，置入正常特征词库中。垃圾特征词库、二级特征词库以及正常特征词库构成特征词库。

步骤203，利用预先设置的文本分类模型，对生成的垃圾特征词库以及二级特征词库进行训练，构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型；

本步骤包括：

利用预先设置的文本分类模型，对生成的垃圾特征词库进行训练，得到违法诈骗SMS子模型；

利用预先设置的文本分类模型，依序对生成的多个二级特征词库进行训练，得到相应的二级分类子模型；

本步骤中，每一二级特征词库对应一二级分类子模型，所有的二级分类子模型组成广告营销类SMS子模型。

基于得到的违法诈骗SMS子模型以及多个二级分类子模型，构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型。其中，二级分类SMS可以是广告营销类下并列的一个或多个子分类，即垃圾SMS分类共享模型能够识别出不同类型的广告营销类SMS。

本发明实施例中，对应于SMS，语言信息分类模型为垃圾SMS分类共享模型。

实际应用中，还可以利用预先设置的文本分类模型，对生成的垃圾特征词库以及二级特征词库进行综合训练，从而得到本发明实施例的垃圾SMS分类共享模型。关于利用文本分类模型进行训练以及基于得到的子模型构建垃圾SMS分类共享模型，为公知技术，在此略去详述。

如前所述，特征词库中还包含有正常特征词库，则进一步利用预先设置的文本分类模型，对正常特征词库进行训练，得到正常SMS子模型，将得到的违法诈骗SMS子模型、正常SMS子模型以及广告营销类SMS子模型进行合并，从而构建垃圾SMS分类共享模型。

本发明实施例中，文本分类模型包括：朴素贝叶斯（NB，NaiveBayes）分类模型、和/或，支持向量机（SVM，Support Vector Machine）分类模型、和/或，最大熵（ME，MaxEntropy）分类模型等。

本发明实施例中，当预先设置的文本分类模型为多个时，得到的垃圾SMS分类共享模型为多个，而实际应用中，只需向客户端下发一个垃圾SMS分类共享模型即可。因而，该方法还可以进一步包括：

基于预先设置的测试指标，对得到的每一垃圾SMS分类共享模型进行测试，选取测试结果最佳的垃圾SMS分类共享模型。

本步骤中，经过每一文本分类模型的训练，可以得到相应的垃圾SMS分类共享模型，即每一文本分类模型对应一垃圾SMS分类共享模型。例如，如果多个文本分类模型分别为NB分类模型、SVM分类模型、以及ME分类模型，则通过NB分类模型对特征词库（包括垃圾特征词库、二级特征词库以及正常特征词库）进行训练后，得到NB垃圾SMS分类共享模型，通过SVM分类模型对特征词库进行训练后，得到SVM垃圾SMS分类共享模型，通过ME分类模型对特征词库进行训练后，得到ME垃圾SMS分类共享模型。

测试指标包括召回率（Recall）、准确率（Precision）等。在依据各文本分类模型进行训练得到相应的垃圾SMS分类共享模型后，使用各垃圾SMS分类共享模型对未知类别的SMS进行是否为违法诈骗SMS的判定，从而从NB垃圾SMS分类共享模型、SVM垃圾SMS分类共享模型以及ME垃圾SMS分类共享模型中，选取符合测试指标且测试结果最佳的垃圾SMS分类共享模型。

步骤204，将构建的垃圾SMS分类共享模型下发至客户端；

步骤201至步骤204为垃圾语言信息识别方法中的服务器建立垃圾SMS分类共享模型流程。在服务器完成垃圾SMS分类共享模型选取后，将选取的垃圾SMS分类共享模型下发到客户端上以进行后续的垃圾语言信息识别。即客户端调用预先设置的语言信息分类模型（垃圾SMS分类共享模型），根据调用的语言信息分类模型对接收到的语言信息（SMS）进行类型识别，识别出接收到的语言信息为某一类型的广告营销类语言信息；根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收。其中，可以读取所述接收端用户的历史语言信息，基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度，据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；也可以，读取所述接收端用户的历史上网记录，据此判断所述接收端用户对所述某一类型的广告营销类语言信息的需求度是否满足预置条件。历史上网记录包括：浏览过所述某一类型的广告营销类的SMS或网页、和/或，通过网络查询过所述某一类型的广告营销类、和/或，从垃圾箱中将所述某一类型的广告营销类SMS放回收件箱。具体来说，包括：

步骤205，客户端调用存储的垃圾SMS分类共享模型对接收的SMS进行分类，在确定接收的SMS为二级分类SMS后，查询到客户端在预先设置的第一时间段内，不具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录，读取历史SMS；

本步骤中，在确定接收的SMS为二级分类SMS后，可以根据接收端用户的历史行为数据，判断接收端用户对该二级分类SMS的需求是否满足预置条件。本发明实施例中，将不具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录作为预置条件之一。对于确定为二级分类SMS的SMS，需要结合客户端的个性化需求作进一步的处理，以确定其是正常SMS还是垃圾SMS。

该方法进一步包括：

如果确定接收的SMS为正常SMS，提示用户收到新SMS；如果确定接收的SMS为违法诈骗SMS，删除接收的SMS。

该方法还可以进一步包括：

查询到客户端在预先设置的时间段内，具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录，提示用户收到新SMS。

步骤206，基于读取的历史SMS计算用户对广告营销类短消息喜好度（UASP，UserAdvertisement SMS Preference），确定计算的用户对广告营销类短消息喜好度不大于预先设置的喜好度阈值，识别接收的SMS为垃圾SMS。

本步骤中，基于读取的历史SMS计算用户对广告营销类语言信息喜好度包括：

B11，客户端利用存储的垃圾SMS分类共享模型，对读取的历史SMS进行分类标识；

本步骤中，客户端将接收的垃圾SMS分类共享模型进行存储后，利用该垃圾SMS分类共享模型，对接收的每一历史SMS进行分类分析，确定是正常SMS、广告营销类SMS还是违法诈骗SMS，并标识分类的历史SMS。例如，确定历史SMS为广告营销类SMS，则为该历史SMS贴上广告营销类SMS标签。

后续应用中，当客户端接收到新的SMS，利用存储的垃圾SMS分类共享模型对接收的SMS进行分类分析，标识经过分类分析的SMS，即通过垃圾SMS分类共享模型获取标签，并将标识的SMS存储至预先设置的用户SMS时间轴中。

本发明实施例中，客户端按预先设置的用户SMS时间轴的方式记录接收的历史SMS。

图3示出了根据本发明一个实施例的用户SMS时间轴。参见图3，用户SMS时间轴包含的段数可根据实际需要设置。本发明实施例中，将用户SMS时间轴划分为3段，第一段用户SMS时间轴为时间段T₀，即前述的预先设置的第一时间段，可以为当天；第二段用户SMS时间轴为时间段T₁，为当天前的k天；第三段用户SMS时间轴为时间段T₂，为当天前的第k天前的时间段。较佳地，k=7。

客户端接收的SMS按照设置的用户SMS时间轴进行存储并动态更新。例如，对于第i天接收的SMS，存储到第一段用户SMS时间轴对应的第一段存储器中，则在第(i+1)天时，自动将第一段存储器中存储的第i天的SMS剪切至第二段用户SMS时间轴对应的第二段存储器中。

B12，统计标识的广告营销类SMS在预先设置的各时间段内的占比；

本步骤中，对应于用户SMS时间轴，预先设置的各时间段包括：第一时间段（T₀）、第二时间段（T₁）以及第三时间段（T₂）。

标识的广告营销类SMS在预先设置的各时间段内的占比计算公式为：

式中，P_Ti(Ad)为标识的广告营销类SMS在第i时间段内的占比，即在第i段用户SMS时间轴上的占比；本发明实施例中，i=1,2,3。

N_Ti(Ad)为标识的广告营销类SMS在第i时间段内的数量；

N_Ti为SMS在第i时间段内的数量。

本发明实施例中，标识的广告营销类SMS在用户SMS时间轴上各时间段内的占比反映了用户对广告营销类SMS的敏感程度，即在各时间段内用户对广告营销类SMS的敏感情况。

B13，统计标识的并与接收的SMS为同一二级分类的广告营销类SMS，计算该二级分类SMS分别在预先设置的各时间段内的占比。

本步骤中，在每一时间段内，统计标识的广告营销类SMS下的各二级分类SMS，计算广告营销类SMS中各二级分类（其它二级分类除外）SMS在该时间段内的占比。计算公式如下：

式中，P_Ti(Ad_j)为第j个二级分类在第i时间段内的占比；本发明实施例中，第j个二级分类不包括其他二级分类，即j=1,2,…,19。

N_Ti(Ad_j)为第j个二级分类在第i时间段内的SMS数量；

N_Ti(Ad_k)为第k个二级分类在第i时间段内的SMS数量；

n为广告营销类SMS中除其它二级分类的二级分类数量。本发明实施例中，n=19。

举例来说，对于广告营销类SMS中服装内衣类SMS，在第1段用户SMS时间轴（时间段T₀）上的占比为：时间段T₀内服装内衣类SMS数与时间段T₀内除其它类的二级分类SMS数（二级分类（1）至二级分类（19）对应的SMS总数）的比值。

本发明实施例中，二级分类在用户SMS时间轴上各时间段内的占比可以反映在各个时间段内，用户对不同二级分类的广告营销类SMS的喜好程度，某一二级分类在用户SMS时间轴上各时间段内的占比越大，表明用户对该二级分类的广告营销类SMS越喜好。

UASP计算公式如下：

UASP(Ad_j)=αP_T0(Ad)P_T0(Ad_j)+βP_T1(Ad)P_T1(Ad_j)+γP_T2(Ad)P_T2(Ad_j)

式中，α为第一时间段T₀内用户对第j个二级分类SMS的喜好程度影响因子；

β为第二时间段T₁内用户对第j个二级分类SMS的喜好程度影响因子；

γ为第三时间段T₂内用户对第j个二级分类SMS的喜好程度影响因子。

本发明实施例中，可以设置：α+β+γ=1。

较佳地，α=0.5,β=0.3,γ=0.2。当然，实际应用中，α、β、γ也可以根据实际需要，采用其它值的归一化设置。

本发明实施例中，如果：

UASP(Ad_j)>UASP_T

式中，UASP_T为预先设置的喜好度阈值。本发明实施例中，可以设置UASP_T=1。

则识别接收的SMS为正常SMS。

本发明实施例中，举例来说，根据垃圾SMS分类共享模型，如果客户端接收的一条SMS被判断为广告营销类SMS，且二级分类为（1），则需要通过进一步的分析处理，以确定其是否为垃圾SMS，处理流程如下：

如果在T₀时间段，用户有从垃圾箱中将一条SMS放回SMS收件箱，且该放回的SMS为广告营销类SMS，且二级分类为（Ad₁），则判定该接收的SMS为正常SMS；不满足此条件的，即用户未从垃圾箱中将一条SMS放回SMS收件箱，或者，用户有从垃圾箱中将一条SMS放回SMS收件箱，且该放回的SMS为广告营销类SMS，但其二级分类不为（Ad₁），则计算用户对二级分类为（Ad₁）的SMS的广告营销类语言信息喜好程度（UASP(Ad₁)），如果计算得到的UASP(Ad₁)大于1，判定该接收的SMS为正常SMS，向用户显示提示信息；如果计算得到的UASP(Ad₁)小于或等于1，判定该接收的SMS为垃圾SMS，放入垃圾SMS箱。

本发明实施例中，对于不满足预置条件的类型的广告营销类语言信息，确定为该接收端用户不需要的语言信息，按照垃圾信息的处理办法处理。其中，按照垃圾信息的处理办法处理包括：

由上述可见，本发明实施例对于垃圾SMS的分类，相对于传统的技术方案，通过新增加一个垃圾SMS的分类，即广告营销类。同时，针对分类出的广告营销类SMS，增加广告营销类下的各二级分类识别模型和二级分类SMS处理模型，通过二级分类SMS处理模型的处理，可以查询用户近期是否对广告营销类SMS感兴趣，以及对哪类广告营销类SMS（二级分类SMS）感兴趣，从而防止过滤掉对用户有价值的信息，实现用户差异化的广告营销类SMS接收和处理，满足用户个性化的业务需求，增强用户体验。同时，也保障了合法投放的广告营销类SMS对用户业务体验的提升，增加了运营商及商家的合法利益。

图4示出了根据本发明一个实施例的广告营销类语言信息识别装置。参见图4，该识别装置为客户端，包括：模型存储模块、SMS分类模块、用户行为查询模块以及广告营销类处理模块，其中，

模型存储模块，用于存储外部服务器下发的垃圾SMS分类共享模型；

本发明实施例中，模型存储模块还可以进一步按照预先设置的周期，向服务器发送更新请求，根据服务器返回的垃圾SMS分类共享模型，对存储的垃圾SMS分类共享模型进行更新。

SMS分类模块，用于接收SMS，调用模型存储模块存储的垃圾SMS分类共享模型，对接收的SMS进行分类，识别出所述接收到的SMS为某一类型的广告营销类SMS，通知用户行为查询模块；

本发明实施例中，SMS分类模块对接收的SMS进行分类，如果为正常SMS，提示用户收到新SMS；如果为违法诈骗SMS，删除接收的SMS，如果为二级分类SMS，通知用户行为查询模块。

本发明实施例中，查询客户端在预先设置的第一时间段内，是否具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录，如果是，提示用户收到新SMS；否则，通知广告营销类处理模块。

本发明实施例中，广告营销类处理模块接收通知，读取历史SMS；基于读取的历史SMS计算用户对广告营销类语言信息喜好度，判断计算的用户对广告营销类语言信息喜好度是否不大于预先设置的喜好度阈值，如果是，删除接收的SMS，否则，提示用户收到新SMS。

本发明实施例中，广告营销类处理模块包括：分类标识单元、第一占比统计单元、第二占比统计单元、计算单元以及处理单元（图中未示出），其中，

分类标识单元，用于接收通知，读取历史SMS，利用模型存储模块存储的垃圾SMS分类共享模型，对读取的历史SMS进行分类标识；

第一占比统计单元，用于统计标识的广告营销类SMS在预先设置的各时间段内的占比，输出至计算单元；

本发明实施例中，标识的广告营销类SMS在预先设置的各时间段内的占比计算公式为：

N_Ti(Ad)为标识的广告营销类SMS在第i时间段内的数量；

N_Ti为SMS在第i时间段内的数量。

第二占比统计单元，用于统计标识的广告营销类SMS下的各二级分类SMS，计算各二级分类SMS分别在预先设置的各时间段内的占比，输出至计算单元；

本发明实施例中，计算各二级分类SMS分别在预先设置的各时间段内的占比的公式如下：

N_Ti(Ad_j)为第j个二级分类在第i时间段内的SMS数量；

N_Ti(Ad_k)为第k个二级分类在第i时间段内的SMS数量；

n为广告营销类SMS中除其它二级分类的二级分类数量。

计算单元，用于将接收的信息应用于预先设置的计算公式，将计算得到的用户对广告营销类语言信息喜好度信息输出至处理单元；

本发明实施例中，计算公式如下：

UASP(Ad_j)=αP_T0(Ad)P_T0(Ad_j)+βP_T1(Ad)P_T1(Ad_j)+γP_T2(Ad)P_T2(Ad_j)

γ为第三时间段T₂内用户对第j个二级分类SMS的喜好程度影响因子；

α+β+γ=1。

处理单元，用于判断接收的用户对广告营销类语言信息喜好度是否不大于预先设置的喜好度阈值，如果是，删除接收的SMS，否则，提示用户收到新SMS。

图5示出了根据本发明一个实施例的广告营销类语言信息识别系统。参见图5，该广告营销类语言信息识别系统包括：服务器以及客户端，其中，

服务器，用于根据收集的违法诈骗SMS生成垃圾SMS语料库，对生成的垃圾SMS语料库进行标注；按照预先设置的广告营销类SMS分类策略，对收集的广告营销类SMS进行二级分类，并依据二级分类SMS生成对应的二级分类语料库，分别对生成的二级分类语料库进行标注；

提取标注的垃圾SMS语料库中的特征词，生成垃圾特征词库，提取标注的二级分类语料库中的特征词，生成二级特征词库；

利用预先设置的文本分类模型，对生成的垃圾特征词库以及二级特征词库进行训练，构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型，下发至客户端；

本发明实施例中，客户端调用存储的垃圾SMS分类共享模型对接收的SMS进行分类，在确定接收的SMS为二级分类SMS后，查询到客户端在预先设置的第一时间段内，不具有将与接收的SMS为同一二级分类的SMS从垃圾箱中放回收件箱的记录，读取历史SMS；

基于读取的历史SMS计算用户对广告营销类语言信息喜好度，确定计算的用户对广告营销类语言信息喜好度不大于预先设置的喜好度阈值，识别接收的SMS为垃圾SMS。

本发明实施例中，服务器包括：垃圾SMS语料库标注模块、二级分类语料库模块、垃圾特征词库模块、二级特征词库模块以及模型构建模块（图中未示出），其中，

垃圾SMS语料库标注模块，用于根据收集的违法诈骗SMS生成垃圾SMS语料库，对生成的垃圾SMS语料库进行标注；

二级分类语料库模块，用于按照预先设置的广告营销类SMS分类策略，对收集的广告营销类SMS进行二级分类，并依据二级分类SMS生成对应的二级分类语料库，分别对生成的二级分类语料库进行标注；

垃圾特征词库模块，用于提取标注的垃圾SMS语料库中的特征词，生成垃圾特征词库；

二级特征词库模块，用于提取标注的二级分类语料库中的特征词，生成二级特征词库；

模型构建模块，用于利用预先设置的文本分类模型，对生成的垃圾特征词库以及二级特征词库进行训练，构建用于将SMS分类为正常SMS、二级分类SMS以及违法诈骗SMS的垃圾SMS分类共享模型，下发至客户端。

本发明实施例中，文本分类模型包括：NB分类模型、SVM分类模型、ME分类模型中的一种或其任意组合。

客户端的结构与图4相同。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的垃圾语言信息识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了，A1.一种广告营销类语言信息的处理方法，包括：接收语言信息；调用预先设置的语言信息分类模型，所述语言信息分类模型能够识别出不同类型的广告营销类语言信息；根据所述语言信息分类模型对所述接收到的语言信息进行类型识别，识别出所述接收到的语言信息为某一类型的广告营销类语言信息；根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收。

A2.根据A1所述的方法，所述根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括：

A3.根据A1或A2所述的方法，所述根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括：

A4.根据A1所述的方法，所述根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括：

A5.根据A1所述的方法，预先设置所述语言信息分类模型包括：

A6.根据A5所述的方法，所述文本分类模型包括：朴素贝叶斯分类模型、支持向量机分类模型、最大熵分类模型中的一种或其任意组合。

A7.根据A6所述的方法，所述文本分类模型为多个时，每一文本分类模型对应一语言信息分类模型，所述方法进一步包括：

A8.根据A3所述的方法，所述基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度包括：

A9.根据A8所述的方法，所述统计标识的广告营销类语言信息在预先设置的各时间段内的占比的公式为：

N_Ti(Ad)为标识的广告营销类语言信息在第i时间段内的数量；

N_Ti为语言信息在第i时间段内的数量。

A10.根据A9所述的方法，所述计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比的公式为：

n为广告营销类的类型数量。

A11.根据A10所述的方法，所述用户对广告营销类语言信息喜好度计算公式为：

UASP(Ad_j)=αP_T0(Ad)P_T0(Ad_j)+βP_T1(Ad)P_T1(Ad_j)+γP_T2(Ad)P_T2(Ad_j)

α+β+γ=1。

A12.根据A1所述的方法，进一步包括：

A13.根据A12所述的方法，所述按照垃圾信息的处理办法处理包括：

B14.一种广告营销类语言信息识别装置，包括：模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块，其中，

B15.根据B14所述的装置，所述模型存储模块进一步用于按照预先设置的周期，向服务器发送更新请求，根据服务器返回的语言信息分类模型，对存储的语言信息分类模型进行更新。

B16.根据B14或B15所述的装置，所述用户行为查询模块包括：用户行为查询单元以及广告营销类语言信息喜好度处理单元，其中，

B17.根据B16所述的装置，所述广告营销类语言信息喜好度处理单元包括：分类标识子单元、第一占比统计子单元、第二占比统计子单元、计算子单元以及处理子单元，其中，

C18.一种语言信息识别系统，包括：服务器以及客户端，其中，

C19.根据C18所述的系统，所述服务器包括：垃圾语言信息语料库标注模块、分类语料库模块、垃圾特征词库模块、特征词库模块以及模型构建模块，其中，

C20.根据C18或C19所述的系统，所述客户端包括：模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块，其中，

Claims

1.一种广告营销类语言信息的处理方法，应用于客户端，包括：

接收语言信息；

调用预先设置的语言信息分类模型，所述语言信息分类模型能够识别出不同类型的广告营销类语言信息；其中，服务器具有多个垃圾SMS分类共享模型，所述语言信息分类模型为服务器测试最佳的垃圾SMS分类共享模型；

根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件，包括：

查询到接收端在预先设置的第一时间段内，不具有将与接收的语言信息为同一类型的广告营销类语言信息从垃圾箱中放回收件箱的记录，读取历史语言信息；

基于读取的历史语言信息计算用户对所述某一类型的广告营销类语言信息喜好度，用户对广告营销类语言信息喜好度计算公式为：

UASP(Ad_j)＝αP_T0(Ad)P_T0(Ad_j)+βP_T1(Ad)P_T1(Ad_j)+γP_T2(Ad)P_T2(Ad_j)，

UASP(Ad_j)用户对第j个类型的广告营销类语言信息的喜好度，所述第j个类型的广告营销类语言信息具体为所述某一类型的广告营销类语言信息；

P_T0(Ad)、P_T1(Ad)和P_T3(Ad)分别为广告营销类语言信息在第一时间段、第二时间段和第三时间段内的占比，P_T0(Ad_j)、P_T1(Ad_j)和P_T2(Ad_j)分别为第j个类型的广告营销类语言信息在第一时间段、第二时间段和第三时间段内的占比；

α+β+γ＝1；

确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收，其中，如果UASP(Ad_j)＞UASP_T，表示所述某一类型的广告营销类语言信息满足预置条件，UASP_T为预先设置的喜好度阈值。

2.如权利要求1所述的方法，所述根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括：

3.如权利要求1所述的方法，所述根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件包括：

4.如权利要求1所述的方法，预先设置所述语言信息分类模型包括：

5.如权利要求4所述的方法，所述文本分类模型包括：朴素贝叶斯分类模型、支持向量机分类模型、最大熵分类模型中的一种或其任意组合。

6.如权利要求5所述的方法，所述文本分类模型为多个时，每一文本分类模型对应一语言信息分类模型，所述方法进一步包括：

7.如权利要求1所述的方法，所述基于读取的历史语言信息计算接收端用户对所述某一类型的广告营销类语言信息的喜好度包括：

8.如权利要求7所述的方法，所述统计标识的广告营销类语言信息在预先设置的各时间段内的占比的公式为：

N_Ti(Ad)为标识的广告营销类语言信息在第i时间段内的数量；

N_Ti为语言信息在第i时间段内的数量。

9.如权利要求8所述的方法，所述计算所述某一类型的广告营销类语言信息分别在预先设置的各时间段内的占比的公式为：

<mrow> <msub> <mi>P</mi> <mrow> <mi>T</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>Ad</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>N</mi> <mrow> <mi>T</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>Ad</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>N</mi> <mrow> <mi>T</mi> <mi>i</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>Ad</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

n为广告营销类的类型数量。

10.如权利要求1所述的方法，进一步包括：

11.如权利要求10所述的方法，所述按照垃圾信息的处理办法处理包括：

12.一种广告营销类语言信息识别装置，其特征在于，包括：模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块，其中，

所述用户行为查询模块包括用户行为查询单元以及广告营销类语言信息喜好度处理单元，其中，

所述用户行为查询单元，用于查询到接收端在预先设置的第一时间段内，不具有将与接收的语言信息为同一类型的广告营销类语言信息从垃圾箱中放回收件箱的记录，读取历史语言信息；

所述广告营销类语言信息喜好度处理单元，用于基于读取的历史语言信息计算用户对所述某一类型的广告营销类语言信息喜好度，用户对广告营销类语言信息喜好度计算公式为：

UASP(Ad_j)＝αP_T0(Ad)P_T0(Ad_j)+βP_T1(Ad)P_T1(Ad_j)+γP_T2(Ad)P_T2(Ad_j)，

α+β+γ＝1；

广告营销类处理模块，用于确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收，其中，如果UASP(Ad_j)＞UASP_T，表示所述某一类型的广告营销类语言信息满足预置条件，UASP_T为预先设置的喜好度阈值。

13.如权利要求12所述的装置，其特征在于，所述模型存储模块进一步用于按照预先设置的周期，向服务器发送更新请求，根据服务器返回的语言信息分类模型，对存储的语言信息分类模型进行更新。

14.如权利要求13所述的装置，其特征在于，所述广告营销类语言信息喜好度处理单元包括：分类标识子单元、第一占比统计子单元、第二占比统计子单元、计算子单元以及处理子单元，其中，

15.一种语言信息识别系统，其特征在于，包括：服务器以及客户端，其中，

客户端，用于调用预先设置的语言信息分类模型对接收的语言信息进行类型识别，识别出所述接收到的语言信息为某一类型的广告营销类语言信息；根据接收端用户的历史行为数据，判断所述接收端用户对所述某一类型的广告营销类语言信息的需求是否满足预置条件；确定满足预置条件的类型的广告营销类语言信息为该接收端用户需要的语言信息，并提供给所述接收端用户正常查收，所述客户端具体用于查询到接收端在预先设置的第一时间段内，不具有将与接收的语言信息为同一类型的广告营销类语言信息从垃圾箱中放回收件箱的记录，读取历史语言信息；基于读取的历史语言信息计算用户对所述某一类型的广告营销类语言信息喜好度，用户对广告营销类语言信息喜好度计算公式为：

UASP(Ad_j)＝αP_T0(Ad)P_T0(Ad_j)+βP_T1(Ad)P_T1(Ad_j)+γP_T2(Ad)P_T2(Ad_j)，

α+β+γ＝1；

如果UASP(Ad_j)＞UASP_T，表示所述某一类型的广告营销类语言信息满足预置条件，UASP_T为预先设置的喜好度阈值。

16.如权利要求15所述的系统，其特征在于，所述服务器包括：垃圾语言信息语料库标注模块、分类语料库模块、垃圾特征词库模块、特征词库模块以及模型构建模块，其中，

17.如权利要求15或16所述的系统，其特征在于，所述客户端包括：模型存储模块、语言信息分类模块、用户行为查询模块以及广告营销类处理模块，其中，