CN106446149B - 一种通知信息的过滤方法及装置 - Google Patents
一种通知信息的过滤方法及装置 Download PDFInfo
- Publication number
- CN106446149B CN106446149B CN201610839726.3A CN201610839726A CN106446149B CN 106446149 B CN106446149 B CN 106446149B CN 201610839726 A CN201610839726 A CN 201610839726A CN 106446149 B CN106446149 B CN 106446149B
- Authority
- CN
- China
- Prior art keywords
- semantic segment
- semantic
- template library
- advertisement
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及计算机技术领域,尤其涉及一种通知信息的过滤方法及装置,包括:根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;其中,通过将任意一个语义段与非广告模板库及广告模板库进行比较,来判断所述语义段是否为广告语义段,其中,非广告模板库用于存储非广告类语义段,广告模板库用于存储广告类语义段。本发明实施例不仅同时使用广告模板库和非广告模板库来判断语义段是否为广告语义段,不会将出现频率较高的非广告语义段误判为广告语义段,因而提高了过滤的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种通知信息的过滤方法及装置。
背景技术
随着移动互联网的不断发展,手机正成为人们日常生活中必不可少的工具。正因为如此,包括金融机构、运营商、电商、商旅等很多服务类行业的公司企业,都会开发自己的手机应用APP或在第三方应用平台(例如微信、微博等平台)上建立自己的服务账号为用户提供各种服务。特别是当用户发生交易、积分、状态、账户金额等信息发生变化时候,会及时把通知信息发送到用户手机上。发送的方式除了传统的短信方式外,还会采用APP应用通知或者第三方平台站内消息的方式进行推送。
对于现在很多手机、信息提醒类APP和第三方平台的运营商,企业为了更好的推广自己,会在通知信息中携带很多广告信息,因此为了提高用户体验,手机运营商、APP运营商或者是第三方平台运营商一般都会利用过滤算法将通知信息中的广告信息过滤掉。
目前最常用的过滤方法一般是通过预先建立一个广告模板库,广告模板库可以保持更新,且其中存储的是被定义为广告信息的语义段。其中,广告模板库的更新方式一般为:获取大量通知信息训练样本,从中获取出现的频率比较高的语义段,作为广告语义段,并更新广告模板库。
基于广告模板库的广告信息过滤方法存在的问题是:通知信息训练样本中出现频率比较高的语义段有可能不是广告语义段,而是一些通用的非广告语义段,将这些语义段加入广告模板库,将会造成使用广告模板库进行通知信息的过滤时,产生误判而导致过滤掉通知信息中的一些非广告语义段。
综上所述,现有技术在对通知信息进行过滤时,容易造成误判,过滤准确性不高。
发明内容
本发明提供一种通知信息的过滤方法及装置,用以解决现有技术中存在的广告模板库更新效率低的技术问题。
一方面,本发明实施例提供一种通知信息的过滤方法,包括:
根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;
针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;
其中,通过下述过程确定所述任意一个语义段是否为广告语义段:
将所述任意一个语义段与非广告模板库进行比较,确定所述任意一个语义段与所述非广告模板库的匹配度,所述非广告模板库用于存储非广告类语义段;
若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为非广告语义段;
若所述任意一个语义段与所述非广告模板库的匹配度为低匹配度,则将所述任意一个语义段与广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的匹配度,所述广告模板库用于存储广告类语义段;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为广告语义段,否则,确定所述任意一个语义段为非广告语义段。
可选地,根据下列方式确定所述任意一个语义段与所述广告模板库的匹配度:
若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数;
可选地,根据下列方式确定所述任意一个语义段与所述非广告模板库的匹配度:
若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数。
可选地,所述方法还包括:
若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,且所述非广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述非广告模板库;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,且所述广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述广告模板库。
可选地,所述预设的划分标识符为句号、问号以及感叹号。
另一方面,本发明实施例还提供一种通知信息过滤装置,包括:
语义段划分单元,用于根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;
过滤单元,用于针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;
广告语义段确定单元,用于通过下述过程确定所述任意一个语义段是否为广告语义段:将所述任意一个语义段与非广告模板库进行比较,确定所述任意一个语义段与所述非广告模板库的匹配度,所述非广告模板库用于存储非广告类语义段;若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为非广告语义段;若所述任意一个语义段与所述非广告模板库的匹配度为低匹配度,则将所述任意一个语义段与广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的匹配度,所述广告模板库用于存储广告类语义段;若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为广告语义段,否则,确定所述任意一个语义段为非广告语义段。
可选地,所述广告语义段确定单元,具体用于:
若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数;
可选地,所述广告语义段确定单元,具体用于:
若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数。
可选地,所述装置还包括更新单元,用于:
若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,且所述非广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述非广告模板库;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,且所述广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述广告模板库。
可选地,所述预设的划分标识符为句号、问号以及感叹号。
本发明实施例,根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;其中,通过将任意一个语义段与非广告模板库及广告模板库进行比较,来判断所述语义段是否为广告语义段,其中,非广告模板库用于存储非广告类语义段,广告模板库用于存储广告类语义段。本发明实施例不仅同时使用广告模板库和非广告模板库来判断语义段是否为广告语义段,不会将出现频率较高的非广告语义段误判为广告语义段,因而提高了过滤的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种更新模板库的方法流程图;
图2为本发明实施例提供的一种通知信息的过滤方法流程图;
图3为本发明实施例提供的一种语义段的转换方法流程图;
图4为本发明实施例提供的一种更新模板库的方法详细流程图;
图5为本发明实施例提供的一种语义段的转换方法详细流程图;
图6为本发明实施例提供的一种更新模板库的装置示意图;
图7为本发明实施例提供的一种通知信息的过滤装置示意图;
图8为本发明实施例提供的一种语义段的转换装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
服务类行业公司主要包括金融机构类、运营商类、电商类、商旅类等网站,对客户发的通知信息主要有以下几个类型:
一.纯通知类短信
①尾号1234储蓄卡账户12:40在ATM机取款300元。(银行)
②温馨提示:截止03月07日24时,您当月累计使用流量150.6MB。其中,国内流量已使用21.6MB,剩余979.4MB;国内流量半年流量包已使用1.064GB,剩余1.936GB。(运营商)
③您购买的订单号879885554已经从仓库运出,大概3天后到您手中,请注意查收。(电商类)
④您购买的7月8日CA1819次航班已经出票,请准时到达机场。(商旅类)
二.通知+广告类
⑤您账户5678于01月02日11:21发生网银快捷支付扣款30元。当月交易满100元送100积分。(银行)
⑥您好:您的手机(130****7787)上月消费金额56元,现账户余额为12元,如果有欠费,请及时充值。温馨提示:现在充值满100元可以享受送400M流量包优惠。(运营商)
⑦本次交易验证码456421,请勿向任何人泄露收到的验证码。猛戳t.xxx.com/GFDG立马领取亿万理财券。(电商类)
⑧您在本网站购买的7月12日的MU5028航班预计将延迟2个小时以上,对您旅程的影响深表歉意。雷雨季节使用延误险,出行不担忧,现在通过手机端购买保险立马享受随机减的优惠。(航旅类)
三.纯广告类
⑨本行将于3月16日至18日起售一年期保本保收益定期存款产品,5万起年收益5,相比定期存款,100000元多2600元收益,额度有限,速速抢购。(银行)
⑩【中国石油】积分商城(http://www.jf.95504.net、中油好客e站微信号)6月17日钜惠启航!积分兑换电子充值卡,兑换+油卡充值=积分加油!多种面值可选!新客户记得注册绑卡哟.......。(电商类)
下面结合说明书附图对本发明实施例作进一步详细描述。
如图1所示,本发明实施例提供的一种更新模板库的方法,包括:
步骤101、根据通知信息的来源,将获取到的通知信息划分为至少一个数据集;
步骤102、针对所述至少一个数据集中的任意一个数据集,根据预设的划分标识符,将所述任意一个数据集中的每条通知信息划分为至少一个语义段;对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段;
步骤103、根据所述目标语义段,更新模板库,所述模板库用于存储满足预设条件的语义段。
在上述步骤101中,根据通知信息的来源,将获取到的通知信息划分为至少一个数据集。
可选地,根据通知信息的来源,将获取到的通知信息划分为至少一个数据集,可以有多种方式,下列例举几种方式作为说明:
第一种方式:根据通知信息对应的应用名称、时间,将获取到的通知信息划分为至少一个数据集。
第二种方式:根据通知信息对应的应用名称、渠道,将获取到的通知信息划分为至少一个数据集。
第三种方式、根据通知信息对应的应用名称、渠道、时间,将获取到的通知信息划分为至少一个数据集。
其中,之所以按照以上的划分方式对通知信息进行分类,主要是基于以下理由:通知信息中的广告信息具有具有时间归属性、应用归属性及渠道归属性。例如某种广告信息在某个应用下在某个时间段或者某天内发送给了所有用户,则可以使用上述第一种方式,来将通知信息进行划分到不同的数据集中,也就是说,在同一个数据集中存储的是来自于同一个应用在同样时间段的通知信息;或者是某种广告信息在某个应用的某个渠道下具有重复性,则可以使用上述第二种方式,来将通知信息进行划分到不同的数据集中,也就是说,在同一个数据集中存储的是来自于同一个应用及同一渠道下的通知信息;或者是某种广告信息在某个应用的某个渠道下具有重复性和连续性,则可以使用上述第三种方式对通知信息进行划分到不同的数据集中,也就是说,在同一个数据集中存储的是来自于同一个应用及同一渠道下,且属于同一时间的通知信息。
下面以上述第三种方式为例进行举例说明。
服务端将授权用户(即只有经过用户授权后,服务端才可以获取到这些通知类信息)的所有通知类信息按照应用名称、渠道和日期分隔开,形成数据集,每个数据集合以应用名称、渠道、日期命名,例如形成以下数据集:
数据集1:移动-短信-2016.05.08
数据集2:移动-短信-2016.05.09
数据集3:移动-短信-2016.05.10
......
数据集k:移动-APP通知-2016.05.08
数据集k+1:移动-APP通知-2016.05.09
数据集k+2:移动-APP通知-2016.05.10
......
数据集l:电商-APP通知-2016.05.08
数据集l+1:电商-APP通知-2016.05.09
数据集l+2:电商-APP通知-2016.05.10
......
数据集m:电商-微信通知-2016.05.08
数据集m+1:电商-微信通知-2016.05.09
数据集m+2:电商-微信通知-2016.05.10
......
从而,根据上述方法,将获取到的通知信息划分到了多个数据集中,每个数据集中的通知信息是来源于同一应用、同一渠道及同一时间,并且同一个数据集中的通知信息具有高度关联性,也就是说,同一个数据集中的通知信息具有相同语义段的概率要更高。
上述步骤102中,针对根据步骤101中得到的多个数据集,针对其中的每一个数据集,都会得到一些目标语义段,下面针对其中任意一个数据集,来说明书如何得到该数据集中的目标语义段。
步骤A、根据预设的划分标识符,将所述任意一个数据集中的每条通知信息划分为至少一个语义段。
考虑到广告本身具有典型的时间、渠道及应用特性,为了尽可能扩大广告影响力和营销效果,同一个应用在某个渠道在某个时间段(例如一天内)发送的广告信息应该是相同的。一般会采取在用户正常通知信息最后面添加广告、或直接给用户推送广告信息两种方式。考虑到上述情况,我们对通知信息处理不是采用整条信息处理的方式,而是对原始信息用预设的划分标识符进行分割(本发明实施例中,预设的划分标识符为句号、问号、感叹号),形成一个个具有完整意义的语义段。在切分后,上述完整的信息就可以划分成不同的语义段,以下是举例:
举例1、信息⑤按照句号切割,原文就变成“您账户5678于01月02日11:21发生网银快捷支付扣款30元。”和“当月交易满100元送100积分。”两个语义段。
举例2、信息⑧按照句号切割,原文就可以得到“雷雨季节使用延误险,出行不担忧,现在通过手机端购买保险立马享受随机减的优惠。”,“您在本网站购买的7月12日的MU5028航班预计将延迟2个小时以上,对您旅程的影响深表歉意。”两个语义段。
举例3、信息⑩按照句号和感叹号切割,原文就可以得到“中国石油】积分商城(http://www.jf.95504.net、中油好客e站微信号)6月17日钜惠启航!”,“积分兑换电子充值卡,兑换+油卡充值=积分加油!”,“多种面值可选!”,“新客户记得注册绑卡哟.......。”四个语义段。
步骤B、对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段。
将每个数据集中每条通知信息都按照如上原则切分成不同的语义段,并统计相同语义段出现的次数,注意这里一定要是完全相同,因为这样可以把信息中的有效部分区别开来,比如以下是电商类发货通知信息:
(1)您购买的订单号87885554已经从仓库运出,大概3天后到您手中,请注意查收。
(2)您购买的订单号98766876已经从仓库运出,大概3天后到您手中,请注意查收。
以上两条通知信息结构一样,但是因为其中关键的信息订单号不一样,说明这其实可能是有效信息。按照我们上述的原则,即使有很多条类似结构的短信,出现次数也不会相加。
将语义段出现的次数按照倒序排序,得到每个数据集的相同语义段出现次数的倒序集合,按照以下格式以待下一步处理,举例来说,表1为数据集(移动-短信-2016.05.08)中的所有通知信息划分为语义段之后的统计结果表;表2为数据集(银行-APP通知-2016.07.03)中的所有通知信息划分为语义段之后的统计结果表。
表1移动-短信-2016.05.08
语义段 | 出现次数 |
温馨提示:现在充值满100元可以享受送400M流量包优惠。 | 1098 |
现在安装家庭宽带,6月1日之前可以享受8折优惠 | 876 |
… | … |
表2银行-APP通知-2016.07.03
语义段 | 出现次数 |
当月交易满100元送100积分 | 8765 |
… | 876 |
恭喜你当期账单已经还清。 | 342 |
对于每个数据集,在统计出其中的所有不同语义段出现的次数之后,再从中选出目标语义段,可选地,对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段,包括:针对一个数据集划分得到的所有语义段中的任意一个语义段,若所述任意一个语义段满足下列条件中的任意一个,则确定所述任意一个语义段为目标语义段,否则,确定所述任意一个语义段不为目标语义段。其中:
条件一:所述任意一个语义段的权重大于或等于第一阈值,所述任意一个语义段的权重为所述任意一个语义段在所述任意一个数据集中的出现次数与所述任意一个数据集对应的通知信息的数量的比值。
举例来说,假设数据集A中一共有1000个不同的语义段,且这1000个语义段是来源于400条通知信息,针对其中的语义段a,假设语义段a出现的次数为500次,则语义段a的权重为500/400=1.25;再比如语义段b,其出现的次数为200此,则语义段b的权重为200/400=0.5。
如果预设的第一阈值为1,则语义段a被确定为目标语义段,而语义段b被确定为不是目标语义段;如果预设的第一阈值为0.4,则语义段a和语义段b都被确定为目标语义段。
条件二:所述任意一个语义段属于目标集合,所述目标集合由所述至少一个数据集中出现次数大于第二阈值的所有语义段中排名靠前预设比例的语义段构成。
举例来说,数据集B中一共有2000个不同的语义段,第二阈值预设为500,且数据集B中出现次数超过500的语义段共有800个(即数据集B的2000个语义段中有800个语义段的出现次数超过500次),然后从这500个语义段中选出排名前预设比例(例如40%)的语义段,构成目标集合,即目标集合中有200个语义段。对于数据集B中的任意一个语义段,假设其属于该目标集合,则该语义段就是目标语义段;换句话说,目标集合中的任意一个语义段均为目标语义段。
对于一个数据集中的任意一个语义段,只要其满足上面的两个条件中的任意一个,则该语义段就是目标语义段。
上述步骤103中,在针对每个数据集都得到了目标语义段之后,在利用这些目标语义段来更新模板库,所述模板库用于存储满足预设条件的语义段。
在实际应用中,模板库可以只有一个,例如模板库为广告模板库,用于存储为广告信息的语义段;模板库也可以由多个库组成,例如在本发明实施例中,模板库包含两个库,具体地,所述模板库包括广告模板库和非广告模板库,所述广告模板库用于存储广告类语义段,所述非广告模板库用于存储非广告类语义段。
举例来说,广告模板库中存储的出现次数较多的广告类语义段,例如“当月交易满100元送100积分”;但是也还有一些语义段,其出现次数也非常多,但这类语义段其实并不是广告类语义段,而是一些特定信息,例如银行发送的特定信息“恭喜你当期账单已经还清”。
可选地,根据所述目标语义段,更新模板库,具体包括:
针对所述目标语义段中的任意一个语义段,将所述任意一个语义段与所述广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的第一匹配度;以及将所述任意一个语义段与所述非广告模板库进行比较,确定所述任意一个语义段与所述非模板广告库的第二匹配度;根据所述第一匹配度、所述第二匹配度及所述任意一个语义段,更新所述广告模板库或所述非广告模板库。
可选地,根据所述第一匹配度、所述第二匹配度及所述任意一个语义段,更新所述广告模板库或所述非广告模板库,包括:
若所述第一匹配度为高匹配度且所述第二匹配度为低匹配度,则将所述任意一个语义段加入所述广告模板库;
若所述第一匹配度为低匹配度且所述第二匹配度为高匹配度,则将所述任意一个语义段加入所述非广告模板库;
若所述第一匹配度为高匹配度且所述第二匹配度为高匹配度,则输出由人工判断所述任意一个语义段是需要加入广告模板库还是加入非广告模板库,或者是都不加入;
若所述第一匹配度为低匹配度且所述第二匹配度为低匹配度,则输出由人工判断所述任意一个语义段是需要加入广告模板库还是加入非广告模板库,或者是都不加入。
上述根据所述目标语义段,更新模板库的方法用表3来表示,为:
表3
序号 | 第一匹配度 | 第二匹配度 | 处理方式 |
1 | 高 | 高 | 输出人工确认 |
2 | 高 | 低 | 将目标语义段加入广告模板库 |
3 | 低 | 高 | 将目标语义段加入非广告模板库 |
4 | 低 | 低 | 输出人工确认 |
通过上面步骤的处理,可以大大减少人工查看语义段的数量,快速得到新的广告类的语义段。由于非广告模板一般比较稳定,不会随着时间快速增加,同时,随着广告模板库的增大,上述表3中的第2种情形会相对比较多一些,而上述表3中的第1和第4种情形会越来越少,直至最后需要人工介入的情况也会越来越少,最后甚至是无需人工接入。
对于表3中的第1和第4种情形,其中在第1种情形下,人工判断的结果一般为:要么将该需要人工判断的语义段加入到广告模板库,要么加入到非广告模板库;而对于第4种情形,则一般经人工确认后,是两个模板库都不加入。当然,具体经人工判断后是需要加入广告模板库还是加入非广告模板库,或者是都不加入,则是视实际情况而定。
下面对上述过程中,确定所述任意一个语义段与所述广告模板库的第一匹配度,以及确定所述任意一个语义段与所述非广告模板库的第二匹配度。
可选地,将所述任意一个语义段与广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的第一匹配度,包括:若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的第一匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的第一匹配度确定为低匹配度。其中:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
举例来说,假设广告模板库中当前已经存储有100个语义段了,这些语义段均为广告类语义段。那么条件一指的是,对于目标语义段中的任意一个语义段,将该语义段与广告模板库中的100个语义段从前往后进行比较,如果该语义段与广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值,则确定满足上述条件一;如果该语义段与广告模板库中的所有语义段的相似度均小于第一相似阈值,则确定不满足上述条件一。
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数。
举例来说,假设广告模板库中当前已经存储有100个语义段了,这些语义段均为广告类语义段。那么条件二指的是,对于目标语义段中的任意一个语义段,将该语义段与广告模板库中的100个语义段从前往后进行比较,如果该语义段与广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,并且,M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,则确定满足上述条件二;如果M与所述广告模板库中语义段的总数量的比值小于所述预设的第一比例,则确定不满足上述条件二。例如预设的第一比例为30%,当M等于50时,则表明该语义段满足条件二,当M=20时,则表明该语义段不满足条件二,等等。
对于目标语义段中的任意一个语义段,如果满足上述条件一和上述条件二中的至少一个,则将所述该语义段与所述广告模板库的第一匹配度确定为高匹配度,否则,将该语义段与所述广告模板库的第一匹配度确定为低匹配度。
对于将目标语义段中的任意一个语义段与非广告模板库进行比较,确定该语义段与非模板广告库的第二匹配度的方法,与上述确定第一匹配度的方法类似,只是其中使用到了不同的阈值,例如下述方法使用到的是第三相似阈值,第四相似阈值以及预设的第二比例,具体方法为:若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的第二匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的第二匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数。
通过上述方法,使用到了两个模板库,广告模板库和非广告模板库,从而在对目标语义段进行判断时,将确实是广告信息的语义段加入到广告模板库中,而将那些只是多次出现的基本信息加入到非广告模板库,这么设计的好处在于,如果按照传统的方法,一般只会设置一个广告模板库,而没有非广告模板库,将会导致将多次出现的基本信息也会被加入到广告模板库中,这其实是一种错误。而使用本发明实施例中的方法,则会对目标语义段进行正确的划分,不会造成误判。
此外,在上述步骤中,具体描述了如何确定一个目标语义段是要加入广告模板库还是加入非广告模板库,还是都不加入。其中,主要使用到了匹配度的确定,具体地,包括将所述任意一个语义段与广告模板库进行比较得到第一匹配度,以及将所述任意一个语义段与非广告模板库进行比较,得到第二匹配度。
本发明实施例,首先根据通知信息的来源,将获取到的通知信息划分为至少一个数据集;针对所述至少一个数据集中的任意一个数据集,根据预设的划分标识符,将所述任意一个数据集中的每条通知信息划分为至少一个语义段;对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段,由此可以看出,本发明实施例可以实现自动地从大量的通知信息中找出目标语义段,这些目标语义段中包含疑似广告信息,进而根据目标语义段,更新模板库,因而本发明实施例在更新模板库时可以实现自动化地更新模板库,提高了模板库的更新效率。
一方面,本发明实施例提供一种通知信息的过滤方法,如图2所示,包括:
步骤201、根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;
可选地,所述预设的划分标识符为句号、问号以及感叹号。
步骤202、针对所述至少一个语义段中的任意一个语义段,确定所述任意一个语义段是否为广告语义段;
具体地,包括以下步骤:
步骤2021、将所述任意一个语义段与非广告模板库进行比较,确定所述任意一个语义段与所述非广告模板库的匹配度,所述非广告模板库用于存储非广告类语义段;
步骤2022、若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为非广告语义段;
步骤2023、若所述任意一个语义段与所述非广告模板库的匹配度为低匹配度,则将所述任意一个语义段与广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的匹配度,所述广告模板库用于存储广告类语义段;
步骤2024、若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为广告语义段,否则,确定所述任意一个语义段为非广告语义段。
步骤203、若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段。
上述过程,首先将待处理通知信息划分为多个语义段,针对其中任意一个语义段,如果确定该语义段是广告语义段,则将该语义段从通知信息中删除;如果确定该语义段是非广告语义段,则不删除,即保留该语义段,从而最终可以将一个待处理通知信息中的广告语义段过滤掉。
可选地,根据下列方式确定所述任意一个语义段与所述广告模板库的匹配度:
若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数;
可选地,根据下列方式确定所述任意一个语义段与所述非广告模板库的匹配度:
若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数。
上述确定语义段与广告模板库的匹配度的方法与更新模板库过程中判断目标语义段与广告模板库相同,确定语义段与非广告模板库的匹配度的方法与更新模板库过程中判断目标语义段与非广告模板库相同,在此不再赘述,可参考上面的详细说明。
可选地,若待处理通知信息中的任意一个语义段与非广告模板库的匹配度为高匹配度,且所述非广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述非广告模板库;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,且所述广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述广告模板库。
若待处理通知信息中的任意一个语义段与非广告模板库的匹配度为高匹配度,且所述非广告模板库中不包含与所述任意一个语义段完全相同的语义段,则表明该语义段是一个非广告语义段,但非广告模板库中没有存储这个语义段,因此可以将该语义段加入所述非广告语义段。
同样的理由,若待处理通知信息中的任意一个语义段与广告模板库的匹配度为高匹配度,且所述广告模板库中不包含与所述任意一个语义段完全相同的语义段,则表明该语义段是一个广告语义段,但广告模板库中没有存储这个语义段,因此可以将该语义段加入所述广告语义段。
本发明实施例,根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;其中,通过将任意一个语义段与非广告模板库及广告模板库进行比较,来判断所述语义段是否为广告语义段,其中,非广告模板库用于存储非广告类语义段,广告模板库用于存储广告类语义段。本发明实施例不仅同时使用广告模板库和非广告模板库来判断语义段是否为广告语义段,不会将出现频率较高的非广告语义段误判为广告语义段,因而提高了过滤的准确性。
此外,在上述实施例中,对于匹配度的具体确定方式,主要是依据广告模板库及非广告模板库中语义段的存储方式,例如,一种存储方式为,对语义段进行分词,存储语义段对应的分词特征。
举例来说,假设一个目标语义段为:如果在本月底消费100元,将有机会抽取iphone6。
则分词后的分词特征A为:如果,在,本月,底,消费,100,元,将有,机会,抽取,iphone6。
假设广告模板库中已有一条语义段,其存储的分词特征B为:如果,您,在,本月,30,日,之前,消费,200,元,有,机会,抽取,大奖。
那么,确定目标语义段与广告模板库的第一匹配度的具体方式为:首先需要从A找到“如果”,然后从B中搜索是否有“如果”,如果存在,则表示第一个有相同的词语,然后再看“您”在B中是否出现,剩下类似,直到A中所有的词语都判断完毕,然后将A和B中同时出现的词语的数量/A、B不重复出现的所有词语的数量作为目标语义段与广告模板库的相似度。
上述过程可以实现确定一个目标语义段与广告模板库的相似度,使用相同的方法,也可以确定一个目标语义段与非广告模板库的相似度。但以上的处理过程由于只考虑了词语的绝对相似性,没考虑该词在原来信息段中的位置和重要程度;并且从处理过程来看,该方法中模板库中存储的是分词特征,将会占据较大的存储空间,并且计算模板相似度的时间复杂度也比较高,而且匹配的准确性却不高,因而上述方法具有极大的改进空间。
下面给出一种语义段的转换方法,具体地,通过该方法,可以计算每个语义段对应的哈希值。因而基于这种转换方法,在广告模板库中,存储的每个广告类语义段都是以哈希值的形式进行存储的,并且在对某个语义段与广告模板库进行匹配时,也是首先将该语义段转换为哈希值,然后与广告模板库进行匹配。
举例来说,假设广告模板中有某个广告类语义段为:如果您在本月30日之前消费200元,有机会抽取大奖,并且该广告类语义段被转换后,对应的哈希值为:110110011110(假设每个语义段是以12位二进制数来表示)。
因而,按照上述方法,在广告类模板库中存储的将是每个广告类语义段对应的哈希值,而不是广告类语义段内容本身,这种存储方式,一方面比较节省空间;另一方面,在对广告模板库进行更新时,是将待判断的目标语义段对应的哈希值与广告模板库中存储的哈希值进行比较,效率将提高很多。
上述只是以广告模板库为例进行说明,对于非广告模板库,其处理方式与广告模板库相同,不再赘述。
下面结合附图进行详细说明。
参照附图3,为本发明实施例提供的一种语义段的转换方法,包括:
步骤301、根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;
步骤302、对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;
步骤303、根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。
在本发明实施例中,每个语义段使用一个包含预设位数的二进制数值来表示,并且对一个语义段进行分词后得到的每个词语,也使用一个具有相同预设位数的二进制数值来表示。举例来说,一个语义段使用12位的二进制数值来表示,则该语义段中的每个词语也使用12位的二进制数值来表示。
在上述步骤301中,根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值,可选地,具体为:
若所述通知信息中包含的语义段的数量等于1,则将所述语义段对应的权重设置为第一预设权重值;
例如,如果一个通知信息中只包含一个语义段,则将该语义段对应的权重值统一设置为1.5,或者是设置为2等等,具体视实际情况而定。
若所述通知信息中包含的语义段的数量大于1,则所述语义段对应的权重值按照所述语义段在所述通知信息中的位置进行设置,其中,距离所述通知信息的首部越远的语义段的权重值越大。
例如,将一个语义段对应的权重值用W1来说表示。一个通知信息中包含3个语义段,则可以依次将第1个语义段的权重设置为0.7,将第2个语义段的权重设置为0.8,将第3个语义段的权重设置为1,因而一般情况下,广告类语义段一般是出现在一条通知信息中比较靠后的位置,因为一条通知信息一般是在开始的位置给出正常的信息内容,后面才会是加上广告信息,因此根据通知信息的这个特点,本发明在对语义段设置权重时,如果通知信息中包含多个语义段,则将靠后位置的语义段的权重值设置的要大于靠前位置的语义段的权重值。
上述步骤302中,对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值,可选地,根据下列方式确定所述语义段中的每个词语对应的权重值:根据所述词语的业务属性及所述词语在所述语义段中的位置,确定所述词语对应的第一权重值;根据所述词语与广告属性词库的匹配度,确定所述词语对应的第二权重值;根据确定的所述词语对应的第一权重值及对应的第二权重值,确定词语对应的权重值。
可选地,对所述语义段进行分词得到多个词语之后,为所述多个词语中的每个词语设置对应的权重值之前,还包括:将所述语义段中的每个词语与专有名词库进行匹配;若确定所述词语与所述专有名词库匹配成功,则根据所述词语的属性,将所述词语转换为与所述词语的属性对应的预设名词。
下面举例说明。例如对于以下是三条语义段:
①当月交易满100元送100积分。
②3月30日前访问www.ddd.com获得最新打折机票信息,注册就有奖。
③立即回复hd即可享受充值满100元送400M流量包优惠。
分词结构如下:
①当月|交易|满|A|元|送|A|积分|。
②D|前|访问|U|获得|最新|打折|机票|信息|,|注册|就|有奖|。
③立即回复|hd|即可|享受|充值|满|A|元|送|A|M|流量包|优惠|。
首先,对待分析语义段进行分词,并且对于日期、金额、网页类等专有名词,都转化成统一的类型词。例如,将上述①中的100转成了A,②中的日期转成了D,②中的具体url转成了U等等。
这样做的目的是尽可能和广告模板库和非广告模板进行匹配,而且可以排除变化特征的影响。例如,经过上面处理后,以下2个模板在对比中是一模一样的:
①当月交易满100元送100积分。
②当月交易满200元送150积分。
分词后将每个词语设定不同的权重系数,权重的设定和该词在语义段出现的位置和业务属性、该词与广告属性的相关度相关。
具体地,可以根据词语的业务属性及词语在语义段中的位置,确定词语对应的第一权重值W2;例如对于业务相关词语,如果出现语义段开头,那么其表示业务含义的可能性较高;如果出现在语义段中后部,那么则更可能为广告中的附带信息。因而一个业务类词语,如果出现在语义段的中后部,则相应的权重W2将会设置的要高一些。
根据词语与广告属性词库的匹配度,确定词语对应的第二权重值W3。W3的含义则表示该字符与广告属性的接近程度,例如③中的“立即回复”一般为广告中出现的特有特征词语,所以它的权重值相对较高。
上述步骤303中,根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。
可选地,根据下列方式来确定语义段对应的哈希值:
针对所述语义段中的任意一个词语,将所述词语对应的哈希值中的0替换为-1,得到所述词语对应的第一目标值;根据所述语义段对应的权重值、所述词语对应的权重值及所述第一目标值,得到所述词语对应的第二目标值;
将所述语义段中每个词语对应的第二目标值在对应的位上相加,得到所述语义段对应的目标值;
针对所述语义段对应的目标值中的任意一位,若所述任意一位对应的数值大于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为1;若所述任意一位对应的数值小于或等于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为0。
下面结合具体的例子进行说明。
以“D|前|访问|U|获得|最新|打折|机票|信息|,|注册|就|有奖|。”为例,假设该语义段对应的权重值为W1,每个词语对应一个第一权重值W2和一个第二权重值W3,即每个词语对应的W2和W3相互之间是没有联系的。并且,为下面说明方便,假设每次词语及一个语义段用5位来表示,实际应用中一般是大于128位。
具体计算过程如下:
(1)、计算语义段对应的权重值W1;
(2)、计算每个词语的哈希值,例如:
“D”计算的值为10001
“前”计算的值为01100
.....
“有奖”计算的值为00110
(3)、将每个词语对应的哈希值中的1设为1,0设为-1,乘以自己的W1,W2,W3,则有:
“D”计算的值为5 -5 -5 -5 5(假设W1*W2*W3=5)
“前”计算的值为-4 4 4 -4 -4(假设W1*W2*W3=4)
......
“有奖”计算的值为-9 -9 9 9 -9(假设W1*W2*W3=9)
(4)、将该语义段的所有词语的每位数值相加,并将>0的结果设为1,<=0的结果设置为0。
假设该语义段的最终计算值为8 9 -3 -4 1,则该语义段对应的哈希值为11001。
本发明实施例,根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。从而在广告模板库中存储的均为语义段对应的哈希值,比较节约空间;以及在对通知信息进行广告过滤时,将通知信息中语义段对应的哈希值与广告模板库中的哈希值进行比较,效率比较高。
下面结合图2所示的通知信息的过滤方法和图3所示的语义段的转换方法,举例说明本发明实施例的通知信息过滤的具体方法:
假设广告模板库,其中存储了广告语义段的哈希值(每个哈希值例如使用10位二进制数来表示,当然,这里只是为方便举例说明,实际应用中,一般需要大于128位),例如广告模板库当前包含5个哈希值,分别为:
1101101110,1010111000,1111100000,1110000001,1100110011。
假设非广告模板库,其中存储了非广告语义段的哈希值,每个哈希值也使用10位二进制数来表示,例如非广告模板库当前包含4个哈希值,分别为:
0000111100,0000011111,0001110011,1000000001。
假设当前有一个待处理通知信息,首先根据预设的划分标识符,将该待处理通知信息划分为多个语义段,例如划分为了2个语义段,然后根据上述图3所示的语义段转换方法,将每个语义段转换为10位的二进制哈希值,例如分别被转换为:
1101101111,0000011110。
然后针对这两个语义段中的任意一个,通过下列方法判断是否需要过滤该语义段,例如以1101101111为例进行说明:
步骤A、将1101101111与非广告模板库进行比较,确定第三匹配度(其方法与更新模板库时确定目标语义段与非广告模板库的匹配度的方法相同,即确定是否满足两个条件中的一个,若是则确定为高匹配度,否则确定为低匹配度,这里不重复说明,可参照上面的描述),假设第五相似阈值为90%,第六相似阈值为80%,则计算过程具体包括:
首先依次确定1101101111与非广告模板库中的语义段对应的哈希值之间的相似度(即在相同位上具有形同数值的个数),直至找到一个相似度大于或等于90%的哈希值或均小于90%为止。
通过计算得到:
1101101111与0000111100的相似度为30%,(1101101111与0000111100在3个位上具有相同的数值,因此相似度为3/10=30%);
1101101111与0000011111的相似度为40%;
1101101111与0001110011的相似度为40%;
1101101111与1000000001的相似度为40%。
由此可知,1101101111与非广告模板库不满足条件一,即1101101111与非广告模板库中的任意一个语义段的相似度大于或等于90%;
并且1101101111与非广告模板库中的语义段大于80%且小于90%的个数为0,假设条件二下要求预设比例为80%,则1101101111与非广告模板库不满足条件二。
因此最终,确定1101101111与非广告模板库的第三匹配度为低匹配度。
步骤B、将1101101111与广告模板库进行比较,确定第四匹配度(其方法与更新模板库时确定目标语义段与非广告模板库的匹配度的方法相同,即确定是否满足两个条件中的一个,若是则确定为高匹配度,否则确定为低匹配度,这里不重复说明,可参照上面的描述),假设第七相似阈值为90%,第八相似阈值为80%,则计算过程与上述步骤A中计算1101101111与非广告模板库的过程类似,这里不再赘述,最终结果为:
1101101111与1101101110的相似度为90%。
由于直接在广告模板库中找到了一个与1101101111的相似度大于或等于90%的语义段对应的哈希值,因此可以直接确定1101101111与广告模板库的第四匹配度为高匹配度。
步骤C、从待处理通知信息中删除1101101111对应的语义段。
即从待处理通知信息中删除1101101111对应的语义段。
此外,对于待处理通知信息中的另一个语义段对应的哈希值0000011110,其由于与非广告模板库的第三匹配度为高匹配度,因此不对其进行删除,而是保留。这里不对其计算过程进行赘述。
下面对本发明实施例提供的一种更新模板库的方法做详细描述,如图4所示,包括:
步骤401、根据通知信息的来源,将获取到的通知信息划分为至少一个数据集;
可选地,根据通知信息对应的应用名称、时间,将获取到的通知信息划分为至少一个数据集;或者根据通知信息对应的应用名称、渠道,将获取到的通知信息划分为至少一个数据集;或者根据通知信息对应的应用名称、渠道、时间,将获取到的通知信息划分为至少一个数据集。
步骤402、针对所述至少一个数据集中的任意一个数据集,根据预设的划分标识符,将所述任意一个数据集中的每条通知信息划分为至少一个语义段;对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段;
可选地,针对划分得到的所有语义段中的任意一个语义段,若所述任意一个语义段满足下列条件中的任意一个,则确定所述任意一个语义段为目标语义段,否则,确定所述任意一个语义段不为目标语义段:
条件一:所述任意一个语义段的权重大于或等于第一阈值,所述任意一个语义段的权重为所述任意一个语义段在所述任意一个数据集中的出现次数与所述任意一个数据集对应的通知信息的数量的比值;
条件二:所述任意一个语义段属于目标集合,所述目标集合由所述至少一个数据集中出现次数大于第二阈值的所有语义段中排名靠前预设比例的语义段构成。
步骤403、所述模板库包括广告模板库和非广告模板库,所述广告模板库用于存储广告类语义段,所述非广告模板库用于存储非广告类语义段;针对所述目标语义段中的任意一个语义段,将所述任意一个语义段与所述广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的第一匹配度;以及将所述任意一个语义段与所述非广告模板库进行比较,确定所述任意一个语义段与所述非模板广告库的第二匹配度;根据所述第一匹配度、所述第二匹配度及所述任意一个语义段,更新所述广告模板库或所述非广告模板库。
可选地,若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的第一匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的第一匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数;
可选地,若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的第二匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的第二匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数。
可选地,若所述第一匹配度为高匹配度且所述第二匹配度为低匹配度,则将所述任意一个语义段加入所述广告模板库;若所述第一匹配度为低匹配度且所述第二匹配度为高匹配度,则将所述任意一个语义段加入所述非广告模板库。
本发明实施例,首先根据通知信息的来源,将获取到的通知信息划分为至少一个数据集;针对所述至少一个数据集中的任意一个数据集,根据预设的划分标识符,将所述任意一个数据集中的每条通知信息划分为至少一个语义段;对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段,由此可以看出,本发明实施例可以实现自动地从大量的通知信息中找出目标语义段,这些目标语义段中包含疑似广告信息,进而根据目标语义段,更新模板库,因而本发明实施例在更新模板库时可以实现自动化地更新模板库,提高了模板库的更新效率。
下面对本发明实施例提供的一种语义段的转换方法做详细描述,如图5所示,包括:
步骤501、根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;
具体为,若所述通知信息中包含的语义段的数量等于1,则将所述语义段对应的权重设置为第一预设权重值;若所述通知信息中包含的语义段的数量大于1,则所述语义段对应的权重值按照所述语义段在所述通知信息中的位置进行设置,其中,距离所述通知信息的首部越远的语义段的权重值越大。
步骤502、将所述语义段中的每个词语与专有名词库进行匹配;若确定所述词语与所述专有名词库匹配成功,则根据所述词语的属性,将所述词语转换为与所述词语的属性对应的预设名词;
步骤503、确定所述语义段中的每个词语对应的权重值;
具体为,根据下列方式确定所述语义段中的每个词语对应的权重值:根据所述词语的业务属性及所述词语在所述语义段中的位置,确定所述词语对应的第一权重值;根据所述词语与广告属性词库的匹配度,确定所述词语对应的第二权重值;根据确定的所述词语对应的第一权重值及对应的第二权重值,确定词语对应的权重值。
步骤504、根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。
具体为,所述每个语义段中的每个词语对应的哈希值为包含预设位数的二进制数值;
针对所述语义段中的任意一个词语,将所述词语对应的哈希值中的0替换为-1,得到所述词语对应的第一目标值;根据所述语义段对应的权重值、所述词语对应的权重值及所述第一目标值,得到所述词语对应的第二目标值;
将所述语义段中每个词语对应的第二目标值在对应的位上相加,得到所述语义段对应的目标值;
针对所述语义段对应的目标值中的任意一位,若所述任意一位对应的数值大于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为1;若所述任意一位对应的数值小于或等于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为0。
本发明实施例,根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。从而在广告模板库中存储的均为语义段对应的哈希值,比较节约空间;以及在对通知信息进行广告过滤时,将通知信息中语义段对应的哈希值与广告模板库中的哈希值进行比较,效率比较高。
基于相同的技术构思,本发明实施例还提供一种更新模板库的装置,如图6所示,包括:
数据集划分单元601,用于根据通知信息的来源,将获取到的通知信息划分为至少一个数据集;
目标语义段选取单元602,用于针对所述至少一个数据集中的任意一个数据集,根据预设的划分标识符,将所述任意一个数据集中的每条通知信息划分为至少一个语义段;对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段;
更新单元603,用于根据所述目标语义段,更新模板库,所述模板库用于存储满足预设条件的语义段。
可选地,所述数据集划分单元601,具体用于:
根据通知信息对应的应用名称、时间,将获取到的通知信息划分为至少一个数据集;或者
根据通知信息对应的应用名称、渠道,将获取到的通知信息划分为至少一个数据集;或者
根据通知信息对应的应用名称、渠道、时间,将获取到的通知信息划分为至少一个数据集。
可选地,所述目标语义段选取单元602,具体用于:
针对划分得到的所有语义段中的任意一个语义段,若所述任意一个语义段满足下列条件中的任意一个,则确定所述任意一个语义段为目标语义段,否则,确定所述任意一个语义段不为目标语义段:
条件一:所述任意一个语义段的权重大于或等于第一阈值,所述任意一个语义段的权重为所述任意一个语义段在所述任意一个数据集中的出现次数与所述任意一个数据集对应的通知信息的数量的比值;
条件二:所述任意一个语义段属于目标集合,所述目标集合由所述至少一个数据集中出现次数大于第二阈值的所有语义段中排名靠前预设比例的语义段构成。
可选地,所述模板库包括广告模板库和非广告模板库,所述广告模板库用于存储广告类语义段,所述非广告模板库用于存储非广告类语义段;
所述更新单元603,具体用于:
针对所述目标语义段中的任意一个语义段,将所述任意一个语义段与所述广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的第一匹配度;以及将所述任意一个语义段与所述非广告模板库进行比较,确定所述任意一个语义段与所述非模板广告库的第二匹配度;根据所述第一匹配度、所述第二匹配度及所述任意一个语义段,更新所述广告模板库或所述非广告模板库。
可选地,所述更新单元603,具体用于:
若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的第一匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的第一匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例;
将所述任意一个语义段与非广告模板库进行比较,确定所述任意一个语义段与所述非模板广告库的第二匹配度,包括:
若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的第二匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的第二匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例。
可选地,所述更新单元603,具体用于:
若所述第一匹配度为高匹配度且所述第二匹配度为低匹配度,则将所述任意一个语义段加入所述广告模板库;
若所述第一匹配度为低匹配度且所述第二匹配度为高匹配度,则将所述任意一个语义段加入所述非广告模板库。
可选地,所述预设的划分标识符为句号、问号以及感叹号。
本发明实施例,首先根据通知信息的来源,将获取到的通知信息划分为至少一个数据集;针对所述至少一个数据集中的任意一个数据集,根据预设的划分标识符,将所述任意一个数据集中的每条通知信息划分为至少一个语义段;对划分得到的所有语义段在所述任意一个数据集中出现次数进行统计,并选取出现次数满足预设条件的语义段作为目标语义段,由此可以看出,本发明实施例可以实现自动地从大量的通知信息中找出目标语义段,这些目标语义段中包含疑似广告信息,进而根据目标语义段,更新模板库,因而本发明实施例在更新模板库时可以实现自动化地更新模板库,提高了模板库的更新效率。
基于相同的技术构思,本发明实施例还提供一种通知信息的过滤装置,如图7所示,包括:
语义段划分单元701,用于根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;
过滤单元702,用于针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;
广告语义段确定单元703,用于通过下述过程确定所述任意一个语义段是否为广告语义段:将所述任意一个语义段与非广告模板库进行比较,确定所述任意一个语义段与所述非广告模板库的匹配度,所述非广告模板库用于存储非广告类语义段;若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为非广告语义段;若所述任意一个语义段与所述非广告模板库的匹配度为低匹配度,则将所述任意一个语义段与广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的匹配度,所述广告模板库用于存储广告类语义段;若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为广告语义段,否则,确定所述任意一个语义段为非广告语义段。
可选地,所述广告语义段确定单元703,具体用于:
若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数;
可选地,所述广告语义段确定单元703,具体用于:
若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数。
可选地,所述装置还包括更新单元704,用于:
若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,且所述任意一个语义段与所述非广告模板库的匹配度不等于100%,则根据所述任意一个语义段更新所述非广告模板库;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,且所述任意一个语义段与所述广告模板库的匹配度不等于100%,则根据所述任意一个语义段更新所述广告模板库。
可选地,所述预设的划分标识符为句号、问号以及感叹号。
本发明实施例,根据预设的划分标识符,将待处理通知信息划分为至少一个语义段;针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;其中,通过将任意一个语义段与非广告模板库及广告模板库进行比较,来判断所述语义段是否为广告语义段,其中,非广告模板库用于存储非广告类语义段,广告模板库用于存储广告类语义段。本发明实施例不仅同时使用广告模板库和非广告模板库来判断语义段是否为广告语义段,不会将出现频率较高的非广告语义段误判为广告语义段,因而提高了过滤的准确性。
基于相同的技术构思,本发明实施例还提供一种语义段的转换装置,如图8所示,包括:
语义段权重值确定单元801,用于根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;
词语权重值确定单元802,用于对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;
哈希值确定单元803,用于根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。
可选地,所述每个语义段中的每个词语对应的哈希值为包含预设位数的二进制数值;所述哈希值确定单元803,具体用于:
针对所述语义段中的任意一个词语,将所述词语对应的哈希值中的0替换为-1,得到所述词语对应的第一目标值;根据所述语义段对应的权重值、所述词语对应的权重值及所述第一目标值,得到所述词语对应的第二目标值;将所述语义段中每个词语对应的第二目标值在对应的位上相加,得到所述语义段对应的目标值;针对所述语义段对应的目标值中的任意一位,若所述任意一位对应的数值大于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为1;若所述任意一位对应的数值小于或等于0,则将所述语义段对应的哈希值在所述任意一位的数值设置为0。
可选地,所述语义段权重值确定装置801,具体用于:
若所述通知信息中包含的语义段的数量等于1,则将所述语义段对应的权重设置为第一预设权重值;若所述通知信息中包含的语义段的数量大于1,则所述语义段对应的权重值按照所述语义段在所述通知信息中的位置进行设置,其中,距离所述通知信息的首部越远的语义段的权重值越大。
可选地,所述词语权重值确定单元802,具体用于根据下列方式确定所述语义段中的每个词语对应的权重值:
根据所述词语的业务属性及所述词语在所述语义段中的位置,确定所述词语对应的第一权重值;根据所述词语与广告属性词库的匹配度,确定所述词语对应的第二权重值;根据确定的所述词语对应的第一权重值及对应的第二权重值,确定词语对应的权重值。
可选地,所述词语权重值确定单元802,还用于:
对所述语义段进行分词得到多个词语之后,为所述多个词语中的每个词语设置对应的权重值之前,将所述语义段中的每个词语与专有名词库进行匹配;若确定所述词语与所述专有名词库匹配成功,则根据所述词语的属性,将所述词语转换为与所述词语的属性对应的预设名词。
本发明实施例,根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。从而在广告模板库中存储的均为语义段对应的哈希值,比较节约空间;以及在对通知信息进行广告过滤时,将通知信息中语义段对应的哈希值与广告模板库中的哈希值进行比较,效率比较高。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (2)
1.一种通知信息的过滤方法,其特征在于,包括:
根据预设的划分标识符,将数据集中的待处理通知信息划分为至少一个语义段,所述预设的划分标识符为句号、问号以及感叹号,所述数据集中的待处理通知信息是来源于同一应用、同一渠道及同一时间、且所述数据集中的待处理通知信息具有高度关联性;
针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;
其中,通过下述过程确定所述任意一个语义段是否为广告语义段:
将所述任意一个语义段与非广告模板库进行比较,确定所述任意一个语义段与所述非广告模板库的匹配度,所述非广告模板库用于存储非广告类语义段;
若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为非广告语义段;
若所述任意一个语义段与所述非广告模板库的匹配度为低匹配度,则将所述任意一个语义段与广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的匹配度,所述广告模板库用于存储广告类语义段;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为广告语义段,否则,确定所述任意一个语义段为非广告语义段;
根据下列方式确定所述任意一个语义段与所述广告模板库的匹配度:
若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数;
根据下列方式确定所述任意一个语义段与所述非广告模板库的匹配度:
若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数;
所述方法还包括:
若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,且所述非广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述非广告模板库;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,且所述广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述广告模板库;
其中,所述广告模板库和非广告模板库中存储的语义段是以哈希值的形式存储的,且所述语义段的哈希值是根据以下方法确定的:根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。
2.一种通知信息过滤装置,其特征在于,包括:
语义段划分单元,用于根据预设的划分标识符,将数据集中的待处理通知信息划分为至少一个语义段,所述预设的划分标识符为句号、问号以及感叹号,所述数据集中的待处理通知信息是来源于同一应用、同一渠道及同一时间、且所述数据集中的待处理通知信息具有高度关联性;
过滤单元,用于针对所述至少一个语义段中的任意一个语义段,若确定所述任意一个语义段是广告语义段,则从所述待处理通知信息中删除所述任意一个语义段;
广告语义段确定单元,用于通过下述过程确定所述任意一个语义段是否为广告语义段:将所述任意一个语义段与非广告模板库进行比较,确定所述任意一个语义段与所述非广告模板库的匹配度,所述非广告模板库用于存储非广告类语义段;若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为非广告语义段;若所述任意一个语义段与所述非广告模板库的匹配度为低匹配度,则将所述任意一个语义段与广告模板库进行比较,确定所述任意一个语义段与所述广告模板库的匹配度,所述广告模板库用于存储广告类语义段;若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,则确定所述任意一个语义段为广告语义段,否则,确定所述任意一个语义段为非广告语义段;
所述广告语义段确定单元,具体用于:
若所述任意一个语义段与所述广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述广告模板库中的至少一个语义段的相似度大于或等于第一相似阈值;
条件二:所述任意一个语义段与所述广告模板库中的M个语义段的相似度小于所述第一相似阈值且大于第二相似阈值,且M与所述广告模板库中语义段的总数量的比值大于或等于预设的第一比例,M为正整数;
所述广告语义段确定单元,具体用于:
若所述任意一个语义段与所述非广告模板库满足下列条件中的任意一个,则将所述任意一个语义段与所述非广告模板库的匹配度确定为高匹配度,否则,将所述任意一个语义段与所述非广告模板库的匹配度确定为低匹配度:
条件一:所述任意一个语义段与所述非广告模板库中的任意一个语义段的相似度大于或等于第三相似阈值;
条件二:所述任意一个语义段与所述非广告模板库中的N个语义段的相似度小于所述第三相似阈值且大于第四相似阈值,且N与所述非广告模板库中语义段的总数量的比值大于或等于预设的第二比例,N为正整数;
所述装置还包括更新单元,用于:
若所述任意一个语义段与所述非广告模板库的匹配度为高匹配度,且所述非广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述非广告模板库;
若所述任意一个语义段与所述广告模板库的匹配度为高匹配度,且所述广告模板库中不包含与所述任意一个语义段完全相同的语义段,则根据所述任意一个语义段更新所述广告模板库;
其中,所述广告模板库和非广告模板库中存储的语义段是以哈希值的形式存储的,且所述语义段的哈希值是根据以下方法确定的:根据语义段在所述语义段所在的通知信息中的位置,为所述语义段设置对应的权重值;对所述语义段进行分词得到多个词语,并为所述多个词语中的每个词语设置对应的权重值;根据所述语义段对应的权重值、所述语义段中的每个词语对应的权重值以及所述语义段中的每个词语对应的哈希值,为所述语义段确定对应的哈希值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610839726.3A CN106446149B (zh) | 2016-09-21 | 2016-09-21 | 一种通知信息的过滤方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610839726.3A CN106446149B (zh) | 2016-09-21 | 2016-09-21 | 一种通知信息的过滤方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106446149A CN106446149A (zh) | 2017-02-22 |
CN106446149B true CN106446149B (zh) | 2020-01-10 |
Family
ID=58166569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610839726.3A Active CN106446149B (zh) | 2016-09-21 | 2016-09-21 | 一种通知信息的过滤方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446149B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657286B (zh) * | 2017-10-19 | 2020-05-05 | 北京字节跳动网络技术有限公司 | 一种广告识别方法及计算机可读存储介质 |
CN110020057B (zh) * | 2017-12-29 | 2021-05-25 | 中国移动通信集团陕西有限公司 | 一种垃圾评论信息识别方法及装置 |
CN108230037B (zh) * | 2018-01-12 | 2022-10-11 | 北京字节跳动网络技术有限公司 | 广告库建立方法、广告数据识别方法及存储介质 |
CN110598211B (zh) * | 2019-09-02 | 2023-09-26 | 腾讯科技(深圳)有限公司 | 文章的识别方法和装置、存储介质及电子装置 |
CN113408990B (zh) * | 2021-06-29 | 2023-04-18 | 满帮信息咨询有限公司 | 货运订单处理方法、系统、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880636A (zh) * | 2012-08-03 | 2013-01-16 | 深圳证券信息有限公司 | 不良信息检测方法及服务端 |
CN103546641A (zh) * | 2013-10-29 | 2014-01-29 | 广东欧珀移动通信有限公司 | 移动终端通知栏消息过滤方法与装置 |
CN105786792A (zh) * | 2014-12-26 | 2016-07-20 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609516A (zh) * | 2012-02-08 | 2012-07-25 | 苏州中联互通信息科技有限公司 | 基于内容理解的不良信息过滤方法 |
CN104714938B (zh) * | 2013-12-12 | 2017-12-29 | 联想(北京)有限公司 | 一种信息处理的方法及电子设备 |
CN105704685B (zh) * | 2014-11-25 | 2020-07-10 | 中兴通讯股份有限公司 | 一种短信安全处理方法及装置 |
-
2016
- 2016-09-21 CN CN201610839726.3A patent/CN106446149B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102880636A (zh) * | 2012-08-03 | 2013-01-16 | 深圳证券信息有限公司 | 不良信息检测方法及服务端 |
CN103546641A (zh) * | 2013-10-29 | 2014-01-29 | 广东欧珀移动通信有限公司 | 移动终端通知栏消息过滤方法与装置 |
CN105786792A (zh) * | 2014-12-26 | 2016-07-20 | 中国移动通信集团公司 | 一种信息处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106446149A (zh) | 2017-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446149B (zh) | 一种通知信息的过滤方法及装置 | |
CN103246670B (zh) | 微博排序、搜索、展示方法和系统 | |
CN103678613B (zh) | 一种计算影响力数据的方法与装置 | |
CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
US20160379268A1 (en) | User behavior data analysis method and device | |
US20140358694A1 (en) | Social media pricing engine | |
US20080103883A1 (en) | Providing Feedback to an Offer for Advertising Space | |
CN109767267B (zh) | 一种用于广告投放的目标用户推荐方法及装置 | |
CN106934412A (zh) | 一种用户行为分类方法及系统 | |
CN107491982B (zh) | 基于原生关系群的广告定向投放方法和装置 | |
CN111695938B (zh) | 产品推送方法及系统 | |
CN106095972B (zh) | 一种信息分类方法及装置 | |
CN110515904B (zh) | 媒体文件的质量预测模型训练方法、质量预测方法及装置 | |
CN109508373A (zh) | 企业舆情指数的计算方法、设备及计算机可读存储介质 | |
CN110717801A (zh) | 一种商品信息推送方法及装置 | |
CN106503045B (zh) | 一种更新模板库的方法及装置 | |
US10789606B1 (en) | Generation of an advertisement | |
CN111858922A (zh) | 服务方信息查询方法、装置、电子设备以及存储介质 | |
CN102521713B (zh) | 数据处理装置和数据处理方法 | |
KR101021400B1 (ko) | 무료로 등록된 데이터의 가치를 결정하는 시스템 및 방법 | |
CN113469519A (zh) | 业务事件的归因分析方法、装置、电子设备及存储介质 | |
US9208509B1 (en) | System, method, and computer program for personalizing content for a user based on a size of a working vocabulary of the user | |
CN102811177A (zh) | 网络信息的分享方法及系统 | |
CN116188120A (zh) | 一种有声书的推荐方法、装置、系统及存储介质 | |
US10757063B2 (en) | Method for selecting second messages for online inserting said second messages in social network content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |