CN105808580A - 一种基于先验模型的信息判定方法及设备 - Google Patents
一种基于先验模型的信息判定方法及设备 Download PDFInfo
- Publication number
- CN105808580A CN105808580A CN201410849314.9A CN201410849314A CN105808580A CN 105808580 A CN105808580 A CN 105808580A CN 201410849314 A CN201410849314 A CN 201410849314A CN 105808580 A CN105808580 A CN 105808580A
- Authority
- CN
- China
- Prior art keywords
- information
- feature
- sample
- determined
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于先验模型的信息判定方法及设备,通过预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值,并将得到的各特征权值按照预设规则进行计算,得到与待判定信息相对应的特征总值,再根据特征总值与预设阈值的比较结果确定待判定信息是否为违规信息。其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征。即本方案中,综合考虑了基于先验模型所确定的待判定信息的各判定特征来判定待判定信息是否为违规信息,从而使得本发明所述的信息判定方法更加全面,具有违规信息判定准确、覆盖面广的优点,同时还可节省人工判定的工作量。
Description
技术领域
本发明涉及安全技术领域,尤其涉及一种基于先验模型的信息判定方法及设备。
背景技术
在日常生活中,用户经常会接收到许多违规信息,如,违规的短信、彩信、即时通讯消息、OTT(OverTheTop,基于互联网的应用服务)消息等,而这些违规信息并不是用户希望接收到的,因此,为了提升用户满意度,需要对这些违规信息进行相应识别。具体地,目前业界通常采用以下几种方式对违规信息进行相应识别:
第一种方式:对接收到的信息的信息内容进行分析,提取其中的关键词,并根据提取到的关键词判断该信息是否是违规信息。例如:可在违规信息检测系统中预先设置相应的包括多个关键词的关键词表,若接收到的信息能够与上述关键词表中的一个或多个关键词相匹配,则可判定该信息为违规信息。
具体地,采用该第一种判定方式进行违规信息的判定时,具备可适用性较高,即覆盖率较高的特点,基本上能发现所有包含设定关键词的信息。但是,由于某些正常的非违规信息通常也会包含有相应的设定关键词,因而,使用该第一种判定方式进行违规信息的判定时,会导致违规信息的误判率特别高;
第二种方式:由于在对现有违规信息进行分析时发现,违规信息如诈骗或垃圾短信等必须多次或大面积发送才能起到效果,因此可基于终端用户的发送行为对违规信息进行判定。例如,可通过设置单位时间内终端用户的短信发送量的阈值,对可能发送垃圾短信的号码进行判定;或基于终端用户发送对象的离散程度、或终端用户的收发短信的数量比等特征对可能发送垃圾短信的号码进行判定。
具体地,采用该第二种判定方式进行违规信息的判定时,可对未知的信息或不包含关键词的信息等进行违规与否的判定。但是,由于目前,违规信息的发送者已可采用各种综合手段来躲避违规信息的检测,如使用大量的不同手机号间断发送同一违规信息,以使得单个号码发送的同一违规信息的频率较低、进而躲避频度判定规则;或者,对信息的内容进行适当改变以躲避现有的基于内容进行检测的方式,因而导致,采用该第二种判定方式进行违规信息的判定时非常困难;
第三种:将接收到的信息的信息内容与已有的违规信息样本/模板进行比对,若存在信息重复或近似信息,则可判定该信息为违规信息。
具体地,采用该第三种判定方式进行违规信息的判定时,由于可通过信息内容进行判定,因而具有较高的准确率。但是,若信息的内容出现少量语义变化,例如,将“购买发票请联系王经理”更换为“请联系王经理购买发票”时,则不能进行有效判定;另外,由于该第三种判定方式仅能用于对已知信息进行是否为违规信息的判定,不能适用于未知信息,因而,可适用性、即覆盖率相对较低;
第四种:对接收到的信息的信息内容进行分析,对信息中出现的字符进行统计计算,根据字符占据信息的比例对信息的整体进行判定。
具体地,采用该第四种判定方式进行违规信息的判定时,可较好地对信息文本中出现的各字符进行统计,以对信息文本的整体进行判定。但是,其不足之处在于缺乏对字词的判定,例如,采用该种判定方式时,“友好”和“好友”的判定结果是完全相同的,导致最终的判定结果并不够准确。
也就是说,虽然上述各违规信息判定方式均可在一定程度上达到识别违规信息、进而提高用户体验的效果,但是,上述各违规信息判定方式并不能够准确、全面地判定各信息是否为违规信息,对于疑似信息,仍需要进行大量的人工审核来确定其是否为违规信息,导致判定量较大、判定效率较低,因此,亟需提供一种新的违规信息判定方法,来解决上述各问题。
发明内容
本发明实施例提供了一种基于先验模型的信息判定方法及设备,用以解决目前存在的违规信息判定困难且不准确的问题。
本发明实施例提供了一种基于先验模型的信息判定方法,包括:
根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值;其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征;
按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;
将所述特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息。
进一步地,本发明实施例还提供了一种基于先验模型的信息判定设备,包括:
确定单元,用于根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值;其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征;
计算单元,用于按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;
判定单元,用于将所述特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息。
本发明有益效果如下:
本发明实施例提供了一种基于先验模型的信息判定方法及设备,通过预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值,并按照预设规则对确定的所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值,再将得到的特征总值与预设阈值进行比较,根据比较结果确定所述待判定信息是否为违规信息。其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征。也就是说,在本发明所述技术方案中,综合考虑了基于先验模型所确定的待判定信息的文本特征、关键词权重特征以及内容标识特征等设定判定特征来判定所述待判定信息是否为违规信息,从而使得本发明所述的信息判定方法更加全面,并具有违规信息判定准确、覆盖面广的优点,同时还可节省人工判定的工作量、提高判定效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明实施例一中一种基于先验模型的信息判定方法的流程示意图;
图2所示为本发明实施例一中正常信息与违规信息的相对应的分布函数示意图;
图3所示为本发明实施例一中正常信息与违规信息的相对应的另一分布函数示意图;
图4所示为本发明实施例二中一种基于先验模型的信息判定设备的结构示意图。
具体实施方式
现有的违规信息通常具有以下特点:1、一般包含有一个或多个关键词;2、发送者可能采用多个号码发送,使得单个号码发送的频度低,违规特征不明显;3、同一内容可能采用不同的变化方式(如字符格式、同义词、前缀后缀等),导致内容可能存在一定差异;4、违规信息的发送者与内容中包含的号码可能并不相关。因此导致违规信息判定困难且不准确,仍需要大量人工审核并确定是否为违规信息。
根据上述违规信息具有的特点,本发明实施例提供了一种基于先验模型的信息判定方法,通过预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值,并按照预设规则对确定的所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值,再将得到的特征总值与预设阈值进行比较,根据比较结果确定所述待判定信息是否为违规信息。其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征。也就是说,在本发明所述技术方案中,综合考虑了基于先验模型所确定的待判定信息的文本特征、关键词权重特征以及内容标识特征等设定判定特征来判定所述待判定信息是否为违规信息,从而使得本发明所述的信息判定方法更加全面,具有违规信息判定准确、覆盖面广的优点,同时还可节省人工判定的工作量、提高判定效率。
下面为了使本发明的目的、技术方案和优点更加清楚,将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例一:
本发明实施例一提供了一种基于先验模型的信息判定方法,如图1所示,其为本发明实施例一所述信息判定方法的流程示意图,所述方法可包括以下步骤:
步骤101:根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值;其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征。
步骤102:按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值。
步骤103:将所述特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息。
也就是说,在本发明所述技术方案中,可基于预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与文本特征、关键词权重特征以及内容标识特征等各设定判定特征相对应的特征权值,并基于待判定信息的文本特征、关键词权重特征以及内容标识特征等设定判定特征所分别对应的特征权值计算得到与所述待判定信息相对应的特征总值,之后再根据特征总值与预设阈值的比较结果来判定所述待判定信息是否为违规信息,从而使得本发明所述的信息判定方法更加全面,且具有违规信息判定准确、覆盖面广的优点,同时还可节省人工判定的工作量、提高判定效率。
下面分别对本发明实施例提供的基于先验模型的信息判定方法的各步骤进行详细的说明。
对于步骤101,根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值,具体可实施为以下步骤:
根据预先建立的与文本特征相对应的文本特征模型、与关键词权重特征相对应的关键词权重特征模型、与内容标识特征相对应的内容标识特征模型,分别对所述待判定信息的内容进行分析,得到所述待判定信息的与文本特征相对应的特征权值、与关键词权重特征相对应的特征权值以及与内容标识特征相对应的特征权值。
其中,所述文本特征模型是基于样本学习库,对包括样本信息的长度、特殊符号数量、符号占比以及符号间隔均值在内的各文本特征进行训练学习所得到的;所述关键词权重特征模型是基于样本学习库,对样本信息中所包含的关键词和/或关键词序列的命中率进行训练学习所得到的;所述内容标识特征模型是基于样本学习库,对样本信息中所包含的能够唯一标识样本信息的内容标识特征进行训练学习所得到的;其中,所述能够唯一标识样本信息的内容标识特征至少可包括与样本信息相关联的信息发送方的号码(如手机号码、邮箱号码、客户端账号号码等)、或与样本信息相关联的信息发送方的地址(如URL地址等)等。具体地,与样本信息相关联的信息发送方的号码可包括样本信息所对应的发送方号码、或样本信息中所包含的号码;与样本信息相关联的信息发送方的地址可包括样本信息所对应的发送方地址、或样本信息中所包含的地址等。
再有,所述样本学习库至少可包括正常信息样本学习库、违规信息样本学习库或关键词库等。
具体地,下面将详细描述上述各先验模型(即,文本特征模型、关键词权重特征模型、内容标识特征模型等)的建立过程:
一、文本特征模型的建立
具体地,由于所述文本特征模型是基于样本学习库,对包括样本信息的长度、特殊符号数量、符号占比以及符号间隔均值在内的各文本特征进行训练学习所得到的,因此,在进行文本特征模型的建立过程中,可首先建立以下四维文本特征向量CV:
CV=[样本信息的长度阈值,样本信息的特殊符号数量阈值,样本信息的符号占比阈值,样本信息的符号间隔均值阈值]。
之后,即可对CV进行训练学习,即对正常信息样本学习库、违规信息样本学习库进行分析得到如下指标:样本信息的长度阈值,样本信息的特殊符号数量阈值,样本信息的符号占比阈值,样本信息的符号间隔均值阈值,并根据上述指标得到相应的文本特征模型。具体实施为:
(1)确定样本信息的长度阈值
对正常信息样本学习库、违规信息样本学习库中的各样本信息进行统计分析,得到各样本信息的长度(具体可为各样本信息所包含的字数,或者具体可为各样本信息所包含的字数以及字符数之和)以及每一长度下的正常信息数量百分比(具备该长度的正常样本信息的数量与具备该长度的所有样本信息的数量的比值)、违规信息数量百分比(具备该长度的违规样本信息的数量与具备该长度的所有样本信息的数量的比值),并采用基于大数据进行训练学习所得到的拟合函数,如4次多项式或其他多项式或对数函数等,对上述样本信息数据进行拟合,形成分别与正常信息、违规信息相对应的分布函数;之后,可根据上述两条分布函数的曲线积分,选取满足以下设定条件的样本信息长度L作为样本信息的长度阈值:
在所具备的样本信息长度在该长度L以内的各信息中,正常信息所占的比例远远高于违规信息所占的比例,或者,违规信息的比例极低(低于设定阈值,如1%~10%等)。
具体地,假设针对某个正常信息样本学习库、违规信息样本学习库进行统计分析所得到的分别与正常信息、违规信息相对应的分布函数如图2所示,其中,横坐标表示样本信息的长度,纵坐标表示样本信息数量百分比,则根据图2所示的两条分布函数的曲线积分,可确定此时所确定的样本信息的长度阈值的取值为16,即,可确定样本信息的长度在16字以内的基本为正常信息,违规信息的比例极低。
需要说明的是,在确定样本信息的长度阈值时,除了可采用对违规信息以及正常信息所对应的分布函数进行曲线积分的方式之外,也可以采用分段统计函数的方式。较优地,由于曲线积分的效果为最接近离散点的统计数值,因此,为了对拟合的函数进行更佳地适配,可优选采用曲线积分的方式确定样本信息的长度阈值。
(2)确定样本信息的特殊符号数量阈值
首先,可定义特殊符号训练集,然后可对正常信息样本学习库、违规信息样本学习库中的各样本信息进行分析,得到各样本信息中的特殊符号数量,并基于统计得到的各样本信息中的特殊符号数量,选取满足以下设定条件的特殊符号数量M作为样本信息的特殊符号数量阈值:
在所具备的特殊符号数量不小于所述M的各信息中,违规信息的比例远远高于正常信息的比例,或者,违规信息的比例极高(大于设定阈值,如90%~95%等)。
例如,假设某样本学习库中,所具备的特殊符号数量为10以上的信息中,95%以上为违规信息,则基于该样本学习库,可确定样本信息的特殊符号数量阈值的取值为10。
需要说明的是,一般来说,特殊符号出现较多的信息为违规信息的情况居多,如下表1所示,但也有一些常见的表情符号(如O(∩_∩)O~(=__=)(*^__^*))也会出现在正常信息中。因此,在确定样本信息的特殊符号数量阈值的过程中,可先将特殊符号分为正常类型和违规类型,之后,再进行训练学习,以提高所确定的特殊符号数量阈值的准确性。
表1违规信息示例表
(3)确定样本信息的符号占比阈值
具体地,由于在部分信息中,还可使用正常的标点符号进行干扰,因此,为了更好地识别违规信息,有必要对标点符号在内容中的占比进行分析。具体地,与确定样本信息的特殊符号数量阈值的过程类似,可对正常信息样本学习库、违规信息样本学习库中的各样本信息进行统计分析,得到各样本信息所对应的符号占比,并基于统计得到的各样本信息的符号占比,选取满足以下设定条件的符号占比N作为样本信息的符号占比阈值:
在所具备的符号占比不小于所述N的各信息中,违规信息的比例远远高于正常信息的比例,或者,违规信息的比例极高(大于设定阈值,如90%~95%等)。
例如,假设某样本学习库中,所具备的符号占比为0.4以上的信息中,95%以上为违规信息,则基于该样本学习库,可确定样本信息的符号占比阈值的取值为0.4。
(4)确定样本信息的符号间隔均值阈值
由于部分违规信息中的符号(具体可仅考虑特殊符号)会呈现较为明显的间隔特性,因此,为了更好地识别违规信息,有必要对样本信息的符号间隔进行分析。
具体地,可对正常信息样本学习库、违规信息样本学习库中的各样本信息进行统计分析,得到各样本信息的符号间隔均值(具体可仅考虑特殊符号的间隔均值),每一符号间隔均值内的正常信息数量、违规信息数量,以及每一符号间隔均值所对应的正常信息的数量与违规信息的数量的比率;并基于上述样本信息数据,采用基于大数据进行训练学习所得到的拟合函数,对上述样本信息数据进行拟合,形成横坐标为符号间隔均值、纵坐标为正常信息的数量与违规信息的数量的比率的曲线,并对该曲线进行分段积分,选择满足以下设定条件的符号间隔均值S作为样本信息的符号间隔均值阈值:
在所具备的符号间隔均值不大于所述S的各信息中,违规信息的比例远远高于正常信息的比例,或者,违规信息的比例极高(大于设定阈值,如90%~95%等)。
例如,假设针对某个正常信息样本学习库、违规信息样本学习库进行统计分析所得到的横坐标为符号间隔均值、纵坐标为正常信息数量与违规信息数量的比率的曲线如图3中的曲线a所示,则对图3中的该曲线a进行分段积分,可确定符号间隔均值的阈值S为3.3,即,可确定符号间隔均值在1~3.3之间的样本信息中绝大部分均为违规信息,违规信息的占比极高。
至此,针对四维文本特征向量CV的训练学习过程结束。具体地,假设基于上述学习得到样本信息的长度阈值L=16,样本信息的特殊符号数量阈值M=10,样本信息的符号占比阈值N=0.4,以及样本信息的符号间隔均值阈值S=3.3,则可将所述四维文本特征向量CV表示为:
CV=[L,M,N,S]=[16,10,0.4,3.3]。
另外需要说明的是,在得到上述四维文本特征向量CV之后或同时或之前,可根据所述四维文本特征向量CV中的各分向量的重要程度,对所述四维文本特征向量CV中的各分向量所具备的权重W1、W2、W3、W4进行设定,以得到最终的文本特征模型。
其中,所述四维文本特征向量CV中的任意两个分向量所具备的权重可相互相同或不同,但所述四维文本特征向量CV中的各分向量所具备的权重之和应等于1,本发明实施例对此不作赘述。
最后,以上述训练过程所得到的文本特征模型为例,计算某一待判定信息的与文本特征相对应的特征权值的过程可以如下所述:
若对某一待判定信息的内容进行分析,确定其信息内容的长度、特殊符号数量、符号占比、符号间隔均值均不小于上述训练学习所得到的相应文本特征所对应的阈值,即,确定其信息内容的长度、特殊符号数量、符号占比均满足相应的违规信息阈值要求,符号间隔不满足相应的违规信息阈值要求,则可确定该待判定信息的文本特征的特征权值V(SMS)为:
二、关键词权重特征模型的建立
由于所述关键词权重特征模型是基于样本学习库,对样本信息中所包含的关键词和/或关键词序列的命中率进行训练学习所得到的,因此,首先,可基于正常信息样本学习库、违规信息样本学习库以及预设的关键词库(包括多个关键词和/或关键词序列),计算关键词库中的每个关键词、关键词序列在相应样本学习库中的命中情况,即命中率。
进一步地,针对任一关键词,在计算得到该关键词在相应样本学习库中的命中情况之后,即可根据该关键词命中正常信息样本学习库的概率PKey1(即该关键词在正常信息样本学习库中的命中率)、命中违规信息样本学习库的概率PKey2(即该关键词在违规信息样本学习库中的命中率),将该关键词的命中权重(或简称为关键词权重)PKey表示为:
其中,PKey最高值通常为100
具体地,假设所计算的每个关键词、关键词序列在相应样本学习库中的命中情况可如下表2所示:
表2:每个关键词、关键词序列在相应样本学习库中的命中情况
则相应地,通过学习分析,可确定关键词匹配模式正则为:
P(?*发票?*广告?*电话?*)=97.82;
P(销售)=85.14。
相应地,按照上述方法,即可生成关键词权重特征模型(即关键词权重特征库);并且,当训练学习的样本信息有变动时,关键词权重特征模型中的各关键词的权重还可根据变动后的样本信息进行更新,本发明实施例对此不作赘述。
进一步地,以上述生成的关键词权重特征模型为例,若有一条待判定信息为“我公司销售各种普通、增值发票,电话13711111111”的信息,则根据该关键词权重特征模型可以得到该待判定信息的关键词权重特征的特征权值为Pkey(SMS)=97.82+85.14=182.96。
也就是说,在根据关键词权重特征模型确定待判定信息的关键词权重特征的特征权值时,若确定待判定信息中包含关键词序列,则进行关键词权重特征的特征权值的计算时,可在考虑该关键词序列的命中权重的前提下、不考虑该关键词序列中的各关键词的命中权重;不过,对于未包含在该关键词序列中但包含于该待判定信息中的其他各关键词,则需要考虑其对应的命中权重。或者,换句话说,在根据关键词权重特征模型确定待判定信息的关键词权重特征的特征权值时,已经考虑过的关键词序列(或该序列中的各关键词)或关键词无需重复考虑,本发明实施例对此不作赘述。
三、内容标识特征模型的建立
具体地,可对正常信息样本学习库、违规信息样本学习库中的各样本信息进行统计分析,得到各样本信息中包含的能够唯一标识样本信息的内容标识特征,并基于各正常样本信息中包含的能够唯一标识样本信息的内容标识特征以及各违规信息中包含的能够唯一标识样本信息的内容标识特征,构建包含有与违规信息相关联的内容标识特征、以及各内容标识特征对应的命中权重(一般可设为1)的违规内容标识库,即内容标识特征模型。其中,内容标识特征与命中权重的关系表可以如下表3所示。
表3内容标识特征与命中权重的关系表
之后,针对任一待判定信息,若确定所述待判定信息中存在能够唯一标识该信息的内容标识特征,并且,若确定包含的该内容标识特征可命中所构建的违规内容标识库,则可根据该内容标识特征的命中权重,计算得到该待判定信息的内容标识特征的特征权值。
如表3所示,若某一待判定信息为“我公司销售各种普通、增值发票,电话13711111111”,则由于其仅可命中13711111111,因而可确定该待判定信息的内容标识特征的特征权值为Hit(SMS)=1;若某一待判定信息为“我公司销售各种普通、增值发票,电话13711111111,qq号码429534851”,则由于其可命中13711111111以及429534851,因而可确定该待判定信息的内容标识特征的特征权值为Hit(SMS)=2。
也就是说,在根据内容标识特征模型计算待判定信息的内容标识特征的特征权值时,可将待判定信息中的所有命中违规内容标识库的内容标识特征的命中权重进行相加,以得到最终所需的特征权值。
进一步需要说明的是,上述各特征模型在训练完成后,还可根据实际情况进行自动优化,如,可通过对已判定信息进行不断学习,来自动优化相应的特征模型,以提升对新信息的发现能力,本发明实施例对此不作任何限定。
进一步地,对于步骤102,按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值,可具体实施为:
根据设定的训练函数,对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;所述训练函数是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。
具体地,以上述步骤101中得到的特征权值为文本特征的特征权值、关键词权重特征的特征权值、以及内容标识特征的特征权值等三个特征权值为例,可确定所述训练函数可为三维特征判定函数,表达式可为:
F(V(SMS),Pkey(SMS),Hit(SMS))
其中,V(SMS)为文本特征的特征权值;Pkey(SMS)为关键词权重特征的特征权值;Hit(SMS)为内容标识特征的特征权值。
进一步地,由于Hit值一般为自然数,因此,为了便于计算,可将三维特征判定函数F通过多个二维判定函数进行描述。以下示例为对正常信息学习库与违规信息学习库的样本信息训练学习得到的三维特征判定函数F的表达式:
(1)当Hit(SMS)=0时,通过统计分析拟合函数为:
F(V(SMS),Pkey(SMS))=(1.44*V(SMS)+0.56*Pkey(SMS))/2;
(2)Hit(SMS)=1时,通过统计分析拟合函数为:
(3)Hit(SMS)=2时,通过统计分析拟合函数为:
(4)Hit(SMS)>=3时,通过统计分析拟合函数为:
相应地,针对任一待判定信息,在确定与该待判定信息相对应的特征总值时,即可根据该待判定信息所对应的内容标识特征的特征权值,选取相对应的拟合函数,本发明实施例对此不作赘述。
需要说明的是,上述F函数是通过对样本学习库中的大量的样本信息进行分析确定的,实际上,F函数并不限于上述四个二维判定函数,还可根据样本学习库的变更进行相应更改,本发明实施例对此也不作赘述。
进一步地,针对任一待判定信息,在得到与所述待判定信息相对应的特征总值之后,即可将所述特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息。
其中,所述预设阈值可以是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。并且,为了实现分段判定以使得判定结果更为准确,所述预设阈值通常可包括两个预设子阈值,即可包括能够作为违规信息与疑似违规信息的判定参考值的第一预设阈值,以及能够作为正常信息与疑似违规信息的判定参考值的第二预设阈值,本发明实施例对此不作任何限定。进一步地,需要说明的是,所述第一预设阈值通常为大于所述第二预设阈值的数值,本发明实施例对此不作赘述。
相应地,对于步骤103,将待判定信息的特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息,可以包括:
将待判定信息的特征总值与第一预设阈值以及第二预设阈值进行比较,若确定所述特征总值不小于所述第一预设阈值,则可确定所述待判定信息为违规信息;若确定所述特征总值大于所述第二预设阈值且小于所述第一预设阈值,则可确定所述待判定信息为疑似违规信息;若确定所述特征总值不大于所述第二预设阈值,则可确定所述待判定信息为正常信息。
例如,假设第一预设阈值为0.7,第二预设阈值为0.3,则将根据所述训练函数F(V(SMS),Pkey(SMS),Hit(SMS))得到的特征总值与第一预设阈值以及第二预设阈值进行比较,得到比较结果如下:
(1)若F(V(SMS),Pkey(SMS),Hit(SMS))>=0.7,则可判定为违规信息;
(2)若0.3<F(V(SMS),Pkey(SMS),Hit(SMS))<0.7,则可判定为疑似违规信息,此时,还可进一步进行人工审核;
(3)若F(V(SMS),Pkey(SMS),Hit(SMS))<=0.3,则可判定为正常信息。
本发明实施例一提供一种基于先验模型的信息判定方法,通过预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值,并按照预设规则对确定的所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值,再将得到的特征总值与预设阈值进行比较,根据比较结果确定所述待判定信息是否为违规信息。其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征。也就是说,在本发明所述技术方案中,综合考虑了基于先验模型所确定的待判定信息的文本特征、关键词权重特征以及内容标识特征等设定判定特征来判定所述待判定信息是否为违规信息,从而使得本发明所述的信息判定方法更加全面,且具有违规信息判定准确、覆盖面广的优点,同时还可节省人工判定的工作量、提高判定效率。经测试表明,本发明实施例一提供的基于先验模型的信息判定方法能正确分类98.4%的信息,并对约34%左右的信息进行自动正确判定,判定准确率以及覆盖率均较高。
另外,由于本发明实施例中所述的各特征模型在训练完成后,还可根据实际情况进行自动优化,如,可通过对已判定信息进行不断学习,来自动优化相应的特征模型,从而还可进一步达到提升对新信息的发现能力的效果。
实施例二
本发明实施例二提供了一种可用于实现本发明实施例一所述方法的基于先验模型的信息判定设备,其结构示意图如图4所示,包括:
确定单元41,可用于根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值;其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征;
计算单元42,可用于按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;
判定单元43,可用于将所述特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息。
其中,所述预设阈值是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。
进一步地,所述确定单元41,可具体用于根据预先建立的与文本特征相对应的文本特征模型、与关键词权重特征相对应的关键词权重特征模型、与内容标识特征相对应的内容标识特征模型,分别对所述待判定信息的内容进行分析,得到所述待判定信息的与文本特征相对应的特征权值、与关键词权重特征相对应的特征权值以及与内容标识特征相对应的特征权值。
其中,所述文本特征模型是基于样本学习库,对包括样本信息的长度、特殊符号数量、符号占比以及符号间隔均值在内的各文本特征进行训练学习所得到的;所述关键词权重特征模型是基于样本学习库,对样本信息中所包含的关键词和/或关键词序列的命中率进行训练学习所得到的;所述内容标识特征模型是基于样本学习库,对样本信息中所包含的能够唯一标识样本信息的内容标识特征进行训练学习所得到的;其中,所述能够唯一标识样本信息的内容标识特征至少包括样本信息所对应的发送方号码或发送方地址。
进一步地,所述样本学习库至少包括正常信息样本学习库、违规信息样本学习库或关键词库。
进一步地,所述计算单元42,可具体用于根据设定的训练函数,对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;所述训练函数是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。
本发明实施例二提供一种基于先验模型的信息判定设备,通过预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值,并按照预设规则对确定的所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值,再将得到的特征总值与预设阈值进行比较,根据比较结果确定所述待判定信息是否为违规信息。其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征。也就是说,在本发明所述技术方案中,综合考虑了基于先验模型所确定的待判定信息的文本特征、关键词权重特征以及内容标识特征等设定判定特征来判定所述待判定信息是否为违规信息,从而使得本发明所述的信息判定方法更加全面,且具有违规信息判定准确、覆盖面广的优点,同时还可节省人工判定的工作量、提高判定效率。
另外,由于本发明实施例中所述的各特征模型在训练完成后,还可根据实际情况进行自动优化,如,可通过对已判定信息进行不断学习,来自动优化相应的特征模型,从而还可进一步达到提升对新信息的发现能力的效果。
本领域技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (16)
1.一种基于先验模型的信息判定方法,其特征在于,包括:
根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值;其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征;
按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;
将所述特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息。
2.如权利要求1所述的方法,其特征在于,所述根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值,包括:
根据预先建立的与文本特征相对应的文本特征模型、与关键词权重特征相对应的关键词权重特征模型、与内容标识特征相对应的内容标识特征模型,分别对所述待判定信息的内容进行分析,得到所述待判定信息的与文本特征相对应的特征权值、与关键词权重特征相对应的特征权值以及与内容标识特征相对应的特征权值。
3.如权利要求2所述的方法,其特征在于,所述文本特征模型是基于样本学习库,对包括样本信息的长度、特殊符号数量、符号占比以及符号间隔均值在内的各文本特征进行训练学习所得到的。
4.如权利要求2所述的方法,其特征在于,所述关键词权重特征模型是基于样本学习库,对样本信息中所包含的关键词和/或关键词序列的命中率进行训练学习所得到的。
5.如权利要求2所述的方法,其特征在于,所述内容标识特征模型是基于样本学习库,对样本信息中所包含的能够唯一标识样本信息的内容标识特征进行训练学习所得到的;其中,所述能够唯一标识样本信息的内容标识特征至少包括与样本信息相关联的信息发送方的号码、或与样本信息相关联的信息发送方的地址。
6.如权利要求1所述的方法,其特征在于,所述按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值,包括:
根据设定的训练函数,对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;所述训练函数是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。
7.如权利要求1所述的方法,其特征在于,所述预设阈值是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。
8.如权利要求3-7任一所述的方法,其特征在于,所述样本学习库至少包括正常信息样本学习库、违规信息样本学习库或关键词库。
9.一种基于先验模型的信息判定设备,其特征在于,包括:
确定单元,用于根据预先建立的与设定判定特征相对应的先验模型,确定待判定信息的与各设定判定特征相对应的特征权值;其中,所述设定判定特征至少包括文本特征、关键词权重特征以及内容标识特征;
计算单元,用于按照预设规则对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;
判定单元,用于将所述特征总值与预设阈值进行比较,并根据比较结果确定所述待判定信息是否为违规信息。
10.如权利要求9所述的设备,其特征在于,
所述确定单元,具体用于根据预先建立的与文本特征相对应的文本特征模型、与关键词权重特征相对应的关键词权重特征模型、与内容标识特征相对应的内容标识特征模型,分别对所述待判定信息的内容进行分析,得到所述待判定信息的与文本特征相对应的特征权值、与关键词权重特征相对应的特征权值以及与内容标识特征相对应的特征权值。
11.如权利要求10所述的设备,其特征在于,所述文本特征模型是基于样本学习库,对包括样本信息的长度、特殊符号数量、符号占比以及符号间隔均值在内的各文本特征进行训练学习所得到的。
12.如权利要求10所述的设备,其特征在于,所述关键词权重特征模型是基于样本学习库,对样本信息中所包含的关键词和/或关键词序列的命中率进行训练学习所得到的。
13.如权利要求10所述的设备,其特征在于,所述内容标识特征模型是基于样本学习库,对样本信息中所包含的能够唯一标识样本信息的内容标识特征进行训练学习所得到的;其中,所述能够唯一标识样本信息的内容标识特征至少包括与样本信息相关联的信息发送方的号码、或与样本信息相关联的信息发送方的地址。
14.如权利要求9所述的设备,其特征在于,
所述计算单元,具体用于根据设定的训练函数,对所述待判定信息的各特征权值进行计算,得到与所述待判定信息相对应的特征总值;所述训练函数是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。
15.如权利要求9所述的设备,其特征在于,所述预设阈值是通过对样本学习库中的各样本信息、以及每一样本信息的各特征权值进行训练学习所得到的。
16.如权利要求11-15任一所述的设备,其特征在于,所述样本学习库至少包括正常信息样本学习库、违规信息样本学习库或关键词库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410849314.9A CN105808580B (zh) | 2014-12-29 | 2014-12-29 | 一种基于先验模型的信息判定方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410849314.9A CN105808580B (zh) | 2014-12-29 | 2014-12-29 | 一种基于先验模型的信息判定方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105808580A true CN105808580A (zh) | 2016-07-27 |
CN105808580B CN105808580B (zh) | 2019-08-13 |
Family
ID=56420552
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410849314.9A Active CN105808580B (zh) | 2014-12-29 | 2014-12-29 | 一种基于先验模型的信息判定方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105808580B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146440A (zh) * | 2017-06-16 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 交易结算方法、装置、服务器以及存储介质 |
WO2019033741A1 (zh) * | 2017-08-16 | 2019-02-21 | 平安科技(深圳)有限公司 | 投资产品的资源处理方法、装置、存储介质和计算机设备 |
CN109544904A (zh) * | 2018-12-29 | 2019-03-29 | 上海易点时空网络有限公司 | 用于违章的信息处理方法及装置、服务器 |
CN110188318A (zh) * | 2019-05-28 | 2019-08-30 | 武汉轻工大学 | 曲面积分的自动计算方法、设备、存储介质及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
CN103313248A (zh) * | 2013-04-28 | 2013-09-18 | 北京小米科技有限责任公司 | 一种识别垃圾信息的方法和装置 |
CN103744905A (zh) * | 2013-12-25 | 2014-04-23 | 新浪网技术(中国)有限公司 | 垃圾邮件判定方法和装置 |
-
2014
- 2014-12-29 CN CN201410849314.9A patent/CN105808580B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756535B1 (en) * | 2006-07-07 | 2010-07-13 | Trend Micro Incorporated | Lightweight content filtering system for mobile phones |
CN103176984A (zh) * | 2011-12-20 | 2013-06-26 | 中国科学院计算机网络信息中心 | 一种用户生成内容中欺骗性垃圾意见检测方法 |
CN103313248A (zh) * | 2013-04-28 | 2013-09-18 | 北京小米科技有限责任公司 | 一种识别垃圾信息的方法和装置 |
CN103744905A (zh) * | 2013-12-25 | 2014-04-23 | 新浪网技术(中国)有限公司 | 垃圾邮件判定方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109146440A (zh) * | 2017-06-16 | 2019-01-04 | 腾讯科技(深圳)有限公司 | 交易结算方法、装置、服务器以及存储介质 |
WO2019033741A1 (zh) * | 2017-08-16 | 2019-02-21 | 平安科技(深圳)有限公司 | 投资产品的资源处理方法、装置、存储介质和计算机设备 |
CN109544904A (zh) * | 2018-12-29 | 2019-03-29 | 上海易点时空网络有限公司 | 用于违章的信息处理方法及装置、服务器 |
CN110188318A (zh) * | 2019-05-28 | 2019-08-30 | 武汉轻工大学 | 曲面积分的自动计算方法、设备、存储介质及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105808580B (zh) | 2019-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104615608B (zh) | 一种数据挖掘处理系统及方法 | |
CN106844530A (zh) | 一种问答对分类模型的训练方法和装置 | |
CN104408095B (zh) | 一种基于改进的knn文本分类方法 | |
CN110334241A (zh) | 客服录音的质检方法、装置、设备及计算机可读存储介质 | |
US20100094887A1 (en) | Method and System for Determining Junk Information | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
WO2021051917A1 (zh) | 人工智能ai模型的评估方法、系统及设备 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN105808580A (zh) | 一种基于先验模型的信息判定方法及设备 | |
CN107544982A (zh) | 文本信息处理方法、装置及终端 | |
CN105488031B (zh) | 一种检测相似短信的方法及装置 | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN107438083B (zh) | 一种Android环境下钓鱼网站检测方法及其检测系统 | |
CN110795542A (zh) | 对话方法及相关装置、设备 | |
CN111476296A (zh) | 样本生成方法、分类模型训练方法、识别方法及对应装置 | |
CN108322317A (zh) | 一种账号识别关联方法及服务器 | |
CN107203883B (zh) | 一种风险控制方法和设备 | |
CN105550295A (zh) | 分类模型优化方法及装置 | |
CN116366374A (zh) | 基于大数据的电网网络管理的安全评估方法、系统及介质 | |
CN115174250A (zh) | 网络资产安全评估方法、装置、电子设备及存储介质 | |
CN111488994A (zh) | 正样本学习模型评估方法及装置 | |
CN107015993A (zh) | 一种用户类型识别方法及装置 | |
CN110348717A (zh) | 基于栅格粒度的基站价值评分方法和装置 | |
CN108804501A (zh) | 一种检测有效信息的方法及装置 | |
CN105590167A (zh) | 电场多元运行数据分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |