CN105323763B - 一种垃圾短消息的识别方法及装置 - Google Patents
一种垃圾短消息的识别方法及装置 Download PDFInfo
- Publication number
- CN105323763B CN105323763B CN201410298514.XA CN201410298514A CN105323763B CN 105323763 B CN105323763 B CN 105323763B CN 201410298514 A CN201410298514 A CN 201410298514A CN 105323763 B CN105323763 B CN 105323763B
- Authority
- CN
- China
- Prior art keywords
- communication
- short message
- communication equipment
- value
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明涉及通信技术领域,本发明实施例提供一种垃圾短消息的识别方法及装置,用以解决现有技术方案垃圾短消息识别效率低的问题。该方法包括:网络设备确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录,确定出所述第一通信设备与所述第二通信设备的通信交互属性值;根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值;当所述概率值高于预设阈值时将所述短消息确定为垃圾短信,否则,将所述短消息确定为非垃圾短信。通过本发明实施例提供的方法,可以快速并准确的识别出垃圾短消息。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种垃圾短消息的识别方法及装置。
背景技术
垃圾短消息泛滥是困扰手机用户和移动通信运营商的一个重大问题。针对垃圾的问题,目前运营商广泛使用的短消息识别手段主要可分为用户级别识别和单条短消息级别识别两种方法,处理对象分别对应为单个的垃圾短消息发送用户和单条的垃圾短消息。
用户级别识别方法主要通过用户短消息发送频率、用户举报等单一手段获得垃圾短消息。这种方法主观性很大,会造成大量合法短消息的误判和垃圾短消息的漏判。另外,对于发送频率的设置也需要通过经验设置,通常也会造成以上类似的问题。
单条短消息级别识别方法包括基于关键字的垃圾短消息识别和基于内容的垃圾短消息识别等。关键字识别方法通过提取发送短消息中的关键字并与预设关键字是否匹配来决定是否为垃圾短消息,词库的质量好坏直接决定了识别的准确性。基于内容的识别方法通过已有的训练集合(包括正例和反例)训练出相应的垃圾短消息识别规则,然后应用该规则来判定新的短消息是否为垃圾短消息。
关键字识别方法需要不断地更新词库,但关键字选取难度很大,不能保证识别掉所有垃圾关键字,仅通过关键字匹配很难判断出短消息的内容合法性,因此很容易造成误判。另外,垃圾短消息通常使用拼音、套用错别字、同音字和在信息中间加许多符号等方法绕过关键字列表。另外,随着识别的信息增加,识别的效率和及时性得不到保障。
综上所述,现有技术方案中是根据短消息的内容或短消息发送的频率确定垃圾短消息,导致垃圾短消息识别率较低的问题。
发明内容
本发明实施例提供一种垃圾短消息的识别方法及装置,用以解决现有技术方案中垃圾短消息识别率较低的问题。
本发明实施例提供一种垃圾短消息的识别方法,包括:
网络设备确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录,确定出所述第一通信设备与所述第二通信设备的通信交互属性值;
根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值;
当所述概率值高于预设阈值时将所述短消息确定为垃圾短信,否则,将所述短消息确定为非垃圾短信。
较佳的,所述获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录之前,还包括:
将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除;
将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除。
较佳的,所述通信交互属性值包括以下部分或全部:
第一通信设备与第二通信设备之间短消息的回复值;
第一通信设备作为发送方时的短消息通信对象的数量;
第二通信设备作为接收方时的短消息通信对象的数量;
第一通信设备与第二通信设备的共同通信对象的数量;
第二通信设备作为接收方时的语音通信对象的数量;
第一通信设备作为发送方时的语音通信对象的数量;
第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备所有的通信对象中所占的比例;
第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
第一通信设备到第二通信设备的最短路径;
第一通信设备到第二通信设备M跳以上采用贪心算法获得的权重值,其中M为正整数;
第一通信设备与第二通信设备之间的相似度;
第一通信设备与第二通信设备之间可达的概率。
较佳的,所述由所述通信交互属性值获得的基准交互属性值,包括:
将所述通信交互属性值中心化后的值除以所述通信交互属性值的标准方差后获得基准交互属性值。
较佳的,所述根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值,包括:
将所述基准交互属性值通过由第一权重的决策树模型和第二权重的决策树模型相加组成的预测模型确定出所述短消息为垃圾短消息的概率值。
较佳的,通过逻辑回归模型确定所述第一权重和所述第二权重。
本发明实施例提供一种垃圾短消息的识别装置,包括:
属性值确定单元,用于确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录,确定出所述第一通信设备与所述第二通信设备的通信交互属性值;
概率值确定单元,用于根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值;
垃圾短消息确定单元,用于当所述概率值高于预设阈值时将所述短消息确定为垃圾短信,否则,将所述短消息确定为非垃圾短信。
较佳的,所述属性值确定单元还用于:
将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除;
将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除。
较佳的,所述属性值确定单元确定的通信交互属性值包括以下部分或全部:
第一通信设备与第二通信设备之间短消息的回复值;
第一通信设备作为发送方时的短消息通信对象的数量;
第二通信设备作为接收方时的短消息通信对象的数量;
第一通信设备与第二通信设备的共同通信对象的数量;
第二通信设备作为接收方时的语音通信对象的数量;
第一通信设备作为发送方时的语音通信对象的数量;
第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备所有的通信对象中所占的比例;
第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
第一通信设备到第二通信设备的最短路径;
第一通信设备到第二通信设备M跳以上采用贪心算法获得的权重值,其中M为正整数;
第一通信设备与第二通信设备之间的相似度;
第一通信设备与第二通信设备之间存在可达的概率。
较佳的,所述概率值确定单元用于:
将所述通信交互属性值中心化后的值除以所述通信交互属性值的标准方差后获得基准交互属性值。
较佳的,所述垃圾短消息确定单元用于:
将所述基准交互属性值通过由决策树模型计算出来的概率值,再通过逻辑回归模型相加组成的预测模型确定出所述短消息为垃圾短消息的概率值。
较佳的,通过逻辑回归模型确定所述第一权重和所述第二权重。
根据本发明实施例提供的方法,当第一通信设备在发送短消息给第二通信设备时,根据第一通信设备与第二通信设备在预定时间段内的通信记录,获得第一设备与第二通信设备的通信交互属性值。根据通信交互属性值可以得到第一通信设备发送的短消息为垃圾短消息的概率,将发送短消息的概率高于预设阈值的短消息确定为垃圾短消息。通过对第一通信设备历史通信记录,对第一通信设备发送的短消息是否为垃圾短消息进行预测,可以提高判断垃圾短消息的效率和准确率。
附图说明
图1为本发明实施例提供的一种垃圾短消息的识别方法流程图;
图2为本发明实施例提供的一种垃圾短消息的识别装置结构图。
具体实施方式
本发明实施例中当第一通信设备在发送短消息给第二通信设备时,根据第一通信设备与第二通信设备在预定时间段内的通信记录,获得第一设备与第二通信设备的通信交互属性值。根据通信交互属性值可以得到第一通信设备发送的短消息为垃圾短消息的概率,将发送短消息的概率高于预设阈值的短消息确定为垃圾短消息。
下面结合说明书附图对本发明实施例做详细描述。
如图1所示,本发明实施例提供的一种垃圾短消息的识别方法流程图,该方法包括:
步骤101:网络设备确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录,确定出所述第一通信设备与所述第二通信设备的通信交互属性值;
步骤102:根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值;
步骤103:当所述概率值高于预设阈值时将所述短消息确定为垃圾短信,否则,将所述短消息确定为非垃圾短信。
本发明实施例中的第一通信设备和第一通信设备为移动电话以及具有移动电话功能的通信设备。
目前识别垃圾短消息的方法都是通过提取短消息中的关键字和垃圾词库进行对比,由于垃圾词库的不断扩充以及用户爆炸式增长,这种方法在识别垃圾短消息的准确率越来越低。本发明实施例的方法在识别垃圾短消息时,并不是从短消息的内容入手,而是通过通信设备发送短消息的行为去判断其所发送的短消息是否为垃圾短消息。由于发送垃圾短消息的通信设备的通信记录和正常的通信设备是不同的,可以通过分析并总结出通信设备的通信记录从而了解发送短消息的行为,根据发送短消息的行为可以预测发送垃圾短消息的概率值,然后将概率值较低的发送短消息的行为所发送的短消息判断为垃圾短消息。
移动通信运营商会有每个通信设备的历史通信记录,历史通信记录中包含短消息通信记录和语音通信记录。为了能够提供通信设备的短消息行为去预测通信设备发送短消息的概率,本发明实施例中历史通信记录中的短消息已经能够确定是否为垃圾短消息,同时会在历史通信记录中将垃圾短消息进行标记。
每一条短消息通信记录会包含发送方和接收方,本发明实施例中,将发送方称为第一通信设备,将接收方称为第二通信设备。每个通信设备都会有一个号码,有时有些通信设备的历史通信记录并不需要去分析,因此会在历史通信记录中通过过滤号码的方式将设定的通信设备的通信记录删除。例如,若不需要对号码类型为非手机号码的通信设备的历史通信记录进行分析,可以将数据库中与非手机号码有关的历史通信记录删除。一种典型的通信设备的非手机号码的历史通信记录为电商平台发送的促销短消息、快递公司发送的快递信息短消息等。
较佳的,所述获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录之前,还包括:
将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除;
将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除。
在获得筛选的通信设备的历史通信记录之后,以短消息通信记录为主导,分析每条短消息通信记录的第一通信设备和第二通信设备的通信交互关系,并根据数学模型将这种通信交互关系用数字或公式的形式表现,以便进行数学上的分析。
在本发明实施例中,每条短消息通信记录的第一通信设备和第二通信设备的通信交互关系可以用以下多个通信交互属性描述,下面详细介绍每一种通信交互属性以及它们的计算方法。现假定第一通信设备为va,第二通信设备为vb,发送短消息行为可描述为va发短消息到vb。Γout(va)描述va呼出且不重复号码量,Γin(vb)为呼入到vb且不重复的号码量,Γ(va)为va发送和接收者短消息的通信设备的数量。A描述以va为核心的邻接矩阵。下列通信交互属性表述从va发送短消息到vb。
属性一,回复值:垃圾短消息发送过程中一般是不存在回复的情况。因此,用该属性来描述第一通信设备与第二通信设备之间的短消息通信记录是否存在回复的情况。例如,如果va发短消息给vb,且在其以往的交互中存在vb也发短消息给va则返回“1”,否则返回“0”。
属性二,出度:该属性主要记录在指定时间段内va发送短消息的对象中剔除重复的对象数量,描述为|Γout(va)|。
属性三,入度:该属性主要是描述vb收到短消息并剔除重复的发送方后的数量,描述为|Γin(vb)|。
属性四,共同邻居数:通过公式|Γout(va)∩Γin(vb)|来获取va与vb之间同时存在联系的对象。
属性五,父节点数量:该属性表示的是与va同一级别的号码,且同时是vb的父节点的数量。
属性六,子节点数量:该属性表示的是与vb同一级别的号码,且同时是va的子节点的数量。
属性七,入度的乘积:垃圾短消息在发送过程中有几乎很少发送到某些用户熟知的用户群当中,因此将上述属性共同的联系人与他们共同的发送量进行比较,进行标准化处理。计算公式为
属性八,发送量之积:该属性的计算公式是|Γ(va)||Γ(vb)|,用于描述在第一通信设备的通信对象数量和第二通信设备的通信对象数量的乘积。
属性十,最短路径:该属性主要是描述从短消息接收方vb到短消息发起方va的最短路径。由于有可能存在很多条搜索路径,这个属性采用贪心算法搜索。即每次搜索从|Γout(vi)|最多的节点vi开始找,依次往外层搜索。当搜索过程超过T次后,停止搜索。并将不可达的结果赋一个Max值,该属性值将在归一化后赋0值。
属性十一:在正常短消息交互中,可能存在多种联系的情况。而垃圾短消息号码与发送号码之间的联系可能只有一种。因此,本发明实施例采用计算M跳以上采用贪心算法获得的权重值来描述通信设备之间存在联系的权重,其中M为正整数。本发明实施例中,一般计算出3跳及3跳以上通信设备之间存在联系的权重,4跳时的具体计算公式为:βA(va,vb)+β2A2(va,vb)+…+β4A4(va,vb)。β在本发明实施例中取值是0.5,A(va,vb)表示va与vb直接联系的短消息数量,A2(va,vb)表示通过两次机会联系上的短消息数量,A3(va,vb)表示通过三次机会联系上的短消息数量,A4(va,vb)表示通过四次机会联系上的短消息数量,其他情况依次类推。
属性十二,相似度:由于发送垃圾短消息的群发有可能碰巧发送到相互认识的号码,为避免类似问题出现导致判断失误,因此采用以下计算公式确定第一通信设备与第二通信设备之间的相似度:其中γ为加权值,取值为0.05。
属性十三,通信设备之间的可达概率:本属性是根据随机游走的算法计算节点之间的存在可达的概率,其特点是能计算实际不存在短消息行为的通信设备之间存在可达的概率。计算公式为xn=x0(1-d)+d(A+ωAT)xn-1,其中,Xn表示是在第n次迭代后的概率值,X0是初始权重,初始值为1,ω是权重,d衰减权重,A是邻接矩阵,ωAT表示从vb跳转到va的邻接矩阵的权重。其中d和ω的值在本发明实施例中分别为0.05和0.5,当然也可以为其他值,具体根据所需的参数进行调节。
较佳的,所述通信交互属性值包括以下部分或全部:
第一通信设备作为发送方时的短消息通信对象的数量;
第二通信设备作为接收方时的短消息通信对象的数量;
第一通信设备与第二通信设备的共同通信对象的数量;
第二通信设备作为接收方时的语音通信对象的数量;
第一通信设备作为发送方时的语音通信对象的数量;
第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备所有的通信对象中所占的比例;
第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
第一通信设备到第二通信设备的最短路径;
第一通信设备到第二通信设备M跳以上采用贪心算法获得的权重值,其中M为正整数;
第一通信设备与第二通信设备之间的相似度;
第一通信设备与第二通信设备之间存在可达的概率。
在获得每条短消息通信记录的通信双方的所有通信交互属性值之后,会将所有信息记录在数据库中,记录的形式如表1所示:
表1
在表1中第一通信设备记录的是短消息发送方的号码,第二通信设备记录的是短消息接收方的号码,属性一至属性十三记录的是计算获得的通信交互属性值,短消息类型记录的是该短消息是否为垃圾短消息,是垃圾短消息则值为1,不是垃圾短消息则值为0,每一条短消息是否为垃圾短消息都是在数据库中标记的,本发明实施例中不对数据库中的短消息是否为垃圾短消息进行判断。
为了减少误差,将每个通信交互属性值进行中心化和标准化处理。中心化是用该属性中的值减去均值,标准化是将中心化后的值除以该属性值的标准方差。
较佳的,所述由所述通信交互属性值获得的基准交互属性值,包括:
将所述通信交互属性值中心化后的值除以所述通信交互属性值的标准方差后获得基准交互属性值。
有了历史通信记录中每条短消息的通信双方的通信交互属性值,现在所需做的就是根据这些数据建立一种预测模型,当通信记录中的通信设备在发送短消息时,根据已建立的预测模型去预测该短消息为垃圾短消息的概率。本发明实施例中采用加权逻辑回归模型和加权决策树模型组成的混合模型作为垃圾短消息的预测模型,预测模型描述如下:
Y=αA1(x1,x2,…,x13)+βA2(x1,x2,…,x13)+δ
其中,A1(x1,x2,…,x13),A2(x1,x2,…,x13),分别表示在历史通信记录中采用不同采样权重下决策树模型计算出来的概率结果,x1,x2,…,x13表示计算得到的十三个通信交互属性值,α表示通过逻辑回归模型计算的权重,β表示通过逻辑回归模型计算的权重,δ也是通过逻辑回归模型计算出来的。
两个决策树模型中提取的历史通信记录中的短消息通信记录是按照不同权重来提取的。由于短消息通信记录中包含垃圾短消息和非垃圾短消息两种类型,为保障决策树模型的概率计算的准确性,在提取的短消息记录时按照不同类型短消息通信记录在整体中的比例来提取,这样能通过构建多个样本集合。例如,在历史通信记录中,垃圾短消息占整体短消息通信记录的比重为0.3,非垃圾短消息占整体短消息通信记录的比重为0.7,为保障垃圾短信与非垃圾短信在训练集合中的数量相当,决策树模型在采样时,第一个决策树模型可以按照非垃圾短消息与垃圾短消息7比3的比例,第二个决策树模型按照非垃圾短消息与垃圾短消息6比4采样权重进行提取短消息通信记录,通过不同的采用权重则构建不同的训练集合。对于其他情况,在提取短消息通信记录时,也是按照此方法实现,在此不再一一赘述。
现在有了预测模型和通信设备的通信交互属性值,需要确定预测模型中α,β,δ参数的具体值。
预测模型的构建以及其中的加权参数确定按照以下步骤进行:
步骤一:在数据库中选取一部分短消息通信记录,当然也可以选取数据库中的所有短消息通信记录,假设选取了n组短消息通信记录作为训练数据,n为正整数;
步骤二:获得每条短消息通信i中通信双方的通信交互属性值以及短消息类型值Yi',其中0<i≤n,i为正整数,Yi'只能取0或1,为1表示垃圾短信,0表示非垃圾短信;
步骤三:将训练集合中每条短消息i的通信交互属性值输入预测模型中,获得预测其为垃圾短消息的概率值为Yi;
步骤四:通过逻辑回归模型,当计算出损失函数的值最小时,可以确定出α,β,δ参数的具体值,损失函数描述如下:
步骤四中的损失函数还可以是其他形式的,比如等。
通过将由混合模型预测模型预测的每条短消息的概率值与每条短消息实际的垃圾短消息类型值想减,如果预测的概率值与每条短消息实际的垃圾短消息类型值越接近,说明预测模型预测的越准确,损失函数的值也就最小。因此可以通过这种方法确定α,β,δ参数的具体值。
当预测模型确定之后,就可以根据预测模型预测消息为垃圾短信的概率值,并对短消息是否为垃圾短消息进行判断。具体,可以预先设置一个阈值,将获得的概率值与阈值进行对比,高于阈值的概率值所对应的短消息可以确定为垃圾短消息,否则确定为非垃圾短消息。例如,对应第一通信设备A,当其发送短消息给第二通信设备B时,网络侧设备会监测到这一事件的发生,此时便去根据针对A的预测模型计算此时A所发送的短消息为垃圾短消息的概率,假设此时计算得到的概率值为0.5,而预设的阈值为0.4,此时可以将该短消息确定为垃圾短消息。
为了使得预测模型更加准确,每隔一段时间后根据更新后的通信记录对预测模型进行修正。具体相隔多长时间可以根据实际情况进行确定。
较佳的,所述根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值,包括:
将所述基准交互属性值通过由决策树模型和逻辑回归模型组成的预测模型确定出所述短消息为垃圾短消息的概率值。
基于同一发明构思,本发明实施例还提供了一种垃圾短消息识别的装置,由于该装置解决问题的原理与前述一种垃圾短消息识别的方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图2所示,本发明实施例提供一种垃圾短消息的识别装置,该装置包括:
属性值确定单元201,用于确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录,确定出所述第一通信设备与所述第二通信设备的通信交互属性值;
概率值确定单元202,用于根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值;
垃圾短消息确定单元203,用于当所述概率值高于预设阈值时将所述短消息确定为垃圾短信,否则,将所述短消息确定为非垃圾短信。
较佳的,所述属性值确定单元201还用于:
将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除;
将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除。
较佳的,所述属性值确定单元确定的通信交互属性值包括以下部分或全部:
第一通信设备与第二通信设备之间短消息的回复值;
第一通信设备作为发送方时的短消息通信对象的数量;
第二通信设备作为接收方时的短消息通信对象的数量;
第一通信设备与第二通信设备的共同通信对象的数量;
第二通信设备作为接收方时的语音通信对象的数量;
第一通信设备作为发送方时的语音通信对象的数量;
第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备所有的通信对象中所占的比例;
第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
第一通信设备到第二通信设备的最短路径;
第一通信设备到第二通信设备M跳以上采用贪心算法获得的权重值,其中M为正整数;
第一通信设备与第二通信设备之间的相似度;
第一通信设备与第二通信设备之间存在可达的概率。
较佳的,所述概率值确定单元202用于:
将所述通信交互属性值中心化后的值除以所述通信交互属性值的标准方差后获得基准交互属性值。
较佳的,所述垃圾短消息确定单元203用于:
将所述基准交互属性值通过由决策树模型计算出来的概率值,再通过逻辑回归模型相加组成的预测模型确定出所述短消息为垃圾短消息的概率值。
较佳的,所述概率值确定单元202用于通过逻辑回归模型确定所述第一权重和所述第二权重。
本发明实施例中当第一通信设备在发送短消息给第二通信设备时,根据第一通信设备与第二通信设备在预定时间段内的通信记录,获得第一设备与第二通信设备的通信交互属性值。根据通信交互属性值可以得到第一通信设备发送的短消息为垃圾短消息的概率,将发送短消息的概率高于预设阈值的短消息确定为垃圾短消息。通过对第一通信设备历史通信记录,对第一通信设备发送的短消息是否为垃圾短消息进行预测,可以提高判断垃圾短消息的效率和准确率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种垃圾短消息的识别方法,其特征在于,该方法包括:
网络设备确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录,确定出所述第一通信设备与所述第二通信设备的通信交互属性值;
根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值;
当所述概率值高于预设阈值时将所述短消息确定为垃圾短信,否则,将所述短消息确定为非垃圾短信;
其中,所述根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值,包括:
将所述基准交互属性值通过由第一权重的决策树模型和第二权重的决策树模型相加组成的预测模型确定出所述短消息为垃圾短消息的概率值;所述第一权重和所述第二权重中的任一权重为该权重的决策树模型采样时从历史通信记录中采集的非垃圾短信与垃圾短信的比例。
2.如权利要求1所述的方法,其特征在于,所述获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录之前,还包括:
将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除;
将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除。
3.如权利要求1所述的方法,其特征在于,所述通信交互属性值包括以下部分或全部:
第一通信设备与第二通信设备之间短消息的回复值;
第一通信设备作为发送方时的短消息通信对象的数量;
第二通信设备作为接收方时的短消息通信对象的数量;
第一通信设备与第二通信设备的共同通信对象的数量;
第二通信设备作为接收方时的语音通信对象的数量;
第一通信设备作为发送方时的语音通信对象的数量;
第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备所有的通信对象中所占的比例;
第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
第一通信设备到第二通信设备的最短路径;
第一通信设备到第二通信设备M跳以上采用贪心算法获得的权重值,其中M为正整数;
第一通信设备与第二通信设备之间的相似度;
第一通信设备与第二通信设备之间可达的概率。
4.如权利要求1所述的方法,其特征在于,所述由所述通信交互属性值获得的基准交互属性值,包括:
将所述通信交互属性值中心化后的值除以所述通信交互属性值的标准方差后获得基准交互属性值。
5.如权利要求1所述的方法,其特征在于,通过逻辑回归模型确定所述第一权重和所述第二权重。
6.一种垃圾短消息的识别装置,其特征在于,该装置包括:
属性值确定单元,用于确定第一通信设备发送给第二通信设备的短消息后,获取所述第一通信设备的历史通信记录以及所述第二通信设备的历史通信记录,确定出所述第一通信设备与所述第二通信设备的通信交互属性值;
概率值确定单元,用于根据由所述通信交互属性值获得的基准交互属性值确定出所述短消息为垃圾短消息的概率值;
垃圾短消息确定单元,用于当所述概率值高于预设阈值时将所述短消息确定为垃圾短信,否则,将所述短消息确定为非垃圾短信;
其中,所述垃圾短消息确定单元用于:
将所述基准交互属性值通过由决策树模型计算出来的概率值,再通过逻辑回归模型相加组成的预测模型确定出所述短消息为垃圾短消息的概率值。
7.如权利要求6所述的装置,其特征在于,所述属性值确定单元还用于:
将所述第一通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除;
将所述第二通信设备的历史通信记录中主叫号码和/或被叫号码为设定号码的通信记录删除。
8.如权利要求6所述的装置,其特征在于,所述属性值确定单元确定的通信交互属性值包括以下部分或全部:
第一通信设备与第二通信设备之间短消息的回复值;
第一通信设备作为发送方时的短消息通信对象的数量;
第二通信设备作为接收方时的短消息通信对象的数量;
第一通信设备与第二通信设备的共同通信对象的数量;
第二通信设备作为接收方时的语音通信对象的数量;
第一通信设备作为发送方时的语音通信对象的数量;
第一通信设备与第二通信设备的共同通信对象在第一通信设备与第二通信设备所有的通信对象中所占的比例;
第一通信设备通信对象的数量与第二通信设备通信对象的数量的乘积;
第一通信设备到第二通信设备的最短路径;
第一通信设备到第二通信设备M跳以上采用贪心算法获得的权重值,其中M为正整数;
第一通信设备与第二通信设备之间的相似度;
第一通信设备与第二通信设备之间存在可达的概率。
9.如权利要求6所述的装置,其特征在于,所述概率值确定单元用于:
将所述通信交互属性值中心化后的值除以所述通信交互属性值的标准方差后获得基准交互属性值。
10.如权利要求6所述的装置,其特征在于,所述垃圾短消息确定单元用于:
将所述基准交互属性值通过由第一权重的决策树模型和第二权重的决策树模型相加组成的预测模型确定出所述短消息为垃圾短消息的概率值;所述第一权重和所述第二权重中的任一权重为该权重的决策树模型采样时从历史通信记录中采集的非垃圾短信与垃圾短信的比例;
通过逻辑回归模型确定所述第一权重和所述第二权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410298514.XA CN105323763B (zh) | 2014-06-27 | 2014-06-27 | 一种垃圾短消息的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410298514.XA CN105323763B (zh) | 2014-06-27 | 2014-06-27 | 一种垃圾短消息的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105323763A CN105323763A (zh) | 2016-02-10 |
CN105323763B true CN105323763B (zh) | 2019-03-05 |
Family
ID=55250174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410298514.XA Active CN105323763B (zh) | 2014-06-27 | 2014-06-27 | 一种垃圾短消息的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105323763B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681170B (zh) * | 2016-03-08 | 2019-04-16 | 北京小米移动软件有限公司 | 短信拦截方法及装置 |
CN108696626B (zh) * | 2017-04-12 | 2021-05-04 | 中国移动通信集团福建有限公司 | 非法信息的处理方法和装置 |
CN108062303A (zh) * | 2017-12-06 | 2018-05-22 | 北京奇虎科技有限公司 | 垃圾短信的识别方法及装置 |
CN112492534B (zh) * | 2020-11-25 | 2022-04-15 | 中国联合网络通信集团有限公司 | 消息处理方法、装置及设备 |
CN114401494B (zh) * | 2022-01-14 | 2023-05-26 | 平安壹钱包电子商务有限公司 | 短消息下发异常检测方法、装置、计算机设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101321365A (zh) * | 2008-07-17 | 2008-12-10 | 浙江大学 | 一种利用短信回复频率的垃圾短信发送用户识别方法 |
CN101860822A (zh) * | 2010-06-11 | 2010-10-13 | 中兴通讯股份有限公司 | 垃圾短信监控方法和系统 |
WO2012019386A1 (zh) * | 2010-08-10 | 2012-02-16 | 中兴通讯股份有限公司 | 一种垃圾短信监控的方法和系统 |
CN102547621A (zh) * | 2010-12-23 | 2012-07-04 | 中国移动通信集团公司 | 一种垃圾短信监控与处理的系统、装置及方法 |
CN102802133A (zh) * | 2012-07-23 | 2012-11-28 | 中国联合网络通信集团有限公司 | 垃圾信息的识别方法、装置及系统 |
CN103796207A (zh) * | 2012-11-02 | 2014-05-14 | 中国移动通信集团上海有限公司 | 一种虚假用户号码识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060123083A1 (en) * | 2004-12-03 | 2006-06-08 | Xerox Corporation | Adaptive spam message detector |
-
2014
- 2014-06-27 CN CN201410298514.XA patent/CN105323763B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101321365A (zh) * | 2008-07-17 | 2008-12-10 | 浙江大学 | 一种利用短信回复频率的垃圾短信发送用户识别方法 |
CN101860822A (zh) * | 2010-06-11 | 2010-10-13 | 中兴通讯股份有限公司 | 垃圾短信监控方法和系统 |
WO2012019386A1 (zh) * | 2010-08-10 | 2012-02-16 | 中兴通讯股份有限公司 | 一种垃圾短信监控的方法和系统 |
CN102547621A (zh) * | 2010-12-23 | 2012-07-04 | 中国移动通信集团公司 | 一种垃圾短信监控与处理的系统、装置及方法 |
CN102802133A (zh) * | 2012-07-23 | 2012-11-28 | 中国联合网络通信集团有限公司 | 垃圾信息的识别方法、装置及系统 |
CN103796207A (zh) * | 2012-11-02 | 2014-05-14 | 中国移动通信集团上海有限公司 | 一种虚假用户号码识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105323763A (zh) | 2016-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105323763B (zh) | 一种垃圾短消息的识别方法及装置 | |
CN106909643B (zh) | 基于知识图谱的社交媒体大数据主题发现方法 | |
CN109561322A (zh) | 一种视频审核的方法、装置、设备和存储介质 | |
CN106407178A (zh) | 一种会话摘要生成方法及装置 | |
CN110619535B (zh) | 一种数据处理方法及其装置 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN110162970A (zh) | 一种程序处理方法、装置以及相关设备 | |
CN103970733B (zh) | 一种基于图结构的中文新词识别方法 | |
CN108366045A (zh) | 一种风控评分卡的设置方法和装置 | |
KR20200057903A (ko) | 인공지능 모델 플랫폼 및 인공지능 모델 플랫폼 운영 방법 | |
CN106485146B (zh) | 一种信息处理方法及服务器 | |
CN112468659B (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN110046297B (zh) | 运维违规操作的识别方法、装置和存储介质 | |
CN108491389A (zh) | 点击诱饵标题语料识别模型训练方法和装置 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN112214677B (zh) | 一种兴趣点推荐方法、装置、电子设备及存储介质 | |
CN104778283A (zh) | 一种基于微博的用户职业分类方法及系统 | |
US10956914B2 (en) | System and method for mapping a customer journey to a category | |
CN104951478A (zh) | 信息处理方法和信息处理装置 | |
WO2020125477A1 (zh) | 一种提升爬虫识别召回率的方法、装置、介质及设备 | |
CN112116168A (zh) | 一种用户行为的预测方法、装置及电子设备 | |
CN110457601A (zh) | 社交账号的识别方法和装置、存储介质及电子装置 | |
CN111680120B (zh) | 新闻类别检测方法及系统 | |
CN109672586A (zh) | 一种dpi业务流量识别方法、装置与计算机可读存储介质 | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |