CN105992178B - 一种垃圾短信识别方法及装置 - Google Patents
一种垃圾短信识别方法及装置 Download PDFInfo
- Publication number
- CN105992178B CN105992178B CN201510065075.2A CN201510065075A CN105992178B CN 105992178 B CN105992178 B CN 105992178B CN 201510065075 A CN201510065075 A CN 201510065075A CN 105992178 B CN105992178 B CN 105992178B
- Authority
- CN
- China
- Prior art keywords
- keyword
- chains
- vector
- setting
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种垃圾短信识别方法及装置,该方法包括:根据设定的关键词,获取接收到的文本信息的关键词链向量、分片信息向量和独立子句匹配向量;基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值;若所述近似度值大于设定阈值时,确定所述文本信息为垃圾短信,用以解决识别垃圾短信时,误判率较高,或识别垃圾短信时覆盖面较小,识别时容易丢失的问题。
Description
技术领域
本发明涉及通信技术领域,尤其是涉及一种垃圾短信识别方法及装置。
背景技术
在对现有的垃圾短信等短文本(垃圾短信、垃圾彩信、微博、OTT等)进行信息分析与处置的一般是通过关键词进行发现,如下述表a所示,房产信息&销售信息&电话作为一条已经设置的关键词名字策略,根据关键词名字策略,抓取符合条件的信息并判定该短信可能为地产广告短信。
表a
发送者 | 发送内容 |
135xxxx5480 | 湖滨新盘即将开售,上风上水、独特景观,热线电话:43007xxx |
基于对现有数据的分析发现,诈骗或垃圾短信往往是大面积发送,在对该原始信息进行实际检索的过程中,发现精确匹配的信息很少,但近似信息非常多。发送者有意采用不同的号码并变更信息的部分内容,使得信息更难以被追踪与发现。因此,广告、垃圾信息的发送者采用该类型方法进行了有效逃避。如下述表b所示,同样是一条关于地产销售的垃圾短信,可以通过不同的变型方式发送给用户。
表b
针对该种情况,目前的相同/近似的短信的主要识别方式包括:
第一种方式:基于关键字进行发现。该方法能通过关键字对信息进行发现,但在大量短信中单纯采用关键字进行识别极易形成误判。
第二种方式:信息哈希(英文:Hash)比对。将文本信息进行摘要,通过比对摘要发现完全相同的信息;或通过近似Hash算法(如Simhash),对内容中较少的差异进行兼容后形成摘要信息,并进而进行比对。但该种方式识别垃圾短信时,一方面由于短信息、微博文本等信息较短,如果出现一个字符的移位则很难识别。例如“购买发票请联系王经理”和“如购买发票请联系王经理”。另一方面,严格针对内容的比对覆盖面较小,容易形成丢失。
上述方式识别垃圾短信时,误判率较高,或识别垃圾短信时覆盖面较小,识别时容易丢失。
发明内容
本发明提供了一种垃圾短信识别方法及装置,用以解决识别垃圾短信时,误判率较高,或识别垃圾短信时覆盖面较小,识别时容易丢失的问题。
一种垃圾短信识别方法,包括:
根据设定的关键词,获取接收到的文本信息的关键词链向量、分片信息向量和独立子句匹配向量;
基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值;
若所述近似度值大于设定阈值时,确定所述文本信息为垃圾短信。
根据设定的关键词,获取所述文本信息的关键词链向量,包括:
根据设定的第一关键词链,确定文本信息中的第二关键词链,其中,所述设定的第一关键词链是设定的关键词形成的词链;
针对任一第二关键词链,确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性;以及确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性;
将所述相似性和顺序性,作为所述文本信息的关键词链向量。
确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性,包括:
确定所述第二关键词链中和设定的第一关键词链中相同的关键词的第一数量;并
确定设定的第一关键词链中的关键词的第二数量;
将所述第一数量和第二数量的比值作为所述第二关键词链中的每个关键词和设定的第一关键词链中关键词之间的相似性。
确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性,包括:
比较所述第二关键词链和设定的第一关键词链,确定所述第二关键词链中最大的有序链的个数占比,其中所述最大的有序链是和设定的第一关键词链中关键词相同的数量最多的链;以及
确定所述第二关键词链的有差异的间隔距离,其中所述有差异的间隔距离是和设定的第一关键词链相比,相同关键词之间存在的关键词数量;
将所述最大的有序链的个数占比和所述有差异的间隔距离,作为所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性。
获取所述文本信息的分片信息向量,包括:
将设定的第一关键词链按照设定的关键词划分为第一前片和第一后片;其中,所述前片是设定的关键词前面的信息,所述设定后片是设定的关键词后面的信息;并
将所述文本信息以设定的关键词划分为第二前片和第二后片;
确定第一前片和第二前片,第一后片和第二后片之间的包含、被包含以及相似度;
将所述包含、被包含以及相似度,作为所述文本信息的分片信息向量。
获取所述文本信息的独立子句匹配向量,包括:
确定所述文本信息中的独立子句;
将所述文本信息中的独立子句和设定的独立子句比较,确定所述文本信息的独立子句匹配向量。
按照下述公式,基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值:
MessageMatchDegree=F(VecKey,VecPhase,VecSub)
=F1(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
其中,MessageMatchDegree是近似度值,F1(VecKey)是关键词链向量,F2(VecPhase)是分片信息向量,F3(VecSub)是独立子句匹配向量,W1是关键词链向量的权重,W2是分片信息向量的权重,W3是独立子句匹配向量的权重,W1+W2+W3=1。
一种垃圾短信识别装置,包括:
获取模块,用于根据设定的关键词,获取接收到的文本信息的关键词链向量、分片信息向量和独立子句匹配向量;
计算模块,用于基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值;
确定模块,用于若所述近似度值大于设定阈值时,确定所述文本信息为垃圾短信。
所述获取模块,具体用于根据设定的第一关键词链,确定文本信息中的第二关键词链,其中,所述设定的第一关键词链是设定的关键词形成的词链;针对任一第二关键词链,确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性;以及确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性;将所述相似性和顺序性,作为所述文本信息的关键词链向量。
所述获取模块,具体用于确定所述第二关键词链中和设定的第一关键词链中相同的关键词的第一数量;并
确定设定的第一关键词链中的关键词的第二数量;将所述第一数量和第二数量的比值作为所述第二关键词链中的每个关键词和设定的第一关键词链中关键词之间的相似性。
所述获取模块,具体用于比较所述第二关键词链和设定的第一关键词链,确定所述第二关键词链中最大的有序链的个数占比,其中所述最大的有序链是和设定的第一关键词链中关键词相同的数量最多的链;以及确定所述第二关键词链的有差异的间隔距离,其中所述有差异的间隔距离是和设定的第一关键词链相比,相同关键词之间存在的关键词数量;将所述最大的有序链的个数占比和所述有差异的间隔距离,作为所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性。
所述获取模块,具体用于将设定的第一关键词链按照设定的关键词划分为第一前片和第一后片;其中,所述前片是设定的关键词前面的信息,所述设定后片是设定的关键词后面的信息;并将所述文本信息以设定的关键词划分为第二前片和第二后片;确定第一前片和第二前片,第一后片和第二后片之间的包含、被包含以及相似度;将所述包含、被包含以及相似度,作为所述文本信息的分片信息向量。
所述获取模块,具体用于确定所述文本信息中的独立子句;将所述文本信息中的独立子句和设定的独立子句比较,确定所述文本信息的独立子句匹配向量。
所述计算模块,具体用于按照下述公式,基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值:
MessageMatchDegree=F(VecKey,VecPhase,VecSub)
=F1(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
其中,MessageMatchDegree是近似度值,F1(VecKey)是关键词链向量,F2(VecPhase)是分片信息向量,F3(VecSub)是独立子句匹配向量,W1是关键词链向量的权重,W2是分片信息向量的权重,W3是独立子句匹配向量的权重,W1+W2+W3=1。
通过上述技术方案,本发明实施例上述提出的垃圾短信识别方法,针对任一文本信息,基于关键词,获取所述文本信息的关键词链向量、分片信息向量和独立子句匹配向量。用以解决识别垃圾短信时,误判率较高,或识别垃圾短信时覆盖面较小,识别时容易丢失的问题。
附图说明
图1为本发明实施例中,提出的垃圾短信识别方法流程图;
图2为本发明实施例中,提出的垃圾短信识别装置结构组成示意图。
具体实施方式
针对解决识别垃圾短信时,误判率较高,或识别垃圾短信时覆盖面较小,识别时容易丢失的问题,本发明实施例提出的技术方案中,针对任一文本信息,基于关键词,获取所述文本信息的关键词链向量、分片信息向量和独立子句匹配向量。用以解决识别垃圾短信时,误判率较高,或识别垃圾短信时覆盖面较小,识别时容易丢失的问题。
下面将结合各个附图对本发明实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细地阐述。
垃圾短信或其他类型的垃圾文本信息一般都采用多种变形的方式,主要包括下述三种类型:
第一种类型:字符格式转换。该种方式中,常见的转换包括简、繁体、数字转中文、全角半角转换等。
第二种类型:特殊字符添加。该种方式中,随机添加一些特殊字符,如#¥%……&*()等。
第三种类型:句式转换。该种方式中,通过文字前后顺序调换,例如增加、改变一些字符,使得语义不变但和原有的文字信息有不同之处。
对于上述各种类型的转换来说,字符格式转换、特殊字符添加都易于被机器自动处理。但是对于句式转换来说,机器很难自动化进行处理,因此很多信息需要人工审核并确定一个文本信息是否是垃圾短信,人工审核的方式将会带来较大的工作量。
实施例一
本发明实施例提出一种垃圾短信识别方法,如图1所示,其具体处理流程如下述:
步骤11,针对任一文本信息,根据设定的关键词,获取文本信息的关键词链向量、分片信息向量和独立子句匹配向量。
其中关键词链向量是用于表征文本信息和设定的关键词之间的相似性和顺序性的特征向量。
其中相似性是指文本信息中包含的关键词,和设定的关键词之间的相似性。例如,设定的关键词为新盘,若文本信息中含有关键词新楼、新房、新居,则可以定义该些关键词新楼、新房、新居和设定的关键词新盘之间的相似性。
顺序性是指文本信息中包含的关键词形成的关键词链,和设定的关键词形成的关键词链之间的顺序性。例如,设定的关键词形成的关键词链为新盘→开售→电话,文本信息中包含的关键词链为开售→新盘→电话,二者相比,文本信息的关键词链开售→新盘→电话,开售和电话之间间隔了一个关键词新盘,则可以以关键词数量来表示顺序性。
本发明实施例一提出的技术方案中,以VecKey来标识关键词链向量。其中,关键词链向量是二维向量。
为便于阐述,将设定关键词形成的词链称之为第一关键词链,将文本信息中的关键词链称之为第二关键词链,则获取文本信息的关键词向量的具体处理流程如下述:
步骤一:根据设定的第一关键词链,确定文本信息中的第二关键词链。
其中,设定的第一关键词链是设定的关键词形成的词链。
例如,设定的关键词为新盘、开售、电话,则第一关键词链可以是新盘→开售→电话。文本信息中若包含新盘、开售、电话中的两个关键词,则形成第二关键词链。例如,假设文本信息中包含关键词新盘、开售,则第二关键词链为新盘→开售。
步骤二:针对任一第二关键词链,确定该第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性;以及确定第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性。
其中,确定第二关键词链中的每个关键词和设定的第一关键词链中关键词之间的相似性,包括:
首先,确定第二关键词链中和设定的第一关键词链中相同的关键词的第一数量,以及确定设定的第一关键词链中的关键词的第二数量。
其次,将确定出的第一数量和第二数量的比值作为第二关键词链中的每个关键词和设定的关键词链中关键词之间的相似性。
确定第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性,包括:
首先,比较第二关键词链和设定的第一关键词链,确定第二关键词链中最大的有序链的个数占比。
其中最大的有序链是和设定的第一关键词链中关键词相同的数量最多的链。
例如,设定的第一关键词链为新盘→开售→电话,文本信息中获得的第二关键词链为新盘→开售。第二关键词链中新盘、开售完全和第一关键词链中的新盘、开售顺序相一致。则最大有序链是指新盘→开售。
其次,确定第二关键词链的有差异的间隔距离。
其中有差异的间隔距离是和设定的第一关键词链相比,相同关键词之间存在的关键词数量。
再次,将最大的有序链的个数占比和所述有差异的间隔距离,作为该第二关键词链中的每个关键词和设定的关键词链中的关键词之间的顺序性。
步骤三:将相似性和顺序性,作为该文本信息的关键词链向量。
下面以一具体实例来详细阐述本发明实施例提出的技术方案。
为便于阐述,对下述示例文本信息进行唯一标识编号,具体如下述表1所示:
表1:
以上述表1中的文本信息为例来进行详细阐述。首先设定文本信息1001为基准文本信息。在垃圾短信中,如果有多个关键字完全相同,则有较大的可能性为同一条文本信息的不同排序,但也有可能为误判的信息。基准文本信息中设定的关键词可以是新盘、开售、电话。则由设定的关键词形成的设定的第一关键词链为新盘→开售→电话。
根据设定的关键词链,确定文本信息中的关键词链。
对上述表1中的各文本信息进行关键词链提取。提取的关键词链分别如下述表2中所示:
表2
针对任一关键词链,确定该关键词链中的每个关键词和设定的关键词链中的关键词之间的相似性。
关键词链提取完成后,对提取的关键词链进行关键词链分析。
其中对提取的关键词链进行关键词链分析,包括相似性和顺序性。
本发明实施例提出的技术方案中,首先,在进行相似性的分析过程中,引入近义词库,每个词的相近程度可以通过预先设定。例如可以以(关键词,相似度)进行表示,具体如下述表3所示:
表3
在上述表3中,首先给出基准词,然后设定近义词和基准词之间的近似度值。将该些内容存储到字库中。
在确定了关键词链的相似性之后,确定关键词链中的每个关键词和设定的关键词链中的关键词之间的顺序性。
其中相似性可以是两个关键词链中关键词的相同个数和最大个数的比值。如果有近义词,考虑近义词和基准词之间的相似度值。顺序性是一个二维向量,包含最大的有序链的个数占比、有差异的间隔距离。
本发明实施例仍以上述表1中的各文本信息为例,关键词链的相似性和顺序性具体可以如下述表4所示。
表4
标识编号 | 关键词链 | 相似性 | 顺序性 |
1001 | 新盘→开售→电话 | —— | —— |
1002 | 新盘→开售→电话 | 100% | 100%,0 |
1003 | 发售→新盘→电话 | 100% | 66.7%,1 |
1004 | 新房→发售→电话 | 86.7% | 100%,0 |
1005 | 新盘→电话 | 66.7% | 66.7%,1 |
1006 | 新房→电话 | 60% | 66.7%,1 |
1007 | 新盘→电话 | 66.7% | 66.7%,1 |
其中,对于近似信息,向量VecKey=[有序链的个数占比,有差异的间隔距离]两个参数,第一个参数值越大,表明近似度越高;第二个参数值越小,表明近似度越高。
分片信息向量是用于表征文本信息和设定的关键词分片之间的包含关系和相似度的三维特征向量,关键词分片是设定的关键词之前或关键词之后的信息。
获取文本信息的分片信息向量,包括:
首先,将设定的第一关键词链按照设定的关键词划分为第一前片和第一后片。
其中,前片是设定的关键词前面的信息,后片是设定的关键词后面的信息。
例如,假设文本信息中包含湖滨、新盘、即将,设定的关键词为新盘,则该文本信息华文的前片为湖滨,后片为即将。
其次,将文本信息以设定的关键词划分为第二前片和第二后片。
再次,确定第一前片和第二前片,第一后片和第二后片之间的包含、被包含以及相似度。
最后,将包含、被包含以及相似度,作为该文本信息的分片信息向量。
本发明实施例提出的技术方案中,以VecPhase表示分片信息向量,基于分片的前片(英文:Prefix)、后片(英文:Suffix)进行的特征计算向量,向量的维数为关键词个数:[Pkey1,Pkey2,…,Pkeyn]
依据关键词,可以对文本信息进行有效分片,关键词作为分片的第一特征。
下面仍以上述表1中所示的文本信息为例来进行详细阐述。具体分片信息如下述表5所示:
表5
对于文本信息中的每个关键词,都有依附的两个文本分片信息:Prefix、Suffix。由于文本信息中语序的特征,围绕一个关键词的分片可能存在颠倒关系。设定分片之间的关系包括一个三维向量:(包含、被包含、相似度),前两个向量值为Bool型(0或1),第三个为0~1区间的值。
分片信息具体如下述表6所示:
表6
独立子句匹配向量是用于表征文本信息中的独立子句的数量,独立子句是用于表征文本信息被包含的分片内容前或分片内容后增加的信息。
其中,获取所述文本信息的独立子句匹配向量,包括:
首先,确定文本信息中的独立子句。
其次,将文本信息中的独立子句和设定的独立子句比较,确定文本信息的独立子句匹配向量。
当出现(1,0,x)或(0,1,y)时,表明一个分片中包含另一个分片;继续进行独立子句分析。独立子句是指在被包含的分片内容前或后增加的内容,称为独立子句。例如在上述1001和1002对比分析完毕后,在key2附着的信息中出现了包含关系,应进行独立子句提取;容易得出独立子句为“,上风上水、独特景观”。
独立子句的提取更利于精确判定,排除干扰。独立子句可循环提取,获得最大值。
在独立子句提取后,应再次进行分片信息的信息更新;更新的内容中包含对独立子句的匹配度(0~1)。
表7
仍以上文中的表1为例来进行详细阐述。
如上述表7所示,标识编号为1001、1002两条文本信息具有完全相同的实质内容;基于标识编号1001和1002形成的聚类结果继续进行判定,对判定结果1004、1006示例如下述表8所示。
表8
在上述表8中,因为“即将”和标识编号1004中的“在即”为相似词,近似度为0.8,去掉独立子句后,内容为“在即,热线”,进行同义词替代后近似度为:(0.8*2+1)/(0.8*2+3)=0.56。
对分片信息的近似度的结果的提取,对于每个关键词,取其Prefix、Suffix向量中近似度的较大值,但相邻的关键词中,由于Prefix、Suffix,同一信息仅能使用1次。
例如最终提取分片信息的分片近似度向量值VecPhase=[PKey1,Pkey2,Pkey3]、独立子句近似度向量值VecSub=[P_SubSentence1]。
1002:[1,1,1],[1]
1004:[0,0.56,1],[1]
1006:[0.4,0,0.36],[0]
步骤12,基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算文本信息的近似度值。
其中,拟合是指已知某函数的若干离散函数值,通过调整该函数中若干待定系数,使得该函数与已知点集的差别(最小二乘意义)最小。本发明实施例提出的技术方案中,通过拟合方法,来计算文本信息和已知垃圾短信样本之间的近似度值。
通过对已有样本的学习和分析,建立全文近似判定的三维模型函数F。
MessageMatchDegree=F(VecKey,VecPhase,VecSub)
=F1(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
其中,MessageMatchDegree是近似度值,F1(VecKey)是关键词链向量,F2(VecPhase)是分片信息向量,F3(VecSub)是独立子句匹配向量,W1是关键词链向量的权重,W2是分片信息向量的权重,W3是独立子句匹配向量的权重,W1+W2+W3=1。
一种较佳地实现方式,例如W1=0.3,W2=0.4,W3=0.3。
其中F1的参数为1个,F2的参数为0个或多个(按关键词数量确定);F3的参数为0个或多个(按独立子句数量确定)。
步骤13,将确定出的近似度值和设定阈值比较,若近似度值大于设定阈值时,确定文本信息为垃圾短信。
一种较佳的实现方式,设定阈值LM为0.7则判定为垃圾短信,否则判定不属于垃圾短信。
依据现有样本的学习与分析,拟合关键词链向量、分片信息向量和独立子句匹配向量三个函数如下:
其中k1…kn为各关键词的权重值。
一种较佳地实施方式,可以默认为1。
其中,L1…Ln为各独立子句的长度。
通过上述步骤,以标识编号1001为原始基准,对标识编号1002、1004~1006判定示例如下述表9所示:
表9
(1)标识编号为1002的文本信息判定:
1002的三个向量值为:[1,0],[1,1,1],[1]。
F(VecKey,VecPhase,VecSub)=F1(1,0)*0.3+F2(1,1,1)*0.4+F3(1)*0.3=1*0.3+1*0.4+1*0.3=1
MatchDegree=1
则标识编号为1002与基准的文本信息标识编号1001实质完全相同。(2)标识编号为1004的文本信息判定:
1004的三个向量值为:[1,0],[0,0.56,1],[1]。
F(VecKey,VecPhase,VecSub)=F1(1,0)*0.3+F2(0,0.56,1)*0.4+F3(1)*0.3=1*0.3+0.52*0.4+1*0.3=0.808
MatchDegree=0.808>0.7.
判定1004虽然与1001不一样,但是其实质内容较为接近。
(3)标识编号为1006的文本信息判定
1006的三个向量值为:[0.667,1],[0.4,0,0.36],[0]。
MatchDegree=0.151<0.7。
说明标识编号为1006的文本信息内容与1001差别较大。
相应地,本发明实施例提出一种垃圾短信识别装置,如图2所示,包括:
获取模块201,用于根据设定的关键词,获取接收到的文本信息的关键词链向量、分片信息向量和独立子句匹配向量。
具体地,上述获取模块201,具体用于根据设定的第一关键词链,确定文本信息中的第二关键词链,其中,所述设定的第一关键词链是设定的关键词形成的词链;针对任一第二关键词链,确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性;以及确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性;将所述相似性和顺序性,作为所述文本信息的关键词链向量。
具体地,上述获取模块201,具体用于确定所述第二关键词链中和设定的第一关键词链中相同的关键词的第一数量;并确定设定的第一关键词链中的关键词的第二数量;将所述第一数量和第二数量的比值作为所述第二关键词链中的每个关键词和设定的第一关键词链中关键词之间的相似性。
具体地,上述获取模块201,具体用于比较所述第二关键词链和设定的第一关键词链,确定所述第二关键词链中最大的有序链的个数占比,其中所述最大的有序链是和设定的第一关键词链中关键词相同的数量最多的链;以及确定所述第二关键词链的有差异的间隔距离,其中所述有差异的间隔距离是和设定的第一关键词链相比,相同关键词之间存在的关键词数量;将所述最大的有序链的个数占比和所述有差异的间隔距离,作为所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性。
具体地,上述获取模块201,具体用于将设定的关键词链按照设定的第一关键词划分为第一前片和第一后片;其中,所述前片是设定的关键词前面的信息,所述设定后片是设定的关键词后面的信息;并将所述文本信息以设定的关键词划分为第二前片和第二后片;确定第一前片和第二前片,第一后片和第二后片之间的包含、被包含以及相似度;将所述包含、被包含以及相似度,作为所述文本信息的分片信息向量。
具体地,上述获取模块201,具体用于确定所述文本信息中的独立子句;将所述文本信息中的独立子句和设定的独立子句比较,确定所述文本信息的独立子句匹配向量。
计算模块202,用于基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值。
具体地,上述计算模块202,具体用于按照下述公式,基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值:
MessageMatchDegree=F(VecKey,VecPhase,VecSub)
=F1(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
其中,MessageMatchDegree是近似度值,F1(VecKey)是关键词链向量,F2(VecPhase)是分片信息向量,F3(VecSub)是独立子句匹配向量,W1是关键词链向量的权重,W2是分片信息向量的权重,W3是独立子句匹配向量的权重,W1+W2+W3=1。
确定模块203,用于若所述近似度值大于设定阈值时,确定所述文本信息为垃圾短信。
本发明实施例上述提出的垃圾短信识别方法,基于关键词和文本片段迭代方式来综合进行评定,对文本信息采用基于关键词依附关系进行分片,并定义了独立子句的概念,实现了基于独立子句的分片迭代提取与分析的三维向量判定方法。首先从系统命中的关键词出发,进行首次类型判定;然后从首次聚类的文本中,利用关键词分割形成文本片段;进而对文本片段再次进行迭代分析。最终使用三维向量模型进行相似性判定,能有效解决句式变化等干扰,进行精确判定。并且通过使用三维向量模型,能够有效对相似的文本信息进行精准判定,不仅判定准确率极高,而且能有效抵抗内容格式转换、句式转换、相似词替代等多种问题。在进行垃圾短信判定、主题聚类方面有独特的优势。
本领域的技术人员应明白,本发明的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、只读光盘、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (14)
1.一种垃圾短信识别方法,其特征在于,包括:
根据设定的关键词,获取接收到的文本信息的关键词链向量、分片信息向量和独立子句匹配向量,所述关键词链向量是用于表征文本信息和设定的关键词之间的相似性和顺序性的特征向量,所述相似性是指文本信息中包含的关键词和设定的关键词之间的相似性,所述顺序性是指文本信息中包含的关键词形成的关键词链和设定的关键词形成的关键词链之间的顺序性;所述分片信息向量是用于表征文本信息和设定的关键词分片之间的包含关系和相似度的三维特征向量,所述关键词分片是设定的关键词之前或关键词之后的信息;所述独立子句匹配向量是用于表征文本信息中的独立子句的数量,独立子句是用于表征文本信息被包含的分片内容前或分片内容后增加的信息;
基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值;
若所述近似度值大于设定阈值时,确定所述文本信息为垃圾短信。
2.如权利要求1所述的方法,其特征在于,根据设定的关键词,获取所述文本信息的关键词链向量,包括:
根据设定的第一关键词链,确定文本信息中的第二关键词链,其中,所述设定的第一关键词链是设定的关键词形成的词链;
针对任一第二关键词链,确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性;以及确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性;
将所述相似性和顺序性,作为所述文本信息的关键词链向量。
3.如权利要求2所述的方法,其特征在于,确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性,包括:
确定所述第二关键词链中和设定的第一关键词链中相同的关键词的第一数量;并
确定设定的第一关键词链中的关键词的第二数量;
将所述第一数量和第二数量的比值作为所述第二关键词链中的每个关键词和设定的第一关键词链中关键词之间的相似性。
4.如权利要求2所述的方法,其特征在于,确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性,包括:
比较所述第二关键词链和设定的第一关键词链,确定所述第二关键词链中最大的有序链的个数占比,其中所述最大的有序链是和设定的第一关键词链中关键词相同的数量最多的链;以及
确定所述第二关键词链的有差异的间隔距离,其中所述有差异的间隔距离是和设定的第一关键词链相比,相同关键词之间存在的关键词数量;
将所述最大的有序链的个数占比和所述有差异的间隔距离,作为所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性。
5.如权利要求1所述的方法,其特征在于,获取所述文本信息的分片信息向量,包括:
将设定的第一关键词链按照设定的关键词划分为第一前片和第一后片;其中,所述前片是设定的关键词前面的信息,所述设定后片是设定的关键词后面的信息;并
将所述文本信息以设定的关键词划分为第二前片和第二后片;
确定第一前片和第二前片,第一后片和第二后片之间的包含、被包含以及相似度;
将所述包含、被包含以及相似度,作为所述文本信息的分片信息向量。
6.如权利要求1所述的方法,其特征在于,获取所述文本信息的独立子句匹配向量,包括:
确定所述文本信息中的独立子句;
将所述文本信息中的独立子句和设定的独立子句比较,确定所述文本信息的独立子句匹配向量。
7.如权利要求1所述的方法,其特征在于,按照下述公式,基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值:
MessageMatchDegree=F(VecKey,VecPhase,VecSub)
=F1(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
其中,MessageMatchDegree是近似度值,F1(VecKey)是关键词链向量,F2(VecPhase)是分片信息向量,F3(VecSub)是独立子句匹配向量,W1是关键词链向量的权重,W2是分片信息向量的权重,W3是独立子句匹配向量的权重,W1+W2+W3=1。
8.一种垃圾短信识别装置,其特征在于,包括:
获取模块,用于根据设定的关键词,获取接收到的文本信息的关键词链向量、分片信息向量和独立子句匹配向量,所述关键词链向量是用于表征文本信息和设定的关键词之间的相似性和顺序性的特征向量,所述相似性是指文本信息中包含的关键词和设定的关键词之间的相似性,所述顺序性是指文本信息中包含的关键词形成的关键词链和设定的关键词形成的关键词链之间的顺序性;所述分片信息向量是用于表征文本信息和设定的关键词分片之间的包含关系和相似度的三维特征向量,所述关键词分片是设定的关键词之前或关键词之后的信息;所述独立子句匹配向量是用于表征文本信息中的独立子句的数量,独立子句是用于表征文本信息被包含的分片内容前或分片内容后增加的信息;
计算模块,用于基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值;
确定模块,用于若所述近似度值大于设定阈值时,确定所述文本信息为垃圾短信。
9.如权利要求8所述的装置,其特征在于,所述获取模块,具体用于根据设定的第一关键词链,确定文本信息中的第二关键词链,其中,所述设定的第一关键词链是设定的关键词形成的词链;针对任一第二关键词链,确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的相似性;以及确定所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性;将所述相似性和顺序性,作为所述文本信息的关键词链向量。
10.如权利要求9所述的装置,其特征在于,所述获取模块,具体用于确定所述第二关键词链中和设定的第一关键词链中相同的关键词的第一数量;并确定设定的第一关键词链中的关键词的第二数量;将所述第一数量和第二数量的比值作为所述第二关键词链中的每个关键词和设定的第一关键词链中关键词之间的相似性。
11.如权利要求9所述的装置,其特征在于,所述获取模块,具体用于比较所述第二关键词链和设定的第一关键词链,确定所述第二关键词链中最大的有序链的个数占比,其中所述最大的有序链是和设定的第一关键词链中关键词相同的数量最多的链;以及确定所述第二关键词链的有差异的间隔距离,其中所述有差异的间隔距离是和设定的第一关键词链相比,相同关键词之间存在的关键词数量;将所述最大的有序链的个数占比和所述有差异的间隔距离,作为所述第二关键词链中的每个关键词和设定的第一关键词链中的关键词之间的顺序性。
12.如权利要求8所述的装置,其特征在于,所述获取模块,具体用于将设定的第一关键词链按照设定的关键词划分为第一前片和第一后片;其中,所述前片是设定的关键词前面的信息,所述设定后片是设定的关键词后面的信息;并将所述文本信息以设定的关键词划分为第二前片和第二后片;确定第一前片和第二前片,第一后片和第二后片之间的包含、被包含以及相似度;将所述包含、被包含以及相似度,作为所述文本信息的分片信息向量。
13.如权利要求8所述的装置,其特征在于,所述获取模块,具体用于确定所述文本信息中的独立子句;将所述文本信息中的独立子句和设定的独立子句比较,确定所述文本信息的独立子句匹配向量。
14.如权利要求8所述的装置,其特征在于,所述计算模块,具体用于按照下述公式,基于预先建立的垃圾短信识别模型,拟合关键词链向量、分片信息向量和独立子句匹配向量,计算所述文本信息的近似度值:
MessageMatchDegree=F(VecKey,VecPhase,VecSub)
=F1(VecKey)*W1+F2(VecPhase)*W2+F3(VecSub)*W3,
其中,MessageMatchDegree是近似度值,F1(VecKey)是关键词链向量,F2(VecPhase)是分片信息向量,F3(VecSub)是独立子句匹配向量,W1是关键词链向量的权重,W2是分片信息向量的权重,W3是独立子句匹配向量的权重,W1+W2+W3=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510065075.2A CN105992178B (zh) | 2015-02-06 | 2015-02-06 | 一种垃圾短信识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510065075.2A CN105992178B (zh) | 2015-02-06 | 2015-02-06 | 一种垃圾短信识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105992178A CN105992178A (zh) | 2016-10-05 |
CN105992178B true CN105992178B (zh) | 2019-06-25 |
Family
ID=57036252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510065075.2A Active CN105992178B (zh) | 2015-02-06 | 2015-02-06 | 一种垃圾短信识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105992178B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107135494B (zh) * | 2017-04-24 | 2020-06-19 | 北京小米移动软件有限公司 | 垃圾短信识别方法及装置 |
CN109922444B (zh) * | 2017-12-13 | 2020-11-03 | 中国移动通信集团公司 | 一种垃圾短信识别方法及装置 |
CN108334567B (zh) * | 2018-01-16 | 2021-09-10 | 北京奇艺世纪科技有限公司 | 垃圾文本判别方法、装置及服务器 |
CN110222654A (zh) * | 2019-06-10 | 2019-09-10 | 北京百度网讯科技有限公司 | 文本分割方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079851A (zh) * | 2007-07-09 | 2007-11-28 | 华为技术有限公司 | 邮件类型判断方法、装置及系统和行为模型建立装置 |
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
CN101877680A (zh) * | 2010-05-21 | 2010-11-03 | 电子科技大学 | 一种垃圾邮件发送行为控制系统及方法 |
CN103778226A (zh) * | 2014-01-23 | 2014-05-07 | 北京奇虎科技有限公司 | 构建语言信息识别模型的方法及语言信息识别装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425691B (zh) * | 2012-05-22 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
-
2015
- 2015-02-06 CN CN201510065075.2A patent/CN105992178B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101079851A (zh) * | 2007-07-09 | 2007-11-28 | 华为技术有限公司 | 邮件类型判断方法、装置及系统和行为模型建立装置 |
CN101184259A (zh) * | 2007-11-01 | 2008-05-21 | 浙江大学 | 垃圾短信中的关键词自动学习及更新方法 |
CN101877680A (zh) * | 2010-05-21 | 2010-11-03 | 电子科技大学 | 一种垃圾邮件发送行为控制系统及方法 |
CN103778226A (zh) * | 2014-01-23 | 2014-05-07 | 北京奇虎科技有限公司 | 构建语言信息识别模型的方法及语言信息识别装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105992178A (zh) | 2016-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107526800B (zh) | 信息推荐的装置、方法及计算机可读存储介质 | |
US10977447B2 (en) | Method and device for identifying a user interest, and computer-readable storage medium | |
CN106294350B (zh) | 一种文本聚合方法及装置 | |
CN104572958B (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN106960030B (zh) | 基于人工智能的推送信息方法及装置 | |
CN107992596A (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN105992178B (zh) | 一种垃圾短信识别方法及装置 | |
CN102129470A (zh) | 标签聚类方法和系统 | |
WO2014022172A2 (en) | Information classification based on product recognition | |
CN112926298B (zh) | 新闻内容识别方法、相关装置及计算机程序产品 | |
CN106933878B (zh) | 一种信息处理方法及装置 | |
CN106708829B (zh) | 一种数据推荐方法及推荐系统 | |
CN109885831A (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN109086443A (zh) | 基于主题的社交媒体短文本在线聚类方法 | |
CN113850643B (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN105808602B (zh) | 一种垃圾信息的检测方法及装置 | |
CN110019763B (zh) | 文本过滤方法、系统、设备及计算机可读存储介质 | |
CN103744958A (zh) | 一种基于分布式计算的网页分类算法 | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN103389987A (zh) | 文本相似性比较方法及系统 | |
CN105787004A (zh) | 一种文本分类方法及装置 | |
CN105975487B (zh) | 一种app软件用户评论有关性判断方法 | |
CN108427769B (zh) | 一种基于社交网络的人物兴趣标签提取方法 | |
WO2016101737A1 (zh) | 搜索查询方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |