CN104703185B

CN104703185B - 信息识别方法及系统、移动通信网络

Info

Publication number: CN104703185B
Application number: CN201310654949.9A
Authority: CN
Inventors: 朱安南; 高枫; 贾亦辰; 唐磊; 白晓媛
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2018-04-10
Anticipated expiration: 2033-12-05
Also published as: CN104703185A

Abstract

本发明实施例公开了一种信息识别方法及系统、移动通信网络，涉及通信技术领域，该信息识别方法以及系统可以较为准确的识别出垃圾信息，同时降低了误报率以及漏报率，从而有效的提高移动通信网络对垃圾信息的处理能力。本发明实施例的信息识别方法，包括如下步骤：对待检信息进行聚类划分；对可疑聚类进行重复内容检测；提取重复信息的位置数据，提取重复信息的主叫号码并做去重处理，统计重复信息的位置分布情况；当某一位置内的重复信息所占比例超过第六阈值时，将该位置内的重复信息标记为垃圾信息，否则将该位置内的重复信息标记为正常信息。

Description

信息识别方法及系统、移动通信网络

技术领域

本发明涉及通信技术领域，尤其涉及一种信息识别方法及系统、移动通信网络。

背景技术

作为移动通信领域中的一项基本业务，短信息为人们提供了简单、快速、便捷、及时的通信服务，并成为当下一种非常重要的通信方式。然而，在信息业务为人们生活带来方便快捷的同时，垃圾信息也变得愈演愈烈，甚至严重影响了用户日常的正常使用。

举例而言，垃圾信息的发送者为了快速、大范围的发送垃圾信息通常利用短信群发设备来发送垃圾信息。相关设备可以同时控制多张SIM卡，并且群发发送大量信息给不同的接收者。

为了识别并拦截相应的垃圾信息，现有技术通常采用下列几种方法：1、基于关键字检测，该方法通过设置常见的垃圾信息关键字、关键字长度、关键字出现频率等进行检测；2、基于用户发送模式检测，该方法通过用户发送信息的数量、内容重复度、发送号码的分布比等进行检测；3、基于用户账号信誉评估检测：该方法通过用户的信用度、其他用户的举报、业务使用情况等进行检测。

然而，发明人发现现有技术中至少存在如下问题：现有的信息识别或检测方法虽然在一定程度上可以识别出垃圾信息，但是在识别过程中依然存在着很多缺点，例如：基于关键字检测需要对关键字数据库进行维护，误报率较高、时延随关键字数量显著增长；基于用户发生模式检测阈值难以合理设置，容易对热点转发的信息进行误检；而基于用户账号信誉评估检测则不能达到及时发现并处理垃圾信息等。因此，现有信息识别方法并不完善。

发明内容

本发明的实施例提供一种信息识别方法及系统、移动通信网络，该信息识别方法以及系统可以较为准确的识别出垃圾信息，同时降低了误报率以及漏报率，从而有效的提高移动通信网络对垃圾信息的处理能力。

为解决上述技术问题，本发明的实施例采用如下技术方案：

一种信息识别方法，包括：

对待检信息进行聚类划分，将包含信息的数量大于第一阈值且包含的信息与聚类中心的距离小于第二阈值的所述聚类标记为可疑聚类；

对所述可疑聚类进行重复内容检测，将重复数量大于第三阈值的信息标记为重复信息；

提取所述重复信息的位置数据，当有任意一个位置的出现次数超过第四阈值时，统计所述重复信息的分布情况；当不存在任意一个位置的出现次数超过第四阈值时，提取所述重复信息的主叫号码并做去重处理；当去重后的主叫号码的个数超过第五阈值时，统计所述重复信息的分布情况；

根据所述重复信息的分布情况，当某一位置内的重复信息所占比例超过第六阈值时，则将该位置内的重复信息标记为垃圾信息，否则将该位置内的重复信息标记为正常信息。

进一步的，所述的信息识别方法，还包括：

当去重后的主叫号码的个数不超过第五阈值时，将所述重复信息标记为重传待检测信息，等待用户进行重传；

当超时未收到重传信息时，则将所述待检测信息标记为垃圾信息；否则将所述待检测信息标记为正常信息。

进一步的，在对待检信息进行聚类划分之前，所述的信息识别方法，还包括：对所述待检信息进行预处理，从而去除所述待检信息中包含的干扰字符。

进一步的，在对待检信息进行预处理之前，所述的信息识别方法，还包括：判断所述待检信息的主叫号码是否属于黑白名单；当所述待检信息的主叫号码属于黑名单时，则将所述待检信息标记为垃圾信息；当所述待检信息的主叫号码属于白名单时，则将所述待检信息标记为正常信息。

优选的，统计所述垃圾信息的主叫号码以及位置数据，产生告警并上报。

优选的，所述位置数据包括位置区域码以及小区识别码。

本发明实施例还提供了一种信息识别系统，包括：

聚类单元，用于对待检信息进行聚类划分，从而将包含信息的数量大于第一阈值且包括的信息与聚类中心距离小于第二阈值的所述聚类标记为可疑聚类；

重复度检测单元，用于对所述可疑聚类进行重复内容检测，从而将重复数量大于第三阈值的信息标记为重复信息；

通信单元，用于提取所述重复信息的发送用户的位置数据；

判断单元，用于当有任意一个位置的出现次数超过第四阈值时，统计所述重复信息的分布情况；还用于当不存在任意一个位置的出现次数超过第四阈值时，提取所述重复信息的主叫号码并做去重处理；当去重后的主叫号码的个数超过第五阈值时，统计所述重复信息的分布情况；根据所述重复信息的分布情况，当某一位置内的重复信息所占比例超过标定值时，则将该位置内的重复信息标记为垃圾信息，否则将该位置内的重复信息标记为正常信息。

进一步的，所述的信息识别系统，还包括：

重传控制单元，用于在判断单元判断出当去重后的主叫号码的个数不超过第五阈值时，将所述重复信息标记为重传待检测信息，等待用户进行重传；

进一步的，所述的信息识别系统，还包括：

预处理单元，用于对所述待检信息进行预处理，从而去除所述待检信息中包括的干扰字符。

另一方面，本发明实施例还提供了一种移动通信网络，包括上述所述的信息识别系统，所述信息识别系统部署于信息中心的旁路。

本发明实施例提供的一种信息识别方法及系统、移动通信网络，其中该信息识别方法包括聚类划分、重复内容检测、位置分布以及信息重传等步骤，并在对应步骤中设置相关的阈值，从而将待检信息划分为垃圾信息或者正常信息。在所述信息识别方法中，其识别工作是根据信息的内容重复、信息的位置数据以及信息分布情况等多个特征而完成的，因此利用该方法进行垃圾识别时准确率更高，有效的提高了移动通信网络对垃圾信息的处理能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的信息识别方法的流程示意图；

图2为本发明实施例的信息识别系统的结构框图；

图3为本发明实施例的移动通信网络的结构框图。

具体实施方式

本发明的实施例提供一种信息识别方法及系统、移动通信网络，该信息识别方法以及系统可以较为准确的识别出垃圾信息，同时降低了误报率以及漏报率，从而有效的提高了移动通信网络对垃圾信息的处理能力。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透切理解本发明。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中，省略对众所周知的装置、电路以及方法的详细说明，以免不必要的细节妨碍本发明的描述。

下面结合下述附图对本发明实施例做详细描述。

本发明实施例提供了一种信息识别方法，如图1所示，包括：

步骤S101：对待检信息进行聚类划分，将包含信息的数量大于第一阈值且包含的信息与聚类中心的距离小于第二阈值的聚类标记为可疑聚类；

在本发明实施例提供的信息识别方法中，首先对待检信息进行聚类划分，从而将待检信息划分为多个群组以便继续后续操作。具体的，举例来说，可利用K-means的聚类方法对聚类信息进行划分。

K-means聚类过程可描述为：选取若干对象作为预设的聚类中心（选取的对象可由数据集抽取生成，或者也从待检信息中提取）；然后根据待检信息中包含的文本内容与聚类中心的相似程度决定每个待检信息应该划分到哪个群组中。

进一步的，在完成聚类划分后可将聚类的重心作为新的聚类中心再次进行聚类，直至聚类的重心不再移动时聚类划分结束。其中，在本步骤对待检信息聚类划分过程中，设置有第一阈值f1以及第二阈值f2作为对聚类进行标记的条件：第一阈值f1为一数量阈值，用于作为标记可疑聚类的信息数量触发条件；第二阈值f2为一距离阈值，代表了信息的相似度，用于作为标记可疑聚类的相似度触发条件（需要说明的是，当信息与聚类中心距离较近时，则说明该信息内容与聚类中心相似程度较高；反之，当信息与聚类中心距离较远时，则说明该信息内容与聚类中心相似程度较低）。当某一聚类中满足包含信息的数量大于第一阈值f1且包含的信息与聚类中心的距离小于第二阈值时，则说明该聚类中存在着数量较多、相似度较高的信息。此时该聚类中可能包含着垃圾信息，进一步将该聚类对应标记为可疑聚类。

此时，完成了对待检信息聚类划分工作。根据划分出的聚类的不同特征，将待检信息进行了初步的筛选，确定出了可疑聚类。当然，本领域技术人员可以理解的是，在聚类划分过程中，本发明实施例提供的识别方法也可以利用其它的聚类方法，例如：利用K-MEDOIDS聚类方法、Clara方法、Clarans方法等等，在此不做赘述。

步骤S102：对可疑聚类进行内容重复度检测，将重复数量大于第三阈值的信息标记为重复信息；

在完成步骤S101的基础上，本发明实施例提供的信息识别方法继续进一步对可疑聚类中包含的信息进行内容重复度检测。举例来说，可以利用MD5散列计算方法对上述信息进行重复内容检测。

具体的，该MD5散列计算方法可描述为：创建一散列值列表，对可疑聚类中包含的信息进行散列值检测。比对信息的散列值与散列值列表，当检测到散列值列表中不存在的散列值时，则将该散列值计入散列值列表并计数该散列值对应的数量为1；当检测到信息散列值已经存在于散列值列表中时，则累加该散列值对应的数量。由此，利用上述计算方法确定出可疑聚类中包含多少具有相同内容的信息。

进一步的，在完成上述步骤对可疑聚类进行内容重复度检测过程后，设置有第三阈值f3：第三阈值f3为一数量阈值，用于作为标记重复信息的信息数量触发条件。当可疑聚类中经检测具有相同内容的信息数量大于第三阈值f3时，将该部分具有相同内容的信息对应标记为重复信息。

需要补充的一点是，本聚类的目的在于将内容粗略相似的信息划分在一群组内，可以根据经验选定实词数量，降低维度，较快的获得信息聚类划分结果。而重复内容检测则是将具有相同内容的信息进行了标记，与垃圾信息发送模式进行了精确匹配。因此，本发明实施例提供的信息识别方法在将进行重复内容检测之前先进行聚类，这样一方面可以减少工作量，不必实时对海量信息进行重复检测，另一方面又保证了其检测的准确性，可以有效地提高识别方法的工作效率。

步骤S103：提取重复信息的位置数据，判断是否存在一个位置的出现次数超过第四阈值，当有任意一个位置的出现次数超过第四阈值时，则进行步骤S104：统计重复信息的位置分布情况；

当不存在任意一个位置的出现次数超过第四阈值时，则进行步骤S105：提取重复信息的主叫号码并做去重处理，然后判断去重后的主叫号码的个数是否超过第五阈值。

需要说明的是，在完成步骤S102的基础上，本发明实施例提供的信息识别方法首先提取重复信息的位置数据。

其中，提取重复信息的位置数据可通过本发明实施例提供的信息识别系统与HLR(英文：Home Location Register；中文：归属位置寄存器)、MSC（英文：Mobile SwitchingCenter；中文：移动交换中心）交互来完成。具体的，信息识别系统通过网络从HLR获取重复信息主叫号码所对应的MSC位置数据。作为一种优选的实施方式，对于重复信息的位置数据而言，当HLR返回的MSC处于本省管辖范围内时，还可以进一步从MSC/VLR（英文：VisitorLocation Register；中文：拜访位置寄存器）获取该重复信息主叫号码的LAC（英文：location area code；中文：位置区域码）/CID（英文：Cell Identity；中文：小区识别码）数据。即当主叫位置处于本省内时，该位置数据还可以包括更为准确、划分更为细致的位置区域码以及小区识别码等数据。

进一步的，在完成上述获取重复信息的位置数据后，设置有第四阈值f4：第四阈值f4为一数量阈值，用于作为控制计算重复信息位置分布情况的触发条件。具体的，当有任意一个位置的出现次数超过第四阈值时，本发明实施例提供的识别方法则继续进行步骤S104：统计重复信息的位置分布情况。

而当没有任意一个位置的出现次数超过第四阈值时，则本发明实施例提供的信息识别方法则继续进行步骤S105：即进一步提取重复信息的主叫号码，并对提取到的重复信息的主叫号码做去重处理。举例而言，对主叫号码的去重处理可以通过创建去重链表Q的方式来完成。

此外，步骤S105在获取重复信息的主叫号码并做去重处理后，进一步还设置有第五阈值f5：第五阈值f5为一数量阈值，与第四阈值f4相似的是，用于作为控制计算重复信息位置分布情况的触发条件。

具体的，当去重后的主叫号码的个数超过第五阈值f5时，则进行步骤S106：统计重复信息的位置分布情况。而当去重后的主叫号码的个数未超过第五阈值f5时，则进行步骤S108。

需要说明的是，之所以进一步提取重复信息的主叫号码，是为了避免用户正常的群发信息被误认为垃圾信息。通常而言，用户正常的群发信息其主叫号码常常为一个或极少的几个；而垃圾信息群发设备则是利用数量较多的主叫号码进行垃圾信息的发送。因此，利用第五阈值f5这一触发条件，可以根据主叫号码的数量将用户正常群发的重复信息与垃圾群发设备发送的重复垃圾信息区别开来，从而保证本发明实施例提供的识别方法更为准确。

在步骤S108之前先介绍一下步骤S107：根据重复信息的位置分布情况，当某一位置内的重复信息所占比例超过第六阈值时，则将该位置内的重复信息标记为垃圾信息，否则将该位置内的重复信息标记为正常信息。

在完成步骤S104或者步骤S106的基础上，本发明实施例提供的信息识别方法获取到了重复信息的位置分布情况，位置分布情况即反映了重复信息在各个不同位置出现的情况。其中，当某一位置内的重复信息所占比例超过第六阈值f6时，则将该重复信息标记为垃圾信息，否则将该重复信息标记为正常信息。

需要说明的是，正常情况下，如果存在大量相同内容的信息出现，在各个地区的分布是较均匀的，如节假日的拜年信息、热点短信息。因此，当重复信息在某一地区集中出现而在其他地区很少甚至没有出现时，则可以判定集中在某地区出现的相同内容的信息即为垃圾信息。

至此，本发明实施例提供的信息识别方法便完成了对信息的识别工作，根据上述步骤过程对应将信息划分为了垃圾信息和正常信息。

当然除此之外，本发明实施例提供的信息识别方法，还进一步的包括如图1所示的步骤S108：当去重后的主叫号码的个数不超过第五阈值时，将重复信息标记为重传待检测信息，等待用户进行重传；当超时未收到重传信息时，则将待检测信息标记为垃圾信息；否则将待检测信息标记为正常信息。

其中，对应于步骤S105，在获取重复信息的主叫号码并做去重处理后，且当去重后的主叫号码的个数不超过第五阈值f5时（即第四阈值f4、第五阈值f5的触发条件均不满足时），此时，步骤S108利用了重传机制来判断重复信息是否为垃圾信息。

需要说明的是，正常情况下移动通信设备会监听网络侧信息的发送情况（简单来说就是当通信终端设备发送失败后会尝试重新发送此信息），而垃圾群发设备通常为追求效率是不会对网络侧信息发送情况进行监听。基于此，在第四阈值f4、第五阈值f5均未触发的情况下，利用重传机制对重复信息进行判断，能够对于短信群发设备使用较低速的发送垃圾短信与正常用户发送短信行为进行区分。具体的，当去重后的主叫号码的个数不超过第五阈值时，将该重复信息标记为重传待检测信息，触发用户侧重传；当超时未收到重传信息时，则将重传待检测信息标记为垃圾信息；否则将重传待检测信息标记为正常信息。

作为本发明实施例的一种优选实施方式，本步骤S108还进一步包括：在收到重传信息后对重传信息内容与重传前信息的内容进行比对。当收到重传信息的内容与重传前信息的内容不一致时，则仍不发送该信息，继续等待重传判定，等待用户侧重传；当收到用户侧重传了相同内容的短消息时，将重复信息标记为正常信息。

除此之外，作为一种较为优选的选择，本发明实施例提供的信息识别方法，还可以包括如图1所示的步骤，例如：

步骤S1002：对待检信息进行预处理，从而去除待检信息中包含的干扰字符。

其中，在步骤S101对待检信息进行聚类划分之前，本发明实施例提供的信息识别方法可以先进行预处理步骤。具体的，该预处理步骤的目的在于去除待检信息文本中包含的干扰字符。举例来说：去除文本中包含的“*”、“^”“‘’”等等；除此之外，预处理时还去除了无实意词，例如根据语言表达的习惯，将待检信息文本中包括的助词、连词、介词等无意义的内容排除掉；或者，将信息内包含的“我”、“你”、“您”等称谓性质词语去掉。

通过本步骤S1002去掉待检信息中的干扰字符，可以排除干扰内容对信息相似性识别的影响，降低文本聚类步骤以及重复度检测步骤的复杂度。。

进一步，在步骤S1002之前，还包括步骤S1001：

判断待检信息的主叫号码是否属于黑白名单；当待检信息的主叫号码属于黑名单时，则将待检信息标记为垃圾信息；当待检信息的主叫号码属于白名单时，则将待检信息标记为正常信息。

另外，本发明实施例提供的信息识别方法还包括：统计垃圾信息的主叫号码以及位置数据，产生告警并上报。

至此，本发明实施例提供的信息识别方法，完成了对信息的识别检测工作，并可以根据识别情况对垃圾信息进行对应处理。其中，该信息识别方法包括聚类划分、重复内容检测、位置分布以及信息重传等步骤，并在对应步骤中设置相关的阈值，从而将待检信息划分为垃圾信息或者正常信息。在所述垃圾信息识别过程中，其识别工作是根据信息的内容、信息的位置数据以及信息分布情况等多个特征而完成的，因此利用该方法进行垃圾识别时准确率更高，有效的提高对垃圾信息的处理能力。

另一方面，本发明实施例提供了一种信息识别系统，如图2所示，包括：

聚类单元12，用于对待检信息进行聚类划分，从而将包含信息的数量大于第一阈值且包括的信息与聚类中心距离小于第二阈值的聚类标记为可疑聚类；

重复度检测单元13，用于对可疑聚类进行内容重复度检测，从而将重复数量大于第三阈值的信息标记为重复信息；

通信单元14，用于提取重复信息的位置数据；

判断单元15，用于当有任意一个位置的出现次数超过第四阈值时，统计重复信息的分布情况；还用于当不存在任意一个位置的出现次数超过第四阈值时，提取重复信息的主叫号码并做去重处理；当去重后的主叫号码的个数超过第五阈值时，统计重复信息的分布情况；根据重复信息的分布情况，当某一位置内的重复信息所占比例超过标定值时，则将该位置内的重复信息标记为垃圾信息，否则将该位置内的重复信息标记为正常信息。

此外，该信息识别系统还包括：重传控制单元16，用于在判断单元判断出当去重后的主叫号码的个数不超过第五阈值时，将重复信息标记为重传待检测信息，等待用户进行重传；当超时未收到重传信息时，则将待检测信息标记为垃圾信息；否则将待检测信息标记为正常信息。

以及，预处理单元11，用于对待检信息进行预处理，从而去除待检信息中包括的干扰字符、去除无实意词。

需要说明的是，本发明实施例提供的一种信息识别系统其工作与上述提供的一种信息识别方法相类似，因此，本领域技术人员可以借鉴上述实施例中的相关描述，在此不做赘述。

本发明实施例提供了一种信息识别系统，该系统通过聚类划分、内容重复度检测、位置分布以及信息重传等步骤，并在对应步骤中设置相关的阈值，从而将待检信息划分为垃圾信息或者正常信息。在所述垃圾信息识别过程中，其识别工作是根据信息的内容、信息的位置数据以及信息分布情况等多个特征而完成的，因此利用该系统进行垃圾识别时准确率更高，有效的提高对垃圾信息的处理能力。

另一方面，如图3所示，本发明实施例还提供了一种移动通信网络，该移动通信网络中包括上述实施例中提及的信息识别系统。其中，信息识别系统的结构以及工作方法可以参考上述实施例中的相关描述，而移动通信网络的其他部分结构可参考现有技术，在此不再详细描述。

进一步的，如图3所示，优选的，信息识别系统1部署于信息中心的旁路。需要说明的是，图3为一移动通信网络的框架图。其中，识别系统1与信息中心连接，从信息中心获取待检信息；与信令转发节点连接，从信令转发节点中提取待检信息主叫号码的位置数据；以及还与数据库连接，用于将识别出的垃圾信息进行警示或者上报相关报文。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种信息识别方法，其特征在于，包括：

提取所述重复信息的位置数据，当有任意一个位置的出现次数超过第四阈值时，统计所述重复信息的位置分布情况；当不存在任意一个位置的出现次数超过第四阈值时，提取所述重复信息的主叫号码并做去重处理；当去重后的主叫号码的个数超过第五阈值时，统计所述重复信息的位置分布情况；

根据所述重复信息的位置分布情况，当某一位置内的重复信息所占比例超过第六阈值时，则将该位置内的重复信息标记为垃圾信息，否则将该位置内的重复信息标记为正常信息。

2.根据权利要求1所述的信息识别方法，其特征在于，还包括：

3.根据权利要求1所述的信息识别方法，其特征在于，在对待检信息进行聚类划分之前，还包括：对所述待检信息进行预处理，从而去除所述待检信息中包含的干扰字符。

4.根据权利要求3所述的信息识别方法，其特征在于，在对待检信息进行预处理之前，还包括：判断所述待检信息的主叫号码是否属于黑白名单；当所述待检信息的主叫号码属于黑名单时，则将所述待检信息标记为垃圾信息；当所述待检信息的主叫号码属于白名单时，则将所述待检信息标记为正常信息。

5.根据权利要求1或2或4所述的信息识别方法，其特征在于，统计所述垃圾信息的主叫号码以及位置数据，产生告警并上报。

6.根据权利要求1所述的信息识别方法，其特征在于，所述位置数据包括位置区域码以及小区识别码。

7.一种信息识别系统，其特征在于，包括：

通信单元，用于提取所述重复信息的发送用户的位置数据；

8.根据权利要求7所述的信息识别系统，其特征在于，还包括：

9.根据权利要求7所述的信息识别系统，其特征在于，还包括：

10.一种移动通信网络系统，其特征在于，包括如权利要求7-9任一项所述的信息识别系统，所述信息识别系统部署于信息中心的旁路。