CN101398837B

CN101398837B - 一种快速匹配短信文本的方法

Info

Publication number: CN101398837B
Application number: CN2008100719828A
Authority: CN
Inventors: 吴仁平
Original assignee: SHENZHEN MIRACLE COMMUNICATION CO Ltd
Current assignee: SHENZHEN MIRACLE COMMUNICATION CO Ltd
Priority date: 2008-10-23
Filing date: 2008-10-23
Publication date: 2011-05-11
Anticipated expiration: 2028-10-23
Also published as: CN101398837A

Abstract

本发明涉及一种快速匹配短信文本的方法，其特征在于：将需要匹配的短信文本通过“，、。”等中英文标点符号分割形成一个个碎片，并将这些碎片通过Hash算法计算出Hash值，在进行匹配时，将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较，通过相似度来控制输出匹配结果；本发明不仅提高了跟踪匹配的效率，而且可以满足海量短信话单的匹配要求，具有较好的实用价值。

Description

一种快速匹配短信文本的方法

技术领域

本发明涉及一种移动通讯业务领域，具体的说就是提高短信内容匹配的算法技巧的解决方法。

背景技术

在移动的短信业务中，短信跟踪匹配发挥巨大的作用，为开展业务奠定了基础，基于该技术的产品、服务、应用也随之孕育而生。随着业务的快速发展以及市场的需求，需要将该技术改进，做强，提高跟踪匹配的效率。

现有的文本匹配技术中，采用源文本与目标文本逐字进行匹配的方式，该种匹配方法占用系统资源多，效率低，无法满足海量短信话单的匹配要求。

发明内容

本发明的目的是实现短信文本的快速匹配，而且可以满足海量短信话单的匹配要求，具有较好的实用价值。

本发明是这样实现的，一种快速匹配短信文本的方法，其特征在于：将需要匹配的短信文本通过“，、。”等中英文标点符号分割形成一个个碎片，并将这些碎片通过Hash算法计算出Hash值，在进行匹配时，将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较，通过相似度来控制输出匹配结果；

具体包括以下步骤：

a)将每条源短信文本按照“，、。”等中英文标点符号分割成一个个碎片，并计算这些碎片的Hash值，并将这些Hash值存于内存中；

b)以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单，并加载、提取话单文件中每条通话记录中的短信内容，将这些短信内容按照“，、。”等中英文标点符号分割成一个个碎片，并计算这些碎片的Hash值；

c)将目标短信文本的每个碎片的Hash值与源短信文本的每段短信的每个碎片的Hash值进行比较；

d)通过比较后，如相似度大于系统设定的值，则进行下一条目标短信内容比较；

e)如发现相似度不满足系统设定的值，则进行下一条源短信内容比较匹配，直到找到相似度满足系统设定的值，并将结果输出；

下面结合附图及实施例对本发明做进一步说明。

附图说明

图1为本发明的系统工作流程图。

具体实施方式

如图1所示，本发明一种快速匹配短信文本的方法，其特征在于：将需要匹配的短信文本通过“，、。”等中英文标点符号分割形成一个个碎片，并将这些碎片通过Hash算法计算出Hash值，在进行匹配时，将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较，通过相似度来控制输出匹配结果；

该方法具体包括以下步骤：

为了满足系统的需要，话单获取可以以FTP方式获取话单，包括采用其他协议获取和从短信中心或其他存储短信话单文件的服务器上获取短信话单；源短信的Hash值可存储在内存中或数据库中；所述的源短信的加载可以以全量或增量的方式通过文件加载或者通过其他消息协议的方式加载。

所述的系统设定的值可以存储在文件(如XML标准格式文件)或数据库中，并可以通过程序对这些文件或数据库进行修改，从而使匹配计算时按照修改后的相似度值进行比较。相似度为话单文件中每条话单记录内容同种子的相似性的一个度量值。在匹配中，按照碎片进行比较，将匹配上的碎片的个数作为分子，源短信文本的碎片数作为分母，则相似度为：分子/分母。考虑到用户的转发行为中，通常会在待转短信的首或未添加一些信息，故在实际应用中，相似度通常设置为80％；如果要得到两段短信文本是否完全一致，则将相似度设置为100％即可。

为了保证匹配结果的安全性，在匹配结果输出之前，还可以对匹配结果进行加密，其加密方式可以是整条记录加密，也可对整条记录中的某些字段进行加密，最后通过文件的方式输出，也可以通过其他实时消息接口的方式输出到其他系统。

Claims

1.一种快速匹配短信文本的方法，其特征在于：将需要匹配的短信文本通过“，、。”中英文标点符号分割形成一个个碎片，并将这些碎片通过Hash算法计算出Hash值，在进行匹配时，将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较，通过相似度来控制输出匹配结果；

具体包括以下步骤：

a)将每条源短信文本按照“，、。”中英文标点符号分割成一个个碎片，并计算这些碎片的Hash值，并将这些Hash值存于内存中；

b)以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单，并加载、提取话单文件中每条通话记录中的短信内容，将这些短信内容按照“，、。”中英文标点符号分割成一个个碎片，并计算这些碎片的Hash值；

e)如发现相似度不满足系统设定的值，则进行下一条源短信内容比较匹配，直到找到相似度满足系统设定的值，并将结果输出。

2.根据权利要求1所述的一种快速匹配短信文本的方法，其特征在于：话单获取以FTP方式获取话单，包括采用其他协议获取和从短信中心或其他存储短信话单文件的服务器上获取短信话单。

3.根据权利要求1所述的一种快速匹配短信文本的方法，其特征在于：源短信的Hash值存储在内存中或数据库中。

4.根据权利要求1所述的一种快速匹配短信文本的方法，其特征在于：源短信的加载以全量或增量的方式通过文件加载或者通过其他消息协议的方式加载。

5.根据权利要求1所述的一种快速匹配短信文本的方法，其特征在于：所述的系统设定的值存储在文件或数据库中，并通过程序对这些文件或数据库进行修改，从而使匹配计算时按照修改后的相似度值进行比较。

6.根据权利要求1所述的一种快速匹配短信文本的方法，其特征在于：所述的匹配结果的输出以文件的方式输出，或者通过其他实时消息接口的方式输出到其他系统。

7.根据权利要求1至6的任意一项所述的一种快速匹配短信文本的方法，其特征在于：所述的匹配结果，在其输出之前，为了保证匹配结果的安全性，对匹配结果进行加密，其加密方式是整条记录加密，或者对整条记录中的某些字段进行加密。