CN101398837B - 一种快速匹配短信文本的方法 - Google Patents
一种快速匹配短信文本的方法 Download PDFInfo
- Publication number
- CN101398837B CN101398837B CN2008100719828A CN200810071982A CN101398837B CN 101398837 B CN101398837 B CN 101398837B CN 2008100719828 A CN2008100719828 A CN 2008100719828A CN 200810071982 A CN200810071982 A CN 200810071982A CN 101398837 B CN101398837 B CN 101398837B
- Authority
- CN
- China
- Prior art keywords
- short message
- matching
- fragment
- hash value
- note
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种快速匹配短信文本的方法,其特征在于:将需要匹配的短信文本通过“,、。”等中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较,通过相似度来控制输出匹配结果;本发明不仅提高了跟踪匹配的效率,而且可以满足海量短信话单的匹配要求,具有较好的实用价值。
Description
技术领域
本发明涉及一种移动通讯业务领域,具体的说就是提高短信内容匹配的算法技巧的解决方法。
背景技术
在移动的短信业务中,短信跟踪匹配发挥巨大的作用,为开展业务奠定了基础,基于该技术的产品、服务、应用也随之孕育而生。随着业务的快速发展以及市场的需求,需要将该技术改进,做强,提高跟踪匹配的效率。
现有的文本匹配技术中,采用源文本与目标文本逐字进行匹配的方式,该种匹配方法占用系统资源多,效率低,无法满足海量短信话单的匹配要求。
发明内容
本发明的目的是实现短信文本的快速匹配,而且可以满足海量短信话单的匹配要求,具有较好的实用价值。
本发明是这样实现的,一种快速匹配短信文本的方法,其特征在于:将需要匹配的短信文本通过“,、。”等中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较,通过相似度来控制输出匹配结果;
具体包括以下步骤:
a)将每条源短信文本按照“,、。”等中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值,并将这些Hash值存于内存中;
b)以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单,并加载、提取话单文件中每条通话记录中的短信内容,将这些短信内容按照“,、。”等中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值;
c)将目标短信文本的每个碎片的Hash值与源短信文本的每段短信的每个碎片的Hash值进行比较;
d)通过比较后,如相似度大于系统设定的值,则进行下一条目标短信内容比较;
e)如发现相似度不满足系统设定的值,则进行下一条源短信内容比较匹配,直到找到相似度满足系统设定的值,并将结果输出;
下面结合附图及实施例对本发明做进一步说明。
附图说明
图1为本发明的系统工作流程图。
具体实施方式
如图1所示,本发明一种快速匹配短信文本的方法,其特征在于:将需要匹配的短信文本通过“,、。”等中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较,通过相似度来控制输出匹配结果;
该方法具体包括以下步骤:
a)将每条源短信文本按照“,、。”等中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值,并将这些Hash值存于内存中;
b)以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单,并加载、提取话单文件中每条通话记录中的短信内容,将这些短信内容按照“,、。”等中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值;
c)将目标短信文本的每个碎片的Hash值与源短信文本的每段短信的每个碎片的Hash值进行比较;
d)通过比较后,如相似度大于系统设定的值,则进行下一条目标短信内容比较;
e)如发现相似度不满足系统设定的值,则进行下一条源短信内容比较匹配,直到找到相似度满足系统设定的值,并将结果输出;
为了满足系统的需要,话单获取可以以FTP方式获取话单,包括采用其他协议获取和从短信中心或其他存储短信话单文件的服务器上获取短信话单;源短信的Hash值可存储在内存中或数据库中;所述的源短信的加载可以以全量或增量的方式通过文件加载或者通过其他消息协议的方式加载。
所述的系统设定的值可以存储在文件(如XML标准格式文件)或数据库中,并可以通过程序对这些文件或数据库进行修改,从而使匹配计算时按照修改后的相似度值进行比较。相似度为话单文件中每条话单记录内容同种子的相似性的一个度量值。在匹配中,按照碎片进行比较,将匹配上的碎片的个数作为分子,源短信文本的碎片数作为分母,则相似度为:分子/分母。考虑到用户的转发行为中,通常会在待转短信的首或未添加一些信息,故在实际应用中,相似度通常设置为80%;如果要得到两段短信文本是否完全一致,则将相似度设置为100%即可。
为了保证匹配结果的安全性,在匹配结果输出之前,还可以对匹配结果进行加密,其加密方式可以是整条记录加密,也可对整条记录中的某些字段进行加密,最后通过文件的方式输出,也可以通过其他实时消息接口的方式输出到其他系统。
Claims (7)
1.一种快速匹配短信文本的方法,其特征在于:将需要匹配的短信文本通过“,、。”中英文标点符号分割形成一个个碎片,并将这些碎片通过Hash算法计算出Hash值,在进行匹配时,将源短信文本的各碎片的Hash值和目标短信文本的各碎片的Hash值进行比较,通过相似度来控制输出匹配结果;
具体包括以下步骤:
a)将每条源短信文本按照“,、。”中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值,并将这些Hash值存于内存中;
b)以FTP方式从短信中心或其他存储短信话单文件的服务器上获取短信话单,并加载、提取话单文件中每条通话记录中的短信内容,将这些短信内容按照“,、。”中英文标点符号分割成一个个碎片,并计算这些碎片的Hash值;
c)将目标短信文本的每个碎片的Hash值与源短信文本的每段短信的每个碎片的Hash值进行比较;
d)通过比较后,如相似度大于系统设定的值,则进行下一条目标短信内容比较;
e)如发现相似度不满足系统设定的值,则进行下一条源短信内容比较匹配,直到找到相似度满足系统设定的值,并将结果输出。
2.根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于:话单获取以FTP方式获取话单,包括采用其他协议获取和从短信中心或其他存储短信话单文件的服务器上获取短信话单。
3.根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于:源短信的Hash值存储在内存中或数据库中。
4.根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于:源短信的加载以全量或增量的方式通过文件加载或者通过其他消息协议的方式加载。
5.根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于:所述的系统设定的值存储在文件或数据库中,并通过程序对这些文件或数据库进行修改,从而使匹配计算时按照修改后的相似度值进行比较。
6.根据权利要求1所述的一种快速匹配短信文本的方法,其特征在于:所述的匹配结果的输出以文件的方式输出,或者通过其他实时消息接口的方式输出到其他系统。
7.根据权利要求1至6的任意一项所述的一种快速匹配短信文本的方法,其特征在于:所述的匹配结果,在其输出之前,为了保证匹配结果的安全性,对匹配结果进行加密,其加密方式是整条记录加密,或者对整条记录中的某些字段进行加密。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100719828A CN101398837B (zh) | 2008-10-23 | 2008-10-23 | 一种快速匹配短信文本的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008100719828A CN101398837B (zh) | 2008-10-23 | 2008-10-23 | 一种快速匹配短信文本的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101398837A CN101398837A (zh) | 2009-04-01 |
CN101398837B true CN101398837B (zh) | 2011-05-11 |
Family
ID=40517398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008100719828A Expired - Fee Related CN101398837B (zh) | 2008-10-23 | 2008-10-23 | 一种快速匹配短信文本的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101398837B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666358B2 (en) * | 2008-11-18 | 2014-03-04 | Qualcomm Incorporated | Method and apparatus for delivering and receiving enhanced emergency broadcast alert messages |
CN101930458B (zh) * | 2010-08-18 | 2012-02-01 | 杭州东信北邮信息技术有限公司 | 一种基于特征值的短信匹配方法 |
CN101957858A (zh) * | 2010-09-27 | 2011-01-26 | 中兴通讯股份有限公司 | 数据比对方法和装置 |
CN102662943B (zh) * | 2012-01-18 | 2014-06-18 | 苏州酷动多媒体科技有限公司 | 短信匹配及去重方法 |
CN103729342B (zh) * | 2012-10-12 | 2016-09-28 | 中国银联股份有限公司 | 文件比对方法及装置 |
CN103559172B (zh) * | 2013-11-06 | 2016-08-31 | 北京百度网讯科技有限公司 | 多语混合文本的分句方法和装置 |
CN108124241A (zh) * | 2016-11-28 | 2018-06-05 | 中国电信股份有限公司 | 识别伪基站短信的方法、系统、验证服务器和终端 |
-
2008
- 2008-10-23 CN CN2008100719828A patent/CN101398837B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101398837A (zh) | 2009-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101398837B (zh) | 一种快速匹配短信文本的方法 | |
US9870508B1 (en) | Securely authenticating a recording file from initial collection through post-production and distribution | |
CN109766707B (zh) | 基于区块链的数据处理方法、装置、设备和介质 | |
US9129007B2 (en) | Indexing and querying hash sequence matrices | |
US20240004838A1 (en) | Quality score compression for improving downstream genotyping accuracy | |
US20160241540A1 (en) | Content-based association of device to user | |
WO2020143317A1 (zh) | 分片文件验证方法及终端设备 | |
CN104866985B (zh) | 快递单号识别方法、装置及系统 | |
CN103905311A (zh) | 流表匹配方法和装置以及交换机 | |
WO2022022245A1 (zh) | 数字物权凭证的生成方法、装置及设备 | |
CN111177302A (zh) | 业务单据处理方法、装置、计算机设备和存储介质 | |
US9886448B2 (en) | Managing downloads of large data sets | |
US9734178B2 (en) | Searching entity-key associations using in-memory objects | |
US20120303642A1 (en) | Automated file-conversion system and process for a media-generation system | |
CN109033295A (zh) | 超大数据集的合并方法及装置 | |
CN108874944B (zh) | 一种基于xsl语言转换的异构数据映射系统及方法 | |
CN101226534B (zh) | 一种查找关联文件的方法、终端和系统 | |
Zhang et al. | Deep multimodal clustering with cross reconstruction | |
CN110674383B (zh) | 舆情查询方法、装置及设备 | |
US11893055B2 (en) | System for automatic management and depositing of documents (images) hash in block-chain technology | |
WO2017157038A1 (zh) | 数据处理的方法、装置和设备 | |
CN107977381B (zh) | 数据配置方法、索引管理方法、相关装置以及计算设备 | |
CN115080992A (zh) | 一种基于标识的统一电子印章系统及方法 | |
US20210141819A1 (en) | Server and method for classifying entities of a query | |
CN109672536B (zh) | 一种批量pdf文件数字签名方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110511 Termination date: 20151023 |
|
EXPY | Termination of patent right or utility model |