CN1619538A - 短信内容的线性参数模糊匹配算法 - Google Patents
短信内容的线性参数模糊匹配算法 Download PDFInfo
- Publication number
- CN1619538A CN1619538A CNA200410061270XA CN200410061270A CN1619538A CN 1619538 A CN1619538 A CN 1619538A CN A200410061270X A CNA200410061270X A CN A200410061270XA CN 200410061270 A CN200410061270 A CN 200410061270A CN 1619538 A CN1619538 A CN 1619538A
- Authority
- CN
- China
- Prior art keywords
- matching
- keyword
- parameter
- algorithm
- short message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
短信内容的线性参数模糊匹配算法,每个关键词都具有一定的权值,表示该关键词所代表的重要性程度。算法扫描短信内容后计算出该短信含有的关键词的权值之和,如果该和超过一个指定的匹配参数(阈值),算法就判定该短信是匹配有效的;否则,该短信被认为是无效的,做丢弃处理。同时,算法根据一段时间的匹配结果动态调整各个关键词的权重和匹配参数(阈值),以达到最佳的匹配设置。不仅可以进行精确匹配,还可以进行模糊匹配,高速、准确地对短信内容进行搜索。
Description
技术领域
本发明涉及的是对大容量连续输入的短消息(短信)内容进行基于关键词的搜索、匹配的算法操作实现过程。通过本算法,利用可变条件参数可以把一些通过常规算法不能得到有效匹配结果的短信匹配出来,从而实现对关键词基础的短信内容的动态精确匹配。
背景技术
目前,在互联网络及各种管理系统中均用到了搜索匹配算法,根据信息类型及所面向的用户种类的不同,各种搜索匹配算法又有所不同。一般的匹配算法只对固定的内容进行关键词固定的组合匹配处理,而对于不符合规则的关键词的人为组合则无能为力。
随着目前移动短信业务的开展,短信的流量迅速增大,短信中同时也包括大量的危害信息。短信内容为文本格式,内容短小,但数量和流量很大,因此对匹配的准确性和实时性提出了更高的要求。同时,短信中的关键词之间由于插入一些无意义的字符(如空格、字母等),这些组合没有固定的格式和顺序,这就需要一种更灵活的算法能够识别出这种不固定格式组合。以往的匹配算法严格按照关键词的顺序判别,如果关键词匹配不上,该匹配结果就被认为是无效的结果,这种方法导致有些不是严格按照关键词顺序的短信或者关键词中含有其他字符的短信被丢弃。
用目前的匹配算法,用户难以设置灵活多样的匹配规则,对短信内容的搜索、匹配效果并不理想。并且,即使增加匹配方式设定的复杂性和难度的基础上,这些算法也难以满足对大容量和高速的短信内容的匹配要求。
发明目的
为解决顺序匹配过程中出现的各个关键词之间的间隔不固定的问题,本发明公开的短信内容的线性参数模糊匹配算法,不仅可以进行精确匹配,还可以进行模糊匹配,高速、准确地对短信内容进行搜索。同时,本算法也可根据以前匹配的结果动态调整匹配的格式和参数,实现自动、动态、可调和灵活的匹配格式选择和应用,保证匹配的准确性和有效性。
本发明的技术方案:
短信内容的线性参数模糊匹配算法,其特征在于:
1、本算法对大容量和高速的短信内容进行匹配;
2、匹配规则包括关键词、关键词权值、顺序匹配、匹配参数和有效性参数;
3、关键词权值表示该关键词所代表的重要性程度;顺序匹配,即匹配过程按照关键词的顺序从前到后进行;匹配参数表示扫描短信内容后计算出该短信含有的关键词的权值之和;有效性参数表示在一定的时间段内,被匹配规则匹配上的短信条数,或被匹配短信条数占流入总条数的百分率;
4、匹配结果与有效性参数的差别由增量来体现,根据增量的正负和大小调整匹配参数;
5、通过匹配参数的动态调整,控制匹配结果,使匹配结果落在一个理想的范围之内。短信内容的线性参数模糊匹配算法,其特征在于:
1、本算法对大容量和高速的短信内容进行匹配;
2、匹配规则包括关键词、顺序匹配、匹配模板和有效性参数;
3、顺序匹配,即匹配过程按照关键词的顺序从前到后进行;匹配模板由关键词和代表关键词之间字节数的通配符构成;有效性参数表示在一定的时间段内,被匹配规则匹配上的短信条数,或被匹配短信条数占流入总条数的百分率;
4、匹配结果与有效性参数的差别由增量来体现,根据增量的正负和大小调整匹配参数;
5、通过匹配参数的动态调整,控制匹配结果,使匹配结果落在一个理想的范围之内。线性参数模糊匹配算法根据模糊点不同,分为线性参数模糊匹配和线性参数模板匹配两种方式。
线性参数模糊匹配的每个关键词都具有一定的权值,表示该关键词所代表的重要性程度。算法扫描短信内容后计算出该短信含有的关键词的权值之和,如果该和超过一个指定的匹配参数(阈值),算法就判定该短信是匹配有效的;否则,该短信被认为是无效的,做丢弃处理。同时,算法根据一段时间的匹配结果动态调整各个关键词的权重和匹配参数(阈值),以达到最佳的匹配设置。
线性参数模板匹配算法是以一种顺序关系扫描短信内容并动态调整匹配模板的算法。在短信匹配规则设置时,关键词以模板的形式规定,扫描短信内容时依次搜索模板中出现的关键词,若模板中的关键词都出现,且关键词之间的距离刚好满足通配符代表的字节数,则认为已经成功匹配模板规则。而经多次循环扫描未能与该模板设置相匹配时,线性参数模板匹配算法程序则对模板进行动态调整,在预设的关键词模板中间再次调整后对短信内容循环扫描,该种算法灵活的实现了关键词模糊搜索,特别适用于与关键词类似但又不完全一致的字符串匹配。
算法思路:通过初始参数来进行数据的预匹配处理,然后根据处理的结果动态调整匹配参数,形成新的匹配方式。算法根据新的匹配方式进行下一轮的扫描,符合匹配规则的短信即匹配成功,不符合规则的短信作丢弃处理,然后再进行下一次扫描,如若多次循环扫描匹配率都未能达到一个最优的值,则再次调节匹配参数,直到匹配率达到最优。这样,整个算法将处于一个参数不断调整、搜索结果不断扩大、参数不断重置的循环之中,从而保证匹配结果的准确性和有效性。
算法适用范围
在短信内容匹配算法中,使用者对每个关键词的重要性的期望值是不一样的,关键性的词语希望它能够在匹配结果中所占的份量大些,而一些非关键性的词语希望所占的分量要小些,这样匹配出来的结果含有重要关键词的机率就要大些。在另外一些匹配应用中,希望匹配的模板能够动态调整,以满足不同的关键词的不规则的组合。本模糊匹配算法可以很好的解决以上的各种匹配问题,实现匹配参数动态变化和匹配规则动态更新。
有益效果
本发明的有益效果是,利用本发明公开的算法编写程序,不仅执行效率满足对从省级运营商短信中心采集的短信进行匹配的要求,而且适用范围较传统算法大规模扩大,匹配效果理想。
采用这种模糊匹配算法,算法根据对每个关键词预先设定的参数匹配,匹配的结果又作为下次统计效果不明显时参数调整的依据。这样,整个算法将处于一个参数不断调整、搜索结果不断扩大、参数重置的循环之中,保证匹配的结果的有效性和高准确性。
附图说明
图1线性参数模糊匹配算法应用处理流程
具体的实施方式
本发明的实施:利用该算法,用计算机语言编程,实现对短信内容的搜索、匹配操作。
预先设定匹配采用的匹配方式和针对每种匹配方式所使用的参数初始设置,调用相应的匹配函数进行匹配处理。当匹配流量过高或过低,算法本身根据匹配的结果智能调节匹配参数设置选项,以便匹配度更高的短信或者获取更大范围内的短信内容,从而满足不同的应用需要。
线性参数模糊匹配应用
匹配过程按照各个关键词设定的顺序进行顺序匹配,匹配成功一个关键词,将匹配结果加上该关键词的权值。依次对所有的关键词进行如上的处理,将匹配结果的权值与阈值做比较。如果匹配结果的权值小于设定的阈值,该匹配认为是无效的匹配结果;反之,如果匹配结果的权值大于设定的阈值,该匹配认为是有效的匹配结果。算法同时对匹配出的结果进行统计,如果一段时间内匹配的出的结果较少,算法将认为预先设定的阈值过高,将按照某个固定的种子数减小阈值直到匹配结果达到预计的量。如果阈值已经降到危险的阈值附近,匹配结果仍达不到预计的目标,算法认为关键词权值需要调整,将按照有效性参数下调权值大的关键词的权值,上调权值小的关键词的权值,上调和下调的策略将由算法根据已经匹配的结果进行统计分析得到。然后重置匹配结果阈值,算法将轮回以上的匹配流程。
例如:‘东南亚证券公司为你办理各种证件文凭、发票、车牌’,按照线性参数模糊匹配算法,设定关键词‘东南亚、‘办理‘、‘发票’,每个关键词分别设定权值为0.5,0.3,0.2,匹配后的权值为0.8。如果门限阈值为0.7该短信被匹配出来;反之,如果门限阈值为0.9,该短信将丢弃。
线性参数模板匹配应用
首先,匹配过程初始化时传递以关键词顺序出现的匹配模板,一定时间内观察短信匹配的结果,根据有效性参数调整模板中的通配符代表的字节数,使匹配效果得到最佳,例如:在短信内容为‘那个法呀轮呀——功就是好’中如果预先设定“法*轮,功”为一个匹配模版,*表示模板通配符标识,表示关键词之间插入了不确定意义的字,当一段时间不能得到匹配结果时动态调整匹配参数:通配符的个数,当字节数为2(注:一个汉字字节数)时,变成“法**轮,功”,在新一轮匹配中此短信匹配成功。
Claims (2)
1、短信内容的线性参数模糊匹配算法,其特征在于:
1)本算法对大容量和高速的短信内容进行匹配;
2)匹配规则包括关键词、关键词权值、顺序匹配、匹配参数和有效性参数;
3)关键词权值表示该关键词所代表的重要性程度;顺序匹配,即匹配过程按照关键词的顺序从前到后进行;匹配参数表示扫描短信内容后计算出该短信含有的关键词的权值之和;有效性参数表示在一定的时间段内,被匹配规则匹配上的短信条数,或被匹配短信条数占流入总条数的百分率;
4)匹配结果与有效性参数的差别由增量来体现,根据增量的正负和大小调整匹配参数;
5)通过匹配参数的动态调整,控制匹配结果,使匹配结果落在一个理想的范围之内。
2、短信内容的线性参数模糊匹配算法,其特征在于:
1)本算法对大容量和高速的短信内容进行匹配;
2)匹配规则包括关键词、顺序匹配、匹配模板和有效性参数;
3)顺序匹配,即匹配过程按照关键词的顺序从前到后进行;匹配模板由关键词和代表关键词之间字节数的通配符构成;有效性参数表示在一定的时间段内,被匹配规则匹配上的短信条数,或被匹配短信条数占流入总条数的百分率;
4)匹配结果与有效性参数的差别由增量来体现,根据增量的正负和大小调整匹配参数;
5)通过匹配参数的动态调整,控制匹配结果,使匹配结果落在一个理想的范围之内。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200410061270XA CN1619538A (zh) | 2004-12-03 | 2004-12-03 | 短信内容的线性参数模糊匹配算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA200410061270XA CN1619538A (zh) | 2004-12-03 | 2004-12-03 | 短信内容的线性参数模糊匹配算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1619538A true CN1619538A (zh) | 2005-05-25 |
Family
ID=34764472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA200410061270XA Pending CN1619538A (zh) | 2004-12-03 | 2004-12-03 | 短信内容的线性参数模糊匹配算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1619538A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008046338A1 (fr) * | 2006-10-18 | 2008-04-24 | Alibaba Group Holding Limited | Procédé et système de détermination d'informations indésirables |
CN103258029A (zh) * | 2013-05-08 | 2013-08-21 | 徐峰蕾 | 信息检索方法及系统 |
CN105045773A (zh) * | 2015-07-10 | 2015-11-11 | 北京奇虎科技有限公司 | 卡片模板式服务类短信的生成方法及装置 |
CN110197513A (zh) * | 2019-05-13 | 2019-09-03 | 绍兴文理学院 | 一种基于调整阈值匹配误差的串匹配数据压缩方法 |
CN112506748A (zh) * | 2021-02-04 | 2021-03-16 | 连连(杭州)信息技术有限公司 | 一种异常日志分析方法、装置、设备及存储介质 |
-
2004
- 2004-12-03 CN CNA200410061270XA patent/CN1619538A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008046338A1 (fr) * | 2006-10-18 | 2008-04-24 | Alibaba Group Holding Limited | Procédé et système de détermination d'informations indésirables |
US8234291B2 (en) | 2006-10-18 | 2012-07-31 | Alibaba Group Holding Limited | Method and system for determining junk information |
CN103258029A (zh) * | 2013-05-08 | 2013-08-21 | 徐峰蕾 | 信息检索方法及系统 |
CN105045773A (zh) * | 2015-07-10 | 2015-11-11 | 北京奇虎科技有限公司 | 卡片模板式服务类短信的生成方法及装置 |
CN110197513A (zh) * | 2019-05-13 | 2019-09-03 | 绍兴文理学院 | 一种基于调整阈值匹配误差的串匹配数据压缩方法 |
CN110197513B (zh) * | 2019-05-13 | 2023-04-28 | 绍兴文理学院 | 一种基于调整阈值匹配误差的串匹配数据压缩方法 |
CN112506748A (zh) * | 2021-02-04 | 2021-03-16 | 连连(杭州)信息技术有限公司 | 一种异常日志分析方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020124856A1 (zh) | 一种基于词向量的诊断标准化方法及装置 | |
CN1647079A (zh) | 使用神经网络进行数据挖掘 | |
CN1666201A (zh) | 用于网络上流的实时分配的方法 | |
US20030074409A1 (en) | Method and apparatus for generating a user interest profile | |
CN1619538A (zh) | 短信内容的线性参数模糊匹配算法 | |
CN105260359A (zh) | 语义关键词提取方法及装置 | |
CN112256739B (zh) | 一种基于多臂赌博机的动态流大数据中数据项筛选方法 | |
CN102214320A (zh) | 神经网络训练方法及采用该方法的垃圾邮件过滤方法 | |
CN1858782A (zh) | 一种基于用户业务数据生成用户群的方法及装置 | |
EP1471456A3 (en) | Method and apparatus for finding optimal threshold for image segmentation | |
CN111310801B (zh) | 一种基于卷积神经网络的混合维度流量分类方法及其系统 | |
CN111343006B (zh) | 一种cdn峰值流量预测方法、装置及存储介质 | |
CN108829957A (zh) | 一种基于混合差分人工蜂群算法的焊接梁设计方法 | |
CN111914166A (zh) | 应用于社区矫正人员的矫正策略个性化推荐系统 | |
Engelbrecht et al. | A building block approach to genetic programming for rule discovery | |
CN101571868A (zh) | 一种基于信息瓶颈理论的文档聚类方法 | |
CN110069598A (zh) | 一种智能调解方法及系统 | |
CN109249932B (zh) | 一种车辆加速模型标定方法及加速意图识别方法及其装置 | |
CN115719333A (zh) | 基于神经网络的影像质控评价方法、装置、设备、介质 | |
Jena et al. | A comparative study on multilevel thresholding using meta-heuristic algorithm | |
CN113487368A (zh) | 一种基于大数据的科技信息推送服务系统 | |
CN110334811A (zh) | 基于贝叶斯网络的动态数据流分类方法 | |
CN111832301A (zh) | 一种基于自适应部件n元组的中文词向量生成方法 | |
CN118132518A (zh) | 一种基于大模型的医养康领域业务编排文件生成方法及系统 | |
CN108304843A (zh) | 一种图像审批方法及审批装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |