CN104660608B

CN104660608B - 一种报文名单检索拦截算法

Info

Publication number: CN104660608B
Application number: CN201510100426.9A
Authority: CN
Inventors: 戴准宇; 汪盛; 金鼎立; 李宏声
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2015-03-06
Filing date: 2015-03-06
Publication date: 2018-04-06
Anticipated expiration: 2035-03-06
Also published as: CN104660608A

Abstract

本发明提供了一种报文名单检索拦截算法，所述拦截算法包含：获取待检测报文名单，对所述待检测报文名单进行分析，获得复数个报文单词；通过莱温斯坦因算法将所述复数个报文单词与预先制定的关键词名单中的关键词进行比对处理，根据所述比对结果获得所述待检测报文名单的报文得分；当所述报文得分高于一阀值时，拦截所述待检测报文。通过本发明所提供的拦截算法，采用分值计算方式，通过莱温斯坦因算法计算相似关键词得分，对每个名单设置不同的权重，每个报文场次也设置不同权重；以最终结果确定是否拦截报文，不仅减少了传统拦截算法的误中率，而且还灵活多变大大增加了对不合规报文的命中率。

Description

一种报文名单检索拦截算法

技术领域

本发明涉及报文拦截领域，尤指一种报文名单检索拦截算法。

背景技术

传统的黑名单检索算法存在一些弊端，针对不同语种，单词长短，单词拼接，处理结果差异较大。不能针对具体名单、报文场次做不同权重设置，误中率较高。且对于SWIFT报文缺乏灵活的拦截规则配置功能。

目前通常的名单匹配算法，是通过计算报文单词与名单单词匹配的百分比来计算报文权重，将匹配结果达到一定百分比(例如：80％)的报文做命中拦截处理。报文中与名单单词百分百相同的单词才会参与权重计算，例如：报文里有单词Bin，名单里有单词Ben,则报文单词Bin不参与权重计算。目前部分银行，以及中行BOC2000、反洗钱监测与分析系统亚太实例均采用上述名单匹配算法。

上述的现有算法是通过单词做精确匹配，与名单里名称相似的报文单词并不参与计算。当报文信息中由于某些原有，单词以不同顺序排列或连接在一起，将导致不命中，存在误放危险。另外，对于特定场次本身不会录入名称信息，即使与名单匹配上了也无实际意义。原有算法无法针对特定场次设置不同权重，以至于无法避免此类报文的误中。

发明内容

本发明目的在于解决上述无法针对特定场次设置不同权重，以至于无法避免此类报文的误中这一问题。

为达上述目的，本发明提供一种报文名单检索拦截算法，所述拦截算法包含：获取待检测报文名单，对所述待检测报文名单进行分析，获得复数个报文单词；通过莱温斯坦因算法将所述复数个报文单词与预先制定的关键词名单中的关键词进行比对处理，根据所述比对结果获得所述待检测报文名单的报文得分；当所述报文得分高于一阀值时，拦截所述待检测报文。

在上述拦截算法中，所述比对处理包含：通过莱温斯坦因算法判断所述报文单词与所述关键词相似度，根据所述相似度赋予所述报文单词不同分值，所述报文单词根据对应的关键词获得分值。

在上述拦截算法中，所述预先制定的关键词名单包含：根据所述待检测报文名单类别，设定对应关键词，将所述关键词整合为所述预先制定的关键词名单。

在上述拦截算法中，所述拦截算法还包含：将所述报文单词与预先规定的特定单词进行比对，当所述报文单词与所述特定单词相同时，拦截所述待检测报文。

在上述拦截算法中，所述报文得分包含：所述报文单词对比处理后的总分值、场次权重、预先制定的关键词权重三者的乘积。

在上述拦截算法中，所述场次权重包含：根据拦截场次，设定每一场拦截场次的权重值。

在上述拦截算法中，所述预先制定的关键词名单权重包含：根据预先制定的关键词名单风险程度，设定每一个预先制定的关键词名单的权重值。

在上述拦截算法中，所述拦截算法还包含：通过SWIFT拦截规则配置，将特定场次的所述待检测报文名单与SWIFT拦截规则作比对，拦截不符合SWIFT拦截规则的所述待检测报文名单。

在上述拦截算法中，对所述待检测报文名单进行分析包含：将所述待检测报文名单中的标点、特殊符号替换成空格，以空格作为分隔符，将所述待检测报文名单拆解成复数个待检查的报文单词。

本发明的有益技术效果在于：通过本发明所提供的拦截算法，采用分值计算方式，每命中一个单词计为1分，与名单单词相似的报文单词则通过莱温斯坦因算法计算小数得分。每个名单可以设置不同的权重，每个报文场次也可以设置不同权重。最后报文得分等于所有场次报文的最大得分，每个场次最大得分等于报文单词(精确得分+模糊匹配得分)*场次权重*名单权重。另外针对特定高风险单词，系统会对全报文做匹配，无论出现在报文的何处，报文都会被命中拦截。最后，通过SWIFT拦截规则配置，可以将特定场次输入内容与SWIFT规范不符的报文做拦截。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。在附图中：

图1为本发明所提供的报文名单检索拦截算法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

请参考图1所示，图1为本发明所提供的报文名单检索拦截算法的流程图，其中包含：步骤S101获取待检测报文名单，对所述待检测报文名单进行分析，获得复数个报文单词；步骤S102通过莱温斯坦因算法将所述复数个报文单词与预先制定的关键词名单中的关键词进行比对处理，根据所述比对结果获得所述待检测报文名单的报文得分；步骤S103当所述报文得分高于一阀值时，拦截所述待检测报文。

在上述拦截算法的步骤S102中，所述比对处理还包含：通过莱温斯坦因算法判断所述报文单词与所述关键词相似度，根据所述相似度赋予所述报文单词不同分值，所述报文单词根据对应的关键词获得分值。在该实施例中，根据关键词与其对应的报文单词的相似程度，对该报文单词赋予不同分值，如当前报文单词为bin，而关键词为ben，此时，根据莱温斯坦因算法对该报文单词bin赋予一个小数分值，用于后期比较结果的计算，以此通过该分值的方式克服现有技术中采用百分比拦截中无法准确拦截不合规的报文。

在上述实施例中，将莱温斯坦因算法用在针对每个报文单词与名单单词做相似度模糊匹配得分计算的方式如下：

D(A,B)，表示单词A和B之间的Levenshtein距离

– 例：D(PETER,PATER)＝1D(MIKE,MICKEY)＝2D(LINDA,LINDA)＝0

L(A,B),表示单词A和B中较小的长度

– 例：L(KING,QUEEN)＝4

int(num)，表示大于或等于num的最小整数，也就是向上取整

– 例：int(1.2)＝2

M(A,B)，表示单词A和B的模糊匹配率，也就是：

– 例：M(PETER,PATER)＝3/5

– M(MIKE,MICKEY)＝0

– M(LINDA,LINDA)＝1

显然M(A,B)越大，A和B就越相似；

如果M(A,B)等于1，就意味着A和B是精确匹配的；

只要当M(A,B)小于等于0，则可将M(A,B)置为0，因为这样表示了单词B与A不匹配。

为了限制两个“相似”单词之间的差异，优选的还可引入了模糊系数fz；

如果下面的不等式成立，即，单词A与B之间是合理模糊的，否则将不计算模糊得分；

D(A，)≤int(L(A，B)*fz)

如果fz等于0，也就意味着A和B必须是精确匹配的，为了便于计算，模糊系数可设置为0.15；

在上述拦截算法的步骤S102中，所述预先制定的关键词名单包含：根据所述待检测报文名单类别，设定对应关键词，将所述关键词整合为所述预先制定的关键词名单。在实际工作中，根据该报文名单的类别，可知道其对应的报文指向，根据其指向分配对应的高风险关键词作为检查该报文的对应关键词，以此，防止误中的情况发生，通过该对应关键词设置还能有效提高不符合规范的报文名单的拦截命中率，不仅减少了传统拦截算法的误中率，而且还灵活多变大大增加了对不合规报文的命中率。

在上述实施例中，所述预先制定的关键词获取方法如下：现有的反洗钱系统里维护了名单库，名单数据来源于道琼斯网站、总行观察名单、分行人工通过前端系统导入当地名单。批量程序会将名单单词加工后存入名单分词表，每种名单类型有唯一名单号，例如：PEP政要名单编号是93，每条名单记录有唯一名单记录号，每条名单的每个单词也有记录号。做名单比对时从名单分词表里获取配置了需要检索名单类型的待比较名单数据，将该待比较名单数据整合为所述预先制定的关键词名单。

在上述拦截算法中，所述拦截算法还包含：将所述报文单词与预先规定的特定单词进行比对，当所述报文单词与所述特定单词相同时，拦截所述待检测报文。该特定单词为预先制定的高风险词汇，用于当报文中出现该高风险词汇，且比对结果小于阀值时，及时拦截该报文，防止漏拦截的情况发生，以此更进一步的提高报文拦截的命中率。

在上述拦截算法中，所述报文得分包含：所述报文单词对比处理后的总分值、场次权重、预先制定的关键词权重三者的乘积。对该报文名单拦截存在多场拦截，而每场拦截的重要程度和侧重点并不一样，因此，可对每场场次赋予不同的权重值，当不需要拦截，只是简单的分类的时候，可直接赋值该场次为0。以此，最终分值也为0，该场次即不会对报文名单采取拦截动作；当该场次较为重要，则对该场次赋值1，相应的，也可对场次权重赋值小数值，该赋值权重可自由设置，本发明并不做限制。

在上述拦截算法中，所述场次权重包含：根据拦截场次，设定每一场拦截场次的权重值。工作人员可针对多场次中每一场次的重要程度分别对其权重赋值，以此实现合理有效的拦截。

在上述实施例中，所述针对多场次中每一场次的重要程度分别对其权重赋值，可由合规官根据经验和测试环境测试验证结果确定。例如：SWIFT报文的32A场次送检的是金额币种和起息日信息，不应该命中名单，故可将该场次权重设为0。某个场次可能只存在一个单词，但是又特别重要，一旦命中就应该拦下来，可将该场次权重设为2，这样哪怕就命中一个单词也会得2分，最终会被拦截。

在上述拦截算法中，所述预先制定的关键词名单权重包含：根据预先制定的关键词名单风险程度，设定每一个预先制定的关键词名单的权重值。因不同关键词的含义不同且其重要程度也不同，因此对不同风险程度的关键词进行一个权重赋值，有效防止“漏中”关键词的情况发生。

在上述拦截算法中，其特征在于，所述拦截算法还包含：通过SWIFT拦截规则配置，将特定场次的所述待检测报文名单与SWIFT拦截规则作比对，拦截不符合SWIFT拦截规则的所述待检测报文名单。通过SWIFT拦截这一步骤可置于步骤S101与步骤S102之间，也可置于步骤S102与步骤S103之间，或放在步骤S103之后，具体置于何处可根据实际需要灵活设置，例如：针对转汇SWIFT报文，通常交易系统会发送两笔SWIFT报文，一笔是来报，另一笔是出报。为了避免报文被多次拦截，可配置规则将来报直接释放，仅对出报做黑名单检索。又例如：针对50场委托客户栏位，如果全是4位中文电码，系统应该将其拦截下来，哪怕没有命中制裁名单。此情景可通过配置一条SWIFT规则，在检索完制裁名单后做POST CHECK。该规则及放置位置为自由设置，本发明并不对其步骤先后规则内容进行限制。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种报文名单检索拦截算法，其特征在于，所述拦截算法包含：

获取待检测报文名单，对所述待检测报文名单进行分析，获得复数个报文单词；

通过莱温斯坦算法将所述复数个报文单词与预先制定的关键词名单中的关键词进行比对处理，根据所述比对结果获得所述待检测报文名单的报文得分；

当所述报文得分高于一阈值时，拦截所述待检测报文；

所述报文得分包含：所述报文单词对比处理后的总分值、场次权重、预先制定的关键词权重三者的乘积。

2.根据权利要求1所述的报文名单检索拦截算法，其特征在于，所述比对处理包含：通过莱温斯坦算法判断所述报文单词与所述关键词相似度，根据所述相似度赋予所述报文单词不同分值，所述报文单词根据对应的关键词获得分值。

3.根据权利要求1所述的报文名单检索拦截算法，其特征在于，所述预先制定的关键词名单包含：根据所述待检测报文名单类别，设定对应关键词，将所述关键词整合为所述预先制定的关键词名单。

4.根据权利要求1所述的报文名单检索拦截算法，其特征在于，所述拦截算法还包含：将所述报文单词与预先规定的预定单词进行比对，当所述报文单词与所述预定单词相同时，拦截所述待检测报文。

5.根据权利要求1所述的报文名单检索拦截算法，其特征在于，所述场次权重包含：根据拦截场次，设定每一场拦截场次的权重值。

6.根据权利要求1所述的报文名单检索拦截算法，其特征在于，所述预先制定的关键词名单权重包含：根据预先制定的关键词名单风险程度，设定每一个预先制定的关键词名单的权重值。

7.根据权利要求1-6中任一项所述的报文名单检索拦截算法，其特征在于，所述拦截算法还包含：通过SWIFT拦截规则配置，将特定场次的所述待检测报文名单与SWIFT拦截规则作比对，拦截不符合SWIFT拦截规则的所述待检测报文名单。

8.根据权利要求1所述的报文名单检索拦截算法，其特征在于，对所述待检测报文名单进行分析包含：将所述待检测报文名单中的标点、特殊符号替换成空格，以空格作为分隔符，将所述待检测报文名单拆解成复数个待检查的报文单词。