CN112115333A - 一种基于搜索引擎的客户交易回溯筛查方法及装置 - Google Patents

一种基于搜索引擎的客户交易回溯筛查方法及装置 Download PDF

Info

Publication number
CN112115333A
CN112115333A CN202011034119.2A CN202011034119A CN112115333A CN 112115333 A CN112115333 A CN 112115333A CN 202011034119 A CN202011034119 A CN 202011034119A CN 112115333 A CN112115333 A CN 112115333A
Authority
CN
China
Prior art keywords
search engine
entity
screening
historical transaction
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011034119.2A
Other languages
English (en)
Inventor
孙展望
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202011034119.2A priority Critical patent/CN112115333A/zh
Publication of CN112115333A publication Critical patent/CN112115333A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于搜索引擎的客户交易回溯筛查方法及装置,该方法包括:对制裁实体名单进行关键词的格式化处理,以将实体的所有语种、所有别名都作为关键词进行搜索;建立搜索引擎索引,将历史交易报文作为一个整体引入建立的搜索引擎索引;将制裁实体名单中的每个实体对应的多个关键词逐个送入搜索引擎进行筛查,以确定制裁实体名单是否存在于历史交易报文中;提取搜索引擎返回的相关度大于或等于预设的相关度阈值历史交易报文。本发明实施例能够降低可疑交易筛查的次数规模,避免随着业务的扩张和监管的时限要求不断的增加交易的条数带来的不断扩展计算能力的需要;本发明还能够满足模糊搜索和自由域搜索的需要。

Description

一种基于搜索引擎的客户交易回溯筛查方法及装置
技术领域
本发明涉及交易回溯筛查方法,具体涉及一种基于搜索引擎的客户交易回溯筛查方法及装置。
背景技术
现有的金融制裁名单筛查过程如下:从数据提供商(例如路透、道琼斯等)处采购经过人工整合后的格式化名单数据;使用技术手段逐笔将交易与名单进行碰库查询的方式找出疑似命中的交易;人工审核疑似命中的交易,并甄别出确认真实命中。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
交易量大时,按交易逐笔搜索需要耗费较大的开销,可能要进行几亿或几十亿笔搜索。
发明内容
本发明实施例提供一种基于搜索引擎的客户交易回溯筛查方法及装置,以解决按交易逐笔搜索需要耗费较大的开销的问题。
为达上述目的,第一方面,本发明实施例提供了一种基于搜索引擎的客户交易回溯筛查方法,其包括:
对制裁实体名单进行关键词的格式化处理,以将实体的所有语种、所有别名都作为关键词进行搜索;
建立搜索引擎索引,将历史交易报文作为一个整体引入建立的所述搜索引擎索引;
将所述制裁实体名单中的每个实体对应的多个关键词逐个送入所述搜索引擎进行筛查,以确定所述制裁实体名单中的每个实体是否存在于所述历史交易报文中;
提取所述搜索引擎返回的相关度大于或等于预设的相关度阈值的历史交易报文。
第二方面,本发明实施例提供了一种基于搜索引擎的客户交易回溯筛查装置,其包括:
格式化处理模块,用于对制裁实体名单进行关键词的格式化处理,以将实体的所有语种、所有别名都作为关键词进行搜索;
搜索引擎索引建立模块,用于建立搜索引擎索引,将历史交易报文作为一个整体引入建立的所述搜索引擎索引;
筛查模块,用于将所述制裁实体名单中的每个实体对应的多个关键词逐个送入所述搜索引擎进行筛查,以确定所述制裁实体名单中的每个实体是否存在于所述历史交易报文中;
提取模块,用于提取所述搜索引擎返回的相关度大于或等于预设的相关度阈值的历史交易报文。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于搜索引擎的客户交易回溯筛查方法。
第四方面,本发明实施例提供了一种计算机设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的基于搜索引擎的客户交易回溯筛查方法。
上述技术方案具有如下有益效果:
本发明实施例能够降低可疑交易筛查的次数规模,避免随着业务的扩张和监管的时限要求不断的增加交易的条数带来的不断扩展计算能力的需要;搜索次数取决于外部名单数据库的规模而不是交易的规模,从数据规模上看,外部名单数据库的规模远远小于交易的规模,且外部名单数据库规模增长较慢。
本发明实施例能够满足模糊搜索的需要;本发明实施例能够满足自由域搜索的需要。自由域类似于备注这样的无限制输入内容的字段,通过搜索引擎的分词功能能够对历史交易报文的自由域文本分词并建立索引,通过搜索引擎进行模糊检索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种基于搜索引擎的客户交易回溯筛查方法的流程图;
图2是本发明实施例的一种基于搜索引擎的客户交易回溯筛查装置的功能框图;
图3是本发明实施例的一种计算机设备的功能框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下首先对本发明实施例用到的技术术语进行定义:
SWIFT:环球同业银行金融电讯协会的英文缩写,使用标准化的SWIFT报文在银行间结算时提供安全、可靠、快捷、标准化和自动化的通讯服务。
CIPS:人民币跨境支付系统的英文缩写,为境内外金融机构人民币跨境和离岸业务提供资金清算、结算服务,使用ISO20022报文标准进行通讯。
制裁实体名单:联合国或各国监管机构发布的针对个人或者实体制定的制裁名单,金融机构需要对制裁名单上的个人或者实体采取差异化的管控措施以便满足业务合规的需要,制裁实体名单通常会定时或者不定时更新。
回溯筛查:对历史上发生过的交易重新按最新的名单进行筛查,从而发现历史上与制裁实体名单发生过的交易并采取后续管控措施,监管机构通常对需要回溯的交易有时效性的要求,例如3年或者5年需要进行回溯筛查,通常来说,需要对交易中存在的人名、实体信息、地址、港口等交易要素进行筛查。
现有技术中由于在报文中自由域的存在,编写报文的人员可能将各种信息混杂在自由域中,需要对特定的文字内容进行分词后再进行实体名称匹配,目前的分词技术还不能很好的满足该需要。在本发明实施例中引入搜索引擎的分词功能来处理自由域。
本发明实施例的技术方案解决如下技术问题:
由于SWIFT报文或者CIPS报文中都存在自定义的域,这些域的内容由人工任意输入,业务含义不确定,且容易隐藏大量被制裁的信息。本发明实施例通过引入搜索引擎中自带的分词插件来实现分词。
本发明实施例提供一种规模可控的制裁实体名单数据检索方法:搜索次数不会随着业务量的扩张而线性增长。
大型金融机构需要回溯的交易条数非常大,且由于监管的要求,可能随时扩充。针对该技术问题,本发明实施例引入搜索引擎的技术框架进入业务流程中,在搜索引擎的框架 (例如SOLR等)中,可以对分词、搜索、索引等进行插件级别的优化,便于针对业务需要针对性扩充。
本发明实施例可以满足所在各国或地区不同的大型境外金融机构的制裁实体名单。
本发明实施例由传统的从报文中搜索“黑名单”即制裁实体名单,转换为搜索“黑名单”是否在报文中存在,从而将搜索的次数控制在黑名单的数量上。
图1是本发明实施例的一种基于搜索引擎的客户交易回溯筛查方法的流程图。如图1 所示,该方法包括如下步骤:
S110:对制裁实体名单或者黑名单实体数据进行关键词的格式化处理,以便于将实体的所有语种、以及所有别名都作为关键词进行搜索。
本步骤从数据提供商获取的是外部制裁的实体名单数据,其中每个实体可能存在多语言。上述实体是指自然人和/或法人。上述制裁实体名单包括一个或多个实体。
作为一个格式化处理的举例:对于一条实体记录,比如:王小二,需要处理为多个关键字:王小二、wangxiaoer、wang-xiaoer、xiaoer-wang、wang xiaoer、wang xiaoer。
S120:建立搜索引擎索引,将历史交易报文作为一个整体引入建立的搜索引擎索引。
其中,历史交易报文可以包括:环球同业银行金融电讯协会SWIFT报文,或者,人民币跨境支付系统CIPS报文。
搜索引擎技术是现有技术,目前有很多开源的搜索引擎可以使用,例如Lucene、Solr、 ElasticSearch等,本实施例引入搜索引擎技术来用于监管要求的交易回溯筛查。
从银行系统内部保存的历史交易报文,可通过内部数据仓库或者用于银行间清算的业务系统直接供应。
在一些实施例中,黑名单生成关键词,历史交易使用搜索引擎建立索引,逐个使用关键词在搜索引擎中搜索是否存在相关度较高(达到或高于预设相关度阈值)的历史交易。
具体实施时,目前的搜索引擎有提供索引功能,使用搜索引擎默认的索引功能或索引插件都可以建立搜索引擎索引。可以将历史交易报文的整个报文导入搜索引擎中,使用搜索引擎自带的索引功能建立索引。索引是搜索引擎必要的功能,用于加快海量报文数据中的检索速度,搜索引擎利用索引来查找、筛查数据。
S130:将制裁实体名单中每个实体对应的多个关键词逐个送入搜索引擎进行筛查,以确定该制裁实体名单上的每个实体是否存在于历史交易报文中。
具体地,当制裁实体名单包括多个实体时,本步骤逐个地检查制裁实体名单上的每个实体是否存在于海量的历史交易报文中。即逐个检查制裁实体名单上的每个实体,所有实体都要进行检查,以依次判断每个实体是否在全量历史交易报文中存在。
S140:提取搜索引擎返回的相关度大于或等于预设的相关度阈值的历史交易报文。
在本步骤中,该相关度是指历史交易报文和搜索的关键字之间的相关度。在一些实施方式中,可使用自动化工具将关键词逐个送入搜索引擎进行排查,并根据业务量处理的能力需要提取搜索引擎返回的相关度较高或最高的多个交易。上述自动化工具是一种计算机程序功能模块,该程序可并发自动调用搜索引擎查找关键字,并判断查询返回的结果的相关度是否满足阈值。
作为一个举例,例如,业务人员每天能做100笔排查,那么通过相关度阈值,只提示业务人员处理搜索引擎返回的结果中相关度最高的100笔交易,人工对筛查结果进行确认。
在本实施例中,搜索引擎会依据自身使用的算法,在返回结果时,同时标明结果的相关度。
在一些示例性实施方式中,步骤S130具体可以包括如下步骤:将制裁实体名单中每个实体对应的多个关键词逐个送入搜索引擎,通过模糊匹配方法将关键词与制裁实体名单进行匹配筛查。由于人名、实体名称、地址等存在各种不同的拼写方法或者变体,筛查中可以通过一定的模糊匹配的方式与制裁实体名单进行匹配。作为一个举例,模糊匹配方法可以包括:文本相关性算法。文本相关性算法是搜索引擎内部提供的,也可自行开发相关插件替换搜索引擎内部的算法。该搜索引擎可以是具备文本分词功能或者文本分词插件的搜索引擎。
在一些实施例中,作为一个举例,分词、索引、筛查的处理流程如下:
假设历史交易报文A里面有一句话:“500吨煤碳丛丹东港通过和平一号货轮发出”。搜索引擎的分词模块会将该句子进行分词处理分成:“500顿”、“煤炭”、“从”、“丹东港”、“和平一号”、“货轮”、“发出”。然后,对每个词建立索引。当搜索黑名单的词“丹东港”时,搜索引擎即可返回历史交易报文A,并提示筛查命中。
本发明实施例的上述技术方案的优点包括:
本发明实施例能够降低可疑交易筛查的次数规模;
搜索的次数开销取决于制裁名单库的规模;
现有搜索引擎技术很成熟,可以通过文本相关性等技术解决模糊搜索的困难;
现有搜索引擎都是插件化的设计,可以方便地通过引入新插件或者自研插件的方式满足需要。
图2是本发明实施例的一种基于搜索引擎的客户交易回溯筛查装置的功能框图。如图 2所示,基于搜索引擎的客户交易回溯筛查装置200包括:
格式化处理模块210,用于对制裁实体名单进行关键词的格式化处理,以将实体的所有语种、所有别名都作为关键词进行搜索;
搜索引擎索引建立模块220,用于建立搜索引擎索引,将历史交易报文作为一个整体引入建立的搜索引擎索引;
筛查模块230,用于将制裁实体名单中的每个实体对应的多个关键词逐个送入搜索引擎进行筛查,以确定该制裁实体名单中的每个实体是否存在于历史交易报文中;
提取模块240,用于提取搜索引擎返回的相关度大于或等于预设的相关度阈值的历史交易报文。
在一些示例性实施方式中,筛查模块203,具体用于:将制裁实体名单中每个实体对应的多个关键词逐个送入搜索引擎,通过模糊匹配方法将该关键词与制裁实体名单进行匹配筛查。
在一些示例性实施方式中,模糊匹配方法包括:文本相关性算法。该搜索引擎可以是具备文本分词功能或者文本分词插件的搜索引擎;和/或,所述搜索引擎是具备索引功能或者索引插件的搜索引擎。
在一些示例性实施方式中,历史交易报文包括:环球同业银行金融电讯协会SWIFT报文,或者,人民币跨境支付系统CIPS报文。该搜索引擎可以包括:Lucene、Solr或者ElasticSearch;该装置还可以包括:报文获取模块,用于从银行内部数据仓库或者用于银行间清算的业务系统获取该历史交易报文。
本发明实施例提供一种规模可控的制裁实体名单数据检索方法:搜索次数不会随着业务量的扩张而线性增长。
大型金融机构需要回溯的交易条数非常大,且由于监管的要求,可能随时扩充。针对该技术问题,本发明实施例引入搜索引擎的技术框架进入业务流程中,在搜索引擎的框架 (例如SOLR等)中,可以对分词、搜索、索引等进行插件级别的优化,便于针对业务需要针对性扩充。
本发明实施例可以满足所在各国或地区不同的大型境外金融机构的制裁实体名单。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的任意一种基于搜索引擎的客户交易回溯筛查方法。
本发明实施例还提供了一种电子设备,如图3所示,包括一个或多个处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303 通过通信总线304完成相互间的通信。
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
对的制裁实体名单进行关键词的格式化处理,以将实体的所有语种、所有别名都作为关键词进行搜索;
建立搜索引擎索引,将历史交易报文作为一个整体引入建立的所述搜索引擎索引;
将所述制裁实体名单中的每个实体对应的多个关键词逐个送入所述搜索引擎进行筛查,以确定所述制裁实体名单中的每个实体是否存在于所述历史交易报文中;
提取所述搜索引擎返回的相关度大于或等于预设的相关度阈值的历史交易报文。
进一步地,计算机程序被处理器301在执行将制裁实体名单中每个实体对应的多个关键词逐个送入搜索引擎进行筛查,以确定制裁实体名单是否存在于历史交易报文中的步骤时,使得处理器301具体执行以下步骤:
将所述制裁实体名单中的每个实体对应的多个关键词逐个送入所述搜索引擎,通过模糊匹配方法将所述关键词与制裁实体名单进行匹配筛查。
作为示例,模糊匹配方法包括:文本相关性算法。历史交易报文包括:环球同业银行金融电讯协会SWIFT报文,或者,人民币跨境支付系统CIPS报文。上述搜索引擎可以包括:Lucene、Solr或者ElasticSearch;在一个实施例中,计算机程序被处理器301执行时,使得处理器还执行以下步骤:从银行内部数据仓库或者用于银行间清算的业务系统获取历史交易报文。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA) 总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列 (Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种基于搜索引擎的客户交易回溯筛查方法,其特征在于,包括:
对制裁实体名单进行关键词的格式化处理,以将实体的所有语种、所有别名都作为关键词进行搜索;
建立搜索引擎索引,将历史交易报文作为一个整体引入建立的所述搜索引擎索引;
将所述制裁实体名单中的每个实体对应的多个关键词逐个送入所述搜索引擎进行筛查,以确定所述制裁实体名单中的每个实体是否存在于所述历史交易报文中;
提取所述搜索引擎返回的相关度大于或等于预设的相关度阈值的历史交易报文。
2.根据权利要求1所述的方法,其特征在于,所述的将所述制裁实体名单中每个实体对应的多个关键词逐个送入所述搜索引擎进行筛查,以确定制裁实体名单中的每个实体是否存在于所述历史交易报文中,具体包括:
将所述制裁实体名单中每个实体对应的多个关键词逐个送入所述搜索引擎,通过模糊匹配方法将所述关键词与制裁实体名单进行匹配筛查。
3.根据权利要求2所述的方法,其特征在于,所述模糊匹配方法包括:文本相关性算法;所述搜索引擎是具备文本分词功能或者文本分词插件的搜索引擎;和/或,所述搜索引擎是具备索引功能或者索引插件的搜索引擎。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述历史交易报文包括:环球同业银行金融电讯协会SWIFT报文,或者,人民币跨境支付系统CIPS报文;所述搜索引擎包括:Lucene、Solr或者ElasticSearch;所述方法还包括:从银行内部数据仓库或者用于银行间清算的业务系统获取所述历史交易报文。
5.一种基于搜索引擎的客户交易回溯筛查装置,其特征在于,包括:
格式化处理模块,用于对制裁实体名单进行关键词的格式化处理,以将实体的所有语种、所有别名都作为关键词进行搜索;
搜索引擎索引建立模块,用于建立搜索引擎索引,将历史交易报文作为一个整体引入建立的所述搜索引擎索引;
筛查模块,用于将所述制裁实体名单中每个实体对应的多个关键词逐个送入所述搜索引擎进行筛查,以确定制裁实体名单中的每个实体是否存在于所述历史交易报文中;
提取模块,用于提取所述搜索引擎返回的相关度大于或等于预设的相关度阈值的历史交易报文。
6.根据权利要求5所述的装置,其特征在于,所述筛查模块,具体用于:将所述制裁实体名单中每个实体对应的多个关键词逐个送入所述搜索引擎,通过模糊匹配方法将所述关键词与制裁实体名单进行匹配筛查。
7.根据权利要求6所述的装置,其特征在于,所述模糊匹配方法包括:文本相关性算法;所述搜索引擎是具备文本分词功能或者文本分词插件的搜索引擎;和/或,所述搜索引擎是具备索引功能或者索引插件的搜索引擎。
8.根据权利要求5-7中任一项所述的装置,其特征在于,所述历史交易报文包括:环球同业银行金融电讯协会SWIFT报文,或者,人民币跨境支付系统CIPS报文;所述搜索引擎包括:Lucene、Solr或者ElasticSearch;所述装置还包括:报文获取模块,用于从银行内部数据仓库或者用于银行间清算的业务系统获取所述历史交易报文。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任意一项所述的基于搜索引擎的客户交易回溯筛查方法。
10.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-4中任一所述的基于搜索引擎的客户交易回溯筛查方法。
CN202011034119.2A 2020-09-27 2020-09-27 一种基于搜索引擎的客户交易回溯筛查方法及装置 Pending CN112115333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011034119.2A CN112115333A (zh) 2020-09-27 2020-09-27 一种基于搜索引擎的客户交易回溯筛查方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011034119.2A CN112115333A (zh) 2020-09-27 2020-09-27 一种基于搜索引擎的客户交易回溯筛查方法及装置

Publications (1)

Publication Number Publication Date
CN112115333A true CN112115333A (zh) 2020-12-22

Family

ID=73797890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011034119.2A Pending CN112115333A (zh) 2020-09-27 2020-09-27 一种基于搜索引擎的客户交易回溯筛查方法及装置

Country Status (1)

Country Link
CN (1) CN112115333A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222975A1 (en) * 2004-03-30 2005-10-06 Nayak Tapas K Integrated full text search system and method
CN109815268A (zh) * 2018-12-21 2019-05-28 上海诺悦智能科技有限公司 一种交易制裁名单匹配系统
CN109840316A (zh) * 2018-12-21 2019-06-04 上海诺悦智能科技有限公司 一种客户信息制裁名单匹配系统
CN110298747A (zh) * 2019-07-04 2019-10-01 中国工商银行股份有限公司 汇款报文黑名单监控系统及方法
CN110674365A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种搜索方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050222975A1 (en) * 2004-03-30 2005-10-06 Nayak Tapas K Integrated full text search system and method
CN109815268A (zh) * 2018-12-21 2019-05-28 上海诺悦智能科技有限公司 一种交易制裁名单匹配系统
CN109840316A (zh) * 2018-12-21 2019-06-04 上海诺悦智能科技有限公司 一种客户信息制裁名单匹配系统
CN110298747A (zh) * 2019-07-04 2019-10-01 中国工商银行股份有限公司 汇款报文黑名单监控系统及方法
CN110674365A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种搜索方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US11968162B1 (en) Message content cleansing
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN110276009B (zh) 一种联想词的推荐方法、装置、电子设备及存储介质
CN114153962A (zh) 一种数据匹配方法、装置及电子设备
CN110765760A (zh) 一种法律案件分配方法、装置、存储介质和服务器
CN110837590A (zh) 资讯推送方法、装置、计算机设备和存储介质
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
WO2023273303A1 (zh) 基于树模型的事件影响度获取方法、装置及计算机设备
CN111861733B (zh) 基于地址模糊匹配的欺诈防控系统及方法
CN114006765A (zh) 检测报文中敏感信息的方法、装置和电子设备
CN110380952B (zh) 邮件收发方法及装置
CN109918638B (zh) 一种网络数据监测方法
CN113472686B (zh) 信息识别方法、装置、设备及存储介质
CN112115333A (zh) 一种基于搜索引擎的客户交易回溯筛查方法及装置
CN107483420B (zh) 信息审核装置及方法
CN114363839B (zh) 一种诈骗数据的预警方法、装置、设备及存储介质
CN110766091B (zh) 一种套路贷团伙的识别方法及系统
CN114579711A (zh) 诈骗应用程序的识别方法、装置、设备及存储介质
Choi et al. Discovering message templates on large scale Bitcoin abuse reports using a two-fold NLP-based clustering method
CN113204954A (zh) 基于大数据的数据检测方法、设备及计算机可读存储介质
CN112199573A (zh) 一种非法交易主动探测方法及系统
CN112199948A (zh) 文本内容识别和违规广告识别方法、装置及电子设备
Liao et al. Evidential reasoning for forensic readiness
CN115221891B (zh) 基于上下文语义分析的目标信息检测方法、装置、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination