CN117635138A - 异常业务交易账户识别方法及系统 - Google Patents
异常业务交易账户识别方法及系统 Download PDFInfo
- Publication number
- CN117635138A CN117635138A CN202311583059.3A CN202311583059A CN117635138A CN 117635138 A CN117635138 A CN 117635138A CN 202311583059 A CN202311583059 A CN 202311583059A CN 117635138 A CN117635138 A CN 117635138A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- account
- information
- transaction account
- business transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 206
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 63
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000750 progressive effect Effects 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 description 13
- 238000012216 screening Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011001 backwashing Methods 0.000 description 3
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004900 laundering Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种异常业务交易账户识别方法及系统,该方法包括:获取多个待识别业务交易账户的交易记录文本信息;通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。本发明提高了异常业务交易账户的识别准确性和效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种异常业务交易账户识别方法及系统。
背景技术
在异常业务交易账户的识别筛查过程中,现有主要是通过人工筛查方式,比对当前将要进行业务交易的客户名称或者交易内容是否出现在异常账户名单里,而在识别筛查过程中,需要将客户名称或交易内容与异常账户名单中的内容进行精确匹配,才能确定该客户是否为异常业务交易账户,若出现同义词或相似词,依赖于筛查人员的个人经验和主观判断,导致现有异常业务交易账户的识别准确性和效率存在不足。
因此,现在亟需一种异常业务交易账户识别方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种异常业务交易账户识别方法及系统。
本发明提供一种异常业务交易账户识别方法,包括:
获取多个待识别业务交易账户的交易记录文本信息;
通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
根据本发明提供的一种异常业务交易账户识别方法,所述文本相似度融合模型包括编辑距离算法、余弦相似度算法和词嵌入算法。
根据本发明提供的一种异常业务交易账户识别方法,所述样本异常信息包括异常账户名单信息;
在所述通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本信息进行逐级识别,得到逐级识别结果之前,所述方法还包括:
获取所述异常账户名单信息对应的同义词信息,并根据所述异常账户名单信息与所述同义词信息之间的映射关系,构建同义词列表;
将多个所述交易记录文本信息中的交易账户名单信息与所述同义词列表进行匹配,并根据匹配结果,将匹配成功的所述待识别业务交易账户确定为所述异常业务交易账户,将匹配失败的所述待识别业务交易账户标记为第一目标待定交易账户。
根据本发明提供的一种异常业务交易账户识别方法,所述通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,包括:
基于所述编辑距离算法,计算各个所述第一目标待定交易账户的交易账户名单信息与所述异常账户名单信息之间的第一相似度得分;
将所述第一相似度得分大于或等于第一相似度阈值的所述第一目标待定交易账户确定为所述异常业务交易账户,将所述第一相似度得分小于所述第一相似度阈值的所述第一目标待定交易账户标记为第二目标待定交易账户;
基于所述余弦相似度算法,计算各个所述第二目标待定交易账户的交易账户名单信息与所述异常账户名单信息之间的第二相似度得分;
将所述第二相似度得分大于或等于第二相似度阈值的所述第二目标待定交易账户确定为所述异常业务交易账户,将所述第二相似度得分小于所述第二相似度阈值的所述第二目标待定交易账户标记为第三目标待定交易账户;
基于所述词嵌入算法,获取第一词向量和第二词向量,其中,所述第一词向量为所述第三目标待定交易账户的交易账户名单信息对应的词向量,所述第二词向量为所述异常账户名单信息对应的词向量;
计算各个所述第一词向量与各个所述第二词向量之间的第三相似度得分,将所述第三相似度得分大于或等于第三相似度阈值的所述第三目标待定交易账户确定为所述异常业务交易账户,将所述第三相似度得分小于所述第三相似度阈值的所述第三目标待定交易账户确定为正常交易账户。
根据本发明提供的一种异常业务交易账户识别方法,所述基于所述词嵌入算法,获取第一词向量和第二词向量,包括:
通过所述预设异常账户信息语料库中的所述样本异常信息,对词嵌入模型进行训练,得到训练好的词嵌入模型,其中,所述词嵌入模型是基于所述词嵌入算法构建得到的;
通过所述训练好的词嵌入模型,分别对所述第三目标待定交易账户的交易账户名单信息和所述异常账户名单信息进行文本特征提取,获取所述第一词向量和所述第二词向量。
根据本发明提供的一种异常业务交易账户识别方法,在所述根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户之后,所述方法还包括:
根据所述异常业务交易账户对应的交易记录文本信息,对所述预设异常账户信息语料库进行更新,得到更新后的预设异常账户信息语料库。
本发明还提供一种异常业务交易账户识别系统,包括:
账户信息采集模块,用于获取多个待识别业务交易账户的交易记录文本信息;
异常账户逐级识别模块,用于通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述异常业务交易账户识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述异常业务交易账户识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述异常业务交易账户识别方法。
本发明提供的异常业务交易账户识别方法及系统,通过由多个文本相似度算法构建得到的文本相似度融合模型,将多个交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,并根据得到的逐级识别结果,确定多个待识别业务交易账户中的异常业务交易账户,提高了异常业务交易账户的识别准确性和效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的异常业务交易账户识别方法的流程示意图;
图2为本发明提供的异常业务交易账户识别系统的结构示意图;
图3为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有异常业务交易账户识别过程中,如反洗钱制裁筛查领域,需要针对业务交易过程中的交易对象进行筛查,以判断当前的交易对象是否为异常业务交易账户,即是否为洗钱账户。面临日趋严峻的异常业务交易账户的监管压力,现有依赖于人工筛查识别,或通过较为简单的表格筛选的过程,对于一词多义或者一义多词的问题,需要相关人员具备较高的识别水平,或需要交易账户中的相关信息与反洗钱表格中的信息完全一致才能匹配成功,其准确性和效率较低,例如反洗钱表格中对象名单的名称信息是复数,而待识别的交易内容中的名称信息为单数,又或者,待识别的账户名称为英文,反洗钱表格中对象名单的名称信息是中文。面对这种情况,现有技术不能准确且效率地判断出2个词是否是相同含义,导致异常业务交易账户的识别过程存在缺陷。
目前可通过SoundEx算法这种基于语音识别的筛查算法进行异常业务交易账户识别,或通过Levenshith算法进行识别,但前者精度相对很差,会出现很多误判,后者在两个词相差过大的情况下,如不同语种的两个词,识别表现较差。
图1为本发明提供的异常业务交易账户识别方法的流程示意图,如图1所示,本发明提供了一种异常业务交易账户识别方法,包括:
步骤101,获取多个待识别业务交易账户的交易记录文本信息。
在本发明中,需要从各个业务交易账户中获取相关的交易记录文本信息,这些交易记录文本信息可能涉及到账户名称信息和交易内容信息,而这些信息可通过对银行账单、支付记录和交易明细等进行数据导出或抓取得到,除此之外,交易记录文本信息中还可以包括业务交易账户的证件号。
进一步地,将不同业务交易账户中提取得到的交易记录文本信息进行整合,建立一个统一的数据集,以便后续的异常业务交易账户识别处理和分析。
步骤102,通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
在本发明中,需要建立一个包含样本异常信息的语料库,即预设异常账户信息语料库,该语料库可以包括已知的异常业务账户的交易记录文本信息、异常交易模式和异常交易行为等样本,这些样本可以作为用于比对的基准数据。在一实施例中,可基于Word-Check数据库、FircoSoft名单库、Factiva数据库和World Compliance名单库,根据语料库的实际应用场景需求,构建预设异常账户信息语料库,在此基础上,将后续新获取到的异常账户信息更新到该语料库中,从而不断完善语料库。
在本发明中,针对逐级识别的需求,通过多个文本相似度算法构建文本相似度融合模型,该融合模型中的多个文本相似度算法的识别能力从简到难逐级提升。例如,可以首先使用简单的词频统计算法进行初步筛选,然后逐级采用更复杂的算法,如TF-IDF(词频-逆文档频率)、Word Embedding(词嵌入)和深度学习模型(如BERT)等,以提高逐级识别的准确性和鲁棒性。
进一步地,根据逐级识别结果,确定多个待识别业务交易账户中的异常业务交易账户。在本发明中,可针对每一层级的文本相似度算法的设置一个阈值,进而将当前层级的相似度结果超过该阈值的账户确定为异常账户。最终,根据经过逐级识别的相似度结果,结合设定的阈值和规则,从而识别出多个待识别业务交易账户中的异常业务交易账户。
本发明提供的异常业务交易账户识别方法,通过由多个文本相似度算法构建得到的文本相似度融合模型,将多个交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,并根据得到的逐级识别结果,确定多个待识别业务交易账户中的异常业务交易账户,提高了异常业务交易账户的识别准确性和效率。
在上述实施例的基础上,所述文本相似度融合模型包括编辑距离算法、余弦相似度算法和词嵌入算法。
在本发明中,基于随机森林算法的理念,将多个算法互相结合来提高模型的准确度。这些文本相似度算法从简到繁依次是编辑距离算法,统计相似法(即余弦相似度算法)和词嵌入算法,每种算法都有与之对应的模型,在对应的算法模型中,每个输入的词都会得到一个0-1的分数和与之对应的语料库词,通过设置阈值来判断分数是否能通过当前算法模型。如果能通过其中一个或者几个模型,则最终可获取到该词在语料库名单里有与之相似的内容,以及相似的分数是多少。例如,语料库名单中有名称为“X Y Z”,当输入的业务交易账户中的账户名单信息为“x Y Z”时,通过编辑距离模型时会得到一个[0.8,1,1]和“X YZ”的输出,其中,0.8代表“X”与“x”的相似度,从而可以根据该相似度做出后续相应的管控措施。
在上述实施例的基础上,所述样本异常信息包括异常账户名单信息;
在所述通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本信息进行逐级识别,得到逐级识别结果之前,所述方法还包括:
获取所述异常账户名单信息对应的同义词信息,并根据所述异常账户名单信息与所述同义词信息之间的映射关系,构建同义词列表;
将多个所述交易记录文本信息中的交易账户名单信息与所述同义词列表进行匹配,并根据匹配结果,将匹配成功的所述待识别业务交易账户确定为所述异常业务交易账户,将匹配失败的所述待识别业务交易账户标记为第一目标待定交易账户。
在本发明中,需要收集异常账户名单信息的同义词信息,这些同义词可以通过自然语言处理技术,如词向量模型或者同义词词典来获取。这些同义词可以是与异常账户名单信息相关的各种近义词、同类词或者词根扩展,用于丰富异常账户名单的表达方式。
在本发明中,可通过构建一个同义词列表,使用列表法对多个所述交易记录文本信息进行初步筛选识别,从而将多个所述交易记录文本信息中较为明显的异常业务交易账户识别出来,为后续精确识别减少数据量。
具体地,本发明根据异常账户名单信息和同义词信息之间的映射关系,构建同义词列表,这个同义词列表可以作为一个扩展后的异常账户名单,包含了原始异常账户名单以及其同义词。然后,对于多个待识别业务交易账户的交易记录文本信息,将其中的交易账户名单信息与构建的同义词列表进行匹配,若某个待识别业务交易账户的交易账户名单信息成功匹配到同义词列表中的某一项,那么将该待识别业务交易账户确定为异常业务交易账户,例如,LTD和limited company,当输入LTD时,模型能直接返回limited company;若某个待识别业务交易账户的交易账户名单信息未能成功匹配到同义词列表中的任何项,那么将该待识别业务交易账户标记为第一目标待定交易账户,需要进一步的复杂处理来确定其是否为异常业务交易账户。
本发明通过以上初步筛选的过程,可以通过同义词列表对交易记录文本信息中的交易账户名单信息进行匹配,从而初步确定异常业务交易账户,并标记出需要进一步确认的待定交易账户。
在上述实施例的基础上,所述通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,包括:
基于所述编辑距离算法,计算各个所述第一目标待定交易账户的交易账户名单信息与所述异常账户名单信息之间的第一相似度得分;
将所述第一相似度得分大于或等于第一相似度阈值的所述第一目标待定交易账户确定为所述异常业务交易账户,将所述第一相似度得分小于所述第一相似度阈值的所述第一目标待定交易账户标记为第二目标待定交易账户;
基于所述余弦相似度算法,计算各个所述第二目标待定交易账户的交易账户名单信息与所述异常账户名单信息之间的第二相似度得分;
将所述第二相似度得分大于或等于第二相似度阈值的所述第二目标待定交易账户确定为所述异常业务交易账户,将所述第二相似度得分小于所述第二相似度阈值的所述第二目标待定交易账户标记为第三目标待定交易账户。
在本发明中,基于上述同义词列表的初筛结果,通过编辑距离算法来计算第一目标待定交易账户的交易账户名单信息与异常账户名单信息之间的相似度得分,其中,编辑距离算法可衡量两个字符串之间的相似程度,即它们之间转换所需的最小编辑操作次数。
进一步地,对每个第一目标待定交易账户的交易账户名单信息与异常账户名单信息进行编辑距离计算,首先通过计算一个词(交易记录文本信息中的词)变化到另一个词(预设异常账户信息语料库中的词)的新增,删除,编辑的次数得到一个步数,其中,编辑可以认为是一次删除加上新增,最后得到的分数为:score=steps/length(word),即得到第一相似度得分,这个分数就是编辑距离算法对应的模型计算出输入的词和语料库名单里的词之间的相似度
进一步地,判断第一相似度得分是否大于或等于第一相似度阈值,若第一相似度得分大于或等于第一相似度阈值,则将该第一目标待定交易账户确定为异常业务交易账户;若第一相似度得分小于第一相似度阈值,则将该第一目标待定交易账户标记为第二目标待定交易账户,需要对第二目标待定交易账户进行后续算法处理。
进一步地,使用余弦相似度算法来计算第二目标待定交易账户的交易账户名单信息与异常账户名单信息之间的相似度得分。余弦相似度是一种向量相似度度量方法,用于衡量两个向量方向的夹角关系。对每个第二目标待定交易账户的交易账户名单信息与异常账户名单信息进行余弦相似度计算,例如,两个账户名称分别为“AAA”和“BBB”,如果建立一个特征矩阵,这两个词在[国家]这个维度上都是1,但是在[职位]上分别是0,1,最后,通过计算“AAA”和“BBB”两个词在矩阵中的余弦距离得到他们的余弦相似度,得到第二相似度得分。
进一步地,判断第二相似度得分是否大于或等于第二相似度阈值,若第二相似度得分大于或等于第二相似度阈值,则将该第二目标待定交易账户确定为异常业务交易账户;若第二相似度得分小于第二相似度阈值,则将该第二目标待定交易账户标记为第三目标待定交易账户,需要对第三目标待定交易账户进行后续算法处理。
通过以上流程,可以对第一目标待定交易账户和第二目标待定交易账户进行相似度分析,从而进一步确定异常业务交易账户并标记待定交易账户是否为异常交易账户。
进一步地,基于所述词嵌入算法,获取第一词向量和第二词向量,其中,所述第一词向量为所述第三目标待定交易账户的交易账户名单信息对应的词向量,所述第二词向量为所述异常账户名单信息对应的词向量;
具体地,在上述实施例的基础上,所述基于所述词嵌入算法,获取第一词向量和第二词向量,具体包括:
通过所述预设异常账户信息语料库中的所述样本异常信息,对词嵌入模型进行训练,得到训练好的词嵌入模型,其中,所述词嵌入模型是基于所述词嵌入算法构建得到的;
通过所述训练好的词嵌入模型,分别对所述第三目标待定交易账户的交易账户名单信息和所述异常账户名单信息进行文本特征提取,获取所述第一词向量和所述第二词向量。
在本发明中,词嵌入算法建立的模型需要收集大量的语料,本发明通过统计预设异常账户信息语料库中的单词以及单词上下文的词频来建立该模型,并采用矩阵分解的方法来学习得到词向量。
具体地,首先基于语料库中的单词和单词上下文的词频进行统计分析,建立单词之间的关联性和语境信息,从而根据词语共现次数,构建一个以词语为行和列的共现矩阵,共现矩阵中的每个元素代表了对应两个词语的共现次数或者其他相关的共现度量,将构建好的共现矩阵输入到词嵌入算法中进行模型的训练。这些算法会利用共现矩阵中的信息,学习得到每个词语的词向量表示。在一实施例中,假设语料为“I enjoy music”,“I enjoyskiing”,“I like studying”。“I enjoy”出现在第1、2句话中,一共出现2次,所以“Ienjoy”=2;同理,“enjoy I”也是2次。通过模型将共现矩阵行(列)作为词向量表示后,可以知道“like”、“enjoy”都是在“I”附近,且统计数目大约相等,因此它们意思相近。
计算各个所述第一词向量与各个所述第二词向量之间的第三相似度得分,将所述第三相似度得分大于或等于第三相似度阈值的所述第三目标待定交易账户确定为所述异常业务交易账户,将所述第三相似度得分小于所述第三相似度阈值的所述第三目标待定交易账户确定为正常交易账户。
在本发明中,对于每个第三目标待定交易账户,采用已训练好的词嵌入模型,分别获取其对应的第一词向量和第二词向量;然后,通过计算第一词向量与第二词向量之间的相似度得分(如采用余弦相似度距离);进一步地,将所计算得到的第三相似度得分与第三相似度阈值进行比较,以确定第三目标待定交易账户的性质,如果第三相似度得分大于或等于第三相似度阈值,则将该第三目标待定交易账户确定为异常业务交易账户。如果第三相似度得分小于第三相似度阈值,则将该第三目标待定交易账户确定为正常交易账户。
在进行相似度计算时,共线矩阵大小为N*N,其中,N是所有词的个数(不重复),本发明通过奇异值分解(Singular Value Decomposition,简称SVD)矩阵将原先的大矩阵进行分解,变为3个小矩阵,其中第一个小矩阵的每一行,就代表单词的词向量,可以实现对原始矩阵的降维,从而得到更紧凑、更有效的词向量表示。最后,通过比对两个词的词向量的距离就可以得到他们的相似度。
综上所述,将多个交易记录文本信息输入至文本相似度融合模型后,将超过各层级算法对应阈值的结果汇总到一起,并按照相似度排序,输出异常业务交易账户信息。本发明采用多级混合模型,可以使模型的适用范围内更加全面,从词变化,到上下文,都能覆盖到,使其在特殊场景下(如中文及小语种)也能有较好的表现,以确保对异常业务账户的准确判断。
在上述实施例的基础上,在所述根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户之后,所述方法还包括:
根据所述异常业务交易账户对应的交易记录文本信息,对所述预设异常账户信息语料库进行更新,得到更新后的预设异常账户信息语料库。
在本发明中,将新的异常账户信息与语料库中已有信息进行合并或更新,确保语料库中包含最新的异常账户信息。在一实施例中,还对更新后的预设异常账户信息语料库进行验证,确保信息的准确性和完整性,如去除重复的账户信息,避免语料库中存在重复的异常账户信息。最后将更新后的预设异常账户信息语料库保存在系统中,以便在未来的相似度分析中使用。
通过以上步骤,本发明可以将异常交易记录中的信息与现有的预设异常账户信息语料库进行整合,并得到更新后的预设异常账户信息,以支持更准确的相似度分析和异常账户识别,同时,增加特征以丰富语料库,从而通过更新后的语料库对模型进行优化,提高了模型的可塑性,带来异常交易账户识别准确率的提升。
下面对本发明提供的异常业务交易账户识别系统进行描述,下文描述的异常业务交易账户识别系统与上文描述的异常业务交易账户识别方法可相互对应参照。
图2为本发明提供的异常业务交易账户识别系统的结构示意图,如图2所示,本发明提供了一种异常业务交易账户识别系统,包括账户信息采集模块201和异常账户逐级识别模块202,其中,账户信息采集模块201用于获取多个待识别业务交易账户的交易记录文本信息;异常账户逐级识别模块202用于通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
本发明提供的异常业务交易账户识别系统,通过由多个文本相似度算法构建得到的文本相似度融合模型,将多个交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,并根据得到的逐级识别结果,确定多个待识别业务交易账户中的异常业务交易账户,提高了异常业务交易账户的识别准确性和效率。
本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图3为本发明提供的电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(Processor)301、通信接口(Communications Interface)302、存储器(Memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行异常业务交易账户识别方法,该方法包括:获取多个待识别业务交易账户的交易记录文本信息;通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
此外,上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的异常业务交易账户识别方法,该方法包括:获取多个待识别业务交易账户的交易记录文本信息;通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的异常业务交易账户识别方法,该方法包括:获取多个待识别业务交易账户的交易记录文本信息;通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种异常业务交易账户识别方法,其特征在于,包括:
获取多个待识别业务交易账户的交易记录文本信息;
通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
2.根据权利要求1所述的异常业务交易账户识别方法,其特征在于,所述文本相似度融合模型包括编辑距离算法、余弦相似度算法和词嵌入算法。
3.根据权利要求2所述的异常业务交易账户识别方法,其特征在于,所述样本异常信息包括异常账户名单信息;
在所述通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本信息进行逐级识别,得到逐级识别结果之前,所述方法还包括:
获取所述异常账户名单信息对应的同义词信息,并根据所述异常账户名单信息与所述同义词信息之间的映射关系,构建同义词列表;
将多个所述交易记录文本信息中的交易账户名单信息与所述同义词列表进行匹配,并根据匹配结果,将匹配成功的所述待识别业务交易账户确定为所述异常业务交易账户,将匹配失败的所述待识别业务交易账户标记为第一目标待定交易账户。
4.根据权利要求3所述的异常业务交易账户识别方法,其特征在于,所述通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,包括:
基于所述编辑距离算法,计算各个所述第一目标待定交易账户的交易账户名单信息与所述异常账户名单信息之间的第一相似度得分;
将所述第一相似度得分大于或等于第一相似度阈值的所述第一目标待定交易账户确定为所述异常业务交易账户,将所述第一相似度得分小于所述第一相似度阈值的所述第一目标待定交易账户标记为第二目标待定交易账户;
基于所述余弦相似度算法,计算各个所述第二目标待定交易账户的交易账户名单信息与所述异常账户名单信息之间的第二相似度得分;
将所述第二相似度得分大于或等于第二相似度阈值的所述第二目标待定交易账户确定为所述异常业务交易账户,将所述第二相似度得分小于所述第二相似度阈值的所述第二目标待定交易账户标记为第三目标待定交易账户;
基于所述词嵌入算法,获取第一词向量和第二词向量,其中,所述第一词向量为所述第三目标待定交易账户的交易账户名单信息对应的词向量,所述第二词向量为所述异常账户名单信息对应的词向量;
计算各个所述第一词向量与各个所述第二词向量之间的第三相似度得分,将所述第三相似度得分大于或等于第三相似度阈值的所述第三目标待定交易账户确定为所述异常业务交易账户,将所述第三相似度得分小于所述第三相似度阈值的所述第三目标待定交易账户确定为正常交易账户。
5.根据权利要求4所述的异常业务交易账户识别方法,其特征在于,所述基于所述词嵌入算法,获取第一词向量和第二词向量,包括:
通过所述预设异常账户信息语料库中的所述样本异常信息,对词嵌入模型进行训练,得到训练好的词嵌入模型,其中,所述词嵌入模型是基于所述词嵌入算法构建得到的;
通过所述训练好的词嵌入模型,分别对所述第三目标待定交易账户的交易账户名单信息和所述异常账户名单信息进行文本特征提取,获取所述第一词向量和所述第二词向量。
6.根据权利要求1所述的异常业务交易账户识别方法,其特征在于,在所述根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户之后,所述方法还包括:
根据所述异常业务交易账户对应的交易记录文本信息,对所述预设异常账户信息语料库进行更新,得到更新后的预设异常账户信息语料库。
7.一种异常业务交易账户识别系统,其特征在于,包括:
账户信息采集模块,用于获取多个待识别业务交易账户的交易记录文本信息;
异常账户逐级识别模块,用于通过文本相似度融合模型,将多个所述交易记录文本信息与预设异常账户信息语料库中的样本异常信息进行逐级识别,得到逐级识别结果,并根据所述逐级识别结果,确定多个所述待识别业务交易账户中的异常业务交易账户,其中,所述文本相似度融合模型是基于多个文本相似度算法构建得到的。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述异常业务交易账户识别方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述异常业务交易账户方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述异常业务交易账户方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311583059.3A CN117635138A (zh) | 2023-11-24 | 2023-11-24 | 异常业务交易账户识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311583059.3A CN117635138A (zh) | 2023-11-24 | 2023-11-24 | 异常业务交易账户识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117635138A true CN117635138A (zh) | 2024-03-01 |
Family
ID=90024664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311583059.3A Pending CN117635138A (zh) | 2023-11-24 | 2023-11-24 | 异常业务交易账户识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635138A (zh) |
-
2023
- 2023-11-24 CN CN202311583059.3A patent/CN117635138A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112000815B (zh) | 知识图谱补全方法、装置、电子设备及存储介质 | |
CN108829682B (zh) | 计算机可读存储介质、智能问答方法及智能问答装置 | |
CN111666350B (zh) | 一种基于bert模型的医疗文本关系抽取的方法 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN111723870A (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
CN114969334B (zh) | 异常日志检测方法、装置、电子设备及可读存储介质 | |
CN112711678A (zh) | 数据解析方法、装置、设备及存储介质 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN115640378A (zh) | 工单检索方法、服务器、介质及产品 | |
CN117635138A (zh) | 异常业务交易账户识别方法及系统 | |
CN113988878A (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN115080732A (zh) | 投诉工单处理方法、装置、电子设备和存储介质 | |
CN113254612A (zh) | 知识问答处理方法、装置、设备及存储介质 | |
CN112115237A (zh) | 烟草科技文献数据推荐模型的构建方法及装置 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN113722421A (zh) | 一种合同审计方法和系统,及计算机可读存储介质 | |
CN116127236B (zh) | 基于并行结构的网页web组件识别方法及装置 | |
CN114169966B (zh) | 一种用张量提取货物订单元数据的方法及系统 | |
CN117591657B (zh) | 一种基于ai的智能对话管理系统及方法 | |
CN117763099A (zh) | 智能客服系统的交互方法及装置 | |
CN117670600A (zh) | 判决辅助方法、装置、电子设备和存储介质 | |
CN117313846A (zh) | 知识图谱补全数据集的构建方法及其装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |