CN117851473A

CN117851473A - 一种基于大语言模型的名单模糊筛查方法及装置

Info

Publication number: CN117851473A
Application number: CN202311864637.0A
Authority: CN
Inventors: 沈少阳; 阮歆; 王化楠
Original assignee: Lianlian Hangzhou Information Technology Co ltd
Current assignee: Lianlian Hangzhou Information Technology Co ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-09

Abstract

本申请公开了一种基于大语言模型的名单模糊筛查方法、装置、设备及存储介质，涉及人工智能技术领域，该方法包括：获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据；将至少一种第一名单属性数据和至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单。利用本申请提供的技术方案可以提高预警名单确定的准确率和效率。

Description

一种基于大语言模型的名单模糊筛查方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于大语言模型的名单模糊筛查方法、装置、设备及存储介质。

背景技术

名单筛查是在特殊场景下，进行对各种交易监测的工作中的重要环节。名单筛查的模糊匹配要求相关机构能够识别常见英文字词的变体、缩写或通用替代词语、甚至是笔误的情况，以达到对业务和客户活动涉及风险的有效监测。

现今，不同机构通过数据采集、整合，对照预警名单和各自关注的各类名单，借助系统工具或人工，对其客户、交易对手、供应商、平台商家、消费者、收付款方等进行筛查，发现相关方涉及负面媒体报道等事件，进而评估可能涉及的风险，并决定是否采取适当的措施对风险进行控制。

然而，目前名单筛查的模糊匹配的技术方案，筛查规则过多，不同规则匹配的名单相应增多，导致命中率过高，而产生过多“假中”预警名单，从而花费大量的人力在预警的排查和分析工作上；或者，对多语言的名单筛查的模糊匹配，由于同义不同词，同音不同字等对应文字表达可能出现的复杂多变的情况，会增加名单筛查的工作量，从而影响到名单筛查的效率。因此，名单模糊筛查的有效性和效率有待提高。

发明内容

本申请提供了一种基于大语言模型的名单模糊筛查方法、装置、设备及存储介质，可以提高对待筛查名单模糊筛查的有效性和效率，即可以提高预警名单确定的准确性和效率。

一方面，本申请提供了一种基于大语言模型的名单模糊筛查方法，所述方法包括：

获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据；

将所述至少一种第一名单属性数据和所述至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，所述第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；所述大语言模型是基于训练数据对预设大语言模型进行名单匹配训练得到的，所述训练数据为多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据；

基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单。

在一些可能的实施方式中，所述基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单包括：

根据所述第一名单匹配结果，从所述至少一个待筛查名单中，确定至少一个初始预警名单；

获取所述至少一个初始预警名单对应的名单核验结果；

将所述名单核验结果指示核验通过的初始预警名单作为所述目标预警名单。

在一些可能的实施方式中，所述获取至少一个待筛查名单各自对应的至少一种第一名单属性数据包括：

获取所述每个待筛查名单对应的原始名单属性数据；

对所述每个待筛查名单对应的原始名单属性数据进行分类，得到每个待筛查名单对应的至少一种第一名单属性数据。

在一些可能的实施方式中，所述大语言模型采用下述方式训练：

获取所述多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据；

将所述每个筛查名单样本对应的至少一种第三名单属性数据和所述每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果；

基于所述每个筛查名单样本对应的预设名单匹配结果和所述每个筛查名单样本对应的第二名单匹配结果，对所述预设大语言模型进行训练，得到所述大语言模型。

在一些可能的实施方式中，所述获取所述多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据之后，所述方法还包括：

对所述每个第三名单属性数据进行数据清洗处理，得到清洗处理后的第三名单属性数据；

对所述清洗处理后的第三名单属性数据进行数据格式转换处理，得到格式统一后的第三名单属性数据；

对所述格式统一后的第三名单属性数据进行数据扩展处理，得到扩展后的第三名单属性数据集；

所述将所述每个筛查名单样本对应的至少一种第三名单属性数据和所述每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果包括：

将所述扩展后的第三名单属性数据集中的第三名单属性数据和所述每个第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果。

在一些可能的实施方式中，所述大语言模型采用下述方式测试：

从所述扩展后的第三名单属性数据集中，确定当前测试集和当前训练集；

基于所述当前训练集和所述多个预设预警名单对应的至少一种第二名单属性数据，对所述预设大语言模型进行名单匹配训练，得到所述大语言模型；

将所述当前测试集输入至所述大语言模型进行名单匹配处理，得到第四名单匹配结果；

重复从所述扩展后的第三名单属性数据集中，确定当前测试集和当前训练集至将所述当前测试集输入至所述大语言模型进行名单匹配处理，得到第四名单匹配结果的步骤，直至得到第一预设数量个第四名单匹配结果；

基于所述多个筛查名单样本对应的多个预设名单匹配结果、所述第一预设数量个第四名单匹配结果和预设阈值，确定所述大语言模型的测试结果；

在所述测试结果指示测试通过的情况下，将所述预设阈值作为目标阈值；

所述基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单包括：

根据所述第一名单匹配结果和所述目标阈值，从所述至少一个待筛查名单中，确定所述目标预警名单。

在一些可能的实施方式中，所述基于所述多个筛查名单样本对应的多个预设名单匹配结果、所述第一预设数量个第四名单匹配结果和预设阈值，确定所述大语言模型的测试结果包括：

将所述每个预设名单匹配结果大于所述预设阈值对应的筛查名单样本作为实际预警名单；

将所述每个预设名单匹配结果小于所述预设阈值对应的筛查名单样本作为实际非预警名单；

将所述每个第四名单匹配结果大于所述预设阈值对应的筛查名单样本作为预测预警名单；

将所述每个第四名单匹配结果小于所述预设阈值对应的筛查名单样本作为预测非预警名单；

确定在所述实际预警名单中，所述预测预警名单的第一数量和所述预测非预警名单的第二数量；

确定在所述实际非预警名单中，所述预测预警名单的第三数量和所述预测非预警名单的第四数量；

基于所述第一数量、所述第二数量、所述第三数量和所述第四数量，确定所述大语言模型的测试结果。

另一方面提供了一种基于大语言模型的名单模糊筛查装置，所述装置包括：

数据获取模块，用于获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据；

名单匹配处理模块，用于将所述至少一种第一名单属性数据和所述至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，所述第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；所述大语言模型是基于训练数据对预设大语言模型进行名单匹配训练得到的，所述训练数据为多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据；

预警名单确定模块，用于基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单。

另一方面提供了一种电子设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述任一项所述的基于大语言模型的名单模糊筛查方法。

另一方面提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述任一项所述的基于大语言模型的名单模糊筛查方法。

本申请提供的一种基于大语言模型的名单模糊筛查方法、装置、设备及存储介质，具有如下技术效果：

本申请通过获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据，该第一名单属性数据和第二名单属性数据是多样性数据，并不是特定数据或者标准数据；进而将至少一种第一名单属性数据和至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，该第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度，基于大语言模型，可以在第一名单属性数据和第二名单属性数据为多样性数据的情况下，提高对待筛查名单筛查的有效性和效率；进而基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单，从而提高预警名单确定的精准性和效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种基于大语言模型的名单模糊筛查方法的流程示意图；

图2是本申请实施例提供的另一种基于大语言模型的名单模糊筛查方法的流程示意图；

图3是本申请实施例提供的一种基于大语言模型的名单模糊筛查装置的结构示意图；

图4是本申请实施例提供的一种用于基于大语言模型的名单模糊筛查的电子设备的框图；

图5是本申请实施例提供的另一种用于基于大语言模型的名单模糊筛查的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的深度学习等技术，具体的，可以涉及基于自然语言处理技术的名单模糊筛查等处理，具体通过如下实施例进行说明：

请参阅图1，图1是本申请实施例提供的一种基于大语言模型的名单模糊筛查方法的流程示意图，本说明书提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示，上述方法可以包括：

S101：获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据；

在一个具体的实施例中，待筛查名单是在相关平台机构办理业务的对象名单，可选的，上述平台机构可以包括金融机构、非银行支付机构等，在相关平台机构办理业务的内容可以包括汇款业务、转账业务、理财业务等；可选的，上述待筛查名单可以包括办理业务的客户名单，与客户进行转账或者汇款交易的交易对象名单，进行收款的商家名单，进行付款的消费者名单等。第一名单属性数据可以是用于表征待筛查名单的特征的数据，可选的，第一名单属性数据可以反映待筛查名单的身份信息、交易内容、交易对象等；可选的，第一名单属性数据可以是姓名、公司名称、产品名称、联系方式等。可选的，上述第一名单属性数据为多样性数据，并不是特定数据，可选的，上述第一名单属性数据可以包括常规的数据，也可以包括变体的数据，例如，缩写、别名、大小写变化、音译多样性等。具体的，当待筛查名单是客户名单时，第一名单属性数据可以是属于姓名类别的客户姓名、与客户进行交易的交易对象姓名，属于地址类别的客户所在地址、交易对象所在地址，属于经营名称类别的客户所在公司名称、交易对象所在公司名称等；当待筛查名单是商家名单和消费者名单时，第一名单属性数据可以是属于经营名称类别的商家名称、商家公司名称，属于身份标识信息类别的消费者名称，属于产品名称类别的商家销售的产品名称、消费者购买的产品名称等。

在一个具体的实施例中，预设预警名单是所办理的业务涉及风险或者违反相关规定的对象名单，可选的，预设预警名单可以包括涉及风险的对象名单、违反规定的对象名单等。第二名单属性数据可以是用于表征预设预警名单的特征的数据，可选的，第一名单属性数据可以反映预设预警名单的身份信息、交易内容、交易对象等；可选的，第二名单属性数据可以是涉及风险的对象姓名、公司名称、产品名称、联系方式等。可选的，上述第二名单属性数据为多样性数据，并不是特定数据，可选的，上述第二名单属性数据可以包括常规的数据，也可以包括变体的数据，例如，缩写、别名、大小写变化、音译多样性等。可选的，第二名单属性数据与第一名单属性数据相对应，具体的，在第一名单属性数据是客户姓名时，第二名单属性数据是涉及风险的对象姓名，该姓名为预设预警名单所涉及的姓名；在第一名单属性数据是商家销售的产品名称时，第二名单属性数据是涉及风险的对象的产品名称，该产品名称可以包括不同业务的预设预警名单所涉及的产品名称。

在一个具体的实施例中，获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据包括：获取一个待筛查名单对应的一种第一名单属性数据和一个预设预警名单对应的一种第二名单属性数据；或者，获取一个待筛查名单对应的多种第一名单属性数据和一个预设预警名单对应的多种第二名单属性数据；或者，获取一个待筛查名单对应的一种第一名单属性数据和多个预设预警名单对应的一种第二名单属性数据；或者，获取一个待筛查名单对应的多种第一名单属性数据和多个预设预警名单对应的多种第二名单属性数据；或者，获取多个待筛查名单对应的一种第一名单属性数据和一个预设预警名单对应的一种第二名单属性数据；或者，获取多个待筛查名单对应的一种第一名单属性数据和多个预设预警名单对应的一种第二名单属性数据；或者，获取多个待筛查名单对应的多种第一名单属性数据和一个预设预警名单对应的多种第二名单属性数据；或者，获取多个待筛查名单对应的多种第一名单属性数据和多个预设预警名单对应的多种第二名单属性数据。

可选的，获取待筛查名单为办理业务的客户名单的第一名单属性数据为客户姓名，和获取预设预警名单为涉及风险的对象名单的第一名单属性数据为涉及风险的对象的姓名。可选的，获取待筛查名单为办理业务的客户名单和进行收款的商家名单的第一名单属性数据为属于姓名类别的客户姓名、属于经营名称类别的商家名称，和获取预设预警名单为涉及风险的对象名单和违反规定的对象名单的第二名单属性数据为属于姓名类别的涉及风险的对象的姓名和违反规定的对象的姓名、属于经营名称类别的涉及风险的对象的公司名称和违反规定的对象的公司名称。

在一个可选的实施例中，上述获取至少一个待筛查名单各自对应的至少一种第一名单属性数据包括：

获取每个待筛查名单对应的原始名单属性数据；

对每个待筛查名单对应的原始名单属性数据进行分类，得到每个待筛查名单对应的至少一种第一名单属性数据。

在一个具体的实施例中，原始名单属性数据是用于表征待筛查名单的特征的数据，可选的，原始名单属性数据可以包括多个第一名单属性数据。

在一个具体的实施例中，对每个待筛查名单对应的原始名单属性数据进行分类，得到每个待筛查名单对应的至少一种第一名单属性数据可以是基于原始名单属性数据表征的待筛查名单的特征，对每个待筛查名单对应的原始名单属性数据进行分类，得到每个待筛查名单对应的至少一种第一名单属性数据。可选的，获取待筛查名单对应的原始名单属性数据包括待筛查名单的姓名、所住地址、所任职公司名称、交易对象姓名、交易地址，对待筛查名单对应的原始名单属性数据进行分类，待筛查名单的姓名和交易对象姓名都属于姓名类别，待筛查名单的所住地址和交易地址都属于地址类别，待筛查名单的所任职公司名称属于经营名称类别，得到待筛查名单对应的三种第一名单属性数据包括属于姓名类别的待筛查名单的姓名和交易对象姓名，属于地址类别的待筛查名单的所住地址和交易地址，属于经营名称类别的待筛查名单的所任职公司名称。

S103：将至少一种第一名单属性数据和至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；

在一个具体的实施例中，大语言模型是基于训练数据对预设大语言模型进行名单匹配训练得到的，上述训练数据为多个筛查名单样本对应的多个预设名单匹配结果、每个筛查名单样本对应的至少一种第三名单属性数据和多个预设预警名单对应的至少一种第二名单属性数据。大语言模型是用于确定第一名单属性数据和第二名单属性数据间的匹配程度的模型。可选的，第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的相似度。

在一个可选的实施例中，上述大语言模型采用下述方式训练：

获取多个筛查名单样本对应的多个预设名单匹配结果、每个筛查名单样本对应的至少一种第三名单属性数据和多个预设预警名单对应的至少一种第二名单属性数据；

将每个筛查名单样本对应的至少一种第三名单属性数据和每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到每个筛查名单样本对应的第二名单匹配结果；

基于每个筛查名单样本对应的预设名单匹配结果和每个筛查名单样本对应的第二名单匹配结果，对预设大语言模型进行训练，得到大语言模型。

在一个具体的实施例中，筛查名单样本可以为在相关平台机构办理业务的名单。筛查名单样本对应一个预设名单匹配结果。预设名单匹配结果可以表征对应的筛查名单样本与预设预警名单的匹配程度。

在一个具体的实施例中，上述预设大语言模型可以包括：第一特征提取模型，第二特征提取模型，自注意学习模型，分类模型；上述将将每个筛查名单样本对应的至少一种第三名单属性数据和每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到每个筛查名单样本对应的第二名单匹配结果包括：

将每个筛查名单样本对应的至少一种第三名单属性数据输入第一特征提取模型进行名单属性特征提取处理，得到每个筛查名单样本对应的第一名单属性特征信息；

将每个预设预警名单对应的至少一种第二名单属性数据输入第二特征提取模型进行名单属性特征提取处理，得到每个预设预警名单对应的第二名单属性特征信息；

将每个筛查名单样本对应的第一名单属性特征信息和每个预设预警名单对应的第二名单属性特征信息输入自注意学习模型进行自注意学习，得到每个筛查名单样本对应的名单属性特征匹配信息；

将每个筛查名单样本对应的名单属性特征匹配信息输入分类模型进行分类处理，得到每个筛查名单样本对应的第二名单匹配结果。

在一个具体的实施例中，第一特征提取模型可以用于提取每个筛查名单样本对应的至少一种第三名单属性数据的特征信息，可选的，第一特征提取模型的模型结构可以结合实际应用需求进行设置。第二特征提取模型可以用于提取每个预设预警名单对应的至少一种第二名单属性数据的特征信息，可选的，第二特征提取模型的模型结构可以结合实际应用需求进行设置。自注意学习模型可以用于对每个筛查名单样本对应的第一名单属性特征信息和每个预设预警名单对应的第二名单属性特征信息进行自注意力学习，并输出第一名单属性特征信息对应的自注意力学习特征信息即名单属性特征匹配信息；可选的，自注意力学习模型的模型结构可以结合实际应用需求进行设置。分类模型可以用于对名单属性特征匹配信息进行匹配程度分类处理；可选的分类模型的模型结构可以结合实际应用需求进行设置。

在一个具体的实施例中，上述基于每个筛查名单样本对应的预设名单匹配结果和每个筛查名单样本对应的第二名单匹配结果，对预设大语言模型进行训练，得到大语言模型包括：

基于多个预设名单匹配结果和多个筛查名单样本对应的多个第二名单匹配结果，确定名单匹配损失；

基于名单匹配损失，对预设大语言模型进行训练，得到大语言模型。

在一个具体的实施例中，名单匹配损失可以结合预设损失函数计算；可选的，预设损失函数可以结合实际应用需求设定，例如指数损失函数，交叉熵损失函数等。上述名单匹配损失可以表征当前的预设大语言模型的名单匹配的准确性。

在一个具体的实施例中，上述基于名单匹配损失，对预设大语言模型进行训练，得到大语言模型可以包括：基于名单匹配损失，更新预设大语言模型的模型参数，基于更新后的预设大语言模型，重复上述将将每个筛查名单样本对应的至少一种第三名单属性数据和每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到每个筛查名单样本对应的第二名单匹配结果至基于名单匹配损失，更新预设大语言模型的模型参数的训练迭代步骤，直至满足预设训练收敛条件。

上述满足预设训练收敛条件可以为名单匹配损失信息小于等于预设损失阈值，或训练迭代步骤的次数达到预设次数等，具体的，预设损失阈值和预设次数可以结合实际应用中网络精确率和训练速度需求进行设置。

在一个可选的实施例中，上述获取多个筛查名单样本对应的多个预设名单匹配结果、每个筛查名单样本对应的至少一种第三名单属性数据和多个预设预警名单对应的至少一种第二名单属性数据之后，上述方法还包括：

对每个第三名单属性数据进行数据清洗处理，得到清洗处理后的第三名单属性数据；

对清洗处理后的第三名单属性数据进行数据格式转换处理，得到格式统一后的第三名单属性数据；

对格式统一后的第三名单属性数据进行数据扩展处理，得到扩展后的第三名单属性数据集；

上述将每个筛查名单样本对应的至少一种第三名单属性数据和每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到每个筛查名单样本对应的第二名单匹配结果包括：

将扩展后的第三名单属性数据集中的第三名单属性数据和每个第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到每个筛查名单样本对应的第二名单匹配结果。

在一个具体的实施例中，对每个第三名单属性数据进行数据清洗处理，是将第三名单属性数据中的重复值、缺失值和异常值进行处理，得到清洗处理后的第三名单属性数据，以保证第三名单属性数据的一致性、完整性和准确性。可选的，对第三名单属性数据中的重复值、缺失值和异常值的处理方式可以结合实际应用需求设定，可选的，可以通过预测模型(如线性回归模型)预测缺失值；可以删除重复值；可以删除异常值。

可选的，对清洗处理后的第三名单属性数据进行数据格式转换处理，是对清洗处理后的第三名单属性数据进行规范化和标准化处理，将不同类型的第三名单属性数据转换为统一格式，得到格式统一后的第三名单属性数据。可选的，对清洗处理后的第三名单属性数据转换后的格式可以结合实际应用需求设定。可选的，将JSON(JavaScript ObjectNotation，JS键值对数据)格式的数据都转换为XML(Extensible Markup Language，可扩展标记语言)格式的数据。

可选的，对格式统一后的第三名单属性数据进行数据扩展处理，是基于第三名单属性数据，产生与其相似的生成数据来扩展第三名单属性数据，得到扩展后的第三名单属性数据集，以此可以增加用于模型训练的第三名单属性数据的多样性，提高模型泛化能力。可选的，第三名单属性数据集可以包括第三名单属性数据的大小写变化数据、音译多样性数据等。可选的，对格式统一后的第三名单属性数据进行数据扩展处理的方式可以结合实际应用需求设定，可选的，可以通过SMOTE(Synthetic Minority Oversampling，合成少数类过采样)算法，或者ADASYN(Adaptive Synthetic Sampling，自适应合成采样)算法对格式统一后的第三名单属性数据进行数据扩展。

可选的，将扩展后的第三名单属性数据集中的第三名单属性数据和每个第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到每个筛查名单样本对应的第二名单匹配结果，是将处理后的至少一种第三名单属性数据和至少一种第二名单属性数据输入至预设大语言模型进行进行名单匹配处理，得到每个筛查名单样本对应的第二名单匹配结果。通过具有准确性和多样性的第三名单属性数据输入至预设大语言模型进行名单匹配处理，便于数据的特征信息的提取，提高名单匹配处理的效率和有效性，进而可以提高模型训练的准确性和效率。

S105：基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单。

在一个具体的实施例中，目标预警名单是存在风险或者违反规定的名单。可选的，目标预警名单可以是与预设预警名单相似度较高的待筛查名单，该目标预警名单可以包括多样性名单属性数据。

在一个具体的实施例中，确定目标预警名单之后，将目标预警名单转由人工处理或者进行拦截处理。

在一个可选的实施例中，上述基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单包括：

根据第一名单匹配结果，从至少一个待筛查名单中，确定至少一个初始预警名单；

获取至少一个初始预警名单对应的名单核验结果；

将名单核验结果指示核验通过的初始预警名单作为目标预警名单。

在一个具体的实施例中，初始预警名单是初步确定的存在风险或者违反规定的名单。可选的，为提高预警名单确定的准确性，进一步对初始预警名单进行核验。可选的，名单核验结果用于表征初始预警名单是否为目标预警名单，在名单核验结果指示核验通过的情况下，该初始预警名单为目标预警名单；在名单核验结果指示核验不通过的情况下，该初始预警名单不是目标预警名单。

在一个可选的实施例中，上述大语言模型采用下述方式测试：

从扩展后的第三名单属性数据集中，确定当前测试集和当前训练集；

基于当前训练集和多个预设预警名单对应的至少一种第二名单属性数据，对预设大语言模型进行名单匹配训练，得到大语言模型；

将当前测试集输入至大语言模型进行名单匹配处理，得到第四名单匹配结果；

重复从扩展后的第三名单属性数据集中，确定当前测试集和当前训练集至将当前测试集输入至大语言模型进行名单匹配处理，得到第四名单匹配结果的步骤，直至得到第一预设数量个第四名单匹配结果；

基于多个筛查名单样本对应的多个预设名单匹配结果、第一预设数量个第四名单匹配结果和预设阈值，确定大语言模型的测试结果；

在测试结果指示测试通过的情况下，将预设阈值作为目标阈值；

上述基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单包括：

根据第一名单匹配结果和目标阈值，从至少一个待筛查名单中，确定目标预警名单。

在一个具体的实施例中，当前测试集为当前用于模型测试的数据集，当前训练集为当前用于模型训练的数据集。

在一个具体的实施例中，从扩展后的第三名单属性数据集中，确定当前测试集和当前训练集可以包括：将扩展后的第三名单属性数据集分成第一预设数量个数据集，将其中一个数据集作为当前测试集，将剩余数据集作为当前训练集。

可选的，基于当前训练集和多个预设预警名单对应的至少一种第二名单属性数据，对预设大语言模型进行名单匹配训练，得到大语言模型，将当前测试集输入至大语言模型进行名单匹配处理，得到第四名单匹配结果；继续将第一预设数量个数据集中的其中一个数据集作为当前测试集，将剩余数据集作为当前训练集，并重复上述基于当前训练集和多个预设预警名单对应的至少一种第二名单属性数据，对预设大语言模型进行名单匹配训练，得到大语言模型，将当前测试集输入至大语言模型进行名单匹配处理，得到第四名单匹配结果，直至第一预设数量个数据集中的每个数据集都作为当前测试集输入至大语言模型进行名单匹配处理，得到第一预设数量个第四名单匹配结果。相应的，在第一预设数量个数据集中的每个数据集作为当前测试集的过程中，除了作为当前测试集的数据集的其余数据会作为当前训练集，那么会得到第一预设数量个大语言模型。

在一个可选的实施例中，上述基于多个筛查名单样本对应的多个预设名单匹配结果、第一预设数量个第四名单匹配结果和预设阈值，确定大语言模型的测试结果包括：

将每个预设名单匹配结果大于预设阈值对应的筛查名单样本作为实际预警名单；

将每个预设名单匹配结果小于预设阈值对应的筛查名单样本作为实际非预警名单；

将每个第四名单匹配结果大于预设阈值对应的筛查名单样本作为预测预警名单；

将每个第四名单匹配结果小于预设阈值对应的筛查名单样本作为预测非预警名单；

确定在实际预警名单中，预测预警名单的第一数量和预测非预警名单的第二数量；

确定在实际非预警名单中，预测预警名单的第三数量和预测非预警名单的第四数量；

基于第一数量、第二数量、第三数量和第四数量，确定大语言模型的测试结果。

在一个具体的实施例中，预设阈值为用于基于匹配程度筛查待筛查名单所设定的阈值。可选的，预设名单匹配结果大于预设阈值对应的筛查名单样本为实际预警名单，筛查名单样本与预设预警名单的实际匹配程度较高，也就是说筛查名单样本确实存在于预设预警名单中。可选的，预设名单匹配结果小于预设阈值对应的筛查名单样本为实际非预警名单，筛查名单样本与预设预警名单的实际匹配程度较低，也就是说筛查名单样本不在预设预警名单中。可选的，第四名单匹配结果大于预设阈值对应的筛查名单样本为预测预警名单，筛查名单样本与预设预警名单基于大语言模型的预测匹配程度较高，也就是说筛查名单样本可能存在于预设预警名单中。可选的，第四名单匹配结果小于预设阈值对应的筛查名单样本为预测预警名单，筛查名单样本与预设预警名单基于大语言模型的预测匹配程度较低，也就是说筛查名单样本可能不在预设预警名单中。

在一个具体的实施例中，基于第一数量、第二数量、第三数量和第四数量，确定大语言模型的测试结果可以包括：基于第一数量、第二数量、第三数量和第四数量可以确定大语言模型的精确率，基于大语言模型的精确率确定大语言模型的测试结果；或者基于第一数量、第二数量、第三数量和第四数量可以确定大语言模型的召回率，基于大语言模型的召回率确定大语言模型的测试结果。可选的，确定大语言模型的测试结果也就是进行大语言模型的性能测试。可选的，对大语言模型测试的方式可以结合实际应用需求进行设置，可选的，可以通过ROC(Receiver Operating Characteristic，接收者操作特征)曲线测试模型性能。上述精确率和召回率为确定大语言模型的测试结果的指标，可选的，确定大语言模型的测试结果的指标可以结合实际应用需求进行设定，可选的，还可以基于大语言模型的F1分数确定大语言模型的测试结果。

可选的，精确率是指在所有的预测预警名单中，实际预警名单所占的比例，可选的，精确率＝第一数量/(第一数量+第三数量)，精确率越高表征大语言模型预测为实际预警名单的准确性越高。可选的，在精确率大于精确率阈值的情况下，该精确率对应的大语言模型测试通过，该大语言模型可以应用至实际场景中。可选的，召回率是指在所有的实际预警名单中，预测预警名单所占的比例，可选的，召回率＝第一数量/(第一数量+第二数量)，召回率越高表征大语言模型对实际预警名单的预测能力越强。可选的，在召回率大于召回率阈值的情况下，该召回率对应的大语言模型测试通过，该大语言模型可以应用至实际场景中。可选的，F1分数是精确率和召回率的调和平均值，可选的，F1＝2*精确率*召回率/(精确率+召回率)，F1分数越高表征大语言模型的性能越好。可选的，在F1分数大于F1分数阈值的情况下，该F1分数对应的大语言模型测试通过，该大语言模型可以应用至实际场景中。

在一个具体的实施例中，基于大语言模型的精确率确定大语言模型的测试结果，基于测试结果可以对预设阈值进行调整；或者，基于大语言模型的召回率确定大语言模型的测试结果，基于测试结果可以对预设阈值进行调整，或者，基于大语言模型的F1分数确定大语言模型的测试结果，基于测试结果可以对预设阈值进行调整。

可选的，在不断训练和测试大语言模型的过程中，基于上述指标确定的大语言模型的测试结果，可以选出性能最优的模型，并且在选出性能最优的模型的过程中，对预设阈值进行调整，以选出最佳预设阈值和性能最优的大语言模型，进而基于该大语言模型对待筛查名单和预设预警名单进行名单匹配处理，即对待筛查名单进行预警名单筛查，提高预警名单筛查的准确性和效率，以及提高预警名单确定的准确性和效率。

在一个具体的实施例中，在测试结果指示测试通过的情况下，将预设阈值作为目标阈值。可选的，目标阈值为用于基于匹配程度筛查待筛查名单所设定的最佳阈值。上述基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单包括：

可选的，在第一名单匹配结果大于目标阈值的情况下，从至少一个待筛查名单中，将第一名单匹配结果对应的待筛查名单确定为目标预警名单。可选的，从至少一个待筛查名单中，将第一名单匹配结果大于目标阈值对应的待筛查名单确定为目标预警名单。

在一个具体的实施例中，图2是本申请实施例提供的另一种基于大语言模型的名单模糊筛查方法的流程示意图；如图2所示，该方法包括：

S201：获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据；

S203：将至少一种第一名单属性数据和至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；

S205：根据第一名单匹配结果和目标阈值，从至少一个待筛查名单中，确定至少一个初始预警名单；

S207：获取至少一个初始预警名单对应的名单核验结果；

S209：将名单核验结果指示核验通过的初始预警名单作为目标预警名单。

具体的，先获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据，第一名单属性数据和第二名单属性数据是多样性数据，并不是特定数据或者标准数据；进而将至少一种第一名单属性数据和至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度，基于大语言模型，可以在第一名单属性数据和第二名单属性数据为多样性数据而非特定的数据的情况下，对待筛查名单进行预警名单筛查，可以提高待筛查名单模糊筛查过程的准确性、有效性和效率，也为后续的名单核验工作减轻工作量；进而根据第一名单匹配结果和目标阈值，从至少一个待筛查名单中，确定至少一个初始预警名单，将第一名单匹配结果大于目标阈值的待筛查名单确定为初始预警名单；进而获取至少一个初始预警名单对应的名单核验结果；进而将名单核验结果指示核验通过的初始预警名单作为目标预警名单，该目标预警名单包括多样性名单属性数据，以此确定出与预设预警名单相似度较高的预警名单。在上述过程中通过对初始预警名单进行人工核验或通过其他核验方法对初始预警名单进行核验，并且基于名单核验结果确定目标预警名单，可以提高预警名单确定的有效性和准确性。

由以上本说明书实施例提供的技术方案可见，本说明书通过获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据，该第一名单属性数据和第二名单属性数据是多样性数据，并不是特定数据或者标准数据；进而将至少一种第一名单属性数据和至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，该第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度，基于大语言模型，可以在第一名单属性数据和第二名单属性数据为多样性数据的情况下，提高对待筛查名单筛查的有效性和效率；进而基于第一名单匹配结果，从至少一个待筛查名单中，确定目标预警名单，从而提高预警名单确定的精准性和效率。

本申请实施例还提供了一种基于大语言模型的名单模糊筛查装置，相应的，图3是本申请实施例提供的一种基于大语言模型的名单模糊筛查装置的结构示意图；如图3所示，上述装置包括：

数据获取模块310，用于获取至少一个待筛查名单各自对应的至少一种第一名单属性数据和至少一个预设预警名单各自对应的至少一种第二名单属性数据；

名单匹配处理模块320，用于将所述至少一种第一名单属性数据和所述至少一种第二名单属性数据输入至大语言模型进行名单匹配处理，得到第一名单匹配结果，所述第一名单匹配结果表征每一待筛查名单与每一预设预警名单间的匹配程度；所述大语言模型是基于训练数据对预设大语言模型进行名单匹配训练得到的，所述训练数据为多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据；

预警名单确定模块330，用于基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单。

在一个可选的实施例中，所述预警名单确定模块330包括：

初始预警名单确定单元，用于根据所述第一名单匹配结果，从所述至少一个待筛查名单中，确定至少一个初始预警名单；

名单核验结果获取单元，用于获取所述至少一个初始预警名单对应的名单核验结果；

预警名单确定单元，用于将所述名单核验结果指示核验通过的初始预警名单作为所述目标预警名单。

在一个可选的实施例中，所述数据获取模块310包括：

原始名单属性数据获取单元，用于获取所述每个待筛查名单对应的原始名单属性数据；

数据分类单元，用于对所述每个待筛查名单对应的原始名单属性数据进行分类，得到每个待筛查名单对应的至少一种第一名单属性数据。

在一个可选的实施例中，上述装置还包括模型训练模块，所述模型训练模块包括：

数据获取单元，用于获取所述多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据；

名单匹配处理单元，用于将所述每个筛查名单样本对应的至少一种第三名单属性数据和所述每个预设预警名单对应的至少一种第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果；

模型训练单元，用于基于所述每个筛查名单样本对应的预设名单匹配结果和所述每个筛查名单样本对应的第二名单匹配结果，对所述预设大语言模型进行训练，得到所述大语言模型。

在一个可选的实施例中，所述数据获取单元之后，所述模型训练模块还包括：

数据清洗单元，用于对所述每个第三名单属性数据进行数据清洗处理，得到清洗处理后的第三名单属性数据；

格式转换单元，用于对所述清洗处理后的第三名单属性数据进行数据格式转换处理，得到格式统一后的第三名单属性数据；

数据扩展单元，用于对所述格式统一后的第三名单属性数据进行数据扩展处理，得到扩展后的第三名单属性数据集；

所述名单匹配处理单元，具体用于将所述扩展后的第三名单属性数据集中的第三名单属性数据和所述每个第二名单属性数据输入至预设大语言模型进行名单匹配处理，得到所述每个筛查名单样本对应的第二名单匹配结果。

在一个可选的实施例中，上述装置还包括模型测试模块，所述模型测试模块，具体用于：

所述预警名单确定模块330，具体用于根据所述第一名单匹配结果和所述目标阈值，从所述至少一个待筛查名单中，确定所述目标预警名单。

在一个可选的实施例中，所述所述模型测试模块，还具体用于：

本申请实施例还提供了一种电子设备，该设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述所述的基于大语言模型的名单模糊筛查方法。

本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述所述的基于大语言模型的名单模糊筛查方法。

图4是本申请实施例提供的一种用于基于大语言模型的名单模糊筛查的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图4所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大语言模型的名单模糊筛查方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图5是本申请实施例提供的另一种用于基于大语言模型的名单模糊筛查的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图5所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大语言模型的名单模糊筛查方法。

本领域技术人员可以理解，图4或图5中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

可以理解的是，在本申请的具体实施方式中，涉及到用户相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于大语言模型的名单模糊筛查方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述基于所述第一名单匹配结果，从所述至少一个待筛查名单中，确定目标预警名单包括：

获取所述至少一个初始预警名单对应的名单核验结果；

3.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述获取至少一个待筛查名单各自对应的至少一种第一名单属性数据包括：

获取所述每个待筛查名单对应的原始名单属性数据；

4.根据权利要求1所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述大语言模型采用下述方式训练：

5.根据权利要求4所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述获取所述多个筛查名单样本对应的多个预设名单匹配结果、所述每个筛查名单样本对应的至少一种第三名单属性数据和所述多个预设预警名单对应的至少一种第二名单属性数据之后，所述方法还包括：

6.根据权利要求5所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述大语言模型采用下述方式测试：

7.根据权利要求6所述的基于大语言模型的名单模糊筛查方法，其特征在于，所述基于所述多个筛查名单样本对应的多个预设名单匹配结果、所述第一预设数量个第四名单匹配结果和预设阈值，确定所述大语言模型的测试结果包括：

8.一种基于大语言模型的名单模糊筛查装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一项所述的基于大语言模型的名单模糊筛查方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一项所述的基于大语言模型的名单模糊筛查方法。