CN112767107A

CN112767107A - 检测黑名单的方法、装置、设备、介质和程序产品

Info

Publication number: CN112767107A
Application number: CN202110051503.1A
Authority: CN
Inventors: 钟玉兴; 齐蓉; 张芳; 聂雪琴; 康怡倩
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2021-05-07

Abstract

本公开提供了一种检测黑名单的方法，可用于金融领域和信息安全领域。具体实现方案为：获取待处理信息；采用语义分析模型解析待处理信息，得到针对待处理信息的多个结构化数据；以及采用预设黑名单检索引擎，确定多个结构化数据中的黑名单数据。本公开还提供了一种检测黑名单的装置、设备、介质和程序产品。

Description

检测黑名单的方法、装置、设备、介质和程序产品

技术领域

本公开涉及信息处理技术领域，具体涉及金融领域和信息安全领域，更具体地涉及一种检测黑名单的方法、装置、设备、介质和程序产品。

背景技术

在金融业务办理过程中，金融机构需要对办理业务过程中所生成的业务信息进行黑名单检测，以对业务风险进行防控。

相关技术中，通常采用采购的专业黑名单检查系统和黑名单库对业务信息进行黑名单检测。采用相关技术中的方法往往会导致较多误命中的情况，尤其对于跨境办理的金融业务，涉及的业务对象众多，误命中概率会明显增大。误命中的业务信息通常需要人工确认，在金融业务的环节较多时，会带来较大的人工成本。

发明内容

鉴于上述问题，本公开提供了用于降低误命中概率的检测黑名单的方法、装置、设备、介质和程序产品。

根据本公开的第一个方面，提供了一种检查黑名单的方法，包括：获取待处理信息；采用语义分析模型解析待处理信息，得到针对待处理信息的多个结构化数据；以及采用预设黑名单检索引擎，确定多个结构化数据中的黑名单数据。

根据本公开的实施例，上述待处理信息包括多条信息；采用语义分析模型解析待处理信息包括：识别待处理信息，以确定待处理信息中具有预定标识的至少一条信息，作为待解析信息；以及采用语义分析模型解析待解析信息中的每条信息，得到表征每条信息的结构化数据。

根据本公开的实施例，上述检测黑名单的方法还包括在确定多个结构化数据中的黑名单数据之后：根据预设规则确定黑名单数据中的误中数据。

根据本公开的实施例，上述根据预设规则确定黑名单数据中的误中数据包括：确定黑名单数据中属于预设白名单的数据为误中数据。

根据本公开的实施例，待处理信息包括处理业务所生成的信息；上述根据预设规则确定黑名单数据中的误中数据包括：确定黑名单数据中满足预设误中规则的数据为误中数据，预设误中规则包括以下至少之一：黑名单数据与已确认误中的第一数据相同，第一数据与黑名单数据为处理同一业务所生成的数据；在黑名单数据指示业务对象，且黑名单数据指示的业务对象的类型与业务所针对的业务对象类型不一致；黑名单数据为预设信息的部分信息；黑名单数据中包括非结构化的数据；或者黑名单数据为预设类型的数据。

根据本公开的实施例，上述根据预设规则确定黑名单数据中的误中数据包括：采用预设机器学习模型，确定黑名单数据中每个黑名单数据属于误中数据的概率；以及根据每个黑名单数据属于误中数据的概率与预设阈值，确定每个黑名单数据是否属于误中信息。

根据本公开的实施例，确定针对每个黑名单数据是否属于误中信息包括：在每个黑名单数据属于误中数据的概率大于等于第一预设阈值的情况下，确定每个黑名单数据属于误中数据。

根据本公开的实施例，确定针对每个黑名单数据是否属于误中信息还包括：在每个黑名单数据属于误中数据的概率小于第一预设阈值，且大于等于第二预设阈值的情况下，确定每个黑名单数据属于可疑误中数据；在每个黑名单数据属于误中数据的概率小于第二预设阈值的情况下，确定每个黑名单数据属于命中数据。

根据本公开的实施例，上述预设机器学习模型包括不同类型的至少两个模型，确定黑名单数据中每个黑名单数据属于误中数据的概率包括：根据每个黑名单数据，确定至少两个模型中每个模型的输入数据；以输入数据输入每个模型，输出针对每个黑名单数据的输出信息，以得到针对每个黑名单数据的至少两个输出信息；以及根据针对每个黑名单数据的至少两个输出信息，确定每个黑名单数据属于误中数据的概率。

本公开的第二方面提供了一种检测黑名单的装置，包括：信息获取模块，用于获取待处理信息；信息解析模块，用于采用语义分析模型解析待处理信息，得到针对待处理信息的多个结构化数据；以及黑名单确定模块，用于采用预设黑名单检索引擎，确定多个结构化数据中的黑名单数据。

本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述的检测黑名单的方法。

本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述的检测黑名单的方法。

本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的检测黑名单的方法。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的检测黑名单的方法、装置、设备、介质和程序产品的应用场景图；

图2示意性示出了根据本公开实施例的检测黑名单的方法的流程图；

图3示意性示出了根据本公开实施例的采用语义分析模型解析待处理信息的流程图；

图4示意性示出了根据本公开另一实施例的检测黑名单的方法的流程图；

图5示意性示出了根据本公开实施例的根据预设规则确定黑名单数据中的误中数据的原理示意图；

图6示意性示出了根据本公开实施例的根据预设规则确定黑名单数据中的误中数据的流程图；

图7示意性示出了根据本公开实施例的用于执行检测黑名单的方法的黑名单筛查装置的结构框图；

图8示意性示出了根据本公开实施例的检测黑名单的装置的结构框图；以及

图9示意性示出了根据本公开实施例的适于实现检测黑名单的方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种检测黑名单的方法，该方法先获取待处理信息。随后采用语义分析模型解析待处理信息，得到针对待处理信息的多个结构化数据。最后采用预设黑名单检索引擎，确定多个结构化数据中的黑名单数据。

图1示意性示出了根据本公开实施例的检测黑名单的方法、装置、设备、介质和程序产品的应用场景图。

如图1所示，该应用场景100中可以包括第一终端110和第二终端120。该第一终端110与第二终端120之间例如可以通过网络通信连接。网络例如可以包括有线或无线通信链路。

在一实施例中，第一终端110例如可以为金融机构中用于处理金融业务的各种电子设备。该第一终端110在处理业务过程中，例如可以生成业务报文。该业务报文例如可以包括汇款报文等，在跨境交易业务中，该业务报文例如可以为SWIFT(Society forWorldwide Interbank Financial Telecommunications，环球同业银行金融电讯协会)报文。例如，该第一终端110可以为白助业务办理终端(例如ATM机)、柜台设置的终端设备等。

在一实施例中，第二终端120例如可以为对第一终端110生成的业务报文进行检查的终端设备，以在根据业务报文完成金融业务之前，保证业务报文的合法性和准确性。例如，第二终端120可以对业务报文进行黑名单检测。该第二终端例如可以为具有处理功能的各种电子设备，包括但不限于服务器、台式计算机、膝上型便携计算机、平板电脑或智能手机等等。

在一实施例中，该应用场景100中的第二终端120例如可以经由网络与设置有黑名单检测引擎的电子设备130连接，该第二终端120例如可以用于对业务报文进行识别、解析等处理，得到作为黑名单检测引擎的输入的结构化数据。该第二终端120可以经由网络调用电子设备130中设置的黑名单检测引擎，以此通过运行黑名单检测引擎实现对业务报文的黑名单检测。例如，电子设备130例如可以提供有供其他电子设备调用黑名单检测引擎的接口，第二终端120可以通过该接口调用黑名单检测引擎。

在一实施例中，第二终端120例如可以设置有显示屏，以提供人机交互界面。该应用场景100例如还可以包括有业务人员140，用于经由人机交互界面输入供第二终端120进行黑名单检查的信息。其中，业务人员140输入的信息例如可以为直接用于检查的信息，或者也可以为上传的文本文件等。在业务人员140上传文本文件的情况下，该第二终端120例如还可以采用文本识别技术(例如OCR技术)对文本文件中的文本进行识别，得到需要进行黑名单检测的信息。

在一实施例中，该第二终端120例如可以具有图像采集功能，如此可以对业务人员140提供的纸质文件等进行图像采集，并通过对采集的图像进行识别得到需要进行黑名单检测的信息。

在一实施例中，如图1所示，该应用场景100还可以包括服务器150，服务器150可以为金融机构数据中心的服务器。该服务器150例如可以为向第一终端110的运行提供支持的服务器，该服务器150中存储有全量业务报文。示例性地，第二终端120可以通过网络与服务器150连接，第二终端120可以从服务器150中获取业务报文，以对获取的业务报文进行识别、解析等处理。

需要说明的是，本公开提供的检测黑名单的方法例如可以由第二终端120执行。相应地，本公开提供的检测黑名单的装置可以设置在第二终端120中。

可以理解的是，图1描述的第一终端110、第二终端120、电子设备130和服务器150的个数和类型仅作为示例以利于理解本公开。根据实际需求，可以具有任意个数和类型的第一终端110、第二终端120、电子设备130和服务器150。

以下将基于图1描述的场景，通过图2～图6对公开实施例的检测黑名单的方法进行详细描述。

图2示意性示出了根据本公开实施例的检测黑名单的方法的流程图。

如图2所示，该实施例的检测黑名单的方法200可以包括操作S210～操作S230。

在操作S210，获取待处理信息。

根据本公开的实施例，待处理信息例如可以为前文描述的业务报文等需要进行黑名单检测的信息。例如，该待处理信息可以为根据展业三原则及国家反洗钱的合规管理要求，金融机构办理业务所生成的相关信息。

示例性地，待处理信息可以为包括申请人、受益人、开证行、通知行、承兑行、交单行、议付行等任意一类对象相关信息的报文信息。或者，待处理信息也可以为货物的运输信息、资金的回路信息、SWIFT报文等。例如，待处理信息可以为业务交易环节中任意环节生成的报文。

根据本公开的实施例中，例如可以由业务人员手工录入需要进行检查的要素信息，则该操作S210中获取的待处理信息可以为录入的要素信息。或者，可以由业务人员上传业务附件，由前文描述的第二终端通过OCR自动识别技术，识别业务附件，从而得到待处理信息。该待处理信息例如可以为结构化数据或非结构化数据。或者，可以通过调用金融机构业务系统提供的API接口获取金融机构业务系统中存储的业务处理信息，以此作为待处理信息。其中，待处理信息例如可以为结构化数据、非结构化数据或半结构化数据。

在操作S220，采用语义分析模型解析待处理信息，得到针对待处理信息的多个结构化数据。

根据本公开的实施例，语义分析模型例如可以为自然语言处理(NaturalLanguage Processing，NPL)模型。该模型例如可以用于对待处理信息进行语义分析，提取待处理信息中多个词之间的依存关系，并根据提取的依存关系得到结构化数据。例如，对于汇款报文，其中的付款方和付款方名称之间具有依存关系，该实施例将该付款方与付款方名称以键值对的形式构成一个结构化数据。

示例性地，自然语言处理模型例如可以预先定义有结构化数据架构和架构中数据的类型，该实施例可以对待处理信息进行解析识别，得到属于架构中数据的类型的数据，并将该数据填入预先定义的结构化数据架构中，得到结构化数据。其中，数据类型例如可以根据实际需求进行设定，例如数据类型可以包括日期、单据、描述信息等。

在操作S230，采用预设黑名单检索引擎，确定多个结构化数据中的黑名单数据。

根据本公开的实施例，例如可以调用黑名单检索引擎调用接口来确定黑名单数据。具体的，以操作S220中得到的多个结构化数据作为调用接口的输入，并将调用接口反馈的数据作为黑名单数据。

其中，黑名单检索引擎例如可以维护有黑名单库，黑名单检索引擎在接收到结构化数据后，可以将结构化数据与黑名单库中各黑名单进行比对，若某个结构化数据属于黑名单库，则确定该结构化数据为黑名单数据。可以理解的是，以上黑名单检索引擎确定黑名单数据的方法仅作为示例以利于理解本公开，本公开对此不作限定。

根据本公开的实施例，在待处理信息为较长段的文本信息时，若直接对待处理信息进行黑名单检索，则容易误命中。例如，对于待处理信息“we further undertake that，on the maturity data…”，在黑名单库中包括黑名单数据“that，on”的情况下，若直接对待处理信息进行黑名单检索，则容易将待处理信息中的数据“that，on”作为黑名单数据输出。而本公开实施例通过对待处理信息进行解析，并对针对待处理信息的结构化数据进行黑名单检测，可以避免将“take，on”列为一个黑名单数据的情况，并因此可以在一定程度上提高确定的黑名单数据的准确性。因此，本公开提供的检测黑名单的方法通过对待处理信息进行解析得到结构化数据，可以实现待处理信息的精细化送检，并因此可以有效降低黑名单的误中率。

图3示意性示出了根据本公开实施例的采用语义分析模型解析待处理信息的流程图。

根据本公开的实施例，在采用语义分析模型解析待处理信息时，例如可以仅对待处理信息中误命中情况占比较高的信息进行解析，并得到针对该误命中情况占比较高的信息的结构化数据，以对该结构化数据进行黑名单检索。通过该方式，可以在一定程度上提高黑名单检索的针对性，提高黑名单检索的效率。

如图3所示，该实施例中，采用语义分析模型解析待处理信息的操作可以包括操作S321～操作S322。

在操作S321，识别待处理信息，以确定待处理信息中具有预定标识的至少一条信息，作为待解析信息。

根据本公开的实施例，该实施例得到的待处理信息例如可以包括多条数据，该多条数据可以为待处理信息中位于不同位置的数据，该多条数据的个数和各数据的位置可以根据报文格式来确定。本公开实施例在获取到业务报文后，例如可以对业务报文中预设定的关键信息的位置处的数据添加预定标识。可以理解的是，关键信息例如可以根据实际需求进行设定，或者，也可以根据历史确定的误中数据来确定关键信息，以将历史中误中概率高的数据设定为关键信息。

示例性地，对于跟单信用证的签发报文，包括的多条数据例如可以分别包括：“总页数”、“跟单信用证的形式”、“跟单信用证号”、“提前通知参考号”、“签发日期”、“到期日及地点”、“申请行”、“申请人”、“受益行”、“货币代码”、“出票条件”、“受票人”、…、“货物及服务描述”、“所需单据”、“附加条件”、“费用”、“提示期限”、…、“通知经由行”、“附言”等多条数据，若“数据货物及服务描述”、“所需单据”和“附加条件”为预设定的关键信息，则在该签发报文中“数据货物及服务描述”、“所需单据”和“附加条件”的位置处添加预定标识。例如，若签发报文的格式中，“数据货物及服务描述”位于第10个字节处，则向签发报文的第10个字节的数据添加预定标识。该预定标识可以根据实际需求进行设定，本公开对此不作限定。

根据本公开的实施例，获取的待处理信息例如也可以已经添加有预定标识，该预定标识由生成待处理信息的设备采用如上所示的类似方法来添加，在此不再赘述。

该实施例可以先对待处理信息进行预定标识识别，从待处理信息中截取具有预定标识的字符串作为待解析信息。

在操作S322，采用语义分析模型解析待解析信息中的每条信息，得到表征每条信息的结构化数据。

在得到待解析数据后，即可采用前文描述的NPL模型对待解析数据中的每条数据进行解析，以此得到每条信息的结构化数据。

综上分析，本公开实施例在解析得到结构化数据之前，先对待处理信息进行截取，仅对具有标识的关键信息进行解析及结构化数据提取，从而可以提高黑名单检测效率，同时保证对误中率高的信息的精细化处理。

图4示意性示出了根据本公开另一实施例的检测黑名单的方法的流程图。

如图4所示，该实施例的检测黑名单的方法除了前文描述的操作S210～操作S230外，还可以包括操作S440，根据预设规则确定黑名单数据中的误中数据。通过该操作，该实施例可以从黑名单数据中挑选出误中数据，从而仅向业务人员提供除误中数据外的其他黑名单数据进行人工审核。相较于相关技术中需要业务人员对所有黑名单数据进行审核的技术方案，可以有效降低人工审核成本，提高审核效率。

根据本公开的实施例，可以根据历史误中数据维护有白名单数据库，该白名单数据库中具有多个预设白名单。该实施例在确定黑名单数据后，可以将黑名单数据逐条地与预设的白名单进行匹配，若确定的黑名单数据中存在属于预设白名单的数据，则确定该数据为误中数据。可以理解的是，白名单数据库中的白名单可以灵活设置，本公开对此不作限定。

根据本公开的实施例，待处理信息例如可以为处理业务所生成的信息。该实施例可以确定黑名单数据中满足预设误中规则的数据为误中数据。

示例性地，该预设误中规则可以为在黑名单数据为重复误中的数据时，确定该黑名单数据为误中数据。其中，重复误中例如可以指在同一笔业务下的重复误中，也可以指整个业务系统生成的业务报文中信息的重复误中。在一实施例中，若黑名单数据与已确认误中的第一数据相同，则确定黑名单数据为误中数据。其中，第一数据与黑名单数据为处理同一业务所生成的数据。例如，处理某业务先后生成了两个报文，该两个报文均包括某个数据，在对先生成的一个报文进行黑名单检测中，若确定该一个报文中该某个数据为误中数据时，则在对后生成的另一个报文进行黑名单检测确定该某个数据为黑名单数据时，可以确定该另一个报文中该某个数据也为误中数据。

示例性地，该预设误中规则可以为在黑名单数据指示的业务对象的类型与实际交易中业务对象的类型不一致。实际交易即为处理的业务。黑名单数据指示的业务对象例如可以包括国家名、货物名、公司名或个人姓名等。例如，在实际交易为公司之间的交易时，若黑名单数据指示的业务对象为个人，则确定指示的业务对象的类型与实际交易中业务对象的类型的数据为误中数据。

示例性地，该预设误中规则可以为同名误中规则。若黑名单数据指示的业务对象与实际属于黑名单的目标业务对象虽然相同，但该黑名单数据指示的业务对象与目标业务对象归属于不同类别时，则确定黑名单数据为误中数据。例如，不同的城市或港口在不同的国家可能会设定有相同的名称，例如，A国与B国均有城市名为a的城市，且A国的a城市为黑名单，则在通过前文操作确定B国的a城市为黑名单数据时，可以确定该黑名单数据为误中数据。对于该预设误中规则，在经由黑名单检索引擎得到黑名单数据后，若黑名单数据指示业务对象，则还可以通过对业务报文进行解析得到该业务对象归属的类别。随后确定该归属的类别是否与目标业务对象归属的类别相一致。若一致，则确定该黑名单数据为误中数据。

示例性地，该预设误中规则可以为黑名单数据为预设信息的部分信息。其中，预设信息例如可以为公司名、国家名等任意的信息。例如，若预设信息为“YOKOHAMA”，则在黑名单数据为“HAMA”的情况下，确定为预设信息的部分信息的黑名单数据是误中信息。

示例性地，该预设误中规则可以为黑名单数据中包括非结构化的数据。例如，对于报文内容“We further undertake that，on the maturity data…”，若确定的黑名单数据包括“take，on”(在黑名单中“take，on”指示禁运物资)，则确定该非结构化的数据为误中数据。通过此种预设误中规则的设定，可以在前文中提取结构化数据所采用的方法精准度较低时，对该较低精准度进行弥补。

示例性地，该预设误中规则可以包括：黑名单数据为预设类型的数据。例如，若黑名单类型为指示人名、数字、船名的数据时，则可以确定黑名单数据中该预设类型的数据为误中数据。

根据本公开的实施例，本公开可以预先训练有机器学习模型，该机器学习模型的训练过程中，可以先将存量黑名单数据和确认是否为误中数据的结果信息提取出来，将黑名单数据与对应的结果信息作为一个样本数据，以此得到大量的样本数据。随后，对每个样本数据进行处理和修正，该处理和修正过程例如可以包括数据增强处理等。例如，可以对样本数据进行数据清洗，并将结果信息作为黑名单数据的标签。然后选择业界的自然语言处理和机器学习的已有模型作为初始模型，采用样本数据对初始模型进行训练。具体以样本数据作为初始模型的输入，根据初始模型的输入与样本数据中标签的差异，采用梯度下降算法等对初始模型中的参数进行优化，得到优化后模型，作为预设机器学习模型。

相应地，该实施例中，根据预设规则确定黑名单数据中的误中数据时，可以先采用预设机器学习模型确定黑名单数据中每个黑名单数据属于误中数据的概率。然后根据每个黑名单数据属于误中数据的概率与预设阈值，确定每个黑名单数据是否属于误中信息。其中，预设阈值例如可以根据实际需求进行设定，例如可以为0.9、0.8等大于0.5的值，本公开对此不作限定。

示例性地，预设机器学习模型例如可以为FastText模型、TextCNN(利用卷积神经网络对文本进行分类的算法)模型、ULMFit模型(基于微调的通用语言模型)或双向转换编码器(Bidirectional Encoder Representations from Transformers，BERT)。其中，FastText模型为Facebook开发的一款快速文本分类器。其中，在采用预设机器学习模型确定概率时，例如可以先将结构化数据转换为预设机器学习模型的输入信息，例如词序列等。随后将输入信息输入预设机器学习模型，由预设机器学习模型输出黑名单数据属于误中数据的概率。其中，预设机器学习模型的输出例如可以为黑名单数据属于误中数据的概率，或者也可以为黑名单数据属于预设类别中每个类别的概率。其中，预设类别包括误中数据类别。

示例性地，可以在每个黑名单数据属于误中数据的概率大于等于第一预设阈值的情况下，确定每个黑名单数据属于误中数据。其中，第一预设阈值可以为前文描述的预设阈值。

通过采用机器学习模型来确定黑名单数据属于误中数据的概率，并为该概率设置阈值，可以实现对黑名单数据字符和黑名单数据的语义信息的综合考虑，并因此可以提高确定的误中数据的准确性。

综上分析，本公开实施例通过从黑名单数据中筛选到误中数据，可以有效减少需要业务人员审核的黑名单数据的量，并因此可以降低人工审核成本，提高黑名单检测效率。

根据本公开的实施例，例如还可以为属于误中数据的概率设置小于第一预设阈值的第二预设阈值，并根据第二预设阈值来从黑名单数据中筛选出事实上属于黑名单数据的命中数据。最后将黑名单数据中除命中数据和误中数据外的其他数据作为可疑误中数据，由业务人员人工审核。以此进一步地减少需要业务人员审核的黑名单数据的量，进一步降低人工审核成本，提高黑名单检测效率。

相应地，确定针对每个黑名单数据是否属于误中信息的操作除了包括在每个黑名单数据属于误中数据的概率大于等于第一预设阈值的情况下，确定每个黑名单数据属于误中数据外，还包括在每个黑名单数据属于误中数据的概率小于第一预设阈值，且大于等于第二预设阈值的情况下，确定每个黑名单数据属于可疑误中数据，在每个黑名单数据属于误中数据的概率小于第二预设阈值的情况下，确定每个黑名单数据属于命中数据。

示例性地，可以对前文通过采用预设黑名单检索引擎确定的黑名单数据中的每个黑名单数据作为预设机器学习模型的输入，输出得到针对该每个黑名单数据的概率向量。该概率向量表示每个黑名单数据属于预设类别中每个类别的概率。其中，预设类别例如可以包括误中数据类别、命中数据类别和可疑误中数据类别。该概率向量例如可以为归一化向量，即概率向量中各个值的和为1。如此，在得到针对每个黑名单数据的概率向量后，可以先确定指示每个黑名单数据属于误中数据的概率。然后将该概率与第一预设阈值和第二预设阈值进行比较，以此确定该每个黑名单数据属于误中数据、命中数据和可疑误中数据中的一种。可以理解的是，第二预设阈值可以根据实际需求进行设定，例如，第二预设阈值的取值可以为小于等于0.7且大于等于0.3的任意值，本公开对此不做限定，只要保证该第二预设阈值小于第一预设阈值即可。

图5示意性示出了根据本公开实施例的根据预设规则确定黑名单数据中的误中数据的原理示意图。

根据本公开的实施例，预设机器学习模型例如可以包括不同类型的至少两个模型。该实施例可以根据该至少两个模型的输出来确定每个黑名单数据是否属于误中数据。通过选用不同类型的模型，可以使得不同模型对黑名单数据的特征提取侧重于不同的方面，从而使得最终确定的结果能够综合考虑黑名单数据的多个方面的特征，并因此提高确定的误中数据的准确性。

示例性地，如图5所示的实施例500，对于采用前文描述的预设黑名单检索引擎确定的黑名单数据中的每个黑名单数据510，可以先根据该每个黑名单数据510确定至少两个模型中每个模型的输入数据。例如，在至少两个模型包括第一机器学习模型531、第二机器学习模型532和第三机器学习模型533时，可以先将该每个黑名单数据510分别转换为第一机器学习模型531的第一输入数据521、第二机器学习模型532的第二输入数据522和第三机器学习模型533的第三输入数据523。在得到输入数据后，以输入数据输入每个模型，经由每个模型输出针对每个黑名单数据510的输出信息，得到至少两个输出信息。例如，将第一输入数据521、第二输入数据522、第三输入数据523分别输入第一机器学习模型531、第二机器学习模型532和第三机器学习模型533，得到由第一机器学习模型531输出的第一输出信息541，由第二机器学习模型532输出的第二输出信息542和由第三机器学习模型533输出的第三输出信息543。最后，根据针对每个黑名单数据的至少两个输出信息，确定每个黑名单数据510属于误中数据的概率。例如，根据第一输出信息541、第二输出信息542和第三输出信息543确定黑名单数据510是否为误中数据。

示例性地，可以先确定至少两个输出信息中指示黑名单数据510属于误中数据的概率的值，得到至少两个概率值。最后，将该至少两个概率值的平均值作为黑名单数据510属于误中数据的概率550。

示例性地，还可以将至少两个模型的输出作为融合层的输入，由融合层输出每个黑名单数据510属于误中数据的概率。其中，融合层与该至少两个模型同时进行训练。该融合层用于融合从至少两个模型提取到的特征数据，并根据该特征数据对黑名单数据进行分类。最终确定融合层输出的指示黑名单数据510属于误中数据的概率作为最终确定的概率。

示例性地，将黑名单数据转换为至少两个模型中各模型的输入数据的方法与相关技术中的方法类似，例如可以通过将黑名单数据转换为词向量、或转换为词序列的方法得到模型的输入数据，在此不再详述。

图6示意性示出了根据本公开实施例的根据预设规则确定黑名单数据中的误中数据的流程图。

根据本公开的实施例，如图6所示，该实施例600中根据预设规则确定黑名单数据中的误中数据的操作例如可以包括针对每个黑名单数据执行的以下流程。

在操作S641，判断黑名单数据是否属于预设白名单。若是，则执行操作S642，否则执行操作S643。其中，预设白名单与前文描述的预设白名单类似，在此不再赘述。

在操作S642，确定黑名单数据属于误中数据。

在操作S643，判断黑名单数据是否满足预设误中规则。若满足，则执行操作S642，否则执行操作S644。其中，预设误中规则与前文描述的预设误中规则类似，在此不再赘述。

在操作S644，采用预设机器学习模型，确定黑名单数据属于误中数据的概率。预设机器学习模型与前文描述的类似，在此不再赘述。

在操作S645，判断属于误中数据的概率是否小于第一预设阈值。若小于，则执行操作S646，否则执行操作S642。

在操作S646，判断属于误中数据的概率是否小于第二预设阈值。若小于，则执行操作S647，否则执行操作S648。

在操作S647，确定黑名单数据属于命中数据。

在操作S648，确定黑名单数据属于可疑误中数据。

该实施例通过采用白名单、预设误中规则和机器学习模型相结合的方式来确定黑名单数据是否为误中数据，可以有效避免误中数据的遗漏，并因此提高确定的误中数据的准确性。同时通过从黑名单数据中筛选出命中数据，可以仅向业务人员提供给可疑误中数据进行人工审核，可以有效减少人工审核的数据量，提高黑名单检测成本和效率。

基于以上检测黑名单的方法，本公开还提供了一种适于执行检测黑名单的方法的黑名单筛查装置。以下将结合图7对该黑名单筛查装置进行详细描述。

图7示意性示出了根据本公开实施例的适于执行检测黑名单的方法的黑名单筛查装置的结构框图。

如图7所示，该黑名单筛查装置700可以包括送检信息采集模块710、送检信息分析模块720、数据传输模块730、检测结果审核模块740、审核结果输出模块750、审核结果确认模块760和数据存储模块770。

如图7所示，送检信息采集模块710例如可以包括界面录入采集单元711、影像图片上传采集单元712和API接口采集单元713。界面录入采集单元711用于向业务人员提供交互界面，由业务人员录入需要进行检查的关键信息，在本装置700中，界面录入可以通过录入样式进行自定义输入域的配置。影像图片上传采集单元712用于采用OCR自动识别技术对业务人员上传的业务附件进行字符识别，完成待处理信息的提取采集。API接口采集单元713用于与金融机构的业务系统连接，以直接获取金融机构的业务系统所生成的业务经办信息，作为待处理信息。

送检信息分析模块720主要用于对送检信息采集模块710采集到的数据进行进一步分析。如图7所示，送检信息分析模块720可以包括语义分析单元721和第一模型同步单元722。语义分析单元721用于采用语义分析模型对送检信息(即待处理信息)中的文本输入域的内容进行语义解析和结构化处理后，得到结构化数据。该结构化数据经由数据传输模块730发送至预设黑名单检索引擎进行黑名单检测。第一模型同步单元722用于对语义分析单元721所使用的语义分析模型进行实时同步更新。

数据传输模块730负责本黑名单筛查装置700中各模块之间的数据传输。如图7所示，数据传输模块730包括信息送检单元731、检测结果接收单元732和数据更新单元733。其中，信息送检单元731用于向预设黑名单检索引擎发送结构化数据。检测结果接收单元732用于接收预设黑名单检索引擎反馈的黑名单数据，并存储至黑名单筛查装置700本地(例如存储至数据存储模块770)。数据更新单元733用于更新对数据的审核状态。

检测结果审核模块740用于对预设黑名单检索引擎反馈的黑名单数据进行审核，确定黑名单数据是否属于误中数据，并将确定的误中数据的黑名单信息清单置为误中状态。同时，根据预设定的审核结果是否需要人工确认来确定是否需要经审核结果确认模块760输出误中数据。若预设定的审核结果为需要人工确认，则经由数据传输模块730将黑名单数据发送给审核结果确认模块760，供业务人员审核。或者，也可以将审核结果发送给审核结果输出模块750，以展示给业务人员。如图7所示，该检测结果审核模块740包括审核单元741和第二模型同步单元742。审核单元741用于采用如前文描述的操作S440对黑名单数据进行审核，确定黑名单数据是否为误中数据。第二模型同步单元742用于对审核单元741所使用的预设机器学习模型进行实时同步更新。

审核结果输出模块750用于展示检测结果审核模块740的审核结果，包括是否属于误中数据、及属于命中数据的黑名单数据的详细信息等。

审核结果确认模块760用于展示人机交互界面，该界面例如可以展示有待人工审核的黑名单数据，及供业务人员选择的审核结果是否通过的控件。

数据存储模块770用于存储本黑名单筛查装置700处理数据的过程中所涉及的数据，例如影像图片、结构化数据、审核结果和模型数据等。

基于以上检测黑名单的方法，本公开还提供了一种检测黑名单的装置。以下将结合图8对该检测黑名单的装置进行详细描述。

图8示意性示出了根据本公开实施例的检测黑名单的装置的结构框图。

如图8所示，该实施例的检测黑名单的装置800例如可以包括信息获取模块810、信息解析模块820和黑名单确定模块830。

信息获取模块810用于获取待处理信息。在一实施例中，信息获取模块810例如可以用于执行前文描述的操作S210，在此不再赘述。

信息解析模块820用于采用语义分析模型解析待处理信息，得到针对待处理信息的多个结构化数据。在一实施例中，信息解析模块820例如可以用于执行前文描述的操作S220，在此不再赘述。

黑名单确定模块830用于采用预设黑名单检索引擎，确定多个结构化数据中的黑名单数据。在一实施例中，黑名单确定模块830例如可以用于执行前文描述的操作S230，在此不再赘述。

根据本公开的实施例，待处理信息包括多条信息。上述信息获取模块810例如可以包括信息识别子模块和信息解析子模块。其中，信息识别子模块用于识别待处理信息，以确定待处理信息中具有预定标识的至少一条信息，作为待解析信息。信息解析子模块用于采用语义分析模型解析待解析信息中的每条信息，得到表征每条信息的结构化数据。在一实施例中，信息识别子模块和信息解析子模块例如可以分别用于执行前文描述的操作S321～操作S322，在此不再赘述。

根据本公开的实施例，上述检测黑名单的装置800例如还可以包括误中数据确定模块，用于根据预设规则确定黑名单数据中的误中数据。

根据本公开的实施例，误中数据确定模块具体例如用于确定黑名单数据中属于预设白名单的数据为误中数据。

根据本公开的实施例，待处理信息包括处理业务所生成的信息。上述误中数据确定模块具体例如用于确定黑名单数据中满足预设误中规则的数据为误中数据。其中，预设误中规则包括以下至少之一：黑名单数据与已确认误中的第一数据相同，第一数据与黑名单数据为处理同一业务所生成的数据；在黑名单数据指示业务对象，且黑名单数据指示的业务对象的类型与业务所针对的业务对象类型不一致；黑名单数据为预设信息的部分信息；黑名单数据中包括非结构化的数据；或者黑名单数据为预设类型的数据。

根据本公开的实施例，上述误中数据确定模块例如可以包括概率确定子模块和误中信息确定子模块。概率确定子模块用于采用预设机器学习模型，确定黑名单数据中每个黑名单数据属于误中数据的概率。误中信息确定子模块用于根据每个黑名单数据属于误中数据的概率与预设阈值，确定每个黑名单数据是否属于误中信息。

根据本公开的实施例，上述误中信息确定子模块具体例如可以用于在每个黑名单数据属于误中数据的概率大于等于第一预设阈值的情况下，确定每个黑名单数据属于误中数据。

根据本公开的实施例，上述误中信息确定子模块例如还可以用于在每个黑名单数据属于误中数据的概率小于第一预设阈值，且大于等于第二预设阈值的情况下，确定每个黑名单数据属于可疑误中数据；以及在每个黑名单数据属于误中数据的概率小于第二预设阈值的情况下，确定每个黑名单数据属于命中数据。

根据本公开的实施例，预设机器学习模型包括不同类型的至少两个模型，上述概率确定子模块例如可以包括输入数据确定单元、模型处理单元和概率确定单元。输入数据确定单元用于根据每个黑名单数据，确定至少两个模型中每个模型的输入数据。模型处理单元用于以输入数据输入每个模型，输出针对每个黑名单数据的输出信息，以得到针对每个黑名单数据的至少两个输出信息。概率确定单元用于根据针对每个黑名单数据的至少两个输出信息，确定每个黑名单数据属于误中数据的概率。

根据本公开的实施例，信息获取模块810、信息解析模块820和黑名单确定模块830中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，信息获取模块810、信息解析模块820和黑名单确定模块830中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，信息获取模块810、信息解析模块820和黑名单确定模块830中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图9所示，根据本公开实施例的电子设备900包括处理器901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 903中，存储有电子设备900操作所需的各种程序和数据。处理器901、ROM902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备900还可以包括输入/输出(I/O)接口905，输入/输出(I/O)接口905也连接至总线904。电子设备900还可以包括连接至I/O接口905的以下部件中的一项或多项：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的物品推荐方法。

在该计算机程序被处理器901执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分909被下载和安装，和/或从可拆卸介质911被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种检测黑名单的方法，包括：

获取待处理信息；

采用语义分析模型解析所述待处理信息，得到针对所述待处理信息的多个结构化数据；以及

采用预设黑名单检索引擎，确定所述多个结构化数据中的黑名单数据。

2.根据权利要求1所述的方法，其中，所述待处理信息包括多条信息；采用语义分析模型解析所述待处理信息包括：

识别所述待处理信息，以确定所述待处理信息中具有预定标识的至少一条信息，作为待解析信息；以及

采用所述语义分析模型解析所述待解析信息中的每条信息，得到表征所述每条信息的结构化数据。

3.根据权利要求1所述的方法，还包括在确定所述多个结构化数据中的黑名单数据之后：

根据预设规则确定所述黑名单数据中的误中数据。

4.根据权利要求1所述的方法，其中，所述根据预设规则确定所述黑名单数据中的误中数据包括：

确定所述黑名单数据中属于预设白名单的数据为误中数据。

5.根据权利要求1或4所述的方法，其中，所述待处理信息包括处理业务所生成的信息；所述根据预设规则确定所述黑名单数据中的误中数据包括：确定所述黑名单数据中满足预设误中规则的数据为误中数据，所述预设误中规则包括以下至少之一：

所述黑名单数据与已确认误中的第一数据相同，所述第一数据与所述黑名单数据为处理同一业务所生成的数据；

在所述黑名单数据指示业务对象，且所述黑名单数据指示的业务对象的类型与所述业务所针对的业务对象类型不一致；

所述黑名单数据为预设信息的部分信息；

所述黑名单数据中包括非结构化的数据；或者

所述黑名单数据为预设类型的数据。

6.根据权利要求1、4、5中任一项所述的方法，其中，所述根据预设规则确定所述黑名单数据中的误中数据包括：

采用预设机器学习模型，确定所述黑名单数据中每个黑名单数据属于误中数据的概率；以及

根据所述每个黑名单数据属于误中数据的概率与预设阈值，确定所述每个黑名单数据是否属于误中信息。

7.根据权利要求6所述的方法，其中，确定针对所述每个黑名单数据是否属于误中信息包括：

在所述每个黑名单数据属于误中数据的概率大于等于第一预设阈值的情况下，确定所述每个黑名单数据属于误中数据。

8.根据权利要求7所述的方法，其中，确定针对所述每个黑名单数据是否属于误中信息还包括：

在所述每个黑名单数据属于误中数据的概率小于所述第一预设阈值，且大于等于第二预设阈值的情况下，确定所述每个黑名单数据属于可疑误中数据；

在所述每个黑名单数据属于误中数据的概率小于所述第二预设阈值的情况下，确定所述每个黑名单数据属于命中数据。

9.根据权利要求6所述的方法，其中，所述预设机器学习模型包括不同类型的至少两个模型，确定所述黑名单数据中每个黑名单数据属于误中数据的概率包括：

根据所述每个黑名单数据，确定所述至少两个模型中每个模型的输入数据；

以所述输入数据输入所述每个模型，输出针对所述每个黑名单数据的输出信息，以得到针对所述每个黑名单数据的至少两个输出信息；以及

根据针对所述每个黑名单数据的至少两个输出信息，确定所述每个黑名单数据属于误中数据的概率。

10.一种检测黑名单的装置，包括：

信息获取模块，用于获取待处理信息；

信息解析模块，用于采用语义分析模型解析所述待处理信息，得到针对所述待处理信息的多个结构化数据；以及

黑名单确定模块，用于采用预设黑名单检索引擎，确定所述多个结构化数据中的黑名单数据。

11.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～9中任一项所述的方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～9中任一项所述的方法。

13.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～9中任一项所述的方法。