CN115641072A - 合规模型训练及合规判断方法、装置、设备和介质 - Google Patents

合规模型训练及合规判断方法、装置、设备和介质 Download PDF

Info

Publication number
CN115641072A
CN115641072A CN202211185192.9A CN202211185192A CN115641072A CN 115641072 A CN115641072 A CN 115641072A CN 202211185192 A CN202211185192 A CN 202211185192A CN 115641072 A CN115641072 A CN 115641072A
Authority
CN
China
Prior art keywords
audited
compliance
field
historical
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211185192.9A
Other languages
English (en)
Inventor
朱鹏飞
姜博
黄名剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202211185192.9A priority Critical patent/CN115641072A/zh
Publication of CN115641072A publication Critical patent/CN115641072A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种合规模型训练及合规判断方法、装置、设备和介质。本申请涉及大数据技术领域。该方法包括:获取合规要求文件、历史业务数据和所述历史业务数据的合规结果标签;根据所述合规要求文件和所述历史业务数据,确定待审核训练样本;根据所述待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。本申请的技术方案,所训练的合规模型,在进行合规审查时准确性更高,且能够实现多合规要求文件的合规审查,适用范围更广,无需进行多审核规则的提取和构建,使用过程更加便捷。

Description

合规模型训练及合规判断方法、装置、设备和介质
技术领域
本申请实施例涉及大数据技术领域,尤其涉及一种合规模型训练及合规判断方法、装置、设备和介质。
背景技术
在申请办理业务的过程中,往往需要根据各种合规要求文件,对申请办理的业务进行合规审查。
现有的合规审查主要采用人工审查的方式。在审查过程中,需要审查的资料和参考的合规要求文件繁杂,合规要求文件中的审查规则多样,导致审查效率低下。同时,采用人工审查的方式,审查结果主观性强,准确性低。
发明内容
本申请实施例提供一种合规模型训练及合规判断方法、装置、设备和介质,以提高合规审查的准确性和审核效率。
第一方面,本申请实施例提供了一种合规模型训练方法,该方法包括:
获取合规要求文件、历史业务数据和历史业务数据的合规结果标签;
根据合规要求文件和历史业务数据,确定待审核训练样本;
根据待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
第二方面,本申请实施例提供了一种合规判断方法,该方法包括:
确定待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件;
根据待审核合规要求文件和待审核业务数据,确定待审核预测样本;
将待审核预测样本输入训练好的合规模型,得到合规结果;其中,合规模型基于第一方面的方法训练得到。
第三方面,本申请实施例还提供了一种合规模型训练装置,该装置包括:
数据获取模块,用于获取合规要求文件、历史业务数据和历史业务数据的合规结果标签;
训练样本确定模块,用于根据合规要求文件和历史业务数据,确定待审核训练样本;
训练模块,用于根据待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
第四方面,本申请实施例还提供了一种合规判断装置,该装置包括:
合规要求文件确定模块,用于确定待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件;
预测样本确定模块,用根据待审核合规要求文件和待审核业务数据,确定待审核预测样本;
合规结果确定模块,用于将待审核预测样本输入训练好的合规模型,得到合规结果;其中,合规模型基于第三方面的装置训练得到。
第五方面,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如本申请实施例中任一的合规模型训练方法或合规判断方法。
第六方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例中任一的合规模型训练方法或合规判断方法。
第七方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现如本申请实施例中任一的合规模型训练方法或合规判断方法。
本申请实施例的技术方案,通过合规要求文件和历史业务数据确定待审核训练样本,根据待审核训练样本和历史业务数据的合规结果标签,对预先构建的合规模型进行训练,使得所训练的合规模型具备多合规要求文件的合规审查能力,从而在后续使用合规模型进行合规审查时,准确度更高,且能够实现多合规要求文件的合规审查,适用范围更广。另外,在进行合规审查时,无需进行所审核规则的总结提炼,使得合规审查过程更加便捷。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种合规模型训练方法的流程示意图;
图2为本申请实施例提供的另一种合规模型训练方法的流程示意图;
图3为本申请实施例提供的再一种合规模型训练方法的流程示意图;
图4为本申请实施例提供的一种合规判断方法的流程示意图;
图5为本申请实施例提供的另一种合规判断方法的流程示意图;
图6为本申请实施例提供的一种合规模型训练装置的结构示意图;
图7为本申请实施例提供的一种合规判断装置的结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。本申请技术方案中对合规要求文件、历史业务数据、合规结果标签、待审核合规要求文件和待审核业务数据等数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
本申请实施例适用于对业务数据进行合规审查的场景,以提高合规审查的效率和准确性。为了便于理解,首先对本申请实施例所涉及的合规模型的训练过程进行详细说明。其中,合规模型可以是神经网络模型。通过模型训练的方式获取合规模型。
图1为本申请实施例提供的一种合规模型训练方法的流程示意图,本实施例适用于对进行合规审查的合规模型进行训练的情况。该方法可以由合规模型训练装置来执行,该装置可采用软件和/或硬件的方式实现,可配置于电子设备中。
如图1所示的合规模型训练方法,具体包括如下步骤:
S110、获取合规要求文件、历史业务数据和历史业务数据的合规结果标签。
合规要求文件指的是具备监管职责的组织或团体,以权威形式标准化地规定针对相应业务,应该满足的限制条件。合规要求文件的数量为至少一个。需要说明的是,业务场景不同,对应的合规要求文件也不尽相同。在一个具体实现方式中,合规要求文件可以是用于限定企业贷款等方面的文件。
可以理解的是,在合规要求文件中规定了针对某一业务需要提供的业务数据。业务数据用于表征业务发起方在发起相关业务时,需要提供的基础数据。历史业务数据用于表征业务已处理完毕的业务发起方的业务数据。其中,业务数据可以包括业务字段和业务字段对应的字段值。具体的,在贷款业务场景下,业务字段可以是贷款额度、贷款周期和贷款利率等中的至少一种。
其中,合规结果标签用于表征历史业务数据的合规审查结果。具体的,合规结果标签可以为合规或不合规。可以理解的是,在合规要求文件中,包括对业务数据进行合规审查的合规要求。合规结果标签为合规,表示历史业务数据满足合规要求文件中对业务数据进行合规审查的要求;合规结果标签为不合规,表示历史业务数据不满足合规要求文件中对业务数据进行合规审查的要求。
S120、根据合规要求文件和历史业务数据,确定待审核训练样本。
待审核训练样本为对合规模型进行训练时的输入数据,待审核训练样本的数量为至少一个,通常为多个。具体的,根据合规要求文件和历史业务数据,可以确定合规要求文件在历史业务数据中的关联数据,从而根据该关联数据,确定待审核训练样本。
S130、根据待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
相应合规结果标签是指待审核训练样本对应的合规结果标签。可以理解的是,可以将待审核训练样本和待审核训练样本的合规结果标签作为训练样本对,对预先构建的合规模型进行模型训练,以调整模型中的网络参数。其中,预先构建的合规模型是指未经过训练的合规模型,该模型可以是神经网络模型,也可以是其他模型,本申请对该模型的具体网络结构不作任何限定。
具体的,将待审核训练样本输入至预先构建的合规模型,得到模型预测结果,并根据模型预测结果与相应待审核训练样本的合规结果标签之间的差异,调整合规模型中的网络参数,直至满足训练截止条件。其中,训练截止条件可以包括下述至少一种:待审核训练样本的样本数量达到预设数量阈值、模型的准确度达到预设准确度阈值、和合规模型趋于收敛等。
本申请实施例的技术方案,通过合规要求文件和历史业务数据确定待审核训练样本,根据待审核训练样本和历史业务数据的合规结果标签,对预先构建的合规模型进行训练,使得所训练的合规模型具备多合规要求文件的合规审查能力,从而在后续使用合规模型进行合规审查时,准确度更高,且能够实现多合规要求文件的合规审查,适用范围更广。另外,在进行合规审查时,无需进行所审核规则的总结提炼,使得合规审查过程更加便捷。
可选的,根据合规要求文件和历史业务数据,确定待审核训练样本,包括:获取历史业务数据对应业务发起方的发起方类别;根据历史业务数据对应的发起方类别、合规要求文件和历史业务数据,确定待审核训练样本。
业务发起方用于唯一表征发起业务的主体。示例性的,业务发起方可以是企业、组织或个人。历史业务数据与业务发起方对应,一个业务发起方可以对应至少一条历史业务数据;不同业务发起方对应的历史业务数据可以相同,也可以不同。其中,发起方类别用于表征业务发起方所属的类别。发起方类别可以根据实际情况进行设置。示例性的,发起方类别可以是大客户、小客户、大型企业或小型企业等。
具体的,根据历史业务数据对应的业务发起方的发起方类别,从大量合规要求文件中选取发起方类别对应的合规要求文件,并根据发起方类别对应的合规要求文件在历史业务数据中对应的关联数据,确定待审核训练样本。
通过在进行模型训练时,在待审核训练样本中引入历史业务数据对应业务发起方的发起方类别,能够使得训练的模型具备业务发起方的分辨能力,从而在进行合规审查过程中,能够针对不同类别的业务发起方,有针对性的进行合规审查,有助于提高合规审查的灵活性和准确性。
需要说明的是,合规要求文件可以根据实际情况进行更新或调整。因此,在进行合规模型训练时,还可以获取更新后的合规要求文件、历史业务数据和历史业务数据的合规结果标签;根据更新后的合规要求文件和历史业务数据,确定待审核训练样本;根据待审核训练样本和相应合规结果标签,对已训练好的合规模型进行二次训练。采用上述方式,使训练好的合规模型能够不断适配新的合规要求文件,有助于提高合规模型对新合规要求文件的适应性和合规审查结果的准确性。
在上述各技术方案的基础上,本申请还提供了一个可选实施例。在该可选实施例中,将“根据合规要求文件和历史业务数据,确定待审核训练样本”操作,具体化为:“将历史业务数据对应合规要求文件作为参考文件,并确定参考文件中的历史待评价字段;确定历史业务数据中历史待评价字段对应的字段值;根据历史待评价字段和历史待评价字段的字段值,生成待审核训练样本”,以丰富待审核训练样本的确定机制。需要说明的是,在本申请实施例中未详述部分,可参见其他实施例的相关表述。
参见图2所示的合规模型训练方法包括以下具体步骤:
S210、获取合规要求文件、历史业务数据和历史业务数据的合规结果标签。
S220、将历史业务数据对应合规要求文件作为参考文件,并确定参考文件中的历史待评价字段。
参考文件用于表征对历史业务数据进行合规审查时,需要使用的合规要求文件。可以理解的是,在参考文件中,包含有对历史业务数据进行合规审查的要求。
示例性的,可以根据历史业务数据中的业务字段,确定历史业务数据对应的合规要求文件。其中,历史待评价字段是指参考文件中,对业务数据进行合规审查所对应的字段。历史待评价字段可以与历史业务数据中的各业务字段至少部分相同。可选的,可以通过文字识别的方式获取参考文件中的历史待评价字段。
具体的,从合规要求文件中选取与历史业务数据相匹配的合规要求文件,作为参考文件,对参考文件中的文字进行识别,确定历史待评价字段。
可选的,在历史业务数据中预先标记有该条历史业务数据需要满足的合规要求文件的文件标识,可以通过相应文件标识,从合规要求文件中选取参考文件。
可选的,由于相同业务类型的历史业务数据所需满足的合规要求文件通常相同,不同业务类型的历史业务数据所需满足的合规要求文件通常不同。因此,可以根据历史业务数据所属业务类型,从合规要求文件中选取参考文件。
业务类型用于对业务进行区分。可以根据历史业务数据中的业务字段,确定历史业务数据所属业务类型,或者根据预先设置的业务标识与业务类型之间的对应关系,确定历史业务数据所属的业务类型。相应的,选取与业务类型相匹配的合规要求文件,作为参考文件。
示例性的,可以对合规要求文件进行文字识别,将识别结果与业务类型相同的合规要求文件,作为参考文件,其中识别结果与业务类型相同可以是合规要求文件中的文字内容与业务类型相同。或者,根据预先设置的业务类型与该业务类型所需满足的合规要求文件标识之间的对应关系,确定每条历史业务数据所属的业务类型对应的参考文件。
通过历史业务数据所属业务类型,从合规要求文件中确定参考文件,能够实现参考文件的选取,从而能够缩小确定历史待评价字段的合规要求文件数量,减少了历史待评价字段确定过程的数据运算量,进而提高了待审核训练样本的生成效率。
可选的,确定参考文件中的历史待评价字段,包括:提取参考文件中的关键字,并根据提取结果确定历史待评价字段。
具体的,对参考文件进行文字识别,提取参考文件中的关键字;可以从预设合规字典库中查找与提取结果相匹配的关键字,作为历史待评价字段。其中,预设合规字典库中的关键字可以由技术人员根据需要或经验进行设置。
需要说明的是,通过提取参考文件中的关键字进行历史待评价字段的确定,提高了历史待评价字段的确定效率。
可以理解的是,为了避免在进行待审查训练样本确定时,重复对相同参考文件中的关键字进行提取,还可以预先按照上述方式确定不同参考文件的历史待评价字段,并在需要时进行相应历史待评价字段的获取即可。
在一个具体实现方式中,提取参考文件中的关键字,并根据提取结果确定历史待评价字段,可以包括:提取参考文件中各章节标题的关键字,作为相应章节标题的历史待评价指标;针对各章节标题,提取该章节标题对应章节内容的关键字,作为相应历史待评价指标下的历史待评价字段。
章节标题是指合规要求文件中各章节内容的标题。一个合规要求文件中,包括至少一个章节标题。历史待评价指标用于表征参考文件中的章节标题对应的评价字段,可以理解为,通过历史待评价指标可以对历史待评价字段进行分类,历史待评价字段用于表征历史待评价字段所属的类别。一个章节标题通常对应一个历史待评价指标。
章节内容是指合规要求文件中相应章节标题下的内容数据。历史待评价指标下的历史待评价字段,用于表征在历史待评价指标对应章节内容中包含的历史待评价字段。其中,历史待评价指标下的历史待评价字段的数量为至少一个。
举例说明,在某一合规要求文件中,某一章章节标题的历史待评价指标为贷款能力,在该章的章节内容中,提取的关键字包括贷款金额和贷款周期,相应的,历史待评价指标下的历史待评价字段为贷款金额和贷款周期。
具体的,对参考文件中的各章节标题进行文字识别,将识别到的关键字作为相应章节标题的历史待评价指标。针对各章节标题,确定章节标题对应的章节内容,并对章节内容进行文字识别,确定章节内容的关键字,并将章节内容的关键字,作为历史待评价指标下的历史待评价字段,
通过将参考文件中各章节标题的关键字,作为相应章节标题的历史待评价指标,将各章节标题对应章节内容的关键字作为相应历史待评价指标下的历史待评价字段,实现了由历史待评价指标到历史待评价字段的逐层提取,便于历史待评价字段的确定,提高了历史待评价字段获取的准确性和全面性。
S230、确定历史业务数据中历史待评价字段对应的字段值。
具体的,针对历史待评价字段,在历史业务数据中查找与历史待评价字段对应的字段值。可以理解的是,历史业务数据可以包括历史待评价字段对应的字段值中的部分字段值,如果在历史业务数据中不包括历史待评价字段的字段值,可以将历史待评价字段对应的字段值设置为默认值。其中,默认值可以由技术人员根据需要或经验值进行设置,例如默认值可以是空值,或者为0。
S240、根据历史待评价字段和历史待评价字段的字段值,生成待审核训练样本。
具体的,可以针对每条历史业务数据,按照预设的不同历史待评价字段的排列顺序,将历史待评价字段对应的字段值和默认值,进行组合,并将组合得到的矩阵,作为待审核训练样本。
S250、根据待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
本申请实施例的技术方案,通过获取历史业务数据对应的合规要求文件作为参考文件,减少了参考文件的数量,从而通过参考文件的历史待评价字段,以及历史业务数据中历史待评价字段对应的字段值,确定待审核训练样本,能够减少待审核训练样本确定过程的数据运算量,从而提高了待审核训练样本的确定效率。
在上述各技术方案的基础上,本申请还提供了一个可选实施例,在该可选实施例中,将“根据合规要求文件和历史业务数据,确定待审核训练样本”,具体化为:“将合规要求文件作为参考文件,并确定参考文件中的历史待评价字段;确定历史业务数据中历史待评价字段对应的字段值;根据历史待评价字段和历史待评价字段的字段值,生成待审核训练样本”,以丰富待审核训练样本的确定机制。需要说明的是,在本申请实施例中未详述部分,可参见其他实施例的相关表述。
如图3所示的合规模型训练方法,包括以下具体步骤:
S310、获取合规要求文件、历史业务数据和历史业务数据的合规结果标签。
S320、将合规要求文件作为参考文件,并确定参考文件中的历史待评价字段。
具体的,将合规要求文件直接作为参考文件,并对参考文件进行文字识别,根据识别结果,确定参考文件中的历史待评价字段。
其中,对参考文件中的历史待评价字段的确定操作,可以参见前述实施例的相关表述,在此不再赘述。
S330、确定历史业务数据中历史待评价字段对应的字段值。
具体的,从历史业务数据中,查找历史待评价字段对应的字段值。在本实施例中,可以忽略无历史业务数据对应的历史待评价字段,或者将相应历史待评价字段的字段值设置为默认值,例如默认值可以是空值或0值。
可选的,确定历史业务数据中历史待评价字段对应的字段值,包括:将历史业务数据中与历史待评价字段相匹配的业务字段作为参考业务字段,并确定历史业务数据中参考业务字段的字段值;相应的,根据历史待评价字段和历史待评价字段的字段值,生成待审核训练样本,包括:根据参考业务字段和参考业务字段的字段值,生成待审核训练样本。
参考业务字段是指历史业务数据的业务字段中与历史待评价字段相同的业务字段。具体的,将历史业务数据中的业务字段与历史待评价字段进行对比,将历史业务数据中与历史评价字段相同的业务字段,作为参考业务字段。在历史业务数据中查找参考业务字段对应的数值,作为参考业务字段的字段值;将历史业务数据中未查找到的历史待评价字段的字段值设置为默认值;可以将参考业务字段、参考业务字段的字段值和未查找到的历史待评价字段及相应默认值,按照各历史待评价字段的预设排列顺序组合,并将组合得到的矩阵,作为待审核训练样本。
通过在历史业务数据中的业务字段中确定参考业务字段,从而确定参考业务字段的字段值,能够对不同历史业务数据采用相同的处理方式进行相应待审核训练样本的生成,实现了待审核训练样本生成过程的规范性和普适性。
S340、根据历史待评价字段和历史待评价字段的字段值,生成待审核训练样本。
具体的,可以将历史待评价字段和历史待评价字段的字段值,形成矩阵,作为待审核训练样本。
S350、根据待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
本申请实施例的技术方案,通过将合规要求文件作为参考文件,确定参考文件中的历史待评价字段,避免了参考文件遗漏的情况,从而增加了历史待评价字段确定的范围,提高了历史待评价字段的丰富性和全面性。同时,针对各合规要求文件和历史业务数据,采用相同的方式进行待审核训练样本的生成,保证了待审核训练样本生成过程的规范性和普适性。
以上对合规模型训练方法进行了详细说明,以下将对合规模型的使用过程进行详述。
图4为本申请实施例提供的一种合规判断方法的流程示意图,本实施例适用于对各种合规模型进行使用的情况。该方法可以由合规判断装置来执行,该装置可采用软件和/或硬件的方式实现,可配置于电子设备中。需要说明的是,执行合规判断方法的电子设备,与前述进行合规模型训练方法的电子设备,两者可以相同或不同,本申请对此不作任何限定。
如图4所示的合规判断方法,具体包括如下步骤:
S410、确定待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件。
待审核业务是指需要进行审核的业务。在一个具体示例中,待审核业务可以是贷款业务。待审核业务数据是指业务发起方发起待审核业务时提供的数据。待审核业务数据可以包括业务字段和业务字段对应的数值。待审核业务数据的待审核合规要求文件是指对待审核业务数据进行审核时,需要使用的合规要求文件。待审核业务数据的待审核合规要求文件的数量为至少一个。可以将待审核业务数据需要满足的合规要求文件,作为待审核业务数据的待审核文件。
可选的,可以获取待审核业务的待审核业务数据,并将待审核业务发起时勾选的合规要求文件作为待审核合规要求文件。
示例性的,根据发起的待审核业务,确定待审核业务的待审核业务数据。在发起待审核业务时,可以通过交互界面,提供合规要求文件列表,业务发起方在交互界面上勾选合规要求文件,业务发起方可以通过勾选的方式,在合规要求文件中选取待审核合规要求文件,从而实现了待审核合规要求文件的按需选取,提高了待审核合规要求文件选取的灵活性和便捷性。
或者可选的,获取待审核业务的待审核业务数据,并根据待审核业务数据所属业务类型,从合规要求文件中选取待审核合规要求文件。
示例性的,根据待审核业务数据,确定业务类型,根据业务类型对合规要求文件进行筛选,选取与业务类型匹配的合规要求文件,作为待审核合规要求文件。具体的,可以预先确定不同合规要求文件所适配的业务类型;将待审核业务所属业务类型作为待审核业务类型,并选取与待审核业务类型相对应的合规要求文件作为待审核合规要求文件。
通过根据待审核业务所属的业务类型,进行待审核合规要求文件的自动化确定,无须业务发起方进行手动选取,提高了待审核合规要求文件的准确性和便捷性。
S420、根据待审核合规要求文件和待审核业务数据,确定待审核预测样本。
待审核预测样本为训练完成后的合规模型的输入数据,待审核预测样本的数量为至少一个。具体的,根据待审核合规要求文件和待审核业务数据,可以确定待审核合规要求文件在待审核业务数据中的关联数据,从而根据该关联数据,确定待审核预测样本。
S430、将待审核预测样本输入训练好的合规模型,得到合规结果。
其中,合规模型基于上述任一合规模型训练方法训练得到。
合规结果用于表征待审核预测样本经过合规审核后得到的审核结果,也就是待审核业务数据经过合规审核后得到的审核结果。其中,合规结果可以为合规或不合规。
具体的,将待审核预测样本作为训练好的合规模型的输入数据,通过训练好的合规模型,并根据模型输出结果,确定合规结果。
其中,模型输出结果可以直接为合规或不合规的二分类结果;或者,模型输出结果可以是待审核预测样本的合规概率;若合规概率大于第一预设阈值,则确定待审核预测样本合规;若合规概率小于第二预设阈值,则确定待审核预测样本不合规。其中,第一预设概率不小于第二预设概率;第一预设概率和第二预设概率可以由技术人员根据需要和经验值进行设定,或通过大量试验反复确定。
在一种可实施方式中,待审核合规要求文件可以根据实际情况进行更新,因此在待审核合规要求文件出现更新的情况下,可以在得到合规结果之后,通过人工审核的方法对合规结果进行验证,并将验证结果作为最终的合规结果。
本申请实施例的技术方案,通过待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件,确定的待审核预测样本,将待审核预测样本输入训练好的合规模型,得到合规结果,无需进行合规要求文件所审核规则的总结提炼,提高了合规审查过程的便捷性。同时,上述合规审查方式能够同时实现多合规要求文件的合规审查,适用范围更广,更具普适性。同时,基于人工智能方式进行合规模型的训练,使得所训练好的合规模型合规分辨能力更好,减少了主观性的影响,提高了合规审查结果的准确度。
在一个可选实施例中,若合规模型在训练过程中,引入了业务发起方的发起方类别作为待审核训练样本,进行模型训练。相应的,在模型使用阶段,需要对应引入业务发起方的发起方类别作为待审核预测样本。
示例性的,根据待审核合规要求文件和待审核业务数据,确定待审核预测样本,可以包括:获取待审核业务对应业务发起方的发起方类别;根据待审核业务对应的发起方类别、待审核合规要求文件和待审核业务数据,确定待审核预测样本。
具体的,可以根据待审核业务对应的业务发起方的发起方类别,从大量合规要求文件中选取发起方类别对应的合规要求文件,并根据发起方类别对应的合规要求文件在待审核业务数据中对应的关联数据,确定待审核预测样本。
通过在使用模型进行合规审查时,在待审核预测样本中引入待审核业务数据对应业务发起方的发起方类别,能够针对不同类别的业务发起方,有针对性的进行合规审查,提高了待审核预测样本确定的灵活性和准确性。
在上述各技术方案的基础上,本申请还提供了一个可选实施例,在该可选实施例中,将“根据待审核合规要求文件和待审核业务数据,确定待审核预测样本”,具体化为:“确定待审核合规要求文件中的待评价字段;确定待审核业务数据中待评价字段对应的字段值;根据待评价字段和待评价字段的字段值,生成待审核预测样本”,以完善模型使用阶段待审核预测样本的生成机制。需要说明的是,在本申请实施例中未详述部分,可参见其他实施例的相关表述。
如图5所示,合规判断方法,包括以下具体步骤:
S510、确定待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件。
S520、确定待审核合规要求文件中的待评价字段。
待评价字段是指待审核合规要求文件中,对待审核业务数据进行合规审查所依照的字段。待评价字段可以与待审核业务数据中的各业务字段至少部分相同。示例性的,对于待审核合规要求文件,可以通过文字识别的方式获取待审核合规要求文件中的待评价字段。
在一个可选实施例中,可以提取待审核合规要求文件中的关键字,并根据提取结果确定待评价字段。
具体的,可以提取待审核合规要求文件中的关键字,并从预设合规字典库中查找与提取结果相匹配的关键字,作为待评价字段。其中,预设合规字典库中的关键字可以由技术人员根据需要或经验进行设置。
需要说明的是,通过提取待审核文件中的关键字,进行待评价字段的自动化确定,提高了待评价字段的确定效率。
可以理解的是,为了避免在进行待审核预测样本确定时,重复对相同待审核合规要求文件中的关键字进行提取,还可以预先按照上述方式确定不同合规要求文件的待评价字段,并在需要时进行相应待评价字段的获取即可。
在一个可选实施例中,提取待审核合规要求文件中的关键字,并根据提取结果确定待评价字段,可以包括:提取待审核合规要求文件中各章节标题的关键字,作为相应章节标题的待评价指标;针对各章节标题,提取该章节标题对应章节内容的关键字,作为相应待评价指标下的待评价字段。
待评价指标用于表征待审核合规要求文件中的章节标题对应的评价字段,也可以理解为,通过待评价指标可以对待评价字段进行分类,待评价指标可以用于表征待评价字段所属的类别。一个章节标题通常对应一个待评价指标。待评价指标下的待评价字段,用于表征在待评价指标所在的章节中包含的待评价字段。其中,待评价指标下的待评价字段的数量为至少一个。
具体的,对待审核合规要求文件中的各章节标题进行文字识别,获取各章节标题的关键字,将各章节标题的关键字作为相应章节的待评价指标。针对各章节标题,确定各章节标题对应的章节内容,并对章节内容进行文字识别,确定章节内容的关键字,将章节内容的关键字,作为历史待评价指标下的历史待评价字段。
通过将待审核合规要求文件中的各章节标题的关键字,作为相应章节标题的待评价指标,将各章节标题对应章节内容的关键字作为相应待评价指标下的历史待评价字段,实现了有待评价指标到待评价字段的逐层提取,便于待评价字段的确定,提高了待评价字段获取的准确性和全面性。
S530、确定待审核业务数据中待评价字段对应的字段值。
具体的,针对待评价字段,在待审核业务数据中查找与待评价字段对应的字段值。可以理解的是,待审核业务数据可以仅包括待评价字段对应的字段值中的部分字段值,如果在待审核业务数据中不包括待评价字段的字段值,可以将待评价字段对应的字段值设置为默认值。其中,默认值可以由技术人员根据需要或经验值进行设置,例如默认值可以是空值,或者为0。
S540、根据待评价字段和待评价字段的字段值,生成待审核预测样本。
具体的,可以按照预设的不同历史待评价字段的排列顺序,将待评价字段对应的字段值和默认值进行组合,并将组合得到的矩阵,作为待审核预测样本。
S550、将待审核预测样本输入训练好的合规模型,得到合规结果;其中,合规模型基于上述任一项的合规模型训练方法训练得到。
本申请实施例的技术方案,通过确定待审核合规要求文件中的待评价字段,自动化确定待审核业务数据需要审核的待评价字段的字段值,提高了待评价字段对应的字段值的确定效率和确定结果的准确性,从而提高了待审核预测样本确定的准确性,进而提高了待审核业务数据的合规审查结果的准确度。
作为上述各合规模型训练方法的实现,本申请还提供了一个实施上述各合规模型训练方法的执行装置的可选实施例。
该可选实施例所提供的合规模型训练装置,适用于对各种合规模型进行训练的情况,该装置可采用软件和/或硬件的方式实现,可配置于电子设备中。
如图6所示的合规模型训练装置,具体包括:数据获取模块601、训练样本确定模块602和训练模块603。其中,
数据获取模块601,用于获取合规要求文件、历史业务数据和历史业务数据的合规结果标签;
训练样本确定模块602,用于根据合规要求文件和历史业务数据,确定待审核训练样本;
训练模块603,用于根据待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
本申请实施例的技术方案,通过合规要求文件和历史业务数据确定待审核训练样本,根据待审核训练样本和历史业务数据的合规结果标签,对预先构建的合规模型进行训练,使得所训练的合规模型具备多合规要求文件的合规审查能力,从而在后续使用合规模型进行合规审查时,准确度更高,且能够实现多合规要求文件的合规审查,适用范围更广。另外,在进行合规审查时,无需进行所审核规则的总结提炼,使得合规审查过程更加便捷。
可选的,训练样本确定模块602,包括:
第一历史字段确定单元,用于将历史业务数据对应合规要求文件作为参考文件,并确定参考文件中的历史待评价字段;
第一历史字段值确定单元,用于确定历史业务数据中历史待评价字段对应的字段值;
第一训练样本确定单元,用于根据历史待评价字段和历史待评价字段的字段值,生成待审核训练样本。
可选的,第一历史字段确定单元,具体用于:
根据历史业务数据所属业务类型,从合规要求文件中选取参考文件。
可选的,训练样本确定模块602,包括:
第二历史字段确定单元,用于将合规要求文件作为参考文件,并确定参考文件中的历史待评价字段;
第二历史字段值确定单元,用于确定历史业务数据中历史待评价字段对应的字段值;
第二训练样本确定单元,用于根据历史待评价字段和历史待评价字段的字段值,生成待审核训练样本。
可选的,第二历史字段值确定单元,具体用于:
将历史业务数据中与历史待评价字段相匹配的业务字段作为参考业务字段,并确定历史业务数据中参考业务字段的字段值;
相应的,第二训练样本确定单元,具体用于:
根据参考业务字段和参考业务字段的字段值,生成待审核训练样本。
可选的,第一历史字段确定单元或第二历史字段确定单元,具体用于:
提取参考文件中的关键字,并根据提取结果确定历史待评价字段。
可选的,第一历史字段确定单元或第二历史字段确定单元,包括:
历史指标确定子单元,用于提取参考文件中各章节标题的关键字,作为相应章节标题的历史待评价指标;
历史字段确定子单元,用于针对各章节标题,提取该章节标题对应章节内容的关键字,作为相应历史待评价指标下的历史待评价字段。
可选的,训练样本确定模块602,包括:
历史发起方类别确定单元,用于获取历史业务数据对应业务发起方的发起方类别;
第三训练样本确定单元,用于根据历史业务数据对应的发起方类别、合规要求文件和历史业务数据,确定待审核训练样本。
上述合规模型训练装置可执行本申请任一实施例所提供的合规模型训练方法,具备执行各合规模型训练方法相应的功能模块和有益效果。
作为上述各合规判断方法的实现,本申请还提供了一个实施上述各合规判断方法的执行装置的可选实施例。该可选实施例所提供的合规判断装置,适用于采用合规模型进行合规审查的情况,该装置可采用软件和/或硬件的方式实现,可配置于电子设备中。
如图7所示的合规判断装置,具体包括:合规要求文件确定模块701、预测样本确定模块702和合规结果确定模块703。其中,
合规要求文件确定模块701,用于确定待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件;
预测样本确定模块702,用根据待审核合规要求文件和待审核业务数据,确定待审核预测样本;
合规结果确定模块703,用于将待审核预测样本输入训练好的合规模型,得到合规结果;其中,合规模型基于上述合规模型训练装置训练得到。
本申请实施例的技术方案,通过待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件,确定的待审核预测样本,将待审核预测样本输入训练好的合规模型,得到合规结果,无需进行合规要求文件所审核规则的总结提炼,提高了合规审查过程的便捷性。同时,上述合规审查方式能够同时实现多合规要求文件的合规审查,适用范围更广,更具普适性。同时,基于人工智能方式进行合规模型的训练,使得所训练好的合规模型合规分辨能力更好,减少了主观性的影响,提高了合规审查结果的准确度。
可选的,预测样本确定模块702,包括:
字段确定单元,用于确定待审核合规要求文件中的待评价字段;
字段值确定单元,用于确定待审核业务数据中待评价字段对应的字段值;
预测样本确定单元,用于根据待评价字段和待评价字段的字段值,生成待审核预测样本。
可选的,字段确定单元,具体用于:
提取待审核合规要求文件中的关键字,并根据提取结果确定待评价字段。
可选的,字段确定单元,包括:
指标确定子单元,用于提取待审核合规要求文件中各章节标题的关键字,作为相应章节标题的待评价指标;
字段确定子单元,用于针对各章节标题,提取该章节标题对应章节内容的关键字,作为相应待评价指标下的待评价字段。
可选的,合规要求文件确定模块701,包括:
业务数据获取单元,用于获取待审核业务的待审核业务数据;
第一合规要求文件确定单元,用于将待审核业务发起时勾选的合规要求文件作为待审核合规要求文件;和/或,
第二合规要求文件确定单元,用于根据待审核业务数据所属业务类型,从合规要求文件中选取待审核合规要求文件。
可选的,预测样本确定模块702,包括:
发起方类别确定单元,用于获取待审核业务对应业务发起方的发起方类别;
预测样本确定单元,用于根据待审核业务对应的发起方类别、待审核合规要求文件和待审核业务数据,确定待审核预测样本。
上述合规判断装置可执行本申请任一实施例所提供的合规判断方法,具备执行合规判断方法相应的功能模块和有益效果。
图8为本申请实施例提供的一种电子设备的结构示意图。图8示出了适于用来实现本申请实施方式的示例性电子设备800的框图。图8显示的电子设备800仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:一个或者多个处理器或者处理单元801,系统存储器802,连接不同系统组件(包括系统存储器802和处理单元801)的总线803。
总线803表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备800典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备800访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器802可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)804和/或高速缓存存储器805。电子设备800可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统806可以用于读写不可移动的、非易失性磁介质(图8未显示,通常称为“硬盘驱动器”)。尽管图8中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线803相连。存储器802可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块807的程序/实用工具808,可以存储在例如存储器802中,这样的程序模块807包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块807通常执行本申请所描述的实施例中的功能和/或方法。
电子设备800也可以与一个或多个外部设备809(例如键盘、指向设备、显示器810等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口811进行。并且,电子设备800还可以通过网络适配器812与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器812通过总线803与电子设备800的其它模块通信。应当明白,尽管图8中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元801通过运行存储在系统存储器802中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的合规模型训练方法或合规判断方法。
本申请实施例还提供一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所提供的合规模型训练方法,包括:获取合规要求文件、历史业务数据和历史业务数据的合规结果标签;根据合规要求文件和历史业务数据,确定待审核训练样本;根据待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
本申请实施例还提供了一种包含计算机可执行指令的存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所提供的合规判断方法,包括:确定待审核业务的待审核业务数据和待审核业务数据的待审核合规要求文件;根据待审核合规要求文件和待审核业务数据,确定待审核预测样本;将待审核预测样本输入训练好的合规模型,得到合规结果;其中,合规模型基于本申请任一实施例提供的合规模型训练方法训练得到。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现如本申请任一实施例所提供的合规模型训练方法或合规判断方法。
计算机程序产品在实现的过程中,可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

Claims (26)

1.一种合规模型训练方法,其特征在于,包括:
获取合规要求文件、历史业务数据和所述历史业务数据的合规结果标签;
根据所述合规要求文件和所述历史业务数据,确定待审核训练样本;
根据所述待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述根据所述合规要求文件和所述历史业务数据,确定待审核训练样本,包括:
将所述历史业务数据对应合规要求文件作为参考文件,并确定所述参考文件中的历史待评价字段;
确定所述历史业务数据中所述历史待评价字段对应的字段值;
根据所述历史待评价字段和所述历史待评价字段的字段值,生成所述待审核训练样本。
3.根据权利要求2所述的方法,其特征在于,所述将所述历史业务数据对应合规要求文件作为参考文件,包括:
根据所述历史业务数据所属业务类型,从所述合规要求文件中选取所述参考文件。
4.根据权利要求1所述的方法,其特征在于,所述根据所述合规要求文件和所述历史业务数据,确定待审核训练样本,包括:
将所述合规要求文件作为参考文件,并确定所述参考文件中的历史待评价字段;
确定所述历史业务数据中所述历史待评价字段对应的字段值;
根据所述历史待评价字段和所述历史待评价字段的字段值,生成所述待审核训练样本。
5.根据权利要求4所述的方法,其特征在于,所述确定所述历史业务数据中所述历史待评价字段对应的字段值,包括:
将所述历史业务数据中与所述历史待评价字段相匹配的业务字段作为参考业务字段,并确定所述历史业务数据中所述参考业务字段的字段值;
相应的,所述根据所述历史待评价字段和所述历史待评价字段的字段值,生成所述待审核训练样本,包括:
根据所述参考业务字段和所述参考业务字段的字段值,生成所述待审核训练样本。
6.根据权利要求2-5任一项所述的方法,其特征在于,所述确定所述参考文件中的历史待评价字段,包括:
提取所述参考文件中的关键字,并根据提取结果确定所述历史待评价字段。
7.根据权利要求6所述的方法,其特征在于,所述提取所述参考文件中的关键字,并根据提取结果确定所述历史待评价字段,包括:
提取所述参考文件中各章节标题的关键字,作为相应章节标题的历史待评价指标;
针对各章节标题,提取该章节标题对应章节内容的关键字,作为相应历史待评价指标下的历史待评价字段。
8.根据权利要求1-5任一项所述的方法,其特征在于,所述根据所述合规要求文件和所述历史业务数据,确定待审核训练样本,包括:
获取所述历史业务数据对应业务发起方的发起方类别;
根据所述历史业务数据对应的发起方类别、所述合规要求文件和所述历史业务数据,确定待审核训练样本。
9.一种合规判断方法,其特征在于,包括:
确定待审核业务的待审核业务数据和所述待审核业务数据的待审核合规要求文件;
根据所述待审核合规要求文件和所述待审核业务数据,确定待审核预测样本;
将所述待审核预测样本输入训练好的合规模型,得到合规结果;其中,所述合规模型基于权利要求1-8任一项所述的方法训练得到。
10.根据权利要求9所述的方法,其特征在于,所述根据所述待审核合规要求文件和所述待审核业务数据,确定待审核预测样本,包括:
确定所述待审核合规要求文件中的待评价字段;
确定所述待审核业务数据中所述待评价字段对应的字段值;
根据所述待评价字段和所述待评价字段的字段值,生成所述待审核预测样本。
11.根据权利要求10所述的方法,其特征在于,所述确定所述待审核合规要求文件中的待评价字段,包括:
提取所述待审核合规要求文件中的关键字,并根据提取结果确定所述待评价字段。
12.根据权利要求11所述的方法,其特征在于,所述提取所述待审核合规要求文件中的关键字,并根据提取结果确定所述待评价字段,包括:
提取所述待审核合规要求文件中各章节标题的关键字,作为相应章节标题的待评价指标;
针对各章节标题,提取该章节标题对应章节内容的关键字,作为相应待评价指标下的待评价字段。
13.根据权利要求9-12任一项所述的方法,其特征在于,所述确定待审核业务的待审核业务数据和所述待审核业务数据的待审核合规要求文件,包括:
获取待审核业务的待审核业务数据;
将所述待审核业务发起时勾选的合规要求文件作为所述待审核合规要求文件;和/或,
根据所述待审核业务数据所属业务类型,从所述合规要求文件中选取所述待审核合规要求文件。
14.根据权利要求9-12任一项所述的方法,其特征在于,所述根据所述待审核合规要求文件和所述待审核业务数据,确定待审核预测样本,包括:
获取所述待审核业务对应业务发起方的发起方类别;
根据所述待审核业务对应的发起方类别、所述待审核合规要求文件和所述待审核业务数据,确定待审核预测样本。
15.一种合规模型训练装置,其特征在于,包括:
数据获取模块,用于获取合规要求文件、历史业务数据和所述历史业务数据的合规结果标签;
训练样本确定模块,用于根据所述合规要求文件和所述历史业务数据,确定待审核训练样本;
训练模块,用于根据所述待审核训练样本和相应合规结果标签,对预先构建的合规模型进行训练。
16.根据权利要求15所述的装置,其特征在于,所述训练样本确定模块,包括:
第一历史字段确定单元,用于将所述历史业务数据对应合规要求文件作为参考文件,并确定所述参考文件中的历史待评价字段;
第一历史字段值确定单元,用于确定所述历史业务数据中所述历史待评价字段对应的字段值;
第一训练样本确定单元,用于根据所述历史待评价字段和所述历史待评价字段的字段值,生成所述待审核训练样本。
17.根据权利要求15所述的装置,其特征在于,所述训练样本确定模块,包括:
第二历史字段确定单元,用于将所述合规要求文件作为参考文件,并确定所述参考文件中的历史待评价字段;
第二历史字段值确定单元,用于确定所述历史业务数据中所述历史待评价字段对应的字段值;
第二训练样本确定单元,用于根据所述历史待评价字段和所述历史待评价字段的字段值,生成所述待审核训练样本。
18.根据权利要求16-17任一项所述的装置,其特征在于,所述第一历史字段确定单元或第二历史字段确定单元,具体用于:
提取所述参考文件中的关键字,并根据提取结果确定所述历史待评价字段。
19.根据权利要求15-17任一项所述的装置,其特征在于,所述训练样本确定模块,包括:
历史发起方类别确定单元,用于获取所述历史业务数据对应业务发起方的发起方类别;
第三训练样本确定单元,用于根据所述历史业务数据对应的发起方类别、所述合规要求文件和所述历史业务数据,确定待审核训练样本。
20.一种合规判断装置,其特征在于,包括:
合规要求文件确定模块,用于确定待审核业务的待审核业务数据和所述待审核业务数据的待审核合规要求文件;
预测样本确定模块,用根据所述待审核合规要求文件和所述待审核业务数据,确定待审核预测样本;
合规结果确定模块,用于将所述待审核预测样本输入训练好的合规模型,得到合规结果;其中,所述合规模型基于权利要求15-19任一项所述的装置训练得到。
21.根据权利要求20所述的装置,其特征在于,所述预测样本确定模块,包括:
字段确定单元,用于确定所述待审核合规要求文件中的待评价字段;
字段值确定单元,用于确定所述待审核业务数据中所述待评价字段对应的字段值;
预测样本确定单元,用于根据所述待评价字段和所述待评价字段的字段值,生成所述待审核预测样本。
22.根据权利要求20-21任一项所述的装置,其特征在于,所述合规要求文件确定模块,包括:
业务数据获取单元,用于获取待审核业务的待审核业务数据;
第一合规要求文件确定单元,用于将所述待审核业务发起时勾选的合规要求文件作为所述待审核合规要求文件;和/或,
第二合规要求文件确定单元,用于根据所述待审核业务数据所属业务类型,从所述合规要求文件中选取所述待审核合规要求文件。
23.根据权利要求20-21任一项所述的装置,其特征在于,所述预测样本确定模块,包括:
发起方类别确定单元,用于获取所述待审核业务对应业务发起方的发起方类别;
预测样本确定单元,用于根据所述待审核业务对应的发起方类别、所述待审核合规要求文件和所述待审核业务数据,确定待审核预测样本。
24.一种电子设备,其特征在于,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-8中任一项所述的合规模型训练方法,或实现如权利要求9-14中任一所述的合规判断方法。
25.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的合规模型训练方法,或实现如权利要求9-14中任一所述的合规判断方法。
26.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-8中任一项所述的合规模型训练方法,或实现如权利要求9-14中任一所述的合规判断方法。
CN202211185192.9A 2022-09-27 2022-09-27 合规模型训练及合规判断方法、装置、设备和介质 Pending CN115641072A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211185192.9A CN115641072A (zh) 2022-09-27 2022-09-27 合规模型训练及合规判断方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211185192.9A CN115641072A (zh) 2022-09-27 2022-09-27 合规模型训练及合规判断方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN115641072A true CN115641072A (zh) 2023-01-24

Family

ID=84942307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211185192.9A Pending CN115641072A (zh) 2022-09-27 2022-09-27 合规模型训练及合规判断方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN115641072A (zh)

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
CN107590172B (zh) 一种大规模语音数据的核心内容挖掘方法及设备
JP7153004B2 (ja) コミュニティ質問応答データの検証方法、装置、コンピュータ機器、及び記憶媒体
CN107526846B (zh) 频道排序模型的生成、排序方法、装置、服务器和介质
CN109325121B (zh) 用于确定文本的关键词的方法和装置
CN108027814B (zh) 停用词识别方法与装置
CN109597874B (zh) 信息推荐方法、装置及服务器
CN108550054B (zh) 一种内容质量评估方法、装置、设备和介质
CN109815147B (zh) 测试案例生成方法、装置、服务器和介质
CN108228567B (zh) 用于提取组织机构的简称的方法和装置
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN111079029A (zh) 敏感账号的检测方法、存储介质和计算机设备
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN112671985A (zh) 基于深度学习的坐席质检方法、装置、设备及存储介质
US11423219B2 (en) Generation and population of new application document utilizing historical application documents
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN111949785A (zh) 查询语句管理方法和装置、可读存储介质、电子设备
KR20150056878A (ko) 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램
CN113096687A (zh) 音视频处理方法、装置、计算机设备及存储介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN115827867A (zh) 文本类型的检测方法及装置
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN115481031A (zh) 南向网关检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination