CN116777607B

CN116777607B - 一种基于nlp技术的智能审计方法

Info

Publication number: CN116777607B
Application number: CN202311069992.9A
Authority: CN
Inventors: 李雪娇; 杨婧; 陈超; 李梦霄; 王璐珊
Original assignee: Bank Of Shanghai Co ltd
Current assignee: Bank Of Shanghai Co ltd
Priority date: 2023-08-24
Filing date: 2023-08-24
Publication date: 2023-11-07
Anticipated expiration: 2043-08-24
Also published as: CN116777607A

Abstract

本发明涉及一种基于NLP技术的智能审计方法，包括以下步骤：S1：将审计分为3类，分别为情感分类、相似度计算和要素抽取；S2：建立3个审计模型；采用支持向量机训练样本并建立情感分类模型；建立相似度计算模型；获取批量历史审批通知书中有效数据的句子，采用BiLSTM‑CRF模型和BMESO标注集对所述句子进行训练，以建立要素抽取模型；S3：设置智能审计规则，根据智能审计规则为待审计文本材料选择对应的审计模型；S4：通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。本发明提高了审计效率，并且实现了批量识别高风险问题，达到了风险提前监测、事后快速响应的目的。

Description

一种基于NLP技术的智能审计方法

技术领域

本发明涉及审计技术领域，特别涉及一种基于NLP技术的智能审计方法。

背景技术

内部审计在企业中承担着监督管理的重要职责，其高效展开与企业健康发展紧密相连。随着互联网信息技术的发展和数字化转型步伐的加快，内审必然要面对更多纷繁复杂的异构多源数据。通过打造智能审计系统，实现对非结构化数据的智能审计，减少审计人员的机械劳动时间，已成大势所趋。

当前授信文本材料的审计多依赖于现场手工翻阅，一个项目周期内，审计人员可翻阅的档案有限。此外，不同审计人员的经验差异会影响到抽样精准度，容易遗漏有风险的业务。

因此，有必要提供一种基于NLP技术的智能审计方法，以提高审计效率，实现批量识别高风险问题，做到风险提前监测、事后快速响应。

发明内容

本发明的目的在于提供一种基于NLP技术的智能审计方法，以提高审计效率，实现批量识别高风险问题，做到风险提前监测、事后快速响应。

为了解决现有技术中存在的问题，本发明提供了一种基于NLP技术的智能审计方法，包括以下步骤：

S1：将审计分为3类，分别为情感分类、相似度计算和要素抽取；

S2：建立3个审计模型；

获取批量历史审批通知书中的负面情感为样本，采用支持向量机训练样本并建立情感分类模型；

建立相似度计算模型；

获取批量历史审批通知书中有效数据的句子，采用BiLSTM-CRF模型和BMESO标注集对所述句子进行训练，以建立要素抽取模型；

S3：设置智能审计规则，根据智能审计规则为待审计文本材料选择对应的审计模型；

S4：通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。

可选的，在所述基于NLP技术的智能审计方法中，建立情感分类模型的方式如下：

获取批量历史审批通知书中的有效样本；

采用n-gram语言模型，将所述有效样本划分为多个子串，多个所述子串长度为1-3；

采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量；

采用支持向量机训练TF-IDF词向量，以建立情感分类模型。

可选的，在所述基于NLP技术的智能审计方法中，所述有效样本包括业务架构、财务、外部信息、经营以及担保。

可选的，在所述基于NLP技术的智能审计方法中，通过情感分类模型进行审计的方式如下：

获取待审计文本材料的审批通知书；

采用n-gram语言模型，将所述待审计的审批通知书划分为多个子串，多个所述子串长度为1-3；

采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量；

将TF-IDF词向量输入支持向量机，得到审计结果，根据审计结果判断客户的风险情况。

可选的，在所述基于NLP技术的智能审计方法中，建立相似度计算模型的方式如下：

获取批量历史贷后检查报告的文本信息；

采用n-gram语言模型，将所述文本信息划分为多个子串，多个所述子串长度为1-3；

采用TF-IDF词袋模型将多个所述子串转化为多个文本向量，并将多个所述文本向量存入文本向量数据库，以建立相似度计算模型。

可选的，在所述基于NLP技术的智能审计方法中，通过相似度计算模型进行审计的方式如下：

获取待审计文本材料的贷后检查报告的文本信息，利用TF-IDF词袋模型将新的文本信息转化为新的文本向量；

计算新的文本向量与文本向量数据库中每一个文本向量的余弦相似度值；

根据余弦相似度值的高低预设余弦相似度值筛选条件；

根据筛选条件选取文本向量数据库中的文本向量，以判断贷后检查报告的重复率。

可选的，在所述基于NLP技术的智能审计方法中，筛选条件为选取余弦相似度值从高向低排序的前5个。

可选的，在所述基于NLP技术的智能审计方法中，通过要素抽取模型进行审计的方式如下：

获取待审计文本材料的审批通知书中有效数据的句子；

将其输入要素抽取模型中，要素抽取模型输出抽取概率。

可选的，在所述基于NLP技术的智能审计方法中，智能审计规则包括：

若需要对文本内容进行情感分析，则采用情感分类模型进行审计；

若需要对文本内容进行相似度分析，则采用相似度计算模型进行审计；

若需要对文本内容部分信息进行抽取，则采用要素抽取模型进行审计。

在本发明所提供的基于NLP技术的智能审计方法中，通过对待审计文本材料的审计抽样思路转化为自然语言处理问题并通过智能引擎完成自动化处理，一方面能够实现对海量材料的批量分析，提高效率，增加覆盖面；另一方面，能够为现场审计人员提供更加精准的抽样清单，可以实现批量识别高风险问题，做到风险提前监测、事后快速响应。

附图说明

图1为本发明实施例提供的智能审计方法的流程图；

图2为本发明实施例提供的相似度计算的流程图；

图3为本发明实施例提供的要素抽取模型结构图。

具体实施方式

下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

在下文中，如果本文所述的方法包括一系列步骤，本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序，且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法。

为了解决现有技术中存在的问题，本发明提供了一种基于NLP技术的智能审计方法，如图1所示，所述智能审计方法包括以下步骤：

S2：建立3个审计模型；

建立相似度计算模型；

优选的智能审计规则包括：若需要对文本内容进行情感分析，则采用情感分类模型进行审计，本发明将以自动识别贷款审批环节中审批意见与结论不一致业务场景为例，进行详细说明；若需要对文本内容进行相似度分析，则采用相似度计算模型进行审计，本发明将以贷后检查报告内容查重场景为例，进行详细说明；若需要对文本内容部分信息进行抽取，则采用要素抽取模型进行审计，本发明将以监测放款审批条件落实情况场景为例，进行详细说明。

第一实施例，自动识别贷款审批环节中审批意见与结论不一致业务，锁定疑似高风险的信贷客户。信贷流程中的审批通知书中的审批意见能够表达审批者对该笔授信持支持或者反对的情感态度，若审批意见中出现负面情感态度（即反对），而审批结论却予以通过该笔授信业务，则该笔授信业务可能具有较大风险隐患，在合规检查或审计过程中应被及时关注。因此此类客户需要采用情感分类模型来审计。

进一步的，建立情感分类模型的方式如下：

获取批量历史审批通知书中的有效样本，所述有效样本包括业务架构、财务、外部信息、经营以及担保；

采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量；

采用支持向量机训练TF-IDF词向量，以建立情感分类模型。

再进一步的，通过情感分类模型进行审计的方式如下：

获取待审计文本材料的审批通知书；

采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量；

在实际运用中，基于该情感分类模型，本发明选取了2021年下半年的对公信贷业务进行验证，通过模型自动识别审批通知书中具有严重负面情感描述需要进行贷后重点监测的客户约占8%；经过一年以上的时间验证，发现这些判定为贷后重点监测的客户中，五级分类后三类的客户数占五级分类后三类全量客户的27%，涉及金额20多亿。由此可见，该模型在疑似高风险客户识别方面贡献度较高。

第二实施例，自动识别贷后检查报告内容重复问题，快速发现贷后管理不审慎的情况。信贷流程中同一笔信贷业务不同季度的贷后检查报告以及同一行业不同客户的贷后检查报告存在相互抄袭等，客户经理未认真履行贷后调查职责的问题。传统查重方式采用人工校验，工作量极大，且人工无法遍历所有行业的贷后检查报告，存在贷后管理盲区。

本发明建立了相似度计算模型及对应审计方法，如图2所示，建立相似度计算模型的方式如下：

获取批量历史贷后检查报告的文本信息；

通过相似度计算模型进行审计的方式如下：

根据余弦相似度值的高低预设余弦相似度值筛选条件，优选的，筛选条件为选取余弦相似度值从高向低排序的前5个；

在实际运用中，在业务效果方面，可从行业内查重和公司内查重两个维度进行选择。行业内查重排查的是同一个行业内不同客户之间的贷后检查报告是否存在抄袭现象，公司内查重排查的是同一笔授信业务不同季度的贷后检查报告是否抄袭。当不选择行业内或者公司内查重时，则默认新上传贷后检查报告与数据库中所有行业的贷后检查报告进行查重。

第三实施例，自动监测放款审批条件落实情况，甄别未严格落实放款条件的业务。放款审核是信贷管理的重要一环，为快速发现可能出现的审批条件未落实情况，可运用NLP技术进行分词、词性分析提炼出关键词，并结合结构化数据交叉分析，实现对贷款审批条件中主要结算行条件未落实、追加担保审批条件未落实、贷后未反映项目贷款工程进度等场景的智能审计。

本发明建立了要素抽取模型。

选取历史的审批通知书，审批通知书首先通过关键词做有效数据筛选任务，选取的有效数据、无效数据样本关键词如表1所示。

表1 有效/无效数据判定标准

有效数据关键词	无效数据关键词
		追加xx个人无限责任担保追加xx担保追加关联方xx担保追加企业法定代表人xx担保要求：追加xx担保提供xx担保	及时采取提前收贷、追加担保等有效措施防范建议追加xx担保争取追加xx担保

要素抽取模型的建设过程如下：

要素抽取模型使用基于字的BiLSTM-CRF模型，采用BMESO标注集，即B-PER、M-PER、E-PER、S-PER代表人名首字、人名中间字、人名尾字、人名单字，B-LOC、M-LOC、E-LOC、S-LOC代表地名首字、地名中间字、地名尾字、地名单字，B-ORG、M-ORG、E-ORG、S-ORG代表组织机构名首字、组织机构名中间字、组织机构名尾字、组织机构名单字，O代表该字不属于命名实体的一部分。要素抽取模型结构如图3所示。

以句子为单位，将一个含有n个字的句子（字的序列）记作x=(x1,x2,...,xn)，其中xi表示句子的第i个字在字典中的id，进而可以得到每个字的one-hot向量，维数是字典大小。

模型的第一层是look-up层，利用预训练或随机初始化的embedding矩阵将句子中的每个字 xi由one-hot向量映射为低维稠密的字向量（character embedding）xi∈Rd，d是embedding的维度。为了更好的效果可以把bert输出的向量作为embedding矩阵的初始化参数，然后再经过训练来调整。其中，bert为在相似句任务上调整过的开源模型。在输入下一层之前，设置dropout以缓解过拟合。

模型的第二层是双向LSTM层，自动提取句子特征。将一个句子的各个字的charembedding序列 (x1,x2,...,xn)作为双向LSTM各个时间步的输入，再将正向LSTM输出的隐状态序列(h1’,h2’,...,hn’)与反向LSTM输出的隐状态序列(h1”,h2”,...,hn”)在各个位置输出的隐状态按位置拼接 ht=[ht’;ht”]∈Rm，得到完整的隐状态序列(h1,h2,...,hn)∈Rn×m。在设置dropout后，接入一个线性层，将隐状态向量从m维映射到k维，k是标注集的标签数，从而得到自动提取的句子特征，记作矩阵P=(p1,p2,...,pn)∈Rn×k 。

模型的第三层是CRF层，进行句子级的序列标注。CRF层的参数是一个 (k+2)×(k+2)的矩阵A，Aij表示的是从第i个标签到第j个标签的转移得分，进而在为一个位置进行标注的时候可以利用此前已经标注过的标签，之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y=(y1,y2,...,yn)，那么模型对于句子x的标签等于y的打分为：

可以看出整个序列的打分等于各个位置的打分之和，而每个位置的打分由两部分得到，一部分是由LSTM输出的pi决定，另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率：

；通过得到的概率判断是否抽取。

优选的，模型训练时通过最大化对数似然函数，下式给出了对一个训练样本的对数似然：

模型在预测过程（解码）时使用动态规划的Viterbi算法来求解最优路径。

进一步的，本发明通过要素抽取模型进行审计的方式如下：

获取待审计文本材料的审批通知书中有效数据的句子；

将其输入要素抽取模型中，要素抽取模型输出抽取概率，通过得到的概率判断是否抽取。

在实际运用中，利用要素抽取模型对2019-2021年的审批通知书进行抽取任务，约5.3%的审批通知书具有追加担保的文本信息，与授信业务风险监测系统（crms）里已经登记的担保物名称核对后，筛选出若干笔业务的模型结果应用到对应经营单位内控合规性检查过程中。检查结果发现，筛选出的若干笔业务中，64%的业务尚未追加担保，28%的业务已经完成追加担保，8%的业务为模型误判。误判原因为审批通知书同时对多家公司要求追加担保，导致模型无法正确识别审批主体。

综上，在本发明所提供的基于NLP技术的智能审计方法中，通过对待审计文本材料的审计抽样思路转化为自然语言处理问题并通过智能引擎完成自动化处理，一方面能够实现对海量材料的批量分析，提高效率，增加覆盖面；另一方面，能够为现场审计人员提供更加精准的抽样清单，可以实现批量识别高风险问题，做到风险提前监测、事后快速响应。

上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

Claims

1.一种基于NLP技术的智能审计方法，其特征在于，包括以下步骤：

S2：建立3个审计模型；

建立相似度计算模型，方式如下：获取批量历史贷后检查报告的文本信息；采用n-gram语言模型，将所述文本信息划分为多个子串，多个所述子串长度为1-3；采用TF-IDF词袋模型将多个所述子串转化为多个文本向量，并将多个所述文本向量存入文本向量数据库，以建立相似度计算模型；

S3：设置智能审计规则，根据智能审计规则为待审计文本材料选择对应的审计模型；其中，智能审计规则包括：若需要对文本内容进行情感分析，则采用情感分类模型进行审计；若需要对文本内容进行相似度分析，则采用相似度计算模型进行审计；若需要对文本内容部分信息进行抽取，则采用要素抽取模型进行审计；

S4：通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计；

所述情感分类模型自动识别审批通知书中具有负面情感描述需要进行贷后重点监测的客户，并根据审计结果判断客户的风险情况；

通过相似度计算模型进行审计的方式如下：获取待审计文本材料的贷后检查报告的文本信息，利用TF-IDF词袋模型将新的文本信息转化为新的文本向量；计算新的文本向量与文本向量数据库中每一个文本向量的余弦相似度值；根据余弦相似度值的高低预设余弦相似度值筛选条件；根据筛选条件选取文本向量数据库中的文本向量，以判断贷后检查报告的重复率；

基于所述要素抽取模型对审批通知书进行抽取任务，根据筛选出若干笔业务的模型结果，检查经营单位内控合规性。

2.如权利要求1所述的基于NLP技术的智能审计方法，其特征在于，建立情感分类模型的方式如下：

获取批量历史审批通知书中的有效样本；

采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量；

采用支持向量机训练TF-IDF词向量，以建立情感分类模型。

3.如权利要求2所述的基于NLP技术的智能审计方法，其特征在于，所述有效样本包括业务架构、财务、外部信息、经营以及担保。

4.如权利要求2所述的基于NLP技术的智能审计方法，其特征在于，通过情感分类模型进行审计的方式如下：

获取待审计文本材料的审批通知书；

采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量；

5.如权利要求1所述的基于NLP技术的智能审计方法，其特征在于，筛选条件为选取余弦相似度值从高向低排序的前5个。

6.如权利要求1所述的基于NLP技术的智能审计方法，其特征在于，通过要素抽取模型进行审计的方式如下：

获取待审计文本材料的审批通知书中有效数据的句子；

将其输入要素抽取模型中，要素抽取模型输出抽取概率。