CN116777607B - 一种基于nlp技术的智能审计方法 - Google Patents
一种基于nlp技术的智能审计方法 Download PDFInfo
- Publication number
- CN116777607B CN116777607B CN202311069992.9A CN202311069992A CN116777607B CN 116777607 B CN116777607 B CN 116777607B CN 202311069992 A CN202311069992 A CN 202311069992A CN 116777607 B CN116777607 B CN 116777607B
- Authority
- CN
- China
- Prior art keywords
- model
- text
- auditing
- intelligent
- audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000005516 engineering process Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 230000008451 emotion Effects 0.000 claims abstract description 37
- 238000012550 audit Methods 0.000 claims abstract description 31
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 238000013145 classification model Methods 0.000 claims abstract description 23
- 239000000463 material Substances 0.000 claims abstract description 23
- 238000012544 monitoring process Methods 0.000 claims abstract description 10
- 238000012706 support-vector machine Methods 0.000 claims abstract description 10
- 238000012549 training Methods 0.000 claims abstract description 8
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 45
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 8
- 238000007689 inspection Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 abstract description 5
- 238000003058 natural language processing Methods 0.000 description 19
- 238000005070 sampling Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于NLP技术的智能审计方法,包括以下步骤:S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;S2:建立3个审计模型;采用支持向量机训练样本并建立情感分类模型;建立相似度计算模型;获取批量历史审批通知书中有效数据的句子,采用BiLSTM‑CRF模型和BMESO标注集对所述句子进行训练,以建立要素抽取模型;S3:设置智能审计规则,根据智能审计规则为待审计文本材料选择对应的审计模型;S4:通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。本发明提高了审计效率,并且实现了批量识别高风险问题,达到了风险提前监测、事后快速响应的目的。
Description
技术领域
本发明涉及审计技术领域,特别涉及一种基于NLP技术的智能审计方法。
背景技术
内部审计在企业中承担着监督管理的重要职责,其高效展开与企业健康发展紧密相连。随着互联网信息技术的发展和数字化转型步伐的加快,内审必然要面对更多纷繁复杂的异构多源数据。通过打造智能审计系统,实现对非结构化数据的智能审计,减少审计人员的机械劳动时间,已成大势所趋。
当前授信文本材料的审计多依赖于现场手工翻阅,一个项目周期内,审计人员可翻阅的档案有限。此外,不同审计人员的经验差异会影响到抽样精准度,容易遗漏有风险的业务。
因此,有必要提供一种基于NLP技术的智能审计方法,以提高审计效率,实现批量识别高风险问题,做到风险提前监测、事后快速响应。
发明内容
本发明的目的在于提供一种基于NLP技术的智能审计方法,以提高审计效率,实现批量识别高风险问题,做到风险提前监测、事后快速响应。
为了解决现有技术中存在的问题,本发明提供了一种基于NLP技术的智能审计方法,包括以下步骤:
S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;
S2:建立3个审计模型;
获取批量历史审批通知书中的负面情感为样本,采用支持向量机训练样本并建立情感分类模型;
建立相似度计算模型;
获取批量历史审批通知书中有效数据的句子,采用BiLSTM-CRF模型和BMESO标注集对所述句子进行训练,以建立要素抽取模型;
S3:设置智能审计规则,根据智能审计规则为待审计文本材料选择对应的审计模型;
S4:通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。
可选的,在所述基于NLP技术的智能审计方法中,建立情感分类模型的方式如下:
获取批量历史审批通知书中的有效样本;
采用n-gram语言模型,将所述有效样本划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量;
采用支持向量机训练TF-IDF词向量,以建立情感分类模型。
可选的,在所述基于NLP技术的智能审计方法中,所述有效样本包括业务架构、财务、外部信息、经营以及担保。
可选的,在所述基于NLP技术的智能审计方法中,通过情感分类模型进行审计的方式如下:
获取待审计文本材料的审批通知书;
采用n-gram语言模型,将所述待审计的审批通知书划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量;
将TF-IDF词向量输入支持向量机,得到审计结果,根据审计结果判断客户的风险情况。
可选的,在所述基于NLP技术的智能审计方法中,建立相似度计算模型的方式如下:
获取批量历史贷后检查报告的文本信息;
采用n-gram语言模型,将所述文本信息划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为多个文本向量,并将多个所述文本向量存入文本向量数据库,以建立相似度计算模型。
可选的,在所述基于NLP技术的智能审计方法中,通过相似度计算模型进行审计的方式如下:
获取待审计文本材料的贷后检查报告的文本信息,利用TF-IDF词袋模型将新的文本信息转化为新的文本向量;
计算新的文本向量与文本向量数据库中每一个文本向量的余弦相似度值;
根据余弦相似度值的高低预设余弦相似度值筛选条件;
根据筛选条件选取文本向量数据库中的文本向量,以判断贷后检查报告的重复率。
可选的,在所述基于NLP技术的智能审计方法中,筛选条件为选取余弦相似度值从高向低排序的前5个。
可选的,在所述基于NLP技术的智能审计方法中,通过要素抽取模型进行审计的方式如下:
获取待审计文本材料的审批通知书中有效数据的句子;
将其输入要素抽取模型中,要素抽取模型输出抽取概率。
可选的,在所述基于NLP技术的智能审计方法中,智能审计规则包括:
若需要对文本内容进行情感分析,则采用情感分类模型进行审计;
若需要对文本内容进行相似度分析,则采用相似度计算模型进行审计;
若需要对文本内容部分信息进行抽取,则采用要素抽取模型进行审计。
在本发明所提供的基于NLP技术的智能审计方法中,通过对待审计文本材料的审计抽样思路转化为自然语言处理问题并通过智能引擎完成自动化处理,一方面能够实现对海量材料的批量分析,提高效率,增加覆盖面;另一方面,能够为现场审计人员提供更加精准的抽样清单,可以实现批量识别高风险问题,做到风险提前监测、事后快速响应。
附图说明
图1为本发明实施例提供的智能审计方法的流程图;
图2为本发明实施例提供的相似度计算的流程图;
图3为本发明实施例提供的要素抽取模型结构图。
具体实施方式
下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
在下文中,如果本文所述的方法包括一系列步骤,本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序,且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法。
当前授信文本材料的审计多依赖于现场手工翻阅,一个项目周期内,审计人员可翻阅的档案有限。此外,不同审计人员的经验差异会影响到抽样精准度,容易遗漏有风险的业务。
为了解决现有技术中存在的问题,本发明提供了一种基于NLP技术的智能审计方法,如图1所示,所述智能审计方法包括以下步骤:
S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;
S2:建立3个审计模型;
获取批量历史审批通知书中的负面情感为样本,采用支持向量机训练样本并建立情感分类模型;
建立相似度计算模型;
获取批量历史审批通知书中有效数据的句子,采用BiLSTM-CRF模型和BMESO标注集对所述句子进行训练,以建立要素抽取模型;
S3:设置智能审计规则,根据智能审计规则为待审计文本材料选择对应的审计模型;
S4:通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计。
优选的智能审计规则包括:若需要对文本内容进行情感分析,则采用情感分类模型进行审计,本发明将以自动识别贷款审批环节中审批意见与结论不一致业务场景为例,进行详细说明;若需要对文本内容进行相似度分析,则采用相似度计算模型进行审计,本发明将以贷后检查报告内容查重场景为例,进行详细说明;若需要对文本内容部分信息进行抽取,则采用要素抽取模型进行审计,本发明将以监测放款审批条件落实情况场景为例,进行详细说明。
第一实施例,自动识别贷款审批环节中审批意见与结论不一致业务,锁定疑似高风险的信贷客户。信贷流程中的审批通知书中的审批意见能够表达审批者对该笔授信持支持或者反对的情感态度,若审批意见中出现负面情感态度(即反对),而审批结论却予以通过该笔授信业务,则该笔授信业务可能具有较大风险隐患,在合规检查或审计过程中应被及时关注。因此此类客户需要采用情感分类模型来审计。
进一步的,建立情感分类模型的方式如下:
获取批量历史审批通知书中的有效样本,所述有效样本包括业务架构、财务、外部信息、经营以及担保;
采用n-gram语言模型,将所述有效样本划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量;
采用支持向量机训练TF-IDF词向量,以建立情感分类模型。
再进一步的,通过情感分类模型进行审计的方式如下:
获取待审计文本材料的审批通知书;
采用n-gram语言模型,将所述待审计的审批通知书划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量;
将TF-IDF词向量输入支持向量机,得到审计结果,根据审计结果判断客户的风险情况。
在实际运用中,基于该情感分类模型,本发明选取了2021年下半年的对公信贷业务进行验证,通过模型自动识别审批通知书中具有严重负面情感描述需要进行贷后重点监测的客户约占8%;经过一年以上的时间验证,发现这些判定为贷后重点监测的客户中,五级分类后三类的客户数占五级分类后三类全量客户的27%,涉及金额20多亿。由此可见,该模型在疑似高风险客户识别方面贡献度较高。
第二实施例,自动识别贷后检查报告内容重复问题,快速发现贷后管理不审慎的情况。信贷流程中同一笔信贷业务不同季度的贷后检查报告以及同一行业不同客户的贷后检查报告存在相互抄袭等,客户经理未认真履行贷后调查职责的问题。传统查重方式采用人工校验,工作量极大,且人工无法遍历所有行业的贷后检查报告,存在贷后管理盲区。
本发明建立了相似度计算模型及对应审计方法,如图2所示,建立相似度计算模型的方式如下:
获取批量历史贷后检查报告的文本信息;
采用n-gram语言模型,将所述文本信息划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为多个文本向量,并将多个所述文本向量存入文本向量数据库,以建立相似度计算模型。
通过相似度计算模型进行审计的方式如下:
获取待审计文本材料的贷后检查报告的文本信息,利用TF-IDF词袋模型将新的文本信息转化为新的文本向量;
计算新的文本向量与文本向量数据库中每一个文本向量的余弦相似度值;
根据余弦相似度值的高低预设余弦相似度值筛选条件,优选的,筛选条件为选取余弦相似度值从高向低排序的前5个;
根据筛选条件选取文本向量数据库中的文本向量,以判断贷后检查报告的重复率。
在实际运用中,在业务效果方面,可从行业内查重和公司内查重两个维度进行选择。行业内查重排查的是同一个行业内不同客户之间的贷后检查报告是否存在抄袭现象,公司内查重排查的是同一笔授信业务不同季度的贷后检查报告是否抄袭。当不选择行业内或者公司内查重时,则默认新上传贷后检查报告与数据库中所有行业的贷后检查报告进行查重。
第三实施例,自动监测放款审批条件落实情况,甄别未严格落实放款条件的业务。放款审核是信贷管理的重要一环,为快速发现可能出现的审批条件未落实情况,可运用NLP技术进行分词、词性分析提炼出关键词,并结合结构化数据交叉分析,实现对贷款审批条件中主要结算行条件未落实、追加担保审批条件未落实、贷后未反映项目贷款工程进度等场景的智能审计。
本发明建立了要素抽取模型。
选取历史的审批通知书,审批通知书首先通过关键词做有效数据筛选任务,选取的有效数据、无效数据样本关键词如表1所示。
表1 有效/无效数据判定标准
有效数据关键词 | 无效数据关键词 |
追加xx个人无限责任担保追加xx担保追加关联方xx担保追加企业法定代表人xx担保要求:追加xx担保提供xx担保 | 及时采取提前收贷、追加担保等有效措施防范建议追加xx担保争取追加xx担保 |
要素抽取模型的建设过程如下:
要素抽取模型使用基于字的BiLSTM-CRF模型,采用BMESO标注集,即B-PER、M-PER、E-PER、S-PER代表人名首字、人名中间字、人名尾字、人名单字,B-LOC、M-LOC、E-LOC、S-LOC代表地名首字、地名中间字、地名尾字、地名单字,B-ORG、M-ORG、E-ORG、S-ORG代表组织机构名首字、组织机构名中间字、组织机构名尾字、组织机构名单字,O代表该字不属于命名实体的一部分。要素抽取模型结构如图3所示。
以句子为单位,将一个含有n个字的句子(字的序列)记作x=(x1,x2,...,xn),其中xi表示句子的第i个字在字典中的id,进而可以得到每个字的one-hot向量,维数是字典大小。
模型的第一层是look-up层,利用预训练或随机初始化的embedding矩阵将句子中的每个字 xi由one-hot向量映射为低维稠密的字向量(character embedding)xi∈Rd,d是embedding的维度。为了更好的效果可以把bert输出的向量作为embedding矩阵的初始化参数,然后再经过训练来调整。其中,bert为在相似句任务上调整过的开源模型。在输入下一层之前,设置dropout以缓解过拟合。
模型的第二层是双向LSTM层,自动提取句子特征。将一个句子的各个字的charembedding序列 (x1,x2,...,xn)作为双向LSTM各个时间步的输入,再将正向LSTM输出的隐状态序列(h1’,h2’,...,hn’)与反向LSTM输出的隐状态序列(h1”,h2”,...,hn”)在各个位置输出的隐状态按位置拼接 ht=[ht’;ht”]∈Rm,得到完整的隐状态序列(h1,h2,...,hn)∈Rn×m。在设置dropout后,接入一个线性层,将隐状态向量从m维映射到k维,k是标注集的标签数,从而得到自动提取的句子特征,记作矩阵P=(p1,p2,...,pn)∈Rn×k 。
模型的第三层是CRF层,进行句子级的序列标注。CRF层的参数是一个 (k+2)×(k+2)的矩阵A,Aij表示的是从第i个标签到第j个标签的转移得分,进而在为一个位置进行标注的时候可以利用此前已经标注过的标签,之所以要加2是因为要为句子首部添加一个起始状态以及为句子尾部添加一个终止状态。如果记一个长度等于句子长度的标签序列y=(y1,y2,...,yn),那么模型对于句子x的标签等于y的打分为:
可以看出整个序列的打分等于各个位置的打分之和,而每个位置的打分由两部分得到,一部分是由LSTM输出的pi决定,另一部分则由CRF的转移矩阵A决定。进而可以利用Softmax得到归一化后的概率:
;通过得到的概率判断是否抽取。
优选的,模型训练时通过最大化对数似然函数,下式给出了对一个训练样本的对数似然:
模型在预测过程(解码)时使用动态规划的Viterbi算法来求解最优路径。
进一步的,本发明通过要素抽取模型进行审计的方式如下:
获取待审计文本材料的审批通知书中有效数据的句子;
将其输入要素抽取模型中,要素抽取模型输出抽取概率,通过得到的概率判断是否抽取。
在实际运用中,利用要素抽取模型对2019-2021年的审批通知书进行抽取任务,约5.3%的审批通知书具有追加担保的文本信息,与授信业务风险监测系统(crms)里已经登记的担保物名称核对后,筛选出若干笔业务的模型结果应用到对应经营单位内控合规性检查过程中。检查结果发现,筛选出的若干笔业务中,64%的业务尚未追加担保,28%的业务已经完成追加担保,8%的业务为模型误判。误判原因为审批通知书同时对多家公司要求追加担保,导致模型无法正确识别审批主体。
综上,在本发明所提供的基于NLP技术的智能审计方法中,通过对待审计文本材料的审计抽样思路转化为自然语言处理问题并通过智能引擎完成自动化处理,一方面能够实现对海量材料的批量分析,提高效率,增加覆盖面;另一方面,能够为现场审计人员提供更加精准的抽样清单,可以实现批量识别高风险问题,做到风险提前监测、事后快速响应。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。
Claims (6)
1.一种基于NLP技术的智能审计方法,其特征在于,包括以下步骤:
S1:将审计分为3类,分别为情感分类、相似度计算和要素抽取;
S2:建立3个审计模型;
获取批量历史审批通知书中的负面情感为样本,采用支持向量机训练样本并建立情感分类模型;
建立相似度计算模型,方式如下:获取批量历史贷后检查报告的文本信息;采用n-gram语言模型,将所述文本信息划分为多个子串,多个所述子串长度为1-3;采用TF-IDF词袋模型将多个所述子串转化为多个文本向量,并将多个所述文本向量存入文本向量数据库,以建立相似度计算模型;
获取批量历史审批通知书中有效数据的句子,采用BiLSTM-CRF模型和BMESO标注集对所述句子进行训练,以建立要素抽取模型;
S3:设置智能审计规则,根据智能审计规则为待审计文本材料选择对应的审计模型;其中,智能审计规则包括:若需要对文本内容进行情感分析,则采用情感分类模型进行审计;若需要对文本内容进行相似度分析,则采用相似度计算模型进行审计;若需要对文本内容部分信息进行抽取,则采用要素抽取模型进行审计;
S4:通过情感分类模型、相似度计算模型或要素抽取模型对待审计文本材料进行审计;
所述情感分类模型自动识别审批通知书中具有负面情感描述需要进行贷后重点监测的客户,并根据审计结果判断客户的风险情况;
通过相似度计算模型进行审计的方式如下:获取待审计文本材料的贷后检查报告的文本信息,利用TF-IDF词袋模型将新的文本信息转化为新的文本向量;计算新的文本向量与文本向量数据库中每一个文本向量的余弦相似度值;根据余弦相似度值的高低预设余弦相似度值筛选条件;根据筛选条件选取文本向量数据库中的文本向量,以判断贷后检查报告的重复率;
基于所述要素抽取模型对审批通知书进行抽取任务,根据筛选出若干笔业务的模型结果,检查经营单位内控合规性。
2.如权利要求1所述的基于NLP技术的智能审计方法,其特征在于,建立情感分类模型的方式如下:
获取批量历史审批通知书中的有效样本;
采用n-gram语言模型,将所述有效样本划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量;
采用支持向量机训练TF-IDF词向量,以建立情感分类模型。
3.如权利要求2所述的基于NLP技术的智能审计方法,其特征在于,所述有效样本包括业务架构、财务、外部信息、经营以及担保。
4.如权利要求2所述的基于NLP技术的智能审计方法,其特征在于,通过情感分类模型进行审计的方式如下:
获取待审计文本材料的审批通知书;
采用n-gram语言模型,将所述待审计的审批通知书划分为多个子串,多个所述子串长度为1-3;
采用TF-IDF词袋模型将多个所述子串转化为TF-IDF词向量;
将TF-IDF词向量输入支持向量机,得到审计结果,根据审计结果判断客户的风险情况。
5.如权利要求1所述的基于NLP技术的智能审计方法,其特征在于,筛选条件为选取余弦相似度值从高向低排序的前5个。
6.如权利要求1所述的基于NLP技术的智能审计方法,其特征在于,通过要素抽取模型进行审计的方式如下:
获取待审计文本材料的审批通知书中有效数据的句子;
将其输入要素抽取模型中,要素抽取模型输出抽取概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311069992.9A CN116777607B (zh) | 2023-08-24 | 2023-08-24 | 一种基于nlp技术的智能审计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311069992.9A CN116777607B (zh) | 2023-08-24 | 2023-08-24 | 一种基于nlp技术的智能审计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116777607A CN116777607A (zh) | 2023-09-19 |
CN116777607B true CN116777607B (zh) | 2023-11-07 |
Family
ID=87989931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311069992.9A Active CN116777607B (zh) | 2023-08-24 | 2023-08-24 | 一种基于nlp技术的智能审计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116777607B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495314B (zh) * | 2024-01-02 | 2024-04-02 | 尚恰实业有限公司 | 一种基于机器学习的自动化审批方法及系统 |
CN118445430A (zh) * | 2024-07-01 | 2024-08-06 | 北京至臻云智能科技有限公司 | 基于大模型的审计问题法律依据分析方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN113297283A (zh) * | 2020-11-12 | 2021-08-24 | 苏宁金融科技(南京)有限公司 | 用于企业风险预警的舆情分析方法及系统 |
CN113312449A (zh) * | 2021-05-17 | 2021-08-27 | 华南理工大学 | 基于关键字和深度学习的文本审核方法、系统及介质 |
CN113672731A (zh) * | 2021-08-02 | 2021-11-19 | 北京中科闻歌科技股份有限公司 | 基于领域信息的情感分析方法、装置、设备及存储介质 |
CN113919291A (zh) * | 2021-09-26 | 2022-01-11 | 上海犀语科技有限公司 | 一种基于模拟控制的主从并机均流方法 |
CN114298025A (zh) * | 2021-12-01 | 2022-04-08 | 国家电网有限公司华东分部 | 基于人工智能的情感分析的方法 |
CN115688788A (zh) * | 2022-11-09 | 2023-02-03 | 北京至臻云智能科技有限公司 | 用于审计领域的命名实体识别模型的训练方法及相关设备 |
CN116029673A (zh) * | 2023-01-06 | 2023-04-28 | 中国建设银行股份有限公司 | 业务审批数据抽样评价方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013170345A1 (en) * | 2012-05-15 | 2013-11-21 | Whyz Technologies Limited | Method and system relating to re-labelling multi-document clusters |
-
2023
- 2023-08-24 CN CN202311069992.9A patent/CN116777607B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN113297283A (zh) * | 2020-11-12 | 2021-08-24 | 苏宁金融科技(南京)有限公司 | 用于企业风险预警的舆情分析方法及系统 |
CN113312449A (zh) * | 2021-05-17 | 2021-08-27 | 华南理工大学 | 基于关键字和深度学习的文本审核方法、系统及介质 |
CN113672731A (zh) * | 2021-08-02 | 2021-11-19 | 北京中科闻歌科技股份有限公司 | 基于领域信息的情感分析方法、装置、设备及存储介质 |
CN113919291A (zh) * | 2021-09-26 | 2022-01-11 | 上海犀语科技有限公司 | 一种基于模拟控制的主从并机均流方法 |
CN114298025A (zh) * | 2021-12-01 | 2022-04-08 | 国家电网有限公司华东分部 | 基于人工智能的情感分析的方法 |
CN115688788A (zh) * | 2022-11-09 | 2023-02-03 | 北京至臻云智能科技有限公司 | 用于审计领域的命名实体识别模型的训练方法及相关设备 |
CN116029673A (zh) * | 2023-01-06 | 2023-04-28 | 中国建设银行股份有限公司 | 业务审批数据抽样评价方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
Extraction and normalization of simple and structured entities in medical documents;Perceval Wajsburt;《HAL open science》;全文 * |
基于文本挖掘技术的电力企业招投标智能审计探索与实践;王淼;朱宇龙;马博;刘森;黎晚晴;;中国管理信息化(14);全文 * |
基于机器学习算法的引文情感自动识别研究――以自然语言处理领域为例;徐琳宏;丁堃;林原;杨阳;;现代情报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116777607A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684440B (zh) | 基于层级标注的地址相似度度量方法 | |
CN116777607B (zh) | 一种基于nlp技术的智能审计方法 | |
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN112215004B (zh) | 一种基于迁移学习在军事装备文本实体抽取中的应用方法 | |
Abdullah et al. | Fake news classification bimodal using convolutional neural network and long short-term memory | |
CN108572967B (zh) | 一种创建企业画像的方法及装置 | |
CN109902285B (zh) | 语料分类方法、装置、计算机设备及存储介质 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN113220768A (zh) | 基于深度学习的简历信息结构化方法及系统 | |
CN109740642A (zh) | 发票类别识别方法、装置、电子设备及可读存储介质 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN117112782A (zh) | 一种招标公告信息提取方法 | |
Sandifer et al. | Detection of fake online hotel reviews | |
CN113806548A (zh) | 基于深度学习模型的信访要素抽取方法及抽取系统 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN117910648A (zh) | 企业违约预测方法、装置及计算设备 | |
CN112668335B (zh) | 一种利用命名实体识别提取营业执照结构化信息的方法 | |
CN117077682B (zh) | 基于语义识别的公文分析方法及系统 | |
CN117574858A (zh) | 一种基于大语言模型的类案检索报告自动生成方法 | |
CN115422920B (zh) | 基于bert和gat的裁判文书争议焦点识别方法 | |
Kanhaiya et al. | AI Enabled-Information Retrival Engine (AI-IRE) in Legal Services: An Expert-Annotated NLP for Legal Judgements | |
Purba et al. | A hybrid convolutional long short-term memory (CNN-LSTM) based natural language processing (NLP) model for sentiment analysis of customer product reviews in Bangla | |
CN115329169B (zh) | 一种基于深度神经模型的档案归档计算方法 | |
CN112133308B (zh) | 一种用于语音识别文本多标签分类的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information |
Inventor after: Yang Jing Inventor after: Chen Chao Inventor after: Li Mengxiao Inventor after: Wang Lushan Inventor before: Li Xuejiao Inventor before: Yang Jing Inventor before: Chen Chao Inventor before: Li Mengxiao Inventor before: Wang Lushan |
|
CB03 | Change of inventor or designer information |