CN117422428A - 一种基于人工智能的机器人自动审批方法及系统 - Google Patents
一种基于人工智能的机器人自动审批方法及系统 Download PDFInfo
- Publication number
- CN117422428A CN117422428A CN202311744282.1A CN202311744282A CN117422428A CN 117422428 A CN117422428 A CN 117422428A CN 202311744282 A CN202311744282 A CN 202311744282A CN 117422428 A CN117422428 A CN 117422428A
- Authority
- CN
- China
- Prior art keywords
- keywords
- keyword
- verification
- target
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 29
- 238000012795 verification Methods 0.000 claims abstract description 153
- 239000013598 vector Substances 0.000 claims abstract description 59
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 57
- 238000013528 artificial neural network Methods 0.000 claims description 45
- 238000007689 inspection Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 17
- 230000004927 fusion Effects 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 108010074506 Transfer Factor Proteins 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 9
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 239000004566 building material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Abstract
本发明涉及用于管理的数据处理技术领域,具体涉及一种基于人工智能的机器人自动审批方法及系统,包括:通过对验证文件和待审批数据进行关键词提取,并将关键词进行向量转换,根据关键词对应关键词向量之间的相似性对关键词赋予权重参数,结合权重参数构建目标函数以及损失函数,结合损失函数对待审批数据进行审批。本发明用关键词提取、权重参数计算等技术手段,能够更准确地分析文档中的关键信息,提高了机器人的审批准确性,降低错误决策的风险,同时自动审批能够快速处理大量的审批数据,大大提高了文件审批的处理效率。
Description
技术领域
本发明涉及用于管理的数据处理技术领域,具体涉及一种基于人工智能的机器人自动审批方法及系统。
背景技术
机器人流程自动化技术是一种利用计算机程序自动执行业务流程和任务的管理方法,通常按照事先定义程序逻辑执行任务,对于处理重复性高、遵循明确规则的管理任务非常有效。
但是由于财务审批时需要对文件进行高要求的验证,仅通过模拟人工审批规则和处理逻辑,不能满足财务审批的要求。
现有方法中通常利用查验合同文件与财务申报文件的方式来验证审批流程的安全性,但传统自然语言技术配合神经网络生成数据验证脚本时,可能会从验证文件中提取大量冗余关键词,使得智能机器人对审批文件的验证结果容易出现错误和异常,因此需要在财务审批时对人工智能的处理逻辑进行优化。
发明内容
本发明提供一种基于人工智能的机器人自动审批方法及系统,以解决现有的问题。
本发明的一种基于人工智能的机器人自动审批方法及系统采用如下技术方案:
本发明一个实施例提供了一种基于人工智能的机器人自动审批方法,该方法包括以下步骤:
获取服务器中的待审批数据和数据库中的验证文件,获取任意验证文件的同类验证文件以及所形成的同类集合;
对任意验证文件进行分词获得若干个关键词,对关键词进行向量转换获得关键词的关键词向量,根据同类集合中任意同类验证文件中的关键词与其他同类验证文件中关键词之间的相似性,获得关键词的权重参数;
根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,构建关键词的目标函数,构建神经网络,获取关键词在神经网络中的隐藏层状态,根据关键词的目标函数的大小获得关键词的传递参数,利用关键词的传递参数以及隐藏层状态对关键词的权重参数进行调节获得关键词的结构权重,根据若干个关键词对应的结构权重形成的集合构建神经网络的损失函数;
根据损失函数的大小对待审批数据进行审批。
进一步地,所述获取任意验证文件的同类验证文件以及所形成的同类集合,包括的具体方法为:
获取数据库中的合同文件,将合同文件称为验证文件,将相同用途、相同领域的验证文件记为同类验证文件,将数据库中任意验证文件对应的所有同类验证文件形成的集合记为同类集合。
进一步地,所述对任意验证文件进行分词获得若干个关键词,对关键词进行向量转换获得关键词的关键词向量,包括的具体方法为:
对验证文件进行Jieba分词获得若干个字符串,将任意字符串记为关键词,利用Word2Vec算法获取关键词的向量记为关键词向量。
进一步地,所述根据同类集合中任意同类验证文件中的关键词与其他同类验证文件中关键词之间的相似性,获得关键词的权重参数,包括的具体方法为:
同一关键词会在同类验证文件中出现,一个关键词对应若干个同类验证文件;
将同类集合中任意同类验证文件记为目标验证文件,获取同类集合中包含目标验证文件中任意关键词的同类验证文件的数量记为关键词的第一数值,将同类集合中所有验证文件的数量与第一数值的比值记为关键词的第二数值;
根据关键词的关键词向量之间的余弦相似性获得关键词的若干个可替换系数,将记为关键词的权重参数,其中A表示关键词的第二数值;B表示关键词的所有可替换系数的平均值。
进一步地,所述根据关键词的关键词向量之间的余弦相似性获得关键词的若干个可替换系数,包括的具体方法为:
其中,表示目标验证文件中第/>个关键词的可替换系数;/>为目标验证文件的第/>个同类验证文件的关键词集合,所述关键词集合由目标验证文件的第/>个同类验证文件中所有关键词构成;/>为目标验证文件中的第/>个关键词与所述关键词集合中第/>个关键词的关键词向量之间的相似度;/>表示所述关键词集合中第/>个关键词;/>表示目标验证文件中的第/>个关键词的关键词向量;/>表示所述关键词集合中的第/>个关键词的关键词向量;/>和/>分别表示目标验证文件中第/>个和第/>个关键词的关键词向量;/>和/>分别表示所述关键词集合中/>个和第/>个关键词的关键词向量;/>表示余弦函数;/>表示获取最小值。
进一步地,所述根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,构建关键词的目标函数,包括的具体方法为:
在任意验证文件中,将任意关键词记为目标关键词,将目标关键词之前的若干个关键词中任意个关键词记为目标关键词的结构关键词;
根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,获得目标关键词的若干个融合因子,将记为关键词的目标函数,其中,/>表示目标关键词的结构关键词的数量;/>表示目标关键词在第/>个结构关键词下的融合因子;/>表示自然常数。
进一步地,所述根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,获得目标关键词的若干个融合因子,包括的具体方法为:
目标关键词在第个结构关键词下的融合因子的具体计算方法为:
其中,表示目标关键词在第/>个结构关键词下的融合因子;/>表示目标验证文件中目标关键词之前的关键词的数量;/>表示目标验证文件中目标关键词之前的第/>个关键词的权重参数;/>表示目标验证文件中目标关键词之前的第/>个关键词的权重参数;表示目标关键词的第/>个结构关键词的关键词向量;/>表示目标关键词的第/>个结构关键词的关键词向量;/>表示绝对值符号;/>表示余弦函数。
进一步地,所述构建神经网络,获取关键词在神经网络中的隐藏层状态,根据关键词的目标函数的大小获得关键词的传递参数,利用关键词的传递参数以及隐藏层状态对关键词的权重参数进行调节获得关键词的结构权重,根据若干个关键词对应的结构权重形成的集合构建神经网络的损失函数,包括的具体方法为:
迭代目标关键词的结构关键词的数量,直至目标关键词的目标函数的输出值最小,将目标关键词的最小输出值记为目标关键词的传递因子;将记为目标关键词的传递参数,其中/>表示目标关键词的传递因子;
构建RNN神经网络,将关键词作为RNN神经网络的输入,获取任意关键词在RNN神经网络中的隐藏层状态,将与目标关键词相邻的结构关键词记为目标关键词的近邻关键词,将记为第/>个目标关键词的结构权重,其中,/>表示第/>个目标关键词的权重参数;/>表示第/>个目标关键词的近邻关键词的隐藏层状态;/>表示第/>个目标关键词的近邻关键词的传递参数;
将任意验证文件中任意数量的关键词形成的组合记为关键词组,将关键词组中所有关键词的结构权重的累加值记为关键词组的总结构权重;获取任意数量的验证文件记为调取验证文件,根据若干个调取验证文件的关键词组内关键词的结构权重构建RNN神经网络的损失函数,具体获取方法为:
其中,表示损失函数;/>表示调取验证文件的数量;/>表示第/>个调取验证文件的关键词组的总结构权重,/>表示所有调取验证文件的关键词组的平均总结构权重;/>表示以自然常数为底数的指数函数。
进一步地,所述根据损失函数的大小对待审批数据进行审批,包括的具体方法为:
首先,迭代选取验证文件以及验证文件中的关键词,直至损失函数的输出值最大,当损失函数的输出值最大时,将获取的关键词组作为调取验证文件的立项关键词组,对待审批数据进行Jieba分词获得待审批数据中的关键词,将待审批数据中的所有关键词形成的集合记为待审批数据的特征关键词集合;
然后,获取待审批数据的特征关键词集合中任意关键词与任意立项关键词组中所有关键词的关键词向量之间的最大余弦相似度,记为特征关键词集合中所述关键词的相似参数,将待审批数据的特征关键词集合中所有关键词的相似参数记为待审批数据的验证参数,当待审批数据的验证参数大于等于预设的验证阈值时,通过对待审批数据的初步审批工作,当待审批数据的验证参数小于预设的验证阈值时,不通过对待审批数据的审批工作,并进行标注。
本发明的实施例提供了一种基于人工智能的机器人自动审批系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述计算机程序通过所述处理器执行所述的一种基于人工智能的机器人自动审批方法。
本发明的技术方案的有益效果是:通过优化RNN神经网络结构中的关键词权重模型,并计算关键词之间隐藏状态的传递率并用于修正传递结果,使不会再对无效关联性的关键词赋予过高的权重参数,可以更好的提取验证文件中的有效关键词组,避免冗余词组对验证结果的不良影响,提高机器人自动审批时数据审批过程的审批效率和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于人工智能的机器人自动审批方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于人工智能的机器人自动审批方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于人工智能的机器人自动审批方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于人工智能的机器人自动审批方法的步骤流程图,该方法包括以下步骤:
步骤S001:获取服务器中的待审批数据和数据库中的验证文件。
具体的,为了实现本实施例提出的一种基于人工智能的机器人自动审批方法,首先需要采集待审批数据,具体过程为:
申请人将项目财务报表制作完成后,上传至服务器中,将上传到服务器中的财务报表数据记为待审批数据。
获取数据库中的合同文件,将合同文件也称为验证文件,将相同用途、相同领域的验证文件记为同类验证文件,将数据库中任意验证文件对应的所有同类验证文件形成的集合记为同类集合。
需要说明的是,例如将属于建筑工程领域的建筑材料合同文件称为同类验证文件,将建筑工程领域的人力资源合同文件称为同类验证文件。
至此,通过上述方法得到待审批数据。
步骤S002:对任意验证文件进行分词获得若干个关键词,对关键词进行向量转换获得关键词的关键词向量,根据同类集合中任意验证文件中的关键词与对应同类验证文件中关键词之间的相似性,获得关键词的权重参数。
需要说明的是,机器人自动审批财务类文件时,最重要的一点是需要核对、验证待审批数据的真实性,避免虚假报账和错账,传统机器人自动化审批是通过调取、检索相关文件和信息,利用自然语言技术、数据挖掘和数据分析的方式进行验证,但是当前自然语言技术对验证文件的关键信息调取经常会出现较多冗余信息,导致机器人自动化审批过程无法对待审批数据进行有效验证,这是因为验证文件,例如施工合同、施工日志、付款凭证、收据、发票、审计报告等文件并不具有很强的上下文关联性,因此按照自然语言技术对重要词组的提取规则进行验证信息提取时,总是出现所有词组的关键权重较低且相近,提取结果并不理想。
需要说明的是,虽然通过训练神经网络可以高效提取所有关键词中的核心验证信息,但是传统神经网络结合自然语言技术的提取逻辑不足以得到准确有效的验证信息,本实施例通过优化RNN神经网络,获取每个验证文件的立项结构词组;另外,按照关键词在验证文件中的顺序,RNN神经网络会计算一个隐藏状态,隐藏状态的作用是提取之前数据的信息并传递给下一个数据中,该隐藏状态包含了来自上一个数据的隐藏状态和当前数据的输入,这允许RNN神经网络在处理序列数据时保留上下文信息。但文本合同中前后关键词之间的隐藏状态并不具有稳定的传递关系,按照传统RNN神经网络结构所保留的上下文信息可能并没有实际用处,因此本实施例对前后关键词的传递函数进行优化。
具体的,首先,构建RNN神经网络,对验证文件进行Jieba分词获得若干个字符串,将任意字符串记为关键词,将关键词作为RNN神经网络的输入,利用Word2Vec算法获取关键词的向量记为关键词向量,同一关键词会在同类验证文件中出现,即一个关键词对应若干个同类验证文件。
需要说明的是,RNN(Recurrent Neural Network)神经网络的中文名称为循环神经网络,由于RNN神经网络为现有的神经网络,因此本实施例不进行赘述。
需要说明的是,Jieba分词为现有的分词工具,Word2Vec算法为现有的将字符串转换为向量的算法,因此本实施例不对Jieba分词和Word2Vec算法进行赘述。
需要说明的是,传统RNN神经网络包含的注意力机制,使其在提取文档关键词时会着重关注关键词在文档中的兴趣度,一般利用TF-IDF算法提取关键词的权重参数,然后基于词权和关键词的顺序建立网络结构中的隐藏状态,但是TF-IDF算法是以统计的方式独立判定关键词的词权,这可能造成网络结构的隐藏状态出现不稳定的传递关系,以及增加冗余的训练节点。
需要说明的是,所述TF-IDF(Term Frequency-Inverse Document Frequency)算法的中文名称为词频-逆文档频率算法,由于TF-IDF算法为现有算法,因此本实施例不进行赘述。
然后,对于任意包含若干个同类验证文件的同类集合,将同类集合中任意验证文件记为目标验证文件,获取目标验证文件中关键词的权重参数:
其中,表示目标验证文件中第/>个关键词的权重参数;/>表示同类集合中验证文件的数量;/>表示同类集合中包含目标验证文件的第/>个关键词的同类验证文件的数量;/>为目标验证文件的第/>个同类验证文件的关键词集合,所述关键词集合由目标验证文件的第/>个同类验证文件中所有关键词构成;/>为目标验证文件中的第/>个关键词与所述关键词集合中第/>个关键词的关键词向量之间的相似度;/>表示所述关键词集合中第/>个关键词;/>表示目标验证文件中的第/>个关键词的关键词向量;/>表示所述关键词集合中的第/>个关键词的关键词向量;/>和/>分别表示目标验证文件中第/>个和第/>个关键词的关键词向量;/>和/>分别表示所述关键词集合中第/>个和第/>个关键词的关键词向量;/>表示余弦函数;/>表示获取最小值;/>表示以常数2为底数的对数函数。
需要说明的是,当关键词出现越频繁则越小,逆文档频率/>越接近0;、/>以及/>均反映了目标验证文件的关键词与对应同类验证文件中关键词之间关键词向量的余弦相似度,余弦相似度越大,关键词向量越相近。
需要说明的是,可替换系数用于描述目标验证文件中关键词可以替换同类验证文件中关键词的概率;/>中分子越小且分母越大时,/>越小,则目标验证文件中第/>个关键词可以替换第/>个同类验证文件中的第/>个关键词的概率越高。
需要说明的是,本实施例相比于传统TF-IDF关键词权重提取方法,不以传统的词频作为关键词的权重参数,而是以关键词的可替换率与逆文档频率的乘积作为关键词的权重参数,当关键词的可替换率越高,且逆文档频率越高,越符合此类特性的关键词越可能为验证信息,关键词的权重参数越大;反之关键词的替换率低且逆文档频率低时,关键词越可能为冗余信息,关键词的权重参数越小,包含验证信息的关键词可以主导审批文档的语义信息,使RNN网络结构中相邻关键词的传递关系更为稳定,而不是独立判定单个关键词的词权,避免了网络结构中出现不稳定的隐藏状态以及冗余的训练节点。
至此,通过上述方法得到关键词的权重参数。
步骤S003:根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,构建关键词的目标函数,根据关键词的目标函数的大小获得关键词的传递参数,利用关键词的传递参数以及隐藏层状态对关键词的权重参数进行调节获得关键词的结构权重,根据若干个关键词对应结构权重形成的集合构建损失函数。
需要说明的是,传统RNN网络的隐藏状态在保留文档上下文关联性时,冗余关键词组成的冗余词组,或具有验证信息的关键词与其他不重要的冗余关键词组成的冗余词组,均会出现的具有较高权重的问题,而包含了审批逻辑词组的词权不够突出,这会影响RNN网络的收敛速度。
验证信息为机器人自动审批系统从验证文件中提取的核心信息,验证信息之间具有一定的结构相似性,我们的目的是从完整的验证文件中提取出一部分关键词作为立项结构词组,被提取的关键词之间结构相似,而以不同类型的关键词为标准时可以得到多种结构相似的关键词组。因此本发明将目标验证文件中任意一个关键词作为目标关键词,然后需要假设每个目标关键词为结构中心,根据目标关键词建立结构词组并计算目标关键词的传递率。
具体的,步骤(3.1),首先,在任意验证文件中,将任意关键词记为目标关键词,将目标关键词之前的若干个关键词中任意个关键词记为目标关键词的结构关键词。
然后,构建目标关键词的目标函数,具体获取方法为:
其中,表示目标关键词的目标函数;/>表示目标关键词的结构关键词的数量;/>表示验证文件中目标关键词之前的关键词的数量;/>表示验证文件中目标关键词之前的第/>个关键词的权重参数;/>表示验证文件中目标关键词之前的第/>个关键词的权重参数;/>表示目标关键词的第/>个结构关键词的关键词向量;/>表示目标关键词的第/>个结构关键词的关键词向量;/>表示绝对值符号;/>表示自然常数;/>表示余弦函数。
需要说明的是,当第个关键词与第/>个关键词的权重参数相近时,/>越小,权重比因子/>反映了目标关键词之前的所有相邻的关键词之间的权重参数比值;近邻相似度/>表示目标关键词的相邻的结构关键词之间的余弦相似度;融合因子/>表示权重比因子与近邻相似度的平均值,将目标关键词对应所有相邻结构关键词下的融合因子的均值,作为目标关键词的目标函数输出值;/>作为惩罚项,若/>越小,则目标函数的惩罚项越大。
需要说明的是,目标关键词与其之前相邻关键词的关键词权重越相近,且目标关键词与其相邻结构关键词的关键词向量之间相似度越低,代表目标关键词在验证文件中的可替换程度较高,且其与其他结构关键词互不相关,那么目标关键词越能够反映验证文件的特征。
最后,迭代目标关键词的结构关键词的数量,直至目标关键词的目标函数的输出值最小,将目标关键词的最小输出值记为目标关键词的传递因子;将记为目标关键词的传递参数,其中/>表示目标关键词的传递因子。
需要说明的是,目标关键词的目标函数的输出值越小,其在RNN神经网络中向目标关键词之后的关键词所传递隐藏状态的传递参数越高,则第个关键词和第/>个关键词之间存在字符结构的相关性,而非语义相关性,通过计算传递参数修正相邻关键词之间的关联关系,可以避免RNN神经网络根据传统隐藏状态保留上下文关联性时,出现的冗余词组同样具有较高权重的问题。
步骤(3.2),首先,获取任意关键词在RNN神经网络中的隐藏层状态,将与目标关键词相邻的结构关键词记为目标关键词的近邻关键词,根据关键词的权重参数、隐藏层状态以及传递参数获得关键词的结构权重,具体计算方法为:
其中,表示第/>个目标关键词的结构权重,/>表示第/>个目标关键词的权重参数;/>表示第/>个目标关键词的近邻关键词的隐藏层状态;/>表示第/>个目标关键词的近邻关键词的传递参数。
需要说明的是,RNN神经网络的关键部分是循环连接,本质上即为一个不断重复以上输入输出过程的网络结构,不断将上一个关键词的隐藏状态利用传递函数传递给下一个关键词,直至序列中所有数据的关键概率均建立起结构关系。
然后,将任意验证文件中任意数量的关键词形成的组合记为关键词组,将关键词组中所有关键词的结构权重的累加值记为关键词组的总结构权重;获取任意数量的验证文件记为调取验证文件,根据若干个调取验证文件的关键词组内关键词的结构权重构建RNN神经网络的损失函数,具体获取方法为:
其中,表示损失函数;/>表示调取验证文件的数量;/>表示第/>个调取验证文件的关键词组的总结构权重,/>表示所有调取验证文件的关键词组的平均总结构权重;/>表示以自然常数为底数的指数函数。
需要说明的是,表示所有调取验证文件的总结构权重的方差,方差越小,/>越大,则损失函数的输出值越大,反映了关键词组之间的相似性越大,且所提取关键词组中关键词的结构权重越高,则各验证文件的关键词组越能够描述验证文件的特征,即所述关键词组越具有关注度、核心内容价值以及可验证性。
需要说明的是,本实施例通过优化RNN神经网络结构中的关键词的权重参数,并计算关键词之间隐藏状态的传递参数修正传递结果,使被训练的RNN神经网络不会再对无效关联性的关键词赋予过高的词权,可以更好的提取验证文件中的有效关键词,提高机器人自动审批时数据验证过程的验证效率和准确性。
至此,通过上述方法得到RNN神经网络的损失函数。
步骤S004:根据损失函数的大小对待审批数据进行审批。
具体的,首先,迭代选取验证文件以及验证文件中的关键词,直至损失函数的输出值最大,当损失函数的输出值最大时,将获取的关键词组作为调取验证文件的立项关键词组,对待审批数据进行Jieba分词获得待审批数据中的关键词,将待审批数据中的所有关键词形成的集合记为待审批数据的特征关键词集合。
需要说明的是,所述待审批数据的特征关键词集合中包括每一条申报项目的项目名称、合同量、交付量、项目结算时间、申报金额、成本信息等。得到每一条申报项目所提取出的关键词集合。
然后,获取待审批数据的特征关键词集合中任意关键词与任意立项关键词组中所有关键词的关键词向量之间的最大余弦相似度,记为特征关键词集合中所述关键词的相似参数,将待审批数据的特征关键词集合中所有关键词的相似参数记为待审批数据的验证参数,当待审批数据的验证参数大于等于预设的验证阈值时,通过对待审批数据的初步审批工作,当待审批数据的验证参数小于预设的验证阈值时,不通过对待审批数据的审批工作,并进行标注。
需要说明的是,根据经验预设验证阈值为0.8,可根据实际情况进行调整,本实施例不进行具体限定。
需要说明的是,初步审批工作目的是为了利用基于人工智能的机器人验证待审批数据中申报项目的真实性,当待审批数据的审批工作没有通过时,通过发送异常报告,由工作人员重新检查、沟通后再进行提交。
通过以上步骤,完成对待审批数据的自动审批。
本发明的实施例提供了一种基于人工智能的机器人自动审批系统,该系统包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述计算机程序通过所述处理器执行步骤S001到步骤S004中的一种基于人工智能的机器人自动审批方法。
本发明的技术方案的有益效果是:通过优化RNN神经网络结构中的关键词权重模型,并计算关键词之间隐藏状态的传递率并用于修正传递结果,使不会再对无效关联性的关键词赋予过高的权重参数,可以更好的提取验证文件中的有效关键词组,避免冗余词组对验证结果的不良影响,提高机器人自动审批时数据审批过程的审批效率和准确性。
需要说明的是,本实施例中所用的模型仅用于表示负相关关系和约束模型输出的结果处于/>区间内,具体实施时,可替换成具有同样目的的其他模型,本实施例只是以/>模型为例进行叙述,不对其做具体限定,其中/>是指该模型的输入。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于人工智能的机器人自动审批方法,其特征在于,该方法包括以下步骤:
获取服务器中的待审批数据和数据库中的验证文件,获取任意验证文件的同类验证文件以及所形成的同类集合;
对任意验证文件进行分词获得若干个关键词,对关键词进行向量转换获得关键词的关键词向量,根据同类集合中任意同类验证文件中的关键词与其他同类验证文件中关键词之间的相似性,获得关键词的权重参数;
根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,构建关键词的目标函数,构建神经网络,获取关键词在神经网络中的隐藏层状态,根据关键词的目标函数的大小获得关键词的传递参数,利用关键词的传递参数以及隐藏层状态对关键词的权重参数进行调节获得关键词的结构权重,根据若干个关键词对应的结构权重形成的集合构建神经网络的损失函数;
根据损失函数的大小对待审批数据进行审批。
2.根据权利要求1所述一种基于人工智能的机器人自动审批方法,其特征在于,所述获取任意验证文件的同类验证文件以及所形成的同类集合,包括的具体方法为:
获取数据库中的合同文件,将合同文件称为验证文件,将相同用途、相同领域的验证文件记为同类验证文件,将数据库中任意验证文件对应的所有同类验证文件形成的集合记为同类集合。
3.根据权利要求1所述一种基于人工智能的机器人自动审批方法,其特征在于,所述对任意验证文件进行分词获得若干个关键词,对关键词进行向量转换获得关键词的关键词向量,包括的具体方法为:
对验证文件进行Jieba分词获得若干个字符串,将任意字符串记为关键词,利用Word2Vec算法获取关键词的向量记为关键词向量。
4.根据权利要求1所述一种基于人工智能的机器人自动审批方法,其特征在于,所述根据同类集合中任意同类验证文件中的关键词与其他同类验证文件中关键词之间的相似性,获得关键词的权重参数,包括的具体方法为:
同一关键词会在同类验证文件中出现,一个关键词对应若干个同类验证文件;
将同类集合中任意同类验证文件记为目标验证文件,获取同类集合中包含目标验证文件中任意关键词的同类验证文件的数量记为关键词的第一数值,将同类集合中所有验证文件的数量与第一数值的比值记为关键词的第二数值;
根据关键词的关键词向量之间的余弦相似性获得关键词的若干个可替换系数,将记为关键词的权重参数,其中/>表示关键词的第二数值;/>表示关键词的所有可替换系数的平均值。
5.根据权利要求4所述一种基于人工智能的机器人自动审批方法,其特征在于,所述根据关键词的关键词向量之间的余弦相似性获得关键词的若干个可替换系数,包括的具体方法为:
其中,表示目标验证文件中第/>个关键词的可替换系数;/>为目标验证文件的第/>个同类验证文件的关键词集合,所述关键词集合由目标验证文件的第/>个同类验证文件中所有关键词构成;/>为目标验证文件中的第/>个关键词与所述关键词集合中第/>个关键词的关键词向量之间的相似度;/>表示所述关键词集合中第/>个关键词;/>表示目标验证文件中的第/>个关键词的关键词向量;/>表示所述关键词集合中的第/>个关键词的关键词向量;和/>分别表示目标验证文件中第/>个和第/>个关键词的关键词向量;/>和分别表示所述关键词集合中第/>个和第/>个关键词的关键词向量;/>表示余弦函数;/>表示获取最小值。
6.根据权利要求1所述一种基于人工智能的机器人自动审批方法,其特征在于,所述根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,构建关键词的目标函数,包括的具体方法为:
在任意验证文件中,将任意关键词记为目标关键词,将目标关键词之前的若干个关键词中任意个关键词记为目标关键词的结构关键词;
根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,获得目标关键词的若干个融合因子,将记为关键词的目标函数,其中,/>表示目标关键词的结构关键词的数量;/>表示目标关键词在第/>个结构关键词下的融合因子;/>表示自然常数。
7.根据权利要求6所述一种基于人工智能的机器人自动审批方法,其特征在于,所述根据任意验证文件中关键词之间权重参数的差异以及关键词向量之间的相似性,获得目标关键词的若干个融合因子,包括的具体方法为:
目标关键词在第个结构关键词下的融合因子的具体计算方法为:
其中,表示目标关键词在第/>个结构关键词下的融合因子;/>表示目标验证文件中目标关键词之前的关键词的数量;/>表示目标验证文件中目标关键词之前的第/>个关键词的权重参数;/>表示目标验证文件中目标关键词之前的第/>个关键词的权重参数;/>表示目标关键词的第/>个结构关键词的关键词向量;/>表示目标关键词的第/>个结构关键词的关键词向量;/>表示绝对值符号;/>表示余弦函数。
8.根据权利要求6所述一种基于人工智能的机器人自动审批方法,其特征在于,所述构建神经网络,获取关键词在神经网络中的隐藏层状态,根据关键词的目标函数的大小获得关键词的传递参数,利用关键词的传递参数以及隐藏层状态对关键词的权重参数进行调节获得关键词的结构权重,根据若干个关键词对应的结构权重形成的集合构建神经网络的损失函数,包括的具体方法为:
迭代目标关键词的结构关键词的数量,直至目标关键词的目标函数的输出值最小,将目标关键词的最小输出值记为目标关键词的传递因子;将记为目标关键词的传递参数,其中/>表示目标关键词的传递因子;
构建RNN神经网络,将关键词作为RNN神经网络的输入,获取任意关键词在RNN神经网络中的隐藏层状态,将与目标关键词相邻的结构关键词记为目标关键词的近邻关键词,将记为第/>个目标关键词的结构权重,其中,/>表示第/>个目标关键词的权重参数;/>表示第/>个目标关键词的近邻关键词的隐藏层状态;/>表示第/>个目标关键词的近邻关键词的传递参数;
将任意验证文件中任意数量的关键词形成的组合记为关键词组,将关键词组中所有关键词的结构权重的累加值记为关键词组的总结构权重;获取任意数量的验证文件记为调取验证文件,根据若干个调取验证文件的关键词组内关键词的结构权重构建RNN神经网络的损失函数,具体获取方法为:
其中,表示损失函数;/>表示调取验证文件的数量;/>表示第/>个调取验证文件的关键词组的总结构权重,/>表示所有调取验证文件的关键词组的平均总结构权重;/>表示以自然常数为底数的指数函数。
9.根据权利要求1所述一种基于人工智能的机器人自动审批方法,其特征在于,所述根据损失函数的大小对待审批数据进行审批,包括的具体方法为:
首先,迭代选取验证文件以及验证文件中的关键词,直至损失函数的输出值最大,当损失函数的输出值最大时,将获取的关键词组作为调取验证文件的立项关键词组,对待审批数据进行Jieba分词获得待审批数据中的关键词,将待审批数据中的所有关键词形成的集合记为待审批数据的特征关键词集合;
然后,获取待审批数据的特征关键词集合中任意关键词与任意立项关键词组中所有关键词的关键词向量之间的最大余弦相似度,记为特征关键词集合中所述关键词的相似参数,将待审批数据的特征关键词集合中所有关键词的相似参数记为待审批数据的验证参数,当待审批数据的验证参数大于等于预设的验证阈值时,通过对待审批数据的初步审批工作,当待审批数据的验证参数小于预设的验证阈值时,不通过对待审批数据的审批工作,并进行标注。
10.一种基于人工智能的机器人自动审批系统,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述计算机程序通过所述处理器执行权利要求1-9中任意一项所述的一种基于人工智能的机器人自动审批方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744282.1A CN117422428B (zh) | 2023-12-19 | 2023-12-19 | 一种基于人工智能的机器人自动审批方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744282.1A CN117422428B (zh) | 2023-12-19 | 2023-12-19 | 一种基于人工智能的机器人自动审批方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117422428A true CN117422428A (zh) | 2024-01-19 |
CN117422428B CN117422428B (zh) | 2024-03-08 |
Family
ID=89530680
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311744282.1A Active CN117422428B (zh) | 2023-12-19 | 2023-12-19 | 一种基于人工智能的机器人自动审批方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117422428B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
CN112395875A (zh) * | 2020-11-17 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 一种关键词提取方法、装置、终端以及存储介质 |
CN112487803A (zh) * | 2020-11-20 | 2021-03-12 | 中国人寿保险股份有限公司 | 一种基于深度学习的合同审核方法、装置及电子设备 |
KR102280490B1 (ko) * | 2021-01-27 | 2021-07-22 | 주식회사 두유비 | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 |
CN113590823A (zh) * | 2021-07-30 | 2021-11-02 | 中国平安财产保险股份有限公司 | 一种合同审批方法、装置、存储介质及电子设备 |
CN115392244A (zh) * | 2022-09-15 | 2022-11-25 | 北京智谱华章科技有限公司 | 一种学术关键词批量识别系统 |
US20230005075A1 (en) * | 2021-06-30 | 2023-01-05 | Pricewaterhousecoopers Llp | Ai-augmented auditing platform including techniques for automated assessment of vouching evidence |
WO2023060795A1 (zh) * | 2021-10-12 | 2023-04-20 | 平安科技(深圳)有限公司 | 关键词自动提取方法、装置、设备及存储介质 |
CN116340338A (zh) * | 2023-03-01 | 2023-06-27 | 广东丰帆工程咨询有限公司 | 一种合同数据库自动匹配方法及系统 |
CN117033626A (zh) * | 2023-06-30 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 一种文本审核方法、装置、设备及存储介质 |
-
2023
- 2023-12-19 CN CN202311744282.1A patent/CN117422428B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
CN112395875A (zh) * | 2020-11-17 | 2021-02-23 | 中国平安人寿保险股份有限公司 | 一种关键词提取方法、装置、终端以及存储介质 |
CN112487803A (zh) * | 2020-11-20 | 2021-03-12 | 中国人寿保险股份有限公司 | 一种基于深度学习的合同审核方法、装置及电子设备 |
KR102280490B1 (ko) * | 2021-01-27 | 2021-07-22 | 주식회사 두유비 | 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법 |
US20230005075A1 (en) * | 2021-06-30 | 2023-01-05 | Pricewaterhousecoopers Llp | Ai-augmented auditing platform including techniques for automated assessment of vouching evidence |
CN113590823A (zh) * | 2021-07-30 | 2021-11-02 | 中国平安财产保险股份有限公司 | 一种合同审批方法、装置、存储介质及电子设备 |
WO2023060795A1 (zh) * | 2021-10-12 | 2023-04-20 | 平安科技(深圳)有限公司 | 关键词自动提取方法、装置、设备及存储介质 |
CN115392244A (zh) * | 2022-09-15 | 2022-11-25 | 北京智谱华章科技有限公司 | 一种学术关键词批量识别系统 |
CN116340338A (zh) * | 2023-03-01 | 2023-06-27 | 广东丰帆工程咨询有限公司 | 一种合同数据库自动匹配方法及系统 |
CN117033626A (zh) * | 2023-06-30 | 2023-11-10 | 腾讯科技(深圳)有限公司 | 一种文本审核方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117422428B (zh) | 2024-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
CN109933792B (zh) | 基于多层双向lstm和验证模型的观点型问题阅读理解方法 | |
CN110941716A (zh) | 一种基于深度学习的信息安全知识图谱的自动构建方法 | |
Xue et al. | Optimizing ontology alignment through memetic algorithm based on partial reference alignment | |
CN109857457B (zh) | 一种在双曲空间中学习源代码中的函数层次嵌入表示方法 | |
CN112307130B (zh) | 一种文档级远程监督关系抽取方法及系统 | |
CN109903205B (zh) | 一种公开课智能推荐方法以及管理系统 | |
CN117422428B (zh) | 一种基于人工智能的机器人自动审批方法及系统 | |
CN115795131B (zh) | 基于人工智能的电子档案分类方法、装置及电子设备 | |
CN117114657A (zh) | 基于电力设备巡检知识图谱的故障信息预警系统及方法 | |
CN117271701A (zh) | 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统 | |
CN115599918B (zh) | 一种基于图增强的互学习文本分类方法及系统 | |
CN116245107A (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
US20200097605A1 (en) | Machine learning techniques for automatic validation of events | |
CN113673680B (zh) | 通过对抗网络自动生成验证性质的模型验证方法和系统 | |
CN115189939A (zh) | 一种基于hmm模型的电网网络入侵检测方法及系统 | |
CN114840717A (zh) | 面向图数据的挖掘方法、装置、电子设备及可读存储介质 | |
CN114171206A (zh) | 模型训练、传感病预测方法、装置、设备及存储介质 | |
CN113762589A (zh) | 一种输变电工程变更预测系统及方法 | |
CN112434516B (zh) | 一种融合正文文本信息的自适应评论情感分析系统及方法 | |
CN116932766B (zh) | 对象分类方法、装置、设备、存储介质及程序产品 | |
CN116842021B (zh) | 基于ai生成式技术的数据字典标准化方法、设备及介质 | |
CN114996407B (zh) | 基于包重构的远程监督关系抽取方法及系统 | |
CN114625880B (zh) | 人物关系抽取方法、装置、终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |