CN113239698A - 基于rpa及ai的信息提取方法、装置、设备及介质 - Google Patents
基于rpa及ai的信息提取方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113239698A CN113239698A CN202110254325.2A CN202110254325A CN113239698A CN 113239698 A CN113239698 A CN 113239698A CN 202110254325 A CN202110254325 A CN 202110254325A CN 113239698 A CN113239698 A CN 113239698A
- Authority
- CN
- China
- Prior art keywords
- content
- information
- target content
- information extraction
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 135
- 238000012549 training Methods 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 53
- 239000013598 vector Substances 0.000 claims description 77
- 238000012015 optical character recognition Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 238000003058 natural language processing Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000013473 artificial intelligence Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 2
- 238000004801 process automation Methods 0.000 description 2
- 208000014633 Retinitis punctata albescens Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开一种基于RPA及AI的信息提取方法、装置、设备及介质,该方法包括:S1、根据预设标识确定待识别的文件内容和待提取的目标内容的类型信息;S2、如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,确定所述目标内容在所述待识别的文件内容中的位置信息;S3、根据所述位置信息从所述待识别的文件内容中提取所述目标内容;其中,所述预设信息提取模型是将文件内容和待提取的目标内容的类型信息拼接后的内容作为训练样本进行训练后得到,以建立目标内容与其在文件内容的位置之间的关联关系。通过采用上述技术方案,提升了信息提取模型的自适应性,提高了不同领域信息提取的效率。
Description
技术领域
本发明实施例涉及机器人应用技术领域,具体而言,涉及一种基于RPA及AI的信息提取方法、装置、设备及介质。
背景技术
RPA(Robotic Process Automation,机器人流程自动化),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
AI(Artificial Intelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
RPA具有独特的优势:低代码、非侵入。低代码是说,RPA不需要很高的IT水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,RPA可以模拟人的操作,不用软件系统开放接口。但是传统的RPA具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着AI技术的不断发展,RPA与AI深度融合克服了传统RPA的局限,RPA+AI=Hand work+Head work,正在极大的改变劳动力的价值。
RPA在处理任务的过程中,通常会遇到大量的需要进行信息提取和整合的文件。目前,在对不同领域的文件进行信息提取时,一般可采用预训练模型进行信息提取。在该模型使用之前,通常需要先对特定的信息提取任务进行小规模的样本标注,然后在标注数据上采用序列标注任务训练模型。但是,当面对一个全新的信息提取任务时,如果需要提取的类型信息和之前训练任务中提取的类型信息完全不同,由于新任务的类型信息未经过模型的训练,之前训练的模型则不能直接在新的信息提取任务上应用,因此需要重新在新任务上进行数据标注和模型训练。这一过程非常耗费人力,信息提取效率低下。
发明内容
本发明实施例提供一种基于RPA及AI的信息提取方法、装置、设备及介质,通过提高信息提取模型的自适应性,提升了不同领域信息提取的效率。
第一方面,本发明实施提供了一种基于RPA及AI的信息提取方法,包括:
S1、根据预设标识确定待识别的文件内容和待提取的目标内容的类型信息;
S2、如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,确定所述目标内容在所述待识别的文件内容中的位置信息;
S3、根据所述位置信息从所述待识别的文件内容中提取所述目标内容;
其中,所述预设信息提取模型是将文件内容和待提取的目标内容的类型信息拼接后的内容作为训练样本进行训练后得到,以建立目标内容与其在文件内容的位置之间的关联关系。
可选的,所述S2具体包括:
S21、如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,分别将所述文件内容和所述类型信息转换为包含语义信息和上下文信息的特征向量;
S22、根据所述特征向量,确定所述目标内容在所述待识别的文件内容中的位置信息。
可选的,所述S22具体包括:
S221、采用预设编码方式将所述特征向量转换为不同向量空间的第一特征向量和第二特征向量,其中,所述第一特征向量与所述文件内容相对应,所述第二特征向量与所述类型信息相对应;所述预设编码方式包括线性映射和卷积运算;
S222、对第一特征向量和第二特征向量进行乘积运算,以根据乘积结果确定所述目标内容在所述待识别的文件内容中的位置信息。
可选的,所述预设信息提取模型通过如下方式训练得到:
依次获取包含有标识信息的样本文件内容和样本目标内容的类型信息,所述样本目标内容为待提取内容;
利用所述样本文件内容和样本目标内容的类型信息,对初始信息提取模型进行训练;
在训练过程中,确定所述样本目标内容在所述样本文件内容中的预测位置,当所述预测位置与已标注的真实位置的损失函数的值达到收敛时,得到信息提取模型,该信息提取模型使得样本目标内容与其在所述样本文件内容中的位置信息相关联。
可选的,所述初始信息提取模型为自然语言处理NLP中的预训练模型。
可选的,所述待识别的文件内容是通过对待识别文件进行光学字符识别OCR处理后得到的。
第二方面,本发明实施例还提供了一种基于RPA及AI的信息提取装置,该装置包括:
识别模块,被配置为:根据预设标识确定待识别的文件内容和待提取的目标内容的类型信息;
位置信息确定模块,被配置为:如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,确定所述目标内容在所述待识别的文件内容中的位置信息;
内容提取模块,被配置为:根据所述位置信息从所述待识别的文件内容中提取所述目标内容;
其中,所述预设信息提取模型是将文件内容和待提取的目标内容的类型信息拼接后的内容作为训练样本进行训练后得到,以建立目标内容与其在文件内容的位置之间的关联关系。
可选的,所述位置信息确定模块,包括:
第一转换单元,被配置为如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,分别将所述文件内容和所述类型信息转换为包含语义信息和上下文信息的特征向量;
位置确定单元,被配置为根据所述特征向量,确定所述目标内容在所述待识别的文件内容中的位置信息。
可选的,所述位置确定单元,具体包括:
第二转换子单元,被配置为采用预设编码方式将所述特征向量转换为不同向量空间的第一特征向量和第二特征向量,其中,所述第一特征向量与所述文件内容相对应,所述第二特征向量与所述类型信息相对应;所述预设编码方式包括线性映射和卷积运算;
位置确定单元,被配置为对第一特征向量和第二特征向量进行乘积运算,以根据乘积结果确定所述目标内容在所述待识别的文件内容中的位置信息。
可选的,所述预设信息提取模型通过如下方式训练得到:
依次获取包含有标识信息的样本文件内容和样本目标内容的类型信息,所述样本目标内容为待提取内容;
利用所述样本文件内容和样本目标内容的类型信息,对初始信息提取模型进行训练;
在训练过程中,确定所述样本目标内容在所述样本文件内容中的预测位置,当所述预测位置与已标注的真实位置的损失函数的值达到收敛时,得到信息提取模型,该信息提取模型使得样本目标内容与其在所述样本文件内容中的位置信息相关联。
可选的,所述初始信息提取模型为自然语言处理NLP中的预训练模型。
可选的,所述待识别的文件内容是通过对待识别文件进行光学字符识别OCR处理后得到的。
第三方面,本发明实施例还提供了一种计算设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明任意实施例所提供的基于RPA及AI的信息提取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的基于RPA及AI的信息提取方法。
本发明实施例提供的技术方案,在预设信息提取模型的训练过程中,通过将文件内容和待提取的目标内容的类型信息拼接后的信息作为训练样本输入模型进行训练,可使得信息提取模型建立目标内容与其在文件内容的位置之间的关联关系。在进行信息提取的过程中,在获取待提取的文件信息后,根据预设标识可确定出待识别的文件内容和待提取的目标内容的类型信息。如果待识别的文件内容中存在该目标内容的类型信息,则可基于预设信息提取模型,确定目标内容在待识别的文件内容中的位置信息,从而可按照该位置信息从目标内容从文件内容中提取出来。特别是对于不同应用领域的文件,均可将待识别的文件内容和待提取的目标内容的类型信息输入到上述预设信息提取模型中,利用该模型可确定出目标内容在待识别的文件内容中的位置信息,从而可进行目标内容的提取。相对于现有技术中为了提取不同领域的文件内容,将不同领域的文件内容作为样本对模型进行不断训练的方式,本发明实施例提供的技术方案提高了信息提取模型的自适应性。对于不同应用领域、不同的信息提取任务,无需再重新标注样本,也无需重新训练模型,通过将文件内容和待提取的目标内容输入信息提取模型,即可完成信息提取任务,节省了大量的时间和精力,提升了信息提取的效率。
本发明实施例的创新点包括:
1、在预设信息提取模型的训练过程中,通过将文件内容和待提取的目标内容的类型信息拼接后的信息作为训练样本输入模型进行训练,可使得信息提取模型建立目标内容与其在文件内容的位置之间的关联关系,提高了信息提取模型的自适应性,从而提升了信息提取的效率,是本发明实施例的创新点之一。
2、采用预设编码方式将预设编码模型输出的特征向量转换为不同向量空间的第一特征向量和第二特征向量,其中,第一特征向量与文件内容相对应,第二特征向量与类型信息相对应,这样设置可区分出文件内容和待提取的目标内容的类型信息,有助于提高预设信息提取模型对目标内容所在文件内容中的位置预测的准确度,是本发明实施例的创新点之一。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例一提供的一种信息提取模型的训练方法的流程图;
图1b为本发明实施例一提供的信息提取模型的处理过程示意图;
图2a为本发明实施例二提供的一种基于RPA及AI的信息提取方法的流程图;
图2b为本发明实施例二提供的在自动化服务平台上搭建的进行合同内容提取的流程截图;
图3为本发明实施例三提供的一种基于RPA及AI的信息提取装置的结构框图;
图4是本发明实施例四提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明的描述中,预训练模型是已经用数据集训练好了的模型。预训练模型的好处是训练代价较小,配合下游任务可以实现更快的收敛速度,并且能够有效地提高模型性能,尤其是对一些训练数据比较稀缺的任务。换句话说,预训练方法可以认为是让模型基于一个更好的初始状态进行学习,从而能够达到更好的性能。
本发明的描述中,损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。本发明实施例提供的技术方案中,是通过最小化真实标注的位置和信息提取模型的预测位置之间的损失函数,让信息提取模型的预测结果更接近真实标注的结果。
本发明实施例公开了一种基于RPA及AI的信息提取方法、装置、设备及介质。以下分别进行详细说明。
实施例一
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。RPA机器人可通过用户使用界面,智能理解企业已有应用,将基于规则的常规操作自动化,如自动重复读取邮件、读取Office组件、操作数据库及网页和客户端软件等,采集数据,进行繁琐的计算,大批量生成文件和报告,完成枯燥的文件检查等工作。能够大幅降低人力成本的投入,有效提高现有办公效率,准确、稳定和快捷地完成工作。
AI(Artificial Intelligence)是人工智能的英文缩写,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。本发明实施例中,具体采用的是AI中的OCR(Optical Character Recognition,光学字符识别)技术来对文件内容进行识别,以及采用NLP(Natural Language Processing,自然语言处理)中的编码器模型对文件内容和待提取的目标内容的类型信息进行编码,得到包含有语义信息的特征向量。
目前,RPA在进行文件内容提取的过程中,一般都是使用已完成训练的预训练模型进行信息提取。当面对一个全新的信息提取任务时,如果需要提取的内容的类型信息和之前训练任务中提取的内容类型信息完全不同,则需要重新在新任务上进行数据标注和模型训练。这一过程非常耗费人力,并且也没有利用各个任务在结构上的相似特征。本发明实施例提出的信息提取方法为不同任务训练一个通用的信息抽取模型,该模型根据需要抽取的类型信息自动抽取相应的内容,实现在不同任务之间的自适应性,大大提升了模型应用的效率。图1a为本发明实施例一提供的一种信息提取模型的训练方法的流程图,图1b为本发明实施例一提供的信息提取模型的处理过程示意图。下面结合图1b对图1a中的各个步骤进行详细介绍。
S110、依次获取包含有标识信息的样本文件内容和样本目标内容的类型信息。
其中,样本文件可以是不同领域的文件,例如合同、简历、招标信息、设备信息、人员统计信息等。样本目标内容是样本文件内容中待提取的内容。样本文件内容可以是经过OCR识别处理后得到的内容。
本实施例中,依次获取包含有标识信息的样本文件内容和样本目标内容的类型信息,相当于将样本文件内容和样本目标内容的类型信息这两部分信息进行拼接,即如果样本文件内容的字符串长度为C,类型信息的字符串长度为Q,则依次获取这两部分内容后,得到的样本字符串的长度L=C+Q。
本实施例中,在将样本文件内容和样本目标内容的类型信息输入初始信息提取模型时,可将这两部分信息通过预设标识进行分割。
示例性的,如果这两部分内容的输入先后顺序是固定的,则可通过预设分隔符将两部分内容进行分割。例如,如图1b所示,如果预先设定好了先后输入模型的两部分内容分别是待识别的文件内容和待提取的目标内容的类型信息,则只需要利用分隔符“SEP”将两部分内容分开即可。
示例性的,在输入顺序不固定的情况下,对于先后输入模型的两部分信息,可在先输入的信息的开始位置增加开始标识符,表示这部分内容的开始,并可在这部分内容的结束位置之后增加结束标识符,表示这部分内容的结束,即另一部分内容的开始。例如,如图1b所示,可在待识别的文件内容“甲方”之前的位置增加开始标识符,表示待识别的文件内容的开始,并在待识别的文件内容的结束位置之后增加标识符“SEP”,表示待提取的目标内容的类型信息的开始。
需要注意的是,如果待提取的目标内容的类型信息有多个,则在每个类型信息之前均加入分隔符,如图1b所示,在“甲方”和“日期”之前均加入“SEP”,以区分不同的类型信息。相对于现有技术中只利用文件内容对模型训练的方式,本实施例除了将文件内容作为训练样本之外,还将待提取的目标内容的类型信息也作为训练样本,即将类型信息与样本文件内容拼接后的信息输入到模型进行训练。这样设置,利用了各个任务在结构上的相似特征,即对于不同领域的信息提取任务,例如不管在简历领域还是合同领域,类型信息之后一般跟随的是具体的信息内容,例如:甲方:X公司;姓名:李某;日期:2020年09月。本实施例这样设置,提高了模型的自适应性,可使模型应用于不同领域的信息提取任务中。
S120、利用样本文件内容和样本目标内容的类型信息,对初始信息提取模型进行训练。
本实施例中,预设初始信息提取模型可以为NLP中的预训练模型,该预训练模型可以优选为BERT(Bidirectional Encoder Representations from Transformers,双向编码器模型)、XLNET(通用的自回归预训练模型)。
在训练过程中,可利用预训练编码模型对样本文件内容和样本目标内容的类型信息进行编码,得到计算机可识别的包含有语义信息和上下文信息的特征向量,如图1b所示的E_C和E_Q,并利用该特征向量对预设初始信息提取模型进行训练,得到样本目标内容在样本文件内容中的预测位置,例如,第一个类型“甲方”的起始位置预测S_1和终止位置预测E_1,以及第二个类型“日期”的起始位置预测S_2和终止位置预测E_2。
为了提高信息提取模型的信息提取的准确率,可采用预设编码方式将特征向量中样本文件内容对应的特征向量和类型信息对应的特征向量约束到不同的向量空间,即得到样本文件内容对应的第一特征向量和类型信息对应的第二特征向量,例如图1b中,对内容编码后得到第一特征向量W_C,对类型编码后得到第二特征向量W_Q。这样设置,更好地区分出了具有不同语义的样本文件内容和样本目标内容的类型信息,从而有助于提高信息提取模型进行目标内容位置预测的准确度。其中,预设编码方式可以为线性映射或者卷积运算等,本实施对此不作具体限定。
在得到样本文件内容对应的第一特征向量和类型信息对应的第二特征向量后,可采用交叉编码的方式,例如将第一特征向量和第二特征向量相乘,根据乘积结果预测样本目标内容在样本文件内容中的预测位置。例如,图1b中,第一个类型“甲方”的起始位置预测S_1和终止位置预测E_1,以及第二个类型“日期”的起始位置预测S_2和终止位置预测E_2。
S130、在训练过程中,确定样本目标内容在样本文件内容中的预测位置,当预测位置与已标注的真实位置的损失函数的值达到收敛时,得到信息提取模型。
其中,损失函数的值达到收敛表示信息提取模型的预测结果已接近已标注的真实位置。
本实施例中,在预设信息提取模型的训练过程中,通过将文件内容和待提取的目标内容的类型信息拼接后的内容作为训练样本,输入模型进行训练,可使得信息提取模型建立目标内容与其在文件内容的位置之间的关联关系。相对于现有技术中为了提取不同领域的文件内容,将不同领域的文件内容作为样本对模型进行不断训练的方式,本发明实施例提供的技术方案提高了信息提取模型的自适应性。对于不同应用领域、不同的信息提取任务,无需再重新标注样本,也无需重新训练模型,通过将文件内容和待提取的目标内容输入信息提取模型,即可完成信息提取任务,节省了大量的时间和精力,提升了信息提取的效率。
下面将对信息提取模型的具体应用过程进行详细介绍。
实施例二
图2a为本发明实施例二提供的一种基于RPA及AI的信息提取方法的流程图,该方法可应用于简历领域、合同领域、招标信息领域和设备信息领域等应用场景下,可由基于RPA及AI的信息提取装置来执行,该装置可通过软件和/或硬件的方式实现。本实施例提供的方法可应用在自动化服务平台,例如UiBot Mage上,该平台是可以为RPA机器人提供AI能力的平台。图2b为本发明实施例二提供的在自动化服务平台上搭建的进行合同内容提取的流程截图。下面,结合图2b对图2a所示的基于RPA及AI的信息提取方法进行详细介绍:
S210、根据预设标识确定待识别的文件内容和待提取的目标内容的类型信息。
其中,待识别的文件内容是通过对待识别文件进行OCR处理后得到的。
其中,预设标识需与待识别的文件内容和待提取的目标内容的类型信息一并输入到预设信息提取模型中,以根据该预设标识对上述两部分内容进行区分。
本实施例中,可利用RPA机器人先抓取待识别的文件内容,并将抓取到的文件内容和待抽取的目标内容的类型信息进行拼接,即将文件内容和类型信息依次输入到预设信息提取模型中。具体的,如图2b所示,可利用RPA机器人抓取待识别的合同,然后可对该合同进行OCR识别,并将识别结果和待抽取的目标内容的类型信息拼接后输入到预设信息提取模型。
S220、如果待识别的文件内容中存在类型信息,则基于预设信息提取模型,确定目标内容在待识别的文件内容中的位置信息。
其中,预设信息提取模型是将文件内容和待提取的目标内容的类型信息拼接后的信息作为训练样本进行训练后得到,以建立目标内容与其在文件内容的位置之间的关联关系。该预设信息提取模型的训练过程可参照上述实施例的内容,此处不再赘述。
本实施例中,预设信息提取模型在进行位置信息确定的过程中,可将分别将文件内容和类型信息转换为包含语义信息和上下文信息的特征向量,这样设置是为了将待识别的文件内容和待提取的目标内容的类型信息转换为计算机可以识别的语言。根据特征向量,可预测目标内容在待识别的文件内容中的位置信息。其中,将输入的文件内容和待提取的目标内容的类型信息转换为特征向量的过程可通过预训练编码模型来执行,该预训练编码模型可优选为BERT模型或者XLNET模型。
本实施例中,为了提高预设信息提取模型位置预测的准确率,可采用预设编码方式将预训练编码模型输出的特征向量转换为不同向量空间的第一特征向量和第二特征向量,其中,第一特征向量与文件内容相对应,第二特征向量与类型信息相对应,这样设置可区分出文件内容和待提取的目标内容的类型信息,从而提高预设信息提取模型对目标内容所在文件内容中的位置预测的准确度。其中,预设编码方式可以为线性映射和卷积运算等。
本实施例中,预设信息提取模型在根据第一特征向量和第二特征向量确定目标内容在文件内容中的位置信息时,可采用交叉编码的方式,例如,可将第一特征向量和第二特征向量进行乘积运算,并根据乘积结果确定目标内容在待识别的文件内容中的位置信息。
S230、根据位置信息从待识别的文件内容中提取目标内容。
进一步的,如图2b所示,RPA在提取出目标内容后,可将目标内容录入到表格中。如果检测到未抽取到目标内容,则返回执行合同的抓取操作。
本实施例中,在获取待提取的文件信息后,根据预设标识可确定出待识别的文件内容和待提取的目标内容的类型信息。如果待识别的文件内容中存在该目标内容的类型信息,则可基于预设信息提取模型,确定目标内容在待识别的文件内容中的位置信息,从而可按照该位置信息从目标内容从文件内容中提取出来。特别是对于不同应用领域的文件,均可将待识别的文件内容和待提取的目标内容的类型信息输入到上述预设信息提取模型中,利用该模型可确定出目标内容在待识别的文件内容中的位置信息,从而可进行目标内容的提取。
实施例三
图3为本发明实施例三提供的一种基于RPA及AI的信息提取装置的结构框图,如图3所示,该装置包括:识别模块310、位置信息确定模块320和内容提取模块330;其中,
识别模块310,被配置为:根据预设标识确定待识别的文件内容和待提取的目标内容的类型信息;
位置信息确定模块320,被配置为:如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,确定所述目标内容在所述待识别的文件内容中的位置信息;
内容提取模块330,被配置为:根据所述位置信息从所述待识别的文件内容中提取所述目标内容;
其中,所述预设信息提取模型是将文件内容和待提取的目标内容的类型信息拼接后的内容作为训练样本进行训练后得到,以建立目标内容与其在文件内容的位置之间的关联关系。
可选的,所述位置信息确定模块,包括:
第一转换单元,被配置为如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,分别将所述文件内容和所述类型信息转换为包含语义信息和上下文信息的特征向量;
位置确定单元,被配置为根据所述特征向量,确定所述目标内容在所述待识别的文件内容中的位置信息。
可选的,所述位置确定单元,具体包括:
第二转换子单元,被配置为采用预设编码方式将所述特征向量转换为不同向量空间的第一特征向量和第二特征向量,其中,所述第一特征向量与所述文件内容相对应,所述第二特征向量与所述类型信息相对应;所述预设编码方式包括线性映射和卷积运算;
位置确定单元,被配置为对第一特征向量和第二特征向量进行乘积运算,以根据乘积结果确定所述目标内容在所述待识别的文件内容中的位置信息。
可选的,所述预设信息提取模型通过如下方式训练得到:
依次获取包含有标识信息的样本文件内容和样本目标内容的类型信息,所述样本目标内容为待提取内容;
利用所述样本文件内容和样本目标内容的类型信息,对初始信息提取模型进行训练;
在训练过程中,确定所述样本目标内容在所述样本文件内容中的预测位置,当所述预测位置与已标注的真实位置的损失函数的值达到收敛时,得到信息提取模型,该信息提取模型使得样本目标内容与其在所述样本文件内容中的位置信息相关联。
可选的,所述初始信息提取模型为自然语言处理NLP中的预训练模型。
可选的,所述待识别的文件内容是通过对待识别文件进行光学字符识别OCR处理后得到的。
本发明实施例所提供的基于RPA及AI的信息提取装置可执行本发明任意实施例所提供的基于RPA及AI的信息提取方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于RPA及AI的信息提取方法。
实施例四
请参阅图4,图4是本发明实施例四提供的一种计算设备的结构示意图。如图4所示,该计算设备可以包括:
存储有可执行程序代码的存储器701;
与存储器701耦合的处理器702;
其中,处理器702调用存储器701中存储的可执行程序代码,执行本发明任意实施例所提供的基于RPA及AI的信息提取方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行本发明任意实施例所提供的基于RPA及AI的信息提取方法。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (10)
1.一种基于RPA及AI的信息提取方法,其特征在于,包括:
S1、根据预设标识确定待识别的文件内容和待提取的目标内容的类型信息;
S2、如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,确定所述目标内容在所述待识别的文件内容中的位置信息;
S3、根据所述位置信息从所述待识别的文件内容中提取所述目标内容;
其中,所述预设信息提取模型是将文件内容和待提取的目标内容的类型信息拼接后的内容作为训练样本进行训练后得到,以建立目标内容与其在文件内容的位置之间的关联关系。
2.根据权利要求1所述的方法,其特征在于,所述S2具体包括:
S21、如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,分别将所述文件内容和所述类型信息转换为包含语义信息和上下文信息的特征向量;
S22、根据所述特征向量,确定所述目标内容在所述待识别的文件内容中的位置信息。
3.根据权利要求2所述的方法,其特征在于,所述S22具体包括:
S221、采用预设编码方式将所述特征向量转换为不同向量空间的第一特征向量和第二特征向量,其中,所述第一特征向量与所述文件内容相对应,所述第二特征向量与所述类型信息相对应;所述预设编码方式包括线性映射和卷积运算;
S222、对第一特征向量和第二特征向量进行乘积运算,以根据乘积结果确定所述目标内容在所述待识别的文件内容中的位置信息。
4.根据权利要求1所述的方法,其特征在于,所述预设信息提取模型通过如下方式训练得到:
依次获取包含有标识信息的样本文件内容和样本目标内容的类型信息,所述样本目标内容为待提取内容;
利用所述样本文件内容和样本目标内容的类型信息,对初始信息提取模型进行训练;
在训练过程中,确定所述样本目标内容在所述样本文件内容中的预测位置,当所述预测位置与已标注的真实位置的损失函数的值达到收敛时,得到信息提取模型,该信息提取模型使得样本目标内容与其在所述样本文件内容中的位置信息相关联。
5.根据权利要求4所述的方法,其特征在于,所述初始信息提取模型为自然语言处理NLP中的预训练模型。
6.根据权利要求1所述的方法,其特征在于,所述待识别的文件内容是通过对待识别文件进行光学字符识别OCR处理后得到的。
7.一种基于RPA及AI的信息提取装置,其特征在于,包括:
识别模块,被配置为:根据预设标识确定待识别的文件内容和待提取的目标内容的类型信息;
位置信息确定模块,被配置为:如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,确定所述目标内容在所述待识别的文件内容中的位置信息;
内容提取模块,被配置为:根据所述位置信息从所述待识别的文件内容中提取所述目标内容;
其中,所述预设信息提取模型是将文件内容和待提取的目标内容的类型信息拼接后的内容作为训练样本进行训练后得到,以建立目标内容与其在文件内容的位置之间的关联关系。
8.根据权利要求7所述的装置,其特征在于,所述位置信息确定模块,包括:
第一转换单元,被配置为如果待识别的文件内容中存在所述类型信息,则基于所述预设信息提取模型,分别将所述文件内容和所述类型信息转换为包含语义信息的特征向量;
位置信息提取单元,被配置为根据所述文件内容对应的第一特征向量和所述类型信息对应的第二特征向量,确定所述目标内容在所述待识别的文件内容中的位置信息。
9.一种计算设备,其特征在于,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-6任一所述的基于RPA及AI的信息提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一所述的基于RPA及AI的信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110254325.2A CN113239698A (zh) | 2021-03-09 | 2021-03-09 | 基于rpa及ai的信息提取方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110254325.2A CN113239698A (zh) | 2021-03-09 | 2021-03-09 | 基于rpa及ai的信息提取方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239698A true CN113239698A (zh) | 2021-08-10 |
Family
ID=77130311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110254325.2A Pending CN113239698A (zh) | 2021-03-09 | 2021-03-09 | 基于rpa及ai的信息提取方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239698A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742188A (zh) * | 2021-08-25 | 2021-12-03 | 宁波大学 | 一种基于bert的非侵入式电脑行为监测方法及系统 |
CN113836091A (zh) * | 2021-09-01 | 2021-12-24 | 北京来也网络科技有限公司 | 结合rpa和ai的数据识别方法、装置、电子设备和存储介质 |
-
2021
- 2021-03-09 CN CN202110254325.2A patent/CN113239698A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742188A (zh) * | 2021-08-25 | 2021-12-03 | 宁波大学 | 一种基于bert的非侵入式电脑行为监测方法及系统 |
CN113836091A (zh) * | 2021-09-01 | 2021-12-24 | 北京来也网络科技有限公司 | 结合rpa和ai的数据识别方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111026842B (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
CN110795532A (zh) | 一种语音信息的处理方法、装置、智能终端以及存储介质 | |
CN110866093A (zh) | 机器问答方法及装置 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN113268610B (zh) | 基于知识图谱的意图跳转方法、装置、设备及存储介质 | |
CN114722839B (zh) | 人机协同对话交互系统及方法 | |
US20220358292A1 (en) | Method and apparatus for recognizing entity, electronic device and storage medium | |
CN111625634A (zh) | 词槽识别方法及装置、计算机可读存储介质、电子设备 | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
CN114547072A (zh) | 自然语言查询转换sql方法、系统、设备及存储介质 | |
CN113239698A (zh) | 基于rpa及ai的信息提取方法、装置、设备及介质 | |
CN111339292A (zh) | 文本分类网络的训练方法、系统、设备及存储介质 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN115630146A (zh) | 基于人机交互的需求文档自动生成方法、装置和存储介质 | |
CN117573834B (zh) | 一种用于面向软件即服务平台的多机器人对话方法及系统 | |
CN112102116B (zh) | 基于旅游会话的输入预测方法、系统、设备及存储介质 | |
CN111931503B (zh) | 信息抽取方法及装置、设备、计算机可读存储介质 | |
CN113343692A (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN117648422A (zh) | 问答提示系统、问答提示、库构建、模型训练方法和装置 | |
CN112925889B (zh) | 自然语言处理方法、装置、电子设备和存储介质 | |
CN116127011A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN115062126A (zh) | 一种语句分析方法、装置、电子设备及可读存储介质 | |
CN113722584A (zh) | 任务推送方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |