CN111881664A - 一种结合rpa和ai的信息抽取方法、装置、设备及介质 - Google Patents
一种结合rpa和ai的信息抽取方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111881664A CN111881664A CN202010786436.3A CN202010786436A CN111881664A CN 111881664 A CN111881664 A CN 111881664A CN 202010786436 A CN202010786436 A CN 202010786436A CN 111881664 A CN111881664 A CN 111881664A
- Authority
- CN
- China
- Prior art keywords
- text
- field
- information
- extracted
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 150
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012360 testing method Methods 0.000 claims description 31
- 230000008676 import Effects 0.000 claims description 30
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 12
- 239000000284 extract Substances 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004801 process automation Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开一种结合RPA和AI的信息抽取方法、装置、设备及介质。该方法包括:获取待抽取文本;将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息。应用本发明实施例提供的方案,能够基于抽取器对待抽取文本进行信息抽取,由于抽取器中预先配置了匹配模版,从而将待抽取文本输入抽取器后,可以自动抽取出待抽取文本中与匹配模版相匹配的信息,整个抽取过程不需要人工参与,从而可以提高信息抽取效率。并且,与人工抽取信息相比,基于匹配模版进行信息抽取能够准确的抽取出待抽取文本中的抽取信息,提高信息抽取的准确性。
Description
技术领域
本发明涉及信息抽取技术领域,具体而言,涉及一种结合RPA(Robotic ProcessAutomation,机器人流程自动化)和AI(Artificia lIntelligence,人工智能)的信息抽取方法、装置、设备及介质。
背景技术
人工智能(Artificia lIntelligence,简称:AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。机器人流程自动化(RoboticProcess Automation,简称:RPA)是一种新型的人工智能的虚拟流程自动化机器人,用于模拟人在计算机上的操作,按规则自动执行流程任务,RPA可以广泛应用于各个需要流程自动化的领域,例如财务管理领域。
在财务管理过程中,通常需要识别各种发票、票据、合同、文本等。已知的方法中,可以通过图片识别软件对需要识别的文件进行识别,得到识别结果。然而,上述识别方法中仅有识别结果,机器无法理解识别的内容是什么,用户仍然需要从海量的数据中查找,搜索关键词数据进行整理分类,过程十分繁琐,信息获取效率低。
发明内容
本发明实施例提供了一种结合RPA和AI的信息抽取方法、装置、设备及介质,以提高信息抽取的效率。具体的技术方案如下。
第一方面,本发明实施例提供一种结合RPA和AI的信息抽取方法,所述方法包括:
S1、获取待抽取文本;
S2、将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息。
可选的,所述匹配模版中包括:配置字段和抽取规则,所述步骤S2具体包括:
S21、将所述待抽取文本输入已配置匹配模版的抽取器中,抽取所述待抽取文本中与所述配置字段相匹配的初始字段;
S22、将所述初始字段中与所述抽取规则相匹配的初始字段作为所述待抽取文本中的抽取信息。
可选的,所述抽取规则包括以下至少一项:文本匹配规则、词表匹配规则、正则匹配规则、和任意文本匹配规则;所述步骤S22具体包括:
S221、分别将每个所述初始字段依次与各所述抽取规则进行匹配;
S222、针对每个所述初始字段,判断该初始字段是否与任一所述抽取规则匹配;
S223、当该初始字段与任一所述抽取规则匹配时,将该初始字段作为所述待抽取文本中的抽取信息。
可选的,所述步骤S222具体包括:
S2221、针对每个所述初始字段,判断该初始字段是否符合文本匹配规则中确定的文本句式;
S2222、针对每个所述初始字段,判断该初始字段是否包含在词表匹配规则中已配置的词表内;
S2223、针对每个所述初始字段,判断该初始字段的表达方式是否与正则匹配规则中已配置的正则表达式一致。
可选的,所述匹配模版通过如下方式得到:
S3、对所述抽取器内的字段列表进行配置;
S4、对所述抽取器内的资源列表进行配置;所述资源列表包括词表和正则;
S5、构建初始模版,基于所述字段列表和所述资源列表对所述初始模版进行配置,得到所述匹配模版。
可选的,所述步骤S3具体包括:
S31、当接收到新增字段指令时,展示字段新增界面;
S32、接收并存储输入的字段名和备注信息。
可选的,所述步骤S3具体包括:
S33、当接收到批量添加字段指令时,从预设存储位置下载字段导入模板;
S34、展示所述字段导入模板,接收在所述字段导入模板输入的各字段名和各备注信息;
S35、当接收到上传文件指令时,存储所述字段导入模板。
可选的,所述步骤S4具体包括:
S41、当接收到词表导入指令时,展示文件选择界面;
S42、接收文件选择指令,并上传已选择的词表。
可选的,所述步骤S4具体包括:
S43、当接收到词表打开指令时,展示所选定的词表;
S44、接收对所选定的词表的编辑操作,并存储修改后的词表。
可选的,所述步骤S4具体包括:
S45、当接收到新增正则指令时,展示正则新增界面;
S46、接收并存储输入的正则描述和正则表达式。
可选的,所述步骤S5具体包括:
S51、构建初始模版,确定并存储从所述字段列表中选择的字段;
S52、展示规则设置界面,接收并存储输入的匹配文本、从所述资源列表选择的正则表达式以及词表,得到所述匹配模版。
可选的,所述步骤S5之后,还包括:
S6、接收测试文本;
S7、当接收到测试指令时,对所述测试文本进行信息抽取,并在预设区域展示第一信息或第二信息;所述第一信息包括:信息抽取结果;所述第二信息包括:与所述测试文本匹配的匹配模版,以及所述匹配模版中与所述信息抽取结果相匹配的字段名和字段值。
第二方面,本发明实施例提供一种结合RPA和AI的信息抽取装置,所述装置包括:
文本获取模块,用于获取待抽取文本;
信息抽取模块,用于将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息。
可选的,所述匹配模版中包括:配置字段和抽取规则,所述信息抽取模块具体包括:
字段抽取子模块,用于将所述待抽取文本输入已配置匹配模版的抽取器中,抽取所述待抽取文本中与所述配置字段相匹配的初始字段;
信息匹配子模块,用于将所述初始字段中与所述抽取规则相匹配的初始字段作为所述待抽取文本中的抽取信息。
可选的,所述抽取规则包括以下至少一项:文本匹配规则、词表匹配规则、正则匹配规则、和任意文本匹配规则;所述信息匹配子模块具体包括:
字段匹配子单元,用于分别将每个所述初始字段依次与各所述抽取规则进行匹配;
规则判断子单元,用于针对每个所述初始字段,判断该初始字段是否与任一所述抽取规则匹配;
信息抽取子单元,用于当该初始字段与任一所述抽取规则匹配时,将该初始字段作为所述待抽取文本中的抽取信息。
可选的,所述规则判断子单元具体用于:
针对每个所述初始字段,判断该初始字段是否符合文本匹配规则中确定的文本句式;
针对每个所述初始字段,判断该初始字段是否包含在词表匹配规则中已配置的词表内;
针对每个所述初始字段,判断该初始字段的表达方式是否与正则匹配规则中已配置的正则表达式一致。
可选的,所述装置还包括:
字段配置模块,用于对所述抽取器内的字段列表进行配置;
资源配置模块,用于对所述抽取器内的资源列表进行配置;所述资源列表包括词表和正则;
模版配置模块,用于构建初始模版,基于所述字段列表和所述资源列表对所述初始模版进行配置,得到所述匹配模版。
可选的,所述字段配置模块具体包括:
字段新增子模块,用于当接收到新增字段指令时,展示字段新增界面;
字段存储子模块,用于接收并存储输入的字段名和备注信息。
可选的,所述字段配置模块具体包括:
批量增加子模块,用于当接收到批量添加字段指令时,从预设存储位置下载字段导入模板;
模板展示子模块,用于展示所述字段导入模板,接收在所述字段导入模板输入的各字段名和各备注信息;
模板存储子模块,用于当接收到上传文件指令时,存储所述字段导入模板。
可选的,所述资源配置模块具体包括:
词表导入子模块,用于当接收到词表导入指令时,展示文件选择界面;
词表存储子模块,用于接收文件选择指令,并上传已选择的词表。
可选的,所述资源配置模块具体包括:
词表打开子模块,用于当接收到词表打开指令时,展示所选定的词表;
词表编辑子模块,用于接收对所选定的词表的编辑操作,并存储修改后的词表。
可选的,所述资源配置模块具体包括:
正则新增子模块,用于当接收到新增正则指令时,展示正则新增界面;
正则存储子模块,用于接收并存储输入的正则描述和正则表达式。
可选的,所述模版配置模块具体包括:
模版构建子模块,用于构建初始模版,确定并存储从所述字段列表中选择的字段;
模版配置子模块,用于展示规则设置界面,接收并存储输入的匹配文本、从所述资源列表选择的正则表达式以及词表,得到所述匹配模版。
可选的,所述装置还包括:
文本接收模块,用于接收测试文本;
文本测试模块,用于当接收到测试指令时,对所述测试文本进行信息抽取,并在预设区域展示第一信息或第二信息;所述第一信息包括:信息抽取结果;所述第二信息包括:与所述测试文本匹配的匹配模版,以及所述匹配模版中与所述信息抽取结果相匹配的字段名和字段值。
第三方面,本发明实施例提供一种计算设备,所述设备包括:
存储有可执行程序代码的存储器;
与存储器耦合的处理器;
其中,处理器调用存储器中存储的可执行程序代码,执行如上述第一方面所述的结合RPA和AI的信息抽取方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行如上述第一方面所述的结合RPA和AI的信息抽取方法。
由上述内容可知,本发明实施例提供的结合RPA和AI的信息抽取方法、装置、设备及介质,能够基于抽取器对待抽取文本进行信息抽取,由于抽取器中预先配置了匹配模版,从而将待抽取文本输入抽取器后,可以自动抽取出待抽取文本中与匹配模版相匹配的信息,整个抽取过程不需要人工参与,从而可以提高信息抽取效率。并且,与人工抽取信息相比,基于匹配模版进行信息抽取能够准确的抽取出待抽取文本中的抽取信息,提高信息抽取的准确性。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
本发明实施例的创新点包括:
1、基于抽取器对待抽取文本进行信息抽取,由于抽取器中预先配置了匹配模版,从而将待抽取文本输入抽取器后,可以自动抽取出待抽取文本中与匹配模版相匹配的信息,整个抽取过程不需要人工参与,从而可以提高信息抽取效率。并且,与人工抽取信息相比,基于匹配模版进行信息抽取能够准确的抽取出待抽取文本中的抽取信息,提高信息抽取的准确性。
2、通过在匹配模版中设置配置字段和抽取规则,能够通过多个条件对待抽取文本进行信息抽取,进而提高信息抽取的准确性。
3、匹配模版配置完成后,通过测试文本对匹配模版的信息抽取精确性进行测试,在匹配模版的精确性不满足要求时,可以对其进行重新配置,直至精确性满足要求时,才将其配置在抽取器中,从而可以提高待抽取文本信息抽取的精确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的匹配模版示意图;
图2为本发明实施例提供的结合RPA和AI的信息抽取方法的一种流程示意图;
图3为本发明实施例提供的结合RPA和AI的信息抽取方法的另一种流程示意图;
图4为本发明实施例的字段列表页面示意图;
图5为本发明实施例的字段新增界面示意图;
图6为本发明实施例的批量添加字段示意图;
图7为本发明实施例的字段编辑界面示意图;
图8为本发明实施例的资源列表示意图;
图9为本发明实施例的文件选择界面示意图;
图10为本发明实施例的新建词表界面示意图;
图11为本发明实施例的词表值编辑界面示意图;
图12为本发明实施例的正则新增界面示意图;
图13为本发明实施例的模版列表界面示意图;
图14为本发明实施例的匹配规则配置界面示意图;
图15为本发明实施例的文本测试结果示意图;
图16为本发明实施例提供的结合RPA和AI的信息抽取装置的一种结构示意图;
图17为本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本发明的描述中,术语“待抽取文本”是指需要对其进行信息抽取的文本,可以是任意类型的文件,如合同文件、各类票据等。
在本发明的描述中,术语“匹配模版”是指配置在抽取器中用来对待抽取文本进行信息抽取的条件集合,也就是说,匹配模版规定了要对待抽取文本中哪些字段进行抽取,只有符合匹配模版中所有条件的字段才可以被抽取出来。
在本发明的描述中,术语“抽取信息”是指从待抽取文本中抽取到的所有的关键词信息,可以为文字、数字、英文字母等。
在本发明的描述中,术语“初始字段”是指从待抽取文本中抽取到的与字段匹配规则相匹配的字段。该字段仅与字段匹配规则相匹配,还未与抽取规则进行匹配,不能作为最终的抽取信息被输出。只有与抽取规则相匹配的初始字段,才可以确定为最终的抽取信息。
在本发明的描述中,术语“文本匹配规则”是指对于特定句式的说法,可以定义确定的文本作为匹配条件。
在本发明的描述中,术语“词表匹配规则”是指对于像城市名称、国家名称以及公司名称这类可枚举的信息,需要将它们以及各自对应的同义词添加到字典中,这样在做信息匹配时,可以对抽取到的信息进行基于词典的检索,以此判断抽取的信息是否满足要求。
在本发明的描述中,术语“正则匹配规则”是指对于像时间、日期、货币等这类具有通用格式的信息可采用正则表达式进行表示,在做匹配时,判断抽取到的信息是否满足给定的正则表达式,以此判断抽取的信息是否满足要求。
在本发明的描述中,术语“任意文本匹配规则”是指对于像项目名称、地点等这类不可枚举的信息,在做匹配时,由于其是不可枚举的信息,对于抽取的任意内容我们假设都满足。
下面将结合附图,对本发明实施例提供的内容进行详细介绍。
实施例一
在财务管理过程中,通常需要识别各种发票、票据、合同、文本等中包括的关键词。也就是说,需要从整个文件中识别出需要的关键词信息。
在本发明实施例中,可以预先在抽取器中配置匹配模版。如图1所示,其示出了匹配模版示意图。每个匹配模版中均进行了字段配置和规则配置,输入文本中只有与已配置好的字段和规则均匹配的信息,才会被确定为抽取信息。
实施例二
图2为本发明实施例提供的结合RPA和AI的信息抽取方法的一种流程示意图。该方法应用于电子设备,该方法具体包括以下步骤。
S210、获取待抽取文本。
在本发明实施例中,当需要对任意文本进行信息抽取时,用户可以将该文本传输至电子设备的预定存储位置。当电子设备检测到该预定存储位置有新增文本时,即可将该新增文本作为待抽取文本。其中,该待抽取文本可以为任意类型的文本,如合同、票据等。
S220:将待抽取文本输入已配置匹配模版的抽取器中,得到待抽取文本中的抽取信息。
在本发明实施例中,可以预先在抽取器中配置匹配模版。电子设备获取到待抽取文本后,即可通过该匹配模版对待抽取文本进行信息抽取。
在一种实现方式中,本发明实施例的匹配模版中可以包括:配置字段和抽取规则。配置字段定义了当前抽取器需要对文本进行哪些字段的抽取,最终抽取结果只能输出已经定义的字段。抽取规则定义了抽取到的字段中,哪些字段需要被输出,抽取到的字段中,只有与抽取规则相匹配的字段才可以作为抽取信息被输出。
具体的,电子设备在进行信息抽取时,可以首先将待抽取文本输入已配置匹配模版的抽取器中,抽取待抽取文本中与配置字段相匹配的初始字段;之后将初始字段中与抽取规则相匹配的初始字段作为待抽取文本中的抽取信息。
在一种实现方式中,上述抽取规则包括以下至少一项:文本匹配规则、词表匹配规则、正则匹配规则、和任意文本匹配规则。电子设备将初始字段与抽取规则进行匹配时,具体的,可以首先分别将每个初始字段依次与各抽取规则进行匹配;之后针对每个初始字段,判断该初始字段是否与任一抽取规则匹配;当该初始字段与任一抽取规则匹配时,将该初始字段作为待抽取文本中的抽取信息。
也就是说,初始字段只要与抽取规则中的任一规则相匹配,则可以确定该初始字段与抽取规则相匹配,该初始字段即可被确定为待抽取文本中的抽取信息。
判断每个初始字段是否与抽取规则匹配时,在一种实现方式中,电子设备可以针对每个初始字段,判断该初始字段是否符合文本匹配规则中确定的文本句式;如果是,则可以确定该初始字段为待抽取文本中的抽取信息。针对每个初始字段,判断该初始字段是否包含在词表匹配规则中已配置的词表内;如果是,则可以确定该初始字段为待抽取文本中的抽取信息。针对每个初始字段,判断该初始字段的表达方式是否与正则匹配规则中已配置的正则表达式一致;如果是,则可以确定该初始字段为待抽取文本中的抽取信息。
上述判断过程只是一个示例,并不限定该过程中各规则的判断顺序。也就是说,实际应用过程中,上述判断顺序可以为任意顺序,本发明实施例不对上述判断顺序做具体限定。
由上述内容可知,本发明实施例中可以基于抽取器对待抽取文本进行信息抽取,由于抽取器中预先配置了匹配模版,从而将待抽取文本输入抽取器后,可以自动抽取出待抽取文本中与匹配模版相匹配的信息,整个抽取过程不需要人工参与,从而可以提高信息抽取效率。并且,与人工抽取信息相比,基于匹配模版进行信息抽取能够准确的抽取出待抽取文本中的抽取信息,提高信息抽取的准确性。
实施例三
图3为本发明实施例提供的结合RPA和AI的信息抽取方法的另一种流程示意图,也即匹配模版的构建流程图。该方法应用于电子设备,该方法具体包括以下步骤。
S310、对抽取器内的字段列表进行配置。
抽取器内的字段配置,定义了当前抽取器需要对文本进行哪些字段的抽取,最终抽取结果只能输出已经定义的字段。
如图4所示,字段列表页面显示了每个字段的字段名、备注和操作。对字段列表进行配置时,可以单独新增一个字段,也可以批量增加多个字段。
当用户需要新增一个字段时,其可以点击图4所示的“新增字段”按钮,电子设备即可接收到新增字段指令。之后,电子设备可以展示字段新增界面,如图5所示。
在图5所示界面,用户可以输入字段名和备注信息。其中,字段名例如可以为合同名称、合同号、合同金额等词;备注信息可以包括多个字段值,例如可以为字符、数字等。用户输入字段名和备注信息后,可以点击图5所示的“保存”按钮,电子设备即可接收并存储输入的字段名和备注信息,此时,该字段配置成功。
当用户需要批量新增字段时,其可以在图4所示“新增字段”的下拉菜单中选择“批量添加字段”按钮,如图6所示,电子设备即可接收到批量添加字段指令,这种情况下,其可以从预设存储位置下载字段导入模板;并展示字段导入模板,用户即可在字段导入模板中输入各字段名和各备注信息,点击保存字段导入模板按钮后,电子设备可以存储字段导入模板。
当用户点击图6所示的“批量导出字段”按钮时,电子设备可以自动下载全部字段信息excel文件。
用户可以对已经配置的字段进行修改。具体的,如图4所示,当用户点击某字段之后的“编辑”按钮时,电子设备可以展示如图7所示界面,也就是可以展示出该字段所对应的字段名和备注信息,此时,用户可以对字段名或备注信息进行修改。修改完成后,点击图7所示的“保存”按钮,电子设备即可保存修改后的字段。
S320、对抽取器内的资源列表进行配置;资源列表包括词表和正则。
抽取器中的资源配置是用来定义匹配规则中用到的匹配资源,如图8所示,本发明实施例的资源分为词表和正则两类。
当用户想要导入词表时,其可以点击如图8所示界面中词表后面的“左箭头”按钮,电子设备即可接收到词表导入指令,这种情况下,电子设备可以展示文件选择界面,如图9所示。之后,用户可以进行文件选择,确定选择的文件后,电子设备可以上传已选择的词表。
词表导入可以实现现有词表的批量增加。在本发明实施例中,用户也可以新建词表,具体的,当用户点击如图8所示界面中词表之后的“+”按钮时,电子设备可以展示新建词表界面,如图10所示。在如图10界面中,用户可以输入词表名和词表描述,点击“确定”按钮后,电子设备可以保存输入的词表名和词表描述。
可选的,在本发明实施例中,还可以在每个词表内新增多个词表值。具体的,当用户点击某个词表时,电子设备可以展示所选定的词表,之后用户即可在所展示界面中对词表内容进行编辑。
在一种实现方式中,如图11所示,当用户对词表值进行编辑时,可以添加词表值的多种说法,如某一产品的多种说法,并且,可以在一个词表值的多种说法中设定一标准词表值。在进行规则匹配时,如匹配到当前词表值的任意一种说法,则以标准词表值输出。
正则配置是配置匹配模版中可能用到的正则表达式,保存时需要校验正则有效性。在一种实现方式中,当用户点击如图8所示界面中正则之后的“+”按钮时,电子设备可以展示正则新增界面,如图12所示。在如图12界面中,用户可以输入正则描述和正则表达式,点击“保存”按钮后,电子设备可以接收并存储输入的正则描述和正则表达式。
S330、构建初始模版,基于字段列表和资源列表对初始模版进行配置,得到匹配模版。
抽取器中的模版功能是抽取器工作的基本功能。一个抽取器中可以配置多个模版,每个模版可以对应一个文本片段的抽取规则。当输入一个文本时,抽取器会自动匹配模版的顺序,并按照匹配顺序输出模版中抽取的内容。
进行匹配模版配置时,电子设备可以展示模版列表界面,如图13所示,当用户点击“新建模版”按钮时,电子设备可以展示如图14所示的界面。在如图14所示界面中,用户可以进行匹配规则配置。具体的,用户可以输入匹配文本,可以从资源列表选择正则和词表,并且,可以设置是否进行模糊匹配。用户还可以从字段列表中选择需要的字段,将字段和匹配规则均配置完成后,即可发布模版,得到匹配模版。
在一种实现方式中,为了提高模版配置的精确性,进而提高信息抽取的准确性,电子设备还可以对配置完成的匹配模版进行测试。
具体的,电子设备可以接收测试文本;该测试文本可以为txt文件。如图15所示,当用户点击“开始测试”按钮时,电子设备可以接收到测试指令,对测试文本进行信息抽取,并在预设区域展示第一信息或第二信息;第一信息包括:信息抽取结果;第二信息包括:与测试文本匹配的匹配模版,以及匹配模版中与信息抽取结果相匹配的字段名和字段值。
如图15所示,左侧为文本显示区域,即展示的为输入的测试文本。当点击文本区域时可以编辑文本,再次点击“开始测试”右边结果相应发生变化。
图15右侧为可视化结果显示视图,该区域可以显示文本中匹配到的模版以及模版中输出的字段名和字段值。当选择可视化结果显示视图时,鼠标位于模版区域时,文本显示区域高亮匹配到的文本内容;鼠标位于模版中的字段区域时,文本区域高亮匹配到的输出字段内容。点击“查看模版”则新页面打开该模版详情。Json结果显示视图可以显示测试的最终结果。
本实施例中,通过在匹配模版中设置配置字段和抽取规则,能够通过多个条件对待抽取文本进行信息抽取,进而提高信息抽取的准确性。匹配模版配置完成后,通过测试文本对匹配模版的信息抽取精确性进行测试,在匹配模版的精确性不满足要求时,可以对其进行重新配置,直至精确性满足要求时,才将其配置在抽取器中,从而可以提高待抽取文本信息抽取的精确性。
实施例四
图16为本发明实施例提供的结合RPA和AI的信息抽取装置的一种结构示意图,所述装置包括:
文本获取模块610,用于获取待抽取文本;
信息抽取模块620,用于将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息。
可选的,所述匹配模版中包括:配置字段和抽取规则,所述信息抽取模块620具体包括:
字段抽取子模块,用于将所述待抽取文本输入已配置匹配模版的抽取器中,抽取所述待抽取文本中与所述配置字段相匹配的初始字段;
信息匹配子模块,用于将所述初始字段中与所述抽取规则相匹配的初始字段作为所述待抽取文本中的抽取信息。
可选的,所述抽取规则包括以下至少一项:文本匹配规则、词表匹配规则、正则匹配规则、和任意文本匹配规则;所述信息匹配子模块具体包括:
字段匹配子单元,用于分别将每个所述初始字段依次与各所述抽取规则进行匹配;
规则判断子单元,用于针对每个所述初始字段,判断该初始字段是否与任一所述抽取规则匹配;
信息抽取子单元,用于当该初始字段与任一所述抽取规则匹配时,将该初始字段作为所述待抽取文本中的抽取信息。
可选的,所述规则判断子单元具体用于:
针对每个所述初始字段,判断该初始字段是否符合文本匹配规则中确定的文本句式;
针对每个所述初始字段,判断该初始字段是否包含在词表匹配规则中已配置的词表内;
针对每个所述初始字段,判断该初始字段的表达方式是否与正则匹配规则中已配置的正则表达式一致。
可选的,所述装置还包括:
字段配置模块,用于对所述抽取器内的字段列表进行配置;
资源配置模块,用于对所述抽取器内的资源列表进行配置;所述资源列表包括词表和正则;
模版配置模块,用于构建初始模版,基于所述字段列表和所述资源列表对所述初始模版进行配置,得到所述匹配模版。
可选的,所述字段配置模块具体包括:
字段新增子模块,用于当接收到新增字段指令时,展示字段新增界面;
字段存储子模块,用于接收并存储输入的字段名和备注信息。
可选的,所述字段配置模块具体包括:
批量增加子模块,用于当接收到批量添加字段指令时,从预设存储位置下载字段导入模板;
模板展示子模块,用于展示所述字段导入模板,接收在所述字段导入模板输入的各字段名和各备注信息;
模板存储子模块,用于当接收到上传文件指令时,存储所述字段导入模板。
可选的,所述资源配置模块具体包括:
词表导入子模块,用于当接收到词表导入指令时,展示文件选择界面;
词表存储子模块,用于接收文件选择指令,并上传已选择的词表。
可选的,所述资源配置模块具体包括:
词表打开子模块,用于当接收到词表打开指令时,展示所选定的词表;
词表编辑子模块,用于接收对所选定的词表的编辑操作,并存储修改后的词表。
可选的,所述资源配置模块具体包括:
正则新增子模块,用于当接收到新增正则指令时,展示正则新增界面;
正则存储子模块,用于接收并存储输入的正则描述和正则表达式。
可选的,所述模版配置模块具体包括:
模版构建子模块,用于构建初始模版,确定并存储从所述字段列表中选择的字段;
模版配置子模块,用于展示规则设置界面,接收并存储输入的匹配文本、从所述资源列表选择的正则表达式以及词表,得到所述匹配模版。
可选的,所述装置还包括:
文本接收模块,用于接收测试文本;
文本测试模块,用于当接收到测试指令时,对所述测试文本进行信息抽取,并在预设区域展示第一信息或第二信息;所述第一信息包括:信息抽取结果;所述第二信息包括:与所述测试文本匹配的匹配模版,以及所述匹配模版中与所述信息抽取结果相匹配的字段名和字段值。
由上述内容可知,本发明实施例中,能够基于抽取器对待抽取文本进行信息抽取,由于抽取器中预先配置了匹配模版,从而将待抽取文本输入抽取器后,可以自动抽取出待抽取文本中与匹配模版相匹配的信息,整个抽取过程不需要人工参与,从而可以提高信息抽取效率。并且,与人工抽取信息相比,基于匹配模版进行信息抽取能够准确的抽取出待抽取文本中的抽取信息,提高信息抽取的准确性。
上述装置实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。装置实施例是基于方法实施例得到的,具体的说明可以参见方法实施例部分,此处不再赘述。
实施例五
请参阅图17,图17是本发明实施例提供的一种计算设备的结构示意图。如图17所示,该计算设备可以包括:
存储有可执行程序代码的存储器701;
与存储器701耦合的处理器702;
其中,处理器702调用存储器701中存储的可执行程序代码,执行本发明任意实施例所提供的结合RPA和AI的信息抽取方法。
该计算设备实施例与上述方法实施例是基于同一发明构思得到的实施例,相关之处可以相互参照。上述计算设备实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行本发明任意实施例所提供的结合RPA和AI的信息抽取方法。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
该存储介质实施例与上述方法实施例是基于同一发明构思得到的实施例,相关之处可以相互参照。上述存储介质实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (15)
1.一种结合RPA和AI的信息抽取方法,其特征在于,所述方法包括:
S1、获取待抽取文本;
S2、将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息。
2.根据权利要求1所述的方法,其特征在于,所述匹配模版中包括:配置字段和抽取规则,所述步骤S2具体包括:
S21、将所述待抽取文本输入已配置匹配模版的抽取器中,抽取所述待抽取文本中与所述配置字段相匹配的初始字段;
S22、将所述初始字段中与所述抽取规则相匹配的初始字段作为所述待抽取文本中的抽取信息。
3.根据权利要求2所述的方法,其特征在于,所述抽取规则包括以下至少一项:文本匹配规则、词表匹配规则、正则匹配规则、和任意文本匹配规则;所述步骤S22具体包括:
S221、分别将每个所述初始字段依次与各所述抽取规则进行匹配;
S222、针对每个所述初始字段,判断该初始字段是否与任一所述抽取规则匹配;
S223、当该初始字段与任一所述抽取规则匹配时,将该初始字段作为所述待抽取文本中的抽取信息。
4.根据权利要求3所述的方法,其特征在于,所述步骤S222具体包括:
S2221、针对每个所述初始字段,判断该初始字段是否符合文本匹配规则中确定的文本句式;
S2222、针对每个所述初始字段,判断该初始字段是否包含在词表匹配规则中已配置的词表内;
S2223、针对每个所述初始字段,判断该初始字段的表达方式是否与正则匹配规则中已配置的正则表达式一致。
5.根据权利要求2-4任一项所述的方法,其特征在于,所述匹配模版通过如下方式得到:
S3、对所述抽取器内的字段列表进行配置;
S4、对所述抽取器内的资源列表进行配置;所述资源列表包括词表和正则;
S5、构建初始模版,基于所述字段列表和所述资源列表对所述初始模版进行配置,得到所述匹配模版。
6.根据权利要求5所述的方法,其特征在于,所述步骤S3具体包括:
S31、当接收到新增字段指令时,展示字段新增界面;
S32、接收并存储输入的字段名和备注信息。
7.根据权利要求5所述的方法,其特征在于,所述步骤S3具体包括:
S33、当接收到批量添加字段指令时,从预设存储位置下载字段导入模板;
S34、展示所述字段导入模板,接收在所述字段导入模板输入的各字段名和各备注信息;
S35、当接收到上传文件指令时,存储所述字段导入模板。
8.根据权利要求5所述的方法,其特征在于,所述步骤S4具体包括:
S41、当接收到词表导入指令时,展示文件选择界面;
S42、接收文件选择指令,并上传已选择的词表。
9.根据权利要求5所述的方法,其特征在于,所述步骤S4具体包括:
S43、当接收到词表打开指令时,展示所选定的词表;
S44、接收对所选定的词表的编辑操作,并存储修改后的词表。
10.根据权利要求5所述的方法,其特征在于,所述步骤S4具体包括:
S45、当接收到新增正则指令时,展示正则新增界面;
S46、接收并存储输入的正则描述和正则表达式。
11.根据权利要求5所述的方法,其特征在于,所述步骤S5具体包括:
S51、构建初始模版,确定并存储从所述字段列表中选择的字段;
S52、展示规则设置界面,接收并存储输入的匹配文本、从所述资源列表选择的正则表达式以及词表,得到所述匹配模版。
12.根据权利要求5所述的方法,其特征在于,所述步骤S5之后,还包括:
S6、接收测试文本;
S7、当接收到测试指令时,对所述测试文本进行信息抽取,并在预设区域展示第一信息或第二信息;所述第一信息包括:信息抽取结果;所述第二信息包括:与所述测试文本匹配的匹配模版,以及所述匹配模版中与所述信息抽取结果相匹配的字段名和字段值。
13.一种结合RPA和AI的信息抽取装置,其特征在于,所述装置包括:
文本获取模块,用于获取待抽取文本;
信息抽取模块,用于将所述待抽取文本输入已配置匹配模版的抽取器中,得到所述待抽取文本中的抽取信息。
14.一种计算设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与存储器耦合的处理器;
其中,处理器调用存储器中存储的可执行程序代码,执行如权利要求1-12任一所述的结合RPA和AI的信息抽取方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-12任一所述的结合RPA和AI的信息抽取方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010611768 | 2020-06-30 | ||
CN2020106117688 | 2020-06-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111881664A true CN111881664A (zh) | 2020-11-03 |
Family
ID=73211489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786436.3A Pending CN111881664A (zh) | 2020-06-30 | 2020-08-06 | 一种结合rpa和ai的信息抽取方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881664A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112558954A (zh) * | 2020-12-29 | 2021-03-26 | 北京来也网络科技有限公司 | 结合rpa和ai的信息抽取方法、装置、介质及电子设备 |
CN114495127A (zh) * | 2022-03-31 | 2022-05-13 | 来也科技(北京)有限公司 | 基于rpa和ai的商品信息处理方法、装置、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815208A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
CN107729480A (zh) * | 2017-10-16 | 2018-02-23 | 北京神州泰岳软件股份有限公司 | 一种限定区域的文本信息抽取方法及装置 |
CN109033282A (zh) * | 2018-07-11 | 2018-12-18 | 山东邦尼信息科技有限公司 | 一种基于抽取模板的网页正文抽取方法及装置 |
CN110597959A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 文本信息抽取方法、装置以及电子设备 |
CN111008523A (zh) * | 2019-11-21 | 2020-04-14 | 中科鼎富(北京)科技发展有限公司 | 一种信息提取方法、装置及服务器 |
-
2020
- 2020-08-06 CN CN202010786436.3A patent/CN111881664A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106815208A (zh) * | 2015-12-01 | 2017-06-09 | 北京国双科技有限公司 | 法律裁判文书的解析方法及装置 |
CN107608949A (zh) * | 2017-10-16 | 2018-01-19 | 北京神州泰岳软件股份有限公司 | 一种基于语义模型的文本信息抽取方法及装置 |
CN107729480A (zh) * | 2017-10-16 | 2018-02-23 | 北京神州泰岳软件股份有限公司 | 一种限定区域的文本信息抽取方法及装置 |
CN109033282A (zh) * | 2018-07-11 | 2018-12-18 | 山东邦尼信息科技有限公司 | 一种基于抽取模板的网页正文抽取方法及装置 |
CN110597959A (zh) * | 2019-09-17 | 2019-12-20 | 北京百度网讯科技有限公司 | 文本信息抽取方法、装置以及电子设备 |
CN111008523A (zh) * | 2019-11-21 | 2020-04-14 | 中科鼎富(北京)科技发展有限公司 | 一种信息提取方法、装置及服务器 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112558954A (zh) * | 2020-12-29 | 2021-03-26 | 北京来也网络科技有限公司 | 结合rpa和ai的信息抽取方法、装置、介质及电子设备 |
CN114495127A (zh) * | 2022-03-31 | 2022-05-13 | 来也科技(北京)有限公司 | 基于rpa和ai的商品信息处理方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
US10409820B2 (en) | Semantic mapping of form fields | |
CN108345686B (zh) | 一种基于搜索引擎技术的数据分析方法及系统 | |
CN111831911A (zh) | 查询信息的处理方法、装置、存储介质和电子装置 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN112036153B (zh) | 工单纠错方法、装置、计算机可读存储介质和计算机设备 | |
CN111881664A (zh) | 一种结合rpa和ai的信息抽取方法、装置、设备及介质 | |
CN111291086A (zh) | 一种课程内容搜索方法、系统、设备及存储介质 | |
CN113778864A (zh) | 一种测试用例的生成方法和装置、电子设备和存储介质 | |
CN111753517A (zh) | 基于rpa及ai的文档对比方法、装置、设备及介质 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN111967234A (zh) | 可视化报表的生成方法、装置、终端设备和存储介质 | |
CN111061733A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN114594927A (zh) | 低代码开发方法、装置、系统、服务器及存储介质 | |
CN112036843A (zh) | 基于rpa及ai的流程元素定位方法、装置、设备和介质 | |
CN111309371A (zh) | 一种查询方法和装置 | |
CN109508185B (zh) | 一种代码复查方法和装置 | |
CN111966830A (zh) | 结合rpa和ai的文本分类方法、装置、设备及介质 | |
CN117763140B (zh) | 基于计算特征网络的精准医学信息结论生成方法 | |
JP2010134766A (ja) | 文書データ処理装置およびそのプログラム | |
CN116028620B (zh) | 一种基于多任务特征协同的生成专利摘要的方法及系统 | |
CN117763140A (zh) | 基于计算特征网络的精准医学信息结论生成方法 | |
CN117667979A (zh) | 基于大语言模型的数据挖掘方法、装置、设备及介质 | |
CN117725895A (zh) | 文档生成方法、装置、设备及介质 | |
CN115329240A (zh) | 一种web前端页面构建方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |