CN114580347A - 结合rpa及ai的招投标信息确定方法、装置及存储介质 - Google Patents

结合rpa及ai的招投标信息确定方法、装置及存储介质 Download PDF

Info

Publication number
CN114580347A
CN114580347A CN202210174316.7A CN202210174316A CN114580347A CN 114580347 A CN114580347 A CN 114580347A CN 202210174316 A CN202210174316 A CN 202210174316A CN 114580347 A CN114580347 A CN 114580347A
Authority
CN
China
Prior art keywords
information
document
bidding
extraction
bid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210174316.7A
Other languages
English (en)
Inventor
白龙飞
张海雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Laiye Technology Beijing Co Ltd
Original Assignee
Laiye Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Laiye Technology Beijing Co Ltd filed Critical Laiye Technology Beijing Co Ltd
Priority to CN202210174316.7A priority Critical patent/CN114580347A/zh
Publication of CN114580347A publication Critical patent/CN114580347A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/08Auctions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Computer Interaction (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Character Input (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种结合RPA及AI的招投标信息确定方法、装置及存储介质。其中,一种结合RPA及AI的招投标信息确定方法,包括:通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。采用本申请,可以提高招投标信息确定的准确性,提高用户的使用体验。

Description

结合RPA及AI的招投标信息确定方法、装置及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种结合RPA及AI的招投标信息确定方法、装置及存储介质。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
智能文档处理(Intelligent Document Processing,IDP)是基于光学字符识别(Optical Character Recognition,OCR)、计算机视觉(Computer Vision,CV)、自然语言处理(Natural Language Processing,NLP)、知识图谱(Knowledge Graph,KG)等人工智能技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化的新一代自动化技术。
招投标是一种国际惯例,是商品经济高度发展的产物,是应用技术、经济的方法和市场经济的竞争机制的作用,有组织开展的一种择优成交的方式。企业进行招投标时,需要从对应的招投标文档中获取需要的招投标信息。但是,相关技术中,终端针对多种形式的招投标文档的适应性差,因此,终端获取招投标信息的准确性低,进而影响用户的使用体验。
发明内容
本申请实施例提供一种结合RPA及AI的招投标信息确定方法、装置及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种结合RPA及AI的招投标信息确定方法,包括:
通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;
采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;
基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。
在一种实施方式中,通过RPA系统获取目标文档格式的招投标文档,包括:
获取招投标文档对应的文档格式;
若文档格式不是目标文档格式,则通过RPA系统对招投标文档进行格式转换,得到目标文档格式的招投标文档。
在一种实施方式中,采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档,包括:
采用OCR技术对招投标文档进行识别,获取招投标文档对应的内容信息和结构信息;
基于内容信息和结构信息,对招投标文档进行文档结构还原,得到结构化招投标文档。
在一种实施方式中,采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,包括:
基于结构信息和内容信息,确定结构化招投标文档对应的段落信息集合;
采用深度学习模型对段落信息集合中任一段落信息进行信息抽取,得到第一抽取信息子集;
遍历段落信息集合,得到结构化招投标文档对应的第一抽取信息集合。
在一种实施方式中,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合,包括:
获取针对可视化规则模型所输入的匹配规则信息;
基于匹配规则信息,对结构化招投标文档进行信息抽取,得到结构化招投标文档对应的第二抽取信息集合。
在一种实施方式中,基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息的方法包括以下至少一种:
获取字段信息集合中任一字段信息;
在第一抽取信息集合获取任一字段信息对应的第一抽取信息;
在第二抽取信息集合获取任一字段信息对应的第二抽取信息;
获取任一字段信息对应的信息融合方式;
采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息。
在一种实施方式中,采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息,包括:
若任一字段信息属于置信度字段集合,则获取第一抽取信息对应的第一置信度,以及第二抽取信息对应的第二置信度,并基于第一置信度和第二置信度确定招投标文档对应的招投标信息;
若任一字段信息属于模型字段集合,则将第一抽取信息确定为招投标文档对应的招投标信息;
若任一字段信息属于规则字段集合,则将第二抽取信息确定为招投标文档对应的招投标信息。
第二方面,本申请实施例提供了一种结合RPA及AI的招投标信息确定装置,包括:
文档获取单元,用于通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;
信息抽取单元,用于采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;
信息确定单元,用于基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。
在一种实施方式中,文档获取单元包括格式获取子单元和格式转换子单元,文档获取单元用于通过RPA系统获取目标文档格式的招投标文档时:
格式获取子单元,用于获取招投标文档对应的文档格式;
格式转换子单元,用于若文档格式不是目标文档格式,则通过RPA系统对招投标文档进行格式转换,得到目标文档格式的招投标文档。
在一种实施方式中,文档获取单元还包括文档识别子单元和结构还原子单元,文档获取单元用于采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档时:
文档识别子单元,用于采用OCR技术对招投标文档进行识别,获取招投标文档对应的内容信息和结构信息;
结构还原子单元,用于基于内容信息和结构信息,对招投标文档进行文档结构还原,得到结构化招投标文档。
在一种实施方式中,信息抽取单元包括集合确定子单元、子集获取子单元和集合遍历子单元,信息抽取单元用于采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合时:
集合确定子单元,用于基于结构信息和内容信息,确定结构化招投标文档对应的段落信息集合;
子集获取子单元,用于采用深度学习模型对段落信息集合中任一段落信息进行信息抽取,得到第一抽取信息子集;
集合遍历子单元,用于遍历段落信息集合,得到结构化招投标文档对应的第一抽取信息集合。
在一种实施方式中,信息抽取单元还包括信息获取子单元和集合获取子单元,信息抽取单元用于采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合时:
信息获取子单元,用于获取针对可视化规则模型所输入的匹配规则信息;
集合获取子单元,用于基于匹配规则信息,对结构化招投标文档进行信息抽取,得到结构化招投标文档对应的第二抽取信息集合。
在一种实施方式中,信息确定单元包括字段获取子单元、抽取信息获取子单元、方式获取子单元和信息融合子单元,信息确定单元用于基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息时:
字段获取子单元,用于获取字段信息集合中任一字段信息;
抽取信息获取子单元,用于在第一抽取信息集合获取任一字段信息对应的第一抽取信息;
抽取信息获取子单元,还用于在第二抽取信息集合获取任一字段信息对应的第二抽取信息;
方式获取子单元,用于获取任一字段信息对应的信息融合方式;
信息融合子单元,用于采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息。
在一种实施方式中,信息融合子单元,用于采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息时,具体用于以下至少一种:
若任一字段信息属于置信度字段集合,则获取第一抽取信息对应的第一置信度,以及第二抽取信息对应的第二置信度,并基于第一置信度和第二置信度确定招投标文档对应的招投标信息;
若任一字段信息属于模型字段集合,则将第一抽取信息确定为招投标文档对应的招投标信息;
若任一字段信息属于规则字段集合,则将第二抽取信息确定为招投标文档对应的招投标信息。
第三方面,本申请实施例提供了一种结合RPA及AI的终端,该终端包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:
通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。因此,RPA系统获取到的文档格式为目标文档格式,可以减少识别不同文档格式的文档使得获取的招投标信息不准确的情况,通过采用深度学习模型和可视化规则模型相结合的抽取方法,可以提高招投标信息确定的准确性,进而提高用户的使用体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请的一些实施方式,而不应将其视为是对本申请范围的限制。
图1示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的背景示意图;
图2示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的背景架构示意图;
图3示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的流程图;
图4示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的流程图;
图5示出本申请一个实施例的一种格式转换的流程示意图;
图6示出本申请一个实施例的一种可视化界面的展示示意图;
图7示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图;
图8示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图;
图9示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图;
图10示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图;
图11示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图;
图12示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图;
图13示出根据本申请一实施例的一种终端的结构框图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。
在本申请的描述中,术语“多个”指两个或两个以上。
在本申请的描述中,术语“RPA”是指通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
在本申请的描述中,术语“IDP”是指智能文档处理(Intelligent DocumentProcessing),具体是指基于光学字符识别(Optical Character Recognition,OCR)、计算机视觉(Computer Vision,CV)、自然语言处理(Natural Language Processing,NLP)、知识图谱(Knowledge Graph,KG)等人工智能技术,对各类文档进行识别、分类、抽取、校验等处理,帮助企业实现文档处理工作的智能化和自动化的新一代自动化技术。本申请的描述中介绍了IDP的一个典型应用场景,即利用智能文档处理对大量的招投标文档进行自动抓取、分析和匹配。
智能文档理解平台基于OCR、NLP前沿算法,提供丰富的预训练模型及自学习功能,拥有处理多类复杂文档的能力,实现端到端的文档处理自动化。
在本申请的描述中,术语“OCR”是指光学字符识别(Optical CharacterRecognition),具体是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
在本申请的描述中,术语“招投标文档”包括招标文档和投标文档。其中,招标文档指的是招标人向潜在投标人发出并告知项目需求、招标投标活动规则和合同条件等信息的要约邀请文档,是项目招标投标活动的主要依据。投标文档指的是投标人应招标文档要求编制的响应性文档。
在本申请的描述中,术语“深度学习模型”指的是通过设计建立适量的神经元计算节点和多层运算层次结构,选择合适的输入层和输出层,通过网络的学习和调优,建立起从输入到输出的函数关系,虽然不能100%找到输入与输出的函数关系,但是可以尽可能的逼近现实的关联关系。使用训练成功的深度学习模型,就可以实现对复杂事务处理的自动化要求。
在本申请的描述中,术语“可视化规则模型”指的是基于领域专家经验建立的可视化规则模型。用户可以根据可视化规则模型的可视化界面对可视化规则模型中的抽取规则进行编辑、调试和管理。
随着科学技术的发展,终端技术的日益成熟,提高了用户生产生活的便利性。终端应用场景中,用户可以通过信息抽取应用程序对招投标文档进行信息抽取。
根据一些实施例,图1示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的背景示意图。如图1所示,用户可以点击终端的信息抽取应用程序,当终端检测到用户点击信息抽取应用程序时,终端可以展示信息抽取界面。用户可以基于信息抽取界面,输入信息抽取源,并点击“抽取”按键。当终端检查到用户点击抽取按键时,终端可以从招投标文档中抽取招投标信息。
根据一些实施例,图2示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的背景架构示意图。如图2所示,终端11可以通过网络12将用户发出的抽取指令上传至服务器13。当服务器13接收到抽取指令时,服务器13可以通过解析超文本标记语言(Hyper Text Markup Language,HTML)的文档对象模型(Document Object Model,DOM)结构的方式对信息抽取源中获取的招投标文档进行文档解析,从而从招投标文档中抽取招投标信息。服务器13可以通过网络12将抽取的招投标信息发送至终端11。
在一些实施例中,由于信息抽取源数量众多,招投标文档的文档结构各异、文档形式多样,因此,仅仅通过解析HTML的DOM结构的方式进行文档的解析,招投标信息的抽取效果差,针对不同信息抽取源的适应性也很差。
易于理解的是,该终端包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、第五代移动通信技术(5th generation mobile networks,5G)网络或未来演进网络中的终端设备等。该终端上可以安装操作系统,该操作系统是指可以运行在终端中的操作系统,是管理和控制终端硬件和终端应用的程序,是终端中不可或缺的系统应用。该操作系统包括但不限于安卓Android系统、IOS系统、Windows phone(WP)系统和Ubuntu移动版操作系统等。
根据一些实施例,该终端11可以通过网络12和服务器13连接。网络12用以在终端11和服务器13之间提供通信链路。网络12可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。应该理解,图2中的终端11、网络12和服务器13的数目仅仅是示意性的。根据现实需要,可以具有任意数目的终端、网络和服务器。比如服务器13可以是多个服务器组成的服务器集群等。用户可以使用终端11通过网络12与服务器13交互,以进行招投标信息确定等。
参照下面的描述和附图,将清楚本申请的实施例的这些和其他方面。在这些描述和附图中,具体申请了本申请的实施例中的一些特定实施方式,来表示实施本申请的实施例的原理的一些方式,但是应当理解,本申请的实施例的范围不受此限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
以下结合附图描述根据本申请实施例的结合RPA及AI的招投标信息确定方法。
图3示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的流程图,如图3所示,该结合RPA及AI的招投标信息确定方法例如可以应用于智能文档处理场景中。
具体的,该方法可包括以下步骤:
步骤S101:通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;
根据一些实施例,文档格式指的是电脑为了存储文本信息而使用的对文本信息的特殊编码方式。该文档格式可以是文本txt格式、HTML格式、word格式、便携式文档(Portable Document Format,PDF)格式等等。目标文档格式指的是RPA系统所选择的获取的招投标文档的文档格式。该目标文档格式并不特征某一固定格式。例如,当RPA系统所选择的获取的招投标文档的文档格式发生变化时,该目标文档格式也可以相应变化。
在一些实施例中,结构化招投标文档指的是由逻辑结构,例如标题、章节、段落等组成的文档。该结构化招投标文档并不特指某一固定文档。例如,当招投标文档的内容发生变化时,该结构化招投标文档也可以相应变化。当招投标文档的文档格式发生变化时,该结构化招投标文档也可以相应变化。
根据一些实施例,RPA系统至少包含三个组成部分:开发工具、运行工具和控制中心。其中,UiBot属于一种RPA系统。在UiBot中,这三个组成部分分别被命名为UiBotCreator流程创造者、UiBot Worker流程机器人和UiBot Commander机器人指挥官。其中,UiBot Creator流程创造者是流程的开发的编程工具,在流程中进行界面自动化操作、AI识别、数据读写等具体步骤。UiBot Creator流程创造者允许以流程图、低代码的方式,采用鼠标拖拽各个步骤,轻松组装符合业务需求的自动化流程。
易于理解的是,RPA流程编写完毕后,部署在UiBot Worker流程机器人之中。可以根据需要手动启动运行,或在满足特定触发条件时自动启动。任务可编排,过程可回溯。
在一些实施例中,UiBot Commander机器人指挥官是对于企业内部的多个UiBotWorker流程机器人进行统一管理的平台,可以快速批量下发任务,并为UiBot Worker流程机器人提供运行时所需的数据、凭证、文件等。还可以实时监测UiBot Worker流程机器人的运行状态,或回看其历史记录。
根据一些实施例,UiBot中还提供了专门为RPA设计的人工智能(ArtificialIntelligence,AI)能力,这些AI能力也构成了UiBot的第四个组成部分,称之为UiBotMage。UiBot Mage智能文档处理平台是基于OCR、NLP等深度学习算法打造的处理平台,提供了文档的识别、分类、要素提取、校验、比对、纠错等功能,实现企业日常文档处理工作的自动化。
易于理解的是,本申请实施例所提供的方法可以应用于智能文档处理场景中,可以利用IDP对招投标文档进行自动抓取、分析和匹配。具体可以基于UiBot Mage智能文档处理平台实现端到端的招投标文档自动化处理。
易于理解的是,当终端从招投标文档中确定对应的招投标信息时,终端可以基于机器人流程自动化RPA系统,获取RPA系统所选择的目标文档格式的招投标文档。当终端获取到目标文档格式的招投标文档时,终端可以采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档。
步骤S102:采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;
根据一些实施例,抽取信息集合指的是由至少一个抽取信息汇聚而成的集合。抽取信息集合包括的抽取信息包括但不限于项目名称、公司、资金来源、项目规模、合同估算价、项目地方、工期、招标范围、资质要求、截止日期等等
在一些实施例中,第一抽取信息集合指的是终端采用深度学习模型对结构化招投标文档进行信息抽取时所得到的抽取信息的集合。该第一抽取信息集合并不特指某一固定抽取信息集合。例如,当结构化招投标文档发生变化时,该第一抽取信息集合也可以相应变化。当深度学习模型发生变化时,该第一抽取信息集合也可以相应变化。
在一些实施例中,第二抽取信息集合指的是终端采用可视化规则模型对结构化招投标文档进行信息抽取时所得到的抽取信息的集合。该第二抽取信息集合并不特指某一固定抽取信息集合。例如,当结构化招投标文档发生变化时,该第二抽取信息集合也可以相应变化。当可视化规则模型发生变化时,该第二抽取信息集合也可以相应变化。
易于理解的是,当终端获取到结构化招投标文档时,终端可以采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合。终端还可以采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合。
步骤S103:基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。
根据一些实施例,招投标信息指的是终端基于RPA及AI,对招投标文档进行信息抽取时得到的信息。该招投标信息包括但不限于项目名称信息、公司信息、资金来源信息、项目规模信息、合同估算价信息、项目地理位置信息、工期信息、招标范围信息、资质要求信息、截止日期信息等等。
在一些实施例中,该招投标信息并不特指某一固定信息。例如,当第一抽取信息集合发生变化时,该招投标信息也可以相应变化。当第二抽取信息集合发生变化时,该招投标信息也可以相应变化。当招投标文档发生变化时,该招投标信息也可以相应变化。
易于理解的是,当终端获取到第一抽取信息集合和第二抽取信息集合时,终端可以基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。
在本申请实施例中,通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。因此,RPA系统获取到的文档格式为目标文档格式,可以减少识别不同文档格式的文档使得获取的招投标信息不准确的情况,通过采用深度学习模型和可视化规则模型相结合的抽取方法,可以减少仅采用可视化规则模型进行抽取时的人工成本,可以提高仅深度学习模型抽取信息,抽取的招投标信息不准确的情况,可以提高招投标信息确定的准确性,进而提高用户的使用体验。
图4示出本申请一个实施例的一种结合RPA及AI的招投标信息确定方法的流程图,如图4所示,该方法可包括以下步骤:
步骤S201:获取招投标文档对应的文档格式;
具体过程如上所述,此处不再赘述。
根据一些实施例,当终端基于RPA对招投标文档进行信息抽取时,终端可以通过RPA系统抓取信息抽取源中的招投标文档以及招投标文档对应的文档格式。
在一些实施例中,信息抽取源指的是招投标文档的来源。该信息抽取源并不特指某一固定信息。信息抽取源包括但不限于公共资源交易网站、行业核心招投标网站、地区招投标网站等等。信息抽取源的个数为多个,可以确保信息数据全量覆盖,随时掌握最新招投标文档信息。
在一些实施例中,终端通过RPA系统抓取信息抽取源中的招投标文档时,终端可以通过信息抽取源中的网站地址抓取网页。当终端抓取到网页时,终端可以从网页源码中提取出招投标文档和招投标文档对应的文档格式。
例如,当终端抓取到行业核心招投标网站的网页时,终端可以从行业核心招投标网站的网页源码中提取出行业核心招投标网站对应的word格式的招投标文档。当终端抓取到地区招投标网站时,终端可以从地区招投标网站的网页源码中提取出地区招投标网站对应的PDF格式的招投标文档。
易于理解的是,当终端基于RPA系统对招投标文档进行信息抽取时,终端可以获取招投标文档对应的文档格式。
步骤S202:若文档格式不是目标文档格式,则通过RPA系统对招投标文档进行格式转换,得到目标文档格式的招投标文档;
具体过程如上所述,此处不再赘述。
根据一些实施例,终端通过RPA系统对招投标文档进行格式转换时,终端可以利用RPA系统内置的文档格式转换工具对招投标文档进行格式转换。例如,当终端获取到word格式的招投标文档时,终端可以利用python win32库,调用word底层宏语言(Visual Basicfor Applications,VBA),将word格式的招投标文档转换成PDF格式的招投标文档。
例如,若终端设置的目标文档格式为PDF格式时,若终端通过RPA系统抓取信息抽取源中的招投标文档时,抓取到word格式的招投标文档A。终端可以利用RPA系统内置的文档格式转换工具对招投标文档A进行格式转换,转换为PDF格式的招投标文档,如图5所示。
易于理解的是,当终端获取到招投标文档对应的文档格式时,终端可以判断招投标文档对应的文档格式是否为目标文档格式。若终端判断招投标文档对应的文档格式不是目标文档格式,终端可以通过RPA系统对招投标文档进行格式转换,得到目标文档格式的招投标文档。
步骤S203:采用OCR技术对招投标文档进行识别,获取招投标文档对应的内容信息和结构信息;
根据一些实施例,内容信息指的是招投标文档中每个字符的字符信息的集合。该内容信息并不特指某一固定信息。例如,当招投标文档的内容发生变化时,该内容信息也可以发生变化。当招投标文档的文档格式发生变化时,该内容信息也可以发生变化。
在一些实施例中,结构信息指的是招投标文档中每个字符对应的坐标信息的集合。该结构信息并不特指某一固定信息。例如,当招投标文档的内容发生变化时,该结构信息也可以发生变化。当招投标文档的文档格式发生变化时,该结构信息也可以发生变化。
易于理解的是,当终端获取到目标文档格式的招投标文档时,终端可以采用OCR技术对目标文档格式的招投标文档进行识别,从而获取目标文档格式的招投标文档对应的内容信息和结构信息。
步骤S204:基于内容信息和结构信息,对招投标文档进行文档结构还原,得到结构化招投标文档;
具体过程如上所述,此处不再赘述。
根据一些实施例,终端采用OCR技术对招投标文档进行识别,获取招投标文档对应的内容信息和结构信息时,丢失了招投标文档的上下文信息,例如段落信息等。终端在进行信息抽取时,仅基于内容信息和结构信息无法利用上下文信息进行建模。因此,终端需要基于内容信息和结构信息对招投标文档进行文档结构还原,还原后的结构化招投标文档可以将字符信息按段落进行组合。
在一些实施例中,当终端对招投标文档进行文档结构还原时,终端可以根据文档的行间距、行首、行尾、缩进、行长度等特征判断文档的段落启始和结束信息,并在段落间插入换行符标记,实现段落还原。终端还可以检测招投标文档中是否存在目录,若存在目录,则识别目录内容,根据目录定位章节位置,根据章节位置还原招投标文档的章节结构。若不存在目录,则根据招投标文档的标题、行间距的特征定位章节位置,根据章节位置还原招投标文档的章节结构。
易于理解的是,当终端获取到招投标文档对应的内容信息和结构信息时,终端可以基于内容信息和结构信息,对招投标文档进行文档结构还原,得到结构化招投标文档。
步骤S205:采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;
具体过程如上所述,此处不再赘述。
根据一些实施例,深度学习模型并不特指某一固定模型。例如,终端可以采用语言表征模型BERT进行建模,采用标注训练样本对BERT进行训练从而得到深度学习模型。
在一些实施例中,采用标注训练样本对BERT进行训练得到的深度学习模型,可以覆盖多种类型的招投标信息,进而可以降低可视化规则模型的规模。
根据一些实施例,当终端采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合时,终端可以基于结构信息和内容信息,确定结构化招投标文档对应的段落信息集合;采用深度学习模型对段落信息集合中任一段落信息进行信息抽取,得到第一抽取信息子集;遍历段落信息集合,得到结构化招投标文档对应的第一抽取信息集合。
在一些实施例中,段落信息集合指的是终端对招投标文档的段落进行还原时得到的段落信息的集合。该段落信息集合并不特指某一固定集合。例如,当招投标文档的内容发生变化时,该段落信息集合也可以发生变化。当招投标文档的文档格式发生变化时,该段落信息集合也可以发生变化。
易于理解的是,以段落信息为单位对深度学习模型进行上下文建模,可以提高信息抽取的效率,进而提高用户的使用体验。
根据一些实施例,当终端采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合时,终端可以获取针对可视化规则模型所输入的匹配规则信息;基于匹配规则信息,对结构化招投标文档进行信息抽取,得到结构化招投标文档对应的第二抽取信息集合。
在一些实施例中,匹配规则信息指的是用户通过可视化界面对可视化规则模型中的抽取规则进行编辑、调试和管理时输入的信息。该匹配规则信息并不特指某一固定信息。该匹配规则信息包括但不限于抽取文档信息、抽取的文档的字符数量信息、抽取日期信息、抽取时间信息、抽取信息输出位置等等。
在一些实施例中,抽取文档信息指的是需要抽取的招投标信息对应的关键字段信息。该抽取文档信息包括但不限于项目名称、公司、资金来源、项目规模、合同估算价、项目地理位置、工期、招标范围、资质要求、截止日期等等。匹配规则信息中可以包括至少一个不同的抽取文档信息。
例如,当终端获取到针对抽取文档信息所输入的信息为“资格预审申请书送达截止”时,终端可以匹配任一结构化招投标文档中对应的“资格预审申请书送达截止”文本,并抽取结构化招投标文档中“资格预审申请书送达截止”对应的时间信息。若终端没有在结构化招投标文档中匹配到“资格预审申请书送达截止”文本,则说明该结构化招投标文档没有“资格预审申请书送达截止”对应的抽取信息。
在一些实施例中,字符数量信息指的是抽取的结构化招投标文档对应的字符数量信息。该字符数量信息并不特指某一固定信息。例如,当终端获取到针对字符数量信息输入的信息为最少“10”字符、最多“300”字符时,终端可以获取字符数量为10-300的结构化招投标文档,并对这些结构化招投标文档进行信息抽取。
在一些实施例中,抽取信息输出位置指的是终端对结构化招投标文档进行信息抽取时,得到的抽取信息的输出位置。该抽取信息输出位置包括但不限于预设表单对应位置、预设文本对应位置、不输出等等。例如,当抽取信息为“抽取日期信息”时,该“抽取日期信息”对应的抽取信息输出位置可以为预设表单中指标名称“投标截止日期”对应的指标内容的位置。当抽取信息为“字符数量信息”时,该“字符数量信息”对应的抽取信息输出位置可以为不输出。根据一些实施例,通过可视化界面对可视化规则模型中的抽取规则进行编辑、调试和管理时,具体可以通过全球广域网(World Wide Web,web)页面对可视化规则模型中的抽取规则进行编辑、调试和管理。
在一些实施例中,图6示出本申请一个实施例的一种可视化界面的展示示意图。如图6所示,用户可以在“抽取文档”右边的输入框中输入需要抽取的招投标文档的名称。用户可以在“输出到字段1”右边的输入框中输入“抽取文档”右边的输入框中输入需要抽取的招投标文档的抽取信息的输出位置。用户可以在“抽取任意文档”右边的输入框中输入需要抽取的招投标文档的最少字符数以及最多字符数。用户可以在“输出到字段2”右边的输入框中输入位于“抽取任意文档”右边的输入框中输入的字符区间内的招投标文档的抽取信息的输出位置。用户可以在“抽取预设词表1”和“抽取预设词表2”右边的输入框中分别输入需要抽取的招投标信息。用户可以在“输出到字段3”右边的输入框中输入“抽取预设词表1”右边的输入框中输入的招投标信息的输出位置。用户可以在“输出到字段4”右边的输入框中输入“抽取预设词表2”右边的输入框中输入的招投标信息的输出位置。
例如,当用户在“抽取文档”右边的输入框中输入ABC,在“输出到字段1”右边的输入框中输入“不输出”时,终端可以对名称为ABC的招投标文档进行信息抽取,但是不输出抽取的结果。当用户在“抽取任意文档”右边的输入框中输入最少“10”字符、最多“300”字符,在“输出到字段2”右边的输入框中输入“不输出”时,终端可以对字符区间为10-300的招投标文档进行信息抽取,但是不输出抽取的结果。当用户在“抽取预设词表1”右边的输入框中输入“日期”,在“输出到字段3”右边的输入框中输入“投标截止日期”时,终端可以抽取招投标文档中的投标截止日期信息,并将抽取到的投标截止日期信息输入至“投标截止日期”字符右边。当用户在“抽取预设词表2”右边的输入框中输入“时间”,在“输出到字段4”右边的输入框中输入“投标截止时间”时,终端可以抽取招投标文档中的投标截止时间信息,并将抽取到的投标截止时间信息输入至“投标截止时间”字符右边。易于理解的是,当终端获取到结构化招投标文档时,终端可以采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合。终端还可以采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合。
步骤S206:获取字段信息集合中任一字段信息;
根据一些实施例,字段信息指的是招投标信息对应的关键字段的信息。该字段信息并不特指某一固定信息。该字段信息包括但不限于项目名称、公司、资金来源、项目规模、合同估算价、项目地理位置、工期、招标范围、资质要求、截止日期等等。
在一些实施例中,将所有字段信息放入同一个集合中即可得到字段信息集合。该字段信息集合并不特指某一固定集合。例如,当字段信息的内容发生变化时,该字段信息集合也可以发生变化。当字段信息的数量发生变化时,该字段信息集合也可以发生变化。
易于理解的是,当终端获取到第一抽取信息集合和第二抽取信息集合时,终端可以获取字段信息集合中任一字段信息。
步骤S207:在第一抽取信息集合获取任一字段信息对应的第一抽取信息;在第二抽取信息集合获取任一字段信息对应的第二抽取信息;
易于理解的是,当终端获取到字段信息集合中任一字段信息时,终端可以在第一抽取信息集合获取任一字段信息对应的第一抽取信息,在第二抽取信息集合获取任一字段信息对应的第二抽取信息。例如,当终端获取到的字段信息为项目名称时,终端可以在第一抽取信息集合获取项目名称对应的项目名称A,在第二抽取信息集合获取项目名称对应的项目名称B。当终端获取到的字段信息为工期时,终端可以在第一抽取信息集合获取工期对应的工期C年,在第二抽取信息集合获取工期对应的工期D年。
步骤S208:获取任一字段信息对应的信息融合方式;
根据一些实施例,信息融合方式指的是终端对第一抽取信息和第二抽取信息进行信息融合时采用的方式。该信息融合方式并不特指某一固定方式。该信息融合方式包括但不限于基于置信度方式、基于深度学习模型方式、基于规则模型方式等等。
在一些实施例中,终端可以通过获取任一字段信息对应的字段集合来获取任一字段信息对应的信息融合方式。例如,当终端获取到任一字段信息属于置信度字段集合时,终端采用基于置信度方式对第一抽取信息和第二抽取信息进行信息融合。当终端获取到任一字段信息属于模型字段集合时,终端采用基于深度学习模型方式对第一抽取信息和第二抽取信息进行信息融合。当终端获取到任一字段信息属于规则字段集合时,终端采用基于规则模型方式对第一抽取信息和第二抽取信息进行信息融合。
根据一些实施例,针对同一字段信息,若深度学习模型和可视化规则模型均抽取到对应的抽取信息,则终端可以根据深度学习模型和可视化规则模型抽取到的抽取信息的置信度来确定招投标文档对应的招投标信息。这种情况下,这些字段信息汇聚而成的集合称为置信度字段集合。
在一些实施例中,该置信度字段集合并不特指某一固定集合。当终端获取到针对置信度字段集合的集合修改指令时,该置信度字段集合会发生相应变换。该置信度字段集合中的字段信息可以包括以下至少一个:项目名称、公司、资金来源、项目规模、合同估算价、项目地理位置、工期、招标范围、资质要求、截止日期等等。
根据一些实施例,针对同一字段信息,若深度学习模型和可视化规则模型均抽取到对应的抽取信息,但是根据该字段信息特殊性和规律,终端会优先使用深度学习模型抽取到的抽取信息。这种情况下,这些字段信息汇聚而成的集合称为模型字段集合。
在一些实施例中,该模型字段集合并不特指某一固定集合。当终端获取到针对模型字段集合的集合修改指令时,该模型字段集合会发生相应变换。该模型字段集合中的字段信息可以包括以下至少一个:项目名称、公司、资金来源、项目规模、合同估算价、项目地理位置、工期、招标范围、资质要求、截止日期等等。
根据一些实施例,针对同一字段信息,若深度学习模型和可视化规则模型均抽取到对应的抽取信息,但是根据该字段信息特殊性和规律,终端会优先使用视化规则模型抽取到的抽取信息。这种情况下,这些字段信息汇聚而成的集合称为规则字段集合。在一些实施例中,该规则字段集合并不特指某一固定集合。当终端获取到针对规则字段集合的集合修改指令时,该规则字段集合会发生相应变换。该规则字段集合中的字段信息可以包括以下至少一个:项目名称、公司、资金来源、项目规模、合同估算价、项目地理位置、工期、招标范围、资质要求、截止日期等等。
在一些实施例中,同一个字段信息仅能对应一个字段集合,例如,置信度字段集合中的字段信息包括项目名称、公司、资金来源时,模型字段集合中的字段信息可以包括项目规模、合同估算价、项目地理位置,规则字段集合中的字段信息可以包括工期、招标范围、资质要求。
易于理解的是,当终端获取到字段信息集合中任一字段信息时,终端可以获取到任一字段信息对应的信息融合方式。
步骤S209:采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息。
根据一些实施例,当终端获取到任一字段信息属于置信度字段集合,采用基于置信度方式对第一抽取信息和第二抽取信息进行信息融合时,终端可以获取第一抽取信息对应的第一置信度,以及第二抽取信息对应的第二置信度;基于第一置信度和第二置信度确定招投标文档对应的招投标信息。
在一些实施例中,置信度指的是抽取信息对应的可信程度。该置信度并不特指某一固定置信度。例如,当抽取信息发生变化时,该置信度也可以发生变化。当终端获取置信度的方式发生变化时,该置信度也可以发生变化。
在一些实施例中,终端可以根据下式获取任一招投标信息对应的置信度:
Figure BDA0003519231050000151
其中,Si为招投标信息i对应的置信度,ei为招投标信息i对应的实际评分,∑jej为招投标信息i对应的标准评分。
在一些实施例中,若第一置信度大于第二置信度,则将第一抽取信息确定为招投标文档对应的招投标信息;若第二置信度大于第一置信度,则将第二抽取信息确定为招投标文档对应的招投标信息。
例如,当终端获取到项目名称属于置信度字段集合时,终端可以获取第一项目名称A1对应的第一置信度a1,以及第二项目名称B1对应的第二置信度b1。当a1大于b1时,终端可以将项目名称A1作为招投标文档对应的项目名称信息。当a1小于b1时,终端可以将项目名称B1作为招投标文档对应的项目名称信息。因此可以提高招投标信息确定的准确性,进而可以提高用户的使用体验。
根据一些实施例,当终端获取到任一字段信息属于模型字段集合,采用基于深度学习模型方式对第一抽取信息和第二抽取信息进行信息融合时,终端可以将第一抽取信息确定为招投标文档对应的招投标信息。
例如,当终端获取到公司属于模型字段集合时,终端可以将第一公司E确定为招投标文档对应的公司信息。当终端获取到项目地理位置属于模型字段集合时,终端可以将项目地理位置F确定为招投标文档对应的项目地理位置信息。因此可以提高招投标信息确定的准确性,进而可以提高用户的使用体验。
根据一些实施例,当终端获取到任一字段信息属于规则字段集合,采用基于规则模型方式对第一抽取信息和第二抽取信息进行信息融合时,终端可以将第二抽取信息确定为招投标文档对应的招投标信息。
例如,当终端获取到截止日期属于规则字段集合时,终端可以将第二截止日期G确定为招投标文档对应的截止日期信息。当终端获取到项目规模属于规则字段集合时,终端可以将第二项目规模H确定为招投标文档对应的项目规模信息。
易于理解的是,当终端获取到任一字段信息对应的信息融合方式时,终端可以采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息。
在本申请实施例中,通过获取招投标文档对应的文档格式,若文档格式不是目标文档格式,则通过RPA系统对招投标文档进行格式转换,得到目标文档格式的招投标文档,因此可以提高RPA系统对不同文档格式的招投标文档的适应性,进而提高招投标信息确定的准确性。采用OCR技术对招投标文档进行识别,获取招投标文档对应的内容信息和结构信息,基于内容信息和结构信息,对招投标文档进行文档结构还原,得到结构化招投标文档,因此可以将招投标文档进行文档结构还原,提高招投标信息确定的效率。采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合,因此可以通过采用深度学习模型和可视化规则模型相结合的抽取方法,可以减少仅采用可视化规则模型进行抽取时的人工成本,可以提高仅深度学习模型抽取信息,抽取的招投标信息不准确的情况,可以提高招投标信息确定的准确性,进而提高用户的使用体验。获取字段信息集合中任一字段信息,在第一抽取信息集合获取任一字段信息对应的第一抽取信息,在第二抽取信息集合获取任一字段信息对应的第二抽取信息,获取任一字段信息对应的信息融合方式,采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息。因此可以提高招投标信息确定的准确性,进而提高用户的使用体验。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参见图7,其是本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图。该结合RPA及AI的招投标信息确定装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该结合RPA及AI的招投标信息确定装置700包括文档获取单元701、信息抽取单元702和信息确定单元703,其中:
文档获取单元701,用于通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;
信息抽取单元702,用于采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;
信息确定单元703,用于基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。
根据一些实施例,图8示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图。如图8所示,文档获取单元701包括格式获取子单元711和格式转换子单元721,文档获取单元701用于通过RPA系统获取目标文档格式的招投标文档时:
格式获取子单元711,用于获取招投标文档对应的文档格式;
格式转换子单元721,用于若文档格式不是目标文档格式,则通过RPA系统对招投标文档进行格式转换,得到目标文档格式的招投标文档。
根据一些实施例,图9示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图。如图9所示,文档获取单元701还包括文档识别子单元731和结构还原子单元741,文档获取单元701用于采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档时:
文档识别子单元731,用于采用OCR技术对招投标文档进行识别,获取招投标文档对应的内容信息和结构信息;
结构还原子单元741,用于基于内容信息和结构信息,对招投标文档进行文档结构还原,得到结构化招投标文档。
根据一些实施例,图10示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图。如图10所示,信息抽取单元702包括集合确定子单元712、子集获取子单元722和集合遍历子单元732,信息抽取单元702用于采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合时:
集合确定子单元712,用于基于结构信息和内容信息,确定结构化招投标文档对应的段落信息集合;
子集获取子单元722,用于采用深度学习模型对段落信息集合中任一段落信息进行信息抽取,得到第一抽取信息子集;
集合遍历子单元732,用于遍历段落信息集合,得到结构化招投标文档对应的第一抽取信息集合。
根据一些实施例,图11示出本申请一个实施例的一种结合RPA及AI的招投标信息确定装置的结构示意图。如图11所示,信息抽取单元702还包括信息获取子单元742和集合获取子单元752,信息抽取单元702用于采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合时:
信息获取子单元742,用于获取针对可视化规则模型所输入的匹配规则信息;
集合获取子单元752,用于基于匹配规则信息,对结构化招投标文档进行信息抽取,得到结构化招投标文档对应的第二抽取信息集合。
根据一些实施例,图12示出本申请一个实施例的一种结合RPA及AI的信息抽取装置的结构示意图。如图12所示,信息确定单元703包括字段获取子单元713、抽取信息获取子单元723、方式获取子单元733和信息融合子单元743,信息确定单元703用于基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息时:
字段获取子单元713,用于获取字段信息集合中任一字段信息;
抽取信息获取子单元723,用于在第一抽取信息集合获取任一字段信息对应的第一抽取信息;
抽取信息获取子单元723,还用于在第二抽取信息集合获取任一字段信息对应的第二抽取信息;
方式获取子单元733,用于获取任一字段信息对应的信息融合方式;
信息融合子单元743,用于采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息。
在一些实施例中,信息融合子单元743,用于采用信息融合方式,对第一抽取信息和第二抽取信息进行信息融合,确定招投标文档对应的招投标信息时,具体用于以下至少一种:
若任一字段信息属于置信度字段集合,则获取第一抽取信息对应的第一置信度,以及第二抽取信息对应的第二置信度,并基于第一置信度和第二置信度确定招投标文档对应的招投标信息;
若任一字段信息属于模型字段集合,则将第一抽取信息确定为招投标文档对应的招投标信息;
若任一字段信息属于规则字段集合,则将第二抽取信息确定为招投标文档对应的招投标信息。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
在本申请实施例中,通过文档获取单元通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对招投标文档进行识别,得到结构化招投标文档;信息抽取单元采用深度学习模型对结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对结构化招投标文档进行信息抽取,得到第二抽取信息集合;信息确定单元基于第一抽取信息集合和第二抽取信息集合,确定招投标文档对应的招投标信息。因此,RPA系统获取到的文档格式为目标文档格式,可以减少识别不同文档格式的文档使得获取的招投标信息不准确的情况,通过采用深度学习模型和可视化规则模型相结合的抽取方法,可以提高招投标信息确定的准确性,进而提高用户的使用体验。
图13示出根据本申请一实施例的一种终端的结构框图。如图13所示,该终端包括:存储器1310和处理器1320,存储器1310内存储有可在处理器1320上运行的计算机程序。处理器1320执行该计算机程序时实现上述实施例中的结合RPA及AI的招投标信息确定方法。存储器1310和处理器1320的数量可以为一个或多个。
该终端还包括:
通信接口1330,用于与外界设备进行通信,进行数据交互传输。
如果存储器1310、处理器1320和通信接口1330独立实现,则存储器1310、处理器1320和通信接口1330可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponent Interconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图13中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1310、处理器1320及通信接口1330集成在一块芯片上,则存储器1310、处理器1320及通信接口1330可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advanced RISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random access memory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (15)

1.一种结合机器人流程自动化RPA及人工智能AI的招投标信息确定方法,其特征在于,包括:
通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对所述招投标文档进行识别,得到结构化招投标文档;
采用深度学习模型对所述结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对所述结构化招投标文档进行信息抽取,得到第二抽取信息集合;
基于所述第一抽取信息集合和所述第二抽取信息集合,确定所述招投标文档对应的招投标信息。
2.根据权利要求1所述的方法,其特征在于,所述通过RPA系统获取目标文档格式的招投标文档,包括:
获取所述招投标文档对应的文档格式;
若所述文档格式不是目标文档格式,则通过所述RPA系统对所述招投标文档进行格式转换,得到所述目标文档格式的招投标文档。
3.根据权利要求1所述的方法,其特征在于,所述采用光学字符识别OCR技术对所述招投标文档进行识别,得到结构化招投标文档,包括:
采用OCR技术对所述招投标文档进行识别,获取所述招投标文档对应的内容信息和结构信息;
基于所述内容信息和所述结构信息,对所述招投标文档进行文档结构还原,得到结构化招投标文档。
4.根据权利要求3所述的方法,其特征在于,所述采用深度学习模型对所述结构化招投标文档进行信息抽取,得到第一抽取信息集合,包括:
基于所述结构信息和所述内容信息,确定所述结构化招投标文档对应的段落信息集合;
采用深度学习模型对所述段落信息集合中任一段落信息进行信息抽取,得到第一抽取信息子集;
遍历所述段落信息集合,得到所述结构化招投标文档对应的第一抽取信息集合。
5.根据权利要求1所述的方法,其特征在于,所述采用可视化规则模型对所述结构化招投标文档进行信息抽取,得到第二抽取信息集合,包括:
获取针对所述可视化规则模型所输入的匹配规则信息;
基于所述匹配规则信息,对所述结构化招投标文档进行信息抽取,得到所述结构化招投标文档对应的第二抽取信息集合。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第一抽取信息集合和所述第二抽取信息集合,确定所述招投标文档对应的招投标信息,包括:
获取字段信息集合中任一字段信息;
在所述第一抽取信息集合获取所述任一字段信息对应的第一抽取信息;
在所述第二抽取信息集合获取所述任一字段信息对应的第二抽取信息;
获取所述任一字段信息对应的信息融合方式;
采用所述信息融合方式,对所述第一抽取信息和所述第二抽取信息进行信息融合,确定所述招投标文档对应的招投标信息。
7.根据权利要求6所述的方法,其特征在于,所述采用所述信息融合方式,对所述第一抽取信息和所述第二抽取信息进行信息融合,确定所述招投标文档对应的招投标信息的方法包括以下至少一种:
若所述任一字段信息属于置信度字段集合,则获取所述第一抽取信息对应的第一置信度,以及所述第二抽取信息对应的第二置信度,并基于所述第一置信度和所述第二置信度确定所述招投标文档对应的招投标信息;
若所述任一字段信息属于模型字段集合,则将所述第一抽取信息确定为所述招投标文档对应的招投标信息;
若所述任一字段信息属于规则字段集合,则将所述第二抽取信息确定为所述招投标文档对应的招投标信息。
8.一种结合机器人流程自动化RPA及人工智能AI的招投标信息确定装置,其特征在于,包括:
文档获取单元,用于通过机器人流程自动化RPA系统获取目标文档格式的招投标文档,并采用光学字符识别OCR技术对所述招投标文档进行识别,得到结构化招投标文档;
信息抽取单元,用于采用深度学习模型对所述结构化招投标文档进行信息抽取,得到第一抽取信息集合,采用可视化规则模型对所述结构化招投标文档进行信息抽取,得到第二抽取信息集合;
信息确定单元,用于基于所述第一抽取信息集合和所述第二抽取信息集合,确定所述招投标文档对应的招投标信息。
9.根据权利要求8所述的装置,其特征在于,所述文档获取单元还包括文档识别子单元和结构还原子单元,所述文档获取单元用于采用光学字符识别OCR技术对所述招投标文档进行识别,得到结构化招投标文档时:
所述文档识别子单元,用于采用OCR技术对所述招投标文档进行识别,获取所述招投标文档对应的内容信息和结构信息;
所述结构还原子单元,用于基于所述内容信息和所述结构信息,对所述招投标文档进行文档结构还原,得到结构化招投标文档。
10.根据权利要求9所述的装置,其特征在于,所述信息抽取单元包括集合确定子单元、子集获取子单元和集合遍历子单元,所述信息抽取单元用于采用深度学习模型对所述结构化招投标文档进行信息抽取,得到第一抽取信息集合时:
所述集合确定子单元,用于基于所述结构信息和所述内容信息,确定所述结构化招投标文档对应的段落信息集合;
所述子集获取子单元,用于采用深度学习模型对所述段落信息集合中任一段落信息进行信息抽取,得到第一抽取信息子集;
所述集合遍历子单元,用于遍历所述段落信息集合,得到所述结构化招投标文档对应的第一抽取信息集合。
11.根据权利要求8所述的装置,其特征在于,所述信息抽取单元还包括信息获取子单元和集合获取子单元,所述信息抽取单元用于采用可视化规则模型对所述结构化招投标文档进行信息抽取,得到第二抽取信息集合时:
所述信息获取子单元,用于获取针对所述可视化规则模型所输入的匹配规则信息;
所述集合获取子单元,用于基于所述匹配规则信息,对所述结构化招投标文档进行信息抽取,得到所述结构化招投标文档对应的第二抽取信息集合。
12.根据权利要求8所述的装置,其特征在于,所述信息确定单元包括字段获取子单元、抽取信息获取子单元、方式获取子单元和信息融合子单元,所述信息确定单元用于基于所述第一抽取信息集合和所述第二抽取信息集合,确定所述招投标文档对应的招投标信息时:
所述字段获取子单元,用于获取字段信息集合中任一字段信息;
所述抽取信息获取子单元,用于在所述第一抽取信息集合获取所述任一字段信息对应的第一抽取信息;
所述抽取信息获取子单元,还用于在所述第二抽取信息集合获取所述任一字段信息对应的第二抽取信息;
所述方式获取子单元,用于获取所述任一字段信息对应的信息融合方式;
所述信息融合子单元,用于采用所述信息融合方式,对所述第一抽取信息和所述第二抽取信息进行信息融合,确定所述招投标文档对应的招投标信息。
13.根据权利要求12所述的装置,其特征在于,所述信息融合子单元,用于采用所述信息融合方式,对所述第一抽取信息和所述第二抽取信息进行信息融合,确定所述招投标文档对应的招投标信息时,具体用于以下至少一种:
若所述任一字段信息属于置信度字段集合,则获取所述第一抽取信息对应的第一置信度,以及所述第二抽取信息对应的第二置信度,并基于所述第一置信度和所述第二置信度确定所述招投标文档对应的招投标信息;
若所述任一字段信息属于模型字段集合,则将所述第一抽取信息确定为所述招投标文档对应的招投标信息;
若所述任一字段信息属于规则字段集合,则将所述第二抽取信息确定为所述招投标文档对应的招投标信息。
14.一种结合RPA及AI的终端,其特征在于,包括:处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至7任一项所述的方法。
15.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202210174316.7A 2022-02-24 2022-02-24 结合rpa及ai的招投标信息确定方法、装置及存储介质 Pending CN114580347A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210174316.7A CN114580347A (zh) 2022-02-24 2022-02-24 结合rpa及ai的招投标信息确定方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210174316.7A CN114580347A (zh) 2022-02-24 2022-02-24 结合rpa及ai的招投标信息确定方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114580347A true CN114580347A (zh) 2022-06-03

Family

ID=81774347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210174316.7A Pending CN114580347A (zh) 2022-02-24 2022-02-24 结合rpa及ai的招投标信息确定方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114580347A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022354A1 (zh) * 2022-07-26 2024-02-01 北京来也网络科技有限公司 结合rpa及ai实现ia的对象推荐方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024022354A1 (zh) * 2022-07-26 2024-02-01 北京来也网络科技有限公司 结合rpa及ai实现ia的对象推荐方法、装置及存储介质

Similar Documents

Publication Publication Date Title
WO2024022354A1 (zh) 结合rpa及ai实现ia的对象推荐方法、装置及存储介质
US8055271B2 (en) Intelligent location-to-cell mapping using annotated media
KR102322885B1 (ko) 자동화 업무 플로우의 개선 프로세스를 추천하는 로보틱 처리 자동화 시스템
KR102307471B1 (ko) 로보틱 처리 자동화 시스템
CN111695344B (zh) 文本的标注方法和装置
GB2570751A (en) Predicting style breaches within textual content
CN111611797A (zh) 基于Albert模型的预测数据标注的方法、装置及设备
CN116992081A (zh) 页面表单的数据处理方法、装置和用户终端
CN114580347A (zh) 结合rpa及ai的招投标信息确定方法、装置及存储介质
WO2024159819A1 (zh) 训练方法、版面分析、质量评估方法、装置、设备和介质
CN109063059B (zh) 行为日志处理方法、装置及电子设备
WO2023159778A1 (zh) 结合rpa及ai的招标文档获取方法及装置
JP2023018851A (ja) プログラムコード自動生成システム
CN114579759A (zh) 结合rpa及ai的知识图谱展示方法、装置、终端及存储介质
CN110377891B (zh) 事件分析文章的生成方法、装置、设备及计算机可读存储介质
CN114169857A (zh) 基于rpa及ai的流程数据处理方法、装置、设备及介质
CN110895924A (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
US11562121B2 (en) AI driven content correction built on personas
CN114416840A (zh) 结合rpa及ai的数据获取方法、装置、服务器及存储介质
CN113961672A (zh) 信息标注方法、装置、电子设备和存储介质
CN112667722A (zh) 核电站程序文件转换方法及设备
CN105975610A (zh) 场景识别方法及装置
CN114579758A (zh) 结合rpa及ai的owl系统构建方法、装置、终端及存储介质
CN114676250A (zh) 结合rpa及ai的结构化信息解析方法、装置及存储介质
CN114676248A (zh) 结合rpa及ai的结构化信息获取方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination