CN112560423A - 结合rpa和ai的文档处理方法、装置、设备及介质 - Google Patents

结合rpa和ai的文档处理方法、装置、设备及介质 Download PDF

Info

Publication number
CN112560423A
CN112560423A CN202011529002.1A CN202011529002A CN112560423A CN 112560423 A CN112560423 A CN 112560423A CN 202011529002 A CN202011529002 A CN 202011529002A CN 112560423 A CN112560423 A CN 112560423A
Authority
CN
China
Prior art keywords
document
resource
target content
document processing
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011529002.1A
Other languages
English (en)
Inventor
汪冠春
胡一川
褚瑞
李玮
潘庚生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Benying Network Technology Co Ltd, Beijing Laiye Network Technology Co Ltd filed Critical Beijing Benying Network Technology Co Ltd
Priority to CN202011529002.1A priority Critical patent/CN112560423A/zh
Publication of CN112560423A publication Critical patent/CN112560423A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/543User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提出一种结合RPA和AI的文档处理方法、装置、设备及介质,涉及AI和RPA技术领域,其中,方法包括:通过开启模板文档,根据模板文档中包含多个标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容,避免了人工查询过程中容易出现错误的情况,进一步地,对符合查询条件的目标内容进行复制,将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档,不仅避免了用户人工粘贴过程中容易出现错误的问题,还提高了文档的处理效率。

Description

结合RPA和AI的文档处理方法、装置、设备及介质
技术领域
本申请涉及计算机技术领域,具体涉及人工智能(Artificial Intelligence,简称AI)和机器人流程自动化(Robotic Process Automation,简称RPA)技术领域,尤其涉及一种结合RPA和AI的文档处理方法、装置、设备及介质。
背景技术
机器人流程自动化(Robotic Process Automation,简称:RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(ArtificialIntelligence,简称:AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、NLP和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,人工智能可以对人的意识、思维的信息过程的模拟。
目前,从药品系统上下载各类数据时,需要人工手动去网站下载数据,抓取到对应的数据后,然后复制粘贴到对应的位置。整个人工获取数据的过程,存在及时性差、效率低、容易出错等缺点。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请提出一种结合RPA和AI的文档处理方法、装置、设备及存储介质,以解决现有的文档处理依赖于人工,存在及时性差、效率低、容易出错等技术问题。
本申请第一方面实施例提出了一种结合RPA和AI的文档处理方法,包括:
开启模板文档,其中,所述模板文档中包含多个标记位置;
根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容;
对所述目标内容进行复制;
将复制的所述目标内容粘贴到所述模板文档中对应的标记位置,以得到目标文档。
在一种可能的实现方式中,所述根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容之前,还包括:
访问预配置的网络地址,以得到资源页面或者资源文档;
对所述资源页面或者所述资源文档进行光学字符识别(OCR:Optical CharacterRecognition),得到所述候选内容资源。
在另一种可能的实现方式中,所述对所述目标内容进行复制,包括:
模拟用户操作,对所述目标内容进行复制。
在另一种可能的实现方式中,所述根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容,包括:
对各所述标记位置,读取预配置的查询条件;其中,所述查询条件包括章节序号和关键词;
从所述候选内容资源中确定与所述章节序号字符匹配,或者基于自然语言处理(NLP:Natural Language Processing)确定与所述关键词语义匹配的目标内容。
在另一种可能的实现方式中,所述关键词为一个或多个。
本申请第二方面实施例提出了一种结合RPA和AI的文档处理装置,包括:
开启模块,用于开启模板文档,其中,所述模板文档中包含多个标记位置;
查询模块,用于根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容;
复制模块,用于对所述目标内容进行复制;
粘贴模块,用于将复制的所述目标内容粘贴到所述模板文档中对应的标记位置,以得到目标文档。
本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如第一方面实施例中所述的结合RPA和AI的文档处理方法。
本申请第四方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面实施例中所述的结合RPA和AI的文档处理方法。
本申请第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令由处理器执行时,执行第一方面实施例所述的结合RPA和AI的文档处理方法。
本申请实施例提供的结合RPA和AI的文档处理方法、装置、设备、介质及程序产品,通过开启模板文档,根据模板文档中包含多个标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容,避免了人工查询过程中容易出现错误的情况,进一步地,对符合查询条件的目标内容进行复制,将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档,不仅避免了用户人工粘贴过程中容易出现错误的问题,还提高了文档的处理效率。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种结合RPA和AI的文档处理方法的流程示意图;
图2为本申请实施例提供的另一种结合RPA和AI的文档处理方法的流程示意图;
图3为本申请实施例提供的一种用于确定目标内容的流程示意图;以及
图4为本申请实施例提供的一种结合RPA和AI的文档处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
在从药品系统上下载各类数据时,供下载的网站有多个,需要重复往返的操作,而且格式、位置和数据也不一样,同样的名称就有几个说法,页码位置也不固定,给做表格的人,带来了极大的不便利。此外,还存储同义词替换的情况,如,标题名字不同,有的公司叫备注,有的公司叫参考。
相关技术中,在用户手工从网站上下载数据时,抓取到对应的数据后,复制粘贴到对应的位置。在下载PDF的数据,通过肉眼去识别,找到对应的数据,粘贴到指定的word文档中;如果PDF里面有图片,还需要手工将图片输入到word中;最后形成一个最终word文稿。
但是,现有的文档处理方法存在及时性差、效率低、容易出错等缺点,为此,本申请提出了一种结合RPA和AI的文档处理方法。
下面参考附图描述本申请实施例的结合RPA和AI的文档处理方法、装置、设备、介质以及程序产品。
图1为本申请实施例提供的一种结合RPA和AI的文档处理方法的流程示意图。
本申请中的结合RPA和AI的文档处理方法可以由计算机设备执行,计算机设备模拟人在计算机上的操作,按规则自动执行流程任务。其中,计算机设备可以为台式计算机、笔记本计算机、平板电脑、手机、车载终端等具备显示屏幕的终端。计算机设备可以执行计算机执行指令,以实现本申请实施例所提供的结合RPA和AI的文档处理方法。
如图1所示,该结合RPA和AI的文档处理方法包括以下步骤:
步骤101,开启模板文档。
其中,模板文档中包含多个标记位置。
本申请中,模板文档是指包含固定格式设置和版式设置的模板文件,用于帮助用户快速生成特定类型的文档。模板文档可以为word文档、PDF文档,等等。
需要解释的是,模板文档中包含的多个标记位置,是指需要填充内容的位置。
例如,假设模板文档为药品调研报告模板,模板文档中可以包含有理化以及生物学性质、作用机制、产品信息、包装、药效及储存条件、用法用量等多个标记位置。
步骤102,根据各标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容。
其中,候选内容资源,可以为至少一个网站的内容资源。例如,候选内容资源可以为药智网、食品药品监督管理局(Food and Drug Administration,简称FDA)的官网等网站的内容资源。
本申请实施例中,开启模板文档后,可以在候选内容资源中,根据模板文档中的各个标记位置配置的对应的查询条件,查询得到符合查询条件的目标内容。
作为一种示例,假设模板文档为药品调研报告模板,模板文档中药品包装为标记位置之一,该标记位置为配置的查询条件为“在FDA label的16中”。这种情况下,可以在FDA的网站中查询得到目标内容。
步骤103,对目标内容进行复制。
本申请实施例中,在候选内容资源中,查询得到符合查询条件的目标内容后,可以对目标内容进行复制。
作为一种可能的实现方式,可以模拟用户的复制操作,对符合查询条件的目标内容进行复制。例如,可以通过特定的“机器人软件”,模拟用户的复制操作,对符合查询条件的目标内容进行复制。
可以理解的是,模板文档中包含多个标记位置时,可以根据每一个标记位置配置的查询条件,在候选内容资源中,查询得到符合对应查询条件的目标内容,以对目标内容进行复制。
步骤104,将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档。
本申请实施例中,在候选内容资源中,查询得到符合查询条件的目标内容并对目标内容进行复制后,可以将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档。
继续以步骤102中的示例为例,在FDA官网中查询得到模板文档中药品包装对应的目标内容后,对目标内容进行复制,将复制的内容粘贴到模板文档中药品包装对应的位置。
可以理解的是,模板文档中包含多个标记位置时,在候选内容资源中,查询到符合各个标记位置配置的查询条件对应的目标内容后,对目标内容进行复制,将复制的目标内容粘贴到模板文档中对应的标记位置,可以得到目标文档。
由此,通过模拟用户的复制操作,对符合查询条件对应的目标内容进行复制,并将复制的目标内容粘贴到模板文档中对应的标记位置,不仅避免了人工对内容资源进行复制粘贴的过程中容易出现错误的情况,还提高了文档的处理效率。
本申请实施例的结合RPA和AI的文档处理方法,通过开启模板文档,根据模板文档中包含多个标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容,避免了人工查询过程中容易出现错误的情况,进一步地,对符合查询条件的目标内容进行复制,将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档,不仅避免了用户人工粘贴过程中容易出现错误的问题,还提高了文档的处理效率。
在一种可能的情况下,可以通过访问预配置的网络地址,得到资源页面或者资源文档,以对资源页面或资源文档进行识别,得到候选内容资源,下面结合图2进行详细介绍,图2为本申请实施例提供的另一种结合RPA和AI的文档处理方法的流程示意图。
如图2所示,该结合RPA和AI的文档处理方法,可以包括以下步骤:
步骤201,开启模板文档,其中,所述模板文档中包含多个标记位置。
本申请实施例中,步骤201的实现过程,可以参见上述实施例中步骤101的实现过程,在此不再赘述。
步骤202,访问预配置的网络地址,以得到资源页面或者资源文档。
本申请实施例中,可以根据模板文档所属的领域,预先配置对应的网络地址,例如,模板文档为药品调研报告模板,可以将药智网、FDA等网站的地址设置为预访问的网络地址。
在一种可能的情况下,可以通过访问预配置的网络地址,以得到网络地址对应的资源页面。
在另一种可能的情况下,还可以通过访问预配置的网络地址,以得到网络地址中存储的资源文档。其中,资源文档,可以为Word文档,也可以为PDF文档,等等,在此不做限定。
步骤203,对资源页面或者资源文档进行OCR识别,得到候选内容资源。
其中,光学字符识别(OCR:Optical Character Recognition),是指通过图像处理和模式识别技术对光学的字符进行识别的技术,具体为采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
本申请实施例中,通过访问预配置的网络地址,得到资源页面或者资源文档后,可以采用OCR识别方法对资源页面或资源文档进行识别,将识别得到的内容资源,作为候选内容资源。
步骤204,根据各标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容。
步骤205,对目标内容进行复制。
步骤206,将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档。
本申请实施例中,步骤204至步骤206的实现过程,可以参见上述实施例中步骤102至步骤104的实现过程,在此不再赘述。
本申请实施例的结合RPA和AI的文档处理方法,通过访问预配置的网络地址,得到资源页面或者资源文档后,采用OCR技术对资源内容或者资源文档进行识别,以得到候选内容资源,进一步地,根据各标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容,对目标内容进行复制,将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档。由此,通过访问预先配置的网络地址,得到候选内容资源,避免了待访问的网络地址较多,导致资源获取过程繁琐的技术问题,进一步地,从候选内容资源中查询得到符合条件的目标内容,有利于提高资源的获取效率。
在上述实施例的基础上,在从候选内容资源中查询得到符合条件的目标内容时,可以将符合查询条件中的章节序号或关键词的内容资源作为目标内容,从而有利于提高资源匹配的准确率。下面结合图3对上述过程进行详细介绍,图3为本申请实施例提供的一种用于确定目标内容的流程示意图。
如图3所示,该结合RPA和AI的文档处理方法,还可以包括以下步骤:
步骤301,对各标记位置,读取预配置的查询条件。
其中,查询条件包括章节序号和关键词。
本申请实施例中,模板文档中包含的多个标记位置预先配置有对应的查询条件,可以对各标记位置,读取预配置的查询条件。
作为一种示例,假设某一标记位置预先配置的查询条件为“在FDA标签的第11段落中,关键词为生物学性质”,可以读取得到该标记位置预先配置的查询条件。
需要说明的是,查询条件中的关键词可以为一个或多个,本申请中可以根据实际情况对关键词进行配置,对于关键词的数量不做限制。
步骤302,从候选内容资源中确定与章节序号字符匹配,或者基于NLP确定与关键词语义匹配的目标内容。
在一种可能的情况下,对模板文档中各标记位置,读取得到预配置的查询条件中的章节序号后,可以从候选内容资源中确定与章节序号字符匹配的目标内容。
继续以步骤301中的示例进行举例说明,假设查询条件中的章节序号为“FDA标签的第11段落”,则可以从候选内容资源中确定与FDA标签的第11段落中的字符匹配的目标内容。
在另一种可能的情况下,对模板文档中各标记位置,读取得到预配置的查询条件中的关键词后,可以基自然语言处理方法(NLP:Natural Language Processing)从候选内容资源中确定与关键词语义匹配的目标内容。
其中,NLP就是用计算机来处理、理解以及运用人类语言(如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。其中,语义匹配,是指在语义上衡量文本的相似度。
作为一种可能的实现方式,可以采用经过训练的深度语义匹配模型从候选内容资源中确定与关键词语义匹配的目标内容。
需要说明的是,候选内容资源中可能存在相同语义的同义词,此时,通过语义匹配关键词的方法,可以得到全部符合查询条件的目标内容。
本申请实施例中,通过对各标记位置,读取预配置的查询条件包括的章节序号和关键词后,从候选内容资源中确定与章节序号字符匹配,或者基于NLP确定与关键词语义匹配的目标内容。由此,能够准确地从候选内容资源中查询得到目标内容,提高了文档处理的准确率。
为了实现上述实施例,本申请还提出一种结合RPA和AI的文档处理装置。
图4为本申请实施例提供的一种结合RPA和AI的文档处理装置的结构示意图。
如图4所示,该结合RPA和AI的文档处理装置400,可以包括:开启模块410、查询模块420、复制模块430以及粘贴模块440。
其中,开启模块410,用于开启模板文档,其中,模板文档中包含多个标记位置。
查询模块420,用于根据各标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容。
复制模块430,用于对目标内容进行复制。
粘贴模块440,用于将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档。
进一步地,在本申请实施例的一种可能的实现方式中,该结合RPA和AI的文档处理装置400,可以包括:
访问模块,用于访问预配置的网络地址,以得到资源页面或者资源文档;
识别模块,用于对所述资源页面或者所述资源文档进行OCR,得到所述候选内容资源。
在本申请实施例的另一种可能的实现方式中,复制模块430,还可以用于:
模拟用户操作,对目标内容进行复制。
在本申请实施例的另一种可能的实现方式中,查询模块420,还可以用于:
对各标记位置,读取预配置的查询条件;其中,查询条件包括章节序号和关键词;从候选内容资源中确定与章节序号字符匹配,或者基于NLP确定与关键词语义匹配的目标内容。
在本申请实施例的另一种可能的实现方式中,关键词为一个或多个。
需要说明的是,前述对结合RPA和AI的文档处理方法实施例的解释说明也适用于该实施例的结合RPA和AI的文档处理装置,此处不再赘述。
本申请实施例的结合RPA和AI的文档处理装置,通过开启模板文档,根据模板文档中包含多个标记位置配置的查询条件,在候选内容资源中,查询符合查询条件的目标内容,避免了人工查询过程中容易出现错误的情况,进一步地,对符合查询条件的目标内容进行复制,将复制的目标内容粘贴到模板文档中对应的标记位置,以得到目标文档,不仅避免了用户人工粘贴过程中容易出现错误的问题,还提高了文档的处理效率。
为了实现上述实施例,本申请还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述实施例中所述的结合RPA和AI的文档处理方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例中所述的结合RPA和AI的文档处理方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现上述实施例中所述的结合RPA和AI的文档处理方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种结合RPA和AI的文档处理方法,其特征在于,包括以下步骤:
开启模板文档,其中,所述模板文档中包含多个标记位置;
根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容;
对所述目标内容进行复制;
将复制的所述目标内容粘贴到所述模板文档中对应的标记位置,以得到目标文档。
2.根据权利要求1所述的文档处理方法,其特征在于,所述根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容之前,还包括:
访问预配置的网络地址,以得到资源页面或者资源文档;
对所述资源页面或者所述资源文档进行光学字符识别(OCR:Optical CharacterRecognition),得到所述候选内容资源。
3.根据权利要求1所述的文档处理方法,其特征在于,所述对所述目标内容进行复制,包括:
模拟用户操作,对所述目标内容进行复制。
4.根据权利要求1-3任一项所述的文档处理方法,其特征在于,所述根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容,包括:
对各所述标记位置,读取预配置的查询条件;其中,所述查询条件包括章节序号和关键词;
从所述候选内容资源中确定与所述章节序号字符匹配,或者基于自然语言处理(NLP:Natural Language Processing)确定与所述关键词语义匹配的目标内容。
5.根据权利要求4所述的文档处理方法,其特征在于,所述关键词为一个或多个。
6.一种结合RPA和AI的文档处理装置,其特征在于,所述装置包括:
开启模块,用于开启模板文档,其中,所述模板文档中包含多个标记位置;
查询模块,用于根据各所述标记位置配置的查询条件,在候选内容资源中,查询符合所述查询条件的目标内容;
复制模块,用于对所述目标内容进行复制;
粘贴模块,用于将复制的所述目标内容粘贴到所述模板文档中对应的标记位置,以得到目标文档。
7.根据权利要求6所述的文档处理装置,其特征在于,所述装置,还包括:
访问模块,用于访问预配置的网络地址,以得到资源页面或者资源文档;
识别模块,用于对所述资源页面或者所述资源文档进行OCR,得到所述候选内容资源。
8.根据权利要求6所述的文档处理装置,其特征在于,所述复制模块,还用于:
模拟用户操作,对所述目标内容进行复制。
9.根据权利要求6-8任一项所述的文档处理装置,其特征在于,所述查询模块,还用于:
对各所述标记位置,读取预配置的查询条件;其中,所述查询条件包括章节序号和关键词;
从所述候选内容资源中确定与所述章节序号字符匹配,或者基于NLP确定与所述关键词语义匹配的目标内容。
10.根据权利要求9所述的文档处理装置,其特征在于,所述关键词为一个或多个。
11.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-5中任一所述的结合RPA和AI的文档处理方法。
12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的结合RPA和AI的文档处理方法。
13.一种计算机程序产品,其特征在于,当所述计算机程序产品中的指令由处理器执行时,执行如权利要求1-5中任一所述的结合RPA和AI的文档处理方法。
CN202011529002.1A 2020-12-22 2020-12-22 结合rpa和ai的文档处理方法、装置、设备及介质 Pending CN112560423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011529002.1A CN112560423A (zh) 2020-12-22 2020-12-22 结合rpa和ai的文档处理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011529002.1A CN112560423A (zh) 2020-12-22 2020-12-22 结合rpa和ai的文档处理方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112560423A true CN112560423A (zh) 2021-03-26

Family

ID=75030773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011529002.1A Pending CN112560423A (zh) 2020-12-22 2020-12-22 结合rpa和ai的文档处理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112560423A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240392A (zh) * 2021-05-17 2021-08-10 远光软件股份有限公司 一种基于机器人流程自动化的报告生成方法和系统
CN113553393A (zh) * 2021-06-16 2021-10-26 北京来也网络科技有限公司 结合rpa和ai报关信息的处理方法和处理装置
CN113553812A (zh) * 2021-06-22 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的新闻处理方法及装置
CN113836181A (zh) * 2021-09-01 2021-12-24 北京来也网络科技有限公司 结合rpa和ai的数据查询方法、装置、电子设备和存储介质
CN118070742A (zh) * 2024-04-16 2024-05-24 英诺达(成都)电子科技有限公司 文档生成方法、装置、设备、存储介质及产品

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667172A (zh) * 2009-09-14 2010-03-10 成都市科陆洲电子有限公司 一种利用word制作电子报表的方法
CN104424159A (zh) * 2013-09-04 2015-03-18 上海复旦微电子集团股份有限公司 软件项目文档生成方法和软件项目文档生成器
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN109388612A (zh) * 2018-09-14 2019-02-26 中国科学院光电研究院 一种数据汇总文档生成的方法、设备、系统及介质
CN109977389A (zh) * 2019-04-10 2019-07-05 鼎信信息科技有限责任公司 表单录入方法、装置、计算机设备和存储介质
CN110909520A (zh) * 2019-11-14 2020-03-24 北京天融信网络安全技术有限公司 一种文档构建方法及电子设备
CN111125598A (zh) * 2019-12-20 2020-05-08 深圳壹账通智能科技有限公司 数据智能查询方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101667172A (zh) * 2009-09-14 2010-03-10 成都市科陆洲电子有限公司 一种利用word制作电子报表的方法
CN104424159A (zh) * 2013-09-04 2015-03-18 上海复旦微电子集团股份有限公司 软件项目文档生成方法和软件项目文档生成器
CN108763171A (zh) * 2018-04-20 2018-11-06 中国船舶重工集团公司第七〇九研究所 一种基于格式模板的文档自动化生成方法
CN109388612A (zh) * 2018-09-14 2019-02-26 中国科学院光电研究院 一种数据汇总文档生成的方法、设备、系统及介质
CN109977389A (zh) * 2019-04-10 2019-07-05 鼎信信息科技有限责任公司 表单录入方法、装置、计算机设备和存储介质
CN110909520A (zh) * 2019-11-14 2020-03-24 北京天融信网络安全技术有限公司 一种文档构建方法及电子设备
CN111125598A (zh) * 2019-12-20 2020-05-08 深圳壹账通智能科技有限公司 数据智能查询方法、装置、设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240392A (zh) * 2021-05-17 2021-08-10 远光软件股份有限公司 一种基于机器人流程自动化的报告生成方法和系统
CN113553393A (zh) * 2021-06-16 2021-10-26 北京来也网络科技有限公司 结合rpa和ai报关信息的处理方法和处理装置
CN113553393B (zh) * 2021-06-16 2024-08-09 北京来也网络科技有限公司 结合rpa和ai报关信息的处理方法和处理装置
CN113553812A (zh) * 2021-06-22 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的新闻处理方法及装置
CN113836181A (zh) * 2021-09-01 2021-12-24 北京来也网络科技有限公司 结合rpa和ai的数据查询方法、装置、电子设备和存储介质
CN118070742A (zh) * 2024-04-16 2024-05-24 英诺达(成都)电子科技有限公司 文档生成方法、装置、设备、存储介质及产品

Similar Documents

Publication Publication Date Title
CN112560423A (zh) 结合rpa和ai的文档处理方法、装置、设备及介质
US11238312B2 (en) Automatically generating labeled synthetic documents
US6389435B1 (en) Method and system for copying a freeform digital ink mark on an object to a related object
US10489498B2 (en) Digital document update
GB2513537A (en) Natural language processing
CN111552766B (zh) 使用机器学习来表征在引用图形上应用的参考关系
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN112783825A (zh) 数据归档方法、装置、计算机装置及存储介质
CN111126031A (zh) 代码文本处理方法及相关产品
CN111444339B (zh) 文本题目难度标注方法、装置及计算机可读存储介质
CN117668180A (zh) 文档问答方法、文档问答设备以及可读存储介质
CN114359533B (zh) 一种基于页面文本的页码识别方法和计算机设备
CN111274813B (zh) 语言序列标注方法、装置存储介质及计算机设备
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN112948580B (zh) 一种文本分类的方法和系统
CN114003725A (zh) 信息标注模型的构建方法以及信息标注的生成方法
WO2022121034A1 (zh) 一种处理大数据标注服务高并发方法、系统及设备
CN118095205A (zh) 版式文件的信息提取方法、装置、设备及存储介质
CN107329756A (zh) 程序文件的生成方法、装置、存储介质、处理器和终端
CN116701604A (zh) 问答语料库的构建方法和装置、问答方法、设备及介质
CN111506715B (zh) 查询方法、装置、电子设备及存储介质
CN110457659B (zh) 条款文档生成方法及终端设备
CN114138928A (zh) 文本内容提取的方法、系统、装置、电子设备及介质
CN113539518A (zh) 基于rpa和ai的药品数据处理方法、装置及电子设备
CN114912452A (zh) 一种实体识别、信息抽取的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 1902, 19th Floor, China Electronics Building, No. 3 Danling Road, Haidian District, Beijing

Applicant after: BEIJING LAIYE NETWORK TECHNOLOGY Co.,Ltd.

Applicant after: Laiye Technology (Beijing) Co.,Ltd.

Address before: 1902, 19 / F, China Electronics Building, 3 Danling Road, Haidian District, Beijing 100080

Applicant before: BEIJING LAIYE NETWORK TECHNOLOGY Co.,Ltd.

Country or region before: China

Applicant before: BEIJING BENYING NETWORK TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information