CN117786245A - 一种基于机器人流程自动化的专利信息检索系统和方法 - Google Patents
一种基于机器人流程自动化的专利信息检索系统和方法 Download PDFInfo
- Publication number
- CN117786245A CN117786245A CN202311613783.6A CN202311613783A CN117786245A CN 117786245 A CN117786245 A CN 117786245A CN 202311613783 A CN202311613783 A CN 202311613783A CN 117786245 A CN117786245 A CN 117786245A
- Authority
- CN
- China
- Prior art keywords
- information
- module
- robot
- mouse
- expected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004801 process automation Methods 0.000 title claims abstract description 9
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000004088 simulation Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 28
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 7
- 238000013481 data capture Methods 0.000 claims description 6
- 230000000903 blocking effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 230000018109 developmental process Effects 0.000 description 5
- 238000012827 research and development Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于机器人流程自动化的专利信息检索系统和方法。该系统中,专利查询模块用于利用机器人流程自动化模拟控制键盘和鼠标,以从目标网站上获得满足设定检索条件的专利查询结果;信息提取模块用于基于所述专利查询结果,对目标网站的网页界面进行数据识别和抓取,以提取出期望的专利信息,并将所述期望的专利信息存储在预定格式文档中;说明书合并整理模块用于利用机器人流程自动化模拟鼠标来下载专利全文,并将所下载专利的摘要页面合并为一个文件,进而高亮显示期望信息;专利信息整理模块用于将检索到的专利关键信息,按照指定格式自动化存入目标文档。本发明提升了专利管理方式的效率和便利性。
Description
技术领域
本发明涉及信息检测技术领域,更具体地,涉及一种基于机器人流程自动化的专利信息检索系统和方法。
背景技术
在企业研发和生产过程中,研发机构需要借鉴大量论文和专利信息,同时在研发过程中也会产生大量专利信息。目前,研发人员通常通过专利信息网搜索专利内容并下载专利说明书来查看相关专利,以避免专利重复。在研发过程中,如果需使用相关专利技术,还需要手动查看专利发明人信息和专利所属机构,以向对方申请专利许可。此外,在研发过程中,产出的大量专利信息在研发项目结束后,也需要相关人员进行资料和信息整理。
随着新技术的快速发展,企业需要更加敏捷并迅速地响应客户需求。同时,竞争和资金压力也迫使企业提高效率,从而不断寻求新技术来帮助企业提高生产率、节约成本和增加业务价值。RPA(robot process automation,机器人流程自动化)在这种背景下应运而生。RPA旨在自动化地执行人工任务,可以代替员工从事重复性的工作并使其自动化,从根本上解放劳动力,并使员工可以参与到更为复杂的活动中去。各种业务流程RPA是提高生产率的主要原因。RPA通过软件机器人来模拟人类与信息系统交互的行为,其目标是快速执行结构化和重复性任务,从而节约成本并提高可靠性。
在RPA应用过程中,通常涉及OCR和网络数据抓取等技术手段。OCR(OpticalCharacter Recognition,光学字符识别)是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。网络数据抓取(Web Scraping)是指采用技术手段从大量网页中提取结构化和非结构化信息,按照一定规则和筛选标准进行数据处理,并保存到结构化数据库中的过程。目前网络数据抓取采用的方案主要是对垂直搜索引擎(指针对某一个行业的专业搜索引擎)的网络爬虫(或数据采集机器人)、分词系统、任务与索引系统等技术的综合运用。
在现有技术中,专利申请CN202210893763.8公开了一种RPA机器电力统计专利的构架流程设计方法。该方法首先让机器人进行简单初步模仿并通过智能助手控制机器人操作,这一步骤通过计算机设备实现IT自动化,结合相应的脚本、宏命令以及编程,整个过程由工作人员将基于接口以及plug-in工具与机器人相连接,实现机器人的学习与模仿。然后,流程自动化执行后台操作,最后机器人学习提供相应服务。专利申请CN202110263419.6公开了一种基于RPA的Excel文档智能填报系统及其方法。该方案基于待填报原始Excel文档的表格表头信息,将获取的原始数据转换为CSV格式的原始数据集,并转换成YML格式的临时数据集,然后,利用虚拟DOM算法对待填报原始Excel文档进行解析,基于DOM结构确定数据填报的起始位置,并按照填报类型填报到指定表格中。
经分析,现有的信息检索和分析方案通常需要大量时间进行RPA机器人的训练,并且这一过程还需工作人员编写相应脚本和控制程序,以及相应的自动化学习程序,因而需要大量的硬件和研究支持。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于机器人流程自动化的专利信息检索系统和方法。
根据本发明的第一方面,提供一种基于机器人流程自动化的专利信息检索系统。该系统包括:专利查询模块、信息提取模块、说明书合并整理模块和专利信息整理模块,其中:
专利查询模块用于利用机器人流程自动化模拟控制键盘和鼠标,以从目标网站上获得满足设定检索条件的专利查询结果,所述专利查询结果包括专利申请号、标题或摘要;
信息提取模块用于基于所述专利查询结果,对目标网站的网页界面进行数据识别和抓取,以提取出期望的专利信息,并将所述期望的专利信息存储在预定格式文档中;
说明书合并整理模块用于利用机器人流程自动化模拟鼠标来下载专利全文,并将所下载专利的摘要页面合并为一个文件,进而高亮显示期望信息;
专利信息整理模块用于将检索到的专利关键信息,按照指定格式自动化存入目标文档,所述专利关键信息包括专利权人信息、发明人信息、专利申请号、专利状态中的一项或多项。
根据本发明的第二方面,提供一种基于机器人流程自动化的专利信息检索方法。该方法包括以下步骤:
利用机器人流程自动化模拟控制键盘和鼠标,以从目标网站上获得满足设定检索条件的专利查询结果,所述专利查询结果包括专利申请号、标题或摘要;
基于所述专利查询结果,对目标网站的网页界面进行数据识别和抓取,以提取出期望的专利信息,并将所述期望的专利信息存储在预定格式文档中;
利用机器人流程自动化模拟鼠标来下载专利全文,并将所下载专利的摘要页面合并为一个文件,进而高亮显示期望信息;
将检索到的专利关键信息,按照指定格式自动化存入目标文档,所述专利关键信息包括专利权人信息、发明人信息、专利申请号、专利状态中的一项或多项。
与现有技术相比,本发明的优点在于,将机器人流程自动化和人工智能技术相结合来解决专利管理方式,能够实现对目标专利信息的查询,并自动的将专利相关信息填入到表格中,对专利说明书进行下载并对专利说明书自动进行合并整理,进而将表格中的专利信息按照需求的格式汇总到文档中,一定程度上避免了专利管理过程中的重复性劳动,提升了工作效率和信息分析的准确性。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的基于机器人流程自动化的专利信息检索系统的过程示意图;
图2是根据本发明一个实施例的专利信息检索的总体流程图;
图3是根据本发明一个实施例的专利信息查询模块示意图;
图4是根据本发明一个实施例的专利信息提取模块示意图;
图5是根据本发明一个实施例的说明书合并整理模块示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
参见图1所示,所提供的基于机器人流程自动化的专利信息检索系统包括专利查询模块、信息提取模块、说明书合并整理模块和专利信息整理模块等功能性模块。
专利查询模块用于利用机器人流程自动化模拟控制键盘和鼠标,以从目标网站上获得满足设定检索条件的专利查询结果,所述专利查询结果包括专利申请号、标题或摘要。
例如,excel表格中包括需要查询的所有专利的信息,例如专利名称、专利申请号、专利公开号等。通过RPA软件自动化模块读取excel表格内容信息,使用此信息在对应专利网站进行搜索查询。如果希望查找特定专利,则excel表格内容必须包括专利申请号,因为申请号具有唯一性。如果希望查找相关方向专利,则只需标题摘要等信息。查询过程主要通过RPA软件模拟人的行为来控制键鼠进行操作,实现流程全自动化。
信息提取模块用于基于专利查询结果,对目标网站的网页界面进行数据识别和抓取,以提取出期望的专利信息,并将所述期望的专利信息存储在预定格式文档中。
例如,通过查询出的结果,对html界面使用数据提取技术,对整个网页界面的单元进行数据抓取和识别,这一过程会自动识别想要抓取内容所在的页面块级元素位置,所识别的信息包括但不限于权利人,当前权利人以及发明人等信息,提取的信息可以保存在excel文档中,以便在后续的信息整理环节使用。
说明书合并整理模块用于利用机器人流程自动化模拟鼠标来下载专利全文,并将所下载专利的摘要页面合并为一个文件,进而高亮显示期望信息。
例如,在信息提取过程中,考虑到所查询的专利可能是研发过程所需要使用或查看的信息,所以同时对专利说明书进行下载和整理,以便工作人员进行查看。对下载后的专利说明书首先进行信息梳理,由于专利的基本信息例如专利的摘要部分都在第一页呈现,所以可以将每个专利的第一页抽出并合并为一个pdf文件,以此当作专利的查看目录,方便研发人员快速的查找想要的内容,而不需打开不同的专利说明书文件查找,同时还可对专利的发明人和权利人进行高亮显示,以作提醒。
专利信息整理模块用于将检索到的专利关键信息,按照指定格式自动化存入目标文档,所述专利关键信息包括专利权人信息、发明人信息、专利申请号、专利状态等。
例如,对于查找到的专利,所有专利的关键信息将按照指定的格式要求被自动化地写入到目标文档,包括专利权利人、发明人、当前权利人、专利号、授权情况等信息。且该文档将自动的按给定格式整理到word文档中,方便研究人员对专利信息进行查看和管理。
图2是通过RPA软件构造流程自动化机器人,以实现自动化的专利信息检索和管理的流程图。总体上包括读取excel表格、打开网页、输入excel表格信息、点击搜索、网页数据抓取、将数据填入excel表格、下载说明书、抽取pdf文档第一页、合并pdf文档、高亮显示信息和专利信息整理等过程。
在下文中,将分别具体介绍专利查询模块、信息提取模块、说明书合并整理模块和专利信息整理模块的实施例。
1、专利查询模块
参见图3所示,专利查询模块用于执行:读取excel表格、打开网页、输入excel表格信息和点击搜索等功能。
首先,使用RPA机器人模拟鼠标和键盘操作,来打开和点击指定专利查询网站,同时在后台通过软件自动化模块,打开excel表格,表格包含有查询专利的相关信息(如申请号和专利名称等),将表格内容读取到变量arrayRet中。然后,再次通过模拟鼠标和键盘操作将变量中数据输入到页面输入框中。
在此过程中,使用RPA的鼠标键盘自动化模块来模拟鼠标的移动和键盘点击来自动化的实现网页信息输入和点击搜索。鼠标移动是基于坐标,在屏幕上建立相应的坐标系,并通过获取网页不同模块所在的坐标位置来移动鼠标。在网页输入信息时,可通过RPA软件的键盘模拟模块进行。这种方式不同于使用RPA自动识别网页模块填入方式,网页模块自动识别经过使用和测试,其存在不稳定和偶尔无法识别的缺点,而本发明实施例使用模拟鼠标移动来实现网页信息输入,提高了信息输入的效率和可靠性。
输入信息时,用户可以选择不同关键词的专利进行查询,也可以针对特定的专利进行查询整理。
具体地,首先,通过软件自动化功能来读取特定路径下的excel表格,RPA软件有特定的变量类型objExcelWorkBook存储excel表格,将其保存在后台之后,通过读取和循环指令来按行读取excel表格的内容,并将每一行内容保存在一个arrayRet数组中,最后通过键盘控制指令将对应信息填入网页文本框搜索查询对应专利信息。
2、信息提取模块
专利查询模块执行相关功能后,再利用信息提取模块来提取期望的相关信息,并填入目标excel表格。
传统的网页信息抓取是通过python爬虫或者PHP界面元素抓取的方式,但都需要进行代码编写或程序运行和调试,而本发明采用RPA软件自带的数据抓取模块。参见图4所示,数据抓取模块可抓取的目标包括windows桌面表格,java表格,SAP表格以及网页页面信息等,功能强大且错误率低。
数据抓取模块通过设置对应希望抓取的网页块级元素,来自动提取相关信息。例如,数据抓取模块将对应抓取信息的目标进行分块,如果是网页就按照html代码格式进行分块,在选取的时候会自动识别并显示希望抓取的模块,如果是excel等表格目标,则以表格内容为中心分块,其余不管选中哪一块表格内容都一定会在选中块中,以此保证信息的有效性。
在模块识别完块级元素后,可将信息存入对应数组变量message中,然后通过后台打开的excel表格和软件自动化模块填入相关信息。
3、说明书合并整理模块
此模块用于对说明书进行下载和整理,通过与前文相同的鼠标模拟方式点击说明书下载按钮进行下载,保存到固定路径下,考虑到关键时刻查找对应专利信息还需要逐一打开说明书pdf文件,因此在下载后,可通过RPA机器人自动抽取专利说明书第一页,其中包含了申请号,申请人,权利人以及摘要等简略信息,以供查询人员快速的浏览所有专利的基本信息以锁定希望获取的专利。
在一个实施例中,pdf抽取可通过软件实现,例如,使用word或WPS工具打开专利说明书后,再通过pdf页面抽取和合并,从而合并出一个包含所有专利第一页的pdf文件,这一过程通过RPA软件的鼠标键盘模拟过程实现。
结合图5所示,以WPS软件为例,通过软件模拟鼠标点击WPS自带的pdf拆分功能,并选中待操作的pdf文件,将抽取后的文件放入同一个文件夹,然后通过pdf合并功能将文件夹内文件全部合并。
4、专利信息整理模块
此模块是为了对大量下载获得的专利信息进行整理,主要包括两个功能,一是自动识别pdf文件并将作者或关注的相关关键信息高亮显示,另一功能是将excel中的内容写入word文件。
例如,对于高亮显示关键信息,可通过pdf编辑器进行操作。pdf编辑器可以在查询相应信息时用光标选中查询的信息,由此可以做到查询后直接高亮显示,将合并后pdf文件用编辑器打开,点击查询输入待查询的关键字,查询后点击高亮即可实现作者等信息的高亮显示。
对于写入word文件的过程,可将excel表格中的内容读出,然后,通过软件自动化模块,创建对应word文档,并在后台处理excel表格信息。由于表格信息的分块特性,因此读出的数据大部分都以数组形式存放,因此在后台,对数组中字符串进行修改,通过字符串替换函数replace以及合并函数join将数据处理成希望的格式,然后将数据填入word文档。
相应地,本发明还提供一种基于机器人流程自动化的专利信息检索方法,用于实现上述系统的一个方面或多个方面。例如,该方法:利用机器人流程自动化模拟控制键盘和鼠标,以从目标网站上获得满足设定检索条件的专利查询结果,所述专利查询结果包括专利申请号、标题或摘要;基于所述专利查询结果,对目标网站的网页界面进行数据识别和抓取,以提取出期望的专利信息,并将所述期望的专利信息存储在预定格式文档中;利用机器人流程自动化模拟鼠标来下载专利全文,并将所下载专利的摘要页面合并为一个文件,进而高亮显示期望信息;将检索到的专利关键信息,按照指定格式自动化存入目标文档,所述专利关键信息包括专利权人信息、发明人信息、专利申请号、专利状态中的一项或多项。
为了进一步验证本发明的效果,进行了实验。从节约成本的角度考虑,使用RPA流程自动化机器人开发平台,搭建一个基于RPA、可自动处理专利信息的自动化机器人。由于RPA平台技术成熟且可靠,这一过程并不需要编写相应的脚本可控制程序,并且显著减少自动化学习时间,即便是日常非技术管理人员,也只需初步学习便可搭建RPA机器人。经验证,利用本发明能够快速、高效的检索并归档专利信息。
应理解的是,在不违背本发明精神和范围的前提下,本领域技术人员可对上述实施例进行改变或变型,例如,excel表格可替换为其他表格形式,word文档可以替换了其他的文档格式等。
综上所述,相对于现有技术,本发明具有以下优势:
1)提供了专利信息查询,提取和整理的总体流程设计,包含了专利整理的各个方面,涵盖信息查询,提取,整理等,显著提升了专利管理方式的便利性,并节省了大量的时间。
2)在现有技术中,直接应用RPA软件设计自动化机器人的方案通常使用编程技术结合AI进行设计和训练,而本发明提出使用RPA机器人设计手段来设计流程自动化机器人,并且与专利信息管理相结合,极大节省了设计的时间和复杂性,拓展了RPA设计软件在专利整理机器人上的应用。
3)在现有技术中,对于专利信息整理的方案还不成熟,通常是针对某一方面进行机器人自动化设计,例如文档智能填报系统方法或文档自动化方法,而且大部分方案通过编码形式进行机器人设计和搭建,一些涉及到票据识别的机器人还需要模型建立和训练过程,而本发明通过现有的RPA机器人自动化软件,模块化的搭建出一个可以自动处理专利信息的机器人,过程方便简洁,且容错率高。
4)在本发明提供的方案中,采用鼠标键盘模拟,使机器人操作可视化,且不会过多占用后台内存。而现有应用于专利检索方面的机器人,通常是针对特定专业领域如电力专利等,而不是针对全领域的专利机器人设计,并且特定领域专利机器人具有特殊的结构和设计方法,往往更复杂,而本发明采用基于RPA软件开发的自动化机器人方便简单,显著减少了人工成本和复杂度,并提高了效率。
5)在现有技术中,文档自动化处理方案通常通过特定数据格式如JSON进行数据填写和操作,或者通过算法解析excel文档格式进行填写,这些操作都涉及数据的转换和编程基础知识,而且都是对已给定的数据进行文档填写,无法应用于从网站上提取数据再进行数据的填写操作。本发明没有使用数据转换方式,而是直接对网页信息进行数据抓取,然后通过模拟键盘操作将抓取数据填入excel表格,使得操作人员不需要相关excel操作知识和数据格式知识也可以进行操作,并且数据来源可以多样化,如网页,桌面程序和表格等各种类型。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (10)
1.一种基于机器人流程自动化的专利信息检索系统,包括:专利查询模块、信息提取模块、说明书合并整理模块和专利信息整理模块,其中:
专利查询模块用于利用机器人流程自动化模拟控制键盘和鼠标,以从目标网站上获得满足设定检索条件的专利查询结果,所述专利查询结果包括专利申请号、标题或摘要;
信息提取模块用于基于所述专利查询结果,对目标网站的网页界面进行数据识别和抓取,以提取出期望的专利信息,并将所述期望的专利信息存储在预定格式文档中;
说明书合并整理模块用于利用机器人流程自动化模拟鼠标来下载专利全文,并将所下载专利的摘要页面合并为一个文件,进而高亮显示期望信息;
专利信息整理模块用于将检索到的专利关键信息,按照指定格式自动化存入目标文档,所述专利关键信息包括专利权人信息、发明人信息、专利申请号、专利状态中的一项或多项。
2.根据权利要求1所述的系统,其特征在于,所述专利查询模块被设置为执行以下步骤:
利用机器人流程自动化读取设定路径下的excel表格,该excel表格包含待查询专利信息;
使用机器人流程自动化模拟鼠标和键盘操作,以打开并点击目标网站;
利用读取和循环指令来按行读取excel表格中的内容,并将每一行内容保存至第一数组变量中;
通过模拟鼠标和键盘操作将第一数组变量中的数据输入到目标网站的页面文本框并点击搜索,得到待查询专利相关信息。
3.根据权利要求2所述的系统,其特征在于,所述信息提取模块被设置为执行以下步骤:
利用机器人流程自动化的数据抓取模块对待抓取信息进行分块并识别块级元素,其中,针对网页格式,按照html代码格式进行分块,针对excel表格格式,以表格内容为中心分块;
对于所识别出的块级元素,存入对应的第二数组变量中,并通过后台打开的excel表格和软件自动化模块填入相关信息。
4.根据权利要求1所述的系统,其特征在于,所述说明书合并整理模块被设置为执行以下步骤:
利用机器人流程自动化模拟鼠标来点击下载按钮进行专利全文下载,并保存到设定路径下;
通过机器人流程自动化从所述专利全文中的抽取摘要页面,并通过鼠标键盘模拟过程实现摘要页面合并,获得合并的pdf文件,所述合并的pdf文件包含所有目标专利的摘要页面和基本信息,所述基本信息包括专利申请号、专利权人和发明人信息;
针对所述合并的pdf文件,高亮显示发明人信息和专利权人信息。
5.根据权利要求1所述的系统,其特征在于,所述目标文档是word文档。
6.根据权利要求3所述的系统,其特征在于,所述数据抓取模块所抓取的目标包括windows桌面表格,java表格,SAP表格或网页页面信息。
7.根据权利要求4所述的系统,其特征在于,所述合并的pdf文件根据以下步骤获得:
使用办公软件打开专利全文;
利用机器人流程自动化的鼠标模拟点击办公软件自带的pdf拆分功能,并选中期望操作的pdf文件,抽取出第一页;
将所抽取出的文件放入设定文件夹下,进而通过pdf合并功能将该文件夹下的文件全部合并,得到所述合并的pdf文件。
8.根据权利要求7所述的系统,其特征在于,所述办公软件是word或WPS。
9.一种基于机器人流程自动化的专利信息检索方法,包括以下步骤:
利用机器人流程自动化模拟控制键盘和鼠标,以从目标网站上获得满足设定检索条件的专利查询结果,所述专利查询结果包括专利申请号、标题或摘要;
基于所述专利查询结果,对目标网站的网页界面进行数据识别和抓取,以提取出期望的专利信息,并将所述期望的专利信息存储在预定格式文档中;
利用机器人流程自动化模拟鼠标来下载专利全文,并将所下载专利的摘要页面合并为一个文件,进而高亮显示期望信息;
将检索到的专利关键信息,按照指定格式自动化存入目标文档,所述专利关键信息包括专利权人信息、发明人信息、专利申请号、专利状态中的一项或多项。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现根据权利要求9所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311613783.6A CN117786245A (zh) | 2023-11-29 | 2023-11-29 | 一种基于机器人流程自动化的专利信息检索系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311613783.6A CN117786245A (zh) | 2023-11-29 | 2023-11-29 | 一种基于机器人流程自动化的专利信息检索系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117786245A true CN117786245A (zh) | 2024-03-29 |
Family
ID=90397278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311613783.6A Pending CN117786245A (zh) | 2023-11-29 | 2023-11-29 | 一种基于机器人流程自动化的专利信息检索系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117786245A (zh) |
-
2023
- 2023-11-29 CN CN202311613783.6A patent/CN117786245A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2009238294B2 (en) | Data transformation based on a technical design document | |
CN113255614A (zh) | 一种基于视频分析的rpa流程自动生成方法与系统 | |
CN109101519B (zh) | 信息采集系统和异构信息融合系统 | |
CN102999524B (zh) | 一种文档关联检索方法及系统 | |
CN113254507A (zh) | 一种数据资产目录智能构建盘点方法 | |
CN110765402A (zh) | 一种基于网络资源的可视化采集系统及采集方法 | |
Papanikolaou et al. | Protest event analysis: A longitudinal analysis for Greece | |
CN112948594B (zh) | Rpa知识图谱建立方法、装置、服务器和存储介质 | |
CN111831624A (zh) | 数据表创建方法、装置、计算机设备及存储介质 | |
CN111368167A (zh) | 基于网络爬虫技术的中文文献数据自动化获取方法 | |
TW202207109A (zh) | 工程專案文件管理方法與系統 | |
CN116258131A (zh) | 基于模板引擎的方案编制方法及系统 | |
CN117786245A (zh) | 一种基于机器人流程自动化的专利信息检索系统和方法 | |
TWM590730U (zh) | 基於人工智慧之文件管理系統 | |
Musabeyezu | Comparative study of annotation tools and techniques | |
CN115269862A (zh) | 一种基于知识图谱的电力问答与可视化系统 | |
CN114115831A (zh) | 数据处理方法、装置、设备和存储介质 | |
Blinston et al. | Machine learning systems open up access to large volumes of valuable information lying dormant in unstructured documents | |
KR101632951B1 (ko) | 온라인 학습 콘텐츠로의 변환을 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체 및 온라인 학습 콘텐츠로의 변환 방법 | |
CN114547231A (zh) | 一种数据溯源的方法和系统 | |
Hast et al. | Making large collections of handwritten material easily accessible and searchable | |
CN103810242A (zh) | 创新经纬网及文献位置自动识别系统及方法 | |
Chen | Horizontal Model of Higher Education Management Policy Support System Based on Data Mining | |
Jacob et al. | Automated Organic Web Harvesting on Web Data for Analytics | |
US20220237364A1 (en) | Click to document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |