CN108038441A

CN108038441A - 一种基于图像识别的系统与方法

Info

Publication number: CN108038441A
Application number: CN201711286010.6A
Authority: CN
Inventors: 甄春杰; 侯凤仙; 王珊珊
Original assignee: Pang Junliang
Current assignee: Beijing Dawei Zhichuang Technology Co.,Ltd.
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-05-15
Anticipated expiration: 2037-12-07
Also published as: CN108038441B

Abstract

本发明公开了一种基于图像识别的系统与方法，系统包括控制单元，监控单元，分析单元，图像识别单元，文件下载单元，控制单元分别与监控单元，分析单元，图像识别单元，文件下载单元相连接，控制单元用于存储信息收集表，以及预先存储的OCR规则。监控单元用于监控文件状态，当文件状态有变化时，判断收到的文件类型，根据文件类型将文件推送到的相应的处理单元，当文件类型为代码化文件时，推送到分析单元，当文件类型为图像文件时，推送到图像识别单元。采用了上述技术方案实现了从通知书接收、智能识别、文件下载、通知书上传的功能，解放了人工处理通知书的繁杂事务工作，降低了出错率，提高了企业专利管理的效率。

Description

一种基于图像识别的系统与方法

技术领域

本发明属于图像识别领域，尤其涉及一种通知书的图像识别。

背景技术

随着企业对专利技术的重视，申请量逐年上升，早期申请量少的时候可以通过人工的方式进行管理，随着申请数量的上升，企业对专利管理的要求越来越高，需要记录的内容越来越详细，除记录专利的著录项目信息外，还要求对官方的审查意见等做详细的记录，但这些信息通常只出现在官方通知书的正文中，必须通过人工阅读通知书方能获得。

目前大部分通知书信息采集工作均采用手工方式录入，人工录入不仅工作量大，而且很容易出错。

发明内容

为了克服现有技术的不足，本发明提供一种基于图像识别的系统与方法。

本发明所采取的技术方案是：一种基于OCR图像识别的系统，包括控制单元，监控单元，分析单元，图像识别单元，文件下载单元，控制单元分别与监控单元，分析单元，图像识别单元，文件下载单元相连接，其中，

控制单元存储有信息收集表，以及预先存储的OCR规则，还用于接收分析单元和/或图像识别单元获取的文件信息，判断文件信息中是否包含文献信息，如果是，则将文献信息发送给文件下载单元；

监控单元用于监控文件状态，当监控到有新的文件生成时，向所述控制单元发送更新指令，表示监控到有需要解析的文件包，控制单元获取文件包，并解析文件包，将代码化文件推送到分析单元，将图像文件推送到图像识别单元；

文件下载单元，用于根据控制单元发送的文献信息进行下载。

进一步地、分析单元用于接收的控制单元推送的代码化文件，对代码化文件进行解析，获取文件信息，分析单元将获取的文件信息发送给控制单元，控制单元根据接收的文件信息填写信息收集表中的相应内容。

进一步地、图像识别单元用于接收控制单元推送的图像文件，根据控制单元中预先存储的OCR规则通过OCR方式进行解析，获取文件信息，图像识别单元将获取的文件信息发送给控制单元，控制单元根据接收的文件信息填写信息收集表中的相应内容。

进一步地、预先存储的OCR规则包括，通过对文字坐标的计算，将文字坐标转换为文字行对象，将文字矢量化，实现文本版面还原，并通过文本行的坐标位置，在图像中局部截取部分内容，获取截取部分图像的特征码，通过与预先设定的特征码进行比较，判断局部图像是否为预先定义的特定内容；通过文字与特定图像的位置关系，判断文字内容是否有特定含义，如果有特定含义，则提取文字内容做为文件信息发送给控制单元。

进一步地、系统还包括文件上传单元，预先在控制单元中设置不同客户所对应的接口，控制单元从接收到的文件信息中提取客户信息，文件上传单元根据客户所对应的接口将文件、文件所对应的信息收集表以及下载的文献上传到客户的管理系统。

进一步地、系统还包括拆分单元，当控制单元解析的文件包中包括PDF文件时，控制单元将PDF文件推送到拆分单元，拆分单元对PDF文件进行拆分，将拆分的文件转化为图像文件，并将图像文件推送到图像识别单元。

本发明还包括一种基于OCR图像识别的方法，包括：

A)实时监控文件的状态，当监控到有新的文件生成时，获取通知书文件包，并对所述通知书文件包进行解析，对解析出来的代码化文件执行步骤B，对解析出来的图像文件执行步骤C；对解析出来的PDF文件执行步骤D；

B)对解析获得的代码化文件进行解析，获取文件信息，然后执行步骤C；

C)对解析获得的图像文件根据预先存储的规则通过OCR进行解析，获得文件信息，然后执行步骤E；

D)对解析获得的的PDF文件进行拆分，将拆分的文件转化为图像文件，然后执行步骤C；

E)对步骤B和步骤C中所获得的文件信息进行归并处理；

F)根据归并处理后的文件信息填写信息收集表。

进一步地、步骤C包括:

C1)通过对文字坐标的计算转换为文字行对象，将文字矢量化；

C2)通过文本行的坐标位置，在图像中局部截取部分内容，获取截取部分图像的特征码，通过与预先设定的特征码进行比较，判断局部图像是否为预先定义的特定内容；

C3)通过文字与特定图像的位置关系，判断文字内容是否有特定含义，如果有特定含义，则提取文字内容做为文件信息。

进一步地、方法还包括：

G)判断文件信息中是否包含文献信息，当包含文献信息时，根据文献信息下载相应的文献。

进一步地、方法还包括：

H)预先设置不同客户所对应的接口，从文件信息中提取客户信息，通过客户所对应的接口将文件、文件所对应的信息收集表以及下载的文献上传到客户的管理系统。

由于采用上述技术方案，本发明所产生的有益效果在于：

采用了上述技术方案实现了从通知书接收、智能识别、文件下载、通知书上传的功能，解放了人工处理通知书的繁杂事务工作，降低了出错率，提高了企业专利管理的效率。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的系统框图；

图2是本发明的方法流程图；

图3是本发明实施例中对比文件提取的示意图；

图4是本发明实施例中说明书所涉及法条提取的示意图；

图5是本发明实施例中权利要求所涉及法条提取的示意图；

图6是本发明实施中的结果提取示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明：

本发明的一种基于图像识别的系统，如图1所示，包括控制单元，监控单元，分析单元，图像识别单元，文件下载单元，控制单元分别与监控单元，分析单元，图像识别单元，文件下载单元相连接，其中，

控制单元存储有信息收集表，以及预先存储的OCR规则，还用于接收分析单元和/或图像识别单元获取的文件信息，判断文件信息中是否包含文献信息，如果是，则将文献信息发送给文件下载单元。

本实施方式中的信息收集表为根据CPC系统的审查意见通知书的内容制作的表格，信息收集表可以根据监控的系统或者监控的文件内容进行调整，当监控的为审查意见通知书时，信息收集表中包括申请的基本信息，比如申请号、申请日、申请人信息，通知书次数信息，对比文件信息，审查员引用法条及涉及的权利要求信息，通知书正文信息等等。

监控单元用于监控文件状态，当监控到有新的文件生成时，向控制单元发送状态更新指令，表示监控的文件状态有更新，控制单元获取文件包，并解析文件包，将代码化文件推送到分析单元，将图像文件推送到图像识别单元。

本实施方式中，当申请有新的通知书时，CPC客户端中申请的状态信息会有更新，监控单元当监控到申请的状态信息有跟更新后，会给控制单元发送状态更新指令，提示控制单元有新的通知书文件，控制单元还可以通过短信、邮件或微信的形式向用户发消息，提示用户有新的通知书文件。控制单元通过CPC客户端下载通知书文件包，并对文件包进行解压缩，得到XML文件和TIF文件，将XML文件发送给分析单元，将TIF文件发送给图像识别单元。

本实施方式中，分析单元用于接收的控制单元推送的代码化文件，对代码化文件进行解析，获取文件信息，分析单元将获取的文件信息发送给控制单元，控制单元根据接收的文件信息填写信息收集表中的相应内容。

本实施方式中，图像识别单元用于接收控制单元推送的图像文件，根据控制单元中预先存储的OCR规则通过OCR方式进行解析，获取文件信息，图像识别单元将获取的文件信息发送给控制单元，控制单元根据接收的文件信息填写信息收集表中的相应内容。

本实施方式中，预先存储的OCR规则包括，通过对文字坐标的计算，将文字坐标转换为文字行对象，将文字矢量化，实现文本版面还原，并通过文本行的坐标位置，在图像中局部截取部分内容，获取截取部分图像的特征码，通过与预先设定的特征码进行比较，判断局部图像是否为预先定义的特定内容；通过文字与特定图像的位置关系，判断文字内容是否有特定含义，如果有特定含义，则提取文字内容做为文件信息发送给控制单元。

本实施方式中，系统还包括文件上传单元，预先在控制单元中设置不同客户所对应的接口，控制单元从接收到的文件信息中提取客户信息，文件上传单元根据客户所对应的接口将文件、文件所对应的信息收集表以及下载的文献上传到客户的管理系统。

本实施方式中，系统还包括拆分单元，当控制单元解析的文件包中包括PDF文件时，控制单元将PDF文件推送到拆分单元，拆分单元对PDF文件进行拆分，将拆分的文件转化为图像文件，并将图像文件推送到图像识别单元。

如图2所示，本发明的一种基于OCR图像识别的方法，包括：

E)对步骤B和步骤C中所获得的文件信息进行归并处理；

F)根据归并处理后的文件信息填写信息收集表。

本实施方式为上述实施方式的改进，步骤C包括:

本实施方式为上述实施方式的改进，方法还包括：

G)判断文件信息中是否包含文献信息，当包含文献信息时，根据文献信息下载相应的文献；

实施例一：

步骤1：通知书监控。

新通知书监控：监控CPC客户端的文件存储路径实时处理接受的文件，或者定时读取新接受的文件，或者使用用户的电子证书账号，实时从官方读取电子通知书，对新通知书XML文件深度解析，获取其专利基本信息，包括申请号、申请人、发明名称、发文日、通知书编码等。

步骤2：OCR识别。

对通知书的内包含的通知书tif文件，进行OCR识别。借助成熟OCR技术进行OCR识别,本发明的方式是根据OCR后获得文字Word的位置关系，进行版面复原处理，将文字重新组织为文本行、段落，具体实现方式为遍历所有的文字对象，根据每个文字Word的坐标位置，判断是否与现有的文字行属于一行，如果不属于一行则自动创建新的Line对象，如果是同一行则将文字添加到行尾，如此循环则会构造出所有的文字行的Page对象，并且计算出每一行文字对象在图像的坐标位置，将所有的文字行对象按照纵坐标进行排序，即实现了文字行与实际图像内容的顺序对应关系。

进一步：文字间的空格补充，在添加文字到行尾时，判断当前文字与前一文字的横向距离，通过计算距离与字符本身的宽度，补充相应个数的空格。

进一步：可以计算所有文本行距离图像边缘的最左距离，作为左边距，以左边距为标准，计算每一行Line距离左边距的距离，可以实现行文本的缩进，复原后达到与原图像相似的效果。

步骤3：局部图像识别。

针对通知书中部分文字行前面有或的现象，根据文本在图像版面的位置，在文字行对象左侧对应的一定范围内，提取局部图像信息，通过对截取的图像计算其特征码与预先定义好的特征码比对，判断其内容是否为如果是则此文本行为审查员标记的选择项，此文本具有特定含义。

由于通知书图像都是二值化的图像，我们在OCR时记录了每一行文本在图像的坐标位置，只需在文字行左侧提取略大于一文字大小的矩形区域，通过逐行扫描此区域，判断四周边线是否联通，进而判断其是否是矩形块，如果不是，则直接返回，它肯定不会为或否则再计算其特征码，关于特征码算法有多种，可以通过直方图提取特征，或者是通过二值图像的连通域进行标记其轮廓，用提取的特征码与预先定义的特征码进行比较，针对或两种图像，可以计算黑色像素所占比例，当比例介于25％到27％之间则为也可以计算矩形区域对角是否是联通的，而没有其它干扰内容，算法不一。

进一步，不同类型的通知书页数不同，有的仅一页有的是多页，审查员给出结论相关的内容可能分布在不同的页中，本发明通过将通知书所有图像页按顺序进行OCR识别，得到包含图像页及所有文本行的Document对象，即通过通知书的Document对象可以得到所有的页Page对象,通过Page对象可以得到页内的所有行Line对象，通过Line对象可以到达行内的所有Word对象。遍历Document内所有文本行，如果本行文字为用户关心的内容(可以通过正则表达式、或者固定文字比对)，再判断此行文字是否被选中。

进一步对比文件提取，对于审查意见通知书中的对比文件的提取，如附图3所示，由于此类通知书对比文件信息出现的位置有一定规律，当出现“本通知书引用下列对比文件”，并且此行文本行左侧为时，表示后续会有对比文件的表格出现，扫描图像的表格区域，提取其中的文本信息，即为对比文件；

进一步表格区域识别，由于表格的起点位置已经确定，只需要逐行扫描，获得每个单元表格矩形坐标位置，通过提取局部区域的文字内容获得对比文件信息；

局部区域文字提取：根据预先给定图像的局部坐标区域，获取区域内的文字，由于已经将图像的文字进行了版面复原，遍历的所有的文字行对象，当文字行与指定的区域有交集时，再遍历此行的文字，判断每个文字是否在指定区域内，如果存在，则重新构造文本行对象，如此循环，便获取到局部区域的文字内容。

进一步通知书次数识别：对于第N次审查意见通知书，由于XML中或国知局标准代码都无法区分是第几次审查，通过OCR识别后，对通知书名称进行提取，再通过正则表达式判断是第几次审查；

进一步法条提取，说明书违背的法条,由于通知书中关于审查的结论性意见，都是固定的文本描述，如附图4所示，我们只需要判断这些文本行是否被即说明审查员选择了此法条；

同理，如附图5所示，关于权利要求违背的法条，也可以通过判断文本行是否被则权利要求违背了此法条；

同理，如附图6所示，进一步提取结论意见：

步骤4：本地存储。

将采集到的规范化数据填入对应的信息收集表，存储至本地数据库，进行本地管理，可以进行查询、导出等，对应解析异常情况，也可以采取人工干预方式处理，避免全自动处理中不能处理的异常。

步骤5：对比文件下载。

根据采集到的规范化数据判断是否包含对比文件，对比文件包括专利文献和非专利文献，如果是论文期刊类等非专利文献，一般审查员会附带其截图，可以通过合并为PDF获得，如果审查员没有给出截图，则通过文献数据库比如，IEEE、SCI或CNKI等等进行下载，或者通过搜索引擎进行搜索和下载；如果是专利文献，通常需要自行进行下载，可以在国家知识产权局官网(或者免费网站如www.Innojoy.com)下载相关的专利公开说明书，此功能可以极大减少代理人的下载专利文件的工作量。

步骤6：智能上传保存。

预先设置判断规则，自动判断专利通知书是哪个客户的，依据通知书中的申请人信息判断是否符合规则，进而得出通知书是哪个客户，依据配置好的客户系统地址，将收到的通知书智能上传到客户管理系统，并将解析出的字段内容按照规则更新客户系统的数据，同时上传对比文件、通知书文件等其它附件，完全实现全自动化的管理。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分流程可以通过计算机程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于OCR图像识别的系统，其特征在于，系统包括控制单元，监控单元，分析单元，图像识别单元，文件下载单元，所述控制单元分别与监控单元，分析单元，图像识别单元，文件下载单元相连接，其中，

所述控制单元存储有信息收集表，以及预先存储的OCR规则，还用于接收所述分析单元和/或所述图像识别单元获取的文件信息，判断文件信息中是否包含文献信息，如果是，则将文献信息发送给所述文件下载单元；

所述监控单元用于监控文件状态，当监控到有新的文件生成时，向所述控制单元发送更新指令，表示监控到有需要解析的文件包，所述控制单元获取文件包，并解析所述文件包，将代码化文件推送到所述分析单元，将图像文件推送到所述图像识别单元；

所述文件下载单元，用于根据所述控制单元发送的文献信息进行下载。

2.根据权利要求1所述的系统，其特征在于，分析单元用于接收的所述控制单元推送的所述代码化文件，对所述代码化文件进行解析，获取文件信息，所述分析单元将所述获取的文件信息发送给所述控制单元，所述控制单元根据接收的文件信息填写所述信息收集表中的相应内容。

3.根据权利要求1所述的系统，其特征在于，所述图像识别单元用于接收所述控制单元推送的所述图像文件，根据所述控制单元中预先存储的OCR规则通过OCR方式进行解析，获取文件信息，所述图像识别单元将所述获取的文件信息发送给所述控制单元，所述控制单元根据接收的文件信息填写所述信息收集表中的相应内容。

4.根据权利要求3所述的系统，其特征在于，所述预先存储的OCR规则包括，通过对文字坐标的计算，将所述文字坐标转换为文字行对象，将文字矢量化，实现文本版面还原，并通过文本行的坐标位置，在图像中局部截取部分内容，获取截取部分图像的特征码，通过与预先设定的特征码进行比较，判断局部图像是否为预先定义的特定内容；通过文字与特定图像的位置关系，判断文字内容是否有特定含义，如果有特定含义，则提取所述文字内容做为文件信息发送给控制单元。

5.根据权利要求1-4任一所述的系统，其特征在于，所述系统还包括文件上传单元，预先在所述控制单元中设置不同客户所对应的接口，所述控制单元从接收到的所述文件信息中提取客户信息，所述文件上传单元根据客户所对应的接口将所述文件、文件所对应的信息收集表以及下载的文献上传到客户的管理系统。

6.根据权利要求1-4任一所述的系统，其特征在于，所述系统还包括拆分单元，当所述控制单元解析的文件包中包括PDF文件时，所述控制单元将PDF文件推送到所述拆分单元，所述拆分单元对PDF文件进行拆分，将拆分的文件转化为图像文件，并将所述图像文件推送到所述图像识别单元。

7.一种基于OCR图像识别的方法，其特征在于，所述方法包括：

A)实时监控文件的状态，当监控到有新生成的文件时，获取通知书文件包，并对所述通知书文件包进行解析，对解析出来的代码化文件执行步骤B，对解析出来的图像文件执行步骤C；对解析出来的PDF文件执行步骤D；

B)对解析获得的代码化文件进行解析，获取文件信息,然后执行步骤C；

E)对步骤B和步骤C中所获得的文件信息进行归并处理；

F)根据归并处理后的文件信息填写信息收集表。

8.根据权利要求7所述的方法，其特征在于，所述步骤C包括:

C3)通过文字与特定图像的位置关系，判断文字内容是否有特定含义，如果有特定含义，则提取所述文字内容做为文件信息。

9.根据权利要求7所述的方法，其特征在于，方法还包括：

10.根据权利要求7所述的方法，其特征在于，方法还包括：