CN109598649B - 一种专利文件的处理方法、装置及存储介质 - Google Patents
一种专利文件的处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN109598649B CN109598649B CN201811564425.XA CN201811564425A CN109598649B CN 109598649 B CN109598649 B CN 109598649B CN 201811564425 A CN201811564425 A CN 201811564425A CN 109598649 B CN109598649 B CN 109598649B
- Authority
- CN
- China
- Prior art keywords
- mark
- target phrase
- primitive
- list
- position information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 15
- 230000001960 triggered effect Effects 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000013519 translation Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 239000003086 colorant Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种专利文件的处理方法、装置及存储介质,其中,方法包括:建立附图参数与标记名称的对应关系,提取说明书中“标记名称+附图标记”形式的目标短语;基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系;当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。本发明阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。
Description
技术领域
本发明实施例涉及图像处理技术,尤其涉及一种专利文件的处理方法、装置及存储介质。
背景技术
专利文件中说明书的文本描述部分和附图通常是分开的,附图通常位于说明书的最后,这将会给相关人员的阅读与理解该文件的内容带来不便。在阅读专利文件时,为了对照文本描述与位于不同页面上各附图中的附图标记的相互关系,往往需要反复地前后翻页,这常常要耗费额外的时间与精力。
为了提高阅读效率,通常阅读者会开启两个显示窗口,第一个显示窗口用于显示说明书的文本部分,第二个显示窗口用于显示说明书附图,阅读者并行查看两个显示窗口显示的内容,依据第一个窗口中说明书的文本部分记载的附图标记和标记名称,在第二个显示窗口中找到对应的附图标记以及该附图标记所指示的附图内容。
但该方法仍然需要阅读者仔细查找两个显示窗口中的附图标记及该标记指示的附图内容,仍然不够直观,特别是当附图结构复杂且附图标记较多的时候,需要耗费大量的时间与精力,阅读者阅读效率较低。
发明内容
本发明提供一种专利文件的处理方法、装置及存储介质,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。
第一方面,本发明实施例提供了一种专利文件的处理方法,包括:
建立附图参数与标记名称的对应关系,其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息;
提取说明书中“标记名称+附图标记”形式的目标短语;
基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系;
当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。
可选的,建立附图参数与标记名称的对应关系,包括:
识别附图中的附图标记,生成第一列表,其中,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系;
提取说明书中的附图标记及附图标记对应的标记名称,生成第二列表,其中,第二列表包括附图标记和标记名称的对应关系;
合并第一列表和第二列表,过滤重复的附图标记,生成第三列表。
可选的,识别附图中的附图标记,包括:
确定附图中附图标记的位置,截取包含附图标记的附图标记图元,对附图标记图元进行识别。
可选的,在生成第一列表之后,还包括:
对从附图中识别出的附图标记进行核对;
若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新第一列表中的附图标记。
可选的,在生成第一列表之后,还包括:
对附图中的附图标记进行漏检;
将漏检到的附图参数添加到第一列表中。
可选的,专利文件处理方法还包括:
基于第三列表,若在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息。
可选的,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,包括:
基于附图参数与标记名称的对应关系,确定目标短语对应的图元位置信息;
基于目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,指示端用于指向附图中对应的附图内容;
基于指示端的位置信息确定目标短语对应的附图内容。
可选的,设定操作包括点选、框选或悬停于目标短语。
可选的,专利文件处理方法还包括:
在附图标记图元附近的空白处显示对应的标记名称。
可选的,在附图标记图元附近的空白处显示对应的标记名称,包括:
在附图标记图元附近的空白区域生成标记名称显示框;
在标记名称显示框内显示对应的标记名称。
可选的,至少将目标短语对应的附图内容进行区别显示,包括:
将目标短语对应的附图标记图元、标记名称显示框、指示标线和附图内容,以边缘加亮、整体高亮、闪烁和填充颜色中的至少一种方式进行显示。
可选的,专利文件处理方法还包括:
将专利文件的文字部分在文本窗口进行显示,并将专利文件的附图部分在附图窗口进行显示。
可选的,文本窗口包括用于显示专利文件原文的原文窗口和用于显示专利文件译文的译文窗口。
可选的,识别附图中的附图标记,包括:
基于神经网络算法,识别附图中的附图标记。
第二方面,本发明实施例还提供了一种专利文件的处理装置,包括:
第一关系建立单元,用于建立附图参数与标记名称的对应关系,其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息;
目标短语提取单元,用于提取说明书中“标记名称+附图标记”形式的目标短语;
第二关系建立单元,用于基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系;
显示单元,用于当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明第一方面任意所述的专利文件的处理方法。
本发明实施例通过建立附图参数与标记名称的对应关系,并提取说明书中“标记名称+附图标记”形式的目标短语,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,当触发目标短语的设定操作时,将目标短语对应的附图内容进行区别显示,如此,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。
附图说明
图1为本发明实施例提供的一种专利文件的处理方法的流程图;
图2为本发明实施例中待处理专利文件的原始附图;
图3为触发“第一部件1”的设定操作后对应图2的一种示意图;
图4为本发明实施例提供的另一种专利文件的处理方法;
图5为触发“第一部件1”的设定操作后对应图2的另一种示意图;
图6为本发明实施例提供的一种专利文件的处理装置;
图7为本发明实施例中第一关系建立单元的结构示意图;
图8为本发明实施例中第二关系建立单元的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明实施例提供了一种专利文件的处理方法,图1为本发明实施例提供的一种专利文件的处理方法的流程图,如图1所示,该方法包括:
S110、建立附图参数与标记名称的对应关系。
其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息。具体的,附图标记为专利附图中用于指示附图内容的字符标记,可以是数字或字母形式。附图标记图元为包括完整的附图标记的图元,附图标记图元的尺寸可根据附图标记的尺寸进行自适应,形状可以是直角四边形,对应的附图标记包含在该直角四边形内。图元位置信息是指附图标记图元在专利附图中的具体位置,示例性的,可以基于专利附图,建立二维坐标系,根据附图标记图元在该坐标系中的坐标信息,确定该附图标记图元的图元位置信息。标记名称为附图标记指代的附图内容的名称。需要说明的是,上述确定的附图标记图元的图元位置信息的方法只是本发明的其中一实施例,事实上,只要能够用来确定附图标记图元的图元位置信息即可,本发明在此不做限定。
S120、提取说明书中“标记名称+附图标记”形式的目标短语。
专利文件的说明书中,标记名称和附图标记通常以“标记名称+附图标记”的形式出现,例如“第一部件101”,提取说明书中“标记名称+附图标记”形式的目标短语。具体的,可以采用正则表达式字符匹配算法、条件随机场算法或实体命名识别算法等提取说明书中“标记名称+附图标记”形式的目标短语。
S130、基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系。
具体的,通过附图标记图元的图元位置信息可以确定该附图标记指示的附图内容,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,如此,可以通过附图标记、标记名称或目标短语查找到对应的附图内容。
S140、当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。
其中,设定操作包括点选、框选或悬停于目标短语,当鼠标指针以点选、框选或悬停的方式选中说明书中目标短语的标记名称或附图标记时,在专利附图中,将目标短语对应的附图内容进行区别显示,以区别于专利附图中的其他附图内容,以使阅读者快速准确地查看目标短语对应的附图内容。图2为本发明实施例中待处理专利文件的原始附图,其中,各附图标记的对应的标记名称分别为:1,第一部件;2,第二部件;3,第三部件;4,第四部件;5,第五部件。图3为触发“第一部件1”的设定操作后对应图2的一种示意图,如图3所示,当触发“第一部件1”的设定操作后,附图中“第一部件1”对应的附图内容突出显示(如阴影部分所示),以区别于专利附图中的其他附图内容。
本发明实施例通过建立附图参数与标记名称的对应关系,并提取说明书中“标记名称+附图标记”形式的目标短语,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,当触发目标短语的设定操作时,将目标短语对应的附图内容进行区别显示,如此,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。
可选的,建立附图参数与标记名称的对应关系,包括:
识别附图中的附图标记,生成第一列表,其中,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系;
提取说明书中的附图标记及附图标记对应的标记名称,生成第二列表,其中,第二列表包括附图标记和标记名称的对应关系;
合并第一列表和第二列表,过滤重复的附图标记,生成第三列表。
相应的,图4为本发明实施例提供的另一种专利文件的处理方法,如图4所示,该方法包括:
S111、识别附图中的附图标记,生成第一列表。
其中,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系。
可选的,从专利附图中识别附图标记可以采用神经网络算法,具体的,可以采用卷积神经网络(Convolutional Neural Networks,CNN)、深度残差网络(Deep ResidualLearning,DRN)、视觉几何组(Visual Geometry Group,VGG)、深度学习结构(GoogLeNet)。下面,以CNN为例进行具体说明:
(1)准备训练数据集:使用已核对过附图标记的专利文件,自说明书中提取附图标记,以所提取的附图标记为特征,使用ORB(Oriented FAST and Rotated BRIEF)算法定位专利附图中单独出现的数字、字母、或者两者的结合,完整截取定位到的图元,并建立该图元与附图标记的对应关系,作为训练数据集。
(2)处理训练数据集:使用图像处理软件(OpenCV)对训练数据集进行处理,将图元缩放为统一大小(采用GoogLeNet时也可不必统一尺寸),提取单通道转化为灰度图。
(3)训练测试:使用常用的神经网络开发构架(例如Tensorflow、Caffe、Keras、Python等)构建卷积神经网络进行训练和测试。
(4)将训练好的模型用于附图标记的识别,定位可能为附图标记的图元并识别其内容。
采用光学字符识别(Optical Character Recognition,OCR)来识别专利附图中的附图标记,该方法难以应对图片中的大量干扰字符,仍然需要翻译人员耗费大量精力一一核对,识别准确率不高,对于准确性要求极高的专利翻译来说,辅助性并不强。本发明实施例采用神经网络算法识别附图中的附图标记,提高识别了识别效率和准确率。
S112、提取说明书中的附图标记及附图标记对应的标记名称,生成第二列表。
其中,第二列表包括附图标记和标记名称的对应关系。具体的,优先从附图标记说明部分中提取附图标记及附图标记对应的标记名称,再从说明书提取附图标记及附图标记对应的标记名称。具体的,可以采用正则表达式字符匹配算法、条件随机场算法或实体命名识别算法等提取附图标记及附图标记对应的标记名称。
S113、合并第一列表和第二列表,过滤重复的附图标记,生成第三列表。
在专利文件中,可能会存在说明书中记载了附图标记,而在附图中没有画出的情况,导致在步骤S111中,该类附图标记无法被识别,将第一列表和第二列表进行合并,过滤重复的附图标记,生成第三列表,进而得到附图参数与标记名称的对应关系。
S120、提取说明书中“标记名称+附图标记”形式的目标短语。
S130、基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系。
S140、当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。
可选的,识别附图中的附图标记,包括:
确定附图中附图标记的位置,截取包含附图标记的附图标记图元,对附图标记图元进行识别。具体的,如前文所述,采用神经网络算法,将训练好的模型用于附图标记的识别,定位可能为附图标记的图元,截取包含附图标记的附图标记图元,对附图标记图元进行识别。
可选的,在生成第一列表之后,还包括:
对从附图中识别出的附图标记进行核对。
在对附图标记的识别时,可能会存在识别错误的情况,例如,附图中存在但被错误地识别成另一个标记的一类附图标记,或附图中没有但被错误地识别到的一类附图标记。核对方式可采用列表形式对附图标记图元和识别的附图标记进行核对;也可以直接在附图上进行核对,例如对附图标记图元的截取边界加深显示,并根据附图标记图元的位置信息,在附图标记图元附近以不遮挡附图标记图元的方式设置包含识别内容的文本框,可选的,该文本框能够直接进行编辑改写。该文本框可进一步包括选单,其中包括若干选项,可将该图元的识别结果定义为“正确”、“识别有误”、“非标记”等。
若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新第一列表中的附图标记。
若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新第一列表中的附图标记,例如对识别有误的标记进行修正,对非标记进行删除,并将识别正确的附图标记和附图标记图元,用作神经网络算法用的训练数据。
可选的,在生成第一列表之后,还包括:
对附图中的附图标记进行漏检。
具体的,检漏是对附图中除已被读取的附图标记图元以外的其他部分再次检漏,当发现有没有被识别到的标记时,可采用人工选择的方式,截取完整包括漏检附图标记的图元,人工输入或机器识别其附图标记并提取该图元的位置信息,该附图标记有误时,可将该附图标记加以编辑改写。其中检漏时,可针对附图中除已被读取的图元以外的其他部分突出显示,或者将已被读取的图元减弱显示,以加强发现漏检标记的可能性。同样地,也可将漏检图元和附图标记用作神经网络算法的用训练数据。
将漏检到的附图参数添加到第一列表中。
更新第一列表,将漏检的附图标记、附图标记图元及该图元的位置信息添加到第一列表中。
可选的,专利文件处理方法还包括:
基于第三列表,若在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息,以便进行核对并对第三列表进行修正。具体的,若同一个附图标记对应多个标记名称,可将该多个标记名称列在同一个附图标记下,也可并列列出,在列表中加以提示,并生成提示信息1,以提示附图标记的标记名称不唯一。若某一附图标记在第三列表中没有对应的标记名称,在列表中加以提示,并生成提示信息2,以提示在附图中有记载,但在说明书中没有记载的附图标记。若某一附图标记和对应的标记名称缺少对应的附图标记图元及图元位置信息,在列表中加以提示,并生成提示信息3,以提示在说明书中有记载,但在附图中没有标出的附图标记。
可选的,基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,包括:
基于附图参数与标记名称的对应关系,确定目标短语对应的图元位置信息。
附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息。由附图参数与标记名称的对应关系,可以查找到目标短语中附图标记的对应的图元位置信息。
基于目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,指示端用于指向附图中对应的附图内容。
专利附图中,附图标记通常通过指示标线指示对应的附图内容,指示标线的一端指向附图标记,另一端(即指示端)指向该附图标记对应的附图内容。基于目标短语中附图标记对应的图元位置信息,确定对应指示标线,进而确定指示标线的指示端的位置信息。具体的,指示标线的位置是以常见的折线、弯曲线等标线为特征,以与目标短语对应的附图标记图元为中心,使用ORB算法进行定位,定位到指示标线的指向附图内容的指示端的位置。
基于指示端的位置信息确定目标短语对应的附图内容。
以该指示端位置为参考点,当该指示端指向被封闭线段包围的白色等背景像素时,该封闭线段及其包围的白色等背景部分即为目标短语对应的附图内容。或者,当该指示端指向的是封闭线段时,该封闭线段及其包围的部分即为目标短语对应的附图内容。
可选的,专利文件处理方法还包括:
在附图标记图元附近的空白处显示对应的标记名称。具体的,基于附图参数与标记名称的对应关系,在专利附图中,附图标记图元附近的空白处显示对应的标记名称。
可选的,在附图标记图元附近的空白处显示对应的标记名称,包括:
在附图标记图元附近的空白区域生成标记名称显示框;
在标记名称显示框内显示对应的标记名称。
可选的,至少将目标短语对应的附图内容进行区别显示,包括:
将目标短语对应的附图标记图元、标记名称显示框、指示标线和附图内容,以边缘加亮、整体高亮、闪烁和填充颜色中的至少一种方式进行显示。图5为触发“第一部件1”的设定操作后对应图2的另一种示意图,如图5所示,当触发“第一部件1”的设定操作后,附图中“第一部件1”对应的附图标记图元、标记名称显示框、指示标线和附图内容突出显示,并隐藏其他附图标记和指示标线,避免附图中附图标记和指示标线过多时,阅读者难以分辨所需的附图标记和附图内容的问题。
可选的,专利文件处理方法还包括:
将专利文件的文字部分在文本窗口进行显示,并将专利文件的附图部分在附图窗口进行显示。
可选的,文本窗口包括用于显示专利文件原文的原文窗口和用于显示专利文件译文的译文窗口。在专利翻译作业界面中设置原文窗口、译文窗口和附图窗口,在原文窗口中显示原文,译文窗口中显示翻译人员正在翻译的中间处理文字,图片窗口中显示专利附图。
本发明实施例还提供了一种专利文件的处理装置,图6为本发明实施例提供的一种专利文件的处理装置,如图6所示,该装置包括:
第一关系建立单元100,用于建立附图参数与标记名称的对应关系,其中,附图参数包括附图标记、附图标记在对应附图中的附图标记图元和附图标记图元在对应附图中的图元位置信息。
目标短语提取单元200,用于提取说明书中“标记名称+附图标记”形式的目标短语。
第二关系建立单元300,用于基于第一关系建立单元100建立的附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系。
显示单元400,用于当触发目标短语的设定操作时,至少将目标短语对应的附图内容进行区别显示。其中,设定操作包括点选、框选或悬停于目标短语,当鼠标指针以点选、框选或悬停的方式选中说明书中目标短语、标记名称或附图标记时,在专利附图中,将目标短语对应的附图内容进行区别显示,以区别于专利附图中的其他附图内容。
本发明实施例通过第一关系建立单元建立附图参数与标记名称的对应关系,目标短语提取单元提取说明书中“标记名称+附图标记”形式的目标短语,第二关系建立单元基于附图参数与标记名称的对应关系,建立目标短语与目标短语中的附图标记指示的附图内容之间的映射关系,当触发目标短语的设定操作时,显示单元将目标短语对应的附图内容进行区别显示,如此,阅读者能够直观地看到说明书窗口中附图标记及标记名称在附图窗口中对应的附图内容,提升了阅读体验和阅读效率。
可选的,图7为本发明实施例中第一关系建立单元的结构示意图,如图7所示,第一关系建立单元100包括附图标记识别模块110、第一列表生成模块120、提取模块130、第二列表生成模块140、列表合并模块150。
其中,附图标记识别模块110用于识别附图中的附图标记,第一列表生成模块120基于附图标记识别模块110获取的数据生成第一列表,第一列表包括附图标记、附图标记图元和图元位置信息的对应关系。提取模块130用于提取说明书中的附图标记及附图标记对应的标记名称,第二列表生成模块140根据提取模块130获取的数据生成第二列表,第二列表包括附图标记和标记名称的对应关系。列表合并模块150用于合并第一列表和第二列表,过滤重复的附图标记,并生成第三列表。
具体的,附图标记识别模块110确定附图中附图标记的位置,截取包含附图标记的附图标记图元,对附图标记图元进行识别。
可选的,第一关系建立单元100还包括核对模块160和第一列表更新模块170。核对模块160用于在生成第一列表之后,对从附图中识别出的附图标记进行核对。第一列表更新模块170用于在核对模块160发现识别出的附图标记与对应附图标记图元表示的附图标记不一致时,更新第一列表中的附图标记。
在对附图标记的识别时,可能会存在识别错误的情况,例如,附图中存在但被错误地识别成另一个标记的一类附图标记,或附图中没有但被错误地识别到的一类附图标记。核对方式可采用列表形式对附图标记图元和识别的附图标记进行核对;也可以直接在附图上进行核对,例如对附图标记图元的截取边界加深显示,并根据附图标记图元的位置信息,在附图标记图元附近以不遮挡附图标记图元的方式设置包含识别内容的文本框,可选的,该文本框能够直接进行编辑改写。该文本框可进一步包括选单,其中包括若干选项,可将该图元的识别结果定义为“正确”、“识别有误”、“非标记”等。若核对模块160发现识别出的附图标记与对应附图标记图元表示的附图标记不一致,则第一列表更新模块170更新第一列表中的附图标记,例如对识别有误的标记进行修正,对非标记进行删除,并将识别正确的附图标记和附图标记图元,用作神经网络算法用的训练数据。
可选的,第一关系建立单元100还包括漏检模块180,用于对附图中的附图标记进行漏检。检漏是对附图中除已被读取的附图标记图元以外的其他部分再次检漏,当发现有没有被识别到的标记时,可采用人工选择的方式,截取完整包括漏检附图标记的图元,人工输入或机器识别其附图标记并提取该图元的位置信息,该附图标记有误时,可将该附图标记加以编辑改写。其中检漏时,可针对附图中除已被读取的图元以外的其他部分突出显示,或者将已被读取的图元减弱显示,以加强发现漏检标记的可能性。同样地,也可将漏检图元和附图标记用作神经网络算法的用训练数据。第一列表更新模块170将漏检的附图标记、附图标记图元及该图元的位置信息添加到第一列表中。
可选的,本发明实施例提供的专利文件处理装置还包括提示单元500,用于基于列表合并单元150生成的第三列表,若发现在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息,以便进行核对并对第三列表进行修正。
可选的,图8为本发明实施例中第二关系建立单元的结构示意图,如图8所示,第二关系建立单元300包括图元位置信息确定模块310、指示端位置信息确定模块320和附图内容确定模块330。其中,图元位置信息确定模块310用于基于附图参数与标记名称的对应关系,确定目标短语对应的图元位置信息。指示端位置信息确定模块320用于基于目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,指示端用于指向附图中对应的附图内容,具体的,指示标线的位置是以常见的折线、弯曲线等标线为特征,以与目标短语对应的附图标记图元为中心,使用ORB算法进行定位,定位到指示标线的指向附图内容的指示端的位置。附图内容确定模块330用于基于指示端的位置信息确定目标短语对应的附图内容,具体的,以该指示端位置为参考点,当该指示端指向被封闭线段包围的白色等背景像素时,该封闭线段及其包围的白色等背景部分即为目标短语对应的附图内容。或者,当该指示端指向的是封闭线段时,该封闭线段及其包围的部分即为目标短语对应的附图内容。
可选的,显示单元400还用于在附图标记图元附近的空白处显示对应的标记名称。具体的,显示单元400基于附图参数与标记名称的对应关系,在专利附图中,附图标记图元附近的空白处显示对应的标记名称,可选的,显示单元400在附图标记图元附近的空白处显示标记名称显示框,在标记名称显示框内显示对应的标记名称。
可选的,显示单元400用于将目标短语对应的附图标记图元、标记名称显示框、指示标线和附图内容,以边缘加亮、整体高亮、闪烁和填充颜色中的至少一种方式进行显示。
可选的,显示单元400还用于将专利文件的文字部分在文本窗口进行显示,并将专利文件的附图部分在附图窗口进行显示。可选的,文本窗口包括用于显示专利文件原文的原文窗口和用于显示专利文件译文的译文窗口。在专利翻译作业界面中设置原文窗口、译文窗口和附图窗口,在原文窗口中显示原文,译文窗口中显示翻译人员正在翻译的中间处理文字,图片窗口中显示专利附图。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明上述实施例所述的专利文件的处理方法。
当然,本发明实施例所提供的一种计算机可读存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明上述任意实施例所提供的专利文件的处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述专利文件的处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (11)
1.一种专利文件的处理方法,其特征在于,包括:
建立附图参数与标记名称的对应关系,其中,所述附图参数包括附图标记、所述附图标记在对应附图中的附图标记图元和所述附图标记图元在对应附图中的图元位置信息;
提取说明书中“标记名称+附图标记”形式的目标短语;
基于附图参数与标记名称的对应关系,建立所述目标短语与所述目标短语中的附图标记指示的附图内容之间的映射关系;当触发所述目标短语的设定操作时,至少将所述目标短语对应的所述附图内容进行区别显示;
所述设定操作包括点选、框选或悬停于所述目标短语;
将所述专利文件的文字部分在文本窗口进行显示,并将所述专利文件的附图部分在附图窗口进行显示;
所述文本窗口包括用于显示所述专利文件原文的原文窗口和用于显示所述专利文件译文的译文窗口;其中,在专利翻译作业界面中设置所述原文窗口、所述译文窗口和所述附图窗口;
其中,所述基于附图参数与标记名称的对应关系,建立所述目标短语与所述目标短语中的附图标记指示的附图内容之间的映射关系,包括:
基于所述附图参数与所述标记名称的对应关系,确定所述目标短语对应的图元位置信息;
基于所述目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,所述指示端用于指向附图中对应的附图内容;
基于所述指示端的位置信息确定所述目标短语对应的附图内容,包括:以所述指示端位置为参考点,当所述指示端指向被封闭线段包围的白色背景像素时,所述封闭线段及其包围的白色背景部分即为所述目标短语对应的附图内容,或者,当所述指示端指向的是所述封闭线段时,所述封闭线段及其包围的部分即为所述目标短语对应的附图内容;
其中,所述至少将所述目标短语对应的所述附图内容进行区别显示,包括:
将所述目标短语对应的附图标记图元、标记名称显示框、所述指示标线和所述附图内容,以边缘加亮、整体高亮、闪烁和填充颜色中的至少一种方式进行显示。
2.根据权利要求1所述的专利文件的处理方法,其特征在于,所述建立附图参数与标记名称的对应关系,包括:
识别附图中的附图标记,生成第一列表,其中,所述第一列表包括附图标记、附图标记图元和图元位置信息的对应关系;
提取说明书中的附图标记及所述附图标记对应的标记名称,生成第二列表,其中,所述第二列表包括附图标记和标记名称的对应关系;
合并所述第一列表和所述第二列表,过滤重复的附图标记,生成第三列表。
3.根据权利要求2所述的专利文件的处理方法,其特征在于,所述识别附图中的附图标记,包括:
确定附图中附图标记的位置,截取包含所述附图标记的附图标记图元,对所述附图标记图元进行识别。
4.根据权利要求2所述的专利文件的处理方法,其特征在于,在所述生成第一列表之后,还包括:
对从附图中识别出的附图标记进行核对;
若识别出的附图标记与对应附图标记图元表示的附图标记不一致,则更新所述第一列表中的附图标记。
5.根据权利要求2所述的专利文件的处理方法,其特征在于,在所述生成第一列表之后,还包括:
对附图中的附图标记进行漏检;
将漏检到的附图参数添加到所述第一列表中。
6.根据权利要求2所述的专利文件的处理方法,其特征在于,还包括:
基于所述第三列表,若在一附图参数与标记名称的对应关系中存在同一附图标记对应至少两个标记名称,或者缺少标记名称,或者缺少附图标记图元及图元位置信息,则发出提示信息。
7.根据权利要求1所述的专利文件的处理方法,其特征在于,还包括:
在所述附图标记图元附近的空白处显示对应的标记名称。
8.根据权利要求7所述的专利文件的处理方法,其特征在于,所述在所述附图标记图元附近的空白处显示对应的标记名称,包括:
在所述附图标记图元附近的空白区域生成标记名称显示框;
在所述标记名称显示框内显示对应的标记名称。
9.根据权利要求2所述的专利文件的处理方法,其特征在于,所述识别附图中的附图标记,包括:
基于神经网络算法,识别附图中的附图标记。
10.一种专利文件的处理装置,其特征在于,包括:
第一关系建立单元,用于建立附图参数与标记名称的对应关系,其中,所述附图参数包括附图标记、所述附图标记在对应附图中的附图标记图元和所述附图标记图元在对应附图中的图元位置信息;
目标短语提取单元,用于提取说明书中“标记名称+附图标记”形式的目标短语;
第二关系建立单元,用于基于附图参数与标记名称的对应关系,建立所述目标短语与所述目标短语中的附图标记指示的附图内容之间的映射关系;
显示单元,用于当触发所述目标短语的设定操作时,至少将所述目标短语对应的所述附图内容进行区别显示;
所述设定操作包括点选、框选或悬停于所述目标短语;
所述显示单元还用于将所述专利文件的文字部分在文本窗口进行显示,并将所述专利文件的附图部分在附图窗口进行显示;
所述文本窗口包括用于显示所述专利文件原文的原文窗口和用于显示所述专利文件译文的译文窗口;其中,在专利翻译作业界面中设置所述原文窗口、所述译文窗口和所述附图窗口;
所述显示单元还用于将所述目标短语对应的附图标记图元、标记名称显示框、指示标线和所述附图内容,以边缘加亮、整体高亮、闪烁和填充颜色中的至少一种方式进行显示;
图元位置信息确定模块,用于基于所述附图参数与所述标记名称的对应关系,确定所述目标短语对应的图元位置信息;
指示端位置信息确定模块,用于基于所述目标短语对应的图元位置信息,确定对应指示标线指示端的位置信息,其中,所述指示端用于指向附图中对应的附图内容;
附图内容确定模块,用于基于所述指示端的位置信息确定所述目标短语对应的附图内容,具体的,以所述指示端位置为参考点,当所述指示端指向被封闭线段包围的白色背景像素时,所述封闭线段及其包围的白色背景部分即为所述目标短语对应的附图内容,或者,当所述指示端指向的是所述封闭线段时,所述封闭线段及其包围的部分即为所述目标短语对应的附图内容。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任一所述的专利文件的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811564425.XA CN109598649B (zh) | 2018-12-20 | 2018-12-20 | 一种专利文件的处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811564425.XA CN109598649B (zh) | 2018-12-20 | 2018-12-20 | 一种专利文件的处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109598649A CN109598649A (zh) | 2019-04-09 |
CN109598649B true CN109598649B (zh) | 2021-12-10 |
Family
ID=65963053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811564425.XA Active CN109598649B (zh) | 2018-12-20 | 2018-12-20 | 一种专利文件的处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109598649B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102455997A (zh) * | 2010-10-27 | 2012-05-16 | 鸿富锦精密工业(深圳)有限公司 | 元件名称提取系统及方法 |
CN104573126A (zh) * | 2015-02-10 | 2015-04-29 | 同方知网(北京)技术有限公司 | 一种基于专利全文的专利附图标注的附图展示方式 |
US9256594B2 (en) * | 2007-06-06 | 2016-02-09 | Michael S. Neustel | Patent analyzing system |
WO2018174603A1 (ko) * | 2017-03-22 | 2018-09-27 | (주)광개토연구소 | 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 처리하는 방법 및 장치 |
-
2018
- 2018-12-20 CN CN201811564425.XA patent/CN109598649B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256594B2 (en) * | 2007-06-06 | 2016-02-09 | Michael S. Neustel | Patent analyzing system |
CN102455997A (zh) * | 2010-10-27 | 2012-05-16 | 鸿富锦精密工业(深圳)有限公司 | 元件名称提取系统及方法 |
CN104573126A (zh) * | 2015-02-10 | 2015-04-29 | 同方知网(北京)技术有限公司 | 一种基于专利全文的专利附图标注的附图展示方式 |
WO2018174603A1 (ko) * | 2017-03-22 | 2018-09-27 | (주)광개토연구소 | 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 처리하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
CN109598649A (zh) | 2019-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101122854B1 (ko) | 스캔된 문서들로부터 전자 서식들을 채우기 위한 방법 및장치 | |
US11321559B2 (en) | Document structure identification using post-processing error correction | |
JPH03201166A (ja) | 日本語文書読取翻訳システムの修正時における表示方式 | |
JPH03161891A (ja) | 表形式文書読取装置 | |
US9575935B2 (en) | Document file generating device and document file generation method | |
RU2605078C2 (ru) | Сегментация изображения для верификации данных | |
JP2019079347A (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
CN111753120A (zh) | 一种搜题的方法、装置、电子设备和存储介质 | |
US11348331B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN110008960B (zh) | 一种检测字符片段完整性的方法及终端 | |
CN114529933A (zh) | 一种合同数据差异性的比对方法、装置、设备和介质 | |
CN109598649B (zh) | 一种专利文件的处理方法、装置及存储介质 | |
KR20180126352A (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
JP4935459B2 (ja) | 文字認識方法、文字認識プログラムおよび文字認識装置 | |
CN111079745A (zh) | 公式识别方法、装置、设备及存储介质 | |
CN109409362A (zh) | 基于tesseract引擎的图片敏感词检测和定位方法和装置 | |
CN112861861B (zh) | 识别数码管文本的方法、装置及电子设备 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
US7133556B1 (en) | Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition | |
JP2022067086A (ja) | デジタル化された筆記の処理 | |
US20210350066A1 (en) | Error detection in text string within displayed layout | |
JP2021152696A (ja) | 情報処理装置及びプログラム | |
CN112070092A (zh) | 一种验证码参数的获取方法及装置 | |
US20230343005A1 (en) | Methods and Systems for Automated Structured Keyboard Layout Generation | |
JP2013182459A (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |