CN108875591B - 文本图片匹配分析方法、装置、计算机设备和存储介质 - Google Patents

文本图片匹配分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108875591B
CN108875591B CN201810517401.2A CN201810517401A CN108875591B CN 108875591 B CN108875591 B CN 108875591B CN 201810517401 A CN201810517401 A CN 201810517401A CN 108875591 B CN108875591 B CN 108875591B
Authority
CN
China
Prior art keywords
numbers
text
matching
description information
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810517401.2A
Other languages
English (en)
Other versions
CN108875591A (zh
Inventor
李磊
张龙晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zfusion Technologies (xiamen) LLC
Original Assignee
Zfusion Technologies (xiamen) LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zfusion Technologies (xiamen) LLC filed Critical Zfusion Technologies (xiamen) LLC
Priority to CN201810517401.2A priority Critical patent/CN108875591B/zh
Publication of CN108875591A publication Critical patent/CN108875591A/zh
Application granted granted Critical
Publication of CN108875591B publication Critical patent/CN108875591B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本图片匹配分析方法、装置、计算机设备和存储介质,所述方法包括:获取专利文本以及与所述专利文本对应的附图;通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;提取所述专利文本中与所述编号关联的描述信息;匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。采用本方法能够高效地分析专利文本和附图,从中提取有效地专利信息,提高阅读专利文献的效率,降低专利技术方案理解的难度。

Description

文本图片匹配分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种文本图片匹配分析方法、装置、计算机设备和存储介质。
背景技术
随着不同领域的科学技术的高速发展,专利保护和应用已经构成经济活动的重要内容。越来越多的企业和研究机构通过专利布局、管理和运用来保护其核心技术。
在信息化社会,充分有效地利用各类信息资源,是进行科学研究和决策的前提条件。专利文献是当今世界上最大的技术信息源,根据国际经济发展组织(Organization forEconomic Cooperation and Development,OECD)的统计资料表明,专利文献包含了80%以上科技知识,而大部分这类技术信息没有被刊登在其它的发行刊物。
传统技术中对于专利文献的分析方法一般为文本分析方法,例如,在申请号为201510623936.4的中国专利申请中,提出了一种中文专利文献术语自动识别方法,通过统计学的方法从专利标题中自动学习出构成术语的词性规则,采用排序方法对候选术语进行排序,综合专利文献中的语言学和统计学特征,区分术语和非术语。在申请号为201710891269.7的中国专利申请中,提出了一种专利关键词自动提取方法,该方法根据撰写专利时使用的专业定性词汇进行跟随指引查询,可节省大量的关键词检索时间。
然后,专利文献中经常会包含很多与专利文本相对应的附图,附图中蕴含了较为丰富的专利信息。传统的技术只能分析专利文本,缺乏附图分析,导致在阅读专利文献时,需要人工对附图上标识的技术元件与专利文本中的描述进行对应,这极大地降低了阅读专利文献的效率。
发明内容
基于此,为了解决上述技术问题,本发明提供一种文本图片匹配分析方法、装置、计算机设备和存储介质,能高效地分析专利文本和附图,从中提取有效地专利信息,提高阅读专利文献的效率,降低专利技术方案理解的难度。
一方面,本发明提供一种文本图片匹配分析方法,包括如下步骤:
获取专利文本以及与所述专利文本对应的附图;
通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
提取所述专利文本中与所述编号关联的描述信息;
匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
在一个实施例中,本发明的文本图片匹配分析方法还包括如下步骤:
根据所述编号的位置信息确定所述编号之间的指向关系;
匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息。
在一个实施例中,所述图像分析算法包括基于深度神经网络模型的监督式学习算法。
在一个实施例中,通过基于深度神经网络模型的监督式学习算法提取所述附图中技术元件的编号及所述编号的位置信息的过程包括:
通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息;
通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理,检测所述编号及所属编号的位置信息。
在一个实施例中,所述深度神经网络模型的损失函数为:
Figure BDA0001673863260000021
其中,x表示编号的匹配矩阵,c表示检测的置信度,l表示预测的编号位置,g表示真实的编号位置,N为与真实边界框相匹配的默认边界框的数量,Lconf(x,c)表示置信度的损失;Lloc(x,l,g)表示位置信息的损失;α表示平衡系数。
在一个实施例中,提取所述专利文本中与所述编号关联的描述信息的过程包括:
通过基于双向LSTM网络模型的监督式学习算法提取所述专利文本中的命名实体;
对所述命名实体与所述编号进行关联处理,获得与所述编号关联的描述信息。
在一个实施例中,匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息的过程包括:
将与所述编号关联的所述描述信息映射到所述附图中的所述编号,获得各个所述描述信息之间的指向关系;
根据各个所述描述信息之间的关系生成关系图。
另一方面,本发明提供一种文本图片匹配分析装置,所述装置包括:
文本图片获取模块,用于获取专利文本以及与所述专利文本对应的附图;
图像分析模块,用于通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
描述信息提取模块,用于提取所述专利文本中与所述编号关联的描述信息;
匹配模块,用于匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
在一个实施例中,本发明的文本图片匹配分析装置还包括关系确定模块,用于根据所述编号的位置信息确定所述编号之间的指向关系;所述匹配模块还用于匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息。
在一个实施例中,所述图像分析算法包括基于深度神经网络模型的监督式学习算法。
在一个实施例中,所述图像分析模块包括:
基本特征提取模块,用于通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息;
文本检测模块,用于通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理,检测所述编号及所属编号的位置信息。
在一个实施例中,所述深度神经网络模型的损失函数为:
Figure BDA0001673863260000041
其中,x表示编号的匹配矩阵,c表示检测的置信度,l表示预测的编号位置,g表示真实的编号位置,N为与真实边界框相匹配的默认边界框的数量,Lconf(x,c)表示置信度的损失;Lloc(x,l,g)表示位置信息的损失;α表示平衡系数。
在一个实施例中,描述信息提取模块包括:
命名实体提取模块,通过基于双向LSTM网络模型的监督式学习算法提取所述专利文本中的命名实体;
关联处理模块,用于对所述命名实体与所述编号进行关联处理,获得与所述编号关联的描述信息。
在一个实施例中,所述匹配模块包括:
映射模块,用于将与所述编号关联的所述描述信息映射到所述附图中的所述编号,获得各个所述描述信息之间的指向关系;
生成模块,用于根据各个所述描述信息之间的关系生成关系图。
另一方面,本发明还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取专利文本以及与所述专利文本对应的附图;
通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
提取所述专利文本中与所述编号关联的描述信息;
匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取专利文本以及与所述专利文本对应的附图;
通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
提取所述专利文本中与所述编号关联的描述信息;
匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
上述文本图片匹配分析方法、装置、计算机设备和存储介质,在获取专利文本和附图后,充分利用附图的信息,通过图像分析算法可以从附图中提取技术元件的编号及其位置信息,而通过分析专利文本可以提取与编号相关联的描述信息,这些描述信息实质上是对与编号相对应的技术元件的描述。然后匹配编号、编号的位置信息以及与编号关联的描述信息,就可以获得较为充实的专利信息实体,进而可以丰富附图内容,阅读者可直接从专利文本对应的附图中获取关键信息,以理解专利技术方案。因此本发明可以高效地分析专利文本和附图,从中提取有效地专利信息,提高阅读专利文献的效率,降低专利技术方案理解的难度,具有广泛地实际应用价值。
附图说明
图1为一个实施例中与专利文本相对应的附图;
图2为一个实施例中文本图片匹配分析方法的流程示意图;
图3为一个实施例中依据匹配结果在附图中进行展示的效果示意图;
图4为另一个实施例中文本图片匹配分析方法的流程示意图;
图5为一个实施例中编号之间指向关系的示意图;
图6为一个实施例中匹配编号、编号之间的指向关系以及与编号关联的描述信息的流程示意图;
图7为一个实施例中深度神经网络模型结构的示意图;
图8为一个实施例中提取专利文本中与编号关联的描述信息的流程示意图;
图9为一个实施例中训练双向LSTM网络模型的示意图;
图10为一个实施例中文本图片匹配分析装置的结构框图;
图11为另一个实施例中文本图片匹配分析装置的结构框图;
图12为一个实施例中图像分析模块的结构框图;
图13为一个实施例中描述信息提取模块的结构框图;
图14为一个实施例中匹配模块的结构框图;
图15为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
专利文献中除了专利文本之外,还包含很多结构性的附图。这些附图一般为白底黑边的图片,用以描述专利实体的内容和结构。这些附图一般会采用编号来标识技术元件的部位,并将编号与相应技术元件以曲线连接。以图1为例,该图展示了一个自动水龙头的前视图。在此图中,每个编号都对应着水龙头的一个部位,例如,编号10表示喷口,编号19表示阀门,编号158表示接地线。
专利文本中会对这些附图进行简要的描述,并在具体实施例部分对每个附图上标识的技术元件及技术元件之间的关系进行详细的说明。在有些附图中,部位标识会辅以简单文字说明,而在大多数附图中,只采用编号来进行标识。
在本发明中,综合考虑专利文本和附图,采用文本图片匹配分析方法进行处理,可以获得专利文本和附图中所包含的技术元件的相关信息。
在一个实施例中,参照图2所示,文本图片匹配分析方法包括以下步骤:
步骤S101,获取专利文本以及与所述专利文本对应的附图;
专利文献中的专利文本和附图可以预先对应存储,一份专利文本对应一个或多个附图。
步骤S102,通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
其中,技术元件是技术方案中存在的实体对象,技术元件可以是结构实体和功能实体,例如各种零件、功能组件、结构组件等等。在附图中,是通过编号来标识技术元件的,本实施例中通过图像分析算法可以提取附图中各技术元件的编号,并且可以获得编号的位置信息。可选的,位置信息可以通过编号的坐标来表示。
步骤S103,提取所述专利文本中与所述编号关联的描述信息;
在专利文本中,会对相应的附图进行简要地描述,并对每个附图上标识的技术元件及技术元件之间的关系进行详细的说明,因此专利文本中包含了与编号关联的描述信息。例如,专利文本中包含“喷水杆198”、“滤波模块293”、“第一通孔485”等描述信息。
其中,提取专利文本中描述信息的方法有多种,例如,可以通过命名实体识别方法提取与编号相关的命名实体,以获得与编号关联的描述信息。
步骤S104,匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
在获得附图中的编号、编号的位置信息以及专利文本中与编号关联的描述信息之后,即可对三者进行匹配。根据匹配结果可以生成实体关系进行存储,或者依据匹配结果在附图中的相应位置进行展示。
在一个实施例中,例如图3所示,可以在附图中编号的对应位置展示与编号关联的描述信息,例如在编号10的对应位置展示“喷口”,在编号19的对应位置展示“阀门”。
此外,依据匹配结果,还可以通过其他方式在附图中加载并展示专利文本中与编号关联的描述信息,以便于阅读者通过阅读附图便能获得关键技术信息,此处不再针对各种展示方法进行赘述。
在大多数情况下,专利文本对应的附图可视为对专利技术方案的概括性描述。采用本发明提供的文本与图片匹配分析的方法,能够匹配附图中的编号、编号的位置信息以及专利文本中与编号关联的描述信息,进而可以丰富附图内容,阅读者可直接从专利文本对应的附图中获取关键信息,以辅助理解专利技术方案。
在一个实施例中,参照图4所示,本发明的文本图片匹配分析方法还包括以下步骤:
步骤S105,根据所述编号的位置信息确定所述编号之间的指向关系;
步骤S106,匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息。
具体的,通过图像分析算法,可以从附图中提取技术元件的编号和编号的位置信息,然后可以根据编号的位置信息确定编号之间的指向关系,其中编号之间的指向关系反映了编号所对应的技术元件之间的位置关系,例如附图中结构零件编号之间的指向关系就可以反映结构零件的位置信息、配合关系。而根据编号的位置信息确定编号之间指向关系的方法有多种,例如通过坐标运算的方法就可以计算出编号之间的指向关系。
专利文本中与编号相关联的描述信息实质上是对与编号相对应的技术元件的描述,而编号之间的指向关系实质上反映技术元件之间的位置关系,因此匹配编号、编号之间的指向关系以及与编号关联的描述信息,就可以获得技术元件间的实体关系。
例如,参照图5所示,通过图像分析算法可以提取出编号221、编号222,并确定编号221和编号222的位置信息,即编号221对应坐标(854,654),编号222对应坐标为(875,490),且通过坐标运算进一步判定这两个编号之间的指向关系为内外关系,故编号所指向的技术元件之间的关系也为内外关系,即编号221所指向的技术元件的内部设有编号222所指向的技术元件。而通过文本分析可以在专利文本中找到与编号221关联的描述信息“环状接头221”,编号222关联的描述信息“喷水杆222”,因此,通过文本图片匹配分析,可以得出技术元件的实体关系:环状接头的内部设有喷水杆。该实体关系可以表达为<环状接头,喷水杆,内>,当然,还可以有其他表达方式,此处仅为举例说明。
在一个实施例中,参照图6所示,匹配编号、编号之间的指向关系以及与编号关联的描述信息的过程包括:
步骤S201,将与编号关联的描述信息映射到附图中的编号,获得各个描述信息之间的指向关系;
步骤S202,根据各个描述信息之间的指向关系生成关系图。
具体的,由于已确定了编号之间的指向关系,那么将专利文本中获取的与编号关联的描述信息映射到附图中的编号,那么根据该映射及已知的编号之间的指向关系,就可以确定描述信息之间的指向关系,而描述信息之间的指向关系反映了编号所指向(或对应)的技术元件之间的位置关系。然后采用图的形式来表述每个描述信息之间的指向关系,该图即为关系图,该关系图可以充分的反映技术元件的实体关系,可以体现技术元件之间的位置关系,将该关系图存储到专利信息实体库中,可以丰富专利信息实体的内容。
在一个实施例中,采用基于深度神经网络模型的监督式学习算法来分析附图。监督式学习算法需要使用一定量的训练集,为此,需要人工预先对专利文本所对应的各附图进行标注,标注内容包括编号及编号的位置信息。对附图进行标注的过程可以采用现有技术,此处不予赘述。
在通过人工标注获得训练集后,再对深度神经网络模型进行训练,得到符合需求的深度神经网络模型。而后就可以使用训练好的深度神经网络模型对新的附图进行自动标注,识别技术元件的编号和位置信息。
在一个实施例中,本发明采用的深度神经网络模型结构如图7所示。该深度神经网络模型中包含了特征提取卷积网络701和文本检测卷积网络702。
如图7所示,该深度神经网络模型结构继承了卷积神经网络中经典的VGG-16网络结构,保留了VGG-16网络结构中从conv1_1到conv5_3的网络,并将最后两层全连通网络转化为卷积网络,即conv6(图中未示出)和conv7。另外,根据Max pooling(最大池)技术,在卷积网络conv7的基础上增加了四种卷积网络(conv8到conv11),构成特征提取卷积网络701。特征提取卷积网络701可以很好地建立图片中数字信息的本地化表示,而设计这些卷积网络是为了提取附图中的基本特征信息。
在特征提取卷积网络701之后,本实施例中还设计了文本检测卷积网络702,以检测附图中的编号及其位置信息。
在一个实施例中,仍参照图7所示,文本检测卷积网络702为6层卷积网络结构,该网络结构的输入为特征提取卷积网络701输出的基本特征信息,而该文本检测卷积网络702的输出经过一个非最大化的压缩过程,即图7中所示的非极大值抑制(non-maximumsuppression)过程,即可生成最终的编号及编号的位置信息。
在一个实施例中,文本检测卷积网络的输出包含方向性的边界框{q}或{r},和最小的水平边界框{b}。设置b0={x0,y0,w0,h0}为水平默认边界框,其中{x0,y0}表示水平默认边界框的中心点,w0表示水平默认边界框的宽,而h0表示水平默认边界框的高。b0也可以写为
Figure BDA0001673863260000101
或者
Figure BDA0001673863260000102
其中各项的计算表达式为:
Figure BDA0001673863260000103
Figure BDA0001673863260000104
Figure BDA0001673863260000105
Figure BDA0001673863260000106
Figure BDA0001673863260000107
Figure BDA0001673863260000108
Figure BDA0001673863260000109
针对于附图中的每个位置,深度神经网络模型会输出其为文本框的概率,以及其相应的偏移量,可以根据上述计算表达式对附图中的文本框进行表示。而上述深度神经网络模型结构可以学习出附图中每一编号的最佳表示参数,即以上计算表达式中的各项参数。
在训练深度神经网络模型时,需要确定训练过程的损失函数。在一个实施例中,深度神经网络模型的损失函数为:
Figure BDA00016738632600001010
其中,x表示编号的匹配矩阵,c表示检测的置信度,l表示预测的编号位置,g表示真实的编号位置,N为与真实边界框相匹配的默认边界框的数量,Lconf(x,c)表示置信度的损失;Lloc(x,l,g)表示位置信息的损失;α表示平衡系数。
在一个实施例中,对于专利文本中与编号关联的描述信息,可以通过命名实体识别及正则表达式的方法来提取。命名实体识别(Named Entity Recognition,NER),又称作“专名识别”,能识别文本中具有特定意义的实体,例如包括人名、地名、机构名、专有名词等。正则表达式又称规则表达式,是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
在一个实施例中,如图8所示,提取专利文本中与编号关联的描述信息的过程包括以下步骤S301和步骤S302:
步骤S301,通过基于双向LSTM网络模型的监督式学习算法提取专利文本中的命名实体;
在本实施例中,采用基于双向LSTM(Long Short Term Memory,长短时记忆)网络模型的监督式学习算法来对专利文本中的命名实体进行提取。由于监督式学习算法需要使用一定量的训练集,为此,需要人工预先对专利文本进行命名实体的标注。
在一个实施例中,可预先定义实体的标识符,如B表示实体开始,E表示实体结束,O表示其他信息。针对专利文本中的每一个句子,首先对其进行分词,而后针对每个词,可以采用预先定义实体的标识符对其进行标注,其示例如下:
图2描述了该专利中构建水龙头喷口的具体方法。
O O O O O O O B E O O O O
在上述示例中,“水龙头喷口”是一个命名实体,被分为了两个词“水龙头”和“喷口”。在标注时,这两个词分别被标注为了实体开始的标识符“B”和实体结束的标识符“E”。
对于训练双向LSTM网络模型的过程,在一个实施例中,可将文本和其对应的标识符可以视为两个序列。针对这两个序列,采用LSTM的前向(forward)网络和后向(backward)网络同时对两个序列的过去及将来的特征进行建模(如图9所示)。在两个序列中,分别设置一个长度为n的滑动窗口。针对每个滑动窗口的内容,利用前向和后向网络对其特征进行描述,而后使用CRF(conditional random field,条件随机场)方法对窗口内的词进行标识。CRF层有一个状态转换矩阵,利用此矩阵可以有效地识别出对过去和将来的标识。
将双向LSTM网络模型输出的概率矩阵定义为fθ,此矩阵中每个元素表示针对句子x,其内的第t个词的标识为i的概率。针对两个滑动窗口i和j,引入[A]i,j作为从状态i到状态j的转换分数。因此,对于一个句子沿着某个标识路径的分数g,我们可以通过下式进行计算:
Figure BDA0001673863260000121
在通过人工标注获得训练集后对双向LSTM网络模型进行训练,而后就可以使用此双向LSTM网络模型对新的专利文本进行自动标注,提取专利文本中的命名实体。
步骤S302,对所述命名实体和编号进行关联处理,获得与所述编号关联的描述信息。
在识别出命名实体之后,采用关联处理方法把编号和其相应的命名实体联系起来,获得与编号关联的描述信息。
在一个实施例中,关联处理方法可以是基于规则的方法。在专利文本中可以很容易地检测出编号,而与之相关联的命名实体一般会出现在同一个句子中,或者在编号之前,或者在编号之后。因此,制定简单的规则,将二者联系起来,然后利用此规则即可获得专利文本中与编号关联的描述信息。
在一个实施例中,在进行关联处理之前,对提取出的命名实体进行过滤处理,以提高后续处理的效率和精度,保持描述信息的准确性。
通过以上文本图片匹配分析方法,就可以获得较为充实的专利信息实体,进而可以丰富附图内容,有助于理解专利技术方案。本发明可以高效地分析专利文本和附图,从中提取有效地专利信息,提高阅读专利文献的效率,降低专利方案理解的难度专利数据,具有广泛地实际应用价值。
应该理解的是,虽然各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,本发明还提供一种文本图片匹配分析装置,该装置包括:
文本图片获取模块141,用于获取专利文本以及与所述专利文本对应的附图;
图像分析模块142,用于通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
描述信息提取模块143,用于提取所述专利文本中与所述编号关联的描述信息;
匹配模块144,用于匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
在一个实施例中,参照图11所示,本发明的文本图片匹配分析装置还包括关系确定模块145,用于根据所述编号的位置信息确定所述编号之间的指向关系。匹配模块144还用于匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息。
在一个实施例中,所述图像分析算法包括基于深度神经网络模型的监督式学习算法。
在一个实施例中,参照图12所示,图像分析模块142包括:
基本特征提取模块142a,用于通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息;
文本检测模块142b,用于通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理,检测所述编号及所属编号的位置信息。
在一个实施例中,所述深度神经网络模型的损失函数为:
Figure BDA0001673863260000141
其中,x表示编号的匹配矩阵,c表示检测的置信度,l表示预测的编号位置,g表示真实的编号位置,N为与真实边界框相匹配的默认边界框的数量,Lconf(x,c)表示置信度的损失;Lloc(x,l,g)表示位置信息的损失;α表示平衡系数。
在一个实施例中,参照图13所示,描述信息提取模块143包括:
命名实体提取模块143a,通过基于双向LSTM网络模型的监督式学习算法提取所述专利文本中的命名实体;
关联处理模块143b,用于对所述命名实体与所述编号进行关联处理,获得与所述编号关联的描述信息。
在一个实施例中,参照图14所示,匹配模块144包括:
映射模块144a,用于将与所述编号关联的所述描述信息映射到所述附图中的所述编号,获得各个所述描述信息之间的指向关系;
生成模块144b,用于根据各个所述描述信息之间的关系生成关系图。
关于文本图片匹配分析装置的具体限定可以参见上文中对文本图片匹配分析方法的限定,在此不再赘述。上述文本图片匹配分析装置中的各个模块可全部或部分通过软件、硬件或其组合来实现。上述各模块可以以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端。该计算机设备内部结构图可以如图15所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图片匹配分析方法。
本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取专利文本以及与所述专利文本对应的附图;
通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
提取所述专利文本中与所述编号关联的描述信息;
匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
此外,处理器执行计算机程序时还可以实现上述文本图片匹配分析方法实施例中的各个步骤,此处不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取专利文本以及与所述专利文本对应的附图;
通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
提取所述专利文本中与所述编号关联的描述信息;
匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息。
此外,计算机程序被处理器执行时还可以实现上述文本图片匹配分析方法实施例中的各个步骤,此处不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本图片匹配分析方法,其特征在于,包括如下步骤:
获取专利文本以及与所述专利文本对应的附图;
通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
提取所述专利文本中与所述编号关联的描述信息;
匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息;
根据所述编号的位置信息确定所述编号之间的指向关系;
匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息;
通过文本图片匹配分析,得出技术元件的实体关系。
2.根据权利要求1所述的文本图片匹配分析方法,其特征在于,所述指向关系可以通过坐标运算的方法计算出编号之间的指向关系,具体为:
通过图像分析算法提取出编号,确定编号对应坐标,通过坐标运算进一步判定编号之间的指向关系,通过文本图片匹配分析,得出技术元件的实体关系。
3.根据权利要求1或2所述的文本图片匹配分析方法,其特征在于,所述图像分析算法包括基于深度神经网络模型的监督式学习算法。
4.根据权利要求3所述的文本图片匹配分析方法,其特征在于,通过基于深度神经网络模型的监督式学习算法提取所述附图中技术元件的编号及所述编号的位置信息的过程包括:
通过深度神经网络模型中的特征提取卷积网络提取所述附图的基本特征信息;
通过深度神经网络模型中的文本检测卷积网络对所述基本特征信息进行处理,检测所述编号及所属编号的位置信息。
5.根据权利要求3所述的文本图片匹配分析方法,其特征在于,所述深度神经网络模型的损失函数为:
Figure FDA0003029388190000011
其中,x表示编号的匹配矩阵,c表示检测的置信度,l表示预测的编号位置,g表示真实的编号位置,N为与真实边界框相匹配的默认边界框的数量,Lconf(x,c)表示置信度的损失;Lloc(x,l,g)表示位置信息的损失;α表示平衡系数。
6.根据权利要求1或2所述的文本图片匹配分析方法,其特征在于,提取所述专利文本中与所述编号关联的描述信息的过程包括:
通过基于双向LSTM网络模型的监督式学习算法提取所述专利文本中的命名实体;
对所述命名实体与所述编号进行关联处理,获得与所述编号关联的描述信息。
7.根据权利要求2所述的文本图片匹配分析方法,其特征在于,匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息的过程包括:
将与所述编号关联的所述描述信息映射到所述附图中的所述编号,获得各个所述描述信息之间的指向关系;
根据各个所述描述信息之间的关系生成关系图。
8.一种文本图片匹配分析装置,所述装置包括:
文本图片获取模块,用于获取专利文本以及与所述专利文本对应的附图;
图像分析模块,用于通过图像分析算法提取所述附图中技术元件的编号及所述编号的位置信息;
描述信息提取模块,用于提取所述专利文本中与所述编号关联的描述信息;
匹配模块,用于匹配所述编号、所述编号的位置信息以及与所述编号关联的描述信息;
关系确定模块,用于根据所述编号的位置信息确定所述编号之间的指向关系;
所述匹配模块还用于匹配所述编号、所述编号之间的指向关系以及与所述编号关联的描述信息;
通过文本图片匹配分析,得出技术元件的实体关系。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810517401.2A 2018-05-25 2018-05-25 文本图片匹配分析方法、装置、计算机设备和存储介质 Active CN108875591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810517401.2A CN108875591B (zh) 2018-05-25 2018-05-25 文本图片匹配分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810517401.2A CN108875591B (zh) 2018-05-25 2018-05-25 文本图片匹配分析方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN108875591A CN108875591A (zh) 2018-11-23
CN108875591B true CN108875591B (zh) 2021-06-29

Family

ID=64334244

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810517401.2A Active CN108875591B (zh) 2018-05-25 2018-05-25 文本图片匹配分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108875591B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115238214A (zh) * 2019-03-18 2022-10-25 智慧芽信息科技(苏州)有限公司 展示方法、装置、计算机设备、存储介质及程序产品
CN110705310B (zh) * 2019-09-20 2023-07-18 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021206A (zh) * 2016-05-06 2016-10-12 长沙市麓智信息科技有限公司 专利撰写图文匹配系统及其匹配方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102737030A (zh) * 2011-04-06 2012-10-17 上海量明科技发展有限公司 专利文档的数据输出方法、终端及系统
CN104573126A (zh) * 2015-02-10 2015-04-29 同方知网(北京)技术有限公司 一种基于专利全文的专利附图标注的附图展示方式
CN107391693A (zh) * 2017-07-26 2017-11-24 北京理工大学 一种针对英文专利的信息提取与结构化描述方法
CN107617573B (zh) * 2017-09-30 2020-08-18 浙江瀚镪自动化设备股份有限公司 一种基于多任务深度学习的物流编码识别和分拣方法
CN108009279B (zh) * 2017-12-20 2023-02-17 华东理工大学 一种基于空间位置关系图匹配的图像区域标签修正方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021206A (zh) * 2016-05-06 2016-10-12 长沙市麓智信息科技有限公司 专利撰写图文匹配系统及其匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Learning Two-Branch Neural Networks for Image-Text Matching Tasks;Liwei Wang 等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20180124;全文 *
机械产品专利技术方案信息抽取方法;王朝霞 等;《机械工程学报》;20091031;第45卷(第10期);全文 *

Also Published As

Publication number Publication date
CN108875591A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
US11714787B2 (en) Construction method, device, computing device, and storage medium for constructing patent knowledge database
WO2021147726A1 (zh) 信息抽取方法、装置、电子设备及存储介质
CN110059320B (zh) 实体关系抽取方法、装置、计算机设备和存储介质
CN111062215B (zh) 基于半监督学习训练的命名实体识别方法和装置
US20240013005A1 (en) Method and system for identifying citations within regulatory content
CN111444349B (zh) 信息抽取方法、装置、计算机设备和存储介质
CN113722490B (zh) 一种基于键值匹配关系的视觉富文档信息抽取方法
CN112015900B (zh) 医学属性知识图谱构建方法、装置、设备及介质
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN112347284B (zh) 一种组合商标图像检索方法
CN111191275A (zh) 敏感数据识别方法、系统及其装置
CN111582169A (zh) 图像识别数据纠错方法、装置、计算机设备和存储介质
CN112488896A (zh) 应急预案生成方法、装置、计算机设备及存储介质
CN108875591B (zh) 文本图片匹配分析方法、装置、计算机设备和存储介质
CN113011161A (zh) 一种基于深度学习与模式匹配的人案物关联关系抽取方法
CN111026880A (zh) 基于联合学习的司法知识图谱构建方法
CN111400340B (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN115221332A (zh) 一种危化品事故事理图谱的构建方法与系统
CN115587583A (zh) 噪声的检测方法、装置及电子设备
CN113449066B (zh) 利用知识图谱来存储文物数据的方法、处理器及存储介质
CN114266252A (zh) 命名实体识别方法、装置、设备及存储介质
CN115062619B (zh) 中文实体链接方法、装置、设备及存储介质
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN115964497A (zh) 一种融合注意力机制与卷积神经网络的事件抽取方法
CN113779994B (zh) 一种要素抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant