CN111813945A - 一种基于fpaa的推断加速器构建方法 - Google Patents

一种基于fpaa的推断加速器构建方法 Download PDF

Info

Publication number
CN111813945A
CN111813945A CN202010957715.1A CN202010957715A CN111813945A CN 111813945 A CN111813945 A CN 111813945A CN 202010957715 A CN202010957715 A CN 202010957715A CN 111813945 A CN111813945 A CN 111813945A
Authority
CN
China
Prior art keywords
information
operation module
category
programmable
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010957715.1A
Other languages
English (en)
Inventor
张序
褚战星
汪勇
何振兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingguang Tongchuang Technology Co ltd
Original Assignee
Beijing Xingguang Tongchuang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xingguang Tongchuang Technology Co ltd filed Critical Beijing Xingguang Tongchuang Technology Co ltd
Priority to CN202010957715.1A priority Critical patent/CN111813945A/zh
Publication of CN111813945A publication Critical patent/CN111813945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于FPAA的推断加速器构建方法,其中基于FPAA的推断加速器构建方法包括:接收待分类的专利数据和神经网络模型,从所述待分类的专利数据中提取专利信息;至少根据所述专利信息和所述神经网络模型,将至少两个可编程模拟单元进行分组,以构成与所述专利信息对应的多个运算模块,其中,每个运算模块包含至少两个可编程模拟单元;至少根据各运算模块中所述至少两个可编程模拟单元的位置确定各运算模块中所述至少两个可编程模拟单元的互连网络;连接运算模块的输出以构成推断加速器,基于FPAA的运算模块构建,提高分类运算的速度和效率,基于多种类型的专利信息确定专利的类别,提高专利分类的准确度。

Description

一种基于FPAA的推断加速器构建方法
技术领域
本发明涉及专利数据分析领域,尤其涉及一种基于FPAA的推断加速器构建方法。
背景技术
专利数据分析领域中,专利的检索和分类标引是数据分析的基础。传统的专利分类标引采用人工标引的方式,当待标引的专利量较大时,人工标引存在前后标准不一致、标引耗时较长、效率低的问题。
神经网络是基于生物学中神经网络的基本原理,在理解和抽象了人脑结构和外界刺激响应机制后,以网络拓扑知识为理论基础,模拟人脑的神经系统对复杂信息的处理机制的一种数学模型。神经网络对外界输入样本有很强的识别与分类能力,近几年来,出现了基于神经网络模型的专利自动分类技术,一定程度上提高了分类的一致性和效率。然而,神经网络模型结构的复杂性,需要大量计算资源来训练、评估和运算,在保证神经网络模型专利分类精度的同时,提高神经网络模型分类速度是推动神经网络商业应用的重要环节。
基于专用硬件的神经网络加速是近几年的研究热点,现有专用硬件包括AI芯片、AI处理器、AI加速器、基于FPGA的神经网络等。然而,上述专用硬件均为基于数字电路实现,为了模仿神经元,需要先将神经元之间的连接树突离散为在0-1之间的数字权重,然后进行模拟计算;此外,数字乘法器负责完成神经网络中的大量的乘法计算,是神经网络加速的核心环节,数字乘法器在时钟的节拍控制下工作,最小的延迟下每个时钟完成几次乘法计算,计算速度较慢。
随着可编程模拟器件(PDA)的发展,出现了现场可编程模拟阵列(FPAA)。由于FPAA既具有模拟电路经济、简洁、低功耗以及高速的优点,又具有现场可编程配置能力,因此在各领域中应用逐渐增多。采用FPAA实现神经网络计算,模拟电路天然连续,可以比数字电路更完美的实现对神经网络的仿生;此外,采用模拟电路可以比数字电路更迅速的完成乘加计算。然而,现有技术中未将FPAA应用于专利分类过程中。
发明内容
有鉴于此,本申请提供了一种基于FPAA的推断加速器构建方法,以解决现有技术中存在的技术缺陷,提高专利分类的准确度和计算的速度、效率。
为实现上述目的,本发明提供一种基于FPAA的推断加速器构建方法,所述FPAA包括多个可编程模拟单元、输入输出单元、存储器和所述多个可编程模拟单元之间的互连网络,推断加速器构建方法具体包括:
步骤A1:接收待分类的专利数据和神经网络模型,从所述待分类的专利数据中提取专利信息;
步骤A2:至少根据所述专利信息和所述神经网络模型,将至少两个可编程模拟单元进行分组,以构成与所述专利信息对应的多个运算模块,其中,每个运算模块包含至少两个可编程模拟单元;
步骤A3:至少根据各运算模块中所述至少两个可编程模拟单元的位置确定各运算模块中所述至少两个可编程模拟单元的互连网络;
步骤A4:连接运算模块的输出以构成推断加速器。
优选地,所述专利信息包括:著录信息,文本信息,和/或图片信息;
所述步骤A2包括:
将至少两个可编程模拟单元分为至少两组,以构成分别与所述著录信息,所述文本信息,和/或所述图片信息相对应的运算模块。
优选地,所述步骤A2,包括:
根据所述专利信息确定每一个运算模块中的运算类型和运算次数;
基于所述运算类型和所述运算次数,确定每一个运算模块中所需要的子模块类型和子模块数目;
根据所述子模块类型和所述子模块数目,将多个可编程模拟单元进行分组,以构成每一个运算模块中的所述子模块。
优选地,所述步骤A3包括:
根据所述运算模块中所述可编程模拟单元的分组情况、可编程模拟单元的位置关系、运算模块的运算过程计算运算距离,以所述运算距离为极小值时的分组情况及位置关系作为可编程模拟单元的互连网络。
优选地,所述步骤A4包括:
所述运算模块包括:著录信息运算模块、文本信息运算模块、和/或图片信息运算模块;
为运算模块的输出信号设置权重值和权限值,所述权限值用于确定候选类别,所述权重值用于从所述候选类别中确定专利数据所属类别;
连接所述运算模块的输出端,构成所述推断加速器。
为实现上述目的,本发明还提供一种专利自动分类方法,包括:
步骤B1:获取待分类的专利数据;
步骤B2:将所述待分类的专利数据输入至神经网络计算模块;
步骤B3:所述神经网络计算模块输出所述待分类专利的类别;
其中,所述神经网络计算模块包含如上文所述的推断加速器方法构建的推断加速器。
优选地,所述步骤B3包括:
从所述待分类的专利数据中提取著录信息和文本信息、和/或图片信息;
利用与著录信息和文本信息、和/或图片信息对应的运算模块分别计算专利类别对应的置信度;
融合运算模块的输出信号以确定所述专利数据对应的专利类别;
所述融合运算模块的输出信号以确定所述专利数据对应的专利类别,具体包括:
基于著录信息对应的运算模块的输出信号确定所述专利数据对应的候选类别;
基于与文本信息对应的运算模块的输出信号从所述候选类别中确定所述专利数据的类别,或,
基于与文本信息对应的运算模块的输出及其对应的权重值、与图片信息对应的运算模块的输出及其对应的权重从所述候选类别中确定所述专利数据的类别。
优选地,利用文本信息对应的运算模块计算专利类别对应的置信度,包括:
从待分类的专利数据中提取出标题、摘要、权利要求、背景技术、发明内容、具体实施方式;
根据所述标题和所述摘要,输出专利类别对应的置信度;
判断所述置信度大于阈值的专利类别数目是否超过预设值;
若是,则增加权利要求、背景技术、发明内容、具体实施方式中的一项或多项,再次对所述专利数据进行分类;
若否,则输出专利类别及其对应的置信度。
为实现上述目的,本发明还提供一种推断加速器,包括:由上文所述的基于FPAA的推断加速器构建方法中的任一种方法构建的推断加速器。
为实现上述目的,本发明还提供一种专利自动分类系统,包括:一个或多个处理器;非暂态存储器;以及存储在所述非暂态存储器中的一个或多个程序,所述一个或多个程序在由所述一个或多个处理器执行时使得所述专利自动分类系统执行上文所述的专利自动分类方法中的任一种方法。
本发明提供了一种基于FPAA的推断加速器构建方法,提高了专利自动分类的运算速度。本发明先接收待分类的专利数据和神经网络模型,从待分类的专利数据中提取出专利信息;然后将多个可编程模拟单元进行分组,以构成与专利信息对应的多个运算模块,针对不同类型的专利信息,充分利用FPAA现场可编程能力,构建专属于该类数据的运算模块,可以最大限度发挥FPAA的计算能力,提高计算的速度和效率;至少根据各运算模块中至少两个可编程模拟单元的位置确定各运算模块中至少两个可编程模拟单元的互连网络;最后连接各运算模块的输出以构成推断加速器,融合各运算模块的输出确定待分类专利的类别,本发明专利分类的结果融合了各运算模块的输出,一方面在FPAA上重构专用模块计算特定类型信息,大大提高了计算的速度,另一方面区别于仅使用一类信息对专利进行分类,多类信息的综合利用及其融合方式的设置提高了分类的准确度。
附图说明
图1是本发明中基于FPAA的推断加速器构建方法的流程图;
图2是本发明中运算模块的结构示意图;
图3是本发明中专利自动分类方法的流程图;
图4是本发明中基于FPAA的推断加速器构建装置的结构示意图;
图5是本发明中专利自动分类装置的结构示意图。
具体实施方式
下面结合附图对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术的发展和新场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
实施例1
可编程模拟阵列(FPAA)具有现场重复可编程功能,可以由编程实现任意的模拟电路;FPAA包括可编程模拟单元、输入输出单元、存储器和互连网络。
为解决传统专利分类方式准确率不高,速度较慢的技术问题,本发明实施例提供一种基于FPAA的推断加速器构建方法。所述推断加速器应用于基于神经网络模型的专利分类,如图1所示,构建方法包含如下步骤:
步骤A1:接收待分类的专利数据和神经网络模型,从所述待分类的专利数据中提取专利信息。
作为一种可能的实施例,待分类的专利包含时间、标题、附图等多种类型的信息,为提高分类的准确性,本发明从专利数据中提取出多种类型的信息。根据信息的属性,将待分类的专利的信息分为三类:著录信息、文本信息和图片信息。著录信息包括:申请日、IPC分类号、CPC分类号中一项或多项;文本信息包括:标题、摘要、权利要求、技术领域、背景技术、具体实施方式中一项或多项;图片包括:摘要附图、说明书附图中一项或多项。
作为一种可能的实施例,从待分类的专利数据中提取出著录信息和文本信息。
进一步地,还可以从待分类的专利数据中提取出图片信息。
多种类型的信息的综合利用有助于提高分类的准确度,将待分类专利的信息分类提取,有助于构建针对特定类型信息的运算模块,充分发挥FPAA的计算能力,提高专利分类的速度。
步骤A2:至少根据所述专利信息和所述神经网络模型,将至少两个可编程模拟单元进行分组,以构成与所述专利信息对应的多个运算模块,其中,每个运算模块包含至少两个可编程模拟单元。
作为一种可能的实施例,与提取不同类型的信息相对应地,将至少两个可编程模拟单元分为至少两组,以构成分别与著录信息和文本信息、和/或图片信息相对应的运算模块。
作为一种可能的实施例,将可编程模拟单元进行分组,以构成著录信息对应的运算模块,用于实现著录信息分类的运算加速;同时还构成文本信息对应的运算模块,用于实现文本信息分类的运算加速。文本信息的分类通常包含分词与语义提取,其分类过程的计算比著录信息分类更为复杂,相比于著录信息的分类计算,其需要使用更多的可编程模拟单元,为文本信息单独重组运算模块,相较于利用统一的可编程模拟单元组进行分类运算加速,可以在每一次计算中,充分运用到各自运算模块中所有的可编程模拟单元,使得每一个运算模块中的可编程模拟单元不出现闲置的情况,提高运算加速效果。
进一步地,若专利数据中包含图片信息,则可编程模拟单元进行分组还包括,构成图片信息对应的运算模块,本发明将著录、文本和图片分类过程分开,基于著录信息、文本信息、图片信息各自的数据特点、适应应用不同的分类模型或神经网络模型进行计算,相较于所有类型信息混合分类运算,提高了运算速度,进一步提高了加速器的加速效果。
作为一种可能的实施例,每一个运算模块均用于特定类型的信息的分类运算,例如运算模块A用于著录信息的分类运算、运算模块B用于文本信息的分类运算、运算模块C用于图片信息的分类运算,其中,为了实现对多个著录信息同时分类计算,还可以包含与多个与著录信息分类运算分别对应的运算模块A1、A2、A3…。
作为一种可能的实施例,如图2所示,每一个运算模块由一个或多个子模块构成,子模块由一个或多个可编程模拟单元构成,以实现乘法、加法等运算,例如,运算模块中可以包含一个或多个乘法子模块和一个或多个加法子模块。
进一步地,在对可编程模拟单元进行分组时,根据从待分类的专利数据中提取出的专利信息,首先确定每一个运算模块中所涉及的运算类型和各运算类型需要进行的运算次数;例如,与著录信息相对应的运算模块包含m次乘法运算和n次加法运算。然后基于运算类型和运算次数,确定每一个运算模块中所需要的子模块类型和子模块数目,子模块用于实现神经网络运算过程中的乘法运算或加法运算,例如,著录信息对应的运算模块中需要包含m个乘法子模块和n个加法子模块。最后至少根据所需要的子模块类型和子模块数目,将多个可编程模拟单元进行分组,以构成每一个运算模块中的子模块。
作为一种可能的实施例,在对可编程模拟进行分组时,首先确定对于各个类型的专利信息,各个运算模块中需要使用的可编程模拟单元的数目,各个运算模块中需要使用的可编程模拟单元的数目由各个运算模块中的子模块中使用到的可编程模拟单元的数目组成;然后基于需要使用的可编程模拟单元的数目和可编程模拟单元的位置,为可编程模拟单元设置身份标识;根据身份标识将需要使用的可编程模拟单元分组至特定运算模块中的子模块中,基于专利分类的计算过程,选择特定数目的可编程模拟单元,将其按特定组合方式进行重构,构成了专用的运算模块,充分利用了FPAA的可编程能力和可编程模拟单元,提高了运算的速度。
具体来说,首先确定著录信息、文本信息和图片信息对应的运算模块中分别需要使用N1、N2和N3个可编程模拟单元,分别由N1、N2、N3个可编程模拟单元构成对应运算模块中的乘法子模块和加法子模块。然后选择N(N=N1+N2+N3)个可编程模拟单元,并根据可编程模拟单元摆放位置的相对关系,为可编程模拟单元设置身份标识,标识其隶属于哪一个运算模块的哪一个子模块,例如著录运算模块乘法子模块1、著录运算模块乘法子模块2、…、著录运算模块乘法子模块m。根据身份标识将需要使用的可编程模拟单元分组至特定运算模块中的子模块中。由于信息类型的不同,其分类所需的计算过程也并不相同,因此,不同专利信息对应的运算模块中可编程模拟单元的数量和连接结构各不相同,利用身份标识进行可编程模拟单元的分组,便于可编程模拟单元的身份识别,也有利于后续步骤中快速连接同一个子模块中的可编程模拟单元,提升了加速器中各运算单元构建的速度。
步骤A3:至少根据各运算模块中所述至少两个可编程模拟单元的位置确定各运算模块中所述至少两个可编程模拟单元的互连网络。
作为一种可能的实施例,根据所述运算模块中所述可编程模拟单元的分组情况、可编程模拟单元的位置关系、运算模块的运算过程计算运算距离,以所述运算距离为极小值时的分组情况及位置关系作为可编程模拟单元的互连网络。
作为一种可能的实施例,各可编程模拟单元完成分组后,具有身份标识,根据身份标识确定同一个运算模块的子模块中可编程模拟单元的互连网络。在确定子模块内的互连网络时,综合考虑运算过程、可编程模拟单元的位置。以同一个子模块中可编程模拟单元互连网络线路最短为目标,例如,著录信息对应的运算模块包含子模块:乘法子模块1、乘法子模块2、加法子模块、…,乘法子模块1与乘法子模块2的输出为加法子模块的输入。计算子模块内互连网络的运算距离,以运算距离最小为目标,乘法子模块1的运算过程包括的数据输入输出关系为约束,选择邻近未使用的可编程模拟单元构成乘法子模块1;同理确定可编程模拟单元之间的互连网络以构成乘法子模块2、加法子模块、…。子模块内的互连网络确定后,进一步根据数据输入输出关系和运算逻辑,确定子模块之间的互连网络。循环上述过程,确定各个运算模块的可编程模拟单元的连接关系,构成互连网络。本发明在运算模块构建过程中,除数据输入输出关系和运算逻辑外,还综合考虑了互连网络的运算距离,以运算距离最小为目标,优化了可编程模拟单元的连接方式,降低了运算模块内部线路连接的复杂度。
步骤A4:连接运算模块的输出以构成推断加速器。
作为一种可能的实施例,所述运算模块包括:著录信息运算模块、文本信息运算模块、和/或图片信息运算模块;为运算模块的输出信号设置权重值和权限值,所述权限值用于确定候选类别,所述权重值用于从所述候选类别中确定专利数据所属类别;连接所述运算模块的输出端,构成所述推断加速器。本发明对著录信息、文本信息和图片信息分别进行分类运算,其运算结果对专利数据所属专利类别的影响程度不同,通过权重值和权限值的组合设置,可以调整著录信息、文本信息和图片信息对最后分类结果的影响。对于不同领域,著录信息、文本信息和图片信息对于分类结果有不同的干预作用;综合运用多类信息获得分类结果,提高了分类的准确程度。
进一步地,权限值用于表征其是否具有类别排除权限,权限值可以为预先设置,也可以根据专利数据的领域进行调整,著录信息得到的分类运算结果可用于排除噪音,确定专利数据不属于哪一类别,具有较高的权限值,例如,著录信息对应的运算模块的输出的权限值可以设置为1,文本信息和图片信息可以设置为0。权重值用于表征运算模块输出对最终分类结果的影响程度,权重值可以为预先设置,也可以根据专利数据的领域进行调整,例如当没有图片信息时,文本信息对应的运算模块的输出的权限值可以设置为1;当同时包含文本信息和图片信息时,文本信息对应的运算模块的输出的权限值可以设置为0.8,图片信息可以设置为0.2,著录信息可以设置为0。融合各运算模块的输出,确定各个类别的置信度。
作为一种可能的实施例,基于FPAA的推断加速器构建方法还包括:步骤A5:利用推断加速器确定待分类的专利数据所属的类别。
实施例2
为解决传统专利分类方式准确率不高,速度较慢的技术问题,本发明另一实施例提供一种专利自动分类方法,所述专利自动分类方法应用了上文所述的推断加速器构建方法构建的推断加速器。如图3所示,专利自动分类方法包含如下步骤:
步骤B1:获取待分类的专利数据;
步骤B2:将所述待分类的专利数据输入至神经网络计算模块;
步骤B3:所述神经网络计算模块输出所述待分类专利的类别。
作为一种可能的实施例,从所述待分类的专利数据中提取著录信息和文本信息、和/或图片信息;利用与著录信息和文本信息、和/或图片信息对应的运算模块分别计算专利类别对应的置信度;融合运算模块的输出信号以确定所述专利数据对应的专利类别。其中,著录信息包括:申请日、IPC分类号、CPC分类号中一项或多项;文本信息包括:标题、摘要、权利要求、技术领域、背景技术、具体实施方式中一项或多项;图片信息包括:摘要附图、说明书附图中一项或多项。
作为一种可能的实施例,利用文本信息对应的运算模块计算类别对应的置信度时,由于文字篇幅较长,导致文本信息的分类运算过程耗时较大。为进一步提高推断加速器的运算速度,文本信息分类运算时,从待分类的专利数据中提取出标题、摘要、权利要求、背景技术、发明内容、具体实施方式;根据所述标题和所述摘要,输出专利类别对应的置信度;判断所述置信度大于阈值的专利类别数目是否超过预设值;若是,则进一步逐次增加权利要求、背景技术、发明内容、具体实施方式,循环进行分类计算;若否,则输出专利类别及其对应的置信度。本发明在文本信息分类过程中,首先通过标题和摘要信息进行初步分类计算,利用较少的文本信息得到符合条件的分类计算结果,则不进行大篇幅文字的分类运算,在保证文本信息分类精度的同时,缩短了文本信息分类运算过程的耗时,进一步提高了推断加速器的运算速度。
作为一种可能的实施例,融合各运算模块的输出确定待分类专利的类别,包括:基于著录信息对应的运算模块的输出信号确定所述专利数据对应的候选类别;基于与文本信息对应的运算模块的输出信号从所述候选类别中确定所述专利数据的类别,或,基于与文本信息对应的运算模块的输出及其对应的权重值、与图片信息对应的运算模块的输出及其对应的权重从所述候选类别中确定所述专利数据的类别。
进一步地,推断加速器中运算模块的输出对应设置有权重值和权限值;权限值用于表征其是否具有类别排除权限,权重值用于表征运算模块输出对最终分类结果的影响程度。基于权限值和权重值的组合设置,著录信息对应的输出具有排除权限,从各专利类别中排除一定不属于的类别,得到待分类专利对应的候选类别;当专利数据中不存在图片信息时,基于与文本信息对应的运算模块的输出信号从候选类别中确定待分类专利的类别;当专利数据存在图片信息时,基于与文本信息对应的运算模块的输出信号及其对应的权重值、与图片信息对应的运算模块的输出信号及其对应的权重值从候选类别中确定待分类专利的类别。
进一步地,当专利数据中不存在图片信息时,选择文本信息对应的输出中候选类别范围内置信度最高的类别作为待分类专利的类别;当专利数据存在图片信息时,在候选类别的范围内,基于文本信息和图片信息输出的各类别的置信度与文本信息和图片信息输出权重值乘积之和确定候选类别范围内各类别的综合置信度,以综合置信度最高的类别作为待分类专利的类别。
上述详细阐述了本申请实施例的方法,为了便于更好的实施本申请实施例的上述方案,相应地,下面还提供用于配合实施上述方案的相关装置和加速器、分类系统。
实施例3
本发明另一实施例提供一种基于FPAA的推断加速器构建装置,如图4所示,构建装置包括:接收单元、分组单元、连接单元和融合单元。进一步地,接收单元包括信息提取子单元;分组单元包括数目确定子单元和分组确定子单元。
接收单元,用于接收待分类的专利数据和神经网络模型,从所述待分类的专利数据中提取专利信息;分组单元,用于至少根据所述专利信息和所述神经网络模型,将至少两个可编程模拟单元进行分组,以构成与所述专利信息对应的多个运算模块,其中,每个运算模块包含至少两个可编程模拟单元;连接单元,用于至少根据各运算模块中所述至少两个可编程模拟单元的位置确定各运算模块中所述至少两个可编程模拟单元的互连网络;融合单元,用于连接运算模块的输出以构成推断加速器。
作为一种可能的实施例,接收单元中:信息提取子单元,用于从待分类的专利数据中提取出著录信息、文本信息、和/或图片信息。
作为一种可能的实施例,分组单元用于将至少两个可编程模拟单元分为至少两组,以构成分别与所述著录信息,所述文本信息,和/或所述图片信息相对应的运算模块。
作为一种可能的实施例,分组单元中:数目确定子单元,用于根据所述专利信息确定每一个运算模块中的运算类型和运算次数,还用于基于所述运算类型和所述运算次数,确定每一个运算模块中所需要的子模块类型和子模块数目;分组确定子单元,用于根据所述子模块类型和所述子模块数目,将多个可编程模拟单元进行分组,以构成每一个运算模块中的所述子模块。
作为一种可能的实施例,连接单元,用于根据所述运算模块中所述可编程模拟单元的分组情况、可编程模拟单元的位置关系、运算模块的运算过程计算运算距离,以所述运算距离为极小值时的分组情况及位置关系作为可编程模拟单元的互连网络。
作为一种可能的实施例,融合单元,用于为运算模块的输出信号设置权重值和权限值,其中,权限值用于确定候选类别,权重值用于从所述候选类别中确定专利数据所属类别,还用于连接所述运算模块的输出端,构成所述推断加速器。
作为一种可能的实施例,推断加速器构建装置还包括:分类单元,用于利用所述推断加速器确定所述待分类的专利数据所属的类别。
实施例4
本发明另一实施例提供一种专利自动分类装置,如图5所示,包括:输入单元、传输单元和神经网络计算单元。进一步地,神经网络计算单元包括:分类提取子单元、计算子单元和输出子单元。
作为一种可能的实施例,输入单元,用于获取待分类的专利数据;传输单元,用于将所述待分类的专利数据输入至神经网络计算模块;神经网络计算单元,用于所述神经网络计算模块输出所述待分类专利的类别;其中,所述神经网络计算单元包含如上文推断加速器构建装置构建的推断加速器。
作为一种可能的实施例,神经网络计算单元中分类提取子单元,用于从所述待分类的专利数据中提取著录信息和文本信息、和/或图片信息;计算子单元,用于利用与著录信息和文本信息、和/或图片信息对应的运算模块分别计算专利类别对应的置信度;输出子单元,用于融合运算模块的输出信号以确定所述专利数据对应的专利类别。
本文所公开的各种具体实施包括推断加速器,推断加速器由上述构建方法构建。本文所公开的各种具体实施包括存储一个或多个程序的非暂态存储器以及专利自动分类系统,专利自动分类系统包括:一个或多个处理器;非暂态存储器;以及存储在所述非暂态存储器中的一个或多个程序,所述一个或多个程序在由所述一个或多个处理器执行时使得所述专利自动分类系统执行上述专利自动分类方法。为了简洁起见,这里不再赘述。
虽然上文描述了在所附权利要求书范围内的具体实施的各个方面,但是应当显而易见的是,上述具体实施的各种特征可通过各种各样的形式体现,并且上述任何特定结构和/或功能仅是例示性的。基于本公开,本领域的技术人员应当理解,本文所述的方面可以独立于任何其他方面来实现,并且这些方面中的两个或更多个可以采用各种方式组合。例如,可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外,除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面,可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于FPAA的推断加速器构建方法,所述FPAA包括多个可编程模拟单元、输入输出单元、存储器和所述多个可编程模拟单元之间的互连网络,其特征在于:
步骤A1:接收待分类的专利数据和神经网络模型,从所述待分类的专利数据中提取专利信息;
步骤A2:至少根据所述专利信息和所述神经网络模型,将至少两个可编程模拟单元进行分组,以构成与所述专利信息对应的多个运算模块,其中,每个运算模块包含至少两个可编程模拟单元;
步骤A3:至少根据各运算模块中所述至少两个可编程模拟单元的位置确定各运算模块中所述至少两个可编程模拟单元的互连网络;
步骤A4:连接运算模块的输出以构成推断加速器。
2.根据权利要求1所述的基于FPAA的推断加速器构建方法,其特征在于,所述专利信息包括:著录信息,文本信息,和/或图片信息;
所述步骤A2包括:
将至少两个可编程模拟单元分为至少两组,以构成分别与所述著录信息,所述文本信息,和/或所述图片信息相对应的运算模块。
3.根据权利要求1所述的基于FPAA的推断加速器构建方法,其特征在于,所述步骤A2,包括:
根据所述专利信息确定每一个运算模块中的运算类型和运算次数;
基于所述运算类型和所述运算次数,确定每一个运算模块中所需要的子模块类型和子模块数目;
根据所述子模块类型和所述子模块数目,将多个可编程模拟单元进行分组,以构成每一个运算模块中的所述子模块。
4.根据权利要求1所述的基于FPAA的推断加速器构建方法,其特征在于,所述步骤A3包括:
根据所述运算模块中所述可编程模拟单元的分组情况、可编程模拟单元的位置关系、运算模块的运算过程计算运算距离,以所述运算距离为极小值时的分组情况及位置关系作为可编程模拟单元的互连网络。
5.根据权利要求1所述的基于FPAA的推断加速器构建方法,其特征在于,所述步骤A4包括:
所述运算模块包括:著录信息运算模块、文本信息运算模块、和/或图片信息运算模块;
为运算模块的输出信号设置权重值和权限值,所述权限值用于确定候选类别,所述权重值用于从所述候选类别中确定专利数据所属类别;
连接所述运算模块的输出端,构成所述推断加速器。
6.一种专利自动分类方法,其特征在于,所述专利自动分类方法包括:
步骤B1:获取待分类的专利数据;
步骤B2:将所述待分类的专利数据输入至神经网络计算模块;
步骤B3:所述神经网络计算模块输出所述待分类专利的类别;
其中,所述神经网络计算模块包含如权利要求1-5中任一项所述的推断加速器方法构建的推断加速器。
7.根据权利要求6所述的专利自动分类方法,其特征在于,所述步骤B3包括:
从所述待分类的专利数据中提取著录信息和文本信息、和/或图片信息;
利用与著录信息和文本信息、和/或图片信息对应的运算模块分别计算专利类别对应的置信度;
融合运算模块的输出信号以确定所述专利数据对应的专利类别;
所述融合运算模块的输出信号以确定所述专利数据对应的专利类别,具体包括:
基于著录信息对应的运算模块的输出信号确定所述专利数据对应的候选类别;
基于与文本信息对应的运算模块的输出信号从所述候选类别中确定所述专利数据的类别,或,
基于与文本信息对应的运算模块的输出及其对应的权重值、与图片信息对应的运算模块的输出及其对应的权重从所述候选类别中确定所述专利数据的类别。
8.根据权利要求7所述的专利自动分类方法,其特征在于,利用文本信息对应的运算模块计算专利类别对应的置信度,包括:
从待分类的专利数据中提取出标题、摘要、权利要求、背景技术、发明内容、具体实施方式;
根据所述标题和所述摘要,输出专利类别对应的置信度;
判断所述置信度大于阈值的专利类别数目是否超过预设值;
若是,则增加权利要求、背景技术、发明内容、具体实施方式中的一项或多项,再次对所述专利数据进行分类;
若否,则输出专利类别及其对应的置信度。
9.一种推断加速器,包括:由权利要求1至5中任一项所述的基于FPAA的推断加速器构建方法构建的推断加速器。
10.一种专利自动分类系统,包括:一个或多个处理器;非暂态存储器;以及存储在所述非暂态存储器中的一个或多个程序,所述一个或多个程序在由所述一个或多个处理器执行时使得所述专利自动分类系统执行权利要求6至8中任一项所述的专利自动分类方法。
CN202010957715.1A 2020-09-14 2020-09-14 一种基于fpaa的推断加速器构建方法 Pending CN111813945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010957715.1A CN111813945A (zh) 2020-09-14 2020-09-14 一种基于fpaa的推断加速器构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010957715.1A CN111813945A (zh) 2020-09-14 2020-09-14 一种基于fpaa的推断加速器构建方法

Publications (1)

Publication Number Publication Date
CN111813945A true CN111813945A (zh) 2020-10-23

Family

ID=72860062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010957715.1A Pending CN111813945A (zh) 2020-09-14 2020-09-14 一种基于fpaa的推断加速器构建方法

Country Status (1)

Country Link
CN (1) CN111813945A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579749A (zh) * 2022-03-11 2022-06-03 北京中知智慧科技有限公司 专利数据的cpc分类方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106648883A (zh) * 2016-09-14 2017-05-10 上海鲲云信息科技有限公司 基于 fpga 的动态可重构硬件加速方法及系统
CN108873701A (zh) * 2018-07-17 2018-11-23 浙江大学 一种基于fpaa模拟神经网络的空分装置快速模型预测控制方法
CN109726807A (zh) * 2017-10-31 2019-05-07 上海寒武纪信息科技有限公司 神经网络处理器、运算方法及存储介质
CN109726299A (zh) * 2018-12-19 2019-05-07 中国科学院重庆绿色智能技术研究院 一种不完备专利自动标引方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106648883A (zh) * 2016-09-14 2017-05-10 上海鲲云信息科技有限公司 基于 fpga 的动态可重构硬件加速方法及系统
CN109726807A (zh) * 2017-10-31 2019-05-07 上海寒武纪信息科技有限公司 神经网络处理器、运算方法及存储介质
CN108873701A (zh) * 2018-07-17 2018-11-23 浙江大学 一种基于fpaa模拟神经网络的空分装置快速模型预测控制方法
CN109726299A (zh) * 2018-12-19 2019-05-07 中国科学院重庆绿色智能技术研究院 一种不完备专利自动标引方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579749A (zh) * 2022-03-11 2022-06-03 北京中知智慧科技有限公司 专利数据的cpc分类方法及装置

Similar Documents

Publication Publication Date Title
CN113159095B (zh) 一种训练模型的方法、图像检索的方法以及装置
CN110442718A (zh) 语句处理方法、装置及服务器和存储介质
CN110287961A (zh) 中文分词方法、电子装置及可读存储介质
CN111339935B (zh) 一种基于可解释cnn图像分类模型的光学遥感图片分类方法
CN109918501A (zh) 新闻文章分类的方法、装置、设备及存储介质
CN111143567B (zh) 一种基于改进神经网络的评论情感分析方法
CN107122492A (zh) 基于图片内容的歌词生成方法和装置
CN108733644A (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN109800309A (zh) 课堂话语类型分类方法及装置
CN107293308A (zh) 一种音频处理方法及装置
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN110263127A (zh) 基于用户查询词进行文本搜索方法及装置
CN114925238A (zh) 一种基于联邦学习的视频片段检索方法及系统
CN116263849A (zh) 注塑工艺参数处理方法、装置及计算设备
CN111539612A (zh) 一种风险分类模型的训练方法和系统
CN115017987A (zh) 语言模型微调方法、文本分类方法、装置及设备
CN111813945A (zh) 一种基于fpaa的推断加速器构建方法
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN115758222A (zh) 信号类别识别方法、装置、电子设备及存储介质
CN109740163A (zh) 应用于深度学习模型的语义表示资源生成方法及装置
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
Imad et al. Automated Arabic News Classification using the Convolutional Neural Network.
CN114860878A (zh) 实体链指方法、装置、电子装置及存储介质
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
CN114139482A (zh) 一种基于深度度量学习的eda电路失效分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201023