CN117609902B - 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统 - Google Patents

一种基于图文多模态双曲嵌入的专利ipc分类方法及系统 Download PDF

Info

Publication number
CN117609902B
CN117609902B CN202410069639.9A CN202410069639A CN117609902B CN 117609902 B CN117609902 B CN 117609902B CN 202410069639 A CN202410069639 A CN 202410069639A CN 117609902 B CN117609902 B CN 117609902B
Authority
CN
China
Prior art keywords
text
hyperbolic
ipc
model
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410069639.9A
Other languages
English (en)
Other versions
CN117609902A (zh
Inventor
冯好国
范娥媚
徐青伟
严长春
裴非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinghe Zhiyuan Technology Co.,Ltd.
Original Assignee
Beijing Zhiguagua Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiguagua Technology Co ltd filed Critical Beijing Zhiguagua Technology Co ltd
Priority to CN202410069639.9A priority Critical patent/CN117609902B/zh
Publication of CN117609902A publication Critical patent/CN117609902A/zh
Application granted granted Critical
Publication of CN117609902B publication Critical patent/CN117609902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图文多模态双曲嵌入的专利IPC分类方法及系统,该方法包括专利图文多模态双曲嵌入的处理及IPC多标签分类的处理:专利图文多模态双曲模型训练数据集构建,利图文多模态双曲模型训练,应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;构建IPC多标签分类模型训练数据集构建,进行IPC多标签分类模型训练;利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。本发明采用的专利图文多模态不仅表征了文本的语义特征,还挖掘出附图的语义特征,综合利用附图文本的整体语义特征对专利进行分类,提高了IPC分类效率和准确率。

Description

一种基于图文多模态双曲嵌入的专利IPC分类方法及系统
技术领域
本发明涉及文本图形分类处理技术领域,具体涉及一种基于图文多模态双曲嵌入的专利IPC分类方法及系统。
背景技术
专利文献申请时需要依据其技术内容进行国际专利分类划分。人工方式划分给专利审查员带来了巨大的工作量。一种基于SBERT的中文专利IPC分类方法(公开号为CN115758244A的中国专利公开文本)采用具有孪生结构的SBERT作为中文专利自动分类的框架,将专利文本和IPC分类表中的分类术语描述为两路数据输入SBERT,通过BERT实现对两路文本的向量化编码,然后由得到的两路向量相近程度来判断真实专利的类别,还能够给出多个IPC分类号。一种专利文本多标签分类方法(公开号为CN113849655B的中国专利公开文本),首先将IPC标签文本描述向量化来表示IPC标签向量,将训练集中的IPC标签共现关系矩阵作为标签之间的关联矩阵,再基于上述矩阵得到融合标签关联关系的IPC标签表示矩阵,最后将专利文本的不同角度的特征表示融合后得到文本特征矩阵与IPC标签矩阵相乘得到标签分数矩阵,通过激活层归一化得到各个标签的概率。一种基于知识图谱的专利IPC分类号推荐方法及装置(公开号为CN114357086A的中国专利文本)构建专利知识图谱,利用TransE模型对图谱中的实体进行向量化表示,得到发明名称的向量化表示;利用发明名称的向量化表示计算查询专利与数据库中各专利之间的相似度,将于查询专利相似度最高的M件专利作为推荐的类似专利;将类似专利中出现次数数量高的N个IPC分类号作为推荐的IPC分类号。
人工分析专利进行IPC划分耗时长、效率低,给专利审查员带来了巨大的工作量。一种基于SBERT的中文专利IPC分类方法(公开号为CN115758244A的中国专利公开文本)采用的是欧几里得或球面空间向量编码,未考虑IPC标签共现关系。一种专利文本多标签分类方法(公开号为CN113849655B的中国专利公开文本)对专利文本采用欧几里得或球面空间向量编码。一种基于知识图谱的专利IPC分类号推荐方法及装置(公开号为CN114357086A的中国专利文本)抽取实体利用TransE模型向量化,也属于欧几里得或球面空间编码,没有利用附图及图文多模态信息,未考虑IPC标签共现关系。
面对每年数量巨大的专利申请量,需要采用新的技术方案,以提高IPC分类效率和准确率。
发明内容
鉴于此,本发明提供了一种基于图文多模态双曲嵌入的专利IPC分类方法及系统,以提高IPC分类效率和准确率。
为了实现上述目的,本发明提供如下技术方案:
本发明一方面提供了一种基于图文多模态双曲嵌入的专利IPC分类方法,包括专利图文多模态双曲嵌入的处理阶段及IPC多标签分类的处理阶段;
专利图文多模态双曲嵌入的处理阶段包括:
专利图文多模态双曲模型训练数据集构建,预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集;
建立专利图文多模态双曲模型:该模型包括基于残差网络ResNet实现的图像编码器;基于转换器Transformer实现的文本编码器;通过前馈神经网络实现的线性映射部件;通过模型训练学习到的两个模型参数的学习缩放参数 和/>,用于避免经指数映射后数值发生溢出;
专利图文多模态双曲模型训练,基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集;附图文本对分别通过附图编码器及文本编码器生成附图向量和文本向量/>;所述文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示/>和附图双曲嵌入表示/>;将所有附图文本对的附图双曲嵌入表示/>和文本双曲嵌入表示/>,以成对的形式输入预设的神经网络模型,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量;模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数;按照预定次数进行迭代,得到训练好的专利图文多模态双曲模型并保存;
应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;
所述IPC多标签分类的处理阶段包括如下步骤:
IPC多标签分类模型训练数据集构建,预处理IPC分类体系构建IPC信息字典,读取样本库专利文献中的IPC分类信息,结合IPC信息字典,获取到附图文本对的IPC分类标签;将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出得到附图文本对双曲嵌入表示;利用所述附图文本对双曲嵌入表示和所述IPC分类标签,构建IPC多标签分类模型训练数据集;
利用所述IPC多标签分类模型训练数据集进行IPC多标签分类模型训练:
选取支持多分类的机器学习模型,将所构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;迭代执行达到迭代次数阈值止,得到训练好的IPC多标签分类模型;
利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。
更适宜地,所述应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,具体包括:
对待加工专利文献,基于所述专利图文多模态双曲数据集构建方法进行处理,构建待加工专利文献附图文本对;
将待加工专利附图文本对输入专利图文多模态双曲模型;
模型输出待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,所述双曲嵌入表示指双曲空间的向量。
更适宜地,所述IPC多标签分类模型训练数据集构建步骤,具体包括:
步骤S31,在小组层级预处理IPC分类体系构建IPC小组信息字典;
步骤S32,读取样本库专利文献中的IPC分类信息,结合IPC小组信息字典,获取到附图文本对的IPC分类标签。
步骤S33:将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示/>,拼接后得到附图文本对双曲嵌入表示/>
步骤S31,利用步骤S33得到的附图文本对双曲嵌入表示和步骤S32得到的IPC分类标签,构建IPC多标签分类模型训练数据集。
更适宜地,所述利用IPC多标签分类模型训练数据集进行IPC多标签分类模型训练,具体包括:
步骤S41,选取支持多分类的机器学习模型,包括CNN+Softmax,交叉熵损失;
步骤S42,将依据所述IPC多标签分类模型训练数据集构建方构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,进行训练。
步骤S43,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数。
步骤S44,迭代执行步骤S42和步骤S43,直到达到迭代次数阈值止;
步骤S45,返回训练好的IPC多标签分类模型。
优选地,迭代次数阈值为大于32的整数。
更适宜地,所述利用IPC多标签分类模型对待加工专利文献进行IPC多标签分类,包括:
应用专利图文多模态双曲模型,得到待加工专利文献的所有附图文本对的每一张附图双曲嵌入表示和每一个文本双曲嵌入表示/>,拼接得到每一附图文本对的双曲嵌入表示/>;将附图文本对的双曲嵌入表示/>输入IPC多标签分类模型,得到前N个IPC多标签分类结果;
汇总并依据IPC标签频度,如果频度相同则依据概率值,对待加工专利文献所有附图文本对的IPC标签降序排序,获取前N个IPC标签及其频度及概率值。
优选地,所述通过前馈神经网络实现的线性映射部件,采用两层前馈神经网络实现。
本发明另一方面,提供了一种基于图文多模态双曲嵌入的专利IPC分类系统,包括专利图文多模态双曲模型训练和应用模块和IPC多标签分类模型训练和应用模块;
专利图文多模态双曲模型训练和应用模块执行如下处理:专利图文多模态双曲模型训练数据集构建、建立专利图文多模态双曲模型、专利图文多模态双曲模型训练和专利图文多模态双曲模型应用;
所述专利图文多模态双曲模型训练数据集构建,预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集;
建立专利图文多模态双曲模型,该模型包括基于残差网络ResNet实现的图像编码器;基于转换器Transformer实现的文本编码器;通过前馈神经网络实现的线性映射部件;通过模型训练学习到的两个模型参数的学习缩放参数 和/>,用于避免经指数映射后数值发生溢出;
专利图文多模态双曲模型训练,基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集;附图文本对分别通过附图编码器及文本编码器生成附图向量和文本向量/>;所述文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示/>和附图双曲嵌入表示/>;将所有附图文本对的附图双曲嵌入表示/>和文本双曲嵌入表示/>,以成对的形式输入预设的神经网络模型,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量;模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数;按照预定次数进行迭代,得到训练好的专利图文多模态双曲模型并保存;
应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;
所述IPC多标签分类模型训练和应用模块执行如下处理:
IPC多标签分类模型训练数据集构建,预处理IPC分类体系构建IPC信息字典,读取样本库专利文献中的IPC分类信息,结合IPC信息字典,获取到附图文本对的IPC分类标签;将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出得到附图文本对双曲嵌入表示;利用所述附图文本对双曲嵌入表示和所述IPC分类标签,构建IPC多标签分类模型训练数据集;
利用所述IPC多标签分类模型训练数据集进行IPC多标签分类模型训练:
选取支持多分类的机器学习模型,将所构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;迭代执行达到迭代次数阈值止,得到训练好的IPC多标签分类模型;
利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。
综上所述,本发明使用了双曲嵌入具有自然层次结构特性,与IPC树状层级分类任务具有层级特点适配,在树状分类任务上有更好的性能。专利图文多模态不仅表征了文本的语义特征,还挖掘出附图的语义特征,综合利用附图文本的整体语义特征对专利进行分类。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其他的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1 本发明实施例中提供的专利IPC分类方法模块构成框图;
图2 本发明实施例中提供的专利图文多模态双曲模型结构及原理;
图3 本发明实施例中提供的专利图文多模态双曲模型训练示意图;
图4 本发明实施例中提供的专利图文多模态双曲模型应用示意图;
图5 本发明实施例中提供的一种基于图文多模态双曲嵌入的专利IPC分类方法示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的一种基于图文多模态双曲嵌入的专利IPC分类方法,包括专利图文多模态双曲嵌入的处理阶段及IPC多标签分类的处理阶段。供的基于图文多模态双曲嵌入的专利IPC分类系统对应的两个模块,模块1:专利图文多模态双曲模型训练和应用模块、模块2:IPC多标签分类模型训练和应用模块,如图1所示。
模块1:专利图文多模态双曲模型训练和应用模块
本模块输入专利文本,包括样本库专利文献(模型训练阶段)或待加工专利文献(模型应用阶段),实现专利附图文本对中附图和文本的双曲嵌入表示,输出专利图文多模态双曲模型(模型训练阶段)或待加工专利文献所有附图文本对的附图和文本的双曲嵌入表示(模型应用阶段)。
本模块所需要进行的处理包括专利图文多模态双曲模型训练数据集构建、专利图文多模态双曲模型结构、专利图文多模态双曲模型训练和专利图文多模态双曲模型应用四部分。
(1)专利图文多模态双曲数据集构建方法
预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集。所述预处理指提取专利文献中的附图、标题、关键词和附图标注文字等内容。所述附图指专利文献中附图,所述文本包括:标题、关键词和附图标注文字等,所述标题需要清洗非中英语言文字符号和去停用词处理。构建完成的专利附图文本对数据集格式如“表1专利附图文本对数据集构成”所示:
表1 专利附图文本对数据集构成
(2)专利图文多模态双曲模型结构
所述专利图文多模态双曲模型的结构,如“图2 专利图文多模态双曲模型结构及原理”所示。其中,图像编码器基于ResNet(残差网络)实现;文本编码器基于Transformer(转换器)实现;线性映射部件通过前馈神经网络实现,本发明采用2层前馈神经网络实现;学习缩放参数 和/>,是通过模型训练学习到的两个模型参数,用于避免经指数映射后数值发生溢出,本发明将其初始化为/>;指数映射部件实现到双曲空间的转换,本发明基于公式(9)实现。
(3)专利图文多模态双曲模型训练
基于所述专利附图文本对数据集进行模型训练,首先定义图文多模态双曲模型训练损失函数,如公式(1)所示,包括蕴含损失和对比损失。
(1)
其中,表示图文多模态双曲模型训练损失;λ>0用于表征蕴含损失重要程度的参数;/>表示蕴含损失;/>表示对比损失;蕴含损失计算公式定义如下:
(2)
其中,表示取括号内逗号间隔开的多个参数的最大值;/>表示反余弦函数;/>表示反正弦函数;K=0.1用于设置靠近原点的边界值;/>,c是双曲空间的曲率;/>双曲空间计算内积,具体计算方法参见公式(3)。
(3)
, />表示双曲空间的两个不同的n维空间点;/>,/>表示两个不同的时间点,具体计算方法参见公式(4)。
(4)
其中,计算某空间点的范数,具体计算方法参见公式(5)。
(5)
对比损失计算公式定义如下:
(6)
其中,和/>分别表示图像对比损失和文本对比损失,都依据公式(7)进行计算得到。
(7)
其中,表示图像对比损失或文本对比损失,当点i和点j表示图像双曲嵌入表示时是图像对比损失,当点i和点j表示文本双曲嵌入表示时是文本对比损失;N表示采样1个正例和N-1个负例,组成一个N元组,作为一条数据;/>表示点i双曲嵌入表示和点j双曲嵌入表示之间距离,参考图文多模态双曲空间两点间距离公式(8)进行计算。
(8)
其中,表示反双曲余弦函数。
模型训练算法描述如下述算法1 所示。
算法1 专利图文多模态双曲模型训练算法
S11,基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集,数据集格式如表1所示。
S12,附图文本对中的附图通过附图编码器生成附图向量,附图文本对中的文本通过文本编码器生成文本向量/>
S13,文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示和附图双曲嵌入表示/>。所述映射指到双曲空间/>的指数映射变换,变换公式如下:
(9)
其中,cosh表示双曲余弦函数; sinh表示双曲正弦函数;v是切空间某个待转换点,也就是上一步生成的附图向量和文本向量;z是双曲空间点,仅考虑是双曲面的原点的情况,其中的0n表示n维的双曲空间原点。
S14:将上一步生成的所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示/>,以成对的形式输入“图2 专利图文多模态双曲模型结构及原理”所示神经网络模型,训练原理如“图3 专利图文多模态双曲模型训练示意图”所示,基于矩阵对角线(图中灰色区域所示,恰好是一对附图和文本的双曲嵌入表示)值最大的思想,对模型进行训练。
S15:模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数。所述模型损失函数的计算定义如下:
其中,λ>0用于表征蕴含损失重要程度的参数;表示蕴含损失;/>表示对比损失。模型损失设计内容如公式(1)―(8)所述。
S16:迭代执行S12到S16,直到满足迭代次数要求止。所述迭代次数条件,本发明通过设置阈值64实现。
S17:保存并返回训练好的专利图文多模态双曲模型。
参见图3所示的训练模型架构图,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量,在多模态嵌入空间中,使用损失函数,进行图像和文本训练,以最大化真实对的图像和文本的余弦相似度,即真实匹配的图文对空间距离更近,不匹配的图文对空间距离更远。
(4)专利图文多模态双曲模型应用方案
图4为本发明实施例中的专利图文多模态双曲模型应用示意图,专利图文多模态双曲模型应用方案如图4所示,包括:
S21:对待加工专利文献,基于所述专利图文多模态双曲数据集构建方法,进行处理,构建待加工专利文献附图文本对,格式如“表1 专利附图文本对数据集构成”所示;
S22:将待加工专利附图文本对输入专利图文多模态双曲模型;
S23::模型输出待加工专利的附图双曲嵌入表示和文本双曲嵌入表示。所述双曲嵌入表示指双曲空间的向量。
模块2:IPC多标签分类模型训练和应用模块
IPC多标签分类模型训练阶段,本模块输入IPC分类模型训练数据集,所述分类模型训练数据集,基于样本库专利文献附图文本对双曲嵌入表示和共现IPC标签,依据IPC多标签分类模型训练数据集的构建方案构建,本模块实现分类模型训练目的,输出IPC多标签分类模型。
IPC多标签分类模型应用阶段,本模块输入待加工专利文献附图文本对双曲嵌入表示,实现IPC多标签分类,输出IPC多标签分类结果。
本模块的处理功能包括构建IPC多标签分类模型训练数据集构建、IPC多标签分类模型训练和IPC多标签分类模型应用等三部分。
(1)IPC多标签分类模型训练数据集构建
具体地,IPC多标签分类模型训练数据集构建,包括如下步骤:
S31:在小组层级预处理IPC分类体系构建IPC小组信息字典,示例如“表2 IPC小组信息字典示例”所示:
表2 IPC小组信息字典示例
S32:读取样本库专利文献中的IPC分类信息,结合“表2 IPC小组信息字典示例”所示的IPC小组信息字典,获取到附图文本对的IPC分类标签。
S33:将样本库专利文献的所有附图文本对,输入训练好的专利附图文本多模态双曲模型中,模型输出所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示/>,拼接后得到附图文本对双曲嵌入表示/>
S34:利用第三步得到的附图文本对双曲嵌入表示 和第二步得到的IPC分类标签,构建IPC多标签分类模型训练数据集,格式如下:
表3 IPC多标签分类模型训练数据集格式
(2)IPC多标签分类模型训练
利用IPC多标签分类模型训练数据集进行IPC多标签分类模型训练,包括如下步骤:
S41:选取支持多分类的机器学习模型,如CNN+Softmax,交叉熵损失。
S42:将依据所述IPC多标签分类模型训练数据集构建方构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,如CNN+Softmax,进行训练。
S43:依据交叉熵损失函数计算损失,反向梯度传播更新模型参数。
S44:迭代执行第二步和第三步,直到达到迭代次数阈值条件止,例如,本发明实施例中,取阈值32。
S45:返回训练好的IPC多标签分类模型。
(3)IPC多标签分类模型应用
利用IPC多标签分类模型对待加工专利文献进行IPC多标签分类,包括如下步骤:
S51:应用如“图4 专利图文多模态双曲模型应用示意图”所示的专利图文多模态双曲模型应用方案,得到待加工专利文献的所有附图文本对的每一张附图双曲嵌入表示和每一个文本双曲嵌入表示/>,拼接得到每一附图文本对的双曲嵌入表示
S52:将附图文本对的双曲嵌入表示输入IPC多标签分类模型,得到前N个IPC多标签分类结果;例如,在具体实施例中,取N=10。
S53:汇总并依据IPC标签频度,如果频度相同则依据概率值,对待加工专利文献所有附图文本对的IPC标签降序排序,获取前N个IPC标签及其频度还有概率值,返回,本发明实施例中,取N=10。
给出本发明IPC多标签分类的总流程,如“图5 一种基于图文多模态双曲嵌入的专利IPC分类方法示意图”所示。
本发明提出的技术方案利用双曲嵌入具有自然层次结构特性,与IPC树状层级分类任务具有层级特点适配,在树状分类任务上有更好的性能。双曲空间是开放式无限膨胀空间恰好适配专利技术领域不断涌现、扩展的特点,有效地使用双曲空间,使其适合资源受限的设备场景。双曲空间允许人们推断图像和文本的层级语义关系,具有可解释性。
专利图文多模态不仅表征了文本的语义特征,还挖掘出附图的语义特征,综合利用附图文本的整体语义特征对专利进行分类。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于图文多模态双曲嵌入的专利IPC分类方法,其特征在于,包括专利图文多模态双曲嵌入的处理阶段及IPC多标签分类的处理阶段;
所述专利图文多模态双曲嵌入的处理阶段包括:
专利图文多模态双曲模型训练数据集构建,预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集;
建立专利图文多模态双曲模型,该模型包括基于残差网络ResNet实现的图像编码器;基于转换器Transformer实现的文本编码器;通过前馈神经网络实现的线性映射部件;通过模型训练学习到的两个模型参数的学习缩放参数 和/>,用于避免经指数映射后数值发生溢出;
专利图文多模态双曲模型训练:
基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集;附图文本对分别通过附图编码器及文本编码器生成附图向量和文本向量/>;所述文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示/>和附图双曲嵌入表示/>;将所有附图文本对的附图双曲嵌入表示/>和文本双曲嵌入表示/>,以成对的形式输入预设的神经网络模型,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量;模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数;按照预定次数进行迭代,得到训练好的专利图文多模态双曲模型并保存;
应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;
所述IPC多标签分类的处理阶段包括如下步骤:
IPC多标签分类模型训练数据集构建,预处理IPC分类体系构建IPC信息字典,读取样本库专利文献中的IPC分类信息,结合IPC信息字典,获取到附图文本对的IPC分类标签;将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出得到附图文本对双曲嵌入表示;利用所述附图文本对双曲嵌入表示和所述IPC分类标签,构建IPC多标签分类模型训练数据集;
利用所述IPC多标签分类模型训练数据集进行IPC多标签分类模型训练:
选取支持多分类的机器学习模型,将所构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;迭代执行达到迭代次数阈值止,得到训练好的IPC多标签分类模型;
利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。
2.如权利要求1所述的专利IPC分类方法,其特征在于,所述应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,具体包括:
对待加工专利文献,基于所述专利图文多模态双曲数据集构建方法进行处理,构建待加工专利文献附图文本对;
将待加工专利附图文本对输入专利图文多模态双曲模型;
模型输出待加工专利的附图双曲嵌入表示和文本双曲嵌入表示,所述双曲嵌入表示指双曲空间的向量。
3.如权利要求1所述的专利IPC分类方法,其特征在于,所述IPC多标签分类模型训练数据集构建步骤,具体包括:
步骤S31,在小组层级预处理IPC分类体系构建IPC小组信息字典;
步骤S32,读取样本库专利文献中的IPC分类信息,结合IPC小组信息字典,获取到附图文本对的IPC分类标签;
步骤S33,将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出所有附图文本对的附图双曲嵌入表示和文本双曲嵌入表示,拼接后得到附图文本对双曲嵌入表示/>
步骤S34,利用步骤S33得到的附图文本对双曲嵌入表示和步骤S32得到的IPC分类标签,构建IPC多标签分类模型训练数据集。
4.如权利要求1所述的专利IPC分类方法,其特征在于,所述利用IPC多标签分类模型训练数据集进行IPC多标签分类模型训练,具体包括:
步骤S41,选取支持多分类的机器学习模型,包括CNN+Softmax,交叉熵损失;
步骤S42,将依据所述IPC多标签分类模型训练数据集构建方构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,进行训练;
步骤S43,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;
步骤S44,迭代执行步骤S42和步骤S43,直到达到迭代次数阈值止;
步骤S45,返回训练好的IPC多标签分类模型。
5.如权利要求4所述的专利IPC分类方法,其特征在于,
所述迭代次数阈值为大于32的整数。
6.如权利要求1所述的专利IPC分类方法,其特征在于,
所述利用IPC多标签分类模型对待加工专利文献进行IPC多标签分类,包括:
应用专利图文多模态双曲模型,得到待加工专利文献的所有附图文本对的每一张附图双曲嵌入表示和每一个文本双曲嵌入表示/>,拼接得到每一附图文本对的双曲嵌入表示/>;将附图文本对的双曲嵌入表示/>输入IPC多标签分类模型,得到前N个IPC多标签分类结果;
汇总并依据IPC标签频度,如果频度相同则依据概率值,对待加工专利文献所有附图文本对的IPC标签降序排序,获取前N个IPC标签及其频度及概率值。
7.如权利要求1所述的专利IPC分类方法,其特征在于,
所述通过前馈神经网络实现的线性映射部件,采用两层前馈神经网络实现。
8.一种基于图文多模态双曲嵌入的专利IPC分类系统,其特征在于,包括专利图文多模态双曲模型训练和应用模块和IPC多标签分类模型训练和应用模块;
所述专利图文多模态双曲模型训练和应用模块执行如下处理:专利图文多模态双曲模型训练数据集构建、建立专利图文多模态双曲模型、专利图文多模态双曲模型训练和专利图文多模态双曲模型应用;
所述专利图文多模态双曲模型训练数据集构建:
预处理样本库专利文献,构建用于专利图文多模态双曲模型训练的专利附图文本对数据集;
建立专利图文多模态双曲模型,该模型包括基于残差网络ResNet实现的图像编码器;基于转换器Transformer实现的文本编码器;通过前馈神经网络实现的线性映射部件;通过模型训练学习到的两个模型参数的学习缩放参数 和/>,用于避免经指数映射后数值发生溢出;
所述专利图文多模态双曲模型训练:
基于所述专利图文多模态双曲数据集构建方法,处理样本库专利文献构建专利附图文本对数据集;附图文本对分别通过附图编码器及文本编码器生成附图向量和文本向量/>;所述文本向量和附图向量通过映射,得到双曲空间的文本双曲嵌入表示/>和附图双曲嵌入表示/>;将所有附图文本对的附图双曲嵌入表示/>和文本双曲嵌入表示/>,以成对的形式输入预设的神经网络模型,经过编码后的文本和图像向量直接投影到多模态嵌入空间中,对角线为真实配对文本图像向量;模型训练过程在双曲空间利用模型损失函数计算损失,反向梯度传播更新模型参数;按照预定次数进行迭代,得到训练好的专利图文多模态双曲模型并保存;
应用所述专利图文多模态双曲模型对待加工专利文献进行处理,得到待加工专利的附图双曲嵌入表示和文本双曲嵌入表示;
所述IPC多标签分类模型训练和应用模块执行如下处理:
所述构建IPC多标签分类模型训练数据集构建:
预处理IPC分类体系构建IPC信息字典,读取样本库专利文献中的IPC分类信息,结合IPC信息字典,获取到附图文本对的IPC分类标签;将样本库专利文献的所有附图文本对,输入到训练好的专利附图文本多模态双曲模型中,模型输出得到附图文本对双曲嵌入表示;利用所述附图文本对双曲嵌入表示和所述IPC分类标签,构建IPC多标签分类模型训练数据集;
利用所述IPC多标签分类模型训练数据集进行IPC多标签分类模型训练:
选取支持多分类的机器学习模型,将所构建的IPC多标签分类模型训练数据集,输入多分类机器学习模型,依据交叉熵损失函数计算损失,反向梯度传播更新模型参数;迭代执行达到迭代次数阈值止,得到训练好的IPC多标签分类模型;
利用所述IPC多标签分类模型对待加工专利文献进行IPC多标签分类。
9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器和至少一个存储器;
所述存储器,用于存储一个或多个程序指令;
所述处理器,用于运行一个或多个程序指令,用以执行如权利要求1-7中任一项所述的方法。
10.计算机可读存储介质,其特征在于,所述计算机可读存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被执行如权利要求1-7中任一项所述的方法。
CN202410069639.9A 2024-01-18 2024-01-18 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统 Active CN117609902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410069639.9A CN117609902B (zh) 2024-01-18 2024-01-18 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410069639.9A CN117609902B (zh) 2024-01-18 2024-01-18 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统

Publications (2)

Publication Number Publication Date
CN117609902A CN117609902A (zh) 2024-02-27
CN117609902B true CN117609902B (zh) 2024-04-05

Family

ID=89946540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410069639.9A Active CN117609902B (zh) 2024-01-18 2024-01-18 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统

Country Status (1)

Country Link
CN (1) CN117609902B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
WO2022001333A1 (zh) * 2020-06-30 2022-01-06 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN116187163A (zh) * 2022-12-20 2023-05-30 北京知呱呱科技服务有限公司 一种用于专利文件处理的预训练模型的构建方法及系统
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN117272237A (zh) * 2023-11-23 2023-12-22 北京知呱呱科技有限公司 基于多模态融合的专利附图多语言图解生成方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898636B (zh) * 2020-06-28 2024-05-14 华为技术有限公司 一种数据处理方法及装置
US20240013564A1 (en) * 2021-05-27 2024-01-11 Akasa, Inc. System, devices and/or processes for training encoder and/or decoder parameters for object detection and/or classification
US20230368031A1 (en) * 2022-05-10 2023-11-16 Microsoft Technology Licensing, Llc Training Machine-Trained Models by Directly Specifying Gradient Elements

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
WO2022001333A1 (zh) * 2020-06-30 2022-01-06 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
WO2023093574A1 (zh) * 2021-11-25 2023-06-01 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统
CN116187163A (zh) * 2022-12-20 2023-05-30 北京知呱呱科技服务有限公司 一种用于专利文件处理的预训练模型的构建方法及系统
CN117272237A (zh) * 2023-11-23 2023-12-22 北京知呱呱科技有限公司 基于多模态融合的专利附图多语言图解生成方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于LSTM模型的中文图书多标签分类研究;邓三鸿;傅余洋子;王昊;;数据分析与知识发现;20170725(07);全文 *

Also Published As

Publication number Publication date
CN117609902A (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
US20220147836A1 (en) Method and device for text-enhanced knowledge graph joint representation learning
Cao et al. A novel neural topic model and its supervised extension
CN111783462A (zh) 基于双神经网络融合的中文命名实体识别模型及方法
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN107832306A (zh) 一种基于Doc2vec的相似实体挖掘方法
CN110263325B (zh) 中文分词系统
CN112015868A (zh) 基于知识图谱补全的问答方法
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN113987169A (zh) 基于语义块的文本摘要生成方法、装置、设备及存储介质
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN112800774A (zh) 基于注意力机制的实体关系抽取方法、装置、介质和设备
CN107391565B (zh) 一种基于主题模型的跨语言层次分类体系匹配方法
Thapa et al. Spamhd: Memory-efficient text spam detection using brain-inspired hyperdimensional computing
CN110222192A (zh) 语料库建立方法及装置
CN113987174A (zh) 分类标签的核心语句提取方法、系统、设备及存储介质
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113590827B (zh) 一种基于多角度的科研项目文本分类装置和方法
Boudad et al. Exploring the use of word embedding and deep learning in arabic sentiment analysis
CN114117039A (zh) 一种小样本文本分类方法及模型
Ambili et al. Siamese Neural Network Model for Recognizing Optically Processed Devanagari Hindi Script
CN117609902B (zh) 一种基于图文多模态双曲嵌入的专利ipc分类方法及系统
Marconi et al. Hyperbolic manifold regression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240313

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Applicant after: Beijing Zhiguagua Technology Co.,Ltd.

Country or region after: China

Address before: 806A, Building 1, Sixin Building, South Side of Heiniucheng Road, Hexi District, Tianjin, 300221

Applicant before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Country or region before: China

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguagua Technology Co.,Ltd.

Country or region before: China