CN116415021A - 一种基于可定制语义的外观专利图像检索方法与系统 - Google Patents

一种基于可定制语义的外观专利图像检索方法与系统 Download PDF

Info

Publication number
CN116415021A
CN116415021A CN202211723818.7A CN202211723818A CN116415021A CN 116415021 A CN116415021 A CN 116415021A CN 202211723818 A CN202211723818 A CN 202211723818A CN 116415021 A CN116415021 A CN 116415021A
Authority
CN
China
Prior art keywords
appearance
semantic
image
network
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211723818.7A
Other languages
English (en)
Inventor
周凡
刘明阳
陈小燕
林格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202211723818.7A priority Critical patent/CN116415021A/zh
Publication of CN116415021A publication Critical patent/CN116415021A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/766Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Technology Law (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于可定制语义的外观专利图像检索方法与系统。包括:从外观专利数据库中筛选并获取文本‑专利对,并生成每个专利的外观专利图像所对应的手绘草图;利用ResNet方法对所述外观专利图像进行语义编码,构建语义特征库;构建并训练外观专利初次筛选模型;构建并训练外观专利最终筛选模型;用户输入待检索的关键词文本以及手绘草图,以关键词文本作为输入进行初次筛选,以可定制的手绘草图作为输入进行最终筛选,从而得到精准的外观专利检索结果。本发明基于人工智能的方式,混合使用文本和图像到专利的混合映射,同时实现外观专利检索的效率和精度,通过可定制语义的手绘草图搜图,更加有效地降低图像搜索的难度,提升检索细节的能力。

Description

一种基于可定制语义的外观专利图像检索方法与系统
技术领域
本发明涉及图像检索,图像理解,专利检索领域,具体涉及一种基于可定制语义的外观专利图像检索方法与系统。
背景技术
知识产权是创新型经济发展的基础,知识产权在国家的经济建设发展中起着举足轻重的作用。高效地分析和利用专利技术,将保护并推动产业的发展,提升国家和企业的创新能力。通过合理分析专利技术文献,可以避免非必要的经费花销,加速研发进度。外观设计专利作为一种创意设计专利,与企业的发展密切相关,优秀的外观设计将直接影响人们的审美习惯,促进经济消费,创造出经济的新增长,提升企业竞争力。由于产品的快速更迭,外观专利数量快速增长,且由于外观设计易于模仿的特点,外观专利极易被侵权。如何维持好外观设计专利的整个生命周期中专利申请、审核和维权等各个过程的合法性,如何高效的管理外观知识产权已经是一个迫在眉睫的问题。其中,外观专利检索作为实现在知识产权创意生成与保护、智能审查、价值评估与交易等场景推广应用的重要一环,如何快速的检索感兴趣的外观专利,提升整个专利生命周期的合理性和合法性,引起了研究人员们的浓厚兴趣。
外观专利检索通过各种手段为用户提供感兴趣的外观专利,为专利申请、审核和维权等各个过程提供便利。现有的主要方法是根据关键字检索,从外观专利数据库中检索出拥有相关字眼的外观专利。但是由于外观专利缺乏充分的文本描述,单从关键字进行检索很难获取理想的检索结果。整体上来说。人们需要拥有大量的专业知识才能够检索出相关的外观专利,检索速度快,但是检索精度无法得到保证。
近年来,新一轮科技革命和产业变革正在萌发,大数据的形成、理论算法的革新、计算能力的提升及网络设施的演进驱动人工智能发展进入新阶段,智能化成为技术和产业发展的重要方向。在外观专利检索中,智能化也是必然的趋势,进而诞生了一系列基于人工智能的专利检索方法。这些方法主要通过输入外观-文本数据对,运用人工智能模型进行训练,生成文本内容到外观专利的语义映射。但受限于人工智能相关技术的发展,这样的方法需要大量的人力标注数据,以获取到足够多的可学习的数据信息完成对模型的训练,使用有限的数据集很难获取足够精确的语义映射。
目前的现有技术之一,一种基于关键字的外观专利检索系统及方法,首先通过专家知识或专利分类对专利进行分类,然后文字比对的方式获取对应的外观专利内容。这种方法的缺点是检索范围局限于专利中的文本内容,检索方式不够灵活,精度欠佳。
目前的现有技术之二,一种基于文本语义的外观专利检索系统及方法,首先通过专家知识生成文本-专利对,然后使用深度神经网络学习文本到专利的映射关系,使用训练好的文本到专利的映射关系对当前用户输入进行搜索,获取对应的外观专利内容。这种方法的缺点是需要获取到足够多的可学习的数据信息完成对模型的训练。如果使用有限的数据集,将很难获取足够精确的语义映射。
目前的现有技术之三,论文“Large scale patent drawing recognition andretrieval”中的一种基于图像的外观专利检索系统及方法,其步骤为:首先通过专家知识生成图像-专利对,然后使用深度神经网络学习图像到专利的映射关系,使用训练好的映射关系对当前用户输入的图像进行搜索,获取对应的外观专利内容。这种方法的缺点是,图像之间的比对速度慢,极大地降低了检索过程的效率。并且由于图像的绘制难度,缺乏定制性,使得图像检索专利变得困难。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于可定制语义的外观专利图像检索方法与系统。本发明解决的主要问题是,现有基于文本的外观专利检索技术通过训练网络模型建立文本到专利的映射关系,但是需要获取到足够多的可学习的数据信息完成对模型的训练,如果使用有限的数据集,将很难获取足够精确的语义映射;现有基于图像的外观专利检索技术通过训练网络模型建立图像到专利的语义映射关系,但是由于图像之间的比对速度慢和图像的绘制难度,缺乏定制性的原因,使得检索难度高,检索效率差。即如何基于人工智能,突破文本到专利以及图像到专利的低效率映射学习的局限,通过混合使用文本和图像到专利的混合映射同时实现外观专利检索的效率和精度的问题。
为了解决上述问题,本发明提出了一种基于可定制语义的外观专利图像检索方法,所述方法包括:
从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure BDA0004028970160000041
并存储,构建语义特征库;
构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure BDA0004028970160000042
再使用卷积神经网络将所述外观专利图像语义特征/>
Figure BDA0004028970160000043
和所述文本语义特征/>
Figure BDA0004028970160000044
映射到相同的语义子空间,分别得到/>
Figure BDA0004028970160000045
和/>
Figure BDA0004028970160000046
最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure BDA0004028970160000047
然后将所述外观专利图像语义特征/>
Figure BDA0004028970160000048
和所述草图语义特征/>
Figure BDA0004028970160000049
映射到相同的语义子空间,分别获取/>
Figure BDA00040289701600000410
和/>
Figure BDA00040289701600000411
最后利用所述获取的/>
Figure BDA00040289701600000412
作为目标向量,使得/>
Figure BDA00040289701600000413
和/>
Figure BDA00040289701600000414
能够保留语义标签,并训练形成外观专利最终筛选模型;
用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
优选地,从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图,具体为:
用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;
使用生成对抗神经网络生成外观专利图像的手绘草图s,所述方法由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
优选地,利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure BDA0004028970160000051
并存储,构建语义特征库,具体为:
所述方法利用卷积神经网络进行训练得到语义特征图,对语义特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征
Figure BDA0004028970160000052
并存储起来,用于后续网络模型的训练和使用,具体公式如下:
Figure BDA0004028970160000053
优选地,构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure BDA0004028970160000054
再使用卷积神经网络将所述外观专利图像语义特征/>
Figure BDA0004028970160000055
和所述文本语义特征/>
Figure BDA0004028970160000056
映射到相同的语义子空间,分别得到/>
Figure BDA0004028970160000057
和/>
Figure BDA0004028970160000058
最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型,具体为:
利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到语义特征向量,对语义特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征
Figure BDA0004028970160000061
具体公式如下:
Figure BDA0004028970160000062
使用三种损失函数对所述网络模型进行训练以确保能够执行相应的功能,首先使用一种模态分类器作为网络的判别器,用于区分特征是来自图像或文本,若来自图像,则分配标签为01;若来自文本,则分配标签10,其设计为3层的卷积网络,损失函数为:
Figure BDA0004028970160000063
其中m是每个样本的真实模态标签,D是一种由全连接层组成的前馈网络;
然后,为了确保投影的特征具有对语义标签的判别力,本方案使用了一种模态内判别损失函数:
Figure BDA0004028970160000064
其中y是每个样本的真实模态标签,M是一种由全连接层组成的前馈网络;
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计了如下损失函数。首先生成同语义标签不同模态的样本对
Figure BDA0004028970160000065
并组成三元组样本/>
Figure BDA0004028970160000066
和/>
Figure BDA0004028970160000067
接着计算跨图像和文本模态的多模态语义不变性损失:
Figure BDA0004028970160000071
Figure BDA0004028970160000072
其中μ为控制系数,防止数据溢出,l2表示L2距离,用于评估跨模态特征之间的差异:
Figure BDA0004028970160000073
其中M1和M2是一种由全连接层组成的前馈网络,最终模态间损失函数定义为:
Limi=Limi,T+Limi,P
为了防止网络模型过拟合,使用下列损失函数:
Figure BDA0004028970160000074
其中,l表示网络模型的层数,W表示网络的参数集,F表示范数;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=αLimi+βLimd+Lreg
其中超参数α和β控制着两项的贡献。
优选地,构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure BDA0004028970160000075
然后将所述外观专利图像语义特征/>
Figure BDA0004028970160000076
和所述草图语义特征/>
Figure BDA0004028970160000077
映射到相同的语义子空间,分别获取/>
Figure BDA0004028970160000078
和/>
Figure BDA0004028970160000079
最后利用所述获取的/>
Figure BDA00040289701600000710
作为目标向量,使得/>
Figure BDA00040289701600000711
和/>
Figure BDA00040289701600000712
能够保留语义标签,并训练形成外观专利最终筛选模型,具体为:
利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征
Figure BDA0004028970160000081
具体公式如下:
Figure BDA0004028970160000082
使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征
Figure BDA0004028970160000083
和所述草图语义特征/>
Figure BDA0004028970160000084
映射到相同的语义子空间,分别获取
Figure BDA0004028970160000085
和/>
Figure BDA0004028970160000086
为了更好的训练网络,/>
Figure BDA0004028970160000087
中存在着与/>
Figure BDA0004028970160000088
拥有相同语义标签的/>
Figure BDA0004028970160000089
和不同语义标签的
Figure BDA00040289701600000810
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计如下损失函数:
Figure BDA00040289701600000811
为了使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图,使用下列损失函数:
Figure BDA00040289701600000812
其中,l0和l1定义为:
Figure BDA00040289701600000813
其中,R表示梯度逆转层,实现网络前后的训练目标是相反的,使得网络模型能够尽可能将外观专利图像还是手绘草图映射到相同的语义子空间的同时,网络模型也能够精准的判断图片的来源,ψ和φ是一种由全连接层组成的前馈网络,i表示样本量,o属于0或1,分别指代草图与真实图像;
利用所述获取的
Figure BDA00040289701600000814
作为目标向量,使得/>
Figure BDA00040289701600000815
和/>
Figure BDA00040289701600000816
能够保留语义标签,并利用下列损失函数显现这一目标:
Figure BDA0004028970160000091
其中,
Figure BDA0004028970160000092
g()表示表示语义重构网络,将语义空间映射到与文本s相同的语义空间内;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=α1L12L23L3
其中超参数α1,α2和α3控制着三项的贡献。
相应地,本发明还提供了一种基于可定制语义的外观专利图像检索系统,包括:
手绘草图生成单元,用于从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
特征库构建单元,用于利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure BDA0004028970160000093
并存储,构建语义特征库;
外观专利初次筛选模型构建和训练单元,用于构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure BDA0004028970160000094
再使用卷积神经网络将所述外观专利图像语义特征/>
Figure BDA0004028970160000095
和所述文本语义特征/>
Figure BDA0004028970160000096
映射到相同的语义子空间,分别得到/>
Figure BDA0004028970160000097
和/>
Figure BDA0004028970160000098
最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
外观专利最终筛选模型构建和训练单元,用于构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure BDA0004028970160000101
然后将所述外观专利图像语义特征
Figure BDA0004028970160000102
和所述草图语义特征/>
Figure BDA0004028970160000103
映射到相同的语义子空间,分别获取/>
Figure BDA0004028970160000104
和/>
Figure BDA0004028970160000105
最后利用所述获取的
Figure BDA0004028970160000106
作为目标向量,使得/>
Figure BDA0004028970160000107
和/>
Figure BDA0004028970160000108
能够保留语义标签,并训练形成外观专利最终筛选模型;
外观专利检索与结果输出单元,用于用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
实施本发明,具有如下有益效果:
本发明基于人工智能的方式,不再局限于文本到专利的低精准映射学习,也没有局限于图像到专利的低效率映射学习,而是混合使用文本和图像到专利的混合映射,同时实现外观专利检索的效率和精度。本发明借助手绘草图等图像通常比文字更容易传达重要科学或技术信息的特点,将传统的以图搜图更换为具有可制定性的以手绘草图搜图,更加有效地降低图像搜索的难度,提升检索细节的能力。
附图说明
图1是本发明实施例的基于可定制语义的的外观专利检索方法的流程图;
图2是本发明实施例的基于可定制语义的的外观专利检索系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于可定制语义的的外观专利检索方法的流程图,如图1所示,该方法包括:
S1,从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
S2,利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure BDA0004028970160000111
并存储,构建语义特征库;
S3,构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure BDA0004028970160000112
再使用卷积神经网络将所述外观专利图像语义特征/>
Figure BDA0004028970160000113
和所述文本语义特征/>
Figure BDA0004028970160000114
映射到相同的语义子空间,分别得到/>
Figure BDA0004028970160000115
和/>
Figure BDA0004028970160000116
最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
S4,构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure BDA0004028970160000117
然后将所述外观专利图像语义特征/>
Figure BDA0004028970160000118
和所述草图语义特征/>
Figure BDA0004028970160000121
映射到相同的语义子空间,分别获取/>
Figure BDA0004028970160000122
和/>
Figure BDA0004028970160000123
最后利用所述获取的t′作为目标向量,使得/>
Figure BDA0004028970160000124
和/>
Figure BDA0004028970160000125
能够保留语义标签,并训练形成外观专利最终筛选模型;
S5,用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
步骤S1,具体如下:
S1-1,用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;
S1-2,使用生成对抗神经网络生成外观专利图像的手绘草图s,所述方法由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
步骤S2,具体如下:
S2-1,所述方法利用卷积神经网络进行训练得到语义特征图,对语义特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征
Figure BDA0004028970160000126
并存储起来,用于后续网络模型的训练和使用,具体公式如下:
Figure BDA0004028970160000131
步骤S3,具体如下:
S3-1,利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到语义特征向量,对语义特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征
Figure BDA0004028970160000132
具体公式如下:
Figure BDA0004028970160000133
S3-2,使用三种损失函数对所述网络模型进行训练以确保能够执行相应的功能,首先使用一种模态分类器作为网络的判别器,用于区分特征是来自图像或文本,若来自图像,则分配标签为01;若来自文本,则分配标签10,其设计为3层的卷积网络,损失函数为:
Figure BDA0004028970160000134
其中m是每个样本的真实模态标签,D是一种由全连接层组成的前馈网络;
S3-3,然后,为了确保投影的特征具有对语义标签的判别力,本方案使用了一种模态内判别损失函数:
Figure BDA0004028970160000135
其中y是每个样本的真实模态标签,M是一种由全连接层组成的前馈网络;
S3-4,为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题。设计了如下损失函数。首先生成同语义标签不同模态的样本对
Figure BDA0004028970160000141
并组成三元组样本
Figure BDA0004028970160000142
和/>
Figure BDA0004028970160000143
接着计算跨图像和文本模态的多模态语义不变性损失:
Figure BDA0004028970160000144
Figure BDA0004028970160000145
其中μ为控制系数,防止数据溢出,l2表示L2距离,用于评估跨模态语义特征之间的差异:
Figure BDA0004028970160000146
其中M1和M2是一种由全连接层组成的前馈网络,最终模态间损失函数定义为:
Limi=Limi,T+Limi,P
S3-5,为了防止网络模型过拟合,使用下列损失函数:
Figure BDA0004028970160000147
其中,l表示网络模型的层数,W表示网络的参数集,F表示范数;
S3-6,最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=αLimi+βLimd+Lreg
其中超参数α和β控制着两项的贡献。
步骤S4,具体如下:
S4-1,作为目标向量,使得
Figure BDA0004028970160000148
和/>
Figure BDA0004028970160000149
能够保留语义标签,具体为:
利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征
Figure BDA0004028970160000151
具体公式如下:
Figure BDA0004028970160000152
S4-2,使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征
Figure BDA0004028970160000153
和所述草图语义特征/>
Figure BDA0004028970160000154
映射到相同的语义子空间,分别获取/>
Figure BDA0004028970160000155
和/>
Figure BDA0004028970160000156
为了更好的训练网络,/>
Figure BDA0004028970160000157
中存在着与/>
Figure BDA0004028970160000158
拥有相同语义标签的/>
Figure BDA0004028970160000159
和不同语义标签的/>
Figure BDA00040289701600001510
S4-3,为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计如下损失函数:
Figure BDA00040289701600001511
S4-4,为了使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图,使用下列损失函数:
Figure BDA00040289701600001512
其中,l0和l1定义为:
Figure BDA00040289701600001513
其中,R表示梯度逆转层,实现网络前后的训练目标是相反的,使得网络模型能够尽可能将外观专利图像还是手绘草图映射到相同的语义子空间的同时,网络模型也能够精准的判断图片的来源,ψ和φ是一种由全连接层组成的前馈网络,i表示样本量,o属于0或1,分别指代草图与真实图像;
S4-5,利用所述获取的
Figure BDA00040289701600001516
作为目标向量,使得/>
Figure BDA00040289701600001514
和/>
Figure BDA00040289701600001515
能够保留语义标签,并利用下列损失函数显现这一目标:
Figure BDA0004028970160000161
其中,
Figure BDA0004028970160000162
g()表示表示语义重构网络,将语义空间映射到与文本s相同的语义空间内;
S4-6,最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=α1L12L23L3
其中超参数α1,α2和α3控制着三项的贡献。
相应地,本发明还提供了一种基于可定制语义的外观专利图像检索系统,如图2所示,包括:
手绘草图生成单元1,用于从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
具体地,用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;使用生成对抗神经网络生成外观专利图像的手绘草图s,所述网络由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
特征库构建单元2,用于利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure BDA0004028970160000171
并存储,构建语义特征库;
具体地,利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征
Figure BDA0004028970160000172
并存储起来,用于后续网络模型的训练和使用。
外观专利初次筛选模型构建和训练单元3,用于构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure BDA0004028970160000173
再使用卷积神经网络将所述外观专利图像语义特征
Figure BDA0004028970160000174
和所述文本语义特征/>
Figure BDA0004028970160000175
映射到相同的语义子空间,分别得到/>
Figure BDA0004028970160000176
和/>
Figure BDA0004028970160000177
最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
具体地,利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到特征向量,对特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征
Figure BDA0004028970160000178
为了区分特征是来自图像或文本,若来自图像,则分配标签为01,若来自文本,则分配标签10,其设计为3层的卷积网络;确保投影的特征具有对语义标签的判别力;确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;设计损失函数以防止网络模型过拟合;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
外观专利最终筛选模型构建和训练单元4,用于构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure BDA0004028970160000181
然后将所述外观专利图像语义特征
Figure BDA0004028970160000182
和所述草图语义特征/>
Figure BDA0004028970160000183
映射到相同的语义子空间,分别获取/>
Figure BDA0004028970160000184
和/>
Figure BDA0004028970160000185
最后利用所述获取的
Figure BDA0004028970160000186
作为目标向量,使得/>
Figure BDA0004028970160000187
和/>
Figure BDA0004028970160000188
能够保留语义标签,并训练形成外观专利最终筛选模型;
具体地,利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征
Figure BDA0004028970160000189
使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征/>
Figure BDA00040289701600001810
和所述草图语义特征/>
Figure BDA00040289701600001811
映射到相同的语义子空间,分别获取/>
Figure BDA00040289701600001812
和/>
Figure BDA00040289701600001813
为了更好的训练网络,/>
Figure BDA00040289701600001814
中存在着与
Figure BDA00040289701600001815
拥有相同语义标签的/>
Figure BDA00040289701600001816
和不同语义标签的/>
Figure BDA00040289701600001817
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题;使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图;利用所述获取的t′作为目标向量,使得/>
Figure BDA00040289701600001818
和/>
Figure BDA00040289701600001819
能够保留语义标签,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
外观专利检索与结果输出单元5,用于用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
因此,本发明基于人工智能的方式,不再局限于文本到专利的低精准映射学习,也没有局限于图像到专利的低效率映射学习,而是混合使用文本和图像到专利的混合映射,同时实现外观专利检索的效率和精度。本发明借助手绘草图等图像通常比文字更容易传达重要科学或技术信息的特点,将传统的以图搜图更换为具有可制定性的以手绘草图搜图,更加有效地降低图像搜索的难度,提升检索细节的能力。
以上对本发明实施例所提供的一种基于可定制语义的外观专利图像检索方法与系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于可定制语义的外观专利图像检索方法,其特征在于,所述方法包括:
从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure FDA0004028970150000011
并存储,构建语义特征库;
构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure FDA0004028970150000012
再使用卷积神经网络将所述外观专利图像语义特征/>
Figure FDA0004028970150000013
和所述文本语义特征/>
Figure FDA0004028970150000014
映射到相同的语义子空间,分别得到/>
Figure FDA0004028970150000015
和/>
Figure FDA0004028970150000016
最后使用损失函数对网络模型进行训练,并形成外观专利初次筛选模型;
构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure FDA0004028970150000017
然后将所述外观专利图像语义特征/>
Figure FDA0004028970150000018
和所述草图语义特征/>
Figure FDA0004028970150000019
映射到相同的语义子空间,分别获取/>
Figure FDA00040289701500000110
和/>
Figure FDA00040289701500000111
最后利用所述获取的/>
Figure FDA00040289701500000112
作为目标向量,使得/>
Figure FDA00040289701500000113
和/>
Figure FDA00040289701500000114
能够保留语义标签,并训练形成外观专利最终筛选模型;
用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
2.如权利要求1所述的基于可定制语义的外观专利图像检索方法,其特征在于,所述从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图,具体为:
用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;
使用生成对抗神经网络生成外观专利图像的手绘草图s,所述方法由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
3.如权利要求1所述的基于可定制语义的外观专利图像检索方法,其特征在于,所述利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure FDA0004028970150000021
并存储,构建语义特征库,具体为:
所述方法利用卷积神经网络进行训练得到语义特征图,对语义特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征
Figure FDA0004028970150000022
并存储起来,用于后续网络模型的训练和使用,具体公式如下:
Figure FDA0004028970150000023
4.如权利要求1所述的基于可定制语义的外观专利图像检索方法,其特征在于,所述构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure FDA0004028970150000031
再使用卷积神经网络将所述外观专利图像语义特征/>
Figure FDA0004028970150000032
和所述文本语义特征/>
Figure FDA0004028970150000033
映射到相同的语义子空间,分别得到/>
Figure FDA0004028970150000034
和/>
Figure FDA0004028970150000035
最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型,具体为:
利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到语义特征向量,对语义特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征
Figure FDA0004028970150000036
具体公式如下:
Figure FDA0004028970150000037
使用三种损失函数对所述网络模型进行训练以确保能够执行相应的功能,首先使用一种模态分类器作为网络的判别器,用于区分特征是来自图像或文本,若来自图像,则分配标签为01;若来自文本,则分配标签10,其设计为3层的卷积网络,损失函数为:
Figure FDA0004028970150000038
其中m是每个样本的真实模态标签,D是一种由全连接层组成的前馈网络;
然后,为了确保投影的特征具有对语义标签的判别力,使用一种模态内判别损失函数:
Figure FDA0004028970150000039
其中y是每个样本的真实模态标签,M是一种由全连接层组成的前馈网络;
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计损失函数,具体为,首先生成同语义标签不同模态的样本对
Figure FDA0004028970150000041
并组成三元组样本/>
Figure FDA0004028970150000042
Figure FDA0004028970150000043
接着计算跨图像和文本模态的多模态语义不变性损失:
Figure FDA0004028970150000044
Figure FDA0004028970150000045
其中μ为控制系数,防止数据溢出,l2表示L2距离,用于评估跨模态语义特征之间的差异:
Figure FDA0004028970150000046
其中M1和M2是一种由全连接层组成的前馈网络,最终模态间损失函数定义为:
Limi=Limi,T+Limi,P
为了防止网络模型过拟合,使用下列损失函数:
Figure FDA0004028970150000047
其中,l表示网络模型的层数,W表示网络的参数集,F表示范数;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=αLimi+βLimd+Lreg
其中超参数α和β控制着两项的贡献。
5.如权利要求1所述的基于可定制语义的外观专利图像检索方法,其特征在于,所述构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure FDA0004028970150000048
然后将所述外观专利图像语义特征/>
Figure FDA0004028970150000049
和所述草图语义特征/>
Figure FDA00040289701500000410
映射到相同的语义子空间,分别获取/>
Figure FDA00040289701500000411
和/>
Figure FDA00040289701500000412
最后利用所述获取的/>
Figure FDA0004028970150000051
作为目标向量,使得/>
Figure FDA0004028970150000052
和/>
Figure FDA0004028970150000053
能够保留语义标签,并训练形成外观专利最终筛选模型,具体为:
利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征
Figure FDA0004028970150000054
具体公式如下:
Figure FDA0004028970150000055
使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征
Figure FDA0004028970150000056
和所述草图语义特征/>
Figure FDA0004028970150000057
映射到相同的语义子空间,分别获取/>
Figure FDA0004028970150000058
Figure FDA0004028970150000059
为了更好的训练网络,/>
Figure FDA00040289701500000510
中存在着与/>
Figure FDA00040289701500000511
拥有相同语义标签的/>
Figure FDA00040289701500000512
和不同语义标签的/>
Figure FDA00040289701500000513
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计如下损失函数:
Figure FDA00040289701500000514
为了使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图,使用下列损失函数:
Figure FDA00040289701500000515
其中,l0和l1定义为:
Figure FDA00040289701500000516
其中,R表示梯度逆转层,实现网络前后的训练目标是相反的,使得网络模型能够尽可能将外观专利图像还是手绘草图映射到相同的语义子空间的同时,网络模型也能够精准的判断图片的来源,ψ和φ是一种由全连接层组成的前馈网络,i表示样本量,o属于0或1,分别指代草图与真实图像;
利用所述获取的
Figure FDA0004028970150000061
作为目标向量,使得/>
Figure FDA0004028970150000062
和/>
Figure FDA0004028970150000063
能够保留语义标签,并利用下列损失函数显现这一目标:
Figure FDA0004028970150000064
其中,
Figure FDA0004028970150000065
g()表示表示语义重构网络,将语义空间映射到与文本s相同的语义空间内;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=α1L12L23L3
其中,超参数α1,α2和α3控制着三项的贡献。
6.一种基于可定制语义的外观专利图像检索系统,其特征在于,所述系统包括:
手绘草图生成单元,用于从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
特征库构建单元,用于利用ResNet方法对所述外观专利图像进行语义编码,使用预训练的卷积神经网络ResNet来获取所述外观专利图像p的语义特征
Figure FDA0004028970150000066
并存储,构建语义特征库;
外观专利初次筛选模型构建和训练单元,用于构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征
Figure FDA0004028970150000067
再使用卷积神经网络将所述外观专利图像语义特征/>
Figure FDA0004028970150000068
和所述文本语义特征/>
Figure FDA0004028970150000069
映射到相同的语义子空间,分别得到/>
Figure FDA00040289701500000610
和/>
Figure FDA00040289701500000611
最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
外观专利最终筛选模型构建和训练单元,用于构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征
Figure FDA0004028970150000071
然后将所述外观专利图像语义特征/>
Figure FDA0004028970150000072
和所述草图语义特征/>
Figure FDA0004028970150000073
映射到相同的语义子空间,分别获取/>
Figure FDA0004028970150000074
和/>
Figure FDA0004028970150000075
最后利用所述获取的/>
Figure FDA0004028970150000076
作为目标向量,使得/>
Figure FDA0004028970150000077
和/>
Figure FDA0004028970150000078
能够保留语义标签,并训练形成外观专利最终筛选模型;
外观专利检索与结果输出单元,用于用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
7.如权利要求6所述的基于可定制语义的外观专利图像检索系统,其特征在于,所述手绘草图生成单元,需要用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;使用生成对抗神经网络生成外观专利图像的手绘草图s,所述网络由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
8.如权利要求6所述的基于可定制语义的外观专利图像检索系统,其特征在于,所述语义特征库构建单元,需要利用卷积神经网络进行训练得到语义特征图,对语义特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征
Figure FDA0004028970150000081
并存储起来,用于后续网络模型的训练和使用。
9.如权利要求6所述的基于可定制语义的外观专利图像检索系统,其特征在于,所述外观专利初次筛选模型构建和训练单元,需要利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到特征向量,对特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征
Figure FDA0004028970150000082
为了区分特征是来自图像或文本,若来自图像,则分配标签为01,若来自文本,则分配标签10,其设计为3层的卷积网络;确保投影的特征具有对语义标签的判别力;确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;设计损失函数以防止网络模型过拟合;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
10.如权利要求6所述的一种基于可定制语义的外观专利图像检索系统,其特征在于,所述外观专利最终筛选模型构建和训练单元,需要利用ResNet方法对手绘草图进行语义编码,该方法利用卷积神经网络进行训练得到语义特征图,对特语义征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征
Figure FDA0004028970150000083
使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征/>
Figure FDA0004028970150000084
和所述草图语义特征/>
Figure FDA0004028970150000085
映射到相同的语义子空间,分别获取
Figure FDA0004028970150000086
和/>
Figure FDA0004028970150000087
为了更好的训练网络,/>
Figure FDA0004028970150000088
中存在着与/>
Figure FDA0004028970150000089
拥有相同语义标签的/>
Figure FDA0004028970150000091
和不同语义标签的
Figure FDA0004028970150000092
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题;使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图;利用所述获取的/>
Figure FDA0004028970150000093
作为目标向量,使得/>
Figure FDA0004028970150000094
和/>
Figure FDA0004028970150000095
能够保留语义标签,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
CN202211723818.7A 2022-12-30 2022-12-30 一种基于可定制语义的外观专利图像检索方法与系统 Pending CN116415021A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211723818.7A CN116415021A (zh) 2022-12-30 2022-12-30 一种基于可定制语义的外观专利图像检索方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211723818.7A CN116415021A (zh) 2022-12-30 2022-12-30 一种基于可定制语义的外观专利图像检索方法与系统

Publications (1)

Publication Number Publication Date
CN116415021A true CN116415021A (zh) 2023-07-11

Family

ID=87057114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211723818.7A Pending CN116415021A (zh) 2022-12-30 2022-12-30 一种基于可定制语义的外观专利图像检索方法与系统

Country Status (1)

Country Link
CN (1) CN116415021A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112734A (zh) * 2023-10-18 2023-11-24 中山大学深圳研究院 基于语义的知识产权文本表示与分类方法及终端设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112734A (zh) * 2023-10-18 2023-11-24 中山大学深圳研究院 基于语义的知识产权文本表示与分类方法及终端设备
CN117112734B (zh) * 2023-10-18 2024-02-02 中山大学深圳研究院 基于语义的知识产权文本表示与分类方法及终端设备

Similar Documents

Publication Publication Date Title
CN109918671A (zh) 基于卷积循环神经网络的电子病历实体关系抽取方法
CN109885671B (zh) 基于多任务学习的问答方法
CN110534087A (zh) 一种文本韵律层级结构预测方法、装置、设备及存储介质
CN109947954A (zh) 多任务协同识别方法及系统
CN110148318A (zh) 一种数字助教系统、信息交互方法和信息处理方法
CN101187990A (zh) 一种会话机器人系统
CN113191375B (zh) 一种基于联合嵌入的文本到多对象图像生成方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN111985205A (zh) 一种方面级情感分类模型
Xiong et al. Decoding sentiments: Enhancing covid-19 tweet analysis through bert-rcnn fusion
CN113705238B (zh) 基于bert和方面特征定位模型的方面级情感分析方法及系统
CN111680484A (zh) 一种视觉常识推理问答题的答题模型生成方法和系统
CN116415021A (zh) 一种基于可定制语义的外观专利图像检索方法与系统
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN111930981A (zh) 一种草图检索的数据处理方法
CN116541492A (zh) 一种数据处理方法及相关设备
CN117055724A (zh) 虚拟教学场景中生成式教学资源系统及其工作方法
Wu et al. Hierarchical memory decoder for visual narrating
CN112668347B (zh) 文本翻译方法、装置、设备及计算机可读存储介质
Cao et al. Visual question answering research on multi-layer attention mechanism based on image target features
Tzafestas Advances in Intelligent Systems: Concepts, Tools and Applications
CN113590983A (zh) 描述文本生成方法和装置、文本处理模型的训练方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN116244473A (zh) 一种基于特征解耦和图知识蒸馏的多模态情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination