CN116415021A - 一种基于可定制语义的外观专利图像检索方法与系统 - Google Patents
一种基于可定制语义的外观专利图像检索方法与系统 Download PDFInfo
- Publication number
- CN116415021A CN116415021A CN202211723818.7A CN202211723818A CN116415021A CN 116415021 A CN116415021 A CN 116415021A CN 202211723818 A CN202211723818 A CN 202211723818A CN 116415021 A CN116415021 A CN 116415021A
- Authority
- CN
- China
- Prior art keywords
- appearance
- semantic
- image
- network
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 91
- 238000012216 screening Methods 0.000 claims abstract description 66
- 238000013507 mapping Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 68
- 238000013527 convolutional neural network Methods 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 24
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 230000007787 long-term memory Effects 0.000 claims description 10
- 230000006403 short-term memory Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000011161 development Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Technology Law (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Library & Information Science (AREA)
- Primary Health Care (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于可定制语义的外观专利图像检索方法与系统。包括:从外观专利数据库中筛选并获取文本‑专利对,并生成每个专利的外观专利图像所对应的手绘草图;利用ResNet方法对所述外观专利图像进行语义编码,构建语义特征库;构建并训练外观专利初次筛选模型;构建并训练外观专利最终筛选模型;用户输入待检索的关键词文本以及手绘草图,以关键词文本作为输入进行初次筛选,以可定制的手绘草图作为输入进行最终筛选,从而得到精准的外观专利检索结果。本发明基于人工智能的方式,混合使用文本和图像到专利的混合映射,同时实现外观专利检索的效率和精度,通过可定制语义的手绘草图搜图,更加有效地降低图像搜索的难度,提升检索细节的能力。
Description
技术领域
本发明涉及图像检索,图像理解,专利检索领域,具体涉及一种基于可定制语义的外观专利图像检索方法与系统。
背景技术
知识产权是创新型经济发展的基础,知识产权在国家的经济建设发展中起着举足轻重的作用。高效地分析和利用专利技术,将保护并推动产业的发展,提升国家和企业的创新能力。通过合理分析专利技术文献,可以避免非必要的经费花销,加速研发进度。外观设计专利作为一种创意设计专利,与企业的发展密切相关,优秀的外观设计将直接影响人们的审美习惯,促进经济消费,创造出经济的新增长,提升企业竞争力。由于产品的快速更迭,外观专利数量快速增长,且由于外观设计易于模仿的特点,外观专利极易被侵权。如何维持好外观设计专利的整个生命周期中专利申请、审核和维权等各个过程的合法性,如何高效的管理外观知识产权已经是一个迫在眉睫的问题。其中,外观专利检索作为实现在知识产权创意生成与保护、智能审查、价值评估与交易等场景推广应用的重要一环,如何快速的检索感兴趣的外观专利,提升整个专利生命周期的合理性和合法性,引起了研究人员们的浓厚兴趣。
外观专利检索通过各种手段为用户提供感兴趣的外观专利,为专利申请、审核和维权等各个过程提供便利。现有的主要方法是根据关键字检索,从外观专利数据库中检索出拥有相关字眼的外观专利。但是由于外观专利缺乏充分的文本描述,单从关键字进行检索很难获取理想的检索结果。整体上来说。人们需要拥有大量的专业知识才能够检索出相关的外观专利,检索速度快,但是检索精度无法得到保证。
近年来,新一轮科技革命和产业变革正在萌发,大数据的形成、理论算法的革新、计算能力的提升及网络设施的演进驱动人工智能发展进入新阶段,智能化成为技术和产业发展的重要方向。在外观专利检索中,智能化也是必然的趋势,进而诞生了一系列基于人工智能的专利检索方法。这些方法主要通过输入外观-文本数据对,运用人工智能模型进行训练,生成文本内容到外观专利的语义映射。但受限于人工智能相关技术的发展,这样的方法需要大量的人力标注数据,以获取到足够多的可学习的数据信息完成对模型的训练,使用有限的数据集很难获取足够精确的语义映射。
目前的现有技术之一,一种基于关键字的外观专利检索系统及方法,首先通过专家知识或专利分类对专利进行分类,然后文字比对的方式获取对应的外观专利内容。这种方法的缺点是检索范围局限于专利中的文本内容,检索方式不够灵活,精度欠佳。
目前的现有技术之二,一种基于文本语义的外观专利检索系统及方法,首先通过专家知识生成文本-专利对,然后使用深度神经网络学习文本到专利的映射关系,使用训练好的文本到专利的映射关系对当前用户输入进行搜索,获取对应的外观专利内容。这种方法的缺点是需要获取到足够多的可学习的数据信息完成对模型的训练。如果使用有限的数据集,将很难获取足够精确的语义映射。
目前的现有技术之三,论文“Large scale patent drawing recognition andretrieval”中的一种基于图像的外观专利检索系统及方法,其步骤为:首先通过专家知识生成图像-专利对,然后使用深度神经网络学习图像到专利的映射关系,使用训练好的映射关系对当前用户输入的图像进行搜索,获取对应的外观专利内容。这种方法的缺点是,图像之间的比对速度慢,极大地降低了检索过程的效率。并且由于图像的绘制难度,缺乏定制性,使得图像检索专利变得困难。
发明内容
本发明的目的是克服现有方法的不足,提出了一种基于可定制语义的外观专利图像检索方法与系统。本发明解决的主要问题是,现有基于文本的外观专利检索技术通过训练网络模型建立文本到专利的映射关系,但是需要获取到足够多的可学习的数据信息完成对模型的训练,如果使用有限的数据集,将很难获取足够精确的语义映射;现有基于图像的外观专利检索技术通过训练网络模型建立图像到专利的语义映射关系,但是由于图像之间的比对速度慢和图像的绘制难度,缺乏定制性的原因,使得检索难度高,检索效率差。即如何基于人工智能,突破文本到专利以及图像到专利的低效率映射学习的局限,通过混合使用文本和图像到专利的混合映射同时实现外观专利检索的效率和精度的问题。
为了解决上述问题,本发明提出了一种基于可定制语义的外观专利图像检索方法,所述方法包括:
从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征/>和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的/>作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型;
用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
优选地,从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图,具体为:
用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;
使用生成对抗神经网络生成外观专利图像的手绘草图s,所述方法由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
所述方法利用卷积神经网络进行训练得到语义特征图,对语义特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征并存储起来,用于后续网络模型的训练和使用,具体公式如下:
优选地,构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征/>和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型,具体为:
利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到语义特征向量,对语义特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征具体公式如下:
使用三种损失函数对所述网络模型进行训练以确保能够执行相应的功能,首先使用一种模态分类器作为网络的判别器,用于区分特征是来自图像或文本,若来自图像,则分配标签为01;若来自文本,则分配标签10,其设计为3层的卷积网络,损失函数为:
其中m是每个样本的真实模态标签,D是一种由全连接层组成的前馈网络;
然后,为了确保投影的特征具有对语义标签的判别力,本方案使用了一种模态内判别损失函数:
其中y是每个样本的真实模态标签,M是一种由全连接层组成的前馈网络;
其中μ为控制系数,防止数据溢出,l2表示L2距离,用于评估跨模态特征之间的差异:
其中M1和M2是一种由全连接层组成的前馈网络,最终模态间损失函数定义为:
Limi=Limi,T+Limi,P;
为了防止网络模型过拟合,使用下列损失函数:
其中,l表示网络模型的层数,W表示网络的参数集,F表示范数;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=αLimi+βLimd+Lreg,
其中超参数α和β控制着两项的贡献。
优选地,构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的/>作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型,具体为:
利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征具体公式如下:
使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征和所述草图语义特征/>映射到相同的语义子空间,分别获取和/>为了更好的训练网络,/>中存在着与/>拥有相同语义标签的/>和不同语义标签的
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计如下损失函数:
为了使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图,使用下列损失函数:
其中,l0和l1定义为:
其中,R表示梯度逆转层,实现网络前后的训练目标是相反的,使得网络模型能够尽可能将外观专利图像还是手绘草图映射到相同的语义子空间的同时,网络模型也能够精准的判断图片的来源,ψ和φ是一种由全连接层组成的前馈网络,i表示样本量,o属于0或1,分别指代草图与真实图像;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=α1L1+α2L2+α3L3,
其中超参数α1,α2和α3控制着三项的贡献。
相应地,本发明还提供了一种基于可定制语义的外观专利图像检索系统,包括:
手绘草图生成单元,用于从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
外观专利初次筛选模型构建和训练单元,用于构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征/>和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
外观专利最终筛选模型构建和训练单元,用于构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型;
外观专利检索与结果输出单元,用于用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
实施本发明,具有如下有益效果:
本发明基于人工智能的方式,不再局限于文本到专利的低精准映射学习,也没有局限于图像到专利的低效率映射学习,而是混合使用文本和图像到专利的混合映射,同时实现外观专利检索的效率和精度。本发明借助手绘草图等图像通常比文字更容易传达重要科学或技术信息的特点,将传统的以图搜图更换为具有可制定性的以手绘草图搜图,更加有效地降低图像搜索的难度,提升检索细节的能力。
附图说明
图1是本发明实施例的基于可定制语义的的外观专利检索方法的流程图;
图2是本发明实施例的基于可定制语义的的外观专利检索系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例的基于可定制语义的的外观专利检索方法的流程图,如图1所示,该方法包括:
S1,从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
S3,构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征/>和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
S4,构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的t′作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型;
S5,用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
步骤S1,具体如下:
S1-1,用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;
S1-2,使用生成对抗神经网络生成外观专利图像的手绘草图s,所述方法由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
步骤S2,具体如下:
S2-1,所述方法利用卷积神经网络进行训练得到语义特征图,对语义特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征并存储起来,用于后续网络模型的训练和使用,具体公式如下:
步骤S3,具体如下:
S3-1,利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到语义特征向量,对语义特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征具体公式如下:
S3-2,使用三种损失函数对所述网络模型进行训练以确保能够执行相应的功能,首先使用一种模态分类器作为网络的判别器,用于区分特征是来自图像或文本,若来自图像,则分配标签为01;若来自文本,则分配标签10,其设计为3层的卷积网络,损失函数为:
其中m是每个样本的真实模态标签,D是一种由全连接层组成的前馈网络;
S3-3,然后,为了确保投影的特征具有对语义标签的判别力,本方案使用了一种模态内判别损失函数:
其中y是每个样本的真实模态标签,M是一种由全连接层组成的前馈网络;
其中μ为控制系数,防止数据溢出,l2表示L2距离,用于评估跨模态语义特征之间的差异:
其中M1和M2是一种由全连接层组成的前馈网络,最终模态间损失函数定义为:
Limi=Limi,T+Limi,P;
S3-5,为了防止网络模型过拟合,使用下列损失函数:
其中,l表示网络模型的层数,W表示网络的参数集,F表示范数;
S3-6,最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=αLimi+βLimd+Lreg,
其中超参数α和β控制着两项的贡献。
步骤S4,具体如下:
利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征具体公式如下:
S4-2,使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>为了更好的训练网络,/>中存在着与/>拥有相同语义标签的/>和不同语义标签的/>
S4-3,为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计如下损失函数:
S4-4,为了使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图,使用下列损失函数:
其中,l0和l1定义为:
其中,R表示梯度逆转层,实现网络前后的训练目标是相反的,使得网络模型能够尽可能将外观专利图像还是手绘草图映射到相同的语义子空间的同时,网络模型也能够精准的判断图片的来源,ψ和φ是一种由全连接层组成的前馈网络,i表示样本量,o属于0或1,分别指代草图与真实图像;
S4-6,最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=α1L1+α2L2+α3L3,
其中超参数α1,α2和α3控制着三项的贡献。
相应地,本发明还提供了一种基于可定制语义的外观专利图像检索系统,如图2所示,包括:
手绘草图生成单元1,用于从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
具体地,用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;使用生成对抗神经网络生成外观专利图像的手绘草图s,所述网络由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
具体地,利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,使用预训练的卷积神经网络ResNet来获取外观专利图像p的语义特征并存储起来,用于后续网络模型的训练和使用。
外观专利初次筛选模型构建和训练单元3,用于构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
具体地,利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到特征向量,对特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征为了区分特征是来自图像或文本,若来自图像,则分配标签为01,若来自文本,则分配标签10,其设计为3层的卷积网络;确保投影的特征具有对语义标签的判别力;确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;设计损失函数以防止网络模型过拟合;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
外观专利最终筛选模型构建和训练单元4,用于构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型;
具体地,利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>为了更好的训练网络,/>中存在着与拥有相同语义标签的/>和不同语义标签的/>为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题;使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图;利用所述获取的t′作为目标向量,使得/>和/>能够保留语义标签,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
外观专利检索与结果输出单元5,用于用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
因此,本发明基于人工智能的方式,不再局限于文本到专利的低精准映射学习,也没有局限于图像到专利的低效率映射学习,而是混合使用文本和图像到专利的混合映射,同时实现外观专利检索的效率和精度。本发明借助手绘草图等图像通常比文字更容易传达重要科学或技术信息的特点,将传统的以图搜图更换为具有可制定性的以手绘草图搜图,更加有效地降低图像搜索的难度,提升检索细节的能力。
以上对本发明实施例所提供的一种基于可定制语义的外观专利图像检索方法与系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于可定制语义的外观专利图像检索方法,其特征在于,所述方法包括:
从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征/>和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对网络模型进行训练,并形成外观专利初次筛选模型;
构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的/>作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型;
用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
2.如权利要求1所述的基于可定制语义的外观专利图像检索方法,其特征在于,所述从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图,具体为:
用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;
使用生成对抗神经网络生成外观专利图像的手绘草图s,所述方法由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
4.如权利要求1所述的基于可定制语义的外观专利图像检索方法,其特征在于,所述构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征/>和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型,具体为:
利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到语义特征向量,对语义特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征具体公式如下:
使用三种损失函数对所述网络模型进行训练以确保能够执行相应的功能,首先使用一种模态分类器作为网络的判别器,用于区分特征是来自图像或文本,若来自图像,则分配标签为01;若来自文本,则分配标签10,其设计为3层的卷积网络,损失函数为:
其中m是每个样本的真实模态标签,D是一种由全连接层组成的前馈网络;
然后,为了确保投影的特征具有对语义标签的判别力,使用一种模态内判别损失函数:
其中y是每个样本的真实模态标签,M是一种由全连接层组成的前馈网络;
其中μ为控制系数,防止数据溢出,l2表示L2距离,用于评估跨模态语义特征之间的差异:
其中M1和M2是一种由全连接层组成的前馈网络,最终模态间损失函数定义为:
Limi=Limi,T+Limi,P;
为了防止网络模型过拟合,使用下列损失函数:
其中,l表示网络模型的层数,W表示网络的参数集,F表示范数;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=αLimi+βLimd+Lreg,
其中超参数α和β控制着两项的贡献。
5.如权利要求1所述的基于可定制语义的外观专利图像检索方法,其特征在于,所述构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的/>作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型,具体为:
利用ResNet方法对手绘草图进行编码,该方法利用卷积神经网络进行训练得到特征图,对特征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征具体公式如下:
使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和为了更好的训练网络,/>中存在着与/>拥有相同语义标签的/>和不同语义标签的/>
为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,设计如下损失函数:
为了使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图,使用下列损失函数:
其中,l0和l1定义为:
其中,R表示梯度逆转层,实现网络前后的训练目标是相反的,使得网络模型能够尽可能将外观专利图像还是手绘草图映射到相同的语义子空间的同时,网络模型也能够精准的判断图片的来源,ψ和φ是一种由全连接层组成的前馈网络,i表示样本量,o属于0或1,分别指代草图与真实图像;
最终整个网络由三个提出的损失函数组合训练,直到损失函数的结果达到收敛:
L=α1L1+α2L2+α3L3,
其中,超参数α1,α2和α3控制着三项的贡献。
6.一种基于可定制语义的外观专利图像检索系统,其特征在于,所述系统包括:
手绘草图生成单元,用于从外观专利数据库中筛选并获取文本(t)-专利(p)对,并生成每个专利(p)的外观专利图像所对应的手绘草图;
外观专利初次筛选模型构建和训练单元,用于构建并训练外观专利初次筛选模型,首先利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,得到文本语义特征再使用卷积神经网络将所述外观专利图像语义特征/>和所述文本语义特征/>映射到相同的语义子空间,分别得到/>和/>最后使用损失函数对所述网络模型进行训练,并形成外观专利初次筛选模型;
外观专利最终筛选模型构建和训练单元,用于构建并训练外观专利最终筛选模型,利用ResNet方法获取外观手绘草图s的语义特征然后将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取/>和/>最后利用所述获取的/>作为目标向量,使得/>和/>能够保留语义标签,并训练形成外观专利最终筛选模型;
外观专利检索与结果输出单元,用于用户输入待检索的关键词文本,以及待检索的手绘草图,首先以关键词文本作为所述外观专利初次筛选模型的输入,进行检索以初次筛选外观专利,然后以可定制语义的手绘草图作为所述外观专利最终筛选模型的输入,在初次筛选出的外观专利的范围内进行检索以完成对外观专利的最终筛选,从而得到精准的外观专利检索结果。
7.如权利要求6所述的基于可定制语义的外观专利图像检索系统,其特征在于,所述手绘草图生成单元,需要用洛迦诺分类法对数据库中的外观专利进行分类,获取分类名称与外观专利的文本(t)-专利(p)对,用于后续网络模型的训练;使用生成对抗神经网络生成外观专利图像的手绘草图s,所述网络由两个生成模型、两个判别模型以及一个分类器组成,生成对抗网络中的生成器均使用了u-net结构,其中一个生成器使用真实图像作为输入,生成对应的手绘草图,另一个生成器使用手绘草图作为输入,生成真实图像,生成对抗网络中的判别器使用卷积神经网络对生成的手绘草图和图像进行判断,若判断当前图像是计算机生成出来的,则判定为0,否则设为1,生成对抗网络中的分类器使用卷积神经网络对生成的图像进行分类。
9.如权利要求6所述的基于可定制语义的外观专利图像检索系统,其特征在于,所述外观专利初次筛选模型构建和训练单元,需要利用Glove词编码器对文本进行编码获得t′,然后利用长短期记忆网络方法对文本进行语义编码,该方法利用循环神经网络进行训练得到特征向量,对特征向量进行分类训练,得到文本内的语义信息,具体地,使用预训练的循环神经网络LSTM来获取文本信息t′的语义特征为了区分特征是来自图像或文本,若来自图像,则分配标签为01,若来自文本,则分配标签10,其设计为3层的卷积网络;确保投影的特征具有对语义标签的判别力;确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;设计损失函数以防止网络模型过拟合;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
10.如权利要求6所述的一种基于可定制语义的外观专利图像检索系统,其特征在于,所述外观专利最终筛选模型构建和训练单元,需要利用ResNet方法对手绘草图进行语义编码,该方法利用卷积神经网络进行训练得到语义特征图,对特语义征图进行分类和回归训练,得到图像内的视觉语义,具体地,使用卷积神经网络ResNet来获取外观手绘草图s的语义特征使用注意力模型能够对给定一张草图/图片的不同区域学习不同权重的特点,将所述外观专利图像语义特征/>和所述草图语义特征/>映射到相同的语义子空间,分别获取和/>为了更好的训练网络,/>中存在着与/>拥有相同语义标签的/>和不同语义标签的为了确保投影的特征能够适应模态差异,即解决模态之间的鸿沟问题;使所述网络模型能够区分图像的来源是外观专利图像还是手绘草图;利用所述获取的/>作为目标向量,使得/>和/>能够保留语义标签,分别使用三种损失函数对所述网络模型进行训练以确保能够执行所述相应的功能;最终整个网络由所述三个提出的损失函数组合训练,直到损失函数的结果达到收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211723818.7A CN116415021A (zh) | 2022-12-30 | 2022-12-30 | 一种基于可定制语义的外观专利图像检索方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211723818.7A CN116415021A (zh) | 2022-12-30 | 2022-12-30 | 一种基于可定制语义的外观专利图像检索方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116415021A true CN116415021A (zh) | 2023-07-11 |
Family
ID=87057114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211723818.7A Pending CN116415021A (zh) | 2022-12-30 | 2022-12-30 | 一种基于可定制语义的外观专利图像检索方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415021A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112734A (zh) * | 2023-10-18 | 2023-11-24 | 中山大学深圳研究院 | 基于语义的知识产权文本表示与分类方法及终端设备 |
-
2022
- 2022-12-30 CN CN202211723818.7A patent/CN116415021A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117112734A (zh) * | 2023-10-18 | 2023-11-24 | 中山大学深圳研究院 | 基于语义的知识产权文本表示与分类方法及终端设备 |
CN117112734B (zh) * | 2023-10-18 | 2024-02-02 | 中山大学深圳研究院 | 基于语义的知识产权文本表示与分类方法及终端设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918671A (zh) | 基于卷积循环神经网络的电子病历实体关系抽取方法 | |
CN109885671B (zh) | 基于多任务学习的问答方法 | |
CN110534087A (zh) | 一种文本韵律层级结构预测方法、装置、设备及存储介质 | |
CN109947954A (zh) | 多任务协同识别方法及系统 | |
CN110148318A (zh) | 一种数字助教系统、信息交互方法和信息处理方法 | |
CN101187990A (zh) | 一种会话机器人系统 | |
CN113191375B (zh) | 一种基于联合嵌入的文本到多对象图像生成方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
Xiong et al. | Decoding sentiments: Enhancing covid-19 tweet analysis through bert-rcnn fusion | |
CN113705238B (zh) | 基于bert和方面特征定位模型的方面级情感分析方法及系统 | |
CN111680484A (zh) | 一种视觉常识推理问答题的答题模型生成方法和系统 | |
CN116415021A (zh) | 一种基于可定制语义的外观专利图像检索方法与系统 | |
CN116975776A (zh) | 一种基于张量和互信息的多模态数据融合方法和设备 | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
CN111930981A (zh) | 一种草图检索的数据处理方法 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN117055724A (zh) | 虚拟教学场景中生成式教学资源系统及其工作方法 | |
Wu et al. | Hierarchical memory decoder for visual narrating | |
CN112668347B (zh) | 文本翻译方法、装置、设备及计算机可读存储介质 | |
Cao et al. | Visual question answering research on multi-layer attention mechanism based on image target features | |
Tzafestas | Advances in Intelligent Systems: Concepts, Tools and Applications | |
CN113590983A (zh) | 描述文本生成方法和装置、文本处理模型的训练方法 | |
CN116662924A (zh) | 基于双通道与注意力机制的方面级多模态情感分析方法 | |
CN116244473A (zh) | 一种基于特征解耦和图知识蒸馏的多模态情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |