CN116912047A - 一种专利结构感知相似性检测方法 - Google Patents
一种专利结构感知相似性检测方法 Download PDFInfo
- Publication number
- CN116912047A CN116912047A CN202311178236.XA CN202311178236A CN116912047A CN 116912047 A CN116912047 A CN 116912047A CN 202311178236 A CN202311178236 A CN 202311178236A CN 116912047 A CN116912047 A CN 116912047A
- Authority
- CN
- China
- Prior art keywords
- patent document
- detected
- training
- structural
- deep
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008447 perception Effects 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- JXASPPWQHFOWPL-UHFFFAOYSA-N Tamarixin Natural products C1=C(O)C(OC)=CC=C1C1=C(OC2C(C(O)C(O)C(CO)O2)O)C(=O)C2=C(O)C=C(O)C=C2O1 JXASPPWQHFOWPL-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种专利结构感知相似性检测方法,包括以下步骤:输入待检测专利文档,提取待检测专利文档的结构性元素;根据待检测专利文档的结构性元素,构建专利文档的结构感知模型,并对专利文档的结构感知模型进行训练;所述结构感知模型包括深层编码器、浅层解码器和分类器;基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较,判断待检测专利文档与对比文件集中各对比文件的相似性。本发明解决了现有基于深度学习的专利相似度检测方法未考虑专利的结构信息导致专利相似度检测精度低以及效果不佳的技术问题。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种专利结构感知相似性检测方法。
背景技术
在各种应用中,如专利申请人需要进行检索工作列出相关文献,专利审查员和专利代理人需要通过检索相似专利确定技术方案的新颖性与创造性,专利律师进行侵权检索等,都需要对专利的相似性进行检测。目前,现有的深度学习技术多聚焦于提取专利的语义信息进行相似性检测,例如Bert模型、CNN模型以及RNN模型等,然而这些技术忽略了专利的结构信息。专利作为一种长文本,其各部分之间存在内在的逻辑关系,这种逻辑关系通过专利的结构得以表现。若依据此结构来设计模型,能更好的提取语义信息,特别是增强模型对关键词句的提取能力。因此,有必要对现有的专利相似性检测中的深度学习技术进行改进,使之能够利用专利的结构信息。
发明内容
本发明的主要目的是提出一种专利结构感知相似性检测方法,旨在解决现有基于深度学习的专利相似度检测方法未考虑专利的结构信息导致专利相似度检测精度低以及效果不佳的技术问题。
为实现上述目的,本发明提供一种专利结构感知相似性检测方法,其中,所述专利结构感知相似性检测方法包括以下步骤:
S1、输入待检测专利文档,提取待检测专利文档的结构性元素;
S2、根据待检测专利文档的结构性元素,构建专利文档的结构感知模型,并对专利文档的结构感知模型进行训练;所述结构感知模型包括深层编码器、浅层解码器和分类器;
S3、基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较,判断待检测专利文档与对比文件集中各对比文件的相似性。
优选方案之一,所述结构性元素包括标题、摘要、权利要求书、背景技术、发明内容和具体实施方式。
优选方案之一,所述步骤S2对专利文档的结构感知模型进行训练,包括:
第一训练阶段,基于所述待检测专利文档的结构性元素对深层编码器和浅层解码器语义提取进行训练;第二训练阶段,基于深层编码器提取的语义向量对分类器相似性判断进行训练。
优选方案之一,所述第一训练阶段包括对深层编码器进行训练,具体为:
获取待检测专利文档的任一结构性元素的token序列,随机将结构性元素的token序列第一百分比的token进行掩盖,形成深层编码器训练文本的token序列;
根据所述深层编码器训练文本对深层编码器进行训练,并计算深层编码器损失函数;
通过深层编码器器进行结构性元素文本的语义提取。
优选方案之一,所述计算深层编码器损失函数,具体为:
;
其中,为深层编码器的损失函数,为被预测的token,为待检测专利
文档的任一结构性元素的token序列,为待检测专利文档的任一结构性元素的token
序列中被掩盖的第一百分比的token。
优选方案之一,所述通过深层编码器进行结构性元素文本的语义提取,具体为:
;
其中,为待检测专利文档的任一结构性元素的语义表示,为深层编码器,为深层编码器训练文本的token序列。
优选方案之一,所述第一训练阶段包括对浅层解码器进行训练,具体为:
获取待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列,随机将结构性元素的token序列第二百分比的token进行掩盖,形成浅层解码器训练文本的token序列;
根据所述深层编码器得到的待检测专利文档的任一结构性元素的语义表示以及浅层解码器训练文本对浅层解码器进行训练,并计算浅层解码器损失函数。
优选方案之一,所述计算浅层解码器损失函数,具体为:
;
其中,为浅层解码器的损失函数,为被预测的token,为待检测专利
文档不同于深层编码器的任一项或多项结构性元素的token序列,为待检测专利文
档不同于深层编码器的任一项或多项结构性元素的token序列中被掩盖的第二百分比的
token。
优选方案之一,所述基于深层编码器提取的语义向量对分类器相似性判断进行训练之后,还包括:计算分类器的损失函数,具体为:
;
其中,为分类器的损失函数,为待检测专利文档与对比文件集中对比文件
的配对数量,为待检测专利文档与对比文件集中第n个对比文件配对真实值与
预测值的交叉熵损失,为分类器经softmax函数的输出,为待检测专利文档与对比文
件集中第n个对比文件配对的标签。
优选方案之一,其特征在于,所述深层编码器和浅层解码器采用多层堆叠的Transformer模型,所述分类器采用MLP模型。
本发明的上述技术方案中,该专利结构感知相似性检测方法包括以下步骤:输入待检测专利文档,提取待检测专利文档的结构性元素;根据待检测专利文档的结构性元素,构建专利文档的结构感知模型,并对专利文档的结构感知模型进行训练;所述结构感知模型包括深层编码器、浅层解码器和分类器;基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较,判断待检测专利文档与对比文件集中各对比文件的相似性。本发明解决了现有基于深度学习的专利相似度检测方法未考虑专利的结构信息导致专利相似度检测精度低以及效果不佳的技术问题。
在本发明中,根据提取并分析专利文档的结构性元素以及基于结构性元素之间的内在逻辑关系构建专利文档的结构感知模型,可以在检测专利相似性时考虑专利文档的结构信息,并利用该结构信息提升编码专利文本中关键词句的能力,从而提供更加精确的相似性检测结果。
附图说明
为了更清楚地说明本发明实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明实施例一种专利结构感知相似性检测方法的示意图;
图2为本发明实施例结构感知模型训练示意图;
图3为本发明实施例结构感知模型的结构示意图。
本发明目的实现、功能特点及优点将结合实施方式,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
需要说明,本发明实施方式中所有方向性指示(诸如上、下……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
并且,本发明各个实施方式之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参见图1-图3,根据本发明的一方面,本发明提供一种专利结构感知相似性检测方法,其中,所述专利结构感知相似性检测方法包括以下步骤:
S1、输入待检测专利文档,提取待检测专利文档的结构性元素;
S2、根据待检测专利文档的结构性元素,构建专利文档的结构感知模型,并对专利文档的结构感知模型进行训练;所述结构感知模型包括深层编码器、浅层解码器和分类器;
S3、基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较,判断待检测专利文档与对比文件集中各对比文件的相似性。
具体地,在本实施例中,所述结构性元素包括标题、摘要、权利要求书、背景技术、发明内容和具体实施方式;每个结构性元素都是构成专利文档的一部分文本,本发明选择结构性元素的原则为,在一个专利文档中,如果两种结构性元素之间可以找到相关关键词句,则认为该结构性元素为两种不同的、具有内在逻辑关系的结构性元素,可则以将这两部分文本作为两种结构性元素来提取;例如,权利要求书与背景技术均会涉及大量相关的技术名词,通过权利要求书和背景技术之间的逻辑关系进行深层编码器和浅层解码器训练,可以提高深层编码器提取技术名词的能力。
具体地,在本实施例中,所述结构感知模块包括深层编码器、浅层解码器和分类器;所述步骤S2对专利文档的结构感知模型进行训练,包括:第一训练阶段,基于所述待检测专利文档的结构性元素对深层编码器和浅层解码器语义提取进行训练,通过第一阶段训练,利用两种结构元素之间的内在逻辑关系增强深层编码器提取技术名词的能力,本发明以深层编码器和浅层编码器分别处理权利要求书文本与背景技术文本为例进行说明,本发明不进行具体限定,具体可根据需要进行设定,例如,还可以让深层编码器处理权利要求书文本,设置两个浅层解码器分别处理背景技术和具体实施方式等;第二训练阶段,基于深层编码器提取的语义向量对分类器相似性判断进行训练;通过第二训练阶段训练分类器,通过分类器接收专利对,调用经训练增强后的深层编码器生成专利对的语义向量,根据语义向量判断专利对中的两个专利是否相似。
具体地,在本实施例中,所述深层编码器和浅层解码器采用多层堆叠的Transformer模型,所述深层编码器采用Bert模型,所述Bert模型即为在一个通用数据集上训练过的12层Transformer;所述浅层解码器采用随机初始化参数的单层Transformer;通过将待检测专利文档的结构性元素输入至深层编码器和浅层解码器,同时进行训练,并计算共同损失作为训练的总损失。
具体地,在本实施例中,所述第一训练阶段包括对深层编码器进行训练,具体为:
获取待检测专利文档的权利要求书文本的token序列,随机将权利要求书文本的token序列第一百分比的token进行掩盖,形成深层编码器训练文本的token序列;其中,所述权利要求书文本的token序列为:
;
其中,所述第一百分比为15%,本发明不进行具体限定,具体可根据需要进行设
定,随机将权利要求书文本的token序列中15%的token进行掩盖,形成深层编码器训练文
本的token序列;
根据所述深层编码器训练文本对深层编码器进行训练,通过对权利要求文本中未被掩盖的token来预测被掩盖的token,并计算深层编码器损失函数;所述计算深层编码器损失函数,具体为:
;
其中,为深层编码器的损失函数,为被预测的token,为权利要求书
文本的token序列,为权利要求书文本的token序列中被掩盖的第一百分比的token;
通过深层编码器器进行权利要求书文本的语义提取;所述通过深层编码器进行权利要求书文本的语义提取,具体为:
;
其中,为权利要求书文本的语义表示,为深层编码器,为深层编码器
训练文本的token序列。
具体地,在本实施例中,所述所述第一训练阶段包括对浅层解码器进行训练,具体为:
获取待检测专利文档的背景技术文本的token序列,随机将背景技术文本的token序列第二百分比的token进行掩盖,形成浅层解码器训练文本的token序列;所述背景技术文本的token序列为:
;
其中,所述第二百分比为45%,本发明不进行具体限定,具体可根据需要进行设
定,随机将背景技术文本的token序列45%的token进行掩盖,形成浅层解码器训练文本的
token序列;
根据所述深层编码器得到的权利要求书文本的语义表示以及浅层解码器训练文本对浅层解码器进行训练,预测背景技术文本中被掩盖的token,并计算浅层解码器损失函数;所述计算浅层解码器损失函数,具体为:
;
其中,为浅层解码器的损失函数,为被预测的token,为背景技术文
本的token序列,为为背景技术文本的token序列中被掩盖的第二百分比的token。
具体地,在本实施例中,所述深层编码器和浅层解码器的训练是同时进行的,总的损失函数为:
;
其中,为总的损失函数;在训练过程中,为降低总的损失,就必须同时降低深层
编码器和浅层解码器的损失,而浅层解码器因为在背景技术文本中掩盖掉了很多token,预
测正确率会很低,为让浅层解码器预测更佳准确,也即降低浅层解码器损失,就必须充分利
用深层编码器输出的权利要求书文本的语义表示;因为在权利要求书文本中有大量背景技
术文本中也出现过的技术名词,所以深层编码器生成的语义表示,就必须更多的提取这些
名词,才能提高浅层解码器预测的准确率;这些名词为两个结构性元素中共有且大量出现
的,深层编码器在权利要求书文本中提取的越多,浅层解码器就可以把它用在背景技术文
本的预测上,提高自身的准确率,因此深层编码器提取技术名词的能力就得到了加强,而这
些技术名词对判断专利相似性具有重要作用,因此在判断专利相似性时,通过采用经训练
加强后的深层编码器会比常规深层编码器效果更好。
具体地,在本实施例中,所述分类器采用MLP模型或其他相同作用的模型;待检测
专利文档常存在多个候选的对比文件集,为筛选出候选的对比文件集中与待检测专利文档
相似的专利,首先将待检测专利与对比文件集中每一个候选的对比文件拼成专利对,若对
比文件集中存在N个专利,则可得到N个专利对,为每一个专利对都打上标签,专利对中两专
利相似则为,不相似则为;将专利对文本送入分类器中,对于每一个专利对组成
的文本,分类器先调用训练过的深层编码器将文本转化成语义向量表示,然后将语义向量
送入MLP模型,得到分类结果,分类结果为二维向量,向量分布越接近则表示专利对中
两个专利越不相似,越接近表示两个专利越相似;使用分类器对专利对的分类结果与
专利对的真是标签计算损失,所述损失函数为:
;
其中,为分类器的损失函数,为待检测专利文档与对比文件集中对比文件
的配对数量,为待检测专利文档与对比文件集中第n个对比文件配对真实值与
预测值的交叉熵损失,为分类器经softmax函数的输出,为待检测专利文档与对比文
件集中第n个对比文件配对的标签,为或;所述交叉熵损失为:
;
深层编码器经过第一训练阶段的训练,提取关键技术名词的能力得到加强,关键
技术名词对于判断专利相似性具有重要价值,采用训练增强后的深层编码器提取专利对语
义向量使分类器会判断专利相似性效果更好,增强模型对关键词句的提取能力,提高了专
利相似度检测精度;分类器训练完成后,则可以检测两个专利之间的相似性,输出向量接近则判定为相似,接近则判定不相似。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围。
Claims (6)
1.一种专利结构感知相似性检测方法,其特征在于,包括以下步骤:
S1、输入待检测专利文档,提取待检测专利文档的结构性元素;
S2、根据待检测专利文档的结构性元素,构建专利文档的结构感知模型,并对专利文档的结构感知模型进行训练;所述结构感知模型包括深层编码器、浅层解码器和分类器;
所述步骤S2对专利文档的结构感知模型进行训练,包括:
第一训练阶段,基于所述待检测专利文档的结构性元素对深层编码器和浅层解码器语义提取进行训练;第二训练阶段,基于深层编码器提取的语义向量对分类器相似性判断进行训练;
所述第一训练阶段包括对深层编码器进行训练,具体为:
获取待检测专利文档的任一结构性元素的token序列,随机将结构性元素的token序列第一百分比的token进行掩盖,形成深层编码器训练文本的token序列;
根据所述深层编码器训练文本对深层编码器进行训练,并计算深层编码器损失函数;所述计算深层编码器损失函数,具体为:
;
其中,为深层编码器的损失函数,/>为被预测的token,/>为待检测专利文档的任一结构性元素的token序列,/>为待检测专利文档的任一结构性元素的token序列中被掩盖的第一百分比的token;
通过深层编码器器进行结构性元素文本的语义提取;所述通过深层编码器进行结构性元素文本的语义提取,具体为:
;
其中,为待检测专利文档的任一结构性元素的语义表示,/>为深层编码器,/>为深层编码器训练文本的token序列;
S3、基于所述结构感知模型进行待检测专利文档与对比文件集的相似性比较,判断待检测专利文档与对比文件集中各对比文件的相似性。
2.根据权利要求1所述的一种专利结构感知相似性检测方法,其特征在于,所述结构性元素包括标题、摘要、权利要求书、背景技术、发明内容和具体实施方式。
3.根据权利要求1所述的一种专利结构感知相似性检测方法,其特征在于,所述第一训练阶段包括对浅层解码器进行训练,具体为:
获取待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列,随机将结构性元素的token序列第二百分比的token进行掩盖,形成浅层解码器训练文本的token序列;
根据所述深层编码器得到的待检测专利文档的任一结构性元素的语义表示以及浅层解码器训练文本对浅层解码器进行训练,并计算浅层解码器损失函数。
4.根据权利要求3所述的一种专利结构感知相似性检测方法,其特征在于,所述计算浅层解码器损失函数,具体为:
;
其中,为浅层解码器的损失函数,/>为被预测的token,/>为待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列,/>为待检测专利文档不同于深层编码器的任一项或多项结构性元素的token序列中被掩盖的第二百分比的token。
5.根据权利要求1所述的一种专利结构感知相似性检测方法,其特征在于,所述基于深层编码器提取的语义向量对分类器相似性判断进行训练之后,还包括:计算分类器的损失函数,具体为:
;
其中,为分类器的损失函数,/>为待检测专利文档与对比文件集中对比文件的配对数量,/>为待检测专利文档与对比文件集中第n个对比文件配对真实值与预测值的交叉熵损失,/>为分类器经softmax函数的输出,/>为待检测专利文档与对比文件集中第n个对比文件配对的标签。
6.根据权利要求1-5任一项所述的一种专利结构感知相似性检测方法,其特征在于,所述深层编码器和浅层解码器采用多层堆叠的Transformer模型,所述分类器采用MLP模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311178236.XA CN116912047B (zh) | 2023-09-13 | 2023-09-13 | 一种专利结构感知相似性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311178236.XA CN116912047B (zh) | 2023-09-13 | 2023-09-13 | 一种专利结构感知相似性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116912047A true CN116912047A (zh) | 2023-10-20 |
CN116912047B CN116912047B (zh) | 2023-11-28 |
Family
ID=88367261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311178236.XA Active CN116912047B (zh) | 2023-09-13 | 2023-09-13 | 一种专利结构感知相似性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116912047B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421393A (zh) * | 2023-12-18 | 2024-01-19 | 知呱呱(天津)大数据技术有限公司 | 一种用于专利的生成式检索方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160224622A1 (en) * | 2013-09-05 | 2016-08-04 | Jiangsu University | Method for detecting the similarity of the patent documents on the basis of new kernel function luke kernel |
CN112434151A (zh) * | 2020-11-26 | 2021-03-02 | 重庆知识产权大数据研究院有限公司 | 一种专利推荐方法、装置、计算机设备及存储介质 |
CN113515620A (zh) * | 2021-07-20 | 2021-10-19 | 云知声智能科技股份有限公司 | 电力设备技术标准文档排序方法、装置、电子设备和介质 |
CN113761890A (zh) * | 2021-08-17 | 2021-12-07 | 汕头市同行网络科技有限公司 | 一种基于bert上下文感知的多层级语义信息检索方法 |
JP2022052212A (ja) * | 2020-09-23 | 2022-04-04 | 有限責任監査法人トーマツ | 学習装置、学習方法、学習プログラム、及び請求項マップ作成装置 |
CN114328850A (zh) * | 2020-10-12 | 2022-04-12 | 中移动信息技术有限公司 | 知识检索方法、装置、设备和存储介质 |
KR20220057267A (ko) * | 2020-10-29 | 2022-05-09 | 주식회사 세진마인드 | 신경망을 이용한 기술문서 검색 방법, 장치 및 컴퓨터 프로그램 |
WO2022119242A1 (ko) * | 2020-12-04 | 2022-06-09 | (주)윕스 | 인공 지능 기반의 유사 특허 검색 방법 및 그 장치 |
WO2022141872A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 文献摘要生成方法、装置、计算机设备及存储介质 |
US20220343444A1 (en) * | 2014-09-07 | 2022-10-27 | DataNovo, Inc. | Artificial Intelligence, Machine Learning, and Predictive Analytics for Patent and Non-Patent Documents |
CN115758244A (zh) * | 2022-11-18 | 2023-03-07 | 中北大学 | 一种基于sbert的中文专利ipc分类方法 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
-
2023
- 2023-09-13 CN CN202311178236.XA patent/CN116912047B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160224622A1 (en) * | 2013-09-05 | 2016-08-04 | Jiangsu University | Method for detecting the similarity of the patent documents on the basis of new kernel function luke kernel |
US20220343444A1 (en) * | 2014-09-07 | 2022-10-27 | DataNovo, Inc. | Artificial Intelligence, Machine Learning, and Predictive Analytics for Patent and Non-Patent Documents |
JP2022052212A (ja) * | 2020-09-23 | 2022-04-04 | 有限責任監査法人トーマツ | 学習装置、学習方法、学習プログラム、及び請求項マップ作成装置 |
CN114328850A (zh) * | 2020-10-12 | 2022-04-12 | 中移动信息技术有限公司 | 知识检索方法、装置、设备和存储介质 |
KR20220057267A (ko) * | 2020-10-29 | 2022-05-09 | 주식회사 세진마인드 | 신경망을 이용한 기술문서 검색 방법, 장치 및 컴퓨터 프로그램 |
CN112434151A (zh) * | 2020-11-26 | 2021-03-02 | 重庆知识产权大数据研究院有限公司 | 一种专利推荐方法、装置、计算机设备及存储介质 |
WO2022119242A1 (ko) * | 2020-12-04 | 2022-06-09 | (주)윕스 | 인공 지능 기반의 유사 특허 검색 방법 및 그 장치 |
WO2022141872A1 (zh) * | 2020-12-30 | 2022-07-07 | 平安科技(深圳)有限公司 | 文献摘要生成方法、装置、计算机设备及存储介质 |
CN113515620A (zh) * | 2021-07-20 | 2021-10-19 | 云知声智能科技股份有限公司 | 电力设备技术标准文档排序方法、装置、电子设备和介质 |
CN113761890A (zh) * | 2021-08-17 | 2021-12-07 | 汕头市同行网络科技有限公司 | 一种基于bert上下文感知的多层级语义信息检索方法 |
CN115758244A (zh) * | 2022-11-18 | 2023-03-07 | 中北大学 | 一种基于sbert的中文专利ipc分类方法 |
CN116187163A (zh) * | 2022-12-20 | 2023-05-30 | 北京知呱呱科技服务有限公司 | 一种用于专利文件处理的预训练模型的构建方法及系统 |
Non-Patent Citations (3)
Title |
---|
P. NEMANI 等: "A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A Transformer-based Approach", 《2022 IEEE 19TH INDIA COUNCIL INTERNATIONAL CONFERENCE (INDICON)》, pages 1 - 6 * |
师夏阳 等: "基于多语BERT 的无监督攻击性言论检测", 《计算机应用》, pages 3379 - 3385 * |
程戈 等: "基于异构属性图的案件相似度算法研究", 《数据分析与知识发现》, pages 113 - 122 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421393A (zh) * | 2023-12-18 | 2024-01-19 | 知呱呱(天津)大数据技术有限公司 | 一种用于专利的生成式检索方法及系统 |
CN117421393B (zh) * | 2023-12-18 | 2024-04-09 | 知呱呱(天津)大数据技术有限公司 | 一种用于专利的生成式检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116912047B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dahouda et al. | A deep-learned embedding technique for categorical features encoding | |
CN111581973B (zh) | 一种实体消歧方法及系统 | |
CN109325228B (zh) | 英文事件触发词抽取方法和系统 | |
Qu et al. | Joint hierarchical category structure learning and large-scale image classification | |
Schenker et al. | Classification of web documents using graph matching | |
CN116912047B (zh) | 一种专利结构感知相似性检测方法 | |
CN108959270A (zh) | 一种基于深度学习的实体链接方法 | |
CN108959522B (zh) | 基于半监督对抗生成网络的迁移检索方法 | |
CN116151256A (zh) | 一种基于多任务和提示学习的小样本命名实体识别方法 | |
US20110142346A1 (en) | Apparatus and method for blocking objectionable multimedia based on skin color and face information | |
Sait et al. | Deep Learning with Natural Language Processing Enabled Sentimental Analysis on Sarcasm Classification. | |
Li et al. | FrameBERT: Conceptual metaphor detection with frame embedding learning | |
CN113722490A (zh) | 一种基于键值匹配关系的视觉富文档信息抽取方法 | |
CN112131453A (zh) | 一种基于bert的网络不良短文本检测方法、装置及存储介质 | |
Samadi et al. | Persian fake news detection: Neural representation and classification at word and text levels | |
Qiu et al. | Nlp_hz at semeval-2018 task 9: a nearest neighbor approach | |
CN108897739B (zh) | 一种智能化的应用流量识别特征自动挖掘方法与系统 | |
CN107423294A (zh) | 一种社群图像检索方法及系统 | |
Mulang et al. | Context-aware entity linking with attentive neural networks on wikidata knowledge graph | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN114332288A (zh) | 基于短语驱动生成对抗网络的文本生成图像的方法及网络 | |
Roy Chowdhury et al. | D-sieve: a novel data processing engine for efficient handling of crises-related social messages | |
CN114090781A (zh) | 基于文本数据的容斥事件检测方法和装置 | |
Liao et al. | Two-stage fine-grained text-level sentiment analysis based on syntactic rule matching and deep semantic | |
CN113326371A (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |