CN115878760B - 一种基于图匹配的跨语种专利检索方法及系统 - Google Patents

一种基于图匹配的跨语种专利检索方法及系统 Download PDF

Info

Publication number
CN115878760B
CN115878760B CN202310147690.2A CN202310147690A CN115878760B CN 115878760 B CN115878760 B CN 115878760B CN 202310147690 A CN202310147690 A CN 202310147690A CN 115878760 B CN115878760 B CN 115878760B
Authority
CN
China
Prior art keywords
graph
text
language
distance
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310147690.2A
Other languages
English (en)
Other versions
CN115878760A (zh
Inventor
徐青伟
严长春
裴非
范娥媚
蔡明睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinghe Zhiyuan Technology Co ltd
Zhiguagua Tianjin Big Data Technology Co ltd
Original Assignee
Zhiguagua Tianjin Big Data Technology Co ltd
Beijing Zhiguquan Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhiguagua Tianjin Big Data Technology Co ltd, Beijing Zhiguquan Technology Service Co ltd filed Critical Zhiguagua Tianjin Big Data Technology Co ltd
Priority to CN202310147690.2A priority Critical patent/CN115878760B/zh
Publication of CN115878760A publication Critical patent/CN115878760A/zh
Application granted granted Critical
Publication of CN115878760B publication Critical patent/CN115878760B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于图匹配的跨语种专利检索方法及系统,通过对不同语种的专利构建专利文本树,匹配当前专利和对比专利的专利表征图中节点和边的关系,基于最优传输算法实现跨语种专利检索。本发明提出的专利检索方法,利用专利文本内部篇章、段落等结构特征与文本片段之间的相似度将不同语种的专利构建为图,充分利用了专利文本的结构特征和文本内在的关联信息,结合图注意力机制对专利节点进行编码,使用最优传输算法实现图匹配,提升了跨语种专利检索的查全率和查准率。

Description

一种基于图匹配的跨语种专利检索方法及系统
技术领域
本发明涉及文献检索技术领域,具体涉及一种基于图匹配的跨语种专利检索方法及系统。
背景技术
检索是专利申请、审查等流程中必不可少的步骤,检索结果直接关系到专利质量评估以及知识产权保护。随着各个国家专利申请量的增长,跨语种专利检索已经成为专利检索的迫切需要。传统的检索主要在中文、英文全文库中进行,缺乏对小语种专利文献全文信息的覆盖。且传统的专利检索方法通常为基于关键词、专利号、申请人等指定内容类型的检索,导致检索效率低下且准确率不高。因此,如何实现精准高效的跨语种专利检索已经成为专利检索领域的一项重要研究内容。
当前的专利检索方法一般基于关键词、申请人、专利号等检索项构建布尔检索式,利用搜索引擎在专利数据库中进行检索;或者基于机器翻译将当前语种翻译为待检索语种,利用语义相似度进行检索。现有检索方法均未利用专利文本的结构特征以及专利文本内在的关联信息,且由于机器翻译的准确度直接影响检索准确度,导致最终检索结果的完整性和准确度整体不高。
发明内容
针对现有技术的不足,本发明提供的一种基于图匹配的跨语种专利检索方法及系统,通过衡量不同语种专利之间的相似程度实现专利检索,提升跨语种专利检索的查全率和查准率。
为了实现上述目的,本发明提供如下技术方案:
本发明一方面提供了一种基于图匹配的跨语种专利检索方法,包括:
获取包含篇章段落结构的专利文本信息,按照预定规则对文本进行拆分,并保留原始文本结构,生成专利文本树;
应用文本语法和语义相似度算法计算节点文本的相似度,当相似度超过预定阈值时在专利文本树中添加关联关系,构建完整的专利表征图;
使用为不同的自然语言处理任务提供支持的通用语言模型对专利表征图中的节点进行初步编码,应用注意力机制,得到融合相邻节点语义信息的编码表示;
基于图中节点的编码表示,计算两个表征图之间的最短传输距离,作为衡量不同语种专利相似程度的评价指标;
在目标语种对应的专利库中检索,选择与输入专利距离最近的前k个候选专利,作为检索结果返回给用户,k为正整数。
优选地,其中,按照预定规则对文本进行拆分采用正则表达式进行文本分割。
优选地,采用词移距离(WMD)算法进行文本相似度计算。
优选地,采用伯特(Bert)模型对专利表征图中的节点进行初步编码。
更适宜地,使用瓦瑟斯坦(Wasserstein)距离计算图节点集合之间的匹配度,使用格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离计算图中边集合的匹配度,并通过求解最优传输问题得到两个图之间的最短传输距离。
另一方面,本发明还提供一种基于图匹配的跨语种专利检索系统,包括:
专利文本分割单元,用于获取包含篇章段落结构的专利文本信息,按照预定规则对文本进行拆分,并保留原始文本结构,生成专利文本树;
专利表征图构建单元,用于应用文本语法和语义相似度算法计算节点文本的相似度,当相似度超过预定阈值时在专利文本树中添加关联关系,构建完整的专利表征图;
注意力机制编码单元,用于使用为不同的自然语言处理任务提供支持的通用语言模型对专利表征图中的节点进行初步编码,应用注意力机制,得到融合相邻节点语义信息的编码表示;
匹配度计算单元,用于基于图中节点的编码表示,计算两个表征图之间的最短传输距离,作为衡量不同语种专利相似程度的评价指标;
选择单元,用于在目标语种对应的专利库中检索,选择与输入专利距离最近的前k个候选专利,作为检索结果返回给用户,k为正整数。
优选地,采用伯特(Bert)模型对专利表征图中的节点进行初步编码。
更适宜地,使用瓦瑟斯坦(Wasserstein)距离计算图节点集合之间的匹配度,使用格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离计算图中边集合的匹配度,并通过求解最优传输问题得到两个图之间的最短传输距离。
另外,本发明实施例提供一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述生成专利摘要的方法。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时前述生成专利摘要的方法。
本发明具有如下优点:
本发明提供的技术方案,通过将专利文本按照文档结构进行逐句、逐单元的拆分,在保留原始文档结构的基础上,通过词移距离WMD算法量化专利内部文本之间的关联关系,构建完整的专利表征图,通过图注意力机制充分融合专利文本之间的语义信息,得到节点的编码表示,使用最优传输算法计算图中文本信息及图结构的综合匹配度,通过衡量不同语种专利之间的相似程度实现专利检索。弥补了传统专利检索方法对专利信息利用不充分的缺陷。从根本上解决了跨语种专利检索时机器翻译不准确的问题,有利于提升跨语种专利检索的查全率和查准率。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其他的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例提供的基于图匹配的跨语种专利检索方法流程图;
图2为本发明实施例中构建的专利文本树示意图;
图3为本发明实施例构建的专利表征图的示意图;
图4为本发明实施例中的瓦瑟斯坦(Wasserstein)距离与格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离示意图示意图;
图5本发明实施例提供的基于图匹配的跨语种专利检索的系统构成示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术的缺点,本发明提出了一种基于图注意力机制和最优传输算法的跨语种专利检索方法,利用专利文本内部篇章、段落等结构特征与文本片段之间的相似度将不同语种的专利构建为图,充分利用了专利文本的结构特征和文本内在的关联信息,结合图注意力机制对专利节点进行编码,使用最优传输算法实现图匹配,提升了跨语种专利检索的查全率和查准率。
本发明是一种适用于跨语种专利检索的技术方法,通过对不同语种的专利构建专利文本树,匹配当前专利和对比专利的专利表征图中节点和边的关系,基于最优传输算法实现跨语种专利检索。具体包括专利文本分割、专利表征图构建、注意力机制编码、匹配度计算等。
专利文本分割,分别对专利的标题、摘要、权利要求、说明书部分中的文本按照预定的规则进行分割,根据专利的篇章结构和单元结构,生成专利文本树。
专利表征图构建,是保持文本树中节点的基本关系不变,根据节点对应文本之间的相似关系在图中添加边,构建完整的专利表征图。
注意力机制编码,使用伯特(Bert)模型(一种为不同的自然语言处理(NLP,Natural Language Processing)任务提供支持的通用的新型语言模型)编码将节点对应文本向量化,再根据专利表征图中节点的邻接关系,应用注意力机制对节点实现进一步编码。
匹配度计算,将当前专利与对比专利分别构建表征图,分别计算图节点之间的匹配度及图中边集合的匹配度,并通过求解最优传输问题得到两个图之间的最短传输距离。
参见图1,本发明实施例提供的基于图匹配的跨语种专利检索方法,包括如下步骤:
S101,获取包含篇章段落结构的专利文本信息,按照预定规则对文本进行拆分,并保留原始文本结构,生成专利文本树;
S102,应用文本语法和语义相似度算法计算节点文本的相似度,当相似度超过预定阈值时在专利文本树中添加关联关系,构建完整的专利表征图;
S103,使用为不同的自然语言处理任务提供支持的通用语言模型对专利表征图中的节点进行初步编码,应用注意力机制,得到融合相邻节点语义信息的编码表示;
S104,基于图中节点的编码表示,计算两个表征图之间的最短传输距离,作为衡量不同语种专利相似程度的评价指标;
S105,在目标语种对应的专利库中检索,选择与输入专利距离最近的前k个候选专利,作为检索结果返回给用户,k为正整数。
为了使本发明的原理、特性和优点更加清楚,下面对本发明的技术方案进行详细描述。
专利文本分割,分别对专利的标题、摘要、权利要求、说明书部分中的文本按照预定的规则进行分割。参见图2,具体而言,根据专利的篇章结构和单元结构,以文本中的句子、段落中的标点符号为分隔符,将逻辑上关系紧密的句群(例如,权利要求项,说明书中的技术领域、背景技术、发明内容、附图说明、具体实施方式等)为基本组成单元,对当前专利文本和对比专利文本分别进行文本分割,进而构建专利文本树结构。文本分割方法有字符串分割、正则表达式匹配等。优选地,本专利选用正则表达式进行文本分割。
参见图3,专利表征图构建是以专利文本树中节点间的组成关系为基础,应用文本语法和语义相似度算法,计算各节点对应文本之间的相似度,节点间相似度超过一定阈值时在图中添加边,进而构建专利表征图。由于原有专利文本树中节点间关系仅限于单篇文档内部各组成部分间的关联关系,无法表征不同专利文本逻辑单元之间的关联关系,导致专利表征图中表示关联关系的边的稀疏性,无法有效表征跨语种专利文本间的细粒度语义相似性。
通过上述文本相似度计算补充的表示专利文本之间关联关系的图上的边,进一步丰富和完善了专利文本间细粒度关联关系,有利于提升跨语种专利的相似度计算的准确率。
传统上,计算文本相似度的方法有编辑距离、杰卡德系数、TF-IDF、BM25、词移距离(WMD, Word Mover's Distance)等算法。本发明实施例中,本发明选用词移距离WMD算法进行文本相似度计算。
词移距离WMD,是度量两个文本文档之间距离的一种方式(方法),用于判断两个文本之间的相似度。 这个距离越大相距越远,相似度则越小,即词移距离WMD越大相似度越小,词移距离WMD越小文本相似度越大。
注意力机制编码,使用文本编码算法将节点对应文本编码为向量,再根据专利表征图中节点的邻接关系,应用注意力机制对节点实现进一步编码。通过向量化的文本编码,能够将离散空间中的文本编码到连续表征空间中,充分表征文件间的语法语义相似度,结合注意力机制进一步强化文本间的相似度表征。目前常用的向量编码方法有BoW(词袋模型)、Word2Vec(用于产生词向量的相关模型)、GloVe(词向量模型)、伯特Bert模型(一种为不同的自然语言处理((NLP) 任务提供支持的通用语言模型)等。Bert具有文本上下文表征编码的能力,被广泛用于当前主流文本理解任务中。优选地,本发明选用Bert模型进行文本向量化编码。
伯特BERT(Bidirectional Encoder Representation from Transformers,双向Transformer的Encoder)模型,具有双向转换处理的编码器,是一种为不同的自然语言处理(NLP) 任务提供支持的通用的新型语言模型,它基于谷歌2017年发布的处理转换器(Transformer)架构,通过联合调节所有层中的双向Transformer来训练预训练深度双向表示。先进性在于使用掩码语言模型(MLM,Masked Langauge Model)和下句预测(NSP, NextSentence Prediction)的新预训练任务。
匹配度计算,将当前专利文本与对比专利文本分别构建表征图,通过图匹配度计算专利表征图间的相似度,对当前专利文本在候选专利库中的相似专利进行检索和排序,实现精准高效的跨语种专利检索。传统上,图匹配通过图编辑距离、最大公共子图、统计特征等算法,基于节点集合、边集合、子图结构相似度进行计算,对候选图进行相似度排序后输出。参见图4,作为优选,本发明使用瓦瑟斯坦(Wasserstein)距离计算图节点集合之间的匹配度,使用格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离计算图中边集合的匹配度,并通过求解最优传输问题得到两个图之间的最短传输距离。匹配度计算详见后面的描述。
本发明实施例提供的一种基于图匹配的跨语种专利检索方法,包括专利文本分割、专利表征图构建、注意力机制编码、匹配度计算;
所述专利文本分割即将整篇专利的文本依照预定规则进行分割。首先是将专利文本依照小标题划分为标题、摘要、权利要求、说明书四个部分,标题部分直接作为专利文本树的叶子节点,摘要部分按照句子进行分割,即使用正则表达式对句末标识标点进行匹配(如为中文专利则匹配‘。’,如为英文专利则匹配‘.’,其他语种专利类似),将句子作为文档树的叶子节点。对于权利要求,按照权利要求的序号将其拆分。对于说明书,以发明专利为例,其说明书包含技术领域、背景技术、发明内容、附图说明、具体实施方式这五部分,其中技术领域单独作为叶子节点,背景技术按句子进行分割(处理方式类似摘要),发明内容、附图说明和具体实施方式均按照专利文本的单元标识进行拆分(可使用正则表达式对文本中的‘[’和‘]’进行匹配)。按照上述方式分别对当前专利和对比专利进行文本分割,根据专利文本结构构建专利文本树。
所述专利表征图构建过程是根据专利文本树中各个节点之间的关系,将文档树转化为能够刻画专利语义信息以及专利各部分之间关联的表征图。进而,以文档树为基础,专利文本内部结构保持不变,通过计算节点间的文本相似度在树中添加边,构造表征图。文本相似度通过词移距离WMD算法进行计算。具体步骤如下:
S01,对两段文本分别进行分词,除去停用词,将处理后的文本记为s1,s2
S02,设词袋词典大小为n,使用归一化的词袋模型分别表示两段文本,即如果词i在文本中出现的次数为ci,则词i的归一化词频为
Figure SMS_1
S03,使用word2vec,将s1,s2中的每个词转化为其向量表示;
S04,对于s1中的词xi和s2中的词yi(xi,和yi均为向量表示),计算它们之间的距离
Figure SMS_2
, i=1,…,n , j= 1,…,n ;/>
S05,计算s1中的所有词移动到s2中所需要的最小移动距离,即求
Figure SMS_3
subject to:
Figure SMS_4
其中 ci 词i在s1中的归一化词频,
Figure SMS_5
为词j在s2中的归一化词频,T为转移矩阵,
Figure SMS_6
表示有多少词i从s1移动到了s2的词j,使用线性规划的方法求解上述最小化移动距离问题,得到最小移动距离dist(s1,s2);
S06,计算两段文本的相似度
Figure SMS_7
当相似度超过预定阈值时(这里取0.85),在对应的节点间连一条边。
对当前专利和对比专利分别构建专利表征图,记为G1,G2。
注意力机制编码,首先,根据专利语种选择相应的伯特(Bert)模型(对于中文专利,选择中文Bert预训练模型Bert-base-chinese;对于英文专利,选择英文预训练模型Bert-base-uncased;对于其他语种专利,选择多语种预训练模型Bert-base-multilingual-uncased)对专利表征图中的文本节点进行初步编码,即将节点文本转化为768维的向量。然后在图神经网络中应用注意力机制,图注意力机制的思想是,以伯特(Bert)预训练模型的初步编码结果作为节点的初始特征,节点的输出特征为其相邻节点特征的加权,权重通过注意力计算结果得到,即通过注意力机制将邻接节点的信息融合到当前节点的特征表示当中。
其对可生性预训练(GPT,Generative Pre-Training)语言模型做了进一步的改进,通过左、右两侧上下文来预测当前词和通过当前句子预测下一个句子,预训练的伯特(Bert)表征可以仅用一个额外的输出层进行微调,在不对任务特定架构做出大量修改条件下,就可以为很多任务创建当前最优模型。
具体步骤:
设图中有N个节点,节点的初始特征为
Figure SMS_8
,i=1,…,n为得到维度为p的输出特征,将初始特征作线性变换,设 />
Figure SMS_9
为可学习的线性变换参数矩阵,对特征作线性变换得变换后特征
Figure SMS_10
。对于与节点i相邻的节点j,使用结构为单层神经网络的注意力机制计算它相对于节点i的重要性,用函数/>
Figure SMS_11
表示神经网络的线性映射部分,神经网络使用LeakReLU作为激活函数,那么节点j对节点i的重要性可表示为/>
Figure SMS_12
。然后,对节点重要性进行归一化处理,得到节点i的输出特征中相对节点j的权重 />
Figure SMS_13
,其中/>
Figure SMS_14
表示与节点i相邻的所有节点的集合。最后,节点i的输出特征由其相邻节点的特征的线性组合以及sigmod 函数计算得到,即
Figure SMS_15
匹配度计算,是指当前专利和对比专利表征图的匹配度计算,包括图中节点的匹配度和边的匹配度。其中,节点匹配度通过瓦瑟斯坦(Wasserstein)距离度量,边的匹配度通过格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离度量。记
Figure SMS_16
分别为当前专利和对比专利表征图的所有节点的特征向量(特征向量即为上述注意力机制计算后的输出特征)所构成的集合,其中xi,yi均为向量,s,t分别为当前专利和对比专利表征图的节点数目。设 />
Figure SMS_17
为节点特征对应的离散概率分布,其中
Figure SMS_18
满足: />
Figure SMS_19
,Ixi和Iyj是分别以xi,和yi为中心的狄拉克函数。
瓦瑟斯坦(Wasserstein)距离计算,首先计算两个表征图节点之间的距离矩阵
Figure SMS_20
两个节点之间的距离采用向量余弦距离计算,即
Figure SMS_21
。设T=(Tij)为传输方案,Tij表示从xi输送到yi的数量,
Figure SMS_22
为传输方案需要满足的约束条件。则在传输方案T下,离散分布u和v之间的瓦瑟斯坦(Wasserstein)距离可表示为
Figure SMS_23
,求解最优传输距离,只需求解
Figure SMS_24
格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离计算,首先分别计算两个表征图内部节点间的距离矩阵
Figure SMS_25
和 />
Figure SMS_26
,依然采用余弦距离计算,即
Figure SMS_27
,/>
Figure SMS_28
。然后通过内部节点间的距离计算两对节点(即两条边)/>
Figure SMS_29
和 />
Figure SMS_30
之间的转移代价
Figure SMS_31
。那么u和v之间的格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离可表示为
Figure SMS_32
,求解最优传输距离,只需求解
Figure SMS_33
为得到一个共同的传输方案,综合瓦瑟斯坦(Wasserstein)距离与格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离,使用辛克霍恩(Sinkhorn)算法求解最优传输问题
Figure SMS_34
的解,
Figure SMS_35
,其中 />
Figure SMS_36
为超参数(这里取 />
Figure SMS_37
)。计算得到的最短传输距离可以用来衡量当前专利和对比专利的相似程度,距离越小说明两篇专利的相似程度越高,距离越大说明两篇专利的相似程度越小。分别计算当前专利和每一个对比专利的最短传输距离,按照距离大小对检索结果进行排序,从而实现跨语种的相似专利检索。
参见图5,本发明实施例提供的一种基于图匹配的跨语种专利检索系统50,包括:
专利文本分割单元510,用于获取包含篇章段落结构的专利文本信息,按照预定规则对文本进行拆分,并保留原始文本结构,生成专利文本树;
专利表征图构建单元520,用于应用文本语法和语义相似度算法计算节点文本的相似度,当相似度超过预定阈值时在专利文本树中添加关联关系,构建完整的专利表征图;
注意力机制编码单元530,用于使用为不同的自然语言处理任务提供支持的通用语言模型对专利表征图中的节点进行初步编码,应用注意力机制,得到融合相邻节点语义信息的编码表示;
匹配度计算单元540,用于基于图中节点的编码表示,计算两个表征图之间的最短传输距离,作为衡量不同语种专利相似程度的评价指标;
选择单元550,用于在目标语种对应的专利库中检索,选择与输入专利距离最近的前k个候选专利,作为检索结果返回给用户,k为正整数。
本发明实施例中还提供了一种基于图匹配的跨语种专利检索的系统,其工作原理、各单元的功能及具体处理流程与前述实施例中描述的基于图匹配的跨语种专利检索方法类同,在此不再赘述。
另外,本发明的实施例还提供一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执前述基于图匹配的跨语种专利检索的方法。
本发明的实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现基于图匹配的跨语种专利检索的方法。
本发明取得的技术效果:
本发明提供了一种基于图匹配的跨语种专利检索方法,将专利文本按照文档结构进行逐句、逐单元的拆分,在保留原始文档结构的基础上,通过词移距离WMD算法量化专利内部文本之间的关联关系,构建完整的专利表征图,通过图注意力机制充分融合专利文本之间的语义信息,得到节点的编码表示,使用最优传输算法计算图中文本信息及图结构的综合匹配度,通过衡量不同语种专利之间的相似程度实现专利检索。
第一,本发明通过构建专利表征图,最大限度地保留了专利文本的结构信息,同时更加关注文档组成单元之间的关联,并在此基础上通过注意力机制编码,充分利用了专利内部文本之间的关联信息,对专利外在及内部信息进行了深度挖掘,很好地弥补了传统专利检索方法对专利信息利用不充分的缺陷。
第二,本发明创造性地应用最优传输算法,使用瓦瑟斯坦(Wasserstein)距离和格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离分别刻画不同语种专利图所包含的点集合和边集合的匹配程度,从而将不同语种专利的相似度计算转化为图匹配问题,从根本上解决了跨语种专利检索时机器翻译不准确的问题,有利于提升跨语种专利检索的查全率和查准率。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于图匹配的跨语种专利检索方法,其特征在于,包括:
获取包含篇章段落结构的专利文本信息,按照预定规则对文本进行拆分,并保留原始文本结构,生成专利文本树;
应用文本语法和语义相似度算法计算节点文本的相似度,当相似度超过预定阈值时在专利文本树中添加关联关系,构建完整的专利表征图;
使用为不同的自然语言处理任务提供支持的通用语言模型对专利表征图中的节点进行初步编码,应用注意力机制,得到融合相邻节点语义信息的编码表示;
基于图中节点的编码表示,应用节点之间瓦瑟斯坦(Wasserstein)距离结合边之间格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离计算两个表征图之间的最短传输距离,作为衡量不同语种专利相似程度的评价指标;
在目标语种对应的专利库中检索,选择与输入专利距离最近的前k个候选专利,作为检索结果返回给用户,k为正整数。
2.如权利要求1所述的基于图匹配的跨语种专利检索方法,其特征在于,所述按照预定规则对文本进行拆分具体为:
采用正则表达式进行文本分割。
3.如权利要求1所述的基于图匹配的跨语种专利检索方法,其特征在于,所述应用文本语法和语义相似度算法计算节点文本的相似度,具体为:
采用词移距离算法进行文本相似度计算。
4.如权利要求1所述的基于图匹配的跨语种专利检索方法,其特征在于,所述为不同的自然语言处理任务提供支持的通用语言模型为伯特(Bert)模型。
5.如权利要求1所述的基于图匹配的跨语种专利检索方法,其特征在于,所述计算两个表征图之间的最短传输距离,具体为:
使用瓦瑟斯坦距离计算图节点集合之间的匹配度,使用格罗莫夫-瓦瑟斯坦距离计算图中边集合的匹配度,并通过求解最优传输问题得到两个图之间的最短传输距离。
6.一种基于图匹配的跨语种专利检索系统,其特征在于,包括:
专利文本分割单元,用于获取包含篇章段落结构的专利文本信息,按照预定规则对文本进行拆分,并保留原始文本结构,生成专利文本树;
专利表征图构建单元,用于应用文本语法和语义相似度算法计算节点文本的相似度,当相似度超过预定阈值时在专利文本树中添加关联关系,构建完整的专利表征图;
注意力机制编码单元,用于使用为不同的自然语言处理任务提供支持的通用语言模型对专利表征图中的节点进行初步编码,应用注意力机制,得到融合相邻节点语义信息的编码表示;
匹配度计算单元,用于基于图中节点的编码表示,应用节点之间瓦瑟斯坦(Wasserstein)距离结合边之间格罗莫夫-瓦瑟斯坦(Gromov-Wasserstein)距离计算两个表征图之间的最短传输距离,作为衡量不同语种专利相似程度的评价指标;
选择单元,用于在目标语种对应的专利库中检索,选择与输入专利距离最近的前k个候选专利,作为检索结果返回给用户,k为正整数。
7.如权利要求6所述的基于图匹配的跨语种专利检索系统,其特征在于,所述为不同的自然语言处理任务提供支持的通用语言模型为伯特模型。
8.如权利要求6所述的基于图匹配的跨语种专利检索系统,其特征在于,所述计算两个表征图之间的最短传输距离,具体为:
使用瓦瑟斯坦距离计算图节点集合之间的匹配度,使用格罗莫夫-瓦瑟斯坦距离计算图中边集合的匹配度,并通过求解最优传输问题得到两个图之间的最短传输距离。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述基于图匹配的跨语种专利检索方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现如权利要求1-5中任一项所述基于图匹配的跨语种专利检索方法。
CN202310147690.2A 2023-02-10 2023-02-10 一种基于图匹配的跨语种专利检索方法及系统 Active CN115878760B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310147690.2A CN115878760B (zh) 2023-02-10 2023-02-10 一种基于图匹配的跨语种专利检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310147690.2A CN115878760B (zh) 2023-02-10 2023-02-10 一种基于图匹配的跨语种专利检索方法及系统

Publications (2)

Publication Number Publication Date
CN115878760A CN115878760A (zh) 2023-03-31
CN115878760B true CN115878760B (zh) 2023-05-23

Family

ID=85761469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310147690.2A Active CN115878760B (zh) 2023-02-10 2023-02-10 一种基于图匹配的跨语种专利检索方法及系统

Country Status (1)

Country Link
CN (1) CN115878760B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806552A (zh) * 2021-08-30 2021-12-17 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
JP2011248827A (ja) * 2010-05-31 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> 言語横断型情報検索方法、言語横断型情報検索システム及び言語横断型情報検索プログラム
CN106294639B (zh) * 2016-08-01 2020-04-21 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN110309268B (zh) * 2019-07-12 2021-06-29 中电科大数据研究院有限公司 一种基于概念图的跨语言信息检索方法
CN112257419B (zh) * 2020-11-06 2021-05-28 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
US11886446B2 (en) * 2021-04-05 2024-01-30 Baidu Usa Llc Cross-lingual language models and pretraining of cross-lingual language models
CN115617956A (zh) * 2022-12-16 2023-01-17 北京知呱呱科技服务有限公司 一种基于多模态注意力图谱的专利检索方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806552A (zh) * 2021-08-30 2021-12-17 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN115878760A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN113239181B (zh) 基于深度学习的科技文献引文推荐方法
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及系统
CN105095204B (zh) 同义词的获取方法及装置
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
CN112560501B (zh) 语义特征的生成方法、模型训练方法、装置、设备及介质
CN113010693A (zh) 融合指针生成网络的知识图谱智能问答方法
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN111522910B (zh) 一种基于文物知识图谱的智能语义检索方法
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN108614897B (zh) 一种面向自然语言的内容多样化搜索方法
CN107402960B (zh) 一种基于语义语气加权的倒排索引优化算法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
WO2015051481A1 (en) Determining collection membership in a data graph
WO2021205080A1 (en) System and method for performing a search in a vector space based search engine
CN115617956A (zh) 一种基于多模态注意力图谱的专利检索方法及系统
CN111680264A (zh) 一种多文档阅读理解方法
Arora et al. Artificial Intelligence as Legal Research Assistant.
CN112732862B (zh) 一种基于神经网络的双向多段落阅读零样本实体链接方法和装置
CN115878760B (zh) 一种基于图匹配的跨语种专利检索方法及系统
CN117453861A (zh) 基于对比学习与预训练技术的代码搜索推荐方法和系统
CN108536796B (zh) 一种基于图的异构本体匹配方法及系统
CN116628303A (zh) 一种基于提示学习的半结构化网页属性值抽取方法和系统
CN114064855B (zh) 一种基于变压器知识库的信息检索方法及系统
CN116561594A (zh) 一种基于Word2vec的法律文件相似度分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Zhiguagua Technology Co.,Ltd.

Patentee after: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguquan Technology Service Co.,Ltd.

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Patentee after: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguagua Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20240514

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region before: China

Patentee before: Zhiguagua (Tianjin) Big Data Technology Co.,Ltd.