CN117150044A - 基于知识图谱的专利处理方法、装置及存储介质 - Google Patents
基于知识图谱的专利处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN117150044A CN117150044A CN202311139773.3A CN202311139773A CN117150044A CN 117150044 A CN117150044 A CN 117150044A CN 202311139773 A CN202311139773 A CN 202311139773A CN 117150044 A CN117150044 A CN 117150044A
- Authority
- CN
- China
- Prior art keywords
- newly submitted
- triplet information
- information corresponding
- marks
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000005516 engineering process Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000011156 evaluation Methods 0.000 claims abstract description 35
- 238000013519 translation Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 50
- 230000011218 segmentation Effects 0.000 claims description 29
- 238000012512 characterization method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 abstract description 11
- 238000013461 design Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种基于知识图谱的专利处理方法、装置及存储介质,可用于金融领域或其他技术领域。该方法包括:获取新提交的专利;对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息;根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度;根据所述文本相似度和所述余弦相似度,确定所述新提交的专利价值。本申请的方法,降低成本的同时,降低人工筛选的劳动强度以及人工评价的不确定性,可以实现批量评价,从而提高对新申请专利审批的处理进度,进而提升企业的核心竞争力。
Description
技术领域
本申请涉及金融领域或其他技术领域,尤其涉及一种基于知识图谱的专利处理方法、装置及存储介质。
背景技术
随着金融科技领域的发展,银行业逐渐重视核心技术研发和自主知识产权掌握,并通过申请专利来保护核心技术。
由于金融业本身涉及内容的多方面性,使得发明人能够产生与金融业相关的多种专利思路和专利方向,但这些专利思路和专利方向中既存在有价值的专利,也存在无价值的专利,很明显,对无价值的专利进行专利申请,会耗费大量人力和物力资源,因此,需要将多种专利思路和专利方向进行评估筛选。
现有银行业对待申请专利的价值评估主要依靠专利代理人或知识产权专员等人力资源进行逐一检索评价,这种人工筛选方式的主观因素影响大,且耗时长,效率低。
发明内容
本申请提供一种基于知识图谱的专利处理方法、装置及存储介质,用以解决现有银行业对待申请专利的价值评估主要依靠人工筛选方式的主观因素影响大,且耗时长,效率低的问题。
第一方面,本申请提供一种基于知识图谱的专利处理方法,包括:
获取新提交的专利;
对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息;
根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度;其中,所述现有专利的知识图谱中存储有已公开金融类专利的三元组信息;
根据所述文本相似度和所述余弦相似度,确定所述新提交的专利价值;其中,所述文本相似度与所述专利价值呈反比,所述余弦相似度与所述专利价值呈正比。
在一种可能的设计中,所述对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息,包括:
基于分词算法和语言表征模型,对所述新提交的专利中进行词汇提取和词性标注,以得到与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇;
根据所述与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,所述根据所述与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到所述新提交的专利对应的三元组信息,包括:
根据TextRank算法对所述新提交的专利的摘要进行关键词提取,以得到多个带有权重标识的关键词;
若所述新提交的专利中带有名词标识的词汇为两个且所述带有动词标识的词汇大于一个,则在所述多个带有权重标识的关键词中查找与带有动词标识的词汇相匹配的第一目标关键词;
将与第一目标关键词中权重最大关键词相匹配的词汇作为三元组信息中的关系,两个带有名词标识的词汇分别作为三元组信息中的头实体和尾实体,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,还包括:
若所述新提交的专利中带有名词标识的词汇大于两个且所述带有动词标识的词汇为一个,则在所述多个带有权重标识的关键词中查找与带有名词标识的词汇相匹配的第二目标关键词;
将与第二目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的头实体和尾实体,带有名词标识的词汇作为三元组信息中的关系,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,还包括:
若所述新提交的专利中带有名词标识的词汇大于两个且所述带有动词标识的词汇大于一个,则在所述多个带有权重标识的关键词中分别查找与带有动词标识和带有名词标识的词汇相匹配的第三目标关键词和第四目标关键词;
将与第三目标关键词中权重最大的关键词相匹配的词汇以及与第四目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的关系、头实体和尾实体,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,所述根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度之前,所述方法还包括:
根据已公开金融类专利和TextRank算法,确定所述已公开金融类专利对应的三元组信息;
根据所述已公开金融类专利对应的三元组信息和TransH算法,得到现有专利的知识图谱。
在一种可能的设计中,所述根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度,包括:
根据预设金融科技类热门名词和现有专利的知识图谱,得到金融科技类热门名词的三元组信息;
对所述新提交的专利对应的三元组信息和金融科技类热门名词的三元组信息计算余弦相似度。
第二方面,本申请提供一种基于知识图谱的专利处理装置,包括:
获取模块,用于获取新提交的专利。
处理模块,用于对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息。
所述处理模块,还用于根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度。其中,所述现有专利的知识图谱中存储有已公开金融类专利的三元组信息。
所述处理模块,还用于根据所述文本相似度和所述余弦相似度,确定所述新提交的专利价值。其中,所述文本相似度与所述专利价值呈反比,所述余弦相似度与所述专利价值呈正比。
在一种可能的设计中,所述处理模块,具体用于对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息,包括:
基于分词算法和语言表征模型,对所述新提交的专利中进行词汇提取和词性标注,以得到与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇;
根据所述与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,所述处理模块,具体用于根据所述与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到所述新提交的专利对应的三元组信息,包括:
根据TextRank算法对所述新提交的专利的摘要进行关键词提取,以得到多个带有权重标识的关键词;
若所述新提交的专利中带有名词标识的词汇为两个且所述带有动词标识的词汇大于一个,则在所述多个带有权重标识的关键词中查找与带有动词标识的词汇相匹配的第一目标关键词;
将与第一目标关键词中权重最大关键词相匹配的词汇作为三元组信息中的关系,两个带有名词标识的词汇分别作为三元组信息中的头实体和尾实体,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,所述处理模块还具体用于:
若所述新提交的专利中带有名词标识的词汇大于两个且所述带有动词标识的词汇为一个,则在所述多个带有权重标识的关键词中查找与带有名词标识的词汇相匹配的第二目标关键词;
将与第二目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的头实体和尾实体,带有名词标识的词汇作为三元组信息中的关系,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,所述处理模块还具体用于:
若所述新提交的专利中带有名词标识的词汇大于两个且所述带有动词标识的词汇大于一个,则在所述多个带有权重标识的关键词中分别查找与带有动词标识和带有名词标识的词汇相匹配的第三目标关键词和第四目标关键词;
将与第三目标关键词中权重最大的关键词相匹配的词汇以及与第四目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的关系、头实体和尾实体,以得到所述新提交的专利对应的三元组信息。
在一种可能的设计中,所述处理模块还具体用于根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度之前,根据已公开金融类专利和TextRank算法,确定所述已公开金融类专利对应的三元组信息;
根据所述已公开金融类专利对应的三元组信息和TransH算法,得到现有专利的知识图谱。
在一种可能的设计中,所述处理模块还具体用于根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度,包括:
根据预设金融科技类热门名词和现有专利的知识图谱,得到金融科技类热门名词的三元组信息;
对所述新提交的专利对应的三元组信息和金融科技类热门名词的三元组信息计算余弦相似度。
第三方面,本申请提供一种服务器,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现基于知识图谱的专利处理方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现基于知识图谱的专利处理方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现基于知识图谱的专利处理方法。
本申请提供的基于知识图谱的专利处理方法、装置及存储介质,通过获取新提交的专利;对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息;根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度;根据所述文本相似度和所述余弦相似度,确定所述新提交的专利价值。相较于现有技术中银行业对待申请专利的价值评估主要依靠人工筛选方式的主观因素影响大,且耗时长,效率低的缺陷,本申请通过算法进行自动评价,降低成本的同时,降低人工筛选的劳动强度以及人工评价的不确定性,可以实现批量评价,从而提高对新申请专利审批的处理进度,进而提升企业的核心竞争力。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的基于知识图谱的专利处理的应用场景示意图;
图2为本申请实施例提供的基于知识图谱的专利处理方法的流程示意图一;
图3为本申请实施例提供的基于知识图谱的专利处理方法的流程示意图二;
图4为本申请实施例提供的基于知识图谱的专利处理装置的结构示意图;
图5为本申请实施例提供的服务器的硬件结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是本申请的一些方面相一致的装置和方法的例子。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
需要说明的是,本申请提供的基于知识图谱的专利处理方法、装置及存储介质可用于金融领域或其他技术领域,也可用于除金融领域或其他技术领域之外的任意领域,本申请对基于知识图谱的专利处理方法、装置及存储介质的应用领域不做限定。
首先对本申请所涉及的相关概念或名词进行解释:
知识图谱:是指用来提升搜索引擎功能的辅助知识库。知识图谱用图模型来表述人类认识并构建与世界万物之间关系的技术方式,实质上是表述实体与实体之间关系的一个语义网,其基本构成单元为“(头)实体-关系-(尾)实体”的三元组,包括实体及其关联属性值对,至少两个名词词性的实体之间通过至少一个动词词性的关系互相连接,从而形成网状知识结构。
jieba分词:是指一种分词算法,支持精确模式、全模式和搜索引擎模式三种分词模式,其中,精确模式试图将语句最精确的切分,不存在冗余数据,适合做文本分析;全模式将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据;搜索引擎模式在精确模式的基础上,对长词再次进行切分,提高召回率,适合用于搜索引擎分词。
SnowNLP:是指一个常用的Python文本分析库,可用于中文分词、词性标注、提取摘要、分割句子、提取文本关键词等方面。
语言表征模型(Bidirectional Encoder Representation from Transformers,Bert):是指一种对于任意的词序列,能够计算出这个序列是一句话的概率的模型,从文本生成角度来说,也可以理解为给定一个短语(一个词组或一句话),语言模型可以生成(预测)接下来的一个词。
TextRank算法:是指一种基于图的排序算法,主要应用有关键词提取、文本摘要抽取等。该算法的主要思想是:把文档中的词(句)看成一个网络,词(句)之间的语义关系为网络之间的链接。通过迭代计算获得权重值,通常词频越高计算的权重值越高。
由于TextRank算法的核心思想主要是基于图模型而实现,满足如下公式:
式中,S(vi)为节点vi的评分;d为阻尼系数;wji为连接节点vi与vj的边的权重即跳转概率;In(vi)代表指向vi节点集合;Out(vj)代表节点vj所指向的节点的集合。
TransH算法:是指一种三元组关系表达方式,其原理是将关系定义在超平面上,将实体投影到了超平面上,因而对于相同实体,在不同关系下,他们在超平面的上的关系可以同时成立,使得同一实体在不同关系或三元组中所代表的意义可以不同,相当于实体拥有了分布式表示,可以帮助模型解决多对一、一对多、多对多关系建模的问题。
bleu评价指标:常用来衡量一组机器产生的翻译句子集合(candidates)与一组人工翻译句子(references)的相似程度。低阶BLUE衡量的是单词级别的准确性,高阶BLUE可以衡量句子的流畅性。
余弦相似度:是指通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。另外,它还通常用于文本挖掘中的文件比较。
随着金融科技与金融创新的发展,银行科技创新专利不断增多,实用发明专利已成为促进银行金融创新的重要知识基础,当前对于新提交的发明专利,通常采用专利代理人或知识产权专员进行人工筛选的方式评估其价值和创新性,以在申请计划阶段对众多专利进行布局和筛选,以降低申请量对企业成本支出的负担,又由于专利是与申请时间强相关的任务,而人工筛选方式明显耗时长,很容易因评价时间延误影响到专利的新创性,并且人为主观因素影响大,对筛选的人工有一定的条件限制,从而进一步加剧了人工筛选的难度和复杂度。
基于上述技术问题,本申请的发明构思在于:对新提交的专利和现有专利均进行三元组信息提取,从文本相似度和余弦相似度两方面分别表征内容的新颖性和方向的热门性,从而更全面的表征新提交专利的新创性,旨在解决现有技术的如上技术问题。
本申请具体的应用场景如下:
图1为本申请实施例提供的基于知识图谱的专利处理方法应用场景示意图。如图1所示,用于专利管理的服务器102预先通过互联网从其他服务器103中获取已公开的专利,并对已公开的专利进行三元组信息的提取,构建包含已公开的专利的知识图谱;并且,服务器102还预先存储专业领域的热门词汇,以得到预设金融科技类热门名词,并根据预设金融科技类热门名词从知识图谱中查找到对应的热门三元组信息,且该预设金融科技类热门名词定期更新。在用户需要查询新提交的专利新创性时,将待查询的专利通过客户端101发送至服务器102中,服务器102在接收到专利后,同样进行三元组信息的提取,从而降低与知识图谱中已存储的现有专利的比较难度。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的基于知识图谱的专利处理方法流程示意图一。如图2所示,该方法包括:
S201、获取新提交的专利。
其中,新提交的专利至少包含题目和内容。
S202、对该新提交的专利提取关键词,以确定该新提交的专利对应的三元组信息。
具体来说,由于新提交的专利中包含的词汇量较大,且词性众多,在提取关键词以组成三元组信息前需要先进行预处理,以使提取的词汇完整,避免随机抽取导致原本完整的词汇被破坏,进而无法准确进行后期的评价计算。
在预处理时首先需要将金融科技类词汇进行划分,以得到专业词汇的分词,然后再根据常规词汇进行分词。分词手段包括但不限于jieba分词和SnowNLP。分词结束后,由于三元组信息需要包含作为实体的名词和作为关系的动词,因而需要对分词后的词汇进行进一步筛选,仅选择名词词性和动词词性的词汇,且将筛选出的词汇进行词性标记。
对于一篇专利来说,名词和动词的词汇量仍然较大,为了构建相对准确的三元组信息,需要更进一步的采用TextRank算法,提取出更精准的关键词。
S203、根据该新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度。
具体来说,现有专利的知识图谱是预先将现有专利进行关键词提取后,组成现有专利的三元组信息,然后根据现有专利的三元组信息构建得到现有专利的知识图谱。
将提取的三元组信息与现有专利的知识图谱中三元组信息相比较,由于现有专利的知识图谱中三元组信息存储的内容相对全面,且都为已公开的专利信息,因此,若提取的三元组信息与其越相近,则表明该提取的三元组信息公开程度越高,进而反映出新提交的专利新颖性较小。
这里相近程度可以用相似度来表征,由于仅比较组成三元信息的文本相似度,因而可以利用机器翻译评价指标等文本相似度评价指标来计算相似度。
S204、根据该新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度。
其中,该现有专利的知识图谱中存储有已公开金融类专利的三元组信息。
具体来说,现有专利的知识图谱中存储的三元组信息较为全面,通过预设金融科技类热门名词训练后,可以筛选出与预设金融科技类热门名词相对应的三元组信息,而预设金融科技类热门名词又代表着专利价值相对较高的专利,即专利的热门方向,因此,比较新提交的专利对应的三元组信息与预设金融科技类热门名词相对应的三元组信息之间的接近程度,越接近表明新专利所描述的专利方向越热门,也就表明专利的创新性越高。
由于新提交的专利对应的三元组信息与预设金融科技类热门名词相对应的三元组信息可能是一对多或多对多的关系,因而不能直接比较三元组信息内的名词的文本相似度,可以通过余弦相似度来计算,以提高创新度判断的准确性。
S205、根据该文本相似度和该余弦相似度,确定该新提交的专利价值。
其中,该文本相似度与该专利价值呈反比,该余弦相似度与该专利价值呈正比。
具体来说,同时考虑文本相似度和余弦相似度,并将文本相似度与余弦相似度合并处理后得到的数值,作为新提交的专利价值评分,实现专利的多角度评价。
本实施例提供的方法,通过获取新提交的专利;对该新提交的专利提取关键词,确定该新提交的专利对应的三元组信息;根据该新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据该新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度;根据该文本相似度和该余弦相似度,确定该新提交的专利价值;其中,该文本相似度与该专利价值呈反比,该余弦相似度与该专利价值呈正比的手段,使专利通过算法进行自动评价,降低成本的同时,降低人工筛选的劳动强度以及人工评价的不确定性,提高对新申请专利审批的处理进度,进而提升企业的核心竞争力。
下面结合一个具体的实施例,对本申请的基于知识图谱的专利处理方法进行详细说明。
图3为本申请实施例提供的基于知识图谱的专利处理方法流程示意图二。如图3所示,该方法包括:
S301、获取新提交的专利。
S302、基于分词算法和语言表征模型,对该新提交的专利中进行词汇提取和词性标注,以得到与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇。
具体来说,在对新提交的专利进行关键词提取之前,首先对专利进行分词处理,由于每个行业都有其专有词汇,在分析时还需要考虑切分位置,以避免将专有词汇分割,因此,首先通过预先构建的专有词汇库对专利中的词汇进行初步筛选,然后再用对常见词汇进行切分的jieba分词进行处理,以提高切分的准确性和词语的完整性。
由于三元组信息需要一个构成关系的动词和两个构成实体的名词,为了方便构建三元组信息,分词结束后,需要对切分的词汇再进行词性标注,由于仅需要标注需要的名词和动词,标注难度较低,这里采用常见的Bert模型即可。
S303、根据TextRank算法对该新提交的专利的摘要进行关键词提取,以得到多个带有权重标识的关键词。
具体来说,由于TextRank算法能够通过迭代计算获取每一词汇对应的词频,进而根据词频定义其权重值,并将权重值高的作为关键词提取,符合专利的写作规律。
但在对题目进行关键词提取时,会遇到题目相对复杂的情况,在仅通过题目权重值无法准确判断时,通常采用如下手段:
S304、若该新提交的专利中带有名词标识的词汇为两个且该带有动词标识的词汇大于一个,则在该多个带有权重标识的关键词中查找与带有动词标识的词汇相匹配的第一目标关键词。
具体来说,由于三元组信息需要两个名词和一个动词来构建,当题目中动词对应的关键词大于一个时,选择哪一个作为能代表该题目的三元组信息中的动词就比较关键,而又由于题目中包含的内容较少,因而需要从其他参考源处,例如摘要中获取参考信息,以辅助确定与题目最匹配的三元组信息。
对摘要同样先进行分词和词性标注处理,然后利用TextRank算法对摘要进行关键词提取,确定出每一关键词对应的权重标识,然后根据题目中的动词和摘要中确定出的动词权重标识,确定题目中的动词对应的权重。
S305、将与第一目标关键词中权重最大关键词相匹配的词汇作为三元组信息中的关系,两个带有名词标识的词汇分别作为三元组信息中的头实体和尾实体,以得到该新提交的专利对应的三元组信息。
具体来说,将题目中的动词对应的权重最大的动词作为题目对应的三元组信息中的关系,再根据已经确定的两个名词关键词,就可以得到新提交的专利对应的三元组信息。
S306、若该新提交的专利中带有名词标识的词汇大于两个且该带有动词标识的词汇为一个,则在该多个带有权重标识的关键词中查找与带有名词标识的词汇相匹配的第二目标关键词。
具体来说,同理,当题目中名词对应的关键词大于两个时,同样对摘要先进行分词和词性标注处理,然后利用TextRank算法对摘要进行关键词提取,确定出每一关键词对应的权重标识,然后根据题目中的名词和摘要中确定出的名词权重标识,确定题目中的名词对应的权重。
S307、将与第二目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的头实体和尾实体,带有名词标识的词汇作为三元组信息中的关系,以得到该新提交的专利对应的三元组信息。
具体来说,将题目中的名词对应的权重最大的两个名词作为题目对应的三元组信息中的关系,再根据已经确定的一个动词关键词,就可以得到新提交的专利对应的三元组信息。
S308、若该新提交的专利中带有名词标识的词汇大于两个且该带有动词标识的词汇大于一个,则在该多个带有权重标识的关键词中分别查找与带有动词标识和带有名词标识的词汇相匹配的第三目标关键词和第四目标关键词。
具体来说,同理,当题目中名词对应的关键词大于两个、动词对应的关键词大于一个时,同样对摘要先进行分词和词性标注处理,然后利用TextRank算法对摘要进行关键词提取,确定出每一关键词对应的权重标识,然后根据题目中的名词、动词和摘要中确定出的名词、动词权重标识,确定题目中的名词、动词对应的权重。
S309、将与第三目标关键词中权重最大的关键词相匹配的词汇以及与第四目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的关系、头实体和尾实体,以得到该新提交的专利对应的三元组信息。
具体来说,将题目中的动词对应的权重最大的动词和题目中的名词对应的权重最大的两个名词作为题目对应的三元组信息中的关系,就可以得到新提交的专利对应的三元组信息。
S310、根据已公开金融类专利和TextRank算法,确定该已公开金融类专利对应的三元组信息。
具体来说,同样对已公开金融类专利进行分词和词性标识处理,然后利用TextRank算法对已公开金融类专利进行关键词提取,利用与新提交专利同样的处理方法构建已公开金融类专利对应的三元组信息。
S311、根据该已公开金融类专利对应的三元组信息和TransH算法,得到现有专利的知识图谱。
具体来说,已公开金融类专利对应的三元组信息较多,利用TransH算法对已公开金融类专利对应的三元组信息进行训练,得到具备多对一、一对多和多对多关系且向量化表示的现有专利的知识图谱。
S312、根据该新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度。
具体来说,将提取的三元组信息与现有专利的知识图谱中三元组信息利用bleu评价指标计算文本相似度,文本相似度越高,表明该新提交的专利与现有专利的相似度越大,对应的其方法创新性就越低。
S313、根据预设金融科技类热门名词和现有专利的知识图谱,得到金融科技类热门名词的三元组信息。
具体来说,金融科技类热门名词是预先通过对当前热门方向的名词进行筛选的词汇,由于金融科技类热门名词能够反映当前专利的实用价值,有利于对企业的未来发展奠定基础,因而能够体现专利的新创性,可以作为评价依据,因此,通过金融科技类热门名词对现有专利的知识图谱进行筛选,以得到与金融科技类热门名词相关的三元组信息,便于后期评价比较。
S314、对该新提交的专利对应的三元组信息和金融科技类热门名词的三元组信息,计算余弦相似度。
具体来说,由于知识图谱中新提交的和金融科技类热门名词对应的三元组信息是通过TransH算法训练得到的向量化三元组信息,因此可以计算余弦相似度,且余弦相似度越高,表明该新提交的专利越热门,以提高计算的准确性。
S315、根据该文本相似度和该余弦相似度,确定该新提交的专利价值。
其中,该文本相似度与该专利价值呈反比,该余弦相似度与该专利价值呈正比。
S315的具体方式方式与S205的具体实现方式类似,本实施例此处不再进行赘述。
本实施例提供的方法,通过获取新提交的专利;基于分词算法和语言表征模型,对该新提交的专利中进行词汇提取和词性标注,以得到与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇;根据TextRank算法对该新提交的专利的摘要进行关键词提取,以得到多个带有权重标识的关键词的手段,实现对专利的预处理工作,降低提取难度的同时,提升关键词提取的准确性。
通过根据已公开金融类专利和TextRank算法,确定该已公开金融类专利对应的三元组信息;根据该已公开金融类专利对应的三元组信息和TransH算法,得到现有专利的知识图谱的手段,实现对现有专利的预处理,以将现有专利处理为能与新提交专利相对比的参考库,便于后期的评估。
通过若该新提交的专利中带有名词标识的词汇为两个且该带有动词标识的词汇大于一个,则在该多个带有权重标识的关键词中查找与带有动词标识的词汇相匹配的第一目标关键词;将与第一目标关键词中权重最大关键词相匹配的词汇作为三元组信息中的关系,两个带有名词标识的词汇分别作为三元组信息中的头实体和尾实体,以得到该新提交的专利对应的三元组信息;若该新提交的专利中带有名词标识的词汇大于两个且该带有动词标识的词汇为一个,则在该多个带有权重标识的关键词中查找与带有名词标识的词汇相匹配的第二目标关键词;将与第二目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的头实体和尾实体,带有名词标识的词汇作为三元组信息中的关系,以得到该新提交的专利对应的三元组信息;若该新提交的专利中带有名词标识的词汇大于两个且该带有动词标识的词汇大于一个,则在该多个带有权重标识的关键词中分别查找与带有动词标识和带有名词标识的词汇相匹配的第三目标关键词和第四目标关键词;将与第三目标关键词中权重最大的关键词相匹配的词汇以及与第四目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的关系、头实体和尾实体,以得到该新提交的专利对应的三元组信息的手段,实现对复杂句子中关键词的提取和确认,筛选出能够准确表达专利内容的最重要的三元组信息。
通过根据该新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;根据预设金融科技类热门名词和现有专利的知识图谱,得到金融科技类热门名词的三元组信息;对该新提交的专利对应的三元组信息和金融科技类热门名词的三元组信息计算余弦相似度;根据该文本相似度和该余弦相似度,确定该新提交的专利价值;其中,该文本相似度与该专利价值呈反比,该余弦相似度与该专利价值呈正比的手段,从文本相似度来评价文本的创新性,同时从余弦相似度来评价专利方向的热门程度,从而从两方面综合评价得到新提交的专利对应的专利价值,便于批量处理较多的新提交专利,节省审核的人力资源和时间。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
进一步需要说明的是,虽然流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图4为本申请实施例提供的基于知识图谱的专利处理装置的结构示意图。如图4所示,该装置包括:
获取模块401,用于获取新提交的专利。
处理模块402,用于对该新提交的专利提取关键词,确定该新提交的专利对应的三元组信息。
该处理模块402,还用于根据该新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据该新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度。其中,该现有专利的知识图谱中存储有已公开金融类专利的三元组信息。
该处理模块402,还用于根据该文本相似度和该余弦相似度,确定该新提交的专利价值。其中,该文本相似度与该专利价值呈反比,该余弦相似度与该专利价值呈正比。
进一步的,该处理模块402,具体用于对该新提交的专利提取关键词,确定该新提交的专利对应的三元组信息,包括:
基于分词算法和语言表征模型,对该新提交的专利中进行词汇提取和词性标注,以得到与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇;
根据该与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到该新提交的专利对应的三元组信息。
进一步的,该处理模块402,具体用于根据该与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到该新提交的专利对应的三元组信息,包括:
根据TextRank算法对该新提交的专利的摘要进行关键词提取,以得到多个带有权重标识的关键词;
若该新提交的专利中带有名词标识的词汇为两个且该带有动词标识的词汇大于一个,则在该多个带有权重标识的关键词中查找与带有动词标识的词汇相匹配的第一目标关键词;
将与第一目标关键词中权重最大关键词相匹配的词汇作为三元组信息中的关系,两个带有名词标识的词汇分别作为三元组信息中的头实体和尾实体,以得到该新提交的专利对应的三元组信息。
进一步的,在上述实施例的基础上,该处理模块402还具体用于:
若该新提交的专利中带有名词标识的词汇大于两个且该带有动词标识的词汇为一个,则在该多个带有权重标识的关键词中查找与带有名词标识的词汇相匹配的第二目标关键词;
将与第二目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的头实体和尾实体,带有名词标识的词汇作为三元组信息中的关系,以得到该新提交的专利对应的三元组信息。
进一步的,在上述实施例的基础上,该处理模块402还具体用于:
若该新提交的专利中带有名词标识的词汇大于两个且该带有动词标识的词汇大于一个,则在该多个带有权重标识的关键词中分别查找与带有动词标识和带有名词标识的词汇相匹配的第三目标关键词和第四目标关键词;
将与第三目标关键词中权重最大的关键词相匹配的词汇以及与第四目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的关系、头实体和尾实体,以得到该新提交的专利对应的三元组信息。
进一步的,在上述实施例的基础上,该处理模块402还具体用于根据该新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度之前,根据已公开金融类专利和TextRank算法,确定该已公开金融类专利对应的三元组信息;
根据该已公开金融类专利对应的三元组信息和TransH算法,得到现有专利的知识图谱。
进一步的,在上述实施例的基础上,该处理模块402还具体用于根据该新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度之前,根据预设金融科技类热门名词和现有专利的知识图谱,得到金融科技类热门名词的三元组信息。
本实施例提供的基于知识图谱的专利处理装置,可执行上述实施例的基于知识图谱的专利处理方法,其实现原理和技术效果类似,本实施例此处不再赘述。
应该理解,上述的装置实施例仅是示意性的,本申请的装置还可通过其它的方式实现。
例如,上述实施例中单元/模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
例如,多个单元、模块或组件可以结合,或者可以集成到另一个系统,或一些特征可以忽略或不执行。
另外,若无特别说明,在本申请各个实施例中的各功能单元/模块可以集成在一个单元/模块中,也可以是各个单元/模块单独物理存在,也可以两个或两个以上单元/模块集成在一起。
上述集成的单元/模块既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。
在前述的基于知识图谱的专利处理装置的具体实现中,各模块可以被实现为处理器,处理器可以执行存储器中存储的计算机执行指令,使得处理器执行上述的基于知识图谱的专利处理方法。
图5为本申请实施例提供的服务器的硬件结构示意图。如图5所示,该服务器包括:
至少一个处理器501和存储器502。
该服务器还包括通信部件503。其中,处理器501、存储器502以及通信部件503通过总线504连接。
在具体实现过程中,至少一个处理器501执行该存储器502存储的计算机执行指令,使得至少一个处理器501执行如上服务器侧所执行的基于知识图谱的专利处理方法。
处理器501的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述针对服务器以及主控设备所实现的功能,对本发明实施例提供的方案进行了介绍。可以理解的是,服务器或主控设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本发明实施例中所公开的实施例描述的各示例的单元及算法步骤,本发明实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的技术方案的范围。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现基于知识图谱的专利处理方法。
本实施例提供的计算机程序产品,可执行上述实施例的基于知识图谱的专利处理方法,其实现原理和技术效果类似,本实施例此处不再赘述。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当处理器执行该计算机执行指令时,实现如上基于知识图谱的专利处理方法。
本实施例提供的计算机可读存储介质,可执行上述实施例的基于知识图谱的专利处理方法,其实现原理和技术效果类似,本实施例此处不再赘述。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于服务器或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
Claims (10)
1.一种基于知识图谱的专利处理方法,其特征在于,包括:
获取新提交的专利;
对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息;
根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度;其中,所述现有专利的知识图谱中存储有已公开金融类专利的三元组信息;
根据所述文本相似度和所述余弦相似度,确定所述新提交的专利价值;其中,所述文本相似度与所述专利价值呈反比,所述余弦相似度与所述专利价值呈正比。
2.根据权利要求1所述的方法,其特征在于,所述对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息,包括:
基于分词算法和语言表征模型,对所述新提交的专利中进行词汇提取和词性标注,以得到与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇;
根据所述与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到所述新提交的专利对应的三元组信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述与题目对应的至少两个带有名词标识的词汇和至少一个带有动词标识的词汇和TextRank算法,确定两个带有名词标识的关键词和一个带有动词标识的关键词分别作为三元组信息的头实体、尾实体和关系,以得到所述新提交的专利对应的三元组信息,包括:
根据TextRank算法对所述新提交的专利的摘要进行关键词提取,以得到多个带有权重标识的关键词;
若所述新提交的专利中带有名词标识的词汇为两个且所述带有动词标识的词汇大于一个,则在所述多个带有权重标识的关键词中查找与带有动词标识的词汇相匹配的第一目标关键词;
将与第一目标关键词中权重最大关键词相匹配的词汇作为三元组信息中的关系,两个带有名词标识的词汇分别作为三元组信息中的头实体和尾实体,以得到所述新提交的专利对应的三元组信息。
4.根据权利要求3所述的方法,其特征在于,还包括:
若所述新提交的专利中带有名词标识的词汇大于两个且所述带有动词标识的词汇为一个,则在所述多个带有权重标识的关键词中查找与带有名词标识的词汇相匹配的第二目标关键词;
将与第二目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的头实体和尾实体,带有名词标识的词汇作为三元组信息中的关系,以得到所述新提交的专利对应的三元组信息。
5.根据权利要求3所述的方法,其特征在于,还包括:
若所述新提交的专利中带有名词标识的词汇大于两个且所述带有动词标识的词汇大于一个,则在所述多个带有权重标识的关键词中分别查找与带有动词标识和带有名词标识的词汇相匹配的第三目标关键词和第四目标关键词;
将与第三目标关键词中权重最大的关键词相匹配的词汇以及与第四目标关键词中权重最大的前两个关键词相匹配的两个词汇分别作为三元组信息中的关系、头实体和尾实体,以得到所述新提交的专利对应的三元组信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度之前,所述方法还包括:
根据已公开金融类专利和TextRank算法,确定所述已公开金融类专利对应的三元组信息;
根据所述已公开金融类专利对应的三元组信息和TransH算法,得到现有专利的知识图谱。
7.根据权利要求6所述的方法,其特征在于,所述根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度,包括:
根据预设金融科技类热门名词和现有专利的知识图谱,得到金融科技类热门名词的三元组信息;
对所述新提交的专利对应的三元组信息和金融科技类热门名词的三元组信息计算余弦相似度。
8.一种基于知识图谱的专利处理装置,其特征在于,包括:
获取模块,用于获取新提交的专利;
处理模块,用于对所述新提交的专利提取关键词,确定所述新提交的专利对应的三元组信息;
所述处理模块,还用于根据所述新提交的专利对应的三元组信息和现有专利的知识图谱,基于机器翻译评价指标计算文本相似度;并根据所述新提交的专利对应的三元组信息、预设金融科技类热门名词和现有专利的知识图谱,计算余弦相似度;其中,所述现有专利的知识图谱中存储有已公开金融类专利的三元组信息;
所述处理模块,还用于根据所述文本相似度和所述余弦相似度,确定所述新提交的专利价值;其中,所述文本相似度与所述专利价值呈反比,所述余弦相似度与所述专利价值呈正比。
9.一种服务器,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139773.3A CN117150044A (zh) | 2023-09-05 | 2023-09-05 | 基于知识图谱的专利处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311139773.3A CN117150044A (zh) | 2023-09-05 | 2023-09-05 | 基于知识图谱的专利处理方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117150044A true CN117150044A (zh) | 2023-12-01 |
Family
ID=88911666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311139773.3A Pending CN117150044A (zh) | 2023-09-05 | 2023-09-05 | 基于知识图谱的专利处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150044A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972113A (zh) * | 2024-03-13 | 2024-05-03 | 广东省华南技术转移中心有限公司 | 基于属性知识图谱的专利授权预测评估的方法和系统 |
-
2023
- 2023-09-05 CN CN202311139773.3A patent/CN117150044A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117972113A (zh) * | 2024-03-13 | 2024-05-03 | 广东省华南技术转移中心有限公司 | 基于属性知识图谱的专利授权预测评估的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN109299480B (zh) | 基于上下文语境的术语翻译方法及装置 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN105138511B (zh) | 一种对搜索关键词进行语义分析的方法和系统 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN109783631B (zh) | 社区问答数据的校验方法、装置、计算机设备和存储介质 | |
WO2019169858A1 (zh) | 一种基于搜索引擎技术的数据分析方法及系统 | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN111191002A (zh) | 一种基于分层嵌入的神经代码搜索方法及装置 | |
CN114818891B (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN110874528B (zh) | 文本相似度的获取方法及装置 | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN112765974B (zh) | 一种业务辅助方法、电子设备及可读存储介质 | |
CN110895656B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN113761868B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN117150044A (zh) | 基于知识图谱的专利处理方法、装置及存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 | |
Guo et al. | Japanese translation teaching corpus based on bilingual non parallel data model | |
CN111259126A (zh) | 基于词语特征的相似度计算方法、装置、设备及存储介质 | |
CN113672705A (zh) | 简历筛选方法、装置、设备、介质及程序产品 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |