CN117972113B - 基于属性知识图谱的专利授权预测评估的方法和系统 - Google Patents

基于属性知识图谱的专利授权预测评估的方法和系统

Info

Publication number
CN117972113B
CN117972113B CN202410287038.5A CN202410287038A CN117972113B CN 117972113 B CN117972113 B CN 117972113B CN 202410287038 A CN202410287038 A CN 202410287038A CN 117972113 B CN117972113 B CN 117972113B
Authority
CN
China
Prior art keywords
data
knowledge graph
knowledge
attribute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410287038.5A
Other languages
English (en)
Other versions
CN117972113A (zh
Inventor
赖培源
廖德章
廖晓东
闫永骅
李奎
叶世兵
周海涛
蔡焕涛
李岱素
刘士雨
黄俊铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong South China Technology Transfer Center Co ltd
Original Assignee
Guangdong South China Technology Transfer Center Co ltd
Filing date
Publication date
Application filed by Guangdong South China Technology Transfer Center Co ltd filed Critical Guangdong South China Technology Transfer Center Co ltd
Priority to CN202410287038.5A priority Critical patent/CN117972113B/zh
Publication of CN117972113A publication Critical patent/CN117972113A/zh
Application granted granted Critical
Publication of CN117972113B publication Critical patent/CN117972113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了基于属性知识图谱的专利授权预测评估的方法和系统,基于测试专利文本数据从专利知识图谱进行专利数据检索,基于检索知识数据进行搭建第二知识图谱,根据测试三元组数据与检索知识数据进行相似性分析,得到第一相似度,在第二知识图谱中,将测试三元组数据替换原有三元组数据,形成第三知识图谱,计算第二与第三知识图谱中的结构性差异,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价。通过本发明,能够基于知识图谱,以技术实体、属性、关系三元组进行现有技术的相似性分析,并且基于知识挖掘,分析出测试专利与现有技术的关联性和可替换性,实现科学、精准地预测出授权结果。

Description

基于属性知识图谱的专利授权预测评估的方法和系统
技术领域
本发明涉及知识图谱数据分析领域,更具体的,涉及基于属性知识图谱的专利授权预测评估的方法和系统。
背景技术
在知识产权管理领域,专利授权性预测是一个重要环节。传统的专利授权性预测主要依赖于专家经验和人工审查,这种方法不仅效率低下,而且容易受到主观因素的影响,导致预测结果的准确性和可靠性不足。随着信息化和数据挖掘技术的发展,基于数据分析的专利授权性预测方法逐渐兴起。然而,这些方法通常只关注文本信息,忽略了专利之间的关联性和结构信息,导致预测性能有限。
知识图谱作为一种表示实体间复杂关系的数据结构,在多个领域得到了广泛应用。知识图谱能够整合多源异构数据,构建实体间的关联网络,为数据挖掘和模式识别提供了丰富的信息。因此,有必要开发一种知识图谱的专利授权预测评估的方法,以满足专利领域的技术分析。
发明内容
本发明克服了现有技术的缺陷,提出了基于属性知识图谱的专利授权预测评估的方法和系统。
本发明第一方面提供了一种基于属性知识图谱的专利授权预测评估方法,包括:
基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据;
基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性;
根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习;
获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据;
基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建;
根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息;
引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息。
本方案中,所述基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据,具体为:
从专利数据库中将每份专利数据进行信息提取,得到专利原数据;
将专利原数据进行数据清洗、异常值处理分析;
基于NLP语义分析法,对专利原数据进行基于专利ID,摘要,关键词、专利类别信息进行语义分析与数据提取,将提取数据进行实体命名与关系分析,得到初始专利数据;
将初始专利数据进行基于的三元数据分类与关系提取,形成三元组数据。
本方案中,所述基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性,具体为:
基于每份专利数据,通过NLP语义分析,获取权利要求的引用关系,根据引用关系,确认独立权要与非独立权要;
将独立权要对应的文本数据进行本本表征并形成第一权要属性;
将非独立权要和关联权要合并成整合文本数据进行文本表征,形成第二权要属性。
本方案中,所述根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习,具体为:
根据所述三元组数据、第一权要属性与第二权要属性进行图结构分析与知识图谱数据搭建,形成专利知识图谱;
基于BERT预训练模型对知识图谱进行实体语义关联分析与知识训练,形成训练后的专利知识图谱。
本方案中,所述获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据,具体为:
获取测试专利数据,将测试专利数据转化为专利文本数据;
基于NLP语义分析将所述测试专利文本数据进行三元组提取,形成测试三元组数据;
将测试三元组导入专利知识图谱,基于图结构进行知识检索,并形成检索知识数据。
本方案中,所述基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建,具体为:
基于检索知识数据进行知识图谱搭建,得到第二知识图谱;
基于AMIE算法对第二知识图谱进行关联规则挖掘、知识图谱推理与知识数据补充,形成完整性的第二知识图谱。
本方案中,所述根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息,具体为:
在检索知识数据中,基于NLP语义分析进行三元组数据提取,得到检索三元组数据;
根据标准欧氏距离,计算检索三元组数据与测试三元组数据的数据相似度,并将计算结果标记为第一相似度;
在第二知识图谱进行基于实体、属性数据的统计,得到实体与属性统计数据,将第二知识图谱中的关系数据进行基于图结构的边信息统计,得到关系信息数据;
将实体与属性统计数据、关系信息数据进行数据整合形成第一结构性信息;
在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱;
分析计算第三知识图谱中的结构性信息,并标记为第二结构性信息。
本方案中,所述引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息,具体为:
根据曼哈顿距离法,将第一结构性信息与第二结构性信息分别进行多维数据的向量化,得到第一向量数据与第二向量数据,对第一向量数据与第二向量数据的进行数据距离计算,得到距离值;
以距离值的倒数作为数据关联度;
通过第一相似度与数据关联度进行授权预测评价,并形成预测结果信息。
本发明第二方面还提供了一种基于属性知识图谱的专利授权预测评估系统,该系统包括:存储器、处理器,所述存储器中包括基于属性知识图谱的专利授权预测评估程序,所述基于属性知识图谱的专利授权预测评估程序被所述处理器执行时实现如下步骤:
基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据;
基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性;
根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习;
获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据;
基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建;
根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息;
引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息。
本发明公开了基于属性知识图谱的专利授权预测评估的方法和系统,基于测试专利文本数据从专利知识图谱进行专利数据检索,基于检索知识数据进行搭建第二知识图谱,根据测试三元组数据与检索知识数据进行相似性分析,得到第一相似度,在第二知识图谱中,将测试三元组数据替换原有三元组数据,形成第三知识图谱,计算第二与第三知识图谱中的结构性差异,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价。通过本发明,能够基于知识图谱,以技术实体、属性、关系三元组进行现有技术的相似性分析,并且基于知识挖掘,分析出测试专利与现有技术的关联性和可替换性,实现科学、精准地预测出授权结果。
附图说明
图1示出了本发明一种基于属性知识图谱的专利授权预测评估方法的流程图;
图2示出了本发明专利知识图谱构建流程图;
图3示出了本发明一种基于属性知识图谱的专利授权预测评估系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于属性知识图谱的专利授权预测评估方法的流程图。
如图1所示,本发明第一方面提供了一种基于属性知识图谱的专利授权预测评估方法,包括:
S102,基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据;
S104,基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性;
S106,根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习;
S108,获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据;
S110,基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建;
S112,根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息;
S114,引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息。
需要说明的是,所述检索知识数据包括检测得到的实体、属性、关系数据等,通过知识数据,能够搭建出初始知识图谱。
根据本发明实施例,所述基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据,具体为:
从专利数据库中将每份专利数据进行信息提取,得到专利原数据;
将专利原数据进行数据清洗、异常值处理分析;
基于NLP语义分析法,对专利原数据进行基于专利ID,摘要,关键词、专利类别信息进行语义分析与数据提取,将提取数据进行实体命名与关系分析,得到初始专利数据;
将初始专利数据进行基于的三元数据分类与关系提取,形成三元组数据。
需要说明的是,所述三元数据包括实体、属性、关系的三元关系数据,通过三元组数据,能够进一步构建出知识图谱。
专利数据库为基于测试专利文本数据进行专利大数据初步检索形成的一个专用数据库,用于存储与测试专利接近或者相似的现有专利文件数据,也可以基于需求用户自行设定该库内容;另外,基于检索分析需求,也可以通过相关领域进行初步数据筛选形成专用数据库,后续基于该库专利文本数据构建相关知识图谱。
所述将初始专利数据进行基于的三元数据分类与关系提取,形成三元组数据,三元组的对应信息一般可以为:【专利ID,摘要,关键词1】,【专利ID,摘要,关键词2】,…【专利ID,摘要,关键词n】,【专利ID,主分类,类别信息】,【专利ID,分类,类别信息】,【专利ID,申请人,申请人名称】,【专利ID,发明人,发明人1姓名】【专利ID,发明人,发明人m姓名】,【专利ID,申请时间,时间】等。
专利数据库一般为已有的专利源数据,即现有技术专利,基于用户需求,可以在此基础上进行相关专利的筛选形成特有的专利数据库,如基于一定的日期跨度选择包含的专利专利作为源数据搭建专利知识图谱。基于专利知识图谱,能够在后续在此基础上进行新有专利技术的相似度分析,以预测新有专利的授权率。
另外,在进行实体、属性数据分析时,可以对专利分为三种状态,授权,驳回,实审,(把无效专利也当作授权专利,因为在申请的时间点上无效专利是符合授权要求的,只是一些未缴费或过期导致无效)。在进行专利知识图谱搭建并训练知识数据之前的专利源数据获取中,可以把一个时间点前的专利作为一个训练集(专利数据库),比如2021年1月1日以前的专利作为一个训练集,把2021年1月1日之后作为验证集,进行训练,并通过调参的方式优化训练模型的效果。
根据本发明实施例,所述基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性,具体为:
基于每份专利数据,通过NLP语义分析,获取权利要求的引用关系,根据引用关系,确认独立权要与非独立权要;
将独立权要对应的文本数据进行本本表征并形成第一权要属性;
将非独立权要和关联权要合并成整合文本数据进行文本表征,形成第二权要属性。
需要说明的是,所述独立权要与非独立权要即专利文件中的权利要求。本本表征代表对数据进行向量化表征,形成相关表征数据。
图2示出了本发明专利知识图谱构建流程图。
根据本发明实施例,所述根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习,具体为:
S202,根据所述三元组数据、第一权要属性与第二权要属性进行图结构分析与知识图谱数据搭建,形成专利知识图谱;
S204,基于BERT预训练模型对知识图谱进行实体语义关联分析与知识训练,形成训练后的专利知识图谱。
需要说明的是,所述BERT预训练模型为一种自然语言BERT预训练模型,具有强大的语言理解能力,通过该模型,能够对知识图谱进行上下文语义分析与实体间关系分析,从而进行知识结构的训练,搭建逻辑更为紧密、知识更为丰富的的知识图谱。
根据本发明实施例,所述获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据,具体为:
获取测试专利数据,将测试专利数据转化为专利文本数据;
基于NLP语义分析将所述测试专利文本数据进行三元组提取,形成测试三元组数据;
将测试三元组导入专利知识图谱,基于图结构进行知识检索,并形成检索知识数据。
需要说明的是,所述检索知识数据包括知识数据、检索得到的实体、属性、关系等三元组数据,所述检索知识数据为对测试专利数据具有相似性、相同性的专利知识数据,即现有技术的知识数据,用于后续预测分析授权提供数据支撑。而在本发明中,基于知识图谱的数据检索,能够更加全面、综合性地对现有技术进行相关挖掘,利用知识图谱的数据关联性,检索出关联技术特征能力较佳,另外,知识图谱中具有相关技术关联的特点与知识学习的特点,进而检索出全面的技术特征知识数据。相较于传统技术简单地进行关键词组的检索,本发明具有检索关联性强,知识挖掘性强等特点。
根据本发明实施例,所述基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建,具体为:
基于检索知识数据进行知识图谱搭建,得到第二知识图谱;
基于AMIE算法对第二知识图谱进行关联规则挖掘、知识图谱推理与知识数据补充,形成完整性的第二知识图谱。
需要说明的是,挖掘出的关联规则可以用于知识图谱的完整性搭建和推理。通过分析关联规则,可以发现知识图谱中缺失的实体和关系,从而完善图谱的结构。此外,利用关联规则还可以进行推理,推断出新的实体间关系,进一步扩展和丰富知识图谱。
根据本发明实施例,所述根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息,具体为:
在检索知识数据中,基于NLP语义分析进行三元组数据提取,得到检索三元组数据;
根据标准欧氏距离,计算检索三元组数据与测试三元组数据的数据相似度,并将计算结果标记为第一相似度;
在第二知识图谱进行基于实体、属性数据的统计,得到实体与属性统计数据,将第二知识图谱中的关系数据进行基于图结构的边信息统计,得到关系信息数据;
将实体与属性统计数据、关系信息数据进行数据整合形成第一结构性信息;
在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱;
分析计算第三知识图谱中的结构性信息,并标记为第二结构性信息。
需要说明的是,所述实体与属性统计数据包括实体与属性的数量、关联性、数据大小等统计数据。在知识图谱中,关系数据主要为图结构中边的信息,因此,关系信息数据主要包括连接的实体信息、连接权值、关联信息等边相关的数据。
所述将测试三元组数据中的实体、属性信息在图谱中进行关联替换中,具体为基于实体、属性的关联性相似性将数据进行替换。
所述实体与属性统计数据、关系信息数据记录了整个知识图谱的结构性信息,例如实体与属性的数量与关系,关系数据中在图结构边的数据量与权重等,基于所述结构性信息,能够从整体反映知识图谱的知识结构信息,在本发明中,以知识结构信息作为反映对应专利技术特征结构性的数据,进而分析出测试专利在现有专利中的关系。
在本发明中,第二知识图谱为基于检索出的现有相似专利搭建的知识图谱,用于描述现有技术的知识结构与相应实体数据,第三知识图谱用于描述将测试专利相关实体内容替换第二知识图谱后形成的新知识图谱,可以模拟分析其技术替换后的知识结构是否合理与知识比较,进一步,本发明通过在第二知识图谱中将测试专利的技术特征进行替换,并在第三知识图谱中进行结构性分析,并与原来第二知识图谱中进行结构差异分析,从而分析出测试专利在现有技术中的可替换性、技术特征的关联性、相似性等,该方法基于两张知识图谱进行结构性分析,有效地以知识维度进行相关性挖掘,而专利中的技术特征之间一般具有相关性,符合知识图谱的分析方法。而传统的授权预测基于简单的对比文件数量分析,内容重叠率分析,缺少对核心技术内容的作用分析、关联分析、知识维度的分析,导致预测效果具有一定的局限性。
根据本发明实施例,所述引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息,具体为:
根据曼哈顿距离法,将第一结构性信息与第二结构性信息分别进行多维数据的向量化,得到第一向量数据与第二向量数据,对第一向量数据与第二向量数据的进行数据距离计算,得到距离值;
以距离值的倒数作为数据关联度;
通过第一相似度与数据关联度进行授权预测评价,并形成预测结果信息。
需要说明的是,第一相似度与数据关联度均能反映测试专利的授权性预测结果,预测结果信息包括预测指数,指数等于第一相似度、数据关联度与修正系数三者的乘积,用于作为预测综合评估值,其值越小,代表与现有技术特征关联越小,对应授权可能性越大。第一相似度与数据关联度分别表示技术实体特征与技术应用关联性方面的相似性,用于评估测试专利的授权可能性。
根据本发明实施例,还包括:
基于专利数据库统计信息,获取专利的引用次数、查询频率、查询时间数据;
基于所述引用次数、查询频率、查询时间数据进行高频次专利与低频次专利划分,得到第一专利数据与第二专利数据;
在基于三元组数据搭建专利知识图谱过程中,分析三元组数据中实体数据是否属于第一专利数据或第二专利数据,并划分成两组实体数据;
基于层次聚类方法将两组实体数据分别进行数据聚类。
需要说明的是,在进行知识图谱搭建时,由于专利数据库其数据量一般较大,搭建所需系统花销较大,在进行过程中,需要进行一定的实体聚类分组,在本发明中,通过相关专利查询、引用频次信息,对专利划分出高频与低频专利数据(即第一第二专利数据),进行实体数据的三元组信息整合前,通过划分两组数据并分别进行聚类分组,能够有效进行实体数据的层次分类,在后续提高搭建知识图谱的效率与提高知识结构完整性。
图3示出了本发明一种基于属性知识图谱的专利授权预测评估系统的框图。
本发明第二方面还提供了一种基于属性知识图谱的专利授权预测评估系统3,该系统包括:存储器31、处理器32,所述存储器中包括基于属性知识图谱的专利授权预测评估程序,所述基于属性知识图谱的专利授权预测评估程序被所述处理器执行时实现如下步骤:
基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据;
基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性;
根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习;
获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据;
基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建;
根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息;
引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息。
需要说明的是,所述检索知识数据包括检测得到的实体、属性、关系数据等,通过知识数据,能够搭建出初始知识图谱。
根据本发明实施例,所述基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据,具体为:
从专利数据库中将每份专利数据进行信息提取,得到专利原数据;
将专利原数据进行数据清洗、异常值处理分析;
基于NLP语义分析法,对专利原数据进行基于专利ID,摘要,关键词、专利类别信息进行语义分析与数据提取,将提取数据进行实体命名与关系分析,得到初始专利数据;
将初始专利数据进行基于的三元数据分类与关系提取,形成三元组数据。
需要说明的是,所述三元数据包括实体、属性、关系的三元关系数据,通过三元组数据,能够进一步构建出知识图谱。
所述将初始专利数据进行基于的三元数据分类与关系提取,形成三元组数据,三元组的对应信息一般可以为:【专利ID,摘要,关键词1】,【专利ID,摘要,关键词2】,…【专利ID,摘要,关键词n】,【专利ID,主分类,类别信息】,【专利ID,分类,类别信息】,【专利ID,申请人,申请人名称】,【专利ID,发明人,发明人1姓名】【专利ID,发明人,发明人m姓名】,【专利ID,申请时间,时间】等。
专利数据库一般为已有的专利源数据,即现有技术专利,基于用户需求,可以在此基础上进行相关专利的筛选形成特有的专利数据库,如基于一定的日期跨度选择包含的专利专利作为源数据搭建专利知识图谱。基于专利知识图谱,能够在后续在此基础上进行新有专利技术的相似度分析,以预测新有专利的授权率。
另外,在进行实体、属性数据分析时,可以对专利分为三种状态,授权,驳回,实审,(把无效专利也当作授权专利,因为在申请的时间点上无效专利是符合授权要求的,只是一些未缴费或过期导致无效)。在进行专利知识图谱搭建并训练知识数据之前的专利源数据获取中,可以把一个时间点前的专利作为一个训练集(专利数据库),比如2021年1月1日以前的专利作为一个训练集,把2021年1月1日之后作为验证集,进行训练,并通过调参的方式优化训练模型的效果。
根据本发明实施例,所述基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性,具体为:
基于每份专利数据,通过NLP语义分析,获取权利要求的引用关系,根据引用关系,确认独立权要与非独立权要;
将独立权要对应的文本数据进行本本表征并形成第一权要属性;
将非独立权要和关联权要合并成整合文本数据进行文本表征,形成第二权要属性。
需要说明的是,所述独立权要与非独立权要即专利文件中的权利要求。本本表征代表对数据进行向量化表征,形成相关表征数据。
根据本发明实施例,所述根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习,具体为:
根据所述三元组数据、第一权要属性与第二权要属性进行图结构分析与知识图谱数据搭建,形成专利知识图谱;
基于BERT预训练模型对知识图谱进行实体语义关联分析与知识训练,形成训练后的专利知识图谱。
需要说明的是,所述BERT预训练模型为一种自然语言BERT预训练模型,具有强大的语言理解能力,通过该模型,能够对知识图谱进行上下文语义分析与实体间关系分析,从而进行知识结构的训练,搭建逻辑更为紧密、知识更为丰富的的知识图谱。
根据本发明实施例,所述获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据,具体为:
获取测试专利数据,将测试专利数据转化为专利文本数据;
基于NLP语义分析将所述测试专利文本数据进行三元组提取,形成测试三元组数据;
将测试三元组导入专利知识图谱,基于图结构进行知识检索,并形成检索知识数据。
需要说明的是,所述检索知识数据包括知识数据、检索得到的实体、属性、关系等三元组数据,所述检索知识数据为对测试专利数据具有相似性、相同性的专利知识数据,即现有技术的知识数据,用于后续预测分析授权提供数据支撑。而在本发明中,基于知识图谱的数据检索,能够更加全面、综合性地对现有技术进行相关挖掘,利用知识图谱的数据关联性,检索出关联技术特征能力较佳,另外,知识图谱中具有相关技术关联的特点与知识学习的特点,进而检索出全面的技术特征知识数据。相较于传统技术简单地进行关键词组的检索,本发明具有检索关联性强,知识挖掘性强等特点。
根据本发明实施例,所述基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建,具体为:
基于检索知识数据进行知识图谱搭建,得到第二知识图谱;
基于AMIE算法对第二知识图谱进行关联规则挖掘、知识图谱推理与知识数据补充,形成完整性的第二知识图谱。
需要说明的是,挖掘出的关联规则可以用于知识图谱的完整性搭建和推理。通过分析关联规则,可以发现知识图谱中缺失的实体和关系,从而完善图谱的结构。此外,利用关联规则还可以进行推理,推断出新的实体间关系,进一步扩展和丰富知识图谱。
根据本发明实施例,所述根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息,具体为:
在检索知识数据中,基于NLP语义分析进行三元组数据提取,得到检索三元组数据;
根据标准欧氏距离,计算检索三元组数据与测试三元组数据的数据相似度,并将计算结果标记为第一相似度;
在第二知识图谱进行基于实体、属性数据的统计,得到实体与属性统计数据,将第二知识图谱中的关系数据进行基于图结构的边信息统计,得到关系信息数据;
将实体与属性统计数据、关系信息数据进行数据整合形成第一结构性信息;
在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱;
分析计算第三知识图谱中的结构性信息,并标记为第二结构性信息。
需要说明的是,所述实体与属性统计数据包括实体与属性的数量、关联性、数据大小等统计数据。在知识图谱中,关系数据主要为图结构中边的信息,因此,关系信息数据主要包括连接的实体信息、连接权值、关联信息等边相关的数据。
所述将测试三元组数据中的实体、属性信息在图谱中进行关联替换中,具体为基于实体、属性的关联性相似性将数据进行替换。
所述实体与属性统计数据、关系信息数据记录了整个知识图谱的结构性信息,例如实体与属性的数量与关系,关系数据中在图结构边的数据量与权重等,基于所述结构性信息,能够从整体反映知识图谱的知识结构信息,在本发明中,以知识结构信息作为反映对应专利技术特征结构性的数据,进而分析出测试专利在现有专利中的关系。
在本发明中,第二知识图谱为基于检索出的现有相似专利搭建的知识图谱,用于描述现有技术的知识结构与相应实体数据,第三知识图谱用于描述将测试专利相关实体内容替换第二知识图谱后形成的新知识图谱,可以模拟分析其技术替换后的知识结构是否合理与知识比较,进一步,本发明通过在第二知识图谱中将测试专利的技术特征进行替换,并在第三知识图谱中进行结构性分析,并与原来第二知识图谱中进行结构差异分析,从而分析出测试专利在现有技术中的可替换性、技术特征的关联性、相似性等,该方法基于两张知识图谱进行结构性分析,有效地以知识维度进行相关性挖掘,而专利中的技术特征之间一般具有相关性,符合知识图谱的分析方法。而传统的授权预测基于简单的对比文件数量分析,内容重叠率分析,缺少对核心技术内容的作用分析、关联分析、知识维度的分析,导致预测效果具有一定的局限性。
根据本发明实施例,所述引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息,具体为:
根据曼哈顿距离法,将第一结构性信息与第二结构性信息分别进行多维数据的向量化,得到第一向量数据与第二向量数据,对第一向量数据与第二向量数据的进行数据距离计算,得到距离值;
以距离值的倒数作为数据关联度;
通过第一相似度与数据关联度进行授权预测评价,并形成预测结果信息。
需要说明的是,第一相似度与数据关联度均能反映测试专利的授权性预测结果,预测结果信息包括预测指数,指数等于第一相似度、数据关联度与修正系数三者的乘积,用于作为预测综合评估值,其值越小,代表与现有技术特征关联越小,对应授权可能性越大。第一相似度与数据关联度分别表示技术实体特征与技术应用关联性方面的相似性,用于评估测试专利的授权可能性。
本发明公开了基于属性知识图谱的专利授权预测评估的方法和系统,基于测试专利文本数据从专利知识图谱进行专利数据检索,基于检索知识数据进行搭建第二知识图谱,根据测试三元组数据与检索知识数据进行相似性分析,得到第一相似度,在第二知识图谱中,将测试三元组数据替换原有三元组数据,形成第三知识图谱,计算第二与第三知识图谱中的结构性差异,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价。通过本发明,能够基于知识图谱,以技术实体、属性、关系三元组进行现有技术的相似性分析,并且基于知识挖掘,分析出测试专利与现有技术的关联性和可替换性,实现科学、精准地预测出授权结果。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种基于属性知识图谱的专利授权预测评估方法,其特征在于,包括:
基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据;
基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性;
根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习;
获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据;
基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建;
根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息;
引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息。
2.根据权利要求1所述的一种基于属性知识图谱的专利授权预测评估方法,其特征在于,所述基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据,具体为:
从专利数据库中将每份专利数据进行信息提取,得到专利原数据;
将专利原数据进行数据清洗、异常值处理分析;
基于NLP语义分析法,对专利原数据进行基于专利ID,摘要,关键词、专利类别信息进行语义分析与数据提取,将提取数据进行实体命名与关系分析,得到初始专利数据;
将初始专利数据进行基于的三元数据分类与关系提取,形成三元组数据。
3.根据权利要求2所述的一种基于属性知识图谱的专利授权预测评估方法,其特征在于,所述基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性,具体为:
基于每份专利数据,通过NLP语义分析,获取权利要求的引用关系,根据引用关系,确认独立权要与非独立权要;
将独立权要对应的文本数据进行本本表征并形成第一权要属性;
将非独立权要和关联权要合并成整合文本数据进行文本表征,形成第二权要属性。
4.根据权利要求3所述的一种基于属性知识图谱的专利授权预测评估方法,其特征在于,所述根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习,具体为:
根据所述三元组数据、第一权要属性与第二权要属性进行图结构分析与知识图谱数据搭建,形成专利知识图谱;
基于BERT预训练模型对知识图谱进行实体语义关联分析与知识训练,形成训练后的专利知识图谱。
5.根据权利要求4所述的一种基于属性知识图谱的专利授权预测评估方法,其特征在于,所述获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据,具体为:
获取测试专利数据,将测试专利数据转化为专利文本数据;
基于NLP语义分析将所述测试专利文本数据进行三元组提取,形成测试三元组数据;
将测试三元组导入专利知识图谱,基于图结构进行知识检索,并形成检索知识数据。
6.根据权利要求5所述的一种基于属性知识图谱的专利授权预测评估方法,其特征在于,所述基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建,具体为:
基于检索知识数据进行知识图谱搭建,得到第二知识图谱;
基于AMIE算法对第二知识图谱进行关联规则挖掘、知识图谱推理与知识数据补充,形成完整性的第二知识图谱。
7.根据权利要求6所述的一种基于属性知识图谱的专利授权预测评估方法,其特征在于,所述根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息,具体为:
在检索知识数据中,基于NLP语义分析进行三元组数据提取,得到检索三元组数据;
根据标准欧氏距离,计算检索三元组数据与测试三元组数据的数据相似度,并将计算结果标记为第一相似度;
在第二知识图谱进行基于实体、属性数据的统计,得到实体与属性统计数据,将第二知识图谱中的关系数据进行基于图结构的边信息统计,得到关系信息数据;
将实体与属性统计数据、关系信息数据进行数据整合形成第一结构性信息;
在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱;
分析计算第三知识图谱中的结构性信息,并标记为第二结构性信息。
8.根据权利要求7所述的一种基于属性知识图谱的专利授权预测评估方法,其特征在于,所述引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息,具体为:
根据曼哈顿距离法,将第一结构性信息与第二结构性信息分别进行多维数据的向量化,得到第一向量数据与第二向量数据,对第一向量数据与第二向量数据的进行数据距离计算,得到距离值;
以距离值的倒数作为数据关联度;
通过第一相似度与数据关联度进行授权预测评价,并形成预测结果信息。
9.一种基于属性知识图谱的专利授权预测评估系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于属性知识图谱的专利授权预测评估程序,所述基于属性知识图谱的专利授权预测评估程序被所述处理器执行时实现如下步骤:
基于专利数据库对每份专利数据进行信息提取,通过NLP语义分析法提取出基于专利ID,摘要,关键词、类别的信息,将提取信息基于三元组进行分类形成三元组数据;
基于每份专利数据,将每一个独立权要进行基于文本的表征,得到第一权要属性,将非独立权要和关联权要合并成一段文本进行表征,得到第二权要属性;
根据三元组数据、第一权要属性与第二权要属性搭建专利知识图谱,并基于预训练模型对专利知识图谱进行训练学习;
获取测试专利文本数据,将所述测试专利文本数据进行三元组分析,形成测试三元组数据,将测试三元组数据导入专利知识图谱进行专利数据检索,并得到检索知识数据;
基于检索知识数据进行知识图谱搭建,得到第二知识图谱,在第二知识图谱中,基于AMIE算法进行知识推荐与图谱完整性搭建;
根据测试三元组数据与检索知识数据进行基于实体、属性的相似性分析,得到第一相似度,计算出第二知识图谱的结构性信息,并标记为第一结构性信息,在第二知识图谱中,将测试三元组数据中的实体、属性信息在图谱中进行关联替换,并形成第三知识图谱,计算第三知识图谱中的结构性信息,并标记为第二结构性信息;
引入曼哈顿距离,对第一结构性信息与第二结构性信息进行信息差异度计算,得到数据关联度,基于第一相似度与数据关联度对授权性进行预测评价,并得到预测结果信息。
CN202410287038.5A 2024-03-13 基于属性知识图谱的专利授权预测评估的方法和系统 Active CN117972113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410287038.5A CN117972113B (zh) 2024-03-13 基于属性知识图谱的专利授权预测评估的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410287038.5A CN117972113B (zh) 2024-03-13 基于属性知识图谱的专利授权预测评估的方法和系统

Publications (2)

Publication Number Publication Date
CN117972113A CN117972113A (zh) 2024-05-03
CN117972113B true CN117972113B (zh) 2024-07-02

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779264A (zh) * 2021-08-29 2021-12-10 北京工业大学 基于专利供需知识图谱的交易推荐方法
CN115982385A (zh) * 2023-02-07 2023-04-18 广东技术师范大学 一种基于知识图谱的关系图神经网络专利质量评估方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779264A (zh) * 2021-08-29 2021-12-10 北京工业大学 基于专利供需知识图谱的交易推荐方法
CN115982385A (zh) * 2023-02-07 2023-04-18 广东技术师范大学 一种基于知识图谱的关系图神经网络专利质量评估方法

Similar Documents

Publication Publication Date Title
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
US10387805B2 (en) System and method for ranking news feeds
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN109492097B (zh) 一种企业新闻数据风险分类方法
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
CN111708774A (zh) 一种基于大数据的产业分析系统
CN116257759A (zh) 一种深度神经网络模型的结构化数据智能分类分级系统
CN115545671A (zh) 一种法律法规结构化处理的方法、系统
CN117271767A (zh) 基于多智能体的运维知识库的建立方法
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN117726166A (zh) 基于大语言模型的人工智能企业客户风险信息分析评估方法和系统
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
CN117972113B (zh) 基于属性知识图谱的专利授权预测评估的方法和系统
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN113961811B (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
CN115858763A (zh) 多模态数据融合的城管事件分析方法及其应用
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
Voronov et al. Forecasting popularity of news article by title analyzing with BN-LSTM network
CN112668284B (zh) 一种法律文书分段方法及系统
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN117972113A (zh) 基于属性知识图谱的专利授权预测评估的方法和系统
CN113157892A (zh) 用户意图处理方法、装置、计算机设备及存储介质
CN113971213A (zh) 智慧城市管理公共信息共享系统
CN113158082B (zh) 一种基于人工智能的媒体内容真实度分析方法

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant