CN114780733A - 基于dikw图谱的专利智能修改方法、辅助答复方法及系统 - Google Patents
基于dikw图谱的专利智能修改方法、辅助答复方法及系统 Download PDFInfo
- Publication number
- CN114780733A CN114780733A CN202111680173.9A CN202111680173A CN114780733A CN 114780733 A CN114780733 A CN 114780733A CN 202111680173 A CN202111680173 A CN 202111680173A CN 114780733 A CN114780733 A CN 114780733A
- Authority
- CN
- China
- Prior art keywords
- data
- dikw
- map
- patent application
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000004044 response Effects 0.000 title claims abstract description 20
- 238000002715 modification method Methods 0.000 title claims description 26
- 238000012545 processing Methods 0.000 claims abstract description 38
- 230000008676 import Effects 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims description 38
- 230000003993 interaction Effects 0.000 claims description 29
- 238000012986 modification Methods 0.000 claims description 26
- 230000004048 modification Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012552 review Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 206010028980 Neoplasm Diseases 0.000 claims description 2
- 201000011510 cancer Diseases 0.000 claims description 2
- 238000004140 cleaning Methods 0.000 claims description 2
- 239000003086 colorant Substances 0.000 claims description 2
- 238000013480 data collection Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 17
- 238000013461 design Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000005457 optimization Methods 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000011160 research Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000007935 neutral effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013475 authorization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开基于DIKW图谱的专利智能修改方法,其能够根据专利法规的规定,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定,其包括:收集三方数据;将所述公开数据和所述三方数据导入专利输入关系数据库;将所述关系型专利输入数据,通过数据初始化、实时处理与增量导入框架,转化为DIKW图谱;将所述DIKW图谱专利信息存储到专利图数据库中;将所述专利图数据通过分布式图处理框架进行内容重构;所述待修改的专利申请文件的全部重构内容形成修改后的专利申请文件。本发明还公开基于DIKW图谱的专利智能修改装置,基于DIKW图谱的专利智能辅助答复方法和系统。本发明达到审查意见答复符合法律规定,且答复速度快。
Description
技术领域
本发明涉及DIKW图谱技术领域,具体涉及基于DIKW图谱的专利智能修改方法、辅助答复方法及其系统。
背景技术
DIKW hierarchy是关于数据、信息、知识和智慧的体系,它解释了四种元素之间的关系。其也在信息科学和知识管理领域中一直被讨论。它是最基本的,最广泛认可的和最理所当然的模型之一。
数据、信息、知识和智慧模型,也就是DIKW模型。DIKW图谱架构包括数据图谱、信息图谱和知识图谱。
数据图谱(Data Graph)是各种数据结构,如栈、队列等。其可以记录对象的频度属性,如时间频度、空间频度和结构频度等,然后通过计算它们的综合频度以服务信息图谱和知识图谱的信息清洗和语义计算。
信息图谱(Information Graph)用于存储专利内容资源间的各种交互关系,如产品组件之间的组合、产品设计的步骤等,并通过有向图的形式可视化展示。
知识图谱(Knowledge Graph)是用于记录规则的有向图,能够被用来进行各种语义计算。
现有技术中并未发现将DIKW图谱用于专利申请文本的分析技术,因此,将DIKW图谱用于专利申请文本的分析依然是本领域技术人员的研究方向。
发明内容
为此,本发明的目的之一在于提出基于DIKW图谱的专利智能修改方法,其能够根据专利法规的规定,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定,有利于大量节省人力成本。
本发明的目的之二在于提出基于DIKW图谱的专利智能辅助答复方法,其能够根据专利法规的规定和专利审查意见通知书的要求,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定和专利审查意见通知书的要求,辅助所述专利审查意见通知书答复人员进行审查意见答复。这相当于给所述专利审查意见通知书答复人员配备了一台人工智能助手,节省工作时间,提高工作效率。
本发明的目的之三在于提出基于DIKW图谱的专利智能修改装置,用作为专利领域的专业人工智能助理。
本发明的目的之四在于提出基于DIKW图谱的专利智能辅助答复系统,用作为专利领域的专业人工智能助理。
本发明的目的之一采用如下技术方案实现:
基于DIKW图谱的专利智能修改方法,其能够根据专利法规的规定,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定,其包括:
收集三方数据,其中,所述三方是发送方、中间方、接收方;所述三方数据至少包括发送方的待修改的专利申请文件、接收方的所述待修改的专利申请文件的修改要求、中间方的专利数据;
将所述三方数据导入专利输入关系数据库,其中,将存储在所述专利输入关系数据库中的数据称之为关系型专利输入数据;
将所述关系型专利输入数据,通过数据初始化、实时处理与增量导入框架,转化为DIKW图谱,其中,所述DIKW图谱称之为DIKW图谱专利信息,并且,所述DIKW图谱专利信息包括发送方DIKW图谱、接收方DIKW图谱P和中间方DIKW图谱N;
将所述DIKW图谱专利信息存储到专利图数据库中,其中,所述存储到专利图数据库中的所述DIKW图谱专利信息称之为专利图数据;
将所述专利图数据通过分布式图处理框架进行内容重构,其中,所述经过内容重构的所述专利图数据称之为专利内容重构数据,所述内容重构包括如下子步骤:
子步骤S101:根据接收方需要重构的实体S,基于所述中间方DIKW 图谱N和所述接收方DIKW图谱P,找出中间方DIKW图谱中所述实体S 的i度节点集合A={a1,a2,…,an},其中,i初始为1;
子步骤S102:根据所述节点集合A={a1,a2,…,an},在接收方DIKW图谱中匹配节点集合B={b1,b2,…,bm},其中bj∈{A,P},如果B=ε,则i=i+1,返回所述子步骤S101;否则进入子步骤S103;
子步骤S103:将所述子步骤S102得到的B集合中的每个元素bj与所述实体S传入一个之前训练好的Embedding层,得到两个词向量ξ1和ξ2,计算其余弦相似度,如公式(4-8)所示:
子步骤S104:将计算好的余弦相似度结果输入到sigmoid函数中,转化为概率,选取概率值大于设定阈值的实体,并替换原来的需要重构的实体,即为重构内容;
所述待修改的专利申请文件的全部重构内容形成修改后的专利申请文件。
本发明的目的之二采用如下技术方案实现:
基于DIKW图谱的专利智能辅助答复方法,其能够根据专利法规的规定和专利审查意见通知书的要求,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定和专利审查意见通知书的要求,辅助所述专利审查意见通知书答复人员进行审查意见答复,
基于DIKW图谱的专利智能辅助答复方法包括所述的基于DIKW图谱的专利智能修改方法,其中,所述待修改的专利申请文件的修改要求是所述待修改的专利申请文件的审查意见通知书。
本发明的目的之三采用如下技术方案实现:
基于DIKW图谱的专利智能修改装置,其能够根据专利法规的规定,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定,其包括:
数据收集模块,用于收集三方数据,其中,所述三方是发送方、中间方、接收方;所述三方数据至少包括发送方的待修改的专利申请文件、接收方的所述待修改的专利申请文件的修改要求、中间方的专利数据;
第一关系数据库系统,用于将所述三方数据导入专利输入关系数据库,其中,将存储在所述专利输入关系数据库中的数据称之为关系型专利输入数据;
DIKW图谱生成模块,用于将所述关系型专利输入数据,通过数据初始化、实时处理与增量导入框架,转化为DIKW图谱,其中,所述DIKW图谱称之为 DIKW图谱专利信息,并且,所述DIKW图谱专利信息包括发送方DIKW图谱、接收方DIKW图谱P和中间方DIKW图谱N;
第一图数据库系统,用于将所述DIKW图谱专利信息存储到专利图数据库中,其中,所述存储到专利图数据库中的所述DIKW图谱专利信息称之为专利图数据;
图数据内容重构模块,将所述专利图数据通过分布式图处理框架进行内容重构,其中,所述经过内容重构的所述专利图数据称之为专利内容重构数据,所述图数据内容重构模块包括如下子模块:
子模块M101:根据接收方需要重构的实体S,基于所述中间方DIKW 图谱N和所述接收方DIKW图谱P,找出中间方DIKW图谱中所述实体S 的i度节点集合A={a1,a2,…,an},其中,i初始为1;
子模块M102:根据所述节点集合A={a1,a2,…,an},在接收方DIKW图谱中匹配节点集合B={b1,b2,…,bm},其中bj∈{A,P},如果B=ε,则i=i+1,返回所述子模块M101;否则进入子模块M103;
子模块M103:将所述子模块S102得到的B集合中的每个元素bj与所述实体S传入一个之前训练好的Embedding层,得到两个词向量ξ1和ξ2,计算其余弦相似度,如公式(4-8)所示:
子模块M104:将计算好的余弦相似度结果输入到sigmoid函数中,转化为概率,选取概率值大于设定阈值的实体,并替换原来的需要重构的实体,即为重构内容;
所述待修改的专利申请文件的全部重构内容形成修改后的专利申请文件。
本发明的目的之四采用如下技术方案实现:
基于DIKW图谱的专利智能辅助答复系统,其能够根据专利法规的规定和专利审查意见通知书的要求,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定和专利审查意见通知书的要求,辅助所述专利审查意见通知书答复人员进行审查意见答复;
所述基于DIKW图谱的专利智能辅助答复方法包括所述的基于DIKW图谱的专利智能修改装置,其中,所述待修改的专利申请文件的修改要求是所述待修改的专利申请文件的审查意见通知书。
根据本发明的其它技术方案,其还可以包括本文所述的一个或多个技术特征。只要这样的技术特征的组合是可实施的,由此组成的新的技术方案都属于本发明的一部分。
本发明依托和结合开发生命期软件工程全过程建模管理,面向知识产权办理全过程处理,针对生命期内的发明专利,从内容传输上考量发明专利的申请和答复,考虑因人员性格差异、领域知识等各个因素导致的内容理解差异,从数据、信息和知识三个层面上对内容进行建模。本发明通过研究数据、信息和知识的存储、处理、转换等环节。实现对发明专利的实时分析和评估,从而对申请人的意图进行实时理解。针对不确定的情形下专利内容资源建模需求,依托数据图谱、信息图谱和知识图谱中存储的相关内容进行研究。
相比现有技术,本发明的有益效果在于:
1)对各种文献的检索,分析各类人群对各类知识的理解差异,并存于 DIKW图谱中。研究从DIKW概念框架角度进行相关内容资源建模与转换映射。通过引入DIKW图谱架构,对内容资源进行存储、处理、传输建模和分析;
2)针对申请人和审查人之间对专利技术内容的理解差异构建用户DIKW画像,并对内容资源进行重构,达到提高双方沟通效率的目的;
3)对发明专利技术文档进行修改时,采用有利原则,依据不同的规则,结合目的驱动和价值驱动进行竞争性填充;
4)根据专利法规的要求或者审查意见的修改要求,实现对专利申请文件的自动内容重构,也就是对专利申请文件的修改,从而减轻工作人员的工作量,保证专利申请文件符合法律要求,减少后续审核流程中不必要的反复修改,缩短审核流程时间。
5)根据审查意见的修改要求,实现对专利申请文件的自动内容重构,也就是对专利申请文件的修改,从而减轻工作人员的工作量,提高答复审查意见的质量和速度。
附图说明
参照附图,本发明的特征、优点和特性通过下文的具体实施方式的描述得以更好的理解,附图中:
图1:现有技术中的DIKW图谱架构示意图;
图2:本发明的基于DIKW图谱的专利智能修改方法的优选实施例中的发明专利申请文件的图数据库内容的示意图;
图3:本发明的基于DIKW图谱的专利智能修改方法的优选实施例中的意见陈述书的图数据库内容的示意图;
图4:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的基于 DIKW图谱的多模态语义结构图;
图5:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的数据图谱、信息图谱和知识图谱的关联关系示意图;
图6:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的基于 DIKW图谱的多模态语义建模流程图;
图7:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的内容传输路径方案示意图;
图8:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的不同传输路径下内容重构方案示意图;
图9:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的基于 DIKW图谱的交互区域划分及传输优化的流程示意图;
图10:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的传递内容子图所属类型块的六种情况示意图;
图11:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的基于DIKW图谱的内容重构算法流程图;
图12:本发明的面向冗错的仿区块链节点和节点网络的内容语义价值计算框架图;
图13:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的不同维度下节点的价值分布示意图;
图14:本发明的知识图谱层面的语义价值计算与图形学中的二维布尔运算的对照示意图;
图15:本发明的存在两个中心节点的节点网络示意图;
图16:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的 DIKW图谱搭建框架图;
图17:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的关系数据库表的逻辑结构示意图;
图18:本发明的基于DIKW图谱的专利智能修改方法的优选实施例的专利修改展示界面;
具体实施方式
在下文中,结合附图以及具体实施方式,对本发明做进一步描述。
专利申请文件:是指在专利申请阶段中的文件,包括专利申请人在专利申请过程中提交的文件、专利局发出的各类通知书,如补正通知书、审查意见通知书等。
在法律允许和符合语义逻辑的情况下,本文的“包括”应理解为“至少包括”,用于表达一种开放式的包含语义。
图17中的“分词词性”在本文中也对应于词组词性表,应当理解,本文中的“分词”表达从文本中分离出来的词组的含义,不应理解为英语中的语法单位分词的含义。
下文基于发明人的构思,详细描述基于DIKW图谱的专利智能修改方法的优选实施方式。图1是现有技术中的DIKW图谱架构示意图。
1、构建发明专利申请文档数据图谱
1.1、申请书数据图谱构建
在申请一项新的发明专利时,一般都仅需要提交说明书、权利要求书、说明书摘要、说明书附图、发明专利请求书。
如图2所示,为申请书的图数据库内容。
1.2、意见陈述书数据图谱构建
在专利申请流程中的实质审查阶段,审查员会对专利申请文件是否符合授权条件进行审查。在没有达到授权条件时,审查员会下发通知书。申请人可以根据通知书进行意见陈述或对专利申请文件进行修改,直至该专利授权或被驳回。
意见陈述书内容包括:专利申请信息、陈述事项等。如图13所示,为意见陈述书图数据库内容。
如图3所示,为意见陈述书的图数据库内容。
2、基于DIKW图谱的内容重构和内容语义价值计算
2.1基于DIKW图谱的多模态语义建模
发明专利的智能辅助答复与审查对于自然语言语义理解有很大的要求,只有将自然语言语义尤其是涉及多模态的内容语义建模,才能使机器理解冗余繁杂的语义。而知识图谱在以可解释的方式处理自然语言表达内容方面有着巨大的潜力。然而现有知识图谱技术对语义关系融合表达的内容方面面临挑战,并在处理知识图谱多模态混合内容的处理效率上还有待提升。本文将混合形态的语义表达载体映射到数据、信息、知识和智慧模型(DIKW模型),并通过 DIKW架构的元模型及可执行形式化定义,将自然语言混合形态的表达映射到类型化元素及类型化元素表达的子图,并给出处理分布式资源效率提升的改进手段。
基于DIKW图谱的多模态语义建模,主要用于从效率提升和战略投资实践中获得最大的效益提升和战略投资实践的价值,图4是基于DIKW图谱的多模态语义建模结构图。
在DIKW图谱中,离散事物一般记录在数据图谱上,通常表示为时间、空间和结构三个频度。在发明专利申请文件中,数据图谱可以记录各个步骤的操作顺序,产品内各组件的间距、尺寸大小和组合方式等。信息图谱记录每个实体的交互关系,在信息图谱上可以通过计算交互频度推理出新节点,并重新计入数据图谱中。例如当某一产品的n-1个配件的尺寸大小已知时,可以对最后一个配件的尺寸大小进行推理判断,若符合则记录成新的节点;在知识图谱上对类之间的关系运用关系抽取规则进一步抽象,并对技术方案表达的完整性进行补充,提升沟通的效率。图5为对数据图谱、信息图谱和知识图谱的关联关系示意图。图中各符号箭头的含义如表1所示。
表1符号说明
基于DIKW图谱的多模态语义建模的主要流程如图6所示:
步骤一:获取申请人对发明专利的权利要求的需求描述,其由一个或多个申请人进行描述,多源的需求存在冗余性和不一致性,如果代理人以研究的方式收集申请人对专利权利要求的需求,则当申请人较多,或权利要求需求较多时,申请人对权利要求需求的描述将会非常混乱;
步骤二:通过信息抽取技术提取申请人对权利要求的需求描述关键字,并将关键字以时间、空间和结构频度的形式记录在数据图谱上。其中时间频度 Tem_f为关键字出现的时间刻度,空间频度Spa_f为关键字的坐标刻度,结构频度Str_f为关键字在实体关系模型中的关系数;
步骤三:标记时间频度为1的权利要求关键字为目标对象,并根据公式 (4-1)计算数据的总频度frequency。
frequency()=Str_f()*Tem_f()*Spa_f()公式(4-1)
步骤四:根据公式(4-2)和(4-3)计算权利要求关键字的支持度和置信度。并根据所得结果,对数据图谱上的离散数据进行清洗,以删除边缘数据和冗余数据。其中FrequencyDG表示数据图谱上所有节点的频度总和,ri、rj是指两个不同的节点。
步骤五:对记录在数据图谱上关键字对象进行语义分析,将名词作为实体,动词作为关系,形成信息图谱。
步骤六:根据公式(4-4)计算信息图谱上节点间的交互频度,节点间交互的频度表示节点之间交互的次数,E1和E2是指计算过程中任意的两个计算节点,P表示节点之间所有完整的交互路径。
frequency(E1,E2)=∑P(E1→E2)1公式(4-4)
步骤七:根据公式(4-5)计算信息图谱上所有非离散节点的综合频度Totalfrequency,FrequencyIG表示实体在信息图谱上的交互频度,α和β是数据图谱频度和信息图谱频度所占权重。
Totalfrequency=αFrequencyDG*βFrequencyIG公式(4-5)
步骤八:根据公式(4-6)计算信息图谱中各节点的内聚性。并将具有最大的实体内聚性cohesion的不同连通实体以属性和操作的形式集成,在信息图谱上以新节点的形式表达,增强权利要求的内聚性并提高抽象度。其中DegreeEI表示外部交互,DegreeII表示内部交互。
步骤九:根据信息图谱所产生的新节点和新关系,更新数据图谱上记录的频度。
步骤十:根据信息图谱上的语义关系,辅助知识图谱推理新的关系,并根据公式(4-7)计算正确度Cr,其中,π表示节点1和节点2之间的一条路径, Q(E1→E2)表示节点E1和节点E2之间的所有路径,R表示两节点之间的关系,Q表示所圈定图谱中存在的所有路径,θ(π)表示训练权重,当正确度超过某一设定阈值时认为该新关系成立:
步骤十一:对知识图谱进行优化处理,删掉冗余节点和环。
2.2基于DIKW图谱的内容传输及优化
2.21基于DIKW图谱的交互区域划分及传输优化
专利的准确性和传输速度是衡量图谱优劣的重要标准,为了消除相关人员对专利内容的理解偏差,本文提出的基于DIKW图谱的图谱依托于传统的专利申请方案,引入了一系列的优化对策,例如对专利内容进行归类、整合以增强内容的可参阅性,在保证专业性的基础上增加个性化、交互性强的语义,减少理解误区等。
通过构建DIKW内容库实现传递的专利申请方案内容的重构,解决申请人、代理人等技术人员和审查员之间对专利内容理解存在差异的问题,且重构的专利内容在保留了原内容的关键语义的基础上实现个性化的表述。同时系统还对传递的专利内容进行整合优化,提高内容传递的准确性和传递效率。图7为内容传输路径方案示意图,图8为不同传输路径下内容重构方案示意图,其中S、 R、D分别表示在申请方、中间方和接收方进行内容重构。
在申请人等技术人员和代理人之间可能存在,某一方的内容库中不存在某一概念,或在双方的内容库中,同一概念可能对应不同的理解。为了实现双方对同一概念理解的一致性,本文通过对传递的概念进行重构,使双方实现差异化理解,其中重构可在三方中的任意一方进行。
本文所构建的申请人和审查员双方的内容库包括私有库和公有库。其中私有库记录用户隐私信息,公有库为用户所上传的特征。其中公有库的数据来源为私有库中的特征,可以根据用户意愿自行选择上传。
基于DIKW图谱的交互区域划分及传输优化具体流程如图9所示:
步骤一:申请人S发送专利内容,并在边缘设备上进行语义分析,获取专利内容子图和子图关键字。
步骤二:基于申请方、中间方和接收方三方的内容库,对专利内容子图和子图关键字进行分析,确定所属类型块,并依此确定传递方案和重构方案。其中,子图所属类型块如图所10示。包括三方内容库完全重合、相互独立以及交叉重合的情形。其中情形B1不需要重构即可完全理解,传输效率最高;情形B2没有重合的公共库,传输效率最低。
步骤三:通过存储、转换、计算一体化实现重构方案的筛选。筛选依据存储成本、计算成本、转换成本三个角度进行判断。
步骤四:通过子图迁移的形式实现专利内容重构。
2.2.2基于DIKW图谱的内容重构
本节就传输内容重构问题提出了解决对策,基于DIKW图谱的内容重构算法流程图如下,发送方向接收方发送数据,接收方提取关键信息后将该信息封装成包,并确认该包是否能被接收方的DIKW图集库校验,是则直接转发,否则获取接收方的DIKW图谱内容库和第三方DIKW图谱内容库等详细信息,并采取重建算法,对无法识别的内容进行重构后将重建内容转发至接收方。如图 11所示。
在重构流程中,最重要的一个部分就是基于接收方DIKW图谱和第三方DIKW图谱来实现对内容的重构,本系统采用基于实体相似度的方法来对内容进行重构,其基本思想是基于Word2Vec模型的,以之前在实体关系抽取中建立的词向量模型来匹配与重构内容最为相近的实体。其算法的基本流程是:
步骤一:根据接收方需要重构的实体S,基于第三方DIKW图谱N和接收方DIKW图谱P,找出第三方DIKW图谱中实体S的i度(i初始为1)节点集合 A={a1,a2,…,an}。
步骤二:根据节点集合A={a1,a2,…,an},在接收方DIKW图谱中匹配节点集合B={b1,b2,…,bm},其中bj∈{A,P},如果B=ε,则i=i+1,返回步骤一;否则进入步骤三。
步骤三:将步骤二得到的B集合中的每个元素bj与实体S传入一个之前训练好的Embedding层,得到两个词向量ξ1和ξ2,计算其余弦相似度。如公式(4-8)所示:
步骤四:将计算好的余弦相似度结果输入到sigmoid函数中,转化为概率,选取概率值大于设定阈值的实体,将替换原来的需要重构的实体,即为重构内容。
2.2.3多模态内容语义价值计算
为保证图谱迁移后的一致性,需要对多模态的内容语义进行价值计算。本文仿造区块链技术,提出一种针对节点和节点网络的内容语义价值计算算法,以处理多模态的内容语义。图12为面向冗错的仿区块链节点和节点网络的内容语义价值计算框架图。
本文在DIKW三层图谱架构上分别进行语义价值计算。
(1)数据图谱上的语义价值计算
在数据图谱中,不考虑多维度多模态情形下的数据节点的价值计算公式如 (4-9)所示,其中Amount_DY为具象节点(存在事物)的数量,Amount_D 所有节点的数量。当结果大于51%时,认为该数据图谱中数据是可信的。
由于不同任务指标下,数据的统计单位也不同,因此在考虑多维度情形下的价值计算公式如(4-10)所示,其中V_dim()为单一维度下的价值函数。
由于不同数据可能有着不同的分布区间,因此在多模态的维度下,数据节点的价值计算公式如(4-11)所示,其中θk表示为权重。
图13为数据在聚类情况下,不同维度的价值分布示意图。
(2)信息图谱上的语义价值计算
在信息图谱上,由于存在节点之间的语义关系,必然会带来重复节点和差错节点和无用节点。因此在信息图谱上对节点的价值进行计算时,数据图谱上的频度计算公式将不再适用。本文将信息图谱上统计的节点分类为正向节点、负向节点和中性节点。其中正向节点表示有正向语义趋势的节点,负向节点表示有逆向语义趋势的节点,中性节点表示既没有正向语义趋势也没有逆向语义趋势的无用节点。在语义价值计算中,需要将中性节点进行删除,避免语义价值信息被掩盖。因此节点语义价值的计算如公式(4-12)所示,其中Amount_I 为所有的节点数量,Amount_IYes为正向节点数量,Amount_IIrr为中性节点数量。
Value_IR=Amount_IYes/(Amount_I-Amount_IIrr)公式(4-12)
与数据图谱语义价值计算的类似,在考虑多维度情形下的价值计算公式如 (4-13)所示。在多模态的维度下,数据节点的价值计算公式如(4-14)所示。
(3)知识图谱上的语义价值计算
知识图谱记录规则和存在特性,没有原始事物节点。因此本文将知识图谱的节点统计与二维布运算相结合,对节点进行归纳化处理。表3为知识图谱上语义价值计算的实现方法。其中Value_KRi为知识图谱单个节点的价值。
表3语义价值计算实现方法
例如,假定所有权利要求书最多只有十项权利要求,归纳为知识图谱中的节点,建立权利要求书中的权利要求项最多只有十项的规则;如果有一个统计的节点是十一项的事实,那就直接打破原有的规则,对权利要求书的知识只能保留除最多只有十项之外的部分,即图14中的C1部分。
(4)DIKW图谱上的语义价值计算
根据数据图谱上的语义价值计算结果、信息图谱上的语义价值计算结果和知识图谱上的语义价值计算结果对DIKW图谱的语义价值进行综合计算。总的语义价值ValueR_DIK计算公式如(4-15)所示。
ValueR_DIK=α*ValueR_D+β*ValueR_I*μDI+γ*ValueR_K*μDK*μIK公式(4-15)
其中,α,β,γ是均衡系数;μDI是基于数据图谱的计算对基于信息图谱的计算的影响系数,μDK和μIK以此类推。
本文还给出多个图谱存在相互关联情况下的语义价值计算,即一个节点网络中存在多个中心点、多个关键词的情况。本文将节点网络中的中心节点分类为合作节点和竞争节点,并假设语义价值的计算与中心节点的出入度相关。如图15所示,CP1和CP2为竞争节点。
通过计算节点网络的中心节点的出入度,判断中心节点对其他节点的影响因子,并将影响因子作为其他节点的价值。计算如公式(4-16)所示:
V_dimIFL=(deg++deg-)/2公式(4-16)
则节点网络的价值Value_DNR计算如公式(4-17)所示:
其中,m为节点网络中的节点总数,n为正向节点数。
3、专利修改及答复功能的实现
本系统采用Neo4j作为DIKW图谱存储的图数据库(Li et al.,2019)。根据关系型数据库的结构和Neo4j提供的接口,设计了一个基于Binlog的导入架构模型来搭建DIKW图谱,如图16所示。
其中Binlog是MySQL数据库中记录所有表结构的更新(例如创建、更新表…)以及表数据的修改(插入、更新、删除…)的二进制日志。它不会记录查询和展示这类对数据本身并没有修改的行为。基于此机制,使用Canal Server中间件来对Binlog进行监控,当MySQL数据库发生变化时,由Canal Server将数据发送给Canal Client。Canal Client中会有一个Kafka Producer,它是一个消息生产者,能够把消息传输到Kafka消息队列中,由KafkaConsumer 消费者从消息队列中取出数据,最后调用一个Neo4j提供的一个接口把数据写到Neo4j中。
由于存储实体关系三元组需要用到数据库,所以需要对数据库的表结构进行设计,根据对需要存储的数据的特点进行分析,可以得到以下关系:
A:一个文本信息可以被划分为多个词组,所以文本信息与词组之间时一对多的关系。
B:一个词组在不同的语境情况下可能存在实体关系两种形态,所以词组和实体关系是一对多的关系。
根据这些关系设计数据库表结构的逻辑结构如图17所示。
在完成表的逻辑结构的设计之后,根据该结构,可以具体的设计每个表的具体结构,包括每个字段的类型,参数大小,约束条件。设计结果如表4、表 5、表6所示。
表4“文本”表的属性设计表
Table 9 Attribute design table of"Text"table
表5“分词词性”表的属性设计表
Table 10 Attribute design table of"Part of Speech"table
表6“实体关系”表的属性设计表
Table 11 Attribute design table of"Entity Relationship"table
根据设计好的属性表和逻辑模型,可以得到其物理模型。在ERwin中定义好之前设计的各字段的类型,参数大小和约束条件,通过ERwin的正向工程生成SQL语句代码,将代码复制到MySQL中执行,生成数据库及数据库中的表。
基于以上设计,实现专利修改及答复功能。
用户点击专利修改按钮,选择下拉选项中的说明书、权利要求书、说明书摘要等进行提交,上传成功后,转入新页面展示带有标记的文档,并提供此文档的下载按钮。如图18所示,为专利修改展示界面。
更多相关内容可以参见申请人同日申请的另三篇专利申请文件,发明名称分别为“一种基于DIKW的专利智能辅助审查方法及系统”,“一种基于 DIKW的专利智能申请方法及系统”,“一种基于DIKW的专利内容检索方法及系统”。
基于上述发明构思,参照图16,根据本发明的基于DIKW图谱的专利智能修改方法的优选实施例,其能够根据专利法规的规定,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定,其包括:
收集三方数据,其中,所述三方是发送方、中间方、接收方;所述三方数据至少包括发送方的待修改的专利申请文件、接收方的所述待修改的专利申请文件的修改要求、中间方的专利数据;可以理解的是,在专利申请阶段,发送方例如是专利申请人,接收方例如是专利审查机关,也就是专利局,中间方或者第三方例如是相同技术领域中的其他申请人;中间方或者第三方专利数据例如是从专利电子申请系统中导出的有别于所述待修改的专利申请文件的其它专利文件。概括地理解,专利申请人的专利申请文件需要按专利局的修改要求进行修改,并且专利申请人可以参考相同技术领域的其他申请人的相似问题作出的正确修改,本技术方案的要点就是自动找出这样的修改指引,辅助发送方快速正确地修改。当然,发送方也可以是撰写专利代理师,接收方可以是审核专利代理师,中间方就是众多其它专利申请文件初稿与定稿持有者,撰写专利代理师的专利申请文件的初稿按审核专利代理师规定的撰写要求,借助于中间方相关的符合撰写要求的实例的指引,自动地由本技术方案来进行修改完善,使之接近定稿。同样地,技术工程师的技术交底书初稿也可以按公司的撰写要求,自动地进行修改完善。在专利电子申请系统例如CPC离线专利申请系统中,若专利申请A是待修改的专利申请文件,则CPC离线专利申请系统中已下载的其它专利申请X都可理解为中间方专利数据。
将所述三方数据导入专利输入关系数据库,其中,将存储在所述专利输入关系数据库中的数据称之为关系型专利输入数据;可以理解的是,关系数据库技术是现有技术。常见的关系数据库系统例如MySql、oracle、Microsoft SQL server等。将专利申请文件整篇或者按语句导入关系数据库的数据表中,便于后续快速、高效存储数据。所述关系型专利输入数据以数据纪录的形式保存在数据库中,方便大量数据的读取、更新或插入。专利输入关系数据库是关系数据库系统中的用来存储导入的三方专利数据的数据库文件。
将所述关系型专利输入数据,通过数据初始化、实时处理与增量导入框架,转化为DIKW图谱,其中,所述DIKW图谱称之为DIKW图谱专利信息,并且,所述DIKW图谱专利信息包括发送方DIKW图谱、接收方DIKW图谱P和中间方DIKW图谱N;可以理解的是,所述DIKW图谱如上文所述包括三层:数据图谱、信息图谱、知识图谱。因此,发送方同样有三层图谱:发送方数据图谱、发送方信息图谱、发送方知识图谱;接收方和中间方同样也有。数据初始化方式因关系数据库不同而有所变化,通常都是通过SQL语句或者存储过程来执行。例如,参照图16,所述数据初始化通过MySql Connector和Neo4j的 APOCJava存储过程包执行。所述实时处理与增量导入框架例如包括Kafka和 Neo4j Driver。Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ 系统),常见可以用于web/nginx日志、访问日志,消息服务等等。当然,若关系数据库是Micorsoft SQL Server,则所述数据初始化可以通过Ms SQL Connector和Neo4j的APOCJava存储过程包执行。
将所述DIKW图谱专利信息存储到专利图数据库中,其中,所述存储到专利图数据库中的所述DIKW图谱专利信息称之为专利图数据;可以理解的是,图数据库是现有技术,图数据库(Graph Database)是基于图论实现的一种新型 NoSQL数据库。它的数据存储结构和数据的查询方式都是以图论为基础的。图论中图的基本元素为节点和边,在图数据库中对应的就是节点和关系。在图数据库中,数据与数据之间的关系通过节点和关系构成一个图结构并在此结构上实现数据库的所有特性,如对图数据对象进行创建、读取、更新、删除(Create、Read、Update、Delete,简称:CRUD)等操作的能力,还有处理事务的能力和高可用性等。常用的图数据库系统有Neo4j,HyperGraphDB,Titan分布式图数据库,ArangoDB,Apache TinkerPop。因此,所述实时处理与增量导入框架例如包括Kafka和HyperGraphDBDriver。专利图数据库就是图数据库系统中的用来存储本文所述的DIKW图谱专利信息的数据库文件。
关于DIKW图谱的更多知识参见同一申请人的专利文献 CN201810590693.2ORCN202110043702.8,CN201710394197.5, CN201810023920.3,CN201710490217.9,CN202110043010.3, CN201710989006.X,CN201810910609.0,CN202011099503.0,CN202011103480.6,CN201810109766.1,CN201810037199.3, CN201710416328.5,CN201710395067.3,CN201810590852.9, CN201710363378.1,CN201710374772.5,CN201710376105.0, CN201810590851.4,CN201710435186.7,CN201710745709.8,CN201810590798.8。
将所述专利图数据通过分布式图处理框架进行内容重构,其中,所述经过内容重构的所述专利图数据称之为专利内容重构数据。可以理解的是,分布式图处理框架是用来处理图数据的程序功能集合,如图16所示,所述分布式图处理框架例如是Spark GraphX。Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。所述分布式图处理框架还可以是基于ArangoDB, Apache TinkerPop,或者HyperGraphDB的处理框架。
所述内容重构包括如下子步骤:
子步骤S101:根据接收方需要重构的实体S,基于所述中间方DIKW 图谱N和所述接收方DIKW图谱P,找出中间方DIKW图谱中所述实体S 的i度节点集合A={a1,a2,…,an},其中,i初始为1。
子步骤S102:根据所述节点集合A={a1,a2,…,an},在接收方DIKW图谱中匹配节点集合B={b1,b2,…,bm},其中bj∈{A,P},如果B=ε,则i=i+1,返回所述子步骤S101;否则进入子步骤S103。
子步骤S103:将所述子步骤S102得到的B集合中的每个元素bj与所述实体S传入一个之前训练好的Embedding层,得到两个词向量ξ1和ξ2,计算其余弦相似度,如公式(4-8)所示:
子步骤S104:将计算好的余弦相似度结果输入到sigmoid函数中,转化为概率,选取概率值大于设定阈值的实体,并替换原来的需要重构的实体,即为重构内容;可以理解的是,所述内容重构算法可由java语言来实现。
所述待修改的专利申请文件的全部重构内容形成修改后的专利申请文件。
本技术方案用到的Embedding层和sigmoid函数是基于Word2Vec模型的实体相似度算法中的层和函数。关于Word2Vec模型的实体相似度算法参见专利文献CN111178059,CN111027315,CN109376352,CN107436864, CN109062892,CN110661875。
可以理解的是,接收方需要重构的实体S可以是多个,这多个需要重构的实体S可以是发送方的专利申请文件的全部实体或者部分实体,也就是说,发送方的专利申请文件串需要修改的部分所分解出的DIKW图谱中的实体都需要重构。本发明的技术要点之一就在于将专利申请文件转化为DIKW图谱数据,参照图11,比较发送方的DIKW图谱与接收方的DIKW图谱,若所有的实体、关系等数据信息双方的DIKW图谱都存在,就表示双方可以彼此理解,也就是专利申请文件不需要修改。若所有的实体、关系等数据信息双方的DIKW图谱部分不存在,那么就借助于中间方的DIKW图谱补全接收方或者发送方不存在实体、关系,对相应的DIKW图谱进行重构,使得接收方能够理解重构之后的 DIKW图谱所表示的内容。
接收方接收到的与待修改的专利申请文件对应的DIKW图谱的重构部分和未重构部分的全体就形成了修改后的专利申请文件。
关于基于DIKW图谱的交互区域划分及传输优化更多的内容参见同一申请人的专利公告文本CN110442734B,其发明创造名称为“基于数据图谱、信息图谱和知识图谱的交互区域划分及传输优化处理方法”,和专利公告文本 CN110457488B,其发明创造名称为“基于数据图谱、信息图谱和知识图谱的内容传输建模及处理优化方法”。
基于DIKW图谱的内容重构和DIKW图谱的多模态语义建模的更多知识可以参见专利文献CN107038261B和CN107038262B。
如图18所示,所述实施例基本实现将所述待修改的专利申请文件修改为符合所述修改要求的专利申请文件,附图中,红色标记出的文本是不符合专利法规要求的文字,应当删除。
优选地,若上述技术方案同时筛选出多个内容重构版本,则选定所述概率最大的内容重构版本。
有利地,若上述技术方案同时筛选出多个内容重构版本,或者出现两个以下相同最大概率的内容重构版本,则按上文所述的多模态内容语义价值计算方法计算出的总的语义价值ValueR_DIK来选定其值最大的内容重构版本。
关于多模态内容语义价值计算的更多内容可参见同一申请人的专利公开文本CN110471996A,发明名称为“面向冗错的仿区块链节点和节点网络的内容语义价值计算机制”。
优选地,如图18所示,所述的基于DIKW图谱的专利智能修改方法还包括以可视化的方式在图形界面上显示所述待修改的专利申请文件,其中,所述修改部分用不同的字体、颜色或者批注的形式标记出来。可以理解的是,如图 18所示,红色标记出的文本是不符合专利法规要求的文字,应当删除。
优选地,在所述内容重构之前,所述实时处理与增量导入框架按如下子步骤执行基于DIKW图谱的多模态语义建模:
子步骤S201:通过信息抽取技术提取所述待修改的专利申请文件的需求描述关键字,并将关键字以时间、空间和结构频度的形式记录在数据图谱上,其中时间频度Tem_f为关键字出现的时间刻度,空间频度Spa_f为关键字的坐标刻度,结构频度Str_f为关键字在实体关系模型中的关系数;
子步骤S202:标记时间频度为1的关键字为目标对象,并根据公式(4-1) 计算数据的总频度frequency;
frequency()=Str_f()*Tem_f()*Spa_f() 公式(4-1)
子步骤S203:根据公式(4-2)和(4-3)计算关键字的支持度和置信度;并根据所得结果,对数据图谱上的离散数据进行清洗,以删除边缘数据和冗余数据;其中FrequencyDG表示数据图谱上所有节点的频度总和,ri、rj是指两个不同的节点。
子步骤S204:对记录在数据图谱上关键字对象进行语义分析,将名词作为实体,动词作为关系,形成信息图谱;
子步骤S205:根据公式(4-4)计算信息图谱上节点间的交互频度,节点间交互的频度表示节点之间交互的次数,E1和E2是指计算过程中任意的两个计算节点,P表示节点之间所有完整的交互路径;
frequency(E1,E2)=∑P(E1→E2)1公式(4-4)
子步骤S206:根据公式(4-5)计算信息图谱上所有非离散节点的综合频度Totalfrequency,FrequencyIG表示实体在信息图谱上的交互频度,α和β是数据图谱频度和信息图谱频度所占权重;
Totalfrequency=αFrequencyDG*βFrequencyIG公式(4-5)
子步骤S207:根据公式(4-6)计算信息图谱中各节点的内聚性;并将具有最大的实体内聚性cohesion的不同连通实体以属性和操作的形式集成,在信息图谱上以新节点的形式表达,增强所述待修改的专利申请文件的内聚性并提高抽象度;其中DegreeEI表示外部交互,DegreeII表示内部交互;
子步骤S208:根据信息图谱所产生的新节点和新关系,更新数据图谱上记录的频度;
子步骤S209:根据信息图谱上的语义关系,辅助知识图谱推理新的关系,并根据公式(4-7)计算正确度Cr,其中,π表示节点1和节点2之间的一条路径,Q(E1→E2)表示节点E1和节点E2之间的所有路径,R表示两节点或者两实体之间的关系,Q表示所圈定图谱中存在的所有路径,θ(π)表示训练权重,当正确度超过某一设定阈值时认为该新关系成立:
子步骤S210:对知识图谱进行优化处理,删掉冗余节点和环。
可以理解的是,上述“节点”可理解为“实体”。
经过上述基于DIKW图谱的多模态语义建模形成的DIKW图谱简洁、准确、高效。
优选地,参照图16,所述的基于DIKW图谱的专利智能修改方法还包括收集专利的公开数据,其中,所述专利的公开数据至少包括已授权的发明专利的说明书和/或权利要求书、已授权的发明专利的审查意见通知书、已授权的发明专利的审查意见答复陈述书;所述专利的公开数据用作为所述中间方的专利数据。可以理解的是,中间方的专利数据越丰富,所述内容重构的准确性就越高,当然,内容重构的版本可能越多。
优选地,参照图16,在所述的基于DIKW图谱的专利智能修改方法中:
所述专利输入关系数据库建立在MYSQL数据库系统中,其中,所述 MySql包括Binlog二进制日志文件;所述专利图数据库建立在Neo4j图形数据库系统中;
所述数据初始化通过MySql Connector和Neo4j的APOCJava存储过程包执行;所述实时处理与增量导入框架通过所述Binlog二进制日志文件获取所述关系型专利输入数据,并通过Kafka分布式日志系统和Neo4j Driver对其进行实时处理,并将实时处理后的数据导入到所述专利图数据库中;所述分布式图处理框架包括Spark Graphx;所述公开数据通过爬虫程序来收集;所述三方数据通过专利申请及管理程序的API接口来收集。
优选地,参照图16,在所述实时处理与增量导入框架中,所述Binlog二进制日志文件是所述关系型专利输入数据中记录所有表结构的更新以及表数据的修改的二进制日志;使用Canal Server中间件来对所述Binlog二进制日志文件进行监控,当所述关系型专利输入数据发生变化时,由所述Canal Server将数据发送给Canal Client;所述Canal Client中包括Kafka Producer,所述Kafka Producer是消息生产者,能够把消息传输到Kafka消息队列中,由Kafka Consumer消费者从消息队列中取出数据;调用一个所述Neo4j提供的一个接口把数据写到所述专利图数据库中。
优选地,参照图17,在所述的基于DIKW图谱的专利智能修改方法中:所述DIKW图谱包括实体关系三元组数据,其中,所述实体关系三元组数据包括文本信息表、词组词性表和实体关系表;
所述文本信息表至少包括文本ID、文本内容、获取时间字段;
所述词组词性表至少包括分词ID、词性、实体、关系、所述文本ID字段;
所述实体关系表至少包括实体关系ID、关系ID、所述分词ID字段。
其中,所述文本信息表通过所述文本ID与所述词组词性表形成一对多的数据约束关系;所述词组词性表通过所述分词ID与所述实体关系表形成一对多的数据约束关系,所述实体关系表通过所述词组词性表中的所述文本ID与所述文本信息表形成数据约束关系;并且
设计所述文本信息表、词组词性表、实体关系表的字段属性表和逻辑模型,并得到其物理模型,通过Erwin数据建模工具的正向工程,生成SQL语句代码,执行所述SQL语句代码,在关系数据库中生成所述文本信息表、词组词性表、实体关系表。
根据本发明的基于DIKW图谱的专利智能辅助答复方法的优选实施方式,其能够根据专利法规的规定和专利审查意见通知书的要求,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定和专利审查意见通知书的要求,辅助所述专利审查意见通知书答复人员进行审查意见答复,
所述基于DIKW图谱的专利智能辅助答复方法包括所述的基于DIKW图谱的专利智能修改方法,其中,所述待修改的专利申请文件的修改要求是所述待修改的专利申请文件的审查意见通知书。
根据上述功能测试数据,上述技术方案实现了审查意见答复符合专利法规的要求,并且答复速度快。
如上文所述,本发明还包括基于DIKW图谱的专利智能修改装置。
优选地,基于DIKW图谱的专利智能辅助答复系统还包括负载均衡模块和存储计算一体化模块。
如上文所述,本发明还包括基于DIKW图谱的专利智能辅助答复系统。
并且,根据本发明的服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上文所述的基于DIKW图谱的专利智能修改方法,或者,上文所述的基于DIKW图谱的专利智能辅助答复方法。
进一步地,根据本发明的计算机可读介质,其上存储有计算机程序,其中,所述程序被执行时实现上文所述的基于DIKW图谱的专利智能修改方法,或者,上文所述的基于DIKW图谱的专利智能辅助答复方法。
以上详细描述了本发明创造的优选的或具体的实施例。应当理解,本领域的技术人员无需创造性劳动就可以根据本发明创造的设计构思做出诸多修改和变化。因此,凡本技术领域中技术人员依本发明创造的设计构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在本发明创造的范围之内和/或由权利要求书所确定的保护范围内。
Claims (10)
1.基于DIKW图谱的专利智能修改方法,其能够根据专利法规的规定,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定,其特征在于,其包括:
收集三方数据,其中,所述三方是发送方、中间方、接收方;所述三方数据至少包括发送方的待修改的专利申请文件、接收方的所述待修改的专利申请文件的修改要求、中间方的专利数据;
将所述三方数据导入专利输入关系数据库,其中,将存储在所述专利输入关系数据库中的数据称之为关系型专利输入数据;
将所述关系型专利输入数据,通过数据初始化、实时处理与增量导入框架,转化为DIKW图谱,其中,所述DIKW图谱称之为DIKW图谱专利信息,并且,所述DIKW图谱专利信息包括发送方DIKW图谱、接收方DIKW图谱P和中间方DIKW图谱N;
将所述DIKW图谱专利信息存储到专利图数据库中,其中,所述存储到专利图数据库中的所述DIKW图谱专利信息称之为专利图数据;
将所述专利图数据通过分布式图处理框架进行内容重构,其中,所述经过内容重构的所述专利图数据称之为专利内容重构数据,所述内容重构包括如下子步骤:
子步骤S101:根据接收方需要重构的实体S,基于所述中间方DIKW图谱N和所述接收方DIKW图谱P,找出中间方DIKW图谱中所述实体S的i度节点集合A={a1,a2,…,an},其中,i初始为1;
子步骤S102:根据所述节点集合A={a1,a2,…,an},在接收方DIKW图谱中匹配节点集合B={b1,b2,…,bm},其中bj∈{A,P},如果B=ε,则i=i+1,返回所述子步骤S101;否则进入子步骤S103;
子步骤S103:将所述子步骤S102得到的B集合中的每个元素bj与所述实体S传入一个之前训练好的Embedding层,得到两个词向量ξ1和ξ2,计算其余弦相似度,如公式(4-8)所示:
子步骤S104:将计算好的余弦相似度结果输入到sigmoid函数中,转化为概率,选取概率值大于设定阈值的实体,并替换原来的需要重构的实体,即为重构内容;
所述待修改的专利申请文件的全部重构内容形成修改后的专利申请文件。
2.根据权利要求1所述的基于DIKW图谱的专利智能修改方法,其特征在于,还包括以可视化的方式在图形界面上显示所述修改后的专利申请文件,其中,所述修改部分用不同的字体、颜色或者批注的形式标记出来。
3.根据权利要求1所述的基于DIKW图谱的专利智能修改方法,其特征在于,在所述内容重构之前,所述实时处理与增量导入框架按如下子步骤执行基于DIKW图谱的多模态语义建模:
子步骤S201:通过信息抽取技术提取所述待修改的专利申请文件的需求描述关键字,并将关键字以时间、空间和结构频度的形式记录在数据图谱上,其中时间频度Tem_f为关键字出现的时间刻度,空间频度Spa_f为关键字的坐标刻度,结构频度Str_f为关键字在实体关系模型中的关系数;
子步骤S202:标记时间频度为1的关键字为目标对象,并根据公式(4-1)计算数据的总频度frequency;
frequency()=Str_f()*Tem_f()*Spa_f() 公式(4-1)
子步骤S203:根据公式(4-2)和(4-3)计算关键字的支持度和置信度;并根据所得结果,对数据图谱上的离散数据进行清洗,以删除边缘数据和冗余数据;其中FrequencyDG表示数据图谱上所有节点的频度总和,ri、rj是指两个不同的节点;
子步骤S204:对记录在数据图谱上关键字对象进行语义分析,将名词作为实体,动词作为关系,形成信息图谱;
子步骤S205:根据公式(4-4)计算信息图谱上节点间的交互频度,节点间交互的频度表示节点之间交互的次数,E1和E2是指计算过程中任意的两个计算节点,P表示节点之间所有完整的交互路径;
frequency(E1,E2)=∑P(E1→E2)1 公式(4-4)
子步骤S206:根据公式(4-5)计算信息图谱上所有非离散节点的综合频度Totalfrequency,FrequencyIG表示实体在信息图谱上的交互频度,α和β是数据图谱频度和信息图谱频度所占权重;
Totalfrequency=αFrequencyDG*βFrequencyIG 公式(4-5)
子步骤S207:根据公式(4-6)计算信息图谱中各节点的内聚性;并将具有最大的实体内聚性cohesion的不同连通实体以属性和操作的形式集成,在信息图谱上以新节点的形式表达,增强所述待修改的专利申请文件的内聚性并提高抽象度;其中DegreeEI表示外部交互,DegreeII表示内部交互;
子步骤S208:根据信息图谱所产生的新节点和新关系,更新数据图谱上记录的频度。
子步骤S209:根据信息图谱上的语义关系,辅助知识图谱推理新的关系,并根据公式(4-7)计算正确度Cr,其中,π表示节点1和节点2之间的一条路径,Q(E1→E2)表示节点E1和节点E2之间的所有路径,R表示两节点之间的关系,Q表示所圈定图谱中存在的所有路径,θ(π)表示训练权重,当正确度超过某一设定阈值时认为该新关系成立:
子步骤S210:对知识图谱进行优化处理,删掉冗余节点和环。
4.根据权利要求1至3中任一项所述的基于DIKW图谱的专利智能修改方法,其特征在于,还包括收集专利的公开数据,其中,所述专利的公开数据至少包括已授权的发明专利的说明书和/或权利要求书、已授权的发明专利的审查意见通知书、已授权的发明专利的审查意见答复陈述书;所述专利的公开数据用作为所述中间方的专利数据。
5.根据权利要求4所述的基于DIKW图谱的专利智能修改方法,其特征在于,
所述专利输入关系数据库建立在MYSQL数据库系统中,其中,所述MySql包括Binlog二进制日志文件;所述专利图数据库建立在Neo4j图形数据库系统中;
所述数据初始化通过MySql Connector和Neo4j的APOCJava存储过程包执行;所述实时处理与增量导入框架通过所述Binlog二进制日志文件获取所述关系型专利输入数据,并通过Kafka分布式日志系统和Neo4j Driver对其进行实时处理,并将实时处理后的数据导入到所述专利图数据库中;所述分布式图处理框架包括Spark Graphx;所述公开数据通过爬虫程序来收集;所述三方数据通过专利申请及管理程序的API接口来收集;
在所述实时处理与增量导入框架中,所述Binlog二进制日志文件是所述关系型专利输入数据中记录所有表结构的更新以及表数据的修改的二进制日志;使用Canal Server中间件来对所述Binlog二进制日志文件进行监控,当所述关系型专利输入数据发生变化时,由所述Canal Server将数据发送给Canal Client;所述Canal Client中包括KafkaProducer,所述Kafka Producer是消息生产者,能够把消息传输到Kafka消息队列中,由Kafka Consumer消费者从消息队列中取出数据;调用一个所述Neo4j提供的一个接口把数据写到所述专利图数据库中。
6.根据权利要求1所述的基于DIKW图谱的专利智能修改方法,其特征在于,所述DIKW图谱包括实体关系三元组数据,其中,所述实体关系三元组数据包括文本信息表、词组词性表和实体关系表;
所述文本信息表至少包括文本ID、文本内容、获取时间字段;
所述词组词性表至少包括分词ID、词性、实体、关系、所述文本ID字段;
所述实体关系表至少包括实体关系ID、关系ID、所述分词ID字段。
其中,所述文本信息表通过所述文本ID与所述词组词性表形成一对多的数据约束关系;所述词组词性表通过所述分词ID与所述实体关系表形成一对多的数据约束关系,所述实体关系表通过所述词组词性表中的所述文本ID与所述文本信息表形成数据约束关系;并且
设计所述文本信息表、词组词性表、实体关系表的字段属性表和逻辑模型,并得到其物理模型,通过Erwin数据建模工具的正向工程,生成SQL语句代码,执行所述SQL语句代码,在关系数据库中生成所述文本信息表、词组词性表、实体关系表。
7.基于DIKW图谱的专利智能辅助答复方法,其能够根据专利法规的规定和专利审查意见通知书的要求,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定和专利审查意见通知书的要求,辅助所述专利审查意见通知书答复人员进行审查意见答复,
其特征在于:基于DIKW图谱的专利智能辅助答复方法包括按照权利要求1至6所述的基于DIKW图谱的专利智能修改方法,其中,所述待修改的专利申请文件的修改要求是所述待修改的专利申请文件的审查意见通知书。
8.基于DIKW图谱的专利智能修改装置,其能够根据专利法规的规定,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定,其特征在于,其包括:
数据收集模块,用于收集三方数据,其中,所述三方是发送方、中间方、接收方;所述三方数据至少包括发送方的待修改的专利申请文件、接收方的所述待修改的专利申请文件的修改要求、中间方的专利数据;
第一关系数据库系统,用于将所述三方数据导入专利输入关系数据库,其中,将存储在所述专利输入关系数据库中的数据称之为关系型专利输入数据;
DIKW图谱生成模块,用于将所述关系型专利输入数据,通过数据初始化、实时处理与增量导入框架,转化为DIKW图谱,其中,所述DIKW图谱称之为DIKW图谱专利信息,并且,所述DIKW图谱专利信息包括发送方DIKW图谱、接收方DIKW图谱P和中间方DIKW图谱N;
第一图数据库系统,用于将所述DIKW图谱专利信息存储到专利图数据库中,其中,所述存储到专利图数据库中的所述DIKW图谱专利信息称之为专利图数据;
图数据内容重构模块,将所述专利图数据通过分布式图处理框架进行内容重构,其中,所述经过内容重构的所述专利图数据称之为专利内容重构数据,所述图数据内容重构模块包括如下子模块:
子模块M101:根据接收方需要重构的实体S,基于所述中间方DIKW图谱N和所述接收方DIKW图谱P,找出中间方DIKW图谱中所述实体S的i度节点集合A={a1,a2,…,an},其中,i初始为1;
子模块M102:根据所述节点集合A={a1,a2,…,an},在接收方DIKW图谱中匹配节点集合B={b1,b2,…,bm},其中bj∈{A,P},如果B=ε,则i=i+1,返回所述子模块M101;否则进入子模块M103;
子模块M103:将所述子模块S102得到的B集合中的每个元素bj与所述实体S传入一个之前训练好的Embedding层,得到两个词向量ξ1和ξ2,计算其余弦相似度,如公式(4-8)所示:
子模块M104:将计算好的余弦相似度结果输入到sigmoid函数中,转化为概率,选取概率值大于设定阈值的实体,并替换原来的需要重构的实体,即为重构内容;
所述待修改的专利申请文件的全部重构内容形成修改后的专利申请文件。
9.基于DIKW图谱的专利智能辅助答复系统,其能够根据专利法规的规定和专利审查意见通知书的要求,对专利申请文件进行补正或修改,使得所述专利申请文件符合专利法规的规定和专利审查意见通知书的要求,辅助所述专利审查意见通知书答复人员进行审查意见答复,
其特征在于:所述基于DIKW图谱的专利智能辅助答复系统包括按照权利要求8所述的基于DIKW图谱的专利智能修改装置,其中,所述待修改的专利申请文件的修改要求是所述待修改的专利申请文件的审查意见通知书。
10.服务器,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6任一项所述的基于DIKW图谱的专利智能修改方法,或者,如权利要求7所述的基于DIKW图谱的专利智能辅助答复方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111680173.9A CN114780733A (zh) | 2021-12-31 | 2021-12-31 | 基于dikw图谱的专利智能修改方法、辅助答复方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111680173.9A CN114780733A (zh) | 2021-12-31 | 2021-12-31 | 基于dikw图谱的专利智能修改方法、辅助答复方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114780733A true CN114780733A (zh) | 2022-07-22 |
Family
ID=82422788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111680173.9A Pending CN114780733A (zh) | 2021-12-31 | 2021-12-31 | 基于dikw图谱的专利智能修改方法、辅助答复方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780733A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076463A (zh) * | 2023-10-16 | 2023-11-17 | 环天智慧科技股份有限公司 | 一种智慧城市多源数据汇聚存储系统 |
CN117194437A (zh) * | 2023-11-02 | 2023-12-08 | 北京国电通网络技术有限公司 | 文件存储方法、装置、电子设备和计算机可读介质 |
-
2021
- 2021-12-31 CN CN202111680173.9A patent/CN114780733A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117076463A (zh) * | 2023-10-16 | 2023-11-17 | 环天智慧科技股份有限公司 | 一种智慧城市多源数据汇聚存储系统 |
CN117076463B (zh) * | 2023-10-16 | 2023-12-29 | 环天智慧科技股份有限公司 | 一种智慧城市多源数据汇聚存储系统 |
CN117194437A (zh) * | 2023-11-02 | 2023-12-08 | 北京国电通网络技术有限公司 | 文件存储方法、装置、电子设备和计算机可读介质 |
CN117194437B (zh) * | 2023-11-02 | 2024-02-02 | 北京国电通网络技术有限公司 | 文件存储方法、装置、电子设备和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240152542A1 (en) | Ontology mapping method and apparatus | |
US11556578B2 (en) | Putative ontology generating method and apparatus | |
Shramko et al. | Truth and falsehood: An inquiry into generalized logical values | |
CN112559766B (zh) | 一种法律知识图谱构建系统 | |
US20170083547A1 (en) | Putative ontology generating method and apparatus | |
JP2017514256A (ja) | オントロジアライナ方法、セマンティックマッチング方法及び装置 | |
Marx et al. | Logic on MARS: Ontologies for Generalised Property Graphs. | |
WO2020010834A1 (zh) | 一种faq问答库泛化方法、装置及设备 | |
Alejandro Gomez et al. | Reasoning with inconsistent ontologies through argumentation | |
CN114780733A (zh) | 基于dikw图谱的专利智能修改方法、辅助答复方法及系统 | |
CN112100398B (zh) | 一种专利空白预测方法及系统 | |
JP2017514257A (ja) | オントロジブラウザ並びにグルーピング方法及び装置 | |
US20200143261A1 (en) | Systems and methods for processing content using a pattern language | |
Efremova et al. | Multi-source entity resolution for genealogical data | |
US20180005123A1 (en) | Combining semantic and business process modeling in a multi-layer framework | |
CN116561264A (zh) | 一种基于知识图谱的智能问答系统的构建方法 | |
Iorliam et al. | A comparative analysis of generative artificial intelligence tools for natural language processing | |
Pauwels et al. | Validation of technical requirements for a BIM model using semantic web technologies | |
Braun et al. | A framework for interoperability between models with hybrid tools | |
Kagal et al. | Gasping for air why we need linked rules and justifications on the semantic web | |
Bobillo | The role of crisp elements in fuzzy ontologies: The case of fuzzy OWL 2 EL | |
Ivaschenko et al. | Semantic analysis implementation in engineering enterprise content management systems | |
Awangga et al. | Ontology design based on data family planning field officer using OWL and RDF | |
Denisova et al. | Ontology Engineering Based on Spreadsheet Data Transformation | |
Paulus et al. | Extending PLASMA for Industrial Semantic Modeling. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |