CN113342989B - 专利数据的知识图谱构建方法、装置、存储介质及终端 - Google Patents
专利数据的知识图谱构建方法、装置、存储介质及终端 Download PDFInfo
- Publication number
- CN113342989B CN113342989B CN202110565907.2A CN202110565907A CN113342989B CN 113342989 B CN113342989 B CN 113342989B CN 202110565907 A CN202110565907 A CN 202110565907A CN 113342989 B CN113342989 B CN 113342989B
- Authority
- CN
- China
- Prior art keywords
- information
- map
- generate
- segmentation result
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims description 11
- 238000003860 storage Methods 0.000 title claims description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 119
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 15
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000011161 development Methods 0.000 abstract description 11
- 230000018109 developmental process Effects 0.000 abstract description 11
- 238000007670 refining Methods 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 11
- 238000011160 research Methods 0.000 description 11
- 239000003795 chemical substances by application Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005054 agglomeration Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种专利数据的知识图谱构建方法,包括:获取专利文本的结构化信息,并基于结构化信息构建第一图谱;收集专利语料样本,基于专利语料样本构建专利领域词典;基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果;采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱;采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。因此,采用本申请实施例,由于通过提炼专利文档中的关键信息来构建知识图谱,从而可以从大量的专利文档中快速准确地确定出科技的发展趋势,以及识别到创新的方向。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种专利数据的知识图谱构建方法、装置、存储介质及终端。
背景技术
专利信息是科技创新的一个重要载体,对专利信息的分析可以挖掘出许多有价值的内容,其中包括研究趋势,潜在创新点的发现等等。目前随着互联网的迅速发展和普及,知识文档的爆炸式增长,企业和公众在科研创新中面临着海量复杂的信息知识和数据。研究人员越发渴望从现有知识文档中快速找到关键信息。
在现有技术中,在需要从现有技术文档中获取关键信息时,研究人员需要通过查询相关书籍或者从知识网站进行检索,目前传统的文献检索方法难以快速获取关键文献信息和相关知识,从而浪费了研究人员大量的时间和精力。因此,从目前大量的文献中,如何快速准确地把握科技的发展趋势,找到创新的方向,成为创新者亟待解决的问题。
发明内容
本申请实施例提供了一种专利数据的知识图谱构建方法、装置、存储介质及终端。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
第一方面,本申请实施例提供了一种专利数据的知识图谱构建方法,方法包括:
获取专利文本的结构化信息,并基于结构化信息构建第一图谱;
收集专利语料样本,基于专利语料样本构建专利领域词典;
基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果;
采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱;
采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。
可选的,结构化信息至少包括发明人信息、申请人信息以及代理人信息;
基于结构化信息构建第一图谱,包括:
根据发明人信息、申请人信息以及代理人信息构建知识图谱初始节点;
将知识图谱初始节点组合后生成第一图谱;
其中,知识图谱初始节点包括专利节点、发明人节点与申请人节点。
可选的,基于专利语料样本构建专利领域词典,包括:
去除专利语料样本中的停用词,生成语料文本;
从语料文本中确定出第一字符,并构建第一字符的组合词汇;
计算组合词汇的凝聚度;
计算组合词汇的两侧词汇的随机程度,生成左邻接熵与右邻接熵;
选取左邻接熵与右邻接熵中的的较小邻接熵与凝聚度作积,生成判定值;
当判定值大于预设阈值时,将组合词汇录入词典;
继续执行从语料文本中确定出第一字符的步骤,直到语料文本中全部字符遍历完成时,生成专利领域词典。
可选的,基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果,包括:
剔除专利文本的摘要信息中的停用词,生成剔除停用词的摘要文本;
根据专利领域词典与预设分词词典对剔除停用词的摘要文本进行正向匹配,生成第一词组集合;
根据专利领域词典与预设分词词典对剔除停用词的摘要文本进行负向匹配,生成第二词组集合;
将第一词组集合或第二词组集合确定为分词结果。
可选的,将第一词组集合或第二词组集合确定为分词结果,包括:
当第一词组集合中的词组个数大于第二词组集合中的词组个数时,将第一词组集合确定为分词结果;
或者,
当第二词组集合中的词组个数大于第一词组集合中的词组个数时,将第二词组集合确定为分词结果;
或者,
当第二词组集合中的词组个数大于第一词组集合中的词组个数时,分别统计第一词组集合与第二词组集合各自的单个词个数;
当第一词组集合的单个词个数大于第二词组集合中的单个词个数时,将第二词组集合确定为分词结果;当第一词组集合的单个词个数小于第二词组集合中的单个词个数时,将第一词组集合确定为分词结果。
可选的,采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱,包括:
采用关键词抽取算法从分词结果中获取专利的关键词;
将专利的关键词嵌入第一图谱中,生成专利的关键词对应的关键词节点;
将关键词节点与专利节点关联后,生成第二图谱;
其中,关键词节点与专利节点之间构成关键词关系。
可选的,采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱,包括:
采用语义角色标注算法从分词结果中获取每个词汇的语义角色;
根据预先定义的角色筛选列表,并根据语义角色筛选描述专利内容的关系与对象;
将描述专利内容的关系与对象嵌入第二图谱后生成专利数据的知识图谱。
第二方面,本申请实施例提供了一种专利数据的知识图谱构建装置,装置包括:
第一图谱构建模块,用于获取专利文本的结构化信息,并基于结构化信息构建第一图谱;
词典构建模块,用于收集专利语料样本,基于专利语料样本构建专利领域词典;
分词结果生成模块,用于基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果;
第二图谱生成模块,用于采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱;
专利数据的知识图谱生成模块,用于采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。
第三方面,本申请实施例提供一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供一种终端,可包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
本申请实施例提供的技术方案可以包括以下有益效果:
在本申请实施例中,专利数据的知识图谱构建装置首先获取专利文本的结构化信息,并基于结构化信息构建第一图谱,然后收集专利语料样本,并基于专利语料样本构建专利领域词典,再基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果,其次采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱,最后采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。由于本申请通过提炼专利文档中的关键信息来构建知识图谱,从而可以从大量的专利文档中快速准确地确定出科技的发展趋势,以及识别到创新的方向,进一步提升了科研人员检索关键信息的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本申请实施例提供的一种专利数据的知识图谱构建方法的流程示意图;
图2是本申请实施例提供的一种两篇专利摘要的关键词抽取结果示例图;
图3是本申请实施例提供的一种专利知识图谱中部分图谱中的结构图;
图4是本申请实施例提供的一种专利数据的知识图谱构建过程的过程示意图;
图5是本申请实施例提供的一种专利数据的知识图谱构建装置的装置示意图;
图6是本申请实施例提供的一种终端的结构示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请提供了一种专利数据的知识图谱构建方法、装置、存储介质及终端,以解决上述相关技术问题中存在的问题。本申请提供的技术方案中,由于本申请通过提炼专利文档中的关键信息来构建知识图谱,从而可以从大量的专利文档中快速准确地确定出科技的发展趋势,以及识别到创新的方向,进一步提升了科研人员检索关键信息的效率,下面采用示例性的实施例进行详细说明。
下面将结合附图1-附图4,对本申请实施例提供的专利数据的知识图谱构建方法进行详细介绍。该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的专利数据的知识图谱构建装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。其中,本申请实施例中的专利数据的知识图谱构建装置可以为用户终端,包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中用户终端可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digitalassistant,PDA)、5G网络或未来演进网络中的终端设备等。
请参见图1,为本申请实施例提供了一种专利数据的知识图谱构建方法的流程示意图。如图1所示,本申请实施例的方法可以包括以下步骤:
S101,获取专利文本的结构化信息,并基于结构化信息构建第一图谱;
其中,专利是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件,这种文件记载了发明创造的内容,并且在一定时期内产生这样一种法律状态。结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构,例如专利文档内容中的发明人信息、申请人信息以及代理人信息。图谱为知识图谱,知识图谱(Knowledge Graph)是一种显示知识发展进程与结构关系的图形工具,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱具有两个优点:知识数据质量高、种类多,能够更好地支持数据可视化,提高研究成果的质量;知识图谱支持潜在关系的挖掘,具有良好的可扩展性。因此,挖掘专利数据中的科技知识,构建专利数据知识图谱,有助于理解科学技术的发展,寻求科学技术发展的突破口,对企业和公众都具有重要意义。
例如,从2012年Google首次提出知识图谱概念并应用于搜索引擎以来,国内外各大企业已经对知识图谱的应用进行了很多研究和实践,包括应用于科研学术领域。例如上海交通大学建立的学术知识图谱AceKG统合了上亿个学术知识实体,展示了各个学科的架构,但并未对专利数据进行研究。而现有的应用于专利领域的知识图谱,要么是对专利的引文网络、申请人网络、合作网络等数据的统计,并不真正关注专利所研究的技术内容;要么是对专利内容的理解较浅,有些还需要大量的人工标记来辅助机器学习模型的训练,人力成本和时间成本都很高。
在本申请实施例中,通过从专利内容中提取关键信息来构建知识图谱,方便研究人员检索关键信息。
在一种可能的实现方式中,在构建专利数据的知识图谱时,首先从专利文本中识别并抽取专利文本的结构化信息,每个专利文本的结构化信息是不变的,例如发明人信息、申请人信息以及代理人信息,然后根据发明人信息、申请人信息以及代理人信息构建知识图谱初始节点,最后将知识图谱初始节点组合后生成第一图谱。其中知识图谱初始节点包括专利节点、发明人节点与申请人节点。
需要说明的是,步骤S101不涉及专利文本技术内容的理解,而是使用专利数据中的结构化数据初始化专利知识图谱。这些结构化数据包括的是专利的发明人,申请人,代理人等基础信息,从而构建一个基础信息图谱,生成了对应的专利节点、申请人节点、代理人节点等。基础信息图谱中还包含对应的图谱关系,例如专利节点和发明人节点的发明关系,与申请人之间的申请关系,与代理机构的代理关系等。
S102,收集专利语料样本,基于专利语料样本构建专利领域词典;
其中,由于专利文本中语言描述的特殊性,需要构建专属专利的专利领域词典。专利语料样本是不同类的多个专利中文本语句内容。专利领域词典是从专利文本语句中收集的大量专利词汇和专利短语。
在本申请实施例中,在构建专利领域词典时,首先去除专利语料样本中的停用词,生成语料文本,再从语料文本中确定出第一字符,并构建第一字符的组合词汇,然后计算组合词汇的凝聚度,并计算组合词汇的两侧词汇的随机程度,生成左邻接熵与右邻接熵,再选取左邻接熵与右邻接熵中的的较小邻接熵与凝聚度作积,生成判定值,并当判定值大于预设阈值时,将组合词汇录入词典,最后继续执行从语料文本中确定出第一字符的步骤,直到语料文本中全部字符遍历完成时,生成专利领域词典。
在一种可能的实现方式中,步骤S102使用基于凝聚度与邻接熵的中文新词算法,提取出专利文本中涉及到的学术专业词汇,以构建领域词典,支撑后续的自然语言处理相关的算法。对一个字组合W=(ω1,...,ωn),其对应的凝聚度为:表现了一个字组合中字的关联程度;左右邻接熵为: 计算字组合两侧词汇的随机程度。两者共同决定了该字组合有多大可能是一个词汇。使用左右邻接熵中的最小值与凝聚度,通过一个可以人工调整的阈值来判别字组合W是否是一个词汇并录入词典。
S103,基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果;
其中,预设分词词典是现有的常规词典。
通常,在对摘要信息进行分词时,在常规分词的基础上,需要参考步骤S102构建的专利领域词典优化专业领域文本的分词效果。
在一种可能的实现方式中,在对专利的摘要文本进行分词时,首先剔除专利文本的摘要信息中的停用词,生成剔除停用词的摘要文本,然后根据专利领域词典与预设分词词典对剔除停用词的摘要文本进行正向匹配,生成第一词组集合,其次根据专利领域词典与预设分词词典对剔除停用词的摘要文本进行负向匹配,生成第二词组集合,最后将第一词组集合或第二词组集合确定为分词结果。
具体的,在将第一词组集合或第二词组集合确定为分词结果时,当第一词组集合中的词组个数大于第二词组集合中的词组个数时,将第一词组集合确定为分词结果;或者当第二词组集合中的词组个数大于第一词组集合中的词组个数时,将第二词组集合确定为分词结果;或者当第二词组集合中的词组个数大于第一词组集合中的词组个数时,分别统计第一词组集合与第二词组集合各自的单个词个数;并当第一词组集合的单个词个数大于第二词组集合中的单个词个数时,将第二词组集合确定为分词结果;或者当第一词组集合的单个词个数小于第二词组集合中的单个词个数时,将第一词组集合确定为分词结果。
S104,采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱;
在本申请实施例中,首先采用关键词抽取算法从分词结果中获取专利的关键词,然后将专利的关键词嵌入第一图谱中,生成专利的关键词对应的关键词节点,最后将关键词节点与专利节点关联后,生成第二图谱;其中,关键词节点与专利节点之间构成关键词关系。
在一种可能的实现方式中,利用自然语言处理技术对专利文本进行分词,并使用关键词抽取算法获取专利的关键词信息,并将抽取到的关键词加入初始化的图谱,形成属性节点并与专利节点构成关键词关系。
其中,关键词抽取算法混合使用基于统计的tf-idf值和基于LDA主题模型的主题权重共同决定,并且可以连接相邻关键词,也就是说关键词可能并不是一个单词而是一个短语。图2是两篇专利摘要的关键词抽取结果示例。
S105,采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。
在本申请实施例中,首先采用语义角色标注算法从分词结果中获取每个词汇的语义角色,然后根据预先定义的角色筛选列表,并根据语义角色筛选描述专利内容的关系与对象,最后将描述专利内容的关系与对象嵌入第二图谱后生成专利数据的知识图谱。
在一种可能的实现方式中,利用自然语言处理技术对专利文本进行分词,并使用关系抽取算法获取摘要文本中没有被关键词覆盖到的,往往是更加细节一些的深度关系信息。将抽取到的关系加入知识图谱,节点即为挖掘出的关系的对象,关系名即为挖掘出的关系,生成最终的知识图谱,图3为最终的知识图谱的部分示例图。
例如图4所示,图4是本申请提供的一种专利数据的知识图谱构建过程的过程示意图,首先从专利数据中获取结构化信息构建初始图谱,然后基于专利数据构建专利领域词典,并在常规分词的基础上,配合专利领域词典进行优化分词后得到分词结果,其次从分词结果中进行关键词抽取,将抽取得到的专利关键词输入初始图谱中,再深度进行关系抽取,得到专利深度信息,并将专利深度信息输入知识图谱中,最后得到专利知识图谱。
在本申请实施例中,专利数据的知识图谱构建装置首先获取专利文本的结构化信息,并基于结构化信息构建第一图谱,然后收集专利语料样本,并基于专利语料样本构建专利领域词典,再基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果,其次采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱,最后采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。由于本申请通过提炼专利文档中的关键信息来构建知识图谱,从而可以从大量的专利文档中快速准确地确定出科技的发展趋势,以及识别到创新的方向,进一步提升了科研人员检索关键信息的效率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
请参见图5,其示出了本发明一个示例性实施例提供的专利数据的知识图谱构建装置的结构示意图。该专利数据的知识图谱构建装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1包括第一图谱构建模块10、词典构建模块20、分词结果生成模块30、第二图谱生成模块40、专利数据的知识图谱生成模块50。
第一图谱构建模块10,用于获取专利文本的结构化信息,并基于结构化信息构建第一图谱;
词典构建模块20,用于收集专利语料样本,基于专利语料样本构建专利领域词典;
分词结果生成模块30,用于基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果;
第二图谱生成模块40,用于采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱;
专利数据的知识图谱生成模块50,用于采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。
需要说明的是,上述实施例提供的专利数据的知识图谱构建装置在执行专利数据的知识图谱构建方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的专利数据的知识图谱构建装置与专利数据的知识图谱构建方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,专利数据的知识图谱构建装置首先获取专利文本的结构化信息,并基于结构化信息构建第一图谱,然后收集专利语料样本,并基于专利语料样本构建专利领域词典,再基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果,其次采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱,最后采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。由于本申请通过提炼专利文档中的关键信息来构建知识图谱,从而可以从大量的专利文档中快速准确地确定出科技的发展趋势,以及识别到创新的方向,进一步提升了科研人员检索关键信息的效率。
本发明还提供一种计算机可读介质,其上存储有程序指令,该程序指令被处理器执行时实现上述各个方法实施例提供的专利数据的知识图谱构建方法。本发明还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个方法实施例的专利数据的知识图谱构建方法。
请参见图6,为本申请实施例提供了一种终端的结构示意图。如图6所示,终端1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及专利数据的知识图谱构建应用程序。
在图6所示的终端1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的专利数据的知识图谱构建应用程序,并具体执行以下操作:
获取专利文本的结构化信息,并基于结构化信息构建第一图谱;
收集专利语料样本,基于专利语料样本构建专利领域词典;
基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果;
采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱;
采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。
在一个实施例中,处理器1001在执行基于结构化信息构建第一图谱时,具体执行以下操作:
根据发明人信息、申请人信息以及代理人信息构建知识图谱初始节点;
将知识图谱初始节点组合后生成第一图谱;
其中,知识图谱初始节点包括专利节点、发明人节点与申请人节点。
在一个实施例中,处理器1001在执行基于专利语料样本构建专利领域词典时,具体执行以下操作:
去除专利语料样本中的停用词,生成语料文本;
从语料文本中确定出第一字符,并构建第一字符的组合词汇;
计算组合词汇的凝聚度;
计算组合词汇的两侧词汇的随机程度,生成左邻接熵与右邻接熵;
选取左邻接熵与右邻接熵中的的较小邻接熵与凝聚度作积,生成判定值;
当判定值大于预设阈值时,将组合词汇录入词典;
继续执行从语料文本中确定出第一字符的步骤,直到语料文本中全部字符遍历完成时,生成专利领域词典。
在一个实施例中,处理器1001在执行基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果时,具体执行以下操作:
剔除专利文本的摘要信息中的停用词,生成剔除停用词的摘要文本;
根据专利领域词典与预设分词词典对剔除停用词的摘要文本进行正向匹配,生成第一词组集合;
根据专利领域词典与预设分词词典对剔除停用词的摘要文本进行负向匹配,生成第二词组集合;
将第一词组集合或第二词组集合确定为分词结果。
在一个实施例中,处理器1001在执行将第一词组集合或第二词组集合确定为分词结果时,具体执行以下操作:
当第一词组集合中的词组个数大于第二词组集合中的词组个数时,将第一词组集合确定为分词结果;
或者,
当第二词组集合中的词组个数大于第一词组集合中的词组个数时,将第二词组集合确定为分词结果;
或者,
当第二词组集合中的词组个数大于第一词组集合中的词组个数时,分别统计第一词组集合与第二词组集合各自的单个词个数;
当第一词组集合的单个词个数大于第二词组集合中的单个词个数时,将第二词组集合确定为分词结果;当第一词组集合的单个词个数小于第二词组集合中的单个词个数时,将第一词组集合确定为分词结果。
在一个实施例中,处理器1001在执行采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱时,具体执行以下操作:
采用关键词抽取算法从分词结果中获取专利的关键词;
将专利的关键词嵌入第一图谱中,生成专利的关键词对应的关键词节点;
将关键词节点与专利节点关联后,生成第二图谱;
其中,关键词节点与专利节点之间构成关键词关系。
在一个实施例中,处理器1001在执行采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱时,具体执行以下操作:
采用语义角色标注算法从分词结果中获取每个词汇的语义角色;
根据预先定义的角色筛选列表,并根据语义角色筛选描述专利内容的关系与对象;
将描述专利内容的关系与对象嵌入第二图谱后生成专利数据的知识图谱。
在本申请实施例中,专利数据的知识图谱构建装置首先获取专利文本的结构化信息,并基于结构化信息构建第一图谱,然后收集专利语料样本,并基于专利语料样本构建专利领域词典,再基于专利领域词典与预设分词词典对专利文本的摘要信息进行分词,生成分词结果,其次采用关键词抽取算法从分词结果中获取专利的关键词,并将获取的关键词嵌入第一图谱后生成第二图谱,最后采用关系抽取算法从分词结果中筛选专利的关系信息,并将关系信息嵌入第二图谱后生成专利数据的知识图谱。由于本申请通过提炼专利文档中的关键信息来构建知识图谱,从而可以从大量的专利文档中快速准确地确定出科技的发展趋势,以及识别到创新的方向,进一步提升了科研人员检索关键信息的效率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (9)
1.一种专利数据的知识图谱构建方法,其特征在于,所述方法包括:
获取专利文本的结构化信息,并基于所述结构化信息构建第一图谱;
其中,所述结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构;
所述结构化信息至少包括发明人信息、申请人信息以及代理人信息;
所述基于所述结构化信息构建第一图谱,包括:
根据所述发明人信息、申请人信息以及代理人信息构建知识图谱初始节点;
将所述知识图谱初始节点组合后生成第一图谱;
其中,所述知识图谱初始节点包括专利节点、发明人节点与申请人节点;
收集专利语料样本,基于所述专利语料样本构建专利领域词典;
基于所述专利领域词典与预设分词词典对所述专利文本的摘要信息进行分词,生成分词结果;
采用关键词抽取算法从所述分词结果中获取专利的关键词,并将所述获取的关键词嵌入所述第一图谱后生成第二图谱;
采用关系抽取算法从所述分词结果中筛选专利的关系信息,并将所述关系信息嵌入所述第二图谱后生成专利数据的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述基于所述专利语料样本构建专利领域词典,包括:
去除所述专利语料样本中的停用词,生成语料文本;
从所述语料文本中确定出第一字符,并构建所述第一字符的组合词汇;
计算所述组合词汇的凝聚度;
计算所述组合词汇的两侧词汇的随机程度,生成左邻接熵与右邻接熵;
选取所述左邻接熵与右邻接熵中的较小邻接熵与所述凝聚度作积,生成判定值;
当所述判定值大于预设阈值时,将所述组合词汇录入词典;
继续执行从所述语料文本中确定出第一字符的步骤,直到所述语料文本中全部字符遍历完成时,生成专利领域词典。
3.根据权利要求1所述的方法,其特征在于,所述基于所述专利领域词典与预设分词词典对所述专利文本的摘要信息进行分词,生成分词结果,包括:
剔除所述专利文本的摘要信息中的停用词,生成剔除停用词的摘要文本;
根据所述专利领域词典与预设分词词典对所述剔除停用词的摘要文本进行正向匹配,生成第一词组集合;
根据所述专利领域词典与预设分词词典对所述剔除停用词的摘要文本进行负向匹配,生成第二词组集合;
将所述第一词组集合或所述第二词组集合确定为分词结果。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一词组集合或所述第二词组集合确定为分词结果,包括:
当所述第一词组集合中的词组个数大于所述第二词组集合中的词组个数时,将所述第一词组集合确定为分词结果;
或者,
当所述第二词组集合中的词组个数大于所述第一词组集合中的词组个数时,将所述第二词组集合确定为分词结果;
或者,
当所述第二词组集合中的词组个数大于所述第一词组集合中的词组个数时,分别统计第一词组集合与第二词组集合各自的单个词个数;
当所述第一词组集合的单个词个数大于所述第二词组集合中的单个词个数时,将所述第二词组集合确定为分词结果;当所述第一词组集合的单个词个数小于所述第二词组集合中的单个词个数时,将所述第一词组集合确定为分词结果。
5.根据权利要求1所述的方法,其特征在于,所述采用关键词抽取算法从所述分词结果中获取专利的关键词,并将所述获取的关键词嵌入所述第一图谱后生成第二图谱,包括:
采用关键词抽取算法从所述分词结果中获取专利的关键词;
将所述专利的关键词嵌入所述第一图谱中,生成所述专利的关键词对应的关键词节点;
将所述关键词节点与所述专利节点关联后,生成第二图谱;
其中,所述关键词节点与所述专利节点之间构成关键词关系。
6.根据权利要求1所述的方法,其特征在于,采用关系抽取算法从所述分词结果中筛选专利的关系信息,并将所述关系信息嵌入所述第二图谱后生成专利数据的知识图谱,包括:
采用语义角色标注算法从所述分词结果中获取每个词汇的语义角色;
根据预先定义的角色筛选列表,并根据所述语义角色筛选描述专利内容的关系与对象;
将所述描述专利内容的关系与对象嵌入所述第二图谱后生成专利数据的知识图谱。
7.一种专利数据的知识图谱构建装置,其特征在于,所述装置包括:
第一图谱构建模块,用于获取专利文本的结构化信息,并基于所述结构化信息构建第一图谱;其中,所述结构化信息是指信息经过分析后可分解成多个互相关联的组成部分,各组成部分间有明确的层次结构;
所述结构化信息至少包括发明人信息、申请人信息以及代理人信息;
所述第一图谱构建模块具体用于:
根据所述发明人信息、申请人信息以及代理人信息构建知识图谱初始节点;
将所述知识图谱初始节点组合后生成第一图谱;
其中,所述知识图谱初始节点包括专利节点、发明人节点与申请人节点;
词典构建模块,用于收集专利语料样本,基于所述专利语料样本构建专利领域词典;
分词结果生成模块,用于基于所述专利领域词典与预设分词词典对所述专利文本的摘要信息进行分词,生成分词结果;
第二图谱生成模块,用于采用关键词抽取算法从所述分词结果中获取专利的关键词,并将所述获取的关键词嵌入所述第一图谱后生成第二图谱;
专利数据的知识图谱生成模块,用于采用关系抽取算法从所述分词结果中筛选专利的关系信息,并将所述关系信息嵌入所述第二图谱后生成专利数据的知识图谱。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1-6任意一项的方法步骤。
9.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1-6任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110565907.2A CN113342989B (zh) | 2021-05-24 | 2021-05-24 | 专利数据的知识图谱构建方法、装置、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110565907.2A CN113342989B (zh) | 2021-05-24 | 2021-05-24 | 专利数据的知识图谱构建方法、装置、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342989A CN113342989A (zh) | 2021-09-03 |
CN113342989B true CN113342989B (zh) | 2022-12-20 |
Family
ID=77471086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110565907.2A Active CN113342989B (zh) | 2021-05-24 | 2021-05-24 | 专利数据的知识图谱构建方法、装置、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342989B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115757827A (zh) * | 2022-11-21 | 2023-03-07 | 开普云信息科技股份有限公司 | 专利文本的知识图谱创建方法、装置、存储介质及设备 |
CN117252262B (zh) * | 2023-09-28 | 2024-07-26 | 四川大学 | 知识图谱构建与专利信息检索方法及装置 |
CN117494811B (zh) * | 2023-11-20 | 2024-05-28 | 南京大经中医药信息技术有限公司 | 中医典籍的知识图谱构建方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765838A (zh) * | 2012-10-23 | 2015-07-08 | 海信集团有限公司 | 一种分词方法及装置 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN112329443A (zh) * | 2020-11-03 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 一种确定新词的方法、装置,计算机设备和介质 |
CN112463926A (zh) * | 2020-12-07 | 2021-03-09 | 广东电网有限责任公司佛山供电局 | 一种数据检索/智能问答方法、装置、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763445B (zh) * | 2018-05-25 | 2019-09-17 | 厦门智融合科技有限公司 | 专利知识库的构建方法、装置、计算机设备和存储介质 |
-
2021
- 2021-05-24 CN CN202110565907.2A patent/CN113342989B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765838A (zh) * | 2012-10-23 | 2015-07-08 | 海信集团有限公司 | 一种分词方法及装置 |
CN109189942A (zh) * | 2018-09-12 | 2019-01-11 | 山东大学 | 一种专利数据知识图谱的构建方法及装置 |
CN112329443A (zh) * | 2020-11-03 | 2021-02-05 | 中国平安人寿保险股份有限公司 | 一种确定新词的方法、装置,计算机设备和介质 |
CN112463926A (zh) * | 2020-12-07 | 2021-03-09 | 广东电网有限责任公司佛山供电局 | 一种数据检索/智能问答方法、装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113342989A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113342989B (zh) | 专利数据的知识图谱构建方法、装置、存储介质及终端 | |
CN109885691B (zh) | 知识图谱补全方法、装置、计算机设备及存储介质 | |
CN109460551B (zh) | 签名信息提取方法及装置 | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN107346336A (zh) | 基于人工智能的信息处理方法和装置 | |
CN111291210A (zh) | 图像素材库生成方法、图像素材推荐方法及相关装置 | |
CN112434510B (zh) | 一种信息处理方法、装置、电子设备和存储介质 | |
CN110334343B (zh) | 一种合同中个人隐私信息抽取的方法和系统 | |
CN115795030A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
JP2020071839A (ja) | 探索装置、探索方法、探索プログラムおよび記録媒体 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
JP6868576B2 (ja) | 事象提示システムおよび事象提示装置 | |
CN108595466B (zh) | 一种互联网信息过滤以及互联网用户信息和网帖结构分析方法 | |
CN112015895A (zh) | 一种专利文本分类方法及装置 | |
CN109753646A (zh) | 一种文章属性识别方法以及电子设备 | |
CN104142947A (zh) | 文件分类系统及方法 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN103164491B (zh) | 一种数据处理和检索的方法及设备 | |
JPWO2015016133A1 (ja) | 情報管理装置及び情報管理方法 | |
CN113486148A (zh) | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 | |
CN107463570B (zh) | 一种文献检索/分析方法和装置 | |
CN111310465A (zh) | 平行语料获取方法、装置、电子设备、及存储介质 | |
CN117093715B (zh) | 词库扩充方法、系统、计算机设备及存储介质 | |
CN112650837B (zh) | 结合分类算法与非监督算法的文本质量控制方法及系统 | |
CN114357194B (zh) | 种子数据的扩充方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |