CN110457487A - 专利知识图谱的构建方法及装置 - Google Patents

专利知识图谱的构建方法及装置 Download PDF

Info

Publication number
CN110457487A
CN110457487A CN201910620962.XA CN201910620962A CN110457487A CN 110457487 A CN110457487 A CN 110457487A CN 201910620962 A CN201910620962 A CN 201910620962A CN 110457487 A CN110457487 A CN 110457487A
Authority
CN
China
Prior art keywords
data
ipc
knowledge
semi
applicant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910620962.XA
Other languages
English (en)
Other versions
CN110457487B (zh
Inventor
欧中洪
戴敏江
谭言信
宋美娜
宋俊德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910620962.XA priority Critical patent/CN110457487B/zh
Publication of CN110457487A publication Critical patent/CN110457487A/zh
Application granted granted Critical
Publication of CN110457487B publication Critical patent/CN110457487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Technology Law (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种专利知识图谱的构建方法及装置,其中,方法包括以下步骤:从互联网爬取专利相关网站的半结构化数据;对半结构化数据进行处理,得到初始专利数据;根据初始专利数据得到每篇专利的专利属性,并根据每篇专利的专利属性IPC条件对应的IPC分类树,并构建专利知识图谱。该方法可以利用IPC分类号的优势进行知识图谱构建,并从标题与摘要中提取知识进行本体扩建与知识扩展,从而不仅有助于主题的精细化,而且可以减少了人工标注的步骤,且仅需要人工审查即可完成知识图谱的扩充,并可以获取更多细分知识。

Description

专利知识图谱的构建方法及装置
技术领域
本发明涉及知识图谱构建技术领域,特别涉及一种专利知识图谱的构建方法及装置。
背景技术
随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。知识图谱于2012年5月17日由[Google]正式提出,其初衷是为了提高搜索引擎的能力,改善用户的搜索质量以及搜索体验。随着人工智能的技术发展和应用,知识图谱逐渐成为关键技术之一,现已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发等领域。知识图谱的构建方法通常有自顶向下和自底向上两种:
(1)所谓自顶向下的方法是指先构建知识图谱的本体,即从行业领域、百科类网站及其它等高质量的数据源中,提取本体和模式信息,添加到知识库中,然后基于本体结构对结构化,半结构化,非结构化数据进行知识抽取,最终存入知识库。
(2)而自底向上的方法是指从实体层开始,借助于一定的技术手段,对实体进行归纳组织、实体对齐和实体链接等,并提取出具有较高置信度的新模式,经人工审核后,加入到知识图谱中。
如上所述,目前专利知识图谱构建方法主要有:(1)自底向上构建知识图谱,对专利数据进行分词,采用Rank算法获取关键词,然后根据关键词进行主题聚类,从而将专利归类到不同主题下,根据不同的主题构建专利主题库,从而完成本体层的构建;(2)自顶向下构建知识图谱,通过对领域、业务的分析构建本体层,然后根据本体层对数据进行知识抽取,最终构建知识图谱。方式(1)可以构建不同主题的专利数据库,而通过主题特征构建知识图谱可以应用于推荐,检索等多个领域,但是直接通过对专利数据进行分词,提取关键词后聚类的主题存在关键词混杂,主题不明确,从而使得同一主题库下的专利类型比较混杂的弊端。方式(2)仅仅可以利用现有的领域、业务特征进行本体构建,存在无法扩充必要的其他本体结构的缺点,从而导致图谱构建不完善。
综上,当前知识图谱构建有基于领域特征、业务特征进行自顶向下的图谱构建,存在无法灵活扩充本体结构的缺点;也有对数据进行分析处理,通过各种方法抽象出本体层结构的方法,存在本体构建不完善,同一本体下专利数据存储混乱等弊端。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种专利知识图谱的构建方法,该方法可以利用IPC分类号的优势进行知识图谱构建,并从标题与摘要中提取知识进行本体扩建与知识扩展,从而不仅有助于主题的精细化,而且可以减少了人工标注的步骤,且仅需要人工审查即可完成知识图谱的扩充,并可以获取更多细分知识。
本发明的另一个目的在于提出一种专利知识图谱的构建装置。
为达到上述目的,本发明一方面实施例提出了一种专利知识图谱的构建方法,包括以下步骤:从互联网爬取专利相关网站的半结构化数据;对所述半结构化数据进行处理,得到初始专利数据;根据所述初始专利数据得到每篇专利的专利属性,并根据所述每篇专利的专利属性IPC条件对应的IPC分类树,并构建专利知识图谱。
本发明实施例的专利知识图谱的构建方法,有效解决了现有技术中直接采用专利数据分词、提取关键词,然后建立主题库,使得没有细分的数据得到的主题库会包含大量的噪声的问题,利用IPC分类号的优势进行知识图谱构建,即在基于IPC分类号的基础上进一步对摘要和标题的内容进行细分,从而扩展主题,并有助于主题的精细化;从标题与摘要中提取知识进行本体扩建与知识扩展,即基于小样本方式抽取摘要中的知识信息,减少了人工标注的步骤,仅需要人工审查即可完成知识图谱的扩充,相比于现有技术中的知识抽取方式,可以获取更多细分知识。
另外,根据本发明上述实施例的专利知识图谱的构建方法还可以具有以下附加的技术特征:
进一步地,在发明的一个实施例中,所述从互联网爬取专利相关网站的半结构化数据,包括:根据IPC分类号分专利申请日时间段得到所述半结构化数据。
进一步地,在发明的一个实施例中,所述对所述半结构化数据进行处理,包括:对所述半结构化数据进行清洗和去重,以除中文以外语言的专利数据、去除重复的相同专利数据、清除失效专利数据、处理专利数据中的空值。
进一步地,在发明的一个实施例中,所述专利属性包括:专利号、IPC分类号、引证数目、同族数目、被引数目、申请人邮编、申请人所在国、申请人地址、申请号、申请日、公开号、公开日、发明名称、申请人,发明人、优先权号、优先权日、代理人、代理机构、法律状态、专利类型、摘要、CPC分类号、全文文本、法律状态、同族信息和引证信息中的一项或多项。
进一步地,在发明的一个实施例中,所述构建专利知识图谱,包括:根据IPC分类号将同一IPC分类号下的专利数据中的摘要进行分词,并使用TF-IDF方式抽取关键词,并将所述关键词加入到专利对应的IPC分类号的关键词列表中,添加完成后,形成最终的IPC主题分类。
为达到上述目的,本发明另一方面实施例提出了一种专利知识图谱的构建装置,包括:爬取模块,用于从互联网爬取专利相关网站的半结构化数据;处理模块,用于对所述半结构化数据进行处理,得到初始专利数据;构建模块,用于根据所述初始专利数据得到每篇专利的专利属性,并根据所述每篇专利的专利属性IPC条件对应的IPC分类树,并构建专利知识图谱。
本发明实施例的专利知识图谱的构建装置,有效解决了现有技术中直接采用专利数据分词、提取关键词,然后建立主题库,使得没有细分的数据得到的主题库会包含大量的噪声的问题,利用IPC分类号的优势进行知识图谱构建,即在基于IPC分类号的基础上进一步对摘要和标题的内容进行细分,从而扩展主题,并有助于主题的精细化;从标题与摘要中提取知识进行本体扩建与知识扩展,即基于小样本方式抽取摘要中的知识信息,减少了人工标注的步骤,仅需要人工审查即可完成知识图谱的扩充,相比于现有技术中的知识抽取方式,可以获取更多细分知识。
另外,根据本发明上述实施例的专利知识图谱的构建装置还可以具有以下附加的技术特征:
进一步地,在发明的一个实施例中,所述爬取模块进一步用于根据IPC分类号分专利申请日时间段得到所述半结构化数据。
进一步地,在发明的一个实施例中,所述处理模块进一步用于对所述半结构化数据进行清洗和去重,以除中文以外语言的专利数据、去除重复的相同专利数据、清除失效专利数据、处理专利数据中的空值。
进一步地,在发明的一个实施例中,所述专利属性包括:专利号、IPC分类号、引证数目、同族数目、被引数目、申请人邮编、申请人所在国、申请人地址、申请号、申请日、公开号、公开日、发明名称、申请人,发明人、优先权号、优先权日、代理人、代理机构、法律状态、专利类型、摘要、CPC分类号、全文文本、法律状态、同族信息和引证信息中的一项或多项。
进一步地,在发明的一个实施例中,所述构建模块进一步用于根据IPC分类号将同一IPC分类号下的专利数据中的摘要进行分词,并使用TF-IDF方式抽取关键词,并将所述关键词加入到专利对应的IPC分类号的关键词列表中,添加完成后,形成最终的IPC主题分类。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的专利知识图谱的构建方法的流程图;
图2为根据本发明实施例的专利爬虫爬取的流程图;
图3为根据本发明实施例的IPC主题分类构建的流程图;
图4为根据本发明实施例的自底向上方式构建专利知识图谱的流程图;
图5为根据本发明实施例的专利知识图谱的构建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的专利知识图谱的构建方法及装置,首先将参照附图描述根据本发明实施例提出的专利知识图谱的构建方法。
图1是本发明一个实施例的专利知识图谱的构建方法的流程图。
如图1所示,该专利知识图谱的构建方法包括以下步骤:
在步骤S101中,从互联网爬取专利相关网站的半结构化数据。
可以理解的是,本发明实施例可以通过专利爬虫方式获取专利相关网站的半结构化数据。其中,专利爬虫的流程如图2所示。
进一步地,在本发明的一个实施例中,从互联网爬取专利相关网站的半结构化数据,包括:根据IPC分类号分专利申请日时间段得到半结构化数据。
可以理解的是,爬取时的条件是根据IPC分类号分专利申请日时间段进行爬取,以便后期专利数据本体构建与本体扩充。
在步骤S102中,对半结构化数据进行处理,得到初始专利数据。
进一步地,在本发明的一个实施例中,对半结构化数据进行处理,包括:对半结构化数据进行清洗和去重,以除中文以外语言的专利数据、去除重复的相同专利数据、清除失效专利数据、处理专利数据中的空值。
可以理解的是,在得到半结构化数据之后,本发明实施例进一步对数据进行清洗,去重,包括去除中文以外语言的专利数据,去除重复的相同专利数据,清除失效专利数据,处理专利数据中的空值等,最终整理得到原始专利数据。
在步骤S103中,根据初始专利数据得到每篇专利的专利属性,并根据每篇专利的专利属性IPC条件对应的IPC分类树,并构建专利知识图谱。
可以理解的是,本发明实施例通过爬虫方式爬取“专利爬虫”所采用的IPC条件对应的IPC分类树,用于知识图谱的本体构建,其中,本发明实施例爬取专利数据采用的条件可以为IPC分类号为G06下的相关专利。
其中,在本发明的一个实施例中,最终爬取得到的完整的专利属性如下:专利号,IPC分类号,引证数目,同族数目,被引数目,申请人邮编,申请(专利权)人所在国(省),申请人地址,申请号,申请日,公开(公告)号,公开(公告)日,发明名称,申请(专利权)人,发明人,优先权号,优先权日,代理人,代理机构,法律状态,专利类型,摘要,CPC分类号,全文文本,法律状态,同族信息,引证信息等。
其中,法律状态包含属性:法律状态含义,申请号,法律状态生效日;引证信息包含属性:相关权利要求,IPC分类号,相关段落,公开号相关性;同族信息包含属性:申请号:发明名称,公开(公告)号,优先权号,公开(公告)日。
进一步地,在本发明的一个实施例中,构建专利知识图谱,包括:根据IPC分类号将同一IPC分类号下的专利数据中的摘要进行分词,并使用TF-IDF方式抽取关键词,并将关键词加入到专利对应的IPC分类号的关键词列表中,添加完成后,形成最终的IPC主题分类。
具体而言,本发明实施例获取原始专利数据后,先采用自顶向下方式构建本体。通过对专利检索用到的关键信息以及爬取的专利数据的属性进行归纳总结,将申请人、申请机构、发明人、代理人、代理机构、专利类别、IPC分类号等抽象为本体结构,进行本体构建。特别的,IPC分类号的本体结构为IPC分类树。另外进一步将专利类别细分为:发明专利类别、外观设计型专利、实用新型专利类别。本体中的分层关系均采用“子类-父类”表示层级关系,以区别于非本体结构的其他实体关系。
然后,如图3所示,构建以IPC分类号为主题的本体结构,每一个IPC分类号均有对应的名称,对IPC分类号对应的名称进行分词,去停用词,去标点后,使用词频统计方式得到词频最高的3个词作为对应IPC分类号的关键词。经过审查,由于IPC分类号的名称具有高度概括性,十分简短,因此仅仅使用IPC分类号对应的名称提取关键词来做为主题词不够合理,但考虑到同一IPC分类号下的专利数据具有相似性,本发明实施例进一步对同类IPC分类号下专利数据的文本进行处理。首先根据IPC分类号将同一IPC分类号下的专利数据中的摘要进行分词,去停用词,去标点等操作,然后使用TF-IDF方式抽取关键词,最后加入到专利对应的IPC分类号的关键词列表中,添加完成后通过人工审查形成最终的IPC主题分类。这样基于IPC分类号的主题特征就构建完成。
基于自顶向下构建的知识图谱,继续使用自底向上的方式扩充本体层结构,如图4所示,具体包括:
首先,根据IPC分类号对所有专利数据进行划分,即根据专利的IPC分类号放到对应的文件中。
然后,人工分析专利标题,摘要的特征,得到的特征总结如下:
(1)专利名称命名比较规范,其名称往往包含(方法,功能)两方面内容,或者只包含其中一方面内容。而且名称中包含的两部分内容往往用一些词即可划分,例如专利名称“一种基于区块链技术的知识图谱的管理和追溯的查询系统”,往往包含“一种”,“基于”,“的”,“方法”,“系统”,“平台”等,因此采用基于规则的方式抽取“方法”和“功能”,具体规则如下:
获取标题中的方法内容:'[一种,基于]*.*[的]';
获取标题中的功能内容:'[的]+.*[方法,装置,系统,设备,平台]*'。
(2)通过对专利摘要文本的观察与分析,摘要往往包含“专利的优点”,“专利所属领域”,“专利内容步骤”,“专利实现的功能”,“专利采用的方法”等多种内容,直接将摘要内容切分后即可获得相关内容。本发明实施例首先对摘要的内容进行分句,然后取部分句子,大约80-100句样本句子通过人工方式进行句子类别的标注,接着采用基于余弦相似度的小样本方法自动标注其余所有句子,最后人工审核修改标注错误的句子类别,完成摘要文本中的句子切分与分类。
通过切分与标注完成标题与摘要的特征提取后,接着对特征空值进行处理,然后扩充图谱的本体结构。首先利用获取的特征数据扩充图谱的本体结构,扩建的本体包括:专利所属的领域、专利的功能、专利采用的方法等,本体的扩建是基于整个知识图谱范围,例如领域本体层结构,顶层为领域类节点,在此分支下统计各种领域的情况,对相近领域进行融合,从而得到领域类的自节点,即具体的领域几点,从而扩展领域类节点的子类。专利的功能,专利的方法的本体构建过程类似。
进一步,利用以上特征构建专利的特征矩阵来扩充IPC分类主题的主题类别。特征矩阵的每一列表示提取的某一类特征,矩阵的列通过对对应特征句子先进行分词,去停用词,特别的停用词包括IPC分类号中包含的IPC名称关键词以及从摘要中使用TF-IDF提取的关键词,以防止已有的IPC分类主题对新主题造成干扰,然后使用word2vec将词向量求和求平均得到最终的特征向量。然后全局范围内对专利数据进行主题聚类,主题聚类算法为LDA算法,聚类完成后,同样通过对同一主题下的专利数据的摘要内容进行TF-IDF词频统计获得相应的关键词作为新的主题关键词。
需要说明的是,以上通过切分专利摘要文本后抽取的知识需要经过人工审核后加入已有的知识图谱。另外使用专利特征矩阵与主题聚类算法得到的新的主题也需要最终通过人工审核再融合到已有知识图谱的本体层中。
综上,本发明实施例在构建专利知识图谱时同时基于两种方式。首先归纳总结专利检索服务,专利检索领域的包含的流程,然后从专利的属性中提取必要的信息抽象称为本体层,特别是IPC分类号,作为专利分类法分类专利文献(说明书)用的分类号,对于专利文献的主题本体构建有着十分重要的作用。但是IPC分类号也存在着一些问题,例如具有相同功能的两个专利可能被分到两个IPC分类号下,因此不够灵活,而且IPC分类号的自身含义没有特别有效概括其下专利的主题。基于此,本发明实施例又提出了基于专利的名称、摘要等属性进行信息提取,并将信息作为专利的特征,进行进一步的主题分类,完善专利知识图谱的本体结构。
根据本发明实施例提出的专利知识图谱的构建方法,有效解决了现有技术中直接采用专利数据分词、提取关键词,然后建立主题库,使得没有细分的数据得到的主题库会包含大量的噪声的问题,利用IPC分类号的优势进行知识图谱构建,即在基于IPC分类号的基础上进一步对摘要和标题的内容进行细分,从而扩展主题,并有助于主题的精细化;从标题与摘要中提取知识进行本体扩建与知识扩展,即基于小样本方式抽取摘要中的知识信息,减少了人工标注的步骤,仅需要人工审查即可完成知识图谱的扩充,相比于现有技术中的知识抽取方式,可以获取更多细分知识。
其次参照附图描述根据本发明实施例提出的专利知识图谱的构建装置。
图5是本发明一个实施例的专利知识图谱的构建装置的结构示意图。
如图5所示,该专利知识图谱的构建装置10包括:爬取模块100、处理模块200和构建模块300。
其中,爬取模块100用于从互联网爬取专利相关网站的半结构化数据。处理模块200用于对半结构化数据进行处理,得到初始专利数据。构建模块300用于根据初始专利数据得到每篇专利的专利属性,并根据每篇专利的专利属性IPC条件对应的IPC分类树,并构建专利知识图谱。本发明实施例的装置10可以利用IPC分类号的优势进行知识图谱构建,并从标题与摘要中提取知识进行本体扩建与知识扩展,从而不仅有助于主题的精细化,而且可以减少了人工标注的步骤,且仅需要人工审查即可完成知识图谱的扩充,并可以获取更多细分知识。
进一步地,在发明的一个实施例中,爬取模块100进一步用于根据IPC分类号分专利申请日时间段得到半结构化数据。
进一步地,在发明的一个实施例中,处理模块200进一步用于对半结构化数据进行清洗和去重,以除中文以外语言的专利数据、去除重复的相同专利数据、清除失效专利数据、处理专利数据中的空值。
进一步地,在发明的一个实施例中,专利属性包括:专利号、IPC分类号、引证数目、同族数目、被引数目、申请人邮编、申请人所在国、申请人地址、申请号、申请日、公开号、公开日、发明名称、申请人,发明人、优先权号、优先权日、代理人、代理机构、法律状态、专利类型、摘要、CPC分类号、全文文本、法律状态、同族信息和引证信息中的一项或多项。
进一步地,在发明的一个实施例中,构建模块300进一步用于根据IPC分类号将同一IPC分类号下的专利数据中的摘要进行分词,并使用TF-IDF方式抽取关键词,并将关键词加入到专利对应的IPC分类号的关键词列表中,添加完成后,形成最终的IPC主题分类。
需要说明的是,前述对专利知识图谱的构建方法实施例的解释说明也适用于该实施例的专利知识图谱的构建装置,此处不再赘述。
根据本发明实施例提出的专利知识图谱的构建装置,有效解决了现有技术中直接采用专利数据分词、提取关键词,然后建立主题库,使得没有细分的数据得到的主题库会包含大量的噪声的问题,利用IPC分类号的优势进行知识图谱构建,即在基于IPC分类号的基础上进一步对摘要和标题的内容进行细分,从而扩展主题,并有助于主题的精细化;从标题与摘要中提取知识进行本体扩建与知识扩展,即基于小样本方式抽取摘要中的知识信息,减少了人工标注的步骤,仅需要人工审查即可完成知识图谱的扩充,相比于现有技术中的知识抽取方式,可以获取更多细分知识。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种专利知识图谱的构建方法,其特征在于,包括以下步骤:
从互联网爬取专利相关网站的半结构化数据;
对所述半结构化数据进行处理,得到初始专利数据;以及
根据所述初始专利数据得到每篇专利的专利属性,并根据所述每篇专利的专利属性IPC条件对应的IPC分类树,并构建专利知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述从互联网爬取专利相关网站的半结构化数据,包括:
根据IPC分类号分专利申请日时间段得到所述半结构化数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述半结构化数据进行处理,包括:
对所述半结构化数据进行清洗和去重,以除中文以外语言的专利数据、去除重复的相同专利数据、清除失效专利数据、处理专利数据中的空值。
4.根据权利要求1所述的方法,其特征在于,所述专利属性包括:专利号、IPC分类号、引证数目、同族数目、被引数目、申请人邮编、申请人所在国、申请人地址、申请号、申请日、公开号、公开日、发明名称、申请人,发明人、优先权号、优先权日、代理人、代理机构、法律状态、专利类型、摘要、CPC分类号、全文文本、法律状态、同族信息和引证信息中的一项或多项。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述构建专利知识图谱,包括:
根据IPC分类号将同一IPC分类号下的专利数据中的摘要进行分词,并使用TF-IDF方式抽取关键词,并将所述关键词加入到专利对应的IPC分类号的关键词列表中,添加完成后,形成最终的IPC主题分类。
6.一种专利知识图谱的构建装置,其特征在于,包括:
爬取模块,用于从互联网爬取专利相关网站的半结构化数据;
处理模块,用于对所述半结构化数据进行处理,得到初始专利数据;以及
构建模块,用于根据所述初始专利数据得到每篇专利的专利属性,并根据所述每篇专利的专利属性IPC条件对应的IPC分类树,并构建专利知识图谱。
7.根据权利要求6所述的装置,其特征在于,所述爬取模块进一步用于根据IPC分类号分专利申请日时间段得到所述半结构化数据。
8.根据权利要求6所述的装置,其特征在于,所述处理模块进一步用于对所述半结构化数据进行清洗和去重,以除中文以外语言的专利数据、去除重复的相同专利数据、清除失效专利数据、处理专利数据中的空值。
9.根据权利要求6所述的装置,其特征在于,所述专利属性包括:专利号、IPC分类号、引证数目、同族数目、被引数目、申请人邮编、申请人所在国、申请人地址、申请号、申请日、公开号、公开日、发明名称、申请人,发明人、优先权号、优先权日、代理人、代理机构、法律状态、专利类型、摘要、CPC分类号、全文文本、法律状态、同族信息和引证信息中的一项或多项。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述构建模块进一步用于根据IPC分类号将同一IPC分类号下的专利数据中的摘要进行分词,并使用TF-IDF方式抽取关键词,并将所述关键词加入到专利对应的IPC分类号的关键词列表中,添加完成后,形成最终的IPC主题分类。
CN201910620962.XA 2019-07-10 2019-07-10 专利知识图谱的构建方法及装置 Active CN110457487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620962.XA CN110457487B (zh) 2019-07-10 2019-07-10 专利知识图谱的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620962.XA CN110457487B (zh) 2019-07-10 2019-07-10 专利知识图谱的构建方法及装置

Publications (2)

Publication Number Publication Date
CN110457487A true CN110457487A (zh) 2019-11-15
CN110457487B CN110457487B (zh) 2022-03-29

Family

ID=68482642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620962.XA Active CN110457487B (zh) 2019-07-10 2019-07-10 专利知识图谱的构建方法及装置

Country Status (1)

Country Link
CN (1) CN110457487B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111813874A (zh) * 2020-09-03 2020-10-23 中国传媒大学 太赫兹知识图谱构建方法及系统
CN111859125A (zh) * 2020-07-09 2020-10-30 威海天鑫现代服务技术研究院有限公司 一个面向知识产权技术资源领域的语义网络构建和服务推荐方法
CN113220996A (zh) * 2021-05-10 2021-08-06 北京大学 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN113538179A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能申请方法及系统
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
WO2017039367A9 (ko) * 2015-09-02 2018-01-04 성낙훈 교환출원을 증가시키는 해외 ip출원의 중개시스템과 그 방법
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017039367A9 (ko) * 2015-09-02 2018-01-04 성낙훈 교환출원을 증가시키는 해외 ip출원의 중개시스템과 그 방법
CN105956052A (zh) * 2016-04-27 2016-09-21 青岛海尔软件有限公司 一种基于垂直领域的知识图谱的构建方法
CN108804521A (zh) * 2018-04-27 2018-11-13 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN108875051A (zh) * 2018-06-28 2018-11-23 中译语通科技股份有限公司 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109189942A (zh) * 2018-09-12 2019-01-11 山东大学 一种专利数据知识图谱的构建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张兆锋等: "一种基于知识图谱的技术功效图自动构建方法", 《信息系统》 *
潘东华等: "基于专利文献分类码的技术知识图谱绘制方法研究", 《情报学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN111859125A (zh) * 2020-07-09 2020-10-30 威海天鑫现代服务技术研究院有限公司 一个面向知识产权技术资源领域的语义网络构建和服务推荐方法
CN111813874A (zh) * 2020-09-03 2020-10-23 中国传媒大学 太赫兹知识图谱构建方法及系统
CN111813874B (zh) * 2020-09-03 2023-09-15 中国传媒大学 太赫兹知识图谱构建方法及系统
CN113220996A (zh) * 2021-05-10 2021-08-06 北京大学 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN113538179A (zh) * 2021-06-11 2021-10-22 海南大学 一种基于dikw的专利智能申请方法及系统

Also Published As

Publication number Publication date
CN110457487B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN110457487A (zh) 专利知识图谱的构建方法及装置
CN106844723B (zh) 基于问答系统的医学知识库构建方法
JP5904559B2 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
CN105183869B (zh) 楼宇知识图谱数据库及其构建方法
CN109739964A (zh) 知识数据提供方法、装置、电子设备和存储介质
US7428517B2 (en) Data integration and knowledge management solution
CN109492077A (zh) 基于知识图谱的石化领域问答方法及系统
Fu FCA based ontology development for data integration
JP5924666B2 (ja) 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム
CN104615687B (zh) 一种面向知识库更新的实体细粒度分类方法与系统
CN109508383A (zh) 知识图谱的构建方法及装置
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN109033284A (zh) 基于知识图谱的电力信息运维系统数据库构建方法
CN103955531A (zh) 基于命名实体库的在线知识地图
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN112420212A (zh) 一种脑卒中医疗知识图谱的构建方法
CN110246590A (zh) 一种血液病知识图谱数据库的构建方法
CN106354844A (zh) 基于文本挖掘的服务组合包推荐系统及方法
Martinez-Rico et al. Can deep learning techniques improve classification performance of vandalism detection in Wikipedia?
CN107943810A (zh) 楼宇信息地图的构建方法
CN113157860A (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
CN115640406A (zh) 一种基于多源异构大数据分析处理与知识图谱构建方法
CN115495585A (zh) 一种基于知识图谱的花卉病虫害的本体建模方法和建模系统
CN112307772B (zh) 一种基于语义本体的广彩瓷知识库的构建方法
Soussi Querying and extracting heterogeneous graphs from structured data and unstrutured content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant