CN110119473B - 一种目标文件知识图谱的构建方法及装置 - Google Patents

一种目标文件知识图谱的构建方法及装置 Download PDF

Info

Publication number
CN110119473B
CN110119473B CN201910435990.4A CN201910435990A CN110119473B CN 110119473 B CN110119473 B CN 110119473B CN 201910435990 A CN201910435990 A CN 201910435990A CN 110119473 B CN110119473 B CN 110119473B
Authority
CN
China
Prior art keywords
file
target
database
theme
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910435990.4A
Other languages
English (en)
Other versions
CN110119473A (zh
Inventor
李长亮
侯昶宇
汪美玲
唐剑波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd, Chengdu Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN201910435990.4A priority Critical patent/CN110119473B/zh
Publication of CN110119473A publication Critical patent/CN110119473A/zh
Application granted granted Critical
Publication of CN110119473B publication Critical patent/CN110119473B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种目标文件知识图谱的构建方法及装置,其中所述方法包括:从目标文件库中获取至少两个目标文件,形成目标文件的数据库;从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。

Description

一种目标文件知识图谱的构建方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种目标文件知识图谱的构建方法、装置、计算设备及计算机可读存储介质。
背景技术
目前现有的搜索引擎上提供的搜索服务进针对搜索内容一般采用关键词匹配,缺乏检索结果之间的关联性,且可供用户选择的限制条件较少,不能精准定位,无法进行较为准确的检索。
发明内容
有鉴于此,本申请实施例提供了一种目标文件知识图谱的构建方法、装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本申请实施例的第一方面,提供了一种目标文件知识图谱的构建方法,包括:
从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;
基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;
通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
可选的,在构建所述数据库的知识图谱之后,还包括:
将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
可选的,在从所述数据库中获取所述至少两个目标文件的文件标题和文件主题之后,还包括:
从所述数据库中获取所述至少两个目标文件的属性信息;
确定所述文件标题对应的目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱包括:
确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;
根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;
根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;
基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;
根据所述知识图谱三元组构建所述数据库的知识图谱。
可选的,基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理包括:
根据预设的领域范围确定所述文件主题的包含关系;
根据所述文件主题的包含关系建立主题层级;
确定所述文件标题对应的文件主题;
根据所述文件标题对应的文件主题将所述文件标题添加至对应的主题层级内。
可选的,通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词包括:
通过TF-IDF算法计算出所述至少两个目标文件的语料中出现的每个词语的权重;
将每个词语的权重由高到低进行排序,选取前n个词语作为目标文件的文件关键词,其中,n为大于等于1的正整数。
可选的,在构建所述数据库的知识图谱之后,还包括:
根据用户的请求,基于所述目标文件的知识图谱实现对所述目标文件的数据库的智能搜索。
根据本申请实施例的第二方面,提供了一种目标文件知识图谱的构建装置,包括:
收集模块,被配置为从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
第一获取模块,被配置为从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;
层级模块,被配置为基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;
第二获取模块,被配置为通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;
构建模块,被配置为基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
可选的,还包括:
存储模块,被配置为将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
可选的,还包括:
第三获取模块,被配置为从所述数据库中获取所述至少两个目标文件的属性信息;
所述第三获取模块被还配置为确定所述文件标题对应的目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;
所述构建模块包括:
实体抽取单元,被配置为确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;
关系抽取单元,被配置为根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;
属性抽取单元,被配置为根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;
基础架构单元,被配置为基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;
层级架构单元,被配置为根据所述知识图谱三元组构建所述数据库的知识图谱。
可选的,还包括:
搜索模块,被配置为根据用户的请求,基于所述目标文件的知识图谱实现对所述目标文件的数据库的智能搜索。
n为大于等于1的正整数本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述目标文件知识图谱的构建方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述目标文件知识图谱的构建方法的步骤。
本申请的目标文件知识图谱的构建方法,通过所述方法构建的目标文件的知识图谱支持从多侧面查询目标文件,便于用户精准定位,并通过文件主题与文件关键词之间的联系,进一步理解用户的潜在意图,返回一系列具有关联性的目标文件,使用户具有良好的使用体验。
附图说明
图1是本申请实施例提供的计算设备的结构框图;
图2是本申请实施例提供的目标文件知识图谱的构建方法的流程图;
图3是本申请实施例提供的目标文件知识图谱的构建方法的流程图;
图4是本申请实施例提供的目标文件知识图谱的构建方法的流程图;
图5是本申请实施例提供的目标文件知识图谱的构建方法的流程图;
图6是本申请实施例提供的目标文件知识图谱的示意图;
图7是本申请实施例提供的目标文件知识图谱的构建装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
知识图谱:知识图谱是用于增强其搜索引擎功能的知识库,本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,节点表示实体或概念,边则由属性或关系构成。
图数据库:使用图形结构进行语义查询的数据库,包含节点、边和属性来表示和存储数据。
TF-IDF算法:TF-IDF(Term Frequency–Inverse Document Frequency)是一种用于资讯检索与文本挖掘的常用加权技术,是用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度的统计方法。
在本申请中,提供了一种目标文件知识图谱的构建方法、装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的目标文件知识图谱的构建方法的示意性流程图,包括步骤201至步骤205。
步骤201:从目标文件库中获取至少两个目标文件,形成目标文件的数据库。
在本申请实施例中,系统可以利用网络爬虫与适配器技术从门户网站、百科、搜索引擎结果和/或知识库等的目标文件库中获取至少两个目标文件的结构化数据和/或非结构化数据,并将所述至少两个目标文件的结构化数据和/或非结构化数据存储在系统内置的数据库中从而形成包含有多个目标文件的文件信息的数据库。
可选的,所述目标文件库可以是政府门户网站的文件库,则所述目标文件数据包括发布在其网站内的政府文件的文件原文、成文日期、发布机构、文件标题和文件主题等信息。
步骤202:从所述数据库中获取所述至少两个目标文件的文件标题和文件主题。
在本申请实施例中,系统通过实体抽取技术从所述目标文件的数据库中获取每个所述目标文件的文件标题和文件主题,所述文件标题为所述目标文件的文件名称,所述文件主体为所述目标文件的文件类型,例如:在目标文件库为政府门户网站的文件库的情况下,所述数据库中包括目标文件《XXX政府信息公开条例》,其对应的文件标题为“XXX政府信息公开条例”,其对应的文件主题为“综合政务”和“政务公开”,则系统通过实体抽取技术从所述目标文件的数据库中获取“XXX政府信息公开条例”、“综合政务”和“政务公开”的知识表达。
步骤203:基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系。
在本申请实施例中,如图3所示,基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理包括步骤301至步骤304:
步骤301:根据预设的领域范围确定所述文件主题的包含关系。
在上述实施例中,所述数据库中的每个文件主题均基于其语义预设有对应的领域范围,系统基于其语义所表达的领域范围确定每个所述文件主题的包含关系,例如,在目标文件库为政府门户网站的文件库的情况下,所述数据库中包括综合政务、政务督查、民族宗教、民族事务和宗教事务等文件主题,则基于其语义可知综合政务和民族宗教为平级、综合政务中包含有政务督查且民族宗教包含有民族事务和宗教事务。
步骤302:根据所述文件主题的包含关系建立主题层级。
在上述实施例中,系统根据所述文件主题的包含关系,建立文件主题的主题层级结构,例如,在目标文件库为政府门户网站的文件库的情况下,所述数据库中包括综合政务、政务督查、民族宗教、民族事务和宗教事务等文件主题,且综合政务和民族宗教为平级,综合政务中包含有政务督查,民族宗教包含有民族事务和宗教事务,则所述综合政务和民族宗教为一级主题,所述政务督查为隶属于综合政务的二级主题,所述民族事务和宗教事务为隶属于民族宗教的二级主题。
步骤303:确定所述文件标题对应的文件主题。
在上述实施例中,系统通过所述至少两个目标文件的文件标题确定其对应的文件主题,例如,在目标文件库为政府门户网站的文件库的情况下,所述数据库中包括“XXX办公厅关于开展行政法规规章清理工作的通知”和“宗教事务条例”两个目标文件,则所述“XXX办公厅关于开展行政法规规章清理工作的通知”对应的文件主题为“政务督查”,所述“宗教事务条例”对应的文件主题为“宗教事务”。
步骤304:根据所述文件标题对应的文件主题将所述文件标题添加至对应的主题层级内。
在上述实施例中,系统根据所述文件标题对应的文件主题将所述文件标题添加至对应的主题层级内,实现所述至少两个目标文件的分类和结构化处理,例如,在目标文件库为政府门户网站的文件库的情况下,所述数据库中包括“XXX办公厅关于开展行政法规规章清理工作的通知”和“宗教事务条例”两个目标文件,且所述“XXX办公厅关于开展行政法规规章清理工作的通知”对应的文件主题为“政务督查”,所述“宗教事务条例”对应的文件主题为“宗教事务”,则所述“XXX办公厅关于开展行政法规规章清理工作的通知”隶属于“综合政务”中的“政务督查”的主题层级内,所述“宗教事务条例”隶属于“民族宗教”中的“宗教事务”的主题层级内。
本申请通过建立针对文件主题的层级结构,增加了目标文件的文件主题与文件标题之间的关联性,进一步发掘了文件信息和用户的潜在意图。
步骤204:通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系。
在本申请实施例中,如图4所示,通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词包括步骤401至步骤402:
步骤401:通过TF-IDF算法计算出所述至少两个目标文件的语料中出现的每个词语的权重。
在本申请实施例中,词频(Term Frequency,TF)指的是某一个给定的词语在目标文件的语料中出现的频率,逆向文件频率(Inverse Document Frequency,IDF)是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。然后系统通过词频矩阵计算出每个词语的TF-IDF值即权重,某个词语对目标文件的语料的重要性越高,其TF-IDF值就越大。
步骤402:将每个词语的权重由高到低进行排序,选取前n个词语作为目标文件的文件关键词,其中,n为大于等于1的正整数。
在本申请实施例中,按照TF-IDF值将每个词语由高到低进行排序,并选取前n个词语作为目标文件的文件关键词。
本申请通过TF-IDF算法获取了目标文件的关键词,从而提高知识图谱的准确性,便于后续用户在利用本申请的知识图谱进行检索时实现精确定位。
步骤205:基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
在本申请实施例中,系统以所述文件标题、文件主题和文件关键词作为实体,以所述文件标题、文件主题和文件关键词之间的联系作为实体之间的关系,建立所述数据库的知识图谱。
本申请的目标文件知识图谱的构建方法,通过所述方法构建的目标文件的知识图谱支持从多侧面查询目标文件,便于用户精准定位,并通过文件主题与文件关键词之间的联系,进一步理解用户的潜在意图,返回一系列具有关联性的目标文件,使用户具有良好的使用体验。
在本申请实施例中,在从所述数据库中获取所述至少两个目标文件的文件标题和文件主题之后,还包括:
S101:从所述数据库中获取所述至少两个目标文件的属性信息。
在上述实施例中,系统通过属性抽取技术从数据库中获取至少两个目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接等,例如:在目标文件库为政府门户网站的文件库的情况下,所述成文日期可以是“2003年11月04日”或“2004年11月30日”、文件摘要可以是“行政事务、庆典活动、控制和通知”或“宗教、条例”、发文机关可以是“XXX办公厅”或“XX院”、发布日期可以是“2007年02月26日”或“2008年03月28日”、发文字号可以是“XXX〔2007〕12号”或“XXX〔2005〕16号”。
S102:确定所述文件标题对应的目标文件的属性信息。
在上述实施例中,系统通过将每个目标文件的文件标题确定其对应的属性信息,例如:在目标文件库为政府门户网站的文件库的情况下,所述数据库中包括目标文件《XXX办公厅关于严格控制举办城市周年庆典活动的通知》,则其对应的成文日期为“2003年11月04日”、文件摘要为“行政事务、庆典活动、控制和通知”、发文机关为“XXX办公厅”、发布日期为“2003年11月05日”、发文字号为“XXX〔2003〕91号”以及文件原文链接为“http://www.xxx.com”。
在本申请实施例中,如图5所示,基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱包括步骤501至步骤505:
步骤501:确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体。
在上述实施例中,系统通过知识融合和知识加工等技术,对从所述目标文件的数据库中获取的文件标题、文件主题和文件关键词的知识表达进行整理和加工,最终获取确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体。
步骤502:根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系。
在上述实施例中,系统基于所述主题层级获取所述文件主题与所述文件标题之间的联系,基于所述文件关键词权重计算算法获取所述文件关键词与所述文件标题之间的联系,并根据所述根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系。
步骤503:根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性。
步骤504:基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组。
在上述实施例中,系统通过基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组,所述知识图谱三元组包括(实体-关系-实体)和/或(实体-属性-属性值),例如:在目标文件库为政府门户网站的文件库的情况下,所述知识图谱三元组可以是(XX办公厅关于严格控制举办城市周年庆典活动的通知-隶属于-政务督查)、(宗教事务条例-隶属于-宗教事务)、(XXX办公厅关于开展行政法规规章清理工作的通知-发布日期-2007年02月26日)以及(XXX办公厅关于开展行政法规规章清理工作的通知-发布机构-XXX办公厅)等等。
步骤505:根据所述知识图谱三元组构建所述数据库的知识图谱。
在上述实施例中,系统根据所述知识图谱三元组构建所述数据库的知识图谱,所述知识图谱中的节点表示实体或属性值,知识图谱中的边则由属性或关系构成,例如,如图6所示,在目标文件库为政府门户网站的文件库的情况下,所述知识图谱可以是用于描述所述包含政府文件的数据库中存在的各种实体或属性及其关系,从而形成的一张语义网络的多关系图。
本申请通过知识提取和加工,实现了从非结构化中获取实体、关系以及实体属性信息的目标,但是由于知识来源广泛,存在知识质量良莠不齐、来自不同数据源的知识重复、层次结构缺失等问题,所以必须要进行知识的融合,知识融合是高层次的知识组织,通过使来自不同知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证和人更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,从而形成高质量的知识图谱。
在本申请另一个实施例中,在构建所述数据库的知识图谱之后,还包括:
将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
在上述实施例中,所述目标文件的知识图谱主要有两种存储方式:一种是基于资源描述框架的存储,另一种是基于图数据库的存储,其中,图数据库把重点放在了高效的图查询和搜索上,图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。
可选的,所述图数据库可以是Neo4j、OrientDB或Titan。
本申请通过将构建完成的知识图谱以属性图的形式存储在图数据库中,加快了用户的查询速度,还能够支持用户对目标文件进行多角度的检索和分析。
在本申请另一个实施例中,在构建所述数据库的知识图谱之后,还包括:
根据用户的请求,基于所述目标文件的知识图谱实现对所述目标文件的数据库的智能搜索。
在上述实施例中,基于知识图谱的智能搜索是一种基于长尾的搜索,搜索引擎以知识卡片的形式将搜索结果展现出来,用户的查询请求将经过查询式语义理解与知识检索两个阶段:查询式语义理解,知识图谱对查询式的语义分析主要包括:对查询请求文本进行分词、词性标注以及纠错;描述归一化,使其与知识库中的相关知识进行匹配;语境分析,在不同的语境下,用户查询式中的对象会有所差别,因此知识图谱需要结合用户当时的情感,将用户此时需要的答案及时反馈给用户;查询扩展,明确了用户的查询意图以及相关概念后,需要加入当前语境下的相关概念进行扩展。知识检索,经过查询式分析后的标准查询语句进入知识库检索引擎,引擎会在知识库中检索相应的实体以及与其在类别、关系、相关性等方面匹配度较高的实体。
在目标文件库为政府门户网站的文件库的情况下,用户通过本申请的知识图谱可以在不知道政府文件的文件标题的情况下,通过对政府文件的文件主题或文件关键词,从多个侧面对数据库中的政府文件进行精确的定位和解读,提高了用户的检索效率和政府文件之间的关联性。
与上述方法实施例相对应,本说明书还提供了一种目标文件知识图谱的构建装置的实施例,图7示出了本说明书一个实施例的目标文件知识图谱的构建装置的结构示意图。如图7所示,该装置包括:
收集模块701,被配置为从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
第一获取模块702,被配置为从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;
层级模块703,被配置为基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;
第二获取模块704,被配置为通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;
构建模块705,被配置为基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
可选的,所述装置还包括:
存储模块706,被配置为将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
可选的,所述装置还包括:
第三获取模块707,被配置为从所述数据库中获取所述至少两个目标文件的属性信息;
所述第三获取模块707被还配置为确定所述文件标题对应的目标文件的属性信息,所目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;
所述构建模块705包括:
实体抽取单元,被配置为确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;
关系抽取单元,被配置为根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;
属性抽取单元,被配置为根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;
基础架构单元,被配置为基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;
层级架构单元,被配置为根据所述知识图谱三元组构建所述数据库的知识图谱。
可选的,所述装置还包括:
搜索模块708,被配置为根据用户的请求,基于所述目标文件的知识图谱实现对所述目标文件的数据库的智能搜索。
本申请的目标文件知识图谱的构建装置,通过所述装置构建的目标文件的知识图谱支持从多侧面查询目标文件,便于用户精准定位,并通过文件主题与文件关键词之间的联系,进一步理解用户的潜在意图,返回一系列具有关联性的目标文件,使用户具有良好的使用体验。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
从所述数据库中获取所述至少两个目标文件的文件标题和文件主题;
基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到所述文件主题与所述文件标题之间的联系;
通过文件关键词权重计算算法从所述数据库中获取所述至少两个目标文件的文件关键词,并得到所述文件关键词与所述文件标题之间的联系;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述目标文件知识图谱的构建方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该计算机可读存储介质的技术方案与上述的目标文件知识图谱的构建方法的技术方案属于同一构思,计算机可读存储介质的技术方案未详细描述的细节内容,均可以参见上述目标文件知识图谱的构建方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memo ry)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (12)

1.一种目标文件知识图谱的构建方法,其特征在于,包括:
从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
从所述数据库中获取每个目标文件的文件标题和文件主题,其中,每个目标文件的文件标题和文件主题分别为该目标文件的文件名称和文件类型;
基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到每个目标文件的文件主题与文件标题之间的联系,其中,所述包含关系基于所述文件主题的语义确定;
通过TF-IDF算法从所述数据库中获取每个目标文件的文件关键词,并得到每个目标文件的文件关键词与文件标题之间的联系;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱,包括:以每个目标文件的文件标题、文件主题和文件关键词作为实体,以每个目标文件的文件标题、文件主题和文件关键词之间的联系作为实体之间的关系,建立所述数据库的知识图谱。
2.根据权利要求1所述的方法,其特征在于,在构建所述数据库的知识图谱之后,还包括:
将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
3.根据权利要求1所述的方法,其特征在于,在从所述数据库中获取每个目标文件的文件标题和文件主题之后,还包括:
从所述数据库中获取所述至少两个目标文件的属性信息;
确定所述文件标题对应的目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;
基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱包括:
确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;
根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;
根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;
基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;
根据所述知识图谱三元组构建所述数据库的知识图谱。
4.根据权利要求1所述的方法,其特征在于,基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理包括:
根据预设的领域范围确定所述文件主题的包含关系;
根据所述文件主题的包含关系建立主题层级;
确定所述文件标题对应的文件主题;
根据所述文件标题对应的文件主题将所述文件标题添加至对应的主题层级内。
5.根据权利要求1所述的方法,其特征在于,通过TF-IDF算法从所述数据库中获取每个目标文件的文件关键词包括:
通过TF-IDF算法计算出每个目标文件的语料中出现的每个词语的权重;
将每个词语的权重由高到低进行排序,选取前n个词语作为该目标文件的文件关键词,其中,n为大于等于1的正整数。
6.根据权利要求1所述的方法,其特征在于,在构建所述数据库的知识图谱之后,还包括:
根据用户的请求,基于所述目标文件的知识图谱实现对所述目标文件的数据库的智能搜索。
7.一种目标文件知识图谱的构建装置,其特征在于,包括:
收集模块,被配置为从目标文件库中获取至少两个目标文件,形成目标文件的数据库;
第一获取模块,被配置为从所述数据库中获取每个目标文件的文件标题和文件主题,其中,每个目标文件的文件标题和文件主题分别为该目标文件的文件名称和文件类型;
层级模块,被配置为基于所述文件主题的包含关系建立主题层级,根据所述主题层级对所述文件标题进行分类和结构化处理,并得到每个目标文件的文件主题与文件标题之间的联系,其中,所述包含关系基于所述文件主题的语义确定;
第二获取模块,被配置为通过TF-IDF算法从所述数据库中获取每个目标文件的文件关键词,并得到每个目标文件的文件关键词与文件标题之间的联系;
构建模块,被配置为基于所述文件标题、文件主题和文件关键词以及所述文件标题、文件主题和文件关键词之间的联系,构建所述数据库的知识图谱;
所述构建模块,具体被配置为以每个目标文件的文件标题、文件主题和文件关键词作为实体,以每个目标文件的文件标题、文件主题和文件关键词之间的联系作为实体之间的关系,建立所述数据库的知识图谱。
8.根据权利要求7所述的装置,其特征在于,还包括:
存储模块,被配置为将所述目标文件的知识图谱以属性图的形式存储至图数据库中。
9.根据权利要求7所述的装置,其特征在于,还包括:
第三获取模块,被配置为从所述数据库中获取所述至少两个目标文件的属性信息;
所述第三获取模块被还配置为确定所述文件标题对应的目标文件的属性信息,所述目标文件的属性信息包括目标文件的成文日期、文件摘要、发文机关、发布日期、发文字号和文件原文链接;
所述构建模块包括:
实体抽取单元,被配置为确定所述文件标题、文件主题和文件关键词在知识图谱中对应的实体;
关系抽取单元,被配置为根据所述文件标题、文件主题和文件关键词之间的联系确定所述实体之间的关系;
属性抽取单元,被配置为根据所述文件标题对应的目标文件的属性信息确定所述文件标题对应的实体的属性;
基础架构单元,被配置为基于所述实体和实体之间的关系以及所述实体和实体的属性确定知识图谱三元组;
层级架构单元,被配置为根据所述知识图谱三元组构建所述数据库的知识图谱。
10.根据权利要求7所述的装置,其特征在于,还包括:
搜索模块,被配置为根据用户的请求,基于所述目标文件的知识图谱实现对所述目标文件的数据库的智能搜索。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-6任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-6任意一项所述方法的步骤。
CN201910435990.4A 2019-05-23 2019-05-23 一种目标文件知识图谱的构建方法及装置 Active CN110119473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910435990.4A CN110119473B (zh) 2019-05-23 2019-05-23 一种目标文件知识图谱的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910435990.4A CN110119473B (zh) 2019-05-23 2019-05-23 一种目标文件知识图谱的构建方法及装置

Publications (2)

Publication Number Publication Date
CN110119473A CN110119473A (zh) 2019-08-13
CN110119473B true CN110119473B (zh) 2023-02-03

Family

ID=67523121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910435990.4A Active CN110119473B (zh) 2019-05-23 2019-05-23 一种目标文件知识图谱的构建方法及装置

Country Status (1)

Country Link
CN (1) CN110119473B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241213A (zh) * 2020-01-23 2020-06-05 北京明略软件系统有限公司 一种构建知识图谱的方法、装置、计算机存储介质及终端
CN113393201A (zh) * 2020-03-12 2021-09-14 阿里巴巴集团控股有限公司 一种合同处理系统、方法和电子设备
CN111782816B (zh) * 2020-04-20 2024-04-09 北京沃东天骏信息技术有限公司 生成知识图谱的方法及装置、搜索方法、引擎及系统
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN111950729A (zh) * 2020-07-19 2020-11-17 中国建设银行股份有限公司 一种知识库构建方法、装置、电子设备和可读存储装置
CN111813961B (zh) * 2020-08-25 2020-12-18 腾讯科技(深圳)有限公司 基于人工智能的数据处理方法、装置及电子设备
CN112100396B (zh) * 2020-08-28 2023-10-27 泰康保险集团股份有限公司 一种数据处理方法和装置
CN112597277A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 文档查询方法、装置、存储介质及电子设备
CN113407678B (zh) * 2021-06-30 2023-08-01 竹间智能科技(上海)有限公司 知识图谱构建方法、装置和设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10073840B2 (en) * 2013-12-20 2018-09-11 Microsoft Technology Licensing, Llc Unsupervised relation detection model training
CN104217038A (zh) * 2014-09-30 2014-12-17 中国科学技术大学 一种针对财经新闻的知识网络构建方法
CN107133283A (zh) * 2017-04-17 2017-09-05 北京科技大学 一种法律本体知识库自动构建方法
CN107562896B (zh) * 2017-09-06 2021-11-26 华中师范大学 一种基于知识关联的资源组织及展示方法
CN107967290A (zh) * 2017-10-09 2018-04-27 国家计算机网络与信息安全管理中心 一种基于海量科研资料的知识图谱网络构建方法及系统、介质

Also Published As

Publication number Publication date
CN110119473A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110119473B (zh) 一种目标文件知识图谱的构建方法及装置
CN110147437B (zh) 一种基于知识图谱的搜索方法及装置
US11580104B2 (en) Method, apparatus, device, and storage medium for intention recommendation
Wang et al. Identifying technological topics and institution-topic distribution probability for patent competitive intelligence analysis: a case study in LTE technology
Efron Information search and retrieval in microblogs
CN106951558B (zh) 一种基于深度搜索的税务智能咨询平台的数据处理方法
CN109947921B (zh) 一种基于自然语言处理的智能问答系统
US20100191740A1 (en) System and method for ranking web searches with quantified semantic features
CN112214611A (zh) 一种企业知识图谱的构建系统和方法
WO2012011092A1 (en) System, method and device for intelligent textual conversation system
JP2008507792A (ja) ネットワーク上に配置される、背景状況を利用するサーチエンジン
Rao et al. Decision support for e-governance: a text mining approach
US20180181625A1 (en) Systems and Methods for Intelligent Prospect Identification Using Online Resources and Neural Network Processing to Classify Organizations based on Published Materials
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
CN110489558A (zh) 文章聚合方法和装置、介质和计算设备
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN106407377A (zh) 基于人工智能的搜索方法和装置
CN112000790B (zh) 一种法律文本精确检索方法、终端系统和可读存储介质
CN113239111A (zh) 一种基于知识图谱的网络舆情可视化分析方法及系统
CN114637903A (zh) 一种针对定向目标数据拓展的舆情数据采集系统
CN111008285B (zh) 一种基于论文关键属性网络的作者消歧方法
CN114647719A (zh) 一种基于知识图谱的问答方法及装置
Blümel et al. The quest for research information
CN111311463A (zh) 基于数据标签建立人口画像的数据处理方法及系统
CN101788981A (zh) 一种深层网移动搜索方法、服务器及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant