CN106407208B - 一种城市管理本体知识库的构建方法及系统 - Google Patents
一种城市管理本体知识库的构建方法及系统 Download PDFInfo
- Publication number
- CN106407208B CN106407208B CN201510455748.5A CN201510455748A CN106407208B CN 106407208 B CN106407208 B CN 106407208B CN 201510455748 A CN201510455748 A CN 201510455748A CN 106407208 B CN106407208 B CN 106407208B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- entity
- department
- knowledge entity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000008859 change Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000013481 data capture Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 36
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012797 qualification Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005086 pumping Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种城市管理本体知识库的构建方法及系统,该方法包括:获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;根据预设策略对各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到对应的第一知识实体集和第二知识实体集;为第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,根据关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。本发明解决了部门间信息的互通问题,实现自动化的知识抽取和本体知识库构建。
Description
技术领域
本发明涉及知识工程技术领域,尤其涉及一种城市管理本体知识库的构建方法及系统。
背景技术
随着城市信息化进程的日益加快,人们的生产生活方式发生了翻天覆地的变化。人们对城市服务能力的要求也越来越高,于是智慧城市理念应运而生。尤其在城市管理方面,公众希望政府的施政手段更加人性化,市政部门不再是单纯的城市管理者,更要向城市服务者的身份转变。因此,借助知识工程及相关技术开发一个基于城市管理的本体知识库应用显得尤为重要,因为它可以有效地解决上述那些困扰城市发展的瓶颈问题。
所谓本体知识库,即知识工程中结构化、易操作、易利用、全面有组织的知识集群。通常是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理及使用的互相联系的知识片集合。传统的关系型数据库相比,传统数据库只能通过二维表存储一些基本的事实数据,且其不具备表达和处理知识的能力。而知识库不仅蕴含显式表达的事实知识,也包含显式表达的包括常识、经验等在内的领域知识和启发式知识。在某些确定的规则下,知识库能够推导出新的数据项,有专门的推理机制支持带控制的知识检索。
目前,人们已经对通用知识库的构建开展了大量的工作,现有本体知识库的实现往往存在如下问题:仅针对某一特定领域来构建知识库;构建知识库所需的数据来源和格式也较为单一,多数是基于互联网数据。而且,现有的研究应用中更是少有关于城市管理领域的知识库构建案例,即使有类似的应用场景,其涉及的领域也往往局限在城市管理体系的某一侧面,如轨道交通系统、医疗卫生系统、基础设施建设系统等。并且这些知识库的数据来源依然以互联网数据为主,这相对于城市管理知识库的需求还存在着缺乏权威性、不具时效性和没有针对性等缺点。可见,当前这些基于知识库的研究应用并没有从根本上解决好城市管理系统所面临的跨体系、多平台、数据源复杂的问题。目前各个行政管理部门普遍购置了属于自己的信息化部门管理系统(简称部门系统或系统),但由于行政领域的差异,不同部门系统所产生的数据信息在结构和语义上都存在较大差异,因此,在知识库的构建过程中存在各部门的数据融合及统一问题。由于城市管理体系过于庞杂,为了保证对城市管理领域描述的完整性,构建知识库的数据来源不可能仅限于某一种特定的数据结构,在知识库的构建过程中存在对各种异构数据的转换及处理问题。相比其他领域知识,城市管理领域的知识数量庞大、信息庞杂,在实现对海量数据的知识库的构建过程中,还存在查询效率低的问题。
发明内容
鉴于上述问题,本发明提出了一种城市管理本体知识库的构建方法及系统,解决了部门间信息的互通问题,实现自动化的知识抽取和本体知识库构建。
根据本发明的一个方面,提供了一种城市管理本体知识库的构建方法,该方法包括:
获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;
根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;
为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;
获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。
其中,在所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取之前,所述方法还包括:
对所述各部门系统的数据集的数据格式转换为数据文档;
根据预设的专家系统对格式转换后的各部门系统的数据集的有效性进行校验,得到有效元数据。
其中,所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,包括:
采用关键词提取方式或预设规则对所述各部门系统的数据集进行知识抽取;
采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。
其中,所述方法还包括:
当各部门系统的数据集和/或与各部门相关的法律法规文档发生变更时,根据每一知识实体的唯一标识符更新发生变更的数据对应的知识实体。
其中,所述根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,包括:
提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;
获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;
根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。
其中,所述获取不同的知识实体集中任意两个知识实体的关键字标签的相识度,具体包括:
计算不同的知识实体集中任意两个知识实体的关键字标签的编辑距离;
计算不同的知识实体集中任意两个知识实体的关键字标签的余弦相识度;
根据所述编辑距离和余弦相识度计算不同的知识实体集中任意两个知识实体的关键字标签的相识度sim(x,y),公式如下:
其中,x为第一个知识实体的关键字标签的向量表示,y为第二个知识实体的关键字标签的向量表示,cossim(x,y)为x向量和y向量的余弦相似度,levin(x,y)为x向量和y向量的编辑距离。
其中,所述获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接,包括:
提取每一实例的特征信息,根据所述特征信息从互联网中抓取与所述特征信息相匹配的互联网数据;
建立每一实例与对应的互联网数据之间的链接。
根据本发明的另一个方面,提供了一种城市管理本体知识库的构建系统,该系统包括:
数据获取单元,用于获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;
知识抽取单元,用于根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;
实体链接建立单元,用于为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;
网络数据链接建立单元,用于获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。
其中,所述知识抽取单元,包括:
第一处理模块,用于采用关键词提取方式或预设规则对所述各部门系统的数据集进行知识抽取;
第二处理模块,用于采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。
其中,所述实体链接建立单元,包括:
提取模块,用于提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;
获取模块,用于获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;
链接建立模块,用于根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。
本发明的有益效果为:
本发明提供的一种城市管理本体知识库的构建方法及系统,以各城市管理部门系统公开的数据集为数据源头,并吸纳了相关领域的法律法规文档和互联网公开数据为构建城市管理本体知识库,通过异构数据的知识抽取,实现自动化的知识抽取和知识库构建。利用语义信息建立知识实体之间的链接,高效准确地得到搜索结果并返回给用户,保证了知识库的查询效率和质量,提升用户体验。而且,由于进行了相关实体间的自动匹配与链接,进而实现了各部门间信息的互通互信。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提出的一种城市管理本体知识库的构建方法的流程图;
图2为本发明实施例提出的一种城市管理本体知识库的构建系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
图1示出了本发明实施例提出的一种城市管理本体知识库的构建方法的流程图。
参照图1,本发明实施例提出的城市管理本体知识库的构建方法包括:
S11、获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;
S12、根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;
S13、为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;
S14、获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。
本实施例提供的基于异构元数据的城市管理本体知识库的构建方法,解决了现有技术中在知识库构建过程中有待解决的问题。
本实施例中,在步骤S12中的根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取之前,进一步包括:
对所述各部门系统的数据集的数据格式转换为数据文档;
根据预设的专家系统对格式转换后的各部门系统的数据集的有效性进行校验,得到有效元数据。
实际应用中,由于各部门系统的数据集的数据格式不一定统一,因此,首先需要对各部门系统的数据集进行预处理,具体包括:
对所述各部门系统的数据集的数据格式转换为数据文档,即xls文件,将各部门系统的数据集处理成统一格式的数据文档,然后交由相关领域的专家系统对数据集的正确性和有效性进行校验,所得到的有效元数据将用于后续的知识抽取工作中。然后,将部门系统元数据由计算机不易处理的xls文件转为计算机易处理的csv格式。同时,对一些有待完善的元数据文档做标准化处理。
此外,本步骤还包括:基于法律法规文本的结构特点,从每条法律中抽象出若干个基本单元,如法律名称、内容描述、执法主体等,最后统一处理成csv格式。
本实施例中,步骤S12中的根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,进一步包括以下图中未示出的步骤:
S121、采用关键词提取方式或预设规则对所述各部门系统的数据集进行知识抽取;
S122、采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。
下面以执法行为“处罚以欺骗手段取得资质证书承揽城乡规划编制工作”的元数据为例,对本发明实施例中提供的各部门系统的数据集的知识抽取进行解释说明。
元数据为二维表结构,在知识库的构建过程中元数据里每一个条目都被当成一个实体处理,每一个实体都有四个元素对其描述,即业务标识、元素名称、类型和类别。“业务标识”有两个作用,一个是在数据集成过程中作为链接本地系统和数据库的全局标识符,另一个是描述业务的层次结构。例如,C.1.1.1.10.23是C.1.1.1.10.23.1父级;“元素名称”是起到简要描述作用的标签;最后两列分别为“类型”和“类别”,两者的不同之处在于“类型”是基于城市管理逻辑的分类,例如活动、操作者、地点等,而“类别”主要用于描述物理属性,如数字、附图、次序等。因此在知识库概念模型的构建中,我们制定如下规则策略:使用类型构建概念体系,类别作为实体属性用来表示上级实体中实例与下级实体中概念间的关系。运用本策略即可得到活动、操作者、参与者、地点等概念以及实施、岗位、次序、单位等实体属性,进而我们可以构建出<处罚以欺骗手段取得资质证书承揽城乡规划编制工作有岗位经办人>这样的三元组关系来描述实例‘处罚以欺骗手段取得资质证书承揽城乡规划编制工作’与实例‘经办人’间的关系,当然我们还可以描述出实体‘处罚以欺骗手段取得资质证书承揽城乡规划编制工作’是‘活动’概念的一个实例,‘经办人’是‘操作者’概念的一个实例。通过实现一个基于上述策略算法的程序即可实现无需深层次人工判断的自动化知识抽取,将系统元数据中的知识抽取出来并保留其中的语义信息。
对于法律法规的知识抽取工作将包含对系统元数据和纯文本法律法规两方面的抽取。法律法规文本通常都存在一个明确的格式规范,可以被分为若干个基本单元进行抽取。遵循一个固定的模板,即以一个阿拉伯数字开头,其后跟随一个与元数据相关的标题,后面便是该法律法规的具体描述信息。对法律法规文档的知识抽取是通过正则表达式匹配实现的。此外,对法律法规标题的近一步抽取也是通过正则表达式匹配实现。
最后,在实体中将补充进从开放互联网中抽取到的相匹配的互联网数据信息,形成最终的城市管理知识库。
进一步地,本实施例提出的城市管理本体知识库的构建方法,还包括以下步骤:
当各部门系统的数据集和/或与各部门相关的法律法规文档发生变更时,根据每一知识实体的唯一标识符更新发生变更的数据对应的知识实体。
本实施例中,当某一部门的行政管理工作流程发生改变时,系统将借助唯一标示符实现原知识和新知识的变更,相应变更会通过对部门系统元数据的更新及时反映到城市管理知识库上,公众能够直观的了解到行政流程发生怎样的变化,避免了由于信息的快速更新所造成的公共信息失效。
本实施例中,在步骤S13中的根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,具体包括以下图中未示出的步骤:
S131、提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;
S132、获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;
S133、根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。
进一步地,所述步骤S132,具体包括:
计算不同的知识实体集中任意两个知识实体的关键字标签的编辑距离;
计算不同的知识实体集中任意两个知识实体的关键字标签的余弦相识度;
根据所述编辑距离和余弦相识度计算不同的知识实体集中任意两个知识实体的关键字标签的相识度sim(x,y),公式如下:
其中,x为第一个知识实体的关键字标签的向量表示,y为第二个知识实体的关键字标签的向量表示,cossim(x,y)为x向量和y向量的余弦相似度,levin(x,y)为x向量和y向量的编辑距离。
本发明实施例中,通过对部门系统元数据的实例抽取和法律法规文本的实例抽取生成业务活动相对应的实例和法律法规相应的实例。本步骤通过计算业务活动实例和法律法规实例间的相似度来进行自动关联。鉴于活动实例和法律实例都是抽象的对象,我们采用对其中文标签进行相似度计算来识别是否关联,比较通用的字符串相似度计算有余弦相似度和编辑距离,我们采用了两者的一个综合的算法,相似度公式如下所示:
其中,x为第一个知识实体的关键字标签的向量表示,y为第二个知识实体的关键字标签的向量表示,等号右式子的分子为x向量和y向量的笛卡儿积,即相同字的频度的乘机的和。分母为x向量的模和y向量的模的成绩,向量的模即向量中每一个元素的平方的和再解二次方跟。式子中n为向量的长度,i是一个变量指示器。
编辑距离通过Apache Common的Levenshtein函数获得。综合相似度评分公式如下:
其中,x为第一个知识实体的关键字标签的向量表示,y为第二个知识实体的关键字标签的向量表示,cossim(x,y)为x向量和y向量的余弦相似度,levin(x,y)为x向量和y向量的编辑距离。
最后通过匹配其标签关联活动实体与法律实体,步骤如下:
其中,所述获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接,包括:
提取每一实例的特征信息,根据所述特征信息从互联网中抓取与所述特征信息相匹配的互联网数据;
建立每一实例与对应的互联网数据之间的链接。
实际应用中,本体知识库构建是基于在线百科资源的。Xlore是一种基于这四种在线百科资源构建的交叉语义知识库。Xlore有超过85000个类和700万个实例。本实施例中。本体知识库中,对每一个实体都要生成一个与之对应的概要描述以便于市民理解,因此需要对实体的摘要做抽取。这部分工作是通过Xlore小组所提供的API实现的。通过与Xlore提供的实例查找API,可以把城市管理知识库的实例定位到相应在Xlore的实例。具体的,Xlore提供的实例查询的API为:http://www.xlore.org/sparql。
本发明实施例,通过建立每一实例与对应的互联网数据之间的链接,来对城市管理本体知识库中所缺失的信息进行补充,如实例的描述信息和简要说明等。
为了验证本发明在实际操作过程中的性能和效果,使用本发明实施例提供的方法构建了一个轻量级的市政管理知识库,并对该知识库的各项指标作了统计分析。
本知识库示例系统基于新疆克拉玛依市的市政管理资源构建,采用克拉玛依市部门系统元数据共计7985项,相关法律法规共58件340项。通过本专利所提出的知识库构建方法对上述数据源处理,共得到概念14个,实例3516项,属性45个以及三元组20993条。本方法所生成的知识库具有完整的知识体系结构,对知识的描述准确合理,能够较为完整地保留原有资源中的语义关系。
由此可见,本发明能够完成多种市政管理资源的自动化知识抽取及知识库构建。相对于以往的知识库构建方法,本发明在市政管理领域的知识库构建上具有明显优势,达到了预期目的。
图2示出了本发明实施例提出的一种城市管理本体知识库的构建系统的结构框图。
参照图2,本发明实施例提出的城市管理本体知识库的构建系统,包括:数据获取单元201、知识抽取单元202、实体链接建立单元203以及网络数据链接建立单元204,其中:
所述的数据获取单元201,用于获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;
所述的知识抽取单元202,用于根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;
所述的实体链接建立单元203,用于为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;
所述的网络数据链接建立单元204,用于获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。
本实施例中,所述知识抽取单元202,进一步包括:第一处理模块和第二处理模块,其中:
所述的第一处理模块,用于采用关键词提取方式或预设规则对所述各部门系统的数据集进行知识抽取;
所述的第二处理模块,用于采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。
本实施例中,所述实体链接建立单元203,进一步包括:提取模块、获取模块以及链接建立模块,其中:
所述的提取模块,用于提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;
所述的获取模块,用于获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;
所述的链接建立模块,用于根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
综上所述,本发明实施例提供的一种城市管理本体知识库的构建方法及系统,以各城市管理部门系统公开的数据集为数据源头,并吸纳了相关领域的法律法规文档和互联网公开数据为构建城市管理本体知识库,通过异构数据的知识抽取,实现自动化的知识抽取和知识库构建。利用语义信息建立知识实体之间的链接,高效准确地得到搜索结果并返回给用户,保证了知识库的查询效率和质量,提升用户体验。而且,由于进行了相关实体间的自动匹配与链接,进而实现了各部门间信息的互通互信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的系统中的模块可以按照实施例描述进行分布于实施例的系统中,也可以进行相应变化位于不同于本实施例的一个或多个系统中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种城市管理本体知识库的构建方法,其特征在于,所述方法包括:
获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;
根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;
为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;
获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。
2.根据权利要求1所述的方法,其特征在于,在所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取之前,所述方法还包括:
将所述各部门系统的数据集的数据格式转换为数据文档;
根据预设的专家系统对格式转换后的各部门系统的数据集的有效性进行校验,得到有效元数据。
3.根据权利要求1所述的方法,其特征在于,所述根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,包括:
采用关键词提取方式对所述各部门系统的数据集进行知识抽取;
采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当各部门系统的数据集和/或与各部门相关的法律法规文档发生变更时,根据每一知识实体的唯一标识符更新发生变更的数据对应的知识实体。
5.根据权利要求1所述的方法,其特征在于,所述根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,包括:
提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;
获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;
根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。
6.根据权利要求5所述的方法,其特征在于,所述获取不同的知识实体集中任意两个知识实体的关键字标签的相识度,具体包括:
计算不同的知识实体集中任意两个知识实体的关键字标签的编辑距离;
计算不同的知识实体集中任意两个知识实体的关键字标签的余弦相识度;
根据所述编辑距离和余弦相识度计算不同的知识实体集中任意两个知识实体的关键字标签的相识度sim(x,y),公式如下:
其中,x为第一个知识实体的关键字标签的向量表示,y为第二个知识实体的关键字标签的向量表示,cossim(x,y)为x向量和y向量的余弦相似度,levin(x,y)为x向量和y向量的编辑距离。
7.根据权利要求1所述的方法,其特征在于,所述获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接,包括:
提取每一实例的特征信息,根据所述特征信息从互联网中抓取与所述特征信息相匹配的互联网数据;
建立每一实例与对应的互联网数据之间的链接。
8.一种城市管理本体知识库的构建系统,其特征在于,所述系统包括:
数据获取单元,用于获取各城市管理部门系统的数据集以及与各部门相关的法律法规文档;
知识抽取单元,用于根据预设策略对所述各部门系统的数据集以及与各部门相关的法律法规文档进行知识抽取,得到所述各部门系统的数据集对应的第一知识实体集和与各部门相关的法律法规文档对应的第二知识实体集;
实体链接建立单元,用于为所述第一知识实体集和第二知识实体集中的所有知识实体添加关键字标签和唯一标识符,并根据所述关键字标签建立所述第一知识实体集中的知识实体与第二知识实体集中的知识实体之间的实体链接关系,得到本体知识库中的实例;
网络数据链接建立单元,用于获取与每一实例相匹配的互联网数据,并建立每一实例与对应的互联网数据之间的链接。
9.根据权利要求8所述的系统,其特征在于,所述知识抽取单元,包括:
第一处理模块,用于采用关键词提取方式对所述各部门系统的数据集进行知识抽取;
第二处理模块,用于采用正则表达式匹配的方式对所述与各部门相关的法律法规文档进行知识抽取。
10.根据权利要求9所述的系统,其特征在于,所述实体链接建立单元,包括:
提取模块,用于提取第一知识实体集和第二知识实体集中各个知识实体的关键字标签;
获取模块,用于获取不同的知识实体集中任意两个知识实体的关键字标签的相识度;
链接建立模块,用于根据所述相识度建立不同的知识实体集中任意两个知识实体之间的实体链接关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510455748.5A CN106407208B (zh) | 2015-07-29 | 2015-07-29 | 一种城市管理本体知识库的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510455748.5A CN106407208B (zh) | 2015-07-29 | 2015-07-29 | 一种城市管理本体知识库的构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106407208A CN106407208A (zh) | 2017-02-15 |
CN106407208B true CN106407208B (zh) | 2019-06-18 |
Family
ID=58009384
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510455748.5A Active CN106407208B (zh) | 2015-07-29 | 2015-07-29 | 一种城市管理本体知识库的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106407208B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133283A (zh) * | 2017-04-17 | 2017-09-05 | 北京科技大学 | 一种法律本体知识库自动构建方法 |
CN108491442A (zh) * | 2018-02-12 | 2018-09-04 | 广东绍林科技开发有限公司 | 一种文档管理方法、装置、存储介质及系统 |
CN109508366A (zh) * | 2018-10-09 | 2019-03-22 | 四川航天信息有限公司 | 资料查询方法及装置 |
CN109410650B (zh) * | 2018-10-10 | 2020-05-19 | 中国电子科技集团公司第二十八研究所 | 面向全系统信息管理的基于情景与语义的信息聚合方法 |
CN109657065A (zh) * | 2018-10-31 | 2019-04-19 | 百度在线网络技术(北京)有限公司 | 知识图谱处理方法、装置及电子设备 |
CN109635009B (zh) * | 2018-12-27 | 2023-09-15 | 北京航天智造科技发展有限公司 | 模糊匹配查询系统 |
CN110245204A (zh) * | 2019-06-12 | 2019-09-17 | 桂林电子科技大学 | 一种基于定位及知识图谱的智能推荐方法 |
CN110390066A (zh) * | 2019-07-19 | 2019-10-29 | 北京海致星图科技有限公司 | 一种基于知识库的深网数据高效更新方法 |
CN110727786A (zh) * | 2019-09-12 | 2020-01-24 | 武汉儒松科技有限公司 | 自学习的知识库管理方法、装置、终端设备及存储介质 |
CN110569061A (zh) * | 2019-09-24 | 2019-12-13 | 河北环境工程学院 | 一种基于大数据的软件工程知识库的自动化构建系统 |
CN111143448B (zh) * | 2019-12-03 | 2023-05-12 | 北京博瑞彤芸科技股份有限公司 | 一种知识库构建方法 |
CN112100314B (zh) * | 2020-08-16 | 2022-07-22 | 复旦大学 | 一种基于软件开发问答网站的api教程汇编生成方法 |
CN112434096B (zh) * | 2020-11-30 | 2023-05-23 | 上海天旦网络科技发展有限公司 | 基于智能标签的业务分析系统及方法 |
CN112906361A (zh) * | 2021-02-09 | 2021-06-04 | 上海明略人工智能(集团)有限公司 | 文本数据的标注方法和装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012046904A1 (ko) * | 2010-10-07 | 2012-04-12 | 한국과학기술정보연구원 | 다중 자원 기반 검색정보 제공 장치 및 방법 |
CN103324688A (zh) * | 2013-06-04 | 2013-09-25 | 北京大学 | 本体知识库的检索方法和装置 |
CN104182454A (zh) * | 2014-07-04 | 2014-12-03 | 重庆科技学院 | 基于领域本体构建的多源异构数据语义集成的模型及方法 |
-
2015
- 2015-07-29 CN CN201510455748.5A patent/CN106407208B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012046904A1 (ko) * | 2010-10-07 | 2012-04-12 | 한국과학기술정보연구원 | 다중 자원 기반 검색정보 제공 장치 및 방법 |
CN103324688A (zh) * | 2013-06-04 | 2013-09-25 | 北京大学 | 本体知识库的检索方法和装置 |
CN104182454A (zh) * | 2014-07-04 | 2014-12-03 | 重庆科技学院 | 基于领域本体构建的多源异构数据语义集成的模型及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106407208A (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407208B (zh) | 一种城市管理本体知识库的构建方法及系统 | |
CN112131275B (zh) | 全息城市大数据模型和知识图谱的企业画像构建方法 | |
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
Li et al. | A new urban typology model adapting data mining analytics to examine dominant trajectories of neighborhood change: a case of metro detroit | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN109684330A (zh) | 用户画像库构建方法、装置、计算机设备及存储介质 | |
CN110597870A (zh) | 一种企业关系挖掘方法 | |
CN102508859A (zh) | 一种基于网页特征的广告分类方法及装置 | |
US20170235726A1 (en) | Information identification and extraction | |
CN105518658A (zh) | 用于将数据记录分组的设备、系统以及方法 | |
CN104516910A (zh) | 在客户端服务器环境中推荐内容 | |
US20240211496A1 (en) | Systems and Methods for Determining Entity Attribute Representations | |
CN109635089B (zh) | 一种基于语义网络的文学作品新颖度评价系统和方法 | |
Theocharis et al. | Knowledge management systems in the public sector: Critical issues | |
Baglatzi et al. | Semantifying OpenStreetMap. | |
CN112116331A (zh) | 一种人才推荐方法及装置 | |
CN117151659B (zh) | 一种基于大语言模型的生态修复工程全生命周期追溯方法 | |
Huang et al. | A Low‐Cost Named Entity Recognition Research Based on Active Learning | |
Zhao et al. | Text sentiment analysis algorithm optimization and platform development in social network | |
Vishwakarma et al. | A comparative study of K-means and K-medoid clustering for social media text mining | |
US20170235835A1 (en) | Information identification and extraction | |
CN113377739A (zh) | 知识图谱应用方法、平台、电子设备及存储介质 | |
Su | The study of physical education evaluation based on a fuzzy stochastic algorithm | |
CN106777395A (zh) | 一种基于社区文本数据的话题发现系统 | |
Sangeetha et al. | Modelling of E-governance framework for mining knowledge from massive grievance redressal data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |