CN103955531B

CN103955531B - 基于命名实体库的在线知识地图

Info

Publication number: CN103955531B
Application number: CN201410199271.4A
Authority: CN
Inventors: 李华康; 过敏意; 沈耀
Original assignee: NANJING TITAN INFORMATION TECHNOLOGY Co Ltd
Current assignee: NANJING TITAN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-05-12
Filing date: 2014-05-12
Publication date: 2017-06-30
Anticipated expiration: 2034-05-12
Also published as: CN103955531A

Abstract

本发明公开了基于命名实体库的在线知识地图，包括以下步骤：步骤1)爬取网页，向整个互联网爬取网页信息，得到互联网数据集；步骤2)抽取命名实体；步骤3)寻找属性词，遍历步骤1中的互联网数据集，建立命名实体与属性词关系集合；步骤4)量化信息，量化属性集合中属性词与命名实体之间的关联关系；步骤5)建立知识地图，通过命名实体关联的属性词集之间的关系，建立命名实体与命名实体之间的拓扑结构，形成知识地图；步骤6)更新。本发明从海量新增网页文本信息中抽取命名实体，自动地建立实体节点与节点之间的关联关系，根据知识节点及其之间的关联关系建立知识地图，并能高效地实现知识地图的更新。

Description

基于命名实体库的在线知识地图

技术领域

本发明涉及一种制作知识地图的方法,具体涉及一种基于命名实体库的在线知识地图。

背景技术

知识地图最早由英国情报学家B·C·布鲁克斯在《情报学基础》中提出情报学的真正任务是组织、加工和整理客官知识，绘制以各个知识单元为节点的知识地图。随着知识管理研究的发展，知识地步作为一种组织和管理的重要工具得到了广泛地研究，被应用于知识审计、知识组织、知识门户、知识评价、知识体系等诸多方面。目前国内外在知识地图的生成技术方面主要有以下几个方面：

迪吉科技有限公司的贺嘉生在2002提出了一种“知识地图的建立、编辑、检索与对应网络上信息内容的编辑方法”【CN1448863A】，依据不同的知识范畴，建立一套向现有知识地图中新增知识节点名称、描述、父节点、型态识别码的方法，接住输入节点识别码修改或删除知识地图中的节点名称及节点描述，最终利用知识地图进行搜寻、分类、编辑、检索，使所汇集的知识、信息图书馆化。

T.H.Ong等人在2005年提出了“Newsmap:一种在线新闻的知识地图(Newsmap：Aknowledge map for on line news)”(Decision Support System,Vol.39,pp.583-597,Apr.2005)，通过生成层次化知识地图的可视化技术成功的展示了商业和医疗的新闻知识。

Duen-Ren Liu等人在2008年提出一种“复合电子服务的知识地图：一种基于挖掘与建议耦合的系统平台(Knowledge maps for composite e-services:A Mining-basedsystem platform coupling with recommendations)”(Expert System withApplication,34,pp.700-716,2008)使用系统记录中抽取知识模式，辅以数据挖掘技术构建知识地图。

上海交通大学的王英林等人在2011年提出了一种“基于本体的知识地图绘制系统”【CN102184194A】包括本体知识库、知识地图标示层和知识地图管理层。该技术以本体数据库的图形结构作为基本数据结构，通过对知识概念和知识关联的抽取表达来实现对不同知识地图的创建需求，并以XML形式输出到知识地图显示系统中。其中本体知识库存储通用知识及知识见的关系，知识地图表示层和本体知识库项链，并用抽象的知识节点代替知识库中的具体知识概念，知识关联引入复合运算，知识地图管理层与知识地图标示层项链管理抽象知识和复合知识关联的定义并存储到独立的数据库中实现知识地图的生成。

华中科技大学的金海教授等人在2012年提出了“一种基于维基百科构建概念型知识地图的方法”【CN102609449A】从维基百科全文数据中抽取知识文档并分析其知识信息存入数据库，以知识节点格式描述将数据库中的知识转化为概念知识节点和类别知识节点，并建立索引提供基于关键字的知识检索。

铭传大学的卢阳正等人在2012年提出的“制作知识地图的方法”【CN103106232A】以词汇为中心，知识地图包含词汇(t)、多个关联词汇(s)及相互间权重(w)，通过建立关联知识集{(t,s,w)}提供查询服务。通过词汇关联和知识集筛选，用K-mouns算法将关联词汇分组，输出知识地图。

这些知识地图的生成技术需要一个特定的文档集或者关系数据库中抽取出特定方面的信息，每次构建知识地图时需要重新收集和挖掘必要的信息，面对快速发展的互联网信息很难达到高效地添加新知识，实现高效地知识地图的更新。

发明内容

本发明的目的在于克服现有技术存在的以上问题，提供一种一种基于命名实体库的在线知识地图，本发明从海量新增网页文本信息中抽取命名实体，自动地建立实体节点与节点之间的关联关系，根据知识节点及其之间的关联关系建立知识地图，并能高效地实现知识地图的更新。

为实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

基于命名实体库的在线知识地图的生成方法，包括以下步骤：

步骤1)爬取网页，向整个互联网爬取网页信息，得到互联网数据集；

步骤2)抽取命名实体，对互联网数据集的内容进行识别和抽取，得到命名实体；

步骤3)寻找属性词，遍历步骤1中的互联网数据集，寻找命名实体与属性对，建立与命名实体相关的属性集合；

步骤4)量化信息，量化属性集合中属性词与命名实体之间的关联关系，使命名实体关联属性词集；

步骤5)建立知识地图，通过命名实体关联的属性词集之间的关系，建立命名实体与命名实体之间的拓扑结构，形成知识地图。

步骤6)更新，在固定周期内对拓补结构进行更新。

2、进一步的，所述互联网数据集的内容包括结构化信息、半结构化与非结构化信息。

进一步的，遍历所述步骤2中互联网数据集的文档,对每个文档标签中的关键字进行判别，如果为是则存储至本地，否则忽略继续判别。

进一步的，所述步骤3包括以下过程：

(a1)遍历互联网数据集，以命名实体为中心，寻找出与命名实体相关联的属性词；

(a2)建立属性词与命名实体间的关联关系，形成一个命名实体对应一个属性集合。

进一步的，所述步骤4的量化信息具体为将不同命名实体对应的不同属性集合之间相同的部分进行整合并关联，建立不同属性集合之间的关联关系。

进一步的，所述步骤6包括以下过程：

(b1)重新爬取网页，向整个互联网爬取网页信息，得到最新的互联网数据集；

(b2)抽取命名实体，对最新的互联网数据集的内容进行识别并抽取，得到命名实体；

(b3)寻找属性词，遍历最新的互联网数据集，寻找命名实体与属性对，建立新的命名实体与属性集合；

(b4)对步骤5中的拓扑结构进行更新，将新的命名实体与属性集合和步骤3中命名实体与属性集合进行对比，首先对比命名实体，一致则对比属性集合，不一致则将新的命名实体加入知识地图中并存储至本地，属性集合对比一致则继续对比，不一致则将新的属性集合加入知识地图中关联与之相对应的命名实体并保存至本地；

(b5)量化信息，量化更新后的属性集合中属性词的与命名实体之间的关联关系，使命名实体关联属性词集，完成更新。

本发明的有益效果是:

本发明知识地图的节点来自于命名实体，命名实体间的关系来自于命名实体的属性，通过建立属性间的关联关系，将建立实体与实体之间的关系和权重，最终建立知识地图，其中本发明完全基于一个开放的互联网信息平台，通过分析知识节点的属性之间的集合关系建立知识节点之间的关联关系和层次关系，通过分析知识节点间的关系频率和空间位置来制定传递函数。该发明可以更好地实现新知识地图的生成、知识地图内新节点的衔接、知识节点内容的更新等操作。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，并可依照说明书的内容予以实施，以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明的整体结构流程示意图；

图2是本发明的实施例的拓补结构示意图。

具体实施方式

下面将参考附图并结合实施例，来详细说明本发明。

参照图1所示，基于命名实体库的在线知识地图，本实施例主要面向医疗数据方面，医疗体系的命名实体包括疾病、药品、医院、患者、医生等名称实体，这些命名实体包含病症、药品治疗的疾病或症状、医院地址、患者年龄、医生头衔等属性词汇。该实施例选用疾病和药物作为命名实体，选用疾病作为实体词的属性，包括以下步骤：

步骤1)爬取网页，向整个互联网具有医疗信息的服务器爬取网页信息，得到互联网数据集；互联网数据集的内容包括结构化信息、半结构化与非结构化信息，结构化信息：我们通常接触的数据库所管理的信息，包括生产、业务、交易、客户信息等方面的记录。非结构化信息：专业术语为内容，所涵盖的信息更为广泛，可分为：营运内容(operationalcontent)：如合约、发票、书信与采购记录；部门内容(workgroupcontent)：如文书处理、电子表格、简报档案与电子邮件；Web内容：如HTML与XML等格式的信息；多媒体内容(RichMediaContent)：如声音、影片、图形等。半结构化数据：这样的数据和上面两种类别都不一样，它是结构化的数据，但是结构变化很大，因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理，由于结构变化很大也不能够简单的建立一个表和他对应。

因此可以将结构化信息和非结构化信息结合在一起，使用结构化信息来标注训练数据，训练数据由带有结构化信息的非结构化信息构成，来训练其他的非结构化信息，用机器学习的算法来构建分类器。我们可以选用最大熵模型来实现上述的分类器。最大熵模型主要基于两方面因素：特征空间的确定和特征的选择。它的问题描述是设最终输出值构成的语言学类别有限集为Y，对于每个y属于Y，其生成均受上下文信息x的影响和约束。已知与y有关的所有上下文信息组成的集合为X，则模型的目标是：给定上下文x属于X，计算输出为y属于Y的条件概率p(y|x)。

步骤2)抽取命名实体，对互联网数据集的内容进行识别和抽取，得到命名实体；具体为遍历步骤2中互联网数据集的文档,对每个文档标签中的关键字进行判别，如果为是则存储至本地，否则忽略继续判别，本实施例通过最大熵模型，通过结构化数据和非结构化数据，最后抽取出命名实体，此处为疾病名字和药物名字的命名实体词，如下：

疾病实体词：干燥综合征，细菌性心包炎，咖啡细菌性疫病，眼底黄斑病等；

药物实体词：优可达，力克保健液，伸筋丹胶囊，鼻通丸等。

虽然抽取出了命名实体词，而网页数据中很多都是来源于非专业人士，而抽取出的命名实体词特别是疾病实体词过于学术，缺少口语性的疾病实体词。比如疾病实体题分裂情感性精神病，三联性精神病等，这些词在普通口语表达中即为精神病，但是提取出的实体词缺少这种口语行疾病名字。我们采用对实体词进行分词，提取公共部分的方法，再经由人工过滤提取出诸如精神病、感冒等口语性实体词同学术性实体词一起加入到知识库中。

步骤3)寻找属性词，遍历步骤1中的互联网数据集，寻找命名实体与属性对，建立与命名实体相关的属性集合；这个集合是属性词组成的,命名实体是集合的名称,内容是所有的属性词，包括以下过程：

(a2)建立属性词与命名实体间的关联关系，形成一个命名实体对应一个属性集合；

(a3)属性集合中如有相同的属性词，则合并并记录出现频率；此步骤也可在a1中遍历寻找属性词时同时实行。

由于采用的命名实体词为疾病名字和药物名字，所以其属性词就是病症信息，是疾病实体词的属性词。病症与疾病或者药物实体词的区别就在于它并不是专业的术语，而是对疾病的描述，因此在知识库网站或者其他资料网站难以抓取具体的病症词汇，所以我们用抓取的具有医疗数据的互联网数据集来提取病症词汇。

抽取病症词汇基于以下的一个事实：在患者对医生描述病情或者医生向患者阐述该病症状的过程中，患者和医生仅能用有限的词汇去描述描述，并且这些词汇多数是来自于口语，是属于常见的词汇。在得到的大数据的背景下，一般的症状词汇必然是会被重复提起，并且不同的病往往会依托于相同的症状。所以症状词汇必然是在问题答案集里面出现频率较高的词汇。

在对症状词语进行提取时，进行简单的分词提取出的症状词诸如“发烧”“发痒”等词汇实际上是对症状的不完整描述，而不是症状的精确描述，比如“浑身发痒”或者是“脚心发痒”才是症状的完整描述。因此不能仅仅依靠简单的分词，我们使用了N-gram的切词技术来提取症状词汇。针对中文的N-gram的分词技术，3-grams的效果是最好的，因此分别进行3-gram，2-gram，1-gram的切词。根据上文描述的前提，症状词汇必然是出现频率比较高的，所以对词汇的出现频率进行排序，然后选择排名在前的部分词汇即可作为属性词，然后与命名实体建立关联关系。

步骤4)量化信息，量化属性集合中属性词与命名实体之间的关联关系，使命名实体关联属性词集；具体为将不同命名实体对应的不同属性集合之间相同的部分进行整合并关联，建立不同属性集合之间的关联关系。

步骤5)建立知识地图，通过命名实体关联的属性词集之间的关系，建立命名实体与命名实体之间的拓扑结构，形成知识地图。知识库里面有三种词汇：疾病名字，药物名字，病症词汇。很容易就可以得到这三者的关系：病症词汇是个特定疾病的描述，特定的疾病能够被药物所医治，特定的药物能治愈所描述的病症。根据这样的关系，我们根据训练数据的问题答案来建立三者之间的关系。

我们基于这样的前提，在问题答案对里面同时出现的实体词词汇和实体词属性词汇是相关的，并且出现的频率越高，代表他们的相关度也越高。比如：

问题：脚底很痒长红点怎么办？

答案：可以用达克宁试试，可以治脚气。

在这个例子中，我们提取出了疾病实体词“脚气”。药物实体词“达克宁”，以及症状词汇“脚底很痒”和“长红点”。那么我们认为这三种词汇是有联系的，如达克宁可以治疗脚气，脚底很痒和长红点是疾病脚气的描述症状。

根据出现的频率越高，代表相关度越高的概念，我们采用同现频率来表示他们的关联度。假设两个词语W₁和W₂，在所有的训练样例中，词汇W₁出现的次数为N₁，词汇W₂出现的次数为N₂，而两个词汇同时出现的次数为F₁₂，那么计算同现频率的公式为：

根据同现频率的计算公式，我们得到一个类似的基于知识库的关系拓补结构，如图2所示，命名实体与命名实体或属性词之间均建立了关系，而这种关系的强弱则根据同现频率来表现。如疼和止痛膏的同现频率大于疼与胃炎的同现频率，那么疼和止痛膏的关系更加密切一些。

步骤6)更新，在固定周期内对拓补结构进行更新，包括以下过程：

其中b4步骤中每次更新时的新的命名实体与属性集合均与更新时知识地图中的命名实体与属性集合对比。并且b1、b2、b3和b5步骤均与创建时一致。

本发明可以对整个互联网中所有数据进行创建知识地图，其中节点来自于命名实体，命名实体间的关系来自于实体属性，通过建立属性间的关联关系，并用机器学习的方法，将建立实体与实体之间的关系和权重，最终建立知识地图，所以无需向特定的文档集或者关系数据库中抽取出特定方面的信息，适用范围更广。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于命名实体库的在线知识地图的生成方法，其特征在于：包括以下步骤：

步骤1：爬取网页，向整个互联网爬取网页信息，得到互联网数据集；

步骤2：抽取命名实体，对互联网数据集的内容进行识别和抽取，得到命名实体；

步骤3：寻找并建立集合，遍历步骤1中的互联网数据集，寻找命名实体与属性对，建立与命名实体相关的属性集合；

步骤4：量化信息，量化属性集合中属性词与命名实体之间的关联关系，使命名实体关联属性词集；

步骤5：建立知识地图，通过命名实体关联的属性词集之间的关系，建立命名实体与命名实体之间的拓扑结构，形成知识地图；

步骤6：更新，在设定周期内对拓扑结构进行更新；

所述步骤6包括以下过程：

(b5)量化信息，量化更新后的属性集合中属性词与命名实体之间的关联关系，使命名实体关联属性词集，完成更新。

2.根据权利要求1所述的基于命名实体库的在线知识地图的生成方法，特征在于：所述互联网数据集的内容包括结构化信息、半结构化与非结构化信息。

3.根据权利要求1所述的基于命名实体库的在线知识地图的生成方法，其特征在于：遍历所述步骤2中命名实体的判别是将互联网数据集的文档中的关键词所属结构作为分类标签进行多维度识别。

4.根据权利要求1所述的基于命名实体库的在线知识地图的生成方法，特征在于：所述步骤3包括以下过程：

5.根据权利要求1所述的基于命名实体库的在线知识地图的生成方法，其特征在于：所述步骤4的量化信息具体为将不同命名实体对应的不同属性集合之间相同的部分进行整合并关联，建立不同属性集合之间的关联关系。