CN102207946B

CN102207946B - 一种知识网络的半自动生成方法

Info

Publication number: CN102207946B
Application number: CN 201010212264
Authority: CN
Inventors: 陶鹏; 张旭成; 张伟伟; 杜嘉伟
Original assignee: TIANJIN HYLANDA INFORMATION TECHNOLOGY CO LTD
Current assignee: Tianjin mass information technology Limited by Share Ltd
Priority date: 2010-06-29
Filing date: 2010-06-29
Publication date: 2013-10-23
Anticipated expiration: 2030-06-29
Also published as: CN102207946A

Abstract

本发明公开了一种知识网络的半自动生成方法，包括如下步骤：(1)首先形成一个知识网络内核；(2)由单文本知识发现与抽取单元接收非结构化的文档，通过分词和命名实体识别技术，从非机构化文本数据中找到需要关注的知识点，并抽取出来；(3)在对多篇文档进行知识发现和抽取后，将新的知识放到相应位置上作为候选知识；(4)由知识网络运营平台将候选知识提交给相应的专家系统进行关联性判断，将判断为“是”的候选知识作为确认知识，判断为“否”的候选知识被舍弃。本知识网络半自动生成方法从一个小的知识网络内核开始，让计算机自动从互联网海量的数据中发现、抽取、组织知识，经专家系统进行确认后，能够迅速而有效地构造一个知识网络结构。

Description

一种知识网络的半自动生成方法

技术领域

本发明涉及一种面向海量文本数据的知识网络（KnowledgeNetwork）半自动生成方法，属于文本信息处理技术领域。

背景技术

文本是最基本、最常用的信息载体。随着互联网的日益普及，文本信息迅速膨胀。例如，在Internet上每天有数十万的网页更新，数百万新的网页加入，使得Internet上的信息丰富而又复杂。另一方面，新的知识不断出现（比如“甲型H1N1流感”），旧的知识不断消失（比如“随身听”），现存知识不断变更涵义（比如“俯卧撑”）。因此，如何有效地组织和管理这些信息，并快速、准确、全面地从中找到用户所需要的信息是当前文本信息处理领域面临的一大挑战。

知识发现的任务就是从海量的文本数据中发现应当被系统收集的知识，然后对收集到的知识进行结构化处理，以便于日后的查询、修改。在实践中，人们发现使用树形结构管理的知识网络，可以有效地将知识组织起来。

知识网络的概念最早由瑞典工业界在20世纪90年代中期提出。一般认为，知识网络是在概念网络的基础上添加了权值，从而定量地表示用户对知识节点之间关系的一种结构。其中，知识节点可以在现有的目录搜索引擎中提取，具有独立性、继承性、变异性、多维性等特点。在用户使用知识网络的过程中，可以根据某个知识节点的出现次数、用户的反馈信息来更新知识网络。当用户和系统多次交互后，这个知识网络就逼近于用户对某个词义的真实理解。关于知识网络的进一步介绍，可以参考赵蓉英的著作《知识网络及其应用》（北京图书馆出版社2007年8月出版，ISBN：9787501335299）。

在申请号为200710000966.5的中国发明专利申请中，提出了一种相关信息的发布方法和装置。该方法包括以下步骤：收集互联网中符合预置条件的网络文本；计算得到网络文本相应的文本特征参数；比对特征参数，依次完成网络文本的归类；发布相应的相关信息。该方法能够在用户不关心当前浏览文本关键词的情况下，发布最准确的相关信息，以及能够准确的将相关信息发布至终端用户的虚拟空间，以满足互联网相关信息发布的发展需要。

另外，在申请号为200810079685.8的中国发明专利申请中，提出了一种基于数据挖掘技术的文本多精度表示方法。它利用数据挖掘技术从海量文本中发现重要的文本特征信息，这些特征信息是多层次、多精度的。利用这些特征形成文本的精确表示，计算机基于这种精确的文本表示进行文本检索、聚类和分类等处理，能产生更佳的效果。

但是，上述的专利申请只能在一定程度上解决海量文本数据的结构化问题，并不具备直接生成知识网络的能力。目前，人们要想生成知识网络，必须依赖于人脑的智力判断，因此所需时间较长，工作效率较低。特别是在面对海量文本数据的情况下，单纯依赖人力来生成知识网络很难满足用户的实际需求。

发明内容

本发明所要解决的技术问题在于提供一种知识网络的半自动生成方法。利用该方法可以让计算机自动从海量文本数据中发现、抽取、组织知识，从而快速形成知识网络。

为实现上述的发明目的，本发明采用下述的技术方案：

一种知识网络的半自动生成方法，基于文本标引系统实现，所述文本标引系统中包括单文本知识发现与抽取单元、多文本知识关系提取与聚类单元、知识网络生成与修正单元、知识网络应用单元以及知识库存储单元；所述多文本知识关系提取与聚类单元包括针对语义网络的关系挖掘模块、采用聚类技术的知识间关系数据模块和采用贝叶斯分类模型的知识与类别词间关系数据模块，其中所述关系挖掘模块一方面连接所述单文本知识发现与抽取单元，另一方面分别连接所述知识间关系数据模块和所述知识与类别词间关系数据模块；所述知识网络生成与修正单元包括知识网络初始化模块、知识网络存储模块、知识网络操作模块和知识网络运营平台，其中知识网络初始化模块连接知识网络存储模块，该知识网络存储模块与知识网络操作模块进行双向的信息交互，知识网络运营平台与知识网络操作模块进行双向信息交互，所述知识网络生成与修正单元将知识体系转化为机器可读的数据结构，再通过知识网络操作模块对该知识体系进行读取、查询、创建和修改操作；所述知识网络操作模块一方面分别与所述多文本知识关系提取与聚类单元中的所述知识间关系数据模块和所述知识与类别词间关系数据模块相连接，另一方面连接所述知识库存储单元；所述知识库存储单元同时与单文本知识发现与抽取单元相连接；所述知识网络存储模块根据具体应用的需要，将相关的应用导出至所述知识网络应用单元；其包括如下步骤：

⑴首先形成一个知识网络内核；

⑵所述单文本知识发现与抽取单元接收非结构化的文档，通过分词和命名实体识别技术，从非机构化文本数据中找到需要关注的知识点，并抽取出来；

⑶在对多篇文档进行知识发现和抽取后，将新的知识放到相应位置上作为候选知识；

⑷知识网络生成与修正单元中的知识网络运营平台将候选知识提交给相应的专家系统进行关联性判断，将判断为“是”的候选知识作为确认知识，判断为“否”的候选知识被舍弃。

其中，在所述步骤⑴中，所述知识网络内核从半结构化的互联网数据中抽取获得或者由人工给出。

所述步骤⑶中，采取基于图论的聚类技术确定从文本中抽取的知识点的相互关系，并进一步通过多文本知识关系提取与聚类单元中的知识与类别词间关系数据模块对文本进行类别标记。

本发明所提供的知识网络半自动生成方法从一个小的知识网络内核开始，让计算机自动从互联网海量的数据中发现、抽取、组织知识，经专家系统进行确认后，能够迅速而有效地构造一个知识网络结构，从而使生成知识网络的过程摆脱了对人的智力判断的依赖。

附图说明

下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明中所使用的文本标引系统的逻辑框架示意图；

图2为现有知识体系的一个示例图；

图3为知识网络内核的一个示例图；

图4为采取基于图论的聚类技术所获得的一个实施例；

图5为图4所示的实施例对应的知识网络示意图。

具体实施方式

本发明的实施过程依赖于图1所示的文本标引系统。该文本标引系统中设置了单文本知识发现与抽取单元、多文本知识关系提取与聚类单元、知识网络生成与修正单元、知识网络应用单元以及知识库存储单元等。其中，单文本知识发现与抽取单元利用倒排文档频度的方法，对文本中识别的单词，包括分词结果、命名实体识别结果、新词识别结果，进行计算获得体现文本内容的知识点。多文本知识关系提取与聚类单元用于完成多文本词（即不同知识节点）之间的关系提取以及聚类等工作。该多文本知识关系提取与聚类单元包括针对语义网络（Semanticnetwork）的关系挖掘模块、采用聚类技术的知识间关系数据模块和采用贝叶斯（BAYES）分类模型的知识与TAG间关系数据模块，其中该关系挖掘模块一方面连接单文本知识发现与抽取单元，另一方面分别连接知识间关系数据模块和知识与TAG间关系数据模块。多文本知识关系提取与聚类单元主要是利用词同现获取每一个单词的同现词集，再通过同现词集的比较来评判两个词的相似性。知识网络生成与修正单元包括知识网络初始化模块、知识网络存储模块、知识网络操作模块和知识网络运营平台。其中，知识网络初始化模块连接知识网络存储模块，该知识网络存储模块与知识网络操作模块进行双向的信息交互。另外，知识网络运营平台也与知识网络操作模块进行双向信息交互。知识网络生成与修正单元利用从互联网上获得的知识体系，例如百度百科、互动百科等，直接转化为机器可读的数据结构，再通过知识网络操作模块对该知识体系进行读取、查询、创建、修改等操作。知识网络操作模块是知识网络生成与修正单元的核心组成部分，该知识网络操作模块一方面分别与多文本知识关系提取与聚类单元中的知识间关系数据模块和知识与TAG间关系数据模块相连接，另一方面连接前述的知识库存储单元。知识库存储单元同时与单文本知识发现与抽取单元相连接，用于提供分类用知识库。知识网络存储模块根据具体应用的需要，将相关的应用导出至知识网络应用单元。

在生成知识网络之前，首先需要进行初始化的工作，即从半结构化的互联网数据抽取或者人工给出从而形成一个小的知识网络内核，例如利用从互联网上获得的知识体系如百度百科、互动百科等（图2所示），

经过结构化处理可以得到图3所示的知识网络内核。

然后，上述的单文本知识发现与抽取单元接收非结构化的文档，通过分词和命名实体识别技术，从大量的非机构化文本数据找到需要关注的知识点（即与知识网络内核相关联的知识点），并抽取出来。例如下面有一篇介绍猪流感的文章，其中“甲型H1N1流感”就属于新的知识，其它的知识点也用下划线标示出来。

类似地，单文本知识发现与抽取单元还将对别的文档进行分词和命名实体识别工作。在这个过程中需要用到分词技术（可进一步参见黄昌宁的论文《中文信息处理的分词问题》，载于《语言文字应用》1997年第1期72～78页）、命名实体识别技术（可进一步参见863计划中文信息处理与智能人机接口技术评测组所著《2004年度863计划中文信息处理与智能人机交互技术评测：命名实体评测结果报告》）、命名实体消歧技术（可进一步参见刘非凡、赵军等人的论文《面向商务信息抽取的产品命名实体识别研究》，载于《中文信息学报》2006年第1期）等，在此就不详细赘述了。

在对多篇文档进行知识发现和抽取后，再经过以下两个步骤的计算，将新的知识放到对应的位置上作为候选知识。

i.获取知识间关系数据（聚类技术）：

此处采取基于图论的聚类技术（可进一步参见黄斯达等的论文《一种基于相似性度量的高维数据聚类算法的研究》，载于《计算机应用与软件》2009年第9期）确定从文本中抽取的知识点的相互关系，具体实现过程如图4所示的实施例。

在图4中，节点表示从文本中抽取的知识点，边表示两个知识相关，这一点可以通过卡方检验计算得到。所谓卡方检验是数理统计中一种常用的检验两个变量独立性的方法。其计算过程是，先假设两个变量独立，然后观察实际值与理论值的偏差程度，如果偏差足够小，就认为误差是偶然发生的，两者确实是独立的，此时就接受原假设；如果偏差大到一定程度，就认为两者实际上是相关的，即否定原假设，而接受备择假设。（可进一步可参见印鉴等的论文《基于χ2统计量的kNN文本分类算法》，载于《小型微型计算机系统》2007年第6期），在此就不详细赘述了。

利用现有的图聚类算法，图4拆解后的结果是：

·甲型H1N1流感\药监局\非典型肺炎\猪流感\鼠疫

·上海药监局\北京药监局\中国卫生部\药监局

·环丙沙星\淋巴结炎\鼠疫

ii.利用基于BAYES分类模型的知识与TAG间关系数据模块，上例中的文本可以通过分类模型标记为“科学→医疗→病毒”，相应的该文本中的知识也都将被标记为同样的类别：

·科学→医疗→病毒→猪流感

·科学→医疗→病毒→鼠疫

·科学→医疗→病毒→非典型肺炎

图1所示的文本标引系统是一个基于知识树的具有层级关系的概率模型，模型的推导是通过已知的叶子的词，推导出概率最大的节点，该节点就是TAG（类别词）。本发明利用EM（期望最大化）算法，通过大批未标注文本的统计分析不断优化TAG与关键词的统计概率模型，从而使得TAG与内容关键词的标引概率最大化。

具体而言，首先定义一个新闻树形分类体系（m叉树，且m没有具体限制），其中的根节点为虚拟节点，下面一层子节点描述各个大的分类，各个分类节点的下面一层描述更加细致的分类。我们将这些节点的集合命名为节点集，文本如果符合某个节点的分类要求且被标注上了该节点的节点号，则该标注的节点称为该文本的TAG。那么通常情况下，在文本d下，产生TAG标注的可能性则可以描述为P(T|d,μ)；在本发明中，文本通常是由内容关键词W代表的，所以可以转换为P(T|W,μ)。内容关键词W被假设为相互独立的，且通过维护一个新词词表和利用分词以及命名实体识别来从原文中获得。通常情况下，只要μ已知，那么通过Naive Bayes方法就可以计算出文本的TAG标注T。

然而实际情况是μ未知，所以需要通过EM算法进行迭代来近似得到μ。有效的EM算法依赖于较好的初始化参数，因此本发明使用大量的网络上开源的知识和文本信息进行统计得到一个有层级关系的TAG列表以及初始模型μ，通过迭代直到在新的模型μ'下，使P(T|W,μ)的概率达到最大。例如根据已有的知识，我们知道“股市崩盘”通常是“金融危机”的一种表现形式，那么凡是文本关键词出现了“股市崩盘”，则可以比较有把握地认为该文本与“金融危机”相关。那么同时与“股市崩盘”出现的内容关键词也必然与“金融危机”有一定的关联，例如“次贷危机”。随着大量文本的统计，最终可以认为“次贷危机”与“金融危机”息息相关，则“次贷危机”也能够较好地支持文本的“金融危机”TAG的标注。

由于文本在标注上不但包括原有的内容关键词，还包括推理得到的TAG，则文本的标注将不但照顾细节的准确性（内容关键词），也照顾到了宏观的概括性。

在知识网络初步生成之后，需要判断每一个知识点所在的网络位置。举例来说，当一个新知识“甲型H1N1流感”出现的时候，通过聚类算法“甲型H1N1流感”与“非典型肺炎”、“猪流感”、“鼠疫”等被聚类在一起，同时这些知识都具有相同的类别标记“科学→医疗→病毒”，于是“甲型H1N1流感”将被放置到知识网络的“科学→医疗→病毒”下，成为候选知识（未确认知识），如图5所示。其中图5中的虚线表示新加入的候选知识，实线表示确认知识。

在知识添加的最后一步，知识网络运营平台将之前过程中收集并放置好的候选知识，提交给相应的专家系统进行关联性判断，判断为“是”的候选知识将作为确认知识，而判断为“否”的候选知识将被舍弃。例如，“甲型H1N1流感”将被提交给医疗领域的专家系统进行判断，最终从“候选知识”升级为“确认知识”。由此，一个包含新知识“甲型H1N1流感”的知识网络就自动生成了。需要说明的是，此处不使用成本较高的专家系统而只使用人工进行判断也是可行的。

以上对本发明所提供的知识网络的半自动生成方法进行了详细的说明。对本领域的技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种知识网络的半自动生成方法，基于文本标引系统实现，所述文本标引系统中包括单文本知识发现与抽取单元、多文本知识关系提取与聚类单元、知识网络生成与修正单元、知识网络应用单元以及知识库存储单元；所述多文本知识关系提取与聚类单元包括针对语义网络的关系挖掘模块、采用聚类技术的知识间关系数据模块和采用贝叶斯分类模型的知识与类别词间关系数据模块，其中所述关系挖掘模块一方面连接所述单文本知识发现与抽取单元，另一方面分别连接所述知识间关系数据模块和所述知识与类别词间关系数据模块；所述知识网络生成与修正单元包括知识网络初始化模块、知识网络存储模块、知识网络操作模块和知识网络运营平台，其中知识网络初始化模块连接知识网络存储模块，该知识网络存储模块与知识网络操作模块进行双向的信息交互，知识网络运营平台与知识网络操作模块进行双向信息交互，所述知识网络生成与修正单元将知识体系转化为机器可读的数据结构，再通过知识网络操作模块对该知识体系进行读取、查询、创建和修改操作；所述知识网络操作模块一方面分别与所述多文本知识关系提取与聚类单元中的所述知识间关系数据模块和所述知识与类别词间关系数据模块相连接，另一方面连接所述知识库存储单元；所述知识库存储单元同时与单文本知识发现与抽取单元相连接；所述知识网络存储模块根据具体应用的需要，将相关的应用导出至所述知识网络应用单元；其特征在于：

⑴首先形成一个知识网络内核；

2.如权利要求1所述的知识网络的半自动生成方法，其特征在于：

所述步骤⑴中，所述知识网络内核从半结构化的互联网数据中抽取获得。

3.如权利要求1所述的知识网络的半自动生成方法，其特征在于：

所述步骤⑴中，所述知识网络内核由人工给出。

4.如权利要求1所述的知识网络的半自动生成方法，其特征在于：

所述步骤⑶中，采取基于图论的聚类技术确定从文本中抽取的知识点的相互关系。

5.如权利要求4所述的知识网络的半自动生成方法，其特征在于：

所述步骤⑶中，进一步通过多文本知识关系提取与聚类单元中的知识与类别词间关系数据模块对文本进行类别标记。

6.如权利要求5所述的知识网络的半自动生成方法，其特征在于：

利用期望最大化算法，通过大批未标注文本的统计得到一个有层级关系的类别词列表以及初始模型μ，通过迭代直到在新的模型μ'下，使P(T|W,μ)的概率达到最大；所述P(T|W,μ)表示在由内容关键词W代表的文本中，产生类别词标注T的可能性。

7.如权利要求1所述的知识网络的半自动生成方法，其特征在于：

所述单文本知识发现与抽取单元利用倒排文档频度的方法获得体现文本内容的知识点。